JP2008071303A - ネットワークサービスシステム、ネットワークサーバ、ネットワーク処理方法、プログラムおよび記録媒体 - Google Patents

ネットワークサービスシステム、ネットワークサーバ、ネットワーク処理方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP2008071303A
JP2008071303A JP2006251762A JP2006251762A JP2008071303A JP 2008071303 A JP2008071303 A JP 2008071303A JP 2006251762 A JP2006251762 A JP 2006251762A JP 2006251762 A JP2006251762 A JP 2006251762A JP 2008071303 A JP2008071303 A JP 2008071303A
Authority
JP
Japan
Prior art keywords
user
information
content
network
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006251762A
Other languages
English (en)
Inventor
Hirohisa Inamoto
浩久 稲本
Koji Kobayashi
幸二 小林
Yukiko Yamazaki
由希子 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006251762A priority Critical patent/JP2008071303A/ja
Publication of JP2008071303A publication Critical patent/JP2008071303A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ユーザが手作業によりウェッブ上のコンテンツに対して情報を付加するモチベイションを保ちつつ、ユーザが、より簡便に要求するコンテンツにアクセスできる。
【解決手段】検索を行う場合(ステップ2)、文字列を入力する。表示部には、入力したワードに応じたウェッブページのリスト(登録されたユーザ間の類似度に基づき提示されるリストと、ユーザが過去にタグ情報を付加したページ群から、自動的に探索されるリスト)が表示される。ユーザは表示されたページのリストを閲覧し(ステップ4)、目的の情報のウェッブページを探す。興味を引くページが存在した場合(ステップ5)は、ユーザはページに関連するキーワード(タグ)を入力(ステップ6)し、付加したタグ情報をサービスに提出(ステップ7)する。
【選択図】図1

Description

本発明は、ウェッブ上のコンテンツを検索するネットワーク上のサービスシステムに関する。
近年、ユーザ参加型のWebサービスが増加している。これまでに存在したWebサービスは、サービスの提供者とサービスの享受者の境界が明確で、所謂単方向のサービスであった。しかし、ユーザ参加型のWebサービスには、必ずしもサービスの享受者、提供者の明確な境界はない。この様なWebサービスの代表例としては、Flickr(非特許文献1を参照)がある。Flickrでは、各ユーザが閲覧した画像に様々なタグ情報を付加し、他のユーザが該画像を探す際の手助けをする。また、他の例としてはdel.isio.us(非特許文献2を参照)がある。del.icio.usでは各ユーザの付けたブックマーク情報を共有し、検索時には、ブックマークされた数が多いウェッブページを注目ページとして提示する。
これまでの単方向のサービスでも、掲示板などでユーザ同士がやりとりし、情報を共有するといったサービスが存在したが、他のユーザによって提供された情報を、各ユーザが整理する必要があり、非常に手間のかかる作業であった。一方、前記例に挙げたようなサービスでは情報の整理がコンピュータにより代行されるので、ユーザの負荷を著しく軽減できる点が特筆すべき点である。
一方で、上記に挙げた様なサービスに於いて、様々な問題点が指摘されつつある。例えば、Flickrの様なコンテンツへ付けられたタグ情報を共有するサービスに於いてユーザがタグ付けを行うか否かは、ユーザの善意に強く依存する点が挙げられる。Flickrの様なサービスに於いて、タグ情報の付加は、サービスが稼働するためには不可欠な行為であるにもかかわらず、ユーザにとっては、直接的には何の利益ももたらさない行為であるため、善意の無いユーザはサービスを利用するだけで、自らは他のユーザへ貢献しないと言うことが問題となっている。このようなサービスに対して貢献をしないユーザの発生は、タグ付けを行っている善意のユーザのモチベイションを著しく損なう結果となる可能性もある。
また、del.icio.usの様なブックマークのランキング公開サービスに於いては、情報の偏りが問題となる。一般に、多くのユーザから閲覧されブックマーキングされるようなコンテンツは、多くの人間にとって価値の高いものが多い。その点でdel.icio.usの思想は有効に機能すると思われる。しかし、一度ランキングの上位に来たコンテンツには多くの人が集まり、更に多くの人にブックマーキングされることにより、更にランキングが上昇する。実は、同様の内容に触れたコンテンツであって、より価値の高いものが存在したとしても、既に注目されたコンテンツが存在すると日の目を見ない可能性がある。更に言えば、大多数のユーザにとって有益なコンテンツが自分にとっても有益だとは限らない。また、ユーザによってコンテンツに要求する情報の深さは様々であり、特に学術性の高いコンテンツでは、その傾向が顕著である。del.icio.usの様なサービスでは一部のニッチなユーザのニーズには応えられず、ユーザの要求する深さを指定することも不可能である。これに対し、特許文献1では、事前にユーザが自分の興味を登録しておき、ユーザ間の興味の距離を算出することによって、興味の近いユーザの注目しているコンテンツ情報を得ることができる。これにより、自分の思想、好みに合致したユーザの情報を得ることが可能となるため、上記のようなニッチなニーズには対応できる。
http://www.flickr.com/ http://del.icio.us/ http://chasen.naist.jp/hiki/ChaSen/ C.Cortes and V.N.Vapnik,"Support vector Networks,"Machine Learning,vol.20,pp.273−297,1995 特開平11−003356号公報
しかし、上記した方式においてもユーザにとっては、自分が持っている情報を提示する必要が無い点で、前述のFlickrと同様、善意に依存したサービスで有ると言える。また、興味といった具体性の強い内容を登録しておいても、前述したような、要求する深さの様な曖昧な情報をくみ取ることは不可能である。
本発明は上記した問題点に鑑みてなされたものであり、
本発明の目的は、ユーザが手作業によりウェッブ上のコンテンツに対して情報を付加するモチベイションを保ちつつ、ユーザが、より簡便に要求するコンテンツにアクセスできるシステムを提供することにある。
本発明は、ユーザがネットワーク上のコンテンツに第一の情報を付加する付加手段と、付加された第一の情報およびネットワーク上のコンテンツを対にしてユーザ毎に保持する情報保持手段と、前記情報保持手段に保持される情報に基づいてユーザ間の類似度を算出する第一の類似度算出手段とを有することを最も主要な特徴とする。
請求項1、2:他のユーザがコンテンツに情報を付加することにより、必要とする情報に簡便にアクセスすることができる。情報を付加するユーザによっても、情報を付加することにより、自分の嗜好や知識レベルなどをシステムに学習させることが可能で有り、また、継続的な情報の付加はユーザの嗜好や知識レベルの変化を反映させることができるため、情報を付加することに対してモチベイションを保つことができる。
請求項3:システムはユーザの付加した情報に応じて、同様のコンテンツを自動で収集するため、付加されている情報が少ない初期状態でもユーザに満足度を与えることができる。
請求項4:ユーザにとって最も信頼性が高い情報は、他のユーザによって付加された情報である。システムが自動で収集した情報と他のユーザによって付加された情報を明確に切り分けることによってユーザは、より信頼性の高い情報を優先的に得ることができる。
請求項5:付加する情報の表記の揺れが発生する可能性をシステムが自動的に明示することにより、システムに保持される情報の表記揺れが少なくなり、ユーザの利便性が向上する。
請求項6、7:ユーザの付加する情報の重みが経時的に軽くなることにより、ユーザの嗜好や知識レベルの変化をシステムに反映させることができ、ユーザの利便性が向上する。
請求項8:特定種のコンテンツに、特定種の情報が付きやすくすることで、付加される情報種の偏りを発生させることができ、類似度計算の精度が向上する。
請求項9:ユーザは自分に近いユーザの付加した情報を優先的に得ることができるため、必要とするコンテンツに迅速に到達することができ、利便性が向上する。
請求項10:ユーザは自分とは異なる感性を持ったユーザの情報を優先的に得ることができるため、ユーザの好奇心を満たすことができ、ユーザのサービスに対する満足度が向上する。
以下、発明の実施の形態について図面により詳細に説明する。本発明の好適な実施例について、一台のサーバを用いて成されるウェッブサービスを例に挙げて説明する。前提として、本ウェッブサービスは、ユーザがワード入力により、ウェッブページを検索できるサービスであるものとする。
図1は、本発明におけるユーザの操作をフローチャートで示したものであり、図2はウェッブブラウザを用いて、該サービスを利用する際の表示画面を示している。本表示画面はフレームとフォームを用いて作成されるので、特殊なウェッブブラウザは必要ない。また、本実施例に於いては、操作を行っているユーザをユーザ甲、その他の不特定なユーザをユーザ乙として説明する。
まず、ユーザ甲はサービスを利用するために、ユーザIDとパスワードを入力し、サーバに提出する。サーバ側ではユーザ甲が登録されたユーザで有ることを確認して、ユーザ甲へログイン完了通知を出し、ログインが完了する(ステップ001)。検索を行わない場合(ステップ002)には、ログオフし(ステップ010)操作は完了する。
一方、検索を行う場合(ステップ002)には、図2の操作部内の検索ワード入力領域に文字列を入力し、その右隣に有るボタンをクリックする(ステップ003)。
検索動作を行うと、図2の表示部には、ユーザ甲が検索ワード入力領域に入力したワードに応じたウェッブページのリストが表示される。ここで表示されるウェッブページのリストについては、後に詳述する。ユーザ甲は表示されたウェッブページのリストを閲覧し(ステップ004)、目的の情報が記載されているウェッブページを探す。
興味を引くウェッブページが存在しなければ(ステップ002)に戻る。興味を引くウェッブページが存在した場合(ステップ005)には、ユーザ甲は、図2の操作部のタグ情報入力部に、該ウェッブページに関連するキーワード(以降タグと呼ぶ)を記載(ステップ006)し、タグ情報入力部右下のボタンを押して、付加したタグ情報をサービスに提出(ステップ007)する。
ここでサービスを提供するサーバは、内部に保持する辞書データを基に、特定ワードが存在しているか否かをチェックする。特定ワードとは、例えば「ユーザー」と「ユーザ」等と言った、どちらも正しく同じものを表現しているワードや、人名の間違いとして頻発するワード等を指す。このような表記の揺れ、間違いにより一つの意味に複数のワードがタグとして付加されると、同じ言葉を入力するために、複数のワードを入力する必要が生じるため、検索性が著しく低下する。特定ワードが存在しなかった場合(ステップ008)は、そのまま次のステップに進むが、特定ワードが存在する場合(ステップ008)には修正候補を提示し、修正を促す画面が図2の操作部に表示される。ユーザ甲は表示された修正候補を確認し、場合によっては自分の付けたタグ情報を修正する(ステップ009)。
次に、サーバ側ではユーザ甲がタグ情報を付けたページを解析し、特定種のページであるか否かを判定する。尚、ここでは特定種のページとは学術性の高いページを指すものとする。該ページが特定種のウェッブページでなかった場合(ステップ010)は、図2の操作部に登録の確認を表示し、一定時間たった後、元の表示に戻る(ステップ012)。一方、特定種のページであった場合(ステップ010)、図2の操作部で、ユーザ甲に特定種のタグを付けることを促す。ここで言う特定種のタグとは、例えば「難しい」「丁度良い」、「優しい」等である。提示された特定種のタグを確認し(ステップ011)、場合によってはユーザ甲が更にタグ情報を追加する。ここで提示されるタグは、リストボックス上に並んでおり、ユーザ甲はそれを選択するだけになっているとなお良い。尚、特定種ページで有るか否かの判定手段については後に詳述する。
ユーザ甲の確認・修正(ステップ011)後も前記と同様に登録の確認(ステップ012)がなされる。ユーザ甲の登録したタグ情報は、ユーザID、ユーザ甲がタグ情報を付加したウェッブページのアドレス、タグ付けを行った日付とともに、サーバ側に保存される。
検索方法:
以下、本フローチャートにおける検索(ステップ003)において、ユーザに提示されるウェッブページのリスト提示方法について説明する。図3に示すように、本実施例に於いてはユーザへ提示されるウェッブページのリストには2種類存在する。即ち、第一の検索手段100により得られる、登録されたユーザ間の類似度に基づき提示されるリスト(第一の出力)と、第二の検索手段101により得られる、ユーザが過去にタグ情報を付加したページ群から、サーバにより自動的に探索されるリスト(第二の出力)である。まず、第一の検索手段100について述べる。
第一の検索手段100は図4に示すように、類似度DB200に保持されたユーザ間の類似度に基づいてリスト作成手段201がリストを作成する。そのため、まず類似度DBの作成方法について述べる。図5は類似度DBの作成方法を示す。ワードヒストグラム作成手段300では、類似度算出のために特徴量としてはワードヒストグラムを作成する。図6はワードヒストグラム算出方法を図示したものである。ヒストグラムを作成するために、事前にタグとして用いられそうなN個のワードリスト402を作成しておく。ユーザ乙がウェッブページに付加したタグリスト401に含まれるワードを個々にカウントすることで、ワードヒストグラムが作成される。このとき、カウントは、日付リスト400に含まれる、タグが付けられた日付からの経過日に応じて重み付けされるものとする。なお、経過日と重みとの関係を図7に示す。図7から明らかなように、タグ情報を付加した時から、時間が経過する程、タグリストに含まれるタグ情報の重みが小さくなる。こうすることで時間経過とともに変化するユーザ乙の興味や、知識の深さといった情報に柔軟に対応することができる。以上のように作成されたワードヒストグラムは、N次元のベクトルと考えられ(以下、ユーザ特徴量ベクトルと呼ぶ)、ベクトル間の距離を算出することでユーザ乙の類似度が算出できる。
本実施例では類似度判定手段301においてベクトル間距離の算出方法として、相関係数を算出するものとする。相関係数は二つのユーザ特徴量ベクトルをx1,x2とすると相関係数Rは式1によって算出することができる。
Figure 2008071303
相関係数は二つのベクトルの内積をそれぞれのベクトルの長さで除したものである。つまり、その値は二つのベクトルの成す角であるということができる。ここで、ベクトルの長さは必然的にユーザ乙が最近ウェッブページに付加したタグの数に応じて長くなる。つまり、ユーザ乙がシステムを使い込んでいるか否かのみでも、ベクトルは大きく異なることになる。相関距離を用いてユーザ間距離を算出することで、システムの使い込みに依存しないユーザ間距離を算出することができる。以上の動作を全てのユーザ間で行ってサーバに保持しておく。また、このユーザ間距離は定期的に、例えば一ヶ月おきに更新されるものとする。以上の様に作成されたユーザ間類似度を類似度DB200に保持しておく。
次に、図4における、リスト作成手段201の処理方法であるが、これはユーザ甲の操作によって全く逆の処理を行う。ユーザ甲は検索の前に図2の操作部内の出力選択部によって、類似したユーザ乙の情報に基づいて検索を行いたいか、類似しないユーザ乙の情報に基づいて検索したいかを選択するものとする。ユーザ甲が、類似したユーザ情報に基づいて検索を行いたいとき、サーバは類似するユーザ乙が過去にタグ付けしたものの中で、図2の操作部内の検索ワード入力領域に入力された文字列を含むウェッブページをウェッブページのリストとして提示する。尚、リストの順番はユーザ甲との類似度の高いユーザ乙がタグ付けを行った順に並べるものとする。
一方、ユーザ甲が類似しないユーザ乙の情報に基づいて検索を行うと選択したとき、サーバは、過去にユーザ甲と同じページにタグ付けをしているユーザ甲との類似度が低いユーザが過去にタグ付けしたものの中で、図2の操作部内の検索ワード入力領域に入力された文字列を含むウェッブページをウェッブページのリストとして提示する。尚、リストの順番はユーザ甲との類似度が低いユーザ乙がタグ付けを行った順に並べるものとする。以上の様にユーザ甲の操作によって全く反対の処理が成される理由は以下の通りである。もし検索したいものが、学術的な内容のウェッブページである場合、ユーザは自分と知識レベルの近いユーザが丁度良い難易度であると感じたウェッブページを検索すると、効率が良い。一方、アイデアを出したい時には、自分と同じ立場で有りながら、全く異なる発想をしている人間がどのようなウェッブページに興味を抱いたかを知ることは非常に有用である。このように、自分とどのような類似関係に有る人間の興味を抱いたウェッブページが有効かは、状況に応じて変化し、上記の様な構成にすることで、この変化に対応できる。
次に、第二の検索手段101を説明する。ここで作成するリストはウェッブからランダムに抽出したM個のウェッブページの特徴量と、ユーザが過去にタグ情報を付加したウェッブページの特徴量を比較し、類似度が高いものから順番にリストアップするものとする。まず、日本語を単語に切り出す手段としては茶筅( 非特許文献3を参照)のようなソフトを用いればよい。
また、ここで言う特徴量として、本実施例はtf・idf方式を用いるものとする。tf・idf方式とはTerm Frequency・Inverse Document Frequency方式の略であり、文書における、特定のワードの重要性を算出する方法である。tfは文書に含まれるワードのドキュメント毎のヒストグラムであり、tf=f(t)と表せる。このままでも文書中に出現するワードの頻度分布なので、ある程度文書におけるワードの重要性が判るが、例えば助詞や代名詞といった一般的なワードの重要性が高くなってしまう。そこでidfを用いて正規化する。idfは登録文書数M、ワードtを用いて式2の様に表すことができる。
Figure 2008071303
尚、df(t)は一回以上ワードtが出現する文書の数である。つまり、どの文書にも出現するワードは重みが小さくなり、特定の文書にのみしか出現しないワードは重みが大きくなることで前記問題を解決している。最終的に式3のようにdfとidfを乗ずることによって、特徴量ベクトルw(t)が得られる。
Figure 2008071303
ウェッブページ毎に特徴量ベクトルw(t)を算出し、ユーザ甲が既にタグ情報を付加したウェッブページのw(t)の平均との相関を取る。相関の高いものから順に並べることで上記のようなリストが作成される。
以上の様にリストを作成する理由は二つある。まず一つに、ウェッブサービス開始時のユーザの少なさを解消するためである。また、もう一つの理由はサーバに蓄積されるウェッブページの量を増加させるためである。こうしないと、ユーザ乙は既にサーバに登録された情報に、タグ情報を付加するのみになるため情報が極端に偏ることになる。また、本実施例ではtf・idf方式を用いて検索を行ったが、サーバに登録されたウェッブページ以外のウェッブページが得られれば、どのような検索方法であっても構わない。勿論、外部ウェッブサービスに頼っても問題ない。尚、上記に種類のリストを作成する意図が異なるため、リストを混在させて表示するとユーザの混乱を招きかねない。そこで、例えば、図2の表示部をフレームにより、図8の様に更に二つに分割し、上記二種類のリストを別々に表示すると、ユーザの混乱を避けることができる。
特定ワードの存在判定方法:
次に、図1のステップ008で説明した、特定ワードが存在するか否かを判定する方法について図9を用いて述べる。まずサーバには事前に作成した表記の特定ワードが辞書501として登録されている。キーワード比較手段502において、ユーザ甲がウェッブページに付加したタグリスト500が前記辞書501に存在するか否かを判定する。もし辞書501中にタグリストに含まれるワードと類似するワードが存在する場合、第一の提示手段503により、図2の操作部に正しい、若しくは好ましいワードへの変換を行っても良いかを提示する。もし、非類似ならばそのまま図1のフローチャートを進行させる。
特定種ページ判定方法:
次に、図1のステップ010において特定種のページか否かを判断する手段について説明する。図10は特定種ページ判定手段の処理の流れを示したものである。まず、ユーザ甲がタグ情報を付加したHTMLの内容600を取得する。キーワード抽出手段601は前記第二の検索手段101と同様にHTMLの内容をワードに分解する。次に特徴量算出手段602でも前記第二の検索手段101と同様にtf・idf方式による特徴量ベクトルW(t)を作成する。作成したW(t)を、事前に学習させておいた識別手段603に入力し、もしHTMLの内容600が学術的ならばYesを学術的でないならNoを出力する。識別手段603の出力がyesならば、第二の提示手段604により、図2の操作部へHTMLの内容が難しいか、丁度良いか、簡単かを付加するように提示して終了する。識別手段603の出力がNoなら、そのまま図1のフローチャートを進行させる。
ここで、本実施例では識別手段としてサポートベクタマシン(SVM)を用いた。SVMは式4に従って二値的な識別を行うアルゴリズムである。
Figure 2008071303
ここで、sign(x)は線形識別関数と呼ばれる関数で、x>=0ならば出力は+1、x<0ならば出力は−1となる関数である。式4から明らかなように、本実施例ではxが特徴量ベクトルW(t)に相当し、特徴量ベクトルと重みベクトルωの内積を取り、閾値hを超えているかで識別を行う。因みにSVMにおける学習とは、式4においてωとhを決定することに他ならず、事前に多数の学術的なHTMLおよび学術的でないHTMLを用意しておいて、それぞれに関して特徴量ベクトルを算出し、SVMに学習させる。
ここで、SVMの学習についての詳細な説明は非特許文献4に譲るが、その概要は以下で説明する。図11はSVMの動作の概要を示したものである。まず前提条件として、図の左に示すように○×で表される二つの種類のベクトル群が存在するものとする。SVMはこれら二つのクラスを最適に分離するための超平面(図の右参照)を決定するためのアルゴリズムといえる。SVMにおいて、二つのベクトル群を最適に分割するとは、未知のベクトルが入力されたときの対応能力、つまり汎化能力を最大とするということと等価である。これを実現するために、二つのベクトル群の境界位置に存在するベクトル(Support Vector)を見つけて、Support Vectorと超平面との距離が最大となるように超平面を設定する。ここで、実動作上、間違いの教師データも存在するため、間違いの許容量(ソフトマージン)を設定するパラメータを決める必要がある。以上は、線形SVMについての説明であるが、実際の教師データは線形判別できるベクトル群とは限らない。しかし、特徴量ベクトルを、より高次の空間に射影し(カーネルトリック)、その空間上で超平面を求めることで、非線形な問題にも対応できる。
以上を実現するには、結果的に、教師データ(xi,yi)を用いて式5の条件下で式6を最大化するラグランジェ乗数ベクトルαiを求めることになる。
Figure 2008071303
Figure 2008071303
その後、ラグランジェ乗数ベクトルの要素のうち0でない要素に対応する教師データ群S(これがサポートベクタとなる)と、そのうちの任意の一つの教師データ(x0,y0)を用いて超平面のパラメータω,hを求める(式7,8)。
Figure 2008071303
Figure 2008071303
尚、上記式6に於いてK(x,y)はカーネルトリックを実現するためのカーネル関数を示す。カーネル関数には様々なものが考案されているが、今回の実施例ではRadial Basis Function(RBF)を用いた。RBFは式9で示される関数でCは任意の数字である。
Figure 2008071303
以上述べたように、SVMを用いて学習を行うにはソフトマージンの許容量を設定するパラメータγとカーネル関数であるRBFを決定するためのCを設定する必要があるが、今回の実施例では、γ=1,C=1000を用いた。
本実施例は一台のサーバを用いてサービスの提供を行っているが、勿論、複数台のサーバを用いても、なんら問題はない。また、本実施例ではユーザ間距離を算出するために相関係数を用いたが、ユークリッド距離で求めても良いし、マハラノビス距離等を用いても良い。更に、本実施例ではユーザの検索対象がウェッブページであったが、本発明はこれに限定されず、例えば、文書の特徴量の代わりに画像の特徴量、即ち、テクスチャ情報や、エッジ情報、代表色情報などを用いれば、画像間の距離を算出することは容易であり、当然ながら本発明を画像検索に用いることも十分容易である。
また、本発明は、前述した実施例の処理手順や機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムに供給し、そのシステムのコンピュータ(CPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施例の処理手順や機能を実現することになる。プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。また、コンピュータが読出したプログラムコードを実行することにより、前述した実施例の処理手順が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
以上、述べたように、本実施例で説明したウェッブサービスに於いて、特定のキーワードで検索を行う際に、自らの興味や知識レベルに応じ、他のユーザのタグ付けした情報に基づいて、サービスが最適なウェッブページを提案してくれる。しかし、自らの興味や知識レベルをウェッブサービスに学習させるためには、ユーザが様々なページに対してタグ情報を付加しなければならない。逆に言えば、タグ付けを行うことによってユーザは自らにとって最適な提案を行ってくれるエージェントを育てることになり、この行為は更にウェッブサービスのサービスの向上に繋がる。そのため、本発明を用いれば、従来技術で述べたような、ユーザが手作業によりウェッブ上のコンテンツに対して情報を付加するモチベイションを保ちつつ、ユーザが、より簡便に要求するコンテンツにアクセスできるシステムを提供することができる。
本発明に係るユーザの操作フローチャートを示す。 ウェッブサービスを利用する際の表示画面を示す。 本発明の検索方法を説明する図である。 第一の検索手段を説明する図である。 類似度DBの作成方法を説明する図である。 ワードヒストグラム算出方法を説明する図である。 経過日と重みとの関係を示す。 2種類のリストを別々に表示する例を示す。 特定ワードの存在判定方法を説明する図である。 特定種のページ判定方法を説明する図である。 サポートベクタマシンの動作概要を説明する図である。
符号の説明
100 第一の検索手段
101 第二の検索手段
200 類似度DB
201 リスト作成手段
300 ワードヒストグラム作成手段
301 類似度判定手段
400 日付リスト
401、500 タグリスト
402 ワードリスト
403 重み算出手段
404 カウント手段
501 辞書
502 キーワード比較手段
503 第一の提示手段
600 HTML
601 キーワード抽出手段
602 特徴量算出手段
603 識別手段
604 第二の提示手段

Claims (14)

  1. ユーザがネットワーク上のコンテンツに第一の情報を付加する付加手段と、付加された第一の情報およびネットワーク上のコンテンツを対にしてユーザ毎に保持する情報保持手段と、前記情報保持手段に保持される情報に基づいてユーザ間の類似度を算出する第一の類似度算出手段とを有することを特徴とするネットワークサービスシステム。
  2. 前記ユーザがコンテンツを検索する際に、前記第一の類似度算出手段により算出された他のユーザとの類似度に基づいて、ユーザに最適なコンテンツを提示することを特徴とする請求項1記載のネットワークサービスシステム。
  3. 特定のコンテンツよりキーワードを抽出する抽出手段と、前記抽出されたキーワードをウェッブ上で検索する検索手段と、前記検索されたキーワードを含むコンテンツの特徴を算出する特徴算出手段と、前記特徴に応じて、コンテンツ間の類似度を算出する第二の類似度算出手段を具備し、ユーザが既に情報を付加したコンテンツから類似度の高いコンテンツを自動的にウェッブ上から検索してユーザに提示することを特徴とする請求項1記載のネットワークサービスシステム。
  4. 前記第一の類似度算出手段により得られたコンテンツと第二の類似度算出手段により得られたコンテンツとを、明確に切り分けて提示することを特徴とする請求項1、2または3記載のネットワークサービスシステム。
  5. 前記ユーザが、既に登録されている単語と類似した単語を付加しようとした場合に、その旨を提示する提示手段を備えることを特徴とする請求項1記載のネットワークサービスシステム。
  6. 前記第一の類似度算出手段は、ユーザの付加した情報に対して重み付けを行う重み付け手段を有することを特徴とする請求項1、2または4記載のネットワークサービスシステム。
  7. 前記重み付け手段は、時間とともにユーザの付加した情報の重みを小さくすることを特徴とする請求項6記載のネットワークサービスシステム。
  8. 更に特定種のコンテンツ情報を保持しておき、新たに情報を付加されるコンテンツが入力された際、該コンテンツの特徴と前記既存の特徴とを比較して、両者が十分に近いと判断された場合は特定のキーワードの付加を求めることを特徴とする請求項3記載のネットワークサービスシステム。
  9. 前記類似度が高いユーザが情報を付加したコンテンツを優先的に提示することを特徴とすることを特徴とする請求項2記載のネットワークサービスシステム。
  10. 同じ若しくは類似コンテンツに対して、異なる情報を付加したユーザの付加した情報を優先的に提示することを特徴とする請求項2または3記載のネットワークサービスシステム。
  11. 請求項1乃至10のいずれか1項に記載の各手段を具備したことを特徴とするネットワークサーバ。
  12. ユーザがネットワーク上のコンテンツに第一の情報を付加するステップと、付加された第一の情報およびネットワーク上のコンテンツを対にしてユーザ毎に保持するステップと、前記保持される情報に基づいてユーザ間の類似度を算出するステップとを有することを特徴とするネットワーク処理方法。
  13. 請求項1乃至10のいずれか1項に記載の各手段をコンピュータに実現させるためのプログラム。
  14. 請求項1乃至10のいずれか1項に記載の各手段をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006251762A 2006-09-15 2006-09-15 ネットワークサービスシステム、ネットワークサーバ、ネットワーク処理方法、プログラムおよび記録媒体 Pending JP2008071303A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006251762A JP2008071303A (ja) 2006-09-15 2006-09-15 ネットワークサービスシステム、ネットワークサーバ、ネットワーク処理方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006251762A JP2008071303A (ja) 2006-09-15 2006-09-15 ネットワークサービスシステム、ネットワークサーバ、ネットワーク処理方法、プログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
JP2008071303A true JP2008071303A (ja) 2008-03-27

Family

ID=39292804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006251762A Pending JP2008071303A (ja) 2006-09-15 2006-09-15 ネットワークサービスシステム、ネットワークサーバ、ネットワーク処理方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP2008071303A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211473A (ja) * 2009-03-10 2010-09-24 Hitachi Information & Control Solutions Ltd 情報管理サーバ及びシステム
JP2011215679A (ja) * 2010-03-31 2011-10-27 Dainippon Printing Co Ltd 文書推薦システム、文書推薦装置、文書推薦方法、及びプログラム
JP2014153869A (ja) * 2013-02-07 2014-08-25 Ntt Communications Corp 情報提供装置、情報提供プログラムおよび情報提供方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211473A (ja) * 2009-03-10 2010-09-24 Hitachi Information & Control Solutions Ltd 情報管理サーバ及びシステム
JP2011215679A (ja) * 2010-03-31 2011-10-27 Dainippon Printing Co Ltd 文書推薦システム、文書推薦装置、文書推薦方法、及びプログラム
JP2014153869A (ja) * 2013-02-07 2014-08-25 Ntt Communications Corp 情報提供装置、情報提供プログラムおよび情報提供方法

Similar Documents

Publication Publication Date Title
US8355997B2 (en) Method and system for developing a classification tool
US8027977B2 (en) Recommending content using discriminatively trained document similarity
US8131734B2 (en) Image based annotation and metadata generation system with experience based learning
US8175847B2 (en) Tag ranking
US8849725B2 (en) Automatic classification of segmented portions of web pages
US8311957B2 (en) Method and system for developing a classification tool
US20160117295A1 (en) Method and apparatus for forming a structured document from unstructured information
US20090300547A1 (en) Recommender system for on-line articles and documents
JP6033697B2 (ja) 画像評価装置
US20140229810A1 (en) Topic extraction and video association
Ah-Pine et al. Unsupervised visual and textual information fusion in cbmir using graph-based methods
EP2583203A2 (en) Semantic content searching
CN107835994A (zh) 通过图像的任务聚焦搜索
TW201022973A (en) Previewing search results for suggested refinement terms and vertical searches
Zhang et al. Annotating needles in the haystack without looking: Product information extraction from emails
Gali et al. Using linguistic features to automatically extract web page title
US9223854B2 (en) Document relevance determining method and computer program
Lu et al. Browse-to-search: Interactive exploratory search with visual entities
CN104462083A (zh) 用于内容比较的方法、装置和信息处理系统
JP2008071303A (ja) ネットワークサービスシステム、ネットワークサーバ、ネットワーク処理方法、プログラムおよび記録媒体
US20210374189A1 (en) Document search device, document search program, and document search method
JP6607691B2 (ja) 評価値演算装置、及びプログラム
Umemoto et al. Search by screenshots for universal article clipping in mobile apps
Lu et al. Exploratory product image search with circle-to-search interaction
WO2023017690A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム