JP2008071303A

JP2008071303A - ネットワークサービスシステム、ネットワークサーバ、ネットワーク処理方法、プログラムおよび記録媒体

Info

Publication number: JP2008071303A
Application number: JP2006251762A
Authority: JP
Inventors: Hirohisa Inamoto; 浩久稲本; Koji Kobayashi; 幸二小林; Yukiko Yamazaki; 由希子山崎
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2006-09-15
Filing date: 2006-09-15
Publication date: 2008-03-27

Abstract

【課題】ユーザが手作業によりウェッブ上のコンテンツに対して情報を付加するモチベイションを保ちつつ、ユーザが、より簡便に要求するコンテンツにアクセスできる。
【解決手段】検索を行う場合（ステップ２）、文字列を入力する。表示部には、入力したワードに応じたウェッブページのリスト（登録されたユーザ間の類似度に基づき提示されるリストと、ユーザが過去にタグ情報を付加したページ群から、自動的に探索されるリスト）が表示される。ユーザは表示されたページのリストを閲覧し（ステップ４）、目的の情報のウェッブページを探す。興味を引くページが存在した場合（ステップ５）は、ユーザはページに関連するキーワード（タグ）を入力（ステップ６）し、付加したタグ情報をサービスに提出（ステップ７）する。
【選択図】図１

Description

本発明は、ウェッブ上のコンテンツを検索するネットワーク上のサービスシステムに関する。

近年、ユーザ参加型のＷｅｂサービスが増加している。これまでに存在したＷｅｂサービスは、サービスの提供者とサービスの享受者の境界が明確で、所謂単方向のサービスであった。しかし、ユーザ参加型のＷｅｂサービスには、必ずしもサービスの享受者、提供者の明確な境界はない。この様なＷｅｂサービスの代表例としては、Ｆｌｉｃｋｒ（非特許文献１を参照）がある。Ｆｌｉｃｋｒでは、各ユーザが閲覧した画像に様々なタグ情報を付加し、他のユーザが該画像を探す際の手助けをする。また、他の例としてはｄｅｌ．ｉｓｉｏ．ｕｓ（非特許文献２を参照）がある。ｄｅｌ．ｉｃｉｏ．ｕｓでは各ユーザの付けたブックマーク情報を共有し、検索時には、ブックマークされた数が多いウェッブページを注目ページとして提示する。

これまでの単方向のサービスでも、掲示板などでユーザ同士がやりとりし、情報を共有するといったサービスが存在したが、他のユーザによって提供された情報を、各ユーザが整理する必要があり、非常に手間のかかる作業であった。一方、前記例に挙げたようなサービスでは情報の整理がコンピュータにより代行されるので、ユーザの負荷を著しく軽減できる点が特筆すべき点である。

一方で、上記に挙げた様なサービスに於いて、様々な問題点が指摘されつつある。例えば、Ｆｌｉｃｋｒの様なコンテンツへ付けられたタグ情報を共有するサービスに於いてユーザがタグ付けを行うか否かは、ユーザの善意に強く依存する点が挙げられる。Ｆｌｉｃｋｒの様なサービスに於いて、タグ情報の付加は、サービスが稼働するためには不可欠な行為であるにもかかわらず、ユーザにとっては、直接的には何の利益ももたらさない行為であるため、善意の無いユーザはサービスを利用するだけで、自らは他のユーザへ貢献しないと言うことが問題となっている。このようなサービスに対して貢献をしないユーザの発生は、タグ付けを行っている善意のユーザのモチベイションを著しく損なう結果となる可能性もある。

また、ｄｅｌ．ｉｃｉｏ．ｕｓの様なブックマークのランキング公開サービスに於いては、情報の偏りが問題となる。一般に、多くのユーザから閲覧されブックマーキングされるようなコンテンツは、多くの人間にとって価値の高いものが多い。その点でｄｅｌ．ｉｃｉｏ．ｕｓの思想は有効に機能すると思われる。しかし、一度ランキングの上位に来たコンテンツには多くの人が集まり、更に多くの人にブックマーキングされることにより、更にランキングが上昇する。実は、同様の内容に触れたコンテンツであって、より価値の高いものが存在したとしても、既に注目されたコンテンツが存在すると日の目を見ない可能性がある。更に言えば、大多数のユーザにとって有益なコンテンツが自分にとっても有益だとは限らない。また、ユーザによってコンテンツに要求する情報の深さは様々であり、特に学術性の高いコンテンツでは、その傾向が顕著である。ｄｅｌ．ｉｃｉｏ．ｕｓの様なサービスでは一部のニッチなユーザのニーズには応えられず、ユーザの要求する深さを指定することも不可能である。これに対し、特許文献１では、事前にユーザが自分の興味を登録しておき、ユーザ間の興味の距離を算出することによって、興味の近いユーザの注目しているコンテンツ情報を得ることができる。これにより、自分の思想、好みに合致したユーザの情報を得ることが可能となるため、上記のようなニッチなニーズには対応できる。

ｈｔｔｐ：／／ｗｗｗ．ｆｌｉｃｋｒ．ｃｏｍ／ｈｔｔｐ：／／ｄｅｌ．ｉｃｉｏ．ｕｓ／ｈｔｔｐ：／／ｃｈａｓｅｎ．ｎａｉｓｔ．ｊｐ／ｈｉｋｉ／ＣｈａＳｅｎ／Ｃ．ＣｏｒｔｅｓａｎｄＶ．Ｎ．Ｖａｐｎｉｋ，"ＳｕｐｐｏｒｔｖｅｃｔｏｒＮｅｔｗｏｒｋｓ，"ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，ｖｏｌ．２０，ｐｐ．２７３−２９７，１９９５特開平１１−００３３５６号公報

しかし、上記した方式においてもユーザにとっては、自分が持っている情報を提示する必要が無い点で、前述のＦｌｉｃｋｒと同様、善意に依存したサービスで有ると言える。また、興味といった具体性の強い内容を登録しておいても、前述したような、要求する深さの様な曖昧な情報をくみ取ることは不可能である。

本発明は上記した問題点に鑑みてなされたものであり、
本発明の目的は、ユーザが手作業によりウェッブ上のコンテンツに対して情報を付加するモチベイションを保ちつつ、ユーザが、より簡便に要求するコンテンツにアクセスできるシステムを提供することにある。

本発明は、ユーザがネットワーク上のコンテンツに第一の情報を付加する付加手段と、付加された第一の情報およびネットワーク上のコンテンツを対にしてユーザ毎に保持する情報保持手段と、前記情報保持手段に保持される情報に基づいてユーザ間の類似度を算出する第一の類似度算出手段とを有することを最も主要な特徴とする。

請求項１、２：他のユーザがコンテンツに情報を付加することにより、必要とする情報に簡便にアクセスすることができる。情報を付加するユーザによっても、情報を付加することにより、自分の嗜好や知識レベルなどをシステムに学習させることが可能で有り、また、継続的な情報の付加はユーザの嗜好や知識レベルの変化を反映させることができるため、情報を付加することに対してモチベイションを保つことができる。

請求項３：システムはユーザの付加した情報に応じて、同様のコンテンツを自動で収集するため、付加されている情報が少ない初期状態でもユーザに満足度を与えることができる。

請求項４：ユーザにとって最も信頼性が高い情報は、他のユーザによって付加された情報である。システムが自動で収集した情報と他のユーザによって付加された情報を明確に切り分けることによってユーザは、より信頼性の高い情報を優先的に得ることができる。

請求項５：付加する情報の表記の揺れが発生する可能性をシステムが自動的に明示することにより、システムに保持される情報の表記揺れが少なくなり、ユーザの利便性が向上する。

請求項６、７：ユーザの付加する情報の重みが経時的に軽くなることにより、ユーザの嗜好や知識レベルの変化をシステムに反映させることができ、ユーザの利便性が向上する。

請求項８：特定種のコンテンツに、特定種の情報が付きやすくすることで、付加される情報種の偏りを発生させることができ、類似度計算の精度が向上する。

請求項９：ユーザは自分に近いユーザの付加した情報を優先的に得ることができるため、必要とするコンテンツに迅速に到達することができ、利便性が向上する。

請求項１０：ユーザは自分とは異なる感性を持ったユーザの情報を優先的に得ることができるため、ユーザの好奇心を満たすことができ、ユーザのサービスに対する満足度が向上する。

以下、発明の実施の形態について図面により詳細に説明する。本発明の好適な実施例について、一台のサーバを用いて成されるウェッブサービスを例に挙げて説明する。前提として、本ウェッブサービスは、ユーザがワード入力により、ウェッブページを検索できるサービスであるものとする。

図１は、本発明におけるユーザの操作をフローチャートで示したものであり、図２はウェッブブラウザを用いて、該サービスを利用する際の表示画面を示している。本表示画面はフレームとフォームを用いて作成されるので、特殊なウェッブブラウザは必要ない。また、本実施例に於いては、操作を行っているユーザをユーザ甲、その他の不特定なユーザをユーザ乙として説明する。

まず、ユーザ甲はサービスを利用するために、ユーザＩＤとパスワードを入力し、サーバに提出する。サーバ側ではユーザ甲が登録されたユーザで有ることを確認して、ユーザ甲へログイン完了通知を出し、ログインが完了する（ステップ００１）。検索を行わない場合（ステップ００２）には、ログオフし（ステップ０１０）操作は完了する。

一方、検索を行う場合（ステップ００２）には、図２の操作部内の検索ワード入力領域に文字列を入力し、その右隣に有るボタンをクリックする（ステップ００３）。

検索動作を行うと、図２の表示部には、ユーザ甲が検索ワード入力領域に入力したワードに応じたウェッブページのリストが表示される。ここで表示されるウェッブページのリストについては、後に詳述する。ユーザ甲は表示されたウェッブページのリストを閲覧し（ステップ００４）、目的の情報が記載されているウェッブページを探す。

興味を引くウェッブページが存在しなければ（ステップ００２）に戻る。興味を引くウェッブページが存在した場合（ステップ００５）には、ユーザ甲は、図２の操作部のタグ情報入力部に、該ウェッブページに関連するキーワード（以降タグと呼ぶ）を記載（ステップ００６）し、タグ情報入力部右下のボタンを押して、付加したタグ情報をサービスに提出（ステップ００７）する。

ここでサービスを提供するサーバは、内部に保持する辞書データを基に、特定ワードが存在しているか否かをチェックする。特定ワードとは、例えば「ユーザー」と「ユーザ」等と言った、どちらも正しく同じものを表現しているワードや、人名の間違いとして頻発するワード等を指す。このような表記の揺れ、間違いにより一つの意味に複数のワードがタグとして付加されると、同じ言葉を入力するために、複数のワードを入力する必要が生じるため、検索性が著しく低下する。特定ワードが存在しなかった場合（ステップ００８）は、そのまま次のステップに進むが、特定ワードが存在する場合（ステップ００８）には修正候補を提示し、修正を促す画面が図２の操作部に表示される。ユーザ甲は表示された修正候補を確認し、場合によっては自分の付けたタグ情報を修正する（ステップ００９）。

次に、サーバ側ではユーザ甲がタグ情報を付けたページを解析し、特定種のページであるか否かを判定する。尚、ここでは特定種のページとは学術性の高いページを指すものとする。該ページが特定種のウェッブページでなかった場合（ステップ０１０）は、図２の操作部に登録の確認を表示し、一定時間たった後、元の表示に戻る（ステップ０１２）。一方、特定種のページであった場合（ステップ０１０）、図２の操作部で、ユーザ甲に特定種のタグを付けることを促す。ここで言う特定種のタグとは、例えば「難しい」「丁度良い」、「優しい」等である。提示された特定種のタグを確認し（ステップ０１１）、場合によってはユーザ甲が更にタグ情報を追加する。ここで提示されるタグは、リストボックス上に並んでおり、ユーザ甲はそれを選択するだけになっているとなお良い。尚、特定種ページで有るか否かの判定手段については後に詳述する。

ユーザ甲の確認・修正（ステップ０１１）後も前記と同様に登録の確認（ステップ０１２）がなされる。ユーザ甲の登録したタグ情報は、ユーザＩＤ、ユーザ甲がタグ情報を付加したウェッブページのアドレス、タグ付けを行った日付とともに、サーバ側に保存される。

検索方法：
以下、本フローチャートにおける検索（ステップ００３）において、ユーザに提示されるウェッブページのリスト提示方法について説明する。図３に示すように、本実施例に於いてはユーザへ提示されるウェッブページのリストには２種類存在する。即ち、第一の検索手段１００により得られる、登録されたユーザ間の類似度に基づき提示されるリスト（第一の出力）と、第二の検索手段１０１により得られる、ユーザが過去にタグ情報を付加したページ群から、サーバにより自動的に探索されるリスト（第二の出力）である。まず、第一の検索手段１００について述べる。

第一の検索手段１００は図４に示すように、類似度ＤＢ２００に保持されたユーザ間の類似度に基づいてリスト作成手段２０１がリストを作成する。そのため、まず類似度ＤＢの作成方法について述べる。図５は類似度ＤＢの作成方法を示す。ワードヒストグラム作成手段３００では、類似度算出のために特徴量としてはワードヒストグラムを作成する。図６はワードヒストグラム算出方法を図示したものである。ヒストグラムを作成するために、事前にタグとして用いられそうなＮ個のワードリスト４０２を作成しておく。ユーザ乙がウェッブページに付加したタグリスト４０１に含まれるワードを個々にカウントすることで、ワードヒストグラムが作成される。このとき、カウントは、日付リスト４００に含まれる、タグが付けられた日付からの経過日に応じて重み付けされるものとする。なお、経過日と重みとの関係を図７に示す。図７から明らかなように、タグ情報を付加した時から、時間が経過する程、タグリストに含まれるタグ情報の重みが小さくなる。こうすることで時間経過とともに変化するユーザ乙の興味や、知識の深さといった情報に柔軟に対応することができる。以上のように作成されたワードヒストグラムは、Ｎ次元のベクトルと考えられ（以下、ユーザ特徴量ベクトルと呼ぶ）、ベクトル間の距離を算出することでユーザ乙の類似度が算出できる。

本実施例では類似度判定手段３０１においてベクトル間距離の算出方法として、相関係数を算出するものとする。相関係数は二つのユーザ特徴量ベクトルをｘ１，ｘ２とすると相関係数Ｒは式１によって算出することができる。

相関係数は二つのベクトルの内積をそれぞれのベクトルの長さで除したものである。つまり、その値は二つのベクトルの成す角であるということができる。ここで、ベクトルの長さは必然的にユーザ乙が最近ウェッブページに付加したタグの数に応じて長くなる。つまり、ユーザ乙がシステムを使い込んでいるか否かのみでも、ベクトルは大きく異なることになる。相関距離を用いてユーザ間距離を算出することで、システムの使い込みに依存しないユーザ間距離を算出することができる。以上の動作を全てのユーザ間で行ってサーバに保持しておく。また、このユーザ間距離は定期的に、例えば一ヶ月おきに更新されるものとする。以上の様に作成されたユーザ間類似度を類似度ＤＢ２００に保持しておく。

次に、図４における、リスト作成手段２０１の処理方法であるが、これはユーザ甲の操作によって全く逆の処理を行う。ユーザ甲は検索の前に図２の操作部内の出力選択部によって、類似したユーザ乙の情報に基づいて検索を行いたいか、類似しないユーザ乙の情報に基づいて検索したいかを選択するものとする。ユーザ甲が、類似したユーザ情報に基づいて検索を行いたいとき、サーバは類似するユーザ乙が過去にタグ付けしたものの中で、図２の操作部内の検索ワード入力領域に入力された文字列を含むウェッブページをウェッブページのリストとして提示する。尚、リストの順番はユーザ甲との類似度の高いユーザ乙がタグ付けを行った順に並べるものとする。

一方、ユーザ甲が類似しないユーザ乙の情報に基づいて検索を行うと選択したとき、サーバは、過去にユーザ甲と同じページにタグ付けをしているユーザ甲との類似度が低いユーザが過去にタグ付けしたものの中で、図２の操作部内の検索ワード入力領域に入力された文字列を含むウェッブページをウェッブページのリストとして提示する。尚、リストの順番はユーザ甲との類似度が低いユーザ乙がタグ付けを行った順に並べるものとする。以上の様にユーザ甲の操作によって全く反対の処理が成される理由は以下の通りである。もし検索したいものが、学術的な内容のウェッブページである場合、ユーザは自分と知識レベルの近いユーザが丁度良い難易度であると感じたウェッブページを検索すると、効率が良い。一方、アイデアを出したい時には、自分と同じ立場で有りながら、全く異なる発想をしている人間がどのようなウェッブページに興味を抱いたかを知ることは非常に有用である。このように、自分とどのような類似関係に有る人間の興味を抱いたウェッブページが有効かは、状況に応じて変化し、上記の様な構成にすることで、この変化に対応できる。

次に、第二の検索手段１０１を説明する。ここで作成するリストはウェッブからランダムに抽出したＭ個のウェッブページの特徴量と、ユーザが過去にタグ情報を付加したウェッブページの特徴量を比較し、類似度が高いものから順番にリストアップするものとする。まず、日本語を単語に切り出す手段としては茶筅（非特許文献３を参照）のようなソフトを用いればよい。

また、ここで言う特徴量として、本実施例はｔｆ・ｉｄｆ方式を用いるものとする。ｔｆ・ｉｄｆ方式とはＴｅｒｍＦｒｅｑｕｅｎｃｙ・ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ方式の略であり、文書における、特定のワードの重要性を算出する方法である。ｔｆは文書に含まれるワードのドキュメント毎のヒストグラムであり、ｔｆ＝ｆ（ｔ）と表せる。このままでも文書中に出現するワードの頻度分布なので、ある程度文書におけるワードの重要性が判るが、例えば助詞や代名詞といった一般的なワードの重要性が高くなってしまう。そこでｉｄｆを用いて正規化する。ｉｄｆは登録文書数Ｍ、ワードｔを用いて式２の様に表すことができる。

尚、ｄｆ（ｔ）は一回以上ワードｔが出現する文書の数である。つまり、どの文書にも出現するワードは重みが小さくなり、特定の文書にのみしか出現しないワードは重みが大きくなることで前記問題を解決している。最終的に式３のようにｄｆとｉｄｆを乗ずることによって、特徴量ベクトルｗ（ｔ）が得られる。

ウェッブページ毎に特徴量ベクトルｗ（ｔ）を算出し、ユーザ甲が既にタグ情報を付加したウェッブページのｗ（ｔ）の平均との相関を取る。相関の高いものから順に並べることで上記のようなリストが作成される。

以上の様にリストを作成する理由は二つある。まず一つに、ウェッブサービス開始時のユーザの少なさを解消するためである。また、もう一つの理由はサーバに蓄積されるウェッブページの量を増加させるためである。こうしないと、ユーザ乙は既にサーバに登録された情報に、タグ情報を付加するのみになるため情報が極端に偏ることになる。また、本実施例ではｔｆ・ｉｄｆ方式を用いて検索を行ったが、サーバに登録されたウェッブページ以外のウェッブページが得られれば、どのような検索方法であっても構わない。勿論、外部ウェッブサービスに頼っても問題ない。尚、上記に種類のリストを作成する意図が異なるため、リストを混在させて表示するとユーザの混乱を招きかねない。そこで、例えば、図２の表示部をフレームにより、図８の様に更に二つに分割し、上記二種類のリストを別々に表示すると、ユーザの混乱を避けることができる。

特定ワードの存在判定方法：
次に、図１のステップ００８で説明した、特定ワードが存在するか否かを判定する方法について図９を用いて述べる。まずサーバには事前に作成した表記の特定ワードが辞書５０１として登録されている。キーワード比較手段５０２において、ユーザ甲がウェッブページに付加したタグリスト５００が前記辞書５０１に存在するか否かを判定する。もし辞書５０１中にタグリストに含まれるワードと類似するワードが存在する場合、第一の提示手段５０３により、図２の操作部に正しい、若しくは好ましいワードへの変換を行っても良いかを提示する。もし、非類似ならばそのまま図１のフローチャートを進行させる。

特定種ページ判定方法：
次に、図１のステップ０１０において特定種のページか否かを判断する手段について説明する。図１０は特定種ページ判定手段の処理の流れを示したものである。まず、ユーザ甲がタグ情報を付加したＨＴＭＬの内容６００を取得する。キーワード抽出手段６０１は前記第二の検索手段１０１と同様にＨＴＭＬの内容をワードに分解する。次に特徴量算出手段６０２でも前記第二の検索手段１０１と同様にｔｆ・ｉｄｆ方式による特徴量ベクトルＷ（ｔ）を作成する。作成したＷ（ｔ）を、事前に学習させておいた識別手段６０３に入力し、もしＨＴＭＬの内容６００が学術的ならばＹｅｓを学術的でないならＮｏを出力する。識別手段６０３の出力がｙｅｓならば、第二の提示手段６０４により、図２の操作部へＨＴＭＬの内容が難しいか、丁度良いか、簡単かを付加するように提示して終了する。識別手段６０３の出力がＮｏなら、そのまま図１のフローチャートを進行させる。

ここで、本実施例では識別手段としてサポートベクタマシン（ＳＶＭ）を用いた。ＳＶＭは式４に従って二値的な識別を行うアルゴリズムである。

ここで、ｓｉｇｎ（ｘ）は線形識別関数と呼ばれる関数で、ｘ＞＝０ならば出力は＋１、ｘ＜０ならば出力は−１となる関数である。式４から明らかなように、本実施例ではｘが特徴量ベクトルＷ（ｔ）に相当し、特徴量ベクトルと重みベクトルωの内積を取り、閾値ｈを超えているかで識別を行う。因みにＳＶＭにおける学習とは、式４においてωとｈを決定することに他ならず、事前に多数の学術的なＨＴＭＬおよび学術的でないＨＴＭＬを用意しておいて、それぞれに関して特徴量ベクトルを算出し、ＳＶＭに学習させる。

ここで、ＳＶＭの学習についての詳細な説明は非特許文献４に譲るが、その概要は以下で説明する。図１１はＳＶＭの動作の概要を示したものである。まず前提条件として、図の左に示すように○×で表される二つの種類のベクトル群が存在するものとする。ＳＶＭはこれら二つのクラスを最適に分離するための超平面（図の右参照）を決定するためのアルゴリズムといえる。ＳＶＭにおいて、二つのベクトル群を最適に分割するとは、未知のベクトルが入力されたときの対応能力、つまり汎化能力を最大とするということと等価である。これを実現するために、二つのベクトル群の境界位置に存在するベクトル（ＳｕｐｐｏｒｔＶｅｃｔｏｒ）を見つけて、ＳｕｐｐｏｒｔＶｅｃｔｏｒと超平面との距離が最大となるように超平面を設定する。ここで、実動作上、間違いの教師データも存在するため、間違いの許容量（ソフトマージン）を設定するパラメータを決める必要がある。以上は、線形ＳＶＭについての説明であるが、実際の教師データは線形判別できるベクトル群とは限らない。しかし、特徴量ベクトルを、より高次の空間に射影し（カーネルトリック）、その空間上で超平面を求めることで、非線形な問題にも対応できる。

以上を実現するには、結果的に、教師データ（ｘｉ，ｙｉ）を用いて式５の条件下で式６を最大化するラグランジェ乗数ベクトルαｉを求めることになる。

その後、ラグランジェ乗数ベクトルの要素のうち０でない要素に対応する教師データ群Ｓ（これがサポートベクタとなる）と、そのうちの任意の一つの教師データ（ｘ０，ｙ０）を用いて超平面のパラメータω，ｈを求める（式７，８）。

尚、上記式６に於いてＫ（ｘ，ｙ）はカーネルトリックを実現するためのカーネル関数を示す。カーネル関数には様々なものが考案されているが、今回の実施例ではＲａｄｉａｌＢａｓｉｓＦｕｎｃｔｉｏｎ（ＲＢＦ）を用いた。ＲＢＦは式９で示される関数でＣは任意の数字である。

以上述べたように、ＳＶＭを用いて学習を行うにはソフトマージンの許容量を設定するパラメータγとカーネル関数であるＲＢＦを決定するためのＣを設定する必要があるが、今回の実施例では、γ＝１，Ｃ＝１０００を用いた。

本実施例は一台のサーバを用いてサービスの提供を行っているが、勿論、複数台のサーバを用いても、なんら問題はない。また、本実施例ではユーザ間距離を算出するために相関係数を用いたが、ユークリッド距離で求めても良いし、マハラノビス距離等を用いても良い。更に、本実施例ではユーザの検索対象がウェッブページであったが、本発明はこれに限定されず、例えば、文書の特徴量の代わりに画像の特徴量、即ち、テクスチャ情報や、エッジ情報、代表色情報などを用いれば、画像間の距離を算出することは容易であり、当然ながら本発明を画像検索に用いることも十分容易である。

また、本発明は、前述した実施例の処理手順や機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムに供給し、そのシステムのコンピュータ（ＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施例の処理手順や機能を実現することになる。プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。また、コンピュータが読出したプログラムコードを実行することにより、前述した実施例の処理手順が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。

以上、述べたように、本実施例で説明したウェッブサービスに於いて、特定のキーワードで検索を行う際に、自らの興味や知識レベルに応じ、他のユーザのタグ付けした情報に基づいて、サービスが最適なウェッブページを提案してくれる。しかし、自らの興味や知識レベルをウェッブサービスに学習させるためには、ユーザが様々なページに対してタグ情報を付加しなければならない。逆に言えば、タグ付けを行うことによってユーザは自らにとって最適な提案を行ってくれるエージェントを育てることになり、この行為は更にウェッブサービスのサービスの向上に繋がる。そのため、本発明を用いれば、従来技術で述べたような、ユーザが手作業によりウェッブ上のコンテンツに対して情報を付加するモチベイションを保ちつつ、ユーザが、より簡便に要求するコンテンツにアクセスできるシステムを提供することができる。

本発明に係るユーザの操作フローチャートを示す。ウェッブサービスを利用する際の表示画面を示す。本発明の検索方法を説明する図である。第一の検索手段を説明する図である。類似度ＤＢの作成方法を説明する図である。ワードヒストグラム算出方法を説明する図である。経過日と重みとの関係を示す。２種類のリストを別々に表示する例を示す。特定ワードの存在判定方法を説明する図である。特定種のページ判定方法を説明する図である。サポートベクタマシンの動作概要を説明する図である。

符号の説明

１００第一の検索手段
１０１第二の検索手段
２００類似度ＤＢ
２０１リスト作成手段
３００ワードヒストグラム作成手段
３０１類似度判定手段
４００日付リスト
４０１、５００タグリスト
４０２ワードリスト
４０３重み算出手段
４０４カウント手段
５０１辞書
５０２キーワード比較手段
５０３第一の提示手段
６００ＨＴＭＬ
６０１キーワード抽出手段
６０２特徴量算出手段
６０３識別手段
６０４第二の提示手段

Claims

ユーザがネットワーク上のコンテンツに第一の情報を付加する付加手段と、付加された第一の情報およびネットワーク上のコンテンツを対にしてユーザ毎に保持する情報保持手段と、前記情報保持手段に保持される情報に基づいてユーザ間の類似度を算出する第一の類似度算出手段とを有することを特徴とするネットワークサービスシステム。
前記ユーザがコンテンツを検索する際に、前記第一の類似度算出手段により算出された他のユーザとの類似度に基づいて、ユーザに最適なコンテンツを提示することを特徴とする請求項１記載のネットワークサービスシステム。
特定のコンテンツよりキーワードを抽出する抽出手段と、前記抽出されたキーワードをウェッブ上で検索する検索手段と、前記検索されたキーワードを含むコンテンツの特徴を算出する特徴算出手段と、前記特徴に応じて、コンテンツ間の類似度を算出する第二の類似度算出手段を具備し、ユーザが既に情報を付加したコンテンツから類似度の高いコンテンツを自動的にウェッブ上から検索してユーザに提示することを特徴とする請求項１記載のネットワークサービスシステム。
前記第一の類似度算出手段により得られたコンテンツと第二の類似度算出手段により得られたコンテンツとを、明確に切り分けて提示することを特徴とする請求項１、２または３記載のネットワークサービスシステム。
前記ユーザが、既に登録されている単語と類似した単語を付加しようとした場合に、その旨を提示する提示手段を備えることを特徴とする請求項１記載のネットワークサービスシステム。
前記第一の類似度算出手段は、ユーザの付加した情報に対して重み付けを行う重み付け手段を有することを特徴とする請求項１、２または４記載のネットワークサービスシステム。
前記重み付け手段は、時間とともにユーザの付加した情報の重みを小さくすることを特徴とする請求項６記載のネットワークサービスシステム。
更に特定種のコンテンツ情報を保持しておき、新たに情報を付加されるコンテンツが入力された際、該コンテンツの特徴と前記既存の特徴とを比較して、両者が十分に近いと判断された場合は特定のキーワードの付加を求めることを特徴とする請求項３記載のネットワークサービスシステム。
前記類似度が高いユーザが情報を付加したコンテンツを優先的に提示することを特徴とすることを特徴とする請求項２記載のネットワークサービスシステム。
同じ若しくは類似コンテンツに対して、異なる情報を付加したユーザの付加した情報を優先的に提示することを特徴とする請求項２または３記載のネットワークサービスシステム。
請求項１乃至１０のいずれか１項に記載の各手段を具備したことを特徴とするネットワークサーバ。
ユーザがネットワーク上のコンテンツに第一の情報を付加するステップと、付加された第一の情報およびネットワーク上のコンテンツを対にしてユーザ毎に保持するステップと、前記保持される情報に基づいてユーザ間の類似度を算出するステップとを有することを特徴とするネットワーク処理方法。
請求項１乃至１０のいずれか１項に記載の各手段をコンピュータに実現させるためのプログラム。
請求項１乃至１０のいずれか１項に記載の各手段をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。