以下、本発明の一実施の形態について、図面を参照して詳細に説明する。以下においては、人物に関する関連情報を収集する場合の情報の信頼度評価について説明するが、この実施の形態により本発明が限定されるものではない。
図1は、本実施の形態に係るネットワーク構成の一例を示す図である。同図に示すネットワーク構成では、ユーザ端末10とウェブサーバ20とがネットワークNを介して接続されている。そして、ネットワークNには、正規情報抽出サーバ100a、UGC情報抽出サーバ100b及び一般情報抽出サーバ100cの3つの抽出サーバが接続されている。また、評価装置200は、上記の抽出サーバ100a〜100c及びウェブサーバ20に接続されている。
ユーザ端末10は、ユーザが操作する例えばパーソナルコンピュータなどの端末装置であり、ウェブ情報を表示可能な例えばディスプレイなどの表示部を備えている。そして、ユーザ端末10は、ユーザの操作を受け付け、ウェブサーバ20に対してウェブ情報を要求し、要求に応じてウェブサーバ20から送信されたウェブ情報を受信して表示部に表示する。
また、ユーザ端末10は、例えばブログや質疑応答サイトなどの記事をユーザが作成すると、作成された記事をウェブサーバ20へ送信し、ネットワークN上に公開させる。同様に、ユーザ端末10は、例えば映画などに対するレビューを掲載するレビューページを閲覧したユーザが新たなレビューコメントなどを投稿する場合に、このレビューコメントをウェブサーバ20へ送信する。このように、ユーザ端末10は、ユーザが作成してネットワークN上に公開する情報をウェブサーバ20へ送信する。以下の説明においては、例えばブログの記事、質疑応答サイトの質問・回答事項、又はレビューサイトでのコメントなどのように、一般のユーザが投稿してネットワークN上に公開される情報を「UGC(User Generated Contents)情報」という。
なお、UGC情報の中でも、任意のタレントについてユーザが把握している情報を投稿するサイト(例えばユーザが作り上げていく人物名鑑サイト)や、任意の電化製品に関する評価情報をユーザが投稿するサイト(例えば電化製品機能評価サイト)等の特定のアイテムに特化してユーザが情報を投稿するサイトは、正規情報ほどではないものの、信頼度がある程度高い情報を含んでいる。さらに、このようなUGC情報は、他のUGC情報と比べて、アイテムのマイナス面の情報も含み、世論や流行も反映するという特徴を強く持っているものと考えられるため、特にUGC情報として好適である。
ウェブサーバ20は、様々なウェブ情報を保持するとともに、ユーザ端末10から要求されたウェブ情報を送信する。ウェブサーバ20が保持するウェブ情報としては、上述したUGC情報のほかに、正規情報及び一般情報がある。正規情報とは、人物や製品などのアイテムに関して正規な権利を持つもの、又はそれに準ずるものが作成している情報から得られる情報である。すなわち、例えば所属タレントに関して正規な権利を持つ事務所が作成する所属タレントの公式ページや電化製品に関して正規な権利を持つメーカーが作成するこの電化製品の公式ページなどから得られる情報が正規情報に相当する。正規情報には、アイテムに関連する正確な情報が含まれており、アイテムに関する情報の信頼度は高い。ただし、一般的に正規情報は頻繁に更新されるものではなく、世論や流行を反映した情報が必ずしも正規情報に含まれているとはいえない。また、アイテムの欠点や欠陥などのマイナス面の情報に関しても必ずしも正規情報に含まれているとはいえない。
また、一般情報とは、正規情報及びUGC情報以外の一般的な情報を含むウェブ情報である。すなわち、特定のアイテムに特化したり、ユーザの投稿に依存したりすることがない、例えばニュースサイトなどのウェブページが一般情報に相当する。一般情報には、アイテムに関連する正確な情報が含まれているとは限らないが、正規情報に比べて情報量が多く、アイテムのマイナス面の情報や世論や流行などを反映した情報も多く含まれている。情報量については、一般情報が最も多く、UGC情報、正規情報の順に多いと考えられる。
正規情報抽出サーバ100aは、ネットワークN上に公開されているウェブ情報から正規情報を抽出する。そして、正規情報抽出サーバ100aは、抽出された正規情報を解析し、アイテムとアイテムの関連情報との組み合わせを取得し、それぞれの組み合わせをアイテムのタグ(以下「正規タグ」という)として保持する。このとき、正規情報抽出サーバ100aは、それぞれの正規タグに信頼度を示すウェイトを対応付けて保持するが、正規タグは信頼度が高い正規情報から取得されたものであるため、各正規タグの信頼度は、例えば最大値の1.00となっている。
UGC情報抽出サーバ100bは、ネットワークN上に公開されているウェブ情報からUGC情報を抽出する。そして、UGC情報抽出サーバ100bは、抽出されたUGC情報を解析し、アイテムに関するタグ(以下「UGCタグ」という)を取得して保持する。このとき、UGC情報抽出サーバ100bは、それぞれのUGCタグにウェイトを対応付けて保持し、評価装置200における信頼度の評価に応じて各UGCタグのウェイトを更新する。
一般情報抽出サーバ100cは、ネットワークN上に公開されているウェブ情報から一般情報を抽出する。そして、一般情報抽出サーバ100cは、抽出された一般情報を解析し、アイテムに関するタグ(以下「一般タグ」という)を取得して保持する。このとき、一般情報抽出サーバ100cは、それぞれのタグにウェイトを対応付けて保持し、評価装置200における信頼度の評価に応じて各タグのウェイトを更新する。
以上の正規情報抽出サーバ100a、UGC情報抽出サーバ100b及び一般情報抽出サーバ100cは、抽出するウェブ情報が異なっているものの、内部の構成及び動作はほぼ共通しているため、これらの3つの抽出サーバの構成及び動作を抽出サーバ100の構成及び動作として後にまとめて詳述する。
評価装置200は、正規情報から取得された正規タグ、UGC情報から取得されたUGCタグ及び一般情報から取得された一般タグを互いに比較することにより、UGCタグ及び一般タグの信頼度を評価する。すなわち、評価装置200は、例えばUGCタグに一致する正規タグがある場合、UGCタグが示す情報の信頼度が高いと評価し、このUGCタグに対応するウェイトを大きくする。同様に、評価装置200は、例えば一般タグに一致する正規タグがある場合、一般タグが示す情報の信頼度が高いと評価し、この一般タグに対応するウェイトを大きくする。
また、評価装置200は、正規タグ、UGCタグ及び一般タグに関する信頼度をマージして保持し、アイテムの関連情報を信頼度が高い順に並べたランク情報をウェブサーバ20へ送信する。具体的には、評価装置200は、例えばある人物に関して、この人物に関連する人物及び2人の関係を信頼度が高い順に並べてウェブサーバ20へ送信する。評価装置200の構成及び動作については、後に詳述する。
図2は、本実施の形態に係る抽出サーバ100の構成を示すブロック図である。上述したように、正規情報抽出サーバ100a、UGC情報抽出サーバ100b及び一般情報抽出サーバ100cは、いずれも抽出サーバ100とほぼ同一の構成を有している。図2に示す抽出サーバ100は、情報抽出部101、情報解析部102、初期ウェイト設定部103、リソースデータベース(以下「リソースDB」と略記する)104、タグデータベース(以下「タグDB」と略記する)105、評価装置インタフェース部(以下「評価装置I/F部」と略記する)106及びウェイト更新部107を有している。
情報抽出部101は、ネットワークN上に公開されているウェブ情報から正規情報、UGC情報又は一般情報を抽出する。すなわち、正規情報抽出サーバ100aの情報抽出部101は、正規情報を抽出し、UGC情報抽出サーバ100bの情報抽出部101は、UGC情報を抽出し、一般情報抽出サーバ100cの情報抽出部101は、一般情報を抽出する。
情報解析部102は、情報抽出部101によって抽出されたウェブ情報を形態素解析などの手法によって解析し、アイテムとアイテムの関連情報とを含むタグを取得する。すなわち、正規情報抽出サーバ100aの情報解析部102は、正規情報から正規タグを取得し、UGC情報抽出サーバ100bの情報解析部102は、UGC情報からUGCタグを取得し、一般情報抽出サーバ100cの情報解析部102は、一般情報から一般タグを取得する。情報解析部102が取得するタグとしては、例えばある人物とこの人物に関連する人物及び2人の関係との組み合わせや、ある人物とこの人物の属性との組み合わせなどがある。
初期ウェイト設定部103は、情報解析部102によって取得されたタグそれぞれに初期ウェイトを設定し、タグと初期ウェイトとを対応付けてタグDB105に登録する。このとき、初期ウェイト設定部103は、正規タグについては、初期ウェイトを最大値の1.00に設定する。
また、初期ウェイト設定部103は、UGCタグ及び一般タグについては、リソースDB104を参照し、タグの提供元となったリソースに対応付けて記憶された初期ウェイトを読み出し、タグの初期ウェイトに設定する。すなわち、初期ウェイト設定部103は、例えばUGCタグがあるユーザのブログ記事から取得された場合、タグのリソースとしてのユーザに対応する初期ウェイトをリソースDB104から読み出して、UGCタグの初期ウェイトに設定する。同様に、初期ウェイト設定部103は、例えば一般タグがあるニュースサイトの記事から取得された場合、タグのリソースとしてのサイトに対応する初期ウェイトをリソースDB104から読み出して、一般タグの初期ウェイトに設定する。
なお、初期ウェイト設定部103は、UGCタグ又は一般タグが新規のリソースから取得され、リソースがリソースDB104に登録されていない場合は、このリソースをリソースDB104に登録する。この場合、初期ウェイト設定部103は、登録したリソースの初期ウェイトを例えば最大値の半分の0.50などとしておく。また、リソースDB104に登録されていない新規リソースの初期ウェイトは、リソースごとのタグの量に応じて決定されるようにしても良い。すなわち、初期ウェイト設定部103は、多くのタグを提供する新規リソースについては、初期ウェイトを例えば0.50より大きくし、少量のタグしか提供しない新規リソースについては、初期ウェイトを例えば0.50より小さくしても良い。他にも、例えば抽出されたタグの量も考慮してタグの初期ウェイトを決定しても良い。すなわち、いろいろなリソースから同じタグが抽出された場合は、抽出された同一タグの量に応じてリソースの初期ウェイトを増加させるなどとしても良い。
さらに、初期ウェイト設定部103は、評価装置200によってタグの信頼度が評価され、タグに関する更新されたウェイトが評価装置200から通知されると、リソースDB104に保持されたリソースごとの初期ウェイトを更新する。すなわち、初期ウェイト設定部103は、信頼度が上昇したタグのリソースについては初期ウェイトを大きくし、信頼度が下降したタグのリソースについては初期ウェイトを小さくする。これは、初期ウェイト設定部103が信頼できるリソースの初期ウェイトを大きくし、あまり信頼できないリソースの初期ウェイトを小さくしていることに他ならない。このとき、初期ウェイト設定部103は、リソースDB104に保持された初期ウェイトを所定値だけ増減させても良いし、更新によって変化したタグのウェイトの変化量に応じて増減させても良い。
リソースDB104は、タグの提供元となるリソースごとの初期ウェイトを保持している。すなわち、正規情報抽出サーバ100aのリソースDB104は、正規情報を掲載する公式ページの初期ウェイトを保持しており、UGC情報抽出サーバ100bのリソースDB104は、UGC情報を投稿するユーザごとの初期ウェイトを保持しており、一般情報抽出サーバ100cのリソースDB104は、一般情報を掲載するサイトごとの初期ウェイトを保持している。ただし、正規情報から取得されるタグの初期ウェイトは、上述したように最大値の1.00であるため、正規情報抽出サーバ100aには、リソースDB104が設けられていなくても良い。これに対して、UGC情報抽出サーバ100b及び一般情報抽出サーバ100cのリソースDB104は、例えば図3に示すように、ユーザやサイトの識別情報に対応付けて初期ウェイトを記憶している。
図3において、UGCリソースDBは、UGC情報抽出サーバ100bのリソースDB104の具体例であり、各ユーザのユーザIDに初期ウェイトが対応付けられている。初期ウェイトが高いユーザが投稿したUGC情報からは信頼度が高いUGCタグが取得されており、反対に初期ウェイトが低いユーザが投稿したUGC情報からは信頼度が低いUGCタグが取得されていることになる。
また、一般リソースDBは、一般情報抽出サーバ100cのリソースDB104の具体例であり、各サイトのサイトID(例えばURLの一部)に初期ウェイトが対応付けられている。初期ウェイトが高いサイトの一般情報からは信頼度が高い一般タグが取得されており、反対に初期ウェイトが低いサイトの一般情報からは信頼度が低い一般タグが取得されていることになる。
このように、リソースDB104は、リソースごとの信頼度に応じて異なる初期ウェイトを保持しているため、新たなタグが取得された場合、取得されたタグのリソースによって初期ウェイトが異なる。つまり、信頼できるリソースの情報から取得されたタグには、初めから高いウェイトが対応付けられることになる。
タグDB105は、情報解析部102によって取得されたタグと各タグのウェイトとを対応付けて保持している。すなわち、正規情報抽出サーバ100aのタグDB105は、正規タグとウェイトを対応付けて保持しており、UGC情報抽出サーバ100bのタグDB105は、UGCタグとウェイトを対応付けて保持しており、一般情報抽出サーバ100cのタグDB105は、一般情報とウェイトを対応付けて保持している。具体的には、タグDB105は、それぞれ正規タグ、UGCタグ及び一般タグとして、例えば図4に示すように、関連人物タグ及び属性タグの2種類のタグを保持している。
図4において、関連人物タグは、対象アイテムと対象アイテムに関連する人物及び2人の関係との組み合わせを含んでおり、この組み合わせにウェイトが対応付けられている。すなわち、例えば対象アイテム「PPP」と人物「AAA」とが関係「コンビ」を有するという関連人物タグのウェイトは0.80である。同様に、対象アイテム「PPP」と人物「BBB」とが関係「共演」を有するという関連人物タグのウェイトは0.57である。
また、属性タグは、対象アイテムと対象アイテムの属性との組み合わせを含んでおり、この組み合わせにウェイトが対応付けられている。すなわち、例えば対象アイテム「PPP」の属性「お笑い」という属性タグのウェイトは0.90である。同様に、対象アイテム「PPP」の属性「映画監督」という属性タグのウェイトは0.80である。
これらのタグは、いずれも情報解析部102における形態素解析などによって取得されており、元となるウェブ情報が正規情報、UGC情報及び一般情報のいずれであるかによって、同一の情報を含むタグであっても信頼度を示すウェイトが異なることがある。すなわち、例えば、正規タグの1つである対象アイテム「PPP」の属性「お笑い」という属性タグのウェイトが1.00であっても、UGCタグの1つである同様の属性タグのウェイトは1.00未満となっている。
評価装置I/F部106は、評価装置200に接続されるインタフェースであり、タグDB105に保持されたタグ及びウェイトを含むタグ情報を評価装置200へ送信し、評価装置200によってタグが評価された結果更新されたタグの更新ウェイトを受信する。そして、評価装置I/F部106は、受信された更新ウェイトを初期ウェイト設定部103及びウェイト更新部107へ出力する。
ウェイト更新部107は、評価装置I/F部106から更新ウェイトが入力されると、タグDB105によって保持されたタグに対応するウェイトを更新する。すなわち、ウェイト更新部107は、評価装置200によって信頼度が高いと評価されウェイトが大きくなったタグについては、更新ウェイトに従ってタグDB105に保持されたタグのウェイトを大きくする。反対に、ウェイト更新部107は、評価装置200によって信頼度が低いと評価されウェイトが小さくなったタグについては、更新ウェイトに従ってタグDB105に保持されたタグのウェイトを小さくする。
図5は、本実施の形態に係る評価装置200の構成を示すブロック図である。同図に示す評価装置200は、抽出サーバインタフェース部(以下「抽出サーバI/F部」と略記する)201、正規/UGC比較部202、UGC/一般比較部203、正規/一般比較部204、UGCタグ評価部205、一般タグ評価部206、評価値マージ部207、タグ評価値データベース(以下「タグ評価値DB」と略記する)208及びウェブサーバインタフェース部(以下「ウェブサーバI/F部」と略記する)209を有している。
抽出サーバI/F部201は、正規情報抽出サーバ100a、UGC情報抽出サーバ100b及び一般情報抽出サーバ100cに接続されるインタフェースであり、それぞれの抽出サーバからタグ及びウェイトを含むタグ情報を受信し、タグ情報の送信元の抽出サーバへ各タグの更新ウェイトを送信する。
正規/UGC比較部202は、抽出サーバI/F部201によって受信された正規タグとUGCタグを比較する。具体的には、正規/UGC比較部202は、各UGCタグに一致する正規タグがあるか否かを判定する。一致する正規タグがあるUGCタグは、信頼度が高い正規タグと同一の情報を含んでいることから、このUGCタグに対応するウェイトを大きくしても良いと考えられる。
UGC/一般比較部203は、抽出サーバI/F部201によって受信されたUGCタグと一般タグを比較する。具体的には、UGC/一般比較部203は、UGCタグの信頼度を評価する場合には、各UGCタグに一致する一般タグがあるか否かを判定する。一致する一般タグがあるUGCタグは、一致する一般タグがないUGCタグよりも信頼度が高いと考えられることから、このUGCタグに対応するウェイトを大きくしても良いと考えられる。ただし、一般タグのみに一致するUGCタグは、正規タグに一致するUGCタグに比べると信頼度は低いと考えられる。
また、UGC/一般比較部203は、一般タグの信頼度を評価する場合には、各一般タグに一致するUGCタグがあるか否かを判定する。一致するUGCタグがある一般タグは、一致するUGCタグがない一般タグよりも信頼度が高いと考えられることから、この一般タグに対応するウェイトを大きくしても良いと考えられる。ただし、UGCタグのみに一致する一般タグは、正規タグに一致する一般タグに比べると信頼度は低いと考えられる。
正規/一般比較部204は、抽出サーバI/F部201によって受信された正規タグと一般タグを比較する。具体的には、正規/一般比較部204は、各一般タグに一致する正規タグがあるか否かを判定する。一致する正規タグがある一般タグは、信頼度が高い正規タグと同一の情報を含んでいることから、この一般タグに対応するウェイトを大きくしても良いと考えられる。
UGCタグ評価部205は、正規/UGC比較部202及びUGC/一般比較部203における比較の結果に基づいて、UGCタグの信頼度を評価し、UGCタグの評価値を算出する。すなわち、UGCタグ評価部205は、正規/UGC比較部202における比較の結果、一致する正規タグがある場合は、UGCタグのウェイトを所定値だけ大きくして評価値とする。また、UGCタグ評価部205は、正規/UGC比較部202における比較の結果、一致する正規タグがない場合は、UGC/一般比較部203における比較の結果を参照する。
そして、UGCタグ評価部205は、UGC/一般比較部203における比較の結果、一致する一般タグがある場合は、UGCタグのウェイトを大きくして評価値とする。このとき、UGCタグ評価部205は、一致する正規タグがある場合よりもウェイトの上げ幅を小さくする。これは、上述したように、一般タグのみに一致するUGCタグは、正規タグに一致するUGCタグに比べると信頼度が低いと考えられるためである。また、UGCタグ評価部205は、一致する一般タグのウェイトに応じてUGCタグのウェイトの上げ幅を決定しても良い。こうすることにより、一致する一般タグの信頼度に応じて、UGCタグの評価値を算出することができる。
UGCタグ評価部205は、UGC/一般比較部203における比較の結果、一致する一般タグがない場合は、UGCタグと比較された一般タグの量に応じてUGCタグのウェイトを小さくして評価値とする。すなわち、UGCタグと比較された一般タグの数が所定数以上であるにも拘らず、UGCタグがいずれの一般タグとも一致しなければ、UGCタグ評価部205は、UGCタグのウェイトを下げる。ただし、UGCタグが、まだ広く報じられていない新情報を含んでいる可能性があるため、このUGCタグを管理者に提示し、管理者にウェイトの増減の判断を要求しても良い。なお、UGCタグと比較された一般タグの数が所定数未満である場合は、UGCタグ評価部205は、UGCタグのウェイトを変更しない。UGCタグ評価部205は、算出された評価値を評価値マージ部207へ出力するとともに、UGCタグの更新ウェイトとして抽出サーバI/F部201へ出力する。抽出サーバI/F部201へ出力された更新ウェイトは、UGC情報抽出サーバ100bへ送信され、UGCタグのウェイトが更新されるとともに、UGCタグの提供元となったリソース(例えばユーザなど)の初期ウェイトが更新される。
なお、UGC/一般比較部203において比較されるUGCタグ及び一般タグが、対象アイテムと人物及び関係との組み合わせを含む関連人物タグである場合には、UGCタグと一般タグの人物のみが一致して関係が一致しない場合や、関係のみが一致して人物が一致しない場合などが想定される。このような場合、UGCタグ評価部205は、UGCタグと一般タグが一致しないものとしてUGCタグを評価するが、人物のみ又は関係のみの一致が発生したことを管理者などへ通知し、UGCタグ及び一般タグのどちらの信頼度を高くするか選択させるようにしても良い。また、UGCタグ評価部205は、人物のみ又は関係のみが一致する場合には、例えば後述する図11に示すような人物名鑑サイトにおいて、UGCタグ及び一般タグの双方の情報をユーザに明示するようにしても良い。
一般タグ評価部206は、UGC/一般比較部203及び正規/一般比較部204における比較の結果に基づいて、一般タグの信頼度を評価し、一般タグの評価値を算出する。すなわち、一般タグ評価部206は、正規/一般比較部204における比較の結果、一致する正規タグがある場合は、一般タグのウェイトを所定値だけ大きくして評価値とする。また、一般タグ評価部206は、正規/一般比較部204における比較の結果、一致する正規タグがない場合は、UGC/一般比較部203における比較の結果を参照する。
そして、一般タグ評価部206は、UGC/一般比較部203における比較の結果、一致するUGCタグがある場合は、一般タグのウェイトを大きくして評価値とする。このとき、一般タグ評価部206は、一致する正規タグがある場合よりもウェイトの上げ幅を小さくする。これは、上述したように、UGCタグのみに一致する一般タグは、正規タグに一致する一般タグに比べると信頼度が低いと考えられるためである。また、一般タグ評価部206は、一致するUGCタグのウェイトに応じて一般タグのウェイトの上げ幅を決定しても良い。こうすることにより、一致するUGCタグの信頼度に応じて、一般タグの評価値を算出することができる。
一般タグ評価部206は、UGC/一般比較部203における比較の結果、一致するUGCタグがない場合は、一般タグと比較されたUGCタグの量に応じて一般タグのウェイトを小さくして評価値とする。すなわち、一般タグと比較されたUGCタグの数が所定数以上であるにも拘らず、一般タグがいずれのUGCタグとも一致しなければ、一般タグ評価部206は、一般タグのウェイトを下げる。ただし、一般タグが、まだ広く報じられていない新情報を含んでいる可能性があるため、この一般タグを管理者に提示し、管理者にウェイトの増減の判断を要求しても良い。なお、一般タグと比較されたUGCタグの数が所定数未満である場合は、一般タグ評価部206は、一般タグのウェイトを変更しない。一般タグ評価部206は、算出された評価値を評価値マージ部207へ出力するとともに、一般タグの更新ウェイトとして抽出サーバI/F部201へ出力する。抽出サーバI/F部201へ出力された更新ウェイトは、一般情報抽出サーバ100cへ送信され、一般タグのウェイトが更新されるとともに、一般タグの提供元となったリソース(例えばサイトなど)の初期ウェイトが更新される。
評価値マージ部207は、UGCタグ評価部205によって算出された評価値及び一般タグ評価部206によって算出された評価値を正規タグの評価値とマージし、タグ評価値DB208に登録する。具体的には、評価値マージ部207は、正規タグ、UGCタグ及び一般タグを対象アイテム別に分類し、対象アイテムごとのタグの一覧を作成する。そして、各タグに評価値を対応付けて、タグ評価値DB208に記憶させる。このとき、評価値マージ部207は、正規タグの評価値をすべて最大値の1.00とする。
タグ評価値DB208は、評価値マージ部207によって対象アイテムごとに分類されたタグと評価値を対応付けて記憶する。具体的には、タグ評価値DB208は、例えば図6に示すように、対象アイテムごとの関連人物タグ及び属性タグの一覧を保持しており、それぞれのタグには評価値が対応付けられている。
図6は、タグ評価値DB208に保持されたタグのうち、対象アイテム「PPP」に関する関連人物タグ及び属性タグの一覧を示している。これらの関連人物タグ及び属性タグは、いずれも正規タグ、UGCタグ及び一般タグを含んでおり、それぞれのタグに評価値が対応付けられている。これらの評価値のうち、正規タグに対応付けられた評価値はいずれも最大値の1.00であるが、UGCタグ及び一般タグに対応付けられた評価値は、それぞれUGCタグ評価部205及び一般タグ評価部206によって算出された評価値である。タグの評価値が高ければ高いほど、そのタグの信頼度は高いことになり、対象アイテムに関連する正確な情報である可能性が高くなる。
なお、ここでは、評価値マージ部207が対象アイテムごとのタグの分類を行い、それぞれ正規タグ、UGCタグ及び一般タグの一覧に評価値を対応付けてタグ評価値DB208に保持させるものとしたが、正規タグ、UGCタグ及び一般タグの中に同一の情報を含むタグがある場合には、この情報に対して評価値を対応付けるようにしても良い。すなわち、例えば図6において、対象アイテム「PPP」の関連人物タグには、人物「AAA」との関係「コンビ」という同一の情報を含む正規タグ、UGCタグ及び一般タグの3つのタグがあるため、これらのタグの評価値の合計値又は平均値をこの情報の評価値としてタグ評価値DB208に保持するようにしても良い。同様に、人物「BBB」との関係「共演」という同一の情報を含む正規タグ及びUGCタグの2つのタグがあるため、これらのタグの評価値の合計値又は平均値をこの情報の評価値としてタグ評価値DB208に保持するようにしても良い。この場合には、タグ評価値DB208は、情報ごとに評価値を対応付けて記憶するため、図6における「タグ種別」の項目を含まないことになる。
さらに、タグ評価値DB208は、正規タグの評価値を保持せずに、UGCタグ及び一般タグの評価値のみを保持するようにしても良い。すなわち、正規タグの評価値はすべて最大値の1.00である一方、UGCタグ及び一般タグの評価値は変動するため、UGCタグ及び一般タグの評価値のみを保持しておくことにより、各タグに含まれる情報の信頼度に差をつけることができる。そして、正規タグの評価値のみでは情報の信頼度を評価できない場合でも、UGCタグ又は一般タグに正規タグと同一の情報が含まれていれば、該当するUGCタグ又は一般タグの評価値によって、正規タグの情報の信頼度を評価することができる。
ウェブサーバI/F部209は、ウェブサーバ20に接続されるインタフェースであり、ウェブサーバ20がある対象アイテムに関する情報をユーザへ提供する際に、この対象アイテムの関連情報をタグ評価値DB208から読み出す。そして、ウェブサーバI/F部209は、読み出した関連情報を評価値が高い順に並べてランク情報を作成し、ウェブサーバ20へ送信する。
具体的には、ウェブサーバI/F部209は、対象アイテムに対応する正規タグ、UGCタグ及び一般タグをタグ評価値DB208から読み出し、それぞれのタグの評価値によって関連情報の信頼度をランク付けし、関連情報を信頼度の高い順に並べたランク情報を作成する。すなわち、ウェブサーバI/F部209は、例えば正規タグに含まれる関連情報について、同一の情報を含むUGCタグ又は一般タグの評価値から信頼度を決定し、関連情報のランク付けをする。例えば図6に示した例では、対象アイテム「PPP」に関する人物「AAA」との関係「コンビ」という関連情報と、人物「BBB」との関係「共演」という関連情報とでは、UGCタグの評価値が0.75と0.82であり、後者の関連情報の方が信頼度が高い。そこで、ウェブサーバI/F部209は、対象アイテム「PPP」に関する関連情報のうち、人物「BBB」との関係「共演」という関連情報を人物「AAA」との関係「コンビ」よりも上位にランク付けする。
なお、ウェブサーバI/F部209におけるランク情報の作成方法は、上記のものに限定されず、各タグの評価値を用いた任意の方法で良い。例えば、上記の例では、UGCタグのみを参照したため人物「BBB」との関係「共演」という関連情報が人物「AAA」との関係「コンビ」よりも上位にランク付けされたが、一般タグを参照すると、人物「AAA」との関係「コンビ」という関連情報のみが存在し、人物「BBB」との関係「共演」という関連情報は存在していない。そこで、ウェブサーバI/F部209は、正規タグ、UGCタグ及び一般タグのすべてに共通する人物「AAA」との関係「コンビ」という関連情報の方が信頼度が高いと判断し、この関連情報を上位にランク付けするようにしても良い。
また、タグ評価値DB208において、情報ごとに評価値が対応付けられている場合には、ウェブサーバI/F部209は、情報ごとの評価値の大小を比較することにより、関連情報のランク付けを行うことができる。
次いで、上記のように構成された正規情報抽出サーバ100a、UGC情報抽出サーバ100b、一般情報抽出サーバ100c及び評価装置200を用いた情報評価方法について、図7から図10に示すフロー図を参照して説明する。図7は、本実施の形態に係る情報評価方法の全体概要を示すフロー図である。
本実施の形態においては、正規情報抽出サーバ100aによって、ネットワークN上に公開された公式ページなどから様々な対象アイテムの正規情報が随時抽出されている(ステップS101)。同様に、UGC情報抽出サーバ100bによって、ネットワークN上に公開されたブログやレビューページなどから様々な対象アイテムのUGC情報が随時抽出され(ステップS102)、一般情報抽出サーバ100cによって、ネットワークN上に公開されたニュースサイトなどから様々な対象アイテムの一般情報が随時抽出されている(ステップS103)。
そして、これらの正規情報、UGC情報及び一般情報から、対象アイテムごとの正規タグ、UGCタグ及び一般タグが取得され、取得されたタグと初期ウェイトが対応付けられた各抽出サーバに登録される。また、タグとウェイトを含むタグ情報が評価装置200へ送信され、評価装置200によって、UGCタグの信頼度が他のタグとの比較により評価されるとともに(ステップS104)、一般タグの信頼度も他のタグとの比較により評価される(ステップS105)。
UGCタグ及び一般タグの信頼度が評価された結果、これらの評価結果を示す評価値がマージされ、評価装置200にタグごとの評価値が保存される(ステップS106)。また、UGCタグ及び一般タグの評価値は、各タグの更新ウェイトとしてUGC情報抽出サーバ100b又は一般情報抽出サーバ100cへ送信され、それぞれの抽出サーバにおいて、リソースDB104における初期ウェイト及びタグDB105におけるウェイトが更新される(ステップS107)。
このように、各抽出サーバ100によってネットワークNから情報が収集され、収集された情報から取得されるタグの信頼度が種別の異なるタグとの比較により評価されるとともに、評価結果がリソースごとの初期ウェイトやタグのウェイトに反映される。このため、対象アイテムの関連情報の信頼度を的確に評価することが可能になるとともに、情報の収集と初期ウェイト及びウェイトの更新を繰り返すことにより、常に関連情報の信頼度を最新の状態に保つことができる。
図8は、上述した情報評価方法の全体概要のうち、図2に示した抽出サーバ100の処理を示すフロー図である。同図は、主にUGC情報抽出サーバ100b及び一般情報抽出サーバ100cにおける処理を示しているが、正規情報抽出サーバ100aも図8とほぼ同様の処理を行う。
ネットワークN上に公開されているウェブ情報が情報抽出部101によって抽出されると(ステップS201)、情報解析部102によって、ウェブ情報に含まれるテキストの形態素解析が行われる(ステップS202)。すなわち、正規情報抽出サーバ100aにおいては、対象アイテムの公式ページなどのテキストが形態素解析され、UGC情報抽出サーバ100bにおいては、ブログやレビューページなどのテキストが形態素解析され、一般情報抽出サーバ100cにおいては、ニュースサイトなどのテキストが形態素解析される。
情報解析部102における形態素解析の結果、対象アイテムの関連情報を含むタグが取得され、取得されたタグは、初期ウェイト設定部103へ出力される。具体的には、それぞれの抽出サーバ100において、それぞれ関連人物タグ及び属性タグの2つからなる正規タグ、UGCタグ又は一般タグが初期ウェイト設定部103へ出力される。そして、初期ウェイト設定部103によって、各タグの提供元となったリソースが過去にもタグの提供元となったリソースであるか、新規のリソースであるかが判定される(ステップS203)。すなわち、UGC情報抽出サーバ100bの初期ウェイト設定部103においては、タグの提供元となったユーザがリソースDB104に既に登録済みであるか否かが判定される。同様に、一般情報抽出サーバ100cの初期ウェイト設定部103においては、タグの提供元となったサイトがリソースDB104に既に登録済みであるか否かが判定される。
この判定の結果、タグの提供元となったリソースが新規リソースである場合には(ステップS203Yes)、初期ウェイト設定部103によって、新規リソースと初期ウェイトがリソースDB104に登録される(ステップS204)。このとき、新規リソースの初期ウェイトは、例えば最大値の半分の0.50などとされる。一方、タグの提供元となったリソースが既にリソースDB104に登録済みである場合には(ステップS203No)、初期ウェイト設定部103によって、リソースDB104からリソースに対応する初期ウェイトが読み出される(ステップS205)。
そして、初期ウェイト設定部103によって、各タグとタグのウェイトとが対応付けられてタグDB105に登録される(ステップS206)。すなわち、新規リソースから得られたタグには、ウェイトとして初期ウェイト0.50が対応付けられてタグDB105に登録され、登録済みのリソースから得られたタグには、ウェイトとしてリソースDB104から読み出された初期ウェイトが対応付けられてタグDB105に登録される。なお、正規タグについては、信頼度が高いため、正規タグのウェイトは、初期ウェイトを含めてすべて最大値の1.00に固定されている。したがって、ここでは、主にUGCタグ及び一般タグの初期ウェイトが初期ウェイト設定部103によって設定され、各タグのウェイトとしてタグDB105に登録される。
それぞれの抽出サーバ100において、タグDB105にタグとウェイトが登録されると、評価装置I/F部106によって、すべてのタグ及びウェイトを含むタグ情報が評価装置200へ送信される(ステップS207)。評価装置200においては、UGCタグ及び一般タグの信頼度が評価されるが、評価装置I/F部106からは、正規タグに関するタグ情報も送信される。
そして、評価装置200においてUGCタグ及び一般タグの信頼度が評価された結果、これらのタグに対応付けられたウェイトの更新ウェイトが評価装置I/F部106によって受信される(ステップS208)。受信された更新ウェイトは、初期ウェイト設定部103及びウェイト更新部107へ出力される。この更新ウェイトには、タグDB105に登録されたすべてのタグごとの更新ウェイトが含まれている。そして、ウェイト更新部107によって、タグDB105に保持されたタグごとのウェイトが、対応する更新ウェイトに更新される(ステップS209)。
また、初期ウェイト設定部103によって、リソース別にタグの更新ウェイトが参照され、更新によるウェイトの増減に応じて、リソースDB104に記憶されたリソースの初期ウェイトが更新される(ステップS210)。具体的には、更新によりウェイトが大きくなったタグに対応するリソースについては、初期ウェイト設定部103によって、信頼度が高いリソースであると判断され、リソースDB104に登録された初期ウェイトに所定値が加算される。また、更新によりウェイトが小さくなったタグに対応するリソースについては、初期ウェイト設定部103によって、信頼度が低いリソースであると判断され、リソースDB104に登録された初期ウェイトから所定値が減算される。なお、初期ウェイトが更新される際、各タグのウェイトが更新ウェイトによってどれだけ増減したかに応じて初期ウェイトを増減させても良い。すなわち、例えば更新によってウェイトが大幅に増加したタグに対応するリソースについては、初期ウェイトも大幅に増加させるなどとしても良い。
このように、抽出サーバ100においては、評価装置200におけるタグの信頼度の評価の結果、各タグのウェイトが更新されるとともに、タグの提供元となるリソースごとの初期ウェイトが更新される。このため、抽出サーバ100には、タグごとの信頼度がウェイトとして保持されるとともに、リソースごとの信頼度が初期ウェイトとして保持される。結果として、リソースDB104に登録済みのリソースから新たにタグが取得された場合、この新規のタグについてもリソースによって異なる初期ウェイトが設定され、信頼度に応じた差別化をすることができる。
図9は、上述した情報評価方法の全体概要のうち、評価装置200におけるUGCタグ評価処理を示すフロー図である。
評価装置200の抽出サーバI/F部201には、正規情報抽出サーバ100a、UGC情報抽出サーバ100b及び一般情報抽出サーバ100cから、それぞれ正規タグのタグ情報、UGCタグのタグ情報及び一般タグのタグ情報が随時受信される(ステップS301)。このうち、正規タグのタグ情報は、正規/UGC比較部202及び正規/一般比較部204へ出力され、UGCタグのタグ情報は、正規/UGC比較部202及びUGC/一般比較部203へ出力され、一般タグのタグ情報は、UGC/一般比較部203及び正規/一般比較部204へ出力される。
そして、UGCタグの信頼度が評価される場合には、まず、正規/UGC比較部202によって、対象アイテムごとにすべてのUGCタグと正規タグが比較される。比較の結果、UGCタグが正規タグに一致していれば、このUGCタグの信頼度は高いと考えられる。正規/UGC比較部202におけるUGCタグと正規タグの比較結果は、UGCタグ評価部205へ出力される。
また、UGC/一般比較部203によって、対象アイテムごとにすべてのUGCタグと一般タグが比較される。比較の結果、UGCタグが一般タグに一致していれば、このUGCタグの信頼度は、一致する一般タグがないUGCタグよりも高いと考えられる。UGC/一般比較部203におけるUGCタグと一般タグの比較結果は、UGCタグ評価部205へ出力される。
そして、UGCタグ評価部205によって、正規/UGC比較部202における比較結果から、各UGCタグに一致する正規タグがあるか否かが判定される(ステップS302)。この判定の結果、正規タグに一致するUGCタグについては(ステップS302Yes)、信頼度が高いと考えられるため、このUGCタグのウェイトに所定値が加算されてUGCタグの評価値が得られる(ステップS303)。
一方、正規タグに一致しないUGCタグについては(ステップS302No)、引き続きUGCタグ評価部205によって、UGC/一般比較部203における比較結果から、各UGCタグに一致する一般タグがあるか否かが判定される(ステップS304)。この判定の結果、一般タグに一致するUGCタグについては(ステップS304Yes)、一致するタグがまったくないUGCタグよりも信頼度が高いと考えられるため、このUGCタグのウェイトに所定値が加算されてUGCタグの評価値が得られる(ステップS305)。ただし、正規タグには一致せず一般タグにのみ一致するUGCタグは、正規タグに一致するUGCタグよりも信頼度が低いと考えられるため、ウェイトに加算される値は、正規タグに一致するUGCタグのウェイトに加算される値よりも小さい。また、一般タグに一致するUGCタグのウェイトに加算される値は、一致した一般タグのウェイトに応じて決定されるようにしても良い。
これに対して、一般タグに一致しないUGCタグについては(ステップS304No)、対象アイテムについて誤った関連情報を含んでいる可能性がある。すなわち、対象アイテムについて多くの一般タグが取得されているにも拘らず、これらの一般タグの中に一致するものがまったくない場合には、UGCタグの信頼度が低いと考えられる。そこで、UGCタグと比較された一般タグのデータ量が所定量以上であるにも拘らず一致する一般タグがないUGCタグについては、UGCタグ評価部205によって、UGCタグのウェイトから所定値が減算されて評価値が得られる(ステップS306)。また、UGCタグと比較された一般タグの数が所定数未満である場合には、UGCタグの現時点でのウェイトがそのまま評価値となる。
このようにして、UGCタグの評価値が算出されると、これらのUGCタグの評価値は、UGCタグの更新ウェイトとして抽出サーバI/F部201からUGC情報抽出サーバ100bへ送信される(ステップS307)。また、UGCタグの評価値は、UGCタグ評価部205から評価値マージ部207へ出力され、評価値マージ部207によって、正規タグの評価値及び一般タグの評価値とマージされる(ステップS308)。
図10は、上述した情報評価方法の全体概要のうち、評価装置200における一般タグ評価処理を示すフロー図である。同図において、図9と同じ部分には同じ符号を付している。
評価装置200の抽出サーバI/F部201には、正規情報抽出サーバ100a、UGC情報抽出サーバ100b及び一般情報抽出サーバ100cから、それぞれ正規タグのタグ情報、UGCタグのタグ情報及び一般タグのタグ情報が随時受信される(ステップS301)。このうち、正規タグのタグ情報は、正規/UGC比較部202及び正規/一般比較部204へ出力され、UGCタグのタグ情報は、正規/UGC比較部202及びUGC/一般比較部203へ出力され、一般タグのタグ情報は、UGC/一般比較部203及び正規/一般比較部204へ出力される。
そして、一般タグの信頼度が評価される場合には、まず、正規/一般比較部204によって、対象アイテムごとにすべての一般タグと正規タグが比較される。比較の結果、一般タグが正規タグに一致していれば、この一般タグの信頼度は高いと考えられる。正規/一般比較部204における一般タグと正規タグの比較結果は、一般タグ評価部206へ出力される。
また、UGC/一般比較部203によって、対象アイテムごとにすべての一般タグとUGCタグが比較される。比較の結果、一般タグがUGCタグに一致していれば、この一般タグの信頼度は、一致するUGCタグがない一般タグよりも高いと考えられる。UGC/一般比較部203における一般タグとUGCタグの比較結果は、一般タグ評価部206へ出力される。
そして、一般タグ評価部206によって、正規/一般比較部204における比較結果から、各一般タグに一致する正規タグがあるか否かが判定される(ステップS401)。この判定の結果、正規タグに一致する一般タグについては(ステップS401Yes)、信頼度が高いと考えられるため、この一般タグのウェイトに所定値が加算されて一般タグの評価値が得られる(ステップS402)。
一方、正規タグに一致しない一般タグについては(ステップS401No)、引き続き一般タグ評価部206によって、UGC/一般比較部203における比較結果から、各一般タグに一致するUGCタグがあるか否かが判定される(ステップS403)。この判定の結果、UGCタグに一致する一般タグについては(ステップS403Yes)、一致するタグがまったくない一般タグよりも信頼度が高いと考えられるため、この一般タグのウェイトに所定値が加算されて一般タグの評価値が得られる(ステップS404)。ただし、正規タグには一致せずUGCタグにのみ一致する一般タグは、正規タグに一致する一般タグよりも信頼度が低いと考えられるため、ウェイトに加算される値は、正規タグに一致する一般タグのウェイトに加算される値よりも小さい。また、UGCタグに一致する一般タグのウェイトに加算される値は、一致したUGCタグのウェイトに応じて決定されるようにしても良い。
これに対して、UGCタグに一致しない一般タグについては(ステップS403No)、対象アイテムについて誤った関連情報を含んでいる可能性がある。すなわち、対象アイテムについて多くのUGCタグが取得されているにも拘らず、これらのUGCタグの中に一致するものがまったくない場合には、一般タグの信頼度が低いと考えられる。そこで、一般タグと比較されたUGCタグのデータ量が所定量以上であるにも拘らず一致するUGCタグがない一般タグについては、一般タグ評価部206によって、一般タグのウェイトから所定値が減算されて評価値が得られる(ステップS405)。また、一般タグと比較されたUGCタグの数が所定数未満である場合には、一般タグの現時点でのウェイトがそのまま評価値となる。
このようにして、一般タグの評価値が算出されると、これらの一般タグの評価値は、一般タグの更新ウェイトとして抽出サーバI/F部201から一般情報抽出サーバ100cへ送信される(ステップS307)。また、一般タグの評価値は、一般タグ評価部206から評価値マージ部207へ出力され、評価値マージ部207によって、正規タグの評価値及びUGCタグの評価値とマージされる(ステップS308)。
以上のように、評価装置200においてUGCタグ及び一般タグの信頼度が評価され、各タグの評価値がタグ評価値DB208に記憶される。この結果、ウェブサーバ20が様々な対象アイテムに関する関連情報を信頼度が高い順にユーザへ提供することが可能となる。具体的に、ユーザがユーザ端末10を操作することによって、例えば対象アイテム「PPP」についての関連情報をウェブサーバ20に要求した場合を考える。この場合、ウェブサーバ20は、評価装置200に対して対象アイテム「PPP」の関連情報を要求し、評価装置200のウェブサーバI/F部209によって、対象アイテム「PPP」の関連情報がタグ評価値DB208から取得される。そして、ウェブサーバI/F部209によって、対象アイテム「PPP」の関連情報が信頼度の高い順に並べられ、得られたランク情報がウェブサーバ20へ提供される。
これにより、ウェブサーバ20はユーザ端末10に対して、例えば図11に示すような人物名鑑サイトにおいて対象アイテム「PPP」の関連情報を提供する。図11において、情報301は、対象アイテム「PPP」の関連人物タグから得られた情報であり、タグ評価値DB208において評価値が高いタグにおける人物と関係の情報が並べて表示されている。また、情報302は、対象アイテム「PPP」の属性タグから得られた情報であり、タグ評価値DB208において評価値が高いタグにおける属性の情報が並べて表示されている。
以上のように、本実施の形態によれば、ウェブ情報を正規情報、UGC情報及び一般情報に分類した上で、それぞれのウェブ情報から取得される正規タグ、UGCタグ及び一般タグを互いに比較して、UGCタグ及び一般タグの信頼度を評価する。このため、ネットワークからアイテムに関する関連情報を収集する場合、収集された情報の信頼度を評価することができる。また、このように情報の信頼度を評価することで、単純にUGC情報や一般情報から抽出したタグの情報を取得するのではなく、ある程度信頼度の高いUGCタグや一般タグを選定した上で情報を取得し、正規タグから得られる情報を補うことが可能となる。
なお、上記一実施の形態においては、正規タグのウェイト及び評価値が常に最大値の1.00に固定されるものとしたが、正規タグについても、UGCタグ又は一般タグと一致する場合は評価を上昇させ、一致しない場合は評価を下降させるようにしても良い。このようにすることにより、情報の信頼度には差がない正規タグについて、一般に広く知られている情報や流行している情報を含む場合には、一致するUGCタグや一般タグが多いことから、評価が上昇することになる。
また、上記一実施の形態においては、対象アイテムが人物である場合を例に挙げて説明した。しかし、本発明は、対象アイテムが例えば電化製品のような物などである場合にも適用可能である。そして、上記一実施の形態においては、対象アイテムを人物としたため、関連人物タグ及び属性タグの2種類のタグを例示したが、対象アイテムに関するタグは、これらの2種類に限定されない。すなわち、タグが対象アイテムと対象アイテムの関連情報とを組み合わせた情報を含んでいれば、上記一実施の形態と同様に本発明を適用することができる。
また、上記一実施の形態においては、正規情報抽出サーバ100a、UGC情報抽出サーバ100b、一般情報抽出サーバ100c及び評価装置200を別体として設けるものとしたが、これらの全部又は一部を一体的に設けることも可能である。
なお、上記一実施の形態においては、正規情報及びUGC情報以外の一般的な情報を含むウェブ情報を一般情報としたが、正規情報及びUGC情報を含む全般のウェブ情報を一般情報としても良い。この場合、正規タグ及びUGCタグを含むすべてのタグが一般タグに含まれると考えられるが、例えば一般タグの相対的な量などに基づいてウェイトを決定したり、量が少ない場合はタグに含めなかったりする処理を行えば良い。
さらに、上記一実施の形態において説明した情報評価方法をコンピュータが実行可能な形式で記述した情報評価プログラムを生成し、この情報評価プログラムをコンピュータに実行させることにより、上記一実施の形態における正規情報抽出サーバ100a、UGC情報抽出サーバ100b、一般情報抽出サーバ100c及び評価装置200と同等の効果を得ることも可能である。このとき、情報評価プログラムをコンピュータが読み取り可能な記録媒体に記憶させ、記録媒体を用いてコンピュータに情報評価プログラムを導入することも可能である。