JP2019057022A

JP2019057022A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2019057022A
Application number: JP2017180066A
Authority: JP
Inventors: 智輝齋藤; Tomoki Saito; 樹生豊田; Mikio Toyoda; 真也夜久; Shinya Yaku; 宏希岩澤; Hiroki Iwasawa; 健萩原; Takeshi Hagiwara
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2019-04-11
Anticipated expiration: 2037-09-20
Also published as: JP6971104B2

Abstract

【課題】不適切な情報が検索結果とともに出力されるのを抑制すること。【解決手段】コンテンツ情報において対象テキストデータに関連付けられたエンティティ毎に、第１種類の関連ウェブページにおいて、対象テキストデータがリンク先を示すテキストとして含まれる第１確率と、第２種類の関連ウェブページにおいて、コンテンツ情報において対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された第２確率とのうち、少なくとも１つと、第１種類の関連ウェブページまたは第２種類の関連ウェブページにおけるテキストにより示されるリンク先にあるウェブページが、コンテンツ情報において対象テキストデータと関連付けられるエンティティのウェブページである第３の確率とに基づいて、対象テキストデータに対応するエンティティとしての評価を行う評価部と、を備える情報処理装置。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、ウェブからデータ（文書や画像など）を収集し、収集したデータを自動的にデータベース化するクローラが知られている（特許文献１参照）。クローラは、ウェブページ中のリンクを辿って、様々なＩＰアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。

一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページやアプリページの情報（例えばＵＲＬ：Uniform Resource Locator）をデータベースから取得し、取得した情報の一覧を検索結果として出力する。

特開２０１２−６９１７１号公報

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索ワード（クエリ）に関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに対応付けて記憶したデータベースが用いられる場合がある。ここで、データベースにおいて、ある特定のエンティティにのみ対応付けられているテキストデータがクエリとして入力されると、自ずと、その特定のエンティティが検索結果とともに出力されることになる。しかしながら、このテキストデータが、エンティティに関する情報として誤りである又は適切ではない場合、不適切な情報が検索結果とともに出力される可能性がある。

本発明は、このような事情を考慮してなされたものであり、不適切な情報が検索結果とともに出力されるのを抑制することができる情報処理装置を提供することを目的の一つとする。

本発明の一態様は、エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、任意の対象のテキストデータを選択する選択部と、前記選択部によって選択された対象テキストデータに関連する一以上の関連ウェブページを収集する収集部と、前記コンテンツ情報において前記対象テキストデータに関連付けられたエンティティ毎に、前記収集部によって収集された一以上の関連ウェブページのうち第１種類の関連ウェブページにおいて、前記対象テキストデータがリンク先を示すテキストとして含まれる第１確率と、前記一以上の関連ウェブページのうち第２種類の関連ウェブページにおいて、前記コンテンツ情報において前記対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された第２確率とのうち、少なくとも１つと、前記第１種類の関連ウェブページまたは前記第２種類の関連ウェブページにおける前記テキストにより示されるリンク先にあるウェブページが、前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページである第３の確率とに基づいて、前記対象テキストデータに対応するエンティティとしての評価を行う評価部と、を備える情報処理装置である。

本発明の一態様によれば、不適切な情報が検索結果とともに出力されるのを抑制することができる。

本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。本実施形態に係るナレッジグラフの一例を示す図である。本実施形態に係る「野球選手Ａ」のウェブページの一例を示す図である。本実施形態に係る「野球チームＢ」のウェブページの一例を示す図である。本実施形態に係るコンテンツ情報の一例を示す図である。本実施形態に係る検索結果ウェブページの一例を示す図である。本実施形態に係るコンテンツ情報の他の一例を示す図である。本実施形態に係る検索結果ウェブページの他の一例を示す図である。本実施形態に係る収集部が収集した関連ウェブページの一例を示す図である。本実施形態に係る収集部が収集した関連ウェブページの他の一例を示す図である。本実施形態に係る同一のエンティティの一例を示す図である。本実施形態に係る「野球選手Ａ」のウェブページの他の一例を示す図である。本実施形態に係るコンテンツ情報及び得点の一例を示す図である。本実施形態のナレッジデータサーバの得点を算出する動作の一例を示す流れ図である。本実施形態のナレッジデータサーバ得点に基づく動作の一例を示す流れ図である。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ（例えば、画像やテキストデータ）を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。エンティティとは、例えば、ある対象事物の実体（例えば、実世界で存在している物体）を表していてもよいし、ある対象事物の概念（例えば、実世界または仮想世界の中で定義された概念）を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。

＜実施形態＞
＜１−１．ナレッジデータサーバの使用環境＞
図１は、本実施形態に係るナレッジデータサーバ１００の使用環境及び構成を示す図である。ナレッジデータサーバ１００は、端末装置２００と、ウェブサーバ３００と、クロール対象機器ＤＶと、ネットワークＮＷを介して通信可能に接続される。ネットワークＮＷは、ワールドワイドウェブ（World Wide Web）を意味し、インターネットやイントラネットで標準的に用いられるＨＴＭＬ文書などを利用したシステムである。ネットワークＮＷは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。

端末装置２００は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ３００は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置２００に提供するサーバである。

ナレッジデータサーバ１００は、例えば、制御部１１０と、記憶部１２０とを備える。記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部１２０の一部または全部は、ＮＡＳ（Network Attached Storage）や外部のストレージサーバなど、ナレッジデータサーバ１００がアクセス可能な外部装置であってもよい。記憶部１２０には、ナレッジグラフ（以下、ナレッジグラフＤ１）と、コンテンツ情報Ｄ２とが記憶される。

図２は、本実施形態に係るナレッジグラフＤ１の一例を示す図である。ナレッジグラフＤ１において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報１」や「Ｃ１」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

ナレッジグラフＤ１は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。

図２示される例のナレッジグラフＤ１は、エンティティＥ１と、エンティティＥ２とが、「所属チーム」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報（以下、エンティティ識別情報ＥＩＤ）と、エンティティ名と、当該エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、ＵＲＬ（Uniform Resource Locator）である。所在情報が示すウェブページには、当該エンティティの関連データが記載されている。図２に示すナレッジグラフＤ１において、エンティティＥ１には、エンティティ識別情報ＥＩＤの「０００１」と、エンティティ名の「野球選手Ａ」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／野球選手Ａ」というＵＲＬとが対応付けられている。また、エンティティＥ２には、エンティティ識別情報ＥＩＤの「０００２」と、エンティティ名「野球チームＢ」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／野球チームＢ」というＵＲＬとが対応付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。

図３は、本実施形態に係る「野球選手Ａ」のウェブページの一例を示す図である。「野球選手Ａ」のウェブページには、「野球選手Ａ」の関連データが記載されている。また、図４は、本実施形態に係る「野球チームＢ」のウェブページの一例を示す図である。「野球チームＢ」のウェブページには、「野球チームＢ」の関連データが記載されている。

図５は、本実施形態に係るコンテンツ情報Ｄ２の一例を示す図である。コンテンツ情報Ｄ２とは、エンティティと、テキストデータとが関連付けられた情報である。コンテンツ情報Ｄ２は、ウェブページに含まれる関連データを収集した収集結果又は検索エンジンの検索ログに基づいて生成される。コンテンツ情報Ｄ２は、例えば、エンティティのウェブページに含まれるテキストデータが収集され、収集されたテキストデータと、エンティティとが関連付けられた情報である。また、コンテンツ情報Ｄ２は、例えば、エンティティがクエリとして入力された際、当該エンティティと共に入力されたテキストデータと、エンティティとが関連付けられた情報である。図５に示される一例のコンテンツ情報Ｄ２において、「野球選手Ａ」というエンティティには、「３０００本安打」というテキストデータが関連付けられ、「野球チームＢ」というエンティティには、「２０１７年優勝」というテキストデータが関連付けられる。

＜１−２．検索結果をウェブページ＞
図６は、本実施形態に係る検索結果ウェブページの一例を示す図である。図６に示されるように、表示部２１０には、クエリ入力領域２１１と、ナレッジパネル２２０と、検索結果２３０とが含まれる検索結果ウェブページが表示される。ナレッジパネル２２０には、クエリに対応するエンティティ２２１と、エンティティ２２１に関連する画像２２２と、エンティティ２２１に関連する関連情報２２３とが含まれる。ユーザは、端末装置２００を用いて、端末装置２００の表示部２１０に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置２００は、ユーザによって入力されたクエリをウェブサーバ３００に送信する。

ウェブサーバ３００は、端末装置２００から受信したクエリをナレッジデータサーバ１００に送信する。ナレッジデータサーバ１００は、受信したクエリに対応するエンティティに関連する情報をウェブサーバ３００に送信する。ナレッジデータサーバ１００は、例えば、コンテンツ情報Ｄ２に基づいて、受信したクエリ（テキストデータ）に関連付けられたエンティティを判定する。また、ナレッジデータサーバ１００は、ナレッジグラフＤ１に基づいて、判定したエンティティに対応付けられた所在情報をウェブサーバ３００に送信する。ウェブサーバ３００は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ３００は、抽出したエンティティの関連データ（この一例では、ナレッジパネル２２０に示す情報）を含めた検索結果ウェブページ（例えば、図６）を生成する。

図６に示される例においては、クエリとして「３０００本安打」が入力され、ナレッジパネル２２０には「３０００本安打」に関連する画像や様々な情報が表示されている。ナレッジパネル２２０には、例えば、「３０００本安打」を達成した「野球選手Ａ」の画像２２２や、「野球選手Ａ」の生年月日や出身地等の関連情報２２３が表示される。このように、検索結果２３０だけでなく、ナレッジパネル２２０を表示部２１０に表示することで、検索結果に対するユーザ満足度を向上させることができる。

＜１−３．少数派のテキストデータが関連付けられたコンテンツ情報Ｄ２＞
図７は、本実施形態に係るコンテンツ情報Ｄ２の他の一例であるコンテンツ情報Ｄ２ａを示す図である。ここで、コンテンツ情報Ｄ２において異なる複数のエンティティに同一のテキストデータが関連付けられる場合がある。例えば、人物を示すエンティティには、人物の性別を示す「男性」のテキストデータや「女性」のテキストデータが対応付けられる。このため、エンティティがそれぞれ異なる人物を示す場合であっても、同一のテキストデータ（例えば、「男性」や「女性」）が対応付けられる。これに対して、エンティティには、他のエンティティにあまり対応付けられないテキストデータが対応付けられる場合がある。図７は、エンティティに少数派のテキストデータが対応付けられたコンテンツ情報Ｄ２（以下、コンテンツ情報Ｄ２ａ）を示す図である。

図７に示される例において、コンテンツ情報Ｄ２ａは、「野球選手Ａ」というエンティティに対し、「暴力男」という少数派のテキストデータが関連付けられている。ここで、コンテンツ情報Ｄ２の生成する時点では、エンティティに関連付けられるテキストデータが一般的な意見であるか（多数派であるか）又は少数派の意見であるかについては検証されない。例えば、「野球選手Ａ」に対して少数派の内容（例えば、「暴力男」）を記載したウェブページがネットワークＮＷに存在する場合、当該ウェブページに基づいて、図７に示されるようなコンテンツ情報Ｄ２ａが生成される。

＜１−４．少数派の意見に基づくナレッジパネル２２０＞
図８は、本実施形態に係る検索結果ウェブページの他の一例を示す図である。クエリ入力領域２１１に少数派の意見であるテキストデータが入力されることに伴って、表示部２１０には、当該テキストデータに関連付けられているエンティティの情報を、例えば、ナレッジパネル２２０に表示した検索結果ウェブページが表示される。図８に示される例においては、クエリ入力領域２１１に「暴力男」というテキストデータが入力された場合、ナレッジデータサーバ１００は、「暴力男」に関連付けられているエンティティが、「野球選手Ａ」であると判定する。そして、ナレッジデータサーバ１００は、クエリに応じたエンティティの情報として、「野球選手Ａ」のウェブページの所在情報をウェブサーバ３００に供給する。ウェブサーバ３００は、「暴力男」に関連する関連データとして「野球選手Ａ」の画像２２２や、「野球選手Ａ」の生年月日や出身地等の関連情報２２３を含むナレッジパネル２２０を表示する検索結果ウェブページを生成する。この場合、ユーザは、検索結果ウェブページを参照し、「野球選手Ａ」が「暴力男」であるという印象を受ける。また、悪意あるユーザは、「野球選手Ａ」が「暴力男」であるという悪い印象を与えたい場合、「野球選手Ａ」が「暴力男」であるという内容をウェブページに記載することにより、ナレッジグラフＤ１にこの関係が登録されるように誘導し、図８に示されるような検索結果ウェブページを表示させることができる。

このような処理が行われることを抑制するため、エンティティに関連付けられたテキストデータは、当該テキストデータが多数派であるか又は少数派であるかを示す指標が取得されることが好ましい。本実施形態のナレッジデータサーバ１００は、エンティティに関連付けられるテキストデータが適切であるかを示す指標（以下、得点）を導出する。以下、ナレッジデータサーバ１００の詳細な構成について説明する。

＜１−５．ナレッジデータサーバ１００の構成＞
図１に戻り、制御部１１０は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。制御部１１０は、例えば、選択部１１１と、収集部１１２と、得点算出部１１３と、所在情報取得部１１４と、通信Ｉ／Ｆ（Interface）１１５を備える。また、これらの構成要素のうち一部または全部（内包する記憶部を除く）は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信Ｉ／Ｆ１１５は、ネットワークＮＷを介した各機能部と、他の機器（例えば、クロールの対象機器（以下、クロール対象機器ＤＶ）、端末装置２００、及びウェブサーバ３００）との通信を仲介する。

選択部１１１は、コンテンツ情報Ｄ２から得点算出対象の任意のテキストデータ（以下、対象テキストデータ）を選択する。収集部１１２は、選択部１１１によって選択された対象テキストデータに関連するウェブページ（以下、関連ウェブページ）を、ネットワークＮＷを介して収集する。収集部１１２が収集するウェブページとは、例えば、利用者によって編集可能な百科事典のウェブページや、対象テキストデータをクエリとした場合の検索結果ウェブページである。以下、利用者によって編集可能な百科事典のウェブページを、百科事典ウェブページと記載する。ここで、百科事典ウェブページとは、第１種類の関連ウェブページの一例である。また、検索結果ウェブページとは、第２種類の関連ウェブページの一例である。

図９は、収集部１１２が収集した百科事典ウェブページの一例を示す図である。図９に示される例においては、収集部１１２は、百科事典ウェブページのうち、コンテンツ情報Ｄ２が示す「野球選手Ａ」のエンティティに関連付けられる「３０００本安打」という対象テキストデータが記載された関連ウェブページを収集する。収集部１１２は、例えば、百科事典ウェブページのＨＴＭＬ（HyperText Markup Language）データを含む収集対象データを、ネットワークＮＷを介してクロール対象機器ＤＶから収集する。収集部１１２は、いわゆるクローラプログラムにより実現される。ここで、収集対象データは、ネットワークＮＷ上（クロール対象機器ＤＶの記憶領域内）にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。ネットワークＮＷは、ワールドワイドウェブ（World Wide Web）を意味し、インターネットやイントラネットで標準的に用いられるＨＴＭＬ文書などを利用したシステムである。収集対象データは、例えば、ＨＴＭＬのソースを示すテキストデータを含む関連ウェブページである。収集部１１２は、百科事典ウェブページのうち、対象テキストデータが記載された関連ウェブページが存在する場合、そのすべてを収集する。

また、図１０は、収集部１１２が収集した検索結果ウェブページの一例を示す図である。図１０に示される例においては、検索結果ウェブページは、コンテンツ情報Ｄ２が示すエンティティ「野球選手Ａ」が検索結果として表示される、「３０００本安打」というクエリ（図示するテキストＴＸ２１）が入力された場合の検索結果を示している。クエリは、対象テキストデータの一例である。

図１に戻り、得点算出部１１３は、収集部１１２によって収集された関連ウェブページに基づいて、対象テキストデータとエンティティとの組の得点を算出する。収集部１１２は、例えば、式（１）が示すＰ（ｅ｜ｓ）の値を得点として算出する。式（１）における各種要素については、後述する式（２）、（３）並びに関連ウェブページの種類ごとに説明する。

以下、関連ウェブページが百科事典ウェブページである場合の得点算出処理の詳細について説明し、次に、関連ウェブページが検索結果ウェブページである場合の得点算出処理の詳細について説明する。

＜１−６．関連ウェブページが百科事典ウェブページの場合＞
得点算出部１１３は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト（アンカーテキスト）として含まれる確率を算出する。関連ウェブページには、対象テキストデータ（この一例では、「３０００本安打」（図示するテキストＴＸ１１）と関連付けられたエンティティ（この一例では、「野球選手Ａ」）を示すテキストデータ（図示するテキストＴＸ１２〜１４）が含まれる。また、テキストＴＸ１２〜１４のうち、テキストＴＸ１２は、アンカーテキストである。また、テキストＴＸ１２に付与された他のウェブページのリンクは、ナレッジグラフＤ１において、対象テキストデータに関連付けられたエンティティ（この一例では、「野球選手Ａ」）に対応付けられた所在情報である。

ここで、得点算出部１１３は、以下の式（２）によって、対象テキストデータを含むすべての百科事典ウェブページにおける対象テキストの数に対して、アンカーテキストである対象テキストデータの数によって求められる確率（以下、アンカーテキスト確率）を算出する。式（２）におけるａ_ｓは、アンカーテキスト確率を示している。ここで、アンカーテキスト確率とは、第１確率の一例である。

また、得点算出部１１３は、以下の式（３）によって、当該アンカーテキストのリンク先が、ナレッジグラフＤ１において対象テキストデータと関連付けられた所在情報に対応するエンティティのウェブページ（以下、特定のウェブページ）である確率（以下、第１エンティティ確率）を算出する。式（３）におけるｅとは、第１エンティティ確率を示している。ここで、第１エンティティ確率とは、第３確率の一例である。

収集部１１２が収集した関連ウェブページが図９に示すウェブページのみである場合、得点算出部１１３は、すべての関連ウェブページに含まれる対象テキストデータのうち、当該対象テキストデータがアンカーテキストである確率（つまり、アンカーテキスト確率）を「１／３」と算出する。図示する対象テキストデータの中で、リンクが付与されるのは一つだからである（二つ以上付与されている場合も一つとカウントしてよい）。また、得点算出部１１３は、当該アンカーテキストのリンク先が、対象テキストデータと関連付けられるエンティティの特定のウェブページである確率（第１エンティティ確率）を「１」と算出する。

＜１−７．関連ウェブページが検索結果ウェブページの場合＞
得点算出部１１３は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「３０００本安打」（図示するテキストＴＸ２１）であり、対象テキストデータと対応け付られたエンティティは、「野球選手Ａ」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図１０の例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ（図示するテキストＴＸ２２〜２４）が含まれる。このうち、対象エンティティテキストデータ（この一例では、「野球選手Ａ」）が含まれるのは、テキストＴＸ２２である。テキストＴＸ２２に付与されたリンク先は、例えば、ナレッジグラフＤ１において、対象テキストデータに関連付けられたエンティティ（この一例では、「野球選手Ａ」）に対応付けられた所在情報である。つまり、テキストＴＸ２２が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストＴＸ２５が含まれてよい。

得点算出部１１３は、式（２）によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象エンティティテキストデータを含むリンク先がクリックされた回数の比として求められる確率（以下、エンティティテキストクリック確率）を算出する。なお、「クリック」とは、選択することの一例であり、タッチ、タップその他の態様で選択されてもよい。以下の説明では代表してクリックと称する。式（２）におけるａ_ｓは、エンティティテキストクリック確率を示している。ここで、エンティティテキストクリック確率とは、第２確率の一例である。

また、得点算出部１１３は、式（３）によって、対象エンティティテキストデータを含むリンク先が、エンティティに関する特定のウェブページである確率（以下、第２エンティティ確率）を算出する。式（３）におけるｅは、第２エンティティ確率を示している。ここで、第２エンティティ確率とは、第３確率の他の一例である。

＜１−８．異なる事物を指す同一のエンティティが含まれる場合＞
ここで、エンティティは、同一の文言であっても異なる事物を指す場合がある。図１１は、同一の文言によって異なるエンティティのウェブページにリンクしている例を示す図である。図１１に示される一例において、テキストＴＸ２２は、「野球選手Ａ」のウェブページ（例えば、図３）のリンク先を示す。これに対し、テキストＴＸ２６は、「野球選手Ａ」同姓同名の野球選手であって、「野球選手Ａ」とは異なる野球チームＣに所属する選手のウェブページのリンク先を示す。得点算出部１１３は、式（２）において、テキストＴＸ２６がクリックされた場合もエンティティクリック確率に算入する。

図１２は、エンティティを示す文言からリンクした、別のエンティティに関するウェブページの一例を示す図である。図１２に示される「野球選手Ａ」のウェブページには、「３０００本安打」というテキストデータに関連付けられる「野球選手Ａ」（図３に示される「野球選手Ａ」）とは異なる野球選手である「野球選手Ａ」に関連する関連データが記載されている。

得点算出部１１３は、第１エンティティ確率を算出する際、当該リンク先が図１２に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。
また、得点算出部１１３は、第２エンティティ確率を算出する際も、当該リンク先が図１２に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。

＜１−９．関連ウェブページ毎の重み付け＞
また、得点算出部１１３は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第１エンティティ確率を乗じた値に対して、以下の式（４）を更に乗じてもよい。また、得点算出部１１３は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第２エンティティ確率を乗じた値に対して、以下の式（４）を更に乗じてもよい。そして、得点算出部１１３は、例えば、両者を加算して対数を求めることで、スコアを算出する。

式（４）は、百科事典ウェブページを用いて式（２）および式（３）を計算したサンプル数と、検索結果ウェブページを用いて式（２）および式（３）を計算したサンプル数との割合を示す。

得点算出部１１３は、百科事典ウェブページを用いて式（２）および式（３）を計算したサンプル数の割合を、アンカーテキスト確率と、第１エンティティ確率とを乗じた値に更に乗じ、検索結果ウェブページを用いて式（２）および式（３）を計算したサンプル数の割合を、エンティティテキストクリック確率と、第２エンティティ確率とを乗じた値に更に乗じ、両者を加算することで、得点に重み付けを行う。

得点算出部１１３は、算出した得点をコンテンツ情報Ｄ２に対応付けて記憶させる。図１３は、本実施形態に係るコンテンツ情報Ｄ２及び得点の一例を示す図である。

図１に戻り、所在情報取得部１１４は、記憶部１２０に記憶されたコンテンツ情報Ｄ２を参照して、ウェブサーバ３００から受信したクエリに対応するエンティティを取得する。所在情報取得部１１４は、受信したクエリと合致するテキストデータに所定の閾値以上の得点が対応付けられている場合、当該テキストデータに対応付けられているエンティティを、当該クエリに対応するエンティティとして判定する。所在情報取得部１１４は、ナレッジグラフＤ１に基づいて、判定したエンティティに対応付けられている所在情報を取得する。その後、所在情報取得部１１４は、取得した所在情報をウェブサーバ３００に送信する。ここで、所在情報取得部１１４は、判定部の一例である。

このように、所在情報取得部１１４は、ウェブサーバ３００からクエリを受信した場合、クエリに対応するテキストデータを特定する。このとき、クエリとテキストデータとが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するテキストデータとみなしてよい。

＜１−１０．ナレッジデータサーバ１００の動作＞
以下、ナレッジデータサーバ１００の動作について説明する。図１４は、本実施形態のナレッジデータサーバ１００の得点を算出する動作の一例を示す流れ図である。選択部１１１は、コンテンツ情報Ｄ２のうち、得点算出対象の対象テキストデータを選択する（Ｓ１１０）。次に、収集部１１２は、対象テキストデータに基づいて、関連ウェブページ（百科事典ウェブページ及び検索結果ウェブページ）を収集する（Ｓ１２０）。次に、得点算出部１１３は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する（Ｓ１３０）。

次に、得点算出部１１３は、第１エンティティ確率及び第２エンティティ確率を算出する（Ｓ１４０）。そして、得点算出部１１３は、百科事典ウェブページに基づくアンカーテキスト確率、第１エンティティ確率、及び第１コンテンツ割合を乗じた値と、検索結果ウェブページに基づくエンティティテキストクリック確率、第２エンティティ確率、及び第２コンテンツ割合を乗じた値との乗を得点として算出し（Ｓ１５０）算出した得点をコンテンツ情報Ｄ２に対応付けて記憶部１２０に記憶させる（Ｓ１６０）。

図１５は、本実施形態のナレッジデータサーバ１００の得点に基づく動作の一例を示す流れ図である。所在情報取得部１１４は、ウェブサーバ３００からクエリを受信する（Ｓ２１０）。次に、所在情報取得部１１４は、コンテンツ情報Ｄ２のうち、クエリと合致するテキストデータに対応付けられている得点を読み出す（Ｓ２２０）。次に、所在情報取得部１１４は、得点が所定の閾値以上であるかを判定する（Ｓ２３０）。所在情報取得部１１４は、得点が所定の閾値以上である場合、ナレッジグラフＤ１においてテキストデータに関連付けられているエンティティの所在情報をウェブサーバ３００に送信する（Ｓ２４０）。また、所在情報取得部１１４は、特定が所定の閾値未満である場合、ウェブサーバ３００に所在情報を送信しない（Ｓ２５０）。

＜１−１１．得点算出のバリエーション＞
なお、上述では、得点算出部１１３が、アンカーテキスト確率、エンティティテキストクリック確率、第１エンティティ確率、第２エンティティ確率、第１コンテンツ割合及び第２コンテンツ割合に基づいて、得点を算出する場合について説明したが、これに限られない。例えば、関連ウェブページのうち、収集された百科事典ウェブページの数が少ない場合、百科事典ウェブページに関する各種値（例えば、アンカーテキスト確率、第１エンティティ確率、及び第１コンテンツ割合）が得点の算出に与える影響は、少ない可能性がある。したがって、得点算出部１１３は、アンカーテキスト確率、第１エンティティ確率、及び第１コンテンツ割合を得点の算出に用いなくてもよい。また、関連ウェブページのうち、収集された検索結果ウェブページの数が少ない場合、検索結果ウェブページに関する各種値（例えば、エンティティテキストクリック確率、第２エンティティ確率及び第２コンテンツ割合）が得点の算出に与える影響は、少ない可能性がある。したがって、得点算出部１１３は、エンティティテキストクリック確率、第２エンティティ確率及び第２コンテンツ割合を得点の算出に用いなくてよい。

＜１−１２．得点以外の評価方法＞
また、上述では、コンテンツ情報Ｄ２のテキストデータは、得点算出部１１３が算出した得点によって評価される場合について説明したが、これに限られない。得点算出部１１３は、例えば、算出した得点に基づいて、対象テキストデータを「適当」及び「不適当」の２段階によって評価する構成であってもよい。この場合、得点算出部１１３は、算出した得点が所定の閾値以上である場合、対象テキストデータに「適当」を示す情報を対応付ける。また、得点算出部１１３は、算出した得点が所定の閾値未満である場合、対象テキストデータに「不適当」を示す情報を対応付ける。所在情報取得部１１４は、取得したクエリが「不適当」が対応付けられているテキストデータと合致する場合、テキストデータに関連付けられているエンティティの所在情報を供給することが「不適当」であると判定し、当該所在情報をウェブサーバ３００に供給しない。なお、得点算出部１１３は、対象テキストデータを２段階評価する構成に代えて、３段階以上の評価を行ってもよい。

以上、説明したように、本実施形態のナレッジデータサーバ１００は、エンティティとテキストデータとが関連付けられたコンテンツ情報Ｄ２のうち、任意の対象のテキストデータを選択する選択部１１１と、選択部１１１によって選択された対象テキストデータに関連する一以上の関連ウェブページを収集する収集部１１２と、コンテンツ情報Ｄ２において対象テキストデータに関連付けられたエンティティ毎に、収集部１１２によって収集された一以上の関連ウェブページのうち第１種類の関連ウェブページにおいて、対象テキストデータがリンク先を示すテキストとして含まれる第１確率と、一以上の関連ウェブページのうち第２種類の関連ウェブページにおいて、コンテンツ情報Ｄ２において対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された第２確率とのうち、少なくとも１つと、第１種類の関連ウェブページまたは第２種類の関連ウェブページにおけるテキストにより示されるリンク先にあるウェブページがコンテンツ情報Ｄ２において対象テキストデータと関連付けられるエンティティのウェブページである第３の確率とに基づいて、対象テキストデータに対応するエンティティとしての評価を行う評価部（得点算出部１１３）と、を備える。これによって、本実施形態のナレッジデータサーバ１００は、不適切な情報が検索結果とともに出力されるのを抑制することができる。

ここで、ネットワークＮＷに存在するウェブページには、エンティティに関連するワードとして適切ではない説明がなされたウェブページが存在する場合がある。しかしながら、適切ではない説明がなされたウェブページの数は、適切な説明がなされたウェブページの数と比較して少ない可能性がある。本実施形態のナレッジデータサーバ１００は、ネットワークＮＷに存在するウェブページ（百科事典ウェブページや検索結果ウェブページ）において、コンテンツ情報Ｄ２のテキストデータの出現確率が低い場合、当該テキストデータには、低い得点を付す。また、本実施形態のナレッジデータサーバ１００は、ネットワークＮＷに存在するウェブページにおいて、コンテンツ情報Ｄ２のテキストデータの出現確率が高い場合、当該テキストデータには、高い得点を付す。これにより、本実施形態のナレッジデータサーバ１００は、エンティティに関連するワードとして適切であるかの指標として得点を算出することができる。

また、本実施形態のナレッジデータサーバ１００において、得点算出部１１３は、検索結果ウェブページからコンテンツ情報Ｄ２において対象テキストデータと関連付けられるエンティティのウェブページに遷移した事象と、百科事典ウェブページから前記コンテンツ情報において対象テキストデータと関連付けられるエンティティのウェブページに遷移した事象との発生確率の割合に応じて、第１確率と、第２確率とに重み付けをする。本実施形態のナレッジデータサーバ１００によれば、エンティティに関連するワードとして適切であるかの指標として得点をより精度高く算出することができる。

また、本実施形態のナレッジデータサーバ１００において収集部１１２は、関連ウェブページ（この一例では、百科事典ウェブページ）を、少なくとも利用者によって編集可能な百科事典から収集する。また、本実施形態のナレッジデータサーバ１００において、収集部１１２は、少なくとも対象テキストデータをクエリとして用いた場合の検索結果を表示するためのウェブページ（この一例では、検索結果ウェブページ）を、関連ウェブページとして収集する。ここで、ネットワークＮＷに存在る検索対象を検索する際、検索対象範囲を定めずに検索する場合、検索に係る処理の負荷が膨大になる可能性がある。本実施形態のナレッジデータサーバ１００によれば、関連ウェブページとして百科事典ウェブページ及び検索結果ウェブページを収集する。したがって、本実施形態のナレッジデータサーバ１００は、簡便な処理によって関連ウェブページを収集することができる。

また、本実施形態のナレッジデータサーバ１００において、所在情報取得部１１４は、入力されたクエリに対して、得点算出部１１３による評価結果（この一例では、得点又は２段階の評価）を参照し、検索結果に付加して出力すべきか否かを判定する。具体的には、本実施形態のナレッジデータサーバ１００は、評価部（この一例では、得点算出部１１３）は、対象テキストデータに対応するエンティティの得点を算出し、判定部（この一例では、所在情報取得部１１４）は、得点が所定の閾値以上である場合、当該得点が関連付けられたエンティティの情報を出力させ、前記得点が所定の閾値より少ない場合、当該得点が関連付けられたエンティティの情報を出力させない。これにより、本実施形態のナレッジデータサーバ１００は、クエリがエンティティに対応付けられたテキストデータとして適切である場合当該エンティティ関連データをウェブサーバ３００に出力する。したがって、本実施形態のナレッジデータサーバ１００は、ナレッジパネル２２０を表示部２１０に表示することで、検索結果に対するユーザ満足度を向上させつつ、適切なナレッジパネル２２０を提供することができる。

＜１−１３．テキストデータのブラックリストについて＞
なお、上述では、ナレッジデータサーバ１００は、得点が所定の閾値以上である場合、ウェブサーバ３００にエンティティの所在情報を送信する場合について説明したが、これに限られない。ここで、クエリ入力領域２１１には、ナレッジパネル２２０を表示することに適さないクエリが入力される場合がある。ナレッジパネル２２０を表示することに適さないクエリとは、例えば、人物の名誉棄損となるワード、公序良俗を乱すワード及び商品の評判を貶めるワード等である。この場合、得点算出部１１３は、コンテンツ情報Ｄ２のうち、ウェブサーバ３００にエンティティの所在情報を提供しないコンテンツ情報Ｄ２を示す情報（以下、テキストデータブラックリスト）を生成する構成であってもよい。得点算出部１１３は、例えば、人物の名誉棄損となるワード、公序良俗を乱すワード及び商品の評判を貶めるワード等の辞書を参照し、コンテンツ情報Ｄ２のうち、当該辞書に含まれるワードと合致するテキストデータをテキストデータブラックリストに含める。この場合、所在情報取得部１１４は、クエリと合致するテキストデータがテキストデータブラックリストに含まれる場合、当該テキストデータの得点に関わらず、ウェブサーバ３００にエンティティの所在情報を送信しない。また、ウェブサーバ３００は、テキストデータブラックリストに含まれるクエリがクエリ入力領域２１１に入力されたことに応じて、エンティティの所在情報を受信しないため、ナレッジパネル２２０を表示しない。

以上説明したように、本実施形態のナレッジデータサーバ１００において、得点算出部１１３は、エンティティの情報（この一例では、所在情報）を出力しない対象テキストデータと、当該テキストデータに関連付けられたエンティティを示す非出力コンテンツ情報（この一例では、テキストデータブラックリスト）を生成し、テキストデータブラックリストを参照し、入力されたクエリに対する検索結果に付加してエンティティの情報を出力すべきか否かを判定する判定部（この一例では、所在情報取得部１１４）を備える。これにより、本実施形態のナレッジデータサーバ１００は、ナレッジパネル２２０を表示することに適さないクエリに応じて、ナレッジパネル２２０が表示されることを抑制することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１００…ナレッジデータサーバ
１１０…制御部
１１１…選択部
１１２…収集部
１１３…得点算出部
１１４…所在情報取得部
１２０…記憶部
２００…端末装置
２１０…表示部
２１１…クエリ入力領域
２２０…ナレッジパネル
２２１…エンティティ
２２２…画像
２２３…関連情報
２３０…検索結果
３００…ウェブサーバ
Ｄ１…ナレッジグラフ
Ｄ２、Ｄ２ａ…コンテンツ情報

Claims

エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、任意の対象のテキストデータを選択する選択部と、
前記選択部によって選択された対象テキストデータに関連する一以上の関連ウェブページを収集する収集部と、
前記コンテンツ情報において前記対象テキストデータに関連付けられたエンティティ毎に、
前記収集部によって収集された一以上の関連ウェブページのうち第１種類の関連ウェブページにおいて、前記対象テキストデータがリンク先を示すテキストとして含まれる第１確率と、
前記一以上の関連ウェブページのうち第２種類の関連ウェブページにおいて、前記コンテンツ情報において前記対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された第２確率とのうち、少なくとも１つと、
前記第１種類の関連ウェブページまたは前記第２種類の関連ウェブページにおける前記テキストにより示されるリンク先にあるウェブページが、前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページである第３の確率とに基づいて、
前記対象テキストデータに対応するエンティティとしての評価を行う評価部と、
を備える情報処理装置。
前記評価部は、前記第１種類の関連ウェブページから前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページに遷移した事象と、前記第２種類の関連ウェブページから前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページに遷移した事象との発生確率の割合に応じて、前記第１確率と前記第２確率とに重み付けをする、
請求項１に記載の情報処理装置。
前記第１種類の関連ウェブページは、利用者によって編集可能な百科事典のウェブページである、
請求項１又は請求項２に記載の情報処理装置。
前記第２種類の関連ウェブページは、前記対象テキストデータをクエリとして用いた場合の検索結果を表示するウェブページである、
請求項１から請求項３のいずれか一項に記載の情報処理装置。
入力されたクエリに対して、前記評価部による評価結果を参照し、前記エンティティに関する情報を検索結果に付加して出力すべきか否かを判定する判定部を更に備える、
請求項１から請求項４のいずれか一項に記載の情報処理装置。
前記評価部は、前記対象テキストデータに対応するエンティティの得点を算出し、
前記判定部は、前記得点が所定の閾値以上である場合、当該得点が関連付けられたエンティティの情報を出力し、前記得点が所定の閾値より少ない場合、ナレッジデータに当該得点が関連付けられたエンティティの情報を出力しないと決定する、
請求項５に記載の情報処理装置。
前記判定部は、エンティティの情報を出力しない前記対象テキストデータと、当該テキストデータに関連付けられたエンティティを示す非出力コンテンツ情報を生成しておき、前記非出力コンテンツ情報を参照し、入力されたクエリに対する検索結果に付加して前記エンティティの情報を出力すべきか否かを判定する、
請求項５または６に記載の情報処理装置。
コンピュータが、
エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、任意の対象のテキストデータを選択し、
選択された対象テキストデータに関連する一以上の関連ウェブページを収集し、
前記コンテンツ情報において前記対象テキストデータに関連付けられたエンティティ毎に、
収集された一以上の関連ウェブページのうち第１種類の関連ウェブページにおいて、前記対象テキストデータがリンク先を示すテキストとして含まれる第１確率と、
前記一以上の関連ウェブページのうち第２種類の関連ウェブページにおいて、前記コンテンツ情報において前記対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された第２確率と、のうち、少なくとも１つと、
前記テキストにより示されるリンク先にあるウェブページが前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページである第３の確率とに基づいて、
前記対象テキストデータに対応するエンティティとしての評価を行う、
情報処理方法。
コンピュータに、
エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、任意の対象のテキストデータを選択させ、
選択された対象テキストデータに関連する一以上の関連ウェブページを収集させ、
前記コンテンツ情報において前記対象テキストデータに関連付けられたエンティティ毎に、
収集された一以上の関連ウェブページのうち第１種類の関連ウェブページにおいて、前記対象テキストデータがリンク先を示すテキストとして含まれる第１確率と、
前記一以上の関連ウェブページのうち第２種類の関連ウェブページにおいて、前記コンテンツ情報において前記対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された第２確率と、のうち、少なくとも１つと、
前記テキストにより示されるリンク先にあるウェブページが前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページである第３の確率とに基づいて、
前記対象テキストデータに対応するエンティティとしての評価を行わせる、
プログラム。