JP2020047102A

JP2020047102A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2020047102A
Application number: JP2018176380A
Authority: JP
Inventors: 樹生豊田; Mikio Toyoda; 智輝齋藤; Tomoki Saito; 真也夜久; Shinya Yaku; 葉子石川; Yoko Ishikawa; 宏希岩澤; Hiroki Iwasawa
Original assignee: Z Holdings Corp
Current assignee: LY Corp
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2020-03-26
Anticipated expiration: 2038-09-20
Also published as: JP6971210B2

Abstract

【課題】ユーザにより入力されたクエリの検索意図を適切に評価すること。【解決手段】クエリとして入力された２つ以上のワードのそれぞれと、エンティティとの関連度を示す第１指標値を算出する第１指標値算出部と、前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第２指標値を算出する第２指標値算出部と、前記エンティティ毎にコンテキストの候補を定義したリストを生成するリスト生成部と、前記第１指標値算出部により算出された前記第１指標値と、前記第２指標値算出部により算出された前記第２指標値と、前記リスト生成部により生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部とを備える情報処理装置。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、ウェブからデータ（文書や画像など）を収集し、収集したデータを自動的にデータベース化するクローラが知られている（特許文献１参照）。クローラは、ウェブページ中のリンクを辿って、様々なＩＰアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。

一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページやアプリページの情報（例えば、ＵＲＬ：Uniform Resource Locator）をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。

特開２０１２−６９１７１号公報

Matthew D. Hoffmanら、"Online Learning for Latent Dirichlet Allocation",[online]，[2018年2月27日検索]，インターネット＜URL：https://papers.nips.cc/paper/3902-online-learning-for-latent-dirichlet-allocation.pdf＞

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索ワード（以下、「クエリ」、「検索クエリ」とも言う）に関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに対応付けて記憶したデータベースが用いられる場合がある。

このデータベースにおいて、ある特定のエンティティにのみ対応付けられているテキストデータがクエリとして入力されると、自ずと、その特定のエンティティが検索結果とともに出力されることになる。一方、１つのテキストデータが複数のエンティティに対応付けられている場合、ユーザが意図しない不適切なエンティティに関する情報が検索結果とともに出力される可能性がある。また、１度の検索要求処理において入力されたクエリに複数のワードが含まれている場合、いずれのワードがエンティティを示しているのかを判定できず、不適切なエンティティに関する情報が検索結果とともに出力される可能性がある。

本発明は、このような事情を考慮してなされたものであり、ユーザにより入力されたクエリの検索意図を適切に評価することができる情報処理装置を提供することを目的の一つとする。

本発明の一態様は、クエリとして入力された２つ以上のワードのそれぞれと、エンティティとの関連度を示す第１指標値を算出する第１指標値算出部と、前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第２指標値を算出する第２指標値算出部と、前記エンティティ毎にコンテキストの候補を定義したリストを生成するリスト生成部と、前記第１指標値算出部により算出された前記第１指標値と、前記第２指標値算出部により算出された前記第２指標値と、前記リスト生成部により生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部とを備える情報処理装置である。

本発明の一態様によれば、ユーザにより入力されたクエリの検索意図を適切に評価することができる。

本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。本実施形態に係るナレッジグラフの一例を示す図である。本実施形態に係る「野球選手Ａ」のウェブページの一例を示す図である。本実施形態に係る「野球チームＢ」のウェブページの一例を示す図である。本実施形態に係るコンテンツ情報の一例を示す図である。本実施形態に係る検索結果ウェブページの一例を示す図である。本実施形態に係る収集部により収集された関連ウェブページの一例を示す図である。本実施形態に係る収集部により収集された関連ウェブページの他の一例を示す図である。本実施形態に係る収集部により収集された関連ウェブページの他の一例を示す図である。本実施形態に係る「野球選手Ａ」のウェブページの他の一例を示す図である。本実施形態に係るコンテンツ情報及び第１確率の一例を示す図である。本実施形態に係るコンテキスト収集部によるコンテキスト収集処理の一例を説明する図である。本実施形態に係るコンテキスト収集部によるコンテキスト収集処理の他の例を説明する図である。本実施形態に係るコンテキスト情報の一例を示す図である。本実施形態に係る第２確率算出部によるコンテキストの頻度情報の算出処理の一例を説明する図である。本実施形態のナレッジデータサーバの第１確率を算出する動作の一例を示す流れ図である。本実施形態のナレッジデータサーバの第２確率を算出する動作の一例を示す流れ図である。本実施形態のナレッジデータサーバの第２確率を算出する詳細動作の一例を示す流れ図である。本実施形態のナレッジデータサーバのホワイトリストを生成する動作の一例を示す流れ図である。本実施形態のホワイトリスト情報の一例を示す図である。本実施形態のナレッジデータサーバのコンテキスト付与率を算出する動作の一例を示す流れ図である。本実施形態のコンテキスト付与率情報の一例を示す図である。本実施形態のナレッジデータサーバのオンライン動作の一例を示す流れ図である。本実施形態のナレッジデータサーバのオンライン動作の一例を説明する図である。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ（例えば、画像やテキストデータ）を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。

エンティティとは、例えば、ある対象事物の実体（例えば、実世界で存在している物体）を表していてもよいし、ある対象事物の概念（例えば、実世界または仮想世界の中で定義された概念）を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。

＜実施形態＞
＜１−１．ナレッジデータサーバの使用環境＞
図１は、本実施形態に係るナレッジデータサーバ１００の使用環境及び構成を示す図である。ナレッジデータサーバ１００は、端末装置２００と、ウェブサーバ３００と、クロール対象機器ＤＶと、ネットワークＮＷを介して通信可能に接続される。ネットワークＮＷは、ワールドワイドウェブ（World Wide Web）を意味し、インターネットやイントラネットで標準的に用いられるＨＴＭＬ文書などを利用したシステムである。ネットワークＮＷは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。

端末装置２００は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ３００は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置２００に提供するサーバである。

ナレッジデータサーバ１００は、例えば、制御部１１０と、記憶部１２０とを備える。記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部１２０の一部または全部は、ＮＡＳ（Network Attached Storage）や外部のストレージサーバなど、ナレッジデータサーバ１００がアクセス可能な外部装置であってもよい。記憶部１２０には、例えば、ナレッジグラフ（以下、ナレッジグラフＤ１）と、コンテンツ情報Ｄ２と、コンテキスト情報Ｄ３と、ホワイトリスト情報Ｄ４と、コンテンツ付与率情報Ｄ５とが記憶される。

図２は、本実施形態に係るナレッジグラフＤ１の一例を示す図である。ナレッジグラフＤ１において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報１」や「Ｃ１」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

ナレッジグラフＤ１は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。

図２に示される例のナレッジグラフＤ１は、エンティティＥ１と、エンティティＥ２とが、「所属チーム」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報（以下、「エンティティ識別情報ＥＩＤ」）と、エンティティ名と、当該エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、ＵＲＬである。所在情報が示すウェブページには、当該エンティティの関連データが記載されている。

図２に示されるナレッジグラフＤ１において、エンティティＥ１には、エンティティ識別情報ＥＩＤの「０００１」と、エンティティ名の「野球選手Ａ」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／野球選手Ａ」というＵＲＬとが対応付けられている。また、エンティティＥ２には、エンティティ識別情報ＥＩＤの「０００２」と、エンティティ名「野球チームＢ」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／野球チームＢ」というＵＲＬとが対応付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。

図３は、本実施形態に係る「野球選手Ａ」のウェブページの一例を示す図である。「野球選手Ａ」のウェブページには、「野球選手Ａ」の関連データが記載されている。また、図４は、本実施形態に係る「野球チームＢ」のウェブページの一例を示す図である。「野球チームＢ」のウェブページには、「野球チームＢ」の関連データが記載されている。

図５は、本実施形態に係るコンテンツ情報Ｄ２の一例を示す図である。コンテンツ情報Ｄ２とは、エンティティと、テキストデータとが関連付けられた情報である。コンテンツ情報Ｄ２は、ウェブページに含まれる関連データを収集した収集結果又は検索エンジンの検索ログに基づいて生成される。コンテンツ情報Ｄ２は、例えば、エンティティのウェブページに含まれるテキストデータが収集され、収集されたテキストデータと、エンティティとが関連付けられた情報である。また、コンテンツ情報Ｄ２は、例えば、エンティティがクエリとして入力された際、当該エンティティと共に入力されたテキストデータと、エンティティとが関連付けられた情報である。図５に示される一例のコンテンツ情報Ｄ２において、「野球選手Ａ」というエンティティには、「３０００本安打」というテキストデータが関連付けられ、「野球チームＢ」というエンティティには、「２０１７年優勝」というテキストデータが関連付けられる。

＜１−２．検索結果ウェブページ＞
図６は、本実施形態に係る検索結果ウェブページの一例を示す図である。図６に示されるように、端末装置２００の表示部２１０には、クエリ入力領域２１１と、ナレッジパネル２２０と、検索結果２３０とが含まれる検索結果ウェブページが表示される。ナレッジパネル２２０には、クエリに対応するエンティティ２２１と、エンティティ２２１に関連する画像２２２と、エンティティ２２１に関連する関連情報２２３とが含まれる。ユーザは、端末装置２００を用いて、端末装置２００の表示部２１０に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置２００は、ユーザによって入力されたクエリをウェブサーバ３００に送信する。

ウェブサーバ３００は、端末装置２００から受信したクエリをナレッジデータサーバ１００に送信する。ナレッジデータサーバ１００は、受信したクエリに対応するエンティティに関連する情報をウェブサーバ３００に送信する。ナレッジデータサーバ１００は、例えば、受信したクエリがコンテンツ情報Ｄ２のエンティティに含まれている場合、当該エンティティを受信したクエリに関連付けられたエンティティと判定する。ナレッジデータサーバ１００は、例えば、コンテンツ情報Ｄ２に基づいて、受信したクエリ（テキストデータ）に関連付けられたエンティティを判定する。また、ナレッジデータサーバ１００は、ナレッジグラフＤ１に基づいて、判定したエンティティに対応付けられた所在情報をウェブサーバ３００に送信する。ウェブサーバ３００は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ３００は、抽出したエンティティの関連データ（この一例では、ナレッジパネル２２０に示す情報）を含めた検索結果ウェブページ（例えば、図６）を生成する。

図６に示される例においては、クエリとして「３０００本安打」が入力され、ナレッジパネル２２０には「３０００本安打」に関連する画像や様々な情報が表示されている。ナレッジパネル２２０には、例えば、「３０００本安打」を達成した「野球選手Ａ」の画像２２２や、「野球選手Ａ」の生年月日や出身地等の関連情報２２３が表示される。このように、検索結果２３０だけでなく、ナレッジパネル２２０を表示部２１０に表示することで、検索結果に対するユーザ満足度を向上させることができる。

＜１−３．ナレッジデータサーバ１００の構成＞
図１に戻り、制御部１１０は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。制御部１１０は、例えば、選択部１１１と、関連ページ収集部１１２と、第１確率算出部１１３（第１指標値算出部）と、コンテキスト収集部１１４と、第２確率算出部１１５（第２指標値算出部、頻度情報算出部）と、所在情報取得部１１６（生起確率算出部）と、通信Ｉ／Ｆ（Interface）１１７と、ホワイトリスト生成部１１８と、コンテキスト付与率算出部１１９とを備える。また、これらの構成要素のうち一部または全部（内包する記憶部を除く）は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信Ｉ／Ｆ１１７は、ネットワークＮＷを介した各機能部と、他の機器（例えば、クロールの対象機器（以下、クロール対象機器ＤＶ）、端末装置２００、及びウェブサーバ３００）との通信を仲介する。

選択部１１１は、コンテンツ情報Ｄ２から確率算出対象の任意のテキストデータ（以下、「対象テキストデータ」）を選択する。また、選択部１１１は、コンテンツ情報Ｄ２からホワイトリスト生成対象のエンティティを選択する。関連ページ収集部１１２は、選択部１１１によって選択された対象テキストデータに関連するウェブページ（以下、「関連ウェブページ」）を、ネットワークＮＷを介して収集する。関連ページ収集部１１２により収集されるウェブページとは、例えば、利用者によって編集可能な百科事典のウェブページ（以下、「百科事典ウェブページ」）や、対象テキストデータをクエリとした場合の検索結果ウェブページである。

図７は、関連ページ収集部１１２により収集された百科事典ウェブページの一例を示す図である。図７に示される例においては、関連ページ収集部１１２は、百科事典ウェブページのうち、コンテンツ情報Ｄ２が示す「野球選手Ａ」のエンティティに関連付けられる「３０００本安打」という対象テキストデータが記載された関連ウェブページを収集する。関連ページ収集部１１２は、例えば、百科事典ウェブページのＨＴＭＬ（HyperText Markup Language）データを含む収集対象データを、ネットワークＮＷを介してクロール対象機器ＤＶから収集する。関連ページ収集部１１２は、いわゆるクローラプログラムにより実現される。収集対象データは、ネットワークＮＷ上（クロール対象機器ＤＶの記憶領域内）にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、ＨＴＭＬのソースを示すテキストデータを含む関連ウェブページである。関連ページ収集部１１２は、百科事典ウェブページのうち、対象テキストデータが記載された関連ウェブページが存在する場合、そのすべてを収集する。

また、図８は、関連ページ収集部１１２により収集された検索結果ウェブページの一例を示す図である。図８に示される例においては、検索結果ウェブページは、コンテンツ情報Ｄ２が示すエンティティ「野球選手Ａ」が検索結果として表示される、「３０００本安打」というクエリ（図示するテキストＴＸ２１）が入力され、検索ボタン３１１がクリックされた場合の検索結果を示している。なお、「クリック」とは、選択することの一例であり、タッチ、タップその他の態様であってもよい。以下の説明では代表してクリックと称する。クエリは、対象テキストデータの一例である。

図１に戻り、第１確率算出部１１３は、関連ページ収集部１１２によって収集された関連ウェブページに基づいて、対象テキストデータとエンティティとの組に対して確率算出処理を行う。第１確率算出部１１３は、対象テキストデータ（エンティティの名前）が与えられたときの各エンティティの関連付けられる関連度を示す確率（Ｐ（エンティティ｜名前））（以下、「第１確率」）を算出する。第１確率算出部１１３は、例えば、式（１）が示すＰ（ｅ｜ｓ）の値を第１確率として算出する。式（１）における各種要素については、後述する式（２）、（３）並びに関連ウェブページの種類ごとに説明する。第１確率は、第１指標値の一例である。

以下、関連ウェブページが百科事典ウェブページである場合の確率算出処理の詳細について説明し、次に、関連ウェブページが検索結果ウェブページである場合の確率算出処理の詳細について説明する。

＜１−４．関連ウェブページが百科事典ウェブページの場合＞
第１確率算出部１１３は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト（以下、「アンカーテキスト」）として含まれる確率を算出する。関連ウェブページには、対象テキストデータ（この一例では、「３０００本安打」（図示するテキストＴＸ１１）と関連付けられたエンティティ（この一例では、「野球選手Ａ」）を示すテキストデータ（図示するテキストＴＸ１２〜１４）が含まれる。また、テキストＴＸ１２〜１４のうち、テキストＴＸ１２は、アンカーテキストである。また、テキストＴＸ１２に付与された他のウェブページのリンクは、ナレッジグラフＤ１において、対象テキストデータに関連付けられたエンティティ（この一例では、「野球選手Ａ」）に対応付けられた所在情報である。

ここで、第１確率算出部１１３は、以下の式（２）によって、対象テキストデータを含むすべての百科事典ウェブページにおける対象テキストの数に対して、アンカーテキストである対象テキストデータの数によって求められる確率（以下、「アンカーテキスト確率」）を算出する。式（２）におけるａｓは、アンカーテキスト確率を示している。

また、第１確率算出部１１３は、以下の式（３）によって、当該アンカーテキストのリンク先が、ナレッジグラフＤ１において対象テキストデータと関連付けられた所在情報に対応するエンティティのウェブページ（以下、「特定のウェブページ」）である確率（以下、「第１エンティティ確率」）を算出する。式（３）におけるｅとは、第１エンティティ確率を示している。

関連ページ収集部１１２により収集された関連ウェブページが図７に示されるウェブページのみである場合、第１確率算出部１１３は、すべての関連ウェブページに含まれる対象テキストデータのうち、当該対象テキストデータがアンカーテキストである確率（つまり、アンカーテキスト確率）を「１／３」と算出する。図示する対象テキストデータの中で、リンクが付与されるのは一つだからである（二つ以上付与されている場合も一つとカウントしてよい）。また、第１確率算出部１１３は、当該アンカーテキストのリンク先が、対象テキストデータと関連付けられるエンティティの特定のウェブページである確率（第１エンティティ確率）を「１」と算出する。

＜１−５．関連ウェブページが検索結果ウェブページの場合＞
第１確率算出部１１３は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「３０００本安打」（図示するテキストＴＸ２１）であり、対象テキストデータと対応付けられたエンティティは、「野球選手Ａ」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図８に示される例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ（図示するテキストＴＸ２２〜２４）が含まれる。このうち、対象エンティティテキストデータ（この一例では、「野球選手Ａ」）が含まれるのは、テキストＴＸ２２である。テキストＴＸ２２に付与されたリンク先は、例えば、ナレッジグラフＤ１において、対象テキストデータに関連付けられたエンティティ（この一例では、「野球選手Ａ」）に対応付けられた所在情報である。つまり、テキストＴＸ２２が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストＴＸ２５が含まれてよい。

第１確率算出部１１３は、式（２）によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象エンティティテキストデータを含むリンク先がクリックされた回数の比として求められる確率（以下、「エンティティテキストクリック確率」）を算出する。式（２）におけるａｓは、エンティティテキストクリック確率を示している。

また、第１確率算出部１１３は、式（３）によって、対象エンティティテキストデータを含むリンク先が、エンティティに関する特定のウェブページである確率（以下、「第２エンティティ確率」）を算出する。式（３）におけるｅは、第２エンティティ確率を示している。

＜１−６．異なる事物を指す同一のエンティティが含まれる場合＞
ここで、エンティティは、同一の文言であっても異なる事物を指す場合がある。図９は、同一の文言によって異なるエンティティのウェブページにリンクしている例を示す図である。図９に示される例において、テキストＴＸ２２は、「野球選手Ａ」のウェブページ（例えば、図３）のリンク先を示す。これに対し、テキストＴＸ２６は、「野球選手Ａ」同姓同名の野球選手であって、「野球選手Ａ」とは異なる野球チームＣに所属する選手のウェブページのリンク先を示す。第１確率算出部１１３は、式（２）において、テキストＴＸ２６がクリックされた場合もエンティティクリック確率に算入する。

図１０は、エンティティを示す文言からリンクした、別のエンティティに関するウェブページの一例を示す図である。図１０に示される「野球選手Ａ」のウェブページには、「３０００本安打」というテキストデータに関連付けられる「野球選手Ａ」（図３に示される「野球選手Ａ」）とは異なる野球選手である「野球選手Ａ」に関連する関連データが記載されている。

第１確率算出部１１３は、第１エンティティ確率を算出する際、当該リンク先が図１０に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。また、第１確率算出部１１３は、第２エンティティ確率を算出する際も、当該リンク先が図１０に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。

＜１−７．関連ウェブページ毎の重み付け＞
また、第１確率算出部１１３は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第１エンティティ確率を乗じた値に対して、以下の式（４）を更に乗じてもよい。また、第１確率算出部１１３は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第２エンティティ確率を乗じた値に対して、以下の式（４）を更に乗じてもよい。そして、第１確率算出部１１３は、例えば、両者を加算して対数を求めることで、第1確率（スコア）を算出する。

式（４）は、百科事典ウェブページを用いて式（２）および式（３）を計算したサンプル数と、検索結果ウェブページを用いて式（２）および式（３）を計算したサンプル数との割合を示す。

第１確率算出部１１３は、百科事典ウェブページを用いて式（２）および式（３）を計算したサンプル数の割合を、アンカーテキスト確率と、第１エンティティ確率とを乗じた値に更に乗じ、検索結果ウェブページを用いて式（２）および式（３）を計算したサンプル数の割合を、エンティティテキストクリック確率と、第２エンティティ確率とを乗じた値に更に乗じ、両者を加算することで、得点に重み付けを行う。

第１確率算出部１１３は、算出した得点をコンテンツ情報Ｄ２に対応付けて記憶させる。図１１は、本実施形態に係るコンテンツ情報Ｄ２及び得点の一例を示す図である。

図１に戻り、コンテキスト収集部１１４は、記憶部１２０に記憶されたナレッジグラフＤ１、関連ページ収集部１１２によって収集された関連ウェブページ等から、コンテキストを収集する。コンテキストとは、エンティティの属性、種類等のエンティティを特徴付ける任意の情報を示す文字列である。コンテキスト収集部１１４は、収集したコンテキストをコンテキスト情報Ｄ３として、記憶部１２０に記憶させる。

図１２は、本実施形態に係るコンテキスト収集部１１４によるコンテキスト収集処理の一例を説明する図である。コンテキスト収集部１１４は、例えば、ナレッジグラフにおけるプロパティを示す文字列、隣接エンティティの名前等をコンテキストとして収集する。図１２に示される例において、コンテキスト収集部１１４は、エンティティである「学者Ａ」と関連付けされるコンテキストとして、「ドイツ」、「１７５ｃｍ」、「出生地」、「身長」等をコンテキストとして収集する。

図１３は、本実施形態に係るコンテキスト収集部１１４によるコンテキスト収集処理の他の例を説明する図である。コンテキスト収集部１１４は、例えば、百科事典ウェブページにおける対象物（エンティティ）の文字列の後に表示された対象物の属性等を示す文字列をコンテキストとして収集する。図１３に示される例において、コンテキスト収集部１１４は、対象物である「学者Ａ」の文字列の後に記載された「物理学」をコンテキストとして収集する。図１４は、本実施形態に係るコンテキスト情報Ｄ３の一例を示す図である。図１４に示される例では、エンティティ「学者Ａ」に対して、コンテキストとして「物理学」、「ドイツ」、「１７５ｃｍ」、「出生地」等が関連付けられている。

第２確率算出部１１５は、あるエンティティが与えられたときの各コンテキストが関連付けられる関連度を示す確率（Ｐ（コンテキスト｜エンティティ））（以下、「第２確率」）を算出する。第２確率算出部１１５は、例えば、関連ページのクリックログ、検索エンジンの検索ログ等に基づいて、エンティティ単位で各コンテキストの頻度情報を含む仮想文書を生成する。さらに、第２確率算出部１１５は、生成した仮想文書に対して、例えば、Latent Dirichlet Allocation（ＬＤＡ）等のアルゴリズム（非特許文献１参照）を適用することで、第２確率を算出する。すなわち、第２確率算出部１１５は、エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、第２確率を算出する。第２確率は、第２指標値の一例である。

図１５は、本実施形態に係る第２確率算出部１１５によるコンテキストの頻度情報の算出処理の一例を説明する図である。第２確率算出部１１５は、エンティティである「学者Ａ」の関連ページ（例えば、百科事典ウェブページ）をクリックしたユーザが、遷移元である検索結果ページの表示のために利用したクエリのうち「学者Ａ」以外のワード（コンテキストターム）の出現頻度に基づいて、エンティティ単位で各コンテキストの頻度情報を算出する。図１５に示される例では、例えば、出現頻度が高い「物理学」の頻度が「１２０」と算出されている。一方、出現頻度が低い「身長」の頻度が「１０」と算出されている。図１４に示されるように、第２確率算出部１１５は、算出した頻度情報をコンテキスト情報Ｄ３に対応付けて記憶部１２０に記憶させる。次に、第２確率算出部１１５は、これらの頻度情報を含むコンテキストをエンティティ単位で集約することで、仮想文書を生成する。

第２確率算出部１１５は、生成した仮想文書に対して、例えば、ＬＤＡを適用することで、第２確率を算出する。エンティティは仮想文書に対応し、エンティティに対するコンテキストの頻度情報はその文書中のフレーズに相当する。

図１に戻り、所在情報取得部１１６は、ウェブサーバ３００から受信したクエリに対応するエンティティ名、エンティティ、コンテキストの組を決定する。所在情報取得部１１６は、ナレッジグラフＤ１に基づいて、判定したエンティティに対応付けられている所在情報を取得する。その後、所在情報取得部１１６は、取得した所在情報をウェブサーバ３００に送信する。

ホワイトリスト生成部１１８は、エンティティに関連付けられうるコンテキストの候補を定義したホワイトリストを生成する。ホワイトリストは、エンティティ毎に定義される。ホワイトリスト生成部１１８は、生成したホワイトリストを、ホワイトリスト情報Ｄ４として記憶部１２０に記憶させる。

コンテキスト付与率算出部１１９は、エンティティに対する補完的表現であるコンテキストの付きやすさを示すコンテキスト付与率を算出する。すなわち、コンテキスト付与率は、ユーザがエンティティに相当するクエリを入力する際に、さらなるクエリ（すなわち、補完的表現であるコンテキスト）をあわせて使用する度合いを示す。コンテキスト付与率算出部１１９は、算出したエンティティ毎のコンテキスト付与率を、コンテキスト付与率情報Ｄ５として記憶部１２０に記憶させる。

＜１−８．ナレッジデータサーバ１００の第１オフライン動作＞
以下、ナレッジデータサーバ１００の第１オフライン動作について説明する。第１オフライン動作では、第１確率を算出する。図１６は、本実施形態のナレッジデータサーバ１００の第１確率を算出する動作の一例を示す流れ図である。選択部１１１は、コンテンツ情報Ｄ２のうち、算出対象の対象テキストデータを選択する（Ｓ１１０）。次に、関連ページ収集部１１２は、対象テキストデータに基づいて、関連ウェブページ（百科事典ウェブページ及び検索結果ウェブページ）を収集する（Ｓ１２０）。次に、第１確率算出部１１３は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する（Ｓ１３０）。

次に、第１確率算出部１１３は、第１エンティティ確率及び第２エンティティ確率を算出する（Ｓ１４０）。そして、第１確率算出部１１３は、百科事典ウェブページに基づくアンカーテキスト確率、第１エンティティ確率、及び第１コンテンツ割合を乗じた値と、検索結果ウェブページに基づくエンティティテキストクリック確率、第２エンティティ確率、及び第２コンテンツ割合を乗じた値との和を第１確率として算出し（Ｓ１５０）、算出した第１確率をコンテンツ情報Ｄ２に対応付けて記憶部１２０に記憶させる（Ｓ１６０）。以上により、本フローチャートの処理を終了する。

＜１−９．ナレッジデータサーバ１００の第２オフライン動作＞
以下、ナレッジデータサーバ１００の第２オフライン動作について説明する。第２オフライン動作では、第２確率を算出する。図１７は、本実施形態のナレッジデータサーバ１００の第２確率を算出する動作の一例を示す流れ図である。選択部１１１は、コンテンツ情報Ｄ２のうち、算出対象の対象テキストデータを選択する（Ｓ２１０）。関連ページ収集部１１２は、対象テキストデータに基づいて、関連ウェブページを収集する。次に、コンテキスト収集部１１４は、関連ページ収集部１１２により収集された関連ウェブページに基づいて、コンテキストを収集する（Ｓ２２０）。

次に、第２確率算出部１１５は、エンティティ単位で各コンテキストの頻度情報を算出し（Ｓ２３０）、算出した頻度情報を含む仮想文書を生成する。次に、第２確率算出部１１５は、生成した仮想文書に対して、例えば、ＬＤＡ等のアルゴリズムを適用することで、第２確率を算出する（Ｓ２４０）。

図１８は、本実施形態のナレッジデータサーバ１００の第２確率を算出する詳細動作の一例を示す流れ図である。ＬＤＡにおいては、文書が複数のトピック（例えば、１０００個のトピック等）（グループ）で構成されるという仮定を置くことで、文章の特徴を解析する。複数のトピックがパターン化されたもの（以下、「トピックパターン」）が多数定義されている。すなわち、１つのトピックパターンは複数のトピックを含み、この複数のトピックの分け方の異なるトピックパターンが多数定義されている。本実施形態においては、エンティティが文書に対応し、エンティティに対応するコンテキストの頻度がその文書中のフレーズの頻度に対応する。まず、第２確率算出部１１５は、多数のトピックパターンの中から１つのパターンを選択する（Ｓ２４１）。

次に、第２確率算出部１１５は、算出対象とするエンティティとコンテキストとの組の候補を選択する（Ｓ２４２）。次に、第２確率算出部１１５は、第２確率（Ｐ（コンテキスト｜エンティティ））を算出する（Ｓ２４３）。例えば、第２確率算出部１１５は、以下の式（５）に基づいて、コンテキストがトピックに属する確率と、トピックがエンティティ（内容別）に属する確率との積を求める。第２確率算出部１１５は、この確率の積の値が最大化するように分布を学習する。

次に、第２確率算出部１１５は、全てのエンティティとコンテキストとの組の候補について第２確率の算出が完了したか否かを判定する（Ｓ２４４）。第２確率算出部１１５は、全てのエンティティとコンテキストとの組の候補について第２確率の算出が完了していないと判定した場合、第２確率の算出処理を行っていないエンティティとコンテキストとの組を１つ選択し、Ｓ２４２以降の処理を繰り返す。一方、第２確率算出部１１５は、全てのエンティティとコンテキストとの組の候補について第２確率の算出が完了したと判定した場合、算出した第２確率を足し合わせる処理を行って、処理対象のトピックパターンに対するスコアを算出する。

次に、第２確率算出部１１５は、全てのトピックパターンに対する処理が完了したか否かを判定する（Ｓ２４５）。第２確率算出部１１５は、全てのトピックパターンに対する処理が完了していないと判定した場合、処理を行っていないトピックパターンを１つ選択し、Ｓ２４２以降の処理を繰り返す。

一方、第２確率算出部１１５は、全てのトピックパターンに対する処理が完了したと判定した場合、算出したスコアが最も高いトピックパターンを、採用するトピックパターンに決定する（Ｓ２４６）。

次に、第２確率算出部１１５は、上記のように決定したトピックパターンに関して算出された第２確率を採用する第２確率として決定する（Ｓ２４７）。尚、第２確率算出部１１５は、エンティティとコンテキストとの組の候補の全てに対して第２確率の計算を行わなくてもよい。例えば、エンティティとコンテキストとの組の候補に不適切な表現が含まれている場合には、これを除外するようにしてもよい。また、第２確率算出部１１５は、追加の条件に応じて、除外処理を行うようにしてもよい。例えば、第２確率算出部１１５は、エンティティと対応する百科事典ウェブページの概要文に含まれないコンテキストは除外するようにしてもよい。データの除外は、第２確率の算出の前に除外するのではなく、確率算出が終わった後に行ってよい。これは、不適切な表現であっても、ＬＤＡでの確率算出には有用であるためである。以上により、本フローチャートの処理を終了する。

図１７に戻り、第２確率算出部１１５は、決定した第２確率をコンテキスト情報Ｄ３に対応付けて記憶部１２０に記憶させる（Ｓ２５０）。尚、第２確率算出部１１５は、決定した第２確率を、例えばＳｏｌｒ等の転置インデックスに格納してもよい。このＳｏｌｒに対してＯＲ検索クエリを投げることで、何回も問い合わせすることなく、一度の問い合わせで全ての候補を取得することができる。以上により、本フローチャートの処理を終了する。

＜１−１０．ナレッジデータサーバ１００の第３オフライン動作＞
以下、ナレッジデータサーバ１００の第３オフライン動作について説明する。第３オフライン動作では、ホワイトリストを生成する。図１９は、本実施形態のナレッジデータサーバ１００のホワイトリストを生成する動作の一例を示す流れ図である。まず、コンテキスト収集部１１４は、例えば、百科事典ウェブページにおける対象物の文字列の後に表示された対象物の属性等を示す属性文字列を収集する（Ｓ３１０）。例えば、コンテキスト収集部１１４は、図１３に示される例において、対象物である「学者Ａ」の文字列の後に記載された「物理学」の属性文字列を収集する。コンテキスト収集部１１４は、百科事典ウェブページに含まれる複数のページ（例えば、全てのページ）に対して、上記の文字列の収集処理を行い、複数の属性文字列の集合を得る。

次に、選択部１１１は、コンテンツ情報Ｄ２のうち、ホワイトリスト生成対象のエンティティ（以下、「対象エンティティ」）を選択する（Ｓ３２０）。次に、ホワイトリスト生成部１１８は、コンテキスト収集部１１４により収集された複数の属性文字列の中から１つの属性文字列を抽出し、抽出した属性文字列が、対象エンティティが記載された百科事典ウェブページ（例えば、百科事典ウェブページの概要説明文）に含まれているか否かを判定する（Ｓ３３０）。ホワイトリスト生成部１１８は、抽出した属性文字列が対象エンティティが記載された百科事典ウェブページに含まれていると判定した場合、この属性文字列を、対象エンティティのコンテキスト候補（以下、「第１コンテキスト候補」）とする（Ｓ３４０）。一方、ホワイトリスト生成部１１８は、抽出した属性文字列が対象エンティティが記載された百科事典ウェブページに含まれていないと判定した場合、この属性文字列を、対象エンティティの第１コンテキスト候補としない（Ｓ３５０）。ホワイトリスト生成部１１８は、コンテキスト収集部１１４により収集された複数の属性文字列の全てに対して、上記のＳ３３０からＳ３５０の処理を行う。

次に、コンテキスト収集部１１４は、ナレッジグラフにおける対象エンティティのプロパティを示す文字列、例えば、ナレッジグラフにおける対象エンティティの１ステップ以内に含まれるエッジに付与された文字列を収集する。コンテキスト収集部１１４は、さらに、対象エンティティの隣接エンティティの名前の文字列や、２ステップ以上に含まれるエッジに付与された文字列を収集してもよい。ホワイトリスト生成部１１８は、収集された文字列を対象エンティティのコンテキスト候補（以下、「第２コンテキスト候補」）に設定する（Ｓ３６０）。図１２に示される例において、ホワイトリスト生成部１１８は、エンティティである「学者Ａ」と関連付けされる「出生地」、「身長」等の文字列を第２コンテキスト候補として設定する。

次に、ホワイトリスト生成部１１８は、第１コンテキスト候補と第２コンテキスト候補とに基づいてホワイトリストを生成し、ホワイトリスト情報Ｄ４として記憶部１２０に記憶させる（Ｓ３７０）。例えば、ホワイトリスト生成部１１８は、第１コンテキスト候補と第２コンテキスト候補との和集合をホワイトリストとして設定する。図２０は、本実施形態のホワイトリスト情報Ｄ４の一例を示す図である。図２０に示される例では、エンティティ「学者Ａ」に対して、「出生地」、「身長」、「物理学」、「ドイツ」等がコンテキスト候補として関連付けされている。以上の処理が、コンテンツ情報Ｄ２に含まれるエンティティの全てに対して繰り返し行われる。以上により、本フローチャートの処理を終了する。

＜１−１１．ナレッジデータサーバ１００の第４オフライン動作＞
以下、ナレッジデータサーバ１００の第４オフライン動作について説明する。第４オフライン動作では、エンティティ毎のコンテキスト付与率を算出する。図２１は、本実施形態のナレッジデータサーバ１００のコンテキスト付与率を算出する動作の一例を示す流れ図である。まず、コンテキスト付与率算出部１１９は、例えば、検索エンジンの検索ログに含まれる複数の検索ログデータのうち、処理対象とする１つの検索ログデータを抽出する（Ｓ４１０）。この１つの検索ログデータは、ユーザによる１度の検索処理と対応する。検索ログデータには、検索に利用された少なくとも１つのクエリ、検索結果ウェブページにおいてユーザがクリックしたリンクのＵＲＬ（以下、「遷移先ＵＲＬ」）、検索日時等の情報が含まれる。

次に、コンテキスト付与率算出部１１９は、抽出した検索ログデータから、検索に利用された少なくとも１つのクエリ、及び遷移先ＵＲＬを抽出する（Ｓ４２０）。次に、コンテキスト付与率算出部１１９は、抽出した遷移先ＵＲＬに基づいて、検索に利用された少なくとも１つのクエリのうち、いずれのクエリがエンティティに相当するかを判定する（Ｓ４３０）。例えば、コンテキスト付与率算出部１１９は、遷移先ＵＲＬと、ナレッジグラフＤ１に含まれるエンティティの所在情報とを比較することで、いずれのクエリがエンティティに相当するかを判定する。例えば、コンテキスト付与率算出部１１９は、ナレッジグラフＤ１において遷移先ＵＲＬと合致する所在情報を持つエンティティが存在し、このエンティティの名前がクエリに含まれている場合には、このクエリをエンティティと判定する。

次に、コンテキスト付与率算出部１１９は、エンティティと判定されたクエリに対して、補完的表現であるコンテキストが付与されているか否かを判定する（Ｓ４４０）。すなわち、コンテキスト付与率算出部１１９は、検索に利用されたクエリに、エンティティと判定されたクエリ以外のクエリ（第２ワード）が含まれているか否かを判定する。コンテキスト付与率算出部１１９は、コンテキストが付与されていると判定した場合、エンティティ毎にコンテキストが付与された検索処理の数をカウントするための第１カウンタを１つ増大させる（Ｓ４５０）。一方、コンテキスト付与率算出部１１９は、コンテキストが付与されていないと判定した場合（すなわち、検索に利用されたクエリの数が１つであった場合）、エンティティ毎にコンテキストが付与されなかった検索処理の数をカウントするための第２カウンタを１つ増大させる（Ｓ４６０）。第１及び第２カウンタは、エンティティ毎に設けられる。

次に、コンテキスト付与率算出部１１９は、検索ログに含まれる全ての検索ログデータに対する処理が完了したか否かを判定する（Ｓ４７０）。コンテキスト付与率算出部１１９は、検索ログに含まれる全ての検索ログデータに対する処理が完了していないと判定した場合、処理対象とする他の１つの検索ログデータを抽出して（Ｓ４１０）以降の処理を再度行う。

一方、コンテキスト付与率算出部１１９は、検索ログに含まれる全ての検索ログデータに対する処理が完了したと判定した場合、エンティティ毎のコンテキスト付与率を算出し、コンテキスト付与率情報Ｄ５として記憶部１２０に記憶させる（Ｓ４８０）。例えば、コンテキスト付与率算出部１１９は、以下の式（６）に基づいて、エンティティ毎のコンテキスト付与率を算出する。

上記の式（６）において、スイッチ変数とは、コンテキストが付与される確率またはコンテキストが付与されない確率のいずれを算出するかを切り替えるものである。スイッチ変数＝１とは、コンテキストが付与される確率を算出することを示し、スイッチ変数＝０とは、コンテキストが付与されない確率を算出することを示す。図２２は、本実施形態のコンテキスト付与率情報Ｄ５の一例を示す図である。図２２に示される例では、エンティティ「学者Ａ」に対して、コンテキスト付与率「０．４０」が関連付けされている。以上により、本フローチャートの処理を終了する。

＜１−１２．ナレッジデータサーバ１００のオンライン動作＞
図２３は、本実施形態のナレッジデータサーバ１００のオンライン動作の一例を示す流れ図である。まず、所在情報取得部１１６は、ウェブサーバ３００からクエリを受信する（Ｓ５１０）。図２４は、本実施形態のナレッジデータサーバ１００のオンライン動作を説明する図である。図２４は、「学者Ａ」と、「物理学」との２つのワードを含むクエリを受信する例を示している。

次に、所在情報取得部１１６は、コンテンツ情報Ｄ２のうち、受信したクエリに含まれるワードの各々と合致するテキストデータに関連付けられているエンティティを読み出す（Ｓ５２０）。このとき、クエリとテキストデータとが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するテキストデータとみなしてよい。図２４は、「学者Ａ」という名前のエンティティとして、人であるエンティティＥＮ１の他、２人組の芸能人のエンティティＥＮ２と、競走馬のエンティティＥＮ３とが読み出された例を示している。

次に、所在情報取得部１１６は、受信したクエリ及び読み出されたエンティティを用いて、「エンティティの名前」と、「エンティティ」と、「コンテキスト」との組み合わせの候補（エンティティの名前、エンティティ、コンテキスト）を全通り生成する（Ｓ５３０）。図２４に示される例では、以下６つの組み合わせの候補が生成される。
・（学者Ａ，エンティティＥＮ１，物理学）
・（物理学，エンティティＥＮ１，学者Ａ）
・（学者Ａ，エンティティＥＮ２，物理学）
・（物理学，エンティティＥＮ２，学者Ａ）
・（学者Ａ，エンティティＥＮ３，物理学）
・（物理学，エンティティＥＮ３，学者Ａ）

次に、所在情報取得部１１６は、組み合わせの候補の各々について、以下の評価式（７）の値を算出する（Ｓ５４０）。

上記の式（７）は、（エンティティの名前、エンティティ、コンテキスト）の組み合わせ毎に、第１確率と、第２確率と、コンテキスト付与率と、コンテキストがホワイトリストに属するか否かを指定することによって定義されるインジケータ関数（Ｉ（ホワイトリスト（エンティティ）ｉｎｃｌｕｄｅｓ（コンテキスト）））の値との乗算値を求めている。Ｉ（ホワイトリスト（エンティティ）ｉｎｃｌｕｄｅｓ（コンテキスト））は、コンテキストがホワイトリストに含まれる場合は１であり、コンテキストがホワイトリストに含まれない場合は０となる。

例えば、（学者Ａ，エンティティＥＮ１，物理学）の組み合わせの場合、所在情報取得部１１６は、コンテンツ情報Ｄ２から、エンティティの名前（テキストデータ）としての「学者Ａ」と、エンティティ「エンティティＥＮ１」との組と関連付けられている第１確率を読み出す。さらに、所在情報取得部１１６は、コンテキスト情報Ｄ３から、エンティティ「エンティティＥＮ１」と、コンテキストとしての「物理学」と、の組と関連付けられている第２確率を読み出す。さらに、所在情報取得部１１６は、ホワイトリスト情報Ｄ４から、エンティティ「エンティティＥＮ１」のホワイトリストを読み出す。さらに、所在情報取得部１１６は、コンテキスト付与率情報Ｄ５から、エンティティ「エンティティＥＮ１」のコンテテキスト付与率を読み出す。そして、所在情報取得部１１６は、読み出した第１確率と、第２確率と、コンテキスト付与率と、インジケータ関数（Ｉ（ホワイトリスト（エンティティ）ｉｎｃｌｕｄｅｓ（コンテキスト）））の値との乗算値を求める。

次に、所在情報取得部１１６は、算出した乗算値のうち、最大の値を有するエンティティ名、エンティティ、コンテキストの組を、ユーザにより入力されたクエリの検索意図として適切な組として決定する（Ｓ５５０）。例えば、図２４に示される例では、所在情報取得部１１６は、エンティティ名が「学者Ａ」であり、エンティティが「人（エンティティＥＮ１））」であり、コンテキストが「物理学」である組をクエリの検索意図として適切な組として決定する。所在情報取得部１１６は、決定した組に含まれるエンティティの所在情報をナレッジグラフＤ１から取得して、ウェブサーバ３００に送信する。以上により、本フローチャートの処理を終了する。

尚、ユーザにより入力されたクエリが１つのみである場合には、所在情報取得部１１６は、この１つのクエリをエンティティ名とした場合の第１確率に基づいて、関連付けされるエンティティを判定してよい。例えば、所在情報取得部１１６は、コンテンツ情報Ｄ２から、この１つのクエリと合致するテキストデータに関連付けられている第１確率を読み出し、最も大きな第１確率を持つエンティティを関連付けされるエンティティと判定する。尚、上記のように算出される評価式の値をデータベースに保管しておき、検索ウェブページにおける関連キーワードの表示処理に使用してもよい。例えば、所在情報取得部１１６は、１つのクエリであるエンティティ名と、上記のように判定されたエンティティと、を用いて算出された評価式の値のうち、最も高い値の算出に用いられた「コンテキスト」を関連キーワードと判定し、ウェブサーバ３００に出力するようにしてもよい。

以上、説明したように、本実施形態のナレッジデータサーバ１００は、クエリとして入力された２つ以上のワードのそれぞれと、エンティティとの関連度を示す第１指標値を算出する第１確率算出部１１３（第１指標値算出部）と、前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第２指標値を算出する第２確率算出部（第２指標値算出部）と、前記エンティティ毎にコンテキストの候補を定義したリストを生成するリスト生成部と、前記第１指標値算出部により算出された前記第１指標値と、前記第２指標値算出部により算出された前記第２指標値と、前記リスト生成部により生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する所在情報取得部１１６（生起確率算出部）とを備える情報処理装置。これによって、本実施形態のナレッジデータサーバ１００は、ユーザにより入力されたクエリの検索意図を適切に評価することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１００…ナレッジデータサーバ
１１０…制御部
１１１…選択部
１１２…関連ページ収集部
１１３…第１確率算出部
１１４…コンテキスト収集部
１１５…第２確率算出部
１１６…所在情報取得部
１１７…通信Ｉ／Ｆ
１１８…ホワイトリスト生成部
１１９…コンテキスト付与率算出部
１２０…記憶部
２００…端末装置
２１０…表示部
２１１…クエリ入力領域
２２０…ナレッジパネル
２２１…エンティティ
２２２…画像
２２３…関連情報
２３０…検索結果
３００…ウェブサーバ
Ｄ１…ナレッジグラフ
Ｄ２…コンテンツ情報
Ｄ３…コンテキスト情報
Ｄ４…ホワイトリスト情報
Ｄ５…コンテキスト付与率情報

Claims

クエリとして入力された２つ以上のワードのそれぞれと、エンティティとの関連度を示す第１指標値を算出する第１指標値算出部と、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第２指標値を算出する第２指標値算出部と、
前記エンティティ毎にコンテキストの候補を定義したリストを生成するリスト生成部と、
前記第１指標値算出部により算出された前記第１指標値と、前記第２指標値算出部により算出された前記第２指標値と、前記リスト生成部により生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部と
を備える情報処理装置。
前記第１指標値は、前記エンティティの名前として仮定された前記ワードのそれぞれが、複数の前記エンティティのそれぞれと関連付けられる確率であり、
前記第２指標値は、複数の前記エンティティのそれぞれが、前記コンテキストとして仮定された前記ワードのそれぞれと関連付けられる確率である、
請求項１に記載の情報処理装置。
前記エンティティに対するコンテキストの付きやすさを示すコンテキスト付与率を算出するコンテキスト付与率算出部をさらに備え、
前記生起確率算出部は、さらに、前記コンテキスト付与率算出部により算出された前記コンテキスト付与率に基づいて、前記生起確率を算出する、
請求項１または２に記載の情報処理装置。
前記生起確率算出部は、前記組み合わせ毎に、前記第１指標値と、前記第２指標値と、前記リストに前記コンテキストとして仮定された前記ワードが含まれるか否かを指定することによって定義された関数の値との乗算値を算出し、算出した前記乗算値が最も大きな組み合わせを、前記エンティティの名前に相当するワードと、前記エンティティと、前記コンテキストに相当するワードとの組み合わせと判定する、
請求項１から３のいずれか一項に記載の情報処理装置。
前記生起確率算出部は、前記組み合わせ毎に、前記第１指標値と、前記第２指標値と、前記リストに前記コンテキストとして仮定された前記ワードが含まれるか否かを指定することによって定義された関数の値と、前記コンテキスト付与率との乗算値を算出し、算出した前記乗算値が最も大きな組み合わせを、前記エンティティの名前に相当するワードと、前記エンティティと、前記コンテキストに相当するワードとの組み合わせと判定する、
請求項３に記載の情報処理装置。
前記第２指標値算出部は、エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、前記第２指標値を算出する、
請求項１から５のいずれか一項に記載の情報処理装置。
前記エンティティと関連付けられるページのクリックログに基づいて、前記頻度情報を算出する頻度情報算出部をさらに備える、
請求項６に記載の情報処理装置。
コンピュータが、
クエリとして入力された２つ以上のワードのそれぞれと、エンティティとの関連度を示す第１指標値を算出し、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第２指標値を算出し、
前記エンティティ毎にコンテキストの候補を定義したリストを生成し、
算出された前記第１指標値と、算出された前記第２指標値と、生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する、
情報処理方法。
コンピュータに、
クエリとして入力された２つ以上のワードのそれぞれと、エンティティとの関連度を示す第１指標値を算出させ、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第２指標値を算出させ、
前記エンティティ毎にコンテキストの候補を定義したリストを生成させ、
算出された前記第１指標値と、算出された前記第２指標値と、生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出させる、
プログラム。