JP2020140501A

JP2020140501A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2020140501A
Application number: JP2019036247A
Authority: JP
Inventors: 樹生豊田; Mikio Toyoda; 真也夜久; Shinya Yaku; 葉子石川; Yoko Ishikawa; 宏希岩澤; Hiroki Iwasawa
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2020-09-03
Anticipated expiration: 2039-02-28
Also published as: JP7183077B2

Abstract

【課題】ユーザにより入力されたクエリの検索意図を適切に評価すること。【解決手段】クエリとして入力された１以上のワードと、エンティティとの関連度を示す第１指標値を算出する第１指標値算出部と、ワードをコンテキストとして含むエンティティと、ワードとの関連度を示す第２指標値を算出する第２指標値算出部と、ワードと、ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第３指標値を算出する第３指標値算出部と、第１指標値算出部により算出された第１指標値と、第２指標値算出部により算出された第２指標値と、第３指標値算出部により算出された第３指標値とに基づいて、エンティティと、ワードのうちのエンティティの名前として仮定されたワードと、ワードのうちのコンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部とを備える情報処理装置。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、ウェブからデータ（文書や画像など）を収集し、収集したデータを自動的にデータベース化するクローラが知られている（特許文献１参照）。クローラは、ウェブページ中のリンクを辿って、様々なＩＰアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。

一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページやアプリページの情報（例えば、ＵＲＬ：Uniform Resource Locator）をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。

特開２０１２−６９１７１号公報

Matthew D. Hoffmanら、"Online Learning for Latent Dirichlet Allocation",[online]，[2018年2月27日検索]，インターネット＜URL：https://papers.nips.cc/paper/3902-online-learning-for-latent-dirichlet-allocation.pdf＞

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索ワード（以下、「クエリ」とも言う）に関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに対応付けて記憶したデータベースが用いられる場合がある。

このデータベースにおいて、特定のエンティティに対応付けられているテキストデータと完全に一致する文字列がクエリとして入力された場合、その特定のエンティティに関する情報を検索結果とともに出力させることができる。一方、特定のエンティティに対応付けられているテキストデータと部分的に一致する文字列である別名がクエリとして入力された場合、エンティティの紐づけを行うことができない。

別名に対応するエンティティを出力させるためにデータベースに別名を記憶させる方法が考えられる。しかしながら、知識ベースとしてのデータベースに記憶させることが妥当な別名は限られるが、知識ベースの観点で妥当な別名とクエリとが一致するとは限らない。また、データベースに別名を記憶させると空間計算量が増大してしまい、データベースを用いた各種計算の速度が低下してしまう。また、やみくもに別名をデータベースに記憶させると、クエリに対応するエンティティの候補が増大してしまう。

本発明は、このような事情を考慮してなされたものであり、ユーザにより入力された多様なクエリの検索意図を適切に評価することができる情報処理装置を提供することを目的の一つとする。

本発明の一態様は、クエリとして入力された１以上のワードと、エンティティとの関連度を示す第１指標値を算出する第１指標値算出部と、前記ワードをコンテキストとして含むエンティティと、前記ワードとの関連度を示す第２指標値を算出する第２指標値算出部と、前記ワードと、前記ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第３指標値を算出する第３指標値算出部と、前記第１指標値算出部により算出された前記第１指標値と、前記第２指標値算出部により算出された前記第２指標値と、前記第３指標値算出部により算出された前記第３指標値とに基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部とを備える情報処理装置である。

本発明の一態様によれば、ユーザにより入力された多様なクエリの検索意図を適切に評価することができる。

本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。本実施形態に係るナレッジグラフの一例を示す図である。本実施形態に係る「野球選手Ａ」のウェブページの一例を示す図である。本実施形態に係る「野球チームＢ」のウェブページの一例を示す図である。本実施形態に係るコンテンツ情報の一例を示す図である。本実施形態に係る検索結果ウェブページの一例を示す図である。本実施形態に係る収集部により収集された関連ウェブページの一例を示す図である。本実施形態に係る収集部により収集された関連ウェブページの他の一例を示す図である。本実施形態に係る収集部により収集された関連ウェブページの他の一例を示す図である。本実施形態に係る「野球選手Ａ」のウェブページの他の一例を示す図である。本実施形態に係るコンテンツ情報及び第１確率の一例を示す図である。本実施形態に係るコンテキスト抽出部によるコンテキスト収集処理の一例を説明する図である。本実施形態に係るコンテキスト抽出部によるコンテキスト収集処理の他の例を説明する図である。本実施形態に係るコンテキスト情報の一例を示す図である。本実施形態に係る第２確率算出部によるコンテキストの頻度情報の算出処理の一例を説明する図である。本実施形態に係るクリックログの一例を説明する図である。本実施形態に係る別名情報の一例を示す図である。本実施形態のナレッジデータサーバの第１確率を算出する動作の一例を示す流れ図である。本実施形態のナレッジデータサーバの第２確率を算出する動作の一例を示す流れ図である。本実施形態のナレッジデータサーバの第２確率を算出する詳細動作の一例を示す流れ図である。本実施形態のナレッジデータサーバの第３確率を算出する動作の一例を示す流れ図である。本実施形態のナレッジデータサーバのオンライン動作の一例を示す流れ図である。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ（例えば、画像やテキストデータ）を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。

エンティティとは、例えば、ある対象事物の実体（例えば、実世界で存在している物体）を表していてもよいし、ある対象事物の概念（例えば、実世界または仮想世界の中で定義された概念）を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。

＜実施形態＞
＜１−１．ナレッジデータサーバの使用環境＞
図１は、本実施形態に係るナレッジデータサーバ１００の使用環境及び構成を示す図である。ナレッジデータサーバ１００は、端末装置２００と、ウェブサーバ３００と、クロール対象機器ＤＶと、ネットワークＮＷを介して通信可能に接続される。ネットワークＮＷは、ワールドワイドウェブ（World Wide Web）を意味し、インターネットやイントラネットで標準的に用いられるＨＴＭＬ文書などを利用したシステムである。ネットワークＮＷは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。

端末装置２００は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ３００は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置２００に提供するサーバである。

ナレッジデータサーバ１００は、例えば、制御部１１０と、記憶部１２０とを備える。記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部１２０の一部または全部は、ＮＡＳ（Network Attached Storage）や外部のストレージサーバなど、ナレッジデータサーバ１００がアクセス可能な外部装置であってもよい。記憶部１２０には、例えば、ナレッジグラフ（以下、ナレッジグラフＤ１）と、コンテンツ情報Ｄ２と、コンテキスト情報Ｄ３と、別名情報Ｄ４とが記憶される。

図２は、本実施形態に係るナレッジグラフＤ１の一例を示す図である。ナレッジグラフＤ１において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報１」や「Ｃ１」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

ナレッジグラフＤ１は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。

図２に示される例のナレッジグラフＤ１は、エンティティＥ１と、エンティティＥ２とが、「所属チーム」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報（以下、「エンティティ識別情報ＥＩＤ」）と、エンティティ名と、当該エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、ＵＲＬである。所在情報が示すウェブページには、当該エンティティの関連データが記載されている。

図２に示されるナレッジグラフＤ１において、エンティティＥ１には、エンティティ識別情報ＥＩＤの「０００１」と、エンティティ名の「野球選手Ａ」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／野球選手Ａ」というＵＲＬとが対応付けられている。また、エンティティＥ２には、エンティティ識別情報ＥＩＤの「０００２」と、エンティティ名「野球チームＢ」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／野球チームＢ」というＵＲＬとが対応付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。

図３は、本実施形態に係る「野球選手Ａ」のウェブページの一例を示す図である。「野球選手Ａ」のウェブページには、「野球選手Ａ」の関連データが記載されている。また、図４は、本実施形態に係る「野球チームＢ」のウェブページの一例を示す図である。「野球チームＢ」のウェブページには、「野球チームＢ」の関連データが記載されている。

図５は、本実施形態に係るコンテンツ情報Ｄ２の一例を示す図である。コンテンツ情報Ｄ２とは、エンティティと、テキストデータとが関連付けられた情報である。コンテンツ情報Ｄ２は、ウェブページに含まれる関連データを収集した収集結果又は検索エンジンの検索ログに基づいて生成される。コンテンツ情報Ｄ２は、例えば、エンティティのウェブページに含まれるテキストデータが収集され、収集されたテキストデータと、エンティティとが関連付けられた情報である。また、コンテンツ情報Ｄ２は、例えば、エンティティがクエリとして入力された際、当該エンティティと共に入力されたテキストデータと、エンティティとが関連付けられた情報である。図５に示される一例のコンテンツ情報Ｄ２において、「野球選手Ａ」というエンティティには、「３０００本安打」というテキストデータが関連付けられ、「野球チームＢ」というエンティティには、「２０１７年優勝」というテキストデータが関連付けられる。

＜１−２．検索結果ウェブページ＞
図６は、本実施形態に係る検索結果ウェブページの一例を示す図である。図６に示されるように、端末装置２００の表示部２１０には、クエリ入力領域２１１と、ナレッジパネル２２０と、検索結果２３０とが含まれる検索結果ウェブページが表示される。ナレッジパネル２２０には、クエリに対応するエンティティ２２１と、エンティティ２２１に関連する画像２２２と、エンティティ２２１に関連する関連情報２２３とが含まれる。ユーザは、端末装置２００を用いて、端末装置２００の表示部２１０に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置２００は、ユーザによって入力されたクエリをウェブサーバ３００に送信する。

ウェブサーバ３００は、端末装置２００から受信したクエリをナレッジデータサーバ１００に送信する。ナレッジデータサーバ１００は、受信したクエリに対応するエンティティに関連する情報をウェブサーバ３００に送信する。ナレッジデータサーバ１００は、例えば、受信したクエリがコンテンツ情報Ｄ２のエンティティに含まれている場合、当該エンティティを受信したクエリに関連付けられたエンティティと判定する。ナレッジデータサーバ１００は、例えば、コンテンツ情報Ｄ２に基づいて、受信したクエリ（テキストデータ）に関連付けられたエンティティを判定する。また、ナレッジデータサーバ１００は、ナレッジグラフＤ１に基づいて、判定したエンティティに対応付けられた所在情報をウェブサーバ３００に送信する。ウェブサーバ３００は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ３００は、抽出したエンティティの関連データ（この一例では、ナレッジパネル２２０に示す情報）を含めた検索結果ウェブページ（例えば、図６）を生成する。

図６に示される例においては、クエリとして「３０００本安打」が入力され、ナレッジパネル２２０には「３０００本安打」に関連する画像や様々な情報が表示されている。ナレッジパネル２２０には、例えば、「３０００本安打」を達成した「野球選手Ａ」の画像２２２や、「野球選手Ａ」の生年月日や出身地等の関連情報２２３が表示される。このように、検索結果２３０だけでなく、ナレッジパネル２２０を表示部２１０に表示することで、検索結果に対するユーザ満足度を向上させることができる。

＜１−３．ナレッジデータサーバ１００の構成＞
図１に戻り、制御部１１０は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。制御部１１０は、例えば、選択部１１１と、関連ページ収集部１１２と、第１確率算出部１１３（第１指標値算出部）と、コンテキスト抽出部１１４と、第２確率算出部１１５（第２指標値算出部）と、ログ収集部１１６と、第３確率算出部１１７（第３指標値算出部）と、所在情報取得部１１８（生起確率算出部）と、通信Ｉ／Ｆ（Interface）１１９とを備える。また、これらの構成要素のうち一部または全部（内包する記憶部を除く）は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信Ｉ／Ｆ１１９は、ネットワークＮＷを介した各機能部と、他の機器（例えば、クロールの対象機器（以下、クロール対象機器ＤＶ）、端末装置２００、及びウェブサーバ３００）との通信を仲介する。

選択部１１１は、コンテンツ情報Ｄ２から確率算出対象の任意のテキストデータ（以下、「対象テキストデータ」）を選択する。関連ページ収集部１１２は、選択部１１１によって選択された対象テキストデータに関連するウェブページ（以下、「関連ウェブページ」）を、ネットワークＮＷを介して収集する。関連ページ収集部１１２により収集されるウェブページとは、例えば、利用者によって編集可能な百科事典のウェブページ（以下、「百科事典ウェブページ」）や、対象テキストデータをクエリとした場合の検索結果ウェブページである。

図７は、関連ページ収集部１１２により収集された百科事典ウェブページの一例を示す図である。図７に示される例においては、関連ページ収集部１１２は、百科事典ウェブページのうち、コンテンツ情報Ｄ２が示す「野球選手Ａ」のエンティティに関連付けられる「３０００本安打」という対象テキストデータが記載された関連ウェブページを収集する。関連ページ収集部１１２は、例えば、百科事典ウェブページのＨＴＭＬ（HyperText Markup Language）データを含む収集対象データを、ネットワークＮＷを介してクロール対象機器ＤＶから収集する。関連ページ収集部１１２は、いわゆるクローラプログラムにより実現される。収集対象データは、ネットワークＮＷ上（クロール対象機器ＤＶの記憶領域内）にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、ＨＴＭＬのソースを示すテキストデータを含む関連ウェブページである。関連ページ収集部１１２は、百科事典ウェブページのうち、対象テキストデータが記載された関連ウェブページが存在する場合、そのすべてを収集する。

また、図８は、関連ページ収集部１１２により収集された検索結果ウェブページの一例を示す図である。図８に示される例においては、検索結果ウェブページは、コンテンツ情報Ｄ２が示すエンティティ「野球選手Ａ」が検索結果として表示される、「３０００本安打」というクエリ（図示するテキストＴＸ２１）が入力され、検索ボタン３１１がクリックされた場合の検索結果を示している。なお、「クリック」とは、選択することの一例であり、タッチ、タップその他の態様であってもよい。以下の説明では代表してクリックと称する。クエリは、対象テキストデータの一例である。

図１に戻り、第１確率算出部１１３は、関連ページ収集部１１２によって収集された関連ウェブページに基づいて、対象テキストデータとエンティティとの組に対して確率算出処理を行う。第１確率算出部１１３は、対象テキストデータ（エンティティの名前）が与えられたときの各エンティティの関連付けられる関連度を示す確率（Ｐ（エンティティ｜エンティティの名前））（以下、「第１確率」）を算出する。第１確率算出部１１３は、例えば、式（１）が示すＰ（ｅ｜ｓ）の値を第１確率として算出する。式（１）における各種要素については、後述する式（２）、（３）並びに関連ウェブページの種類ごとに説明する。第１確率は、第１指標値の一例である。

以下、関連ウェブページが百科事典ウェブページである場合の第１確率の算出処理の詳細について説明し、次に、関連ウェブページが検索結果ウェブページである場合の第１確率の算出処理の詳細について説明する。

＜１−４．関連ウェブページが百科事典ウェブページの場合＞
第１確率算出部１１３は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト（以下、「アンカーテキスト」）として含まれる確率を算出する。関連ウェブページには、対象テキストデータ（この一例では、「３０００本安打」（図示するテキストＴＸ１１）と関連付けられたエンティティ（この一例では、「野球選手Ａ」）を示すテキストデータ（図示するテキストＴＸ１２〜１４）が含まれる。また、テキストＴＸ１２〜１４のうち、テキストＴＸ１２は、アンカーテキストである。また、テキストＴＸ１２に付与された他のウェブページのリンクは、ナレッジグラフＤ１において、対象テキストデータに関連付けられたエンティティ（この一例では、「野球選手Ａ」）に対応付けられた所在情報である。

ここで、第１確率算出部１１３は、以下の式（２）によって、対象テキストデータを含むすべての百科事典ウェブページにおける対象テキストの数に対して、アンカーテキストである対象テキストデータの数によって求められる確率（以下、「アンカーテキスト確率」）を算出する。式（２）におけるａｓは、アンカーテキスト確率を示している。

また、第１確率算出部１１３は、以下の式（３）によって、当該アンカーテキストのリンク先が、ナレッジグラフＤ１において対象テキストデータと関連付けられた所在情報に対応するエンティティのウェブページ（以下、「特定のウェブページ」）である確率（以下、「第１エンティティ確率」）を算出する。式（３）におけるｅとは、第１エンティティ確率を示している。

関連ページ収集部１１２により収集された関連ウェブページが図７に示されるウェブページのみである場合、第１確率算出部１１３は、すべての関連ウェブページに含まれる対象テキストデータのうち、当該対象テキストデータがアンカーテキストである確率（つまり、アンカーテキスト確率）を「１／３」と算出する。図示する対象テキストデータの中で、リンクが付与されるのは一つだからである（二つ以上付与されている場合も一つとカウントしてよい）。また、第１確率算出部１１３は、当該アンカーテキストのリンク先が、対象テキストデータと関連付けられるエンティティの特定のウェブページである確率（第１エンティティ確率）を「１」と算出する。

＜１−５．関連ウェブページが検索結果ウェブページの場合＞
第１確率算出部１１３は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「３０００本安打」（図示するテキストＴＸ２１）であり、対象テキストデータと対応付けられたエンティティは、「野球選手Ａ」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図８に示される例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ（図示するテキストＴＸ２２〜２４）が含まれる。このうち、対象エンティティテキストデータ（この一例では、「野球選手Ａ」）が含まれるのは、テキストＴＸ２２である。テキストＴＸ２２に付与されたリンク先は、例えば、ナレッジグラフＤ１において、対象テキストデータに関連付けられたエンティティ（この一例では、「野球選手Ａ」）に対応付けられた所在情報である。つまり、テキストＴＸ２２が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストＴＸ２５が含まれてよい。

第１確率算出部１１３は、式（２）によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象エンティティテキストデータを含むリンク先がクリックされた回数の比として求められる確率（以下、「エンティティテキストクリック確率」）を算出する。式（２）におけるａｓは、エンティティテキストクリック確率を示している。

また、第１確率算出部１１３は、式（３）によって、対象エンティティテキストデータを含むリンク先が、エンティティに関する特定のウェブページである確率（以下、「第２エンティティ確率」）を算出する。式（３）におけるｅは、第２エンティティ確率を示している。

＜１−６．異なる事物を指す同一のエンティティが含まれる場合＞
ここで、エンティティは、同一の文言であっても異なる事物を指す場合がある。図９は、同一の文言によって異なるエンティティのウェブページにリンクしている例を示す図である。図９に示される例において、テキストＴＸ２２は、「野球選手Ａ」のウェブページ（例えば、図３）のリンク先を示す。これに対し、テキストＴＸ２６は、「野球選手Ａ」同姓同名の野球選手であって、「野球選手Ａ」とは異なる野球チームＣに所属する選手のウェブページのリンク先を示す。第１確率算出部１１３は、式（２）において、テキストＴＸ２６がクリックされた場合もエンティティクリック確率に算入する。

図１０は、エンティティを示す文言からリンクした、別のエンティティに関するウェブページの一例を示す図である。図１０に示される「野球選手Ａ」のウェブページには、「３０００本安打」というテキストデータに関連付けられる「野球選手Ａ」（図３に示される「野球選手Ａ」）とは異なる野球選手である「野球選手Ａ」に関連する関連データが記載されている。

第１確率算出部１１３は、第１エンティティ確率を算出する際、当該リンク先が図１０に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。また、第１確率算出部１１３は、第２エンティティ確率を算出する際も、当該リンク先が図１０に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。

＜１−７．関連ウェブページ毎の重み付け＞
また、第１確率算出部１１３は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第１エンティティ確率を乗じた値に対して、以下の式（４）を更に乗じてもよい。また、第１確率算出部１１３は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第２エンティティ確率を乗じた値に対して、以下の式（４）を更に乗じてもよい。そして、第１確率算出部１１３は、例えば、両者を加算して対数を求めることで、第1確率（スコア）を算出する。

式（４）は、百科事典ウェブページを用いて式（２）および式（３）を計算したサンプル数と、検索結果ウェブページを用いて式（２）および式（３）を計算したサンプル数との割合を示す。

第１確率算出部１１３は、百科事典ウェブページを用いて式（２）および式（３）を計算したサンプル数の割合を、アンカーテキスト確率と、第１エンティティ確率とを乗じた値に更に乗じ、検索結果ウェブページを用いて式（２）および式（３）を計算したサンプル数の割合を、エンティティテキストクリック確率と、第２エンティティ確率とを乗じた値に更に乗じ、両者を加算することで、得点に重み付けを行う。

第１確率算出部１１３は、算出した得点をコンテンツ情報Ｄ２に対応付けて記憶させる。図１１は、本実施形態に係るコンテンツ情報Ｄ２及び得点の一例を示す図である。

図１に戻り、コンテキスト抽出部１１４は、記憶部１２０に記憶されたナレッジグラフＤ１、関連ページ収集部１１２によって収集された関連ウェブページ等から、コンテキストを収集する。コンテキストとは、エンティティの属性、種類等のエンティティを特徴付ける任意の情報を示す文字列である。コンテキスト抽出部１１４は、収集したコンテキストをコンテキスト情報Ｄ３として、記憶部１２０に記憶させる。

図１２は、本実施形態に係るコンテキスト抽出部１１４によるコンテキスト収集処理の一例を説明する図である。コンテキスト抽出部１１４は、例えば、ナレッジグラフにおけるプロパティを示す文字列、隣接エンティティの名前等をコンテキストとして収集する。図１２に示される例において、コンテキスト抽出部１１４は、エンティティである「学者Ａ」と関連付けされるコンテキストとして、「ドイツ」、「１７５ｃｍ」、「出生地」、「身長」等をコンテキストとして収集する。

図１３は、本実施形態に係るコンテキスト抽出部１１４によるコンテキスト収集処理の他の例を説明する図である。コンテキスト抽出部１１４は、例えば、百科事典ウェブページにおける対象物（エンティティ）の文字列の後に表示された対象物の属性等を示す文字列をコンテキストとして収集する。図１３に示される例において、コンテキスト抽出部１１４は、対象物である「学者Ａ」の文字列の後に記載された「物理学」をコンテキストとして収集する。図１４は、本実施形態に係るコンテキスト情報Ｄ３の一例を示す図である。図１４に示される例では、エンティティ「学者Ａ」に対して、コンテキストとして「物理学」、「ドイツ」、「１７５ｃｍ」、「出生地」等が関連付けられている。

第２確率算出部１１５は、あるエンティティが与えられたときの各コンテキストが関連付けられる関連度を示す確率（Ｐ（コンテキスト｜エンティティ））（以下、「第２確率」）を算出する。第２確率算出部１１５は、例えば、関連ページのクリックログ、検索エンジンの検索ログ等に基づいて、エンティティ単位で各コンテキストの頻度情報を含む仮想文書を生成する。さらに、第２確率算出部１１５は、生成した仮想文書に対して、例えば、Latent Dirichlet Allocation（ＬＤＡ）等のアルゴリズム（非特許文献１参照）を適用することで、第２確率を算出する。すなわち、第２確率算出部１１５は、エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、第２確率を算出する。第２確率は、第２指標値の一例である。

図１５は、本実施形態に係る第２確率算出部１１５によるコンテキストの頻度情報の算出処理の一例を説明する図である。第２確率算出部１１５は、エンティティである「学者Ａ」の関連ページ（例えば、百科事典ウェブページ）をクリックしたユーザが、遷移元である検索結果ウェブページの表示のために利用したクエリのうち「学者Ａ」以外のワード（コンテキストターム）の出現頻度に基づいて、エンティティ単位で各コンテキストの頻度情報を算出する。図１５に示される例では、例えば、出現頻度が高い「物理学」の頻度が「１２０」と算出されている。一方、出現頻度が低い「身長」の頻度が「１０」と算出されている。図１４に示されるように、第２確率算出部１１５は、算出した頻度情報をコンテキスト情報Ｄ３に対応付けて記憶部１２０に記憶させる。次に、第２確率算出部１１５は、これらの頻度情報を含むコンテキストをエンティティ単位で集約することで、仮想文書を生成する。

第２確率算出部１１５は、生成した仮想文書に対して、例えば、ＬＤＡを適用することで、第２確率を算出する。エンティティは仮想文書に対応し、エンティティに対するコンテキストの頻度情報はその文書中のフレーズに相当する。

図１に戻り、ログ収集部１１６は、ウェブサーバ３００に記憶されている検索結果ウェブページのログ（例えば、クリックログ）を、ネットワークＮＷを介して収集する。ログ収集部１１６により収集されるクリックログには、例えば、検索結果ウェブページの表示のために利用されたクエリの情報と、該検索結果ウェブページに表示されたリンク先のうち、ユーザによりクリックされたリンク先のＵＲＬの情報とが含まれている。図１６は、本実施形態に係るクリックログの一例を説明する図である。図１６に示される例では、ユーザが、クエリとして「チームＡ」のワードを入力して検索を行い、端末装置２００に検索結果ウェブページＰ１が表示され、さらに、ユーザが、検索結果ウェブページＰ１に含まれるリンクのうち「東京チームＡ」の関連ページ（例えば、百科事典ウェブページＰ２）へのリンクをクリックした場合を示している。この場合、ウェブサーバ３００において出力されるクリックログＬには、ユーザによりクエリとして利用されたワード「チームＡ」の情報と、ユーザによりクリックされたリンク先である百科事典ウェブページＰ２のＵＲＬの情報とが含まれる。

第３確率算出部１１７は、あるクエリが与えられたときの各エンティティ（エンティティの名前）が関連付けられる関連度を示す確率（Ｐ（エンティティの名前｜クエリ））（以下、「第３確率」）を算出する。第３確率算出部１１７は、例えば、クエリとしてあるエンティティに対応付けられているテキストデータと部分的に一致する文字列（以下、「別名」）が与えられたときに、この別名に各エンティティが関連付けられる関連度を示す確率を算出する。第３確率は、第３指標値の一例である。

第３確率算出部１１７は、算出した第３確率を、クエリおよびエンティティと対応付けて、別名情報Ｄ４に記憶させる。図１７は、本実施形態に係る別名情報Ｄ４の一例を示す図である。図１７に示される例では、クエリ「チームＡ」およびエンティティ「東京チームＡ」の組に対して、第３確率「０．９５２」が関連付けられている。第３確率算出部１１７による第３確率の算出方法については後述する。

所在情報取得部１１８は、ウェブサーバ３００から受信したクエリに対応するエンティティ、エンティティ名、コンテキストの組を決定する。所在情報取得部１１８は、第１確率算出部１１３により算出された第１確率と、第２確率算出部１１５により算出された第２確率と、第３確率算出部１１７により算出された第３確率とに基づいて、エンティティと、クエリに含まれるワードのうちのエンティティの名前として仮定されたワードと、ワードのうちのコンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する。所在情報取得部１１８は、ナレッジグラフＤ１に基づいて、決定したエンティティに対応付けられている所在情報を取得する。その後、所在情報取得部１１８は、取得した所在情報をウェブサーバ３００に送信する。

＜１−８．ナレッジデータサーバ１００の第１オフライン動作＞
以下、ナレッジデータサーバ１００の第１オフライン動作について説明する。第１オフライン動作では、第１確率を算出する。図１８は、本実施形態のナレッジデータサーバ１００の第１確率を算出する動作の一例を示す流れ図である。選択部１１１は、コンテンツ情報Ｄ２のうち、算出対象の対象テキストデータを選択する（Ｓ１１０）。次に、関連ページ収集部１１２は、対象テキストデータに基づいて、関連ウェブページ（百科事典ウェブページ及び検索結果ウェブページ）を収集する（Ｓ１２０）。次に、第１確率算出部１１３は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する（Ｓ１３０）。

次に、第１確率算出部１１３は、第１エンティティ確率及び第２エンティティ確率を算出する（Ｓ１４０）。そして、第１確率算出部１１３は、百科事典ウェブページに基づくアンカーテキスト確率、第１エンティティ確率、及び第１コンテンツ割合を乗じた値と、検索結果ウェブページに基づくエンティティテキストクリック確率、第２エンティティ確率、及び第２コンテンツ割合を乗じた値との和を第１確率として算出し（Ｓ１５０）、算出した第１確率をコンテンツ情報Ｄ２に対応付けて記憶部１２０に記憶させる（Ｓ１６０）。以上により、本フローチャートの処理を終了する。

＜１−９．ナレッジデータサーバ１００の第２オフライン動作＞
以下、ナレッジデータサーバ１００の第２オフライン動作について説明する。第２オフライン動作では、第２確率を算出する。図１９は、本実施形態のナレッジデータサーバ１００の第２確率を算出する動作の一例を示す流れ図である。選択部１１１は、コンテンツ情報Ｄ２のうち、算出対象の対象テキストデータを選択する（Ｓ２１０）。関連ページ収集部１１２は、対象テキストデータに基づいて、関連ウェブページを収集する。次に、コンテキスト抽出部１１４は、関連ページ収集部１１２により収集された関連ウェブページに基づいて、コンテキストを収集する（Ｓ２２０）。

次に、第２確率算出部１１５は、エンティティ単位で各コンテキストの頻度情報を算出し（Ｓ２３０）、算出した頻度情報を含む仮想文書を生成する。次に、第２確率算出部１１５は、生成した仮想文書に対して、例えば、ＬＤＡ等のアルゴリズムを適用することで、第２確率を算出する（Ｓ２４０）。

図２０は、本実施形態のナレッジデータサーバ１００の第２確率を算出する詳細動作の一例を示す流れ図である。ＬＤＡにおいては、文書が複数のトピック（例えば、１０００個のトピック等）（グループ）で構成されるという仮定を置くことで、文章の特徴を解析する。複数のトピックがパターン化されたもの（以下、「トピックパターン」）が多数定義されている。すなわち、１つのトピックパターンは複数のトピックを含み、この複数のトピックの分け方の異なるトピックパターンが多数定義されている。本実施形態においては、エンティティが文書に対応し、エンティティに対応するコンテキストの頻度がその文書中のフレーズの頻度に対応する。まず、第２確率算出部１１５は、多数のトピックパターンの中から１つのパターンを選択する（Ｓ２４１）。

次に、第２確率算出部１１５は、算出対象とするエンティティとコンテキストとの組の候補を選択する（Ｓ２４２）。次に、第２確率算出部１１５は、第２確率（Ｐ（コンテキスト｜エンティティ））を算出する（Ｓ２４３）。例えば、第２確率算出部１１５は、以下の式（５）に基づいて、コンテキストがトピックに属する確率と、トピックがエンティティ（内容別）に属する確率との積を求める。第２確率算出部１１５は、この確率の積の値が最大化するように分布を学習する。

次に、第２確率算出部１１５は、全てのエンティティとコンテキストとの組の候補について第２確率の算出が完了したか否かを判定する（Ｓ２４４）。第２確率算出部１１５は、全てのエンティティとコンテキストとの組の候補について第２確率の算出が完了していないと判定した場合、第２確率の算出処理を行っていないエンティティとコンテキストとの組を１つ選択し、Ｓ２４２以降の処理を繰り返す。一方、第２確率算出部１１５は、全てのエンティティとコンテキストとの組の候補について第２確率の算出が完了したと判定した場合、算出した第２確率を足し合わせる処理を行って、処理対象のトピックパターンに対するスコアを算出する。

次に、第２確率算出部１１５は、全てのトピックパターンに対する処理が完了したか否かを判定する（Ｓ２４５）。第２確率算出部１１５は、全てのトピックパターンに対する処理が完了していないと判定した場合、処理を行っていないトピックパターンを１つ選択し、Ｓ２４２以降の処理を繰り返す。

一方、第２確率算出部１１５は、全てのトピックパターンに対する処理が完了したと判定した場合、算出したスコアが最も高いトピックパターンを、採用するトピックパターンに決定する（Ｓ２４６）。

次に、第２確率算出部１１５は、上記のように決定したトピックパターンに関して算出された第２確率を採用する第２確率として決定する（Ｓ２４７）。尚、第２確率算出部１１５は、エンティティとコンテキストとの組の候補の全てに対して第２確率の計算を行わなくてもよい。例えば、エンティティとコンテキストとの組の候補に不適切な表現が含まれている場合には、これを除外するようにしてもよい。また、第２確率算出部１１５は、追加の条件に応じて、除外処理を行うようにしてもよい。例えば、第２確率算出部１１５は、エンティティと対応する百科事典ウェブページの概要文に含まれないコンテキストは除外するようにしてもよい。データの除外は、第２確率の算出の前に除外するのではなく、確率算出が終わった後に行ってよい。これは、不適切な表現であっても、ＬＤＡでの確率算出には有用であるためである。以上により、本フローチャートの処理を終了する。

図１９に戻り、第２確率算出部１１５は、決定した第２確率をコンテキスト情報Ｄ３に対応付けて記憶部１２０に記憶させる（Ｓ２５０）。尚、第２確率算出部１１５は、決定した第２確率を、例えばＳｏｌｒ等の転置インデックスに格納してもよい。このＳｏｌｒに対してＯＲクエリを投げることで、何回も問い合わせすることなく、一度の問い合わせで全ての候補を取得することができる。以上により、本フローチャートの処理を終了する。

＜１−１０．ナレッジデータサーバ１００の第３オフライン動作＞
以下、ナレッジデータサーバ１００の第３オフライン動作について説明する。第３オフライン動作では、第３確率を算出する。図２１は、本実施形態のナレッジデータサーバ１００の第３確率を算出する動作の一例を示す流れ図である。ログ収集部１１６は、ウェブサーバ３００に記憶されている検索結果ウェブページのログ（例えば、クリックログ）を、ネットワークＮＷを介して収集する（Ｓ３１０）。

次に、第３確率算出部１１７は、ログ収集部１１６により収集されたクリックログから、クエリとエンティティとの組を抽出する（Ｓ３２０）。例えば、検索に利用されたクエリが「チームＡ」であり、このクエリと対応する検索結果ウェブページにおいて「東京チームＡ」の百科事典ウェブページへのリンクがクリックされている場合、「東京チームＡ」がエンティティとして抽出される。第３確率算出部１１７は、クリックログから、このようなクエリとエンティティとの組を複数抽出する。なお、ここで抽出されるクエリは、複数の文字列であってよい。すなわち、クエリは、エンティティの「別名」に加えて、エンティティを特徴付ける任意の情報を示す「コンテキスト」を含んでよい。

次に、第３確率算出部１１７は、ナレッジグラフＤ１を参照して、抽出されたクエリとエンティティとの組に基づいて、クエリとエンティティの名前との組を生成する（Ｓ３３０）。このエンティティの名前とは、ナレッジグラフＤ１に記憶されているエンティティの正式な名前である。例えば、「チームＡ」と「東京チームＡ」との組が抽出されている場合、第３確率算出部１１７は、このエンティティ「東京チームＡ」の正式な名前を、ナレッジグラフＤ１から読み出す。例えば、第３確率算出部１１７は、「東京チームＡ」という文字列や、「東京チームＡ」の百科事典ウェブページのＵＲＬ等に基づいて、抽出されたエンティティである「東京チームＡ」と、ナレッジグラフＤ１上のエンティティの正式な名前との紐付けを行う。なお、ここで生成されるクエリとエンティティの名前との組における「クエリ」は、エンティティの「別名」に加えて、「コンテキスト」を含んでよい。クエリに「コンテキスト」が存在しない場合（すなわち、クエリが１つのワードである場合）、コンテキストは空文字であるものとして処理される。

次に、第３確率算出部１１７は、生成されたクエリとエンティティの名前との組の各々について、第３確率（Ｐ（エンティティの名前｜クエリ））を算出する（Ｓ３４０）。第３確率算出部１１７は、例えば、式（６）が示すＰ（ｎａｍｅ_ｉ｜ｑｕｅｒｙ）の値を第３確率として算出する。第３確率算出部１１７は、クリックログにおいて、ワードを名前の少なくとも一部に含むエンティティの関連ページへの遷移回数を用いて第３確率を算出する。

上記の式（６）におけるｎａｍｅとは、エンティティの名前を示し、ｑｕｅｒｙとはクエリを示し、ｓｕｂｊとはクエリに含まれる別名を示し、ｃｏｎｔｅｘｔとはクエリに含まれるコンテキストを示す。また、ｎとは、クエリとして別名が利用された場合に、検索結果ウェブページにおいて、特定のエンティティの関連ページ（例えば、百科事典ウェブページ）に遷移した回数（特定のエンティティの関連ページへのリンクがクリックされた回数）を示している。また、αは、エンティティ毎に予め設定された係数を示している。

例えば、図１６に示される例のように、クリックログにおいて、「チームＡ」がクエリとして利用され、エンティティである「東京チームＡ」の百科事典ウェブページに遷移したことを示すログが複数存在している場合を考える。ここで、エンティティである「東京チームＡ」の第３確率を算出する場合、クエリと同じ文字列である「チームＡ」を対比するエンティティ（以下、「ライバル」とも言う）として設定して、上記の式（６）の値を算出する。

まず、エンティティである「東京チームＡ」およびライバルとして設定された「チームＡ」の各々に対して係数αが予め設定されている。例えば、「チームＡ」の係数αは５００に設定され、「東京チームＡ」の係数αは１に設定される。このように、係数αは、そのエンティティに対応する関連ページへの遷移の起こりにくさを示すものである。例えば、係数αは大きくなるほど、関連ページへの遷移が起こりにくくなることを示す。エンティティとしての「チームＡ」の関連ページへの遷移は少ない（エンティティとしての「チームＡ」の関連ページが存在しない場合にはそもそも遷移が無い）ため（遷移しにくい）、大きな値（５００）が設定されている。また、エンティティとしての「東京チームＡ」の関連ページへの遷移は多いため（遷移しやすい）、小さな値が設定されている。

ここで、クリックログにおいて、「チームＡ」がクエリとして利用された場合の、「チームＡ」の百科事典ウェブページへの遷移回数ｎが０であり、「東京チームＡ」の百科事典ウェブページへの遷移回数ｎが１０^４である場合、上記の式（６）の値は以下の式（７）のように算出される。第３確率は、クリックログにおいて、エンティティの関連ページへの遷移回数が多くなるほど、第３確率の値が大きくなるように定義される。

また、上記の式（６）は、以下の式（８）のように表すこともできる。

上記の式（８）において、ｓはエンティティの名前を示し、ｓ_ｓはクエリに含まれる主要語（例えば、別名）を示し、ｓ_ｃはクエリに含まれる周辺語（例えば、コンテキスト）を示す。また、ｎとは、クエリとして別名が利用された場合に、検索結果ウェブページにおいて、特定のエンティティの関連ページ（例えば、百科事典ウェブページ）に遷移した回数（特定のエンティティの関連ページへのリンクがクリックされた回数）を示している。また、αは、エンティティ毎に予め設定された係数（正の整数）を示している。

また、Ｓ（ｓ_ｓ，ｓ_ｃ）は以下の手順により生成される。まず、クリックログの各レコードのうちのクエリから展開可能なすべてのｓ_ｓ，ｓ_ｃを列挙する。次に、ｓ（∈Ｓ_ｅ）に対し、（ｓ_ｓ，ｓ_ｃ，ｅ）の組が条件を満たすときｓを集合Ｓ（ｓ_ｓ，ｓ_ｃ）に加える、ここで、条件とはｓ（∈Ｓ_ｅ）およびｓ_ｓに小文字化、記号削除を行ったとき、ｓ_ｓがｓの部分文字列もしくは同一の文字列となることである。

第３確率算出部１１７は、算出した第３確率を、クエリおよびエンティティと対応付けて、別名情報Ｄ４に記憶させる（Ｓ３５０）。以上により、本フローチャートの処理を終了する。

＜１−１１．ナレッジデータサーバ１００のオンライン動作＞
図２２は、本実施形態のナレッジデータサーバ１００のオンライン動作の一例を示す流れ図である。まず、所在情報取得部１１８は、ウェブサーバ３００からクエリを受信する（Ｓ４１０）。例えば、所在情報取得部１１８は、「チームＡ」と、「野球」との２つのワードを含むクエリを受信する。

次に、所在情報取得部１１８は、別名情報Ｄ４のうち、受信したクエリに含まれるワードの各々と合致するテキストデータに関連付けられているエンティティを読み出す（Ｓ４２０）。図１７に示される例では、クエリ「チームＡ」と対応付けられたエンティティとして、「東京チームＡ」、「リトルチームＡ」、「石川チームＡ」という３つのエンティティが読み出される。

次に、所在情報取得部１１８は、受信したクエリと読み出されたエンティティとを用いて、「エンティティの名前」と、「エンティティ」と、「コンテキスト」との組み合わせの候補（エンティティ、エンティティの名前、コンテキスト）を全通り生成する（Ｓ４３０）。図１７に示される例では、以下３つの組み合わせの候補が生成される。
・（エンティティＥＮ１，東京チームＡ，野球）
・（エンティティＥＮ２，リトルチームＡ，野球）
・（エンティティＥＮ３，石川チームＡ，野球）

次に、所在情報取得部１１８は、組み合わせの候補の各々について、以下の評価式（９）の値を算出する（Ｓ４４０）。

上記の式（９）は、（エンティティ、エンティティの名前、コンテキスト）の組み合わせ毎に、第３確率（Ｐ（ｎａｍｅ｜ｑｕｅｒｙ））と、第１確率（Ｐ（ｅｎｔｉｔｙ｜ｎａｍｅ））と、第２確率（Ｐ（ｃｏｎｔｅｘｔ｜ｅｎｔｉｔｙ））との乗算値を求めている。第１確率は、クエリに含まれるワードのうち、エンティティの名前として仮定されたワードが、複数のエンティティのそれぞれと関連付けられる確率である。第２確率は、クエリに含まれるワードのうち、複数のエンティティのそれぞれが、コンテキストとして仮定されたワードと関連付けられる確率である。第３確率は、クエリに含まれるワードのうち、エンティティの名前として仮定されたワードが、ワードを名前の少なくとも一部に含む複数のエンティティのそれぞれと関連付けられる確率である。

例えば、（エンティティＥＮ１，東京チームＡ，野球）の組み合わせの場合、所在情報取得部１１８は、コンテンツ情報Ｄ２から、エンティティの名前（テキストデータ）としての「東京チームＡ」と、エンティティ「エンティティＥＮ１」との組と関連付けられている第１確率を読み出す。さらに、所在情報取得部１１８は、コンテキスト情報Ｄ３から、エンティティ「エンティティＥＮ１」と、コンテキストとしての「野球」との組と関連付けられている第２確率を読み出す。さらに、所在情報取得部１１８は、別名情報Ｄ４から、クエリ「チームＡ」と、エンティティの名前「東京チームＡ」との組と関連付けられている第３確率を読み出す。そして、所在情報取得部１１８は、読み出した第１確率と、第２確率と、第３確率との乗算値を求める。

次に、所在情報取得部１１８は、算出した乗算値のうち、最大の値を有するエンティティ、エンティティの名前、コンテキストの組を、ユーザにより入力されたクエリの検索意図として適切な組として決定する（Ｓ４５０）。所在情報取得部１１８は、決定した組に含まれるエンティティの所在情報をナレッジグラフＤ１から取得して、ウェブサーバ３００に送信する。以上により、本フローチャートの処理を終了する。

尚、ユーザにより入力されたクエリが１つのみである場合には、所在情報取得部１１８は、この１つのクエリをエンティティ名とした場合の第１確率、第２確率、および第３確率に基づいて、関連付けされるエンティティを判定してよい。

以上、説明したように、本実施形態のナレッジデータサーバ１００は、クエリとして入力された１以上のワードと、エンティティとの関連度を示す第１指標値を算出する第１確率算出部１１３（第１指標値算出部）と、前記ワードをコンテキストとして含むエンティティと、前記ワードとの関連度を示す第２指標値を算出する第２確率算出部１１５（第２指標値算出部）と、前記ワードと、前記ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第３指標値を算出する第３確率算出部１１７（第３指標値算出部）と、前記第１指標値算出部により算出された前記第１指標値と、前記第２指標値算出部により算出された前記第２指標値と、前記第３指標値算出部により算出された前記第３指標値とに基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する所在情報取得部１１８（生起確率算出部）とを備える。

これによって、本実施形態のナレッジデータサーバ１００は、ユーザにより入力された多様なクエリの検索意図を適切に評価することができる。本実施形態のナレッジデータサーバ１００によれば、ユーザにより入力されたクエリが、ナレッジグラフに登録されているエンティティの名前と異なる場合（エンティティの別名）であっても、クエリと対応するエンティティに関する情報をユーザに提供することができる。また、本実施形態のナレッジデータサーバ１００によれば、ナレッジグラフに別名に関する情報を記憶させる必要がない。このため、ナレッジグラフを用いた各種計算の速度低下を防ぐことができ、また、クエリに対応するエンティティの候補が増大してしまう事態を回避することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１００…ナレッジデータサーバ
１１０…制御部
１１１…選択部
１１２…関連ページ収集部
１１３…第１確率算出部
１１４…コンテキスト抽出部
１１５…第２確率算出部
１１６…ログ収集部
１１７…第３確率算出部
１１８…所在情報取得部
１１９…通信Ｉ／Ｆ
１２０…記憶部
２００…端末装置
２１０…表示部
２１１…クエリ入力領域
２２０…ナレッジパネル
２２１…エンティティ
２２２…画像
２２３…関連情報
２３０…検索結果
３００…ウェブサーバ
Ｄ１…ナレッジグラフ
Ｄ２…コンテンツ情報
Ｄ３…コンテキスト情報
Ｄ４…別名情報

Claims

クエリとして入力された１以上のワードと、エンティティとの関連度を示す第１指標値を算出する第１指標値算出部と、
前記ワードをコンテキストとして含むエンティティと、前記ワードとの関連度を示す第２指標値を算出する第２指標値算出部と、
前記ワードと、前記ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第３指標値を算出する第３指標値算出部と、
前記第１指標値算出部により算出された前記第１指標値と、前記第２指標値算出部により算出された前記第２指標値と、前記第３指標値算出部により算出された前記第３指標値とに基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部と
を備える情報処理装置。
前記第３指標値は、前記エンティティの名前として仮定された前記ワードが、前記ワードを名前の少なくとも一部に含む複数の前記エンティティのそれぞれと関連付けられる確率である、
請求項１に記載の情報処理装置。
前記第１指標値は、前記エンティティの名前として仮定された前記ワードが、複数の前記エンティティのそれぞれと関連付けられる確率であり、
前記第２指標値は、複数の前記エンティティのそれぞれが、前記コンテキストとして仮定された前記ワードと関連付けられる確率である、
請求項１または２に記載の情報処理装置。
前記生起確率算出部は、前記組み合わせ毎に、前記第１指標値と、前記第２指標値と、前記第３指標値との乗算値を算出し、算出した前記乗算値が最も大きな組み合わせを、前記エンティティと、前記エンティティの名前に相当するワードと、前記コンテキストに相当するワードとの組み合わせと判定する、
請求項１から３のいずれか一項に記載の情報処理装置。
前記第３指標値算出部は、前記ワードと関連付けられるページのクリックログに基づいて、前記第３指標値を算出する、
請求項１から４のいずれか一項に記載の情報処理装置。
前記第３指標値算出部は、
前記クリックログから前記クエリと前記エンティティとの組を抽出し、
抽出された前記クエリと前記エンティティとの組と、ナレッジグラフとに基づいて、前記クエリと前記エンティティの名前との組を生成し、
生成された前記クエリと前記エンティティの名前との組の各々に対する前記第３指標値を算出する、
請求項５に記載の情報処理装置。
前記第３指標値算出部は、前記クリックログにおいて、前記ワードを名前の少なくとも一部に含む前記エンティティの関連ページへの遷移回数を用いて前記第３指標値を算出する、
請求項５または６に記載の情報処理装置。
前記第３指標値は、前記クリックログにおいて、前記エンティティの関連ページへの遷移回数が多くなるほど、前記第３指標値の値が大きくなるように定義される、
請求項７に記載の情報処理装置。
コンピュータが、
クエリとして入力された１以上のワードと、エンティティとの関連度を示す第１指標値を算出し、
前記ワードをコンテキストとして含むエンティティと、前記ワードとの関連度を示す第２指標値を算出し、
前記ワードと、前記ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第３指標値を算出し、
算出された前記第１指標値、前記第２指標値、および前記第３指標値に基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する、
情報処理方法。
コンピュータに、
クエリとして入力された１以上のワードと、エンティティとの関連度を示す第１指標値を算出させ、
前記ワードをコンテキストとして含むエンティティと、前記ワードとの関連度を示す第２指標値を算出させ、
前記ワードと、前記ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第３指標値を算出させ、
算出された前記第１指標値、前記第２指標値、および前記第３指標値に基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出させる、
プログラム。