JP2020154753A

JP2020154753A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2020154753A
Application number: JP2019052814A
Authority: JP
Inventors: 葉子石川; Yoko Ishikawa; 樹生豊田; Mikio Toyoda; 真也夜久; Shinya Yaku; 宏希岩澤; Hiroki Iwasawa
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2020-09-24
Anticipated expiration: 2039-03-20
Also published as: JP7078569B2

Abstract

【課題】エンティティとキーワードとの関係を適切に評価すること。【解決手段】評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第１種類のウェブページの情報を収集する収集部と、前記第１種類のウェブページにおいて、前記対象テキストデータと関連付けられた第１サービスへのリンク先が選択された回数に関する第１指標値と、前記対象テキストデータと関連付けられた第２サービスへのリンク先が選択された回数に関する第２指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う評価部と、を備える情報処理装置。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、ウェブからデータ（文書や画像など）を収集し、収集したデータを自動的にデータベース化するクローラが知られている（特許文献１参照）。クローラは、ウェブページ中のリンクを辿って、様々なＩＰアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。

一方、検索エンジンは、ユーザによって入力された検索ワード（以下、「クエリ」）を受信すると、受信したクエリに関連するウェブページやアプリページの情報（例えばＵＲＬ：Uniform Resource Locator）をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。

特開２０１２−６９１７１号公報

検索エンジンは、ユーザ満足度を向上させるため、ユーザにより入力されたクエリに関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータ（以下、「キーワード」ともいう）とエンティティとを互いに関連付けて記憶したデータベースが用いられる場合がある。ここで、データベースにおいて、ある特定のエンティティに関連付けられているテキストデータがクエリとして入力されると、その特定のエンティティに関する情報が検索結果とともに出力されることになる。

しかしながら、ユーザが一般的な用語（以下、「一般語」ともいう）の意味の検索を行う場合に、この検索に利用されたクエリに特定のエンティティが紐付けられ、ユーザの検索意図とは異なるエンティティに関する情報が検索結果とともに出力されてしまう場合があった。

本発明は、このような事情を考慮してなされたものであり、エンティティとキーワードとの関係を適切に評価することができる情報処理装置を提供することを目的の一つとする。

本発明の一態様は、評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第１種類のウェブページの情報を収集する収集部と、前記第１種類のウェブページにおいて、前記対象テキストデータと関連付けられた第１サービスへのリンク先が選択された回数に関する第１指標値と、前記対象テキストデータと関連付けられた第２サービスへのリンク先が選択された回数に関する第２指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う評価部と、を備える情報処理装置である。

本発明の一態様によれば、エンティティとキーワードとの関係を適切に評価することができる。

本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。本実施形態に係るナレッジグラフの一例を示す図である。本実施形態に係る「東京タワー」のウェブページの一例を示す図である。本実施形態に係るコンテンツ情報の一例を示す図である。本実施形態に係る検索結果ウェブページの一例を示す図である。本実施形態に係る収集部により収集された百科事典ウェブページの一例を示す図である。本実施形態に係る収集部により収集された検索結果ウェブページの一例を示す図である。本実施形態に係る収集部により収集された検索結果ウェブページの他の例を示す図である。本実施形態に係るコンテンツ情報及び得点の一例を示す図である。本実施形態のナレッジデータサーバの得点を算出する動作の一例を示す流れ図である。本実施形態のナレッジデータサーバの得点に基づく動作の一例を示す流れ図である。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ（例えば、画像やテキストデータ）を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。

エンティティとは、例えば、ある対象事物の実体（例えば、実世界で存在している物体）を表していてもよいし、ある対象事物の概念（例えば、実世界または仮想世界の中で定義された概念）を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。

＜実施形態＞
＜１−１．ナレッジデータサーバの使用環境＞
図１は、本実施形態に係るナレッジデータサーバ１００の使用環境及び構成を示す図である。ナレッジデータサーバ１００は、端末装置２００と、ウェブサーバ３００と、クロール対象機器ＤＶと、ネットワークＮＷを介して通信可能に接続される。ネットワークＮＷは、ワールドワイドウェブ（World Wide Web）を意味し、インターネットやイントラネットで標準的に用いられるＨＴＭＬ（HyperText Markup Language）文書などを利用したシステムである。ネットワークＮＷは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。

端末装置２００は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ３００は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置２００に提供する。

ナレッジデータサーバ１００は、例えば、制御部１１０と、記憶部１２０とを備える。記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部１２０の一部または全部は、ＮＡＳ（Network Attached Storage）や外部のストレージサーバなど、ナレッジデータサーバ１００がアクセス可能な外部装置であってもよい。記憶部１２０には、例えば、ナレッジグラフＤ１と、コンテンツ情報Ｄ２とが記憶される。

図２は、本実施形態に係るナレッジグラフＤ１の一例を示す図である。ナレッジグラフＤ１において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報１」や「Ｃ１」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

ナレッジグラフＤ１は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。

図２に示されるナレッジグラフＤ１は、エンティティＥ１と、エンティティＥ２とが、「所在地」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報（以下、「エンティティ識別情報ＥＩＤ」という）と、エンティティ名と、エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、ＵＲＬである。所在情報が示すウェブページには、エンティティの関連データが記載されている。

図２に示されるナレッジグラフＤ１において、エンティティＥ１には、エンティティ識別情報ＥＩＤの「０００１」と、エンティティ名の「東京タワー」と、エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／東京タワー」というＵＲＬとが関連付けられている。また、エンティティＥ２には、エンティティ識別情報ＥＩＤの「０００２」と、エンティティ名「東京都」と、このエンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／東京都」というＵＲＬとが関連付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。

図３は、本実施形態に係る「東京タワー」のウェブページの一例を示す図である。「東京タワー」のウェブページには、「東京タワー」の関連データが記載されている。

図４は、本実施形態に係るコンテンツ情報Ｄ２の一例を示す図である。コンテンツ情報Ｄ２とは、エンティティと、テキストデータとが関連付けられた情報である。コンテンツ情報Ｄ２は、ウェブページに含まれる関連データを収集した収集結果又は検索エンジンの検索ログに基づいて生成される。コンテンツ情報Ｄ２は、例えば、エンティティのウェブページに含まれるテキストデータが収集され、収集されたテキストデータと、エンティティとが関連付けられた情報である。また、コンテンツ情報Ｄ２は、例えば、エンティティがクエリとして入力された際、当該エンティティと共に入力されたテキストデータと、エンティティとが関連付けられた情報である。図４に示される一例のコンテンツ情報Ｄ２において、「東京タワー」というエンティティには、「日本電波塔」というテキストデータが関連付けられ、「東京都」というエンティティには、「日本の首都」というテキストデータが関連付けられる。

＜１−２．検索結果ウェブページ＞
図５は、本実施形態に係る検索結果ウェブページの一例を示す図である。図５に示されるように、端末装置２００の表示部２１０には、クエリ入力領域２１１と、ナレッジパネル２２０と、検索結果２３０とが含まれる検索結果ウェブページが表示される。ナレッジパネル２２０には、クエリに対応するエンティティ２２１と、エンティティ２２１に関連する画像２２２と、エンティティ２２１に関連する関連情報２２３とが含まれる。ユーザは、端末装置２００を用いて、端末装置２００の表示部２１０に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置２００は、ユーザによって入力されたクエリをウェブサーバ３００に送信する。

ウェブサーバ３００は、端末装置２００から受信したクエリをナレッジデータサーバ１００に送信する。ナレッジデータサーバ１００は、受信したクエリに対応するエンティティに関連する情報をウェブサーバ３００に送信する。ナレッジデータサーバ１００は、例えば、コンテンツ情報Ｄ２に基づいて、受信したクエリ（テキストデータ）に関連付けられたエンティティを判定する。また、ナレッジデータサーバ１００は、ナレッジグラフＤ１に基づいて、判定したエンティティに関連付けられた所在情報をウェブサーバ３００に送信する。ウェブサーバ３００は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ３００は、抽出したエンティティの関連データ（この一例では、ナレッジパネル２２０に示す情報）を含む検索結果ウェブページ（例えば、図５）を生成する。

図５に示される例においては、クエリとして「日本電波塔」が入力され、ナレッジパネル２２０には「日本電波塔」に関連する画像や様々な情報が表示されている。ナレッジパネル２２０には、例えば、「日本電波塔」を示す「東京タワー」の画像２２２や、「東京タワー」の高さや所在地などの関連情報２２３が表示される。このように、検索結果２３０だけでなく、ナレッジパネル２２０を表示部２１０に表示することで、検索結果に対するユーザ満足度を向上させることができる。

上記のようなナレッジパネル２２０を提供するためには、ナレッジグラフＤ１及びコンテンツ情報Ｄ２に含まれる情報量を充実化させておき、多様なクエリに対応可能であり且つ適切なエンティティの情報を提供できるようにしておく必要がある。また、一般語の意味を検索する目的で利用されたクエリに対しては、特定のエンティティとの紐付が行われないようにしておく必要がある。そこで、本実施形態のナレッジデータサーバ１００は、テキストデータに関連付けられるエンティティが適切であるかを示す指標（以下、「得点」ともいう）を複数のサービスの利用状況に関する情報などに基づいて導出する。以下、ナレッジデータサーバ１００の詳細な構成について説明する。

＜１−３．ナレッジデータサーバ１００の構成＞
図１に戻り、制御部１１０は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。制御部１１０は、例えば、選択部１１１と、収集部１１２と、得点算出部１１３（評価部）と、所在情報取得部１１４（判定部）と、通信Ｉ／Ｆ（Interface）１１５を備える。また、これらの構成要素のうち一部または全部（内包する記憶部を除く）は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信Ｉ／Ｆ１１５は、ネットワークＮＷを介した各機能部と、他の機器（例えば、クロール対象機器ＤＶ、端末装置２００、及びウェブサーバ３００）との通信を仲介する。

選択部１１１は、記憶部１２０に記憶されたコンテンツ情報Ｄ２から、得点を算出する対象の任意のテキストデータ（以下、「対象テキストデータ」）を選択する。収集部１１２は、選択部１１１によって選択された対象テキストデータに関連するウェブページ（以下、「関連ウェブページ」）の情報を、ネットワークＮＷを介して収集する。収集部１１２は、例えば、利用者によって編集可能であり、事物や事柄の内容を解説する百科事典のウェブページ（以下、「百科事典ウェブページ」）、対象テキストデータをクエリとした場合の検索結果ウェブページ、この検索結果のウェブページに含まれるリンクのクリックログなどの利用状況に関する情報を収集する。

ここで、百科事典ウェブページは、第１のサービス（以下、「百科事典提供サービス」）によって提供されるページである。百科事典ウェブページは、第２種類のウェブページの一例である。また、検索結果ウェブページとは、第１種類のウェブページの一例である。検索結果ウェブページに含まれるリンクには、第１のサービスによって提供される百科事典ウェブページへのリンクの他、第１のサービスとは異なる第２のサービスによって提供されるウェブページへのリンクなどが含まれる。第２のサービスは、例えば、各種用語の意味を解説する辞書のウェブページ（以下、「辞書ウェブページ」）を提供するサービス（以下、「辞書提供サービス」）である。

図６は、収集部１１２により収集された百科事典ウェブページの一例を示す図である。図６に示される例において、収集部１１２は、百科事典ウェブページのうち、選択部１１１によって選択された対象テキストデータである「日本電波塔」の文字列が含まれるページの情報を収集する。収集部１１２は、例えば、百科事典ウェブページのＨＴＭＬデータを含む収集対象データを、ネットワークＮＷを介してクロール対象機器ＤＶから収集する。収集部１１２は、いわゆるクローラプログラムにより実現される。ここで、収集対象データは、ネットワークＮＷ上（クロール対象機器ＤＶの記憶領域内）にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、ＨＴＭＬのソースを示すテキストデータを含む関連ウェブページである。収集部１１２は、百科事典ウェブページのうち、対象テキストデータが含まれる百科事典ウェブページが複数存在する場合、そのすべてを収集する。

また、図７は、収集部１１２により収集された検索結果ウェブページの一例を示す図である。図７に示される例において、検索結果ウェブページは、「日本電波塔」というクエリ（図示するテキストＴＸ２１）が入力された場合の検索結果を示している。検索結果ウェブページには、コンテンツ情報Ｄ２に含まれるエンティティ「東京タワー」に関するウェブページへのリンクが含まれる。クエリは、対象テキストデータの一例である。

図１に戻り、得点算出部１１３は、収集部１１２により収集された関連ウェブページに基づいて、あるセグメント（ここでは、対象テキストデータ）とエンティティとの組の得点（評価結果）を算出する。得点算出部１１３は、対象テキストデータに対してエンティティが関連付けられる度合い（対象テキストデータとエンティティとの関連度）を示す確率（Ｐ（エンティティ｜セグメント））を算出する。得点算出部１１３は、検索結果ページにおいて、辞書提供サービスへのリンクが選択された回数が大きくなるにつれて、対象テキストデータとエンティティとの関連度が低くなるように、得点を算出する。例えば、得点算出部１１３は、以下の式（１）が示すＰ（ｅ｜ｓ）の値を得点として算出する。式（１）におけるｅはエンティティを示し、ｓはセグメント（ここでは、対象テキストデータ）を示す。式（１）における他の要素については、後述する。

以下、得点算出部１１３による得点算出処理の詳細について説明する。

＜１−４．第１のサービス（百科事典提供サービス）に関する得点算出＞
＜関連ウェブページが百科事典ウェブページの場合＞
（１）対象テキストデータに対してエンティティが紐付く確率
上記の式（１）に含まれる以下の式（２）の項は、対象テキストデータに対してエンティティが紐付く確率を示している。以下においては、関連ウェブページが百科事典ウェブページの場合における、式（２）の算出処理について説明する。

得点算出部１１３は、収集部１１２により収集された百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト（アンカーテキスト）として含まれる確率を算出する。百科事典ウェブページには、対象テキストデータ（図６に示される「日本電波塔」のテキストＴＸ１１）と関連付けられたエンティティ（「東京タワー」）を示すテキストデータ（図６に示される「東京タワー」のテキストＴＸ１２〜１４）が含まれる。また、テキストＴＸ１１〜１４のうち、テキストＴＸ１２は、アンカーテキストである。また、テキストＴＸ１２に付与された他のウェブページのリンクのＵＲＬは、ナレッジグラフＤ１において、対象テキストデータに関連付けられたエンティティ（「東京タワー」）に関連付けられた所在情報と同じである。

ここで、得点算出部１１３は、上記の式（２）におけるアンカーテキスト確率（以下の式（３））を算出する。アンカーテキスト確率とは、対象テキストデータを含むすべての百科事典ウェブページにおいて、対象テキストデータと関連付けられたエンティティを示すテキストデータの総数（延べ数）に対する、アンカーテキストであるテキストデータの数によって求められる確率を示す。以下の式（３）は、情報元ｃ（ここでは、ｃ＝ｃ_ｗ（百科事典ウェブページ））およびセグメントｓ（ここでは、対象テキストデータ）が与えられたとき、エイリアスａ_ｓが生成される確率を示している。ａ_ｓ＝１は、テキストデータがアンカーテキストであることを示している。ここで、アンカーテキスト確率とは、第３指標値の一例である。

また、得点算出部１１３は、上記の式（２）における第１エンティティ確率（以下の式（４））を算出する。第１エンティティ確率とは、当該アンカーテキストのリンク先が、ナレッジグラフＤ１において対象テキストデータと関連付けられたエンティティの所在情報に対応するウェブページ（以下、「特定のウェブページ」）である確率を示す。ここで、第１エンティティ確率とは、第４指標値の一例である。

得点算出部１１３は、式（３）に基づいて算出されたアンカーテキスト確率と、式（４）に基づいて算出された第１エンティティ確率とを乗算することで、対象テキストデータに対してエンティティが紐付く確率（式（２））を算出する。

例えば、収集部１１２により収集された百科事典ウェブページが図６に示す百科事典ウェブページのみである場合、得点算出部１１３は、この関連ウェブページに含まれる対象テキストデータと関連付けられたエンティティ（「東京タワー」）を示すテキストデータのうち、当該テキストデータがアンカーテキストである確率（つまり、アンカーテキスト確率）を「１／３」と算出する。図示する３つのテキストデータＴＸ１２からＴＸ１４の中で、リンクが付与されているのはテキストＴＸ１２の一つだからである。また、得点算出部１１３は、当該アンカーテキストのリンク先が、対象テキストデータと関連付けられるエンティティの特定のウェブページである確率（第１エンティティ確率）を「１」と算出する。この場合、得点算出部１１３は、対象テキストデータに対してエンティティが紐付く確率（式（２））を、「１／３（アンカーテキスト確率）」×「１（第１エンティティ確率）」＝「１／３」と算出する。

（２）対象テキストデータに対してエンティティが紐付かない確率
上記の式（１）に含まれる以下の式（５）の項は、対象テキストデータに対してエンティティが紐付かない確率を示している。以下においては、関連ウェブページが百科事典ウェブページの場合における、式（５）の算出処理について説明する。

得点算出部１１３は、収集部１１２により収集された百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示さないテキスト（以下、「非アンカーテキスト」）として含まれる確率を算出する。

得点算出部１１３は、上記の式（５）における、非アンカーテキスト確率（以下の式（６））を算出する。非アンカーテキスト確率とは、百科事典ウェブページにおける対象テキストデータと関連付けられたエンティティを示すテキストデータの総数（延べ数）に対する、非アンカーテキストであるテキストデータの数によって求められる確率を示す。以下の式（６）は、情報元ｃ（ここでは、ｃ＝ｃ_ｗ（百科事典ウェブページ））およびセグメントｓ（ここでは、対象テキストデータ）が与えられたとき、エイリアスａ_ｓが生成されない確率を示している。ａ_ｓ＝０は、テキストデータがアンカーテキストではないこと（リンクが付与されていないテキストであること）ことを示している。得点算出部１１３は、式（６）によって、「１」から、「アンカーテキスト確率」を減算することにより、非アンカーテキスト確率を求める。

また、得点算出部１１３は、上記の式（５）における、第２エンティティ確率（以下の式（７））を算出する。第２エンティティ確率とは、百科事典ウェブページにおける、対象テキストデータと関連付けられたエンティティを示すテキストデータの総数（延べ数）に対する、アンカーテキストであり且つ該アンカーテキストのリンク先が特定のウェブページであるテキストデータの数によって求められる確率を示す。

得点算出部１１３は、式（６）に基づいて算出された非アンカーテキスト確率と、式（７）に基づいて算出された第２エンティティ確率とを乗算することで、対象テキストデータに対してエンティティが紐付かない確率（式（５））を算出する。

例えば、収集部１１２により収集された百科事典ウェブページが図６に示すウェブページのみである場合、得点算出部１１３は、この百科事典ウェブページに含まれる対象テキストデータと関連付けられたエンティティ（「東京タワー」）を示すテキストデータのうち、当該テキストデータが非アンカーテキストである確率（つまり、非アンカーテキスト確率）を「２／３」と算出する。図示する３つのテキストデータＴＸ１２からＴＸ１４の中で、リンクが付与されていないのはテキストＴＸ１３およびＴＸ１４の二つだからである。また、図６に示される百科事典ウェブページに含まれるエンティティ（「東京タワー」）を示すテキストデータの延べ数が「３」であり、このうち、アンカーテキストであり且つ該アンカーテキストのリンク先が特定のウェブページであるテキストデータの数は一つであるため（テキストデータＴＸ１２）、得点算出部１１３は、第２エンティティ確率を「１／３」と算出する。この場合、得点算出部１１３は、対象テキストデータに対してエンティティが紐付かない確率（式（５））を、「２／３（非アンカーテキスト確率）」×「１／３（第２エンティティ確率）」＝「２／９」と算出する。

＜関連ウェブページが検索結果ウェブページの場合＞
（１）対象テキストデータに対してエンティティが紐付く確率
次に、関連ウェブページが検索結果ウェブページの場合における、式（２）の算出処理について説明する。得点算出部１１３は、検索結果ウェブページにおいて、対象テキストデータがクリックログ上でアンカーテキストであると判定された総数（対象テキストデータがエンティティと紐付く関連ウェブページをクリックした総数）（「第２指標値」の一例）と、対象テキストデータがクリックログ上でアンカーテキストでないと判定された総数（対象テキストデータがエンティティと紐付かない関連ウェブページをクリックした総数）（「第１指標値」の一例）とに基づいて、対象テキストデータに対してエンティティが紐付く確率を算出する。

本実施形態においては、検索結果ページにおいて対象テキストデータと関連付けられたエンティティをテキストとして含む百科事典ウェブページへのリンクがクリックされた回数（以下、「クリック数」）を、対象テキストデータがエンティティと紐付く関連ウェブページをクリックした総数としてみなす。また、検索結果ページにおいて対象テキストデータと関連付けられたエンティティをテキストとして含む辞書ウェブページへのリンクがクリックされた回数（以下、「クリック数」）を、対象テキストデータがエンティティと紐付かない関連ウェブページをクリックした総数としてみなす。なお、「クリック」とは、選択することの一例であり、タッチ、タップその他の態様で選択されてもよい。以下の説明では代表してクリックと称する。

図８は、収集部１１２により収集された検索結果ウェブページの他の例を示す図である。図８に示される例においては、検索結果ウェブページは、「確証」というクエリ（図示するテキストＴＸ２６）が入力された場合の検索結果を示している。この検索結果ウェブページには、対象テキストデータ「確証」をテキストとして含むリンクが付与されたテキストデータ（図示するテキストＴＸ２７〜２９）が含まれる。このうち、辞書提供サービスへのリンクが付与されたテキストは、テキストＴＸ２７である。この検索結果ウェブページにおいて、ユーザにより、辞書提供サービスへのリンクが付与されたテキストＴＸ２７がクリックされた場合、このユーザは、一般語としての「確証」の意味を調べる意図で検索を行ったことが推定される。このため、このような一般語の意味を調べる意図で入力されたクエリに対しては、アンカーテキスト確率の値を下げ、特定のエンティティが紐付く確率を下げるようにする。

例えば、上記の式（３）は、以下の式（８）に基づいて算出される。

上記の式（８）の分母におけるｎ（ｓ，ｃ）の項は、以下の式（９）に基づいて算出される。

上記の式（９）に含まれる以下の式（１０）の項は、対象テキストデータがクリックログ上でアンカーテキストであると判定された総数（対象テキストデータがエンティティと紐づく関連ウェブページをクリックした総数）を示している。なお、この式（１０）の項は、上記の式（８）の分子と同じである。一方、上記の式（９）に含まれる以下の式（１１）の項は、対象テキストデータがクリックログ上でアンカーテキストでないと判定された総数（対象テキストデータがエンティティと紐付かない関連ウェブページをクリックした総数）を示している。

上記の式（１１）の値が増大するにつれて、すなわち、辞書ウェブページのクリック数が増大するにつれて、上記の式（９）の値が増大する。この結果、上記の式（９）を分母に含む上記の式（８）の値は小さくなる。これにより、辞書ウェブページへの遷移が多い傾向がある対象テキストデータについては、アンカーテキスト確率の値を下げることができる。

また、得点算出部１１３は、式（４）によって、対象テキストデータと関連付けられたエンティティを含むリンク先が、エンティティに関する特定のウェブページである確率（以下、「第３エンティティ確率」）を算出する。

得点算出部１１３は、式（３）に基づいて算出されたアンカーテキスト確率と、式（４）に基づいて算出された第３エンティティ確率とを乗算することで、対象テキストデータに対してエンティティが紐付く確率（式（２））を算出する。

（２）対象テキストデータに対してエンティティが紐付かない確率
次に、関連ウェブページが検索結果ウェブページの場合における、式（５）の算出処理について説明する。得点算出部１１３は、式（６）によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象テキストデータと関連付けられたエンティティを示すテキストデータを含む百科事典ウェブページに関するリンク先がクリックされなかった回数の比として求められる確率（非アンカーテキスト確率」）を算出する。例えば、得点算出部１１３は、式（６）によって、「１」から、「アンカーテキスト確率」を減算することにより、非アンカーテキスト確率を求める。

上記のとおり、辞書ウェブページのクリック数が増大するにつれて、アンカーテキスト確率の値は低下し、これにより、非アンカーテキスト確率は増大することになる。このため、一般語の意味を調べる意図で入力されたクエリに対しては、非アンカーテキスト確率の値を増大させ、特定のエンティティが紐付く確率を下げることができる。

また、得点算出部１１３は、式（７）によって、第４エンティティ確率を算出する。第４エンティティ確率とは、検索結果ウェブページにおける、対象テキストデータと関連付けられたエンティティを示すテキストデータの総数（延べ数）に対する、アンカーテキストであり且つ該アンカーテキストのリンク先が特定のウェブページであるテキストデータの数によって求められる確率を示す。

得点算出部１１３は、式（６）に基づいて算出された非エンティティテキストクリック確率と、式（７）に基づいて算出された第４エンティティ確率とを乗算することで、対象テキストデータに対してエンティティが紐付かない確率（式（５））を算出する。

＜関連ウェブページ毎の重み付け＞
また、得点算出部１１３は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第１エンティティ確率を乗じた値と、非アンカーテキスト確率に対して第２エンティティ確率を乗じた値と、の各々に対して、以下の式（８）を更に乗じてもよい。また、得点算出部１１３は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第３エンティティ確率を乗じた値と、非エンティティテキストクリック確率に対して第４エンティティ確率を乗じた値と、の各々に対して、以下の式（１２）を更に乗じてもよい。そして、得点算出部１１３は、例えば、上記により算出された４つの値を加算して対数を求めることで、得点を算出する。

上記の式（１２）は、上記の計算に利用された百科事典ウェブページのサンプル数と、上記の計算に利用された検索結果ウェブページのサンプル数との割合を示す。

得点算出部１１３は、上記の計算に利用された百科事典ウェブページのサンプル数の割合を、アンカーテキスト確率に対して第１エンティティ確率を乗じた値と、非アンカーテキスト確率に対して第２エンティティ確率を乗じた値と、の各々に対して更に乗じ、上記の計算に利用された検索結果ウェブページのサンプル数の割合を、エンティティテキストクリック確率に対して第３エンティティ確率を乗じた値と、非エンティティテキストクリック確率に対して第４エンティティ確率を乗じた値と、の各々に対して更に乗じ、算出された４つの値を加算することで、得点に重み付けを行う。

図１に戻り、所在情報取得部１１４は、記憶部１２０に記憶されたコンテンツ情報Ｄ２を参照して、ウェブサーバ３００から受信したクエリに対応するエンティティを取得する。所在情報取得部１１４は、受信したクエリと合致するテキストデータに所定の閾値以上の得点が関連付けられている場合、当該テキストデータに関連付けられているエンティティを、当該クエリに対応するエンティティとして判定する。所在情報取得部１１４は、ナレッジグラフＤ１に基づいて、判定したエンティティに関連付けられている所在情報を取得する。その後、所在情報取得部１１４は、取得した所在情報をウェブサーバ３００に送信する。

このように、所在情報取得部１１４は、ウェブサーバ３００からクエリを受信した場合、クエリに対応するテキストデータを特定する。このとき、クエリとテキストデータとが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するテキストデータとみなしてよい。

＜１−７．ナレッジデータサーバ１００の動作＞
以下、ナレッジデータサーバ１００の動作について説明する。図１１は、本実施形態のナレッジデータサーバ１００の得点を算出する動作の一例を示す流れ図である。選択部１１１は、コンテンツ情報Ｄ２のうち、得点算出対象の対象テキストデータを選択する（Ｓ１００）。次に、収集部１１２は、対象テキストデータに基づいて、関連ウェブページ（百科事典ウェブページ、検索結果ウェブページ、検索結果ページのクリックログ）を収集する（Ｓ１０２）。次に、得点算出部１１３は、関連ウェブページが百科事典ウェブページの場合における得点を算出する（Ｓ１０４）。

次に、得点算出部１１３は、関連ウェブページが検索結果ウェブページの場合における得点を算出する（Ｓ１０６）。次に、得点算出部１１３は、関連ウェブページ毎の重み付けを行い、最終的な得点を算出し（Ｓ１０８）、算出した得点をコンテンツ情報Ｄ２に関連付けて記憶部１２０に記憶させる。以上により、本フローチャートの処理が終了する。

図１２は、本実施形態のナレッジデータサーバ１００の得点に基づく動作の一例を示す流れ図である。所在情報取得部１１４は、ウェブサーバ３００からクエリを受信する（Ｓ２００）。次に、所在情報取得部１１４は、コンテンツ情報Ｄ２のうち、クエリと合致する対象テキストデータに関連付けられている得点を読み出す（Ｓ２０２）。次に、所在情報取得部１１４は、得点が所定の閾値以上であるかを判定する（Ｓ２０４）。所在情報取得部１１４は、得点が所定の閾値以上である場合、ナレッジグラフＤ１においてテキストデータに関連付けられているエンティティの所在情報をウェブサーバ３００に送信（出力）する（Ｓ２０６）。また、所在情報取得部１１４は、得点が所定の閾値未満である場合、ウェブサーバ３００に所在情報を送信（出力）しない（Ｓ２０８）。以上により、本フローチャートの処理が終了する。

以上、説明したように、本実施形態のナレッジデータサーバ１００は、評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第１種類のウェブページの情報を収集する収集部１１２と、前記第１種類のウェブページにおいて、前記対象テキストデータと関連付けられた第１サービスへのリンク先が選択された回数に関する第１指標値と、前記対象テキストデータと関連付けられた第２サービスへのリンク先が選択された回数に関する第２指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う評価部（得点算出部１１３）と、を備える情報処理装置。これによって、本実施形態のナレッジデータサーバ１００は、エンティティとキーワードとの関係を適切に評価することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１００…ナレッジデータサーバ
１１０…制御部
１１１…選択部
１１２…収集部
１１３…得点算出部
１１４…所在情報取得部
１２０…記憶部
２００…端末装置
２１０…表示部
２１１…クエリ入力領域
２２０…ナレッジパネル
２２１…エンティティ
２２２…画像
２２３…関連情報
２３０…検索結果
３００…ウェブサーバ
Ｄ１…ナレッジグラフ
Ｄ２…コンテンツ情報

Claims

評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第１種類のウェブページの情報を収集する収集部と、
前記第１種類のウェブページにおいて、前記対象テキストデータと関連付けられた第１サービスへのリンク先が選択された回数に関する第１指標値と、前記対象テキストデータと関連付けられた第２サービスへのリンク先が選択された回数に関する第２指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う評価部と、
を備える情報処理装置。
前記評価部は、前記第１サービスへのリンク先が選択された回数が大きくなるにつれて、前記対象テキストデータと前記エンティティとの関連度が低くなると判定する、
請求項１に記載の情報処理装置。
前記第１サービスは、辞書のウェブページを提供するサービスである、
請求項１または２に記載の情報処理装置。
前記第２サービスは、百科事典のウェブページを提供するサービスである、
請求項１から３のいずれか一項に記載の情報処理装置。
前記収集部は、前記対象テキストデータに関連する情報を表示する第２種類の関連ウェブページを収集し、
前記評価部は、前記収集部によって収集された前記第２種類の関連ウェブページにおいて、前記対象テキストデータと関連付けられるエンティティが前記第２サービスへのリンク先を示すテキストとして含まれる確率に関する第３指標値に基づいて、前記評価を行う、
請求項１から４のいずれか一項に記載の情報処理装置。
前記評価部は、前記第２種類の関連ウェブページにおける前記テキストにより示される前記第２サービスへのリンク先にあるウェブページが、前記対象テキストデータと関連付けられるエンティティのウェブページである確率に関する第４指標値に基づいて、前記評価を行う、
請求項５に記載の情報処理装置。
前記評価部による評価結果を参照し、クエリに対して、エンティティに関する情報を出力すべきか否かを判定する判定部を更に備える、
請求項１から請求項６のいずれか一項に記載の情報処理装置。
前記評価部は、前記対象テキストデータに対応するエンティティの得点を算出し、
前記判定部は、前記得点が所定の閾値以上である場合、当該得点が関連付けられたエンティティの情報を出力し、前記得点が所定の閾値より小さい場合、当該得点が関連付けられたエンティティの情報を出力しないように判定する、
請求項７に記載の情報処理装置。
コンピュータが、
評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第１種類のウェブページの情報を収集し、
前記第１種類のウェブページにおいて、前記対象テキストデータと関連付けられた第１サービスへのリンク先が選択された回数に関する第１指標値と、前記対象テキストデータと関連付けられた第２サービスへのリンク先が選択された回数に関する第２指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う、
情報処理方法。
コンピュータに、
評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第１種類のウェブページの情報を収集させ、
前記第１種類のウェブページにおいて、前記対象テキストデータと関連付けられた第１サービスへのリンク先が選択された回数に関する第１指標値と、前記対象テキストデータと関連付けられた第２サービスへのリンク先が選択された回数に関する第２指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行わせる、
プログラム。