JP2021140246A

JP2021140246A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2021140246A
Application number: JP2020035085A
Authority: JP
Inventors: 樹生豊田; Mikio Toyoda; 真也夜久; Shinya Yaku; 葉子石川; Yoko Ishikawa; 誉太土沢; Yuta Tsuchizawa; 潤二宰川; Junji Saikawa
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2021-09-16
Anticipated expiration: 2040-03-02
Also published as: JP7354019B2

Abstract

【課題】ユーザにより入力されたクエリの検索意図を適切に評価してクエリに対応するエンティティを決定すること。【解決手段】クエリとして入力された１以上のワードと、エンティティの文字列との各々に対して文字列処理を行い、文字列処理後の前記ワードと、文字列処理後の前記ワードを少なくとも一部に含む文字列処理後の前記エンティティの文字列とを関連付けすることで、前記クエリと、前記エンティティとの関連度を示す指標値を算出する算出部と、算出された前記指標値に基づいて、前記クエリと関連づけられるエンティティを決定する決定部とを備える情報処理装置。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、ウェブからデータ（文書や画像など）を収集し、収集したデータを自動的にデータベース化するクローラが知られている（特許文献１参照）。クローラは、ウェブページ中のリンクを辿って、様々なＩＰアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。

一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページやアプリページの情報（例えば、ＵＲＬ：Uniform Resource Locator）をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。

特開２０１２−６９１７１号公報

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索ワード（以下、「クエリ」とも言う）に関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに対応付けて記憶したデータベースが用いられる場合がある。

このデータベースにおいて、特定のエンティティに対応付けられているテキストデータと完全に一致する文字列がクエリとして入力された場合、その特定のエンティティに関する情報を検索結果とともに出力させることができる。一方、特定のエンティティに対応付けられているテキストデータと完全には一致しない文字列が入力された場合、エンティティの紐づけを行うことができない。この完全には一致しない文字列には、例えば、特定のエンティティに対応付けられているテキストデータと部分的に一致する文字列、該テキストデータから記号が除去された文字列、該テキストデータと表記（大文字、小文字など）が異なる文字列などが含まれる。

上記の完全には一致しない文字列に対応するエンティティを出力させるために、これらの文字列をデータベースに記憶させる方法が考えられる。しかしながら、データベースにこれらの多数の文字列を記憶させると空間計算量が増大してしまい、データベースを用いた各種計算の速度が低下してしまう。また、やみくもに多数の文字列をデータベースに記憶させると、クエリに対応するエンティティの候補が増大してしまう。

本発明は、このような事情を考慮してなされたものであり、ユーザにより入力されたクエリの検索意図を適切に評価してクエリに対応するエンティティを決定することができる情報処理装置を提供することを目的の一つとする。

本発明の一態様は、クエリとして入力された１以上のワードと、エンティティの文字列との各々に対して文字列処理を行い、文字列処理後の前記ワードと、文字列処理後の前記ワードを少なくとも一部に含む文字列処理後の前記エンティティの文字列とを関連付けすることで、前記クエリと、前記エンティティとの関連度を示す指標値を算出する算出部と、算出された前記指標値に基づいて、前記クエリと関連づけられるエンティティを決定する決定部とを備える情報処理装置である。

本発明の一態様によれば、ユーザにより入力されたクエリの検索意図を適切に評価してクエリに対応するエンティティを決定することができる。

本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。本実施形態に係るナレッジグラフの一例を示す図である。本実施形態に係る「野球選手Ａ」のウェブページの一例を示す図である。本実施形態に係る「野球チームＢ」のウェブページの一例を示す図である。本実施形態に係るコンテンツ情報の一例を示す図である。本実施形態に係る検索結果ウェブページの一例を示す図である。本実施形態に係る収集部により収集された関連ウェブページの一例を示す図である。本実施形態に係る収集部により収集された関連ウェブページの他の一例を示す図である。本実施形態に係る第１指標値情報の一例を示す図である。本実施形態に係るクリックログの一例を説明する図である。本実施形態に係る第２指標値情報Ｄ４の一例を示す図である。本実施形態に係るナレッジデータサーバの第１指標値を算出する動作の一例を示すフローチャートである。本実施形態のナレッジデータサーバの第２指標値を算出する動作の一例を示すフローチャートである。本実施形態に係るナレッジデータサーバのオンライン動作の一例を示す流れ図である。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ（例えば、画像やテキストデータ）を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。

エンティティとは、例えば、ある対象事物の実体（例えば、実世界で存在している物体）を表していてもよいし、ある対象事物の概念（例えば、実世界または仮想世界の中で定義された概念）を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。

＜１−１．ナレッジデータサーバの使用環境＞
図１は、本実施形態に係るナレッジデータサーバ１００の使用環境及び構成を示す図である。ナレッジデータサーバ１００は、端末装置２００と、ウェブサーバ３００と、クロール対象機器ＤＶと、ネットワークＮＷを介して通信可能に接続される。ネットワークＮＷは、ワールドワイドウェブ（World Wide Web）を意味し、インターネットやイントラネットで標準的に用いられるＨＴＭＬ文書などを利用したシステムである。ネットワークＮＷは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。

端末装置２００は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ３００は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置２００に提供するサーバである。

ナレッジデータサーバ１００は、例えば、制御部１１０と、記憶部１２０とを備える。記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部１２０の一部または全部は、ＮＡＳ（Network Attached Storage）や外部のストレージサーバなど、ナレッジデータサーバ１００がアクセス可能な外部装置であってもよい。記憶部１２０には、例えば、ナレッジグラフ（以下、「ナレッジグラフＤ１」）と、コンテンツ情報Ｄ２と、第１指標値情報Ｄ３と、第２指標値情報Ｄ２とが記憶される。

図２は、本実施形態に係るナレッジグラフＤ１の一例を示す図である。ナレッジグラフＤ１において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報１」や「Ｃ１」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

ナレッジグラフＤ１は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。

図２に示される例のナレッジグラフＤ１は、エンティティＥ１と、エンティティＥ２とが、「所属チーム」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報（以下、「エンティティ識別情報ＥＩＤ」）と、エンティティ名と、当該エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、ＵＲＬである。所在情報が示すウェブページには、当該エンティティの関連データが記載されている。

図２に示されるナレッジグラフＤ１において、エンティティＥ１には、エンティティ識別情報ＥＩＤの「０００１」と、エンティティ名の「野球選手Ａ」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／野球選手Ａ」というＵＲＬとが対応付けられている。また、エンティティＥ２には、エンティティ識別情報ＥＩＤの「０００２」と、エンティティ名「野球チームＢ」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／野球チームＢ」というＵＲＬとが対応付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。

図３は、本実施形態に係る「野球選手Ａ」のウェブページの一例を示す図である。「野球選手Ａ」のウェブページには、「野球選手Ａ」の関連データが記載されている。また、図４は、本実施形態に係る「野球チームＢ」のウェブページの一例を示す図である。「野球チームＢ」のウェブページには、「野球チームＢ」の関連データが記載されている。

図５は、本実施形態に係るコンテンツ情報Ｄ２の一例を示す図である。コンテンツ情報Ｄ２とは、エンティティと、テキストデータとが関連付けられた情報である。コンテンツ情報Ｄ２は、ウェブページに含まれる関連データを収集した収集結果又は検索エンジンの検索ログに基づいて生成される。コンテンツ情報Ｄ２は、例えば、エンティティのウェブページに含まれるテキストデータが収集され、収集されたテキストデータと、エンティティとが関連付けられた情報である。また、コンテンツ情報Ｄ２は、例えば、エンティティがクエリとして入力された際、当該エンティティと共に入力されたテキストデータと、エンティティとが関連付けられた情報である。図５に示される一例のコンテンツ情報Ｄ２において、「野球選手Ａ」というエンティティには、「３０００本安打」というテキストデータが関連付けられ、「野球チームＢ」というエンティティには、「２０１７年優勝」というテキストデータが関連付けられる。

図６は、本実施形態に係る検索結果ウェブページの一例を示す図である。図６に示されるように、端末装置２００の表示部２１０には、クエリ入力領域２１１と、ナレッジパネル２２０と、検索結果２３０とが含まれる検索結果ウェブページが表示される。ナレッジパネル２２０には、クエリに対応するエンティティ２２１と、エンティティ２２１に関連する画像２２２と、エンティティ２２１に関連する関連情報２２３とが含まれる。ユーザは、端末装置２００を用いて、端末装置２００の表示部２１０に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置２００は、ユーザによって入力されたクエリをウェブサーバ３００に送信する。

ウェブサーバ３００は、端末装置２００から受信したクエリをナレッジデータサーバ１００に送信する。ナレッジデータサーバ１００は、受信したクエリに対応するエンティティに関連する情報をウェブサーバ３００に送信する。また、ナレッジデータサーバ１００は、ナレッジグラフＤ１に基づいて、判定したエンティティに対応付けられた所在情報をウェブサーバ３００に送信する。ウェブサーバ３００は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ３００は、抽出したエンティティの関連データ（この一例では、ナレッジパネル２２０に示す情報）を含めた検索結果ウェブページ（例えば、図６）を生成する。

図６に示される例においては、クエリとして「３０００本安打」が入力され、ナレッジパネル２２０には「３０００本安打」に関連する画像や様々な情報が表示されている。ナレッジパネル２２０には、例えば、「３０００本安打」を達成した「野球選手Ａ」の画像２２２や、「野球選手Ａ」の生年月日や出身地等の関連情報２２３が表示される。このように、検索結果２３０だけでなく、ナレッジパネル２２０を表示部２１０に表示することで、検索結果に対するユーザ満足度を向上させることができる。

＜１−２．ナレッジデータサーバ１００の構成＞
図１に戻り、制御部１１０は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。制御部１１０は、例えば、通信Ｉ／Ｆ（Interface）１１１、関連ページ収集部１１２と、第１指標値算出部１１３と、ログ収集部１１４と、第２指標値算出部１１５と、生起確率算出部１１６と、情報提供部１１７と、フィルター部１１８とを備える。また、これらの構成要素のうち一部または全部（内包する記憶部を除く）は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。第２指標値算出部１１５は、「算出部」の一例である。生起確率算出部１１６は、「決定部」の一例である。

通信Ｉ／Ｆ１１１は、ネットワークＮＷを介した各機能部と、他の機器（例えば、クロールの対象機器（以下、クロール対象機器ＤＶ）、端末装置２００、及びウェブサーバ３００）との通信を仲介する。

関連ページ収集部１１２は、コンテンツ情報Ｄ２から確率算出対象の任意のテキストデータ（以下、「セグメント」とも言う）を抽出し、抽出したセグメントに関連するウェブページ（以下、「関連ウェブページ」）を、ネットワークＮＷを介して収集する。関連ページ収集部１１２により収集されるウェブページとは、例えば、利用者によって編集可能な百科事典のウェブページ（以下、「百科事典ウェブページ」）や、セグメントをクエリとした場合の検索結果ウェブページである。

図７は、関連ページ収集部１１２により収集された百科事典ウェブページの一例を示す図である。図７に示される例においては、関連ページ収集部１１２は、百科事典ウェブページのうち、コンテンツ情報Ｄ２が示す「野球選手Ａ」のエンティティに関連付けられる「３０００本安打」というセグメントが記載された関連ウェブページを収集する。関連ページ収集部１１２は、例えば、百科事典ウェブページのＨＴＭＬ（HyperText Markup Language）データを含む収集対象データを、ネットワークＮＷを介してクロール対象機器ＤＶから収集する。関連ページ収集部１１２は、いわゆるクローラプログラムにより実現される。収集対象データは、ネットワークＮＷ上（クロール対象機器ＤＶの記憶領域内）にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、ＨＴＭＬのソースを示すテキストデータを含む関連ウェブページである。関連ページ収集部１１２は、百科事典ウェブページのうち、セグメントが記載された関連ウェブページが存在する場合、そのすべてを収集する。

図８は、関連ページ収集部１１２により収集された検索結果ウェブページの一例を示す図である。図８に示される例においては、検索結果ウェブページは、コンテンツ情報Ｄ２が示すエンティティ「野球選手Ａ」が検索結果として表示される、「３０００本安打」というクエリ（図示するテキストＴＸ２１）が入力され、検索ボタン３１１がクリックされた場合の検索結果を示している。なお、「クリック」とは、選択することの一例であり、タッチ、タップその他の態様であってもよい。以下の説明では代表してクリックと称する。

図１に戻り、第１指標値算出部１１３は、関連ページ収集部１１２によって収集された関連ウェブページに基づいて、セグメントとエンティティとの組に対して確率算出処理を行う。第１指標値算出部１１３は、セグメントが与えられたときの各エンティティに関連付けられる確率（関連度）（Ｐ（エンティティ｜セグメント）（以下、「第１指標値」）を算出する。第１指標値算出部１１３は、例えば、以下の式（１）が示すＰ（ｅ｜ｓ）の値を第１指標値として算出する。式（１）において、ｃは情報元を示し、ｅはエンティティを示し、ｓはセグメントを示している。情報元ｃ＝ｃ_ｗは情報元が百科事典ウェブページであることを示し、情報元ｃ＝ｃ_ｑは情報元がクリックログであることを示す。

以下、関連ウェブページが百科事典ウェブページである場合の第１指標値の算出処理の詳細について説明し、次に、関連ウェブページが検索結果ウェブページである場合の第１指標値の算出処理の詳細について説明する。

まず、関連ウェブページが百科事典ウェブページである場合について説明する。第１指標値算出部１１３は、百科事典ウェブページに含まれるテキストデータのうち、セグメントと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト（以下、「アンカーテキスト」）として含まれる確率を算出する。図７に示す例において、関連ウェブページには、セグメント（この一例では、「３０００本安打」（図示するテキストＴＸ１１）と関連付けられたエンティティ（この一例では、「野球選手Ａ」）を示すテキストデータ（図示するテキストＴＸ１２〜１４）が含まれる。また、テキストＴＸ１２〜１４のうち、テキストＴＸ１２は、アンカーテキストである。また、テキストＴＸ１２に付与された他のウェブページのリンクは、ナレッジグラフＤ１において、セグメントに関連付けられたエンティティ（この一例では、「野球選手Ａ」）に対応付けられた所在情報である。以降の説明において、セグメントと関連付けられたエンティティを示すテキストを、対象エンティティテキストデータと記載する。

ここで、第１指標値算出部１１３は、以下の式（２）によって、セグメントを含むすべての百科事典ウェブページにおける対象エンティティテキストデータの数に対する、アンカーテキストの数によって求められる確率（以下、「アンカーテキスト確率」）を算出する。アンカーテキスト確率は、例えば、以下の式（２）により算出される。アンカーテキスト確率は、情報元ｃおよびセグメントｓが与えられたときにアンカーテキストａ_ｓが生成される確率を示す。式（２）におけるａ_ｓは、アンカーテキスト確率を示している。

また、第１指標値算出部１１３は、以下の式（３）によって、当該アンカーテキストのリンク先が、ナレッジグラフＤ１においてエンティティと関連付けられた所在情報に対応するエンティティのウェブページ（以下、「特定のウェブページ」）である確率（以下、「第１エンティティ確率」）を算出する。

関連ページ収集部１１２により収集された関連ウェブページが図７に示されるウェブページのみである場合、第１指標値算出部１１３は、すべての関連ウェブページに含まれる対象エンティティテキストデータのうち、アンカーテキストである確率（つまり、アンカーテキスト確率）を「１／３」と算出する。図示するセグメントの中で、リンクが付与されるのは一つだからである。なお、同一の関連ウェブページ内において二つ以上のアンカーテキストが含まれる場合も一つとカウントしてよい。また、第１指標値算出部１１３は、当該アンカーテキストのリンク先が特定のウェブページである場合、第１エンティティ確率を「１」と算出する。

次に、関連ウェブページが検索結果ウェブページの場合について説明する。第１指標値算出部１１３は、検索結果ウェブページに含まれるセグメントと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。図８に示す例において、セグメントは、「３０００本安打」（図示するテキストＴＸ２１）であり、セグメントと対応付けられたエンティティは、「野球選手Ａ」である。図８に示される例では、関連ウェブページには、セグメントの関連ウェブページのリンクが付与されたテキストデータ（図示するテキストＴＸ２２〜２４）が含まれる。このうち、対象エンティティテキストデータ（この一例では、「野球選手Ａ」）が含まれるのは、テキストＴＸ２２である。テキストＴＸ２２に付与されたリンク先は、例えば、ナレッジグラフＤ１において、セグメントに関連付けられたエンティティ（この一例では、「野球選手Ａ」）に対応付けられた所在情報である。つまり、テキストＴＸ２２が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストＴＸ２５が含まれてよい。

第１指標値算出部１１３は、上記の式（２）によって、すべての検索結果ウェブページに含まれるそれぞれのリンクがクリックされた回数に対して、対象エンティティテキストデータを含むリンクがクリックされた回数の比として求められる確率（以下、「エンティティテキストクリック確率」）を算出する。式（２）におけるａ_ｓは、エンティティテキストクリック確率を示している。

また、第１指標値算出部１１３は、上記の式（３）によって、対象エンティティテキストデータを含むリンク先が、エンティティに関する特定のウェブページである確率（以下、「第２エンティティ確率」）を算出する。

第１指標値算出部１１３は、上記の式（１）によって算出した第１指標値を、第１指標値情報Ｄ３として、記憶部１２０に記憶させる。図９は、本実施形態に係る第１指標値情報Ｄ３の一例を示す図である。図９に示す例では、セグメント「３０００本安打」が与えられたときのエンティティ「野球選手Ａ」が生成される確率（＝第１指標値）として、「０．８２４」が記憶されている。

図１に戻り、ログ収集部１１４は、ウェブサーバ３００に記憶されている検索結果ウェブページのログ（例えば、クリックログ）を、ネットワークＮＷを介して収集する。ログ収集部１１４により収集されるクリックログには、例えば、検索結果ウェブページの表示のために利用されたクエリの情報と、該検索結果ウェブページに表示されたリンクのうち、ユーザによりクリックされたリンクのＵＲＬの情報とが含まれている。図１０は、本実施形態に係るクリックログの一例を説明する図である。図１０に示される例では、ユーザが、クエリとして「チームＡ」の文字列を入力して検索を行い、端末装置２００に検索結果ウェブページＰ１が表示され、さらに、ユーザが、検索結果ウェブページＰ１に含まれるリンクのうち「東京チームＡ」の関連ページ（例えば、百科事典ウェブページＰ２）へのリンクをクリックした場合を示している。この場合、ウェブサーバ３００において出力されるクリックログＬには、ユーザによりクエリとして利用されたワード「チームＡ」の情報と、ユーザによりクリックされたリンク先である百科事典ウェブページＰ２のＵＲＬの情報とが含まれる。

第２指標値算出部１１５は、あるクエリが与えられたときのクエリの補完先のセグメントが生成される確率（以下、「第２指標値」）を算出する。補完先のセグメントとは、クエリがエンティティの名前の文字列とは完全には一致しない場合に、該クエリがエンティティの名前の文字列と一致するように補完された文字列を示す。第２指標値算出部１１５は、例えば、クエリとして主要語および周辺語が与えられたときに、これらの主要語および周辺語に各セグメント（エンティティの名前）が関連付けられる確率を算出する。第２指標値は、「指標値」の一例である。

主要語とは、ユーザの検索意図を最も特徴付けるクエリである。周辺語とは、主要語を補助的に特徴付けるクエリである。主要語には、例えば、エンティティの名前を示す文字列、エンティティの名前の文字列とは完全には一致しない文字列である。この完全には一致しない文字列には、例えば、エンティティの名前を示す文字列と部分的に一致する文字列、エンティティの名前を示す文字列から記号が除去された文字列、エンティティの名前を示す文字列と表記（大文字、小文字など）が異なる文字列などが含まれる。周辺語には、例えば、コンテキストが含まれる。コンテキストとは、エンティティの属性、種類等のエンティティを特徴付ける任意の情報を示す文字列である。

第２指標値算出部１１５は、算出した第２指標値を、クエリ（主要語および周辺語）および補完先のセグメントに対応付けて、第２指標値情報Ｄ４に記憶させる。図１１は、本実施形態に係る第２指標値情報Ｄ４の一例を示す図である。図１１に示される例では、主要語「チームＡ」、周辺語「野球」、およびセグメント「東京チームＡ」に対して、第２指標値「０．９５２」が対応付けられている。

すなわち、第２指標値算出部１１５は、クエリとして入力された１以上のワードと、エンティティの文字列との各々に対して文字列処理を行い、文字列処理後のワードと、文字列処理後のワードを少なくとも一部に含む文字列処理後のエンティティの文字列とを関連付けすることで、クエリと、エンティティとの関連度を示す第２指標値を算出する。第２指標値算出部１１５による第２指標値の算出方法については後述する。

生起確率算出部１１６は、第１指標値算出部１１３により算出された第１指標値と、第２指標値算出部１１５により算出された第２指標値と、に基づいて、あるクエリが与えられたときのエンティティが生成される確率（以下「生起確率」）を算出する。

情報提供部１１７は、生起確率算出部１１６により算出された生起確率に基づいて、ウェブサーバ３００から受信したクエリに対応するエンティティを決定し、ナレッジグラフＤ１に基づいて決定したエンティティに対応付けられている所在情報を取得し、取得した所在情報をウェブサーバ３００に送信する。

＜１−３．ナレッジデータサーバ１００の第１オフライン動作＞
以下、ナレッジデータサーバ１００の第１オフライン動作について説明する。第１オフライン動作では、第１指標値を算出する。図１２は、本実施形態に係るナレッジデータサーバ１００の第１指標値を算出する動作の一例を示すフローチャートである。まず、関連ページ収集部１１２は、コンテンツ情報Ｄ２のうち、算出対象のテキストデータであるセグメントを抽出する（Ｓ１１０）。次に、関連ページ収集部１１２は、抽出したセグメントに基づいて、関連ウェブページ（百科事典ウェブページ及び検索結果ウェブページ）を収集する（Ｓ１２０）。次に、第１指標値算出部１１３は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する（Ｓ１３０）。

次に、第１指標値算出部１１３は、第１エンティティ確率及び第２エンティティ確率を算出する（Ｓ１４０）。そして、第１指標値算出部１１３は、例えば、百科事典ウェブページに基づくアンカーテキスト確率に第１エンティティ確率を乗じた値と、検索結果ウェブページに基づくエンティティテキストクリック確率に第２エンティティ確率を乗じた値との和を第１指標値として算出する（Ｓ１５０）。第１指標値算出部１１３は、算出した第１指標値を第１指標値情報Ｄ３として記憶部１２０に記憶させる。以上の動作を、ナレッジデータサーバ１００は、コンテンツ情報Ｄ２に記憶された全テキストデータに対して行う。以上により、本フローチャートの処理を終了する。

＜１−４．ナレッジデータサーバ１００の第２オフライン動作＞
以下、ナレッジデータサーバ１００の第２オフライン動作について説明する。第２オフライン動作では、第２指標値を算出する。図１３は、本実施形態に係るナレッジデータサーバ１００の第２指標値を算出する動作の一例を示すフローチャートである。まず、ログ収集部１１４は、ウェブサーバ３００に記憶されている検索結果ウェブページのログ（例えば、クリックログ）を、ネットワークＮＷを介して収集する（Ｓ２１０）。

次に、第２指標値算出部１１５は、ログ収集部１１４により収集されたクリックログの各レコードの中から、クエリと、エンティティとの組を抽出する（Ｓ２２０）。例えば、検索に利用されたクエリが「チームＡ」および「野球」の２語であり、このクエリと対応する検索結果ウェブページにおいて「東京チームＡ」の百科事典ウェブページへのリンクがクリックされている場合、（クエリ，エンティティの名前）の組として、（チームＡ野球，東京チームＡ）が抽出される。第２指標値算出部１１５は、クリックログから、このようなクエリとエンティティの名前との組を複数抽出する。尚、クエリとエンティティとの組として抽出される「クエリ」は、１つのワードであってもよい。このエンティティの名前とは、ナレッジグラフＤ１に記憶されているエンティティの正式な名前である。例えば、エンティティとして「東京チームＡ」が抽出されている場合、第２指標値算出部１１５は、このエンティティ「東京チームＡ」の正式な名前を、ナレッジグラフＤ１から読み出す。例えば、第２指標値算出部１１５は、「東京チームＡ」という文字列や、「東京チームＡ」の百科事典ウェブページのＵＲＬ等に基づいて、抽出されたエンティティである「東京チームＡ」と、ナレッジグラフＤ１上のエンティティの正式な名前との紐付けを行う。すなわち、第２指標値算出部１１５は、ワードと関連付けられるページのクリックログに基づいて、第２指標値を算出する。

次に、第２指標値算出部１１５は、抽出されたクエリとエンティティとの組に含まれるクエリから展開可能な全ての主要語と、周辺語との組を列挙する（Ｓ２３０）。例えば、第２指標値算出部１１５は、抽出されたクエリが「チームＡ野球」である場合、（主要語，周辺語）の組として、（チームＡ，野球）および（野球，チームＡ）の２組を列挙する。

次に、第２指標値算出部１１５は、ステップＳ２３０において列挙された各組の主要語およびステップＳ２２０において抽出されたエンティティの名前に対して、小文字化、記号削除などの特定の正規化処理を行う（Ｓ２４０）。尚、エンティティの名前には、エンティティの別名等が含まれていてもよい。例えば、第２指標値算出部１１５は、ステップＳ２３０において列挙された主要語である「チームＡ」に対して、小文字化の正規化処理を行い、処理後の正規化文字列「チームａ」を得る。また、第２指標値算出部１１５は、ステップＳ２２０において抽出されたエンティティの名前「東京チームＡ」に対して、小文字に変換する正規化処理を行い、処理後の正規化文字列「東京チームａ」を得る。その他、第２指標値算出部１１５は、正規化前の文字列が記号（例えば、「・」「！」など）を含む場合には、記号を削除する正規化処理を行って処理後の正規化文字列を得る。すなわち、第２指標値算出部１１５は、ワードおよびエンティティの文字列の各々に対して文字表記を統一する正規化処理を行う。

次に、第２指標値算出部１１５は、主要語の正規化文字列が、エンティティの名前の正規化文字列の部分文字列または同一文字列になっているか否かを判定する（Ｓ２５０）。例えば、主要語の正規化文字列が「チームａ」であり、エンティティの名前の正規化文字列が「東京チームａ」である場合、第２指標値算出部１１５は、主要語の正規化文字列が、エンティティの名前の正規化文字列の部分文字列であると判定する。

第２指標値算出部１１５は、主要語の正規化文字列が、エンティティの名前の正規化文字列の部分文字列であると判定した場合、エンティティの名前ｓを、抽出されたクエリの組の集合Ｓ_{（Ｓｓ，Ｓｃ）}に加える（Ｓ２６０）。

第２指標値算出部１１５は、上記のように生成した集合Ｓ_{（Ｓｓ，Ｓｃ）}に基づいて、第２指標値を算出する（Ｓ２７０）。例えば、第２指標値算出部１１５は、以下の式（４）により、第２指標値を算出する。

上記の式（４）において、ｎとは、あるクエリが利用された場合に、検索結果ウェブページにおいて、特定のエンティティの関連ページ（例えば、百科事典ウェブページ）に遷移した回数（特定のエンティティの関連ページへのリンクがクリックされた回数）を示している。また、αは、エンティティ毎に予め設定された係数を示している。例えば、「チームＡ」の係数αは５００に設定され、「東京チームＡ」の係数αは１に設定される。このように、係数αは、そのエンティティに対応する関連ページへの遷移の起こりにくさを示すものである。例えば、係数αは大きくなるほど、関連ページへの遷移が起こりにくくなることを示す。エンティティとしての「チームＡ」の関連ページへの遷移は少ない（エンティティとしての「チームＡ」の関連ページが存在しない場合にはそもそも遷移が無い）ため（遷移しにくい）、大きな値（５００）が設定されている。また、エンティティとしての「東京チームＡ」の関連ページへの遷移は多いため（遷移しやすい）、小さな値が設定されている。ｓはエンティティの名前を示し、ｓ_ｓはクエリに含まれる主要語を示し、ｓ_ｃはクエリに含まれる周辺語を示す。すなわち、第２指標値算出部１１５は、クリックログにおいて、ワードを少なくとも一部に含むエンティティの関連ページへの遷移回数に基づいて第２前指標値を算出する。第２指標値は、クリックログにおいて、エンティティの関連ページへの遷移回数が多くなるほど、指標値の値が大きくなるように定義される。

第２指標値算出部１１５は、算出した第２指標値を、クエリおよびエンティティの名前（セグメント）と対応付けて、第２指標値情報Ｄ４に記憶させる。以上により、本フローチャートの処理を終了する。

＜１−４．ナレッジデータサーバ１００のオンライン動作＞
図１４は、本実施形態に係るナレッジデータサーバ１００のオンライン動作の一例を示す流れ図である。まず、情報提供部１１７は、ウェブサーバ３００からクエリを受信する（Ｓ３１０）。例えば、情報提供部１１７は、「チームＡ」と、「野球」との２つのワードを含むクエリを受信する。

次に、生起確率算出部１１６は、第１指標値情報Ｄ３から、受信したクエリ（セグメント）に対応するエンティティごとの第１指標値を取得する（Ｓ３２０）。次に、生起確率算出部１１６は、第２指標値情報Ｄ３から、受信したクエリ（セグメント）に対応する補完後のセグメント毎の第２指標値を取得する（Ｓ３３０）。

次に、生起確率算出部１１６は、取得された第１指標値および第２指標値に基づいて、エンティティごとの生起確率を算出する（Ｓ３４０）。生起確率算出部１１６は、例えば、以下の式（５）に基づいて、エンティティごとの生起確率を算出する。

上記の式（５）において、ｑはクエリを示し、Ｓｑはクエリｑの持つＳｓ，Ｓｃの組の集合を示す。すなわち、生起確率算出部１１６は、取得された第１指標値および第２指標値の乗算することで、エンティティごとの生起確率を算出し、そのうち、最も生起確率が高いエンティティを、受信したクエリに対応するエンティティ（受信したクエリに最も適切なエンティティ）として決定する（Ｓ３５０）。

次に、情報提供部１１７は、ナレッジグラフＤ１に基づいて、生起確率算出部１１６により決定されたエンティティに対応付けられている所在情報を取得し、取得した所在情報をウェブサーバ３００に送信する（Ｓ３６０）。以上により、本フローチャートの処理が終了する。

＜１−５．フィルター機能＞
ナレッジデータサーバ１００の第２オフライン動作では、クリックログに含まれるクエリに応じて、以下のようなフィルター処理が行われるようにしてもよい。

［第１フィルター処理］
第２指標値算出部１１５は、ログ収集部１１４により収集されたクリックログの各レコードの中から抽出されたクエリのうち、「おすすめ」、「一覧」などの特定の用語をクエリとして含むレコードについては、クエリ補完処理（第２指標値の算出）を行わない。特定の用語とは、特定の１つの情報ではなく、複数の情報（広範囲な情報）の要求を意図する文字列である。「おすすめ」、「一覧」などの特定の用語を用いた検索では、ユーザは、１つの検索結果ではなく、リスト化された複数の検索結果の取得を希望していることが推定される。例えば、クエリとして「東京美術館おすすめ」という３ワードが使用された場合、ユーザは、東京の特定の美術館の情報を欲しているのではなく、リスト化された複数の美術館の情報を欲していることが推定される。この場合において、上記のように算出された第２指標値に基づいてエンティティとの紐づけを行うと、特定のエンティティのみが紐づけられてしまう（すなわち、特定のエンティティの生起確率が高くなってしまう）。このため、このような特定の用語をクエリとして含むレコードについては、第２指標値の算出を行わない。

例えば、第２指標値算出部１１５は、ログ収集部１１４により収集されたクリックログの各レコードの中から抽出されたクエリのうち、末尾に「おすすめ」、「一覧」などの特定の用語を含むクエリを抽出し、抽出したクエリから特定の用語を除去する。そして、第２指標値算出部１１５は、特定の用語が除去されたクエリのうち、２以上のワードを含み且つ所定回数以上の検索がなされているクエリに対しては、第２指標値の算出を行わないようにする。ここで、２以上のワードを含むクエリに限定した理由は、特定の用語を除去した後に複数のワードを含むクエリは、特定の１つの情報ではなく、複数の情報（広範囲な情報）を要求している場合が多いためである。尚、この場合、ナレッジデータサーバ１００のオンライン動作において、情報提供部１１７は、第１指標値のみに基づいて、受信したクエリに最も適切なエンティティを決定するようにしてよい。

［第２フィルター処理］
第２指標値算出部１１５は、ログ収集部１１４により収集されたクリックログの各レコードの中から抽出されたクエリのうち、該クエリと関連付けられるエンティティの所在情報が示す地域が地理的に互いに離れている場合、クエリ補完処理（第２指標値の算出）を行わないようにしてよい。例えば、クエリとして「Ａ小学校」というワードが使用され、該クエリと関連付けられるエンティティが「和歌山市立Ａ小学校」と、「所沢市立Ａ小学校」との２つが存在する場合、いずれのエンティティもユーザの検索意図に適合している可能性がある。この場合、エンティティとして「和歌山市立Ａ小学校」または「所沢市立Ａ小学校」のいずれか一方に関連付けられてしまうことは好ましくない。

そこで、第２指標値算出部１１５は、ナレッジグラフＤ１から、クエリと紐付けられたエンティティの所在情報を取得し、取得した所在情報により示される地域が地理的に互いに閾値以上離れている場合（両者の距離が閾値以上である場合）、クエリ補完処理（第２指標値の算出）を行わない。クエリとして「Ａ小学校」と関連付けられる「和歌山市立Ａ小学校」の所在情報は「和歌山県」であり、一方、「所沢市立Ａ小学校」の所在情報は「埼玉県」である。この場合、第２指標値算出部１１５は、取得した所在情報が地理的に離れていると判定し、クエリ補完処理（第２指標値の算出）を行わない。

以上、説明したように、本実施形態のナレッジデータサーバ１００は、クエリとして入力された１以上のワードと、エンティティの文字列との各々に対して文字列処理を行い、文字列処理後の前記ワードと、文字列処理後の前記ワードを少なくとも一部に含む文字列処理後の前記エンティティの文字列とを関連付けすることで、前記クエリと、前記エンティティとの関連度を示す指標値を算出する第２指標値算出部１１５（算出部）と、算出された前記指標値に基づいて、前記クエリと関連づけられるエンティティを決定する生起確率算出部（決定部）とを備える情報処理装置である。

これによって、本実施形態のナレッジデータサーバ１００は、ユーザにより入力された多様なクエリの検索意図を適切に評価することができる。本実施形態のナレッジデータサーバ１００によれば、ユーザにより入力されたクエリが、ナレッジグラフに登録されているエンティティの名前と異なる場合（エンティティの部分文字列等の別名である場合）であっても、クエリと対応するエンティティに関する情報をユーザに提供することができる。また、本実施形態のナレッジデータサーバ１００によれば、ナレッジグラフに別名に関する情報を記憶させる必要がない。このため、ナレッジグラフを用いた各種計算の速度低下を防ぐことができ、また、クエリに対応するエンティティの候補が増大してしまう事態を回避することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１００…ナレッジデータサーバ
１１０…制御部
１１１…通信Ｉ／Ｆ
１１２…関連ページ収集部
１１３…第１指標値算出部
１１４…ログ収集部
１１５…第２指標値算出部
１１６…生起確率算出部
１１７…情報提供部
１２０…記憶部
２００…端末装置
２１０…表示部
２１１…クエリ入力領域
２２０…ナレッジパネル
２２１…エンティティ
２２２…画像
２２３…関連情報
２３０…検索結果
３００…ウェブサーバ
Ｄ１…ナレッジグラフ
Ｄ２…コンテンツ情報
Ｄ３…第１指標値情報
Ｄ４…第２指標値情報

Claims

クエリとして入力された１以上のワードと、エンティティの文字列との各々に対して文字列処理を行い、文字列処理後の前記ワードと、文字列処理後の前記ワードを少なくとも一部に含む文字列処理後の前記エンティティの文字列とを関連付けすることで、前記クエリと、前記エンティティとの関連度を示す指標値を算出する算出部と、
算出された前記指標値に基づいて、前記クエリと関連づけられるエンティティを決定する決定部と
を備える情報処理装置。
前記算出部は、前記ワードおよび前記エンティティの文字列の各々に対して文字表記を統一する正規化処理を行う、
請求項１に記載の情報処理装置。
前記算出部は、前記ワードと関連付けられるページのクリックログに基づいて、前記指標値を算出する、
請求項１または２に記載の情報処理装置。
前記算出部は、
前記クリックログから前記クエリと前記エンティティとの組を抽出し、
抽出された前記クエリと前記エンティティとの組と、ナレッジグラフとに基づいて、前記クエリと前記エンティティの名前との組を生成し、
生成された前記クエリと前記エンティティの名前との組の各々に対する前記指標値を算出する、
請求項３に記載の情報処理装置。
前記算出部は、前記クリックログにおいて、前記ワードを少なくとも一部に含む前記エンティティの関連ページへの遷移回数に基づいて前記指標値を算出する、
請求項３または４に記載の情報処理装置。
前記指標値は、前記クリックログにおいて、前記エンティティの関連ページへの遷移回数が多くなるほど、前記指標値の値が大きくなるように定義される、
請求項５に記載の情報処理装置。
前記算出部は、前記ワードおよび前記エンティティの文字列の各々を大文字または小文字に変換する文字列処理を行う、
請求項１から６のいずれか一項に記載の情報処理装置。
前記算出部は、前記ワードおよび前記エンティティの文字列の各々から記号を削除する文字列処理を行う、
請求項１から７のいずれか一項に記載の情報処理装置。
前記算出部は、前記クエリに複数の情報を要求する用語が含まれている場合、前記指標値を算出しない、
請求項１から８のいずれか一項に記載の情報処理装置。
前記算出部は、前記クエリに関連付けられる複数のエンティティの所在情報によって示される地理的な位置が互いに閾値以上離れている場合、前記指標値を算出しない、
請求項１から９のいずれか一項に記載の情報処理装置。
コンピュータが、
クエリとして入力された１以上のワードと、エンティティの文字列との各々に対して文字列処理を行い、文字列処理後の前記ワードと、文字列処理後の前記ワードを少なくとも一部に含む文字列処理後の前記エンティティの文字列とを関連付けすることで、前記クエリと、前記エンティティとの関連度を示す指標値を算出し、
算出された前記指標値に基づいて、前記クエリと関連づけられるエンティティを決定する、
情報処理方法。
コンピュータに、
クエリとして入力された１以上のワードと、エンティティの文字列との各々に対して文字列処理を行い、文字列処理後の前記ワードと、文字列処理後の前記ワードを少なくとも一部に含む文字列処理後の前記エンティティの文字列とを関連付けすることで、前記クエリと、前記エンティティとの関連度を示す指標値を算出させ、
算出された前記指標値に基づいて、前記クエリと関連づけられるエンティティを決定させる、
プログラム。