JP6982520B2

JP6982520B2 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP6982520B2
Application number: JP2018041087A
Authority: JP
Inventors: 智輝齋藤; 樹生豊田; 真也夜久; 正樹野口; 宏希岩澤; 健萩原
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2021-12-17
Anticipated expiration: 2038-03-07
Also published as: JP2019159404A

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。

従来、ウェブからデータ（文書や画像など）を収集し、収集したデータを自動的にデータベース化するクローラが知られている。クローラは、ウェブページ中のリンクを辿って、様々なＩＰアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。一方、検索エンジンは、ユーザによって入力された検索ワード（以下、「検索クエリ」とも言う）を受信すると、受信した検索ワードに関連するウェブページやアプリページの情報（例えば、ＵＲＬ：Uniform Resource Locator）をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。

検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索クエリに関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに対応付けて記憶したデータベースが用いられる場合がある（特許文献１参照）。データベースにおいて、ある特定のエンティティと対応付けられているテキストデータが検索クエリとして入力されると、その特定のエンティティが検索結果とともに出力される。

特開２０１７−７６４０３号公報

ユーザによって入力される検索クエリは、エンティティの正式名称以外に、該エンティティのあだ名（ニックネーム）、略称、通称、自称などの別名を含む場合がある。これらの別名とエンティティとが対応付けられていない場合、エンティティに関する情報が取得できず、或いはユーザが意図しない不適切なエンティティに関する情報が取得されて検索結果とともに出力される場合がある。

本発明は、このような事情を考慮してなされたものであり、エンティティと関連付けされた別名情報を収集することが可能な情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。

本発明の一態様は、ウェブページのリダイレクト情報を収集する収集部と、前記収集部により収集された前記リダイレクト情報に基づいて、第１エンティティの名前を示す第１ワードに関連付けられた第１ページへのリダイレクト元である、第２ページに関連付けされた第２ワードを、前記第１エンティティの別名情報として抽出する抽出部とを備える情報処理装置である。

本発明の一態様によれば、エンティティと関連付けされた別名情報を収集することができる。

本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。本実施形態に係るナレッジグラフの一例を示す図である。本実施形態に係る「野球選手Ａ」のウェブページの一例を示す図である。本実施形態に係る検索結果ウェブページの一例を示す図である。本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。本実施形態における百科事典ウェブページのリダイレクト情報の一例を示す図である。本実施形態における別名情報の一例を示す図である。本実施形態における収集部により収集された百科事典ウェブページの一例を示す図である。本実施形態における非同義語除去部による除去処理の一例を説明する図である。本実施形態における非同義語除去部による除去処理の他の例を説明する図である。本実施形態のナレッジデータサーバのリダイレクト情報に基づく別名情報抽出動作の一例を示す流れ図である。本実施形態のナレッジデータサーバの誘導情報に基づく別名情報抽出動作の一例を示す流れ図である。本実施形態のナレッジデータサーバの別名情報の非同義語除去動作の一例を示す流れ図である。本実施形態のナレッジデータサーバのオンライン動作の一例を示す流れ図である。

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ（例えば、画像やテキストデータ）を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。エンティティとは、例えば、ある対象事物の実体（例えば、実世界で存在している物体）を表していてもよいし、ある対象事物の概念（例えば、実世界または仮想世界の中で定義された概念）を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。

＜実施形態＞
＜１−１．ナレッジデータサーバの使用環境＞
図１は、本実施形態に係るナレッジデータサーバ１００の使用環境及び構成を示す図である。ナレッジデータサーバ１００は、端末装置２００と、ウェブサーバ３００と、クロール対象機器ＤＶと、ネットワークＮＷを介して通信可能に接続される。ネットワークＮＷは、ワールドワイドウェブ（World Wide Web）を意味し、インターネットやイントラネットで標準的に用いられるＨＴＭＬ文書などを利用したシステムである。ネットワークＮＷは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。

端末装置２００は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ３００は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置２００に提供するサーバである。

ナレッジデータサーバ１００は、例えば、制御部１１０と、記憶部１２０とを備える。記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部１２０の一部または全部は、ＮＡＳ（Network Attached Storage）や外部のストレージサーバなど、ナレッジデータサーバ１００がアクセス可能な外部装置であってもよい。記憶部１２０には、例えば、ナレッジグラフＤ１と、別名情報Ｄ２とが記憶される。

図２は、本実施形態に係るナレッジグラフＤ１の一例を示す図である。ナレッジグラフＤ１において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報１」や「Ｃ１」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

ナレッジグラフＤ１は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。

図２示される例のナレッジグラフＤ１は、エンティティＥ１と、エンティティＥ２とが、「所属チーム」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報（以下、エンティティ識別情報ＥＩＤ）と、エンティティ名と、当該エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、ＵＲＬである。所在情報が示すウェブページには、当該エンティティの関連データが記載されている。図２に示すナレッジグラフＤ１において、エンティティＥ１には、エンティティ識別情報ＥＩＤの「０００１」と、エンティティ名の「野球選手Ａ」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／野球選手Ａ」というＵＲＬとが対応付けられている。また、エンティティＥ２には、エンティティ識別情報ＥＩＤの「０００２」と、エンティティ名「野球チームＢ」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「ｈｔｔｐ：／／百科事典ウェブページ／野球チームＢ」というＵＲＬとが対応付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。

図３は、本実施形態に係る「野球選手Ａ」のウェブページの一例を示す図である。「野球選手Ａ」のウェブページには、「野球選手Ａ」の関連データが記載されている。

＜１−２．検索結果ウェブページ＞
図４は、本実施形態に係る検索結果ウェブページの一例を示す図である。図４に示されるように、端末装置２００の表示部２１０には、クエリ入力領域２１１と、ナレッジパネル２２０と、検索結果２３０とが含まれる検索結果ウェブページが表示される。ナレッジパネル２２０には、検索クエリに対応するエンティティ２２１と、エンティティ２２１に関連する画像２２２と、エンティティ２２１に関連する関連情報２２３とが含まれる。ユーザは、端末装置２００を用いて、端末装置２００の表示部２１０に表示された検索ページに検索クエリを入力する。検索クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置２００は、ユーザによって入力された検索クエリをウェブサーバ３００に送信する。

ウェブサーバ３００は、端末装置２００から受信した検索クエリをナレッジデータサーバ１００に送信する。ナレッジデータサーバ１００は、受信した検索クエリに対応するエンティティに関連する情報をウェブサーバ３００に送信する。ナレッジデータサーバ１００は、例えば、ナレッジグラフＤ１に基づいて、受信した検索クエリと関連付けされたエンティティに対応付けられた所在情報をウェブサーバ３００に送信する。ウェブサーバ３００は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ３００は、抽出したエンティティの関連データ（この一例では、ナレッジパネル２２０に示す情報）を含めた検索結果ウェブページを生成する。

図４に示される例においては、検索クエリとして「野球選手Ａ」が入力され、ナレッジパネル２２０には「野球選手Ａ」に関連する画像や様々な情報が表示されている。ナレッジパネル２２０には、例えば、「野球選手Ａ」の画像２２２や、「野球選手Ａ」の生年月日や出身地等の関連情報２２３が表示される。このように、検索結果２３０だけでなく、ナレッジパネル２２０を表示部２１０に表示することで、検索結果に対するユーザ満足度を向上させることができる。

＜１−３．ナレッジデータサーバ１００の構成＞
図１に戻り、制御部１１０は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。制御部１１０は、例えば、通信Ｉ／Ｆ（Interface）１１１と、収集部１１２と、リダイレクト情報抽出部１１３（抽出部）と、誘導情報抽出部１１４（抽出部）と、非同義語除去部１１５（除去部）と、所在情報取得部１１６とを備える。また、これらの構成要素のうち一部または全部（内包する記憶部を除く）は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信Ｉ／Ｆ１１１は、ネットワークＮＷを介した各機能部と、他の機器（例えば、クロールの対象機器（以下、クロール対象機器ＤＶ）、端末装置２００、及びウェブサーバ３００）との通信を仲介する。

収集部１１２は、所定のウェブページに関する収集対象データを、ネットワークＮＷを介してクロール対象機器ＤＶから収集する。収集部１１２による収集処理の対象となるウェブページとは、例えば、利用者によって編集可能な百科事典のウェブページ（以下、百科事典ウェブページ）である。

収集部１１２は、いわゆるクローラプログラムにより実現される。収集対象データは、ネットワークＮＷ上（クロール対象機器ＤＶの記憶領域内）にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、ＨＴＭＬ（HyperText Markup Language）のソースを示すテキストデータを含むウェブページである。収集部１１２は、百科事典ウェブページのうち、例えば、ナジッレグラフＤ１に含まれるエンティティのそれぞれの名前と対応するテキストデータが記載されたウェブページが存在する場合、そのすべてを収集する。

また、収集対象データは、例えば、百科事典ウェブページに関するリダイレクト情報である。図５は、本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。図６は、本実施形態における百科事典ウェブページのリダイレクト情報の一例を示す図である。例えば、百科事典ウェブページにおいて、ユーザが端末装置２００を操作して「野球選手Ａ」の別名である「別名ａ」を検索クエリとして入力した場合、端末装置２００には入力された「別名ａ」と関連付けされたウェブページＰ１は表示されることなく、「野球選手Ａ」と関連付けされたウェブページＰ２へのリダイレクト（転送）が行われ、端末装置２００にはこのウェブページＰ２が表示される。すなわち、ウェブページＰ１はリダイレクト元のページであり、リダイレクト先のページとしてウェブページＰ２が設定されたページ（リダイレクト先としてウェブページＰ２のＵＲＬが設定された転送用ページ）である。図６に示されるように、リダイレクト情報は、上記のようなリダイレクト元のページと関連付けされたワードと、リダイレクト先のページと関連付けされたワードとが対応付けされたリストを含む。図６には、例えば、リダイレクト元のワード「別名ａ」と、リダイレクト先のワード「野球選手Ａ」とが対応付けされたデータが含まれる。

尚、収集部１１２によるクロール処理を行わずに、例えば、ナレッジデータサーバ１００の運用担当者が運用端末のブラウザを操作して手動で収集対象データを収集し、ナレッジデータサーバ１００に設けられた入力部（図示しない）を介して収集対象データを入力するようにしてもよい。

リダイレクト元のワードは、リダイレクト先のワードの同義語であり、これら２つのワードは同一のエンティティを示していることが想定される。すなわち、リダイレクト元のワードは、リダイレクト先のワードの別名であることが想定される。このため、リダイレクト情報抽出部１１３は、収集部１１２により収集された収集対象データに含まれるリダイレクト情報から、リダイレクト元のワードおよびリダイレクト先のワードを抽出し、リダイレクト元のワードを、リダイレクト先のワードの別名として、別名情報Ｄ２に登録する。図７は、本実施形態における別名情報Ｄ２の一例を示す図である。図７に示される例では、エンティティである「野球選手Ａ」の別名１として「別名ａ」、別名２として「別名ｂ」、別名３として「別名ｃ」が登録されている。

誘導情報抽出部１１４は、収集部１１２により収集された収集対象データに含まれる百科事典ウェブページのＨＴＭＬのソースを示すテキストデータから誘導情報を取得し、抽出した誘導情報に基づいて別名情報を抽出し、別名情報Ｄ２に登録する。図８は、本実施形態における収集部１１２により収集された百科事典ウェブページの一例を示す図である。図８に示される百科事典ウェブページは、「キャラクタＣ」と関連付けされたページであり、「キャラクタＣ（アニメ）」および「キャラクタＣ（テレビドラマ）」のそれぞれと関連付けされたページへの誘導情報を含んでいる。これらの「キャラクタＣ（アニメ）」および「キャラクタＣ（テレビドラマ）」はいずれもエンティティとなりうるものである。この場合、「キャラクタＣ」のワードは、エンティティテとしての「キャラクタＣ（アニメ）」および「キャラクタＣ（テレビドラマ）」の別名（例えば、略称）である可能性がある。そこで、誘導情報抽出部１１４は、あるウェブページと関連付けされたワード（図８に示される例では「キャラクタＣ」）を、該ウェブページに含まれる誘導情報に含まれるワード（図８に示される例では「キャラクタＣ（アニメ）」および「キャラクタＣ（テレビドラマ）」）の別名として、別名情報Ｄ２に登録する。

非同義語除去部１１５は、リダイレクト情報抽出部１１３および誘導情報抽出部１１４の少なくとも１つにより抽出されて記憶部１２０に記憶された別名情報Ｄ２における非同義語の除去処理（クレンジング）を行う。リダイレクト情報抽出部１１３および誘導情報抽出部１１４により抽出されたワードは、エンティティの別名ではない（同義関係ではない）ワードを含む可能性がある。そこで、非同義語除去部１１５は、別名情報Ｄ２のうち、所定の条件を満たす別名のみを残し、その他の別名は除去することで、データのクレンジングを行う。非同義語除去部１１５は、例えば、あるエンティティを示す名前（以下、エンティティ名）と関連付けられたウェブページ（例えば、百科事典ウェブページ）において、所定のキーワードを含む一文に含まれている別名は残し、その他の別名は除去する。所定のキーワードとは、別名の記載の存在を示唆するワードである。所定のキーワードとは、例えば、「自称」、「通称」、「別名」、「略称」などの名詞のキーワードや、「呼ばれる」、「称する」、「とも言う」などの文末などに現れるキーワードである。

図９は、本実施形態における非同義語除去部１１５による除去処理の一例を説明する図である。図９に示される例において、非同義語除去部１１５は、「略称」というキーワードを含む一文「略称は別名ｂ。」に含まれる「別名ｂ」は別名情報Ｄ２に残すように処理を行う。また、非同義語除去部１１５は、「呼ばれる」というキーワードを含む一文「野球選手Ａは、別名ｃと呼ばれることもある。」に含まれる「別名ｃ」は別名情報Ｄ２に残すように処理を行う。

また、非同義語除去部１１５は、例えば、あるエンティティ名と関連付けられたウェブページ（例えば、百科事典ウェブページ）において、このエンティティ名の言い換え表現として示されるワードに含まれている別名は残し、その他の別名は除去する。図１０は、本実施形態における非同義語除去部１１５による除去処理の他の例を説明する図である。図１０に示される例において、非同義語除去部１１５は、「リンゴ酸」の後に括弧書きで記載されたワードである「林檎酸」、「リンゴさん」、「malic acid」は別名情報Ｄ２に残すように処理を行う。尚、所在情報取得部１１６は、百科事典ウェブページ以外に、ニュースページなどの様々なページを上記の除去処理に利用してもよい。

図１に戻り、所在情報取得部１１６は、ナレッジグラフＤ１および別名情報Ｄ２に基づいて、ウェブサーバ３００から受信した検索クエリに対応するエンティティに対応付けられている所在情報を取得する。所在情報取得部１１６は、ナレッジグラフＤ１に含まれるエンティティ名の中に、受信した検索クエリと合致するエンティティ名が存在するか否かを判定する。所在情報取得部１１６は、受信した検索クエリと合致するエンティティ名が存在すると判定した場合、該エンティティに対応付けられている所在情報を取得する。また、所在情報取得部１１６は、受信した検索クエリと合致するエンティティ名がナレッジグラフＤ１に存在しないと判定した場合、別名情報Ｄ２に別名として登録されている別名の中に、受信した検索クエリと合致する別名が存在するか否かを判定する。所在情報取得部１１６は、受信した検索クエリと合致する別名が別名情報Ｄ２に存在すると判定した場合、該別名と関連付けられたエンティティに対応付けられている所在情報を取得する。このとき、検索クエリと、エンティティ名または別名とが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するエンティティ名または別名とみなしてよい。

次に、所在情報取得部１１６は、取得した所在情報をウェブサーバ３００に送信する。所在情報取得部１１６は、受信した検索クエリと合致するエンティティおよび別名が存在しないと判定した場合、所在情報が存在しない旨を示す情報をウェブサーバ３００に送信する。

＜１−４．リダイレクト情報に基づく別名情報抽出動作＞
図１１は、本実施形態のナレッジデータサーバ１００のリダイレクト情報に基づく別名情報抽出動作の一例を示す流れ図である。ナレッジデータサーバ１００は、例えば、日次、週次等の任意のタイミングで実施されるバッチ処理により別名情報抽出動作を行う。

まず、収集部１１２は、例えば、百科事典ウェブページに関するリダイレクト情報を、ネットワークＮＷを介してクロール対象機器ＤＶから収集する（Ｓ１０）。

次に、リダイレクト情報抽出部１１３は、収集部１１２により収集されたリダイレクト情報から、リダイレクト元のワードおよびリダイレクト先のワードを抽出する（Ｓ１２）。次に、リダイレクト情報抽出部１１３は、抽出したワードのうち、リダイレクト元のワードを、リダイレクト先のワードの別名として、別名情報Ｄ２に登録する（Ｓ１４）。以上により、本フローチャートの処理を終了する。

＜１−５．誘導情報に基づく別名情報抽出動作＞
図１２は、本実施形態のナレッジデータサーバ１００の誘導情報に基づく別名情報抽出動作の一例を示す流れ図である。ナレッジデータサーバ１００は、例えば、日次、週次等の任意のタイミングで実施されるバッチ処理により別名情報抽出動作を行う。

まず、収集部１１２は、例えば、ナレッジグラフＤ１に含まれるエンティティ名のそれぞれと関連付けられた百科事典ウェブページのＨＴＭＬのソースを示すテキストデータを、ネットワークＮＷを介してクロール対象機器ＤＶから収集する（Ｓ２０）。

次に、誘導情報抽出部１１４は、収集部１１２により収集された百科事典ウェブページのＨＴＭＬのソースを示すテキストデータから誘導情報を取得し、取得した誘導情報に基づいて別名情報を抽出する（Ｓ２２）。次に、誘導情報抽出部１１４は、百科事典ウェブページと関連付けされたワードを、該百科事典ウェブページに含まれる誘導情報に含まれるワードの別名として、別名情報Ｄ２に登録する（Ｓ２４）。以上により、本フローチャートの処理を終了する。

＜１−６．別名情報のクレンジング動作＞
図１３は、本実施形態のナレッジデータサーバ１００の別名情報の非同義語除去動作の一例を示す流れ図である。ナレッジデータサーバ１００は、例えば、日次、週次等の任意のタイミングで実施されるバッチ処理により非同義語除去動作を行う。

まず、収集部１１２は、例えば、非同義語除去処理の対象とするエンティティ名と関連付けられた百科事典ウェブページのＨＴＭＬのソースを示すテキストデータを、ネットワークＮＷを介してクロール対象機器ＤＶから収集する（Ｓ３０）。

次に、非同義語除去部１１５は、別名情報Ｄ２から、上記のクレンジング処理の対象としたエンティティの別名情報を抽出する（Ｓ３２）。次に、非同義語除去部１１５は、抽出した別名が、収集部１１２により収集された百科事典ウェブページにおいて所定のキーワードを含む一文に含まれているか否かを判定する（Ｓ３４）。非同義語除去部１１５は、抽出した別名が、所定のキーワードを含む一文に含まれていると判定した場合、この別名は適切なもの（エンティティの同義語である）であると判定して除去処理の対象とすることなく、本フローチャートの処理を終了する。

一方、非同義語除去部１１５は、抽出した別名が、所定のキーワードを含む一文に含まれていないと判定した場合、抽出した別名が、百科事典ウェブページにおいて上記のエンティティ名の言い換え表現として示されるワードに含まれているか否かを判定する（Ｓ３６）。非同義語除去部１１５は、抽出した別名が、上記のエンティティ名の言い換え表現として示されるワードに含まれていると判定した場合、この別名は適切なもの（エンティティの同義語である）であると判定して除去処理の対象とすることなく、本フローチャートの処理を終了する。

一方、非同義語除去部１１５は、抽出した別名が、上記のエンティティを示す名前の言い換え表現として示されるワードに含まれていないと判定した場合、この別名は不適切なもの（エンティティの同義語ではない）と判定して、この別名を別名情報Ｄ２から除去する（Ｓ３８）。以上により、本フローチャートの処理を終了する。

＜１−７．オンライン動作＞
図１４は、本実施形態のナレッジデータサーバ１００のオンライン動作の一例を示す流れ図である。まず、所在情報取得部１１６は、ウェブサーバ３００から検索クエリを受信する（Ｓ４０）。

次に、所在情報取得部１１６は、ナレッジグラフＤ１に含まれるエンティティ名の中に、受信した検索クエリと合致するエンティティ名が存在するか否かを判定する（Ｓ４２）。所在情報取得部１１６は、受信した検索クエリと合致するエンティティ名が存在すると判定した場合、該エンティティに対応付けられている所在情報を取得し、ウェブサーバ３００に送信し（Ｓ４４）、本フローチャートの処理を終了する。

一方、所在情報取得部１１６は、受信した検索クエリと合致するエンティティ名がナレッジグラフＤ１に存在しないと判定した場合、別名情報Ｄ２に別名として登録されている別名の中に、受信した検索クエリと合致する別名が存在するか否かを判定する（Ｓ４６）。所在情報取得部１１６は、受信した検索クエリと合致する別名が別名情報Ｄ２に存在すると判定した場合、該別名と関連付けられたエンティティに対応付けられている所在情報を取得し、ウェブサーバ３００に送信し（Ｓ４４）、本フローチャートの処理を終了する。

一方、所在情報取得部１１６は、受信した検索クエリと合致する別名が存在しないと判定した場合、所在情報が存在しない旨を示す情報をウェブサーバ３００に送信し（Ｓ４８）、本フローチャートの処理を終了する。

以上、説明したように、本実施形態のナレッジデータサーバ１００は、ウェブページのリダイレクト情報を収集する収集部１１２と、前記収集部１１２により収集された前記リダイレクト情報に基づいて、第１エンティティの名前を示す第１ワードに関連付けられた第１ページへのリダイレクト元である、第２ページに関連付けされた第２ワードを、前記第１エンティティの別名情報として抽出するリダイレクト情報抽出部１１３とを備えるこれによって、エンティティと関連付けされた別名情報を収集することができる。

また、本実施形態のナレッジデータサーバ１００は、第１エンティティの名前を示す第１ワードに関連付けられた第１ページを収集する収集部１１２と、前記収集部１１２により収集された前記第１ページに第２ページへの誘導情報がある場合、前記第１ワードを、前記第２ページに関連付けられた第２ワードにより示される第２エンティティの別名情報として抽出する誘導情報抽出部１１４とを備えるこれによって、エンティティと関連付けされた別名情報を収集することができる。

また、本実施形態のナレッジデータサーバ１００によれば、エンティティの別名情報を収集し、エンティティ名と別名とを同義語として総合的に管理することで、エンティティを適切に評価することができる。例えば、エンティティの検索数の実績値に応じて検索結果ページ内での表示位置を変更するような制御（ランキング）を行っている場合には、エンティティ名および別名の双方に対する検索結果に基づいてより正確な制御を行うことができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１００…ナレッジデータサーバ
１１０…制御部
１１１…通信Ｉ／Ｆ
１１２…収集部
１１３…リダイレクト情報抽出部
１１４…誘導情報抽出部
１１５…非同義語除去部
１１６…所在情報取得部
１２０…記憶部
２００…端末装置
２１０…表示部
２１１…クエリ入力領域
２２０…ナレッジパネル
２２１…エンティティ
２２２…画像
２２３…関連情報
２３０…検索結果
３００…ウェブサーバ
Ｄ１…ナレッジグラフ
Ｄ２…別名情報
Ｒ１…リダイレクト情報

Claims

第１ワードによって名前が示される第１エンティティの別名である第２ワードが検索クエリとして入力された場合、リダイレクトによって前記第１エンティティの関連データを記載する第１ページが表示されるように動作するウェブページのリダイレクト情報を収集する収集部と、
前記収集部により収集された前記リダイレクト情報に基づいて、前記第２ワードを前記第１エンティティの別名情報として抽出する抽出部と、
を備える情報処理装置。
前記別名情報のうち、所定の条件を満たさないワードを除去する除去部をさらに備える、
請求項１に記載の情報処理装置。
前記除去部は、前記第１エンティティの名前を示す前記第１ワードと関連付けられたウェブページにおいて、別名に関する情報の存在を示唆するキーワードが含まれる一文に含まれていないワードを除去する、
請求項２に記載の情報処理装置。
前記除去部は、前記第１エンティティの名前を示す前記第１ワードと関連付けられたウェブページにおいて、前記第１エンティティの名前の言い換え表現として示されるワードに含まれていないワードを除去する、
請求項２または３に記載の情報処理装置。
検索ワードと合致するワードが前記別名情報に含まれている場合、前記ワードと関連付けられたエンティティに対応付けられている所在情報を取得する取得部をさらに備える、
請求項１から４のいずれか一項に記載の情報処理装置。
コンピュータが、
第１ワードによって名前が示される第１エンティティの別名である第２ワードが検索クエリとして入力された場合、リダイレクトによって前記第１エンティティの関連データを記載する第１ページが表示されるように動作するウェブページのリダイレクト情報を収集し、
収集された前記リダイレクト情報に基づいて、前記第２ワードを、前記第１エンティティの別名情報として抽出する、
情報処理方法。
コンピュータに、
第１ワードによって名前が示される第１エンティティの別名である第２ワードが検索クエリとして入力された場合、リダイレクトによって前記第１エンティティの関連データを記載する第１ページが表示されるように動作するウェブページのリダイレクト情報を収集させ、
収集された前記リダイレクト情報に基づいて、前記第２ワードを、前記第１エンティティの別名情報として抽出させる、
プログラム。