JP2020140501A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2020140501A
JP2020140501A JP2019036247A JP2019036247A JP2020140501A JP 2020140501 A JP2020140501 A JP 2020140501A JP 2019036247 A JP2019036247 A JP 2019036247A JP 2019036247 A JP2019036247 A JP 2019036247A JP 2020140501 A JP2020140501 A JP 2020140501A
Authority
JP
Japan
Prior art keywords
entity
index value
word
probability
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019036247A
Other languages
English (en)
Other versions
JP7183077B2 (ja
Inventor
樹生 豊田
Mikio Toyoda
樹生 豊田
真也 夜久
Shinya Yaku
真也 夜久
葉子 石川
Yoko Ishikawa
葉子 石川
宏希 岩澤
Hiroki Iwasawa
宏希 岩澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019036247A priority Critical patent/JP7183077B2/ja
Publication of JP2020140501A publication Critical patent/JP2020140501A/ja
Application granted granted Critical
Publication of JP7183077B2 publication Critical patent/JP7183077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ユーザにより入力されたクエリの検索意図を適切に評価すること。【解決手段】クエリとして入力された1以上のワードと、エンティティとの関連度を示す第1指標値を算出する第1指標値算出部と、ワードをコンテキストとして含むエンティティと、ワードとの関連度を示す第2指標値を算出する第2指標値算出部と、ワードと、ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第3指標値を算出する第3指標値算出部と、第1指標値算出部により算出された第1指標値と、第2指標値算出部により算出された第2指標値と、第3指標値算出部により算出された第3指標値とに基づいて、エンティティと、ワードのうちのエンティティの名前として仮定されたワードと、ワードのうちのコンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部とを備える情報処理装置。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、ウェブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている(特許文献1参照)。クローラは、ウェブページ中のリンクを辿って、様々なIPアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。
一方、検索エンジンは、ユーザによって入力された検索ワードを受信すると、受信した検索ワードに関連するウェブページやアプリページの情報(例えば、URL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。
特開2012−69171号公報
Matthew D. Hoffmanら、"Online Learning for Latent Dirichlet Allocation",[online],[2018年2月27日検索],インターネット<URL:https://papers.nips.cc/paper/3902-online-learning-for-latent-dirichlet-allocation.pdf>
検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索ワード(以下、「クエリ」とも言う)に関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに対応付けて記憶したデータベースが用いられる場合がある。
このデータベースにおいて、特定のエンティティに対応付けられているテキストデータと完全に一致する文字列がクエリとして入力された場合、その特定のエンティティに関する情報を検索結果とともに出力させることができる。一方、特定のエンティティに対応付けられているテキストデータと部分的に一致する文字列である別名がクエリとして入力された場合、エンティティの紐づけを行うことができない。
別名に対応するエンティティを出力させるためにデータベースに別名を記憶させる方法が考えられる。しかしながら、知識ベースとしてのデータベースに記憶させることが妥当な別名は限られるが、知識ベースの観点で妥当な別名とクエリとが一致するとは限らない。また、データベースに別名を記憶させると空間計算量が増大してしまい、データベースを用いた各種計算の速度が低下してしまう。また、やみくもに別名をデータベースに記憶させると、クエリに対応するエンティティの候補が増大してしまう。
本発明は、このような事情を考慮してなされたものであり、ユーザにより入力された多様なクエリの検索意図を適切に評価することができる情報処理装置を提供することを目的の一つとする。
本発明の一態様は、クエリとして入力された1以上のワードと、エンティティとの関連度を示す第1指標値を算出する第1指標値算出部と、前記ワードをコンテキストとして含むエンティティと、前記ワードとの関連度を示す第2指標値を算出する第2指標値算出部と、前記ワードと、前記ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第3指標値を算出する第3指標値算出部と、前記第1指標値算出部により算出された前記第1指標値と、前記第2指標値算出部により算出された前記第2指標値と、前記第3指標値算出部により算出された前記第3指標値とに基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部とを備える情報処理装置である。
本発明の一態様によれば、ユーザにより入力された多様なクエリの検索意図を適切に評価することができる。
本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。 本実施形態に係るナレッジグラフの一例を示す図である。 本実施形態に係る「野球選手A」のウェブページの一例を示す図である。 本実施形態に係る「野球チームB」のウェブページの一例を示す図である。 本実施形態に係るコンテンツ情報の一例を示す図である。 本実施形態に係る検索結果ウェブページの一例を示す図である。 本実施形態に係る収集部により収集された関連ウェブページの一例を示す図である。 本実施形態に係る収集部により収集された関連ウェブページの他の一例を示す図である。 本実施形態に係る収集部により収集された関連ウェブページの他の一例を示す図である。 本実施形態に係る「野球選手A」のウェブページの他の一例を示す図である。 本実施形態に係るコンテンツ情報及び第1確率の一例を示す図である。 本実施形態に係るコンテキスト抽出部によるコンテキスト収集処理の一例を説明する図である。 本実施形態に係るコンテキスト抽出部によるコンテキスト収集処理の他の例を説明する図である。 本実施形態に係るコンテキスト情報の一例を示す図である。 本実施形態に係る第2確率算出部によるコンテキストの頻度情報の算出処理の一例を説明する図である。 本実施形態に係るクリックログの一例を説明する図である。 本実施形態に係る別名情報の一例を示す図である。 本実施形態のナレッジデータサーバの第1確率を算出する動作の一例を示す流れ図である。 本実施形態のナレッジデータサーバの第2確率を算出する動作の一例を示す流れ図である。 本実施形態のナレッジデータサーバの第2確率を算出する詳細動作の一例を示す流れ図である。 本実施形態のナレッジデータサーバの第3確率を算出する動作の一例を示す流れ図である。 本実施形態のナレッジデータサーバのオンライン動作の一例を示す流れ図である。
以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ(例えば、画像やテキストデータ)を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。
エンティティとは、例えば、ある対象事物の実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。
<実施形態>
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
端末装置200は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ300は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置200に提供するサーバである。
ナレッジデータサーバ100は、例えば、制御部110と、記憶部120とを備える。記憶部120は、例えば、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部120の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ナレッジデータサーバ100がアクセス可能な外部装置であってもよい。記憶部120には、例えば、ナレッジグラフ(以下、ナレッジグラフD1)と、コンテンツ情報D2と、コンテキスト情報D3と、別名情報D4とが記憶される。
図2は、本実施形態に係るナレッジグラフD1の一例を示す図である。ナレッジグラフD1において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。
クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。
ナレッジグラフD1は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。
図2に示される例のナレッジグラフD1は、エンティティE1と、エンティティE2とが、「所属チーム」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報(以下、「エンティティ識別情報EID」)と、エンティティ名と、当該エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、URLである。所在情報が示すウェブページには、当該エンティティの関連データが記載されている。
図2に示されるナレッジグラフD1において、エンティティE1には、エンティティ識別情報EIDの「0001」と、エンティティ名の「野球選手A」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/野球選手A」というURLとが対応付けられている。また、エンティティE2には、エンティティ識別情報EIDの「0002」と、エンティティ名「野球チームB」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/野球チームB」というURLとが対応付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。
図3は、本実施形態に係る「野球選手A」のウェブページの一例を示す図である。「野球選手A」のウェブページには、「野球選手A」の関連データが記載されている。また、図4は、本実施形態に係る「野球チームB」のウェブページの一例を示す図である。「野球チームB」のウェブページには、「野球チームB」の関連データが記載されている。
図5は、本実施形態に係るコンテンツ情報D2の一例を示す図である。コンテンツ情報D2とは、エンティティと、テキストデータとが関連付けられた情報である。コンテンツ情報D2は、ウェブページに含まれる関連データを収集した収集結果又は検索エンジンの検索ログに基づいて生成される。コンテンツ情報D2は、例えば、エンティティのウェブページに含まれるテキストデータが収集され、収集されたテキストデータと、エンティティとが関連付けられた情報である。また、コンテンツ情報D2は、例えば、エンティティがクエリとして入力された際、当該エンティティと共に入力されたテキストデータと、エンティティとが関連付けられた情報である。図5に示される一例のコンテンツ情報D2において、「野球選手A」というエンティティには、「3000本安打」というテキストデータが関連付けられ、「野球チームB」というエンティティには、「2017年優勝」というテキストデータが関連付けられる。
<1−2.検索結果ウェブページ>
図6は、本実施形態に係る検索結果ウェブページの一例を示す図である。図6に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
ウェブサーバ300は、端末装置200から受信したクエリをナレッジデータサーバ100に送信する。ナレッジデータサーバ100は、受信したクエリに対応するエンティティに関連する情報をウェブサーバ300に送信する。ナレッジデータサーバ100は、例えば、受信したクエリがコンテンツ情報D2のエンティティに含まれている場合、当該エンティティを受信したクエリに関連付けられたエンティティと判定する。ナレッジデータサーバ100は、例えば、コンテンツ情報D2に基づいて、受信したクエリ(テキストデータ)に関連付けられたエンティティを判定する。また、ナレッジデータサーバ100は、ナレッジグラフD1に基づいて、判定したエンティティに対応付けられた所在情報をウェブサーバ300に送信する。ウェブサーバ300は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ300は、抽出したエンティティの関連データ(この一例では、ナレッジパネル220に示す情報)を含めた検索結果ウェブページ(例えば、図6)を生成する。
図6に示される例においては、クエリとして「3000本安打」が入力され、ナレッジパネル220には「3000本安打」に関連する画像や様々な情報が表示されている。ナレッジパネル220には、例えば、「3000本安打」を達成した「野球選手A」の画像222や、「野球選手A」の生年月日や出身地等の関連情報223が表示される。このように、検索結果230だけでなく、ナレッジパネル220を表示部210に表示することで、検索結果に対するユーザ満足度を向上させることができる。
<1−3.ナレッジデータサーバ100の構成>
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、関連ページ収集部112と、第1確率算出部113(第1指標値算出部)と、コンテキスト抽出部114と、第2確率算出部115(第2指標値算出部)と、ログ収集部116と、第3確率算出部117(第3指標値算出部)と、所在情報取得部118(生起確率算出部)と、通信I/F(Interface)119とを備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F119は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、クロール対象機器DV)、端末装置200、及びウェブサーバ300)との通信を仲介する。
選択部111は、コンテンツ情報D2から確率算出対象の任意のテキストデータ(以下、「対象テキストデータ」)を選択する。関連ページ収集部112は、選択部111によって選択された対象テキストデータに関連するウェブページ(以下、「関連ウェブページ」)を、ネットワークNWを介して収集する。関連ページ収集部112により収集されるウェブページとは、例えば、利用者によって編集可能な百科事典のウェブページ(以下、「百科事典ウェブページ」)や、対象テキストデータをクエリとした場合の検索結果ウェブページである。
図7は、関連ページ収集部112により収集された百科事典ウェブページの一例を示す図である。図7に示される例においては、関連ページ収集部112は、百科事典ウェブページのうち、コンテンツ情報D2が示す「野球選手A」のエンティティに関連付けられる「3000本安打」という対象テキストデータが記載された関連ウェブページを収集する。関連ページ収集部112は、例えば、百科事典ウェブページのHTML(HyperText Markup Language)データを含む収集対象データを、ネットワークNWを介してクロール対象機器DVから収集する。関連ページ収集部112は、いわゆるクローラプログラムにより実現される。収集対象データは、ネットワークNW上(クロール対象機器DVの記憶領域内)にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、HTMLのソースを示すテキストデータを含む関連ウェブページである。関連ページ収集部112は、百科事典ウェブページのうち、対象テキストデータが記載された関連ウェブページが存在する場合、そのすべてを収集する。
また、図8は、関連ページ収集部112により収集された検索結果ウェブページの一例を示す図である。図8に示される例においては、検索結果ウェブページは、コンテンツ情報D2が示すエンティティ「野球選手A」が検索結果として表示される、「3000本安打」というクエリ(図示するテキストTX21)が入力され、検索ボタン311がクリックされた場合の検索結果を示している。なお、「クリック」とは、選択することの一例であり、タッチ、タップその他の態様であってもよい。以下の説明では代表してクリックと称する。クエリは、対象テキストデータの一例である。
図1に戻り、第1確率算出部113は、関連ページ収集部112によって収集された関連ウェブページに基づいて、対象テキストデータとエンティティとの組に対して確率算出処理を行う。第1確率算出部113は、対象テキストデータ(エンティティの名前)が与えられたときの各エンティティの関連付けられる関連度を示す確率(P(エンティティ|エンティティの名前))(以下、「第1確率」)を算出する。第1確率算出部113は、例えば、式(1)が示すP(e|s)の値を第1確率として算出する。式(1)における各種要素については、後述する式(2)、(3)並びに関連ウェブページの種類ごとに説明する。第1確率は、第1指標値の一例である。
Figure 2020140501
以下、関連ウェブページが百科事典ウェブページである場合の第1確率の算出処理の詳細について説明し、次に、関連ウェブページが検索結果ウェブページである場合の第1確率の算出処理の詳細について説明する。
<1−4.関連ウェブページが百科事典ウェブページの場合>
第1確率算出部113は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト(以下、「アンカーテキスト」)として含まれる確率を算出する。関連ウェブページには、対象テキストデータ(この一例では、「3000本安打」(図示するテキストTX11)と関連付けられたエンティティ(この一例では、「野球選手A」)を示すテキストデータ(図示するテキストTX12〜14)が含まれる。また、テキストTX12〜14のうち、テキストTX12は、アンカーテキストである。また、テキストTX12に付与された他のウェブページのリンクは、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。
ここで、第1確率算出部113は、以下の式(2)によって、対象テキストデータを含むすべての百科事典ウェブページにおける対象テキストの数に対して、アンカーテキストである対象テキストデータの数によって求められる確率(以下、「アンカーテキスト確率」)を算出する。式(2)におけるasは、アンカーテキスト確率を示している。
Figure 2020140501
また、第1確率算出部113は、以下の式(3)によって、当該アンカーテキストのリンク先が、ナレッジグラフD1において対象テキストデータと関連付けられた所在情報に対応するエンティティのウェブページ(以下、「特定のウェブページ」)である確率(以下、「第1エンティティ確率」)を算出する。式(3)におけるeとは、第1エンティティ確率を示している。
Figure 2020140501
関連ページ収集部112により収集された関連ウェブページが図7に示されるウェブページのみである場合、第1確率算出部113は、すべての関連ウェブページに含まれる対象テキストデータのうち、当該対象テキストデータがアンカーテキストである確率(つまり、アンカーテキスト確率)を「1/3」と算出する。図示する対象テキストデータの中で、リンクが付与されるのは一つだからである(二つ以上付与されている場合も一つとカウントしてよい)。また、第1確率算出部113は、当該アンカーテキストのリンク先が、対象テキストデータと関連付けられるエンティティの特定のウェブページである確率(第1エンティティ確率)を「1」と算出する。
<1−5.関連ウェブページが検索結果ウェブページの場合>
第1確率算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「3000本安打」(図示するテキストTX21)であり、対象テキストデータと対応付けられたエンティティは、「野球選手A」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図8に示される例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。このうち、対象エンティティテキストデータ(この一例では、「野球選手A」)が含まれるのは、テキストTX22である。テキストTX22に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。つまり、テキストTX22が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストTX25が含まれてよい。
第1確率算出部113は、式(2)によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象エンティティテキストデータを含むリンク先がクリックされた回数の比として求められる確率(以下、「エンティティテキストクリック確率」)を算出する。式(2)におけるasは、エンティティテキストクリック確率を示している。
また、第1確率算出部113は、式(3)によって、対象エンティティテキストデータを含むリンク先が、エンティティに関する特定のウェブページである確率(以下、「第2エンティティ確率」)を算出する。式(3)におけるeは、第2エンティティ確率を示している。
<1−6.異なる事物を指す同一のエンティティが含まれる場合>
ここで、エンティティは、同一の文言であっても異なる事物を指す場合がある。図9は、同一の文言によって異なるエンティティのウェブページにリンクしている例を示す図である。図9に示される例において、テキストTX22は、「野球選手A」のウェブページ(例えば、図3)のリンク先を示す。これに対し、テキストTX26は、「野球選手A」同姓同名の野球選手であって、「野球選手A」とは異なる野球チームCに所属する選手のウェブページのリンク先を示す。第1確率算出部113は、式(2)において、テキストTX26がクリックされた場合もエンティティクリック確率に算入する。
図10は、エンティティを示す文言からリンクした、別のエンティティに関するウェブページの一例を示す図である。図10に示される「野球選手A」のウェブページには、「3000本安打」というテキストデータに関連付けられる「野球選手A」(図3に示される「野球選手A」)とは異なる野球選手である「野球選手A」に関連する関連データが記載されている。
第1確率算出部113は、第1エンティティ確率を算出する際、当該リンク先が図10に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。また、第1確率算出部113は、第2エンティティ確率を算出する際も、当該リンク先が図10に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。
<1−7.関連ウェブページ毎の重み付け>
また、第1確率算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。また、第1確率算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第2エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。そして、第1確率算出部113は、例えば、両者を加算して対数を求めることで、第1確率(スコア)を算出する。
Figure 2020140501
式(4)は、百科事典ウェブページを用いて式(2)および式(3)を計算したサンプル数と、検索結果ウェブページを用いて式(2)および式(3)を計算したサンプル数との割合を示す。
第1確率算出部113は、百科事典ウェブページを用いて式(2)および式(3)を計算したサンプル数の割合を、アンカーテキスト確率と、第1エンティティ確率とを乗じた値に更に乗じ、検索結果ウェブページを用いて式(2)および式(3)を計算したサンプル数の割合を、エンティティテキストクリック確率と、第2エンティティ確率とを乗じた値に更に乗じ、両者を加算することで、得点に重み付けを行う。
第1確率算出部113は、算出した得点をコンテンツ情報D2に対応付けて記憶させる。図11は、本実施形態に係るコンテンツ情報D2及び得点の一例を示す図である。
図1に戻り、コンテキスト抽出部114は、記憶部120に記憶されたナレッジグラフD1、関連ページ収集部112によって収集された関連ウェブページ等から、コンテキストを収集する。コンテキストとは、エンティティの属性、種類等のエンティティを特徴付ける任意の情報を示す文字列である。コンテキスト抽出部114は、収集したコンテキストをコンテキスト情報D3として、記憶部120に記憶させる。
図12は、本実施形態に係るコンテキスト抽出部114によるコンテキスト収集処理の一例を説明する図である。コンテキスト抽出部114は、例えば、ナレッジグラフにおけるプロパティを示す文字列、隣接エンティティの名前等をコンテキストとして収集する。図12に示される例において、コンテキスト抽出部114は、エンティティである「学者A」と関連付けされるコンテキストとして、「ドイツ」、「175cm」、「出生地」、「身長」等をコンテキストとして収集する。
図13は、本実施形態に係るコンテキスト抽出部114によるコンテキスト収集処理の他の例を説明する図である。コンテキスト抽出部114は、例えば、百科事典ウェブページにおける対象物(エンティティ)の文字列の後に表示された対象物の属性等を示す文字列をコンテキストとして収集する。図13に示される例において、コンテキスト抽出部114は、対象物である「学者A」の文字列の後に記載された「物理学」をコンテキストとして収集する。図14は、本実施形態に係るコンテキスト情報D3の一例を示す図である。図14に示される例では、エンティティ「学者A」に対して、コンテキストとして「物理学」、「ドイツ」、「175cm」、「出生地」等が関連付けられている。
第2確率算出部115は、あるエンティティが与えられたときの各コンテキストが関連付けられる関連度を示す確率(P(コンテキスト|エンティティ))(以下、「第2確率」)を算出する。第2確率算出部115は、例えば、関連ページのクリックログ、検索エンジンの検索ログ等に基づいて、エンティティ単位で各コンテキストの頻度情報を含む仮想文書を生成する。さらに、第2確率算出部115は、生成した仮想文書に対して、例えば、Latent Dirichlet Allocation(LDA)等のアルゴリズム(非特許文献1参照)を適用することで、第2確率を算出する。すなわち、第2確率算出部115は、エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、第2確率を算出する。第2確率は、第2指標値の一例である。
図15は、本実施形態に係る第2確率算出部115によるコンテキストの頻度情報の算出処理の一例を説明する図である。第2確率算出部115は、エンティティである「学者A」の関連ページ(例えば、百科事典ウェブページ)をクリックしたユーザが、遷移元である検索結果ウェブページの表示のために利用したクエリのうち「学者A」以外のワード(コンテキストターム)の出現頻度に基づいて、エンティティ単位で各コンテキストの頻度情報を算出する。図15に示される例では、例えば、出現頻度が高い「物理学」の頻度が「120」と算出されている。一方、出現頻度が低い「身長」の頻度が「10」と算出されている。図14に示されるように、第2確率算出部115は、算出した頻度情報をコンテキスト情報D3に対応付けて記憶部120に記憶させる。次に、第2確率算出部115は、これらの頻度情報を含むコンテキストをエンティティ単位で集約することで、仮想文書を生成する。
第2確率算出部115は、生成した仮想文書に対して、例えば、LDAを適用することで、第2確率を算出する。エンティティは仮想文書に対応し、エンティティに対するコンテキストの頻度情報はその文書中のフレーズに相当する。
図1に戻り、ログ収集部116は、ウェブサーバ300に記憶されている検索結果ウェブページのログ(例えば、クリックログ)を、ネットワークNWを介して収集する。ログ収集部116により収集されるクリックログには、例えば、検索結果ウェブページの表示のために利用されたクエリの情報と、該検索結果ウェブページに表示されたリンク先のうち、ユーザによりクリックされたリンク先のURLの情報とが含まれている。図16は、本実施形態に係るクリックログの一例を説明する図である。図16に示される例では、ユーザが、クエリとして「チームA」のワードを入力して検索を行い、端末装置200に検索結果ウェブページP1が表示され、さらに、ユーザが、検索結果ウェブページP1に含まれるリンクのうち「東京チームA」の関連ページ(例えば、百科事典ウェブページP2)へのリンクをクリックした場合を示している。この場合、ウェブサーバ300において出力されるクリックログLには、ユーザによりクエリとして利用されたワード「チームA」の情報と、ユーザによりクリックされたリンク先である百科事典ウェブページP2のURLの情報とが含まれる。
第3確率算出部117は、あるクエリが与えられたときの各エンティティ(エンティティの名前)が関連付けられる関連度を示す確率(P(エンティティの名前|クエリ))(以下、「第3確率」)を算出する。第3確率算出部117は、例えば、クエリとしてあるエンティティに対応付けられているテキストデータと部分的に一致する文字列(以下、「別名」)が与えられたときに、この別名に各エンティティが関連付けられる関連度を示す確率を算出する。第3確率は、第3指標値の一例である。
第3確率算出部117は、算出した第3確率を、クエリおよびエンティティと対応付けて、別名情報D4に記憶させる。図17は、本実施形態に係る別名情報D4の一例を示す図である。図17に示される例では、クエリ「チームA」およびエンティティ「東京チームA」の組に対して、第3確率「0.952」が関連付けられている。第3確率算出部117による第3確率の算出方法については後述する。
所在情報取得部118は、ウェブサーバ300から受信したクエリに対応するエンティティ、エンティティ名、コンテキストの組を決定する。所在情報取得部118は、第1確率算出部113により算出された第1確率と、第2確率算出部115により算出された第2確率と、第3確率算出部117により算出された第3確率とに基づいて、エンティティと、クエリに含まれるワードのうちのエンティティの名前として仮定されたワードと、ワードのうちのコンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する。所在情報取得部118は、ナレッジグラフD1に基づいて、決定したエンティティに対応付けられている所在情報を取得する。その後、所在情報取得部118は、取得した所在情報をウェブサーバ300に送信する。
<1−8.ナレッジデータサーバ100の第1オフライン動作>
以下、ナレッジデータサーバ100の第1オフライン動作について説明する。第1オフライン動作では、第1確率を算出する。図18は、本実施形態のナレッジデータサーバ100の第1確率を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、算出対象の対象テキストデータを選択する(S110)。次に、関連ページ収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ及び検索結果ウェブページ)を収集する(S120)。次に、第1確率算出部113は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する(S130)。
次に、第1確率算出部113は、第1エンティティ確率及び第2エンティティ確率を算出する(S140)。そして、第1確率算出部113は、百科事典ウェブページに基づくアンカーテキスト確率、第1エンティティ確率、及び第1コンテンツ割合を乗じた値と、検索結果ウェブページに基づくエンティティテキストクリック確率、第2エンティティ確率、及び第2コンテンツ割合を乗じた値との和を第1確率として算出し(S150)、算出した第1確率をコンテンツ情報D2に対応付けて記憶部120に記憶させる(S160)。以上により、本フローチャートの処理を終了する。
<1−9.ナレッジデータサーバ100の第2オフライン動作>
以下、ナレッジデータサーバ100の第2オフライン動作について説明する。第2オフライン動作では、第2確率を算出する。図19は、本実施形態のナレッジデータサーバ100の第2確率を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、算出対象の対象テキストデータを選択する(S210)。関連ページ収集部112は、対象テキストデータに基づいて、関連ウェブページを収集する。次に、コンテキスト抽出部114は、関連ページ収集部112により収集された関連ウェブページに基づいて、コンテキストを収集する(S220)。
次に、第2確率算出部115は、エンティティ単位で各コンテキストの頻度情報を算出し(S230)、算出した頻度情報を含む仮想文書を生成する。次に、第2確率算出部115は、生成した仮想文書に対して、例えば、LDA等のアルゴリズムを適用することで、第2確率を算出する(S240)。
図20は、本実施形態のナレッジデータサーバ100の第2確率を算出する詳細動作の一例を示す流れ図である。LDAにおいては、文書が複数のトピック(例えば、1000個のトピック等)(グループ)で構成されるという仮定を置くことで、文章の特徴を解析する。複数のトピックがパターン化されたもの(以下、「トピックパターン」)が多数定義されている。すなわち、1つのトピックパターンは複数のトピックを含み、この複数のトピックの分け方の異なるトピックパターンが多数定義されている。本実施形態においては、エンティティが文書に対応し、エンティティに対応するコンテキストの頻度がその文書中のフレーズの頻度に対応する。まず、第2確率算出部115は、多数のトピックパターンの中から1つのパターンを選択する(S241)。
次に、第2確率算出部115は、算出対象とするエンティティとコンテキストとの組の候補を選択する(S242)。次に、第2確率算出部115は、第2確率(P(コンテキスト|エンティティ))を算出する(S243)。例えば、第2確率算出部115は、以下の式(5)に基づいて、コンテキストがトピックに属する確率と、トピックがエンティティ(内容別)に属する確率との積を求める。第2確率算出部115は、この確率の積の値が最大化するように分布を学習する。
Figure 2020140501
次に、第2確率算出部115は、全てのエンティティとコンテキストとの組の候補について第2確率の算出が完了したか否かを判定する(S244)。第2確率算出部115は、全てのエンティティとコンテキストとの組の候補について第2確率の算出が完了していないと判定した場合、第2確率の算出処理を行っていないエンティティとコンテキストとの組を1つ選択し、S242以降の処理を繰り返す。一方、第2確率算出部115は、全てのエンティティとコンテキストとの組の候補について第2確率の算出が完了したと判定した場合、算出した第2確率を足し合わせる処理を行って、処理対象のトピックパターンに対するスコアを算出する。
次に、第2確率算出部115は、全てのトピックパターンに対する処理が完了したか否かを判定する(S245)。第2確率算出部115は、全てのトピックパターンに対する処理が完了していないと判定した場合、処理を行っていないトピックパターンを1つ選択し、S242以降の処理を繰り返す。
一方、第2確率算出部115は、全てのトピックパターンに対する処理が完了したと判定した場合、算出したスコアが最も高いトピックパターンを、採用するトピックパターンに決定する(S246)。
次に、第2確率算出部115は、上記のように決定したトピックパターンに関して算出された第2確率を採用する第2確率として決定する(S247)。尚、第2確率算出部115は、エンティティとコンテキストとの組の候補の全てに対して第2確率の計算を行わなくてもよい。例えば、エンティティとコンテキストとの組の候補に不適切な表現が含まれている場合には、これを除外するようにしてもよい。また、第2確率算出部115は、追加の条件に応じて、除外処理を行うようにしてもよい。例えば、第2確率算出部115は、エンティティと対応する百科事典ウェブページの概要文に含まれないコンテキストは除外するようにしてもよい。データの除外は、第2確率の算出の前に除外するのではなく、確率算出が終わった後に行ってよい。これは、不適切な表現であっても、LDAでの確率算出には有用であるためである。以上により、本フローチャートの処理を終了する。
図19に戻り、第2確率算出部115は、決定した第2確率をコンテキスト情報D3に対応付けて記憶部120に記憶させる(S250)。尚、第2確率算出部115は、決定した第2確率を、例えばSolr等の転置インデックスに格納してもよい。このSolrに対してORクエリを投げることで、何回も問い合わせすることなく、一度の問い合わせで全ての候補を取得することができる。以上により、本フローチャートの処理を終了する。
<1−10.ナレッジデータサーバ100の第3オフライン動作>
以下、ナレッジデータサーバ100の第3オフライン動作について説明する。第3オフライン動作では、第3確率を算出する。図21は、本実施形態のナレッジデータサーバ100の第3確率を算出する動作の一例を示す流れ図である。ログ収集部116は、ウェブサーバ300に記憶されている検索結果ウェブページのログ(例えば、クリックログ)を、ネットワークNWを介して収集する(S310)。
次に、第3確率算出部117は、ログ収集部116により収集されたクリックログから、クエリとエンティティとの組を抽出する(S320)。例えば、検索に利用されたクエリが「チームA」であり、このクエリと対応する検索結果ウェブページにおいて「東京チームA」の百科事典ウェブページへのリンクがクリックされている場合、「東京チームA」がエンティティとして抽出される。第3確率算出部117は、クリックログから、このようなクエリとエンティティとの組を複数抽出する。なお、ここで抽出されるクエリは、複数の文字列であってよい。すなわち、クエリは、エンティティの「別名」に加えて、エンティティを特徴付ける任意の情報を示す「コンテキスト」を含んでよい。
次に、第3確率算出部117は、ナレッジグラフD1を参照して、抽出されたクエリとエンティティとの組に基づいて、クエリとエンティティの名前との組を生成する(S330)。このエンティティの名前とは、ナレッジグラフD1に記憶されているエンティティの正式な名前である。例えば、「チームA」と「東京チームA」との組が抽出されている場合、第3確率算出部117は、このエンティティ「東京チームA」の正式な名前を、ナレッジグラフD1から読み出す。例えば、第3確率算出部117は、「東京チームA」という文字列や、「東京チームA」の百科事典ウェブページのURL等に基づいて、抽出されたエンティティである「東京チームA」と、ナレッジグラフD1上のエンティティの正式な名前との紐付けを行う。なお、ここで生成されるクエリとエンティティの名前との組における「クエリ」は、エンティティの「別名」に加えて、「コンテキスト」を含んでよい。クエリに「コンテキスト」が存在しない場合(すなわち、クエリが1つのワードである場合)、コンテキストは空文字であるものとして処理される。
次に、第3確率算出部117は、生成されたクエリとエンティティの名前との組の各々について、第3確率(P(エンティティの名前|クエリ))を算出する(S340)。第3確率算出部117は、例えば、式(6)が示すP(name|query)の値を第3確率として算出する。第3確率算出部117は、クリックログにおいて、ワードを名前の少なくとも一部に含むエンティティの関連ページへの遷移回数を用いて第3確率を算出する。
Figure 2020140501
上記の式(6)におけるnameとは、エンティティの名前を示し、queryとはクエリを示し、subjとはクエリに含まれる別名を示し、contextとはクエリに含まれるコンテキストを示す。また、nとは、クエリとして別名が利用された場合に、検索結果ウェブページにおいて、特定のエンティティの関連ページ(例えば、百科事典ウェブページ)に遷移した回数(特定のエンティティの関連ページへのリンクがクリックされた回数)を示している。また、αは、エンティティ毎に予め設定された係数を示している。
例えば、図16に示される例のように、クリックログにおいて、「チームA」がクエリとして利用され、エンティティである「東京チームA」の百科事典ウェブページに遷移したことを示すログが複数存在している場合を考える。ここで、エンティティである「東京チームA」の第3確率を算出する場合、クエリと同じ文字列である「チームA」を対比するエンティティ(以下、「ライバル」とも言う)として設定して、上記の式(6)の値を算出する。
まず、エンティティである「東京チームA」およびライバルとして設定された「チームA」の各々に対して係数αが予め設定されている。例えば、「チームA」の係数αは500に設定され、「東京チームA」の係数αは1に設定される。このように、係数αは、そのエンティティに対応する関連ページへの遷移の起こりにくさを示すものである。例えば、係数αは大きくなるほど、関連ページへの遷移が起こりにくくなることを示す。エンティティとしての「チームA」の関連ページへの遷移は少ない(エンティティとしての「チームA」の関連ページが存在しない場合にはそもそも遷移が無い)ため(遷移しにくい)、大きな値(500)が設定されている。また、エンティティとしての「東京チームA」の関連ページへの遷移は多いため(遷移しやすい)、小さな値が設定されている。
ここで、クリックログにおいて、「チームA」がクエリとして利用された場合の、「チームA」の百科事典ウェブページへの遷移回数nが0であり、「東京チームA」の百科事典ウェブページへの遷移回数nが10である場合、上記の式(6)の値は以下の式(7)のように算出される。第3確率は、クリックログにおいて、エンティティの関連ページへの遷移回数が多くなるほど、第3確率の値が大きくなるように定義される。
Figure 2020140501
また、上記の式(6)は、以下の式(8)のように表すこともできる。
Figure 2020140501
上記の式(8)において、sはエンティティの名前を示し、sはクエリに含まれる主要語(例えば、別名)を示し、sはクエリに含まれる周辺語(例えば、コンテキスト)を示す。また、nとは、クエリとして別名が利用された場合に、検索結果ウェブページにおいて、特定のエンティティの関連ページ(例えば、百科事典ウェブページ)に遷移した回数(特定のエンティティの関連ページへのリンクがクリックされた回数)を示している。また、αは、エンティティ毎に予め設定された係数(正の整数)を示している。
また、S(s,s)は以下の手順により生成される。まず、クリックログの各レコードのうちのクエリから展開可能なすべてのs,sを列挙する。次に、s(∈S)に対し、(s,s,e)の組が条件を満たすときsを集合S(s,s)に加える、ここで、条件とはs(∈S)およびsに小文字化、記号削除を行ったとき、sがsの部分文字列もしくは同一の文字列となることである。
第3確率算出部117は、算出した第3確率を、クエリおよびエンティティと対応付けて、別名情報D4に記憶させる(S350)。以上により、本フローチャートの処理を終了する。
<1−11.ナレッジデータサーバ100のオンライン動作>
図22は、本実施形態のナレッジデータサーバ100のオンライン動作の一例を示す流れ図である。まず、所在情報取得部118は、ウェブサーバ300からクエリを受信する(S410)。例えば、所在情報取得部118は、「チームA」と、「野球」との2つのワードを含むクエリを受信する。
次に、所在情報取得部118は、別名情報D4のうち、受信したクエリに含まれるワードの各々と合致するテキストデータに関連付けられているエンティティを読み出す(S420)。図17に示される例では、クエリ「チームA」と対応付けられたエンティティとして、「東京チームA」、「リトルチームA」、「石川チームA」という3つのエンティティが読み出される。
次に、所在情報取得部118は、受信したクエリと読み出されたエンティティとを用いて、「エンティティの名前」と、「エンティティ」と、「コンテキスト」との組み合わせの候補(エンティティ、エンティティの名前、コンテキスト)を全通り生成する(S430)。図17に示される例では、以下3つの組み合わせの候補が生成される。
・(エンティティEN1,東京チームA,野球)
・(エンティティEN2,リトルチームA,野球)
・(エンティティEN3,石川チームA,野球)
次に、所在情報取得部118は、組み合わせの候補の各々について、以下の評価式(9)の値を算出する(S440)。
Figure 2020140501
上記の式(9)は、(エンティティ、エンティティの名前、コンテキスト)の組み合わせ毎に、第3確率(P(name|query))と、第1確率(P(entity|name))と、第2確率(P(context|entity))との乗算値を求めている。第1確率は、クエリに含まれるワードのうち、エンティティの名前として仮定されたワードが、複数のエンティティのそれぞれと関連付けられる確率である。第2確率は、クエリに含まれるワードのうち、複数のエンティティのそれぞれが、コンテキストとして仮定されたワードと関連付けられる確率である。第3確率は、クエリに含まれるワードのうち、エンティティの名前として仮定されたワードが、ワードを名前の少なくとも一部に含む複数のエンティティのそれぞれと関連付けられる確率である。
例えば、(エンティティEN1,東京チームA,野球)の組み合わせの場合、所在情報取得部118は、コンテンツ情報D2から、エンティティの名前(テキストデータ)としての「東京チームA」と、エンティティ「エンティティEN1」との組と関連付けられている第1確率を読み出す。さらに、所在情報取得部118は、コンテキスト情報D3から、エンティティ「エンティティEN1」と、コンテキストとしての「野球」との組と関連付けられている第2確率を読み出す。さらに、所在情報取得部118は、別名情報D4から、クエリ「チームA」と、エンティティの名前「東京チームA」との組と関連付けられている第3確率を読み出す。そして、所在情報取得部118は、読み出した第1確率と、第2確率と、第3確率との乗算値を求める。
次に、所在情報取得部118は、算出した乗算値のうち、最大の値を有するエンティティ、エンティティの名前、コンテキストの組を、ユーザにより入力されたクエリの検索意図として適切な組として決定する(S450)。所在情報取得部118は、決定した組に含まれるエンティティの所在情報をナレッジグラフD1から取得して、ウェブサーバ300に送信する。以上により、本フローチャートの処理を終了する。
尚、ユーザにより入力されたクエリが1つのみである場合には、所在情報取得部118は、この1つのクエリをエンティティ名とした場合の第1確率、第2確率、および第3確率に基づいて、関連付けされるエンティティを判定してよい。
以上、説明したように、本実施形態のナレッジデータサーバ100は、クエリとして入力された1以上のワードと、エンティティとの関連度を示す第1指標値を算出する第1確率算出部113(第1指標値算出部)と、前記ワードをコンテキストとして含むエンティティと、前記ワードとの関連度を示す第2指標値を算出する第2確率算出部115(第2指標値算出部)と、前記ワードと、前記ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第3指標値を算出する第3確率算出部117(第3指標値算出部)と、前記第1指標値算出部により算出された前記第1指標値と、前記第2指標値算出部により算出された前記第2指標値と、前記第3指標値算出部により算出された前記第3指標値とに基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する所在情報取得部118(生起確率算出部)とを備える。
これによって、本実施形態のナレッジデータサーバ100は、ユーザにより入力された多様なクエリの検索意図を適切に評価することができる。本実施形態のナレッジデータサーバ100によれば、ユーザにより入力されたクエリが、ナレッジグラフに登録されているエンティティの名前と異なる場合(エンティティの別名)であっても、クエリと対応するエンティティに関する情報をユーザに提供することができる。また、本実施形態のナレッジデータサーバ100によれば、ナレッジグラフに別名に関する情報を記憶させる必要がない。このため、ナレッジグラフを用いた各種計算の速度低下を防ぐことができ、また、クエリに対応するエンティティの候補が増大してしまう事態を回避することができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
100…ナレッジデータサーバ
110…制御部
111…選択部
112…関連ページ収集部
113…第1確率算出部
114…コンテキスト抽出部
115…第2確率算出部
116…ログ収集部
117…第3確率算出部
118…所在情報取得部
119…通信I/F
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…コンテンツ情報
D3…コンテキスト情報
D4…別名情報

Claims (10)

  1. クエリとして入力された1以上のワードと、エンティティとの関連度を示す第1指標値を算出する第1指標値算出部と、
    前記ワードをコンテキストとして含むエンティティと、前記ワードとの関連度を示す第2指標値を算出する第2指標値算出部と、
    前記ワードと、前記ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第3指標値を算出する第3指標値算出部と、
    前記第1指標値算出部により算出された前記第1指標値と、前記第2指標値算出部により算出された前記第2指標値と、前記第3指標値算出部により算出された前記第3指標値とに基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部と
    を備える情報処理装置。
  2. 前記第3指標値は、前記エンティティの名前として仮定された前記ワードが、前記ワードを名前の少なくとも一部に含む複数の前記エンティティのそれぞれと関連付けられる確率である、
    請求項1に記載の情報処理装置。
  3. 前記第1指標値は、前記エンティティの名前として仮定された前記ワードが、複数の前記エンティティのそれぞれと関連付けられる確率であり、
    前記第2指標値は、複数の前記エンティティのそれぞれが、前記コンテキストとして仮定された前記ワードと関連付けられる確率である、
    請求項1または2に記載の情報処理装置。
  4. 前記生起確率算出部は、前記組み合わせ毎に、前記第1指標値と、前記第2指標値と、前記第3指標値との乗算値を算出し、算出した前記乗算値が最も大きな組み合わせを、前記エンティティと、前記エンティティの名前に相当するワードと、前記コンテキストに相当するワードとの組み合わせと判定する、
    請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記第3指標値算出部は、前記ワードと関連付けられるページのクリックログに基づいて、前記第3指標値を算出する、
    請求項1から4のいずれか一項に記載の情報処理装置。
  6. 前記第3指標値算出部は、
    前記クリックログから前記クエリと前記エンティティとの組を抽出し、
    抽出された前記クエリと前記エンティティとの組と、ナレッジグラフとに基づいて、前記クエリと前記エンティティの名前との組を生成し、
    生成された前記クエリと前記エンティティの名前との組の各々に対する前記第3指標値を算出する、
    請求項5に記載の情報処理装置。
  7. 前記第3指標値算出部は、前記クリックログにおいて、前記ワードを名前の少なくとも一部に含む前記エンティティの関連ページへの遷移回数を用いて前記第3指標値を算出する、
    請求項5または6に記載の情報処理装置。
  8. 前記第3指標値は、前記クリックログにおいて、前記エンティティの関連ページへの遷移回数が多くなるほど、前記第3指標値の値が大きくなるように定義される、
    請求項7に記載の情報処理装置。
  9. コンピュータが、
    クエリとして入力された1以上のワードと、エンティティとの関連度を示す第1指標値を算出し、
    前記ワードをコンテキストとして含むエンティティと、前記ワードとの関連度を示す第2指標値を算出し、
    前記ワードと、前記ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第3指標値を算出し、
    算出された前記第1指標値、前記第2指標値、および前記第3指標値に基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する、
    情報処理方法。
  10. コンピュータに、
    クエリとして入力された1以上のワードと、エンティティとの関連度を示す第1指標値を算出させ、
    前記ワードをコンテキストとして含むエンティティと、前記ワードとの関連度を示す第2指標値を算出させ、
    前記ワードと、前記ワードを名前の少なくとも一部に含むエンティティとの関連度を示す第3指標値を算出させ、
    算出された前記第1指標値、前記第2指標値、および前記第3指標値に基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出させる、
    プログラム。
JP2019036247A 2019-02-28 2019-02-28 情報処理装置、情報処理方法、およびプログラム Active JP7183077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019036247A JP7183077B2 (ja) 2019-02-28 2019-02-28 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019036247A JP7183077B2 (ja) 2019-02-28 2019-02-28 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020140501A true JP2020140501A (ja) 2020-09-03
JP7183077B2 JP7183077B2 (ja) 2022-12-05

Family

ID=72280412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019036247A Active JP7183077B2 (ja) 2019-02-28 2019-02-28 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7183077B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008186452A (ja) * 2007-01-29 2008-08-14 Nhn Corp 検索システム及び検索方法
US8433703B1 (en) * 2003-12-22 2013-04-30 Google Inc. Recording user actions
JP2013171450A (ja) * 2012-02-21 2013-09-02 Ntt Docomo Inc 関連語取得装置及び関連語取得方法
WO2017222585A1 (en) * 2016-06-22 2017-12-28 Google Llc Systems and methods for providing contextual information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8433703B1 (en) * 2003-12-22 2013-04-30 Google Inc. Recording user actions
JP2008186452A (ja) * 2007-01-29 2008-08-14 Nhn Corp 検索システム及び検索方法
JP2013171450A (ja) * 2012-02-21 2013-09-02 Ntt Docomo Inc 関連語取得装置及び関連語取得方法
WO2017222585A1 (en) * 2016-06-22 2017-12-28 Google Llc Systems and methods for providing contextual information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石川 裕貴 ほか: "ウェブ検索ログとWikipedia内部リンクを用いたエンティティの曖昧性解消", 言語処理学会第21回年次大会 発表論文集 [ONLINE], JPN6021008467, 9 March 2015 (2015-03-09), pages 644 - 647, ISSN: 0004773234 *

Also Published As

Publication number Publication date
JP7183077B2 (ja) 2022-12-05

Similar Documents

Publication Publication Date Title
EP2438539B1 (en) Co-selected image classification
US9881059B2 (en) Systems and methods for suggesting headlines
US9703860B2 (en) Returning related previously answered questions based on question affinity
Liu et al. Identifying web spam with the wisdom of the crowds
US20090162824A1 (en) Automated learning from a question and answering network of humans
US20090287676A1 (en) Search results with word or phrase index
US20160098737A1 (en) Corpus Management Based on Question Affinity
JP2013516022A (ja) 検索提案のクラスタ化及び提示
JP5250009B2 (ja) サジェスチョンクエリ抽出装置及び方法、並びにプログラム
JP2011253256A (ja) 関連コンテンツ提示装置及びプログラム
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
JP2007334590A (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP6145562B2 (ja) 情報構造化システム及び情報構造化方法
JP7003020B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7183077B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6971104B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6982520B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7088693B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6971210B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2009211429A (ja) 情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体
Patel et al. A review of PageRank and HITS algorithms
JP7354019B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7078569B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Jain et al. An Approach to build a web crawler using Clustering based K-Means Algorithm
JP6971209B2 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211222

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220721

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220721

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220816

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221122

R150 Certificate of patent or registration of utility model

Ref document number: 7183077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350