JP2020154753A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2020154753A
JP2020154753A JP2019052814A JP2019052814A JP2020154753A JP 2020154753 A JP2020154753 A JP 2020154753A JP 2019052814 A JP2019052814 A JP 2019052814A JP 2019052814 A JP2019052814 A JP 2019052814A JP 2020154753 A JP2020154753 A JP 2020154753A
Authority
JP
Japan
Prior art keywords
text data
web page
entity
target text
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019052814A
Other languages
English (en)
Other versions
JP7078569B2 (ja
Inventor
葉子 石川
Yoko Ishikawa
葉子 石川
樹生 豊田
Mikio Toyoda
樹生 豊田
真也 夜久
Shinya Yaku
真也 夜久
宏希 岩澤
Hiroki Iwasawa
宏希 岩澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019052814A priority Critical patent/JP7078569B2/ja
Publication of JP2020154753A publication Critical patent/JP2020154753A/ja
Application granted granted Critical
Publication of JP7078569B2 publication Critical patent/JP7078569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】エンティティとキーワードとの関係を適切に評価すること。【解決手段】評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第1種類のウェブページの情報を収集する収集部と、前記第1種類のウェブページにおいて、前記対象テキストデータと関連付けられた第1サービスへのリンク先が選択された回数に関する第1指標値と、前記対象テキストデータと関連付けられた第2サービスへのリンク先が選択された回数に関する第2指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う評価部と、を備える情報処理装置。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、ウェブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている(特許文献1参照)。クローラは、ウェブページ中のリンクを辿って、様々なIPアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。
一方、検索エンジンは、ユーザによって入力された検索ワード(以下、「クエリ」)を受信すると、受信したクエリに関連するウェブページやアプリページの情報(例えばURL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。
特開2012−69171号公報
検索エンジンは、ユーザ満足度を向上させるため、ユーザにより入力されたクエリに関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータ(以下、「キーワード」ともいう)とエンティティとを互いに関連付けて記憶したデータベースが用いられる場合がある。ここで、データベースにおいて、ある特定のエンティティに関連付けられているテキストデータがクエリとして入力されると、その特定のエンティティに関する情報が検索結果とともに出力されることになる。
しかしながら、ユーザが一般的な用語(以下、「一般語」ともいう)の意味の検索を行う場合に、この検索に利用されたクエリに特定のエンティティが紐付けられ、ユーザの検索意図とは異なるエンティティに関する情報が検索結果とともに出力されてしまう場合があった。
本発明は、このような事情を考慮してなされたものであり、エンティティとキーワードとの関係を適切に評価することができる情報処理装置を提供することを目的の一つとする。
本発明の一態様は、評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第1種類のウェブページの情報を収集する収集部と、前記第1種類のウェブページにおいて、前記対象テキストデータと関連付けられた第1サービスへのリンク先が選択された回数に関する第1指標値と、前記対象テキストデータと関連付けられた第2サービスへのリンク先が選択された回数に関する第2指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う評価部と、を備える情報処理装置である。
本発明の一態様によれば、エンティティとキーワードとの関係を適切に評価することができる。
本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。 本実施形態に係るナレッジグラフの一例を示す図である。 本実施形態に係る「東京タワー」のウェブページの一例を示す図である。 本実施形態に係るコンテンツ情報の一例を示す図である。 本実施形態に係る検索結果ウェブページの一例を示す図である。 本実施形態に係る収集部により収集された百科事典ウェブページの一例を示す図である。 本実施形態に係る収集部により収集された検索結果ウェブページの一例を示す図である。 本実施形態に係る収集部により収集された検索結果ウェブページの他の例を示す図である。 本実施形態に係るコンテンツ情報及び得点の一例を示す図である。 本実施形態のナレッジデータサーバの得点を算出する動作の一例を示す流れ図である。 本実施形態のナレッジデータサーバの得点に基づく動作の一例を示す流れ図である。
以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ(例えば、画像やテキストデータ)を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。
エンティティとは、例えば、ある対象事物の実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。
<実施形態>
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML(HyperText Markup Language)文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
端末装置200は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ300は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置200に提供する。
ナレッジデータサーバ100は、例えば、制御部110と、記憶部120とを備える。記憶部120は、例えば、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部120の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ナレッジデータサーバ100がアクセス可能な外部装置であってもよい。記憶部120には、例えば、ナレッジグラフD1と、コンテンツ情報D2とが記憶される。
図2は、本実施形態に係るナレッジグラフD1の一例を示す図である。ナレッジグラフD1において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。
クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。
ナレッジグラフD1は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。
図2に示されるナレッジグラフD1は、エンティティE1と、エンティティE2とが、「所在地」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報(以下、「エンティティ識別情報EID」という)と、エンティティ名と、エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、URLである。所在情報が示すウェブページには、エンティティの関連データが記載されている。
図2に示されるナレッジグラフD1において、エンティティE1には、エンティティ識別情報EIDの「0001」と、エンティティ名の「東京タワー」と、エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/東京タワー」というURLとが関連付けられている。また、エンティティE2には、エンティティ識別情報EIDの「0002」と、エンティティ名「東京都」と、このエンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/東京都」というURLとが関連付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。
図3は、本実施形態に係る「東京タワー」のウェブページの一例を示す図である。「東京タワー」のウェブページには、「東京タワー」の関連データが記載されている。
図4は、本実施形態に係るコンテンツ情報D2の一例を示す図である。コンテンツ情報D2とは、エンティティと、テキストデータとが関連付けられた情報である。コンテンツ情報D2は、ウェブページに含まれる関連データを収集した収集結果又は検索エンジンの検索ログに基づいて生成される。コンテンツ情報D2は、例えば、エンティティのウェブページに含まれるテキストデータが収集され、収集されたテキストデータと、エンティティとが関連付けられた情報である。また、コンテンツ情報D2は、例えば、エンティティがクエリとして入力された際、当該エンティティと共に入力されたテキストデータと、エンティティとが関連付けられた情報である。図4に示される一例のコンテンツ情報D2において、「東京タワー」というエンティティには、「日本電波塔」というテキストデータが関連付けられ、「東京都」というエンティティには、「日本の首都」というテキストデータが関連付けられる。
<1−2.検索結果ウェブページ>
図5は、本実施形態に係る検索結果ウェブページの一例を示す図である。図5に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
ウェブサーバ300は、端末装置200から受信したクエリをナレッジデータサーバ100に送信する。ナレッジデータサーバ100は、受信したクエリに対応するエンティティに関連する情報をウェブサーバ300に送信する。ナレッジデータサーバ100は、例えば、コンテンツ情報D2に基づいて、受信したクエリ(テキストデータ)に関連付けられたエンティティを判定する。また、ナレッジデータサーバ100は、ナレッジグラフD1に基づいて、判定したエンティティに関連付けられた所在情報をウェブサーバ300に送信する。ウェブサーバ300は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ300は、抽出したエンティティの関連データ(この一例では、ナレッジパネル220に示す情報)を含む検索結果ウェブページ(例えば、図5)を生成する。
図5に示される例においては、クエリとして「日本電波塔」が入力され、ナレッジパネル220には「日本電波塔」に関連する画像や様々な情報が表示されている。ナレッジパネル220には、例えば、「日本電波塔」を示す「東京タワー」の画像222や、「東京タワー」の高さや所在地などの関連情報223が表示される。このように、検索結果230だけでなく、ナレッジパネル220を表示部210に表示することで、検索結果に対するユーザ満足度を向上させることができる。
上記のようなナレッジパネル220を提供するためには、ナレッジグラフD1及びコンテンツ情報D2に含まれる情報量を充実化させておき、多様なクエリに対応可能であり且つ適切なエンティティの情報を提供できるようにしておく必要がある。また、一般語の意味を検索する目的で利用されたクエリに対しては、特定のエンティティとの紐付が行われないようにしておく必要がある。そこで、本実施形態のナレッジデータサーバ100は、テキストデータに関連付けられるエンティティが適切であるかを示す指標(以下、「得点」ともいう)を複数のサービスの利用状況に関する情報などに基づいて導出する。以下、ナレッジデータサーバ100の詳細な構成について説明する。
<1−3.ナレッジデータサーバ100の構成>
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、収集部112と、得点算出部113(評価部)と、所在情報取得部114(判定部)と、通信I/F(Interface)115を備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F115は、ネットワークNWを介した各機能部と、他の機器(例えば、クロール対象機器DV、端末装置200、及びウェブサーバ300)との通信を仲介する。
選択部111は、記憶部120に記憶されたコンテンツ情報D2から、得点を算出する対象の任意のテキストデータ(以下、「対象テキストデータ」)を選択する。収集部112は、選択部111によって選択された対象テキストデータに関連するウェブページ(以下、「関連ウェブページ」)の情報を、ネットワークNWを介して収集する。収集部112は、例えば、利用者によって編集可能であり、事物や事柄の内容を解説する百科事典のウェブページ(以下、「百科事典ウェブページ」)、対象テキストデータをクエリとした場合の検索結果ウェブページ、この検索結果のウェブページに含まれるリンクのクリックログなどの利用状況に関する情報を収集する。
ここで、百科事典ウェブページは、第1のサービス(以下、「百科事典提供サービス」)によって提供されるページである。百科事典ウェブページは、第2種類のウェブページの一例である。また、検索結果ウェブページとは、第1種類のウェブページの一例である。検索結果ウェブページに含まれるリンクには、第1のサービスによって提供される百科事典ウェブページへのリンクの他、第1のサービスとは異なる第2のサービスによって提供されるウェブページへのリンクなどが含まれる。第2のサービスは、例えば、各種用語の意味を解説する辞書のウェブページ(以下、「辞書ウェブページ」)を提供するサービス(以下、「辞書提供サービス」)である。
図6は、収集部112により収集された百科事典ウェブページの一例を示す図である。図6に示される例において、収集部112は、百科事典ウェブページのうち、選択部111によって選択された対象テキストデータである「日本電波塔」の文字列が含まれるページの情報を収集する。収集部112は、例えば、百科事典ウェブページのHTMLデータを含む収集対象データを、ネットワークNWを介してクロール対象機器DVから収集する。収集部112は、いわゆるクローラプログラムにより実現される。ここで、収集対象データは、ネットワークNW上(クロール対象機器DVの記憶領域内)にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、HTMLのソースを示すテキストデータを含む関連ウェブページである。収集部112は、百科事典ウェブページのうち、対象テキストデータが含まれる百科事典ウェブページが複数存在する場合、そのすべてを収集する。
また、図7は、収集部112により収集された検索結果ウェブページの一例を示す図である。図7に示される例において、検索結果ウェブページは、「日本電波塔」というクエリ(図示するテキストTX21)が入力された場合の検索結果を示している。検索結果ウェブページには、コンテンツ情報D2に含まれるエンティティ「東京タワー」に関するウェブページへのリンクが含まれる。クエリは、対象テキストデータの一例である。
図1に戻り、得点算出部113は、収集部112により収集された関連ウェブページに基づいて、あるセグメント(ここでは、対象テキストデータ)とエンティティとの組の得点(評価結果)を算出する。得点算出部113は、対象テキストデータに対してエンティティが関連付けられる度合い(対象テキストデータとエンティティとの関連度)を示す確率(P(エンティティ|セグメント))を算出する。得点算出部113は、検索結果ページにおいて、辞書提供サービスへのリンクが選択された回数が大きくなるにつれて、対象テキストデータとエンティティとの関連度が低くなるように、得点を算出する。例えば、得点算出部113は、以下の式(1)が示すP(e|s)の値を得点として算出する。式(1)におけるeはエンティティを示し、sはセグメント(ここでは、対象テキストデータ)を示す。式(1)における他の要素については、後述する。
Figure 2020154753
以下、得点算出部113による得点算出処理の詳細について説明する。
<1−4.第1のサービス(百科事典提供サービス)に関する得点算出>
<関連ウェブページが百科事典ウェブページの場合>
(1)対象テキストデータに対してエンティティが紐付く確率
上記の式(1)に含まれる以下の式(2)の項は、対象テキストデータに対してエンティティが紐付く確率を示している。以下においては、関連ウェブページが百科事典ウェブページの場合における、式(2)の算出処理について説明する。
Figure 2020154753
得点算出部113は、収集部112により収集された百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト(アンカーテキスト)として含まれる確率を算出する。百科事典ウェブページには、対象テキストデータ(図6に示される「日本電波塔」のテキストTX11)と関連付けられたエンティティ(「東京タワー」)を示すテキストデータ(図6に示される「東京タワー」のテキストTX12〜14)が含まれる。また、テキストTX11〜14のうち、テキストTX12は、アンカーテキストである。また、テキストTX12に付与された他のウェブページのリンクのURLは、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(「東京タワー」)に関連付けられた所在情報と同じである。
ここで、得点算出部113は、上記の式(2)におけるアンカーテキスト確率(以下の式(3))を算出する。アンカーテキスト確率とは、対象テキストデータを含むすべての百科事典ウェブページにおいて、対象テキストデータと関連付けられたエンティティを示すテキストデータの総数(延べ数)に対する、アンカーテキストであるテキストデータの数によって求められる確率を示す。以下の式(3)は、情報元c(ここでは、c=c(百科事典ウェブページ))およびセグメントs(ここでは、対象テキストデータ)が与えられたとき、エイリアスaが生成される確率を示している。a=1は、テキストデータがアンカーテキストであることを示している。ここで、アンカーテキスト確率とは、第3指標値の一例である。
Figure 2020154753
また、得点算出部113は、上記の式(2)における第1エンティティ確率(以下の式(4))を算出する。第1エンティティ確率とは、当該アンカーテキストのリンク先が、ナレッジグラフD1において対象テキストデータと関連付けられたエンティティの所在情報に対応するウェブページ(以下、「特定のウェブページ」)である確率を示す。ここで、第1エンティティ確率とは、第4指標値の一例である。
Figure 2020154753
得点算出部113は、式(3)に基づいて算出されたアンカーテキスト確率と、式(4)に基づいて算出された第1エンティティ確率とを乗算することで、対象テキストデータに対してエンティティが紐付く確率(式(2))を算出する。
例えば、収集部112により収集された百科事典ウェブページが図6に示す百科事典ウェブページのみである場合、得点算出部113は、この関連ウェブページに含まれる対象テキストデータと関連付けられたエンティティ(「東京タワー」)を示すテキストデータのうち、当該テキストデータがアンカーテキストである確率(つまり、アンカーテキスト確率)を「1/3」と算出する。図示する3つのテキストデータTX12からTX14の中で、リンクが付与されているのはテキストTX12の一つだからである。また、得点算出部113は、当該アンカーテキストのリンク先が、対象テキストデータと関連付けられるエンティティの特定のウェブページである確率(第1エンティティ確率)を「1」と算出する。この場合、得点算出部113は、対象テキストデータに対してエンティティが紐付く確率(式(2))を、「1/3(アンカーテキスト確率)」×「1(第1エンティティ確率)」=「1/3」と算出する。
(2)対象テキストデータに対してエンティティが紐付かない確率
上記の式(1)に含まれる以下の式(5)の項は、対象テキストデータに対してエンティティが紐付かない確率を示している。以下においては、関連ウェブページが百科事典ウェブページの場合における、式(5)の算出処理について説明する。
Figure 2020154753
得点算出部113は、収集部112により収集された百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示さないテキスト(以下、「非アンカーテキスト」)として含まれる確率を算出する。
得点算出部113は、上記の式(5)における、非アンカーテキスト確率(以下の式(6))を算出する。非アンカーテキスト確率とは、百科事典ウェブページにおける対象テキストデータと関連付けられたエンティティを示すテキストデータの総数(延べ数)に対する、非アンカーテキストであるテキストデータの数によって求められる確率を示す。以下の式(6)は、情報元c(ここでは、c=c(百科事典ウェブページ))およびセグメントs(ここでは、対象テキストデータ)が与えられたとき、エイリアスaが生成されない確率を示している。a=0は、テキストデータがアンカーテキストではないこと(リンクが付与されていないテキストであること)ことを示している。得点算出部113は、式(6)によって、「1」から、「アンカーテキスト確率」を減算することにより、非アンカーテキスト確率を求める。
Figure 2020154753
また、得点算出部113は、上記の式(5)における、第2エンティティ確率(以下の式(7))を算出する。第2エンティティ確率とは、百科事典ウェブページにおける、対象テキストデータと関連付けられたエンティティを示すテキストデータの総数(延べ数)に対する、アンカーテキストであり且つ該アンカーテキストのリンク先が特定のウェブページであるテキストデータの数によって求められる確率を示す。
Figure 2020154753
得点算出部113は、式(6)に基づいて算出された非アンカーテキスト確率と、式(7)に基づいて算出された第2エンティティ確率とを乗算することで、対象テキストデータに対してエンティティが紐付かない確率(式(5))を算出する。
例えば、収集部112により収集された百科事典ウェブページが図6に示すウェブページのみである場合、得点算出部113は、この百科事典ウェブページに含まれる対象テキストデータと関連付けられたエンティティ(「東京タワー」)を示すテキストデータのうち、当該テキストデータが非アンカーテキストである確率(つまり、非アンカーテキスト確率)を「2/3」と算出する。図示する3つのテキストデータTX12からTX14の中で、リンクが付与されていないのはテキストTX13およびTX14の二つだからである。また、図6に示される百科事典ウェブページに含まれるエンティティ(「東京タワー」)を示すテキストデータの延べ数が「3」であり、このうち、アンカーテキストであり且つ該アンカーテキストのリンク先が特定のウェブページであるテキストデータの数は一つであるため(テキストデータTX12)、得点算出部113は、第2エンティティ確率を「1/3」と算出する。この場合、得点算出部113は、対象テキストデータに対してエンティティが紐付かない確率(式(5))を、「2/3(非アンカーテキスト確率)」×「1/3(第2エンティティ確率)」=「2/9」と算出する。
<関連ウェブページが検索結果ウェブページの場合>
(1)対象テキストデータに対してエンティティが紐付く確率
次に、関連ウェブページが検索結果ウェブページの場合における、式(2)の算出処理について説明する。得点算出部113は、検索結果ウェブページにおいて、対象テキストデータがクリックログ上でアンカーテキストであると判定された総数(対象テキストデータがエンティティと紐付く関連ウェブページをクリックした総数)(「第2指標値」の一例)と、対象テキストデータがクリックログ上でアンカーテキストでないと判定された総数(対象テキストデータがエンティティと紐付かない関連ウェブページをクリックした総数)(「第1指標値」の一例)とに基づいて、対象テキストデータに対してエンティティが紐付く確率を算出する。
本実施形態においては、検索結果ページにおいて対象テキストデータと関連付けられたエンティティをテキストとして含む百科事典ウェブページへのリンクがクリックされた回数(以下、「クリック数」)を、対象テキストデータがエンティティと紐付く関連ウェブページをクリックした総数としてみなす。また、検索結果ページにおいて対象テキストデータと関連付けられたエンティティをテキストとして含む辞書ウェブページへのリンクがクリックされた回数(以下、「クリック数」)を、対象テキストデータがエンティティと紐付かない関連ウェブページをクリックした総数としてみなす。なお、「クリック」とは、選択することの一例であり、タッチ、タップその他の態様で選択されてもよい。以下の説明では代表してクリックと称する。
図8は、収集部112により収集された検索結果ウェブページの他の例を示す図である。図8に示される例においては、検索結果ウェブページは、「確証」というクエリ(図示するテキストTX26)が入力された場合の検索結果を示している。この検索結果ウェブページには、対象テキストデータ「確証」をテキストとして含むリンクが付与されたテキストデータ(図示するテキストTX27〜29)が含まれる。このうち、辞書提供サービスへのリンクが付与されたテキストは、テキストTX27である。この検索結果ウェブページにおいて、ユーザにより、辞書提供サービスへのリンクが付与されたテキストTX27がクリックされた場合、このユーザは、一般語としての「確証」の意味を調べる意図で検索を行ったことが推定される。このため、このような一般語の意味を調べる意図で入力されたクエリに対しては、アンカーテキスト確率の値を下げ、特定のエンティティが紐付く確率を下げるようにする。
例えば、上記の式(3)は、以下の式(8)に基づいて算出される。
Figure 2020154753
上記の式(8)の分母におけるn(s,c)の項は、以下の式(9)に基づいて算出される。
Figure 2020154753
上記の式(9)に含まれる以下の式(10)の項は、対象テキストデータがクリックログ上でアンカーテキストであると判定された総数(対象テキストデータがエンティティと紐づく関連ウェブページをクリックした総数)を示している。なお、この式(10)の項は、上記の式(8)の分子と同じである。一方、上記の式(9)に含まれる以下の式(11)の項は、対象テキストデータがクリックログ上でアンカーテキストでないと判定された総数(対象テキストデータがエンティティと紐付かない関連ウェブページをクリックした総数)を示している。
Figure 2020154753
Figure 2020154753
上記の式(11)の値が増大するにつれて、すなわち、辞書ウェブページのクリック数が増大するにつれて、上記の式(9)の値が増大する。この結果、上記の式(9)を分母に含む上記の式(8)の値は小さくなる。これにより、辞書ウェブページへの遷移が多い傾向がある対象テキストデータについては、アンカーテキスト確率の値を下げることができる。
また、得点算出部113は、式(4)によって、対象テキストデータと関連付けられたエンティティを含むリンク先が、エンティティに関する特定のウェブページである確率(以下、「第3エンティティ確率」)を算出する。
得点算出部113は、式(3)に基づいて算出されたアンカーテキスト確率と、式(4)に基づいて算出された第3エンティティ確率とを乗算することで、対象テキストデータに対してエンティティが紐付く確率(式(2))を算出する。
(2)対象テキストデータに対してエンティティが紐付かない確率
次に、関連ウェブページが検索結果ウェブページの場合における、式(5)の算出処理について説明する。得点算出部113は、式(6)によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象テキストデータと関連付けられたエンティティを示すテキストデータを含む百科事典ウェブページに関するリンク先がクリックされなかった回数の比として求められる確率(非アンカーテキスト確率」)を算出する。例えば、得点算出部113は、式(6)によって、「1」から、「アンカーテキスト確率」を減算することにより、非アンカーテキスト確率を求める。
上記のとおり、辞書ウェブページのクリック数が増大するにつれて、アンカーテキスト確率の値は低下し、これにより、非アンカーテキスト確率は増大することになる。このため、一般語の意味を調べる意図で入力されたクエリに対しては、非アンカーテキスト確率の値を増大させ、特定のエンティティが紐付く確率を下げることができる。
また、得点算出部113は、式(7)によって、第4エンティティ確率を算出する。第4エンティティ確率とは、検索結果ウェブページにおける、対象テキストデータと関連付けられたエンティティを示すテキストデータの総数(延べ数)に対する、アンカーテキストであり且つ該アンカーテキストのリンク先が特定のウェブページであるテキストデータの数によって求められる確率を示す。
得点算出部113は、式(6)に基づいて算出された非エンティティテキストクリック確率と、式(7)に基づいて算出された第4エンティティ確率とを乗算することで、対象テキストデータに対してエンティティが紐付かない確率(式(5))を算出する。
<関連ウェブページ毎の重み付け>
また、得点算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値と、非アンカーテキスト確率に対して第2エンティティ確率を乗じた値と、の各々に対して、以下の式(8)を更に乗じてもよい。また、得点算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第3エンティティ確率を乗じた値と、非エンティティテキストクリック確率に対して第4エンティティ確率を乗じた値と、の各々に対して、以下の式(12)を更に乗じてもよい。そして、得点算出部113は、例えば、上記により算出された4つの値を加算して対数を求めることで、得点を算出する。
Figure 2020154753
上記の式(12)は、上記の計算に利用された百科事典ウェブページのサンプル数と、上記の計算に利用された検索結果ウェブページのサンプル数との割合を示す。
得点算出部113は、上記の計算に利用された百科事典ウェブページのサンプル数の割合を、アンカーテキスト確率に対して第1エンティティ確率を乗じた値と、非アンカーテキスト確率に対して第2エンティティ確率を乗じた値と、の各々に対して更に乗じ、上記の計算に利用された検索結果ウェブページのサンプル数の割合を、エンティティテキストクリック確率に対して第3エンティティ確率を乗じた値と、非エンティティテキストクリック確率に対して第4エンティティ確率を乗じた値と、の各々に対して更に乗じ、算出された4つの値を加算することで、得点に重み付けを行う。
図1に戻り、所在情報取得部114は、記憶部120に記憶されたコンテンツ情報D2を参照して、ウェブサーバ300から受信したクエリに対応するエンティティを取得する。所在情報取得部114は、受信したクエリと合致するテキストデータに所定の閾値以上の得点が関連付けられている場合、当該テキストデータに関連付けられているエンティティを、当該クエリに対応するエンティティとして判定する。所在情報取得部114は、ナレッジグラフD1に基づいて、判定したエンティティに関連付けられている所在情報を取得する。その後、所在情報取得部114は、取得した所在情報をウェブサーバ300に送信する。
このように、所在情報取得部114は、ウェブサーバ300からクエリを受信した場合、クエリに対応するテキストデータを特定する。このとき、クエリとテキストデータとが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するテキストデータとみなしてよい。
<1−7.ナレッジデータサーバ100の動作>
以下、ナレッジデータサーバ100の動作について説明する。図11は、本実施形態のナレッジデータサーバ100の得点を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、得点算出対象の対象テキストデータを選択する(S100)。次に、収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ、検索結果ウェブページ、検索結果ページのクリックログ)を収集する(S102)。次に、得点算出部113は、関連ウェブページが百科事典ウェブページの場合における得点を算出する(S104)。
次に、得点算出部113は、関連ウェブページが検索結果ウェブページの場合における得点を算出する(S106)。次に、得点算出部113は、関連ウェブページ毎の重み付けを行い、最終的な得点を算出し(S108)、算出した得点をコンテンツ情報D2に関連付けて記憶部120に記憶させる。以上により、本フローチャートの処理が終了する。
図12は、本実施形態のナレッジデータサーバ100の得点に基づく動作の一例を示す流れ図である。所在情報取得部114は、ウェブサーバ300からクエリを受信する(S200)。次に、所在情報取得部114は、コンテンツ情報D2のうち、クエリと合致する対象テキストデータに関連付けられている得点を読み出す(S202)。次に、所在情報取得部114は、得点が所定の閾値以上であるかを判定する(S204)。所在情報取得部114は、得点が所定の閾値以上である場合、ナレッジグラフD1においてテキストデータに関連付けられているエンティティの所在情報をウェブサーバ300に送信(出力)する(S206)。また、所在情報取得部114は、得点が所定の閾値未満である場合、ウェブサーバ300に所在情報を送信(出力)しない(S208)。以上により、本フローチャートの処理が終了する。
以上、説明したように、本実施形態のナレッジデータサーバ100は、評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第1種類のウェブページの情報を収集する収集部112と、前記第1種類のウェブページにおいて、前記対象テキストデータと関連付けられた第1サービスへのリンク先が選択された回数に関する第1指標値と、前記対象テキストデータと関連付けられた第2サービスへのリンク先が選択された回数に関する第2指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う評価部(得点算出部113)と、を備える情報処理装置。これによって、本実施形態のナレッジデータサーバ100は、エンティティとキーワードとの関係を適切に評価することができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
100…ナレッジデータサーバ
110…制御部
111…選択部
112…収集部
113…得点算出部
114…所在情報取得部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…コンテンツ情報

Claims (10)

  1. 評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第1種類のウェブページの情報を収集する収集部と、
    前記第1種類のウェブページにおいて、前記対象テキストデータと関連付けられた第1サービスへのリンク先が選択された回数に関する第1指標値と、前記対象テキストデータと関連付けられた第2サービスへのリンク先が選択された回数に関する第2指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う評価部と、
    を備える情報処理装置。
  2. 前記評価部は、前記第1サービスへのリンク先が選択された回数が大きくなるにつれて、前記対象テキストデータと前記エンティティとの関連度が低くなると判定する、
    請求項1に記載の情報処理装置。
  3. 前記第1サービスは、辞書のウェブページを提供するサービスである、
    請求項1または2に記載の情報処理装置。
  4. 前記第2サービスは、百科事典のウェブページを提供するサービスである、
    請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記収集部は、前記対象テキストデータに関連する情報を表示する第2種類の関連ウェブページを収集し、
    前記評価部は、前記収集部によって収集された前記第2種類の関連ウェブページにおいて、前記対象テキストデータと関連付けられるエンティティが前記第2サービスへのリンク先を示すテキストとして含まれる確率に関する第3指標値に基づいて、前記評価を行う、
    請求項1から4のいずれか一項に記載の情報処理装置。
  6. 前記評価部は、前記第2種類の関連ウェブページにおける前記テキストにより示される前記第2サービスへのリンク先にあるウェブページが、前記対象テキストデータと関連付けられるエンティティのウェブページである確率に関する第4指標値に基づいて、前記評価を行う、
    請求項5に記載の情報処理装置。
  7. 前記評価部による評価結果を参照し、クエリに対して、エンティティに関する情報を出力すべきか否かを判定する判定部を更に備える、
    請求項1から請求項6のいずれか一項に記載の情報処理装置。
  8. 前記評価部は、前記対象テキストデータに対応するエンティティの得点を算出し、
    前記判定部は、前記得点が所定の閾値以上である場合、当該得点が関連付けられたエンティティの情報を出力し、前記得点が所定の閾値より小さい場合、当該得点が関連付けられたエンティティの情報を出力しないように判定する、
    請求項7に記載の情報処理装置。
  9. コンピュータが、
    評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第1種類のウェブページの情報を収集し、
    前記第1種類のウェブページにおいて、前記対象テキストデータと関連付けられた第1サービスへのリンク先が選択された回数に関する第1指標値と、前記対象テキストデータと関連付けられた第2サービスへのリンク先が選択された回数に関する第2指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行う、
    情報処理方法。
  10. コンピュータに、
    評価対象である対象テキストデータをクエリとして用いた場合の検索結果を表示する第1種類のウェブページの情報を収集させ、
    前記第1種類のウェブページにおいて、前記対象テキストデータと関連付けられた第1サービスへのリンク先が選択された回数に関する第1指標値と、前記対象テキストデータと関連付けられた第2サービスへのリンク先が選択された回数に関する第2指標値とに基づいて、前記対象テキストデータに関連付けられるエンティティの評価を行わせる、
    プログラム。
JP2019052814A 2019-03-20 2019-03-20 情報処理装置、情報処理方法、およびプログラム Active JP7078569B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019052814A JP7078569B2 (ja) 2019-03-20 2019-03-20 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019052814A JP7078569B2 (ja) 2019-03-20 2019-03-20 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020154753A true JP2020154753A (ja) 2020-09-24
JP7078569B2 JP7078569B2 (ja) 2022-05-31

Family

ID=72559181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019052814A Active JP7078569B2 (ja) 2019-03-20 2019-03-20 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7078569B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189047A1 (en) * 2014-12-30 2016-06-30 Yahoo! Inc. Method and System for Entity Linking

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189047A1 (en) * 2014-12-30 2016-06-30 Yahoo! Inc. Method and System for Entity Linking

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"ウェブ検索クエリに対する教師なしエンティティリンキング", 言語処理学会第24回年次大会 発表論文集, JPN6021044282, 5 March 2018 (2018-03-05), ISSN: 0004634925 *
"ウェブ検索ログとWikipedia内部リンクを用いたエンティティの曖昧性解消", 言語処理学会第21回年次大会 発表論文集, JPN6021044281, 9 March 2015 (2015-03-09), ISSN: 0004634924 *

Also Published As

Publication number Publication date
JP7078569B2 (ja) 2022-05-31

Similar Documents

Publication Publication Date Title
AU2009347535B2 (en) Co-selected image classification
JP6906419B2 (ja) 情報提供装置、情報提供方法、およびプログラム
US7729901B2 (en) System for classifying words
US7836010B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
JP4908422B2 (ja) リンクベースのスパム検出
US8639687B2 (en) User-customized content providing device, method and recorded medium
US20130024448A1 (en) Ranking search results using feature score distributions
US20120016857A1 (en) System and method for providing search engine optimization analysis
US10423672B2 (en) Network resource-specific search assistance
Ramanayaka et al. Application of webometrics techniques for measuring and evaluating visibility of university library websites in Sri Lanka
JP6164436B1 (ja) ウェブページ解析装置、ウェブページ解析方法、及びプログラム
US20130268833A1 (en) Apparatus and method for visualizing hyperlinks using color attribute values
JP2011100350A (ja) 要約生成装置、要約生成方法および要約生成プログラム
JP7078569B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6971104B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6971209B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2008225957A (ja) 文書検索装置、方法、及びプログラム
JP6982520B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6971210B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7088693B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111222918A (zh) 关键词挖掘方法、装置、电子设备及存储介质
JP7183077B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7354019B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7197531B2 (ja) 情報処理装置、情報処理システム、情報処理方法、およびプログラム
Al-Abdullatif et al. Using online hotel customer reviews to improve the booking process

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220519

R150 Certificate of patent or registration of utility model

Ref document number: 7078569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350