JP6982520B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6982520B2
JP6982520B2 JP2018041087A JP2018041087A JP6982520B2 JP 6982520 B2 JP6982520 B2 JP 6982520B2 JP 2018041087 A JP2018041087 A JP 2018041087A JP 2018041087 A JP2018041087 A JP 2018041087A JP 6982520 B2 JP6982520 B2 JP 6982520B2
Authority
JP
Japan
Prior art keywords
information
entity
alias
word
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018041087A
Other languages
English (en)
Other versions
JP2019159404A (ja
Inventor
智輝 齋藤
樹生 豊田
真也 夜久
正樹 野口
宏希 岩澤
健 萩原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018041087A priority Critical patent/JP6982520B2/ja
Publication of JP2019159404A publication Critical patent/JP2019159404A/ja
Application granted granted Critical
Publication of JP6982520B2 publication Critical patent/JP6982520B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
従来、ウェブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている。クローラは、ウェブページ中のリンクを辿って、様々なIPアドレスのウェブページからデータを収集する。クローラによって収集されたデータは、ウェブ情報データベースに蓄積される。一方、検索エンジンは、ユーザによって入力された検索ワード(以下、「検索クエリ」とも言う)を受信すると、受信した検索ワードに関連するウェブページやアプリページの情報(例えば、URL:Uniform Resource Locator)をウェブ情報データベースから取得し、取得した情報の一覧を検索結果として出力する。
検索エンジンは、ユーザ満足度を向上させるため、ユーザによって入力された検索クエリに関連するデータを検索結果とともに出力するように運用されている場合がある。これを実現するために、テキストデータとエンティティとを互いに対応付けて記憶したデータベースが用いられる場合がある(特許文献1参照)。データベースにおいて、ある特定のエンティティと対応付けられているテキストデータが検索クエリとして入力されると、その特定のエンティティが検索結果とともに出力される。
特開2017−76403号公報
ユーザによって入力される検索クエリは、エンティティの正式名称以外に、該エンティティのあだ名(ニックネーム)、略称、通称、自称などの別名を含む場合がある。これらの別名とエンティティとが対応付けられていない場合、エンティティに関する情報が取得できず、或いはユーザが意図しない不適切なエンティティに関する情報が取得されて検索結果とともに出力される場合がある。
本発明は、このような事情を考慮してなされたものであり、エンティティと関連付けされた別名情報を収集することが可能な情報処理装置、情報処理方法、およびプログラムを提供することを目的の一つとする。
本発明の一態様は、ウェブページのリダイレクト情報を収集する収集部と、前記収集部により収集された前記リダイレクト情報に基づいて、第1エンティティの名前を示す第1ワードに関連付けられた第1ページへのリダイレクト元である、第2ページに関連付けされた第2ワードを、前記第1エンティティの別名情報として抽出する抽出部とを備える情報処理装置である。
本発明の一態様によれば、エンティティと関連付けされた別名情報を収集することができる。
本実施形態に係るナレッジデータサーバの使用環境及び構成を示す図である。 本実施形態に係るナレッジグラフの一例を示す図である。 本実施形態に係る「野球選手A」のウェブページの一例を示す図である。 本実施形態に係る検索結果ウェブページの一例を示す図である。 本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。 本実施形態における百科事典ウェブページのリダイレクト情報の一例を示す図である。 本実施形態における別名情報の一例を示す図である。 本実施形態における収集部により収集された百科事典ウェブページの一例を示す図である。 本実施形態における非同義語除去部による除去処理の一例を説明する図である。 本実施形態における非同義語除去部による除去処理の他の例を説明する図である。 本実施形態のナレッジデータサーバのリダイレクト情報に基づく別名情報抽出動作の一例を示す流れ図である。 本実施形態のナレッジデータサーバの誘導情報に基づく別名情報抽出動作の一例を示す流れ図である。 本実施形態のナレッジデータサーバの別名情報の非同義語除去動作の一例を示す流れ図である。 本実施形態のナレッジデータサーバのオンライン動作の一例を示す流れ図である。
以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。本実施形態においては、情報処理装置が、ナレッジデータサーバの一部を構成するものとして説明する。ナレッジデータサーバは、例えば、収集対象データ(例えば、画像やテキストデータ)を収集し、収集したデータに基づいてナレッジグラフを生成するサーバである。本実施形態において、ナレッジグラフは、エンティティやクラス、プロパティと、エンティティに関連する関連データが記載されているウェブページの所在情報とが関連付けられたデータである。エンティティとは、例えば、ある対象事物の実体(例えば、実世界で存在している物体)を表していてもよいし、ある対象事物の概念(例えば、実世界または仮想世界の中で定義された概念)を表していてもよい。例えば、対象事物が「建物」という概念である場合、エンティティは、「○○塔」や「○○ビルディング」などといった実体を表してよい。また、例えば、対象事物が「経済学」という概念である場合、エンティティは、「ミクロ経済学」や「マクロ経済学」などといった実体のない抽象的な概念を表してよい。以下、実施形態について詳細に説明する。
<実施形態>
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
端末装置200は、ユーザによって使用される装置であり、例えば、スマートフォンなどの携帯電話、タブレット型コンピュータ、ノート型コンピュータ、デスクトップ型コンピュータなどである。ウェブサーバ300は、検索エンジンを用いて検索結果を表示するためのウェブページを生成し、端末装置200に提供するサーバである。
ナレッジデータサーバ100は、例えば、制御部110と、記憶部120とを備える。記憶部120は、例えば、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置などにより実現される。また、記憶部120の一部または全部は、NAS(Network Attached Storage)や外部のストレージサーバなど、ナレッジデータサーバ100がアクセス可能な外部装置であってもよい。記憶部120には、例えば、ナレッジグラフD1と、別名情報D2とが記憶される。
図2は、本実施形態に係るナレッジグラフD1の一例を示す図である。ナレッジグラフD1において記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。
クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。上位のクラスの性質は、下位のクラスに継承される。上述した例では、「鳥」というクラスの、「くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている」という性質は、「ペンギン」や「ダチョウ」という下位のクラスの性質にも含まれることになる。クラスを識別するためのクラス名は、例えば、「鳥」というクラスであれば、そのクラス名は「鳥」という文字列によって表されてよい。なお、クラス名は、必ずしも意味を表している必要はなく、例えば、「鳥」というクラスであっても、「情報1」や「C1」といった単なる識別情報を示す文字列が割り当てられてもよい。上述したエンティティ、すなわち事物は、オントロジーにより定義されたクラス体系の中に含まれる、いずれかのクラスに属するものとする。
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「〜を体の構成要素としてもつ」という性質や、「〜に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。
ナレッジグラフD1は、上述したクラスがノードとして表され、上述したプロパティがラベル付き、且つ方向性のあるエッジとして表された有向グラフである。このようなグラフ構造によって、事物についての情報がノードにより、事物間の関係がエッジによって判別可能となる。
図2示される例のナレッジグラフD1は、エンティティE1と、エンティティE2とが、「所属チーム」というプロパティ名のクラスに属する。本実施形態において、各エンティティには、各エンティティを識別することが可能な情報(以下、エンティティ識別情報EID)と、エンティティ名と、当該エンティティのウェブページの所在情報とが関連付けられる。所在情報とは、ウェブ上の位置を特定するための情報であり、例えば、URLである。所在情報が示すウェブページには、当該エンティティの関連データが記載されている。図2に示すナレッジグラフD1において、エンティティE1には、エンティティ識別情報EIDの「0001」と、エンティティ名の「野球選手A」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/野球選手A」というURLとが対応付けられている。また、エンティティE2には、エンティティ識別情報EIDの「0002」と、エンティティ名「野球チームB」と、当該エンティティに関連する関連データが記載されているウェブページの所在情報である「http://百科事典ウェブページ/野球チームB」というURLとが対応付けられている。以降の説明において、エンティティに関連する関連データをエンティティの関連データと記載する。また、エンティティの関連データが記載されているウェブページを、エンティティのウェブページとも記載する。
図3は、本実施形態に係る「野球選手A」のウェブページの一例を示す図である。「野球選手A」のウェブページには、「野球選手A」の関連データが記載されている。
<1−2.検索結果ウェブページ>
図4は、本実施形態に係る検索結果ウェブページの一例を示す図である。図4に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、検索クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページに検索クエリを入力する。検索クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力された検索クエリをウェブサーバ300に送信する。
ウェブサーバ300は、端末装置200から受信した検索クエリをナレッジデータサーバ100に送信する。ナレッジデータサーバ100は、受信した検索クエリに対応するエンティティに関連する情報をウェブサーバ300に送信する。ナレッジデータサーバ100は、例えば、ナレッジグラフD1に基づいて、受信した検索クエリと関連付けされたエンティティに対応付けられた所在情報をウェブサーバ300に送信する。ウェブサーバ300は、受信した所在情報に基づいて、当該所在情報が示すウェブページのうち、エンティティの関連データを抽出する。ウェブサーバ300は、抽出したエンティティの関連データ(この一例では、ナレッジパネル220に示す情報)を含めた検索結果ウェブページを生成する。
図4に示される例においては、検索クエリとして「野球選手A」が入力され、ナレッジパネル220には「野球選手A」に関連する画像や様々な情報が表示されている。ナレッジパネル220には、例えば、「野球選手A」の画像222や、「野球選手A」の生年月日や出身地等の関連情報223が表示される。このように、検索結果230だけでなく、ナレッジパネル220を表示部210に表示することで、検索結果に対するユーザ満足度を向上させることができる。
<1−3.ナレッジデータサーバ100の構成>
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、通信I/F(Interface)111と、収集部112と、リダイレクト情報抽出部113(抽出部)と、誘導情報抽出部114(抽出部)と、非同義語除去部115(除去部)と、所在情報取得部116とを備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F111は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、クロール対象機器DV)、端末装置200、及びウェブサーバ300)との通信を仲介する。
収集部112は、所定のウェブページに関する収集対象データを、ネットワークNWを介してクロール対象機器DVから収集する。収集部112による収集処理の対象となるウェブページとは、例えば、利用者によって編集可能な百科事典のウェブページ(以下、百科事典ウェブページ)である。
収集部112は、いわゆるクローラプログラムにより実現される。収集対象データは、ネットワークNW上(クロール対象機器DVの記憶領域内)にあり、ブラウザで閲覧可能なデータである。なお、収集対象データは、ブラウザに限らず、アプリケーションプログラムによって再生されるデータであってもよい。収集対象データは、例えば、HTML(HyperText Markup Language)のソースを示すテキストデータを含むウェブページである。収集部112は、百科事典ウェブページのうち、例えば、ナジッレグラフD1に含まれるエンティティのそれぞれの名前と対応するテキストデータが記載されたウェブページが存在する場合、そのすべてを収集する。
また、収集対象データは、例えば、百科事典ウェブページに関するリダイレクト情報である。図5は、本実施形態における百科事典ウェブページのリダイレクト処理の一例を説明する図である。図6は、本実施形態における百科事典ウェブページのリダイレクト情報の一例を示す図である。例えば、百科事典ウェブページにおいて、ユーザが端末装置200を操作して「野球選手A」の別名である「別名a」を検索クエリとして入力した場合、端末装置200には入力された「別名a」と関連付けされたウェブページP1は表示されることなく、「野球選手A」と関連付けされたウェブページP2へのリダイレクト(転送)が行われ、端末装置200にはこのウェブページP2が表示される。すなわち、ウェブページP1はリダイレクト元のページであり、リダイレクト先のページとしてウェブページP2が設定されたページ(リダイレクト先としてウェブページP2のURLが設定された転送用ページ)である。図6に示されるように、リダイレクト情報は、上記のようなリダイレクト元のページと関連付けされたワードと、リダイレクト先のページと関連付けされたワードとが対応付けされたリストを含む。図6には、例えば、リダイレクト元のワード「別名a」と、リダイレクト先のワード「野球選手A」とが対応付けされたデータが含まれる。
尚、収集部112によるクロール処理を行わずに、例えば、ナレッジデータサーバ100の運用担当者が運用端末のブラウザを操作して手動で収集対象データを収集し、ナレッジデータサーバ100に設けられた入力部(図示しない)を介して収集対象データを入力するようにしてもよい。
リダイレクト元のワードは、リダイレクト先のワードの同義語であり、これら2つのワードは同一のエンティティを示していることが想定される。すなわち、リダイレクト元のワードは、リダイレクト先のワードの別名であることが想定される。このため、リダイレクト情報抽出部113は、収集部112により収集された収集対象データに含まれるリダイレクト情報から、リダイレクト元のワードおよびリダイレクト先のワードを抽出し、リダイレクト元のワードを、リダイレクト先のワードの別名として、別名情報D2に登録する。図7は、本実施形態における別名情報D2の一例を示す図である。図7に示される例では、エンティティである「野球選手A」の別名1として「別名a」、別名2として「別名b」、別名3として「別名c」が登録されている。
誘導情報抽出部114は、収集部112により収集された収集対象データに含まれる百科事典ウェブページのHTMLのソースを示すテキストデータから誘導情報を取得し、抽出した誘導情報に基づいて別名情報を抽出し、別名情報D2に登録する。図8は、本実施形態における収集部112により収集された百科事典ウェブページの一例を示す図である。図8に示される百科事典ウェブページは、「キャラクタC」と関連付けされたページであり、「キャラクタC(アニメ)」および「キャラクタC(テレビドラマ)」のそれぞれと関連付けされたページへの誘導情報を含んでいる。これらの「キャラクタC(アニメ)」および「キャラクタC(テレビドラマ)」はいずれもエンティティとなりうるものである。この場合、「キャラクタC」のワードは、エンティティテとしての「キャラクタC(アニメ)」および「キャラクタC(テレビドラマ)」の別名(例えば、略称)である可能性がある。そこで、誘導情報抽出部114は、あるウェブページと関連付けされたワード(図8に示される例では「キャラクタC」)を、該ウェブページに含まれる誘導情報に含まれるワード(図8に示される例では「キャラクタC(アニメ)」および「キャラクタC(テレビドラマ)」)の別名として、別名情報D2に登録する。
非同義語除去部115は、リダイレクト情報抽出部113および誘導情報抽出部114の少なくとも1つにより抽出されて記憶部120に記憶された別名情報D2における非同義語の除去処理(クレンジング)を行う。リダイレクト情報抽出部113および誘導情報抽出部114により抽出されたワードは、エンティティの別名ではない(同義関係ではない)ワードを含む可能性がある。そこで、非同義語除去部115は、別名情報D2のうち、所定の条件を満たす別名のみを残し、その他の別名は除去することで、データのクレンジングを行う。非同義語除去部115は、例えば、あるエンティティを示す名前(以下、エンティティ名)と関連付けられたウェブページ(例えば、百科事典ウェブページ)において、所定のキーワードを含む一文に含まれている別名は残し、その他の別名は除去する。所定のキーワードとは、別名の記載の存在を示唆するワードである。所定のキーワードとは、例えば、「自称」、「通称」、「別名」、「略称」などの名詞のキーワードや、「呼ばれる」、「称する」、「とも言う」などの文末などに現れるキーワードである。
図9は、本実施形態における非同義語除去部115による除去処理の一例を説明する図である。図9に示される例において、非同義語除去部115は、「略称」というキーワードを含む一文「略称は別名b。」に含まれる「別名b」は別名情報D2に残すように処理を行う。また、非同義語除去部115は、「呼ばれる」というキーワードを含む一文「野球選手Aは、別名cと呼ばれることもある。」に含まれる「別名c」は別名情報D2に残すように処理を行う。
また、非同義語除去部115は、例えば、あるエンティティ名と関連付けられたウェブページ(例えば、百科事典ウェブページ)において、このエンティティ名の言い換え表現として示されるワードに含まれている別名は残し、その他の別名は除去する。図10は、本実施形態における非同義語除去部115による除去処理の他の例を説明する図である。図10に示される例において、非同義語除去部115は、「リンゴ酸」の後に括弧書きで記載されたワードである「林檎酸」、「リンゴさん」、「malic acid」は別名情報D2に残すように処理を行う。尚、所在情報取得部116は、百科事典ウェブページ以外に、ニュースページなどの様々なページを上記の除去処理に利用してもよい。
図1に戻り、所在情報取得部116は、ナレッジグラフD1および別名情報D2に基づいて、ウェブサーバ300から受信した検索クエリに対応するエンティティに対応付けられている所在情報を取得する。所在情報取得部116は、ナレッジグラフD1に含まれるエンティティ名の中に、受信した検索クエリと合致するエンティティ名が存在するか否かを判定する。所在情報取得部116は、受信した検索クエリと合致するエンティティ名が存在すると判定した場合、該エンティティに対応付けられている所在情報を取得する。また、所在情報取得部116は、受信した検索クエリと合致するエンティティ名がナレッジグラフD1に存在しないと判定した場合、別名情報D2に別名として登録されている別名の中に、受信した検索クエリと合致する別名が存在するか否かを判定する。所在情報取得部116は、受信した検索クエリと合致する別名が別名情報D2に存在すると判定した場合、該別名と関連付けられたエンティティに対応付けられている所在情報を取得する。このとき、検索クエリと、エンティティ名または別名とが完全一致する場合だけでなく、部分一致または意味的に同一とみなされる程度の相違がある場合も、対応するエンティティ名または別名とみなしてよい。
次に、所在情報取得部116は、取得した所在情報をウェブサーバ300に送信する。所在情報取得部116は、受信した検索クエリと合致するエンティティおよび別名が存在しないと判定した場合、所在情報が存在しない旨を示す情報をウェブサーバ300に送信する。
<1−4.リダイレクト情報に基づく別名情報抽出動作>
図11は、本実施形態のナレッジデータサーバ100のリダイレクト情報に基づく別名情報抽出動作の一例を示す流れ図である。ナレッジデータサーバ100は、例えば、日次、週次等の任意のタイミングで実施されるバッチ処理により別名情報抽出動作を行う。
まず、収集部112は、例えば、百科事典ウェブページに関するリダイレクト情報を、ネットワークNWを介してクロール対象機器DVから収集する(S10)。
次に、リダイレクト情報抽出部113は、収集部112により収集されたリダイレクト情報から、リダイレクト元のワードおよびリダイレクト先のワードを抽出する(S12)。次に、リダイレクト情報抽出部113は、抽出したワードのうち、リダイレクト元のワードを、リダイレクト先のワードの別名として、別名情報D2に登録する(S14)。以上により、本フローチャートの処理を終了する。
<1−5.誘導情報に基づく別名情報抽出動作>
図12は、本実施形態のナレッジデータサーバ100の誘導情報に基づく別名情報抽出動作の一例を示す流れ図である。ナレッジデータサーバ100は、例えば、日次、週次等の任意のタイミングで実施されるバッチ処理により別名情報抽出動作を行う。
まず、収集部112は、例えば、ナレッジグラフD1に含まれるエンティティ名のそれぞれと関連付けられた百科事典ウェブページのHTMLのソースを示すテキストデータを、ネットワークNWを介してクロール対象機器DVから収集する(S20)。
次に、誘導情報抽出部114は、収集部112により収集された百科事典ウェブページのHTMLのソースを示すテキストデータから誘導情報を取得し、取得した誘導情報に基づいて別名情報を抽出する(S22)。次に、誘導情報抽出部114は、百科事典ウェブページと関連付けされたワードを、該百科事典ウェブページに含まれる誘導情報に含まれるワードの別名として、別名情報D2に登録する(S24)。以上により、本フローチャートの処理を終了する。
<1−6.別名情報のクレンジング動作>
図13は、本実施形態のナレッジデータサーバ100の別名情報の非同義語除去動作の一例を示す流れ図である。ナレッジデータサーバ100は、例えば、日次、週次等の任意のタイミングで実施されるバッチ処理により非同義語除去動作を行う。
まず、収集部112は、例えば、非同義語除去処理の対象とするエンティティ名と関連付けられた百科事典ウェブページのHTMLのソースを示すテキストデータを、ネットワークNWを介してクロール対象機器DVから収集する(S30)。
次に、非同義語除去部115は、別名情報D2から、上記のクレンジング処理の対象としたエンティティの別名情報を抽出する(S32)。次に、非同義語除去部115は、抽出した別名が、収集部112により収集された百科事典ウェブページにおいて所定のキーワードを含む一文に含まれているか否かを判定する(S34)。非同義語除去部115は、抽出した別名が、所定のキーワードを含む一文に含まれていると判定した場合、この別名は適切なもの(エンティティの同義語である)であると判定して除去処理の対象とすることなく、本フローチャートの処理を終了する。
一方、非同義語除去部115は、抽出した別名が、所定のキーワードを含む一文に含まれていないと判定した場合、抽出した別名が、百科事典ウェブページにおいて上記のエンティティ名の言い換え表現として示されるワードに含まれているか否かを判定する(S36)。非同義語除去部115は、抽出した別名が、上記のエンティティ名の言い換え表現として示されるワードに含まれていると判定した場合、この別名は適切なもの(エンティティの同義語である)であると判定して除去処理の対象とすることなく、本フローチャートの処理を終了する。
一方、非同義語除去部115は、抽出した別名が、上記のエンティティを示す名前の言い換え表現として示されるワードに含まれていないと判定した場合、この別名は不適切なもの(エンティティの同義語ではない)と判定して、この別名を別名情報D2から除去する(S38)。以上により、本フローチャートの処理を終了する。
<1−7.オンライン動作>
図14は、本実施形態のナレッジデータサーバ100のオンライン動作の一例を示す流れ図である。まず、所在情報取得部116は、ウェブサーバ300から検索クエリを受信する(S40)。
次に、所在情報取得部116は、ナレッジグラフD1に含まれるエンティティ名の中に、受信した検索クエリと合致するエンティティ名が存在するか否かを判定する(S42)。所在情報取得部116は、受信した検索クエリと合致するエンティティ名が存在すると判定した場合、該エンティティに対応付けられている所在情報を取得し、ウェブサーバ300に送信し(S44)、本フローチャートの処理を終了する。
一方、所在情報取得部116は、受信した検索クエリと合致するエンティティ名がナレッジグラフD1に存在しないと判定した場合、別名情報D2に別名として登録されている別名の中に、受信した検索クエリと合致する別名が存在するか否かを判定する(S46)。所在情報取得部116は、受信した検索クエリと合致する別名が別名情報D2に存在すると判定した場合、該別名と関連付けられたエンティティに対応付けられている所在情報を取得し、ウェブサーバ300に送信し(S44)、本フローチャートの処理を終了する。
一方、所在情報取得部116は、受信した検索クエリと合致する別名が存在しないと判定した場合、所在情報が存在しない旨を示す情報をウェブサーバ300に送信し(S48)、本フローチャートの処理を終了する。
以上、説明したように、本実施形態のナレッジデータサーバ100は、ウェブページのリダイレクト情報を収集する収集部112と、前記収集部112により収集された前記リダイレクト情報に基づいて、第1エンティティの名前を示す第1ワードに関連付けられた第1ページへのリダイレクト元である、第2ページに関連付けされた第2ワードを、前記第1エンティティの別名情報として抽出するリダイレクト情報抽出部113とを備えるこれによって、エンティティと関連付けされた別名情報を収集することができる。
また、本実施形態のナレッジデータサーバ100は、第1エンティティの名前を示す第1ワードに関連付けられた第1ページを収集する収集部112と、前記収集部112により収集された前記第1ページに第2ページへの誘導情報がある場合、前記第1ワードを、前記第2ページに関連付けられた第2ワードにより示される第2エンティティの別名情報として抽出する誘導情報抽出部114とを備えるこれによって、エンティティと関連付けされた別名情報を収集することができる。
また、本実施形態のナレッジデータサーバ100によれば、エンティティの別名情報を収集し、エンティティ名と別名とを同義語として総合的に管理することで、エンティティを適切に評価することができる。例えば、エンティティの検索数の実績値に応じて検索結果ページ内での表示位置を変更するような制御(ランキング)を行っている場合には、エンティティ名および別名の双方に対する検索結果に基づいてより正確な制御を行うことができる。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
100…ナレッジデータサーバ
110…制御部
111…通信I/F
112…収集部
113…リダイレクト情報抽出部
114…誘導情報抽出部
115…非同義語除去部
116…所在情報取得部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…別名情報
R1…リダイレクト情報

Claims (7)

  1. 第1ワードによって名前が示される第1エンティティの別名である第2ワードが検索クエリとして入力された場合、リダイレクトによって前記第1エンティティの関連データを記載する第1ページが表示されるように動作するウェブページのリダイレクト情報を収集する収集部と、
    前記収集部により収集された前記リダイレクト情報に基づいて、前記第2ワードを前記第1エンティティの別名情報として抽出する抽出部と、
    を備える情報処理装置。
  2. 前記別名情報のうち、所定の条件を満たさないワードを除去する除去部をさらに備える、
    請求項に記載の情報処理装置。
  3. 前記除去部は、前記第1エンティティの名前を示す前記第1ワードと関連付けられたウェブページにおいて、別名に関する情報の存在を示唆するキーワードが含まれる一文に含まれていないワードを除去する、
    請求項に記載の情報処理装置。
  4. 前記除去部は、前記第1エンティティの名前を示す前記第1ワードと関連付けられたウェブページにおいて、前記第1エンティティの名前の言い換え表現として示されるワードに含まれていないワードを除去する、
    請求項またはに記載の情報処理装置。
  5. 検索ワードと合致するワードが前記別名情報に含まれている場合、前記ワードと関連付けられたエンティティに対応付けられている所在情報を取得する取得部をさらに備える、
    請求項1からのいずれか一項に記載の情報処理装置。
  6. コンピュータが、
    第1ワードによって名前が示される第1エンティティの別名である第2ワードが検索クエリとして入力された場合、リダイレクトによって前記第1エンティティの関連データを記載する第1ページが表示されるように動作するウェブページのリダイレクト情報を収集し、
    収集された前記リダイレクト情報に基づいて、前記第2ワードを、前記第1エンティティの別名情報として抽出する、
    情報処理方法。
  7. コンピュータに、
    第1ワードによって名前が示される第1エンティティの別名である第2ワードが検索クエリとして入力された場合、リダイレクトによって前記第1エンティティの関連データを記載する第1ページが表示されるように動作するウェブページのリダイレクト情報を収集させ、
    収集された前記リダイレクト情報に基づいて、前記第2ワードを、前記第1エンティティの別名情報として抽出させる、
    プログラム。
JP2018041087A 2018-03-07 2018-03-07 情報処理装置、情報処理方法、およびプログラム Active JP6982520B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018041087A JP6982520B2 (ja) 2018-03-07 2018-03-07 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018041087A JP6982520B2 (ja) 2018-03-07 2018-03-07 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019159404A JP2019159404A (ja) 2019-09-19
JP6982520B2 true JP6982520B2 (ja) 2021-12-17

Family

ID=67996245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018041087A Active JP6982520B2 (ja) 2018-03-07 2018-03-07 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6982520B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7462198B1 (ja) 2023-06-13 2024-04-05 株式会社コンテンシャル キーワード収集方法、情報処理装置およびプログラム

Also Published As

Publication number Publication date
JP2019159404A (ja) 2019-09-19

Similar Documents

Publication Publication Date Title
JP6906419B2 (ja) 情報提供装置、情報提供方法、およびプログラム
KR101060594B1 (ko) 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
US8255414B2 (en) Search assist powered by session analysis
US10216831B2 (en) Search results summarized with tokens
US10423672B2 (en) Network resource-specific search assistance
US20130030788A1 (en) System and method for locating bilingual web sites
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
CN107690634A (zh) 自动查询模式生成
JP6982520B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7003020B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6106489B2 (ja) 語義解析装置、及びプログラム
JP6971104B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5228529B2 (ja) データ検索プログラム、データ検索装置およびデータ検索方法
JP6971209B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7088693B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7078569B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2021140246A (ja) 情報処理装置、情報処理方法、およびプログラム
JP7183077B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6971210B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6985189B2 (ja) データ収集装置、データ収集方法、およびプログラム
JP6998282B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6960289B2 (ja) 情報処理装置、情報処理方法及びプログラム
Gunawan et al. Building the Pornography Corpus for Bahasa Indonesia Based on TRUST+™ Positif Database
JP6226314B2 (ja) 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム
Babaei et al. YAPPTCHA: Yet another picture promoted CAPTCHA with spam stopping, image labeling and SIFT accomplishment

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180405

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211119

R150 Certificate of patent or registration of utility model

Ref document number: 6982520

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250