JP2019153024A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2019153024A JP2019153024A JP2018037083A JP2018037083A JP2019153024A JP 2019153024 A JP2019153024 A JP 2019153024A JP 2018037083 A JP2018037083 A JP 2018037083A JP 2018037083 A JP2018037083 A JP 2018037083A JP 2019153024 A JP2019153024 A JP 2019153024A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- index value
- probability
- context
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 19
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000004364 calculation method Methods 0.000 claims abstract description 92
- 238000000034 method Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 description 16
- 230000014509 gene expression Effects 0.000 description 6
- 241000777300 Congiopodidae Species 0.000 description 4
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000002611 ovarian Effects 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 1
- 241000287486 Spheniscidae Species 0.000 description 1
- 241000272534 Struthio camelus Species 0.000 description 1
- 241000271567 Struthioniformes Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 210000003323 beak Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
図6は、本実施形態に係る検索結果ウェブページの一例を示す図である。図6に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、関連ページ収集部112と、第1確率算出部113(第1指標値算出部)と、コンテキスト収集部114と、第2確率算出部115(第2指標値算出部、頻度情報算出部)と、所在情報取得部116(判定部)と、通信I/F(Interface)117とを備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F117は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、クロール対象機器DV)、端末装置200、及びウェブサーバ300)との通信を仲介する。
第1確率算出部113は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト(アンカーテキスト)として含まれる確率を算出する。関連ウェブページには、対象テキストデータ(この一例では、「3000本安打」(図示するテキストTX11)と関連付けられたエンティティ(この一例では、「野球選手A」)を示すテキストデータ(図示するテキストTX12〜14)が含まれる。また、テキストTX12〜14のうち、テキストTX12は、アンカーテキストである。また、テキストTX12に付与された他のウェブページのリンクは、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。
第1確率算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「3000本安打」(図示するテキストTX21)であり、対象テキストデータと対応付けられたエンティティは、「野球選手A」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図8の例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。このうち、対象エンティティテキストデータ(この一例では、「野球選手A」)が含まれるのは、テキストTX22である。テキストTX22に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。つまり、テキストTX22が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストTX25が含まれてよい。
ここで、エンティティは、同一の文言であっても異なる事物を指す場合がある。図9は、同一の文言によって異なるエンティティのウェブページにリンクしている例を示す図である。図9に示される例において、テキストTX22は、「野球選手A」のウェブページ(例えば、図3)のリンク先を示す。これに対し、テキストTX26は、「野球選手A」同姓同名の野球選手であって、「野球選手A」とは異なる野球チームCに所属する選手のウェブページのリンク先を示す。第1確率算出部113は、式(2)において、テキストTX26がクリックされた場合もエンティティクリック確率に算入する。
また、第1確率算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。また、第1確率算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第2エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。そして、第1確率算出部113は、例えば、両者を加算して対数を求めることで、第1確率(スコア)を算出する。
図16は、本実施形態のナレッジデータサーバ100のオンライン動作の一例を示す流れ図である。まず、所在情報取得部116は、ウェブサーバ300からクエリを受信する(S10)。図17は、本実施形態のナレッジデータサーバ100のオンライン動作を説明する図である。図17に示される例では、「学者A」と、「物理学」との2つのワードを含むクエリを受信する例を示している。
以下、ナレッジデータサーバ100の第1オフライン動作について説明する。第1オフライン動作では、第1確率を算出する。図18は、本実施形態のナレッジデータサーバ100の第1確率を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、算出対象の対象テキストデータを選択する(S110)。次に、関連ページ収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ及び検索結果ウェブページ)を収集する(S120)。次に、第1確率算出部113は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する(S130)。
以下、ナレッジデータサーバ100の第2オフライン動作について説明する。第2オフライン動作では、第2確率を算出する。図19は、本実施形態のナレッジデータサーバ100の第2確率を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、算出対象の対象テキストデータを選択する(S210)。関連ページ収集部112は、対象テキストデータに基づいて、関連ウェブページを収集する。次に、コンテキスト収集部114は、関連ページ収集部112により収集された関連ウェブページに基づいて、コンテキストを収集する(S220)。
110…制御部
111…選択部
112…関連ページ収集部
113…第1確率算出部
114…コンテキスト収集部
115…第2確率算出部
116…所在情報取得部
117…通信I/F
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…コンテンツ情報
D3…コンテキスト情報
Claims (11)
- 検索クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出する第1指標値算出部と、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出する第2指標値算出部と、
前記第1指標値算出部により算出された前記第1指標値と、前記第2指標値算出部により算出された前記第2指標値とに基づいて、前記ワードと関連が高いエンティティを判定する判定部と
を備える情報処理装置。 - 前記第1指標値は、前記エンティティの名前として仮定された前記ワードのそれぞれが、複数の前記エンティティのそれぞれと関連付けられる確率であり、
前記第2指標値は、前記複数のエンティティのそれぞれが、前記コンテキストとして仮定された前記ワードのそれぞれと関連付けられる確率である、
請求項1に記載の情報処理装置。 - 前記判定部は、前記第1指標値と前記第2指標値との乗算値が大きいほど、前記エンティティの前記ワードと関連が高いと判定する、
請求項1または2に記載の情報処理装置。 - 前記判定部は、前記ワードのうち前記エンティティの名前に相当するワードと、前記ワードのうち前記コンテキストに相当するワードと、前記ワードと関連が高いエンティティと、を判定する、
請求項1から3のいずれか一項に記載の情報処理装置。 - 前記第2指標値算出部は、エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、前記第2指標値を算出する、
請求項1から4のいずれか一項に記載の情報処理装置。 - 前記エンティティと関連付けられるページのクリックログに基づいて、前記頻度情報を算出する頻度情報算出部をさらに備える、
請求項5に記載の情報処理装置。 - エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、検索クエリとして入力された2つ以上のワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す指標値を算出する算出部を備え、
前記特徴量は、前記コンテキストが前記グループに属する確率と、前記グループが前記エンティティに属する確率との乗算値である、
情報処理装置。 - コンピュータが、
検索クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出し、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出し、
前記第1指標値と、前記第2指標値とに基づいて、前記ワードと関連が高いエンティティを判定する、
情報処理方法。 - コンピュータが、
エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、検索クエリとして入力された2つ以上のワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す指標値を算出し、
前記特徴量は、前記コンテキストが前記グループに属する確率と、前記グループが前記エンティティに属する確率との乗算値である、
情報処理方法。 - コンピュータに、
検索クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出させ、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出させ、
前記第1指標値と、前記第2指標値とに基づいて、前記ワードと関連が高いエンティティを判定させる、
プログラム。 - コンピュータに、
エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、検索クエリとして入力された2つ以上のワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す指標値を算出させ、
前記特徴量は、前記コンテキストが前記グループに属する確率と、前記グループが前記エンティティに属する確率との乗算値である、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018037083A JP7088693B2 (ja) | 2018-03-02 | 2018-03-02 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018037083A JP7088693B2 (ja) | 2018-03-02 | 2018-03-02 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019153024A true JP2019153024A (ja) | 2019-09-12 |
JP7088693B2 JP7088693B2 (ja) | 2022-06-21 |
Family
ID=67946465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018037083A Active JP7088693B2 (ja) | 2018-03-02 | 2018-03-02 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7088693B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027841A (ja) * | 2010-07-27 | 2012-02-09 | Ricoh Co Ltd | 検索プログラム、検索装置、検索システム、検索方法及び記録媒体 |
CN105069086A (zh) * | 2015-07-31 | 2015-11-18 | 焦点科技股份有限公司 | 一种优化电子商务商品搜索的方法及系统 |
WO2016186856A1 (en) * | 2015-05-15 | 2016-11-24 | Google Inc. | Contextualizing knowledge panels |
-
2018
- 2018-03-02 JP JP2018037083A patent/JP7088693B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027841A (ja) * | 2010-07-27 | 2012-02-09 | Ricoh Co Ltd | 検索プログラム、検索装置、検索システム、検索方法及び記録媒体 |
WO2016186856A1 (en) * | 2015-05-15 | 2016-11-24 | Google Inc. | Contextualizing knowledge panels |
CN105069086A (zh) * | 2015-07-31 | 2015-11-18 | 焦点科技股份有限公司 | 一种优化电子商务商品搜索的方法及系统 |
Non-Patent Citations (2)
Title |
---|
江口浩二ほか: "多重多型トピックモデルを用いたアノテーション付きテキストからのエンティティ検索", 情報処理学会研究報告, vol. 2008, no. 56, JPN6021010972, 12 June 2008 (2008-06-12), pages 73 - 80, ISSN: 0004634552 * |
齋藤祐樹ほか: "意図推定に基づく検索結果の多様性の向上", 第7回データ工学と情報マネジメントに関するフォーラム (第13回日本データベース学会年次大会) [O, JPN6021010974, 30 March 2015 (2015-03-30), pages 1 - 6, ISSN: 0004634553 * |
Also Published As
Publication number | Publication date |
---|---|
JP7088693B2 (ja) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7809664B2 (en) | Automated learning from a question and answering network of humans | |
JP5340751B2 (ja) | 文書処理装置および文書処理方法 | |
CN110674317B (zh) | 一种基于图神经网络的实体链接方法及装置 | |
RU2664481C1 (ru) | Способ и система выбора потенциально ошибочно ранжированных документов с помощью алгоритма машинного обучения | |
WO2011134141A1 (en) | Method of extracting named entity | |
US20190188324A1 (en) | Enriching a knowledge graph | |
CN113515589B (zh) | 数据推荐方法、装置、设备以及介质 | |
CN115917529A (zh) | 生成标识在web文档中表达的主题之间的关系的图形数据结构 | |
JP2012079029A (ja) | サジェスチョンクエリ抽出装置及び方法、並びにプログラム | |
JP2007334590A (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP6145562B2 (ja) | 情報構造化システム及び情報構造化方法 | |
JP6196200B2 (ja) | ラベル抽出装置、ラベル抽出方法およびプログラム | |
Paananen | Comparative analysis of yandex and google search engines | |
JP6971104B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7088693B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7003020B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7183077B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971210B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6982520B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7354019B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971209B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5277090B2 (ja) | リンク作成支援装置、リンク作成支援方法およびプログラム | |
WO2019239543A1 (ja) | 質問応答装置、質問応答方法および記録媒体 | |
Ding | The development of ontology information system based on Bayesian network and learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220609 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7088693 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |