JP7183077B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7183077B2 JP7183077B2 JP2019036247A JP2019036247A JP7183077B2 JP 7183077 B2 JP7183077 B2 JP 7183077B2 JP 2019036247 A JP2019036247 A JP 2019036247A JP 2019036247 A JP2019036247 A JP 2019036247A JP 7183077 B2 JP7183077 B2 JP 7183077B2
- Authority
- JP
- Japan
- Prior art keywords
- entity
- word
- name
- probability
- index value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 14
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000004364 calculation method Methods 0.000 claims description 106
- 230000007704 transition Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 13
- 238000000034 method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 1
- 241000272534 Struthio camelus Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 210000003323 beak Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000017448 oviposition Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
<1-1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
図6は、本実施形態に係る検索結果ウェブページの一例を示す図である。図6に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、関連ページ収集部112と、第1確率算出部113(第1指標値算出部)と、コンテキスト抽出部114と、第2確率算出部115(第2指標値算出部)と、ログ収集部116と、第3確率算出部117(第3指標値算出部)と、所在情報取得部118(生起確率算出部)と、通信I/F(Interface)119とを備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F119は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、クロール対象機器DV)、端末装置200、及びウェブサーバ300)との通信を仲介する。
第1確率算出部113は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト(以下、「アンカーテキスト」)として含まれる確率を算出する。関連ウェブページには、対象テキストデータ(この一例では、「3000本安打」(図示するテキストTX11)と関連付けられたエンティティ(この一例では、「野球選手A」)を示すテキストデータ(図示するテキストTX12~14)が含まれる。また、テキストTX12~14のうち、テキストTX12は、アンカーテキストである。また、テキストTX12に付与された他のウェブページのリンクは、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。
第1確率算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「3000本安打」(図示するテキストTX21)であり、対象テキストデータと対応付けられたエンティティは、「野球選手A」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図8に示される例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22~24)が含まれる。このうち、対象エンティティテキストデータ(この一例では、「野球選手A」)が含まれるのは、テキストTX22である。テキストTX22に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。つまり、テキストTX22が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストTX25が含まれてよい。
ここで、エンティティは、同一の文言であっても異なる事物を指す場合がある。図9は、同一の文言によって異なるエンティティのウェブページにリンクしている例を示す図である。図9に示される例において、テキストTX22は、「野球選手A」のウェブページ(例えば、図3)のリンク先を示す。これに対し、テキストTX26は、「野球選手A」同姓同名の野球選手であって、「野球選手A」とは異なる野球チームCに所属する選手のウェブページのリンク先を示す。第1確率算出部113は、式(2)において、テキストTX26がクリックされた場合もエンティティクリック確率に算入する。
また、第1確率算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。また、第1確率算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第2エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。そして、第1確率算出部113は、例えば、両者を加算して対数を求めることで、第1確率(スコア)を算出する。
以下、ナレッジデータサーバ100の第1オフライン動作について説明する。第1オフライン動作では、第1確率を算出する。図18は、本実施形態のナレッジデータサーバ100の第1確率を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、算出対象の対象テキストデータを選択する(S110)。次に、関連ページ収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ及び検索結果ウェブページ)を収集する(S120)。次に、第1確率算出部113は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する(S130)。
以下、ナレッジデータサーバ100の第2オフライン動作について説明する。第2オフライン動作では、第2確率を算出する。図19は、本実施形態のナレッジデータサーバ100の第2確率を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、算出対象の対象テキストデータを選択する(S210)。関連ページ収集部112は、対象テキストデータに基づいて、関連ウェブページを収集する。次に、コンテキスト抽出部114は、関連ページ収集部112により収集された関連ウェブページに基づいて、コンテキストを収集する(S220)。
以下、ナレッジデータサーバ100の第3オフライン動作について説明する。第3オフライン動作では、第3確率を算出する。図21は、本実施形態のナレッジデータサーバ100の第3確率を算出する動作の一例を示す流れ図である。ログ収集部116は、ウェブサーバ300に記憶されている検索結果ウェブページのログ(例えば、クリックログ)を、ネットワークNWを介して収集する(S310)。
図22は、本実施形態のナレッジデータサーバ100のオンライン動作の一例を示す流れ図である。まず、所在情報取得部118は、ウェブサーバ300からクエリを受信する(S410)。例えば、所在情報取得部118は、「チームA」と、「野球」との2つのワードを含むクエリを受信する。
・(エンティティEN1,東京チームA,野球)
・(エンティティEN2,リトルチームA,野球)
・(エンティティEN3,石川チームA,野球)
110…制御部
111…選択部
112…関連ページ収集部
113…第1確率算出部
114…コンテキスト抽出部
115…第2確率算出部
116…ログ収集部
117…第3確率算出部
118…所在情報取得部
119…通信I/F
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…コンテンツ情報
D3…コンテキスト情報
D4…別名情報
Claims (7)
- クエリとして入力された1以上のワードと、複数のエンティティの各々との関連度を示す複数の第1指標値を算出する第1指標値算出部と、
前記ワードを、前記エンティティを特徴付ける情報を示す文字列であるコンテキストとして含む複数のエンティティの各々と、前記ワードとの関連度を示す複数の第2指標値を算出する第2指標値算出部と、
前記ワードと、前記ワードを名前の少なくとも一部に含む複数のエンティティの各々との関連度を示す複数の第3指標値を算出する第3指標値算出部と、
前記第1指標値算出部により算出された複数の前記第1指標値と、前記第2指標値算出部により算出された複数の前記第2指標値と、前記第3指標値算出部により算出された複数の前記第3指標値とに基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起に関する第4指標値を算出する第4指標値算出部と
を備え、
前記第3指標値算出部は、
前記ワードと関連付けられるページのクリックログから、前記ワードと前記エンティティとの複数の組を抽出し、
ナレッジグラフを参照し、抽出された複数の前記組の各々に含まれる前記エンティティの名前を取得し、前記ワードと、前記ワードを名前の少なくとも一部に含む複数のエンティティの各々との複数の組を生成し、
生成された前記ワードと前記ワードを名前の少なくとも一部に含む複数のエンティティの各々との複数の前記組の各々に対する前記第3指標値を算出する、
情報処理装置。 - 前記第3指標値は、前記エンティティの名前として仮定された前記ワードが、前記ワードを名前の少なくとも一部に含む複数の前記エンティティのそれぞれと関連付けられる関連度である、
請求項1に記載の情報処理装置。 - 前記第1指標値は、前記エンティティの名前として仮定された前記ワードが、複数の前記エンティティのそれぞれと関連付けられる関連度であり、
前記第2指標値は、複数の前記エンティティのそれぞれが、前記コンテキストとして仮定された前記ワードと関連付けられる関連度である、
請求項1または2に記載の情報処理装置。 - 前記第3指標値算出部は、前記クリックログにおいて、前記ワードを名前の少なくとも一部に含む前記エンティティの関連ページへの遷移回数を用いて前記第3指標値を算出する、
請求項1から3のいずれか一項に記載の情報処理装置。 - 前記第3指標値は、前記クリックログにおいて、前記エンティティの関連ページへの遷移回数が多くなるほど、前記第3指標値の値が大きくなるように定義される、
請求項4に記載の情報処理装置。 - コンピュータが、
クエリとして入力された1以上のワードと、複数のエンティティの各々との関連度を示す複数の第1指標値を算出し、
前記ワードを、前記エンティティを特徴付ける情報を示す文字列であるコンテキストとして含む複数のエンティティの各々と、前記ワードとの関連度を示す複数の第2指標値を算出し、
前記ワードと、前記ワードを名前の少なくとも一部に含む複数のエンティティの各々との関連度を示す複数の第3指標値を算出し、
算出された複数の前記第1指標値、複数の前記第2指標値、および複数の前記第3指標値に基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起に関する第4指標値を算出し、
複数の前記第3指標値を算出することは、
前記ワードと関連付けられるページのクリックログから、前記ワードと前記エンティティとの複数の組を抽出することと、
ナレッジグラフを参照し、抽出された複数の前記組の各々に含まれる前記エンティティの名前を取得し、前記ワードと、前記ワードを名前の少なくとも一部に含む複数のエンティティの各々との複数の組を生成することと、
生成された前記ワードと前記ワードを名前の少なくとも一部に含む複数のエンティティの各々との複数の前記組の各々に対する前記第3指標値を算出することと、
を含む、
情報処理方法。 - コンピュータに、
クエリとして入力された1以上のワードと、複数のエンティティの各々との関連度を示す複数の第1指標値を算出させ、
前記ワードを、前記エンティティを特徴付ける情報を示す文字列であるコンテキストとして含む複数のエンティティの各々と、前記ワードとの関連度を示す複数の第2指標値を算出させ、
前記ワードと、前記ワードを名前の少なくとも一部に含む複数のエンティティの各々との関連度を示す複数の第3指標値を算出させ、
算出された複数の前記第1指標値、複数の前記第2指標値、および複数の前記第3指標値に基づいて、前記エンティティと、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起に関する第4指標値を算出させ、
複数の前記第3指標値を算出させることは、
前記ワードと関連付けられるページのクリックログから、前記ワードと前記エンティティとの複数の組を抽出させることと、
ナレッジグラフを参照し、抽出された複数の前記組の各々に含まれる前記エンティティの名前を取得させ、前記ワードと、前記ワードを名前の少なくとも一部に含む複数のエンティティの各々との複数の組を生成させることと、
生成された前記ワードと前記ワードを名前の少なくとも一部に含む複数のエンティティの各々との複数の前記組の各々に対する前記第3指標値を算出させることと、
を含む、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019036247A JP7183077B2 (ja) | 2019-02-28 | 2019-02-28 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019036247A JP7183077B2 (ja) | 2019-02-28 | 2019-02-28 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020140501A JP2020140501A (ja) | 2020-09-03 |
JP7183077B2 true JP7183077B2 (ja) | 2022-12-05 |
Family
ID=72280412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019036247A Active JP7183077B2 (ja) | 2019-02-28 | 2019-02-28 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7183077B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008186452A (ja) | 2007-01-29 | 2008-08-14 | Nhn Corp | 検索システム及び検索方法 |
JP2013171450A (ja) | 2012-02-21 | 2013-09-02 | Ntt Docomo Inc | 関連語取得装置及び関連語取得方法 |
WO2017222585A1 (en) | 2016-06-22 | 2017-12-28 | Google Llc | Systems and methods for providing contextual information |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8433703B1 (en) * | 2003-12-22 | 2013-04-30 | Google Inc. | Recording user actions |
-
2019
- 2019-02-28 JP JP2019036247A patent/JP7183077B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008186452A (ja) | 2007-01-29 | 2008-08-14 | Nhn Corp | 検索システム及び検索方法 |
JP2013171450A (ja) | 2012-02-21 | 2013-09-02 | Ntt Docomo Inc | 関連語取得装置及び関連語取得方法 |
WO2017222585A1 (en) | 2016-06-22 | 2017-12-28 | Google Llc | Systems and methods for providing contextual information |
Non-Patent Citations (1)
Title |
---|
石川 裕貴 ほか,ウェブ検索ログとWikipedia内部リンクを用いたエンティティの曖昧性解消,言語処理学会第21回年次大会 発表論文集 [online],言語処理学会,2015年03月09日,p.644~647 |
Also Published As
Publication number | Publication date |
---|---|
JP2020140501A (ja) | 2020-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2438539B1 (en) | Co-selected image classification | |
JP5340751B2 (ja) | 文書処理装置および文書処理方法 | |
US9507867B2 (en) | Discovery engine | |
Liu et al. | Identifying web spam with the wisdom of the crowds | |
CN107690634B (zh) | 自动查询模式生成方法及系统 | |
RU2664481C1 (ru) | Способ и система выбора потенциально ошибочно ранжированных документов с помощью алгоритма машинного обучения | |
RU2733481C2 (ru) | Способ и система генерирования признака для ранжирования документа | |
Uzun et al. | An effective and efficient Web content extractor for optimizing the crawling process | |
Zhang et al. | The use of dependency relation graph to enhance the term weighting in question retrieval | |
JP5250009B2 (ja) | サジェスチョンクエリ抽出装置及び方法、並びにプログラム | |
JP2011253256A (ja) | 関連コンテンツ提示装置及びプログラム | |
CN111488453A (zh) | 资源分级方法、装置、设备及存储介质 | |
JP2013168177A (ja) | 情報提供プログラム、情報提供装置および検索サービスの提供方法 | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
JP7183077B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
Paananen | Comparative analysis of yandex and google search engines | |
JP7003020B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971104B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7088693B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971210B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6982520B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7354019B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Jain et al. | An Approach to build a web crawler using Clustering based K-Means Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211222 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220721 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20220721 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20220816 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20220823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221025 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7183077 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |