JP7078569B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7078569B2 JP7078569B2 JP2019052814A JP2019052814A JP7078569B2 JP 7078569 B2 JP7078569 B2 JP 7078569B2 JP 2019052814 A JP2019052814 A JP 2019052814A JP 2019052814 A JP2019052814 A JP 2019052814A JP 7078569 B2 JP7078569 B2 JP 7078569B2
- Authority
- JP
- Japan
- Prior art keywords
- web page
- entity
- text data
- target text
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 19
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000011156 evaluation Methods 0.000 claims description 13
- 230000007423 decrease Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 2
- 241000271567 Struthioniformes Species 0.000 description 2
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 2
- 210000003323 beak Anatomy 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
<1-1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML(HyperText Markup Language)文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
図5は、本実施形態に係る検索結果ウェブページの一例を示す図である。図5に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、収集部112と、得点算出部113(評価部)と、所在情報取得部114(判定部)と、通信I/F(Interface)115を備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F115は、ネットワークNWを介した各機能部と、他の機器(例えば、クロール対象機器DV、端末装置200、及びウェブサーバ300)との通信を仲介する。
<関連ウェブページが百科事典ウェブページの場合>
(1)対象テキストデータに対してエンティティが紐付く確率
上記の式(1)に含まれる以下の式(2)の項は、対象テキストデータに対してエンティティが紐付く確率を示している。以下においては、関連ウェブページが百科事典ウェブページの場合における、式(2)の算出処理について説明する。
上記の式(1)に含まれる以下の式(5)の項は、対象テキストデータに対してエンティティが紐付かない確率を示している。以下においては、関連ウェブページが百科事典ウェブページの場合における、式(5)の算出処理について説明する。
(1)対象テキストデータに対してエンティティが紐付く確率
次に、関連ウェブページが検索結果ウェブページの場合における、式(2)の算出処理について説明する。得点算出部113は、検索結果ウェブページにおいて、対象テキストデータがクリックログ上でアンカーテキストであると判定された総数(対象テキストデータがエンティティと紐付く関連ウェブページをクリックした総数)(「第2指標値」の一例)と、対象テキストデータがクリックログ上でアンカーテキストでないと判定された総数(対象テキストデータがエンティティと紐付かない関連ウェブページをクリックした総数)(「第1指標値」の一例)とに基づいて、対象テキストデータに対してエンティティが紐付く確率を算出する。
次に、関連ウェブページが検索結果ウェブページの場合における、式(5)の算出処理について説明する。得点算出部113は、式(6)によって、すべての検索結果ウェブページに含まれるそれぞれのリンク先がクリックされた回数に対して、対象テキストデータと関連付けられたエンティティを示すテキストデータを含む百科事典ウェブページに関するリンク先がクリックされなかった回数の比として求められる確率(非アンカーテキスト確率」)を算出する。例えば、得点算出部113は、式(6)によって、「1」から、「アンカーテキスト確率」を減算することにより、非アンカーテキスト確率を求める。
また、得点算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値と、非アンカーテキスト確率に対して第2エンティティ確率を乗じた値と、の各々に対して、以下の式(8)を更に乗じてもよい。また、得点算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第3エンティティ確率を乗じた値と、非エンティティテキストクリック確率に対して第4エンティティ確率を乗じた値と、の各々に対して、以下の式(12)を更に乗じてもよい。そして、得点算出部113は、例えば、上記により算出された4つの値を加算して対数を求めることで、得点を算出する。
以下、ナレッジデータサーバ100の動作について説明する。図11は、本実施形態のナレッジデータサーバ100の得点を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、得点算出対象の対象テキストデータを選択する(S100)。次に、収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ、検索結果ウェブページ、検索結果ページのクリックログ)を収集する(S102)。次に、得点算出部113は、関連ウェブページが百科事典ウェブページの場合における得点を算出する(S104)。
110…制御部
111…選択部
112…収集部
113…得点算出部
114…所在情報取得部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…コンテンツ情報
Claims (10)
- 対象テキストデータをクエリとして用いた場合の検索結果を表示する第1種類のウェブページの情報を収集する収集部と、
前記収集部により収集された前記第1種類のウェブページの情報に基づいて算出される、前記第1種類のウェブページにおいて、前記対象テキストデータと関連付けられた第1サービスへのリンク先が選択された回数に関する第1指標値と、前記対象テキストデータと関連付けられた第2サービスへのリンク先が選択された回数に関する第2指標値とに基づいて、前記対象テキストデータに関連付けられ且つ前記第1種類のウェブページにおいて前記検索結果とともに表示されるエンティティの評価を行う評価部と、
を備える情報処理装置。 - 前記評価部は、前記第1サービスへのリンク先が選択された回数が大きくなるにつれて、前記対象テキストデータと前記エンティティとの関連度が低くなると評価する、
請求項1に記載の情報処理装置。 - 前記第1サービスは、辞書のウェブページを提供するサービスである、
請求項1または2に記載の情報処理装置。 - 前記第2サービスは、百科事典のウェブページを提供するサービスである、
請求項1から3のいずれか一項に記載の情報処理装置。 - 前記収集部は、前記対象テキストデータに関連する情報を表示する第2種類の関連ウェブページを収集し、
前記評価部は、前記収集部によって収集された前記第2種類の関連ウェブページにおいて、前記対象テキストデータと関連付けられるエンティティが前記第2サービスへのリンク先を示すテキストとして含まれる確率に関する第3指標値に基づいて、前記評価を行う、
請求項1から4のいずれか一項に記載の情報処理装置。 - 前記評価部は、前記第2種類の関連ウェブページにおける前記テキストにより示される前記第2サービスへのリンク先にあるウェブページが、前記対象テキストデータと関連付けられるエンティティのウェブページである確率に関する第4指標値に基づいて、前記評価を行う、
請求項5に記載の情報処理装置。 - 前記評価部による評価結果を参照し、クエリに対して、エンティティに関する情報を出力すべきか否かを判定する判定部を更に備える、
請求項1から請求項6のいずれか一項に記載の情報処理装置。 - 前記評価部は、前記対象テキストデータに関連付けられるエンティティを評価して、前記エンティティの得点を算出し、
前記判定部は、前記得点が所定の閾値以上である場合、当該得点が関連付けられたエンティティの情報を出力し、前記得点が所定の閾値より小さい場合、当該得点が関連付けられたエンティティの情報を出力しないように判定する、
請求項7に記載の情報処理装置。 - コンピュータが、
対象テキストデータをクエリとして用いた場合の検索結果を表示する第1種類のウェブページの情報を収集し、
収集された前記第1種類のウェブページの情報に基づいて算出される、前記第1種類のウェブページにおいて、前記対象テキストデータと関連付けられた第1サービスへのリンク先が選択された回数に関する第1指標値と、前記対象テキストデータと関連付けられた第2サービスへのリンク先が選択された回数に関する第2指標値とに基づいて、前記対象テキストデータに関連付けられ且つ前記第1種類のウェブページにおいて前記検索結果とともに表示されるエンティティの評価を行う、
情報処理方法。 - コンピュータに、
対象テキストデータをクエリとして用いた場合の検索結果を表示する第1種類のウェブページの情報を収集させ、
収集された前記第1種類のウェブページの情報に基づいて算出される、前記第1種類のウェブページにおいて、前記対象テキストデータと関連付けられた第1サービスへのリンク先が選択された回数に関する第1指標値と、前記対象テキストデータと関連付けられた第2サービスへのリンク先が選択された回数に関する第2指標値とに基づいて、前記対象テキストデータに関連付けられ且つ前記第1種類のウェブページにおいて前記検索結果とともに表示されるエンティティの評価を行わせる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019052814A JP7078569B2 (ja) | 2019-03-20 | 2019-03-20 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019052814A JP7078569B2 (ja) | 2019-03-20 | 2019-03-20 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020154753A JP2020154753A (ja) | 2020-09-24 |
JP7078569B2 true JP7078569B2 (ja) | 2022-05-31 |
Family
ID=72559181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019052814A Active JP7078569B2 (ja) | 2019-03-20 | 2019-03-20 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7078569B2 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189047A1 (en) | 2014-12-30 | 2016-06-30 | Yahoo! Inc. | Method and System for Entity Linking |
-
2019
- 2019-03-20 JP JP2019052814A patent/JP7078569B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189047A1 (en) | 2014-12-30 | 2016-06-30 | Yahoo! Inc. | Method and System for Entity Linking |
Non-Patent Citations (2)
Title |
---|
ウェブ検索クエリに対する教師なしエンティティリンキング,言語処理学会第24回年次大会 発表論文集,2018年03月05日 |
ウェブ検索ログとWikipedia内部リンクを用いたエンティティの曖昧性解消,言語処理学会第21回年次大会 発表論文集,2015年03月09日 |
Also Published As
Publication number | Publication date |
---|---|
JP2020154753A (ja) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6906419B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
AU2009347535B2 (en) | Co-selected image classification | |
US7681147B2 (en) | System for determining probable meanings of inputted words | |
JP4908422B2 (ja) | リンクベースのスパム検出 | |
JP5543020B2 (ja) | リサーチミッション識別 | |
US20130132851A1 (en) | Sentiment estimation of web browsing user | |
US20090012937A1 (en) | Apparatus, method and recorded medium for collecting user preference information by using tag information | |
Ramanayaka et al. | Application of webometrics techniques for measuring and evaluating visibility of university library websites in Sri Lanka | |
JP6164436B1 (ja) | ウェブページ解析装置、ウェブページ解析方法、及びプログラム | |
US20130268833A1 (en) | Apparatus and method for visualizing hyperlinks using color attribute values | |
JP2011100350A (ja) | 要約生成装置、要約生成方法および要約生成プログラム | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971104B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971209B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7003020B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2008225957A (ja) | 文書検索装置、方法、及びプログラム | |
JP6982520B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7088693B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971210B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111222918A (zh) | 关键词挖掘方法、装置、电子设备及存储介质 | |
JP7183077B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Al-Abdullatif et al. | Using online hotel customer reviews to improve the booking process | |
JP7354019B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7197531B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、およびプログラム | |
JP2019159395A (ja) | 検索語の評価装置、評価システム、評価方法、及び評価モジュール生産方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220519 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7078569 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |