JP2020042707A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2020042707A JP2020042707A JP2018171361A JP2018171361A JP2020042707A JP 2020042707 A JP2020042707 A JP 2020042707A JP 2018171361 A JP2018171361 A JP 2018171361A JP 2018171361 A JP2018171361 A JP 2018171361A JP 2020042707 A JP2020042707 A JP 2020042707A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- entity
- web page
- target text
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 17
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000009193 crawling Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 241000272194 Ciconiiformes Species 0.000 description 2
- 241000272534 Struthio camelus Species 0.000 description 2
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 2
- 210000003323 beak Anatomy 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Abstract
Description
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML(HyperText Markup Language)文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
図5は、本実施形態に係る検索結果ウェブページの一例を示す図である。図5に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、収集部112と、得点算出部113と、所在情報取得部114と、通信I/F(Interface)115を備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F115は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、クロール対象機器DV)、端末装置200、及びウェブサーバ300)との通信を仲介する。
<関連ウェブページが百科事典ウェブページの場合>
得点算出部113は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト(アンカーテキスト)として含まれる確率を算出する。関連ウェブページには、対象テキストデータ(この一例では、「日本電波塔」(図6に示されるテキストTX11)と関連付けられたエンティティ(この一例では、「東京タワー」)を示すテキストデータ(図6に示されるテキストTX12〜14)が含まれる。また、テキストTX12〜14のうち、テキストTX12は、アンカーテキストである。また、テキストTX12に付与された他のウェブページのリンクは、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「東京タワー」)に関連付けられた所在情報である。
得点算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「日本電波塔」(図示するテキストTX21)であり、対象テキストデータと関連付けられたエンティティは、「東京タワー」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図7の例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。ここで、テキストTX22に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「東京タワー」)に関連付けられた所在情報である。つまり、テキストTX22が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストTX25が含まれてよい。
また、得点算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。また、得点算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第2エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。そして、得点算出部113は、例えば、両者を加算して対数を求めることで、得点(第1スコア)を算出する。
<関連ウェブページが検索結果ウェブページの場合>
得点算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「日本電波塔」(図示するテキストTX21)であり、対象テキストデータと関連付けられたエンティティは、「東京タワー」である。図7の例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。このうち、地域情報提供サービスに関する対象エンティティテキストデータ(この一例では、「東京タワー」)が含まれるのは、テキストTX24である。テキストTX24に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「東京タワー」)に関連付けられた所在情報である。つまり、テキストTX24が有する他のウェブページのリンクは、特定のウェブページであり、一例として地域情報ウェブページである。
得点算出部113は、第1のサービス(百科事典提供サービス)に関して算出した第1スコアと、第2のサービス(地域情報提供サービス)に関して算出した第2スコアと、を加算することで総合得点を算出し、算出した総合得点をコンテンツ情報D2に関連付けて記憶させる。図8は、本実施形態に係るコンテンツ情報D2及び得点の一例を示す図である。
以下、ナレッジデータサーバ100の動作について説明する。図9は、本実施形態のナレッジデータサーバ100の総合得点を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、得点算出対象の対象テキストデータを選択する(S100)。次に、収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ及び検索結果ウェブページ)を収集する(S102)。次に、得点算出部113は、第1のサービス(百科事典提供サービス)に関する第1スコアを算出する(S104)。
110…制御部
111…選択部
112…収集部
113…得点算出部
114…所在情報取得部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…コンテンツ情報
Claims (9)
- エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、対象テキストデータを選択する選択部と、
前記選択部によって選択された前記対象テキストデータに関連する第1種類の関連ウェブページを収集する収集部と、
前記第1種類の関連ウェブページにおいて、
前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティをテキストとして含む第1サービスへのリンク先が選択された第1確率と、
前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティをテキストとして含む第2サービスへのリンク先が選択された第2確率とに基づいて、
前記対象テキストデータに関連付けられるエンティティの評価を行う評価部と、
を備える情報処理装置。 - 前記収集部は、前記選択部によって選択された前記対象テキストデータに関連する第2種類の関連ウェブページを収集し、
前記評価部は、前記収集部によって収集された前記第2種類の関連ウェブページにおいて、前記対象テキストデータが前記第1サービスへのリンク先を示すテキストとして含まれる第3確率に基づいて、前記評価を行う、
請求項1に記載の情報処理装置。 - 前記評価部は、前記第2種類の関連ウェブページにおける前記テキストにより示される前記第1サービスへのリンク先にあるウェブページが、前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページである第4確率に基づいて、前記評価を行う、
請求項2に記載の情報処理装置。 - 前記第1種類の関連ウェブページは、前記対象テキストデータをクエリとして用いた場合の検索結果を表示するウェブページである、
請求項1から3のいずれか一項に記載の情報処理装置。 - 前記第2種類の関連ウェブページは、利用者によって編集可能な百科事典のウェブページである、
請求項2または3に記載の情報処理装置。 - 入力されたクエリに対して、前記評価部による評価結果を参照し、前記エンティティに関する情報を出力すべきか否かを判定する判定部を更に備える、
請求項1から請求項5のいずれか一項に記載の情報処理装置。 - 前記評価部は、前記第1確率と、前記第2確率とを加算することで、前記対象テキストデータに対応するエンティティの得点を算出し、
前記判定部は、前記得点が所定の閾値以上である場合、当該得点が関連付けられたエンティティの情報を出力し、前記得点が所定の閾値より少ない場合、当該得点が関連付けられたエンティティの情報を出力しないと決定する、
請求項6に記載の情報処理装置。 - コンピュータが、
エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、対象テキストデータを選択し、
選択された前記対象テキストデータに関連する第1種類の関連ウェブページを収集し、
前記第1種類の関連ウェブページにおいて、
前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティをテキストとして含む第1サービスへのリンク先が選択された第1確率と、
前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティをテキストとして含む第2サービスへのリンク先が選択された第2確率とに基づいて、
前記対象テキストデータに関連付けられるエンティティの評価を行う、
情報処理方法。 - コンピュータに、
エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、対象テキストデータを選択させ、
選択された前記対象テキストデータに関連する第1種類の関連ウェブページを収集させ、
前記第1種類の関連ウェブページにおいて、
前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティをテキストとして含む第1サービスへのリンク先が選択された第1確率と、
前記コンテンツ情報における前記対象テキストデータと関連付けられたエンティティをテキストとして含む第2サービスへのリンク先が選択された第2確率とに基づいて、
前記対象テキストデータに関連付けられるエンティティの評価を行わせる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018171361A JP6971209B2 (ja) | 2018-09-13 | 2018-09-13 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018171361A JP6971209B2 (ja) | 2018-09-13 | 2018-09-13 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020042707A true JP2020042707A (ja) | 2020-03-19 |
JP6971209B2 JP6971209B2 (ja) | 2021-11-24 |
Family
ID=69798455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018171361A Active JP6971209B2 (ja) | 2018-09-13 | 2018-09-13 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6971209B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008186452A (ja) * | 2007-01-29 | 2008-08-14 | Nhn Corp | 検索システム及び検索方法 |
JP2010191940A (ja) * | 2009-01-23 | 2010-09-02 | Kenwood Corp | 情報処理装置および情報処理方法、並びにプログラム |
JP2011107880A (ja) * | 2009-11-16 | 2011-06-02 | Nippon Telegr & Teleph Corp <Ntt> | 情報整合性判別装置、その方法及びプログラム |
JP2011118652A (ja) * | 2009-12-03 | 2011-06-16 | Fujifilm Corp | 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム |
US20160189047A1 (en) * | 2014-12-30 | 2016-06-30 | Yahoo! Inc. | Method and System for Entity Linking |
JP2019057022A (ja) * | 2017-09-20 | 2019-04-11 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
-
2018
- 2018-09-13 JP JP2018171361A patent/JP6971209B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008186452A (ja) * | 2007-01-29 | 2008-08-14 | Nhn Corp | 検索システム及び検索方法 |
JP2010191940A (ja) * | 2009-01-23 | 2010-09-02 | Kenwood Corp | 情報処理装置および情報処理方法、並びにプログラム |
JP2011107880A (ja) * | 2009-11-16 | 2011-06-02 | Nippon Telegr & Teleph Corp <Ntt> | 情報整合性判別装置、その方法及びプログラム |
JP2011118652A (ja) * | 2009-12-03 | 2011-06-16 | Fujifilm Corp | 単語の関連キーワードを決定する装置ならびにその動作制御方法およびその動作制御プログラム |
US20160189047A1 (en) * | 2014-12-30 | 2016-06-30 | Yahoo! Inc. | Method and System for Entity Linking |
JP2019057022A (ja) * | 2017-09-20 | 2019-04-11 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
石川裕貴, 外2名: "ウェブ検索ログとWikipedia内部リンクを用いたエンティティの曖昧性解消", 言語処理学会第21回年次大会 発表論文集 [ONLINE], JPN6021008467, 9 March 2015 (2015-03-09), pages 644 - 647, ISSN: 0004461350 * |
Also Published As
Publication number | Publication date |
---|---|
JP6971209B2 (ja) | 2021-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6906419B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
US8005832B2 (en) | Search document generation and use to provide recommendations | |
US20120016857A1 (en) | System and method for providing search engine optimization analysis | |
US20100293116A1 (en) | Url and anchor text analysis for focused crawling | |
US20140358904A1 (en) | Synonym identification based on selected search result | |
US20110131536A1 (en) | Generating and ranking information units including documents associated with document environments | |
RU2733481C2 (ru) | Способ и система генерирования признака для ранжирования документа | |
JP7166116B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6479239B1 (ja) | 情報処理装置、情報処理システム、情報処理方法、およびプログラム | |
JP2011100350A (ja) | 要約生成装置、要約生成方法および要約生成プログラム | |
JP5154109B2 (ja) | 文書検索装置、方法、及びプログラム | |
Faba‐Pérez et al. | Comparative analysis of webometric measurements in thematic environments | |
JP6739379B2 (ja) | 情報処理装置、情報処理方法、プログラム、および広告情報処理システム | |
JP6971104B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971209B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2019164424A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7003020B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6982520B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6467694B1 (ja) | 検索語の評価装置、評価システム、評価方法、及び評価モジュール生産方法 | |
JP6960274B2 (ja) | データ収集装置、データ収集方法、およびプログラム | |
JP7354019B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971210B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7088693B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7183077B2 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200313 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6971209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |