JP2021140246A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2021140246A JP2021140246A JP2020035085A JP2020035085A JP2021140246A JP 2021140246 A JP2021140246 A JP 2021140246A JP 2020035085 A JP2020035085 A JP 2020035085A JP 2020035085 A JP2020035085 A JP 2020035085A JP 2021140246 A JP2021140246 A JP 2021140246A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- query
- index value
- character string
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 22
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000012545 processing Methods 0.000 claims abstract description 43
- 230000007704 transition Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 9
- 230000002093 peripheral effect Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 241000272194 Ciconiiformes Species 0.000 description 2
- 241000271567 Struthioniformes Species 0.000 description 2
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Abstract
Description
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、通信I/F(Interface)111、関連ページ収集部112と、第1指標値算出部113と、ログ収集部114と、第2指標値算出部115と、生起確率算出部116と、情報提供部117と、フィルター部118とを備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。第2指標値算出部115は、「算出部」の一例である。生起確率算出部116は、「決定部」の一例である。
以下、ナレッジデータサーバ100の第1オフライン動作について説明する。第1オフライン動作では、第1指標値を算出する。図12は、本実施形態に係るナレッジデータサーバ100の第1指標値を算出する動作の一例を示すフローチャートである。まず、関連ページ収集部112は、コンテンツ情報D2のうち、算出対象のテキストデータであるセグメントを抽出する(S110)。次に、関連ページ収集部112は、抽出したセグメントに基づいて、関連ウェブページ(百科事典ウェブページ及び検索結果ウェブページ)を収集する(S120)。次に、第1指標値算出部113は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する(S130)。
以下、ナレッジデータサーバ100の第2オフライン動作について説明する。第2オフライン動作では、第2指標値を算出する。図13は、本実施形態に係るナレッジデータサーバ100の第2指標値を算出する動作の一例を示すフローチャートである。まず、ログ収集部114は、ウェブサーバ300に記憶されている検索結果ウェブページのログ(例えば、クリックログ)を、ネットワークNWを介して収集する(S210)。
図14は、本実施形態に係るナレッジデータサーバ100のオンライン動作の一例を示す流れ図である。まず、情報提供部117は、ウェブサーバ300からクエリを受信する(S310)。例えば、情報提供部117は、「チームA」と、「野球」との2つのワードを含むクエリを受信する。
ナレッジデータサーバ100の第2オフライン動作では、クリックログに含まれるクエリに応じて、以下のようなフィルター処理が行われるようにしてもよい。
第2指標値算出部115は、ログ収集部114により収集されたクリックログの各レコードの中から抽出されたクエリのうち、「おすすめ」、「一覧」などの特定の用語をクエリとして含むレコードについては、クエリ補完処理(第2指標値の算出)を行わない。特定の用語とは、特定の1つの情報ではなく、複数の情報(広範囲な情報)の要求を意図する文字列である。「おすすめ」、「一覧」などの特定の用語を用いた検索では、ユーザは、1つの検索結果ではなく、リスト化された複数の検索結果の取得を希望していることが推定される。例えば、クエリとして「東京 美術館 おすすめ」という3ワードが使用された場合、ユーザは、東京の特定の美術館の情報を欲しているのではなく、リスト化された複数の美術館の情報を欲していることが推定される。この場合において、上記のように算出された第2指標値に基づいてエンティティとの紐づけを行うと、特定のエンティティのみが紐づけられてしまう(すなわち、特定のエンティティの生起確率が高くなってしまう)。このため、このような特定の用語をクエリとして含むレコードについては、第2指標値の算出を行わない。
第2指標値算出部115は、ログ収集部114により収集されたクリックログの各レコードの中から抽出されたクエリのうち、該クエリと関連付けられるエンティティの所在情報が示す地域が地理的に互いに離れている場合、クエリ補完処理(第2指標値の算出)を行わないようにしてよい。例えば、クエリとして「A小学校」というワードが使用され、該クエリと関連付けられるエンティティが「和歌山市立A小学校」と、「所沢市立A小学校」との2つが存在する場合、いずれのエンティティもユーザの検索意図に適合している可能性がある。この場合、エンティティとして「和歌山市立A小学校」または「所沢市立A小学校」のいずれか一方に関連付けられてしまうことは好ましくない。
110…制御部
111…通信I/F
112…関連ページ収集部
113…第1指標値算出部
114…ログ収集部
115…第2指標値算出部
116…生起確率算出部
117…情報提供部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…コンテンツ情報
D3…第1指標値情報
D4…第2指標値情報
Claims (12)
- クエリとして入力された1以上のワードと、エンティティの文字列との各々に対して文字列処理を行い、文字列処理後の前記ワードと、文字列処理後の前記ワードを少なくとも一部に含む文字列処理後の前記エンティティの文字列とを関連付けすることで、前記クエリと、前記エンティティとの関連度を示す指標値を算出する算出部と、
算出された前記指標値に基づいて、前記クエリと関連づけられるエンティティを決定する決定部と
を備える情報処理装置。 - 前記算出部は、前記ワードおよび前記エンティティの文字列の各々に対して文字表記を統一する正規化処理を行う、
請求項1に記載の情報処理装置。 - 前記算出部は、前記ワードと関連付けられるページのクリックログに基づいて、前記指標値を算出する、
請求項1または2に記載の情報処理装置。 - 前記算出部は、
前記クリックログから前記クエリと前記エンティティとの組を抽出し、
抽出された前記クエリと前記エンティティとの組と、ナレッジグラフとに基づいて、前記クエリと前記エンティティの名前との組を生成し、
生成された前記クエリと前記エンティティの名前との組の各々に対する前記指標値を算出する、
請求項3に記載の情報処理装置。 - 前記算出部は、前記クリックログにおいて、前記ワードを少なくとも一部に含む前記エンティティの関連ページへの遷移回数に基づいて前記指標値を算出する、
請求項3または4に記載の情報処理装置。 - 前記指標値は、前記クリックログにおいて、前記エンティティの関連ページへの遷移回数が多くなるほど、前記指標値の値が大きくなるように定義される、
請求項5に記載の情報処理装置。 - 前記算出部は、前記ワードおよび前記エンティティの文字列の各々を大文字または小文字に変換する文字列処理を行う、
請求項1から6のいずれか一項に記載の情報処理装置。 - 前記算出部は、前記ワードおよび前記エンティティの文字列の各々から記号を削除する文字列処理を行う、
請求項1から7のいずれか一項に記載の情報処理装置。 - 前記算出部は、前記クエリに複数の情報を要求する用語が含まれている場合、前記指標値を算出しない、
請求項1から8のいずれか一項に記載の情報処理装置。 - 前記算出部は、前記クエリに関連付けられる複数のエンティティの所在情報によって示される地理的な位置が互いに閾値以上離れている場合、前記指標値を算出しない、
請求項1から9のいずれか一項に記載の情報処理装置。 - コンピュータが、
クエリとして入力された1以上のワードと、エンティティの文字列との各々に対して文字列処理を行い、文字列処理後の前記ワードと、文字列処理後の前記ワードを少なくとも一部に含む文字列処理後の前記エンティティの文字列とを関連付けすることで、前記クエリと、前記エンティティとの関連度を示す指標値を算出し、
算出された前記指標値に基づいて、前記クエリと関連づけられるエンティティを決定する、
情報処理方法。 - コンピュータに、
クエリとして入力された1以上のワードと、エンティティの文字列との各々に対して文字列処理を行い、文字列処理後の前記ワードと、文字列処理後の前記ワードを少なくとも一部に含む文字列処理後の前記エンティティの文字列とを関連付けすることで、前記クエリと、前記エンティティとの関連度を示す指標値を算出させ、
算出された前記指標値に基づいて、前記クエリと関連づけられるエンティティを決定させる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020035085A JP7354019B2 (ja) | 2020-03-02 | 2020-03-02 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020035085A JP7354019B2 (ja) | 2020-03-02 | 2020-03-02 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021140246A true JP2021140246A (ja) | 2021-09-16 |
JP7354019B2 JP7354019B2 (ja) | 2023-10-02 |
Family
ID=77668583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020035085A Active JP7354019B2 (ja) | 2020-03-02 | 2020-03-02 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7354019B2 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050222977A1 (en) * | 2004-03-31 | 2005-10-06 | Hong Zhou | Query rewriting with entity detection |
JP2008102765A (ja) * | 2006-10-19 | 2008-05-01 | Fujitsu Ltd | 検索処理方法及び検索システム |
JP2012003381A (ja) * | 2010-06-15 | 2012-01-05 | Ird Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2012008948A (ja) * | 2010-06-28 | 2012-01-12 | Sharp Corp | 類似性導出装置および類似性導出プログラム |
JP2013534673A (ja) * | 2010-06-28 | 2013-09-05 | ヤフー! インコーポレイテッド | 無限ブラウズ |
JP2013186798A (ja) * | 2012-03-09 | 2013-09-19 | Dainippon Printing Co Ltd | リンク付与装置、リンク付与方法、およびプログラム |
JP2019164424A (ja) * | 2018-03-19 | 2019-09-26 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
-
2020
- 2020-03-02 JP JP2020035085A patent/JP7354019B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050222977A1 (en) * | 2004-03-31 | 2005-10-06 | Hong Zhou | Query rewriting with entity detection |
JP2008102765A (ja) * | 2006-10-19 | 2008-05-01 | Fujitsu Ltd | 検索処理方法及び検索システム |
JP2012003381A (ja) * | 2010-06-15 | 2012-01-05 | Ird Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2012008948A (ja) * | 2010-06-28 | 2012-01-12 | Sharp Corp | 類似性導出装置および類似性導出プログラム |
JP2013534673A (ja) * | 2010-06-28 | 2013-09-05 | ヤフー! インコーポレイテッド | 無限ブラウズ |
JP2013186798A (ja) * | 2012-03-09 | 2013-09-19 | Dainippon Printing Co Ltd | リンク付与装置、リンク付与方法、およびプログラム |
JP2019164424A (ja) * | 2018-03-19 | 2019-09-26 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7354019B2 (ja) | 2023-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6906419B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
US8255414B2 (en) | Search assist powered by session analysis | |
US8880548B2 (en) | Dynamic search interaction | |
US20100241647A1 (en) | Context-Aware Query Recommendations | |
JP2017157192A (ja) | キーワードに基づいて画像とコンテンツアイテムをマッチングする方法 | |
JP2012529089A (ja) | 同時選択画像の分類 | |
JP6363682B2 (ja) | 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法 | |
CN109948122B (zh) | 输入文本的纠错方法、装置及电子设备 | |
US20110131536A1 (en) | Generating and ranking information units including documents associated with document environments | |
JP5084796B2 (ja) | 関連性判定装置、関連性判定方法およびプログラム | |
JP2011100350A (ja) | 要約生成装置、要約生成方法および要約生成プログラム | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
JP6993913B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6739379B2 (ja) | 情報処理装置、情報処理方法、プログラム、および広告情報処理システム | |
JP6982520B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2021140246A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7003020B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971104B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5228529B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
JP6079207B2 (ja) | キーワード提示プログラム、キーワード提示方法及びキーワード提示装置 | |
Patel et al. | A review of PageRank and HITS algorithms | |
JP6971209B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7183077B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971210B2 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200319 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230912 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230920 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7354019 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |