JP2020047102A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2020047102A JP2020047102A JP2018176380A JP2018176380A JP2020047102A JP 2020047102 A JP2020047102 A JP 2020047102A JP 2018176380 A JP2018176380 A JP 2018176380A JP 2018176380 A JP2018176380 A JP 2018176380A JP 2020047102 A JP2020047102 A JP 2020047102A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- context
- index value
- probability
- calculation unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 19
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000004364 calculation method Methods 0.000 claims abstract description 112
- 238000000034 method Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 description 25
- 238000012545 processing Methods 0.000 description 22
- 230000014509 gene expression Effects 0.000 description 12
- 230000009193 crawling Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 241000272194 Ciconiiformes Species 0.000 description 2
- 241000272534 Struthio camelus Species 0.000 description 2
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 241000777300 Congiopodidae Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 210000003323 beak Anatomy 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
図6は、本実施形態に係る検索結果ウェブページの一例を示す図である。図6に示されるように、端末装置200の表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、関連ページ収集部112と、第1確率算出部113(第1指標値算出部)と、コンテキスト収集部114と、第2確率算出部115(第2指標値算出部、頻度情報算出部)と、所在情報取得部116(生起確率算出部)と、通信I/F(Interface)117と、ホワイトリスト生成部118と、コンテキスト付与率算出部119とを備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F117は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、クロール対象機器DV)、端末装置200、及びウェブサーバ300)との通信を仲介する。
第1確率算出部113は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト(以下、「アンカーテキスト」)として含まれる確率を算出する。関連ウェブページには、対象テキストデータ(この一例では、「3000本安打」(図示するテキストTX11)と関連付けられたエンティティ(この一例では、「野球選手A」)を示すテキストデータ(図示するテキストTX12〜14)が含まれる。また、テキストTX12〜14のうち、テキストTX12は、アンカーテキストである。また、テキストTX12に付与された他のウェブページのリンクは、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。
第1確率算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「3000本安打」(図示するテキストTX21)であり、対象テキストデータと対応付けられたエンティティは、「野球選手A」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図8に示される例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。このうち、対象エンティティテキストデータ(この一例では、「野球選手A」)が含まれるのは、テキストTX22である。テキストTX22に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。つまり、テキストTX22が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストTX25が含まれてよい。
ここで、エンティティは、同一の文言であっても異なる事物を指す場合がある。図9は、同一の文言によって異なるエンティティのウェブページにリンクしている例を示す図である。図9に示される例において、テキストTX22は、「野球選手A」のウェブページ(例えば、図3)のリンク先を示す。これに対し、テキストTX26は、「野球選手A」同姓同名の野球選手であって、「野球選手A」とは異なる野球チームCに所属する選手のウェブページのリンク先を示す。第1確率算出部113は、式(2)において、テキストTX26がクリックされた場合もエンティティクリック確率に算入する。
また、第1確率算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。また、第1確率算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第2エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。そして、第1確率算出部113は、例えば、両者を加算して対数を求めることで、第1確率(スコア)を算出する。
以下、ナレッジデータサーバ100の第1オフライン動作について説明する。第1オフライン動作では、第1確率を算出する。図16は、本実施形態のナレッジデータサーバ100の第1確率を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、算出対象の対象テキストデータを選択する(S110)。次に、関連ページ収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ及び検索結果ウェブページ)を収集する(S120)。次に、第1確率算出部113は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する(S130)。
以下、ナレッジデータサーバ100の第2オフライン動作について説明する。第2オフライン動作では、第2確率を算出する。図17は、本実施形態のナレッジデータサーバ100の第2確率を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、算出対象の対象テキストデータを選択する(S210)。関連ページ収集部112は、対象テキストデータに基づいて、関連ウェブページを収集する。次に、コンテキスト収集部114は、関連ページ収集部112により収集された関連ウェブページに基づいて、コンテキストを収集する(S220)。
以下、ナレッジデータサーバ100の第3オフライン動作について説明する。第3オフライン動作では、ホワイトリストを生成する。図19は、本実施形態のナレッジデータサーバ100のホワイトリストを生成する動作の一例を示す流れ図である。まず、コンテキスト収集部114は、例えば、百科事典ウェブページにおける対象物の文字列の後に表示された対象物の属性等を示す属性文字列を収集する(S310)。例えば、コンテキスト収集部114は、図13に示される例において、対象物である「学者A」の文字列の後に記載された「物理学」の属性文字列を収集する。コンテキスト収集部114は、百科事典ウェブページに含まれる複数のページ(例えば、全てのページ)に対して、上記の文字列の収集処理を行い、複数の属性文字列の集合を得る。
以下、ナレッジデータサーバ100の第4オフライン動作について説明する。第4オフライン動作では、エンティティ毎のコンテキスト付与率を算出する。図21は、本実施形態のナレッジデータサーバ100のコンテキスト付与率を算出する動作の一例を示す流れ図である。まず、コンテキスト付与率算出部119は、例えば、検索エンジンの検索ログに含まれる複数の検索ログデータのうち、処理対象とする1つの検索ログデータを抽出する(S410)。この1つの検索ログデータは、ユーザによる1度の検索処理と対応する。検索ログデータには、検索に利用された少なくとも1つのクエリ、検索結果ウェブページにおいてユーザがクリックしたリンクのURL(以下、「遷移先URL」)、検索日時等の情報が含まれる。
図23は、本実施形態のナレッジデータサーバ100のオンライン動作の一例を示す流れ図である。まず、所在情報取得部116は、ウェブサーバ300からクエリを受信する(S510)。図24は、本実施形態のナレッジデータサーバ100のオンライン動作を説明する図である。図24は、「学者A」と、「物理学」との2つのワードを含むクエリを受信する例を示している。
・(学者A,エンティティEN1,物理学)
・(物理学,エンティティEN1,学者A)
・(学者A,エンティティEN2,物理学)
・(物理学,エンティティEN2,学者A)
・(学者A,エンティティEN3,物理学)
・(物理学,エンティティEN3,学者A)
110…制御部
111…選択部
112…関連ページ収集部
113…第1確率算出部
114…コンテキスト収集部
115…第2確率算出部
116…所在情報取得部
117…通信I/F
118…ホワイトリスト生成部
119…コンテキスト付与率算出部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2…コンテンツ情報
D3…コンテキスト情報
D4…ホワイトリスト情報
D5…コンテキスト付与率情報
Claims (9)
- クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出する第1指標値算出部と、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出する第2指標値算出部と、
前記エンティティ毎にコンテキストの候補を定義したリストを生成するリスト生成部と、
前記第1指標値算出部により算出された前記第1指標値と、前記第2指標値算出部により算出された前記第2指標値と、前記リスト生成部により生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する生起確率算出部と
を備える情報処理装置。 - 前記第1指標値は、前記エンティティの名前として仮定された前記ワードのそれぞれが、複数の前記エンティティのそれぞれと関連付けられる確率であり、
前記第2指標値は、複数の前記エンティティのそれぞれが、前記コンテキストとして仮定された前記ワードのそれぞれと関連付けられる確率である、
請求項1に記載の情報処理装置。 - 前記エンティティに対するコンテキストの付きやすさを示すコンテキスト付与率を算出するコンテキスト付与率算出部をさらに備え、
前記生起確率算出部は、さらに、前記コンテキスト付与率算出部により算出された前記コンテキスト付与率に基づいて、前記生起確率を算出する、
請求項1または2に記載の情報処理装置。 - 前記生起確率算出部は、前記組み合わせ毎に、前記第1指標値と、前記第2指標値と、前記リストに前記コンテキストとして仮定された前記ワードが含まれるか否かを指定することによって定義された関数の値との乗算値を算出し、算出した前記乗算値が最も大きな組み合わせを、前記エンティティの名前に相当するワードと、前記エンティティと、前記コンテキストに相当するワードとの組み合わせと判定する、
請求項1から3のいずれか一項に記載の情報処理装置。 - 前記生起確率算出部は、前記組み合わせ毎に、前記第1指標値と、前記第2指標値と、前記リストに前記コンテキストとして仮定された前記ワードが含まれるか否かを指定することによって定義された関数の値と、前記コンテキスト付与率との乗算値を算出し、算出した前記乗算値が最も大きな組み合わせを、前記エンティティの名前に相当するワードと、前記エンティティと、前記コンテキストに相当するワードとの組み合わせと判定する、
請求項3に記載の情報処理装置。 - 前記第2指標値算出部は、エンティティおよびコンテキストとなりうるワードを仮想的なグループに分けた場合の特徴量を最適化する手法によって生成されるグループの情報と、与えられた頻度情報とに基づいて、前記第2指標値を算出する、
請求項1から5のいずれか一項に記載の情報処理装置。 - 前記エンティティと関連付けられるページのクリックログに基づいて、前記頻度情報を算出する頻度情報算出部をさらに備える、
請求項6に記載の情報処理装置。 - コンピュータが、
クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出し、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出し、
前記エンティティ毎にコンテキストの候補を定義したリストを生成し、
算出された前記第1指標値と、算出された前記第2指標値と、生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出する、
情報処理方法。 - コンピュータに、
クエリとして入力された2つ以上のワードのそれぞれと、エンティティとの関連度を示す第1指標値を算出させ、
前記ワードをコンテキストとして含むエンティティと、前記ワードのそれぞれとの関連度を示す第2指標値を算出させ、
前記エンティティ毎にコンテキストの候補を定義したリストを生成させ、
算出された前記第1指標値と、算出された前記第2指標値と、生成された前記リストとに基づいて、前記ワードのうちの前記エンティティの名前として仮定されたワードと、前記エンティティと、前記ワードのうちの前記コンテキストとして仮定されたワードとの組み合わせの各々の生起確率を算出させる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018176380A JP6971210B2 (ja) | 2018-09-20 | 2018-09-20 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018176380A JP6971210B2 (ja) | 2018-09-20 | 2018-09-20 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020047102A true JP2020047102A (ja) | 2020-03-26 |
JP6971210B2 JP6971210B2 (ja) | 2021-11-24 |
Family
ID=69901463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018176380A Active JP6971210B2 (ja) | 2018-09-20 | 2018-09-20 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6971210B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003091552A (ja) * | 2001-09-17 | 2003-03-28 | Hitachi Ltd | 検索要求情報抽出方法及びその実施システム並びにその処理プログラム |
JP2006011739A (ja) * | 2004-06-24 | 2006-01-12 | Internatl Business Mach Corp <Ibm> | オントロジを利用する装置、コンピュータシステムおよびデータ処理方法 |
JP2010033377A (ja) * | 2008-07-29 | 2010-02-12 | Yahoo Japan Corp | Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム |
JP2011002972A (ja) * | 2009-06-18 | 2011-01-06 | Yahoo Japan Corp | クエリ分析装置、クエリ分析方法及びプログラム、並びに情報検索装置 |
JP2011118689A (ja) * | 2009-12-03 | 2011-06-16 | Univ Of Tokyo | 検索方法及びシステム |
US20150278691A1 (en) * | 2014-04-01 | 2015-10-01 | Microsoft Corporation | User interests facilitated by a knowledge base |
-
2018
- 2018-09-20 JP JP2018176380A patent/JP6971210B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003091552A (ja) * | 2001-09-17 | 2003-03-28 | Hitachi Ltd | 検索要求情報抽出方法及びその実施システム並びにその処理プログラム |
JP2006011739A (ja) * | 2004-06-24 | 2006-01-12 | Internatl Business Mach Corp <Ibm> | オントロジを利用する装置、コンピュータシステムおよびデータ処理方法 |
JP2010033377A (ja) * | 2008-07-29 | 2010-02-12 | Yahoo Japan Corp | Webクエリに対する検索要求属性を自動推定する検索装置、検索方法及びプログラム |
JP2011002972A (ja) * | 2009-06-18 | 2011-01-06 | Yahoo Japan Corp | クエリ分析装置、クエリ分析方法及びプログラム、並びに情報検索装置 |
JP2011118689A (ja) * | 2009-12-03 | 2011-06-16 | Univ Of Tokyo | 検索方法及びシステム |
US20150278691A1 (en) * | 2014-04-01 | 2015-10-01 | Microsoft Corporation | User interests facilitated by a knowledge base |
Also Published As
Publication number | Publication date |
---|---|
JP6971210B2 (ja) | 2021-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kong et al. | Academic social networks: Modeling, analysis, mining and applications | |
JP6906419B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
US9881059B2 (en) | Systems and methods for suggesting headlines | |
US10467256B2 (en) | Automatic query pattern generation | |
US20090162824A1 (en) | Automated learning from a question and answering network of humans | |
KR101452082B1 (ko) | 리서치 미션 식별 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
WO2008022581A1 (fr) | Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie | |
RU2733481C2 (ru) | Способ и система генерирования признака для ранжирования документа | |
JP2009116457A (ja) | インターネットサイト情報分析方法と装置 | |
CN111488453A (zh) | 资源分级方法、装置、设备及存储介质 | |
JP6042790B2 (ja) | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム | |
JP5490082B2 (ja) | インターネットサイト情報分析方法と装置 | |
JP6196200B2 (ja) | ラベル抽出装置、ラベル抽出方法およびプログラム | |
JP6145562B2 (ja) | 情報構造化システム及び情報構造化方法 | |
JP6971210B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971104B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5368900B2 (ja) | 情報提示装置、情報提示方法およびプログラム | |
JP7003020B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7183077B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7088693B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6676699B2 (ja) | 予約語及び属性言語間の関連度を用いた情報提供方法及び装置 | |
Mianowska et al. | A method for user profile adaptation in document retrieval | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7354019B2 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200915 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6971210 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |