JP2019057022A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2019057022A JP2019057022A JP2017180066A JP2017180066A JP2019057022A JP 2019057022 A JP2019057022 A JP 2019057022A JP 2017180066 A JP2017180066 A JP 2017180066A JP 2017180066 A JP2017180066 A JP 2017180066A JP 2019057022 A JP2019057022 A JP 2019057022A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- web page
- entity
- target text
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000011156 evaluation Methods 0.000 claims abstract description 19
- 230000007704 transition Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000002611 ovarian Effects 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 1
- 241000287486 Spheniscidae Species 0.000 description 1
- 241000272534 Struthio camelus Species 0.000 description 1
- 241000271567 Struthioniformes Species 0.000 description 1
- 210000003323 beak Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
<1−1.ナレッジデータサーバの使用環境>
図1は、本実施形態に係るナレッジデータサーバ100の使用環境及び構成を示す図である。ナレッジデータサーバ100は、端末装置200と、ウェブサーバ300と、クロール対象機器DVと、ネットワークNWを介して通信可能に接続される。ネットワークNWは、ワールドワイドウェブ(World Wide Web)を意味し、インターネットやイントラネットで標準的に用いられるHTML文書などを利用したシステムである。ネットワークNWは、無線基地局やプロバイダ装置、専用回線などを更に含んでよい。
図6は、本実施形態に係る検索結果ウェブページの一例を示す図である。図6に示されるように、表示部210には、クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ウェブページが表示される。ナレッジパネル220には、クエリに対応するエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する関連情報223とが含まれる。ユーザは、端末装置200を用いて、端末装置200の表示部210に表示された検索ページにクエリを入力する。クエリとは、一つの検索ワードまたは複数の検索ワードの組み合わせである。端末装置200は、ユーザによって入力されたクエリをウェブサーバ300に送信する。
図7は、本実施形態に係るコンテンツ情報D2の他の一例であるコンテンツ情報D2aを示す図である。ここで、コンテンツ情報D2において異なる複数のエンティティに同一のテキストデータが関連付けられる場合がある。例えば、人物を示すエンティティには、人物の性別を示す「男性」のテキストデータや「女性」のテキストデータが対応付けられる。このため、エンティティがそれぞれ異なる人物を示す場合であっても、同一のテキストデータ(例えば、「男性」や「女性」)が対応付けられる。これに対して、エンティティには、他のエンティティにあまり対応付けられないテキストデータが対応付けられる場合がある。図7は、エンティティに少数派のテキストデータが対応付けられたコンテンツ情報D2(以下、コンテンツ情報D2a)を示す図である。
図8は、本実施形態に係る検索結果ウェブページの他の一例を示す図である。クエリ入力領域211に少数派の意見であるテキストデータが入力されることに伴って、表示部210には、当該テキストデータに関連付けられているエンティティの情報を、例えば、ナレッジパネル220に表示した検索結果ウェブページが表示される。図8に示される例においては、クエリ入力領域211に「暴力男」というテキストデータが入力された場合、ナレッジデータサーバ100は、「暴力男」に関連付けられているエンティティが、「野球選手A」であると判定する。そして、ナレッジデータサーバ100は、クエリに応じたエンティティの情報として、「野球選手A」のウェブページの所在情報をウェブサーバ300に供給する。ウェブサーバ300は、「暴力男」に関連する関連データとして「野球選手A」の画像222や、「野球選手A」の生年月日や出身地等の関連情報223を含むナレッジパネル220を表示する検索結果ウェブページを生成する。この場合、ユーザは、検索結果ウェブページを参照し、「野球選手A」が「暴力男」であるという印象を受ける。また、悪意あるユーザは、「野球選手A」が「暴力男」であるという悪い印象を与えたい場合、「野球選手A」が「暴力男」であるという内容をウェブページに記載することにより、ナレッジグラフD1にこの関係が登録されるように誘導し、図8に示されるような検索結果ウェブページを表示させることができる。
図1に戻り、制御部110は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。制御部110は、例えば、選択部111と、収集部112と、得点算出部113と、所在情報取得部114と、通信I/F(Interface)115を備える。また、これらの構成要素のうち一部または全部(内包する記憶部を除く)は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。通信I/F115は、ネットワークNWを介した各機能部と、他の機器(例えば、クロールの対象機器(以下、クロール対象機器DV)、端末装置200、及びウェブサーバ300)との通信を仲介する。
得点算出部113は、百科事典ウェブページに含まれるテキストデータのうち、対象テキストデータと関連付けられたエンティティを示すテキストデータが、リンク先を示すテキスト(アンカーテキスト)として含まれる確率を算出する。関連ウェブページには、対象テキストデータ(この一例では、「3000本安打」(図示するテキストTX11)と関連付けられたエンティティ(この一例では、「野球選手A」)を示すテキストデータ(図示するテキストTX12〜14)が含まれる。また、テキストTX12〜14のうち、テキストTX12は、アンカーテキストである。また、テキストTX12に付与された他のウェブページのリンクは、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。
得点算出部113は、検索結果ウェブページに含まれる対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された確率を算出する。対象テキストデータは、「3000本安打」(図示するテキストTX21)であり、対象テキストデータと対応け付られたエンティティは、「野球選手A」である。以降の説明において、対象テキストデータと関連付けられたエンティティに係るテキストを、対象エンティティテキストデータと記載する。図10の例では、関連ウェブページには、対象テキストデータの関連ウェブページのリンクが付与されたテキストデータ(図示するテキストTX22〜24)が含まれる。このうち、対象エンティティテキストデータ(この一例では、「野球選手A」)が含まれるのは、テキストTX22である。テキストTX22に付与されたリンク先は、例えば、ナレッジグラフD1において、対象テキストデータに関連付けられたエンティティ(この一例では、「野球選手A」)に対応付けられた所在情報である。つまり、テキストTX22が有する他のウェブページのリンクは、特定のウェブページであり、一例として百科事典ウェブページである。なお、検索結果ウェブページには、リンクを有さないテキストであって、エンティティを示すテキストTX25が含まれてよい。
ここで、エンティティは、同一の文言であっても異なる事物を指す場合がある。図11は、同一の文言によって異なるエンティティのウェブページにリンクしている例を示す図である。図11に示される一例において、テキストTX22は、「野球選手A」のウェブページ(例えば、図3)のリンク先を示す。これに対し、テキストTX26は、「野球選手A」同姓同名の野球選手であって、「野球選手A」とは異なる野球チームCに所属する選手のウェブページのリンク先を示す。得点算出部113は、式(2)において、テキストTX26がクリックされた場合もエンティティクリック確率に算入する。
また、得点算出部113は、第2エンティティ確率を算出する際も、当該リンク先が図12に示されるウェブページの場合には、当該ウェブページをエンティティのウェブページとしてカウントしない。
また、得点算出部113は、関連ウェブページが百科事典ウェブページである場合において算出されたアンカーテキスト確率に対して第1エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。また、得点算出部113は、関連ウェブページが検索結果ウェブページである場合において算出されたエンティティテキストクリック確率に対して第2エンティティ確率を乗じた値に対して、以下の式(4)を更に乗じてもよい。そして、得点算出部113は、例えば、両者を加算して対数を求めることで、スコアを算出する。
以下、ナレッジデータサーバ100の動作について説明する。図14は、本実施形態のナレッジデータサーバ100の得点を算出する動作の一例を示す流れ図である。選択部111は、コンテンツ情報D2のうち、得点算出対象の対象テキストデータを選択する(S110)。次に、収集部112は、対象テキストデータに基づいて、関連ウェブページ(百科事典ウェブページ及び検索結果ウェブページ)を収集する(S120)。次に、得点算出部113は、アンカーテキスト確率及びエンティティテキストクリック確率を算出する(S130)。
なお、上述では、得点算出部113が、アンカーテキスト確率、エンティティテキストクリック確率、第1エンティティ確率、第2エンティティ確率、第1コンテンツ割合及び第2コンテンツ割合に基づいて、得点を算出する場合について説明したが、これに限られない。例えば、関連ウェブページのうち、収集された百科事典ウェブページの数が少ない場合、百科事典ウェブページに関する各種値(例えば、アンカーテキスト確率、第1エンティティ確率、及び第1コンテンツ割合)が得点の算出に与える影響は、少ない可能性がある。したがって、得点算出部113は、アンカーテキスト確率、第1エンティティ確率、及び第1コンテンツ割合を得点の算出に用いなくてもよい。また、関連ウェブページのうち、収集された検索結果ウェブページの数が少ない場合、検索結果ウェブページに関する各種値(例えば、エンティティテキストクリック確率、第2エンティティ確率及び第2コンテンツ割合)が得点の算出に与える影響は、少ない可能性がある。したがって、得点算出部113は、エンティティテキストクリック確率、第2エンティティ確率及び第2コンテンツ割合を得点の算出に用いなくてよい。
また、上述では、コンテンツ情報D2のテキストデータは、得点算出部113が算出した得点によって評価される場合について説明したが、これに限られない。得点算出部113は、例えば、算出した得点に基づいて、対象テキストデータを「適当」及び「不適当」の2段階によって評価する構成であってもよい。この場合、得点算出部113は、算出した得点が所定の閾値以上である場合、対象テキストデータに「適当」を示す情報を対応付ける。また、得点算出部113は、算出した得点が所定の閾値未満である場合、対象テキストデータに「不適当」を示す情報を対応付ける。所在情報取得部114は、取得したクエリが「不適当」が対応付けられているテキストデータと合致する場合、テキストデータに関連付けられているエンティティの所在情報を供給することが「不適当」であると判定し、当該所在情報をウェブサーバ300に供給しない。なお、得点算出部113は、対象テキストデータを2段階評価する構成に代えて、3段階以上の評価を行ってもよい。
なお、上述では、ナレッジデータサーバ100は、得点が所定の閾値以上である場合、ウェブサーバ300にエンティティの所在情報を送信する場合について説明したが、これに限られない。ここで、クエリ入力領域211には、ナレッジパネル220を表示することに適さないクエリが入力される場合がある。ナレッジパネル220を表示することに適さないクエリとは、例えば、人物の名誉棄損となるワード、公序良俗を乱すワード及び商品の評判を貶めるワード等である。この場合、得点算出部113は、コンテンツ情報D2のうち、ウェブサーバ300にエンティティの所在情報を提供しないコンテンツ情報D2を示す情報(以下、テキストデータブラックリスト)を生成する構成であってもよい。得点算出部113は、例えば、人物の名誉棄損となるワード、公序良俗を乱すワード及び商品の評判を貶めるワード等の辞書を参照し、コンテンツ情報D2のうち、当該辞書に含まれるワードと合致するテキストデータをテキストデータブラックリストに含める。この場合、所在情報取得部114は、クエリと合致するテキストデータがテキストデータブラックリストに含まれる場合、当該テキストデータの得点に関わらず、ウェブサーバ300にエンティティの所在情報を送信しない。また、ウェブサーバ300は、テキストデータブラックリストに含まれるクエリがクエリ入力領域211に入力されたことに応じて、エンティティの所在情報を受信しないため、ナレッジパネル220を表示しない。
110…制御部
111…選択部
112…収集部
113…得点算出部
114…所在情報取得部
120…記憶部
200…端末装置
210…表示部
211…クエリ入力領域
220…ナレッジパネル
221…エンティティ
222…画像
223…関連情報
230…検索結果
300…ウェブサーバ
D1…ナレッジグラフ
D2、D2a…コンテンツ情報
Claims (9)
- エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、任意の対象のテキストデータを選択する選択部と、
前記選択部によって選択された対象テキストデータに関連する一以上の関連ウェブページを収集する収集部と、
前記コンテンツ情報において前記対象テキストデータに関連付けられたエンティティ毎に、
前記収集部によって収集された一以上の関連ウェブページのうち第1種類の関連ウェブページにおいて、前記対象テキストデータがリンク先を示すテキストとして含まれる第1確率と、
前記一以上の関連ウェブページのうち第2種類の関連ウェブページにおいて、前記コンテンツ情報において前記対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された第2確率とのうち、少なくとも1つと、
前記第1種類の関連ウェブページまたは前記第2種類の関連ウェブページにおける前記テキストにより示されるリンク先にあるウェブページが、前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページである第3の確率とに基づいて、
前記対象テキストデータに対応するエンティティとしての評価を行う評価部と、
を備える情報処理装置。 - 前記評価部は、前記第1種類の関連ウェブページから前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページに遷移した事象と、前記第2種類の関連ウェブページから前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページに遷移した事象との発生確率の割合に応じて、前記第1確率と前記第2確率とに重み付けをする、
請求項1に記載の情報処理装置。 - 前記第1種類の関連ウェブページは、利用者によって編集可能な百科事典のウェブページである、
請求項1又は請求項2に記載の情報処理装置。 - 前記第2種類の関連ウェブページは、前記対象テキストデータをクエリとして用いた場合の検索結果を表示するウェブページである、
請求項1から請求項3のいずれか一項に記載の情報処理装置。 - 入力されたクエリに対して、前記評価部による評価結果を参照し、前記エンティティに関する情報を検索結果に付加して出力すべきか否かを判定する判定部を更に備える、
請求項1から請求項4のいずれか一項に記載の情報処理装置。 - 前記評価部は、前記対象テキストデータに対応するエンティティの得点を算出し、
前記判定部は、前記得点が所定の閾値以上である場合、当該得点が関連付けられたエンティティの情報を出力し、前記得点が所定の閾値より少ない場合、ナレッジデータに当該得点が関連付けられたエンティティの情報を出力しないと決定する、
請求項5に記載の情報処理装置。 - 前記判定部は、エンティティの情報を出力しない前記対象テキストデータと、当該テキストデータに関連付けられたエンティティを示す非出力コンテンツ情報を生成しておき、前記非出力コンテンツ情報を参照し、入力されたクエリに対する検索結果に付加して前記エンティティの情報を出力すべきか否かを判定する、
請求項5または6に記載の情報処理装置。 - コンピュータが、
エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、任意の対象のテキストデータを選択し、
選択された対象テキストデータに関連する一以上の関連ウェブページを収集し、
前記コンテンツ情報において前記対象テキストデータに関連付けられたエンティティ毎に、
収集された一以上の関連ウェブページのうち第1種類の関連ウェブページにおいて、前記対象テキストデータがリンク先を示すテキストとして含まれる第1確率と、
前記一以上の関連ウェブページのうち第2種類の関連ウェブページにおいて、前記コンテンツ情報において前記対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された第2確率と、のうち、少なくとも1つと、
前記テキストにより示されるリンク先にあるウェブページが前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページである第3の確率とに基づいて、
前記対象テキストデータに対応するエンティティとしての評価を行う、
情報処理方法。 - コンピュータに、
エンティティとテキストデータとが関連付けられたコンテンツ情報のうち、任意の対象のテキストデータを選択させ、
選択された対象テキストデータに関連する一以上の関連ウェブページを収集させ、
前記コンテンツ情報において前記対象テキストデータに関連付けられたエンティティ毎に、
収集された一以上の関連ウェブページのうち第1種類の関連ウェブページにおいて、前記対象テキストデータがリンク先を示すテキストとして含まれる第1確率と、
前記一以上の関連ウェブページのうち第2種類の関連ウェブページにおいて、前記コンテンツ情報において前記対象テキストデータと関連付けられたエンティティをテキストとして含むリンク先が選択された第2確率と、のうち、少なくとも1つと、
前記テキストにより示されるリンク先にあるウェブページが前記コンテンツ情報において前記対象テキストデータと関連付けられるエンティティのウェブページである第3の確率とに基づいて、
前記対象テキストデータに対応するエンティティとしての評価を行わせる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180066A JP6971104B2 (ja) | 2017-09-20 | 2017-09-20 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180066A JP6971104B2 (ja) | 2017-09-20 | 2017-09-20 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019057022A true JP2019057022A (ja) | 2019-04-11 |
JP6971104B2 JP6971104B2 (ja) | 2021-11-24 |
Family
ID=66107340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017180066A Active JP6971104B2 (ja) | 2017-09-20 | 2017-09-20 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6971104B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020042707A (ja) * | 2018-09-13 | 2020-03-19 | Zホールディングス株式会社 | 情報処理装置、情報処理方法、およびプログラム |
-
2017
- 2017-09-20 JP JP2017180066A patent/JP6971104B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020042707A (ja) * | 2018-09-13 | 2020-03-19 | Zホールディングス株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6971104B2 (ja) | 2021-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5997350B2 (ja) | ソーシャルグラフ情報に基づく構造化検索クエリ | |
JP6906419B2 (ja) | 情報提供装置、情報提供方法、およびプログラム | |
JP6415619B2 (ja) | 解析装置、解析方法、およびプログラム | |
US20100306166A1 (en) | Automatic fact validation | |
US20180268307A1 (en) | Analysis device, analysis method, and computer readable storage medium | |
US20190026361A1 (en) | Method and apparatus for providing information by using degree of association between reserved word and attribute language | |
JP6924571B2 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
JP2008176511A (ja) | コンピュータネットワークにおける情報処理方法および情報処理装置 | |
JP6971104B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
RU2632126C1 (ru) | Способ и система предоставления контекстуальной информации | |
US20200279000A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
JP5368900B2 (ja) | 情報提示装置、情報提示方法およびプログラム | |
JP7003020B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971210B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6676699B2 (ja) | 予約語及び属性言語間の関連度を用いた情報提供方法及び装置 | |
JP7354019B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7183077B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971209B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2019153024A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2019159404A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5827449B2 (ja) | オンラインソーシャルネットワークのためのパーソナライズされた構造化検索クエリ | |
JP5394512B2 (ja) | 教師データ生成装置、方法及びプログラム | |
JP2019053682A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6131983B2 (ja) | 情報検索装置、情報検索方法およびそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200306 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210406 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6971104 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |