JP7197531B2 - 情報処理装置、情報処理システム、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP7197531B2
JP7197531B2 JP2020049207A JP2020049207A JP7197531B2 JP 7197531 B2 JP7197531 B2 JP 7197531B2 JP 2020049207 A JP2020049207 A JP 2020049207A JP 2020049207 A JP2020049207 A JP 2020049207A JP 7197531 B2 JP7197531 B2 JP 7197531B2
Authority
JP
Japan
Prior art keywords
information
entity
unit
knowledge database
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020049207A
Other languages
English (en)
Other versions
JP2021149560A (ja
Inventor
将平 川崎
拓也 門脇
魁 遠山
隆広 永井
賢太郎 西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2020049207A priority Critical patent/JP7197531B2/ja
Publication of JP2021149560A publication Critical patent/JP2021149560A/ja
Application granted granted Critical
Publication of JP7197531B2 publication Critical patent/JP7197531B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、情報処理装置、情報処理システム、情報処理方法、およびプログラムに関する。
従来、ウエブからデータ(文書や画像など)を収集し、収集したデータを自動的にデータベース化するクローラが知られている(特許文献1参照)。このクローラは、ウエブページ中のリンクを辿って、様々なIPアドレスのウエブページからデータを収集する。クローラによって収集されたデータは、ウエブ情報データベースに蓄積される。
特開2012-69171号公報
しかしながら、上記従来の技術では、効率的に有用な情報を取得することができない場合があった。
本発明は、このような事情を考慮してなされたものであり、より効率的に有用な情報を取得することができる情報処理装置、情報処理システム、情報処理方法、およびプログラムを提供することを目的の一つとする。
本発明の一態様は、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集部と、複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、前記第1収集部により収集されたウエブページのデータの提供元である装置を評価する評価部と、前記評価部により第1所定度合以上の評価であると評価された装置から前記第1収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第2収集部と、前記第2収集部により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供部と、を備える情報処理装置である。
本発明の一態様によれば、より効率的に有用な情報を取得することができる。
情報処理システム1の機能構成の一例を示す図である。 ナレッジデータベース42の一部を模式的に示す図である。 ナレッジデータベース装置30が端末装置10に提供するナレッジパネルの一例を示す図である。 拡充処理の概要を説明するための図である。 収集装置100により実行される処理の流れの一例を示すフローチャートである。 S10で選択されたサンプリングウエブページの情報の一例を示す図である。 エンティティ情報134に含まれるエンティティの組み合わせの一例を示す図である。 判定情報138の内容の一例を示す図である。 信頼度付抽出情報140の内容の一例を示す図である。 既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。 決定処理の具体例(その3)について説明するための図である。 収集装置100により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。 抽出部110が記述パターンを認識する処理について説明するための図(その1)である。 抽出部110が記述パターンを認識する処理について説明するための図(その2)である。 処理の概要の一例を示す図である。 更新前のナレッジデータベース42の内容の一例を示す図である。 更新後のナレッジデータベース42の内容の一例を示す図である。 更新前のナレッジデータベース42に基づいて生成されたナレッジパネルNP1の一例を示す図である。 更新後のナレッジデータベース42に基づいて生成されたナレッジパネルNP2の一例を示す図である。
以下、図面を参照し、本発明の情報処理装置、情報処理システム、情報処理方法、およびプログラムの実施形態について説明する。
[概要]
情報処理装置は、一以上のプロセッサにより実現される。実施形態の情報処理装置は、第1収集部と、評価部と、第2収集部と、提供部とを備える。第1収集部は、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する。評価部は、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、第1収集部により収集されたウエブページのデータの提供元である装置を評価する。第2収集部は、評価部により第1所定度合以上の評価であると評価された装置から第1収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する。そして、提供部は、第2収集部により収集された情報の少なくとも一部をナレッジデータベースに提供する。
ナレッジデータベースは、エンティティに関する情報と、エンティティ同士の意味的関係に関する情報とが記述されたものである。エンティティとは、対象事物の実体または概念を表すものである。例えば、あるクエリが入力された場合において、そのクエリがエンティティに該当するものであれば、単なるキーワード検索よりも豊富な情報をユーザに返すことができる。
ナレッジデータベースにおいて記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。
クラスは、エンティティの属性を示す情報である。クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。
例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。
プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「~を体の構成要素としてもつ」という性質や、「~に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。
<第1実施形態>
[構成]
図1は、情報処理システム1の機能構成の一例を示す図である。情報処理システム1は、例えば、端末装置10、一以上のホスト20(図では20-1~20-3)と、ナレッジデータベース装置30と、検索装置50と、収集装置100とを備える。端末装置10、ホスト20、および検索装置50は、ネットワークNWを介して互いに通信する。また、ナレッジデータベース装置30、検索装置50、および収集装置100は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えばWAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
端末装置10は、ユーザが利用する端末装置である。端末装置10は、デスクトップ型端末装置や、ノートパソコンなどの可搬型端末装置、スマートフォン、タブレット型端末装置などである。ホスト20は、いわゆるウエブページを提供しているウエブサーバである。
ナレッジデータベース装置30は、例えば、所定のデータ(例えば、画像やテキストデータ)に基づいてナレッジデータベース42を生成したり、後述するナレッジパネルを提供したりするサーバである。ナレッジデータベース装置30は、収集装置100により提供された情報を取得し、取得した情報に基づく情報を利用者の端末装置10に提供する。収集装置100により提供された情報とは、例えば、これまでにナレッジデータベース装置30が有していない新しい知識(情報)を含む。
ナレッジデータベース装置30の記憶部40には、ナレッジデータベース42が記憶されている。図2は、ナレッジデータベース42の一部を模式的に示す図である。図2に示すように、エンティティには、エンティティ識別情報(例えば「E1~E7」)と、エンティティ名(例えば「A水族館」など)と、クラス(例えば「CL01」)と、不図示の当該エンティティに関連する情報とが関連付けられている。また、エンティティ間の関係を示すエッジには、プロパティが関連付けられている。図2の例では、例えばプロパティとして、公式サイトや、住所、営業時間などが関連付けられている。
なお、本実施形態では、図2のE2~E7をエンティティとして表現しているが、これらの情報は、単にエンティティE1に関連付けられた情報であってもよい。
図3は、ナレッジデータベース装置30が端末装置10に提供するナレッジパネルの一例を示す図である。例えば、ユーザが端末装置10を操作して、ポータルサイトなどの検索窓にクエリを入力し、検索装置50にクエリに関する情報の検索を依頼すると、検索装置50は、検索対象の情報を参照して、クエリに応じた情報を検索する。また、検索装置50は、ナレッジデータベース装置30に、クエリに関連するナレッジパネルの提供を依頼する。
ナレッジデータベース装置30は、ナレッジデータベース42を参照して、クエリに応じた情報を取得し、取得した情報に基づいてナレッジパネルを生成し、生成したナレッジパネルを検索装置50に提供する。検索装置50は、検索結果とナレッジパネルとを含む画像の元データを生成し、生成した情報を端末装置10に提供する。例えば、クエリ「A水族館」が検索クエリである場合、図3に示すように、A水族館に関するウエブページの一覧と、A水族館のナレッジパネルNPとを含む画像が、ユーザの端末装置10の表示部に表示される。
なお、以下の説明では、エンティティE1「A水族館」などのようにナレッジパネルにおいて主題となるようなエンティティを「主エンティティ」と称し、エンティティE2~E7のように主題を補足する情報や主題に付随する情報(営業時間や住所、公式サイト等)のエンティティを「従属エンティティ」と称する場合がある。
図1の説明に戻る。ナレッジデータベース装置30は、例えば、通信部32と、情報管理部34と、情報処理部36と、記憶部40を備える。通信部32は、ネットワークインターフェースカード(Network Interface Card)等の通信インターフェースを含む。情報管理部34は、ナレッジデータベース装置30で生成された情報を他装置に提供したり、他装置から提供された情報を管理したりする。情報処理部36は、検索装置50の依頼に応じてナレッジパネルを生成したり、収集装置100により提供された情報を用いてナレッジデータベース42を更新したりする。
[収集装置]
収集装置100は、例えば、通信部102と、第1収集部104と、第2収集部106と、解析部108と、抽出部110と、提供部112と、記憶部130を備える。第1収集部104、第2収集部106、解析部108、抽出部110、および提供部112は、CPU(Central Processing Unit)等のハードウェアプロセッサが、記憶装置に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体が収集装置100のドライブ装置に装着されることで記憶装置にインストールされてもよい。解析部108は、「評価部」の一例である。
記憶部130は、例えば、ROM(Read Only Memory)、フラッシュメモリ、SDカード、RAM(Random Access Memory)、HDD(Hard Disc Drive)、レジスタ等によって実現される。また、記憶部130の一部または全部は、NAS(Network Attached Storage)や外部ストレージサーバ装置等であってもよい。記憶部130には、例えば、収集情報132、エンティティ情報134、ホスト一覧情報136、判定情報138、抽出情報140、および信頼度付抽出情報142が記憶されている。これらの情報の詳細については後述する。なお、これらの情報のうち一部の情報(例えば信頼度付抽出情報142)は省略されてもよい。
通信部102は、ネットワークNWを介して、ホスト20、ナレッジデータベース装置30または検索装置50と通信する。通信部102は、例えば、NIC(Network Interface Card)等の通信インターフェースを含む。
第1収集部104は、所定のプロトコルに従って、ホスト20から情報を収集し、収集した情報を収集情報132として記憶部130に記憶させる。また、例えば、第1収集部104は、各ホスト20から少量のページ(以下、サンプリングウエブページ)を収集し、収集したサンプリングウエブページを収集情報132として記憶部130に記憶させる。
第2収集部106は、解析部108により第1所定度合以上の評価であると評価されたホスト(例えばサーバ装置)から第1収集部104がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する。
解析部108は、ナレッジデータベース装置30が有する情報と、第1収集部104が収集した情報とに基づいて、ナレッジデータベース装置30が有していない情報を第2所定度合以上有していると推定される装置の評価を、第1所定度合以上であると評価する。
解析部108は、ナレッジデータベース42を参照し、第1収集部104により取得されたウエブページ(例えばサンプリングウエブページ)において主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、当該ウエブページの提供元のホスト20を評価し、そのホスト20をサンプリングウエブページ以外の未収集のウエブページを優先的に収集する対象とするか否かを決定する。
解析部108は、例えば、複数の対象ウエブページから同じファクトが得られた場合、複数の対象ウエブページの情報に基づいて、フォクトの信頼度を導出する。ファクトとは、ナレッジデータベース42のエンティティの組み合わせが含まれているという事実である。
抽出部110は、第2収集部106により収集されたウエブページの情報から、ナレッジデータベース装置30が有していない情報を抽出する。
抽出部110は、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベース42を参照し、第2収集部106により取得されたウエブページにおいて、ナレッジデータベース42に含まれる第1主エンティティと、第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識する。第1表現パターンおよび後述する第2表現パターンは、ウエブページの生成に用いられる言語の記述パターンである。記述パターンは、言語の階層構造である。
抽出部110は、ナレッジデータベース42に含まれ且つ関連付けられるべき第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ第1表現パターンに合致する第2表現パターンを、ウエブページにおいて抽出する。
抽出部110は、第1表現パターンにおける第1主エンティティと第1従属エンティティとの相対関係に基づいて、抽出部110により抽出された第2表現パターンにおいて、第2従属エンティティを特定する。抽出部110の処理の詳細については後述する(図12~図15参照)。
提供部112は、抽出部110により抽出された情報をナレッジデータベース装置30に提供する。提供部112は、ナレッジデータベース42を拡充するために第2表現パターンに基づく情報をナレッジデータベース装置30に提供する。
以下、ナレッジパネルで提供する情報を拡充するための処理(拡充処理)について説明する。図4は、拡充処理の概要を説明するための図である。以下の(1)-(6)の処理が実行されることにより、ナレッジパネルが拡充される。
(1)第1収集部104が、多様なホスト(20-1、20-2・・・)が提供するコンテンツを少量ずつ収集して、記憶部130に収集情報132として記憶する。
(2)解析部108は、既知の知識を使って、コンテンツを収集したホストに新しい知識(ナレッジデータベース装置30が有さない知識)がありそうか否かを評価する。図示する例では、解析部108は、ナレッジデータベース装置30に提供された情報を参照しているが、実際は、記憶部130のエンティティ情報134を参照して、この処理を行う。エンティティ情報134は、ナレッジデータベース42と同様の情報、或いは前述した図2で示したようなナレッジデータベース42の一部の情報である。この処理については、図5のフローチャートを参照して説明する。
(3)解析部108は、上記の評価結果に基づいて、新しい知識の獲得が期待できるホスト一覧情報136を、第2収集部106が参照できるように生成する。
(4)第2収集部106は、ホスト一覧情報136を参照して、新しい知識の獲得が期待される少数の有力なホストの全コンテンツを収集して保存する。この処理を深堀処理と称する場合がある。
(5)抽出部110は、深堀処理で収集されたコンテンツを解析して、新しい知識を獲得する。
(6)提供部112は、抽出された新しい知識を保存して、ナレッジデータベース装置30に提供する。
例えば、これらの処理は、所定の周期で繰り返し実行される。この処理(上記の(3))において、解析部108は、ホスト一覧情報136を更新してもよい。例えば、前回の処理において新しい知識の獲得が期待できるホストであったが、今回の処理では新しい知識の獲得が期待できるホストでなくなった場合、解析部108は、ホスト一覧情報136から新しい知識の獲得が期待できなくなったホストを除いてもよい。また、ホスト一覧情報136には、新しい知識の獲得が期待できると期待される期待値が所定以上のホストが含まれていてもよい。この場合、解析部108は、ある処理の周期においてホストに付与される期待値が変更された場合、期待値に基づいてホスト一覧情報136のホストを更新する。第2収集部106は、更新されたホスト一覧情報136を参照して、新しい知識の獲得が期待される少数の有力なホストの全コンテンツを収集して保存する処理を行う。
[フローチャート(その1)]
図5は、収集装置100により実行される処理の流れの一例を示すフローチャートである。本処理は、収集装置100が、対象のホストを深堀処理の対象とするか否かを決定する決定処理の一例である。処理の詳細については、後述する図6~図8を参照して説明する。
まず、抽出部110が、収集情報132のうち、同一のホストにより提供される一以上のサンプリングウエブページを選択する(S10)。次に、抽出部110は、エンティティ情報134を参照し、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択する(S12)。
次に、抽出部110は、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定する(S14)。次に、抽出部110は、判定結果を判定情報138として記憶部130に記憶させる(S16)。
次に、抽出部110は、すべての、エンティティとエンティティとの組み合わせを選択したか否かを判定する(S18)。すべての組み合わせを選択していない場合、ステップS12の処理に戻る。
すべての組み合わせを選択した場合、抽出部110は、すべてのサンプリングウエブページの情報を選択したか否かを判定する(S20)。すべてのサンプリングウエブページの情報を選択していない場合、ステップS10の処理に戻る。
すべてのサンプリングウエブページの情報を選択した場合、抽出部110は、判定結果である判定情報138に基づいて、深堀対象のホスト20を決定する(S22)。決定された深堀対象のホスト20の情報は、ホスト一覧情報136に含まれる。また、S22の処理に基づいて、ホスト一覧情報136は更新される。
次に、第2収集部106が、決定された深堀対象であるホスト20において、収集していないウエブページ(サンプリングウエブページ以外のウエブページ)を収集し、収集した情報を収集情報132として記憶部130に記憶させる(S24)。すなわち、第2収集部106は、少量の収集結果から決定した有用なホスト(深堀対象のホスト)を深堀する深堀処理を行う。これにより本フローチャートの処理は終了する。
なお、第2収集部106は、所定のタイミングで、深堀対象とされなかったホスト20からも、このホスト20が有し、且つ未収集の情報を収集し、収集した情報を収集情報132として記憶部130に記憶させる。
[決定処理の他の一例]
また、上述したフローチャートの例では、抽出部110が、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択し(S12)、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定するものとしたが、これに代えて、以下のように処理が行われてもよい。
(A)抽出部110が、抽出対象のエンティティ(例えば、後述する図6、7のC美術館を列挙する。
(B)抽出部110が、サンプリングウエブページに、抽出対象のエンティティが含まれているか否かを判定する。
(C)抽出対象のエンティティが含まれている場合、抽出部110は、ナレッジデータベース42に含まれ、且つウエブページに含まれていたエンティティ(例えば、図6、7のAミュージアム、B博物館)と抽出対象のプロパティ(例えば、図6、7の公式サイト)で関連付けられていたエンティティ(例えば、図6、7のAミュージアム、B博物館の公式サイト)を列挙する。
(D)抽出部110が、抽出対象のプロパティで関連付けられたエンティティが当該ウエブページに含まれているか否かを判定する処理を行う。そして、抽出部110は、判定結果に基づいて、当該ウエブページの提供元のホスト20を深堀対象とするか否かを決定する。
[決定処理の具体例(その1)]
図6は、S10で選択されたサンプリングウエブページの情報の一例を示す図である。例えば、サンプリングウエブページにおいて、観光地の名称と、観光地のURLとが含まれているものとする。例えば、サンプリングウエブページにおいて「Aミュージアム」、「URL001」、「B博物館」、「URL002」、「C美術館」、および「URL003」が含まれている。
図7は、エンティティ情報134に含まれるエンティティの組み合わせの一例を示す図である。例えば、「Aミュージアム」と「URL001」とがプロパティ「公式サイト」で関連付けられ、「B博物館」と「URL002」とがプロパティ「公式サイト」で関連付けられている。そして、エンティティ情報134には、エンティティ「C美術館」が含まれるが、「C美術館」には「URL003」は関連付けられていない。施設のURL(プロパティ)という関係に基づいて、施設の名称「Aミュージアム(第1主エンティティ))が「URL001(第1従属エンティティ)」に関連付けられている場合、施設のURL(プロパティ)という関係に基づいて、「URL002(第2従属エンティティ)」が関連付けられていない施設の名称「C美術館」は、「第2主エンティティ」の一例となる。
図8は、判定情報138の内容の一例を示す図である。判定情報138は、ホストIDに対して、エンティティの組み合わせ、スコア、および深堀対象とするか否かの判定結果を示す情報が互いに関連付けられた情報である。前述した図5のフローチャートのS12~S18の処理において、「Aミュージアム」と「URL001」との組み合わせ、および「B博物館」と「URL002」との組み合わせは、選択されたサンプリングウエブページの情報に含まれていると判定される。抽出部110は、例えば、上述したように2つの組み合わせがサンプリングウエブページの情報に含まれる場合、スコア「2」と決定する。例えば、抽出部110は、スコア「2」以上のサンプリングウエブページを提供したホスト20を深堀対象のホストとして決定する。スコア「2」以上のホストは、第1所定度合以上と評価されるホスト、または所定以上の期待値を有するホストの一例である。
上記の例では、プロパティで関連付けられたエンティティとエンティティとの組み合わせが、第1収集部104により収集された情報に含まれる度合に基づいて、装置が評価されるものとして説明したが、これに限られず、例えば、所定のエンティティまたは所定のワードが第1収集部104により収集された情報に含まれる度合に基づいて、装置が評価されてもよい。
[決定処理の具体例(その2)]
例えば、解析部108は、ウエブページにおける既知のエンティティの組み合わせの割合に基づいて、信頼度である統合スコアを導出し、導出した統合スコアと抽出情報140とを合わせて信頼度付抽出情報142を生成する。そして、解析部108は、統合スコアが閾値以上のエンティティの組み合わせをナレッジデータベース装置30に提供することを決定する。
図9は、信頼度付抽出情報142の内容の一例を示す図である。信頼度付抽出情報142は、対象ウエブページに含まれるエンティティの組み合わせと、その組み合わせがナレッジデータベース42において既知であるか、未知であるかを示す情報と、対象ウエブページにおいてエンティティの組み合わせが既知の割合、および統合スコアが互いに関連付けられた情報である。例えば、解析部108は、対象ウエブページに含まれるエンティティの組み合わせがナレッジデータベース42において既知であるか、未知あるかを判定し、判定結果に基づいて、エンティティの組み合わせに対する既知のエンティティの組み合わせの割合を導出する。
そして、解析部108は、所定のモデルに、対象ウエブページごとに導出した既知の割合を適用して、統合スコアを導出する。所定のモデルとは、例えば、式(1)である。式(1)の「x」は、ホストID「001」のホスト20から収集された第1対象ウエブページにおける既知の割合であり、「y」は、ホストID「002」のホスト20から収集された第2対象ウエブページにおける既知の割合である。「α」は、任意に設定されるパラメータ(例えば「0.1」)である。
Figure 0007197531000001
図10は、既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。図10に示すように式(1)は、「x」、「y」の両方の既知の割合が高い場合、統合スコアは高い傾向に導出され、「x」、「y」の両方の既知の割合が低い場合、統合スコアは低い傾向に導出される関数である。
このように、解析部108が、第1ウエブページと第2ウエブページとの既知の割合に基づいて、統合スコアを導出することにより、より精度よく統合スコアを導出することができる。そして、解析部108は、統合スコアに基づいて、深堀対象のホストを決定する。例えば、解析部108は、統合スコアが閾値以上のホスト(例えばホストの組み合わせ)を深堀対象のホストに決定する。
上述したように、深堀対象のホスト20が決定され、深堀対象のホスト20に対して優先的に深堀処理が行われる。これにより、有用なホスト20が有する情報が優先的に収集される。なお、上記処理において、ホストに代えて、ウエブページごとや、ドメインごと、URLごと、URLにおける所定の階層ごとに既知の割合が求められ、ホストに対する統合スコアが求められてもよい。
[決定処理の具体例(その3)]
例えば、解析部108は、ホスト20ごとや、ドメインごとに、そのホスト20またはドメインを深堀対象とするか否かを決定することに代えて、ドメインよりも下位の階層を深堀対象とするか否かを決定してもよい。
図11は、決定処理の具体例(その3)について説明するための図である。図11に示すように、URLは、ドメインや、ドメインに関連付けられたドメインよりも下位の階層のディレクトリや、ファイル名などを含む。図11の例では、URLは、第1下位階層、および第1下位階層よりも下位の第2下位階層を含む。例えば、解析部108は、ドメインおよび第1下位階層ごとや、第2下位階層を含むURLごとに、深堀処理の対象とするか否かを決定してもよい。例えば、所定のドメインおよび第1下位階層が深堀対象とされる場合、第1下位階層以下の階層にアクセスすることにより取得可能な情報に対して深堀処理が行われる。
また、解析部108は、所定の正規表現を含むまたは合致する表現を含むドメインまたはURLを、深堀処理の対象とするか否かを決定してもよい。例えば、解析部108は、ドメインおよび第1下位階層を有し、第2下位階層と合致する表現を含むURLを深堀処理の対象としてもよい。例えば、解析部108は、第2下位階層において「member」または「member」と「数字」とを含むURLを深堀処理の対象とする。
[フローチャート(その2)]
図12は、収集装置100により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。本フローチャートは、特定エンティティに対して、所定のプロパティで関連付けられるべきエンティティを特定する処理である。特定エンティティとは、関連付けられるべきエンティティ(第2従属エンティティ)が関連付けられていないエンティティ(第2主エンティティ)である。上述した例では、C美術館が特定エンティティに該当する。C美術館に対して、関連付けられるべきエンティティ「URL***」が関連付けられていないためである。処理の詳細については、後述する図13~図15を参照して説明する。
まず、収集装置100の抽出部110が、収集情報132に含まれるウエブページを取得する(S100)。
次に、抽出部110が、取得したウエブページ(以下、対象ウエブページ)において、プロパティで関連付けられたエンティティとエンティティとの組み合わせを含む第1記述パターン(第1表現パターン)を認識する(S102)。エンティティとエンティティとの組み合わせは、例えば、特定エンティティと同一のクラスのエンティティ(例えば施設)と、特定エンティティに対して関連付けられるべきエンティティのクラスを有するエンティティ(例えば施設のURL)との組み合わせである。
次に、抽出部110は、認識した第1記述パターンに基づいて、エンティティの組み合わせの相対位置を特定する(S104)。次に、抽出部110は、S100で取得した対象ウエブページから、特定エンティティを含み、且つ認識した第1記述パターンに合致する第2記述パターン(第2表現パターン)を抽出する(S106)。
次に、抽出部110が、第2記述パターンにおいて、S104で特定した第1記述パターンの相対位置に対応する相対位置を特定する(S108)。次に、抽出部110が、特定した相対位置に関連付けられた情報のうち、特定エンティティが記述された位置(第1位置)とは異なる位置(第2位置)に関連付けられた情報を抽出し、抽出した情報を抽出情報140として記憶部130に記憶させる(S110)。抽出情報140は、特定エンティティと、本処理により抽出された特定エンティティに対して、所定のプロパティによって関連付けられるエンティティとが互いに関連付けられた情報である。
次に、抽出部110は、すべての処理対象のウエブページの情報を選択したか否かを判定する(S112)。すべての処理対象のウエブページの情報を選択していない場合、S100の処理に戻る。すべての処理対象のウエブページ情報を選択した場合、提供部112が、抽出情報140をナレッジデータベース装置30に送信する(S114)。これにより本フローチャートの1ルーチンの処理は終了する。
なお、処理対象のウエブページは、上述したように収集情報132に含まれるすべてのウエブページであってもよいし、設定されたウエブページであってもよい。また、処理対象のウエブページは、深堀対象のホスト20から取得されたウエブページであってもよい。また、抽出部110が、ナレッジデータベース42を参照し、第2収集部106により取得されたウエブページにおいて主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、ウエブページ(またはホスト20)を抽出部110の処理対象とするか否かを決定してもよい。
図13は、抽出部110が記述パターンを認識する処理について説明するための図(その1)である。図14は、抽出部110が記述パターンを認識する処理について説明するための図(その2)である。例えば、図13に示すように、抽出部110は、対象ウエブページのHTML(Hyper Text Markup Language)などのソースコードを認識する。そして、図14に示すように、抽出部110は、ナレッジデータベース42に含まれるエンティティの組み合わせを含むソースコードの記述パターンAを認識する。
図示する例では、ソースコードは、「dt」、「span」、「dd」、「a」の順で並び、「span」の後にエンティティ「Aミュージアム」が関連付けられ、「a」に対してエンティティ「URL」が関連付けられている。エンティティ「Aミュージアム」とエンティティ「URL001」とは、ナレッジデータベース42おいて関連付けられたエンティティの組み合わせである。また、エンティティ「B博物館」についても同様である。
この場合において、抽出部110は、「span」の後にエンティティ「施設名」が関連付けられ、「a」に対してエンティティ「施設名のURL」が関連付けられていることを認識する。これにより、記述パターンにおける、エンティティの組み合わせの相対位置を特定される。「施設名」が付与されている位置は、「第1位置」の一例であり、「施設名のURL」が付与されている位置は、「第2位置」の一例である。
抽出部110は、上記のような記述パターンAに合致する記述パターンを抽出する。合致する記述パターンは、ソースコードが、「dt」、「span」、「dd」、「a」の順で並び、「span」の後にナレッジデータベース42に含まれる施設のエンティティが関連付けられているパターンである。例えば、抽出部110は、「span」の後にエンティティ「C美術館」が関連付けられた記述パターンAを認識する。そして、抽出部110が、エンティティの組み合わせの相対位置に基づいて、「a」に対してエンティティ「C美術館のURL003」が関連付けられていることを特定する。
上記処理をまとめると、図15に示すように表すことができる。収集装置100は、記述パターン「dt」、「span」、「dd」、「a」を認識し、「span」の後にエンティティ「施設名」が関連付けられ、「a」にエンティティ「施設名のURL」が関連付けられていることを認識する。そして、収集装置100は、ナレッジデータベース42において、エンティティ「URL」が関連付けられていないエンティティである施設名「C美術館」のURLは、記述パターンAの「a」に関連付けられていると認識する。
このように、収集装置100は、エンティティの組み合わせを含む言語の階層構造である記述パターンに基づいて、未知の情報である特定エンティティに対して関連付けられる情報を特定することができる。換言すると、抽出部110は、第1表現パターンにおける所定の位置(例えば、第1主エンティティまたは「dt」)から第1従属エンティティに至るまでの階層構造における特定経路(「dt」→「span」→「dd」→「a」)を特定し、第2表現パターンにおいて、特定経路を辿って第2従属エンティティを特定することができる。
図16は、更新前のナレッジデータベース42の内容の一例を示す図である。ナレッジデータベース42において、「C美術館」のURLは、エンティティ「C美術館」に対して関連付けられていない。
図17は、更新後のナレッジデータベース42の内容の一例を示す図である。ナレッジデータベース装置30が、「C美術館」の「URL」を収集装置100から取得すると、ナレッジデータベース装置30は、エンティティ「C美術館」に対して、収集装置100から送信されたURLを関連付ける。
図18は、更新前のナレッジデータベース42に基づいて生成されたナレッジパネルNP1の一例を示す図である。ユーザが、検索クエリ「C美術館」を入力した場合、ナレッジデータベース装置30は、エンティティ「C美術館」に対して、URLが関連付けられていないため、ナレッジパネルにおいて、URLを含めることができない。
これに対して、更新後のナレッジデータベース42に基づいてナレッジパネルが生成された場合、図19に示すようにナレッジデータベース装置30は、エンティティ「C美術館」に対して、URLが関連付けられているため、ナレッジパネルNP2において、URLを含めることができる。
このように、ナレッジデータベース装置30が、更新されたナレッジデータベース42を用いることにより、より有益な情報をユーザに提供することができる。
なお、上述した例は、ソースコードの表現パターンに基づいて、処理が行われるものとして説明したが、これに代えて(或いは加えて)、画像のパターンに基づいて、特定エンティティに対して関連付けられるべき情報が特定されてもよい。例えば、抽出部110は、画像における施設名が表示された位置とURLが表示された位置に基づいて、ナレッジデータベース42においてURLの情報が関連付けられていない施設のURLを特定してもよい。
以上説明した第1実施形態によれば、収集装置100が、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、第1所定度合以上の評価であると評価された装置から第1収集部104がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集し、収集した情報の少なくとも一部を前記ナレッジデータベースに提供することにより、より効率的に有用な情報を取得することができる。例えば、収集装置100が、単位時間あたりに収集できる情報には上限があるため、単純に情報を収集する場合、有用な情報を取得することができない場合がある。本実施形態の収集装置100は、第1収集部104が収集した情報を評価して、有用な情報を得られると推定される装置(ホスト)またはURL等に対して重点的に情報の収集を行う処理を行う。これにより、効率的に有用な情報を取得することができる。また、取得した情報は、ナレッジデータベース装置30に提供され、ナレッジデータベース装置30は、新たに取得した情報を利用者の端末装置10に提供することができる。これにより、利用者の利便性も向上する。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
1‥情報処理システム、10‥端末装置、20‥ホスト、30‥ナレッジデータベース装置、42‥ナレッジデータベース、100‥収集装置、102‥通信部、104‥第1収集部、106‥第2収集部、108‥解析部、110‥抽出部、112‥提供部、130‥記憶部、134‥エンティティ情報、136‥ホスト一覧情報、138‥判定情報、140‥抽出情報、142‥信頼度付抽出情報

Claims (9)

  1. ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集部と、
    複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する前記関係情報を参照し、前記第1収集部により収集されたウエブページのデータの提供元である装置を評価する評価部であって、
    前記第1収集部が収集した情報において、前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティの組み合わせが含まれる個数から得られたスコアに基づいて、前記ナレッジデータベースが有していない情報を第2所定度合以上有していると推定される装置の評価を、第1所定度合以上であると評価する評価部と、
    前記評価部により前記第1所定度合以上の評価であると評価されなかった装置よりも優先して前記評価部により前記第1所定度合以上の評価であると評価された装置から前記第1収集部が収集していないウエブページの情報を収集する第2収集部と、
    前記第2収集部により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供部と、
    を備える情報処理装置。
  2. 前記第2収集部により収集されたウエブページの情報から、前記ナレッジデータベースが有していない情報を抽出する抽出部を更に備え、
    前記提供部は、前記抽出部により抽出された抽出情報を前記ナレッジデータベースに提供する、
    請求項1に記載の情報処理装置。
  3. 前記抽出部は、
    前記第2収集部により収集されたウエブページの情報において、前記ナレッジデータベースに含まれる第1主エンティティと、前記第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識し、
    前記ウエブページにおいて、前記ナレッジデータベースに含まれる第2主エンティティであって前記第1従属エンティティと同種の第2従属エンティティであり前記第2主エンティティに関連付けられるべき前記第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ前記第1表現パターンのうち前記第1主エンティティが前記第2主エンティティに置換されたものに類似する第2表現パターンにおける前記第2従属エンティティを抽出し、
    前記提供部は、少なくとも前記抽出部により抽出された前記第2従属エンティティを前記ナレッジデータベースに提供する、
    請求項に記載の情報処理装置。
  4. 前記第1表現パターンおよび前記第2表現パターンは、ウエブページの生成に用いられる言語の記述パターンである、
    請求項に記載の情報処理装置。
  5. 前記記述パターンは、言語の階層構造である、
    請求項に情報処理装置。
  6. 前記第1表現パターンであるウエブページの生成に用いられる言語の第1記述パターンと、前記第2表現パターンである前記言語の第2記述パターンとは類似し、
    前記抽出部は、前記第1記述パターンにおける前記第1主エンティティの第1位置、前記第1記述パターンにおける前記第1従属エンティティの第2位置、および前記第2記述パターンにおける前記第2主エンティティの第1位置に基づいて、前記第2記述パターンにおける第2位置を特定し、前記第2位置に記述された情報を前記第2従属エンティティとして抽出する、
    請求項からのうちいずれか1項に記載の情報処理装置。
  7. 請求項からのうちいずれか1項に記載された情報処理装置と、
    前記情報処理装置の前記抽出部により提供された抽出情報を取得し、前記抽出情報に基づく情報を利用者の端末装置に提供するナレッジデータベースと、
    を備える情報処理システム。
  8. コンピュータが、
    ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集処理と、
    複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する前記関係情報を参照し、前記第1収集処理により収集されたウエブページのデータの提供元である装置を評価する評価処理であって
    前記第1収集処理において収集した情報において、前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティの組み合わせが含まれる個数から得られたスコアに基づいて、前記ナレッジデータベースが有していない情報を第2所定度合以上有していると推定される装置の評価を、第1所定度合以上であると評価する評価処理と、
    前記評価処理により前記第1所定度合以上の評価であると評価されなかった装置よりも優先して前記評価処理により前記第1所定度合以上の評価であると評価された装置から前記第1収集処理で収集していないウエブページの情報を収集する第2収集処理と、
    前記第2収集処理により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供処理と、
    を備える情報処理方法。
  9. コンピュータに、
    ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集処理と、
    複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する前記関係情報を参照し、前記第1収集処理により収集されたウエブページのデータの提供元である装置を評価する評価処理であって
    前記第1収集処理において収集した情報において、前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティの組み合わせが含まれる個数から得られたスコアに基づいて、前記ナレッジデータベースが有していない情報を第2所定度合以上有していると推定される装置の評価を、第1所定度合以上であると評価する評価処理と、
    前記評価処理により前記第1所定度合以上の評価であると評価されなかった装置よりも優先して前記評価処理により前記第1所定度合以上の評価であると評価された装置から前記第1収集処理で収集していないウエブページの情報を収集する第2収集処理と、
    前記第2収集処理により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供処理と、
    を実行させるプログラム。
JP2020049207A 2020-03-19 2020-03-19 情報処理装置、情報処理システム、情報処理方法、およびプログラム Active JP7197531B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020049207A JP7197531B2 (ja) 2020-03-19 2020-03-19 情報処理装置、情報処理システム、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020049207A JP7197531B2 (ja) 2020-03-19 2020-03-19 情報処理装置、情報処理システム、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021149560A JP2021149560A (ja) 2021-09-27
JP7197531B2 true JP7197531B2 (ja) 2022-12-27

Family

ID=77848952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020049207A Active JP7197531B2 (ja) 2020-03-19 2020-03-19 情報処理装置、情報処理システム、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP7197531B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060293879A1 (en) 2005-05-31 2006-12-28 Shubin Zhao Learning facts from semi-structured text
WO2011105606A1 (ja) 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体
JP2012238296A (ja) 2011-04-28 2012-12-06 Ird:Kk データベース構築装置、商標侵害検知装置、データベース構築方法、およびプログラム
JP2014527228A (ja) 2011-08-04 2014-10-09 グーグル・インコーポレーテッド 検索結果を伴う知識パネルを提供すること
JP2019040297A (ja) 2017-08-23 2019-03-14 ヤフー株式会社 データ収集装置、データ収集方法、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060293879A1 (en) 2005-05-31 2006-12-28 Shubin Zhao Learning facts from semi-structured text
WO2006132793A3 (en) 2005-05-31 2007-02-08 Google Inc Learning facts from semi-structured text
WO2011105606A1 (ja) 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体
JP2012238296A (ja) 2011-04-28 2012-12-06 Ird:Kk データベース構築装置、商標侵害検知装置、データベース構築方法、およびプログラム
JP2014527228A (ja) 2011-08-04 2014-10-09 グーグル・インコーポレーテッド 検索結果を伴う知識パネルを提供すること
JP2019040297A (ja) 2017-08-23 2019-03-14 ヤフー株式会社 データ収集装置、データ収集方法、およびプログラム

Also Published As

Publication number Publication date
JP2021149560A (ja) 2021-09-27

Similar Documents

Publication Publication Date Title
JP6906419B2 (ja) 情報提供装置、情報提供方法、およびプログラム
JP4350744B2 (ja) 地域情報検索結果の提供方法およびシステム
US7499965B1 (en) Software agent for locating and analyzing virtual communities on the world wide web
US8001106B2 (en) Systems and methods for tokenizing and interpreting uniform resource locators
CN108052632B (zh) 一种网络信息获取方法、系统及企业信息搜索系统
US20120023127A1 (en) Method and system for processing a uniform resource locator
US20090248707A1 (en) Site-specific information-type detection methods and systems
US20160140232A1 (en) System and Method of Expanding a Search Query
CN102254004A (zh) 一种网络日志挖掘中的Web建模方法及系统
US20160140130A1 (en) Method of Naming Query Clusters
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
JP2011034399A (ja) Webページの関連性抽出方法、装置、及びプログラム
JP7434867B2 (ja) ウェブページから情報を抽出する方法、装置及び記憶媒体
JP7197531B2 (ja) 情報処理装置、情報処理システム、情報処理方法、およびプログラム
KR100975510B1 (ko) 웹 페이지 색인 업데이트 방법 및 시스템
JP2016045552A (ja) 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置
JP7434493B2 (ja) 情報処理装置、情報処理システム、情報処理方法、およびプログラム
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
JP7003020B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113569044A (zh) 一种基于自然语言处理技术的网页文本内容的分类方法
JP6079207B2 (ja) キーワード提示プログラム、キーワード提示方法及びキーワード提示装置
JP6749865B2 (ja) 情報収集装置、および、情報収集方法
JP7078569B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111078976A (zh) 一种基于医疗系统爬虫提取数据的方法
JP7183077B2 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211020

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221215

R150 Certificate of patent or registration of utility model

Ref document number: 7197531

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350