JP7197531B2

JP7197531B2 - 情報処理装置、情報処理システム、情報処理方法、およびプログラム

Info

Publication number: JP7197531B2
Application number: JP2020049207A
Authority: JP
Inventors: 将平川崎; 拓也門脇; 魁遠山; 隆広永井; 賢太郎西
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2022-12-27
Anticipated expiration: 2040-03-19
Also published as: JP2021149560A

Description

本発明は、情報処理装置、情報処理システム、情報処理方法、およびプログラムに関する。

従来、ウエブからデータ（文書や画像など）を収集し、収集したデータを自動的にデータベース化するクローラが知られている（特許文献１参照）。このクローラは、ウエブページ中のリンクを辿って、様々なＩＰアドレスのウエブページからデータを収集する。クローラによって収集されたデータは、ウエブ情報データベースに蓄積される。

特開２０１２－６９１７１号公報

しかしながら、上記従来の技術では、効率的に有用な情報を取得することができない場合があった。

本発明は、このような事情を考慮してなされたものであり、より効率的に有用な情報を取得することができる情報処理装置、情報処理システム、情報処理方法、およびプログラムを提供することを目的の一つとする。

本発明の一態様は、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第１収集部と、複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、前記第１収集部により収集されたウエブページのデータの提供元である装置を評価する評価部と、前記評価部により第１所定度合以上の評価であると評価された装置から前記第１収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第２収集部と、前記第２収集部により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供部と、を備える情報処理装置である。

本発明の一態様によれば、より効率的に有用な情報を取得することができる。

情報処理システム１の機能構成の一例を示す図である。ナレッジデータベース４２の一部を模式的に示す図である。ナレッジデータベース装置３０が端末装置１０に提供するナレッジパネルの一例を示す図である。拡充処理の概要を説明するための図である。収集装置１００により実行される処理の流れの一例を示すフローチャートである。Ｓ１０で選択されたサンプリングウエブページの情報の一例を示す図である。エンティティ情報１３４に含まれるエンティティの組み合わせの一例を示す図である。判定情報１３８の内容の一例を示す図である。信頼度付抽出情報１４０の内容の一例を示す図である。既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。決定処理の具体例（その３）について説明するための図である。収集装置１００により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。抽出部１１０が記述パターンを認識する処理について説明するための図（その１）である。抽出部１１０が記述パターンを認識する処理について説明するための図（その２）である。処理の概要の一例を示す図である。更新前のナレッジデータベース４２の内容の一例を示す図である。更新後のナレッジデータベース４２の内容の一例を示す図である。更新前のナレッジデータベース４２に基づいて生成されたナレッジパネルＮＰ１の一例を示す図である。更新後のナレッジデータベース４２に基づいて生成されたナレッジパネルＮＰ２の一例を示す図である。

以下、図面を参照し、本発明の情報処理装置、情報処理システム、情報処理方法、およびプログラムの実施形態について説明する。

［概要］
情報処理装置は、一以上のプロセッサにより実現される。実施形態の情報処理装置は、第１収集部と、評価部と、第２収集部と、提供部とを備える。第１収集部は、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する。評価部は、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、第１収集部により収集されたウエブページのデータの提供元である装置を評価する。第２収集部は、評価部により第１所定度合以上の評価であると評価された装置から第１収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する。そして、提供部は、第２収集部により収集された情報の少なくとも一部をナレッジデータベースに提供する。

ナレッジデータベースは、エンティティに関する情報と、エンティティ同士の意味的関係に関する情報とが記述されたものである。エンティティとは、対象事物の実体または概念を表すものである。例えば、あるクエリが入力された場合において、そのクエリがエンティティに該当するものであれば、単なるキーワード検索よりも豊富な情報をユーザに返すことができる。

ナレッジデータベースにおいて記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

クラスは、エンティティの属性を示す情報である。クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「～を体の構成要素としてもつ」という性質や、「～に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

＜第１実施形態＞
［構成］
図１は、情報処理システム１の機能構成の一例を示す図である。情報処理システム１は、例えば、端末装置１０、一以上のホスト２０（図では２０－１～２０－３）と、ナレッジデータベース装置３０と、検索装置５０と、収集装置１００とを備える。端末装置１０、ホスト２０、および検索装置５０は、ネットワークＮＷを介して互いに通信する。また、ナレッジデータベース装置３０、検索装置５０、および収集装置１００は、ネットワークＮＷを介して互いに通信する。ネットワークＮＷは、例えばＷＡＮ（Wide Area Network）やＬＡＮ（Local Area Network）、インターネット、専用回線、無線基地局、プロバイダなどを含む。

端末装置１０は、ユーザが利用する端末装置である。端末装置１０は、デスクトップ型端末装置や、ノートパソコンなどの可搬型端末装置、スマートフォン、タブレット型端末装置などである。ホスト２０は、いわゆるウエブページを提供しているウエブサーバである。

ナレッジデータベース装置３０は、例えば、所定のデータ（例えば、画像やテキストデータ）に基づいてナレッジデータベース４２を生成したり、後述するナレッジパネルを提供したりするサーバである。ナレッジデータベース装置３０は、収集装置１００により提供された情報を取得し、取得した情報に基づく情報を利用者の端末装置１０に提供する。収集装置１００により提供された情報とは、例えば、これまでにナレッジデータベース装置３０が有していない新しい知識（情報）を含む。

ナレッジデータベース装置３０の記憶部４０には、ナレッジデータベース４２が記憶されている。図２は、ナレッジデータベース４２の一部を模式的に示す図である。図２に示すように、エンティティには、エンティティ識別情報（例えば「Ｅ１～Ｅ７」）と、エンティティ名（例えば「Ａ水族館」など）と、クラス（例えば「ＣＬ０１」）と、不図示の当該エンティティに関連する情報とが関連付けられている。また、エンティティ間の関係を示すエッジには、プロパティが関連付けられている。図２の例では、例えばプロパティとして、公式サイトや、住所、営業時間などが関連付けられている。

なお、本実施形態では、図２のＥ２～Ｅ７をエンティティとして表現しているが、これらの情報は、単にエンティティＥ１に関連付けられた情報であってもよい。

図３は、ナレッジデータベース装置３０が端末装置１０に提供するナレッジパネルの一例を示す図である。例えば、ユーザが端末装置１０を操作して、ポータルサイトなどの検索窓にクエリを入力し、検索装置５０にクエリに関する情報の検索を依頼すると、検索装置５０は、検索対象の情報を参照して、クエリに応じた情報を検索する。また、検索装置５０は、ナレッジデータベース装置３０に、クエリに関連するナレッジパネルの提供を依頼する。

ナレッジデータベース装置３０は、ナレッジデータベース４２を参照して、クエリに応じた情報を取得し、取得した情報に基づいてナレッジパネルを生成し、生成したナレッジパネルを検索装置５０に提供する。検索装置５０は、検索結果とナレッジパネルとを含む画像の元データを生成し、生成した情報を端末装置１０に提供する。例えば、クエリ「Ａ水族館」が検索クエリである場合、図３に示すように、Ａ水族館に関するウエブページの一覧と、Ａ水族館のナレッジパネルＮＰとを含む画像が、ユーザの端末装置１０の表示部に表示される。

なお、以下の説明では、エンティティＥ１「Ａ水族館」などのようにナレッジパネルにおいて主題となるようなエンティティを「主エンティティ」と称し、エンティティＥ２～Ｅ７のように主題を補足する情報や主題に付随する情報（営業時間や住所、公式サイト等）のエンティティを「従属エンティティ」と称する場合がある。

図１の説明に戻る。ナレッジデータベース装置３０は、例えば、通信部３２と、情報管理部３４と、情報処理部３６と、記憶部４０を備える。通信部３２は、ネットワークインターフェースカード（Network Interface Card）等の通信インターフェースを含む。情報管理部３４は、ナレッジデータベース装置３０で生成された情報を他装置に提供したり、他装置から提供された情報を管理したりする。情報処理部３６は、検索装置５０の依頼に応じてナレッジパネルを生成したり、収集装置１００により提供された情報を用いてナレッジデータベース４２を更新したりする。

［収集装置］
収集装置１００は、例えば、通信部１０２と、第１収集部１０４と、第２収集部１０６と、解析部１０８と、抽出部１１０と、提供部１１２と、記憶部１３０を備える。第１収集部１０４、第２収集部１０６、解析部１０８、抽出部１１０、および提供部１１２は、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサが、記憶装置に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体が収集装置１００のドライブ装置に装着されることで記憶装置にインストールされてもよい。解析部１０８は、「評価部」の一例である。

記憶部１３０は、例えば、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＳＤカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disc Drive）、レジスタ等によって実現される。また、記憶部１３０の一部または全部は、ＮＡＳ（Network Attached Storage）や外部ストレージサーバ装置等であってもよい。記憶部１３０には、例えば、収集情報１３２、エンティティ情報１３４、ホスト一覧情報１３６、判定情報１３８、抽出情報１４０、および信頼度付抽出情報１４２が記憶されている。これらの情報の詳細については後述する。なお、これらの情報のうち一部の情報（例えば信頼度付抽出情報１４２）は省略されてもよい。

通信部１０２は、ネットワークＮＷを介して、ホスト２０、ナレッジデータベース装置３０または検索装置５０と通信する。通信部１０２は、例えば、ＮＩＣ（Network Interface Card）等の通信インターフェースを含む。

第１収集部１０４は、所定のプロトコルに従って、ホスト２０から情報を収集し、収集した情報を収集情報１３２として記憶部１３０に記憶させる。また、例えば、第１収集部１０４は、各ホスト２０から少量のページ（以下、サンプリングウエブページ）を収集し、収集したサンプリングウエブページを収集情報１３２として記憶部１３０に記憶させる。

第２収集部１０６は、解析部１０８により第１所定度合以上の評価であると評価されたホスト（例えばサーバ装置）から第１収集部１０４がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する。

解析部１０８は、ナレッジデータベース装置３０が有する情報と、第１収集部１０４が収集した情報とに基づいて、ナレッジデータベース装置３０が有していない情報を第２所定度合以上有していると推定される装置の評価を、第１所定度合以上であると評価する。

解析部１０８は、ナレッジデータベース４２を参照し、第１収集部１０４により取得されたウエブページ（例えばサンプリングウエブページ）において主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、当該ウエブページの提供元のホスト２０を評価し、そのホスト２０をサンプリングウエブページ以外の未収集のウエブページを優先的に収集する対象とするか否かを決定する。

解析部１０８は、例えば、複数の対象ウエブページから同じファクトが得られた場合、複数の対象ウエブページの情報に基づいて、フォクトの信頼度を導出する。ファクトとは、ナレッジデータベース４２のエンティティの組み合わせが含まれているという事実である。

抽出部１１０は、第２収集部１０６により収集されたウエブページの情報から、ナレッジデータベース装置３０が有していない情報を抽出する。

抽出部１１０は、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベース４２を参照し、第２収集部１０６により取得されたウエブページにおいて、ナレッジデータベース４２に含まれる第１主エンティティと、第１主エンティティに従属する第１従属エンティティとを含む表現である第１表現パターンを認識する。第１表現パターンおよび後述する第２表現パターンは、ウエブページの生成に用いられる言語の記述パターンである。記述パターンは、言語の階層構造である。

抽出部１１０は、ナレッジデータベース４２に含まれ且つ関連付けられるべき第１従属エンティティと同種の第２従属エンティティが関連付けられてない第２主エンティティを含み、且つ第１表現パターンに合致する第２表現パターンを、ウエブページにおいて抽出する。

抽出部１１０は、第１表現パターンにおける第１主エンティティと第１従属エンティティとの相対関係に基づいて、抽出部１１０により抽出された第２表現パターンにおいて、第２従属エンティティを特定する。抽出部１１０の処理の詳細については後述する（図１２～図１５参照）。

提供部１１２は、抽出部１１０により抽出された情報をナレッジデータベース装置３０に提供する。提供部１１２は、ナレッジデータベース４２を拡充するために第２表現パターンに基づく情報をナレッジデータベース装置３０に提供する。

以下、ナレッジパネルで提供する情報を拡充するための処理（拡充処理）について説明する。図４は、拡充処理の概要を説明するための図である。以下の（１）－（６）の処理が実行されることにより、ナレッジパネルが拡充される。

（１）第１収集部１０４が、多様なホスト（２０－１、２０－２・・・）が提供するコンテンツを少量ずつ収集して、記憶部１３０に収集情報１３２として記憶する。

（２）解析部１０８は、既知の知識を使って、コンテンツを収集したホストに新しい知識（ナレッジデータベース装置３０が有さない知識）がありそうか否かを評価する。図示する例では、解析部１０８は、ナレッジデータベース装置３０に提供された情報を参照しているが、実際は、記憶部１３０のエンティティ情報１３４を参照して、この処理を行う。エンティティ情報１３４は、ナレッジデータベース４２と同様の情報、或いは前述した図２で示したようなナレッジデータベース４２の一部の情報である。この処理については、図５のフローチャートを参照して説明する。

（３）解析部１０８は、上記の評価結果に基づいて、新しい知識の獲得が期待できるホスト一覧情報１３６を、第２収集部１０６が参照できるように生成する。

（４）第２収集部１０６は、ホスト一覧情報１３６を参照して、新しい知識の獲得が期待される少数の有力なホストの全コンテンツを収集して保存する。この処理を深堀処理と称する場合がある。
（５）抽出部１１０は、深堀処理で収集されたコンテンツを解析して、新しい知識を獲得する。
（６）提供部１１２は、抽出された新しい知識を保存して、ナレッジデータベース装置３０に提供する。

例えば、これらの処理は、所定の周期で繰り返し実行される。この処理（上記の（３））において、解析部１０８は、ホスト一覧情報１３６を更新してもよい。例えば、前回の処理において新しい知識の獲得が期待できるホストであったが、今回の処理では新しい知識の獲得が期待できるホストでなくなった場合、解析部１０８は、ホスト一覧情報１３６から新しい知識の獲得が期待できなくなったホストを除いてもよい。また、ホスト一覧情報１３６には、新しい知識の獲得が期待できると期待される期待値が所定以上のホストが含まれていてもよい。この場合、解析部１０８は、ある処理の周期においてホストに付与される期待値が変更された場合、期待値に基づいてホスト一覧情報１３６のホストを更新する。第２収集部１０６は、更新されたホスト一覧情報１３６を参照して、新しい知識の獲得が期待される少数の有力なホストの全コンテンツを収集して保存する処理を行う。

［フローチャート（その１）］
図５は、収集装置１００により実行される処理の流れの一例を示すフローチャートである。本処理は、収集装置１００が、対象のホストを深堀処理の対象とするか否かを決定する決定処理の一例である。処理の詳細については、後述する図６～図８を参照して説明する。

まず、抽出部１１０が、収集情報１３２のうち、同一のホストにより提供される一以上のサンプリングウエブページを選択する（Ｓ１０）。次に、抽出部１１０は、エンティティ情報１３４を参照し、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択する（Ｓ１２）。

次に、抽出部１１０は、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定する（Ｓ１４）。次に、抽出部１１０は、判定結果を判定情報１３８として記憶部１３０に記憶させる（Ｓ１６）。

次に、抽出部１１０は、すべての、エンティティとエンティティとの組み合わせを選択したか否かを判定する（Ｓ１８）。すべての組み合わせを選択していない場合、ステップＳ１２の処理に戻る。

すべての組み合わせを選択した場合、抽出部１１０は、すべてのサンプリングウエブページの情報を選択したか否かを判定する（Ｓ２０）。すべてのサンプリングウエブページの情報を選択していない場合、ステップＳ１０の処理に戻る。

すべてのサンプリングウエブページの情報を選択した場合、抽出部１１０は、判定結果である判定情報１３８に基づいて、深堀対象のホスト２０を決定する（Ｓ２２）。決定された深堀対象のホスト２０の情報は、ホスト一覧情報１３６に含まれる。また、Ｓ２２の処理に基づいて、ホスト一覧情報１３６は更新される。

次に、第２収集部１０６が、決定された深堀対象であるホスト２０において、収集していないウエブページ（サンプリングウエブページ以外のウエブページ）を収集し、収集した情報を収集情報１３２として記憶部１３０に記憶させる（Ｓ２４）。すなわち、第２収集部１０６は、少量の収集結果から決定した有用なホスト（深堀対象のホスト）を深堀する深堀処理を行う。これにより本フローチャートの処理は終了する。

なお、第２収集部１０６は、所定のタイミングで、深堀対象とされなかったホスト２０からも、このホスト２０が有し、且つ未収集の情報を収集し、収集した情報を収集情報１３２として記憶部１３０に記憶させる。

［決定処理の他の一例］
また、上述したフローチャートの例では、抽出部１１０が、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択し（Ｓ１２）、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定するものとしたが、これに代えて、以下のように処理が行われてもよい。
（Ａ）抽出部１１０が、抽出対象のエンティティ（例えば、後述する図６、７のＣ美術館を列挙する。
（Ｂ）抽出部１１０が、サンプリングウエブページに、抽出対象のエンティティが含まれているか否かを判定する。
（Ｃ）抽出対象のエンティティが含まれている場合、抽出部１１０は、ナレッジデータベース４２に含まれ、且つウエブページに含まれていたエンティティ（例えば、図６、７のＡミュージアム、Ｂ博物館）と抽出対象のプロパティ（例えば、図６、７の公式サイト）で関連付けられていたエンティティ（例えば、図６、７のＡミュージアム、Ｂ博物館の公式サイト）を列挙する。
（Ｄ）抽出部１１０が、抽出対象のプロパティで関連付けられたエンティティが当該ウエブページに含まれているか否かを判定する処理を行う。そして、抽出部１１０は、判定結果に基づいて、当該ウエブページの提供元のホスト２０を深堀対象とするか否かを決定する。

［決定処理の具体例（その１）］
図６は、Ｓ１０で選択されたサンプリングウエブページの情報の一例を示す図である。例えば、サンプリングウエブページにおいて、観光地の名称と、観光地のＵＲＬとが含まれているものとする。例えば、サンプリングウエブページにおいて「Ａミュージアム」、「ＵＲＬ００１」、「Ｂ博物館」、「ＵＲＬ００２」、「Ｃ美術館」、および「ＵＲＬ００３」が含まれている。

図７は、エンティティ情報１３４に含まれるエンティティの組み合わせの一例を示す図である。例えば、「Ａミュージアム」と「ＵＲＬ００１」とがプロパティ「公式サイト」で関連付けられ、「Ｂ博物館」と「ＵＲＬ００２」とがプロパティ「公式サイト」で関連付けられている。そして、エンティティ情報１３４には、エンティティ「Ｃ美術館」が含まれるが、「Ｃ美術館」には「ＵＲＬ００３」は関連付けられていない。施設のＵＲＬ（プロパティ）という関係に基づいて、施設の名称「Ａミュージアム（第１主エンティティ））が「ＵＲＬ００１（第１従属エンティティ）」に関連付けられている場合、施設のＵＲＬ（プロパティ）という関係に基づいて、「ＵＲＬ００２（第２従属エンティティ）」が関連付けられていない施設の名称「Ｃ美術館」は、「第２主エンティティ」の一例となる。

図８は、判定情報１３８の内容の一例を示す図である。判定情報１３８は、ホストＩＤに対して、エンティティの組み合わせ、スコア、および深堀対象とするか否かの判定結果を示す情報が互いに関連付けられた情報である。前述した図５のフローチャートのＳ１２～Ｓ１８の処理において、「Ａミュージアム」と「ＵＲＬ００１」との組み合わせ、および「Ｂ博物館」と「ＵＲＬ００２」との組み合わせは、選択されたサンプリングウエブページの情報に含まれていると判定される。抽出部１１０は、例えば、上述したように２つの組み合わせがサンプリングウエブページの情報に含まれる場合、スコア「２」と決定する。例えば、抽出部１１０は、スコア「２」以上のサンプリングウエブページを提供したホスト２０を深堀対象のホストとして決定する。スコア「２」以上のホストは、第１所定度合以上と評価されるホスト、または所定以上の期待値を有するホストの一例である。

上記の例では、プロパティで関連付けられたエンティティとエンティティとの組み合わせが、第１収集部１０４により収集された情報に含まれる度合に基づいて、装置が評価されるものとして説明したが、これに限られず、例えば、所定のエンティティまたは所定のワードが第１収集部１０４により収集された情報に含まれる度合に基づいて、装置が評価されてもよい。

［決定処理の具体例（その２）］
例えば、解析部１０８は、ウエブページにおける既知のエンティティの組み合わせの割合に基づいて、信頼度である統合スコアを導出し、導出した統合スコアと抽出情報１４０とを合わせて信頼度付抽出情報１４２を生成する。そして、解析部１０８は、統合スコアが閾値以上のエンティティの組み合わせをナレッジデータベース装置３０に提供することを決定する。

図９は、信頼度付抽出情報１４２の内容の一例を示す図である。信頼度付抽出情報１４２は、対象ウエブページに含まれるエンティティの組み合わせと、その組み合わせがナレッジデータベース４２において既知であるか、未知であるかを示す情報と、対象ウエブページにおいてエンティティの組み合わせが既知の割合、および統合スコアが互いに関連付けられた情報である。例えば、解析部１０８は、対象ウエブページに含まれるエンティティの組み合わせがナレッジデータベース４２において既知であるか、未知あるかを判定し、判定結果に基づいて、エンティティの組み合わせに対する既知のエンティティの組み合わせの割合を導出する。

そして、解析部１０８は、所定のモデルに、対象ウエブページごとに導出した既知の割合を適用して、統合スコアを導出する。所定のモデルとは、例えば、式（１）である。式（１）の「ｘ」は、ホストＩＤ「００１」のホスト２０から収集された第１対象ウエブページにおける既知の割合であり、「ｙ」は、ホストＩＤ「００２」のホスト２０から収集された第２対象ウエブページにおける既知の割合である。「α」は、任意に設定されるパラメータ（例えば「０．１」）である。

図１０は、既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。図１０に示すように式（１）は、「ｘ」、「ｙ」の両方の既知の割合が高い場合、統合スコアは高い傾向に導出され、「ｘ」、「ｙ」の両方の既知の割合が低い場合、統合スコアは低い傾向に導出される関数である。

このように、解析部１０８が、第１ウエブページと第２ウエブページとの既知の割合に基づいて、統合スコアを導出することにより、より精度よく統合スコアを導出することができる。そして、解析部１０８は、統合スコアに基づいて、深堀対象のホストを決定する。例えば、解析部１０８は、統合スコアが閾値以上のホスト（例えばホストの組み合わせ）を深堀対象のホストに決定する。

上述したように、深堀対象のホスト２０が決定され、深堀対象のホスト２０に対して優先的に深堀処理が行われる。これにより、有用なホスト２０が有する情報が優先的に収集される。なお、上記処理において、ホストに代えて、ウエブページごとや、ドメインごと、ＵＲＬごと、ＵＲＬにおける所定の階層ごとに既知の割合が求められ、ホストに対する統合スコアが求められてもよい。

［決定処理の具体例（その３）］
例えば、解析部１０８は、ホスト２０ごとや、ドメインごとに、そのホスト２０またはドメインを深堀対象とするか否かを決定することに代えて、ドメインよりも下位の階層を深堀対象とするか否かを決定してもよい。

図１１は、決定処理の具体例（その３）について説明するための図である。図１１に示すように、ＵＲＬは、ドメインや、ドメインに関連付けられたドメインよりも下位の階層のディレクトリや、ファイル名などを含む。図１１の例では、ＵＲＬは、第１下位階層、および第１下位階層よりも下位の第２下位階層を含む。例えば、解析部１０８は、ドメインおよび第１下位階層ごとや、第２下位階層を含むＵＲＬごとに、深堀処理の対象とするか否かを決定してもよい。例えば、所定のドメインおよび第１下位階層が深堀対象とされる場合、第１下位階層以下の階層にアクセスすることにより取得可能な情報に対して深堀処理が行われる。

また、解析部１０８は、所定の正規表現を含むまたは合致する表現を含むドメインまたはＵＲＬを、深堀処理の対象とするか否かを決定してもよい。例えば、解析部１０８は、ドメインおよび第１下位階層を有し、第２下位階層と合致する表現を含むＵＲＬを深堀処理の対象としてもよい。例えば、解析部１０８は、第２下位階層において「ｍｅｍｂｅｒ」または「ｍｅｍｂｅｒ」と「数字」とを含むＵＲＬを深堀処理の対象とする。

［フローチャート（その２）］
図１２は、収集装置１００により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。本フローチャートは、特定エンティティに対して、所定のプロパティで関連付けられるべきエンティティを特定する処理である。特定エンティティとは、関連付けられるべきエンティティ（第２従属エンティティ）が関連付けられていないエンティティ（第２主エンティティ）である。上述した例では、Ｃ美術館が特定エンティティに該当する。Ｃ美術館に対して、関連付けられるべきエンティティ「ＵＲＬ＊＊＊」が関連付けられていないためである。処理の詳細については、後述する図１３～図１５を参照して説明する。

まず、収集装置１００の抽出部１１０が、収集情報１３２に含まれるウエブページを取得する（Ｓ１００）。

次に、抽出部１１０が、取得したウエブページ（以下、対象ウエブページ）において、プロパティで関連付けられたエンティティとエンティティとの組み合わせを含む第１記述パターン（第１表現パターン）を認識する（Ｓ１０２）。エンティティとエンティティとの組み合わせは、例えば、特定エンティティと同一のクラスのエンティティ（例えば施設）と、特定エンティティに対して関連付けられるべきエンティティのクラスを有するエンティティ（例えば施設のＵＲＬ）との組み合わせである。

次に、抽出部１１０は、認識した第１記述パターンに基づいて、エンティティの組み合わせの相対位置を特定する（Ｓ１０４）。次に、抽出部１１０は、Ｓ１００で取得した対象ウエブページから、特定エンティティを含み、且つ認識した第１記述パターンに合致する第２記述パターン（第２表現パターン）を抽出する（Ｓ１０６）。

次に、抽出部１１０が、第２記述パターンにおいて、Ｓ１０４で特定した第１記述パターンの相対位置に対応する相対位置を特定する（Ｓ１０８）。次に、抽出部１１０が、特定した相対位置に関連付けられた情報のうち、特定エンティティが記述された位置（第１位置）とは異なる位置（第２位置）に関連付けられた情報を抽出し、抽出した情報を抽出情報１４０として記憶部１３０に記憶させる（Ｓ１１０）。抽出情報１４０は、特定エンティティと、本処理により抽出された特定エンティティに対して、所定のプロパティによって関連付けられるエンティティとが互いに関連付けられた情報である。

次に、抽出部１１０は、すべての処理対象のウエブページの情報を選択したか否かを判定する（Ｓ１１２）。すべての処理対象のウエブページの情報を選択していない場合、Ｓ１００の処理に戻る。すべての処理対象のウエブページ情報を選択した場合、提供部１１２が、抽出情報１４０をナレッジデータベース装置３０に送信する（Ｓ１１４）。これにより本フローチャートの１ルーチンの処理は終了する。

なお、処理対象のウエブページは、上述したように収集情報１３２に含まれるすべてのウエブページであってもよいし、設定されたウエブページであってもよい。また、処理対象のウエブページは、深堀対象のホスト２０から取得されたウエブページであってもよい。また、抽出部１１０が、ナレッジデータベース４２を参照し、第２収集部１０６により取得されたウエブページにおいて主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、ウエブページ（またはホスト２０）を抽出部１１０の処理対象とするか否かを決定してもよい。

図１３は、抽出部１１０が記述パターンを認識する処理について説明するための図（その１）である。図１４は、抽出部１１０が記述パターンを認識する処理について説明するための図（その２）である。例えば、図１３に示すように、抽出部１１０は、対象ウエブページのＨＴＭＬ（Hyper Text Markup Language）などのソースコードを認識する。そして、図１４に示すように、抽出部１１０は、ナレッジデータベース４２に含まれるエンティティの組み合わせを含むソースコードの記述パターンＡを認識する。

図示する例では、ソースコードは、「ｄｔ」、「ｓｐａｎ」、「ｄｄ」、「ａ」の順で並び、「ｓｐａｎ」の後にエンティティ「Ａミュージアム」が関連付けられ、「ａ」に対してエンティティ「ＵＲＬ」が関連付けられている。エンティティ「Ａミュージアム」とエンティティ「ＵＲＬ００１」とは、ナレッジデータベース４２おいて関連付けられたエンティティの組み合わせである。また、エンティティ「Ｂ博物館」についても同様である。

この場合において、抽出部１１０は、「ｓｐａｎ」の後にエンティティ「施設名」が関連付けられ、「ａ」に対してエンティティ「施設名のＵＲＬ」が関連付けられていることを認識する。これにより、記述パターンにおける、エンティティの組み合わせの相対位置を特定される。「施設名」が付与されている位置は、「第１位置」の一例であり、「施設名のＵＲＬ」が付与されている位置は、「第２位置」の一例である。

抽出部１１０は、上記のような記述パターンＡに合致する記述パターンを抽出する。合致する記述パターンは、ソースコードが、「ｄｔ」、「ｓｐａｎ」、「ｄｄ」、「ａ」の順で並び、「ｓｐａｎ」の後にナレッジデータベース４２に含まれる施設のエンティティが関連付けられているパターンである。例えば、抽出部１１０は、「ｓｐａｎ」の後にエンティティ「Ｃ美術館」が関連付けられた記述パターンＡを認識する。そして、抽出部１１０が、エンティティの組み合わせの相対位置に基づいて、「ａ」に対してエンティティ「Ｃ美術館のＵＲＬ００３」が関連付けられていることを特定する。

上記処理をまとめると、図１５に示すように表すことができる。収集装置１００は、記述パターン「ｄｔ」、「ｓｐａｎ」、「ｄｄ」、「ａ」を認識し、「ｓｐａｎ」の後にエンティティ「施設名」が関連付けられ、「ａ」にエンティティ「施設名のＵＲＬ」が関連付けられていることを認識する。そして、収集装置１００は、ナレッジデータベース４２において、エンティティ「ＵＲＬ」が関連付けられていないエンティティである施設名「Ｃ美術館」のＵＲＬは、記述パターンＡの「ａ」に関連付けられていると認識する。

このように、収集装置１００は、エンティティの組み合わせを含む言語の階層構造である記述パターンに基づいて、未知の情報である特定エンティティに対して関連付けられる情報を特定することができる。換言すると、抽出部１１０は、第１表現パターンにおける所定の位置（例えば、第１主エンティティまたは「ｄｔ」）から第１従属エンティティに至るまでの階層構造における特定経路（「ｄｔ」→「ｓｐａｎ」→「ｄｄ」→「ａ」）を特定し、第２表現パターンにおいて、特定経路を辿って第２従属エンティティを特定することができる。

図１６は、更新前のナレッジデータベース４２の内容の一例を示す図である。ナレッジデータベース４２において、「Ｃ美術館」のＵＲＬは、エンティティ「Ｃ美術館」に対して関連付けられていない。

図１７は、更新後のナレッジデータベース４２の内容の一例を示す図である。ナレッジデータベース装置３０が、「Ｃ美術館」の「ＵＲＬ」を収集装置１００から取得すると、ナレッジデータベース装置３０は、エンティティ「Ｃ美術館」に対して、収集装置１００から送信されたＵＲＬを関連付ける。

図１８は、更新前のナレッジデータベース４２に基づいて生成されたナレッジパネルＮＰ１の一例を示す図である。ユーザが、検索クエリ「Ｃ美術館」を入力した場合、ナレッジデータベース装置３０は、エンティティ「Ｃ美術館」に対して、ＵＲＬが関連付けられていないため、ナレッジパネルにおいて、ＵＲＬを含めることができない。

これに対して、更新後のナレッジデータベース４２に基づいてナレッジパネルが生成された場合、図１９に示すようにナレッジデータベース装置３０は、エンティティ「Ｃ美術館」に対して、ＵＲＬが関連付けられているため、ナレッジパネルＮＰ２において、ＵＲＬを含めることができる。

このように、ナレッジデータベース装置３０が、更新されたナレッジデータベース４２を用いることにより、より有益な情報をユーザに提供することができる。

なお、上述した例は、ソースコードの表現パターンに基づいて、処理が行われるものとして説明したが、これに代えて（或いは加えて）、画像のパターンに基づいて、特定エンティティに対して関連付けられるべき情報が特定されてもよい。例えば、抽出部１１０は、画像における施設名が表示された位置とＵＲＬが表示された位置に基づいて、ナレッジデータベース４２においてＵＲＬの情報が関連付けられていない施設のＵＲＬを特定してもよい。

以上説明した第１実施形態によれば、収集装置１００が、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、第１所定度合以上の評価であると評価された装置から第１収集部１０４がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集し、収集した情報の少なくとも一部を前記ナレッジデータベースに提供することにより、より効率的に有用な情報を取得することができる。例えば、収集装置１００が、単位時間あたりに収集できる情報には上限があるため、単純に情報を収集する場合、有用な情報を取得することができない場合がある。本実施形態の収集装置１００は、第１収集部１０４が収集した情報を評価して、有用な情報を得られると推定される装置（ホスト）またはＵＲＬ等に対して重点的に情報の収集を行う処理を行う。これにより、効率的に有用な情報を取得することができる。また、取得した情報は、ナレッジデータベース装置３０に提供され、ナレッジデータベース装置３０は、新たに取得した情報を利用者の端末装置１０に提供することができる。これにより、利用者の利便性も向上する。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１‥情報処理システム、１０‥端末装置、２０‥ホスト、３０‥ナレッジデータベース装置、４２‥ナレッジデータベース、１００‥収集装置、１０２‥通信部、１０４‥第１収集部、１０６‥第２収集部、１０８‥解析部、１１０‥抽出部、１１２‥提供部、１３０‥記憶部、１３４‥エンティティ情報、１３６‥ホスト一覧情報、１３８‥判定情報、１４０‥抽出情報、１４２‥信頼度付抽出情報

Claims

ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第１収集部と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する前記関係情報を参照し、前記第１収集部により収集されたウエブページのデータの提供元である装置を評価する評価部であって、
前記第１収集部が収集した情報において、前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティの組み合わせが含まれる個数から得られたスコアに基づいて、前記ナレッジデータベースが有していない情報を第２所定度合以上有していると推定される装置の評価を、第１所定度合以上であると評価する評価部と、
前記評価部により前記第１所定度合以上の評価であると評価されなかった装置よりも優先して前記評価部により前記第１所定度合以上の評価であると評価された装置から前記第１収集部が収集していないウエブページの情報を収集する第２収集部と、
前記第２収集部により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供部と、
を備える情報処理装置。
前記第２収集部により収集されたウエブページの情報から、前記ナレッジデータベースが有していない情報を抽出する抽出部を更に備え、
前記提供部は、前記抽出部により抽出された抽出情報を前記ナレッジデータベースに提供する、
請求項１に記載の情報処理装置。
前記抽出部は、
前記第２収集部により収集されたウエブページの情報において、前記ナレッジデータベースに含まれる第１主エンティティと、前記第１主エンティティに従属する第１従属エンティティとを含む表現である第１表現パターンを認識し、
前記ウエブページにおいて、前記ナレッジデータベースに含まれる第２主エンティティであって前記第１従属エンティティと同種の第２従属エンティティであり前記第２主エンティティに関連付けられるべき前記第２従属エンティティが関連付けられてない第２主エンティティを含み、且つ前記第１表現パターンのうち前記第１主エンティティが前記第２主エンティティに置換されたものに類似する第２表現パターンにおける前記第２従属エンティティを抽出し、
前記提供部は、少なくとも前記抽出部により抽出された前記第２従属エンティティを前記ナレッジデータベースに提供する、
請求項２に記載の情報処理装置。
前記第１表現パターンおよび前記第２表現パターンは、ウエブページの生成に用いられる言語の記述パターンである、
請求項３に記載の情報処理装置。
前記記述パターンは、言語の階層構造である、
請求項４に情報処理装置。
前記第１表現パターンであるウエブページの生成に用いられる言語の第１記述パターンと、前記第２表現パターンである前記言語の第２記述パターンとは類似し、
前記抽出部は、前記第１記述パターンにおける前記第１主エンティティの第１位置、前記第１記述パターンにおける前記第１従属エンティティの第２位置、および前記第２記述パターンにおける前記第２主エンティティの第１位置に基づいて、前記第２記述パターンにおける第２位置を特定し、前記第２位置に記述された情報を前記第２従属エンティティとして抽出する、
請求項３から５のうちいずれか１項に記載の情報処理装置。
請求項２から６のうちいずれか１項に記載された情報処理装置と、
前記情報処理装置の前記抽出部により提供された抽出情報を取得し、前記抽出情報に基づく情報を利用者の端末装置に提供するナレッジデータベースと、
を備える情報処理システム。
コンピュータが、
ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第１収集処理と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する前記関係情報を参照し、前記第１収集処理により収集されたウエブページのデータの提供元である装置を評価する評価処理であって、
前記第１収集処理において収集した情報において、前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティの組み合わせが含まれる個数から得られたスコアに基づいて、前記ナレッジデータベースが有していない情報を第２所定度合以上有していると推定される装置の評価を、第１所定度合以上であると評価する評価処理と、
前記評価処理により前記第１所定度合以上の評価であると評価されなかった装置よりも優先して前記評価処理により前記第１所定度合以上の評価であると評価された装置から前記第１収集処理で収集していないウエブページの情報を収集する第２収集処理と、
前記第２収集処理により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供処理と、
を備える情報処理方法。
コンピュータに、
ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第１収集処理と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する前記関係情報を参照し、前記第１収集処理により収集されたウエブページのデータの提供元である装置を評価する評価処理であって、
前記第１収集処理において収集した情報において、前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティの組み合わせが含まれる個数から得られたスコアに基づいて、前記ナレッジデータベースが有していない情報を第２所定度合以上有していると推定される装置の評価を、第１所定度合以上であると評価する評価処理と、
前記評価処理により前記第１所定度合以上の評価であると評価されなかった装置よりも優先して前記評価処理により前記第１所定度合以上の評価であると評価された装置から前記第１収集処理で収集していないウエブページの情報を収集する第２収集処理と、
前記第２収集処理により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供処理と、
を実行させるプログラム。