JP7434493B2

JP7434493B2 - 情報処理装置、情報処理システム、情報処理方法、およびプログラム

Info

Publication number: JP7434493B2
Application number: JP2022170801A
Authority: JP
Inventors: 賢太郎西; 雄貴俵; 将平川崎; 拓也門脇; 康之田中
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-09-19
Filing date: 2022-10-25
Publication date: 2024-02-20
Anticipated expiration: 2038-09-19
Also published as: JP2020046896A; JP2022191487A; JP2021192232A; JP6998282B2

Description

本発明は、情報処理装置、情報処理システム、情報処理方法、およびプログラムに関する。

従来、ウエブからデータ（文書や画像など）を収集し、収集したデータを自動的にデータベース化するクローラが知られている（特許文献１参照）。このクローラは、ウエブページ中のリンクを辿って、様々なＩＰアドレスのウエブページからデータを収集する。クローラによって収集されたデータは、ウエブ情報データベースに蓄積される。

特開２０１２－６９１７１号公報

しかしながら、上記従来の技術では、効率的に有用な情報を取得することができない場合があった。

本発明は、このような事情を考慮してなされたものであり、より効率的に有用な情報を取得することができる情報処理装置、情報処理システム、情報処理方法、およびプログラムを提供することを目的の一つとする。

本発明の一態様は、ウエブページの情報を取得する取得部と、複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第１主エンティティを特定し、前記対象の第１主エンティティは、前記ナレッジデータベースにおいて前記第１主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第１従属エンティティが対応付けられていないエンティティであり、前記対象の第１主エンティティが前記ウエブページに含まれるか否かを判定し、前記対象の前記第１主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙し、列挙した主エンティティにおいて前記対象の第１主エンティティに合致するエンティティが含まれる場合、前記ウエブページを提供しているホストを、前記第１従属エンティティの抽出対象に決定する決定部とを備える情報処理装置である。

本発明の一態様によれば、より効率的に有用な情報を取得することができる。

情報処理システム１の機能構成の一例を示す図である。ナレッジデータベース４２の一部を模式的に示す図である。ナレッジデータベース装置３０が端末装置１０に提供するナレッジパネルの一例を示す図である。収集装置１００の決定部１０６により実行される処理の流れの一例を示すフローチャートである。Ｓ１０で選択されたサンプリングウエブページの情報の一例を示す図である。エンティティ情報１３４に含まれるエンティティの組み合わせの一例を示す図である。判定情報１３６の内容の一例を示す図である。収集装置１００により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。認識部１１０が記述パターンを認識する処理について説明するための図（その１）である。認識部１１０が記述パターンを認識する処理について説明するための図（その２）である。処理の概要の一例を示す図である。更新前のナレッジデータベース４２の内容の一例を示す図である。更新後のナレッジデータベース４２の内容の一例を示す図である。更新前のナレッジデータベース４２に基づいて生成されたナレッジパネルＮＰ１の一例を示す図である。更新後のナレッジデータベース４２に基づいて生成されたナレッジパネルの一例を示す図である。第２実施形態の情報処理システム１Ａの収集装置１００Ａの機能構成の一例を示す図である。信頼度付抽出情報１４０の内容の一例を示す図である。既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。

以下、図面を参照し、本発明の情報処理装置、情報処理システム、情報処理方法、およびプログラムの実施形態について説明する。

［概要（その１）］
情報処理装置は、一以上のプロセッサにより実現される。実施形態の情報処理装置は、ウエブページの情報を取得し、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースを参照し、取得部により取得されたウエブページにおいて、ナレッジデータベースに含まれる第１主エンティティと、第１主エンティティに従属する第１従属エンティティとを含む表現である第１表現パターンを認識する。そして、情報処理装置は、ウエブページにおいて、ナレッジデータベースに含まれ、関連付けられるべき第１従属エンティティと同種の第２従属エンティティが関連付けられてない第２主エンティティを含み、且つ第１表現パターンに合致する第２表現パターンを抽出し、ナレッジデータベースを拡充するために第２表現パターンに基づく情報をナレッジデータベースに提供する。「表現パターン」とは、例えば、ウエブページの生成に用いられる言語の記述パターンである。

ナレッジデータベースは、エンティティに関する情報と、エンティティ同士の意味的関係に関する情報とが記述されたものである。エンティティとは、対象事物の実体または概念を表すものである。例えば、あるクエリが入力された場合において、そのクエリがエンティティに該当するものであれば、単なるキーワード検索よりも豊富な情報をユーザに返すことができる。

ナレッジデータベースにおいて記述された事物は、オントロジーによって定義される。オントロジーとは、事物のクラスおよびプロパティを定義したものであり、クラスとプロパティとの間に成り立つ制約を集めたものである。

クラスは、エンティティの属性を示す情報である。クラスとは、オントロジーにおいて、同じ性質を持つ事物同士を一つのグループにしたものである。事物の性質がどういったものであるのか、すなわち事物がどのクラスに属するのかは、後述するプロパティにより決定される。

例えば、くちばしを持ち、卵生の脊椎動物であり、前肢が翼になっている、という性質を持つ事物は、「鳥」というクラスに分類される。また、「鳥」というクラスの中で、飛べない、という性質を持つ事物は、例えば、「ペンギン」や「ダチョウ」という、より下位のクラスに分類される。このように、クラスの体系は、上位と下位の関係を有する階層構造となっていてよい。

プロパティとは、事物の性質や特徴、クラス間の関係を記述する属性である。例えば、プロパティは、「～を体の構成要素としてもつ」という性質や、「～に生息する」という性質を示す属性であってもよいし、「あるクラスが上位クラスであり、あるクラスが下位クラスである」というクラス間の上位下位の関係を示す属性であってもよい。プロパティを識別するためのプロパティ名は、上述したクラス名と同様に、そのプロパティ名自体が意味を表していてもよいし、意味を表していなくてもよい。

［概要（その２）］
情報処理装置は、ウエブページの情報を取得し、ナレッジデータベースを参照し、取得されたウエブページにおける主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、ウエブページに関して、ナレッジデータベースにおいて、第４主エンティティに対して関連付けられるべき従属エンティティと同種の第４従属エンティティの抽出対象とするか否かを決定する。

＜第１実施形態＞
［構成］
図１は、情報処理システム１の機能構成の一例を示す図である。情報処理システム１は、例えば、端末装置１０、一以上のホスト２０（図では２０－１～２０－３）と、ナレッジデータベース装置３０と、検索装置５０と、収集装置１００とを備える。端末装置１０、ホスト２０、および検索装置５０は、ネットワークＮＷを介して互いに通信する。また、ナレッジデータベース装置３０、検索装置５０、および収集装置１００は、ネットワークＮＷを介して互いに通信する。ネットワークＮＷは、例えばＷＡＮ（Wide Area Network）やＬＡＮ（Local Area Network）、インターネット、専用回線、無線基地局、プロバイダなどを含む。

端末装置１０は、ユーザが利用する端末装置１０である。端末装置１０は、デスクトップ型端末装置や、ノートパソコンなどの可搬型端末装置、スマートフォン、タブレット型端末装置などである。ホスト２０は、いわゆるウエブページを提供しているウエブサーバである。

ナレッジデータベース装置３０は、例えば、所定のデータ（例えば、画像やテキストデータ）に基づいてナレッジデータベース４２を生成したり、後述するナレッジパネルを提供したりするサーバである。

ナレッジデータベース装置３０の記憶部４０には、ナレッジデータベース４２が記憶されている。図２は、ナレッジデータベース４２の一部を模式的に示す図である。図２に示すように、エンティティには、エンティティ識別情報（例えば「Ｅ１～Ｅ７」）と、エンティティ名（例えば「Ａ水族館」など）と、クラス（例えば「ＣＬ０１」）と、不図示の当該エンティティに関連する情報とが関連付けられている。また、エンティティ間の関係を示すエッジには、プロパティが関連付けられている。図２の例では、例えばプロパティとして、公式サイトや、住所、営業時間などが関連付けられている。

なお、本実施形態では、図２のＥ２～Ｅ７をエンティティとして表現しているが、これらの情報は、単にエンティティＥ１に関連付けられた情報であってもよい。

図３は、ナレッジデータベース装置３０が端末装置１０に提供するナレッジパネルの一例を示す図である。例えば、ユーザが端末装置１０を操作して、ポータルサイトなどの検索窓にクエリを入力し、検索装置５０にクエリに関する情報の検索を依頼すると、検索装置５０は、検索対象の情報を参照して、クエリに応じた情報を検索する。また、検索装置５０は、ナレッジデータベース装置３０に、クエリに関連するナレッジパネルの提供を依頼する。

ナレッジデータベース装置３０は、ナレッジデータベース４２を参照して、クエリに応じた情報を取得し、取得した情報に基づいてナレッジパネルを生成し、生成したナレッジパネルを検索装置５０に提供する。検索装置５０は、検索結果とナレッジパネルとを含む画像の元データを生成し、生成した情報を端末装置１０に提供する。例えば、クエリ「Ａ水族館」が検索クエリである場合、図３に示すように、Ａ水族館に関するウエブページの一覧と、Ａ水族館のナレッジパネルＮＰとを含む画像が、ユーザの端末装置１０の表示部に表示される。

なお、以下の説明では、エンティティＥ１「Ａ水族館」などのようにナレッジパネルにおいて主題となるようなエンティティを「主エンティティ」と称し、エンティティＥ２～Ｅ７のように主題を補足する情報や主題に付随する情報（営業時間や住所、公式サイト等）のエンティティを「従属エンティティ」と称する場合がある。

図１の説明に戻る。ナレッジデータベース装置３０は、例えば、通信部２２と、情報管理部２４と、情報処理部２６と、記憶部４０を備える。通信部２２は、ネットワークインターフェースカード（Network Interface Card）等の通信インターフェースを含む。情報管理部２４は、ナレッジデータベース装置３０で生成された情報を他装置に提供したり、他装置から提供された情報を管理したりする。情報処理部２６は、検索装置５０の依頼に応じてナレッジパネルを生成したり、収集装置１００により提供された情報を用いてナレッジデータベース４２を更新したりする。

［収集装置］
収集装置１００は、例えば、通信部１０２と、収集部１０４と、決定部１０６と、対象情報取得部１０８と、認識部１１０と、抽出部１１２と、特定部１１４と、提供部１１６と、記憶部１３０を備える。収集部１０４、決定部１０６、対象情報取得部１０８、認識部１１０、抽出部１１２、特定部１１４、および提供部１１６は、ＣＰＵ（Central Processing Unit）等のハードウェアプロセッサが、記憶装置に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体が収集装置１００のドライブ装置に装着されることで記憶装置にインストールされてもよい。

記憶部１３０は、例えば、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＳＤカード、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disc Drive）、レジスタ等によって実現される。また、記憶部１３０の一部または全部は、ＮＡＳ（Network Attached Storage）や外部ストレージサーバ装置等であってもよい。記憶部１３０には、例えば、収集情報１３２、エンティティ情報１３４、判定情報１３６、および抽出情報１３８が記憶されている。これらの情報の詳細については後述する。

通信部１０２は、ネットワークＮＷを介して、ホスト２０、ナレッジデータベース装置３０または検索装置５０と通信する。通信部１０２は、例えば、ＮＩＣ（Network Interface Card）等の通信インターフェースを含む。

収集部１０４は、所定のプロトコルに従って、ホスト２０から情報を収集し、収集した情報を収集情報１３２として記憶部１３０に記憶させる。また、例えば、収集部１０４は、各ホスト２０から少量のページ（以下、サンプリングウエブページ）を収集し、収集したサンプリングウエブページを収集情報１３２として記憶部１３０に記憶させる。

決定部１０６は、ナレッジデータベース４２を参照し、収集部１０４により取得されたウエブページ（例えばサンプリングウエブページ）において主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、当該ウエブページの提供元のホスト２０を、サンプリングウエブページ以外の未収集のウエブページを優先的に収集する対象とするか否かを決定する。

対象情報取得部１０８は、収集情報１３２からウエブページの情報を取得する。

認識部１１０は、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベース４２を参照し、対象情報取得部１０８により取得されたウエブページにおいて、ナレッジデータベース４２に含まれる第１主エンティティと、第１主エンティティに従属する第１従属エンティティとを含む表現である第１表現パターンを認識する。

抽出部１１２は、ウエブページにおいて、ナレッジデータベース４２に含まれ、関連付けられるべき第１従属エンティティと同種の第２従属エンティティが関連付けられてない第２主エンティティを含み、且つ第１表現パターンに合致する第２表現パターンを抽出する。

特定部１１４は、第１表現パターンにおける第１主エンティティと第１従属エンティティとの相対関係に基づいて、抽出部１１２により抽出された第２表現パターンにおいて、第２従属エンティティを特定する。

提供部１１６は、ナレッジデータベース４２を拡充するために第２表現パターンに基づく情報をナレッジデータベース装置３０に提供する。

以下、ナレッジパネルで提供する情報を拡充するための処理について説明する。

［フローチャート（その１）］
図４は、収集装置１００の決定部１０６により実行される処理の流れの一例を示すフローチャートである。処理の詳細については、後述する図５～図７を参照して説明する。

まず、決定部１０６が、収集情報１３２のうち、同一のホストにより提供される一以上のサンプリングウエブページを選択する（Ｓ１０）。次に、決定部１０６は、エンティティ情報１３４を参照し、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択する（Ｓ１２）。エンティティ情報１３４は、ナレッジデータベース４２と同様の情報、或いは前述した図２で示したようなナレッジデータベース４２の一部の情報である。

次に、決定部１０６は、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定する（Ｓ１４）。次に、決定部１０６は、判定結果を判定情報１３６として記憶部１３０に記憶させる（Ｓ１６）。

次に、決定部１０６は、すべての、エンティティとエンティティとの組み合わせを選択したか否かを判定する（Ｓ１８）。すべての組み合わせを選択していない場合、ステップＳ１２の処理に戻る。

すべての組み合わせを選択した場合、決定部１０６は、すべてのサンプリングウエブページの情報を選択したか否かを判定する（Ｓ２０）。すべてのサンプリングウエブページの情報を選択していない場合、ステップＳ１０の処理に戻る。

すべてのサンプリングウエブページの情報を選択した場合、決定部１０６は、判定結果である判定情報１３６に基づいて、深堀対象のホスト２０を決定する（Ｓ２２）。次に、収集部１０４が、決定された深堀対象であるホスト２０において、収集していないウエブページ（サンプリングウエブページ以外のウエブページ）を収集し、収集した情報を収集情報１３２として記憶部１３０に記憶させる（Ｓ２４）。すなわち、収集部１０４は、少量の収集結果から決定した有用なホスト（深堀対象のホスト）を深堀する深堀処理を行う。これにより本フローチャートの処理は終了する。

なお、収集部１０４は、所定のタイミングで、深堀対象とされなかったホスト２０からも、このホスト２０が有し、且つ未収集の情報を収集し、収集した情報を収集情報１３２として記憶部１３０に記憶させる。

また、上述したフローチャートの例では、決定部１０６が、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択し（Ｓ１２）、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定するものとしたが、これに代えて、以下のように処理が行われてもよい。
（１）決定部１０６が、抽出対象のエンティティ（例えば、後述する図５、６のＣ美術館）を列挙する。
（２）決定部１０６が、サンプリングウエブページに、抽出対象のエンティティが含まれているか否かを判定する。
（３）抽出対象のエンティティが含まれている場合、決定部１０６は、ナレッジデータベース４２に含まれる、ウエブページに含まれていたエンティティ（例えば、図５、６のＡミュージアム、Ｂ博物館）と抽出対象のプロパティ（例えば、図５、６の公式サイト）で関連付けられていたエンティティ（例えば、図５、６のＡミュージアム、Ｂ博物館の公式サイト）を列挙する。
（４）決定部１０６が、抽出対象のプロパティで関連付けられたエンティティが当該ウエブページに含まれているか否かを判定する処理を行う。そして、決定部１０６は、判定結果に基づいて、当該ウエブページの提供元のホスト２０を深堀対象とするか否かを決定する。

図５は、Ｓ１０で選択されたサンプリングウエブページの情報の一例を示す図である。例えば、サンプリングウエブページにおいて、観光地の名称と、観光地のＵＲＬとが含まれているものとする。例えば、サンプリングウエブページにおいて「Ａミュージアム」、「ＵＲＬ００１」、「Ｂ博物館」、「ＵＲＬ００２」、「Ｃ美術館」、および「ＵＲＬ００３」が含まれている。

図６は、エンティティ情報１３４に含まれるエンティティの組み合わせの一例を示す図である。例えば、「Ａミュージアム」と「ＵＲＬ００１」とがプロパティ「公式サイト」で関連付けられ、「Ｂ博物館」と「ＵＲＬ００２」とがプロパティ「公式サイト」で関連付けられている。そして、エンティティ情報１３４には、エンティティ「Ｃ美術館」が含まれるが、「Ｃ美術館」には「ＵＲＬ００３」は関連付けられていない。施設のＵＲＬ（プロパティ）という関係に基づいて、施設の名称「Ａミュージアム（第１主エンティティ））が「ＵＲＬ００１（第１従属エンティティ）」に関連付けられている場合、施設のＵＲＬ（プロパティ）という関係に基づいて、「ＵＲＬ００２（第２従属エンティティ）」が関連付けられていない施設の名称「Ｃ美術館」は、「第２主エンティティ」の一例である。

図７は、判定情報１３６の内容の一例を示す図である。判定情報１３６は、ホストＩＤに対して、エンティティの組み合わせ、スコア、および深堀対象とするか否かの判定結果を示す情報が互いに関連付けられた情報である。前述した図３のフローチャートのＳ１２～Ｓ１８の処理において、「Ａミュージアム」と「ＵＲＬ００１」との組み合わせ、および「Ｂ博物館」と「ＵＲＬ００２」との組み合わせは、選択されたサンプリングウエブページの情報に含まれていると判定される。決定部１０６は、例えば、上述したように２つの組み合わせがサンプリングウエブページの情報に含まれる場合、スコア「２」と決定する。例えば、決定部１０６は、スコア「２」以上のサンプリングウエブページを提供したホスト２０を深堀対象のホストとして決定する。

上述したように、深堀対象のホスト２０が決定され、深堀対象のホスト２０に対して優先的に深堀処理が行われる。これにより、有用なホスト２０が有する情報が優先的に収集される。

［フローチャート（その２）］
図８は、収集装置１００により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。本フローチャートは、特定エンティティに対して、所定のプロパティで関連付けられるべきエンティティを特定する処理である。特定エンティティとは、関連付けられるべきエンティティ（第２従属エンティティ）が関連付けられていないエンティティ（第２主エンティティ）である。上述した例では、Ｃ美術館が特定エンティティに該当する。Ｃ美術館に対して、関連付けられるべきエンティティ「ＵＲＬ＊＊＊」が関連付けられていないためである。処理の詳細については、後述する図９～図１１を参照して説明する。

まず、収集装置１００の対象情報取得部１０８が、収集情報１３２に含まれるウエブページを取得する（Ｓ１００）。

次に、認識部１１０が、取得したウエブページ（以下、対象ウエブページ）において、プロパティで関連付けられたエンティティとエンティティとの組み合わせを含む第１記述パターン（第１表現パターン）を認識する（Ｓ１０２）。エンティティとエンティティとの組み合わせは、例えば、特定エンティティと同一のクラスのエンティティ（例えば施設）と、特定エンティティに対して関連付けられるべきエンティティのクラスを有するエンティティ（例えば施設のＵＲＬ）との組み合わせである。

次に、認識部１１０は、認識した第１記述パターンに基づいて、エンティティの組み合わせの相対位置を特定する（Ｓ１０４）。次に、認識部１１０は、Ｓ１００で取得した対象ウエブページから、特定エンティティを含み、且つ認識した第１記述パターンに合致する第２記述パターン（第２表現パターン）を抽出する（Ｓ１０６）。

次に、特定部１１４が、第２記述パターンにおいて、Ｓ１０４で特定した第１記述パターンの相対位置に対応する相対位置を特定する（Ｓ１０８）。次に、特定部１１４が、特定した相対位置に関連付けられた情報のうち、特定エンティティが記述された位置（第１位置）とは異なる位置（第２位置）に関連付けられた情報を抽出し、抽出した情報を抽出情報１３８として記憶部１３０に記憶させる（Ｓ１１０）。抽出情報１３８は、特定エンティティと、本処理により抽出された特定エンティティに対して、所定のプロパティによって関連付けられるエンティティとが互いに関連付けられた情報である。

次に、認識部１１０は、すべての処理対象のウエブページの情報を選択したか否かを判定する（Ｓ１１２）。すべての処理対象のウエブページの情報を選択していない場合、Ｓ１００の処理に戻る。すべての処理対象のウエブページ情報を選択した場合、提供部１１６が、抽出情報１３８をナレッジデータベース装置３０に送信する（Ｓ１１４）。これにより本フローチャートの１ルーチンの処理は終了する。

なお、処理対象のウエブページは、上述したように収集情報１３２に含まれるすべてのウエブページであってもよいし、設定されたウエブページであってもよい。また、処理対象のウエブページは、深堀対象のホスト２０から取得されたウエブページであってもよい。また、決定部１０６が、ナレッジデータベース４２を参照し、収集部１０４により取得されたウエブページにおいて主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、ウエブページ（またはホスト２０）を抽出部１１２の処理対象とするか否かを決定してもよい。

図９は、認識部１１０が記述パターンを認識する処理について説明するための図（その１）である。図１０は、認識部１１０が記述パターンを認識する処理について説明するための図（その２）である。例えば、図９に示すように、認識部１１０は、対象ウエブページのＨＴＭＬ（Hyper Text Markup Language）などのソースコードを認識する。そして、図１０に示すように、認識部１１０は、ナレッジデータベース４２に含まれるエンティティの組み合わせを含むソースコードの記述パターンＡを認識する。

図示する例では、ソースコードは、「ｄｔ」、「ｓｐａｎ」、「ｄｄ」、「ａ」の順で並び、「ｓｐａｎ」の後にエンティティ「Ａミュージアム」が関連付けられ、「ａ」に対してエンティティ「ＵＲＬ」が関連付けられている。エンティティ「Ａミュージアム」とエンティティ「ＵＲＬ００１」とは、ナレッジデータベース４２おいて関連付けられたエンティティの組み合わせである。また、エンティティ「Ｂ博物館」についても同様である。

この場合において、認識部１１０は、「ｓｐａｎ」の後にエンティティ「施設名」が関連付けられ、「ａ」に対してエンティティ「施設名のＵＲＬ」が関連付けられていることを認識する。これにより、記述パターンにおける、エンティティの組み合わせの相対位置を特定される。「施設名」が付与されている位置は、「第１位置」の一例であり、「施設名のＵＲＬ」が付与されている位置は、「第２位置」の一例である。

認識部１１０は、上記のような記述パターンＡに合致する記述パターンを抽出する。合致する記述パターンは、ソースコードが、「ｄｔ」、「ｓｐａｎ」、「ｄｄ」、「ａ」の順で並び、「ｓｐａｎ」の後にナレッジデータベース４２に含まれる施設のエンティティが関連付けられているパターンである。例えば、認識部１１０は、「ｓｐａｎ」の後にエンティティ「Ｃ美術館」が関連付けられた記述パターンＡを認識する。そして、特定部１１４が、エンティティの組み合わせの相対位置に基づいて、「ａ」に対してエンティティ「Ｃ美術館のＵＲＬ００３」が関連付けられていることを特定する。

上記処理をまとめると、図１１に示すように表すことができる。収集装置１００は、記述パターン「ｄｔ」、「ｓｐａｎ」、「ｄｄ」、「ａ」を認識し、「ｓｐａｎ」の後にエンティティ「施設名」が関連付けられ、「ａ」にエンティティ「施設名のＵＲＬ」が関連付けられていることを認識する。そして、収集装置１００は、ナレッジデータベース４２において、エンティティ「ＵＲＬ」が関連付けられていないエンティティである施設名「Ｃ美術館」のＵＲＬは、記述パターンＡの「ａ」に関連付けられていると認識する。

このように、収集装置１００は、エンティティの組み合わせを含む言語の階層構造である記述パターンに基づいて、未知の情報である特定エンティティに対して関連付けられる情報を特定することができる。換言すると、特定部１１４は、第１表現パターンにおける所定の位置（例えば、第１主エンティティまたは「ｄｔ」）から第１従属エンティティに至るまでの階層構造における特定経路（「ｄｔ」→「ｓｐａｎ」→「ｄｄ」→「ａ」）を特定し、第２表現パターンにおいて、特定経路を辿って第２従属エンティティを特定する
ことができる。

図１２は、更新前のナレッジデータベース４２の内容の一例を示す図である。ナレッジデータベース４２において、「Ｃ美術館」のＵＲＬは、エンティティ「Ｃ美術館」に対して関連付けられていない。

図１３は、更新後のナレッジデータベース４２の内容の一例を示す図である。ナレッジデータベース装置３０が、「Ｃ美術館」の「ＵＲＬ」を収集装置１００から取得すると、ナレッジデータベース装置３０は、エンティティ「Ｃ美術館」に対して、収集装置１００から送信されたＵＲＬを関連付ける。

図１４は、更新前のナレッジデータベース４２に基づいて生成されたナレッジパネルＮＰ１の一例を示す図である。ユーザが、検索クエリ「Ｃ美術館」を入力した場合、ナレッジデータベース装置３０は、エンティティ「Ｃ美術館」に対して、ＵＲＬが関連付けられていないため、ナレッジパネルにおいて、ＵＲＬを含めることができない。

これに対して、更新後のナレッジデータベース４２に基づいてナレッジパネルが生成された場合、図１５に示すようにナレッジデータベース装置３０は、エンティティ「Ｃ美術館」に対して、ＵＲＬが関連付けられているため、ナレッジパネルＮＰ２において、ＵＲＬを含めることができる。

このように、ナレッジデータベース装置３０が、更新されたナレッジデータベース４２を用いることにより、より有益な情報をユーザに提供することができる。

なお、上述した例は、ソースコードの表現パターンに基づいて、処理が行われるものとして説明したが、これに代えて（或いは加えて）、画像のパターンに基づいて、特定エンティティに対して関連付けられるべき情報が特定されてもよい。例えば、特定部１１４は、画像における施設名が表示された位置とＵＲＬが表示された位置に基づいて、ナレッジデータベース４２においてＵＲＬの情報が関連付けられていない施設のＵＲＬを特定してもよい。

以上説明した第１実施形態によれば、収集装置１００が、対象ウエブページにおいて、ナレッジデータベース４２に含まれる第１主エンティティと、第１主エンティティに従属する第１従属エンティティとを含む表現である第１表現パターンを認識し、対象ウエブページにおいて、ナレッジデータベース４２に含まれ、関連付けられるべき第１従属エンティティと同種の第２従属エンティティが関連付けられてない第２主エンティティを含み、且つ第１表現パターンに合致する第２表現パターンに基づく情報を、ナレッジデータベース４２を拡充するためにナレッジデータベース装置３０に提供することにより、より効率的に有用な情報を取得することができる。

＜第２実施形態＞
以下、第２実施形態について説明する。第２実施形態では、収集装置１００Ａが、抽出したエンティティに対する信頼度を導出し、導出した信頼度が閾値以上のエンティティをナレッジデータベース装置３０に提供する。以下、第１実施形態との相違点について説明する。

図１６は、第２実施形態の情報処理システム１Ａの収集装置１００Ａの機能構成の一例を示す図である。収集装置１００Ａは、収集装置１００の機能構成に加え、信頼度導出部１１５を備える。また、収集装置１００Ａは、記憶部１３０に代えて、記憶部１３０Ａを備える。記憶部１３０Ａには、記憶部１３０に記憶される情報に加え、更に信頼度付抽出情報１４０が記憶されている。

信頼度導出部１１５は、例えば、複数の対象ウエブページから同じファクトが得られた場合、複数の対象ウエブページの情報に基づいて、フォクトの信頼度を導出する。ファクトとは、ナレッジデータベース４２のエンティティの組み合わせが含まれているという事実である。例えば、信頼度導出部１１５は、ウエブページにおける既知のエンティティの組み合わせの割合に基づいて、信頼度である統合スコアを導出し、導出した統合スコアと抽出情報１３８とを合わせて信頼度付抽出情報１４０を生成する。そして、信頼度導出部１１５は、統合スコアが閾値以上のエンティティの組み合わせをナレッジデータベース装置３０に提供することを決定する。

図１７は、信頼度付抽出情報１４０の内容の一例を示す図である。信頼度付抽出情報１４０は、対象ウエブページに含まれるエンティティの組み合わせと、その組み合わせがナレッジデータベース４２において既知であるか、未知であるかを示す情報と、対象ウエブページにおいてエンティティの組み合わせが既知の割合、および統合スコアが互いに関連付けられた情報である。例えば、信頼度導出部１１５は、対象ウエブページに含まれるエンティティの組み合わせがナレッジデータベース４２において既知であるか、未知あるかを判定し、判定結果に基づいて、エンティティの組み合わせに対する既知のエンティティの組み合わせの割合を導出する。

そして、信頼度導出部１１５は、所定のモデルに、対象ウエブページごとに導出した既知の割合を適用して、統合スコアを導出する。所定のモデルとは、例えば、式（１）である。式（１）の「ｘ」は、ホストＩＤ「００１」のホスト２０から収集された第１対象ウエブページにおける既知の割合であり、「ｙ」は、ホストＩＤ「００２」のホスト２０から収集された第２対象ウエブページにおける既知の割合である。「α」は、任意に設定されるパラメータ（例えば「０．１」）である。

図１８は、既知の割合の組み合わせごとの統合スコアの傾向の一例を示す図である。図１８に示すように式（１）は、「ｘ」、「ｙ」の両方の既知の割合が高い場合、統合スコアは高い傾向に導出され、「ｘ」、「ｙ」の両方の既知の割合が低い場合、統合スコアは高い傾向に導出される関数である。

このように、信頼度導出部１１５が、第１ウエブページと第２ウエブページとの既知の割合に基づいて、統合スコアを導出することにより、より精度よく統合スコアを導出することができる。

以上説明した第２実施形態によれば、収集装置１００が、第１ウエブページにおいて、ナレッジデータベース４２に含まれる、主エンティティと主エンティティに従属する従属エンティティとが特定の相対関係を有するように表現された表現パターンと、ナレッジデータベース４２に含まれる主エンティティと、ナレッジデータベース４２において主エンティティに従属していない非従属エンティティとが特定の相対関係を有するように表現された表現パターンとの比率、および、第２ウエブページにおいて、ナレッジデータベース４２に含まれる、主エンティティと主エンティティに従属する従属エンティティとが特定の相対関係を有するように表現された表現パターンと、ナレッジデータベースに含まれる主エンティティと、ナレッジデータベースにおいて主エンティティに従属していない非従属エンティティとが特定の相対関係を有するように表現された表現パターンとの比率に基づいて、非従属エンティティをナレッジデータベース４２の拡充するための情報とするか否かを判定することにより、より精度よくナレッジデータベースを拡充するための情報を分別することができる。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１‥情報処理システム、１０‥端末装置、２０‥ホスト、３０‥ナレッジデータベース装置、４２‥ナレッジデータベース、１００，１００Ａ‥収集装置、１０２‥通信部、１０４‥収集部、１０６‥決定部、１０８‥対象情報取得部、１１０‥認識部、１１２‥抽出部、１１４‥特定部、１１５‥信頼度導出部、１１６‥提供部、１３０、１３０Ａ‥記憶部、１３４‥エンティティ情報、１３６‥判定情報、１３８‥抽出情報、１４０‥信頼度付抽出情報

Claims

ウエブページの情報を取得する取得部と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第１主エンティティを特定し、
前記対象の第１主エンティティは、前記ナレッジデータベースにおいて前記第１主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第１従属エンティティが対応付けられていないエンティティであり、
前記対象の第１主エンティティが前記ウエブページに含まれるか否かを判定し、
前記対象の前記第１主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙し、
列挙した主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせの数が条件を満たし、且つ前記第１主エンティティに合致する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる前記ウエブページを提供しているホストを、前記第１従属エンティティの抽出対象に決定する決定部と、
を備える情報処理装置。
所定のホストが提供するウエブページの情報を取得する取得部と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数に基づいてスコアを導出し、
導出したスコアが閾値以上である場合、前記ホストを、前記ナレッジデータベースに含まれる第１主エンティティであって前記従属エンティティと同種の第１従属エンティティであり前記第１主エンティティに対して関連付けられるべき前記第１従属エンティティの抽出対象に決定し、
導出したスコアが閾値未満である場合、前記ホストを、抽出対象外に決定する決定部と、
を備える情報処理装置。
前記決定部は、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数と、前記ウエブページにおける前記ナレッジデータベースに含まれない前記組み合わせの個数とに基づいて、前記スコアを導出する、
請求項２に記載の情報処理装置。
前記抽出対象として決定されたホストが有する情報を、前記抽出対象であると決定されていないホストが有する情報よりも優先して情報を収集する収集部を備える、
請求項１から３のうちいずれか１項に記載の情報処理装置。
前記収集部により収集された情報に基づいて、ナレッジデータベースを拡充する処理部を備える、
請求項４に記載の情報処理装置。
前記処理部は、前記収集部により収集された情報に基づいて、ナレッジデータベースに含まれる主エンティティであって前記主エンティティに関連付けられるべき従属エンティティが関連付けられていない従属エンティティを用いて前記ナレッジデータベースを拡充する、
請求項５に記載の情報処理装置。
請求項１から６のうちいずれか１項に記載の情報処理装置と、
ユーザの端末装置のリクエストに応じて前記主エンティティと前記情報処理装置により拡充された従属エンティティとが関連付けた情報を前記ユーザの端末装置に提供するナレッジデータベース装置と、
を備える情報処理システム。
コンピュータが、
ウエブページの情報を取得し、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第１主エンティティを特定し、
前記対象の第１主エンティティは、前記ナレッジデータベースにおいて前記第１主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第１従属エンティティが対応付けられていないエンティティであり、
前記対象の第１主エンティティが前記ウエブページに含まれるか否かを判定し、
前記対象の前記第１主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙し、
列挙した主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせの数が条件を満たし、且つ前記第１主エンティティに合致する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる前記ウエブページを提供しているホストを、前記第１従属エンティティの抽出対象に決定する、
情報処理方法。
コンピュータに、
ウエブページの情報を取得させ、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第１主エンティティを特定させ、
前記対象の第１主エンティティは、前記ナレッジデータベースにおいて前記第１主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第１従属エンティティが対応付けられていないエンティティであり、
前記対象の第１主エンティティが前記ウエブページに含まれるか否かを判定させ、
前記対象の前記第１主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙させ、
列挙した主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせの数が条件を満たし、且つ前記第１主エンティティに合致する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる前記ウエブページを提供しているホストを、前記第１従属エンティティの抽出対象に決定させる、
プログラム。
コンピュータが、
所定のホストが提供するウエブページの情報を取得し、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数に基づいてスコアを導出し、
導出したスコアが閾値以上である場合、前記ホストを、前記ナレッジデータベースに含まれる第１主エンティティであって前記従属エンティティと同種の第１従属エンティティであり前記第１主エンティティに対して関連付けられるべき前記第１従属エンティティの抽出対象に決定し
導出したスコアが閾値未満である場合、前記ホストを、抽出対象外に決定する、
情報処理方法。
コンピュータに、
所定のホストが提供するウエブページの情報を取得させ、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数に基づいてスコアを導出させ、
導出したスコアが閾値以上である場合、前記ホストを、前記ナレッジデータベースに含まれる第１主エンティティであって前記従属エンティティと同種の第１従属エンティティであり前記第１主エンティティに対して関連付けられるべき前記第１従属エンティティの抽出対象に決定させ、
導出したスコアが閾値未満である場合、前記ホストを、抽出対象外に決定させる、
プログラム。