JP6578693B2

JP6578693B2 - 情報抽出装置、情報抽出方法、及び、表示制御システム

Info

Publication number: JP6578693B2
Application number: JP2015060288A
Authority: JP
Inventors: 中村　暢達; 暢達中村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2015-03-24
Filing date: 2015-03-24
Publication date: 2019-09-25
Anticipated expiration: 2035-03-24
Also published as: JP2016181069A; US20160283605A1

Description

本発明は、情報抽出装置、情報抽出方法、及び、表示制御システムに関する。

例えば、求職者が求人企業を探す場合、求人企業が発行する求人票にある情報のみでは不十分である場合が多い。また、潜在的に人手不足でありながら、求人広告にかけるコストを鑑みて、企業が、求人票を発行していない場合も多い。このような場合、求職者は、一般的に、企業のＷｅｂページ、広告や広報の情報を検索するなどして、調査を行う必要がある。

また、例えば、企業が、新規製品を事業化する場合に、競合する他の企業の動向を把握して、企業戦略を立案するための分析を実行することがある。この動向の把握では、企業は、競合企業の製品が保有する機能のリストの収集や、製品に関連する価格、売上データでの傾向の変化等を時間軸で把握して、機能開発のトレンドを認識する必要がある。

このように、Ｗｅｂ情報から、関係性を有する整理された情報（構造化情報）を抽出する必要が生じる場合がある。

特許文献１は、Ｗｅｂページを構成する文書における複数の要素をクラスタリングすることにより、Ｗｅｂページから抽出したい部分を抽出することが可能な技術を開示している。

特許文献２は、Ｗｅｂ上の検索エンジンに検索条件を入力して、その結果を使ってインターネット上の企業データを抽出する技術を開示している。

特許文献３は、予め作成したキーワードとのマッチングをとる等、予め設定したルールに基づいてＷｅｂ情報から企業情報等を抽出する技術について開示している。

特許文献４は、インターネット上に存在するＷｅｂサイトから、話題のトピックス情報および論評情報を収集し、収集した情報を集約した情報を提供可能な情報提供サーバに関する技術を開示している。

特開２０１４−０４９０８８号公報特許第５０２０４１４号公報特許第５１２５１６１号公報特開２００６−２２７９２５号公報

特許文献１は、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）の階層化構造を解析する場合に、対象が階層構造化を可能なデータに限定される。

特許文献２は、企業データがインデックス化され検索エンジンで検索されることが前提である。このため、予め、類義語、同義語が定義されていない場合、個別に検索し手動で統合する必要があり手間がかかるという問題がある。

特許文献３は、情報提供者がＲＳＳ（ＲｉｃｈＳｉｔｅＳｕｍｍａｒｙ）でデータを公開していることが前提である。

特許文献４は、類似、関連する情報の収集を行うが、記事である文章そのものを選択する技術であり、文章の中からデータを抽出する技術ではない。

上記のように、先行技術文献の事例は、Ｗｅｂデータから所望のデータを抽出するために人手によるルールの設定が必要である。例えば、どこのＷｅｂサイトのデータを使えばよいのか、そのデータから、どのように構造化された情報に変換すればよいのかは、作業者のノウハウ等に依存していた。

このため、本発明の目的は、上述した課題である、Ｗｅｂサイトから効率的に構造化された情報を抽出することにある。

本発明の情報抽出装置は、関係性を有する情報である構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶する記憶手段と、前記構造化モデル情報に基づいて、抽出対象の文書データから前記構造化情報を抽出する構造化実行手段と、を包含する。

本発明の情報抽出方法は、関係性を有する情報である構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶し、前記構造化モデル情報に基づいて、抽出対象の文書データから前記構造化情報を抽出する。

本発明の表示制御システムは、抽出対象の文書データから、関係性を有する情報である構造化情報を抽出する構造化実行手段と、前記抽出結果を前記構造化情報を抽出した結果の確からしさに応じた順序で端末に表示させる表示制御手段と、を含む。

本発明は、Ｗｅｂサイトから効率的に構造化された情報を抽出することができる。

図１は、本発明の第一の実施形態に係る、情報抽出装置の構成の一例を示すブロック図である。図２は、情報抽出装置を、情報処理装置で実現したハードウェア回路を示すブロック図である。図３は、情報抽出装置の動作を示すフローチャートである。図４は、Ｗｅｂデータの記述の一例を示す図である。図５は、教師データの一例を示す図である。図６は、教師データの他の例を示す図である。図７は、構造化モデル情報の一例を示す図である。図８は、抽出結果である構造化情報の一例を示す図である。図９は、第二の実施形態に係る、情報抽出装置の構成の一例を示すブロック図である。図１０は、第二の実施形態に係る、情報抽出装置の動作を示すフローチャートである。図１１は、第三の実施形態に係る、情報抽出装置の構成の一例を示すブロック図である。図１２は、第三の実施形態に係る、情報抽出装置の動作を示すフローチャートである。図１３は、第四の実施形態に係る、情報抽出装置の構成の一例を示すブロック図である。図１４は、第四の実施形態に係る、情報抽出装置の動作を示すフローチャートである。図１５は、第四の実施形態に係る、情報抽出装置の動作を示す他のフローチャートである。図１６は、第五の実施形態に係る、表示制御システムの構成の一例を示すブロック図である。図１７は、第五の実施形態に係る、端末が表示する情報の一例を示す図である。図１８は、第六の実施形態に係る、情報抽出装置の構成の一例を示すブロック図である。

発明を実施するための第一の形態について、図面を参照して詳細に説明する。

図１は、本発明の第一の実施形態に係る、情報抽出装置１０の構成の一例を示すブロック図である。

情報抽出装置１０は、ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）リスト保持部１１、Ｗｅｂデータ取得部１２、構造化モデル保持部１３、構造化実行部１４、蓄積部１５、構造化情報蓄積部１６、教師データ作成部１７、及び、構造化学習部１８から構成される。本発明の実施形態は、Ｗｅｂデータのような構造化されていない情報を含む文書データから、ユーザが欲する関係性を有する整理された情報（構造化情報）を学習によって抽出することができる。

ＵＲＬリスト保持部１１は、データ取得元のＷｅｂサイトのＵＲＬのリストを保持する。

Ｗｅｂデータ取得部１２は、ＵＲＬリスト保持部１１に保持されたＵＲＬリストを使用して、Ｗｅｂサイトにアクセスし、Ｗｅｂデータを取得する。

構造化モデル保持部１３は、抽出対象のＷｅｂデータの中からユーザが欲する情報（構造化情報でもあるので、以下、構造化情報とも記載）を抽出するために必要な情報を格納する。具体的に、構造化モデル保持部１３は、予め取得した学習対象のＷｅｂデータに基づいて、構造化情報の種類と構造化情報のＷｅｂ画面での表示内容および表示位置（以降、単に「表示内容」および「表示位置」と記載）との関係（教師データ）を学習した結果である構造化モデル情報を格納する。なお、表示内容は、データ内容とも言い、表示位置は、データの位置とも言う。また、学習の対象である教師データは、構造化情報の種類と表示内容のペア、および構造化情報の種類と表示位置のペアに対応する。

構造化実行部１４は、構造化モデル保持部１３に格納された構造化モデル情報に基づいて、Ｗｅｂデータ取得部１２で取得された抽出対象のＷｅｂデータから、ユーザが欲する情報である構造化情報を抽出する。

蓄積部１５は、構造化情報蓄積部１６が抽出した構造化情報を格納する。

構造化情報蓄積部１６は、構造化実行部１４で抽出した構造化情報を蓄積部１５に格納する。

教師データ作成部１７は、Ｗｅｂデータ取得部１２で取得した、学習対象のＷｅｂデータに基づいて、ユーザが欲する情報の種類と表示内容および表示位置との関係を示す教師データを作成する。

構造化学習部１８は、教師データ作成部１７にて作成された教師データ、たとえばユーザが欲する情報の種類と表示内容および表示位置との複数のペア、を読み込んで、構造化情報の種類と構造化情報の表示内容および表示位置との関係を学習する。さらに、構造化学習部１８は、学習によって得られる結果である構造化モデル情報を作成し、構造化モデル保持部１３に格納する。

上記のように、情報抽出装置１０の教師データ作成部１８は、インターネットで公開されているＷｅｂページなどの公開情報と、公開情報の中の項目に関し項目ごとに整理された情報と、の複数の組み合わせに注目する。それら複数の組み合わせがある場合に、構造化学習部１８は、機械学習により、構造化情報の種類に関するある項目に該当する情報（表示内容）が公開情報のどの位置（表示位置）に記載されているかをモデル化（構造化モデル情報を作成）する。そして、構造化実行部１４は、構造化モデル情報に基づいて、対象となるＷｅｂページからユーザが欲する情報を抽出する。

例えば、対象となるＷｅｂページにおける新商品の広報文は、「「販売者名」は、「発売日」より、「商品名」の販売を開始します。」というフォーマットで表現されることが多い。このため、情報抽出装置１０は、このフォーマット（構造化モデル情報）を対象となるＷｅｂページに当てはめて、新商品の広報文のＷｅｂページから、「販売者名」、「発売日」、「商品名」の各項目の情報を抜き出す。

情報抽出装置１０において、Ｗｅｂデータ取得部１２、構造化実行部１４、構造化情報蓄積部１６、教師データ作成部１７、及び、構造化学習部１８は、それぞれ論理回路等のハードウェアで構成される。

また、Ｗｅｂデータ取得部１２、構造化実行部１４、構造化情報蓄積部１６、教師データ作成部１７、及び、構造化学習部１８は、コンピュータである、情報抽出装置１０のプロセッサが、図示されないメモリ上のプログラムを実行することで実現される機能ユニットでも良い。

ＵＲＬリスト保持部１１、構造化モデル保持部１３、及び、蓄積部１５は、ディスク装置、半導体メモリ等の記憶装置で構成される。

図２は、情報抽出装置１０を、コンピュータである情報処理装置５０で実現したハードウェア回路の例を示すブロック図である。

図２に示されるように、情報処理装置５０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｏｒＵｎｉｔ）５１、メモリ５２、プログラムを格納するハードディスク等の記憶装置５３、およびネットワーク接続用のＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）５４を含む。また、コンピュータ装置５０は、バス５５を介して入力装置５６および出力装置５７に接続されている。

ＣＰＵ５１は、オペレーティングシステムを動作させて情報処理装置５０の全体を制御する。また、ＣＰＵ５１は、例えばドライブ装置などに装着された記録媒体５８からプログラムやデータを読み出し、メモリ５２に格納してもよい。また、ＣＰＵ５１は、図１に示す情報抽出装置１０における、Ｗｅｂデータ取得部１２、構造化実行部１４、構造化情報蓄積部１６、教師データ作成部１７、および構造化学習部１８の一部として機能し、プログラムに基づいて各種の処理を実行する。ＣＰＵ５１は、複数のＣＰＵによって構成されてもよい。

記憶装置５３は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、または半導体メモリ等で構成され、ＣＰＵ５１によって制御される。記憶装置５３は、ＵＲＬリスト保持部１１、構造化モデル保持部１３、及び、蓄積部１５として機能する記憶媒体である。記憶媒体５８は、不揮発性記憶装置であり、そこにＣＰＵ５１が実行するプログラムを記録する。記憶媒体５８は、記憶装置５３の一部であってもよい。また、プログラムは、通信網に接続されている図示しない外部コンピュータからＩ／Ｆ５４を介してダウンロードされてもよい。記憶装置５３とメモリ５２は、共有メモリを構成するものであってもよい。

入力装置５６は、例えばマウスやキーボード、内蔵のキーボタンなどで実現され、入力操作に用いられる。入力装置５６は、マウスやキーボード、内蔵のキーボタンに限らず、例えばタッチパネルでもよい。出力装置５７は、例えばディスプレイで実現され、出力を確認するために用いられる。

以上のように、図１に示す第一の実施の形態における情報抽出装置１０に対応する情報処理装置５０は、図２に示されるハードウェア構成によって実現されてもよい。ただし、情報処理装置５０は、図２の構成に限定されない。例えば、入力装置５６、出力装置５７は、インターフェース５４を介して外付けされるものでもよい。

また、情報処理装置５０は、物理的に結合した一つの装置により実現されてもよいし、物理的に分離した二つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。

図３は、情報抽出装置１０の動作を示すフローチャートである。

まず、Ｗｅｂデータ取得部１２は、ＵＲＬリスト保持部１１から、ＵＲＬリストを読み込む（ステップＳ１０１）。そして、Ｗｅｂデータ取得部１２は、ＵＲＬリストを使って、Ｗｅｂサイトにアクセスし、Ｗｅｂデータ（図４で後述）を取得する（ステップＳ１０２）。

もし、情報抽出装置１０での処理が事前の学習処理であれば（ステップＳ１０３でＹｅｓ）、情報抽出装置１０は、Ｓ１０８の処理に進む。

一方、情報抽出装置１０での処理が、取得したＷｅｂデータの構造化処理であれば（ステップＳ１０３でＮｏ）、情報抽出装置１０は、Ｓ１０４の処理に進む。なお、この判別は、プログラムの引数などにより、ユーザが指定してもよいし、ＣＰＵ５１が情報抽出装置１０の状態に応じて自動的に判別してもよい。

構造化実行部１４は、予め作成した、ユーザが欲する情報を抽出するための構造化モデル情報（図７で後述）を構造化モデル保持部１３から読み込む（ステップＳ１０４）。なお、既に読み込み済みの場合、再読み込みは、不要である。

次に、構造化実行部１４は、構造化モデル情報に基づいて、Ｓ１０２でＷｅｂデータ取得部１２が取得したＷｅｂデータから、ユーザが欲する情報（図８で後述）を抽出する（ステップＳ１０５）。そして、構造化情報蓄積部１６は、Ｓ１０５で構造化実行部１４が抽出した情報を蓄積部１５に保存する（ステップＳ１０６）。

Ｗｅｂデータ取得部１２は、順次ＵＲＬリストに記載されたＷｅｂサイトにアクセスするが、リストの最後に達していれば、処理は終了する（ステップＳ１０７でＹｅｓ）。もしリストの最後でなければ（ステップＳ１０７でＮｏ）、Ｗｅｂデータ取得部１２は、Ｓ１０２に戻り、次の未処理のＵＲＬリストの処理を進める。

一方、本処理が事前学習であれば（ステップＳ１０３でＹｅｓ）、教師データ作成部１７は、ユーザが欲する情報の種類と表示内容および表示位置との対応関係を示す教師データ（図５、図６で後述）を作成する（該当するデータにラベル付けを行う）（ステップＳ１０８）。

そして、Ｗｅｂデータ取得部１２は、順次ＵＲＬリストに記載されたＷｅｂサイトにアクセスするが、リストの最後に達していれば（ステップＳ１０９でＹｅｓ）、Ｓ１１０に進む。一方、もしリストの最後でなければ（ステップＳ１０９でＮｏ）、Ｗｅｂデータ取得部１２は、Ｓ１０２に戻り、次の未処理のＵＲＬリストの処理を進める。

構造化学習部１８は、ユーザが欲する情報の種類と表示内容および表示位置との複数のペア（教師データ）を読み込んで、機械学習により、学習対象のＷｅｂデータから、ユーザが欲する情報を抽出するための構造化モデル情報を作成する（ステップＳ１１０）。構造化モデル情報は、Ｗｅｂデータ中の構造化情報の種類に関するある項目に該当する情報（表示内容）が公開情報のどの位置（表示位置）に記載されているかについてモデル化した情報である。そして、構造化学習部１８は、作成した構造化モデル情報を構造化モデル保持部１３に保存し、処理を終了する（ステップＳ１１１）。

図４は、Ｗｅｂデータの記述の一例を示す図である。図４は、対象のＷｅｂサイトを表示するためのＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）の記述の例を示している。なお、図４には、Ｗｅｂデータを記述する文字列の例としてＨＴＭＬを用いたが、Ｗｅｂデータの記述はＨＴＭＬに限定されず、それ以外の文字列、言語を用いたものであってもよい。また、ＨＴＭＬに対応するＷｅｂサイトの表示画面が存在するが、表示画面の説明は省略する。

図５および図６は、教師データ作成部１７で作成される教師データの一例を示す図である。

図５は、構造化情報の種類と構造化情報の表示内容のペアを示す教師データの一例を示す図である。図５に示すように、構造化情報の種類は、「ビールの新製品に関する情報」である。また、構造化情報の表示内容は、例えば、「販売者名」、「発売日」、「商品名」、及び、「価格」を含む項目で構成される。また、表示内容の項目の右側には、各項目に対応する具体的なデータ内容の例を示している。

ところで、図５では、構造化情報の種類の一例として、「ビールの新製品に関する情報」を挙げたが、構造化情報の種類は、例えば、「製品に関する情報」、「新製品に関する情報」、「ビールに関する情報」等、任意に設定できるものとする。

なお、本実施形態では、構造化情報の種類を「ビールの新製品に関する情報」として、以下の説明を行う。

図６は、構造化情報の種類と構造化情報の表示位置のペアを示す教師データの一例を示す図である。

図６において、構造化情報の表示位置の左側のデータは、図５に示す教師データにおける表示内容のうち、実際に「商品名」が記載されている文書中の位置（特徴）を示すための前後の文字列（ＨＴＭＬ文字列）を示すデータ例である。

また、構造化情報の表示位置の右側のデータは、その左側のＨＴＭＬ文字列が、実際に「商品名」が記載されている文書中の位置（特徴）の前後の文字列に該当するか否かを、構造化学習部１８によって確認された結果を示すフラグ（ラベルともいう）である。ラベルは、該当する場合「１」で、該当しない場合「０」である。

なお、図５および図６は、教師データの一例を示すが、構造化学習部１８は、図５および図６以外の教師データを含む複数の教師データを基に学習を行ってもよいものとする。

図７は、構造化モデル保持部１３に保持される構造化モデル情報の一例を示す図である。図７に示すように、構造化モデル情報は、例えば、「商品名」という表示内容に対して、「販売者名の後に、商品名が配置される」、「商品名の後に、商品の価格が配置される」等、図６に示す表示位置に関する学習結果を記載している。

図８は、構造化実行部１４で抽出され蓄積部１５に格納される抽出結果である構造化情報（ユーザが欲する情報）の一例を示す図である。図８において、抽出結果は、図５の項目のうち「商品名」について、学習の結果、抽出された候補名を確度と共に表示している。

なお、構造化実行部１４は、例えば、ｌｉｂｓｖｍ（登録商標））等の一般的な機械学習のアルゴリズムを用いて、構造化情報を抽出した結果の確からしさを示す確度を算出し、出力する。図８では、例えば、「Ｈビール」が、確度が８０％であり、候補の中では、最も確度が高い結果となっていることを示している。

以上のように、情報抽出装置１０は、これまで人が実際にデータ抽出していた作業を、機械学習の結果となる作業モデル（構造化モデル情報）を基に、データを自動的に収集し、関係性を有する整理された情報に構造化し、蓄積する。これにより、情報抽出装置１０は、人手によるルールの設定が不要であり、事例を与えるだけの簡単な操作で済むため、効率的に処理を実行することができる。

本実施形態に係る情報抽出装置１０は、以下に記載するような効果を奏する。

すなわち、情報抽出装置１０は、Ｗｅｂサイトから効率的に構造化された情報を抽出することができる。

その理由は、以下に依る。すなわち、教師データ作成部１７が、学習対象のＷｅｂデータに基づいて、関係性を有する情報である構造化情報の種類と構造化情報のデータ内容およびデータの位置との関係を示す教師データを作成する。また、構造化学習部１８が、複数の教師データに基づいて、構造化情報の種類と構造化情報のデータ内容およびデータの位置との関係を学習し、学習結果である構造化モデル情報を作成する。そして、構造化実行部１４が、構造化モデル情報に基づいて、抽出対象のＷｅｂデータから構造化情報を抽出するからである。
＜第二の実施形態＞
次に、本発明を実施するための第二の形態について図面を参照して詳細に説明する。

図９は、第二の実施形態に係る、情報抽出装置２０の構成の一例を示すブロック図である。

情報抽出装置２０は、図９に示すように、第一の実施形態における情報抽出装置１０に蓄積データ閲覧部２９を追加した構成であり、より精度の高い構造化情報の作成を実現することができる。

なお、ＵＲＬリスト保持部２１、Ｗｅｂデータ取得部２２、構造化モデル保持部２３、構造化実行部２４、蓄積部２５、構造化情報蓄積部２６、教師データ作成部２７、及び、構造化学習部２８の各々は、第一の実施形態における、ＵＲＬリスト保持部１１、Ｗｅｂデータ取得部１２、構造化モデル保持部１３、構造化実行部１４、蓄積部１５、構造化情報タ蓄積部１６、教師データ作成部１７、及び、構造化学習部１８、と同等であり、各構成要素の動作の説明は、省略する。

蓄積データ閲覧部２９は、蓄積部２５に保存された、抽出結果のデータである構造化情報を、ユーザが閲覧可能な状態にする。また、蓄積データ閲覧部２９は、構造化情報の組み合わせが間違っていた場合には、ユーザが修正することを可能とする。

さらに、蓄積データ閲覧部２９は、情報の種類と、その情報の表示内容および表示位置との修正された対応関係を示す新たな教師データ（修正データ）を教師データ作成部２７に渡す。そして、構造化学習部２８が、教師データ作成部２７からの情報に基づいて、構造化モデル情報を作り直す。構造化学習部２８は、再作成された構造化モデル情報を構造化モデル保持部２３に格納する。

このように、情報抽出装置２０は、再作成された構造化モデル情報を使用して構造化を再処理することで、より精度の高い構造化情報の作成を実現する。

ここで、蓄積データ閲覧部２９は、論理回路等のハードウェアで構成される。また、蓄積データ閲覧部２９は、コンピュータである情報抽出装置２０のプロセッサが、図示されないメモリ上のプログラムを実行することで実現されても良い。

次に、図１０を用いて、情報抽出装置２０の動作について説明する。図１０は、情報抽出装置２０の動作を示すフローチャートである。

なお、図１０で図２のフローチャートと同じ番号（Ｓ１ｘｘ）の付いた処理は、図２と同一のため、詳細な説明は省略する。

まず、情報抽出装置２０は、この処理が事前の学習処理であれば（ステップＳ２０１でＹｅｓ）、Ｓ２０２の処理に進む。一方、取得したＷｅｂデータの構造化処理であれば（ステップＳ２０１でＮｏ）、情報抽出装置２０は、Ｓ１０１の処理に進む。なお、Ｓ２０１での判別は、プログラムの引数などにより、ユーザが指定してもよいし、ＣＰＵ５１が情報抽出装置２０の状態に応じて自動的に判別してもよい。

蓄積データ閲覧部２９は、蓄積部２５に保存された、抽出したデータである構造化情報を読み込み、ユーザが閲覧できるように表示する（ステップＳ２０２）。さらに、間違いがあった場合には、ユーザからの修正の指示を蓄積データ閲覧部２９から受けた教師データ作成部２７が、新たな教師データの作成（図６に示すようなラベル付け）を行う（ステップＳ２０３）。このように、蓄積データ閲覧部２９の指示により、修正した情報の種類と表示内容および表示位置との対応関係を示すデータを教師データ作成部２７が作成する。

次に、構造化学習部２８は、Ｓ１１０と同様の処理で、機械学習により構造化モデル情報を作り直す（ステップＳ２０４）。

そして、構造化学習部２８は、作成した構造化モデル情報を構造化モデル保持部２３に保存し、終了する（ステップＳ２０５）。

本実施形態に係る情報抽出装置２０は、以下に記載するような効果を奏する。

すなわち、情報抽出装置２０は、より精度の高い構造化情報の作成を実現することができる。

その理由は、蓄積データ閲覧部２９がユーザの修正を基に構造化モデル情報を作り直すことができるからである。
＜第三の実施形態＞
次に、本発明を実施するための第三の形態について図面を参照して詳細に説明する。

図１１は、第三の実施形態に係る、情報抽出装置３０の構成の一例を示すブロック図である。

情報抽出装置３０は、図１１に示すように、第一の実施形態における情報抽出装置１０に、Ｗｅｂ検索部３９を追加した構成で、情報取得元となるＷｅｂサーバのＵＲＬリストの拡充を実現する。

なお、ＵＲＬリスト保持部３１、Ｗｅｂデータ取得部３２、構造化モデル保持部３３、構造化実行部３４、蓄積部３５、構造化情報蓄積部３６、教師データ作成部３７、及び、構造化学習部３８の各々は、第一の実施形態における、ＵＲＬリスト保持部１１、Ｗｅｂデータ取得部１２、構造化モデル保持部１３、構造化実行部１４、蓄積部１５、構造化情報蓄積部１６、教師データ作成部１７、及び、構造化学習部１８、と同等であり、各要素の動作の説明は、省略する。

Ｗｅｂ検索部３９は、蓄積部３５に保存された、抽出したデータである構造化情報の種類と内容の組み合わせの中に、新たな内容があった場合、その内容が正しい情報であれば、その内容をインターネットで検索する。そして、Ｗｅｂ検索部３９は、この内容が含まれているＷｅｂページをリストアップし、新たなＵＲＬがあれば、ＵＲＬリスト保持部３１を更新する。

これにより、情報抽出装置３０は、新たな情報の情報源となるＷｅｂサーバのＵＲＬを拡充でき、より広範囲のデータ抽出を実現することができる。

ここで、Ｗｅｂ検索部３９は、論理回路等のハードウェアで構成される。また、Ｗｅｂ検索部３９は、コンピュータである情報抽出装置３０のプロセッサが、図示されないメモリ上のプログラムを実行することで実現されても良い。

次に、図１２を用いて、情報抽出装置３０の動作について説明する。図１２は、情報抽出装置３０の動作を示すフローチャートである。

図１２は、図３のフローチャートで説明した処理に、ＵＲＬリストを更新（追加）する機能を追加した構成である。

構造化情報蓄積部３６は、図３のＳ１０６で、構造化情報を抽出、保存後に、ＵＲＬリストの更新を行うかどうかを判別する（ステップＳ３０１）。更新が不要であれば、構造化情報蓄積部３６は、Ｓ１０７に進み、図３のフローチャートと同じ処理を実行する。

Ｗｅｂ検索部３９は、まず、抽出した構造化情報の中からキーワードを抽出もしくは選択する（ステップＳ３０２）。そして、Ｗｅｂ検索部３９は、そのキーワードでインターネット検索を行い、その検索結果を保存する（ステップＳ３０３）。

次に、Ｗｅｂ検索部３９は、検索結果のＵＲＬの中で既存ＵＲＬリストに含まれないＵＲＬを抽出し、ユーザに表示する（ステップＳ３０４）。

そして、Ｗｅｂ検索部３９は、その表示されたＵＲＬの中で、例えば、Ｗｅｂデータ取得部３２を介して当該ＵＲＬのＷｅｂサイトにアクセスし、今後もＷｅｂデータを取得すべきサイトかどうかをユーザに判断させる（ステップＳ３０５）。もし、追加すべきであれば（ステップＳ３０５でＹｅｓ）、Ｗｅｂ検索部３９は、ＵＲＬリストを更新する（ステップＳ３０６）。Ｗｅｂ検索部３９は、全てのＵＲＬの確認が完了すれば（ステップＳ３０７でＹｅｓ）、Ｓ１０７に進む。

本実施形態に係る情報抽出装置３０は、以下に記載するような効果を奏する。

すなわち、情報抽出装置３０は、情報取得元となるＷｅｂサーバのＵＲＬリストの拡充を実現する。

その理由は、Ｗｅｂ検索部３９が、抽出したデータである構造化情報の中に新たな内容があった場合、この内容が含まれているＷｅｂページをリストアップし、新たなＵＲＬがあれば、ＵＲＬリスト保持部３１を更新するからである。
＜第四の実施形態＞
次に、本発明を実施するための第四の形態について図面を参照して詳細に説明する。

図１３は、第四の実施形態に係る、情報抽出装置４０の構成の一例を示すブロック図である。

情報抽出装置４０は、図１３に示すように、第一の実施形態における情報抽出装置１０に、有効性判断部４９を追加した構成で、情報取得元となるＷｅｂサーバのＵＲＬリストの更新を実現する。

なお、ＵＲＬリスト保持部４１、Ｗｅｂデータ取得部４２、構造化モデル保持部４３、構造化実行部４４、蓄積部４５、構造化情報蓄積部４６、教師データ作成部４７、及び、構造化学習部４８の各々は、第一の実施形態における、ＵＲＬリスト保持部１１、Ｗｅｂデータ取得部１２、構造化モデル保持部１３、構造化実行部１４、蓄積部１５、構造化情報蓄積部１６、教師データ作成部１７、及び、構造化学習部１８、と同等であり、各要素の動作の説明は、省略する。

構造化実行部４４にて構造化処理を実行し、構造化情報の抽出を試みたが、例えば、結果的に何の有効なデータも抽出できない場合、有効性判断部４９は、その処理対象のＷｅｂデータの取得元のＵＲＬは無用であったと判断し、ＵＲＬリスト保持部４１を更新する。

こうすることで、情報抽出装置４０は、無用な情報の情報源となるＷｅｂサーバのＵＲＬを削除でき、より高速なデータ抽出を実現することができる。

ここで、有効性判断部４９は、論理回路等のハードウェアで構成される。また、有効性判断部４９は、コンピュータである情報抽出装置４０のプロセッサが、図示されないメモリ上のプログラムを実行することで実現されても良い。

次に、図１４及び図１５を用いて、情報抽出装置４０の動作について説明する。

図１４及び図１５は、情報抽出装置４０の動作を示すフローチャートである。

図１４に示すように、有用性判断部４９は、図３のＳ１０５〜Ｓ１０６の処理において、あるＵＲＬからデータを取得して、そのＵＲＬのＷｅｂデータから、抽出すべきデータ（構造化情報）があれば（ステップＳ４０１でＹｅｓ）、そのＵＲＬは有用であったことを意味し、その回数を履歴として保存する（ステップＳ４０２）。

また、図１５は、図３のフローチャートで説明した処理に、ＵＲＬリストを更新（削除）する機能を追加した構成である。

有用性判断部４９は、Ｓ１０６で構造化情報を抽出、保存後に、ＵＲＬリストの更新を行うかどうかを判別する（ステップＳ４０４）。更新不要であれば（ステップＳ４０４でＮｏ）、情報抽出装置４０は、Ｓ１０７に進み、図３のフローチャートと同じ処理を実行する。

有用性判断部４９は、ＵＲＬごとに、その利用回数（履歴）を表示する（ステップＳ４０５）。

そして、有用性判断部４９は、今後そのＵＲＬからＷｅｂデータを取得する必要かどうかを判断し、もし削除すべきであれば（ステップＳ４０６でＹｅｓ）、ＵＲＬリストを更新する（ステップＳ４０７）。

有用性判断部４９は、全てのＵＲＬの確認が完了すれば（ステップＳ４０８でＹｅｓ）、Ｓ１０７に進む。

本実施形態に係る情報抽出装置４０は、以下に記載するような効果を奏する。

すなわち、情報抽出装置４０は、より高速なデータ抽出を実現することができる。

その理由は、有用性判断部４９が、ＵＲＬリストの有効性を判断し、ＵＲＬリスト保持部４１を更新するからである。
＜第五の実施形態＞
次に、本発明を実施するための第五の形態について図面を参照して詳細に説明する。

図１６は、第五の実施形態に係る、表示制御システム５０の構成の一例を示すブロック図である。

表示制御システム５０は、構造化実行部５１、表示制御部５２、及び、端末５３を含む。

構造化実行部５１は、抽出対象の文書データから、関係性を有する情報である構造化情報を抽出する。

表示制御部５２は、抽出結果を構造化情報を抽出した結果の確からしさに応じた順序で端末に表示させる。また、表示制御部５２は、抽出結果を、文書データと関連付けて端末５３に表示させる。

端末５３は、表示制御部５２からの表示制御に応じて情報を表示する。

図１７は、端末５３が表示する情報の一例を示す図である。図１７に示すように、端末５３は、文書（例えば、図中に記載のようなＵＲＬ表示）と、その文書からの抽出結果とを、関係づけて表示する。

本実施形態に係る情報抽出装置５０は、以下に記載するような効果を奏する。

すなわち、構造化情報を抽出した結果の確からしさに応じた順序で端末に表示させることができる。

その理由は、以下に依る。すなわち、構造化実行部５１が、抽出対象の文書データから、関係性を有する情報である構造化情報を抽出する。また、表示制御部５２は、抽出結果を構造化情報を抽出した結果の確からしさに応じた順序で端末に表示させる。
＜第六の実施形態＞
次に、本発明を実施するための第六の形態について図面を参照して詳細に説明する。

図１８は、第六の実施形態に係る、情報抽出装置６０の構成の一例を示すブロック図である。

情報抽出装置６０は、記憶部６１、及び、構造化実行部６２を包含する。

記憶部６１は、関係性を有する情報である構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶する。

構造化実行部６２は、前記構造化モデル情報に基づいて、抽出対象の文書データから前記構造化情報を抽出する。

本実施形態に係る情報抽出装置６０は、以下に記載するような効果を奏する。

すなわち、情報抽出装置６０は、文書データから効率的に構造化された情報を抽出することができる。

その理由は、以下に依る。すなわち、記憶部６１は、関係性を有する情報である構造化情報の種類と構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶する。また、構造化実行部６２は、構造化モデル情報に基づいて、抽出対象の文書データから構造化情報を抽出する。

以上、図面を参照して本発明の実施形態を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１０情報抽出装置
１１ＵＲＬリスト保持部
１２Ｗｅｂデータ取得部
１３構造化モデル保持部
１４構造化実行部
１５蓄積部
１６構造化情報蓄積部
１７教師データ作成部
１８構造化学習部
２０情報抽出装置
２１ＵＲＬリスト保持部
２２Ｗｅｂデータ取得部
２３構造化モデル保持部
２４構造化実行部
２５蓄積部
２６構造化情報蓄積部
２７教師データ作成部
２８構造化学習部
２９蓄積データ閲覧部
３０情報抽出装置
３１ＵＲＬリスト保持部
３２Ｗｅｂデータ取得部
３３構造化モデル保持部
３４構造化実行部
３５蓄積部
３６構造化情報蓄積部
３７教師データ作成部
３８構造化学習部
３９Ｗｅｂ検索部
４０情報抽出装置
４１ＵＲＬリスト保持部
４２Ｗｅｂデータ取得部
４３構造化モデル保持部
４４構造化実行部
４５蓄積部
４６構造化情報蓄積部
４７教師データ作成部
４８構造化学習部
４９有効性判断部
５０表示制御システム
５１構造化実行部
５２表示制御部
５３端末
６０情報抽出装置
６１記憶部
６２構造化実行部

Claims

関係性を有する情報である構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶する記憶手段と、
前記構造化モデル情報に基づいて、抽出対象の文書データから前記構造化情報を抽出する構造化実行手段と、
前記抽出対象の文書データの存在場所を表す存在場所情報を記憶する存在場所保持手段と、
前記構造化実行手段による前記構造化情報の抽出結果に基づいて、前記存在場所情報を更新する存在場所更新手段と、
を包含する、情報抽出装置。
前記存在場所更新手段は、
前記抽出結果において新たな前記データ内容が含まれる場合、前記新たなデータ内容が含まれる前記文書データの存在場所をリストアップすることによって、前記存在場所情報を追加し、
前記存在場所情報が示す前記存在場所のうちの特定の存在場所から取得された前記抽出対象の文書データに関する前記抽出結果において、有効な前記構造化情報が得られない場合、前記特定の存在場所を表す前記存在場所情報を削除する、
請求項１に記載の情報抽出装置。
前記構造化情報をユーザに提示することにより、前記構造化情報を提示されたユーザによって前記構造化モデル情報を更新する指示を表す情報を入力された場合、前記指示を表す情報に基づいて、前記構造化モデル情報を更新する構造化モデル更新手段をさらに備える、
請求項１または２に記載の情報抽出装置。
前記構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係が、前記文書データを記述する文字列に基づいている、請求項１乃至３のいずれか一項に記載の情報抽出装置。
前記文書データを記述する文字列がＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）を用いて記載されている、請求項４に記載の情報抽出装置。
前記構造化実行手段が、前記構造化情報を抽出した結果の確からしさを示す確度を出力
する、請求項１乃至５のいずれか１項に記載の情報抽出装置。
情報抽出装置によって、
関係性を有する情報である構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶手段に記憶し、
前記構造化モデル情報に基づいて、抽出対象の文書データから前記構造化情報を抽出し、
前記抽出対象の文書データの存在場所を表す存在場所情報を存在場所保持手段に記憶し、
前記抽出対象の文書データから前記構造化情報を抽出した結果に基づいて、前記存在場所情報を更新する、
情報抽出方法。
請求項１乃至６のいずれか一項に記載の情報抽出装置と、
前記抽出結果を、前記構造化情報を抽出した結果の確からしさに応じた順序で端末に表示させる表示制御手段と、を含む、表示制御システム。
請求項１乃至６のいずれか一項に記載の情報抽出装置と、
前記抽出結果を、前記文書データと関連付けて端末に表示させる表示制御手段と、を含む、表示制御システム。
前記表示制御手段からの表示制御に応じて情報を表示する端末をさらに含む、請求項８または９に記載の表示制御システム。