JP6578693B2 - 情報抽出装置、情報抽出方法、及び、表示制御システム - Google Patents

情報抽出装置、情報抽出方法、及び、表示制御システム Download PDF

Info

Publication number
JP6578693B2
JP6578693B2 JP2015060288A JP2015060288A JP6578693B2 JP 6578693 B2 JP6578693 B2 JP 6578693B2 JP 2015060288 A JP2015060288 A JP 2015060288A JP 2015060288 A JP2015060288 A JP 2015060288A JP 6578693 B2 JP6578693 B2 JP 6578693B2
Authority
JP
Japan
Prior art keywords
information
structured
unit
data
location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015060288A
Other languages
English (en)
Other versions
JP2016181069A (ja
Inventor
中村 暢達
暢達 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015060288A priority Critical patent/JP6578693B2/ja
Priority to US15/058,333 priority patent/US20160283605A1/en
Publication of JP2016181069A publication Critical patent/JP2016181069A/ja
Application granted granted Critical
Publication of JP6578693B2 publication Critical patent/JP6578693B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、情報抽出装置、情報抽出方法、及び、表示制御システムに関する。
例えば、求職者が求人企業を探す場合、求人企業が発行する求人票にある情報のみでは不十分である場合が多い。また、潜在的に人手不足でありながら、求人広告にかけるコストを鑑みて、企業が、求人票を発行していない場合も多い。このような場合、求職者は、一般的に、企業のWebページ、広告や広報の情報を検索するなどして、調査を行う必要がある。
また、例えば、企業が、新規製品を事業化する場合に、競合する他の企業の動向を把握して、企業戦略を立案するための分析を実行することがある。この動向の把握では、企業は、競合企業の製品が保有する機能のリストの収集や、製品に関連する価格、売上データでの傾向の変化等を時間軸で把握して、機能開発のトレンドを認識する必要がある。
このように、Web情報から、関係性を有する整理された情報(構造化情報)を抽出する必要が生じる場合がある。
特許文献1は、Webページを構成する文書における複数の要素をクラスタリングすることにより、Webページから抽出したい部分を抽出することが可能な技術を開示している。
特許文献2は、Web上の検索エンジンに検索条件を入力して、その結果を使ってインターネット上の企業データを抽出する技術を開示している。
特許文献3は、予め作成したキーワードとのマッチングをとる等、予め設定したルールに基づいてWeb情報から企業情報等を抽出する技術について開示している。
特許文献4は、インターネット上に存在するWebサイトから、話題のトピックス情報および論評情報を収集し、収集した情報を集約した情報を提供可能な情報提供サーバに関する技術を開示している。
特開2014−049088号公報 特許第5020414号公報 特許第5125161号公報 特開2006−227925号公報
特許文献1は、HTML(Hyper Text Markup Language)の階層化構造を解析する場合に、対象が階層構造化を可能なデータに限定される。
特許文献2は、企業データがインデックス化され検索エンジンで検索されることが前提である。このため、予め、類義語、同義語が定義されていない場合、個別に検索し手動で統合する必要があり手間がかかるという問題がある。
特許文献3は、情報提供者がRSS(Rich Site Summary)でデータを公開していることが前提である。
特許文献4は、類似、関連する情報の収集を行うが、記事である文章そのものを選択する技術であり、文章の中からデータを抽出する技術ではない。
上記のように、先行技術文献の事例は、Webデータから所望のデータを抽出するために人手によるルールの設定が必要である。例えば、どこのWebサイトのデータを使えばよいのか、そのデータから、どのように構造化された情報に変換すればよいのかは、作業者のノウハウ等に依存していた。
このため、本発明の目的は、上述した課題である、Webサイトから効率的に構造化された情報を抽出することにある。
本発明の情報抽出装置は、関係性を有する情報である構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶する記憶手段と、前記構造化モデル情報に基づいて、抽出対象の文書データから前記構造化情報を抽出する構造化実行手段と、を包含する。
本発明の情報抽出方法は、関係性を有する情報である構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶し、前記構造化モデル情報に基づいて、抽出対象の文書データから前記構造化情報を抽出する。
本発明の表示制御システムは、抽出対象の文書データから、関係性を有する情報である構造化情報を抽出する構造化実行手段と、前記抽出結果を前記構造化情報を抽出した結果の確からしさに応じた順序で端末に表示させる表示制御手段と、を含む。
本発明は、Webサイトから効率的に構造化された情報を抽出することができる。
図1は、本発明の第一の実施形態に係る、情報抽出装置の構成の一例を示すブロック図である。 図2は、情報抽出装置を、情報処理装置で実現したハードウェア回路を示すブロック図である。 図3は、情報抽出装置の動作を示すフローチャートである。 図4は、Webデータの記述の一例を示す図である。 図5は、教師データの一例を示す図である。 図6は、教師データの他の例を示す図である。 図7は、構造化モデル情報の一例を示す図である。 図8は、抽出結果である構造化情報の一例を示す図である。 図9は、第二の実施形態に係る、情報抽出装置の構成の一例を示すブロック図である。 図10は、第二の実施形態に係る、情報抽出装置の動作を示すフローチャートである。 図11は、第三の実施形態に係る、情報抽出装置の構成の一例を示すブロック図である。 図12は、第三の実施形態に係る、情報抽出装置の動作を示すフローチャートである。 図13は、第四の実施形態に係る、情報抽出装置の構成の一例を示すブロック図である。 図14は、第四の実施形態に係る、情報抽出装置の動作を示すフローチャートである。 図15は、第四の実施形態に係る、情報抽出装置の動作を示す他のフローチャートである。 図16は、第五の実施形態に係る、表示制御システムの構成の一例を示すブロック図である。 図17は、第五の実施形態に係る、端末が表示する情報の一例を示す図である。 図18は、第六の実施形態に係る、情報抽出装置の構成の一例を示すブロック図である。
発明を実施するための第一の形態について、図面を参照して詳細に説明する。
図1は、本発明の第一の実施形態に係る、情報抽出装置10の構成の一例を示すブロック図である。
情報抽出装置10は、URL(Uniform Resource Locator)リスト保持部11、Webデータ取得部12、構造化モデル保持部13、構造化実行部14、蓄積部15、構造化情報蓄積部16、教師データ作成部17、及び、構造化学習部18から構成される。本発明の実施形態は、Webデータのような構造化されていない情報を含む文書データから、ユーザが欲する関係性を有する整理された情報(構造化情報)を学習によって抽出することができる。
URLリスト保持部11は、データ取得元のWebサイトのURLのリストを保持する。
Webデータ取得部12は、URLリスト保持部11に保持されたURLリストを使用して、Webサイトにアクセスし、Webデータを取得する。
構造化モデル保持部13は、抽出対象のWebデータの中からユーザが欲する情報(構造化情報でもあるので、以下、構造化情報とも記載)を抽出するために必要な情報を格納する。具体的に、構造化モデル保持部13は、予め取得した学習対象のWebデータに基づいて、構造化情報の種類と構造化情報のWeb画面での表示内容および表示位置(以降、単に「表示内容」および「表示位置」と記載)との関係(教師データ)を学習した結果である構造化モデル情報を格納する。なお、表示内容は、データ内容とも言い、表示位置は、データの位置とも言う。また、学習の対象である教師データは、構造化情報の種類と表示内容のペア、および構造化情報の種類と表示位置のペアに対応する。
構造化実行部14は、構造化モデル保持部13に格納された構造化モデル情報に基づいて、Webデータ取得部12で取得された抽出対象のWebデータから、ユーザが欲する情報である構造化情報を抽出する。
蓄積部15は、構造化情報蓄積部16が抽出した構造化情報を格納する。
構造化情報蓄積部16は、構造化実行部14で抽出した構造化情報を蓄積部15に格納する。
教師データ作成部17は、Webデータ取得部12で取得した、学習対象のWebデータに基づいて、ユーザが欲する情報の種類と表示内容および表示位置との関係を示す教師データを作成する。
構造化学習部18は、教師データ作成部17にて作成された教師データ、たとえばユーザが欲する情報の種類と表示内容および表示位置との複数のペア、を読み込んで、構造化情報の種類と構造化情報の表示内容および表示位置との関係を学習する。さらに、構造化学習部18は、学習によって得られる結果である構造化モデル情報を作成し、構造化モデル保持部13に格納する。
上記のように、情報抽出装置10の教師データ作成部18は、インターネットで公開されているWebページなどの公開情報と、公開情報の中の項目に関し項目ごとに整理された情報と、の複数の組み合わせに注目する。それら複数の組み合わせがある場合に、構造化学習部18は、機械学習により、構造化情報の種類に関するある項目に該当する情報(表示内容)が公開情報のどの位置(表示位置)に記載されているかをモデル化(構造化モデル情報を作成)する。そして、構造化実行部14は、構造化モデル情報に基づいて、対象となるWebページからユーザが欲する情報を抽出する。
例えば、対象となるWebページにおける新商品の広報文は、「「販売者名」は、「発売日」より、「商品名」の販売を開始します。」というフォーマットで表現されることが多い。このため、情報抽出装置10は、このフォーマット(構造化モデル情報)を対象となるWebページに当てはめて、新商品の広報文のWebページから、「販売者名」、「発売日」、「商品名」の各項目の情報を抜き出す。
情報抽出装置10において、Webデータ取得部12、構造化実行部14、構造化情報蓄積部16、教師データ作成部17、及び、構造化学習部18は、それぞれ論理回路等のハードウェアで構成される。
また、Webデータ取得部12、構造化実行部14、構造化情報蓄積部16、教師データ作成部17、及び、構造化学習部18は、コンピュータである、情報抽出装置10のプロセッサが、図示されないメモリ上のプログラムを実行することで実現される機能ユニットでも良い。
URLリスト保持部11、構造化モデル保持部13、及び、蓄積部15は、ディスク装置、半導体メモリ等の記憶装置で構成される。
図2は、情報抽出装置10を、コンピュータである情報処理装置50で実現したハードウェア回路の例を示すブロック図である。
図2に示されるように、情報処理装置50は、CPU(Central Processor Unit)51、メモリ52、プログラムを格納するハードディスク等の記憶装置53、およびネットワーク接続用のI/F(Interface)54を含む。また、コンピュータ装置50は、バス55を介して入力装置56および出力装置57に接続されている。
CPU51は、オペレーティングシステムを動作させて情報処理装置50の全体を制御する。また、CPU51は、例えばドライブ装置などに装着された記録媒体58からプログラムやデータを読み出し、メモリ52に格納してもよい。また、CPU51は、図1に示す情報抽出装置10における、Webデータ取得部12、構造化実行部14、構造化情報蓄積部16、教師データ作成部17、および構造化学習部18の一部として機能し、プログラムに基づいて各種の処理を実行する。CPU51は、複数のCPUによって構成されてもよい。
記憶装置53は、例えば、光ディスク、フレキシブルディスク、磁気光ディスク、外付けハードディスク、または半導体メモリ等で構成され、CPU51によって制御される。記憶装置53は、URLリスト保持部11、構造化モデル保持部13、及び、蓄積部15として機能する記憶媒体である。記憶媒体58は、不揮発性記憶装置であり、そこにCPU51が実行するプログラムを記録する。記憶媒体58は、記憶装置53の一部であってもよい。また、プログラムは、通信網に接続されている図示しない外部コンピュータからI/F54を介してダウンロードされてもよい。記憶装置53とメモリ52は、共有メモリを構成するものであってもよい。
入力装置56は、例えばマウスやキーボード、内蔵のキーボタンなどで実現され、入力操作に用いられる。入力装置56は、マウスやキーボード、内蔵のキーボタンに限らず、例えばタッチパネルでもよい。出力装置57は、例えばディスプレイで実現され、出力を確認するために用いられる。
以上のように、図1に示す第一の実施の形態における情報抽出装置10に対応する情報処理装置50は、図2に示されるハードウェア構成によって実現されてもよい。ただし、情報処理装置50は、図2の構成に限定されない。例えば、入力装置56、出力装置57は、インターフェース54を介して外付けされるものでもよい。
また、情報処理装置50は、物理的に結合した一つの装置により実現されてもよいし、物理的に分離した二つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。
図3は、情報抽出装置10の動作を示すフローチャートである。
まず、Webデータ取得部12は、URLリスト保持部11から、URLリストを読み込む(ステップS101)。そして、Webデータ取得部12は、URLリストを使って、Webサイトにアクセスし、Webデータ(図4で後述)を取得する(ステップS102)。
もし、情報抽出装置10での処理が事前の学習処理であれば(ステップS103でYes)、情報抽出装置10は、S108の処理に進む。
一方、情報抽出装置10での処理が、取得したWebデータの構造化処理であれば(ステップS103でNo)、情報抽出装置10は、S104の処理に進む。なお、この判別は、プログラムの引数などにより、ユーザが指定してもよいし、CPU51が情報抽出装置10の状態に応じて自動的に判別してもよい。
構造化実行部14は、予め作成した、ユーザが欲する情報を抽出するための構造化モデル情報(図7で後述)を構造化モデル保持部13から読み込む(ステップS104)。なお、既に読み込み済みの場合、再読み込みは、不要である。
次に、構造化実行部14は、構造化モデル情報に基づいて、S102でWebデータ取得部12が取得したWebデータから、ユーザが欲する情報(図8で後述)を抽出する(ステップS105)。そして、構造化情報蓄積部16は、S105で構造化実行部14が抽出した情報を蓄積部15に保存する(ステップS106)。
Webデータ取得部12は、順次URLリストに記載されたWebサイトにアクセスするが、リストの最後に達していれば、処理は終了する(ステップS107でYes)。もしリストの最後でなければ(ステップS107でNo)、Webデータ取得部12は、S102に戻り、次の未処理のURLリストの処理を進める。
一方、本処理が事前学習であれば(ステップS103でYes)、教師データ作成部17は、ユーザが欲する情報の種類と表示内容および表示位置との対応関係を示す教師データ(図5、図6で後述)を作成する(該当するデータにラベル付けを行う)(ステップS108)。
そして、Webデータ取得部12は、順次URLリストに記載されたWebサイトにアクセスするが、リストの最後に達していれば(ステップS109でYes)、S110に進む。一方、もしリストの最後でなければ(ステップS109でNo)、Webデータ取得部12は、S102に戻り、次の未処理のURLリストの処理を進める。
構造化学習部18は、ユーザが欲する情報の種類と表示内容および表示位置との複数のペア(教師データ)を読み込んで、機械学習により、学習対象のWebデータから、ユーザが欲する情報を抽出するための構造化モデル情報を作成する(ステップS110)。構造化モデル情報は、Webデータ中の構造化情報の種類に関するある項目に該当する情報(表示内容)が公開情報のどの位置(表示位置)に記載されているかについてモデル化した情報である。そして、構造化学習部18は、作成した構造化モデル情報を構造化モデル保持部13に保存し、処理を終了する(ステップS111)。
図4は、Webデータの記述の一例を示す図である。図4は、対象のWebサイトを表示するためのHTML(Hyper Text Markup Language)の記述の例を示している。なお、図4には、Webデータを記述する文字列の例としてHTMLを用いたが、Webデータの記述はHTMLに限定されず、それ以外の文字列、言語を用いたものであってもよい。また、HTMLに対応するWebサイトの表示画面が存在するが、表示画面の説明は省略する。
図5および図6は、教師データ作成部17で作成される教師データの一例を示す図である。
図5は、構造化情報の種類と構造化情報の表示内容のペアを示す教師データの一例を示す図である。図5に示すように、構造化情報の種類は、「ビールの新製品に関する情報」である。また、構造化情報の表示内容は、例えば、「販売者名」、「発売日」、「商品名」、及び、「価格」を含む項目で構成される。また、表示内容の項目の右側には、各項目に対応する具体的なデータ内容の例を示している。
ところで、図5では、構造化情報の種類の一例として、「ビールの新製品に関する情報」を挙げたが、構造化情報の種類は、例えば、「製品に関する情報」、「新製品に関する情報」、「ビールに関する情報」等、任意に設定できるものとする。
なお、本実施形態では、構造化情報の種類を「ビールの新製品に関する情報」として、以下の説明を行う。
図6は、構造化情報の種類と構造化情報の表示位置のペアを示す教師データの一例を示す図である。
図6において、構造化情報の表示位置の左側のデータは、図5に示す教師データにおける表示内容のうち、実際に「商品名」が記載されている文書中の位置(特徴)を示すための前後の文字列(HTML文字列)を示すデータ例である。
また、構造化情報の表示位置の右側のデータは、その左側のHTML文字列が、実際に「商品名」が記載されている文書中の位置(特徴)の前後の文字列に該当するか否かを、構造化学習部18によって確認された結果を示すフラグ(ラベルともいう)である。ラベルは、該当する場合「1」で、該当しない場合「0」である。
なお、図5および図6は、教師データの一例を示すが、構造化学習部18は、図5および図6以外の教師データを含む複数の教師データを基に学習を行ってもよいものとする。
図7は、構造化モデル保持部13に保持される構造化モデル情報の一例を示す図である。図7に示すように、構造化モデル情報は、例えば、「商品名」という表示内容に対して、「販売者名の後に、商品名が配置される」、「商品名の後に、商品の価格が配置される」等、図6に示す表示位置に関する学習結果を記載している。
図8は、構造化実行部14で抽出され蓄積部15に格納される抽出結果である構造化情報(ユーザが欲する情報)の一例を示す図である。図8において、抽出結果は、図5の項目のうち「商品名」について、学習の結果、抽出された候補名を確度と共に表示している。
なお、構造化実行部14は、例えば、libsvm(登録商標))等の一般的な機械学習のアルゴリズムを用いて、構造化情報を抽出した結果の確からしさを示す確度を算出し、出力する。図8では、例えば、「Hビール」が、確度が80%であり、候補の中では、最も確度が高い結果となっていることを示している。
以上のように、情報抽出装置10は、これまで人が実際にデータ抽出していた作業を、機械学習の結果となる作業モデル(構造化モデル情報)を基に、データを自動的に収集し、関係性を有する整理された情報に構造化し、蓄積する。これにより、情報抽出装置10は、人手によるルールの設定が不要であり、事例を与えるだけの簡単な操作で済むため、効率的に処理を実行することができる。
本実施形態に係る情報抽出装置10は、以下に記載するような効果を奏する。
すなわち、情報抽出装置10は、Webサイトから効率的に構造化された情報を抽出することができる。
その理由は、以下に依る。すなわち、教師データ作成部17が、学習対象のWebデータに基づいて、関係性を有する情報である構造化情報の種類と構造化情報のデータ内容およびデータの位置との関係を示す教師データを作成する。また、構造化学習部18が、複数の教師データに基づいて、構造化情報の種類と構造化情報のデータ内容およびデータの位置との関係を学習し、学習結果である構造化モデル情報を作成する。そして、構造化実行部14が、構造化モデル情報に基づいて、抽出対象のWebデータから構造化情報を抽出するからである。
<第二の実施形態>
次に、本発明を実施するための第二の形態について図面を参照して詳細に説明する。
図9は、第二の実施形態に係る、情報抽出装置20の構成の一例を示すブロック図である。
情報抽出装置20は、図9に示すように、第一の実施形態における情報抽出装置10に蓄積データ閲覧部29を追加した構成であり、より精度の高い構造化情報の作成を実現することができる。
なお、URLリスト保持部21、Webデータ取得部22、構造化モデル保持部23、構造化実行部24、蓄積部25、構造化情報蓄積部26、教師データ作成部27、及び、構造化学習部28の各々は、第一の実施形態における、URLリスト保持部11、Webデータ取得部12、構造化モデル保持部13、構造化実行部14、蓄積部15、構造化情報タ蓄積部16、教師データ作成部17、及び、構造化学習部18、と同等であり、各構成要素の動作の説明は、省略する。
蓄積データ閲覧部29は、蓄積部25に保存された、抽出結果のデータである構造化情報を、ユーザが閲覧可能な状態にする。また、蓄積データ閲覧部29は、構造化情報の組み合わせが間違っていた場合には、ユーザが修正することを可能とする。
さらに、蓄積データ閲覧部29は、情報の種類と、その情報の表示内容および表示位置との修正された対応関係を示す新たな教師データ(修正データ)を教師データ作成部27に渡す。そして、構造化学習部28が、教師データ作成部27からの情報に基づいて、構造化モデル情報を作り直す。構造化学習部28は、再作成された構造化モデル情報を構造化モデル保持部23に格納する。
このように、情報抽出装置20は、再作成された構造化モデル情報を使用して構造化を再処理することで、より精度の高い構造化情報の作成を実現する。
ここで、蓄積データ閲覧部29は、論理回路等のハードウェアで構成される。また、蓄積データ閲覧部29は、コンピュータである情報抽出装置20のプロセッサが、図示されないメモリ上のプログラムを実行することで実現されても良い。
次に、図10を用いて、情報抽出装置20の動作について説明する。図10は、情報抽出装置20の動作を示すフローチャートである。
なお、図10で図2のフローチャートと同じ番号(S1xx)の付いた処理は、図2と同一のため、詳細な説明は省略する。
まず、情報抽出装置20は、この処理が事前の学習処理であれば(ステップS201でYes)、S202の処理に進む。一方、取得したWebデータの構造化処理であれば(ステップS201でNo)、情報抽出装置20は、S101の処理に進む。なお、S201での判別は、プログラムの引数などにより、ユーザが指定してもよいし、CPU51が情報抽出装置20の状態に応じて自動的に判別してもよい。
蓄積データ閲覧部29は、蓄積部25に保存された、抽出したデータである構造化情報を読み込み、ユーザが閲覧できるように表示する(ステップS202)。さらに、間違いがあった場合には、ユーザからの修正の指示を蓄積データ閲覧部29から受けた教師データ作成部27が、新たな教師データの作成(図6に示すようなラベル付け)を行う(ステップS203)。このように、蓄積データ閲覧部29の指示により、修正した情報の種類と表示内容および表示位置との対応関係を示すデータを教師データ作成部27が作成する。
次に、構造化学習部28は、S110と同様の処理で、機械学習により構造化モデル情報を作り直す(ステップS204)。
そして、構造化学習部28は、作成した構造化モデル情報を構造化モデル保持部23に保存し、終了する(ステップS205)。
本実施形態に係る情報抽出装置20は、以下に記載するような効果を奏する。
すなわち、情報抽出装置20は、より精度の高い構造化情報の作成を実現することができる。
その理由は、蓄積データ閲覧部29がユーザの修正を基に構造化モデル情報を作り直すことができるからである。
<第三の実施形態>
次に、本発明を実施するための第三の形態について図面を参照して詳細に説明する。
図11は、第三の実施形態に係る、情報抽出装置30の構成の一例を示すブロック図である。
情報抽出装置30は、図11に示すように、第一の実施形態における情報抽出装置10に、Web検索部39を追加した構成で、情報取得元となるWebサーバのURLリストの拡充を実現する。
なお、URLリスト保持部31、Webデータ取得部32、構造化モデル保持部33、構造化実行部34、蓄積部35、構造化情報蓄積部36、教師データ作成部37、及び、構造化学習部38の各々は、第一の実施形態における、URLリスト保持部11、Webデータ取得部12、構造化モデル保持部13、構造化実行部14、蓄積部15、構造化情報蓄積部16、教師データ作成部17、及び、構造化学習部18、と同等であり、各要素の動作の説明は、省略する。
Web検索部39は、蓄積部35に保存された、抽出したデータである構造化情報の種類と内容の組み合わせの中に、新たな内容があった場合、その内容が正しい情報であれば、その内容をインターネットで検索する。そして、Web検索部39は、この内容が含まれているWebページをリストアップし、新たなURLがあれば、URLリスト保持部31を更新する。
これにより、情報抽出装置30は、新たな情報の情報源となるWebサーバのURLを拡充でき、より広範囲のデータ抽出を実現することができる。
ここで、Web検索部39は、論理回路等のハードウェアで構成される。また、Web検索部39は、コンピュータである情報抽出装置30のプロセッサが、図示されないメモリ上のプログラムを実行することで実現されても良い。
次に、図12を用いて、情報抽出装置30の動作について説明する。図12は、情報抽出装置30の動作を示すフローチャートである。
図12は、図3のフローチャートで説明した処理に、URLリストを更新(追加)する機能を追加した構成である。
構造化情報蓄積部36は、図3のS106で、構造化情報を抽出、保存後に、URLリストの更新を行うかどうかを判別する(ステップS301)。更新が不要であれば、構造化情報蓄積部36は、S107に進み、図3のフローチャートと同じ処理を実行する。
Web検索部39は、まず、抽出した構造化情報の中からキーワードを抽出もしくは選択する(ステップS302)。そして、Web検索部39は、そのキーワードでインターネット検索を行い、その検索結果を保存する(ステップS303)。
次に、Web検索部39は、検索結果のURLの中で既存URLリストに含まれないURLを抽出し、ユーザに表示する(ステップS304)。
そして、Web検索部39は、その表示されたURLの中で、例えば、Webデータ取得部32を介して当該URLのWebサイトにアクセスし、今後もWebデータを取得すべきサイトかどうかをユーザに判断させる(ステップS305)。もし、追加すべきであれば(ステップS305でYes)、Web検索部39は、URLリストを更新する(ステップS306)。Web検索部39は、全てのURLの確認が完了すれば(ステップS307でYes)、S107に進む。
本実施形態に係る情報抽出装置30は、以下に記載するような効果を奏する。
すなわち、情報抽出装置30は、情報取得元となるWebサーバのURLリストの拡充を実現する。
その理由は、Web検索部39が、抽出したデータである構造化情報の中に新たな内容があった場合、この内容が含まれているWebページをリストアップし、新たなURLがあれば、URLリスト保持部31を更新するからである。
<第四の実施形態>
次に、本発明を実施するための第四の形態について図面を参照して詳細に説明する。
図13は、第四の実施形態に係る、情報抽出装置40の構成の一例を示すブロック図である。
情報抽出装置40は、図13に示すように、第一の実施形態における情報抽出装置10に、有効性判断部49を追加した構成で、情報取得元となるWebサーバのURLリストの更新を実現する。
なお、URLリスト保持部41、Webデータ取得部42、構造化モデル保持部43、構造化実行部44、蓄積部45、構造化情報蓄積部46、教師データ作成部47、及び、構造化学習部48の各々は、第一の実施形態における、URLリスト保持部11、Webデータ取得部12、構造化モデル保持部13、構造化実行部14、蓄積部15、構造化情報蓄積部16、教師データ作成部17、及び、構造化学習部18、と同等であり、各要素の動作の説明は、省略する。
構造化実行部44にて構造化処理を実行し、構造化情報の抽出を試みたが、例えば、結果的に何の有効なデータも抽出できない場合、有効性判断部49は、その処理対象のWebデータの取得元のURLは無用であったと判断し、URLリスト保持部41を更新する。
こうすることで、情報抽出装置40は、無用な情報の情報源となるWebサーバのURLを削除でき、より高速なデータ抽出を実現することができる。
ここで、有効性判断部49は、論理回路等のハードウェアで構成される。また、有効性判断部49は、コンピュータである情報抽出装置40のプロセッサが、図示されないメモリ上のプログラムを実行することで実現されても良い。
次に、図14及び図15を用いて、情報抽出装置40の動作について説明する。
図14及び図15は、情報抽出装置40の動作を示すフローチャートである。
図14に示すように、有用性判断部49は、図3のS105〜S106の処理において、あるURLからデータを取得して、そのURLのWebデータから、抽出すべきデータ(構造化情報)があれば(ステップS401でYes)、そのURLは有用であったことを意味し、その回数を履歴として保存する(ステップS402)。
また、図15は、図3のフローチャートで説明した処理に、URLリストを更新(削除)する機能を追加した構成である。
有用性判断部49は、S106で構造化情報を抽出、保存後に、URLリストの更新を行うかどうかを判別する(ステップS404)。更新不要であれば(ステップS404でNo)、情報抽出装置40は、S107に進み、図3のフローチャートと同じ処理を実行する。
有用性判断部49は、URLごとに、その利用回数(履歴)を表示する(ステップS405)。
そして、有用性判断部49は、今後そのURLからWebデータを取得する必要かどうかを判断し、もし削除すべきであれば(ステップS406でYes)、URLリストを更新する(ステップS407)。
有用性判断部49は、全てのURLの確認が完了すれば(ステップS408でYes)、S107に進む。
本実施形態に係る情報抽出装置40は、以下に記載するような効果を奏する。
すなわち、情報抽出装置40は、より高速なデータ抽出を実現することができる。
その理由は、有用性判断部49が、URLリストの有効性を判断し、URLリスト保持部41を更新するからである。
<第五の実施形態>
次に、本発明を実施するための第五の形態について図面を参照して詳細に説明する。
図16は、第五の実施形態に係る、表示制御システム50の構成の一例を示すブロック図である。
表示制御システム50は、構造化実行部51、表示制御部52、及び、端末53を含む。
構造化実行部51は、抽出対象の文書データから、関係性を有する情報である構造化情報を抽出する。
表示制御部52は、抽出結果を構造化情報を抽出した結果の確からしさに応じた順序で端末に表示させる。また、表示制御部52は、抽出結果を、文書データと関連付けて端末53に表示させる。
端末53は、表示制御部52からの表示制御に応じて情報を表示する。
図17は、端末53が表示する情報の一例を示す図である。図17に示すように、端末53は、文書(例えば、図中に記載のようなURL表示)と、その文書からの抽出結果とを、関係づけて表示する。
本実施形態に係る情報抽出装置50は、以下に記載するような効果を奏する。
すなわち、構造化情報を抽出した結果の確からしさに応じた順序で端末に表示させることができる。
その理由は、以下に依る。すなわち、構造化実行部51が、抽出対象の文書データから、関係性を有する情報である構造化情報を抽出する。また、表示制御部52は、抽出結果を構造化情報を抽出した結果の確からしさに応じた順序で端末に表示させる。
<第六の実施形態>
次に、本発明を実施するための第六の形態について図面を参照して詳細に説明する。
図18は、第六の実施形態に係る、情報抽出装置60の構成の一例を示すブロック図である。
情報抽出装置60は、記憶部61、及び、構造化実行部62を包含する。
記憶部61は、関係性を有する情報である構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶する。
構造化実行部62は、前記構造化モデル情報に基づいて、抽出対象の文書データから前記構造化情報を抽出する。
本実施形態に係る情報抽出装置60は、以下に記載するような効果を奏する。
すなわち、情報抽出装置60は、文書データから効率的に構造化された情報を抽出することができる。
その理由は、以下に依る。すなわち、記憶部61は、関係性を有する情報である構造化情報の種類と構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶する。また、構造化実行部62は、構造化モデル情報に基づいて、抽出対象の文書データから構造化情報を抽出する。
以上、図面を参照して本発明の実施形態を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
10 情報抽出装置
11 URLリスト保持部
12 Webデータ取得部
13 構造化モデル保持部
14 構造化実行部
15 蓄積部
16 構造化情報蓄積部
17 教師データ作成部
18 構造化学習部
20 情報抽出装置
21 URLリスト保持部
22 Webデータ取得部
23 構造化モデル保持部
24 構造化実行部
25 蓄積部
26 構造化情報蓄積部
27 教師データ作成部
28 構造化学習部
29 蓄積データ閲覧部
30 情報抽出装置
31 URLリスト保持部
32 Webデータ取得部
33 構造化モデル保持部
34 構造化実行部
35 蓄積部
36 構造化情報蓄積部
37 教師データ作成部
38 構造化学習部
39 Web検索部
40 情報抽出装置
41 URLリスト保持部
42 Webデータ取得部
43 構造化モデル保持部
44 構造化実行部
45 蓄積部
46 構造化情報蓄積部
47 教師データ作成部
48 構造化学習部
49 有効性判断部
50 表示制御システム
51 構造化実行部
52 表示制御部
53 端末
60 情報抽出装置
61 記憶部
62 構造化実行部

Claims (10)

  1. 関係性を有する情報である構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶する記憶手段と、
    前記構造化モデル情報に基づいて、抽出対象の文書データから前記構造化情報を抽出する構造化実行手段と、
    前記抽出対象の文書データの存在場所を表す存在場所情報を記憶する存在場所保持手段と、
    前記構造化実行手段による前記構造化情報の抽出結果に基づいて、前記存在場所情報を更新する存在場所更新手段と、
    を包含する、情報抽出装置。
  2. 前記存在場所更新手段は、
    前記抽出結果において新たな前記データ内容が含まれる場合、前記新たなデータ内容が含まれる前記文書データの存在場所をリストアップすることによって、前記存在場所情報を追加し、
    前記存在場所情報が示す前記存在場所のうちの特定の存在場所から取得された前記抽出対象の文書データに関する前記抽出結果において、有効な前記構造化情報が得られない場合、前記特定の存在場所を表す前記存在場所情報を削除する、
    請求項1に記載の情報抽出装置。
  3. 前記構造化情報をユーザに提示することにより、前記構造化情報を提示されたユーザによって前記構造化モデル情報を更新する指示を表す情報を入力された場合、前記指示を表す情報に基づいて、前記構造化モデル情報を更新する構造化モデル更新手段をさらに備える、
    請求項1または2に記載の情報抽出装置。
  4. 前記構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係が、前記文書データを記述する文字列に基づいている、請求項1乃至3のいずれか一項に記載の情報抽出装置。
  5. 前記文書データを記述する文字列がHTML(Hyper Text MarkupLanguage)を用いて記載されている、請求項に記載の情報抽出装置。
  6. 前記構造化実行手段が、前記構造化情報を抽出した結果の確からしさを示す確度を出力
    する、請求項1乃至のいずれか1項に記載の情報抽出装置。
  7. 情報抽出装置によって、
    関係性を有する情報である構造化情報の種類と前記構造化情報のデータ内容およびデータの位置との関係を学習した結果である構造化モデル情報を記憶手段に記憶し、
    前記構造化モデル情報に基づいて、抽出対象の文書データから前記構造化情報を抽出
    前記抽出対象の文書データの存在場所を表す存在場所情報を存在場所保持手段に記憶し、
    前記抽出対象の文書データから前記構造化情報を抽出した結果に基づいて、前記存在場所情報を更新する、
    情報抽出方法。
  8. 請求項1乃至6のいずれか一項に記載の情報抽出装置と、
    前記抽出結果を、前記構造化情報を抽出した結果の確からしさに応じた順序で端末に表示させる表示制御手段と、を含む、表示制御システム。
  9. 請求項1乃至6のいずれか一項に記載の情報抽出装置と、
    前記抽出結果を、前記文書データと関連付けて端末に表示させる表示制御手段と、を含む、表示制御システム。
  10. 前記表示制御手段からの表示制御に応じて情報を表示する端末をさらに含む、請求項またはに記載の表示制御システム。
JP2015060288A 2015-03-24 2015-03-24 情報抽出装置、情報抽出方法、及び、表示制御システム Active JP6578693B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015060288A JP6578693B2 (ja) 2015-03-24 2015-03-24 情報抽出装置、情報抽出方法、及び、表示制御システム
US15/058,333 US20160283605A1 (en) 2015-03-24 2016-03-02 Information extraction device, information extraction method, and display control system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015060288A JP6578693B2 (ja) 2015-03-24 2015-03-24 情報抽出装置、情報抽出方法、及び、表示制御システム

Publications (2)

Publication Number Publication Date
JP2016181069A JP2016181069A (ja) 2016-10-13
JP6578693B2 true JP6578693B2 (ja) 2019-09-25

Family

ID=56975112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015060288A Active JP6578693B2 (ja) 2015-03-24 2015-03-24 情報抽出装置、情報抽出方法、及び、表示制御システム

Country Status (2)

Country Link
US (1) US20160283605A1 (ja)
JP (1) JP6578693B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7068742B2 (ja) * 2016-12-21 2022-05-17 株式会社オプティム 資産管理システム、資産管理方法、およびプログラム
JP2023096472A (ja) * 2021-12-27 2023-07-07 ストックマーク株式会社 情報処理システム、情報処理方法および情報処理プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1478237A (zh) * 2000-09-29 2004-02-25 лԽ�� 通过互联计算机网络的多语种电子数据源的在线智能信息比较代理器
US20030028498A1 (en) * 2001-06-07 2003-02-06 Barbara Hayes-Roth Customizable expert agent
US7536323B2 (en) * 2003-03-26 2009-05-19 Victor Hsieh Online intelligent multilingual comparison-shop agents for wireless networks
US8253731B2 (en) * 2006-11-27 2012-08-28 Designin Corporation Systems, methods, and computer program products for home and landscape design
WO2012147840A1 (ja) * 2011-04-28 2012-11-01 有限会社アイ・アール・ディー データベース構築装置、商標侵害検知装置、データベース構築方法、および商標侵害検知方法
JP5866728B2 (ja) * 2011-10-14 2016-02-17 サイバーアイ・エンタテインメント株式会社 画像認識システムを備えた知識情報処理サーバシステム
JP6459968B2 (ja) * 2013-09-20 2019-01-30 日本電気株式会社 商品推薦装置、商品推薦方法、及び、プログラム

Also Published As

Publication number Publication date
JP2016181069A (ja) 2016-10-13
US20160283605A1 (en) 2016-09-29

Similar Documents

Publication Publication Date Title
US11372935B2 (en) Automatically generating a website specific to an industry
CN100462972C (zh) 基于文档的信息和统一资源定位符管理方法和设备
CN101918945B (zh) 用于执行自动扩展的语言搜索的方法和系统
CN101192231B (zh) 基于上下文的书签
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
US20090240638A1 (en) Syntactic and/or semantic analysis of uniform resource identifiers
US10621255B2 (en) Identifying equivalent links on a page
US20100205199A1 (en) Intent driven search result rich abstracts
CN113544689A (zh) 为文档的来源观点生成并提供附加内容
US8458187B2 (en) Methods and systems for visualizing topic location in a document redundancy graph
US20140149259A1 (en) Consumer centric online product research
Khatter et al. Web scraping based product comparison model for E-commerce websites
JP6578693B2 (ja) 情報抽出装置、情報抽出方法、及び、表示制御システム
JP2009277026A (ja) フォーム入力支援システム、フォーム入力支援方法、及びフォーム入力支援用プログラム
CN103793453A (zh) 用于web导航跟踪的方法和系统
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
JP5659500B2 (ja) Webサービス記憶プログラム、および、Webサービス記憶装置
JP5380874B2 (ja) 情報検索方法、プログラム及び装置
JP2006155275A (ja) 情報抽出方法及び情報抽出装置
US9530094B2 (en) Jabba-type contextual tagger
JP5187064B2 (ja) Web資源追跡管理プログラム、Web資源追跡管理装置及びWeb資源追跡管理方法
KR101421819B1 (ko) 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법
JP5861545B2 (ja) 情報処理装置、履歴制御方法および履歴制御プログラム
JP2011039743A (ja) WWW情報閲覧システムと方法およびWebブラウザとプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190812

R150 Certificate of patent or registration of utility model

Ref document number: 6578693

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150