JP2007264974A - 情報抽出規則生成方法、装置、およびプログラム - Google Patents

情報抽出規則生成方法、装置、およびプログラム Download PDF

Info

Publication number
JP2007264974A
JP2007264974A JP2006088492A JP2006088492A JP2007264974A JP 2007264974 A JP2007264974 A JP 2007264974A JP 2006088492 A JP2006088492 A JP 2006088492A JP 2006088492 A JP2006088492 A JP 2006088492A JP 2007264974 A JP2007264974 A JP 2007264974A
Authority
JP
Japan
Prior art keywords
rule
minimum
analysis
text
information extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006088492A
Other languages
English (en)
Inventor
Mitsugi Miura
貢 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006088492A priority Critical patent/JP2007264974A/ja
Publication of JP2007264974A publication Critical patent/JP2007264974A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】情報抽出装置用の抽出規則を効率的に生成する。
【解決手段】ユーザがサンプル学習データとして、テキストとそこから抽出されるデータを目的テーブル4に記載し、この2つのデータを装置に入力すると、テキスト入力部1から入力された複数のテキストデータが、辞書3を参照しながら動作するテキスト解析部2により解析され、複数の解析データとして出力される。その複数の解析データと目的テーブル4を比較し、規則生成部5が抽出規則を自動的に作成する。作成された規則データは、規則DB6に蓄積され、規則適応部7で規則としてテキスト解析部2からの解析データに適用され、規則がマッチしたデータが抽出される。抽出されたデータは目的テーブル4と同じ形式で出力される。
【選択図】図1

Description

本発明は情報抽出装置に関し、特に多量のテキストデータからユーザが必要とする特定の情報を抽出するための規則を作成する装置に関するものである。
従来の情報抽出装置の一例が、特許文献1に記載されている。この情報抽出装置は、その図12に示されているように、テキスト入力部と木構造抽出部と木構造表示部とアノテーション付与部と木構造正規表現抽出部と情報抽出規則記憶部と分かち書き表示部とから構成されている。テキスト入力部は文章を順次に入力する。木構造抽出部は、入力した文章を統語解析して構文木を抽出する。木構造表示部は、抽出された構文木の情報に基づいて木構造を表示部に表示する。アノテーション付与部は、木構造の表示を用いてインタラクティブにアノテーションを付与する。木構造正規表現抽出部は、木構造およびアノテーションから、対応する規則を表示する木構造表現を抽出し、情報抽出規則記憶部に記憶する。この情報抽出規則は、情報抽出時に用いられ、文章とマッチングされる。
特開2004−318809号公報
情報抽出装置には、各種の方式があるが、一般に、情報抽出エンジンと情報抽出規則(ルール)の2つの要素から構成される。ユーザのほしい情報を抽出する規則データを作成し、この規則データに従って、情報抽出エンジンが動作し、情報を取り出す仕組みが標準的に利用されている。ただし、そのような規則を作成するには高度なスキルを必要とし、効率的に規則を作成することが困難であった。
これを解決する方法として、特許文献1のように木構造を表示し、それを参照しながらアノテーションを付与し、この2つから規則を生成する方法もあったが、木構造の読解は、スキルが必要であるためエンドユーザが規則を作成するには問題があった。さらに、文間にまたがって情報を抽出するような場合木構造では表現できないためルールを作成することができない問題もあった。
本発明の目的は、情報抽出規則を効率的に作成できる情報抽出規則生成方法、装置、およびプログラムを提供することにある。
本発明の情報規則生成装置は、抽出する対象である単語が項目ごとに分類された目的テーブルと、テキストを入力するためのテキスト入力手段と、活用処理、品詞情報を含む辞書と、テキスト入力手段から入力された複数のテキストを、辞書を参照しながら形態素解析するテキスト解析手段と、テキスト解析手段による、前記複数のテキストの解析結果を、目的テーブルから読み込んだ単語ごとに参照し、前記解析結果から当該単語を含む文章である最大解析結果と、単語の属性である最小解析結果を取り出し、最大解析結果同士の同じ項目ごとの論理積を取って共通部分を最大公約ルールとして残し、最小解析結果同士の論理積を取って共通部分を最小ルールとして残す規則生成手段と、最大公約ルールと最小ルールが登録される規則DBとを有する。
ユーザがサンプル学習データとして、テキストとそこから抽出されるデータを目的テーブルに記載し、この2つのデータを装置に入力すると、テキスト入力手段から入力された複数のテキストデータが、辞書を参照しながら動作するテキスト解析手段によって解析され、複数の解析データとして出力され、その複数の解析データと目的テーブルを比較し、抽出規則を自動的に作成される。作成された規則データは、規則DBに蓄積され、規則適応手段で規則としてテキスト解析手段からの解析データに適用され、規則がマッチしたデータが抽出される。抽出されたデータは目的テーブルと同じ形式で出力される。このデータを目的テーブルとして装置に再投入し、精度を向上させることもできる。
複数の解析結果と目的テーブルと利用し、目的テーブルに記載されたという情報と記載されなかったという情報の2つの情報を利用できるため、情報抽出規則を効率的に作成できる。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明の第1の実施形態による情報抽出規則生成装置を含む情報抽出装置は、テキスト入力部1テキスト解析部2と辞書3と目的テーブル4と規則生成部5と規則DB6と規則適応部7から構成される。テキスト入力部1として、ハードディスクのような記憶装置、キーボードや音声認識のような入力装置、ネットワークカードのような通信装置、などが考えられる。入力されたテキストを処理するためのテキスト解析部2、規則生成部5、規則適応部7などは、汎用のCPUや専用処理プロセッサなどが考えられる。辞書3、目的テーブル4、規則DB6の記憶装置としてはハードディスク、メモリなど一般的な記憶装置が考えられる。また、これらモジュールは、1つの装置として構成することも可能であるが、それぞれの機能を、ネットワークを介して接続する構成も可能である。また、図2に示すように本装置をデバッガやメンテナンスシステムを連結させる形態も考えられる。また、図3にも示すように本装置を他の装置の部品として利用する形態も考えられる。
次に、図1および図4のフローチャートを参照して本実施形態の全体の動作について詳細に説明する。
学習モード
まず、学習モードとして、ステップ101に、テキスト入力部1に複数の文章が入力される。入力するテキストは、情報抽出のための参考テキストである。ステップ102に、その文章をテキスト解析部2が、形態素解析、構文解析に利用できるような、活用処理、品詞情報などを含む辞書3を参照しながら形態素、構文解析する。入力文とその解析結果出力の一例を図7に示す。解析結果は構文解析の枝ごとに単語があり、その単語ごとにその属性データを持つ構造になっている。さらに、レイアウト情報や入力された文がHTML(Hypertext Markup Language)形式などの場合はタグのデータなども単語ごとに保持される。ステップ103に、装置の利用するメモリまたはアキュームレータに目的テーブル4(図5)のデータを読み込む。目的データは、抽出する対象となる文や単語が項目ごとにまとめられたものである。ステップ104に、規則生成部5は、目的テーブル4の項目ごとにそのデータを格納する。ステップ105に、規則生成部5は、目的テーブル4から読み込んだデータごとにステップ102の解析結果を参照する。すなわち、解析結果(解析木)中の文字列または属性と、目的テーブル4中の単語の文字列または属性を対応づける。たとえば、「ナノチューブ」という文字列は目的テーブル4中では開発物に属し、解析木中に現れた「ナノチューブ」と言う文字列は開発物を抽出するためのルール(部分木)を作成する手がかりになる。ステップ106に、参照した解析結果情報からもっとも大きな解析結果(最大解析結果=通常はその単語を含む文章)ともっとも小さな解析結果(最小解析結果=通常は単語の属性)を目的テーブル4から読み込んだデータごとに取り出す。取り出した結果の例を図8、図9に示す。ステップ107に同一のカラムの各単語(文)相互で、この解析結果をマッチさせる(作成された部分木同士で共通部分を取り出す)。基本的には最大解析結果同士の論理積を計算し、共通部分を残す。この共通部分を残した解析木を最大公約ルールとする。また、最小解析結果同士の論理積を最小ルールとする。この例を図10に示す。ステップ107の処理の結果として、最小ルールが存在しなくなる場合もある。また、最大公約ルールが最小ルールとほぼ等しくなる場合もある。さらに最大公約ルールも最小ルールもひとつも存在しなくなる場合もある。ステップ108はこの状態を判定し、もし1つもルールが残らない場合、ルールの棄却(利用しない)、論理和演算で各ルールをつなぐ、などの動作を行う。どのような動作を行うかは装置の目的において変更する事項である。厳密なルール作成が目的ならば、ルール生成に失敗して警告を出す。ゆるくてもある程度の結果をほしいならば、論理和演算で各ルールをつなぐなど行う。ステップ108でルールが1つでも存在すれば、ステップ110に、規則適応部7を使って、最大公約ルールと最小ルールの適用をステップ102の解析結果に対し行う。すると、情報を抽出した結果を得ることができる。ルールが1つも存在しなければ、ステップ109にフォロー処理を行う。ステップ111に、このとき目的テーブル4に記載されているデータがちょうど得られたかどうか判定する。もし得られたならばステップ112に学習モードの実行は停止し、情報抽出ルールとして、最大公約ルールと最小ルールを規則DB6に登録する。それ以外のデータを抽出した場合は、ステップ113に、その抽出した単語(文)を誤りデータとして、解析結果より、誤り公約ルールと誤り最小ルールを取り出す。ステップ114に最大公約ルールに対し、誤り公約ルールを否定するものをアンド条件でつなげたものを最大公約ルールとする。また、最小ルールと誤り最小ルールをアンド条件でつなげたものを最小ルールとする。ステップ112にこの2つのルールを規則DB6に登録して、学習モードの実行は停止する。ここで、「誤りルール」とは、正解以外の部分木または単語を抽出してしまうルールを言う。「誤り公約ルール」とは、最大公約ルールで誤りルールの相互の共通部分を取り出して作成されるルールを言う。「誤り最小ルール」とは、最小ルールで誤っているルールの共通部分を取り出して作成されるルールを言う。
実行モード
ステップ121およびステップ122の処理はそれぞれ学習モードのステップ101、102の処理と同じである。ステップ123に規則適応部7が規則DB6を参照しながらステップ122の出力結果である解析結果に対し情報抽出ルールを適用する。ステップ124にそのルールの適用結果として抽出されたデータが出力される。
再学習モード
実行モードで得られた結果は目的テーブル4の形式と同一であるので、もしこの結果に誤りがある場合は、この出力結果に対し、不要な抽出結果を削る、あるいは、抽出できなかった結果を加えるなどして、再度学習モードとして情報抽出装置を動作させれば、新たな情報抽出ルールを生成することが可能である。このときの動作ステップは学習モードとまったく同じである。
なお、以上説明した情報抽出装置は、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータ内の揮発性メモリのように、一定時間プログラムを保持しているものを含む。
本発明によれば、多量のテキストデータからユーザのほしい情報を高速に抽出することが可能になる。このため新聞記事やカルテなどを自動的にデータベース化するといった用途に適用できる。また、検索システムへ組み込み、意味的な検索を可能にするといった用途にも適用可能である。
本発明の一実施形態による情報抽出装置のブロック図である。 本発明の他の実施形態による情報抽出装置のブロック図である。 本発明のさらに実施形態による情報抽出装置のブロック図である。 図1の情報抽出装置の、学習モード時と実行モード時の動作を示す流れ図である。 目的テーブルの記述例を示す図である。 辞書に格納される属性データの記述例を示す図である。 入力文とその解析結果(テキスト解析部の出力結果)の例を示す図である。 最大公約ルールの例を示す図である。 最小ルールの例を示す図である。 ルールの積の例を示す図である。
符号の説明
1 テキスト入力部
2 テキスト解析部
3 辞書
4 目的テーブル
5 規則生成部
6 規則DB
7 規則適応部
101〜114、121〜124 ステップ

Claims (9)

  1. 複数のテキストを入力するステップと、
    入力された複数のテキストを、活用処理、品詞情報を含む辞書を参照しながら形態素解析するステップと、
    前記複数のテキストの解析結果を、抽出する対象である単語が項目ごとに分類された目的テーブルから読み込んだ単語ごとに参照し、前記解析結果から当該単語を含む文章である最大解析結果と、単語の属性である最小解析結果を取り出し、前記最大解析結果同士の同じ項目ごとの論理積を取って共通部分を最大公約ルールとして残し、前記最小解析結果同士の論理積を取って共通部分を最小ルールとして残すステップと、
    前記最大公約ルールと前記最小ルールを規則DBに登録するステップと、
    を有する情報抽出規則生成方法。
  2. 前記最大公約ルールおよび前記最小ルールが1つも存在しない場合、所定のフォロー処理を行うステップをさらに有する、請求項1に記載の情報抽出規則生成方法。
  3. 前記最大公約ルールおよび前記最小ルールを前記テキストの解析結果に適用し、前記目的テーブルに記載されている単語が得られたならば、前記最大公約ルールおよび前記最小ルールを前記規則DBに登録するステップをさらに有する、請求項1または2に記載の情報抽出規則生成方法。
  4. 前記単語が得られなかったならば、解析結果より、誤り公約ルールと誤り最小ルールを取り出し、前記最大公約ルールに対し、前記誤り公約ルールを否定するものをアンド条件でつなげたものを最大公約ルールとし、前記最小ルールと前記誤り最小ルールをアンド条件でつなげたものを最小ルールとして、これらを前記テキストの解析結果に適用するステップをさらに有する、請求項3に記載の情報抽出規則生成方法。
  5. 抽出する対象である単語が項目ごとに分類された目的テーブルと、
    テキストを入力するためのテキスト入力手段と、
    活用処理、品詞情報を含む辞書と
    前記テキスト入力手段から入力された複数のテキストを、前記辞書を参照しながら形態素解析するテキスト解析手段と、
    前記テキスト解析手段による、前記複数のテキストの解析結果を、前記目的テーブルから読み込んだ単語ごとに参照し、前記解析結果から当該単語を含む文章である最大解析結果と、単語の属性である最小解析結果を取り出し、前記最大解析結果同士の同じ項目ごとの論理積を取って共通部分を最大公約ルールとして残し、前記最小解析結果同士の論理積を取って共通部分を最小ルールとして残す規則生成手段と
    前記最大公約ルールと前記最小ルールが登録される規則DBと、
    を有する情報抽出規則生成装置。
  6. 前記規則生成手段は、前記最大公約ルールおよび前記最小ルールが1つも存在しない場合、所定のフォロー処理を行う、請求項5に記載の情報抽出規則生成装置。
  7. 前記最大公約ルールおよび前記最小ルールを前記テキストの解析結果に適用し、前記目的テーブルに記載されている単語が得られたならば、前記最大公約ルールおよび前記最小ルールを前記規則DBに登録する規則適応手段をさらに有する、請求項5または6に記載の情報抽出規則生成装置。
  8. 前記規則適応手段は、前記単語が得られなかったならば、解析結果より、誤り公約ルールと誤り最小ルールを取り出し、前記最大公約ルールに対し、前記誤り公約ルールを否定するものをアンド条件でつなげたものを最大公約ルールとし、前記最小ルールと前記誤り最小ルールをアンド条件でつなげたものを最小ルールとして、これらを前記テキストの解析結果に適用する、請求項7記載の情報抽出規則生成装置。
  9. 請求項1から4に記載の情報抽出規則生成方法をコンピュータに実行させるためのプログラム。

JP2006088492A 2006-03-28 2006-03-28 情報抽出規則生成方法、装置、およびプログラム Pending JP2007264974A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006088492A JP2007264974A (ja) 2006-03-28 2006-03-28 情報抽出規則生成方法、装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006088492A JP2007264974A (ja) 2006-03-28 2006-03-28 情報抽出規則生成方法、装置、およびプログラム

Publications (1)

Publication Number Publication Date
JP2007264974A true JP2007264974A (ja) 2007-10-11

Family

ID=38637908

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006088492A Pending JP2007264974A (ja) 2006-03-28 2006-03-28 情報抽出規則生成方法、装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP2007264974A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7432898B2 (ja) 2021-03-05 2024-02-19 日本電信電話株式会社 パラメタ最適化装置、パラメタ最適化方法、及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099442A (ja) * 2001-09-26 2003-04-04 Toshiba Corp キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099442A (ja) * 2001-09-26 2003-04-04 Toshiba Corp キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7432898B2 (ja) 2021-03-05 2024-02-19 日本電信電話株式会社 パラメタ最適化装置、パラメタ最適化方法、及びプログラム

Similar Documents

Publication Publication Date Title
US8972408B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a social sphere
EP3016002A1 (en) Non-factoid question-and-answer system and method
US10460028B1 (en) Syntactic graph traversal for recognition of inferred clauses within natural language inputs
EP2182447A1 (en) Real-time semantic annotation system and the method of creating ontology documents on the fly from natural language string entered by user
Kiyavitskaya et al. Cerno: Light-weight tool support for semantic annotation of textual documents
CN110647618A (zh) 对话查询应答系统
US20110040553A1 (en) Natural language processing
GB2513537A (en) Natural language processing
US20220245353A1 (en) System and method for entity labeling in a natural language understanding (nlu) framework
Consoli et al. Using FRED for named entity resolution, linking and typing for knowledge base population
WO2022134779A1 (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
US20220245361A1 (en) System and method for managing and optimizing lookup source templates in a natural language understanding (nlu) framework
WO2023278052A1 (en) Automated troubleshooter
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
JP4005343B2 (ja) 情報検索システム
US20220229990A1 (en) System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework
US20220229998A1 (en) Lookup source framework for a natural language understanding (nlu) framework
US20220229986A1 (en) System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework
US20220229987A1 (en) System and method for repository-aware natural language understanding (nlu) using a lookup source framework
US20220245352A1 (en) Ensemble scoring system for a natural language understanding (nlu) framework
CN115017271A (zh) 用于智能生成rpa流程组件块的方法及系统
JP2007264974A (ja) 情報抽出規則生成方法、装置、およびプログラム
Tammewar et al. Can distributed word embeddings be an alternative to costly linguistic features: A study on parsing hindi
Sevilla et al. Enriched semantic graphs for extractive text summarization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110803

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111129