JP2007264974A

JP2007264974A - 情報抽出規則生成方法、装置、およびプログラム

Info

Publication number: JP2007264974A
Application number: JP2006088492A
Authority: JP
Inventors: Mitsugi Miura; 貢三浦
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-03-28
Filing date: 2006-03-28
Publication date: 2007-10-11

Abstract

【課題】情報抽出装置用の抽出規則を効率的に生成する。
【解決手段】ユーザがサンプル学習データとして、テキストとそこから抽出されるデータを目的テーブル４に記載し、この２つのデータを装置に入力すると、テキスト入力部１から入力された複数のテキストデータが、辞書３を参照しながら動作するテキスト解析部２により解析され、複数の解析データとして出力される。その複数の解析データと目的テーブル４を比較し、規則生成部５が抽出規則を自動的に作成する。作成された規則データは、規則ＤＢ６に蓄積され、規則適応部７で規則としてテキスト解析部２からの解析データに適用され、規則がマッチしたデータが抽出される。抽出されたデータは目的テーブル４と同じ形式で出力される。
【選択図】図１

Description

本発明は情報抽出装置に関し、特に多量のテキストデータからユーザが必要とする特定の情報を抽出するための規則を作成する装置に関するものである。

従来の情報抽出装置の一例が、特許文献１に記載されている。この情報抽出装置は、その図１２に示されているように、テキスト入力部と木構造抽出部と木構造表示部とアノテーション付与部と木構造正規表現抽出部と情報抽出規則記憶部と分かち書き表示部とから構成されている。テキスト入力部は文章を順次に入力する。木構造抽出部は、入力した文章を統語解析して構文木を抽出する。木構造表示部は、抽出された構文木の情報に基づいて木構造を表示部に表示する。アノテーション付与部は、木構造の表示を用いてインタラクティブにアノテーションを付与する。木構造正規表現抽出部は、木構造およびアノテーションから、対応する規則を表示する木構造表現を抽出し、情報抽出規則記憶部に記憶する。この情報抽出規則は、情報抽出時に用いられ、文章とマッチングされる。
特開２００４−３１８８０９号公報

情報抽出装置には、各種の方式があるが、一般に、情報抽出エンジンと情報抽出規則（ルール）の２つの要素から構成される。ユーザのほしい情報を抽出する規則データを作成し、この規則データに従って、情報抽出エンジンが動作し、情報を取り出す仕組みが標準的に利用されている。ただし、そのような規則を作成するには高度なスキルを必要とし、効率的に規則を作成することが困難であった。

これを解決する方法として、特許文献１のように木構造を表示し、それを参照しながらアノテーションを付与し、この２つから規則を生成する方法もあったが、木構造の読解は、スキルが必要であるためエンドユーザが規則を作成するには問題があった。さらに、文間にまたがって情報を抽出するような場合木構造では表現できないためルールを作成することができない問題もあった。

本発明の目的は、情報抽出規則を効率的に作成できる情報抽出規則生成方法、装置、およびプログラムを提供することにある。

本発明の情報規則生成装置は、抽出する対象である単語が項目ごとに分類された目的テーブルと、テキストを入力するためのテキスト入力手段と、活用処理、品詞情報を含む辞書と、テキスト入力手段から入力された複数のテキストを、辞書を参照しながら形態素解析するテキスト解析手段と、テキスト解析手段による、前記複数のテキストの解析結果を、目的テーブルから読み込んだ単語ごとに参照し、前記解析結果から当該単語を含む文章である最大解析結果と、単語の属性である最小解析結果を取り出し、最大解析結果同士の同じ項目ごとの論理積を取って共通部分を最大公約ルールとして残し、最小解析結果同士の論理積を取って共通部分を最小ルールとして残す規則生成手段と、最大公約ルールと最小ルールが登録される規則ＤＢとを有する。

ユーザがサンプル学習データとして、テキストとそこから抽出されるデータを目的テーブルに記載し、この２つのデータを装置に入力すると、テキスト入力手段から入力された複数のテキストデータが、辞書を参照しながら動作するテキスト解析手段によって解析され、複数の解析データとして出力され、その複数の解析データと目的テーブルを比較し、抽出規則を自動的に作成される。作成された規則データは、規則ＤＢに蓄積され、規則適応手段で規則としてテキスト解析手段からの解析データに適用され、規則がマッチしたデータが抽出される。抽出されたデータは目的テーブルと同じ形式で出力される。このデータを目的テーブルとして装置に再投入し、精度を向上させることもできる。

複数の解析結果と目的テーブルと利用し、目的テーブルに記載されたという情報と記載されなかったという情報の２つの情報を利用できるため、情報抽出規則を効率的に作成できる。

次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。

図１を参照すると、本発明の第１の実施形態による情報抽出規則生成装置を含む情報抽出装置は、テキスト入力部１テキスト解析部２と辞書３と目的テーブル４と規則生成部５と規則ＤＢ６と規則適応部７から構成される。テキスト入力部１として、ハードディスクのような記憶装置、キーボードや音声認識のような入力装置、ネットワークカードのような通信装置、などが考えられる。入力されたテキストを処理するためのテキスト解析部２、規則生成部５、規則適応部７などは、汎用のＣＰＵや専用処理プロセッサなどが考えられる。辞書３、目的テーブル４、規則ＤＢ６の記憶装置としてはハードディスク、メモリなど一般的な記憶装置が考えられる。また、これらモジュールは、１つの装置として構成することも可能であるが、それぞれの機能を、ネットワークを介して接続する構成も可能である。また、図２に示すように本装置をデバッガやメンテナンスシステムを連結させる形態も考えられる。また、図３にも示すように本装置を他の装置の部品として利用する形態も考えられる。

次に、図１および図４のフローチャートを参照して本実施形態の全体の動作について詳細に説明する。

学習モード
まず、学習モードとして、ステップ１０１に、テキスト入力部１に複数の文章が入力される。入力するテキストは、情報抽出のための参考テキストである。ステップ１０２に、その文章をテキスト解析部２が、形態素解析、構文解析に利用できるような、活用処理、品詞情報などを含む辞書３を参照しながら形態素、構文解析する。入力文とその解析結果出力の一例を図7に示す。解析結果は構文解析の枝ごとに単語があり、その単語ごとにその属性データを持つ構造になっている。さらに、レイアウト情報や入力された文がＨＴＭＬ(ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ)形式などの場合はタグのデータなども単語ごとに保持される。ステップ１０３に、装置の利用するメモリまたはアキュームレータに目的テーブル４（図５）のデータを読み込む。目的データは、抽出する対象となる文や単語が項目ごとにまとめられたものである。ステップ１０４に、規則生成部５は、目的テーブル４の項目ごとにそのデータを格納する。ステップ１０５に、規則生成部５は、目的テーブル４から読み込んだデータごとにステップ１０２の解析結果を参照する。すなわち、解析結果（解析木）中の文字列または属性と、目的テーブル４中の単語の文字列または属性を対応づける。たとえば、「ナノチューブ」という文字列は目的テーブル４中では開発物に属し、解析木中に現れた「ナノチューブ」と言う文字列は開発物を抽出するためのルール(部分木)を作成する手がかりになる。ステップ１０６に、参照した解析結果情報からもっとも大きな解析結果（最大解析結果＝通常はその単語を含む文章）ともっとも小さな解析結果（最小解析結果＝通常は単語の属性）を目的テーブル４から読み込んだデータごとに取り出す。取り出した結果の例を図８、図９に示す。ステップ１０７に同一のカラムの各単語（文）相互で、この解析結果をマッチさせる（作成された部分木同士で共通部分を取り出す）。基本的には最大解析結果同士の論理積を計算し、共通部分を残す。この共通部分を残した解析木を最大公約ルールとする。また、最小解析結果同士の論理積を最小ルールとする。この例を図１０に示す。ステップ１０７の処理の結果として、最小ルールが存在しなくなる場合もある。また、最大公約ルールが最小ルールとほぼ等しくなる場合もある。さらに最大公約ルールも最小ルールもひとつも存在しなくなる場合もある。ステップ１０８はこの状態を判定し、もし１つもルールが残らない場合、ルールの棄却（利用しない）、論理和演算で各ルールをつなぐ、などの動作を行う。どのような動作を行うかは装置の目的において変更する事項である。厳密なルール作成が目的ならば、ルール生成に失敗して警告を出す。ゆるくてもある程度の結果をほしいならば、論理和演算で各ルールをつなぐなど行う。ステップ１０８でルールが１つでも存在すれば、ステップ１１０に、規則適応部７を使って、最大公約ルールと最小ルールの適用をステップ１０２の解析結果に対し行う。すると、情報を抽出した結果を得ることができる。ルールが１つも存在しなければ、ステップ１０９にフォロー処理を行う。ステップ１１１に、このとき目的テーブル４に記載されているデータがちょうど得られたかどうか判定する。もし得られたならばステップ１１２に学習モードの実行は停止し、情報抽出ルールとして、最大公約ルールと最小ルールを規則ＤＢ６に登録する。それ以外のデータを抽出した場合は、ステップ１１３に、その抽出した単語（文）を誤りデータとして、解析結果より、誤り公約ルールと誤り最小ルールを取り出す。ステップ１１４に最大公約ルールに対し、誤り公約ルールを否定するものをアンド条件でつなげたものを最大公約ルールとする。また、最小ルールと誤り最小ルールをアンド条件でつなげたものを最小ルールとする。ステップ１１２にこの２つのルールを規則ＤＢ６に登録して、学習モードの実行は停止する。ここで、「誤りルール」とは、正解以外の部分木または単語を抽出してしまうルールを言う。「誤り公約ルール」とは、最大公約ルールで誤りルールの相互の共通部分を取り出して作成されるルールを言う。「誤り最小ルール」とは、最小ルールで誤っているルールの共通部分を取り出して作成されるルールを言う。

実行モード
ステップ１２１およびステップ１２２の処理はそれぞれ学習モードのステップ１０１、１０２の処理と同じである。ステップ１２３に規則適応部７が規則ＤＢ６を参照しながらステップ１２２の出力結果である解析結果に対し情報抽出ルールを適用する。ステップ１２４にそのルールの適用結果として抽出されたデータが出力される。

再学習モード
実行モードで得られた結果は目的テーブル４の形式と同一であるので、もしこの結果に誤りがある場合は、この出力結果に対し、不要な抽出結果を削る、あるいは、抽出できなかった結果を加えるなどして、再度学習モードとして情報抽出装置を動作させれば、新たな情報抽出ルールを生成することが可能である。このときの動作ステップは学習モードとまったく同じである。

なお、以上説明した情報抽出装置は、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フレキシブルディスク、光磁気ディスク、ＣＤ−ＲＯＭ等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間、動的にプログラムを保持するもの（伝送媒体もしくは伝送波）、その場合のサーバとなるコンピュータ内の揮発性メモリのように、一定時間プログラムを保持しているものを含む。

本発明によれば、多量のテキストデータからユーザのほしい情報を高速に抽出することが可能になる。このため新聞記事やカルテなどを自動的にデータベース化するといった用途に適用できる。また、検索システムへ組み込み、意味的な検索を可能にするといった用途にも適用可能である。

本発明の一実施形態による情報抽出装置のブロック図である。本発明の他の実施形態による情報抽出装置のブロック図である。本発明のさらに実施形態による情報抽出装置のブロック図である。図１の情報抽出装置の、学習モード時と実行モード時の動作を示す流れ図である。目的テーブルの記述例を示す図である。辞書に格納される属性データの記述例を示す図である。入力文とその解析結果（テキスト解析部の出力結果）の例を示す図である。最大公約ルールの例を示す図である。最小ルールの例を示す図である。ルールの積の例を示す図である。

符号の説明

１テキスト入力部
２テキスト解析部
３辞書
４目的テーブル
５規則生成部
６規則ＤＢ
７規則適応部
１０１〜１１４、１２１〜１２４ステップ

Claims

複数のテキストを入力するステップと、
入力された複数のテキストを、活用処理、品詞情報を含む辞書を参照しながら形態素解析するステップと、
前記複数のテキストの解析結果を、抽出する対象である単語が項目ごとに分類された目的テーブルから読み込んだ単語ごとに参照し、前記解析結果から当該単語を含む文章である最大解析結果と、単語の属性である最小解析結果を取り出し、前記最大解析結果同士の同じ項目ごとの論理積を取って共通部分を最大公約ルールとして残し、前記最小解析結果同士の論理積を取って共通部分を最小ルールとして残すステップと、
前記最大公約ルールと前記最小ルールを規則ＤＢに登録するステップと、
を有する情報抽出規則生成方法。
前記最大公約ルールおよび前記最小ルールが１つも存在しない場合、所定のフォロー処理を行うステップをさらに有する、請求項１に記載の情報抽出規則生成方法。
前記最大公約ルールおよび前記最小ルールを前記テキストの解析結果に適用し、前記目的テーブルに記載されている単語が得られたならば、前記最大公約ルールおよび前記最小ルールを前記規則ＤＢに登録するステップをさらに有する、請求項１または２に記載の情報抽出規則生成方法。
前記単語が得られなかったならば、解析結果より、誤り公約ルールと誤り最小ルールを取り出し、前記最大公約ルールに対し、前記誤り公約ルールを否定するものをアンド条件でつなげたものを最大公約ルールとし、前記最小ルールと前記誤り最小ルールをアンド条件でつなげたものを最小ルールとして、これらを前記テキストの解析結果に適用するステップをさらに有する、請求項３に記載の情報抽出規則生成方法。
抽出する対象である単語が項目ごとに分類された目的テーブルと、
テキストを入力するためのテキスト入力手段と、
活用処理、品詞情報を含む辞書と
前記テキスト入力手段から入力された複数のテキストを、前記辞書を参照しながら形態素解析するテキスト解析手段と、
前記テキスト解析手段による、前記複数のテキストの解析結果を、前記目的テーブルから読み込んだ単語ごとに参照し、前記解析結果から当該単語を含む文章である最大解析結果と、単語の属性である最小解析結果を取り出し、前記最大解析結果同士の同じ項目ごとの論理積を取って共通部分を最大公約ルールとして残し、前記最小解析結果同士の論理積を取って共通部分を最小ルールとして残す規則生成手段と
前記最大公約ルールと前記最小ルールが登録される規則ＤＢと、
を有する情報抽出規則生成装置。
前記規則生成手段は、前記最大公約ルールおよび前記最小ルールが１つも存在しない場合、所定のフォロー処理を行う、請求項５に記載の情報抽出規則生成装置。
前記最大公約ルールおよび前記最小ルールを前記テキストの解析結果に適用し、前記目的テーブルに記載されている単語が得られたならば、前記最大公約ルールおよび前記最小ルールを前記規則ＤＢに登録する規則適応手段をさらに有する、請求項５または６に記載の情報抽出規則生成装置。
前記規則適応手段は、前記単語が得られなかったならば、解析結果より、誤り公約ルールと誤り最小ルールを取り出し、前記最大公約ルールに対し、前記誤り公約ルールを否定するものをアンド条件でつなげたものを最大公約ルールとし、前記最小ルールと前記誤り最小ルールをアンド条件でつなげたものを最小ルールとして、これらを前記テキストの解析結果に適用する、請求項７記載の情報抽出規則生成装置。
請求項１から４に記載の情報抽出規則生成方法をコンピュータに実行させるためのプログラム。