JP2007219922A

JP2007219922A - 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム

Info

Publication number: JP2007219922A
Application number: JP2006040812A
Authority: JP
Inventors: Mitsugi Miura; 貢三浦
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-02-17
Filing date: 2006-02-17
Publication date: 2007-08-30

Abstract

【課題】レイアウト情報から意味情報を効率的に取り出す規則を作成する。
【解決手段】本発明の意味情報抽出システムは、文書データＤ１を入力する入力手段（１）と、前記文書データＤ１を構成する文書単位とその意味的属性情報とを互いに対応づけた辞書データを参照する参照手段（４）と、前記文書データＤ１のレイアウト属性情報を前記文書単位ごとに解析する第１の解析手段（２）と、前記文書データＤ１の意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第２の解析手段（３）と、前記第１の解析手段（２）による解析結果Ｄ２と前記第２の解析手段（３）による解析結果Ｄ３とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データＤ４を保存可能（６）に生成する規則生成手段（５）とを有する。
【選択図】図１

Description

本発明は、情報抽出システムに属し、多量のテキストデータからユーザが必要とする特定の情報を抽出するシステムに係り、特にレイアウト情報から意味情報を取り出す規則を作成する意味情報抽出システムに関するものである。

従来から、文章などのテキストに含まれている情報を抽出して、特に重要な情報については、有効に利用及び活用することが望まれている。

そこで従来から、文章に含まれている情報の中から所望の情報を抽出する情報抽出システムの一例が、特許文献１に記載されている。

ここで、従来の情報抽出システムについて、図１２を参照して説明する。

図１２に示すように、特許文献１に記載された従来の情報抽出システムは、テキスト入力部１００と、木構造抽出部１１０と、木構造表示部１２０と、アノテーション付与部１３０と、木構造正規表現抽出部１４０と、情報抽出規則記憶部１５０と、分かち書き表示部１６０とから構成されている。

このような構成を有する従来の情報抽出システムは、次のように動作する。

すなわち、テキスト入力部１００は、文章Ｄ１００を順次に入力する。木構造抽出部１１０は、入力した文章Ｄ１００を統語解析して構文木Ｄ１１０を抽出する。木構造表示部１２０は、抽出された構文木Ｄ１１０の情報に基づいて木構造を表示部に表示する。アノテーション付与部１３０は、木構造の表示を用いてインタラクティブにアノテーションＤ１２０を付与する。木構造正規表現抽出部１４０は、木構造およびアノテーションＤ１２０から、対応する規則を表示する木構造表現Ｄ１３０を抽出し、情報抽出規則記憶部１５０に記憶される。

そして、この情報抽出規則は情報抽出時に用いられ、文章とマッチングされるというものである。
特開２００４―３１８８０９号公報

特許文献１に記載された情報抽出システムでは、文書の属性情報と意味的な属性情報の間には明示的な関係性がないため、レイアウト（位置、文字サイズ、フォントの種類、色などの文書の属性情報）から情報を抽出するための規則を、効率的に作成できないという不都合がある。

例えば、ある文書では、重要項目を赤字で表示して、人名は強調文字で表示するという意味的な属性情報と文書の属性情報との対応付けがあったとしても、他のドキュメントでは、このような対応付けは存在しない可能性が高く、汎用的な規則としてシステム側に事前に準備できないという問題があった。

さらに、強調文字で記載された属性情報は人名とするという対応付けは、従来は人による解釈によって、規則を作成するしかなかった。

本発明は、上記課題に鑑みてなされたものであり、レイアウト情報から意味情報を効率的に作成できる機能を有する意味情報抽出システムを提供することを目的とする。

本発明に係る意味情報抽出システムは、文書データを入力する入力手段と、前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照手段と、入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第１の解析手段と、入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第２の解析手段と、前記第１の解析手段による解析結果と前記第２の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成手段とを有することを特徴とする。

また、本発明に係る意味情報抽出システムは、生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出手段をさらに有するようにしても良い。

また、本発明に係る意味情報抽出システムは、抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与手段をさらに有するようにしても良い。

また、本発明に係る意味情報抽出システムでは、前記文書データは、複数の文書データであり、前記規則生成手段は、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手段であっても良い。

また、本発明に係る意味情報抽出システムでは、前記文書データは、複数の文書データであり、前記規則生成手段は、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手段であっても良い。

本発明に係る意味情報抽出方法は、文書データを入力する入力ステップと、前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照ステップと、入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第１の解析ステップと、入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第２の解析ステップと、前記第１の解析手段による解析結果と前記第２の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成ステップとを有することを特徴とする。

また、本発明に係る意味情報抽出方法は、生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出ステップをさらに有するようにしても良い。

また、本発明に係る意味情報抽出システムは、抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与ステップをさらに有するようにしても良い。

また、本発明に係る意味情報抽出方法では、前記文書データは、複数の文書データであり、前記規則生成ステップは、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成するステップであっても良い。

また、本発明に係る意味情報抽出方法では、前記文書データは、複数の文書データであり、前記規則生成ステップは、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成するステップであっても良い。

本発明に係る意味情報抽出プログラムは、文書データを入力する入力手順と、前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照手順と、入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第１の解析手順と、入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第２の解析手順と、前記第１の解析手段による解析結果と前記第２の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成手順とをコンピュータに実行させることを特徴とする。

また、本発明に係る意味情報抽出プログラムは、生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出手順をさらにコンピュータに実行させるようにしても良い。

また、本発明に係る意味情報抽出システムは、抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与手順をさらにコンピュータに実行させるようにしても良い。

また、本発明に係る意味情報抽出プログラムでは、前記文書データは、複数の文書データであり、前記規則生成手順は、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手順であっても良い。

また、本発明に係る意味情報抽出プログラムでは、前記文書データは、複数の文書データであり、前記規則生成手順は、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手順であっても良い。

また、ドキュメント処理システムは、本発明に係る意味情報抽出システムを備えるようにしても良い。

このように、作成された規則データは、規則生成手段に蓄積され、情報抽出手段において規則データを規則として、第１の解析手段及び第２の解析手段の解析結果に適用されるので、規則にマッチした情報（データ）を抽出することができる。

本発明によれば、この意味情報抽出システムは、規則生成手段が、第１の解析手段による解析結果と、第２の解析手段による解析結果との間の関係を関係付ける規則データを作成することにより、規則（情報抽出規則）を効率的に作成することができる。

さらに複数の文書データを入力して複数の解析結果を利用することにより、複数の規則データを作成することができるので、抽出する情報の精度を向上させることができる。

従って、上記のような構成を採用することにより、本発明の目的を達成することができる。

以下、本発明の実施の形態について図面を用いて詳細に説明する。
（第１の実施の形態）
図１は、本発明による実施の形態として、意味情報抽出システムの構成を示す概略図である。図１に示す意味情報抽出システムは、文書入力部１と、レイアウト解析部２と、テキスト解析部３と、辞書４と、規則生成部５と、規則ＤＢ６と、規則適応部７とを備えている。

ここで、ユーザが複数の文書データＤ１をこの意味情報抽出システムに入力すると、文書入力部１から入力された複数の文書データＤ１は、レイアウト解析部（本発明の第１の解析手段を構成する。）２で文書属性別（本発明のレイアウト属性情報に相当する。）に解析されると共に、辞書（本発明の辞書データに相当する。）４を参照しながらテキストの解析動作を行うテキスト解析部（本発明の第２の解析手段を構成する。）３によって解析される（本発明の意味的属性情報に相当する）。

そして、レイアウト解析部２の解析データＤ２は、規則生成部５へ出力されると共に、テキスト解析部３で解析された複数の解析データＤ３は、意味的属性付のデータとして規則生成部５へ出力される。

規則生成部５は、レイアウト解析部２とテキスト解析部３とから出力された複数の解析データＤ２及びＤ３とを比較し、抽出規則（本発明の規則データを構成する。）を自動的に作成するよう動作する。

作成された抽出規則は、規則データＤ４として規則ＤＢ６に蓄積され、規則適応部７において、規則としてレイアウト解析部２とテキスト解析部３との解析データＤ２及びＤ３に適用され、規則とマッチしたデータＤ５が抽出される。

次に、図１の意味情報抽出システムの構成において、図２のフローチャートに沿って、本実施の形態の全体の動作手順について詳細に説明する。

まず、ステップＳ１においてこの意味情報抽出システムは、文書入力部１に複数の文書データＤ１が入力され、記載されていた文章が読み込まれる。参考として、レイアウト付の入力文書の例（ここでは、入力文書（例）という。）を図３に示す。

図３に示す入力文書（例）は、入力文書のタイトルとして「言語処理について」という表題が付され、この文書の報告日として「平成９年１１月６日」、そして報告者の氏名及び所属組織である「山田太郎（ＸＹＺ研究所）」などが記載されている。

ステップＳ２においてこの意味情報抽出システムは、読み込まれたその文章データＤ１に基づいて、レイアウト解析部２が、文書のレイアウト情報を解析する。参考として解析された状態の例（ここでは、レイアウト解析（例）という。）を図４に示す。

図４に示すレイアウト解析（例）には、「テキスト」、「文字サイズ」、「フォント」、「色」、「位置」の文書属性に従って、レイアウト解析部２によって解析された解析データＤ２を表示している。

具体的には、「平成９年１１月６日」という「テキスト」は、「文字サイズ」属性が「１６」、「フォント」属性が「明朝」、「色」属性が「黒」、「位置」属性が「右上隅」という文書属性別に解析データＤ２が示されている。

ステップＳ３においてこの意味情報抽出システムは、ステップＳ２のレイアウト解析を行うと共に、テキスト解析部３が辞書４を参照しながらテキストを解析する。ステップ３の解析結果出力の一例（ここでは、テキスト解析（例）という。）を図５に示す。

図５に示すテキスト解析（例）は、構文解析の枝ごとに単語（「テキスト」）があり、その単語ごとに属性を持つ属性データの構造になっている。

具体的には、例えば「山田太郎」という単語（「テキスト」）は、「人名」という意味の属性を持つ属性データであることを示している。また、辞書４に記載されている属性データの例（ここでは、辞書と属性（例）という。）を、図６に示す。

図６に示す「辞書と属性（例）」では、例えば、辞書４に登録されている「上野」という単語（「テキスト」）には、「名詞」、「人」、「人名」、「姓」という意味の属性を有している場合や、或いは「名詞」、「場所」、「地名」、「東京」という意味の属性を有している場合があり、辞書４にはそれぞれ属性データとして登録されていることを示している。

ステップＳ４においてこの意味情報抽出システムは、規則生成部５が、レイアウト解析部２とテキスト解析部３との解析データＤ２及びＤ３を、単語（「テキスト」）とその周辺（句など）ごとに規則生成部５へ格納する。

ステップＳ５においてこの意味情報抽出システムは、さらに規則生成部５において、２つの解析データ（レイアウト解析部２とテキスト解析部３の解析データＤ２及びＤ３）を参照する。

ステップＳ６においてこの意味情報抽出システムは、解析データ２及びＤ３を参照した解析結果情報から単語（「テキスト」）ごとにレイアウト情報と属性（意味）情報（前述した属性データの属性に相当する。）とを対応づける。

ステップＳ７においてこの意味情報抽出システムは、異なる「属性」間で共通のレイアウト情報を削除する。この例（ここでは、レイアウト解析とテキスト解析の合成（例）という。）を図７に示す。

図７に示す「レイアウト解析とテキスト解析の合成（例）」では、上段にレイアウト情報と属性データの「属性」とが、対応づけられている。ここで、異なる「属性」間の非特徴要素として、共通する「文字サイズ」、「フォント」、「色」属性の部分を削除することにより、下段に示される「位置」属性に基づいた抽出規則を得ることができる。

すなわちこの図７の下段は、図３の「入力文書（例）」から、「位置」属性に基づく４つの特徴要素による抽出規則が得られたことを示し、この４つの「位置」属性に基づいて、その「位置」に該当する単語（「テキスト」）に「属性」を割り当てて、単語（「テキスト」）を抽出するようになっている。

ここで、ステップＳ７においてレイアウト情報から共通の「属性」を削除することにより、判別するためのレイアウト情報が存在しなくなる場合がある。

ステップＳ８においてこの意味情報抽出システムは、この共通するレイアウト情報の削除によって、抽出規則（以下、これをルールという。）の存否を判定する。ここで、否定結果が得られたときは、１つもルールが残っていないことを示し、ステップＳ９へ移る。

ステップＳ９においてこの意味情報抽出システムは、レイアウト情報の削除に対するフォロー処理を行う。具体的には、ルールの棄却、或いは和演算で各ルールをつなぐ、などの動作を行う。

ここでルールの棄却とは、そのレイアウト情報と「属性」との対応づけからは、ルールを作成しないことを意味し、また和演算で各ルールをつなぐとは、そのレイアウト情報と「属性」との対応づけに対して、新たにレイアウト情報と「属性」の対応づけを付加することにより、適用するルールを追加することを意味している。

その具体例（ここでは、フォロー処理が必要となるレイアウト解析とテキスト解析の合成（例）という。）を、図８に示す。

図８の上段では、レイアウト情報は、いずれの「属性」においても、同じレイアウト情報を有している。そのため非特徴要素の削除を実行すると、図８の中段に示すようにルールが１つも存在しなくなる。そこで、このフォロー処理では、レイアウト情報を付加してルールを作り、和演算としてルールを追加することができるようになっている。

具体的には図８の下段に示すように、例えば「色」属性が「黒」である場合に、「属性」を「人名」に対応づけを付加することにより、「黒」で記載された単語（「テキスト」）は、「人名」として抽出するルールを作成することができる。また、「フォント」属性が「明朝」である場合に、「属性」を「日時」に対応づけを付加すると、「明朝」で記載された単語（「テキスト」）は、「日時」として抽出するルールを作成することができる。さらに、「色」属性が「青」である場合に、「属性」を「所属組織」に対応づけを付加するなど、ユーザの任意によって、ルールを追加することができる。

このように、レイアウト情報と「属性」との対応づけを新たに付加することによって、抽出するルールを追加することを、和演算でルールをつなぐという。

また、この意味情報抽出システムは、どのようなフォロー処理を行うかについて、システムの目的に応じて、ユーザが変更することができるようになっている。

例えば、厳密なルール作成が目的である場合にルール生成に失敗したときは、この意味情報抽出システムは、警告を出すように設定することができる。或いは、ルールが緩くてもある程度の結果を欲しいときには、この意味情報抽出システムは、レイアウト情報と「属性」との対応づけを付加して、和演算で各ルールをつなげるようにしてもよい。

このように、この意味情報抽出システムでは、フォロー処理において、ユーザが使用する目的に応じて、ルールの作成を変更することができる。

また、ステップＳ８でルールが１つも残ってないときに、システムの目的に応じて、ステップＳ９のルール作成に対するフォロー処理を一切行わずに、中止するようにしても良い。

これに対し、ステップＳ８において肯定結果が得られた時は、ルールが規則生成部５に作成されたことを示し、このとき意味情報抽出システムは、ステップＳ１０へ移る。

ステップＳ１０においてこの意味情報抽出システムは、規則生成部５において作成されたルールを、規則データＤ４として規則ＤＢ６に登録するようになっている。

このように、ある１つの文書データＤ１が入力されると、その文書データＤ１に基づくルールが作成され、登録されるようになっている。また、複数の文書データＤ１が入力されている場合は、入力された文書データＤ１ごとに順番に、ステップＳ２からステップ１０までを実行して、各文書データＤ１ごとに対応するルールを作成すると共に、それぞれ登録されるようになっている。

ステップＳ１１においてこの意味情報抽出システムは、規則適応部７が規則ＤＢ６に登録されている規則データＤ４を参照しながら、解析データＤ２及びＤ３に対してルールを適用し、データＤ５（所望の情報）を抽出する。

このとき解析データＤ２及びＤ３に対して適用されるルールは、原則として、ステップ２からステップ１０まで実行して作成された文書データＤ１に対応するルールが、その解析データＤ２及びＤ３に適用されるようになっている。

また規則適応部７では、データＤ５を取得すると共に、そのデータの属性に応じた要素を示すタグを付与（本発明のタグ付与手段を構成する。）して、タグ付きデータＤ５として出力するようになっている。

具体的には、例えば、文書の右上隅の単語は、人名の可能性が高いと判定し、仮に辞書４では未登録の人名なども人名として人名タグを付与する。もし、人名が抽出の対象であるなら、この人名タグがついた未登録の人名も、この意味情報抽出システムでは抽出することができる。

ステップＳ１２においてこの意味情報抽出システムは、文書データＤ１からタグ付きデータＤ５（所望の情報）を抽出することにより、動作手順の処理停止となり終了する。

このように第１の実施の形態では、レイアウト解析部２の解析データＤ２とテキスト解析部３の解析データＤ３とを対応づけることにより、抽出するルールを作成し、解析データＤ２及びＤ３から、タグ付きデータＤ５を抽出することができる。

なお、第１の実施の形態では、図３に示した「入力文書（例）」を基に、この文書データＤ１に対応するルールを作成する場合について説明したが、本発明はこれに限らず、複数の文書データＤ１が入力されている。そのため、それぞれの文書データＤ１に対応するルールを順番に作成し、その文書データＤ１に対応するルールによって、それぞれの解析データＤ２及びＤ３から、タグ付きデータＤ５を抽出するようになっている。

また、この意味情報抽出システムは、１枚の文書データＤ１を入力した場合でも、その文書データＤ１に基づくルールを作成し、その解析データＤ２及びＤ３からタグ付きデータＤ５を抽出するようになっている。

なお、規則生成５は、複数の文書データＤ１が入力されている場合、それぞれの文書データＤ１から各ルールを作成して、各文書データＤ１の特徴要素から共通するレイアウト情報の属性を抽出することにより、共通する汎用ルールを生成するようにしても良い。

さらに、作成された各ルールは、規則データＤ４として規則ＤＢ６に登録することができるので、未知な他の文書データＤ１に対しても、それぞれ適用することができる。

なお上述のステップとは別に、後述する第２の実施の形態で示す図１０の構成を利用し、ステップＳ１０において、ユーザに伺いを立てるなどの処理を行うことや、図９に示すように汎用ルールに他のルールなどを合成して、ルールを改変しても良い。

図９には、上段に汎用ルールを示し、下段に他のルールを合成して、ルールを改変したものを示したものである。図９の上段では、汎用ルールの「条件」に合致する単語（「テキスト」）があれば、その単語（「テキスト」）に「属性」を割り当て、データＤ５を抽出するルールを示している。図９の下段には、上段の汎用ルールに対して、文書におけるレイアウトの「位置」属性を条件に付加しており、データＤ５を抽出する精度を高めることができる。

次に、上述の第１の実施の形態において、本発明を実施するための各部の構成について説明する。

本システムの実装上の構成として、文書入力部１は、ハードディスクのような記憶装置、キーボードや音声認識のような入力装置、或いはネットワークカードのような通信装置などを使用することができる。

また、入力されたテキストを処理するためのレイアウト解析部２、テキスト解析部３、そして規則生成部５、規則適応部７などは、汎用のＣＰＵ（Central Processing Unit）や専用処理プロセッサなどによって構成することができる。そして辞書４と規則ＤＢ６などは、ハードディスクやメモリなど一般的な記憶装置を適用することができる。

また、本実施の形態で使用した文書入力部１から規則適応部７のモジュールは、上記のモジュールに限定されるものではなく、ひとつの装置内部に格納することも可能であり、或いは、それぞれの機能をネットワークを介して使用する構成としても良い。

（第２の実施の形態）
次に、本発明の他の実施の形態を図１０に示す。図１０に示す第２の実施の形態では、第１の実施の形態の意味情報抽出システムに、デバッガやメンテナンスシステムを連結させた実施の形態である。

具体的には図１０に示すように、辞書４の記録内容について、修正や補充などのメンテナンスを行うことができるメンテナンスモジュール辞書エディタ８を備えている。

また規則ＤＢ６には、第１の実施の形態では抽出されたルールを保存するようになされていたが、第２の実施の形態では、規則ＤＢ６に保存する規則データＤ４に対して、デバッガやメンテナンスシステムを行うメンテナンスモジュール規則表示部９と、メンテナンスモジュール規則エディタ１０とを備えている。

これによりユーザは、ルールを規則データＤ４として規則ＤＢ６に保存する際、メンテナンスモジュール規則表示部９に表示される保存内容の確認や、或いはメンテナンスモジュール規則エディタ１０を介して規則データＤ４の修正などを行うことができる。

（第３の実施の形態）
さらに、本発明の他の実施の形態を図１１に示す。図１１に示す第３の実施の形態では、ＸＭＬ（eXtensible Markup Language）を利用したドキュメント処理システムを構成している。

図１１に示すように、第１の実施の形態に対して、ＸＭＬ−ＤＢ（eXtensible Markup Language-Data Base）１１と、ＸＭＬフォーマッタ（eXtensible Markup Language formatter）１２と、ＵＩＦ（User Inter Face）（例えば、プリンタやディスプレイなど）１３と、テキストＤＢ（Text Data Base）１４とを備えている。

この場合、意味情報抽出システムから抽出されたタグ付きデータＤ５は、ＸＭＬ−ＤＢ１１に、保存される。またＸＭＬフォーマッタ１２は、ＸＭＬ−ＤＢ１１に保存されているタグ付きデータＤ５を、ＸＭＬデータＤ６として読み出し、ＸＭＬ文書の構造が定義されている内容に沿って、ＸＭＬデータＤ６を記述する。

ここでＸＭＬフォーマッタ１２は、ＤＴＤ（Document Type Definition：文書型定義）を用いてＸＭＬ文書の構造を定義し、ＸＭＬ文書の内容Ｄ７の処理内容や指定方法を宣言している。そしてＵＩＦ１３は、ＸＭＬ文書の内容Ｄ７をプリンタ等を介して、ユーザに表示するようになっている。

これにより、ユーザは、テキストＤＢ１４からテキストデータＤ８を入力すると、第１の実施の形態と同様に、規則適応部７からタグ付きデータＤ５が出力され、ＸＭＬ−ＤＢ１１に保存された後、ＸＭＬフォーマッタ１２において定義されたＤＴＤの設定内容に基づいて、ＵＩＦ１３にＸＭＬ文書の内容Ｄ７を表示することができる。

具体的な利用方法としては、会社における人事一覧表のように、社員の人名に対して人名タグを付与し、所属部署ごとにＸＭＬ文書として表示することができる。

また本発明は、第３の実施の形態で示したように、第１の実施の形態で示した意味情報抽出システムを、他のシステムの部品として利用することができる。

なお、本発明の実施の形態では、解析単位として単語（「テキスト」）を使用したが、本発明はこれに限定されるものではなく、認識できる文字・記号などからなるものでもよい。

本発明によれば、レイアウトを持った多量の文書に対して、意味的タグをつけた状態に変換することが可能になる。このため社内ドキュメントやカルテなどを自動的にデータベース化するといった用途に適用できる。また、検索システムへ組み込むことにより、意味的な検索を可能にするといった用途にも適用可能である。

本発明の第１の実施の形態による意味情報抽出システムの概略図である。本発明の第１の実施の形態による意味情報抽出システムの全体動作の動作手順を示すフローチャートである。。本発明の第１の実施の形態による入力文書（例）である。本発明の第１の実施の形態によるレイアウト解析（例）である。本発明の第１の実施の形態によるテキスト解析（例）である。本発明の第１の実施の形態による辞書と属性の例（例）である。本発明の第１の実施の形態によるレイアウト解析とテキスト解析の合成（例）である。本発明の第１の実施の形態によるフォロー処理が必要となるレイアウト解析とテキスト解析の合成（例）である。本発明の第１の実施の形態による汎用ルールをさらに適用した場合の例である。本発明の第２の実施の形態によるメンテナンスシステムを備えた意味情報抽出システムの概略図である。本発明の第３の実施の形態によるドキュメント処理システムの概略図である。従来の情報抽出システムの概略図である。

符号の説明

１文書入力部
２レイアウト解析部
３テキスト解析部
４辞書
５規則生成部
６規則ＤＢ
７規則適応部
８メンテナンスモジュール辞書エディタ
９メンテナンスモジュール規則表示エディタ
１０メンテナンスモジュール規則エディタ
１１ＵＩＦ
１２ＸＭＬフォーマッタ
１３ＸＭＬ−ＤＢ
１４テキストＤＢ
１００テキスト入力部
１１０木構造抽出部
１２０木構造表示部
１３０アノテーション付与部
１４０木構造正規抽出部
１５０情報抽出規則記憶部
１６０分かち書き表示部

Claims

文書データを入力する入力手段と、
前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照手段と、
入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第１の解析手段と、
入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第２の解析手段と、
前記第１の解析手段による解析結果と前記第２の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成手段とを有することを特徴とする意味情報抽出システム。
生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出手段をさらに有することを特徴とする請求項１記載の意味情報抽出システム。
抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与手段をさらに有することを特徴とする請求項２記載の意味情報抽出システム。
前記文書データは、複数の文書データであり、前記規則生成手段は、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手段であることを特徴とする請求項１記載の意味情報抽出システム。
前記文書データは、複数の文書データであり、前記規則生成手段は、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手段であることを特徴とする請求項１記載の意味情報抽出システム。
文書データを入力する入力ステップと、
前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照ステップと、
入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第１の解析ステップと、
入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第２の解析ステップと、
前記第１の解析手段による解析結果と前記第２の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成ステップとを有することを特徴とする意味情報抽出方法。
生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出ステップをさらに有することを特徴とする請求項６記載の意味情報抽出方法。
抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与ステップをさらに有することを特徴とする請求項７記載の意味情報抽出方法。
前記文書データは、複数の文書データであり、前記規則生成ステップは、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成するステップであることを特徴とする請求項６記載の意味情報抽出方法。
前記文書データは、複数の文書データであり、前記規則生成ステップは、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成するステップであることを特徴とする請求項６記載の意味情報抽出方法。
文書データを入力する入力手順と、
前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照手順と、
入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第１の解析手順と、
入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第２の解析手順と、
前記第１の解析手段による解析結果と前記第２の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成手順とをコンピュータに実行させることを特徴とする意味情報抽出プログラム。
生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出手順をさらにコンピュータに実行させることを特徴とする請求項１１記載の意味情報抽出プログラム。
抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与手順をさらにコンピュータに実行させることを特徴とする請求項１２記載の意味情報抽出プログラム。
前記文書データは、複数の文書データであり、前記規則生成手順は、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手順であることを特徴とする請求項１１記載の意味情報抽出プログラム。
前記文書データは、複数の文書データであり、前記規則生成手順は、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手順であることを特徴とする請求項１１記載の意味情報抽出プログラム。
請求項１乃至請求項５のいずれか１項記載の意味情報抽出システムを備えたことを特徴とするドキュメント処理システム。