JP2007219922A - 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム - Google Patents

意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム Download PDF

Info

Publication number
JP2007219922A
JP2007219922A JP2006040812A JP2006040812A JP2007219922A JP 2007219922 A JP2007219922 A JP 2007219922A JP 2006040812 A JP2006040812 A JP 2006040812A JP 2006040812 A JP2006040812 A JP 2006040812A JP 2007219922 A JP2007219922 A JP 2007219922A
Authority
JP
Japan
Prior art keywords
data
document
semantic
attribute information
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006040812A
Other languages
English (en)
Inventor
Mitsugi Miura
貢 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006040812A priority Critical patent/JP2007219922A/ja
Publication of JP2007219922A publication Critical patent/JP2007219922A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】レイアウト情報から意味情報を効率的に取り出す規則を作成する。
【解決手段】本発明の意味情報抽出システムは、文書データD1を入力する入力手段(1)と、前記文書データD1を構成する文書単位とその意味的属性情報とを互いに対応づけた辞書データを参照する参照手段(4)と、前記文書データD1のレイアウト属性情報を前記文書単位ごとに解析する第1の解析手段(2)と、前記文書データD1の意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析手段(3)と、前記第1の解析手段(2)による解析結果D2と前記第2の解析手段(3)による解析結果D3とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データD4を保存可能(6)に生成する規則生成手段(5)とを有する。
【選択図】図1

Description

本発明は、情報抽出システムに属し、多量のテキストデータからユーザが必要とする特定の情報を抽出するシステムに係り、特にレイアウト情報から意味情報を取り出す規則を作成する意味情報抽出システムに関するものである。
従来から、文章などのテキストに含まれている情報を抽出して、特に重要な情報については、有効に利用及び活用することが望まれている。
そこで従来から、文章に含まれている情報の中から所望の情報を抽出する情報抽出システムの一例が、特許文献1に記載されている。
ここで、従来の情報抽出システムについて、図12を参照して説明する。
図12に示すように、特許文献1に記載された従来の情報抽出システムは、テキスト入力部100と、木構造抽出部110と、木構造表示部120と、アノテーション付与部130と、木構造正規表現抽出部140と、情報抽出規則記憶部150と、分かち書き表示部160とから構成されている。
このような構成を有する従来の情報抽出システムは、次のように動作する。
すなわち、テキスト入力部100は、文章D100を順次に入力する。木構造抽出部110は、入力した文章D100を統語解析して構文木D110を抽出する。木構造表示部120は、抽出された構文木D110の情報に基づいて木構造を表示部に表示する。アノテーション付与部130は、木構造の表示を用いてインタラクティブにアノテーションD120を付与する。木構造正規表現抽出部140は、木構造およびアノテーションD120から、対応する規則を表示する木構造表現D130を抽出し、情報抽出規則記憶部150に記憶される。
そして、この情報抽出規則は情報抽出時に用いられ、文章とマッチングされるというものである。
特開2004―318809号公報
特許文献1に記載された情報抽出システムでは、文書の属性情報と意味的な属性情報の間には明示的な関係性がないため、レイアウト(位置、文字サイズ、フォントの種類、色などの文書の属性情報)から情報を抽出するための規則を、効率的に作成できないという不都合がある。
例えば、ある文書では、重要項目を赤字で表示して、人名は強調文字で表示するという意味的な属性情報と文書の属性情報との対応付けがあったとしても、他のドキュメントでは、このような対応付けは存在しない可能性が高く、汎用的な規則としてシステム側に事前に準備できないという問題があった。
さらに、強調文字で記載された属性情報は人名とするという対応付けは、従来は人による解釈によって、規則を作成するしかなかった。
本発明は、上記課題に鑑みてなされたものであり、レイアウト情報から意味情報を効率的に作成できる機能を有する意味情報抽出システムを提供することを目的とする。
本発明に係る意味情報抽出システムは、文書データを入力する入力手段と、前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照手段と、入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第1の解析手段と、入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析手段と、前記第1の解析手段による解析結果と前記第2の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成手段とを有することを特徴とする。
また、本発明に係る意味情報抽出システムは、生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出手段をさらに有するようにしても良い。
また、本発明に係る意味情報抽出システムは、抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与手段をさらに有するようにしても良い。
また、本発明に係る意味情報抽出システムでは、前記文書データは、複数の文書データであり、前記規則生成手段は、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手段であっても良い。
また、本発明に係る意味情報抽出システムでは、前記文書データは、複数の文書データであり、前記規則生成手段は、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手段であっても良い。
本発明に係る意味情報抽出方法は、文書データを入力する入力ステップと、前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照ステップと、入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第1の解析ステップと、入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析ステップと、前記第1の解析手段による解析結果と前記第2の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成ステップとを有することを特徴とする。
また、本発明に係る意味情報抽出方法は、生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出ステップをさらに有するようにしても良い。
また、本発明に係る意味情報抽出システムは、抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与ステップをさらに有するようにしても良い。
また、本発明に係る意味情報抽出方法では、前記文書データは、複数の文書データであり、前記規則生成ステップは、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成するステップであっても良い。
また、本発明に係る意味情報抽出方法では、前記文書データは、複数の文書データであり、前記規則生成ステップは、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成するステップであっても良い。
本発明に係る意味情報抽出プログラムは、文書データを入力する入力手順と、前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照手順と、入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第1の解析手順と、入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析手順と、前記第1の解析手段による解析結果と前記第2の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成手順とをコンピュータに実行させることを特徴とする。
また、本発明に係る意味情報抽出プログラムは、生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出手順をさらにコンピュータに実行させるようにしても良い。
また、本発明に係る意味情報抽出システムは、抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与手順をさらにコンピュータに実行させるようにしても良い。
また、本発明に係る意味情報抽出プログラムでは、前記文書データは、複数の文書データであり、前記規則生成手順は、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手順であっても良い。
また、本発明に係る意味情報抽出プログラムでは、前記文書データは、複数の文書データであり、前記規則生成手順は、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手順であっても良い。
また、ドキュメント処理システムは、本発明に係る意味情報抽出システムを備えるようにしても良い。
このように、作成された規則データは、規則生成手段に蓄積され、情報抽出手段において規則データを規則として、第1の解析手段及び第2の解析手段の解析結果に適用されるので、規則にマッチした情報(データ)を抽出することができる。
本発明によれば、この意味情報抽出システムは、規則生成手段が、第1の解析手段による解析結果と、第2の解析手段による解析結果との間の関係を関係付ける規則データを作成することにより、規則(情報抽出規則)を効率的に作成することができる。
さらに複数の文書データを入力して複数の解析結果を利用することにより、複数の規則データを作成することができるので、抽出する情報の精度を向上させることができる。
従って、上記のような構成を採用することにより、本発明の目的を達成することができる。
以下、本発明の実施の形態について図面を用いて詳細に説明する。
(第1の実施の形態)
図1は、本発明による実施の形態として、意味情報抽出システムの構成を示す概略図である。図1に示す意味情報抽出システムは、 文書入力部1と、レイアウト解析部2と、テキスト解析部3と、辞書4と、 規則生成部5と、規則DB6と、規則適応部7とを備えている。
ここで、ユーザが複数の文書データD1をこの意味情報抽出システムに入力すると、 文書入力部1から入力された複数の文書データD1は、レイアウト解析部(本発明の第1の解析手段を構成する。)2で文書属性別(本発明のレイアウト属性情報に相当する。)に解析されると共に、辞書(本発明の辞書データに相当する。)4を参照しながらテキストの解析動作を行うテキスト解析部(本発明の第2の解析手段を構成する。)3によって解析される(本発明の意味的属性情報に相当する)。
そして、レイアウト解析部2の解析データD2は、規則生成部5へ出力されると共に、テキスト解析部3で解析された複数の解析データD3は、意味的属性付のデータとして規則生成部5へ出力される。
規則生成部5は、レイアウト解析部2とテキスト解析部3とから出力された複数の解析データD2及びD3とを比較し、抽出規則(本発明の規則データを構成する。)を自動的に作成するよう動作する。
作成された抽出規則は、規則データD4として規則DB6に蓄積され、規則適応部7において、規則としてレイアウト解析部2とテキスト解析部3との解析データD2及びD3に適用され、規則とマッチしたデータD5が抽出される。
次に、図1の意味情報抽出システムの構成において、図2のフローチャートに沿って、本実施の形態の全体の動作手順について詳細に説明する。
まず、ステップS1においてこの意味情報抽出システムは、文書入力部1に複数の文書データD1が入力され、記載されていた文章が読み込まれる。参考として、レイアウト付の入力文書の例(ここでは、入力文書(例)という。)を図3に示す。
図3に示す入力文書(例)は、入力文書のタイトルとして「言語処理について」という表題が付され、この文書の報告日として「平成9年11月6日」、そして報告者の氏名及び所属組織である「山田太郎(XYZ研究所)」 などが記載されている。
ステップS2においてこの意味情報抽出システムは、読み込まれたその文章データD1に基づいて、レイアウト解析部2が、文書のレイアウト情報を解析する。参考として解析された状態の例(ここでは、レイアウト解析(例)という。)を図4に示す。
図4に示すレイアウト解析(例)には、「テキスト」、「文字サイズ」、「フォント」、「色」、「位置」の文書属性に従って、レイアウト解析部2によって解析された解析データD2を表示している。
具体的には、「平成9年11月6日」という「テキスト」は、「文字サイズ」属性が「16」、「フォント」属性が「明朝」、「色」属性が「黒」、「位置」属性が「右上隅」という文書属性別に解析データD2が示されている。
ステップS3においてこの意味情報抽出システムは、ステップS2のレイアウト解析を行うと共に、テキスト解析部3が辞書4を参照しながらテキストを解析する。ステップ3の解析結果出力の一例(ここでは、テキスト解析(例)という。)を図5に示す。
図5に示すテキスト解析(例)は、構文解析の枝ごとに単語(「テキスト」)があり、その単語ごとに属性を持つ属性データの構造になっている。
具体的には、例えば「山田太郎」という単語(「テキスト」)は、「人名」という意味の属性を持つ属性データであることを示している。また、辞書4に記載されている属性データの例(ここでは、辞書と属性(例)という。)を、図6に示す。
図6に示す「辞書と属性(例)」では、例えば、辞書4に登録されている「上野」という単語(「テキスト」)には、「名詞」、「人」、「人名」、「姓」という意味の属性を有している場合や、或いは「名詞」、「場所」、「地名」、「東京」という意味の属性を有している場合があり、辞書4にはそれぞれ属性データとして登録されていることを示している。
ステップS4においてこの意味情報抽出システムは、規則生成部5が、レイアウト解析部2とテキスト解析部3との解析データD2及びD3を、単語(「テキスト」)とその周辺(句など)ごとに規則生成部5へ格納する。
ステップS5においてこの意味情報抽出システムは、さらに規則生成部5において、2つの解析データ(レイアウト解析部2とテキスト解析部3の解析データD2及びD3)を参照する。
ステップS6においてこの意味情報抽出システムは、解析データ2及びD3を参照した解析結果情報から単語(「テキスト」)ごとにレイアウト情報と属性(意味)情報(前述した属性データの属性に相当する。)とを対応づける。
ステップS7においてこの意味情報抽出システムは、異なる「属性」間で共通のレイアウト情報を削除する。この例(ここでは、レイアウト解析とテキスト解析の合成(例)という。)を図7に示す。
図7に示す「レイアウト解析とテキスト解析の合成(例)」では、上段にレイアウト情報と属性データの「属性」とが、対応づけられている。ここで、異なる「属性」間の非特徴要素として、共通する「文字サイズ」、「フォント」、「色」属性の部分を削除することにより、下段に示される「位置」属性に基づいた抽出規則を得ることができる。
すなわちこの図7の下段は、図3の「入力文書(例)」から、「位置」属性に基づく4つの特徴要素による抽出規則が得られたことを示し、この4つの「位置」属性に基づいて、その「位置」に該当する単語(「テキスト」)に「属性」を割り当てて、単語(「テキスト」)を抽出するようになっている。
ここで、ステップS7においてレイアウト情報から共通の「属性」を削除することにより、判別するためのレイアウト情報が存在しなくなる場合がある。
ステップS8においてこの意味情報抽出システムは、この共通するレイアウト情報の削除によって、抽出規則(以下、これをルールという。)の存否を判定する。ここで、否定結果が得られたときは、1つもルールが残っていないことを示し、ステップS9へ移る。
ステップS9においてこの意味情報抽出システムは、レイアウト情報の削除に対するフォロー処理を行う。具体的には、ルールの棄却、或いは和演算で各ルールをつなぐ、などの動作を行う。
ここでルールの棄却とは、そのレイアウト情報と「属性」との対応づけからは、ルールを作成しないことを意味し、また和演算で各ルールをつなぐとは、そのレイアウト情報と「属性」との対応づけに対して、新たにレイアウト情報と「属性」の対応づけを付加することにより、適用するルールを追加することを意味している。
その具体例(ここでは、フォロー処理が必要となるレイアウト解析とテキスト解析の合成(例)という。)を、図8に示す。
図8の上段では、レイアウト情報は、いずれの「属性」においても、同じレイアウト情報を有している。そのため非特徴要素の削除を実行すると、図8の中段に示すようにルールが1つも存在しなくなる。そこで、このフォロー処理では、レイアウト情報を付加してルールを作り、和演算としてルールを追加することができるようになっている。
具体的には図8の下段に示すように、例えば「色」属性が「黒」である場合に、「属性」を「人名」に対応づけを付加することにより、「黒」で記載された単語(「テキスト」)は、「人名」として抽出するルールを作成することができる。また、「フォント」属性が「明朝」である場合に、「属性」を「日時」に対応づけを付加すると、「明朝」で記載された単語(「テキスト」)は、「日時」として抽出するルールを作成することができる。さらに、「色」属性が「青」である場合に、「属性」を「所属組織」に対応づけを付加するなど、ユーザの任意によって、ルールを追加することができる。
このように、レイアウト情報と「属性」との対応づけを新たに付加することによって、抽出するルールを追加することを、和演算でルールをつなぐという。
また、この意味情報抽出システムは、どのようなフォロー処理を行うかについて、システムの目的に応じて、ユーザが変更することができるようになっている。
例えば、厳密なルール作成が目的である場合にルール生成に失敗したときは、この意味情報抽出システムは、警告を出すように設定することができる。或いは、ルールが緩くてもある程度の結果を欲しいときには、この意味情報抽出システムは、レイアウト情報と「属性」との対応づけを付加して、和演算で各ルールをつなげるようにしてもよい。
このように、この意味情報抽出システムでは、フォロー処理において、ユーザが使用する目的に応じて、ルールの作成を変更することができる。
また、ステップS8でルールが1つも残ってないときに、システムの目的に応じて、ステップS9のルール作成に対するフォロー処理を一切行わずに、中止するようにしても良い。
これに対し、ステップS8において肯定結果が得られた時は、ルールが規則生成部5に作成されたことを示し、このとき意味情報抽出システムは、ステップS10へ移る。
ステップS10においてこの意味情報抽出システムは、規則生成部5において作成されたルールを、規則データD4として規則DB6に登録するようになっている。
このように、ある1つの文書データD1が入力されると、その文書データD1に基づくルールが作成され、登録されるようになっている。また、複数の文書データD1が入力されている場合は、入力された文書データD1ごとに順番に、ステップS2からステップ10までを実行して、各文書データD1ごとに対応するルールを作成すると共に、それぞれ登録されるようになっている。
ステップS11においてこの意味情報抽出システムは、規則適応部7が規則DB6に登録されている規則データD4を参照しながら、解析データD2及びD3に対してルールを適用し、データD5(所望の情報)を抽出する。
このとき解析データD2及びD3に対して適用されるルールは、原則として、ステップ2からステップ10まで実行して作成された文書データD1に対応するルールが、その解析データD2及びD3に適用されるようになっている。
また規則適応部7では、データD5を取得すると共に、そのデータの属性に応じた要素を示すタグを付与(本発明のタグ付与手段を構成する。)して、タグ付きデータD5として出力するようになっている。
具体的には、例えば、文書の右上隅の単語は、人名の可能性が高いと判定し、仮に辞書4では未登録の人名なども人名として人名タグを付与する。もし、人名が抽出の対象であるなら、この人名タグがついた未登録の人名も、この意味情報抽出システムでは抽出することができる。
ステップS12においてこの意味情報抽出システムは、文書データD1からタグ付きデータD5(所望の情報)を抽出することにより、動作手順の処理停止となり終了する。
このように第1の実施の形態では、レイアウト解析部2の解析データD2とテキスト解析部3の解析データD3とを対応づけることにより、抽出するルールを作成し、解析データD2及びD3から、タグ付きデータD5を抽出することができる。
なお、第1の実施の形態では、図3に示した「入力文書(例)」を基に、この文書データD1に対応するルールを作成する場合について説明したが、本発明はこれに限らず、複数の文書データD1が入力されている。そのため、それぞれの文書データD1に対応するルールを順番に作成し、その文書データD1に対応するルールによって、それぞれの解析データD2及びD3から、タグ付きデータD5を抽出するようになっている。
また、この意味情報抽出システムは、1枚の文書データD1を入力した場合でも、その文書データD1に基づくルールを作成し、その解析データD2及びD3からタグ付きデータD5を抽出するようになっている。
なお、規則生成5は、複数の文書データD1が入力されている場合、それぞれの文書データD1から各ルールを作成して、各文書データD1の特徴要素から共通するレイアウト情報の属性を抽出することにより、共通する汎用ルールを生成するようにしても良い。
さらに、作成された各ルールは、規則データD4として規則DB6に登録することができるので、未知な他の文書データD1に対しても、それぞれ適用することができる。
なお上述のステップとは別に、後述する第2の実施の形態で示す図10の構成を利用し、ステップS10において、ユーザに伺いを立てるなどの処理を行うことや、図9に示すように汎用ルールに他のルールなどを合成して、ルールを改変しても良い。
図9には、上段に汎用ルールを示し、下段に他のルールを合成して、ルールを改変したものを示したものである。図9の上段では、汎用ルールの「条件」に合致する単語(「テキスト」)があれば、その単語(「テキスト」)に「属性」を割り当て、データD5を抽出するルールを示している。図9の下段には、上段の汎用ルールに対して、文書におけるレイアウトの「位置」属性を条件に付加しており、データD5を抽出する精度を高めることができる。
次に、上述の第1の実施の形態において、本発明を実施するための各部の構成について説明する。
本システムの実装上の構成として、文書入力部1は、ハードディスクのような記憶装置、キーボードや音声認識のような入力装置、或いはネットワークカードのような通信装置などを使用することができる。
また、入力されたテキストを処理するためのレイアウト解析部2、 テキスト解析部3、そして規則生成部5、規則適応部7などは、汎用のCPU(Central Processing Unit)や専用処理プロセッサなどによって構成することができる。そして辞書4と規則DB6などは、ハードディスクやメモリなど一般的な記憶装置を適用することができる。
また、本実施の形態で使用した文書入力部1から規則適応部7のモジュールは、上記のモジュールに限定されるものではなく、ひとつの装置内部に格納することも可能であり、或いは、それぞれの機能をネットワークを介して使用する構成としても良い。
(第2の実施の形態)
次に、本発明の他の実施の形態を図10に示す。図10に示す第2の実施の形態では、第1の実施の形態の意味情報抽出システムに、デバッガやメンテナンスシステムを連結させた実施の形態である。
具体的には図10に示すように、辞書4の記録内容について、修正や補充などのメンテナンスを行うことができるメンテナンスモジュール辞書エディタ8を備えている。
また規則DB6には、第1の実施の形態では抽出されたルールを保存するようになされていたが、第2の実施の形態では、規則DB6に保存する規則データD4に対して、デバッガやメンテナンスシステムを行うメンテナンスモジュール規則表示部9と、メンテナンスモジュール規則エディタ10とを備えている。
これによりユーザは、ルールを規則データD4として規則DB6に保存する際、メンテナンスモジュール規則表示部9に表示される保存内容の確認や、或いはメンテナンスモジュール規則エディタ10を介して規則データD4の修正などを行うことができる。
(第3の実施の形態)
さらに、本発明の他の実施の形態を図11に示す。図11に示す第3の実施の形態では、XML(eXtensible Markup Language)を利用したドキュメント処理システムを構成している。
図11に示すように、第1の実施の形態に対して、XML−DB(eXtensible Markup Language-Data Base)11と、XMLフォーマッタ(eXtensible Markup Language formatter)12と、UIF(User Inter Face)(例えば、プリンタやディスプレイなど)13と、テキストDB(Text Data Base)14とを備えている。
この場合、意味情報抽出システムから抽出されたタグ付きデータD5は、XML−DB11に、保存される。またXMLフォーマッタ12は、XML−DB11に保存されているタグ付きデータD5を、XMLデータD6として読み出し、XML文書の構造が定義されている内容に沿って、XMLデータD6を記述する。
ここでXMLフォーマッタ12は、DTD(Document Type Definition:文書型定義)を用いてXML文書の構造を定義し、XML文書の内容D7の処理内容や指定方法を宣言している。そしてUIF13は、XML文書の内容D7をプリンタ等を介して、ユーザに表示するようになっている。
これにより、ユーザは、テキストDB14からテキストデータD8を入力すると、第1の実施の形態と同様に、規則適応部7からタグ付きデータD5が出力され、XML−DB11に保存された後、XMLフォーマッタ12において定義されたDTDの設定内容に基づいて、UIF13にXML文書の内容D7を表示することができる。
具体的な利用方法としては、会社における人事一覧表のように、社員の人名に対して人名タグを付与し、所属部署ごとにXML文書として表示することができる。
また本発明は、第3の実施の形態で示したように、第1の実施の形態で示した意味情報抽出システムを、他のシステムの部品として利用することができる。
なお、本発明の実施の形態では、解析単位として単語(「テキスト」)を使用したが、本発明はこれに限定されるものではなく、認識できる文字・記号などからなるものでもよい。
本発明によれば、レイアウトを持った多量の文書に対して、意味的タグをつけた状態に変換することが可能になる。このため社内ドキュメントやカルテなどを自動的にデータベース化するといった用途に適用できる。また、検索システムへ組み込むことにより、意味的な検索を可能にするといった用途にも適用可能である。
本発明の第1の実施の形態による意味情報抽出システムの概略図である。 本発明の第1の実施の形態による意味情報抽出システムの全体動作の動作手順を示すフローチャートである。。 本発明の第1の実施の形態による入力文書(例)である。 本発明の第1の実施の形態によるレイアウト解析(例)である。 本発明の第1の実施の形態によるテキスト解析(例)である。 本発明の第1の実施の形態による辞書と属性の例(例)である。 本発明の第1の実施の形態によるレイアウト解析とテキスト解析の合成(例)である。 本発明の第1の実施の形態によるフォロー処理が必要となるレイアウト解析とテキスト解析の合成(例)である。 本発明の第1の実施の形態による汎用ルールをさらに適用した場合の例である。 本発明の第2の実施の形態によるメンテナンスシステムを備えた意味情報抽出システムの概略図である。 本発明の第3の実施の形態によるドキュメント処理システムの概略図である。 従来の情報抽出システムの概略図である。
符号の説明
1 文書入力部
2 レイアウト解析部
3 テキスト解析部
4 辞書
5 規則生成部
6 規則DB
7 規則適応部
8 メンテナンスモジュール辞書エディタ
9 メンテナンスモジュール規則表示エディタ
10 メンテナンスモジュール規則エディタ
11 UIF
12 XMLフォーマッタ
13 XML−DB
14 テキストDB
100 テキスト入力部
110 木構造抽出部
120 木構造表示部
130 アノテーション付与部
140 木構造正規抽出部
150 情報抽出規則記憶部
160 分かち書き表示部

Claims (16)

  1. 文書データを入力する入力手段と、
    前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照手段と、
    入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第1の解析手段と、
    入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析手段と、
    前記第1の解析手段による解析結果と前記第2の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成手段とを有することを特徴とする意味情報抽出システム。
  2. 生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出手段をさらに有することを特徴とする請求項1記載の意味情報抽出システム。
  3. 抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与手段をさらに有することを特徴とする請求項2記載の意味情報抽出システム。
  4. 前記文書データは、複数の文書データであり、前記規則生成手段は、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手段であることを特徴とする請求項1記載の意味情報抽出システム。
  5. 前記文書データは、複数の文書データであり、前記規則生成手段は、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手段であることを特徴とする請求項1記載の意味情報抽出システム。
  6. 文書データを入力する入力ステップと、
    前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照ステップと、
    入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第1の解析ステップと、
    入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析ステップと、
    前記第1の解析手段による解析結果と前記第2の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成ステップとを有することを特徴とする意味情報抽出方法。
  7. 生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出ステップをさらに有することを特徴とする請求項6記載の意味情報抽出方法。
  8. 抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与ステップをさらに有することを特徴とする請求項7記載の意味情報抽出方法。
  9. 前記文書データは、複数の文書データであり、前記規則生成ステップは、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成するステップであることを特徴とする請求項6記載の意味情報抽出方法。
  10. 前記文書データは、複数の文書データであり、前記規則生成ステップは、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成するステップであることを特徴とする請求項6記載の意味情報抽出方法。
  11. 文書データを入力する入力手順と、
    前記文書データを構成する文書単位とその意味的属性情報とを互いに対応づけて成る辞書データを参照する参照手順と、
    入力された前記文書データのレイアウト属性情報を、前記文書単位ごとに解析する第1の解析手順と、
    入力された前記文書データの意味的属性情報を、前記辞書データを参照して前記文書単位ごとに解析する第2の解析手順と、
    前記第1の解析手段による解析結果と前記第2の解析手段による解析結果とに基づいて、前記文書単位ごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する規則生成手順とをコンピュータに実行させることを特徴とする意味情報抽出プログラム。
  12. 生成された前記規則データに基づいて、入力された前記文書データのレイアウト属性情報からその意味的属性情報を前記文書単位ごとに抽出する情報抽出手順をさらにコンピュータに実行させることを特徴とする請求項11記載の意味情報抽出プログラム。
  13. 抽出された前記意味的属性情報をタグ情報として前記文書データ内の対応する前記文書単位に付与するタグ付与手順をさらにコンピュータに実行させることを特徴とする請求項12記載の意味情報抽出プログラム。
  14. 前記文書データは、複数の文書データであり、前記規則生成手順は、前記複数の文書データごとに前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手順であることを特徴とする請求項11記載の意味情報抽出プログラム。
  15. 前記文書データは、複数の文書データであり、前記規則生成手順は、前記複数の文書データに共通する前記レイアウト属性情報と前記意味的属性情報との間の関係を関係付ける規則データを保存可能に生成する手順であることを特徴とする請求項11記載の意味情報抽出プログラム。
  16. 請求項1乃至請求項5のいずれか1項記載の意味情報抽出システムを備えたことを特徴とするドキュメント処理システム。
JP2006040812A 2006-02-17 2006-02-17 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム Pending JP2007219922A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006040812A JP2007219922A (ja) 2006-02-17 2006-02-17 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006040812A JP2007219922A (ja) 2006-02-17 2006-02-17 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム

Publications (1)

Publication Number Publication Date
JP2007219922A true JP2007219922A (ja) 2007-08-30

Family

ID=38497143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006040812A Pending JP2007219922A (ja) 2006-02-17 2006-02-17 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP2007219922A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011013587A1 (ja) * 2009-07-27 2011-02-03 株式会社日立ソリューションズ 文書データ処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011013587A1 (ja) * 2009-07-27 2011-02-03 株式会社日立ソリューションズ 文書データ処理装置
JP2011028568A (ja) * 2009-07-27 2011-02-10 Hitachi Solutions Ltd 文書データ処理装置
US8768941B2 (en) 2009-07-27 2014-07-01 Hitachi Solutions, Ltd. Document data processing device

Similar Documents

Publication Publication Date Title
US8972854B2 (en) Graphical creation of a document conversion template
Forkel et al. CLDFBench: Give your cross-linguistic data a lift
US20030158723A1 (en) Syntactic information tagging support system and method
US20070186156A1 (en) Converter-tool for a non-programmer user, to generate a web based application
US20140212040A1 (en) Document Alteration Based on Native Text Analysis and OCR
JP3038079B2 (ja) 自動翻訳装置
Haaf et al. The dta “base format”: A tei subset for the compilation of a large reference corpus of printed text from multiple sources
US11158118B2 (en) Language model, method and apparatus for interpreting zoning legal text
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
Meuschke et al. A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents
US11301441B2 (en) Information processing system and information processing method
Arnold et al. Beyond lexical frequencies: using R for text analysis in the digital humanities
JP4317990B2 (ja) データ変換適性評価方法及びデータ変換装置
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
US10896227B2 (en) Data processing system, data processing method, and data structure
JP2007219922A (ja) 意味情報抽出システム、意味情報抽出方法、及び意味情報抽出プログラム
KR102492008B1 (ko) 회의록 관리 방법 및 장치
WO2022054286A1 (ja) 言語リソースのデータ構造及びこれを用いた発話理解支援のための装置、方法及びプログラム
US20230409620A1 (en) Non-transitory computer-readable recording medium storing information processing program, information processing method, information processing device, and information processing system
JP5102474B2 (ja) Xmlデータ生成方法及びそのプログラム
Reqqass et al. “AlkhalilDWS”: An Arabic Dictionary Writing System Rich in Lexical Resources
Biruli et al. Development of Parallel Speech Data Repository for Ho Language
Chiarcos Crowdsourcing OLiA Annotation Models the Indirect Way
Drude Prospects for e-grammars and endangered languages corpora
CN117725927A (zh) 用于保险业务的条款文件的识别处理方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080528

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090619

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090812

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091105