JP2005157853A - テキスト文から抽出した情報を利用したリンク設定装置およびその方法 - Google Patents
テキスト文から抽出した情報を利用したリンク設定装置およびその方法 Download PDFInfo
- Publication number
- JP2005157853A JP2005157853A JP2003397196A JP2003397196A JP2005157853A JP 2005157853 A JP2005157853 A JP 2005157853A JP 2003397196 A JP2003397196 A JP 2003397196A JP 2003397196 A JP2003397196 A JP 2003397196A JP 2005157853 A JP2005157853 A JP 2005157853A
- Authority
- JP
- Japan
- Prior art keywords
- data
- sentence
- text
- document
- numerical information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】抽象化モデル生成手段(テキスト文)1207は、入力されたテキスト文から数値情報データと係り受け関係にある他の文要素を抽出し、抽象化モデル記録手段1211は、これらを位置情報データと共に抽象化モデルデータとして記録する。抽象化モデル選択手段1213は、当該抽象化モデル記録手段1211を検索して、同じ抽象化モデルデータを全て選択し各位置情報データをリンク設定手段1215に提供する。リンク設定手段1215は、当該位置情報データに基づいて、抽象化モデルデータが同じ抽象化処理要素に対してリンクを設定する。
【選択図】図19
Description
文書データ中の関連する文要素データを含む対象データ間にリンクを設定するリンク設定装置であって、
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデル記録手段と、
記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデル選択手段、
前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定手段、
を備えたことを特徴とする。
検索要素である対象データに基づいて文書データを検索する文書検索装置であって、
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデル比較手段、
前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示手段、
を備えたことを特徴とする。
検証要素の対象データに基づいて文書編集装置から入力される文書データを検証する文書入力検証装置であって、
文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデル判別手段、
前記抽象化モデル判別手段から取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力手段、
を備えたことを特徴とする。
これにより、誤入力の生じやすい数値情報データに対して容易にチェックを行うことができる。
前記文書データには、テキスト文データ以外の他の処理対象要素が含まれており、さらに、
抽象化モデルデータを抽出する前に、前記処理対象要素の表現形式を判断する表現形式判別手段、
対象データの表現形式がテキスト文である場合には、前記処理対象要素から、数値情報データと係り受け関係にある文要素を抽象化モデルデータとして、その位置情報データと共に抽出する抽象化モデル生成手段、
対象データの表現形式が他の要素である場合には、所定の規則に基づいて抽象化モデルデータを生成し、これらを位置情報データと共に抽象化モデル記録手段に与える抽象化モデル生成手段、
を備えたことを特徴とする。
前記文書データに含まれるテキスト文の言語が複数ある場合に、翻訳辞書を参照することにより、抽象化モデルデータを同じ言語に統一する抽象化モデル翻訳手段を備えた、ことを特徴とする。
まず、抽象化モデルデータを生成するために数値情報データと係り受け情報を抽出する原理および抽象化モデルデータを生成するまでの処理について、図1〜図18を用いて以下に説明する。
図1に、本実施形態にかかる抽象化モデル生成装置の機能ブロック図を示す。この図において、本発明にかかる抽象化モデル生成装置は、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、係り受け情報抽出手段107、抽象化モデル出力手段109を備えている。
図1に示す抽象化モデル生成装置をCPUを用いて実現したハードウェア構成の一例を図2に示す。抽象化モデル生成装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
情報抽出プログラム2091に基づく処理について、図3〜6のフローチャートを用いて説明する。以下では、テキスト文「営業利益は前年度と同水準の32776百万円となった。」を含むテキスト文を切出手段101に入力した場合を例として説明する。
図4に示す数値情報データ抽出処理のフローチャートにおいて、CPU203は数値単位マスタ2095に基づいて数値情報データの単位文字を抽出する(ステップS401)。例えば、本実施形態において、数値単位マスタには「百万円」、「億円」等の金額に関する単位文字が記録されている。
数値情報データ抽出処理(図3、ステップS305)において、数値情報データが抽出されれば(ステップS307、YES)、CPU203はテキスト文解析処理(ステップS309)を行う。
上記LR文法パーザにおいては、予め設定した文法定義情報2094に基づいて構文解析が行われる。図8に、本実施形態において設定する文法定義情報2094の例を示す。なお、図8に示す文法定義情報2094においては、BNF表記によって文法情報を定義している。
テキスト文解析処理(図3、ステップS309)において、テキスト文データが所定の種類の文要素データに分割されると、さらにCPU203は係り受け抽象化モデル抽出処理(ステップS313)を行う。
例えば、数値情報データの属する文要素データ「32776百万円となった(述部)」は述部であると判定されるので、図9に示すテキスト文データ905から「営業利益は(主格句)」に基づいて係り受け情報データが抽出される。すなわち、図7に示したテキスト文データ703を参照して「営業利益(名詞)」が係り受け情報データとして抽出される。
例えば、テキスト文データとして「1603年には徳川家康が征夷大将軍に任じられた。」が入力された場合を考える。
数値情報データが含まれる文要素データが従属句である場合、CPU203は当該文要素データが修飾形態が連体修飾であるか否かを判定する(ステップS607)。すなわち、後続する文要素データに体言が含まれているか否かを判定する。
係り受け抽象化モデル抽出処理を終えるとCPU203は、抽象化モデルデータを抽象化モデルDB2097に記録する(図3、ステップS315)。例えば、図7に示したテキスト文データ「営業利益は、前年度と同水準の32776百万円となった。」が入力された場合、抽象化モデルDB2097に、数値情報データ「32776百万円」、係り受け情報データ「営業利益」が記録される。
上記実施形態においては、入力されるテキスト文データが単文であることを前提として説明した。本実施形態においては、特に、テキスト文データが2つの文を含む複文または重文である場合について説明する。
図10に、本実施形態にかかる抽象化モデル生成装置の機能ブロック図を示す。この図において、本発明にかかる抽象化モデル生成装置は、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、抽出対象文決定手段106、係り受け情報抽出手段107、抽象化モデル出力手段109を備えている。
ハードウェア構成については、第1の実施形態と同様である。
情報抽出プログラム2091に基づく処理について、図11のフローチャートを用いて説明する。以下では、テキスト文データ「今月の食費は、父が7000円のワインを買ったため、45400円になった。」を含むテキスト文を切出手段101に入力した場合を例として説明する。
例えば、本実施形態において、数値単位マスタには「円」が単位文字として記録されており、CPU203は、図4に示す数値情報データ抽出処理により、「7000円」、「45400円」をそれぞれ数値情報データとして抽出する。
数値情報データ抽出処理(図11、ステップS305)において、数値情報データが抽出されれば(ステップS307、YES)、CPU203はテキスト文解析処理(ステップS309)を行う。第1の実施形態に示したように、図5に示すテキスト文解析処理のフローチャートにしたがって、CPU203は上記テキスト文データを所定の文要素データに分割する。
テキスト文解析処理を終えるとCPU203は、抽出対象文決定処理を行う(ステップS310)。図12に、抽出対象文決定処理におけるフローチャートを示す。
抽出対象文決定処理(図11、ステップS310)において、入力されたテキスト文データが所定の種類の文要素データに分割され単文に分割されると、さらにCPU203は係り受け抽象化モデル抽出処理(ステップS313)を行う。なお、係り受け抽象化モデル抽出処理については、第1の実施形態において示した図6のフローチャートと同様である。
以上説明したように、この発明によれば、テキスト文データが単文、複文、重文のいずれの場合であっても、数値情報データと係り受け関係にある名詞または文を正確に抽出することができる。
上記の実施形態においては、入力されたテキスト文データを文要素データに分割し、数値情報データの属する文要素データの種類に基づいて、数値情報データおよび当該数値情報データと係り受け関係にある係り受け情報データのみを抽出するように構成した。
図15に、本実施形態にかかる抽象化モデル生成装置の機能ブロック図を示す。この図において、本発明にかかる抽象化モデル生成装置は、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、抽出対象文決定手段106、係り受け情報抽出手段107、付加情報抽出手段108、抽象化モデル出力手段109を備えている。
ハードウェア構成については、第1の実施形態と同様である。
情報抽出プログラム2091に基づく処理について、図16のフローチャートを用いて説明する。以下では、第1の実施形態と同様に、テキスト文データ「営業利益は、前年度と同水準の32776百万円となった。」を含むテキスト文を切出手段101に入力した場合を例として説明する。
係り受け抽象化モデル抽出処理を終えると、CPU203は、付加抽象化モデル抽出処理を行う(ステップS331)。図17に、付加抽象化モデル抽出処理におけるフローチャートを示す。
以上説明したように、この発明によれば、テキスト文データの主情報である数値情報データ・係り受け情報データに加えて、当該主情報にかかる付加情報を抽出することができる。
上記実施形態においては、数値情報データ抽出処理を行った後に分割処理を行うように構成したが、テキスト文解析処理中に数値情報データ抽出処理を行うように構成してもよい。具体的には、テキスト文解析処理においてテキスト文データを文要素データに分割した後に、各文要素データについて数値情報データが含まれるか否かを判断させ、含まれていればテキスト文データの構文解析を行うように構成すればよい。
上記第1の実施形態の抽象化モデル生成装置を利用して、数値情報データが含まれるテキスト文などの抽象化処理要素にリンクを設定する装置について、以下に図19〜図25を用いて説明する。
図19に、本実施形態にかかるリンク設定装置の機能ブロック図を示す。この図において、本発明にかかるリンク設定装置は、文書データ入力手段1201、要素分割手段1203、抽象化モデルデータ抽出手段1204、抽象化モデル記録手段1211、抽象化モデル選択手段1213、リンク設定手段1215を備えている。なお、抽象化モデルデータ抽出手段1204は、表現形式判別手段1205、抽象化モデル生成手段(テキスト文)1207、抽象化モデル生成手段(テーブル)1209を備える。
図19に示すリンク設定装置をCPUを用いて実現したハードウェア構成の一例を、図20に示す。図20に示すリンク設定装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
図21に示すフローチャートを用いて、数値情報データが含まれるテキスト文などから抽象化モデルデータを生成し、リンクを設定するまでの処理について説明する。なお、以下の処理は、XML形式のファイル(XMLファイル)中のテキスト文やテーブルなどについてリンクを設定する場合の例である。
上記実施形態においては、数値情報データに基づいて生成した抽象化モデルデータをリンクを設定するために利用したが、文書検索装置において利用するようにしてもよい。上記第1の実施形態の抽象化モデル生成装置を利用して、数値情報データが含まれるテキスト文などの要素について文書ファイルの検索を行う装置について、以下に図26、図28を用いて説明する。なお、本実施形態では、文書データにテキスト文のみが含まれる場合について説明する。
図26に、本実施形態にかかる文書検索装置の機能ブロック図を示す。この図において、本発明にかかる文献検索装置は、検索要素入力手段2501、抽象化モデルデータ抽出手段(テーブル)2503、抽象化モデル保持手段2505、抽象化モデル記録手段2507、抽象化モデル比較手段2509、検索結果出力手段2511を備えている。なお、抽象化モデル記録手段2507には、文書データ全体中の抽象化処理要素について、予め生成された各抽象化モデルデータが記録されている。
図26に示す文書検索装置をCPUを用いて実現したハードウェア構成の一例を、図27に示す。図27に示す文書検索装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
図28に示すフローチャートを用いて、文書データから生成した抽象化モデルデータを利用してファイル検索を行う処理について説明する。なお、説明を簡単にするため、以下の例で検索対象となるXML形式のファイル(XMLファイル)には、テキスト文だけが含まれているものとするが、テーブルなどが含まれる場合でも実施できる。
また、前述の数値情報データに基づいて生成した抽象化モデルデータを、文書編集プログラムにおける検証装置として利用するようにしてもよい。上記第1の実施形態の抽象化モデル生成装置を利用して、数値情報データが含まれるテキスト文などの要素について文書の検証を行う装置について、以下に図29、図31を用いて説明する。なお、本実施形態では、文書データにテキスト文のみが含まれる場合について説明する。
図29に、本実施形態にかかる文書入力検証装置の機能ブロック図を示す。この図において、本発明にかかる文書入力検証装置は、検証要素入力手段2701、要素抽出手段2702、抽象化モデル生成手段(テキスト文)2703、抽象化モデル保持手段2705、抽象化モデル記録手段2707、抽象化モデル判別手段2709、入力エラー出力手段2711を備えている。なお、抽象化モデル記録手段2707には、常に、文書編集装置に入力される文書データについて抽象化モデルデータが生成され蓄積されている。
図29に示す文書入力検証装置をCPUを用いて実現したハードウェア構成の一例を、図30に示す。図30に示す文書入力検証装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
図31に示すフローチャートを用いて、文書の編集中に数値情報データを誤って入力した場合に、入力エラーを出力する処理について説明する。なお、説明を簡単にするため、以下の例で検証対象となるXML形式のファイル(XMLファイル)には、テキスト文だけが含まれているものとするが、テーブルなどが含まれる場合でも実施できる。
なお、上記実施形態においては、文書ファイル含まれるテキスト文の言語が複数あるような場合でも、その言語にあった処理方法で抽象化モデルデータを生成し、係り受け情報を辞書などを用いて翻訳すれば、抽象化モデルデータの言語を統一することが可能である。
103・・・・数値情報データ抽出手段
105・・・・テキスト文分割手段
106・・・・抽出対象文決定手段
107・・・・係り受け情報抽出手段
108・・・・付加情報抽出手段
109・・・・抽象化モデル出力手段
Claims (16)
- 文書データ中の関連する文要素データを含む対象データ間にリンクを設定するリンク設定装置であって、
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデル記録手段と、
記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデル選択手段、
前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定手段、
を備えたことを特徴とするリンク設定装置。 - 文書データ中の関連する文要素データを含む対象データ間にリンクを設定するリンク設定装置をコンピュータを用いて実現するためのプログラムであって、コンピュータに以下の手段を構成させることを特徴とするプログラム:
A)与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段、
B)記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段、
C)数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデル記録手段、
D)記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデル選択手段、
E)前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定手段。 - 請求項1または請求項2の何れかのリンク設定装置またはリンク設定プログラムにおいて、
前記リンク設定手段が、リンク先の対象データがテキスト文である場合に、当該リンク先のテキスト文から付加情報だけを抽出するようにリンクを設定する、ことを特徴とするもの。 - 検索要素である対象データに基づいて文書データを検索する文書検索装置であって、
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデル比較手段、
前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示手段、
を備えたことを特徴とする文書検索装置。 - 検索要素である対象データに基づいて文書データを検索する文書検索装置をコンピュータを用いて実現するためのプログラムであって、コンピュータに以下の手段を構成させることを特徴とするプログラム:
A)与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段、
B)記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段、
C)数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
D)文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデル比較手段、
E)前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示手段。 - 請求項4または請求項5の何れかの文書検索装置または文書検索プログラムにおいて、
前記抽象化モデル記録手段には、予め検索対象となる文書データ全体について、検索前に抽象化モデルデータ生成されて記録されていることを特徴とするもの。 - 検証要素の対象データに基づいて文書編集装置から入力される文書データを検証する文書入力検証装置であって、
文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデル判別手段、
前記抽象化モデル判別手段から取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力手段、
を備えたことを特徴とする文書入力検証装置。 - 検証要素の対象データに基づいて文書編集装置から入力される文書データを検証する文書入力検証装置をコンピュータを用いて実現するためのプログラムであって、コンピュータに以下の手段を構成させることを特徴とするプログラム:
A)文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段、
B)記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段、
C)数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
D)文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデル判別手段、
E)前記抽象化モデル判別手段から取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力手段。 - 請求項7または請求項8の文書入力検証装置において、
抽象化モデル記録手段の抽象化モデルデータは、検証要素入力手段からの入力に基づいて随時生成され、常に更新されていることを特徴とするもの。 - 請求項1〜9の何れかの装置またはプログラムにおいて、前記文書データには、テキスト文データ以外の他の処理対象要素が含まれており、さらに、
抽象化モデルデータを抽出する前に、前記処理対象要素の表現形式を判断する表現形式判別手段、
対象データの表現形式がテキスト文である場合には、前記処理対象要素から、数値情報データと係り受け関係にある文要素を抽象化モデルデータとして、その位置情報データと共に抽出する抽象化モデル生成手段、
対象データの表現形式が他の要素である場合には、所定の規則に基づいて抽象化モデルデータを生成し、これらを位置情報データと共に抽象化モデル記録手段に与える抽象化モデル生成手段、
を備えたことを特徴とするもの。 - 請求項10の装置またはプログラムにおいて、前記他の対象データが、テーブルデータまたはイメージデータであることを特徴とするもの。
- 請求項1〜11の何れかの装置またはプログラムにおいて、前記文書データはXML形式で記述されており、ファイル内容に含まれる各タグには、表現形式の属性が予め付されていることを特徴とするもの。
- 請求項1〜12の何れかの装置またはプログラムにおいて、さらに、
前記文書データに含まれるテキスト文の言語が複数ある場合に、翻訳辞書を参照することにより、抽象化モデルデータを同じ言語に統一する抽象化モデル翻訳手段を備えた、ことを特徴とするもの - 文書データ中の関連する文要素データを含む対象データ間にリンクを設定するリンク設定方法であって、
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析ステップと、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出ステップと、
数値情報抽出ステップにおいて抽出した数値情報データ、係り受け情報抽出ステップにおいて抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデルデータ記録ステップと、
記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデルデータ選択ステップ、
前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定ステップ、
を備えたことを特徴とするリンク設定方法。 - 検索要素である対象データに基づいて文書データを検索する文書検索方法であって、
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析ステップと、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出ステップと、
数値情報抽出ステップにおいて抽出した数値情報データ、係り受け情報抽出ステップにおいて抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデルデータ保持ステップ、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデルデータ保持ステップで保持した抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデルデータ比較ステップ、
前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示ステップ、
を備えたことを特徴とする文書検索方法。 - 検証要素の対象データに基づいて文書編集装置から入力される文書データを検証する文書入力検証方法であって、
文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析ステップと、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出ステップと、
数値情報抽出ステップにおいて抽出した数値情報データ、係り受け情報抽出ステップにおいて抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデルデータ保持ステップ、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデルデータ保持ステップで保持した抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデルデータ判別ステップ、
前記抽象化モデルデータ判別ステップで取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力ステップ、
を備えたことを特徴とする文書入力検証方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003397196A JP4397221B2 (ja) | 2003-11-27 | 2003-11-27 | テキスト文から抽出した情報を利用したリンク設定装置およびその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003397196A JP4397221B2 (ja) | 2003-11-27 | 2003-11-27 | テキスト文から抽出した情報を利用したリンク設定装置およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005157853A true JP2005157853A (ja) | 2005-06-16 |
JP4397221B2 JP4397221B2 (ja) | 2010-01-13 |
Family
ID=34722411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003397196A Expired - Fee Related JP4397221B2 (ja) | 2003-11-27 | 2003-11-27 | テキスト文から抽出した情報を利用したリンク設定装置およびその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4397221B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2153350A1 (en) * | 2007-05-24 | 2010-02-17 | Palo Alto Research Center Incorporated | Dynamic domain abstraction through meta-analysis |
CN115238217A (zh) * | 2022-09-23 | 2022-10-25 | 山东省齐鲁大数据研究院 | 一种公告文本中抽取数值信息的方法及终端机 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329165A (ja) * | 1995-05-31 | 1996-12-13 | Toshiba Corp | テキスト抽出処理装置及びテキスト抽出処理方法 |
JP2000020521A (ja) * | 1998-07-06 | 2000-01-21 | Just Syst Corp | 文書解析装置およびその方法 |
-
2003
- 2003-11-27 JP JP2003397196A patent/JP4397221B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329165A (ja) * | 1995-05-31 | 1996-12-13 | Toshiba Corp | テキスト抽出処理装置及びテキスト抽出処理方法 |
JP2000020521A (ja) * | 1998-07-06 | 2000-01-21 | Just Syst Corp | 文書解析装置およびその方法 |
Non-Patent Citations (1)
Title |
---|
藤畑 勝之,外: "係り受けの制約と優先規則に基づく数量表現抽出", 情報処理学会研究報告, vol. 2001, no. 86, JPN6009047988, 11 September 2001 (2001-09-11), JP, pages 119 - 125, ISSN: 0001420689 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2153350A1 (en) * | 2007-05-24 | 2010-02-17 | Palo Alto Research Center Incorporated | Dynamic domain abstraction through meta-analysis |
EP2153350A4 (en) * | 2007-05-24 | 2014-06-25 | Palo Alto Res Ct Inc | DYNAMIC DOMAIN ABSTRACTION BY METAANALYSIS |
CN115238217A (zh) * | 2022-09-23 | 2022-10-25 | 山东省齐鲁大数据研究院 | 一种公告文本中抽取数值信息的方法及终端机 |
Also Published As
Publication number | Publication date |
---|---|
JP4397221B2 (ja) | 2010-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102158352B1 (ko) | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 | |
McEnery et al. | Corpus linguistics: Method, theory and practice | |
Rayson | Matrix: A statistical method and software tool for linguistic analysis through corpus comparison | |
US7788084B2 (en) | Labeling of work of art titles in text for natural language processing | |
JP2007287134A (ja) | 情報抽出装置、及び情報抽出方法 | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
JPH0293866A (ja) | 要約生成方法および要約生成装置 | |
WO2007105202A2 (en) | Automatic reusable definitions identification (rdi) method | |
Gruszczyński et al. | The electronic corpus of 17th-and 18th-century polish texts | |
Kazman | Structuring the text of the Oxford English Dictionary through finite state transduction | |
US20020129066A1 (en) | Computer implemented method for reformatting logically complex clauses in an electronic text-based document | |
JP4397221B2 (ja) | テキスト文から抽出した情報を利用したリンク設定装置およびその方法 | |
KR102390009B1 (ko) | Ai기반 구문분석 연구노트 생성 시스템 | |
JP4458517B2 (ja) | 情報抽出装置およびその方法 | |
KR101052004B1 (ko) | 번역서비스 제공방법 및 그 시스템 | |
JP2000250908A (ja) | 電子書籍の作成支援装置 | |
Rosén et al. | The enrichment of lexical resources through incremental parsebanking | |
JP2006119697A (ja) | 質問応答システム、質疑応答方法および質疑応答プログラム | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
JP2002197097A (ja) | 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体 | |
JP2004334382A (ja) | 構造化文書要約装置、プログラムおよび記録媒体 | |
Muniz et al. | Taming the Tiger Topic: An XCES Compliant Corpus Portal to Generate Subcorpora Based on Automatic Text-Topic Identification | |
Petrovčič et al. | The New Chinese Corpus of Literary Texts Litchi | |
JP2019200488A (ja) | 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム | |
Rundell et al. | Technology and English Dictionaries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050331 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090924 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091020 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121030 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |