JP2005157853A - テキスト文から抽出した情報を利用したリンク設定装置およびその方法 - Google Patents

テキスト文から抽出した情報を利用したリンク設定装置およびその方法 Download PDF

Info

Publication number
JP2005157853A
JP2005157853A JP2003397196A JP2003397196A JP2005157853A JP 2005157853 A JP2005157853 A JP 2005157853A JP 2003397196 A JP2003397196 A JP 2003397196A JP 2003397196 A JP2003397196 A JP 2003397196A JP 2005157853 A JP2005157853 A JP 2005157853A
Authority
JP
Japan
Prior art keywords
data
sentence
text
document
numerical information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003397196A
Other languages
English (en)
Other versions
JP4397221B2 (ja
Inventor
Toru Mochida
徹 持田
Takahiro Miura
高広 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems and Services Ltd
Original Assignee
Hitachi Systems and Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems and Services Ltd filed Critical Hitachi Systems and Services Ltd
Priority to JP2003397196A priority Critical patent/JP4397221B2/ja
Publication of JP2005157853A publication Critical patent/JP2005157853A/ja
Application granted granted Critical
Publication of JP4397221B2 publication Critical patent/JP4397221B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】数値情報およびその係り受け情報により生成した抽象化モデルを用いて、対象データ間にリンクを設定する装置等を提供する。
【解決手段】抽象化モデル生成手段(テキスト文)1207は、入力されたテキスト文から数値情報データと係り受け関係にある他の文要素を抽出し、抽象化モデル記録手段1211は、これらを位置情報データと共に抽象化モデルデータとして記録する。抽象化モデル選択手段1213は、当該抽象化モデル記録手段1211を検索して、同じ抽象化モデルデータを全て選択し各位置情報データをリンク設定手段1215に提供する。リンク設定手段1215は、当該位置情報データに基づいて、抽象化モデルデータが同じ抽象化処理要素に対してリンクを設定する。
【選択図】図19

Description

この発明は、文書中の数値情報データおよびその係り受け情報により生成した抽象化モデルデータを用いて、情報処理装置において効率的な処理を行うための装置およびその方法に関する。
電子文書において、閲覧者が文書内容を容易に理解するために、文書内に関連する記載がある場合にこれらを相互に関連付ける機能(いわゆる、リンク機能)が、一般的に利用されている。例えば、文書を閲覧していて意味が分からない単語があるような場合でも、その単語に関する説明文にリンクが設定されていれば、マウスでクリックなどすることによって説明文を容易に参照することができる。
このようなリンクを人間が設定するのは煩雑であるため、コンピュータにマッチング処理を行わせてリンク設定する技術が存在する。従来技術では、電子文書中のテキスト文を形態素解析して抽出したキーワードを索引文字列とマッチングすることによって、リンクを機械的に設定するようにしていた(例えば、特許文献1および特許文献2)。
特開平3−95673号
特開平7−325827号
しかし、このような従来のリンク設定装置は、何れも数値情報データ(例えば、100、百など)にハイパーリンクを設定することを目的とするものではなかった。数詞は、それ自体で特定の意味内容を有していないため、マッチングによりリンクを設定するのには適さないためである。このような、テキスト文をマッチングするだけでは所望の数値情報データだけを抽出することができないという課題は、キーワード検索においても共通に存在していた。
この発明は、上記問題を解決すべく、数値情報データおよびその係り受け情報から抽象化したモデルを生成し、情報処理装置に有効な情報として提供することを目的とする。
(1、2、14)この発明のリンク設定装置は、
文書データ中の関連する文要素データを含む対象データ間にリンクを設定するリンク設定装置であって、
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデル記録手段と、
記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデル選択手段、
前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定手段、
を備えたことを特徴とする。
これにより、単なるマッチングだけではリンクを設定できない数値情報データについても正確にリンクを設定することができる。
(3)この発明のリンク設定装置は、前記リンク設定手段が、リンク先の対象データがテキスト文である場合に、当該リンク先のテキスト文から付加情報だけを抽出するようにリンクを設定する、ことを特徴とする。
これにより、リンク先で自明な情報を省略することにより周辺情報(付加情報)を効果的に表示することができる。
(4、5、15)この発明の文書検索装置は、
検索要素である対象データに基づいて文書データを検索する文書検索装置であって、
与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデル比較手段、
前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示手段、
を備えたことを特徴とする。
これにより、単なるマッチング検索だけでは検索ができない数値情報データに対しても所望の検索処理を行うことができる。
(6)この発明の文書検索装置は、前記抽象化モデル記録手段には、予め検索対象となる文書データ全体について、検索前に抽象化モデルデータ生成されて記録されていることを特徴とする。
これにより、文書データの検索処理を効率的に行うことができる。
(7、8、16)この発明のこの発明の文書入力検証装置は、
検証要素の対象データに基づいて文書編集装置から入力される文書データを検証する文書入力検証装置であって、
文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデル判別手段、
前記抽象化モデル判別手段から取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力手段、
を備えたことを特徴とする。
これにより、誤入力の生じやすい数値情報データに対して容易にチェックを行うことができる。
(9)この発明の文書検索装置は、抽象化モデル記録手段の抽象化モデルデータが、検証要素入力手段からの入力に基づいて随時生成され、常に更新されていることを特徴とする。
これにより、文書入力の検証処理を効率的に行うことができる。
(10)この発明の各装置は、
前記文書データには、テキスト文データ以外の他の処理対象要素が含まれており、さらに、
抽象化モデルデータを抽出する前に、前記処理対象要素の表現形式を判断する表現形式判別手段、
対象データの表現形式がテキスト文である場合には、前記処理対象要素から、数値情報データと係り受け関係にある文要素を抽象化モデルデータとして、その位置情報データと共に抽出する抽象化モデル生成手段、
対象データの表現形式が他の要素である場合には、所定の規則に基づいて抽象化モデルデータを生成し、これらを位置情報データと共に抽象化モデル記録手段に与える抽象化モデル生成手段、
を備えたことを特徴とする。
これにより、抽象化モデルデータをテキスト文以外の要素から生成することが可能となる。
(11)この発明の各装置は、前記他の対象データが、テーブルデータまたはイメージデータであることを特徴とする。
これにより、抽象化モデルデータをテーブルやイメージから生成することが可能となる。
(12)この発明の各装置は、前記文書データはXML形式で記述されており、ファイル内容に含まれる各タグには、表現形式の属性が予め付されていることを特徴とする。
これにより、表現形式の判断や抽象化処理要素の特定が容易になる。
(13)この発明の各装置は、さらに、
前記文書データに含まれるテキスト文の言語が複数ある場合に、翻訳辞書を参照することにより、抽象化モデルデータを同じ言語に統一する抽象化モデル翻訳手段を備えた、ことを特徴とする。
これにより、複数の言語が含まれる場合でも、抽象化モデルデータを生成して利用することができる。
なお、本明細書における「抽象化処理要素(対象データ)」とは、文書データを数値情報データを含むテキスト文、テーブル、イメージなどの表現形式で分割した、各装置による抽象化処理の対象となるデータをいう。
なお、本明細書における「抽象化モデルデータ」とは、テキスト文などから抽出される数値情報データと係り受け情報を関連づけたデータをいう。
1.第1の実施形態[抽象化モデル生成装置]
まず、抽象化モデルデータを生成するために数値情報データと係り受け情報を抽出する原理および抽象化モデルデータを生成するまでの処理について、図1〜図18を用いて以下に説明する。
1−1−1.機能ブロック図
図1に、本実施形態にかかる抽象化モデル生成装置の機能ブロック図を示す。この図において、本発明にかかる抽象化モデル生成装置は、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、係り受け情報抽出手段107、抽象化モデル出力手段109を備えている。
切出手段101は、入力した文書からテキスト文データを一文ずつ切り出して記録部に記録する。例えば、テキスト文中に出現する句点「。」をデリミタとして、テキスト文データを切り出す処理を行う。
数値情報データ抽出手段103は、記録部から読み出したテキスト文データを、先頭から順に参照して所定の数値情報データが含まれているか否かを判断する。所定の数値情報データが含まれている場合には、数値情報データを抽出するとともに、前記テキスト文をテキスト文解析手段に与える。
テキスト文解析手段105は、記録部から読み出したテキスト文データを形態素解析した後、各形態素を所定の文法定義情報に基づいて解析し、テキスト文データを所定の文要素データに分割する。
係り受け情報抽出手段107は、抽出された数値情報データが含まれる文要素データに基づいて、文要素データに分割されたテキスト文データから当該数値情報データと係り受け関係にある他の文要素データを抽出する。
抽象化モデル出力手段109は、数値情報データ抽出手段103において抽出された数値情報データと係り受け情報抽出手段107において抽出された係り受け情報データとを関連付けて抽象化モデルデータとして出力する。例えば、ディスプレイやデータベース等に出力する。
1−1−2.ハードウェア構成
図1に示す抽象化モデル生成装置をCPUを用いて実現したハードウェア構成の一例を図2に示す。抽象化モデル生成装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
ハードディスク209には、本発明にかかる抽象化モデル抽出処理を行うための情報抽出プログラム2091、形態素解析処理を行うための形態素解析辞書2093、構文解析処理を行うための文法定義情報2094、所定の数値情報データを抽出するための数値単位マスタ2095、抽象化モデル抽出処理による抽象化モデルデータを記録する抽象化モデルDB2097等が記録されており、これらはCD−ROMドライブ211を介してCD−ROM212に記録されたデータを読み出してインストールしたものである。
なお、上記インストールは、通信回路215を用いてインターネット216等からダウンロードしたデータを使用して行うようにしてもよい。
1−1−3.フローチャート
情報抽出プログラム2091に基づく処理について、図3〜6のフローチャートを用いて説明する。以下では、テキスト文「営業利益は前年度と同水準の32776百万円となった。」を含むテキスト文を切出手段101に入力した場合を例として説明する。
図3に示す抽象化モデル抽出処理のフローチャートにおいて、CPU203は、テキスト文を読み込みメモリ205に入力する(ステップS301)。
入力したテキスト文の先頭からテキスト文データを一文切り出す(ステップS303)。なお、本実施形態においては句点「。」をテキスト文のデリミタとする。例えば、前記テキスト文データが読み込まれた場合、先頭の文である「営業利益は前年度と同水準の32776百万円となった。」が切り出される。
CPU203は、切り出したテキスト文データに基づいて、数値情報データ抽出処理を行う(ステップS305)。
1−1−3−1.数値情報データ抽出処理
図4に示す数値情報データ抽出処理のフローチャートにおいて、CPU203は数値単位マスタ2095に基づいて数値情報データの単位文字を抽出する(ステップS401)。例えば、本実施形態において、数値単位マスタには「百万円」、「億円」等の金額に関する単位文字が記録されている。
特に、数値単位マスタは、数値情報データを抽出するテキスト文の内容に応じて設定すればよい。例えば、有価証券報告書や財務諸表の場合は金額に関する単位文字である「円」、「億円」、「百万円」、「千円」等を設定し、歴史年表や新聞記事などの場合は日付に関する単位文字である「年」、「月」、「日」等を設定すればよい。これにより、文書の内容に応じて、必要な情報だけを取り出すことができる。
なお、上記の数値単位マスタを使わない場合は、情報抽出プログラム2091中に数値情報データにかかる所定の単位文字を設定しておけばよい。
CPU203は、テキスト文データの先頭から、抽出した単位文字が存在するか否かを検索する(ステップS403)。例えば、テキスト文「営業利益は、前年度と同水準の32776百万円となった。」の先頭から、単位文字「百万円」または「億円」が存在するか否かを検索する。
テキスト文データの中に、所定の単位文字が存在すれば(ステップS405、YES)、当該単位文字の前方に連続する数字を数値情報データの構成要素として抽出する(ステップS407)。この場合、複数の数字が連続していれば、先頭方向から連続する数字をすべて連結した数字の文字列を数値情報データの構成要素として抽出する。なお、カンマ「,」や小数点「.」などの記号が連続していても、そこで区切ることなく一体として文字列が連結され、抽出される。さらに、CPU203は、抽出した数値情報データの構成要素と前記単位文字とを連結して数値情報データとする。
例えば、上記テキスト文データの場合、「32776」が数値情報データの構成要素として抽出され、単位文字「百万円」と連結して、「32776百万円」が数値情報データとして抽出され、メモリ205またはハードディスク209の所定領域に記録される。
CPU203は、テキスト文データの中に、他に単位文字が存在すれば(ステップS409、NO)、ステップS407を繰り返す。他に単位文字が存在しなければ、当該処理を終了する(ステップS409、YES)。また、ステップS405において、単位文字が存在しない場合にも、当該処理を終了する(ステップS405、NO)。
1−1−3−2.テキスト文解析処理
数値情報データ抽出処理(図3、ステップS305)において、数値情報データが抽出されれば(ステップS307、YES)、CPU203はテキスト文解析処理(ステップS309)を行う。
図5に示すテキスト文解析処理のフローチャートにおいて、CPU203は形態素解析辞書2093に基づいてテキスト文データを形態素解析する処理を行う(ステップS501)。例えば、形態素解析処理には、奈良先端科学技術大学院大学松本研究室の「茶筌」等を使用すればよい。
図7、図7aおよび図7bにテキスト文データ「営業利益は、前年度と同水準の32776百万円となった。」701に対して抽象化モデル抽出処理を行う場合の例を示す。
CPU203は、上記ステップS501の形態素解析処理によって、上記テキスト文データ701(図7)を、意味を有する最小の言語単位である形態素に分割する。
例えば、図7において、上記テキスト文データ701は、703に示すように「営業利益(名詞)/は(助詞)/前年度(名詞)/と(助詞)/同水準(名詞)/の(助詞)/32776百万円(名詞)/と(助詞)/なった(動詞)/。(文末)」のように形態素解析される。なお、上記および図7に示すテキスト文データ703においては、説明上テキスト文データを形態素ごとに「/」を挿入して表示しているが、実際には、図7aのAに示すように、形態素解析データとして、メモリ205またはハードディスク209の所定領域に記録される。
CPU203は文法定義情報2094に基づいて、上記において形態素解析したテキスト文データを構文解析する処理を行う(ステップS503)。例えば、構文解析処理には、上昇型構文解析のLR文法パーザであるYACC等を使用すればよい。なお、パーザとは、構文解析プログラムを指し、入力文字列を解析して構文解析木などを作成するプログラムである。
上記LR文法パーザにおいては、予め設定した文法定義情報2094に基づいて構文解析が行われる。図8に、本実施形態において設定する文法定義情報2094の例を示す。なお、図8に示す文法定義情報2094においては、BNF表記によって文法情報を定義している。
CPU203は、上記ステップS503によって、形態素解析したテキスト文データを、LR文法パーザであるYACCに入力して構文解析を行う。例えば、上記YACCと文法定義情報2094を用いて、図7に示したテキスト文データ701を構文解析すると、705に示すようになる。
705においては、文法定義情報2094に基づいて、レベル1〜8のように段階的に構文解析が行われる。これにより、各レベルにおいてテキスト文データ全体を所定の文要素データに分割することができる。例えば、レベル2においては、テキスト文データ701を「営業利益は(従属句)/前年度と(従属句)/同水準の(従属句)/32776百万円(従属句)と/なった(動詞句)」の各文要素データに分割することができる。
図7aのB〜Dおよび図7bのE〜Iに示すように、CPU203は、構文解析したデータを各レベル毎にメモリ205またはハードディスク209の所定領域に記録する。
CPU203は、構文解析したテキスト文データから「〜句」レベルの文要素データに分割されたテキスト文データを取得する(ステップS505)。
例えば、図7におけるテキスト文データ705のレベル2に分割されたテキスト文データ707、具体的には、図7aのCに示した構文解析データ(レベル2)を取得する。
CPU203は、取得した構文解析データ(レベル2)に基づいて、主格句を決定する処理を行う(ステップS507)。ここで、主格句とは、主語を含む文要素データであり、文要素データの末尾の助詞によって主格句か否かの判定を行う。例えば、文要素データの末尾が「〜は」、「〜が」、「〜も」のいずれかである場合、当該文要素データは主格句であると判定する。
図9に主格句を決定する場合の例を示す。図9に示すテキスト文データ901において、文要素データ「営業利益は(従属句)」の末尾の助詞は、図7の形態素解析直後のテキスト文データ703より、「は」である。これにより、当該文要素データ「営業利益は(従属句)」の末尾が上記「〜は」に該当し、主格句であると決定することができる。
なお、ここで主格句と決定される従属句の前に連体修飾の従属句が存在する場合には、それらを含めた従属句列を主格句と判断してもよく、また、かかる連体修飾の従属句を主格句に含めなくてもよい。例えば、「当連結会計年度の(従属句)」が「営業利益(従属句)」の前にある場合、「当連結会計年度の営業利益」(従属句列)が主格句であると判断するようにしてもよいし、「営業利益(従属句)」だけを主格句であると判断するようにしてもよい。
CPU203は、取得したテキスト文データ707において、述部を決定する処理を行う(ステップS509)。ここで、述部とは、述語を含む文要素データである。CPU203は、文要素データの末尾の品詞によって述部か否かの判定を行う。
例えば、文要素データの末尾の品詞が「名詞」、「形容詞」、「動詞」のいずれかである場合、当該文要素データは述部または述部の構成要素であると判定する。特に、「動詞」であっても意味の独立性の低い(非自立である)「補助動詞」および上記「名詞」、「形容詞」の場合は、直前の文要素データと連結して述部を構成するものとする。
本実施形態においては、文要素データの末尾が「〜である」、「〜となる」、「〜であった」、「〜となった」のいずれかである場合、当該分要素の末尾の品詞は「補助動詞」であると判定している。なお、文要素データの末尾の品詞が、「補助動詞」であるか否かの判定を形態素解析に基づいて行うようにしてもよい。この場合、形態素解析で動詞を本動詞(自立)か補助動詞(非自立)かの解析を行うようにすればよい。
図9に、述部を決定する場合の例を示す。図9に示すテキスト文データ903において、文要素データ「なった(動詞句)」は、図7の形態素解析の結果により「動詞」である。これにより、当該文要素データ「なった(動詞句)」は、述部または述部の構成要素であると決定することができる。さらに、当該文要素データ「なった(動詞句)」は、「補助動詞」に分類されるため、直前の文要素データと連結されて述部を構成するものとされる。
これにより、当該文要素データ「なった(動詞句)」と直前の文要素データ「32776百万円と(従属句)」を連結して「32776百万円となった」が述部と決定される。
すなわち、図9のテキスト文データ905に示すように、テキスト文データは「営業利益は(主格句)/前年度と(従属句)/同水準の(従属句)/32776百万円となった(述部)」の各文要素データに分割される。なお、実際には、CPU203は、メモリ205またはハードディスク209の所定領域に、図9aに示すような解析結果データ910を記録する。
1−1−3−3.係り受け抽象化モデル抽出処理
テキスト文解析処理(図3、ステップS309)において、テキスト文データが所定の種類の文要素データに分割されると、さらにCPU203は係り受け抽象化モデル抽出処理(ステップS313)を行う。
図6に示すテキスト文解析処理のフローチャートにおいて、CPU203は前記数値情報データの属する文要素データを取得する(ステップS601)。例えば、上記数値情報データ抽出処理において抽出された数値情報データは「32776百万円」であるので、図9に示すテキスト文データ905により当該情報が含まれる文要素データとして、「32776百万円となった(述部)」を取得する。
CPU203は数値情報データが含まれる文要素データが、主格句であると判定すれば(ステップS603、YES)、後述するステップS609に進み、主格句でないと判定すれば(ステップS603、NO)、さらに述部であるか否かの判定を行う(ステップS605)。
CPU203は数値情報データの属する文要素データが述部であると判定すれば(ステップS605、YES)、元のテキスト文データの主格句中の名詞を前記数値情報データの係り受け情報データとして抽出し(ステップS613)、述部でないと判定すれば(ステップS605、NO)、さらに、数値情報データの属する文要素データを従属句であると判断して、当該文要素データが連体修飾であるか否かの判定を行う(ステップS607)。
CPU203は数値情報データが含まれる文要素データが、連体修飾であると判定すれば(ステップS607、YES)、当該文要素データの直後の文要素データ中の名詞を前記数値情報データの係り受け情報データとして抽出し(ステップS615)、連体修飾でないと判定すれば(ステップS607、NO)、数値情報データの属する文要素データ以外の文要素データを前記数値情報データの係り受け情報データとして抽出する(ステップS609)。
以下、数値情報データの属する文要素データが「述部」、「主格句」、「従属句」の場合に分けて説明する。
1−1−3−3−1.「述部」の場合
例えば、数値情報データの属する文要素データ「32776百万円となった(述部)」は述部であると判定されるので、図9に示すテキスト文データ905から「営業利益は(主格句)」に基づいて係り受け情報データが抽出される。すなわち、図7に示したテキスト文データ703を参照して「営業利益(名詞)」が係り受け情報データとして抽出される。
これにより、数値情報データ「32776百万円」、係り受け情報データ「営業利益」が抽象化モデルデータとなる。
1−1−3−3−2.「主格句」の場合
例えば、テキスト文データとして「1603年には徳川家康が征夷大将軍に任じられた。」が入力された場合を考える。
図3に示したステップS301〜S309にしたがって、上記テキスト文データは「1603年には(主格句)/徳川家康が(主格句)/征夷大将軍に(従属句)/任じられた(述部)」の文要素データに分割される。なお、この場合の単位文字には「年」を使用しており、数値情報データとして「1603年」が抽出されているものとする。
この場合、数値情報データの属する文要素データは「1603年には(主格句)」であるので、CPU203は、テキスト文データから「1603年には(主格句)」以外の文要素データを係り受け情報データとして抽出する。すなわち、「徳川家康が(主格句)/征夷大将軍に(従属句)/任じられた(述部)」が係り受け情報データとして抽出される。
これにより、数値情報データ「1603年」、係り受け情報データ「徳川家康が征夷大将軍に任じられた」が抽象化モデルデータとなる。
1−1−3−3−3.「従属句」の場合
数値情報データが含まれる文要素データが従属句である場合、CPU203は当該文要素データが修飾形態が連体修飾であるか否かを判定する(ステップS607)。すなわち、後続する文要素データに体言が含まれているか否かを判定する。
例えば、数値情報データが含まれる文要素データの末尾が「〜の」である場合(ステップS607、YES)、修飾する単語が体言であると判定し、当該文要素データは連体修飾であると判定する。
例えば、テキスト文データとして「私は昨日100円のノートを買った。」が入力された場合を考える。図3に示したステップS301〜S309にしたがって、上記テキスト文データは「私は(主格句)/昨日(従属句)/100円の(従属句)/ノートを(従属句)/買った(述部)」の文要素データに分割される。なお、この場合の単位文字には「円」を使用しており、数値情報データとして「100円」が抽出されているものとする。
この場合、数値情報データの属する文要素データは「100円の(従属句)」であり、文要素データの末尾が「〜の」であるので、CPU203は、当該従属句は連体修飾であると判定する。すなわち、当該従属句が修飾する単語は体言であると判定し、テキスト文データにおける当該文要素データの直後の文要素データの名詞を係り受け情報データとして抽出する。
例えば、直後の文要素データである「ノートを(従属句)」から「ノート(名詞)」が係り受け情報データとして抽出される。
これにより、数値情報データ「100円」、係り受け情報データ「ノート」が抽象化モデルデータとなる。
一方、CPU203が連体修飾でないと判定した場合(ステップS607、NO)、すなわち、修飾する単語が用言であると判定し、数値情報データの属する文要素データ以外の文要素データを係り受け情報データとして抽出する(ステップS609)。
例えば、テキスト文データとして「源頼朝は1192年に鎌倉幕府を開いた。」が入力された場合を考える。
図3に示したステップS301〜S309にしたがって、上記テキスト文データは「源頼朝は(主格句)/1192年に(従属句)/鎌倉幕府を(従属句)/開いた(述部)」の文要素データに分割される。なお、この場合の単位文字には「年」を使用しており、数値情報データとして「1192年」が抽出されているものとする。
この場合、数値情報データの属する文要素データは「1192年に(従属句)」であり、文要素データの末尾が「〜の」以外であるので、CPU203は、当該従属句は連体修飾でないと判定する。すなわち、当該従属句が修飾する単語は用言であると判定し、テキスト文データにおける数値情報データの属する文要素データ以外の文要素データを係り受け情報データとして抽出する。
例えば、文要素データ「1192年(従属句)」以外の文要素データである「源頼朝は(主格句)/鎌倉幕府を(従属句)/開いた(述部)」が係り受け情報データとして抽出される。
これにより、数値情報データ「1192年」、係り受け情報データ「源頼朝は鎌倉幕府を開いた」が抽象化モデルデータとなる。
CPU203は、上記の数値情報データ抽出処理(図4)によって抽出した数値情報データの数だけ上記処理ステップS601〜S609を繰り返し(ステップS611、YES)、他の数値情報データがなければ当該処理を終了する(ステップS611、NO)。
1−1−3−4.まとめ
係り受け抽象化モデル抽出処理を終えるとCPU203は、抽象化モデルデータを抽象化モデルDB2097に記録する(図3、ステップS315)。例えば、図7に示したテキスト文データ「営業利益は、前年度と同水準の32776百万円となった。」が入力された場合、抽象化モデルDB2097に、数値情報データ「32776百万円」、係り受け情報データ「営業利益」が記録される。
なお、本実施形態においては、抽象化モデル生成装置において抽出した抽象化モデルデータを抽象化モデルDB2097に記録するようにしているが、これに限定されることはなく、抽象化モデルデータを他のアプリケーションに引き渡すようにしてもよい。
また、テキスト文データから数値情報データと係り受け情報データを抽出する処理を行うために、他のアプリケーションに組み込んで使用するようにしてもよい。さらに、ユーザに提示するために、抽象化モデルデータを抽象化モデル生成装置のディスプレイ201に表示するようにしてもよい。
CPU203は、テキスト文から切り出されたテキスト文データの数だけ上記処理(図3、ステップS303〜315を繰り返し(ステップS317、NO)、処理対象となるテキスト文データがなくなれば、当該抽象化モデル抽出処理を終了する(ステップS317、YES)。
以上説明したように、この発明によれば、数値情報データに対応する名詞が近傍にない場合であっても、係り受け関係にある名詞を正確に抽出することができる。また、数値情報データに対応する情報として抽出する情報を、特定の名詞に限定することなく、係り受け関係にある名詞または文を正確に抽出することができる。
1−2.第1−1の実施形態
上記実施形態においては、入力されるテキスト文データが単文であることを前提として説明した。本実施形態においては、特に、テキスト文データが2つの文を含む複文または重文である場合について説明する。
なお、複文とは、主語・述語の関係が成り立っている文で、さらにその構成部分に主語・述語の関係がみられるものである。また、重文とは、独立した二つ以上の文が、対等の資格で結合した文である。
1−2−1.機能ブロック図
図10に、本実施形態にかかる抽象化モデル生成装置の機能ブロック図を示す。この図において、本発明にかかる抽象化モデル生成装置は、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、抽出対象文決定手段106、係り受け情報抽出手段107、抽象化モデル出力手段109を備えている。
抽出対象文決定手段106は、テキスト文解析手段によって文要素データに分割されたテキスト文データから数値情報データの抽出対象となる文を決定し、係り受け情報抽出手段107に与える。例えば、複文の場合は、主文と副文に分割した後、各文が抽出対象であるか否かを決定する。
なお、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、係り受け情報抽出手段107、抽象化モデル出力手段109は、第1の実施形態と同様である。
1−2−2.ハードウェア構成
ハードウェア構成については、第1の実施形態と同様である。
1−2−3.フローチャート
情報抽出プログラム2091に基づく処理について、図11のフローチャートを用いて説明する。以下では、テキスト文データ「今月の食費は、父が7000円のワインを買ったため、45400円になった。」を含むテキスト文を切出手段101に入力した場合を例として説明する。
図11に示す抽象化モデル抽出処理のフローチャートにおいて、CPU203が行うステップS301〜S309までの処理は基本的に第1の実施形態と同様である。
例えば、前記テキスト文データが読み込まれた場合、先頭の文である「今月の食費は、父が7000円のワインを買ったため、45400円になった。」がテキスト文データとして切り出される。
CPU203は、切り出したテキスト文データに基づいて、数値情報データ抽出処理を行う(ステップS305)。
1−2−3−1.数値情報データ抽出処理
例えば、本実施形態において、数値単位マスタには「円」が単位文字として記録されており、CPU203は、図4に示す数値情報データ抽出処理により、「7000円」、「45400円」をそれぞれ数値情報データとして抽出する。
1−2−3−2.テキスト文解析処理
数値情報データ抽出処理(図11、ステップS305)において、数値情報データが抽出されれば(ステップS307、YES)、CPU203はテキスト文解析処理(ステップS309)を行う。第1の実施形態に示したように、図5に示すテキスト文解析処理のフローチャートにしたがって、CPU203は上記テキスト文データを所定の文要素データに分割する。
図13に、テキスト文解析処理を行った後のテキスト文データを示す。テキスト文データ1301に示すように、前記テキスト文データは「今月の食費は、(主格句)/父が(主格句)/7000円の(従属句)/ワインを(従属句)/買ったため、(述部)/45400円になった(述部)」の各文要素データに分割される。
1−2−3−3.抽出対象文決定処理
テキスト文解析処理を終えるとCPU203は、抽出対象文決定処理を行う(ステップS310)。図12に、抽出対象文決定処理におけるフローチャートを示す。
CPU203は、構文解析処理されたテキスト文データに基づいて、文の種類を判定する。すなわち、CPU203は、主格句と述部の組合せの個数および並び方に基づいて、入力されたテキスト文データが、複文、重文、単文のいずれであるかを判定する(図12、ステップS1201)。
CPU203は、主格句と述部の組合せが1つであればテキスト文データは単文であると判定する(ステップS1201、単文)。また、主格句と述部の組合せが2つであり、並び方が「主格句−主格句−述部−述部」であればテキスト文データは複文であると判定する(ステップS1201、複文)。さらに、主格句と述部の組合せが2つであり、並び方が「主格句−述部−主格句−述部」であればテキスト文データは重文であると判定する(ステップS1201、重文)。
CPU203は、入力されたテキスト文データが複文であると判定すると、当該テキスト文データを主文と副文に分割する(ステップS1203)。例えば、図13に示すテキスト文データ1301の場合、文の構造が「主格句−主格句−述部−述部」であることにより、複文であると判定され、テキスト文データ1301は、主文としてのテキスト文データ1303「今月の食費は、(主格句)/45400円になった(述部)」および副文としてのテキスト文データ1305「父が(主格句)/7000円の(従属句)/ワインを(従属句)/買ったため(述部)」に分割される。
一方、CPU203は、入力されたテキスト文データが重文であると判定すると、当該テキスト文データを前半文と後半文に分割する(ステップS1205)。例えば、図14に示すテキスト文データ1401の場合、文の構造が「主格句−述部−主格句−述部」であることにより、重文であると判定され、テキスト文データ1401は、前半文としてのテキスト文データ1403「今月の食費は、(主格句)/45400円になった(述部)」および副文としてのテキスト文データ1305「父が(主格句)/7000円の(従属句)/ワインを(従属句)/買ったため(述部)」に分割される。
CPU203は、分割され単文または入力された単文を取得し(ステップS1207)、当該単文に数値情報データが含まれるか否かを判定する(ステップS1209)。
CPU203は、取得した単文に数値情報データが含まれていれば(ステップS1209、YES)、当該単文を抽出対象文として決定し、メモリ205に記憶する(ステップS1211)。なお、数値情報データが含まれていなければ、ステップS1211をスキップする。
CPU203は、他の単文があれば(ステップS1213、YES)、ステップS1207に戻って、次の単文を取得して上記ステップS1209〜S1213と同様の処理を行う。なお、処理対象となる単文がなくなれば、当該処理を終了する(ステップS1213、NO)。
例えば、図13の主文としてのテキスト文データ1303が単文として取得されると、数値情報データ「45400円」が含まれるので、当該テキスト文データ1303を抽出対象文として決定する。さらに、副文としてのテキスト文データ1305が単文として取得されて、数値情報データ「7000円」が含まれることにより、当該テキスト文データ1305を抽出対象文として決定する。なお、図14に示した重文のテキスト文データ1401の場合も上記と同様に処理できる。
1−2−3−4.係り受け抽象化モデル抽出処理
抽出対象文決定処理(図11、ステップS310)において、入力されたテキスト文データが所定の種類の文要素データに分割され単文に分割されると、さらにCPU203は係り受け抽象化モデル抽出処理(ステップS313)を行う。なお、係り受け抽象化モデル抽出処理については、第1の実施形態において示した図6のフローチャートと同様である。
CPU203は、上記の抽出対象文決定処理(図12)によって決定した単文の数だけ上記処理ステップS313〜S315を繰り返し(ステップS316、YES)、他の単文がなければ当該処理を終了する(ステップS316、NO)。
例えば、図13に示すテキスト文データ1303から、数値情報データ「45400円」、係り受け情報データ「食費」が抽出され、抽象化モデルDB2097に記録される。同様に、図13に示すテキスト文データ1305から、数値情報データ「7000円」、係り受け情報データ「ワイン」が抽出され、抽象化モデルDB2097に記録される。
2−3−5.まとめ
以上説明したように、この発明によれば、テキスト文データが単文、複文、重文のいずれの場合であっても、数値情報データと係り受け関係にある名詞または文を正確に抽出することができる。
なお、上記実施形態においては、テキスト文データが主格句と述部の組合せがの2つである複文または重文を前提として説明したが、2つ以上の組合せであってもよい。この場合、主格句と述部の並び方を予めパターン化しておき、いずれのパターンに属するかに基づいて、複文であるか重文であるかの判定を行い、単文に分割するように構成すればよい。
3.第1−2の実施形態
上記の実施形態においては、入力されたテキスト文データを文要素データに分割し、数値情報データの属する文要素データの種類に基づいて、数値情報データおよび当該数値情報データと係り受け関係にある係り受け情報データのみを抽出するように構成した。
本実施形態においては、所定の文要素データに基づいて数値情報データおよび係り受け情報データを主情報として抽出し、さらにその他の文要素データに基づいて付加情報を抽出する場合について説明する。
1−3−1.機能ブロック図
図15に、本実施形態にかかる抽象化モデル生成装置の機能ブロック図を示す。この図において、本発明にかかる抽象化モデル生成装置は、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、抽出対象文決定手段106、係り受け情報抽出手段107、付加情報抽出手段108、抽象化モデル出力手段109を備えている。
付加情報抽出手段108は、文要素データに分割されたテキスト文データに基づいて、数値情報データおよび係り受け情報データを含む文要素データ以外の文要素データを抽出し、当該数値情報データおよび係り受け情報データに関する付加情報として抽象化モデル出力手段109に与える。
なお、切出手段101、数値情報データ抽出手段103、テキスト文解析手段105、係り受け情報抽出手段107、抽象化モデル出力手段109は、第1の実施形態と同様である。
1−3−2.ハードウェア構成
ハードウェア構成については、第1の実施形態と同様である。
1−3−3.フローチャート
情報抽出プログラム2091に基づく処理について、図16のフローチャートを用いて説明する。以下では、第1の実施形態と同様に、テキスト文データ「営業利益は、前年度と同水準の32776百万円となった。」を含むテキスト文を切出手段101に入力した場合を例として説明する。
図11に示す抽象化モデル抽出処理のフローチャートにおいて、CPU203が行うステップS301〜S315までの処理は基本的に第1の実施形態と同様である。
例えば、前記テキスト文データが読み込まれた場合、先頭の文である「営業利益は、前年度と同水準の32776百万円となった。」がテキスト文データとして切り出される。
CPU203は、切り出したテキスト文データに基づいて、数値情報データ抽出処理を行う(ステップS305)。
数値情報データ抽出処理(図16、ステップS305)において、数値情報データが抽出されれば(ステップS307、YES)、CPU203はテキスト文解析処理(ステップS309)を行う。第1の実施形態に示したように、図5に示すテキスト文解析処理のフローチャートにしたがって、CPU203は上記テキスト文データを所定の文要素データに分割する。
図18に、テキスト文解析処理を行った後のテキスト文データを示す。テキスト文データ1801に示すように、前記テキスト文データは「営業利益は(主格句)/前年度と(従属句)/同水準の(従属句)/32776百万円となった(述部)」の各文要素データに分割される。
テキスト文解析処理(図16、ステップS309)において、入力されたテキスト文データが所定の種類の文要素データに分割されると、さらにCPU203は係り受け抽象化モデル抽出処理(ステップS313)を行う。なお、係り受け抽象化モデル抽出処理については、第1の実施形態において示した図6のフローチャートと同様である。
したがって、第1の実施形態と同様に、数値情報データ「32776百万円」、係り受け情報データ「営業利益」が抽象化モデルデータとなる。
1−3−3−1.付加抽象化モデル抽出処理
係り受け抽象化モデル抽出処理を終えると、CPU203は、付加抽象化モデル抽出処理を行う(ステップS331)。図17に、付加抽象化モデル抽出処理におけるフローチャートを示す。
CPU203は、数値情報データ抽出処理において抽出された数値情報データおよび係り受け抽象化モデル抽出処理において抽出された係り受け情報データの属する文要素データを取得する(図17、ステップS1701)。
次に、CPU203は、テキスト文解析処理において文要素データに分割されたテキスト文データ1801を読み込み、上記において取得した数値情報データおよび係り受け情報データの属する文要素データ以外の文要素データを追加情報として抽出する(ステップS1703)。
例えば、図18のテキスト文データ1801においては、数値情報データの属する文要素データは「32776百万円(述部)」であり、係り受け情報データの属する文要素データは「営業利益は(主格句)」である。したがって、数値情報データおよび係り受け情報データの属する文要素データ以外の文要素データとして、「前年度と(従属句)」および「同水準の(従属句)」が抽出される。
CPU203は、上記の数値情報データ抽出処理(図4)によって抽出した数値情報データの数だけ上記処理ステップS1701〜S1703を繰り返し(ステップS1705、YES)、他の数値情報データがなければ当該処理を終了する(ステップS1705、NO)。
付加抽象化モデル抽出処理を終えるとCPU203は、抽象化モデルデータを抽象化モデルDB2097に記録する(図16、ステップS333)。
例えば、図18の1803に示すように、抽象化モデルDB2097には、数値情報データ「32776百万円」、係り受け情報データ「営業利益」に加えて、付加情報「前年度と/同水準の」が記録される。
CPU203は、テキスト文から切り出されたテキスト文データの数だけ上記処理(図11、ステップS303〜333を繰り返し(ステップS317、NO)、処理対象となるテキスト文データがなくなれば、当該抽象化モデル抽出処理を終了する(ステップS317、YES)。
1−3−4.まとめ
以上説明したように、この発明によれば、テキスト文データの主情報である数値情報データ・係り受け情報データに加えて、当該主情報にかかる付加情報を抽出することができる。
これにより、数値情報データと直接的な係り受け関係にある係り受け情報データだけでなく、数値情報データまたは係り受け情報データと間接的な関係にある付加情報を抽出することができる。
例えば、数値情報データ「32776百万円」および係り受け情報データ「営業利益」に関する付加情報「前年度と/同水準の」は、「営業利益」が「32776百万円」である状態に関する背景・状況としての付加情報として利用することができる。
なお、上記実施形態においては、テキスト文データが単文である場合について説明したが、複文または重文を含む場合であってもよい。この場合、第1−1の実施形態において示したように、テキスト文解析処理(ステップS309)。と係り受け抽象化モデル抽出処理(ステップS313)の間に抽出対象文決定処理を挿入すればよい。
1−4.その他の実施形態
上記実施形態においては、数値情報データ抽出処理を行った後に分割処理を行うように構成したが、テキスト文解析処理中に数値情報データ抽出処理を行うように構成してもよい。具体的には、テキスト文解析処理においてテキスト文データを文要素データに分割した後に、各文要素データについて数値情報データが含まれるか否かを判断させ、含まれていればテキスト文データの構文解析を行うように構成すればよい。
上記実施形態においては、数値情報データを抽出する場合に、テキスト文データの中に存在する所定の単位文字の前方に連続する数字を数値情報データとして抽出するように構成したが、単位文字によっては、後方に連続する数字を数値情報データとして抽出するようにしてもよい。例えば、「¥」や「$」などの通貨記号を単位文字とする場合がこれに該当する。
上記実施形態においては、構文解析処理において、上昇型構文解析のLR文法パーザであるYACCを例示したが、その他の種類のパーザであってもよい。例えば、下降型構文解析のLL文法パーザなどがこれに該当する。
上記実施形態においては、日本語で記述されたテキスト文について説明したが、数値情報データが抽出可能であり、形態素解析処理および構文解析処理において文要素データに分割することができれば、他の言語で記述されたテキスト文であってもよい。例えば、英語の場合は、英文の数値単位に基づいて数値情報データを抽出し、英文用の形態素解析プログラムおよび構文解析プログラムを用いて構成すればよい。
2.第2の実施形態[リンク設定装置]
上記第1の実施形態の抽象化モデル生成装置を利用して、数値情報データが含まれるテキスト文などの抽象化処理要素にリンクを設定する装置について、以下に図19〜図25を用いて説明する。
2−1.機能ブロック図
図19に、本実施形態にかかるリンク設定装置の機能ブロック図を示す。この図において、本発明にかかるリンク設定装置は、文書データ入力手段1201、要素分割手段1203、抽象化モデルデータ抽出手段1204、抽象化モデル記録手段1211、抽象化モデル選択手段1213、リンク設定手段1215を備えている。なお、抽象化モデルデータ抽出手段1204は、表現形式判別手段1205、抽象化モデル生成手段(テキスト文)1207、抽象化モデル生成手段(テーブル)1209を備える。
文書データ入力手段1201から文書データが入力され、要素分割手段により抽象化処理要素毎に分割される。分割された抽象化処理要素は、抽象化モデルデータ抽出手段1204に与えられる。
抽象化モデルデータ抽出手段1204の表現形式判別手段1205は、取得した抽象化処理要素の表現形式を判断する。例えば、抽象化処理要素がテキスト文(文章)であるか、テーブル(表)であるかを判断する。これにより、当該要素は、抽象化処理要素の表現形式がテキスト文である場合には、抽象化モデル生成手段(テキスト文)1207に与えられ、要素の表現形式がテーブルである場合には、抽象化モデル生成手段(テーブル)1209に与えられる。なお、文書データにテキスト文のみが含まれる場合には、上記表現形式判別手段1205と抽象化モデル生成手段(テーブル)1209は不要になる。
抽象化モデル生成手段(テキスト文)1207は、第1の実施形態における抽象化モデル生成装置(図1に示す)と同じ機能を有している。すなわち、入力されたテキスト文から数値情報データと係り受け関係にある他の文要素を抽出し、これらを位置情報データと共に抽象化モデル記録手段1211に与える(具体的には、図3等のフローチャートのステップS301〜S317に示す処理を行う。)。抽象化モデル生成手段(テーブル)1209は、テーブルデータについて定められた所定規則(後述する)に基づいて、抽象化モデルデータを生成する処理を行い、これらを位置情報データと共に抽象化モデル記録手段1211に与える。
抽象化モデル記録手段1211は、抽象化モデル生成手段(テキスト文)1207や抽象化モデル生成手段(テーブル)1209から与えられた抽象化モデルデータを記録する。抽象化モデル選択手段1213は、記録された当該抽象化モデル記録手段1211を検索して、同じ抽象化モデルデータを全て選択し各位置情報データをリンク設定手段1215に提供する。リンク設定手段1215は、当該位置情報データに基づいて、抽象化モデルデータが同じ抽象化処理要素に対してリンク(例えば、ハイパーリンク)を設定する。
2−2.ハードウェア構成
図19に示すリンク設定装置をCPUを用いて実現したハードウェア構成の一例を、図20に示す。図20に示すリンク設定装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
ハードディスク209には、リンク設定プログラム221が記録されている。リンク設定プログラム221は、テキスト文について抽象化モデルデータ生成処理(図3に示す)を行うための抽象化モデルデータ生成スクリプト223を備えている。さらに、リンク設定プログラム221は、抽象化処理要素の表現形式(テキスト文、テーブルなど)を判別するための表現形式対応表225、および生成した抽象化モデルデータを記録するための抽象化モデルDB227も備えている。
これらのプログラム等は、CD−ROMドライブ211を介してCD−ROM212に記録されたデータを読み出してインストールしたものである。なお、上記インストールは、通信回路215を用いてインターネット216等からダウンロードしたデータを使用して行うようにしてもよい。
2−3.抽象化モデルデータに基づいてリンクを設定する処理の具体例
図21に示すフローチャートを用いて、数値情報データが含まれるテキスト文などから抽象化モデルデータを生成し、リンクを設定するまでの処理について説明する。なお、以下の処理は、XML形式のファイル(XMLファイル)中のテキスト文やテーブルなどについてリンクを設定する場合の例である。
まず、リンク設定の対象となる文書データが入力される(ステップS2001)。例えば、図22Aに示すような有価証券報告書ファイルのデータが、CD−ROM212を介してCD−ROMドライブから読み出され、メモリ205に記録される。なお、図22Aに示す有価証券報告書ファイルのデータは、図22Bに示すようなXMLで記述されている。例えば、図22Aに示すファイルのテキスト文a1は、図22Bのα部分に対応する。
入力された文書データは、テキスト文やテーブルなどの各抽象化処理要素に分割される(ステップS2003)。具体的には、図22Bに示すXMLデータから、所定の開始タグと終了タグに囲まれた部分が抽出される。例えば、図23に示す表現形式対応表225のBusinessResultsおよびItemの欄には、表現形式(テキスト文またはテーブル)の列に抽象化処理の対象であることを示す記号「○」が入力されているため、これらの開始タグと終了タグに囲まれたα〜γ部分(図22Bに示す)がそれぞれ抽出される。なお、図23の表現形式対応表225において、「−」は抽象化処理要素として抽出しないことを示す。
次に、図23に示す表現形式対応表225に基づいて、抽出した部分のコンテンツがテキスト文であるか、テーブルであるかが判断される(ステップS2005)。例えば、図23の表現形式対応表225から、図22のBusinessResultsタグであるα部分のコンテンツA1はテキスト文であると判断され、またItemタグであるβ部分およびγ部分のコンテンツB1〜B3およびコンテンツC1〜C3はテーブルであると判断される。
テキスト文またはテーブルであると判断された場合は、以下(i)(ii)に説明するように、その表現形式によって異なる方法で抽象化モデルデータの生成処理が行われる(ステップS2007、S2009)。
(i)表現形式がテキスト文であると判断された場合、抽象化モデルデータ生成スクリプト223が、第1の実施形態において説明したテキスト文についての抽象化モデルデータ生成処理を行い、「数値情報データ=係り受け情報」となるデータを抽象化モデルデータとして抽出する(ステップS2007)。抽象化モデルデータ生成処理は、具体的には、図3のフローチャートにおけるステップS301〜S317に示す処理であり、かかる処理により数値情報データと係り受け関係にある文要素が抽出される。例えば、図22BのコンテンツAからは、抽象化モデルデータとして「売上高=8,191,752百万円」が抽出される。さらに、この抽象化モデルデータと共にその位置ID(例えば、図22に示す「br2003」A0)が抽象化モデルDB227に与えられる。
(ii)表現形式がテーブルであると判断された場合、テーブルについて予め定められた規則に基づいて、抽象化モデルデータが生成される(ステップS2009)。この実施形態では、テーブルと判断された各部分に属するコンテンツを組み合わせることにより、抽象化モデルデータとして「数値情報データ=係り受け情報」を満たすデータを生成するように規定している。例えば、図22Bに示すβ部分のコンテンツB1〜B3からは抽象化モデルデータとして「8,191,752百万円=売上高」、「100=売上高」が抽出され、γ部分のコンテンツC1〜C3からは抽象化モデルデータ「152,967百万円=営業利益」「1.9=営業利益」が抽出される。さらに、これらの抽象化モデルデータと共にその位置ID(例えば、β部分について「sales_2003」B0、γ部分について「ifo_2003」C0)が、抽象化モデルDB227に与えられる。
抽象化モデルDB227では、抽象化モデルデータとその位置情報データを記録する(ステップS2011)。図24に、抽象化モデルDB227に記録されるデータの具体例を示す。
つぎに、リンク設定プログラム221は、抽象化モデルDB227を検索することにより、抽象化モデルデータが同じものを全て選択し、各位置情報データのIDをリンク設定プログラム221に出力する(ステップS2013)。例えば、図24に示す同じ抽象化モデルデータが同じであるID「br2003」と「ifo_2003」がリンク設定プログラム221に与えられる。
リンク設定プログラム221は、これら抽象化モデルデータの位置IDに基づいて、リンクを設定する(ステップS2015)。例えば、XLinkを用いて図22Bに示すα部分とβ部分の間に、ID「br2003」と「ifo_2003」に基づいてリンクが設定される。なお、XLinkとは、URIを使用することによりリンクを表現するリンク言語である。
これにより、図25に示すように、文書の閲覧中にテーブルの一部(斜線部X)がクリックされると、関連するテキスト文をポップアップウインドウYに表示するようなことが可能になる。
なお、図25において、ポップアップウィンドウYにテキスト文を表示する際(つまり、リンク先がテキスト文である場合)に、付加情報だけを抽出するようして「当連結会計年度」と「前連結会計年度に比べて2%だけ増加」の部分だけを表示することもできる。この付加情報を抽出する処理は、図17等に既述されている処理により実行できる。
以上のように、数値情報データを含む文書から生成した抽象化モデルデータを利用して、文書データ中のテキスト文などの各部分についてリンクを簡単に設定することが可能になる。
なお、上記実施形態においては、テキスト文とテーブルの間にリンクを設定するようにしたが、テキスト文とイメージの間にリンクを設定するようにしてもよい。ただし、イメージについては、見出しなどの属性データに基づいて少なくとも抽象化モデルデータを生成できるようなデータ構造を有している必要がある。また、テキスト文同士にリンクを設定するようにしてもよい。
なお、上記実施形態では抽象化モデルが2つの場合について説明したが、抽象化モデルが3以上見つかった場合には、それぞれの対象データについて1対多数のリンクを設定する。例えば、XLinkにより複数のリンク先を全て画面上に表示するように設定したり、複数のリンク先をリスト表示して、所望のリンク先を選択できるような機能をJAVA等の一般的な言語で記述してリンクを設定する。
なお、上記実施形態においては、XML文書(ファイル内容)に含まれるタグに表現形式の属性を付していないが、テキスト文、テーブルなどの表現形式の属性や抽象化処理要素であることを示す属性を予め付して記述しておくようにしてもよい。これにより、図23に示す表現形式対応表225がなくても、抽象化モデルデータの表現形式を判別したり、抽象化処理要素を抽出することが可能になる。
3.第3の実施形態[文書検索装置]
上記実施形態においては、数値情報データに基づいて生成した抽象化モデルデータをリンクを設定するために利用したが、文書検索装置において利用するようにしてもよい。上記第1の実施形態の抽象化モデル生成装置を利用して、数値情報データが含まれるテキスト文などの要素について文書ファイルの検索を行う装置について、以下に図26、図28を用いて説明する。なお、本実施形態では、文書データにテキスト文のみが含まれる場合について説明する。
3−1.機能ブロック図
図26に、本実施形態にかかる文書検索装置の機能ブロック図を示す。この図において、本発明にかかる文献検索装置は、検索要素入力手段2501、抽象化モデルデータ抽出手段(テーブル)2503、抽象化モデル保持手段2505、抽象化モデル記録手段2507、抽象化モデル比較手段2509、検索結果出力手段2511を備えている。なお、抽象化モデル記録手段2507には、文書データ全体中の抽象化処理要素について、予め生成された各抽象化モデルデータが記録されている。
検索要素入力手段に、検索要素(テキスト文)が抽象化処理要素毎に入力され、抽象化モデル生成手段(テキスト文)2503に与えられる。抽象化処理要素を受けた抽象化モデル生成手段(テキスト文)2503は、数値情報データと係り受け関係にある文要素を抽象化モデルデータとして抽出し、位置情報データと共に抽象化モデル保持手段2505に与える。なお、抽象化モデルデータの生成処理は、図3等の抽象化モデルデータ生成フローチャートに示す処理により行われる。
抽象化モデル比較手段2509は、抽象化モデル記録手段2507を検索し、予め文書データ全体から生成しておいた抽象化モデルデータと、抽象化モデル生成手段(テキスト文)2503から受けた検索対象の抽象化モデルデータとを比較することにより、同じ抽象化モデルデータの位置情報データを取得して検索結果出力手段2511に提供する。
検索結果出力手段2511は、当該位置情報データに基づいて、抽象化モデルデータが同じ抽象化処理要素を検索結果として出力する。
3−2.ハードウェア構成
図26に示す文書検索装置をCPUを用いて実現したハードウェア構成の一例を、図27に示す。図27に示す文書検索装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
ハードディスク209には、文書検索プログラム231が記録されている。文書検索プログラム231は、数値情報データを含むテキスト文について抽象化モデルデータ生成処理(図3に示す)を行うための抽象化モデルデータ生成スクリプト223、および生成した抽象化モデルデータを記録するための抽象化モデルDB227を備えている。なお、この実施形態では、文書データにテキスト文だけが含まれることとしたので、抽象化処理要素の表現形式(テキスト文、テーブルなど)を判別するための表現形式対応表225(図20)は備えていないが、複数の表現形式がテキスト文データに存在する場合には備えるようにしてもよい。
これらのプログラム等は、CD−ROMドライブ211を介してCD−ROM212に記録されたデータを読み出してインストールしたものである。なお、上記インストールは、通信回路215を用いてインターネット216等からダウンロードしたデータを使用して行うようにしてもよい。
3−3.文書検索処理の具体例
図28に示すフローチャートを用いて、文書データから生成した抽象化モデルデータを利用してファイル検索を行う処理について説明する。なお、説明を簡単にするため、以下の例で検索対象となるXML形式のファイル(XMLファイル)には、テキスト文だけが含まれているものとするが、テーブルなどが含まれる場合でも実施できる。
文書検索処理を行う前に、抽象化モデルDB227には、検索しようとする文書データ全体について、抽象化モデルデータが全て記録されている。抽象化モデルDB227への記録のタイミングは、リアルタイムでもよく、文書検証時でもよい。具体的には、図3に示すステップS301〜S317と同じ処理により、検索対象となる文書データ(例えば、図22に示すXMLファイル)についての抽象化モデルデータが生成され、予め記録されている。
まず、検索したいテキスト文の入力を受ける(ステップS2601)。さらに、検索開始入力(検索ボタンの押下など)を受けて、入力されたテキスト文のXMLデータが抽象化モデルデータ生成スクリプト223に出力される(ステップS2603)。
抽象化モデルデータ生成スクリプト223は、入力を受けたテキスト文から抽象化モデルデータを抽出し、抽象化モデルデータとその位置IDをメモリ205に出力する(ステップS2605)。メモリ205には、抽象化モデルデータとその位置IDが保持される(ステップS2607)。
文書検索プログラム231は、文書データから抽象化モデルデータを抽出して記録した抽象化モデルDB227を検索し、メモリ205から読み出した抽象化モデルデータと比較することにより、抽象化モデルデータが同じデータのIDを抽出する(ステップS2609)。
文書検索プログラムは、これら抽象化モデルデータのIDに対応するテキスト文を検索結果として表示する(ステップS2611)。例えば、検索結果として特定された部分についてハイライト表示を行う。
以上のように、検索の対象となる大量の文書から抽象化モデルデータを生成し、それらを入力テキスト文などから生成した抽象化モデルデータと比較することで、単純なマッチングとは異なる文書検索装置を実現することができる。
なお、上記実施形態においては、予め文書全体について抽象化モデルデータを生成し抽象化モデルDB227に記録しておくようにしたが、検索処理時にその都度抽出するようにしてもよい。
なお、上記実施形態においては、テキスト文のみが含まれる文書データを検索対象としたが、テーブルやイメージなどを含む文書データを検索するようにしてもよい。
4.第4の実施形態[検証機能付き文書編集装置]
また、前述の数値情報データに基づいて生成した抽象化モデルデータを、文書編集プログラムにおける検証装置として利用するようにしてもよい。上記第1の実施形態の抽象化モデル生成装置を利用して、数値情報データが含まれるテキスト文などの要素について文書の検証を行う装置について、以下に図29、図31を用いて説明する。なお、本実施形態では、文書データにテキスト文のみが含まれる場合について説明する。
4−1.機能ブロック図
図29に、本実施形態にかかる文書入力検証装置の機能ブロック図を示す。この図において、本発明にかかる文書入力検証装置は、検証要素入力手段2701、要素抽出手段2702、抽象化モデル生成手段(テキスト文)2703、抽象化モデル保持手段2705、抽象化モデル記録手段2707、抽象化モデル判別手段2709、入力エラー出力手段2711を備えている。なお、抽象化モデル記録手段2707には、常に、文書編集装置に入力される文書データについて抽象化モデルデータが生成され蓄積されている。
検証要素入力手段2701は、ワープロ・エディタなどの文書編集装置から文書データ(テキスト文)の入力を受けており、これを要素抽出手段2703に与えている。要素抽出手段2703は、入力された文書データから抽象化処理要素を抽出する。抽象化モデル生成手段(テキスト文)2703は、抽象化処理要素を数値情報データと係り受け関係にある文要素を抽象化モデルデータとして抽出し、位置情報データと共に抽象化モデル保持手段2705に与える。なお、抽象化モデルデータの生成処理は、図3等の抽象化モデルデータ生成フローチャートに示す処理により行われる。
抽象化モデル判別手段2709は抽象化モデル記録手段2707を検索し、抽象化モデル保持手段2705から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータを持つ抽象化処理要素があるか否かを判別し、その判別結果を入力エラー出力手段2711に与える。
入力エラー出力手段2711は、抽象化モデル判別手段2709から取得した判別結果に基づいて、文書編集装置に入力エラー情報を出力する。
4−2.ハードウェア構成
図29に示す文書入力検証装置をCPUを用いて実現したハードウェア構成の一例を、図30に示す。図30に示す文書入力検証装置は、ディスプレイ201、CPU203、メモリ205、キーボード/マウス207、ハードディスク209、CD−ROMドライブ211および通信回路215を備えている。
ハードディスク209には、文書編集アプリケーション241と文書検証プログラム243が記録されている。文書検証プログラム231は、文書検証アプリケーション241からテキスト文データの入力を受け、その検証結果を出力する機能を有している。図30に示すように、文書検証プログラム231には、数値情報データを含むテキスト文について抽象化モデルデータ生成処理(図3に示す)を行うための抽象化モデルデータ生成スクリプト223、および生成した抽象化モデルデータを記録するための抽象化モデルDB227を備えている。なお、この実施形態では、文書データにテキスト文だけが含まれることとしたので、抽象化処理要素の表現形式(テキスト文、テーブルなど)を判別するための表現形式対応表225(図20)は備えていないが、複数の表現形式がテキスト文データに存在する場合には備えるようにしてもよい。
これらのプログラム等は、CD−ROMドライブ211を介してCD−ROM212に記録されたデータを読み出してインストールしたものである。なお、上記インストールは、通信回路215を用いてインターネット216等からダウンロードしたデータを使用して行うようにしてもよい。
4−3.文書検証処理の具体例
図31に示すフローチャートを用いて、文書の編集中に数値情報データを誤って入力した場合に、入力エラーを出力する処理について説明する。なお、説明を簡単にするため、以下の例で検証対象となるXML形式のファイル(XMLファイル)には、テキスト文だけが含まれているものとするが、テーブルなどが含まれる場合でも実施できる。
文書検証処理を行う前に、抽象化モデルDB227には、文書編集装置に入力されている文書データについて、抽象化モデルデータが全て記録されている。抽象化モデルDB227への記録のタイミングは、リアルタイムでもよく、文書検証時でもよい。具体的には、図3に示すステップS301〜S317と同じ処理により、検索対象となる文書データ(例えば、図22に示すXMLファイル)についての抽象化モデルデータが生成され、常に更新されている。
まず、XML文書編集用のワープロなどの文書編集装置から入力される情報を取得する(ステップS2801)。さらに、検証開始入力(検索ボタンの押下など)を受けて、入力されたテキスト文群から抽象化処理要素が抽出され、抽象化モデルデータ生成スクリプト223に出力される(ステップS2803)。
抽象化モデルデータ生成スクリプト223は、入力を受けた抽象化処理要素から抽象化モデルデータを抽出し、抽象化モデルデータとその位置IDをメモリ205に出力する(ステップS2805)。メモリ205には、抽象化モデルデータとその位置IDが保持される(ステップS2807)。
抽象化モデルデータ判別プログラム241は、抽象化モデルDB227を検索することにより、メモリ205から読み出した抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータ(類似抽象化モデルデータ)があるか否かを判別し、その結果を文書検証プログラム241に出力する(ステップS2809)。
類似抽象化モデルデータがある場合には、文書検証プログラム241は、文書編集装置に入力絵エラー情報を出力する(ステップS2811)。これにより、例えば、ワープロなどの画面に誤入力であることを喚起する警告ウィンドウの表示が行われる。なお、類似抽象化モデルデータがあると判別した際に、抽象化モデルDB227から位置IDや数値情報データを取得しておけば、該当箇所や訂正すべき数値を同時に表示することも可能である。
以上のように、文書編集装置既に入力した文書の内容から抽象化モデルデータを生成して文書検証に利用することにより、数値情報データの誤入力を容易に認識することが可能になる。
なお、上記実施形態においては、予め文書全体について抽象化モデルデータを抽出し、抽象化モデルDB227に記録するようにしたが、検索実行時に既に入力した文書から抽出するようにしてもよい。
なお、上記実施形態においては、テキスト文のみが含まれる文書データを検証対象としたが、テーブルやイメージのような他の要素を含む文書データを検証するようにしてもよい。
5.その他の実施形態
なお、上記実施形態においては、文書ファイル含まれるテキスト文の言語が複数あるような場合でも、その言語にあった処理方法で抽象化モデルデータを生成し、係り受け情報を辞書などを用いて翻訳すれば、抽象化モデルデータの言語を統一することが可能である。
なお、上記実施形態においては、抽象化処理要素を行う文書としてXML形式のファイルを用いるようにしたが、HTML形式のファイルなどその他の形式のファイルを用いてもよい。
上記実施形態においては、CPU203を用い、ソフトウェアによって処理を実現している。しかし、その一部もしくは全てを、ロジック回路等のハードウェアによって実現してもよい。なお、プログラムの一部の処理をさらに、オペレーティングシステム(OS)にさせるようにしてもよい。
この発明の実施形態における情報抽出装置の機能ブロック図の例を示す図である。 この発明の抽象化モデル生成装置のハードウェア構成図の例を示す例である。 この発明の「抽象化モデル抽出処理」におけるフローチャートの例を示す図である。 この発明の「数値情報データ抽出処理」におけるフローチャートの例を示す図である。 この発明の「テキスト文分割処理」におけるフローチャートの例を示す図である。 この発明の「係り受け情報抽出処理」におけるフローチャートの例を示す図である。 この発明の「形態素解析」または「構文解析」の例を示す図である。 この発明の「形態素解析データ」または「構文解析データ」の例を示す図である。 この発明の「構文解析データ」の例を示す図である。 この発明の「文法定義情報」の例を示す図である。 この発明の「主格句」または「述部」を決定する例を示す図である。 この発明の「解析結果データ」の例を示す図である。 この発明の実施形態における抽象化モデル生成装置の機能ブロック図の例を示す図である。 この発明の「抽象化モデル抽出処理」におけるフローチャートの例を示す図である。 この発明の「抽出対象文決定処理」におけるフローチャートの例を示す図である。 この発明の「複文を主文と副文に分割する」場合の例を示す図である。 この発明の「重文を前半文と後半文に分割する」場合の例を示す図である。 この発明の実施形態における抽象化モデル生成装置の機能ブロック図の例を示す図である。 この発明の「抽象化モデル抽出処理」におけるフローチャートの例を示す図である。 この発明の「付加情報抽出処理」におけるフローチャートの例を示す図である。 この発明のテキスト文から付加情報を抽出する場合の例を示す図である。 この発明の実施形態におけるリンク設定装置の機能ブロック図の例を示す図である。 この発明のリンク設定装置のハードウェア構成図の例を示す例である。 この発明の「リンク設定処理」におけるフローチャートの例を示す図である。 この発明のXMLファイルの例を示す図である。 この発明の表現形式対応表の例を示す図である。 この発明の抽象化モデルDBのデータ例を示す図である。 この発明で設定したリンクを利用した例を示す図である。 この発明の実施形態における文書検索装置の機能ブロック図の例を示す図である。 この発明の文書検索装置のハードウェア構成図の例を示す例である。 この発明の「文書検索処理」におけるフローチャートの例を示す図である。 この発明の実施形態における文書入力検証装置の機能ブロック図の例を示す図である。 この発明の文書入力検証装置のハードウェア構成図の例を示す例である。 この発明の「文書入力検証処理」におけるフローチャートの例を示す図である。
符号の説明
101・・・・切出手段
103・・・・数値情報データ抽出手段
105・・・・テキスト文分割手段
106・・・・抽出対象文決定手段
107・・・・係り受け情報抽出手段
108・・・・付加情報抽出手段
109・・・・抽象化モデル出力手段

Claims (16)

  1. 文書データ中の関連する文要素データを含む対象データ間にリンクを設定するリンク設定装置であって、
    与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
    記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
    数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデル記録手段と、
    記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデル選択手段、
    前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定手段、
    を備えたことを特徴とするリンク設定装置。
  2. 文書データ中の関連する文要素データを含む対象データ間にリンクを設定するリンク設定装置をコンピュータを用いて実現するためのプログラムであって、コンピュータに以下の手段を構成させることを特徴とするプログラム:
    A)与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段、
    B)記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段、
    C)数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデル記録手段、
    D)記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデル選択手段、
    E)前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定手段。
  3. 請求項1または請求項2の何れかのリンク設定装置またはリンク設定プログラムにおいて、
    前記リンク設定手段が、リンク先の対象データがテキスト文である場合に、当該リンク先のテキスト文から付加情報だけを抽出するようにリンクを設定する、ことを特徴とするもの。
  4. 検索要素である対象データに基づいて文書データを検索する文書検索装置であって、
    与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
    記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
    数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
    文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデル比較手段、
    前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示手段、
    を備えたことを特徴とする文書検索装置。
  5. 検索要素である対象データに基づいて文書データを検索する文書検索装置をコンピュータを用いて実現するためのプログラムであって、コンピュータに以下の手段を構成させることを特徴とするプログラム:
    A)与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段、
    B)記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段、
    C)数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
    D)文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデル比較手段、
    E)前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示手段。
  6. 請求項4または請求項5の何れかの文書検索装置または文書検索プログラムにおいて、
    前記抽象化モデル記録手段には、予め検索対象となる文書データ全体について、検索前に抽象化モデルデータ生成されて記録されていることを特徴とするもの。
  7. 検証要素の対象データに基づいて文書編集装置から入力される文書データを検証する文書入力検証装置であって、
    文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段と、
    記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段と、
    数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
    文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデル判別手段、
    前記抽象化モデル判別手段から取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力手段、
    を備えたことを特徴とする文書入力検証装置。
  8. 検証要素の対象データに基づいて文書編集装置から入力される文書データを検証する文書入力検証装置をコンピュータを用いて実現するためのプログラムであって、コンピュータに以下の手段を構成させることを特徴とするプログラム:
    A)文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析手段、
    B)記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出手段、
    C)数値情報抽出手段が抽出した数値情報データ、係り受け情報抽出手段が抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデル保持手段、
    D)文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデル保持手段から受けた抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデル判別手段、
    E)前記抽象化モデル判別手段から取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力手段。
  9. 請求項7または請求項8の文書入力検証装置において、
    抽象化モデル記録手段の抽象化モデルデータは、検証要素入力手段からの入力に基づいて随時生成され、常に更新されていることを特徴とするもの。
  10. 請求項1〜9の何れかの装置またはプログラムにおいて、前記文書データには、テキスト文データ以外の他の処理対象要素が含まれており、さらに、
    抽象化モデルデータを抽出する前に、前記処理対象要素の表現形式を判断する表現形式判別手段、
    対象データの表現形式がテキスト文である場合には、前記処理対象要素から、数値情報データと係り受け関係にある文要素を抽象化モデルデータとして、その位置情報データと共に抽出する抽象化モデル生成手段、
    対象データの表現形式が他の要素である場合には、所定の規則に基づいて抽象化モデルデータを生成し、これらを位置情報データと共に抽象化モデル記録手段に与える抽象化モデル生成手段、
    を備えたことを特徴とするもの。
  11. 請求項10の装置またはプログラムにおいて、前記他の対象データが、テーブルデータまたはイメージデータであることを特徴とするもの。
  12. 請求項1〜11の何れかの装置またはプログラムにおいて、前記文書データはXML形式で記述されており、ファイル内容に含まれる各タグには、表現形式の属性が予め付されていることを特徴とするもの。
  13. 請求項1〜12の何れかの装置またはプログラムにおいて、さらに、
    前記文書データに含まれるテキスト文の言語が複数ある場合に、翻訳辞書を参照することにより、抽象化モデルデータを同じ言語に統一する抽象化モデル翻訳手段を備えた、ことを特徴とするもの
  14. 文書データ中の関連する文要素データを含む対象データ間にリンクを設定するリンク設定方法であって、
    与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析ステップと、
    記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出ステップと、
    数値情報抽出ステップにおいて抽出した数値情報データ、係り受け情報抽出ステップにおいて抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に記録する抽象化モデルデータ記録ステップと、
    記録部に記録された複数の抽象化モデルデータのうち、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータを選択する抽象化モデルデータ選択ステップ、
    前記選択された抽象化モデルデータの位置情報データに基づいて、前記抽象化モデルデータの対象データ間にリンクを設定するリンク設定ステップ、
    を備えたことを特徴とするリンク設定方法。
  15. 検索要素である対象データに基づいて文書データを検索する文書検索方法であって、
    与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析ステップと、
    記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出ステップと、
    数値情報抽出ステップにおいて抽出した数値情報データ、係り受け情報抽出ステップにおいて抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデルデータ保持ステップ、
    文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデルデータ保持ステップで保持した抽象化モデルデータと比較することにより、同じ数値情報データおよび同じ係り受け情報データを有する抽象化モデルデータの位置情報データだけを抽出する抽象化モデルデータ比較ステップ、
    前記抽出された抽象化モデルデータの位置情報データに基づいて、抽象化モデルデータが同じ対象データを検索結果として表示する検索結果表示ステップ、
    を備えたことを特徴とする文書検索方法。
  16. 検証要素の対象データに基づいて文書編集装置から入力される文書データを検証する文書入力検証方法であって、
    文書編集装置から与えられた文書データ中のテキスト文データを複数の文要素データに分割し、各文要素の種類を決定して記録部に記録するとともに、与えられたテキスト文データ中に数値情報データが含まれるか否かを判断し、含まれる場合には、数値情報データを特定して記録部に記録する抽出・解析ステップと、
    記録部を参照して、数値情報データを含む文要素データを特定し、当該文要素データの種類に基づいて、当該数値情報データと係り受け関係にある文要素データを少なくとも1つ決定し、決定した文要素データから係り受け情報データを抽出する係り受け情報抽出ステップと、
    数値情報抽出ステップにおいて抽出した数値情報データ、係り受け情報抽出ステップにおいて抽出した係り受け情報データを抽象化モデルデータとして、その文書データ中の位置を示す位置データとともに記録部に保持する抽象化モデルデータ保持ステップ、
    文書データから抽象化モデルデータを生成し記録した抽象化モデル記録手段を検索し、抽象化モデルデータ保持ステップで保持した抽象化モデルデータと係り受け情報が同じで、かつ、数値情報データが異なる抽象化モデルデータがあるか否かを判別する抽象化モデルデータ判別ステップ、
    前記抽象化モデルデータ判別ステップで取得した判別結果に基づいて、入力エラー情報を文書編集装置に出力する入力エラー出力ステップ、
    を備えたことを特徴とする文書入力検証方法。
JP2003397196A 2003-11-27 2003-11-27 テキスト文から抽出した情報を利用したリンク設定装置およびその方法 Expired - Fee Related JP4397221B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003397196A JP4397221B2 (ja) 2003-11-27 2003-11-27 テキスト文から抽出した情報を利用したリンク設定装置およびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003397196A JP4397221B2 (ja) 2003-11-27 2003-11-27 テキスト文から抽出した情報を利用したリンク設定装置およびその方法

Publications (2)

Publication Number Publication Date
JP2005157853A true JP2005157853A (ja) 2005-06-16
JP4397221B2 JP4397221B2 (ja) 2010-01-13

Family

ID=34722411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003397196A Expired - Fee Related JP4397221B2 (ja) 2003-11-27 2003-11-27 テキスト文から抽出した情報を利用したリンク設定装置およびその方法

Country Status (1)

Country Link
JP (1) JP4397221B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2153350A1 (en) * 2007-05-24 2010-02-17 Palo Alto Research Center Incorporated Dynamic domain abstraction through meta-analysis
CN115238217A (zh) * 2022-09-23 2022-10-25 山东省齐鲁大数据研究院 一种公告文本中抽取数值信息的方法及终端机

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329165A (ja) * 1995-05-31 1996-12-13 Toshiba Corp テキスト抽出処理装置及びテキスト抽出処理方法
JP2000020521A (ja) * 1998-07-06 2000-01-21 Just Syst Corp 文書解析装置およびその方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08329165A (ja) * 1995-05-31 1996-12-13 Toshiba Corp テキスト抽出処理装置及びテキスト抽出処理方法
JP2000020521A (ja) * 1998-07-06 2000-01-21 Just Syst Corp 文書解析装置およびその方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
藤畑 勝之,外: "係り受けの制約と優先規則に基づく数量表現抽出", 情報処理学会研究報告, vol. 2001, no. 86, JPN6009047988, 11 September 2001 (2001-09-11), JP, pages 119 - 125, ISSN: 0001420689 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2153350A1 (en) * 2007-05-24 2010-02-17 Palo Alto Research Center Incorporated Dynamic domain abstraction through meta-analysis
EP2153350A4 (en) * 2007-05-24 2014-06-25 Palo Alto Res Ct Inc DYNAMIC DOMAIN ABSTRACTION BY METAANALYSIS
CN115238217A (zh) * 2022-09-23 2022-10-25 山东省齐鲁大数据研究院 一种公告文本中抽取数值信息的方法及终端机

Also Published As

Publication number Publication date
JP4397221B2 (ja) 2010-01-13

Similar Documents

Publication Publication Date Title
KR102158352B1 (ko) 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램
McEnery et al. Corpus linguistics: Method, theory and practice
Rayson Matrix: A statistical method and software tool for linguistic analysis through corpus comparison
US7788084B2 (en) Labeling of work of art titles in text for natural language processing
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JPH0293866A (ja) 要約生成方法および要約生成装置
WO2007105202A2 (en) Automatic reusable definitions identification (rdi) method
Gruszczyński et al. The electronic corpus of 17th-and 18th-century polish texts
Kazman Structuring the text of the Oxford English Dictionary through finite state transduction
US20020129066A1 (en) Computer implemented method for reformatting logically complex clauses in an electronic text-based document
JP4397221B2 (ja) テキスト文から抽出した情報を利用したリンク設定装置およびその方法
KR102390009B1 (ko) Ai기반 구문분석 연구노트 생성 시스템
JP4458517B2 (ja) 情報抽出装置およびその方法
KR101052004B1 (ko) 번역서비스 제공방법 및 그 시스템
JP2000250908A (ja) 電子書籍の作成支援装置
Rosén et al. The enrichment of lexical resources through incremental parsebanking
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
Borin et al. Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information
JP2002197097A (ja) 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
Muniz et al. Taming the Tiger Topic: An XCES Compliant Corpus Portal to Generate Subcorpora Based on Automatic Text-Topic Identification
Petrovčič et al. The New Chinese Corpus of Literary Texts Litchi
JP2019200488A (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
Rundell et al. Technology and English Dictionaries

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050331

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090924

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091020

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121030

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees