JPH0773188A

JPH0773188A - 情報抽出方法

Info

Publication number: JPH0773188A
Application number: JP5217464A
Authority: JP
Inventors: Katsunao Shibata; 克尚柴田; Tomoko Hirano; 智子平野; Akiko Kikuchi; 章子菊池
Original assignee: Hitachi Information Systems Ltd
Current assignee: Hitachi Systems Ltd
Priority date: 1993-09-01
Filing date: 1993-09-01
Publication date: 1995-03-17
Anticipated expiration: 2014-01-20
Also published as: JP2848430B2

Abstract

(57)【要約】【目的】文中に区切り記号がなくても必要な情報を抽
出することができ、かつ迅速に情報を抽出することが可
能な方法を実現する。【構成】複数の定形パターンは抽出すべき情報と定形
パターンの特徴を示す特徴デ−タとからなり、文の特徴
デ−タをこれらの複数の定形パターン中の特徴デ−タと
マッチングをとり、最も多くの特徴デ−タが一致した定
形パターンを文の定形パターンとみなして、文を展開し
て情報を抽出する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、先ず抽出すべき情報の
分類を判断することにより、パタ−ンマッチングを迅速
に行って、文から必要な情報を抽出することが可能な情
報抽出方法に関する。

【０００２】

【従来の技術】従来、順序や書き方の異なった文献リス
ト等を抽出する方法としては、例えば特開平５−２０３
６１号公報に記載された意味抽出方法がある。この方法
では、先ず記載形式の異なる入力レコ−ドを形態素解析
処理（単語分割と品詞付け）により単語に分割した後、
予め用意された区切り記号テーブルを用いて、区間分割
処理により分割された単語をさらに区間に分割し、次の
意味解析処理において分割された各区間に対して複数の
意順解析ルーチンを所定の順序で実行することにより、
区間内にある語句が何を表わしているかを求めて、語句
を抽出していく。また、別の方法としては、例えば、
『ｙａｃｃ／ｌｅｘプログラムジェネレータｏｎＵＮ
ＩＸ』五月女健治著、哲学出版に記載されている方法が
ある。この方法では、ＵＮＩＸシステムラボラトリーズ
が開発したＵＮＩＸコマンドのｙａｃｃ（構文解析プロ
グラムのＣ言語ジェネレータ）およびｌｅｘ（字句解析
プログラムのＣ言語ジェネレータ）を用いて、文章から
語句（単語および単語の集り）を抽出する仕組みを構築
する。すなわち、ｙａｃｃおよびｌｅｘの構文規則に従
って、語句抽出プログラムを作成した後、そのプログラ
ムをｙａｃｃおよびｌｅｘに入力することにより、Ｃ言
語の語句抽出プログラムを生成する仕組みである。

【０００３】

【発明が解決しようとする課題】しかしながら、前述の
各方法には、以下に述べるような問題点が存在する。先
ず、特開平５−２０３６１号公報に記載の方法では、文
中の区切り記号（例えば、コンマ、コロン等）により語
句の抽出を可能にしているので、文中にもし区切り記号
がない文のときには、必要な語句を抽出することは不可
能となる。また、語句を意味解析するための特徴、例え
ば全体における位置や字数の長さや元号等を、予め詳細
に定義しておく必要がある。次に、ｙａｃｃおよびｌｅ
ｘを用いた方法では、ＵＮＩＸコマンドの構文規則が極
めて複雑であるため、これに熟知した者でなければプロ
グラムを作成することができないという問題がある。ま
た、プログラムを作成できたとしても、ｙａｃｃおよび
ｌｅｘは簡易的なプログラムジェネレータであるため、
使用するために種々の制限が存在し、普通の者では、実
用的な語句抽出プログラムを作成することはできないと
いう問題もある。本発明の目的は、これら従来の課題を
解決し、文中に区切り記号がなくても、またプログラム
に熟知していない者でも、文から必要な情報を抽出する
ことができ、かつ実用的な情報の抽出が可能な情報抽出
方法を提供することにある。

【０００４】

【課題を解決するための手段】上記目的を達成するた
め、本発明の情報抽出方法は、（Ａ）文から必要な情報
を自動的に抽出する情報抽出方法であって、それぞれ抽
出すべき情報と文の定形パターンの特徴を示す特徴デ−
タとから構成される複数の定形パターンを用意してお
き、文中の特徴デ−タと各定形パターン中の特徴デ−タ
とを順次マッチングをとり、最も多くの特徴デ−タが一
致した定形パターンを、文が作成される際に基になった
定形パターンとみなして、定形パターンを参照しながら
文を展開し、展開されたデータから必要な情報を抽出す
ることを特徴としている。また、（Ｂ）それぞれ抽出す
べき情報と文の定形パターンの特徴を示す特徴デ−タと
から構成された複数の定形パターンは、複数の特徴デ−
タのうち特定の特徴デ−タに基づいて分類されており、
先ず、文中の特徴デ−タから、当該文がどの分類に属す
るかを判断した後、次に文中の特徴デ−タと判断された
分類の定形パターン中の特徴デ−タを順次マッチングを
とり、最も多くの特徴デ−タが一致した定形パターン
を、文が作成される際に基になった定形パターンとみな
して、定形パターンを参照しながら文を展開し、展開さ
れたデータから必要な情報を抽出することも特徴として
いる。さらに、（Ｃ）文中の特徴デ−タと、複数の定形
パターンの中の各特徴デ−タとのマッチングをとった結
果、最も多くの特徴デ−タが一致した定形パターンが複
数存在する場合には、複数の定形パターン相互間で、１
定形パターン毎に順次特徴デ−タが他の定形パターンの
特徴デ−タに存在するか否かを判断し、存在しない数を
定形パターン毎にカウントしていき、カウント数が最も
大きい定形パターンを文が作成される際に基になった定
形パターンとみなすことも特徴としている。

【０００５】

【作用】本発明においては、例えば、戸籍簿の入力から
必要な情報（身分事項）を抽出するときには、そこに書
き込まれている文が全て複数の身分事項と特徴デ−タの
集合から構成されているので、先ず、入力された戸籍デ
−タがどの事件種別（出生、婚姻、死亡等の種別）に属
するかを判断し、特定された事件種別の記載パターンの
特徴デ−タと入力された戸籍デ−タの特徴デ−タとを順
次マッチングしていき、一致した特徴デ−タが最も多い
記載パターンをその戸籍デ−タの記載パターンであると
みなす。そして、その記載パターンを参照しながら入力
戸籍デ−タを展開し、必要な情報を抽出する。このよう
に、本発明では、予め定形パターン毎に抽出すべき情報
がその定形パターンのどの部分に存在するかを記憶して
おき、その定形パターンに基づいて作成された文から必
要な情報を抽出する場合に、先ずその文がどの定形パタ
ーンに属するかを、定形パターン毎に存在するいくつか
の特徴デ−タが当該文にどれだけ多く存在するか否かに
より判断する。これにより決定した定形パターンとマッ
チングをとることにより、当該文から情報を抽出するの
で、必要な情報が正確に抽出できる。また、定形パター
ンは特定の特徴デ−タに基づいて分類されているので、
情報を抽出すべき文がどの分類に属するかを判断した後
に、該当する分類中の定形パターンとのマッチング処理
を行うのみでよい。その結果、全ての定形パターンとの
マッチング処理を行う必要がなく、迅速に情報を抽出す
ることが可能である。

【０００６】

【実施例】以下、本発明の実施例を、図面により詳細に
説明する。ここでは、戸籍原簿からの情報抽出に適用し
た場合を例にとって説明する。図３は、本実施例の対象
となる戸籍簿の一例を示す図であり、図４は、身分事項
事件種別コ−ドを示す図である。図３に示すように、戸
籍簿に書かれた文章は一般にいくつかの事件が記載され
ており、それらの１つ１つはいずれも日付の次に本人や
本人に関係する人の事件が記載されている。それらの事
件とは、例えば図４に示すように、『出生』，『婚
姻』，『死亡』等を表わす文のことである。なお、図３
には、『出生』と『婚姻』のみが記載されている。この
ように、戸籍簿の文はある程度フォーマットが定まって
おり、以下に示すようにその文は複数の事件文から構成
されている。戸籍文＝『事件文』『事件文』『事件文』・・・・『事
件文』さらに、各事件文は、以下に示すように、複数の身分事
項と特徴デ−タの集合、あるいは身分事項の集合で構成
されている。事件文＝『身分事項』『特徴デ−タ』『身分事項』『特
徴デ−タ』・・・ここで、身分事項とは、日付や場所等の身分に関する事
項であり、特徴デ−タとは、記載パターンを特定するた
めのデ−タ、つまり出生や婚姻や死亡等の特徴的な事件
デ−タのことである。

【０００７】ところで、事件文は、以下のように４つの
パターンに分類される。ここで、ＮＬとはニューライン
の略で、改行を示している。パターン１＝『身分事項』『身分事項』パターン２＝『身分事項』『ＮＬ』パターン３＝『身分事項』『特徴デ−タ』パターン４＝『特徴デ−タ』例えば、『平成５年３月５日東京都千代田区で出生同月
６日父届出入籍』と言う文章の記載パターンデ−タは、
『（出生日）（出生地）で出生（届出日）（届出人）届
出入籍』であり、これを上記４つのパターンに当てはめ
ると、次のようになる。事件文＝『（身分事項）（身分事項）（特徴デ−タ）
（身分事項）（身分事項）（特徴デ−タ）』

【０００８】図１および図２は、本発明の一実施例を示
す情報抽出方法の動作フローチャ−トであり、特に戸籍
簿の入力から必要な情報（身分事項）を抽出する処理を
示す。また、図５は、内部テーブルの展開図であり、図
６は、記載パターン定義ファイルのデ−タ構成図であ
る。先ず、図１に示すように、記載パターン定義ファイ
ルから記載パターンデ−タを読み込んで登録した後、記
載項目事件種別から事件種別を特定するための特徴デ−
タを作成して、テーブルに展開する。ここで、特徴デ−
タとは、例えば『出生』，『婚姻』等の言葉であって、
以後はキーワードと呼ぶ。また、登録された記載パター
ンデ−タから、記載パターンを特定するための特徴デ−
タを抽出し、テーブルに展開する（ステップ４００）。
展開された内部テーブルの概念は、図５に示す通りであ
る。図５では、『出生』，『婚姻届出、婚姻取消により
婚姻と婚姻国籍取得』，『離婚』，『国籍取得帰化
国籍選択国籍喪失夫国籍妻国籍』に分けられてい
る。また、記載パターン定義ファイルに格納する記載パ
ターンデ−タの構成は、図６に示すように、出生、婚姻
等の事件毎に複数のパターンに分かれており、身分事項
を展開するための記載パターンデ−タを全て格納してお
く。図６のパターンには、次の３つのパターンが示され
ている。出生１＝（出生日）（出生地）で出生（届出日）（届出
人）届出入籍、出生２＝（出生日）（出生地）で出生（届出日）（届出
人）届出（送付を受けた日）（受理者）入籍、出生３＝（出生日）（出生地）で出生（届出日）（届出
人）（特記事項）届出入籍

【０００９】図１のフロ−では、次に、戸籍デ−タを入
力する（ステップ４０１）。なお、既に複数の戸籍デ−
タが入力されている場合には、次に処理の対象となる戸
籍デ−タを取り出す。全ての戸籍デ−タが入力され、処
理されたか否かを判断し、全てが入力されるまで処理を
続行する（ステップ４０２）。戸籍デ−タが入力される
と、次に、記載パターンデ−タ定義ファイルに格納され
た記載パターンデ−タと、戸籍デ−タファイルより入力
された戸籍データとのマッチング処理を行う。マッチン
グ処理に先行して、先ず記載項目事件種別の特定を行う
（ステップ４０３）。この戸籍デ−タファイルには、戸
籍簿上の身分事項欄のデ−タが１文につき１レコ−ドに
なって格納されている。しかし、登録されている全記載
パターンデ−タの数は膨大であるため、全てのパターン
とのマッチング処理を行うと時間がかかり過ぎる。そこ
で、登録された全記載パタ−ンデ−タとのマッチングを
避けるために、マッチング処理の前に先ず事件種別の特
定を行うのである。特定処理としては、予め記載項目事
件種別を特定するためのキーワード、および以下に述べ
る記載パターン特定処理により、事件種別を特定する。
この時、一意に決まらない場合には（４０３０）、それ
ぞれの事件種別に対して記載パターンの特徴デ−タとマ
ッチングを行う（４０３１）。この場合、対象となる文
の事件種別と異なる事件種別の記載パターンの特徴デ−
タとマッチングする必要はないので、記載パターンを一
意に決定することができる。

【００１０】このようにして、記載項目事件種別が決定
したならば（ステップ４０３０）、次は記載パターンを
特定する。記載パターンの特定は、対象となる事件種別
の全記載パターンに対して、内部テーブル展開順に入力
データと特徴データ（記載パターン特定用デ−タ）とを
マッチングすることにより行う（ステップ４０４）。こ
の場合、一意にパタ−ンとマッチングすることが決定さ
れたときには（ステップ４０５）、マッチングを終了す
るが（ステップ４０８）、一意に決定されないときに
は、後述するように、図６のフロ−により記載パターン
特定処理を用いて１つのパターンに特定する（ステップ
４０５０）。この処理を用いても１つに特定できない場
合には（４０６）、後述するように、身分事項展開時に
特定する（ステップ４０７）。なお、記載パターンに一
致するものがないときには、エラ−となる。図７は、図
１における記載パターン特定処理を示すフローチャート
である。図１における記載パターン特定処理（ステップ
４０５０）では、先ず対象となった全記載パターンにつ
いて、特徴デ−タが他の対象となった記載パターンの特
徴デ−タに存在するか否かを順次チェックする。そし
て、存在しない数を記載パターン毎にカウントして（ス
テップ２０９）、最もカウント数が大である記載パター
ンを身分事項の展開対象とする。すなわち、この場合に
は、文の特徴データと複数の定形パターンとのマッチン
グをとった結果、最も多くの特徴データが一致する定形
パタ−ンが特定できないとき、つまり最も多くの特徴デ
−タが一致する定形パタ−ンが複数個存在するときであ
る。このようなときには、最後に残った複数個の定形パ
ターン相互間で、１定形パターン毎に、順次特徴デ−タ
が他の定形パターンの特徴デ−タに存在するか否かを判
断し、存在しない数を定形パターン毎にカウントして、
最もカウント値の大きい定形パターンをその文の定形パ
ターンとみなすのである。この処理の原理は、文中の用
語が、予め準備されていた定形パターンの特徴デ−タに
ない用語であるとき、つまりヌル文字と判断されるとき
に、１つの定形パターンに特定できなくなることが多い
ので、ヌル文字と判断されるような、複数の定形パター
ンの特徴デ−タには存在しない特徴デ−タを最も多く有
する定形パターンを探索することが最良の方法と考えら
れるからである。

【００１１】例えば、以下の３つの記載パターンが対象
となった場合の処理について説明する。記載パターン１・・『で出生』，『届出』，『から送付
入籍』記載パターン２・・『で出生』，『国籍保留とともに届
出』，『から送付入籍』記載パターン３・・『で出
生』，『届出』先ず、記載パターン１の特徴デ−タ（『で出生』，『届
出』，『から送付入籍』）が他の記載パターン（２およ
び３）の特徴デ−タに存在しない数を求める。『で出生』は、記載パターン２，３ともに存在するの
で、カウントアップは行わない。『届出』は、記載パターン２，３ともに存在するの
で、カウントアップは行わない。『から送付入籍』は、記載パターン２には存在する
が、記載パターン３には存在しないので、１カウントア
ップする。以上の結果から、記載パターン１のカウント数は
『１』である。次に、記載パターン２の特徴デ−タ
（『で出生』，『国籍保留とともに届出』，『から送付
入籍』）が、他の記載パターン（１および３）の特徴デ
−タに存在しない数を求める。『で出生』は、記載パターン１，３ともに存在するの
で、カウントアップは行わない。『国籍保留とともに届出』は、記載パターン１，３と
もに存在しないので、２カウントアップする。『から送付入籍』は、記載パターン１には存在する
が、記載パターン３には存在しないので、１カウントア
ップする。以上の結果から、記載パターン２のカウント数は
『３』である。最後に、記載パタ−ン３の特徴デ−タ
（『で出生』，『届出』）が、他の記載パターン（１お
よび２）の特徴デ−タに存在しない数を求める。『で出生』は、記載パターン１，２ともに存在するの
で、カウントアップは行わない。『届出』は、記載パターン１，２ともに存在するの
で、カウントアップは行わない。以上の結果から、記載パターン３のカウント数は『０』
である。

【００１２】チェックの結果、記載パターン２のカウン
ト数が最も大であったので、記載パターン２を身分事項
の展開対象とする。つまり、他の記載パターンの特徴デ
ータに存在しない特徴データを多く持つ記載パターンを
身分事項の展開対象とする処理方法である。図７では、
上述した記載パターン特定処理のフロ−が示されてい
る。比較すべき対象パターン（１，２，３）がなくなる
まで（ステップ２０１）、カウンタと不一致エリアの初
期化を行い（ステップ２０２）、かつその対象パターン
の特徴デ−タがなくなるまで（ステップ２０３）、マッ
チングのための初期設定を行う（ステップ２０４）。比
較のための対象パタ−ンとのマッチングが終了すれば、
次の対象パターンに移る（ステップ２０５，２０３）。
対象パターンが同一であれば、カウントせずに次の対象
パターンに移る（ステップ２０６，２０５）。対象パタ
−ンが同じでなければ、マッチングのための初期設定を
行い（ステップ２０６，２０７）、マッチングをとった
結果がヌル文字（無意味な文字）であれば、カウントア
ップを行う（ステップ２０８，２０９）。また、特徴デ
−タが存在すれば、対象パタ−ンの同一チェックを行っ
て、マッチング処理に移る（ステップ２１０，２０５，
２０６，２０７）。そして、対象パタ−ン中の比較すべ
き特徴デ−タが終了すると（ステップ２０３）、不一致
数エリアの値とカウンタの値を比較して（ステップ２１
２）、不一致エリアが大のときには次の対象パターンと
の比較に移り、カウンタの値が大のときにはそのカウン
タ値を不一致エリアに書き込み、記載パターン番号を格
納した後（ステップ２１３）、次の対象パターンとの比
較に移る。比較すべき対象パターンがなくなれば（ステ
ップ２０１）、処理を終了する。

【００１３】図１、図２に戻り、図７のような記載パタ
ーン特定処理を行った後（ステップ４０５０）、一意に
決定され（ステップ４０６）、マッチングが終了すると
（ステップ４０８）、特定された記載パターンデ−タを
用いて身分事項の展開を行う（ステップ４０９）。以
下、身分事項の展開例を説明する。〔身分事項展開例〕入力デ−タ：『平成５年３月１日東京都千代田区で出生
同月２日父届出同月３日同区長から送付入籍』記載パターン：（出生日）（出生地）で出生（届出日）
（届出人）届出（送付を受けた日）（受理者）から送付
入籍記載パターンデ−タとマッチングを行い、身分事項を
展開する。（ア）記載パターンデ−タの先頭の情報が『出生日』
で、次の情報が身分事項であることを判定する。この場
合、『出生日』が『日付』であるため『日』で区切り、
『平成５年３月１日』を抽出する。（イ）次の情報が『出生地』で、その次がセパレータで
あることを判定する。従って、特徴デ−タ『で出生』で
区切り、『東京都千代田区』を抽出する。（ウ）次の情報が『届出日』で、その次が身分事項であ
ることを判定する。従って、『届出日』が『日付』であ
るため『日』で区切り、『同月２日』を抽出する。（エ）次の情報が『届出人』で、その次がセパレータで
ある。従って、特徴データ『届出』で区切り、『父』を
抽出する。（オ）次の情報が『送付を受けた日』で、その次が身分
事項である。従って、『送付を受けた日』が『日付』で
あるため『日』で区切り、『同月３日』を抽出する。（カ）次の情報が『受理者』で、その次がセパレータで
ある。従って、特徴デ−タ『から送付入籍』で区切り、
『同区長』を抽出する。（キ）次の情報はＮＬ（ニューライン）である。従っ
て、入力デ−タの身分事項の展開はこれで終了する。

【００１４】図１、図２に戻って、身分事項の展開（ス
テップ４０９）に続く処理について述べる。ＮＬまで
展開したならば（ステップ４１０）、身分事項デ−タを
ワークエリアにセットする（ステップ４１１）。ワークエリアにセットされた身分事項デ−タと、記載
パターンデ−タを用いて文章を復元し、入力データとの
整合性をチェックする（ステップ４１２）。不整合が生
じなければ（ステップ４１３）、ワークエリアの身分事
項デ−タをセーブエリアにセットする（ステップ４１
４）。一方、不整合があった場合には、例外記載パター
ンとなり（ステップ４１５）、印刷して出力される（ス
テップ４１５０）。セーブエリアにセットされている身分事項データのう
ち、省略されているものを、決められたル−ルに従って
追加することにより、身分事項データを復元する（ステ
ップ４１６）。例えば、『同月』を『３月』にする等が
これに該当する。以上の手順により、身分事項の展開が
終了したならば（ステップ４１７）、セーブエリアに展
開された身分事項の内容と別ファイル（戸籍簿上の身分
事項以外の情報を格納してあるファイル）の内容との整
合性をチェックする（ステップ４１８）。チェック項目
としては、例えば、父親等の名前、日付の前後関係、元
号に対する年号（西歴との対応）等である。最後に、抽
出されてセーブエリアに展開された身分事項情報を、身
分事項ファイルに格納する（ステップ４１９）。なお、
身分事項への格納は、整合性チェックの結果に関係なく
行われる。また、身分事項デ−タの復元（ステップ４１
６）あるいは整合性のチェック（ステップ４１２）等の
処理は、戸籍デ−タに特有の処理であるため、入力デ−
タが戸籍デ−タ以外の場合には省略することができる。

【００１５】

【発明の効果】以上説明したように、本発明によれば、
（ａ）予め定められた定形パターンに基づき文から情報
を抽出するので、文中に区切り記号がなくても必要な情
報を正確に抽出することができる。また、（ｂ）定形パ
ターンは特定の特徴デ−タに基づいて分類されており、
情報を抽出すべき文がどの分類に属するかを先ず判断し
た後に、該当する分類中の定形パターンとのマッチング
処理を行うので、全ての定形パターンとのマッチング処
理を行う必要がなく、迅速な情報抽出を行うことができ
る。

【図面の簡単な説明】

【図１】本発明の一実施例として、戸籍簿の入力から必
要な情報を抽出する処理のフローチャートの一部であ
る。

【図２】同じく情報抽出処理のフローチャートの他の一
部である。

【図３】図１，図２に用いられる戸籍簿の一例を示す図
である。

【図４】図１，図２で用いられる身分事項事件種別コー
ドの一覧を示す図である。

【図５】図１，図２で用いられる内部テーブルの展開図
である。

【図６】図１，図２で用いられる記載パターンデ−タ定
義ファイルのデ−タ構造図である。

【図７】図１，図２における記載パターン特定処理を示
す詳細フローチャートである。

【符号の説明】

０１〜３２身分事項事件種別コード

Claims

【特許請求の範囲】

【請求項１】文から必要な情報を自動的に抽出する情報
抽出方法であって、それぞれ抽出すべき情報と文の定形パターンの特徴を示
す特徴デ−タとから構成される複数の定形パターンを用
意しておき、上記文中の特徴デ−タと各定形パターン中
の特徴デ−タとを順次マッチングをとり、最も多くの特
徴デ−タが一致した定形パターンを、上記文が作成され
る際に基になった定形パターンとみなして、該定形パタ
ーンを参照しながら上記文を展開し、展開されたデータ
から必要な情報を抽出することを特徴とする情報抽出方
法。
【請求項２】文から必要な情報を自動的に抽出する情報
抽出方法であって、それぞれ抽出すべき情報と文の定形パターンの特徴を示
す特徴デ−タとから構成された複数の定形パターンは、
複数の特徴デ−タのうち特定の特徴デ−タに基づいて分
類されており、先ず、上記文中の特徴デ−タから、当該
文がどの分類に属するかを判断した後、次に該文中の特
徴デ−タと判断された分類の定形パターン中の特徴デ−
タを順次マッチングをとり、最も多くの特徴デ−タが一
致した定形パターンを、上記文が作成される際に基にな
った定形パターンとみなして、該定形パターンを参照し
ながら上記文を展開し、展開されたデータから必要な情
報を抽出することを特徴とする情報抽出方法。
【請求項３】請求項１に記載の情報抽出方法において、
前記文中の特徴デ−タと、複数の定形パターンの中の各
特徴デ−タとのマッチングをとった結果、最も多くの特
徴デ−タが一致した定形パターンが複数存在する場合に
は、該複数の定形パターン相互間で、１定形パターン毎
に順次特徴デ−タが他の定形パターンの特徴デ−タに存
在するか否かを判断し、存在しない数を上記定形パター
ン毎にカウントしていき、該カウント数が最も大きい定
形パターンを上記文が作成される際に基になった定形パ
ターンとみなすことを特徴とする情報抽出方法。