JPH0773188A - 情報抽出方法 - Google Patents

情報抽出方法

Info

Publication number
JPH0773188A
JPH0773188A JP5217464A JP21746493A JPH0773188A JP H0773188 A JPH0773188 A JP H0773188A JP 5217464 A JP5217464 A JP 5217464A JP 21746493 A JP21746493 A JP 21746493A JP H0773188 A JPH0773188 A JP H0773188A
Authority
JP
Japan
Prior art keywords
data
sentence
pattern
feature data
fixed pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5217464A
Other languages
English (en)
Other versions
JP2848430B2 (ja
Inventor
Katsunao Shibata
克尚 柴田
Tomoko Hirano
智子 平野
Akiko Kikuchi
章子 菊池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information Systems Ltd
Original Assignee
Hitachi Information Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information Systems Ltd filed Critical Hitachi Information Systems Ltd
Priority to JP5217464A priority Critical patent/JP2848430B2/ja
Publication of JPH0773188A publication Critical patent/JPH0773188A/ja
Application granted granted Critical
Publication of JP2848430B2 publication Critical patent/JP2848430B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文中に区切り記号がなくても必要な情報を抽
出することができ、かつ迅速に情報を抽出することが可
能な方法を実現する。 【構成】 複数の定形パターンは抽出すべき情報と定形
パターンの特徴を示す特徴デ−タとからなり、文の特徴
デ−タをこれらの複数の定形パターン中の特徴デ−タと
マッチングをとり、最も多くの特徴デ−タが一致した定
形パターンを文の定形パターンとみなして、文を展開し
て情報を抽出する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、先ず抽出すべき情報の
分類を判断することにより、パタ−ンマッチングを迅速
に行って、文から必要な情報を抽出することが可能な情
報抽出方法に関する。
【0002】
【従来の技術】従来、順序や書き方の異なった文献リス
ト等を抽出する方法としては、例えば特開平5−203
61号公報に記載された意味抽出方法がある。この方法
では、先ず記載形式の異なる入力レコ−ドを形態素解析
処理(単語分割と品詞付け)により単語に分割した後、
予め用意された区切り記号テーブルを用いて、区間分割
処理により分割された単語をさらに区間に分割し、次の
意味解析処理において分割された各区間に対して複数の
意順解析ルーチンを所定の順序で実行することにより、
区間内にある語句が何を表わしているかを求めて、語句
を抽出していく。また、別の方法としては、例えば、
『yacc/lexプログラムジェネレータon UN
IX』五月女健治著、哲学出版に記載されている方法が
ある。この方法では、UNIXシステムラボラトリーズ
が開発したUNIXコマンドのyacc(構文解析プロ
グラムのC言語ジェネレータ)およびlex(字句解析
プログラムのC言語ジェネレータ)を用いて、文章から
語句(単語および単語の集り)を抽出する仕組みを構築
する。すなわち、yaccおよびlexの構文規則に従
って、語句抽出プログラムを作成した後、そのプログラ
ムをyaccおよびlexに入力することにより、C言
語の語句抽出プログラムを生成する仕組みである。
【0003】
【発明が解決しようとする課題】しかしながら、前述の
各方法には、以下に述べるような問題点が存在する。先
ず、特開平5−20361号公報に記載の方法では、文
中の区切り記号(例えば、コンマ、コロン等)により語
句の抽出を可能にしているので、文中にもし区切り記号
がない文のときには、必要な語句を抽出することは不可
能となる。また、語句を意味解析するための特徴、例え
ば全体における位置や字数の長さや元号等を、予め詳細
に定義しておく必要がある。次に、yaccおよびle
xを用いた方法では、UNIXコマンドの構文規則が極
めて複雑であるため、これに熟知した者でなければプロ
グラムを作成することができないという問題がある。ま
た、プログラムを作成できたとしても、yaccおよび
lexは簡易的なプログラムジェネレータであるため、
使用するために種々の制限が存在し、普通の者では、実
用的な語句抽出プログラムを作成することはできないと
いう問題もある。本発明の目的は、これら従来の課題を
解決し、文中に区切り記号がなくても、またプログラム
に熟知していない者でも、文から必要な情報を抽出する
ことができ、かつ実用的な情報の抽出が可能な情報抽出
方法を提供することにある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明の情報抽出方法は、(A)文から必要な情報
を自動的に抽出する情報抽出方法であって、それぞれ抽
出すべき情報と文の定形パターンの特徴を示す特徴デ−
タとから構成される複数の定形パターンを用意してお
き、文中の特徴デ−タと各定形パターン中の特徴デ−タ
とを順次マッチングをとり、最も多くの特徴デ−タが一
致した定形パターンを、文が作成される際に基になった
定形パターンとみなして、定形パターンを参照しながら
文を展開し、展開されたデータから必要な情報を抽出す
ることを特徴としている。また、(B)それぞれ抽出す
べき情報と文の定形パターンの特徴を示す特徴デ−タと
から構成された複数の定形パターンは、複数の特徴デ−
タのうち特定の特徴デ−タに基づいて分類されており、
先ず、文中の特徴デ−タから、当該文がどの分類に属す
るかを判断した後、次に文中の特徴デ−タと判断された
分類の定形パターン中の特徴デ−タを順次マッチングを
とり、最も多くの特徴デ−タが一致した定形パターン
を、文が作成される際に基になった定形パターンとみな
して、定形パターンを参照しながら文を展開し、展開さ
れたデータから必要な情報を抽出することも特徴として
いる。さらに、(C)文中の特徴デ−タと、複数の定形
パターンの中の各特徴デ−タとのマッチングをとった結
果、最も多くの特徴デ−タが一致した定形パターンが複
数存在する場合には、複数の定形パターン相互間で、1
定形パターン毎に順次特徴デ−タが他の定形パターンの
特徴デ−タに存在するか否かを判断し、存在しない数を
定形パターン毎にカウントしていき、カウント数が最も
大きい定形パターンを文が作成される際に基になった定
形パターンとみなすことも特徴としている。
【0005】
【作用】本発明においては、例えば、戸籍簿の入力から
必要な情報(身分事項)を抽出するときには、そこに書
き込まれている文が全て複数の身分事項と特徴デ−タの
集合から構成されているので、先ず、入力された戸籍デ
−タがどの事件種別(出生、婚姻、死亡等の種別)に属
するかを判断し、特定された事件種別の記載パターンの
特徴デ−タと入力された戸籍デ−タの特徴デ−タとを順
次マッチングしていき、一致した特徴デ−タが最も多い
記載パターンをその戸籍デ−タの記載パターンであると
みなす。そして、その記載パターンを参照しながら入力
戸籍デ−タを展開し、必要な情報を抽出する。このよう
に、本発明では、予め定形パターン毎に抽出すべき情報
がその定形パターンのどの部分に存在するかを記憶して
おき、その定形パターンに基づいて作成された文から必
要な情報を抽出する場合に、先ずその文がどの定形パタ
ーンに属するかを、定形パターン毎に存在するいくつか
の特徴デ−タが当該文にどれだけ多く存在するか否かに
より判断する。これにより決定した定形パターンとマッ
チングをとることにより、当該文から情報を抽出するの
で、必要な情報が正確に抽出できる。また、定形パター
ンは特定の特徴デ−タに基づいて分類されているので、
情報を抽出すべき文がどの分類に属するかを判断した後
に、該当する分類中の定形パターンとのマッチング処理
を行うのみでよい。その結果、全ての定形パターンとの
マッチング処理を行う必要がなく、迅速に情報を抽出す
ることが可能である。
【0006】
【実施例】以下、本発明の実施例を、図面により詳細に
説明する。ここでは、戸籍原簿からの情報抽出に適用し
た場合を例にとって説明する。図3は、本実施例の対象
となる戸籍簿の一例を示す図であり、図4は、身分事項
事件種別コ−ドを示す図である。図3に示すように、戸
籍簿に書かれた文章は一般にいくつかの事件が記載され
ており、それらの1つ1つはいずれも日付の次に本人や
本人に関係する人の事件が記載されている。それらの事
件とは、例えば図4に示すように、『出生』,『婚
姻』,『死亡』等を表わす文のことである。なお、図3
には、『出生』と『婚姻』のみが記載されている。この
ように、戸籍簿の文はある程度フォーマットが定まって
おり、以下に示すようにその文は複数の事件文から構成
されている。 戸籍文=『事件文』『事件文』『事件文』・・・・『事
件文』 さらに、各事件文は、以下に示すように、複数の身分事
項と特徴デ−タの集合、あるいは身分事項の集合で構成
されている。 事件文=『身分事項』『特徴デ−タ』『身分事項』『特
徴デ−タ』・・・ ここで、身分事項とは、日付や場所等の身分に関する事
項であり、特徴デ−タとは、記載パターンを特定するた
めのデ−タ、つまり出生や婚姻や死亡等の特徴的な事件
デ−タのことである。
【0007】ところで、事件文は、以下のように4つの
パターンに分類される。ここで、NLとはニューライン
の略で、改行を示している。 パターン1=『身分事項』『身分事項』 パターン2=『身分事項』『NL』 パターン3=『身分事項』『特徴デ−タ』 パターン4=『特徴デ−タ』 例えば、『平成5年3月5日東京都千代田区で出生同月
6日父届出入籍』と言う文章の記載パターンデ−タは、
『(出生日)(出生地)で出生(届出日)(届出人)届
出入籍』であり、これを上記4つのパターンに当てはめ
ると、次のようになる。 事件文=『(身分事項)(身分事項)(特徴デ−タ)
(身分事項)(身分事項)(特徴デ−タ)』
【0008】図1および図2は、本発明の一実施例を示
す情報抽出方法の動作フローチャ−トであり、特に戸籍
簿の入力から必要な情報(身分事項)を抽出する処理を
示す。また、図5は、内部テーブルの展開図であり、図
6は、記載パターン定義ファイルのデ−タ構成図であ
る。先ず、図1に示すように、記載パターン定義ファイ
ルから記載パターンデ−タを読み込んで登録した後、記
載項目事件種別から事件種別を特定するための特徴デ−
タを作成して、テーブルに展開する。ここで、特徴デ−
タとは、例えば『出生』,『婚姻』等の言葉であって、
以後はキーワードと呼ぶ。また、登録された記載パター
ンデ−タから、記載パターンを特定するための特徴デ−
タを抽出し、テーブルに展開する(ステップ400)。
展開された内部テーブルの概念は、図5に示す通りであ
る。図5では、『出生』,『婚姻届出、婚姻取消により
婚姻と婚姻国籍取得』,『離婚』,『国籍取得 帰化
国籍選択 国籍喪失 夫国籍妻国籍』に分けられてい
る。また、記載パターン定義ファイルに格納する記載パ
ターンデ−タの構成は、図6に示すように、出生、婚姻
等の事件毎に複数のパターンに分かれており、身分事項
を展開するための記載パターンデ−タを全て格納してお
く。図6のパターンには、次の3つのパターンが示され
ている。 出生1=(出生日)(出生地)で出生(届出日)(届出
人)届出入籍、 出生2=(出生日)(出生地)で出生(届出日)(届出
人)届出(送付を受けた日)(受理者)入籍、 出生3=(出生日)(出生地)で出生(届出日)(届出
人)(特記事項)届出入籍
【0009】図1のフロ−では、次に、戸籍デ−タを入
力する(ステップ401)。なお、既に複数の戸籍デ−
タが入力されている場合には、次に処理の対象となる戸
籍デ−タを取り出す。全ての戸籍デ−タが入力され、処
理されたか否かを判断し、全てが入力されるまで処理を
続行する(ステップ402)。戸籍デ−タが入力される
と、次に、記載パターンデ−タ定義ファイルに格納され
た記載パターンデ−タと、戸籍デ−タファイルより入力
された戸籍データとのマッチング処理を行う。マッチン
グ処理に先行して、先ず記載項目事件種別の特定を行う
(ステップ403)。この戸籍デ−タファイルには、戸
籍簿上の身分事項欄のデ−タが1文につき1レコ−ドに
なって格納されている。しかし、登録されている全記載
パターンデ−タの数は膨大であるため、全てのパターン
とのマッチング処理を行うと時間がかかり過ぎる。そこ
で、登録された全記載パタ−ンデ−タとのマッチングを
避けるために、マッチング処理の前に先ず事件種別の特
定を行うのである。特定処理としては、予め記載項目事
件種別を特定するためのキーワード、および以下に述べ
る記載パターン特定処理により、事件種別を特定する。
この時、一意に決まらない場合には(4030)、それ
ぞれの事件種別に対して記載パターンの特徴デ−タとマ
ッチングを行う(4031)。この場合、対象となる文
の事件種別と異なる事件種別の記載パターンの特徴デ−
タとマッチングする必要はないので、記載パターンを一
意に決定することができる。
【0010】このようにして、記載項目事件種別が決定
したならば(ステップ4030)、次は記載パターンを
特定する。記載パターンの特定は、対象となる事件種別
の全記載パターンに対して、内部テーブル展開順に入力
データと特徴データ(記載パターン特定用デ−タ)とを
マッチングすることにより行う(ステップ404)。こ
の場合、一意にパタ−ンとマッチングすることが決定さ
れたときには(ステップ405)、マッチングを終了す
るが(ステップ408)、一意に決定されないときに
は、後述するように、図6のフロ−により記載パターン
特定処理を用いて1つのパターンに特定する(ステップ
4050)。この処理を用いても1つに特定できない場
合には(406)、後述するように、身分事項展開時に
特定する(ステップ407)。なお、記載パターンに一
致するものがないときには、エラ−となる。図7は、図
1における記載パターン特定処理を示すフローチャート
である。図1における記載パターン特定処理(ステップ
4050)では、先ず対象となった全記載パターンにつ
いて、特徴デ−タが他の対象となった記載パターンの特
徴デ−タに存在するか否かを順次チェックする。そし
て、存在しない数を記載パターン毎にカウントして(ス
テップ209)、最もカウント数が大である記載パター
ンを身分事項の展開対象とする。すなわち、この場合に
は、文の特徴データと複数の定形パターンとのマッチン
グをとった結果、最も多くの特徴データが一致する定形
パタ−ンが特定できないとき、つまり最も多くの特徴デ
−タが一致する定形パタ−ンが複数個存在するときであ
る。このようなときには、最後に残った複数個の定形パ
ターン相互間で、1定形パターン毎に、順次特徴デ−タ
が他の定形パターンの特徴デ−タに存在するか否かを判
断し、存在しない数を定形パターン毎にカウントして、
最もカウント値の大きい定形パターンをその文の定形パ
ターンとみなすのである。この処理の原理は、文中の用
語が、予め準備されていた定形パターンの特徴デ−タに
ない用語であるとき、つまりヌル文字と判断されるとき
に、1つの定形パターンに特定できなくなることが多い
ので、ヌル文字と判断されるような、複数の定形パター
ンの特徴デ−タには存在しない特徴デ−タを最も多く有
する定形パターンを探索することが最良の方法と考えら
れるからである。
【0011】例えば、以下の3つの記載パターンが対象
となった場合の処理について説明する。 記載パターン1・・『で出生』,『届出』,『から送付
入籍』 記載パターン2・・『で出生』,『国籍保留とともに届
出』,『から送付入籍』 記載パターン3・・『で出
生』,『届出』 先ず、記載パターン1の特徴デ−タ(『で出生』,『届
出』,『から送付入籍』)が他の記載パターン(2およ
び3)の特徴デ−タに存在しない数を求める。 『で出生』は、記載パターン2,3ともに存在するの
で、カウントアップは行わない。 『届出』は、記載パターン2,3ともに存在するの
で、カウントアップは行わない。 『から送付入籍』は、記載パターン2には存在する
が、記載パターン3には存在しないので、1カウントア
ップする。 以上の結果から、記載パターン1のカウント数は
『1』である。次に、記載パターン2の特徴デ−タ
(『で出生』,『国籍保留とともに届出』,『から送付
入籍』)が、他の記載パターン(1および3)の特徴デ
−タに存在しない数を求める。 『で出生』は、記載パターン1,3ともに存在するの
で、カウントアップは行わない。 『国籍保留とともに届出』は、記載パターン1,3と
もに存在しないので、2カウントアップする。 『から送付入籍』は、記載パターン1には存在する
が、記載パターン3には存在しないので、1カウントア
ップする。 以上の結果から、記載パターン2のカウント数は
『3』である。最後に、記載パタ−ン3の特徴デ−タ
(『で出生』,『届出』)が、他の記載パターン(1お
よび2)の特徴デ−タに存在しない数を求める。 『で出生』は、記載パターン1,2ともに存在するの
で、カウントアップは行わない。 『届出』は、記載パターン1,2ともに存在するの
で、カウントアップは行わない。 以上の結果から、記載パターン3のカウント数は『0』
である。
【0012】チェックの結果、記載パターン2のカウン
ト数が最も大であったので、記載パターン2を身分事項
の展開対象とする。つまり、他の記載パターンの特徴デ
ータに存在しない特徴データを多く持つ記載パターンを
身分事項の展開対象とする処理方法である。図7では、
上述した記載パターン特定処理のフロ−が示されてい
る。比較すべき対象パターン(1,2,3)がなくなる
まで(ステップ201)、カウンタと不一致エリアの初
期化を行い(ステップ202)、かつその対象パターン
の特徴デ−タがなくなるまで(ステップ203)、マッ
チングのための初期設定を行う(ステップ204)。比
較のための対象パタ−ンとのマッチングが終了すれば、
次の対象パターンに移る(ステップ205,203)。
対象パターンが同一であれば、カウントせずに次の対象
パターンに移る(ステップ206,205)。対象パタ
−ンが同じでなければ、マッチングのための初期設定を
行い(ステップ206,207)、マッチングをとった
結果がヌル文字(無意味な文字)であれば、カウントア
ップを行う(ステップ208,209)。また、特徴デ
−タが存在すれば、対象パタ−ンの同一チェックを行っ
て、マッチング処理に移る(ステップ210,205,
206,207)。そして、対象パタ−ン中の比較すべ
き特徴デ−タが終了すると(ステップ203)、不一致
数エリアの値とカウンタの値を比較して(ステップ21
2)、不一致エリアが大のときには次の対象パターンと
の比較に移り、カウンタの値が大のときにはそのカウン
タ値を不一致エリアに書き込み、記載パターン番号を格
納した後(ステップ213)、次の対象パターンとの比
較に移る。比較すべき対象パターンがなくなれば(ステ
ップ201)、処理を終了する。
【0013】図1、図2に戻り、図7のような記載パタ
ーン特定処理を行った後(ステップ4050)、一意に
決定され(ステップ406)、マッチングが終了すると
(ステップ408)、特定された記載パターンデ−タを
用いて身分事項の展開を行う(ステップ409)。以
下、身分事項の展開例を説明する。 〔身分事項展開例〕 入力デ−タ:『平成5年3月1日東京都千代田区で出生
同月2日父届出同月3日同区長から送付入籍』 記載パターン:(出生日)(出生地)で出生(届出日)
(届出人)届出(送付を受けた日)(受理者)から送付
入籍 記載パターンデ−タとマッチングを行い、身分事項を
展開する。 (ア)記載パターンデ−タの先頭の情報が『出生日』
で、次の情報が身分事項であることを判定する。この場
合、『出生日』が『日付』であるため『日』で区切り、
『平成5年3月1日』を抽出する。 (イ)次の情報が『出生地』で、その次がセパレータで
あることを判定する。従って、特徴デ−タ『で出生』で
区切り、『東京都千代田区』を抽出する。 (ウ)次の情報が『届出日』で、その次が身分事項であ
ることを判定する。従って、『届出日』が『日付』であ
るため『日』で区切り、『同月2日』を抽出する。 (エ)次の情報が『届出人』で、その次がセパレータで
ある。従って、特徴データ『届出』で区切り、『父』を
抽出する。 (オ)次の情報が『送付を受けた日』で、その次が身分
事項である。従って、『送付を受けた日』が『日付』で
あるため『日』で区切り、『同月3日』を抽出する。 (カ)次の情報が『受理者』で、その次がセパレータで
ある。従って、特徴デ−タ『から送付入籍』で区切り、
『同区長』を抽出する。 (キ)次の情報はNL(ニューライン)である。従っ
て、入力デ−タの身分事項の展開はこれで終了する。
【0014】図1、図2に戻って、身分事項の展開(ス
テップ409)に続く処理について述べる。NLまで
展開したならば(ステップ410)、身分事項デ−タを
ワークエリアにセットする(ステップ411)。 ワークエリアにセットされた身分事項デ−タと、記載
パターンデ−タを用いて文章を復元し、入力データとの
整合性をチェックする(ステップ412)。不整合が生
じなければ(ステップ413)、ワークエリアの身分事
項デ−タをセーブエリアにセットする(ステップ41
4)。一方、不整合があった場合には、例外記載パター
ンとなり(ステップ415)、印刷して出力される(ス
テップ4150)。 セーブエリアにセットされている身分事項データのう
ち、省略されているものを、決められたル−ルに従って
追加することにより、身分事項データを復元する(ステ
ップ416)。例えば、『同月』を『3月』にする等が
これに該当する。以上の手順により、身分事項の展開が
終了したならば(ステップ417)、セーブエリアに展
開された身分事項の内容と別ファイル(戸籍簿上の身分
事項以外の情報を格納してあるファイル)の内容との整
合性をチェックする(ステップ418)。チェック項目
としては、例えば、父親等の名前、日付の前後関係、元
号に対する年号(西歴との対応)等である。最後に、抽
出されてセーブエリアに展開された身分事項情報を、身
分事項ファイルに格納する(ステップ419)。なお、
身分事項への格納は、整合性チェックの結果に関係なく
行われる。また、身分事項デ−タの復元(ステップ41
6)あるいは整合性のチェック(ステップ412)等の
処理は、戸籍デ−タに特有の処理であるため、入力デ−
タが戸籍デ−タ以外の場合には省略することができる。
【0015】
【発明の効果】以上説明したように、本発明によれば、
(a)予め定められた定形パターンに基づき文から情報
を抽出するので、文中に区切り記号がなくても必要な情
報を正確に抽出することができる。また、(b)定形パ
ターンは特定の特徴デ−タに基づいて分類されており、
情報を抽出すべき文がどの分類に属するかを先ず判断し
た後に、該当する分類中の定形パターンとのマッチング
処理を行うので、全ての定形パターンとのマッチング処
理を行う必要がなく、迅速な情報抽出を行うことができ
る。
【図面の簡単な説明】
【図1】本発明の一実施例として、戸籍簿の入力から必
要な情報を抽出する処理のフローチャートの一部であ
る。
【図2】同じく情報抽出処理のフローチャートの他の一
部である。
【図3】図1,図2に用いられる戸籍簿の一例を示す図
である。
【図4】図1,図2で用いられる身分事項事件種別コー
ドの一覧を示す図である。
【図5】図1,図2で用いられる内部テーブルの展開図
である。
【図6】図1,図2で用いられる記載パターンデ−タ定
義ファイルのデ−タ構造図である。
【図7】図1,図2における記載パターン特定処理を示
す詳細フローチャートである。
【符号の説明】
01〜32 身分事項事件種別コード

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】文から必要な情報を自動的に抽出する情報
    抽出方法であって、 それぞれ抽出すべき情報と文の定形パターンの特徴を示
    す特徴デ−タとから構成される複数の定形パターンを用
    意しておき、上記文中の特徴デ−タと各定形パターン中
    の特徴デ−タとを順次マッチングをとり、最も多くの特
    徴デ−タが一致した定形パターンを、上記文が作成され
    る際に基になった定形パターンとみなして、該定形パタ
    ーンを参照しながら上記文を展開し、展開されたデータ
    から必要な情報を抽出することを特徴とする情報抽出方
    法。
  2. 【請求項2】文から必要な情報を自動的に抽出する情報
    抽出方法であって、 それぞれ抽出すべき情報と文の定形パターンの特徴を示
    す特徴デ−タとから構成された複数の定形パターンは、
    複数の特徴デ−タのうち特定の特徴デ−タに基づいて分
    類されており、先ず、上記文中の特徴デ−タから、当該
    文がどの分類に属するかを判断した後、次に該文中の特
    徴デ−タと判断された分類の定形パターン中の特徴デ−
    タを順次マッチングをとり、最も多くの特徴デ−タが一
    致した定形パターンを、上記文が作成される際に基にな
    った定形パターンとみなして、該定形パターンを参照し
    ながら上記文を展開し、展開されたデータから必要な情
    報を抽出することを特徴とする情報抽出方法。
  3. 【請求項3】請求項1に記載の情報抽出方法において、
    前記文中の特徴デ−タと、複数の定形パターンの中の各
    特徴デ−タとのマッチングをとった結果、最も多くの特
    徴デ−タが一致した定形パターンが複数存在する場合に
    は、該複数の定形パターン相互間で、1定形パターン毎
    に順次特徴デ−タが他の定形パターンの特徴デ−タに存
    在するか否かを判断し、存在しない数を上記定形パター
    ン毎にカウントしていき、該カウント数が最も大きい定
    形パターンを上記文が作成される際に基になった定形パ
    ターンとみなすことを特徴とする情報抽出方法。
JP5217464A 1993-09-01 1993-09-01 情報抽出方法 Expired - Lifetime JP2848430B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5217464A JP2848430B2 (ja) 1993-09-01 1993-09-01 情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5217464A JP2848430B2 (ja) 1993-09-01 1993-09-01 情報抽出方法

Publications (2)

Publication Number Publication Date
JPH0773188A true JPH0773188A (ja) 1995-03-17
JP2848430B2 JP2848430B2 (ja) 1999-01-20

Family

ID=16704646

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5217464A Expired - Lifetime JP2848430B2 (ja) 1993-09-01 1993-09-01 情報抽出方法

Country Status (1)

Country Link
JP (1) JP2848430B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287144A (ja) * 1995-04-19 1996-11-01 Fuji Xerox Syst Service Kk 戸籍データ作成処理システム及びその項目化方法
JP2001092851A (ja) * 1999-09-08 2001-04-06 Koto Gijutsu Kenkyuin Kenkyu Kumiai 特許分析用データ加工および特許マップ自動生成方法とこれのためのプログラムを貯蔵するための記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08287144A (ja) * 1995-04-19 1996-11-01 Fuji Xerox Syst Service Kk 戸籍データ作成処理システム及びその項目化方法
JP2001092851A (ja) * 1999-09-08 2001-04-06 Koto Gijutsu Kenkyuin Kenkyu Kumiai 特許分析用データ加工および特許マップ自動生成方法とこれのためのプログラムを貯蔵するための記録媒体

Also Published As

Publication number Publication date
JP2848430B2 (ja) 1999-01-20

Similar Documents

Publication Publication Date Title
US5832480A (en) Using canonical forms to develop a dictionary of names in a text
US7343371B2 (en) Queries-and-responses processing method, queries-and-responses processing program, queries-and-responses processing program recording medium, and queries-and-responses processing apparatus
US5819265A (en) Processing names in a text
US5983171A (en) Auto-index method for electronic document files and recording medium utilizing a word/phrase analytical program
US8266169B2 (en) Complex queries for corpus indexing and search
EP0415000B1 (en) Method and apparatus for spelling error detection and correction
US8447588B2 (en) Region-matching transducers for natural language processing
US8510097B2 (en) Region-matching transducers for text-characterization
JP2006244262A (ja) 質問回答検索システム、方法およびプログラム
KR20070007001A (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
JPS63244259A (ja) キ−ワ−ド抽出装置
JP3350556B2 (ja) 検索システム
JP2848430B2 (ja) 情報抽出方法
CN113128231B (zh) 一种数据质检方法、装置、存储介质和电子设备
JPS6118072A (ja) 辞書デ−タの自動登録方式
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JPH0877196A (ja) 文書情報抽出装置
JP2007058415A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
JPS61248160A (ja) 文書情報登録方式
JPH07244669A (ja) 文書検索方式
JPS6394365A (ja) 日本文文書誤り検定装置
EP1072986A2 (en) System and method for extracting data from semi-structured text
JP3616126B2 (ja) 特殊範囲抽出装置および文抽出装置
KR20020054244A (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2897942B2 (ja) 日本語形態素解析システム及び形態素解析方式

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081106

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091106

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091106

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101106

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101106

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111106

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121106

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121106

Year of fee payment: 14

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121106

Year of fee payment: 14

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131106

Year of fee payment: 15