JPH11272695A

JPH11272695A - 情報抽出装置及びその方法並びに情報記憶媒体

Info

Publication number: JPH11272695A
Application number: JP10071804A
Authority: JP
Inventors: Junichi Fukumoto; 淳一福本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-03-20
Filing date: 1998-03-20
Publication date: 1999-10-08
Anticipated expiration: 2018-03-20
Also published as: JP3744676B2

Abstract

(57)【要約】【課題】抽出対象となる文中に未知語が含まれている
場合、正しい情報の抽出を行えない。【解決手段】自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置に、(1) ある種の情報の表
現に特徴的に現れる１又は複数の文字パターンと、文書
中に現れる文字列とを逐次照合し、一致が認められた文
字列部分に対し、一致した文字パターンの属性を示すタ
グ情報を付与する文字パターン処理部と、(2) タグ情報
はそのままに、タグ情報を除く他の文字列部分を逐次単
語情報に分割する形態素解析処理部とを備えるようにす
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自然言語で記述さ
れた文書から所望の情報を抽出するのに用いられる情報
抽出装置及びその方法に関するものである。また、本発
明は、これら機能の実現に供する処理プログラムやデー
タを記憶した情報記憶媒体に関するものである。

【０００２】

【従来の技術】自然言語で記述された文書から所望の情
報を抽出するのに用いられる従来装置について記述した
文献の一つに、特開平７−８５０７１号公報がある。こ
の装置は、文書中の各文を単語要素に分割する形態素解
析処理と、単語要素間の係り受け関係など構文的役割を
認識することにより各文の構造を認識する構文解析処理
と、認識結果から品詞情報（固有名詞）を基に所望の情
報を抽出する抽出処理からなり、これら３段階の処理か
ら所望の情報を抽出する構成となっている。

【０００３】

【発明が解決しようとする課題】ところが、この装置で
は、文書中に含まれる全ての単語に関する情報が辞書等
に情報として保持されていること、すなわち、文書中に
含まれる全ての名前、会社名、場所名などに関する情報
が全て辞書等に情報として保持されていることが必要な
条件となる。

【０００４】しかし、種々雑多な人名、会社名等の全て
を、予め辞書等に保持しておくことは、事実上不可能で
ある。

【０００５】また、このような情報が、形態素解析、構
文解析を行う際に必要な情報として存在しない場合、そ
れら単語の認識自体が不可能となり、情報抽出処理に必
要な正しい形態素解析も、その構文解析もできない。

【０００６】本発明は、以上の課題を考慮してなされた
もので、文書中に現れる全ての人名、組織名、地名等の
情報が辞書等に記憶されていない場合にも、正確な形態
素解析および構文解析の実行により、所望の情報の抽出
を可能とできる情報抽出装置及びその方法並びに情報記
憶媒体を提案しようとするものである。

【０００７】

【課題を解決するための手段】（Ａ）かかる課題を解決
するため、自然言語で記述された文書より、必要な情報
を抽出する第１の発明に係る情報抽出装置において、以
下の手段を設けるようにする。

【０００８】すなわち、(1) ある種の情報の表現に特徴
的に現れる１又は複数の文字パターンと、文書中に現れ
る文字列とを逐次照合し、一致が認められた文字列部分
に対し、一致した文字パターンの属性を示すタグ情報を
付与する文字パターン処理部と、(2) タグ情報はそのま
まに、タグ情報を除く他の文字列部分を逐次単語情報に
分割する形態素解析処理部とを備えるようにする。

【０００９】このように、第１の発明においては、表現
上のパターンから特定の文字列部分の属性を特定できる
ので、当該文字列部分に現れている文字が未知語であっ
ても、その後の処理を正しく実行することができ、正常
な情報抽出が可能となる。

【００１０】（Ｂ）また、自然言語で記述された文書よ
り、必要な情報を抽出する第２の発明に係る情報抽出装
置において、以下の手段を設けるようにする。

【００１１】すなわち、(1) 文書中に現れる文字列を、
逐次単語情報に分割し出力する形態素解析処理部と、
(2) 形態素解析の結果得られた単語情報を文節単位にま
とめ上げ、当該まとめ上げ後の単語情報を、文法上の構
文規則と共に、ある種の情報の表現に特徴的に現れる構
文パターンを用いて構文解析する構文解析部と、(3) 抽
出対象とするイベントとその表現要素との関係を示す抽
出情報パターンとの一致が認められた文節より抽出され
る情報と、構文パターンに基づく解析により得られた係
り受け関係及び当該係り受け関係に含まれるタグ情報か
ら特定される情報を、必要な情報として抽出する情報抽
出部とを設けるようにする。

【００１２】このように、第２の発明においては、構文
パターンを用いて構文解析を行った後、抽出情報パター
ンに合致する情報の抽出を行うようにしたことにより、
正しい解析結果に基づく情報の抽出を可能とでき、情報
の抽出精度を高めることができる。

【００１３】（Ｃ）また、自然言語で記述された文書よ
り、必要な情報を抽出する第３の発明に係る情報抽出方
法において、以下の処理を備えるようにする。

【００１４】すなわち、(1) ある種の情報の表現に特徴
的に現れる１又は複数の文字パターンと、文書中に現れ
る文字列とを逐次照合し、一致が認められた文字列部分
に対し、一致した文字パターンの属性を示すタグ情報を
付与する文字パターン処理と、(2) タグ情報はそのまま
に、タグ情報を除く他の文字列部分を逐次単語情報に分
割する形態素解析処理と、(3) 形態素解析結果を構文解
析する構文解析処理と、(4) 構文解析結果より必要な情
報を抽出する情報抽出処理とを備えるようにする。

【００１５】この第３の発明によれば、第１の発明と同
様、未知語が含まれる文であっても正常な情報抽出が可
能となる。

【００１６】（Ｄ）また、自然言語で記述された文書よ
り、必要な情報を抽出する第４の発明に係る情報抽出方
法において、以下の処理を備えるようにする。

【００１７】すなわち、(1) 文書中に現れる文字列を、
逐次単語情報に分割する形態素解析処理と、(2) 形態素
解析の結果得られた単語情報を文節単位にまとめ上げ、
当該まとめ上げ後の単語情報を、文法上の構文規則と共
に、ある種の情報の表現に特徴的に現れる構文パターン
を用いて構文解析する構文解析処理と、(3) 抽出対象と
するイベントとその表現要素との関係を示す抽出情報パ
ターンとの一致が認められた文節より抽出される情報
と、構文パターンに基づく解析により得られた係り受け
関係及び当該係り受け関係に含まれるタグ情報から特定
される情報を、必要な情報として抽出する情報抽出処理
とを備えるようにする。

【００１８】この第４の発明によれば、第２の発明と同
様、従来以上に精度の高い情報の抽出を可能とできる。

【００１９】（Ｅ）また、第５の発明においては、自然
言語で記述された文書より、必要な情報を抽出するのに
使用する情報抽出プログラムを記録した情報記録媒体に
おいて、情報抽出プログラムに、ある種の情報の表現に
特徴的に現れる１又は複数の文字パターンと、文書中に
現れる文字列とを逐次照合し、一致が認められた文字列
部分に対し、一致した文字パターンの属性を示すタグ情
報を付与する文字パターン処理を含むようにする。

【００２０】（Ｆ）また、第６の発明においては、自然
言語で記述された文書より、必要な情報を抽出するのに
使用するデータファイルを記録した情報記録媒体におい
て、データファイルは、ある種の情報の表現に特徴的に
現れる１又は複数の文字パターンと、当該文字パターン
の属性を示すタグ情報との組からなるようにする。

【００２１】（Ｇ）また、第７の発明においては、自然
言語で記述された文書より、必要な情報を抽出するのに
使用する情報抽出プログラムを記録した情報記録媒体に
おいて、情報抽出プログラムは、抽出対象とするイベン
トとその表現要素との関係を示す抽出情報パターンとの
一致が認められた文節より抽出される情報と、構文パタ
ーンに基づく解析により得られた係り受け関係及び当該
係り受け関係に含まれるタグ情報から特定される情報
を、必要な情報として抽出する情報抽出処理を含むよう
にする。

【００２２】

【発明の実施の形態】（Ａ）第１の実施形態（Ａ−１）第１の実施形態の構成（ａ）全体構成以下、本発明に係る情報抽出装置及びその方法を、自然
言語処理装置に適用する場合の第１の実施形態を、図面
を用いて詳述する。

【００２３】この第１の実施形態に係る自然言語処理装
置は、実際上、入出力装置、通信装置、外部記憶装置等
を適宜組み合わせて構成されるワークステーションやパ
ソコン等の情報処理装置で実現されるものであるが、機
能的には、図１の機能ブロック図で示すことができる。

【００２４】図１の自然言語処理装置は、入力部１と、
文字パターン処理部２と、文字パターン情報保持部３
と、形態素解析処理部４と、構文解析部５と、構文パタ
ーン情報保持部６と、情報抽出部７と、出力部８とから
なる。

【００２５】このうち、文字パターン処理部２と文字パ
ターン情報保持部３が、辞書に登録されていない未知語
が含まれる場合にも、表現上のパターンからその意味内
容を特定し、形態素解析の実行を可能とする部分であ
り、本実施形態に特有な構成に当たる。

【００２６】また、構文解析部５と構文パターン情報保
持部６が、先に特定された意味内容について現れ得る構
文情報を基に、未知語部分を含む構文解析の実行を可能
とする手段であり、やはり、本実施形態に特有な構成に
当たる。

【００２７】（ｂ）各部の構成続いて、本実施形態に係る自然言語処理装置の各部の構
成を、以下順番に説明する。

【００２８】（ｂ−１）入力部１入力部１は、情報抽出処理の抽出対象となる文書を入力
として受け取り、文字パターン処理部２にその入力文字
列を送るものである。入力部１は、例えば、キーボー
ド、マウス、ＯＣＲ（光学式文字認識装置）、音声認識
装置等の任意の手段で構成されていても良く、また、ネ
ットワーク等の通信媒体を経て外部からの通信信号を受
信する手段として構成されていても良い。

【００２９】（ｂ−２）文字パターン処理部２文字パターン処理部２は、入力文字列に含まれる文字パ
ターンの認識を行い、認識された文字パターンに対して
タグ付け処理（例えば、＜人名＞、＜／人名＞）を行う
ものである。図２に、文字パターン処理部２において実
行される処理手順の概略を示す。

【００３０】文字パターン処理部２は、処理を開始する
と、まず、パラメータｎを１に設定する（ステップＳＰ
１）。このパラメータｎは、文字パターン情報保持部３
に保持されている文字パターン番号に対応する番号であ
り、パターン認識に用いる文字パターンの特定に使用さ
れる。

【００３１】パターン番号ｎを設定すると、文字パター
ン処理部２は、当該番号に対応する文字パターンと入力
文字列との照合を行い（ステップＳＰ２）、一致する文
字パターンが入力文字列内にあるか否かの判定を行う
（ステップＳＰ３）。

【００３２】一致する文字パターンが含まれている場
合、文字パターン処理部２は、該当パターン（複数の場
合も含む。）の前後に当該パターンの意味内容を示すタ
グ情報を挿入する動作を行い（ステップＳＰ４）、次
に、当該文字パターンが文字パターン情報保持部３に保
持されている最後のものか否かの判定処理に移る（ステ
ップＳＰ５）。なお、一致する文字パターンが含まれて
いない場合、文字パターン処理部２は、ステップＳＰ３
の処理からステップＳＰ５の処理に直接移行する。

【００３３】ステップＳＰ５に移った文字パターン処理
部２は、現パラメータｎの値が登録されている文字パタ
ーンの最大値ｎmax と一致するか否かを判断し、一致し
ないと判断されている間、次のステップＳＰ６に進み、
パラメータｎの値を次の値に更新する。

【００３４】その後、文字パターン処理部２は、ステッ
プＳＰ２に戻り、新たな文字パターンについて上述の一
連の処理を繰り返し、全ての文字パターンについての照
合動作が終了した時点で、一連の処理ループを抜け、タ
グ付け処理の行われた後の入力文字列を形態素解析処理
部４に与える。

【００３５】（ｂ−３）文字パターン情報保持部３文字パターン情報保持部３は、文字パターン処理部２の
照合処理に用いられる文字パターンを格納し保持してい
る記憶手段である。図３に、文字パターン情報文字部３
に保持されている文字パターンの例を示す。ここで、文
字パターン記述部には、文書中の各文と照合を行う文字
パターンそのものが記憶されており、属性には、その文
字パターンと照合した文字列が表す属性情報が記憶され
ている。なお、実際の照合処理においては、属性情報中
の（）で囲まれた部分に対して、タグ情報の付与が行わ
れる。

【００３６】例えば、図３に示すパターン番号１には、
その文字パターンとして、「非漢字＋漢字＊＋［さ
ん］」が保持されているが、この文字パターンのよう
に、漢字以外の文字の後に任意の数の漢字が連続し、そ
の後に「さん」という文字が連続して現れる場合には、
例え、任意の数の漢字の部分が未知語である場合にも、
その部分に「人名」とのタグ情報が付与される。

【００３７】これは、「さん」、「氏」、「株式会社」
等の固有名詞は、他の固有名詞の接辞語（接尾語又は接
頭語）として用いられる場合、他の固有名詞に特定の意
味又は特定の資格を与える役割があるからである。

【００３８】なお、文字パターン情報保持部３は、これ
ら文字パターンを格納する、ＲＯＭ、ＲＡＭ、ハードデ
ィスク等の磁気記憶媒体、ＣＤ−ＲＯＭ等の光記憶媒体
その他の任意の記憶媒体でなる。

【００３９】（ｂ−４）形態素解析処理部４形態素解析処理部４は、文字パターン処理部２から入力
された文字列のうち、文字パターン処理部２で付与され
たタグ情報以外の部分を単語に分割する部分である。こ
こで、形態素解析処理の手法としては、「田中穂積：自
然言語解析の基礎、産業図書（１９８９）」においても
示されるような方法を用いることが可能である。

【００４０】ただし、入力された文書中の各文に対して
文字パターン処理部において付与されたタグ情報につい
ては、これはもともとの文書の内容とは無関係であるた
め形態素解析処理を行わずそのままの形式で出力するも
のとする。

【００４１】（ｂ−５）構文解析部５構文解析部５は、形態素解析処理部４の処理結果をまと
め上げた文節間の係り受けを、文法規則及び構文パター
ン規則に基づいて解析するものである。ここで、構文解
析処理部５は、構文解析処理部５Ａと構文パターン処理
部５Ｂの２つの部分からなる。

【００４２】このうち、構文解析処理部５Ａは、文法規
則に基づく構文解析を行う部分であり、その手法には、
例えば、「福本、佐野、斉藤、福本：係り受けの強度に
基づく依存文法、情報処理学会論文詩、Ｖｏ１．３３、
Ｎｏ．１０（１９９２）」に示される方法を用いる。

【００４３】一方、構文パターン処理部５Ｂは、構文パ
ターン規則に基づく解析を行う部分であり、その手法
は、解析に用いる規則が本実施形態に特有の構文パター
ンであることを除き、その手法は、構文解析処理部５Ａ
と同様である。

【００４４】図４に、この構文解析部５による解析処理
動作の概要を示す。なお、この解析処理動作は、形態素
解析処理部４の処理結果を文節単位にまとめ上げた段階
で実行される。図４の場合、構文解析部５は、先に構文
パターン処理部５Ｂによる解析処理を実行する（ステッ
プＳＰ１１）。

【００４５】構文解析部５は、構文パターン情報保持部
６に保持されている全ての構文パターンに基づいて構文
解析を行い、その解析が終了すると、解析結果を保存す
る（ステップＳＰ１２）。続いて、構文解析部５は、構
文解析処理部５Ａによる解析処理を実行する（ステップ
ＳＰ１３）。そして、今度は、構文解析部５は、保持さ
れている全ての文法規則に基づいて構文解析を行い（ス
テップＳＰ１３）、その解析が終了すると、解析結果を
保存する（ステップＳＰ１４）。

【００４６】かかる後、構文解析部５は、両解析結果を
確認し（ステップＳＰ１５）、いずれか一方でも、規則
に一致する解析結果が得られている間は、再度、ステッ
プＳＰ１１の処理に戻るよう動作し、両方共に解析結果
が得られない状態で、一連の処理動作を抜け出る。すな
わち、この実施形態の場合、構文解析処理と構文パター
ン解析処理の双方の規則に適合する解析結果が得られる
まで、当該処理が交互に実行される。

【００４７】（ｂ−６）構文パターン情報保持部６構文パターン情報保持部６は、構文パターン処理部５Ｂ
において必要な構文パターンを保持している記憶手段で
ある。図５に、構文パターン情報保持部６に保持されて
いる構文パターンの例を示す。ここで、構文パターン記
述部には、係り受け構造との照合を行う構文パターンが
記憶されており、係り受け関係記述部には、照合した構
文パターンに対する文節間の係り受け関係が記憶されて
いる。

【００４８】例えば、構文パターン番号１に対応する構
文パターン「＜人名＞（タグ）＋（（括弧開）＋Ｘ（数
詞）＋）（括弧閉）」は、人名の後に続く括弧（）に囲
まれた数字列の形式を持つ構文パターンを記述してい
る。この場合、数字は人名に対する年齢表現を示すもの
であるため、数字が人名に係り、括弧の表現は削除され
ている。この係り受け関係は、「＜人名＞（タグ）←Ｘ
（数詞）」として表され、「←」の右の文節が左の文節
に係るということを示している。

【００４９】また、構文パターン番号２に対応する構文
パターン「＜地名＞（タグ）＋、（読点）＋＜業種名＞
（タグ）＋、（読点）＋＜人名＞（タグ）」は、連続し
た地名、業種名、人名が、読点によって区切られた表現
を記述している。この場合、地名、業種名はそれぞれ人
名に対する情報であるということが分かるため、それぞ
れ人名に対して係り受け関係が得られることを、「＜人
名＞（タグ）←＜地名＞（タグ）」、「＜人名＞（タ
グ）←＜業種名＞（タグ）」として表している。

【００５０】なお、構文パターン情報保持部６は、これ
ら構文パターンを格納する、ＲＯＭ、ＲＡＭ、ハードデ
ィスク等の磁気記憶媒体、ＣＤ−ＲＯＭ等の光記憶媒体
その他の任意の記憶媒体でなる。

【００５１】（ｂ−７）情報抽出部７情報抽出部７は、文字パターン情報保持部３及び構文パ
ターン情報保持部６において記述されたそれぞれのパタ
ーンに当てはまる情報に基づいて抽出処理を行うもので
ある。すなわち、文字パターン処理部２の認識結果と、
構文解析によって判断された文節間の係り受け関係から
必要な情報を抽出し、出力部８に出力する処理を行う。

【００５２】（ｂ−８）出力部８出力部８は、情報抽出部７から抽出結果を受け取り、こ
れを出力するものである。例えば、種々の表示手段や印
刷手段や通信手段が該当する。

【００５３】（Ａ−２）第１の実施形態の動作続いて、かかる構成を有する自然言語処理装置に入力さ
れた入力文から情報が抽出される様子を説明する。

【００５４】ここでは、入力部１に対し、図５に示すよ
うな文書、すなわち「５日午前零時３５分ごろ…全焼し
た。」が入力されたものとして説明する。

【００５５】（ａ）タグ情報の付与入力された文書は、文字パターン処理部２に与えられ
る。文字パターン処理部２は、入力部１から入力文が与
えられると、入力文中の全ての箇所を対象とし、予め文
字パターン情報保持部３に登録されている各文字パター
ンと照合可能な部分文字列があるかどうかを認識する。
そして、文字パターン処理部２は、照合可能であった場
合、その照合した部分文字列に対して、文字パターンの
属性として登録されている情報をタグ情報として付加を
行う。

【００５６】例えば、図６に示す入力文の場合、「、鈴
木勇さん」の部分文字列がパターン番号１に照合可能で
あり、「、消毒業、」の部分文字列がパターン番号６に
照合可能であり、「、大阪市中央町、」の部分文字列が
パターン番号７に照合可能である。

【００５７】なお、部分文字列「、鈴木勇さん」の部分
が対応するパターン番号１は、「鈴木勇さん」の部分が
人名であることを意味しているので、文中の該当部分
に、人名というタグ情報が付与される。図７は、「鈴木
勇さん」の部分に人名というタグ情報が付与された状態
を表している。

【００５８】ここで、タグ情報は、「＜人名＞」がタグ
の開始位置を示し、「＜／人名＞」がタグの終了位置を
示している。また、タグ情報は、それぞれ「＜＞」と
「＜／＞」とで挟まれた部分文字列の情報の属性を示し
ている。

【００５９】同様に、「大阪市中央町」の部分に対して
は地名というタグ情報が付与され、「消毒業」の部分に
対しては業種名というタグ情報が付与される。

【００６０】（ｂ）形態素解析この文字パターン処理部２においてタグ付けされた文字
列は、形態素解析処理部４に与えられる。形態素解析処
理部４は、かかるタグ付きの入力文を入力すると、その
形態素解析処理を行い、文書中の各文を単語に分割す
る。なお、入力文書の各文に含まれているタグ情報は、
もともとの文書の内容とは無関係な情報であるので、形
態素解析処理部４は、かかるタグ情報を形態素解析処理
の対象とせず、そのままの形式で出力する。

【００６１】図８に、形態素解析処理部４による形態素
解析処理結果の例を示す。この図８の場合、各単語は、
「｜」によって区切られ、また、各単語の品詞情報が各
単語の右の「（）」内に示されている。なお、文字パタ
ーン処理部２において付与されたタグ情報「＜人名＞」
「＜／人名＞」は、ともに一つの要素として認識され、
「タグ」をいう品詞情報が付与される。

【００６２】このように、人名や地名のように種類が豊
富なために未知語となり易い部分文字列が含まれている
場合にも、適切な品詞情報の付与が可能となり、形態素
解析が正常に行われる。

【００６３】（ｃ）構文解析（ｃ−１）前処理以上説明した形態素解析の処理が終了すると、次は、構
文解析の処理に移る。

【００６４】前述したように、構文解析部５は、構文解
析処理部５Ａと構文パターン処理部５Ｂを交互に使用し
てその構文解析処理を実行するが、その前処理として、
形態素解析処理部４の処理結果を文節単位にまとめ上げ
る処理を実行する。なお、この文節までのまとめ上げ処
理においては、文字パターンで付与されたタグで囲まれ
た範囲について、一つの文節としてのまとめ上げが行わ
れる。

【００６５】この規則に基づいて行われた文節単位のま
とめ上げ処理結果を図９に示す。図９では、図８におい
て「｜」で区切られた各単語のうち、各文節としてひと
まとまりで与えられるものが「‖」によって区切られて
いる。

【００６６】さて、かかる文節までのまとめ上げが終了
すると、構文解析部５は、次に、その文節内の係り受け
を求める処理を行う。この係り受け関係を表したのが、
図１０である。図１０は、各文節内における最も左側に
位置する自立語を、その文節を代表する単語として見な
し、その他の単語は全てその代表となる単語に係ると見
なすものである。

【００６７】ここで、区切られた文節のそれぞれには、
順番に、文節番号が付与されている。なお、代表単語が
存在した文節中の位置には特殊記号「＄」が埋め込まれ
ている。因みに、文節番号１１のように自立語が存在し
ない場合には、最も左にある単語が代表単語となってい
る。また、文節番号１６のようにサ変名詞と動詞「した
（する）」が連続した場合には、動詞を代表語としてい
る。

【００６８】（ｃ−２）係り受けの解析以上のまとめ上げ処理が終了すると、次は、文節間の係
り受け関係の解析に移る。この解析処理は、図４で説明
したように、通常の文法規則に基づく解析と、構文パタ
ーン規則に基づく解析とが交互に行われることにより実
行される。最初に、処理結果を図１１に示しておく。な
お、ここに示されている係り受け関係は、図１０の文節
データについてのものである。

【００６９】まず、構文パターン処理部５Ｂは、構文パ
ターン情報保持部６に記憶されている構文パターン２と
照合するパターンが、図１０の文節データ中に存在する
か照合を行う。この場合、文節番号３、４、５、６、７
が照合することが分かる。この照合結果に対する係り受
け関係は、「＜人名＞（タグ）←＜地名＞（タグ）」と
「＜人名＞（タグ）←＜業種名＞（タグ）」との２つで
ある。

【００７０】従って、まず第１の解析結果として、文節
番号７の文節に対して文節番号３の文節が係っていると
の結果が得られ、第２の解析結果として、文節番号７の
文節に対して文節番号５の文節が係っているとの結果が
得られる。

【００７１】続いて、構文パターン処理部５Ｂは、構文
パターン情報保持部６に記憶されている構文パターン１
と照合するパターンが、図１０の文節データ中に存在す
るか照合を行う。この場合、文節番号７，８、９、１０
が照合することが分かる。この照合結果に対する係り受
け関係は、「＜人名＞（タグ）←Ｘ（数詞）」である。

【００７２】従って、第３の解析結果として、文節番号
７の文節に対して文節番号９の文節が係っているとの結
果が得られる。

【００７３】図１０の場合、構文パターンに照合するパ
ターンは３つしかないので、構文パターン処理部５Ｂに
よる処理はこれで終了し、構文解析部５は、構文解析処
理部５Ａによる処理に移行する。

【００７４】この構文解析処理部５Ａによる処理は、通
常知られている処理であるのでその詳細は省略するが、
この解析処理により、図１１における第４〜第９の解析
結果が得られる。なお、構文解析処理部５Ａは、接辞語
の情報を用いることにより、それが付されている固有名
詞の品詞情報の決定し、文節番号７に係る文節が、文節
番号１１の文節に係る関係にあるとの認識を行い、第４
の解析結果を得ている。

【００７５】この処理の終了後、構文解析部５は、再
び、上述の構文パターンに基づく解析と文法規則に基づ
く解析とを繰り返すが、この例の場合には、上述した解
析結果以外の新たな解析結果は得られないので、その確
認後、解析処理が終了したと判断し、処理結果を情報抽
出部７に与える。

【００７６】（ｄ）情報抽出情報抽出部７は、前段に位置する構文解析部５からその
構文解析結果（図１１）が入力されると、まず、文字パ
ターン処理において認識された文節、すなわち、タグ情
報が付与されているものを抽出する。これにより、文節
番号３、５、７に対応する文節を抽出する。

【００７７】次に、情報抽出部７は、構文パターンによ
って判断された係り受け関係の解析結果を抽出する。こ
れにより、図１１における第１番目、２番目、３番目の
係り受け関係を抽出する。なお、この係り受け関係によ
り、新たに文節番号９の文節が抽出される。

【００７８】なお、これら４つの文節間には、図１１の
係り受け関係から、文節番号７の文節に他の３つの文節
（文節番号３、５、９の文節）が係る関係があることが
分かる。そこで、情報抽出部７は、文節番号７の文節
と、そのたの文節とを分けて分類し、例えば、図１２に
示すような抽出結果を得る。

【００７９】すなわち、文節番号７に係る文節の＜人名
＞として「鈴木勇さん」という情報を抽出し、その人名
情報に関係する情報として、「大阪市中央町」という＜
地名＞の情報、「消毒業」という＜業種名＞の情報、
「５０」という数字の方法を抽出する。

【００８０】（Ａ−３）第１の実施形態の効果この第１の実施形態によれば、固有名詞の情報である人
名、組織名、地名などある種の単語要素に付される可能
性の高い特徴的な接辞語（接頭語及び接尾語）を用い
て、文書中に現れる文字パターンを認識するようにした
ことにより、未知語の認識が可能となり、また、その接
辞語の品詞情報及び意味的情報（属性として予め登録さ
れた情報）を用いることにより、文書を構成する各文の
正しい形態素解析を可能とできる。

【００８１】さらに、第１の実施形態によれば、構文解
析の際に、構文パターンに基づく解析処理を実行するよ
うにしたことにより、従来の処理では認識できなかった
要素間の構文構造として、例えば、係り受け関係を正し
く認識することができ、構文解析の各処理を正しく行う
ことを可能とできる。

【００８２】またこれら文字パターンに基づく情報処理
および構文パターンに基づく情報処理の処理結果を用い
て情報の抽出処理を行うようにしたことにより、未知語
を含む文を処理対象とする場合にも、要素とそれらに関
する属性的情報との関係を認識でき、情報抽出処理を可
能とできる。

【００８３】（Ｂ）第２の実施形態（Ｂ−１）第２の実施形態の構成以下、本発明に係る情報抽出装置及びその方法を、自然
言語処理装置に適用する場合の第２の実施形態を、図面
を用いて詳述する。

【００８４】この第２の実施形態に係る自然言語処理装
置の場合も、実際上、入出力装置、通信装置、外部記憶
装置等を適宜組み合わせて構成されるワークステーショ
ンやパソコン等の情報処理装置で実現されるものである
が、機能的には、図１３の機能ブロック図で示すことが
できる。

【００８５】なお、この図１３は、図１との対応同一部
分に、対応同一符号を付して示したものである。このよ
うに、この第２の実施形態は、上述した第１の実施形態
と、抽出情報パターン保持部９を除き同一の構成を有す
るものである。ここでは、本実施形態に特有の構成であ
る抽出情報パターン保持部９の構成のみを説明する。

【００８６】抽出情報パターン保持部９は、文書中にあ
る何が起こったかに関する情報を抽出するために用いる
情報パターンを保持するための手段であり、ＲＯＭ、Ｒ
ＡＭ、ハードディスク等の磁気記憶媒体、ＣＤ−ＲＯＭ
等の光記憶媒体その他の任意の記憶媒体でなる。

【００８７】かかる抽出情報パターン保持部９を設ける
理由は、第１の実施形態の場合、文節間の関係こそ抽出
できるものの、抽出対象となった文書に記載されている
何が起こったかに関する情報、すなわち、イベントにつ
いては、その抽出ができないためである。このため、抽
出情報パターン保持部９は、抽出対象とするイベントの
種類（イベント名）と、そのイベントを構成する要素
（イベント要素）とを一組の情報として保持している。

【００８８】図１４に、一例を示す。図１４の場合、イ
ベント番号１には、「全焼する」というイベントの抽出
用の情報が登録されている。すなわち、このイベント番
号１には、そのイベント名として「全焼する」が登録さ
れ、また、イベント要素として格助詞の「が」が、当該
イベントの抽出に用いる文節として登録されている。ま
た、イベント番号２には、「出火する」というイベント
の抽出用の情報が登録されている。すなわち、このイベ
ント番号２には、そのイベント名として「出火する」が
登録され、また、イベント要素として格助詞「が」及び
格助詞「から」が、当該イベントの抽出に用いる文節と
して登録されている。

【００８９】（Ｂ−２）第２の実施形態の動作続いて、かかる構成を有する自然言語処理装置に入力さ
れた入力文から情報が抽出される様子を説明する。

【００９０】なお、ここでも、入力部１に対し、図５に
示すような文書、すなわち「５日午前零時３５分ごろ…
全焼した。」が入力されたものとして説明する。従っ
て、本実施形態の場合も、情報抽出部７までの処理動作
は、第１の実施形態と同じである。従って、構文解析部
５の処理が終了した時点では、図１１に示す解析結果が
得られている。

【００９１】情報抽出部７は、かかる解析結果を入力す
ると、第１の実施形態における情報の抽出動作を実行す
ると共に、抽出情報パターン保持部９に登録されている
イベントに基づいた情報の抽出動作を行う。ここでは、
図１６を用い、その抽出動作を説明する。

【００９２】まず、情報抽出部７は、イベント番号１の
イベント名「全焼する」を表す文節（文節番号１６）に
係る要素である格助詞「が」をもつ文節（文節番号１
５）から「約１２５平方メートルが」を抽出する。

【００９３】また、イベント番号２のイベント名「出火
する」を表す文節（文節番号１２）に係る要素である格
助詞「から」をもつ文節（文節番号１１）から「方か
ら」を抽出する。なお、この「方」は接尾語であり、そ
れに対しては＜人名＞「鈴木勇さん」という情報が係っ
ているため、それらをまとめて「＜人名＞鈴木勇さん方
から」として抽出する。

【００９４】最後に、情報抽出部７は、第１の実施形態
の場合と同様に、「＜人名＞鈴木勇さん」の人名情報に
関係する情報をして、「大阪市中央町」という＜地名＞
の情報、「消毒業」という＜業種名＞の情報、「５０」
という数字の方法を抽出する。

【００９５】（Ｂ−３）第２の実施形態の効果この第２の実施形態によれば、第１の実施形態と同様の
効果が得られるのに加え、抽出を行うべき情報パターン
として抽出対象の文書中から何が起こったのかに関する
イベントの情報を予め登録しておくことで、ユーザの求
める構造の情報をイベントの形式でも抽出出することを
可能とできる。

【００９６】（Ｃ）第３の実施形態以下、本発明に係る情報抽出装置及びその方法を、自然
言語処理装置に適用する場合の第３の実施形態を、図面
を用いて説明する。

【００９７】この第３の実施形態に係る自然言語処理装
置の場合も、実際上、入出力装置、通信装置、外部記憶
装置等を適宜組み合わせて構成されるワークステーショ
ンやパソコン等の情報処理装置で実現されるものであ
る。ただし、その機能ブロック構成は、第２の実施形態
のものと同じ、すなわち、図１３で与えられる。

【００９８】この第３の実施形態と第２の実施形態との
違いは、情報抽出部７と出力部８に新たな機能が加えら
れた点のみであり、その他の構成部分は第２の実施形態
と同じである。

【００９９】従って、ここでは、新たに加えられた機能
についてのみ説明する。この第３の実施形態において新
たに加えられた機能は、情報抽出部７が抽出された情報
の種類に応じて色情報を付与する機能と、出力部８が当
該色情報に応じた色分け表示（抽出された全ての情報を
反転表示する場合や下線表示する場合を含む）を行う点
の２点である。

【０１００】ここで、情報抽出部７は、タグの種類に応
じて情報の種類を判定し、判定結果に応じた色情報の付
加を行う。

【０１０１】この機能を設けた結果、入力文にタグ情報
を挿入した文を最終的な表示とする場合、その表示は、
例えば、図１６のようになる。なお、図１６では、抽出
された情報部分（「大阪市中央町」、「消毒業」、「鈴
木勇さん」、「（５０）方から出火」、「約１２５平方
メートルが全焼した」）を下線表示しているが、この部
分が反転表示されていても良いし、また、各情報ごと異
なる色が付されていても良い。

【０１０２】従って、この第３の実施形態によれば、第
２の実施形態と同様の効果が得られるのに加え、ユーザ
にとっては、入力文の全文を読まなくてもその要点部分
を容易に理解できるという使い勝手に優れた効果を実現
できる。

【０１０３】（Ｄ）他の実施形態 (1) 第１の実施形態においては（第２及び第３の実施形
態も同様）、構文解析の前に予め形態素解析結果を文節
単位にまとめ上げる場合について述べたが、形態素解析
結果そのものを直接構文解析しても良い。

【０１０４】(2) 第１の実施形態においては（第２及び
第３の実施形態も同様）、構文解析部５が構文解析処理
部５Ａと構文パターン処理部５Ｂとで構成されるものと
し、これら２つの機能部を交互に動作させることによ
り、所望の解析結果を得る場合について述べたが、構文
解析処理部５Ａで用いる文法規則と構文パターン処理部
５Ｂが用いる構文パターン規則を区別せず、１つの規則
として扱うようにしても良い。

【０１０５】(3) 第１の実施形態においては（第２及び
第３の実施形態も同様）、文字パターン処理部２による
処理と構文パターン処理部５Ｂによる処理の２つを組み
合わせて情報抽出を行う自然言語処理装置について述べ
たが、文字パターン処理部２のみを用いて情報抽出を行
う自然言語処理装置にも適用し得る。

【０１０６】すなわち、第１の実施形態に係る自然言語
処理装置から構文パターン処理部５Ｂ及び構文パターン
情報保持部６を除いた構成の装置にも適用し得る。

【０１０７】(4) 第２の実施形態においては、第１の実
施形態に対し、抽出情報パターンによる情報の抽出機能
を組み合わせる場合について述べたが、すなわち、文字
パターンによる処理機能と構文パターンによる処理機能
とを備えた装置に、抽出情報パターンによる処理機能を
付加する場合について述べたが、機能の組み合わせはこ
れに限らない。

【０１０８】例えば、文字パターンによる処理機能と抽
出情報パターンによる処理機能を組み合わせて情報抽出
を行う装置に適用しても良く、構文パターンによる処理
機能と抽出情報パターンによる処理機能を組み合わせて
情報抽出を行う装置に適用しても良い。

【０１０９】(5) 第３の実施形態においては、第２の実
施形態に対し、色表示機能を組み合わせる場合について
述べたが、すなわち、文字パターンによる処理機能と構
文パターンによる処理機能と抽出情報パターンによる処
理機能とを備えた装置に、色表示機能を付加する場合に
ついて述べたが、機能の組み合わせはこれに限られるも
のでなく、これら４つの機能を任意の組み合わせる装置
にも適用し得る。

【０１１０】例えば、文字パターンによる処理機能と構
文パターンによる処理機能と色表示機能とを組み合わせ
て情報抽出を行う装置に適用しても良く、文字パターン
による処理機能と色表示機能とを組み合わせて情報抽出
を行う装置にも適用し得る。

【０１１１】(6) 上述の各実施形態においては、処理対
象とする自然言語が日本語である自然言語処理装置につ
いて示したが、他の言語を処理対象とする自然言語処理
装置についても、本発明を適用することができる。

【０１１２】

【発明の効果】上述のように、第１の発明に係る情報抽
出装置及び第３の発明に係る情報抽出方法によれば、表
現上のパターンから特定の文字列部分の属性を特定し、
その特定結果を用いて情報の抽出を行うことにすること
により、当該文字列部分が未知語であっても、その後の
処理を正しく行うことができる。

【０１１３】また、第２の発明に係る情報抽出装置及び
第４の発明に係る情報抽出方法によれば、構文パターン
を用いて構文解析を行った後、さらに抽出情報パターン
に合致する情報を抽出するようにしたことにより、正し
い解析結果に基づく情報の抽出を可能とでき、情報の抽
出精度を向上できるだけでなく、関連するイベントの内
容の抽出も可能とできる。

【０１１４】また、第５の発明に係る情報記録媒体にお
いては、その情報抽出プログラムに、ある種の情報の表
現に特徴的に現れる１又は複数の文字パターンと、文書
中に現れる文字列とを逐次照合し、一致が認められた文
字列部分に対し、一致した文字パターンの属性を示すタ
グ情報を付与する文字パターン処理が含まれていること
により、当該プログラムの実行により、未知語が含まれ
ている文であっても正しい情報の抽出を可能とできる。

【０１１５】また、第６の発明に係る情報記録媒体にお
いては、ある種の情報の表現に特徴的に現れる１又は複
数の文字パターンと、当該文字パターンの属性を示すタ
グ情報との組からなるデータファイルが記録されている
ことにより、当該データファイルを、文字パターンの照
合を行うプログラムと組み合わせて使用することによ
り、未知語が含まれている文であっても正しい情報の抽
出を可能とできる。

【０１１６】また、第７の発明に係る情報記録媒体にお
いては、情報抽出プログラムに、抽出対象とするイベン
トとその表現要素との関係を示す抽出情報パターンとの
一致が認められた文節より抽出される情報と、構文パタ
ーンに基づく解析により得られた係り受け関係及び当該
係り受け関係に含まれるタグ情報から特定される情報
を、必要な情報として抽出する情報抽出処理が含まれて
いることにより、当該プログラムの実行により、正しい
解析結果に基づく情報の抽出を可能とでき、情報の抽出
精度を向上できるだけでなく、関連するイベントの内容
の抽出も可能とできる。

【図面の簡単な説明】

【図１】第１の実施形態を示す機能ブロック図である。

【図２】文字パターン処理部の動作例を示すフローチャ
ートである。

【図３】文字パターン情報の一例を示す説明図である。

【図４】構文解析部の動作例を示すフローチャートであ
る。

【図５】構文パターン情報の一例を示す説明図である。

【図６】入力文字列の一例を示す説明図である。

【図７】文字パターン処理後の文字列を示す説明図であ
る。

【図８】形態素解析後の文字列を示す説明図である。

【図９】文節までのまとめ上げ終了後の文字列を示す説
明図である。

【図１０】文節間の係り受け解析後の文字列を示す説明
図である。

【図１１】構文解析結果を示す説明図である。

【図１２】第１の実施形態で抽出される情報例を示す説
明図である。

【図１３】第２の実施形態を示す機能ブロック図であ
る。

【図１４】抽出情報パターンの一例を示す説明図であ
る。

【図１５】第２の実施形態で抽出される情報例を示す説
明図である。

【図１６】第３の実施形態での情報の表示例を示す説明
図である。

【符号の説明】

１…入力部、２…文字パターン処理部、３…文字パター
ン情報保持部、４…形態素解析処理部、５…構文解析
部、５Ａ…構文解析処理部、５Ｂ…構文パターン処理
部、６…構文パターン情報保持部、７…情報抽出部、８
…出力部、９…抽出情報パターン保持部。

Claims

【特許請求の範囲】

【請求項１】自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、ある種の情報の表現に特徴的に現れる１又は複数の文字
パターンと、文書中に現れる文字列とを逐次照合し、一
致が認められた文字列部分に対し、一致した文字パター
ンの属性を示すタグ情報を付与する文字パターン処理部
と、上記タグ情報はそのままに、タグ情報を除く他の文字列
部分を逐次単語情報に分割する形態素解析処理部とを備
えたことを特徴とする情報抽出装置。
【請求項２】請求項１に記載の情報抽出装置におい
て、形態素解析の結果得られた単語情報を文節単位にまとめ
上げ、当該まとめ上げ後の単語情報を、文法上の構文規
則と共に、ある種の情報の表現に特徴的に現れる構文パ
ターンを用いて構文解析する構文解析部とをさらに設け
たことを特徴とする情報抽出装置。
【請求項３】請求項２に記載の情報抽出装置におい
て、上記構文パターンに基づく解析により得られる係り受け
関係及び当該係り受け関係に含まれるタグ情報から特定
される情報を、必要な情報として抽出する情報抽出部を
さらに備えたことを特徴とする情報抽出装置。
【請求項４】請求項２に記載の情報抽出装置におい
て、抽出対象とするイベントとその表現要素との関係を示す
抽出情報パターンとの一致が認められた文節より抽出さ
れる情報と、上記構文パターンに基づく解析により得ら
れた係り受け関係及び当該係り受け関係に含まれるタグ
情報から特定される情報を、必要な情報として抽出する
情報抽出部をさらに備えたことを特徴とする情報抽出装
置。
【請求項５】自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、文書中に現れる文字列を、逐次単語情報に分割し出力す
る形態素解析処理部と、形態素解析の結果得られた単語情報を文節単位にまとめ
上げ、当該まとめ上げ後の単語情報を、文法上の構文規
則と共に、ある種の情報の表現に特徴的に現れる構文パ
ターンを用いて構文解析する構文解析部と、抽出対象とするイベントとその表現要素との関係を示す
抽出情報パターンとの一致が認められた文節より抽出さ
れる情報と、上記構文パターンに基づく解析により得ら
れた係り受け関係及び当該係り受け関係に含まれるタグ
情報から特定される情報を、必要な情報として抽出する
情報抽出部とを備えたことを特徴とする情報抽出装置。
【請求項６】請求項１〜５のいずれかに記載の情報抽
出装置において、文書中に現れる文字列のうち抽出された情報の部分を、
その他の情報に該当する部分とは異なる表示形態で表示
する出力部をさらに備えたことを特徴とする情報抽出装
置。
【請求項７】自然言語で記述された文書より、必要な
情報を抽出する情報抽出方法において、ある種の情報の表現に特徴的に現れる１又は複数の文字
パターンと、文書中に現れる文字列とを逐次照合し、一
致が認められた文字列部分に対し、一致した文字パター
ンの属性を示すタグ情報を付与する文字パターン処理
と、上記タグ情報はそのままに、タグ情報を除く他の文字列
部分を逐次単語情報に分割する形態素解析処理と、形態素解析結果を構文解析する構文解析処理と、構文解析結果より必要な情報を抽出する情報抽出処理と
を備えたことを特徴とする情報抽出方法。
【請求項８】自然言語で記述された文書より、必要な
情報を抽出する情報抽出方法において、文書中に現れる文字列を、逐次単語情報に分割する形態
素解析処理と、形態素解析の結果得られた単語情報を文節単位にまとめ
上げ、当該まとめ上げ後の単語情報を、文法上の構文規
則と共に、ある種の情報の表現に特徴的に現れる構文パ
ターンを用いて構文解析する構文解析処理と、抽出対象とするイベントとその表現要素との関係を示す
抽出情報パターンとの一致が認められた文節より抽出さ
れる情報と、上記構文パターンに基づく解析により得ら
れた係り受け関係及び当該係り受け関係に含まれるタグ
情報から特定される情報を、必要な情報として抽出する
情報抽出処理とを備えたことを特徴とする情報抽出方
法。
【請求項９】自然言語で記述された文書より、必要な
情報を抽出するのに使用する情報抽出プログラムを記録
した情報記録媒体において、上記情報抽出プログラムは、ある種の情報の表現に特徴
的に現れる１又は複数の文字パターンと、文書中に現れ
る文字列とを逐次照合し、一致が認められた文字列部分
に対し、一致した文字パターンの属性を示すタグ情報を
付与する文字パターン処理を含むことを特徴とする情報
記録媒体。
【請求項１０】自然言語で記述された文書より、必要
な情報を抽出するのに使用するデータファイルを記録し
た情報記録媒体において、上記データファイルは、ある種の情報の表現に特徴的に
現れる１又は複数の文字パターンと、当該文字パターン
の属性を示すタグ情報との組からなることを特徴とする
情報記録媒体。
【請求項１１】自然言語で記述された文書より、必要
な情報を抽出するのに使用する情報抽出プログラムを記
録した情報記録媒体において、上記情報抽出プログラムは、抽出対象とするイベントと
その表現要素との関係を示す抽出情報パターンとの一致
が認められた文節より抽出される情報と、上記構文パタ
ーンに基づく解析により得られた係り受け関係及び当該
係り受け関係に含まれるタグ情報から特定される情報
を、必要な情報として抽出する情報抽出処理を含むこと
を特徴とする情報記録媒体。