JP3744676B2

JP3744676B2 - 情報抽出装置及びその方法

Info

Publication number: JP3744676B2
Application number: JP07180498A
Authority: JP
Inventors: 淳一福本
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-03-20
Filing date: 1998-03-20
Publication date: 2006-02-15
Anticipated expiration: 2018-03-20
Also published as: JPH11272695A

Description

【０００１】
【発明の属する技術分野】
本発明は、自然言語で記述された文書から所望の情報を抽出するのに用いられる情報抽出装置及びその方法に関するものである。
【０００２】
【従来の技術】
自然言語で記述された文書から所望の情報を抽出するのに用いられる従来装置について記述した文献の一つに、特開平７−８５０７１号公報がある。この装置は、文書中の各文を単語要素に分割する形態素解析処理と、単語要素間の係り受け関係など構文的役割を認識することにより各文の構造を認識する構文解析処理と、認識結果から品詞情報（固有名詞）を基に所望の情報を抽出する抽出処理からなり、これら３段階の処理から所望の情報を抽出する構成となっている。
【０００３】
【発明が解決しようとする課題】
ところが、この装置では、文書中に含まれる全ての単語に関する情報が辞書等に情報として保持されていること、すなわち、文書中に含まれる全ての名前、会社名、場所名などに関する情報が全て辞書等に情報として保持されていることが必要な条件となる。
【０００４】
しかし、種々雑多な人名、会社名等の全てを、予め辞書等に保持しておくことは、事実上不可能である。
【０００５】
また、このような情報が、形態素解析、構文解析を行う際に必要な情報として存在しない場合、それら単語の認識自体が不可能となり、情報抽出処理に必要な正しい形態素解析も、その構文解析もできない。
【０００６】
本発明は、以上の課題を考慮してなされたもので、文書中に現れる全ての人名、組織名、地名等の情報が辞書等に記憶されていない場合にも、正確な形態素解析および構文解析の実行により、所望の情報の抽出を可能とできる情報抽出装置及びその方法を提案しようとするものである。
【０００７】
【課題を解決するための手段】
（Ａ）かかる課題を解決するため、自然言語で記述された文書より、必要な情報を抽出する第１の発明に係る情報抽出装置において、以下の手段を設けるようにする。
【０００８】
すなわち、(1) ある種の情報の表現に特徴的に現れる１又は複数の文字パターンと、文書中に現れる文字列とを逐次照合し、一致が認められた文字列部分に対し、固有名詞の種類を示すタグ情報を付与する文字パターン処理部と、(2) タグ情報はそのままに、タグ情報を除く他の文字列部分を逐次単語情報に分割する形態素解析処理部と、(3) 形態素解析の結果得られたタグ情報を含む単語情報を文節単位にまとめ上げ、当該まとめ上げ後の単語情報を、文法上の構文規則を用いて構文解析する第１種類の構文解析処理と、固有名詞である情報要素と該情報要素の属性を示す属性的情報の間の関係を固有名詞の種類を利用して表現する構文パターンを用いて構文解析する第２種類の構文解析処理とを独立して実行する構文解析部と、 (4) 上記文字パターン処理部によって付与されたタグ情報を有する文節を抽出し、上記第２種類の構文解析処理による構文解析結果から得られる係り受け関係の中から、上記文節が関係する係り受け関係を認識すると共に、その係り受け関係で規定されているタグ情報が付与されていない文節を認識し、抽出されたタグ情報を有する文節及び認識されたタグ情報が付与されていない文節を、上記第１種類の構文解析処理による構文解析結果と、上記第２種類の構文解析処理による構文解析結果の両方から得られる係り受け関係に基づいて整理し、上記情報要素と、該情報要素の属性的情報とを特定し、関連する情報要素を同時に抽出する情報抽出部とを備えるようにする。
【０００９】
このように、第１の発明においては、表現上のパターンから特定の文字列部分の属性を特定できるので、当該文字列部分に現れている文字が未知語であっても、その後の処理を正しく実行することができ、正常な情報抽出が可能となる。また、構文パターンを用いて構文解析を行った後、抽出情報パターンに合致する情報の抽出を行うようにしたことにより、正しい解析結果に基づく情報の抽出を可能とでき、情報の抽出精度を高めることができる。
【００１０】
（Ｂ）また、自然言語で記述された文書より、必要な情報を抽出する第２の発明に係る情報抽出方法において、以下の処理を備えるようにする。
【００１１】
すなわち、(1) ある種の情報の表現に特徴的に現れる１又は複数の文字パターンと、文書中に現れる文字列とを逐次照合し、一致が認められた文字列部分に対し、固有名詞の種類を示すタグ情報を付与する文字パターン処理と、(2) タグ情報はそのままに、タグ情報を除く他の文字列部分を逐次単語情報に分割する形態素解析処理と、(3) 形態素解析の結果得られたタグ情報を含む単語情報を文節単位にまとめ上げ、当該まとめ上げ後の単語情報を、文法上の構文規則を用いて構文解析する第１の構文解析処理と、固有名詞である情報要素と該情報要素の属性を示す属性的情報の間の関係を固有名詞の種類を利用して表現する構文パターンを用いて構文解析する、上記第１の構文解析処理とは独立して実行される第２の構文解析処理とを含む構文解析処理と、 (4) 上記文字パターン処理によって付与されたタグ情報を有する文節を抽出し、上記第２種類の構文解析処理による構文解析結果から得られる係り受け関係の中から、上記文節が関係する係り受け関係を認識すると共に、その係り受け関係で規定されているタグ情報が付与されていない文節を認識し、抽出されたタグ情報を有する文節及び認識されたタグ情報が付与されていない文節を、上記第１種類の構文解析処理による構文解析結果と、上記第２種類の構文解析処理による構文解析結果の両方から得られる係り受け関係に基づいて整理し、上記情報要素と、該情報要素の属性的情報を特定し、関連する情報要素を同時に抽出する情報抽出処理とを備えるようにする。
【００１２】
この第２の発明によれば、第１の発明と同様、未知語が含まれる文であっても正常な情報抽出が可能となる。
【００１３】
【発明の実施の形態】
（Ａ）第１の実施形態
（Ａ−１）第１の実施形態の構成
（ａ）全体構成
以下、本発明に係る情報抽出装置及びその方法を、自然言語処理装置に適用する場合の第１の実施形態を、図面を用いて詳述する。
【００１４】
この第１の実施形態に係る自然言語処理装置は、実際上、入出力装置、通信装置、外部記憶装置等を適宜組み合わせて構成されるワークステーションやパソコン等の情報処理装置で実現されるものであるが、機能的には、図１の機能ブロック図で示すことができる。
【００１５】
図１の自然言語処理装置は、入力部１と、文字パターン処理部２と、文字パターン情報保持部３と、形態素解析処理部４と、構文解析部５と、構文パターン情報保持部６と、情報抽出部７と、出力部８とからなる。
【００１６】
このうち、文字パターン処理部２と文字パターン情報保持部３が、辞書に登録されていない未知語が含まれる場合にも、表現上のパターンからその意味内容を特定し、形態素解析の実行を可能とする部分であり、本実施形態に特有な構成に当たる。
【００１７】
また、構文解析部５と構文パターン情報保持部６が、先に特定された意味内容について現れ得る構文情報を基に、未知語部分を含む構文解析の実行を可能とする手段であり、やはり、本実施形態に特有な構成に当たる。
【００１８】
（ｂ）各部の構成
続いて、本実施形態に係る自然言語処理装置の各部の構成を、以下順番に説明する。
【００１９】
（ｂ−１）入力部１
入力部１は、情報抽出処理の抽出対象となる文書を入力として受け取り、文字パターン処理部２にその入力文字列を送るものである。入力部１は、例えば、キーボード、マウス、ＯＣＲ（光学式文字認識装置）、音声認識装置等の任意の手段で構成されていても良く、また、ネットワーク等の通信媒体を経て外部からの通信信号を受信する手段として構成されていても良い。
【００２０】
（ｂ−２）文字パターン処理部２
文字パターン処理部２は、入力文字列に含まれる文字パターンの認識を行い、認識された文字パターンに対してタグ付け処理（例えば、＜人名＞、＜／人名＞）を行うものである。図２に、文字パターン処理部２において実行される処理手順の概略を示す。
【００２１】
文字パターン処理部２は、処理を開始すると、まず、パラメータｎを１に設定する（ステップＳＰ１）。このパラメータｎは、文字パターン情報保持部３に保持されている文字パターン番号に対応する番号であり、パターン認識に用いる文字パターンの特定に使用される。
【００２２】
パターン番号ｎを設定すると、文字パターン処理部２は、当該番号に対応する文字パターンと入力文字列との照合を行い（ステップＳＰ２）、一致する文字パターンが入力文字列内にあるか否かの判定を行う（ステップＳＰ３）。
【００２３】
一致する文字パターンが含まれている場合、文字パターン処理部２は、該当パターン（複数の場合も含む。）の前後に当該パターンの意味内容を示すタグ情報を挿入する動作を行い（ステップＳＰ４）、次に、当該文字パターンが文字パターン情報保持部３に保持されている最後のものか否かの判定処理に移る（ステップＳＰ５）。なお、一致する文字パターンが含まれていない場合、文字パターン処理部２は、ステップＳＰ３の処理からステップＳＰ５の処理に直接移行する。
【００２４】
ステップＳＰ５に移った文字パターン処理部２は、現パラメータｎの値が登録されている文字パターンの最大値ｎmax と一致するか否かを判断し、一致しないと判断されている間、次のステップＳＰ６に進み、パラメータｎの値を次の値に更新する。
【００２５】
その後、文字パターン処理部２は、ステップＳＰ２に戻り、新たな文字パターンについて上述の一連の処理を繰り返し、全ての文字パターンについての照合動作が終了した時点で、一連の処理ループを抜け、タグ付け処理の行われた後の入力文字列を形態素解析処理部４に与える。
【００２６】
（ｂ−３）文字パターン情報保持部３
文字パターン情報保持部３は、文字パターン処理部２の照合処理に用いられる文字パターンを格納し保持している記憶手段である。図３に、文字パターン情報保持部３に保持されている文字パターンの例を示す。ここで、文字パターン記述部には、文書中の各文と照合を行う文字パターンそのものが記憶されており、属性には、その文字パターンと照合した文字列が表す属性情報が記憶されている。なお、実際の照合処理においては、属性情報中の（）で囲まれた部分に対して、タグ情報の付与が行われる。
【００２７】
例えば、図３に示すパターン番号１には、その文字パターンとして、「非漢字＋漢字＊＋［さん］」が保持されているが、この文字パターンのように、漢字以外の文字の後に任意の数の漢字が連続し、その後に「さん」という文字が連続して現れる場合には、例え、任意の数の漢字の部分が未知語である場合にも、その部分に「人名」とのタグ情報が付与される。
【００２８】
これは、「さん」、「氏」、「株式会社」等の固有名詞は、他の固有名詞の接辞語（接尾語又は接頭語）として用いられる場合、他の固有名詞に特定の意味又は特定の資格を与える役割があるからである。
【００２９】
なお、文字パターン情報保持部３は、これら文字パターンを格納する、ＲＯＭ、ＲＡＭ、ハードディスク等の磁気記憶媒体、ＣＤ−ＲＯＭ等の光記憶媒体その他の任意の記憶媒体でなる。
【００３０】
（ｂ−４）形態素解析処理部４
形態素解析処理部４は、文字パターン処理部２から入力された文字列のうち、文字パターン処理部２で付与されたタグ情報以外の部分を単語に分割する部分である。ここで、形態素解析処理の手法としては、「田中穂積：自然言語解析の基礎、産業図書（１９８９）」においても示されるような方法を用いることが可能である。
【００３１】
ただし、入力された文書中の各文に対して文字パターン処理部において付与されたタグ情報については、これはもともとの文書の内容とは無関係であるため形態素解析処理を行わずそのままの形式で出力するものとする。
【００３２】
（ｂ−５）構文解析部５
構文解析部５は、形態素解析処理部４の処理結果をまとめ上げた文節間の係り受けを、文法規則及び構文パターン規則に基づいて解析するものである。ここで、構文解析部５は、構文解析処理部５Ａと構文パターン処理部５Ｂの２つの部分からなる。
【００３３】
このうち、構文解析処理部５Ａは、文法規則に基づく構文解析を行う部分であり、その手法には、例えば、「福本、佐野、斉藤、福本：係り受けの強度に基づく依存文法、情報処理学会論文詩、Ｖｏ１．３３、Ｎｏ．１０（１９９２）」に示される方法を用いる。
【００３４】
一方、構文パターン処理部５Ｂは、構文パターン規則に基づく解析を行う部分であり、その手法は、解析に用いる規則が本実施形態に特有の構文パターンであることを除き、その手法は、構文解析処理部５Ａと同様である。
【００３５】
図４に、この構文解析部５による解析処理動作の概要を示す。なお、この解析処理動作は、形態素解析処理部４の処理結果を文節単位にまとめ上げた段階で実行される。図４の場合、構文解析部５は、先に構文パターン処理部５Ｂによる解析処理を実行する（ステップＳＰ１１）。
【００３６】
構文解析部５は、構文パターン情報保持部６に保持されている全ての構文パターンに基づいて構文解析を行い、その解析が終了すると、解析結果を保存する（ステップＳＰ１２）。続いて、構文解析部５は、構文解析処理部５Ａによる解析処理を実行する（ステップＳＰ１３）。そして、今度は、構文解析部５は、保持されている全ての文法規則に基づいて構文解析を行い（ステップＳＰ１３）、その解析が終了すると、解析結果を保存する（ステップＳＰ１４）。
【００３７】
かかる後、構文解析部５は、両解析結果を確認し（ステップＳＰ１５）、いずれか一方でも、規則に一致する解析結果が得られている間は、再度、ステップＳＰ１１の処理に戻るよう動作し、両方共に解析結果が得られない状態で、一連の処理動作を抜け出る。すなわち、この実施形態の場合、構文解析処理と構文パターン解析処理の双方の規則に適合する解析結果が得られるまで、当該処理が交互に実行される。
【００３８】
（ｂ−６）構文パターン情報保持部６
構文パターン情報保持部６は、構文パターン処理部５Ｂにおいて必要な構文パターンを保持している記憶手段である。図５に、構文パターン情報保持部６に保持されている構文パターンの例を示す。ここで、構文パターン記述部には、係り受け構造との照合を行う構文パターンが記憶されており、係り受け関係記述部には、照合した構文パターンに対する文節間の係り受け関係が記憶されている。
【００３９】
例えば、構文パターン番号１に対応する構文パターン「＜人名＞（タグ）＋（（括弧開）＋Ｘ（数詞）＋）（括弧閉）」は、人名の後に続く括弧（）に囲まれた数字列の形式を持つ構文パターンを記述している。この場合、数字は人名に対する年齢表現を示すものであるため、数字が人名に係り、括弧の表現は削除されている。この係り受け関係は、「＜人名＞（タグ）←Ｘ（数詞）」として表され、「←」の右の文節が左の文節に係るということを示している。
【００４０】
また、構文パターン番号２に対応する構文パターン「＜地名＞（タグ）＋、（読点）＋＜業種名＞（タグ）＋、（読点）＋＜人名＞（タグ）」は、連続した地名、業種名、人名が、読点によって区切られた表現を記述している。この場合、地名、業種名はそれぞれ人名に対する情報であるということが分かるため、それぞれ人名に対して係り受け関係が得られることを、「＜人名＞（タグ）←＜地名＞（タグ）」、「＜人名＞（タグ）←＜業種名＞（タグ）」として表している。
【００４１】
なお、構文パターン情報保持部６は、これら構文パターンを格納する、ＲＯＭ、ＲＡＭ、ハードディスク等の磁気記憶媒体、ＣＤ−ＲＯＭ等の光記憶媒体その他の任意の記憶媒体でなる。
【００４２】
（ｂ−７）情報抽出部７
情報抽出部７は、文字パターン情報保持部３及び構文パターン情報保持部６において記述されたそれぞれのパターンに当てはまる情報に基づいて抽出処理を行うものである。すなわち、文字パターン処理部２の認識結果と、構文解析によって判断された文節間の係り受け関係から必要な情報を抽出し、出力部８に出力する処理を行う。
【００４３】
（ｂ−８）出力部８
出力部８は、情報抽出部７から抽出結果を受け取り、これを出力するものである。例えば、種々の表示手段や印刷手段や通信手段が該当する。
【００４４】
（Ａ−２）第１の実施形態の動作
続いて、かかる構成を有する自然言語処理装置に入力された入力文から情報が抽出される様子を説明する。
【００４５】
ここでは、入力部１に対し、図６に示すような文書、すなわち「５日午前零時３５分ごろ…全焼した。」が入力されたものとして説明する。
【００４６】
（ａ）タグ情報の付与
入力された文書は、文字パターン処理部２に与えられる。文字パターン処理部２は、入力部１から入力文が与えられると、入力文中の全ての箇所を対象とし、予め文字パターン情報保持部３に登録されている各文字パターンと照合可能な部分文字列があるかどうかを認識する。そして、文字パターン処理部２は、照合可能であった場合、その照合した部分文字列に対して、文字パターンの属性として登録されている情報をタグ情報として付加を行う。
【００４７】
例えば、図６に示す入力文の場合、「、鈴木勇さん」の部分文字列がパターン番号１に照合可能であり、「、消毒業、」の部分文字列がパターン番号６に照合可能であり、「、大阪市中央町、」の部分文字列がパターン番号７に照合可能である。
【００４８】
なお、部分文字列「、鈴木勇さん」の部分が対応するパターン番号１は、「鈴木勇さん」の部分が人名であることを意味しているので、文中の該当部分に、人名というタグ情報が付与される。図７は、「鈴木勇さん」の部分に人名というタグ情報が付与された状態を表している。
【００４９】
ここで、タグ情報は、「＜人名＞」がタグの開始位置を示し、「＜／人名＞」がタグの終了位置を示している。また、タグ情報は、それぞれ「＜＞」と「＜／＞」とで挟まれた部分文字列の情報の属性を示している。
【００５０】
同様に、「大阪市中央町」の部分に対しては地名というタグ情報が付与され、「消毒業」の部分に対しては業種名というタグ情報が付与される。
【００５１】
（ｂ）形態素解析
この文字パターン処理部２においてタグ付けされた文字列は、形態素解析処理部４に与えられる。形態素解析処理部４は、かかるタグ付きの入力文を入力すると、その形態素解析処理を行い、文書中の各文を単語に分割する。なお、入力文書の各文に含まれているタグ情報は、もともとの文書の内容とは無関係な情報であるので、形態素解析処理部４は、かかるタグ情報を形態素解析処理の対象とせず、そのままの形式で出力する。
【００５２】
図８に、形態素解析処理部４による形態素解析処理結果の例を示す。この図８の場合、各単語は、「｜」によって区切られ、また、各単語の品詞情報が各単語の右の「（）」内に示されている。なお、文字パターン処理部２において付与されたタグ情報「＜人名＞」「＜／人名＞」は、ともに一つの要素として認識され、「タグ」をいう品詞情報が付与される。
【００５３】
このように、人名や地名のように種類が豊富なために未知語となり易い部分文字列が含まれている場合にも、適切な品詞情報の付与が可能となり、形態素解析が正常に行われる。
【００５４】
（ｃ）構文解析
（ｃ−１）前処理
以上説明した形態素解析の処理が終了すると、次は、構文解析の処理に移る。
【００５５】
前述したように、構文解析部５は、構文解析処理部５Ａと構文パターン処理部５Ｂを交互に使用してその構文解析処理を実行するが、その前処理として、形態素解析処理部４の処理結果を文節単位にまとめ上げる処理を実行する。なお、この文節までのまとめ上げ処理においては、文字パターンで付与されたタグで囲まれた範囲について、一つの文節としてのまとめ上げが行われる。
【００５６】
この規則に基づいて行われた文節単位のまとめ上げ処理結果を図９に示す。図９では、図８において「｜」で区切られた各単語のうち、各文節としてひとまとまりで与えられるものが「‖」によって区切られている。
【００５７】
さて、かかる文節までのまとめ上げが終了すると、構文解析部５は、次に、その文節内の係り受けを求める処理を行う。この係り受け関係を表したのが、図１０である。図１０は、各文節内における最も左側に位置する自立語を、その文節を代表する単語として見なし、その他の単語は全てその代表となる単語に係ると見なすものである。
【００５８】
ここで、区切られた文節のそれぞれには、順番に、文節番号が付与されている。なお、代表単語が存在した文節中の位置には特殊記号「＄」が埋め込まれている。因みに、文節番号１１のように自立語が存在しない場合には、最も左にある単語が代表単語となっている。また、文節番号１６のようにサ変名詞と動詞「した（する）」が連続した場合には、動詞を代表語としている。
【００５９】
（ｃ−２）係り受けの解析
以上のまとめ上げ処理が終了すると、次は、文節間の係り受け関係の解析に移る。この解析処理は、図４で説明したように、通常の文法規則に基づく解析と、構文パターン規則に基づく解析とが交互に行われることにより実行される。最初に、処理結果を図１１に示しておく。なお、ここに示されている係り受け関係は、図１０の文節データについてのものである。
【００６０】
まず、構文パターン処理部５Ｂは、構文パターン情報保持部６に記憶されている構文パターン２と照合するパターンが、図１０の文節データ中に存在するか照合を行う。この場合、文節番号３、４、５、６、７が照合することが分かる。この照合結果に対する係り受け関係は、「＜人名＞（タグ）←＜地名＞（タグ）」と「＜人名＞（タグ）←＜業種名＞（タグ）」との２つである。
【００６１】
従って、まず第１の解析結果として、文節番号７の文節に対して文節番号３の文節が係っているとの結果が得られ、第２の解析結果として、文節番号７の文節に対して文節番号５の文節が係っているとの結果が得られる。
【００６２】
続いて、構文パターン処理部５Ｂは、構文パターン情報保持部６に記憶されている構文パターン１と照合するパターンが、図１０の文節データ中に存在するか照合を行う。この場合、文節番号７，８、９、１０が照合することが分かる。この照合結果に対する係り受け関係は、「＜人名＞（タグ）←Ｘ（数詞）」である。
【００６３】
従って、第３の解析結果として、文節番号７の文節に対して文節番号９の文節が係っているとの結果が得られる。
【００６４】
図１０の場合、構文パターンに照合するパターンは３つしかないので、構文パターン処理部５Ｂによる処理はこれで終了し、構文解析部５は、構文解析処理部５Ａによる処理に移行する。
【００６５】
この構文解析処理部５Ａによる処理は、通常知られている処理であるのでその詳細は省略するが、この解析処理により、図１１における第４〜第９の解析結果が得られる。なお、構文解析処理部５Ａは、接辞語の情報を用いることにより、それが付されている固有名詞の品詞情報の決定し、文節番号７に係る文節が、文節番号１１の文節に係る関係にあるとの認識を行い、第４の解析結果を得ている。
【００６６】
この処理の終了後、構文解析部５は、再び、上述の構文パターンに基づく解析と文法規則に基づく解析とを繰り返すが、この例の場合には、上述した解析結果以外の新たな解析結果は得られないので、その確認後、解析処理が終了したと判断し、処理結果を情報抽出部７に与える。
【００６７】
（ｄ）情報抽出
情報抽出部７は、前段に位置する構文解析部５からその構文解析結果（図１１）が入力されると、まず、文字パターン処理において認識された文節、すなわち、タグ情報が付与されているものを抽出する。これにより、文節番号３、５、７に対応する文節を抽出する。
【００６８】
次に、情報抽出部７は、構文パターンによって判断された係り受け関係の解析結果を抽出する。これにより、図１１における第１番目、２番目、３番目の係り受け関係を抽出する。なお、この係り受け関係により、新たに文節番号９の文節が抽出される。
【００６９】
なお、これら４つの文節間には、図１１の係り受け関係から、文節番号７の文節に他の３つの文節（文節番号３、５、９の文節）が係る関係があることが分かる。そこで、情報抽出部７は、文節番号７の文節と、その他の文節とを分けて分類し、例えば、図１２に示すような抽出結果を得る。
【００７０】
すなわち、文節番号７に係る文節の＜人名＞として「鈴木勇さん」という情報を抽出し、その人名情報に関係する情報として、「大阪市中央町」という＜地名＞の情報、「消毒業」という＜業種名＞の情報、「５０」という数字の方法を抽出する。
【００７１】
（Ａ−３）第１の実施形態の効果
この第１の実施形態によれば、固有名詞の情報である人名、組織名、地名などある種の単語要素に付される可能性の高い特徴的な接辞語（接頭語及び接尾語）を用いて、文書中に現れる文字パターンを認識するようにしたことにより、未知語の認識が可能となり、また、その接辞語の品詞情報及び意味的情報（属性として予め登録された情報）を用いることにより、文書を構成する各文の正しい形態素解析を可能とできる。
【００７２】
さらに、第１の実施形態によれば、構文解析の際に、構文パターンに基づく解析処理を実行するようにしたことにより、従来の処理では認識できなかった要素間の構文構造として、例えば、係り受け関係を正しく認識することができ、構文解析の各処理を正しく行うことを可能とできる。
【００７３】
またこれら文字パターンに基づく情報処理および構文パターンに基づく情報処理の処理結果を用いて情報の抽出処理を行うようにしたことにより、未知語を含む文を処理対象とする場合にも、要素とそれらに関する属性的情報との関係を認識でき、情報抽出処理を可能とできる。
【００７４】
（Ｂ）第２の実施形態
（Ｂ−１）第２の実施形態の構成
以下、本発明に係る情報抽出装置及びその方法を、自然言語処理装置に適用する場合の第２の実施形態を、図面を用いて詳述する。
【００７５】
この第２の実施形態に係る自然言語処理装置の場合も、実際上、入出力装置、通信装置、外部記憶装置等を適宜組み合わせて構成されるワークステーションやパソコン等の情報処理装置で実現されるものであるが、機能的には、図１３の機能ブロック図で示すことができる。
【００７６】
なお、この図１３は、図１との対応同一部分に、対応同一符号を付して示したものである。このように、この第２の実施形態は、上述した第１の実施形態と、抽出情報パターン保持部９を除き同一の構成を有するものである。ここでは、本実施形態に特有の構成である抽出情報パターン保持部９の構成のみを説明する。
【００７７】
抽出情報パターン保持部９は、文書中にある何が起こったかに関する情報を抽出するために用いる情報パターンを保持するための手段であり、ＲＯＭ、ＲＡＭ、ハードディスク等の磁気記憶媒体、ＣＤ−ＲＯＭ等の光記憶媒体その他の任意の記憶媒体でなる。
【００７８】
かかる抽出情報パターン保持部９を設ける理由は、第１の実施形態の場合、文節間の関係こそ抽出できるものの、抽出対象となった文書に記載されている何が起こったかに関する情報、すなわち、イベントについては、その抽出ができないためである。このため、抽出情報パターン保持部９は、抽出対象とするイベントの種類（イベント名）と、そのイベントを構成する要素（イベント要素）とを一組の情報として保持している。
【００７９】
図１４に、一例を示す。図１４の場合、イベント番号１には、「全焼する」というイベントの抽出用の情報が登録されている。すなわち、このイベント番号１には、そのイベント名として「全焼する」が登録され、また、イベント要素として格助詞の「が」が、当該イベントの抽出に用いる文節として登録されている。また、イベント番号２には、「出火する」というイベントの抽出用の情報が登録されている。すなわち、このイベント番号２には、そのイベント名として「出火する」が登録され、また、イベント要素として格助詞「が」及び格助詞「から」が、当該イベントの抽出に用いる文節として登録されている。
【００８０】
（Ｂ−２）第２の実施形態の動作
続いて、かかる構成を有する自然言語処理装置に入力された入力文から情報が抽出される様子を説明する。
【００８１】
なお、ここでも、入力部１に対し、図６に示すような文書、すなわち「５日午前零時３５分ごろ…全焼した。」が入力されたものとして説明する。従って、本実施形態の場合も、情報抽出部７までの処理動作は、第１の実施形態と同じである。従って、構文解析部５の処理が終了した時点では、図１１に示す解析結果が得られている。
【００８２】
情報抽出部７は、かかる解析結果を入力すると、第１の実施形態における情報の抽出動作を実行すると共に、抽出情報パターン保持部９に登録されているイベントに基づいた情報の抽出動作を行う。ここでは、図１５を用い、その抽出動作を説明する。
【００８３】
まず、情報抽出部７は、イベント番号１のイベント名「全焼する」を表す文節（文節番号１６）に係る要素である格助詞「が」をもつ文節（文節番号１５）から「約１２５平方メートルが」を抽出する。
【００８４】
また、イベント番号２のイベント名「出火する」を表す文節（文節番号１２）に係る要素である格助詞「から」をもつ文節（文節番号１１）から「方から」を抽出する。なお、この「方」は接尾語であり、それに対しては＜人名＞「鈴木勇さん」という情報が係っているため、それらをまとめて「＜人名＞鈴木勇さん方から」として抽出する。
【００８５】
最後に、情報抽出部７は、第１の実施形態の場合と同様に、「＜人名＞鈴木勇さん」の人名情報に関係する情報をして、「大阪市中央町」という＜地名＞の情報、「消毒業」という＜業種名＞の情報、「５０」という数字の方法を抽出する。
【００８６】
（Ｂ−３）第２の実施形態の効果
この第２の実施形態によれば、第１の実施形態と同様の効果が得られるのに加え、抽出を行うべき情報パターンとして抽出対象の文書中から何が起こったのかに関するイベントの情報を予め登録しておくことで、ユーザの求める構造の情報をイベントの形式でも抽出出することを可能とできる。
【００８７】
（Ｃ）第３の実施形態
以下、本発明に係る情報抽出装置及びその方法を、自然言語処理装置に適用する場合の第３の実施形態を、図面を用いて説明する。
【００８８】
この第３の実施形態に係る自然言語処理装置の場合も、実際上、入出力装置、通信装置、外部記憶装置等を適宜組み合わせて構成されるワークステーションやパソコン等の情報処理装置で実現されるものである。ただし、その機能ブロック構成は、第２の実施形態のものと同じ、すなわち、図１３で与えられる。
【００８９】
この第３の実施形態と第２の実施形態との違いは、情報抽出部７と出力部８に新たな機能が加えられた点のみであり、その他の構成部分は第２の実施形態と同じである。
【００９０】
従って、ここでは、新たに加えられた機能についてのみ説明する。この第３の実施形態において新たに加えられた機能は、情報抽出部７が抽出された情報の種類に応じて色情報を付与する機能と、出力部８が当該色情報に応じた色分け表示（抽出された全ての情報を反転表示する場合や下線表示する場合を含む）を行う点の２点である。
【００９１】
ここで、情報抽出部７は、タグの種類に応じて情報の種類を判定し、判定結果に応じた色情報の付加を行う。
【００９２】
この機能を設けた結果、入力文にタグ情報を挿入した文を最終的な表示とする場合、その表示は、例えば、図１６のようになる。なお、図１６では、抽出された情報部分（「大阪市中央町」、「消毒業」、「鈴木勇さん」、「（５０）方から出火」、「約１２５平方メートルが全焼した」）を下線表示しているが、この部分が反転表示されていても良いし、また、各情報ごと異なる色が付されていても良い。
【００９３】
従って、この第３の実施形態によれば、第２の実施形態と同様の効果が得られるのに加え、ユーザにとっては、入力文の全文を読まなくてもその要点部分を容易に理解できるという使い勝手に優れた効果を実現できる。
【００９４】
（Ｄ）他の実施形態
(1) 第１の実施形態においては（第２及び第３の実施形態も同様）、構文解析の前に予め形態素解析結果を文節単位にまとめ上げる場合について述べたが、形態素解析結果そのものを直接構文解析しても良い。
【００９５】
(2) 第１の実施形態においては（第２及び第３の実施形態も同様）、構文解析部５が構文解析処理部５Ａと構文パターン処理部５Ｂとで構成されるものとし、これら２つの機能部を交互に動作させることにより、所望の解析結果を得る場合について述べたが、構文解析処理部５Ａで用いる文法規則と構文パターン処理部５Ｂが用いる構文パターン規則を区別せず、１つの規則として扱うようにしても良い。
【００９６】
(3) 第１の実施形態においては（第２及び第３の実施形態も同様）、文字パターン処理部２による処理と構文パターン処理部５Ｂによる処理の２つを組み合わせて情報抽出を行う自然言語処理装置について述べたが、文字パターン処理部２のみを用いて情報抽出を行う自然言語処理装置にも適用し得る。
【００９７】
すなわち、第１の実施形態に係る自然言語処理装置から構文パターン処理部５Ｂ及び構文パターン情報保持部６を除いた構成の装置にも適用し得る。
【００９８】
(4) 第２の実施形態においては、第１の実施形態に対し、抽出情報パターンによる情報の抽出機能を組み合わせる場合について述べたが、すなわち、文字パターンによる処理機能と構文パターンによる処理機能とを備えた装置に、抽出情報パターンによる処理機能を付加する場合について述べたが、機能の組み合わせはこれに限らない。
【００９９】
例えば、文字パターンによる処理機能と抽出情報パターンによる処理機能を組み合わせて情報抽出を行う装置に適用しても良く、構文パターンによる処理機能と抽出情報パターンによる処理機能を組み合わせて情報抽出を行う装置に適用しても良い。
【０１００】
(5) 第３の実施形態においては、第２の実施形態に対し、色表示機能を組み合わせる場合について述べたが、すなわち、文字パターンによる処理機能と構文パターンによる処理機能と抽出情報パターンによる処理機能とを備えた装置に、色表示機能を付加する場合について述べたが、機能の組み合わせはこれに限られるものでなく、これら４つの機能を任意の組み合わせる装置にも適用し得る。
【０１０１】
例えば、文字パターンによる処理機能と構文パターンによる処理機能と色表示機能とを組み合わせて情報抽出を行う装置に適用しても良く、文字パターンによる処理機能と色表示機能とを組み合わせて情報抽出を行う装置にも適用し得る。
【０１０２】
(6) 上述の各実施形態においては、処理対象とする自然言語が日本語である自然言語処理装置について示したが、他の言語を処理対象とする自然言語処理装置についても、本発明を適用することができる。
【０１０３】
【発明の効果】
上述のように、第１の発明に係る情報抽出装置及び第２の発明に係る情報抽出方法によれば、表現上のパターンから特定の文字列部分の属性を特定し、その特定結果を用いて情報の抽出を行うことにすることにより、当該文字列部分が未知語であっても、その後の処理を正しく行うことができる。
【図面の簡単な説明】
【図１】第１の実施形態を示す機能ブロック図である。
【図２】文字パターン処理部の動作例を示すフローチャートである。
【図３】文字パターン情報の一例を示す説明図である。
【図４】構文解析部の動作例を示すフローチャートである。
【図５】構文パターン情報の一例を示す説明図である。
【図６】入力文字列の一例を示す説明図である。
【図７】文字パターン処理後の文字列を示す説明図である。
【図８】形態素解析後の文字列を示す説明図である。
【図９】文節までのまとめ上げ終了後の文字列を示す説明図である。
【図１０】文節間の係り受け解析後の文字列を示す説明図である。
【図１１】構文解析結果を示す説明図である。
【図１２】第１の実施形態で抽出される情報例を示す説明図である。
【図１３】第２の実施形態を示す機能ブロック図である。
【図１４】抽出情報パターンの一例を示す説明図である。
【図１５】第２の実施形態で抽出される情報例を示す説明図である。
【図１６】第３の実施形態での情報の表示例を示す説明図である。
【符号の説明】
１…入力部、２…文字パターン処理部、３…文字パターン情報保持部、４…形態素解析処理部、５…構文解析部、５Ａ…構文解析処理部、５Ｂ…構文パターン処理部、６…構文パターン情報保持部、７…情報抽出部、８…出力部、９…抽出情報パターン保持部。

Claims

自然言語で記述された文書より、必要な情報を抽出する情報抽出装置において、
ある種の情報の表現に特徴的に現れる１又は複数の文字パターンと、文書中に現れる文字列とを逐次照合し、一致が認められた文字列部分に対し、固有名詞の種類を示すタグ情報を付与する文字パターン処理部と、
上記タグ情報はそのままに、タグ情報を除く他の文字列部分を逐次単語情報に分割する形態素解析処理部と、
形態素解析の結果得られたタグ情報を含む単語情報を文節単位にまとめ上げ、当該まとめ上げ後の単語情報を、文法上の構文規則を用いて構文解析する第１種類の構文解析処理と、固有名詞である情報要素と該情報要素の属性を示す属性的情報の間の関係を固有名詞の種類を利用して表現する構文パターンを用いて構文解析する第２種類の構文解析処理とを独立して実行する構文解析部と、
上記文字パターン処理部によって付与されたタグ情報を有する文節を抽出し、上記第２種類の構文解析処理による構文解析結果から得られる係り受け関係の中から、上記文節が関係する係り受け関係を認識すると共に、その係り受け関係で規定されているタグ情報が付与されていない文節を認識し、抽出されたタグ情報を有する文節及び認識されたタグ情報が付与されていない文節を、上記第１種類の構文解析処理による構文解析結果と、上記第２種類の構文解析処理による構文解析結果の両方から得られる係り受け関係に基づいて整理し、上記情報要素と、該情報要素の属性的情報を特定し、関連する情報要素を同時に抽出する情報抽出部と
を備えたことを特徴とする情報抽出装置。
請求項１に記載の情報抽出装置において、
上記構文解析部は、形態素解析の結果得られた単語情報を文節単位にまとめ上げ後、文節内の代表単語と代表単語に係る単語を特定し、文節内の係り受け関係を求めることを特徴とする情報抽出装置。
請求項１に記載の情報抽出装置において、
上記情報抽出部は、抽出対象とするイベントとその表現要素との関係を示す抽出情報パターンとの一致が認められた文節より抽出される情報をも必要な情報として抽出することを特徴とする情報抽出装置。
文字パターン処理部と、形態素解析処理部と、構文解析部と、情報抽出部とを備え、自然言語で記述された文書より、必要な情報を抽出する情報抽出方法において、
上記文字パターン処理部は、ある種の情報の表現に特徴的に現れる１又は複数の文字パターンと、文書中に現れる文字列とを逐次照合し、一致が認められた文字列部分に対し、固有名詞の種類を示すタグ情報を付与する文字パターン処理を実行し、
上記形態素解析処理部は、上記タグ情報はそのままに、タグ情報を除く他の文字列部分を逐次単語情報に分割する形態素解析処理を実行し、
上記構文解析部は、形態素解析の結果得られたタグ情報を含む単語情報を文節単位にまとめ上げ、当該まとめ上げ後の単語情報を、文法上の構文規則を用いて構文解析する第１種類の構文解析処理と、固有名詞である情報要素と該情報要素の属性を示す属性的情報の間の関係を固有名詞の種類を利用して表現する構文パターンを用いて構文解析する、上記第１種類の構文解析処理とは独立して実行される第２種類の構文解析処理とを含む構文解析処理を実行し、
上記情報抽出部は、上記文字パターン処理によって付与されたタグ情報を有する文節を抽出し、上記第２種類の構文解析処理による構文解析結果から得られる係り受け関係の中から、上記文節が関係する係り受け関係を認識すると共に、その係り受け関係で規定されているタグ情報が付与されていない文節を認識し、抽出されたタグ情報を有する文節及び認識されたタグ情報が付与されていない文節を、上記第１種類の構文解析処理による構文解析結果と、上記第２種類の構文解析処理による構文解析結果の両方から得られる係り受け関係に基づいて整理し、上記情報要素と、該情報要素の属性的情報を特定し、関連する情報要素を同時に抽出する情報抽出処理を実行する
ことを特徴とする情報抽出方法。