JP3744676B2 - 情報抽出装置及びその方法 - Google Patents
情報抽出装置及びその方法 Download PDFInfo
- Publication number
- JP3744676B2 JP3744676B2 JP07180498A JP7180498A JP3744676B2 JP 3744676 B2 JP3744676 B2 JP 3744676B2 JP 07180498 A JP07180498 A JP 07180498A JP 7180498 A JP7180498 A JP 7180498A JP 3744676 B2 JP3744676 B2 JP 3744676B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- analysis
- unit
- syntax
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、自然言語で記述された文書から所望の情報を抽出するのに用いられる情報抽出装置及びその方法に関するものである。
【0002】
【従来の技術】
自然言語で記述された文書から所望の情報を抽出するのに用いられる従来装置について記述した文献の一つに、特開平7−85071号公報がある。この装置は、文書中の各文を単語要素に分割する形態素解析処理と、単語要素間の係り受け関係など構文的役割を認識することにより各文の構造を認識する構文解析処理と、認識結果から品詞情報(固有名詞)を基に所望の情報を抽出する抽出処理からなり、これら3段階の処理から所望の情報を抽出する構成となっている。
【0003】
【発明が解決しようとする課題】
ところが、この装置では、文書中に含まれる全ての単語に関する情報が辞書等に情報として保持されていること、すなわち、文書中に含まれる全ての名前、会社名、場所名などに関する情報が全て辞書等に情報として保持されていることが必要な条件となる。
【0004】
しかし、種々雑多な人名、会社名等の全てを、予め辞書等に保持しておくことは、事実上不可能である。
【0005】
また、このような情報が、形態素解析、構文解析を行う際に必要な情報として存在しない場合、それら単語の認識自体が不可能となり、情報抽出処理に必要な正しい形態素解析も、その構文解析もできない。
【0006】
本発明は、以上の課題を考慮してなされたもので、文書中に現れる全ての人名、組織名、地名等の情報が辞書等に記憶されていない場合にも、正確な形態素解析および構文解析の実行により、所望の情報の抽出を可能とできる情報抽出装置及びその方法を提案しようとするものである。
【0007】
【課題を解決するための手段】
(A)かかる課題を解決するため、自然言語で記述された文書より、必要な情報を抽出する第1の発明に係る情報抽出装置において、以下の手段を設けるようにする。
【0008】
すなわち、(1) ある種の情報の表現に特徴的に現れる1又は複数の文字パターンと、文書中に現れる文字列とを逐次照合し、一致が認められた文字列部分に対し、固有名詞の種類を示すタグ情報を付与する文字パターン処理部と、(2) タグ情報はそのままに、タグ情報を除く他の文字列部分を逐次単語情報に分割する形態素解析処理部と、(3) 形態素解析の結果得られたタグ情報を含む単語情報を文節単位にまとめ上げ、当該まとめ上げ後の単語情報を、文法上の構文規則を用いて構文解析する第1種類の構文解析処理と、固有名詞である情報要素と該情報要素の属性を示す属性的情報の間の関係を固有名詞の種類を利用して表現する構文パターンを用いて構文解析する第2種類の構文解析処理とを独立して実行する構文解析部と、 (4) 上記文字パターン処理部によって付与されたタグ情報を有する文節を抽出し、上記第2種類の構文解析処理による構文解析結果から得られる係り受け関係の中から、上記文節が関係する係り受け関係を認識すると共に、その係り受け関係で規定されているタグ情報が付与されていない文節を認識し、抽出されたタグ情報を有する文節及び認識されたタグ情報が付与されていない文節を、上記第1種類の構文解析処理による構文解析結果と、上記第2種類の構文解析処理による構文解析結果の両方から得られる係り受け関係に基づいて整理し、上記情報要素と、該情報要素の属性的情報とを特定し、関連する情報要素を同時に抽出する情報抽出部とを備えるようにする。
【0009】
このように、第1の発明においては、表現上のパターンから特定の文字列部分の属性を特定できるので、当該文字列部分に現れている文字が未知語であっても、その後の処理を正しく実行することができ、正常な情報抽出が可能となる。また、構文パターンを用いて構文解析を行った後、抽出情報パターンに合致する情報の抽出を行うようにしたことにより、正しい解析結果に基づく情報の抽出を可能とでき、情報の抽出精度を高めることができる。
【0010】
(B)また、自然言語で記述された文書より、必要な情報を抽出する第2の発明に係る情報抽出方法において、以下の処理を備えるようにする。
【0011】
すなわち、(1) ある種の情報の表現に特徴的に現れる1又は複数の文字パターンと、文書中に現れる文字列とを逐次照合し、一致が認められた文字列部分に対し、固有名詞の種類を示すタグ情報を付与する文字パターン処理と、(2) タグ情報はそのままに、タグ情報を除く他の文字列部分を逐次単語情報に分割する形態素解析処理と、(3) 形態素解析の結果得られたタグ情報を含む単語情報を文節単位にまとめ上げ、当該まとめ上げ後の単語情報を、文法上の構文規則を用いて構文解析する第1の構文解析処理と、固有名詞である情報要素と該情報要素の属性を示す属性的情報の間の関係を固有名詞の種類を利用して表現する構文パターンを用いて構文解析する、上記第1の構文解析処理とは独立して実行される第2の構文解析処理とを含む構文解析処理と、 (4) 上記文字パターン処理によって付与されたタグ情報を有する文節を抽出し、上記第2種類の構文解析処理による構文解析結果から得られる係り受け関係の中から、上記文節が関係する係り受け関係を認識すると共に、その係り受け関係で規定されているタグ情報が付与されていない文節を認識し、抽出されたタグ情報を有する文節及び認識されたタグ情報が付与されていない文節を、上記第1種類の構文解析処理による構文解析結果と、上記第2種類の構文解析処理による構文解析結果の両方から得られる係り受け関係に基づいて整理し、上記情報要素と、該情報要素の属性的情報を特定し、関連する情報要素を同時に抽出する情報抽出処理とを備えるようにする。
【0012】
この第2の発明によれば、第1の発明と同様、未知語が含まれる文であっても正常な情報抽出が可能となる。
【0013】
【発明の実施の形態】
(A)第1の実施形態
(A−1)第1の実施形態の構成
(a)全体構成
以下、本発明に係る情報抽出装置及びその方法を、自然言語処理装置に適用する場合の第1の実施形態を、図面を用いて詳述する。
【0014】
この第1の実施形態に係る自然言語処理装置は、実際上、入出力装置、通信装置、外部記憶装置等を適宜組み合わせて構成されるワークステーションやパソコン等の情報処理装置で実現されるものであるが、機能的には、図1の機能ブロック図で示すことができる。
【0015】
図1の自然言語処理装置は、入力部1と、文字パターン処理部2と、文字パターン情報保持部3と、形態素解析処理部4と、構文解析部5と、構文パターン情報保持部6と、情報抽出部7と、出力部8とからなる。
【0016】
このうち、文字パターン処理部2と文字パターン情報保持部3が、辞書に登録されていない未知語が含まれる場合にも、表現上のパターンからその意味内容を特定し、形態素解析の実行を可能とする部分であり、本実施形態に特有な構成に当たる。
【0017】
また、構文解析部5と構文パターン情報保持部6が、先に特定された意味内容について現れ得る構文情報を基に、未知語部分を含む構文解析の実行を可能とする手段であり、やはり、本実施形態に特有な構成に当たる。
【0018】
(b)各部の構成
続いて、本実施形態に係る自然言語処理装置の各部の構成を、以下順番に説明する。
【0019】
(b−1)入力部1
入力部1は、情報抽出処理の抽出対象となる文書を入力として受け取り、文字パターン処理部2にその入力文字列を送るものである。入力部1は、例えば、キーボード、マウス、OCR(光学式文字認識装置)、音声認識装置等の任意の手段で構成されていても良く、また、ネットワーク等の通信媒体を経て外部からの通信信号を受信する手段として構成されていても良い。
【0020】
(b−2)文字パターン処理部2
文字パターン処理部2は、入力文字列に含まれる文字パターンの認識を行い、認識された文字パターンに対してタグ付け処理(例えば、<人名>、</人名>)を行うものである。図2に、文字パターン処理部2において実行される処理手順の概略を示す。
【0021】
文字パターン処理部2は、処理を開始すると、まず、パラメータnを1に設定する(ステップSP1)。このパラメータnは、文字パターン情報保持部3に保持されている文字パターン番号に対応する番号であり、パターン認識に用いる文字パターンの特定に使用される。
【0022】
パターン番号nを設定すると、文字パターン処理部2は、当該番号に対応する文字パターンと入力文字列との照合を行い(ステップSP2)、一致する文字パターンが入力文字列内にあるか否かの判定を行う(ステップSP3)。
【0023】
一致する文字パターンが含まれている場合、文字パターン処理部2は、該当パターン(複数の場合も含む。)の前後に当該パターンの意味内容を示すタグ情報を挿入する動作を行い(ステップSP4)、次に、当該文字パターンが文字パターン情報保持部3に保持されている最後のものか否かの判定処理に移る(ステップSP5)。なお、一致する文字パターンが含まれていない場合、文字パターン処理部2は、ステップSP3の処理からステップSP5の処理に直接移行する。
【0024】
ステップSP5に移った文字パターン処理部2は、現パラメータnの値が登録されている文字パターンの最大値nmax と一致するか否かを判断し、一致しないと判断されている間、次のステップSP6に進み、パラメータnの値を次の値に更新する。
【0025】
その後、文字パターン処理部2は、ステップSP2に戻り、新たな文字パターンについて上述の一連の処理を繰り返し、全ての文字パターンについての照合動作が終了した時点で、一連の処理ループを抜け、タグ付け処理の行われた後の入力文字列を形態素解析処理部4に与える。
【0026】
(b−3)文字パターン情報保持部3
文字パターン情報保持部3は、文字パターン処理部2の照合処理に用いられる文字パターンを格納し保持している記憶手段である。図3に、文字パターン情報保持部3に保持されている文字パターンの例を示す。ここで、文字パターン記述部には、文書中の各文と照合を行う文字パターンそのものが記憶されており、属性には、その文字パターンと照合した文字列が表す属性情報が記憶されている。なお、実際の照合処理においては、属性情報中の()で囲まれた部分に対して、タグ情報の付与が行われる。
【0027】
例えば、図3に示すパターン番号1には、その文字パターンとして、「非漢字+漢字*+[さん]」が保持されているが、この文字パターンのように、漢字以外の文字の後に任意の数の漢字が連続し、その後に「さん」という文字が連続して現れる場合には、例え、任意の数の漢字の部分が未知語である場合にも、その部分に「人名」とのタグ情報が付与される。
【0028】
これは、「さん」、「氏」、「株式会社」等の固有名詞は、他の固有名詞の接辞語(接尾語又は接頭語)として用いられる場合、他の固有名詞に特定の意味又は特定の資格を与える役割があるからである。
【0029】
なお、文字パターン情報保持部3は、これら文字パターンを格納する、ROM、RAM、ハードディスク等の磁気記憶媒体、CD−ROM等の光記憶媒体その他の任意の記憶媒体でなる。
【0030】
(b−4)形態素解析処理部4
形態素解析処理部4は、文字パターン処理部2から入力された文字列のうち、文字パターン処理部2で付与されたタグ情報以外の部分を単語に分割する部分である。ここで、形態素解析処理の手法としては、「田中穂積:自然言語解析の基礎、産業図書(1989)」においても示されるような方法を用いることが可能である。
【0031】
ただし、入力された文書中の各文に対して文字パターン処理部において付与されたタグ情報については、これはもともとの文書の内容とは無関係であるため形態素解析処理を行わずそのままの形式で出力するものとする。
【0032】
(b−5)構文解析部5
構文解析部5は、形態素解析処理部4の処理結果をまとめ上げた文節間の係り受けを、文法規則及び構文パターン規則に基づいて解析するものである。ここで、構文解析部5は、構文解析処理部5Aと構文パターン処理部5Bの2つの部分からなる。
【0033】
このうち、構文解析処理部5Aは、文法規則に基づく構文解析を行う部分であり、その手法には、例えば、「福本、佐野、斉藤、福本:係り受けの強度に基づく依存文法、情報処理学会論文詩、Vo1.33、No.10(1992)」に示される方法を用いる。
【0034】
一方、構文パターン処理部5Bは、構文パターン規則に基づく解析を行う部分であり、その手法は、解析に用いる規則が本実施形態に特有の構文パターンであることを除き、その手法は、構文解析処理部5Aと同様である。
【0035】
図4に、この構文解析部5による解析処理動作の概要を示す。なお、この解析処理動作は、形態素解析処理部4の処理結果を文節単位にまとめ上げた段階で実行される。図4の場合、構文解析部5は、先に構文パターン処理部5Bによる解析処理を実行する(ステップSP11)。
【0036】
構文解析部5は、構文パターン情報保持部6に保持されている全ての構文パターンに基づいて構文解析を行い、その解析が終了すると、解析結果を保存する(ステップSP12)。続いて、構文解析部5は、構文解析処理部5Aによる解析処理を実行する(ステップSP13)。そして、今度は、構文解析部5は、保持されている全ての文法規則に基づいて構文解析を行い(ステップSP13)、その解析が終了すると、解析結果を保存する(ステップSP14)。
【0037】
かかる後、構文解析部5は、両解析結果を確認し(ステップSP15)、いずれか一方でも、規則に一致する解析結果が得られている間は、再度、ステップSP11の処理に戻るよう動作し、両方共に解析結果が得られない状態で、一連の処理動作を抜け出る。すなわち、この実施形態の場合、構文解析処理と構文パターン解析処理の双方の規則に適合する解析結果が得られるまで、当該処理が交互に実行される。
【0038】
(b−6)構文パターン情報保持部6
構文パターン情報保持部6は、構文パターン処理部5Bにおいて必要な構文パターンを保持している記憶手段である。図5に、構文パターン情報保持部6に保持されている構文パターンの例を示す。ここで、構文パターン記述部には、係り受け構造との照合を行う構文パターンが記憶されており、係り受け関係記述部には、照合した構文パターンに対する文節間の係り受け関係が記憶されている。
【0039】
例えば、構文パターン番号1に対応する構文パターン「<人名>(タグ)+((括弧開)+X(数詞)+)(括弧閉)」は、人名の後に続く括弧()に囲まれた数字列の形式を持つ構文パターンを記述している。この場合、数字は人名に対する年齢表現を示すものであるため、数字が人名に係り、括弧の表現は削除されている。この係り受け関係は、「<人名>(タグ)←X(数詞)」として表され、「←」の右の文節が左の文節に係るということを示している。
【0040】
また、構文パターン番号2に対応する構文パターン「<地名>(タグ)+、(読点)+<業種名>(タグ)+、(読点)+<人名>(タグ)」は、連続した地名、業種名、人名が、読点によって区切られた表現を記述している。この場合、地名、業種名はそれぞれ人名に対する情報であるということが分かるため、それぞれ人名に対して係り受け関係が得られることを、「<人名>(タグ)←<地名>(タグ)」、「<人名>(タグ)←<業種名>(タグ)」として表している。
【0041】
なお、構文パターン情報保持部6は、これら構文パターンを格納する、ROM、RAM、ハードディスク等の磁気記憶媒体、CD−ROM等の光記憶媒体その他の任意の記憶媒体でなる。
【0042】
(b−7)情報抽出部7
情報抽出部7は、文字パターン情報保持部3及び構文パターン情報保持部6において記述されたそれぞれのパターンに当てはまる情報に基づいて抽出処理を行うものである。すなわち、文字パターン処理部2の認識結果と、構文解析によって判断された文節間の係り受け関係から必要な情報を抽出し、出力部8に出力する処理を行う。
【0043】
(b−8)出力部8
出力部8は、情報抽出部7から抽出結果を受け取り、これを出力するものである。例えば、種々の表示手段や印刷手段や通信手段が該当する。
【0044】
(A−2)第1の実施形態の動作
続いて、かかる構成を有する自然言語処理装置に入力された入力文から情報が抽出される様子を説明する。
【0045】
ここでは、入力部1に対し、図6に示すような文書、すなわち「5日午前零時35分ごろ…全焼した。」が入力されたものとして説明する。
【0046】
(a)タグ情報の付与
入力された文書は、文字パターン処理部2に与えられる。文字パターン処理部2は、入力部1から入力文が与えられると、入力文中の全ての箇所を対象とし、予め文字パターン情報保持部3に登録されている各文字パターンと照合可能な部分文字列があるかどうかを認識する。そして、文字パターン処理部2は、照合可能であった場合、その照合した部分文字列に対して、文字パターンの属性として登録されている情報をタグ情報として付加を行う。
【0047】
例えば、図6に示す入力文の場合、「、鈴木勇さん」の部分文字列がパターン番号1に照合可能であり、「、消毒業、」の部分文字列がパターン番号6に照合可能であり、「、大阪市中央町、」の部分文字列がパターン番号7に照合可能である。
【0048】
なお、部分文字列「、鈴木勇さん」の部分が対応するパターン番号1は、「鈴木勇さん」の部分が人名であることを意味しているので、文中の該当部分に、人名というタグ情報が付与される。図7は、「鈴木勇さん」の部分に人名というタグ情報が付与された状態を表している。
【0049】
ここで、タグ情報は、「<人名>」がタグの開始位置を示し、「</人名>」がタグの終了位置を示している。また、タグ情報は、それぞれ「<>」と「</>」とで挟まれた部分文字列の情報の属性を示している。
【0050】
同様に、「大阪市中央町」の部分に対しては地名というタグ情報が付与され、「消毒業」の部分に対しては業種名というタグ情報が付与される。
【0051】
(b)形態素解析
この文字パターン処理部2においてタグ付けされた文字列は、形態素解析処理部4に与えられる。形態素解析処理部4は、かかるタグ付きの入力文を入力すると、その形態素解析処理を行い、文書中の各文を単語に分割する。なお、入力文書の各文に含まれているタグ情報は、もともとの文書の内容とは無関係な情報であるので、形態素解析処理部4は、かかるタグ情報を形態素解析処理の対象とせず、そのままの形式で出力する。
【0052】
図8に、形態素解析処理部4による形態素解析処理結果の例を示す。この図8の場合、各単語は、「|」によって区切られ、また、各単語の品詞情報が各単語の右の「()」内に示されている。なお、文字パターン処理部2において付与されたタグ情報「<人名>」「</人名>」は、ともに一つの要素として認識され、「タグ」をいう品詞情報が付与される。
【0053】
このように、人名や地名のように種類が豊富なために未知語となり易い部分文字列が含まれている場合にも、適切な品詞情報の付与が可能となり、形態素解析が正常に行われる。
【0054】
(c)構文解析
(c−1)前処理
以上説明した形態素解析の処理が終了すると、次は、構文解析の処理に移る。
【0055】
前述したように、構文解析部5は、構文解析処理部5Aと構文パターン処理部5Bを交互に使用してその構文解析処理を実行するが、その前処理として、形態素解析処理部4の処理結果を文節単位にまとめ上げる処理を実行する。なお、この文節までのまとめ上げ処理においては、文字パターンで付与されたタグで囲まれた範囲について、一つの文節としてのまとめ上げが行われる。
【0056】
この規則に基づいて行われた文節単位のまとめ上げ処理結果を図9に示す。図9では、図8において「|」で区切られた各単語のうち、各文節としてひとまとまりで与えられるものが「‖」によって区切られている。
【0057】
さて、かかる文節までのまとめ上げが終了すると、構文解析部5は、次に、その文節内の係り受けを求める処理を行う。この係り受け関係を表したのが、図10である。図10は、各文節内における最も左側に位置する自立語を、その文節を代表する単語として見なし、その他の単語は全てその代表となる単語に係ると見なすものである。
【0058】
ここで、区切られた文節のそれぞれには、順番に、文節番号が付与されている。なお、代表単語が存在した文節中の位置には特殊記号「$」が埋め込まれている。因みに、文節番号11のように自立語が存在しない場合には、最も左にある単語が代表単語となっている。また、文節番号16のようにサ変名詞と動詞「した(する)」が連続した場合には、動詞を代表語としている。
【0059】
(c−2)係り受けの解析
以上のまとめ上げ処理が終了すると、次は、文節間の係り受け関係の解析に移る。この解析処理は、図4で説明したように、通常の文法規則に基づく解析と、構文パターン規則に基づく解析とが交互に行われることにより実行される。最初に、処理結果を図11に示しておく。なお、ここに示されている係り受け関係は、図10の文節データについてのものである。
【0060】
まず、構文パターン処理部5Bは、構文パターン情報保持部6に記憶されている構文パターン2と照合するパターンが、図10の文節データ中に存在するか照合を行う。この場合、文節番号3、4、5、6、7が照合することが分かる。この照合結果に対する係り受け関係は、「<人名>(タグ)←<地名>(タグ)」と「<人名>(タグ)←<業種名>(タグ)」との2つである。
【0061】
従って、まず第1の解析結果として、文節番号7の文節に対して文節番号3の文節が係っているとの結果が得られ、第2の解析結果として、文節番号7の文節に対して文節番号5の文節が係っているとの結果が得られる。
【0062】
続いて、構文パターン処理部5Bは、構文パターン情報保持部6に記憶されている構文パターン1と照合するパターンが、図10の文節データ中に存在するか照合を行う。この場合、文節番号7,8、9、10が照合することが分かる。この照合結果に対する係り受け関係は、「<人名>(タグ)←X(数詞)」である。
【0063】
従って、第3の解析結果として、文節番号7の文節に対して文節番号9の文節が係っているとの結果が得られる。
【0064】
図10の場合、構文パターンに照合するパターンは3つしかないので、構文パターン処理部5Bによる処理はこれで終了し、構文解析部5は、構文解析処理部5Aによる処理に移行する。
【0065】
この構文解析処理部5Aによる処理は、通常知られている処理であるのでその詳細は省略するが、この解析処理により、図11における第4〜第9の解析結果が得られる。なお、構文解析処理部5Aは、接辞語の情報を用いることにより、それが付されている固有名詞の品詞情報の決定し、文節番号7に係る文節が、文節番号11の文節に係る関係にあるとの認識を行い、第4の解析結果を得ている。
【0066】
この処理の終了後、構文解析部5は、再び、上述の構文パターンに基づく解析と文法規則に基づく解析とを繰り返すが、この例の場合には、上述した解析結果以外の新たな解析結果は得られないので、その確認後、解析処理が終了したと判断し、処理結果を情報抽出部7に与える。
【0067】
(d)情報抽出
情報抽出部7は、前段に位置する構文解析部5からその構文解析結果(図11)が入力されると、まず、文字パターン処理において認識された文節、すなわち、タグ情報が付与されているものを抽出する。これにより、文節番号3、5、7に対応する文節を抽出する。
【0068】
次に、情報抽出部7は、構文パターンによって判断された係り受け関係の解析結果を抽出する。これにより、図11における第1番目、2番目、3番目の係り受け関係を抽出する。なお、この係り受け関係により、新たに文節番号9の文節が抽出される。
【0069】
なお、これら4つの文節間には、図11の係り受け関係から、文節番号7の文節に他の3つの文節(文節番号3、5、9の文節)が係る関係があることが分かる。そこで、情報抽出部7は、文節番号7の文節と、その他の文節とを分けて分類し、例えば、図12に示すような抽出結果を得る。
【0070】
すなわち、文節番号7に係る文節の<人名>として「鈴木勇さん」という情報を抽出し、その人名情報に関係する情報として、「大阪市中央町」という<地名>の情報、「消毒業」という<業種名>の情報、「50」という数字の方法を抽出する。
【0071】
(A−3)第1の実施形態の効果
この第1の実施形態によれば、固有名詞の情報である人名、組織名、地名などある種の単語要素に付される可能性の高い特徴的な接辞語(接頭語及び接尾語)を用いて、文書中に現れる文字パターンを認識するようにしたことにより、未知語の認識が可能となり、また、その接辞語の品詞情報及び意味的情報(属性として予め登録された情報)を用いることにより、文書を構成する各文の正しい形態素解析を可能とできる。
【0072】
さらに、第1の実施形態によれば、構文解析の際に、構文パターンに基づく解析処理を実行するようにしたことにより、従来の処理では認識できなかった要素間の構文構造として、例えば、係り受け関係を正しく認識することができ、構文解析の各処理を正しく行うことを可能とできる。
【0073】
またこれら文字パターンに基づく情報処理および構文パターンに基づく情報処理の処理結果を用いて情報の抽出処理を行うようにしたことにより、未知語を含む文を処理対象とする場合にも、要素とそれらに関する属性的情報との関係を認識でき、情報抽出処理を可能とできる。
【0074】
(B)第2の実施形態
(B−1)第2の実施形態の構成
以下、本発明に係る情報抽出装置及びその方法を、自然言語処理装置に適用する場合の第2の実施形態を、図面を用いて詳述する。
【0075】
この第2の実施形態に係る自然言語処理装置の場合も、実際上、入出力装置、通信装置、外部記憶装置等を適宜組み合わせて構成されるワークステーションやパソコン等の情報処理装置で実現されるものであるが、機能的には、図13の機能ブロック図で示すことができる。
【0076】
なお、この図13は、図1との対応同一部分に、対応同一符号を付して示したものである。このように、この第2の実施形態は、上述した第1の実施形態と、抽出情報パターン保持部9を除き同一の構成を有するものである。ここでは、本実施形態に特有の構成である抽出情報パターン保持部9の構成のみを説明する。
【0077】
抽出情報パターン保持部9は、文書中にある何が起こったかに関する情報を抽出するために用いる情報パターンを保持するための手段であり、ROM、RAM、ハードディスク等の磁気記憶媒体、CD−ROM等の光記憶媒体その他の任意の記憶媒体でなる。
【0078】
かかる抽出情報パターン保持部9を設ける理由は、第1の実施形態の場合、文節間の関係こそ抽出できるものの、抽出対象となった文書に記載されている何が起こったかに関する情報、すなわち、イベントについては、その抽出ができないためである。このため、抽出情報パターン保持部9は、抽出対象とするイベントの種類(イベント名)と、そのイベントを構成する要素(イベント要素)とを一組の情報として保持している。
【0079】
図14に、一例を示す。図14の場合、イベント番号1には、「全焼する」というイベントの抽出用の情報が登録されている。すなわち、このイベント番号1には、そのイベント名として「全焼する」が登録され、また、イベント要素として格助詞の「が」が、当該イベントの抽出に用いる文節として登録されている。また、イベント番号2には、「出火する」というイベントの抽出用の情報が登録されている。すなわち、このイベント番号2には、そのイベント名として「出火する」が登録され、また、イベント要素として格助詞「が」及び格助詞「から」が、当該イベントの抽出に用いる文節として登録されている。
【0080】
(B−2)第2の実施形態の動作
続いて、かかる構成を有する自然言語処理装置に入力された入力文から情報が抽出される様子を説明する。
【0081】
なお、ここでも、入力部1に対し、図6に示すような文書、すなわち「5日午前零時35分ごろ…全焼した。」が入力されたものとして説明する。従って、本実施形態の場合も、情報抽出部7までの処理動作は、第1の実施形態と同じである。従って、構文解析部5の処理が終了した時点では、図11に示す解析結果が得られている。
【0082】
情報抽出部7は、かかる解析結果を入力すると、第1の実施形態における情報の抽出動作を実行すると共に、抽出情報パターン保持部9に登録されているイベントに基づいた情報の抽出動作を行う。ここでは、図15を用い、その抽出動作を説明する。
【0083】
まず、情報抽出部7は、イベント番号1のイベント名「全焼する」を表す文節(文節番号16)に係る要素である格助詞「が」をもつ文節(文節番号15)から「約125平方メートルが」を抽出する。
【0084】
また、イベント番号2のイベント名「出火する」を表す文節(文節番号12)に係る要素である格助詞「から」をもつ文節(文節番号11)から「方から」を抽出する。なお、この「方」は接尾語であり、それに対しては<人名>「鈴木勇さん」という情報が係っているため、それらをまとめて「<人名>鈴木勇さん方から」として抽出する。
【0085】
最後に、情報抽出部7は、第1の実施形態の場合と同様に、「<人名>鈴木勇さん」の人名情報に関係する情報をして、「大阪市中央町」という<地名>の情報、「消毒業」という<業種名>の情報、「50」という数字の方法を抽出する。
【0086】
(B−3)第2の実施形態の効果
この第2の実施形態によれば、第1の実施形態と同様の効果が得られるのに加え、抽出を行うべき情報パターンとして抽出対象の文書中から何が起こったのかに関するイベントの情報を予め登録しておくことで、ユーザの求める構造の情報をイベントの形式でも抽出出することを可能とできる。
【0087】
(C)第3の実施形態
以下、本発明に係る情報抽出装置及びその方法を、自然言語処理装置に適用する場合の第3の実施形態を、図面を用いて説明する。
【0088】
この第3の実施形態に係る自然言語処理装置の場合も、実際上、入出力装置、通信装置、外部記憶装置等を適宜組み合わせて構成されるワークステーションやパソコン等の情報処理装置で実現されるものである。ただし、その機能ブロック構成は、第2の実施形態のものと同じ、すなわち、図13で与えられる。
【0089】
この第3の実施形態と第2の実施形態との違いは、情報抽出部7と出力部8に新たな機能が加えられた点のみであり、その他の構成部分は第2の実施形態と同じである。
【0090】
従って、ここでは、新たに加えられた機能についてのみ説明する。この第3の実施形態において新たに加えられた機能は、情報抽出部7が抽出された情報の種類に応じて色情報を付与する機能と、出力部8が当該色情報に応じた色分け表示(抽出された全ての情報を反転表示する場合や下線表示する場合を含む)を行う点の2点である。
【0091】
ここで、情報抽出部7は、タグの種類に応じて情報の種類を判定し、判定結果に応じた色情報の付加を行う。
【0092】
この機能を設けた結果、入力文にタグ情報を挿入した文を最終的な表示とする場合、その表示は、例えば、図16のようになる。なお、図16では、抽出された情報部分(「大阪市中央町」、「消毒業」、「鈴木勇さん」、「(50)方から出火」、「約125平方メートルが全焼した」)を下線表示しているが、この部分が反転表示されていても良いし、また、各情報ごと異なる色が付されていても良い。
【0093】
従って、この第3の実施形態によれば、第2の実施形態と同様の効果が得られるのに加え、ユーザにとっては、入力文の全文を読まなくてもその要点部分を容易に理解できるという使い勝手に優れた効果を実現できる。
【0094】
(D)他の実施形態
(1) 第1の実施形態においては(第2及び第3の実施形態も同様)、構文解析の前に予め形態素解析結果を文節単位にまとめ上げる場合について述べたが、形態素解析結果そのものを直接構文解析しても良い。
【0095】
(2) 第1の実施形態においては(第2及び第3の実施形態も同様)、構文解析部5が構文解析処理部5Aと構文パターン処理部5Bとで構成されるものとし、これら2つの機能部を交互に動作させることにより、所望の解析結果を得る場合について述べたが、構文解析処理部5Aで用いる文法規則と構文パターン処理部5Bが用いる構文パターン規則を区別せず、1つの規則として扱うようにしても良い。
【0096】
(3) 第1の実施形態においては(第2及び第3の実施形態も同様)、文字パターン処理部2による処理と構文パターン処理部5Bによる処理の2つを組み合わせて情報抽出を行う自然言語処理装置について述べたが、文字パターン処理部2のみを用いて情報抽出を行う自然言語処理装置にも適用し得る。
【0097】
すなわち、第1の実施形態に係る自然言語処理装置から構文パターン処理部5B及び構文パターン情報保持部6を除いた構成の装置にも適用し得る。
【0098】
(4) 第2の実施形態においては、第1の実施形態に対し、抽出情報パターンによる情報の抽出機能を組み合わせる場合について述べたが、すなわち、文字パターンによる処理機能と構文パターンによる処理機能とを備えた装置に、抽出情報パターンによる処理機能を付加する場合について述べたが、機能の組み合わせはこれに限らない。
【0099】
例えば、文字パターンによる処理機能と抽出情報パターンによる処理機能を組み合わせて情報抽出を行う装置に適用しても良く、構文パターンによる処理機能と抽出情報パターンによる処理機能を組み合わせて情報抽出を行う装置に適用しても良い。
【0100】
(5) 第3の実施形態においては、第2の実施形態に対し、色表示機能を組み合わせる場合について述べたが、すなわち、文字パターンによる処理機能と構文パターンによる処理機能と抽出情報パターンによる処理機能とを備えた装置に、色表示機能を付加する場合について述べたが、機能の組み合わせはこれに限られるものでなく、これら4つの機能を任意の組み合わせる装置にも適用し得る。
【0101】
例えば、文字パターンによる処理機能と構文パターンによる処理機能と色表示機能とを組み合わせて情報抽出を行う装置に適用しても良く、文字パターンによる処理機能と色表示機能とを組み合わせて情報抽出を行う装置にも適用し得る。
【0102】
(6) 上述の各実施形態においては、処理対象とする自然言語が日本語である自然言語処理装置について示したが、他の言語を処理対象とする自然言語処理装置についても、本発明を適用することができる。
【0103】
【発明の効果】
上述のように、第1の発明に係る情報抽出装置及び第2の発明に係る情報抽出方法によれば、表現上のパターンから特定の文字列部分の属性を特定し、その特定結果を用いて情報の抽出を行うことにすることにより、当該文字列部分が未知語であっても、その後の処理を正しく行うことができる。
【図面の簡単な説明】
【図1】 第1の実施形態を示す機能ブロック図である。
【図2】 文字パターン処理部の動作例を示すフローチャートである。
【図3】 文字パターン情報の一例を示す説明図である。
【図4】 構文解析部の動作例を示すフローチャートである。
【図5】 構文パターン情報の一例を示す説明図である。
【図6】 入力文字列の一例を示す説明図である。
【図7】 文字パターン処理後の文字列を示す説明図である。
【図8】 形態素解析後の文字列を示す説明図である。
【図9】 文節までのまとめ上げ終了後の文字列を示す説明図である。
【図10】 文節間の係り受け解析後の文字列を示す説明図である。
【図11】 構文解析結果を示す説明図である。
【図12】 第1の実施形態で抽出される情報例を示す説明図である。
【図13】 第2の実施形態を示す機能ブロック図である。
【図14】 抽出情報パターンの一例を示す説明図である。
【図15】 第2の実施形態で抽出される情報例を示す説明図である。
【図16】 第3の実施形態での情報の表示例を示す説明図である。
【符号の説明】
1…入力部、2…文字パターン処理部、3…文字パターン情報保持部、4…形態素解析処理部、5…構文解析部、5A…構文解析処理部、5B…構文パターン処理部、6…構文パターン情報保持部、7…情報抽出部、8…出力部、9…抽出情報パターン保持部。
Claims (4)
- 自然言語で記述された文書より、必要な情報を抽出する情報抽出装置において、
ある種の情報の表現に特徴的に現れる1又は複数の文字パターンと、文書中に現れる文字列とを逐次照合し、一致が認められた文字列部分に対し、固有名詞の種類を示すタグ情報を付与する文字パターン処理部と、
上記タグ情報はそのままに、タグ情報を除く他の文字列部分を逐次単語情報に分割する形態素解析処理部と、
形態素解析の結果得られたタグ情報を含む単語情報を文節単位にまとめ上げ、当該まとめ上げ後の単語情報を、文法上の構文規則を用いて構文解析する第1種類の構文解析処理と、固有名詞である情報要素と該情報要素の属性を示す属性的情報の間の関係を固有名詞の種類を利用して表現する構文パターンを用いて構文解析する第2種類の構文解析処理とを独立して実行する構文解析部と、
上記文字パターン処理部によって付与されたタグ情報を有する文節を抽出し、上記第2種類の構文解析処理による構文解析結果から得られる係り受け関係の中から、上記文節が関係する係り受け関係を認識すると共に、その係り受け関係で規定されているタグ情報が付与されていない文節を認識し、抽出されたタグ情報を有する文節及び認識されたタグ情報が付与されていない文節を、上記第1種類の構文解析処理による構文解析結果と、上記第2種類の構文解析処理による構文解析結果の両方から得られる係り受け関係に基づいて整理し、上記情報要素と、該情報要素の属性的情報を特定し、関連する情報要素を同時に抽出する情報抽出部と
を備えたことを特徴とする情報抽出装置。 - 請求項1に記載の情報抽出装置において、
上記構文解析部は、形態素解析の結果得られた単語情報を文節単位にまとめ上げ後、文節内の代表単語と代表単語に係る単語を特定し、文節内の係り受け関係を求めることを特徴とする情報抽出装置。 - 請求項1に記載の情報抽出装置において、
上記情報抽出部は、抽出対象とするイベントとその表現要素との関係を示す抽出情報パターンとの一致が認められた文節より抽出される情報をも必要な情報として抽出することを特徴とする情報抽出装置。 - 文字パターン処理部と、形態素解析処理部と、構文解析部と、情報抽出部とを備え、自然言語で記述された文書より、必要な情報を抽出する情報抽出方法において、
上記文字パターン処理部は、ある種の情報の表現に特徴的に現れる1又は複数の文字パターンと、文書中に現れる文字列とを逐次照合し、一致が認められた文字列部分に対し、固有名詞の種類を示すタグ情報を付与する文字パターン処理を実行し、
上記形態素解析処理部は、上記タグ情報はそのままに、タグ情報を除く他の文字列部分を逐次単語情報に分割する形態素解析処理を実行し、
上記構文解析部は、形態素解析の結果得られたタグ情報を含む単語情報を文節単位にまとめ上げ、当該まとめ上げ後の単語情報を、文法上の構文規則を用いて構文解析する第1種類の構文解析処理と、固有名詞である情報要素と該情報要素の属性を示す属性的情報の間の関係を固有名詞の種類を利用して表現する構文パターンを用いて構文解析する、上記第1種類の構文解析処理とは独立して実行される第2種類の構文解析処理とを含む構文解析処理を実行し、
上記情報抽出部は、上記文字パターン処理によって付与されたタグ情報を有する文節を抽出し、上記第2種類の構文解析処理による構文解析結果から得られる係り受け関係の中から、上記文節が関係する係り受け関係を認識すると共に、その係り受け関係で規定されているタグ情報が付与されていない文節を認識し、抽出されたタグ情報を有する文節及び認識されたタグ情報が付与されていない文節を、上記第1種類の構文解析処理による構文解析結果と、上記第2種類の構文解析処理による構文解析結果の両方から得られる係り受け関係に基づいて整理し、上記情報要素と、該情報要素の属性的情報を特定し、関連する情報要素を同時に抽出する情報抽出処理を実行する
ことを特徴とする情報抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07180498A JP3744676B2 (ja) | 1998-03-20 | 1998-03-20 | 情報抽出装置及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07180498A JP3744676B2 (ja) | 1998-03-20 | 1998-03-20 | 情報抽出装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11272695A JPH11272695A (ja) | 1999-10-08 |
JP3744676B2 true JP3744676B2 (ja) | 2006-02-15 |
Family
ID=13471130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP07180498A Expired - Fee Related JP3744676B2 (ja) | 1998-03-20 | 1998-03-20 | 情報抽出装置及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3744676B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142893A (ja) * | 1999-11-12 | 2001-05-25 | Hitachi Ltd | 情報公開装置および文章公開方法 |
JP4320491B2 (ja) | 1999-11-18 | 2009-08-26 | ソニー株式会社 | 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体 |
JP2001167113A (ja) * | 1999-12-09 | 2001-06-22 | Nec Corp | 付与情報全文検索システムおよび付与情報全文検索方法 |
US7333966B2 (en) * | 2001-12-21 | 2008-02-19 | Thomson Global Resources | Systems, methods, and software for hyperlinking names |
JP4750476B2 (ja) * | 2005-06-07 | 2011-08-17 | キヤノン株式会社 | 文書検索装置及び方法と記憶媒体 |
US7676455B2 (en) * | 2006-02-03 | 2010-03-09 | Bloomberg Finance L.P. | Identifying and/or extracting data in connection with creating or updating a record in a database |
JP2010217972A (ja) * | 2009-03-13 | 2010-09-30 | Toshiba Corp | 構造化文書生成装置及び構造化文書生成プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3230606B2 (ja) * | 1992-06-30 | 2001-11-19 | 株式会社エヌ・ティ・ティ・データ | 固有名詞特定方法 |
JP3442422B2 (ja) * | 1993-03-15 | 2003-09-02 | 株式会社東芝 | 同義語情報作成装置および方法 |
JP3389285B2 (ja) * | 1993-06-15 | 2003-03-24 | 株式会社エヌ・ティ・ティ・データ | 固有名詞特定方法 |
-
1998
- 1998-03-20 JP JP07180498A patent/JP3744676B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11272695A (ja) | 1999-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Grishman | Information extraction: Techniques and challenges | |
Gaizauskas et al. | University of Sheffield: Description of the LaSIE system as used for MUC-6 | |
EP0971294A2 (en) | Method and apparatus for automated search and retrieval processing | |
EP0645720A2 (en) | Dictionary creation supporting system | |
JP2002215617A (ja) | 品詞タグ付けをする方法 | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
JP3744676B2 (ja) | 情報抽出装置及びその方法 | |
Besagni et al. | Citation recognition for scientific publications in digital libraries | |
JPH01142866A (ja) | ロマンス語処理装置 | |
CN111597302A (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
Jha et al. | Inflectional morphology analyzer for Sanskrit | |
CN110377897A (zh) | 中英文地址自动检测方法及系统 | |
JPH0877196A (ja) | 文書情報抽出装置 | |
ed erique Segond et al. | Using a finite-state based formalism to identify and generate multiword expressions' | |
Rueter et al. | Modelling the Reduplicating Lushootseed Morphology with an FST and LSTM | |
Broda et al. | Towards a set of general purpose morphosyntactic tools for Polish | |
JP3082890B2 (ja) | 書き言葉テキストに対する話題構造認識方法および装置 | |
Kanaan et al. | Full automatic Arabic text tagging system | |
Charoenpornsawat et al. | Feature-based proper name identification in Thai | |
Neme | An arabic language resource for computational morphology based on the semitic model | |
Fahad et al. | An Approach towards Implementation of Active and Passive voice using LL (1) Parsing | |
Fachrurrozi et al. | Identification of Ambiguous Sentence Pattern in Indonesian Using Shift-Reduce Parsing | |
Almedlej et al. | A ‘rib—A Tool to Facilitate School Children’s Ability to Analyze Arabic Sentences Syntactically | |
Berri et al. | Web-based Arabic morphological analyzer | |
JPH07244669A (ja) | 文書検索方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040727 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050127 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050215 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050412 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050823 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051115 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101202 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101202 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121202 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131202 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |