JPH11272695A - 情報抽出装置及びその方法並びに情報記憶媒体 - Google Patents
情報抽出装置及びその方法並びに情報記憶媒体Info
- Publication number
- JPH11272695A JPH11272695A JP10071804A JP7180498A JPH11272695A JP H11272695 A JPH11272695 A JP H11272695A JP 10071804 A JP10071804 A JP 10071804A JP 7180498 A JP7180498 A JP 7180498A JP H11272695 A JPH11272695 A JP H11272695A
- Authority
- JP
- Japan
- Prior art keywords
- information
- pattern
- syntax
- character
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
場合、正しい情報の抽出を行えない。 【解決手段】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置に、(1) ある種の情報の表
現に特徴的に現れる1又は複数の文字パターンと、文書
中に現れる文字列とを逐次照合し、一致が認められた文
字列部分に対し、一致した文字パターンの属性を示すタ
グ情報を付与する文字パターン処理部と、(2) タグ情報
はそのままに、タグ情報を除く他の文字列部分を逐次単
語情報に分割する形態素解析処理部とを備えるようにす
る。
Description
れた文書から所望の情報を抽出するのに用いられる情報
抽出装置及びその方法に関するものである。また、本発
明は、これら機能の実現に供する処理プログラムやデー
タを記憶した情報記憶媒体に関するものである。
報を抽出するのに用いられる従来装置について記述した
文献の一つに、特開平7−85071号公報がある。こ
の装置は、文書中の各文を単語要素に分割する形態素解
析処理と、単語要素間の係り受け関係など構文的役割を
認識することにより各文の構造を認識する構文解析処理
と、認識結果から品詞情報(固有名詞)を基に所望の情
報を抽出する抽出処理からなり、これら3段階の処理か
ら所望の情報を抽出する構成となっている。
は、文書中に含まれる全ての単語に関する情報が辞書等
に情報として保持されていること、すなわち、文書中に
含まれる全ての名前、会社名、場所名などに関する情報
が全て辞書等に情報として保持されていることが必要な
条件となる。
を、予め辞書等に保持しておくことは、事実上不可能で
ある。
文解析を行う際に必要な情報として存在しない場合、そ
れら単語の認識自体が不可能となり、情報抽出処理に必
要な正しい形態素解析も、その構文解析もできない。
もので、文書中に現れる全ての人名、組織名、地名等の
情報が辞書等に記憶されていない場合にも、正確な形態
素解析および構文解析の実行により、所望の情報の抽出
を可能とできる情報抽出装置及びその方法並びに情報記
憶媒体を提案しようとするものである。
するため、自然言語で記述された文書より、必要な情報
を抽出する第1の発明に係る情報抽出装置において、以
下の手段を設けるようにする。
的に現れる1又は複数の文字パターンと、文書中に現れ
る文字列とを逐次照合し、一致が認められた文字列部分
に対し、一致した文字パターンの属性を示すタグ情報を
付与する文字パターン処理部と、(2) タグ情報はそのま
まに、タグ情報を除く他の文字列部分を逐次単語情報に
分割する形態素解析処理部とを備えるようにする。
上のパターンから特定の文字列部分の属性を特定できる
ので、当該文字列部分に現れている文字が未知語であっ
ても、その後の処理を正しく実行することができ、正常
な情報抽出が可能となる。
り、必要な情報を抽出する第2の発明に係る情報抽出装
置において、以下の手段を設けるようにする。
逐次単語情報に分割し出力する形態素解析処理部と、
(2) 形態素解析の結果得られた単語情報を文節単位にま
とめ上げ、当該まとめ上げ後の単語情報を、文法上の構
文規則と共に、ある種の情報の表現に特徴的に現れる構
文パターンを用いて構文解析する構文解析部と、(3) 抽
出対象とするイベントとその表現要素との関係を示す抽
出情報パターンとの一致が認められた文節より抽出され
る情報と、構文パターンに基づく解析により得られた係
り受け関係及び当該係り受け関係に含まれるタグ情報か
ら特定される情報を、必要な情報として抽出する情報抽
出部とを設けるようにする。
パターンを用いて構文解析を行った後、抽出情報パター
ンに合致する情報の抽出を行うようにしたことにより、
正しい解析結果に基づく情報の抽出を可能とでき、情報
の抽出精度を高めることができる。
り、必要な情報を抽出する第3の発明に係る情報抽出方
法において、以下の処理を備えるようにする。
的に現れる1又は複数の文字パターンと、文書中に現れ
る文字列とを逐次照合し、一致が認められた文字列部分
に対し、一致した文字パターンの属性を示すタグ情報を
付与する文字パターン処理と、(2) タグ情報はそのまま
に、タグ情報を除く他の文字列部分を逐次単語情報に分
割する形態素解析処理と、(3) 形態素解析結果を構文解
析する構文解析処理と、(4) 構文解析結果より必要な情
報を抽出する情報抽出処理とを備えるようにする。
様、未知語が含まれる文であっても正常な情報抽出が可
能となる。
り、必要な情報を抽出する第4の発明に係る情報抽出方
法において、以下の処理を備えるようにする。
逐次単語情報に分割する形態素解析処理と、(2) 形態素
解析の結果得られた単語情報を文節単位にまとめ上げ、
当該まとめ上げ後の単語情報を、文法上の構文規則と共
に、ある種の情報の表現に特徴的に現れる構文パターン
を用いて構文解析する構文解析処理と、(3) 抽出対象と
するイベントとその表現要素との関係を示す抽出情報パ
ターンとの一致が認められた文節より抽出される情報
と、構文パターンに基づく解析により得られた係り受け
関係及び当該係り受け関係に含まれるタグ情報から特定
される情報を、必要な情報として抽出する情報抽出処理
とを備えるようにする。
様、従来以上に精度の高い情報の抽出を可能とできる。
言語で記述された文書より、必要な情報を抽出するのに
使用する情報抽出プログラムを記録した情報記録媒体に
おいて、情報抽出プログラムに、ある種の情報の表現に
特徴的に現れる1又は複数の文字パターンと、文書中に
現れる文字列とを逐次照合し、一致が認められた文字列
部分に対し、一致した文字パターンの属性を示すタグ情
報を付与する文字パターン処理を含むようにする。
言語で記述された文書より、必要な情報を抽出するのに
使用するデータファイルを記録した情報記録媒体におい
て、データファイルは、ある種の情報の表現に特徴的に
現れる1又は複数の文字パターンと、当該文字パターン
の属性を示すタグ情報との組からなるようにする。
言語で記述された文書より、必要な情報を抽出するのに
使用する情報抽出プログラムを記録した情報記録媒体に
おいて、情報抽出プログラムは、抽出対象とするイベン
トとその表現要素との関係を示す抽出情報パターンとの
一致が認められた文節より抽出される情報と、構文パタ
ーンに基づく解析により得られた係り受け関係及び当該
係り受け関係に含まれるタグ情報から特定される情報
を、必要な情報として抽出する情報抽出処理を含むよう
にする。
言語処理装置に適用する場合の第1の実施形態を、図面
を用いて詳述する。
置は、実際上、入出力装置、通信装置、外部記憶装置等
を適宜組み合わせて構成されるワークステーションやパ
ソコン等の情報処理装置で実現されるものであるが、機
能的には、図1の機能ブロック図で示すことができる。
文字パターン処理部2と、文字パターン情報保持部3
と、形態素解析処理部4と、構文解析部5と、構文パタ
ーン情報保持部6と、情報抽出部7と、出力部8とから
なる。
ターン情報保持部3が、辞書に登録されていない未知語
が含まれる場合にも、表現上のパターンからその意味内
容を特定し、形態素解析の実行を可能とする部分であ
り、本実施形態に特有な構成に当たる。
持部6が、先に特定された意味内容について現れ得る構
文情報を基に、未知語部分を含む構文解析の実行を可能
とする手段であり、やはり、本実施形態に特有な構成に
当たる。
成を、以下順番に説明する。
として受け取り、文字パターン処理部2にその入力文字
列を送るものである。入力部1は、例えば、キーボー
ド、マウス、OCR(光学式文字認識装置)、音声認識
装置等の任意の手段で構成されていても良く、また、ネ
ットワーク等の通信媒体を経て外部からの通信信号を受
信する手段として構成されていても良い。
ターンの認識を行い、認識された文字パターンに対して
タグ付け処理(例えば、<人名>、</人名>)を行う
ものである。図2に、文字パターン処理部2において実
行される処理手順の概略を示す。
と、まず、パラメータnを1に設定する(ステップSP
1)。このパラメータnは、文字パターン情報保持部3
に保持されている文字パターン番号に対応する番号であ
り、パターン認識に用いる文字パターンの特定に使用さ
れる。
ン処理部2は、当該番号に対応する文字パターンと入力
文字列との照合を行い(ステップSP2)、一致する文
字パターンが入力文字列内にあるか否かの判定を行う
(ステップSP3)。
合、文字パターン処理部2は、該当パターン(複数の場
合も含む。)の前後に当該パターンの意味内容を示すタ
グ情報を挿入する動作を行い(ステップSP4)、次
に、当該文字パターンが文字パターン情報保持部3に保
持されている最後のものか否かの判定処理に移る(ステ
ップSP5)。なお、一致する文字パターンが含まれて
いない場合、文字パターン処理部2は、ステップSP3
の処理からステップSP5の処理に直接移行する。
部2は、現パラメータnの値が登録されている文字パタ
ーンの最大値nmax と一致するか否かを判断し、一致し
ないと判断されている間、次のステップSP6に進み、
パラメータnの値を次の値に更新する。
プSP2に戻り、新たな文字パターンについて上述の一
連の処理を繰り返し、全ての文字パターンについての照
合動作が終了した時点で、一連の処理ループを抜け、タ
グ付け処理の行われた後の入力文字列を形態素解析処理
部4に与える。
照合処理に用いられる文字パターンを格納し保持してい
る記憶手段である。図3に、文字パターン情報文字部3
に保持されている文字パターンの例を示す。ここで、文
字パターン記述部には、文書中の各文と照合を行う文字
パターンそのものが記憶されており、属性には、その文
字パターンと照合した文字列が表す属性情報が記憶され
ている。なお、実際の照合処理においては、属性情報中
の()で囲まれた部分に対して、タグ情報の付与が行わ
れる。
その文字パターンとして、「非漢字+漢字*+[さ
ん]」が保持されているが、この文字パターンのよう
に、漢字以外の文字の後に任意の数の漢字が連続し、そ
の後に「さん」という文字が連続して現れる場合には、
例え、任意の数の漢字の部分が未知語である場合にも、
その部分に「人名」とのタグ情報が付与される。
等の固有名詞は、他の固有名詞の接辞語(接尾語又は接
頭語)として用いられる場合、他の固有名詞に特定の意
味又は特定の資格を与える役割があるからである。
ら文字パターンを格納する、ROM、RAM、ハードデ
ィスク等の磁気記憶媒体、CD−ROM等の光記憶媒体
その他の任意の記憶媒体でなる。
された文字列のうち、文字パターン処理部2で付与され
たタグ情報以外の部分を単語に分割する部分である。こ
こで、形態素解析処理の手法としては、「田中穂積:自
然言語解析の基礎、産業図書(1989)」においても
示されるような方法を用いることが可能である。
文字パターン処理部において付与されたタグ情報につい
ては、これはもともとの文書の内容とは無関係であるた
め形態素解析処理を行わずそのままの形式で出力するも
のとする。
め上げた文節間の係り受けを、文法規則及び構文パター
ン規則に基づいて解析するものである。ここで、構文解
析処理部5は、構文解析処理部5Aと構文パターン処理
部5Bの2つの部分からなる。
則に基づく構文解析を行う部分であり、その手法には、
例えば、「福本、佐野、斉藤、福本:係り受けの強度に
基づく依存文法、情報処理学会論文詩、Vo1.33、
No.10(1992)」に示される方法を用いる。
ターン規則に基づく解析を行う部分であり、その手法
は、解析に用いる規則が本実施形態に特有の構文パター
ンであることを除き、その手法は、構文解析処理部5A
と同様である。
動作の概要を示す。なお、この解析処理動作は、形態素
解析処理部4の処理結果を文節単位にまとめ上げた段階
で実行される。図4の場合、構文解析部5は、先に構文
パターン処理部5Bによる解析処理を実行する(ステッ
プSP11)。
6に保持されている全ての構文パターンに基づいて構文
解析を行い、その解析が終了すると、解析結果を保存す
る(ステップSP12)。続いて、構文解析部5は、構
文解析処理部5Aによる解析処理を実行する(ステップ
SP13)。そして、今度は、構文解析部5は、保持さ
れている全ての文法規則に基づいて構文解析を行い(ス
テップSP13)、その解析が終了すると、解析結果を
保存する(ステップSP14)。
確認し(ステップSP15)、いずれか一方でも、規則
に一致する解析結果が得られている間は、再度、ステッ
プSP11の処理に戻るよう動作し、両方共に解析結果
が得られない状態で、一連の処理動作を抜け出る。すな
わち、この実施形態の場合、構文解析処理と構文パター
ン解析処理の双方の規則に適合する解析結果が得られる
まで、当該処理が交互に実行される。
において必要な構文パターンを保持している記憶手段で
ある。図5に、構文パターン情報保持部6に保持されて
いる構文パターンの例を示す。ここで、構文パターン記
述部には、係り受け構造との照合を行う構文パターンが
記憶されており、係り受け関係記述部には、照合した構
文パターンに対する文節間の係り受け関係が記憶されて
いる。
文パターン「<人名>(タグ)+((括弧開)+X(数
詞)+)(括弧閉)」は、人名の後に続く括弧()に囲
まれた数字列の形式を持つ構文パターンを記述してい
る。この場合、数字は人名に対する年齢表現を示すもの
であるため、数字が人名に係り、括弧の表現は削除され
ている。この係り受け関係は、「<人名>(タグ)←X
(数詞)」として表され、「←」の右の文節が左の文節
に係るということを示している。
パターン「<地名>(タグ)+、(読点)+<業種名>
(タグ)+、(読点)+<人名>(タグ)」は、連続し
た地名、業種名、人名が、読点によって区切られた表現
を記述している。この場合、地名、業種名はそれぞれ人
名に対する情報であるということが分かるため、それぞ
れ人名に対して係り受け関係が得られることを、「<人
名>(タグ)←<地名>(タグ)」、「<人名>(タ
グ)←<業種名>(タグ)」として表している。
ら構文パターンを格納する、ROM、RAM、ハードデ
ィスク等の磁気記憶媒体、CD−ROM等の光記憶媒体
その他の任意の記憶媒体でなる。
ターン情報保持部6において記述されたそれぞれのパタ
ーンに当てはまる情報に基づいて抽出処理を行うもので
ある。すなわち、文字パターン処理部2の認識結果と、
構文解析によって判断された文節間の係り受け関係から
必要な情報を抽出し、出力部8に出力する処理を行う。
れを出力するものである。例えば、種々の表示手段や印
刷手段や通信手段が該当する。
れた入力文から情報が抽出される様子を説明する。
うな文書、すなわち「5日午前零時35分ごろ…全焼し
た。」が入力されたものとして説明する。
る。文字パターン処理部2は、入力部1から入力文が与
えられると、入力文中の全ての箇所を対象とし、予め文
字パターン情報保持部3に登録されている各文字パター
ンと照合可能な部分文字列があるかどうかを認識する。
そして、文字パターン処理部2は、照合可能であった場
合、その照合した部分文字列に対して、文字パターンの
属性として登録されている情報をタグ情報として付加を
行う。
木勇さん」の部分文字列がパターン番号1に照合可能で
あり、「、消毒業、」の部分文字列がパターン番号6に
照合可能であり、「、大阪市中央町、」の部分文字列が
パターン番号7に照合可能である。
が対応するパターン番号1は、「鈴木勇さん」の部分が
人名であることを意味しているので、文中の該当部分
に、人名というタグ情報が付与される。図7は、「鈴木
勇さん」の部分に人名というタグ情報が付与された状態
を表している。
の開始位置を示し、「</人名>」がタグの終了位置を
示している。また、タグ情報は、それぞれ「<>」と
「</>」とで挟まれた部分文字列の情報の属性を示し
ている。
は地名というタグ情報が付与され、「消毒業」の部分に
対しては業種名というタグ情報が付与される。
列は、形態素解析処理部4に与えられる。形態素解析処
理部4は、かかるタグ付きの入力文を入力すると、その
形態素解析処理を行い、文書中の各文を単語に分割す
る。なお、入力文書の各文に含まれているタグ情報は、
もともとの文書の内容とは無関係な情報であるので、形
態素解析処理部4は、かかるタグ情報を形態素解析処理
の対象とせず、そのままの形式で出力する。
解析処理結果の例を示す。この図8の場合、各単語は、
「|」によって区切られ、また、各単語の品詞情報が各
単語の右の「()」内に示されている。なお、文字パタ
ーン処理部2において付与されたタグ情報「<人名>」
「</人名>」は、ともに一つの要素として認識され、
「タグ」をいう品詞情報が付与される。
富なために未知語となり易い部分文字列が含まれている
場合にも、適切な品詞情報の付与が可能となり、形態素
解析が正常に行われる。
文解析の処理に移る。
析処理部5Aと構文パターン処理部5Bを交互に使用し
てその構文解析処理を実行するが、その前処理として、
形態素解析処理部4の処理結果を文節単位にまとめ上げ
る処理を実行する。なお、この文節までのまとめ上げ処
理においては、文字パターンで付与されたタグで囲まれ
た範囲について、一つの文節としてのまとめ上げが行わ
れる。
とめ上げ処理結果を図9に示す。図9では、図8におい
て「|」で区切られた各単語のうち、各文節としてひと
まとまりで与えられるものが「‖」によって区切られて
いる。
すると、構文解析部5は、次に、その文節内の係り受け
を求める処理を行う。この係り受け関係を表したのが、
図10である。図10は、各文節内における最も左側に
位置する自立語を、その文節を代表する単語として見な
し、その他の単語は全てその代表となる単語に係ると見
なすものである。
順番に、文節番号が付与されている。なお、代表単語が
存在した文節中の位置には特殊記号「$」が埋め込まれ
ている。因みに、文節番号11のように自立語が存在し
ない場合には、最も左にある単語が代表単語となってい
る。また、文節番号16のようにサ変名詞と動詞「した
(する)」が連続した場合には、動詞を代表語としてい
る。
り受け関係の解析に移る。この解析処理は、図4で説明
したように、通常の文法規則に基づく解析と、構文パタ
ーン規則に基づく解析とが交互に行われることにより実
行される。最初に、処理結果を図11に示しておく。な
お、ここに示されている係り受け関係は、図10の文節
データについてのものである。
ターン情報保持部6に記憶されている構文パターン2と
照合するパターンが、図10の文節データ中に存在する
か照合を行う。この場合、文節番号3、4、5、6、7
が照合することが分かる。この照合結果に対する係り受
け関係は、「<人名>(タグ)←<地名>(タグ)」と
「<人名>(タグ)←<業種名>(タグ)」との2つで
ある。
番号7の文節に対して文節番号3の文節が係っていると
の結果が得られ、第2の解析結果として、文節番号7の
文節に対して文節番号5の文節が係っているとの結果が
得られる。
パターン情報保持部6に記憶されている構文パターン1
と照合するパターンが、図10の文節データ中に存在す
るか照合を行う。この場合、文節番号7,8、9、10
が照合することが分かる。この照合結果に対する係り受
け関係は、「<人名>(タグ)←X(数詞)」である。
7の文節に対して文節番号9の文節が係っているとの結
果が得られる。
ターンは3つしかないので、構文パターン処理部5Bに
よる処理はこれで終了し、構文解析部5は、構文解析処
理部5Aによる処理に移行する。
常知られている処理であるのでその詳細は省略するが、
この解析処理により、図11における第4〜第9の解析
結果が得られる。なお、構文解析処理部5Aは、接辞語
の情報を用いることにより、それが付されている固有名
詞の品詞情報の決定し、文節番号7に係る文節が、文節
番号11の文節に係る関係にあるとの認識を行い、第4
の解析結果を得ている。
び、上述の構文パターンに基づく解析と文法規則に基づ
く解析とを繰り返すが、この例の場合には、上述した解
析結果以外の新たな解析結果は得られないので、その確
認後、解析処理が終了したと判断し、処理結果を情報抽
出部7に与える。
構文解析結果(図11)が入力されると、まず、文字パ
ターン処理において認識された文節、すなわち、タグ情
報が付与されているものを抽出する。これにより、文節
番号3、5、7に対応する文節を抽出する。
って判断された係り受け関係の解析結果を抽出する。こ
れにより、図11における第1番目、2番目、3番目の
係り受け関係を抽出する。なお、この係り受け関係によ
り、新たに文節番号9の文節が抽出される。
係り受け関係から、文節番号7の文節に他の3つの文節
(文節番号3、5、9の文節)が係る関係があることが
分かる。そこで、情報抽出部7は、文節番号7の文節
と、そのたの文節とを分けて分類し、例えば、図12に
示すような抽出結果を得る。
>として「鈴木勇さん」という情報を抽出し、その人名
情報に関係する情報として、「大阪市中央町」という<
地名>の情報、「消毒業」という<業種名>の情報、
「50」という数字の方法を抽出する。
名、組織名、地名などある種の単語要素に付される可能
性の高い特徴的な接辞語(接頭語及び接尾語)を用い
て、文書中に現れる文字パターンを認識するようにした
ことにより、未知語の認識が可能となり、また、その接
辞語の品詞情報及び意味的情報(属性として予め登録さ
れた情報)を用いることにより、文書を構成する各文の
正しい形態素解析を可能とできる。
析の際に、構文パターンに基づく解析処理を実行するよ
うにしたことにより、従来の処理では認識できなかった
要素間の構文構造として、例えば、係り受け関係を正し
く認識することができ、構文解析の各処理を正しく行う
ことを可能とできる。
および構文パターンに基づく情報処理の処理結果を用い
て情報の抽出処理を行うようにしたことにより、未知語
を含む文を処理対象とする場合にも、要素とそれらに関
する属性的情報との関係を認識でき、情報抽出処理を可
能とできる。
言語処理装置に適用する場合の第2の実施形態を、図面
を用いて詳述する。
置の場合も、実際上、入出力装置、通信装置、外部記憶
装置等を適宜組み合わせて構成されるワークステーショ
ンやパソコン等の情報処理装置で実現されるものである
が、機能的には、図13の機能ブロック図で示すことが
できる。
分に、対応同一符号を付して示したものである。このよ
うに、この第2の実施形態は、上述した第1の実施形態
と、抽出情報パターン保持部9を除き同一の構成を有す
るものである。ここでは、本実施形態に特有の構成であ
る抽出情報パターン保持部9の構成のみを説明する。
る何が起こったかに関する情報を抽出するために用いる
情報パターンを保持するための手段であり、ROM、R
AM、ハードディスク等の磁気記憶媒体、CD−ROM
等の光記憶媒体その他の任意の記憶媒体でなる。
理由は、第1の実施形態の場合、文節間の関係こそ抽出
できるものの、抽出対象となった文書に記載されている
何が起こったかに関する情報、すなわち、イベントにつ
いては、その抽出ができないためである。このため、抽
出情報パターン保持部9は、抽出対象とするイベントの
種類(イベント名)と、そのイベントを構成する要素
(イベント要素)とを一組の情報として保持している。
ベント番号1には、「全焼する」というイベントの抽出
用の情報が登録されている。すなわち、このイベント番
号1には、そのイベント名として「全焼する」が登録さ
れ、また、イベント要素として格助詞の「が」が、当該
イベントの抽出に用いる文節として登録されている。ま
た、イベント番号2には、「出火する」というイベント
の抽出用の情報が登録されている。すなわち、このイベ
ント番号2には、そのイベント名として「出火する」が
登録され、また、イベント要素として格助詞「が」及び
格助詞「から」が、当該イベントの抽出に用いる文節と
して登録されている。
れた入力文から情報が抽出される様子を説明する。
示すような文書、すなわち「5日午前零時35分ごろ…
全焼した。」が入力されたものとして説明する。従っ
て、本実施形態の場合も、情報抽出部7までの処理動作
は、第1の実施形態と同じである。従って、構文解析部
5の処理が終了した時点では、図11に示す解析結果が
得られている。
ると、第1の実施形態における情報の抽出動作を実行す
ると共に、抽出情報パターン保持部9に登録されている
イベントに基づいた情報の抽出動作を行う。ここでは、
図16を用い、その抽出動作を説明する。
イベント名「全焼する」を表す文節(文節番号16)に
係る要素である格助詞「が」をもつ文節(文節番号1
5)から「約125平方メートルが」を抽出する。
する」を表す文節(文節番号12)に係る要素である格
助詞「から」をもつ文節(文節番号11)から「方か
ら」を抽出する。なお、この「方」は接尾語であり、そ
れに対しては<人名>「鈴木勇さん」という情報が係っ
ているため、それらをまとめて「<人名>鈴木勇さん方
から」として抽出する。
の場合と同様に、「<人名>鈴木勇さん」の人名情報に
関係する情報をして、「大阪市中央町」という<地名>
の情報、「消毒業」という<業種名>の情報、「50」
という数字の方法を抽出する。
効果が得られるのに加え、抽出を行うべき情報パターン
として抽出対象の文書中から何が起こったのかに関する
イベントの情報を予め登録しておくことで、ユーザの求
める構造の情報をイベントの形式でも抽出出することを
可能とできる。
言語処理装置に適用する場合の第3の実施形態を、図面
を用いて説明する。
置の場合も、実際上、入出力装置、通信装置、外部記憶
装置等を適宜組み合わせて構成されるワークステーショ
ンやパソコン等の情報処理装置で実現されるものであ
る。ただし、その機能ブロック構成は、第2の実施形態
のものと同じ、すなわち、図13で与えられる。
違いは、情報抽出部7と出力部8に新たな機能が加えら
れた点のみであり、その他の構成部分は第2の実施形態
と同じである。
についてのみ説明する。この第3の実施形態において新
たに加えられた機能は、情報抽出部7が抽出された情報
の種類に応じて色情報を付与する機能と、出力部8が当
該色情報に応じた色分け表示(抽出された全ての情報を
反転表示する場合や下線表示する場合を含む)を行う点
の2点である。
じて情報の種類を判定し、判定結果に応じた色情報の付
加を行う。
を挿入した文を最終的な表示とする場合、その表示は、
例えば、図16のようになる。なお、図16では、抽出
された情報部分(「大阪市中央町」、「消毒業」、「鈴
木勇さん」、「(50)方から出火」、「約125平方
メートルが全焼した」)を下線表示しているが、この部
分が反転表示されていても良いし、また、各情報ごと異
なる色が付されていても良い。
2の実施形態と同様の効果が得られるのに加え、ユーザ
にとっては、入力文の全文を読まなくてもその要点部分
を容易に理解できるという使い勝手に優れた効果を実現
できる。
態も同様)、構文解析の前に予め形態素解析結果を文節
単位にまとめ上げる場合について述べたが、形態素解析
結果そのものを直接構文解析しても良い。
第3の実施形態も同様)、構文解析部5が構文解析処理
部5Aと構文パターン処理部5Bとで構成されるものと
し、これら2つの機能部を交互に動作させることによ
り、所望の解析結果を得る場合について述べたが、構文
解析処理部5Aで用いる文法規則と構文パターン処理部
5Bが用いる構文パターン規則を区別せず、1つの規則
として扱うようにしても良い。
第3の実施形態も同様)、文字パターン処理部2による
処理と構文パターン処理部5Bによる処理の2つを組み
合わせて情報抽出を行う自然言語処理装置について述べ
たが、文字パターン処理部2のみを用いて情報抽出を行
う自然言語処理装置にも適用し得る。
処理装置から構文パターン処理部5B及び構文パターン
情報保持部6を除いた構成の装置にも適用し得る。
施形態に対し、抽出情報パターンによる情報の抽出機能
を組み合わせる場合について述べたが、すなわち、文字
パターンによる処理機能と構文パターンによる処理機能
とを備えた装置に、抽出情報パターンによる処理機能を
付加する場合について述べたが、機能の組み合わせはこ
れに限らない。
出情報パターンによる処理機能を組み合わせて情報抽出
を行う装置に適用しても良く、構文パターンによる処理
機能と抽出情報パターンによる処理機能を組み合わせて
情報抽出を行う装置に適用しても良い。
施形態に対し、色表示機能を組み合わせる場合について
述べたが、すなわち、文字パターンによる処理機能と構
文パターンによる処理機能と抽出情報パターンによる処
理機能とを備えた装置に、色表示機能を付加する場合に
ついて述べたが、機能の組み合わせはこれに限られるも
のでなく、これら4つの機能を任意の組み合わせる装置
にも適用し得る。
文パターンによる処理機能と色表示機能とを組み合わせ
て情報抽出を行う装置に適用しても良く、文字パターン
による処理機能と色表示機能とを組み合わせて情報抽出
を行う装置にも適用し得る。
象とする自然言語が日本語である自然言語処理装置につ
いて示したが、他の言語を処理対象とする自然言語処理
装置についても、本発明を適用することができる。
出装置及び第3の発明に係る情報抽出方法によれば、表
現上のパターンから特定の文字列部分の属性を特定し、
その特定結果を用いて情報の抽出を行うことにすること
により、当該文字列部分が未知語であっても、その後の
処理を正しく行うことができる。
第4の発明に係る情報抽出方法によれば、構文パターン
を用いて構文解析を行った後、さらに抽出情報パターン
に合致する情報を抽出するようにしたことにより、正し
い解析結果に基づく情報の抽出を可能とでき、情報の抽
出精度を向上できるだけでなく、関連するイベントの内
容の抽出も可能とできる。
いては、その情報抽出プログラムに、ある種の情報の表
現に特徴的に現れる1又は複数の文字パターンと、文書
中に現れる文字列とを逐次照合し、一致が認められた文
字列部分に対し、一致した文字パターンの属性を示すタ
グ情報を付与する文字パターン処理が含まれていること
により、当該プログラムの実行により、未知語が含まれ
ている文であっても正しい情報の抽出を可能とできる。
いては、ある種の情報の表現に特徴的に現れる1又は複
数の文字パターンと、当該文字パターンの属性を示すタ
グ情報との組からなるデータファイルが記録されている
ことにより、当該データファイルを、文字パターンの照
合を行うプログラムと組み合わせて使用することによ
り、未知語が含まれている文であっても正しい情報の抽
出を可能とできる。
いては、情報抽出プログラムに、抽出対象とするイベン
トとその表現要素との関係を示す抽出情報パターンとの
一致が認められた文節より抽出される情報と、構文パタ
ーンに基づく解析により得られた係り受け関係及び当該
係り受け関係に含まれるタグ情報から特定される情報
を、必要な情報として抽出する情報抽出処理が含まれて
いることにより、当該プログラムの実行により、正しい
解析結果に基づく情報の抽出を可能とでき、情報の抽出
精度を向上できるだけでなく、関連するイベントの内容
の抽出も可能とできる。
ートである。
る。
る。
明図である。
図である。
明図である。
る。
る。
明図である。
図である。
ン情報保持部、4…形態素解析処理部、5…構文解析
部、5A…構文解析処理部、5B…構文パターン処理
部、6…構文パターン情報保持部、7…情報抽出部、8
…出力部、9…抽出情報パターン保持部。
Claims (11)
- 【請求項1】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、 ある種の情報の表現に特徴的に現れる1又は複数の文字
パターンと、文書中に現れる文字列とを逐次照合し、一
致が認められた文字列部分に対し、一致した文字パター
ンの属性を示すタグ情報を付与する文字パターン処理部
と、 上記タグ情報はそのままに、タグ情報を除く他の文字列
部分を逐次単語情報に分割する形態素解析処理部とを備
えたことを特徴とする情報抽出装置。 - 【請求項2】 請求項1に記載の情報抽出装置におい
て、 形態素解析の結果得られた単語情報を文節単位にまとめ
上げ、当該まとめ上げ後の単語情報を、文法上の構文規
則と共に、ある種の情報の表現に特徴的に現れる構文パ
ターンを用いて構文解析する構文解析部とをさらに設け
たことを特徴とする情報抽出装置。 - 【請求項3】 請求項2に記載の情報抽出装置におい
て、 上記構文パターンに基づく解析により得られる係り受け
関係及び当該係り受け関係に含まれるタグ情報から特定
される情報を、必要な情報として抽出する情報抽出部を
さらに備えたことを特徴とする情報抽出装置。 - 【請求項4】 請求項2に記載の情報抽出装置におい
て、 抽出対象とするイベントとその表現要素との関係を示す
抽出情報パターンとの一致が認められた文節より抽出さ
れる情報と、上記構文パターンに基づく解析により得ら
れた係り受け関係及び当該係り受け関係に含まれるタグ
情報から特定される情報を、必要な情報として抽出する
情報抽出部をさらに備えたことを特徴とする情報抽出装
置。 - 【請求項5】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置において、 文書中に現れる文字列を、逐次単語情報に分割し出力す
る形態素解析処理部と、 形態素解析の結果得られた単語情報を文節単位にまとめ
上げ、当該まとめ上げ後の単語情報を、文法上の構文規
則と共に、ある種の情報の表現に特徴的に現れる構文パ
ターンを用いて構文解析する構文解析部と、 抽出対象とするイベントとその表現要素との関係を示す
抽出情報パターンとの一致が認められた文節より抽出さ
れる情報と、上記構文パターンに基づく解析により得ら
れた係り受け関係及び当該係り受け関係に含まれるタグ
情報から特定される情報を、必要な情報として抽出する
情報抽出部とを備えたことを特徴とする情報抽出装置。 - 【請求項6】 請求項1〜5のいずれかに記載の情報抽
出装置において、 文書中に現れる文字列のうち抽出された情報の部分を、
その他の情報に該当する部分とは異なる表示形態で表示
する出力部をさらに備えたことを特徴とする情報抽出装
置。 - 【請求項7】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出方法において、 ある種の情報の表現に特徴的に現れる1又は複数の文字
パターンと、文書中に現れる文字列とを逐次照合し、一
致が認められた文字列部分に対し、一致した文字パター
ンの属性を示すタグ情報を付与する文字パターン処理
と、 上記タグ情報はそのままに、タグ情報を除く他の文字列
部分を逐次単語情報に分割する形態素解析処理と、 形態素解析結果を構文解析する構文解析処理と、 構文解析結果より必要な情報を抽出する情報抽出処理と
を備えたことを特徴とする情報抽出方法。 - 【請求項8】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出方法において、 文書中に現れる文字列を、逐次単語情報に分割する形態
素解析処理と、 形態素解析の結果得られた単語情報を文節単位にまとめ
上げ、当該まとめ上げ後の単語情報を、文法上の構文規
則と共に、ある種の情報の表現に特徴的に現れる構文パ
ターンを用いて構文解析する構文解析処理と、 抽出対象とするイベントとその表現要素との関係を示す
抽出情報パターンとの一致が認められた文節より抽出さ
れる情報と、上記構文パターンに基づく解析により得ら
れた係り受け関係及び当該係り受け関係に含まれるタグ
情報から特定される情報を、必要な情報として抽出する
情報抽出処理とを備えたことを特徴とする情報抽出方
法。 - 【請求項9】 自然言語で記述された文書より、必要な
情報を抽出するのに使用する情報抽出プログラムを記録
した情報記録媒体において、 上記情報抽出プログラムは、ある種の情報の表現に特徴
的に現れる1又は複数の文字パターンと、文書中に現れ
る文字列とを逐次照合し、一致が認められた文字列部分
に対し、一致した文字パターンの属性を示すタグ情報を
付与する文字パターン処理を含むことを特徴とする情報
記録媒体。 - 【請求項10】 自然言語で記述された文書より、必要
な情報を抽出するのに使用するデータファイルを記録し
た情報記録媒体において、 上記データファイルは、ある種の情報の表現に特徴的に
現れる1又は複数の文字パターンと、当該文字パターン
の属性を示すタグ情報との組からなることを特徴とする
情報記録媒体。 - 【請求項11】 自然言語で記述された文書より、必要
な情報を抽出するのに使用する情報抽出プログラムを記
録した情報記録媒体において、 上記情報抽出プログラムは、抽出対象とするイベントと
その表現要素との関係を示す抽出情報パターンとの一致
が認められた文節より抽出される情報と、上記構文パタ
ーンに基づく解析により得られた係り受け関係及び当該
係り受け関係に含まれるタグ情報から特定される情報
を、必要な情報として抽出する情報抽出処理を含むこと
を特徴とする情報記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07180498A JP3744676B2 (ja) | 1998-03-20 | 1998-03-20 | 情報抽出装置及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07180498A JP3744676B2 (ja) | 1998-03-20 | 1998-03-20 | 情報抽出装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11272695A true JPH11272695A (ja) | 1999-10-08 |
JP3744676B2 JP3744676B2 (ja) | 2006-02-15 |
Family
ID=13471130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP07180498A Expired - Fee Related JP3744676B2 (ja) | 1998-03-20 | 1998-03-20 | 情報抽出装置及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3744676B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142893A (ja) * | 1999-11-12 | 2001-05-25 | Hitachi Ltd | 情報公開装置および文章公開方法 |
JP2001167113A (ja) * | 1999-12-09 | 2001-06-22 | Nec Corp | 付与情報全文検索システムおよび付与情報全文検索方法 |
JP2006343870A (ja) * | 2005-06-07 | 2006-12-21 | Canon Inc | 文書検索装置及び方法と記憶媒体 |
JP2009526290A (ja) * | 2006-02-03 | 2009-07-16 | ブルームバーグ・ファイナンス・エル・ピー | データベースレコードの生成または更新に関するデータの特定/抽出 |
JP2009259252A (ja) * | 2001-12-21 | 2009-11-05 | Thomson Reuters Global Resources | 名前をハイパーリンクするためのシステム、方法、及びソフトウェア |
JP2010217972A (ja) * | 2009-03-13 | 2010-09-30 | Toshiba Corp | 構造化文書生成装置及び構造化文書生成プログラム |
US7941745B2 (en) | 1999-11-18 | 2011-05-10 | Sony Corporation | Method and system for tagging electronic documents |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0619959A (ja) * | 1992-06-30 | 1994-01-28 | N T T Data Tsushin Kk | 固有名詞特定処理システム |
JPH06266769A (ja) * | 1993-03-15 | 1994-09-22 | Toshiba Corp | 同義語情報作成装置 |
JPH0721196A (ja) * | 1993-06-15 | 1995-01-24 | N T T Data Tsushin Kk | 固有名詞特定方法 |
-
1998
- 1998-03-20 JP JP07180498A patent/JP3744676B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0619959A (ja) * | 1992-06-30 | 1994-01-28 | N T T Data Tsushin Kk | 固有名詞特定処理システム |
JPH06266769A (ja) * | 1993-03-15 | 1994-09-22 | Toshiba Corp | 同義語情報作成装置 |
JPH0721196A (ja) * | 1993-06-15 | 1995-01-24 | N T T Data Tsushin Kk | 固有名詞特定方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001142893A (ja) * | 1999-11-12 | 2001-05-25 | Hitachi Ltd | 情報公開装置および文章公開方法 |
US7941745B2 (en) | 1999-11-18 | 2011-05-10 | Sony Corporation | Method and system for tagging electronic documents |
JP2001167113A (ja) * | 1999-12-09 | 2001-06-22 | Nec Corp | 付与情報全文検索システムおよび付与情報全文検索方法 |
JP2009259252A (ja) * | 2001-12-21 | 2009-11-05 | Thomson Reuters Global Resources | 名前をハイパーリンクするためのシステム、方法、及びソフトウェア |
JP2006343870A (ja) * | 2005-06-07 | 2006-12-21 | Canon Inc | 文書検索装置及び方法と記憶媒体 |
JP2009526290A (ja) * | 2006-02-03 | 2009-07-16 | ブルームバーグ・ファイナンス・エル・ピー | データベースレコードの生成または更新に関するデータの特定/抽出 |
JP2010217972A (ja) * | 2009-03-13 | 2010-09-30 | Toshiba Corp | 構造化文書生成装置及び構造化文書生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3744676B2 (ja) | 2006-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kiraz | Computational nonlinear morphology: with emphasis on Semitic languages | |
US6782505B1 (en) | Method and system for generating structured data from semi-structured data sources | |
US5579224A (en) | Dictionary creation supporting system | |
US6188977B1 (en) | Natural language processing apparatus and method for converting word notation grammar description data | |
Litkowski | Question-Answering Using Semantic Relation Triples. | |
JPH1078964A (ja) | 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム | |
Sawalha | Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
Pastra et al. | How feasible is the reuse of grammars for Named Entity Recognition?. | |
JPH11272695A (ja) | 情報抽出装置及びその方法並びに情報記憶媒体 | |
JPH08235182A (ja) | 文章処理方法とその装置 | |
JP2002157241A (ja) | 辞書作成装置 | |
JPH0877196A (ja) | 文書情報抽出装置 | |
JP4965766B2 (ja) | 関係情報抽出装置および属性情報抽出装置 | |
CN112231512A (zh) | 歌曲标注检测方法、装置和系统及存储介质 | |
JPH09244869A (ja) | 文章読み上げ方式 | |
Neme | An arabic language resource for computational morphology based on the semitic model | |
JP4023371B2 (ja) | 固有名認識装置および方法 | |
Almedlej et al. | A ‘rib—A Tool to Facilitate School Children’s Ability to Analyze Arabic Sentences Syntactically | |
JP3029403B2 (ja) | 文章データ音声変換システム | |
Plant et al. | A natural language help system shell through functional programming | |
JPH11250063A (ja) | 検索装置及び検索方法 | |
Erickson | RHYTHMIC PROBLEMS AND MELODIC STRUCTURE IN ORGANUM PURUM: A COMPUTER-ASSISTED STUDY.(VOLUMES I-III) | |
JP2001067356A (ja) | 語彙獲得方法、語彙獲得装置及び語彙獲得プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
JPWO2002095614A1 (ja) | 言語・文字コード系識別処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040727 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050127 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050215 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050412 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050823 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051115 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091202 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101202 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101202 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111202 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121202 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131202 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |