JPH11272695A - 情報抽出装置及びその方法並びに情報記憶媒体 - Google Patents

情報抽出装置及びその方法並びに情報記憶媒体

Info

Publication number
JPH11272695A
JPH11272695A JP10071804A JP7180498A JPH11272695A JP H11272695 A JPH11272695 A JP H11272695A JP 10071804 A JP10071804 A JP 10071804A JP 7180498 A JP7180498 A JP 7180498A JP H11272695 A JPH11272695 A JP H11272695A
Authority
JP
Japan
Prior art keywords
information
pattern
syntax
character
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10071804A
Other languages
English (en)
Other versions
JP3744676B2 (ja
Inventor
Junichi Fukumoto
淳一 福本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP07180498A priority Critical patent/JP3744676B2/ja
Publication of JPH11272695A publication Critical patent/JPH11272695A/ja
Application granted granted Critical
Publication of JP3744676B2 publication Critical patent/JP3744676B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 抽出対象となる文中に未知語が含まれている
場合、正しい情報の抽出を行えない。 【解決手段】 自然言語で記述された文書より、必要な
情報を抽出する情報抽出装置に、(1) ある種の情報の表
現に特徴的に現れる1又は複数の文字パターンと、文書
中に現れる文字列とを逐次照合し、一致が認められた文
字列部分に対し、一致した文字パターンの属性を示すタ
グ情報を付与する文字パターン処理部と、(2) タグ情報
はそのままに、タグ情報を除く他の文字列部分を逐次単
語情報に分割する形態素解析処理部とを備えるようにす
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語で記述さ
れた文書から所望の情報を抽出するのに用いられる情報
抽出装置及びその方法に関するものである。また、本発
明は、これら機能の実現に供する処理プログラムやデー
タを記憶した情報記憶媒体に関するものである。
【0002】
【従来の技術】自然言語で記述された文書から所望の情
報を抽出するのに用いられる従来装置について記述した
文献の一つに、特開平7−85071号公報がある。こ
の装置は、文書中の各文を単語要素に分割する形態素解
析処理と、単語要素間の係り受け関係など構文的役割を
認識することにより各文の構造を認識する構文解析処理
と、認識結果から品詞情報(固有名詞)を基に所望の情
報を抽出する抽出処理からなり、これら3段階の処理か
ら所望の情報を抽出する構成となっている。
【0003】
【発明が解決しようとする課題】ところが、この装置で
は、文書中に含まれる全ての単語に関する情報が辞書等
に情報として保持されていること、すなわち、文書中に
含まれる全ての名前、会社名、場所名などに関する情報
が全て辞書等に情報として保持されていることが必要な
条件となる。
【0004】しかし、種々雑多な人名、会社名等の全て
を、予め辞書等に保持しておくことは、事実上不可能で
ある。
【0005】また、このような情報が、形態素解析、構
文解析を行う際に必要な情報として存在しない場合、そ
れら単語の認識自体が不可能となり、情報抽出処理に必
要な正しい形態素解析も、その構文解析もできない。
【0006】本発明は、以上の課題を考慮してなされた
もので、文書中に現れる全ての人名、組織名、地名等の
情報が辞書等に記憶されていない場合にも、正確な形態
素解析および構文解析の実行により、所望の情報の抽出
を可能とできる情報抽出装置及びその方法並びに情報記
憶媒体を提案しようとするものである。
【0007】
【課題を解決するための手段】(A)かかる課題を解決
するため、自然言語で記述された文書より、必要な情報
を抽出する第1の発明に係る情報抽出装置において、以
下の手段を設けるようにする。
【0008】すなわち、(1) ある種の情報の表現に特徴
的に現れる1又は複数の文字パターンと、文書中に現れ
る文字列とを逐次照合し、一致が認められた文字列部分
に対し、一致した文字パターンの属性を示すタグ情報を
付与する文字パターン処理部と、(2) タグ情報はそのま
まに、タグ情報を除く他の文字列部分を逐次単語情報に
分割する形態素解析処理部とを備えるようにする。
【0009】このように、第1の発明においては、表現
上のパターンから特定の文字列部分の属性を特定できる
ので、当該文字列部分に現れている文字が未知語であっ
ても、その後の処理を正しく実行することができ、正常
な情報抽出が可能となる。
【0010】(B)また、自然言語で記述された文書よ
り、必要な情報を抽出する第2の発明に係る情報抽出装
置において、以下の手段を設けるようにする。
【0011】すなわち、(1) 文書中に現れる文字列を、
逐次単語情報に分割し出力する形態素解析処理部と、
(2) 形態素解析の結果得られた単語情報を文節単位にま
とめ上げ、当該まとめ上げ後の単語情報を、文法上の構
文規則と共に、ある種の情報の表現に特徴的に現れる構
文パターンを用いて構文解析する構文解析部と、(3) 抽
出対象とするイベントとその表現要素との関係を示す抽
出情報パターンとの一致が認められた文節より抽出され
る情報と、構文パターンに基づく解析により得られた係
り受け関係及び当該係り受け関係に含まれるタグ情報か
ら特定される情報を、必要な情報として抽出する情報抽
出部とを設けるようにする。
【0012】このように、第2の発明においては、構文
パターンを用いて構文解析を行った後、抽出情報パター
ンに合致する情報の抽出を行うようにしたことにより、
正しい解析結果に基づく情報の抽出を可能とでき、情報
の抽出精度を高めることができる。
【0013】(C)また、自然言語で記述された文書よ
り、必要な情報を抽出する第3の発明に係る情報抽出方
法において、以下の処理を備えるようにする。
【0014】すなわち、(1) ある種の情報の表現に特徴
的に現れる1又は複数の文字パターンと、文書中に現れ
る文字列とを逐次照合し、一致が認められた文字列部分
に対し、一致した文字パターンの属性を示すタグ情報を
付与する文字パターン処理と、(2) タグ情報はそのまま
に、タグ情報を除く他の文字列部分を逐次単語情報に分
割する形態素解析処理と、(3) 形態素解析結果を構文解
析する構文解析処理と、(4) 構文解析結果より必要な情
報を抽出する情報抽出処理とを備えるようにする。
【0015】この第3の発明によれば、第1の発明と同
様、未知語が含まれる文であっても正常な情報抽出が可
能となる。
【0016】(D)また、自然言語で記述された文書よ
り、必要な情報を抽出する第4の発明に係る情報抽出方
法において、以下の処理を備えるようにする。
【0017】すなわち、(1) 文書中に現れる文字列を、
逐次単語情報に分割する形態素解析処理と、(2) 形態素
解析の結果得られた単語情報を文節単位にまとめ上げ、
当該まとめ上げ後の単語情報を、文法上の構文規則と共
に、ある種の情報の表現に特徴的に現れる構文パターン
を用いて構文解析する構文解析処理と、(3) 抽出対象と
するイベントとその表現要素との関係を示す抽出情報パ
ターンとの一致が認められた文節より抽出される情報
と、構文パターンに基づく解析により得られた係り受け
関係及び当該係り受け関係に含まれるタグ情報から特定
される情報を、必要な情報として抽出する情報抽出処理
とを備えるようにする。
【0018】この第4の発明によれば、第2の発明と同
様、従来以上に精度の高い情報の抽出を可能とできる。
【0019】(E)また、第5の発明においては、自然
言語で記述された文書より、必要な情報を抽出するのに
使用する情報抽出プログラムを記録した情報記録媒体に
おいて、情報抽出プログラムに、ある種の情報の表現に
特徴的に現れる1又は複数の文字パターンと、文書中に
現れる文字列とを逐次照合し、一致が認められた文字列
部分に対し、一致した文字パターンの属性を示すタグ情
報を付与する文字パターン処理を含むようにする。
【0020】(F)また、第6の発明においては、自然
言語で記述された文書より、必要な情報を抽出するのに
使用するデータファイルを記録した情報記録媒体におい
て、データファイルは、ある種の情報の表現に特徴的に
現れる1又は複数の文字パターンと、当該文字パターン
の属性を示すタグ情報との組からなるようにする。
【0021】(G)また、第7の発明においては、自然
言語で記述された文書より、必要な情報を抽出するのに
使用する情報抽出プログラムを記録した情報記録媒体に
おいて、情報抽出プログラムは、抽出対象とするイベン
トとその表現要素との関係を示す抽出情報パターンとの
一致が認められた文節より抽出される情報と、構文パタ
ーンに基づく解析により得られた係り受け関係及び当該
係り受け関係に含まれるタグ情報から特定される情報
を、必要な情報として抽出する情報抽出処理を含むよう
にする。
【0022】
【発明の実施の形態】(A)第1の実施形態 (A−1)第1の実施形態の構成 (a)全体構成 以下、本発明に係る情報抽出装置及びその方法を、自然
言語処理装置に適用する場合の第1の実施形態を、図面
を用いて詳述する。
【0023】この第1の実施形態に係る自然言語処理装
置は、実際上、入出力装置、通信装置、外部記憶装置等
を適宜組み合わせて構成されるワークステーションやパ
ソコン等の情報処理装置で実現されるものであるが、機
能的には、図1の機能ブロック図で示すことができる。
【0024】図1の自然言語処理装置は、入力部1と、
文字パターン処理部2と、文字パターン情報保持部3
と、形態素解析処理部4と、構文解析部5と、構文パタ
ーン情報保持部6と、情報抽出部7と、出力部8とから
なる。
【0025】このうち、文字パターン処理部2と文字パ
ターン情報保持部3が、辞書に登録されていない未知語
が含まれる場合にも、表現上のパターンからその意味内
容を特定し、形態素解析の実行を可能とする部分であ
り、本実施形態に特有な構成に当たる。
【0026】また、構文解析部5と構文パターン情報保
持部6が、先に特定された意味内容について現れ得る構
文情報を基に、未知語部分を含む構文解析の実行を可能
とする手段であり、やはり、本実施形態に特有な構成に
当たる。
【0027】(b)各部の構成 続いて、本実施形態に係る自然言語処理装置の各部の構
成を、以下順番に説明する。
【0028】(b−1)入力部1 入力部1は、情報抽出処理の抽出対象となる文書を入力
として受け取り、文字パターン処理部2にその入力文字
列を送るものである。入力部1は、例えば、キーボー
ド、マウス、OCR(光学式文字認識装置)、音声認識
装置等の任意の手段で構成されていても良く、また、ネ
ットワーク等の通信媒体を経て外部からの通信信号を受
信する手段として構成されていても良い。
【0029】(b−2)文字パターン処理部2 文字パターン処理部2は、入力文字列に含まれる文字パ
ターンの認識を行い、認識された文字パターンに対して
タグ付け処理(例えば、<人名>、</人名>)を行う
ものである。図2に、文字パターン処理部2において実
行される処理手順の概略を示す。
【0030】文字パターン処理部2は、処理を開始する
と、まず、パラメータnを1に設定する(ステップSP
1)。このパラメータnは、文字パターン情報保持部3
に保持されている文字パターン番号に対応する番号であ
り、パターン認識に用いる文字パターンの特定に使用さ
れる。
【0031】パターン番号nを設定すると、文字パター
ン処理部2は、当該番号に対応する文字パターンと入力
文字列との照合を行い(ステップSP2)、一致する文
字パターンが入力文字列内にあるか否かの判定を行う
(ステップSP3)。
【0032】一致する文字パターンが含まれている場
合、文字パターン処理部2は、該当パターン(複数の場
合も含む。)の前後に当該パターンの意味内容を示すタ
グ情報を挿入する動作を行い(ステップSP4)、次
に、当該文字パターンが文字パターン情報保持部3に保
持されている最後のものか否かの判定処理に移る(ステ
ップSP5)。なお、一致する文字パターンが含まれて
いない場合、文字パターン処理部2は、ステップSP3
の処理からステップSP5の処理に直接移行する。
【0033】ステップSP5に移った文字パターン処理
部2は、現パラメータnの値が登録されている文字パタ
ーンの最大値nmax と一致するか否かを判断し、一致し
ないと判断されている間、次のステップSP6に進み、
パラメータnの値を次の値に更新する。
【0034】その後、文字パターン処理部2は、ステッ
プSP2に戻り、新たな文字パターンについて上述の一
連の処理を繰り返し、全ての文字パターンについての照
合動作が終了した時点で、一連の処理ループを抜け、タ
グ付け処理の行われた後の入力文字列を形態素解析処理
部4に与える。
【0035】(b−3)文字パターン情報保持部3 文字パターン情報保持部3は、文字パターン処理部2の
照合処理に用いられる文字パターンを格納し保持してい
る記憶手段である。図3に、文字パターン情報文字部3
に保持されている文字パターンの例を示す。ここで、文
字パターン記述部には、文書中の各文と照合を行う文字
パターンそのものが記憶されており、属性には、その文
字パターンと照合した文字列が表す属性情報が記憶され
ている。なお、実際の照合処理においては、属性情報中
の()で囲まれた部分に対して、タグ情報の付与が行わ
れる。
【0036】例えば、図3に示すパターン番号1には、
その文字パターンとして、「非漢字+漢字*+[さ
ん]」が保持されているが、この文字パターンのよう
に、漢字以外の文字の後に任意の数の漢字が連続し、そ
の後に「さん」という文字が連続して現れる場合には、
例え、任意の数の漢字の部分が未知語である場合にも、
その部分に「人名」とのタグ情報が付与される。
【0037】これは、「さん」、「氏」、「株式会社」
等の固有名詞は、他の固有名詞の接辞語(接尾語又は接
頭語)として用いられる場合、他の固有名詞に特定の意
味又は特定の資格を与える役割があるからである。
【0038】なお、文字パターン情報保持部3は、これ
ら文字パターンを格納する、ROM、RAM、ハードデ
ィスク等の磁気記憶媒体、CD−ROM等の光記憶媒体
その他の任意の記憶媒体でなる。
【0039】(b−4)形態素解析処理部4 形態素解析処理部4は、文字パターン処理部2から入力
された文字列のうち、文字パターン処理部2で付与され
たタグ情報以外の部分を単語に分割する部分である。こ
こで、形態素解析処理の手法としては、「田中穂積:自
然言語解析の基礎、産業図書(1989)」においても
示されるような方法を用いることが可能である。
【0040】ただし、入力された文書中の各文に対して
文字パターン処理部において付与されたタグ情報につい
ては、これはもともとの文書の内容とは無関係であるた
め形態素解析処理を行わずそのままの形式で出力するも
のとする。
【0041】(b−5)構文解析部5 構文解析部5は、形態素解析処理部4の処理結果をまと
め上げた文節間の係り受けを、文法規則及び構文パター
ン規則に基づいて解析するものである。ここで、構文解
析処理部5は、構文解析処理部5Aと構文パターン処理
部5Bの2つの部分からなる。
【0042】このうち、構文解析処理部5Aは、文法規
則に基づく構文解析を行う部分であり、その手法には、
例えば、「福本、佐野、斉藤、福本:係り受けの強度に
基づく依存文法、情報処理学会論文詩、Vo1.33、
No.10(1992)」に示される方法を用いる。
【0043】一方、構文パターン処理部5Bは、構文パ
ターン規則に基づく解析を行う部分であり、その手法
は、解析に用いる規則が本実施形態に特有の構文パター
ンであることを除き、その手法は、構文解析処理部5A
と同様である。
【0044】図4に、この構文解析部5による解析処理
動作の概要を示す。なお、この解析処理動作は、形態素
解析処理部4の処理結果を文節単位にまとめ上げた段階
で実行される。図4の場合、構文解析部5は、先に構文
パターン処理部5Bによる解析処理を実行する(ステッ
プSP11)。
【0045】構文解析部5は、構文パターン情報保持部
6に保持されている全ての構文パターンに基づいて構文
解析を行い、その解析が終了すると、解析結果を保存す
る(ステップSP12)。続いて、構文解析部5は、構
文解析処理部5Aによる解析処理を実行する(ステップ
SP13)。そして、今度は、構文解析部5は、保持さ
れている全ての文法規則に基づいて構文解析を行い(ス
テップSP13)、その解析が終了すると、解析結果を
保存する(ステップSP14)。
【0046】かかる後、構文解析部5は、両解析結果を
確認し(ステップSP15)、いずれか一方でも、規則
に一致する解析結果が得られている間は、再度、ステッ
プSP11の処理に戻るよう動作し、両方共に解析結果
が得られない状態で、一連の処理動作を抜け出る。すな
わち、この実施形態の場合、構文解析処理と構文パター
ン解析処理の双方の規則に適合する解析結果が得られる
まで、当該処理が交互に実行される。
【0047】(b−6)構文パターン情報保持部6 構文パターン情報保持部6は、構文パターン処理部5B
において必要な構文パターンを保持している記憶手段で
ある。図5に、構文パターン情報保持部6に保持されて
いる構文パターンの例を示す。ここで、構文パターン記
述部には、係り受け構造との照合を行う構文パターンが
記憶されており、係り受け関係記述部には、照合した構
文パターンに対する文節間の係り受け関係が記憶されて
いる。
【0048】例えば、構文パターン番号1に対応する構
文パターン「<人名>(タグ)+((括弧開)+X(数
詞)+)(括弧閉)」は、人名の後に続く括弧()に囲
まれた数字列の形式を持つ構文パターンを記述してい
る。この場合、数字は人名に対する年齢表現を示すもの
であるため、数字が人名に係り、括弧の表現は削除され
ている。この係り受け関係は、「<人名>(タグ)←X
(数詞)」として表され、「←」の右の文節が左の文節
に係るということを示している。
【0049】また、構文パターン番号2に対応する構文
パターン「<地名>(タグ)+、(読点)+<業種名>
(タグ)+、(読点)+<人名>(タグ)」は、連続し
た地名、業種名、人名が、読点によって区切られた表現
を記述している。この場合、地名、業種名はそれぞれ人
名に対する情報であるということが分かるため、それぞ
れ人名に対して係り受け関係が得られることを、「<人
名>(タグ)←<地名>(タグ)」、「<人名>(タ
グ)←<業種名>(タグ)」として表している。
【0050】なお、構文パターン情報保持部6は、これ
ら構文パターンを格納する、ROM、RAM、ハードデ
ィスク等の磁気記憶媒体、CD−ROM等の光記憶媒体
その他の任意の記憶媒体でなる。
【0051】(b−7)情報抽出部7 情報抽出部7は、文字パターン情報保持部3及び構文パ
ターン情報保持部6において記述されたそれぞれのパタ
ーンに当てはまる情報に基づいて抽出処理を行うもので
ある。すなわち、文字パターン処理部2の認識結果と、
構文解析によって判断された文節間の係り受け関係から
必要な情報を抽出し、出力部8に出力する処理を行う。
【0052】(b−8)出力部8 出力部8は、情報抽出部7から抽出結果を受け取り、こ
れを出力するものである。例えば、種々の表示手段や印
刷手段や通信手段が該当する。
【0053】(A−2)第1の実施形態の動作 続いて、かかる構成を有する自然言語処理装置に入力さ
れた入力文から情報が抽出される様子を説明する。
【0054】ここでは、入力部1に対し、図5に示すよ
うな文書、すなわち「5日午前零時35分ごろ…全焼し
た。」が入力されたものとして説明する。
【0055】(a)タグ情報の付与 入力された文書は、文字パターン処理部2に与えられ
る。文字パターン処理部2は、入力部1から入力文が与
えられると、入力文中の全ての箇所を対象とし、予め文
字パターン情報保持部3に登録されている各文字パター
ンと照合可能な部分文字列があるかどうかを認識する。
そして、文字パターン処理部2は、照合可能であった場
合、その照合した部分文字列に対して、文字パターンの
属性として登録されている情報をタグ情報として付加を
行う。
【0056】例えば、図6に示す入力文の場合、「、鈴
木勇さん」の部分文字列がパターン番号1に照合可能で
あり、「、消毒業、」の部分文字列がパターン番号6に
照合可能であり、「、大阪市中央町、」の部分文字列が
パターン番号7に照合可能である。
【0057】なお、部分文字列「、鈴木勇さん」の部分
が対応するパターン番号1は、「鈴木勇さん」の部分が
人名であることを意味しているので、文中の該当部分
に、人名というタグ情報が付与される。図7は、「鈴木
勇さん」の部分に人名というタグ情報が付与された状態
を表している。
【0058】ここで、タグ情報は、「<人名>」がタグ
の開始位置を示し、「</人名>」がタグの終了位置を
示している。また、タグ情報は、それぞれ「<>」と
「</>」とで挟まれた部分文字列の情報の属性を示し
ている。
【0059】同様に、「大阪市中央町」の部分に対して
は地名というタグ情報が付与され、「消毒業」の部分に
対しては業種名というタグ情報が付与される。
【0060】(b)形態素解析 この文字パターン処理部2においてタグ付けされた文字
列は、形態素解析処理部4に与えられる。形態素解析処
理部4は、かかるタグ付きの入力文を入力すると、その
形態素解析処理を行い、文書中の各文を単語に分割す
る。なお、入力文書の各文に含まれているタグ情報は、
もともとの文書の内容とは無関係な情報であるので、形
態素解析処理部4は、かかるタグ情報を形態素解析処理
の対象とせず、そのままの形式で出力する。
【0061】図8に、形態素解析処理部4による形態素
解析処理結果の例を示す。この図8の場合、各単語は、
「|」によって区切られ、また、各単語の品詞情報が各
単語の右の「()」内に示されている。なお、文字パタ
ーン処理部2において付与されたタグ情報「<人名>」
「</人名>」は、ともに一つの要素として認識され、
「タグ」をいう品詞情報が付与される。
【0062】このように、人名や地名のように種類が豊
富なために未知語となり易い部分文字列が含まれている
場合にも、適切な品詞情報の付与が可能となり、形態素
解析が正常に行われる。
【0063】(c)構文解析 (c−1)前処理 以上説明した形態素解析の処理が終了すると、次は、構
文解析の処理に移る。
【0064】前述したように、構文解析部5は、構文解
析処理部5Aと構文パターン処理部5Bを交互に使用し
てその構文解析処理を実行するが、その前処理として、
形態素解析処理部4の処理結果を文節単位にまとめ上げ
る処理を実行する。なお、この文節までのまとめ上げ処
理においては、文字パターンで付与されたタグで囲まれ
た範囲について、一つの文節としてのまとめ上げが行わ
れる。
【0065】この規則に基づいて行われた文節単位のま
とめ上げ処理結果を図9に示す。図9では、図8におい
て「|」で区切られた各単語のうち、各文節としてひと
まとまりで与えられるものが「‖」によって区切られて
いる。
【0066】さて、かかる文節までのまとめ上げが終了
すると、構文解析部5は、次に、その文節内の係り受け
を求める処理を行う。この係り受け関係を表したのが、
図10である。図10は、各文節内における最も左側に
位置する自立語を、その文節を代表する単語として見な
し、その他の単語は全てその代表となる単語に係ると見
なすものである。
【0067】ここで、区切られた文節のそれぞれには、
順番に、文節番号が付与されている。なお、代表単語が
存在した文節中の位置には特殊記号「$」が埋め込まれ
ている。因みに、文節番号11のように自立語が存在し
ない場合には、最も左にある単語が代表単語となってい
る。また、文節番号16のようにサ変名詞と動詞「した
(する)」が連続した場合には、動詞を代表語としてい
る。
【0068】(c−2)係り受けの解析 以上のまとめ上げ処理が終了すると、次は、文節間の係
り受け関係の解析に移る。この解析処理は、図4で説明
したように、通常の文法規則に基づく解析と、構文パタ
ーン規則に基づく解析とが交互に行われることにより実
行される。最初に、処理結果を図11に示しておく。な
お、ここに示されている係り受け関係は、図10の文節
データについてのものである。
【0069】まず、構文パターン処理部5Bは、構文パ
ターン情報保持部6に記憶されている構文パターン2と
照合するパターンが、図10の文節データ中に存在する
か照合を行う。この場合、文節番号3、4、5、6、7
が照合することが分かる。この照合結果に対する係り受
け関係は、「<人名>(タグ)←<地名>(タグ)」と
「<人名>(タグ)←<業種名>(タグ)」との2つで
ある。
【0070】従って、まず第1の解析結果として、文節
番号7の文節に対して文節番号3の文節が係っていると
の結果が得られ、第2の解析結果として、文節番号7の
文節に対して文節番号5の文節が係っているとの結果が
得られる。
【0071】続いて、構文パターン処理部5Bは、構文
パターン情報保持部6に記憶されている構文パターン1
と照合するパターンが、図10の文節データ中に存在す
るか照合を行う。この場合、文節番号7,8、9、10
が照合することが分かる。この照合結果に対する係り受
け関係は、「<人名>(タグ)←X(数詞)」である。
【0072】従って、第3の解析結果として、文節番号
7の文節に対して文節番号9の文節が係っているとの結
果が得られる。
【0073】図10の場合、構文パターンに照合するパ
ターンは3つしかないので、構文パターン処理部5Bに
よる処理はこれで終了し、構文解析部5は、構文解析処
理部5Aによる処理に移行する。
【0074】この構文解析処理部5Aによる処理は、通
常知られている処理であるのでその詳細は省略するが、
この解析処理により、図11における第4〜第9の解析
結果が得られる。なお、構文解析処理部5Aは、接辞語
の情報を用いることにより、それが付されている固有名
詞の品詞情報の決定し、文節番号7に係る文節が、文節
番号11の文節に係る関係にあるとの認識を行い、第4
の解析結果を得ている。
【0075】この処理の終了後、構文解析部5は、再
び、上述の構文パターンに基づく解析と文法規則に基づ
く解析とを繰り返すが、この例の場合には、上述した解
析結果以外の新たな解析結果は得られないので、その確
認後、解析処理が終了したと判断し、処理結果を情報抽
出部7に与える。
【0076】(d)情報抽出 情報抽出部7は、前段に位置する構文解析部5からその
構文解析結果(図11)が入力されると、まず、文字パ
ターン処理において認識された文節、すなわち、タグ情
報が付与されているものを抽出する。これにより、文節
番号3、5、7に対応する文節を抽出する。
【0077】次に、情報抽出部7は、構文パターンによ
って判断された係り受け関係の解析結果を抽出する。こ
れにより、図11における第1番目、2番目、3番目の
係り受け関係を抽出する。なお、この係り受け関係によ
り、新たに文節番号9の文節が抽出される。
【0078】なお、これら4つの文節間には、図11の
係り受け関係から、文節番号7の文節に他の3つの文節
(文節番号3、5、9の文節)が係る関係があることが
分かる。そこで、情報抽出部7は、文節番号7の文節
と、そのたの文節とを分けて分類し、例えば、図12に
示すような抽出結果を得る。
【0079】すなわち、文節番号7に係る文節の<人名
>として「鈴木勇さん」という情報を抽出し、その人名
情報に関係する情報として、「大阪市中央町」という<
地名>の情報、「消毒業」という<業種名>の情報、
「50」という数字の方法を抽出する。
【0080】(A−3)第1の実施形態の効果 この第1の実施形態によれば、固有名詞の情報である人
名、組織名、地名などある種の単語要素に付される可能
性の高い特徴的な接辞語(接頭語及び接尾語)を用い
て、文書中に現れる文字パターンを認識するようにした
ことにより、未知語の認識が可能となり、また、その接
辞語の品詞情報及び意味的情報(属性として予め登録さ
れた情報)を用いることにより、文書を構成する各文の
正しい形態素解析を可能とできる。
【0081】さらに、第1の実施形態によれば、構文解
析の際に、構文パターンに基づく解析処理を実行するよ
うにしたことにより、従来の処理では認識できなかった
要素間の構文構造として、例えば、係り受け関係を正し
く認識することができ、構文解析の各処理を正しく行う
ことを可能とできる。
【0082】またこれら文字パターンに基づく情報処理
および構文パターンに基づく情報処理の処理結果を用い
て情報の抽出処理を行うようにしたことにより、未知語
を含む文を処理対象とする場合にも、要素とそれらに関
する属性的情報との関係を認識でき、情報抽出処理を可
能とできる。
【0083】(B)第2の実施形態 (B−1)第2の実施形態の構成 以下、本発明に係る情報抽出装置及びその方法を、自然
言語処理装置に適用する場合の第2の実施形態を、図面
を用いて詳述する。
【0084】この第2の実施形態に係る自然言語処理装
置の場合も、実際上、入出力装置、通信装置、外部記憶
装置等を適宜組み合わせて構成されるワークステーショ
ンやパソコン等の情報処理装置で実現されるものである
が、機能的には、図13の機能ブロック図で示すことが
できる。
【0085】なお、この図13は、図1との対応同一部
分に、対応同一符号を付して示したものである。このよ
うに、この第2の実施形態は、上述した第1の実施形態
と、抽出情報パターン保持部9を除き同一の構成を有す
るものである。ここでは、本実施形態に特有の構成であ
る抽出情報パターン保持部9の構成のみを説明する。
【0086】抽出情報パターン保持部9は、文書中にあ
る何が起こったかに関する情報を抽出するために用いる
情報パターンを保持するための手段であり、ROM、R
AM、ハードディスク等の磁気記憶媒体、CD−ROM
等の光記憶媒体その他の任意の記憶媒体でなる。
【0087】かかる抽出情報パターン保持部9を設ける
理由は、第1の実施形態の場合、文節間の関係こそ抽出
できるものの、抽出対象となった文書に記載されている
何が起こったかに関する情報、すなわち、イベントにつ
いては、その抽出ができないためである。このため、抽
出情報パターン保持部9は、抽出対象とするイベントの
種類(イベント名)と、そのイベントを構成する要素
(イベント要素)とを一組の情報として保持している。
【0088】図14に、一例を示す。図14の場合、イ
ベント番号1には、「全焼する」というイベントの抽出
用の情報が登録されている。すなわち、このイベント番
号1には、そのイベント名として「全焼する」が登録さ
れ、また、イベント要素として格助詞の「が」が、当該
イベントの抽出に用いる文節として登録されている。ま
た、イベント番号2には、「出火する」というイベント
の抽出用の情報が登録されている。すなわち、このイベ
ント番号2には、そのイベント名として「出火する」が
登録され、また、イベント要素として格助詞「が」及び
格助詞「から」が、当該イベントの抽出に用いる文節と
して登録されている。
【0089】(B−2)第2の実施形態の動作 続いて、かかる構成を有する自然言語処理装置に入力さ
れた入力文から情報が抽出される様子を説明する。
【0090】なお、ここでも、入力部1に対し、図5に
示すような文書、すなわち「5日午前零時35分ごろ…
全焼した。」が入力されたものとして説明する。従っ
て、本実施形態の場合も、情報抽出部7までの処理動作
は、第1の実施形態と同じである。従って、構文解析部
5の処理が終了した時点では、図11に示す解析結果が
得られている。
【0091】情報抽出部7は、かかる解析結果を入力す
ると、第1の実施形態における情報の抽出動作を実行す
ると共に、抽出情報パターン保持部9に登録されている
イベントに基づいた情報の抽出動作を行う。ここでは、
図16を用い、その抽出動作を説明する。
【0092】まず、情報抽出部7は、イベント番号1の
イベント名「全焼する」を表す文節(文節番号16)に
係る要素である格助詞「が」をもつ文節(文節番号1
5)から「約125平方メートルが」を抽出する。
【0093】また、イベント番号2のイベント名「出火
する」を表す文節(文節番号12)に係る要素である格
助詞「から」をもつ文節(文節番号11)から「方か
ら」を抽出する。なお、この「方」は接尾語であり、そ
れに対しては<人名>「鈴木勇さん」という情報が係っ
ているため、それらをまとめて「<人名>鈴木勇さん方
から」として抽出する。
【0094】最後に、情報抽出部7は、第1の実施形態
の場合と同様に、「<人名>鈴木勇さん」の人名情報に
関係する情報をして、「大阪市中央町」という<地名>
の情報、「消毒業」という<業種名>の情報、「50」
という数字の方法を抽出する。
【0095】(B−3)第2の実施形態の効果 この第2の実施形態によれば、第1の実施形態と同様の
効果が得られるのに加え、抽出を行うべき情報パターン
として抽出対象の文書中から何が起こったのかに関する
イベントの情報を予め登録しておくことで、ユーザの求
める構造の情報をイベントの形式でも抽出出することを
可能とできる。
【0096】(C)第3の実施形態 以下、本発明に係る情報抽出装置及びその方法を、自然
言語処理装置に適用する場合の第3の実施形態を、図面
を用いて説明する。
【0097】この第3の実施形態に係る自然言語処理装
置の場合も、実際上、入出力装置、通信装置、外部記憶
装置等を適宜組み合わせて構成されるワークステーショ
ンやパソコン等の情報処理装置で実現されるものであ
る。ただし、その機能ブロック構成は、第2の実施形態
のものと同じ、すなわち、図13で与えられる。
【0098】この第3の実施形態と第2の実施形態との
違いは、情報抽出部7と出力部8に新たな機能が加えら
れた点のみであり、その他の構成部分は第2の実施形態
と同じである。
【0099】従って、ここでは、新たに加えられた機能
についてのみ説明する。この第3の実施形態において新
たに加えられた機能は、情報抽出部7が抽出された情報
の種類に応じて色情報を付与する機能と、出力部8が当
該色情報に応じた色分け表示(抽出された全ての情報を
反転表示する場合や下線表示する場合を含む)を行う点
の2点である。
【0100】ここで、情報抽出部7は、タグの種類に応
じて情報の種類を判定し、判定結果に応じた色情報の付
加を行う。
【0101】この機能を設けた結果、入力文にタグ情報
を挿入した文を最終的な表示とする場合、その表示は、
例えば、図16のようになる。なお、図16では、抽出
された情報部分(「大阪市中央町」、「消毒業」、「鈴
木勇さん」、「(50)方から出火」、「約125平方
メートルが全焼した」)を下線表示しているが、この部
分が反転表示されていても良いし、また、各情報ごと異
なる色が付されていても良い。
【0102】従って、この第3の実施形態によれば、第
2の実施形態と同様の効果が得られるのに加え、ユーザ
にとっては、入力文の全文を読まなくてもその要点部分
を容易に理解できるという使い勝手に優れた効果を実現
できる。
【0103】(D)他の実施形態 (1) 第1の実施形態においては(第2及び第3の実施形
態も同様)、構文解析の前に予め形態素解析結果を文節
単位にまとめ上げる場合について述べたが、形態素解析
結果そのものを直接構文解析しても良い。
【0104】(2) 第1の実施形態においては(第2及び
第3の実施形態も同様)、構文解析部5が構文解析処理
部5Aと構文パターン処理部5Bとで構成されるものと
し、これら2つの機能部を交互に動作させることによ
り、所望の解析結果を得る場合について述べたが、構文
解析処理部5Aで用いる文法規則と構文パターン処理部
5Bが用いる構文パターン規則を区別せず、1つの規則
として扱うようにしても良い。
【0105】(3) 第1の実施形態においては(第2及び
第3の実施形態も同様)、文字パターン処理部2による
処理と構文パターン処理部5Bによる処理の2つを組み
合わせて情報抽出を行う自然言語処理装置について述べ
たが、文字パターン処理部2のみを用いて情報抽出を行
う自然言語処理装置にも適用し得る。
【0106】すなわち、第1の実施形態に係る自然言語
処理装置から構文パターン処理部5B及び構文パターン
情報保持部6を除いた構成の装置にも適用し得る。
【0107】(4) 第2の実施形態においては、第1の実
施形態に対し、抽出情報パターンによる情報の抽出機能
を組み合わせる場合について述べたが、すなわち、文字
パターンによる処理機能と構文パターンによる処理機能
とを備えた装置に、抽出情報パターンによる処理機能を
付加する場合について述べたが、機能の組み合わせはこ
れに限らない。
【0108】例えば、文字パターンによる処理機能と抽
出情報パターンによる処理機能を組み合わせて情報抽出
を行う装置に適用しても良く、構文パターンによる処理
機能と抽出情報パターンによる処理機能を組み合わせて
情報抽出を行う装置に適用しても良い。
【0109】(5) 第3の実施形態においては、第2の実
施形態に対し、色表示機能を組み合わせる場合について
述べたが、すなわち、文字パターンによる処理機能と構
文パターンによる処理機能と抽出情報パターンによる処
理機能とを備えた装置に、色表示機能を付加する場合に
ついて述べたが、機能の組み合わせはこれに限られるも
のでなく、これら4つの機能を任意の組み合わせる装置
にも適用し得る。
【0110】例えば、文字パターンによる処理機能と構
文パターンによる処理機能と色表示機能とを組み合わせ
て情報抽出を行う装置に適用しても良く、文字パターン
による処理機能と色表示機能とを組み合わせて情報抽出
を行う装置にも適用し得る。
【0111】(6) 上述の各実施形態においては、処理対
象とする自然言語が日本語である自然言語処理装置につ
いて示したが、他の言語を処理対象とする自然言語処理
装置についても、本発明を適用することができる。
【0112】
【発明の効果】上述のように、第1の発明に係る情報抽
出装置及び第3の発明に係る情報抽出方法によれば、表
現上のパターンから特定の文字列部分の属性を特定し、
その特定結果を用いて情報の抽出を行うことにすること
により、当該文字列部分が未知語であっても、その後の
処理を正しく行うことができる。
【0113】また、第2の発明に係る情報抽出装置及び
第4の発明に係る情報抽出方法によれば、構文パターン
を用いて構文解析を行った後、さらに抽出情報パターン
に合致する情報を抽出するようにしたことにより、正し
い解析結果に基づく情報の抽出を可能とでき、情報の抽
出精度を向上できるだけでなく、関連するイベントの内
容の抽出も可能とできる。
【0114】また、第5の発明に係る情報記録媒体にお
いては、その情報抽出プログラムに、ある種の情報の表
現に特徴的に現れる1又は複数の文字パターンと、文書
中に現れる文字列とを逐次照合し、一致が認められた文
字列部分に対し、一致した文字パターンの属性を示すタ
グ情報を付与する文字パターン処理が含まれていること
により、当該プログラムの実行により、未知語が含まれ
ている文であっても正しい情報の抽出を可能とできる。
【0115】また、第6の発明に係る情報記録媒体にお
いては、ある種の情報の表現に特徴的に現れる1又は複
数の文字パターンと、当該文字パターンの属性を示すタ
グ情報との組からなるデータファイルが記録されている
ことにより、当該データファイルを、文字パターンの照
合を行うプログラムと組み合わせて使用することによ
り、未知語が含まれている文であっても正しい情報の抽
出を可能とできる。
【0116】また、第7の発明に係る情報記録媒体にお
いては、情報抽出プログラムに、抽出対象とするイベン
トとその表現要素との関係を示す抽出情報パターンとの
一致が認められた文節より抽出される情報と、構文パタ
ーンに基づく解析により得られた係り受け関係及び当該
係り受け関係に含まれるタグ情報から特定される情報
を、必要な情報として抽出する情報抽出処理が含まれて
いることにより、当該プログラムの実行により、正しい
解析結果に基づく情報の抽出を可能とでき、情報の抽出
精度を向上できるだけでなく、関連するイベントの内容
の抽出も可能とできる。
【図面の簡単な説明】
【図1】第1の実施形態を示す機能ブロック図である。
【図2】文字パターン処理部の動作例を示すフローチャ
ートである。
【図3】文字パターン情報の一例を示す説明図である。
【図4】構文解析部の動作例を示すフローチャートであ
る。
【図5】構文パターン情報の一例を示す説明図である。
【図6】入力文字列の一例を示す説明図である。
【図7】文字パターン処理後の文字列を示す説明図であ
る。
【図8】形態素解析後の文字列を示す説明図である。
【図9】文節までのまとめ上げ終了後の文字列を示す説
明図である。
【図10】文節間の係り受け解析後の文字列を示す説明
図である。
【図11】構文解析結果を示す説明図である。
【図12】第1の実施形態で抽出される情報例を示す説
明図である。
【図13】第2の実施形態を示す機能ブロック図であ
る。
【図14】抽出情報パターンの一例を示す説明図であ
る。
【図15】第2の実施形態で抽出される情報例を示す説
明図である。
【図16】第3の実施形態での情報の表示例を示す説明
図である。
【符号の説明】
1…入力部、2…文字パターン処理部、3…文字パター
ン情報保持部、4…形態素解析処理部、5…構文解析
部、5A…構文解析処理部、5B…構文パターン処理
部、6…構文パターン情報保持部、7…情報抽出部、8
…出力部、9…抽出情報パターン保持部。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 自然言語で記述された文書より、必要な
    情報を抽出する情報抽出装置において、 ある種の情報の表現に特徴的に現れる1又は複数の文字
    パターンと、文書中に現れる文字列とを逐次照合し、一
    致が認められた文字列部分に対し、一致した文字パター
    ンの属性を示すタグ情報を付与する文字パターン処理部
    と、 上記タグ情報はそのままに、タグ情報を除く他の文字列
    部分を逐次単語情報に分割する形態素解析処理部とを備
    えたことを特徴とする情報抽出装置。
  2. 【請求項2】 請求項1に記載の情報抽出装置におい
    て、 形態素解析の結果得られた単語情報を文節単位にまとめ
    上げ、当該まとめ上げ後の単語情報を、文法上の構文規
    則と共に、ある種の情報の表現に特徴的に現れる構文パ
    ターンを用いて構文解析する構文解析部とをさらに設け
    たことを特徴とする情報抽出装置。
  3. 【請求項3】 請求項2に記載の情報抽出装置におい
    て、 上記構文パターンに基づく解析により得られる係り受け
    関係及び当該係り受け関係に含まれるタグ情報から特定
    される情報を、必要な情報として抽出する情報抽出部を
    さらに備えたことを特徴とする情報抽出装置。
  4. 【請求項4】 請求項2に記載の情報抽出装置におい
    て、 抽出対象とするイベントとその表現要素との関係を示す
    抽出情報パターンとの一致が認められた文節より抽出さ
    れる情報と、上記構文パターンに基づく解析により得ら
    れた係り受け関係及び当該係り受け関係に含まれるタグ
    情報から特定される情報を、必要な情報として抽出する
    情報抽出部をさらに備えたことを特徴とする情報抽出装
    置。
  5. 【請求項5】 自然言語で記述された文書より、必要な
    情報を抽出する情報抽出装置において、 文書中に現れる文字列を、逐次単語情報に分割し出力す
    る形態素解析処理部と、 形態素解析の結果得られた単語情報を文節単位にまとめ
    上げ、当該まとめ上げ後の単語情報を、文法上の構文規
    則と共に、ある種の情報の表現に特徴的に現れる構文パ
    ターンを用いて構文解析する構文解析部と、 抽出対象とするイベントとその表現要素との関係を示す
    抽出情報パターンとの一致が認められた文節より抽出さ
    れる情報と、上記構文パターンに基づく解析により得ら
    れた係り受け関係及び当該係り受け関係に含まれるタグ
    情報から特定される情報を、必要な情報として抽出する
    情報抽出部とを備えたことを特徴とする情報抽出装置。
  6. 【請求項6】 請求項1〜5のいずれかに記載の情報抽
    出装置において、 文書中に現れる文字列のうち抽出された情報の部分を、
    その他の情報に該当する部分とは異なる表示形態で表示
    する出力部をさらに備えたことを特徴とする情報抽出装
    置。
  7. 【請求項7】 自然言語で記述された文書より、必要な
    情報を抽出する情報抽出方法において、 ある種の情報の表現に特徴的に現れる1又は複数の文字
    パターンと、文書中に現れる文字列とを逐次照合し、一
    致が認められた文字列部分に対し、一致した文字パター
    ンの属性を示すタグ情報を付与する文字パターン処理
    と、 上記タグ情報はそのままに、タグ情報を除く他の文字列
    部分を逐次単語情報に分割する形態素解析処理と、 形態素解析結果を構文解析する構文解析処理と、 構文解析結果より必要な情報を抽出する情報抽出処理と
    を備えたことを特徴とする情報抽出方法。
  8. 【請求項8】 自然言語で記述された文書より、必要な
    情報を抽出する情報抽出方法において、 文書中に現れる文字列を、逐次単語情報に分割する形態
    素解析処理と、 形態素解析の結果得られた単語情報を文節単位にまとめ
    上げ、当該まとめ上げ後の単語情報を、文法上の構文規
    則と共に、ある種の情報の表現に特徴的に現れる構文パ
    ターンを用いて構文解析する構文解析処理と、 抽出対象とするイベントとその表現要素との関係を示す
    抽出情報パターンとの一致が認められた文節より抽出さ
    れる情報と、上記構文パターンに基づく解析により得ら
    れた係り受け関係及び当該係り受け関係に含まれるタグ
    情報から特定される情報を、必要な情報として抽出する
    情報抽出処理とを備えたことを特徴とする情報抽出方
    法。
  9. 【請求項9】 自然言語で記述された文書より、必要な
    情報を抽出するのに使用する情報抽出プログラムを記録
    した情報記録媒体において、 上記情報抽出プログラムは、ある種の情報の表現に特徴
    的に現れる1又は複数の文字パターンと、文書中に現れ
    る文字列とを逐次照合し、一致が認められた文字列部分
    に対し、一致した文字パターンの属性を示すタグ情報を
    付与する文字パターン処理を含むことを特徴とする情報
    記録媒体。
  10. 【請求項10】 自然言語で記述された文書より、必要
    な情報を抽出するのに使用するデータファイルを記録し
    た情報記録媒体において、 上記データファイルは、ある種の情報の表現に特徴的に
    現れる1又は複数の文字パターンと、当該文字パターン
    の属性を示すタグ情報との組からなることを特徴とする
    情報記録媒体。
  11. 【請求項11】 自然言語で記述された文書より、必要
    な情報を抽出するのに使用する情報抽出プログラムを記
    録した情報記録媒体において、 上記情報抽出プログラムは、抽出対象とするイベントと
    その表現要素との関係を示す抽出情報パターンとの一致
    が認められた文節より抽出される情報と、上記構文パタ
    ーンに基づく解析により得られた係り受け関係及び当該
    係り受け関係に含まれるタグ情報から特定される情報
    を、必要な情報として抽出する情報抽出処理を含むこと
    を特徴とする情報記録媒体。
JP07180498A 1998-03-20 1998-03-20 情報抽出装置及びその方法 Expired - Fee Related JP3744676B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07180498A JP3744676B2 (ja) 1998-03-20 1998-03-20 情報抽出装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07180498A JP3744676B2 (ja) 1998-03-20 1998-03-20 情報抽出装置及びその方法

Publications (2)

Publication Number Publication Date
JPH11272695A true JPH11272695A (ja) 1999-10-08
JP3744676B2 JP3744676B2 (ja) 2006-02-15

Family

ID=13471130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07180498A Expired - Fee Related JP3744676B2 (ja) 1998-03-20 1998-03-20 情報抽出装置及びその方法

Country Status (1)

Country Link
JP (1) JP3744676B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142893A (ja) * 1999-11-12 2001-05-25 Hitachi Ltd 情報公開装置および文章公開方法
JP2001167113A (ja) * 1999-12-09 2001-06-22 Nec Corp 付与情報全文検索システムおよび付与情報全文検索方法
JP2006343870A (ja) * 2005-06-07 2006-12-21 Canon Inc 文書検索装置及び方法と記憶媒体
JP2009526290A (ja) * 2006-02-03 2009-07-16 ブルームバーグ・ファイナンス・エル・ピー データベースレコードの生成または更新に関するデータの特定/抽出
JP2009259252A (ja) * 2001-12-21 2009-11-05 Thomson Reuters Global Resources 名前をハイパーリンクするためのシステム、方法、及びソフトウェア
JP2010217972A (ja) * 2009-03-13 2010-09-30 Toshiba Corp 構造化文書生成装置及び構造化文書生成プログラム
US7941745B2 (en) 1999-11-18 2011-05-10 Sony Corporation Method and system for tagging electronic documents

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0619959A (ja) * 1992-06-30 1994-01-28 N T T Data Tsushin Kk 固有名詞特定処理システム
JPH06266769A (ja) * 1993-03-15 1994-09-22 Toshiba Corp 同義語情報作成装置
JPH0721196A (ja) * 1993-06-15 1995-01-24 N T T Data Tsushin Kk 固有名詞特定方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0619959A (ja) * 1992-06-30 1994-01-28 N T T Data Tsushin Kk 固有名詞特定処理システム
JPH06266769A (ja) * 1993-03-15 1994-09-22 Toshiba Corp 同義語情報作成装置
JPH0721196A (ja) * 1993-06-15 1995-01-24 N T T Data Tsushin Kk 固有名詞特定方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142893A (ja) * 1999-11-12 2001-05-25 Hitachi Ltd 情報公開装置および文章公開方法
US7941745B2 (en) 1999-11-18 2011-05-10 Sony Corporation Method and system for tagging electronic documents
JP2001167113A (ja) * 1999-12-09 2001-06-22 Nec Corp 付与情報全文検索システムおよび付与情報全文検索方法
JP2009259252A (ja) * 2001-12-21 2009-11-05 Thomson Reuters Global Resources 名前をハイパーリンクするためのシステム、方法、及びソフトウェア
JP2006343870A (ja) * 2005-06-07 2006-12-21 Canon Inc 文書検索装置及び方法と記憶媒体
JP2009526290A (ja) * 2006-02-03 2009-07-16 ブルームバーグ・ファイナンス・エル・ピー データベースレコードの生成または更新に関するデータの特定/抽出
JP2010217972A (ja) * 2009-03-13 2010-09-30 Toshiba Corp 構造化文書生成装置及び構造化文書生成プログラム

Also Published As

Publication number Publication date
JP3744676B2 (ja) 2006-02-15

Similar Documents

Publication Publication Date Title
Kiraz Computational nonlinear morphology: with emphasis on Semitic languages
US6782505B1 (en) Method and system for generating structured data from semi-structured data sources
US5579224A (en) Dictionary creation supporting system
US6188977B1 (en) Natural language processing apparatus and method for converting word notation grammar description data
Litkowski Question-Answering Using Semantic Relation Triples.
JPH1078964A (ja) 一般に混同するワードを自然言語パーザにおいて識別及び分析する方法及びシステム
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
Pastra et al. How feasible is the reuse of grammars for Named Entity Recognition?.
JPH11272695A (ja) 情報抽出装置及びその方法並びに情報記憶媒体
JPH08235182A (ja) 文章処理方法とその装置
JP2002157241A (ja) 辞書作成装置
JPH0877196A (ja) 文書情報抽出装置
JP4965766B2 (ja) 関係情報抽出装置および属性情報抽出装置
CN112231512A (zh) 歌曲标注检测方法、装置和系统及存储介质
JPH09244869A (ja) 文章読み上げ方式
Neme An arabic language resource for computational morphology based on the semitic model
JP4023371B2 (ja) 固有名認識装置および方法
Almedlej et al. A ‘rib—A Tool to Facilitate School Children’s Ability to Analyze Arabic Sentences Syntactically
JP3029403B2 (ja) 文章データ音声変換システム
Plant et al. A natural language help system shell through functional programming
JPH11250063A (ja) 検索装置及び検索方法
Erickson RHYTHMIC PROBLEMS AND MELODIC STRUCTURE IN ORGANUM PURUM: A COMPUTER-ASSISTED STUDY.(VOLUMES I-III)
JP2001067356A (ja) 語彙獲得方法、語彙獲得装置及び語彙獲得プログラムを記録したコンピュータ読み取り可能な記憶媒体
JPWO2002095614A1 (ja) 言語・文字コード系識別処理方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040727

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050215

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050412

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050823

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051115

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091202

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101202

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101202

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111202

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121202

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131202

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees