JP2001318792A - 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置 - Google Patents

固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置

Info

Publication number
JP2001318792A
JP2001318792A JP2000137545A JP2000137545A JP2001318792A JP 2001318792 A JP2001318792 A JP 2001318792A JP 2000137545 A JP2000137545 A JP 2000137545A JP 2000137545 A JP2000137545 A JP 2000137545A JP 2001318792 A JP2001318792 A JP 2001318792A
Authority
JP
Japan
Prior art keywords
rule
named entity
word
correct
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000137545A
Other languages
English (en)
Inventor
Hideki Isozaki
秀樹 磯▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000137545A priority Critical patent/JP2001318792A/ja
Publication of JP2001318792A publication Critical patent/JP2001318792A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 従来の技術では、高精度な固有表現抽出規則
の生成を容易に短時間で行うこと、および、膨大な文書
から所望の固有表現を正確に抽出することができない。 【解決手段】 まず、形態素解析・品詞文字種付与部3
により、予め用意された訓練用文書1から各単語を抽出
し、次に、規則生成部4により、各単語と訓練用文書1
に対応して予め用意された正解リスト2とに基づき固有
表現抽出用の規則(ルール)を生成する。そして、訓練
用規則適用部6により、これらの規則をそれぞれ独立に
訓練用文書1に適用して、各規則毎の固有表現抽出結果
を求め、規則評価部8により、その適用結果で得られた
固有表現と正解リストとを比較して、各規則の適正度を
比較し、その結果に基づき、規則削除部9と規則精錬部
10により、適宜、規則の削除と修正を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータを用
いて、文書に含まれる固有表現を抽出する技術に係わ
り、特に、固有表現を抽出するために用いる規則を効率
的に生成するのに好適な固有表現抽出規則生成システム
と方法およびその処理プログラムを記録した記録媒体な
らびに固有表現抽出装置に関するものである。
【0002】
【従来の技術】膨大な量の文書に含まれる情報について
の質問に答えたり、文書を要約したり、データべース化
したり、視覚化したりするためには、その文書から、人
名や地名や組織名や日時などの固有表現を抽出する必要
がある。この場合、コンピュータを利用して、予め各固
有表現を登録した辞書を用意しておき、この辞書を検索
することにより、文書からの固有表現の抽出を行うこと
ができる。
【0003】しかし、実際の文書には、予め用意した辞
書に含まれない新しい言葉が必ず存在するので、辞書の
検索だけでは、正確な抽出結果は得られない。このよう
な問題に対処するために、固有表現そのものと、その前
後に含まれる単語の並びの出現パターンを規則化して得
た多数の規則を予め人手により作成し、その規則に基づ
きコンピュータ処理して、対象の文書から、固有表現を
抽出するという技術がある。
【0004】しかし、この技術では、規則同士が競合し
たり相互作用したりするため、それぞれの規則が意図し
たとおりに動くとは限らないので、作成された規則を、
予め用意された訓練データに適用して、その結果に基づ
き、間違ったところを見つけ出して、規則を修正すると
いう作業を何度も繰り返さなければならない。
【0005】ところが、ある規則を修正した結果、それ
まで正常に動いていた規則が影響を受けて、間違った答
を出すようになることが少なくない。そのため、多数の
規則の全てを意図したとおりに動くようにするために
は、膨大な時間と労力を要する。
【0006】このような固有表現を抽出する規則をコン
ピュータを用いて自動的に生成する技術においても、規
則の間の競合や相互作用のため、自動生成された規則同
士をどのように組み合わせれば良い成績が得られるか
は、組み合わせた規則(ルール)を再度、実際の文書に
適用して、その結果を正解と比較して採点し、その結果
に基づき、より良い成績が得られるように規則を追加し
たり削除したりする試行錯誤を繰り返すしかなく、多大
な計算時間が必要である。
【0007】
【発明が解決しようとする課題】解決しようとする問題
点は、従来の技術では、文書に含まれる固有表現を高い
精度で抽出するための規則を生成できない点と、より良
い規則(固有表現抽出規則)を生成するためには、各規
則の組合せを修正する度に、実際の文書に適用し、その
結果を正解と比較して採点し、各規則の組合せの試行錯
誤を行うので、多大な計算時間が必要となってしまう点
である。
【0008】本発明の目的は、これら従来技術の課題を
解決し、高精度な固有表現抽出規則の生成を容易に短時
間で行うことを可能とし、膨大な文書から所望の固有表
現を正確に抽出することを可能となる固有表現抽出規則
生成システムと方法およびその処理プログラムを記録し
た記録媒体ならびに固有表現抽出装置を提供することで
ある。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、本発明の固有表現抽出規則生成システムと方法で
は、まず、予め用意された訓練用文書を形態素解析して
単語に分割し、品詞名や構成文字種などの情報を各単語
に付加する。こうして得られた単語列から、固有表現を
構成する単語列を取り出し、訓練用文書に対応して予め
用意された正解リストを参照して経験則や最小汎化など
の一般化手段によって多数の固有表現抽出用の規則(ル
ール)を生成する。そして、これらの規則をそれぞれ独
立に訓練用文書に適用して、その規則が、訓練用文書の
どの位置にマッチしたかの記録を記憶しておく。この記
録に入っているものは、訓練用文書に対してシステムが
出力する固有表現の候補となる。そして、複数の規則を
組み合わせる場合には、それらの規則に対応する記録に
入っている全ての候補の中から、競合関係と優先順位を
考慮して、最終的に出力する候補の列を一定の明快な基
準で選び出す。この結果、訓練用文書における不正解の
頻度あるいは割合が非常に多い規則があれば、それを削
除する。ただし、その規則が訓練用文書のどの位置で正
解し、どの位置で不正解になっているかがわかる。そこ
で、正解の箇所の前後の単語列と、不正解の箇所の前後
の単語列を比較して制約を加えることによって、訓練用
文書における成績が良くなる規則が作れるかどうか判断
できるので、成績が良くなる場合は制約を加えた規則を
加える。
【0010】さらに、本発明の固有表現抽出装置では、
上述の固有表現抽出規則生成システムを具備し、この固
有表現抽出規則生成システムで生成された規則に基づき
任意の文書中の固有表現を抽出すると共に、抽出した複
数の固有表現に部分的な重なりがあれば、文書における
記載開始位置が早いものを優先して抽出し、また、記載
開始位置が同じであれば記載終了位置が遅いものを優先
して抽出し、さらに、表現は同じであるが種類の異なる
固有表現があれば、各固有表現の抽出に用いた各々の規
則に予め付与された優先度の大きいものを優先して抽出
する。
【0011】
【発明の実施の形態】以下、本発明の実施の形態を、図
面により詳細に説明する。
【0012】図1は、本発明に係る固有表現抽出規則生
成システムおよびそれを設けた固有表現抽出装置の構成
例を示すブロック図であり、図2は、図1における固有
表現抽出規則生成システムおよび固有表現抽出装置のハ
ードウェア構成例を示すブロック図である。
【0013】図2において、21はCRT(Cathode Ra
y Tube)やLCD(Liquid CrystalDisplay)等からなる
表示装置、22はキーボードやマウス等からなる入力装
置、23はHDD(Hard Disk Drive)等からなる外部
記憶装置、24はCPU(Central Processing Unit)
24aや主メモリ24b等を具備して蓄積プログラム方
式によるコンピュータ処理を行なう情報処理装置、25
は本発明に係わるプログラムやデータを記録したCD−
ROM(Compact Disc-Read Only Memory)もしくはD
VD(Digital Video Disc/Digital Versatile Disc)
等からなる光ディスク、26は光ディスク25に記録さ
れたプログラムおよびデータを読み出すための駆動装
置、27はLAN(Local Area Network)カードやモデ
ム等からなる通信装置である。
【0014】光ディスク25に格納されたプログラムお
よびデータを情報処理装置24により駆動装置26を介
して外部記憶装置23内にインストールした後、外部記
憶装置23から主メモリ24bに読み込みCPU24a
で処理することにより、情報処理装置24内に図1に示
す固有表現抽出規則生成システムおよびそれを具備した
固有表現抽出装置が構成される。
【0015】図1の固有表現抽出装置においては、訓練
用文書1と、正解リスト2、固有表現抽出規則群5、改
良後固有表現抽出規則群5a、訓練用記録7、新規文書
11、および、抽出された固有表現のリスト13のそれ
ぞれは、図2における外部記憶装置23もしくは主メモ
リ24b等に格納され、また、形態素解析・品詞文字種
付与部3と、規制生成部4、訓練用規則適用部6、規則
評価部8、規則削除部9、規則精錬部10、実施用規則
適用部12のそれぞれは、図2におけるCD−ROM2
5に格納されたプログラムに基づき情報処理装置24内
に構成される。
【0016】そして、形態素解析・品詞文字種付与部3
と、規制生成部4、訓練用規則適用部6、規則評価部
8、規則削除部9、規則精錬部10のそれぞれが本発明
に係わる固有表現抽出規則生成システムを構成してい
る。
【0017】形態素解析・品詞文字種付与部3は、訓練
用文書1を単語分割して、各単語にその品詞名や構成文
字種の情報を付加する。
【0018】規則生成部4は、形態素解析・品詞文字種
付与部3の処理で得られる単語列を正解リスト2で与え
られる抽出すべき固有表現のデータと突き合わせて、各
固有表現を構成する単語列を取り出し、これを一般化し
て規則を生成する。その結果が固有表現抽出規則群5と
して図2における外部記憶装置23に記録される。
【0019】訓練用規則適用部6は、規則生成部4の生
成結果で得られる固有表現抽出規則群5を訓練用文書1
に適用する。その結果は訓練用記録7として図2におけ
る外部記憶装置23に記録される。
【0020】規則評価部8は、訓練用記録7に基づいて
各規則を評価する。規則削除部9は、規則評価部8の評
価結果に基づいて、成績の悪い規則を削除する。規則精
錬部10は、成績が良くなるように規則を精錬する。
【0021】実施用規則適用部12は、このようにして
改良された固有表現抽出規則群5(改良後固有表現抽出
規則群5a)を、実際の新規文書11に適用して固有表
現リスト13を得る。
【0022】訓練用規則適用部6と実施用規則適用部1
2はいずれも、規則群を文書に適用して固有表現を抽出
するものであり、その処理内容はほぼ同じであるため、
単一の装置で両者を兼ねることも可能である。ただし、
実施用規則適用部12は、訓練用記録7を残す必要がな
いが、最終的な候補の選択を行なう必要がある点が異な
る。
【0023】まず、実施用規則適用部12の動作、すな
わち、本例の固有表現抽出規則生成システムで生成・改
良された固有表現抽出規則群5、改良後固有表現抽出規
則群5aを用いた固有表現抽出装置としての動作を説明
する。
【0024】実施用規則適用部12は、固有表現を抽出
したい新規文書11に対して、改良後固有表現抽出規則
群5aを適用して、文書中に含まれる固有表現を抽出し
て固有表現リスト13を出力する。
【0025】例えば、「田中太郎賞選考委員会では、・
・・」という新規文書11があるとすると、この文書中
の固有表現として、「田中」、「太郎」、「田中太郎」
という人名の候補と、「田中太郎賞」という人工物名の
候補、さらに、「田中太郎賞選考委員会」という組織名
の候補が考えられるが、一般には、その内で一番長い
「田中太郎賞選考委員会」だけが固有表現として抽出さ
れ出力されることが望まれる場合が多く、この場合、こ
れと重なっている「田中」や「太郎」などの他の候補
(固有表現)は出力されるべきでない。
【0026】このような侯補間の関係は、重なりに起因
する競合関係と、各候補の優先順位による抑制関係に還
元することができる。つまり、「田中太郎賞選考委員
会」は「田中」などの他の候補と重なっているがために
競合し、長い「田中太郎賞選考委員会」の優先順位が高
く、短い他の候補を抑制していると考えることができ
る。
【0027】本例においては、実施用規則適用部12
は、この考え方に基づき、まず、全ての規則を文書に適
用することで、全ての固有表現の候補の集合(「田中」
や「太郎」、「田中太郎」、「田中太郎賞」、「田中太
郎賞選考委員会」などを含む)を求める。次に、これら
の候補の中で同じ固有表現(上の各候補においては「田
中」)が最初に現れるものの内で一番長いもの(上の各
候補においては「田中太郎賞選考委員会」)を出力す
る。
【0028】このようにして一つの候補が出力される
と、この候補と競合している他の全ての候補(「田
中」、「田中太郎」、「田中太郎賞」)を候補の集合か
ら削除する。候補の集合が空になるまで、この作業を繰
り返すことにより、固有表現のリスト13が得られる。
【0029】ただし、このように長さだけに着目して、
各々競合する各候補からの選択の判断を行うだけでは、
同じ長さの複数の候補がある場合に判断に困る。例えば
「ホワイトハウス」は、地名と考えられる場合と組織名
と考えられる場合があるので、同じ「ホワイトハウス」
という文字列を地名とする候補と、組織名とする候補と
が考えられる。
【0030】そこで、この2つの候補の間に、抽出する
ための優先順位を設ける。例えば、その前後の単語を考
慮して、「ホワイトハウスの近くの公園で・・・」であ
れば地名の可能性が高く、「ホワイトハウスによれば・
・・」であれば、組織名の可能性が高い。また、例え
ば、その出現頻度を考慮して、訓練用文書1に「ホワイ
トハウス」が地名として出現しているのが1回で、組織
名として出現しているのが20回とすれば、組織名と判
断した方が正解する可能性が高い。
【0031】本例では、改良後固有表現抽出規則群5a
における各規則には、これらの条件を加味した優先度が
付与されている。
【0032】実施用規則適用部12は、このような優先
度と、前述の固有表現の長さとを組み合わせて、各候補
の優先順位を計算する。この優先順位の設定としてはさ
まざまな変種が考えられるが、上記のように、開始位置
が一番早いものの中で、さらに終了位置が一番遅いもの
の内、優先度が一番高いものを選ぶのが明快である。つ
まり、候補の優先関係については、以下のような定義を
基本とする。
【0033】候補Aの開始位置が候補Bの開始位置よ
り早い(数字として小さい)ならば、候補Aの方が優先さ
れる。 候補Aの開始位置と候補Bの開始位置が同じであれ
ば、終了位置が遅い(数字として大きい)候補が優先され
る。 両候補の開始位置と終了位置が全く同じであれば、予
め規則で与えられた優先度uの大きい候補が優先され
る。
【0034】本例の固有表現抽出規則生成システムで
は、このような実施用規則適用部12による処理を容易
とする固有表現抽出規則群5および改良後固有表現抽出
規則群5aを生成する。以下、このような優先関係を加
味した規則の生成処理に係わる固有表現抽出規則生成シ
ステムを構成する各部の動作について説明する。
【0035】まず、形態素解析・品詞文字種付与部3に
おいて、文書を単語列に分割する。典型的には形態素解
析機能を有し、訓練用文書1や新規文書11などの与え
られた文書を単語分割して、各単語に品詞名とその単語
を構成する文字の種類(構成文字種情報)を付与したデ
ータ構造を作り、そのリストを作成する。
【0036】例えば、「東京製鉄の中野社長は・・・」
という文があると、形態素解析により「東京」は固有名
詞、「製鉄」は普通名詞、「の」は助詞、「中野」は固
有名詞、「社長」は普通名詞、「は」は助詞、という結
果が得られる。
【0037】また、「東京」は複数の漢字で構成されて
おり、「の」はひらがなである。従って、形態素解析・
品詞文字種付与部3は、この文に対して、例えば以下の
ようなデータ構造からなるリストを出力する。[(東
京,複数漢字,固有名詞)、(製鉄,複数漢字,普通名
詞)、(の,ひらがな,助詞)、・・・]
【0038】一方、正解リスト2は、訓練用文書1の中
のどの位置にどのような種類の固有表現が含まれている
かを列挙したものであり、「東京製鉄の中野社長は・・
・」という訓練用文書1に対応して予め用意される正解
リスト2は、例えば、次のようなデータからなる。
【0039】
【0040】このリストにおいて、最初の行は、この文
書の「0文字目から3文字目の位置」が「東京製鉄」と
いう「組織名」をその種類とする固有表現であり、次の
行は「5文字目から6文字目の位置」が「中野」という
「人名」をその種類とする固有表現であることを示して
いる。このように、本例の正解リスト2においては、各
固有表現の開始位置と終了位置を示す数字の対で、当該
固有表現の位置を略称する。
【0041】規則生成部4は、このような正解リスト2
と、形態素解析・品詞文字種付与部3の出力する単語列
とを突き合わせて、固有表現を変数化等して、例えば、
次のような固有表現の抽出規則を生成する。
【0042】anytag(3) <-- <@(組織名,21),wo
rd(_,複数漢字,固有名詞),word(製鉄,複数漢字,普
通名詞),>@(組織名).
【0043】この規則(ルール)は、番号「21」が付
与された規則であり、任意の(変数化された)漢字の固
有名詞があり(「word(_,複数漢字,固有名詞)」)、
その次の単語が「製鉄」という複数漢字の普通名詞であ
れば(「word(製鉄,複数漢字,普通名詞)」)、その2
単語が、「組織名」の固有表現の候補として考えられる
という意味の規則である。
【0044】このような規則(ルール)の生成は、より
一般的には以下のように表せる。まず、固有表現は、N
+1単語[(w0,c0,p0),・・・,(wi,ci
i),・・・,(wN,cN,pN)]でできているとす
る。ここでwiは単語(「製鉄」、「中野」など)、ci
は構成文字種(「複数漢字」や「数字」など)、pi
品詞名(「固有名詞」、「普通名詞」など)である。
【0045】実際には、前後の幾つかの単語も、固有表
現かどうかを判断するのに重要な手がかりとなるので、
含めて考えるのが一般的であるが、ここでは単純化し
て、固有表現に含まれる単語だけを考える。
【0046】次に、このような単語列から、最小汎化な
どの既存の一般化技術を用いることによって、規則(ル
ール)を生成する。しかし、本例では、次のようにして
簡単に生成する。
【0047】すなわち、訓練用文書1に含まれる固有表
現を構成する具体的な単語列[(w0,c0,p0),・・
・,(wi,ci,pi),・・・,(wN,cN,pN)]に、
以下に述べる経験則を適用して、変数を含むリスト
[(w0',c0',p0'),・・・,(wi',ci',pi'),
・・・,(wN',cN',pN')]を得て、次のような規則
を作る。
【0048】anytag(u) <-- <@(t+df,k),wo
rd(w0',c0',p0'),・・・,(wi',ci',pi'),
・・・,word(wN',cN',pN'),>@(t−dt).
【0049】ここで「t」は、固有表現の種類(例えば
「組織名」)を表す。「+df」は、この固有表現の開
始位置を何文字右にずらすかを表し、最初の単語の文字
数未満の非負整数である。また、「−dt」は固有表現
の終了位置を何文字左にずらすかを表し、最後の単語の
文字数未満の非負整数である。
【0050】例えば、「厚木市内で・・・」という訓練
用文書1があり、正解リスト2によればこの内の「厚木
市」が地名であるにもかかわらず、形態素解析・品詞文
字種付与部3の形態素解析で、「厚木」、「市内」、
「で」というように単語分割された場合、固有表現を構
成する単語列は、[(厚木,複数漢字,固有名詞),(市
内、複数漢字、普通名詞)]となり、最後の1文字
(「内」)が余分である。そこで終了位置を一文字左に
ずらすために、「dt=1」とする。尚、開始位置はず
らさないので、「df=0」である。
【0051】また、上述の規則(ルール)における
「k」は、この規則につけられた番号であり、「u」は
この規則の優先度である。
【0052】各変数を含むデータ(wi',ci',pi')
は、訓練用文書1に含まれる具体的な固有表現に対応す
るデータ(wi,ci,pi)に対して、以下の経験則を、
上から順に調べ、最初に当てはまったものを適用するこ
とによって得る。
【0053】「i」が「0」か「N」で、固有表現の
境界を含む場合(df>0またはdt>0)は、これら
を変数化しない。規則(ルール)の「df」と「dt」
は、元になった固有表現に対する値をそのまま利用す
る。 数字の場合は「wi」を変数化する。 固有名詞の場合は「wi」を変数化する。 リストの最後の単語か、記号・単漢字・接尾語・接頭
語・助詞などの機能語であれば、変数化しない。 それ以外であれば「wi」を変数化する。
【0054】各固有表現に対して以上の処理を適用する
ことにより、固有表現抽出規則群5を自動的に生成する
ことができる。
【0055】また、各規則の優先度(u)としては、例
えば、その規則の元になった固有表現が正解リスト中に
現れる「のべ回数」を採用する。これにより、正解回数
の少ない規則(前述の例では、地名としての「ホワイト
ハウス」)が正解回数の多い規則(組織名としての「ホワ
イトハウス」)を正当な理由もなく抑制してしまうこと
が避けられる。
【0056】こうして規則生成部4により得られた各規
則(固有表現抽出規則群5)を、訓練規則適用部6にお
いて、訓練用文書1の単語列に適用することにより訓練
用記録7を得る。すなわち、訓練規則適用部6では、訓
練用文書1の先頭から末尾まで、各規則がマッチする位
置を順に調べていき、マッチしたら、それを候補として
訓練用記録7に追加することを繰り返す。
【0057】訓練用記録7には、具体的には、後で各候
補間の競合関係や抑制関係の比較をして、最終的な出力
ができるように、ルール番号(k)や、マッチした位
置、固有表現の種類(t)などのデータを記録してお
く。
【0058】このような訓練規則適用部6による処理
を、固有表現抽出規則群5の全ての規則に対して行な
い、訓練用記録7を作り出す。
【0059】尚、ボトムアップ型の構文解析を用いれ
ば、複数の規則の適用結果を効率良く一度に得ることも
可能である。
【0060】規則評価部8は、このようにして作成され
た訓練用記録7を読み出して、各規則の成績を採点す
る。採点の仕方としては様々な基準を用いることができ
るが、不正解になった回数や割合による評価を用いれば
簡単である。しかし、各規則の不正解回数は、厳密に
は、どのような規則と組み合わせて用いるかに依存する
ため、どの規則を採用するか未定のこの時点では、正確
な数字を得られない。そこで、各規則(R)の記録を以
下のように分類して考える。
【0061】 (○)規則Rの元になった固有表現とマッチして得られ
た候補、つまり、他の候補に抑制されなければ必然的に
正解になるもの(正解候補固有表現)。 (△)競合する別の固有表現が正解リスト2に登録され
ており、それに抑制されるもの。つまり、その固有表現
が正解になれば出力が抑制されるので、精度の高い規則
群においては、成績を下げない可能性の高いもの(中間
候補固有表現)。 (×)それ以外のもの、つまり、抑制する正解固有表現
がないため、精度の高い規則群においては、間違った候
補を出力して成績を下げる可能性が高いもの(不正解候
補固有表現)。
【0062】規則評価部8は、各規則に対して「○」、
「△」、「×」の回数を数え、この「×」の回数を不正
解の回数、「○」の回数を正解の回数の代用として採用
する。尚、単純に「△」を全て不正解と考えると、「田
中」のように短い固有表現を抽出する規則が不利になる
ので避けた方が良い。そのため、規則評価部8では、以
下のような方法で不正解回数を数える。
【0063】すなわち、規則評価部8は、訓練用記録7
を前から順に読み、規則Rが訓練用文書1の位置Lで適
用されており、規則Rが付与する固有表現のタイプ(地
名や人名などの区別)がTであり、そのタイプTと位置
Lの対が正解リスト2に正解として含まれておらず、さ
らに、位置Lに重なる位置に正解の固有表現が存在しな
いか、存在しても、その正解に対応する候補より規則R
による候補の方が優先順位において優位であれば、規則
Rの不正解回数を1増やす。これを訓練用記録7の終わ
りに達するまで繰り返す。
【0064】規則評価部8が、各規則の「○」、
「△」、「×」の個数を数えると、この結果を参照し
て、規則削除部9と規則精錬部10が固有表現抽出規則
群5に修正を加える。
【0065】規則削除部9は、固有表現抽出規則群5の
親則の内、例えば、「×」の個数が「○」の個数を超え
る規則を削除する。規則精錬部10は、固有表現抽出規
則群5の規則の内、例えば、成績が「×」の個数が
「○」の個数の半分以上ある規則に、前後の単語などに
関する制約情報を加えて、当該規則の成績がより良くな
るようにする。
【0066】例えば、固有表現の前後2単語ずつを含め
て考えると、上記規則で抽出され、「○」や「×」に評
価されて分類された各固有表現のそれぞれにおいて、
[(w- 2,c-2,p-2),(w-1,c-1,p-1),(w0,c
0,p0),・・・,(wN+1,cN +1,pN+1),(wN+2,c
N+2,pN+2),]という単語リストが各々に考えられ
る。そこで、各固有表現毎に(w-2,c-2,p-2
-1,c-1,p-1,wN+1,cN+ 1,pN+1,wN+2,c
N+2,pN+2)という特徴のリストを考え、「○」に分類
された固有表現の場合を正例、「×」に分類された固有
表現の場合を負例と考えれば、これは典型的な帰納学習
の課題であり、既存の機械学習の手法がそのまま利用で
きる。
【0067】例えば、決定木による学習を用いることに
より、前後の幾つかの単語の内、どの単語のどの性質の
値を残し、他を変数化すべきかが決定できる。具体例と
して、「×」に分類された固有表現が「10」個抽出さ
れ、その内、「8」個の固有表現において、その前の単
語(w-1)として「wX」が特定されれば、以下のように
して元の規則に制約条件{w-1'≠ wX}を加え、前の
単語(w-1)として「wX」を有する固有表現が抽出され
ないように制約する。
【0068】anytag(u) <-- word(w-1',c-1',p
-1'),<@(t+df,k),word(w 0',c0',p0'),
・・・,(wi',ci',pi'),・・・,word(wN',
N',p N'),>@(t−dt),{w-1'≠ wX}.
【0069】こうして得られた規則は、元の規則より制
約が強いので、元の規則がマッチした部分と同じところ
にしかマッチしない。従って、訓練用文書1全体に適用
しなくても、訓練用記録7に残っている元の規則のマッ
チした部分にのみ適用すれば、新しい規則の成績はわか
る。
【0070】このように本例では、規則の改良が、他の
規則とほぼ独立に行なえる。以上によって、元の規則
(固有表現抽出規則群5)から、より成績の良い規則
(改良後固有表現抽出規則群5a)を生成する。
【0071】図3は、本発明に係わる固有表現抽出規則
生成方法の処理手順例を示すフローチャートである。
【0072】本例は、図1における固有表現抽出規則生
成システムにおける形態素解析・品詞文字種付与部3、
規則生成部4、訓練用規則適用部6、規則評価部8の各
処理動作を示すものであり、まず、形態素解析・品詞文
字種付与部3において、訓練用文書1を形態素解析して
単語に分割し(ステップ301)、各単語に品詞と文字
種などの情報を付加する(ステップ302)。
【0073】次に、規則生成部4において、正解リスト
2の固有表現と、その近傍にある単語からなる単語列を
抜き出して(ステップ303)、正解単語列に経験則等
を適用して、抽出規則を生成し(ステップ304)、固
有表現抽出規則群5として記録する。
【0074】そして、訓練用規則適用部6において、こ
のようにして生成した抽出規則を、訓練用文書1に適用
して、その結果得られた固有表現を候補として記録する
(ステップ305)。
【0075】さらに、規則評価装置8において、各抽出
規則で抽出された固有表現の正解度(○、△、×)を求
めて分類し、それに基づき、各抽出規則の適正度を採点
する(ステップ306)。
【0076】その採点の結果、修正不可能な成績の悪い
(適正度の低い)規則群は、規則削除部9において削除
し(ステップ307)、また、修正により適正度が高ま
る規則群には、規則精錬部10において当該修正を加え
て、新規則とし(ステップ308)、改良後固有表現抽
出規則群5aに記録する。ステップ305からの処理を
繰り返すことにより、より成績の良い規則群の生成が可
能となる。
【0077】図4は、図1における固有表現抽出装置の
処理動作例を示すフローチャートである。本例は、図1
に示す固有表現抽出装置における、新規文書11に対す
る処理動作を示すものであり、まず、形態素解析・品詞
文字種付与部3において、新規文書11を形態素解析し
て単語に分割し(ステップ401)、各単語リストに品
詞と文字種などの情報を付加する(ステップ402)。
【0078】次に、実施用規則適用部12において、各
単語リストに、改良後固有表現抽出規則群5aの各抽出
規則を適用して、各固有表現を候補としてリストアップ
し(ステップ403)、全ての候補に対して以下の優先
制御処理を行う(ステップ404)。すなわち、各候補
の中で最優先の候補を出力し(ステップ405)、この
出力された候補と競合する候補を削除する(ステップ4
06)。
【0079】以上、図1〜図4を用いて説明したよう
に、本例の固有表現抽出規則生成システムと方法では、
まず、予め用意された訓練用文書1を形態素解析して単
語に分割し、品詞名や構成文字種などの情報を各単語に
付加し、こうして得られた単語から、固有表現を構成す
る単語列を取り出し、予め訓練用文書1に対応して用意
された正解リスト2を参照して経験則や最小汎化などの
一般化手段によって多数の固有表現抽出規則を生成す
る。
【0080】次に、これらの抽出規則をそれぞれ独立に
訓練用文書1に適用して、その規則が訓練用文書1のど
の位置にマッチしたかの記録を用意しておく。この記録
に入っているものは、訓練用文書1に対してシステムが
出力する固有表現の候補となる。
【0081】そして、複数のルールを組み合わせる場合
には、それらのルールに対応する記録に入っている全て
の候補の中から、競合関係と優先順位を考慮して、最終
的に出力する候補の列を一定の明快な基準で選び出す。
この結果、訓練用文書1における不正解の頻度あるいは
割合が非常に多い規則があれば、それを削除する。ただ
し、その規則が訓練用文書のどの位置で正解し、どの位
置で不正解になっているかがわかる。そこで、正解の箇
所の前後の単語列と、不正解の箇所の前後の単語列を比
較して制約を加えることによって、訓練用文書における
成績が良くなる規則が作れるかどうか判断できるので、
成績が良くなる場合は制約を加えた規則を加える。
【0082】このように、本例によれば、固有表現を含
む訓練用文書と、その文書の中のどの位置にどのような
種類の固有表現が含まれているかを列挙した正解リスト
を与えると、システムがこの正解に基づいて固有表現抽
出規則を生成するので、人間が多大な労力を払って抽出
規則を書き下す必要がなくなる。
【0083】さらに、予め用意された訓練用文書1に対
して出力される個々の規則の評価を求め、次に、複数の
規則を種々に組み合わせた場合の各評価値を、個々の規
則の評価値から簡単に計算できる。これによって、良い
成績が得られる規則の組み合わせを求める際の試行錯誤
に要する処理時間を短縮することができる。また、この
ような固有表現抽出規則の改良が、他の規則とほぼ独立
して行なえるため、精度を向上させることが容易にな
る。
【0084】また、本例の固有表現抽出装置では、訓練
用文書と正解リストに基づいて生成され、かつ、改良さ
れた規則を新規文書11に適用して、この新規文書11
から固有表現を自動的に抽出すると共に、抽出した複数
の固有表現に部分的な重なりがあれば、文書における記
載開始位置が早いものを優先して抽出し、また、記載開
始位置が同じであれば記載終了位置が遅いものを優先し
て抽出し、さらに、表現は同じであるが種類の異なる固
有表現があれば、各固有表現の抽出に用いた各々の規則
に予め付与された優先度の大きいものを優先して抽出す
るので、適切な固有表現のみに限定された抽出が可能で
ある
【0085】尚、本発明は、図1〜図4を用いて説明し
た例に限定されるものではなく、その要旨を逸脱しない
範囲において種々変更可能である。例えば、本例では、
規則に制約を付加する際、候補固有表現の訓練用文書に
おける前後の単語に基づき制約を設けているが、当該単
語の文字種(漢字、カタカナ、・・・)や品詞(名詞、
動詞、・・・)等に関して制約を設けることでも良い。
【0086】また、本例では、光ディスク25を記録媒
体として用いているが、FDを記録媒体として用いるこ
とでも良い。また、プログラムのインストールに関して
も、通信装置27を介してネットワーク経由でプログラ
ムをダウンロードしてインストールすることでも良い。
【0087】
【発明の効果】本発明によれば、予め用意された訓練用
文書と、その文書の中のどの位置にどのような種類の固
有表現が含まれているかを列挙した正解リストとに基づ
き、固有表現を抽出するための規則を自動生成するの
で、人間が多大な労力を払って抽出規則を書き下す必要
がなくなり、さらに、自動生成した規則を訓練用文書に
適用してその結果と正解リストとを比較し、各規則毎の
適正度を求め、この各規則毎の適正度に基づき、各規則
を組み合わせた場合の適正度を求めることができるの
で、固有表現抽出規則の改良が、他の規則とほぼ独立し
て行なることができ、精度を向上させることが容易にな
り、高性能な固有表現抽出装置を容易に実現することが
可能である。
【図面の簡単な説明】
【図1】本発明に係る固有表現抽出規則生成システムお
よびそれを設けた固有表現抽出装置の構成例を示すブロ
ック図である。
【図2】図1における固有表現抽出規則生成システムお
よび固有表現抽出装置のハードウェア構成例を示すブロ
ック図である。
【図3】本発明に係わる固有表現抽出規則生成方法の処
理手順例を示すフローチャートである。
【図4】図1における固有表現抽出装置の処理動作例を
示すフローチャートである。
【符号の説明】
1:訓練用文書、2:正解リスト、3:形態素解析・品
詞文字種付与部、4:規制生成部、5:固有表現抽出規
則群、5a:改良後固有表現抽出規則群、6:訓練用規
則適用部、7:訓練用記録、8:規則評価部、9:規則
削除部、10:規則精錬部、11:新規文書、12:実
施用規則適用部、13:抽出された固有表現のリスト、
21:表示装置、22:入力装置、23:外部記憶装
置、24:情報処理装置、24a:CPU、24b:主
メモリ、25:光ディスク、26:駆動装置、27:通
信装置。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 文書から固有表現を抽出するのに用いる
    規則を、予め記憶装置に記録された訓練用文書と、該訓
    練用文書の中のどの位置にどのような種類の固有表現が
    抽出されるべき固有表現(正解固有表現)として含まれ
    ているかを列挙した正解リストとに基づきコンピュータ
    処理して生成する固有表現抽出規則生成システムであっ
    て、上記訓練用文書を上記記憶装置から読み出して単語
    分割し、各単語に品詞名と構成文字種を付加して、上記
    訓練用文書に含まれる固有表現を構成する単語列情報を
    生成して上記記憶装置に記録する品詞文字種付与手段
    と、上記正解リストの各正解固有表現を上記記憶装置か
    ら読み出して上記品詞文字種付与手段で生成された各単
    語列情報と比較し、当該正解固有表現を抽出するための
    規則を生成して上記記憶装置に記録する規則生成手段
    と、上記記憶装置から上記訓練用文書と上記規則とを読
    み出して各規則を上記訓練用文書に適用し、対応する固
    有表現(候補固有表現)を抽出して上記記憶装置に記録
    する訓練用規則適用手段と、上記記憶装置から上記候補
    固有表現と上記正解リストの正解固有表現とを読み出し
    て比較し、予め定められた算出手順に基づき、各候補固
    有表現の抽出に用いた各規則の適正度を算出する規則評
    価手段と、該規則評価手段で算出した適正度が予め定め
    られた適正度より低い規則を上記記憶装置から削除する
    規則削除手段と、上記規則評価手段で算出した適正度が
    予め定められた適正度範囲の規則を、当該適正度が高く
    なるように修正して上記記憶装置に記録する規則精錬手
    段とを有することを特徴とする固有表現抽出規則生成シ
    ステム。
  2. 【請求項2】 請求項1に記載の固有表現抽出規則生成
    システムにおいて、上記規則生成手段は、上記記憶装置
    から読み出した単語列情報に含まれる単語が、数字か固
    有名詞の場合もしくは当該単語列情報の末尾の単語か記
    号・単漢字・接尾語・接頭語・助詞を含む機能語のいず
    れでもない場合には該単語を変数化して、変数を含む単
    語列情報を求め、該変数を含む単語列情報と、上記記憶
    装置から読み出した上記正解リストとに基づき上記規則
    を生成する手段を有することを特徴とする固有表現抽出
    規則生成システム。
  3. 【請求項3】 文書から固有表現を抽出するのに用いる
    規則を、予め記憶装置に記録された訓練用文書と該訓練
    用文書の中のどの位置にどのような種類の固有表現が抽
    出されるべき固有表現(正解固有表現)として含まれて
    いるかを列挙した正解リストとに基づきコンピュータ処
    理して生成する固有表現抽出規則生成システムであっ
    て、上記訓練用文書を上記記憶装置から読み出して単語
    分割し、各単語に品詞名と構成文字種情報を付加して、
    上記訓練用文書に含まれる固有表現を構成する単語列情
    報を生成して上記記憶装置に記録する品詞文字種付与手
    段と、上記単語列情報を上記記憶装置から読み出し、該
    読み出した単語列情報に含まれる単語が数字か固有名詞
    の場合もしくは当該単語列情報の末尾の単語か記号・単
    漢字・接尾語・接頭語・助詞を含む機能語のいずれでも
    ない場合には該単語を変数化して、変数を含む単語列情
    報を求め、該変数を含む単語列情報と、上記記憶装置か
    ら読み出した上記正解リストとに基づき上記規則を生成
    する規則生成手段とを有することを特徴とする固有表現
    抽出規則生成システム。
  4. 【請求項4】 請求項1から請求項3のいずれかに記載
    の固有表現抽出規則生成システムにおいて、上記規則生
    成手段は、生成した規則に、該規則の生成に用いた上記
    固有表現が上記正解リスト中に現れるのべ回数を、該規
    則の優先度として付与する手段を有することを特徴とす
    る固有表現抽出規則生成システム。
  5. 【請求項5】 請求項1から請求項4のいずれかに記載
    の固有表現抽出規則生成システムを具備し、該固有表現
    抽出規則生成システムにより生成された規則に基づきコ
    ンピュータ処理して任意の文書に含まれる固有表現を抽
    出する固有表現抽出装置であって、抽出した複数の候補
    固有表現に部分的な重なりがあれば、各候補固有表現の
    上記任意の文書における記載開始位置が早いものを優先
    して抽出し、上記記載開始位置が同じであれば記載終了
    位置が遅いものを優先して抽出する手段と、抽出した複
    数の候補固有表現が同じであれば、各候補固有表現の抽
    出に用いた各々の上記規則に予め付与された優先度の大
    きいものを優先して抽出する手段とを有することを特徴
    とする固有表現抽出装置。
  6. 【請求項6】 文書から固有表現を抽出するのに用いる
    規則を、予め記憶装置に記録された訓練用文書と、該訓
    練用文書の中のどの位置にどのような種類の固有表現が
    抽出されるべき固有表現(正解固有表現)として含まれ
    ているかを列挙した正解リストとに基づきコンピュータ
    処理して生成するシステムの固有表現抽出規則生成方法
    であって、上記訓練用文書を上記記憶装置から読み出し
    て単語分割する第1のステップと、分割した各単語に品
    詞名と構成文字種を付加して、上記訓練用文書に含まれ
    る固有表現を構成する単語列情報を生成する第2のステ
    ップと、上記正解リストの各正解固有表現を上記記憶装
    置から読み出して上記第2のステップで生成された各単
    語列情報と比較し、当該正解固有表現を抽出するための
    規則を生成して上記記憶装置に記録する第3のステップ
    と、上記記憶装置から上記訓練用文書と上記規則とを読
    み出して各規則を上記訓練用文書に適用し、対応する固
    有表現(候補固有表現)を抽出して上記記憶装置に記録
    する第4のステップと、上記記憶装置から上記候補固有
    表現と上記正解リストの正解固有表現とを読み出して比
    較し、予め定められた算出手順に基づき、各候補固有表
    現の抽出に用いた各規則の適正度を算出する第5のステ
    ップと、該第5のステップで算出した適正度が予め定め
    られた適正度より低い規則を上記記憶装置から削除する
    第6のステップと、上記第5のステップで算出した適正
    度が予め定められた適正度範囲の規則を、当該適正度が
    高くなるように修正して上記記憶装置に記録する第7の
    ステップとを有することを特徴とする固有表現抽出規則
    生成方法。
  7. 【請求項7】 請求項6に記載の固有表現抽出規則生成
    方法において、上記第3のステップは、上記記憶装置か
    ら読み出した単語列情報に含まれる単語が、数字か固有
    名詞の場合もしくは当該単語列情報の末尾の単語か記号
    ・単漢字・接尾語・接頭語・助詞を含む機能語のいずれ
    でもない場合には該単語を変数化して、変数を含む単語
    列情報を求めるステップと、該変数を含む単語列情報
    と、上記記憶装置から読み出した上記正解リストとに基
    づき上記規則を生成するステップとを有することを特徴
    とする固有表現抽出規則生成方法。
  8. 【請求項8】 請求項6、もしくは、請求項7のいずれ
    かに記載の固有表現抽出規則生成方法において、上記第
    4のステップは、上記候補固有表現に、該候補固有表現
    の上記訓練用文書における記載位置情報および該固有表
    現の抽出に用いた規則の識別情報を付与して上記記憶装
    置に記録するステップを有し、上記第5のステップは、
    上記記憶装置から上記候補固有表現と上記正解リストを
    読み出して比較し、上記正解リストにある候補固有表現
    (正解候補固有表現)と、上記正解リストにないが該正
    解リストにある他の正解固有表現により出力が抑制され
    る候補固有表現(中間候補固有表現)、および、上記正
    解リストになく且つ該正解リストにある他の正解固有表
    現によっても出力が抑制されない候補固有表現(不正解
    候補固有表現)に分類するステップと、各候補固有表現
    の抽出に用いた各規則毎に、該規則により抽出された上
    記正解候補固有表現の数と上記不正解候補固有表現の数
    を計数するステップとを有し、上記第6のステップで
    は、上記正解候補固有表現の数に対する上記不正解候補
    固有表現の数が予め定められた基準T1以上の規則を上
    記第4のステップで生成した規則群から削除し、上記第
    7のステップでは、上記正解候補固有表現の数に対する
    上記不正解候補固有表現の数が予め定められた基準T2
    以下の規則を、上記不正解候補固有表現の数が減少する
    よう修正することを特徴とする固有表現抽出規則生成方
    法。
  9. 【請求項9】 請求項6から請求項8のいずれかに記載
    の固有表現抽出規則生成方法において、上記第5のステ
    ップでは、上記記憶装置から同じ規則で抽出された複数
    の候補固有表現を読み出して、上記正解固有表現に一致
    する候補固有表現(正解候補固有表現)と一致しない候
    補固有表現(不正解候補固有表現)および上記正解固有
    表現に一致しないが他の上記正解候補固有表現により出
    力が抑制される候補固有表現(中間候補固有表現)に分
    け、上記正解候補固有表現と上記不正解候補固有表現の
    それぞれの数に基づき上記適正度を算出し、上記第7の
    ステップでは、上記適正度が予め定められた適正度範囲
    の規則(元の規則)を上記訓練用文書に適用して抽出さ
    れた各候補固有表現のそれぞれの上記訓練用文書におけ
    る前後の単語や該単語の文字種や品詞を求め、該前後の
    単語や該単語の文字種や品詞に基づき、上記各候補固有
    表現に含まれる上記不正解固有固有表現を抽出させない
    制約条件を生成して上記元の規則に加えることを特徴と
    する固有表現抽出規則生成方法。
  10. 【請求項10】 文書から固有表現を抽出するのに用い
    る規則を、予め記憶装置に記録された訓練用文書と、該
    訓練用文書の中のどの位置にどのような種類の固有表現
    が抽出されるべき固有表現(正解固有表現)として含ま
    れているかを列挙した正解リストとに基づきコンピュー
    タ処理して生成するシステムの固有表現抽出規則生成方
    法であって、上記訓練用文書を上記記憶装置から読み出
    して単語分割する第1のステップと、各単語に品詞名と
    構成文字種情報を付加して、上記訓練用文書に含まれる
    固有表現を構成する単語列情報を生成して上記記憶装置
    に記録する第2のステップと、上記記憶装置から読み出
    した単語列情報に含まれる単語が、数字か固有名詞の場
    合もしくは当該単語列情報の末尾の単語か記号・単漢字
    ・接尾語・接頭語・助詞を含む機能語のいずれでもない
    場合には該単語を変数化して、変数を含む単語列情報を
    求め、該変数を含む単語列情報と、上記記憶装置から読
    み出した上記正解リストとに基づき上記規則を生成する
    第3のステップとを有することを特徴とする固有表現抽
    出規則生成方法。
  11. 【請求項11】 請求項6から請求項10のいずれかに
    記載の固有表現抽出規則生成方法において、上記第3の
    ステップは、生成した規則に、該規則の生成に用いた上
    記固有表現が上記正解リスト中に現れるのべ回数を、該
    規則の優先度として付与するステップを有することを特
    徴とする固有表現抽出規則生成方法。
  12. 【請求項12】 文書から固有表現を抽出するのに用い
    る規則を、予め記憶装置に記録された訓練用文書と、該
    訓練用文書の中のどの位置にどのような種類の固有表現
    が抽出されるべき固有表現(正解固有表現)として含ま
    れているかを列挙した正解リストとに基づきコンピュー
    タ処理して生成する方法の処理手順を既述したプログラ
    ムをコンピュータに読取り可能に記録する記録媒体であ
    って、請求項6から請求項11のいずれかに記載の固有
    表現抽出規則生成方法における各ステップを、上記コン
    ピュータに実行させるための処理プログラムを記録した
    ことを特徴とする記録媒体。
JP2000137545A 2000-05-10 2000-05-10 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置 Pending JP2001318792A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000137545A JP2001318792A (ja) 2000-05-10 2000-05-10 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000137545A JP2001318792A (ja) 2000-05-10 2000-05-10 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置

Publications (1)

Publication Number Publication Date
JP2001318792A true JP2001318792A (ja) 2001-11-16

Family

ID=18645303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000137545A Pending JP2001318792A (ja) 2000-05-10 2000-05-10 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置

Country Status (1)

Country Link
JP (1) JP2001318792A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005010727A2 (en) * 2003-07-23 2005-02-03 Praedea Solutions, Inc. Extracting data from semi-structured text documents
JP2006031010A (ja) * 2004-07-15 2006-02-02 Robert Bosch Gmbh 固有名称又は部分的な固有名称の認識を提供する方法及び装置
WO2006134759A1 (ja) * 2005-06-15 2006-12-21 Waseda University 文章評価装置及び文章評価プログラム
JP2007087400A (ja) * 2005-09-23 2007-04-05 Xerox Corp 規則帰納システムのためのxmlベースのアーキテクチャ
JP2007323211A (ja) * 2006-05-30 2007-12-13 Fuji Xerox Co Ltd 専門用語抽出ルール取得システム、専門用語抽出ルール取得処理方法及び専門用語抽出ルール取得プログラム
JP2008152774A (ja) * 2005-06-15 2008-07-03 Matsushita Electric Ind Co Ltd 固有表現抽出装置、方法、及びプログラム
WO2009081861A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2010262332A (ja) * 2009-04-30 2010-11-18 Nec Corp 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP2012238100A (ja) * 2011-05-10 2012-12-06 Nippon Telegr & Teleph Corp <Ntt> 地名表現判定装置、方法、及びプログラム
US8380650B2 (en) 2007-01-29 2013-02-19 Nec Corporation Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program
JP2014137722A (ja) * 2013-01-17 2014-07-28 Kddi Corp 規則生成装置及び抽出装置
JP2016033701A (ja) * 2014-07-31 2016-03-10 日本電気株式会社 コミュニケーション処理装置、コミュニケーション処理システム、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2017188083A (ja) * 2016-02-16 2017-10-12 タレリス・グローバル・エルエルピーTaleris Global LLP 複数のデータストリームの相互関係
CN112800760A (zh) * 2019-11-14 2021-05-14 云拓科技有限公司 权利要求书的元件名词及元件名词所属位置自动得出设备

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005010727A3 (en) * 2003-07-23 2005-06-09 Praedea Solutions Inc Extracting data from semi-structured text documents
WO2005010727A2 (en) * 2003-07-23 2005-02-03 Praedea Solutions, Inc. Extracting data from semi-structured text documents
JP2006031010A (ja) * 2004-07-15 2006-02-02 Robert Bosch Gmbh 固有名称又は部分的な固有名称の認識を提供する方法及び装置
JP2008152774A (ja) * 2005-06-15 2008-07-03 Matsushita Electric Ind Co Ltd 固有表現抽出装置、方法、及びプログラム
WO2006134759A1 (ja) * 2005-06-15 2006-12-21 Waseda University 文章評価装置及び文章評価プログラム
KR100932141B1 (ko) 2005-06-15 2009-12-16 각코호진 와세다다이가쿠 문장 평가 장치 및 문장 평가 프로그램
JP2007087400A (ja) * 2005-09-23 2007-04-05 Xerox Corp 規則帰納システムのためのxmlベースのアーキテクチャ
JP2007323211A (ja) * 2006-05-30 2007-12-13 Fuji Xerox Co Ltd 専門用語抽出ルール取得システム、専門用語抽出ルール取得処理方法及び専門用語抽出ルール取得プログラム
US8380650B2 (en) 2007-01-29 2013-02-19 Nec Corporation Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program
WO2009081861A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US8583436B2 (en) 2007-12-21 2013-11-12 Nec Corporation Word category estimation apparatus, word category estimation method, speech recognition apparatus, speech recognition method, program, and recording medium
JP5440177B2 (ja) * 2007-12-21 2014-03-12 日本電気株式会社 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2010262332A (ja) * 2009-04-30 2010-11-18 Nec Corp 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP2012238100A (ja) * 2011-05-10 2012-12-06 Nippon Telegr & Teleph Corp <Ntt> 地名表現判定装置、方法、及びプログラム
JP2014137722A (ja) * 2013-01-17 2014-07-28 Kddi Corp 規則生成装置及び抽出装置
JP2016033701A (ja) * 2014-07-31 2016-03-10 日本電気株式会社 コミュニケーション処理装置、コミュニケーション処理システム、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2017188083A (ja) * 2016-02-16 2017-10-12 タレリス・グローバル・エルエルピーTaleris Global LLP 複数のデータストリームの相互関係
CN112800760A (zh) * 2019-11-14 2021-05-14 云拓科技有限公司 权利要求书的元件名词及元件名词所属位置自动得出设备

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US8364470B2 (en) Text analysis method for finding acronyms
CN1871597B (zh) 利用一套消歧技术处理文本的系统和方法
JP4491187B2 (ja) 単語間の翻訳関係を計算する方法
JP5716328B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
Fernández-Mota et al. Bh2m: The barcelona historical, handwritten marriages database
US20120304056A1 (en) Automatic Detection and Application of Editing Patterns in Draft Documents
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
WO1999062000A2 (en) Spelling and grammar checking system
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JPH08305730A (ja) 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
JP2001318792A (ja) 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
US7046847B2 (en) Document processing method, system and medium
JP2004513458A (ja) ユーザが変更可能な翻訳のウエイト
JPH09198409A (ja) 酷似文書抽出方法
JP3743678B2 (ja) 自動自然言語翻訳
KR101086550B1 (ko) 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법
JP3787310B2 (ja) キーワード決定方法、装置、プログラム、および記録媒体
WO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
CN112732885A (zh) 用于问答系统的答案扩展方法、装置及电子设备
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
US20070280537A1 (en) Balancing out-of-dictionary and in-dictionary recognition scores
JP3743711B2 (ja) 自動自然言語翻訳システム