JP2001318792A

JP2001318792A - 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置

Info

Publication number: JP2001318792A
Application number: JP2000137545A
Authority: JP
Inventors: Hideki Isozaki; 秀樹磯▲崎▼
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2000-05-10
Filing date: 2000-05-10
Publication date: 2001-11-16

Abstract

(57)【要約】【課題】従来の技術では、高精度な固有表現抽出規則
の生成を容易に短時間で行うこと、および、膨大な文書
から所望の固有表現を正確に抽出することができない。【解決手段】まず、形態素解析・品詞文字種付与部３
により、予め用意された訓練用文書１から各単語を抽出
し、次に、規則生成部４により、各単語と訓練用文書１
に対応して予め用意された正解リスト２とに基づき固有
表現抽出用の規則（ルール）を生成する。そして、訓練
用規則適用部６により、これらの規則をそれぞれ独立に
訓練用文書１に適用して、各規則毎の固有表現抽出結果
を求め、規則評価部８により、その適用結果で得られた
固有表現と正解リストとを比較して、各規則の適正度を
比較し、その結果に基づき、規則削除部９と規則精錬部
１０により、適宜、規則の削除と修正を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータを用
いて、文書に含まれる固有表現を抽出する技術に係わ
り、特に、固有表現を抽出するために用いる規則を効率
的に生成するのに好適な固有表現抽出規則生成システム
と方法およびその処理プログラムを記録した記録媒体な
らびに固有表現抽出装置に関するものである。

【０００２】

【従来の技術】膨大な量の文書に含まれる情報について
の質問に答えたり、文書を要約したり、データべース化
したり、視覚化したりするためには、その文書から、人
名や地名や組織名や日時などの固有表現を抽出する必要
がある。この場合、コンピュータを利用して、予め各固
有表現を登録した辞書を用意しておき、この辞書を検索
することにより、文書からの固有表現の抽出を行うこと
ができる。

【０００３】しかし、実際の文書には、予め用意した辞
書に含まれない新しい言葉が必ず存在するので、辞書の
検索だけでは、正確な抽出結果は得られない。このよう
な問題に対処するために、固有表現そのものと、その前
後に含まれる単語の並びの出現パターンを規則化して得
た多数の規則を予め人手により作成し、その規則に基づ
きコンピュータ処理して、対象の文書から、固有表現を
抽出するという技術がある。

【０００４】しかし、この技術では、規則同士が競合し
たり相互作用したりするため、それぞれの規則が意図し
たとおりに動くとは限らないので、作成された規則を、
予め用意された訓練データに適用して、その結果に基づ
き、間違ったところを見つけ出して、規則を修正すると
いう作業を何度も繰り返さなければならない。

【０００５】ところが、ある規則を修正した結果、それ
まで正常に動いていた規則が影響を受けて、間違った答
を出すようになることが少なくない。そのため、多数の
規則の全てを意図したとおりに動くようにするために
は、膨大な時間と労力を要する。

【０００６】このような固有表現を抽出する規則をコン
ピュータを用いて自動的に生成する技術においても、規
則の間の競合や相互作用のため、自動生成された規則同
士をどのように組み合わせれば良い成績が得られるか
は、組み合わせた規則（ルール）を再度、実際の文書に
適用して、その結果を正解と比較して採点し、その結果
に基づき、より良い成績が得られるように規則を追加し
たり削除したりする試行錯誤を繰り返すしかなく、多大
な計算時間が必要である。

【０００７】

【発明が解決しようとする課題】解決しようとする問題
点は、従来の技術では、文書に含まれる固有表現を高い
精度で抽出するための規則を生成できない点と、より良
い規則（固有表現抽出規則）を生成するためには、各規
則の組合せを修正する度に、実際の文書に適用し、その
結果を正解と比較して採点し、各規則の組合せの試行錯
誤を行うので、多大な計算時間が必要となってしまう点
である。

【０００８】本発明の目的は、これら従来技術の課題を
解決し、高精度な固有表現抽出規則の生成を容易に短時
間で行うことを可能とし、膨大な文書から所望の固有表
現を正確に抽出することを可能となる固有表現抽出規則
生成システムと方法およびその処理プログラムを記録し
た記録媒体ならびに固有表現抽出装置を提供することで
ある。

【０００９】

【課題を解決するための手段】上記目的を達成するた
め、本発明の固有表現抽出規則生成システムと方法で
は、まず、予め用意された訓練用文書を形態素解析して
単語に分割し、品詞名や構成文字種などの情報を各単語
に付加する。こうして得られた単語列から、固有表現を
構成する単語列を取り出し、訓練用文書に対応して予め
用意された正解リストを参照して経験則や最小汎化など
の一般化手段によって多数の固有表現抽出用の規則（ル
ール）を生成する。そして、これらの規則をそれぞれ独
立に訓練用文書に適用して、その規則が、訓練用文書の
どの位置にマッチしたかの記録を記憶しておく。この記
録に入っているものは、訓練用文書に対してシステムが
出力する固有表現の候補となる。そして、複数の規則を
組み合わせる場合には、それらの規則に対応する記録に
入っている全ての候補の中から、競合関係と優先順位を
考慮して、最終的に出力する候補の列を一定の明快な基
準で選び出す。この結果、訓練用文書における不正解の
頻度あるいは割合が非常に多い規則があれば、それを削
除する。ただし、その規則が訓練用文書のどの位置で正
解し、どの位置で不正解になっているかがわかる。そこ
で、正解の箇所の前後の単語列と、不正解の箇所の前後
の単語列を比較して制約を加えることによって、訓練用
文書における成績が良くなる規則が作れるかどうか判断
できるので、成績が良くなる場合は制約を加えた規則を
加える。

【００１０】さらに、本発明の固有表現抽出装置では、
上述の固有表現抽出規則生成システムを具備し、この固
有表現抽出規則生成システムで生成された規則に基づき
任意の文書中の固有表現を抽出すると共に、抽出した複
数の固有表現に部分的な重なりがあれば、文書における
記載開始位置が早いものを優先して抽出し、また、記載
開始位置が同じであれば記載終了位置が遅いものを優先
して抽出し、さらに、表現は同じであるが種類の異なる
固有表現があれば、各固有表現の抽出に用いた各々の規
則に予め付与された優先度の大きいものを優先して抽出
する。

【００１１】

【発明の実施の形態】以下、本発明の実施の形態を、図
面により詳細に説明する。

【００１２】図１は、本発明に係る固有表現抽出規則生
成システムおよびそれを設けた固有表現抽出装置の構成
例を示すブロック図であり、図２は、図１における固有
表現抽出規則生成システムおよび固有表現抽出装置のハ
ードウェア構成例を示すブロック図である。

【００１３】図２において、２１はＣＲＴ（Cathode Ra
y Tube）やＬＣＤ(Liquid CrystalDisplay)等からなる
表示装置、２２はキーボードやマウス等からなる入力装
置、２３はＨＤＤ（Hard Disk Drive）等からなる外部
記憶装置、２４はＣＰＵ（Central Processing Unit）
２４ａや主メモリ２４ｂ等を具備して蓄積プログラム方
式によるコンピュータ処理を行なう情報処理装置、２５
は本発明に係わるプログラムやデータを記録したＣＤ−
ＲＯＭ（Compact Disc-Read Only Memory）もしくはＤ
ＶＤ（Digital Video Disc/Digital Versatile Disc）
等からなる光ディスク、２６は光ディスク２５に記録さ
れたプログラムおよびデータを読み出すための駆動装
置、２７はＬＡＮ（Local Area Network）カードやモデ
ム等からなる通信装置である。

【００１４】光ディスク２５に格納されたプログラムお
よびデータを情報処理装置２４により駆動装置２６を介
して外部記憶装置２３内にインストールした後、外部記
憶装置２３から主メモリ２４ｂに読み込みＣＰＵ２４ａ
で処理することにより、情報処理装置２４内に図１に示
す固有表現抽出規則生成システムおよびそれを具備した
固有表現抽出装置が構成される。

【００１５】図１の固有表現抽出装置においては、訓練
用文書１と、正解リスト２、固有表現抽出規則群５、改
良後固有表現抽出規則群５ａ、訓練用記録７、新規文書
１１、および、抽出された固有表現のリスト１３のそれ
ぞれは、図２における外部記憶装置２３もしくは主メモ
リ２４ｂ等に格納され、また、形態素解析・品詞文字種
付与部３と、規制生成部４、訓練用規則適用部６、規則
評価部８、規則削除部９、規則精錬部１０、実施用規則
適用部１２のそれぞれは、図２におけるＣＤ−ＲＯＭ２
５に格納されたプログラムに基づき情報処理装置２４内
に構成される。

【００１６】そして、形態素解析・品詞文字種付与部３
と、規制生成部４、訓練用規則適用部６、規則評価部
８、規則削除部９、規則精錬部１０のそれぞれが本発明
に係わる固有表現抽出規則生成システムを構成してい
る。

【００１７】形態素解析・品詞文字種付与部３は、訓練
用文書１を単語分割して、各単語にその品詞名や構成文
字種の情報を付加する。

【００１８】規則生成部４は、形態素解析・品詞文字種
付与部３の処理で得られる単語列を正解リスト２で与え
られる抽出すべき固有表現のデータと突き合わせて、各
固有表現を構成する単語列を取り出し、これを一般化し
て規則を生成する。その結果が固有表現抽出規則群５と
して図２における外部記憶装置２３に記録される。

【００１９】訓練用規則適用部６は、規則生成部４の生
成結果で得られる固有表現抽出規則群５を訓練用文書１
に適用する。その結果は訓練用記録７として図２におけ
る外部記憶装置２３に記録される。

【００２０】規則評価部８は、訓練用記録７に基づいて
各規則を評価する。規則削除部９は、規則評価部８の評
価結果に基づいて、成績の悪い規則を削除する。規則精
錬部１０は、成績が良くなるように規則を精錬する。

【００２１】実施用規則適用部１２は、このようにして
改良された固有表現抽出規則群５（改良後固有表現抽出
規則群５ａ）を、実際の新規文書１１に適用して固有表
現リスト１３を得る。

【００２２】訓練用規則適用部６と実施用規則適用部１
２はいずれも、規則群を文書に適用して固有表現を抽出
するものであり、その処理内容はほぼ同じであるため、
単一の装置で両者を兼ねることも可能である。ただし、
実施用規則適用部１２は、訓練用記録７を残す必要がな
いが、最終的な候補の選択を行なう必要がある点が異な
る。

【００２３】まず、実施用規則適用部１２の動作、すな
わち、本例の固有表現抽出規則生成システムで生成・改
良された固有表現抽出規則群５、改良後固有表現抽出規
則群５ａを用いた固有表現抽出装置としての動作を説明
する。

【００２４】実施用規則適用部１２は、固有表現を抽出
したい新規文書１１に対して、改良後固有表現抽出規則
群５ａを適用して、文書中に含まれる固有表現を抽出し
て固有表現リスト１３を出力する。

【００２５】例えば、「田中太郎賞選考委員会では、・
・・」という新規文書１１があるとすると、この文書中
の固有表現として、「田中」、「太郎」、「田中太郎」
という人名の候補と、「田中太郎賞」という人工物名の
候補、さらに、「田中太郎賞選考委員会」という組織名
の候補が考えられるが、一般には、その内で一番長い
「田中太郎賞選考委員会」だけが固有表現として抽出さ
れ出力されることが望まれる場合が多く、この場合、こ
れと重なっている「田中」や「太郎」などの他の候補
（固有表現）は出力されるべきでない。

【００２６】このような侯補間の関係は、重なりに起因
する競合関係と、各候補の優先順位による抑制関係に還
元することができる。つまり、「田中太郎賞選考委員
会」は「田中」などの他の候補と重なっているがために
競合し、長い「田中太郎賞選考委員会」の優先順位が高
く、短い他の候補を抑制していると考えることができ
る。

【００２７】本例においては、実施用規則適用部１２
は、この考え方に基づき、まず、全ての規則を文書に適
用することで、全ての固有表現の候補の集合(「田中」
や「太郎」、「田中太郎」、「田中太郎賞」、「田中太
郎賞選考委員会」などを含む)を求める。次に、これら
の候補の中で同じ固有表現（上の各候補においては「田
中」）が最初に現れるものの内で一番長いもの(上の各
候補においては「田中太郎賞選考委員会」)を出力す
る。

【００２８】このようにして一つの候補が出力される
と、この候補と競合している他の全ての候補（「田
中」、「田中太郎」、「田中太郎賞」）を候補の集合か
ら削除する。候補の集合が空になるまで、この作業を繰
り返すことにより、固有表現のリスト１３が得られる。

【００２９】ただし、このように長さだけに着目して、
各々競合する各候補からの選択の判断を行うだけでは、
同じ長さの複数の候補がある場合に判断に困る。例えば
「ホワイトハウス」は、地名と考えられる場合と組織名
と考えられる場合があるので、同じ「ホワイトハウス」
という文字列を地名とする候補と、組織名とする候補と
が考えられる。

【００３０】そこで、この２つの候補の間に、抽出する
ための優先順位を設ける。例えば、その前後の単語を考
慮して、「ホワイトハウスの近くの公園で・・・」であ
れば地名の可能性が高く、「ホワイトハウスによれば・
・・」であれば、組織名の可能性が高い。また、例え
ば、その出現頻度を考慮して、訓練用文書１に「ホワイ
トハウス」が地名として出現しているのが１回で、組織
名として出現しているのが２０回とすれば、組織名と判
断した方が正解する可能性が高い。

【００３１】本例では、改良後固有表現抽出規則群５ａ
における各規則には、これらの条件を加味した優先度が
付与されている。

【００３２】実施用規則適用部１２は、このような優先
度と、前述の固有表現の長さとを組み合わせて、各候補
の優先順位を計算する。この優先順位の設定としてはさ
まざまな変種が考えられるが、上記のように、開始位置
が一番早いものの中で、さらに終了位置が一番遅いもの
の内、優先度が一番高いものを選ぶのが明快である。つ
まり、候補の優先関係については、以下のような定義を
基本とする。

【００３３】候補Ａの開始位置が候補Ｂの開始位置よ
り早い(数字として小さい)ならば、候補Ａの方が優先さ
れる。候補Ａの開始位置と候補Ｂの開始位置が同じであれ
ば、終了位置が遅い(数字として大きい)候補が優先され
る。両候補の開始位置と終了位置が全く同じであれば、予
め規則で与えられた優先度ｕの大きい候補が優先され
る。

【００３４】本例の固有表現抽出規則生成システムで
は、このような実施用規則適用部１２による処理を容易
とする固有表現抽出規則群５および改良後固有表現抽出
規則群５ａを生成する。以下、このような優先関係を加
味した規則の生成処理に係わる固有表現抽出規則生成シ
ステムを構成する各部の動作について説明する。

【００３５】まず、形態素解析・品詞文字種付与部３に
おいて、文書を単語列に分割する。典型的には形態素解
析機能を有し、訓練用文書１や新規文書１１などの与え
られた文書を単語分割して、各単語に品詞名とその単語
を構成する文字の種類（構成文字種情報）を付与したデ
ータ構造を作り、そのリストを作成する。

【００３６】例えば、「東京製鉄の中野社長は・・・」
という文があると、形態素解析により「東京」は固有名
詞、「製鉄」は普通名詞、「の」は助詞、「中野」は固
有名詞、「社長」は普通名詞、「は」は助詞、という結
果が得られる。

【００３７】また、「東京」は複数の漢字で構成されて
おり、「の」はひらがなである。従って、形態素解析・
品詞文字種付与部３は、この文に対して、例えば以下の
ようなデータ構造からなるリストを出力する。［(東
京，複数漢字，固有名詞)、(製鉄，複数漢字，普通名
詞)、(の，ひらがな，助詞)、・・・］

【００３８】一方、正解リスト２は、訓練用文書１の中
のどの位置にどのような種類の固有表現が含まれている
かを列挙したものであり、「東京製鉄の中野社長は・・
・」という訓練用文書１に対応して予め用意される正解
リスト２は、例えば、次のようなデータからなる。

【００３９】

【００４０】このリストにおいて、最初の行は、この文
書の「０文字目から３文字目の位置」が「東京製鉄」と
いう「組織名」をその種類とする固有表現であり、次の
行は「５文字目から６文字目の位置」が「中野」という
「人名」をその種類とする固有表現であることを示して
いる。このように、本例の正解リスト２においては、各
固有表現の開始位置と終了位置を示す数字の対で、当該
固有表現の位置を略称する。

【００４１】規則生成部４は、このような正解リスト２
と、形態素解析・品詞文字種付与部３の出力する単語列
とを突き合わせて、固有表現を変数化等して、例えば、
次のような固有表現の抽出規則を生成する。

【００４２】anytag(３) <-- <＠(組織名，２１)，wo
rd(_，複数漢字，固有名詞)，word(製鉄，複数漢字，普
通名詞)，>＠(組織名)．

【００４３】この規則（ルール）は、番号「２１」が付
与された規則であり、任意の（変数化された）漢字の固
有名詞があり（「word(_，複数漢字，固有名詞)」）、
その次の単語が「製鉄」という複数漢字の普通名詞であ
れば（「word(製鉄，複数漢字，普通名詞)」）、その２
単語が、「組織名」の固有表現の候補として考えられる
という意味の規則である。

【００４４】このような規則（ルール）の生成は、より
一般的には以下のように表せる。まず、固有表現は、Ｎ
＋１単語［(ｗ₀，ｃ₀，ｐ₀)，・・・，(ｗ_i，ｃ_i，
ｐ_i)，・・・，(ｗ_N，ｃ_N，ｐ_N)］でできているとす
る。ここでｗ_iは単語（「製鉄」、「中野」など）、ｃ_i
は構成文字種（「複数漢字」や「数字」など）、ｐ_iは
品詞名（「固有名詞」、「普通名詞」など）である。

【００４５】実際には、前後の幾つかの単語も、固有表
現かどうかを判断するのに重要な手がかりとなるので、
含めて考えるのが一般的であるが、ここでは単純化し
て、固有表現に含まれる単語だけを考える。

【００４６】次に、このような単語列から、最小汎化な
どの既存の一般化技術を用いることによって、規則（ル
ール）を生成する。しかし、本例では、次のようにして
簡単に生成する。

【００４７】すなわち、訓練用文書１に含まれる固有表
現を構成する具体的な単語列［(ｗ₀，ｃ₀，ｐ₀)，・・
・，(ｗ_i，ｃ_i，ｐ_i)，・・・，(ｗ_N，ｃ_N，ｐ_N)］に、
以下に述べる経験則を適用して、変数を含むリスト
［(ｗ₀'，ｃ₀'，ｐ₀')，・・・，(ｗ_i'，ｃ_i'，ｐ_i')，
・・・，(ｗ_N'，ｃ_N'，ｐ_N')］を得て、次のような規則
を作る。

【００４８】anytag(ｕ) <-- <＠(ｔ＋ｄｆ，ｋ)，wo
rd(ｗ₀'，ｃ₀'，ｐ₀')，・・・，(ｗ_i'，ｃ_i'，ｐ_i')，
・・・，word(ｗ_N'，ｃ_N'，ｐ_N')，>＠(ｔ−ｄｔ)．

【００４９】ここで「ｔ」は、固有表現の種類（例えば
「組織名」）を表す。「＋ｄｆ」は、この固有表現の開
始位置を何文字右にずらすかを表し、最初の単語の文字
数未満の非負整数である。また、「−ｄｔ」は固有表現
の終了位置を何文字左にずらすかを表し、最後の単語の
文字数未満の非負整数である。

【００５０】例えば、「厚木市内で・・・」という訓練
用文書１があり、正解リスト２によればこの内の「厚木
市」が地名であるにもかかわらず、形態素解析・品詞文
字種付与部３の形態素解析で、「厚木」、「市内」、
「で」というように単語分割された場合、固有表現を構
成する単語列は、［(厚木，複数漢字，固有名詞)，（市
内、複数漢字、普通名詞)］となり、最後の１文字
（「内」）が余分である。そこで終了位置を一文字左に
ずらすために、「ｄｔ＝１」とする。尚、開始位置はず
らさないので、「ｄｆ=０」である。

【００５１】また、上述の規則（ルール）における
「ｋ」は、この規則につけられた番号であり、「ｕ」は
この規則の優先度である。

【００５２】各変数を含むデータ(ｗ_i'，ｃ_i'，ｐ_i')
は、訓練用文書１に含まれる具体的な固有表現に対応す
るデータ(ｗ_i，ｃ_i，ｐ_i)に対して、以下の経験則を、
上から順に調べ、最初に当てはまったものを適用するこ
とによって得る。

【００５３】「ｉ」が「０」か「Ｎ」で、固有表現の
境界を含む場合（ｄｆ＞０またはｄｔ＞０）は、これら
を変数化しない。規則（ルール）の「ｄｆ」と「ｄｔ」
は、元になった固有表現に対する値をそのまま利用す
る。数字の場合は「ｗ_i」を変数化する。固有名詞の場合は「ｗ_i」を変数化する。リストの最後の単語か、記号・単漢字・接尾語・接頭
語・助詞などの機能語であれば、変数化しない。それ以外であれば「ｗ_i」を変数化する。

【００５４】各固有表現に対して以上の処理を適用する
ことにより、固有表現抽出規則群５を自動的に生成する
ことができる。

【００５５】また、各規則の優先度（ｕ）としては、例
えば、その規則の元になった固有表現が正解リスト中に
現れる「のべ回数」を採用する。これにより、正解回数
の少ない規則(前述の例では、地名としての「ホワイト
ハウス」)が正解回数の多い規則(組織名としての「ホワ
イトハウス」)を正当な理由もなく抑制してしまうこと
が避けられる。

【００５６】こうして規則生成部４により得られた各規
則（固有表現抽出規則群５）を、訓練規則適用部６にお
いて、訓練用文書１の単語列に適用することにより訓練
用記録７を得る。すなわち、訓練規則適用部６では、訓
練用文書１の先頭から末尾まで、各規則がマッチする位
置を順に調べていき、マッチしたら、それを候補として
訓練用記録７に追加することを繰り返す。

【００５７】訓練用記録７には、具体的には、後で各候
補間の競合関係や抑制関係の比較をして、最終的な出力
ができるように、ルール番号（ｋ）や、マッチした位
置、固有表現の種類（ｔ）などのデータを記録してお
く。

【００５８】このような訓練規則適用部６による処理
を、固有表現抽出規則群５の全ての規則に対して行な
い、訓練用記録７を作り出す。

【００５９】尚、ボトムアップ型の構文解析を用いれ
ば、複数の規則の適用結果を効率良く一度に得ることも
可能である。

【００６０】規則評価部８は、このようにして作成され
た訓練用記録７を読み出して、各規則の成績を採点す
る。採点の仕方としては様々な基準を用いることができ
るが、不正解になった回数や割合による評価を用いれば
簡単である。しかし、各規則の不正解回数は、厳密に
は、どのような規則と組み合わせて用いるかに依存する
ため、どの規則を採用するか未定のこの時点では、正確
な数字を得られない。そこで、各規則（Ｒ）の記録を以
下のように分類して考える。

【００６１】（○）規則Ｒの元になった固有表現とマッチして得られ
た候補、つまり、他の候補に抑制されなければ必然的に
正解になるもの（正解候補固有表現）。（△）競合する別の固有表現が正解リスト２に登録され
ており、それに抑制されるもの。つまり、その固有表現
が正解になれば出力が抑制されるので、精度の高い規則
群においては、成績を下げない可能性の高いもの（中間
候補固有表現）。（×）それ以外のもの、つまり、抑制する正解固有表現
がないため、精度の高い規則群においては、間違った候
補を出力して成績を下げる可能性が高いもの（不正解候
補固有表現）。

【００６２】規則評価部８は、各規則に対して「○」、
「△」、「×」の回数を数え、この「×」の回数を不正
解の回数、「○」の回数を正解の回数の代用として採用
する。尚、単純に「△」を全て不正解と考えると、「田
中」のように短い固有表現を抽出する規則が不利になる
ので避けた方が良い。そのため、規則評価部８では、以
下のような方法で不正解回数を数える。

【００６３】すなわち、規則評価部８は、訓練用記録７
を前から順に読み、規則Ｒが訓練用文書１の位置Ｌで適
用されており、規則Ｒが付与する固有表現のタイプ(地
名や人名などの区別)がＴであり、そのタイプＴと位置
Ｌの対が正解リスト２に正解として含まれておらず、さ
らに、位置Ｌに重なる位置に正解の固有表現が存在しな
いか、存在しても、その正解に対応する候補より規則Ｒ
による候補の方が優先順位において優位であれば、規則
Ｒの不正解回数を１増やす。これを訓練用記録７の終わ
りに達するまで繰り返す。

【００６４】規則評価部８が、各規則の「○」、
「△」、「×」の個数を数えると、この結果を参照し
て、規則削除部９と規則精錬部１０が固有表現抽出規則
群５に修正を加える。

【００６５】規則削除部９は、固有表現抽出規則群５の
親則の内、例えば、「×」の個数が「○」の個数を超え
る規則を削除する。規則精錬部１０は、固有表現抽出規
則群５の規則の内、例えば、成績が「×」の個数が
「○」の個数の半分以上ある規則に、前後の単語などに
関する制約情報を加えて、当該規則の成績がより良くな
るようにする。

【００６６】例えば、固有表現の前後２単語ずつを含め
て考えると、上記規則で抽出され、「○」や「×」に評
価されて分類された各固有表現のそれぞれにおいて、
［(ｗ_- ₂，ｃ_-2，ｐ_-2)，(ｗ_-1，ｃ_-1，ｐ_-1)，(ｗ₀，ｃ
₀，ｐ₀)，・・・，(ｗ_N+1，ｃ_N ₊₁，ｐ_N+1)，(ｗ_N+2，ｃ
_N+2，ｐ_N+2)，］という単語リストが各々に考えられ
る。そこで、各固有表現毎に(ｗ_-2，ｃ_-2，ｐ_-2，
ｗ_-1，ｃ_-1，ｐ_-1，ｗ_N+1，ｃ_N+ ₁，ｐ_N+1，ｗ_N+2，ｃ
_N+2，ｐ_N+2)という特徴のリストを考え、「○」に分類
された固有表現の場合を正例、「×」に分類された固有
表現の場合を負例と考えれば、これは典型的な帰納学習
の課題であり、既存の機械学習の手法がそのまま利用で
きる。

【００６７】例えば、決定木による学習を用いることに
より、前後の幾つかの単語の内、どの単語のどの性質の
値を残し、他を変数化すべきかが決定できる。具体例と
して、「×」に分類された固有表現が「１０」個抽出さ
れ、その内、「８」個の固有表現において、その前の単
語(ｗ_-1)として「ｗ_X」が特定されれば、以下のように
して元の規則に制約条件｛ｗ_-1'≠ ｗ_X｝を加え、前の
単語(ｗ_-1)として「ｗ_X」を有する固有表現が抽出され
ないように制約する。

【００６８】anytag(ｕ) <-- word(ｗ_-1'，ｃ_-1'，ｐ
_-1')，<＠(ｔ＋ｄｆ，ｋ)，word(ｗ ₀'，ｃ₀'，ｐ₀')，
・・・，(ｗ_i'，ｃ_i'，ｐ_i')，・・・，word(ｗ_N'，
ｃ_N'，ｐ _N')，>＠(ｔ−ｄｔ)，｛ｗ_-1'≠ ｗ_X｝．

【００６９】こうして得られた規則は、元の規則より制
約が強いので、元の規則がマッチした部分と同じところ
にしかマッチしない。従って、訓練用文書１全体に適用
しなくても、訓練用記録７に残っている元の規則のマッ
チした部分にのみ適用すれば、新しい規則の成績はわか
る。

【００７０】このように本例では、規則の改良が、他の
規則とほぼ独立に行なえる。以上によって、元の規則
（固有表現抽出規則群５）から、より成績の良い規則
（改良後固有表現抽出規則群５ａ）を生成する。

【００７１】図３は、本発明に係わる固有表現抽出規則
生成方法の処理手順例を示すフローチャートである。

【００７２】本例は、図１における固有表現抽出規則生
成システムにおける形態素解析・品詞文字種付与部３、
規則生成部４、訓練用規則適用部６、規則評価部８の各
処理動作を示すものであり、まず、形態素解析・品詞文
字種付与部３において、訓練用文書１を形態素解析して
単語に分割し（ステップ３０１）、各単語に品詞と文字
種などの情報を付加する（ステップ３０２）。

【００７３】次に、規則生成部４において、正解リスト
２の固有表現と、その近傍にある単語からなる単語列を
抜き出して（ステップ３０３）、正解単語列に経験則等
を適用して、抽出規則を生成し（ステップ３０４）、固
有表現抽出規則群５として記録する。

【００７４】そして、訓練用規則適用部６において、こ
のようにして生成した抽出規則を、訓練用文書１に適用
して、その結果得られた固有表現を候補として記録する
（ステップ３０５）。

【００７５】さらに、規則評価装置８において、各抽出
規則で抽出された固有表現の正解度（○、△、×）を求
めて分類し、それに基づき、各抽出規則の適正度を採点
する（ステップ３０６）。

【００７６】その採点の結果、修正不可能な成績の悪い
（適正度の低い）規則群は、規則削除部９において削除
し（ステップ３０７）、また、修正により適正度が高ま
る規則群には、規則精錬部１０において当該修正を加え
て、新規則とし（ステップ３０８）、改良後固有表現抽
出規則群５ａに記録する。ステップ３０５からの処理を
繰り返すことにより、より成績の良い規則群の生成が可
能となる。

【００７７】図４は、図１における固有表現抽出装置の
処理動作例を示すフローチャートである。本例は、図１
に示す固有表現抽出装置における、新規文書１１に対す
る処理動作を示すものであり、まず、形態素解析・品詞
文字種付与部３において、新規文書１１を形態素解析し
て単語に分割し（ステップ４０１）、各単語リストに品
詞と文字種などの情報を付加する（ステップ４０２）。

【００７８】次に、実施用規則適用部１２において、各
単語リストに、改良後固有表現抽出規則群５ａの各抽出
規則を適用して、各固有表現を候補としてリストアップ
し（ステップ４０３）、全ての候補に対して以下の優先
制御処理を行う（ステップ４０４）。すなわち、各候補
の中で最優先の候補を出力し（ステップ４０５）、この
出力された候補と競合する候補を削除する（ステップ４
０６）。

【００７９】以上、図１〜図４を用いて説明したよう
に、本例の固有表現抽出規則生成システムと方法では、
まず、予め用意された訓練用文書１を形態素解析して単
語に分割し、品詞名や構成文字種などの情報を各単語に
付加し、こうして得られた単語から、固有表現を構成す
る単語列を取り出し、予め訓練用文書１に対応して用意
された正解リスト２を参照して経験則や最小汎化などの
一般化手段によって多数の固有表現抽出規則を生成す
る。

【００８０】次に、これらの抽出規則をそれぞれ独立に
訓練用文書１に適用して、その規則が訓練用文書１のど
の位置にマッチしたかの記録を用意しておく。この記録
に入っているものは、訓練用文書１に対してシステムが
出力する固有表現の候補となる。

【００８１】そして、複数のルールを組み合わせる場合
には、それらのルールに対応する記録に入っている全て
の候補の中から、競合関係と優先順位を考慮して、最終
的に出力する候補の列を一定の明快な基準で選び出す。
この結果、訓練用文書１における不正解の頻度あるいは
割合が非常に多い規則があれば、それを削除する。ただ
し、その規則が訓練用文書のどの位置で正解し、どの位
置で不正解になっているかがわかる。そこで、正解の箇
所の前後の単語列と、不正解の箇所の前後の単語列を比
較して制約を加えることによって、訓練用文書における
成績が良くなる規則が作れるかどうか判断できるので、
成績が良くなる場合は制約を加えた規則を加える。

【００８２】このように、本例によれば、固有表現を含
む訓練用文書と、その文書の中のどの位置にどのような
種類の固有表現が含まれているかを列挙した正解リスト
を与えると、システムがこの正解に基づいて固有表現抽
出規則を生成するので、人間が多大な労力を払って抽出
規則を書き下す必要がなくなる。

【００８３】さらに、予め用意された訓練用文書１に対
して出力される個々の規則の評価を求め、次に、複数の
規則を種々に組み合わせた場合の各評価値を、個々の規
則の評価値から簡単に計算できる。これによって、良い
成績が得られる規則の組み合わせを求める際の試行錯誤
に要する処理時間を短縮することができる。また、この
ような固有表現抽出規則の改良が、他の規則とほぼ独立
して行なえるため、精度を向上させることが容易にな
る。

【００８４】また、本例の固有表現抽出装置では、訓練
用文書と正解リストに基づいて生成され、かつ、改良さ
れた規則を新規文書１１に適用して、この新規文書１１
から固有表現を自動的に抽出すると共に、抽出した複数
の固有表現に部分的な重なりがあれば、文書における記
載開始位置が早いものを優先して抽出し、また、記載開
始位置が同じであれば記載終了位置が遅いものを優先し
て抽出し、さらに、表現は同じであるが種類の異なる固
有表現があれば、各固有表現の抽出に用いた各々の規則
に予め付与された優先度の大きいものを優先して抽出す
るので、適切な固有表現のみに限定された抽出が可能で
ある

【００８５】尚、本発明は、図１〜図４を用いて説明し
た例に限定されるものではなく、その要旨を逸脱しない
範囲において種々変更可能である。例えば、本例では、
規則に制約を付加する際、候補固有表現の訓練用文書に
おける前後の単語に基づき制約を設けているが、当該単
語の文字種（漢字、カタカナ、・・・）や品詞（名詞、
動詞、・・・）等に関して制約を設けることでも良い。

【００８６】また、本例では、光ディスク２５を記録媒
体として用いているが、ＦＤを記録媒体として用いるこ
とでも良い。また、プログラムのインストールに関して
も、通信装置２７を介してネットワーク経由でプログラ
ムをダウンロードしてインストールすることでも良い。

【００８７】

【発明の効果】本発明によれば、予め用意された訓練用
文書と、その文書の中のどの位置にどのような種類の固
有表現が含まれているかを列挙した正解リストとに基づ
き、固有表現を抽出するための規則を自動生成するの
で、人間が多大な労力を払って抽出規則を書き下す必要
がなくなり、さらに、自動生成した規則を訓練用文書に
適用してその結果と正解リストとを比較し、各規則毎の
適正度を求め、この各規則毎の適正度に基づき、各規則
を組み合わせた場合の適正度を求めることができるの
で、固有表現抽出規則の改良が、他の規則とほぼ独立し
て行なることができ、精度を向上させることが容易にな
り、高性能な固有表現抽出装置を容易に実現することが
可能である。

【図面の簡単な説明】

【図１】本発明に係る固有表現抽出規則生成システムお
よびそれを設けた固有表現抽出装置の構成例を示すブロ
ック図である。

【図２】図１における固有表現抽出規則生成システムお
よび固有表現抽出装置のハードウェア構成例を示すブロ
ック図である。

【図３】本発明に係わる固有表現抽出規則生成方法の処
理手順例を示すフローチャートである。

【図４】図１における固有表現抽出装置の処理動作例を
示すフローチャートである。

【符号の説明】

１：訓練用文書、２：正解リスト、３：形態素解析・品
詞文字種付与部、４：規制生成部、５：固有表現抽出規
則群、５ａ：改良後固有表現抽出規則群、６：訓練用規
則適用部、７：訓練用記録、８：規則評価部、９：規則
削除部、１０：規則精錬部、１１：新規文書、１２：実
施用規則適用部、１３：抽出された固有表現のリスト、
２１：表示装置、２２：入力装置、２３：外部記憶装
置、２４：情報処理装置、２４ａ：ＣＰＵ、２４ｂ：主
メモリ、２５：光ディスク、２６：駆動装置、２７：通
信装置。

Claims

【特許請求の範囲】

【請求項１】文書から固有表現を抽出するのに用いる
規則を、予め記憶装置に記録された訓練用文書と、該訓
練用文書の中のどの位置にどのような種類の固有表現が
抽出されるべき固有表現（正解固有表現）として含まれ
ているかを列挙した正解リストとに基づきコンピュータ
処理して生成する固有表現抽出規則生成システムであっ
て、上記訓練用文書を上記記憶装置から読み出して単語
分割し、各単語に品詞名と構成文字種を付加して、上記
訓練用文書に含まれる固有表現を構成する単語列情報を
生成して上記記憶装置に記録する品詞文字種付与手段
と、上記正解リストの各正解固有表現を上記記憶装置か
ら読み出して上記品詞文字種付与手段で生成された各単
語列情報と比較し、当該正解固有表現を抽出するための
規則を生成して上記記憶装置に記録する規則生成手段
と、上記記憶装置から上記訓練用文書と上記規則とを読
み出して各規則を上記訓練用文書に適用し、対応する固
有表現（候補固有表現）を抽出して上記記憶装置に記録
する訓練用規則適用手段と、上記記憶装置から上記候補
固有表現と上記正解リストの正解固有表現とを読み出し
て比較し、予め定められた算出手順に基づき、各候補固
有表現の抽出に用いた各規則の適正度を算出する規則評
価手段と、該規則評価手段で算出した適正度が予め定め
られた適正度より低い規則を上記記憶装置から削除する
規則削除手段と、上記規則評価手段で算出した適正度が
予め定められた適正度範囲の規則を、当該適正度が高く
なるように修正して上記記憶装置に記録する規則精錬手
段とを有することを特徴とする固有表現抽出規則生成シ
ステム。
【請求項２】請求項１に記載の固有表現抽出規則生成
システムにおいて、上記規則生成手段は、上記記憶装置
から読み出した単語列情報に含まれる単語が、数字か固
有名詞の場合もしくは当該単語列情報の末尾の単語か記
号・単漢字・接尾語・接頭語・助詞を含む機能語のいず
れでもない場合には該単語を変数化して、変数を含む単
語列情報を求め、該変数を含む単語列情報と、上記記憶
装置から読み出した上記正解リストとに基づき上記規則
を生成する手段を有することを特徴とする固有表現抽出
規則生成システム。
【請求項３】文書から固有表現を抽出するのに用いる
規則を、予め記憶装置に記録された訓練用文書と該訓練
用文書の中のどの位置にどのような種類の固有表現が抽
出されるべき固有表現（正解固有表現）として含まれて
いるかを列挙した正解リストとに基づきコンピュータ処
理して生成する固有表現抽出規則生成システムであっ
て、上記訓練用文書を上記記憶装置から読み出して単語
分割し、各単語に品詞名と構成文字種情報を付加して、
上記訓練用文書に含まれる固有表現を構成する単語列情
報を生成して上記記憶装置に記録する品詞文字種付与手
段と、上記単語列情報を上記記憶装置から読み出し、該
読み出した単語列情報に含まれる単語が数字か固有名詞
の場合もしくは当該単語列情報の末尾の単語か記号・単
漢字・接尾語・接頭語・助詞を含む機能語のいずれでも
ない場合には該単語を変数化して、変数を含む単語列情
報を求め、該変数を含む単語列情報と、上記記憶装置か
ら読み出した上記正解リストとに基づき上記規則を生成
する規則生成手段とを有することを特徴とする固有表現
抽出規則生成システム。
【請求項４】請求項１から請求項３のいずれかに記載
の固有表現抽出規則生成システムにおいて、上記規則生
成手段は、生成した規則に、該規則の生成に用いた上記
固有表現が上記正解リスト中に現れるのべ回数を、該規
則の優先度として付与する手段を有することを特徴とす
る固有表現抽出規則生成システム。
【請求項５】請求項１から請求項４のいずれかに記載
の固有表現抽出規則生成システムを具備し、該固有表現
抽出規則生成システムにより生成された規則に基づきコ
ンピュータ処理して任意の文書に含まれる固有表現を抽
出する固有表現抽出装置であって、抽出した複数の候補
固有表現に部分的な重なりがあれば、各候補固有表現の
上記任意の文書における記載開始位置が早いものを優先
して抽出し、上記記載開始位置が同じであれば記載終了
位置が遅いものを優先して抽出する手段と、抽出した複
数の候補固有表現が同じであれば、各候補固有表現の抽
出に用いた各々の上記規則に予め付与された優先度の大
きいものを優先して抽出する手段とを有することを特徴
とする固有表現抽出装置。
【請求項６】文書から固有表現を抽出するのに用いる
規則を、予め記憶装置に記録された訓練用文書と、該訓
練用文書の中のどの位置にどのような種類の固有表現が
抽出されるべき固有表現（正解固有表現）として含まれ
ているかを列挙した正解リストとに基づきコンピュータ
処理して生成するシステムの固有表現抽出規則生成方法
であって、上記訓練用文書を上記記憶装置から読み出し
て単語分割する第１のステップと、分割した各単語に品
詞名と構成文字種を付加して、上記訓練用文書に含まれ
る固有表現を構成する単語列情報を生成する第２のステ
ップと、上記正解リストの各正解固有表現を上記記憶装
置から読み出して上記第２のステップで生成された各単
語列情報と比較し、当該正解固有表現を抽出するための
規則を生成して上記記憶装置に記録する第３のステップ
と、上記記憶装置から上記訓練用文書と上記規則とを読
み出して各規則を上記訓練用文書に適用し、対応する固
有表現（候補固有表現）を抽出して上記記憶装置に記録
する第４のステップと、上記記憶装置から上記候補固有
表現と上記正解リストの正解固有表現とを読み出して比
較し、予め定められた算出手順に基づき、各候補固有表
現の抽出に用いた各規則の適正度を算出する第５のステ
ップと、該第５のステップで算出した適正度が予め定め
られた適正度より低い規則を上記記憶装置から削除する
第６のステップと、上記第５のステップで算出した適正
度が予め定められた適正度範囲の規則を、当該適正度が
高くなるように修正して上記記憶装置に記録する第７の
ステップとを有することを特徴とする固有表現抽出規則
生成方法。
【請求項７】請求項６に記載の固有表現抽出規則生成
方法において、上記第３のステップは、上記記憶装置か
ら読み出した単語列情報に含まれる単語が、数字か固有
名詞の場合もしくは当該単語列情報の末尾の単語か記号
・単漢字・接尾語・接頭語・助詞を含む機能語のいずれ
でもない場合には該単語を変数化して、変数を含む単語
列情報を求めるステップと、該変数を含む単語列情報
と、上記記憶装置から読み出した上記正解リストとに基
づき上記規則を生成するステップとを有することを特徴
とする固有表現抽出規則生成方法。
【請求項８】請求項６、もしくは、請求項７のいずれ
かに記載の固有表現抽出規則生成方法において、上記第
４のステップは、上記候補固有表現に、該候補固有表現
の上記訓練用文書における記載位置情報および該固有表
現の抽出に用いた規則の識別情報を付与して上記記憶装
置に記録するステップを有し、上記第５のステップは、
上記記憶装置から上記候補固有表現と上記正解リストを
読み出して比較し、上記正解リストにある候補固有表現
（正解候補固有表現）と、上記正解リストにないが該正
解リストにある他の正解固有表現により出力が抑制され
る候補固有表現（中間候補固有表現）、および、上記正
解リストになく且つ該正解リストにある他の正解固有表
現によっても出力が抑制されない候補固有表現（不正解
候補固有表現）に分類するステップと、各候補固有表現
の抽出に用いた各規則毎に、該規則により抽出された上
記正解候補固有表現の数と上記不正解候補固有表現の数
を計数するステップとを有し、上記第６のステップで
は、上記正解候補固有表現の数に対する上記不正解候補
固有表現の数が予め定められた基準Ｔ１以上の規則を上
記第４のステップで生成した規則群から削除し、上記第
７のステップでは、上記正解候補固有表現の数に対する
上記不正解候補固有表現の数が予め定められた基準Ｔ２
以下の規則を、上記不正解候補固有表現の数が減少する
よう修正することを特徴とする固有表現抽出規則生成方
法。
【請求項９】請求項６から請求項８のいずれかに記載
の固有表現抽出規則生成方法において、上記第５のステ
ップでは、上記記憶装置から同じ規則で抽出された複数
の候補固有表現を読み出して、上記正解固有表現に一致
する候補固有表現（正解候補固有表現）と一致しない候
補固有表現（不正解候補固有表現）および上記正解固有
表現に一致しないが他の上記正解候補固有表現により出
力が抑制される候補固有表現（中間候補固有表現）に分
け、上記正解候補固有表現と上記不正解候補固有表現の
それぞれの数に基づき上記適正度を算出し、上記第７の
ステップでは、上記適正度が予め定められた適正度範囲
の規則（元の規則）を上記訓練用文書に適用して抽出さ
れた各候補固有表現のそれぞれの上記訓練用文書におけ
る前後の単語や該単語の文字種や品詞を求め、該前後の
単語や該単語の文字種や品詞に基づき、上記各候補固有
表現に含まれる上記不正解固有固有表現を抽出させない
制約条件を生成して上記元の規則に加えることを特徴と
する固有表現抽出規則生成方法。
【請求項１０】文書から固有表現を抽出するのに用い
る規則を、予め記憶装置に記録された訓練用文書と、該
訓練用文書の中のどの位置にどのような種類の固有表現
が抽出されるべき固有表現（正解固有表現）として含ま
れているかを列挙した正解リストとに基づきコンピュー
タ処理して生成するシステムの固有表現抽出規則生成方
法であって、上記訓練用文書を上記記憶装置から読み出
して単語分割する第１のステップと、各単語に品詞名と
構成文字種情報を付加して、上記訓練用文書に含まれる
固有表現を構成する単語列情報を生成して上記記憶装置
に記録する第２のステップと、上記記憶装置から読み出
した単語列情報に含まれる単語が、数字か固有名詞の場
合もしくは当該単語列情報の末尾の単語か記号・単漢字
・接尾語・接頭語・助詞を含む機能語のいずれでもない
場合には該単語を変数化して、変数を含む単語列情報を
求め、該変数を含む単語列情報と、上記記憶装置から読
み出した上記正解リストとに基づき上記規則を生成する
第３のステップとを有することを特徴とする固有表現抽
出規則生成方法。
【請求項１１】請求項６から請求項１０のいずれかに
記載の固有表現抽出規則生成方法において、上記第３の
ステップは、生成した規則に、該規則の生成に用いた上
記固有表現が上記正解リスト中に現れるのべ回数を、該
規則の優先度として付与するステップを有することを特
徴とする固有表現抽出規則生成方法。
【請求項１２】文書から固有表現を抽出するのに用い
る規則を、予め記憶装置に記録された訓練用文書と、該
訓練用文書の中のどの位置にどのような種類の固有表現
が抽出されるべき固有表現（正解固有表現）として含ま
れているかを列挙した正解リストとに基づきコンピュー
タ処理して生成する方法の処理手順を既述したプログラ
ムをコンピュータに読取り可能に記録する記録媒体であ
って、請求項６から請求項１１のいずれかに記載の固有
表現抽出規則生成方法における各ステップを、上記コン
ピュータに実行させるための処理プログラムを記録した
ことを特徴とする記録媒体。