JP5152918B2

JP5152918B2 - 固有表現抽出装置、その方法およびプログラム

Info

Publication number: JP5152918B2
Application number: JP2008302526A
Authority: JP
Inventors: 邦子齋藤; 賢治今村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-11-27
Filing date: 2008-11-27
Publication date: 2013-02-27
Anticipated expiration: 2028-11-27
Also published as: JP2010128774A

Description

本発明は、膨大なデータベースから効率良く情報を検索する技術やテキストを要約する技術などにおいて重要な役割を果たす、テキストから人名、地名、組織名などを表す固有表現を抽出する技術に関する。

テキスト中に登場する人名、地名、組織名などの固有表現は、誰が、どこで、何を、といったテキストの内容に直結する役割を果たすことが多く、テキストの内容理解や情報抽出において重要な要素技術である。

固有表現抽出処理で抽出対象とする固有表現の代表的な例としては、日本語の固有表現抽出技術のワークショップ（略称ＩＲＥＸ）で定義されている人名、地名、組織名、金額、日付、時間、割合、固有物名の８種類がある。以下、本明細書ではこれらの固有表現の種類をそれぞれ、＜ＰＳＮ＞，＜ＬＯＣ＞，＜ＯＲＧ＞，＜ＭＮＹ＞，＜ＤＡＴ＞，＜ＴＩＭ＞，＜ＰＣＴ＞，＜ＡＲＴ＞と表し、さらに実際には固有表現でない形態素を固有表現の一種類として表すためにＮＩＬを追加し、以上の９種類を固有表現状態と呼ぶこととする。

各固有表現状態は少なくとも１つの形態素から構成されることを考慮し、固有表現状態の冒頭の形態素とそれ以外の形態素を識別するために、固有表現状態にさらに開始、途中の区別を与える。以下、本明細書ではそれぞれ、Ｂ−、Ｉ−で表すことにするが、ＮＩＬについてはこの区別をしない。Ｂ−、Ｉ−の区別を与えた固有表現状態を表す識別子を固有表現タグと呼ぶ。即ち、本明細書ではＢ−＜ＰＳＮ＞，Ｉ−＜ＰＳＮ＞，Ｂ−＜ＬＯＣ＞，Ｉ−＜ＬＯＣ＞，Ｂ−＜ＯＲＧ＞，Ｉ−＜ＯＲＧ＞，……Ｂ−＜ＡＲＴ＞，Ｉ−＜ＡＲＴ＞，ＮＩＬの１７種の固有表現タグを使用する。

例えば、「ＮＴＴ／ＮＴＴ／名詞：固有：組織／Ｂ−＜ＯＲＧ＞」の固有表現タグはＢ−＜ＯＲＧ＞であり、固有表現状態は＜ＯＲＧ＞である。

固有表現抽出は、予め文章を単語に分割して品詞等の単語情報を付与する形態素解析処理を行った上で、前後の文脈をみながら適切な固有表現タグを付与する、という手法が一般的である。例えば、「ＮＴＴ持株会社社長の三浦氏」という入力文に対して、形態素解析処理結果を表記／読み／品詞で表し、さらに固有表現タグを付与した例を示すと、以下のようになる。

ＮＴＴ／ＮＴＴ／名詞：固有：組織／Ｂ−＜ＯＲＧ＞
持株／モチカブ／名詞／Ｉ−＜ＯＲＧ＞
会社／ガイシャ／名詞／Ｉ−＜ＯＲＧ＞
社長／シャチョウ／名詞／ＮＩＬ
の／ノ／助詞／ＮＩＬ
三浦／ミウラ／名詞：固有：姓：組織／Ｂ−＜ＰＳＮ＞
氏／シ／名詞／ＮＩＬ
ここで、「ＮＴＴ／ＮＴＴ／名詞：固有：組織持株／モチカブ／名詞会社／ガイシャ／名詞」の部分が３つの形態素から構成される固有表現状態＜ＯＲＧ＞、また、「三浦／ミウラ／名詞：固有：姓：組織」が１つの形態素から構成される固有表現状態＜ＰＳＮ＞である。なお、この例では「ＮＴＴ」の品詞は「名詞：固有：組織」であり、組織になり得る固有名詞となっている。また、「三浦」の品詞は「名詞：固有：姓：組織」であり、姓が組織になり得る固有名詞となっている。このように、名詞には一般名詞だけではなく固有名詞という分類も存在し得るが、本特許でいう固有表現抽出とは、単に品詞が固有名詞である一つの形態素を抽出するということではなく、少なくとも１つの形態素のまとまりからなる組織名、人名、地名などの固有表現を抽出することを意味する。

このように固有表現抽出とは、入力文中の形態素を認定し、少なくとも１つの形態素から構成される固有表現状態を認定して該当する固有表現タグを付与する処理である。これは、入力系列である形態素列ｘに対して、固有表現タグというタグ列ｙを付与するという「系列タギング問題」として捉えることができる。なお、入力文中の形態素を認定する処理は、形態素解析処理と呼ばれる周知の処理である。

固有表現抽出の手法としては、大きく分けると、人手で設定した規則に基づくものと、予め所定の学習データから作成した統計的モデルに基づくものがある。前者は、対象とする領域や固有表現状態の定義の違いにより、規則を改めて設定し直さなければならないためコストがかかる。一方、後者は、正解データを用意しておけば自動学習を用いることにより低コストで実現でき、近年では様々な学習モデルに基づく固有表現抽出法が研究されている。学習モデルには最大エントロピー法、サポートベクトルマシン、隠れマルコフモデル、条件付確率場など、いくつかの手法がある。

近年、系列タギング問題に対しては、条件付確率場（ＣＲＦ：ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ）が好成績を挙げており、固有表現抽出技術へも適応されている。ＣＲＦでは入力系列ｘが与えられた時の出力タグ列ｙの出力確率が以下のように与えられる。

但し、Ｚ（ｘ）は正規化項、Ｉは入力系列長、ｆ_k（ｘ，ｙ，ｉ）は入力系列とタグ列が位置ｉにおいて、ある条件を満たすときに１、それ以外で０となる（特徴ｋに関する）素性関数である。

例えば、単語の品詞推定では、位置ｉにおいて、単語ｘ_iの表記ｘ_i,1（特徴ｋ＝１は「表記」を表す。）が「ＮＴＴ」で、品詞ｙ_iが「名詞：固有：組織」であるときに１、それ以外で０となるような関数である。なお、単語の表記のような、入力の特徴を表すものを素性と呼び、表記、品詞、読みなどの形態素を構成する個々の特徴だけでなく、形態素というまとまりを素性として用いたり、または形態素を検索キーとして別の辞書情報、例えば日本語語彙体系のカテゴリ情報を取得して、そのカテゴリ情報を素性として用いたりすることも可能である。また、現在の位置ｉだけでなく、以前の位置ｉ−１，ｉ−２、あるいは以後の位置ｉ＋１，ｉ＋２などの素性も組み合わせ、例えば（ｘ_i-1,1，ｘ_i,1，ｘ_i+1,1）＝（ＮＴＴ，持株，会社）であるときに１、それ以外は０、というような素性関数も設定可能である。λ_kは（特徴ｋに関する）素性関数に対する重みである。

ところで、式（１）における正規化項Ｚ（ｘ）は、ｙには依存しないため、式（１）で示される出現確率を最大にするｙを求める上で無視しても問題は無い。即ち、式（１）の分子のみに着目して分子を最大化するｙを求めれば、式（１）全体を最大化するｙを求められる。

このことにより、入力系列ｘに対する最適なタグ列Ｙは、以下の式を満足するものを全タグの組み合わせから探索することにより決定される。

重みλ_kは予め正解データ中のｘ，ｙの組を与え、事後確率最大化学習を行うことにより算出する。具体的な学習アルゴリズムについては、例えば非特許文献１に記載のような手法がある。算出されたλ_kのことを以後、固有表現抽出モデルと呼ぶ。固有表現抽出装置では、この固有表現抽出モデルを利用して、入力された形態素列に対し、式（２）を最大化する固有表現タグ列を出力する。

ところで、固有表現抽出において、常に問題になるのが式（２）の重みλ_kを学習するときに必要となる正解データを作成するコストである。解析精度の高い固有表現抽出装置を実現するためには、解析対象として想定される言語表現の特徴を幅広く含んだ正解データを準備することが必要である。

しかし、言語表現の特徴は、テキストのドメインが異なれば大きく変化することがしばしばあり、例えば新聞のようにプロの記者が記述したテキストと、ブログのように一般大衆が自由に記述したテキストでは、使用される語彙や文体などが大きく異なる。そのため、新聞を使って学習した固有表現抽出モデルをそのまま利用してブログからの固有表現抽出を実施すると、期待通りの解析精度が得られない。また、同じドメインであっても、年月が経つにつれて話題が次々と移り変わるために、古い固有表現抽出モデルでは新しく登場する語彙をカバーできないことも良くある。特にブログのように変化の激しいドメインでは、１年前のブログから学習した固有表現抽出モデルでは解析精度が低下することも十分起こり得る。

以上のことから、高い解析精度を実現するには、固有表現抽出モデルを処理対象と合致するドメインのデータから学習すること、および、変化の激しいドメインの場合は適宜最新のテキストを利用して固有表現抽出モデルを更新していく必要がある。しかし、正解データの作成では一つ一つの正解情報、即ち該当テキスト中のどの部分がどの種類の固有表現なのかを正しく認定する作業を全て人手で行う必要があり、これにかかる作成コスト（作業時間や作業量）が高いことが問題となっている。

もし仮に、機械的に解析した結果をそのまま正解データとして利用できるならば、従来かかっていた正解データ作成コストは大幅に削減できるが、通常、機械的な解析結果は一定量の解析誤りを含むため、そのまま正解データとして使うには質が悪い。一方で解析誤りが発生する箇所は、解析に利用した固有表現抽出モデルにとって新しい知識である可能性が高く、今まで学習したことのない新しい事象のために解析に失敗したとも考えられる。そのため、これらの解析誤りを含む箇所を積極的に正解データとして作成できれば、より効果の高いモデル更新が可能となる。
ＳｕｚｕｋｉＪ．，ＭｃＤｅｒｍｏｔｔＥ．ａｎｄＩｓｏｚａｋｉＨ．：ＴｒａｉｎｉｎｇＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓｗｉｔｈＭｕｌｔｉｖａｒｉａｔｅＥｖａｌｕａｔｉｏｎＭｅａｓｕｒｅｓ，Ｐｒｏｃ．ｏｆＣＯＬＩＮＧ−ＡＣＬ，ｐｐ．６１７−６２４，２００６．

このように、従来の固有表現抽出技術では、
１．モデルを学習するために必要となる正解データの作成コストが高い、
２．１の問題に対して既存の統計的手法で機械的な解析結果を利用すれば作成コストは低下するが、データに解析誤りを含むためにモデルの学習には適さない、
３．更に２の問題については、解析誤りを含む箇所こそが効果的なモデルの学習に寄与すると期待されるため、このような解析誤りを含むデータを積極的に正解データとして利用したい、
という課題があった。

本発明は、これらを解決することを目的とする。

具体的には、タグ信頼度に基づいて解析誤りを自動的に判定し、該解析誤りでは下位のタグ候補と予め準備した固有表現リストを利用して正解と思われるタグ列が存在すると判断できれば、そのタグ列を抽出して正解データとするものである。このときの正解データ作成コストは固有表現リストを用意するだけとなる。これにより、本発明は従来かかっていた正解データ作成コストを大幅に削減し、かつ、学習効果の高いデータを優先的に収集することができる。

本発明は、前記の目的を達成するために以下のような手法を用いる。

１．通常の固有表現抽出装置が出力する文単位の確率値ではなく、個々の単語に付与される固有表現タグについて、付与され得るタグ毎の信頼度を計算する。

２．タグの信頼度には、事後確率を利用する。

３．１の結果から解析誤りを自動判定し、解析誤りとされた箇所は信頼度１位だけでなく上位Ｎ位（Ｎは２以上の整数）までのタグを含めてタググラフを作成する。

４．タググラフを通過するタグ系列のうち、最長の固有表現を構成できるものを選び、更に予め別途準備した固有表現リストを種リストとして、該リストに含まれる固有表現を含んでいれば、正解データとして文全体のタグ列を抽出する。

詳細については、実施の形態にて説明するが、本発明では、文単位ではなくタグ単位で信頼度を計算すること、および、その信頼度から解析誤りを自動的に判定することが特徴である。更に、解析誤りと判定された箇所では、タグ侯補を信頼度１位のみからＮ位までに拡張してタググラフとして捉え、そのグラフを通過するタグ列の中から、最長一致となる固有表現が構成できること、および、予め別途準備した種リストに登場すること、という２つの条件を満たすことによって正解タグに自動的に修正するのと同じ効果があることが第２の特徴である。

本発明では、文単位ではなく各形態素（単語）に付与される固有表現タグ単位についての信頼度を利用し、文中のある箇所についてそれが低いということは、その部分は現時点の固有表現抽出装置にとって新しい現象であると解釈する。即ち、その時点の固有表現抽出モデルが既に学習している固有表現は非常に高い信頼度が付くが、十分に学習できていない固有表現の場合はそれに比べると低い信頼度が付与される。そこで、信頼度が低い＝解析誤りであると解釈すれば、現時点の固有表現抽出装置の解析誤りを自動判定することが可能である。また、解析誤りと判定された場合は信頼度が下位のタグまで採用してタググラフを構成し、そのタググラフに含まれるタグ列の中から最長一致となる固有表現を構成でき、かつ、その固有表現が予め準備した種となる固有表現リストに登場する、という２つの条件を満たすことにより、解析誤りを自動的に正解タグに修正する効果がある。これにより、従来、人手で全てのタグを付与していた正解データ作成のコストを、種となる固有表現リストを準備するコストだけに削減でき、また、現時点の固有表現抽出装置における解析誤りを含むデータを効率的に正解データとして収集できる効果がある。

図１は本発明の固有表現抽出装置の実施の形態の一例を示すもので、信頼度付与処理部１０および自動誤り修正処理部２０から構成される。

本発明の装置では、予め大規模テキストを形態素解析処理した結果、即ち大規模形態素解析済テキストを入力とする。形態素解析では、自然言語で記述された文が単語に分割され、各単語に品詞や読みなどの単語情報が付与された形態素の集合（形態素列）とされる。本例では、各形態素を「表記／品詞」で表すこととする。なお、形態素解析処理は、周知の形態素解析器を用いて行うことができる。

信頼度付与処理部１０は、予め所定の学習データから作成された固有表現抽出のための固有表現抽出モデルを記憶する固有表現抽出モデル記憶部１１と、入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部１１に記憶された固有表現抽出モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成して出力するタグ信頼度付与処理部１２と、タグ信頼度付与処理部１２から出力されたタグ信頼度付テキストを記憶するタグ信頼度付テキスト記憶部１３とを有する。

自動誤り修正処理部２０は、固有表現である文字列（単語または単語列）についてその表記および当該固有表現の種類を表す固有表現状態からなる固有表現リストを記憶する固有表現リスト記憶部２１と、タグ信頼度付テキスト記憶部１３からタグ信頼度付テキストを読み出し、形態素毎に信頼度が上位Ｎ個の固有表現タグをグラフ構造に展開し、タググラフ付テキストを生成するタググラフ展開処理部２２と、タググラフ展開処理部２２から出力されたタググラフ付テキストを記憶するタググラフ付テキスト記憶部２３と、タググラフ付テキスト記憶部２３からタググラフ付テキストを読み出し、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組が固有表現リスト記憶部に記憶された固有表現リストに存在する場合は、その組を構成する固有表現タグを含むタグ列に、前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成して出力するコンテキスト抽出処理部２４とを有する。

以下、前述した各部における処理の詳細について例を挙げて説明する。

［タグ信頼度付与処理部１２］
タグ信頼度付与手段１２は、入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部１１に記憶された固有表現抽出モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成し、タグ信頼度付テキスト記憶部１３に記憶する。この際、信頼度には、タグ毎に算出した事後確率を用いる。

例えば、形態素解析により文ｘがｎ単語に分割されているとき、単語ｘ_iのタグ候補ｔ_i,jの信頼度は以下の式により算出する。

これは、単語ｘ_iのタグがｔ_i,jである全てのタグ列ｙの事後確率を総和したものである。従って、長さが入力単語数ｎのあらゆるタグ列の事後確率を式（１）により算出し、そのうち位置ｉのタグがｔ_i,jであるもののみを総和することにより算出される。図２にタグ候補ｔ_i,1のタグ信頼度を求める場合の計算パターンを模式図で示す。

固有表現抽出モデルに線形連鎖条件付確率場を用いる場合、タグ信頼度は文頭から当該タグ候補ｔ_i,jに至る全ての経路（タグ列）の確率和α_i,j（前向き確率と呼ぶ）と、当該タグ候補ｔ_i,jから文末に至る全ての経路の確率和β_i,j（後ろ向き確率と呼ぶ）を乗算することによっても求めることができる。即ち、
Ｐ（ｔ_i＝ｔ_i,j｜ｘ）＝α_i,jβ_i,j （４）
前向き確率α_i,jは、当該タグ候補より前方の前向き確率から式（５）（６）を用いて再帰的に計算できる。また、後ろ向き確率β_i,jは、当該タグ候補より後方の後ろ向き確率から式（７）（８）を用いて再帰的に計算できる。従って、前向きアルゴリズムと後ろ向きアルゴリズム（例えば、北研二「言語と計算４確率的言語モデル」東京大学出版会、１９９９、１０１〜１２５頁）を用いてα_i,j、β_i,jを算出し、両者を乗算することにより、効率的に算出することも可能である。

α_0,j＝１（５）

β_n+1,j＝１（７）

ここで、ｆ_a（ｔ_i，ｘ_i）およびｇ_b（ｔ_i-1，ｔ_i）は素性関数と呼ばれ、入力文ｘと固有表現タグ列ｙが位置ｉにおいてある条件を満たすときに１、それ以外で０となる関数である。また、λ_aおよびμ_bは素性関数に対する重みであり、固有表現抽出モデル学習時に適切な値が付与される。

図３はタグ信頼度付テキストの一例を示すものである。表記と品詞からなる形態素に対して、タグ信頼度が「固有表現タグ／信頼度」の形で付与されている。ここでは２つの文に対するタグ信頼度付テキストを示している。なお、紙面の都合上、タグ信頼度は上位２つまでを示しているが、実際にタグ信頼度付与処理部１２が付与するデータでは、とり得る全ての固有表現タグに対してのタグ信頼度が付与される。具体的には、本明細書で想定している、Ｂ−＜ＰＳＮ＞，Ｉ−＜ＰＳＮ＞，Ｂ−＜ＬＯＣ＞，Ｉ−＜ＬＯＣ＞，Ｂ−＜ＯＲＧ＞，Ｉ−＜ＯＲＧ＞，…．Ｂ−＜ＡＲＴ＞，Ｉ−＜ＡＲＴ＞，ＮＩＬの１７種の固有表現タグに対してである。

［タググラフ展開処理部２２］
タググラフ展開処理部２２は、図４に示すように、タグ信頼度付テキスト記憶部１３からタグ信頼度付テキストを読み出し（ｓ１）、タグ信頼度付テキストから形態素毎に信頼度が上位Ｎ個、ここでは信頼度が１位の固有表現タグまたは該１位の信頼度が所定の値以下の時のみ信頼度が上位２位までの固有表現タグをその信頼度とともに取り出し（ｓ２）、該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続してグラフ構造に展開し（ｓ３）、該展開したグラフ構造に、前記タグ信頼度付テキストに含まれる形態素列を対応付けてタググラフ付テキストを生成し、タググラフ付テキスト記憶部２３に記憶する（ｓ４）。

ここで、基本方針としては、各単語に対して上位Ｎ個までの固有表現タグを侯補として展開するが、それでは膨大なタグ列が展開され得る。例えば、ｗ個の単語からなる文に対して全単語でＮ個の固有表現タグを考慮すると、ｗのＮ乗種類のタグ列となる。そこで、タグ信頼度を参照して１位のみしか考慮しないもの、上位Ｎ位まで考慮するものを判断する。以後、本明細書では図３の例を使って説明していくため、上位２位までの固有表現タグを考えることとする。

もし、図３において全ての形態素について上位２位までの固有表現タグを機械的に採用すると、１文目では「が／Ｂ−＜ＬＯＣ＞」や「放映／Ｂ−＜ＰＣＴ＞」の語から、「が」が固有表現状態＜ＬＯＣ＞、また、「放映」が固有表現状態＜ＰＣＴ＞となるようなタグ列も展開される。しかし、いずれの場合も、１位のＮＩＬが信頼度０．９９と非常に高いので、この場合は２位の固有表現タグは対象から外す、という処理を行う。

以下、さらに詳細に説明する。

信頼度の値をみると、現時点の固有表現抽出装置がどの程度の確信度で各形態素の固有表現タグを付与するのかがわかる。

例えば、図３の１つ目の文章で「今日」を１位の固有表現タグＢ−＜ＤＡＴ＞とする信頼度は０．９５であるが、「一丁目」、「の」、「夕日」の部分は１位の信頼度がいずれも約０．５と低く、その分、２位の信頼度が約０．４と比較的高く、１位の信頼度に迫っている。これは現時点の装置の持つ統計モデル（固有表現抽出モデル）では、「今日」については高い信頼度でＢ−＜ＤＡＴ＞の固有表現タグを付与できているのに対し、「一丁目の夕日」については固有表現状態が＜ＬＯＣ＞なのか、＜ＡＲＴ＞なのか、ＮＩＬなのかをうまく判断できていないことを意味する。

つまり、現在の固有表現抽出モデルでは、「今日」が固有表現状態＜ＤＡＴ＞である事象を既に十分に学習しているが、「一丁目の夕日」が固有表現状態＜ＡＲＴ＞である事象は殆ど、あるいは全く学習しておらず、むしろ「〜丁目」という表記が地名（固有表現状態＜ＬＯＣ＞）に良く存在するために、解析に失敗した可能性が高い。

そこで、現時点の固有表現抽出装置が１位の固有表現タグに十分に高い信頼度を付与した場合はそのまま解析が正しいと判断し、逆に１位の固有表現タグの信頼度が低い場合は解析誤りであると判断する。そして、解析誤りと判断した場合は、上位Ｎ個の固有表現タグを侯補として採用すると、図５に示す通り、一部のタグ列が複数に展開されたグラフ構造をとることになる。なお、図５では固有表現タグ同士を接続する線として、後述する除外処理による結果としての破線や点線も含んでいるが、初期段階としては、図中の全ての線が実線であるとみなしたタググラフ構造であると考えれば良い。

１位のタグ信頼度の値としてどこまでを信用できると判断するか、その閾値は実験的または直感的に決めれば良い。

実験的に決める手法の一例としては、予め正解の固有表現タグが付与された評価用データを準備し、タグ信頼度の判断結果と正解とがどの程度一致するかを、閾値をずらしながら評価する手法がある。そして、最もタグ信頼度の判断誤りが少ない時の閾値を利用する。また、閾値の考え方にも幾つかあり、既に説明してきた１位のタグ信頼度の値の大小でのみ決定する手法の他に、１位と２位のタグ信頼度の差を利用する方法や、１位と２位のタグ信頼度の比を利用する方法なども考えられる。いずれの場合も、１位のタグ信頼度が大きいかどうか、あるいは２位のタグ信頼度が１位に拮抗してきているか、ということを考慮できる手法を用いれば良い。また、場合によっては２位までではなく、３位や４位まで考える手法、固有表現タグに応じて閾値を変更する手法などもある。

ところで、閾値は高すぎても低すぎても良くない。閾値を高く設定すればするほど、１位の固有表現タグのみが信頼されるケースは少なくなり、多くの形態素で２位までの固有表現タグを考慮することになる。即ち、本当は正しく解析できていた１位の固有表現タグを信頼できず、結果的にたくさんの誤った２位の固有表現タグを許容するリスクが高まる。一方、閾値を低くすればするほど１位の固有表現タグのみが信頼され、２位までの固有表現タグを考慮する形態素数が減っていく。即ち、本当は誤って解析した１位の固有表現タグをそのまま受け入れてしまうリスクが高まり、結果的にたくさんの正解している２位の固有表現タグを捨ててしまうことになる。

このように、閾値が高すぎれば誤った２位の固有表現タグの許容リスクが発生し、閾値が低すぎれば誤った１位の固有表現タグの許容リスクが発生する。いずれの場合も最終的に作成する自動タグ修正済テキストの精度を左右するため、閾値の設定では両者の中間となるような値、即ち適度な範囲の２位の固有表現タグまでを考慮できるような値を選ぶような注意が必要である。そのためには、前述した通り、正解データを利用して、タグ信頼度に基づく判断結果と実際の正解との一致率を実験的に評価する手法は有効である。

本明細書では、以後、１位のタグ信頼度が０．５以下の場合は２位の固有表現タグも考慮し、それ以外の場合は１位の固有表現タグのみを採用するという前提で説明する。前述した図５は、この前提でのタググラフ展開処理の概要を示している。なお、表示を簡略にするために、図５では形態素の情報として「表記」のみを表しているが、実際には全ての形態素情報を保持しているものとする。

まず、各形態素に対して１位のタグ信頼度が０．５以下の時は２位までのタグ信頼度を残す。図５の例では「一丁目の夕日」、「９０１ｘ」の箇所が２位のタグまで残る。そして、残ったタグを文頭から文末までつなげたものを考える。この展開図の通り、１位のみのタグしかない形態素では１本の線で繋がっていくが、２位までのタグがある形態素では線が分岐する。但し、分岐した線に対して次の２つの制約を設け、該当する分岐は除外する。それは、（１）不適切な接続は許可しない、と、（２）最長一致優先、の２つである。

（１）の不適切な接続とは、ＮＩＬの次にＩ−＜ｙｙｙ＞がくる接続や、Ｂ−＜ｘｘｘ＞の次にＩ−＜ｙｙｙ＞が来る接続である。即ち、Ｉ−＜ｙｙｙ＞に接続できるタグはＢ−＜ｙｙｙ＞またはＩ−＜ｙｙｙ＞のみである（ここで、＜ｙｙｙ＞は任意の固有表現状態を表し、＜ｘｘｘ＞は＜ｙｙｙ＞とは異なる任意の固有表現状態を表すものとする。）。図５では破線で表される接続が不適切な接続であり、タググラフ展開処理ではこの接続は除外する。具体的には「一丁目／Ｂ−＜ＬＯＣ＞」と「の／Ｉ−＜ＡＲＴ＞」の接続や、「９０１／ＮＩＬ」と「ｘ／Ｉ−＜ＡＲＴ＞」の接続がこれに該当する。

（２）の最長一致優先とは、ある形態素から始まる固有表現が複数存在し得る場合、最終的に固有表現として最長となる接続のみを優先し、それより短い固有表現ができないようにするものである。即ち、ある形態素がＮＩＬとＩ−＜ｙｙｙ＞の２つに分岐している時、その直前の形態素にＩ−＜ｙｙｙ＞またはＢ−＜ｙｙｙ＞がある場合は、その直前のＩ−＜ｙｙｙ＞またはＢ−＜ｙｙｙ＞からＮＩＬへの接続は許可しない。また、ある形態素のタグがＢ−＜ｘｘｘ＞とＢ−＜ｙｙｙ＞だった場合、この形態素から始まる複数の固有表現が存在することになるが、最終的により長い固有表現が残るようにする。もし、いずれも同じ長さの固有表現になる場合はそれらを全て残す。

図５では点線で表される接続がこの制約によって除外される。具体的には「一丁目」の形態素から始まる固有表現は、「一丁目」、「一丁目の」、「一丁目の夕日」が固有表現状態＜ＡＲＴ＞として、「一丁目」が固有表現状態＜ＬＯＣ＞として構成可能である。この場合、「一丁目の夕日」という最長の固有表現状態＜ＡＲＴ＞が優先されるためにそれ以外の固有表現状態が成り立つタグの接続は除外される。同様に「９０１」で＜ＡＲＴ＞となる接続は、「９０１ｘ」で＜ＡＲＴ＞となる最長の固有表現状態が優先されるために除外される。

上記２つの制約により、図５では実線で表されるタググラフ構造のみがタググラフ付テキストとして出力される。この時、タググラフ内で構成できた固有表現状態は、それぞれ「一丁目の夕日」が＜ＡＲＴ＞、「９０１ｘ」が＜ＡＲＴ＞となるものである。但し、「９０１ｘ」についてはＮＩＬとなるタグ列も候補として残っている。

以上のようにして各形態素に付与されたタグ信頼度を利用して解析誤りを自動判定し、誤りと判定された場合は下位のタグ候補まで考慮してタググラフを作成する。そしてタググラフ中に存在する複数のタグ列の中から、２つの制約によって尤もらしいタグ列を絞り込んでからタググラフ付テキストとして出力するのが本処理部の役割である。この処理は解析誤りに対して、下位のタグ侯補を総動員して自動的に修正する作業に等しい。その修正が本当に正しいのか否かは次のコンテキスト抽出処理で判定する。

［コンテキスト抽出処理］
コンテキスト抽出処理部２４は、図６に示すように、タググラフ付テキスト記憶部２３からタググラフ付テキストを読み出し（ｓ１１）、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組と固有表現リスト記憶部２１に記憶された固有表現リストとを照合する（ｓ１２）。照合の結果、前記固有表現状態および表記の組が前記固有表現リスト中に存在する場合（ｓ１３）はその組を構成する固有表現タグを含むタグ列を正解タグ列と解釈し、当該正解タグ列に前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成して出力する（ｓ１４）。なお、前述した固有表現状態および表記の組が前記固有表現リスト中に存在しない場合は何もせず、そのまま終了する。

固有表現リスト記憶部２１に記憶された固有表現リストとしては、例えば映画タイトルや製品名を収録することを想定する。固有表現リストには、表記およびそれに対応する固有表現状態を登録する。例えば、「一丁目の夕日」という表記と固有表現状態＜ＡＲＴ＞を対応づけてリストとする。このようなリストは、映画タイトル一覧、書籍タイトル一覧、番組名一覧、製品名一覧など、既存のデータベースをそのまま流用しても良いし、一つ一つ人手で登録しても良い。いずれにせよ、表記および固有表現状態が対応しているものであれば良い。

今、図５に示すようなタググラフ付テキストが得られており、かつ固有表現リストに「一丁目の夕日」、「９０１ｘ」という表記およびその固有表現状態＜ＡＲＴ＞が登録されていたとすると、前記タググラフ付テキスト内で構成される固有表現状態および表記の組が、いずれも固有表現リストに存在していることになる。この場合、これらの組を構成する固有表現タグを含むタグ列を正解タグ列とみなし、それぞれに前記タググラフ付テキストに含まれる形態素列を対応付けて抽出する。このとき抽出されるタグ列は、現在の固有表現抽出モデルによる解析ではタグ信頼度が低い箇所、即ち解析誤りと判定された固有表現を含むデータである。しかし、信頼度２位までの固有表現タグを利用してタググラフ展開処理して作成した自動修正案が、予め用意した固有表現リストにも存在するという事実によって、正しい修正であったと判定された。こうして出力される文章全体の形態素列とタグ列のデータは自動タグ修正済テキストとなる。

図７にコンテキスト抽出処理における処理結果（自動タグ修正済テキスト）の一例を示す。１文目の例では、タグ信頼度付与処理の段階で「一丁目の夕日」の箇所が解析誤りと判定されていた。そこでタググラフ展開処理にて、「一丁目の夕日」が＜ＡＲＴ＞となる修正が提示され、コンテキスト抽出処理にて参照した固有表現リストに同じエントリが存在するという事実によりこの修正が正しいものと判定された。同様に２文目の例では、「９０１ｘ」の箇所が解析誤りと判定され、タググラフ展開処理により「９０１ｘ」がＮＩＬまたは＜ＡＲＴ＞であるという２通りの選択肢が提示された。そしてコンテキスト抽出処理にて固有表現リストに「９０１ｘ」で＜ＡＲＴ＞となるエントリが存在することにより、「９０１ｘ」で＜ＡＲＴ＞となるタグ列が正しい修正として選択された。

本処理の過程は、予め用意した固有表現リストを種として、その種の前後の文脈（コンテキスト）まで含んだタグ列全体を抽出していると捉えることも出来る。しかも、種となる固有表現は既存のモデルでは解析失敗したと判定されたものであるが、次点侯補のタグを考慮することで正解へ修正できた。もし、固有表現リストに該固有表現が存在していなければ、これらのタググラフ展開処理で行った修正が正しいものと判断できないので棄却し、自動タグ修正済テキストとして出力されることもない。

このように、コンテキスト抽出処理で予め準備した正しい固有表現リストを参照する機能により、タググラフ展開処理で発生する間違った修正案が排除される。

［モデル更新］
以上の処理によって自動タグ修正済テキストを得られたら、その自動タグ修正済テキストを正解データとして、更新前のモデル作成に利用した所定の学習データ（正解データ）と併せてモデルの再学習（周知の自動学習）を実行させることにより、更新された固有表現抽出モデルが得られる。

このように、本発明の固有表現抽出装置によれば、
・タグ信頼度に基づいて現時点の装置における解析誤りを自動的に判定する処理、
・上位Ｎ個までのタグ侯補を考慮して作成したタググラフと、予め用意した固有表現リストを利用して解析誤りのタグを自動で修正する処理、
を実行できる。これにより、再学習用の正解データを低コストで作成し、モデル更新を行うことができる。

本発明では、人手の作業コストは固有表現リストを準備することのみであり、従来の正解データを作成するコストが極めて高かったという問題を解決した。また、タグ信頼度に基づいて解析誤りを自動判定することから、現時点の装置が解析を誤るテキスト、即ちその時点の固有表現抽出モデルでは正しく解析できない、新しい言語表現を含むテキストを優先的に学習対象の侯補とすることが可能となり、より効果的なモデル学習を実現する効果もある。

実際の運用例としては、大量のブログテキストを処理対象として自動タグ修正済テキストを溜めていき、適当な時間間隔（例えば１週間分など）で溜まったデータでモデルを更新するというやり方が考えられる。このときに利用する固有表現リストは、最新の商品名や各種のタイトル名など、既存のリストを集めてきたり、世間で話題になっていそうな固有表現を人手で適宜列挙しても良い。以上のようにして、固有表現リストに含まれる新しい固有表現を含む正解データを大量のテキストから低コストで収集できる点が本発明の優れた点である。

なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図１の構成図に示された機能を実現するプログラムをインストールすることによっても実現可能である。

本発明の固有表現抽出装置の実施の形態の一例を示す構成図タグ信頼度の計算パターンの一例を示す説明図タグ信頼度付テキストの一例を示す説明図タググラフ展開処理の流れを示すフローチャートタググラフ展開処理における処理内容の一例を示す説明図コンテキスト抽出処理の流れを示すフローチャートコンテキスト抽出処理における処理結果の一例を示す説明図

符号の説明

１０：信頼度付与処理部、１１：固有表現抽出モデル記憶部、１２：タグ信頼度付与処理部、１３：タグ信頼度付テキスト記憶部、２０：自動誤り修正処理部、２１：固有表現リスト記憶部、２２：タググラフ展開処理部、２３：タググラフ付テキスト記憶部、２４：コンテキスト抽出処理部。

Claims

形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから固有表現抽出モデルの更新に利用できる正解データとしての自動タグ修正済テキストを生成する装置であって、
予め所定の学習データから作成された固有表現抽出のための固有表現抽出モデルを記憶する固有表現抽出モデル記憶部と、
固有表現である文字列についてその表記および当該固有表現の種類を表す固有表現状態からなる固有表現リストを記憶する固有表現リスト記憶部と、
入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部に記憶された固有表現抽出モデルを用いて条件付確率場を適用し、ある形態素の固有表現タグが特定のタグである時の全てのタグ列の事後確率を総和することで個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成するタグ信頼度付与処理部と、
タグ信頼度付与処理部で生成されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位Ｎ個の固有表現タグをグラフ構造に展開し、タググラフ付テキストを生成するタググラフ展開処理部と、
タググラフ展開処理部で生成されたタググラフ付テキストに対し、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組が固有表現リスト記憶部に記憶された固有表現リストに存在する場合は、その組を構成する固有表現タグを含むタグ列に、前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成するコンテキスト抽出処理部とを備えた
ことを特徴とする固有表現抽出装置。
請求項１に記載の固有表現抽出装置において、
タグ信頼度付与処理部で生成されたタグ信頼度付テキストから、形態素毎に信頼度が１位の固有表現タグまたは該１位の信頼度が所定の値以下の時のみ信頼度が上位Ｎ位までの固有表現タグを取り出し、該取り出した固有表現タグ同士を、タグ間の不適切な接続を除外しかつ最長一致優先で文頭から文末まで接続してグラフ構造に展開し、該展開したグラフ構造に、前記タグ信頼度付テキストに含まれる形態素列を対応付けてタググラフ付テキストを生成するタググラフ展開処理部を備えた
ことを特徴とする固有表現抽出装置。
形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから固有表現抽出モデルの更新に利用できる正解データとしての自動タグ修正済テキストを生成する方法であって、
タグ信頼度付与処理部が、入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部に記憶された予め所定の学習データから作成された固有表現抽出のための固有表現抽出モデルを用いて条件付確率場を適用し、ある形態素の固有表現タグが特定のタグである時の全てのタグ列の事後確率を総和することで個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成するステップと、
タググラフ展開処理部が、タグ信頼度付与処理部で生成されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位Ｎ個の固有表現タグをグラフ構造に展開し、タググラフ付テキストを生成するステップと、
コンテキスト抽出処理部が、タググラフ展開処理部で生成されたタググラフ付テキストに対し、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組が固有表現リスト記憶部に記憶された固有表現である文字列についてその表記および当該固有表現の種類を表す固有表現状態からなる固有表現リストに存在する場合は、その組を構成する固有表現タグを含むタグ列に、前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成するステップとを含む
ことを特徴とする固有表現抽出方法。
請求項３に記載の固有表現抽出方法において、
タググラフ展開処理部が、タグ信頼度付与処理部で生成されたタグ信頼度付テキストから、形態素毎に信頼度が１位の固有表現タグまたは該１位の信頼度が所定の値以下の時のみ信頼度が上位Ｎ位までの固有表現タグを取り出し、該取り出した固有表現タグ同士を、タグ間の不適切な接続を除外しかつ最長一致優先で文頭から文末まで接続してグラフ構造に展開し、該展開したグラフ構造に、前記タグ信頼度付テキストに含まれる形態素列を対応付けてタググラフ付テキストを生成するステップを含む
ことを特徴とする固有表現抽出方法。
コンピュータを、請求項１または２に記載の固有表現抽出装置の各手段として機能させるためのプログラム。