JP5152918B2 - 固有表現抽出装置、その方法およびプログラム - Google Patents

固有表現抽出装置、その方法およびプログラム Download PDF

Info

Publication number
JP5152918B2
JP5152918B2 JP2008302526A JP2008302526A JP5152918B2 JP 5152918 B2 JP5152918 B2 JP 5152918B2 JP 2008302526 A JP2008302526 A JP 2008302526A JP 2008302526 A JP2008302526 A JP 2008302526A JP 5152918 B2 JP5152918 B2 JP 5152918B2
Authority
JP
Japan
Prior art keywords
tag
specific expression
reliability
text
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008302526A
Other languages
English (en)
Other versions
JP2010128774A (ja
Inventor
邦子 齋藤
賢治 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008302526A priority Critical patent/JP5152918B2/ja
Publication of JP2010128774A publication Critical patent/JP2010128774A/ja
Application granted granted Critical
Publication of JP5152918B2 publication Critical patent/JP5152918B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、膨大なデータベースから効率良く情報を検索する技術やテキストを要約する技術などにおいて重要な役割を果たす、テキストから人名、地名、組織名などを表す固有表現を抽出する技術に関する。
テキスト中に登場する人名、地名、組織名などの固有表現は、誰が、どこで、何を、といったテキストの内容に直結する役割を果たすことが多く、テキストの内容理解や情報抽出において重要な要素技術である。
固有表現抽出処理で抽出対象とする固有表現の代表的な例としては、日本語の固有表現抽出技術のワークショップ(略称IREX)で定義されている人名、地名、組織名、金額、日付、時間、割合、固有物名の8種類がある。以下、本明細書ではこれらの固有表現の種類をそれぞれ、<PSN>,<LOC>,<ORG>,<MNY>,<DAT>,<TIM>,<PCT>,<ART>と表し、さらに実際には固有表現でない形態素を固有表現の一種類として表すためにNILを追加し、以上の9種類を固有表現状態と呼ぶこととする。
各固有表現状態は少なくとも1つの形態素から構成されることを考慮し、固有表現状態の冒頭の形態素とそれ以外の形態素を識別するために、固有表現状態にさらに開始、途中の区別を与える。以下、本明細書ではそれぞれ、B−、I−で表すことにするが、NILについてはこの区別をしない。B−、I−の区別を与えた固有表現状態を表す識別子を固有表現タグと呼ぶ。即ち、本明細書ではB−<PSN>,I−<PSN>,B−<LOC>,I−<LOC>,B−<ORG>,I−<ORG>,……B−<ART>,I−<ART>,NILの17種の固有表現タグを使用する。
例えば、「NTT/NTT/名詞:固有:組織/B−<ORG>」の固有表現タグはB−<ORG>であり、固有表現状態は<ORG>である。
固有表現抽出は、予め文章を単語に分割して品詞等の単語情報を付与する形態素解析処理を行った上で、前後の文脈をみながら適切な固有表現タグを付与する、という手法が一般的である。例えば、「NTT持株会社社長の三浦氏」という入力文に対して、形態素解析処理結果を表記/読み/品詞で表し、さらに固有表現タグを付与した例を示すと、以下のようになる。
NTT/NTT/名詞:固有:組織/B−<ORG>
持株/モチカブ/名詞/I−<ORG>
会社/ガイシャ/名詞/I−<ORG>
社長/シャチョウ/名詞/NIL
の/ノ/助詞/NIL
三浦/ミウラ/名詞:固有:姓:組織/B−<PSN>
氏/シ/名詞/NIL
ここで、「NTT/NTT/名詞:固有:組織 持株/モチカブ/名詞 会社/ガイシャ/名詞」の部分が3つの形態素から構成される固有表現状態<ORG>、また、「三浦/ミウラ/名詞:固有:姓:組織」が1つの形態素から構成される固有表現状態<PSN>である。なお、この例では「NTT」の品詞は「名詞:固有:組織」であり、組織になり得る固有名詞となっている。また、「三浦」の品詞は「名詞:固有:姓:組織」であり、姓が組織になり得る固有名詞となっている。このように、名詞には一般名詞だけではなく固有名詞という分類も存在し得るが、本特許でいう固有表現抽出とは、単に品詞が固有名詞である一つの形態素を抽出するということではなく、少なくとも1つの形態素のまとまりからなる組織名、人名、地名などの固有表現を抽出することを意味する。
このように固有表現抽出とは、入力文中の形態素を認定し、少なくとも1つの形態素から構成される固有表現状態を認定して該当する固有表現タグを付与する処理である。これは、入力系列である形態素列xに対して、固有表現タグというタグ列yを付与するという「系列タギング問題」として捉えることができる。なお、入力文中の形態素を認定する処理は、形態素解析処理と呼ばれる周知の処理である。
固有表現抽出の手法としては、大きく分けると、人手で設定した規則に基づくものと、予め所定の学習データから作成した統計的モデルに基づくものがある。前者は、対象とする領域や固有表現状態の定義の違いにより、規則を改めて設定し直さなければならないためコストがかかる。一方、後者は、正解データを用意しておけば自動学習を用いることにより低コストで実現でき、近年では様々な学習モデルに基づく固有表現抽出法が研究されている。学習モデルには最大エントロピー法、サポートベクトルマシン、隠れマルコフモデル、条件付確率場など、いくつかの手法がある。
近年、系列タギング問題に対しては、条件付確率場(CRF:Conditional Random Fields)が好成績を挙げており、固有表現抽出技術へも適応されている。CRFでは入力系列xが与えられた時の出力タグ列yの出力確率が以下のように与えられる。
Figure 0005152918
但し、Z(x)は正規化項、Iは入力系列長、fk(x,y,i)は入力系列とタグ列が位置iにおいて、ある条件を満たすときに1、それ以外で0となる(特徴kに関する)素性関数である。
例えば、単語の品詞推定では、位置iにおいて、単語xiの表記xi,1(特徴k=1は「表記」を表す。)が「NTT」で、品詞yiが「名詞:固有:組織」であるときに1、それ以外で0となるような関数である。なお、単語の表記のような、入力の特徴を表すものを素性と呼び、表記、品詞、読みなどの形態素を構成する個々の特徴だけでなく、形態素というまとまりを素性として用いたり、または形態素を検索キーとして別の辞書情報、例えば日本語語彙体系のカテゴリ情報を取得して、そのカテゴリ情報を素性として用いたりすることも可能である。また、現在の位置iだけでなく、以前の位置i−1,i−2、あるいは以後の位置i+1,i+2などの素性も組み合わせ、例えば(xi-1,1,xi,1,xi+1,1)=(NTT,持株,会社)であるときに1、それ以外は0、というような素性関数も設定可能である。λkは(特徴kに関する)素性関数に対する重みである。
ところで、式(1)における正規化項Z(x)は、yには依存しないため、式(1)で示される出現確率を最大にするyを求める上で無視しても問題は無い。即ち、式(1)の分子のみに着目して分子を最大化するyを求めれば、式(1)全体を最大化するyを求められる。
このことにより、入力系列xに対する最適なタグ列Yは、以下の式を満足するものを全タグの組み合わせから探索することにより決定される。
Figure 0005152918
重みλkは予め正解データ中のx,yの組を与え、事後確率最大化学習を行うことにより算出する。具体的な学習アルゴリズムについては、例えば非特許文献1に記載のような手法がある。算出されたλkのことを以後、固有表現抽出モデルと呼ぶ。固有表現抽出装置では、この固有表現抽出モデルを利用して、入力された形態素列に対し、式(2)を最大化する固有表現タグ列を出力する。
ところで、固有表現抽出において、常に問題になるのが式(2)の重みλkを学習するときに必要となる正解データを作成するコストである。解析精度の高い固有表現抽出装置を実現するためには、解析対象として想定される言語表現の特徴を幅広く含んだ正解データを準備することが必要である。
しかし、言語表現の特徴は、テキストのドメインが異なれば大きく変化することがしばしばあり、例えば新聞のようにプロの記者が記述したテキストと、ブログのように一般大衆が自由に記述したテキストでは、使用される語彙や文体などが大きく異なる。そのため、新聞を使って学習した固有表現抽出モデルをそのまま利用してブログからの固有表現抽出を実施すると、期待通りの解析精度が得られない。また、同じドメインであっても、年月が経つにつれて話題が次々と移り変わるために、古い固有表現抽出モデルでは新しく登場する語彙をカバーできないことも良くある。特にブログのように変化の激しいドメインでは、1年前のブログから学習した固有表現抽出モデルでは解析精度が低下することも十分起こり得る。
以上のことから、高い解析精度を実現するには、固有表現抽出モデルを処理対象と合致するドメインのデータから学習すること、および、変化の激しいドメインの場合は適宜最新のテキストを利用して固有表現抽出モデルを更新していく必要がある。しかし、正解データの作成では一つ一つの正解情報、即ち該当テキスト中のどの部分がどの種類の固有表現なのかを正しく認定する作業を全て人手で行う必要があり、これにかかる作成コスト(作業時間や作業量)が高いことが問題となっている。
もし仮に、機械的に解析した結果をそのまま正解データとして利用できるならば、従来かかっていた正解データ作成コストは大幅に削減できるが、通常、機械的な解析結果は一定量の解析誤りを含むため、そのまま正解データとして使うには質が悪い。一方で解析誤りが発生する箇所は、解析に利用した固有表現抽出モデルにとって新しい知識である可能性が高く、今まで学習したことのない新しい事象のために解析に失敗したとも考えられる。そのため、これらの解析誤りを含む箇所を積極的に正解データとして作成できれば、より効果の高いモデル更新が可能となる。
Suzuki J.,McDermott E.and Isozaki H.:Training Conditional Random Fields with Multivariate Evaluation Measures,Proc.ofCOLING−ACL,pp.617−624,2006.
このように、従来の固有表現抽出技術では、
1.モデルを学習するために必要となる正解データの作成コストが高い、
2.1の問題に対して既存の統計的手法で機械的な解析結果を利用すれば作成コストは低下するが、データに解析誤りを含むためにモデルの学習には適さない、
3.更に2の問題については、解析誤りを含む箇所こそが効果的なモデルの学習に寄与すると期待されるため、このような解析誤りを含むデータを積極的に正解データとして利用したい、
という課題があった。
本発明は、これらを解決することを目的とする。
具体的には、タグ信頼度に基づいて解析誤りを自動的に判定し、該解析誤りでは下位のタグ候補と予め準備した固有表現リストを利用して正解と思われるタグ列が存在すると判断できれば、そのタグ列を抽出して正解データとするものである。このときの正解データ作成コストは固有表現リストを用意するだけとなる。これにより、本発明は従来かかっていた正解データ作成コストを大幅に削減し、かつ、学習効果の高いデータを優先的に収集することができる。
本発明は、前記の目的を達成するために以下のような手法を用いる。
1.通常の固有表現抽出装置が出力する文単位の確率値ではなく、個々の単語に付与される固有表現タグについて、付与され得るタグ毎の信頼度を計算する。
2.タグの信頼度には、事後確率を利用する。
3.1の結果から解析誤りを自動判定し、解析誤りとされた箇所は信頼度1位だけでなく上位N位(Nは2以上の整数)までのタグを含めてタググラフを作成する。
4.タググラフを通過するタグ系列のうち、最長の固有表現を構成できるものを選び、更に予め別途準備した固有表現リストを種リストとして、該リストに含まれる固有表現を含んでいれば、正解データとして文全体のタグ列を抽出する。
詳細については、実施の形態にて説明するが、本発明では、文単位ではなくタグ単位で信頼度を計算すること、および、その信頼度から解析誤りを自動的に判定することが特徴である。更に、解析誤りと判定された箇所では、タグ侯補を信頼度1位のみからN位までに拡張してタググラフとして捉え、そのグラフを通過するタグ列の中から、最長一致となる固有表現が構成できること、および、予め別途準備した種リストに登場すること、という2つの条件を満たすことによって正解タグに自動的に修正するのと同じ効果があることが第2の特徴である。
本発明では、文単位ではなく各形態素(単語)に付与される固有表現タグ単位についての信頼度を利用し、文中のある箇所についてそれが低いということは、その部分は現時点の固有表現抽出装置にとって新しい現象であると解釈する。即ち、その時点の固有表現抽出モデルが既に学習している固有表現は非常に高い信頼度が付くが、十分に学習できていない固有表現の場合はそれに比べると低い信頼度が付与される。そこで、信頼度が低い=解析誤りであると解釈すれば、現時点の固有表現抽出装置の解析誤りを自動判定することが可能である。また、解析誤りと判定された場合は信頼度が下位のタグまで採用してタググラフを構成し、そのタググラフに含まれるタグ列の中から最長一致となる固有表現を構成でき、かつ、その固有表現が予め準備した種となる固有表現リストに登場する、という2つの条件を満たすことにより、解析誤りを自動的に正解タグに修正する効果がある。これにより、従来、人手で全てのタグを付与していた正解データ作成のコストを、種となる固有表現リストを準備するコストだけに削減でき、また、現時点の固有表現抽出装置における解析誤りを含むデータを効率的に正解データとして収集できる効果がある。
図1は本発明の固有表現抽出装置の実施の形態の一例を示すもので、信頼度付与処理部10および自動誤り修正処理部20から構成される。
本発明の装置では、予め大規模テキストを形態素解析処理した結果、即ち大規模形態素解析済テキストを入力とする。形態素解析では、自然言語で記述された文が単語に分割され、各単語に品詞や読みなどの単語情報が付与された形態素の集合(形態素列)とされる。本例では、各形態素を「表記/品詞」で表すこととする。なお、形態素解析処理は、周知の形態素解析器を用いて行うことができる。
信頼度付与処理部10は、予め所定の学習データから作成された固有表現抽出のための固有表現抽出モデルを記憶する固有表現抽出モデル記憶部11と、入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部11に記憶された固有表現抽出モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成して出力するタグ信頼度付与処理部12と、タグ信頼度付与処理部12から出力されたタグ信頼度付テキストを記憶するタグ信頼度付テキスト記憶部13とを有する。
自動誤り修正処理部20は、固有表現である文字列(単語または単語列)についてその表記および当該固有表現の種類を表す固有表現状態からなる固有表現リストを記憶する固有表現リスト記憶部21と、タグ信頼度付テキスト記憶部13からタグ信頼度付テキストを読み出し、形態素毎に信頼度が上位N個の固有表現タグをグラフ構造に展開し、タググラフ付テキストを生成するタググラフ展開処理部22と、タググラフ展開処理部22から出力されたタググラフ付テキストを記憶するタググラフ付テキスト記憶部23と、タググラフ付テキスト記憶部23からタググラフ付テキストを読み出し、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組が固有表現リスト記憶部に記憶された固有表現リストに存在する場合は、その組を構成する固有表現タグを含むタグ列に、前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成して出力するコンテキスト抽出処理部24とを有する。
以下、前述した各部における処理の詳細について例を挙げて説明する。
[タグ信頼度付与処理部12]
タグ信頼度付与手段12は、入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部11に記憶された固有表現抽出モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成し、タグ信頼度付テキスト記憶部13に記憶する。この際、信頼度には、タグ毎に算出した事後確率を用いる。
例えば、形態素解析により文xがn単語に分割されているとき、単語xiのタグ候補ti,jの信頼度は以下の式により算出する。
Figure 0005152918
これは、単語xiのタグがti,jである全てのタグ列yの事後確率を総和したものである。従って、長さが入力単語数nのあらゆるタグ列の事後確率を式(1)により算出し、そのうち位置iのタグがti,jであるもののみを総和することにより算出される。図2にタグ候補ti,1のタグ信頼度を求める場合の計算パターンを模式図で示す。
固有表現抽出モデルに線形連鎖条件付確率場を用いる場合、タグ信頼度は文頭から当該タグ候補ti,jに至る全ての経路(タグ列)の確率和αi,j(前向き確率と呼ぶ)と、当該タグ候補ti,jから文末に至る全ての経路の確率和βi,j(後ろ向き確率と呼ぶ)を乗算することによっても求めることができる。即ち、
P(ti=ti,j|x)=αi,jβi,j (4)
前向き確率αi,jは、当該タグ候補より前方の前向き確率から式(5)(6)を用いて再帰的に計算できる。また、後ろ向き確率βi,jは、当該タグ候補より後方の後ろ向き確率から式(7)(8)を用いて再帰的に計算できる。従って、前向きアルゴリズムと後ろ向きアルゴリズム(例えば、北 研二「言語と計算4 確率的言語モデル」東京大学出版会、1999、101〜125頁)を用いてαi,j、βi,jを算出し、両者を乗算することにより、効率的に算出することも可能である。
α0,j=1 (5)
Figure 0005152918
βn+1,j=1 (7)
Figure 0005152918
ここで、fa(ti,xi)およびgb(ti-1,ti)は素性関数と呼ばれ、入力文xと固有表現タグ列yが位置iにおいてある条件を満たすときに1、それ以外で0となる関数である。また、λaおよびμbは素性関数に対する重みであり、固有表現抽出モデル学習時に適切な値が付与される。
図3はタグ信頼度付テキストの一例を示すものである。表記と品詞からなる形態素に対して、タグ信頼度が「固有表現タグ/信頼度」の形で付与されている。ここでは2つの文に対するタグ信頼度付テキストを示している。なお、紙面の都合上、タグ信頼度は上位2つまでを示しているが、実際にタグ信頼度付与処理部12が付与するデータでは、とり得る全ての固有表現タグに対してのタグ信頼度が付与される。具体的には、本明細書で想定している、B−<PSN>,I−<PSN>,B−<LOC>,I−<LOC>,B−<ORG>,I−<ORG>,….B−<ART>,I−<ART>,NILの17種の固有表現タグに対してである。
[タググラフ展開処理部22]
タググラフ展開処理部22は、図4に示すように、タグ信頼度付テキスト記憶部13からタグ信頼度付テキストを読み出し(s1)、タグ信頼度付テキストから形態素毎に信頼度が上位N個、ここでは信頼度が1位の固有表現タグまたは該1位の信頼度が所定の値以下の時のみ信頼度が上位2位までの固有表現タグをその信頼度とともに取り出し(s2)、該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続してグラフ構造に展開し(s3)、該展開したグラフ構造に、前記タグ信頼度付テキストに含まれる形態素列を対応付けてタググラフ付テキストを生成し、タググラフ付テキスト記憶部23に記憶する(s4)。
ここで、基本方針としては、各単語に対して上位N個までの固有表現タグを侯補として展開するが、それでは膨大なタグ列が展開され得る。例えば、w個の単語からなる文に対して全単語でN個の固有表現タグを考慮すると、wのN乗種類のタグ列となる。そこで、タグ信頼度を参照して1位のみしか考慮しないもの、上位N位まで考慮するものを判断する。以後、本明細書では図3の例を使って説明していくため、上位2位までの固有表現タグを考えることとする。
もし、図3において全ての形態素について上位2位までの固有表現タグを機械的に採用すると、1文目では「が/B−<LOC>」や「放映/B−<PCT>」の語から、「が」が固有表現状態<LOC>、また、「放映」が固有表現状態<PCT>となるようなタグ列も展開される。しかし、いずれの場合も、1位のNILが信頼度0.99と非常に高いので、この場合は2位の固有表現タグは対象から外す、という処理を行う。
以下、さらに詳細に説明する。
信頼度の値をみると、現時点の固有表現抽出装置がどの程度の確信度で各形態素の固有表現タグを付与するのかがわかる。
例えば、図3の1つ目の文章で「今日」を1位の固有表現タグB−<DAT>とする信頼度は0.95であるが、「一丁目」、「の」、「夕日」の部分は1位の信頼度がいずれも約0.5と低く、その分、2位の信頼度が約0.4と比較的高く、1位の信頼度に迫っている。これは現時点の装置の持つ統計モデル(固有表現抽出モデル)では、「今日」については高い信頼度でB−<DAT>の固有表現タグを付与できているのに対し、「一丁目の夕日」については固有表現状態が<LOC>なのか、<ART>なのか、NILなのかをうまく判断できていないことを意味する。
つまり、現在の固有表現抽出モデルでは、「今日」が固有表現状態<DAT>である事象を既に十分に学習しているが、「一丁目の夕日」が固有表現状態<ART>である事象は殆ど、あるいは全く学習しておらず、むしろ「〜丁目」という表記が地名(固有表現状態<LOC>)に良く存在するために、解析に失敗した可能性が高い。
そこで、現時点の固有表現抽出装置が1位の固有表現タグに十分に高い信頼度を付与した場合はそのまま解析が正しいと判断し、逆に1位の固有表現タグの信頼度が低い場合は解析誤りであると判断する。そして、解析誤りと判断した場合は、上位N個の固有表現タグを侯補として採用すると、図5に示す通り、一部のタグ列が複数に展開されたグラフ構造をとることになる。なお、図5では固有表現タグ同士を接続する線として、後述する除外処理による結果としての破線や点線も含んでいるが、初期段階としては、図中の全ての線が実線であるとみなしたタググラフ構造であると考えれば良い。
1位のタグ信頼度の値としてどこまでを信用できると判断するか、その閾値は実験的または直感的に決めれば良い。
実験的に決める手法の一例としては、予め正解の固有表現タグが付与された評価用データを準備し、タグ信頼度の判断結果と正解とがどの程度一致するかを、閾値をずらしながら評価する手法がある。そして、最もタグ信頼度の判断誤りが少ない時の閾値を利用する。また、閾値の考え方にも幾つかあり、既に説明してきた1位のタグ信頼度の値の大小でのみ決定する手法の他に、1位と2位のタグ信頼度の差を利用する方法や、1位と2位のタグ信頼度の比を利用する方法なども考えられる。いずれの場合も、1位のタグ信頼度が大きいかどうか、あるいは2位のタグ信頼度が1位に拮抗してきているか、ということを考慮できる手法を用いれば良い。また、場合によっては2位までではなく、3位や4位まで考える手法、固有表現タグに応じて閾値を変更する手法などもある。
ところで、閾値は高すぎても低すぎても良くない。閾値を高く設定すればするほど、1位の固有表現タグのみが信頼されるケースは少なくなり、多くの形態素で2位までの固有表現タグを考慮することになる。即ち、本当は正しく解析できていた1位の固有表現タグを信頼できず、結果的にたくさんの誤った2位の固有表現タグを許容するリスクが高まる。一方、閾値を低くすればするほど1位の固有表現タグのみが信頼され、2位までの固有表現タグを考慮する形態素数が減っていく。即ち、本当は誤って解析した1位の固有表現タグをそのまま受け入れてしまうリスクが高まり、結果的にたくさんの正解している2位の固有表現タグを捨ててしまうことになる。
このように、閾値が高すぎれば誤った2位の固有表現タグの許容リスクが発生し、閾値が低すぎれば誤った1位の固有表現タグの許容リスクが発生する。いずれの場合も最終的に作成する自動タグ修正済テキストの精度を左右するため、閾値の設定では両者の中間となるような値、即ち適度な範囲の2位の固有表現タグまでを考慮できるような値を選ぶような注意が必要である。そのためには、前述した通り、正解データを利用して、タグ信頼度に基づく判断結果と実際の正解との一致率を実験的に評価する手法は有効である。
本明細書では、以後、1位のタグ信頼度が0.5以下の場合は2位の固有表現タグも考慮し、それ以外の場合は1位の固有表現タグのみを採用するという前提で説明する。前述した図5は、この前提でのタググラフ展開処理の概要を示している。なお、表示を簡略にするために、図5では形態素の情報として「表記」のみを表しているが、実際には全ての形態素情報を保持しているものとする。
まず、各形態素に対して1位のタグ信頼度が0.5以下の時は2位までのタグ信頼度を残す。図5の例では「一丁目の夕日」、「901x」の箇所が2位のタグまで残る。そして、残ったタグを文頭から文末までつなげたものを考える。この展開図の通り、1位のみのタグしかない形態素では1本の線で繋がっていくが、2位までのタグがある形態素では線が分岐する。但し、分岐した線に対して次の2つの制約を設け、該当する分岐は除外する。それは、(1)不適切な接続は許可しない、と、(2)最長一致優先、の2つである。
(1)の不適切な接続とは、NILの次にI−<yyy>がくる接続や、B−<xxx>の次にI−<yyy>が来る接続である。即ち、I−<yyy>に接続できるタグはB−<yyy>またはI−<yyy>のみである(ここで、<yyy>は任意の固有表現状態を表し、<xxx>は<yyy>とは異なる任意の固有表現状態を表すものとする。)。図5では破線で表される接続が不適切な接続であり、タググラフ展開処理ではこの接続は除外する。具体的には「一丁目/B−<LOC>」と「の/I−<ART>」の接続や、「901/NIL」と「x/I−<ART>」の接続がこれに該当する。
(2)の最長一致優先とは、ある形態素から始まる固有表現が複数存在し得る場合、最終的に固有表現として最長となる接続のみを優先し、それより短い固有表現ができないようにするものである。即ち、ある形態素がNILとI−<yyy>の2つに分岐している時、その直前の形態素にI−<yyy>またはB−<yyy>がある場合は、その直前のI−<yyy>またはB−<yyy>からNILへの接続は許可しない。また、ある形態素のタグがB−<xxx>とB−<yyy>だった場合、この形態素から始まる複数の固有表現が存在することになるが、最終的により長い固有表現が残るようにする。もし、いずれも同じ長さの固有表現になる場合はそれらを全て残す。
図5では点線で表される接続がこの制約によって除外される。具体的には「一丁目」の形態素から始まる固有表現は、「一丁目」、「一丁目の」、「一丁目の夕日」が固有表現状態<ART>として、「一丁目」が固有表現状態<LOC>として構成可能である。この場合、「一丁目の夕日」という最長の固有表現状態<ART>が優先されるためにそれ以外の固有表現状態が成り立つタグの接続は除外される。同様に「901」で<ART>となる接続は、「901x」で<ART>となる最長の固有表現状態が優先されるために除外される。
上記2つの制約により、図5では実線で表されるタググラフ構造のみがタググラフ付テキストとして出力される。この時、タググラフ内で構成できた固有表現状態は、それぞれ「一丁目の夕日」が<ART>、「901x」が<ART>となるものである。但し、「901x」についてはNILとなるタグ列も候補として残っている。
以上のようにして各形態素に付与されたタグ信頼度を利用して解析誤りを自動判定し、誤りと判定された場合は下位のタグ候補まで考慮してタググラフを作成する。そしてタググラフ中に存在する複数のタグ列の中から、2つの制約によって尤もらしいタグ列を絞り込んでからタググラフ付テキストとして出力するのが本処理部の役割である。この処理は解析誤りに対して、下位のタグ侯補を総動員して自動的に修正する作業に等しい。その修正が本当に正しいのか否かは次のコンテキスト抽出処理で判定する。
[コンテキスト抽出処理]
コンテキスト抽出処理部24は、図6に示すように、タググラフ付テキスト記憶部23からタググラフ付テキストを読み出し(s11)、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組と固有表現リスト記憶部21に記憶された固有表現リストとを照合する(s12)。照合の結果、前記固有表現状態および表記の組が前記固有表現リスト中に存在する場合(s13)はその組を構成する固有表現タグを含むタグ列を正解タグ列と解釈し、当該正解タグ列に前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成して出力する(s14)。なお、前述した固有表現状態および表記の組が前記固有表現リスト中に存在しない場合は何もせず、そのまま終了する。
固有表現リスト記憶部21に記憶された固有表現リストとしては、例えば映画タイトルや製品名を収録することを想定する。固有表現リストには、表記およびそれに対応する固有表現状態を登録する。例えば、「一丁目の夕日」という表記と固有表現状態<ART>を対応づけてリストとする。このようなリストは、映画タイトル一覧、書籍タイトル一覧、番組名一覧、製品名一覧など、既存のデータベースをそのまま流用しても良いし、一つ一つ人手で登録しても良い。いずれにせよ、表記および固有表現状態が対応しているものであれば良い。
今、図5に示すようなタググラフ付テキストが得られており、かつ固有表現リストに「一丁目の夕日」、「901x」という表記およびその固有表現状態<ART>が登録されていたとすると、前記タググラフ付テキスト内で構成される固有表現状態および表記の組が、いずれも固有表現リストに存在していることになる。この場合、これらの組を構成する固有表現タグを含むタグ列を正解タグ列とみなし、それぞれに前記タググラフ付テキストに含まれる形態素列を対応付けて抽出する。このとき抽出されるタグ列は、現在の固有表現抽出モデルによる解析ではタグ信頼度が低い箇所、即ち解析誤りと判定された固有表現を含むデータである。しかし、信頼度2位までの固有表現タグを利用してタググラフ展開処理して作成した自動修正案が、予め用意した固有表現リストにも存在するという事実によって、正しい修正であったと判定された。こうして出力される文章全体の形態素列とタグ列のデータは自動タグ修正済テキストとなる。
図7にコンテキスト抽出処理における処理結果(自動タグ修正済テキスト)の一例を示す。1文目の例では、タグ信頼度付与処理の段階で「一丁目の夕日」の箇所が解析誤りと判定されていた。そこでタググラフ展開処理にて、「一丁目の夕日」が<ART>となる修正が提示され、コンテキスト抽出処理にて参照した固有表現リストに同じエントリが存在するという事実によりこの修正が正しいものと判定された。同様に2文目の例では、「901x」の箇所が解析誤りと判定され、タググラフ展開処理により「901x」がNILまたは<ART>であるという2通りの選択肢が提示された。そしてコンテキスト抽出処理にて固有表現リストに「901x」で<ART>となるエントリが存在することにより、「901x」で<ART>となるタグ列が正しい修正として選択された。
本処理の過程は、予め用意した固有表現リストを種として、その種の前後の文脈(コンテキスト)まで含んだタグ列全体を抽出していると捉えることも出来る。しかも、種となる固有表現は既存のモデルでは解析失敗したと判定されたものであるが、次点侯補のタグを考慮することで正解へ修正できた。もし、固有表現リストに該固有表現が存在していなければ、これらのタググラフ展開処理で行った修正が正しいものと判断できないので棄却し、自動タグ修正済テキストとして出力されることもない。
このように、コンテキスト抽出処理で予め準備した正しい固有表現リストを参照する機能により、タググラフ展開処理で発生する間違った修正案が排除される。
[モデル更新]
以上の処理によって自動タグ修正済テキストを得られたら、その自動タグ修正済テキストを正解データとして、更新前のモデル作成に利用した所定の学習データ(正解データ)と併せてモデルの再学習(周知の自動学習)を実行させることにより、更新された固有表現抽出モデルが得られる。
このように、本発明の固有表現抽出装置によれば、
・タグ信頼度に基づいて現時点の装置における解析誤りを自動的に判定する処理、
・上位N個までのタグ侯補を考慮して作成したタググラフと、予め用意した固有表現リストを利用して解析誤りのタグを自動で修正する処理、
を実行できる。これにより、再学習用の正解データを低コストで作成し、モデル更新を行うことができる。
本発明では、人手の作業コストは固有表現リストを準備することのみであり、従来の正解データを作成するコストが極めて高かったという問題を解決した。また、タグ信頼度に基づいて解析誤りを自動判定することから、現時点の装置が解析を誤るテキスト、即ちその時点の固有表現抽出モデルでは正しく解析できない、新しい言語表現を含むテキストを優先的に学習対象の侯補とすることが可能となり、より効果的なモデル学習を実現する効果もある。
実際の運用例としては、大量のブログテキストを処理対象として自動タグ修正済テキストを溜めていき、適当な時間間隔(例えば1週間分など)で溜まったデータでモデルを更新するというやり方が考えられる。このときに利用する固有表現リストは、最新の商品名や各種のタイトル名など、既存のリストを集めてきたり、世間で話題になっていそうな固有表現を人手で適宜列挙しても良い。以上のようにして、固有表現リストに含まれる新しい固有表現を含む正解データを大量のテキストから低コストで収集できる点が本発明の優れた点である。
なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムをインストールすることによっても実現可能である。
本発明の固有表現抽出装置の実施の形態の一例を示す構成図 タグ信頼度の計算パターンの一例を示す説明図 タグ信頼度付テキストの一例を示す説明図 タググラフ展開処理の流れを示すフローチャート タググラフ展開処理における処理内容の一例を示す説明図 コンテキスト抽出処理の流れを示すフローチャート コンテキスト抽出処理における処理結果の一例を示す説明図
符号の説明
10:信頼度付与処理部、11:固有表現抽出モデル記憶部、12:タグ信頼度付与処理部、13:タグ信頼度付テキスト記憶部、20:自動誤り修正処理部、21:固有表現リスト記憶部、22:タググラフ展開処理部、23:タググラフ付テキスト記憶部、24:コンテキスト抽出処理部。

Claims (5)

  1. 形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから固有表現抽出モデルの更新に利用できる正解データとしての自動タグ修正済テキストを生成する装置であって、
    予め所定の学習データから作成された固有表現抽出のための固有表現抽出モデルを記憶する固有表現抽出モデル記憶部と、
    固有表現である文字列についてその表記および当該固有表現の種類を表す固有表現状態からなる固有表現リストを記憶する固有表現リスト記憶部と、
    入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部に記憶された固有表現抽出モデルを用いて条件付確率場を適用し、ある形態素の固有表現タグが特定のタグである時の全てのタグ列の事後確率を総和することで個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成するタグ信頼度付与処理部と、
    タグ信頼度付与処理部で生成されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位N個の固有表現タグをグラフ構造に展開し、タググラフ付テキストを生成するタググラフ展開処理部と、
    タググラフ展開処理部で生成されたタググラフ付テキストに対し、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組が固有表現リスト記憶部に記憶された固有表現リストに存在する場合は、その組を構成する固有表現タグを含むタグ列に、前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成するコンテキスト抽出処理部とを備えた
    ことを特徴とする固有表現抽出装置。
  2. 請求項1に記載の固有表現抽出装置において、
    タグ信頼度付与処理部で生成されたタグ信頼度付テキストから、形態素毎に信頼度が1位の固有表現タグまたは該1位の信頼度が所定の値以下の時のみ信頼度が上位N位までの固有表現タグを取り出し、該取り出した固有表現タグ同士を、タグ間の不適切な接続を除外しかつ最長一致優先で文頭から文末まで接続してグラフ構造に展開し、該展開したグラフ構造に、前記タグ信頼度付テキストに含まれる形態素列を対応付けてタググラフ付テキストを生成するタググラフ展開処理部を備えた
    ことを特徴とする固有表現抽出装置。
  3. 形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから固有表現抽出モデルの更新に利用できる正解データとしての自動タグ修正済テキストを生成する方法であって、
    タグ信頼度付与処理部が、入力された大規模形態素解析済テキストに対し、固有表現抽出モデル記憶部に記憶された予め所定の学習データから作成された固有表現抽出のための固有表現抽出モデルを用いて条件付確率場を適用し、ある形態素の固有表現タグが特定のタグである時の全てのタグ列の事後確率を総和することで個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成するステップと、
    タググラフ展開処理部が、タグ信頼度付与処理部で生成されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位N個の固有表現タグをグラフ構造に展開し、タググラフ付テキストを生成するステップと、
    コンテキスト抽出処理部が、タググラフ展開処理部で生成されたタググラフ付テキストに対し、固有表現タグによって前記タググラフ付テキスト内で構成される固有表現状態および表記の組が固有表現リスト記憶部に記憶された固有表現である文字列についてその表記および当該固有表現の種類を表す固有表現状態からなる固有表現リストに存在する場合は、その組を構成する固有表現タグを含むタグ列に、前記タググラフ付テキストに含まれる形態素列を対応付けて自動タグ修正済テキストを生成するステップとを含む
    ことを特徴とする固有表現抽出方法。
  4. 請求項3に記載の固有表現抽出方法において、
    タググラフ展開処理部が、タグ信頼度付与処理部で生成されたタグ信頼度付テキストから、形態素毎に信頼度が1位の固有表現タグまたは該1位の信頼度が所定の値以下の時のみ信頼度が上位N位までの固有表現タグを取り出し、該取り出した固有表現タグ同士を、タグ間の不適切な接続を除外しかつ最長一致優先で文頭から文末まで接続してグラフ構造に展開し、該展開したグラフ構造に、前記タグ信頼度付テキストに含まれる形態素列を対応付けてタググラフ付テキストを生成するステップを含む
    ことを特徴とする固有表現抽出方法。
  5. コンピュータを、請求項1または2に記載の固有表現抽出装置の各手段として機能させるためのプログラム。
JP2008302526A 2008-11-27 2008-11-27 固有表現抽出装置、その方法およびプログラム Expired - Fee Related JP5152918B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008302526A JP5152918B2 (ja) 2008-11-27 2008-11-27 固有表現抽出装置、その方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008302526A JP5152918B2 (ja) 2008-11-27 2008-11-27 固有表現抽出装置、その方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2010128774A JP2010128774A (ja) 2010-06-10
JP5152918B2 true JP5152918B2 (ja) 2013-02-27

Family

ID=42329126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008302526A Expired - Fee Related JP5152918B2 (ja) 2008-11-27 2008-11-27 固有表現抽出装置、その方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5152918B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5754306B2 (ja) * 2011-09-01 2015-07-29 富士ゼロックス株式会社 画像識別情報付与プログラム及び画像識別情報付与装置
JP5700566B2 (ja) * 2012-02-07 2015-04-15 日本電信電話株式会社 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
CN105488025B (zh) 2015-11-24 2019-02-12 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
JP6934848B2 (ja) * 2018-09-27 2021-09-15 株式会社Kddi総合研究所 学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置
JP7273442B1 (ja) 2022-10-07 2023-05-15 Dcアーキテクト株式会社 情報処理システム、情報処理方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (ja) * 1992-05-08 1994-02-25 Fujitsu Ltd 固有名詞の自動抽出方式
JP4005477B2 (ja) * 2002-05-15 2007-11-07 日本電信電話株式会社 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP4074316B2 (ja) * 2005-11-28 2008-04-09 株式会社東芝 固有表現抽出装置および方法

Also Published As

Publication number Publication date
JP2010128774A (ja) 2010-06-10

Similar Documents

Publication Publication Date Title
CN103678271B (zh) 一种文本校正方法及用户设备
Shaalan et al. Arabic word generation and modelling for spell checking.
JP2006031295A (ja) 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
Ljubešić et al. Standardizing tweets with character-level machine translation
JP2020087353A (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
US11934781B2 (en) Systems and methods for controllable text summarization
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
CN102033866A (zh) 用于校验化学名称的方法及系统
CN107291730B (zh) 对查询词提供校正建议的方法、装置、及概率词典构建方法
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
JP6476886B2 (ja) キーワード抽出システム、キーワード抽出方法、及び、コンピュータ・プログラム
JP4005477B2 (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム
US11755837B1 (en) Extracting content from freeform text samples into custom fields in a software application
CN111090720B (zh) 一种热词的添加方法和装置
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
KR100892003B1 (ko) 영어 작문 학습 시스템에서, 자동 철자오류 검출 및교정정보 제공 장치 및 그 방법
Varol et al. Estimation of quality of service in spelling correction using Kullback–Leibler divergence
WO2020250279A1 (ja) モデル学習装置、方法及びプログラム
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
CN112905026A (zh) 展示单词建议的方法、装置、存储介质及计算机设备
CN107203512B (zh) 用于从用户的自然语言输入中提取关键元素的方法
Hertel Neural language models for spelling correction

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101215

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110223

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120926

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121130

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5152918

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees