JP2009140049A - 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 - Google Patents

新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2009140049A
JP2009140049A JP2007313205A JP2007313205A JP2009140049A JP 2009140049 A JP2009140049 A JP 2009140049A JP 2007313205 A JP2007313205 A JP 2007313205A JP 2007313205 A JP2007313205 A JP 2007313205A JP 2009140049 A JP2009140049 A JP 2009140049A
Authority
JP
Japan
Prior art keywords
reliability
specific expression
tag
expression
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007313205A
Other languages
English (en)
Other versions
JP5041992B2 (ja
Inventor
Kuniko Saito
邦子 齋藤
Kenji Imamura
賢治 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007313205A priority Critical patent/JP5041992B2/ja
Publication of JP2009140049A publication Critical patent/JP2009140049A/ja
Application granted granted Critical
Publication of JP5041992B2 publication Critical patent/JP5041992B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】テキストデータから新規の固有表現を、その愛称や略称で記述された語彙を含めて精度良くかつ効率良く抽出すること。
【解決手段】タグ信頼度付与処理部12により、形態素解析済の大規模形態素解析済テキストから固有表現モデルを用いて各形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成し、固有表現展開処理部22により、タグ信頼度付テキストに対し、形態素毎に信頼度が上位N個のタグを取り出して展開し、固有表現を取り出し、固有表現語彙リストにないもののみを新規固有表現語彙候補として出力し、スコア計算処理部24により、各候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む候補のタグ信頼度を加算してスコア化し、スコアが高い順に上位M個の候補を新規固有表現語彙リストとして出力する。
【選択図】図1

Description

本発明は、膨大なデータベースから効率良く情報を検索する技術やテキストを要約する技術などにおいて重要な役割を果たす、テキストから人名、地名、組織名などを表す固有表現を抽出する固有表現抽出技術に関する。
テキスト中に登場する人名、地名、組織名などの固有表現は、誰が、どこで、何を、といったテキストの内容と直結する役割を果たすことが多く、テキストの内容理解や情報抽出において重要な要素技術である。
固有表現抽出処理で抽出対象とする固有表現の代表的な例としては、日本語の固有表現抽出技術のワークショップ(略称IREX)で定義されている人名、地名、組織名、金額、日付、時間、割合、固有物名の8種類がある。以下、本明細書ではこれらの固有表現の種類をそれぞれ、<PSN>,<LOC>,<ORG>,<MNY>,<DAT>,<TIM>,<PCT>,<ART>と表し、さらに実際には固有表現でない形態素を固有表現の一種類として表すためにNILを追加し、以上の9種類を固有表現状態と呼ぶこととする。
各固有表現は少なくとも1つの形態素から構成されることを考慮し、固有表現の冒頭の形態素とそれ以外の形態素を識別するために、固有表現状態にさらに開始、途中の区別を与える。以下、本明細書ではそれぞれ、B−、I−で表すことにするが、NILについてはこの区別をしない。B−、I−の区別を与えた固有表現状態を表す識別子を固有表現タグと呼ぶ。即ち、本明細書ではB−<PSN>,I−<PSN>,B−<LOC>,I−<LOC>,B−<ORG>,I−<ORG>,……B−<ART>,I−<ART>,NILの17種類の固有表現タグを使用する。
例えば、「NTT/NTT/名詞:固有:組織/B−<ORG>」の固有表現タグはB−<ORG>であり、固有表現状態は<ORG>である。
固有表現抽出は、予め文章を単語に分割して品詞等の単語情報を付与する形態素解析処理を行った上で、前後の文脈をみながら適切な固有表現タグを付与する、という手法が一般的である。例えば、「NTT持株会社社長の三浦氏」という入力文に対しては、形態素解析処理結果を表記/読み/品詞と表すとし、さらに固有表現タグを付与した例を示すと以下のようになる。
NTT/NTT/名詞:固有:組織/B−<ORG>
持株/モチカブ/名詞/I−<ORG>
会社/ガイシャ/名詞/I−<ORG>
社長/シャチョウ/名詞/NIL
の/ノ/助詞/NIL
三浦/ミウラ/名詞:固有:姓:組織/B−<PSN>
氏/シ/名詞/NIL
「NTT/NTT/名詞:固有:組織 持株/モチカブ/名詞 会社/ガイシャ/名詞」の部分が3つの形態素から構成される固有表現状態<ORG>、「三浦/ミウラ/名詞:固有:姓:組織」が1つの形態素から構成される固有表現状態<PSN>である。なお、この例では「NTT」の品詞は「名詞:固有:組織」であり、組織になり得る固有名詞となっている。また、「三浦」の品詞は「名詞:固有:姓:組織」であり、姓か組織になり得る固有名詞となっている。このように、名詞には一般名詞だけではなく固有名詞という分類も存在し得るが、本特許でいう固有表現抽出とは、単に品詞が固有名詞である一つの形態素を抽出するということではなく、少なくとも1つの形態素のまとまりからなる組織名、人名、地名等の固有表現を抽出することを意味する。
このように固有表現抽出とは、入力文中の形態素を認定し、少なくとも1つの形態素から構成される固有表現を認定して該当する固有表現状態を表す固有表現タグを付与する処理である。
これは、入力系列である形態素列xに対して、固有表現タグというラベル列yを付与するという「系列ラベリング問題」として捉えることができる。なお、入力文中の形態素を認定する処理は、形態素解析処理と呼ばれる周知の処理である。
固有表現抽出の手法としては、大きく分けると、人手で設定した規則に基づくものと、予めデータから学習した統計的モデルに基づくものがある。前者は、対象とする領域や固有表現状態の定義の違いにより、規則を改めて設定し直さなければならないためコストがかかる。一方、後者は、学習データを用意しておけば自動学習を用いることにより低コストで実現でき、近年では様々な学習モデルに基づく固有表現抽出法が研究されている。学習モデルには最大エントロピー法、サポートベクトルマシン、隠れマルコフモデル、条件付確率場など、いくつかの手法がある。
近年、系列ラベリング問題に対しては、条件付確率場(CRF:Conditional Random Fields)が好成績を挙げており、固有表現抽出技術へも適応されている。CRFでは、入力系列xが与えられた時のラベル列yの出力確率が以下のように与えられる。
Figure 2009140049
但し、Z(x)は正規化項、Iは入力系列長、fk(x,y,i)は入力系列とラベル列が位置iにおいて、ある条件を満たすときに1、それ以外で0となる(特徴kに関する)素性関数である。例えば、単語の品詞推定では、位置iにおいて、単語xiの表記xi,1(特徴k=1は「表記」を表す。)が「NTT」で品詞yiが「名詞:固有:組織」であるときに1、それ以外で0となるような関数である。なお、単語の表記のような、入力の特徴を表すものを素性と呼び、表記、品詞、読みなどの形態素を構成する個々の特徴だけでなく、形態素というまとまりを素性として用いたり、または形態素を検索キーとして別の辞書情報、例えば日本語語彙体系のカテゴリ情報を取得して、そのカテゴリ情報を素性として用いたりすることも可能である。また、現在の位置iだけでなく、以前の位置i−1,i−2、あるいは以後の位置i+1,i+2などの素性も組み合わせ、例えば(xi-1,1,xi,1,xi+1,1)=(NTT,持株,会社)であるときに1、それ以外は0、というような素性関数も設定可能である。λkは(特徴kに関する)素性関数に対する重みである。
ところで、式(1)における正規化項Z(x)は、yには依存しないため、式(1)で示される出現確率を最大にするyを求める上で無視しても問題は無い。即ち、式(1)の分子のみに着目して分子を最大化するyを求めれば、式(1)全体を最大化するyを求められる。
このことにより、入力系列xに対する最適なラベル列Yは、以下の式を満足するものを、全ラベルの組み合わせから探索することにより決定される。
Figure 2009140049
本明細書では、これ以降、式(1)の分子で計算される値を確率として扱い、かつ、本文中でも確率という用語をこのまま使用することとする。重みλkは、予め正解データ中のx,yの組を与え、事後確率最大化学習を行うことにより算出する。具体的な学習アルゴリズムについては、例えば非特許文献1に記載されたような手法がある。
ところで、固有表現抽出において常に問題になるのが実際のテキストに次々と登場する新規語彙の扱いである。時期の移り変わりとともに、話題に上る人名、地名、組織名も変化し、システムが保有している統計モデルには登場しないような固有表現が次々に出現することは良くある。これらの未知の固有表現に対しては、学習モデルがうまく働かず、正しく固有表現として認定できないことが多い。そのような事態に対しては、また新たに最新の語彙を含むような学習データを準備してモデルを更新する、という対策もあるが、学習データの作成には時間と費用の両面でコストがかかるという問題がある。
そこで、次善の策として、新たな語彙をリストとして別に用意し、システムが出力する統計的手法に基づく抽出と、語彙リストからの単純文字列マッチに基づく抽出とを併用することも有効である。この場合は新たな語彙のリストをどのように準備するかが問題になるが、例えば、一般に公開されている有名人一覧、製品名一覧、店舗名一覧などを参考にすることが最も簡便な手段の一つである。
しかし、Web上のテキスト、特にブログや掲示板など、一般のユーザが自由に記述したいわゆるCGM(Consumer Generated Media)においては、人名や製品名が愛称や略称で記述されたり、正式名称の一部だけで表現されたりする事例が頻出する。そのため、一般に公開されているような、正式名称あるいはフルネームといったフォーマルな語彙リストでは、実際のデータとうまくマッチしない。そこで、実際のデータから新たな固有表現語彙を効率良く収集することが必要となる。
Webテキストから固有表現の語彙を獲得する従来技術としては、例えば特許文献1に記載されたような手法がある。これは種となるキーワードを用いて、このキーワードのWeb上での出現位置や出現パタンを調べ、これらと類似した出現をするキーワードを新語彙として抽出し、さらに出現回数を考慮して最終的な語彙として獲得する技術である。この技術で利用する出現パタンは文章の文脈的な意味での出現パタンではなく、htmlテキストのテーブル<tr>...</tr>,<td>...</td>を主に想定しており、ブログや掲示板などの本文のようにフリーに記述されたテキストについてはうまく対処できない。
フリーに記述されたテキストから新規の固有表現語彙を収集するには、統計的手法に基づく固有表現抽出処理を行った上で、解析結果から従来の語彙にはなかった固有表現を新規語彙として機械的に収集するのが解法の一つである。しかし、そもそも既存のシステムが所有する統計モデルでは新規語彙に対して正しく抽出できないことが多い、というのが問題の始まりであり、いわば鶏と卵の関係である。
ところで、統計的手法に基づく固有表現抽出では、解析結果とともに式(1)の分子で表される文全体の確率値も得られるため、確率値の高い順に任意の個数の解析結果を得ることが可能である。これらを一般に、Nbest出力(Nは1,2,3,…の1以上の整数であり、確率の高い順に上位N個の解析結果の集合を指す。)と呼ぶ。このNbest出力を利用すれば文全体の解析結果のうち、いくつかの固有表現タグが異なった解を得られるため、1位の結果のみでは得られなかった解が2位以降の下位の出力に含まれている可能性はある。しかしながら、この場合でも2位以降の出力において、1位とは異なった固有表現の出現がどの程度尤もらしいのか、客観的に評価できないという問題がある。
特開2007−11892号公報(語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体) Suzuki J.,McDermott E.and Isozaki H."Training Conditional Random Fields with Multivariate Evaluation Measures",Proc.of COLING−ACL,2006,pp.217−224
従来の固有表現抽出語彙獲得技術では、
1.フリーに記述されたWebテキストから前後の文脈に応じて新規語彙を獲得する技術が無い、
2.1の問題に対して既存の統計的手法で機械的な解析を行う場合は、そもそも既存の統計モデルにとっての新規語彙はうまく抽出できないという根本の問題がある、
3.2の問題に対して、既存の統計的手法のNbest出力を利用する場合は、下位の出力で新規語彙をうまく解析できる可能性がある一方、それら下位の解析結果から得られる語彙がどの程度確からしいのか客観的に評価できない、
という問題があった。
本発明は、これらを解決することを目的とする。
具体的には式(1)で示される文全体の確率ではなく、一つ一つの単語単位で、固有表現タグがどの程度の信頼度で付与されているのかを示すタグ信頼度を利用した固有表現抽出システムを用意し、このシステムが出力する下位の侯補からタグ信頼度を利用して客観的に固有表現の確からしさを評価した上で語彙を収集する。また、大量のテキストを処理対象とし、その出現頻度も考慮することで、よりタグ信頼度の信頼性を向上させるものである。
本発明は、前記の目的を達成するために以下のような手法を用いる。
1.通常のシステムが出力する文単位の確率値ではなく、個々の単語に付与される固有表現タグ、即ちタグについて付与され得るタグ毎の信頼度を計算する。
2.タグ信頼度には、事後確率を利用する。
3.タグ信頼度を用いて上位N個の固有表現タグをシステム出力として得る。
4.3の結果から新規固有表現を収集し、同時にタグ信頼度を単語数に対して正規化する。
5.1〜4を大量のテキストに対して実行し、固有表現を蓄積するとともに正規化されたタグ信頼度を加算することでスコアとする。
6.5で得られた固有表現から、スコアの高い順に上位M個を新規語彙として獲得する。
詳細については、実施の形態にて説明するが、本発明では、文単位ではなくタグ単位で信頼度を計算すること、および、その信頼度を固有表現を構成する単語数で正規化することにより、各固有表現の信頼度として利用することが特徴である。また、この処理を大量のテキストに対して実行することで、信頼度の低い固有表現であっても、何度でも登場するものは信頼度が加算され、いわば多数決の効果により全体の中での信頼度を上げることになることが第2の特徴である。
本発明によれば、文単位ではなく各単語に付与される固有表現タグ単位についての信頼度を利用するため、収集した個々の固有表現についての客観的な尤もらしさを評価することができる。なお、このタグ信頼度はシステムが一つ一つのタグ付与に対して評価する確信度を表しており、文中のある箇所についてそれが低いということは、その部分はシステムにとって新しい事例であることが示唆される。即ち、システムが既に知っている固有表現、即ち統計モデルに収録されている固有表現は非常に高い信頼度が付くが、システムが知らない固有表現の場合はそれに比べると低い信頼度が付与される。そこで、信頼度を利用することで、システムにとって新しい事例の箇所を効率良く発見し、その様な事例では下位のタグまで採用して新規の語彙を獲得できる。また、これらの処理を大量のテキストに対して実行することにより、信頼度の低いタグの出現であっても様々な文脈で何度も出現するものはそれなりに信頼できると判断され、収集語彙の中での信頼度スコアを上昇させることができる。結果として、新しい語彙であるためにシステムがあまり信頼度高く出力できない事例であっても総合的には信頼できるものと判断して新規語彙として獲得できる。
また、通常の文単位の確率値を利用したNbest出力を利用する場合、文全体での固有表現タグの付き方の違いによって1位、2位と解析結果が出力される。その場合、例えば10語からなる入力文について、1位と2位の出力結果の違いは、ある1語の固有タグのみが異なるだけ、という場合も多く、そこから抽出される固有表現語彙は殆ど同じものになる。一方、文中の各単語にタグ信頼度が付与されていれば、全ての単語に対して上位2位までのタグを利用すると、単純な組み合わせとしては最大2^10(2の10乗)通りの出力を得ることと同じであり、そこから抽出される固有表現語彙はたくさんのバリエーションを有する。そしてそれらの固有表現一つ一つに客観的な信頼度が付与されている点が、本発明の新規語彙獲得精度を向上させる効果として大きい。
図1は本発明の新規固有表現語彙獲得装置の実施の形態の一例を示すもので、信頼度付与処理部10及び新規語彙収集処理部20から構成される。
本発明の装置では、予め大規模テキストを形態素解析した結果、即ち大規模形態素解析済テキストを入力とする。形態素解析では、自然言語で記述された文が単語に分割され、各単語に品詞や読みなどの単語情報が付与された形態素の集合(形態素列)とされる。本例では、各形態素を「表記/品詞」で表すこととする。なお、形態素解析処理は、周知の形態素解析器を用いて行うことができる。
信頼度付与処理部10は、予め所定の学習データから作成された固有表現抽出のための固有表現モデルを記憶する固有表現モデル記憶部11と、入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部11に記憶された固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成して出力するタグ信頼度付与処理部12と、タグ信頼度付与処理部12から出力されたタグ信頼度付テキストを記憶するタグ信頼度付テキスト記憶部13とを有する。
新規語彙収集処理部20は、前記所定の学習データ中に含まれる固有表現からなる固有表現語彙リストを記憶する固有表現語彙リスト記憶部21と、タグ信頼度付テキスト記憶部13からタグ信頼度付テキストを読み出し、形態素毎に信頼度が上位N個の固有表現タグを取り出して展開し、該展開した固有表現タグから固有表現を取り出し、固有表現語彙リスト記憶部21に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力する固有表現展開処理部22と、固有表現展開処理部22から出力された新規固有表現語彙候補を記憶する新規固有表現語彙候補記憶部23と、新規固有表現語彙候補記憶部23から新規固有表現語彙候補を読み出し、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む新規固有表現語彙候補については加算して新規固有表現語彙候補のタグ信頼度をスコア化し、スコアが高い順に上位M個の新規固有表現語彙候補を新規固有表現語彙リストとして出力するスコア計算処理部24とを有する。
以下、前述した各部における処理の詳細について例を挙げて説明する。
[タグ信頼度付与処理部12]
タグ信頼度付与手段12は、入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部11に記憶された固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成し、タグ信頼度付テキスト記憶部13に記憶する。この際、信頼度には、タグ毎に算出した事後確率を用いる。
例えば、形態素解析により文xがn単語に分割されているとき、単語xiのタグ候補ti,jの信頼度は以下の式により算出する。
Figure 2009140049
これは、単語xiのタグがti,jである全てのタグ列yの事後確率を総和したものである。従って、長さが入力単語数nのあらゆるタグ列の事後確率を式(1)により算出し、そのうち位置iのタグがti,jであるもののみを総和することにより算出される。図2にタグ候補ti,1のタグ信頼度を求める場合の計算パターンを模式図で示す。
固有表現モデルに線形連鎖条件付確率場を用いる場合、タグ信頼度は文頭から当該タグ候補ti,jに至る全ての経路(タグ列)の確率和αi,j(前向き確率と呼ぶ)と、当該タグ候補ti,jから文末に至る全ての経路の確率和βi,j(後ろ向き確率と呼ぶ)を乗算することによっても求めることができる。即ち、
P(ti=ti,j|x)=αi,jβi,j (4)
前向き確率αi,jは、当該タグ候補より前方の前向き確率から式(5)(6)を用いて再帰的に計算できる。また、後ろ向き確率βi,jは、当該タグ候補より後方の後ろ向き確率から式(7)(8)を用いて再帰的に計算できる。従って、前向きアルゴリズムと後ろ向きアルゴリズム(例えば、北 研二「言語と計算4 確率的言語モデル」東京大学出版会、1999、101〜125頁)を用いてαi,j、βi,jを算出し、両者を乗算することにより、効率的に算出することも可能である。
α0,j=1 (5)
Figure 2009140049
βn+1,j=1 (7)
Figure 2009140049
ここで、fa(ti,xi)およびgb(ti-1,ti)は素性関数と呼ばれ、入力文xと固有表現タグ列yが位置iにおいてある条件を満たすとき「1」、それ以外で「0」となる関数である。また、λaおよびμbは素性関数に対する重みであり、固有表現モデル学習時に適切な値が付与される。
図3はタグ信頼度付テキストの一例を示すものである。表記と品詞からなる形態素に対して、タグ信頼度が「固有表現タグ/信頼度」の形で付与されている。ここでは4つの文に対するタグ信頼度付テキストを示している。なお、紙面の都合上、タグ信頼度は上位2つまでを示しているが、実際にタグ信頼度付与処理部12が付与するデータでは、とり得る全ての固有表現タグに対してのタグ信頼度が付与される。具体的には、本明細書で想定している、B−<PSN>,I−<PSN>,B−<LOC>,I−<LOC>,B−<ORG>,I−<ORG>,….B−<ART>,I−<ART>,NILの17種の固有表現タグに対してである。
[固有表現展開処理部22]
固有表現展開処理部22は、図4に示すように、タグ信頼度付テキスト記憶部13からタグ信頼度付テキストを読み出し(s1)、タグ信頼度付テキストから形態素毎に信頼度が上位N個、ここでは信頼度が1位の固有表現タグ及び該1位の信頼度が所定の値以下の時のみ信頼度が2位の固有表現タグをその信頼度とともに取り出し(s2)、該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続して展開し(s3)、該展開した固有表現タグから固有表現を、1つの形態素から構成される場合はその形態素の表記とともに固有表現状態とタグ信頼度を含めて、また、複数の形態素から構成される場合は各表記をつなげた表記とともに固有表現状態と各タグ信頼度を含めて取り出し(s4)、該取り出した固有表現のうち、固有表現語彙リスト記憶部21に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力し、新規固有表現語彙候補記憶部23に記憶する(s5)。
ここで、基本方針としては、信頼度が上位N個までの固有表現タグに対して全ての組み合わせで展開するのであるが、それでは膨大な固有表現が展開され得る。そこで、タグ信頼度を参照して1位のみしか考慮しないもの、上位N個まで考慮するものを判断する。以後、本明細書では図3の例を使って説明していくため、上位2位までの固有表現タグを考えることとする。
もし全ての形態素について上位2位までの固有表現タグを機械的に採用すると、1文目では「Win/B−<ART>」+「と/I−<ART>」の部分で「Winと」という<ART>の固有表現が生成されてしまう。しかし「と」については、1位のNILが信頼度0.978と非常に高いので、この場合は2位のI−<ART>は対象から外す、という処理を行う。
以下、さらに詳細に説明する。
信頼度の値をみると、システムがどの程度の確信度を持って各形態素ごとの固有表現タグを付与するのかがわかる。例えば、図3の1つ目の文章で「Mac」をB−<ART>とする信頼度は0.764であるが、「Win」をNILとする信頼度は0.437と低く、2位のB−<ART>が0.283と高くなる。これはシステムの持つ統計モデル(固有表現モデル)では「Win」がNILなのかB−<ART>なのかを各信頼度の値が示す確からしさで想定できていることを意味する。また前述の「と」のように明らかに固有表現ではない箇所でNILが0.9以上と極めて高い信頼度になっている箇所は、システムが高い確信をもってNILと認定していることを示している。
図3の例では、「Win」,「iPod(登録商標)」,「901i」、「ゴトタケ」、「FF9」といった部分でタグ信頼度1位の値が低めにでており、2位の固有表現タグの可能性が高いことが示唆されている。このように、1位のタグ信頼度が十分高ければ1位のみを信用し、低ければ2位の固有表現タグも可能性として考えるという方針で固有表現タグの侯補を選定する。即ち、全形態素に対して盲目的に2位までの固有表現タグを採用するのではなく、1位の固有表現タグの信頼性が低い時には2位までも考慮する。1位のタグ信頼度の値としてどこまでを信用できると判断するか、その閾値は実験的または直感的に決めれば良い。
実験的に決める手法の一例としては、予め正解の固有表現タグが付与された評価用データを準備し、タグ信頼度の判断結果と正解とがどの程度一致するかを、閾値をずらしながら評価する手法がある。そうして、最もタグ信頼度の判断誤りが少ない時の閾値を利用する。また、閾値の考え方にも幾つかあり、既に説明してきた1位のタグ信頼度の値の大小でのみ決定する手法の他に、1位と2位のタグ信頼度の差を利用する方法や、1位と2位のタグ信頼度の比を利用する方法なども考えられる。いずれの場合も、1位のタグ信頼度が大きいかどうか、あるいは2位の信頼度が1位に拮抗してきているか、ということを考慮できる手法を用いれば良い。また、場合によっては2位までではなく3位、4位まで考える手法、固有表現タグに応じて閾値を変更する手法などもある。
ところで、閾値は高すぎても低すぎても良くない。閾値を高く設定すればするほど、1位のタグのみが信頼されるケースは少なくなり、多くの形態素で2位までのタグを考慮することになる。即ち、本当は正しく解析できていた1位のタグを信頼できず、結果的にたくさんの誤った2位のタグを許容するリスクが高まる。一方、閾値を低くすればするほど1位のタグのみが信頼され、2位までのタグを考慮する形態素数が減っていく。即ち、本当は誤って解析した1位のタグをそのまま受け入れてしまうリスクが高まり、結果的にたくさんの正解している2位のタグを捨ててしまうことになる。
このように、閾値が高すぎれば誤った2位タグの許容リスクが発生し、閾値が低すぎれば誤った1位タグの許容リスクが発生する。最終的に固有表現を抽出する際は、閾値が高い方がよりたくさんの2位のタグを考慮できるので、収集範囲が広がるという側面もあるが、同時に無意味な固有表現侯補をたくさん集めてしまうという弊害もある。逆に、閾値が低い場合は、2位のタグをほとんど考慮できないため、収集範囲そのものが狭くなる。
いずれの場合も最終的に抽出する固有表現の精度を左右するため、閾値の設定では、両者の中間となるような値、即ち適度な範囲の2位タグまでを考慮できるような値を選ぶような注意が必要である。そのためには、前述した通り、正解データを利用して、タグ信頼度に基づく判断結果と実際の正解との一致率を実験的に評価する手法は有効である。
本明細書では、以後、1位のタグ信頼度が0.6以下の場合は2位の固有表現タグも考慮し、それ以外の場合は1位の固有表現タグのみを採用すると言う前提で説明する。図5にこの前提での固有表現展開処理の概要を示す。なお、展開処理では形態素の情報としては表記のみを利用する。
まず、各形態素に対して1位のタグ信頼度が0.6以下の時は2位までのタグ信頼度を取り出す。図3の例では「Win」、「iPod」、「901」、「i」、「ゴトタケ」、「FF」、「9」の箇所が2位のタグまで取り出す。そして、図5(a)の展開図のように、取り出したタグを文頭から文末までつなげたものを考える。この展開図の通り、1位のみのタグしかない形態素では1本の線で繋がっていくが、2位までのタグがある形態素では線が分岐する。但し、線を分岐する際には次の2つの制約を設ける。それは、(1)不適切な接続は許可しない、と、(2)最長一致優先、の2つである。
(1)の不適切な接続とは、NILの次にI−<yyy>がくる接続や、B−<xxx>の次にI−<yyy>が来る接続である。即ち、I−<yyy>に接続できるタグはB−<yyy>またはI−<yyy>のみである(ここで、<yyy>は任意の固有表現状態を表し、<xxx>は<yyy>とは異なる任意の固有表現状態を表すものとする。)。図5では破線で表される接続が不適切な接続であり、固有表現展開処理ではこの接続は除外する。具体的には901/NILとi/I−<ART>の接続、FF/NILと9/I−<ART>の接続がこれに該当する。
(2)の最長一致優先とは、最終的に固有表現として最長となる接続を優先させ、部分的な接続での固有表現ができないようにするものである。即ち、ある形態素がNILとI−<yyy>の2つに分岐している時、その直前の形態素にI−<yyy>またはB−<yyy>がある場合は、その直前のI−<yyy>またはB−<yyy>からNILへの接続は許可しない。図5では点線で表される接続が最長一致優先の制約によって除外される接続である。具体的には901/B<ART>とi/NILの接続は、901/B−<ART>とi/I−<ART>の接続が最長一致によって優先されるために除外される。同じくFF/B−<ART>と9/NILの接続は、FF/B−<ART>と9/I−<ART>が優先されるために除外される。
このようにして信頼度の閾値に基づいて固有表現タグの展開をした後、図5(b)に示すように、固有表現を「表記/固有表現状態/タグ信頼度」の形で取り出す。複数の形態素から構成される固有表現の場合、表記は繋げて1つとし、タグ信頼度はそれぞれを「/」で区切って繋げる。例えば、901/B−<ART>/0.208とi/I−<ART>/0.201の部分から取り出される固有表現は2つの表記を繋げて901iとし、固有表現状態は<ART>、そしてタグ信頼度は2つを「/」で区切って繋げて最終的には「901i/<ART>/0.208/0.201」となる。
この例にあるように、「Win」、「901i」、「FF9」、「ゴトタケ」といった表現は、正式な製品名やフルネームとは異なった、独特の省略した言い回しであり、ブログなどではこちらの方が良く出現する。こういった表現を客観的な信頼度とともに抽出できる点が本技術の利点である。
上記のようにしてタグ信頼度を見ながらとり得る固有表現タグを展開して固有表現を取り出すが、ここでは新規語彙の獲得が目的であるため、最終的には現システムの統計モデルの語彙にはないもののみを出力する。即ち、統計モデルの学習に用いた学習データから固有表現語彙リストを作成しておき、そのリストに存在しない固有表現のみを新規固有表現語彙候補として出力する。
図6は新規固有表現語彙侯補の一例を示すものである。図5(a)の展開図から取り出た固有表現(途中経過)(図5(b))の中から現システムの統計モデルの語彙にはないエントリだけが残る。また、処理対象とした大規模テキスト中の様々な文脈において、「901i」、「iPod」など、同じ表記の固有表現が登場した場合、その都度、その時のタグ信頼度とともに抽出される。
[スコア計算処理部24]
スコア計算処理部24は、図7に示すように、新規固有表現語彙候補記憶部23から新規固有表現語彙候補を読み出し(s11)、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し(s12)、同一の表記及び固有表現状態を含む新規固有表現語彙候補のタグ信頼度を加算してスコア化し(s13)、スコアが高い順に上位M個の新規固有表現語彙候補を新規固有表現語彙リストとして出力する(s14)。
スコア化では、まず、新規固有表現語彙候補に対し、構成する形態素数によるタグ信頼度の正規化を行う、即ちタグ信頼度の総和/タグ信頼度の個数を計算する。例えば、図6の901i/<ART>/0.208/0.201の例では、(0.208+0.201)/2=0.2045がこの901i/<ART>全体の信頼度であるとする。そして同様の計算を全ての侯補に対して行い、同じ表記及び固有表現状態を含む新規固有表現語彙候補が複数回登場する場合は信頼度を加算して最終的なそのエントリ(新規固有表現語彙候補)のスコアとする。
図6でiPod/<ART>は、タグ信頼度が1つずつついているので、そのままiPod/<ART>全体の信頼度とみなされ、そしてそれが5回登場しているので順次加算して0.941+0.647+0.536+0.226+0.342=2,692が最終的なiPod/<ART>のスコアとなる。スコアが大きいエントリほど、タグ信頼度そのものが高いか、タグ信頻度は低くても大規模テキスト中での出現回数が多くて上位になったものである。そのため、信頼度が高いものが得られるだけでなく、個々の信頼度が多少低くても、何度も想定され得る表現は正しいであろうという、いわば多数決の要素が加わり、単発で登場するものは淘汰されていくという効果も生じる。
全ての侯補についてスコアが計算できたら、スコアの高い順に上位M個を取り出して新規固有表現語彙リストとする。
図8に新規固有表現語彙リストの一例を示す。これは約10万記事のブログデータから抽出したときのものである。スコアの高い順に上位15件を示した。このようにスコア順に数千語規模のリストが得られるが、上位のものほど正解を多く含み、下位に行くほど誤って抽出する事例も存在する。
図9に本発明による手法(タグ信頼度)と、システムNbest出力(N=2)から新規語彙を抽出する手法との上位M語までのリストについての正解率を示す。ここでいう正解率とは、予め人手で固有表現タグが付与された正解データに対して各手法を用いた固有表現語彙収集を行い、収集した語彙リストが、本当に正解データ中に固有表現として登場していた語彙なのかを調べ、登場していれば正解、していなければ不正解として、収集語彙に占める正解の語彙の割合を示したものである。本手法はシステムNbest出力と比較して高い正解率で新規語彙を収集できていることが分かる。
なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムをインストールすることによっても実現可能である。
本発明の新規固有表現語彙獲得装置の実施の形態の一例を示す構成図 タグ信頼度の計算パターンの一例を示す説明図 タグ信頼度付テキストの一例を示す説明図 固有表現展開処理の流れを示すフローチャート 固有表現展開処理における処理内容の一例を示す説明図 新規固有表現語彙侯補の一例を示す説明図 スコア計算処理の流れを示すフローチャート 新規固有表現語彙リストの一例を示す説明図 本発明による効果を示す説明図
符号の説明
10:信頼度付与処理部、11:固有表現モデル記憶部、12:タグ信頼度付与処理部、13:タグ信頼度付テキスト記憶部、20:新規語彙収集処理部、21:固有表現語彙リスト記憶部、22:固有表現展開処理部、23:新規固有表現語彙候補記憶部、24:スコア計算処理部。

Claims (6)

  1. 形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから新規な固有表現語彙を獲得する装置であって、
    予め所定の学習データから作成された固有表現抽出のための固有表現モデルを記憶する固有表現モデル記憶部と、
    前記所定の学習データ中に含まれる固有表現からなる固有表現語彙リストを記憶する固有表現語彙リスト記憶部と、
    入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部に記憶された固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成して出力するタグ信頼度付与処理部と、
    タグ信頼度付与処理部から出力されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位N個の固有表現タグを取り出して展開し、該展開した固有表現タグから固有表現を取り出し、固有表現語彙リスト記憶部に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力する固有表現展開処理部と、
    固有表現展開処理部から出力された新規固有表現語彙候補に対し、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む新規固有表現語彙候補のタグ信頼度を加算してスコア化し、スコアが高い順に上位M個の新規固有表現語彙候補を新規固有表現語彙リストとして出力するスコア計算処理部とを備えた
    ことを特徴とする新規固有表現語彙獲得装置。
  2. 請求項1に記載の新規固有表現語彙獲得装置において、
    タグ信頼度付与処理部から出力されたタグ信頼度付テキストを記憶するタグ信頼度付テキスト記憶部からタグ信頼度付テキストを読み出し、タグ信頼度付テキストから形態素毎に信頼度が上位N個の固有表現タグをその信頼度とともに取り出し、該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続して展開し、該展開した固有表現タグから固有表現を、1つの形態素から構成される場合はその形態素の表記とともに固有表現状態とタグ信頼度を含めて、また、複数の形態素から構成される場合は各表記をつなげた表記とともに固有表現状態と各タグ信頼度を含めて取り出し、該取り出した固有表現のうち、固有表現語彙リスト記憶部に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力する固有表現展開処理部を備えた
    ことを特徴とする新規固有表現語彙獲得装置。
  3. 形態素解析済のテキストの大規模な集合である大規模形態素解析済テキストから新規な固有表現語彙を獲得する方法であって、
    タグ信頼度付与処理手段が、入力された大規模形態素解析済テキストに対し、固有表現モデル記憶部に記憶された予め所定の学習データから作成された固有表現抽出のための固有表現モデルを用いて個々の形態素がとり得る固有表現タグ毎の信頼度を算出し、各形態素に該固有表現タグとその信頼度を付与してタグ信頼度付テキストを生成して出力するステップと、
    固有表現展開処理手段が、タグ信頼度付与処理部から出力されたタグ信頼度付テキストに対し、形態素毎に信頼度が上位N個の固有表現タグを取り出して展開し、該展開した固有表現タグから固有表現を取り出し、固有表現語彙リスト記憶部に記憶された前記所定の学習データ中に含まれる固有表現からなる固有表現語彙リストにないもののみを新規固有表現語彙候補として出力するステップと、
    スコア計算処理手段が、固有表現展開処理部から出力された新規固有表現語彙候補に対し、各新規固有表現語彙候補のタグ信頼度をその形態素数に対して正規化し、同一の表記及び固有表現状態を含む新規固有表現語彙候補のタグ信頼度を加算してスコア化し、スコアが高い順に上位M個の新規固有表現語彙候補を新規固有表現語彙リストとして出力するステップとを含む
    ことを特徴とする新規固有表現語彙獲得方法。
  4. 請求項3に記載の新規固有表現語彙獲得方法において、
    固有表現展開ステップは、
    タグ信頼度付与処理部から出力されたタグ信頼度付テキストを記憶するタグ信頼度付テキスト記憶部からタグ信頼度付テキストを読み出すステップと、
    タグ信頼度付テキストから形態素毎に信頼度が上位N個の固有表現タグをその信頼度とともに取り出すステップと、
    該取り出した固有表現タグ同士を適切かつ最長一致優先で文頭から文末まで接続して展開するステップと、
    該展開した固有表現タグから固有表現を、1つの形態素から構成される場合はその形態素の表記とともに固有表現状態とタグ信頼度を含めて、また、複数の形態素から構成される場合は各表記をつなげた表記とともに固有表現状態と各タグ信頼度を含めて取り出すステップと、
    該取り出した固有表現のうち、固有表現語彙リスト記憶部に記憶された固有表現語彙リストにないもののみを新規固有表現語彙候補として出力して新規固有表現語彙候補記憶部に記憶するステップとからなる
    ことを特徴とする新規固有表現語彙獲得方法。
  5. コンピュータを、請求項1または2に記載の新規固有表現語彙獲得装置の各手段として機能させるためのプログラム。
  6. 請求項5に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007313205A 2007-12-04 2007-12-04 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体 Expired - Fee Related JP5041992B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007313205A JP5041992B2 (ja) 2007-12-04 2007-12-04 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007313205A JP5041992B2 (ja) 2007-12-04 2007-12-04 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2009140049A true JP2009140049A (ja) 2009-06-25
JP5041992B2 JP5041992B2 (ja) 2012-10-03

Family

ID=40870624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007313205A Expired - Fee Related JP5041992B2 (ja) 2007-12-04 2007-12-04 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5041992B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (ja) * 1992-05-08 1994-02-25 Fujitsu Ltd 固有名詞の自動抽出方式
JP2004046775A (ja) * 2002-05-15 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP2007148785A (ja) * 2005-11-28 2007-06-14 Toshiba Corp 固有表現抽出装置および方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (ja) * 1992-05-08 1994-02-25 Fujitsu Ltd 固有名詞の自動抽出方式
JP2004046775A (ja) * 2002-05-15 2004-02-12 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP2007148785A (ja) * 2005-11-28 2007-06-14 Toshiba Corp 固有表現抽出装置および方法

Also Published As

Publication number Publication date
JP5041992B2 (ja) 2012-10-03

Similar Documents

Publication Publication Date Title
US20100205198A1 (en) Search query disambiguation
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US20100332217A1 (en) Method for text improvement via linguistic abstractions
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
Ljubešić et al. Standardizing tweets with character-level machine translation
JP2009223463A (ja) 同義性判定装置、その方法、プログラム及び記録媒体
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
Urmi et al. A corpus based unsupervised Bangla word stemming using N-gram language model
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
Tantuğ Document categorization with modified statistical language models for agglutinative languages
Teixeira et al. A bootstrapping approach for training a ner with conditional random fields
KR101333485B1 (ko) 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
JP2007156545A (ja) 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体
CN110263170A (zh) 一种文本类别的自动标注方法及系统
JP4873739B2 (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
Khan et al. A clustering framework for lexical normalization of Roman Urdu
Chifu et al. A system for detecting professional skills from resumes written in natural language
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5853595B2 (ja) 形態素解析装置、方法、プログラム、音声合成装置、方法、プログラム
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JP5041992B2 (ja) 新規固有表現語彙獲得装置、その方法、プログラム及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120629

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120709

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120710

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees