JP2012146003A - データ抽出装置、データ抽出方法、及びプログラム - Google Patents

データ抽出装置、データ抽出方法、及びプログラム Download PDF

Info

Publication number
JP2012146003A
JP2012146003A JP2011001801A JP2011001801A JP2012146003A JP 2012146003 A JP2012146003 A JP 2012146003A JP 2011001801 A JP2011001801 A JP 2011001801A JP 2011001801 A JP2011001801 A JP 2011001801A JP 2012146003 A JP2012146003 A JP 2012146003A
Authority
JP
Japan
Prior art keywords
topic
entity
positive
information
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011001801A
Other languages
English (en)
Other versions
JP5379813B2 (ja
Inventor
Kugatsu Sadamitsu
九月 貞光
Kuniko Saito
邦子 齋藤
Kenji Imamura
賢治 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011001801A priority Critical patent/JP5379813B2/ja
Publication of JP2012146003A publication Critical patent/JP2012146003A/ja
Application granted granted Critical
Publication of JP5379813B2 publication Critical patent/JP5379813B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】人手による修正コストを小さくし、かつ、セマンティックドリフトを効率的に軽減する
【解決手段】正例エンティティに対応する正例トピック情報を正例エンティティの素性の少なくとも一部とし、負例エンティティに対応する負例トピック情報を負例エンティティの素性の少なくとも一部とし、正例エンティティの素性と負例エンティティの素性とを教師あり学習データとした学習処理によって識別モデルを生成し、対象エンティティに対応するトピック情報を当該対象エンティティの素性の少なくとも一部とし、対象エンティティが正例エンティティか負例エンティティかを識別する。また、トピック情報の関する情報を人手によって修正する。
【選択図】図1

Description

本発明は、テキストデータの集合からデータを抽出する技術に関し、特に、特定の内容と関連を持つ文字列を入力として同じような関連を持つ文字列をテキストデータの集合から抽出する技術に関する。
現在様々な自然言語処理技術の研究開発が進み、WEBのような膨大な知識源から必要な情報を抽出する手法が多く存在している。そのような手法の一つに、特定の内容と何らかの関連を持つ文字列(例えば<広島>や<阪神>など)を入力として、大量のテキストデータ(例えば文書データ)から同じような関連を持つ文字列(例えば<ヤクルト>など)を収集するものがある。このような手法を「set expansion」と呼ぶ。また、set expansionで扱われる文字列を「エンティティ」と呼び、抽出対象のエンティティを「正例エンティティ」と呼び、抽出しない(抽出対象としない)エンティティを「負例エンティティ」と呼ぶ。さらに、set expansionにおいて最初に入力されるエンティティを「シードエンティティ」と呼び、正例のシードエンティティを「正例シードエンティティ」と呼び、負例のシードエンティティを「負例シードエンティティ」と呼ぶ。
set expansionの手法として一般的に用いられているのがブートストラップ法である。ブートストラップ法とは、一度学習したモデルに基づいて識別を行い、それを新たな学習データとして用いていく繰り返し学習の枠組みである。
set expansionの代表的な手法として、TChai(非特許文献1等参照)が知られている。このような手法により、自動的に新しいエンティティを獲得することができるが、システムのみによる完全な自動処理には限界があり、抽出対象としていないエンティティが誤って獲得されてしまうことも多い。
そこで、システムによる識別結果(抽出対象となるエンティティ)を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術(非特許文献2等参照)が提案されている。これをアクティブラーニング法と呼ぶ。この技術では、人手で修正された結果のみをそのまま修正内容として用いるのではなく、その修正により影響される可能性がある他のエンティティ候補についても自動的に修正を行うことで、できるだけ人手の介入のコストを削減し、高精度なエンティティ獲得を行う。非特許文献2の例では、SIM(Similarity Method)及びFMM(Feature Modification Method)という2つの方法が提案されている。これらの方法では、システムが正例と判断したエンティティをユーザに提示し、その判断の正しさについてユーザに確認を求める。
SIMでは、システムが正例と識別し、ユーザに確認を求めた正例エンティティにおいて、ユーザが負例を発見した場合、ユーザが負例と判断したエンティティだけではなく、それと素性の類似度が高いエンティティも正例エンティティの集合から削除する。類似度にはコサイン類似度等が用いられ、負例と判断されたエンティティと素性の類似度が閾値以上のエンティティが、正例エンティティの集合から削除される。例えば、非特許文献2の例では、類似度としてPMI(pointwise mutual information)で重み付けされた素性のコサイン類似度が用いられる。
FMMでは、上記と同様にユーザが負例を発見した場合、現在の正例エンティティの集合に含まれる素性に対するスコアと、当該正例エンティティの集合に含まれる素性からユーザが負例と判断したエンティティの素性に共通する要素を排除した素性に対するスコアとの間の変動量が評価され、それが所定の閾値以上となるエンティティが正例エンティティの集合から削除される。SIMではエンティティを削除しすぎる傾向があるのに対し、FMMはそれを抑える効果がある。
小町守,鈴木久美,「検索ログからの半教師あり意味知識獲得の改善」,人工知能学会論文誌,Vol. 23,No. 3,2008,p. 217-225. Vishnu Vyas and Patrick Pantel, "Semi-Automatic Entity Set Refinement," NAACL/HLT 2009, 2009, pp. 290-298.
従来のset expansionにはセマンティックドリフトという課題が存在する。例えば球団名を表す<広島><阪神>という正例シードエンティティに対して、従来のset expansionにより正例エンティティ<ヤクルト>が獲得できたとする。<ヤクルト>は飲料名でもあるので、<ヤクルト>を新たに正例エンティティに追加することで次のイテレーションでは<コーラ>等の飲料系のエンティティが正例エンティティとして獲得されるようになり、獲得される正例エンティティの話題がシフトしていく可能性がある。このように獲得される正例エンティティの話題がシフトしていく現象をセマンティックドリフトと呼ぶ。
非特許文献2で述べられている手法は、セマンティックドリフトを抑制する手段として効果的である。しかしながら、非特許文献2では、ユーザによって修正されたエンティティをどのように用いるのかが効果的かという点に着目されており、どのような情報をユーザに確認させるのが効果的かという点については提案されていない。
本発明はこのような点に鑑みてなされたものであり、人手による修正コストを小さくし、かつ、セマンティックドリフトを効率的に軽減する技術を提供することを目的とする。
抽出対象の文字列である正例エンティティの集合から選択した正例エンティティを含むテキストデータに対応するトピックを表す正例トピック情報を正例エンティティの素性の少なくとも一部とし、抽出対象ではない文字列である負例エンティティの集合から選択した負例エンティティを含むテキストデータに対応するトピックを表す負例トピック情報を負例エンティティの素性の少なくとも一部とし、正例エンティティの素性と負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する。トピックを表すトピック情報に対応するテキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択したテキストデータに対応するトピックを表すトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を識別モデルに入力して対象エンティティが正例エンティティか負例エンティティかを識別し、対象エンティティが正例エンティティであると識別した場合に対象エンティティを正例エンティティの集合の要素とし、対象エンティティが負例エンティティであると識別した場合に対象エンティティを負例エンティティの集合の要素とする。正例トピック情報の集合の部分集合をトピック修正候補の集合として選択し、トピック修正候補の集合を出力し、トピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する修正情報の入力を受け付ける。
本発明では、人手によって与えられた修正情報を用いてトピック情報を修正できるが、トピック情報は一以上のエンティティに対応する場合が多く、人手によるトピック情報の処理コストは人手による個々のエンティティの処理コストよりも小さい。これにより、人手による修正コストを小さくし、かつ、セマンティックドリフトを効率的に軽減することができる。
図1は、実施形態のデータ抽出装置の機能構成を例示するためのブロック図である。 図2は、実施形態のデータ抽出装置のデータ抽出処理を例示するための図である。 図3は、記憶部に格納されたテキストデータの集合Dを例示した図である。 図4Aは、トピック情報付きテキストデータの集合D'を例示した図である。図4Bは、トピック情報抽出部が出力する組(fPe j, <+1>)及び組(fNe j, <-1>)を例示した図である。
以下、図面を参照して本発明の実施形態を説明する。
〔第1実施形態〕
<構成>
図1に例示するように、第1実施形態のデータ抽出装置1は、記憶部101−105、制御部106、トピック付与部107、素性抽出部108、トピック情報抽出部109、トピック修正候補選択部111、トピック修正候補提示部112、修正情報取得部113、更新部115、識別学習部117、エンティティ識別部118、収束判定部119、及び出力部120を有し、制御部106の制御のもと各処理を実行する。なお、データ抽出装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)及びROM(read-only memory)等を含む公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。例えば、記憶部101−105は、ハードディスクや半導体メモリなどであり、制御部106、トピック付与部107、素性抽出部108、トピック情報抽出部109、トピック修正候補選択部111、更新部115、識別学習部117、エンティティ識別部118、収束判定部119、及び出力部120は、特別なプログラムが読み込まれたCPUなどである。また、これらの少なくとも一部が集積回路などによって構成されてもよい。トピック修正候補提示部112は、例えば、情報をユーザに提示するディスプレイなどのユーザインタフェース、又はそのようなユーザインタフェースに情報を出力する出力ポートなどである。修正情報取得部113は、例えば、ユーザからの情報の入力を受け付けるキーボード、マウスなどのユーザインタフェース、又はそのようなユーザインタフェースからの情報が入力される入力ポートなどである。図1に表記された矢印は情報の流れを表すが、表記の都合上一部の矢印が省略されている。
<事前処理>
事前処理として、記憶部101にテキストデータの集合Dが格納され、記憶部102にトピックモデルTM0が格納される。
テキストデータとは、文字テキストを含むデータを意味する。テキストデータの例は、文書データ、クエリ、語句を含む図表データ、フレーズデータ、単語列データなどである。本形態では、形態素解析、固有表現抽出、係り受け解析、文境界同定などの前処理を行った後の文書データをテキストデータとした例を示す。
「トピックモデルTM0」とは、テキストデータに対応するトピックに対応するトピック情報とそのテキストデータが含む文字列との関係を記述するモデル(関数、数式)を意味する。「文字列」の具体例は、単語、単語列、フレーズ、文、文字、記号などである。テキストデータに対応するトピックとは、テキストデータのトピック(題目、話題、事柄、出来事、論題、分類など)を意味する。トピック情報は、テキストデータに対応するトピックに対応する情報であればどのようなものであってもよい。例えば、テキストデータに対応するトピックの候補(例えば<球団名>や<企業名>など)ごとに、当該テキストデータに対する各トピックの候補の適切さを表す指標(例えば、確率、重み係数、確率や重み係数の関数値であるスコアなど)が与えられ、それらの指標の少なくとも一部が当該テキストデータのトピック情報とされてもよい。
トピックモデルは、事前に教師なし学習データ(トピック情報との関係が特定されていないテキストデータから得られる学習データ)から獲得しておく。例えば、WEB上の100万個の文書データから所望のエンティティを獲得したい場合には、これら100万個の文書データから得られた学習データを用いてトピックモデルを学習しておく。
トピックモデルTM0の具体例は、UM(Unigram Mixtures)(参考文献1「Andrew K. McCallum, Kamal Nigam, "Employing EM and Pool-Based Active Learning for Text Classification", ICML'98, 1998」等参照)、LDA(Latent Dirichlet Allocation)、DM(Dirichlet Mixtures)などである。以下にトピックモデルTM0としてUMを用いる例を示す。
この場合のトピックモデルTM0は以下の形で定義される。
Figure 2012146003
ここでdはテキストデータの集合Dに属するテキストデータd∈Dを表し、p(d)はテキストデータの集合Dにおけるテキストデータdの出現確率を表す。z∈Zは隠れ変数であり、各zが1つのトピックの候補に対応する。Zは隠れ変数zの集合を表す。以下ではzを1以上Z以下の自然数とし、Zを隠れ変数の総数(トピックの候補の総数)とする。p(z)は隠れ変数zに対する確率であり、
Figure 2012146003
を満たす。vは文字列を表し、Vは文字列vの集合を表す。p(v|z)は隠れ変数zにおける文字列vの生成確率(隠れ変数zが与えられたときの文字列vの事後確率)であり、
Figure 2012146003
を満たす。ndvはテキストデータd中に文字列vが出現した回数である。
トピックモデルTM0の学習は繰り返し最適化手法の1種であるEMアルゴリズムを用いて行われ、学習によってパラメータp(z), p(v|z)が得られる。得られた各パラメータp(z), p(v|z)はトピックモデルTM0を特定する情報として記憶部102に格納される。これはトピックモデルTM0が記憶部102に格納されることと同等である。
なお、本形態ではテキストデータが含む文字列を「エンティティ」と呼び、抽出対象のエンティティを「正例エンティティ」と呼び、抽出しない(抽出対象としない)エンティティを「負例エンティティ」と呼ぶ。また、最初に入力されるエンティティを「シードエンティティ」と呼び、正例のシードエンティティを「正例シードエンティティ」と呼び、負例のシードエンティティを「負例シードエンティティ」と呼ぶ。
<データ抽出処理>
以下、図2を用いてデータ抽出装置1のデータ抽出処理を例示する。
《初期化:ステップS101》
制御部106がjの値をj=1に初期化する。
《トピック付与:ステップS102》
トピック付与部107が、記憶部102に格納されたトピックモデルTM0を用い、記憶部101に格納されたテキストデータの集合Dが含む各テキストデータのトピックに対応するトピック情報をそれぞれ生成する。トピック付与部107は、生成した各トピック情報をそれに対応する各テキストデータに対応付け、テキストデータとトピック情報とを含むトピック情報付きテキストデータを生成する。生成されたトピック情報付きテキストデータの集合D'は記憶部103に格納される。なお、各テキストデータのトピックに対応する情報であれば、どのような情報をトピック情報としてもよい。以下に、UMをトピックモデルTM0として生成されるトピック情報を例示する。
[トピック情報の例]
トピック付与部107は、記憶部102に格納されたトピックモデルTM0のパラメータp(z), p(v|z)とテキストデータd及び文字列vから得られるndvを用い、式(1)に従って、記憶部101に格納されたテキストデータの集合Dに属するテキストデータdに対応するp(d)を計算できる。また、確率の乗法定理より、トピック付与部107は、p(z), p(v|z)を用い、z, vについての同時確率p(z,v)を以下のように求めることができる。
p(z,v)=p(z)p(v|z) …(2)
また、トピック付与部107は、p(z,v)及びndvを用い、z, dについての同時確率p(z,d)を以下のように求めることができる。
Figure 2012146003
さらに、確率の乗法定理より、トピック付与部107は、p(z,d)及びp(z)を用い、隠れ変数zが与えられたときのテキストデータdの事後確率p(d|z)を、以下のように求めることができる。
p(d|z)=p(z,d)/p(z) …(4)
またさらに、ベイズの定理より、トピック付与部107は、得られたp(d), p(d|z)及びp(z)を用い、テキストデータdが与えられたときの隠れ変数zの事後確率p(z|d)を以下のように求めることができる。
p(z|d)=p(d|z)p(z)/p(d) …(5)
すなわち、トピック付与部107は、記憶部102に格納されたトピックモデルTM0のパラメータp(z), p(v|z)を用い、任意のテキストデータdに対する隠れ変数zの事後確率p(z|d)を計算できる。なお、事後確率p(z|d)の計算手順は上記のものに限定されない。最終的にp(z|d)が得られるのであればどのような計算手順で事後確率p(z|d)が計算されてもよい。
事後確率p(z|d)はトピックの候補の適切さを表す指標であり、これらをトピック情報とすることができる。以下、このようなトピック情報を例示する。
トピック情報の例1:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、事後確率の大きな上位N個の隠れ変数zn'とそれらにそれぞれ対応する事後確率p(zn'|d)又は当該事後確率p(zn'|d)の写像との組をテキストデータdのトピック情報とする。なお、Nは1以上Z以下の自然数定数である。例えば、N=1であり、p(z5|d)=0.95が最大の事後確率である場合、隠れ変数z5と事後確率p(z5|d)=0.95との組をテキストデータdのトピック情報とする。
トピック情報の例2:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、事後確率の大きな上位N個の隠れ変数zn'又は当該隠れ変数zn'の写像をテキストデータdのトピック情報とする。例えば、N=1であり、p(z5|d)=0.95が最大の事後確率である場合、隠れ変数z5をテキストデータdのトピック情報とする。
トピック情報の例3:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、上位N個の事後確率p(zn'|d)又は当該事後確率p(zn'|d)の写像をそれぞれn'次元目の要素とし、他のZ-N個の要素を0としたZ次元ベクトルをテキストデータdのトピック情報とする。例えばN=1であり、p(z2|d)=0.95が最大の事後確率である場合、Z次元ベクトル(0, 0.95, 0,...,0)をテキストデータdのトピック情報とする。
トピック情報の例4:各トピックの候補に対応する各隠れ変数znに対応する各事後確率p(zn|d)(n=1,...,Z)のうち、上位N個の事後確率p(zn'|d)にそれぞれ対応するn'次元目の要素を第1定数(例えば1)とし、他のZ-N個の要素を第2定数(例えば0)としたZ次元ベクトルをテキストデータdのトピック情報とする。例えばN=1であり、p(z2|d)=0.95が最大の事後確率である場合、Z次元ベクトル(0, 1, 0,...,0)をテキストデータdのトピック情報とする。
トピック情報の例5:トピック情報の例1又は2において、「事後確率の大きな上位N個の隠れ変数zn'」を「事後確率が閾値以上となる隠れ変数zn'」に置換した方法でテキストデータdのトピック情報を定める。
トピック情報の例6:トピック情報の例3又は4において、「上位N個の事後確率p(zn'|d)」を「閾値以上の事後確率p(zn'|d)」に置換した方法でテキストデータdのトピック情報を定める。
図3に例示したテキストデータの集合Dは、前処理を行った後の文書データであるテキストデータと当該テキストデータのIDとが対応付けされたデータである。また、図4Aに例示したトピック情報付きテキストデータの集合D'は、テキストデータと、当該テキストデータのIDと、当該テキストデータに対してトピック情報の例1によって生成されたトピック情報とが対応付けされたデータである。このように、トピック情報はテキストデータごとに付与されており、同じテキストデータ内に表れるエンティティには同じトピック情報が対応する。
なお、予めテキストデータにトピック情報が付与されている場合には、そのトピック情報を用いればよい。また、事前にトピック情報付きテキストデータの集合D'が生成されている場合にはステップS102の処理を実行しなくてもよい([トピック情報の例]の説明終わり)。
《素性抽出:ステップS103》
ユーザが欲するエンティティの例が正例シードエンティティRPe 0として素性抽出部108に入力される。例えば、<広島>などが正例シードエンティティとして入力される。また、負例シードエンティティRNe 0が素性抽出部108に入力される。例えば、<日本>などが負例シードエンティティとして入力される。
正例シードエンティティRPe 0は、ユーザによって選択されたものである。負例シードエンティティRNe 0は、ユーザによって選択されたものであってもよいし、テキストデータの集合Dから半自動で生成されたものであってもよい。以下に負例シードエンティティRNe 0を半自動で生成する方法を例示する。
[負例シードエンティティRNe 0の半自動生成方法の例]
負例シードエンティティ生成部(図示せず)が、テキストデータの集合Dから、何れの正例シードエンティティRPe 0も含まないテキストデータを所定個数抽出し、抽出した各テキストデータから1つずつランダムに名詞を選択し、それらを負例エンティティ候補として出力する。表示部(図示せず)はこれらの負例エンティティ候補を表示し、これらから負例シードエンティティを選択するようにユーザに促す表示を行う。ユーザによる選択内容は負例シードエンティティ生成部に入力され、負例シードエンティティ生成部は、選択された負例エンティティ候補を正例シードエンティティRPe 0として出力する([負例シードエンティティRNe 0の半自動生成方法の例]の説明終わり)。
素性抽出部108は、記憶部101に格納されたテキストデータの集合Dから、何れかの正例エンティティRPe j-1(初期の正例エンティティRPe 0は正例シードエンティティRPe 0)を含む文字列である「正例テキスト」を抽出する。正例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。正例テキストは、正例エンティティRPe j-1とテキストデータとの組に対して1個以上抽出される。素性抽出部108は、抽出した正例テキストとの関係で定まる正例エンティティRPe j-1の特徴を表す素性fP'e jを抽出する。この例では、正例エンティティRPe j-1を含む正例テキストごとに当該正例エンティティRPe j-1の素性fP'e jが抽出される。以下に、正例エンティティRPe j-1の素性fP'e jを例示する。
[正例エンティティRPe j-1の素性fP'e jの例]
正例エンティティRPe j-1の素性fP'e jは、正例テキスト(正例エンティティRPe j-1を含む文字列であってテキストデータが含むもの)に対応し、正例テキストと当該正例エンティティRPe j-1との関係を表す情報を含む。このような情報であればどのようなものを素性として用いてもよい。
例えば、何れかの正例エンティティRPe j-1を含むテキストデータ内における当該正例エンティティRPe j-1に一致するエンティティ(一致エンティティ)から前後所定単語数以内(正例テキスト内)に位置する単語(周辺単語)の表記と当該一致エンティティに対する当該周辺単語の相対位置を表す情報との組(表層素性)、一致エンティティ又は周辺単語の品詞情報(品詞素性)や固有名詞情報(固有名詞素性)や構文情報(構文素性)、テキストデータ内での正例エンティティRPe j-1の出現回数やテキストデータの集合D内での正例エンティティRPe j-1の出現回数(出現回数素性)のうち、少なくとも一つに対応する情報を素性fP'e jとすることができる。
表層素性の例は「ex+1="は"」「ex-1="で"」などであり、これらは周辺単語(前者の例では「は」)と一致エンティティに対する周辺単語の相対位置(前者の例では「ex+1」)を表す情報との組を特定する情報である。「ex」は一致エンティティを表し、「ex+β」は一致エンティティexのβ単語後の単語を表し、「ex-β」は一致エンティティexのβ単語前の単語を表す。品詞素性の例は「ex+1=POS:助詞」「ex=POS:名詞」などであり、これらは一致エンティティに対する周辺単語の相対位置(前者の例では「ex+1」、後者の例では「ex」)と一致エンティティ又は周辺単語の品詞との組を特定する情報である。固有名詞素性の例は「ex=ORG」「ex-1=ORG」などであり、これらは一致エンティティに対する周辺単語の相対位置と一致エンティティ又は周辺単語の固有名詞との組を特定する情報である。構文素性の例は、正例テキスト内での一致エンティティの「係り受けの階層」を表す情報である。出現回数素性の例は、テキストデータやテキストデータの集合Dが含む正例エンティティRPe j-1の個数である([正例エンティティRPe j-1の素性fP'e jの例]の説明終わり)。
同様に、素性抽出部108は、記憶部101に格納されたテキストデータの集合Dから、何れかの負例エンティティRNe j-1(初期の負例エンティティRNe 0は負例シードエンティティRNe 0)を含む文字列である「負例テキスト」を抽出する。負例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。負例テキストは、負例エンティティRNe j-1とテキストデータとの組に対して一つ以上抽出される。素性抽出部108は、抽出した負例テキストとの関係で定まる負例エンティティRNe j-1の特徴を表す素性fN'e jを抽出する。負例エンティティRNe j-1の素性fN'e jは、負例テキスト(負例エンティティRNe j-1を含む文字列であってテキストデータが含むもの)に対応し、負例テキストと当該負例エンティティRNe j-1との関係を表す情報を含む。この例では、負例エンティティRNe j-1を含む負例テキストごとに当該負例エンティティRNe j-1の素性fN'e jが抽出される。負例エンティティRNe j-1の素性fN'e jの具体例は、上述した正例エンティティRPe j-1の素性fP'e jの場合と同様である。例えば、上述した正例エンティティRPe j-1の素性fP'e jの具体例の「正例」が「負例」に「RPe j-1」が「RNe j-1」に「fP'e j-1」が「fN'e j-1」にそれぞれ置換されたものである。
素性抽出部108は、正例エンティティRPe j-1の素性fP'e jと正例を表すラベル<+1>との組(fP'e j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fN'e j, <-1>)を出力する。
《トピック情報抽出:ステップS104》
正例エンティティRPe j-1、負例エンティティRNe j-1、正例エンティティRPe j-1の素性fP'e jと正例を表すラベル<+1>との組(fP'e j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fN'e j, <-1>)がトピック情報抽出部109に入力される。
トピック情報抽出部109は、記憶部103に格納されたトピック情報付きテキストデータの集合D'から、正例エンティティRPe j-1を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報(正例エンティティRPe j-1を含むテキストデータに対応するトピック情報)を選択する。このように選択されたトピック情報を、正例エンティティRPe j-1とテキストデータとの組に対応する「正例トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各正例テキストには、同じ正例トピック情報が対応する。トピック情報抽出部109は、正例エンティティRPe j-1とテキストデータとの組に対応する正例トピック情報を、当該テキストデータが含む各正例テキストに対応する各正例エンティティRPe j-1の素性fP'e jに加え、各正例テキストに対応する各正例エンティティRPe j-1の素性をfPe jに更新する。すなわち、正例テキストに対応する正例エンティティRPe j-1の素性fPe jは、当該正例テキストに対応する正例エンティティRPe j-1の素性fP'e jと正例トピック情報とを含む。このように正例トピック情報は素性fPe jの一部とされる。
同様に、トピック情報抽出部109は、記憶部103に格納されたトピック情報付きテキストデータの集合D'から、負例エンティティRNe j-1を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報(負例エンティティRNe j-1を含むテキストデータに対応するトピック情報)を選択する。このように選択されたトピック情報を、負例エンティティRNe j-1とテキストデータとの組に対応する「負例トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各負例テキストには、同じ負例トピック情報が対応する。トピック情報抽出部109は、負例エンティティRNe j-1とテキストデータとの組に対応する負例トピック情報を、当該テキストデータが含む各負例テキストに対応する各負例エンティティRNe j-1の素性fN'e jに加え、各負例テキストに対応する各負例エンティティRNe j-1の素性をfNe jに更新する。すなわち、負例テキストに対応する負例エンティティRNe j-1の素性fNe jは、負例テキストに対応する負例エンティティRNe j-1の素性fN'e jと負例トピック情報とを含む。このように負例トピック情報は素性fNe jの一部とされる。
なお、トピック情報付きテキストデータの集合D'が含むすべての正例テキストや負例テキストに対応する素性fPe j,fNe jが生成されてもよいし、一部の正例テキストや負例テキストに対応する素性fPe j,fNe jのみが生成されてもよい。以下に、一部の正例テキストや負例テキストに対応する素性fPe j,fNe jのみが生成される例を示す。
[一部の正例テキストや負例テキストに対応する素性のみが生成される例]
多義的な正例エンティティRPe j-1が素性抽出部108に入力される場合がある。例えば<阪神>のような正例エンティティRPe j-1は、球団名として用いられる場合もあれば、企業名として用いられる場合もある。この例では、トピック情報付きテキストデータの集合D'において正例エンティティRPe j-1がどのような意味で使用されることが多いのかを推定し、当該推定された意味で正例エンティティRPe j-1が使用されていると推定される文字列(正例テキスト及び負例テキスト)のみを対象として正例トピック情報及び負例トピック情報を選択し、正例エンティティRPe j-1の素性fPe jや負例エンティティRNe j-1の素性fNe jを生成する。これにより、後述する識別学習部117での学習精度やエンティティ識別部118での識別精度の向上が見込まれる。
まず、トピック情報付きテキストデータの集合D'において正例エンティティRPe j-1がどのような意味で使用されているかを推定するために、素性抽出部108は、トピック情報付きテキストデータの集合D'が含む各テキストデータが含む文字列(正例テキスト及び負例テキスト)に、当該文字列のトピックの候補と、当該トピックの候補それぞれの当該文字列に対する適切さを表すトピック候補スコアとを与える。トピック候補スコアは、例えば、前述のトピックモデルTM0を用いて計算されるか、前述のステップS102の過程で得られた情報から計算され、記憶部103に格納される。以下に、各トピックの候補に対応するzn(n=1,...,Z)とテキストデータが含む文字列vとに対応するトピック候補スコアs(zn,v)を例示する。
s(zn,v)=p(zn|v)=p(v|zn)p(zn)/p(v) …(6)
なお、p(v|zn), p(zn)は、z=znでのトピックモデルTM0のパラメータとして得られ、p(v)は、z=znでの式(2)の同時確率p(zn,v)とパラメータp(zn)=Σz p(v|z)p(zn)とから得られる。
また、以下のトピック候補スコアs(zn,v)を用いてもよい。
Figure 2012146003
その他、式(6)(7)の写像をトピック候補スコアs(zn,v)としてもよい。
次に素性抽出部108は、正例テキストに対応する同一のトピックの候補に対応するトピック候補スコアを集計し、当該トピックの候補ごとの集計結果を当該トピックの候補それぞれの正例トピックスコアとする。例えば、素性抽出部108は、式(8)に従ってトピックの候補のそれぞれに対応する各正例トピックスコアS(zn) (n=1,...,Z)を計算し、記憶部103に格納する。なお、Vpは正例テキストの集合を表す。
Figure 2012146003
その他、トピック候補スコアs(zn,v)(v∈Vp)の単調増加関数値を各正例トピックスコアS(zn)(n=1,...,Z)とするなど、その他の集計方法で正例トピックスコアS(zn)が計算されてもよい。
次に素性抽出部108は、各正例トピックスコアS(zn)(n=1,...,Z)が特定の基準を満たすトピックの候補を選択し、それを正例基準トピックSeとして記憶部103に格納する。選択される正例基準トピックSeの個数は1個であってもよいし2個以上であってもよい。例えば、最も値の大きな正例トピックスコアS(zn)に対応するトピックの候補が正例基準トピックSeとされてもよいし、値の大きな順に選択された所定個の正例トピックスコアS(zn)にそれぞれ対応するトピックの候補が正例基準トピックSeとされてもよいし、基準値以上の正例トピックスコアS(zn)に対応するトピックの候補が正例基準トピックSeとされてもよい。同様に、各負例トピックスコアS(zn)(n=1,...,Z)が特定の基準を満たすトピックの候補を選択し、それを負例基準トピックSe'が記憶部103に格納されてもよい。負例トピックスコア及び負例基準トピックは、上述の正例トピックスコア及び正例基準トピックの定義中の正例がそれぞれ負例に置換されたものである。
素性抽出部108は、例えば、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが特定の基準を満たす正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、素性抽出部108は、例えば、負例基準トピックSe'の何れかと同一のトピックの候補に対応する負例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが特定の基準を満たす負例テキストに対応する負例エンティティRNe j-1の素性fNe jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。以下に具体的な素性生成例を示す。
素性生成例1:素性抽出部108は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、例えば、素性抽出部108は、負例基準トピックSe'の何れかと同一のトピックの候補に対応する負例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該負例テキストに対応するトピック候補スコアの中で最大となる負例テキストに対応する負例エンティティRNe j-1の素性fNe jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。
素性生成例2:素性抽出部108は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、例えば、素性抽出部108は、負例基準トピックSe'の何れかと同一のトピックの候補に対応する負例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる負例テキストに対応する負例エンティティRNe j-1の素性fNe jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。
素性生成例3:素性抽出部108は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。一方、負例エンティティRNe j-1の素性fNe jについては、すべての負例テキストに対応する負例エンティティRNe j-1の素性fNe jが生成される。
素性生成例4:素性抽出部108は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストに対応する正例エンティティRPe j-1の素性fPe jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。一方、負例エンティティRNe j-1の素性fNe jについては、すべての負例テキストに対応する負例エンティティRNe j-1の素性fNe jが生成される([一部の正例テキストや負例テキストに対応する素性のみが生成される例]の説明終わり)。
トピック情報抽出部109は、正例エンティティRPe j-1の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)を出力する。
図4Bは、トピック情報抽出部109が出力する組(fPe j, <+1>)及び組(fNe j, <-1>)を例示した図である。なお、「POS」は品詞素性を表し、「BOS」は対応する位置に単語が存在しないことを表す。例えば、テキストデータ<T1>が含む正例テキストに対応する正例エンティティex=<広島>の素性はfPe j=(ex-2="ヤクルト", ex-2=POS:名詞, ex-1="VS", ex-1=POS:名詞, ex+1="の", ex+1=POS:助詞, ex+2="ヤクルト", ex+2=POS:助詞, トピック情報=(z2,0.8))である。
《識別学習:ステップS105》
正例エンティティRPe j-1の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)は識別学習部117に入力される。正例エンティティRPe j-1の素性fPe jは正例に対する教師あり学習データとして利用でき、負例エンティティRNe j-1の素性fNe jは負例に対する教師あり学習データとして利用できる。識別学習部117は、正例エンティティRPe j-1の素性fPe jと負例エンティティRNe j-1の素性fNe jとを教師あり学習データとした学習処理によって、識別モデルMEe jを生成する。この識別モデルMEe jは、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である。このような識別モデルMEe jであればどのようなモデルであってもよい。
識別モデルMEe jの例は、正則化項付き最大エントロピーモデル(参考文献2「Berger, A.L. , Pietra, V.J.D. and Pietra, "A maximum entropy approach to natural language processing", S.A.D. 1996.」)、正則化項付きの条件付きランダム場(CRFs、参考文献3「Lafferty, J. and McCallum, A. and Pereira, F. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data", MACHINE LEARNING, pp. 282-289, 2001.」、サポートベクタマシン(SVMs、参考文献4「Vapnik, V. N. "The nature of statistical learning theory", Springer Verlag, 1995.」)などである。各例の識別モデルMEe jの学習では、教師あり学習データとして用いられた正例エンティティRPe j-1の素性fPe j及び負例エンティティRNe j-1の素性fNe jに対し、当該識別モデルMEe jへの影響度の大きさを表す指標(素性に対する重み)が付され、これらが識別モデルMEe jを特定するパラメータとなる。特に参考文献2−4で例示したようなモデルは、すべての素性に対して重みが付されるモデル(例えば正則化項のない最大エントロピーモデル)ではなく、識別に有効と判断された素性のみについて重みが付される。以下、正則化項付き最大エントロピーモデルの具体例を示す。
正則化項付き最大エントロピーモデルが用いられる場合、識別学習部117は、(x,y)∈{(fPe j, <+1>), (fNe j, <-1>)}を学習データとして用い、条件付確率
Figure 2012146003
に対するエントロピー
Figure 2012146003
を最大化する各重み(パラメータ)λqに対応するPλ(y|x)であるP(y|x)を識別モデルMEe jとする。ただし、
Figure 2012146003
であり、qは各学習データ(x,y)の組にそれぞれ対応するラベルであり、p'(x)は学習データ(x,y)におけるxの出現頻度であり、fq(x,y)はqに対応する素性関数(feature function)である。
ここで、各重みλqはqに対応する学習データ(x,y)の素性fPe j又はfNe jの識別モデルMEe jへの影響度の大きさを表す指標となる。また、正則化項付き最大エントロピーモデルの例では、すべての学習データ(x,y)の素性fPe j又はfNe jに対して重みλqが付されるわけではなく、重要度の低い素性に対応する重みλqは付されない。すなわち、重要度の低い素性に対応する重みλqは0とされる。
また、ステップS104で一部の正例テキストや負例テキストに対応する素性fPe j,fNe jのみが生成されていた場合には、一部の正例テキストや負例テキストに対応する素性fPe j,fNe jに対応する(x,y)∈{(fPe j, <+1>), (fNe j, <-1>)}のみが学習データとされる。例えば、前述した「一部の正例テキストや負例テキストに対応する素性のみが生成される例」のように素性fPe j,fNe jが生成された場合には、前述した正例基準トピックの何れかと同一のトピック候補に対応する正例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピック候補のトピック候補スコアが特定の基準を満たす正例テキストに対応する正例エンティティ及び/又は負例エンティティの素性のみが教師あり学習データとされる。
学習処理によって生成された識別モデルMEe jは記憶部104に格納される。例えば、学習処理によって生成された識別モデルMEe jのパラメータが記憶部104に格納される。
《エンティティ識別:ステップS106》
エンティティ識別部118は、記憶部103に格納されたトピック情報付きテキストデータの集合D'から何れかのトピック情報付きテキストデータを選択し、選択したトピック情報付きテキストデータが含むテキストデータが含む文字列であるエンティティを対象エンティティRDe jとする。
なお、トピック情報付きテキストデータの集合D'からすべてのトピック情報付きテキストデータが選択されてもよいが、すべてのテキストデータを識別対象とすることは計算効率上好ましくない。そのため、特定の方法で識別対象を限定して選択を行うことが望ましい。以下にその具体例を示す。
[選択方法の例]
選択方法の例1:
選択方法の例1では、エンティティ識別部118は、識別学習部117で教師あり学習データとして用いられた正例エンティティRPe j-1の素性fPe j及び負例エンティティRNe j-1の素性fNe jのうち、それらから生成された識別モデルMEe jへの影響度の大きさを表す指標(例えば前述の重みλq)が特定の基準を満たす素性、つまり、当該識別モデルMEe jへの影響度が大きな素性fPe j及び/又はfNe jを選択する。例えば、エンティティ識別部118は、前述の重みλqの絶対値が閾値よりも大きな素性fPe j及び/又はfNe jを選択する。
また、エンティティ識別部118は、選択した素性fPe j及び/又はfNe jに対応する文字列を含むテキストデータを含むトピック情報付きテキストデータを選択し、当該選択したトピック情報付きテキストデータが含むテキストデータが含む文字列であるエンティティを対象エンティティRDe jとする。例えば、エンティティ識別部118は、選択した素性fPe j及び/又はfNe jから表層素性の単語を抽出し、当該表層素性の単語を含むテキストデータを含むトピック情報付きテキストデータを選択する。一例を挙げると、選択された素性がエンティティexの前2単語が表層素性と品詞素性の組み合わせで成り立つ素性FNC(x−2=“POS:名詞”, x−1=“で”)(FNCは関数)であった場合、エンティティ識別部118は、選択した素性FNC(x−2=“POS:名詞”, x−1=“で”)から表層素性の単語“で”を抽出し、単語“で”を含むテキストデータを含むトピック情報付きテキストデータを選択する。
選択方法の例2:
選択方法の例2では、エンティティ識別部118は、前述した正例基準トピックSeの何れかと同一のトピック候補に対応する正例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピック候補のトピック候補スコアが特定の基準を満たす正例テキストが含むエンティティを対象エンティティRDe jとする。
例えば、エンティティ識別部118は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストが含むエンティティを対象エンティティRDe jとする。
或いは、例えば、エンティティ識別部118は、正例基準トピックSeの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストが含むエンティティを対象エンティティRDe jとする([選択方法の例]の説明終わり)。
素性抽出部108は、記憶部101に格納されたテキストデータの集合Dから、対象エンティティRDe jを含む文字列である「対象テキスト」を抽出する。対象テキストの例は、テキストデータが含む文、フレーズ、単語列などである。対象テキストは、対象エンティティRDe jとテキストデータとの組に対して1個以上抽出される。
素性抽出部108は、抽出した対象テキストとの関係で定まる対象エンティティRDe jの特徴を表す素性fD'e jを抽出する。対象エンティティRDe jの素性fD'e jは、対象テキスト(対象エンティティRDe jを含む文字列であってテキストデータに含まれるもの)に対応し、対象テキストと当該対象エンティティRDe jとの関係を表す情報を含む。具体的な処理は、前述した正例エンティティRPe j-1の素性fP'e jを抽出する場合と同様である。例えば、「正例エンティティRPe j」が「対象エンティティRDe j」に「素性fP'e j」が「素性fD'e j」に「正例テキスト」が「対象テキスト」に置換される以外は、前述した正例エンティティRPe j-1の素性fP'e jを抽出する処理と同じである。
対象テキストに対応する対象エンティティRDe jの素性fD'e jは、トピック情報抽出部109に入力される。トピック情報抽出部109は、記憶部103から、対象テキストを含むトピック情報付きテキストデータが含むトピック情報(対象テキストに対応するトピック情報)を選択する。このように選択されたトピック情報を、対象エンティティRDe jとテキストデータとの組に対応する「対象トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各対象テキストには、同じ対象トピック情報が対応する。トピック情報抽出部109は、対象エンティティRDe jとテキストデータとの組に対応する対象トピック情報を、当該テキストデータが含む各対象テキストに対応する各対象エンティティRDe jの素性fD'e jに加え、各対象テキストに対応する各対象エンティティRDe jの素性をfDe jに更新する。すなわち、対象テキストに対応する対象エンティティRDe jの素性fDe jは、当該対象テキストに対応する対象エンティティRDe jの素性fD'e jと対象トピック情報とを含む。このように対象トピック情報は素性fDe jの一部とされる。
対象エンティティRDe jの素性fDe jは、エンティティ識別部118に入力される。エンティティ識別部118は、対象エンティティRDe jの素性fDe jを記憶部104から読み出した識別モデルMEe jに入力し、対象エンティティRDe jが正例エンティティか負例エンティティかを識別する。例えば、識別モデルMEe jとして正則化項付き最大エントロピーモデルが用いられる場合には、x=fDe jを識別モデルMEe jであるP(y|x)に代入してP(1|x)とP(-1|x)とを求め、それらに対応する指標(信頼度など)と閾値とを比較することで、対象エンティティRDe jが正例エンティティか負例エンティティかを識別する。
ここで、対象エンティティが正例エンティティであると識別された場合、エンティティ識別部118は、対象エンティティRDe jを新たな正例エンティティRPe jとして記憶部105に格納する。一方、対象エンティティが負例エンティティであると識別された場合、エンティティ識別部118は、対象エンティティRDe jを新たな負例エンティティRNe jして記憶部105に格納する。
《トピック修正候補選択:ステップS107》
トピック修正候補選択部111は、記憶部103に格納されたトピック情報付きテキストデータの集合D'から、正例エンティティRPe jを含むテキストデータに対応するトピック情報(正例トピック情報)の集合の部分集合をトピック修正候補の集合として選択する。トピック修正候補の集合の要素は、正例エンティティRPe jに対応するものとしてユーザに提示され、人手による検証対象とされる。正例エンティティRPe jを含むテキストデータに対応する正例トピック情報の集合のすべてがトピック修正候補の集合とされてもよいし、当該正例トピック情報の集合の一部の要素がトピック修正候補の集合とされてもよい。ただ、人手による修正コストをできるだけ小さくし、かつ、セマンティックドリフトをより効率的に軽減するためには、それに適した基準でトピック修正候補の集合が選択されることが望ましい。基本的には、人手による修正によって得られる情報量の多い正例トピック情報や、正例エンティティRPe jに対応することの信頼度がデータ抽出装置1にとって低い正例トピック情報が、トピック修正候補の集合として有益である。有益な正例トピック情報を選んでトピック修正候補の集合としてユーザに提示できれば、ユーザが検討するデータの数を減らすことができ(ユーザの負荷を減らし)、かつ、学習処理に有益な正例トピック情報を効率よく得ることができる。このように有益な正例トピック情報を選択する基準であればどのようなものを用いてもかまわない。以下では、有益な正例トピック情報の集合をトピック修正候補の集合として選択するための基準を例示する。
[トピック修正候補の集合を選択する基準の例示]
トピック修正候補選択部111は、正例トピック情報に対応するスコアSpを何らかの基準と比較し、その基準を満たす正例トピック情報の集合をトピック修正候補の集合とする。例えば、スコアSpが閾値THp以上(又は閾値THpを超えること)となる正例トピック情報をトピック修正候補の集合の要素としてもよいし、スコアSpの大きい順に選択された上位M個(Mは正整数)の正例トピック情報をトピック修正候補の集合の要素としてもよい。スコアSpは、例えば、人手による修正によって得られる情報量が多い(影響度が大きい)ほど大きくなるものであってもよいし、正例エンティティRPe jに対応することの信頼度がデータ抽出装置1にとって低いほど大きくなるものであってもよいし、それらの両方の特徴を備えたものであってもよい。以下、スコアSpの例を示す。
[影響度に対応するスコアの例]
この例では、正例トピック情報が表すトピックpzn’それぞれに対応するテキストデータdの数|Dpzn’|に対応する値が当該トピックpzn’それぞれの影響度とされ、当該影響度に対応する値が当該トピックpzn’を表す各正例トピック情報に対応するスコアSpとされる。例えば図4Aの例のようにN=1の場合のトピック情報の例1によってトピック情報が生成された場合、
Figure 2012146003
と事後確率p(zn'|d)との組がテキストデータdに対応するトピック情報される。なお、arg maxα βはβを最大化するαを意味する。図4Aの例でID=T1,T2,T4,T8,T10,T11のテキストデータdのそれぞれが何れかの正例エンティティRPe jを含み、ID=T7のテキストデータdが正例エンティティRPe jを含まないとする。この場合、ID=T1,T2,T4,T8,T10,T11のテキストデータdに対応する各トピック情報がトピックpzn’=z2を表す正例トピック情報であり、|Dpzn’|=6である。|Dpzn’|がそのまま影響度とされてもよいし、|Dpzn’|の広義単調増加関数値が影響度とされてもよい。影響度がそのままスコアSpとされてもよいし、影響度の広義単調増加関数値がスコアSpとされてもよい。
[信頼度1に対応するスコアの例]
この例では、正例トピック情報が表すトピックpzn’に対応するテキストデータdが含む文字列vの確率分布p(v|pzn’)と正例エンティティRPe jを含むテキストデータdが含む文字列vの確率分布p(v|ω=1)(ω∈{1,0}={正例,負例})との距離に対応する値が当該正例トピック情報それぞれの第1信頼度とされ、当該第1信頼度に対応する値が当該正例トピック情報それぞれに対応するスコアSpとされる。どのような尺度の距離を用いるかには限定はないが、例えば、距離としてKLダイバージェンス(Kullback-Leibler divergence)(例えば参考文献1参照)を用いることができる。確率分布p(v|pzn’)と確率分布p(v|ω=1)とのKLダイバージェンスは、例えば 以下のようになる 。
Figure 2012146003
確率分布p(v|pzn’)と確率分布p(v|ω=1)との距離がそのまま第1信頼度とされてもよいし、当該距離の広義単調増加関数値が第1信頼度とされてもよい(第1信頼度が高いほど信頼性が低い)。この例では信頼性が低いほど大きな値をとるスコアSpが用いられる。例えば、第1信頼度がそのままスコアSpとされてもよいし、第1信頼度の広義単調増加関数値がスコアSpとされてもよい。
[信頼度2に対応するスコアの例]
この例では、トピックzn’を表す負例トピック情報それぞれに対応するテキストデータの数|Dnzn’|と当該同じトピックzn’を表す正例トピック情報それぞれに対応するテキストデータの数|Dpzn’|との比に対応する値が、当該トピックzn’を表す正例トピック情報の第2信頼度とされ、当該第2信頼度に対応する値が当該正例トピック情報それぞれに対応するスコアSpとされる。
例えば、図4Aの例でID=T1,T2,T4,T8,T10,T11のテキストデータdのそれぞれが何れかの正例エンティティRPe jを含み、ID=T7のテキストデータdが正例エンティティRPe jを含まないとする。この場合、トピックzn’=z2を表す負例トピック情報それぞれに対応するテキストデータの数は|Dnzn’|=1であり、トピックzn’=z2を表す正例トピック情報それぞれに対応するテキストデータの数|Dpzn’|=6である。例えば、|Dnzn’|/|Dpzn’|が第2信頼度とされる場合(第2信頼度が高いほど信頼性が低い)、第2信頼度は1/6となる。
この例では信頼性が低いほど大きな値をとるスコアSpが用いられる。例えば、|Dnzn’|/|Dpzn’|がスコアSpとされてもよいし、|Dnzn’|/|Dpzn’|の広義単調増加関数値がスコアSpとされてもよい。
[組合せの例]
上述の影響度に対応するスコアの例、信頼度1,2に対応するスコアの例を組み合わせたスコアであってもよい。例えば、影響度×信頼度1や、影響度×信頼度2や、影響度×信頼度1×信頼度2や、信頼度1×信頼度2などがスコアSpとされてもよい。
《トピック修正候補提示:ステップS108》
トピック修正候補選択部111で選択されたトピック修正候補の集合はトピック修正候補提示部112に送られる。トピック修正候補提示部112は、トピック修正候補の集合を出力する。例えば、トピック修正候補提示部112は、トピック修正候補の集合をリストとして表示する。この際、例えば、各トピック修正候補の集合の要素にそれぞれ対応するテキストデータD、正例エンティティRPe j、スコアSpなどの情報も併せてトピック修正候補提示部112に送られ、表示されてもよい。ユーザはこのように表示されたトピック修正候補の集合を閲覧する。
《修正情報取得:ステップS109》
ユーザは表示されたトピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する。以下に不適切な正例トピック情報の例を示す。
[不適切な正例トピック情報の例1]
不適切な正例トピック情報の例1は、正例エンティティに対応するトピックとして適切でないものを表す正例トピック情報である。例えば、ユーザが欲する内容に即していないトピックを表すトピック情報や、負例エンティティに対応するトピックとして適切なものを表すトピック情報や、そもそもトピックとしてふさわしくないものを表すトピック情報などを例示できる。
[不適切な正例トピック情報の例2]
不適切な正例トピック情報の例2は、正例エンティティに対応し、なおかつ、負例エンティティにも対応するトピックを表す正例トピック情報である。例えば、例えば球団名を表わすエンティティを獲得したい状況において、ステップS106で正例エンティティRPe jであると識別されたエンティティ「巨人」「ライオンズ」「ヴェルディ」がそれぞれある共通のトピックzn’に対応するとする。しかし、実際にはトピックzn’は「巨人」と「ライオンズ」に対して適切であるが、「ヴェルディ」に対しては適切でないとする。このようなトピックzn’に対応するトピック情報も不適切な正例トピック情報である(適切な正例トピック情報の例の説明終わり)。
不適切な正例トピック情報を特定する修正情報hjが修正情報取得部113に入力される。不適切な正例トピック情報を特定する情報であればどのような情報が修正情報hjとされてもよい。以下に修正情報hjを例示する。
[修正情報の例1]
この例では、トピック修正候補の集合の各要素に対し、それぞれ本当に正例に対応するか否かを表す情報ω∈{1,0}={正例,負例}が入力され、それらの情報の集合が修正情報hjとされる。この場合にはトピック修正候補の集合が含む正例トピック情報の単位で修正が可能である。
以下は、5つのトピック修正候補の集合{Topic-1, Topic-2, Topic-3, Topic-4, Topic-5}のうち、Topic-1, Topic-2, Topic-5が適切であり、Topic-3, Topic-4が不適切であるとユーザが判断した例である。この場合には、例えば、{Topic-1, Topic-2, Topic-3, Topic-4, Topic-5}にそれぞれ対応する{1,1,0,0,1}が修正情報hjとされる。或いは、同様な場合に不適切なトピック修正候補Topic-3, Topic-4が修正情報hjとされてもよい。
Figure 2012146003
[修正情報の例2]
この例では、トピック修正候補の集合の各要素とそれらにそれぞれ対応するテキストデータdが含む正例エンティティRPe jとの組ごとに、それぞれ本当に正例に対応するか否かを表す情報ω∈{1,0}={正例,負例}が入力され、それらの情報の集合が修正情報hjとされる。この例の修正情報hjは、トピック修正候補の集合が含む要素のうち、正例エンティティRPe jを含むテキストデータdに対応するトピックと負例エンティティRNe jを含むテキストデータdに対応するトピックとの両方に対応する要素である更新対象トピック情報を特定する情報である。この場合にはトピック情報の集合が含むトピック情報とそれに対応するエンティティとの組の単位で修正が可能である。
以下は、{トピック修正候補, 正例エンティティRPe j}={Topic-1, 乳酸菌}, {Topic-2, ヤクルト}, {Topic-2, 広島}, {Topic-2, 人口}, {Topic-2, 投手}, {Topic-3, ヴェルディ}, {Topic-3, 株価}の組のうち、{Topic-2, 人口}及び{Topic-3, 株価}が不適切であり、その他が適切であるとユーザが判断した例である。この場合には、例えば、{Topic-1, 乳酸菌}, {Topic-2, ヤクルト}, {Topic-2, 広島}, {Topic-2, 人口}, {Topic-2, 投手}, {Topic-3, ヴェルディ}, {Topic-3, 株価}にそれぞれ対応する{1,1,1,0,1,1,0}が修正情報hjとされる。或いは、同様な場合に不適切な組{Topic-2, 人口}及び{Topic-3, 株価}が修正情報hjとされてもよい。以下の例の更新対象トピック情報はTopic-2及びTopic-3である。
Figure 2012146003
《更新:ステップS110》
修正情報hjは更新部115に送られる。更新部115は修正情報hjで特定される不適切なトピック情報に関する情報を修正する。以下に更新部115による修正処理を例示する。
[修正処理の例1]
この例は、上述の修正情報の例1又は修正情報の例2で例示した何れの修正情報hjが更新部115に送られた場合に実行可能なものであるが、修正情報の例1の修正情報hjが更新部115に送られた場合にのみ実行されてもよい。
この例の更新部115は、修正情報hjによって不適切であると特定されるトピック修正候補が表すトピックと同じトピックに対応するテキストデータdが含む正例エンティティRPe jを、記憶部105に格納された正例エンティティの集合から除外する。この場合、正例エンティティの集合から除外された正例エンティティRPe jが、負例エンティティRNe jとして負例エンティティの集合に追加されてもよい。
[修正処理の例2]
この例は、上述の修正情報の例1又は修正情報の例2で例示した修正情報hjが更新部115に送られた場合に実行可能なものであるが、修正情報の例1の修正情報hjが更新部115に送られた場合にのみ実行されてもよい。また、修正処理の例2の処理は、修正処理の例1の処理とともに行われてもよいし、修正処理の例1の処理が行われることなく行われてもよい。
この例の更新部115は、記憶部103に格納されたトピック情報付きテキストデータの集合D'から、修正情報hjによって不適切であると特定されたトピック修正候補が表すトピックと同じトピックに対応するテキストデータdを削除する。これにより、j+1回目以降のステップS106の処理では、エンティティ識別部118は、修正情報hjによって不適切であると特定されたトピック修正候補が表すトピックと同じトピックに対応するテキストデータから対象エンティティを選択しない。すなわち、j+1回目以降のイテレーションのステップS106では、修正情報hjによって不適切であると特定されたトピック修正候補が表すトピックと同じトピックに対応するテキストデータを除く、テキストデータdが含む文字列であるエンティティが対象エンティティとされる。
[修正処理の例3]
この例は、上述の修正情報の例2で例示した修正情報hjが更新部115に送られた場合に実行可能なものである。修正処理の例3処理は、修正処理の例1及び/又は修正処理の例2の処理とともに行われてもよいし、修正処理の例1及び/又は修正処理の例2の処理が行われることなく行われてもよい。
この例の更新部115は、更新対象トピック情報(正例にも負例にも対応するトピック情報)と同じトピック情報を新たなトピック情報に更新する。すなわち、更新対象トピック情報が表す包括的なトピックを、正例に対応する下位のトピックと負例に対応する下位のトピックとに分割する(トピック分割)。更新部115は、分割して得られた新たなトピックを用いて新たなトピックモデルTMjを生成し、それを用いて記憶部103に格納されたトピック情報付きテキストデータの集合D’のトピック情報を更新する。
新たなトピックモデルTMjは、分割して得られた新たなトピックを表すトピック情報に対応するテキストデータdのみについて生成されればよい。記憶部103には、テキストデータdとそれに対応するトピック情報とが対応付けられているため(図4A参照)、トピックモデルTMj-1の更新対象となるテキストデータdを特定することは容易である。ただ、その他のテキストデータdについてもトピックモデルTMj-1が更新されてもよい。
新たなトピックモデルTMjの生成は、例えば、周知技術である半教師あり学習によって行われる。半教師あり学習とは、少量の教師ありデータと大量の教師なしデータの両方用いて学習を行うことで、教師ありデータだけを用いる場合よりも高い性能を持つモデルを生成できる学習方法である。ここではトピックモデルTMjとしてUMを用い(式(1))、EMアルゴリズムを用いて半教師あり学習を行う場合を説明する(例えば、参考文献1参照)。
この例の教師ありデータは、分割して得られた正例に対応する新たなトピックに対応するテキストデータd(修正情報hjが特定する正例エンティティRPe jを含むものに限る)が与えられた場合の当該新たなトピックに対応する隠れ変数z=pzの事後確率p(z=pz|d)=1、当該テキストデータdが与えられた場合の当該新たなトピックに対応するpz以外の隠れ変数z≠pzの事後確率p(z≠pz|d)=0、分割して得られた負例に対応する新たなトピックに対応するテキストデータd(修正情報hjが特定する正例エンティティRPe jを含むものに限る)が与えられた場合の当該新たなトピックに対応する隠れ変数z=nzの事後確率p(z=nz|d)=1、及び、当該テキストデータdが与えられた場合の当該新たなトピックに対応するnz以外の隠れ変数z≠pzの事後確率p(z≠nz|d)=0である。これらの教師ありデータは修正情報hjによって正例・負例が特定できるもの、すなわち人手によって入力された情報によって正例・負例が特定されたものである。上記の新たなトピックに対応しても、修正情報hjによって正例・負例が特定されていないテキストデータdも存在する。
トピックモデルTMjを以下のように表現する。
Figure 2012146003
ただし、βzvは隠れ変数zに対応するテキストデータdが含む文字列vの多項分布(ユニグラム確率)パラメータであり、ηzは隠れ変数zに対する多項分布パラメータを表し、Σz ηz=1を満たす。
更新部115は、このトピックモデルTMjを生成するEMアルゴリズムは、以下のEステップとMステップとを収束条件を満たすまで繰り返す。
Eステップ:
Eステップの処理は以下のようになる。
Figure 2012146003
ただし、tはEMアルゴリズムの繰り返し回数(イテレーション数)を表す整数であり、βzv (t)z (t)はt回目のイテレーションの多項分布パラメータβzvzを表す。初期値βzv (1)z (1)は、更新前のトピック情報付きテキストデータの集合D'が含むテキストデータdに対応するトピック情報が示す事後確率p(z|d)を用いて後述の式(14)(15)によって求められてもよいし、任意に定めてもよい。
Eステップでは、上述した教師ありデータである事後確率は固定される。すなわち、修正情報hjが特定する正例エンティティRPe jを含むテキストデータdについては、教師ありデータである事後確率p(z=pz|d)=1、p(z≠pz|d)=0、p(z=nz|d)=1、及びp(z≠nz|d)=0が式(13)の算出結果として出力される。その他のテキストデータdについては式(13)の計算が実際に行われ、それによって得られた事後確率が出力される。
Mステップ:
Mステップでは、Eステップで出力された事後確率p(z|d,ηz (t)zv (t))に対し、ラグランジュの未定係数法を用いて以下のような更新式を計算する。
Figure 2012146003
ただし、|D|はテキストデータdの総数である。
更新部115は、収束条件を満たした際の式(13)の事後確率をテキストデータdが与えられたときの隠れ変数zの事後確率p(z|d)とし、前述したトピック情報の例1−6などのようにテキストデータdのトピック情報を定め、それによって記憶部103に格納されたトピック情報付きテキストデータの集合D'を更新する。なお、収束条件の例は、イテレーションごとの式(13)の事後確率の変化量が閾値以下となったこと、イテレーション数が閾値以上となったことなどである。
[修正処理の例4]
更新部115が、上述した修正処理の例1−3の少なくとも一部を組み合わせた更新処理を実行してもよい。
《収束判定:ステップS111−S113》
収束判定部119は、収束条件を満たしたかを判定する。以下に収束条件を例示する。
[収束条件の例]
収束条件の例1:この例の収束判定部119は、正例エンティティRPe jに新たに割り当てられる対象エンティティRDe jが存在しない場合に、収束条件を満たしたと判断する。
収束条件の例2:この例の収束判定部119は、ステップS103からS111のイテレーションを基準回数以上繰り返しても新たに割り当てられる対象エンティティRDe j-1が存在しない場合に、収束条件を満たしたと判断する。
収束条件の例3:この例の収束判定部119は、jの値が基準値以上となった場合に収束条件を満たしたと判断する([収束条件の例]の説明終わり/ステップS111)。
収束判定部119が収束条件を満たしたと判断した場合、ステップS103からS111のイテレーションが終了し、出力部120が記憶部105に格納されているすべての正例エンティティRPj eを出力して処理を終了する(ステップS113)。それ以外の場合は、制御部106がj+1を新たなjの値とし(ステップS112)、記憶部105に格納されている正例エンティティRPj e 及び負例エンティティRNj e を素性抽出部108に入力し、ステップS103からS111のイテレーションが実行される。
<第1実施形態の特徴>
本形態では、抽出対象となるエンティティよりも少ない情報量で特徴を表し得るトピック情報に関する情報を人手によって修正可能とする。これにより、エンティティのラベルのみを人手によって修正する場合に比べ、少ないコストでエンティティの識別精度を向上させることができる。また、本形態の方法ではトピック情報を素性の少なくとも一部として用いたため、セマンティックドリフトを抑制することができる。さらに、本形態の方法はリソースであるテキストデータの種類によらず利用でき、適用範囲が広い。
〔第2実施形態〕
第2実施形態は第1実施形態の変形例であり、一部のトピック情報に関する修正を人手なしに行う点が第1実施形態と相違する。以下では第1実施形態とん相違点を中心に説明する。
<構成>
図1に例示するように、第2実施形態のデータ抽出装置2は、記憶部101−105、制御部106、トピック付与部107、素性抽出部108、トピック情報抽出部109、トピック修正候補選択部211、トピック修正候補提示部112、修正情報取得部113、更新部115、識別学習部117、エンティティ識別部118、収束判定部119、及び出力部120を有し、制御部106の制御のもと各処理を実行する。なお、データ抽出装置2は、例えば、公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。
<事前処理>
第1実施形態と同じであるため説明を省略する。
<データ抽出処理>
以下、図2を用いてデータ抽出装置2のデータ抽出処理を例示する。
ステップS107の処理が以下のステップS207の処理に置換される以外、第1実施形態のデータ抽出処理と同一である。以下では、相違点であるステップS207の処理を中心に説明する。
トピック修正候補選択部211は、第1実施形態で説明した正例トピック情報が表すトピックpzn’に対応するテキストデータdが含む文字列vの確率分布p(v|pzn’)と正例エンティティRPe jを含むテキストデータdが含む文字列vの確率分布p(v|ω=1)(ω∈{1,0}={正例,負例})との距離(KLダイバージェンスなど)に対応する値を当該正例トピック情報それぞれの第1信頼度とする。ここでは、第1信頼度が距離又はその広義単調増加関数値である場合を例示する。トピック修正候補選択部211は、第1信頼度が閾値TH(1)よりも小さい場合、トピックpzn’が正例集合をうまく捉えているとし、第1信頼度に対応するトピックpzn’に関連する情報の更新を行わない。一方、第1信頼度が閾値TH(2)(TH(2)>TH(1))よりも大きい場合、トピック修正候補選択部211は、第1信頼度に対応する正例トピック情報を不適切な正例トピック情報として特定した前述の修正情報hjを更新部115に送る。さらにトピック修正候補選択部211は、第1信頼度が閾値TH(1)以上閾値TH(2)以下である正例トピック情報の集合の部分集合を、第1実施形態と同様にトピック修正候補の集合(人手による修正対象)として選択する。その後の処理は第1実施形態と同様である。
<第2実施形態の特徴>
本形態では、KLダイバージェンスなどの第1信頼度を用い、自動的にトピックに対応する情報の修正を行うか否かを判定するため、人手による処理コストを削減できる。その他の効果は第1実施形態と同様である。
〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、第1実施形態においてステップS103を実行せず、トピック情報のみを素性としてもよい。また、トピックモデルや学習モデルが上述した具体例に限定されないのは上述の通りである。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、非一時的(non-transitory)な記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1,2 データ抽出装置

Claims (9)

  1. 抽出対象の文字列である正例エンティティの集合から選択した正例エンティティを含むテキストデータに対応するトピックを表す正例トピック情報を前記正例エンティティの素性の少なくとも一部とし、抽出対象ではない文字列である負例エンティティの集合から選択した負例エンティティを含むテキストデータに対応するトピックを表す負例トピック情報を前記負例エンティティの素性の少なくとも一部とするトピック情報抽出部と、
    前記正例エンティティの素性と前記負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する識別学習部と、
    トピックを表すトピック情報に対応するテキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択した前記テキストデータに対応するトピックを表すトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を前記識別モデルに入力して前記対象エンティティが正例エンティティか負例エンティティかを識別し、前記対象エンティティが正例エンティティであると識別した場合に前記対象エンティティを前記正例エンティティの集合の要素とし、前記対象エンティティが負例エンティティであると識別した場合に前記対象エンティティを前記負例エンティティの集合の要素とするエンティティ識別部と、
    前記正例トピック情報の集合の部分集合をトピック修正候補の集合として選択するトピック修正候補選択部と、
    前記トピック修正候補の集合を出力するトピック修正候補提示部と、
    前記トピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する修正情報の入力を受け付ける修正情報取得部と、
    を有するデータ抽出装置。
  2. 請求項1のデータ抽出装置であって、
    前記トピック修正候補選択部は、前記正例トピック情報が表すトピックそれぞれに対応するテキストデータの数に対応する値を当該トピックそれぞれの影響度とし、当該影響度に対応する値が第1基準を満たすトピックを表す正例トピック情報の集合を前記トピック修正候補の集合とする、
    ことを特徴とするデータ抽出装置。
  3. 請求項1又は2のデータ抽出装置であって、
    前記トピック修正候補選択部は、前記正例トピック情報が表すトピックに対応するテキストデータが含む文字列の確率分布と前記正例エンティティを含むテキストデータが含む文字列の確率分布との距離に対応する値を当該正例トピック情報それぞれの第1信頼度とし、当該第1信頼度に対応する値が第2基準を満たす正例トピック情報の集合を前記トピック修正候補の集合とする、
    ことを特徴とするデータ抽出装置。
  4. 請求項1から3の何れかのデータ抽出装置であって、
    前記トピック修正候補選択部は、対象のトピックを表す前記負例トピック情報それぞれに対応するテキストデータの数と当該対象のトピックを表す前記正例トピック情報それぞれに対応するテキストデータの数との比に対応する値を当該対象のトピックを表す前記正例トピック情報の第2信頼度とし、当該第2信頼度に対応する値が第3基準を満たす当該正例トピック情報の集合を前記トピック修正候補の集合とする、
    ことを特徴とするデータ抽出装置。
  5. 請求項1から4の何れかのデータ抽出装置であって、
    前記修正情報によって特定される前記要素が表すトピックと同じトピックに対応するテキストデータが含む正例エンティティを、前記正例エンティティの集合から除外する更新部をさらに有する、
    ことを特徴とするデータ抽出装置。
  6. 請求項1から5の何れかのデータ抽出装置であって、
    前記エンティティ識別部は、前記修正情報によって特定された前記要素が表すトピックと同じトピックに対応するテキストデータを除く前記テキストデータが含む文字列であるエンティティを前記対象エンティティとする、
    ことを特徴とするデータ抽出装置。
  7. 請求項1から6の何れかのデータ抽出装置であって、
    前記修正情報は、前記トピック修正候補の集合が含む要素のうち、前記正例エンティティを含むテキストデータに対応するトピックと前記負例エンティティを含むテキストデータに対応するトピックとの両方に対応する要素である更新対象トピック情報を特定する情報であり、
    前記更新部は、前記更新対象トピック情報と同じ前記トピック情報を新たなトピック情報に更新する、
    ことを特徴とするデータ抽出装置。
  8. 抽出対象の文字列である正例エンティティの集合から選択した正例エンティティを含むテキストデータに対応するトピックを表す正例トピック情報を前記正例エンティティの素性の少なくとも一部とし、抽出対象ではない文字列である負例エンティティの集合から選択した負例エンティティを含むテキストデータに対応するトピックを表す負例トピック情報を前記負例エンティティの素性の少なくとも一部とするトピック情報抽出ステップと、
    前記正例エンティティの素性と前記負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する識別学習ステップと、
    トピックを表すトピック情報に対応するテキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択した前記テキストデータに対応するトピックを表すトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を前記識別モデルに入力して前記対象エンティティが正例エンティティか負例エンティティかを識別し、前記対象エンティティが正例エンティティであると識別した場合に前記対象エンティティを前記正例エンティティの集合の要素とし、前記対象エンティティが負例エンティティであると識別した場合に前記対象エンティティを前記負例エンティティの集合の要素とするエンティティ識別ステップと、
    前記正例トピック情報の集合の部分集合をトピック修正候補の集合として選択するトピック修正候補選択ステップと、
    前記トピック修正候補の集合を出力するトピック修正候補提示ステップと、
    前記トピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する修正情報の入力を受け付ける修正情報取得ステップと、
    を有するデータ抽出方法。
  9. 請求項1から7の何れかのデータ抽出装置の各部としてコンピュータを機能させるためのプログラム。
JP2011001801A 2011-01-07 2011-01-07 データ抽出装置、データ抽出方法、及びプログラム Expired - Fee Related JP5379813B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011001801A JP5379813B2 (ja) 2011-01-07 2011-01-07 データ抽出装置、データ抽出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011001801A JP5379813B2 (ja) 2011-01-07 2011-01-07 データ抽出装置、データ抽出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2012146003A true JP2012146003A (ja) 2012-08-02
JP5379813B2 JP5379813B2 (ja) 2013-12-25

Family

ID=46789524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011001801A Expired - Fee Related JP5379813B2 (ja) 2011-01-07 2011-01-07 データ抽出装置、データ抽出方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5379813B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020170427A (ja) * 2019-04-05 2020-10-15 株式会社日立製作所 モデル作成支援方法、及びモデル作成支援システム
CN112836051A (zh) * 2021-02-19 2021-05-25 太极计算机股份有限公司 一种在线自学习的法院电子卷宗文本分类方法
KR20210088725A (ko) * 2019-01-08 2021-07-14 미쓰비시덴키 가부시키가이샤 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141912A (ja) * 2011-01-06 2012-07-26 Nippon Telegr & Teleph Corp <Ntt> データ抽出装置、データ抽出方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012141912A (ja) * 2011-01-06 2012-07-26 Nippon Telegr & Teleph Corp <Ntt> データ抽出装置、データ抽出方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG201001013011; 貞光九月 他3名: 'トピックと属性を用いたブートストラップ法に基づく語彙獲得' 情報処理学会研究報告 2010December[CD-ROM] Vol.2010-NL-199 No.12, 20101215, 一般社団法人情報処理学会 *
JPN6013032790; 貞光九月 他3名: 'トピックと属性を用いたブートストラップ法に基づく語彙獲得' 情報処理学会研究報告 2010December[CD-ROM] Vol.2010-NL-199 No.12, 20101215, 一般社団法人情報処理学会 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210088725A (ko) * 2019-01-08 2021-07-14 미쓰비시덴키 가부시키가이샤 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
KR102400689B1 (ko) 2019-01-08 2022-05-20 미쓰비시덴키 가부시키가이샤 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
JP2020170427A (ja) * 2019-04-05 2020-10-15 株式会社日立製作所 モデル作成支援方法、及びモデル作成支援システム
JP7189068B2 (ja) 2019-04-05 2022-12-13 株式会社日立製作所 モデル作成支援方法、及びモデル作成支援システム
CN112836051A (zh) * 2021-02-19 2021-05-25 太极计算机股份有限公司 一种在线自学习的法院电子卷宗文本分类方法
CN112836051B (zh) * 2021-02-19 2024-03-26 太极计算机股份有限公司 一种在线自学习的法院电子卷宗文本分类方法

Also Published As

Publication number Publication date
JP5379813B2 (ja) 2013-12-25

Similar Documents

Publication Publication Date Title
RU2628431C1 (ru) Подбор параметров текстового классификатора на основе семантических признаков
US9594747B2 (en) Generation of a semantic model from textual listings
RU2628436C1 (ru) Классификация текстов на естественном языке на основе семантических признаков
RU2686590C1 (ru) Способ и устройство для сравнения схожих элементов высокоразмерных признаков изображений
JP4774073B2 (ja) 文書のクラスタリング又は範疇化のための方法
CN105988990B (zh) 汉语零指代消解装置和方法、模型训练方法和存储介质
US20150112664A1 (en) System and method for generating a tractable semantic network for a concept
CN112328891B (zh) 训练搜索模型的方法、搜索目标对象的方法及其装置
JP6335898B2 (ja) 製品認識に基づく情報分類
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2021518027A (ja) セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体
US20190317986A1 (en) Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
KR20200071877A (ko) 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템
US11468346B2 (en) Identifying sequence headings in a document
JP5379813B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
JP5379812B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
JP5542732B2 (ja) データ抽出装置、データ抽出方法、及びそのプログラム
JP5175585B2 (ja) 文書処理装置、電子カルテ装置および文書処理プログラム
JP4328362B2 (ja) 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
JP2010267017A (ja) 文書分類装置、文書分類方法および文書分類プログラム
JP2020021343A (ja) 解析装置、解析方法及びプログラム
CN112988699B (zh) 模型训练方法、数据标签的生成方法及装置
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130927

R150 Certificate of patent or registration of utility model

Ref document number: 5379813

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees