JP2012146003A

JP2012146003A - データ抽出装置、データ抽出方法、及びプログラム

Info

Publication number: JP2012146003A
Application number: JP2011001801A
Authority: JP
Inventors: Kugatsu Sadamitsu; 九月貞光; Kuniko Saito; 邦子齋藤; Kenji Imamura; 賢治今村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-01-07
Filing date: 2011-01-07
Publication date: 2012-08-02
Anticipated expiration: 2031-01-07
Also published as: JP5379813B2

Abstract

【課題】人手による修正コストを小さくし、かつ、セマンティックドリフトを効率的に軽減する
【解決手段】正例エンティティに対応する正例トピック情報を正例エンティティの素性の少なくとも一部とし、負例エンティティに対応する負例トピック情報を負例エンティティの素性の少なくとも一部とし、正例エンティティの素性と負例エンティティの素性とを教師あり学習データとした学習処理によって識別モデルを生成し、対象エンティティに対応するトピック情報を当該対象エンティティの素性の少なくとも一部とし、対象エンティティが正例エンティティか負例エンティティかを識別する。また、トピック情報の関する情報を人手によって修正する。
【選択図】図１

Description

本発明は、テキストデータの集合からデータを抽出する技術に関し、特に、特定の内容と関連を持つ文字列を入力として同じような関連を持つ文字列をテキストデータの集合から抽出する技術に関する。

現在様々な自然言語処理技術の研究開発が進み、WEBのような膨大な知識源から必要な情報を抽出する手法が多く存在している。そのような手法の一つに、特定の内容と何らかの関連を持つ文字列（例えば<広島>や<阪神>など）を入力として、大量のテキストデータ（例えば文書データ）から同じような関連を持つ文字列（例えば<ヤクルト>など）を収集するものがある。このような手法を「set expansion」と呼ぶ。また、set expansionで扱われる文字列を「エンティティ」と呼び、抽出対象のエンティティを「正例エンティティ」と呼び、抽出しない（抽出対象としない）エンティティを「負例エンティティ」と呼ぶ。さらに、set expansionにおいて最初に入力されるエンティティを「シードエンティティ」と呼び、正例のシードエンティティを「正例シードエンティティ」と呼び、負例のシードエンティティを「負例シードエンティティ」と呼ぶ。

set expansionの手法として一般的に用いられているのがブートストラップ法である。ブートストラップ法とは、一度学習したモデルに基づいて識別を行い、それを新たな学習データとして用いていく繰り返し学習の枠組みである。

set expansionの代表的な手法として、TChai（非特許文献１等参照）が知られている。このような手法により、自動的に新しいエンティティを獲得することができるが、システムのみによる完全な自動処理には限界があり、抽出対象としていないエンティティが誤って獲得されてしまうことも多い。

そこで、システムによる識別結果（抽出対象となるエンティティ）を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術（非特許文献２等参照）が提案されている。これをアクティブラーニング法と呼ぶ。この技術では、人手で修正された結果のみをそのまま修正内容として用いるのではなく、その修正により影響される可能性がある他のエンティティ候補についても自動的に修正を行うことで、できるだけ人手の介入のコストを削減し、高精度なエンティティ獲得を行う。非特許文献２の例では、SIM(Similarity Method)及びFMM(Feature Modification Method)という２つの方法が提案されている。これらの方法では、システムが正例と判断したエンティティをユーザに提示し、その判断の正しさについてユーザに確認を求める。

SIMでは、システムが正例と識別し、ユーザに確認を求めた正例エンティティにおいて、ユーザが負例を発見した場合、ユーザが負例と判断したエンティティだけではなく、それと素性の類似度が高いエンティティも正例エンティティの集合から削除する。類似度にはコサイン類似度等が用いられ、負例と判断されたエンティティと素性の類似度が閾値以上のエンティティが、正例エンティティの集合から削除される。例えば、非特許文献２の例では、類似度としてPMI(pointwise mutual information)で重み付けされた素性のコサイン類似度が用いられる。

FMMでは、上記と同様にユーザが負例を発見した場合、現在の正例エンティティの集合に含まれる素性に対するスコアと、当該正例エンティティの集合に含まれる素性からユーザが負例と判断したエンティティの素性に共通する要素を排除した素性に対するスコアとの間の変動量が評価され、それが所定の閾値以上となるエンティティが正例エンティティの集合から削除される。SIMではエンティティを削除しすぎる傾向があるのに対し、FMMはそれを抑える効果がある。

小町守，鈴木久美，「検索ログからの半教師あり意味知識獲得の改善」，人工知能学会論文誌，Vol. 23，No. 3，2008，p. 217-225. Vishnu Vyas and Patrick Pantel, "Semi-Automatic Entity Set Refinement," NAACL/HLT 2009, 2009, pp. 290-298.

従来のset expansionにはセマンティックドリフトという課題が存在する。例えば球団名を表す<広島><阪神>という正例シードエンティティに対して、従来のset expansionにより正例エンティティ<ヤクルト>が獲得できたとする。<ヤクルト>は飲料名でもあるので、<ヤクルト>を新たに正例エンティティに追加することで次のイテレーションでは<コーラ>等の飲料系のエンティティが正例エンティティとして獲得されるようになり、獲得される正例エンティティの話題がシフトしていく可能性がある。このように獲得される正例エンティティの話題がシフトしていく現象をセマンティックドリフトと呼ぶ。

非特許文献２で述べられている手法は、セマンティックドリフトを抑制する手段として効果的である。しかしながら、非特許文献２では、ユーザによって修正されたエンティティをどのように用いるのかが効果的かという点に着目されており、どのような情報をユーザに確認させるのが効果的かという点については提案されていない。

本発明はこのような点に鑑みてなされたものであり、人手による修正コストを小さくし、かつ、セマンティックドリフトを効率的に軽減する技術を提供することを目的とする。

抽出対象の文字列である正例エンティティの集合から選択した正例エンティティを含むテキストデータに対応するトピックを表す正例トピック情報を正例エンティティの素性の少なくとも一部とし、抽出対象ではない文字列である負例エンティティの集合から選択した負例エンティティを含むテキストデータに対応するトピックを表す負例トピック情報を負例エンティティの素性の少なくとも一部とし、正例エンティティの素性と負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する。トピックを表すトピック情報に対応するテキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択したテキストデータに対応するトピックを表すトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を識別モデルに入力して対象エンティティが正例エンティティか負例エンティティかを識別し、対象エンティティが正例エンティティであると識別した場合に対象エンティティを正例エンティティの集合の要素とし、対象エンティティが負例エンティティであると識別した場合に対象エンティティを負例エンティティの集合の要素とする。正例トピック情報の集合の部分集合をトピック修正候補の集合として選択し、トピック修正候補の集合を出力し、トピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する修正情報の入力を受け付ける。

本発明では、人手によって与えられた修正情報を用いてトピック情報を修正できるが、トピック情報は一以上のエンティティに対応する場合が多く、人手によるトピック情報の処理コストは人手による個々のエンティティの処理コストよりも小さい。これにより、人手による修正コストを小さくし、かつ、セマンティックドリフトを効率的に軽減することができる。

図１は、実施形態のデータ抽出装置の機能構成を例示するためのブロック図である。図２は、実施形態のデータ抽出装置のデータ抽出処理を例示するための図である。図３は、記憶部に格納されたテキストデータの集合Dを例示した図である。図４Ａは、トピック情報付きテキストデータの集合D'を例示した図である。図４Ｂは、トピック情報抽出部が出力する組(fP_e ^j, <+1>)及び組(fN_e ^j, <-1>)を例示した図である。

以下、図面を参照して本発明の実施形態を説明する。

〔第１実施形態〕
＜構成＞
図１に例示するように、第１実施形態のデータ抽出装置１は、記憶部１０１−１０５、制御部１０６、トピック付与部１０７、素性抽出部１０８、トピック情報抽出部１０９、トピック修正候補選択部１１１、トピック修正候補提示部１１２、修正情報取得部１１３、更新部１１５、識別学習部１１７、エンティティ識別部１１８、収束判定部１１９、及び出力部１２０を有し、制御部１０６の制御のもと各処理を実行する。なお、データ抽出装置１は、例えば、CPU(central processing unit)、RAM(random-access memory)及びROM(read-only memory)等を含む公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。例えば、記憶部１０１−１０５は、ハードディスクや半導体メモリなどであり、制御部１０６、トピック付与部１０７、素性抽出部１０８、トピック情報抽出部１０９、トピック修正候補選択部１１１、更新部１１５、識別学習部１１７、エンティティ識別部１１８、収束判定部１１９、及び出力部１２０は、特別なプログラムが読み込まれたCPUなどである。また、これらの少なくとも一部が集積回路などによって構成されてもよい。トピック修正候補提示部１１２は、例えば、情報をユーザに提示するディスプレイなどのユーザインタフェース、又はそのようなユーザインタフェースに情報を出力する出力ポートなどである。修正情報取得部１１３は、例えば、ユーザからの情報の入力を受け付けるキーボード、マウスなどのユーザインタフェース、又はそのようなユーザインタフェースからの情報が入力される入力ポートなどである。図１に表記された矢印は情報の流れを表すが、表記の都合上一部の矢印が省略されている。

＜事前処理＞
事前処理として、記憶部１０１にテキストデータの集合Dが格納され、記憶部１０２にトピックモデルTM⁰が格納される。

テキストデータとは、文字テキストを含むデータを意味する。テキストデータの例は、文書データ、クエリ、語句を含む図表データ、フレーズデータ、単語列データなどである。本形態では、形態素解析、固有表現抽出、係り受け解析、文境界同定などの前処理を行った後の文書データをテキストデータとした例を示す。

「トピックモデルTM⁰」とは、テキストデータに対応するトピックに対応するトピック情報とそのテキストデータが含む文字列との関係を記述するモデル（関数、数式）を意味する。「文字列」の具体例は、単語、単語列、フレーズ、文、文字、記号などである。テキストデータに対応するトピックとは、テキストデータのトピック（題目、話題、事柄、出来事、論題、分類など）を意味する。トピック情報は、テキストデータに対応するトピックに対応する情報であればどのようなものであってもよい。例えば、テキストデータに対応するトピックの候補（例えば<球団名>や<企業名>など）ごとに、当該テキストデータに対する各トピックの候補の適切さを表す指標（例えば、確率、重み係数、確率や重み係数の関数値であるスコアなど）が与えられ、それらの指標の少なくとも一部が当該テキストデータのトピック情報とされてもよい。

トピックモデルは、事前に教師なし学習データ（トピック情報との関係が特定されていないテキストデータから得られる学習データ）から獲得しておく。例えば、WEB上の100万個の文書データから所望のエンティティを獲得したい場合には、これら100万個の文書データから得られた学習データを用いてトピックモデルを学習しておく。

トピックモデルTM⁰の具体例は、UM(Unigram Mixtures)（参考文献１「Andrew K. McCallum, Kamal Nigam, "Employing EM and Pool-Based Active Learning for Text Classification", ICML'98, 1998」等参照）、LDA(Latent Dirichlet Allocation)、DM(Dirichlet Mixtures)などである。以下にトピックモデルTM⁰としてUMを用いる例を示す。

この場合のトピックモデルTM⁰は以下の形で定義される。

ここでdはテキストデータの集合Dに属するテキストデータd∈Dを表し、p(d)はテキストデータの集合Dにおけるテキストデータdの出現確率を表す。z∈Zは隠れ変数であり、各zが１つのトピックの候補に対応する。Zは隠れ変数zの集合を表す。以下ではｚを1以上Z以下の自然数とし、Zを隠れ変数の総数（トピックの候補の総数）とする。p(z)は隠れ変数zに対する確率であり、

を満たす。vは文字列を表し、Vは文字列vの集合を表す。p(v|z)は隠れ変数zにおける文字列vの生成確率（隠れ変数zが与えられたときの文字列vの事後確率）であり、

を満たす。n_dvはテキストデータd中に文字列vが出現した回数である。

トピックモデルTM⁰の学習は繰り返し最適化手法の１種であるEMアルゴリズムを用いて行われ、学習によってパラメータp(z), p(v|z)が得られる。得られた各パラメータp(z), p(v|z)はトピックモデルTM⁰を特定する情報として記憶部１０２に格納される。これはトピックモデルTM⁰が記憶部１０２に格納されることと同等である。

なお、本形態ではテキストデータが含む文字列を「エンティティ」と呼び、抽出対象のエンティティを「正例エンティティ」と呼び、抽出しない（抽出対象としない）エンティティを「負例エンティティ」と呼ぶ。また、最初に入力されるエンティティを「シードエンティティ」と呼び、正例のシードエンティティを「正例シードエンティティ」と呼び、負例のシードエンティティを「負例シードエンティティ」と呼ぶ。

＜データ抽出処理＞
以下、図２を用いてデータ抽出装置１のデータ抽出処理を例示する。

《初期化：ステップＳ１０１》
制御部１０６がjの値をj=1に初期化する。

《トピック付与：ステップＳ１０２》
トピック付与部１０７が、記憶部１０２に格納されたトピックモデルTM⁰を用い、記憶部１０１に格納されたテキストデータの集合Dが含む各テキストデータのトピックに対応するトピック情報をそれぞれ生成する。トピック付与部１０７は、生成した各トピック情報をそれに対応する各テキストデータに対応付け、テキストデータとトピック情報とを含むトピック情報付きテキストデータを生成する。生成されたトピック情報付きテキストデータの集合D'は記憶部１０３に格納される。なお、各テキストデータのトピックに対応する情報であれば、どのような情報をトピック情報としてもよい。以下に、UMをトピックモデルTM⁰として生成されるトピック情報を例示する。

[トピック情報の例]
トピック付与部１０７は、記憶部１０２に格納されたトピックモデルTM⁰のパラメータp(z), p(v|z)とテキストデータd及び文字列vから得られるn_dvを用い、式(1)に従って、記憶部１０１に格納されたテキストデータの集合Dに属するテキストデータdに対応するp(d)を計算できる。また、確率の乗法定理より、トピック付与部１０７は、p(z), p(v|z)を用い、z, vについての同時確率p(z,v)を以下のように求めることができる。

p(z,v)=p(z)p(v|z) …(2)
また、トピック付与部１０７は、p(z,v)及びn_dvを用い、z, dについての同時確率p(z,d)を以下のように求めることができる。

さらに、確率の乗法定理より、トピック付与部１０７は、p(z,d)及びp(z)を用い、隠れ変数zが与えられたときのテキストデータdの事後確率p(d|z)を、以下のように求めることができる。

p(d|z)=p(z,d)/p(z) …(4)
またさらに、ベイズの定理より、トピック付与部１０７は、得られたp(d), p(d|z)及びp(z)を用い、テキストデータdが与えられたときの隠れ変数zの事後確率p(z|d)を以下のように求めることができる。

事後確率p(z|d)はトピックの候補の適切さを表す指標であり、これらをトピック情報とすることができる。以下、このようなトピック情報を例示する。

トピック情報の例１：各トピックの候補に対応する各隠れ変数z_nに対応する各事後確率p(z_n|d)(n=1,...,Z)のうち、事後確率の大きな上位N個の隠れ変数z_n'とそれらにそれぞれ対応する事後確率p(z_n'|d)又は当該事後確率p(z_n'|d)の写像との組をテキストデータdのトピック情報とする。なお、Nは1以上Z以下の自然数定数である。例えば、N=1であり、p(z₅|d)=0.95が最大の事後確率である場合、隠れ変数z₅と事後確率p(z₅|d)=0.95との組をテキストデータdのトピック情報とする。

トピック情報の例２：各トピックの候補に対応する各隠れ変数z_nに対応する各事後確率p(z_n|d)(n=1,...,Z)のうち、事後確率の大きな上位N個の隠れ変数z_n'又は当該隠れ変数z_n'の写像をテキストデータdのトピック情報とする。例えば、N=1であり、p(z₅|d)=0.95が最大の事後確率である場合、隠れ変数z₅をテキストデータdのトピック情報とする。

トピック情報の例３：各トピックの候補に対応する各隠れ変数z_nに対応する各事後確率p(z_n|d)(n=1,...,Z)のうち、上位N個の事後確率p(z_n'|d)又は当該事後確率p(z_n'|d)の写像をそれぞれn'次元目の要素とし、他のZ-N個の要素を0としたZ次元ベクトルをテキストデータdのトピック情報とする。例えばN=1であり、p(z₂|d)=0.95が最大の事後確率である場合、Z次元ベクトル(0, 0.95, 0,...,0)をテキストデータdのトピック情報とする。

トピック情報の例４：各トピックの候補に対応する各隠れ変数z_nに対応する各事後確率p(z_n|d)(n=1,...,Z)のうち、上位N個の事後確率p(z_n'|d)にそれぞれ対応するn'次元目の要素を第１定数（例えば1）とし、他のZ-N個の要素を第２定数（例えば0）としたZ次元ベクトルをテキストデータdのトピック情報とする。例えばN=1であり、p(z₂|d)=0.95が最大の事後確率である場合、Z次元ベクトル(0, 1, 0,...,0)をテキストデータdのトピック情報とする。

トピック情報の例５：トピック情報の例１又は２において、「事後確率の大きな上位N個の隠れ変数z_n'」を「事後確率が閾値以上となる隠れ変数z_n'」に置換した方法でテキストデータdのトピック情報を定める。

トピック情報の例６：トピック情報の例３又は４において、「上位N個の事後確率p(z_n'|d)」を「閾値以上の事後確率p(z_n'|d)」に置換した方法でテキストデータdのトピック情報を定める。

図３に例示したテキストデータの集合Dは、前処理を行った後の文書データであるテキストデータと当該テキストデータのIDとが対応付けされたデータである。また、図４Ａに例示したトピック情報付きテキストデータの集合D'は、テキストデータと、当該テキストデータのIDと、当該テキストデータに対してトピック情報の例１によって生成されたトピック情報とが対応付けされたデータである。このように、トピック情報はテキストデータごとに付与されており、同じテキストデータ内に表れるエンティティには同じトピック情報が対応する。

なお、予めテキストデータにトピック情報が付与されている場合には、そのトピック情報を用いればよい。また、事前にトピック情報付きテキストデータの集合D'が生成されている場合にはステップＳ１０２の処理を実行しなくてもよい（[トピック情報の例]の説明終わり）。

《素性抽出：ステップＳ１０３》
ユーザが欲するエンティティの例が正例シードエンティティRP_e ⁰として素性抽出部１０８に入力される。例えば、<広島>などが正例シードエンティティとして入力される。また、負例シードエンティティRN_e ⁰が素性抽出部１０８に入力される。例えば、<日本>などが負例シードエンティティとして入力される。

正例シードエンティティRP_e ⁰は、ユーザによって選択されたものである。負例シードエンティティRN_e ⁰は、ユーザによって選択されたものであってもよいし、テキストデータの集合Dから半自動で生成されたものであってもよい。以下に負例シードエンティティRN_e ⁰を半自動で生成する方法を例示する。

[負例シードエンティティRN_e ⁰の半自動生成方法の例]
負例シードエンティティ生成部（図示せず）が、テキストデータの集合Dから、何れの正例シードエンティティRP_e ⁰も含まないテキストデータを所定個数抽出し、抽出した各テキストデータから１つずつランダムに名詞を選択し、それらを負例エンティティ候補として出力する。表示部（図示せず）はこれらの負例エンティティ候補を表示し、これらから負例シードエンティティを選択するようにユーザに促す表示を行う。ユーザによる選択内容は負例シードエンティティ生成部に入力され、負例シードエンティティ生成部は、選択された負例エンティティ候補を正例シードエンティティRP_e ⁰として出力する（[負例シードエンティティRN_e ⁰の半自動生成方法の例]の説明終わり）。

素性抽出部１０８は、記憶部１０１に格納されたテキストデータの集合Dから、何れかの正例エンティティRP_e ^j-1（初期の正例エンティティRP_e ⁰は正例シードエンティティRP_e ⁰）を含む文字列である「正例テキスト」を抽出する。正例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。正例テキストは、正例エンティティRP_e ^j-1とテキストデータとの組に対して１個以上抽出される。素性抽出部１０８は、抽出した正例テキストとの関係で定まる正例エンティティRP_e ^j-1の特徴を表す素性fP'_e ^jを抽出する。この例では、正例エンティティRP_e ^j-1を含む正例テキストごとに当該正例エンティティRP_e ^j-1の素性fP'_e ^jが抽出される。以下に、正例エンティティRP_e ^j-1の素性fP'_e ^jを例示する。

[正例エンティティRP_e ^j-1の素性fP'_e ^jの例]
正例エンティティRP_e ^j-1の素性fP'_e ^jは、正例テキスト（正例エンティティRP_e ^j-1を含む文字列であってテキストデータが含むもの）に対応し、正例テキストと当該正例エンティティRP_e ^j-1との関係を表す情報を含む。このような情報であればどのようなものを素性として用いてもよい。

例えば、何れかの正例エンティティRP_e ^j-1を含むテキストデータ内における当該正例エンティティRP_e ^j-1に一致するエンティティ（一致エンティティ）から前後所定単語数以内（正例テキスト内）に位置する単語（周辺単語）の表記と当該一致エンティティに対する当該周辺単語の相対位置を表す情報との組（表層素性）、一致エンティティ又は周辺単語の品詞情報（品詞素性）や固有名詞情報（固有名詞素性）や構文情報（構文素性）、テキストデータ内での正例エンティティRP_e ^j-1の出現回数やテキストデータの集合D内での正例エンティティRP_e ^j-1の出現回数（出現回数素性）のうち、少なくとも一つに対応する情報を素性fP'_e ^jとすることができる。

表層素性の例は「ex+1="は"」「ex-1="で"」などであり、これらは周辺単語（前者の例では「は」）と一致エンティティに対する周辺単語の相対位置（前者の例では「ex+1」）を表す情報との組を特定する情報である。「ex」は一致エンティティを表し、「ex+β」は一致エンティティexのβ単語後の単語を表し、「ex-β」は一致エンティティexのβ単語前の単語を表す。品詞素性の例は「ex+1=POS：助詞」「ex=POS：名詞」などであり、これらは一致エンティティに対する周辺単語の相対位置（前者の例では「ex+1」、後者の例では「ex」）と一致エンティティ又は周辺単語の品詞との組を特定する情報である。固有名詞素性の例は「ex=ORG」「ex-1=ORG」などであり、これらは一致エンティティに対する周辺単語の相対位置と一致エンティティ又は周辺単語の固有名詞との組を特定する情報である。構文素性の例は、正例テキスト内での一致エンティティの「係り受けの階層」を表す情報である。出現回数素性の例は、テキストデータやテキストデータの集合Dが含む正例エンティティRP_e ^j-1の個数である（[正例エンティティRP_e ^j-1の素性fP'_e ^jの例]の説明終わり）。

同様に、素性抽出部１０８は、記憶部１０１に格納されたテキストデータの集合Dから、何れかの負例エンティティRN_e ^j-1（初期の負例エンティティRN_e ⁰は負例シードエンティティRN_e ⁰）を含む文字列である「負例テキスト」を抽出する。負例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。負例テキストは、負例エンティティRN_e ^j-1とテキストデータとの組に対して一つ以上抽出される。素性抽出部１０８は、抽出した負例テキストとの関係で定まる負例エンティティRN_e ^j-1の特徴を表す素性fN'_e ^jを抽出する。負例エンティティRN_e ^j-1の素性fN'_e ^jは、負例テキスト（負例エンティティRN_e ^j-1を含む文字列であってテキストデータが含むもの）に対応し、負例テキストと当該負例エンティティRN_e ^j-1との関係を表す情報を含む。この例では、負例エンティティRN_e ^j-1を含む負例テキストごとに当該負例エンティティRN_e ^j-1の素性fN'_e ^jが抽出される。負例エンティティRN_e ^j-1の素性fN'_e ^jの具体例は、上述した正例エンティティRP_e ^j-1の素性fP'_e ^jの場合と同様である。例えば、上述した正例エンティティRP_e ^j-1の素性fP'_e ^jの具体例の「正例」が「負例」に「RP_e ^j-1」が「RN_e ^j-1」に「fP'_e ^j-1」が「fN'_e ^j-1」にそれぞれ置換されたものである。

素性抽出部１０８は、正例エンティティRP_e ^j-1の素性fP'_e ^jと正例を表すラベル<+1>との組(fP'_e ^j, <+1>)、及び、負例エンティティRN_e ^j-1の素性fN_e ^jと負例を表すラベル<-1>との組(fN'_e ^j, <-1>)を出力する。

《トピック情報抽出：ステップＳ１０４》
正例エンティティRP_e ^j-1、負例エンティティRN_e ^j-1、正例エンティティRP_e ^j-1の素性fP'_e ^jと正例を表すラベル<+1>との組(fP'_e ^j, <+1>)、及び、負例エンティティRN_e ^j-1の素性fN_e ^jと負例を表すラベル<-1>との組(fN'_e ^j, <-1>)がトピック情報抽出部１０９に入力される。

トピック情報抽出部１０９は、記憶部１０３に格納されたトピック情報付きテキストデータの集合D'から、正例エンティティRP_e ^j-1を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報（正例エンティティRP_e ^j-1を含むテキストデータに対応するトピック情報）を選択する。このように選択されたトピック情報を、正例エンティティRP_e ^j-1とテキストデータとの組に対応する「正例トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各正例テキストには、同じ正例トピック情報が対応する。トピック情報抽出部１０９は、正例エンティティRP_e ^j-1とテキストデータとの組に対応する正例トピック情報を、当該テキストデータが含む各正例テキストに対応する各正例エンティティRP_e ^j-1の素性fP'_e ^jに加え、各正例テキストに対応する各正例エンティティRP_e ^j-1の素性をfP_e ^jに更新する。すなわち、正例テキストに対応する正例エンティティRP_e ^j-1の素性fP_e ^jは、当該正例テキストに対応する正例エンティティRP_e ^j-1の素性fP'_e ^jと正例トピック情報とを含む。このように正例トピック情報は素性fP_e ^jの一部とされる。

同様に、トピック情報抽出部１０９は、記憶部１０３に格納されたトピック情報付きテキストデータの集合D'から、負例エンティティRN_e ^j-1を含むテキストデータを含むトピック情報付きテキストデータが含むトピック情報（負例エンティティRN_e ^j-1を含むテキストデータに対応するトピック情報）を選択する。このように選択されたトピック情報を、負例エンティティRN_e ^j-1とテキストデータとの組に対応する「負例トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各負例テキストには、同じ負例トピック情報が対応する。トピック情報抽出部１０９は、負例エンティティRN_e ^j-1とテキストデータとの組に対応する負例トピック情報を、当該テキストデータが含む各負例テキストに対応する各負例エンティティRN_e ^j-1の素性fN'_e ^jに加え、各負例テキストに対応する各負例エンティティRN_e ^j-1の素性をfN_e ^jに更新する。すなわち、負例テキストに対応する負例エンティティRN_e ^j-1の素性fN_e ^jは、負例テキストに対応する負例エンティティRN_e ^j-1の素性fN'_e ^jと負例トピック情報とを含む。このように負例トピック情報は素性fN_e ^jの一部とされる。

なお、トピック情報付きテキストデータの集合D'が含むすべての正例テキストや負例テキストに対応する素性fP_e ^j,fN_e ^jが生成されてもよいし、一部の正例テキストや負例テキストに対応する素性fP_e ^j,fN_e ^jのみが生成されてもよい。以下に、一部の正例テキストや負例テキストに対応する素性fP_e ^j,fN_e ^jのみが生成される例を示す。

[一部の正例テキストや負例テキストに対応する素性のみが生成される例]
多義的な正例エンティティRP_e ^j-1が素性抽出部１０８に入力される場合がある。例えば<阪神>のような正例エンティティRP_e ^j-1は、球団名として用いられる場合もあれば、企業名として用いられる場合もある。この例では、トピック情報付きテキストデータの集合D'において正例エンティティRP_e ^j-1がどのような意味で使用されることが多いのかを推定し、当該推定された意味で正例エンティティRP_e ^j-1が使用されていると推定される文字列（正例テキスト及び負例テキスト）のみを対象として正例トピック情報及び負例トピック情報を選択し、正例エンティティRP_e ^j-1の素性fP_e ^jや負例エンティティRN_e ^j-1の素性fN_e ^jを生成する。これにより、後述する識別学習部１１７での学習精度やエンティティ識別部１１８での識別精度の向上が見込まれる。

まず、トピック情報付きテキストデータの集合D'において正例エンティティRP_e ^j-1がどのような意味で使用されているかを推定するために、素性抽出部１０８は、トピック情報付きテキストデータの集合D'が含む各テキストデータが含む文字列（正例テキスト及び負例テキスト）に、当該文字列のトピックの候補と、当該トピックの候補それぞれの当該文字列に対する適切さを表すトピック候補スコアとを与える。トピック候補スコアは、例えば、前述のトピックモデルTM⁰を用いて計算されるか、前述のステップＳ１０２の過程で得られた情報から計算され、記憶部１０３に格納される。以下に、各トピックの候補に対応するz_n(n=1,...,Z)とテキストデータが含む文字列vとに対応するトピック候補スコアs(z_n,v)を例示する。

s(z_n,v)=p(z_n|v)=p(v|z_n)p(z_n)/p(v) …(6)
なお、p(v|z_n), p(z_n)は、z=z_nでのトピックモデルTM⁰のパラメータとして得られ、p(v)は、z=z_nでの式(2)の同時確率p(z_n,v)とパラメータp(z_n)=Σ_z p(v|z)p(z_n)とから得られる。

また、以下のトピック候補スコアs(z_n,v)を用いてもよい。

その他、式(6)(7)の写像をトピック候補スコアs(z_n,v)としてもよい。

次に素性抽出部１０８は、正例テキストに対応する同一のトピックの候補に対応するトピック候補スコアを集計し、当該トピックの候補ごとの集計結果を当該トピックの候補それぞれの正例トピックスコアとする。例えば、素性抽出部１０８は、式(8)に従ってトピックの候補のそれぞれに対応する各正例トピックスコアS(z_n) (n=1,...,Z)を計算し、記憶部１０３に格納する。なお、V_pは正例テキストの集合を表す。

その他、トピック候補スコアs(z_n,v)(v∈V_p)の単調増加関数値を各正例トピックスコアS(z_n)(n=1,...,Z)とするなど、その他の集計方法で正例トピックスコアS(z_n)が計算されてもよい。

次に素性抽出部１０８は、各正例トピックスコアS(z_n)(n=1,...,Z)が特定の基準を満たすトピックの候補を選択し、それを正例基準トピックS_eとして記憶部１０３に格納する。選択される正例基準トピックS_eの個数は１個であってもよいし２個以上であってもよい。例えば、最も値の大きな正例トピックスコアS(z_n)に対応するトピックの候補が正例基準トピックS_eとされてもよいし、値の大きな順に選択された所定個の正例トピックスコアS(z_n)にそれぞれ対応するトピックの候補が正例基準トピックS_eとされてもよいし、基準値以上の正例トピックスコアS(z_n)に対応するトピックの候補が正例基準トピックS_eとされてもよい。同様に、各負例トピックスコアS(z_n)(n=1,...,Z)が特定の基準を満たすトピックの候補を選択し、それを負例基準トピックS_e'が記憶部１０３に格納されてもよい。負例トピックスコア及び負例基準トピックは、上述の正例トピックスコア及び正例基準トピックの定義中の正例がそれぞれ負例に置換されたものである。

素性抽出部１０８は、例えば、正例基準トピックS_eの何れかと同一のトピックの候補に対応する正例テキスト（テキストデータが含む文字列）であり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが特定の基準を満たす正例テキストに対応する正例エンティティRP_e ^j-1の素性fP_e ^jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、素性抽出部１０８は、例えば、負例基準トピックS_e'の何れかと同一のトピックの候補に対応する負例テキスト（テキストデータが含む文字列）であり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが特定の基準を満たす負例テキストに対応する負例エンティティRN_e ^j-1の素性fN_e ^jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。以下に具体的な素性生成例を示す。

素性生成例１：素性抽出部１０８は、正例基準トピックS_eの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストに対応する正例エンティティRP_e ^j-1の素性fP_e ^jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、例えば、素性抽出部１０８は、負例基準トピックS_e'の何れかと同一のトピックの候補に対応する負例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該負例テキストに対応するトピック候補スコアの中で最大となる負例テキストに対応する負例エンティティRN_e ^j-1の素性fN_e ^jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。

素性生成例２：素性抽出部１０８は、正例基準トピックS_eの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストに対応する正例エンティティRP_e ^j-1の素性fP_e ^jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。また、例えば、素性抽出部１０８は、負例基準トピックS_e'の何れかと同一のトピックの候補に対応する負例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる負例テキストに対応する負例エンティティRN_e ^j-1の素性fN_e ^jを生成するが、それ以外の負例テキストに対応する負例エンティティの素性を生成しない。

素性生成例３：素性抽出部１０８は、正例基準トピックS_eの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストに対応する正例エンティティRP_e ^j-1の素性fP_e ^jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。一方、負例エンティティRN_e ^j-1の素性fN_e ^jについては、すべての負例テキストに対応する負例エンティティRN_e ^j-1の素性fN_e ^jが生成される。

素性生成例４：素性抽出部１０８は、正例基準トピックS_eの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストに対応する正例エンティティRP_e ^j-1の素性fP_e ^jを生成するが、それ以外の正例テキストに対応する正例エンティティの素性を生成しない。一方、負例エンティティRN_e ^j-1の素性fN_e ^jについては、すべての負例テキストに対応する負例エンティティRN_e ^j-1の素性fN_e ^jが生成される（[一部の正例テキストや負例テキストに対応する素性のみが生成される例]の説明終わり）。

トピック情報抽出部１０９は、正例エンティティRP_e ^j-1の素性fP_e ^jと正例を表すラベル<+1>との組(fP_e ^j, <+1>)、及び、負例エンティティRN_e ^j-1の素性fN_e ^jと負例を表すラベル<-1>との組(fN_e ^j, <-1>)を出力する。

図４Ｂは、トピック情報抽出部１０９が出力する組(fP_e ^j, <+1>)及び組(fN_e ^j, <-1>)を例示した図である。なお、「POS」は品詞素性を表し、「BOS」は対応する位置に単語が存在しないことを表す。例えば、テキストデータ<T1>が含む正例テキストに対応する正例エンティティex=<広島>の素性はfP_e ^j=（ex-2="ヤクルト", ex-2=POS：名詞, ex-1="VS", ex-1=POS：名詞, ex+1="の", ex+1=POS：助詞, ex+2="ヤクルト", ex+2=POS：助詞, トピック情報=(z₂,0.8))である。

《識別学習：ステップＳ１０５》
正例エンティティRP_e ^j-1の素性fP_e ^jと正例を表すラベル<+1>との組(fP_e ^j, <+1>)、及び、負例エンティティRN_e ^j-1の素性fN_e ^jと負例を表すラベル<-1>との組(fN_e ^j, <-1>)は識別学習部１１７に入力される。正例エンティティRP_e ^j-1の素性fP_e ^jは正例に対する教師あり学習データとして利用でき、負例エンティティRN_e ^j-1の素性fN_e ^jは負例に対する教師あり学習データとして利用できる。識別学習部１１７は、正例エンティティRP_e ^j-1の素性fP_e ^jと負例エンティティRN_e ^j-1の素性fN_e ^jとを教師あり学習データとした学習処理によって、識別モデルME_e ^jを生成する。この識別モデルME_e ^jは、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である。このような識別モデルME_e ^jであればどのようなモデルであってもよい。

識別モデルME_e ^jの例は、正則化項付き最大エントロピーモデル（参考文献２「Berger, A.L. , Pietra, V.J.D. and Pietra, "A maximum entropy approach to natural language processing", S.A.D. 1996.」）、正則化項付きの条件付きランダム場(CRFs、参考文献３「Lafferty, J. and McCallum, A. and Pereira, F. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data", MACHINE LEARNING, pp. 282-289, 2001.」、サポートベクタマシン(SVMs、参考文献４「Vapnik, V. N. "The nature of statistical learning theory", Springer Verlag, 1995.」)などである。各例の識別モデルME_e ^jの学習では、教師あり学習データとして用いられた正例エンティティRP_e ^j-1の素性fP_e ^j及び負例エンティティRN_e ^j-1の素性fN_e ^jに対し、当該識別モデルME_e ^jへの影響度の大きさを表す指標（素性に対する重み）が付され、これらが識別モデルME_e ^jを特定するパラメータとなる。特に参考文献２−４で例示したようなモデルは、すべての素性に対して重みが付されるモデル（例えば正則化項のない最大エントロピーモデル)ではなく、識別に有効と判断された素性のみについて重みが付される。以下、正則化項付き最大エントロピーモデルの具体例を示す。

正則化項付き最大エントロピーモデルが用いられる場合、識別学習部１１７は、(x,y)∈{(fP_e ^j, <+1>), (fN_e ^j, <-1>)}を学習データとして用い、条件付確率

に対するエントロピー

を最大化する各重み（パラメータ）λ_qに対応するP_λ(y|x)であるP(y|x)を識別モデルME_e ^jとする。ただし、

であり、qは各学習データ(x,y)の組にそれぞれ対応するラベルであり、p'(x)は学習データ(x,y)におけるxの出現頻度であり、f_q(x,y)はqに対応する素性関数(feature function)である。

ここで、各重みλ_qはqに対応する学習データ(x,y)の素性fP_e ^j又はfN_e ^jの識別モデルME_e ^jへの影響度の大きさを表す指標となる。また、正則化項付き最大エントロピーモデルの例では、すべての学習データ(x,y)の素性fP_e ^j又はfN_e ^jに対して重みλ_qが付されるわけではなく、重要度の低い素性に対応する重みλ_qは付されない。すなわち、重要度の低い素性に対応する重みλ_qは0とされる。

また、ステップＳ１０４で一部の正例テキストや負例テキストに対応する素性fP_e ^j,fN_e ^jのみが生成されていた場合には、一部の正例テキストや負例テキストに対応する素性fP_e ^j,fN_e ^jに対応する(x,y)∈{(fP_e ^j, <+1>), (fN_e ^j, <-1>)}のみが学習データとされる。例えば、前述した「一部の正例テキストや負例テキストに対応する素性のみが生成される例」のように素性fP_e ^j,fN_e ^jが生成された場合には、前述した正例基準トピックの何れかと同一のトピック候補に対応する正例テキスト（テキストデータが含む文字列）であり、なおかつ、当該同一のトピック候補のトピック候補スコアが特定の基準を満たす正例テキストに対応する正例エンティティ及び／又は負例エンティティの素性のみが教師あり学習データとされる。

学習処理によって生成された識別モデルME_e ^jは記憶部１０４に格納される。例えば、学習処理によって生成された識別モデルME_e ^jのパラメータが記憶部１０４に格納される。

《エンティティ識別：ステップＳ１０６》
エンティティ識別部１１８は、記憶部１０３に格納されたトピック情報付きテキストデータの集合D'から何れかのトピック情報付きテキストデータを選択し、選択したトピック情報付きテキストデータが含むテキストデータが含む文字列であるエンティティを対象エンティティRD_e ^jとする。

なお、トピック情報付きテキストデータの集合D'からすべてのトピック情報付きテキストデータが選択されてもよいが、すべてのテキストデータを識別対象とすることは計算効率上好ましくない。そのため、特定の方法で識別対象を限定して選択を行うことが望ましい。以下にその具体例を示す。

[選択方法の例]
選択方法の例１：
選択方法の例１では、エンティティ識別部１１８は、識別学習部１１７で教師あり学習データとして用いられた正例エンティティRP_e ^j-1の素性fP_e ^j及び負例エンティティRN_e ^j-1の素性fN_e ^jのうち、それらから生成された識別モデルME_e ^jへの影響度の大きさを表す指標（例えば前述の重みλ_q）が特定の基準を満たす素性、つまり、当該識別モデルME_e ^jへの影響度が大きな素性fP_e ^j及び／又はfN_e ^jを選択する。例えば、エンティティ識別部１１８は、前述の重みλ_qの絶対値が閾値よりも大きな素性fP_e ^j及び／又はfN_e ^jを選択する。

また、エンティティ識別部１１８は、選択した素性fP_e ^j及び／又はfN_e ^jに対応する文字列を含むテキストデータを含むトピック情報付きテキストデータを選択し、当該選択したトピック情報付きテキストデータが含むテキストデータが含む文字列であるエンティティを対象エンティティRD_e ^jとする。例えば、エンティティ識別部１１８は、選択した素性fP_e ^j及び／又はfN_e ^jから表層素性の単語を抽出し、当該表層素性の単語を含むテキストデータを含むトピック情報付きテキストデータを選択する。一例を挙げると、選択された素性がエンティティexの前２単語が表層素性と品詞素性の組み合わせで成り立つ素性FNC(x−2=“POS:名詞”, x−1=“で”)（FNCは関数）であった場合、エンティティ識別部１１８は、選択した素性FNC(x−2=“POS:名詞”, x−1=“で”)から表層素性の単語“で”を抽出し、単語“で”を含むテキストデータを含むトピック情報付きテキストデータを選択する。

選択方法の例２：
選択方法の例２では、エンティティ識別部１１８は、前述した正例基準トピックS_eの何れかと同一のトピック候補に対応する正例テキスト（テキストデータが含む文字列）であり、なおかつ、当該同一のトピック候補のトピック候補スコアが特定の基準を満たす正例テキストが含むエンティティを対象エンティティRD_e ^jとする。

例えば、エンティティ識別部１１８は、正例基準トピックS_eの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが当該正例テキストに対応するトピック候補スコアの中で最大となる正例テキストが含むエンティティを対象エンティティRD_e ^jとする。

或いは、例えば、エンティティ識別部１１８は、正例基準トピックS_eの何れかと同一のトピックの候補に対応する正例テキストであり、なおかつ、当該同一のトピックの候補に対応するトピック候補スコアが基準値以上となる正例テキストが含むエンティティを対象エンティティRD_e ^jとする（[選択方法の例]の説明終わり）。

素性抽出部１０８は、記憶部１０１に格納されたテキストデータの集合Dから、対象エンティティRD_e ^jを含む文字列である「対象テキスト」を抽出する。対象テキストの例は、テキストデータが含む文、フレーズ、単語列などである。対象テキストは、対象エンティティRD_e ^jとテキストデータとの組に対して１個以上抽出される。

素性抽出部１０８は、抽出した対象テキストとの関係で定まる対象エンティティRD_e ^jの特徴を表す素性fD'_e ^jを抽出する。対象エンティティRD_e ^jの素性fD'_e ^jは、対象テキスト（対象エンティティRD_e ^jを含む文字列であってテキストデータに含まれるもの）に対応し、対象テキストと当該対象エンティティRD_e ^jとの関係を表す情報を含む。具体的な処理は、前述した正例エンティティRP_e ^j-1の素性fP'_e ^jを抽出する場合と同様である。例えば、「正例エンティティRP_e ^j」が「対象エンティティRD_e ^j」に「素性fP'_e ^j」が「素性fD'_e ^j」に「正例テキスト」が「対象テキスト」に置換される以外は、前述した正例エンティティRP_e ^j-1の素性fP'_e ^jを抽出する処理と同じである。

対象テキストに対応する対象エンティティRD_e ^jの素性fD'_e ^jは、トピック情報抽出部１０９に入力される。トピック情報抽出部１０９は、記憶部１０３から、対象テキストを含むトピック情報付きテキストデータが含むトピック情報（対象テキストに対応するトピック情報）を選択する。このように選択されたトピック情報を、対象エンティティRD_e ^jとテキストデータとの組に対応する「対象トピック情報」と呼ぶことにする。なお、トピック情報はテキストデータごとに与えられているため、同一のテキストデータが含む各対象テキストには、同じ対象トピック情報が対応する。トピック情報抽出部１０９は、対象エンティティRD_e ^jとテキストデータとの組に対応する対象トピック情報を、当該テキストデータが含む各対象テキストに対応する各対象エンティティRD_e ^jの素性fD'_e ^jに加え、各対象テキストに対応する各対象エンティティRD_e ^jの素性をfD_e ^jに更新する。すなわち、対象テキストに対応する対象エンティティRD_e ^jの素性fD_e ^jは、当該対象テキストに対応する対象エンティティRD_e ^jの素性fD'_e ^jと対象トピック情報とを含む。このように対象トピック情報は素性fD_e ^jの一部とされる。

対象エンティティRD_e ^jの素性fD_e ^jは、エンティティ識別部１１８に入力される。エンティティ識別部１１８は、対象エンティティRD_e ^jの素性fD_e ^jを記憶部１０４から読み出した識別モデルME_e ^jに入力し、対象エンティティRD_e ^jが正例エンティティか負例エンティティかを識別する。例えば、識別モデルME_e ^jとして正則化項付き最大エントロピーモデルが用いられる場合には、x=fD_e ^jを識別モデルME_e ^jであるP(y|x)に代入してP(1|x)とP(-1|x)とを求め、それらに対応する指標（信頼度など）と閾値とを比較することで、対象エンティティRD_e ^jが正例エンティティか負例エンティティかを識別する。

ここで、対象エンティティが正例エンティティであると識別された場合、エンティティ識別部１１８は、対象エンティティRD_e ^jを新たな正例エンティティRP_e ^jとして記憶部１０５に格納する。一方、対象エンティティが負例エンティティであると識別された場合、エンティティ識別部１１８は、対象エンティティRD_e ^jを新たな負例エンティティRN_e ^jして記憶部１０５に格納する。

《トピック修正候補選択：ステップＳ１０７》
トピック修正候補選択部１１１は、記憶部１０３に格納されたトピック情報付きテキストデータの集合D'から、正例エンティティRP_e ^jを含むテキストデータに対応するトピック情報（正例トピック情報）の集合の部分集合をトピック修正候補の集合として選択する。トピック修正候補の集合の要素は、正例エンティティRP_e ^jに対応するものとしてユーザに提示され、人手による検証対象とされる。正例エンティティRP_e ^jを含むテキストデータに対応する正例トピック情報の集合のすべてがトピック修正候補の集合とされてもよいし、当該正例トピック情報の集合の一部の要素がトピック修正候補の集合とされてもよい。ただ、人手による修正コストをできるだけ小さくし、かつ、セマンティックドリフトをより効率的に軽減するためには、それに適した基準でトピック修正候補の集合が選択されることが望ましい。基本的には、人手による修正によって得られる情報量の多い正例トピック情報や、正例エンティティRP_e ^jに対応することの信頼度がデータ抽出装置１にとって低い正例トピック情報が、トピック修正候補の集合として有益である。有益な正例トピック情報を選んでトピック修正候補の集合としてユーザに提示できれば、ユーザが検討するデータの数を減らすことができ（ユーザの負荷を減らし）、かつ、学習処理に有益な正例トピック情報を効率よく得ることができる。このように有益な正例トピック情報を選択する基準であればどのようなものを用いてもかまわない。以下では、有益な正例トピック情報の集合をトピック修正候補の集合として選択するための基準を例示する。

［トピック修正候補の集合を選択する基準の例示］
トピック修正候補選択部１１１は、正例トピック情報に対応するスコアS_pを何らかの基準と比較し、その基準を満たす正例トピック情報の集合をトピック修正候補の集合とする。例えば、スコアS_pが閾値TH_p以上（又は閾値TH_pを超えること）となる正例トピック情報をトピック修正候補の集合の要素としてもよいし、スコアS_pの大きい順に選択された上位M個（Mは正整数）の正例トピック情報をトピック修正候補の集合の要素としてもよい。スコアS_pは、例えば、人手による修正によって得られる情報量が多い（影響度が大きい）ほど大きくなるものであってもよいし、正例エンティティRP_e ^jに対応することの信頼度がデータ抽出装置１にとって低いほど大きくなるものであってもよいし、それらの両方の特徴を備えたものであってもよい。以下、スコアS_pの例を示す。

［影響度に対応するスコアの例］
この例では、正例トピック情報が表すトピックpz_n’それぞれに対応するテキストデータdの数|Dpz_n’|に対応する値が当該トピックpz_n’それぞれの影響度とされ、当該影響度に対応する値が当該トピックpz_n’を表す各正例トピック情報に対応するスコアS_pとされる。例えば図４Ａの例のようにN=1の場合のトピック情報の例１によってトピック情報が生成された場合、

と事後確率p(z_n'|d)との組がテキストデータdに対応するトピック情報される。なお、arg max_α βはβを最大化するαを意味する。図４Ａの例でID=T1,T2,T4,T8,T10,T11のテキストデータdのそれぞれが何れかの正例エンティティRP_e ^jを含み、ID=T7のテキストデータdが正例エンティティRP_e ^jを含まないとする。この場合、ID=T1,T2,T4,T8,T10,T11のテキストデータdに対応する各トピック情報がトピックpz_n’=z₂を表す正例トピック情報であり、|Dpz_n’|=6である。|Dpz_n’|がそのまま影響度とされてもよいし、|Dpz_n’|の広義単調増加関数値が影響度とされてもよい。影響度がそのままスコアS_pとされてもよいし、影響度の広義単調増加関数値がスコアS_pとされてもよい。

［信頼度１に対応するスコアの例］
この例では、正例トピック情報が表すトピックpz_n’に対応するテキストデータdが含む文字列vの確率分布p(v|pz_n’)と正例エンティティRP_e ^jを含むテキストデータdが含む文字列vの確率分布p(v|ω=1)（ω∈{1,0}={正例，負例}）との距離に対応する値が当該正例トピック情報それぞれの第１信頼度とされ、当該第１信頼度に対応する値が当該正例トピック情報それぞれに対応するスコアS_pとされる。どのような尺度の距離を用いるかには限定はないが、例えば、距離としてKLダイバージェンス（Kullback-Leibler divergence）（例えば参考文献１参照）を用いることができる。確率分布p(v|pz_n’)と確率分布p(v|ω=1)とのKLダイバージェンスは、例えば以下のようになる。

確率分布p(v|pz_n’)と確率分布p(v|ω=1)との距離がそのまま第１信頼度とされてもよいし、当該距離の広義単調増加関数値が第１信頼度とされてもよい（第１信頼度が高いほど信頼性が低い）。この例では信頼性が低いほど大きな値をとるスコアS_pが用いられる。例えば、第１信頼度がそのままスコアS_pとされてもよいし、第１信頼度の広義単調増加関数値がスコアS_pとされてもよい。

［信頼度２に対応するスコアの例］
この例では、トピックz_n’を表す負例トピック情報それぞれに対応するテキストデータの数|Dnz_n’|と当該同じトピックz_n’を表す正例トピック情報それぞれに対応するテキストデータの数|Dpz_n’|との比に対応する値が、当該トピックz_n’を表す正例トピック情報の第２信頼度とされ、当該第２信頼度に対応する値が当該正例トピック情報それぞれに対応するスコアS_pとされる。

［組合せの例］
上述の影響度に対応するスコアの例、信頼度１，２に対応するスコアの例を組み合わせたスコアであってもよい。例えば、影響度×信頼度１や、影響度×信頼度２や、影響度×信頼度１×信頼度２や、信頼度１×信頼度２などがスコアS_pとされてもよい。

《トピック修正候補提示：ステップＳ１０８》
トピック修正候補選択部１１１で選択されたトピック修正候補の集合はトピック修正候補提示部１１２に送られる。トピック修正候補提示部１１２は、トピック修正候補の集合を出力する。例えば、トピック修正候補提示部１１２は、トピック修正候補の集合をリストとして表示する。この際、例えば、各トピック修正候補の集合の要素にそれぞれ対応するテキストデータD、正例エンティティRP_e ^j、スコアS_pなどの情報も併せてトピック修正候補提示部１１２に送られ、表示されてもよい。ユーザはこのように表示されたトピック修正候補の集合を閲覧する。

《修正情報取得：ステップＳ１０９》
ユーザは表示されたトピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する。以下に不適切な正例トピック情報の例を示す。

［不適切な正例トピック情報の例１］
不適切な正例トピック情報の例１は、正例エンティティに対応するトピックとして適切でないものを表す正例トピック情報である。例えば、ユーザが欲する内容に即していないトピックを表すトピック情報や、負例エンティティに対応するトピックとして適切なものを表すトピック情報や、そもそもトピックとしてふさわしくないものを表すトピック情報などを例示できる。

［不適切な正例トピック情報の例２］
不適切な正例トピック情報の例２は、正例エンティティに対応し、なおかつ、負例エンティティにも対応するトピックを表す正例トピック情報である。例えば、例えば球団名を表わすエンティティを獲得したい状況において、ステップＳ１０６で正例エンティティRP_e ^jであると識別されたエンティティ「巨人」「ライオンズ」「ヴェルディ」がそれぞれある共通のトピックz_n’に対応するとする。しかし、実際にはトピックz_n’は「巨人」と「ライオンズ」に対して適切であるが、「ヴェルディ」に対しては適切でないとする。このようなトピックz_n’に対応するトピック情報も不適切な正例トピック情報である（適切な正例トピック情報の例の説明終わり）。

不適切な正例トピック情報を特定する修正情報h_jが修正情報取得部１１３に入力される。不適切な正例トピック情報を特定する情報であればどのような情報が修正情報h_jとされてもよい。以下に修正情報h_jを例示する。

［修正情報の例１］
この例では、トピック修正候補の集合の各要素に対し、それぞれ本当に正例に対応するか否かを表す情報ω∈{1,0}={正例，負例}が入力され、それらの情報の集合が修正情報h_jとされる。この場合にはトピック修正候補の集合が含む正例トピック情報の単位で修正が可能である。

以下は、５つのトピック修正候補の集合{Topic-1, Topic-2, Topic-3, Topic-4, Topic-5}のうち、Topic-1, Topic-2, Topic-5が適切であり、Topic-3, Topic-4が不適切であるとユーザが判断した例である。この場合には、例えば、{Topic-1, Topic-2, Topic-3, Topic-4, Topic-5}にそれぞれ対応する{1,1,0,0,1}が修正情報h_jとされる。或いは、同様な場合に不適切なトピック修正候補Topic-3, Topic-4が修正情報h_jとされてもよい。

［修正情報の例２］
この例では、トピック修正候補の集合の各要素とそれらにそれぞれ対応するテキストデータｄが含む正例エンティティRP_e ^jとの組ごとに、それぞれ本当に正例に対応するか否かを表す情報ω∈{1,0}={正例，負例}が入力され、それらの情報の集合が修正情報h_jとされる。この例の修正情報h_jは、トピック修正候補の集合が含む要素のうち、正例エンティティRP_e ^jを含むテキストデータdに対応するトピックと負例エンティティRN_e ^jを含むテキストデータdに対応するトピックとの両方に対応する要素である更新対象トピック情報を特定する情報である。この場合にはトピック情報の集合が含むトピック情報とそれに対応するエンティティとの組の単位で修正が可能である。

以下は、{トピック修正候補, 正例エンティティRP_e ^j}={Topic-1, 乳酸菌}, {Topic-2, ヤクルト}, {Topic-2, 広島}, {Topic-2, 人口}, {Topic-2, 投手}, {Topic-3, ヴェルディ}, {Topic-3, 株価}の組のうち、{Topic-2, 人口}及び{Topic-3, 株価}が不適切であり、その他が適切であるとユーザが判断した例である。この場合には、例えば、{Topic-1, 乳酸菌}, {Topic-2, ヤクルト}, {Topic-2, 広島}, {Topic-2, 人口}, {Topic-2, 投手}, {Topic-3, ヴェルディ}, {Topic-3, 株価}にそれぞれ対応する{1,1,1,0,1,1,0}が修正情報h_jとされる。或いは、同様な場合に不適切な組{Topic-2, 人口}及び{Topic-3, 株価}が修正情報h_jとされてもよい。以下の例の更新対象トピック情報はTopic-2及びTopic-3である。

《更新：ステップＳ１１０》
修正情報h_jは更新部１１５に送られる。更新部１１５は修正情報h_jで特定される不適切なトピック情報に関する情報を修正する。以下に更新部１１５による修正処理を例示する。

［修正処理の例１］
この例は、上述の修正情報の例１又は修正情報の例２で例示した何れの修正情報h_jが更新部１１５に送られた場合に実行可能なものであるが、修正情報の例１の修正情報h_jが更新部１１５に送られた場合にのみ実行されてもよい。

この例の更新部１１５は、修正情報h_jによって不適切であると特定されるトピック修正候補が表すトピックと同じトピックに対応するテキストデータdが含む正例エンティティRP_e ^jを、記憶部１０５に格納された正例エンティティの集合から除外する。この場合、正例エンティティの集合から除外された正例エンティティRP_e ^jが、負例エンティティRN_e ^jとして負例エンティティの集合に追加されてもよい。

［修正処理の例２］
この例は、上述の修正情報の例１又は修正情報の例２で例示した修正情報h_jが更新部１１５に送られた場合に実行可能なものであるが、修正情報の例１の修正情報h_jが更新部１１５に送られた場合にのみ実行されてもよい。また、修正処理の例２の処理は、修正処理の例１の処理とともに行われてもよいし、修正処理の例１の処理が行われることなく行われてもよい。

この例の更新部１１５は、記憶部１０３に格納されたトピック情報付きテキストデータの集合D'から、修正情報h_jによって不適切であると特定されたトピック修正候補が表すトピックと同じトピックに対応するテキストデータdを削除する。これにより、j+1回目以降のステップＳ１０６の処理では、エンティティ識別部１１８は、修正情報h_jによって不適切であると特定されたトピック修正候補が表すトピックと同じトピックに対応するテキストデータから対象エンティティを選択しない。すなわち、j+1回目以降のイテレーションのステップＳ１０６では、修正情報h_jによって不適切であると特定されたトピック修正候補が表すトピックと同じトピックに対応するテキストデータを除く、テキストデータdが含む文字列であるエンティティが対象エンティティとされる。

［修正処理の例３］
この例は、上述の修正情報の例２で例示した修正情報h_jが更新部１１５に送られた場合に実行可能なものである。修正処理の例３処理は、修正処理の例１及び／又は修正処理の例２の処理とともに行われてもよいし、修正処理の例１及び／又は修正処理の例２の処理が行われることなく行われてもよい。

この例の更新部１１５は、更新対象トピック情報（正例にも負例にも対応するトピック情報）と同じトピック情報を新たなトピック情報に更新する。すなわち、更新対象トピック情報が表す包括的なトピックを、正例に対応する下位のトピックと負例に対応する下位のトピックとに分割する（トピック分割）。更新部１１５は、分割して得られた新たなトピックを用いて新たなトピックモデルTM^jを生成し、それを用いて記憶部１０３に格納されたトピック情報付きテキストデータの集合D’のトピック情報を更新する。

新たなトピックモデルTM^jは、分割して得られた新たなトピックを表すトピック情報に対応するテキストデータdのみについて生成されればよい。記憶部１０３には、テキストデータdとそれに対応するトピック情報とが対応付けられているため（図４Ａ参照）、トピックモデルTM^j-1の更新対象となるテキストデータdを特定することは容易である。ただ、その他のテキストデータｄについてもトピックモデルTM^j-1が更新されてもよい。

新たなトピックモデルTM^jの生成は、例えば、周知技術である半教師あり学習によって行われる。半教師あり学習とは、少量の教師ありデータと大量の教師なしデータの両方用いて学習を行うことで、教師ありデータだけを用いる場合よりも高い性能を持つモデルを生成できる学習方法である。ここではトピックモデルTM^jとしてUMを用い（式（１））、EMアルゴリズムを用いて半教師あり学習を行う場合を説明する（例えば、参考文献１参照）。

この例の教師ありデータは、分割して得られた正例に対応する新たなトピックに対応するテキストデータd（修正情報h_jが特定する正例エンティティRP_e ^jを含むものに限る）が与えられた場合の当該新たなトピックに対応する隠れ変数z=pzの事後確率p（z=pz|d）=1、当該テキストデータdが与えられた場合の当該新たなトピックに対応するpz以外の隠れ変数z≠pzの事後確率p（z≠pz|d）=0、分割して得られた負例に対応する新たなトピックに対応するテキストデータd（修正情報h_jが特定する正例エンティティRP_e ^jを含むものに限る）が与えられた場合の当該新たなトピックに対応する隠れ変数z=nzの事後確率p（z=nz|d）=1、及び、当該テキストデータdが与えられた場合の当該新たなトピックに対応するnz以外の隠れ変数z≠pzの事後確率p（z≠nz|d）=0である。これらの教師ありデータは修正情報h_jによって正例・負例が特定できるもの、すなわち人手によって入力された情報によって正例・負例が特定されたものである。上記の新たなトピックに対応しても、修正情報h_jによって正例・負例が特定されていないテキストデータdも存在する。

トピックモデルTM^jを以下のように表現する。

ただし、β_zvは隠れ変数zに対応するテキストデータdが含む文字列vの多項分布（ユニグラム確率）パラメータであり、η_zは隠れ変数zに対する多項分布パラメータを表し、Σ_z η_z=1を満たす。

更新部１１５は、このトピックモデルTM^jを生成するEMアルゴリズムは、以下のEステップとＭステップとを収束条件を満たすまで繰り返す。

Eステップ：
Eステップの処理は以下のようになる。

ただし、tはEMアルゴリズムの繰り返し回数（イテレーション数）を表す整数であり、β_zv ^(t),η_z ^(t)はt回目のイテレーションの多項分布パラメータβ_zv,η_zを表す。初期値β_zv ⁽¹⁾,η_z ⁽¹⁾は、更新前のトピック情報付きテキストデータの集合D'が含むテキストデータdに対応するトピック情報が示す事後確率p（z|d）を用いて後述の式(14)(15)によって求められてもよいし、任意に定めてもよい。

Eステップでは、上述した教師ありデータである事後確率は固定される。すなわち、修正情報h_jが特定する正例エンティティRP_e ^jを含むテキストデータdについては、教師ありデータである事後確率p（z=pz|d）=1、p（z≠pz|d）=0、p（z=nz|d）=1、及びp（z≠nz|d）=0が式(13)の算出結果として出力される。その他のテキストデータdについては式(13)の計算が実際に行われ、それによって得られた事後確率が出力される。

Ｍステップ：
Ｍステップでは、Eステップで出力された事後確率p（z|d,η_z ^(t),β_zv ^(t)）に対し、ラグランジュの未定係数法を用いて以下のような更新式を計算する。

ただし、｜Ｄ｜はテキストデータｄの総数である。

更新部１１５は、収束条件を満たした際の式（13）の事後確率をテキストデータdが与えられたときの隠れ変数zの事後確率p(z|d)とし、前述したトピック情報の例１−６などのようにテキストデータdのトピック情報を定め、それによって記憶部１０３に格納されたトピック情報付きテキストデータの集合D'を更新する。なお、収束条件の例は、イテレーションごとの式（13）の事後確率の変化量が閾値以下となったこと、イテレーション数が閾値以上となったことなどである。

［修正処理の例４］
更新部１１５が、上述した修正処理の例１−３の少なくとも一部を組み合わせた更新処理を実行してもよい。

《収束判定：ステップＳ１１１−Ｓ１１３》
収束判定部１１９は、収束条件を満たしたかを判定する。以下に収束条件を例示する。

[収束条件の例]
収束条件の例１：この例の収束判定部１１９は、正例エンティティRP_e ^jに新たに割り当てられる対象エンティティRD_e ^jが存在しない場合に、収束条件を満たしたと判断する。

収束条件の例２：この例の収束判定部１１９は、ステップＳ１０３からＳ１１１のイテレーションを基準回数以上繰り返しても新たに割り当てられる対象エンティティRD_e ^j-1が存在しない場合に、収束条件を満たしたと判断する。

収束条件の例３：この例の収束判定部１１９は、jの値が基準値以上となった場合に収束条件を満たしたと判断する（[収束条件の例]の説明終わり／ステップＳ１１１）。

収束判定部１１９が収束条件を満たしたと判断した場合、ステップＳ１０３からＳ１１１のイテレーションが終了し、出力部１２０が記憶部１０５に格納されているすべての正例エンティティRP^j _eを出力して処理を終了する（ステップＳ１１３）。それ以外の場合は、制御部１０６がj+1を新たなjの値とし（ステップＳ１１２）、記憶部１０５に格納されている正例エンティティRP^j _e及び負例エンティティRN^j _eを素性抽出部１０８に入力し、ステップＳ１０３からＳ１１１のイテレーションが実行される。

＜第１実施形態の特徴＞
本形態では、抽出対象となるエンティティよりも少ない情報量で特徴を表し得るトピック情報に関する情報を人手によって修正可能とする。これにより、エンティティのラベルのみを人手によって修正する場合に比べ、少ないコストでエンティティの識別精度を向上させることができる。また、本形態の方法ではトピック情報を素性の少なくとも一部として用いたため、セマンティックドリフトを抑制することができる。さらに、本形態の方法はリソースであるテキストデータの種類によらず利用でき、適用範囲が広い。

〔第２実施形態〕
第２実施形態は第１実施形態の変形例であり、一部のトピック情報に関する修正を人手なしに行う点が第１実施形態と相違する。以下では第１実施形態とん相違点を中心に説明する。

＜構成＞
図１に例示するように、第２実施形態のデータ抽出装置２は、記憶部１０１−１０５、制御部１０６、トピック付与部１０７、素性抽出部１０８、トピック情報抽出部１０９、トピック修正候補選択部２１１、トピック修正候補提示部１１２、修正情報取得部１１３、更新部１１５、識別学習部１１７、エンティティ識別部１１８、収束判定部１１９、及び出力部１２０を有し、制御部１０６の制御のもと各処理を実行する。なお、データ抽出装置２は、例えば、公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。

＜事前処理＞
第１実施形態と同じであるため説明を省略する。

＜データ抽出処理＞
以下、図２を用いてデータ抽出装置２のデータ抽出処理を例示する。

ステップＳ１０７の処理が以下のステップＳ２０７の処理に置換される以外、第１実施形態のデータ抽出処理と同一である。以下では、相違点であるステップＳ２０７の処理を中心に説明する。

トピック修正候補選択部２１１は、第１実施形態で説明した正例トピック情報が表すトピックpz_n’に対応するテキストデータdが含む文字列vの確率分布p(v|pz_n’)と正例エンティティRP_e ^jを含むテキストデータdが含む文字列vの確率分布p(v|ω=1)（ω∈{1,0}={正例，負例}）との距離（KLダイバージェンスなど）に対応する値を当該正例トピック情報それぞれの第１信頼度とする。ここでは、第１信頼度が距離又はその広義単調増加関数値である場合を例示する。トピック修正候補選択部２１１は、第１信頼度が閾値TH(1)よりも小さい場合、トピックpz_n’が正例集合をうまく捉えているとし、第１信頼度に対応するトピックpz_n’に関連する情報の更新を行わない。一方、第１信頼度が閾値TH(2)（TH(2)>TH(1)）よりも大きい場合、トピック修正候補選択部２１１は、第１信頼度に対応する正例トピック情報を不適切な正例トピック情報として特定した前述の修正情報h_jを更新部１１５に送る。さらにトピック修正候補選択部２１１は、第１信頼度が閾値TH(1)以上閾値TH(2)以下である正例トピック情報の集合の部分集合を、第１実施形態と同様にトピック修正候補の集合（人手による修正対象）として選択する。その後の処理は第１実施形態と同様である。

＜第２実施形態の特徴＞
本形態では、KLダイバージェンスなどの第１信頼度を用い、自動的にトピックに対応する情報の修正を行うか否かを判定するため、人手による処理コストを削減できる。その他の効果は第１実施形態と同様である。

〔変形例等〕
なお、本発明は上述の実施の形態に限定されるものではない。例えば、第１実施形態においてステップＳ１０３を実行せず、トピック情報のみを素性としてもよい。また、トピックモデルや学習モデルが上述した具体例に限定されないのは上述の通りである。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、非一時的（non-transitory）な記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１，２データ抽出装置

Claims

抽出対象の文字列である正例エンティティの集合から選択した正例エンティティを含むテキストデータに対応するトピックを表す正例トピック情報を前記正例エンティティの素性の少なくとも一部とし、抽出対象ではない文字列である負例エンティティの集合から選択した負例エンティティを含むテキストデータに対応するトピックを表す負例トピック情報を前記負例エンティティの素性の少なくとも一部とするトピック情報抽出部と、
前記正例エンティティの素性と前記負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する識別学習部と、
トピックを表すトピック情報に対応するテキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択した前記テキストデータに対応するトピックを表すトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を前記識別モデルに入力して前記対象エンティティが正例エンティティか負例エンティティかを識別し、前記対象エンティティが正例エンティティであると識別した場合に前記対象エンティティを前記正例エンティティの集合の要素とし、前記対象エンティティが負例エンティティであると識別した場合に前記対象エンティティを前記負例エンティティの集合の要素とするエンティティ識別部と、
前記正例トピック情報の集合の部分集合をトピック修正候補の集合として選択するトピック修正候補選択部と、
前記トピック修正候補の集合を出力するトピック修正候補提示部と、
前記トピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する修正情報の入力を受け付ける修正情報取得部と、
を有するデータ抽出装置。
請求項１のデータ抽出装置であって、
前記トピック修正候補選択部は、前記正例トピック情報が表すトピックそれぞれに対応するテキストデータの数に対応する値を当該トピックそれぞれの影響度とし、当該影響度に対応する値が第１基準を満たすトピックを表す正例トピック情報の集合を前記トピック修正候補の集合とする、
ことを特徴とするデータ抽出装置。
請求項１又は２のデータ抽出装置であって、
前記トピック修正候補選択部は、前記正例トピック情報が表すトピックに対応するテキストデータが含む文字列の確率分布と前記正例エンティティを含むテキストデータが含む文字列の確率分布との距離に対応する値を当該正例トピック情報それぞれの第１信頼度とし、当該第１信頼度に対応する値が第２基準を満たす正例トピック情報の集合を前記トピック修正候補の集合とする、
ことを特徴とするデータ抽出装置。
請求項１から３の何れかのデータ抽出装置であって、
前記トピック修正候補選択部は、対象のトピックを表す前記負例トピック情報それぞれに対応するテキストデータの数と当該対象のトピックを表す前記正例トピック情報それぞれに対応するテキストデータの数との比に対応する値を当該対象のトピックを表す前記正例トピック情報の第２信頼度とし、当該第２信頼度に対応する値が第３基準を満たす当該正例トピック情報の集合を前記トピック修正候補の集合とする、
ことを特徴とするデータ抽出装置。
請求項１から４の何れかのデータ抽出装置であって、
前記修正情報によって特定される前記要素が表すトピックと同じトピックに対応するテキストデータが含む正例エンティティを、前記正例エンティティの集合から除外する更新部をさらに有する、
ことを特徴とするデータ抽出装置。
請求項１から５の何れかのデータ抽出装置であって、
前記エンティティ識別部は、前記修正情報によって特定された前記要素が表すトピックと同じトピックに対応するテキストデータを除く前記テキストデータが含む文字列であるエンティティを前記対象エンティティとする、
ことを特徴とするデータ抽出装置。
請求項１から６の何れかのデータ抽出装置であって、
前記修正情報は、前記トピック修正候補の集合が含む要素のうち、前記正例エンティティを含むテキストデータに対応するトピックと前記負例エンティティを含むテキストデータに対応するトピックとの両方に対応する要素である更新対象トピック情報を特定する情報であり、
前記更新部は、前記更新対象トピック情報と同じ前記トピック情報を新たなトピック情報に更新する、
ことを特徴とするデータ抽出装置。
抽出対象の文字列である正例エンティティの集合から選択した正例エンティティを含むテキストデータに対応するトピックを表す正例トピック情報を前記正例エンティティの素性の少なくとも一部とし、抽出対象ではない文字列である負例エンティティの集合から選択した負例エンティティを含むテキストデータに対応するトピックを表す負例トピック情報を前記負例エンティティの素性の少なくとも一部とするトピック情報抽出ステップと、
前記正例エンティティの素性と前記負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する識別学習ステップと、
トピックを表すトピック情報に対応するテキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択した前記テキストデータに対応するトピックを表すトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を前記識別モデルに入力して前記対象エンティティが正例エンティティか負例エンティティかを識別し、前記対象エンティティが正例エンティティであると識別した場合に前記対象エンティティを前記正例エンティティの集合の要素とし、前記対象エンティティが負例エンティティであると識別した場合に前記対象エンティティを前記負例エンティティの集合の要素とするエンティティ識別ステップと、
前記正例トピック情報の集合の部分集合をトピック修正候補の集合として選択するトピック修正候補選択ステップと、
前記トピック修正候補の集合を出力するトピック修正候補提示ステップと、
前記トピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する修正情報の入力を受け付ける修正情報取得ステップと、
を有するデータ抽出方法。
請求項１から７の何れかのデータ抽出装置の各部としてコンピュータを機能させるためのプログラム。