JP2012141912A - データ抽出装置、データ抽出方法、及びプログラム - Google Patents
データ抽出装置、データ抽出方法、及びプログラム Download PDFInfo
- Publication number
- JP2012141912A JP2012141912A JP2011000935A JP2011000935A JP2012141912A JP 2012141912 A JP2012141912 A JP 2012141912A JP 2011000935 A JP2011000935 A JP 2011000935A JP 2011000935 A JP2011000935 A JP 2011000935A JP 2012141912 A JP2012141912 A JP 2012141912A
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- entity
- target
- positive
- positive example
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】正例エンティティとその属性とのペアの素性と、負例エンティティとその属性とのペアの素性とを教師あり学習データとした学習処理によって識別モデルを生成し、対象エンティティと対象属性とのペアの素性を識別モデルに入力して、対象エンティティが正例エンティティを識別する。この際、対象属性が正例か否かの判定結果を出力し、人手による修正内容の入力を受け付ける。人手による修正内容を利用して正例属性を定める。
【選択図】図1
Description
<構成>
図1に例示するように、第1実施形態のデータ抽出装置1は、記憶部101−105、制御部106、初期属性集合生成部107、属性識別用素性抽出部108、属性識別学習部109、属性識別部110、属性修正候補選択部111、属性修正候補提示部112、属性修正情報取得部113、基準更新部114、属性修正情報反映部115、エンティティ識別用素性抽出部116、エンティティ識別学習部117、エンティティ識別部118、収束判定部119、及び出力部120を有し、制御部106の制御のもと各処理を実行する。
記憶部101にテキストデータの集合Dが格納される。テキストデータとは、文字テキストを含むデータを意味する。テキストデータの例は、文書データ、クエリ、語句を含む図表データ、フレーズデータ、単語列データなどである。本形態では、形態素解析、固有表現抽出、係り受け解析、文境界同定などの前処理を行った後の文書データをテキストデータとした例を示す。図4はこのようなテキストデータの集合Dを例示した図である。図4のテキストデータの集合Dでは、このような前処理を行った後の文書データであるテキストデータと当該テキストデータのIDとが対応付けられている。
図2及び3に例示するように、本形態では、エンティティと属性の更新を交互に行うco-training方式を用いる。すなわち、ステップS103−S111では正例及び負例エンティティの更新は行われず、正例及び負例属性の更新のみが行われる。一方ステップS112−S114では正例及び負例属性の更新は行われず、正例及び負例エンティティの更新のみが行われる。以下、図2及び3を用いてデータ抽出装置1のデータ抽出処理を例示する。
制御部106がjの値をj=1に初期化する。
ユーザが欲するエンティティの例が正例シードエンティティRPe 0として初期属性集合生成部107に入力される。例えば、<広島>などが正例シードエンティティとして入力される。また、負例シードエンティティRNe 0が初期属性集合生成部107に入力される。例えば、<日本>などが負例シードエンティティとして入力される。正例シードエンティティRPe 0は、ユーザによって選択されたものである。負例シードエンティティRNe 0は、ユーザによって選択されたものであってもよいし、テキストデータの集合Dから半自動で生成されたものであってもよい。以下に負例シードエンティティRNe 0を半自動で生成する方法を例示する。
負例シードエンティティ生成部(図示せず)が、テキストデータの集合Dから、何れの正例シードエンティティRPe 0も後述する正例属性RPa 0も含まないテキストデータを所定個数抽出し、抽出した各テキストデータから1つずつランダムに名詞を選択し、それらを負例エンティティ候補として出力する。表示部(図示せず)はこれらの負例エンティティ候補を表示し、これらから負例シードエンティティを選択するようにユーザに促す表示を行う。ユーザによる選択内容は負例シードエンティティ生成部に入力され、負例シードエンティティ生成部は、選択された負例エンティティ候補を正例シードエンティティRPe 0として出力する([負例シードエンティティRNe 0の半自動生成方法の例]の説明終わり)。
指標の例1:
指標の例1では、以下のχ2値を指標として用いる。
指標の例2では、正例シードエンティティRPe 0と正例属性候補αとの2項における以下のPMIを指標として用いる。
正例エンティティRPe j-1の集合、負例エンティティRNe j-1の集合、正例属性RPa j-1の集合、及び負例属性RNa j-1の集合が、属性識別用素性抽出部108に入力される。
品詞素性:「ex+1=助詞」「ey−1=助詞」,「ey + 1=名詞」,「ey + 1=助詞」
固有名詞素性:「ex=ORG(組織名)」「ey−2=ORG(組織名)」
構文素性:「exの階層=eyの階層」(両方「好調」に係る)
同様に、属性識別用素性抽出部108は、記憶部101に格納されたテキストデータの集合Dから、PN1(RNe j-1,RNa j-1)の負例エンティティRNe j-1と負例属性RNa j-1との組を含む文字列である「第1負例テキスト」を選択する。第1負例テキストの例は、テキストデータが含む文、フレーズ、単語列などである。第1負例テキストは、第1負例エンティティ−負例属性ペアPN1(RNe j-1,RNa j-1)とテキストデータとの組に対して1個以上抽出される。
PP1(RPe j-1,RPa j-1)の素性fPa jと正例を表すラベル<+1>との組(fPa j, <+1>)、及び、PN1(RNe j-1,RNa j-1)の素性fNa jと負例を表すラベル<-1>との組(fNa j, <-1>)が属性識別学習部109に入力される。属性識別学習部109は、PP1(RPe j-1,RPa j-1)の素性fPa jとPN1(RNe j-1,RNa j-1)の素性fNa jとを教師あり学習データとした学習処理によって、第1識別モデルMEa jを生成する。この第1識別モデルMEa jは、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である。このような識別モデルMEa jであればどのようなモデルであってもよい。
属性識別部110は、記憶部101に格納されたテキストデータの集合Dから何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティRDe jとして選択する。また属性識別部110は、選択した当該テキストデータから当該第1対象エンティティRDe jと異なる文字列を第1対象属性RDa jとして選択する。そして属性識別部110は、第1対象エンティティRDe jと第1対象属性RDa jとの組を第1対象エンティティ−対象属性ペアPD1(RDe j,RDa j)とする。
第1条件:
属性識別部110は、何れかの正例エンティティRPj-1 e又は負例エンティティRNj-1 eを含み、かつ当該エンティティRPj-1 e又RNj-1 eから任意のウィンドウサイズ内(ここでは3単語とする)に名詞を含むテキストデータを選択し、当該ウィンドウサイズ内の名詞を属性候補とする。
第1条件だけでは対象の数が膨大になる場合があるため、属性識別部110は、属性識別学習部109で教師あり学習データとして用いられたPP1(RPe j-1,RPa j-1)の素性fPa jとPN1(RNe j-1,RNa j-1)の素性fNa jのうち、それらから生成された第1識別モデルMEa jへの影響度の大きさを表す指標(例えば前述の重みλq)が特定の基準を満たす素性、つまり、当該第1識別モデルMEa jへの影響度が大きな素性fPa j及び/又はfNa jを選択する。例えば、属性識別部110は、前述の重みλqの絶対値が閾値よりも大きな素性fPa j及び/又はfNa jを選択する。
負例側のCPa jの正負符号が正例側のCPa jと反対になる場合(例えば、負例側のCPa jが常に負となる場合等)、属性識別部110は、PD1(RDe j,RDa j)と当該PD1(RDe j,RDa j)の素性fDa j及びCPa jとを属性修正候補選択部111に送る。
属性識別部110は、PD1(RDe j,RDa j)に対応するCPa j及び/又はCNa jを用い、PD1(RDe j,RDa j)が負例エンティティ−負例属性ペアかを識別する。属性識別部110は、所定の閾値とCPa j及び/又はCNa jとを比較してこの識別を行う。以下に識別方法を例示する。
属性修正候補選択部111は、入力されたPD1(RDe j,RDa j)が含む第1対象属性RDa jの集合の部分集合を属性修正候補CRPa jの集合として選択する。属性修正候補CRPa jの集合の要素は正例属性の候補としてユーザに提示され、人手によるラベル修正(正例から負例への修正、又は正例からラベルなしへの修正)の候補とされる。入力されたPD1(RDe j,RDa j)が含む第1対象属性RDa jの集合が属性修正候補CRPa jの集合とされてもよいし、当該第1対象属性RDa jの集合の一部が属性修正候補CRPa jの集合とされてもよい。ただ、人手による修正コストをできるだけ小さくし、かつ、セマンティックドリフトをより効率的に軽減するためには、それに適した基準で属性修正候補CRPa jの集合が選択されることが望ましい。基本的には、人手によるラベル修正によって得られる情報量の多い第1対象属性RDa jや、正例属性であることの信頼度がデータ抽出装置1にとって低い第1対象属性RDa jが、属性修正候補CRPa jの集合として有益である。有益な第1対象属性RDa jを選んで属性修正候補CRPa jの集合としてユーザに提示できれば、ユーザが検討するデータの数を減らすことができ(ユーザの負荷を減らし)、かつ、学習処理に有益な正例属性RPa jを効率よく得ることができる。以下、有益な第1対象属性RDa jの集合を属性修正候補CRPa jの集合として選択するための基準を例示する。
属性修正候補選択部111は、例えば、第1対象属性RDa jに対応するスコアSp(a)を何らかの基準(第2基準)と比較し、その基準を満たす第1対象属性RDa jの集合を属性修正候補CRPa jの集合とする。例えば、スコアSp(a)が閾値THp(a)以上(又は閾値THp(a)を超えること)となる第1対象属性RDa jを属性修正候補CRPa jの集合の要素としてもよいし、スコアSp(a)の大きい順に選択された上位M(a)個(M(a)は正整数)の第1対象属性RDa jを属性修正候補CRPa jの集合の要素としてもよい。
この例では、属性修正候補選択部111に入力されたPD1(RDe j,RDa j)の集合が含む特定の要素に対する素性についての関連性の強さが何らかの基準(第1基準)を満たす他の要素の個数に対応する情報を、当該特定の要素である第1対象エンティティ−対象属性ペアの影響度Pp(a)とし、影響度Pp(a)に対応するスコアSp(a)が用いられる。属性修正候補選択部111は、影響度Pp(a)に対応するスコアSp(a)が第2基準を満たすPD1(RDe j,RDa j)が含む第1対象属性RDa jの集合を属性修正候補CRPa jの集合とする。影響度Pp(a)がそのままスコアSp(a)とされてもよいし、影響度Pp(a)に対する広義単調増加関数値がスコアSp(a)とされてもよい。
影響度Pp(a)の具体例1は、後述するステップS111でSIM又はそれに類似の処理が用いられる場合に特に有効なものである。この例では、上述の「素性についての関連性の強さ」が「素性の類似度の大きさ」とされる。すなわち、属性修正候補選択部111に入力されたPD1(RDe j,RDa j)の集合が含む特定の要素に対する素性の類似度の大きさが何らかの基準を満たすような他の要素の個数に対応する情報を、当該特定の要素である第1対象エンティティ−対象属性ペアの影響度Pp(a)とする。言い換えると、当該特定の要素の素性と類似する(類似度が何らかの基準を満たす)素性を持つ要素の個数に対応する情報を当該特定の要素の影響度Pp(a)とする。例えば、当該特定の要素の素性との類似度が基準値以上となる素性を持つ他の要素の個数がそのまま影響度Pp(a)とされてもよいし、この要素の個数の広義単調増加関数値などが影響度Pp(a)とされてもよい。
影響度Pp(a)の具体例2は、後述するステップS111でFMM又はそれに類似の処理が用いられる場合に特に有効なものである。PD1(RDe j,RDa j)の素性がそれぞれ複数の値の集合であることを前提とする。この例でのPD1(RDe j,RDa j)の集合の特定の要素と他の要素との間での「素性についての関連性の強さ」は、当該他の要素の素性を第1識別モデルに入力して得られる情報と、当該他の要素の素性から当該特定の要素の素性と共通するものを除いたものを第1識別モデルに入力して得られる情報と、の違いの大きさ(変動量)である。例えば、PD1(RDe j,RDa j)の集合の特定の要素と他の要素との間での「素性についての関連性の強さ」は、当該他の要素の素性を第1識別モデルに入力して得られる信頼度(正例であることの信頼度)と、当該他の要素の素性から当該特定の要素の素性と共通するものを除いたもの(すなわちこれらの素性のインターセクションを除去したもの)を第1識別モデルに入力して得られる信頼度(正例であることの信頼度)との変動量(特定の要素の素性を基準とした「変動量」)である。例えば、PD1(RDe j,RDa j)の集合が含む特定の要素の素性がf1, f2, f3であり、他の要素の素性がf2, f3, f4, f5であり、素性f2, f3, f4, f5を第1識別モデルに入力して得られる信頼度がPAであり、素性f2, f3, f4, f5から素性f1, f2, f3と共通するものを除いた素性f4, f5を第1識別モデルに入力して得られる信頼度がPBであるとする。この例の場合、PAとPBとの間の変動量が当該特定の要素と当該他の要素との間での「素性についての関連性の強さ」となる。このような変動量が大きい当該他の要素ほど、当該特定の要素との間での素性についての関連性が強いといえる。具体例2では、当該変動量が何らかの基準を満たすような他の要素の個数に対応する情報を、当該特定の要素である第1対象エンティティ−対象属性ペアの影響度Pp(a)とする。例えば、このような変動量が基準値以上となる素性を持つ他の要素の個数がそのまま影響度Pp(a)とされてもよいし、この要素の個数の広義単調増加関数値などが影響度Pp(a)とされてもよい。
この例では、PD1(RDe j,RDa j)が正例エンティティ−正例属性ペアである確率を表す信頼度に対応するスコアSp(a)を用いる。信頼度が低いPD1(RDe j,RDa j)が含む第1対象属性RDa jほど人手による修正が効果的であると考えられるため、信頼度に対応するスコアSp(a)を用いることは有効である。この例では、信頼度が小さいほど大きくなるスコアSp(a)を用いる。例えば、属性修正候補選択部111に入力されるPD1(RDe j,RDa j)に対応するCPa jが当該PD1(RDe j,RDa j)が正例エンティティ−正例属性ペアである確率を表す信頼度であるとし、CPa jの逆数がスコアSp(a)とされてもよいし、CPa jの広義単調減少関数値がSp(a)とされてもよい。
この例では、上述の影響度及び信頼度に対応するスコアSp(a)が用いられる。この例では、上述の影響度が大きいほど大きくなり、かつ、上述の信頼度が大きくなるほど小さくなるスコアSp(a)が用いられる。例えば、Sp(a)=Pp(a)/CPa jとされてもよいし、Pp(a)/CPa jの広義単調増加関数値がスコアSp(a)とされてもよい。
属性修正候補選択部111で選択された属性修正候補CRPa jの集合は属性修正候補提示部112に送られる。属性修正候補提示部112は、属性修正候補CRPa jの集合を出力する。例えば、属性修正候補提示部112は、属性修正候補CRPa jの集合をリストとして表示する。この際、例えば、各属性修正候補CRPa jに対応する第1対象エンティティRDe jやスコアSp(a)などの情報も併せて属性修正候補提示部112に送られ、表示されてもよい。ユーザはこのように表示された属性修正候補CRPa jの集合を閲覧する。
属性修正候補CRPa jの集合を閲覧したユーザはそれらの要素が本当に正例であるか否かを検証し、属性修正候補CRPa jの集合から正例属性として適切ではない要素を選択する。ユーザはその選択結果に基づき、属性修正候補CRPa jの集合の何れかの要素を特定する属性修正情報を属性修正情報取得部113に入力する。属性修正情報は、ユーザが正例属性として適切ではないと判断した要素を特定可能な情報である。例えば、ユーザが正例属性として適切ではないと判断した属性修正候補CRPa jを示す情報が属性修正情報とされてもよいし、逆にユーザが正例属性として適切であると判断した属性修正候補CRPa jを示す情報が属性修正情報とされてもよい。このように属性修正情報取得部113に入力された属性修正情報は、基準更新部114及び属性修正情報反映部115に送られる。
基準更新部114は、属性修正候補提示部112から出力された属性修正候補CRPa jの集合のうち、正例属性として不適切な要素を基準個数以上特定する属性修正情報が属性修正情報取得部113に入力されたかを判定する。基準個数は、属性修正候補提示部112から出力されたすべての属性修正候補CRPa jの個数であってもよいし、それ以下の個数であってもよい。すなわち、属性修正候補提示部112から出力されたすべての属性修正候補CRPa jが正例属性として不適切とされたかが判定されてもよいし、属性修正候補提示部112から出力された属性修正候補CRPa jのうち閾値以上の属性修正候補が正例属性として不適切とされたかが判定されてもよい(ステップS109)。
ステップS105で負例エンティティ−負例属性ペアであると判定されなかったPD1(RDe j,RDa j)の集合と、属性修正情報取得部113に入力された属性修正情報とが属性修正情報反映部115に入力される。属性修正情報反映部115は、入力されたPD1(RDe j,RDa j)が含む第1対象属性RDa jの集合から属性修正情報で特定される要素を除いた補集合に含まれる要素を、正例属性RPa jの集合の要素とする。以下にこの処理を例示する。
この例の属性修正情報反映部115は、少なくとも、属性修正情報で特定される属性修正候補CRPa jと、当該属性修正情報で特定される属性修正候補CRPa jを含む第1対象エンティティ−対象属性ペアとの間での素性についての関連性の強さが何らかの基準(第3基準)を満たす他の第1対象エンティティ−対象属性ペアが含む属性修正候補CRPa jとを除く、属性修正候補の集合の要素を、正例属性RPa jの集合に追加する。ここで、「素性についての関連性の強さ」は、例えば、前述の影響度Pp(a)の具体例1で説明した「素性の類似度の大きさ」であってもよいし、前述の影響度Pp(a)の具体例2で説明した「変動量」であってもよい。
この例の属性修正情報反映部115は、入力されたPD1(RDe j,RDa j)が含む第1対象属性RDa jの集合から属性修正情報で特定される第1対象属性RDa j(正例属性として適切ではないと判断された要素)を除いたものを正例属性RPa jの集合として記憶部103に格納する。属性修正情報で特定される第1対象属性RDa jは負例属性RNa jの集合として記憶部103に格納される。
正例エンティティRPe j-1の集合、負例エンティティRNe j-1の集合、上記のように更新された正例属性RPa jの集合及び負例属性RNa jの集合がエンティティ識別用素性抽出部116に入力される。
PP2(RPe j-1,RPa j)の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、PN2(RNe j-1,RNa j)の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)がエンティティ識別学習部117に入力される。エンティティ識別学習部117は、PP2(RPe j-1,RPa j)の素性fPe jとPN2(RNe j-1,RNa j)の素性fNe jとを教師あり学習データとした学習処理によって、第2識別モデルMEe jを生成する。この第2識別モデルMEe jは、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該ペアが正例エンティティ−正例属性ペアか負例エンティティ−負例属性ペアかを識別するための情報を出力する関数である。このような第2識別モデルMEe jであればどのようなモデルであってもよい。例えば、前述の識別モデルMEe jと同様に第2識別モデルMEe jを生成すればよい。
エンティティ識別部118は、記憶部101に格納されたテキストデータの集合Dから何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティRDe jとして選択する。またエンティティ識別部118は、選択した当該テキストデータから当該第2対象エンティティRDe jと異なる文字列を第2対象属性RDa jとして選択する。そしてエンティティ識別部118は、第2対象エンティティRDe jと第2対象属性RDa jとの組を第2対象エンティティ−対象属性ペアPD2(RDe j,RDa j)とする。
第1条件:
エンティティ識別部118は、何れかの正例属性RPj a又は負例属性RNj aを含み、かつ当該属性RPj a又RNj aから任意のウィンドウサイズ内(ここでは3単語とする)に名詞を含むテキストデータを抽出し、ウィンドウサイズ内の名詞をエンティティ候補とする。
第1条件だけでは対象の数が膨大になる場合があるため、エンティティ識別部118は、エンティティ識別学習部117で教師あり学習データとして用いられたPP2(RPe j-1,RPa j)の素性fPe jとPN2(RNe j-1,RNa j)の素性fNe jのうち、それらから生成された第2識別モデルMEe jへの影響度の大きさを表す指標(例えば前述の重みλq)が特定の基準を満たす素性、つまり、当該第2識別モデルMEe jへの影響度が大きな素性fPe j及び/又はfNe jを選択する。例えば、エンティティ識別部118は、前述の重みλqの絶対値が閾値よりも大きな素性fPe j及び/又はfNe jを選択する。
収束判定部119は、収束条件を満たしたかを判定する。以下に収束条件を例示する。
収束条件の例1:この例の収束判定部119は、正例エンティティRPe jに新たに割り当てられる対象エンティティRDe jが存在しない場合に、収束条件を満たしたと判断する。
本形態では、抽出対象となるエンティティよりも少ない情報量で特徴を表し得る属性のラベル(正例か負例かを表すラベル)を人手によって修正可能とする。これにより、エンティティのラベルのみを人手によって修正する場合に比べ、少ないコストでエンティティの識別精度を向上させることができる。基本的には、1つの属性を修正する場合と1つのエンティティを修正する場合とを比べると、前者によるエンティティの識別精度の向上効果の方が大きい。例えば、球団のエンティティを獲得したい場合に、「ゴール」が正例属性の候補として得られた場合にそれを修正することで得られる効果は、「ヴェルディ」が正例エンティティの候補として得られた場合にそれを修正することで得られる効果よりも大きい。よって、本形態では、人手による修正コストを小さくし、セマンティックドリフトを効率的に抑制することができる。
第1実施形態では属性のラベルのみを人手による修正対象としたが、第2実施形態ではさらにエンティティのラベルについても人手による修正対象とする。以下では第1実施形態との相違点を中心に説明し、第1実施形態と共通する事項については説明を省略する。
図6は、第2実施形態のデータ抽出装置2の機能構成を例示するためのブロック図である。
第1実施形態と同じである。
図2及び7に例示するように、本形態でも、エンティティと属性の更新を交互に行うco-training方式を用いる。すなわち、ステップS103−S111では正例及び負例エンティティの更新は行われず、正例及び負例属性の更新のみが行われる。一方ステップS112−S211では正例及び負例属性の更新は行われず、正例及び負例エンティティの更新のみが行われる。以下、図2及び7を用いてデータ抽出装置2のデータ抽出処理を例示する。
ステップS101−S113の処理は第1実施形態と同一である。ステップS113の後、以下のステップS214の処理が実行される。
エンティティ識別部218は、記憶部101に格納されたテキストデータの集合Dから何れかのテキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティRDe jとして選択する。またエンティティ識別部218は、選択した当該テキストデータから当該第2対象エンティティRDe jと異なる文字列を第2対象属性RDa jとして選択する。そしてエンティティ識別部218は、第2対象エンティティRDe jと第2対象属性RDa jとの組を第2対象エンティティ−対象属性ペアPD2(RDe j,RDa j)とする。テキストデータの集合Dからすべてのテキストデータが選択されてもよいが、すべてのテキストデータを対象とすることは計算効率上好ましくない。そのため、第1実施形態のステップS114で説明したような特定の方法で対象を限定して選択を行うことが望ましい。
負例側のCPe jの正負符号が正例側のCPe jと反対になる場合(例えば、負例側のCPe jが常に負となる場合等)、エンティティ識別部218は、PD2(RDe j,RDa j)と当該PD2(RDe j,RDa j)の素性fDe j及びCPe jとを属性修正候補選択部211に送る。
エンティティ識別部218は、PD2(RDe j,RDa j)に対応するCPe j及び/又はCNe jを用い、PD2(RDe j,RDa j)が負例エンティティ−負例属性ペアかを識別する。エンティティ識別部218は、所定の閾値とCPe j及び/又はCNe jとを比較してこの識別を行う。以下に識別方法を例示する。
エンティティ修正候補選択部211は、入力されたPD2(RDe j,RDa j)が含む第2対象エンティティRDe jの集合の部分集合を、エンティティ修正候補CRPe jの集合として選択する。エンティティ修正候補CRPe jの集合の要素は正例エンティティの候補としてユーザに提示され、人手によるラベル修正(正例から負例への修正、又は正例からラベルなしへの修正)の候補とされる。入力されたPD2(RDe j,RDa j)が含む第2対象エンティティRDe jの集合がエンティティ修正候補CRPe jの集合とされてもよいし、当該第2対象エンティティRDe jの集合の一部がエンティティ修正候補CRPe jの集合とされてもよい。ただ、人手による修正コストをできるだけ小さくし、かつ、セマンティックドリフトをより効率的に軽減するためには、それに適した基準でエンティティ修正候補CRPe jの集合が選択されることが望ましい。基本的には、人手によるラベル修正によって得られる情報量の多い第2対象エンティティRDe jや、正例エンティティであることの信頼度がデータ抽出装置2にとって低い第2対象エンティティRDe jが、エンティティ修正候補CRPe jの集合として有益である。有益な第2対象エンティティRDe jを選んでエンティティ修正候補CRPe jの集合としてユーザに提示できれば、ユーザが検討するデータの数を減らすことができ(ユーザの負荷を減らし)、かつ、学習処理に有益な正例エンティティRPe jを効率よく得ることができる。以下、有益な第2対象エンティティRDe jの集合をエンティティ修正候補CRPe jの集合として選択するための基準を例示する。
エンティティ修正候補選択部211は、例えば、第2対象エンティティRDe jに対応するスコアSp(e)を何らかの基準と比較し、その基準を満たす第2対象エンティティRDe jの集合をエンティティ修正候補CRPe jの集合とする。例えば、スコアSp(e)が閾値THp(e)以上(又は閾値THp(e)を超えること)となる第2対象エンティティRDe jをエンティティ修正候補CRPe jの集合の要素としてもよいし、スコアSp(e)の大きい順に選択された上位M(e)個(M(e)は正整数)の第2対象エンティティRDe jをエンティティ修正候補CRPe jの集合の要素としてもよい。
この例では、エンティティ修正候補選択部211に入力されたPD2(RDe j,RDa j)の集合が含む特定の要素に対する素性についての関連性の強さが何らかの基準を満たす他の要素の個数に対応する情報を、当該特定の要素である第2対象エンティティ−対象属性ペアの影響度Pp(e)とし、影響度Pp(e)に対応するスコアSp(e)が用いられる。エンティティ修正候補選択部211は、影響度Pp(e)に対応するスコアSp(e)が何らかの基準を満たすPD2(RDe j,RDa j)が含む第2対象エンティティRDe jの集合をエンティティ修正候補CRPe jの集合とする。影響度Pp(e)がそのままスコアSp(e)とされてもよいし、影響度Pp(e)に対する広義単調増加関数値がスコアSp(e)とされてもよい。
影響度Pp(e)の具体例1は、後述するステップS211でSIM又はそれに類似の処理が用いられる場合に特に有効なものである。この例では、上述の「素性についての関連性の強さ」が「素性の類似度の大きさ」とされる。すなわち、エンティティ修正候補選択部211に入力されたPD2(RDe j,RDa j)の集合が含む特定の要素に対する素性の類似度の大きさが何らかの基準を満たすような他の要素の個数に対応する情報を、当該特定の要素である第2対象エンティティ−対象属性ペアの影響度Pp(e)とする。言い換えると、当該特定の要素の素性と類似する(類似度が何らかの基準を満たす)素性を持つ要素の個数に対応する情報を当該特定の要素の影響度Pp(e)とする。例えば、当該特定の要素の素性との類似度が基準値以上となる素性を持つ他の要素の個数がそのまま影響度Pp(e)とされてもよいし、この要素の個数の広義単調増加関数値などが影響度Pp(e)とされてもよい。第1実施形態と同様、類似度としてどのような尺度を用いるかについての限定はないが、コサイン類似度や、PMIで重み付けされた素性のコサイン類似度などを例示できる(例えば、非特許文献2参照)。
影響度Pp(e)の具体例2は、後述するステップS211でFMM又はそれに類似の処理が用いられる場合に特に有効なものである。PD2(RDe j,RDa j)の素性がそれぞれ複数の値の集合であることを前提とする。この例でのPD2(RDe j,RDa j)の集合の特定の要素と他の要素との間での「素性についての関連性の強さ」は、当該他の要素の素性を第2識別モデルに入力して得られる情報と、当該他の要素の素性から当該特定の要素の素性と共通するものを除いたものを第2識別モデルに入力して得られる情報と、の違いの大きさ(変動量)である。具体例2では、当該変動量が何らかの基準を満たすような他の要素の個数に対応する情報を、当該特定の要素である第2対象エンティティ−対象属性ペアの影響度Pp(e)とする。例えば、このような変動量が基準値以上となる素性を持つ他の要素の個数がそのまま影響度Pp(e)とされてもよいし、この要素の個数の広義単調増加関数値などが影響度Pp(e)とされてもよい。
この例では、PD2(RDe j,RDa j)が正例エンティティ−正例属性ペアである確率を表す信頼度に対応するスコアSp(e)を用いる。この例では、信頼度が小さいほど大きくなるスコアSp(e)を用いる。例えば、エンティティ修正候補選択部211に入力されるPD2(RDe j,RDa j)に対応するCPe jが、当該PD2(RDe j,RDa j)が正例エンティティ−正例属性ペアである確率を表す信頼度であるとし、CPe jの逆数がスコアSp(e)とされてもよいし、CPe jの広義単調減少関数値がSp(e)とされてもよい。
この例では、上述の影響度及び信頼度に対応するスコアSp(e)が用いられる。この例では、上述の影響度が大きいほど大きくなり、かつ、上述の信頼度が大きくなるほど小さくなるスコアSp(e)が用いられる。例えば、Sp(e)=Pp(e)/CPe jとされてもよいし、Pp(e)/CPe jの広義単調増加関数値がスコアSp(e)とされてもよい。
エンティティ修正候補選択部211で選択されたエンティティ修正候補CRPe jの集合はエンティティ修正候補提示部212に送られる。エンティティ修正候補提示部212は、エンティティ修正候補CRPe jの集合を出力する。例えば、エンティティ修正候補提示部212は、エンティティ修正候補CRPe jの集合をリストとして表示する。この際、例えば、各エンティティ修正候補CRPe jに対応する第2対象エンティティRDe jやスコアSp(e)などの情報も併せてエンティティ修正候補提示部212に送られ、表示されてもよい。ユーザはこのように表示されたエンティティ修正候補CRPe jの集合を閲覧する。
エンティティ修正候補CRPe jの集合を閲覧したユーザはそれらの要素が本当に正例であるか否かを検証し、エンティティ修正候補CRPe jの集合から正例エンティティとして適切ではない要素を選択する。ユーザはその選択結果に基づき、エンティティ修正候補CRPe jの集合の何れかの要素を特定するエンティティ修正情報をエンティティ修正情報取得部213に入力する。エンティティ修正情報は、ユーザが正例エンティティとして適切ではないと判断した要素を特定可能な情報である。例えば、ユーザが正例エンティティとして適切ではないと判断したエンティティ修正候補CRPe jを示す情報がエンティティ修正情報とされてもよいし、逆にユーザが正例エンティティとして適切であると判断したエンティティ修正候補CRPe jを示す情報がエンティティ修正情報とされてもよい。このようにエンティティ修正情報取得部213に入力されたエンティティ修正情報は、基準更新部214及びエンティティ修正情報反映部215に送られる。
基準更新部214は、エンティティ修正候補提示部212から出力されたエンティティ修正候補CRPe jの集合のうち、正例エンティティとして不適切な要素を基準個数以上特定するエンティティ修正情報がエンティティ修正情報取得部213に入力されたかを判定する。前述した属性の場合と同様、基準個数は、エンティティ修正候補提示部212から出力されたすべてのエンティティ修正候補CRPe jの個数であってもよいし、それ以下の個数であってもよい(ステップS209)。
ステップS214で負例エンティティ−負例属性ペアであると判定されなかったPD2(RDe j,RDa j)の集合と、エンティティ修正情報取得部213に入力されたエンティティ修正情報とがエンティティ修正情報反映部215に入力される。エンティティ修正情報反映部215は、入力されたPD2(RDe j,RDa j)が含む第2対象エンティティRDe jの集合からエンティティ修正情報で特定される要素を除いた補集合に含まれる要素を、正例エンティティRPa jの集合の要素とする。この処理は、ステップS111の処理での「属性」を「エンティティ」に置き換えたものでよい。以下にこの処理を例示する。
この例のエンティティ修正情報反映部215は、少なくとも、エンティティ修正情報で特定されるエンティティ修正候補CRPe jと、当該エンティティ修正情報で特定されるエンティティ修正候補CRPe jを含む第2対象エンティティ−対象属性ペアとの間での素性についての関連性の強さが何らかの基準を満たす他の第2対象エンティティ−対象属性ペアが含むエンティティ修正候補CRPe jとを除く、エンティティ修正候補CRPe jの集合の要素を、正例エンティティRPe jの集合として記憶部105に格納する。ここで、「素性についての関連性の強さ」は、例えば、前述の影響度Pp(e)の具体例1で説明した「素性の類似度の大きさ」であってもよいし、前述の影響度Pp(e)の具体例2で説明した「変動量」であってもよい。この処理は、例えばステップS111と同様にSIMやFMMに基づいて行われる。SIMの場合、正例の集合から除外されたエンティティ修正候補CRPe jは負例エンティティRNe jの集合として記憶部105に格納される。FMMの場合、正例の集合から除外されたエンティティ修正候補CRPe jのラベル付けは行われない。
この例のエンティティ修正情報反映部215は、入力されたPD2(RDe j,RDa j)が含む第2対象エンティティRDe jの集合からエンティティ修正情報で特定される第2対象エンティティRDe j(正例エンティティとして適切ではないと判断された要素)を除いたものを正例エンティティRPe jの集合として記憶部105に格納する。エンティティ修正情報で特定される第2対象エンティティRDe jは負例エンティティRNe jの集合として記憶部105に格納される。
収束判定部119は、収束条件を満たしたかを判定する(ステップS115)。収束判定部119が収束条件を満たしたと判断した場合、ステップS103からS211のイテレーションが終了し、出力部120が記憶部105に格納されているすべての正例エンティティRPj eを出力して処理を終了する(ステップS117)。それ以外の場合は、制御部19がj+1を新たなjの値とし(ステップS116)、記憶部105に格納されている正例エンティティRPj e 及び負例エンティティRNj e 、記憶部103に格納されている正例属性RPj a 及び負例属性RNj aを属性識別用素性抽出部108に入力し、ステップS103からS211のイテレーションが実行される。
本形態では、属性だけではなく、エンティティについても、人手によるラベル修正が可能となった。これにより、エンティティの識別精度を向上させることができる。
参考文献4「Andrew K. McCallum, Kamal Nigam, “Employing EM and Pool-Based Active Learning for Text Classification,” ICML'98, 1998.」などで用いられているQBC(Query By Committee)を適用してもよい。すなわち、第1及び2実施形態では、第1識別モデルMEa jで得られたPD1(RDe j,RDa j)が正例エンティティ−正例属性ペアである確率を表す信頼度をCPa jとして用い(ステップS106)、第2識別モデルMEe jで得られたPD2(RDe j,RDa j)が正例エンティティ−正例属性ペアである確率を表す信頼度をCPe jとして用いる例を示した(ステップS206)。しかしながら、第1識別モデルMEa jや第2識別モデルMEe jで得られた信頼度ではなく、QBCから得られたスコアをCPa jやCPe jとしてもよい。以下にこの変形例を説明する。
なお、本発明は上述の実施の形態に限定されるものではない。
Claims (15)
- 抽出対象の文字列である正例エンティティの集合から選択した第1正例エンティティと前記正例エンティティの属性を表す文字列である正例属性の集合から選択した第1正例属性との組である第1正例エンティティ−正例属性ペアを生成し、テキストデータの集合から、前記第1正例エンティティと前記第1正例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第1正例エンティティ−正例属性ペアの特徴を表す情報を当該第1正例エンティティ−正例属性ペアの素性の少なくとも一部とする属性識別用素性抽出部と、
前記第1正例エンティティ−正例属性ペアの素性を教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアであるかを識別するための情報を出力する関数である第1識別モデルを生成する属性識別学習部と、
前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティとして選択し、選択した当該テキストデータから当該第1対象エンティティと異なる文字列を第1対象属性として選択し、前記第1対象エンティティと前記第1対象属性との組を第1対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第1対象エンティティ−対象属性ペアの特徴を表す情報を当該第1対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第1対象エンティティ−対象属性ペアの素性を前記第1識別モデルに入力して当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであるかを識別するための情報を得る属性識別部と、
前記第1対象エンティティ−対象属性ペアが含む前記第1対象属性の集合の部分集合を、属性修正候補の集合として選択する属性修正候補選択部と、
前記属性修正候補の集合を出力する属性修正候補提示部と、
前記属性修正候補の集合の何れかの要素を特定する属性修正情報が入力される属性修正情報取得部と、
前記第1対象属性の集合から前記属性修正情報で特定される要素を除いた補集合に含まれる要素を、前記正例属性の集合の要素とする属性修正情報反映部と、
を有するデータ抽出装置。 - 請求項1のデータ抽出装置であって、
前記属性修正候補選択部は、前記第1対象エンティティ−対象属性ペアの集合が含む特定の要素に対する素性についての関連性の強さが第1基準を満たす他の要素の個数に対応する情報を、当該特定の要素である第1対象エンティティ−対象属性ペアの影響度とし、当該影響度に対応するスコアが第2基準を満たす第1対象エンティティ−対象属性ペアが含む前記第1対象属性の集合を前記属性修正候補の集合とする、
ことを特徴とするデータ抽出装置。 - 請求項2のデータ抽出装置であって、
前記属性修正情報反映部は、少なくとも、前記属性修正情報で特定される属性修正候補と、当該属性修正情報で特定される属性修正候補を含む第1対象エンティティ−対象属性ペアとの間での素性についての関連性の強さが第3基準を満たす他の第1対象エンティティ−対象属性ペアが含む属性修正候補とを除く、前記属性修正候補の集合の要素を、前記正例属性の集合に追加する、
ことを特徴とするデータ抽出装置。 - 請求項2又は3のデータ抽出装置であって、
前記素性についての関連性の強さは、前記素性の類似度の大きさである、
ことを特徴とするデータ抽出装置。 - 請求項2又は3のデータ抽出装置であって、
前記第1対象エンティティ−対象属性ペアの素性は複数の値の集合であり、
前記第1対象エンティティ−対象属性ペアの集合が含む特定の要素と他の要素との間での前記素性についての関連性の強さは、当該他の要素の素性を前記第1識別モデルに入力して得られる情報と、当該他の要素の素性から当該特定の要素の素性と共通するものを除いたものを前記第1識別モデルに入力して得られる情報との違いの大きさである、
ことを特徴とするデータ抽出装置。 - 請求項2から5の何れかのデータ抽出装置であって、
前記エンティティ−属性ペアが正例エンティティ−正例属性ペアであるかを識別するための情報は、前記エンティティ−属性ペアが正例エンティティ−正例属性ペアである確率を表す信頼度であり、
前記スコアは、さらに前記属性識別部で得られる前記信頼度に対応する、
ことを特徴とするデータ抽出装置。 - 請求項2から6の何れかのデータ抽出装置であって、
前記属性識別学習部は、前記第1正例エンティティ−正例属性ペアの集合を前記第1正例エンティティ−正例属性ペアの部分集合ごとに区分し、当該部分集合に属する前記第1正例エンティティ−正例属性ペアの素性を入力として当該部分集合にそれぞれ対応する前記第1識別モデルを生成し、
前記属性識別部は、前記第1対象エンティティ−対象属性ペアの素性を前記部分集合にそれぞれ対応する前記第1識別モデルに入力し、前記部分集合ごとに当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアである確率を表す信頼度を得、
前記スコアは、さらに前記部分集合ごとの前記信頼度に対応する情報のばらつきの大きさを表す情報に対応する、
ことを特徴とするデータ抽出装置。 - 請求項1から7の何れかのデータ抽出装置であって、
前記属性修正候補提示部から出力された前記属性修正候補の集合のうち、正例属性として不適切な要素を基準個数以上特定する前記属性修正情報が前記属性修正情報取得部に入力された場合に、前記属性修正候補選択部でより多くの要素からなる属性修正候補の集合を再び選択して前記属性修正候補提示部の処理と前記属性修正情報取得部の処理とをやり直し、
前記属性修正候補提示部から出力された前記属性修正候補の集合のうち、正例属性として不適切な要素を前記基準個数以上特定しない前記属性修正情報が前記属性修正情報取得部に入力された場合に、前記属性修正情報反映部の処理を行う、
ことを特徴とするデータ抽出装置。 - 請求項1から8の何れかのデータ抽出装置であって、
前記正例エンティティの集合から選択した第2正例エンティティと前記正例属性の集合から選択した第2正例属性との組である第2正例エンティティ−正例属性ペアを生成し、前記テキストデータの集合から、前記第2正例エンティティと前記第2正例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第2正例エンティティ−正例属性ペアの特徴を表す情報を当該第2正例エンティティ−正例属性ペアの素性の少なくとも一部とするエンティティ識別用素性抽出部と、
前記第2正例エンティティ−正例属性ペアの素性を教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアであるかを識別するための情報を出力する関数である第2識別モデルを生成するエンティティ識別学習部と、
前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第2対象エンティティとして選択し、選択した当該テキストデータから当該第2対象エンティティと異なる文字列を第2対象属性として選択し、前記第2対象エンティティと前記第2対象属性との組を第2対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第2対象エンティティ−対象属性ペアの特徴を表す情報を当該第2対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第2対象エンティティ−対象属性ペアの素性を前記第2識別モデルに入力して当該第2対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであるかを識別するための情報を得るエンティティ識別部と、
前記第2対象エンティティ−対象属性ペアが含む前記第2対象エンティティの集合の部分集合を、エンティティ修正候補の集合として選択するエンティティ修正候補選択部と、
前記エンティティ修正候補の集合を出力するエンティティ修正候補提示部と、
前記エンティティ修正候補の集合の何れかの要素を特定するエンティティ修正情報が入力される属性修正情報取得部と、
前記エンティティ修正候補の集合から前記エンティティ情報で特定される要素を除いた補集合に含まれる要素を、前記正例エンティティの集合に追加するエンティティ修正情報反映部と、
を有するデータ抽出装置。 - 請求項9のデータ抽出装置であって、
前記第2正例エンティティ−正例属性ペアの素性は、前記第2正例エンティティ及び前記第2正例属性を含む文字列であって当該第2正例エンティティ及び当該第2正例属性を含むテキストデータに含まれるものと当該第2正例エンティティ及び当該第2正例属性との関係を表す情報を含み、
前記第2対象エンティティ−対象属性ペアの素性は、前記第2対象エンティティ及び前記第2対象属性を含む文字列であって当該第2対象エンティティ及び当該第2対象属性を含むテキストデータに含まれるものと当該第2対象エンティティ及び当該第2対象属性との関係を表す情報を含む、
ことを特徴とするデータ抽出装置。 - 請求項1から10の何れかデータ抽出装置であって、
前記第1正例エンティティ−正例属性ペアの素性は、前記第1正例エンティティ及び前記第1正例属性を含む文字列であって当該第1正例エンティティ及び当該第1正例属性を含むテキストデータに含まれるものと当該第1正例エンティティ及び当該第1正例属性との関係を表す情報を含み、
前記第1対象エンティティ−対象属性ペアの素性は、前記第1対象エンティティ及び前記第1対象属性を含む文字列であって当該第1対象エンティティ及び当該第1対象属性を含むテキストデータに含まれるものと当該第1対象エンティティ及び当該第1対象属性との関係を表す情報を含む、
ことを特徴とするデータ抽出装置。 - 請求項1から11の何れかのデータ抽出装置であって、
前記正例エンティティを含むテキストデータの集合から当該正例エンティティ以外の何れかの文字列を正例属性候補として選択し、前記正例エンティティを含む文字列の集合内に当該正例属性候補が含まれる頻度とすべてのテキストデータからなる集合内に当該正例属性候補が含まれる頻度との違いの大きさを表す指標が大きいものから所定数の正例属性候補を前記正例属性の初期値とする初期属性集合生成部をさらに有する、
ことを特徴とするデータ抽出装置。 - 請求項1から12の何れかのデータ抽出装置であって、
前記属性識別部は、
前記属性識別学習部で前記教師あり学習データとして用いられた前記第1正例エンティティ−正例属性ペアの素性のうち、それらから生成された前記第1識別モデルへの影響度の大きさを表す指標が特定の基準よりも大きな素性を選択し、選択した素性に対応する文字列を含む前記テキストデータを選択し、当該選択したテキストデータが含む文字列を前記第1対象エンティティ及び前記第1対象属性とする、
ことを特徴とするデータ抽出装置。 - 抽出対象の文字列である正例エンティティの集合から選択した第1正例エンティティと前記正例エンティティの属性を表す文字列である正例属性の集合から選択した第1正例属性との組である第1正例エンティティ−正例属性ペアを生成し、テキストデータの集合から、前記第1正例エンティティと前記第1正例属性との組を含む文字列を選択し、選択した当該文字列に対する前記第1正例エンティティ−正例属性ペアの特徴を表す情報を当該第1正例エンティティ−正例属性ペアの素性の少なくとも一部とする属性識別用素性抽出ステップと、
前記第1正例エンティティ−正例属性ペアの素性を教師あり学習データとした学習処理によって、任意の文字列であるエンティティと当該エンティティの属性との組であるエンティティ−属性ペアの素性を入力として当該エンティティ−属性ペアが正例エンティティ−正例属性ペアであるかを識別するための情報を出力する関数である第1識別モデルを生成する属性識別学習ステップと、
前記テキストデータの集合から何れかの前記テキストデータを選択し、選択した当該テキストデータが含む文字列を第1対象エンティティとして選択し、選択した当該テキストデータから当該第1対象エンティティと異なる文字列を第1対象属性として選択し、前記第1対象エンティティと前記第1対象属性との組を第1対象エンティティ−対象属性ペアとし、選択した当該テキストデータ内での前記第1対象エンティティ−対象属性ペアの特徴を表す情報を当該第1対象エンティティ−対象属性ペアの素性の少なくとも一部とし、当該第1対象エンティティ−対象属性ペアの素性を前記第1識別モデルに入力して当該第1対象エンティティ−対象属性ペアが正例エンティティ−正例属性ペアであるかを識別するための情報を得る属性識別ステップと、
前記第1対象エンティティ−対象属性ペアが含む前記第1対象属性の集合の部分集合を、属性修正候補の集合として選択する属性修正候補選択ステップと、
前記属性修正候補の集合を出力する属性修正候補提示ステップと、
前記属性修正候補の集合の何れかの要素を特定する属性修正情報が入力される属性修正情報取得ステップと、
前記第1対象属性の集合から前記属性修正情報で特定される要素を除いた補集合に含まれる要素を、前記正例属性の集合の要素とする属性修正情報反映ステップと、
を有するデータ抽出方法。 - 請求項1から13の何れかのデータ抽出装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011000935A JP5379812B2 (ja) | 2011-01-06 | 2011-01-06 | データ抽出装置、データ抽出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011000935A JP5379812B2 (ja) | 2011-01-06 | 2011-01-06 | データ抽出装置、データ抽出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012141912A true JP2012141912A (ja) | 2012-07-26 |
JP5379812B2 JP5379812B2 (ja) | 2013-12-25 |
Family
ID=46678114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011000935A Expired - Fee Related JP5379812B2 (ja) | 2011-01-06 | 2011-01-06 | データ抽出装置、データ抽出方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5379812B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012146003A (ja) * | 2011-01-07 | 2012-08-02 | Nippon Telegr & Teleph Corp <Ntt> | データ抽出装置、データ抽出方法、及びプログラム |
JP2019215705A (ja) * | 2018-06-13 | 2019-12-19 | 日本放送協会 | 情報判定モデル学習装置およびそのプログラム |
CN110717880A (zh) * | 2018-07-11 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 一种缺陷检测方法、装置及电子设备 |
-
2011
- 2011-01-06 JP JP2011000935A patent/JP5379812B2/ja not_active Expired - Fee Related
Non-Patent Citations (4)
Title |
---|
CSNG200800256031; 相澤 彰子: '大規模テキストコーパスを用いた語の類似度計算に関する考察' 情報処理学会論文誌 第49巻 第3号, 20080315, 1426-1436ページ, 社団法人情報処理学会 * |
CSNG201001013011; 貞光 九月: 'トピックと属性を用いたブートストラップ法に基づく語彙獲得' 情報処理学会研究報告 平成22年度▲4▼ [CD-ROM] , 20101215, 1-8ページ, 一般社団法人情報処理学会 * |
JPN6013038225; 貞光 九月: 'トピックと属性を用いたブートストラップ法に基づく語彙獲得' 情報処理学会研究報告 平成22年度▲4▼ [CD-ROM] , 20101215, 1-8ページ, 一般社団法人情報処理学会 * |
JPN6013038227; 相澤 彰子: '大規模テキストコーパスを用いた語の類似度計算に関する考察' 情報処理学会論文誌 第49巻 第3号, 20080315, 1426-1436ページ, 社団法人情報処理学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012146003A (ja) * | 2011-01-07 | 2012-08-02 | Nippon Telegr & Teleph Corp <Ntt> | データ抽出装置、データ抽出方法、及びプログラム |
JP2019215705A (ja) * | 2018-06-13 | 2019-12-19 | 日本放送協会 | 情報判定モデル学習装置およびそのプログラム |
JP7153477B2 (ja) | 2018-06-13 | 2022-10-14 | 日本放送協会 | 情報判定モデル学習装置およびそのプログラム |
CN110717880A (zh) * | 2018-07-11 | 2020-01-21 | 杭州海康威视数字技术股份有限公司 | 一种缺陷检测方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP5379812B2 (ja) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
US9846841B1 (en) | Predicting object identity using an ensemble of predictors | |
US20140229476A1 (en) | System for Information Discovery & Organization | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP2022024102A (ja) | 検索モデルのトレーニング方法、目標対象の検索方法及びその装置 | |
KR20200071877A (ko) | 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템 | |
JP5379812B2 (ja) | データ抽出装置、データ抽出方法、及びプログラム | |
JP5812534B2 (ja) | 質問応答装置、方法、及びプログラム | |
US20240005153A1 (en) | Systems and methods for synthetic data generation using a classifier | |
JP5379813B2 (ja) | データ抽出装置、データ抽出方法、及びプログラム | |
JP5542732B2 (ja) | データ抽出装置、データ抽出方法、及びそのプログラム | |
JP5291645B2 (ja) | データ抽出装置、データ抽出方法、及びプログラム | |
KR102221263B1 (ko) | 뇌기능 지식 베이스 자가 성장 시스템 및 방법 | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム | |
US11755671B2 (en) | Projecting queries into a content item embedding space | |
JP4328362B2 (ja) | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体 | |
CN113869034B (zh) | 基于强化依赖图的方面情感分类方法 | |
JP2010267017A (ja) | 文書分類装置、文書分類方法および文書分類プログラム | |
JP5555238B2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
JP7330691B2 (ja) | 語彙抽出支援システムおよび語彙抽出支援方法 | |
JP2021163477A (ja) | 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム | |
Lee et al. | Automatic stop word generation for mining software artifact using topic model with pointwise mutual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130806 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130827 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5379812 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |