JP2012146003A - データ抽出装置、データ抽出方法、及びプログラム - Google Patents
データ抽出装置、データ抽出方法、及びプログラム Download PDFInfo
- Publication number
- JP2012146003A JP2012146003A JP2011001801A JP2011001801A JP2012146003A JP 2012146003 A JP2012146003 A JP 2012146003A JP 2011001801 A JP2011001801 A JP 2011001801A JP 2011001801 A JP2011001801 A JP 2011001801A JP 2012146003 A JP2012146003 A JP 2012146003A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- entity
- positive
- information
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】正例エンティティに対応する正例トピック情報を正例エンティティの素性の少なくとも一部とし、負例エンティティに対応する負例トピック情報を負例エンティティの素性の少なくとも一部とし、正例エンティティの素性と負例エンティティの素性とを教師あり学習データとした学習処理によって識別モデルを生成し、対象エンティティに対応するトピック情報を当該対象エンティティの素性の少なくとも一部とし、対象エンティティが正例エンティティか負例エンティティかを識別する。また、トピック情報の関する情報を人手によって修正する。
【選択図】図1
Description
<構成>
図1に例示するように、第1実施形態のデータ抽出装置1は、記憶部101−105、制御部106、トピック付与部107、素性抽出部108、トピック情報抽出部109、トピック修正候補選択部111、トピック修正候補提示部112、修正情報取得部113、更新部115、識別学習部117、エンティティ識別部118、収束判定部119、及び出力部120を有し、制御部106の制御のもと各処理を実行する。なお、データ抽出装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)及びROM(read-only memory)等を含む公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。例えば、記憶部101−105は、ハードディスクや半導体メモリなどであり、制御部106、トピック付与部107、素性抽出部108、トピック情報抽出部109、トピック修正候補選択部111、更新部115、識別学習部117、エンティティ識別部118、収束判定部119、及び出力部120は、特別なプログラムが読み込まれたCPUなどである。また、これらの少なくとも一部が集積回路などによって構成されてもよい。トピック修正候補提示部112は、例えば、情報をユーザに提示するディスプレイなどのユーザインタフェース、又はそのようなユーザインタフェースに情報を出力する出力ポートなどである。修正情報取得部113は、例えば、ユーザからの情報の入力を受け付けるキーボード、マウスなどのユーザインタフェース、又はそのようなユーザインタフェースからの情報が入力される入力ポートなどである。図1に表記された矢印は情報の流れを表すが、表記の都合上一部の矢印が省略されている。
事前処理として、記憶部101にテキストデータの集合Dが格納され、記憶部102にトピックモデルTM0が格納される。
以下、図2を用いてデータ抽出装置1のデータ抽出処理を例示する。
制御部106がjの値をj=1に初期化する。
トピック付与部107が、記憶部102に格納されたトピックモデルTM0を用い、記憶部101に格納されたテキストデータの集合Dが含む各テキストデータのトピックに対応するトピック情報をそれぞれ生成する。トピック付与部107は、生成した各トピック情報をそれに対応する各テキストデータに対応付け、テキストデータとトピック情報とを含むトピック情報付きテキストデータを生成する。生成されたトピック情報付きテキストデータの集合D'は記憶部103に格納される。なお、各テキストデータのトピックに対応する情報であれば、どのような情報をトピック情報としてもよい。以下に、UMをトピックモデルTM0として生成されるトピック情報を例示する。
トピック付与部107は、記憶部102に格納されたトピックモデルTM0のパラメータp(z), p(v|z)とテキストデータd及び文字列vから得られるndvを用い、式(1)に従って、記憶部101に格納されたテキストデータの集合Dに属するテキストデータdに対応するp(d)を計算できる。また、確率の乗法定理より、トピック付与部107は、p(z), p(v|z)を用い、z, vについての同時確率p(z,v)を以下のように求めることができる。
また、トピック付与部107は、p(z,v)及びndvを用い、z, dについての同時確率p(z,d)を以下のように求めることができる。
またさらに、ベイズの定理より、トピック付与部107は、得られたp(d), p(d|z)及びp(z)を用い、テキストデータdが与えられたときの隠れ変数zの事後確率p(z|d)を以下のように求めることができる。
すなわち、トピック付与部107は、記憶部102に格納されたトピックモデルTM0のパラメータp(z), p(v|z)を用い、任意のテキストデータdに対する隠れ変数zの事後確率p(z|d)を計算できる。なお、事後確率p(z|d)の計算手順は上記のものに限定されない。最終的にp(z|d)が得られるのであればどのような計算手順で事後確率p(z|d)が計算されてもよい。
ユーザが欲するエンティティの例が正例シードエンティティRPe 0として素性抽出部108に入力される。例えば、<広島>などが正例シードエンティティとして入力される。また、負例シードエンティティRNe 0が素性抽出部108に入力される。例えば、<日本>などが負例シードエンティティとして入力される。
負例シードエンティティ生成部(図示せず)が、テキストデータの集合Dから、何れの正例シードエンティティRPe 0も含まないテキストデータを所定個数抽出し、抽出した各テキストデータから1つずつランダムに名詞を選択し、それらを負例エンティティ候補として出力する。表示部(図示せず)はこれらの負例エンティティ候補を表示し、これらから負例シードエンティティを選択するようにユーザに促す表示を行う。ユーザによる選択内容は負例シードエンティティ生成部に入力され、負例シードエンティティ生成部は、選択された負例エンティティ候補を正例シードエンティティRPe 0として出力する([負例シードエンティティRNe 0の半自動生成方法の例]の説明終わり)。
正例エンティティRPe j-1の素性fP'e jは、正例テキスト(正例エンティティRPe j-1を含む文字列であってテキストデータが含むもの)に対応し、正例テキストと当該正例エンティティRPe j-1との関係を表す情報を含む。このような情報であればどのようなものを素性として用いてもよい。
正例エンティティRPe j-1、負例エンティティRNe j-1、正例エンティティRPe j-1の素性fP'e jと正例を表すラベル<+1>との組(fP'e j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fN'e j, <-1>)がトピック情報抽出部109に入力される。
多義的な正例エンティティRPe j-1が素性抽出部108に入力される場合がある。例えば<阪神>のような正例エンティティRPe j-1は、球団名として用いられる場合もあれば、企業名として用いられる場合もある。この例では、トピック情報付きテキストデータの集合D'において正例エンティティRPe j-1がどのような意味で使用されることが多いのかを推定し、当該推定された意味で正例エンティティRPe j-1が使用されていると推定される文字列(正例テキスト及び負例テキスト)のみを対象として正例トピック情報及び負例トピック情報を選択し、正例エンティティRPe j-1の素性fPe jや負例エンティティRNe j-1の素性fNe jを生成する。これにより、後述する識別学習部117での学習精度やエンティティ識別部118での識別精度の向上が見込まれる。
なお、p(v|zn), p(zn)は、z=znでのトピックモデルTM0のパラメータとして得られ、p(v)は、z=znでの式(2)の同時確率p(zn,v)とパラメータp(zn)=Σz p(v|z)p(zn)とから得られる。
正例エンティティRPe j-1の素性fPe jと正例を表すラベル<+1>との組(fPe j, <+1>)、及び、負例エンティティRNe j-1の素性fNe jと負例を表すラベル<-1>との組(fNe j, <-1>)は識別学習部117に入力される。正例エンティティRPe j-1の素性fPe jは正例に対する教師あり学習データとして利用でき、負例エンティティRNe j-1の素性fNe jは負例に対する教師あり学習データとして利用できる。識別学習部117は、正例エンティティRPe j-1の素性fPe jと負例エンティティRNe j-1の素性fNe jとを教師あり学習データとした学習処理によって、識別モデルMEe jを生成する。この識別モデルMEe jは、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である。このような識別モデルMEe jであればどのようなモデルであってもよい。
エンティティ識別部118は、記憶部103に格納されたトピック情報付きテキストデータの集合D'から何れかのトピック情報付きテキストデータを選択し、選択したトピック情報付きテキストデータが含むテキストデータが含む文字列であるエンティティを対象エンティティRDe jとする。
選択方法の例1:
選択方法の例1では、エンティティ識別部118は、識別学習部117で教師あり学習データとして用いられた正例エンティティRPe j-1の素性fPe j及び負例エンティティRNe j-1の素性fNe jのうち、それらから生成された識別モデルMEe jへの影響度の大きさを表す指標(例えば前述の重みλq)が特定の基準を満たす素性、つまり、当該識別モデルMEe jへの影響度が大きな素性fPe j及び/又はfNe jを選択する。例えば、エンティティ識別部118は、前述の重みλqの絶対値が閾値よりも大きな素性fPe j及び/又はfNe jを選択する。
選択方法の例2では、エンティティ識別部118は、前述した正例基準トピックSeの何れかと同一のトピック候補に対応する正例テキスト(テキストデータが含む文字列)であり、なおかつ、当該同一のトピック候補のトピック候補スコアが特定の基準を満たす正例テキストが含むエンティティを対象エンティティRDe jとする。
トピック修正候補選択部111は、記憶部103に格納されたトピック情報付きテキストデータの集合D'から、正例エンティティRPe jを含むテキストデータに対応するトピック情報(正例トピック情報)の集合の部分集合をトピック修正候補の集合として選択する。トピック修正候補の集合の要素は、正例エンティティRPe jに対応するものとしてユーザに提示され、人手による検証対象とされる。正例エンティティRPe jを含むテキストデータに対応する正例トピック情報の集合のすべてがトピック修正候補の集合とされてもよいし、当該正例トピック情報の集合の一部の要素がトピック修正候補の集合とされてもよい。ただ、人手による修正コストをできるだけ小さくし、かつ、セマンティックドリフトをより効率的に軽減するためには、それに適した基準でトピック修正候補の集合が選択されることが望ましい。基本的には、人手による修正によって得られる情報量の多い正例トピック情報や、正例エンティティRPe jに対応することの信頼度がデータ抽出装置1にとって低い正例トピック情報が、トピック修正候補の集合として有益である。有益な正例トピック情報を選んでトピック修正候補の集合としてユーザに提示できれば、ユーザが検討するデータの数を減らすことができ(ユーザの負荷を減らし)、かつ、学習処理に有益な正例トピック情報を効率よく得ることができる。このように有益な正例トピック情報を選択する基準であればどのようなものを用いてもかまわない。以下では、有益な正例トピック情報の集合をトピック修正候補の集合として選択するための基準を例示する。
トピック修正候補選択部111は、正例トピック情報に対応するスコアSpを何らかの基準と比較し、その基準を満たす正例トピック情報の集合をトピック修正候補の集合とする。例えば、スコアSpが閾値THp以上(又は閾値THpを超えること)となる正例トピック情報をトピック修正候補の集合の要素としてもよいし、スコアSpの大きい順に選択された上位M個(Mは正整数)の正例トピック情報をトピック修正候補の集合の要素としてもよい。スコアSpは、例えば、人手による修正によって得られる情報量が多い(影響度が大きい)ほど大きくなるものであってもよいし、正例エンティティRPe jに対応することの信頼度がデータ抽出装置1にとって低いほど大きくなるものであってもよいし、それらの両方の特徴を備えたものであってもよい。以下、スコアSpの例を示す。
この例では、正例トピック情報が表すトピックpzn’それぞれに対応するテキストデータdの数|Dpzn’|に対応する値が当該トピックpzn’それぞれの影響度とされ、当該影響度に対応する値が当該トピックpzn’を表す各正例トピック情報に対応するスコアSpとされる。例えば図4Aの例のようにN=1の場合のトピック情報の例1によってトピック情報が生成された場合、
この例では、正例トピック情報が表すトピックpzn’に対応するテキストデータdが含む文字列vの確率分布p(v|pzn’)と正例エンティティRPe jを含むテキストデータdが含む文字列vの確率分布p(v|ω=1)(ω∈{1,0}={正例,負例})との距離に対応する値が当該正例トピック情報それぞれの第1信頼度とされ、当該第1信頼度に対応する値が当該正例トピック情報それぞれに対応するスコアSpとされる。どのような尺度の距離を用いるかには限定はないが、例えば、距離としてKLダイバージェンス(Kullback-Leibler divergence)(例えば参考文献1参照)を用いることができる。確率分布p(v|pzn’)と確率分布p(v|ω=1)とのKLダイバージェンスは、例えば 以下のようになる 。
この例では、トピックzn’を表す負例トピック情報それぞれに対応するテキストデータの数|Dnzn’|と当該同じトピックzn’を表す正例トピック情報それぞれに対応するテキストデータの数|Dpzn’|との比に対応する値が、当該トピックzn’を表す正例トピック情報の第2信頼度とされ、当該第2信頼度に対応する値が当該正例トピック情報それぞれに対応するスコアSpとされる。
上述の影響度に対応するスコアの例、信頼度1,2に対応するスコアの例を組み合わせたスコアであってもよい。例えば、影響度×信頼度1や、影響度×信頼度2や、影響度×信頼度1×信頼度2や、信頼度1×信頼度2などがスコアSpとされてもよい。
トピック修正候補選択部111で選択されたトピック修正候補の集合はトピック修正候補提示部112に送られる。トピック修正候補提示部112は、トピック修正候補の集合を出力する。例えば、トピック修正候補提示部112は、トピック修正候補の集合をリストとして表示する。この際、例えば、各トピック修正候補の集合の要素にそれぞれ対応するテキストデータD、正例エンティティRPe j、スコアSpなどの情報も併せてトピック修正候補提示部112に送られ、表示されてもよい。ユーザはこのように表示されたトピック修正候補の集合を閲覧する。
ユーザは表示されたトピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する。以下に不適切な正例トピック情報の例を示す。
不適切な正例トピック情報の例1は、正例エンティティに対応するトピックとして適切でないものを表す正例トピック情報である。例えば、ユーザが欲する内容に即していないトピックを表すトピック情報や、負例エンティティに対応するトピックとして適切なものを表すトピック情報や、そもそもトピックとしてふさわしくないものを表すトピック情報などを例示できる。
不適切な正例トピック情報の例2は、正例エンティティに対応し、なおかつ、負例エンティティにも対応するトピックを表す正例トピック情報である。例えば、例えば球団名を表わすエンティティを獲得したい状況において、ステップS106で正例エンティティRPe jであると識別されたエンティティ「巨人」「ライオンズ」「ヴェルディ」がそれぞれある共通のトピックzn’に対応するとする。しかし、実際にはトピックzn’は「巨人」と「ライオンズ」に対して適切であるが、「ヴェルディ」に対しては適切でないとする。このようなトピックzn’に対応するトピック情報も不適切な正例トピック情報である(適切な正例トピック情報の例の説明終わり)。
この例では、トピック修正候補の集合の各要素に対し、それぞれ本当に正例に対応するか否かを表す情報ω∈{1,0}={正例,負例}が入力され、それらの情報の集合が修正情報hjとされる。この場合にはトピック修正候補の集合が含む正例トピック情報の単位で修正が可能である。
この例では、トピック修正候補の集合の各要素とそれらにそれぞれ対応するテキストデータdが含む正例エンティティRPe jとの組ごとに、それぞれ本当に正例に対応するか否かを表す情報ω∈{1,0}={正例,負例}が入力され、それらの情報の集合が修正情報hjとされる。この例の修正情報hjは、トピック修正候補の集合が含む要素のうち、正例エンティティRPe jを含むテキストデータdに対応するトピックと負例エンティティRNe jを含むテキストデータdに対応するトピックとの両方に対応する要素である更新対象トピック情報を特定する情報である。この場合にはトピック情報の集合が含むトピック情報とそれに対応するエンティティとの組の単位で修正が可能である。
修正情報hjは更新部115に送られる。更新部115は修正情報hjで特定される不適切なトピック情報に関する情報を修正する。以下に更新部115による修正処理を例示する。
この例は、上述の修正情報の例1又は修正情報の例2で例示した何れの修正情報hjが更新部115に送られた場合に実行可能なものであるが、修正情報の例1の修正情報hjが更新部115に送られた場合にのみ実行されてもよい。
この例は、上述の修正情報の例1又は修正情報の例2で例示した修正情報hjが更新部115に送られた場合に実行可能なものであるが、修正情報の例1の修正情報hjが更新部115に送られた場合にのみ実行されてもよい。また、修正処理の例2の処理は、修正処理の例1の処理とともに行われてもよいし、修正処理の例1の処理が行われることなく行われてもよい。
この例は、上述の修正情報の例2で例示した修正情報hjが更新部115に送られた場合に実行可能なものである。修正処理の例3処理は、修正処理の例1及び/又は修正処理の例2の処理とともに行われてもよいし、修正処理の例1及び/又は修正処理の例2の処理が行われることなく行われてもよい。
Eステップの処理は以下のようになる。
Mステップでは、Eステップで出力された事後確率p(z|d,ηz (t),βzv (t))に対し、ラグランジュの未定係数法を用いて以下のような更新式を計算する。
更新部115が、上述した修正処理の例1−3の少なくとも一部を組み合わせた更新処理を実行してもよい。
収束判定部119は、収束条件を満たしたかを判定する。以下に収束条件を例示する。
収束条件の例1:この例の収束判定部119は、正例エンティティRPe jに新たに割り当てられる対象エンティティRDe jが存在しない場合に、収束条件を満たしたと判断する。
本形態では、抽出対象となるエンティティよりも少ない情報量で特徴を表し得るトピック情報に関する情報を人手によって修正可能とする。これにより、エンティティのラベルのみを人手によって修正する場合に比べ、少ないコストでエンティティの識別精度を向上させることができる。また、本形態の方法ではトピック情報を素性の少なくとも一部として用いたため、セマンティックドリフトを抑制することができる。さらに、本形態の方法はリソースであるテキストデータの種類によらず利用でき、適用範囲が広い。
第2実施形態は第1実施形態の変形例であり、一部のトピック情報に関する修正を人手なしに行う点が第1実施形態と相違する。以下では第1実施形態とん相違点を中心に説明する。
図1に例示するように、第2実施形態のデータ抽出装置2は、記憶部101−105、制御部106、トピック付与部107、素性抽出部108、トピック情報抽出部109、トピック修正候補選択部211、トピック修正候補提示部112、修正情報取得部113、更新部115、識別学習部117、エンティティ識別部118、収束判定部119、及び出力部120を有し、制御部106の制御のもと各処理を実行する。なお、データ抽出装置2は、例えば、公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。
第1実施形態と同じであるため説明を省略する。
以下、図2を用いてデータ抽出装置2のデータ抽出処理を例示する。
本形態では、KLダイバージェンスなどの第1信頼度を用い、自動的にトピックに対応する情報の修正を行うか否かを判定するため、人手による処理コストを削減できる。その他の効果は第1実施形態と同様である。
なお、本発明は上述の実施の形態に限定されるものではない。例えば、第1実施形態においてステップS103を実行せず、トピック情報のみを素性としてもよい。また、トピックモデルや学習モデルが上述した具体例に限定されないのは上述の通りである。また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
Claims (9)
- 抽出対象の文字列である正例エンティティの集合から選択した正例エンティティを含むテキストデータに対応するトピックを表す正例トピック情報を前記正例エンティティの素性の少なくとも一部とし、抽出対象ではない文字列である負例エンティティの集合から選択した負例エンティティを含むテキストデータに対応するトピックを表す負例トピック情報を前記負例エンティティの素性の少なくとも一部とするトピック情報抽出部と、
前記正例エンティティの素性と前記負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する識別学習部と、
トピックを表すトピック情報に対応するテキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択した前記テキストデータに対応するトピックを表すトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を前記識別モデルに入力して前記対象エンティティが正例エンティティか負例エンティティかを識別し、前記対象エンティティが正例エンティティであると識別した場合に前記対象エンティティを前記正例エンティティの集合の要素とし、前記対象エンティティが負例エンティティであると識別した場合に前記対象エンティティを前記負例エンティティの集合の要素とするエンティティ識別部と、
前記正例トピック情報の集合の部分集合をトピック修正候補の集合として選択するトピック修正候補選択部と、
前記トピック修正候補の集合を出力するトピック修正候補提示部と、
前記トピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する修正情報の入力を受け付ける修正情報取得部と、
を有するデータ抽出装置。 - 請求項1のデータ抽出装置であって、
前記トピック修正候補選択部は、前記正例トピック情報が表すトピックそれぞれに対応するテキストデータの数に対応する値を当該トピックそれぞれの影響度とし、当該影響度に対応する値が第1基準を満たすトピックを表す正例トピック情報の集合を前記トピック修正候補の集合とする、
ことを特徴とするデータ抽出装置。 - 請求項1又は2のデータ抽出装置であって、
前記トピック修正候補選択部は、前記正例トピック情報が表すトピックに対応するテキストデータが含む文字列の確率分布と前記正例エンティティを含むテキストデータが含む文字列の確率分布との距離に対応する値を当該正例トピック情報それぞれの第1信頼度とし、当該第1信頼度に対応する値が第2基準を満たす正例トピック情報の集合を前記トピック修正候補の集合とする、
ことを特徴とするデータ抽出装置。 - 請求項1から3の何れかのデータ抽出装置であって、
前記トピック修正候補選択部は、対象のトピックを表す前記負例トピック情報それぞれに対応するテキストデータの数と当該対象のトピックを表す前記正例トピック情報それぞれに対応するテキストデータの数との比に対応する値を当該対象のトピックを表す前記正例トピック情報の第2信頼度とし、当該第2信頼度に対応する値が第3基準を満たす当該正例トピック情報の集合を前記トピック修正候補の集合とする、
ことを特徴とするデータ抽出装置。 - 請求項1から4の何れかのデータ抽出装置であって、
前記修正情報によって特定される前記要素が表すトピックと同じトピックに対応するテキストデータが含む正例エンティティを、前記正例エンティティの集合から除外する更新部をさらに有する、
ことを特徴とするデータ抽出装置。 - 請求項1から5の何れかのデータ抽出装置であって、
前記エンティティ識別部は、前記修正情報によって特定された前記要素が表すトピックと同じトピックに対応するテキストデータを除く前記テキストデータが含む文字列であるエンティティを前記対象エンティティとする、
ことを特徴とするデータ抽出装置。 - 請求項1から6の何れかのデータ抽出装置であって、
前記修正情報は、前記トピック修正候補の集合が含む要素のうち、前記正例エンティティを含むテキストデータに対応するトピックと前記負例エンティティを含むテキストデータに対応するトピックとの両方に対応する要素である更新対象トピック情報を特定する情報であり、
前記更新部は、前記更新対象トピック情報と同じ前記トピック情報を新たなトピック情報に更新する、
ことを特徴とするデータ抽出装置。 - 抽出対象の文字列である正例エンティティの集合から選択した正例エンティティを含むテキストデータに対応するトピックを表す正例トピック情報を前記正例エンティティの素性の少なくとも一部とし、抽出対象ではない文字列である負例エンティティの集合から選択した負例エンティティを含むテキストデータに対応するトピックを表す負例トピック情報を前記負例エンティティの素性の少なくとも一部とするトピック情報抽出ステップと、
前記正例エンティティの素性と前記負例エンティティの素性とを教師あり学習データとした学習処理によって、任意のエンティティの素性を入力として当該エンティティが正例エンティティか負例エンティティかを識別するための情報を出力する関数である識別モデルを生成する識別学習ステップと、
トピックを表すトピック情報に対応するテキストデータの集合から選択したテキストデータが含む文字列であるエンティティを対象エンティティとし、当該選択した前記テキストデータに対応するトピックを表すトピック情報を当該対象エンティティの素性の少なくとも一部とし、当該対象エンティティの素性を前記識別モデルに入力して前記対象エンティティが正例エンティティか負例エンティティかを識別し、前記対象エンティティが正例エンティティであると識別した場合に前記対象エンティティを前記正例エンティティの集合の要素とし、前記対象エンティティが負例エンティティであると識別した場合に前記対象エンティティを前記負例エンティティの集合の要素とするエンティティ識別ステップと、
前記正例トピック情報の集合の部分集合をトピック修正候補の集合として選択するトピック修正候補選択ステップと、
前記トピック修正候補の集合を出力するトピック修正候補提示ステップと、
前記トピック修正候補の集合が含む要素のうち、不適切な正例トピック情報を特定する修正情報の入力を受け付ける修正情報取得ステップと、
を有するデータ抽出方法。 - 請求項1から7の何れかのデータ抽出装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011001801A JP5379813B2 (ja) | 2011-01-07 | 2011-01-07 | データ抽出装置、データ抽出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011001801A JP5379813B2 (ja) | 2011-01-07 | 2011-01-07 | データ抽出装置、データ抽出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012146003A true JP2012146003A (ja) | 2012-08-02 |
JP5379813B2 JP5379813B2 (ja) | 2013-12-25 |
Family
ID=46789524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011001801A Expired - Fee Related JP5379813B2 (ja) | 2011-01-07 | 2011-01-07 | データ抽出装置、データ抽出方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5379813B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020170427A (ja) * | 2019-04-05 | 2020-10-15 | 株式会社日立製作所 | モデル作成支援方法、及びモデル作成支援システム |
CN112836051A (zh) * | 2021-02-19 | 2021-05-25 | 太极计算机股份有限公司 | 一种在线自学习的法院电子卷宗文本分类方法 |
KR20210088725A (ko) * | 2019-01-08 | 2021-07-14 | 미쓰비시덴키 가부시키가이샤 | 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012141912A (ja) * | 2011-01-06 | 2012-07-26 | Nippon Telegr & Teleph Corp <Ntt> | データ抽出装置、データ抽出方法、及びプログラム |
-
2011
- 2011-01-07 JP JP2011001801A patent/JP5379813B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012141912A (ja) * | 2011-01-06 | 2012-07-26 | Nippon Telegr & Teleph Corp <Ntt> | データ抽出装置、データ抽出方法、及びプログラム |
Non-Patent Citations (2)
Title |
---|
CSNG201001013011; 貞光九月 他3名: 'トピックと属性を用いたブートストラップ法に基づく語彙獲得' 情報処理学会研究報告 2010December[CD-ROM] Vol.2010-NL-199 No.12, 20101215, 一般社団法人情報処理学会 * |
JPN6013032790; 貞光九月 他3名: 'トピックと属性を用いたブートストラップ法に基づく語彙獲得' 情報処理学会研究報告 2010December[CD-ROM] Vol.2010-NL-199 No.12, 20101215, 一般社団法人情報処理学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210088725A (ko) * | 2019-01-08 | 2021-07-14 | 미쓰비시덴키 가부시키가이샤 | 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램 |
KR102400689B1 (ko) | 2019-01-08 | 2022-05-20 | 미쓰비시덴키 가부시키가이샤 | 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램 |
JP2020170427A (ja) * | 2019-04-05 | 2020-10-15 | 株式会社日立製作所 | モデル作成支援方法、及びモデル作成支援システム |
JP7189068B2 (ja) | 2019-04-05 | 2022-12-13 | 株式会社日立製作所 | モデル作成支援方法、及びモデル作成支援システム |
CN112836051A (zh) * | 2021-02-19 | 2021-05-25 | 太极计算机股份有限公司 | 一种在线自学习的法院电子卷宗文本分类方法 |
CN112836051B (zh) * | 2021-02-19 | 2024-03-26 | 太极计算机股份有限公司 | 一种在线自学习的法院电子卷宗文本分类方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5379813B2 (ja) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
US9594747B2 (en) | Generation of a semantic model from textual listings | |
RU2628436C1 (ru) | Классификация текстов на естественном языке на основе семантических признаков | |
RU2686590C1 (ru) | Способ и устройство для сравнения схожих элементов высокоразмерных признаков изображений | |
JP4774073B2 (ja) | 文書のクラスタリング又は範疇化のための方法 | |
CN105988990B (zh) | 汉语零指代消解装置和方法、模型训练方法和存储介质 | |
US20150112664A1 (en) | System and method for generating a tractable semantic network for a concept | |
CN112328891B (zh) | 训练搜索模型的方法、搜索目标对象的方法及其装置 | |
JP6335898B2 (ja) | 製品認識に基づく情報分類 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP2021518027A (ja) | セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体 | |
US20190317986A1 (en) | Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method | |
KR20200071877A (ko) | 자율 증강형 반복 학습을 이용한 정보 추출 방법 및 시스템 | |
US11468346B2 (en) | Identifying sequence headings in a document | |
JP5379813B2 (ja) | データ抽出装置、データ抽出方法、及びプログラム | |
JP5812534B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP5379812B2 (ja) | データ抽出装置、データ抽出方法、及びプログラム | |
JP5542732B2 (ja) | データ抽出装置、データ抽出方法、及びそのプログラム | |
JP5175585B2 (ja) | 文書処理装置、電子カルテ装置および文書処理プログラム | |
JP4328362B2 (ja) | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体 | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
JP2010267017A (ja) | 文書分類装置、文書分類方法および文書分類プログラム | |
JP2020021343A (ja) | 解析装置、解析方法及びプログラム | |
CN112988699B (zh) | 模型训练方法、数据标签的生成方法及装置 | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130709 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130827 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130927 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5379813 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |