JP6092141B2 - データ解析装置、方法、及びプログラム - Google Patents

データ解析装置、方法、及びプログラム Download PDF

Info

Publication number
JP6092141B2
JP6092141B2 JP2014046601A JP2014046601A JP6092141B2 JP 6092141 B2 JP6092141 B2 JP 6092141B2 JP 2014046601 A JP2014046601 A JP 2014046601A JP 2014046601 A JP2014046601 A JP 2014046601A JP 6092141 B2 JP6092141 B2 JP 6092141B2
Authority
JP
Japan
Prior art keywords
data
positive example
pseudo
positive
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014046601A
Other languages
English (en)
Other versions
JP2015170281A (ja
Inventor
九月 貞光
九月 貞光
松尾 義博
義博 松尾
久子 浅野
久子 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014046601A priority Critical patent/JP6092141B2/ja
Publication of JP2015170281A publication Critical patent/JP2015170281A/ja
Application granted granted Critical
Publication of JP6092141B2 publication Critical patent/JP6092141B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、データ解析装置、方法、及びプログラムに係り、特に、識別対象データが正例であるか負例であるかを判定するデータ解析装置、方法、及びプログラムに関する。
一度学習したモデルに基づいて未知事例の識別を行い、識別結果の正例・負例を新たな学習データとして用いていく繰り返し学習の枠組みをブートストラップ法と呼ぶ。
例えば、少量の教師信号となる単語または文字列のセットを入力とし、未知の単語または文字列が正例か負例なのかを逐次的に識別していくブートストラップを行う手法がこれまでに数多く提案されている(例えば、非特許文献1)。
また、ブートストラップの過程に着目し、初期のイテレーションで正例と判定された事例と終盤のイテレーションで正例と判定された事例を分け、識別対象となる任意の事例が、これら2つのグループのうち、いずれに近いかを、単純な情報量(分布類似度)に基づいて判定することが提案されている(例えば、非特許文献2)。
Patrick Pantel and Marco Pennacchiotti.,"Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations.",COLING-ACL,2006. Tara Mcintosh,"Unsupervised discovery of negative categories in lexicon bootstrapping",ACL2010,p.356-365
単語や文字列に対する自動ラベリング等のタスクにおいて、その判別の基準となる正例のみが与えられる場合は多い。
特に、上記非特許文献1に記載の技術のようにブートストラップ法を用いる手法においては、イテレーションが進むほど、正例として識別したい対象とは異なる事例を誤って正例を識別するセマンティックドリフトと呼ばれる現象が頻発する。
また、正例のみが与えられる場合には、負例が存在しないために、どこまでを正例識別対象とするのかといった基準が、システムには自明でなく、そのため自動的な負例判別法が必要とされる。
また、上記非特許文献2に記載の技術では、単純な情報量しか用いないため、より高度な素性(例えば単語の連鎖情報や、文書全体のトピック情報等)を考慮できないので、負例検出性能が達成されない。
本発明は、上記の事情を鑑みてなされたもので、負例データを精度よく抽出することができるデータ解析装置を提供することを目的とする。
上記の目的を達成するために本発明に係るデータ解析装置は、正例及び負例の何れか一方を示すラベルが付与されている学習データに基づいて、対象データが正例であるか又は負例であるかを識別するための識別モデルを学習し、学習された識別モデルに基づいて、前記ラベルが付与されていない未知データに前記ラベルを付与し、前記未知データに前記ラベルが付与された結果に基づいて、前記識別モデルを学習することを繰り返すブートストラップ法に従って、前記識別モデルを繰り返し学習したときに、繰り返し毎に前記未知データに前記ラベルが付与された結果から得られる、前記正例のラベルが付与された未知データの各々からなる正例集合の入力を受け付ける入力部と、前記入力部によって受け付けた繰り返し毎の前記正例集合のうち、繰り返し開始から予め定められた第1の繰り返し回数までに得られた前記正例集合を擬似正例データとして選択し、予め定められた第2の繰り返し回数から繰り返し終了までに得られた前記正例集合を擬似負例データとして選択する擬似正例負例選択部と、前記擬似正例負例選択部によって選択された前記擬似正例データ、及び前記擬似負例データから抽出された素性に基づいて、前記識別モデルを学習するモデル学習部と、識別対象データの各々について、前記モデル学習部によって学習された前記識別モデルと、前記識別対象データから抽出された素性とに基づいて、前記識別対象データが正例である度合いを表すスコアを算出するスコアリング部と、前記識別対象データの各々について、前記スコアリング部によって算出されたスコアが、予め定められた第1の閾値より大きい場合には、前記識別対象データが正例であると判定し、前記スコアリング部によって算出されたスコアが、予め定められた第2の閾値より小さい場合には、前記識別対象データが負例であると判定する判定部と、を含んで構成されている。
本発明に係るデータ解析方法は、入力部が、正例及び負例の何れか一方を示すラベルが付与されている学習データに基づいて、対象データが正例であるか又は負例であるかを識別するための識別モデルを学習し、学習された識別モデルに基づいて、前記ラベルが付与されていない未知データに前記ラベルを付与し、前記未知データに前記ラベルが付与された結果に基づいて、前記識別モデルを学習することを繰り返すブートストラップ法に従って、前記識別モデルを繰り返し学習したときに、繰り返し毎に前記未知データに前記ラベルが付与された結果から得られる、前記正例のラベルが付与された未知データの各々からなる正例集合の入力を受け付けるステップと、擬似正例負例選択部が、前記入力部によって受け付けた繰り返し毎の前記正例集合のうち、繰り返し開始から予め定められた第1の繰り返し回数までに得られた前記正例集合を擬似正例データとして選択し、予め定められた第2の繰り返し回数から繰り返し終了までに得られた前記正例集合を擬似負例データとして選択するステップと、モデル学習部が、前記擬似正例負例選択部によって選択された前記擬似正例データ、及び前記擬似負例データから抽出された素性に基づいて、前記識別モデルを学習するステップと、スコアリング部が、識別対象データの各々について、前記モデル学習部によって学習された前記識別モデルと、前記識別対象データから抽出された素性とに基づいて、前記識別対象データが正例である度合いを表すスコアを算出するステップと、判定部が、前記識別対象データの各々について、前記スコアリング部によって算出されたスコアが、予め定められた第1の閾値より大きい場合には、前記識別対象データが正例であると判定し、前記スコアリング部によって算出されたスコアが、予め定められた第2の閾値より小さい場合には、前記識別対象データが負例であると判定するステップと、を含んで構成されている。
本発明は、前記識別対象データを、前記正例集合とし、前記判定部は、前記ブートストラップ法における各繰り返しにおいて、前記正例のラベルが付与された未知データの数、及び前記負例のラベルが付与された未知データの数の割合に基づいて、前記第2の閾値を変化させ、前記識別対象データの各々について、前記スコアリング部によって算出されたスコアが、前記第1の閾値より大きい場合には、前記識別対象データが正例であると判定し、前記スコアリング部によって算出されたスコアが、前記変化した第2の閾値より小さい場合には、前記識別対象データが負例であると判定するようにすることができる。
本発明のプログラムは、コンピュータに、上記のデータ解析装置の各部として機能させるためのプログラムである。
以上説明したように、本発明のデータ解析装置、方法、及びプログラムによれば、繰り返し毎の正例集合のうち、繰り返し開始から予め定められた第1の繰り返し回数までに得られた正例集合を擬似正例データとして選択し、予め定められた第2の繰り返し回数から繰り返し終了までに得られた正例集合を擬似負例データとして選択し、選択された擬似正例データ、及び擬似負例データから抽出された素性に基づいて、識別モデルを学習し、識別対象データの各々について、学習された識別モデルと、識別対象データから抽出された素性とに基づいて、識別対象データが正例である度合いを表すスコアを算出し、スコアが予め定められた第2の閾値より小さい場合には、識別対象データが負例であると判定することにより、負例データを精度よく抽出することができる、という効果が得られる。
本発明の実施の形態に係るデータ解析装置の構成を示す概略図である。 本発明の第1の実施の形態に係るデータ解析装置におけるデータ解析処理ルーチンの内容を示すフローチャートである。 本発明の第2の実施の形態に係るデータ解析装置におけるデータ解析処理ルーチンの内容を示すフローチャートである。
本発明の実施の形態は、単語や文字列等に対し、ある基準を用いて識別を行う際のモデル学習に必要となる負例を、自動的に抽出する技術である。以下、図面を参照して本発明の実施の形態を詳細に説明する。
<第1の実施の形態>
<システム構成>
本発明の第1の実施の形態に係るデータ解析装置100は、入力された、ブートストラップ法で得られた正例集合から、新負例データを抽出する。このデータ解析装置100は、CPUと、RAMと、後述するデータ解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、データ解析装置100は、入力部10と、演算部20と、出力部30とを備えている。
本実施の形態におけるブートストラップ法は、まず、正例及び負例の何れか一方を示すラベルが付与されている学習データに基づいて、識別モデルを学習する。そして、学習された識別モデルに基づいて、ラベルが付与されていない未知データにラベルを付与し、未知データにラベルが付与された結果に基づいて、識別モデルを学習する。そして、この未知データに対するラベル付与と、識別モデルの学習とを繰り返す。なお、識別モデルは、対象データが正例であるか又は負例であるかを識別するためのモデルである。
本実施の形態に係るデータ解析装置100には、ブートストラップ法に従って識別モデルを繰り返し学習したときに、繰り返し毎に、未知データにラベルが付与された結果から得られる、正例のラベルが付与された未知データの各々を含む正例集合が入力される。
入力部10は、ブートストラップ法における繰り返し毎に得られた正例集合の入力を受け付ける。また、入力部10は、後述する素性化参照用データを受け付ける。
例えば、対象データが単語であって、単語が車名であるかどうかを識別したいとする。この場合、識別モデルは、単語が車名である場合には当該対象データに正例を付与し、単語が車名でない場合には当該対象データに負例を付与する。この場合、ブートストラップ法における各繰り返しにおいて得られた正例集合の一例を以下に示す。
iteration 1:シビック,ヴィッツ
iteration 2:プリウス,スカイライン

iteration 9:カブ,ヘリ,フィット
iteration10:ブルートレイン,エアバス
演算部20は、正例集合データベース200と、擬似正例負例選択部202と、擬似正例データベース204と、擬似負例データベース206と、識別対象データベース208と、素性化参照用データベース210と、素性化部212と、素性化済み訓練データベース214と、素性化済み識別対象データベース216と、モデル学習部218と、識別モデルデータベース220と、スコアリング部222と、判定部224と、新正例データベース226と、新負例データベース228とを備えている。
正例集合データベース200には、入力部10によって受け付けた、ブートストラップ法における繰り返し毎に得られた正例集合が格納される。
擬似正例負例選択部202は、正例集合データベース200に格納された繰り返し毎の正例集合のうち、ブートストラップ法における繰り返し開始から予め定められた初期の第1の繰り返し回数Bまでに得られた正例集合を擬似正例データとして選択する。
また、擬似正例負例選択部202は、正例集合データベース200に格納された繰り返し毎の正例集合のうち、予め定められた終盤の第2の繰り返し回数Eから繰り返し終了までに得られた正例集合を擬似負例データとして選択する。
そして、擬似正例負例選択部202は、それ以外の繰り返し(繰り返し回数B+1〜繰り返し回数E−1)において得られた正例集合を識別対象データとして選択する。
擬似正例データ、及び擬似負例データは、ブートストラップ法における各繰り返しの正例集合に対して、擬似的に正例・負例のラベルを付与したものである。例えば、対象データが単語であって、単語が車名であるかどうかを識別する場合の、擬似正例データ、擬似負例データ、及び識別対象データの一例を以下に示す。
(例)
擬似正例データ(iteration1を取得):シビック,ヴィッツ
擬似負例データ(iteration10を取得):ブルートレイン,エアバス
識別対象データ(iteration 2〜9) プリウス,スカイライン,…,カブ,ヘリ
上記の例では、ブートストラップ法における繰り返し開始から1回目の繰り返しまでに得られた正例集合を擬似正例データとして選択し、10回目の繰り返しから繰り返し終了までに得られた正例集合を擬似負例データとして選択している。そして、それ以外の繰り返し(2回目の繰り返しから9回目の繰り返しまで)において得られた正例集合を識別対象データとして選択している。
擬似正例データベース204には、擬似正例負例選択部202によって選択された擬似正例データが格納される。また、擬似負例データベース206には、擬似正例負例選択部202によって選択された擬似負例データが格納される。識別対象データベース208には、擬似正例負例選択部202によって選択された識別対象データが格納される。
素性化参照用データベース210には、入力部10によって受け付けた素性化参照用データが格納される。素性化参照用データは、正例集合データベース200に格納された正例集合に含まれる正例データの各々を、素性化するために必要となるデータである。素性化参照用データベース210には、例えば、形態素済みテキストや、文書に付与されたトピック情報等が、素性化参照用データとして格納されている。
なお、上述したように、例えば、対象データが単語であって、単語が車名であるかどうかを識別したい場合には、上記の正例集合の例で示した「シビック」「ヴィッツ」等の単語が含まれる文書についての形態素済み文書や、当該文書に付与されたトピック情報等が、素性化参照用データとなる。
素性化部212は、擬似正例データベース204に格納された擬似正例データの各々と、擬似負例データベース206に格納された擬似負例データの各々とについて、素性化参照用データベース210に格納された素性化参照用データに基づいて、擬似正例データの素性、及び擬似負例データの素性を抽出し、素性化済み訓練データとする。素性化済み訓練データは、擬似正例データと擬似負例データとを、識別モデルを学習するために、素性関数を用いて変換したデータである。
また、素性化部212は、識別対象データベース208に格納された識別対象データの各々について、素性化参照用データベース210に格納された素性化参照用データに基づいて、識別対象データの素性を抽出し、素性化済み識別対象データとする。素性化済み識別対象データは、識別対象データを、識別モデルを適用するために、素性関数を用いて変換したデータである。
擬似正例データと擬似負例データとを、素性関数により変換したデータの一例を以下に示す。
例:(最初の+1/−1は擬似正例/擬似負例を表す)
+1 シビック
素性ID1:(1つ後ろから「に/乗る」が連鎖する回数=)5
素性ID2:(「車」との共起回数=)100
−1 ブルートレイン
素性ID1:(1つ後ろから「に/乗る」が連鎖する回数=)3
素性ID2:(「車」との共起回数=)0
なお、具体的な素性関数は従来提案されたものでよく、例えば対象データが単語である場合には、単語と共起する任意の単語の出現数や、対象単語の直後に連鎖して出現した任意の単語の出現数などがあげられる。
素性化済み訓練データベース214には、素性化部212によって変換された素性化済み訓練データが格納される。
素性化済み識別対象データベース216には、素性化部212によって変換された素性化済み識別対象データが格納される。
モデル学習部218は、素性化済み訓練データベース214に格納された素性化済み訓練データに基づいて、識別モデルを学習する。なお識別モデルとしては、例えば、SVMやlogistic回帰モデルなど、各素性に対し正負それぞれに対する重み(信頼度)を記憶するモデルを用いる。また、識別モデルの学習は、従来の機械学習法によって、識別モデルを学習する。学習方法についても従来の手法を用いてよい。
識別モデルデータベース220には、モデル学習部218によって学習された識別モデルが格納される。
スコアリング部222は、識別モデルデータベース220に格納された識別モデルと、素性化済み識別対象データベース216に格納されている素性化済み識別対象データとに基づいて、識別対象データの各々について、当該識別対象データが正例である度合いを表すスコアを算出する。
判定部224は、識別対象データの各々について、スコアリング部222によって算出されたスコアが、予め定められた第1の閾値Pより大きい場合には、当該識別対象データが正例であると判定する。また、判定部224は、識別対象データの各々について、スコアリング部222によって算出されたスコアが、予め定められた第2の閾値Nより小さい場合には、当該識別対象データが負例であると判定する。
新正例データベース226には、判定部224によって正例であると判定された識別対象データが、新正例データとして格納される。
新負例データベース228には、判定部224によって負例であると判定された識別対象データが、新負例データとして格納される。
出力部30は、新正例データベース226に格納された新正例データの各々と、新負例データベース228に格納された新負例データの各々とを出力する。例えば、対象データが車の名称である場合に、出力部30が出力するデータの一例を以下に示す。
例:
新正例データ:プリウス,スカイライン,フィット
新負例データ:カブ,ヘリ
<データ解析装置の作用>
次に、第1の実施の形態に係るデータ解析装置100の作用について説明する。まず、ブートストラップ法における繰り返し毎に得られた正例集合と、正例集合に含まれる正例データ毎の素性化参照用データとが、データ解析装置100に入力されると、データ解析装置100によって、図2に示すデータ解析処理ルーチンが実行される。
まず、ステップS100において、入力部10によって、ブートストラップ法における繰り返し毎に得られた正例集合の入力を受け付ける。そして、入力部10によって、ブートストラップ法における繰り返し毎に得られた正例集合を正例集合データベース200に格納する。また、入力部10によって、素性化参照用データを受け付け、素性化参照用データベース210に格納する。
ステップS102において、擬似正例負例選択部202によって、上記ステップS100で正例集合データベース200に格納された繰り返し毎の正例集合のうち、ブートストラップ法における繰り返し開始から予め定められた初期の第1の繰り返し回数Bまでに得られた正例集合を擬似正例データとして選択し、擬似正例データベース204に格納する。
ステップS104において、擬似正例負例選択部202によって、上記ステップS100で正例集合データベース200に格納された繰り返し毎の正例集合のうち、予め定められた終盤の第2の繰り返し回数Eから繰り返し終了までに得られた正例集合を擬似負例データとして選択し、擬似負例データベース206に格納する。
ステップS106において、擬似正例負例選択部202によって、それ以外の繰り返し(繰り返し回数B+1〜繰り返し回数E−1)において得られた正例集合を識別対象データとし、識別対象データベース208に格納する。
ステップS108において、素性化部212によって、上記ステップS102で擬似正例データベース204に格納された擬似正例データの各々と、上記ステップS104で擬似負例データベース206に格納された擬似負例データの各々について、上記ステップS100で素性化参照用データベース210に格納された素性化参照用データに基づいて、擬似正例データの素性、及び擬似負例データの素性を抽出し、素性化済み訓練データとする。そして、素性化部212によって、得られた素性化済み訓練データを、素性化済み訓練データベース214に格納する。
ステップS110において、素性化部212によって、上記ステップS106で識別対象データベース208に格納された識別対象データの各々について、上記ステップS100で素性化参照用データベース210に格納された素性化参照用データに基づいて、識別対象データの素性を抽出し、素性化済み識別対象データとする。そして、素性化部212によって、得られた素性化済み識別対象データを、素性化済み識別対象データベース216に格納する。
ステップS112において、モデル学習部218によって、上記ステップS108で素性化済み訓練データベース214に格納された素性化済み訓練データに基づいて、識別モデルを学習し、識別モデルデータベース220に格納する。
ステップS114において、スコアリング部222によって、上記ステップS112で識別モデルデータベース220に格納された識別モデルと、上記ステップS110で素性化済み識別対象データベース216に格納された素性化済み識別対象データとに基づいて、識別対象データの各々について、当該識別対象データが正例である度合いを表すスコアを算出する。
ステップS116において、判定部224によって、識別対象データの各々について、上記ステップS114で算出されたスコアが、予め定められた第1の閾値Pより大きい場合には、当該識別対象データが正例であると判定する。また、判定部224によって、識別対象データの各々について、上記ステップS114で算出されたスコアが、予め定められた第2の閾値Nより小さい場合には、当該識別対象データが負例であると判定する。そして、判定部224によって、正例であると判定された識別対象データを新正例データとして新正例データベース226に格納する。また、判定部224によって、負例であると判定された識別対象データを新負例データとして新負例データベース228に格納する。
ステップS118において、上記ステップS116で新正例データベース226に格納された新正例データの各々と、新負例データベース228に格納された新負例データの各々とを、結果として出力して、データ解析処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係るデータ解析装置によれば、ブートストラップ法における繰り返し毎の正例集合のうち、ブートストラップ法における繰り返し開始から予め定められた初期の第1の繰り返し回数Bまでに得られた正例集合を擬似正例データとして選択し、予め定められた終盤の第2の繰り返し回数Eから繰り返し終了までに得られた正例集合を擬似負例データとして選択し、選択された擬似正例データ、及び擬似負例データから抽出された素性に基づいて、識別モデルを学習し、識別対象データの各々について、学習された識別モデルと、識別対象データから抽出された素性とに基づいて、識別対象データが正例である度合いを表すスコアを算出し、スコアが予め定められた第2の閾値Nより小さい場合には、識別対象データが負例であると判定することにより、負例データを精度よく抽出することができる。
また、識別モデルとして、一般の識別モデル(サポートベクタマシンや最大エントロピー法)を使うことが可能であるため、自由度の高い情報を用いることが可能となる。
また、ブートストラップ法における繰り返し初期と繰り返し終盤とにおける正例データを、擬似正例データ、及び擬似負例データとみなし、自由度の高い素性表現と識別モデルを併用することで、semantic driftを抑制し、高い精度で新負例データを抽出することができる。
<第2の実施の形態>
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、ブートストラップ法の各繰り返しにおいて、正例・負例と判定された未知データの割合を用いて、semantic driftの度合いを推測し、それに応じて第2の閾値を変化させる点が、第1の実施の形態と異なっている。
<システム構成>
第2の実施の形態における入力部12は、ブートストラップ法における繰り返し毎に、正例のラベルが付与された未知データの数、及び負例のラベルが付与された未知データの数の割合を更に受け付ける。
判定部2224は、入力部12によって受け付けた、繰り返し毎の上記割合に基づいて、第2の閾値Nを変化させる。具体的には、判定部2224は、ブートストラップ法における繰り返し毎の上記割合に基づいて、第2の閾値Nを変化させる。
例えば、iteration1において51:49の割合で正例、負例が判定され、iteration9において48:52の割合で正例、負例が判定された場合、iterationが進行しても負例の量が増えていない。これはsemantic driftがそれほど生じていないことを表していると考えられるため、第2の閾値Nを引き下げるように変化させる(負例になりづらくする)。
一方、例えば、iteration1において90:10の割合で正例、負例が判定され、iteration9において10:90の割合で正例、負例が判定された場合、iterationが進行するに従い負例の量が増えている。これはsemantic driftが生じていることを表していると考えられるため、第2の閾値Nを引き下げないこととする。
このときの第2の閾値Nの変動量は、固定値でも良いし、semantic driftの度合いを示す数値に比例した値としてもよい。第2の閾値Nの変動量が、semantic driftの度合いを示す数値に比例した値とする場合には、例えば、semantic driftの度合いを、最終繰り返しでの負例の数と初期繰り返しでの負例の数との比とし(49/52)、当該比と一定量Kとの積を算出し、第2の閾値Nの変動量とする。
また、判定部2224は、識別対象データの各々について、スコアリング部222によって算出されたスコアが、第1の閾値Pより大きい場合には、識別対象データが正例であると判定し、スコアリング部222によって算出されたスコアが、変化した第2の閾値Nより小さい場合には、識別対象データが負例であると判定する。
<データ解析装置の作用>
次に、第2の実施の形態に係るデータ解析装置の作用について説明する。まず、ブートストラップ法における繰り返し毎に得られた正例集合と、正例集合に含まれる正例データ毎の素性化参照用データと、ブートストラップ法における繰り返し毎の、正例のラベルが付与された未知データの数、及び負例のラベルが付与された未知データの数の割合とが、データ解析装置に入力されると、データ解析装置によって、図3に示すデータ解析処理ルーチンが実行される。なお、第1の実施の形態と同様の処理については、同一符号を付して説明を省略する。
まず、ステップS200において、入力部12によって、ブートストラップ法における繰り返し毎に得られた正例集合の入力を受け付ける。そして、入力部12によって、ブートストラップ法における繰り返し毎に得られた正例集合を正例集合データベース200に格納する。また、入力部12によって、素性化参照用データを受け付け、素性化参照用データベース210に格納する。また、入力部12によって、正例のラベルが付与された未知データの数、及び負例のラベルが付与された未知データの数の割合を、ブートストラップ法における繰り返し毎に受け付ける。
そして、ステップS215において、判定部2224によって、上記ステップS200で受け付けた、ブートストラップ法における繰り返し毎の、正例のラベルが付与された未知データの数、及び負例のラベルが付与された未知データの数の割合に応じて、第2の閾値Nを変化させる。
そして、ステップS216において、判定部2224によって、識別対象データの各々について、上記ステップS114で算出されたスコアが、予め定められた第1の閾値Pより大きい場合には、当該識別対象データが正例であると判定し、上記ステップS114で算出されたスコアが、上記ステップS215で変化させた第2の閾値Nより小さい場合には、当該識別対象データが負例であると判定する。そして、判定部2224によって、正例であると判定された識別対象データを新正例データとして新正例データベース226に格納する。また、判定部2224によって、負例であると判定された識別対象データを新負例データとして新負例データベース228に格納する。
以上説明したように、第2の実施の形態に係るデータ解析装置によれば、ブートストラップ法における各繰り返しにおいて、正例のラベルが付与された未知データの数、及び負例のラベルが付与された未知データの数の割合に基づいて、第2の閾値Nを変化させ、識別対象データの各々について、算出されたスコアが、変化した第2の閾値Nより小さい場合には、当該識別対象データが負例であると判定することにより、semantic driftの度合いを考慮して、負例データを精度よく抽出することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施の形態では、識別対象データを、擬似正例データ及び擬似負例データとして選択された正例集合と異なる正例集合とする場合を例に説明したが、これに限定されるものではない。例えば、識別対象データに、擬似正例データ及び擬似負例データを含めてもよい。また、識別対象データに、負例集合を含めてもよい。
また、本実施の形態のデータ解析装置は、正例集合データベース200、擬似正例データベース204、擬似負例データベース206、識別対象データベース208、素性化参照用データベース210、素性化済み訓練データベース214、素性化済み識別対象データベース216、識別モデルデータベース220、新正例データベース226、及び新負例データベース228を備えている場合について説明したが、例えば正例集合データベース200、擬似正例データベース204、擬似負例データベース206、識別対象データベース208、素性化参照用データベース210、素性化済み訓練データベース214、素性化済み識別対象データベース216、識別モデルデータベース220、新正例データベース226、及び新負例データベース228の少なくとも1つがデータ解析装置の外部装置に設けられ、データ解析装置は、外部装置と通信手段を用いて通信することにより、正例集合データベース200、擬似正例データベース204、擬似負例データベース206、識別対象データベース208、素性化参照用データベース210、素性化済み訓練データベース214、素性化済み識別対象データベース216、識別モデルデータベース220、新正例データベース226、及び新負例データベース228の少なくとも1つを参照するようにしてもよい。
また、上述のデータ解析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10,12 入力部
20 演算部
30 出力部
100 データ解析装置
200 正例集合データベース
202 擬似正例負例選択部
204 擬似正例データベース
206 擬似負例データベース
208 識別対象データベース
210 素性化参照用データベース
212 素性化部
214 素性化済み訓練データベース
216 素性化済み識別対象データベース
218 モデル学習部
220 識別モデルデータベース
222 スコアリング部
224,2224 判定部
226 新正例データベース
228 新負例データベース

Claims (4)

  1. 正例及び負例の何れか一方を示すラベルが付与されている学習データに基づいて、対象データが正例であるか又は負例であるかを識別するための識別モデルを学習し、学習された識別モデルに基づいて、前記ラベルが付与されていない未知データに前記ラベルを付与し、前記未知データに前記ラベルが付与された結果に基づいて、前記識別モデルを学習することを繰り返すブートストラップ法に従って、前記識別モデルを繰り返し学習したときに、繰り返し毎に前記未知データに前記ラベルが付与された結果から得られる、前記正例のラベルが付与された未知データの各々からなる正例集合の入力を受け付ける入力部と、
    前記入力部によって受け付けた繰り返し毎の前記正例集合のうち、繰り返し開始から予め定められた第1の繰り返し回数までに得られた前記正例集合を擬似正例データとして選択し、予め定められた第2の繰り返し回数から繰り返し終了までに得られた前記正例集合を擬似負例データとして選択する擬似正例負例選択部と、
    前記擬似正例負例選択部によって選択された前記擬似正例データ、及び前記擬似負例データから抽出された素性に基づいて、前記識別モデルを学習するモデル学習部と、
    識別対象データの各々について、前記モデル学習部によって学習された前記識別モデルと、前記識別対象データから抽出された素性とに基づいて、前記識別対象データが正例である度合いを表すスコアを算出するスコアリング部と、
    前記識別対象データの各々について、前記スコアリング部によって算出されたスコアが、予め定められた第1の閾値より大きい場合には、前記識別対象データが正例であると判定し、前記スコアリング部によって算出されたスコアが、予め定められた第2の閾値より小さい場合には、前記識別対象データが負例であると判定する判定部と、
    を含むデータ解析装置。
  2. 前記識別対象データを、前記正例集合とし、
    前記判定部は、前記ブートストラップ法における各繰り返しにおいて、前記正例のラベルが付与された未知データの数、及び前記負例のラベルが付与された未知データの数の割合に基づいて、前記第2の閾値を変化させ、
    前記識別対象データの各々について、前記スコアリング部によって算出されたスコアが、前記第1の閾値より大きい場合には、前記識別対象データが正例であると判定し、前記スコアリング部によって算出されたスコアが、前記変化した第2の閾値より小さい場合には、前記識別対象データが負例であると判定する
    請求項1記載のデータ解析装置。
  3. 入力部が、正例及び負例の何れか一方を示すラベルが付与されている学習データに基づいて、対象データが正例であるか又は負例であるかを識別するための識別モデルを学習し、学習された識別モデルに基づいて、前記ラベルが付与されていない未知データに前記ラベルを付与し、前記未知データに前記ラベルが付与された結果に基づいて、前記識別モデルを学習することを繰り返すブートストラップ法に従って、前記識別モデルを繰り返し学習したときに、繰り返し毎に前記未知データに前記ラベルが付与された結果から得られる、前記正例のラベルが付与された未知データの各々からなる正例集合の入力を受け付けるステップと、
    擬似正例負例選択部が、前記入力部によって受け付けた繰り返し毎の前記正例集合のうち、繰り返し開始から予め定められた第1の繰り返し回数までに得られた前記正例集合を擬似正例データとして選択し、予め定められた第2の繰り返し回数から繰り返し終了までに得られた前記正例集合を擬似負例データとして選択するステップと、
    モデル学習部が、前記擬似正例負例選択部によって選択された前記擬似正例データ、及び前記擬似負例データから抽出された素性に基づいて、前記識別モデルを学習するステップと、
    スコアリング部が、識別対象データの各々について、前記モデル学習部によって学習された前記識別モデルと、前記識別対象データから抽出された素性とに基づいて、前記識別対象データが正例である度合いを表すスコアを算出するステップと、
    判定部が、前記識別対象データの各々について、前記スコアリング部によって算出されたスコアが、予め定められた第1の閾値より大きい場合には、前記識別対象データが正例であると判定し、前記スコアリング部によって算出されたスコアが、予め定められた第2の閾値より小さい場合には、前記識別対象データが負例であると判定するステップと、
    を含むデータ解析方法。
  4. コンピュータに、請求項1又は請求項2記載のデータ解析装置の各部として機能させるためのプログラム。
JP2014046601A 2014-03-10 2014-03-10 データ解析装置、方法、及びプログラム Active JP6092141B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014046601A JP6092141B2 (ja) 2014-03-10 2014-03-10 データ解析装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014046601A JP6092141B2 (ja) 2014-03-10 2014-03-10 データ解析装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015170281A JP2015170281A (ja) 2015-09-28
JP6092141B2 true JP6092141B2 (ja) 2017-03-08

Family

ID=54202920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014046601A Active JP6092141B2 (ja) 2014-03-10 2014-03-10 データ解析装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6092141B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108351986B (zh) * 2015-10-30 2022-03-29 株式会社摩如富 学习系统及装置和方法、训练数据生成装置及生成方法
JP6450738B2 (ja) * 2016-12-14 2019-01-09 ファナック株式会社 工作機械における工具のビビり発生の予兆を検知する機械学習装置、cnc装置および機械学習方法
CN111079608A (zh) * 2019-12-09 2020-04-28 中国科学院新疆天文台 一种快速射电暴实时搜寻方法
JP7298494B2 (ja) * 2020-01-31 2023-06-27 横河電機株式会社 学習装置、学習方法、学習プログラム、判定装置、判定方法、および判定プログラム
CN118708675A (zh) * 2024-06-11 2024-09-27 桂林电子科技大学 基于空间预测型vlpm的跨模态图文检索方法及存储介质

Also Published As

Publication number Publication date
JP2015170281A (ja) 2015-09-28

Similar Documents

Publication Publication Date Title
CN109902307B (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
CN111198948B (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN109299258B (zh) 一种舆情事件检测方法、装置及设备
CN104598535B (zh) 一种基于最大熵的事件抽取方法
US8380488B1 (en) Identifying a property of a document
JP6092141B2 (ja) データ解析装置、方法、及びプログラム
KR101561464B1 (ko) 수집 데이터 감성분석 방법 및 장치
CN107423278B (zh) 评价要素的识别方法、装置及系统
CN109284374B (zh) 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
CN111079445A (zh) 基于语义模型的训练方法、装置以及电子设备
CN114218381B (zh) 立场识别方法、装置、设备及介质
CN110472062A (zh) 识别命名实体的方法及装置
CN113408273A (zh) 实体识别模型的训练与实体识别方法、装置
CN113553847A (zh) 用于对地址文本进行解析的方法、装置、系统和存储介质
WO2016112782A1 (zh) 一种用户的生活圈提取方法及系统
CN107783958B (zh) 一种目标语句识别方法及装置
CN112115229A (zh) 文本意图识别方法、装置、系统以及文本分类系统
JP2013131075A (ja) 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法
CN113011162B (zh) 一种指代消解方法、装置、电子设备及介质
CN114741494A (zh) 问答方法、装置、设备及介质
JP6368633B2 (ja) 用語意味学習装置、用語意味判定装置、方法、及びプログラム
CN112668342A (zh) 基于孪生网络的远程监督关系抽取降噪系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170208

R150 Certificate of patent or registration of utility model

Ref document number: 6092141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350