JP6498107B2 - 分類装置、方法、及びプログラム - Google Patents

分類装置、方法、及びプログラム Download PDF

Info

Publication number
JP6498107B2
JP6498107B2 JP2015233199A JP2015233199A JP6498107B2 JP 6498107 B2 JP6498107 B2 JP 6498107B2 JP 2015233199 A JP2015233199 A JP 2015233199A JP 2015233199 A JP2015233199 A JP 2015233199A JP 6498107 B2 JP6498107 B2 JP 6498107B2
Authority
JP
Japan
Prior art keywords
positive
negative
data
probability model
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015233199A
Other languages
English (en)
Other versions
JP2017102540A (ja
Inventor
上田 修功
修功 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015233199A priority Critical patent/JP6498107B2/ja
Publication of JP2017102540A publication Critical patent/JP2017102540A/ja
Application granted granted Critical
Publication of JP6498107B2 publication Critical patent/JP6498107B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データを正例か負例に分類するための分類装置、方法、及びプログラムに関するものである。
観測データが正例クラスか負例クラスかを判定する2クラス分類問題では、正例に属する複数のサンプルと負例に属する複数のサンプルとを訓練データとして2分類器を学習し、学習済の2分類器を用いてクラスラベルが未知のテストサンプルの帰属クラス(正例クラスか負例クラスかの二者択一)を推定する。通常の2クラス分類問題では、訓練データに対し、正例を正例、負例を負例として正しく分類できた確率(正答率)を最大化するように2クラス分類器を学習する。
しかし、例えば異常検知では、異常をできるだけ洩れなく検出することが重要である。すなわち、「異常」を正例クラスとすると、負例クラスに属するサンプルを正例クラスとして誤分類する確率(以後、偽陽性率)をできるだけ抑え、正例クラスに属するサンプルを正例クラスと正しく分類する確率(以後、真陽性率)が高い2クラス分類器の設計が必要となる。当然ながら、偽陽性と真陽性はトレードオフの関係にあり、例えば、すべて異常と判定すると真陽性率は1.0(100%)となるが、同時に偽陽性率も1.0(100%)となり意味がない。
2クラス分類の場合、スコア関数と呼ばれる正例らしさ、負例らしさを評価する関数を定義し(通常、スコア関数値が大きい程、正例らしさが大きいとする)、あるサンプルに対し、スコア関数値がある閾値以上であれば正例クラスと判定する。スコア関数は、予め、正例に属する複数のサンプルと、負例に属する複数のサンプルからなる訓練データを用いて学習する。そして、前記偽陽性と真陽性のトレードオフの関係は、スコア関数の閾値を変化させて、横軸に偽陽性率、縦軸に真陽性率をプロットして得られるROC曲線(Receiver Operating Characteristic)で図示される。図4の左図に、正例に属するサンプルを塗りつぶした丸、負例に属するサンプルを中抜きの丸で示し、それらのスコア関数値(数直線上の点)が図4のように得られたとき、これらのスコア関数値に対し、閾値を変化させて得られた曲線が図4の右図に示すROC曲線である。
図4でのスコア関数の例において、閾値を正例の第1サンプルのスコア値よりも大きくすると、全てのサンプルを負例クラスとして分類することになるので、真陽性率、偽陽性率ともに0.0となる。一方、閾値を負例の第5サンプルよりも小さくすると、全て正例クラスとして分類することになるので、真陽性率も偽陽性率ともに1.0となる。また、閾値を正例の第3サンプルのスコア値より小さく、かつ、負例の第2サンプルのスコア値よりも大きい場合、5個の正例サンプルの内、3個は正例と正しく分類できているので真陽性率は3/5=0.6となり、5個の負例サンプルの内、1個を正例と誤分類しているので、偽陽性率は1/5=0.2となる。ROC曲線上の(0.2,0.6)がこの場合に相当する。すなわち、ROC曲線は、原点(0,0)と(1,1)を通り広義の単調増加曲線となる。
ROC曲線の下側面積として定義されるAUC(Area Under the Curve)値が2クラス分類器の良さの指標として用いられる。AUC値は最小値0、最大値1をとり、1に近い程、2クラス分類器が高性能であることを意味する。さらに、図5に示す様に、偽陽性率の値をある固定値pとしたときのAUC値はpartial AUC(以後、pAUC)値と呼ばれる。図5はp=0.3のときのpAUCの例である。p=1のとき、pAUC値はAUC値と一致する。すなわち、pAUCはAUCを特殊な場合として含んでいる。
しかし、通常の2クラス分類器の学習法では、訓練データに対する分類誤りを最小化するように2クラス分類器を学習し、pAUCを直接最大化して2クラス分類器を学習しているわけではない。それ故、得られた2クラス分類器は必ずしもpAUC値を最大化しているとは限らない。訓練データにおいて、正例クラスに属するサンプル数が負例クラスに属するサンプル数に比べ著しく少ない場合、分類誤りを最小化するように学習すると、サンプル数の多い負例クラスのサンプルをできるだけ正しく分類しようとして、稀少な正例クラスのサンプルが正例クラスとして正しく分類できない。すなわち、偽陽性率は小さくなるが、真陽性率も同時に小さくなるという問題があった。
この問題に対し、pAUC値を直接最大化する2クラス分類器の学習法が幾つか提案されている(非特許文献1、及び非特許文献2)。
非特許文献1、及び非特許文献2の手法におけるpAUC値最大化学習の基本的な考え方を以下に説明する。
一般に分類問題では、訓練データの各サンプルは特徴ベクトルとして表現される。今、正例クラスに属するサンプルをx、負例クラスに属するサンプルをxと表すこととする。x、及びxはいずれも固定次元の特徴ベクトルである。このとき、スコア関数をf(x;θ)とする。ここではパラメータで、訓練データを用いて学習する。2クラス分類のための閾値をcとすると2クラス分類における真陽性率(TPR(c))、および偽陽性率(FPR(c))は、各々下記(1)式、及び(2)式で定義される。真陽性率、偽陽性率ともにc、θに依存して定まるため、両者はc、θの関数として表されるが、表記の簡単化のためパラメータθを省略し、単にfと表記する。
ここで、I(x)は論理ユニット関数で、xが真の時I(x)=1、xが偽真の時I(x)=0となる。また、p(x)、p(x)は各々正例、負例クラスのサンプルの確率分布を表す。そして、pAUC値は、下記(3)式に従って算出される。
ここで、FPR −1(u)は、下記(4)式に従って定義される。
すなわちpAUCを最大化するためには、スコア関数fを定義した上で上記式(3)を最大化するスコア関数のパラメータθを求めれば良い。実際には、正例クラス、負例クラスの確率分布は未知故、直接上記(3)式を計算することはできないが、与えられた訓練データで上記(3)式を近似した、下記(5)式に示す経験pAUC値で計算できる。
ここで、D、Dは各々訓練データ中の正例クラスサンプル集合、負例クラスサンプル集合を表す。表記|V|は集合Vの要素数を表す。表記
はyを超えない最大整数を表す。x は正例クラスに属す訓練データの第iサンプルの特徴ベクトルを表す。一方、表記x(j) は負例クラスに属す訓練データの各サンプルをスコア関数値で降順に並び替えた時の第j番目のサンプルの特徴ベクトルを表す。上記(5)式の右辺の和は、正例クラスに属する訓練データ(|D|個)の各々と、スコア値の降順でソートされた上位
の負例クラスに属する訓練データの各々とをスコア値で比較した際での正例クラスサンプルが負例クラスサンプルのスコア値より大きい正例クラスサンプルの個数を意味する。
結局、pAUCを直接最大化する2クラス分類器はパラメータθを有するスコア関数を定め、上記(5)式を最大化するθを求める問題に帰着される。ただし、上記(5)式から明らかな様に、ユニット関数I(x)が微分不可能なため、ユニット関数を微分可能な連続関数で近似して最大化することになる。そして前述した従来手法では、スコア関数としてパラメータに関し、下記(6)式に示す線形な関数(線形スコア関数)が用いられていた。
ここで、表記Tはベクトルの転置を表す。θ=(θ,θ)が推定すべき未知パラメータである。
M. J. Hsu and H. M. Hsueh: The linear combinations of biomarkers which maximize the partial area under the ROC curve, Computational Statistics, 2012. H. Narasimhan and S. Agarwal: A structural SVM based approach for optimization partial AUC, International Conference on Machine Learning (ICML), 2013.
しかし、上述した方法では、線形スコア関数では自由度が小さいため、pAUC値の最大化に限界があり、スコア関数を非線形化して単純に複雑化すると上記(5)式の最大化問題が複雑になり、かつ、訓練データにフィッティングし過ぎて、学習に使用しないテストデータでのpAUC値が悪化するという過学習の問題が生じるという問題がある。
本発明では、上記問題点を解決するために成されたものであり、正例クラスのサンプル数が負例クラスのサンプル数に対し相対的に少ない場合であっても、精度よく2クラス分類をすることができる分類装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る分類装置は、負例のデータを正例のデータと誤分類する確率である偽陽性率に関する予め定められた閾値pと、正例の訓練データ及び負例の訓練データとに基づいて、スコア関数を用いて正例の訓練データ及び負例の訓練データの各々を分類したときの、前記偽陽性率と、正例のデータを正例のデータと正しく分類する確率である真陽性率との対応関係を表すグラフ上におけるROC曲線の下側面積であって、かつ、前記閾値p以下での前記下側面積を最大化する、前記スコア関数を学習するスコア関数最適化部と、入力されたテストデータと前記学習されたスコア関数とに基づいて、前記テストデータのスコア値を算出するスコア算出部と、を含んで構成され、前記スコア関数は、正例用のモデルパラメータを用いて定められた正例の確率モデルと、負例用のモデルパラメータを用いて定められた負例の確率モデルとの比を用いて表される。
第2の発明に係る分類方法は、スコア関数最適化部と、スコア算出部とを含む分類装置における、分類方法であって、前記スコア関数最適化部は、負例のデータを正例のデータと誤分類する確率である偽陽性率に関する予め定められた閾値pと、正例の訓練データ及び負例の訓練データとに基づいて、スコア関数を用いて正例の訓練データ及び負例の訓練データの各々を分類したときの、前記偽陽性率と、正例のデータを正例のデータと正しく分類する確率である真陽性率との対応関係を表すグラフ上におけるROC曲線の下側面積であって、かつ、前記閾値p以下での前記下側面積を最大化する、前記スコア関数を学習し、前記スコア算出部は、入力されたテストデータと前記学習されたスコア関数とに基づいて、前記テストデータのスコア値を算出し、前記スコア関数は、正例用のモデルパラメータを用いて定められた正例の確率モデルと、負例用のモデルパラメータを用いて定められた負例の確率モデルとの比を用いて表される。
第1及び第2の発明によれば、スコア関数最適化部により、負例のデータを正例のデータと誤分類する確率である偽陽性率に関する予め定められた閾値pと、正例の訓練データ及び負例の訓練データとに基づいて、スコア関数を用いて正例の訓練データ及び負例の訓練データの各々を分類したときの、偽陽性率と、正例のデータを正例のデータと正しく分類する確率である真陽性率との対応関係を表すグラフ上におけるROC曲線の下側面積であって、かつ、閾値p以下での下側面積を最大化する、スコア関数を学習し、スコア算出部により、入力されたテストデータと学習されたスコア関数とに基づいて、テストデータのスコア値を算出し、スコア関数は、正例用のモデルパラメータを用いて定められた正例の確率モデルと、負例用のモデルパラメータを用いて定められた負例の確率モデルとの比を用いて表される。
このように、偽陽性率に関する予め定められた閾値pと、正例の訓練データ及び負例の訓練データとに基づいて、スコア関数を用いて正例の訓練データ及び負例の訓練データの各々を分類したときの、偽陽性率と、真陽性率との対応関係を表すグラフ上におけるROC曲線の下側面積であって、かつ、閾値p以下での下側面積を最大化する、正例用のモデルパラメータを用いて定められた正例の確率モデルと、負例用のモデルパラメータを用いて定められた負例の確率モデルとの比を用いて表されるスコア関数を学習し、入力されたテストデータと学習されたスコア関数とに基づいて、テストデータのスコア値を算出することにより、正例クラスのサンプル数が負例クラスのサンプル数に対し相対的に少ない場合であっても、精度よく2クラス分類をすることができる。
また、第1及び第2の発明において、前記スコア関数は、前記正例の確率モデルと前記負例の確率モデルとの比の対数としてもよい。
また、本発明のプログラムは、コンピュータを、上記の分類装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の分類装置、方法、及びプログラムによれば、偽陽性率に関する予め定められた閾値pと、正例の訓練データ及び負例の訓練データとに基づいて、スコア関数を用いて正例の訓練データ及び負例の訓練データの各々を分類したときの、偽陽性率と、真陽性率との対応関係を表すグラフ上におけるROC曲線の下側面積であって、かつ、閾値p以下での下側面積を最大化する、正例用のモデルパラメータを用いて定められた正例の確率モデルと、負例用のモデルパラメータを用いて定められた負例の確率モデルとの比を用いて表されるスコア関数を学習し、入力されたテストデータと学習されたスコア関数とに基づいて、テストデータのスコア値を算出することにより、正例クラスのサンプル数が負例クラスのサンプル数に対し相対的に少ない場合であっても、精度よく2クラス分類をすることができる。
本実施形態に係る分類装置の機能的構成を示すブロック図である。 本実施形態に係る分類装置における分類処理ルーチンのフローチャート図である。 実験例の結果の一例を示す図である。 ROC曲線の一例を示す図である。 pAUC値の一例を示す図である。
以下、図面を参照して本発明の実施形態を詳細に説明する。
<本発明の実施形態の概要>
まず、本実施形態の概要について説明する。
本実施形態に係る分類装置においては、正例クラスに属する複数のサンプルと負例に属する複数のサンプルからなる訓練データを用いて、予め定めた偽陽性率の値(p)に対し、pAUCを最大化するスコア関数を学習する。次いで、クラスが未知のテストデータ集合に対し、学習済のスコア関数を用いてテストデータ集合の各サンプルのスコア値を出力する。
これまでに機械学習の研究分野において、問題ごとに適切な確率モデルが提案されている。例えば、特徴ベクトルの要素が実数の(連続値)場合、ガウス混合分布モデルが用いられ、特徴ベクトルの要素が自然数(離散値)の場合、混合多項分布モデルが用いられる。文書分類の応用は後者に相当する。2クラス分類問題の場合、正例クラスおよび負例クラスの確率モデルを各々p(x;θ)、p(x;θ)とすると、通常、正例に属する訓練データを用いて正例の確率モデルの未知パラメータθを推定し、負例に属する訓練データを用いて負例の確率モデルの未知パラメータθを推定し、クラス未知のサンプルxに対しては、正例のクラス事後確率と負例のクラス事後確率の比較により、正例クラスか負例クラスかを判定する。ベイズの定理より、クラス事後確率はモデルとクラスの事前確率との積に比例するので、上記比較は下記(7)式、及び(8)式のように示される。
ここで、P、Pは各々正例および負例の事前確率である。尚、両クラスのクラス事後確率が等しい場合はランダムにいずれのクラスとすれば良い。
しかし、本実施形態で対象とする2クラス分類では、正例クラスに属するサンプル数が負例クラスに属するサンプル数に対し顕著に少ない場合、P≪Pとなり、本来評価すべきモデル尤度(サンプルの確率モデルへの当てはまり度)の項の影響を阻害するという問題がある。上記(7)式及び(8)式では正例クラスと負例クラスとを対等に扱っているという点で、正例クラスのサンプルの検出を重要視するという目的には整合しない。
さらに、従来の確率モデルの未知パラメータの学習は、前述した様に、正例クラスの確率モデルのパラメータは正例クラスに属する訓練データのみを用いて独立に学習しているため、pAUCを直接最大化する学習となっていない。そこで、本実施形態に係る分類装置では、確率モデル(モデル尤度)のみに着目し、スコア関数を下記(9)式に示すように定義する。なお、下記(9)式を等価的に変更した下記(10)式を用いてもよい。
ただし、p(x;θ)は、正例クラスの確率モデルのパラメータを用いて定義された正例クラスの確率モデルであり、p(x;θ)は、負例クラスの確率モデルのパラメータを用いて定義された負例クラスの確率モデルである。
正例に属するサンプルxに対しては、負例の確率モデルよりも正例の確率モデルの尤度値(確率モデルにxを代入した値)が大きくなる、つまり、p(x;θ)>p(x;θ)故、スコア関数として上記(9)式、及び(10)式は妥当である。そこで本実施形態においては、尚、上記(9)式、又は(10)式で定義されるスコア関数を上記(5)式に代入し、訓練データを用いて算出される経験pAUC値を最大化するパラメータθ=(θ,θ)を求める。θ、θは各々正例、負例クラスの確率モデルのパラメータに相当する。ただし、前述した様に、上記(5)にはユニット関数が含まれ微分不可能故、ユニット関数を適切な連続関数(例えば、シグモイド関数)で近似し、汎用的な既存の非線形最適化手法を用いて前記最大化問題を解く。尚、上記(10)式で両クラスの確率モデルの比に対数をとるのは数学的な便宜上の理由であり本質ではない。対数をとることで比(除算)が引き算になり、上記(5)式の最大化の計算を容易になる。
<本発明の実施形態に係る分類装置の構成>
次に、本発明の実施形態に係る分類装置の構成について説明する。図1に示すように、本実施形態に係る分類装置100は、CPUと、RAMと、後述する分類処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この分類装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90とを含んで構成されている。
入力部10は、正例、又は負例の何れかが付加された訓練データの各々を受け付ける。また、入力部10は、正例、又は負例に分類するための分類対象となるテストデータの各々を受け付ける。
演算部20は、訓練データ記憶部22と、スコア関数最適化部24と、テストデータ記憶部26と、スコア算出部28とを含んで構成されている。
訓練データ記憶部22には、入力部10において受け付けた訓練データの各々が記憶されている。
スコア関数最適化部24は、訓練データ記憶部22に記憶されている訓練データの各々と、予め定められた偽陽性率の閾値pと、に基づいて、上記(5)式、及び(10)式に従って、スコア関数を取得する。
具体的には、上記(10)式を代入した上記(5)式中のユニット関数を適切な連続関数(例えば、シグモイド関数)で近似し、訓練データの各々と、予め定められた偽陽性率の閾値pとに基づいて、汎用的な既存の非線形最適化手法を用いて、最大化問題を解き、上記(5)式における経験pAUC値を最大化するパラメータθ=(θ,θ)を算出する。
そして、取得したパラメータθ=(θ,θ)を、上記(10)式に代入したスコア関数を学習済のスコア関数とする。なお、本実施形態においては、上記(10)式を用いる場合について説明したが、上記(9)式を用いてもよい。
テストデータ記憶部26には、入力部10において受け付けた正例、又は負例に分類するための分類対象となるテストデータの各々が記憶されている。
スコア算出部28は、テストデータ記憶部26に記憶されているテストデータの各々について、スコア関数最適化部24において取得した学習済のスコア関数に基づいて、スコア値を算出し、テストデータの各々を取得したスコア値でソートする。また、スコア算出部28は、スコア値でソートされたテストデータの各々について、予め定められたスコア値の閾値cに基づいて、下記(11)式に従って、正例、又は負例に分類する。
また、スコア算出部28は、取得した正例のテストデータを出力部90から出力する。
<本発明の実施形態に係る分類装置の作用>
次に、本発明の実施形態に係る分類装置100の作用について説明する。分類装置100は、入力部10によって、訓練データの各々を受け付け訓練データ記憶部22に記憶し、テストデータの各々を受け付けテストデータ記憶部26に記憶すると、分類装置100によって、図2に示す分類処理ルーチンが実行される。
まず、図2に示す分類処理のステップS100で、訓練データ記憶部22に記憶されている訓練データの各々と、テストデータ記憶部26に記憶されているテストデータの各々とを読み込む。
次に、ステップS102で、ステップS100において取得した訓練データの各々と、予め定められた偽陽性率の閾値pと、に基づいて、上記(5)式、及び(10)式に従って、上記(5)式における経験pAUC値を最大化するパラメータθ=(θ,θ)を用いたスコア関数を取得する。
次に、ステップS104で、ステップS100において取得したテストデータの各々について、ステップS102において取得したスコア関数に基づいて、スコア値を算出し、テストデータの各々をスコア値に基づいて、ソートする。
次に、ステップS106で、テストデータの各々について、ステップS104において取得した当該スコア値と、予め定められたスコア値の閾値cとに基づいて、上記(11)式に従って、正例、又は負例に分類する。
次に、ステップS108で、ステップS106において取得した分類結果に基づいて、正例となるテストデータを出力部90から出力し、分類処理ルーチンを終了する。
<実験例>
本実施形態に係る分類装置100を用いて、天体画像から超新星か否かを判定する2クラス分類問題として寒天体画像を用いた実験結果を以下に示す。本データの各サンプルは、すばる望遠鏡で撮像した天体画像から各種画像特徴を抽出して得られた23次元の特徴ベクトルで、正例クラス(48サンプル)と負例クラス(2400サンプル)の2クラス判定を原画像から専門家が人でラべリングしたデータである。この正解ラベル付きのデータを、正例と負例とのサンプル数の比率(1:50)を保つように、訓練データとテストデータとに1:2の割合でランダムに分割する。すなわち、訓練データ数は1632、テストデータ数は816である。そして、この訓練データで2クラス分類器を学習し、テストデータで偽陽性率を1%(p=0.001)とした時の、pAUC値および真陽性率で2クラス分類器を評価した。実験においては、以下の3手法を比較した。
手法1:線形のスコア関数を用いてpAUC最大化によりスコア関数を求める従来手法1(非特許文献2)。
手法2:正例クラスと負例クラスの確率モデルを用いて、各々独立に確率モデルを学習した後、上記(10)式に代入してスコア関数を求める従来手法2。
手法3:正例クラスと負例クラスとに確率モデルを用いて、上記(10)式をスコア関数としてpAUC最大化によりスコア関数を求める本手法。
本実施形態において用いる手法が、確率モデルを用いた手法故、確率モデルを用いるがpAUC最大化によりスコア関数を求めるのではなく、正例クラス、負例クラス各々独立に確率モデルを最尤推定法により学習してスコア関数を求める従来手法2とも比較した。
従来手法2および本実施形態の手法における確率モデルとして、本実験データの特徴ベクトルの各要素は実数故、確率モデルとして実数の特徴ベクトルに対して多用されるガウス混合分布モデルを用いた。ガウス混合分布モデルは、下記(12)式で表わされる。
ここで、αは混合比で、α>0、Σα=1を満たす。また、N(x;μ,Σ)は、第k要素のガウス分布を表し、μ、Σは各々第kガウス分布の平均ベクトル、共分散行列を表す。ただし、実験においては、共分散行列は、下記(13)式に示すように、対角行列とする。
結局、ガウス混合分布モデルでの推定すべき未知パラメータは、下記(14)式に示すようになる。これらが、正例クラスと、負例クラスとにそれぞれ独立に存在する。
なお、混合数Kの決め方については、訓練データをさらに1:1の比で正例クラスと負例クラスとのサンプル数の比を保ったまま、検定用と学習用データとにランダムに分割し、Kを可能な候補の各々について学習用データでスコア関数を学習し、検定用データでpAUC値が最も大きくなる混合数を最適な混合数として決定した。この際、正例クラスでの混合数と負例クラスでの混合数は等しいとは限らず、それらの可能な組み合わせで検定する。
また、実験結果を図3に示す、図3で、従来手法2と本手法の結果を見ると、テストデータに対するpAUC値および真陽性率ともに本手法が従来手法に対し顕著に優位であることが確認できる。この差は、従来手法2で学習したスコア関数がpAUCを直接最大化していないことに起因し、本結果よりpAUCを直接最大化する手法の有効性が確認できた。また、従来手法1と本手法との比較では、本手法が従来手法1に対し顕著に優位であることが分かる。これは、従来手法が線形のスコア関数を用いているのに対し、本手法では問題に適した確率モデルを用い、適切な非線形のスコア関数を用いていることが主要因である。
実際、従来手法2はpAUCを直接最大化していないにも関わらず、従来手法1よりも良い結果を得ている。この結果は、正例クラスと負例クラスとの確率分布に重なりがあり、線形のスコア関数では十分でない場合、pAUCを直接最大化したとしても、性能に限界があることを示している。一方、本手法では、対象とする問題毎に、適切な確率モデルを用いることで、非線形のスコア関数が定義でき、かつ、pAUCを直接最大化することで、所望の2クラス分類器を得ることが可能となる。
以上説明したように、本実施形態に係る分類装置によれば、偽陽性率に関する予め定められた閾値pと、正例の訓練データ及び負例の訓練データとに基づいて、スコア関数を用いて正例の訓練データ及び負例の訓練データの各々を分類したときの、偽陽性率と、真陽性率との対応関係を表すグラフ上におけるROC曲線の下側面積であって、かつ、閾値p以下での下側面積を最大化する、正例用のモデルパラメータを用いて定められた正例の確率モデルと、負例用のモデルパラメータを用いて定められた負例の確率モデルとの比を用いて表されるスコア関数を学習し、入力されたテストデータと学習されたスコア関数とに基づいて、テストデータのスコア値を算出することにより、正例クラスのサンプル数が負例クラスのサンプル数に対し相対的に少ない場合であっても、精度よく2クラス分類をすることができる。
また、故障検知や疾病診断のように本来検出したい正例クラス(例えば、異常、病気)のサンプル数が負例クラス(例えば、正常、健康)のサンプル数に対し、相対的に少ない場合であってもpAUC値を最大化する高精度な故障検知、疾病診断などの2クラス分類を実現することができる。
また、正例と負例とに属するサンプルに対し、偽陽性率を予め定められた閾値以下という制約の下で、真陽性率を最大化する2クラス分類装置を構成することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施形態においては、上記(9)式、及び(10)式において、正例用のモデルパラメータを用いて定められた正例の確率モデルが分子とし、負例用のモデルパラメータを用いて定められた負例の確率モデルを分母とする場合について説明したが、これに限定されるものではなく、上記(9)式、及び(10)式の分子と分母とを逆転させるような、正例用のモデルパラメータを用いて定められた正例の確率モデルと、負例用のモデルパラメータを用いて定められた負例の確率モデルとの比とするように、上記(9)式、及び(10)式を変形して用いてもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10 入力部
20 演算部
22 訓練データ記憶部
24 スコア関数最適化部
26 テストデータ記憶部
28 スコア算出部
90 出力部
100 分類装置

Claims (3)

  1. 正例の確率モデルのパラメータをθ とし、負例の確率モデルのパラメータをθ として、
    負例のデータを正例のデータと誤分類する確率である偽陽性率に関する予め定められた閾値pと、正例のラベルが付与された訓練データ及び負例のラベルが付与された訓練データとに基づいて、前記正例の確率モデルの、前記負例の確率モデルに対する比で表されるスコア関数を用いて正例の訓練データ及び負例の訓練データの各々を分類したときの、前記偽陽性率と、正例のデータを正例のデータと正しく分類する確率である真陽性率との対応関係を表すグラフ上におけるROC曲線の下側面積であって、かつ、前記閾値p以下での前記下側面積を最大化するように前記正例の確率モデルのパラメータθ と負例の確率モデルのパラメータθ を推定するスコア関数最適化部と、
    入力された正例または負例のラベルが付与されていないテストデータと前記推定された前記正例の確率モデルのパラメータθ と負例の確率モデルのパラメータθ を用いた前記スコア関数とに基づいて、前記テストデータのスコア値を算出するスコア算出部と、
    を含分類装置。
  2. スコア関数最適化部と、スコア算出部とを含む分類装置における、分類方法であって、
    前記スコア関数最適化部は、
    正例の確率モデルのパラメータをθ とし、負例の確率モデルのパラメータをθ として、
    負例のデータを正例のデータと誤分類する確率である偽陽性率に関する予め定められた閾値pと、正例のラベルが付与された訓練データ及び負例のラベルが付与された訓練データとに基づいて、前記正例の確率モデルの、前記負例の確率モデルに対する比で表されるスコア関数を用いて正例の訓練データ及び負例の訓練データの各々を分類したときの、前記偽陽性率と、正例のデータを正例のデータと正しく分類する確率である真陽性率との対応関係を表すグラフ上におけるROC曲線の下側面積であって、かつ、前記閾値p以下での前記下側面積を最大化するように前記正例の確率モデルのパラメータθ と負例の確率モデルのパラメータθ を推定し、
    前記スコア算出部は、入力された正例または負例のラベルが付与されていないテストデータと前記推定された前記正例の確率モデルのパラメータθ と負例の確率モデルのパラメータθ を用いた前記スコア関数とに基づいて、前記テストデータのスコア値を算出る、分類方法。
  3. コンピュータを、請求項1に記載の分類装置の各部として機能させるためのプログラム。
JP2015233199A 2015-11-30 2015-11-30 分類装置、方法、及びプログラム Active JP6498107B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015233199A JP6498107B2 (ja) 2015-11-30 2015-11-30 分類装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015233199A JP6498107B2 (ja) 2015-11-30 2015-11-30 分類装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017102540A JP2017102540A (ja) 2017-06-08
JP6498107B2 true JP6498107B2 (ja) 2019-04-10

Family

ID=59016883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015233199A Active JP6498107B2 (ja) 2015-11-30 2015-11-30 分類装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6498107B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019049688A1 (ja) * 2017-09-06 2019-03-14 日本電信電話株式会社 異常音検知装置、異常モデル学習装置、異常検知装置、異常音検知方法、異常音生成装置、異常データ生成装置、異常音生成方法、およびプログラム
JP6745507B2 (ja) * 2017-09-28 2020-08-26 日本電信電話株式会社 パラメータ推定装置、方法、及びプログラム
JP2019101902A (ja) * 2017-12-06 2019-06-24 株式会社グルーヴノーツ データ処理装置、データ処理方法及びデータ処理プログラム
JP7017695B2 (ja) 2018-04-27 2022-02-09 富士通株式会社 領域生成プログラム、領域生成装置および領域生成方法
JP7198064B2 (ja) * 2018-12-05 2022-12-28 日本電信電話株式会社 学習装置、推定装置、パラメータ算出方法、及びプログラム
JP7115280B2 (ja) * 2018-12-11 2022-08-09 日本電信電話株式会社 検出学習装置、方法、及びプログラム
KR102252189B1 (ko) * 2019-06-04 2021-05-13 배재대학교 산학협력단 머신 러닝을 이용한 고장 진단 관리 시스템 및 방법
US20220222585A1 (en) * 2019-09-18 2022-07-14 Nippon Telegraph And Telephone Corporation Learning apparatus, learning method and program
US20230119103A1 (en) * 2019-10-11 2023-04-20 Nippon Telegraph And Telephone Corporation Training device, classification device, training method, and training program
CN110732139B (zh) * 2019-10-25 2024-03-05 腾讯科技(深圳)有限公司 检测模型的训练方法和用户数据的检测方法、装置
CN111126503B (zh) * 2019-12-27 2023-09-26 北京同邦卓益科技有限公司 一种训练样本的生成方法和装置
JP7472496B2 (ja) * 2020-01-15 2024-04-23 日本電気株式会社 モデル生成装置、モデル生成方法、及び、記録媒体
CN111324764B (zh) * 2020-02-18 2023-09-22 北京金山安全软件有限公司 一种图像检测方法、装置、电子设备及存储介质
JP7359729B2 (ja) * 2020-03-24 2023-10-11 トヨタ自動車株式会社 分類装置及び分類方法
WO2021199226A1 (ja) * 2020-03-31 2021-10-07 日本電気株式会社 学習装置、学習方法、及びコンピュータ読み取り可能な記録媒体
US20230252313A1 (en) * 2020-04-21 2023-08-10 Nec Corporation Learning apparatus, trained model generation method, classification apparatus, classification method, and computer-readable recording medium
WO2024009362A1 (ja) * 2022-07-04 2024-01-11 日本電信電話株式会社 異常検知装置、異常検知方法および異常検知プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2084535T3 (pl) * 2006-09-08 2016-12-30 Bioinformatyczne podejście do diagnozy choroby
US20120040861A1 (en) * 2010-08-13 2012-02-16 Somalogic, Inc. Pancreatic Cancer Biomarkers and Uses Thereof

Also Published As

Publication number Publication date
JP2017102540A (ja) 2017-06-08

Similar Documents

Publication Publication Date Title
JP6498107B2 (ja) 分類装置、方法、及びプログラム
US11983625B2 (en) Robust multimodal sensor fusion for autonomous driving vehicles
US10896351B2 (en) Active machine learning for training an event classification
WO2018121690A1 (zh) 对象属性检测、神经网络训练、区域检测方法和装置
US8140450B2 (en) Active learning method for multi-class classifiers
US8725660B2 (en) Applying non-linear transformation of feature values for training a classifier
US8559717B2 (en) Detecting and labeling places using runtime change-point detection and place labeling classifiers
WO2015187372A1 (en) Digital event profile filters
CN108446741B (zh) 机器学习超参数重要性评估方法、系统及存储介质
JP2008538041A (ja) 局所的近傍点ラプラス固有マップに基づくデータ分類の一部学習済学習機械
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
US20220129712A1 (en) Deep neural network hardener
US20170147909A1 (en) Information processing apparatus, information processing method, and storage medium
US20220245422A1 (en) System and method for machine learning architecture for out-of-distribution data detection
JP2017102906A (ja) 情報処理装置、情報処理方法及びプログラム
US20220129758A1 (en) Clustering autoencoder
Júnior et al. Specialized support vector machines for open-set recognition
JP5776694B2 (ja) 物体識別向けの学習装置、学習システム、学習方法、及び学習プログラム
CN116015708A (zh) 基于深度学习预测不确定性的恶意流量开集识别方法及装置
JP5905375B2 (ja) 誤分類検出装置、方法、及びプログラム
JP5684084B2 (ja) 誤分類検出装置、方法、及びプログラム
KR101590896B1 (ko) 일반화 성능을 갖는 심화학습 장치 및 방법, 그 방법을 수행하기 위한 기록 매체 및 장치
CN110827327A (zh) 一种基于融合的长期目标跟踪方法
WO2017096219A1 (en) Methods and systems for determination of the number of contributors to a dna mixture
KR20210158740A (ko) 기계학습 성능 기반 클러스터링 평가 장치 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190312

R150 Certificate of patent or registration of utility model

Ref document number: 6498107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150