JP5684084B2 - 誤分類検出装置、方法、及びプログラム - Google Patents

誤分類検出装置、方法、及びプログラム Download PDF

Info

Publication number
JP5684084B2
JP5684084B2 JP2011220337A JP2011220337A JP5684084B2 JP 5684084 B2 JP5684084 B2 JP 5684084B2 JP 2011220337 A JP2011220337 A JP 2011220337A JP 2011220337 A JP2011220337 A JP 2011220337A JP 5684084 B2 JP5684084 B2 JP 5684084B2
Authority
JP
Japan
Prior art keywords
sample
weight
probability model
estimated value
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011220337A
Other languages
English (en)
Other versions
JP2013080395A (ja
Inventor
昭典 藤野
昭典 藤野
具治 岩田
具治 岩田
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011220337A priority Critical patent/JP5684084B2/ja
Publication of JP2013080395A publication Critical patent/JP2013080395A/ja
Application granted granted Critical
Publication of JP5684084B2 publication Critical patent/JP5684084B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、誤分類検出装置、方法、及びプログラムに係り、特に、サンプル集合の中から、誤ったカテゴリに分類されたコンテンツのサンプルを検出する誤分類検出装置、方法、及びプログラムに関する。
コンテンツのカテゴリ分類は、多くの場合、人手による分類作業によって行われる。あるいは、人手によってカテゴリに分類されたいくつかのコンテンツを訓練データとして用いて統計的分類器を設計し、新規のコンテンツのカテゴリを推定するのに統計的分類器を用いることでコンテンツの自動分類を行う。
しかし、人手による分類作業には、コンテンツを誤ったカテゴリに分類する誤分類の危険性が常に存在する。また、誤ったカテゴリに分類されたコンテンツは、統計的分類器の自動分類性能の低下をもたらす。それ故、与えられた分類済みのサンプルの中から、誤ったカテゴリに分類されているサンプルを検出する誤分類検出技術は重要である。
従来の技術では、分類済みのサンプルの集合の中から誤分類されたサンプルを推定するため、まず、分類済みのサンプルのすべてを訓練データとし、交差検定法を用いて学習した統計的分類器を用いてサンプルのカテゴリを推定する。次に、その推定されたカテゴリが分類されているカテゴリと一致しないサンプルを、誤分類されたサンプルとして検出する。検出精度を高めるため、非特許文献1、2の技術では、複数の統計的分類器で得られるカテゴリ推定の結果の多数決を取ることで、統計的分類器の種類に依存するカテゴリ推定のバイアスの悪影響を抑制している。非特許文献3、4の技術では、カテゴリの種類が2つしかない問題で、1つのサンプルのカテゴリを異なるカテゴリに置き換えて学習させた統計的分類器を用いて別のサンプルのカテゴリを推定する。カテゴリを置き換えるサンプルを変えて集めた複数の推定結果から最終判定を行うことで、カテゴリ推定の精度を高めている。
Carla E. Brodley and Mark A. Friedl. Identifying mislabeled training data.Journal of Artificial Intelligence Research, 11(11):131−166, 1999. Sundara Venkataraman, Dimitris Metaxas, Dmitriy Fradkin, Casimir Kulikowski, and Ilya Muchnik. Distinguishing mislabeled data from correctly labeled data in classifier design. In Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence (ICTAI’04), pages 668−672, 2004. Andrea Mallosini, Enrico Blanzieri, and Raymond T. Ng. Detecting potential labeling errors in microarrays by data perturbation. Bioinformatics, 22(17):2114−2121, 2006. Chen Zhang, Chunguo Wu, Enrico Blanzieri, You Zhou, Yan Wang, Wei Du, and Yanchun Liang. Methods for labeling error detection in microarrays based on the effect of data perturbation on the regression model. Bioinformatics, 25(20):2708−2714, 2009.
上記の非特許文献1、2の技術では、カテゴリの推定に用いる統計的分類器を、推定対象のサンプルを除いた訓練データを用いて学習させる。その訓練データの中には、誤分類されたサンプルが含まれている。一般に、誤分類されたサンプルを含む訓練データ集合を用いて学習させた統計的分類器の性能は、誤分類されたサンプルを訓練データ集合から除外して学習させた統計的分類器の性能より劣る。したがって、統計的分類器の精度を向上させるために、誤分類されたサンプルが統計的分類器の学習に与える悪影響を抑制する技術が必要となる。
上記の非特許文献3、4では、訓練データ中のサンプルに付与されたカテゴリを入れ換えて学習を行うことで、カテゴリの推定精度を向上させている。しかし、上記の非特許文献3、4に記載の技術は、カテゴリの種類が2つの場合のみの問題を想定しており、カテゴリが複数ある分類問題には適用できない。
本発明は、上記の事情を鑑みてなされたもので、検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、カテゴリが複数ある一般的な分類問題で誤分類されたサンプルを検出することができる誤分類検出装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る誤分類検出装置は、誤ったカテゴリに分類されたコンテンツである誤分類サンプルを含む、コンテンツの属するカテゴリが既知のサンプル集合の中から、誤分類サンプルを検出する誤分類検出装置であって、
ンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算する確率モデル生成手段と、
前記確率モデル生成手段によって計算された前記同時確率モデルp(x;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出する誤分類サンプル検出手段と、
を含み、
前記確率モデル生成手段は、
誤って分類されているサンプルnに大きな値を設定すべき重みw 0n 及び正しく分類されているサンプルnに大きな値を設定すべき重みw 1n を規定する重みパラメータ行列の推定値^Wに基づいて求められる、一点除外交差検定法に基づくパラメータΘの推定値^Θ -n を用いて、各サンプルnが正しく分類されているか否かを表す潜在変数zの予測を与える正誤予測確率P(z|x n 、y n ;Θ -n )を計算する正誤予測確率計算手段と、
前記正誤予測確率計算手段によって計算された前記正誤予測確率P(z|x n 、y n ;^Θ -n )を用いて、前記重みパラメータ行列の推定値^Wを計算する重み計算手段と、
前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記正誤予測確率計算手段による計算及び前記重み計算手段による計算の繰り返し処理を行う収束判定手段と、
前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x、y;Θ)のパラメータΘの一点除外交差検定法に基づく推定値^Θ -n を計算するパラメータ計算手段と、を含んで構成されている。
本発明に係る誤分類検出方法は、誤ったカテゴリに分類されたコンテンツである誤分類サンプルを含む、コンテンツの属するカテゴリが既知のサンプル集合の中から、誤分類サンプルを検出する誤分類検出方法であって、
確率モデル生成手段によって、ンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算するステップと、
誤分類サンプル検出手段によって、前記確率モデル生成手段によって計算された前記同時確率モデルp(x;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出するステップと、
を含み、
前記同時確率モデルp(x n 、y n )のパラメータ値Θを計算するステップは、
正誤予測確率計算手段によって、誤って分類されているサンプルnに大きな値を設定すべき重みw 0n 及び正しく分類されているサンプルnに大きな値を設定すべき重みw 1n を規定する重みパラメータ行列の推定値^Wに基づいて求められる、一点除外交差検定法に基づくパラメータΘの推定値^Θ -n を用いて、各サンプルnが正しく分類されているか否かを表す潜在変数zの予測を与える正誤予測確率P(z|x n 、y n ;Θ -n )を計算するステップと、
重み計算手段によって、前記正誤予測確率計算手段によって計算された前記正誤予測確率P(z|x n 、y n ;^Θ -n )を用いて、前記重みパラメータ行列の推定値^Wを計算するステップと、
収束判定手段によって、前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記正誤予測確率計算手段による計算及び前記重み計算手段による計算の繰り返し処理を行うステップと、
パラメータ計算手段によって、前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x、y;Θ)のパラメータΘの一点除外交差検定法に基づく推定値^Θ -n を計算するステップと、
を含むことを特徴とする。
本発明によれば、確率モデル生成手段によって、ンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算する。
そして、誤分類サンプル検出手段によって、前記確率モデル生成手段によって計算された前記同時確率モデルp(x;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出する。
このように、同時確率モデルp(x;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく同時確率モデルp(x;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みを用いて計算し、同時確率モデルp(x;Θ)のパラメータ値Θの推定値^Θに基づいて計算される各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)を用いて、誤分類サンプルを検出することにより、検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、カテゴリが複数ある一般的な分類問題で誤分類されたサンプルを検出することができる。
本発明に係る確率モデル生成手段は、一点除外交差検定法に基づく各サンプルnの対数尤度の和を最大化させるように、正しく分類されているサンプルnに大きな値を設定すべき重みw1nを規定する重みパラメータ行列の推定値^Wを計算する重み計算手段と、前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記重み計算手段による計算の繰り返し処理を行う収束判定手段と、前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x;Θ)のパラメータΘ一点除外交差検定法に基づく推定値^Θ-nを計算するパラメータ計算手段と、を含むようにすることができる。
本発明に係るプログラムは、コンピュータを、上記の誤分類検出装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の誤分類検出装置、方法、及びプログラムによれば、同時確率モデルp(x;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく同時確率モデルp(x;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みを用いて計算し、同時確率モデルp(x;Θ)のパラメータ値Θの推定値^Θに基づいて計算される各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)を用いて、誤分類サンプルを検出することにより、検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、カテゴリが複数ある一般的な分類問題で誤分類されたサンプルを検出することができる、という効果が得られる。
本発明の第1の実施の形態に係る誤分類検出装置の構成を示す概略図である。 本発明の第1の実施の形態に係る誤分類検出装置における確率モデル生成部の構成を示す図である。 本発明の第1の実施の形態に係る誤分類検出装置における誤分類検出処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係る誤分類検出装置における確率モデル生成処理ルーチンの内容を示すフローチャートである。 本発明の第2の実施の形態に係る誤分類検出装置における確率モデル生成部の構成を示す図である。 本発明の第2の実施の形態に係る誤分類検出装置における確率モデル生成処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。データベースに含まれる論文、特許等の文書、オンラインニュースデータ、電子メール等のテキスト情報から成るコンテンツや、Webデータ、blogデータ等のテキスト情報とリンク情報から成るコンテンツ、あるいは画像データ等のコンテンツ、といった特徴ベクトルにより表現することが可能なコンテンツを、スポーツ、音楽、数学といった種別を表すカテゴリに分類したサンプルの集合の中から、誤ったカテゴリに分類されているサンプルを検出する誤分類検出装置に本発明を適用した場合について説明する。
〔第1の実施の形態〕
<システム構成>
本発明の第1の実施の形態に係る誤分類検出装置100は、所属するカテゴリのラベルが付与されたコンテンツを含むサンプルの集合が入力され、入力されたサンプルの集合の中から、誤ったカテゴリのラベルが付与されているサンプルを検出して出力する。この誤分類検出装置100は、CPUと、RAMと、後述する誤分類検出処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、誤分類検出装置100は、入力部10と、演算部20と、出力部30とを備えている。
入力部10は、入力された、所属するカテゴリのラベルが付与されたコンテンツを含むサンプルの集合を受け付ける。コンテンツに含まれる単語や画素、リンク、あるいはそれらの組み合わせ等により構成される特徴量空間をT={t1, ... ,ti, ... ,tV}とするとき、コンテンツの特徴ベクトルxは、コンテンツに含まれるtiの頻度xiをもとにx={x1, ... ,xi, ... ,xVTで表現される。Vはコンテンツに含まれる可能性がある特徴の種類の数を表す。例えば、コンテンツがテキストデータである場合、Vはコンテンツに出現する可能性がある語彙の総数を表す。サンプル集合の各サンプルは、コンテンツの特徴ベクトルxと、所属するカテゴリのラベルyとを含む。
また、入力部10は、入力された、後述する各種パラメータ(ハイパーパラメータベクトルηと、カテゴリの事前確率P(y)、正誤の事前確率P(z)と、n番目のサンプルのカテゴリynが誤っている場合のクラス条件付確率P(y|x, z0))を受け付ける。
演算部20は、サンプルデータベース21、確率モデル生成部22、記憶部23、及び誤分類サンプル検出部24を備えている。
サンプルデータベース21は、入力部10により受け付けたサンプル集合を記憶する。ここで、誤分類検出対象のサンプル集合を、D={(xn, yn)}N n=1とする。
確率モデル生成部22は、誤分類検出対象のサンプル集合D={(xn, yn)}N n=1に対して、同時確率モデルp(x, y; θy)のパラメータΘ=[θ1, . . . , θk, . . . , θK]の一点交差検定法に基づく推定値{^Θ−n}N n=1を計算する。計算された確率モデルのパラメータの推定値{^Θ−n}N n=1は、記憶部23に記憶される。
ここで、nは誤分類検出対象のサンプル集合に含まれるサンプルのID番号を表し、xnはn番目のサンプルの特徴ベクトル、y∈{1, . . . , k, . . . ,K} はサンプルが属するカテゴリを表す。^Θ−nはn番目のサンプル(xn,yn)をサンプル集合Dから除外して得られるサブ集合D−n={(xn', yn')}n'≠nを用いて計算される確率モデルのパラメータの推定値であり、pは確率密度を表す。
誤分類サンプル検出部24は、同時確率モデルのパラメータの推定値^Θ−nを用いて各サンプルの予測クラス事後確率P(yn|xn;^Θ−n)=p(xn,yn;^θyn,−n)/ΣK k=1p(xn,k;^θk,−n)を計算し、その予測クラス事後確率が小さいサンプルを誤ったカテゴリに分類された疑いがあるサンプルとして検出する。あるいは、誤分類サンプル検出部24は、サンプルが分類されているカテゴリyn以外のカテゴリy≠ynに対する予測事後確率の最大値と予測クラス事後確率との比Rn=P(yn|xn; ^Θ−n)/maxy≠ynP(y|xn;^Θ−n)を計算し、Rnが小さいサンプルを検出しても良い。ここで、Pは確率値を表す。
出力部30は、誤分類サンプルの検出結果をユーザに対して出力する。
図2に示すように、確率モデル生成部22は、正誤予測確率計算部31と、重み計算部32と、第1収束判定部33と、第2収束判定部34と、パラメータ計算部35と、を備える。
正誤予測確率計算部31は、サンプルデータベース21に記憶されたサンプル集合D={(xn,yn)}N n=1を読み込んで、重みパラメータ行列の初期値W(0)、もしくは第2収束判定部34から入力される収束途中の重みパラメータ行列W(t)と、ハイパーパラメータベクトルηと、カテゴリの事前確率P(y)と、正誤の事前確率P(z)と、n番目のサンプルのカテゴリynが誤っている場合のクラス条件付確率P(y|x, z0) と、を用いて、各サンプルnの正誤予測確率P(z|xn,yn;^Θ(t) −n)を計算する。ここで、z∈{z1,z0}はサンプルのコンテンツxが分類されているカテゴリyが正しいか否かを表す潜在変数であり、z=z1の場合は正しく分類されていることを意味し、z=z0の場合は誤って分類されていることを意味する。重みパラメータ行列Wは、n番目のサンプルが正しく分類されている可能性が高いほど大きな値が与えられる重みw1nを要素とする重みベクトルw1=(w11, ... ,w1n, ... ,w1N)Tと、n番目のサンプルが誤って分類されている可能性が高いほど大きな値が与えられる重みw0nを要素とする重みベクトルw0=(w01, . . . ,w0n, . . . ,w0N)Tと、から成る行列W=[w1,w0]である。aTはaの転置ベクトルを表す。
重み計算部32は、重みパラメータ行列の初期値W(0)、もしくは第2収束判定部34から入力される収束途中の重みパラメータ行列W(t)、もしくは第1収束判定部33から入力される収束途中の重みパラメータ行列W(s)と、各サンプルnの正誤予測確率P(z|xn,yn;^Θ(t) −n)と、を用いて重みパラメータ行列の更新値W(s+1)を計算する。
第1収束判定部33は、重みパラメータ行列の変化量d(s)を計算し、収束条件d(s)<εsを満たせば、W(t+1)←W(s+1)として重みパラメータ行列の推定値W(t+1)を第2収束判定部34に出力する。収束条件を満たさなければ、パラメータの学習のステップをs←s+1のように更新して、重み計算部32の処理を再度実施する。この処理は収束条件を満たすか、sが所定の回数smaxに到達するまで繰り返される。
第2収束判定部34は、重みパラメータ行列の変化量d(t)を計算し、収束条件d(t)<εを満たせば、^W←W(t+1)として、重みパラメータ行列の推定値^Wを出力する。収束条件を満たさなければ、パラメータの学習のステップをt←t+1のように更新して、正誤予測確率計算部31、重み計算部32、及び第1収束判定部33による一連の処理を再度実施する。この処理は収束条件を満たすか、tが所定の回数tmaxに到達するまで繰り返される。
パラメータ計算部35は、重みパラメータ行列の推定値^Wを用いて、確率モデルの一点除外交差検定法に基づく推定値{^Θ−n}N n=1を計算して出力する。
ここで、本実施の形態における確率モデルについて説明する。以下では、確率モデルp(x,y;θy)に、多項分布に基づくNaive Bayesモデル(以下、NB モデル)を用いる場合を例に説明する。
多項分布に基づくNBモデルでは、コンテンツが正しいカテゴリに分類されている場合に、カテゴリyと特徴ベクトルxの同時確率モデルp(x,y;θy)=p(x|y;θy)P(y)のp(x|y;θy)を、カテゴリyにおけるそれぞれの特徴tiの出現確率θyiが独立であると仮定して、以下の(1)式で定義する。
Figure 0005684084
ここで、θy=(θy1, . . . ,θyi, . . . ,θyV)Tであり、θyi>0かつ||θy||1V i=1θyi=1である。また、Θ=[θ1, . . . ,θk, . . . ,θK]TはNBモデルのパラメータ行列を表す。P(y)>0はカテゴリyの出現確率を表し、ΣK k=1P(k)=1を満たす。
また、本実施の形態では、誤ったカテゴリに分類されたサンプルの特徴ベクトルxの確率モデルを、それぞれの特徴tiの出現確率θz0iが独立であると仮定して、以下の(2)式で定義する。
Figure 0005684084
ここで、θz0=(θz01, . . . ,θz0i, . . . , θz0V)Tであり、θz0i>0かつ||θz0||1V i=1θz0i=1である。
<誤分類検出装置の作用>
次に、第1の実施の形態に係る誤分類検出装置100の作用について説明する。まず、所属するクラスがラベル付けされたコンテンツを含むサンプルの集合が誤分類検出装置100に入力されると、誤分類検出装置100によって、入力されたサンプル集合が、サンプルデータベース21へ格納される。また、各種パラメータ(ハイパーパラメータベクトルηと、カテゴリの事前確率P(y)と、正誤の事前確率P(z)と、n番目のサンプルのカテゴリynが誤っている場合のクラス条件付確率P(y|x, z0)))が、誤分類検出装置100に入力されると、誤分類検出装置100によって、図3に示す誤分類検出処理ルーチンが実行される。
まず、ステップS101において、確率モデル生成部22によって、サンプルデータベース21から、誤分類検出対象のサンプル集合D={(xn,yn)}N n=1を読み込んで、各サンプルnについて、確率モデルのパラメータの一点除外交差検定法に基づく推定値^Θ−nの計算を行う。^Θ−nの各要素は、入力された重みパラメータ行列W(0)または計算された重みパラメータ行列W(t)の要素である重みパラメータベクトルw1と、入力されたハイパーパラメータ値ηy,∀yを用いて、以下の(3)式で計算される。
Figure 0005684084
ここで、Iy(yn')は、yn'=yの場合にIy(yn')=1とし、yn'≠yの場合にIy(yn')=0とする指示関数である。||xn'||1はxn'のL1ノルムを表す。
同様に、誤ったカテゴリに分類されたサンプルの特徴ベクトルxの確率モデルp(x|z0z0)のパラメータの、一点除外交差検定法に基づく推定値^θz0,−nの各要素を、入力された重みパラメータ行列W(0)または計算された重みパラメータ行列W(t)の要素である、重みパラメータベクトルw0と、入力されたハイパーパラメータ値ηz0とを用いて、以下の(4)式に従って計算する。
Figure 0005684084
ハイパーパラメータベクトルη=(η1, . . . ,ηk, . . . ,ηKz0)は、パラメータ計算のために事前に設定された定数値である。
ここで、確率モデルのパラメータの一点除外交差検定法に基づく推定値^Θ−nを計算する原理について説明する。
本実施の形態では、重みパラメータ行列Wの値を、サンプル集合Dに対する同時確率モデルp(x, y)の、一点除外交差検定法に基づく予測尤度の最大化により与える。サンプル集合の中には誤ったカテゴリに分類されたサンプルも含まれるため、コンテンツの特徴ベクトルxと、カテゴリyと、正誤を表す潜在変数z∈{z1,z0}との同時確率モデルp(x,y,z)=p(x,y|z)P(z)を用いて、同時確率モデルp(x,y)=Σ1 j=0p(x,y|zj)P(zj)を設計する。サンプルのクラスが正しい場合(z=z1)のp(x,y|z1)を以下の(5)式で与える。
Figure 0005684084
また、サンプルのクラスが誤りである場合(z=z0)のp(x,y|z0)を、以下の(6)式で与える。
Figure 0005684084
このとき、重みパラメータ行列Wの値は、以下の(7)式に示す目的関数の最大化により与えられる。
Figure 0005684084
なお、上記(7)式のL(W)は、一点除外交差検定法に基づく同時確率モデルp(xn、yn)の予測尤度に対応している。
上記(7)式に示す目的関数を最大化させるWの値は、期待値最大化(EM)アルゴリズムのような繰り返し計算を二重に行うことによって求めることができる。なお、EMアルゴリズムについては、参考文献(A. P. Dempster, N. M.Laird, and D. B. Rubin: Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39, 1−38 (1977))に記載されているため、詳細な説明を省略する。
Wの学習ステップ(t)での推定値をW(t)とするとき、log b≦b−1よりL(W)−L(W(t))≧Q(W,W(t))−Q(W(t),W(t))を満たすQ関数を以下の(8)式で与えることができる。
Figure 0005684084
上記(8)式に示すQ関数は、一点除外交差検定法に基づく各サンプルの対数尤度を、上記正誤予測確率で重み付けして加算することにより与えられる。
学習ステップ(t+1)でQ(W,W(t))を最大化させる値を推定値W(t+1)として繰り返し計算することでL(W)を局所的に最大化させるWを求めることができる。
そして、最終的に求められた重みパラメータ行列の推定値^Wに基づいて、上記(3)式に従って、確率モデルのパラメータの一点除外交差検定法に基づく推定値{^Θ−n}N n=1を計算する。
上記ステップS101の処理は、図4に示す確率モデル生成処理ルーチンによって実現される。
ステップS111において、正誤予測確率計算部31によって、各サンプルnに対して、以下のように、上記(9)式、(10)式で与えられるP(z|xn,yn;^Θ(t) −n)を計算する。
まず、入力された重みパラメータ行列の推定値W(t)を上記(3)式及び(4)式に代入して得られるパラメータ値を^Θ(t) −n=[^θ(t) 1,−n, ... , ^θ(t) k,−n, ... , ^θ(t) K,−n, ^θ(t) z0,−n]とする。つぎに、その値を上記(1)式のθyと上記(2)式のθz0に代入することで、p(xn|yn;^θ yn,−n(w(t) 1)) とp(xn;^θz0,−n(w(t) 0 ))の値を得る。さらに、その値を、上記(9)式と(10)式に代入して計算することでP(z|xn,yn;^Θ(t) −n)を得る。すなわち、正誤予測確率計算部31は、正しいカテゴリに分類されているサンプルに対して設計した同時確率モデルと、誤分類サンプルに対して設計した同時確率モデルと、を用いて正誤予測確率を計算する。上記(9)式と(10)式に含まれる事前確率P(y),P(z)と、クラス条件付確率P(y|x, z0)は、未知パラメータとして値を推定することも可能であるが、パラメータ計算アルゴリズムの簡略化と、これらのパラメータ値の調節によって精度向上を図るために、本実施の形態では、外部より与えるパラメータ値とする。
また、Q(W,W(t))を最大化させるWの値は、Wの学習ステップ(s)での推定値をW(s)とするとき、log ≦b−1よりQ(W,W(t))−Q(W(s),W(t))≧Q'(W,W(s)|W(t))−Q'(W(s),W(s)|W(t))を満たすQ関数を以下の(11)式で与えることができる。
Figure 0005684084
したがって、学習ステップ(s+1)でQ'(W,W(s)|W(t))を最大化させる値を推定値W(s+1)として繰り返し計算することでQ(W,W(t))をW(t)の近傍で局所的に最大化させるWを求めることができる。
ステップS112では、重み計算部32によって、Q'(W,W(s)|W(t))を最大化させるWの解W(s+1)を、以下の(14)式、(15)式に従って計算する。
Figure 0005684084
学習ステップ(s+1)における重みパラメータ行列W(s+1)を計算した後、ステップS113において、第1収束判定部33によって、例えば以下の(16)式で与える収束条件を満たすか否かを判定する。
Figure 0005684084
ここで、||w(s)j||2はベクトルw(s) jのL2ノルムを表す。εsは設計者が与える微小な値である。上記ステップS113で収束条件を満たすと判定された場合は、W(s+1)をW(t+1)として、ステップS114へ進む。一方、収束条件を満たさないと判定された場合は、s←s+1として、上記ステップS112からステップS113までの処理を繰り返す。
学習ステップ(t+1)における重みパラメータ行列W(t+1)を計算したあと、ステップS114において、第2収束判定部34によって、例えば以下の(17)式で与える収束条件を満たすか否かを判定する。
Figure 0005684084
ここで、εtは設計者が与える微小な値である。上記ステップS114で収束条件を満たすと判定された場合は、W(t+1)を重みパラメータ行列の推定値^W としてステップS115へ進む。一方、収束条件を満たさない場合は、t←t+1として、上記ステップS111からステップS114までの処理を繰り返す。
ステップS115では、パラメータ計算部35によって、重みパラメータ行列の推定値^Wを上記(3)式に代入して、サンプルnごとに確率モデルの一点除外交差検定法に基づくパラメータの推定値^Θ-nを計算して、記憶部23に格納し、確率モデル生成処理ルーチンを終了する。
以上説明したパラメータ計算アルゴリズムを整理して書くと下記のようになる。
手順1:各種パラメータの設定。
1. ハイパーパラメータηと、事前確率P(y),P(z)と、クラス条件付確率P(y|x, z0)とを所定値として外部から設定。
2. 収束条件のパラメータεtsと、最大繰り返し計算数tmax,smaxの値を設定。
手順2;学習ステップtと重みパラメータ行列の初期値を設定。
1. tに0を代入。
2. 重みパラメータ行列の値W(t)を設定。
手順3:重みパラメータ行列の推定値^Wを計算。
1. W(t)を用いて、上記(1)式〜(4)式、(9)式、(10)式により、サンプルnごとに、サンプルの正誤予測確率P(z|xn,yn;^Θ(t) −n)を計算(ステップS111、図4)。
2. sに0を代入。W(s)にW(t)を代入。
3. Q(W,W(t))を最大化させる重みパラメータ行列の値W(t+1)を計算。
(a) W(s)を用いて、上記(12)式〜(15)式によりW(s+1)を計算(ステップS112、図4)。
(b) 上記(16)式を用いて収束判定処理を実行(ステップS113、図4)。
4. 上記(17)式を用いて収束判定処理を実行(ステップS114、図4)。
手順4:収束した重みパラメータ行列の推定値^Wを上記(3)式に代入して、サンプルnごとに一点除外交差検定法に基づく確率モデルのパラメータの推定値^Θ-nを計算(ステップS115、図4)。
手順5:パラメータの推定値{^Θ−n}N n=1を誤分類サンプル検出部24に出力。
そして、誤分類検出処理ルーチンのステップS102では、誤分類サンプル検出部24によって、同時確率モデルのパラメータの推定値^Θ−nを用いて各サンプルnの予測クラス事後確率P(yn|xn;^Θ−n)=p(xn|yn;^θyn,−n)P(yn)/ΣK k=1p(xn|k;^θk,−n)P(k)を計算し、その予測クラス事後確率が閾値以下となるサンプルを誤ったカテゴリに分類された疑いがあるサンプルとして検出する。あるいは、誤分類サンプル検出部24によって、サンプルが分類されているカテゴリyn以外のカテゴリy≠ynに対する予測事後確率の最大値と予測クラス事後確率の比Rn=P(yn|xn;^Θ−n)/maxy≠ynP(y|xn;^Θ−n)を計算し、Rnが閾値以下となるサンプルを検出しても良い。
上記ステップS102の処理は、一般的な並び換えを行うアルゴリズムで簡単に実現することが可能であるので、これ以上の説明は省略する。
以上説明したように、第1の実施の形態に係る誤分類検出装置によれば、同時確率モデルp(xn、yn)のパラメータ値Θを、一点除外交差検定法に基づく同時確率モデルp(xn、yn)の予測尤度を最大化させるように、サンプルnごとに設定した重みを用いて計算し、同時確率モデルp(xn、yn)のパラメータ値Θに基づいて計算される各サンプルnの予測クラス事後確率P(yn|xn)を用いて、誤分類サンプルを検出することにより、検出に利用する統計的分類器の学習に、誤分類されたサンプルが与える悪影響を抑制して、カテゴリが複数ある一般的な分類問題で誤分類されたサンプルを検出することができる。
訓練データ集合に含まれる各サンプルに重みを与え、その重み付き訓練データ集合を用いて確率モデルに基づく統計的分類器のパラメータ値Θを学習させることで、訓練データ集合に含まれる誤分類されたサンプルが確率モデルの学習に与える悪影響を低減させることを可能にする。また、訓練データ集合に含まれる各サンプルに与えられた重みを、一点交差検定法に基づいて得られる確率モデルの尤度を最大化させるように設定することで、誤分類されたサンプルが正確に分類されたサンプルより少ない場合に、誤分類されたサンプルより正確に分類されたサンプルのカテゴリに高い予測確率を与える確率モデルを得る。この効果によって、カテゴリの予測確率を用いて誤分類されたサンプルの検出を行う装置の性能が高まる。
〔第2の実施の形態〕
<システム構成>
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、正誤予測確率計算部と第2収束判定部が省略されている点が、第1の実施の形態と異なっている。
図5に示すように、第2の実施の形態に係る誤分類検出装置の確率モデル生成部222は、重み計算部232と、第1収束判定部233と、パラメータ計算部35とを備えている。
重み計算部232は、重みパラメータ行列の初期値W(0)、もしくは第1収束判定部233から入力される収束途中の重みパラメータ行列W(s)を用いて重みパラメータ行列の更新値W(s+1)を計算する。
第1収束判定部233は、重みパラメータ行列の変化量d(s)を計算し、収束条件d(s)<εsを満たせば、^W←W(s+1)として重みパラメータ行列の推定値^Wを出力する。収束条件を満たさなければ、パラメータの学習のステップをs←s+1のように更新して、重み計算部232の処理を再度実施する。この処理は収束条件を満たすか、sが所定の回数smaxに到達するまで繰り返される。
ここで、確率モデルのパラメータの一点除外交差検定法に基づく推定値^Θ−nを計算する原理について説明する。
本実施の形態では、コンテンツの特徴ベクトルxと、カテゴリyと、正誤を表す潜在変数z∈{z1,z0}との同時確率モデルp(x,y,z)=p(x,y|z)P(z)に対して、P(z1)=1、P(z0)=0とする。
重みパラメータ行列Wの値は、以下の(18)式に示す目的関数の最大化により与えられる。なお、P(z0)=0としているため、重みパラメータ行列Wのうち、重みベクトルw0=(w01, . . . ,w0n, . . . ,w0N)Tは計算されない。
Figure 0005684084
上記(18)式に示す目的関数を最大化させるWの値は、上記の第1の実施の形態と同様に、期待値最大化(EM)アルゴリズムのような繰り返し計算を行うことによって求めることができる。
Wの学習ステップ(s)での推定値をW(s)とするとき、log b≦b−1よりL(W)−L(W(s))≧Q(W,W(s))−Q(W(s),W(s))を満たすQ関数を以下の(19)式で与えることができる。
Figure 0005684084
以上のように、重みパラメータ行列Wの値は、一点除外交差検定法に基づく各サンプルの対数尤度の和の最大化により与えられる。なお、上記(18)式のL(W)は、一点除外交差検定法に基づく各サンプルnの対数尤度の和に対応している。
そして、最終的に求められた重みパラメータ行列の推定値^Wに基づいて、上記(3)式に従って、確率モデルの一点除外交差検定法に基づく推定値{^Θ−n}N n=1を計算する。
<誤分類検出装置の作用>
まず、所属するクラスがラベル付けされたコンテンツを含むサンプルの集合が誤分類検出装置100に入力されると、誤分類検出装置100によって、入力されたサンプル集合が、サンプルデータベース21へ格納される。また、ハイパーパラメータベクトルηが、誤分類検出装置100に入力されると、誤分類検出装置100によって、上記第1の実施の形態と同様に、誤分類検出処理ルーチンが実行される。
また、第2の実施の形態に係る確率モデル生成処理ルーチンについて、図6を用いて説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
まず、ステップS211において、重み計算部232によって、上記(19)式のQ関数を最大化させるWの解W(s+1)を計算する。
学習ステップ(s+1)における重みパラメータ行列W(s+1)を計算した後、ステップS212において、第1収束判定部233によって、上記(16)式で与える収束条件を満たすか否かを判定する。
上記ステップS212で収束条件を満たすと判定された場合は、W(s+1)を^Wとして、ステップS115へ進む。一方、収束条件を満たさないと判定された場合は、s←s+1として、上記ステップS211の処理を繰り返す。
ステップS115では、重みパラメータ行列の推定値^W を上記(3)式に代入して、サンプルnごとに確率モデルの一点除外交差検定法に基づくパラメータの推定値^Θ-nを計算して、記憶部23に格納し、確率モデル生成処理ルーチンを終了する。
なお、第2の実施の形態に係る誤分類検出装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
上記で計算される確率モデルのパラメータの推定値^Θ−nは、上記の第1の実施の形態において、正誤の事前確率P(z)を、P(z1)=1,P(z0)=0に設定する場合に計算される確率モデルのパラメータの推定値^Θ−nと一致する。このように、確率モデル生成部を簡略化して設計することができる。
〔実施例〕
次に、上記の実施の形態に係る手法を適用して実験を行った結果について説明する。
上位カテゴリとしてコンピュータに属する文書データを,5つのサブカテゴリのいずれかに分類する問題で、誤ったサブカテゴリに分類された文書データを検出する評価実験を行った。テキスト分類問題で性能評価に良く用いられるデータベース20 newsgroups(20News、参考文献(K. Nigam, A. McCallum, S. Thrun, and T. Mitchell: Text classification from labeled and unlabeled documents using EM. Machine Learning, Vol. 39, pp. 103−134, 2000.)参照) を用いた。
評価用データセットを作成するため、1000個のサンプルを5つのサブカテゴリに属する文書データの中から無作為に抽出した。そして1000個のサンプルの中からrm%のサンプルを無作為に選択し、文書データが属するサブカテゴリを別の4つのサブカテゴリのいずれかに無作為に変更することで誤分類サンプルを作成した。この操作によって得られた誤分類サンプルを含むデータセットを誤分類検出対象のサンプル集合として性能評価に用いた。性能評価の尺度には、情報検索タスクなどでサンプルの順位付けの良さを測るのによく利用される平均適合率(AP, Average Precision) を用いた。平均適合率は、誤分類サンプルの総数をMとするとき、以下の(20)式で計算される。
Figure 0005684084
平均適合率は、値が大きいほどサンプルの順位付けの性能が高いことを示す。
表1に、上記第1の実施の形態で説明した確率モデル生成部22をもつ本発明に係わる装置でP(z1)=0.5とした場合(方法1)に得られた平均適合率と、上記第2の実施の形態で説明した確率モデル生成部222をもつ本発明に係わる装置(方法2)で得られた平均適合率と、重みパラメータ行列を導入せずに単純に一点除外交差検定法をNBモデルに適用(方法3)して得られた平均適合率の結果を示す。
Figure 0005684084
実験では、各方法で得られたパラメータの推定値{^Θ−n}N n=1を用いてRn=P(yn|xn;^Θ−n)/maxy-≠yn P(y|xn;^Θ−n)を計算し、その値が小さい順に誤分類が疑われるサンプルとして検出した。上記表1より、rmの値を変えて行った実験のすべての場合で、方法1、方法2で得られた平均適合率が、方法3で得られた平均適合率を上回った。以上の結果より、誤って分類されている危険性が高い順にサンプルを検出するのに、本発明に係わる装置は効果があることが分かった。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
22、222 確率モデル生成部
24 誤分類サンプル検出部
30 出力部
31 正誤予測確率計算部
32、232 重み計算部
33 第1収束判定部
34 第2収束判定部
35 パラメータ計算部
100 誤分類検出装置
233 収束判定部

Claims (7)

  1. 誤ったカテゴリに分類されたコンテンツである誤分類サンプルを含む、コンテンツの属するカテゴリが既知のサンプル集合の中から、誤分類サンプルを検出する誤分類検出装置であって、
    ンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算する確率モデル生成手段と、
    前記確率モデル生成手段によって計算された前記同時確率モデルp(x;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出する誤分類サンプル検出手段と、
    を含み、
    前記確率モデル生成手段は、
    誤って分類されているサンプルnに大きな値を設定すべき重みw 0n 及び正しく分類されているサンプルnに大きな値を設定すべき重みw 1n を規定する重みパラメータ行列の推定値^Wに基づいて求められる、一点除外交差検定法に基づくパラメータΘの推定値^Θ -n を用いて、各サンプルnが正しく分類されているか否かを表す潜在変数zの予測を与える正誤予測確率P(z|x n 、y n ;Θ -n )を計算する正誤予測確率計算手段と、
    前記正誤予測確率計算手段によって計算された前記正誤予測確率P(z|x n 、y n ;^Θ -n )を用いて、前記重みパラメータ行列の推定値^Wを計算する重み計算手段と、
    前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記正誤予測確率計算手段による計算及び前記重み計算手段による計算の繰り返し処理を行う収束判定手段と、
    前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x、y;Θ)のパラメータΘの一点除外交差検定法に基づく推定値^Θ -n を計算するパラメータ計算手段と、
    を含む誤分類検出装置。
  2. 誤ったカテゴリに分類されたコンテンツである誤分類サンプルを含む、コンテンツの属するカテゴリが既知のサンプル集合の中から、誤分類サンプルを検出する誤分類検出装置であって、
    ンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算する確率モデル生成手段と、
    前記確率モデル生成手段によって計算された前記同時確率モデルp(x;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出する誤分類サンプル検出手段と、
    を含み、
    前記確率モデル生成手段は、
    一点除外交差検定法に基づく各サンプルnの対数尤度の和を最大化させるように、正しく分類されているサンプルnに大きな値を設定すべき重みw1nを規定する重みパラメータ行列の推定値^Wを計算する重み計算手段と、
    前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記重み計算手段による計算の繰り返し処理を行う収束判定手段と、
    前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x;Θ)のパラメータΘ一点除外交差検定法に基づく推定値^Θ-nを計算するパラメータ計算手段と、
    を含む誤分類検出装置。
  3. 前記同時確率モデルp(x、y;Θ)=p(x|y;Θ)P(y)のp(x|y;Θ)を、パラメータがΘで表されるNaive Bayesモデルで与える請求項1又は2記載の誤分類検出装置。
  4. 誤ったカテゴリに分類されたコンテンツである誤分類サンプルを含む、コンテンツの属するカテゴリが既知のサンプル集合の中から、誤分類サンプルを検出する誤分類検出方法であって、
    確率モデル生成手段によって、ンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算するステップと、
    誤分類サンプル検出手段によって、前記確率モデル生成手段によって計算された前記同時確率モデルp(x;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出するステップと、
    を含み、
    前記同時確率モデルp(x n 、y n )のパラメータ値Θを計算するステップは、
    正誤予測確率計算手段によって、誤って分類されているサンプルnに大きな値を設定すべき重みw 0n 及び正しく分類されているサンプルnに大きな値を設定すべき重みw 1n を規定する重みパラメータ行列の推定値^Wに基づいて求められる、一点除外交差検定法に基づくパラメータΘの推定値^Θ -n を用いて、各サンプルnが正しく分類されているか否かを表す潜在変数zの予測を与える正誤予測確率P(z|x n 、y n ;Θ -n )を計算するステップと、
    重み計算手段によって、前記正誤予測確率計算手段によって計算された前記正誤予測確率P(z|x n 、y n ;^Θ -n )を用いて、前記重みパラメータ行列の推定値^Wを計算するステップと、
    収束判定手段によって、前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記正誤予測確率計算手段による計算及び前記重み計算手段による計算の繰り返し処理を行うステップと、
    パラメータ計算手段によって、前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x、y;Θ)のパラメータΘの一点除外交差検定法に基づく推定値^Θ -n を計算するステップと、
    を含むことを特徴とする誤分類検出方法。
  5. 誤ったカテゴリに分類されたコンテンツである誤分類サンプルを含む、コンテンツの属するカテゴリが既知のサンプル集合の中から、誤分類サンプルを検出する誤分類検出方法であって、
    確率モデル生成手段によって、ンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算するステップと、
    誤分類サンプル検出手段によって、前記確率モデル生成手段によって計算された前記同時確率モデルp(x;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出するステップと、
    を含み、
    前記同時確率モデルp(xn、yn)のパラメータ値Θを計算するステップは、
    重み計算手段によって、一点除外交差検定法に基づく各サンプルnの対数尤度の和を最大化させるように、正しく分類されているサンプルnに大きな値を設定すべき重みw1nを規定する重みパラメータ行列の推定値^Wを計算するステップと、
    収束判定手段によって、前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記重み計算手段による計算の繰り返し処理を行うステップと、
    パラメータ計算手段によって、前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x;Θ)のパラメータΘ一点除外交差検定法に基づく推定値^Θ-nを計算するステップと、
    を含誤分類検出方法。
  6. 前記同時確率モデルp(x、y;Θ)=p(x|y;Θ)P(y)のp(x|y;Θ)を、パラメータがΘで表されるNaive Bayesモデルで与える請求項4又は5記載の誤分類検出方法。
  7. コンピュータを、請求項1〜請求項3の何れか1項記載の誤分類検出装置の各手段として機能させるためのプログラム。
JP2011220337A 2011-10-04 2011-10-04 誤分類検出装置、方法、及びプログラム Active JP5684084B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011220337A JP5684084B2 (ja) 2011-10-04 2011-10-04 誤分類検出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011220337A JP5684084B2 (ja) 2011-10-04 2011-10-04 誤分類検出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013080395A JP2013080395A (ja) 2013-05-02
JP5684084B2 true JP5684084B2 (ja) 2015-03-11

Family

ID=48526712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011220337A Active JP5684084B2 (ja) 2011-10-04 2011-10-04 誤分類検出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5684084B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6099099B2 (ja) * 2014-02-28 2017-03-22 日本電信電話株式会社 収束判定装置、方法、及びプログラム
JP6173972B2 (ja) * 2014-06-10 2017-08-02 株式会社東芝 検出装置、修正システム、検出方法およびプログラム
JP6377050B2 (ja) * 2015-12-18 2018-08-22 ヤフー株式会社 学習装置、学習方法および学習プログラム
CN112633351A (zh) * 2020-12-17 2021-04-09 博彦多彩数据科技有限公司 检测方法、装置、存储介质及处理器
CN117313899B (zh) * 2023-11-23 2024-02-23 全芯智造技术有限公司 用于数据处理的方法、设备和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4963341B2 (ja) * 2004-06-16 2012-06-27 日本電信電話株式会社 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体
JP4460417B2 (ja) * 2004-10-08 2010-05-12 日本電信電話株式会社 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置
JP2006185099A (ja) * 2004-12-27 2006-07-13 Toshiba Corp 確率モデル作成方法
JP4490876B2 (ja) * 2005-06-01 2010-06-30 日本電信電話株式会社 コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体
US7711747B2 (en) * 2007-04-06 2010-05-04 Xerox Corporation Interactive cleaning for automatic document clustering and categorization

Also Published As

Publication number Publication date
JP2013080395A (ja) 2013-05-02

Similar Documents

Publication Publication Date Title
Gambella et al. Optimization problems for machine learning: A survey
US11636389B2 (en) System and method for improving machine learning models by detecting and removing inaccurate training data
Li et al. Confidence-based active learning
Raza et al. A comparative analysis of machine learning models for quality pillar assessment of SaaS services by multi-class text classification of users’ reviews
JP6498107B2 (ja) 分類装置、方法、及びプログラム
JP6482481B2 (ja) 2値分類学習装置、2値分類装置、方法、及びプログラム
US9249287B2 (en) Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns
JP5684084B2 (ja) 誤分類検出装置、方法、及びプログラム
US7949622B2 (en) System and method for generating a classifier model for classifying web content
Bohdal et al. Meta-calibration: Learning of model calibration using differentiable expected calibration error
CN111950580A (zh) 使用平衡训练集的分类器的预测准确性
Koropoulis et al. Detecting positive selection in populations using genetic data
Fujino et al. A semi-supervised AUC optimization method with generative models
JP5905375B2 (ja) 誤分類検出装置、方法、及びプログラム
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
Posocco et al. Estimating expected calibration errors
Cacciarelli et al. A survey on online active learning
Cacciarelli et al. Active learning for data streams: a survey
Lo Early software reliability prediction based on support vector machines with genetic algorithms
Carbonero-Ruz et al. A two dimensional accuracy-based measure for classification performance
Shathi et al. Enhancing Performance of naïve bayes in text classification by introducing an extra weight using less number of training examples
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
Nashaat et al. Semi-supervised ensemble learning for dealing with inaccurate and incomplete supervision
CN114424212A (zh) 基于距离的学习置信度模型
Bootkrajang et al. Learning a label-noise robust logistic regression: Analysis and experiments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150114

R150 Certificate of patent or registration of utility model

Ref document number: 5684084

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150