JP5684084B2 - 誤分類検出装置、方法、及びプログラム - Google Patents
誤分類検出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5684084B2 JP5684084B2 JP2011220337A JP2011220337A JP5684084B2 JP 5684084 B2 JP5684084 B2 JP 5684084B2 JP 2011220337 A JP2011220337 A JP 2011220337A JP 2011220337 A JP2011220337 A JP 2011220337A JP 5684084 B2 JP5684084 B2 JP 5684084B2
- Authority
- JP
- Japan
- Prior art keywords
- sample
- weight
- probability model
- estimated value
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
コンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x、y;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x、y;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算する確率モデル生成手段と、
前記確率モデル生成手段によって計算された前記同時確率モデルp(x、y;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出する誤分類サンプル検出手段と、
を含み、
前記確率モデル生成手段は、
誤って分類されているサンプルnに大きな値を設定すべき重みw 0n 及び正しく分類されているサンプルnに大きな値を設定すべき重みw 1n を規定する重みパラメータ行列の推定値^Wに基づいて求められる、一点除外交差検定法に基づくパラメータΘの推定値^Θ -n を用いて、各サンプルnが正しく分類されているか否かを表す潜在変数zの予測を与える正誤予測確率P(z|x n 、y n ;Θ -n )を計算する正誤予測確率計算手段と、
前記正誤予測確率計算手段によって計算された前記正誤予測確率P(z|x n 、y n ;^Θ -n )を用いて、前記重みパラメータ行列の推定値^Wを計算する重み計算手段と、
前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記正誤予測確率計算手段による計算及び前記重み計算手段による計算の繰り返し処理を行う収束判定手段と、
前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x、y;Θ)のパラメータΘの一点除外交差検定法に基づく推定値^Θ -n を計算するパラメータ計算手段と、を含んで構成されている。
確率モデル生成手段によって、コンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x、y;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x、y;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算するステップと、
誤分類サンプル検出手段によって、前記確率モデル生成手段によって計算された前記同時確率モデルp(x、y;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出するステップと、
を含み、
前記同時確率モデルp(x n 、y n )のパラメータ値Θを計算するステップは、
正誤予測確率計算手段によって、誤って分類されているサンプルnに大きな値を設定すべき重みw 0n 及び正しく分類されているサンプルnに大きな値を設定すべき重みw 1n を規定する重みパラメータ行列の推定値^Wに基づいて求められる、一点除外交差検定法に基づくパラメータΘの推定値^Θ -n を用いて、各サンプルnが正しく分類されているか否かを表す潜在変数zの予測を与える正誤予測確率P(z|x n 、y n ;Θ -n )を計算するステップと、
重み計算手段によって、前記正誤予測確率計算手段によって計算された前記正誤予測確率P(z|x n 、y n ;^Θ -n )を用いて、前記重みパラメータ行列の推定値^Wを計算するステップと、
収束判定手段によって、前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記正誤予測確率計算手段による計算及び前記重み計算手段による計算の繰り返し処理を行うステップと、
パラメータ計算手段によって、前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x、y;Θ)のパラメータΘの一点除外交差検定法に基づく推定値^Θ -n を計算するステップと、
を含むことを特徴とする。
<システム構成>
本発明の第1の実施の形態に係る誤分類検出装置100は、所属するカテゴリのラベルが付与されたコンテンツを含むサンプルの集合が入力され、入力されたサンプルの集合の中から、誤ったカテゴリのラベルが付与されているサンプルを検出して出力する。この誤分類検出装置100は、CPUと、RAMと、後述する誤分類検出処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、誤分類検出装置100は、入力部10と、演算部20と、出力部30とを備えている。
次に、第1の実施の形態に係る誤分類検出装置100の作用について説明する。まず、所属するクラスがラベル付けされたコンテンツを含むサンプルの集合が誤分類検出装置100に入力されると、誤分類検出装置100によって、入力されたサンプル集合が、サンプルデータベース21へ格納される。また、各種パラメータ(ハイパーパラメータベクトルηと、カテゴリの事前確率P(y)と、正誤の事前確率P(z)と、n番目のサンプルのカテゴリynが誤っている場合のクラス条件付確率P(y|x, z0)))が、誤分類検出装置100に入力されると、誤分類検出装置100によって、図3に示す誤分類検出処理ルーチンが実行される。
1. ハイパーパラメータηと、事前確率P(y),P(z)と、クラス条件付確率P(y|x, z0)とを所定値として外部から設定。
2. 収束条件のパラメータεt,εsと、最大繰り返し計算数tmax,smaxの値を設定。
1. tに0を代入。
2. 重みパラメータ行列の値W(t)を設定。
1. W(t)を用いて、上記(1)式〜(4)式、(9)式、(10)式により、サンプルnごとに、サンプルの正誤予測確率P(z|xn,yn;^Θ(t) −n)を計算(ステップS111、図4)。
2. sに0を代入。W(s)にW(t)を代入。
3. Q(W,W(t))を最大化させる重みパラメータ行列の値W(t+1)を計算。
(a) W(s)を用いて、上記(12)式〜(15)式によりW(s+1)を計算(ステップS112、図4)。
(b) 上記(16)式を用いて収束判定処理を実行(ステップS113、図4)。
4. 上記(17)式を用いて収束判定処理を実行(ステップS114、図4)。
<システム構成>
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
まず、所属するクラスがラベル付けされたコンテンツを含むサンプルの集合が誤分類検出装置100に入力されると、誤分類検出装置100によって、入力されたサンプル集合が、サンプルデータベース21へ格納される。また、ハイパーパラメータベクトルηが、誤分類検出装置100に入力されると、誤分類検出装置100によって、上記第1の実施の形態と同様に、誤分類検出処理ルーチンが実行される。
次に、上記の実施の形態に係る手法を適用して実験を行った結果について説明する。
20 演算部
22、222 確率モデル生成部
24 誤分類サンプル検出部
30 出力部
31 正誤予測確率計算部
32、232 重み計算部
33 第1収束判定部
34 第2収束判定部
35 パラメータ計算部
100 誤分類検出装置
233 収束判定部
Claims (7)
- 誤ったカテゴリに分類されたコンテンツである誤分類サンプルを含む、コンテンツの属するカテゴリが既知のサンプル集合の中から、誤分類サンプルを検出する誤分類検出装置であって、
コンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x、y;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x、y;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算する確率モデル生成手段と、
前記確率モデル生成手段によって計算された前記同時確率モデルp(x、y;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出する誤分類サンプル検出手段と、
を含み、
前記確率モデル生成手段は、
誤って分類されているサンプルnに大きな値を設定すべき重みw 0n 及び正しく分類されているサンプルnに大きな値を設定すべき重みw 1n を規定する重みパラメータ行列の推定値^Wに基づいて求められる、一点除外交差検定法に基づくパラメータΘの推定値^Θ -n を用いて、各サンプルnが正しく分類されているか否かを表す潜在変数zの予測を与える正誤予測確率P(z|x n 、y n ;Θ -n )を計算する正誤予測確率計算手段と、
前記正誤予測確率計算手段によって計算された前記正誤予測確率P(z|x n 、y n ;^Θ -n )を用いて、前記重みパラメータ行列の推定値^Wを計算する重み計算手段と、
前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記正誤予測確率計算手段による計算及び前記重み計算手段による計算の繰り返し処理を行う収束判定手段と、
前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x、y;Θ)のパラメータΘの一点除外交差検定法に基づく推定値^Θ -n を計算するパラメータ計算手段と、
を含む誤分類検出装置。 - 誤ったカテゴリに分類されたコンテンツである誤分類サンプルを含む、コンテンツの属するカテゴリが既知のサンプル集合の中から、誤分類サンプルを検出する誤分類検出装置であって、
コンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x、y;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x、y;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算する確率モデル生成手段と、
前記確率モデル生成手段によって計算された前記同時確率モデルp(x、y;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出する誤分類サンプル検出手段と、
を含み、
前記確率モデル生成手段は、
一点除外交差検定法に基づく各サンプルnの対数尤度の和を最大化させるように、正しく分類されているサンプルnに大きな値を設定すべき重みw1nを規定する重みパラメータ行列の推定値^Wを計算する重み計算手段と、
前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記重み計算手段による計算の繰り返し処理を行う収束判定手段と、
前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x、y;Θ)のパラメータΘの一点除外交差検定法に基づく推定値^Θ-nを計算するパラメータ計算手段と、
を含む誤分類検出装置。 - 前記同時確率モデルp(x、y;Θ)=p(x|y;Θ)P(y)のp(x|y;Θ)を、パラメータがΘで表されるNaive Bayesモデルで与える請求項1又は2記載の誤分類検出装置。
- 誤ったカテゴリに分類されたコンテンツである誤分類サンプルを含む、コンテンツの属するカテゴリが既知のサンプル集合の中から、誤分類サンプルを検出する誤分類検出方法であって、
確率モデル生成手段によって、コンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x、y;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x、y;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算するステップと、
誤分類サンプル検出手段によって、前記確率モデル生成手段によって計算された前記同時確率モデルp(x、y;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出するステップと、
を含み、
前記同時確率モデルp(x n 、y n )のパラメータ値Θを計算するステップは、
正誤予測確率計算手段によって、誤って分類されているサンプルnに大きな値を設定すべき重みw 0n 及び正しく分類されているサンプルnに大きな値を設定すべき重みw 1n を規定する重みパラメータ行列の推定値^Wに基づいて求められる、一点除外交差検定法に基づくパラメータΘの推定値^Θ -n を用いて、各サンプルnが正しく分類されているか否かを表す潜在変数zの予測を与える正誤予測確率P(z|x n 、y n ;Θ -n )を計算するステップと、
重み計算手段によって、前記正誤予測確率計算手段によって計算された前記正誤予測確率P(z|x n 、y n ;^Θ -n )を用いて、前記重みパラメータ行列の推定値^Wを計算するステップと、
収束判定手段によって、前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記正誤予測確率計算手段による計算及び前記重み計算手段による計算の繰り返し処理を行うステップと、
パラメータ計算手段によって、前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x、y;Θ)のパラメータΘの一点除外交差検定法に基づく推定値^Θ -n を計算するステップと、
を含むことを特徴とする誤分類検出方法。 - 誤ったカテゴリに分類されたコンテンツである誤分類サンプルを含む、コンテンツの属するカテゴリが既知のサンプル集合の中から、誤分類サンプルを検出する誤分類検出方法であって、
確率モデル生成手段によって、コンテンツxとカテゴリyで表わされるサンプルの同時確率モデルp(x、y;Θ)のパラメータΘの推定値^Θを、一点除外交差検定法に基づく前記同時確率モデルp(x、y;Θ)の予測尤度を最大化させるように、サンプルnごとに設定した重みwnを用いて計算するステップと、
誤分類サンプル検出手段によって、前記確率モデル生成手段によって計算された前記同時確率モデルp(x、y;Θ)のパラメータ値Θの推定値^Θに基づいて、各サンプルnについてコンテンツxnが分類されているカテゴリynの予測クラス事後確率P(yn|xn ;^Θ)を計算し、各サンプルnの予測クラス事後確率P(yn|xn ;^Θ)に基づいて、誤分類サンプルを検出するステップと、
を含み、
前記同時確率モデルp(xn、yn)のパラメータ値Θを計算するステップは、
重み計算手段によって、一点除外交差検定法に基づく各サンプルnの対数尤度の和を最大化させるように、正しく分類されているサンプルnに大きな値を設定すべき重みw1nを規定する重みパラメータ行列の推定値^Wを計算するステップと、
収束判定手段によって、前記重みパラメータ行列の推定値^Wの変化量を計算し収束条件を満たす前記重みパラメータ行列の推定値^Wが求まるまで、あるいは所定の回数に達するまで、前記重み計算手段による計算の繰り返し処理を行うステップと、
パラメータ計算手段によって、前記収束判定手段による繰り返し処理により得られた前記重みパラメータ行列の推定値^Wを用いて、サンプルnごとに、前記同時確率モデルp(x、y;Θ)のパラメータΘの一点除外交差検定法に基づく推定値^Θ-nを計算するステップと、
を含む誤分類検出方法。 - 前記同時確率モデルp(x、y;Θ)=p(x|y;Θ)P(y)のp(x|y;Θ)を、パラメータがΘで表されるNaive Bayesモデルで与える請求項4又は5記載の誤分類検出方法。
- コンピュータを、請求項1〜請求項3の何れか1項記載の誤分類検出装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011220337A JP5684084B2 (ja) | 2011-10-04 | 2011-10-04 | 誤分類検出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011220337A JP5684084B2 (ja) | 2011-10-04 | 2011-10-04 | 誤分類検出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013080395A JP2013080395A (ja) | 2013-05-02 |
JP5684084B2 true JP5684084B2 (ja) | 2015-03-11 |
Family
ID=48526712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011220337A Active JP5684084B2 (ja) | 2011-10-04 | 2011-10-04 | 誤分類検出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5684084B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6099099B2 (ja) * | 2014-02-28 | 2017-03-22 | 日本電信電話株式会社 | 収束判定装置、方法、及びプログラム |
JP6173972B2 (ja) * | 2014-06-10 | 2017-08-02 | 株式会社東芝 | 検出装置、修正システム、検出方法およびプログラム |
JP6377050B2 (ja) * | 2015-12-18 | 2018-08-22 | ヤフー株式会社 | 学習装置、学習方法および学習プログラム |
CN112633351A (zh) * | 2020-12-17 | 2021-04-09 | 博彦多彩数据科技有限公司 | 检测方法、装置、存储介质及处理器 |
CN117313899B (zh) * | 2023-11-23 | 2024-02-23 | 全芯智造技术有限公司 | 用于数据处理的方法、设备和介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4963341B2 (ja) * | 2004-06-16 | 2012-06-27 | 日本電信電話株式会社 | 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体 |
JP4460417B2 (ja) * | 2004-10-08 | 2010-05-12 | 日本電信電話株式会社 | 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置 |
JP2006185099A (ja) * | 2004-12-27 | 2006-07-13 | Toshiba Corp | 確率モデル作成方法 |
JP4490876B2 (ja) * | 2005-06-01 | 2010-06-30 | 日本電信電話株式会社 | コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体 |
US7711747B2 (en) * | 2007-04-06 | 2010-05-04 | Xerox Corporation | Interactive cleaning for automatic document clustering and categorization |
-
2011
- 2011-10-04 JP JP2011220337A patent/JP5684084B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013080395A (ja) | 2013-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gambella et al. | Optimization problems for machine learning: A survey | |
US11636389B2 (en) | System and method for improving machine learning models by detecting and removing inaccurate training data | |
Li et al. | Confidence-based active learning | |
Raza et al. | A comparative analysis of machine learning models for quality pillar assessment of SaaS services by multi-class text classification of users’ reviews | |
JP6498107B2 (ja) | 分類装置、方法、及びプログラム | |
JP6482481B2 (ja) | 2値分類学習装置、2値分類装置、方法、及びプログラム | |
US9249287B2 (en) | Document evaluation apparatus, document evaluation method, and computer-readable recording medium using missing patterns | |
JP5684084B2 (ja) | 誤分類検出装置、方法、及びプログラム | |
US7949622B2 (en) | System and method for generating a classifier model for classifying web content | |
Bohdal et al. | Meta-calibration: Learning of model calibration using differentiable expected calibration error | |
CN111950580A (zh) | 使用平衡训练集的分类器的预测准确性 | |
Koropoulis et al. | Detecting positive selection in populations using genetic data | |
Fujino et al. | A semi-supervised AUC optimization method with generative models | |
JP5905375B2 (ja) | 誤分類検出装置、方法、及びプログラム | |
JP7207540B2 (ja) | 学習支援装置、学習支援方法、及びプログラム | |
Posocco et al. | Estimating expected calibration errors | |
Cacciarelli et al. | A survey on online active learning | |
Cacciarelli et al. | Active learning for data streams: a survey | |
Lo | Early software reliability prediction based on support vector machines with genetic algorithms | |
Carbonero-Ruz et al. | A two dimensional accuracy-based measure for classification performance | |
Shathi et al. | Enhancing Performance of naïve bayes in text classification by introducing an extra weight using less number of training examples | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
Nashaat et al. | Semi-supervised ensemble learning for dealing with inaccurate and incomplete supervision | |
CN114424212A (zh) | 基于距离的学习置信度模型 | |
Bootkrajang et al. | Learning a label-noise robust logistic regression: Analysis and experiments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5684084 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |