JP5905375B2 - 誤分類検出装置、方法、及びプログラム - Google Patents

誤分類検出装置、方法、及びプログラム Download PDF

Info

Publication number
JP5905375B2
JP5905375B2 JP2012236020A JP2012236020A JP5905375B2 JP 5905375 B2 JP5905375 B2 JP 5905375B2 JP 2012236020 A JP2012236020 A JP 2012236020A JP 2012236020 A JP2012236020 A JP 2012236020A JP 5905375 B2 JP5905375 B2 JP 5905375B2
Authority
JP
Japan
Prior art keywords
sample
misclassification
category
content
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012236020A
Other languages
English (en)
Other versions
JP2014085948A (ja
Inventor
昭典 藤野
昭典 藤野
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012236020A priority Critical patent/JP5905375B2/ja
Publication of JP2014085948A publication Critical patent/JP2014085948A/ja
Application granted granted Critical
Publication of JP5905375B2 publication Critical patent/JP5905375B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、誤分類検出装置、方法、及びプログラムに係り、特に、サンプル集合の中から、誤ったカテゴリに分類されたコンテンツのサンプルを検出する誤分類検出装置、方法、及びプログラムに関する。
コンテンツのカテゴリ分類は、多くの場合、人手による分類作業によって行われる。あるいは、人手によってカテゴリに分類された複数のコンテンツを訓練データとして用いて統計的分類器を学習し、この統計的分類器を用いて、属するカテゴリが未知のコンテンツのカテゴリを推定することにより、コンテンツのカテゴリ分類を自動で行う。
しかし、人手による分類作業には、コンテンツを誤ったカテゴリに分類する誤分類の危険性が常に存在する。また、誤ったカテゴリに分類されたコンテンツのサンプル(以下、「誤分類サンプル」という)を統計的分類器の訓練データとして用いた場合には、統計的分類器の自動分類性能の低下をもたらす。それ故、与えられた分類済みのサンプルの中から、誤分類サンプルを検出する誤分類検出技術は重要である。
従来の技術では、カテゴリ分類済みのサンプル集合の中から誤分類サンプルを推定するために、まず、カテゴリ分類済みのサンプルの全てを訓練データとし、交差検定法を用いて学習した統計的分類器を用いてサンプルのカテゴリを推定する。次に、その推定されたカテゴリと分類されているカテゴリとが一致しないサンプルを、誤分類サンプルとして検出する。検出精度を高めるため、非特許文献1及び2の技術では、複数の統計的分類器で得られるカテゴリ推定の結果の多数決を取ることで、統計的分類器の種類に依存するカテゴリ推定のバイアスの悪影響を抑制している。非特許文献3の技術では、カテゴリ分類済みのサンプルだけでなく、属するカテゴリが未知のサンプルを集めたラベルなしサンプル集合を学習に用いて統計的分類器の分類性能を向上させることで、誤分類サンプルの検出精度を高めている。
Carla E. Brodley and Mark A. Friedl, "Identifying mislabeled training data", Journal of Artificial Intelligence Research, 11(11):131−166, 1999. Sundara Venkataraman, Dimitris Metaxas, Dmitriy Fradkin, Casimir Kulikowski, and Ilya Muchnik, "Distinguishing mislabeled data from correctly labeled data in classifier design", In Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence (ICTAI’04), pages 668−672, 2004. D. Guan, W. Yuan, Y.-K.Lee, and S. Lee, "Identifying mislabeled training data with the aid of unlabeleddata", Applied Intelligence, 35(3):345−358, 2010.
非特許文献1及び2の技術では、交差検定法を応用して、誤分類検出の対象となるサンプルを除いた訓練データから統計的分類器を学習させる。しかし、訓練データの中には誤分類サンプルが含まれているため、高いカテゴリ分類性能をもつ統計的分類器を得られる保証はない。それ故、正しいカテゴリに分類されている多くのサンプルに対して、統計的分類器がカテゴリの分類を誤ることで、誤分類サンプルを誤検出する危険性がある。逆に、誤分類サンプルに対して、人手により与えられたカテゴリと統計的分類器により分類されたカテゴリとが一致することで、誤分類サンプルが未検出となる危険性がある。このように、各統計的分類器による誤分類検出の信頼性が低い場合、複数の統計的分類器の多数決で最終判定を行っても、高い誤分類サンプルの検出精度を得ることが期待できない。
非特許文献3の技術では、誤分類検出の対象となるサンプルが示すコンテンツと同種のコンテンツであり、かつ属するカテゴリが未知のコンテンツのサンプル(以下、「ラベルなしサンプル」という)を学習に用いることで、誤分類サンプルの検出に用いる統計的分類器の性能を向上させている。この技術では、まず、誤分類サンプルを含む、コンテンツが属するカテゴリが既知のサンプル(以下、「ラベルありサンプル」という)を訓練データとして用いて複数の統計的分類器を学習させ、学習した統計的分類器を用いて各ラベルなしサンプルが属するカテゴリを予測させる。そして、全ての統計的分類器の予測カテゴリが一致したラベルなしサンプルとその予測カテゴリとの組を新たなラベルありサンプルとして訓練データに追加して、統計的分類器を再学習させる。この技術では、ラベルなしサンプルの中からラベルありサンプルを作成して訓練データに追加することで、訓練データに元々含まれていた誤分類サンプルの比率を下げ、その結果、誤分類サンプルが統計的分類器の学習に与える悪影響が抑制されることを期待する。
しかし、誤分類サンプルを含む訓練データを用いて学習させた統計的分類器は、カテゴリ予測能力が高いとは限らないため、多くのラベルなしサンプルに対して間違ったカテゴリ予測を与える危険性がある。元々含まれていた誤分類サンプルの悪影響により間違ったカテゴリ予測を行ったラベルなしサンプルを大量に訓練データに加えると、再学習しても統計的分類器の性能向上を期待できない。
上記のように、従来技術では、訓練データに含まれる誤分類サンプルが、誤分類検出に利用する統計的分類器の学習に悪影響を与える、という問題がある。
本発明は、上記の事情を鑑みてなされたもので、誤分類検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、高い精度で誤分類されたサンプルを検出することができる誤分類検出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の誤分類検出装置は、コンテンツの属するカテゴリが既知のラベルありサンプル集合の一部である第1サブサンプル集合と、コンテンツの属するカテゴリが未知のラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合されたモデルであって、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを生成する確率モデル生成手段と、前記確率モデル生成手段により生成された条件付クラス確率モデルに基づいて、前記ラベルありサンプル集合から前記第1サブサンプル集合を除いた第2サブサンプル集合に含まれる各ラベルありサンプルが、誤ったカテゴリに分類されたコンテンツのサンプルか否かを判定する誤分類判定手段と、を含んで構成されている。
本発明の誤分類検出装置によれば、確率モデル生成手段が、コンテンツの属するカテゴリが既知のラベルありサンプル集合の一部である第1サブサンプル集合と、コンテンツの属するカテゴリが未知のラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合されたモデルであって、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを生成する。誤分類判定手段は、確率モデル生成手段により生成された条件付クラス確率モデルに基づいて、ラベルありサンプル集合から第1サブサンプル集合を除いた第2サブサンプル集合に含まれる各ラベルありサンプルが、誤ったカテゴリに分類されたコンテンツのサンプルか否かを判定する。
このように、ラベルありサンプル集合の一部である第1サブサンプル集合とラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合された条件付クラス確率モデルに基づいて、ラベルありサンプル集合の残りの部分である第2サブサンプル集合に含まれるラベルありサンプルが誤分類か否かを判定するため、誤分類検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、高い精度で誤分類されたサンプルを検出することができる。
また、前記誤分類判定手段は、前記第2サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリと、該ラベルありサンプルのコンテンツについて前記条件付クラス確率モデルから得られる確率が最大となるカテゴリとが一致しない場合、前記第2サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリの前記条件付クラス確率モデルに基づく確率が、予め定めた第1閾値未満の場合、または前記第2サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリ以外の各カテゴリの前記条件付クラス確率モデルに基づく確率の最大値に対する、該ラベルありサンプルのコンテンツが属するカテゴリの前記条件付クラス確率モデルに基づく確率の比率が、予め定めた第2閾値未満の場合に、該ラベルありサンプルを誤分類サンプルと判定することができる。
また、本発明の誤分類検出方法は、確率モデル生成手段と、誤分類判定手段とを含む誤分類検出装置における誤分類検出方法であって、前記確率モデル生成手段が、コンテンツの属するカテゴリが既知のラベルありサンプル集合の一部である第1サブサンプル集合と、コンテンツの属するカテゴリが未知のラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合されたモデルであって、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを生成し、前記誤分類判定手段が、前記確率モデル生成手段により生成された条件付クラス確率モデルに基づいて、前記ラベルありサンプル集合から前記第1サブサンプル集合を除いた第2サブサンプル集合に含まれる各ラベルありサンプルが、誤ったカテゴリに分類されたコンテンツのサンプルか否かを判定する方法である。
また、本発明の誤分類検出プログラムは、コンピュータを、上記の誤分類検出装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の誤分類検出装置、方法、及びプログラムによれば、ラベルありサンプル集合の一部である第1サブサンプル集合とラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合された条件付クラス確率モデルに基づいて、ラベルありサンプル集合の残りの部分である第2サブサンプル集合に含まれるラベルありサンプルが誤分類か否かを判定するため、誤分類検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、高い精度で誤分類されたサンプルを検出することができる、という効果が得られる。
本実施の形態に係る誤分類検出装置の構成を示す概略図である。 本実施の形態に係る誤分類検出装置における誤分類検出処理ルーチンの内容を示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、データベースに含まれる論文、特許等の文書、オンラインニュースデータ、電子メール等のテキスト情報から成るコンテンツや、Webデータ、blogデータ等のテキスト情報とリンク情報から成るコンテンツ、あるいは画像データ等のコンテンツ、といった特徴ベクトルにより表現することが可能なコンテンツを、スポーツ、音楽、数学といった種別を表すカテゴリに分類したサンプルの集合の中から、誤分類サンプルを検出する誤分類検出装置に本発明を適用した場合について説明する。
<システム構成>
本実施の形態に係る誤分類検出装置10は、属するカテゴリのラベルが付与されたコンテンツのサンプルの集合が入力され、入力されたサンプルの集合の中から、誤ったカテゴリのラベルが付与されている誤分類サンプルを検出して出力する。この誤分類検出装置10は、CPUと、RAMと、後述する誤分類検出処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成される。このコンピュータは、機能的には、図1に示すように、確率モデル生成部12と、パラメータ記憶部14と、誤分類判定部16とを含んだ構成で表すことができる。
誤分類検出装置10は、入力として誤分類検出対象サンプル集合D、及びラベルなしサンプル集合Dを受け付ける。
誤分類検出対象サンプル集合Dは、属するカテゴリのラベルが付与されたコンテンツのサンプルの集合であり、本装置による誤分類検出の対象となるサンプルの集合である。コンテンツに含まれる単語や画素、リンク、あるいはそれらの組み合わせ等により構成される特徴量空間をT={t,...,t,...,t}とするとき、コンテンツの特徴ベクトルxは、コンテンツに含まれるtの頻度xを用いて、x={x,...,x,...,xで表現される。Vはコンテンツに含まれる可能性がある特徴の種類の数を表す。例えば、コンテンツがテキストデータである場合、Vはコンテンツに出現する可能性がある語彙の総数を表す。誤分類検出対象サンプル集合に含まれる各誤分類検出対象サンプルは、コンテンツの特徴ベクトルxと、コンテンツが属するカテゴリのラベルyとを含む。ここで受け付ける誤分類検出対象サンプル集合Dを、D={(x,y)}n=1 とする。nは誤分類検出対象サンプル集合に含まれる誤分類検出対象サンプルのID番号、Nは誤分類検出対象サンプルの総数、xはn番目の誤分類検出対象サンプルの特徴ベクトル、yはn番目の誤検出対象サンプルに付与されているカテゴリのラベルを表し、y∈{1,...,k,...,K}である。Kはカテゴリの総クラス数である。
ラベルなしサンプル集合Dに含まれる各ラベルなしサンプルは、コンテンツの特徴ベクトルxのみで構成されている。ここで受け付けるラベルなしサンプル集合Dを、D={(x)}m=1 とする。mはラベルなしサンプル集合に含まれるラベルなしサンプルのID番号、Mはラベルなしサンプルの総数、xはm番目のラベルなしサンプルの特徴ベクトルを表す。
確率モデル生成部12は、誤分類検出対象サンプル集合D及びラベルなしサンプル集合Dを用いて、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを、各誤分類検出対象サンプルの誤分類判定に用いる統計的分類器として生成する。
具体的には、確率モデル生成部12は、誤分類検出対象サンプル集合Dを、2つのサブサンプル集合D及びDに分割し、一方のサブサンプル集合Dと、ラベルなしサンプル集合Dとを用いて、条件付クラス確率モデルP(y|x;Ψ)のパラメータ推定値^Ψを計算する。確率モデル生成部12は、計算したパラメータ推定値^Ψをパラメータ記憶部14に記憶する。
パラメータΨは、非特許文献4(藤野昭典、上田修功、永田昌明、「ラベルありデータの選択バイアスに頑健な半教師あり学習」、情報処理学会論文誌、数理モデル化と応用(TOM)、4(2)、31−42(2011))に記載された統計的分類器のパラメータW,Θ,βをΨ=[W,Θ,β]のように略記したものである。非特許文献4に記載された統計的分類器は、ラベルなしサンプルを学習に利用するためにコンテンツの種類に応じて設計した生成モデルと、訓練データ(ラベルありサンプル)の分類境界を直接的に学習する識別モデルとの両方を、サブサンプル集合Dとラベルなしサンプル集合Dとの両方を用いて学習して統合した統計的分類器である。これにより、サブサンプル集合Dに含まれる誤分類サンプルへの統計的分類器の過適合を抑制して、サブサンプル集合Dに含まれる誤分類サンプルが統計的分類器の性能に与える悪影響を抑制することができる。なお、上記パラメータのWは統計的分類器を構成する識別モデルのパラメータ、Θは統計的分類器を構成する生成モデルのパラメータ、βは識別モデルと生成モデルとの統合における生成モデルに対する重みである。
誤分類判定部16は、パラメータ記憶部14に記憶されたパラメータ推定値^Ψを用いて、パラメータ推定値^Ψの計算に用いられなかったサブサンプル集合Dに含まれる各誤分類検出対象サンプル(x,y)の条件付クラス確率P(y|x;^Ψ)を計算して、各誤分類検出対象サンプルが誤分類サンプルか否かを判定する。
例えば、下記(1)式に示すように、最大の確率P(y|x;^Ψ)を与えるカテゴリを予測カテゴリ^yとし、y≠^yである場合に、その誤分類検出対象サンプル(x,y)を誤分類サンプルである判定する。
Figure 0005905375
また、誤分類判定部16は、ある閾値a(0<a<1)を設定して、P(y|x;^Ψ)<aを満たす誤分類検出対象サンプル(x,y)を誤分類サンプルであると判定してもよい。
また、誤分類判定部16は、ある実数の閾値bを設定して、下記(2)式を満たす誤分類検出対象サンプル(x,y)を誤分類サンプルであると判定してもよい。
Figure 0005905375
誤分類判定部16は、誤分類検出対象サンプル集合Dに含まれる全ての誤分類検出対象サンプルに対して誤分類サンプルか否かの判定を行い、誤分類サンプルと判定された誤分類検出対象サンプルの情報を誤分類検出結果として出力する。
<誤分類検出装置の作用>
次に、本実施の形態に係る誤分類検出装置10の作用について説明する。誤分類検出装置10に誤分類検出対象サンプル集合D、及びラベルなしサンプル集合Dが入力されると、誤分類検出装置10において、図2に示す誤分類検出処理ルーチンが実行される。
まず、ステップ100で、確率モデル生成部12が、受け付けた誤分類検出対象サンプル集合Dを、2つのサブサンプル集合D及びDに分割する。
次に、ステップ102で、確率モデル生成部12が、上記ステップ100で分割した一方のサブサンプル集合Dと、受け付けたラベルなしサンプル集合Dとの両方を用いて、生成モデルと識別モデルとを統合した統計的分類器である条件付クラス確率モデルP(y|x;Ψ)のパラメータ推定値^Ψを計算する。また、確率モデル生成部12は、計算したパラメータ推定値^Ψをパラメータ記憶部14に記憶する。
次に、ステップ104で、誤分類判定部16が、パラメータ記憶部14に記憶されたパラメータ推定値^Ψを用いて、上記ステップ100で分割されたもう一方のサブサンプル集合Dに含まれる各誤分類検出対象サンプル(x,y)の各カテゴリに対する条件付クラス確率P(y|x;^Ψ)を計算して、各誤分類検出対象サンプル(x,y)が誤分類サンプルか否かを判定する。誤分類判定部16は、サブサンプル集合Dに含まれる全ての誤分類検出対象サンプルを対象に誤分類サンプルか否かの判定を行い、誤分類サンプルと判定された誤分類検出対象サンプルのID番号を所定の記憶領域に記憶する。
次に、ステップ106で、誤分類判定部16が、誤分類検出対象サンプル集合Dに含まれる全ての誤分類検出対象サンプルについて、上記の誤分類サンプルか否かの判定処理を行ったか否かを判定する。未処理の誤分類検出対象サンプルが存在する場合には、ステップ100へ戻って、ステップ100〜106の処理を繰り返す。このとき、誤分類検出対象サンプル集合Dのうち、まだ誤分類判定を行っていない誤分類検出対象サンプルの中からサブサンプル集合Dを選択し、残りの誤分類検出対象サンプル集合をサブサンプル集合Dとして処理を繰り返す。なお、前の繰り返し処理で得られた誤分類判定結果は次の繰り返し処理に影響しないので、各サブサンプル集合DとDとの組毎に、並列に誤分類検出処理を行ってもよい。
一方、全ての誤分類検出対象サンプルについて誤分類の判定処理が終了した場合には、ステップ108へ移行し、上記ステップ104で所定領域に記憶した誤分類サンプルのID番号を誤分類検出結果として出力し、誤分類検出処理ルーチンを終了する。
以上説明したように、本実施の形態に係る誤分類検出装置によれば、誤分類検出対象サンプル集合に含まれる各誤分類検出対象サンプルの誤分類判定を行う統計的分類器(条件付クラス確率モデル)を得るために、誤分類判定を行う誤分類検出対象サンプルを除外した誤分類検出対象サンプル集合(ラベルありサンプル集合)とラベルなしサンプル集合とを用いて統計的分類器を学習させる。この統計的分類器は、ラベルありサンプル集合とラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとを統合したものであり、ラベルなしサンプル集合と誤分類判定を行う誤分類検出対象サンプルを除外した誤分類検出対象サンプル集合との両方に適合させる学習技術が用いられる。
そのため、誤分類検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、高い精度で誤分類されたサンプルを検出することができる。
<実験例>
次に、上記の実施の形態に係る手法を適用して実験を行った結果について説明する。
上位カテゴリとしてコンピュータに属する文書データを5つのサブカテゴリのいずれかに分類する問題で、誤ったサブカテゴリに分類された文書データを検出する評価実験を行った。テキスト分類問題で性能評価によく用いられるデータベース20 newsgroups(非特許文献5「K. Nigam, J. Lafferty, and A. McCallum, "Using maximum entropy for text classification", In IJCAI-99 Workshop on Machine Learning for Information Filtering, 61−67, 1999.」参照)を用いた。
評価用データセットを作成するため、1000個のサンプルを5つのサブカテゴリに属する文書データの中から無作為に抽出した。そして1000個のサンプルの中からr%のサンプルを無作為に選択し、文書データが属するサブカテゴリを別の4つのサブカテゴリのいずれかに無作為に変更することで誤分類サンプルを作成した。また、ラベルなしサンプル集合を作成するために、上記で選択したサンプルと異なる2000個のサンプルを文書データの中から無作為に抽出した。この操作によって得られた誤分類サンプルを含むデータセットを誤分類検出対象サンプル集合として性能評価に用いた。性能評価の尺度には、情報検索タスクなどでよく利用されるF値を用いた。F値は、装置が検出できた誤分類サンプルの数Nと、装置が検出したサンプルの数Nと、誤分類検出対象サンプル集合に含まれる誤分類サンプルの数Nとから、下記(3)式で計算される。F値は、値が大きいほど誤分類サンプルの検出性能が高いことを示す。
Figure 0005905375
表1に、本実施の形態に係る誤分類検出装置(方法1)、及びラベルなしサンプルを学習に用いる代表的な統計的分類器であるTSVM(非特許文献6「R. Collobert, F. Sinz, J. Weston, and L. Bottou, "Large scale transductive SVMs", Journal of Machine Learning Research, 7:1687−1712, 2006.」参照)と5分割交差検定とを併用した方法(方法2)により得られたF値の実験結果例を示す。また、非特許文献3に記載のラベルなしデータ利用法で、ナイーブベイズモデル、1−近傍法、及び最大エントロピーモデルの3つの統計分類器を適用した場合に最大のF値を与えた統計的分類器を用いた方法(方法3)の実験結果例を示す。なお、非特許文献3では、ラベルなしデータを用いて複数の統計的分類器を学習させた後、それらの統計的分類器の予測結果による多数決、または全会一致で誤分類判定を行っている。しかし、本実験の方法3では、統計的分類器を学習させる際のラベルなしデータの利用法の優劣を比較するため、学習済の複数の統計的分類器による多数決や全会一致による判定を行う前の結果を示す。方法1及び2は、多数決や全会一致による判定を行う誤分類検出装置を構成する際に、複数の統計的分類器の1つとして利用可能である。
Figure 0005905375
表1より、rの値を変えて行った実験の全ての場合で、方法1で得られたF値は、方法2及び3で得られたF値と比べて同等以上であった。以上の結果より、誤分類サンプルを検出するのに、本発明に係る誤分類検出装置は効果があることが分かる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 誤分類検出装置
12 確率モデル生成部
14 パラメータ記憶部
16 誤分類判定部

Claims (4)

  1. コンテンツの属するカテゴリが既知のラベルありサンプル集合の一部である第1サブサンプル集合と、コンテンツの属するカテゴリが未知のラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合されたモデルであって、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを生成する確率モデル生成手段と、
    前記確率モデル生成手段により生成された条件付クラス確率モデルに基づいて、前記ラベルありサンプル集合から前記第1サブサンプル集合を除いた第2サブサンプル集合に含まれる各ラベルありサンプルが、誤ったカテゴリに分類されたコンテンツのサンプルか否かを判定する誤分類判定手段と、
    を含む誤分類検出装置。
  2. 前記誤分類判定手段は、
    前記第2サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリと、該ラベルありサンプルのコンテンツについて前記条件付クラス確率モデルから得られる確率が最大となるカテゴリとが一致しない場合、
    前記第2サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリの前記条件付クラス確率モデルに基づく確率が、予め定めた第1閾値未満の場合、または
    前記第2サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリ以外の各カテゴリの前記条件付クラス確率モデルに基づく確率の最大値に対する、該ラベルありサンプルのコンテンツが属するカテゴリの前記条件付クラス確率モデルに基づく確率の比率が、予め定めた第2閾値未満の場合に、
    該ラベルありサンプルを誤分類サンプルと判定する請求項1記載の誤分類検出装置。
  3. 確率モデル生成手段と、誤分類判定手段とを含む誤分類検出装置における誤分類検出方法であって、
    前記確率モデル生成手段が、コンテンツの属するカテゴリが既知のラベルありサンプル集合の一部である第1サブサンプル集合と、コンテンツの属するカテゴリが未知のラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合されたモデルであって、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを生成し、
    前記誤分類判定手段が、前記確率モデル生成手段により生成された条件付クラス確率モデルに基づいて、前記ラベルありサンプル集合から前記第1サブサンプル集合を除いた第2サブサンプル集合に含まれる各ラベルありサンプルが、誤ったカテゴリに分類されたコンテンツのサンプルか否かを判定する
    誤分類検出方法。
  4. コンピュータを、請求項1または請求項2記載の誤分類検出装置を構成する各手段として機能させるための誤分類検出プログラム。
JP2012236020A 2012-10-25 2012-10-25 誤分類検出装置、方法、及びプログラム Active JP5905375B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012236020A JP5905375B2 (ja) 2012-10-25 2012-10-25 誤分類検出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012236020A JP5905375B2 (ja) 2012-10-25 2012-10-25 誤分類検出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014085948A JP2014085948A (ja) 2014-05-12
JP5905375B2 true JP5905375B2 (ja) 2016-04-20

Family

ID=50788929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012236020A Active JP5905375B2 (ja) 2012-10-25 2012-10-25 誤分類検出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5905375B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6729457B2 (ja) * 2017-03-16 2020-07-22 株式会社島津製作所 データ解析装置
JP6856122B2 (ja) * 2017-07-13 2021-04-07 日本電気株式会社 学習システム、分析システム、学習方法及び記憶媒体
TWI692776B (zh) * 2018-10-29 2020-05-01 財團法人工業技術研究院 基於神經網路的分類裝置及分類方法
US20240005655A1 (en) * 2020-10-21 2024-01-04 Nippon Telegraph And Telephone Corporation Learning apparatus, estimation apparatus, learning method, estimation method and program
US20240265283A1 (en) * 2021-05-24 2024-08-08 Nippon Telegraph And Telephone Corporation Information processing apparatus, information processing method, and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6640228B1 (en) * 2000-11-10 2003-10-28 Verizon Laboratories Inc. Method for detecting incorrectly categorized data

Also Published As

Publication number Publication date
JP2014085948A (ja) 2014-05-12

Similar Documents

Publication Publication Date Title
US9754014B2 (en) Systems and methods for organizing data sets
Gui et al. Negative transfer detection in transductive transfer learning
González et al. Validation methods for plankton image classification systems
US8682813B2 (en) Sample class prediction method, prediction program, and prediction apparatus
JP6482481B2 (ja) 2値分類学習装置、2値分類装置、方法、及びプログラム
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
US7769759B1 (en) Data classification based on point-of-view dependency
JP5905375B2 (ja) 誤分類検出装置、方法、及びプログラム
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
CN112632269A (zh) 一种文档分类模型训练的方法和相关装置
US11010692B1 (en) Systems and methods for automatic extraction of classification training data
Carbonera An efficient approach for instance selection
CN111160959B (zh) 一种用户点击转化预估方法及装置
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
JP5684084B2 (ja) 誤分類検出装置、方法、及びプログラム
Boillet et al. Confidence estimation for object detection in document images
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
KR20210158740A (ko) 기계학습 성능 기반 클러스터링 평가 장치 및 그 방법
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
US11210605B1 (en) Dataset suitability check for machine learning
Bootkrajang et al. Learning a label-noise robust logistic regression: Analysis and experiments
Casamayor et al. Semi-Supervised Classi fication of Non-Functional Requirements: An Empirical Analysis
Sedova et al. Learning with noisy labels by adaptive gradient-based outlier removal
JP4460417B2 (ja) 自動分類方法、自動分類プログラム、記録媒体、および、自動分類装置
Bouguelia et al. Stream-based active learning in the presence of label noise

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160316

R150 Certificate of patent or registration of utility model

Ref document number: 5905375

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150