JP5905375B2

JP5905375B2 - 誤分類検出装置、方法、及びプログラム

Info

Publication number: JP5905375B2
Application number: JP2012236020A
Authority: JP
Inventors: 昭典藤野; 永田　昌明; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-10-25
Filing date: 2012-10-25
Publication date: 2016-04-20
Anticipated expiration: 2032-10-25
Also published as: JP2014085948A

Description

本発明は、誤分類検出装置、方法、及びプログラムに係り、特に、サンプル集合の中から、誤ったカテゴリに分類されたコンテンツのサンプルを検出する誤分類検出装置、方法、及びプログラムに関する。

コンテンツのカテゴリ分類は、多くの場合、人手による分類作業によって行われる。あるいは、人手によってカテゴリに分類された複数のコンテンツを訓練データとして用いて統計的分類器を学習し、この統計的分類器を用いて、属するカテゴリが未知のコンテンツのカテゴリを推定することにより、コンテンツのカテゴリ分類を自動で行う。

しかし、人手による分類作業には、コンテンツを誤ったカテゴリに分類する誤分類の危険性が常に存在する。また、誤ったカテゴリに分類されたコンテンツのサンプル（以下、「誤分類サンプル」という）を統計的分類器の訓練データとして用いた場合には、統計的分類器の自動分類性能の低下をもたらす。それ故、与えられた分類済みのサンプルの中から、誤分類サンプルを検出する誤分類検出技術は重要である。

従来の技術では、カテゴリ分類済みのサンプル集合の中から誤分類サンプルを推定するために、まず、カテゴリ分類済みのサンプルの全てを訓練データとし、交差検定法を用いて学習した統計的分類器を用いてサンプルのカテゴリを推定する。次に、その推定されたカテゴリと分類されているカテゴリとが一致しないサンプルを、誤分類サンプルとして検出する。検出精度を高めるため、非特許文献１及び２の技術では、複数の統計的分類器で得られるカテゴリ推定の結果の多数決を取ることで、統計的分類器の種類に依存するカテゴリ推定のバイアスの悪影響を抑制している。非特許文献３の技術では、カテゴリ分類済みのサンプルだけでなく、属するカテゴリが未知のサンプルを集めたラベルなしサンプル集合を学習に用いて統計的分類器の分類性能を向上させることで、誤分類サンプルの検出精度を高めている。

Carla E. Brodley and Mark A. Friedl, "Identifying mislabeled training data", Journal of Artificial Intelligence Research, 11(11):131−166, 1999. Sundara Venkataraman, Dimitris Metaxas, Dmitriy Fradkin, Casimir Kulikowski, and Ilya Muchnik, "Distinguishing mislabeled data from correctly labeled data in classifier design", In Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence (ICTAI’04), pages 668−672, 2004. D. Guan, W. Yuan, Y.-K.Lee, and S. Lee, "Identifying mislabeled training data with the aid of unlabeleddata", Applied Intelligence, 35(3):345−358, 2010.

非特許文献１及び２の技術では、交差検定法を応用して、誤分類検出の対象となるサンプルを除いた訓練データから統計的分類器を学習させる。しかし、訓練データの中には誤分類サンプルが含まれているため、高いカテゴリ分類性能をもつ統計的分類器を得られる保証はない。それ故、正しいカテゴリに分類されている多くのサンプルに対して、統計的分類器がカテゴリの分類を誤ることで、誤分類サンプルを誤検出する危険性がある。逆に、誤分類サンプルに対して、人手により与えられたカテゴリと統計的分類器により分類されたカテゴリとが一致することで、誤分類サンプルが未検出となる危険性がある。このように、各統計的分類器による誤分類検出の信頼性が低い場合、複数の統計的分類器の多数決で最終判定を行っても、高い誤分類サンプルの検出精度を得ることが期待できない。

非特許文献３の技術では、誤分類検出の対象となるサンプルが示すコンテンツと同種のコンテンツであり、かつ属するカテゴリが未知のコンテンツのサンプル（以下、「ラベルなしサンプル」という）を学習に用いることで、誤分類サンプルの検出に用いる統計的分類器の性能を向上させている。この技術では、まず、誤分類サンプルを含む、コンテンツが属するカテゴリが既知のサンプル（以下、「ラベルありサンプル」という）を訓練データとして用いて複数の統計的分類器を学習させ、学習した統計的分類器を用いて各ラベルなしサンプルが属するカテゴリを予測させる。そして、全ての統計的分類器の予測カテゴリが一致したラベルなしサンプルとその予測カテゴリとの組を新たなラベルありサンプルとして訓練データに追加して、統計的分類器を再学習させる。この技術では、ラベルなしサンプルの中からラベルありサンプルを作成して訓練データに追加することで、訓練データに元々含まれていた誤分類サンプルの比率を下げ、その結果、誤分類サンプルが統計的分類器の学習に与える悪影響が抑制されることを期待する。

しかし、誤分類サンプルを含む訓練データを用いて学習させた統計的分類器は、カテゴリ予測能力が高いとは限らないため、多くのラベルなしサンプルに対して間違ったカテゴリ予測を与える危険性がある。元々含まれていた誤分類サンプルの悪影響により間違ったカテゴリ予測を行ったラベルなしサンプルを大量に訓練データに加えると、再学習しても統計的分類器の性能向上を期待できない。

上記のように、従来技術では、訓練データに含まれる誤分類サンプルが、誤分類検出に利用する統計的分類器の学習に悪影響を与える、という問題がある。

本発明は、上記の事情を鑑みてなされたもので、誤分類検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、高い精度で誤分類されたサンプルを検出することができる誤分類検出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の誤分類検出装置は、コンテンツの属するカテゴリが既知のラベルありサンプル集合の一部である第１サブサンプル集合と、コンテンツの属するカテゴリが未知のラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合されたモデルであって、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを生成する確率モデル生成手段と、前記確率モデル生成手段により生成された条件付クラス確率モデルに基づいて、前記ラベルありサンプル集合から前記第１サブサンプル集合を除いた第２サブサンプル集合に含まれる各ラベルありサンプルが、誤ったカテゴリに分類されたコンテンツのサンプルか否かを判定する誤分類判定手段と、を含んで構成されている。

本発明の誤分類検出装置によれば、確率モデル生成手段が、コンテンツの属するカテゴリが既知のラベルありサンプル集合の一部である第１サブサンプル集合と、コンテンツの属するカテゴリが未知のラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合されたモデルであって、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを生成する。誤分類判定手段は、確率モデル生成手段により生成された条件付クラス確率モデルに基づいて、ラベルありサンプル集合から第１サブサンプル集合を除いた第２サブサンプル集合に含まれる各ラベルありサンプルが、誤ったカテゴリに分類されたコンテンツのサンプルか否かを判定する。

このように、ラベルありサンプル集合の一部である第１サブサンプル集合とラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合された条件付クラス確率モデルに基づいて、ラベルありサンプル集合の残りの部分である第２サブサンプル集合に含まれるラベルありサンプルが誤分類か否かを判定するため、誤分類検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、高い精度で誤分類されたサンプルを検出することができる。

また、前記誤分類判定手段は、前記第２サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリと、該ラベルありサンプルのコンテンツについて前記条件付クラス確率モデルから得られる確率が最大となるカテゴリとが一致しない場合、前記第２サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリの前記条件付クラス確率モデルに基づく確率が、予め定めた第１閾値未満の場合、または前記第２サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリ以外の各カテゴリの前記条件付クラス確率モデルに基づく確率の最大値に対する、該ラベルありサンプルのコンテンツが属するカテゴリの前記条件付クラス確率モデルに基づく確率の比率が、予め定めた第２閾値未満の場合に、該ラベルありサンプルを誤分類サンプルと判定することができる。

また、本発明の誤分類検出方法は、確率モデル生成手段と、誤分類判定手段とを含む誤分類検出装置における誤分類検出方法であって、前記確率モデル生成手段が、コンテンツの属するカテゴリが既知のラベルありサンプル集合の一部である第１サブサンプル集合と、コンテンツの属するカテゴリが未知のラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合されたモデルであって、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを生成し、前記誤分類判定手段が、前記確率モデル生成手段により生成された条件付クラス確率モデルに基づいて、前記ラベルありサンプル集合から前記第１サブサンプル集合を除いた第２サブサンプル集合に含まれる各ラベルありサンプルが、誤ったカテゴリに分類されたコンテンツのサンプルか否かを判定する方法である。

また、本発明の誤分類検出プログラムは、コンピュータを、上記の誤分類検出装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の誤分類検出装置、方法、及びプログラムによれば、ラベルありサンプル集合の一部である第１サブサンプル集合とラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合された条件付クラス確率モデルに基づいて、ラベルありサンプル集合の残りの部分である第２サブサンプル集合に含まれるラベルありサンプルが誤分類か否かを判定するため、誤分類検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、高い精度で誤分類されたサンプルを検出することができる、という効果が得られる。

本実施の形態に係る誤分類検出装置の構成を示す概略図である。本実施の形態に係る誤分類検出装置における誤分類検出処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、データベースに含まれる論文、特許等の文書、オンラインニュースデータ、電子メール等のテキスト情報から成るコンテンツや、Ｗｅｂデータ、ｂｌｏｇデータ等のテキスト情報とリンク情報から成るコンテンツ、あるいは画像データ等のコンテンツ、といった特徴ベクトルにより表現することが可能なコンテンツを、スポーツ、音楽、数学といった種別を表すカテゴリに分類したサンプルの集合の中から、誤分類サンプルを検出する誤分類検出装置に本発明を適用した場合について説明する。

＜システム構成＞
本実施の形態に係る誤分類検出装置１０は、属するカテゴリのラベルが付与されたコンテンツのサンプルの集合が入力され、入力されたサンプルの集合の中から、誤ったカテゴリのラベルが付与されている誤分類サンプルを検出して出力する。この誤分類検出装置１０は、ＣＰＵと、ＲＡＭと、後述する誤分類検出処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成される。このコンピュータは、機能的には、図１に示すように、確率モデル生成部１２と、パラメータ記憶部１４と、誤分類判定部１６とを含んだ構成で表すことができる。

誤分類検出装置１０は、入力として誤分類検出対象サンプル集合Ｄ、及びラベルなしサンプル集合Ｄ_ｕを受け付ける。

誤分類検出対象サンプル集合Ｄは、属するカテゴリのラベルが付与されたコンテンツのサンプルの集合であり、本装置による誤分類検出の対象となるサンプルの集合である。コンテンツに含まれる単語や画素、リンク、あるいはそれらの組み合わせ等により構成される特徴量空間をＴ＝｛ｔ_１，...，ｔ_ｉ，...，ｔ_Ｖ｝とするとき、コンテンツの特徴ベクトルｘは、コンテンツに含まれるｔ_ｉの頻度ｘ_ｉを用いて、ｘ＝｛ｘ_１，...，ｘ_ｉ，...，ｘ_Ｖ）^Ｔで表現される。Ｖはコンテンツに含まれる可能性がある特徴の種類の数を表す。例えば、コンテンツがテキストデータである場合、Ｖはコンテンツに出現する可能性がある語彙の総数を表す。誤分類検出対象サンプル集合に含まれる各誤分類検出対象サンプルは、コンテンツの特徴ベクトルｘと、コンテンツが属するカテゴリのラベルｙとを含む。ここで受け付ける誤分類検出対象サンプル集合Ｄを、Ｄ＝｛（ｘ_ｎ，ｙ_ｎ）｝_ｎ＝１ ^Ｎとする。ｎは誤分類検出対象サンプル集合に含まれる誤分類検出対象サンプルのＩＤ番号、Ｎは誤分類検出対象サンプルの総数、ｘ_ｎはｎ番目の誤分類検出対象サンプルの特徴ベクトル、ｙ_ｎはｎ番目の誤検出対象サンプルに付与されているカテゴリのラベルを表し、ｙ∈｛１，...，ｋ，...，Ｋ｝である。Ｋはカテゴリの総クラス数である。

ラベルなしサンプル集合Ｄ_ｕに含まれる各ラベルなしサンプルは、コンテンツの特徴ベクトルｘのみで構成されている。ここで受け付けるラベルなしサンプル集合Ｄ_ｕを、Ｄ_ｕ＝｛（ｘ_ｍ）｝_ｍ＝１ ^Ｍとする。ｍはラベルなしサンプル集合に含まれるラベルなしサンプルのＩＤ番号、Ｍはラベルなしサンプルの総数、ｘ_ｍはｍ番目のラベルなしサンプルの特徴ベクトルを表す。

確率モデル生成部１２は、誤分類検出対象サンプル集合Ｄ及びラベルなしサンプル集合Ｄ_ｕを用いて、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを、各誤分類検出対象サンプルの誤分類判定に用いる統計的分類器として生成する。

具体的には、確率モデル生成部１２は、誤分類検出対象サンプル集合Ｄを、２つのサブサンプル集合Ｄ_１及びＤ_２に分割し、一方のサブサンプル集合Ｄ_１と、ラベルなしサンプル集合Ｄ_ｕとを用いて、条件付クラス確率モデルＰ（ｙ｜ｘ；Ψ）のパラメータ推定値＾Ψを計算する。確率モデル生成部１２は、計算したパラメータ推定値＾Ψをパラメータ記憶部１４に記憶する。

パラメータΨは、非特許文献４（藤野昭典、上田修功、永田昌明、「ラベルありデータの選択バイアスに頑健な半教師あり学習」、情報処理学会論文誌、数理モデル化と応用（ＴＯＭ）、４（２）、３１−４２（２０１１））に記載された統計的分類器のパラメータＷ，Θ，βをΨ＝［Ｗ，Θ，β］のように略記したものである。非特許文献４に記載された統計的分類器は、ラベルなしサンプルを学習に利用するためにコンテンツの種類に応じて設計した生成モデルと、訓練データ（ラベルありサンプル）の分類境界を直接的に学習する識別モデルとの両方を、サブサンプル集合Ｄ_１とラベルなしサンプル集合Ｄ_ｕとの両方を用いて学習して統合した統計的分類器である。これにより、サブサンプル集合Ｄ_１に含まれる誤分類サンプルへの統計的分類器の過適合を抑制して、サブサンプル集合Ｄ_１に含まれる誤分類サンプルが統計的分類器の性能に与える悪影響を抑制することができる。なお、上記パラメータのＷは統計的分類器を構成する識別モデルのパラメータ、Θは統計的分類器を構成する生成モデルのパラメータ、βは識別モデルと生成モデルとの統合における生成モデルに対する重みである。

誤分類判定部１６は、パラメータ記憶部１４に記憶されたパラメータ推定値＾Ψを用いて、パラメータ推定値＾Ψの計算に用いられなかったサブサンプル集合Ｄ_２に含まれる各誤分類検出対象サンプル（ｘ_ｓ，ｙ_ｓ）の条件付クラス確率Ｐ（ｙ｜ｘ_ｓ；＾Ψ）を計算して、各誤分類検出対象サンプルが誤分類サンプルか否かを判定する。

例えば、下記（１）式に示すように、最大の確率Ｐ（ｙ｜ｘ_ｓ；＾Ψ）を与えるカテゴリを予測カテゴリ＾ｙ_ｓとし、ｙ_ｓ≠＾ｙ_ｓである場合に、その誤分類検出対象サンプル（ｘ_ｓ，ｙ_ｓ）を誤分類サンプルである判定する。

また、誤分類判定部１６は、ある閾値ａ（０＜ａ＜１）を設定して、Ｐ（ｙ_ｓ｜ｘ_ｓ；＾Ψ）＜ａを満たす誤分類検出対象サンプル（ｘ_ｓ，ｙ_ｓ）を誤分類サンプルであると判定してもよい。

また、誤分類判定部１６は、ある実数の閾値ｂを設定して、下記（２）式を満たす誤分類検出対象サンプル（ｘ_ｓ，ｙ_ｓ）を誤分類サンプルであると判定してもよい。

誤分類判定部１６は、誤分類検出対象サンプル集合Ｄに含まれる全ての誤分類検出対象サンプルに対して誤分類サンプルか否かの判定を行い、誤分類サンプルと判定された誤分類検出対象サンプルの情報を誤分類検出結果として出力する。

＜誤分類検出装置の作用＞
次に、本実施の形態に係る誤分類検出装置１０の作用について説明する。誤分類検出装置１０に誤分類検出対象サンプル集合Ｄ、及びラベルなしサンプル集合Ｄ_ｕが入力されると、誤分類検出装置１０において、図２に示す誤分類検出処理ルーチンが実行される。

まず、ステップ１００で、確率モデル生成部１２が、受け付けた誤分類検出対象サンプル集合Ｄを、２つのサブサンプル集合Ｄ_１及びＤ_２に分割する。

次に、ステップ１０２で、確率モデル生成部１２が、上記ステップ１００で分割した一方のサブサンプル集合Ｄ_１と、受け付けたラベルなしサンプル集合Ｄ_ｕとの両方を用いて、生成モデルと識別モデルとを統合した統計的分類器である条件付クラス確率モデルＰ（ｙ｜ｘ；Ψ）のパラメータ推定値＾Ψを計算する。また、確率モデル生成部１２は、計算したパラメータ推定値＾Ψをパラメータ記憶部１４に記憶する。

次に、ステップ１０４で、誤分類判定部１６が、パラメータ記憶部１４に記憶されたパラメータ推定値＾Ψを用いて、上記ステップ１００で分割されたもう一方のサブサンプル集合Ｄ_２に含まれる各誤分類検出対象サンプル（ｘ_ｓ，ｙ_ｓ）の各カテゴリに対する条件付クラス確率Ｐ（ｙ｜ｘ_ｓ；＾Ψ）を計算して、各誤分類検出対象サンプル（ｘ_ｓ，ｙ_ｓ）が誤分類サンプルか否かを判定する。誤分類判定部１６は、サブサンプル集合Ｄ_２に含まれる全ての誤分類検出対象サンプルを対象に誤分類サンプルか否かの判定を行い、誤分類サンプルと判定された誤分類検出対象サンプルのＩＤ番号を所定の記憶領域に記憶する。

次に、ステップ１０６で、誤分類判定部１６が、誤分類検出対象サンプル集合Ｄに含まれる全ての誤分類検出対象サンプルについて、上記の誤分類サンプルか否かの判定処理を行ったか否かを判定する。未処理の誤分類検出対象サンプルが存在する場合には、ステップ１００へ戻って、ステップ１００〜１０６の処理を繰り返す。このとき、誤分類検出対象サンプル集合Ｄのうち、まだ誤分類判定を行っていない誤分類検出対象サンプルの中からサブサンプル集合Ｄ_２を選択し、残りの誤分類検出対象サンプル集合をサブサンプル集合Ｄ_１として処理を繰り返す。なお、前の繰り返し処理で得られた誤分類判定結果は次の繰り返し処理に影響しないので、各サブサンプル集合Ｄ_１とＤ_２との組毎に、並列に誤分類検出処理を行ってもよい。

一方、全ての誤分類検出対象サンプルについて誤分類の判定処理が終了した場合には、ステップ１０８へ移行し、上記ステップ１０４で所定領域に記憶した誤分類サンプルのＩＤ番号を誤分類検出結果として出力し、誤分類検出処理ルーチンを終了する。

以上説明したように、本実施の形態に係る誤分類検出装置によれば、誤分類検出対象サンプル集合に含まれる各誤分類検出対象サンプルの誤分類判定を行う統計的分類器（条件付クラス確率モデル）を得るために、誤分類判定を行う誤分類検出対象サンプルを除外した誤分類検出対象サンプル集合（ラベルありサンプル集合）とラベルなしサンプル集合とを用いて統計的分類器を学習させる。この統計的分類器は、ラベルありサンプル集合とラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとを統合したものであり、ラベルなしサンプル集合と誤分類判定を行う誤分類検出対象サンプルを除外した誤分類検出対象サンプル集合との両方に適合させる学習技術が用いられる。

そのため、誤分類検出に利用する統計的分類器の学習に誤分類されたサンプルが与える悪影響を抑制して、高い精度で誤分類されたサンプルを検出することができる。

＜実験例＞
次に、上記の実施の形態に係る手法を適用して実験を行った結果について説明する。

上位カテゴリとしてコンピュータに属する文書データを５つのサブカテゴリのいずれかに分類する問題で、誤ったサブカテゴリに分類された文書データを検出する評価実験を行った。テキスト分類問題で性能評価によく用いられるデータベース20 newsgroups（非特許文献５「K. Nigam, J. Lafferty, and A. McCallum, "Using maximum entropy for text classification", In IJCAI-99 Workshop on Machine Learning for Information Filtering, 61−67, 1999.」参照）を用いた。

評価用データセットを作成するため、１０００個のサンプルを５つのサブカテゴリに属する文書データの中から無作為に抽出した。そして１０００個のサンプルの中からｒ_ｍ％のサンプルを無作為に選択し、文書データが属するサブカテゴリを別の４つのサブカテゴリのいずれかに無作為に変更することで誤分類サンプルを作成した。また、ラベルなしサンプル集合を作成するために、上記で選択したサンプルと異なる２０００個のサンプルを文書データの中から無作為に抽出した。この操作によって得られた誤分類サンプルを含むデータセットを誤分類検出対象サンプル集合として性能評価に用いた。性能評価の尺度には、情報検索タスクなどでよく利用されるＦ値を用いた。Ｆ値は、装置が検出できた誤分類サンプルの数Ｎ_ｃと、装置が検出したサンプルの数Ｎ_ｒと、誤分類検出対象サンプル集合に含まれる誤分類サンプルの数Ｎ_ｎとから、下記（３）式で計算される。Ｆ値は、値が大きいほど誤分類サンプルの検出性能が高いことを示す。

表１に、本実施の形態に係る誤分類検出装置（方法１）、及びラベルなしサンプルを学習に用いる代表的な統計的分類器であるＴＳＶＭ（非特許文献６「R. Collobert, F. Sinz, J. Weston, and L. Bottou, "Large scale transductive SVMs", Journal of Machine Learning Research, 7:1687−1712, 2006.」参照）と５分割交差検定とを併用した方法（方法２）により得られたＦ値の実験結果例を示す。また、非特許文献３に記載のラベルなしデータ利用法で、ナイーブベイズモデル、１−近傍法、及び最大エントロピーモデルの３つの統計分類器を適用した場合に最大のＦ値を与えた統計的分類器を用いた方法（方法３）の実験結果例を示す。なお、非特許文献３では、ラベルなしデータを用いて複数の統計的分類器を学習させた後、それらの統計的分類器の予測結果による多数決、または全会一致で誤分類判定を行っている。しかし、本実験の方法３では、統計的分類器を学習させる際のラベルなしデータの利用法の優劣を比較するため、学習済の複数の統計的分類器による多数決や全会一致による判定を行う前の結果を示す。方法１及び２は、多数決や全会一致による判定を行う誤分類検出装置を構成する際に、複数の統計的分類器の１つとして利用可能である。

表１より、ｒ_ｍの値を変えて行った実験の全ての場合で、方法１で得られたＦ値は、方法２及び３で得られたＦ値と比べて同等以上であった。以上の結果より、誤分類サンプルを検出するのに、本発明に係る誤分類検出装置は効果があることが分かる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０誤分類検出装置
１２確率モデル生成部
１４パラメータ記憶部
１６誤分類判定部

Claims

コンテンツの属するカテゴリが既知のラベルありサンプル集合の一部である第１サブサンプル集合と、コンテンツの属するカテゴリが未知のラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合されたモデルであって、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを生成する確率モデル生成手段と、
前記確率モデル生成手段により生成された条件付クラス確率モデルに基づいて、前記ラベルありサンプル集合から前記第１サブサンプル集合を除いた第２サブサンプル集合に含まれる各ラベルありサンプルが、誤ったカテゴリに分類されたコンテンツのサンプルか否かを判定する誤分類判定手段と、
を含む誤分類検出装置。
前記誤分類判定手段は、
前記第２サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリと、該ラベルありサンプルのコンテンツについて前記条件付クラス確率モデルから得られる確率が最大となるカテゴリとが一致しない場合、
前記第２サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリの前記条件付クラス確率モデルに基づく確率が、予め定めた第１閾値未満の場合、または
前記第２サブサンプル集合に含まれる各ラベルありサンプルのコンテンツが属するカテゴリ以外の各カテゴリの前記条件付クラス確率モデルに基づく確率の最大値に対する、該ラベルありサンプルのコンテンツが属するカテゴリの前記条件付クラス確率モデルに基づく確率の比率が、予め定めた第２閾値未満の場合に、
該ラベルありサンプルを誤分類サンプルと判定する請求項１記載の誤分類検出装置。
確率モデル生成手段と、誤分類判定手段とを含む誤分類検出装置における誤分類検出方法であって、
前記確率モデル生成手段が、コンテンツの属するカテゴリが既知のラベルありサンプル集合の一部である第１サブサンプル集合と、コンテンツの属するカテゴリが未知のラベルなしサンプル集合との両方を用いて学習された生成モデルと識別モデルとが統合されたモデルであって、コンテンツが各カテゴリに属する確率を示す条件付クラス確率モデルを生成し、
前記誤分類判定手段が、前記確率モデル生成手段により生成された条件付クラス確率モデルに基づいて、前記ラベルありサンプル集合から前記第１サブサンプル集合を除いた第２サブサンプル集合に含まれる各ラベルありサンプルが、誤ったカテゴリに分類されたコンテンツのサンプルか否かを判定する
誤分類検出方法。
コンピュータを、請求項１または請求項２記載の誤分類検出装置を構成する各手段として機能させるための誤分類検出プログラム。