JP5308360B2

JP5308360B2 - コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム

Info

Publication number: JP5308360B2
Application number: JP2010007381A
Authority: JP
Inventors: 昭典藤野; 修功上田; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-01-15
Filing date: 2010-01-15
Publication date: 2013-10-09
Anticipated expiration: 2030-01-15
Also published as: JP2011145951A

Description

この発明は、特徴ベクトルにより表現可能なコンテンツを複数の種別を表すカテゴリに分類する際に、カテゴリが判明しているコンテンツとカテゴリが不明のコンテンツの双方の統計情報を用いてコンテンツを識別する識別関数のパラメータを学習し、その識別関数を用いてカテゴリが未知なコンテンツを分類するコンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラムに関する。

統計的手法に基づくコンテンツの自動分類技術では、コンテンツとカテゴリの依存関係の強さを表す識別関数をモデルパラメータと特徴ベクトルの関数として与え、最も強い依存関係のあるカテゴリを識別関数をもとに推定することでコンテンツの自動分類を行う。モデルパラメータの値は、一般的に、カテゴリが判明しているコンテンツ（以下、ラベルありサンプル）を用いて求める。

この枠組に基づく手法では、モデルパラメータ値の計算に用いるラベルありサンプルの量を増やすことで、新規のコンテンツの自動分類の精度を向上させることができる。しかし、ラベルありサンプルを得るには、人手でコンテンツをカテゴリに分類する必要があるため、大量のラベルありサンプルを準備することが容易ではない。そこで、どのカテゴリに属するか判明していないコンテンツ（以下、ラベルなしサンプル）を大量に集め、それらのラベルなしサンプルをモデルパラメータの計算に利用することで、ラベルありサンプルのみを利用する場合と比べて自動分類の精度を向上させる技術がある。

図７に、例えば特許文献１に開示されたコンテンツ分類装置１の機能構成例を示してその動作を簡単に説明する。図８にその動作フローを示す。コンテンツ分類装置１は、訓練データＤＢ２、識別関数生成部３、コンテンツ分類部４、入力部５、出力部６、メモリ７を備える。

訓練データＤＢ２には識別関数を学習するために用いる訓練データ集合が格納される。その訓練データ集合は、コンテンツの特徴ベクトル本体とコンテンツが属するカテゴリＩＤの対より構成されるラベルありサンプルと、カテゴリＩＤが付与されていないコンテンツのみで構成されるラベルなしサンプルとから構成されている。

その学習は、訓練データＤＢ２に格納された訓練データ集合を用いて識別関数Ｒ（ｋ｜ｘ，Θ，Ψ，Λ）のパラメータΘ，Ψ，Λを学習する。Θは生成モデルのパラメータ、Ψは学習された生成モデルの統計上の偏りを補正するバイアス補正モデルのパラメータ、Λは非線形の最適化計算である最大エントロピ原理により推定される生成モデルおよびバイアス補正モデルの結合パラメータである。つまり、識別関数Ｒ（ｋ｜ｘ，Θ，Ψ，Λ）は、生成モデルとバイアス補正モデルを結合パラメータを用いて結合した関数として定義される。

識別関数生成部３は、生成モデルのパラメータの推定値Θ＾をラベルありサンプルを用いて学習する（ステップＳ１０３）。識別関数生成部３は、ラベルありサンプルから任意の１つのサンプル（ｘ_ｎ，ｙ_ｎ）を除外して、１点除外ラベルありサンプルを生成して生成モデルのパラメータΘ^（-ｎ）を算出する。変数の直後に表記する記号＾等は、本来、変数の真上に位置するのが正しい表記である。

生成モデルのパラメータΘ^（-ｎ）の算出は、全てのラベルありサンプルを除外した場合のサンプルパラメータの対が生成されるまで繰り返し実行される（図８のステップＳ１０５〜Ｓ１１０の処理を繰り返すループ）。そして、識別関数生成部３は、そのサンプルパラメータ対と生成モデルのパラメータとバイアス補正モデルのパラメータを用いて、最大エントロピ原理に基づいて生成モデルとバイアス補正モデルの結合パラメータΛの推定値Λ^{（ｔ＋１）}を学習し、識別関数Ｒを生成する。

このように特許文献１の技術は、生成モデルのパラメータ（条件付確率モデル）を、ラベルありサンプルを用いて学習させることを基本的な特徴とするため、学習に用いるラベルありサンプルの与え方に、新規コンテンツの分類精度が大きく依存する。特許文献２も、同様な考えであるので説明は省略する。

また、非特許文献１，２，３に開示された技術では、コンテンツとカテゴリの確率モデルを識別関数として自動分類に用い、確率モデルのパラメータ値をラベルありサンプルとラベルなしサンプルを同時に用いて計算することを特徴とする。非特許文献１と３では、コンテンツｘとカテゴリｙの同時確率モデルｐ（ｘ，ｙ）を識別関数として用い、同時確率モデルを用いて周辺確率密度ｐ（ｘ）を与えることでラベルなしサンプルをパラメータ値の計算に利用することを可能にしている。

非特許文献２では、コンテンツｘとカテゴリｙの条件付確率モデルＰ（ｙ｜ｘ）を識別関数として用い、条件付確率モデルが各ラベルなしサンプルを何れかのカテゴリに明確に識別するようにパラメータ値を計算する。また、非特許文献４に開示された技術では、確率モデルではない識別関数のパラメータ値をラベルありサンプルとラベルなしサンプルを用いて計算するが、各ラベルなしサンプルを何れかのカテゴリに明確に識別するように識別関数を学習させる点で非特許文献２の技術と類似する。

特許文献１，２や非特許文献５，６，７の技術では、ラベルありサンプルとラベルなしサンプルから識別関数のパラメータ値を計算するのに、２種類の確率モデルを用いることを特徴とする。特許文献１，２と非特許文献５の技術では、ラベルありサンプルを用いてパラメータ値を計算した確率モデルと、ラベルなしサンプルを用いてパラメータ値を計算した確率モデルを、重み付き統合することによって識別関数を与える。非特許文献６と７の技術では、条件付確率モデルＰ（ｙ｜ｘ）を識別関数として用い、そのパラメータ値をラベルありサンプルを用いて計算する。その際、ラベルなしサンプルの統計情報を条件付確率モデルのパラメータ値に反映させるために、ラベルなしサンプルを用いて学習させる同時確率モデルｐ（ｘ，ｙ）のパラメータ値と条件付確率モデルのパラメータ値との差が大きくならないように制約を与えてパラメータ値を計算する。これらの技術では、ラベルありサンプルで学習させる確率モデルと、ラベルなしサンプルで学習させる確率モデルを適切に組み合わせて用いることで自動分類の精度を向上させることを特徴とする。

非特許文献８と９の技術では、識別関数のパラメータ値を計算する際に、重み付けされたラベルありサンプルを用い、その重みを決定するのにラベルなしサンプルを用いることを特徴とする。特許文献１と２や非特許文献１〜７の技術と異なり、識別関数のパラメータ値の計算にラベルなしサンプルを直接的に用いない。非特許文献８と９の技術では、ラベルありサンプルの分布よりもラベルなしサンプル集合に含まれるコンテンツと類似するラベルありサンプルに大きな重みを与えて識別関数のパラメータ値を計算することで、新規のコンテンツに対する自動分類の精度を向上させる。

特開２００６−３３８２６３号公報特開２００９−２５９１０９号公報

K. Nigam, A. McCallum, S. Thrun, and T. Mitchell: Text classification from labeled and unlabeled documents using EM. Machine Learning, Vol. 39, pp. 103-134, 2000. Y. Grandvalet and Y. Bengio: Semi-supervised learning by entropy minimization. In Advances in Neural Information Processing Systems 17, 529-536(2005). Cambridge, MA: MIT Press. G. Druck, C. Pal, X. Zhu, and A. McCallum: Semi-supervised classification with hybrid generative/discriminative methods. In Proceedings of 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD’07), 280-289 (2007). R. Collobert, F. Sinz, J. Weston, and L. Bottou: Large scale transductive SVMs. Journal of Machine Learning Research, Vol. 7, pp. 1687-1712 (2006). J. Suzuki and H. Isozaki: Semi-supervised sequential labeling and segmentation using giga-word scale unlabeled data. In Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics(ACL-2008), 665-673 (2008). C. M. Bishop and J. Lasserre: Generative or Discriminative? Getting the best of both worlds. In Bayesian Statistics 8, 3-23 (2007). J. M. Bernardo, et al. (Eds), Oxford UniversityPress. A. Agarwal and H. Daume’ III: Exponential family hybrid semi-supervised learning. In Proceedings of the 21stInternational Joint Conference on Artificial Intelligence(IJCAI-2009), 974-979 (2009). S. Bickel, M.Bruckner, and T. Schefer: Discriminative learning for differing training and test distributions. In Proceedings of the 24th International Conference on Machine Learning(ICML-2007), 81-88 (2007). M. Sugiyama, S. Nakajima, H. Kashima, P. von Bunau, and M. Kawanabe: Direct importance estimation with model selection and its application to covariate shift adaptation. In Advances in Neural Information Processing Systems 20, 1433-1440 (2008). Cambridge, MA: MIT Press.

非特許文献１〜３の技術では、同時確率モデルまたは条件付確率モデルの何れか一方を識別関数として用い、識別関数のパラメータ値をラベルありサンプルとラベルなしサンプルを同時に用いて計算する。大量のラベルなしサンプルを識別関数のパラメータ計算に用いることで、ラベルありサンプルが少数であることによる訓練データの不足を補う。しかし、参考文献「M. Seeger: Learning with labeled and unlabeled data. Technical report, University of Edinburgh (2001)」に述べられているように、一般的に同時確率モデルはラベルなしサンプルの分布を学習するのに有効なモデルであるのに対し、条件付確率モデルは同時確率モデルよりラベルありサンプルを正しく分類するのに有効であることが知られている。このため、両モデルを適切に組み合わせることによって、非特許文献１〜３の技術よりもラベルありサンプルとラベルなしサンプルの統計情報を効果的に利用した識別関数を得られる可能性がある。しかし、同時確率モデルと条件付確率モデルの組み合わせ方法には理論的・実用的に決まった枠組みが存在せず、自動分類の精度を向上させるために両モデルをどのように組み合わせるかが技術的な課題となっている。

その課題を解決する方法として、特許文献１と２及び非特許文献５〜７の技術が開発されている。これらの技術は、同時確率モデルと条件付確率モデルの両方を用いて識別関数を与え、条件付確率モデルと同時確率モデルをそれぞれラベルありサンプルとラベルなしサンプルから学習させる点で同じである。実データを用いた評価実験で、これらの技術による自動分類精度の向上は確認されている。

しかし、これらの技術では、条件付確率モデルをラベルありサンプルを用いて学習させることを基本的な特徴とするため、識別関数の学習に用いるラベルありサンプルの与え方に新規コンテンツの自動分類の精度が大きく依存する。つまり、自動分類の対象となる新規コンテンツと識別関数の学習に用いるラベルありサンプルの分布が大きく異なる場合、新規コンテンツではなくラベルありサンプルのみを正しく識別するような条件付確率モデルを得てしまう。この条件付確率モデルを用いて与えられる識別関数は、新規コンテンツの自動分類に適するとは限らない。

また、非特許文献８と９の技術は、識別関数の学習に用いるラベルありサンプルと新規コンテンツが大きく異なる場合に、ラベルありサンプルのみに適した識別関数を得ること（過学習）を抑制する技術である。この技術では、大量に与えられるラベルなしサンプルの分布が新規コンテンツの分布と類似する場合に、ラベルなしサンプルの分布から新規コンテンツと大きく異なると推定されるラベルありサンプルに低い重みを与えてパラメータ値を計算することで、新規コンテンツにより適した識別関数を得ることを特徴とする。この技術は、ラベルありサンプルの分布と新規コンテンツの分布の相違によって生じる悪影響を抑制することを目的としており、ラベルありサンプル数の不足による識別関数の学習不足を、ラベルなしサンプルで補うことを目的としたものではない。つまり、テキスト分類などのように、疎な特徴量空間をもつ自動分類問題で特に見られるラベルありサンプルに含まれる特徴量を全く含まない新規コンテンツの自動分類の精度を、ラベルなしサンプルを活用することで向上させることは、この技術の目的ではない。

以上整理すると、非特許文献１〜３の技術は、同時確率モデル又は条件付確率モデルのどちらか一方を識別関数として用いる方法である。また、特許文献１と２及び非特許文献５〜７の技術は、条件付確率モデルのパラメータ値をラベルありサンプルのみを用いて計算するものである。また、非特許文献８と９の技術は、識別関数の学習不足をラベルなしサンプルで補うことを目的としたものではない。このように従来技術では、ラベルなしサンプルの統計情報を効果的に用いてカテゴリが未知なコンテンツを分類する方法はなかった。

この発明は、このような問題点に鑑みてなされたものであり、特徴ベクトルによって表現されるコンテンツを、内容を表すカテゴリに自動分類する際、分類対象となる新規コンテンツとパラメータ計算に用いるラベルありサンプルの分布が大きく異なる場合において、ラベルなしサンプルの統計情報を効果的に活用することによって新規コンテンツに対して頑健かつ高精度な自動分類を実現するコンテンツ自動分類装置と、コンテンツ自動分類方法およびコンテンツ自動分類プログラムを提供することを目的とする。

この発明のコンテンツ自動分類装置は、カテゴリが不明なコンテンツを入力として、そのコンテンツのカテゴリを分類するコンテンツ自動分類装置であって、識別関数生成部とコンテンツ分類部とを具備する。識別関数生成部は、コンテンツとカテゴリの依存関係の強さを表す識別関数を、条件付確率モデルＰ（ｙ｜ｘ）と同時確率モデルｐ（ｘ，ｙ）との重み付き統合により構成し、コンテンツの属するカテゴリが既知のラベルありサンプル集合と、コンテンツの属するカテゴリが不明なラベルなしサンプル集合との、統計情報をもとに識別関数の同時確率モデルのパラメータΘ^（ｔ）と、条件付確率モデルのパラメータＷ^（ｔ）と、重みβ^（ｔ）と、を同時に計算して求める。コンテンツ分類部は、コンテンツと識別関数の各パラメータの推定値を入力としてその識別関数値を最大化させるカテゴリを求めて出力する。

この発明のコンテンツ自動分類装置によれば、コンテンツの識別関数を条件付確率モデルと同時確率モデルの重み付き統合で与え、識別関数のモデルパラメータである条件付確率モデルのパラメータと、同時確率モデルのパラメータと、重み付き統合の重みと、をラベルありサンプルとラベルなしサンプルの双方の統計情報を同時に用いて計算することで、ラベルありサンプルのみに適した識別関数を生成することを抑制すると共に、ラベルありサンプルに含まれない特徴量（特徴ベクトル）に関する識別関数の学習不足をラベルなしサンプルで補うことができる。その結果、分類対象となる新規コンテンツとパラメータ計算に用いるラベルありサンプルの分布が大きく異なる場合においても、新規コンテンツに対して頑健かつ高精度な自動分類を実現することができる。

この発明のコンテンツ自動分類装置１００の機能構成例を示す図。コンテンツ自動分類装置１００の動作フローを示す図。識別関数生成部２０の機能構成例を示す図。識別関数生成部２０の動作フローを示す図。ラベルありサンプルのデータ分布が、ラベルなしサンプルのデータ分布と大きく変わらない場合の評価実験の結果を示す図。ラベルありサンプルのデータ分布とラベルなしサンプルのデータ分布との差が大きい場合の評価実験の結果を示す図。特許文献１に開示されたコンテンツ分類装置１の機能構成を示す図。コンテンツ分類装置１の動作フローを示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明のコンテンツ自動分類装置１００の機能構成例を示す。図２にその動作フローを示す。コンテンツ自動分類装置１００は、識別関数生成部２０と、コンテンツ分類部４０とを具備する。外部に訓練データＤＢ１０が設けられる。その各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

コンテンツ自動分類装置１００は、予め設定したカテゴリ{１，…，ｋ，…，Ｋ}の中から、分類対象コンテンツが属するカテゴリを推定する装置である。この推定は、予め識別関数生成部３で計算した識別関数のパラメータ値を用いて、分類対象コンテンツに対して最大の識別関数値を与えるカテゴリを探索することで行われる。

訓練データＤＢ１０には、自動分類対象となるコンテンツと同様の形式をもつコンテンツの例を集めて生成された訓練データ集合が記憶されている。例えば、Ｗｅｂ記事を自動分類する場合、Ｗｅｂ記事の例とその例の内容を表すカテゴリ（音楽、スポーツ、ビジネスなど）を記録した訓練データＤＢ１０を用いる。

訓練データ集合は、コンテンツ本体とカテゴリの対から成るラベルありサンプルと、属するカテゴリが不明なラベルなしサンプルから成る。カテゴリの候補は、利用者あるいは自動分類装置の設計者によって予め定義される。

識別関数生成部２０は、条件付確率モデルＰ（ｙ｜ｘ；Ｗ）と同時確率モデルｐ（ｘ，ｙ；θ_ｙ）の重み付き統合（重みβ）に基づいて定義される識別関数のパラメータである条件付確率モデルのパラメータＷ＾と、同時確率モデルのパラメータΘ＾＝[θ_１，…，θ_ｋ，…，θ_Ｋ]と、重み付き統合の重みβ＾の各値を、ラベルありサンプルとラベルなしサンプルを用いて同時に計算する（ステップＳ２０）。識別関数のパラメータ値はメモリ３０に記録するようにしても良い。ここでｘはコンテンツの特徴ベクトル、ｙ∈{１，…，ｋ，…，Ｋ}はコンテンツが属するカテゴリを表す。Ｐは確率値、ｐは確率密度である。

コンテンツ分類部４０は、識別関数のパラメータ値Ｗ＾，β＾，Θ＾を用いて分類対象コンテンツｘ_ｚを、コンテンツが属するカテゴリに分類する（ステップＳ４０）。

条件付確率モデルＰ（ｙ｜ｘ；Ｗ）と同時確率モデルｐ（ｘ，ｙ；θ_ｙ）の重み付き統合（重みβ）に基づいて定義される識別関数のパラメータをラベルありサンプルとラベルなしサンプルの双方の統計情報を同時に用いて計算することで、ラベルありサンプルのみに適した識別関数を生成することを抑制すると共に、ラベルありサンプルに含まれない特徴量に関する識別関数の学習不足をラベルなしサンプルで補うことができるので、新規コンテンツに対して頑健かつ高精度な自動分類を行うことができる。

図２に識別関数生成部２０のより詳細な機能構成例を示す。その動作フローを図３に示す。識別関数生成部２０は、基準計算部２１と、確率値計算部２２と、条件付き確率モデル計算部２３と、同時確率モデル計算部２４と、重み計算部２５と、収束判定部２６と、を備える。

基準値計算部２１は、訓練データＤＢ１０に保存されているラベルありサンプル集合Ｄ_ｐ（式（１））と、ラベルなしサンプル集合Ｄ_ｕ（式（２））を読み込んで同時確率モデルｐ（ｘ，ｙ；θ_ｙ）のパラメータθ_ｙの基準値θ⁻を計算する（ステップＳ２１）。

ここで、ｎはラベルありサンプル集合に含まれるラベルありサンプルのＩＤ番号を表し、ｍはラベルなしサンプル集合に含まれるラベルなしサンプルのＩＤ番号を表す。
基準値θ⁻は、同時確率モデルのパラメータの初期値Θ^（０）とされる。また、条件付確率モデルのパラメータの初期値Ｗ^（０）と、重み付き統合の重みの初期値β^（０）を設定する。

確率値計算部２２は、各パラメータの初期値Θ^（０），Ｗ^（０），β^（０）、若しくは収束判定部２６から入力される収束途中の各パラメータΘ^（ｔ），Ｗ^（ｔ），β^（ｔ）を、パラメータ値としてラベルなしサンプルｘ_ｍがカテゴリｙに属する確率値Ｒ（ｙ｜ｘ_ｍ；Ｗ^（ｔ），Θ^（ｔ），β^（ｔ））を計算する（ステップＳ２２）。

条件付確率モデル計算部２３は、確率値Ｒ（ｙ｜ｘ_ｍ；Ｗ^（ｔ），Θ^（ｔ），β^（ｔ））とラベルありサンプルとラベルなしサンプルを用いて条件付確率モデルのパラメータＷ^{（ｔ＋１）}を計算する（ステップＳ２３）。同時確率モデル計算部２４は、確率値Ｒ（ｙ｜ｘ_ｍ；Ｗ^（ｔ），Θ^（ｔ），β^（ｔ））を入力として同時確率モデルのパラメータθ^{（ｔ＋１）}を計算する（ステップＳ２４）。

重み計算部２５は、確率値Ｒ（ｙ｜ｘ_ｍ；Ｗ^（ｔ），Θ^（ｔ），β^（ｔ））と同時確率モデルのパラメータθ^{（ｔ＋１）}を入力として重み付き統合の重みβ^{（ｔ＋１）}を計算する（ステップＳ２５）。

収束判定部２６は、各パラメータＷ^{（ｔ＋１）}，θ^{（ｔ＋１）}，β^{（ｔ＋１）}の変化量ｄ（ｔ＋１，ｔ）を計算し、収束条件ｄ（ｔ＋１，ｔ）＜εを満たせばＷ＾←Ｗ^{（ｔ＋１）}，Θ＾←θ^{（ｔ＋１）}，β＾←β^{（ｔ＋１）}として各パラメータの推定値を出力する（ステップＳ２６の収束）。収束条件を満たさなければ、パラメータの学習のステップをｔ←ｔ＋１のように更新してステップＳ２２〜ステップＳ２６までの処理を再度実施する。この処理は収束条件を満たすか、ｔが所定の回数ｔ_ｍａｘに到達するまで繰り返される（ステップＳ２６の未収束）。

このように一回の収束判定処理によって、識別関数のパラメータの推定値Ｗ＾，Θ＾，β＾が計算される。つまり、各パラメータの推定値Ｗ＾，Θ＾，β＾は、ラベルありサンプルとラベルなしサンプルの双方の統計情報を用いて同時に計算される。

識別関数生成部２０を構成する各計算部で行われる計算の具体例を示して更に詳しく実施例１の動作を説明する。計算の具体例を、Ｋ個のカテゴリ{１，…，ｋ，…Ｋ}からコンテンツｘが属するカテゴリｙを１つ選択する多クラス分類問題に対して、条件付確率モデルに対数線形モデル（最大エントロピーモデル、多項ロジスティック回帰モデルと等価）を、同時確率モデルに単純ベイズモデル（Naive Bayes model）を、用いた例で説明する。

コンテンツに含まれる単語や画素、リンク、或いはそれらの組み合わせ等により構成される特徴量空間をＴ＝{ｔ_１，…，ｔ_ｉ，…，ｔ_Ｖ}とするとき、コンテンツの特徴ベクトルｘは、コンテンツに含まれるｔ_ｉの頻度ｘ_ｉをもとにｘ＝（ｘ_１，…，ｘ_ｉ，…，ｘ_Ｖ）^Ｔで表現される。添え字ｉはスカラー量であることを意味する。Ｖはコンテンツに含まれる可能性がある特徴の種類の数を表す。例えば、コンテンツがテキストデータである場合、Ｖはコンテンツに出現する可能性がある語彙の総数を表す。Ａ^Ｔは行列（ベクトル）Ａの転置を表す。

対数線形モデルでは、コンテンツｘがカテゴリｙに属する確率Ｐ（ｙ｜ｘ）を式（３）で定義する。

ここで、Ｗ＝[ｗ_１，…，ｗ_ｋ，…，ｗ_Ｋ]^Ｔは対数線形モデルのパラメータ行列を表し、ｗ_ｋ＝（ｗ_ｋ１，…，ｗ_ｋｉ，…ｗ_ｋＶ）^Ｔである。単純ベイズモデルでは、カテゴリｙとコンテンツｘの同時確率密度ｐ（ｘ，ｙ）を、カテゴリｙにおけるそれぞれの特徴ｔ_ｉの出現確率θ_ｙｉが独立であると仮定して式（４）で定義する。

ここで、θ_ｙ＝（θ_ｙ１，…，θ_ｙｉ，…，θ_ｙＶ）^Ｔであり、θ_ｙ１＞０かつ｜θ_ｙ｜＝Σ^Ｖ _ｉ１θ_ｙｉ＝１である。また、Θ＝[θ_１，…θ_ｋ，…，θ_Ｋ]^Ｔは単純ベイズモデルのパラメータ行列を表す。Ｐ（ｙ）＞０はカテゴリｙの出現確率を表し、Σ^Ｋ _ｋ＝１Ｐ（ｋ）＝１を満たす。

この実施例では、識別関数生成部２０において訓練データＤＢ１０に保存されているラベルありサンプル集合Ｄ_ｐ（式（１））とラベルなしサンプル集合Ｄ_ｕ（式（２））を読み込んで識別関数のパラメータ値の計算と識別関数の生成を行う（ステップＳ２０、図２）。生成される識別関数は、識別関数によって与えられるコンテンツｘがカテゴリｙに属する確率Ｒ（ｙ｜ｘ）とするとき、条件付確率モデルＰ（ｙ｜ｘ；Ｗ）と同時確率モデルｐ（ｘ，ｙ；θ_ｙ）に関する重み付き最適化（パレート最適化）に基づく目的関数（式（５））の最大化により与えられる。

ここで、ｐ＾（ｘ）は訓練データとして与えられるコンテンツの確率密度を表す。確率Ｒ（ｙ｜ｘ）と条件付確率モデルのＫＬ距離を式（６）、確率Ｒ（ｙ｜ｘ）による同時確率モデルの期待対数尤度を式（７）でそれぞれ表す。

βは、条件付確率モデルと同時確率モデルの重み付き統合の重みを与え、非負の値（β＞０）を取るとする。すなわち、識別関数によって与えられる確率値Ｒ（ｙ｜ｘ）と条件付確率モデルの差が小さく、かつ、確率値Ｒ（ｙ｜ｘ）によって推定されるカテゴリｙとコンテンツｘの分布が同時確率モデルによく適合するように識別関数を与える。また、ｐ（Ｗ）とｐ（Θ）は、パラメータＷとΘの事前確率分布を表し、例えばそれぞれ正規分布とディリクレ分布を用いて式（８）と式（９）で与えられる。

σとξ（＞１）は、識別関数のパラメータ計算のために事前に値を設定すべき事前分布を表すパラメータ（ハイパーパラメータ）である。

式（５）で与えた目的関数を最大化させる確率値Ｒ（ｙ｜ｘ）は、Σ^Ｋ _ｋ＝１Ｒ（ｋ｜ｘ）＝１の条件下で方程式∂Ｊ/∂Ｒ＝０を解くことで、条件付確率モデルと同時確率モデルを用いて式（１０）で表現できる。

確率値計算部２２（図３）は、式（１０）で与えられるＲ（ｙ｜ｘ；Ｗ，Θ，β）を識別関数として生成する。

訓練データＤＢ１０に含まれるラベルありサンプル集合Ｄ_ｐとラベルなしサンプル集合Ｄ_ｕから計算すべき識別関数のパラメータは、条件付確率モデルのパラメータＷと、同時確率モデルのパラメータΘ、重み付き統合の重みβである。ラベルありサンプル集合Ｄ_ｐに含まれるコンテンツｘ_ｎのカテゴリｙ_ｎは判明しており、Ｒ（ｙ_ｎ｜ｘ_ｎ）＝１，Ｒ（ｙ≠ｙ_ｎ｜ｘ_ｎ）＝０であるべきである。一方、ラベルなしサンプル集合Ｄ_ｕに含まれるコンテンツｘ_ｍのカテゴリｙは不明である。

そこで、ラベルありサンプルについてはＲ（ｙ_ｎ｜ｘ_ｎ）＝１，Ｒ（ｙ≠ｙ_ｎ｜ｘ_ｎ）＝０とし、ラベルなしサンプルについては式（１０）で与えられる確率値を用いて式（５）の目的関数を書き替えると式（１１）になる。

条件付確率モデル計算部２３と同時確率モデル計算部２４と重み計算部２５は、条件付確率モデルと同時確率モデルとの重み付き統合に用いる重みの２乗値を、最小化すべき抑制項として目的関数に付加することで定義される最適化問題の解として、重み値β^{（ｔ＋１）}と条件付確率モデルのパラメータ値Ｗ^{（ｔ＋１）}と同時確率モデルのパラメータ値θ^{（ｔ＋１）}と、を同時に計算する

つまり、条件付確率モデル計算部２３と同時確率モデル計算部２４は、式（１１）の目的関数Ｊ（Ｗ，Θ｜β）の最大化に基づいて識別関数を構成する条件付確率モデルと同時確率モデルのパラメータＷ，Θの値を計算する。具体的には、Ｊ（Ｗ，Θ｜β）と基準値Ｊ（Ｗ⁻，Θ⁻｜β）の差にβの抑制項を加えた式（１２）の目的関数の最大化によりパラメータＷ，Θ，βを計算する。

すなわち、基準値に対する目的関数Ｊ（Ｗ，Θ｜β）の値が最大になるように識別関数のパラメータＷ，Θ，βの値を計算する。式（１２）中のρは式（８）と式（９）中のσとξと同様に、パラメータ計算のために事前に定数値を設定すべきハイパーパラメータである。

基準値Ｊ（Ｗ⁻，Θ⁻｜β）を与える条件付確率モデルのパラメータの基準値Ｗ⁻と同時確率モデルのパラメータの基準値Θ⁻は、各カテゴリに対して均等な確率値（Ｒ（ｙ｜ｘ＝１/Ｋ）を与えるパラメータ値として与える。これらの値は、式（５）にＲ（ｙ｜ｘ）＝１/Ｋを代入して得られる目的関数（式（１３））を最大化させるパラメータＷ，Θとして与えられる。

条件付確率モデルと同時確率モデル及びパラメータの事前確率分布として式（３），（４），（８），（９）を用いる場合、Ｗ⁻＝０であり、Θ⁻＝[θ＾_ｙｉ]_ｉ，ｙについては、ラベルありサンプル集合Ｄ_ｐとラベルなしサンプル集合Ｄ_ｕに含まれるコンテンツを用いて式（１４）で計算できる。また、単純ベイズモデルに含まれるＰ（ｙ）の推定値はＰ⁻（ｙ）＝１/Ｋである。このため、式（１４）と（１５）を用いると式（１２）は式（１６）に示すように簡略化できる。

Ｃは定数項であり識別関数のパラメータの計算には無関係である。
基準値計算部２１は、予め外部から設定されるハイパーパラメータξとラベルありサンプルＤ_ｐとラベルなしサンプルＤ_ｕとを用いて同時確率モデルＰ（ｘ，ｙ；θ_ｙ）のパラメータθ_ｙの基準値θ⁻を式（１４）で計算すると共に、同時確率モデルのパラメータの初期値Θ^（０）をθ^（０）ｋ←θ⁻に、重み付き統合の重み値をβ^（０）←０に初期化する。また、条件付確率モデルのパラメータＷ^{（ｔ＋１）}を、ラベルありサンプル集合Ｄ_ｐを用いて式（１７）で計算し、学習ステップｔをｔ←０にする（ステップＳ２１）。

確率値計算部２２は、条件付確率モデルのパラメータＷ^（ｔ）と同時確率モデルのパラメータΘ^（ｔ）と重みβ^（ｔ）とから式（１０）で識別関数値Ｒ（ｙ｜ｘ；Ｗ，Θ，β）を計算する（ステップＳ２２）。学習ステップｔ＝０では、各パラメータは初期値Ｗ^（０），Θ^（０），β^（０）が用いられる。

条件付確率モデル計算部２３と、同時確率モデル計算部２４と、重み計算分２５とは、期待値最大化（ＥＭ）アルゴリズムのような繰り返し計算を行うことでパラメータＷ^（ｔ），Θ^（ｔ），β^（ｔ）を計算する。

その繰り返し計算は、学習ステップ（ｔ）におけるパラメータＷ^（ｔ），Θ^（ｔ），β^（ｔ）を、学習ステップ（ｔ＋１）におけるパラメータ値をＱ関数（式（１８））を最大化させるパラメータ値として計算する。

このＱ関数の最大化問題の解は、確率値計算部２２で式（１０）をもとに計算された確率値Ｒ（ｙ｜ｘ_ｍ；Ｗ^（ｔ），Θ^（ｔ），β^（ｔ））を用いて、条件付確率モデル計算部２３でＷ^{（ｔ＋１）}を式（１９）で計算し（ステップＳ２３）、同時確率モデル計算部２４でΘ^{（ｔ＋１）}を式（２０）で計算する。

式（２０）中のＩ_ｙｎ（ｙ）はｙ＝ｙ_ｎの時に１、ｙ≠ｙ_ｎの時に０となる指示関数である。

式（１７）で与えられるＷ^（０）と式（１９）で与えられるＷ^{（ｔ＋１）}の値は、準ニュートン法の一種であるＢＦＧＳアルゴリズムや確率的勾配降下（ＳＧＤ）法などを用いることで計算できる。ＢＦＧＳアルゴリズムは参考文献「D. C. Liu and J. Nocedal: On the limited memory BFGS method for large scale optimization, Math. Programming, Ser. B, Vol. 45, No. 3, pp.503-528 (1989).」を参照。確率的勾配降下（ＳＧＤ）法は参考文献「Y. Tsuruoka, J. Tsujii, and S. Ananiadou: Stochastic gradient descent training for L1-regularized log-linear models with cumulative penalty. In Proceedings of the 47^thAnnual Meeting of the Association for Computational Linguistics (ACL-2009), 477-485 (2009).」を参照。

重み計算部２５は、Θ^{（ｔ＋１）}を用いて式（２１）で重みβ^{（ｔ＋１）}を計算する（ステップＳ２５）。

なお、式（２１）は、同時確率モデルの重み値を、ラベルありサンプルに対する対数尤度とラベルなしサンプルに対する期待対数尤度に比例する量に設定することを意味する。すなわち、この実施例では、ラベルあり・なしサンプル双方に対する同時確率モデルの適合度に応じて重み値を設定し、この適合度が高いほど同時確率モデルに大きな重みを与えて識別関数を生成する。

収束判定部２６は、学習ステップ（ｔ＋１）における識別関数のパラメータＷ^{（ｔ＋１）}，Θ^{（ｔ＋１）}，β^{（ｔ＋１）}を計算したあと、例えば式（２２）で与える収束条件を満たすか否かを確認する（ステップＳ２６）。

ここで、Ψ^（ｔ）＝Ｗ^（ｔ）＋β^（ｔ）logΘ^（ｔ）であり、‖Ψ^（ｔ）‖は行列Ψ^（ｔ）のフロベニウスノルムを表す。εは事前に与える微小な数値である。ステップＳ２６で収束条件を満たす場合は、パラメータＷ^{（ｔ＋１）}，Θ^{（ｔ＋１）}，β^{（ｔ＋１）}を各パラメータの推定値Ｗ＾，Θ＾，β＾としてコンテンツ分類部４０に出力する。各パラメータの推定値Ｗ＾，Θ＾，β＾はメモリ３０に記録するようにしても良い。収束条件を満たさない場合は学習ステップ（ｔ）←ｔ＋１としてステップＳ２２〜Ｓ２６までの処理を繰り返す。

以上説明したパラメータ計算アルゴリズムを整理して書くと下記のようになる。
手順１：ハイパーパラメータσ，ξ，ρを所定値として外部から設定。
手順２：式（１４）を用いてラベルありサンプル集合Ｄ_ｐ（式（１））とラベルなしサンプル集合Ｄ_ｕ（式（２））から同時確率モデルのパラメータの基準値θ⁻を計算（図４、ステップＳ２１）。

手順３：学習ステップｔとパラメータの初期値を設定
３_１．学習ステップ（ｔ）＝０、Θ^（ｔ）の要素θ^（ｔ） _ｙｉ，∀ｙにθ⁻ _ｉを代入。
３_２．式（１７）の右辺を満たすパタメータ値ＷをＢＦＧＳアルゴリズム又はＳＧＤ法を用いて計算し、Ｗ^（ｔ）に代入（ステップＳ２１）。

手順４：識別関数のパラメータの推定値Ｗ＾，Θ＾，β＾を計算。
４_１．収束条件のパラメータεと、最大繰り返し計算ｔ_ｍａｘの値を設定。
４_２．Ｗ^（ｔ），Θ^（ｔ），β^（ｔ）を用いてラベルなしサンプルｘ_ｍがカテゴリｙに属する確率値を計算（ステップＳ２２）。
４_３．ＢＦＧＳアルゴリズム又はＳＧＤ法を用いて、式（１９）によりラベルありサンプル集合Ｄ_ｐとラベルなしサンプル集合Ｄ_ｕ、ラベルなしサンプルの確率値{Ｒ（ｙ｜ｘ_ｍ；Ｗ^（ｔ），Θ^（ｔ），β^（ｔ））}_ｍ，ｋで表せる条件付確率モデルのパラメータ値Ｗ（ｔ＋１）を計算（ステップＳ２３）。
４_４．ラベルありサンプル集合Ｄ_ｐとラベルなしサンプル集合Ｄ_ｕ、ラベルなしサンプルの確率値{Ｒ（ｙ｜ｘ_ｍ；Ｗ^（ｔ），Θ^（ｔ），β^（ｔ））}_ｍ，ｋを用いて同時確率モデルのパラメータΘ^{（ｔ＋１）}を計算（ステップＳ２４）。
４_５．式（２１）により、ラベルありサンプル集合Ｄｐとラベルなしサンプル集合Ｄ_ｕ、ラベルなしサンプルの確率値{Ｒ（ｙ｜ｘ_ｍ；Ｗ^（ｔ），Θ^（ｔ），β^（ｔ））}_ｍ，ｋとΘ^{（ｔ＋１）}を用いて表せる重み付き統合の重み値β^{（ｔ＋１）}を計算（ステップＳ２５）。
４_６．収束判定（学習終了判定）処理を実行（ステップＳ２６）
手順５：収束したパラメータの推定値Ｗ＾，Θ＾，β＾をコンテンツ分類部４０に出力。

コンテンツ分類部４０は、識別関数Ｒ（ｙ｜ｘ；Ｗ＾，Θ＾，β＾）から正規化項を除去した関数（式（２３））を用いて、式（２４）を満たすカテゴリｙ＾をコンテンツｘ_ｚの自動分類結果として出力する。

コンテンツ分類部４０の処理は、一般的な最大値を求めるアルゴリズムで簡単に実現することが可能であるのでこれ以上の説明は省略する。

〔実験結果〕
この発明の動作を確認する目的で、上位カテゴリとしてコンピュータに属するコンテンツを、５つのサブカテゴリに分類する評価実験を行った。テキスト自動分類装置の性能評価に良く用いられるデータベース２０newsgroups（２０News、非特許文献１参照）を用いた。

このデータベースには、コンテンツ本体とコンテンツが属するカテゴリ情報が付与されており、カテゴリの総数は２０である。性能評価では２種類の評価用データセットを作成した。

評価用データセット１は、パラメータ値の計算に用いるラベルありサンプルと２５００個のラベルなしサンプルを５つのサブカテゴリに属するコンテンツの中から無作為に抽出した。すなわち、ラベルなしサンプルとして抽出されたコンテンツについては、データベースに記録されたカテゴリ情報を用いずに、識別関数のパラメータ計算を行う。また、ラベルありサンプルとラベルなしサンプルとして抽出されなかった残りのコンテンツから１０００文書を利用者が分類を望むコンテンツとして（以下、テストサンプル）無作為に抽出して自動分類の性能評価に用いた。性能評価の尺度には、自動分類装置で推定されるテストサンプルのカテゴリとデータベースに記録されているカテゴリの一致率（以下、正答率）を用いた。

評価用データセット２は、５つのサブカテゴリに属するコンテンツをspherical K-meansアルゴリズム（参考文献「I. S. Dhillon and D. S. Modha: Concept decompositions for large spase text data using clustering. Machine Learning, Vol. 42, pp. 143-175 (2001).」）を用いてクラスタリングし、異なるクラスタからそれぞれラベルありサンプルとラベルなしサンプルを抽出した。このようにクラスタリング結果を用いてサンプル抽出を行う事で、評価用データセット２は、評価用データセット１と比べて、ラベルありサンプルの分布とラベルなしサンプルの分布との、相違が大きくなる。

図５に、評価用データセット１を用いた場合の正答率とラベルありサンプルの数との関係を示す。縦軸が正答率、横軸がラベルありサンプルの数である。図中の●が実施例１で説明したこの発明のコンテンツ自動分類装置１００で分類した結果、■は非特許文献５で開示された方法（ＬＬ-ＮＢ法）で分類した結果、◆は特許文献１で開示された方法で分類した結果を示す。ラベルありサンプルの数が増加するに従って正答率が向上する右上がりの特性を示し、各方法による正答率に大きな差が見られない。

図６に、評価用データセット２を用いた場合の結果を示す。この発明のコンテンツ自動分類装置１００で分類した結果の正答率が、最も良い結果を示した。このようにラベルありサンプルのデータ分布と、ラベルなしサンプルのデータ分布との差が大きい場合にこの発明のコンテンツ自動分類装置１００に優位性があることが分かる。すなわち、この発明によるコンテンツ自動分類装置１００は、従来の分類装置に比べて、ラベルありサンプルの分布が大きく異なる場合においても、新規コンテンツに対して頑健かつ高精度な自動分類を可能にする。

実施例１に示した方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する各装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしても良い。例えば、この発明の特徴である識別関数のパラメータの値が同時に計算されることを分かり易く表現する目的で、図４において条件付確率モデル計算過程Ｓ２３と、同時確率モデル計算過程Ｓ２４と重み計算過程Ｓ２５と、を並列に表記した。しかし、これらの過程は順次、時系列的に処理されるようにしても良い。つまり、一回の収束判定過程でそれぞれ１個のパラメータの推定値が計算されれば良い。

また、実施例１のコンテンツ自動分類装置１００では、訓練データＤＢ１０をその外部に設ける例で説明を行ったが、訓練データＤＢ１０を含めた分類装置としても、この発明の技術思想に何んら影響を与えない。また、実施例１では、コンテンツ自動分類装置１００に、未知のコンテンツの特徴ベクトルを直接与える例で説明を行ったが、生のコンテンツをそのまま入力するようにしても良い。その場合は、コンテンツ分類部４０（図１）の前に入力部などを設け、そこで生のコンテンツを特徴ベクトルに変換する処理を行わせるようにすれば良い。

また、上記各装置における処理内容はプログラムによって記述される。また、各装置の機能構成部は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしても良い。

Claims

カテゴリが不明なコンテンツを入力として、そのコンテンツのカテゴリを分類するコンテンツ自動分類装置であって、
コンテンツとカテゴリの依存関係の強さを表す識別関数を、条件付確率モデルＰ（ｙ｜ｘ）と同時確率モデルｐ（ｘ，ｙ）との重み付き統合により構成し、コンテンツの属するカテゴリが既知のラベルありサンプル集合と、コンテンツの属するカテゴリが不明なラベルなしサンプル集合との統計情報をもとに、上記識別関数の同時確率モデルのパラメータΘ^（ｔ）と、条件付確率モデルのパラメータＷ^（ｔ）と、重みβ^（ｔ）、を同時に計算して求める識別関数生成部と、
上記コンテンツの特徴ベクトルと上記識別関数の各パラメータの推定値を入力としてその識別関数値を最大化させるカテゴリを求めて出力するコンテンツ分類部と、
を具備するコンテンツ自動分類装置。
請求項１に記載したコンテンツ自動分類装置において、
上記識別関数生成部は、
ラベルありサンプルとラベルなしサンプルに対する識別関数が与える条件付確率と上記条件付確率モデルとのＫＬ距離（Kullback-Leibler divergence）の最小化と、識別関数が与える条件付確率による上記同時確率モデルの期待対数尤度の最大化との、重み付き最適化に基づいて条件付確率モデルと同時確率モデルの重み付き統合により識別関数を構成することを特徴とするコンテンツ自動分類装置。
請求項１又は２に記載したコンテンツ自動分類装置において、
上記識別関数生成部は、
上記ラベルありサンプルとラベルなしサンプルを用いて同時確率モデルｐ（ｘ，ｙ；θ_ｙ）のパラメータθ_ｙの基準値θ⁻を計算すると共に、同時確率モデルのパラメータの初期値Θ^（０）と重みの初期値β^（０）と条件付確率モデルのパラメータの初期値Ｗ^（０）とを設定する基準値計算部と、
条件付確率モデルのパラメータＷ^（ｔ）と同時確率モデルのパラメータΘ^（ｔ）と重み付き統合の重みβ^（ｔ）とから計算される識別関数値を用いて、ラベルなしサンプルがカテゴリに属する確率値を計算する確率値計算部と、
上記確率値とラベルありサンプルとラベルなしサンプルを用いて条件付確率モデルのパラメータＷ^{（ｔ＋１）}を計算する条件付確率モデル計算部と、
上記確率値を用いて同時確率モデルのパラメータΘ^{（ｔ＋１）}を計算する同時確率モデル計算部と、
上記確率値と上記同時確率モデルのパラメータΘ^{（ｔ＋１）}を用いて重み付き統合の重みの推定値β^{（ｔ＋１）}を計算する重み計算部と、
上記条件付確率モデルのパラメータＷ^{（ｔ＋１）}と上記同時確率モデルのパラメータ値Θ^{（ｔ＋１）}とモデル統合の重みβ^{（ｔ＋１）}の変化量を計算し、収束条件を満たす上記各パラメータの推定値Ｗ＾，Θ＾，β＾が求まるまで、或いは所定の回数に達するまで繰り返し処理を行う収束判定部と、
を備えることを特徴とするコンテンツ自動分類装置。
請求項３に記載したコンテンツ自動分類装置において、
上記重み計算部は、
ラベルありサンプルとラベルなしサンプルに対する同時確率モデルの期待対数尤度をもとに上記重みの推定値β^{（ｔ＋１）}を計算するものであることを特徴とするコンテンツ自動分類装置。
請求項３に記載したコンテンツ自動分類装置において、
上記確率値計算部は、重み付き最適化に用いる目的関数を最大化させる確率値を、条件付確率モデルのパラメータの基準値と同時確率モデルのパラメータの基準値とを代入して得られる関数として計算するものであり、
上記条件付確率モデル計算部と上記同時確率モデル計算部と上記重み計算部は、条件付確率モデルと同時確率モデルとの重み付き統合に用いる重みの２乗値を、最小化すべき抑制項として上記目的関数に付加することで定義される最適化問題の解として、重み値β^{（ｔ＋１）}と条件付確率モデルのパラメータ値Ｗ^{（ｔ＋１）}と同時確率モデルのパラメータ値θ^{（ｔ＋１）}と、を同時に計算するものであることを特徴とするコンテンツ自動分類装置。
請求項３に記載したコンテンツ自動分類装置において、
上記重み計算部は、
ラベルありサンプルとラベルなしサンプルがカテゴリに属する確率をカテゴリによらずに一定としたときに、その一定の確率値と条件付確率モデルのＫＬ距離を最小化させる条件付確率モデルのパラメータ値と、上記一定の確率値による同時確率モデルの期待対数尤度を最大化させる同時確率モデルのパラメータ値とを、条件付確率モデルのパラメータの基準値と同時確率モデルのパラメータの基準値として利用するものであることを特徴とするコンテンツ自動分類装置。
カテゴリが不明なコンテンツを入力として、そのコンテンツのカテゴリを分類するコンテンツ自動分類方法であって、
識別関数生成部が、コンテンツとカテゴリの依存関係の強さを表す識別関数を、条件付確率モデルＰ（ｙ｜ｘ）と同時確率モデルｐ（ｘ，ｙ）との重み付き統合により構成し、コンテンツの属するカテゴリが既知のラベルありサンプル集合と、コンテンツの属するカテゴリが不明なラベルなしサンプル集合との、統計情報をもとに上記識別関数の同時確率モデルのパラメータΘ^（ｔ）と、条件付確率モデルのパラメータＷ^（ｔ）と、重みβ^（ｔ）、を同時に計算して求める識別関数生成過程と、
コンテンツ分類部が、上記コンテンツの特徴ベクトルと上記識別関数の各パラメータの推定値を入力としてその識別関数値を最大化させるカテゴリを求めて出力するコンテンツ分類過程と、
を含むコンテンツ自動分類方法。
請求項１乃至６のいずれか１項に記載のコンテンツ自動分類装置の各部の機能を、コンピュータに実行させるための装置プログラム。