JP2006338263A

JP2006338263A - コンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体

Info

Publication number: JP2006338263A
Application number: JP2005161362A
Authority: JP
Inventors: Akinori Fujino; 昭典藤野; Shuko Ueda; 修功上田; Kazumi Saito; 和巳斉藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-06-01
Filing date: 2005-06-01
Publication date: 2006-12-14
Anticipated expiration: 2025-06-01
Also published as: JP4490876B2

Abstract

【課題】コンテンツを複数のカテゴリのいずれかに分類するコンテンツ分類方法を提供すること。
【解決手段】コンピュータが、ラベルありサンプルおよびラベルなしサンプルを取得する手順と、ラベルありコンテンツの特徴ベクトルを算出して、生成モデルのパラメータを算出する手順と、ラベルありサンプルから１つずつコンテンツを除外した場合の生成モデルのパラメータを算出し、この算出結果を用いて結合パラメータを算出する手順と、生成モデルおよび生成モデルの偏りを補正するバイアス補正モデルを、結合パラメータを用いて結合した識別関数を生成する手順と、分類対象のコンテンツの特徴ベクトルを算出する手順と、識別関数を用いて、コンテンツの複数のカテゴリに対する事後確率が最大となるカテゴリを選択する手順とを含んで実行する。
【選択図】図２

Description

本発明は、特徴ベクトルにより表現可能なコンテンツを複数のカテゴリに分類する際に、カテゴリが判明している少数のラベルありコンテンツの統計情報を用いて、カテゴリの推定値を出力する識別関数のパラメータを学習し、その識別関数を用いてカテゴリが未知のコンテンツを分類するコンテンツ分類方法、コンテンツ分類装置、コンテンツ分類プログラムおよびコンテンツ分類プログラムを記録した記録媒体に関する。

データベースに含まれる文書データ、オンラインニュースデータ、電子メールなどのテキスト情報を含むコンテンツ、ウェブページやブログページなどのテキスト情報とリンク情報とを含むコンテンツ、または画像データからなるコンテンツなどの特徴ベクトルを用いて表現可能なコンテンツを複数のカテゴリに分類する手法がさまざまに開発されている。

例えば、非特許文献１には、カテゴリが判明しているコンテンツ（以下、ラベルありサンプル）が少数しかない場合、カテゴリが不明なコンテンツ（以下、ラベルなしサンプル）を用いて分類器を学習することで、入力されるカテゴリが未知のコンテンツ（以下、未知コンテンツ）の分類の精度を向上させる分類器が記載されている。

一般に、ラベルありサンプルの作成は、人手によるコンテンツのカテゴリ分類が必要となるため、多数のラベルありサンプルを用いて分類器を学習させることは困難である。したがって、少数のラベルありサンプルを用いて学習された分類器には、ラベルありサンプルの与え方による統計的な偏りが生じ、高い分類精度が期待できないことがある。
このため、非特許文献１に記載の分類器では、少数のラベルありサンプルに加えて、多数の未分類のラベルなしサンプルを分類器の学習に用いて、学習の偏りを緩和することで分類精度の向上を図っている。

非特許文献１に記載された分類器は、１つの生成モデルを仮定し、ラベルありサンプルで学習した生成モデルを用いてラベルなしサンプルの属するカテゴリを推定し、その結果をラベルとして付加して生成モデルを再学習することで、分類器の精度の向上を図る特徴を有している。

また、非特許文献２には、少数のラベルありサンプルに多数のラベルなしサンプルを用いることにより、分類器の精度向上を図った分類器が記載されている。この分類器では、ガウスカーネルを用いてラベルありサンプルあるいはラベルなしサンプルと未知コンテンツとの類似度をもとに分類を行うことを基本的な特徴とする。

非特許文献２に記載の分類器では、ラベルなしサンプルｉの各カテゴリｃに属する確率Ｐ（ｃ｜ｉ）をラベルありサンプルを用いて予め推定したうえで、未知コンテンツｄとラベルありサンプル・ラベルなしサンプルとの類似度Ｐ（ｉ｜ｄ）と、ラベルありサンプルとラベルなしサンプルのカテゴリｃに属する確率Ｐ（ｃ｜ｉ）の積の線形和により未知コンテンツｄのカテゴリｃに属するＰ（ｃ｜ｄ）を計算することで、未知コンテンツｄを各カテゴリに分類する。
K.Nigam, A.McCallum, S.Thrun and T.Mitchell: Text classification from labeled and unlabeled documents using EM, Machine Learning, 39, p103-134(2000). M.Szummer and T.Jaakkola: Kernel expansions with unlabeled examples, Advances in Neural Information Processing Systems (NIPS), 13, p626-632(2001).

非特許文献１に記載の技術では、ラベルなしサンプルの属するカテゴリを推定した結果をラベルありサンプルとともに用いることで生成モデルのパラメータを学習する。しかしながら、ラベルなしサンプルのカテゴリの推定結果は、必ずしもラベルなしサンプルが属する真のカテゴリと一致するとは限らない。したがって、ラベルなしサンプルの分類器の学習への利用は、必ずしも分類精度の向上に有効であるとは限らない。このため、高精度の分類器を獲得するためには、分類器に反映させるラベルありサンプルの統計情報とラベルなしサンプルの統計情報の比率を調節することが必要になる。

また、非特許文献１に記載の技術において、前記の統計情報の比率の調節は、比率を少しずつ変えて分類器を学習し、得られた複数の分類器から１つの分類器を、未知コンテンツを分類する分類器として選択することで実現される。このため、比率の候補数が多いほど分類器の精度向上が期待できるが、そのための計算量が多くなり学習が非効率になる。逆に比率の候補数が少ないほど学習は効率的となるが、分類器の精度向上は期待できない。
このため、学習に用いるラベルありサンプルとラベルなしサンプルとの統計情報の最適な比率の推定手法が別途必要であり、その推定を可能とする分類器のモデル設計が必要となるという問題がある。

また、非特許文献１に記載の分類器では訓練データの識別精度について、最適化とは異なる評価基準でモデルのパラメータの学習が行われる。したがって、ラベルなしデータのカテゴリ情報の推定の精度が低いとき、学習される分類器の精度がラベルなし情報を用いても大きく向上しない、または逆に悪化することが考えられる。このため、ラベルなしデータのカテゴリ情報の推定精度を向上させる分類器の学習法が課題となる。

非特許文献２に記載の技術では、ガウスカーネルのパラメータ値の設定により分類精度が大きく異なる特徴をもつ。しかしながら、パラメータ値の調節は探索的に行う必要があるため、最適なパラメータ値を与えることは容易ではない。また、コンテンツ間の類似度に基づくため、コンテンツの特徴ベクトルが高次元で疎である場合には、類似度が‘０’に近付くことで分類精度が低くなる可能性がある。さらに、この技術は２値分類用に開発されており、必ずしも多クラス問題における分類精度は高くない。このため、この方法は、多数の語彙から構成される文書などのテキスト情報を複数のカテゴリに分類する問題には適さないという問題がある。

したがって、本発明の目的は、コンテンツの特徴ベクトルが疎である場合および多クラスに分類する場合にも適用可能なコンテンツの分類手段を提供することにある。

前記した目的を達成するために成された本発明に係るコンテンツ分類方法は、帰属するカテゴリが既知の少数のコンテンツからなるラベルありサンプルおよび帰属するカテゴリが未知の多数のコンテンツからなるラベルなしサンプルを取得する手順と、ラベルありサンプルを用いて、生成モデルのパラメータを算出する生成モデルパラメータ学習手順と、ラベルありサンプルから１つずつコンテンツを除外した場合のサンプルを用いて、生成モデルのパラメータを算出し、この算出結果を用いて非線形の最適化計算に基づいて結合パラメータを算出する手順と、生成モデルおよび生成モデルの偏りを補正するバイアス補正モデルを、結合パラメータを用いて結合した識別関数を生成する手順と、分類対象のコンテンツを取得する手順と、識別関数を用いて、分類対象のコンテンツの複数のカテゴリに対する第１の事後確率を算出し、この第１の事後確率が最大となるカテゴリを、複数のカテゴリから選択する手順とを含んでコンピュータが実行することを特徴としている。
本発明の他の形態については後記する実施の形態の中で詳しく説明する。

本発明によると、ラベルありサンプルおよびラベルなしサンプルを用いてパラメータを定めたモデルを非線形の最適化計算に基づいて最適に結合させて生成した識別関数を用いてコンテンツを分類することで、コンテンツの特徴ベクトルが疎である場合および多クラスに分類する場合にも適用可能であり、さらに、コンテンツの分類精度を向上させることができる。

以下、本発明の実施の形態を添付した図面を参照して詳しく説明する。本実施の形態のコンテンツ分類装置は、訓練データ集合を用いて、コンテンツ事後確率を出力する識別関数のパラメータを学習して、分類対象のコンテンツを分類する。
ここで、図１は、本実施の形態のコンテンツ分類装置の構成を示す機能ブロック図の例である。

図１に示すように、コンテンツ分類装置１は、識別関数を学習するために用いる訓練データ集合が格納された訓練データＤＢ２と、訓練データ集合を用いて識別関数を生成する識別関数生成部３と、識別関数生成部３において生成された識別関数を用いてコンテンツが属するカテゴリの分類を推定するコンテンツ分類部４と、識別関数生成部３およびコンテンツ分類部４における処理の際に、一時データを保存するメモリ７とを含んで構成される。
さらに、コンテンツ分類装置１は、分類対象のコンテンツを入力する際のインターフェイスとなる入力部５と、入力された分類対象のコンテンツの分類結果を画面表示したり、入力されたコンテンツを分類・保存して出力する際などのインターフェイスとなる出力部６とを含んで構成される。

ここで、訓練データＤＢ２には、分類対象となるコンテンツと同様の形式をもつコンテンツの特徴ベクトルの例を集めて生成された訓練データ集合が記憶されている。例えば、コンテンツ分類装置１をウェブページからなるコンテンツの分類に適用する場合は、訓練データＤＢ２にウェブページの特徴ベクトルの例を集めた訓練データ集合を格納しておく。
訓練データＤＢ２に格納された訓練データ集合は、コンテンツの特徴ベクトル（以下、単にコンテンツ）本体とコンテンツが属するカテゴリＩＤ（以下、カテゴリ情報）の対より構成されるラベルありサンプルと、カテゴリ情報が付与されていないコンテンツのみで構成されるラベルなしサンプルとから構成されている。このラベルありサンプルのカテゴリ情報は、利用者またはコンテンツ分類装置１の管理者などによって予め付与されている。
なお、本実施の形態において、訓練データＤＢ２をコンテンツ分類装置１の内部に含む構成としたが、例えば、ネットワークなどで接続された外部のデータベースサーバなどに訓練データＤＢ２を構成して、このデータベースサーバから訓練データ集合を取得する構成としてもよい。

本実施の形態のコンテンツ分類装置１は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ハードディスクドライブ、ネットワークカード、ディスプレイ装置などを含んで構成される一般的なパーソナルコンピュータにより具現される。コンテンツ分類装置１の訓練データＤＢ２は、例えば、ハードディスクドライブの所定の領域を割り当てることで具現され、入力部５は、例えば、分類対象のコンテンツがネットワークを介して入力される場合は、ネットワークカードにより具現される。また、出力部６は、コンテンツの分類結果を表示画面として出力する際には、ディスプレイインターフェイスにより具現される。
さらに、識別関数生成部３およびコンテンツ分類部４は、例えば、ハードディスクドライブに格納されたプログラムコードであるコンテンツ分類プログラムをＲＡＭに展開して、ＣＰＵが実行することで具現される。また、このコンテンツ分類プログラムは、ハードディスクドライブに格納される以外にも、コンピュータのＲＯＭや、コンパクトディスクなどの記録媒体などに記録され、コンピュータのＲＡＭに読み込むこともできる。また、コンピュータが、外部からネットワークを介した伝送によりコンテンツ分類プログラムを取得する構成としてもよい。

次に、図２に、コンテンツ分類装置１の識別関数生成部３における情報処理の概略的な手順を示すフローチャートの例を、図３に、ラベルありサンプルを用いて学習され、コンテンツの生成確率を数理的な分布により表現する生成モデルのパラメータ学習の処理手順を示すフローチャートの例を、図４に、識別関数の結合パラメータの学習に用いるラベルありサンプルと生成モデルのパラメータ対を作成する処理手順を示すフローチャートの例をそれぞれ示す。
以下に、図２ないし図４に示したフローチャートを参照しつつ、コンテンツ分類装置１の識別関数生成部３における識別関数の生成手順を詳しく説明する（適宜、図１参照）。

以下の処理手順において、コンテンツ分類装置１の識別関数生成部３は、訓練データＤＢ２に格納された訓練データ集合を用いて識別関数Ｒ（ｋ｜ｘ，Θ，Ψ，Λ）のパラメータΘ，Ψ，Λを学習する。
ここで、Θは、生成モデルのパラメータを、Ψは、学習された生成モデルの統計上の偏りを補正するバイアス補正モデルのパラメータを、Λは、非線形の最適化計算である最大エントロピ原理により推定される生成モデルおよびバイアス補正モデルの結合パラメータを表している。つまり、識別関数Ｒ（ｋ｜ｘ，Θ，Ψ，Λ）は、生成モデルとバイアス補正モデルを結合パラメータを用いて結合した関数として定義される。
さらに、ｘはコンテンツを、ｋ∈｛１，・・・，Ｋ｝は、コンテンツが属するカテゴリの候補となるクラスを表している。

はじめに、識別関数生成部３は、訓練データＤＢ２に格納された訓練データ集合に含まれるカテゴリ情報を有するコンテンツのサンプル集合であるラベルありサンプル

とカテゴリ情報を有しないコンテンツのサンプル集合であるラベルなしサンプル

とを取り込んで、メモリ７に格納する（ステップＳ１０１）。そして、識別関数のパラメータ学習の繰り返し回数を示すカウンタｔの初期値ｔ＝０と、学習された識別関数の妥当性を測定するために定義された評価関数Ｆの初期値Ｆ（０）＝−∞と、バイアス補正モデルのパラメータの初期値Ψ⁽¹⁾とを与えて、各パラメータを初期化してメモリ７に格納する（ステップＳ１０２）。
ここで、ラベルありサンプルのｙ_nはコンテンツｘ_nが属するカテゴリに従って付与されたクラスラベル（カテゴリ情報）を示している。

次に、識別関数生成部３は、生成モデルのパラメータの推定値

を、メモリ７内に格納されたラベルありサンプルを用いて学習する（ステップＳ１０３）。ステップＳ１０３における、生成モデルのパラメータは、図３のフローチャートに示すように、まず、訓練データ集合に含まれるサンプルの、訓練データ集合全体に対する特徴ベクトルの偏りを緩和するための平滑化パラメータを学習してメモリ７に格納し（ステップＳ２０１）、その結果を用いて最適なパラメータを学習してメモリ７に格納する（ステップＳ２０２）ことで推定される。
なお、生成モデルのパラメータの算出手順の詳細を、後記する実施形態例の中で説明する。

次に、図２に戻って、識別関数生成部３は、結合パラメータΛを推定するために、メモリ７内に格納されたラベルありサンプルと生成モデルのパラメータとの対を作成する（ステップＳ１０４）。ステップＳ１０４のラベルありサンプルと生成モデルのパラメータとの対の作成手順の詳細な処理手順を、図４に示したフローチャートを参照しつつ説明する（適宜、図１参照）。

まず、識別関数生成部３は、メモリ７内に格納されたラベルありサンプルから任意の１つのサンプル（ｘ_n，ｙ_n）を除外して（Ｓ３０１）、１点除外ラベルありサンプル

を生成してメモリ７に格納する。そして、このメモリ７内の１点除外ラベルありサンプル

を用いて、図３に示したフローチャートと同様の手順により、生成モデルのパラメータΘ^(-n)を算出してメモリ７に格納して（ステップＳ３０２）、除外したサンプルと生成モデルのパラメータとの対であるサンプル・パラメータ対（ｘ_n，ｙ_n，Θ^(-n)）を生成してメモリ７に格納する（ステップＳ３０３）。

次に、識別関数生成部３は、再び、ラベルありサンプルから、ステップＳ３０１において選択したラベルありサンプルとは別の任意の１つのラベルありサンプルを除外して、この除外したサンプルに対応するサンプル・パラメータ対を生成してメモリ７に格納する処理（ステップＳ３０１ないしステップＳ３０３）を実行して、すべてのラベルありサンプルを除外した場合のサンプル・パラメータ対を生成したか否かを判定し（ステップＳ３０４）、すべてのラベルありサンプルを除外した場合のサンプル・パラメータ対を生成するまで、ステップＳ３０１ないしステップＳ３０３の処理を実行する。

識別関数生成部３が、すべてのラベルありサンプルについてサンプル・パラメータ対を生成すると（ステップＳ３０４で‘Ｙｅｓ’の場合）、図２に示したフローチャートに戻って、ステップＳ１０４で生成してメモリ７内に格納されたサンプル・パラメータ対、ステップＳ１０３で推定されてメモリ７内に格納された生成モデルのパラメータ、およびステップＳ１０２で設定されてメモリ７内に格納されたバイアス補正モデルのパラメータの初期値を用いて、最大エントロピ原理に基づいて、生成モデルとバイアス補正モデルの結合パラメータΛの推定値Λ^(t+1)を学習してメモリ７に格納し（ステップＳ１０５）、識別関数

を生成してメモリ７に格納する（ステップＳ１０６）。そして、識別関数を生成すると、識別関数生成部３は、ステップＳ１０７にて評価関数の変量Ｆ（ｔ＋１）−Ｆ（ｔ）を求め、収束条件Ｆ（ｔ＋１）−Ｆ（ｔ）＜ε（εは分管理者などにより与えられる所定の微小の定数値）を満たせば（ステップＳ１０７で‘Ｙｅｓ’の場合）、

として、分類器の識別関数

を決定して、この決定したメモリ７内に格納された識別関数をコンテンツ分類部４に受け渡す（ステップＳ１１１）。

また、前記の収束条件を満たさない場合は（ステップＳ１０７で‘Ｎｏ’の場合）、メモリ７内に格納されたパラメータ学習のカウンタｔに‘１’を加算してカウンタｔを更新してメモリ７に格納し（ステップＳ１０８）、メモリ７内に格納されたラベルなしコンテンツのクラス事後確率

をステップＳ１０６で得られた識別関数を用いて推定してメモリ７に格納する（ステップＳ１０９）。

次に、識別関数生成部３は、メモリ７内に格納されたラベルなしコンテンツと、ステップＳ１０９でメモリ７内に格納されたクラス事後確率とを用いてバイアス補正モデルのパラメータの推定値Ψ^(t+1)を学習してメモリ７に格納し（ステップＳ１１０）、ステップＳ１０５に戻る。
ここで、バイアス補正モデルのパラメータ学習の詳細は、図３のフローチャートで示した生成モデルのパラメータ学習と同様に、最適な平滑化パラメータを学習してメモリ７に格納し（ステップＳ２０１）、このメモリ７内に格納された平滑化パラメータを用いて最適なパラメータを学習してメモリ７に格納する（ステップＳ２０２）ことで推定される。
そして、ステップＳ１０５からステップＳ１１０までの処理はステップＳ１０７における収束条件を満たすまで繰り返し実行される。

次に、図５に、コンテンツ分類装置１のコンテンツ分類部４における情報処理の概略的な手順を示すフローチャートの例を示す。図５に示したフローチャートを参照しつつ、コンテンツ分類部４におけるコンテンツの分類手順を説明する。

はじめに、コンテンツ分類部４は、ステップＳ１１１（図２参照）で識別関数生成部３が受け渡した識別関数

を取得してメモリ７に格納する（ステップＳ４０１）。そして、外部からの入力インターフェイスである入力部５から、分類対象のコンテンツを取得してメモリ７に格納する（ステップＳ４０２）。

次に、識別関数

を用いて、メモリ７内に格納された分類対象のコンテンツのクラス事後確率を算出してメモリ７に格納し（ステップＳ４０３）、算出したクラス事後確率が最大となるカテゴリを、このコンテンツの属するカテゴリであると推定してメモリ７に格納する（ステップＳ４０４）。
そして、コンテンツ分類部４は、推定したカテゴリを分類結果として出力部６に受け渡し、この分類結果を取得した出力部６は、分類結果を表示画面などに出力し、必要に応じてコンテンツファイルを分類結果に応じて適切な箇所に保存する。

（実施形態例）
前記したコンテンツ分類装置１において、Ｋ個のクラス｛１，・・・，ｋ，・・・Ｋ｝からコンテンツｘが属するカテゴリｙを１つ選択する場合に、生成モデルおよびバイアス補正モデルに「Naive Bayes」モデル（以下、ＮＢモデル）を用いた場合の実施形態例を詳しく説明する（適宜、図１ないし図５参照）。

まず、コンテンツの特徴ベクトルを定義する。コンテンツの単語等により構成される特徴空間をＴ＝｛ｔ₁，・・・，ｔ_i，・・・，ｔ_V｝とするとき、コンテンツの特徴ベクトルは、コンテンツに含まれるｔ_iの頻度をもとにｘ＝｛ｘ₁，・・・，ｘ_i，・・・，ｘ_V｝で表現される。ここで、Ｖはコンテンツに含まれる可能性がある特徴の種類の数を表す。例えば、コンテンツがテキストデータである場合、Ｖはコンテンツで出現する可能性がある語彙の総数を表す。
ＮＢモデルでは、クラスｋからコンテンツｘ_nが生成される確率Ｐ（ｘ_n｜ｋ）は、クラスｋにおけるそれぞれの特徴ｔ_iの出現確率θ_ikと独立であると仮定して、次の数式（１）で定義する。

ここで、数式（１）のＰ（ｘ｜ｋ，θ_k）は、ＮＢモデルを用いる場合の生成モデルを表し、

は、生成モデルの推定すべきパラメータを表す。バイアス補正モデルＰ（ｘ｜ｋ，ψ_k）も、数式（１）と同型の分布で定義される。

以下に、図２に示したフローチャートに従って本実施形態例のコンテンツ分類装置１の動作を説明する。まず、識別関数生成部３は、訓練データＤＢ２から訓練データ集合であるラベルありサンプルとラベルなしサンプルとを取り込んでメモリ７に格納する（ステップＳ１０１）。そして、ステップＳ１０２において、バイアス補正モデルのパラメータの初期値

を、

で与え、それぞれメモリ７に格納する。

次に、ステップＳ１０３において、生成モデルのパラメータの推定値

は、

でコンテンツの特徴ベクトルを正規化するとき、メモリ７内に格納されたラベルありサンプル集合Ｄ_lを用いてＭＡＰ推定による以下の数式（２）で得られる。

数式（２）において、ｚ_nkは、サンプルｘ_nがクラスｋに属するか否かを表すクラス変数であり、ラベルありサンプルｘ_nのクラス変数は、ｙ_n＝１のときｚ_nk＝１、それ以外のときｚ_nk＝０である。また、ξ_kは、平滑化パラメータを表し、

を学習するために推定すべきパラメータである。また、

である。

の学習は、まず平滑化パラメータの推定値

を学習してメモリ７に格納し（ステップＳ２０１）、メモリ７内に格納された

を数式（２）に代入して

を学習してメモリ７に格納する（ステップＳ２０２）。
ここで、平滑化パラメータの推定値

は、１点交差確認法（leave-one-out cross validation）を用いて、次の数式（３）で表す対数尤度Ｌ₁（ξ_k）を最大化するξ_kを、ＥＭアルゴリズム（Dempster, A.P.,Laird, N.M. and Rubin, D.B.: Maximum likelihood from incomplete data viathe EM algorithm. Journal of the Royal Statistical Society, SeriesB, 39, 1-38 (1977) ）で求めることで得られる。

とおくとき、

の制約の下で、以下の数式（４）および数式（５）を用いて、反復的にα_lを求めることで、最適な平滑化パラメータ

を算出することができる。

次に、ステップＳ１０４において、図４のフローチャートに示したように、メモリ７内に格納されたラベルありデータ集合Ｄ_lの任意のサンプル（ｘ_n，ｙ_n）を除外して（ステップＳ３０１）生成したデータ集合

を用いることで、

によりパラメータ

を計算してメモリ７に格納し（ステップＳ３０２）、サンプル・パラメータ対（ｘ_n，ｙ_n，Θ^(-n)）を生成してメモリ７に格納する（ステップＳ３０３）。ステップＳ３０４の処理により、このパラメータ計算を繰り返し行うことで、すべてのラベルありサンプルに対するサンプル・パラメータ対が得られてメモリ７に格納される。

次に、ステップＳ１０５では、最大エントロピ原理に基づいて、識別関数

の結合パラメータ

の推定値Λ^(t+1)を、

とメモリ７内に格納されたΨ^(t+1)を与えた下で、メモリ７内に格納されたサンプル・パラメータ対

を用いて、以下の関数を最大にするΛとして算出してメモリ７に格納する。

この数式（８）において、Ｒ（Λ）は、パラメータΛの事前確率であり、例えば、

で与えられる。数式（８）の目的関数Ｊ（Λ）を最大にするΛは、例えば、ＩＩＳアルゴリズム（K. Nigam,J. Lafferty and A. McCallum: Using maximum entropy for text classification, In IJCAI-99 Workshop on Machine Learning for Information filtering, p61-67 (1999).）またはＬ−ＢＦＧＳアルゴリズム（D.C. Liu and J. Nocedel: On the limited memory BFGS method for large scale optimization. In Math. Programming, 45(3,(ser. B)), p503-528 (1989).）を用いて求めることができる。

これにより算出されてメモリ７内に格納されたΛ^(t+1)と、Ψ^(t+1)とを用いて、パラメータ学習のカウンタｔにおける識別関数

を生成してメモリ７に格納する（ステップＳ１０６）。

次に、ステップＳ１０７において、パラメータ学習の収束条件Ｆ（ｔ＋１）−Ｆ（ｔ）＜εを与える評価関数Ｆ（ｔ）は、例えば、

で与えられる。

パラメータ学習の集束条件を満たさない場合（ステップＳ１０７で‘Ｎｏ’の場合）、メモリ７内に格納されたカウンタｔを更新してメモリ７に格納し（ステップＳ１０８）、ステップＳ１１０では、メモリ７内に格納されたラベルなしコンテンツと、ステップＳ１０９において識別関数をもとに推定されてメモリ７内に格納されたラベルなしサンプルのクラス事後確率

とをもとに、ＭＡＰ推定により、バイアス補正モデルのパラメータの推定値Ψ^(t+1)を以下の式に従って学習してメモリ７に格納する。

ここで、η_kは平滑化パラメータを表し、

を学習するために推定すべきパラメータである。また、

は、ステップＳ１０３における

の学習と同様に、図３のフローチャートに示すように、平滑化パラメータの学習（ステップＳ２０１）と、モデルのパラメータの学習（ステップＳ２０２）の処理手順により学習されてメモリ７に格納される。平滑化パラメータの推定値

は、以下の目的関数を最大にするη_kを、ＥＭアルゴリズムによって求めることで算出される。

メモリ７内に格納されたラベルなしサンプルのクラス事後確率をもとに、バイアス補正モデルのパラメータの推定値Ψ^(t+1)を学習してメモリ７に格納すると、ステップＳ１０７における集束条件を満たすまで、ステップＳ１０５ないしステップＳ１１０の処理手順を繰り返すことで、識別関数生成部３は、識別関数を決定してメモリ７に格納することができる。
そして、ステップＳ１０７における集束条件を満たすと、このときメモリ７内に格納された識別関数をコンテンツ分類部４に受け渡して（ステップＳ１１１）、識別関数生成部３における処理が終了する。

以上の実施形態例に基づいたパラメータの学習アルゴリズムの例を次の表１に示す。

次に、コンテンツ分類部４による、ユーザにより入力されたコンテンツｘ’が属するカテゴリｙ’の推定方の実施形態例を説明する。
図５のフローチャートを参照して、まず、ステップＳ４０１において、数式（７）で示される式に

と

を代入することで得られる識別関数

を識別関数生成部３から取得してメモリ７に格納し、このメモリ７内に格納された識別関数を用いて、ステップＳ４０２で入力部５から取得してメモリ７内に格納された識別対象のコンテンツのｘ’を用いて、クラス事後確率を算出してメモリ７に格納し（ステップＳ４０３）、識別関数

を最大にするｋを、コンテンツｘ’が属するカテゴリの推定値

として算出することで、コンテンツｘ’が属するカテゴリを推定してメモリ７に格納する（ステップＳ４０４）。

以上のカテゴリ推定アルゴリズムの例を次の表２に示す。

以上の手順により、属するカテゴリが推定されたコンテンツは、例えば、出力部６からカテゴリごとのフォルダに分類されたファイルとして出力される。

（実験例）
次に、図６は、テキスト自動分類の性能検査用に用いられるデータベースである２０Ｎｅｗｓ（非特許文献１参照）に、前記した実施形態例のコンテンツ分類装置１を適用した場合のカテゴリの分類性能を示すグラフである。

このデータベースには、コンテンツ本体とコンテンツが属するカテゴリ情報が予め付与されている。この検査に際して、データベースに含まれるコンテンツのうち４０００を分類対象のコンテンツとして（以下、テストサンプル）、分類精度の評価に用いる。
また、残りのコンテンツのうち、１００００のコンテンツをラベルなしサンプルとして、さらに、その残りから任意数のコンテンツをラベルありサンプルとして選択し、訓練データ集合とした。
ここで、ラベルありサンプルとは、コンテンツ本体とカテゴリ情報の両方を訓練データとして用いるサンプルであり、ラベルなしサンプルとはコンテンツ本体のみの情報を訓練データとして用いるサンプルである。すなわち、ラベルなしサンプルが属するカテゴリは未知として、分類器の学習を行う。

性能検査は、テストサンプルが属するカテゴリを、訓練データ集合を用いて学習された分類器の識別関数を用いて推定し、その推定結果とカテゴリ情報との一致度（以下、分類精度）を用いて行なった。

図６は、２０Ｎｅｗｓのデータベースに対して、訓練サンプルの個数を変えてコンテンツ分類装置１に適用した場合の結果（方法１）を表す。このデータベースは２０個のカテゴリを有する。比較対象として、非特許文献１に基づくＥＭ−λ（方法２）の結果とラベルなしデータを用いないＮＢ法（方法３）の結果を合わせて示す。図６に示すように、訓練サンプルの個数によらず、本発明に係る方法１が、方法２および方法３の手法よりも分類精度が高いことがわかる。この結果、本実施の形態のコンテンツ分類装置１の分類精度は、従来技術のコンテンツ分類技術に比べ、優位性を有していることがわかる。

以上、本発明の実施の形態を説明したが、前記した実施の形態に具体的に記載した数式や、アルゴリズムなどは、説明のために例示したものであり、本発明はこれらの事項に限定されることなく、特許請求の範囲に記載された技術的思想により定められる。

コンテンツ分類装置の機能ブロック図である。評価関数生成部における処理手順を説明するフローチャートである。生成モデルのパラメータ学習の手順を説明するフローチャートである。結合パラメータ学習の処理手順を説明するフローチャートである。コンテンツ分類部における処理手順を説明するフローチャートである。本実施形態例によるコンテンツ分類装置の分類性能を示すグラフである。

符号の説明

１コンテンツ分類装置
２訓練データＤＢ
３識別関数生成部
４コンテンツ分類部
５入力部

Claims

特徴ベクトルで表現されたコンテンツを、複数のカテゴリに分類するコンテンツ分類方法であって、
コンピュータが、
帰属するカテゴリが既知の少数のコンテンツからなるラベルありサンプルおよび帰属するカテゴリが未知の多数のコンテンツからなるラベルなしサンプルを取得するサンプルデータ取得手順と、
前記ラベルありサンプルを用いて、生成モデルのパラメータを算出する生成モデルパラメータ学習手順と、
前記ラベルありサンプルから１つずつコンテンツを除外した場合のサンプルを用いて、前記生成モデルのパラメータを算出し、この算出結果を用いて非線形の最適化計算に基づいて結合パラメータを算出する結合パラメータ学習手順と、
前記生成モデルおよび前記生成モデルの偏りを補正するバイアス補正モデルを、前記結合パラメータを用いて結合した識別関数を生成する識別関数生成手順と、
分類対象のコンテンツを取得する分類対象コンテンツ取得手順と、
前記識別関数を用いて、前記分類対象のコンテンツの前記複数のカテゴリに対する第１の事後確率を算出し、この第１の事後確率が最大となるカテゴリを、前記複数のカテゴリから選択するコンテンツ分類手順と、
を含んで実行することを特徴とすることを特徴とするコンテンツ分類方法。
前記生成モデルパラメータ学習手順は、
前記ラベルありサンプルの対数尤度の総和を最大化する平滑化パラメータを算出する第１の平滑化パラメータ生成手順と、
前記算出された平滑化パラメータを用いて、前記生成モデルのパラメータを算出する第１のパラメータ生成手順とを含むこと、
を特徴とする請求項１に記載のコンテンツ分類方法。
前記識別関数生成手順のあとに、
前記識別関数が所定の収束条件を満たすまで、前記識別関数を用いて前記ラベルなしサンプルの各コンテンツのカテゴリに対する第２の事後確率を算出し、この第２の事後確率および前記ラベルなしサンプルを用いて、前記バイアス補正モデルのパラメータを算出し、このパラメータを適用した前記バイアス補正モデルを用いて前記結合パラメータを算出して、この結合パラメータを用いて前記識別関数の生成を行う識別関数最適化手順をさらに含むこと、
を特徴とする請求項１または請求項２に記載のコンテンツ分類方法。
前記バイアス補正モデルのパラメータの算出は、
前記第２の事後確率および前記ラベルなしコンテンツの積の対数尤度の総和を最大化する平滑化パラメータを算出する第２の平滑化パラメータ生成手順と、
前記算出された平滑化パラメータを用いて、前記バイアス補正モデルのパラメータを算出する第２のパラメータ生成手順とからなること、
を特徴とする請求項３に記載のコンテンツ分類方法。
前記非線形の最適化計算が、最大エントロピー原理に基づく計算であること、
を特徴とする請求項１ないし請求項４のいずれか１項に記載のコンテンツ分類装置。
特徴ベクトルで表現されたコンテンツを、複数のカテゴリに分類するするコンテンツ分類装置であって、
分類対象のコンテンツを取得する入力部と、
帰属するカテゴリが既知の少数のコンテンツからなるラベルありサンプルおよび帰属するカテゴリが未知の多数のコンテンツからなるラベルなしサンプルから構成されるサンプルデータ集合を格納したデータベースと、
前記ラベルありコンテンツの対数尤度の総和を最大化する平滑化パラメータを算出して、この平滑化パラメータを用いて、前記生成モデルのパラメータを算出し、前記ラベルありサンプルから１つずつコンテンツを除外した場合の前記生成モデルのパラメータを算出した結果を用いて、非線形の最適化計算に基づいて結合パラメータを算出し、前記生成モデルおよび前記生成モデルの偏りを補正するバイアス補正モデルを、前記結合パラメータを用いて結合した識別関数を生成する識別関数生成部と、
前記識別関数生成部が生成した前記識別関数を用いて、前記入力部が取得した前記分類対象のコンテンツの、前記複数のカテゴリの各カテゴリに対する第１の事後確率を算出し、この第１の事後確率が最大となるカテゴリを、前記複数のカテゴリから選択するコンテンツ分類部と、
を含んで構成されることを特徴とするコンテンツ分類装置。
前記識別関数生成部は、所定の収束条件を満たすまで、生成した前記識別関数を用いて、前記ラベルなしサンプルの各サンプルのカテゴリに対する第２の事後確率を算出し、この第２の事後確率から算出される前記ラベルなしサンプルの対数尤度の総和を最大化するように平滑化パラメータを算出して、この平滑化パラメータを用いて、前記バイアス補正モデルのパラメータを算出し、このパラメータを適用した前記バイアス補正モデルを用いて前記結合パラメータを再度算出して、この結合パラメータを用いて前記識別関数を再度生成すること、
を特徴とする請求項６に記載のコンテンツ分類装置。
前記非線形の最適化計算が、最大エントロピー原理に基づく計算であること、
を特徴とする請求項６または請求項７に記載のコンテンツ分類装置。
コンピュータに、請求項１ないし請求項５のいずれか１項に記載のコンテンツ分類方法を実行させるコンテンツ分類プログラム。
請求項９に記載のコンテンツ分類プログラムを記録した記録媒体。