JP5415055B2

JP5415055B2 - コンテンツ分類装置およびプログラム

Info

Publication number: JP5415055B2
Application number: JP2008279882A
Authority: JP
Inventors: 茂莉黒川
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-10-30
Filing date: 2008-10-30
Publication date: 2014-02-12
Anticipated expiration: 2028-10-30
Also published as: JP2010108265A

Description

本発明は、コンテンツ分類装置およびプログラムに関する。特に、本発明は、コンテンツデータの分類先のカテゴリを決定するコンテンツ分類装置およびプログラムに関する。

分類対象であるコンテンツをカテゴリに分類する分類器として、ベイジアンネットワークと呼ばれる確率モデルを適用したベイジアン分類器（ベイズ分類器とも称する）が知られている。なお、ベイジアンネットワークは、変数間の確率的な依存関係をネットワークで表現し、表現された変数間の独立性／条件付独立性を用いて、ある変数の値を所与としたときの他の変数の値の条件付確率を計算するために用いられる確率モデルである。

ベイジアン分類器は、分類対象となるコンテンツをカテゴリに分類する際、カテゴリ変数以外の変数を所与としたときのカテゴリ変数の値の条件付確率を計算するために用いられる。ベイジアン分類器には、ＮＢ（Naive Bayes）、ＴＡＮ（Tree Augmented NB）、ＯＤＥ（One-Dependence Estimator）などがある。一方、決定木（Decision Tree）は、木構造にもとづくデータの分割による分類器であり、ＮＢＴ（Naive Bayes Tree）は、決定木にベイジアン分類器を取り込んだものである。

図１１は、従来技術である種々の分類器の概念を説明するための概念図である。ＮＢは、図１１（ａ）に示すように、グラフで表現される単純な分類器である。ＮＢでは、カテゴリ変数を条件とした属性間の独立性 (条件付き独立性)を仮定している。ノードＸ１、Ｘ２、Ｘ３、Ｘ４は、コンテンツのコンテンツ属性、ノードＹはカテゴリ変数である。

決定木は、図１１（ｂ）に示すように、木構造で表現される分類器である。決定木では、各ノードは変数に対応し、子ノードへの各枝は変数の値に対応する。決定木では、未知事例が与えられた場合の分類において、根ノードから葉ノードに至る各ノードにおいて学習データを各枝の変数の値をとる部分集合に分割し、葉における部分事例集合のなかで割合が最大のカテゴリを分類先のカテゴリとする。

ＮＢは、図１１（ｃ）に示すように、確率推定精度の向上のために決定木の葉をＮＢとした分類器である（例えば非特許文献１参照）。具体的には、葉ノードに至るパスは決定木と同じであるが、割合が最大のカテゴリを分類先のカテゴリとするのではなく、葉ノードに至るパスに存在しない変数とカテゴリ変数を用いたＮＢを作成し、事後確率が最大のカテゴリを分類先のカテゴリとする。また、ＴＡＮは、ＮＢのグラフ構造を取り除いた属性のリンクが木となる分類器である。

ＯＤＥは、図１１（ｄ）に示すように、カテゴリ変数とある属性（Super Parent）をそれ以外のすべて属性の親属性とするＴＡＮである。ＯＤＥでは、親ノードとなりうる属性の数だけ候補が存在する。なお、親属性とは、「属性列、カテゴリ」の同時確率を計算する際に各属性の条件付き確率の積を計算するときの、各属性の条件付き確率の条件部に加えられる属性のことである。属性数と同数のＯＤＥが存在する。

更に、分類対象となるコンテンツを複数のＯＤＥによって分類し、各ＯＤＥで得られた分類結果の平均値を用いて精度の高い分類を実現するAveraged ＯＤＥと呼ばれる分類器も考案されている（例えば非特許文献２参照）。

以下、従来のコンテンツ分類装置の例として、Averaged ＯＤＥを適用したコンテンツ分類装置およびＮＢＴを適用したコンテンツ分類装置について説明する。図１２は、Averaged ＯＤＥを適用した従来のコンテンツ分類装置の構成例である。

Averaged ＯＤＥを適用したコンテンツ分類装置は、図１２に示すように、学習部５００および分類計算部６００を備える。学習部５００は、複数のＯＤＥ（ＯＤＥ（１）、ＯＤＥ（２）、ＯＤＥ（３）…）を学習用データから学習し、各ＯＤＥに関するＯＤＥモデル情報を記憶する。ＯＤＥ（Ｎ）は、コンテンツ属性ＸｎをSuper ParentとしたＯＤＥである。学習部５００は、コンテンツ属性の数（Ｎ）のＯＤＥを学習する。学習用データとは、ＯＤＥの学習に用いる事例（分類に用いるコンテンツ属性（Ｘ１、Ｘ２、Ｘ３…）の値と分類先のカテゴリ変数Ｙの値（カテゴリ）との組み合わせ）の集合であって、データ取得部によって学習用データ記憶部に記憶される。

学習部５００は、各ＯＤＥを学習する複数のＯＤＥ学習部（ＯＤＥ（１）学習部５１０ａ、ＯＤＥ（２）学習部５１０ｂ、ＯＤＥ（３）学習部５１０ｃ…）、および、ＯＤＥモデル情報記憶部５２０を備える。ＯＤＥ（１）学習部５１０ａは、頻度集計部５１２ａおよびＯＤＥ確率パラメータ計算部５１４ａから構成される。ＯＤＥ（２）学習部５１０ｂ、ＯＤＥ（３）学習部５１０ｃ…についても同様である。以下、代表して、ＯＤＥ（２）学習部５１０ｂについて説明する。

頻度集計部５１２ｂは、ＯＤＥ（２）の木構造に基づいて、学習用データからＯＤＥ（２）の確率パラメータの計算に用いられる頻度を集計する。ＯＤＥ確率パラメータ計算部５１４ｂは、頻度集計部５１２ｂによって集計された頻度と、事前に設定した事前確率のパラメータとに基づいて、ＯＤＥ（２）の確率パラメータを計算する。ＯＤＥ確率パラメータ計算部５１４ｂは、ＯＤＥ（２）モデル情報をＯＤＥモデル情報記憶部５２０に記憶する。ＯＤＥ（２）モデル情報は、ＯＤＥ（２）の木構造、ＯＤＥ（２）の確率パラメータなどを含む情報である。

分類計算部６００は、ＯＤＥモデル情報記憶部５２０に記憶されている複数のＯＤＥモデル情報（ＯＤＥ（１）モデル情報、ＯＤＥ（２）モデル情報、ＯＤＥ（３）モデル情報…）を用いて、入力されたコンテンツの属性値から、それと関連性の高いカテゴリを求める。

具体的には、分類計算部６００は、複数のＯＤＥ同時確率計算部（ＯＤＥ（１）同時確率計算部６１０ａ、ＯＤＥ（２）同時確率計算部６１０ｂ、ＯＤＥ（３）同時確率計算部６１０ｃ…）、平均同時確率計算部６２０および最大事後確率カテゴリ決定部６３０を備える。

ＯＤＥ（１）同時確率計算部６１０ａは、入力されたコンテンツの属性値と各カテゴリの同時確率を計算し、入力されたコンテンツの属性値とあるカテゴリの同時確率は、コンテンツの属性値と該カテゴリに対応する確率パラメータをＯＤＥモデル情報記憶部５２０に記憶されているＯＤＥ（１）モデル情報から取得し、それらの積として計算する。ＯＤＥ（２）同時確率計算部６１０ｂ、ＯＤＥ（３）同時確率計算部６１０ｃ…についても同様である。

平均同時確率計算部６２０は、全部のＯＤＥ同時確率計算部によって計算された同時確率を平均する。最大事後確率カテゴリ決定部６３０は、平均同時確率計算部６２０によって計算されたカテゴリ毎の平均同時確率を、全カテゴリについての和が１となるように正規化した確率を、入力されたコンテンツの属性値を所与としたときのカテゴリの事後確率と近似し、それを最大にするカテゴリを分類結果として決定する。

図１３は、ＮＢＴを適用した従来のコンテンツ分類装置の構成例である。ＮＢＴを適用したコンテンツ分類装置は、図１３に示すように、学習部７００および分類計算部８００を備える。学習部７００は、ＮＢＴを学習用データから学習し、ＮＢＴに関するＮＢＴモデル情報を記憶する。学習用データとは、ＮＢＴの学習に用いる事例（分類に用いるコンテンツ属性（Ｘ１、Ｘ２、Ｘ３…）の値と分類先のカテゴリ変数Ｙの値（カテゴリ）との組み合わせ）の集合であって、データ取得部によって学習用データ記憶部に記憶される。

学習部７００は、ＮＢＴ構造学習部７１１、頻度集計部７１２、ＮＢ確率パラメータ計算部７１４およびＮＢＴモデル情報記憶部７２０を備える。ＮＢＴ構造学習部７１１は、ＮＢＴの木構造を決定木の構造学習アルゴリズムであるＣ４．５を使って学習する。頻度集計部７１２は、ＮＢＴの構造に基づいて、学習用データからＮＢＴの確率パラメータの計算に用いられる頻度を集計する。ＮＢ確率パラメータ計算部７１４は、頻度集計部７１２によって集計された頻度と、事前に設定した事前確率のパラメータとに基づいて、ＮＢＴの葉ノードである各ＮＢの確率パラメータを計算する。ＮＢ確率パラメータ計算部７１４は、ＮＢＴモデル情報をＮＢＴモデル情報記憶部７２０に記憶する。ＮＢＴモデル情報は、ＮＢＴの木構造、ＮＢＴの葉ノードである各ＮＢの確率パラメータなどを含む情報である。

分類計算部８００は、ＮＢＴモデル情報記憶部７２０に記憶されているＮＢＴモデル情報を用いて、入力されたコンテンツの属性値から、それと関連性の高いカテゴリを求める。

具体的には、分類計算部８００は、ＮＢＴ同時確率計算部８１０および最大事後確率カテゴリ決定部８３０を備える。ＮＢＴ同時確率計算部８１０は、入力されたコンテンツの属性値と各カテゴリの同時確率を計算し、入力されたコンテンツの属性値とあるカテゴリの同時確率は、コンテンツの属性値と該カテゴリに対応する確率パラメータをＮＢＴモデル情報記憶部７２０に記憶されているＮＢＴモデル情報から取得して、それらの積として計算する。

最大事後確率カテゴリ決定部８３０は、ＮＢＴ同時確率計算部８１０によって計算されたカテゴリ毎の同時確率を、全カテゴリについての和が１となるように正規化した確率を、入力されたコンテンツの属性値を所与としたときのカテゴリの事後確率と近似し、それを最大にするカテゴリを分類結果として決定する。
Scaling up the accuracy of naive-Bayes classifiers: a decision-tree hybrid, [online], Retrieved from the Internet:<URL: http://citeseer.ist.psu.edu/kohavi96scaling.html> Geoffrey I. Webb, Janice R. Boughton, Zhihai Wang, "Not so naive Bayes: Aggregating one-dependence estimators", [online], [Retrieved on 2007-03-26], Retrieved from the Internet: <URL: http://citeseer.ist.psu.edu/663338.html>

ＯＤＥは、変数間の依存関係を十分に表現することができないため、非特許文献１の分類器は、分類精度が十分に高くはないという問題がある。また、ＮＢＴは、根ノードの属性の選択によって高い精度で分類できる場合もあるが、精度が根ノードの属性の選択に依存するため、非特許文献２の分類器は、安定して高精度に分類できないという問題がある。本発明は、上述した課題に鑑みてなされたものであって、コンテンツ分類に用いる分類器の分類精度の向上と安定化を図るコンテンツ分類装置およびプログラムを提供することを目的とする。

上記問題を解決するために、本発明の一態様であるコンテンツ分類装置は、学習用データの属性に基づいて、異なる属性を夫々の根ノードとした複数のＮＢＴ（ＮａｉｖｅＢａｙｅｓＴｒｅｅ）の構造を学習する構造学習手段と、構造学習手段によって学習された複数のＮＢＴの各ＮＢ（ＮａｉｖｅＢａｙｅｓ）の確率パラメータを計算する確率パラメータ計算手段と、構造学習手段によって学習された複数のＮＢＴの構造、および、確率パラメータ計算手段によって計算された確率パラメータを記憶する記憶手段と、記憶手段によって記憶されている複数のＮＢＴの構造および確率パラメータに基づいて、コンテンツデータに含まれるデータの属性と各ＮＢＴにおけるカテゴリ毎の同時確率を計算する同時確率計算手段と、同時確率計算手段によって計算された各ＮＢＴにおける同時確率の平均値であるカテゴリ毎の平均同時確率を計算する平均同時確率計算手段と、平均同時確率計算手段によって計算された平均同時確率に基づいて、コンテンツデータの分類先のカテゴリを決定するカテゴリ決定手段とを備えることを特徴とする。

上記コンテンツ分類装置において、確率パラメータ計算手段は、確率パラメータ計算手段は、カテゴリの頻度と（定数／カテゴリの数）の和を、すべてのカテゴリについて合計した値によって除することによってカテゴリに係る確率パラメータを計算し、カテゴリを条件とした属性値の頻度と（定数／属性値の数）の和を、すべての属性値について合計した値によって除することによって属性値に係る確率パラメータを計算するようにしてもよい。

上記問題を解決するために、本発明の他の一態様であるプログラムは、コンテンツを分類する装置のコンピュータに、学習用データの属性に基づいて、異なる属性を夫々の根ノードとした複数のＮＢＴ（ＮａｉｖｅＢａｙｅｓＴｒｅｅ）の構造を学習する構造学習ステップと、構造学習ステップによって学習された複数のＮＢＴの各ＮＢ（ＮａｉｖｅＢａｙｅｓ）の確率パラメータを計算する確率パラメータ計算ステップと、構造学習ステップによって学習された複数のＮＢＴの構造、および、確率パラメータ計算ステップによって計算された確率パラメータを記憶する記憶ステップと、記憶ステップによって記憶されている複数のＮＢＴの構造および確率パラメータに基づいて、コンテンツデータに含まれるデータの属性と各ＮＢＴにおけるカテゴリ毎の同時確率を計算する同時確率計算ステップと、同時確率計算ステップによって計算された各ＮＢＴにおける同時確率の平均値であるカテゴリ毎の平均同時確率を計算する平均同時確率計算ステップと、平均同時確率計算ステップによって計算された平均同時確率に基づいて、コンテンツデータの分類先のカテゴリを決定するカテゴリ決定ステップとを実行させることを特徴とする。

本発明によれば、複数のＮＢＴを平均し、ＮＢＴの根ノードの属性の選択により精度が変化する影響を平均化することによって、安定した高い精度でコンテンツを分類することができるようになる。

以下、本発明の実施形態について図面を参照して詳細に説明する。本実施形態では、テキストをコンテンツとし、そのテキストをカテゴリに分類するものとする。図１は、本発明の一実施形態によるコンテンツ分類装置の構成例である。実施形態によるコンテンツ分類装置は、図１に示すように、学習部１００および分類計算部２００を備える。学習部１００は、複数のＮＢＴ（ＮＢＴ（１）、ＮＢＴ（２）、ＮＢＴ（３）…）を学習用データから学習し、各ＮＢＴに関するＮＢＴモデル情報を記憶する。ＮＢＴ（ｎ）は、コンテンツ属性Ｘｎを根ノードとしたＮＢＴである。学習部１００は、コンテンツ属性の数（Ｎ）のＮＢＴを学習する。学習用データとは、ＮＢＴの学習に用いる事例（分類に用いるコンテンツ属性（Ｘ１、Ｘ２、Ｘ３…）の値と分類先のカテゴリ変数Ｙの値（カテゴリ）との組み合わせ）の集合であって、データ取得部によって学習用データ記憶部に記憶される。

学習部１００は、各ＮＢＴを学習する複数のＮＢＴ学習部（ＮＢＴ（１）学習部１１０ａ、ＮＢＴ（２）学習部１１０ｂ、ＮＢＴ（３）学習部１１０ｃ…）、および、ＮＢＴモデル情報記憶部１２０を備える。ＮＢＴ（１）学習部１１０ａは、ＮＢＴ構造学習部１１１ａ、頻度集計部１１２ａ、ＮＢ事前確率パラメータ計算部１１３ａおよびＮＢ確率パラメータ計算部１１４ａから構成される。ＮＢＴ（２）学習部１１０ｂ、ＮＢＴ（３）学習部１１０ｃ…についても同様である。

以下、ＮＢＴ（１）学習部１１０ａ、ＮＢＴ（２）学習部１１０ｂ、ＮＢＴ（３）学習部１１０ｃ…を総称してＮＢＴ学習部１００という。同様に、ＮＢＴ構造学習部１１１ａ、ＮＢＴ構造学習部１１１ｂ、ＮＢＴ構造学習部１１１ｃ…を総称してＮＢＴ構造学習部１１という。同様に、頻度集計部１１２ａ、頻度集計部１１２ｂ、頻度集計部１１２ｃ…を総称して頻度集計部１１２という。同様に、ＮＢ事前確率パラメータ計算部１１３ａ、ＮＢ事前確率パラメータ計算部１１３ｂ、ＮＢ事前確率パラメータ計算部１１３ｃ…を総称してＮＢ事前確率パラメータ計算部１１３という。同様に、ＮＢ確率パラメータ計算部１１４ａ、ＮＢ確率パラメータ計算部１１４ｂ、ＮＢ確率パラメータ計算部１１４ｃ…を総称してＮＢ確率パラメータ計算部１１４という。

なお、本発明の構造学習手段はＮＢＴ構造学習部１１１によって担当され、本発明の確率パラメータ計算手段は、頻度集計部１１２、ＮＢ事前確率パラメータ計算部１１３およびＮＢ確率パラメータ計算部１１４によって担当され、本発明の記憶手段は、ＮＢ確率パラメータ計算部１１４によって担当される。なお、本発明の記憶手段は、ＮＢ確率パラメータ計算部１１４に加えて、ＮＢＴ構造学習部１１１などの他の手段によって担当されてもよい。

ＮＢＴ構造学習部１１１は、根ノードをＮＢＴに対応する属性とした上で、そのサブツリーをＮＢＴの木構造を決定木の構造学習アルゴリズムであるＣ４．５を使って学習する。例えば、ＮＢＴ構造学習部１１１ａは、ＮＢＴ（１）の木構造を学習する。頻度集計部１１２は、各ＮＢＴの木構造に基づいて、学習用データから各ＮＢＴの確率パラメータの計算に用いられる頻度を集計する。例えば、頻度集計部１１２ａは、ＮＢＴ（１）の木構造に基づいて、学習用データからＮＢＴ（１）の確率パラメータの計算に用いられる頻度を集計する。

ＮＢ事前確率パラメータ計算部１１３は、各ＮＢＴの葉ノードである各ＮＢの各変数の確率分布に割り当てる事前確率分布のパラメータを計算する。例えば、ＮＢ事前確率パラメータ計算部１１３ａは、ＮＢＴ（１）の葉ノードである各ＮＢの各変数の確率分布に割り当てる事前確率分布のパラメータを計算する。

ＮＢ確率パラメータ計算部１１４は、頻度集計部１１２によって集計された頻度と、ＮＢ事前確率パラメータ計算部１１３によって計算された事前確率のパラメータとに基づいて、各ＮＢＴについてＮＢＴの葉ノードである各ＮＢの確率パラメータを計算する。例えば、ＮＢ確率パラメータ計算部１１４ａは、頻度集計部１１２ａによって集計された頻度と、ＮＢ事前確率パラメータ計算部１１３ａによって計算された事前確率のパラメータとに基づいて、ＮＢＴ（１）の葉ノードである各ＮＢの確率パラメータを計算する。

また、ＮＢ確率パラメータ計算部１１４は、各ＮＢＴのモデル情報として、ＮＢＴ構造学習部１１１によって学習された各ＮＢＴの木構造、および、ＮＢ確率パラメータ計算部１１４によって計算された確率パラメータをＮＢＴモデル情報記憶部１２０に記憶する。例えば、ＮＢ確率パラメータ計算部１１４ａは、ＮＢＴ（１）のモデル情報として、ＮＢＴ（１）の木構造およびＮＢＴ（１）の葉ノードである各ＮＢの確率パラメータをＮＢＴモデル情報記憶部１２０に記憶する。

分類計算部２００は、ＮＢＴモデル情報記憶部１２０に記憶されている複数のＮＢＴモデル情報（ＮＢＴ（１）モデル情報、ＮＢＴ（２）モデル情報、ＮＢＴ（３）モデル情報…）を用いて、入力されたコンテンツの属性値から、それと関連性の高いカテゴリを決定する。

分類計算部２００は、複数のＮＢＴ同時確率計算部（ＮＢＴ（１）同時確率計算部２１０ａ、ＮＢＴ（２）同時確率計算部２１０ｂ、ＮＢＴ（３）同時確率計算部２１０ｃ…）、平均同時確率計算部２２０および最大事後確率カテゴリ決定部２３０を備える。

以下、ＮＢＴ（１）同時確率計算部２１０ａ、ＮＢＴ（２）同時確率計算部２１０ｂ、ＮＢＴ（３）同時確率計算部２１０ｃ…を総称してＮＢＴ同時確率計算部２１０という。なお、本発明の同時確率計算手段はＮＢＴ同時確率計算部２１０によって担当され、本発明の平均同時確率計算手段は平均同時確率計算部２２０によって担当され、本発明のカテゴリ決定手段は最大事後確率カテゴリ決定部２３０によって担当される。

ＮＢＴ同時確率計算部２１０は、入力されたコンテンツの属性値と各カテゴリの同時確率を計算し、入力されたコンテンツの属性値とあるカテゴリの同時確率は、入力されたコンテンツの属性値に対応する、各ＮＢＴの各ＮＢの確率パラメータをＮＢＴモデル情報記憶部１２０に記憶されている各ＮＢＴモデル情報から取得し、さらにその中から入力されたコンテンツの属性値と該カテゴリに対応する確率パラメータを取得し、それらの積として計算する。例えば、ＮＢＴ同時確率計算部２１０ａは、ＮＢＴ（１）の各ＮＢの確率パラメータをＮＢＴ（１）モデル情報から取得し、さらにその中から入力されたコンテンツの属性値と各カテゴリに対応する確率パラメータを取得し、それらの積としてコンテンツの属性値と各カテゴリの同時確率を計算する。

平均同時確率計算部２２０は、ＮＢＴ（１）同時確率計算部２１０ａ、ＮＢＴ（２）同時確率計算部２１０ｂ、ＮＢＴ（３）同時確率計算部２１０ｃ…によって計算されたそれぞれの同時確率を平均したカテゴリ毎の平均同時確率を計算する。最大事後確率カテゴリ決定部２３０は、平均同時確率計算部２２０によって計算されたカテゴリ毎の平均同時確率を、全カテゴリについての和が１となるように正規化した確率を、入力されたコンテンツの属性値を所与としたときのカテゴリの事後確率と近似し、それを最大にするカテゴリを分類結果として決定する。

以下、本発明の一実施形態によるコンテンツ分類装置を図２から図９に示す具体例を用いて説明する。具体例において、コンテンツをテキストとし、テキスト分類の問題とする。コンテンツ属性は、テキストデータに含まれる単語の出現数であって、単語の数は３（Ｘ１、Ｘ２、Ｘ３）であるものとする。

図２は、学習用データの一例である。図３は、ＮＢＴの木構造の一例である。図４は、ＮＢＴの確率パラメータの計算に用いられる頻度の一例である。図５は、事前確率パラメータの一例である。図６は、確率パラメータの一例である。図７は、ＮＢＴモデル情報の一例である。図８は、入力テキストの一例である。図９は、同時確率、平均同時確率、事後確率および最大事後確率の一例である。図２に示す学習用データは、コンテンツ属性Ｘ１、Ｘ２、Ｘ３の値（単語の出現数）と分類先のカテゴリ変数Ｙの値（カテゴリ）との組み合わせから構成されている。

ＮＢＴ構造学習部１１１ａは、図２に示す学習用データを参照し、決定木の構造学習アルゴリズムであるＣ４．５を使って、コンテンツ属性Ｘ１を根ノードとしたＮＢＴ（１）の木構造を学習する。同様に、ＮＢＴ（２）学習部１１０ｂのＮＢＴ構造学習部１１１ｂは、コンテンツ属性Ｘ２を根ノードとしたＮＢＴ（２）の木構造を学習する。同様に、ＮＢＴ（３）学習部１１０ｃのＮＢＴ構造学習部１１１ｃは、コンテンツ属性Ｘ３を根ノードとしたＮＢＴ（３）の木構造を学習する。例えば、ＮＢＴ構造学習部１１１ｂは、図３に示すＮＢＴ（２）の木構造を学習する。

図３（ａ）に示すＮＢＴ（２）の木構造において、根ノードであるコンテンツ属性Ｘ２からコンテンツ属性Ｘ１を経由して葉ノードであるＮＢ（２１）に至るパス（図３（ｂ）の実線のパス。以下、「Ｐ２１」という。）は、図３（ａ）に示すように、コンテンツ属性Ｘ２のコンテンツの属性値が１であってかつコンテンツ属性Ｘ１のコンテンツの属性値が１であるパスである。つまり、パスＰ２１は、図２に示す学習用データ（１）から学習用データ（３）に対応するパスである。また、ＮＢ（２１）は、図３（ｃ）に示すように、パスＰ２１に存在しない変数であるコンテンツ属性（コンテンツ属性Ｘ３）とカテゴリ変数Ｙとから構成される。つまり、ＮＢ（２１）は、図２の太枠Ａ内の各値を有するコンテンツ属性Ｘ３とカテゴリ変数Ｙとから構成される。

図３（ａ）に示すＮＢＴ（２）の木構造において、根ノードであるコンテンツ属性Ｘ２からコンテンツ属性Ｘ１を経由して葉ノードであるＮＢ（２２）に至るパス（図３（ｂ）の破線のパス。以下、「Ｐ２２」という。）は、図３（ａ）に示すように、コンテンツ属性Ｘ２のコンテンツの属性値が１であってかつコンテンツ属性Ｘ１のコンテンツの属性値が２であるパスである。つまり、パスＰ２２は、図２に示す学習用データ（４）から学習用データ（７）に対応するパスである。また、ＮＢ（２２）は、図３（ｃ）に示すように、パスＰ２２に存在しない変数であるコンテンツ属性（コンテンツ属性Ｘ３）とカテゴリ変数Ｙとから構成される。つまり、ＮＢ（２２）は、図２の太枠Ｂ内の各値を有するコンテンツ属性Ｘ３とカテゴリ変数Ｙとから構成される。

図３（ａ）に示すＮＢＴ（２）の木構造において、根ノードであるコンテンツ属性Ｘ２から葉ノードであるＮＢ（２３）に至るパス（図３（ｂ）の点線のパス。以下、「Ｐ２３」という。）は、図３（ａ）に示すように、コンテンツ属性Ｘ２のコンテンツの属性値が２であるときのパスである。つまり、パスＰ２３は、図２に示す学習用データ（８）から学習用データ（１２）に対応するパスである。また、ＮＢ（２３）は、図３（ｃ）に示すように、Ｐ２３に存在しない変数であるコンテンツ属性（コンテンツ属性Ｘ１、Ｘ３）とカテゴリ変数Ｙとから構成される。つまり、ＮＢ（２３）は、図２の太枠Ｃ内の各値を有するコンテンツ属性Ｘ１とコンテンツ属性Ｘ３とカテゴリ変数Ｙとから構成される。

図３（ａ）に示すＮＢＴ（２）の木構造において、根ノードであるコンテンツ属性Ｘ２から葉ノードであるＮＢ（２４）に至るパス（図３（ｂ）の一点鎖線のパス。以下、「Ｐ２４」という。）は、図３（ａ）に示すように、コンテンツ属性Ｘ２のコンテンツの属性値が３であるときのパスである。つまり、パスＰ２４は、図２に示す学習用データ（１３）から学習用データ（２０）に対応するパスである。また、ＮＢ（２４）は、図３（ｃ）に示すように、Ｐ２４に存在しない変数であるコンテンツ属性（コンテンツ属性Ｘ１、Ｘ３）とカテゴリ変数Ｙとから構成される。つまり、ＮＢ（２４）は、図２の太枠Ｄ内の各値を有するコンテンツ属性Ｘ１とコンテンツ属性Ｘ３とカテゴリ変数Ｙとから構成される。

なお、図３を参照して、ＮＢＴ（２）学習部１１０ｂのＮＢＴ構造学習部１１１ｂによって学習されるコンテンツ属性Ｘ２を根ノードとするＮＢＴ（２）の木構造を説明したが、ＮＢＴ（１）学習部１１０ａのＮＢＴ構造学習部１１１ａによって学習されるコンテンツ属性Ｘ１を根ノードとするＮＢＴ（１）の木構造、および、ＮＢＴ（３）学習部１１０ｃのＮＢＴ構造学習部１１１ｃによって学習されるコンテンツ属性Ｘ３を根ノードとするＮＢＴ（３）の木構造も同様である。

続いて、ＮＢＴ（１）学習部１１０ａの頻度集計部１１２ａは、ＮＢＴ（１）の木構造に基づいて、学習用データからＮＢＴ（１）の確率パラメータの計算に用いられる頻度を集計する。同様に、ＮＢＴ（２）学習部１１０ｂの頻度集計部１１２ｂは、ＮＢＴ（２）の木構造に基づいて、学習用データからＮＢＴ（２）の確率パラメータの計算に用いられる頻度を集計する。同様に、ＮＢＴ（３）学習部１１０ｃの頻度集計部１１２ｃは、ＮＢＴ（３）の木構造に基づいて、学習用データからＮＢＴ（３）の確率パラメータの計算に用いられる頻度を集計する。例えば、頻度集計部１１２ｂは、図４（ａ）に示すＮＢ（２１）に係る頻度、図４（ｂ）に示すＮＢ（２２）に係る頻度、図４（ｃ）に示すＮＢ（２３）に係る頻度、および、図４（ｄ）に示すＮＢ（２４）に係る頻度をそれぞれ集計する。

図４（ａ）に示すＮＢ（２１）に係る頻度において、例えば、図中の欄Ｅ内の頻度「２」（コンテンツ属性Ｘ３のコンテンツの属性値「１」かつカテゴリ変数Ｙの値「１」のときの頻度）は、ＮＢ（２１）に対応する３つの学習用データ（学習用データ（１）から学習用データ（３））のうち、コンテンツ属性Ｘ３のコンテンツの属性値「１」かつカテゴリ変数Ｙの値「１」である２つの学習用データ（学習用データ（１）（３））の数「２」を集計したものである。ＮＢ（２１）に係る他の頻度も同様である。また、図４（ｂ）に示すＮＢ（２２）に係る頻度も同様である。

図４（ｃ）に示すＮＢ（２３）に係る頻度において、例えば、図中の欄Ｆ内の頻度「３」（コンテンツ属性Ｘ１のコンテンツの属性値「１」かつカテゴリ変数Ｙの値「２」のときの頻度）は、ＮＢ（２３）に対応する５つの学習用データ（学習用データ（８）から学習用データ（１２））のうち、コンテンツ属性Ｘ１のコンテンツの属性値「１」かつカテゴリ変数Ｙの値「２」である３つの学習用データ（学習用データ（８）から学習用データ（１０）の数「３」を集計したものである。また、図中の欄Ｇ内の頻度「１」（コンテンツ属性Ｘ３のコンテンツの属性値「３」かつカテゴリ変数Ｙの値「１」に係る頻度）は、ＮＢ（２３）に対応する５つの学習用データのうち、コンテンツ属性Ｘ３のコンテンツの属性値「３」かつカテゴリ変数Ｙの値「１」である１つの学習用データ（学習用データ（１２））の数「１」を集計したものである。ＮＢ（２３）に係る他の頻度も同様である。また、図４（ｄ）に示すＮＢ（２４）に係る頻度も同様である。なお、計欄の数はカテゴリ変数Ｙの頻度である。

なお、図４を参照して、ＮＢＴ（２）学習部１１０ｂの頻度集計部１１２ｂによるＮＢＴ（２）の確率パラメータの計算に用いられる頻度の集計について説明したが、ＮＢＴ（１）学習部１１０ａの頻度集計部１１２ａによるＮＢＴ（１）の確率パラメータの計算に用いられる頻度の集計、および、ＮＢＴ（３）学習部１１０ｃの頻度集計部１１２ｃによるＮＢＴ（３）の確率パラメータの計算に用いられる頻度の集計についても同様である。

続いて、ＮＢＴ（１）学習部１１０ａのＮＢ事前確率パラメータ計算部１１３ａは、ＮＢＴ（１）の葉ノードである各ＮＢの各変数の確率分布に割り当てる事前確率パラメータを計算する。同様に、ＮＢＴ（２）学習部１１０ｂのＮＢ事前確率パラメータ計算部１１３ｂは、ＮＢＴ（２）の葉ノードである各ＮＢの各変数の確率分布に割り当てる事前確率パラメータを計算する。同様に、ＮＢＴ（３）学習部１１０ｃのＮＢ事前確率パラメータ計算部１１３ｃは、ＮＢＴ（３）の葉ノードである各ＮＢの各変数の確率分布に割り当てる事前確率パラメータを計算する。例えば、ＮＢ事前確率パラメータ計算部１１３ｂは、図５（ａ）に示すＮＢ（２１）に係る事前確率パラメータ、図５（ｂ）に示すＮＢ（２２）に係る事前確率パラメータ、図５（ｃ）に示すＮＢ（２３）に係る事前確率パラメータ、および、図５（ｄ）に示すＮＢ（２４）に係る事前確率パラメータを計算する。なお、計欄の数はカテゴリ変数Ｙの事前確率パラメータである。

図５（ａ）に示すＮＢ（２１）に係る事前確率パラメータにおいて、例えば、カテゴリ変数Ｙの事前確率パラメータ「０．５００」は、葉ノードであるＮＢ（２１）に割り当てる定数α（例えばα＝1）をカテゴリ変数Ｙの取り得る値ｍ（ｍ＝２）で除することによって計算される。コンテンツ属性Ｘ３の事前確率パラメータ「０．３３３」は、葉ノードであるＮＢ（２１）に割り当てる定数α（例えばα＝1）をコンテンツ属性Ｘ３の取り得る値ｍ（ｍ＝３）で除することによって計算される。図５（ｂ）に示すＮＢ（２２）の事前確率パラメータ、図５（ｃ）に示すＮＢ（２３）の事前確率パラメータおよび図５（ｄ）に示すＮＢ（２４）の事前確率パラメータも同様である。なお、上記の如く事前確率パラメータを用いて確率推定を行う方式をＭ−ｅｓｔｉｍａｔｉｏｎという。Ｍ−ｅｓｔｉｍａｔｉｏｎによる推定確率の平滑化によってより精度を向上させることができる。

なお、図５を参照して、ＮＢＴ（２）学習部１１０ｂのＮＢ事前確率パラメータ計算部１１３ｂによるＮＢＴ（２）の各ＮＢの事前確率パラメータの計算について説明したが、ＮＢＴ（１）学習部１１０ａのＮＢ事前確率パラメータ計算部１１３ａによるＮＢＴ（１）の各ＮＢの事前確率パラメータの計算、および、ＮＢＴ（３）学習部１１０ｃのＮＢ事前確率パラメータ計算部１１３ｃによるＮＢＴ（３）の各ＮＢの事前確率パラメータの計算についても同様である。

続いて、ＮＢＴ（１）学習部１１０ａのＮＢ確率パラメータ計算部１１４ａは、頻度集計部１１２ａによって集計された頻度と、ＮＢ事前確率パラメータ計算部１１３ａによって計算された事前確率のパラメータとに基づいて、ＮＢＴ（１）の葉ノードである各ＮＢの確率パラメータを計算する。同様に、ＮＢＴ（２）学習部１１０ｂのＮＢ確率パラメータ計算部１１４ｂは、頻度集計部１１２ｂによって集計された頻度と、ＮＢ事前確率パラメータ計算部１１３ｂによって計算された事前確率のパラメータとに基づいて、ＮＢＴ（２）の葉ノードである各ＮＢの確率パラメータを計算する。同様に、ＮＢＴ（３）学習部１１０ｃのＮＢ確率パラメータ計算部１１４ｃは、頻度集計部１１２ｃによって集計された頻度と、ＮＢ事前確率パラメータ計算部１１３ｃによって計算された事前確率のパラメータとに基づいて、ＮＢＴ（３）の葉ノードである各ＮＢの確率パラメータを計算する。例えば、ＮＢ確率パラメータ計算部１１４ｂは、図６（ａ）に示すＮＢ（２１）に係る確率パラメータ、図６（ｂ）に示すＮＢ（２２）に係る確率パラメータ、図６（ｃ）に示すＮＢ（２３）に係る確率パラメータ、および、図６（ｄ）に示すＮＢ（２４）に係る確率パラメータを計算する。

例えば、ＮＢ確率パラメータ計算部１１４ｂは、次式（１）を用いて、図６（ａ）に示すＮＢ（２１）のカテゴリ変数Ｙの確率パラメータを計算する。

一例として、ＮＢ確率パラメータ計算部１１４ｂは、カテゴリ変数Ｙの値「１」の確率パラメータ「０．８７５」を次式（２）のように計算する。

また、ＮＢ確率パラメータ計算部１１４ｂは、次式（３）を用いて、図６（ａ）に示すＮＢ（２１）のカテゴリ変数Ｙの値「１」を条件としたコンテンツ属性Ｘ３の確率パラメータを計算する。

一例として、ＮＢ確率パラメータ計算部１１４ｂは、ＮＢ（２１）のカテゴリ変数Ｙの値「１」を条件としたコンテンツ属性Ｘ３の値「１」の確率パラメータ「０．５８３」を次式（４）のように計算する。

なお、図６を参照して、ＮＢＴ（２）学習部１１０ｂのＮＢ確率パラメータ計算部１１４ｂによるＮＢＴ（２）の葉ノードである各ＮＢの確率パラメータの計算について説明したが、ＮＢＴ（１）学習部１１０ａのＮＢ確率パラメータ計算部１１４ａによるＮＢＴ（２）の葉ノードである各ＮＢの確率パラメータの計算、および、ＮＢＴ（３）学習部１１０ｃのＮＢ確率パラメータ計算部１１４ｃによるＮＢＴ（３）の葉ノードである各ＮＢの確率パラメータの計算についても同様である。

なお、図７は、ＮＢ確率パラメータ計算部１１４ｂによってＮＢＴモデル情報記憶部１２０に記憶されるＮＢＴ（２）モデル情報である。図中のＨはＮＢＴ（２）の木構造である。図中のＩはＮＢＴ（２）の１つの葉ノードであるＮＢ（２１）のカテゴリ変数Ｙの確率パラメータ、図中のＪはＮＢＴ（２）の１つの葉ノードであるＮＢ（２１）のカテゴリ変数Ｙを条件としたコンテンツ属性Ｘの確率パラメータである。

分類計算部２００の同時確率計算部２１０ａは、ＮＢＴ（１）の各ＮＢの確率パラメータをＮＢＴモデル情報記憶部１２０に記憶されているＮＢＴ（１）モデル情報から取得し、さらにその中から入力されたコンテンツの属性値と各カテゴリに対応する確率パラメータを取得し、それらの積としてコンテンツの属性値と各カテゴリの同時確率を計算する。同様に、分類計算部２００の同時確率計算部２１０ｂは、ＮＢＴ（２）の各ＮＢの確率パラメータをＮＢＴモデル情報記憶部１２０に記憶されているＮＢＴ（２）モデル情報から取得し、さらにその中から入力されたコンテンツの属性値と各カテゴリに対応する確率パラメータを取得し、それらの積としてコンテンツの属性値と各カテゴリの同時確率を計算する。同様に、分類計算部２００の同時確率計算部２１０ｃは、ＮＢＴ（３）の各ＮＢの確率パラメータをＮＢＴモデル情報記憶部１２０に記憶されているＮＢＴ（３）モデル情報から取得し、さらにその中から入力されたコンテンツの属性値と各カテゴリに対応する確率パラメータを取得し、それらの積としてコンテンツの属性値と各カテゴリの同時確率を計算する。

例えば、同時確率計算部２１０ｂは、次式（５）を用いて、各カテゴリ変数Ｙおよび入力テキストの同時確率を計算する。

一例として、同時確率計算部２１０ｂは、図８に示す入力テキスト（１）を取得した場合、コンテンツ属性Ｘ２は値「１」、コンテンツ属性Ｘ１は値「２」であるため、図３（ｂ）に示すパスＰ２２に対応するので、図６（ｂ）のＮＢ（２２）に係る確率パラメータ（Ｘ３＝３）を使用して、カテゴリ変数Ｙの値「１」および入力テキスト（１）の同時確率「０．０５６」、および、カテゴリ変数Ｙの値「２」および入力テキスト（１）の同時確率「０．３８９」を次式（６）のように計算する。

図９（ａ）に示す同時確率（２）は、同時確率計算部２１０ｂが上述の如くＮＢＴ（２）の確率パラメータを用いて計算した各カテゴリ変数Ｙおよび入力テキスト（１）の同時確率である。なお、図９（ａ）に示す同時確率（１）は、同時確率計算部２１０ａが同様にＮＢＴ（１）の確率パラメータを用いて計算した各カテゴリ変数Ｙおよび入力テキスト（１）の同時確率である。また、図９（ａ）に示す同時確率（３）は、同時確率計算部２１０ｃが同様にＮＢＴ（３）の確率パラメータを用いて計算した各カテゴリ変数Ｙおよび入力テキスト（１）の同時確率である。

他の例として、同時確率計算部２１０ｂは、図８に示す入力テキスト（２）を取得した場合、コンテンツ属性Ｘ２は値「２」であるため、図３（ｂ）に示すパスＰ２３に対応するので、図６（ｃ）のＮＢ（２３）に係る確率パラメータ（Ｘ１＝２、Ｘ３＝３）を使用して、カテゴリ変数Ｙの値「１」および入力テキスト（２）の同時確率「０．０９３」、および、カテゴリ変数Ｙの値「２」および入力テキスト（２）の同時確率「０．０４３」を次式（７）のように計算する。

図９（ｂ）に示す同時確率（２）は、同時確率計算部２１０ｂが上述の如くＮＢＴ（２）の確率パラメータを用いて計算した各カテゴリ変数Ｙおよび入力テキスト（２）の同時確率である。なお、図９（ｂ）に示す同時確率（１）は、同時確率計算部２１０ａが同様にＮＢＴ（１）の確率パラメータを用いて計算した各カテゴリ変数Ｙおよび入力テキスト（２）の同時確率である。また、図９（ｂ）の同時確率（３）は、同時確率計算部２１０ｃが同様にＮＢＴ（３）の確率パラメータを用いて計算した各カテゴリ変数Ｙおよび入力テキスト（２）の同時確率である。

続いて、分類計算部２００の平均同時確率計算部２２０は、次式（８）を用いて、ＮＢＴ同時確率計算部２１０ａ、ＮＢＴ同時確率計算部２１０ｂおよびＮＢＴ同時確率計算部２１０ｃによって計算されたそれぞれの同時確率を平均したカテゴリ毎の平均同時確率を計算する。

一例として、図９（ａ）に示すように、同時確率計算部２１０ａによってカテゴリ変数Ｙの値「１」および入力テキスト（１）の同時確率「０．２７５」およびカテゴリ変数Ｙの値「２」および入力テキスト（１）の同時確率「０．５２４」が計算され、同時確率計算部２１０ｂによってカテゴリ変数Ｙの値「１」および入力テキスト（１）の同時確率「０．０５６」およびカテゴリ変数Ｙの値「２」および入力テキスト（１）の同時確率「０．３８９」が計算され、同時確率計算部２１０ｃによってカテゴリ変数Ｙの値「１」および入力テキスト（１）の同時確率「０．１２１」およびカテゴリ変数Ｙの値「２」および入力テキスト（１）の同時確率「０．４２３」が計算された場合、平均同時確率計算部２２０は、カテゴリ変数Ｙの値「１」および入力テキスト（１）の同時確率を平均したカテゴリ変数Ｙの値「１」の平均同時確率「０．１５１」、および、カテゴリ変数Ｙの値「２」および入力テキスト（１）の同時確率を平均したカテゴリ変数Ｙの値「２」の平均同時確率「０．４４５」を次式（９）のように計算する。

図９（ａ）に示す平均同時確率は、平均同時確率計算部２２０が上述の如く計算したカテゴリ変数Ｙおよび入力テキスト（１）の平均同時確率である。なお、図９（ｂ）に示す平均同時確率は、平均同時確率計算部２２０が同様に計算したカテゴリ変数Ｙおよび入力テキスト（２）の平均同時確率である。

続いて、分類計算部２００の最大事後確率カテゴリ決定部２３０は、平均同時確率計算部２２０によって計算されたカテゴリ毎の平均同時確率を、全カテゴリについての和が１となるように正規化した確率を、入力されたコンテンツの属性値を所与としたときのカテゴリの事後確率と近似し、それを最大にするカテゴリを分類結果として決定する。

具体的には、最大事後確率カテゴリ決定部２３０は、次式（１０）を用いて、事後確率を計算し、事後確率が最大のカテゴリを分類先カテゴリとして決定する。

一例として、図９（ａ）に示すように、平均同時確率計算部２２０によって、カテゴリ変数Ｙの値「１」および入力テキスト（１）の同時確率の平均値「０．１５１」が計算され、カテゴリ変数Ｙの値「２」および入力テキスト（１）の同時確率の平均値「０．４４５」が計算された場合、最大事後確率カテゴリ決定部２３０は、入力テキスト（１）の分類先カテゴリを次式（１１）のように決定する。

図９（ａ）に示す事後確率は、最大事後確率カテゴリ決定部２３０が上述の如く計算したカテゴリ変数Ｙおよび入力テキスト（１）の事後確率である。また、最大事後確率は、上述の如く最大事後確率カテゴリ決定部２３０が決定した入力テキスト（１）の分類先カテゴリである。なお、図９（ｂ）に示す事後確率は、最大事後確率カテゴリ決定部２３０が同様に計算したカテゴリ変数Ｙおよび入力テキスト（２）の事後確率である。また、最大事後確率は、上述の如く最大事後確率カテゴリ決定部２３０が決定した入力テキスト（２）の分類先カテゴリである。なお、最大事後確率のアスタリスクは、最大事後確率カテゴリ決定部２３０が決定した入力テキスト（１）（２）の分類先カテゴリを示す。

図１０は、本発明の一実施形態によるコンテンツ分類装置の動作の一例を示すフローチャートである。ＮＢＴ構造学習部１１は、複数のＮＢＴの木構造を学習する（ステップＳ１００）。頻度集計部１１２は、各ＮＢＴの木構造に基づいて、学習用データから各ＮＢＴの確率パラメータの計算に用いられる頻度を集計する（ステップＳ１１０）。ＮＢ事前確率パラメータ計算部１３は、各ＮＢＴの葉ノードである各ＮＢの各変数の確率分布に割り当てる事前確率分布のパラメータを計算する（ステップＳ１２０）。ＮＢ確率パラメータ計算部１１４は、頻度集計部１１２によって集計された頻度と、ＮＢ事前確率パラメータ計算部１３によって計算された事前確率のパラメータとに基づいて、各ＮＢＴについて葉ノードである各ＮＢの確率パラメータを計算する（ステップＳ１３０）。ＮＢ確率パラメータ計算部１１４は、各ＮＢＴのモデル情報をＮＢＴモデル情報記憶部１２０に記憶する（ステップＳ１４０）。

ＮＢＴ同時確率計算部２１０は、入力されたコンテンツの属性値とカテゴリの同時確率を計算する（ステップＳ１５０）。平均同時確率計算部２２０は、ＮＢＴ（１）同時確率計算部２１０ａ、ＮＢＴ（２）同時確率計算部２１０ｂ、ＮＢＴ（３）同時確率計算部２１０ｃ…によって計算されたそれぞれの同時確率を平均したカテゴリ毎の平均同時確率を計算する（ステップＳ１６０）。最大事後確率カテゴリ決定部２３０は、平均同時確率計算部２２０によって計算されたカテゴリ毎の平均同時確率を、全カテゴリについての和が１となるように正規化した確率を、入力されたコンテンツの属性値を所与としたときのカテゴリの事後確率と近似し、それを最大にするカテゴリを分類結果として決定する（ステップＳ１７０）。そして本フローチャートは終了する。

以上、本実施形態によれば、複数のＮＢＴを平均し、ＮＢＴの根ノードの属性の選択により精度が変化する影響を平均化することによって、安定した高い精度でコンテンツを分類することができるようになる。

なお、本発明の一実施形態によるコンテンツ分類装置の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、本発明の一実施形態によるコンテンツ分類装置に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明の一実施形態によるコンテンツ分類装置の構成例である。学習用データの一例である。ＮＢＴの木構造の一例である。ＮＢＴの確率パラメータの計算に用いられる頻度の一例である。事前確率パラメータの一例である。確率パラメータの一例である。ＮＢＴモデル情報の一例である。入力テキストの一例である。同時確率、平均同時確率、事後確率および最大事後確率の一例である。本発明の一実施形態によるコンテンツ分類装置の動作の一例を示すフローチャートである。従来技術である種々の分類器の概念を説明するための概念図である。 Averaged ＯＤＥを適用した従来のコンテンツ分類装置の構成例である。ＮＢＴを適用した従来のコンテンツ分類装置の構成例である。

符号の説明

１００学習部１１１ＮＢＴ構造学習部１１２頻度集計部１１３ＮＢ事前確率パラメータ計算部１１４ＮＢ確率パラメータ計算部１２０ＮＢＴモデル情報記憶部２００分類計算部２１０ＮＢＴ同時確率計算部２２０平均同時確率計算部２３０最大事後確率カテゴリ決定部

Claims

学習用データの属性に基づいて、異なる属性を夫々の根ノードとした複数のＮＢＴ（ＮａｉｖｅＢａｙｅｓＴｒｅｅ）の構造を学習する構造学習手段と、
前記構造学習手段によって学習された前記複数のＮＢＴの各ＮＢ（ＮａｉｖｅＢａｙｅｓ）の確率パラメータを計算する確率パラメータ計算手段と、
前記構造学習手段によって学習された前記複数のＮＢＴの構造、および、前記確率パラメータ計算手段によって計算された前記確率パラメータを記憶する記憶手段と、
前記記憶手段によって記憶されている前記複数のＮＢＴの構造および前記確率パラメータに基づいて、コンテンツデータに含まれるデータの属性と各ＮＢＴにおけるカテゴリ毎の同時確率を計算する同時確率計算手段と、
前記同時確率計算手段によって計算された前記各ＮＢＴにおける前記同時確率の平均値であるカテゴリ毎の平均同時確率を計算する平均同時確率計算手段と、
前記平均同時確率計算手段によって計算された前記平均同時確率に基づいて、前記コンテンツデータの分類先のカテゴリを決定するカテゴリ決定手段と
を備えることを特徴とするコンテンツ分類装置。
前記確率パラメータ計算手段は、
カテゴリの頻度と（定数／カテゴリの数）の和を、すべてのカテゴリについて合計した値によって除することによってカテゴリに係る前記確率パラメータを計算し、カテゴリを条件とした属性値の頻度と（定数／属性値の数）の和を、すべての属性値について合計した値によって除することによって属性値に係る確率パラメータを計算することを特徴とする請求項１に記載のコンテンツ分類装置。
コンテンツを分類する装置のコンピュータに、
学習用データの属性に基づいて、異なる属性を夫々の根ノードとした複数のＮＢＴ（ＮａｉｖｅＢａｙｅｓＴｒｅｅ）の構造を学習する構造学習ステップと、
前記構造学習ステップによって学習された前記複数のＮＢＴの各ＮＢ（ＮａｉｖｅＢ
ａｙｅｓ）の確率パラメータを計算する確率パラメータ計算ステップと、
前記構造学習ステップによって学習された前記複数のＮＢＴの構造、および、確率パラメータ計算ステップによって計算された前記確率パラメータを記憶する記憶ステップと、
前記記憶ステップによって記憶されている前記複数のＮＢＴの構造および前記確率パラメータに基づいて、コンテンツデータに含まれるデータの属性と各ＮＢＴにおけるカテゴリ毎の同時確率を計算する同時確率計算ステップと、
前記同時確率計算ステップによって計算された前記各ＮＢＴにおける前記同時確率の平均値であるカテゴリ毎の平均同時確率を計算する平均同時確率計算ステップと、
前記平均同時確率計算ステップによって計算された前記平均同時確率に基づいて、前記コンテンツデータの分類先のカテゴリを決定するカテゴリ決定ステップと
を実行させることを特徴とするプログラム。