JP5463873B2

JP5463873B2 - マルチメディア分類システム及びマルチメディア検索システム

Info

Publication number: JP5463873B2
Application number: JP2009265490A
Authority: JP
Inventors: 悠一吉田; 満安倍
Original assignee: Denso IT Laboratory Inc
Current assignee: Denso IT Laboratory Inc
Priority date: 2009-11-20
Filing date: 2009-11-20
Publication date: 2014-04-09
Anticipated expiration: 2029-11-20
Also published as: JP2011108192A

Description

本発明は、画像と画像以外のメディアデータからなる標本データを複数まとめた標本データセットを分類するマルチメディア分類システム、及び未知の画像あるいは画像以外のメディアデータが入力された場合に、分類された標本データに基づいて、未知の画像に相応しいメディアデータあるいは未知のメディアデータに相応しい画像を検索するマルチメディア検索システムに関する。

近年、デジタルカメラや画像共有サービスの普及に伴い、日常的に扱われる画像の枚数は膨大なものになりつつある。そのような膨大な画像の整理や検索を効率よく行なうための研究が盛んに行なわれている。

例えば、特許文献１には、文書付き画像を画像内容毎に分類しておくことで、未知の画像が入力されたときに、その画像の内容を示す単語を検出することが可能な分類装置が開示されている。

この分類装置では、まず、複数の文書付き画像の各々を複数の部分的なブロックに分割する。これは、画像には複数の物体が含まれていることが多いので、それら複数の物体を切り離すために行なわれる。各々の画像に付されていた文書は、そのまま、分割された部分画像の各々に付加される。そして、部分画像の画像特徴量を計算により求め、ベクトル量子化やクラスタリングなどの手法を適用して、画像特徴量が類似する文書付き部分画像同士に分類する。

次に、同一の分類内に属する全ての部分画像に付加されている文書を対象として、単語の出現頻度を累積する。そして、各分類毎に、その分類に属する部分画像の文書情報の中から出現頻度の高い所定数の単語を取り出し、その分類に属する画像群を表す単語とする。このようにして、各分類の単語を自動検出できるようにしている。取り出した単語、部分画像、画像特徴量、分類を表す情報は画像データベースとして登録される。

未知の画像が与えられたときには、上述した画像データベースを用いて画像の内容を判別し、その画像の内容を示す単語を検出する。具体的には、未知の画像を、文書付き画像を分類したときと同様に部分画像に分割し、個々の部分画像の画像特徴量を計算する。そして、各部分画像に関して、画像データベースに記憶された分類の中から画像特徴量が最も類似する分類を定める。これらの分類に対応する単語が、未知画像の内容を表す単語となる。

特開２０００−３５３１７３号公報

上述した従来の分類装置では、各分類を表す単語に関しては、各分類に属する部分画像の文書情報の中で出現頻度の高い単語を選択しているので、その分類に属する部分画像の共通した特徴を示す単語が選ばれやすい。

しかしながら、従来の分類装置では、基本的に、部分画像の画像特徴量の類似性に基づいて、部分画像を分類している。さらに、未知の画像が与えられたときにも、部分画像の画像特徴量に基づき、類似する部分画像の分類を検出している。このように、画像特徴量をそのまま用いて画像の類似性検査を行なった場合、必ずしも高い検査能力が得られない場合がある。例えば、本来、分類が異なるにもかかわらず、画像自体が良く似ているようなケースも考えられるが、このような場合、画像特徴量の類似性からでは同じ分類と判断されてしまうこともありえる。

本発明は、上述した点に鑑みてなされたものであり、画像と画像以外のメディアデータからなる標本データの分類分けの精度を向上することが可能なマルチメディア分類システム、及び分類された標本データを用いて、未知の画像あるいは画像以外のメディアデータが入力された場合に、未知の画像に相応しいメディアデータあるいは未知のメディアデータに相応しい画像を検索するマルチメディア検索システムを提供することを目的とする。

上記目的を達成するために、請求項１に記載のマルチメディア分類システムは、
画像と、その画像に関連する情報を示す画像以外のメディアデータからなる標本データを複数まとめた標本データセットを分類するマルチメディア分類システムであって、
標本データセットの各画像において、局所領域の画像特徴量を抽出するとともに、抽出された画像特徴量を多次元の画像特徴量ベクトルにベクトル量子化する画像特徴量ベクトル量子化手段と、
画像特徴量ベクトル量子化手段によりベクトル量子化された、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率を算出する画像特徴量ベクトル生起確率算出手段と、
標本データセットの各メディアデータから特徴量を抽出し、抽出されたメディア特徴量を多次元のメディア特徴量ベクトルにベクトル量子化するメディア特徴量ベクトル量子化手段と、
メディア特徴量ベクトル量子化手段によりベクトル量子化された、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率を算出するメディア特徴量ベクトル生起確率算出手段と、
標本データセットに含まれる個々の標本データに関して、画像特徴量ベクトル要素の生起確率とメディア特徴量ベクトル要素の生起確率とを用いて、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を算出するとともに、標本データセットに含まれる複数の標本データの、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を行列要素とする共起確率行列を算出する共起確率算出手段と、
共起確率行列を標本データのデータ数よりも少ない数の潜在トピックにおける共起確率を示す潜在トピック共起確率行列と、各潜在トピックのそれぞれの共起確率に対する重みを示す潜在トピック重み行列とに分解する分解手段と、
分解手段により算出された潜在トピック共起確率行列の各潜在トピックにおける共起確率から、各潜在トピックにおける画像特徴量ベクトル要素の生起確率を抽出して、各々の潜在トピックに関して画像特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する画像特徴量ベクトルの潜在トピック生起確率行列算出手段と、
分解手段により算出された潜在トピック共起確率行列の各潜在トピックにおける共起確率から、各潜在トピックにおけるメディア特徴量ベクトル要素の生起確率を抽出して、各々の潜在トピックに関してメディア特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出するメディア特徴量ベクトルの潜在トピック生起確率行列算出手段と、を備え、
共起確率算出手段は、合計が１となる第１の重み係数及び第２の重み係数を定め、個々の標本データに関して、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率に第１の重み係数を乗算し、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率に第２の重み係数を乗算して、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を算出した上で、第１の重み係数が乗算された画像特徴量ベクトル要素の生起確率と第２の重み係数が乗算されたメディア特徴量ベクトル要素の生起確率を各列に並べることにより、共起確率行列を算出することを特徴とする。

上述したように、請求項１のマルチメディア分類システムによれば、複数の標本データの画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率をまとめた共起確率行列を、トピック分解の手法を用いて、各潜在トピックにおける共起確率を示す潜在トピック共起確率行列と、各潜在トピックのそれぞれの共起確率に対する重みを示す潜在トピック重み行列とに分解している。これは、複数の標本データの画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率が、潜在トピックによって規定される部分空間において、複数のクラスタに分類されたことと等価である。

画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を用いることにより、生起確率が高い画像特徴量ベクトル要素とメディア特徴量ベクトル要素との両方を重視した分類分けを行なうことができる。このように、画像と画像以外のメディアデータからなる標本データを、画像とメディアデータの両方の重要な特徴量ベクトル要素を考慮して複数のクラスタに分類することができるので、従来のように画像特徴量の類似性のみから分類分けを行なう場合に比較して、分類分けの精度を向上することができる。

さらに、請求項１に記載のマルチメディア分類システムでは、算出された潜在トピック共起確率行列から、画像特徴量ベクトル要素の潜在トピック生起確率行列を算出する画像特徴量ベクトル分類手段と、メディア特徴量ベクトル要素の潜在トピック生起確率行列を算出するメディア特徴量ベクトル分類手段とを備えている。このため、未知画像の画像特徴量ベクトル要素の生起確率、あるいは未知のメディアデータのメディア特徴量ベクトル要素の生起確率のいずれかの情報が得られれば、画像特徴量ベクトル要素の潜在トピック生起確率行列あるいはメディア特徴量ベクトルの潜在トピック生起確率行列を利用して、共起確率行列に基づいて定めた潜在トピックによる部分空間における写像位置を求めることが可能になる。これにより、その写像位置から類似、対応するメディアデータや画像データを容易に検索することが可能になる。

加えて、請求項１に記載のマルチメディア分類システムでは、共起確率算出手段は、合計が１となる第１の重み係数及び第２の重み係数を定め、個々の標本データに関して、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率に第１の重み係数を乗算し、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率に第２の重み係数を乗算して、特徴量ベクトルとメディア特徴量ベクトルとの共起確率を算出した上で、第１の重み係数が乗算された画像特徴量ベクトル要素の生起確率と第２の重み係数が乗算されたメディア特徴量ベクトル要素の生起確率を各列に並べることにより、共起確率行列を算出する。

この場合に算出される共起確率は簡易的ではあるが、共起確率の算出、さらにはその共起確率をまとめた共起確率行列の潜在トピック共起確率行列と潜在トピック重み行列とへの分解、画像特徴量ベクトル要素及びメディア特徴量ベクトル要素の潜在トピック生起確率行列の算出などの演算処理をより簡単に行なうことができる。
請求項２に記載したように、画像特徴量ベクトルの潜在トピック生起確率行列算出手段は、各々の潜在トピックに関して画像特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する際に、各列の成分の総和であるＬ１ノルムで正規化し、各列の全成分の総和が１となるようにすることが好ましい。さらに、請求項３に記載したように、メディア特徴量ベクトルの潜在トピック生起確率行列算出手段は、各々の潜在トピックに関してメディア特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する際に、各列の成分の総和であるＬ１ノルムで正規化し、各列の全成分の総和が１となるようにすることが好ましい。

請求項４に記載したように、メディアデータは、１つ以上の単語から構成される文章、位置情報、時刻情報の中から一つ以上を用いて構成されたデータであることが好ましい。画像の解説を行なった文章や、画像を取得した位置や時刻などを示す位置情報、時刻情報は、画像の特徴を表現するメディアデータとして好適であるためである。

請求項５に記載したように、標本データは、インターネットを介して収集されたものであることが好ましい。多くの物体を認識するには、多種の物体を含んだ標本データを用意する必要がある。このため、多数の画像に対して、名称などのメディアデータを人手をかけて付与するとすれば、非常に時間と手間がかかる作業となる。それに対して、近年では、多くのホームページがインターネット上に公開され、その中には、画像と、その画像を解説した文章などがセットとなっていることも多い。従って、インターネットを介して標本データを収集することにより、人手をかけずに標本データを用意することが可能である。

請求項６に記載のマルチメディア検索システムは、請求項１乃至請求項５のいずれかに記載のマルチメディア分類システムを備え、当該マルチメディア分類システムにより算出された画像特徴量ベクトル要素の潜在トピック生起確率行列及びメディア特徴量ベクトル要素の潜在トピック生起確率行列を用いて、未知の画像が入力された場合に、標本データに基づいて、その未知画像の内容に相応しいメディアデータを検索するものであって、
未知画像が入力された場合、画像特徴量の抽出、ベクトル量子化、及び画像特徴量ベクトル要素の生起確率の算出を行い、算出した未知画像の画像特徴量ベクトル要素の生起確率を成分とする入力行列を、画像特徴量ベクトル要素の潜在トピック生起確率行列を変化させることなく、当該画像特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列とに分解することにより、入力行列に対する潜在トピック重み行列を算出する潜在トピック重み行列算出手段と、
メディア特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列算出手段により算出された潜在トピック重み行列とを掛け合わせて、未知画像に対応するメディア特徴量ベクトル要素の生起確率行列を算出するメディア特徴量ベクトル生起確率行列算出手段と、
メディア特徴量ベクトル生起確率行列算出手段によって算出されたメディア特徴量ベクトル要素の生起確率行列に基づいて、入力された未知画像に付与すべきメディアデータを抽出し、検索結果として出力する検索結果出力手段と、を備えることを特徴とする。

上述したように、請求項６のマルチメディア検索システムでは、未知画像が入力されたときに、この未知画像の画像特徴量ベクトル要素の生起確率を成分とする入力行列を、画像特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列とに分解して、入力行列に対する潜在トピック重み行列を算出する。このとき算出される潜在トピック重み行列は、潜在トピックにより規定される部分空間における入力行列の写像位置を示すものとなる。

ここで、潜在トピックにより規定される部分空間は、マルチメディア分類システムにより、類似する共起確率を有する標本データ同士が同じクラスタに分類されるように定められている。その部分空間における入力行列の写像位置を示す潜在トピック重み行列を、メディア特徴量ベクトルの潜在トピック生起確率行列に掛け合わせる。これにより、未知画像の画像特徴量ベクトル要素の生起確率を成分とする入力行列の写像位置に対応するメディア特徴量ベクトルの生起確率行列を求めることができる。この生起確率行列の中で、生起確率の高い所定数のメディアデータを抽出すれば、入力された未知画像の内容に相応しいと考えられるメディアデータを検索結果として出力することが可能になる。

請求項７に記載のマルチメディア検索システムは、請求項１乃至請求項５のいずれかに記載のマルチメディア分類システムを備え、当該マルチメディア分類システムにより算出された画像特徴量ベクトル要素の潜在トピック生起確率行列及びメディア特徴量ベクトル要素の潜在トピック生起確率行列を用いて、未知のメディアデータが入力された場合に、標本データに基づいて、その未知メディアデータの内容に相応しい画像を検索するマルチメディア検索システムであって、
未知メディアデータが入力された場合、メディア特徴量の抽出、ベクトル量子化、及びメディア特徴量ベクトル要素の生起確率の算出を行い、算出した未知画像のメディア特徴量ベクトル要素の生起確率を成分とする入力行列を、メディア特徴量ベクトル要素の潜在トピック生起確率行列を変化させることなく、当該メディア特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列とに分解することにより、入力行列に対する潜在トピック重み行列を算出する潜在トピック重み行列算出手段と、
画像特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列算出手段により算出された潜在トピック重み行列とを掛け合わせて、未知メディアデータに対応する画像特徴量ベクトル要素の生起確率行列を算出する画像特徴量ベクトル生起確率行列算出手段と、
画像特徴量ベクトル生起確率行列算出手段によって算出された画像特徴量ベクトル要素の生起確率行列に基づいて、標本データの中から類似する画像特徴量ベクトル要素の生起確率を有する画像を抽出し、検索結果として出力する検索結果出力手段と、を備えることを特徴とする。

これにより、請求項６の場合と同様にして、未知メディアデータのメディア特徴量ベクトル要素の生起確率を成分とする入力行列の写像位置に対応する画像特徴量ベクトル要素の生起確率行列を求めることができる。この求めた画像特徴量ベクトル要素の生起確率行列に基づき、標本データの中から類似する画像特徴量ベクトル要素の生起確率を有する画像を抽出することにより、入力された未知メディアデータの内容に相応しいと考えられる画像を検索結果として出力することが可能になる。

画像と画像以外のメディアデータからなる標本データを複数まとめた標本データセットを分類するマルチメディア分類システムの構成を示す構成図である。各画像Ｉｎにおける画像特徴量生起確率行列Ｐ（ｖｗ|Ｉｎ）を示す図である。各文章Ｔｎにおけるメディア特徴量生起確率行列Ｐ（ｗ|Ｔｎ）を示す図である。画像特徴量生起確率行列Ｐ（ｖｗ|Ｉｎ）とメディア特徴量生起確率行列Ｐ（ｗ|Ｔｎ）との乗算結果を示す図である。１つの標本データに関する共起確率行列Ｐ（ｘ|Ｉｎ）を示す図である。すべての標本データに関する共起確率行列をＰ（Ｘ|Ｉ）を示す図である。潜在トピック分解部７０によって算出された潜在トピック共起確率行列Ｐ（Ｘ|Ｚ）を示す図である。任意の潜在トピックＺｉの共起確率Ｐ（ｗ、ｖｗ|Ｚｉ）に関して、列成分をより詳しく示した図である。画像特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｖｗ|Ｚ）を示す図である。メディア特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｗ|Ｚ）を示す図である。マルチメディア分類システムを除く、マルチメディア検索システムのその他の構成を示す構成図である。第2実施形態における、１つの標本データに関する共起確率行列Ｐ（ｘ|Ｉｎ）を示す図である。第２実施形態における、すべての標本データに関する共起確率行列をＰ（Ｘ|Ｉ）を示す図である。

（第１実施形態）
以下、本発明の第１実施形態によるマルチメディア分類システム及びマルチメディア検索システムについて、図面に基づいて説明する。図１は、マルチメディア分類システム１００の構成を示す構成図である。なお、本実施形態においては、画像に関連する情報を示すメディアデータとして、文章を適用した例について説明する。また、本実施形態によるマルチメディア分類システム及びマルチメディア検索システムは、コンピュータもしくは専用の演算処理回路を用いて実現されるものである。従って、以下に説明するマルチメディア分類システム及びマルチメディア検索システムの構成は、コンピュータもしくは専用演算処理回路によって実行される各種の機能に相当するものである。

図１において、標本データ１０は、画像と、その画像に関連する情報を示す文章からなる。この標本データ１０として、多種の物体に関する多数の画像と、それらの画像に付随する文章とからなる複数の標本データ１０（標本データセット）が用意される。なお、本実施形態によるマルチメディア検索システム２００では、詳しくは後述するが、未知の画像や文章が入力されたときに、マルチメディア分類システム１００により分類された標本データセットに基づいて、未知画像の内容に相応しい所定数の単語や、未知文書の内容に相応しい画像を検索する。このため、認識可能な物体のカテゴリは、標本データ１０における物体のカテゴリの種類に依存する。従って、認識物体のカテゴリを拡大しようとした場合、多くの標本データ１０からなる標本データセットを用意する必要がある。

ただし、多数の画像に対して、物体名称や特徴を示す文章などのデータを人手をかけて付与した場合、非常に時間と手間がかかることになる。そのため、本実施形態では、多種の物体に関する標本データを効率的に収集するために、インターネットを利用する。近年では、多くのホームページがインターネット上に公開され、その中には、画像と、その画像を解説した文章などがセットとなっているものも多い。従って、インターネットを介して標本データ１０を収集することにより、人手をかけず効率的に標本データ１０を用意することができる。

標本データセットに含まれる各標本データ１０の画像は、画像用特徴変換部２０に与えられ、各標本データ１０の文章は、メディア用特徴変換部４０に与えられる。

画像用特徴変換部２０は、入力された画像をＮ１次元（例えば１０００次元）の画像特徴量ベクトルに変換するものである。画像をＮ１次元の画像特徴量ベクトルに変換する手法として種々の方法が知られているが、本実施形態において採用した方法について、以下に簡単に説明する。

まず、画像から沢山の小領域を切り出して、各小領域の特徴量である輝度分布の勾配方向のパターンを、ＳＩＦＴ（Scale-Invariant Feature Transform）特徴ベクトル（１２８次元のベクトル）により表す。このＳＩＦＴ特徴ベクトルは、小領域を４×４＝１６グリッドに分割し、各グリッドの勾配方向を８方向のベクトルにて表現したものである。

なお、小領域の切り出し方法としては、例えば、画像においてエッジなどの特徴点を求め、その特徴点の周りの一定の領域を小領域とすれば良い。あるいは、ある大きさの窓を用意し、画像上で少しずつずらしながら、窓内の領域を小領域として切り出しても良い。さらに、１枚の画像に対して、窓の大きさを変えつつ複数回小領域を切り出すようにしても良い。

また、画像の局所領域の特徴量は、ＳＩＦＴ特徴ベクトルに限らず、例えばＳＵＲＦ特徴ベクトルによって表しても良い。ＳＵＲＦによる特徴量算出方法は、”SURF：Speed Up Robust Features” Herbert Bay, Tinne Tuytelaars, Luc Van Gool, Proceedings of the ninth European Conference on Computer Vision, Vol. 1, pp.404-417, May 2006に詳しく説明されている。

標本データセットに含まれるすべての標本データ１０の画像に関して、全局所特徴量に対応するＳＩＦＴ特徴ベクトルが算出されると、ＳＩＦＴ特徴ベクトルの１２８次元空間において、Ｋ−平均法（K‐means）を用いて、算出したＳＩＦＴ特徴ベクトルをＮ１個にクラスタリングする。そして、各クラスタの中心に当たるＳＩＦＴ特徴ベクトルを、画像の特徴を表すための代表的なパターンであるvisual wordsとして定める。

上述したようにして定められたＮ１個のvisual wordsと、各画像ごとに算出されたＳＩＦＴ特徴ベクトルとを用いて、各画像にそれぞれのvisual wordsがいくつ含まれているかを算出することによりベクトル量子化する。これにより、各画像はＮ１個のvisual wordsがそれぞれいくつ含まれているかを示すヒストグラムとして表現され、各画像はＮ１次元の画像特徴量ベクトルに変換される。

画像用生起確率算出部３０は、各画像において、Ｎ１個のvisual words（Ｎ１次元の画像特徴量ベクトルの各要素）のいずれかに該当すると判断されたＳＩＦＴ特徴ベクトルの数の総和であるＬ１ノルムで、Ｎ１次元の各々の画像特徴量ベクトル要素の数を除算して正規化することにより、visual wardsによるヒストグラムを確率に変換する。これにより、各画像における各々の画像特徴量ベクトル要素（各visual word）の生起確率を求めることができる。この各画像Ｉｎにおける各画像特徴量ベクトル要素の生起確率Ｐ（ｖｗ|Ｉｎ）は、図２に示すように行列として表すことができる。この各画像Ｉｎにおける各画像特徴量ベクトル要素の生起確率Ｐ（ｖｗ|Ｉｎ）は、図示しない記憶部に画像と関連付けて記憶される。

一方、メディア用特徴変換部４０は、入力された文章をＮ２次元のメディア特徴量ベクトルに変換するものである。このため、メディア用特徴変換部４０は、入力された文章を形態素解析して、名詞、形容詞等の単語に分割する。すべての標本データ１０の文章が単語に分割された後、分割されたすべての単語をベースとして、それぞれの標本データ１０の文章に、分割された単語が何回現れたかを計算する。これにより、それぞれの文章が、
分割されたすべての単語数を次元数（Ｎ２次元）とするメディア特徴量ベクトルによりベクトル量子化される。これにより、各画像とセットになった各文章Ｔｎについても、Ｎ２個の単語がそれぞれいくつ含まれているかを示すヒストグラムとして表現される。

メディア用生起確率算出部５０は、各文章において、Ｎ２個の単語（Ｎ２次元のメディア特徴量ベクトルの各要素）のいずれかに該当すると判断された単語の数の総和であるＬ１ノルムで、Ｎ２次元の各々のメディア特徴量ベクトル要素の数を除算して正規化することにより、Ｎ２個の単語に基づくヒストグラムを確率に変換する。これにより、各文章における各々のメディア特徴量ベクトル要素（各単語）の生起確率を求めることができる。この各文章Ｔｎにおけるメディア特徴量ベクトル要素の生起確率Ｐ（ｗ|Ｔｎ）も、図３に示すように行列として表すことができる。なお、ベクトル量子化の基礎となったＮ２個の単語も図示しない記憶部に記憶される。

標本データセットに含まれるすべての標本データ１０の画像及び文書に関して、上述した画像特徴量ベクトル要素の生起確率Ｐ（ｖｗ|Ｉｎ）及びメディア特徴量ベクトル要素の生起確率Ｐ（ｗ|Ｔｎ）が算出されると、共起確率算出部６０は、まず、各標本データ１０ごとに、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率Ｐ（ｗ、ｖｗ|Ｉｎ）を算出する。なお、画像と文書とは一体であるため、共起確率の算出に際しては、Ｉｎ＝Ｔｎとみなすことができる。従って、共起確率Ｐ（ｗ、ｖｗ|Ｉｎ）の表記に関しては、画像を示す記号Ｉｎを代表として用いる。

この画像特徴量生起確率行列Ｐ（ｖｗ|Ｉｎ）とメディア特徴量生起確率行列Ｐ（ｗ|Ｔｎ）との乗算結果は、図４に示すように、Ｎ２行Ｎ１列の行列の形を取る。この乗算結果を、２列目以降の要素を順次１列目の下段に移動させることにより、図５に示すように、Ｎ１・Ｎ２行１列の行列Ｐ（ｘ|Ｉｎ）に変形する。これにより、１つの標本データ１０に関する共起確率行列Ｐ（ｘ|Ｉｎ）の算出が完了する。

標本データセットに含まれるすべての標本データ１０に関して、共起確率行列Ｐ（ｘ|Ｉｎ）の算出が完了すると、共起確率算出部６０は、図６に示すように、標本データ１０の共起確率行列Ｐ（ｘ|Ｉｎ）を順番に全標本データ数Ｄ分だけ列方向に並べることにより、すべての標本データ１０に関する共起確率をまとめた共起確率行列を算出する。このすべての標本データ１０に関する共起確率行列をＰ（Ｘ|Ｉ）と表す。

次に、潜在トピック分解部７０において、ＰＬＳＡ（Probabilistic Latent Semantic Analysis）を用いて、共起確率行列Ｐ（Ｘ|Ｉ）を、下記の数式１に示すように、標本データ１０のデータ数Ｄよりも少ない数ｚの潜在トピックＺにおける共起確率を示す潜在トピック共起確率行列Ｐ（Ｘ|Ｚ）と、各潜在トピックＺのそれぞれの共起確率に対する重みを示す潜在トピック重み行列Ｐ（Ｚ|Ｉ）とに分解する。

このような共起確率行列Ｐ（Ｘ|Ｉ）の分解は、潜在トピックＺによって規定される部分空間において、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率が、複数のクラスタに分類されたことと等価である。なお、分解のための演算処理には、公知のＥＭアルゴリズムが適用され、現在与えられているパラメータから潜在トピックに関する事後確率の分布を算出するＥステップと、算出された潜在トピックの確率分布の下でパラメータの値を算出するＭステップを繰り返すことにより、最適な潜在トピックＺ（部分空間）が構築される。

このように、本実施形態では、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率をまとめた共起確率行列Ｐ（Ｘ|Ｉ）を複数のクラスタへの分類分けに用いているので、生起確率が高い画像特徴量ベクトル要素とメディア特徴量ベクトル要素との両々を重視した分類分けを行なうことができる。その結果、画像と文書からなる標本データ１０を、画像と文書の両方の重要な特徴量を考慮して複数のクラスタに分類することができるので、従来のように画像特徴量の類似性のみから分類分けを行なう場合に比較して、分類分けの精度を向上することができる。

さらに、本実施形態では、画像特徴量生起確率行列Ｐ（ｖｗ|Ｉｎ）とメディア特徴量生起確率行列Ｐ（ｗ|Ｔｎ）とを掛け合わせて、各標本データ１０に関する共起確率を算出しているので、生起確率がともに高い画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率がより高められることになる。この結果、画像とメディアデータの両方の重要な特徴量をより強調した共起確率を算出することができる。

潜在トピック分解部７０によって算出された潜在トピック共起確率行列Ｐ（Ｘ|Ｚ）は、画像特徴量ベクトル要素の潜在トピック生起確率算出部８０、及び、メディア特徴量ベクトル要素の潜在トピック生起確率算出部９０に与えられる。

画像特徴量ベクトル要素の潜在トピック生起確率算出部８０は、潜在トピック共起確率行列Ｐ（Ｘ|Ｚ）から、周辺化の手法を用いて、各潜在トピックＺにおける画像特徴量ベクトル要素の生起確率を抽出する。また、メディア特徴量ベクトル要素の潜在トピック生起確率算出部９０は、潜在トピック共起確率行列Ｐ（Ｘ|Ｚ）から、周辺化の手法を用いて、各潜在トピックＺにおけるメディア特徴量ベクトル要素の生起確率を抽出する。これらの抽出方法について、以下に、詳細に説明する。

潜在トピック分解部７０によって算出された潜在トピック共起確率行列Ｐ（Ｘ|Ｚ）は、図７に示すように、潜在トピックＺの数をｚ（＜標本データ１０のデータ数Ｄ）としたとき、Ｎ１・Ｎ２行ｚ列の行列となる。ここで、任意の潜在トピックＺｉの共起確率Ｐ（ｗ、ｖｗ|Ｚｉ）に関して、行成分をより詳しく示すと、図８のようになる。すなわち、１行目からＮ２行目には、１番目のvisual word（画像特徴量ベクトル要素）ｖｗ_１の生起確率と、１番目からＮ２番目までの単語（メディア特徴量ベクトル要素）ｗ_１〜ｗ_Ｎ２の生起確率との共起確率Ｐ（ｗ_１、ｖｗ_１|Ｚｉ）〜Ｐ（ｗ_Ｎ２、ｖｗ_１|Ｚ）が順番に並んでいる。そして、Ｎ２+１行目からＮ２+Ｎ２行目には、２番目のvisual word（画像特徴量ベクトル要素）ｖｗ_２の生起確率と、１番目からＮ２番目までの単語（メディア特徴量ベクトル要素）ｗ_１〜ｗ_Ｎ２の生起確率との共起確率Ｐ（ｗ_１、ｖｗ_２|Ｚｉ）〜Ｐ（ｗ_Ｎ２、ｖｗ_２|Ｚ）が順番に並んでいる。

以下、同様にして、３番目以降のvisual wordの生起確率と、１番目からＮ２番目までの単語ｗ_１〜ｗ_Ｎ２の生起確率との共起確率が順番に並んで、最後に、Ｎ２（Ｎ１−１）＋１行目からＮ２・Ｎ１行目には、Ｎ１番目のvisual word ｖｗ_Ｎ１の生起確率と、１番目からＮ２番目までの単語ｗ_ｉ〜ｗ_Ｎ２の生起確率との共起確率Ｐ（ｗ_１、ｖｗ_Ｎ１|Ｚｉ）〜Ｐ（ｗ_Ｎ２、ｖｗ_Ｎ１|Ｚ）が順番に並んでいる。

ここで、周辺化の手法を適用することにより、すなわち、各潜在トピックＺｉの共起確率Ｐ（ｗ、ｖｗ|Ｚｉ）において単語（メディア特徴量ベクトル要素）の生起確率に関して積分して、その生起確率を消去することにより、各潜在トピックＺｉにおけるvisual words（画像特徴量ベクトル要素）の生起確率Ｐ（ｖｗｉ|Ｚｉ）を抽出し、各visual word（メディア特徴量ベクトル要素）の生起確率に関して積分して、その生起確率を消去することにより、各潜在トピックＺｉにおける各単語（画像特徴量ベクトル要素）の生起確率Ｐ（ｗｉ|Ｚｉ）を抽出することができる。これを式によって示すと、下記の数式２、３のように表すことができる。

従って、各潜在トピックＺｉの行成分について、図８に示すように、１行目から順番にＮ２個ごとのグループとし、そのグループ内の行成分を積分することにより、各潜在トピックＺｉにおける画像特徴量ベクトル要素の生起確率Ｐ（ｖｗｊ|Ｚｉ）を求めることができる。そして、図９に示すように、各潜在トピックＺｉにおける画像特徴量ベクトル要素の生起確率Ｐ（ｖｗｊ|Ｚｉ）を行列の形にまとめることにより、画像特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｖｗ|Ｚ）を得ることができる。

また、各潜在トピックＺｉの行成分について、図８に示すように、Ｎ２個おきのＮ１個の行成分をグループとし、そのグループ内の行成分を積分することにより、各潜在トピックＺｉにおけるメディア特徴量ベクトル要素の生起確率Ｐ（ｗｊ|Ｚｉ）を求めることができる。そして、図１０に示すように、各潜在トピックＺｉにおけるメディア特徴量ベクトル要素の生起確率Ｐ（ｗｊ|Ｚｉ）を行列の形にまとめることにより、メディア特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｗ|Ｚ）を得ることができる。

なお、上述した画像特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｖｗ|Ｚ）及びメディア特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｗ|Ｚ）は、図示しない記憶部に保存され、後述するマルチメディア検索システムにより検索が行なわれるときに利用される。

このように、本実施形態のマルチメディア分類システム１００では、潜在トピック分解部７０により算出された潜在トピック共起確率行列Ｐ（Ｘ|Ｚ）から、画像特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｖｗ|Ｚ）、及びメディア特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｗ|Ｚ）を算出する。このため、後述するように、未知画像あるいは未知の文書が入力されたときに、未知画像の画像特徴量ベクトル要素の生起確率、あるいは未知の文書のメディア特徴量ベクトル要素の生起確率のいずれかの情報を得た場合に、画像特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｖｗ|Ｚ）あるいはメディア特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｗ|Ｚ）を利用して、共起確率行列Ｐ（Ｘ|Ｚ）を用いて定められた潜在トピックＺによる部分空間における写像位置を求めることが可能になる。これにより、その写像位置から類似、対応するメディアデータや画像データを容易に検索することが可能になる。

次に、未知の画像あるいは文書が入力された場合に、マルチメディア分類システム１００により分類された標本データに基づいて、未知の画像に相応しいメディアデータあるいは未知のメディアデータに相応しい画像を検索するマルチメディア検索システム２００について説明する。このように、本実施形態によるマルチメディア検索システム２００は、マルチメディア分類システム１００を含むものである
図１１は、上述したマルチメディア分類システム１００を除く、マルチメディア検索システム２００のその他の構成を示している。

入力されたデータ１１０が画像である場合、その画像は、画像用特徴変換部１２０において、標本データ１０の画像に対するのと同様の手法によりベクトル量子化され、Ｎ１次元の画像特徴量ベクトルに変換される。画像用特徴変換部１２０により変換されたＮ１次元の画像特徴量ベクトルは、画像用生起確率算出部１３０に入力される。

画像用生起確率算出部１３０は、入力画像Ｉtestにおいて、Ｎ１個のvisual words（Ｎ１次元の画像特徴量ベクトルの各要素）のいずれかに該当すると判断されたＳＩＦＴ特徴ベクトルの数の総和であるＬ１ノルムで、Ｎ１次元の各々の画像特徴量ベクトル要素の数を除算することにより、Ｎ１行１列の画像特徴量ベクトル要素の生起確率行列Ｐ（ｖｗ|Ｉtest）を求める。求めた画像特徴量ベクトル要素の生起確率行列Ｐ（ｖｗ|Ｉtest）は、潜在トピック分解部１６０に入力される。

潜在トピック分解部１６０は、入力された画像特徴量ベクトル要素の生起確率行列Ｐ（ｖｗ|Ｉtest）を入力行列と置いた場合に、その入力行列と、マルチメディア分類システム１００により算出された画像特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｖｗ|Ｚ）とを用いて、入力行列に対応する潜在トピック重み行列を算出する。具体的には、以下の数式４に示すように、入力行列である画像特徴量ベクトル要素の生起確率行列Ｐ（ｖｗ|Ｉtest）を、画像特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｖｗ|Ｚ）と潜在トピック重み行列Ｐ（Ｚ|Ｉtest）とに分解することにより、潜在トピック重み行列Ｐ（Ｚ|Ｉtest）を算出する。

上述したように、マルチメディア分類システム１００により算出された画像特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｖｗ|Ｚ）をそのまま用いて、潜在トピック重み行列Ｐ（Ｚ|Ｉtest）を算出しているので、算出された潜在トピック重み行列Ｐ（Ｚ|Ｉtest）は、潜在トピックＺにより規定される部分空間における、入力画像Ｉtestの画像特徴量ベクトル要素の生起確率行列Ｐ（ｖｗ|Ｉtest）の写像位置を示すものとなる。

算出された潜在トピック重み行列Ｐ（Ｚ|Ｉtest）は、生起確率算出部１７０に入力される。生起確率算出部１７０は、以下の数式５に示すように、マルチメディア分類システム１００によって算出されたメディア特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｗ|Ｚ）と、潜在トピック分解部１６０により算出された潜在トピック重み行列Ｐ（Ｚ|Ｉtest）とを掛け合わせることにより、入力画像Ｉtestに対応するメディア特徴量ベクトル要素の生起確率行列Ｐ（ｗ|Ｉtest）を算出する。

ここで、潜在トピックＺにより規定される部分空間は、マルチメディア分類システム１００により、すべての標本データ１０の画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を示す共起確率行列Ｐ（Ｘ|Ｉ）を用いて、類似する共起確率を有する標本データ１０同士が同じクラスタに分類されるように定められている。

本実施形態では、上述したように、その部分空間における入力画像Ｉtestの画像特徴量ベクトル要素の生起確率行列Ｐ（ｖｗ|Ｉtest）の写像位置を示す潜在トピック重み行列Ｐ（Ｚ|Ｉtest）を、メディア特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｗ|Ｚ）に掛け合わせている。従って、入力画像Ｉtestの画像特徴量ベクトル要素の生起確率を成分とする入力行列の写像位置に対応するメディア特徴量ベクトル要素の生起確率行列Ｐ（ｗ|Ｉtest）を求めることができる。算出されたメディア特徴量ベクトル要素の生起確率行列Ｐ（ｗ|Ｉtest）は、検出部１８０に入力される。

検出部１８０は、入力されたメディア特徴量ベクトル要素の生起確率行列Ｐ（ｗ|Ｉtest）の中から、生起確率の高い所定数の単語を抽出する。メディア特徴量ベクトル要素の生起確率は、上述したように、各標本データ１０の文書における単語の出現頻度に応じて定められている。従って、メディア特徴量ベクトル要素の生起確率の中で、生起確率の高い単語は、文章中において相対的に出現回数が多いものであって、入力画像の内容を適切に示すものとみなすことができる。

そのため、検出部１８０は、記憶部に記憶された標本データの文章の各単語を辞書とし、生起確率の高い所定数の単語を読み出して、入力された未知画像の内容に相応しいと考えられる検索結果として出力する。出力された検索結果は、図示しない情報表示部により、画像又は音声などにより提示される。

また、入力されたデータが文章である場合、その文章は、メディア用特徴変換部１４０において、標本データ１０の文章に対するのと同様の手法によりベクトル量子化され、Ｎ２次元のメディア特徴量ベクトルに変換される。メディア用特徴変換部１４０により変換されたＮ２次元のメディア特徴量ベクトルは、メディア用生起確率算出部１５０に入力される。

メディア用生起確率算出部１５０は、入力文書Ｔtestにおいて、Ｎ２個の単語（Ｎ２次元のメディア特徴量ベクトルの各要素）のいずれかに該当すると判断された単語の数の総和であるＬ１ノルムで、Ｎ２次元の各々のメディア特徴量ベクトル要素の数を除算することにより、Ｎ２行１列のメディア特徴量ベクトル要素の生起確率行列Ｐ（ｗ|Ｔtest）を求める。求めたメディア特徴量ベクトル要素の生起確率行列Ｐ（ｗ|Ｔtest）は、潜在トピック分解部１６０に入力される。

潜在トピック分解部１６０は、入力されたメディア特徴量ベクトル要素の生起確率行列Ｐ（ｗ|Ｔtest）を入力行列と置いた場合に、その入力行列と、マルチメディア分類システム１００により算出されたメディア特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｗ|Ｚ）とを用いて、入力行列に対応する潜在トピック重み行列を算出する。具体的には、以下の数式６に示すように、入力行列であるメディア特徴量ベクトル要素の生起確率行列Ｐ（ｗ|Ｔtest）を、メディア特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｗ|Ｚ）と潜在トピック重み行列Ｐ（Ｚ|Ｔtest）とに分解することにより、潜在トピック重み行列Ｐ（Ｚ|Ｔtest）を算出する。

なお、この場合も、ＥＭアルゴリズムのＭステップのみを繰り返し行なうことで、潜在トピック重み行列Ｐ（Ｚ|Ｔtest）を算出する。潜在トピック重み行列Ｐ（Ｚ|Ｔtest）が算出されると、その潜在トピック重み行列Ｐ（Ｚ|Ｔtest）は生起確率算出部１７０に与えられる。

生起確率算出部１７０は、以下の数式７に示すように、マルチメディア分類システム１００によって算出された画像特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｖｗ|Ｚ）と、潜在トピック分解部１６０により算出された潜在トピック重み行列Ｐ（Ｚ|Ｔtest）とを掛け合わせることにより、入力文書Ｔtestに対応する画像特徴量ベクトル要素の生起確率行列Ｐ（ｖｗ|Ｔtest）を算出する。

このように、本実施形態では、入力画像Ｔtestのメディア特徴量ベクトル要素の生起確率行列Ｐ（ｗ|Ｔtest）の、潜在トピックＺにより規定される部分空間における写像位置を示す潜在トピック重み行列Ｐ（Ｚ|Ｔtest）を、画像特徴量ベクトル要素の潜在トピック生起確率行列Ｐ（ｖｗ|Ｚ）に掛け合わせている。従って、入力文書Ｔtestのメディア特徴量ベクトル要素の生起確率を成分とする入力行列の写像位置に対応する画像特徴量ベクトル要素の生起確率行列Ｐ（ｖｗ|Ｔtest）を求めることができる。このようにして算出された画像特徴量ベクトル要素の生起確率行列Ｐ（ｖｗ|Ｔtest）は、検出部１８０に入力される。

検出部１８０は、記憶部に記憶されている標本データ１０の画像の生起確率行列Ｐ（ｖｗ|Ｉｎ）の中から、入力された画像特徴量ベクトル要素の生起確率行列Ｐ（ｖｗ|Ｉtest）と類似する生起確率行列Ｐ（ｖｗ|Ｉｎ）を有する画像を抽出して、検索結果として出力する。これにより、入力された文書の内容に相応しいと考えられる画像を検索することができる。そして、出力された検索結果は、図示しない情報表示部により、画像として表示される。

（第２実施形態）
次に本発明の第２実施形態によるマルチメディア分類システムについて説明する。なお、本実施形態によるマルチメディア分類システムの構成は、その大部分が上述した第１実施形態のマルチメディア分類システムと共通するため、以下、異なる構成についてのみ説明する。

上述した第１実施形態のマルチメディア分類システムでは、共起確率算出部６０において、各標本データ１０に関して、画像特徴量ベクトル要素の生起確率を示す画像特徴量生起確率行列Ｐ（ｖｗ|Ｉｎ）と、メディア特徴量ベクトル要素の生起確率を示すメディア特徴量生起確率行列Ｐ（ｗ|Ｔｎ）とを掛け合わせることにより、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率が算出された。

それに対して、本実施形態では、共起確率算出部６０において、合計が１となる第１の重み係数及び第２の重み係数を定め、個々の標本データ１０に関して、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率に第１の重み係数を乗算し、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率に第２の重み係数を乗算した上でまとめることにより、特徴量ベクトルとメディア特徴量ベクトルとの共起確率を算出する。

すなわち、本実施形態では、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率Ｐ（ｗ，ｖｗ|Ｉｎ）は、以下の数式８に従って、算出される。

上記のように、第１の重み係数αを乗じたメディア特徴量ベクトル要素の生起確率Ｐ（ｗ|Ｉｎ）と、第２の重み係数（１−α）を乗じた画像特徴量ベクトル要素の生起確率Ｐ（ｖｗ|Ｉｎ）は、図１２に示すように、１列に並べられて、共起確率行列Ｐ（ｘ|Ｉｎ）とされる。これにより、１つの標本データ１０に関する共起確率行列Ｐ（ｘ|Ｉｎ）の算出が完了する。

標本データセットに含まれるすべての標本データ１０に関して、共起確率行列Ｐ（ｘ|Ｉｎ）の算出が完了すると、共起確率算出部６０は、図１３に示すように、標本データ１０の共起確率行列Ｐ（ｘ|Ｉｎ）を順番に全標本データ数Ｄ分だけ列方向に並べることにより、すべての標本データ１０に関する共起確率をまとめた共起確率行列Ｐ（Ｘ|Ｉ）を得ることができる。この場合に算出される共起確率は簡易的ではあるが、共起確率の算出のための演算処理を簡単に行なうことができる。

また、この場合、共起確率行列Ｐ（Ｘ|Ｉ）を潜在トピック共起確率行列Ｐ（Ｘ|Ｚ）と潜在トピック重み行列（Ｚ|Ｉ）に分解する際にも、共起確率行列Ｐ（Ｘ|Ｉ）のサイズが小さいため、第１実施形態に比較して、その演算処理を簡単に行なうことができる。

以上、本発明の好ましい実施形態について説明したが、本発明は上述した実施形態になんら制限されることなく、本発明の主旨を逸脱しない範囲において、種々変形して実施することが可能である。

例えば、上述した実施形態では、画像に関連する情報を示すメディアデータとして文章を利用する例について説明したが、例えば画像を取得した位置情報や、時刻情報も、画像の特徴を示すデータとなりえるため、位置情報や時刻情報もメディアデータとして用いることができる。

２０，１２０…画像用特徴変換部
３０，１３０…画像用生起確率算出部
４０，１４０…メディア用特徴変換部
５０，１５０…メディア用生起確率算出部
６０…共起確率算出部
７０、１６０…潜在トピック分解部
８０…画像ベクトル要素の潜在トピック生起確率算出部
９０…メディアベクトル要素の潜在トピック生起確率算出部
１００…マルチメディア分類システム
１７０…生起確率算出部
１８０…検出部
２００…マルチメディア検索システム

Claims

画像と、その画像に関連する情報を示す画像以外のメディアデータからなる標本データを複数まとめた標本データセットを分類するマルチメディア分類システムであって、
前記標本データセットの各画像において、局所領域の画像特徴量を抽出するとともに、抽出された画像特徴量を多次元の画像特徴量ベクトルにベクトル量子化する画像特徴量ベクトル量子化手段と、
前記画像特徴量ベクトル量子化手段によりベクトル量子化された、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率を算出する画像特徴量ベクトル生起確率算出手段と、
前記標本データセットの各メディアデータから特徴量を抽出し、抽出されたメディア特徴量を多次元のメディア特徴量ベクトルにベクトル量子化するメディア特徴量ベクトル量子化手段と、
前記メディア特徴量ベクトル量子化手段によりベクトル量子化された、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率を算出するメディア特徴量ベクトル生起確率算出手段と、
前記標本データセットに含まれる個々の標本データに関して、画像特徴量ベクトル要素の生起確率とメディア特徴量ベクトル要素の生起確率とを用いて、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を算出するとともに、前記標本データセットに含まれる複数の標本データの、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を行列要素とする共起確率行列を算出する共起確率算出手段と、
前記共起確率行列を標本データのデータ数よりも少ない数の潜在トピックにおける共起確率を示す潜在トピック共起確率行列と、各潜在トピックのそれぞれの共起確率に対する重みを示す潜在トピック重み行列とに分解する分解手段と、
前記分解手段により算出された潜在トピック共起確率行列の各潜在トピックにおける共起確率から、各潜在トピックにおける画像特徴量ベクトル要素の生起確率を抽出して、各々の潜在トピックに関して画像特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する画像特徴量ベクトルの潜在トピック生起確率行列算出手段と、
分解手段により算出された潜在トピック共起確率行列の各潜在トピックにおける共起確率から、各潜在トピックにおけるメディア特徴量ベクトル要素の生起確率を抽出して、各々の潜在トピックに関してメディア特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出するメディア特徴量ベクトルの潜在トピック生起確率行列算出手段と、を備え、
前記共起確率算出手段は、合計が１となる第１の重み係数及び第２の重み係数を定め、個々の標本データに関して、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率に第１の重み係数を乗算し、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率に第２の重み係数を乗算して、特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を算出した上で、前記第１の重み係数が乗算された画像特徴量ベクトル要素の生起確率と前記第２の重み係数が乗算されたメディア特徴量ベクトル要素の生起確率を各列に並べることにより、前記共起確率行列を算出することを特徴とするマルチメディア分類システム。
前記画像特徴量ベクトルの潜在トピック生起確率行列算出手段は、各々の潜在トピックに関して画像特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する際に、各列の成分の総和であるＬ１ノルムで正規化し、各列の全成分の総和が１となるようにすることを特徴とする請求項１に記載のマルチメディア分類システム。
前記メディア特徴量ベクトルの潜在トピック生起確率行列算出手段は、各々の潜在トピックに関してメディア特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する際に、各列の成分の総和であるＬ１ノルムで正規化し、各列の全成分の総和が１となるようにすることを特徴とする請求項１に記載のマルチメディア分類システム。
前記メディアデータは、１つ以上の単語から構成される文章、位置情報、時刻情報の中から一つ以上を用いて構成されたデータであることを特徴とする請求項１乃至３のいずれかに記載のマルチメディア分類システム。
前記標本データは、インターネットを介して収集されることを特徴とする請求項１乃至４のいずれかに記載のマルチメディア分類システム。
請求項１乃至請求項５のいずれかに記載のマルチメディア分類システムを備え、当該マルチメディア分類システムにより算出された画像特徴量ベクトル要素の潜在トピック生起確率行列及びメディア特徴量ベクトル要素の潜在トピック生起確率行列を用いて、未知の画像が入力された場合に、前記標本データに基づいて、その未知画像の内容に相応しいメディアデータを検索するマルチメディア検索システムであって、
前記未知画像が入力された場合、画像特徴量の抽出、ベクトル量子化、及び画像特徴量ベクトル要素の生起確率の算出を行い、算出した未知画像の画像特徴量ベクトル要素の生起確率を成分とする入力行列を、前記画像特徴量ベクトル要素の潜在トピック生起確率行列を変化させることなく、当該画像特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列とに分解することにより、前記入力行列に対する潜在トピック重み行列を算出する潜在トピック重み行列算出手段と、
前記メディア特徴量ベクトル要素の潜在トピック生起確率行列と、前記潜在トピック重み行列算出手段により算出された潜在トピック重み行列とを掛け合わせて、前記未知画像に対応するメディア特徴量ベクトル要素の生起確率行列を算出するメディア特徴量ベクトル生起確率行列算出手段と、
前記メディア特徴量ベクトル生起確率行列算出手段によって算出されたメディア特徴量ベクトル要素の生起確率行列に基づいて、前記未知画像に付与すべきメディアデータを抽出し、検索結果として出力する検索結果出力手段と、を備えることを特徴とするマルチメディア検索システム。
請求項１乃至請求項５のいずれかに記載のマルチメディア分類システムを備え、当該マルチメディア分類システムにより算出された画像特徴量ベクトル要素の潜在トピック生起確率行列及びメディア特徴量ベクトル要素の潜在トピック生起確率行列を用いて、未知のメディアデータが入力された場合に、前記標本データに基づいて、その未知メディアデータの内容に相応しい画像を検索するマルチメディア検索システムであって、
前記未知メディアデータが入力された場合、メディア特徴量の抽出、ベクトル量子化、及びメディア特徴量ベクトル要素の生起確率の算出を行い、算出した未知画像のメディア特徴量ベクトル要素の生起確率を成分とする入力行列を、前記メディア特徴量ベクトル要素の潜在トピック生起確率行列を変化させることなく、当該メディア特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列とに分解することにより、前記入力行列に対する潜在トピック重み行列を算出する潜在トピック重み行列算出手段と、
前記画像特徴量ベクトル要素の潜在トピック生起確率行列と、前記潜在トピック重み行列算出手段により算出された潜在トピック重み行列とを掛け合わせて、前記未知メディアデータに対応する画像特徴量ベクトル要素の生起確率行列を算出する画像特徴量ベクトル生起確率行列算出手段と、
前記画像特徴量ベクトル生起確率行列算出手段によって算出された画像特徴量ベクトル要素の生起確率行列に基づいて、前記標本データの中から類似する画像特徴量ベクトル要素の生起確率を有する画像を抽出し、検索結果として出力する検索結果出力手段と、を備えることを特徴とするマルチメディア検索システム。