JP5463873B2 - マルチメディア分類システム及びマルチメディア検索システム - Google Patents

マルチメディア分類システム及びマルチメディア検索システム Download PDF

Info

Publication number
JP5463873B2
JP5463873B2 JP2009265490A JP2009265490A JP5463873B2 JP 5463873 B2 JP5463873 B2 JP 5463873B2 JP 2009265490 A JP2009265490 A JP 2009265490A JP 2009265490 A JP2009265490 A JP 2009265490A JP 5463873 B2 JP5463873 B2 JP 5463873B2
Authority
JP
Japan
Prior art keywords
occurrence probability
image
matrix
media
latent topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009265490A
Other languages
English (en)
Other versions
JP2011108192A (ja
Inventor
悠一 吉田
満 安倍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2009265490A priority Critical patent/JP5463873B2/ja
Publication of JP2011108192A publication Critical patent/JP2011108192A/ja
Application granted granted Critical
Publication of JP5463873B2 publication Critical patent/JP5463873B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、画像と画像以外のメディアデータからなる標本データを複数まとめた標本データセットを分類するマルチメディア分類システム、及び未知の画像あるいは画像以外のメディアデータが入力された場合に、分類された標本データに基づいて、未知の画像に相応しいメディアデータあるいは未知のメディアデータに相応しい画像を検索するマルチメディア検索システムに関する。
近年、デジタルカメラや画像共有サービスの普及に伴い、日常的に扱われる画像の枚数は膨大なものになりつつある。そのような膨大な画像の整理や検索を効率よく行なうための研究が盛んに行なわれている。
例えば、特許文献1には、文書付き画像を画像内容毎に分類しておくことで、未知の画像が入力されたときに、その画像の内容を示す単語を検出することが可能な分類装置が開示されている。
この分類装置では、まず、複数の文書付き画像の各々を複数の部分的なブロックに分割する。これは、画像には複数の物体が含まれていることが多いので、それら複数の物体を切り離すために行なわれる。各々の画像に付されていた文書は、そのまま、分割された部分画像の各々に付加される。そして、部分画像の画像特徴量を計算により求め、ベクトル量子化やクラスタリングなどの手法を適用して、画像特徴量が類似する文書付き部分画像同士に分類する。
次に、同一の分類内に属する全ての部分画像に付加されている文書を対象として、単語の出現頻度を累積する。そして、各分類毎に、その分類に属する部分画像の文書情報の中から出現頻度の高い所定数の単語を取り出し、その分類に属する画像群を表す単語とする。このようにして、各分類の単語を自動検出できるようにしている。取り出した単語、部分画像、画像特徴量、分類を表す情報は画像データベースとして登録される。
未知の画像が与えられたときには、上述した画像データベースを用いて画像の内容を判別し、その画像の内容を示す単語を検出する。具体的には、未知の画像を、文書付き画像を分類したときと同様に部分画像に分割し、個々の部分画像の画像特徴量を計算する。そして、各部分画像に関して、画像データベースに記憶された分類の中から画像特徴量が最も類似する分類を定める。これらの分類に対応する単語が、未知画像の内容を表す単語となる。
特開2000−353173号公報
上述した従来の分類装置では、各分類を表す単語に関しては、各分類に属する部分画像の文書情報の中で出現頻度の高い単語を選択しているので、その分類に属する部分画像の共通した特徴を示す単語が選ばれやすい。
しかしながら、従来の分類装置では、基本的に、部分画像の画像特徴量の類似性に基づいて、部分画像を分類している。さらに、未知の画像が与えられたときにも、部分画像の画像特徴量に基づき、類似する部分画像の分類を検出している。このように、画像特徴量をそのまま用いて画像の類似性検査を行なった場合、必ずしも高い検査能力が得られない場合がある。例えば、本来、分類が異なるにもかかわらず、画像自体が良く似ているようなケースも考えられるが、このような場合、画像特徴量の類似性からでは同じ分類と判断されてしまうこともありえる。
本発明は、上述した点に鑑みてなされたものであり、画像と画像以外のメディアデータからなる標本データの分類分けの精度を向上することが可能なマルチメディア分類システム、及び分類された標本データを用いて、未知の画像あるいは画像以外のメディアデータが入力された場合に、未知の画像に相応しいメディアデータあるいは未知のメディアデータに相応しい画像を検索するマルチメディア検索システムを提供することを目的とする。
上記目的を達成するために、請求項1に記載のマルチメディア分類システムは、
画像と、その画像に関連する情報を示す画像以外のメディアデータからなる標本データを複数まとめた標本データセットを分類するマルチメディア分類システムであって、
標本データセットの各画像において、局所領域の画像特徴量を抽出するとともに、抽出された画像特徴量を多次元の画像特徴量ベクトルにベクトル量子化する画像特徴量ベクトル量子化手段と、
画像特徴量ベクトル量子化手段によりベクトル量子化された、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率を算出する画像特徴量ベクトル生起確率算出手段と、
標本データセットの各メディアデータから特徴量を抽出し、抽出されたメディア特徴量を多次元のメディア特徴量ベクトルにベクトル量子化するメディア特徴量ベクトル量子化手段と、
メディア特徴量ベクトル量子化手段によりベクトル量子化された、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率を算出するメディア特徴量ベクトル生起確率算出手段と、
標本データセットに含まれる個々の標本データに関して、画像特徴量ベクトル要素の生起確率とメディア特徴量ベクトル要素の生起確率とを用いて、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を算出するとともに、標本データセットに含まれる複数の標本データの、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を行列要素とする共起確率行列を算出する共起確率算出手段と、
共起確率行列を標本データのデータ数よりも少ない数の潜在トピックにおける共起確率を示す潜在トピック共起確率行列と、各潜在トピックのそれぞれの共起確率に対する重みを示す潜在トピック重み行列とに分解する分解手段と、
分解手段により算出された潜在トピック共起確率行列の各潜在トピックにおける共起確率から、各潜在トピックにおける画像特徴量ベクトル要素の生起確率を抽出して、各々の潜在トピックに関して画像特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する画像特徴量ベクトルの潜在トピック生起確率行列算出手段と、
分解手段により算出された潜在トピック共起確率行列の各潜在トピックにおける共起確率から、各潜在トピックにおけるメディア特徴量ベクトル要素の生起確率を抽出して、各々の潜在トピックに関してメディア特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出するメディア特徴量ベクトルの潜在トピック生起確率行列算出手段と、を備え
共起確率算出手段は、合計が1となる第1の重み係数及び第2の重み係数を定め、個々の標本データに関して、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率に第1の重み係数を乗算し、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率に第2の重み係数を乗算して、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を算出した上で、第1の重み係数が乗算された画像特徴量ベクトル要素の生起確率と第2の重み係数が乗算されたメディア特徴量ベクトル要素の生起確率を各列に並べることにより、共起確率行列を算出することを特徴とする。
上述したように、請求項1のマルチメディア分類システムによれば、複数の標本データの画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率をまとめた共起確率行列を、トピック分解の手法を用いて、各潜在トピックにおける共起確率を示す潜在トピック共起確率行列と、各潜在トピックのそれぞれの共起確率に対する重みを示す潜在トピック重み行列とに分解している。これは、複数の標本データの画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率が、潜在トピックによって規定される部分空間において、複数のクラスタに分類されたことと等価である。
画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を用いることにより、生起確率が高い画像特徴量ベクトル要素とメディア特徴量ベクトル要素との両方を重視した分類分けを行なうことができる。このように、画像と画像以外のメディアデータからなる標本データを、画像とメディアデータの両方の重要な特徴量ベクトル要素を考慮して複数のクラスタに分類することができるので、従来のように画像特徴量の類似性のみから分類分けを行なう場合に比較して、分類分けの精度を向上することができる。
さらに、請求項1に記載のマルチメディア分類システムでは、算出された潜在トピック共起確率行列から、画像特徴量ベクトル要素の潜在トピック生起確率行列を算出する画像特徴量ベクトル分類手段と、メディア特徴量ベクトル要素の潜在トピック生起確率行列を算出するメディア特徴量ベクトル分類手段とを備えている。このため、未知画像の画像特徴量ベクトル要素の生起確率、あるいは未知のメディアデータのメディア特徴量ベクトル要素の生起確率のいずれかの情報が得られれば、画像特徴量ベクトル要素の潜在トピック生起確率行列あるいはメディア特徴量ベクトルの潜在トピック生起確率行列を利用して、共起確率行列に基づいて定めた潜在トピックによる部分空間における写像位置を求めることが可能になる。これにより、その写像位置から類似、対応するメディアデータや画像データを容易に検索することが可能になる。
加えて、請求項1に記載のマルチメディア分類システムでは、共起確率算出手段は、合計が1となる第1の重み係数及び第2の重み係数を定め、個々の標本データに関して、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率に第1の重み係数を乗算し、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率に第2の重み係数を乗算して、特徴量ベクトルとメディア特徴量ベクトルとの共起確率を算出した上で、第1の重み係数が乗算された画像特徴量ベクトル要素の生起確率と第2の重み係数が乗算されたメディア特徴量ベクトル要素の生起確率を各列に並べることにより、共起確率行列を算出する
この場合に算出される共起確率は簡易的ではあるが、共起確率の算出、さらにはその共起確率をまとめた共起確率行列の潜在トピック共起確率行列と潜在トピック重み行列とへの分解、画像特徴量ベクトル要素及びメディア特徴量ベクトル要素の潜在トピック生起確率行列の算出などの演算処理をより簡単に行なうことができる。
請求項2に記載したように、画像特徴量ベクトルの潜在トピック生起確率行列算出手段は、各々の潜在トピックに関して画像特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する際に、各列の成分の総和であるL1ノルムで正規化し、各列の全成分の総和が1となるようにすることが好ましい。さらに、請求項3に記載したように、メディア特徴量ベクトルの潜在トピック生起確率行列算出手段は、各々の潜在トピックに関してメディア特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する際に、各列の成分の総和であるL1ノルムで正規化し、各列の全成分の総和が1となるようにすることが好ましい。
請求項4に記載したように、メディアデータは、1つ以上の単語から構成される文章、位置情報、時刻情報の中から一つ以上を用いて構成されたデータであることが好ましい。画像の解説を行なった文章や、画像を取得した位置や時刻などを示す位置情報、時刻情報は、画像の特徴を表現するメディアデータとして好適であるためである。
請求項5に記載したように、標本データは、インターネットを介して収集されたものであることが好ましい。多くの物体を認識するには、多種の物体を含んだ標本データを用意する必要がある。このため、多数の画像に対して、名称などのメディアデータを人手をかけて付与するとすれば、非常に時間と手間がかかる作業となる。それに対して、近年では、多くのホームページがインターネット上に公開され、その中には、画像と、その画像を解説した文章などがセットとなっていることも多い。従って、インターネットを介して標本データを収集することにより、人手をかけずに標本データを用意することが可能である。
請求項6に記載のマルチメディア検索システムは、請求項1乃至請求項5のいずれかに記載のマルチメディア分類システムを備え、当該マルチメディア分類システムにより算出された画像特徴量ベクトル要素の潜在トピック生起確率行列及びメディア特徴量ベクトル要素の潜在トピック生起確率行列を用いて、未知の画像が入力された場合に、標本データに基づいて、その未知画像の内容に相応しいメディアデータを検索するものであって、
未知画像が入力された場合、画像特徴量の抽出、ベクトル量子化、及び画像特徴量ベクトル要素の生起確率の算出を行い、算出した未知画像の画像特徴量ベクトル要素の生起確率を成分とする入力行列を、画像特徴量ベクトル要素の潜在トピック生起確率行列を変化させることなく、当該画像特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列とに分解することにより、入力行列に対する潜在トピック重み行列を算出する潜在トピック重み行列算出手段と、
メディア特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列算出手段により算出された潜在トピック重み行列とを掛け合わせて、未知画像に対応するメディア特徴量ベクトル要素の生起確率行列を算出するメディア特徴量ベクトル生起確率行列算出手段と、
メディア特徴量ベクトル生起確率行列算出手段によって算出されたメディア特徴量ベクトル要素の生起確率行列に基づいて、入力された未知画像に付与すべきメディアデータを抽出し、検索結果として出力する検索結果出力手段と、を備えることを特徴とする。
上述したように、請求項6のマルチメディア検索システムでは、未知画像が入力されたときに、この未知画像の画像特徴量ベクトル要素の生起確率を成分とする入力行列を、画像特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列とに分解して、入力行列に対する潜在トピック重み行列を算出する。このとき算出される潜在トピック重み行列は、潜在トピックにより規定される部分空間における入力行列の写像位置を示すものとなる。
ここで、潜在トピックにより規定される部分空間は、マルチメディア分類システムにより、類似する共起確率を有する標本データ同士が同じクラスタに分類されるように定められている。その部分空間における入力行列の写像位置を示す潜在トピック重み行列を、メディア特徴量ベクトルの潜在トピック生起確率行列に掛け合わせる。これにより、未知画像の画像特徴量ベクトル要素の生起確率を成分とする入力行列の写像位置に対応するメディア特徴量ベクトルの生起確率行列を求めることができる。この生起確率行列の中で、生起確率の高い所定数のメディアデータを抽出すれば、入力された未知画像の内容に相応しいと考えられるメディアデータを検索結果として出力することが可能になる。
請求項7に記載のマルチメディア検索システムは、請求項1乃至請求項5のいずれかに記載のマルチメディア分類システムを備え、当該マルチメディア分類システムにより算出された画像特徴量ベクトル要素の潜在トピック生起確率行列及びメディア特徴量ベクトル要素の潜在トピック生起確率行列を用いて、未知のメディアデータが入力された場合に、標本データに基づいて、その未知メディアデータの内容に相応しい画像を検索するマルチメディア検索システムであって、
未知メディアデータが入力された場合、メディア特徴量の抽出、ベクトル量子化、及びメディア特徴量ベクトル要素の生起確率の算出を行い、算出した未知画像のメディア特徴量ベクトル要素の生起確率を成分とする入力行列を、メディア特徴量ベクトル要素の潜在トピック生起確率行列を変化させることなく、当該メディア特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列とに分解することにより、入力行列に対する潜在トピック重み行列を算出する潜在トピック重み行列算出手段と、
画像特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列算出手段により算出された潜在トピック重み行列とを掛け合わせて、未知メディアデータに対応する画像特徴量ベクトル要素の生起確率行列を算出する画像特徴量ベクトル生起確率行列算出手段と、
画像特徴量ベクトル生起確率行列算出手段によって算出された画像特徴量ベクトル要素の生起確率行列に基づいて、標本データの中から類似する画像特徴量ベクトル要素の生起確率を有する画像を抽出し、検索結果として出力する検索結果出力手段と、を備えることを特徴とする。
これにより、請求項6の場合と同様にして、未知メディアデータのメディア特徴量ベクトル要素の生起確率を成分とする入力行列の写像位置に対応する画像特徴量ベクトル要素の生起確率行列を求めることができる。この求めた画像特徴量ベクトル要素の生起確率行列に基づき、標本データの中から類似する画像特徴量ベクトル要素の生起確率を有する画像を抽出することにより、入力された未知メディアデータの内容に相応しいと考えられる画像を検索結果として出力することが可能になる。
画像と画像以外のメディアデータからなる標本データを複数まとめた標本データセットを分類するマルチメディア分類システムの構成を示す構成図である。 各画像Inにおける画像特徴量生起確率行列P(vw|In)を示す図である。 各文章Tnにおけるメディア特徴量生起確率行列P(w|Tn)を示す図である。 画像特徴量生起確率行列P(vw|In)とメディア特徴量生起確率行列P(w|Tn)との乗算結果を示す図である。 1つの標本データに関する共起確率行列P(x|In)を示す図である。 すべての標本データに関する共起確率行列をP(X|I)を示す図である。 潜在トピック分解部70によって算出された潜在トピック共起確率行列P(X|Z)を示す図である。 任意の潜在トピックZiの共起確率P(w、vw|Zi)に関して、列成分をより詳しく示した図である。 画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)を示す図である。 メディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)を示す図である。 マルチメディア分類システムを除く、マルチメディア検索システムのその他の構成を示す構成図である。 第2実施形態における、1つの標本データに関する共起確率行列P(x|In)を示す図である。 第2実施形態における、すべての標本データに関する共起確率行列をP(X|I)を示す図である。
(第1実施形態)
以下、本発明の第1実施形態によるマルチメディア分類システム及びマルチメディア検索システムについて、図面に基づいて説明する。図1は、マルチメディア分類システム100の構成を示す構成図である。なお、本実施形態においては、画像に関連する情報を示すメディアデータとして、文章を適用した例について説明する。また、本実施形態によるマルチメディア分類システム及びマルチメディア検索システムは、コンピュータもしくは専用の演算処理回路を用いて実現されるものである。従って、以下に説明するマルチメディア分類システム及びマルチメディア検索システムの構成は、コンピュータもしくは専用演算処理回路によって実行される各種の機能に相当するものである。
図1において、標本データ10は、画像と、その画像に関連する情報を示す文章からなる。この標本データ10として、多種の物体に関する多数の画像と、それらの画像に付随する文章とからなる複数の標本データ10(標本データセット)が用意される。なお、本実施形態によるマルチメディア検索システム200では、詳しくは後述するが、未知の画像や文章が入力されたときに、マルチメディア分類システム100により分類された標本データセットに基づいて、未知画像の内容に相応しい所定数の単語や、未知文書の内容に相応しい画像を検索する。このため、認識可能な物体のカテゴリは、標本データ10における物体のカテゴリの種類に依存する。従って、認識物体のカテゴリを拡大しようとした場合、多くの標本データ10からなる標本データセットを用意する必要がある。
ただし、多数の画像に対して、物体名称や特徴を示す文章などのデータを人手をかけて付与した場合、非常に時間と手間がかかることになる。そのため、本実施形態では、多種の物体に関する標本データを効率的に収集するために、インターネットを利用する。近年では、多くのホームページがインターネット上に公開され、その中には、画像と、その画像を解説した文章などがセットとなっているものも多い。従って、インターネットを介して標本データ10を収集することにより、人手をかけず効率的に標本データ10を用意することができる。
標本データセットに含まれる各標本データ10の画像は、画像用特徴変換部20に与えられ、各標本データ10の文章は、メディア用特徴変換部40に与えられる。
画像用特徴変換部20は、入力された画像をN1次元(例えば1000次元)の画像特徴量ベクトルに変換するものである。画像をN1次元の画像特徴量ベクトルに変換する手法として種々の方法が知られているが、本実施形態において採用した方法について、以下に簡単に説明する。
まず、画像から沢山の小領域を切り出して、各小領域の特徴量である輝度分布の勾配方向のパターンを、SIFT(Scale-Invariant Feature Transform)特徴ベクトル(128次元のベクトル)により表す。このSIFT特徴ベクトルは、小領域を4×4=16グリッドに分割し、各グリッドの勾配方向を8方向のベクトルにて表現したものである。
なお、小領域の切り出し方法としては、例えば、画像においてエッジなどの特徴点を求め、その特徴点の周りの一定の領域を小領域とすれば良い。あるいは、ある大きさの窓を用意し、画像上で少しずつずらしながら、窓内の領域を小領域として切り出しても良い。さらに、1枚の画像に対して、窓の大きさを変えつつ複数回小領域を切り出すようにしても良い。
また、画像の局所領域の特徴量は、SIFT特徴ベクトルに限らず、例えばSURF特徴ベクトルによって表しても良い。SURFによる特徴量算出方法は、”SURF:Speed Up Robust Features” Herbert Bay, Tinne Tuytelaars, Luc Van Gool, Proceedings of the ninth European Conference on Computer Vision, Vol. 1, pp.404-417, May 2006に詳しく説明されている。
標本データセットに含まれるすべての標本データ10の画像に関して、全局所特徴量に対応するSIFT特徴ベクトルが算出されると、SIFT特徴ベクトルの128次元空間において、K−平均法(K‐means)を用いて、算出したSIFT特徴ベクトルをN1個にクラスタリングする。そして、各クラスタの中心に当たるSIFT特徴ベクトルを、画像の特徴を表すための代表的なパターンであるvisual wordsとして定める。
上述したようにして定められたN1個のvisual wordsと、各画像ごとに算出されたSIFT特徴ベクトルとを用いて、各画像にそれぞれのvisual wordsがいくつ含まれているかを算出することによりベクトル量子化する。これにより、各画像はN1個のvisual wordsがそれぞれいくつ含まれているかを示すヒストグラムとして表現され、各画像はN1次元の画像特徴量ベクトルに変換される。
画像用生起確率算出部30は、各画像において、N1個のvisual words(N1次元の画像特徴量ベクトルの各要素)のいずれかに該当すると判断されたSIFT特徴ベクトルの数の総和であるL1ノルムで、N1次元の各々の画像特徴量ベクトル要素の数を除算して正規化することにより、visual wardsによるヒストグラムを確率に変換する。これにより、各画像における各々の画像特徴量ベクトル要素(各visual word)の生起確率を求めることができる。この各画像Inにおける各画像特徴量ベクトル要素の生起確率P(vw|In)は、図2に示すように行列として表すことができる。この各画像Inにおける各画像特徴量ベクトル要素の生起確率P(vw|In)は、図示しない記憶部に画像と関連付けて記憶される。
一方、メディア用特徴変換部40は、入力された文章をN2次元のメディア特徴量ベクトルに変換するものである。このため、メディア用特徴変換部40は、入力された文章を形態素解析して、名詞、形容詞等の単語に分割する。すべての標本データ10の文章が単語に分割された後、分割されたすべての単語をベースとして、それぞれの標本データ10の文章に、分割された単語が何回現れたかを計算する。これにより、それぞれの文章が、
分割されたすべての単語数を次元数(N2次元)とするメディア特徴量ベクトルによりベクトル量子化される。これにより、各画像とセットになった各文章Tnについても、N2個の単語がそれぞれいくつ含まれているかを示すヒストグラムとして表現される。
メディア用生起確率算出部50は、各文章において、N2個の単語(N2次元のメディア特徴量ベクトルの各要素)のいずれかに該当すると判断された単語の数の総和であるL1ノルムで、N2次元の各々のメディア特徴量ベクトル要素の数を除算して正規化することにより、N2個の単語に基づくヒストグラムを確率に変換する。これにより、各文章における各々のメディア特徴量ベクトル要素(各単語)の生起確率を求めることができる。この各文章Tnにおけるメディア特徴量ベクトル要素の生起確率P(w|Tn)も、図3に示すように行列として表すことができる。なお、ベクトル量子化の基礎となったN2個の単語も図示しない記憶部に記憶される。
標本データセットに含まれるすべての標本データ10の画像及び文書に関して、上述した画像特徴量ベクトル要素の生起確率P(vw|In)及びメディア特徴量ベクトル要素の生起確率P(w|Tn)が算出されると、共起確率算出部60は、まず、各標本データ10ごとに、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率P(w、vw|In)を算出する。なお、画像と文書とは一体であるため、共起確率の算出に際しては、In=Tnとみなすことができる。従って、共起確率P(w、vw|In)の表記に関しては、画像を示す記号Inを代表として用いる。
この共起確率P(w、vw|In)は、共起確率算出部60において、画像特徴量ベクトル要素の生起確率を示す行列である画像特徴量生起確率行列P(vw|In)を、メディア特徴量ベクトル要素の生起確率を示す行列であるメディア特徴量生起確率行列P(w|Tn)に掛け合わせることにより算出される。なお、画像特徴量生起確率行列P(vw|In)に、メディア特徴量生起確率行列P(w|Tn)を掛け合せて共起確率P(w、vw|In)を算出しても良いことはもちろんである。
この画像特徴量生起確率行列P(vw|In)とメディア特徴量生起確率行列P(w|Tn)との乗算結果は、図4に示すように、N2行N1列の行列の形を取る。この乗算結果を、2列目以降の要素を順次1列目の下段に移動させることにより、図5に示すように、N1・N2行1列の行列P(x|In)に変形する。これにより、1つの標本データ10に関する共起確率行列P(x|In)の算出が完了する。
標本データセットに含まれるすべての標本データ10に関して、共起確率行列P(x|In)の算出が完了すると、共起確率算出部60は、図6に示すように、標本データ10の共起確率行列P(x|In)を順番に全標本データ数D分だけ列方向に並べることにより、すべての標本データ10に関する共起確率をまとめた共起確率行列を算出する。このすべての標本データ10に関する共起確率行列をP(X|I)と表す。
次に、潜在トピック分解部70において、PLSA(Probabilistic Latent Semantic Analysis)を用いて、共起確率行列P(X|I)を、下記の数式1に示すように、標本データ10のデータ数Dよりも少ない数zの潜在トピックZにおける共起確率を示す潜在トピック共起確率行列P(X|Z)と、各潜在トピックZのそれぞれの共起確率に対する重みを示す潜在トピック重み行列P(Z|I)とに分解する。
Figure 0005463873
このような共起確率行列P(X|I)の分解は、潜在トピックZによって規定される部分空間において、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率が、複数のクラスタに分類されたことと等価である。なお、分解のための演算処理には、公知のEMアルゴリズムが適用され、現在与えられているパラメータから潜在トピックに関する事後確率の分布を算出するEステップと、算出された潜在トピックの確率分布の下でパラメータの値を算出するMステップを繰り返すことにより、最適な潜在トピックZ(部分空間)が構築される。
このように、本実施形態では、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率をまとめた共起確率行列P(X|I)を複数のクラスタへの分類分けに用いているので、生起確率が高い画像特徴量ベクトル要素とメディア特徴量ベクトル要素との両々を重視した分類分けを行なうことができる。その結果、画像と文書からなる標本データ10を、画像と文書の両方の重要な特徴量を考慮して複数のクラスタに分類することができるので、従来のように画像特徴量の類似性のみから分類分けを行なう場合に比較して、分類分けの精度を向上することができる。
さらに、本実施形態では、画像特徴量生起確率行列P(vw|In)とメディア特徴量生起確率行列P(w|Tn)とを掛け合わせて、各標本データ10に関する共起確率を算出しているので、生起確率がともに高い画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率がより高められることになる。この結果、画像とメディアデータの両方の重要な特徴量をより強調した共起確率を算出することができる。
潜在トピック分解部70によって算出された潜在トピック共起確率行列P(X|Z)は、画像特徴量ベクトル要素の潜在トピック生起確率算出部80、及び、メディア特徴量ベクトル要素の潜在トピック生起確率算出部90に与えられる。
画像特徴量ベクトル要素の潜在トピック生起確率算出部80は、潜在トピック共起確率行列P(X|Z)から、周辺化の手法を用いて、各潜在トピックZにおける画像特徴量ベクトル要素の生起確率を抽出する。また、メディア特徴量ベクトル要素の潜在トピック生起確率算出部90は、潜在トピック共起確率行列P(X|Z)から、周辺化の手法を用いて、各潜在トピックZにおけるメディア特徴量ベクトル要素の生起確率を抽出する。これらの抽出方法について、以下に、詳細に説明する。
潜在トピック分解部70によって算出された潜在トピック共起確率行列P(X|Z)は、図7に示すように、潜在トピックZの数をz(<標本データ10のデータ数D)としたとき、N1・N2行z列の行列となる。ここで、任意の潜在トピックZiの共起確率P(w、vw|Zi)に関して、行成分をより詳しく示すと、図8のようになる。すなわち、1行目からN2行目には、1番目のvisual word(画像特徴量ベクトル要素)vwの生起確率と、1番目からN2番目までの単語(メディア特徴量ベクトル要素)w〜wN2の生起確率との共起確率P(w、vw|Zi)〜P(wN2、vw|Z)が順番に並んでいる。そして、N2+1行目からN2+N2行目には、2番目のvisual word(画像特徴量ベクトル要素)vwの生起確率と、1番目からN2番目までの単語(メディア特徴量ベクトル要素)w〜wN2の生起確率との共起確率P(w、vw|Zi)〜P(wN2、vw|Z)が順番に並んでいる。
以下、同様にして、3番目以降のvisual wordの生起確率と、1番目からN2番目までの単語w〜wN2の生起確率との共起確率が順番に並んで、最後に、N2(N1−1)+1行目からN2・N1行目には、N1番目のvisual word vwN1の生起確率と、1番目からN2番目までの単語w〜wN2の生起確率との共起確率P(w、vwN1|Zi)〜P(wN2、vwN1|Z)が順番に並んでいる。
ここで、周辺化の手法を適用することにより、すなわち、各潜在トピックZiの共起確率P(w、vw|Zi)において単語(メディア特徴量ベクトル要素)の生起確率に関して積分して、その生起確率を消去することにより、各潜在トピックZiにおけるvisual words(画像特徴量ベクトル要素)の生起確率P(vwi|Zi)を抽出し、各visual word(メディア特徴量ベクトル要素)の生起確率に関して積分して、その生起確率を消去することにより、各潜在トピックZiにおける各単語(画像特徴量ベクトル要素)の生起確率P(wi|Zi)を抽出することができる。これを式によって示すと、下記の数式2、3のように表すことができる。
Figure 0005463873
Figure 0005463873
従って、各潜在トピックZiの行成分について、図8に示すように、1行目から順番にN2個ごとのグループとし、そのグループ内の行成分を積分することにより、各潜在トピックZiにおける画像特徴量ベクトル要素の生起確率P(vwj|Zi)を求めることができる。そして、図9に示すように、各潜在トピックZiにおける画像特徴量ベクトル要素の生起確率P(vwj|Zi)を行列の形にまとめることにより、画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)を得ることができる。
また、各潜在トピックZiの行成分について、図8に示すように、N2個おきのN1個の行成分をグループとし、そのグループ内の行成分を積分することにより、各潜在トピックZiにおけるメディア特徴量ベクトル要素の生起確率P(wj|Zi)を求めることができる。そして、図10に示すように、各潜在トピックZiにおけるメディア特徴量ベクトル要素の生起確率P(wj|Zi)を行列の形にまとめることにより、メディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)を得ることができる。
なお、上述した画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)及びメディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)は、図示しない記憶部に保存され、後述するマルチメディア検索システムにより検索が行なわれるときに利用される。
このように、本実施形態のマルチメディア分類システム100では、潜在トピック分解部70により算出された潜在トピック共起確率行列P(X|Z)から、画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)、及びメディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)を算出する。このため、後述するように、未知画像あるいは未知の文書が入力されたときに、未知画像の画像特徴量ベクトル要素の生起確率、あるいは未知の文書のメディア特徴量ベクトル要素の生起確率のいずれかの情報を得た場合に、画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)あるいはメディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)を利用して、共起確率行列P(X|Z)を用いて定められた潜在トピックZによる部分空間における写像位置を求めることが可能になる。これにより、その写像位置から類似、対応するメディアデータや画像データを容易に検索することが可能になる。
次に、未知の画像あるいは文書が入力された場合に、マルチメディア分類システム100により分類された標本データに基づいて、未知の画像に相応しいメディアデータあるいは未知のメディアデータに相応しい画像を検索するマルチメディア検索システム200について説明する。このように、本実施形態によるマルチメディア検索システム200は、マルチメディア分類システム100を含むものである
図11は、上述したマルチメディア分類システム100を除く、マルチメディア検索システム200のその他の構成を示している。
入力されたデータ110が画像である場合、その画像は、画像用特徴変換部120において、標本データ10の画像に対するのと同様の手法によりベクトル量子化され、N1次元の画像特徴量ベクトルに変換される。画像用特徴変換部120により変換されたN1次元の画像特徴量ベクトルは、画像用生起確率算出部130に入力される。
画像用生起確率算出部130は、入力画像Itestにおいて、N1個のvisual words(N1次元の画像特徴量ベクトルの各要素)のいずれかに該当すると判断されたSIFT特徴ベクトルの数の総和であるL1ノルムで、N1次元の各々の画像特徴量ベクトル要素の数を除算することにより、N1行1列の画像特徴量ベクトル要素の生起確率行列P(vw|Itest)を求める。求めた画像特徴量ベクトル要素の生起確率行列P(vw|Itest)は、潜在トピック分解部160に入力される。
潜在トピック分解部160は、入力された画像特徴量ベクトル要素の生起確率行列P(vw|Itest)を入力行列と置いた場合に、その入力行列と、マルチメディア分類システム100により算出された画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)とを用いて、入力行列に対応する潜在トピック重み行列を算出する。具体的には、以下の数式4に示すように、入力行列である画像特徴量ベクトル要素の生起確率行列P(vw|Itest)を、画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)と潜在トピック重み行列P(Z|Itest)とに分解することにより、潜在トピック重み行列P(Z|Itest)を算出する。
Figure 0005463873
なお、画像特徴量ベクトル要素の生起確率行列P(vw|Itest)を、画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)と潜在トピック重み行列P(Z|Itest)とに分解するために、標本データ10に適用したのと同様のEMアルゴリズムを適用する。ただし、画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)は更新する(変化させる)必要がなく一定であるため、EMアルゴリズムのMステップのみを繰り返し行なうことで、潜在トピック重み行列P(Z|Itest)を算出する。
上述したように、マルチメディア分類システム100により算出された画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)をそのまま用いて、潜在トピック重み行列P(Z|Itest)を算出しているので、算出された潜在トピック重み行列P(Z|Itest)は、潜在トピックZにより規定される部分空間における、入力画像Itestの画像特徴量ベクトル要素の生起確率行列P(vw|Itest)の写像位置を示すものとなる。
算出された潜在トピック重み行列P(Z|Itest)は、生起確率算出部170に入力される。生起確率算出部170は、以下の数式5に示すように、マルチメディア分類システム100によって算出されたメディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)と、潜在トピック分解部160により算出された潜在トピック重み行列P(Z|Itest)とを掛け合わせることにより、入力画像Itestに対応するメディア特徴量ベクトル要素の生起確率行列P(w|Itest)を算出する。
Figure 0005463873
ここで、潜在トピックZにより規定される部分空間は、マルチメディア分類システム100により、すべての標本データ10の画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を示す共起確率行列P(X|I)を用いて、類似する共起確率を有する標本データ10同士が同じクラスタに分類されるように定められている。
本実施形態では、上述したように、その部分空間における入力画像Itestの画像特徴量ベクトル要素の生起確率行列P(vw|Itest)の写像位置を示す潜在トピック重み行列P(Z|Itest)を、メディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)に掛け合わせている。従って、入力画像Itestの画像特徴量ベクトル要素の生起確率を成分とする入力行列の写像位置に対応するメディア特徴量ベクトル要素の生起確率行列P(w|Itest)を求めることができる。算出されたメディア特徴量ベクトル要素の生起確率行列P(w|Itest)は、検出部180に入力される。
検出部180は、入力されたメディア特徴量ベクトル要素の生起確率行列P(w|Itest)の中から、生起確率の高い所定数の単語を抽出する。メディア特徴量ベクトル要素の生起確率は、上述したように、各標本データ10の文書における単語の出現頻度に応じて定められている。従って、メディア特徴量ベクトル要素の生起確率の中で、生起確率の高い単語は、文章中において相対的に出現回数が多いものであって、入力画像の内容を適切に示すものとみなすことができる。
そのため、検出部180は、記憶部に記憶された標本データの文章の各単語を辞書とし、生起確率の高い所定数の単語を読み出して、入力された未知画像の内容に相応しいと考えられる検索結果として出力する。出力された検索結果は、図示しない情報表示部により、画像又は音声などにより提示される。
また、入力されたデータが文章である場合、その文章は、メディア用特徴変換部140において、標本データ10の文章に対するのと同様の手法によりベクトル量子化され、N2次元のメディア特徴量ベクトルに変換される。メディア用特徴変換部140により変換されたN2次元のメディア特徴量ベクトルは、メディア用生起確率算出部150に入力される。
メディア用生起確率算出部150は、入力文書Ttestにおいて、N2個の単語(N2次元のメディア特徴量ベクトルの各要素)のいずれかに該当すると判断された単語の数の総和であるL1ノルムで、N2次元の各々のメディア特徴量ベクトル要素の数を除算することにより、N2行1列のメディア特徴量ベクトル要素の生起確率行列P(w|Ttest)を求める。求めたメディア特徴量ベクトル要素の生起確率行列P(w|Ttest)は、潜在トピック分解部160に入力される。
潜在トピック分解部160は、入力されたメディア特徴量ベクトル要素の生起確率行列P(w|Ttest)を入力行列と置いた場合に、その入力行列と、マルチメディア分類システム100により算出されたメディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)とを用いて、入力行列に対応する潜在トピック重み行列を算出する。具体的には、以下の数式6に示すように、入力行列であるメディア特徴量ベクトル要素の生起確率行列P(w|Ttest)を、メディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)と潜在トピック重み行列P(Z|Ttest)とに分解することにより、潜在トピック重み行列P(Z|Ttest)を算出する。
Figure 0005463873
なお、この場合も、EMアルゴリズムのMステップのみを繰り返し行なうことで、潜在トピック重み行列P(Z|Ttest)を算出する。潜在トピック重み行列P(Z|Ttest)が算出されると、その潜在トピック重み行列P(Z|Ttest)は生起確率算出部170に与えられる。
生起確率算出部170は、以下の数式7に示すように、マルチメディア分類システム100によって算出された画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)と、潜在トピック分解部160により算出された潜在トピック重み行列P(Z|Ttest)とを掛け合わせることにより、入力文書Ttestに対応する画像特徴量ベクトル要素の生起確率行列P(vw|Ttest)を算出する。
Figure 0005463873
このように、本実施形態では、入力画像Ttestのメディア特徴量ベクトル要素の生起確率行列P(w|Ttest)の、潜在トピックZにより規定される部分空間における写像位置を示す潜在トピック重み行列P(Z|Ttest)を、画像特徴量ベクトル要素の潜在トピック生起確率行列P(vw|Z)に掛け合わせている。従って、入力文書Ttestのメディア特徴量ベクトル要素の生起確率を成分とする入力行列の写像位置に対応する画像特徴量ベクトル要素の生起確率行列P(vw|Ttest)を求めることができる。このようにして算出された画像特徴量ベクトル要素の生起確率行列P(vw|Ttest)は、検出部180に入力される。
検出部180は、記憶部に記憶されている標本データ10の画像の生起確率行列P(vw|In)の中から、入力された画像特徴量ベクトル要素の生起確率行列P(vw|Itest)と類似する生起確率行列P(vw|In)を有する画像を抽出して、検索結果として出力する。これにより、入力された文書の内容に相応しいと考えられる画像を検索することができる。そして、出力された検索結果は、図示しない情報表示部により、画像として表示される。
(第2実施形態)
次に本発明の第2実施形態によるマルチメディア分類システムについて説明する。なお、本実施形態によるマルチメディア分類システムの構成は、その大部分が上述した第1実施形態のマルチメディア分類システムと共通するため、以下、異なる構成についてのみ説明する。
上述した第1実施形態のマルチメディア分類システムでは、共起確率算出部60において、各標本データ10に関して、画像特徴量ベクトル要素の生起確率を示す画像特徴量生起確率行列P(vw|In)と、メディア特徴量ベクトル要素の生起確率を示すメディア特徴量生起確率行列P(w|Tn)とを掛け合わせることにより、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率が算出された。
それに対して、本実施形態では、共起確率算出部60において、合計が1となる第1の重み係数及び第2の重み係数を定め、個々の標本データ10に関して、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率に第1の重み係数を乗算し、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率に第2の重み係数を乗算した上でまとめることにより、特徴量ベクトルとメディア特徴量ベクトルとの共起確率を算出する。
すなわち、本実施形態では、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率P(w,vw|In)は、以下の数式8に従って、算出される。
Figure 0005463873
メディア特徴量ベクトル要素の生起確率P(w|In)に第1の重み係数αを乗算し、画像特徴量ベクトル要素の生起確率P(vw|In)に第2の重み係数(1−α)を乗算するのは、両生起確率P(w|In)、P(vw|In)をまとめた際の、共起確率P(w,vw|In)が確率として成立するように、その合計を1とするためである。なお、第1の重み係数αと第2の重み係数(1−α)は、通常、それぞれ0.5となるように設定されるが、いずれかの生起確率P(w|In)、P(vw|In)を重視する場合には、重視すべき生起確率の重み係数を相対的に大きくしても良い。
上記のように、第1の重み係数αを乗じたメディア特徴量ベクトル要素の生起確率P(w|In)と、第2の重み係数(1−α)を乗じた画像特徴量ベクトル要素の生起確率P(vw|In)は、図12に示すように、1列に並べられて、共起確率行列P(x|In)とされる。これにより、1つの標本データ10に関する共起確率行列P(x|In)の算出が完了する。
標本データセットに含まれるすべての標本データ10に関して、共起確率行列P(x|In)の算出が完了すると、共起確率算出部60は、図13に示すように、標本データ10の共起確率行列P(x|In)を順番に全標本データ数D分だけ列方向に並べることにより、すべての標本データ10に関する共起確率をまとめた共起確率行列P(X|I)を得ることができる。この場合に算出される共起確率は簡易的ではあるが、共起確率の算出のための演算処理を簡単に行なうことができる。
また、この場合、共起確率行列P(X|I)を潜在トピック共起確率行列P(X|Z)と潜在トピック重み行列(Z|I)に分解する際にも、共起確率行列P(X|I)のサイズが小さいため、第1実施形態に比較して、その演算処理を簡単に行なうことができる。
さらに、潜在トピック共起確率行列P(X|Z)から、メディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)を求めるとともに、画像特徴量ベクトル要素の各潜在トピック生起確率行列P(vw|Z)を求める際に、基本的に、共起確率行列P(X|Z)を上部と下部とに分離すれば済む。ただし、確率として成立させるために、メディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)及び画像特徴量ベクトル要素の各潜在トピック生起確率行列P(vw|Z)に関して、縦方向(行の増加方向)の成分の総和であるL1ノルムで正規化し、縦方向における全成分の総和が1となるようにする必要がある。
このように、第2実施形態によれば、共起確率行列P(X|I)の潜在トピック共起確率行列P(X|Z)と潜在トピック重み行列(Z|I)とへの分解や、潜在トピック共起確率行列P(X|Z)からの画像特徴量ベクトル要素及びメディア特徴量ベクトル要素の潜在トピック生起確率行列P(w|Z)、P(vw|Z)の算出などの演算処理をより簡単に行なうことができる。
以上、本発明の好ましい実施形態について説明したが、本発明は上述した実施形態になんら制限されることなく、本発明の主旨を逸脱しない範囲において、種々変形して実施することが可能である。
例えば、上述した実施形態では、画像に関連する情報を示すメディアデータとして文章を利用する例について説明したが、例えば画像を取得した位置情報や、時刻情報も、画像の特徴を示すデータとなりえるため、位置情報や時刻情報もメディアデータとして用いることができる。
20,120…画像用特徴変換部
30,130…画像用生起確率算出部
40,140…メディア用特徴変換部
50,150…メディア用生起確率算出部
60…共起確率算出部
70、160…潜在トピック分解部
80…画像ベクトル要素の潜在トピック生起確率算出部
90…メディアベクトル要素の潜在トピック生起確率算出部
100…マルチメディア分類システム
170…生起確率算出部
180…検出部
200…マルチメディア検索システム

Claims (7)

  1. 画像と、その画像に関連する情報を示す画像以外のメディアデータからなる標本データを複数まとめた標本データセットを分類するマルチメディア分類システムであって、
    前記標本データセットの各画像において、局所領域の画像特徴量を抽出するとともに、抽出された画像特徴量を多次元の画像特徴量ベクトルにベクトル量子化する画像特徴量ベクトル量子化手段と、
    前記画像特徴量ベクトル量子化手段によりベクトル量子化された、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率を算出する画像特徴量ベクトル生起確率算出手段と、
    前記標本データセットの各メディアデータから特徴量を抽出し、抽出されたメディア特徴量を多次元のメディア特徴量ベクトルにベクトル量子化するメディア特徴量ベクトル量子化手段と、
    前記メディア特徴量ベクトル量子化手段によりベクトル量子化された、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率を算出するメディア特徴量ベクトル生起確率算出手段と、
    前記標本データセットに含まれる個々の標本データに関して、画像特徴量ベクトル要素の生起確率とメディア特徴量ベクトル要素の生起確率とを用いて、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を算出するとともに、前記標本データセットに含まれる複数の標本データの、画像特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を行列要素とする共起確率行列を算出する共起確率算出手段と、
    前記共起確率行列を標本データのデータ数よりも少ない数の潜在トピックにおける共起確率を示す潜在トピック共起確率行列と、各潜在トピックのそれぞれの共起確率に対する重みを示す潜在トピック重み行列とに分解する分解手段と、
    前記分解手段により算出された潜在トピック共起確率行列の各潜在トピックにおける共起確率から、各潜在トピックにおける画像特徴量ベクトル要素の生起確率を抽出して、各々の潜在トピックに関して画像特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する画像特徴量ベクトルの潜在トピック生起確率行列算出手段と、
    分解手段により算出された潜在トピック共起確率行列の各潜在トピックにおける共起確率から、各潜在トピックにおけるメディア特徴量ベクトル要素の生起確率を抽出して、各々の潜在トピックに関してメディア特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出するメディア特徴量ベクトルの潜在トピック生起確率行列算出手段と、を備え
    前記共起確率算出手段は、合計が1となる第1の重み係数及び第2の重み係数を定め、個々の標本データに関して、多次元の画像特徴量ベクトルにおける各々の画像特徴量ベクトル要素の生起確率に第1の重み係数を乗算し、多次元のメディア特徴量ベクトルにおける各々のメディア特徴量ベクトル要素の生起確率に第2の重み係数を乗算して、特徴量ベクトル要素とメディア特徴量ベクトル要素との共起確率を算出した上で、前記第1の重み係数が乗算された画像特徴量ベクトル要素の生起確率と前記第2の重み係数が乗算されたメディア特徴量ベクトル要素の生起確率を各列に並べることにより、前記共起確率行列を算出することを特徴とするマルチメディア分類システム。
  2. 前記画像特徴量ベクトルの潜在トピック生起確率行列算出手段は、各々の潜在トピックに関して画像特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する際に、各列の成分の総和であるL1ノルムで正規化し、各列の全成分の総和が1となるようにすることを特徴とする請求項1に記載のマルチメディア分類システム。
  3. 前記メディア特徴量ベクトルの潜在トピック生起確率行列算出手段は、各々の潜在トピックに関してメディア特徴量ベクトル要素の生起確率をまとめた潜在トピック生起確率行列を算出する際に、各列の成分の総和であるL1ノルムで正規化し、各列の全成分の総和が1となるようにすることを特徴とする請求項1に記載のマルチメディア分類システム。
  4. 前記メディアデータは、1つ以上の単語から構成される文章、位置情報、時刻情報の中から一つ以上を用いて構成されたデータであることを特徴とする請求項1乃至3のいずれかに記載のマルチメディア分類システム。
  5. 前記標本データは、インターネットを介して収集されることを特徴とする請求項1乃至4のいずれかに記載のマルチメディア分類システム。
  6. 請求項1乃至請求項5のいずれかに記載のマルチメディア分類システムを備え、当該マルチメディア分類システムにより算出された画像特徴量ベクトル要素の潜在トピック生起確率行列及びメディア特徴量ベクトル要素の潜在トピック生起確率行列を用いて、未知の画像が入力された場合に、前記標本データに基づいて、その未知画像の内容に相応しいメディアデータを検索するマルチメディア検索システムであって、
    前記未知画像が入力された場合、画像特徴量の抽出、ベクトル量子化、及び画像特徴量ベクトル要素の生起確率の算出を行い、算出した未知画像の画像特徴量ベクトル要素の生起確率を成分とする入力行列を、前記画像特徴量ベクトル要素の潜在トピック生起確率行列を変化させることなく、当該画像特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列とに分解することにより、前記入力行列に対する潜在トピック重み行列を算出する潜在トピック重み行列算出手段と、
    前記メディア特徴量ベクトル要素の潜在トピック生起確率行列と、前記潜在トピック重み行列算出手段により算出された潜在トピック重み行列とを掛け合わせて、前記未知画像に対応するメディア特徴量ベクトル要素の生起確率行列を算出するメディア特徴量ベクトル生起確率行列算出手段と、
    前記メディア特徴量ベクトル生起確率行列算出手段によって算出されたメディア特徴量ベクトル要素の生起確率行列に基づいて、前記未知画像に付与すべきメディアデータを抽出し、検索結果として出力する検索結果出力手段と、を備えることを特徴とするマルチメディア検索システム。
  7. 請求項1乃至請求項5のいずれかに記載のマルチメディア分類システムを備え、当該マルチメディア分類システムにより算出された画像特徴量ベクトル要素の潜在トピック生起確率行列及びメディア特徴量ベクトル要素の潜在トピック生起確率行列を用いて、未知のメディアデータが入力された場合に、前記標本データに基づいて、その未知メディアデータの内容に相応しい画像を検索するマルチメディア検索システムであって、
    前記未知メディアデータが入力された場合、メディア特徴量の抽出、ベクトル量子化、及びメディア特徴量ベクトル要素の生起確率の算出を行い、算出した未知画像のメディア特徴量ベクトル要素の生起確率を成分とする入力行列を、前記メディア特徴量ベクトル要素の潜在トピック生起確率行列を変化させることなく、当該メディア特徴量ベクトル要素の潜在トピック生起確率行列と、潜在トピック重み行列とに分解することにより、前記入力行列に対する潜在トピック重み行列を算出する潜在トピック重み行列算出手段と、
    前記画像特徴量ベクトル要素の潜在トピック生起確率行列と、前記潜在トピック重み行列算出手段により算出された潜在トピック重み行列とを掛け合わせて、前記未知メディアデータに対応する画像特徴量ベクトル要素の生起確率行列を算出する画像特徴量ベクトル生起確率行列算出手段と、
    前記画像特徴量ベクトル生起確率行列算出手段によって算出された画像特徴量ベクトル要素の生起確率行列に基づいて、前記標本データの中から類似する画像特徴量ベクトル要素の生起確率を有する画像を抽出し、検索結果として出力する検索結果出力手段と、を備えることを特徴とするマルチメディア検索システム。
JP2009265490A 2009-11-20 2009-11-20 マルチメディア分類システム及びマルチメディア検索システム Active JP5463873B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009265490A JP5463873B2 (ja) 2009-11-20 2009-11-20 マルチメディア分類システム及びマルチメディア検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009265490A JP5463873B2 (ja) 2009-11-20 2009-11-20 マルチメディア分類システム及びマルチメディア検索システム

Publications (2)

Publication Number Publication Date
JP2011108192A JP2011108192A (ja) 2011-06-02
JP5463873B2 true JP5463873B2 (ja) 2014-04-09

Family

ID=44231548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009265490A Active JP5463873B2 (ja) 2009-11-20 2009-11-20 マルチメディア分類システム及びマルチメディア検索システム

Country Status (1)

Country Link
JP (1) JP5463873B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5462748B2 (ja) * 2010-09-03 2014-04-02 日本電信電話株式会社 データ可視化装置、データ変換装置、方法、及びプログラム
WO2018235177A1 (ja) 2017-06-21 2018-12-27 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法、及び、記録媒体
CN110532329B (zh) * 2019-09-02 2022-06-21 智慧谷(厦门)物联科技有限公司 一种基于区块链技术的智能手环数据处理与共享方法
CN112861670B (zh) * 2021-01-27 2022-11-08 华北电力大学(保定) 一种输电线路金具检测方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1959358A4 (en) * 2005-12-05 2010-04-07 Sony Corp APPARATUS, METHOD AND PROGRAM FOR INFORMATION PROCESSING
JP4175390B2 (ja) * 2006-06-09 2008-11-05 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2008181296A (ja) * 2007-01-24 2008-08-07 Osaka Prefecture Univ 画像検索方法および画像検索プログラム

Also Published As

Publication number Publication date
JP2011108192A (ja) 2011-06-02

Similar Documents

Publication Publication Date Title
JP5458815B2 (ja) マルチメディア検索システム
Choudhury et al. Figure metadata extraction from digital documents
US10528609B2 (en) Aggregating procedures for automatic document analysis
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
CN108228541A (zh) 生成文档摘要的方法和装置
JP5463873B2 (ja) マルチメディア分類システム及びマルチメディア検索システム
Bafna et al. Hindi multi-document word cloud based summarization through unsupervised learning
CN109960730B (zh) 一种基于特征扩展的短文本分类方法、装置以及设备
Ashok Kumar et al. An efficient text-based image retrieval using natural language processing (NLP) techniques
CN111368126A (zh) 一种面向图像检索的生成方法
JP4143234B2 (ja) 文書分類装置、文書分類方法及び記憶媒体
CN111199801A (zh) 一种用于识别病历的疾病类型的模型的构建方法及应用
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
US11676231B1 (en) Aggregating procedures for automatic document analysis
JP5569698B2 (ja) 類型化装置、類型化方法及び類型化プログラム
JP4359075B2 (ja) 概念抽出システム、概念抽出方法、概念抽出プログラム及び記憶媒体
JP2004206391A (ja) 文書情報分析装置
CN114756617A (zh) 一种工程档案结构化数据提取方法、系统、设备和存介质
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
Girdhar et al. Benchmarking nas for article separation in historical newspapers
Lin et al. A music retrieval method based on hidden markov model
JP4125951B2 (ja) テキスト自動分類方法及び装置並びにプログラム及び記録媒体
Sun et al. Analysis of English writing text features based on random forest and Logistic regression classification algorithm
Sailaja et al. Rough set based feature selection approach for text mining
WO2015029158A1 (ja) データ変換装置およびデータ変換方法ならびにデータ変換プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140106

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5463873

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250