JP4253989B2

JP4253989B2 - ビデオの類似性探索方法及び記録媒体

Info

Publication number: JP4253989B2
Application number: JP2000064979A
Authority: JP
Inventors: ティー．フートジョナサン; ガーゲンショーンアンドレアス; ディー．ウィルコックスリン
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1999-03-11
Filing date: 2000-03-09
Publication date: 2009-04-15
Anticipated expiration: 2020-03-09
Also published as: US6774917B1; JP2000322450A; US7246314B2; US20040221237A1

Description

【０００１】
【発明の属する技術分野】
本発明は、特定のコンテントを自動的に探出す目的で、対話形式でビデオを処理する分野に関するものである。具体的に言えば、本発明は、トレーニング画像を対話形式で定義し、類似性探索の結果を表示する分野に関する。
【０００２】
【従来の技術】
ビデオ検索用の大部分の最新技術のシステムは、最初にビデオを各ショットにセグメント化し、次に、各ショットに対して、単一のキーフレーム、または複数のキーフレームを生成する。次に、ビデオセグメントの検索を、キーフレームに基づく画像検索に変える。さらに複雑な従来のシステムは、クエリーセグメントにわたって、色と時間の変化を平均化するが、その後で、セグメント化されたビデオ内のキーフレームに基づいて検索を行う。従来のシステムは、クエリー（例えば、即時再生）と正確に一致するビデオ系列を見つけるように設計されている。
【０００３】
類似性による静止画像の検索について多くの研究がなされてきた。色ヒストグラムの類似性に基づく検索が記述されてきた。いくつかの画像類似性測度は、ウェーブレット分解に基づいていた。高次の係数を量子化し、切り捨てれば、次元数が減らされるが、一方、類似性距離測度は、ビット単位の類似性の計数にすぎない。とはいえ、この手法は、明らかに離散コサイン変換にも、アダマール変換にも用いられなかった。類似性による画像検索の公知のシステムはすべて、単一画像を１クエリーとして要求し、当然、画像グループまたは画像クラスにはまとめられない。ビデオクエリーについて多くの研究がなされてきたが、文献の多くは、現行の解析または注釈を前提としながら、クエリーの数学的表現に集中している。
【０００４】
ビデオ処理の費用が高くつくために、高速の類似性測度に関しては、ほどんど研究がなされなかった。色ヒストグラムと画素定義域のテンプレート照合との組合せを用いて個々の画像フレームの解析が試みられた。ただし、テンプレートは、用途に合わせて作らせなければならず、したがって、一般化されない。別の距離測度技法は、これらのフレームの領域内のグレイレベルの平均偏差と標準偏差に基づく距離など、統計的な性質に基づいている。
【０００５】
他の従来の手法は、スケッチによるクエリーを含み、このクエリーは、おそらく動き属性で向上する。クエリーとして、実際のビデオクリップを使用する限り、この文献に記載のいくつかの報告書は、ビデオ「ショット」が、クエリーに対しても検索に対しても静止画像で表されるシステムと、ビデオセグメントの特徴を、色ヒストグラムの平均の色と時間の変化とするシステムとを含む。同様な手法には、ショットを自動的に見つけ出した後で、これらのショットを、色ヒストグラムの類似性測度を用いて比較することが含まれる。きわめて縮小したフレーム画像表現の時間的相関を用いて、ビデオ系列と突合わせることが試みられてきた。これは、ビデオショットの繰返しインスタンス（例えば、スポーツイベントの「即時再生」）を見つけることができるが、実質的に類似しないビデオに、どの程度うまくまとめられるかは明らかでない。ビデオ類似性は、画像固有投影の距離で決定されるフレーム距離の短いウィンドウ間のユークリッド距離として計算されてきた。これは、テストビデオ内に類似領域を見つけ出せるように思われるが、ただし、固有投影の計算に用いられるビデオによって決まるから、これもまた一般化されない。色ヒストグラムの照合と画像相関を用いてビデオインデックス付けが試みられた。ただし、この相関が、大部分の対話形式のアプリケーションに対して充分高速に行われ得ることは明らかでない。動きの特徴を用いる隠れマルコフモデルのビデオセグメンテーションが研究されてきたが、これは、じかに画像の特徴を使用しないし、また画像類似性照合のためにも、画像の特徴を使用しない。
【０００６】
定義済みのクラスを、ビデオの検索とナビゲーションに提供することに加えて、ビデオ分類技法は、他の目的にも使用できる。ビデオのプレイバック中に、ユーザが、プレゼンテーション中の話者のクローズアップなど、関心のある場面を見るときに、ユーザは、その特定の状況に対して、定義済みの画像クラスがなくとも、類似する場面を見つけ出すことに関心がある場合もある。
【０００７】
【発明が解決しようとする課題】
本発明は、対話形式で、ビデオの中から１場面を選択し、これに類似する場面をビデオの中で見つけ出す方法を提供する。本発明は、ユーザで選択されたものに類するビデオの時間間隔を高速で見つけ出せるシステムを含む。類似性の結果は、グラフィック表示されるときに、ビデオの構造を決定するか、あるいはブラウズして所望のポイントを見つけ出すのに役立つ。各ビデオフレームが、少数の係数として表されるから、類似性の計算は、きわめて速く、実時間の何千倍もの速さで行われる。このことから、本発明による対話形式のアプリケーションが可能となる。
【０００８】
従来のシステムは、類似するビデオ領域を対話形式で見つけ出すのに、特殊性、一般性、または速度を欠いている。従来の色ベースのシステムを用いると、誤って類似性ありと判定することがあまりにも多く発生する。画素定義域の手法に基づく従来のシステムは、計算的に過酷すぎるか（例えば、画像定義域相関照合）、あるいは、類似するものと判断されるようにビデオがほぼ同一でなければならない点で特殊すぎる。これと対照的に、本発明による、縮小変換の特徴と、統計モデルは、正確であって、充分に一般化され、高速で働く。
【０００９】
【課題を解決するための手段】
本発明の第１の態様は、ビデオの類似性探索方法であって、定義手段が、類似性探索の対象となるビデオに含まれるフレームを画像クラス統計モデルにより表現される複数種類の画像クラスの何れかに分類してセグメント化するための、複数のトレーニングフレームから成るトレーニングビデオセグメントと前記トレーニングビデオセグメントが属する画像クラスとの対応関係をユーザに選択させて定義する工程と、第１の特徴ベクトル取得手段が、トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、分類先となる画像クラスに対応する特徴ベクトルを検索することにより、特徴ベクトルを得る工程と、トレーニング手段が、前記画像クラス中の複数のトレーニングフレームから得られた複数の特徴ベクトルから平均特徴ベクトル及び対角共分散マトリクスを計算することにより前記平均特徴ベクトル及び対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされる画像クラス統計モデルを構築する工程と、第２の特徴ベクトル取得手段が、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、前記類似性探索の対象となるビデオに含まれる各フレームに対応する特徴ベクトルを検索することにより、探索対象フレームの特徴ベクトルを得る工程と、計算手段が、得られた前記探索対象フレームの特徴ベクトルについて、画像クラス統計モデルに対応する前記ガウス関数を用いて前記画像クラスに分類される確率を計算することにより、類似性スコアとして各フレームの尤度を計算する工程と、分割手段が、類似性スコアを、ユーザにより定義された類似性スレッショルドと比較することにより、類似性探索の対象となるビデオに含まれるフレームを、前記画像クラスの類似セグメントと非類似セグメントに分ける工程と、を含む。本発明の第２の態様は、第１の態様において、トレーニングビデオセグメントのフレームに対応する各特徴ベクトルが、フレームの彩度成分から得られた特徴ベクトルと、フレームの輝度成分から得られた特徴ベクトルを含む。本発明の第３の態様は、第１の態様において、トレーニングビデオセグメントのフレームに対応する各特徴ベクトルが、フレームの赤色成分から得られた特徴ベクトル、フレームの緑色成分から得られた特徴ベクトル、フレームの青色成分から得られた特徴ベクトルを含む。本発明の第４の態様は、表示手段が、前記分割手段により分けられた前記類似セグメントを識別可能に表示装置に表示させる工程を含む。本発明の第５の態様は、ビデオの類似性探索を行う方法であって、類似性探索の対象となるビデオに含まれるフレームを画像クラス統計モデルにより表現される複数種類の画像クラスの何れかに分類してセグメント化するための、複数のトレーニングフレームから成るトレーニングビデオセグメントと前記トレーニングビデオセグメントが属する画像クラスとの対応関係をユーザに選択させて定義する工程と、トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、分類先となる画像クラスに対応する特徴ベクトルを検索することにより、特徴ベクトルを得る工程と、前記画像クラス中の複数のトレーニングフレームから得られた複数の特徴ベクトルから平均特徴ベクトル及び対角共分散マトリクスを計算することにより前記平均特徴ベクトル及び対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされる画像クラス統計モデルを構築する工程と、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、前記類似性探索の対象となるビデオに含まれる各フレームに対応する特徴ベクトルを検索することにより、探索対象フレームの特徴ベクトルを得る工程と、得られた前記探索対象フレームの特徴ベクトルについて、画像クラス統計モデルに対応する前記ガウス関数を用いて前記画像クラスに分類される確率を計算することにより、類似性スコアとして各フレームの尤度を計算する工程と、類似性スコアを、ユーザにより定義された類似性スレッショルドと比較することにより、類似性探索の対象となるビデオに含まれるフレームを、前記画像クラスの類似セグメントと非類似セグメントに分ける工程と、を含む方法をコンピュータで実行するためのプログラムを記録したコンピュータ読取り可能な記録媒体である。本発明の第６の態様は、前記類似セグメントを識別可能に表示装置に表示させる工程を含む。
【００１０】
本発明は、類似性により、対話形式でビデオをブラウズし、問合わせ、検索するシステムに実施される。対話形式で選択されるビデオ領域は、オンザフライ式で統計モデルをトレーニングするのに用いられる。クエリートレーニングセグメントは、個々のフレームか、フレームのセグメントか、隣接しないセグメントか、画像のコレクションか、いずれかである。さらに、このシステムを使用すれば、１つ、または複数の静止画像から、類似する画像を検索することができる。類似性測度は、縮小変換係数の統計的尤度に基づいている。この類似性は、対話形式で類似するビデオ領域を探し出すために、高速計算され、グラフィック表示され、インデックスとして使用される。
【００１１】
本発明は、探索とセグメンテーションを同時に行って、事前にビデオを各ショットにセグメント化する必要のないようにしている。ビデオの各フレームは、離散コサイン変換またはアダマール変換を用いて変換される。この変換されたデータは、それほど重要でない係数を捨てて、したがって、ビデオの効率的な表現をもたらすことで、減らされる。このクエリートレーニングセグメント（１つ、または複数）を使用して、ガウスモデルをトレーニングする。次に、トレーニングされたガウスモデルで各ビデオフレームが生成される確率を計算することで、単純な探索を行うことができる。これは、そのクエリーとの類似度を示す一連の信頼スコアを提供する。信頼スコアは、類似性が即座に表示できるビデオブラウザで役立つ。
【００１２】
本発明の１つの態様では、ビデオ内の各フレームに対応する縮小変換係数は、事前に計算された特徴ベクトルのデータベースに格納される。クエリートレーニングセグメントの選択後に統計モデルをトレーニングするためにも、また統計モデルがトレーニングされた後に、各フレームの類似性を評価するためにも、この特徴ベクトルのデータベースを利用できる。
【００１３】
本発明は、類似性により、ビデオセグメントを検索する方法を含む。ユーザは、ビデオセグメント（１つ、または複数）を選択することで、クエリーを形成する。クエリービデオセグメントの統計モデルが形成され、そのモデルを使用して、類似するセグメントを求めてビデオを探索する。各フレーム用の類似性スコアが、画像変換係数に基づいて計算される。ビデオデータベース内の類似するビデオセグメントが識別されて、それらをユーザに提示する。当該システムは、離散的な一組の類似ビデオクリップを返さずに、類似性スコアを提供し、その類似性スコアをビデオブラウザ内に使用すれば、多かれ少なかれ類似するセグメントを表示させることができる。
【００１４】
本発明の別の態様では、ビデオウィンドウの下のタイムバーは、各フレームの尤度、したがって、クエリートレーニングセグメントとの類似度を表示する。このバーが濃くなればなるほど、それだけ、ビデオが、クエリートレーニングセグメントに類似する。さらに、このブラウザを使用して、タイムバーの類似セクションをクリックすると、類似セグメントがランダムに利用できる。ユーザは、タイムバーの或る部分をマウスでクリックアンドドラッグすれば、対話形式で、１つ、または複数のトレーニングビデオセグメントを定義できる。
【００１５】
本発明のさらに別の態様では、ウェブベースのブラウザは、ビデオの中に、周期的な所定時間間隔（例えば、５秒）で、すべてのフレームを表示する。ユーザは、隣接する周期フレームを選択することで、トレーニングビデオセグメント（１つ、または複数）を選択する。次に、表示されない介在フレームはすべて、トレーニングセグメントとして使用される。例えば、２つの選択された隣接周期フレームの間の５秒間隔内のすべてのフレームが、トレーニングセグメントとして使用される。類似性は、計算されると、表示周期フレームの周りのシェードとして表示される。
【００１６】
本発明のさらに別の態様では、調整可能なスレッショルドスライダバーを、このブラウザ内に設けている。類似性スコアが、このスレッショルドを超えるフレームは、類似するものとして示される。ビデオセグメンテーションは、１フレーム単位の類似性測度から行われる。ガウスモデルは、このモデル尤度がスレッショルドと、いつ交差するか求めることにより、セグメンテーションに使用できる。隣接する類似フレームは、類似するセグメントを定義する。類似するセグメントは、ブラウザに表示される。またスキップ前進・後退ボタンを使用すれば、次の類似セグメント、または前の類似セグメントの先頭にブラウズすることができる。このセグメンテーションでタイムバーを起動する場合には、タイムバーの濃い部分は、類似するセグメントを示し、またタイムバーの淡い部分は、類似しないセグメントを示す。
【００１７】
本発明の上述および他の特徴および利益は、発明の詳細な説明において図面を参照してより完全に記述される。
【００１８】
【発明の実施の形態】
ビデオの要約、ブラウジングおよび検索にとって、どのような種類の画像がそのビデオを構成しているかを知ることは、しばしば有益である。例えば、どのショットが人の顔のクローズアップを含んでいるかを知ることは、ビデオの要約にそれらを含めやすくするために有用である。本発明は、ビデオシーケンスを所定のクラスの集合にセグメント化し分類する方法を含む。ビデオクラスの例には、人々のクローズアップ、群衆シーンおよび「パワーポイント（登録商標）」スライドといったプレゼンテーション資料のショットを含む。分類に使用される特徴は一般的であり、従って、ユーザは任意のクラスタイプを指定できる。
【００１９】
図１は、本発明に従った方法の実施に適する汎用コンピュータシステム１００を例示している。汎用コンピュータシステム１００は少なくとも１個のマイクロプロセッサ１０２を備える。カーソル制御装置１０５は、マウス、ジョイスティック、一連のボタンまたは、ユーザがディスプレイモニタ１０４上でのカーソルまたはポインタの位置を制御できるようにする他のいずれかの入力装置によって実現される。汎用コンピュータはまた、ランダムアクセスメモリ１０７、外部記憶装置１０３、ＲＯＭメモリ１０８、キーボード１０６、モデム１１０およびグラフィックコプロセッサ１０９を備えることもある。カーソル制御装置１０５および／またはキーボード１０６は、本発明に従ってユーザ入力を受け取るための例示的なユーザインタフェースである。汎用コンピュータ１００のこれらの要素の全部は、１つの選択肢においては、各種要素間でデータを転送するための共通バス１０１によって互いに結合されている。バス１０１は一般に、データ、アドレスおよび制御の各信号を含む。図１に示す汎用コンピュータ１００は、汎用コンピュータ１００の要素の全部を一体に結合する単一のデータバス１０１を備えるが、汎用コンピュータ１００の各種要素を接続する単一の通信バス１０１が存在しなければならない必要はまったくない。例えば、マイクロプロセッサ１０２、ＲＡＭ１０７、ＲＯＭメモリ１０８およびグラフィックコプロセッサ１０９はデータバスによって結合され、ハードディスク１０３、モデム１１０、キーボード１０６、ディスプレイモニタ１０４およびカーソル制御装置１０５は第２のデータバス（図示せず）によって接続される。この場合、第１のデータバス１０１および第２のデータバス（図示せず）は、双方向バスインタフェース（図示せず）によってリンクされる。あるいはまた、マイクロプロセッサ１０２およびグラフィックコプロセッサ１０９といった一部の要素は第１のデータバス１０１および第２のデータバス（図示せず）の両方と接続され、第１のデータバスと第２のデータバスとの間の通信はマイクロプロセッサ１０２およびグラフィックコプロセッサ１０９によって行われる。このように、本発明の方法は、図１に１００で示したようなあらゆる汎用コンピュータシステム上で実行可能であり、このコンピュータシステムが本発明の方法を実行し得る唯一のものであるといった制限はまったく存在しないことは明白である。
【００２０】
図２は、本発明によるビデオの分類を実行する方法におけるデータの流れを示す。ビデオファイル２０１はビデオ記録物のディジタル表現である。ビデオファイル２０１は一般にＭＰＥＧといった標準ディジタルフォーマットで符号化されている。画像クラス統計モデル２０２〜２０５は、４つの個別の画像クラスに対応する所定のガウス分布を表現している。矢印２０９は、特徴ベクトル２０８を抽出するためのビデオファイル２０１の処理を示す。矢印２０９において行われる処理は以下の通りである。ビデオファイル２０１は、ＭＰＥＧといった標準ディジタルフォーマットで符号化されている場合、復号化され、画素の矩形マトリックスに変換される。画素の矩形マトリックスは、下位画像のより小形の矩形マトリックスに簡約化され、この場合、各下位画像はその下位画像に対応する画素から導かれるグレイスケール符号を表現する。下位画像の矩形マトリックスに変換が施され、変換係数のマトリックスを生じる。変換係数のマトリックスから、ビデオ特徴２０８が、ビデオ分類のためのビデオ集合として示される変換マトリックス内の係数位置にある変換係数として選択される。クラシファイヤ（分類ユニット）２０６は各ビデオ特徴２０８を受け取り、それらのビデオ特徴２０８を画像クラス統計モデル２０２〜２０５の各々に入力する。この結果、ビデオファイル２０１の各フレームは、画像クラス統計モデル２０２〜２０５により表現される画像クラスのいずれかに分類される。ビデオファイル２０１のフレームに対応するようにクラシファイヤ２０６によって決定された対応する画像クラスは、クラスのラベル付けされたビデオ２０７に索引づけられる。このようにして、クラスラベル付けされたビデオ２０７は、そのフレームが属する画像クラスを示す各フレームに関係づけられた情報を含む。
【００２１】
図２に示す通り、システムは最初に、ビデオシーケンスから分類のための特徴、例えば離散コサイン変換係数を抽出するが、カラーヒストグラムといった他の特徴を選択的に使用することもできる。認識されるビデオの各フレームのモデルを構築するために、トレーニングデータが使用される。このトレーニングデータは、そのクラスからの単数または複数のビデオシーケンスより構成される。クラスモデルは、ガウス分布または隠れマルコフモデルのどちらか一方にもとづくことができる。未知のビデオからクラスモデルおよび特徴が与えられたと、システムは、そのビデオをセグメント化し、それぞれのクラスに属するセグメントに分類する。
【００２２】
ガウス分布型クラシファイヤは、クラスモデルを用いて各フレームの尤度（ｌｉｋｅｌｉｈｏｏｄ）を計算する。そのフレームのクラスは最大尤度を有するクラスである。同じクラスラベルを有する隣接フレームは併合されてセグメントを形成する。さらに、その尤度は、各クラスにおける帰属関係の信頼の程度を表示するブラウザにおいて選択的に使用される。隠れマルコフモデル法の場合、隠れマルコフモデル状態は異なるビデオクラスに対応する。バイタービ（Ｖｉｔｅｒｂｉ）アルゴリズムが使用される。最大尤度状態シーケンス、従って各フレームのクラスラベルを見つけるため、信頼度のスコアは状態シーケンスの確率から得られる。この隠れマルコフモデルクラシファイヤは、上記のフレームごとのクラシファイヤよりも複雑であるが、セグメントの連続性および順序を強制することによってセグメントを平滑化する役割を果たす。これは、単一フレームのクラス決定の変更を効果的に禁止する。
【００２３】
各画像またはビデオフレームは、離散コサイン変換またはアダマール変換といった変換を用いて変換される。多くの用途の場合、完全なビデオフレームレートは不要であり、フレームは、選択的に数個のフレームのうちの１個だけが変換されるように時間的に間引かれる。この間引きによって、記憶コストおよび計算時間は劇的に軽減される。画像圧縮においては、一般に小さな下位ブロックに対して変換が行われるが、ここではフレーム画像全体に変換が適用される。変換されたデータはその後、有意性の低い情報を破棄することによって低減される。これは、切り捨て（ｔｒｕｎｃａｔｉｏｎ）、主成分分析または線形識別解析などといった多数の技法のいずれかによって行われる。この用途の場合、また、経験的に示される通り、主成分分析が良好に作用する。それが特徴次元の相関を分離する傾向があり、従って、データが、後述の通りガウスモデルおよび隠れマルコフモデルの対角共分散仮定によく一致するからである。しかし、最大分散を有する係数を単純に選択することが極めて有効であると判明している。これは、各フレームに関してコンパクトな特徴ベクトル（簡約化された係数）をもたらす。この表現は、類似の画像のフレームが類似の特徴を有するので、分類にとって適切である。
【００２４】
図３は、本発明による、トレーニングフレーム、トレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換およびトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を例示する。従って、トレーニングフレーム３０１〜３０８は、ビデオ画像クラスに関係する一連のトレーニング画像を表す。トレーニング画像３０１〜３０８によって表現された画像クラスは、英語で「演壇の正面に立つ話者」と説明される。フレーム３１０は、トレーニングフレーム３０１〜３０８から抽出された８成分特徴ベクトルにもとづいて計算された平均特徴ベクトルに対応する逆離散コサイン変換を図示している。フレーム３１０では、ビデオ分類のための特徴集合は１０成分特徴集合である。従って、各フレームからの１０個の変換係数だけが各トレーニングフレームに関係づけられた特徴ベクトルを構成する。フレーム３１１は、トレーニングフレーム３０１〜３０８の各々から抽出された１００成分特徴ベクトルにもとづいて計算された平均特徴ベクトルの逆離散コサイン変換を表す。フレーム３１２は１０００成分特徴ベクトルの逆離散コサイン変換である。フレーム３１２は、逆離散コサイン変換において使用される係数の数が増加しているので、それ自体がフレーム３１０よりも詳細な表示をしているフレーム３１１よりもさらに詳細に表示している。
【００２５】
フレーム３２０は、トレーニング画像から得られた平均特徴ベクトルの逆アダマール変換を表す。フレーム３２１は１００成分特徴ベクトルに対応する逆アダマール変換を表す。フレーム３２２は１０００成分特徴ベクトルに対応する逆アダマール変換を表す。
【００２６】
１／２秒間隔で取られたＭＰＥＧフレームは、復号化され、６４×６４グレイスケール強度下位画像に簡約化された。得られたフレーム画像は、離散コサイン変換およびアダマール変換により符号化された。最大分散（順位）を有する係数および最も重要な主成分の両者が特徴として選択された。ガウスモデルは、１〜１０００の可変数の次元によってトレーニング集合でトレーニングされた。図３は特徴カテゴリの１つ（ｆｉｇｏｎｗ）のサンプルを示す。このカテゴリは、明るい（白い）背景を背にした人々のクローズアップよりなる。このクラスの画像が、カメラアングル、照明および位置の点で、おそらくは典型的なニュースキャスターの画像よりもいかに大きく変化し得るかに留意されたい。平均および共分散は、最大分散の離散コサイン変換およびアダマール変換の係数によってトレーニングされた。各モデルは、ゼロに設定された破棄係数を有する平均を逆変換することによって画像化されている。共分散は示されていないが、平均がトレーニングデータからの主要な特徴（暗色の中央の人影）を捕捉することは明白である。図３は、少ない数の係数によっても、トレーニングデータにおける主要な形状が、逆変換された時に依然認識可能であることを示している。
【００２７】
図４は、異なる平均および分散を有する２つの一次元ガウス分布を示す。確率曲線４０１によって表現された分布Ａは平均μ_Aを有する。確率曲線４０２によって表現された分布Ｂは平均μ_Bを有する。分布Ａから生じるある値Ｘの確率は、横軸に対する点４０３の垂直位置である。同様に、分布Ｂより生じる値Ｘの確率は、横軸に対する点４０４の垂直高さである。点４０３における確率が点４０４における確率よりも高いので、Ｘは分布Ａから最も得られやすい。図４は一次元プロットであり、２つの画像クラスＡおよびＢならびに１成分特徴集合が与えられた時、図４は、本発明に従って行われるビデオフレームの分類の最大尤度の方法を的確に例示する。
【００２８】
特徴データが与えられると、ビデオセグメントは統計的にモデル化される。単純な統計モデルは多次元ガウス分布である。ベクトルｘが１フレームの特徴を表現すると仮定すると、そのフレームがガウスモデルｃによって生成される確率は次式の通りである。
【００２９】
【数１】

【００３０】
ここで、μ_cは平均特徴ベクトル、Σ_cはモデルｃに関係するｄ次元特徴の共分散マトリックスである。式（ｘ−μ_c）’は差分ベクトルの変換である。実際には、対角共分散マトリックス、すなわちΣ_cの非対角線上成分がゼロであると仮定するのが普通である。これにはいくつかの利点がある。最も重要なことは、自由パラメータ（マトリックス成分）の数をｄ（ｄ−１）／２からｄに減らすことであり、これは問題の次元ｄ（ｄは１００のオーダー）が高い時に重要となる。共分散マトリックスは少数のトレーニングサンプルにより計算される際にしばしば不良条件となるので、これはマトリックスの逆の計算が極めて単純になり、より確固としたものになることを意味する。このようにガウスモデルによって画像を分類するために、必要なクラスの各々について１組のサンプルトレーニング画像が集められ、パラメータベクトルμ_cおよびΣ_cが計算される。未知の画像ｘが与えられると、各画像クラスの確率が計算され、その画像は最大尤度モデルによって分類される。あるクラス（トレーニング集合）にとっては対数尤度だけが類似性の有用な測度であり、本発明によるビデオブラウザといった用途において直接使用される。より精緻なモデルは、多数のパラメータおよび混合重みを評価するために期待値最大化アルゴリズムが与えられた時に、ガウス混合を使用することができる。さらなる代替として、ニューラルネットワークまたは他の形式のクラシファイヤが使用される。単一のガウスモデルの場合、μ_cおよびΣ_cの計算は、計算法としては容易であり、極めて迅速に行える。単一画像からのモデルのトレーニングの場合、平均ベクトルは画像特徴に設定され、分散ベクトル（対角共分散マトリックス）は全部の画像に対する大域変数の何らかの比に設定される。未知のフレームおよび数個のモデルが与えられた場合、その未知のフレームは、どのモデルが最大確率をもってそのフレームを生じるかによって分類される。
【００３１】
図５は、本発明によるビデオ分類のための特徴集合を選択する例示的方法を示す。すなわち、図５は、統計モデルのトレーニングのため、および、統計モデルがトレーニングされた際のビデオの類似性測定および分類のために、抽出および分析する係数位置を変換する選択過程を表している。図５に記載した方法は、多数のトレーニング画像に見られるの特性を考慮している。以下に述べる分類法において、特徴集合を最適に選択するために使用されるトレーニング画像は、異なるクラス全部の画像を含む。これは、図５に示す方法が異なるクラスの画像を区別するために特徴の最適な集合を選択するのを助ける。図５に示す方法の代替として、特徴集合で使用する係数位置は、観測されるビデオ特性を全く考慮せずに、図６および８に示すように単に最低頻度係数を選択することによる切り捨てによって選択される。
【００３２】
Ｖ×Ｈの離散コサイン変換係数位置を考え、そこから特徴集合としてより小さな数ｄを選択する。図６に示した例ではＶ＝Ｈ＝８である。より典型的で実際的なシナリオではＶ＝Ｈ＝６４であり、従って、選択するべき４０９６（６４×６４）個の係数位置がある。最大分散係数を選び出すための１つの代替の方法は、４０９６×４０９６共分散マトリックスを計算した後、適切に特徴を選び出すが、必ずしも順番に行う必要はない。簡約化ベクトルの実際の順序は重要ではないが、一致していなければならない。
【００３３】
工程５０１で、平均係数マトリックスが計算される。平均係数マトリックスは、変換が適用される下位画像のマトリックスと同じ行数Ｖおよび同じ列数Ｈを有しており、また、結果として得られる変換係数マトリックスとも同数の行および列を有する。平均マトリックスの各位置は、トレーニング画像にある対応する係数の算術平均である。１つの実施の形態では、平均係数マトリックスは、分散マトリックスを計算する過程の予備工程として計算される。別の実施の形態では、平均係数マトリックスの値自体を解析して、特徴集合を選択する。例えば、ある実施の形態では、最大平均値を有する係数位置が特徴集合として選択される。工程５０２では、分散マトリックスが計算される。分散マトリックスは、平均マトリックスおよび変換マトリックスと同じ行数Ｖおよび同じ列数Ｈを有する。分散マトリックス５０２の各値は、トレーニング画像の変換マトリックスにおける対応する位置の統計分散を表現する。あるいはまた、分散マトリックス５０２の各値は、標準統計分散以外である「分散」測度を表現するが、それでもやはりそれは変動の測度を表現する。例えば、観測された各係数の平均係数との差の算術平均絶対値は、標準統計分散に使用されるような２乗差の和よりも、「分散」測度として使用できる。
【００３４】
工程５０３において、特徴集合が選択される。この特徴集合は、本発明による多様な方法のいずれかによって工程５０３で選択される。例えば、特徴集合は選択的に、最大平均値を有するｄ個の係数位置として選択される。あるいはまた、特徴集合は分散マトリックスで最大分散値を有するｄ個の係数位置として選択される。さらに別の代替法として、特徴集合は、主成分分析または線形識別解析によって選択される。
【００３５】
最も単純な特徴集合選択法では、特徴集合のｄ個の係数位置が切り捨てによって選択され、それにより、変換マトリックスの最低頻度係数のみが、トレーニングフレームのいずれかにおけるそれらの位置の実際の係数の値にかかわらず、特徴集合を構成するように選択される。実際、切り捨てによると、最低頻度成分が最も重要であると単純に仮定されるので、いずれのトレーニングフレームもまったく分析される必要はない。
【００３６】
特徴集合の選択はトレーニング画像の各群について行われる必要はないことに留意しなければならない。一般に、特徴集合は、分類方法において使用される全部のクラスモデルから全部のトレーニング画像を使用する上記の方法のいずれかにもとづいて選択される。例えば、図２のクラスモデル２０２〜２０５の各々を定義するために使用されるトレーニング画像の全部は、それらのトレーニング画像の全部について平均マトリックスおよび分散マトリックスを計算することによって解析されて、それらのクラスモデルの各々の分類のための最適な特徴集合を決定する。従って、本発明による分類法における各ビデオ画像クラスについて同じ特徴ベクトルが検索されるように、好ましくは同一の特徴集合が全部のクラスモデルに関して使用される。しかし、本発明による画像クラスの各々について同一の特徴集合が使用されなければならないという必要性はまったくない。これに関して、各画像クラスは、その画像クラスの検出に最適に選択された特徴集合を有することができるが、その画像クラスの対応する確率の計算を行うために各ビデオフレームから異なる特徴ベクトルを抽出しなければならないという演算負荷の増加を伴う。
【００３７】
図６は、ビデオフレームの離散コサイン変換から得られる変換マトリックスを示す。列１は水平周波数０（従って直流）を表現し、列２は水平周波数ｆ_hを表現し、そして、列８は水平周波数１３ｆ_vの係数を表す。同様に、行１は垂直周波数０（すなわち直流）の係数を表現し、行２は垂直周波数ｆ_vを表現する。変換マトリックス６００の行８は垂直周波数１３ｆ_hの係数を表す。変換マトリックス６００の左上隅の９個の係数はその変換マトリックスの最低周波数係数を表す。ブラケット６０１および６０２で囲まれたこれらの９個の係数は、本発明による特徴集合を選択する９係数切り捨て法によって選択される９個の係数位置である。より高周波数の係数は画像の細部を表現するので、それらはあるフレームのビデオ画像クラスを決定するうえでそれほど重要でないことがほとんどである。
【００３８】
図７は、本発明に従って２個以上の変換マトリックスから計算された分散マトリックスを示す。図８は、本発明に従った切り捨てによって決定された特徴集合８００を示す。最低頻度成分に対応する変換マトリックスの９個の係数は、図８に示す通り特徴集合８００として選択された。例えば、成分８０１、８０２および８０３は図６に示す変換マトリックス６００の行１の最初の３個の係数位置を表し、成分８０４、８０５および８０６は変換マトリックス６００の第２の行の最低頻度成分を表し、成分８０７、８０８および８０９は変換マトリックス６００の第３の行の最低頻度係数位置を表す。変換マトリックス６００の最初の３個の行は変換における最低垂直頻度を表し、従って特徴集合８００で指定された９個の成分は切り捨て法に関して適切な選択である。
【００３９】
図９は、本発明に従って図８に示した特徴集合を有するトレーニングフレームの２個の特徴ベクトルから計算された平均特徴ベクトル９００を示す。このように、係数８０１〜８０９に対応する平均マトリックス（図示せず）の値は平均特徴ベクトル９００として記憶される。
【００４０】
図１０は、本発明に従って図８に示した特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。共分散マトリックスは必ず正方かつ対称である。この共分散は次元ｄ×ｄのマトリックスである。共分散は全部の異なる次元に関する相関を表現する。対角共分散を使用することによって、ｄ個の非ゼロ値が存在し、数学演算のためには、それはマトリックスとして扱われなければならないものの、ｄ成分のベクトルとしてみなすことができる。対角共分散マトリックス１０００の全部の非対角線上成分は、特徴集合における全部の特徴がその特徴集合の他の特徴と統計的に非相関関係にあるという仮定にもとづき、ゼロに設定される。実際、特徴が相関関係にあれば、特徴空間の座標変換に対して主成分分析が最適に使用され、それにより対角共分散仮定も良好に満たされる。対角共分散マトリックス１０００は、図９に示した特徴ベクトル９００および、図６に示した変換マトリックス６００の切り捨てにより決定された特徴ベクトル８００に対応する。
【００４１】
図１１は、本発明の方法による図８に示した特徴集合を有するフレームについて検索された特徴ベクトル１１００を示す。このように、特徴ベクトル１１００の各成分１１０１〜１１０９は、変換された画像フレームから得られた実際の変換係数を含む。特徴ベクトル１１００は、本発明に従った分類方法においてビデオファイル２０１から抽出される図２に示したビデオ特徴２０８の実例である。
【００４２】
図１２は、本発明により２個以上のビデオ画像クラスのいずれかにビデオのフレームを分類する方法を例示している。この方法は工程２０１に始まり、工程２０２で、ビデオの第１のフレームが離散コサイン変換またはアダマール変換のいずれか一方によって変換される。工程１２０３で、特徴工程によって示された位置にある係数に対応する特徴ベクトルが抽出される。工程１２０４では、特徴ベクトルを生成する各画像クラス統計モデルの尤度または確率が計算される。工程１２０５で、そのフレームに対応する特徴ベクトルを生成する確率が最も高い画像クラス統計モデルを有する画像クラスが選択される。工程１２０６で、そのフレームが、工程１２０５で決定されたそのクラス指定によりラベルづけされる。この工程では、フレームは、将来容易にブラウズまたは検索されるように、そのクラスに従って索引づけがなされる。検査１２０７は、そのビデオにさらにフレームが存在するかどうか、すなわち、それが分類中のビデオの最後のフレームであるかどうかを判定する。さらにフレームがあれば、分岐１２０８は方法を次のフレームを変換する工程１２０２へ戻し、それがビデオの最終フレームである場合には、工程１２０９は図２に示したクラスのラベルづけされたビデオ２０７が完了したことを指示する。
【００４３】
図１３は、本発明に従い切り捨て以外の方法によって決定された特徴集合を示す。例えば、主成分分析、最大分散を有する係数の選択または最大平均を有する係数の選択の内の１つの想定可能な結果が、図１３に示す特徴集合１３００によって例示されている。図１３に示された６成分特徴集合１３００は、図６に示した係数位置６１０〜６１５を含む。図１３に示された６成分特徴ベクトル１３００の係数位置１３０１として含まれ、図６に示された変換マトリックス６００の第２行、第６列の係数位置６１４の包含は、１１ｆ_hに対応する比較的高い水平頻度成分が画像クラスを弁別する際に有効であることを示す。高頻度成分の包含はほとんど、フレームを認識するのに一般に比較的小さく鋭いエッジを有するテキスト等の小さな鋭い特徴を検出することを要する場合に生じる。
【００４４】
図１４は、本発明に従って、図１３に示す６成分特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された平均特徴ベクトル１４００を示す。
【００４５】
図１５は、本発明に従って、図１３に示す特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された対角共分散マトリックス１５００を示す。特徴集合で示された係数位置の値の間に相関関係が存在しないという仮定にもとづき、対角共分散マトリックス１５００の非対角線上成分は、やはりゼロに設定されている。
【００４６】
図１６は、本発明に従った分類のための図１３に示す特徴集合１３００を有するフレームから検索された特徴ベクトル１６００を示す。このように、成分１６０１〜１６０６は、本発明の方法に従って分類されるフレームの変換によって生じる変換マトリックスから得られる実際の個々の変換係数を表現している。
【００４７】
十分なデータ簡約化が行われた場合、クラシファイヤは、プレゼンテーションスライド、発表者または聴衆といった典型的な会議のビデオシーンの間を識別するために、本発明に従って容易にトレーニングされる。会議ビデオの領域分野の他に、この方法は、ニュースキャスターのショットなど、あるクラスの画像が類似の構成を有する場合には良好に作用するはずである。本発明による方法を評価するために、ビデオテープ録画されたスタッフ会議の資料に関して多数の実験を行った。ビデオショットは、６つのカテゴリに分類され、資料はトレーニング集合および試験集合に分けられた。
【００４８】
ビデオ分類実験は、６カ月の期間に開かれビデオ録画されたスタッフ会議の資料に関して実施された。各ビデオはカメラオペレータによって作成され、オペレータは、パン／チルト／ズームの制御が可能な３台のカメラによるビデオと、パーソナルコンピュータおよび演壇カメラからのビデオ信号との間で切り換えを行った。後者の装置は、透明および不透明資料といったプレゼンテーショングラフィックスを背面映写スクリーンに表示できるようにした。従って、ビデオショットは一般に、発表者、聴衆ショットおよび、「パワーポイント（登録商標）」スライドまたは透明資料といったプレゼンテーショングラフィックスより構成される。得られたビデオはＭＰＥＧ−１符号化され、サーバに記憶された。
【００４９】
資料には、２１回の会議ビデオが収められ、ビデオ収録時間の合計は１３時間以上であった。資料は、会議ビデオを交互に選ぶ形で、試験およびトレーニングセグメントに任意にセグメント化された。試験およびトレーニングデータは下記の表１に示す６つのクラスにラベルづけられ、表はトレーニングおよび試験の各集合のフレームの数も示している。相当量のデータがいずれのカテゴリにも当てはまらず、ラベルづけされずに残された。６つのクラスは、プレゼンテーショングラフィックス（ｓｌｉｄｅｓ）、照明付き映写スクリーンのロングショット（ｌｏｎｇｓｗ）、照明なしの映写スクリーンのロングショット（ｌｏｎｇｓｂ）、聴衆のロングショット（ｃｒｏｗｄ）、明背景での人物像の中間クローズアップ（ｆｉｇｏｎｗ）および暗背景での人物像の中間クローズアップ（ｆｉｇｏｎｂ）を表現するように選択された。（スクリーンショットといった）単一のカテゴリでかつ（照明付きと照明なしのスクリーンショットといった）著しく異なるモードの場合、各モードについて別のモデルが使用された。これは、単一ガウスモデルとのすぐれた一致を保証したが、別の方法は結合モデルをモデル化するためにガウス混合を代替的に使用する。同一の論理クラスをモデル化するように意図されている場合、異なるモデルは選択的に結合される。例えば、人物像を見つけることを意図している場合に背景色は重要ではないので、分類結果を提示する際にｆｉｇｏｎｗおよびｆｉｇｏｎｂクラスの結合が行われる。
【００５０】
【表１】

【００５１】
実験は、ガウス分布型クラシファイヤが長時間のビデオの脈絡における特定のクラスからビデオフレームを検出することを実証している。これは、長時間のビデオから、類似フレームの領域として定義されたショットをセグメント化するために使用される。これは、例えばスライドを含むショットの始まり、といった有益な索引点を提供する。他の方面では、例えばフレームまたは色の相違によってショットがすでに突き止められている場合、そのショットから全部のフレームに関してショットモデルが容易にトレーニングできる。これにより、共分散が動きその他の変化により生じる差異を捕捉するので、ショットを類似性により検索できるようになる。あるショットを表現するキーフレームが、尤度距離計量を用いてそのショット平均に最も近いフレームを見つけることにより容易に見出せる。画像を表現する係数の数は極めて控え目であるので（主成分分析のフレーム当たり１０個程度の特徴）、１つの代替法は、ビデオデータ自体に比べてもほとんどまったくオーバヘッドを伴うことなく、ビデオとともに特徴を記憶することである。ガウスモデルは計算が容易なので、モデルは選択的にオンザフライでトレーニングされる。これは対話型ビデオ検索のような用途を可能にし、この場合、ユーザは、時間バー上をドラッグしてビデオ領域を選択するなどして、所望のクラスを指示する。モデルはその領域の特徴について迅速にトレーニングされ、大きなビデオ資料のフレームに対応する類似性が迅速に計算される。資料における高い尤度の領域は、選択されたビデオに良好に一致する領域であり、資料の索引として機能する。
【００５２】
多様なモデル結果をスレッショルド設定を用いずに示すために、最大尤度法を使用して、ラベルづけされた試験フレームを分類した。下記の表２は、３０個の最大分散離散コサイン変換係数の使用による結果を示す。クラスｆｉｇは、ｆｉｇｏｎｗおよびｆｉｇｏｎｂの結合クラスの上位集合である。各列は試験フレームの実地検証情報ラベルであり、行は、行クラスとして認識される試験集合におけるサンプルの割合（小数分率）を示す。非ゼロの非対角線上成分は分類誤差を表す。すべてのラベルづけされたフレームは、それ自体のラベルと異なることはあっても最大尤度クラスを有するので、列の合計は１になる。
【００５３】
【表２】

【００５４】
図１７は、本発明によって類似性を決定する方法において、類似性を決定するためのスレッショルドとして使用されるスライド画像クラス統計モデルの標準偏差の倍数の関数として、スライドとして正しく識別されたスライドフレームの割合およびスライドとして誤って識別された非スライドフレームの割合を示す。代替的な実施の形態として、類似性を決定するためのスレッショルドは一般的なものであり、例えば、他のクラスの最大尤度によって決定される。ｘ軸は標準偏差の所定の倍数を表し、ｙ軸はスレッショルドのその特定の選択にもとづいて類似と識別されたフレームの割合を表す。プロット１７０１は、実際にスライドであり、本発明の類似性評価法によって正しくスライドとして識別されたフレームの割合を示す。プロット１７０２は、実際にはスライドでなく、本発明の類似性評価法によって誤ってスライドとして分類されたフレームの割合を示す。
【００５５】
図１７は、ビデオを分類しセグメント化するためにガウスモデルがどのように使用されるかを実証している。スタッフ会議ビデオの資料による実験は、スライド、話者、聴衆といったクラスが正しく認識されることを示した。１／２秒間隔で取られたＭＰＥＧ−１フレームは、復号化され、６４×６４グレイスケール強度下位画像に簡約化された。得られたフレーム画像は離散コサイン変換およびアダマール変換により符号化され、最大平均値を有する１００個の係数が特徴として選択された。対角共分散ガウスモデルが８０例のスライドフレームについてトレーニングされ、無関係の試験ビデオのスライドフレームおよびタイトルの確率を計算するために使用された。
【００５６】
（共分散｜Σ｜^1/2からの）標準偏差の倍数で尤度をスレッショルドとすることは、クラスの帰属関係を検出するうえで極めて有効であることが示されている。また、そのようなスレッショルドは、使用される係数の数からまったく独立である。図１７は、スライド検出比が多様なスレッショルドにおいてどのように変化するかを示している。グラフは、スレッショルドが標準偏差の約１．１倍のとき、８４％の正確なスライド認識率をもたらし、誤り認識はほとんどない（９％）ことを示している。標準偏差により正規化された場合、尤度は、それ自体で、クラスモデルに対する所与のフレームの類似性の指標として有益である。全部のクラスが同様の検出率を有するが、誤り認識の数はクラスごとに異なっている。
【００５７】
単純ガウスモデルは上記のようにトレーニング画像の平均を計算するので、画像シーケンスに関係するいずれかの時間変化情報を失う。動きまたは連続といった動的な情報を捕捉するために、モデルは様々な方式で選択的に拡張される。フレーム間差異または簡約化された特徴の傾向によりモデルをトレーニングすることにより、動きまたはフェードといった時間変化効果はモデル化される。
【００５８】
図１８は、本発明による画像クラス統計モデルを用いたビデオフレームの類似性を判定する方法を示す。工程１８０１で、現在分析中のフレームに対応する特徴ベクトルが検索される。工程１８０２で、その画像クラス統計モデルに対応する平均特徴ベクトルが検索される。工程１８０３で、特徴ベクトルからの平均特徴ベクトルの減算を表現する差分ベクトルが計算される。工程１８０４で、差分ベクトルの大きさが画像クラス統計モデルの標準偏差の所定の倍数と比較される。差の大きさが標準偏差の所定の倍数より小さい場合、工程１８０５はそのフレームを類似として分類する。差の大きさが標準偏差の所定の倍数より小さくなければ、工程１８０６がそのフレームを非類似として分類する。図１８に例示した類似性を判定する方法は、ガウスの公式による実際の確率計算を必要としないことに留意しなければならない。代わりに、差分ベクトルの大きさおよび標準偏差がユークリッド距離として計算される。差分ベクトルの大きさは、そのｄ個の成分の平方の和の平方根によって計算される。画像クラスの標準偏差は、対角共分散マトリックスの対角線上成分の和の平方根として計算される。
【００５９】
図１９は、本発明に従ってビデオの各種フレームを生成する画像クラス統計モデルの確率の対数表示を示している。対数は単調関数なので、確率の対数は、類似性の大小を判定するために確率を比較するのと同様に比較される。
【００６０】
図１９は、ほぼ１時間継続する試験ビデオにおけるスライド画像でトレーニングされたガウスモデルの対数尤度を示す。ビデオでスライドが実際に示された時を指示する「実地検証情報（ｇｒｏｕｎｄｔｒｕｔｈ）」は、上部付近の幅広のバーとして示されている。この対数尤度が、ビデオでスライドが示されている時の良好な指標であることは明らかである。（共分散マトリックスΣ_cから計算された）ある標準偏差で対数尤度をスレッショルドとすることは、個々のフレームを分類するうえで極めて効果的であることが示されている。（共分散から計算された）標準偏差の倍数で尤度をスレッショルドとすることは、クラスの帰属関係を検出するうえで極めて効果的であることが示されている。また、こうしたスレッショルドは使用される係数の数とはまったく独立である。
【００６１】
いずれかの特定のフレームまたはフレームのビデオセグメントと画像クラスとの間の類似性は、本発明に従って計算される。ガウスモデルの場合、所与のフレームの類似性測度は尤度であり、対数領域にあるものに代えることができる。ガウスモデルはまた、セグメント境界として機能する所与のスレッショルドを類似性測度が超えた時にそれらのフレームを見つけることによって、ビデオをセグメント化するためにも使用できる。時間モデルが存在しない場合、最小のセグメント長を求めるというような臨時の規則によりセグメント化を改善できる。
【００６２】
図２０は、本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数を表示する方法を示す。工程２００１で、画像クラス統計モデルによって生成されるフレームの確率がガウスの公式によって計算される。工程２００２で、確率の対数が計算される。工程２００３で、確率の対数が図１９と同様にして表示される。工程２００４において、さらにフレームが存在する場合は、２００６に分岐して工程２００１に戻り、それ以上フレームがない場合、工程２００５で終了する。
【００６３】
図２１は、特徴集合の成分の数ｄの関数として正しく分類されたフレームの割合、それらのフレームに適用された変換のタイプおよびｄ成分特徴集合の選択方法を示している。図２１は、離散コサイン変換およびアダマール変換の両者について、正しい分類の確度が、一般に、特徴集合が増加するにつれ変換係数の数とともに向上することを示している。トレース２１０１、２１０２および２１０３の下降部分は、各クラスがそうした大きな数の係数位置を有する特徴集合を判定するために十分なトレーニングフレームがトレーニング集合に存在しないことの結果である。言い換えれば、トレース２１０１、２１０２および２１０３の下降部分は、特徴ベクトルが由来するべきものとして合理的にモデル化されるガウス分布に倣うのではなく、トレーニングフレームの特徴ベクトルの実際のデータポイントに倣っていることを示している。分布に倣わせるためには、トレーニングフレームの数は特徴集合の変換係数の数よりも相当に多くなければならない。これは、与えられた数のトレーニングフレームを前提とする限り、特徴集合の変換係数位置を１００以下とすることが、計算上の負荷を軽くするだけでなく、より大きな特徴集合よりも効果的であることを実証する。
【００６４】
異なる変換方法での変換係数の数の影響を判定するために、全正確さ、すなわち、正しいカテゴリに認識されたサンプルの割合を計算した。図２１はその結果を示す。離散コサイン変換およびアダマール変換の主成分に関する認識分布がほぼ同一であることを指摘できるのは興味深い。最良の成績（８７％正確な）は１０個の主成分を用いて得られた。主成分分析を伴わない場合、分散順位づけ離散コサイン変換係数は３０をピークとするのに対し、アダマール変換は３００で若干高い確度を得る。アダマール変換はしばしば、離散コサイン変換と同様に知覚的特徴を保存しないということで批判されるが、この場合には多少すぐれているように思われる。直線アダマール変換ベースの関数は、シヌソイド離散コサイン変換系よりも良好に（スライドや壁といった）画像特徴を一致させるからである。
【００６５】
図２２は、本発明の方法に従ってスライドに類似であると見られるビデオの領域を表示するブラウザを示している。ブラウザ２２００は、スライドビデオ画像クラスに類似であると判断されるフレームより構成されるビデオ内の時間間隔を黒い垂直バーで示す時間バー２２０１を含む。
【００６６】
ユーザがビデオ内の興味のある部分を見つけるのを助成するためにビデオ分類を使用するアプリケーションが本発明に従って開発されている。長時間のビデオがそれを全体として見ることなく所望の情報を含むかどうかを判定することは単純ではない。インテリジェントメディアブラウザは、図２２に示すように、ビデオから抽出されたメタデータを利用することによってビデオに対するきめ細かいアクセスを可能にする。あるビデオに関する信頼度スコアが時間バーにグラフィカルに表示される。信頼度スコアは、ソースメディアストリームへのランダムアクセスに時間軸を使用することによりソースストリームにおける興味ある領域への貴重な糸口を付与する。例えば、スライドモデルの正規化対数尤度が図２２の時間バーに表示される。高尤度（信頼度）の２つの領域が灰色または黒色領域として視覚化され、それらはビデオにおけるスライド画像に対応する。時間軸上の点または領域を選択すると、対応する時間からメディアの再生を開始する。このようにして、興味のある部分となる高い可能性の時間間隔が、信頼度表示から視覚的に識別され、線形探索を伴わずに容易に調査できる。
【００６７】
図２３は、本発明に従ってビデオを分類する方法において使用される隠れマルコフモデルに対応するクラス遷移図を示す。画像クラスＧ、ＡおよびＢの各々はガウス分布を用いてモデル化される。同一のクラスに留まるかまたは別のクラスに遷移する遷移確率は、遷移矢印の横に示されている。
【００６８】
隠れマルコフモデルは、本発明に従ってビデオセグメントの継続時間およびシーケンス（順序）を明示的にモデル化できる。単純な実施例では、２状態隠れマルコフモデルの一方の状態は所望のクラスをモデル化し、他方の状態モデルは他のすべてをモデル化する（「ガーベージ」モデル）。多状態隠れマルコフモデルは、上記のガウスモデルを用いて、それらを平行に結合し、弧に沿って遷移ペナルティを加えることによって作成される。図２３は、そうしたモデルを示しており、状態Ｇがガーベージモデルであり、状態ＡおよびＢが所要のビデオクラスをモデル化している。（図示されたシーケンスは、ビデオクラスが２つの個別の成分ＡおよびＢを有し、ＡがＢの前に生起することを示唆している。多数の他のモデルシーケンスが可能である。）ビデオに対する最大尤度を使用した隠れマルコフモデルのアライメントはバイタービアルゴリズムによって決定される。これは、サンプルと類似しているセグメントおよび類似でないセグメントへのビデオのセグメント化をもたらす。さらに、観測されたビデオを生じるいずれかの特定の状態の尤度は、いずれかの特定のフレームについて選択的に決定され、探索、順位づけまたはブラウジングにおいて活用するための有用な類似性測度を与える。
【００６９】
図２３は、尤度スレッショルドを有する単一のガウスモデルが長時間のビデオから類似のショットをどのようにしてセグメント化できるかを示している。多様なショットモデルを使用することにより、尤度比または最大尤度を用いて、いずれのモデルにも良好に一致しないショットを排除するスレッショルドを選択的に有する多様なショットをセグメント化できる。異なるショットは、多様な代替計量を用いてそれらのガウスモデルを比較することによって、比較照合される。
【００７０】
クエリー状態の隠れマルコフモデル出力分布は、上記のガウスモデルに関してまさに説明した通り、係数特徴の単数または複数のガウスモデルとして代替的にモデル化される。選択的に、エルゴード的に（完全に）結合された複数の状態が、複数の混合ガウスモデルと同様にセグメントをモデル化するために使用される。単数または複数のガーベージモデルの出力分布もガウス分布である。そのパラメータは、ビデオデータベースから推定され、システムに記憶される。クエリーおよびガーベージ状態に留まる遷移確率は、例題データから推定されるかまたは、クエリーの長さおよびビデオにおけるクエリーの生起間の長さが変化し得るので、ユーザによって選択的に調整される。この方式の利点は、遷移確率がほとんどの隣接フレームを同一状態に拘束し、従って見かけ上のセグメント化または類似性スコアの変動を低減することである。
【００７１】
隠れマルコフモデルの公式化は、複数の状態および（音声認識における言語モデルに類似の）遷移グラフを用いてビデオの傾向またはシーケンスを捕捉するために強力に拡張されている。それ故、隠れマルコフモデルは、例えば、ニュース放送の開始を特徴づける放送局のロゴからニュースキャスターのショットへの遷移をモデル化するために選択的に使用される。この例で図２３について説明すれば、状態Ａは放送局のロゴをモデル化し、状態Ｂはニュースキャスターのショットをモデル化する。隠れマルコフモデルにおける暗示的シーケンス拘束のために、これは、Ａ−Ｂシーケンスにのみ一致しＢ−Ａシーケンスには一致せず、または、ＡまたはＢを孤立してセグメント化するのに対して、単純ガウスモデルは全部について高いスコアを生じる。
【００７２】
図２４は、図２３に示したクラス遷移図に対応する本発明に従ったクラス遷移確率マトリックスを示している。クラス遷移確率マトリックス２４００の行は以前のフレームのクラスを表し、マトリックス２４００の列は現在フレームのクラスを表す。クラス遷移確率マトリックス２４００の各列は、ある現在の画像クラスに関係するクラス遷移確率ベクトルである。図２３に示したクラス遷移図は以降のフレームについてクラスＧからクラスＢへの遷移を許していないので、マトリックス２４００の成分２４０１はゼロである。同様に、クラス遷移図２３００はクラスＢからクラスＡへの遷移を許していないので、マトリックス２４００の成分２４０２はゼロである。
【００７３】
図２５は、図２３に示したクラス遷移図に従った５つの連続した初期ビデオフレームに対応する可能なクラスシーケンスの全てを示す。クラス遷移図２３００はそのシーケンスがクラスＧで始まるように指示しているので、最初のフレームのクラスは図２５の枠２５０１に示されたＧである。しかし、第２のフレームは、それぞれ枠２５０２および２５０３に示されたクラスＧまたはクラスＡのどちらか一方となる。第２のフレームが枠２５０３で示されたクラスＡである場合、第３のフレームは、それぞれ枠２５０４、２４０５および２５０６に示されたクラスＧ、ＡまたはＢのいずれかとなる。クラスの確率は、そのクラスについて計算された尤度、以前のクラスの確率および、そのクラスへの遷移を生じるクラス遷移確率の関数である。各状態の確率は以下の式によって与えられる。
【００７４】
【数２】

【００７５】
図２６は、本発明によるクラス遷移確率マトリックスおよび画像クラス統計モデルによってビデオをセグメント化する方法を示している。方法は工程２６０１に始まる。工程２６０２で、可能性のある現在の状態の各々に対応する最も確からしい以前の状態が計算される。それらの計算は図２５に示した例に関する上記の式を用いて行われる。工程２６０３で、現在のフレームの尤度が、各画像クラスに対応するガウス関数によって可能な現在の状態の各々について計算される。工程２６０３での計算は、例えば図１２に示した方法１２００の工程１２０４において、計算された確率と同一である。工程２６０４で、全部の可能な状態に対応する現在の状態の確率が工程２６０３および２６０２による結果を用いて計算される。工程２６０４の計算は上記の式によって実行される。工程２６０２の計算は、現在の状態を仮定して式２、４および６を使用する。工程２６０４の計算は、上記の式１、３および５を使用する。検査２６０５はビデオの終わりに達したかどうかを判断し、否定されれば、工程２６０６はプロセスを次のフレームに進める。それが最後のフレームであれば、工程２６０５は処理を工程２６０６に渡し、そこでその最終状態が最大の全確率を有する状態として選択される。最終状態が選択された後、最も確からしい以前の状態が、上記の式２、４および６の以前の評価に従って選択される。言い換えれば、最終状態が既知であれば、以前の状態の全ては、工程２６０２ですでに行われた計算によって自明になる。工程２６０８で、さらにフレームが存在するかどうかが判定され、肯定されれば、工程２６０９はその以前のフレームを工程２６０７に渡し、工程２６０２ですでに計算された結果に従って次の以前の状態とのリンクの決定がなされる。第１のフレームが分類されると、処理は工程２６１０で終了する。
【００７６】
隠れマルコフモデルの場合、セグメント化は、最大尤度状態シーケンスを見つけるためのバイタービアルゴリズムによって行われる。これは、特定の状態または状態の群とアライメントされた全部のフレームがセグメントとしてみなされるので、最大尤度セグメント化を直接与える。隠れマルコフモデルの構造は、アライメントが（従来行われていたように局所的にではなく）ビデオ全体について計算されるので、このタスクに特に適している。このモデルに内在するシーケンスおよび継続時間の拘束は、他の方式の分類誤りによって生じ得る単一フレームセグメントといった誤りを効果的に禁止する。所与のフレームとクエリーとの間の類似性は、バイタービアルゴリズムにおいて、単数または複数のクエリー状態の事後確率として計算される。類似性測度が与えられと、ビデオのあらゆる集合は、クエリーセグメントとの類似性によってセグメント化および／または順位づけられる。これは、ビデオの大きな資料からの類似性による内容にもとづく検索を可能にする。
【００７７】
上述のように単純ガウスモデルはトレーニングフレームの平均を計算するので、ビデオシーケンスに関係する何らかの時間変化情報を失う。動的なシーケンス情報を捕捉するために、モデルは多様な方法で選択的に拡張される。フレーム間の差異または簡約化された特徴の傾向でモデルをトレーニングすることによって、動きまたはファクシミリといった時間変化効果はモデル化される。ビデオシーケンス間の類似性を見つけるために、２つのシーケンスのフレームのフレームごとの内積を合算することにより相関スコアが計算される。類似なシーケンスは大きな相関を有する。異なる長さの２つのシーケンス間の最良の一致を見つけるために動的プログラミングが選択的に使用される。本発明による動的事象を捕捉するすぐれた技法は、特徴出力確率をモデル化するためにガウス混合を用い、特に音声認識用に開発された効率的なトレーニングおよび認識アルゴリズムが与えられた、隠れマルコフモデルである。
【００７８】
ここで行った実験は、変換係数の統計モデルが低い誤差率でビデオフレームを迅速に分類することを実証している。この方式の計算の単純さおよび少ない記憶要求量は、本発明による対話型ビデオ検索といった用途を可能にする。
【００７９】
特定のビデオセグメントについてビデオデータベースを探索する際に、所望のビデオセグメントのタイプの記述を与えるよりも、例題を与えることによってクエリーを指定するほうが容易であることが多い。例えば、話を聞いている一群の人々を示すビデオのセグメントが望まれる場合、探索クエリーとしてシステムに群衆セグメントを単純に呈示することはより容易である。これは、選択されたセグメントに類似であるセグメントについて単一のビデオを探索する際に特に当てはまる。類似性による検索は、ユーザにとって容易であることに加え、実例からクエリーの良好なモデルを作成することが容易であるので、より正確であることが多い。
【００８０】
自動ビデオ分類は、ブラウジング、自動セグメント化および内容にもとづく検索といった広範な用途に有用である。自動分類を用いたアプリケーションは、特定の話者を示すビデオを検索するか、または、ビデオの再生中にその話者のいる領域を強調表示させるなどによって、ディジタル化ビデオをブラウジングおよび検索するうえでユーザを支援することができる。自動生成注釈は、ビデオテープ録画された会議から重要な情報を検索する際にユーザを支援することができる。このようなツールは、ユーザが、特定のビデオおよびそのビデオ内の対象となる領域の両方を突き止めなければならない場合に、ビデオの大きな集合を取り扱うのを助けることができる。こうしたあらゆる用途にとって、ビデオのトレーニング用集合は異なるビデオおよびオーディオクラスに従ってラベルづけされ、統計モデルはそのラベルづけされたセグメントでトレーニングされる。
【００８１】
本発明は、ビデオの類似性の統計的測度および、その類似性測度を使用して再生中にビデオの案内を助成するアプリケーションを含む。本発明によれば、類似性マッチングに使用されるビデオの領域を選択するための２つの異なるユーザインタフェースが開示される。
【００８２】
ブラウザは、ビデオ領域を選択し類似領域を自動的に見つけることによってユーザにビデオの構造を探索させるように設計されている。例えば、ニュース放送を見る場合、ユーザはニュースキャスターのショットを含む領域を選択する。システムはその後、類似の領域を自動的に検出し、それらをグラフィカルに表示しかつ自動索引点として示し、それによりユーザは、例えば、介在箇所を見ることなく次の類似領域に直接跳ぶことが可能になる。これらの索引は、以後のユーザのために保存し注釈を付けることができる。類似性索引は対話的にかつ極めて迅速に作成できる。
【００８３】
図２７は、本発明に従って類似性探索を実行する方法におけるデータの流れを示している。ソースビデオ２７０１は、トレーニングセグメントが抽出されるビデオを表す。変換特徴２７０２は、図２において変換特徴２０８がビデオファイル２０１から抽出されたのと同様にして、ソースビデオ２７０１から抽出される。工程２７０３は、トレーニングフレームの収集のためのトレーニング領域のユーザ選択を示している。工程２７０４で、ガウス画像クラス統計モデルが、平均特徴ベクトルおよび対角共分散マトリックスを比較することによりトレーニングされる。ビデオ２７０５は、類似性の探索のためのターゲットとされたビデオを表す。同様に、変換特徴２７０６が抽出される。工程２７０７において尤度計算が、工程２７０４でトレーニングされた画像クラス統計モデルを用いて行われ、得られた確率が工程２７０８でフレームごとに出力される。
【００８４】
図２７は、システムが実際にどのように使用されるかのブロック図を示す。ユーザは最初に単数または複数のビデオセグメントを選択することによりクエリーを実行する。クエリーの簡約化された離散コサイン変換またはアダマール変換係数が、オンザフライでの計算またはデータベースにルックアップのどちらか一方によって得られる。クエリーのモデルはその後これらの係数を用いてトレーニングされる。単純な場合、単純ガウスモデルが使用される。データベース内のビデオの簡約化された離散コサイン変換またはアダマール変換係数はシステムに提示され、尤度計算が実行される。これは、一連の類似性スコアおよび、類似および非類似セグメントへのセグメント化を生じる。類似性スコアはその後ブラウザに表示され、ユーザが類似のビデオセグメントを調査できるようにする。
【００８５】
類似性計算のデータは、図２の説明において前述したものと同様にして離散コサイン変換またはアダマール変換のどちらか一方によって得られる。この表現は、類似画像のフレームが類似の特徴を有するので、類似性を測定するために適切である。
【００８６】
変換法にもとづく類似性測度は、従来のカラーヒストグラム方式よりも多くの用途に関してすぐれている。特に、変換係数は、形状についてほとんど変化がないヒストグラムと異なり、画像における主要な形状およびテクスチャを表現する。例えば、左上および右下に同一物体がある２つの画像は、ヒストグラムでの相違はごくわずかであるが、本発明による変換ドメインにおいては顕著に異なる。現在の類似性測度は輝度だけにもとづいているが、後述の通り、この技法を色を使用するように拡張することは容易なはずである。
【００８７】
この変換法により可能なセグメント化およびモデル化の種類が比較的粗いことを指摘することは重要である。例えば、ニュース放送においてニュースキャスターとロケーションのショットとを識別することは単純であるが、特定のニュースキャスターを識別するといった、より精緻な区別はさらに特殊化されたデータ簡約化またはドメイン特定モデルを必要とするであろう。しかし、これらの技法は、例えば、群衆または自然のシーンを排除しつつ計算上高価な顔面識別アルゴリズムにより、以後の分析のために適切なクローズアップシーンを選択するといった、より精巧な方法の重要なフロントエンドまたはプレクラシファイヤとして代替的に機能する。
【００８８】
図２８は、本発明に従ってビデオに対応する特徴ベクトルデータベースを計算する方法を示している。迅速な尤度計算および画像クラス統計モデルの迅速なトレーニングを助成するために、ビデオのフレームに対応する特徴ベクトルを予備計算し、それを特徴データベースに記憶することが望ましい。工程２８０１で、フレームが離散コサイン変換またはアダマール変換によって変換される。工程２８０２で、変換係数マトリックスから特徴ベクトルが抽出される。工程２８０３で、特徴ベクトルが特徴ベクトルデータベースに記憶される。検査２８０４では、さらにフレームがあれば、次のフレームが工程２８０１に渡され、それ以上フレームがなければ、方法は工程２８０５で終了する。
【００８９】
ビデオ領域間の類似性を評価するために、ビデオフレームの類似性が開示される。各フレームは、離散コサイン変換またはアダマール変換といった正規直交射影によって変換される。変換が、下位ブロックではなく画像全体について行われた場合、係数は画像を正確に表現する。変換されたデータはその後、上述のように切り捨て、主成分分析または線形識別解析などのいずれかの技法によって簡約化される。ここに提示した用途の場合、最大分散係数以外の全部を破棄することが良好に作用する。その簡約化表現は、高度にコンパクトであり、元のフレームの顕著な情報を保存している。これは、元の画像を復元することを意図する、データ圧縮とは異なることに留意されたい。元のデータは表示および使用に利用可能であると前提されているので、変換プロセスを逆にする必要はまったくない。従って、この変換法は、コンパクト性または画像忠実度よりも分析のために最適化されている。
【００９０】
結果として得られるのは、各フレームのコンパクトな特徴ベクトルまたは簡約化された係数（１０〜３０パラメータ）である。この表現は、類似のフレームは類似の変換係数を有するので、ビデオの類似性を数量化するために適切である。特定のショットと隣接するフレームといった類似画像の集合をモデル化するために、ガウスモデルが例題フレームでトレーニングされる。ガウスの平均は例題フレームの平均を捕捉し、共分散は動きまたは照明の相違による変動をモデル化する。単一混合ガウスは、例題データに関して１パスで極めて迅速に選択的に計算され、例題フレームのおおよその構成および可変性をモデル化する。
【００９１】
多くの用途にとって、完全なビデオフレームレートは必要なく、フレームは、毎秒数フレームだけを変換する必要があるような時間で間引かれる。こうした要因は、記憶コストが実際上無視でき、係数が計算されれば計算時間は極めて迅速であることを意味する。従って、リアルタイムアプリケーションに使用される戦略は、簡約化された係数を予備計算し、それらをビデオとともに記憶し、対話的かつ迅速な類似性測定を可能にすることである。ＭＰＥＧ−７といった将来のフォーマットはそうしたメタデータをビデオデータとともに含めることを可能にするが、現在好ましい実施の形態による用途では、係数は個別のファイルに記憶される。
【００９２】
図２９は、本発明に従って統計モデルを対話的にトレーニングする方法を示す。工程２９０１で、トレーニングフレームまたはトレーニングセグメントがユーザにより対話的に選択される。工程２９０２で、工程２９０１で選択されたトレーニングフレームまたはセグメントに対応する特徴ベクトルが、直接の計算または特徴ベクトルデータベースのルックアップのどちらか一方によって得られる。工程２９０３で、トレーニングフレームに対応する特徴ベクトルから平均特徴ベクトルおよび対角共分散マトリックスを計算することによって、画像クラス統計モデルが構築される。
【００９３】
変換ドメインの１つの利点は、フレームを表現する特徴ベクトルの大きさが極めて控え目である（ＰＣＡ特徴についてフレーム当たり１０程度）ということである。クエリービデオトレーニングセグメントは、平均ベクトルおよび共分散マトリックスによってパラメータ化された多次元ガウス分布によりモデル化される。実際、特徴間のゼロ相関が前提とされるように対角共分散マトリックスを仮定することは普通であり、各特徴はガウス分布を有する独立のランダム変数であると仮定される。対角共分散マトリックス（すなわち非対角線上の成分がゼロである）は、モデルが高次元で頑強性を持つ（ロバスト）であるように仮定されている。ガウスモデルを用いてクラスをモデル化するために、トレーニング画像の集合について平均および共分散が計算される。クエリートレーニングセグメントは、平均ベクトルおよび共分散マトリックスを計算するために使用される。類似性スコアは、ビデオの各フレームについて、クエリー画像クラス統計モデルからフレームの尤度を計算することによって計算される。代替的に、より精巧なモデルは、ガウス混合を使用し、期待値最大化アルゴリズムを利用して、複数のパラメータおよび混合重み、それにより、複数のガウスモデルの各々に関係する複数の平均、分散および重み係数を評価する。しかしこれは、反復を要する。そうしたわけで、オンザフライで迅速に計算される単一混合ガウスモデルが仮定されている。
【００９４】
フレームの係数に平均値を設定し、分散を定数等の値に設定することによって、またはいずれかのトレーニング集合から得られた分散を使用することによって、ガウスモデルを生成するために単一フレームクエリーが選択的に使用されることに留意されたい。他のフレームまたは静止画像はその後、類似性についてスコアが付けられる。定数の分散はユークリッド距離計量を生じ、トレーニング分散はマハロノビシュ（ｍａｈａｌｏｎｏｂｉｓ）距離を生じる。従って、類似の静止フレームまたは画像は、それらを距離測度によって順位づけることによって集合から検索される。本発明によるこのシステムの別の変種は、ただ１個の画像をクエリーとして使用する従来の画像検索システムではなく、画像の群またはクラスでクエリーモデルがトレーニングされた場合である。
【００９５】
一度計算されると、任意のビデオフレームの類似性は、モデルがフレームを生成する尤度によって決定される。類似フレームは高い尤度を生じる。この方式は、会議ビデオの大きな資料での話者およびスライドといった所定のビデオクラスについて約９０％の分類率をもたらしている。ガウスモデルは、動きまたは照明の相違による変動をモデル化しつつ、画像クラスの特徴的な構成および形状を捕捉することができる。特徴ベクトルが計算されると、多数の用途が使用可能である。最も単純なものの１つは直接的な距離測度である。類似フレームは類似の特徴ベクトルを生じるので、特徴ベクトル間の距離を測定することにより画像距離の指標が得られる。
【００９６】
図３０は、本発明に従ってブラウザ内にビデオフレームを呈示し、類似性測度を表示する方法を示す。工程３００１でフレームの特徴ベクトルが検索される。工程３００２で、画像クラス統計モデルによって生成される特徴ベクトルの確率が計算される。工程３００３で、その確率がスレッショルドより大きいか否かが判定される。スレッショルドはやはりユーザによって対話的に定義される。工程３００２で計算された尤度がスレッショルドより大きければ、工程３００４はそのフレームを類似として索引づける。尤度がスレッショルドより小さければ、そのフレームを工程３００５で非類似として索引づける。工程３００６で、類似または非類似の類似性属性はそのフレームについてブラウザにグラフィカルに表示される。
【００９７】
いずれかの特定のフレームまたはビデオセグメントとクエリーセグメントとの間の類似性が計算される。ガウスモデルの場合、所与のフレームの類似性は尤度であり、代替的に対数ドメインに存在する。ガウスモデルはまた、セグメント境界として機能する、また、所与のスレッショルドを類似性が超えた場合に、それらのフレームを見つけることによってビデオをセグメント化するためにも使用される。継続時間モデルが存在しない場合、最小セグメント長を要求するような臨時の規則がセグメント化を改善させることができる。
【００９８】
図３１は、本発明に従って、対話的に定義されたトレーニングビデオセグメント、そのトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換、およびトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。フレーム３１０１はユーザによって対話的に定義されたトレーニング画像を表す。フレーム３１０２は、フレーム３１０１に示すトレーニング画像から得られた平均特徴ベクトルの逆離散コサイン変換を表す。フレーム３１０３は、フレーム３１０１に示すトレーニング画像から得られた平均特徴ベクトルに対応する逆アダマール変換を表す。
【００９９】
ビデオ類似の領域を突き止める本発明に従った方法は既述の通りである。類似性測度を用いるビデオブラウザを提供する、直接的なアプリケーションを以下に述べる。図３２は、１つのブラウザのプロトタイプのユーザインタフェースを示す。左上に通常のビデオ再生ウィンドウおよびコントロールがある。右側中ほどには、下部の時間バーに表示させる類似性スコアを選択するメニューコントロールがある。類似性スコアは、ビデオスライダバーと時間同期的に表示される。暗色領域は類似性の高い区間であり、濃くなるほど類似である。図は、表示されたフレームにあるように、暗い背景を背に中央にいる話者の中間クローズショットの類似性を示している。類似ショットの位置および程度は時間ラインの黒色バーで直接明らかとなる。
【０１００】
右側中ほどのスレッショルドスライダは、類似性スコアから索引点をどのように導き出すかを制御する。索引点は、時間バーの暗色（類似）領域の上部領域のやや明るいバーとして示されている。（この場合、これは主にＢ／Ｗ再現のためであり、索引点は類似性がスレッショルドを超えた時点に決定される。）時間バーの下の「｜＜＜」および「＞＞｜」のラベルが付けられたボタンは、再生点を次の索引点または前の索引点に自動的に進める。大きな類似性変動（多数の索引点）の領域では、ユーザは、スレッショルドを大きくすることによって最も重要な指標を選択できる。類似性が少ない領域では、ユーザは、スレッショルドを引き下げても索引点を見つけることができるが、信頼性が下がる。
【０１０１】
図３２は、本発明による、トレーニングビデオセグメントを対話的に定義し類似性測度を表示するための時間バーおよびユーザスレッショルドマウス入力を受け取るためのスレッショルドスライダバーを備えるブラウザを示している。時間バー３２０１は、類似であるとみられるビデオのセグメントを縦の黒色バーとして示す。スレッショルドスライダバー３２０２は、類似性の検出に必要な確率スレッショルドを指定するためのユーザのマウス入力を受け取る。時間バー３２０１は、例えばトレーニングセグメント指定についてクリック・ドラッグ操作によってユーザトレーニングマウス入力を受け取るように動作可能である。
【０１０２】
図３３は、ビデオの領域内のフレームを表示するためのスクロール可能ウィンドウ３３０１をさらに追加した図３２のブラウザを示す。詳細には、メインブラウザウィンドウに表示され、時間バースライダ３３０３の位置によって指示されるフレーム３３０２およびその前後のフレームが、スクロール可能ウィンドウ３３０１に表示される。
【０１０３】
このウェブ（Ｗｅｂ）ベースのインタフェースは、極めて良好な概観を提供し、ビデオ全体の各種クラスをラベルづけるためのすぐれた選択となる一方で、ビデオ再生中の迅速な類似性探索のために特殊に仕上げられている。従って、水平スクロール可能ウィンドウ（図３３の下部参照）に周期的にサンプリングされた類似の静止画像を示す追加表示が、本発明に従って選択的に含まれる。再生中、ウィンドウは、再生ウィンドウと同期して留まるように自動的にスクロールする。時間的脈絡は、再生ウィンドウに示されたフレームに最も近い静止画像をスクロール可能ウィンドウの中央に置くことによって示される。ビデオが停止されると、静止画像は誘導案内用に使用される。関心のある領域にスクロールさせ、その静止画像上でダブルクリックすると、ビデオが対応する時間のビデオに位置づけられる。
【０１０４】
類似性探索の区間は静止画像上でマウスをドラッグすることによって選択される。選択された領域は、スクロール可能ウィンドウおよび時間バーの下部の両方に明緑色バーにより指示される。ビデオの小さな部分だけがスクロール可能ウィンドウの時間範囲内に表示されるので、示される選択領域はもっと大きなものである。図３３で、スクロール可能ウィンドウに表示された選択領域は、スライダの爪のすぐ下のごく小さな領域に対応する。さらに、あらゆる時間依存媒体の場合と同様、ビデオに伴う問題は、何が選択されたのかが再生してみなければ必ずしも明白にならないということである。
【０１０５】
類似性索引を作成するためには、最初に例題ビデオを選択しなければならない。１つのインタフェース方法は、ビデオの領域を選択するために図３２および図３３の時間バーで単純にクリック・ドラッグすることである。あらゆる時間依存媒体の場合と同様、ビデオに伴う問題は、何が選択されたのかが再生してみなければ必ずしも明白にならないということである。前述の類似性測度の場合、最良の結果は、ソースビデオが、例えば同一のショットに由来するといったように、合理的に類似である場合に得られる。クリック・ドラッグ選択は、テキストの場合には効果的であるが、時としてユーザがほとんど気づかずに不要なビデオが選択される結果をもたらす。また、非接触選択も代替的に有効である。
【０１０６】
図３４は、１個以上のトレーニングビデオセグメントの終点を対話的に選択し、周期的フレームの類似性測度を表示するためにビデオの周期的フレームを表示するウェブベースのインタフェースを示す。ビデオ全体は最初に、図３４に示されたように表示される周期的フレームに分割される。各周期的フレームは、ユーザがその周期的フレームを選択し、それをフレームセグメントに包含させるようにするチェックボックスを備える。隣接する周期的フレームがチェックされると、その２つのチェックされた周期的フレーム間の後続のビデオの全部の非表示フレームは、トレーニングセグメントの一部となる。例えば、周期的フレーム３４０１と周期的フレーム３４０２との間のビデオの全部のフレームはトレーニングセグメントに含まれる。ビデオの類似性探索が行われると、周期的フレームに対応する類似性情報は、周期的フレームの周囲の矩形ボックスの陰影として選択的に表示される。
【０１０７】
図３４は、選択された領域の視覚化と同時に非接触選択のサポートを可能にするビデオ領域選択用のウェブベースのアプリケーションを示している。このアプリケーションでは、ビデオは、通常の区間で切り取られた一連のキーフレームとして表される。図３４は、選択された領域の視覚化と同時に非接触選択のサポートを可能にするビデオ領域選択用のウェブベースのアプリケーションを示している。このアプリケーションでは、ビデオは、通常の区間として切り取られた一連のキーフレームとして表され、それらのビデオにおける時間（秒単位）とともに示される。ビデオ録画プレゼンテーションの場合には５秒間隔が適切であるが、他の用途ではそれより速いかまたは遅いレートも選択的に好適である。ユーザは、各フレームの下のチェックボックスをクリックすることによって複数のキーフレームを選択する。隣接して選択されたキーフレーム間のビデオの全フレームについてモデルがトレーニングされる。このインタフェースは、終点を精確に位置決め可能とし、選択されたビデオ内容を明示的に表示するという理由で、クリック・ドラッグよりもある点ですぐれている。また図３４は、非接触選択が複数の区間を次々と選択することにより可能であることも示している。このインタフェースは、簡潔な表示により、ユーザが一目で関心のある領域を見つけられるようにする。通常サイズのウェブブラウザでは、１０分のビデオに対応する１２０個の画像がウィンドウに示され、残りのビデオもスクロールによって容易にアクセス可能である。インタフェースは、様々なクラスの画像への様々なラベルの割り当てもサポートする。以前に割り当てられたラベルは表示ではカラーコード化される。選択されたビデオの類似性は、ほぼ即時的に計算され、図３２および図３３のブラウザに表示されるか、または、スレッショルドで切られ、図３４のように各フレームの周囲に異なる色でウェブインタフェースに表示される。
【０１０８】
図３５は、本発明に従って離散コサイン変換およびアダマール変換係数によって計算されたビデオの類似性マトリックスを示す。距離計量の利用を示すために、全部のフレーム間の類似性を計算し、結果のマトリックスを画像として表示することにより、ビデオの自己類似性を視覚化することができる。図３５は、スタッフ会議のビデオの距離マトリックスを示す。位置（ｉ，ｊ）の各画素は、類似フレームであればあるほど色濃くなるように、フレームｉとフレームｊとの間の距離に比例して着色されている。各軸の単位は秒単位での時間であり、各点は、最高分散を有する１００個の離散コサイン変換およびアダマール変換係数間のユークリッド距離に比例して着色されている。アダマール変換ドメインに関して従来しばしばなされた批判は、知覚的相違と良好に相関しないということである。アダマール変換は一般にクラスタ化およびモデル化について同様に良好に作用するが、距離がアダマール変換および離散コサイン変換の両方の表現に関して極めて類似であることを指摘しておくことは興味深い。ｉ＝ｊにおける黒色直交線は、フレームがそれら自身と同一であることを指示する。いくつかの特徴が目につき、後続部分と類似でないビデオの始まりの導入期間が存在し、それは約５００秒続くことが容易にわかる。
【０１０９】
右下隅の４個の濃色の正方形は、スライドプレゼンテーションの２つのロングショットに由来する。個々のスライドの変化はその中に見ることができるが、それらは聴衆または話者のカットよりも小さい大きさののものである。これらのスライドは、約５５０秒に開始する別のスライドプレゼンテーションとも極めて類似であり、同じく自己類似である聴衆のショットとインターカットし、「チェッカーボード」パターンを生じる。またスライドは、１６００秒および１９００秒のコンピュータデスクトップのショットともある程度類似であり、それらの領域を濃色に見せているが、他のスライド領域ほど濃くはない。これらのマトリックスは全体的に直観的ではなく、いずれかの特定の時間に得られる「スライス」は、ビデオの残部に対するその時間におけるそのフレームの類似性を示している。図３２および図３３の時間バーとして提示されると、これは、単一のフレームが類似のビデオ領域を見つけるためにどのように使用されるかを示すが、ガウスモデルは、分散をモデル化できるためによりロバストである傾向がある。
【０１１０】
本発明はまた、カラー情報にもとづき１個以上の付加的なシグネーチャを計算することによって、カラー検索を行うための改良を含む。これは、特徴ベクトルによって表現される現行の輝度（Ｙ）シグネーチャに付加するために画像の色成分（ＹＵＶ色空間におけるＵＶ成分）に関する付加的な特徴シグネーチャを計算することによって実現される。色成分は少ない空間解像度を要するので、それらは少ないシグネーチャで表現される。本質的に、フレームの色成分の変換からの変換係数位置が選択され、特徴ベクトルに追加され、それにより、特徴ベクトルは同一カラーフレームから得られた輝度フレームおよび色フレームの両方の変換からの係数を含む。
【０１１１】
別の代替法によれば、ＹＵＢまたはＲＧＢの各カラー成分は個別の画像フレームとして扱われる。従って、各フレームに対して３つの変換が適用され、シグネーチャ（特徴ベクトル）は各個別画像について計算されて比較される。これは、類似性計量における全カラーによる重みづけを可能にする。カラー情報の包含のための本発明に従ったさらに別の代替法は、この検索技法と別の、例えばカラーヒストグラムにもとづく技法との組合せである。初期の類似性工程において、画像は輝度特徴ベクトルによって類似性がわかる。その画像を領域に分解し、各領域についてカラーヒストグラムを計算することによって、画像における空間情報の一部が保存される。最終類似性工程では、初期類似性工程から得られた最上位画像が、カラーヒストグラム類似性評価法または他の類似性評価法によって類似性について再度スコアが付けられる。
【０１１２】
カラーは、多くの種類のビデオ画像にとって、例えばコンピュータプレゼンテーションがスライドの背景色だけで識別できる場合が多いスタッフ会議のビデオにおいて、有効な糸口である。また、動きまたは時間シーケンスのモデル化も多くの用途で極めて有用であり、より強力な統計モデルがそれを可能にする。
【０１１３】
ガウスモデルは多くの用途にとって有効であるが、区間内の全部の変化が平均化されるという短所を有する。時間的シーケンスまたは継続時間を捕捉することが重要である場合、隠れマルコフモデルが代替的に使用される。隠れマルコフモデルの出力分布は、まさしく前述の通り、特徴ベクトル上の単数または複数のガウスモデルとしてモデル化される。隠れマルコフモデルの利点は、各状態が暗示的または明示的な継続時間モデルを有することである。これは、（過度に長いまたは短い）ありそうにもない継続時間のショットにペナルティーを科す因子を尤度計算に加える。これは、継続時間モデルが同一状態と最も隣接するフレームを拘束し、従って擬似的なショット境界を低減するので、単純な最大尤度フレーム分類よりも有効である。
【０１１４】
隠れマルコフモデルでの公式化は、複数の状態および（音声認識における言語モデルに類似の）遷移グラフを用いてビデオの傾向またはシーケンスを捕捉するために選択的に強力に拡張される。従って、隠れマルコフモデルは、例えば、ニュース放送の開始を特徴づける放送局のロゴからニュースキャスターのショットへの遷移をモデル化するために選択的に使用される。隠れマルコフモデルに内在するシーケンス拘束のために、これは、放送の終了時に多く生じるニュースキャスターのショットから放送局のロゴへの遷移には一致しないが、単純ガウスモデルは両者の場合について高いスコアを生じる。
【０１１５】
また、元の特徴ベクトルのフレーム間差異として計算される差分表現も有用である。パーセヴァルの関係によって、各ベクトルのノルムは、画素の差のノルムに（ほぼ）比例する。従って、カットまたはカメラの移動によって生じた大きなフレーム間差異は、差分ベクトルのノルムを計算することによって容易に検出される。あるいはまた、それらは、動きを捕捉する追加の特徴を形成するために元の特徴ベクトルと連結される。
【０１１６】
本発明に従った類似性探索の方法は、類似のビデオ領域を見つける迅速かつ強力な手段を記述する。ユーザが例題ビデオを用いてクエリーを指定できるようにすることは、テキストベースまたはスケッチベースのインタフェースを凌ぐ進歩である。この技法は、大きなビデオコレクションに、さらにカラーまたは時間的類似性の測度に容易に拡張される。
【０１１７】
週毎のスタッフ会議が、複数のビデオカメラおよびマイクロフォンが装備された会議室で開かれることもある。会議は、経営陣およびスタッフによる全体発表に始まり、その後個々の職員によるプレゼンテーションに進む。プレゼンテーションは通常１人によって行われ、オーバヘッドプロジェクタまたはコンピュータによるスライドといったグラフィックスを含み、一般に会議では１つ以上のプレゼンテーションが行われる。カメラ担当者は、部屋のカメラを切換え、ビデオ録画のショットを提示する。ビデオはＭＰＥＧ符号化され、社内イントラネットによってスタッフに利用可能となる。
【０１１８】
図３６は、本発明に従ったオーディオ・ビジュアル記録物をセグメント化する方法に対応するデータの流れを示す。ソースビデオ３６０１は工程３６０２でスライド領域を見つけるために分析される。ソースビデオ３６０１のオーディオチャネルは、スライド区間に対応するソースビデオ３６０１の領域について工程３６０３で抽出される。工程３６０３で抽出されたオーディオ区間は、話者ごとに工程３６０４でクラスタ化される。すなわち、オーディオ区間は、相互に比較照合され、それらのソースに従って分類される。得られたオーディオ区間のクラスタは、各々が単一話者に由来するものとみなされる。同一話者クラスタのオーディオ区間は工程３６０５で併合される。工程３６０６で、ソース特定話者モデルが各併合オーディオ区間についてトレーニングされる。工程３６０７で、ソースビデオ３６０１のオーディオチャネルは、話者認識によって話者ごとにセグメント化される。オーディオチャネルによるセグメント化の結果は、以後のブラウジングおよびソース特定検索操作のためにソースビデオ３６０１およびソースオーディオ３６０８において索引づけられる。
【０１１９】
図３７は、２人の話者による２つのプレゼンテーションを有する記録された会議のスライドであるオーディオ・ビジュアル記録物のフレームの確率の対数を示す。話者Ａのプレゼンテーションの範囲を示すラベル３７０１は、ビデオを見ている人間のユーザにより得られた話者Ａのプレゼンテーションの実際に観測された継続時間である。同様に、話者Ｂの指標３７０２は話者Ｂのプレゼンテーションの全範囲を示す。
【０１２０】
各フレームのコンパクトな特徴ベクトル（簡約化された係数）が上述の通り計算される。対角共分散ガウスモデルは、いくつかの無関係な会議ビデオからのスライド画像でトレーニングされている。このモデルは、各ビデオフレームに関する尤度を生成するために使用され、それはそのフレームがスライドであるという対数尤度を測定する。１個の標準偏差をスレッショルドとした場合、そのビデオにおいてスライドが表示された時点の確実な評価値を生じる。下記の表３に示すように、スライドは９４％の確度でプレゼンテーションと関係づけられた。２０秒以上の長さのスライド区間がシステムの候補スピーチ区間として使用される。図３７は、スタッフ会議のスライドの対数尤度のプロットを示している。２０秒以上の長さの上記のスレッショルド（点線）である判定基準を満たす４個の区間が存在し、それらは１、２、３および４のラベルが付けられている。この特定の会議において、それぞれＡおよびＢのラベルが付けられた２人の話者により行われた２つのプレゼンテーションが存在した。各プレゼンテーションの範囲は図３７の上部に示されており、それはセグメント化実験に関する実地検証情報として機能する。話者Ｂのプレゼンテーションは、スライドが表示された期間の２倍以上続けられたことに留意されたい。
【０１２１】
【表３】

【０１２２】
図３８は、図３６に示した工程３６０４および３６０５に示したような本発明に従ったオーディオ区間に適用されるクラスタ化方法におけるデータの流れを示す。オーディオ区間３８０１〜３８０４は、図３６に示したソースオーディオ３６０８から抽出された、図３７で１、２、３および４のラベルが付けられた４個のオーディオ区間を表している。オーディオ区間３８０１〜３８０４はオーディオベクトル３８０５〜３８０８にパラメータ化される。クラスタ化法３８０９がオーディオベクトル３８０５〜３８０８に適用され、相互に小さいユークリッド距離を有するオーディオベクトルに集塊させる。クラスタ化法３８０９の結果は、それぞれ話者ＡおよびＢに対応するオーディオ区間３８１０およびオーディオ区間３８１１と併合される。
【０１２３】
ある話者の口から数センチメートル以上離れたファーフィールドマイクロフォンによって話者識別を行うことは特に困難である。記録された会議でのオーディオは演壇マイクロフォンまたは他のクローズトーキングマイクロフォンではなく複数の天井マイクロフォンから得られるので、話者識別は特に困難になる。実際にあらゆる話者識別技法は、特定の話者を特徴づけるためにメル周波数ケプストラル係数（ｍｅｌ−ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ）といった何らかの種類のオーディオスペクトル測度を使用する。あらゆる現実的環境におけるファーフィールドマイクロフォンは、直接的に、また、壁、床、机といった環境配置によって反射された音声を拾ってしまう。こうしたマルチパス反射は、音声の周波数スペクトルを著しく変更するくし形フィルタ効果をもたらす。この問題は、（遠隔会議システムにおいて普通に行われているように）複数のマイクロフォンからの信号を混合することによってさらに悪化する。部屋の共鳴による付加的な効果も各マイクロフォンの周波数応答に影響する。共鳴およびくし形フィルタ効果はともに、室内の話者の位置により著しくかつ予測不可能に変化する。これは、トレーニングスピーチのサンプルを使用して話者モデルをトレーニングする現在の話者識別法を、ファーフィールドマイクロフォン環境にとって特に不適にさせる。音響環境によるスペクトル変化はしばしば、話者間のスペクトル差異とほとんど同じ程度の大きさである。
【０１２４】
予測できない室内音響によるトレーニングデータと試験データとの間の不可避的な不一致を回避するために、本システムは本質的に、単一話者によって発せられたと思えるセグメントを抽出することによって試験データからトレーニングデータを取得する。現在の実施の形態において、これは、単一話者のスピーチがスライドといったプレゼンテーション視覚物の表示と相関していると仮定することによって行われる。（仮定されたスタッフ会議の領域分野では、この仮定は、完全にではないが通常は、所与のスライド区間において質問、笑声または他の感嘆が頻繁に存在するので、正確である。）
【０１２５】
単純な顔面またはニュースキャスター検出といった他のビデオ分析は同様に使用される。本発明に従った代替法として、顔面認識は、ビデオ区間を特定の話者と関係づけるために使用されるオーディオクラスタ化を強化または代替できる。
【０１２６】
次の工程は、何人の話者がスライドプレゼンテーションを行ったかを判定するために候補区間をクラスタ化することである。これは、任意の数のクラスタ化技法のいずれかによって行えるが、現在の実施の形態の場合、オーディオ類似性の極めて単純な測度が使用される。各オーディオ区間はメル周波数ケプストラル係数にパラメータ化され、各区間の係数の平均が比較照合される。ユークリッド距離測度および、最大距離の１／２をスレッショルドとする集塊クラスタ化法によって、各話者候補に関する個別のクラスタが得られる。クラスタ化スレッショルドは、いずれかの既存のクラスタに十分に類似でない区間を排除する。例えば、あるスライドに関するクエリーがなされる場合、得られる区間はほとんど、多数の異なる話者からのスピーチを含む。より精緻な距離およびクラスタ化法、例えば、ノンパラメトリック類似性測度、尤度比距離および／または可変スレッショルドクラスタ化といった方法が選択的に使用される。隣接セグメントのクラスタ化を助成するために距離測度にバイアスをかけるといった付加的な拘束または、話者の数に関する事前の知識を使用することにより、選択的にクラスタ化を改善させることもできる。前述の通り、自動顔面認識は音響クラスタ化を代替的に強化または代替できる。
【０１２７】
図３９は、本発明に従った一連の話者単位より構成される話者遷移モデルを示す。フィラーモデル３９０１、３９０３および３９０３は、例えばビデオの非単一話者セグメントでトレーニングされるオーディオモデルを表す。話者モデル３９０４は、図３８に示した併合オーディオ区間３８１０でトレーニングされる話者モデルを表す。話者モデル３９０５は、図３８に示した併合オーディオ区間３８１１でトレーニングされるモデルを表す。話者単位３８０６および３９０７は、セグメント化における話者シーケンスの知識によってソースオーディオ３６０８をセグメント化するために図３６に示す工程３６０７で使用される隠れマルコフモデルを形成するために連結される。
【０１２８】
クラスタ化の結果から、プレゼンテーションを行う話者の数および彼らが話す順番が決定される。これは隠れマルコフモデルを用いてビデオをセグメント化できるようにする。さらに、クラスタ化されたオーディオセグメントは各話者モデルをトレーニングするために使用される。クラスタ化の結果から、ビデオの時間範囲をモデル化するために隠れマルコフモデルが自動的に構築される。図３９はモデルの構造を示している。「フィラー」モデルは、発表者の話以外とみなされるオーディオを表す。この実施の形態では、フィラーモデルは、ソースビデオの最初の２分間からのオーディオと同様、他の会議ビデオからセグメント化された沈黙、笑声、称賛および聴衆の雑音でトレーニングされ、それはプレゼンテーションの話者による話を含まないとみなされる。フィラーモデルは、多重事例化されているが、好ましくは各事例で同一である。話者特定モデルはプレゼンテーションの話者からの話を表す。各話者特定モデルは、それに関係する結合されたスライド区間のクラスタからのオーディオでトレーニングされる。話者モデルおよび選択的なフィラーモデルを連結することにより「話者単位」が得られる。それらは、話者ごとに１個ずつ連結され、最終モデルを生じる。これにより正しい話者シーケンスが得られる。セグメント化は、完全モデルによりソースオーディオの最大尤度アライメントを見つけるためにバイタービアルゴリズムによって実行される。これは、スライドが表示される区間と実質的には異なる可能性があるので、各発表者の話の範囲を決定可能にする。特に、話者が話している間に話者のショット、聴衆のショットおよびプレゼンテーションスライドの間で交替が起こることはビデオにとって普通である。この実施の形態では、フィラーモデルおよび話者モデルともに単一の状態を有しており、単一混合の全共分散ガウス出力分布を有する。モデルが単一状態および単一混合を有するので、それらは１パスで迅速にトレーニングされる。複数状態または複数混合モデルは、より高価なトレーニングによって性能を改善できよう。自己遷移はいかなるペナルティーも伴わずに可能であり、明示的な時間継続をいっさい持たないエルゴード的モデルを生じる。これにより、モデルは、いかなる確率ペナルティーも伴わずに所与の時間長を表現することができる。
【０１２９】
図４０は、本発明によるオーディオ・ビジュアル記録物をセグメント化する方法のセグメント化の結果を例示している。このように、話者Ａの指標４００１は、話者Ａのプレゼンテーションの実際の継続時間４００３にほぼ重なり合っている話者Ａのセグメント化を表す。話者Ｂのセグメント化指標４００２は、セグメント化が実際の話者Ｂの継続時間４００４にほぼ重なり合う結果となったことを表す。このようにして、話者Ａの指標４００１および話者Ｂの指標４００２は、本発明によるセグメント化によって作成される索引より導出される。
【０１３０】
図４０は、会議のソースビデオに関する自動セグメント化の結果を示す。不利な音響環境（利得制御を伴う６個のファーフィールドマイクロフォン）にもかかわらず、２人の話者は識別され、彼らのプレゼンテーションの範囲は、数十秒以内まで合理的に良好にセグメント化された。これはビデオのセグメント化およびブラウズにとって明らかに妥当である。最大の不一致は話者Ａのプレゼンテーションの終わりにあり、それは事実上話者Ｂのプレゼンテーションの開始まで続くようにセグメント化された。これはたぶん、２人の話者が、映写装置の詳細を話し合っていたのでその区間に話をしていたためであろう。
【０１３１】
単一の会議を選択するために使用される同じ技法は、同じ話者の組を含む複数の会議に対しても選択的に適用される。個々の会議からのプレゼンテーションは会議の資料について選択的にクラスタ化される。これは発表者の目録を作成可能にする。それが潜在的に異なる音響環境（部屋の位置）における同一話者の話の十分な実例を含んでいれば、より強固な、位置に依存しない話者モデルが選択的にトレーニングされる。さらに、会議進行表において話者が識別されていれば、話者モデルは以後の識別および検索のために氏名と関係づけられる。
【０１３２】
スライドプレゼンテーションを含む６本のビデオ録画された会議が試験資料として使用された。オーディオフィラーモデルおよびスライド画像のトレーニングデータは別の組のビデオから得た。６本のビデオの合計長さは２８０分２１秒であり、約４５分の平均長であった。各ビデオは１〜５本のプレゼンテーションを含み、合計１６本であったが、３本のプレゼンテーションはビデオおよびスライドを含んでおり、ほとんどが聴衆の質問または注釈を有していた。プレゼンテーションは一般にスライド区間の継続時間より長いので、スライドの存在はプレゼンテーションの良好な指標であり、スライドだけからプレゼンテーションを見つけることはプレゼンテーションの７５％を見逃す結果となった。表３の第２行は、話者のセグメント化がこれをどれほど改善させるかを示す。プレゼンテーションの約５％だけがプレゼンテーション以外のものであると誤って識別された。
【０１３３】
１６本のプレゼンテーションにもとづき、（ビデオおよび変則的なオーディオによる付加的な終点とともに）合計３２個の検出すべき終点が存在した。実際の話者の話の開始または終了の１５秒以内に生じていれば、終点は正確であるとみなした。表４は終点の位置の確度を示す。クラスタ化以前に、５７のスライド区間による１１４個の終点が存在した。検出すべき３２個の関連する終点の実地検証情報が与えられ、２６個の終点が正確に突き止められて、これは０．２３の精度による０．８１のリコールをもたらし、ほとんどの終点は見つかったが、それが正しい終点である可能性が１／４未満であることを意味する。５７個のアライメントされたセグメントをクラスタ化することにより２３個のクラスタを得たが、これは不正確な終点の数を減らすことにより精度を劇的に改善させた。検出された終点のうち少なくとも２個はプレゼンテーションに対するビデオ区間によっており、精度は不当に悲観的であることに留意されたい。非理想的オーディオ環境もクラスタ化問題を生じた。マイクロフォンはＨＶＡＣベント付近の音響天井タイルに設置されている。いくつかのプレゼンテーションは換気雑音の有無により誤ってクラスタ化された。これは音響信号に大きな影響を与え、同じ話者も換気システムの状態によって別様にクラスタ化され、一部のクラスタ境界はまさに換気スイッチのオンオフにより生じている。
【０１３４】
【表４】

【０１３５】
本発明によるこれらの方法は、会議ビデオの他に、個々の話者が識別可能なビデオ特徴に関係づけられるあらゆる分野に適用可能である。一例は、ニュースキャスターのショットが画像構成および背景により識別できる場合が多い、ニュース放送である。話者識別の使用により、ロケーションまたは他の介在ビデオが存在する場合でも、ニュースキャスターによるニュース記事のセグメント化が可能である。
【０１３６】
図４１は、本発明に従ったセグメント間音響距離マトリックスを示す。対角線上成分４１０１〜４１０５は、各セグメントがそれ自体に類似であることを示す黒色である。灰色領域４１０６および４１０７は、ソースオーディオの始まりおよび終わりにおけるオーディオ区間の部分的類似性を表す。白色領域はオーディオセグメントの非類似を表す。
【０１３７】
多くの場合、例えば図４０でラベル２、３および４が付けられたような、同一話者に対応する複数の隣接区間が存在する。クラスタ化は、尤度比距離などの多くの技法によって代替的に実行される。ここで使用するクラスタ化法は、ノンパラメトリック距離測度にもとづく。オーディオセグメントにパラメータ化されたメル周波数ケプストラル成分は、クラス境界を見つけるために最大相互情報量評価基準を用いて監視ベクトル量子化数をトレーニングするために使用される。トレーニングされると、セグメントはベクトル量子化され、二項分布のヒストグラムが作成される。このヒストグラムは、オーディオファイルのシグネーチャとして機能し、ベクトルとして処理される場合には２つのヒストグラム間のコサインはオーディオ類似性の良好な測度として機能する。図４１はこの測度を用いて計算された距離マトリックスを示す。これは、単一の会議ビデオからの１２個のスライド領域の間のオーディオ類似性を示している。各成分ｉ，ｊは、より近い距離、すなわちより類似性であるものが濃色になるように、セグメントｉおよびｊの間の距離を図示するように着色されている。図４１から、各々が特定の話者による話に対応する、いくつかの音響的に類似の群が存在することは明白である。例外は、中央の話者のプレゼンテーションにおいて示されたビデオからのタイトルに対応する、セグメント７によるものである。このような距離マトリックスは、単一話者に対応する類似区間を見つけるためにクラスタ化される。いずれかの種類の階層的クラスタ化が選択的に使用されるが、ここで採った単純な方式は、各自の距離のいずれもスレッショルドを超えない限り、全部の隣接セグメントを同一クラスタの一部であるとみなすことによって、クラスタメンバーの時間隣接性を強制することであった。図４１のセグメントの場合、これは以下のように５個のクラスタとなった。
（１，２，３，４，５）−−−（６）−−−（７）−−−（８）−−−（９，１０，１１，１２）
【０１３８】
実地検証情報は３つのプレゼンテーションが存在するということであったので、このクラスタ化法は、第２のプレゼンテーションを、オーディオ距離にもとづき３個に誤ってセグメント化した。重要な目的はビデオブラウジングのための索引を見つけることなので、それは絶望的な誤りではない。プレゼンテーションが開始した時点と同様、ビデオが表示された時点を見つけることも望ましい。より精緻なクラスタ化方法は、図４１のセグメント７といったオーディオアウトライアーまたは、質問や称賛といった他の変則的オーディオを無視するために使用される。
【０１３９】
セグメント化プロセスにおける第１工程は、ビデオにおけるスライドを突き止めることである。これは、プレゼンテーショングラフィックスがそのビデオにおいて表示される時点の正確な推定値をもたらす、上述の本発明による技法によって行われる。元のＭＰＥＧ−１ビデオは、時間に関して２フレーム／秒に、空間に関して６４×６４画素表現の下位画像に間引かれる。各簡約化されたフレームはその後、離散コサイン変換またはアダマール変換によって変換される。変換は、画像圧縮の場合に普通である小さな下位ブロックに対してではなく、フレーム画像全体に適用される。変換されたデータはその後、その１００個の主成分に射影により簡約化される。
【０１４０】
図４２は、本発明に従って、スライドビデオ画像と類似である所定の時間間隔よりも長い１個以上のビデオフレーム区間を識別する方法を示している。工程４２０１で、ビデオは時間および空間に関して間引かれる。工程４２０２で、フレームは離散コサイン変換またはアダマール変換によって変換される。工程４２０３では、工程４２０２で計算された変換マトリックスから特徴ベクトルが抽出される。工程４２０４で、スライドの確率がスライド画像クラスのガウスモデルを用いて計算される。工程４２０５では、工程４２０４において計算された尤度が、そのフレームがスライド画像クラスと類似であるか否かを判定するためにスレッショルドと比較される。それがスライドであると判定されると、工程４２０６は、以前のＮフレームもスライドであったかどうかを検査する。Ｎは、工程４２０７でスライド区間が見つかる前に、検出されるスライドの所定の時間間隔が超えられなければならないように選択される。例えば、２０秒のスライドスレッショルドで、２フレーム／秒に間引く場合、Ｎは４０であるように選択される。従って、単一フレームがスライドであると判定されたが、そのスライドフレーム以前のフレームおよびスライドフレーム以降のフレームがスライドでなければ、スライド区間はラベルづけされない。工程４２０５がそのフレームは非スライドであると判定した場合または現在のフレームはスライドであるが以前のＮフレームはスライドではないと判定した場合、工程４２０８は、ビデオの終わりに到達したかどうかを検査する。さらにフレームがある場合、方法は再び工程４２０２からその次のフレームに対して開始する。ビデオの終わりに到達していれば、方法は図４３に進む。
【０１４１】
図４３は、本発明に従ったスライド区間から抽出されたオーディオ区間によるソース特定話者モデルをトレーニングする方法を示している。工程４３０１で、スライド区間に対応するオーディオ区間が抽出される。この抽出は、そのスライド区間が抽出されたソースビデオ３６０１に対応する図３６に示したソースオーディオ３６０８により行われる。工程４３０２で、最初のオーディオ区間がメル周波数ケプストラル係数にパラメータ化される。オーディオ区間に対応する多様なメル周波数ケプストラル係数ベクトルは、そのオーディオ区間に対応するオーディオ係数平均ベクトルを生成するために工程４３０３で平均化される。さらにオーディオ区間があれば、工程４３０４は、次のオーディオ区間の処理のために方法を工程４３０２に戻す。全部のオーディオ区間がパラメータ化され、オーディオ係数平均ベクトルが各オーディオ区間について計算されると、オーディオ区間は工程４３０５でクラスタ化される。工程４３０５は同一話者判定基準によってオーディオ区間をクラスタ化する。すなわち、ユークリッド距離に関して相互に十分に近いオーディオ係数平均ベクトルを有するオーディオ区間は、同一話者によるものであると判断される。工程４３０６で、同一クラスタのオーディオ区間が併合される。工程４３０７で、第１の話者モデルが第１の併合オーディオ区間でトレーニングされる。検査４３０８は、併合オーディオ区間のクラスタがさらに存在するかどうかが判断される。肯定であれば、工程４３０７は、一意的に決まる話者モデルをトレーニングするために全部の併合オーディオ区間が使用されるまで次々に処理する。
【０１４２】
図４４は、本発明に従った話者遷移モデルを用いてオーディオ・ビジュアル記録物をセグメント化する方法を示す。工程４４０１で、オーディオの隠れマルコフモデルが構築される。図３９は、工程４４０１によって構築されるようなオーディオ隠れマルコフモデルを示している。ビデオおよびオーディオは、工程４４０２でそのオーディオ隠れマルコフモデルによってセグメント化される。工程４４０３で、ビデオおよびオーディオは、工程４４０２で決定されたセグメント化情報により索引づけられる。このように、図４４に示す方法は、図３６に示した工程３６０７を実施するために適する。
【０１４３】
会議の進行表が得られる場合、プレゼンテーションは、進行表からの情報を用いて選択的に自動的にラベルづけまたは索引づけされる。これにより、プレゼンテーションは発表者および演題によって容易に見つけることができる。このようにして、会議ビデオは、内容によって自動的に索引づけ、ブラウジングおよび検索される。
【０１４４】
本発明をいくつかの態様および実施の形態に関して説明したが、これらの態様および実施の形態は、限定としてではなく、例示として提起されている。本発明の精神および範囲を逸脱することなく各種の追加および変更が行い得ることを理解しなければならない。例えば、数倍の改善といった精緻な音響モデルは、継続時間モデルを各話者に対して強制することによって代替的に得られる。別の例として、オーディオ特徴と同様にビデオ特徴にもとづくセグメントのクラスタ化は、発表者のスライドが、発表者自身の画像だけでなく、類似性の構成およびカラー図式を有するはずであるという仮定にもとづき、本発明に包含される。それにより、オーディオおよびビデオの両方の変則的領域の識別をプレゼンテーション中に表示されるビデオによって可能にする。また別の例として、対話的に定義された探索セグメントを指定するユーザ入力を受け取るための他のウェブベースのインタフェースが使用できる。さらに別の例として、ガウス分布以外の確率分布を用いた分類が適切な状況において使用することができる。従って、こうした追加および変更はすべて、特許請求の範囲に記載された本発明の精神および範囲に通じるものであると見なされるべきである。
【図面の簡単な説明】
【図１】本発明の方法を実行するために適した汎用コンピュータアーキテクチャを示す。
【図２】本発明によるビデオの分類を実行する方法におけるデータの流れを示す。
【図３】本発明による、トレーニングフレーム、トレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換およびトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。
【図４】異なる平均および分散を有する一次元ガウス分布を示すグラフである。
【図５】本発明によるビデオ分類のための特徴集合を選択する方法を示すフローチャートである。
【図６】ビデオフレームの離散コサイン変換により得られる変換マトリックスを示す。
【図７】本発明に従って２個以上の変換マトリックスから計算された分散マトリックスを示す。
【図８】本発明に従って切り捨てによって決定された特徴集合を示す。
【図９】本発明による図８に示した特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された平均特徴ベクトルを示す。
【図１０】本発明による図８に示した特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。
【図１１】本発明の方法に従って分類のために図８に示した特徴集合を有するフレームについて検索された特徴ベクトルを示す。
【図１２】本発明に従って２個以上のビデオ画像クラスのいずれかにビデオのフレームを分類する方法を示すフローチャートである。
【図１３】本発明に従って、主成分分析、最大分散を有する係数の選択または最大平均を有する係数の選択により決定された特徴集合を示す。
【図１４】本発明による図１３に示した特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された平均特徴ベクトルを示す。
【図１５】本発明による図１３に示した特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。
【図１６】本発明の方法に従って分類のために図１３に示した特徴集合を有するフレームについて検索された特徴ベクトルを示す。
【図１７】本発明による類似性を決定する方法において、類似性を決定するためのスレッショルドとして使用されるスライド画像クラス統計モデルの標準偏差の倍数の関数として、スライドとして正確に識別されたスライドフレームの割合およびスライドとして誤って識別された非スライドフレームの割合を示すグラフである。
【図１８】本発明に従って画像クラス統計モデルを用いてビデオフレームの類似性を決定する方法を示すフローチャートである。
【図１９】本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数の表示を示すグラフである。
【図２０】本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数を表示する方法を示すフローチャートである。
【図２１】特徴集合の成分の数ｄの関数として正確に分類されたフレームの割合、それらのフレームに適用された変換のタイプおよびｄ成分特徴集合の選択方法を示すグラフである。
【図２２】本発明の方法に従ってスライドと類似と見られるビデオの領域を表示するブラウザを示す。
【図２３】本発明によるビデオを分類する方法において使用される隠れマルコフモデルに対応するクラス遷移図を示す。
【図２４】図２３に示すクラス遷移図に対応する本発明に従ったクラス遷移確率マトリックスを示す。
【図２５】図２３に示すクラス遷移図に従った５連続初期ビデオフレームに対応する全部の可能なクラスシーケンスを示す。
【図２６】本発明に従ってクラス遷移確率マトリックスおよび画像クラス統計モデルを用いたビデオをセグメント化する方法を示すフローチャートである。
【図２７】本発明による類似性探索を実行する方法におけるデータの流れを示す。
【図２８】本発明によるビデオに対応する特徴ベクトルデータベースを計算する方法を示すフローチャートである。
【図２９】本発明による統計モデルを対話的にトレーニングする方法を示すフローチャートである。
【図３０】本発明によるブラウザ内でビデオフレームを提示し類似性測度を表示する方法を示すフローチャートである。
【図３１】本発明に従って、対話的に定義されたトレーニングビデオセグメント、そのトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換および、トレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。
【図３２】本発明による、トレーニングビデオセグメントを対話的に定義し類似性測度を表示する時間バーおよび、ユーザスレッショルドマウス入力を受け取るスレッショルドスライダバーを備えるブラウザを示す。
【図３３】ビデオの領域内にフレームを表示するためのスクロール可能ウィンドウが追加された図３２のブラウザを示す。
【図３４】１個以上のトレーニングビデオセグメントの終点を対話的に選択し、周期的フレームの類似性測度を表示する、ビデオの周期的フレームを表示するウェブベースのインタフェースを示す。
【図３５】本発明に従って離散コサイン変換係数およびアダマール変換係数を用いて計算されたビデオの類似性マトリックスを示す。
【図３６】本発明によるオーディオ・ビジュアル記録物をセグメント化する方法に対応するデータの流れを示す。
【図３７】２人の話者による２つのプレゼンテーションを含む記録された会議のスライドであるオーディオ・ビジュアル記録物のフレームの確率の対数を示すグラフである。
【図３８】本発明によるオーディオ区間に適用されるクラスタ化方法におけるデータの流れを示す。
【図３９】本発明による一連の話者単位を構成する話者遷移モデルを示す。
【図４０】本発明によるオーディオ・ビジュアル記録物をセグメント化する方法のセグメント化結果を示すグラフである。
【図４１】本発明によるセグメント間音響距離マトリックスを示す。
【図４２】本発明による、スライド画像クラスとの類似性を有する所定の時間間隔より長い１個以上のビデオフレーム区間を識別する方法を示すフローチャートである。
【図４３】本発明によるスライド区間から抽出されたオーディオ区間からのソース特定話者モデルをトレーニングする方法を示すフローチャートである。
【図４４】本発明による話者遷移モデルを用いたオーディオ・ビジュアル記録物をセグメント化する方法を示すフローチャートである。

Claims

ビデオの類似性探索方法であって、定義手段が、類似性探索の対象となるビデオに含まれるフレームを画像クラス統計モデルにより表現される複数種類の画像クラスの何れかに分類してセグメント化するための、複数のトレーニングフレームから成るトレーニングビデオセグメントと前記トレーニングビデオセグメントが属する画像クラスとの対応関係をユーザに選択させて定義する工程と、第１の特徴ベクトル取得手段が、トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、分類先となる画像クラスに対応する特徴ベクトルを検索することにより、特徴ベクトルを得る工程と、トレーニング手段が、前記画像クラス中の複数のトレーニングフレームから得られた複数の特徴ベクトルから平均特徴ベクトル及び対角共分散マトリクスを計算することにより前記平均特徴ベクトル及び対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされる画像クラス統計モデルを構築する工程と、第２の特徴ベクトル取得手段が、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、前記類似性探索の対象となるビデオに含まれる各フレームに対応する特徴ベクトルを検索することにより、探索対象フレームの特徴ベクトルを得る工程と、計算手段が、得られた前記探索対象フレームの特徴ベクトルについて、画像クラス統計モデルに対応する前記ガウス関数を用いて前記画像クラスに分類される確率を計算することにより、類似性スコアとして各フレームの尤度を計算する工程と、分割手段が、類似性スコアを、ユーザにより定義された類似性スレッショルドと比較することにより、類似性探索の対象となるビデオに含まれるフレームを、前記画像クラスの類似セグメントと非類似セグメントに分ける工程と、を含むことを特徴とする方法。
トレーニングビデオセグメントのフレームに対応する各特徴ベクトルが、フレームの彩度成分から得られた特徴ベクトルと、フレームの輝度成分から得られた特徴ベクトルを含むことを特徴とする請求項１記載の方法。
トレーニングビデオセグメントのフレームに対応する各特徴ベクトルが、フレームの赤色成分から得られた特徴ベクトル、フレームの緑色成分から得られた特徴ベクトル、フレームの青色成分から得られた特徴ベクトルを含むことを特徴とする請求項１記載の方法。
表示手段が、前記分割手段により分けられた前記類似セグメントを識別可能に表示装置に表示させる工程を含むことを特徴とする請求項１乃至３のいずれかに記載の方法。
ビデオの類似性探索を行う方法であって、類似性探索の対象となるビデオに含まれるフレームを画像クラス統計モデルにより表現される複数種類の画像クラスの何れかに分類してセグメント化するための、複数のトレーニングフレームから成るトレーニングビデオセグメントと前記トレーニングビデオセグメントが属する画像クラスとの対応関係をユーザに選択させて定義する工程と、トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、分類先となる画像クラスに対応する特徴ベクトルを検索することにより、特徴ベクトルを得る工程と、前記画像クラス中の複数のトレーニングフレームから得られた複数の特徴ベクトルから平均特徴ベクトル及び対角共分散マトリクスを計算することにより前記平均特徴ベクトル及び対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされる画像クラス統計モデルを構築する工程と、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、前記類似性探索の対象となるビデオに含まれる各フレームに対応する特徴ベクトルを検索することにより、探索対象フレームの特徴ベクトルを得る工程と、得られた前記探索対象フレームの特徴ベクトルについて、画像クラス統計モデルに対応する前記ガウス関数を用いて前記画像クラスに分類される確率を計算することにより、類似性スコアとして各フレームの尤度を計算する工程と、類似性スコアを、ユーザにより定義された類似性スレッショルドと比較することにより、類似性探索の対象となるビデオに含まれるフレームを、前記画像クラスの類似セグメントと非類似セグメントに分ける工程と、を含む方法をコンピュータで実行するためのプログラムを記録したコンピュータ読取り可能な記録媒体。
前記類似セグメントを識別可能に表示装置に表示させる工程を含む方法をコンピュータで実行するためのプログラムを記録した請求項５に記載のコンピュータ読取り可能な記録媒体。