JP4269473B2

JP4269473B2 - オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム

Info

Publication number: JP4269473B2
Application number: JP2000065101A
Authority: JP
Inventors: ティー．フートジョナサン; ディー．ウィルコックスリン
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1999-03-11
Filing date: 2000-03-09
Publication date: 2009-05-27
Anticipated expiration: 2020-03-09
Also published as: US6404925B1; JP2000298498A

Description

【０００１】
【発明の属する技術分野】
本発明は、内容に従って記録物に自動的に索引づけを行うためのオーディオ・ビジュアル記録物の処理の分野に関する。詳細には、本発明は、記録された会議における個々の口頭でのプレゼンテーションに対応するセグメントを発見する分野に関する。
【０００２】
【従来の技術】
従来の方式はオーディオのみのセグメント化に関するものであり、ビデオチャネルはまったく利用されなかった。話者のクラスタ化のための初期データを提供するために均一時間窓（ｕｎｉｆｏｒｍ−ｄｕｒａｔｉｏｎｗｉｎｄｏｗ）を使用することが試みられている。これは、任意の時間の短い窓だけが初期クラスタ化に使用され得るので、初期セグメント化に伴う問題につながる。窓が長すぎると、複数の話者を捕捉する確率が高まり、しかし、窓が短すぎると良好なクラスタ化には不十分なデータしか得られない。補助的な糸口がない場合、窓はしばしば話者の変化を重ね合わせ、それらをクラスタ化にいっそう役立たないものにする。最も従来的なセグメント化作業も主としてオーディオにもとづいており、例えば、会議のセグメント化はクローズトーキングラペルマイクロフォンによる音声認識を使用する。
【０００３】
【発明が解決しようとする課題】
多くの会議、例えば毎週のスタッフ会議では、１人以上の話者によるスライドプレゼンテーションが含まれる。こうした会議は、以後の再検討および再使用のためにオーディオ・ビジュアル記録媒体に記録されることが多い。そのような会議の内容のブラウジングおよび検索のために、記録された会議の範囲内での各個人の口頭プレゼンテーションの時間の範囲、例えば開始および終了時刻を突き止めることは有益である。
【０００４】
【課題を解決するための手段】
本発明の第１の態様は、オーディオ・ビデオ記録物をセグメント化する方法であって、該方法は、個々の話者を識別可能なビデオ特徴を有するビデオ画像クラスに対する類似性を有する１個以上のビデオフレーム区間を識別する工程と、前記１個以上のビデオフレーム区間に対応する１個以上のオーディオ区間を抽出する工程と、前記１個以上のオーディオ区間に音響クラスタ化方法を適用し、１個以上のオーディオクラスタを生成する工程と、同一の前記オーディオクラスタ内のオーディオ区間を併合し、併合オーディオ区間を生成する工程と、前記併合オーディオ区間の各々でソース特定話者モデルをトレーニングする工程とを含む。
本発明の第２の態様は、第１の態様において、１個以上のビデオフレーム区間を識別する前記工程が、間引かれたフレームを生成するために前記オーディオ・ビデオ記録物のビデオフレームを時間的および空間的に間引く工程と、間引かれたフレームの各々について、変換マトリックスを生成するために前記間引かれたフレームを変換する工程と、前記変換マトリックスから特徴ベクトルを抽出する工程と、前記特徴ベクトルおよびビデオ画像クラス統計モデルを用いて前記間引かれたフレームの各々について前記ビデオ画像クラス統計モデルとの類似性を決定する工程とを含む。
本発明の第３の態様は、第２の態様において、フレームの類似性を測定する前記工程が、差分ベクトルを決定するために前記特徴ベクトルから前記ビデオ画像クラス統計モデルの平均特徴ベクトルを減算する工程と、前記差分ベクトルの大きさをスレッショルドと比較する工程とを含む。
本発明の第４の態様は、第３の態様において、前記差分ベクトルの大きさをスレッショルドと比較する工程が、前記差分ベクトルの大きさを、前記ビデオ画像クラス統計モデルに関係する標準偏差の所定の倍数と比較する工程を含む。
本発明の第５の態様は、第１の態様において、所定のビデオ画像クラスに対する類似性を有する１個以上のビデオフレーム区間を識別する前記工程が、所定の時間間隔より長いスライド区間に対応するビデオフレーム区間を見つける工程を含む。
本発明の第６の態様は、第１の態様において、音響クラスタ化方法を適用する前記工程が、各オーディオ区間を平均ベクトルによってパラメータ化する工程と、各オーディオ区間に対応する平均ベクトルの間のユークリッド距離に集塊クラスタ化法を適用する工程とを含む。
本発明の第７の態様は、第１の態様において、各話者を識別するために話者による前記オーディオ・ビデオ記録物を前記ソース特定話者モデルによってセグメント化する工程とをさらに含む。
本発明の第８の態様は、第１の態様において、前記併合オーディオ区間および前記ソース特定話者モデルによって指示される話者シーケンスによって話者遷移モデルを作成する工程と、前記話者遷移モデルによって前記オーディオ・ビデオ記録物をセグメント化する工程とをさらに含む。
本発明の第９の態様は、コンピュータに以下のオーディオ・ビデオ記録物をセグメント化する方法を実行させるためのコンピュータ可読プログラムコードを記憶したコンピュータ可読記憶媒体であって、前記コンピュータ可読プログラムコードは、個々の話者を識別可能なビデオ特徴を有するビデオ画像クラスに対する類似性を有する１個以上のビデオフレーム区間を識別する工程と、前記１個以上のビデオフレーム区間に対応する１個以上のオーディオ区間を抽出する工程と、前記１個以上のオーディオ区間に音響クラスタ化方法を適用し、１個以上のオーディオクラスタを生成する工程と、同一の前記オーディオクラスタ内のオーディオ区間を併合し、併合オーディオ区間を生成する工程と、前記併合オーディオ区間の各々でソース特定話者モデルをトレーニングする工程とを含む。
本発明の第１０の態様は、第９の態様において、１個以上のビデオフレーム区間を識別する前記工程が、間引かれたフレームを生成するために前記オーディオ・ビデオ記録物のビデオフレームを時間的および空間的に間引く工程と、間引かれたフレームの各々について、変換マトリックスを生成するために前記間引かれたフレームを変換する工程と、前記変換マトリックスから特徴ベクトルを抽出する工程と、前記特徴ベクトルおよびビデオ画像クラス統計モデルを用いて前記間引かれたフレームの各々について前記ビデオ画像クラス統計モデルとの類似性を測定する工程とを含む。
本発明の第１１の態様は、第１０の態様において、フレームの類似性を測定する前記工程が、差分ベクトルを決定するために前記特徴ベクトルから前記ビデオ画像クラス統計モデルの平均特徴ベクトルを減算する工程と、前記差分ベクトルの大きさを、前記ビデオ画像クラス統計モデルに関係する標準偏差の所定の倍数と比較する工程とを含む。
本発明の第１２の態様は、第９の態様において、所定のビデオ画像クラスに対する類似性を有する１個以上のビデオフレーム区間を識別する前記工程が、所定の時間間隔より長いスライド区間に対応するビデオフレーム区間を見つける工程を含む。
本発明の第１３の態様は、第９の態様において、音響クラスタ化方法を適用する前記工程が、各オーディオ区間をメル周波数ケプストラル係数平均ベクトルによってパラメータ化する工程と、各オーディオ区間に対応するメル周波数ケプストラル係数平均ベクトルの間のユークリッド距離に集塊クラスタ化法を適用する工程とを含む。
本発明の第１４の態様は、第９の態様において、各話者を識別するために話者による前記オーディオ・ビデオ記録物を前記ソース特定話者モデルによってセグメント化する工程をさらに含む。
本発明の第１５の態様は、第９の態様において、前記併合オーディオ区間および前記ソース特定話者モデルによって指示される話者シーケンスによって話者遷移モデルを作成する工程と、前記話者遷移モデルによって前記オーディオ・ビデオ記録物をセグメント化する工程とをさらに含む。
本発明の第１６の態様は、第１５の態様において、前記話者遷移モデルが、各話者単位がソース特定話者モデルおよびフィラーモデルを含む、一連の話者単位を含む。
本発明の第１７の態様は、コンピュータシステムであって、プロセッサと、前記コンピュータシステムに以下のオーディオ・ビデオ記録物をセグメント化する方法を実行させるためのプロセッサ可読プログラムコードを記憶したプロセッサ可読記憶媒体であって、前記プロセッサ可読プログラムコードは、個々の話者を識別可能なビデオ特徴を有するビデオ画像クラスに対する類似性を有する１個以上のビデオフレーム区間を識別する工程と、前記１個以上のビデオフレーム区間に対応する１個以上のオーディオ区間を抽出する工程と、前記１個以上のオーディオ区間に音響クラスタ化方法を適用し、１個以上のオーディオクラスタを生成する工程と、同一の前記オーディオクラスタ内のオーディオ区間を併合し、併合オーディオ区間を生成する工程と、前記併合オーディオ区間の各々でソース特定話者モデルをトレーニングする工程とを含む。
【０００５】
本発明によれば、会議ビデオ記録物における個人のプレゼンテーションを精確にセグメント化するための音声ベースの話者識別の糸口が、自動画像認識により得られる。単一話者のオーディオ区間と関係づけられることが既知のビデオフレーム区間を識別するために、ビデオ変換特徴ベクトルが使用される。オーディオ区間は、オーディオ・ビジュアル記録物のオーディオセグメント化のために話者認識システムをトレーニングするために使用される。
【０００６】
本発明の好適な実施の形態においては、単一話者の口頭プレゼンテーションはスライドが表示されている区間を含み、特定の話者が各スライドが表示されている時間全体にわたり話すと仮定される。オーディオ・ビジュアル記録物の単一話者の領域は、スライド画像の拡張された区間を探索することによってビデオ内で識別される。スライド区間は自動的に検出され、それらの領域での音声は、オーディオ話者検出システムをトレーニングするために使用される。単一話者のプレゼンテーションは、話者および聴衆のカメラショットを含むこともある。ある話者によるプレゼンテーションは複数のスライド区間にまたがることが可能なので、そのスライド区間に対応するオーディオ区間は、ビデオにおいてプレゼンテーションを行う話者の数および順番を見つけるためにオーディオ類似性によってクラスタ化される。クラスタ化の後、単一話者から得られた全部のオーディオデータは、そのオーディオ・ビジュアル記録物のオーディオ部分から特定話者を識別するためのソース特定話者モデルをトレーニングするために使用される。その後オーディオは、話者検出システムによってセグメント化され、そのオーディオ・ビジュアル記録物に索引を付けるための一連の単一話者区間が得られる。
【０００７】
あるいはまた、スライド以外の単一顔面検出といったビデオ画像クラスのメンバーを探索するか、または、スライドを検出する代わりに演壇の正面に立っている人物を検出するビデオ分析が使用され、単一話者に由来するオーディオに関する区間を検出する。単一話者に関係づけられることが既知のビデオにおけるいずれかの検出可能な特徴が、本発明に従って使用することができる。一般に、単一話者のオーディオ区間と相関していることが既知のビデオ画像クラスが、単一話者に由来するオーディオに関する区間を検出するために使用される。
【０００８】
代替的な実施の形態では、顔面認識が各話者に対応するフレーム区間を検出する。この実施の形態では、特定の話者の顔面認識はその話者のビデオ区間を当該話者によるオーディオ区間と関係づける。従って、顔面認識が、異なる話者によるオーディオ区間を区別する、好ましい実施の形態のオーディオクラスタ化方法に取って代わる。顔面認識は、認識されたフレームをある話者によるスピーチに関係づける。例えば、第１および第２の話者に対応する第１および第２のビデオ画像クラスは、それぞれ第１および第２の話者に対応するフレーム区間を検出するために使用される。
【０００９】
本発明によれば、個々のプレゼンテーションに対応する記録された会議の領域が自動的に見つけられる。プレゼンテーションが突き止められると、その領域情報はビデオの索引づけおよびブラウジングのために使用することができる。会議に関係づけられた進行表がある場合、突き止められたプレゼンテーションには、進行表から得られる情報が自動的にラベルづけされる。これにより、プレゼンテーションは発表者および演題によって容易に見つけることが可能になる。
【００１０】
本発明の方法は、複数の会議ビデオにまたがるように、また、放送ニュースといった他の領域分野に容易に拡張される。本発明の上述および他の特徴および利益は、発明の詳細な説明において図面を参照してより完全に記述される。
【００１１】
【発明の実施の形態】
ビデオの要約、ブラウジングおよび検索にとって、どのような種類の画像がそのビデオを構成しているかを知ることは、しばしば有益である。例えば、どのショットが人の顔のクローズアップを含んでいるかを知ることは、ビデオの要約にそれらを含めやすくするために有用である。本発明は、ビデオシーケンスを所定のクラスの集合にセグメント化し分類する方法を含む。ビデオクラスの例には、人々のクローズアップ、群衆シーンおよび「パワーポイント（登録商標）」スライドといったプレゼンテーション資料のショットを含む。分類に使用される特徴は一般的であり、従って、ユーザは任意のクラスタイプを指定できる。
【００１２】
図１は、本発明に従った方法の実施に適する汎用コンピュータシステム１００を例示している。汎用コンピュータシステム１００は少なくとも１個のマイクロプロセッサ１０２を備える。カーソル制御装置１０５は、マウス、ジョイスティック、一連のボタンまたは、ユーザがディスプレイモニタ１０４上でのカーソルまたはポインタの位置を制御できるようにする他のいずれかの入力装置によって実現される。汎用コンピュータはまた、ランダムアクセスメモリ１０７、外部記憶装置１０３、ＲＯＭメモリ１０８、キーボード１０６、モデム１１０およびグラフィックコプロセッサ１０９を備えることもある。カーソル制御装置１０５および／またはキーボード１０６は、本発明に従ってユーザ入力を受け取るための例示的なユーザインタフェースである。汎用コンピュータ１００のこれらの要素の全部は、１つの選択肢においては、各種要素間でデータを転送するための共通バス１０１によって互いに結合されている。バス１０１は一般に、データ、アドレスおよび制御の各信号を含む。図１に示す汎用コンピュータ１００は、汎用コンピュータ１００の要素の全部を一体に結合する単一のデータバス１０１を備えるが、汎用コンピュータ１００の各種要素を接続する単一の通信バス１０１が存在しなければならない必要はまったくない。例えば、マイクロプロセッサ１０２、ＲＡＭ１０７、ＲＯＭメモリ１０８およびグラフィックコプロセッサ１０９はデータバスによって結合され、ハードディスク１０３、モデム１１０、キーボード１０６、ディスプレイモニタ１０４およびカーソル制御装置１０５は第２のデータバス（図示せず）によって接続される。この場合、第１のデータバス１０１および第２のデータバス（図示せず）は、双方向バスインタフェース（図示せず）によってリンクされる。あるいはまた、マイクロプロセッサ１０２およびグラフィックコプロセッサ１０９といった一部の要素は第１のデータバス１０１および第２のデータバス（図示せず）の両方と接続され、第１のデータバスと第２のデータバスとの間の通信はマイクロプロセッサ１０２およびグラフィックコプロセッサ１０９によって行われる。このように、本発明の方法は、図１に１００で示したようなあらゆる汎用コンピュータシステム上で実行可能であり、このコンピュータシステムが本発明の方法を実行し得る唯一のものであるといった制限はまったく存在しないことは明白である。
【００１３】
図２は、本発明によるビデオの分類を実行する方法におけるデータの流れを示す。ビデオファイル２０１はビデオ記録物のディジタル表現である。ビデオファイル２０１は一般にＭＰＥＧといった標準ディジタルフォーマットで符号化されている。画像クラス統計モデル２０２〜２０５は、４つの個別の画像クラスに対応する所定のガウス分布を表現している。矢印２０９は、特徴ベクトル２０８を抽出するためのビデオファイル２０１の処理を示す。矢印２０９において行われる処理は以下の通りである。ビデオファイル２０１は、ＭＰＥＧといった標準ディジタルフォーマットで符号化されている場合、復号化され、画素の矩形マトリックスに変換される。画素の矩形マトリックスは、下位画像のより小形の矩形マトリックスに簡約化され、この場合、各下位画像はその下位画像に対応する画素から導かれるグレイスケール符号を表現する。下位画像の矩形マトリックスに変換が施され、変換係数のマトリックスを生じる。変換係数のマトリックスから、ビデオ特徴２０８が、ビデオ分類のためのビデオ集合として示される変換マトリックス内の係数位置にある変換係数として選択される。クラシファイヤ（分類ユニット）２０６は各ビデオ特徴２０８を受け取り、それらのビデオ特徴２０８を画像クラス統計モデル２０２〜２０５の各々に入力する。この結果、ビデオファイル２０１の各フレームは、画像クラス統計モデル２０２〜２０５により表現される画像クラスのいずれかに分類される。ビデオファイル２０１のフレームに対応するようにクラシファイヤ２０６によって決定された対応する画像クラスは、クラスのラベル付けされたビデオ２０７に索引づけられる。このようにして、クラスラベル付けされたビデオ２０７は、そのフレームが属する画像クラスを示す各フレームに関係づけられた情報を含む。
【００１４】
図２に示す通り、システムは最初に、ビデオシーケンスから分類のための特徴、例えば離散コサイン変換係数を抽出するが、カラーヒストグラムといった他の特徴を選択的に使用することもできる。認識されるビデオの各フレームのモデルを構築するために、トレーニングデータが使用される。このトレーニングデータは、そのクラスからの単数または複数のビデオシーケンスより構成される。クラスモデルは、ガウス分布または隠れマルコフモデルのどちらか一方にもとづくことができる。未知のビデオからクラスモデルおよび特徴が与えられたと、システムは、そのビデオをセグメント化し、それぞれのクラスに属するセグメントに分類する。
【００１５】
ガウス分布型クラシファイヤは、クラスモデルを用いて各フレームの尤度（ｌｉｋｅｌｉｈｏｏｄ）を計算する。そのフレームのクラスは最大尤度を有するクラスである。同じクラスラベルを有する隣接フレームは併合されてセグメントを形成する。さらに、その尤度は、各クラスにおける帰属関係の信頼の程度を表示するブラウザにおいて選択的に使用される。隠れマルコフモデル法の場合、隠れマルコフモデル状態は異なるビデオクラスに対応する。バイタービ（Ｖｉｔｅｒｂｉ）アルゴリズムが使用される。最大尤度状態シーケンス、従って各フレームのクラスラベルを見つけるため、信頼度のスコアは状態シーケンスの確率から得られる。この隠れマルコフモデルクラシファイヤは、上記のフレームごとのクラシファイヤよりも複雑であるが、セグメントの連続性および順序を強制することによってセグメントを平滑化する役割を果たす。これは、単一フレームのクラス決定の変更を効果的に禁止する。
【００１６】
各画像またはビデオフレームは、離散コサイン変換またはアダマール変換といった変換を用いて変換される。多くの用途の場合、完全なビデオフレームレートは不要であり、フレームは、選択的に数個のフレームのうちの１個だけが変換されるように時間的に間引かれる。この間引きによって、記憶コストおよび計算時間は劇的に軽減される。画像圧縮においては、一般に小さな下位ブロックに対して変換が行われるが、ここではフレーム画像全体に変換が適用される。変換されたデータはその後、有意性の低い情報を破棄することによって低減される。これは、切り捨て（ｔｒｕｎｃａｔｉｏｎ）、主成分分析または線形識別解析などといった多数の技法のいずれかによって行われる。この用途の場合、また、経験的に示される通り、主成分分析が良好に作用する。それが特徴次元の相関を分離する傾向があり、従って、データが、後述の通りガウスモデルおよび隠れマルコフモデルの対角共分散仮定によく一致するからである。しかし、最大分散を有する係数を単純に選択することが極めて有効であると判明している。これは、各フレームに関してコンパクトな特徴ベクトル（簡約化された係数）をもたらす。この表現は、類似の画像のフレームが類似の特徴を有するので、分類にとって適切である。
【００１７】
図３は、本発明による、トレーニングフレーム、トレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換およびトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を例示する。従って、トレーニングフレーム３０１〜３０８は、ビデオ画像クラスに関係する一連のトレーニング画像を表す。トレーニング画像３０１〜３０８によって表現された画像クラスは、英語で「演壇の正面に立つ話者」と説明される。フレーム３１０は、トレーニングフレーム３０１〜３０８から抽出された８成分特徴ベクトルにもとづいて計算された平均特徴ベクトルに対応する逆離散コサイン変換を図示している。フレーム３１０では、ビデオ分類のための特徴集合は１０成分特徴集合である。従って、各フレームからの１０個の変換係数だけが各トレーニングフレームに関係づけられた特徴ベクトルを構成する。フレーム３１１は、トレーニングフレーム３０１〜３０８の各々から抽出された１００成分特徴ベクトルにもとづいて計算された平均特徴ベクトルの逆離散コサイン変換を表す。フレーム３１２は１０００成分特徴ベクトルの逆離散コサイン変換である。フレーム３１２は、逆離散コサイン変換において使用される係数の数が増加しているので、それ自体がフレーム３１０よりも詳細な表示をしているフレーム３１１よりもさらに詳細に表示している。
【００１８】
フレーム３２０は、トレーニング画像から得られた平均特徴ベクトルの逆アダマール変換を表す。フレーム３２１は１００成分特徴ベクトルに対応する逆アダマール変換を表す。フレーム３２２は１０００成分特徴ベクトルに対応する逆アダマール変換を表す。
【００１９】
１／２秒間隔で取られたＭＰＥＧフレームは、復号化され、６４×６４グレイスケール強度下位画像に簡約化された。得られたフレーム画像は、離散コサイン変換およびアダマール変換により符号化された。最大分散（順位）を有する係数および最も重要な主成分の両者が特徴として選択された。ガウスモデルは、１〜１０００の可変数の次元によってトレーニング集合でトレーニングされた。図３は特徴カテゴリの１つ（ｆｉｇｏｎｗ）のサンプルを示す。このカテゴリは、明るい（白い）背景を背にした人々のクローズアップよりなる。このクラスの画像が、カメラアングル、照明および位置の点で、おそらくは典型的なニュースキャスターの画像よりもいかに大きく変化し得るかに留意されたい。平均および共分散は、最大分散の離散コサイン変換およびアダマール変換の係数によってトレーニングされた。各モデルは、ゼロに設定された破棄係数を有する平均を逆変換することによって画像化されている。共分散は示されていないが、平均がトレーニングデータからの主要な特徴（暗色の中央の人影）を捕捉することは明白である。図３は、少ない数の係数によっても、トレーニングデータにおける主要な形状が、逆変換された時に依然認識可能であることを示している。
【００２０】
図４は、異なる平均および分散を有する２つの一次元ガウス分布を示す。確率曲線４０１によって表現された分布Ａは平均μ_Aを有する。確率曲線４０２によって表現された分布Ｂは平均μ_Bを有する。分布Ａから生じるある値Ｘの確率は、横軸に対する点４０３の垂直位置である。同様に、分布Ｂより生じる値Ｘの確率は、横軸に対する点４０４の垂直高さである。点４０３における確率が点４０４における確率よりも高いので、Ｘは分布Ａから最も得られやすい。図４は一次元プロットであり、２つの画像クラスＡおよびＢならびに１成分特徴集合が与えられた時、図４は、本発明に従って行われるビデオフレームの分類の最大尤度の方法を的確に例示する。
【００２１】
特徴データが与えられると、ビデオセグメントは統計的にモデル化される。単純な統計モデルは多次元ガウス分布である。ベクトルｘが１フレームの特徴を表現すると仮定すると、そのフレームがガウスモデルｃによって生成される確率は次式の通りである。
【００２２】
【数１】

【００２３】
ここで、μ_cは平均特徴ベクトル、Σ_cはモデルｃに関係するｄ次元特徴の共分散マトリックスである。式（ｘ−μ_c）’は差分ベクトルの変換である。実際には、対角共分散マトリックス、すなわちΣ_cの非対角線上成分がゼロであると仮定するのが普通である。これにはいくつかの利点がある。最も重要なことは、自由パラメータ（マトリックス成分）の数をｄ（ｄ−１）／２からｄに減らすことであり、これは問題の次元ｄ（ｄは１００のオーダー）が高い時に重要となる。共分散マトリックスは少数のトレーニングサンプルにより計算される際にしばしば不良条件となるので、これはマトリックスの逆の計算が極めて単純になり、より確固としたものになることを意味する。このようにガウスモデルによって画像を分類するために、必要なクラスの各々について１組のサンプルトレーニング画像が集められ、パラメータベクトルμ_cおよびΣ_cが計算される。未知の画像ｘが与えられると、各画像クラスの確率が計算され、その画像は最大尤度モデルによって分類される。あるクラス（トレーニング集合）にとっては対数尤度だけが類似性の有用な測度であり、本発明によるビデオブラウザといった用途において直接使用される。より精緻なモデルは、多数のパラメータおよび混合重みを評価するために期待値最大化アルゴリズムが与えられた時に、ガウス混合を使用することができる。さらなる代替として、ニューラルネットワークまたは他の形式のクラシファイヤが使用される。単一のガウスモデルの場合、μ_cおよびΣ_cの計算は、計算法としては容易であり、極めて迅速に行える。単一画像からのモデルのトレーニングの場合、平均ベクトルは画像特徴に設定され、分散ベクトル（対角共分散マトリックス）は全部の画像に対する大域変数の何らかの比に設定される。未知のフレームおよび数個のモデルが与えられた場合、その未知のフレームは、どのモデルが最大確率をもってそのフレームを生じるかによって分類される。
【００２４】
図５は、本発明によるビデオ分類のための特徴集合を選択する例示的方法を示す。すなわち、図５は、統計モデルのトレーニングのため、および、統計モデルがトレーニングされた際のビデオの類似性測定および分類のために、抽出および分析する係数位置を変換する選択過程を表している。図５に記載した方法は、多数のトレーニング画像に見られるの特性を考慮している。以下に述べる分類法において、特徴集合を最適に選択するために使用されるトレーニング画像は、異なるクラス全部の画像を含む。これは、図５に示す方法が異なるクラスの画像を区別するために特徴の最適な集合を選択するのを助ける。図５に示す方法の代替として、特徴集合で使用する係数位置は、観測されるビデオ特性を全く考慮せずに、図６および８に示すように単に最低頻度係数を選択することによる切り捨てによって選択される。
【００２５】
Ｖ×Ｈの離散コサイン変換係数位置を考え、そこから特徴集合としてより小さな数ｄを選択する。図６に示した例ではＶ＝Ｈ＝８である。より典型的で実際的なシナリオではＶ＝Ｈ＝６４であり、従って、選択するべき４０９６（６４×６４）個の係数位置がある。最大分散係数を選び出すための１つの代替の方法は、４０９６×４０９６共分散マトリックスを計算した後、適切に特徴を選び出すが、必ずしも順番に行う必要はない。簡約化ベクトルの実際の順序は重要ではないが、一致していなければならない。
【００２６】
工程５０１で、平均係数マトリックスが計算される。平均係数マトリックスは、変換が適用される下位画像のマトリックスと同じ行数Ｖおよび同じ列数Ｈを有しており、また、結果として得られる変換係数マトリックスとも同数の行および列を有する。平均マトリックスの各位置は、トレーニング画像にある対応する係数の算術平均である。１つの実施の形態では、平均係数マトリックスは、分散マトリックスを計算する過程の予備工程として計算される。別の実施の形態では、平均係数マトリックスの値自体を解析して、特徴集合を選択する。例えば、ある実施の形態では、最大平均値を有する係数位置が特徴集合として選択される。工程５０２では、分散マトリックスが計算される。分散マトリックスは、平均マトリックスおよび変換マトリックスと同じ行数Ｖおよび同じ列数Ｈを有する。分散マトリックス５０２の各値は、トレーニング画像の変換マトリックスにおける対応する位置の統計分散を表現する。あるいはまた、分散マトリックス５０２の各値は、標準統計分散以外である「分散」測度を表現するが、それでもやはりそれは変動の測度を表現する。例えば、観測された各係数の平均係数との差の算術平均絶対値は、標準統計分散に使用されるような２乗差の和よりも、「分散」測度として使用できる。
【００２７】
工程５０３において、特徴集合が選択される。この特徴集合は、本発明による多様な方法のいずれかによって工程５０３で選択される。例えば、特徴集合は選択的に、最大平均値を有するｄ個の係数位置として選択される。あるいはまた、特徴集合は分散マトリックスで最大分散値を有するｄ個の係数位置として選択される。さらに別の代替法として、特徴集合は、主成分分析または線形識別解析によって選択される。
【００２８】
最も単純な特徴集合選択法では、特徴集合のｄ個の係数位置が切り捨てによって選択され、それにより、変換マトリックスの最低頻度係数のみが、トレーニングフレームのいずれかにおけるそれらの位置の実際の係数の値にかかわらず、特徴集合を構成するように選択される。実際、切り捨てによると、最低頻度成分が最も重要であると単純に仮定されるので、いずれのトレーニングフレームもまったく分析される必要はない。
【００２９】
特徴集合の選択はトレーニング画像の各群について行われる必要はないことに留意しなければならない。一般に、特徴集合は、分類方法において使用される全部のクラスモデルから全部のトレーニング画像を使用する上記の方法のいずれかにもとづいて選択される。例えば、図２のクラスモデル２０２〜２０５の各々を定義するために使用されるトレーニング画像の全部は、それらのトレーニング画像の全部について平均マトリックスおよび分散マトリックスを計算することによって解析されて、それらのクラスモデルの各々の分類のための最適な特徴集合を決定する。従って、本発明による分類法における各ビデオ画像クラスについて同じ特徴ベクトルが検索されるように、好ましくは同一の特徴集合が全部のクラスモデルに関して使用される。しかし、本発明による画像クラスの各々について同一の特徴集合が使用されなければならないという必要性はまったくない。これに関して、各画像クラスは、その画像クラスの検出に最適に選択された特徴集合を有することができるが、その画像クラスの対応する確率の計算を行うために各ビデオフレームから異なる特徴ベクトルを抽出しなければならないという演算負荷の増加を伴う。
【００３０】
図６は、ビデオフレームの離散コサイン変換から得られる変換マトリックスを示す。列１は水平周波数０（従って直流）を表現し、列２は水平周波数ｆ_hを表現し、そして、列８は水平周波数１３ｆ_vの係数を表す。同様に、行１は垂直周波数０（すなわち直流）の係数を表現し、行２は垂直周波数ｆ_vを表現する。変換マトリックス６００の行８は垂直周波数１３ｆ_hの係数を表す。変換マトリックス６００の左上隅の９個の係数はその変換マトリックスの最低周波数係数を表す。ブラケット６０１および６０２で囲まれたこれらの９個の係数は、本発明による特徴集合を選択する９係数切り捨て法によって選択される９個の係数位置である。より高周波数の係数は画像の細部を表現するので、それらはあるフレームのビデオ画像クラスを決定するうえでそれほど重要でないことがほとんどである。
【００３１】
図７は、本発明に従って２個以上の変換マトリックスから計算された分散マトリックスを示す。図８は、本発明に従った切り捨てによって決定された特徴集合８００を示す。最低頻度成分に対応する変換マトリックスの９個の係数は、図８に示す通り特徴集合８００として選択された。例えば、成分８０１、８０２および８０３は図６に示す変換マトリックス６００の行１の最初の３個の係数位置を表し、成分８０４、８０５および８０６は変換マトリックス６００の第２の行の最低頻度成分を表し、成分８０７、８０８および８０９は変換マトリックス６００の第３の行の最低頻度係数位置を表す。変換マトリックス６００の最初の３個の行は変換における最低垂直頻度を表し、従って特徴集合８００で指定された９個の成分は切り捨て法に関して適切な選択である。
【００３２】
図９は、本発明に従って図８に示した特徴集合を有するトレーニングフレームの２個の特徴ベクトルから計算された平均特徴ベクトル９００を示す。このように、係数８０１〜８０９に対応する平均マトリックス（図示せず）の値は平均特徴ベクトル９００として記憶される。
【００３３】
図１０は、本発明に従って図８に示した特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。共分散マトリックスは必ず正方かつ対称である。この共分散は次元ｄ×ｄのマトリックスである。共分散は全部の異なる次元に関する相関を表現する。対角共分散を使用することによって、ｄ個の非ゼロ値が存在し、数学演算のためには、それはマトリックスとして扱われなければならないものの、ｄ成分のベクトルとしてみなすことができる。対角共分散マトリックス１０００の全部の非対角線上成分は、特徴集合における全部の特徴がその特徴集合の他の特徴と統計的に非相関関係にあるという仮定にもとづき、ゼロに設定される。実際、特徴が相関関係にあれば、特徴空間の座標変換に対して主成分分析が最適に使用され、それにより対角共分散仮定も良好に満たされる。対角共分散マトリックス１０００は、図９に示した特徴ベクトル９００および、図６に示した変換マトリックス６００の切り捨てにより決定された特徴ベクトル８００に対応する。
【００３４】
図１１は、本発明の方法による図８に示した特徴集合を有するフレームについて検索された特徴ベクトル１１００を示す。このように、特徴ベクトル１１００の各成分１１０１〜１１０９は、変換された画像フレームから得られた実際の変換係数を含む。特徴ベクトル１１００は、本発明に従った分類方法においてビデオファイル２０１から抽出される図２に示したビデオ特徴２０８の実例である。
【００３５】
図１２は、本発明により２個以上のビデオ画像クラスのいずれかにビデオのフレームを分類する方法を例示している。この方法は工程２０１に始まり、工程２０２で、ビデオの第１のフレームが離散コサイン変換またはアダマール変換のいずれか一方によって変換される。工程１２０３で、特徴工程によって示された位置にある係数に対応する特徴ベクトルが抽出される。工程１２０４では、特徴ベクトルを生成する各画像クラス統計モデルの尤度または確率が計算される。工程１２０５で、そのフレームに対応する特徴ベクトルを生成する確率が最も高い画像クラス統計モデルを有する画像クラスが選択される。工程１２０６で、そのフレームが、工程１２０５で決定されたそのクラス指定によりラベルづけされる。この工程では、フレームは、将来容易にブラウズまたは検索されるように、そのクラスに従って索引づけがなされる。検査１２０７は、そのビデオにさらにフレームが存在するかどうか、すなわち、それが分類中のビデオの最後のフレームであるかどうかを判定する。さらにフレームがあれば、分岐１２０８は方法を次のフレームを変換する工程１２０２へ戻し、それがビデオの最終フレームである場合には、工程１２０９は図２に示したクラスのラベルづけされたビデオ２０７が完了したことを指示する。
【００３６】
図１３は、本発明に従い切り捨て以外の方法によって決定された特徴集合を示す。例えば、主成分分析、最大分散を有する係数の選択または最大平均を有する係数の選択の内の１つの想定可能な結果が、図１３に示す特徴集合１３００によって例示されている。図１３に示された６成分特徴集合１３００は、図６に示した係数位置６１０〜６１５を含む。図１３に示された６成分特徴ベクトル１３００の係数位置１３０１として含まれ、図６に示された変換マトリックス６００の第２行、第６列の係数位置６１４の包含は、１１ｆ_hに対応する比較的高い水平頻度成分が画像クラスを弁別する際に有効であることを示す。高頻度成分の包含はほとんど、フレームを認識するのに一般に比較的小さく鋭いエッジを有するテキスト等の小さな鋭い特徴を検出することを要する場合に生じる。
【００３７】
図１４は、本発明に従って、図１３に示す６成分特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された平均特徴ベクトル１４００を示す。
【００３８】
図１５は、本発明に従って、図１３に示す特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された対角共分散マトリックス１５００を示す。特徴集合で示された係数位置の値の間に相関関係が存在しないという仮定にもとづき、対角共分散マトリックス１５００の非対角線上成分は、やはりゼロに設定されている。
【００３９】
図１６は、本発明に従った分類のための図１３に示す特徴集合１３００を有するフレームから検索された特徴ベクトル１６００を示す。このように、成分１６０１〜１６０６は、本発明の方法に従って分類されるフレームの変換によって生じる変換マトリックスから得られる実際の個々の変換係数を表現している。
【００４０】
十分なデータ簡約化が行われた場合、クラシファイヤは、プレゼンテーションスライド、発表者または聴衆といった典型的な会議のビデオシーンの間を識別するために、本発明に従って容易にトレーニングされる。会議ビデオの領域分野の他に、この方法は、ニュースキャスターのショットなど、あるクラスの画像が類似の構成を有する場合には良好に作用するはずである。本発明による方法を評価するために、ビデオテープ録画されたスタッフ会議の資料に関して多数の実験を行った。ビデオショットは、６つのカテゴリに分類され、資料はトレーニング集合および試験集合に分けられた。
【００４１】
ビデオ分類実験は、６カ月の期間に開かれビデオ録画されたスタッフ会議の資料に関して実施された。各ビデオはカメラオペレータによって作成され、オペレータは、パン／チルト／ズームの制御が可能な３台のカメラによるビデオと、パーソナルコンピュータおよび演壇カメラからのビデオ信号との間で切り換えを行った。後者の装置は、透明および不透明資料といったプレゼンテーショングラフィックスを背面映写スクリーンに表示できるようにした。従って、ビデオショットは一般に、発表者、聴衆ショットおよび、「パワーポイント（登録商標）」スライドまたは透明資料といったプレゼンテーショングラフィックスより構成される。得られたビデオはＭＰＥＧ−１符号化され、サーバに記憶された。
【００４２】
資料には、２１回の会議ビデオが収められ、ビデオ収録時間の合計は１３時間以上であった。資料は、会議ビデオを交互に選ぶ形で、試験およびトレーニングセグメントに任意にセグメント化された。試験およびトレーニングデータは下記の表１に示す６つのクラスにラベルづけられ、表はトレーニングおよび試験の各集合のフレームの数も示している。相当量のデータがいずれのカテゴリにも当てはまらず、ラベルづけされずに残された。６つのクラスは、プレゼンテーショングラフィックス（ｓｌｉｄｅｓ）、照明付き映写スクリーンのロングショット（ｌｏｎｇｓｗ）、照明なしの映写スクリーンのロングショット（ｌｏｎｇｓｂ）、聴衆のロングショット（ｃｒｏｗｄ）、明背景での人物像の中間クローズアップ（ｆｉｇｏｎｗ）および暗背景での人物像の中間クローズアップ（ｆｉｇｏｎｂ）を表現するように選択された。（スクリーンショットといった）単一のカテゴリでかつ（照明付きと照明なしのスクリーンショットといった）著しく異なるモードの場合、各モードについて別のモデルが使用された。これは、単一ガウスモデルとのすぐれた一致を保証したが、別の方法は結合モデルをモデル化するためにガウス混合を代替的に使用する。同一の論理クラスをモデル化するように意図されている場合、異なるモデルは選択的に結合される。例えば、人物像を見つけることを意図している場合に背景色は重要ではないので、分類結果を提示する際にｆｉｇｏｎｗおよびｆｉｇｏｎｂクラスの結合が行われる。
【００４３】
【表１】

【００４４】
実験は、ガウス分布型クラシファイヤが長時間のビデオの脈絡における特定のクラスからビデオフレームを検出することを実証している。これは、長時間のビデオから、類似フレームの領域として定義されたショットをセグメント化するために使用される。これは、例えばスライドを含むショットの始まり、といった有益な索引点を提供する。他の方面では、例えばフレームまたは色の相違によってショットがすでに突き止められている場合、そのショットから全部のフレームに関してショットモデルが容易にトレーニングできる。これにより、共分散が動きその他の変化により生じる差異を捕捉するので、ショットを類似性により検索できるようになる。あるショットを表現するキーフレームが、尤度距離計量を用いてそのショット平均に最も近いフレームを見つけることにより容易に見出せる。画像を表現する係数の数は極めて控え目であるので（主成分分析のフレーム当たり１０個程度の特徴）、１つの代替法は、ビデオデータ自体に比べてもほとんどまったくオーバヘッドを伴うことなく、ビデオとともに特徴を記憶することである。ガウスモデルは計算が容易なので、モデルは選択的にオンザフライでトレーニングされる。これは対話型ビデオ検索のような用途を可能にし、この場合、ユーザは、時間バー上をドラッグしてビデオ領域を選択するなどして、所望のクラスを指示する。モデルはその領域の特徴について迅速にトレーニングされ、大きなビデオ資料のフレームに対応する類似性が迅速に計算される。資料における高い尤度の領域は、選択されたビデオに良好に一致する領域であり、資料の索引として機能する。
【００４５】
多様なモデル結果をスレッショルド設定を用いずに示すために、最大尤度法を使用して、ラベルづけされた試験フレームを分類した。下記の表２は、３０個の最大分散離散コサイン変換係数の使用による結果を示す。クラスｆｉｇは、ｆｉｇｏｎｗおよびｆｉｇｏｎｂの結合クラスの上位集合である。各列は試験フレームの実地検証情報ラベルであり、行は、行クラスとして認識される試験集合におけるサンプルの割合（小数分率）を示す。非ゼロの非対角線上成分は分類誤差を表す。すべてのラベルづけされたフレームは、それ自体のラベルと異なることはあっても最大尤度クラスを有するので、列の合計は１になる。
【００４６】
【表２】

【００４７】
図１７は、本発明によって類似性を決定する方法において、類似性を決定するためのスレッショルドとして使用されるスライド画像クラス統計モデルの標準偏差の倍数の関数として、スライドとして正しく識別されたスライドフレームの割合およびスライドとして誤って識別された非スライドフレームの割合を示す。代替的な実施の形態として、類似性を決定するためのスレッショルドは一般的なものであり、例えば、他のクラスの最大尤度によって決定される。ｘ軸は標準偏差の所定の倍数を表し、ｙ軸はスレッショルドのその特定の選択にもとづいて類似と識別されたフレームの割合を表す。プロット１７０１は、実際にスライドであり、本発明の類似性評価法によって正しくスライドとして識別されたフレームの割合を示す。プロット１７０２は、実際にはスライドでなく、本発明の類似性評価法によって誤ってスライドとして分類されたフレームの割合を示す。
【００４８】
図１７は、ビデオを分類しセグメント化するためにガウスモデルがどのように使用されるかを実証している。スタッフ会議ビデオの資料による実験は、スライド、話者、聴衆といったクラスが正しく認識されることを示した。１／２秒間隔で取られたＭＰＥＧ−１フレームは、復号化され、６４×６４グレイスケール強度下位画像に簡約化された。得られたフレーム画像は離散コサイン変換およびアダマール変換により符号化され、最大平均値を有する１００個の係数が特徴として選択された。対角共分散ガウスモデルが８０例のスライドフレームについてトレーニングされ、無関係の試験ビデオのスライドフレームおよびタイトルの確率を計算するために使用された。
【００４９】
（共分散｜Σ｜^1/2からの）標準偏差の倍数で尤度をスレッショルドとすることは、クラスの帰属関係を検出するうえで極めて有効であることが示されている。また、そのようなスレッショルドは、使用される係数の数からまったく独立である。図１７は、スライド検出比が多様なスレッショルドにおいてどのように変化するかを示している。グラフは、スレッショルドが標準偏差の約１．１倍のとき、８４％の正確なスライド認識率をもたらし、誤り認識はほとんどない（９％）ことを示している。標準偏差により正規化された場合、尤度は、それ自体で、クラスモデルに対する所与のフレームの類似性の指標として有益である。全部のクラスが同様の検出率を有するが、誤り認識の数はクラスごとに異なっている。
【００５０】
単純ガウスモデルは上記のようにトレーニング画像の平均を計算するので、画像シーケンスに関係するいずれかの時間変化情報を失う。動きまたは連続といった動的な情報を捕捉するために、モデルは様々な方式で選択的に拡張される。フレーム間差異または簡約化された特徴の傾向によりモデルをトレーニングすることにより、動きまたはフェードといった時間変化効果はモデル化される。
【００５１】
図１８は、本発明による画像クラス統計モデルを用いたビデオフレームの類似性を判定する方法を示す。工程１８０１で、現在分析中のフレームに対応する特徴ベクトルが検索される。工程１８０２で、その画像クラス統計モデルに対応する平均特徴ベクトルが検索される。工程１８０３で、特徴ベクトルからの平均特徴ベクトルの減算を表現する差分ベクトルが計算される。工程１８０４で、差分ベクトルの大きさが画像クラス統計モデルの標準偏差の所定の倍数と比較される。差の大きさが標準偏差の所定の倍数より小さい場合、工程１８０５はそのフレームを類似として分類する。差の大きさが標準偏差の所定の倍数より小さくなければ、工程１８０６がそのフレームを非類似として分類する。図１８に例示した類似性を判定する方法は、ガウスの公式による実際の確率計算を必要としないことに留意しなければならない。代わりに、差分ベクトルの大きさおよび標準偏差がユークリッド距離として計算される。差分ベクトルの大きさは、そのｄ個の成分の平方の和の平方根によって計算される。画像クラスの標準偏差は、対角共分散マトリックスの対角線上成分の和の平方根として計算される。
【００５２】
図１９は、本発明に従ってビデオの各種フレームを生成する画像クラス統計モデルの確率の対数表示を示している。対数は単調関数なので、確率の対数は、類似性の大小を判定するために確率を比較するのと同様に比較される。
【００５３】
図１９は、ほぼ１時間継続する試験ビデオにおけるスライド画像でトレーニングされたガウスモデルの対数尤度を示す。ビデオでスライドが実際に示された時を指示する「実地検証情報（ｇｒｏｕｎｄｔｒｕｔｈ）」は、上部付近の幅広のバーとして示されている。この対数尤度が、ビデオでスライドが示されている時の良好な指標であることは明らかである。（共分散マトリックスΣ_cから計算された）ある標準偏差で対数尤度をスレッショルドとすることは、個々のフレームを分類するうえで極めて効果的であることが示されている。（共分散から計算された）標準偏差の倍数で尤度をスレッショルドとすることは、クラスの帰属関係を検出するうえで極めて効果的であることが示されている。また、こうしたスレッショルドは使用される係数の数とはまったく独立である。
【００５４】
いずれかの特定のフレームまたはフレームのビデオセグメントと画像クラスとの間の類似性は、本発明に従って計算される。ガウスモデルの場合、所与のフレームの類似性測度は尤度であり、対数領域にあるものに代えることができる。ガウスモデルはまた、セグメント境界として機能する所与のスレッショルドを類似性測度が超えた時にそれらのフレームを見つけることによって、ビデオをセグメント化するためにも使用できる。時間モデルが存在しない場合、最小のセグメント長を求めるというような臨時の規則によりセグメント化を改善できる。
【００５５】
図２０は、本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数を表示する方法を示す。工程２００１で、画像クラス統計モデルによって生成されるフレームの確率がガウスの公式によって計算される。工程２００２で、確率の対数が計算される。工程２００３で、確率の対数が図１９と同様にして表示される。工程２００４において、さらにフレームが存在する場合は、２００６に分岐して工程２００１に戻り、それ以上フレームがない場合、工程２００５で終了する。
【００５６】
図２１は、特徴集合の成分の数ｄの関数として正しく分類されたフレームの割合、それらのフレームに適用された変換のタイプおよびｄ成分特徴集合の選択方法を示している。図２１は、離散コサイン変換およびアダマール変換の両者について、正しい分類の確度が、一般に、特徴集合が増加するにつれ変換係数の数とともに向上することを示している。トレース２１０１、２１０２および２１０３の下降部分は、各クラスがそうした大きな数の係数位置を有する特徴集合を判定するために十分なトレーニングフレームがトレーニング集合に存在しないことの結果である。言い換えれば、トレース２１０１、２１０２および２１０３の下降部分は、特徴ベクトルが由来するべきものとして合理的にモデル化されるガウス分布に倣うのではなく、トレーニングフレームの特徴ベクトルの実際のデータポイントに倣っていることを示している。分布に倣わせるためには、トレーニングフレームの数は特徴集合の変換係数の数よりも相当に多くなければならない。これは、与えられた数のトレーニングフレームを前提とする限り、特徴集合の変換係数位置を１００以下とすることが、計算上の負荷を軽くするだけでなく、より大きな特徴集合よりも効果的であることを実証する。
【００５７】
異なる変換方法での変換係数の数の影響を判定するために、全正確さ、すなわち、正しいカテゴリに認識されたサンプルの割合を計算した。図２１はその結果を示す。離散コサイン変換およびアダマール変換の主成分に関する認識分布がほぼ同一であることを指摘できるのは興味深い。最良の成績（８７％正確な）は１０個の主成分を用いて得られた。主成分分析を伴わない場合、分散順位づけ離散コサイン変換係数は３０をピークとするのに対し、アダマール変換は３００で若干高い確度を得る。アダマール変換はしばしば、離散コサイン変換と同様に知覚的特徴を保存しないということで批判されるが、この場合には多少すぐれているように思われる。直線アダマール変換ベースの関数は、シヌソイド離散コサイン変換系よりも良好に（スライドや壁といった）画像特徴を一致させるからである。
【００５８】
図２２は、本発明の方法に従ってスライドに類似であると見られるビデオの領域を表示するブラウザを示している。ブラウザ２２００は、スライドビデオ画像クラスに類似であると判断されるフレームより構成されるビデオ内の時間間隔を黒い垂直バーで示す時間バー２２０１を含む。
【００５９】
ユーザがビデオ内の興味のある部分を見つけるのを助成するためにビデオ分類を使用するアプリケーションが本発明に従って開発されている。長時間のビデオがそれを全体として見ることなく所望の情報を含むかどうかを判定することは単純ではない。インテリジェントメディアブラウザは、図２２に示すように、ビデオから抽出されたメタデータを利用することによってビデオに対するきめ細かいアクセスを可能にする。あるビデオに関する信頼度スコアが時間バーにグラフィカルに表示される。信頼度スコアは、ソースメディアストリームへのランダムアクセスに時間軸を使用することによりソースストリームにおける興味ある領域への貴重な糸口を付与する。例えば、スライドモデルの正規化対数尤度が図２２の時間バーに表示される。高尤度（信頼度）の２つの領域が灰色または黒色領域として視覚化され、それらはビデオにおけるスライド画像に対応する。時間軸上の点または領域を選択すると、対応する時間からメディアの再生を開始する。このようにして、興味のある部分となる高い可能性の時間間隔が、信頼度表示から視覚的に識別され、線形探索を伴わずに容易に調査できる。
【００６０】
図２３は、本発明に従ってビデオを分類する方法において使用される隠れマルコフモデルに対応するクラス遷移図を示す。画像クラスＧ、ＡおよびＢの各々はガウス分布を用いてモデル化される。同一のクラスに留まるかまたは別のクラスに遷移する遷移確率は、遷移矢印の横に示されている。
【００６１】
隠れマルコフモデルは、本発明に従ってビデオセグメントの継続時間およびシーケンス（順序）を明示的にモデル化できる。単純な実施例では、２状態隠れマルコフモデルの一方の状態は所望のクラスをモデル化し、他方の状態モデルは他のすべてをモデル化する（「ガーベージ」モデル）。多状態隠れマルコフモデルは、上記のガウスモデルを用いて、それらを平行に結合し、弧に沿って遷移ペナルティを加えることによって作成される。図２３は、そうしたモデルを示しており、状態Ｇがガーベージモデルであり、状態ＡおよびＢが所要のビデオクラスをモデル化している。（図示されたシーケンスは、ビデオクラスが２つの個別の成分ＡおよびＢを有し、ＡがＢの前に生起することを示唆している。多数の他のモデルシーケンスが可能である。）ビデオに対する最大尤度を使用した隠れマルコフモデルのアライメントはバイタービアルゴリズムによって決定される。これは、サンプルと類似しているセグメントおよび類似でないセグメントへのビデオのセグメント化をもたらす。さらに、観測されたビデオを生じるいずれかの特定の状態の尤度は、いずれかの特定のフレームについて選択的に決定され、探索、順位づけまたはブラウジングにおいて活用するための有用な類似性測度を与える。
【００６２】
図２３は、尤度スレッショルドを有する単一のガウスモデルが長時間のビデオから類似のショットをどのようにしてセグメント化できるかを示している。多様なショットモデルを使用することにより、尤度比または最大尤度を用いて、いずれのモデルにも良好に一致しないショットを排除するスレッショルドを選択的に有する多様なショットをセグメント化できる。異なるショットは、多様な代替計量を用いてそれらのガウスモデルを比較することによって、比較照合される。
【００６３】
クエリー状態の隠れマルコフモデル出力分布は、上記のガウスモデルに関してまさに説明した通り、係数特徴の単数または複数のガウスモデルとして代替的にモデル化される。選択的に、エルゴード的に（完全に）結合された複数の状態が、複数の混合ガウスモデルと同様にセグメントをモデル化するために使用される。単数または複数のガーベージモデルの出力分布もガウス分布である。そのパラメータは、ビデオデータベースから推定され、システムに記憶される。クエリーおよびガーベージ状態に留まる遷移確率は、例題データから推定されるかまたは、クエリーの長さおよびビデオにおけるクエリーの生起間の長さが変化し得るので、ユーザによって選択的に調整される。この方式の利点は、遷移確率がほとんどの隣接フレームを同一状態に拘束し、従って見かけ上のセグメント化または類似性スコアの変動を低減することである。
【００６４】
隠れマルコフモデルの公式化は、複数の状態および（音声認識における言語モデルに類似の）遷移グラフを用いてビデオの傾向またはシーケンスを捕捉するために強力に拡張されている。それ故、隠れマルコフモデルは、例えば、ニュース放送の開始を特徴づける放送局のロゴからニュースキャスターのショットへの遷移をモデル化するために選択的に使用される。この例で図２３について説明すれば、状態Ａは放送局のロゴをモデル化し、状態Ｂはニュースキャスターのショットをモデル化する。隠れマルコフモデルにおける暗示的シーケンス拘束のために、これは、Ａ−Ｂシーケンスにのみ一致しＢ−Ａシーケンスには一致せず、または、ＡまたはＢを孤立してセグメント化するのに対して、単純ガウスモデルは全部について高いスコアを生じる。
【００６５】
図２４は、図２３に示したクラス遷移図に対応する本発明に従ったクラス遷移確率マトリックスを示している。クラス遷移確率マトリックス２４００の行は以前のフレームのクラスを表し、マトリックス２４００の列は現在フレームのクラスを表す。クラス遷移確率マトリックス２４００の各列は、ある現在の画像クラスに関係するクラス遷移確率ベクトルである。図２３に示したクラス遷移図は以降のフレームについてクラスＧからクラスＢへの遷移を許していないので、マトリックス２４００の成分２４０１はゼロである。同様に、クラス遷移図２３００はクラスＢからクラスＡへの遷移を許していないので、マトリックス２４００の成分２４０２はゼロである。
【００６６】
図２５は、図２３に示したクラス遷移図に従った５つの連続した初期ビデオフレームに対応する可能なクラスシーケンスの全てを示す。クラス遷移図２３００はそのシーケンスがクラスＧで始まるように指示しているので、最初のフレームのクラスは図２５の枠２５０１に示されたＧである。しかし、第２のフレームは、それぞれ枠２５０２および２５０３に示されたクラスＧまたはクラスＡのどちらか一方となる。第２のフレームが枠２５０３で示されたクラスＡである場合、第３のフレームは、それぞれ枠２５０４、２４０５および２５０６に示されたクラスＧ、ＡまたはＢのいずれかとなる。クラスの確率は、そのクラスについて計算された尤度、以前のクラスの確率および、そのクラスへの遷移を生じるクラス遷移確率の関数である。各状態の確率は以下の式によって与えられる。
【００６７】
【数２】

【００６８】
図２６は、本発明によるクラス遷移確率マトリックスおよび画像クラス統計モデルによってビデオをセグメント化する方法を示している。方法は工程２６０１に始まる。工程２６０２で、可能性のある現在の状態の各々に対応する最も確からしい以前の状態が計算される。それらの計算は図２５に示した例に関する上記の式を用いて行われる。工程２６０３で、現在のフレームの尤度が、各画像クラスに対応するガウス関数によって可能な現在の状態の各々について計算される。工程２６０３での計算は、例えば図１２に示した方法１２００の工程１２０４において、計算された確率と同一である。工程２６０４で、全部の可能な状態に対応する現在の状態の確率が工程２６０３および２６０２による結果を用いて計算される。工程２６０４の計算は上記の式によって実行される。工程２６０２の計算は、現在の状態を仮定して式２、４および６を使用する。工程２６０４の計算は、上記の式１、３および５を使用する。検査２６０５はビデオの終わりに達したかどうかを判断し、否定されれば、工程２６０６はプロセスを次のフレームに進める。それが最後のフレームであれば、工程２６０５は処理を工程２６０６に渡し、そこでその最終状態が最大の全確率を有する状態として選択される。最終状態が選択された後、最も確からしい以前の状態が、上記の式２、４および６の以前の評価に従って選択される。言い換えれば、最終状態が既知であれば、以前の状態の全ては、工程２６０２ですでに行われた計算によって自明になる。工程２６０８で、さらにフレームが存在するかどうかが判定され、肯定されれば、工程２６０９はその以前のフレームを工程２６０７に渡し、工程２６０２ですでに計算された結果に従って次の以前の状態とのリンクの決定がなされる。第１のフレームが分類されると、処理は工程２６１０で終了する。
【００６９】
隠れマルコフモデルの場合、セグメント化は、最大尤度状態シーケンスを見つけるためのバイタービアルゴリズムによって行われる。これは、特定の状態または状態の群とアライメントされた全部のフレームがセグメントとしてみなされるので、最大尤度セグメント化を直接与える。隠れマルコフモデルの構造は、アライメントが（従来行われていたように局所的にではなく）ビデオ全体について計算されるので、このタスクに特に適している。このモデルに内在するシーケンスおよび継続時間の拘束は、他の方式の分類誤りによって生じ得る単一フレームセグメントといった誤りを効果的に禁止する。所与のフレームとクエリーとの間の類似性は、バイタービアルゴリズムにおいて、単数または複数のクエリー状態の事後確率として計算される。類似性測度が与えられと、ビデオのあらゆる集合は、クエリーセグメントとの類似性によってセグメント化および／または順位づけられる。これは、ビデオの大きな資料からの類似性による内容にもとづく検索を可能にする。
【００７０】
上述のように単純ガウスモデルはトレーニングフレームの平均を計算するので、ビデオシーケンスに関係する何らかの時間変化情報を失う。動的なシーケンス情報を捕捉するために、モデルは多様な方法で選択的に拡張される。フレーム間の差異または簡約化された特徴の傾向でモデルをトレーニングすることによって、動きまたはファクシミリといった時間変化効果はモデル化される。ビデオシーケンス間の類似性を見つけるために、２つのシーケンスのフレームのフレームごとの内積を合算することにより相関スコアが計算される。類似なシーケンスは大きな相関を有する。異なる長さの２つのシーケンス間の最良の一致を見つけるために動的プログラミングが選択的に使用される。本発明による動的事象を捕捉するすぐれた技法は、特徴出力確率をモデル化するためにガウス混合を用い、特に音声認識用に開発された効率的なトレーニングおよび認識アルゴリズムが与えられた、隠れマルコフモデルである。
【００７１】
ここで行った実験は、変換係数の統計モデルが低い誤差率でビデオフレームを迅速に分類することを実証している。この方式の計算の単純さおよび少ない記憶要求量は、本発明による対話型ビデオ検索といった用途を可能にする。
【００７２】
特定のビデオセグメントについてビデオデータベースを探索する際に、所望のビデオセグメントのタイプの記述を与えるよりも、例題を与えることによってクエリーを指定するほうが容易であることが多い。例えば、話を聞いている一群の人々を示すビデオのセグメントが望まれる場合、探索クエリーとしてシステムに群衆セグメントを単純に呈示することはより容易である。これは、選択されたセグメントに類似であるセグメントについて単一のビデオを探索する際に特に当てはまる。類似性による検索は、ユーザにとって容易であることに加え、実例からクエリーの良好なモデルを作成することが容易であるので、より正確であることが多い。
【００７３】
自動ビデオ分類は、ブラウジング、自動セグメント化および内容にもとづく検索といった広範な用途に有用である。自動分類を用いたアプリケーションは、特定の話者を示すビデオを検索するか、または、ビデオの再生中にその話者のいる領域を強調表示させるなどによって、ディジタル化ビデオをブラウジングおよび検索するうえでユーザを支援することができる。自動生成注釈は、ビデオテープ録画された会議から重要な情報を検索する際にユーザを支援することができる。このようなツールは、ユーザが、特定のビデオおよびそのビデオ内の対象となる領域の両方を突き止めなければならない場合に、ビデオの大きな集合を取り扱うのを助けることができる。こうしたあらゆる用途にとって、ビデオのトレーニング用集合は異なるビデオおよびオーディオクラスに従ってラベルづけされ、統計モデルはそのラベルづけされたセグメントでトレーニングされる。
【００７４】
本発明は、ビデオの類似性の統計的測度および、その類似性測度を使用して再生中にビデオの案内を助成するアプリケーションを含む。本発明によれば、類似性マッチングに使用されるビデオの領域を選択するための２つの異なるユーザインタフェースが開示される。
【００７５】
ブラウザは、ビデオ領域を選択し類似領域を自動的に見つけることによってユーザにビデオの構造を探索させるように設計されている。例えば、ニュース放送を見る場合、ユーザはニュースキャスターのショットを含む領域を選択する。システムはその後、類似の領域を自動的に検出し、それらをグラフィカルに表示しかつ自動索引点として示し、それによりユーザは、例えば、介在箇所を見ることなく次の類似領域に直接跳ぶことが可能になる。これらの索引は、以後のユーザのために保存し注釈を付けることができる。類似性索引は対話的にかつ極めて迅速に作成できる。
【００７６】
図２７は、本発明に従って類似性探索を実行する方法におけるデータの流れを示している。ソースビデオ２７０１は、トレーニングセグメントが抽出されるビデオを表す。変換特徴２７０２は、図２において変換特徴２０８がビデオファイル２０１から抽出されたのと同様にして、ソースビデオ２７０１から抽出される。工程２７０３は、トレーニングフレームの収集のためのトレーニング領域のユーザ選択を示している。工程２７０４で、ガウス画像クラス統計モデルが、平均特徴ベクトルおよび対角共分散マトリックスを比較することによりトレーニングされる。ビデオ２７０５は、類似性の探索のためのターゲットとされたビデオを表す。同様に、変換特徴２７０６が抽出される。工程２７０７において尤度計算が、工程２７０４でトレーニングされた画像クラス統計モデルを用いて行われ、得られた確率が工程２７０８でフレームごとに出力される。
【００７７】
図２７は、システムが実際にどのように使用されるかのブロック図を示す。ユーザは最初に単数または複数のビデオセグメントを選択することによりクエリーを実行する。クエリーの簡約化された離散コサイン変換またはアダマール変換係数が、オンザフライでの計算またはデータベースにルックアップのどちらか一方によって得られる。クエリーのモデルはその後これらの係数を用いてトレーニングされる。単純な場合、単純ガウスモデルが使用される。データベース内のビデオの簡約化された離散コサイン変換またはアダマール変換係数はシステムに提示され、尤度計算が実行される。これは、一連の類似性スコアおよび、類似および非類似セグメントへのセグメント化を生じる。類似性スコアはその後ブラウザに表示され、ユーザが類似のビデオセグメントを調査できるようにする。
【００７８】
類似性計算のデータは、図２の説明において前述したものと同様にして離散コサイン変換またはアダマール変換のどちらか一方によって得られる。この表現は、類似画像のフレームが類似の特徴を有するので、類似性を測定するために適切である。
【００７９】
変換法にもとづく類似性測度は、従来のカラーヒストグラム方式よりも多くの用途に関してすぐれている。特に、変換係数は、形状についてほとんど変化がないヒストグラムと異なり、画像における主要な形状およびテクスチャを表現する。例えば、左上および右下に同一物体がある２つの画像は、ヒストグラムでの相違はごくわずかであるが、本発明による変換ドメインにおいては顕著に異なる。現在の類似性測度は輝度だけにもとづいているが、後述の通り、この技法を色を使用するように拡張することは容易なはずである。
【００８０】
この変換法により可能なセグメント化およびモデル化の種類が比較的粗いことを指摘することは重要である。例えば、ニュース放送においてニュースキャスターとロケーションのショットとを識別することは単純であるが、特定のニュースキャスターを識別するといった、より精緻な区別はさらに特殊化されたデータ簡約化またはドメイン特定モデルを必要とするであろう。しかし、これらの技法は、例えば、群衆または自然のシーンを排除しつつ計算上高価な顔面識別アルゴリズムにより、以後の分析のために適切なクローズアップシーンを選択するといった、より精巧な方法の重要なフロントエンドまたはプレクラシファイヤとして代替的に機能する。
【００８１】
図２８は、本発明に従ってビデオに対応する特徴ベクトルデータベースを計算する方法を示している。迅速な尤度計算および画像クラス統計モデルの迅速なトレーニングを助成するために、ビデオのフレームに対応する特徴ベクトルを予備計算し、それを特徴データベースに記憶することが望ましい。工程２８０１で、フレームが離散コサイン変換またはアダマール変換によって変換される。工程２８０２で、変換係数マトリックスから特徴ベクトルが抽出される。工程２８０３で、特徴ベクトルが特徴ベクトルデータベースに記憶される。検査２８０４では、さらにフレームがあれば、次のフレームが工程２８０１に渡され、それ以上フレームがなければ、方法は工程２８０５で終了する。
【００８２】
ビデオ領域間の類似性を評価するために、ビデオフレームの類似性が開示される。各フレームは、離散コサイン変換またはアダマール変換といった正規直交射影によって変換される。変換が、下位ブロックではなく画像全体について行われた場合、係数は画像を正確に表現する。変換されたデータはその後、上述のように切り捨て、主成分分析または線形識別解析などのいずれかの技法によって簡約化される。ここに提示した用途の場合、最大分散係数以外の全部を破棄することが良好に作用する。その簡約化表現は、高度にコンパクトであり、元のフレームの顕著な情報を保存している。これは、元の画像を復元することを意図する、データ圧縮とは異なることに留意されたい。元のデータは表示および使用に利用可能であると前提されているので、変換プロセスを逆にする必要はまったくない。従って、この変換法は、コンパクト性または画像忠実度よりも分析のために最適化されている。
【００８３】
結果として得られるのは、各フレームのコンパクトな特徴ベクトルまたは簡約化された係数（１０〜３０パラメータ）である。この表現は、類似のフレームは類似の変換係数を有するので、ビデオの類似性を数量化するために適切である。特定のショットと隣接するフレームといった類似画像の集合をモデル化するために、ガウスモデルが例題フレームでトレーニングされる。ガウスの平均は例題フレームの平均を捕捉し、共分散は動きまたは照明の相違による変動をモデル化する。単一混合ガウスは、例題データに関して１パスで極めて迅速に選択的に計算され、例題フレームのおおよその構成および可変性をモデル化する。
【００８４】
多くの用途にとって、完全なビデオフレームレートは必要なく、フレームは、毎秒数フレームだけを変換する必要があるような時間で間引かれる。こうした要因は、記憶コストが実際上無視でき、係数が計算されれば計算時間は極めて迅速であることを意味する。従って、リアルタイムアプリケーションに使用される戦略は、簡約化された係数を予備計算し、それらをビデオとともに記憶し、対話的かつ迅速な類似性測定を可能にすることである。ＭＰＥＧ−７といった将来のフォーマットはそうしたメタデータをビデオデータとともに含めることを可能にするが、現在好ましい実施の形態による用途では、係数は個別のファイルに記憶される。
【００８５】
図２９は、本発明に従って統計モデルを対話的にトレーニングする方法を示す。工程２９０１で、トレーニングフレームまたはトレーニングセグメントがユーザにより対話的に選択される。工程２９０２で、工程２９０１で選択されたトレーニングフレームまたはセグメントに対応する特徴ベクトルが、直接の計算または特徴ベクトルデータベースのルックアップのどちらか一方によって得られる。工程２９０３で、トレーニングフレームに対応する特徴ベクトルから平均特徴ベクトルおよび対角共分散マトリックスを計算することによって、画像クラス統計モデルが構築される。
【００８６】
変換ドメインの１つの利点は、フレームを表現する特徴ベクトルの大きさが極めて控え目である（ＰＣＡ特徴についてフレーム当たり１０程度）ということである。クエリービデオトレーニングセグメントは、平均ベクトルおよび共分散マトリックスによってパラメータ化された多次元ガウス分布によりモデル化される。実際、特徴間のゼロ相関が前提とされるように対角共分散マトリックスを仮定することは普通であり、各特徴はガウス分布を有する独立のランダム変数であると仮定される。対角共分散マトリックス（すなわち非対角線上の成分がゼロである）は、モデルが高次元で頑強性を持つ（ロバスト）であるように仮定されている。ガウスモデルを用いてクラスをモデル化するために、トレーニング画像の集合について平均および共分散が計算される。クエリートレーニングセグメントは、平均ベクトルおよび共分散マトリックスを計算するために使用される。類似性スコアは、ビデオの各フレームについて、クエリー画像クラス統計モデルからフレームの尤度を計算することによって計算される。代替的に、より精巧なモデルは、ガウス混合を使用し、期待値最大化アルゴリズムを利用して、複数のパラメータおよび混合重み、それにより、複数のガウスモデルの各々に関係する複数の平均、分散および重み係数を評価する。しかしこれは、反復を要する。そうしたわけで、オンザフライで迅速に計算される単一混合ガウスモデルが仮定されている。
【００８７】
フレームの係数に平均値を設定し、分散を定数等の値に設定することによって、またはいずれかのトレーニング集合から得られた分散を使用することによって、ガウスモデルを生成するために単一フレームクエリーが選択的に使用されることに留意されたい。他のフレームまたは静止画像はその後、類似性についてスコアが付けられる。定数の分散はユークリッド距離計量を生じ、トレーニング分散はマハロノビシュ（ｍａｈａｌｏｎｏｂｉｓ）距離を生じる。従って、類似の静止フレームまたは画像は、それらを距離測度によって順位づけることによって集合から検索される。本発明によるこのシステムの別の変種は、ただ１個の画像をクエリーとして使用する従来の画像検索システムではなく、画像の群またはクラスでクエリーモデルがトレーニングされた場合である。
【００８８】
一度計算されると、任意のビデオフレームの類似性は、モデルがフレームを生成する尤度によって決定される。類似フレームは高い尤度を生じる。この方式は、会議ビデオの大きな資料での話者およびスライドといった所定のビデオクラスについて約９０％の分類率をもたらしている。ガウスモデルは、動きまたは照明の相違による変動をモデル化しつつ、画像クラスの特徴的な構成および形状を捕捉することができる。特徴ベクトルが計算されると、多数の用途が使用可能である。最も単純なものの１つは直接的な距離測度である。類似フレームは類似の特徴ベクトルを生じるので、特徴ベクトル間の距離を測定することにより画像距離の指標が得られる。
【００８９】
図３０は、本発明に従ってブラウザ内にビデオフレームを呈示し、類似性測度を表示する方法を示す。工程３００１でフレームの特徴ベクトルが検索される。工程３００２で、画像クラス統計モデルによって生成される特徴ベクトルの確率が計算される。工程３００３で、その確率がスレッショルドより大きいか否かが判定される。スレッショルドはやはりユーザによって対話的に定義される。工程３００２で計算された尤度がスレッショルドより大きければ、工程３００４はそのフレームを類似として索引づける。尤度がスレッショルドより小さければ、そのフレームを工程３００５で非類似として索引づける。工程３００６で、類似または非類似の類似性属性はそのフレームについてブラウザにグラフィカルに表示される。
【００９０】
いずれかの特定のフレームまたはビデオセグメントとクエリーセグメントとの間の類似性が計算される。ガウスモデルの場合、所与のフレームの類似性は尤度であり、代替的に対数ドメインに存在する。ガウスモデルはまた、セグメント境界として機能する、また、所与のスレッショルドを類似性が超えた場合に、それらのフレームを見つけることによってビデオをセグメント化するためにも使用される。継続時間モデルが存在しない場合、最小セグメント長を要求するような臨時の規則がセグメント化を改善させることができる。
【００９１】
図３１は、本発明に従って、対話的に定義されたトレーニングビデオセグメント、そのトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換、およびトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。フレーム３１０１はユーザによって対話的に定義されたトレーニング画像を表す。フレーム３１０２は、フレーム３１０１に示すトレーニング画像から得られた平均特徴ベクトルの逆離散コサイン変換を表す。フレーム３１０３は、フレーム３１０１に示すトレーニング画像から得られた平均特徴ベクトルに対応する逆アダマール変換を表す。
【００９２】
ビデオ類似の領域を突き止める本発明に従った方法は既述の通りである。類似性測度を用いるビデオブラウザを提供する、直接的なアプリケーションを以下に述べる。図３２は、１つのブラウザのプロトタイプのユーザインタフェースを示す。左上に通常のビデオ再生ウィンドウおよびコントロールがある。右側中ほどには、下部の時間バーに表示させる類似性スコアを選択するメニューコントロールがある。類似性スコアは、ビデオスライダバーと時間同期的に表示される。暗色領域は類似性の高い区間であり、濃くなるほど類似である。図は、表示されたフレームにあるように、暗い背景を背に中央にいる話者の中間クローズショットの類似性を示している。類似ショットの位置および程度は時間ラインの黒色バーで直接明らかとなる。
【００９３】
右側中ほどのスレッショルドスライダは、類似性スコアから索引点をどのように導き出すかを制御する。索引点は、時間バーの暗色（類似）領域の上部領域のやや明るいバーとして示されている。（この場合、これは主にＢ／Ｗ再現のためであり、索引点は類似性がスレッショルドを超えた時点に決定される。）時間バーの下の「｜＜＜」および「＞＞｜」のラベルが付けられたボタンは、再生点を次の索引点または前の索引点に自動的に進める。大きな類似性変動（多数の索引点）の領域では、ユーザは、スレッショルドを大きくすることによって最も重要な指標を選択できる。類似性が少ない領域では、ユーザは、スレッショルドを引き下げても索引点を見つけることができるが、信頼性が下がる。
【００９４】
図３２は、本発明による、トレーニングビデオセグメントを対話的に定義し類似性測度を表示するための時間バーおよびユーザスレッショルドマウス入力を受け取るためのスレッショルドスライダバーを備えるブラウザを示している。時間バー３２０１は、類似であるとみられるビデオのセグメントを縦の黒色バーとして示す。スレッショルドスライダバー３２０２は、類似性の検出に必要な確率スレッショルドを指定するためのユーザのマウス入力を受け取る。時間バー３２０１は、例えばトレーニングセグメント指定についてクリック・ドラッグ操作によってユーザトレーニングマウス入力を受け取るように動作可能である。
【００９５】
図３３は、ビデオの領域内のフレームを表示するためのスクロール可能ウィンドウ３３０１をさらに追加した図３２のブラウザを示す。詳細には、メインブラウザウィンドウに表示され、時間バースライダ３３０３の位置によって指示されるフレーム３３０２およびその前後のフレームが、スクロール可能ウィンドウ３３０１に表示される。
【００９６】
このウェブ（Ｗｅｂ）ベースのインタフェースは、極めて良好な概観を提供し、ビデオ全体の各種クラスをラベルづけるためのすぐれた選択となる一方で、ビデオ再生中の迅速な類似性探索のために特殊に仕上げられている。従って、水平スクロール可能ウィンドウ（図３３の下部参照）に周期的にサンプリングされた類似の静止画像を示す追加表示が、本発明に従って選択的に含まれる。再生中、ウィンドウは、再生ウィンドウと同期して留まるように自動的にスクロールする。時間的脈絡は、再生ウィンドウに示されたフレームに最も近い静止画像をスクロール可能ウィンドウの中央に置くことによって示される。ビデオが停止されると、静止画像は誘導案内用に使用される。関心のある領域にスクロールさせ、その静止画像上でダブルクリックすると、ビデオが対応する時間のビデオに位置づけられる。
【００９７】
類似性探索の区間は静止画像上でマウスをドラッグすることによって選択される。選択された領域は、スクロール可能ウィンドウおよび時間バーの下部の両方に明緑色バーにより指示される。ビデオの小さな部分だけがスクロール可能ウィンドウの時間範囲内に表示されるので、示される選択領域はもっと大きなものである。図３３で、スクロール可能ウィンドウに表示された選択領域は、スライダの爪のすぐ下のごく小さな領域に対応する。さらに、あらゆる時間依存媒体の場合と同様、ビデオに伴う問題は、何が選択されたのかが再生してみなければ必ずしも明白にならないということである。
【００９８】
類似性索引を作成するためには、最初に例題ビデオを選択しなければならない。１つのインタフェース方法は、ビデオの領域を選択するために図３２および図３３の時間バーで単純にクリック・ドラッグすることである。あらゆる時間依存媒体の場合と同様、ビデオに伴う問題は、何が選択されたのかが再生してみなければ必ずしも明白にならないということである。前述の類似性測度の場合、最良の結果は、ソースビデオが、例えば同一のショットに由来するといったように、合理的に類似である場合に得られる。クリック・ドラッグ選択は、テキストの場合には効果的であるが、時としてユーザがほとんど気づかずに不要なビデオが選択される結果をもたらす。また、非接触選択も代替的に有効である。
【００９９】
図３４は、１個以上のトレーニングビデオセグメントの終点を対話的に選択し、周期的フレームの類似性測度を表示するためにビデオの周期的フレームを表示するウェブベースのインタフェースを示す。ビデオ全体は最初に、図３４に示されたように表示される周期的フレームに分割される。各周期的フレームは、ユーザがその周期的フレームを選択し、それをフレームセグメントに包含させるようにするチェックボックスを備える。隣接する周期的フレームがチェックされると、その２つのチェックされた周期的フレーム間の後続のビデオの全部の非表示フレームは、トレーニングセグメントの一部となる。例えば、周期的フレーム３４０１と周期的フレーム３４０２との間のビデオの全部のフレームはトレーニングセグメントに含まれる。ビデオの類似性探索が行われると、周期的フレームに対応する類似性情報は、周期的フレームの周囲の矩形ボックスの陰影として選択的に表示される。
【０１００】
図３４は、選択された領域の視覚化と同時に非接触選択のサポートを可能にするビデオ領域選択用のウェブベースのアプリケーションを示している。このアプリケーションでは、ビデオは、通常の区間で切り取られた一連のキーフレームとして表される。図３４は、選択された領域の視覚化と同時に非接触選択のサポートを可能にするビデオ領域選択用のウェブベースのアプリケーションを示している。このアプリケーションでは、ビデオは、通常の区間として切り取られた一連のキーフレームとして表され、それらのビデオにおける時間（秒単位）とともに示される。ビデオ録画プレゼンテーションの場合には５秒間隔が適切であるが、他の用途ではそれより速いかまたは遅いレートも選択的に好適である。ユーザは、各フレームの下のチェックボックスをクリックすることによって複数のキーフレームを選択する。隣接して選択されたキーフレーム間のビデオの全フレームについてモデルがトレーニングされる。このインタフェースは、終点を精確に位置決め可能とし、選択されたビデオ内容を明示的に表示するという理由で、クリック・ドラッグよりもある点ですぐれている。また図３４は、非接触選択が複数の区間を次々と選択することにより可能であることも示している。このインタフェースは、簡潔な表示により、ユーザが一目で関心のある領域を見つけられるようにする。通常サイズのウェブブラウザでは、１０分のビデオに対応する１２０個の画像がウィンドウに示され、残りのビデオもスクロールによって容易にアクセス可能である。インタフェースは、様々なクラスの画像への様々なラベルの割り当てもサポートする。以前に割り当てられたラベルは表示ではカラーコード化される。選択されたビデオの類似性は、ほぼ即時的に計算され、図３２および図３３のブラウザに表示されるか、または、スレッショルドで切られ、図３４のように各フレームの周囲に異なる色でウェブインタフェースに表示される。
【０１０１】
図３５は、本発明に従って離散コサイン変換およびアダマール変換係数によって計算されたビデオの類似性マトリックスを示す。距離計量の利用を示すために、全部のフレーム間の類似性を計算し、結果のマトリックスを画像として表示することにより、ビデオの自己類似性を視覚化することができる。図３５は、スタッフ会議のビデオの距離マトリックスを示す。位置（ｉ，ｊ）の各画素は、類似フレームであればあるほど色濃くなるように、フレームｉとフレームｊとの間の距離に比例して着色されている。各軸の単位は秒単位での時間であり、各点は、最高分散を有する１００個の離散コサイン変換およびアダマール変換係数間のユークリッド距離に比例して着色されている。アダマール変換ドメインに関して従来しばしばなされた批判は、知覚的相違と良好に相関しないということである。アダマール変換は一般にクラスタ化およびモデル化について同様に良好に作用するが、距離がアダマール変換および離散コサイン変換の両方の表現に関して極めて類似であることを指摘しておくことは興味深い。ｉ＝ｊにおける黒色直交線は、フレームがそれら自身と同一であることを指示する。いくつかの特徴が目につき、後続部分と類似でないビデオの始まりの導入期間が存在し、それは約５００秒続くことが容易にわかる。
【０１０２】
右下隅の４個の濃色の正方形は、スライドプレゼンテーションの２つのロングショットに由来する。個々のスライドの変化はその中に見ることができるが、それらは聴衆または話者のカットよりも小さい大きさののものである。これらのスライドは、約５５０秒に開始する別のスライドプレゼンテーションとも極めて類似であり、同じく自己類似である聴衆のショットとインターカットし、「チェッカーボード」パターンを生じる。またスライドは、１６００秒および１９００秒のコンピュータデスクトップのショットともある程度類似であり、それらの領域を濃色に見せているが、他のスライド領域ほど濃くはない。これらのマトリックスは全体的に直観的ではなく、いずれかの特定の時間に得られる「スライス」は、ビデオの残部に対するその時間におけるそのフレームの類似性を示している。図３２および図３３の時間バーとして提示されると、これは、単一のフレームが類似のビデオ領域を見つけるためにどのように使用されるかを示すが、ガウスモデルは、分散をモデル化できるためによりロバストである傾向がある。
【０１０３】
本発明はまた、カラー情報にもとづき１個以上の付加的なシグネーチャを計算することによって、カラー検索を行うための改良を含む。これは、特徴ベクトルによって表現される現行の輝度（Ｙ）シグネーチャに付加するために画像の色成分（ＹＵＶ色空間におけるＵＶ成分）に関する付加的な特徴シグネーチャを計算することによって実現される。色成分は少ない空間解像度を要するので、それらは少ないシグネーチャで表現される。本質的に、フレームの色成分の変換からの変換係数位置が選択され、特徴ベクトルに追加され、それにより、特徴ベクトルは同一カラーフレームから得られた輝度フレームおよび色フレームの両方の変換からの係数を含む。
【０１０４】
別の代替法によれば、ＹＵＢまたはＲＧＢの各カラー成分は個別の画像フレームとして扱われる。従って、各フレームに対して３つの変換が適用され、シグネーチャ（特徴ベクトル）は各個別画像について計算されて比較される。これは、類似性計量における全カラーによる重みづけを可能にする。カラー情報の包含のための本発明に従ったさらに別の代替法は、この検索技法と別の、例えばカラーヒストグラムにもとづく技法との組合せである。初期の類似性工程において、画像は輝度特徴ベクトルによって類似性がわかる。その画像を領域に分解し、各領域についてカラーヒストグラムを計算することによって、画像における空間情報の一部が保存される。最終類似性工程では、初期類似性工程から得られた最上位画像が、カラーヒストグラム類似性評価法または他の類似性評価法によって類似性について再度スコアが付けられる。
【０１０５】
カラーは、多くの種類のビデオ画像にとって、例えばコンピュータプレゼンテーションがスライドの背景色だけで識別できる場合が多いスタッフ会議のビデオにおいて、有効な糸口である。また、動きまたは時間シーケンスのモデル化も多くの用途で極めて有用であり、より強力な統計モデルがそれを可能にする。
【０１０６】
ガウスモデルは多くの用途にとって有効であるが、区間内の全部の変化が平均化されるという短所を有する。時間的シーケンスまたは継続時間を捕捉することが重要である場合、隠れマルコフモデルが代替的に使用される。隠れマルコフモデルの出力分布は、まさしく前述の通り、特徴ベクトル上の単数または複数のガウスモデルとしてモデル化される。隠れマルコフモデルの利点は、各状態が暗示的または明示的な継続時間モデルを有することである。これは、（過度に長いまたは短い）ありそうにもない継続時間のショットにペナルティーを科す因子を尤度計算に加える。これは、継続時間モデルが同一状態と最も隣接するフレームを拘束し、従って擬似的なショット境界を低減するので、単純な最大尤度フレーム分類よりも有効である。
【０１０７】
隠れマルコフモデルでの公式化は、複数の状態および（音声認識における言語モデルに類似の）遷移グラフを用いてビデオの傾向またはシーケンスを捕捉するために選択的に強力に拡張される。従って、隠れマルコフモデルは、例えば、ニュース放送の開始を特徴づける放送局のロゴからニュースキャスターのショットへの遷移をモデル化するために選択的に使用される。隠れマルコフモデルに内在するシーケンス拘束のために、これは、放送の終了時に多く生じるニュースキャスターのショットから放送局のロゴへの遷移には一致しないが、単純ガウスモデルは両者の場合について高いスコアを生じる。
【０１０８】
また、元の特徴ベクトルのフレーム間差異として計算される差分表現も有用である。パーセヴァルの関係によって、各ベクトルのノルムは、画素の差のノルムに（ほぼ）比例する。従って、カットまたはカメラの移動によって生じた大きなフレーム間差異は、差分ベクトルのノルムを計算することによって容易に検出される。あるいはまた、それらは、動きを捕捉する追加の特徴を形成するために元の特徴ベクトルと連結される。
【０１０９】
本発明に従った類似性探索の方法は、類似のビデオ領域を見つける迅速かつ強力な手段を記述する。ユーザが例題ビデオを用いてクエリーを指定できるようにすることは、テキストベースまたはスケッチベースのインタフェースを凌ぐ進歩である。この技法は、大きなビデオコレクションに、さらにカラーまたは時間的類似性の測度に容易に拡張される。
【０１１０】
週毎のスタッフ会議が、複数のビデオカメラおよびマイクロフォンが装備された会議室で開かれることもある。会議は、経営陣およびスタッフによる全体発表に始まり、その後個々の職員によるプレゼンテーションに進む。プレゼンテーションは通常１人によって行われ、オーバヘッドプロジェクタまたはコンピュータによるスライドといったグラフィックスを含み、一般に会議では１つ以上のプレゼンテーションが行われる。カメラ担当者は、部屋のカメラを切換え、ビデオ録画のショットを提示する。ビデオはＭＰＥＧ符号化され、社内イントラネットによってスタッフに利用可能となる。
【０１１１】
図３６は、本発明に従ったオーディオ・ビジュアル記録物をセグメント化する方法に対応するデータの流れを示す。ソースビデオ３６０１は工程３６０２でスライド領域を見つけるために分析される。ソースビデオ３６０１のオーディオチャネルは、スライド区間に対応するソースビデオ３６０１の領域について工程３６０３で抽出される。工程３６０３で抽出されたオーディオ区間は、話者ごとに工程３６０４でクラスタ化される。すなわち、オーディオ区間は、相互に比較照合され、それらのソースに従って分類される。得られたオーディオ区間のクラスタは、各々が単一話者に由来するものとみなされる。同一話者クラスタのオーディオ区間は工程３６０５で併合される。工程３６０６で、ソース特定話者モデルが各併合オーディオ区間についてトレーニングされる。工程３６０７で、ソースビデオ３６０１のオーディオチャネルは、話者認識によって話者ごとにセグメント化される。オーディオチャネルによるセグメント化の結果は、以後のブラウジングおよびソース特定検索操作のためにソースビデオ３６０１およびソースオーディオ３６０８において索引づけられる。
【０１１２】
図３７は、２人の話者による２つのプレゼンテーションを有する記録された会議のスライドであるオーディオ・ビジュアル記録物のフレームの確率の対数を示す。話者Ａのプレゼンテーションの範囲を示すラベル３７０１は、ビデオを見ている人間のユーザにより得られた話者Ａのプレゼンテーションの実際に観測された継続時間である。同様に、話者Ｂの指標３７０２は話者Ｂのプレゼンテーションの全範囲を示す。
【０１１３】
各フレームのコンパクトな特徴ベクトル（簡約化された係数）が上述の通り計算される。対角共分散ガウスモデルは、いくつかの無関係な会議ビデオからのスライド画像でトレーニングされている。このモデルは、各ビデオフレームに関する尤度を生成するために使用され、それはそのフレームがスライドであるという対数尤度を測定する。１個の標準偏差をスレッショルドとした場合、そのビデオにおいてスライドが表示された時点の確実な評価値を生じる。下記の表３に示すように、スライドは９４％の確度でプレゼンテーションと関係づけられた。２０秒以上の長さのスライド区間がシステムの候補スピーチ区間として使用される。図３７は、スタッフ会議のスライドの対数尤度のプロットを示している。２０秒以上の長さの上記のスレッショルド（点線）である判定基準を満たす４個の区間が存在し、それらは１、２、３および４のラベルが付けられている。この特定の会議において、それぞれＡおよびＢのラベルが付けられた２人の話者により行われた２つのプレゼンテーションが存在した。各プレゼンテーションの範囲は図３７の上部に示されており、それはセグメント化実験に関する実地検証情報として機能する。話者Ｂのプレゼンテーションは、スライドが表示された期間の２倍以上続けられたことに留意されたい。
【０１１４】
【表３】

【０１１５】
図３８は、図３６に示した工程３６０４および３６０５に示したような本発明に従ったオーディオ区間に適用されるクラスタ化方法におけるデータの流れを示す。オーディオ区間３８０１〜３８０４は、図３６に示したソースオーディオ３６０８から抽出された、図３７で１、２、３および４のラベルが付けられた４個のオーディオ区間を表している。オーディオ区間３８０１〜３８０４はオーディオベクトル３８０５〜３８０８にパラメータ化される。クラスタ化法３８０９がオーディオベクトル３８０５〜３８０８に適用され、相互に小さいユークリッド距離を有するオーディオベクトルに集塊させる。クラスタ化法３８０９の結果は、それぞれ話者ＡおよびＢに対応するオーディオ区間３８１０およびオーディオ区間３８１１と併合される。
【０１１６】
ある話者の口から数センチメートル以上離れたファーフィールドマイクロフォンによって話者識別を行うことは特に困難である。記録された会議でのオーディオは演壇マイクロフォンまたは他のクローズトーキングマイクロフォンではなく複数の天井マイクロフォンから得られるので、話者識別は特に困難になる。実際にあらゆる話者識別技法は、特定の話者を特徴づけるためにメル周波数ケプストラル係数（ｍｅｌ−ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒａｌｃｏｅｆｆｉｃｉｅｎｔ）といった何らかの種類のオーディオスペクトル測度を使用する。あらゆる現実的環境におけるファーフィールドマイクロフォンは、直接的に、また、壁、床、机といった環境配置によって反射された音声を拾ってしまう。こうしたマルチパス反射は、音声の周波数スペクトルを著しく変更するくし形フィルタ効果をもたらす。この問題は、（遠隔会議システムにおいて普通に行われているように）複数のマイクロフォンからの信号を混合することによってさらに悪化する。部屋の共鳴による付加的な効果も各マイクロフォンの周波数応答に影響する。共鳴およびくし形フィルタ効果はともに、室内の話者の位置により著しくかつ予測不可能に変化する。これは、トレーニングスピーチのサンプルを使用して話者モデルをトレーニングする現在の話者識別法を、ファーフィールドマイクロフォン環境にとって特に不適にさせる。音響環境によるスペクトル変化はしばしば、話者間のスペクトル差異とほとんど同じ程度の大きさである。
【０１１７】
予測できない室内音響によるトレーニングデータと試験データとの間の不可避的な不一致を回避するために、本システムは本質的に、単一話者によって発せられたと思えるセグメントを抽出することによって試験データからトレーニングデータを取得する。現在の実施の形態において、これは、単一話者のスピーチがスライドといったプレゼンテーション視覚物の表示と相関していると仮定することによって行われる。（仮定されたスタッフ会議の領域分野では、この仮定は、完全にではないが通常は、所与のスライド区間において質問、笑声または他の感嘆が頻繁に存在するので、正確である。）
【０１１８】
単純な顔面またはニュースキャスター検出といった他のビデオ分析は同様に使用される。本発明に従った代替法として、顔面認識は、ビデオ区間を特定の話者と関係づけるために使用されるオーディオクラスタ化を強化または代替できる。
【０１１９】
次の工程は、何人の話者がスライドプレゼンテーションを行ったかを判定するために候補区間をクラスタ化することである。これは、任意の数のクラスタ化技法のいずれかによって行えるが、現在の実施の形態の場合、オーディオ類似性の極めて単純な測度が使用される。各オーディオ区間はメル周波数ケプストラル係数にパラメータ化され、各区間の係数の平均が比較照合される。ユークリッド距離測度および、最大距離の１／２をスレッショルドとする集塊クラスタ化法によって、各話者候補に関する個別のクラスタが得られる。クラスタ化スレッショルドは、いずれかの既存のクラスタに十分に類似でない区間を排除する。例えば、あるスライドに関するクエリーがなされる場合、得られる区間はほとんど、多数の異なる話者からのスピーチを含む。より精緻な距離およびクラスタ化法、例えば、ノンパラメトリック類似性測度、尤度比距離および／または可変スレッショルドクラスタ化といった方法が選択的に使用される。隣接セグメントのクラスタ化を助成するために距離測度にバイアスをかけるといった付加的な拘束または、話者の数に関する事前の知識を使用することにより、選択的にクラスタ化を改善させることもできる。前述の通り、自動顔面認識は音響クラスタ化を代替的に強化または代替できる。
【０１２０】
図３９は、本発明に従った一連の話者単位より構成される話者遷移モデルを示す。フィラーモデル３９０１、３９０３および３９０３は、例えばビデオの非単一話者セグメントでトレーニングされるオーディオモデルを表す。話者モデル３９０４は、図３８に示した併合オーディオ区間３８１０でトレーニングされる話者モデルを表す。話者モデル３９０５は、図３８に示した併合オーディオ区間３８１１でトレーニングされるモデルを表す。話者単位３８０６および３９０７は、セグメント化における話者シーケンスの知識によってソースオーディオ３６０８をセグメント化するために図３６に示す工程３６０７で使用される隠れマルコフモデルを形成するために連結される。
【０１２１】
クラスタ化の結果から、プレゼンテーションを行う話者の数および彼らが話す順番が決定される。これは隠れマルコフモデルを用いてビデオをセグメント化できるようにする。さらに、クラスタ化されたオーディオセグメントは各話者モデルをトレーニングするために使用される。クラスタ化の結果から、ビデオの時間範囲をモデル化するために隠れマルコフモデルが自動的に構築される。図３９はモデルの構造を示している。「フィラー」モデルは、発表者の話以外とみなされるオーディオを表す。この実施の形態では、フィラーモデルは、ソースビデオの最初の２分間からのオーディオと同様、他の会議ビデオからセグメント化された沈黙、笑声、称賛および聴衆の雑音でトレーニングされ、それはプレゼンテーションの話者による話を含まないとみなされる。フィラーモデルは、多重事例化されているが、好ましくは各事例で同一である。話者特定モデルはプレゼンテーションの話者からの話を表す。各話者特定モデルは、それに関係する結合されたスライド区間のクラスタからのオーディオでトレーニングされる。話者モデルおよび選択的なフィラーモデルを連結することにより「話者単位」が得られる。それらは、話者ごとに１個ずつ連結され、最終モデルを生じる。これにより正しい話者シーケンスが得られる。セグメント化は、完全モデルによりソースオーディオの最大尤度アライメントを見つけるためにバイタービアルゴリズムによって実行される。これは、スライドが表示される区間と実質的には異なる可能性があるので、各発表者の話の範囲を決定可能にする。特に、話者が話している間に話者のショット、聴衆のショットおよびプレゼンテーションスライドの間で交替が起こることはビデオにとって普通である。この実施の形態では、フィラーモデルおよび話者モデルともに単一の状態を有しており、単一混合の全共分散ガウス出力分布を有する。モデルが単一状態および単一混合を有するので、それらは１パスで迅速にトレーニングされる。複数状態または複数混合モデルは、より高価なトレーニングによって性能を改善できよう。自己遷移はいかなるペナルティーも伴わずに可能であり、明示的な時間継続をいっさい持たないエルゴード的モデルを生じる。これにより、モデルは、いかなる確率ペナルティーも伴わずに所与の時間長を表現することができる。
【０１２２】
図４０は、本発明によるオーディオ・ビジュアル記録物をセグメント化する方法のセグメント化の結果を例示している。このように、話者Ａの指標４００１は、話者Ａのプレゼンテーションの実際の継続時間４００３にほぼ重なり合っている話者Ａのセグメント化を表す。話者Ｂのセグメント化指標４００２は、セグメント化が実際の話者Ｂの継続時間４００４にほぼ重なり合う結果となったことを表す。このようにして、話者Ａの指標４００１および話者Ｂの指標４００２は、本発明によるセグメント化によって作成される索引より導出される。
【０１２３】
図４０は、会議のソースビデオに関する自動セグメント化の結果を示す。不利な音響環境（利得制御を伴う６個のファーフィールドマイクロフォン）にもかかわらず、２人の話者は識別され、彼らのプレゼンテーションの範囲は、数十秒以内まで合理的に良好にセグメント化された。これはビデオのセグメント化およびブラウズにとって明らかに妥当である。最大の不一致は話者Ａのプレゼンテーションの終わりにあり、それは事実上話者Ｂのプレゼンテーションの開始まで続くようにセグメント化された。これはたぶん、２人の話者が、映写装置の詳細を話し合っていたのでその区間に話をしていたためであろう。
【０１２４】
単一の会議を選択するために使用される同じ技法は、同じ話者の組を含む複数の会議に対しても選択的に適用される。個々の会議からのプレゼンテーションは会議の資料について選択的にクラスタ化される。これは発表者の目録を作成可能にする。それが潜在的に異なる音響環境（部屋の位置）における同一話者の話の十分な実例を含んでいれば、より強固な、位置に依存しない話者モデルが選択的にトレーニングされる。さらに、会議進行表において話者が識別されていれば、話者モデルは以後の識別および検索のために氏名と関係づけられる。
【０１２５】
スライドプレゼンテーションを含む６本のビデオ録画された会議が試験資料として使用された。オーディオフィラーモデルおよびスライド画像のトレーニングデータは別の組のビデオから得た。６本のビデオの合計長さは２８０分２１秒であり、約４５分の平均長であった。各ビデオは１〜５本のプレゼンテーションを含み、合計１６本であったが、３本のプレゼンテーションはビデオおよびスライドを含んでおり、ほとんどが聴衆の質問または注釈を有していた。プレゼンテーションは一般にスライド区間の継続時間より長いので、スライドの存在はプレゼンテーションの良好な指標であり、スライドだけからプレゼンテーションを見つけることはプレゼンテーションの７５％を見逃す結果となった。表３の第２行は、話者のセグメント化がこれをどれほど改善させるかを示す。プレゼンテーションの約５％だけがプレゼンテーション以外のものであると誤って識別された。
【０１２６】
１６本のプレゼンテーションにもとづき、（ビデオおよび変則的なオーディオによる付加的な終点とともに）合計３２個の検出すべき終点が存在した。実際の話者の話の開始または終了の１５秒以内に生じていれば、終点は正確であるとみなした。表４は終点の位置の確度を示す。クラスタ化以前に、５７のスライド区間による１１４個の終点が存在した。検出すべき３２個の関連する終点の実地検証情報が与えられ、２６個の終点が正確に突き止められて、これは０．２３の精度による０．８１のリコールをもたらし、ほとんどの終点は見つかったが、それが正しい終点である可能性が１／４未満であることを意味する。５７個のアライメントされたセグメントをクラスタ化することにより２３個のクラスタを得たが、これは不正確な終点の数を減らすことにより精度を劇的に改善させた。検出された終点のうち少なくとも２個はプレゼンテーションに対するビデオ区間によっており、精度は不当に悲観的であることに留意されたい。非理想的オーディオ環境もクラスタ化問題を生じた。マイクロフォンはＨＶＡＣベント付近の音響天井タイルに設置されている。いくつかのプレゼンテーションは換気雑音の有無により誤ってクラスタ化された。これは音響信号に大きな影響を与え、同じ話者も換気システムの状態によって別様にクラスタ化され、一部のクラスタ境界はまさに換気スイッチのオンオフにより生じている。
【０１２７】
【表４】

【０１２８】
本発明によるこれらの方法は、会議ビデオの他に、個々の話者が識別可能なビデオ特徴に関係づけられるあらゆる分野に適用可能である。一例は、ニュースキャスターのショットが画像構成および背景により識別できる場合が多い、ニュース放送である。話者識別の使用により、ロケーションまたは他の介在ビデオが存在する場合でも、ニュースキャスターによるニュース記事のセグメント化が可能である。
【０１２９】
図４１は、本発明に従ったセグメント間音響距離マトリックスを示す。対角線上成分４１０１〜４１０５は、各セグメントがそれ自体に類似であることを示す黒色である。灰色領域４１０６および４１０７は、ソースオーディオの始まりおよび終わりにおけるオーディオ区間の部分的類似性を表す。白色領域はオーディオセグメントの非類似を表す。
【０１３０】
多くの場合、例えば図４０でラベル２、３および４が付けられたような、同一話者に対応する複数の隣接区間が存在する。クラスタ化は、尤度比距離などの多くの技法によって代替的に実行される。ここで使用するクラスタ化法は、ノンパラメトリック距離測度にもとづく。オーディオセグメントにパラメータ化されたメル周波数ケプストラル成分は、クラス境界を見つけるために最大相互情報量評価基準を用いて監視ベクトル量子化数をトレーニングするために使用される。トレーニングされると、セグメントはベクトル量子化され、二項分布のヒストグラムが作成される。このヒストグラムは、オーディオファイルのシグネーチャとして機能し、ベクトルとして処理される場合には２つのヒストグラム間のコサインはオーディオ類似性の良好な測度として機能する。図４１はこの測度を用いて計算された距離マトリックスを示す。これは、単一の会議ビデオからの１２個のスライド領域の間のオーディオ類似性を示している。各成分ｉ，ｊは、より近い距離、すなわちより類似性であるものが濃色になるように、セグメントｉおよびｊの間の距離を図示するように着色されている。図４１から、各々が特定の話者による話に対応する、いくつかの音響的に類似の群が存在することは明白である。例外は、中央の話者のプレゼンテーションにおいて示されたビデオからのタイトルに対応する、セグメント７によるものである。このような距離マトリックスは、単一話者に対応する類似区間を見つけるためにクラスタ化される。いずれかの種類の階層的クラスタ化が選択的に使用されるが、ここで採った単純な方式は、各自の距離のいずれもスレッショルドを超えない限り、全部の隣接セグメントを同一クラスタの一部であるとみなすことによって、クラスタメンバーの時間隣接性を強制することであった。図４１のセグメントの場合、これは以下のように５個のクラスタとなった。
（１，２，３，４，５）−−−（６）−−−（７）−−−（８）−−−（９，１０，１１，１２）
【０１３１】
実地検証情報は３つのプレゼンテーションが存在するということであったので、このクラスタ化法は、第２のプレゼンテーションを、オーディオ距離にもとづき３個に誤ってセグメント化した。重要な目的はビデオブラウジングのための索引を見つけることなので、それは絶望的な誤りではない。プレゼンテーションが開始した時点と同様、ビデオが表示された時点を見つけることも望ましい。より精緻なクラスタ化方法は、図４１のセグメント７といったオーディオアウトライアーまたは、質問や称賛といった他の変則的オーディオを無視するために使用される。
【０１３２】
セグメント化プロセスにおける第１工程は、ビデオにおけるスライドを突き止めることである。これは、プレゼンテーショングラフィックスがそのビデオにおいて表示される時点の正確な推定値をもたらす、上述の本発明による技法によって行われる。元のＭＰＥＧ−１ビデオは、時間に関して２フレーム／秒に、空間に関して６４×６４画素表現の下位画像に間引かれる。各簡約化されたフレームはその後、離散コサイン変換またはアダマール変換によって変換される。変換は、画像圧縮の場合に普通である小さな下位ブロックに対してではなく、フレーム画像全体に適用される。変換されたデータはその後、その１００個の主成分に射影により簡約化される。
【０１３３】
図４２は、本発明に従って、スライドビデオ画像と類似である所定の時間間隔よりも長い１個以上のビデオフレーム区間を識別する方法を示している。工程４２０１で、ビデオは時間および空間に関して間引かれる。工程４２０２で、フレームは離散コサイン変換またはアダマール変換によって変換される。工程４２０３では、工程４２０２で計算された変換マトリックスから特徴ベクトルが抽出される。工程４２０４で、スライドの確率がスライド画像クラスのガウスモデルを用いて計算される。工程４２０５では、工程４２０４において計算された尤度が、そのフレームがスライド画像クラスと類似であるか否かを判定するためにスレッショルドと比較される。それがスライドであると判定されると、工程４２０６は、以前のＮフレームもスライドであったかどうかを検査する。Ｎは、工程４２０７でスライド区間が見つかる前に、検出されるスライドの所定の時間間隔が超えられなければならないように選択される。例えば、２０秒のスライドスレッショルドで、２フレーム／秒に間引く場合、Ｎは４０であるように選択される。従って、単一フレームがスライドであると判定されたが、そのスライドフレーム以前のフレームおよびスライドフレーム以降のフレームがスライドでなければ、スライド区間はラベルづけされない。工程４２０５がそのフレームは非スライドであると判定した場合または現在のフレームはスライドであるが以前のＮフレームはスライドではないと判定した場合、工程４２０８は、ビデオの終わりに到達したかどうかを検査する。さらにフレームがある場合、方法は再び工程４２０２からその次のフレームに対して開始する。ビデオの終わりに到達していれば、方法は図４３に進む。
【０１３４】
図４３は、本発明に従ったスライド区間から抽出されたオーディオ区間によるソース特定話者モデルをトレーニングする方法を示している。工程４３０１で、スライド区間に対応するオーディオ区間が抽出される。この抽出は、そのスライド区間が抽出されたソースビデオ３６０１に対応する図３６に示したソースオーディオ３６０８により行われる。工程４３０２で、最初のオーディオ区間がメル周波数ケプストラル係数にパラメータ化される。オーディオ区間に対応する多様なメル周波数ケプストラル係数ベクトルは、そのオーディオ区間に対応するオーディオ係数平均ベクトルを生成するために工程４３０３で平均化される。さらにオーディオ区間があれば、工程４３０４は、次のオーディオ区間の処理のために方法を工程４３０２に戻す。全部のオーディオ区間がパラメータ化され、オーディオ係数平均ベクトルが各オーディオ区間について計算されると、オーディオ区間は工程４３０５でクラスタ化される。工程４３０５は同一話者判定基準によってオーディオ区間をクラスタ化する。すなわち、ユークリッド距離に関して相互に十分に近いオーディオ係数平均ベクトルを有するオーディオ区間は、同一話者によるものであると判断される。工程４３０６で、同一クラスタのオーディオ区間が併合される。工程４３０７で、第１の話者モデルが第１の併合オーディオ区間でトレーニングされる。検査４３０８は、併合オーディオ区間のクラスタがさらに存在するかどうかが判断される。肯定であれば、工程４３０７は、一意的に決まる話者モデルをトレーニングするために全部の併合オーディオ区間が使用されるまで次々に処理する。
【０１３５】
図４４は、本発明に従った話者遷移モデルを用いてオーディオ・ビジュアル記録物をセグメント化する方法を示す。工程４４０１で、オーディオの隠れマルコフモデルが構築される。図３９は、工程４４０１によって構築されるようなオーディオ隠れマルコフモデルを示している。ビデオおよびオーディオは、工程４４０２でそのオーディオ隠れマルコフモデルによってセグメント化される。工程４４０３で、ビデオおよびオーディオは、工程４４０２で決定されたセグメント化情報により索引づけられる。このように、図４４に示す方法は、図３６に示した工程３６０７を実施するために適する。
【０１３６】
会議の進行表が得られる場合、プレゼンテーションは、進行表からの情報を用いて選択的に自動的にラベルづけまたは索引づけされる。これにより、プレゼンテーションは発表者および演題によって容易に見つけることができる。このようにして、会議ビデオは、内容によって自動的に索引づけ、ブラウジングおよび検索される。
【０１３７】
本発明をいくつかの態様および実施の形態に関して説明したが、これらの態様および実施の形態は、限定としてではなく、例示として提起されている。本発明の精神および範囲を逸脱することなく各種の追加および変更が行い得ることを理解しなければならない。例えば、数倍の改善といった精緻な音響モデルは、継続時間モデルを各話者に対して強制することによって代替的に得られる。別の例として、オーディオ特徴と同様にビデオ特徴にもとづくセグメントのクラスタ化は、発表者のスライドが、発表者自身の画像だけでなく、類似性の構成およびカラー図式を有するはずであるという仮定にもとづき、本発明に包含される。それにより、オーディオおよびビデオの両方の変則的領域の識別をプレゼンテーション中に表示されるビデオによって可能にする。また別の例として、対話的に定義された探索セグメントを指定するユーザ入力を受け取るための他のウェブベースのインタフェースが使用できる。さらに別の例として、ガウス分布以外の確率分布を用いた分類が適切な状況において使用することができる。従って、こうした追加および変更はすべて、特許請求の範囲に記載された本発明の精神および範囲に通じるものであると見なされるべきである。
【図面の簡単な説明】
【図１】本発明の方法を実行するために適した汎用コンピュータアーキテクチャを示す。
【図２】本発明によるビデオの分類を実行する方法におけるデータの流れを示す。
【図３】本発明による、トレーニングフレーム、トレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換およびトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。
【図４】異なる平均および分散を有する一次元ガウス分布を示すグラフである。
【図５】本発明によるビデオ分類のための特徴集合を選択する方法を示すフローチャートである。
【図６】ビデオフレームの離散コサイン変換により得られる変換マトリックスを示す。
【図７】本発明に従って２個以上の変換マトリックスから計算された分散マトリックスを示す。
【図８】本発明に従って切り捨てによって決定された特徴集合を示す。
【図９】本発明による図８に示した特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された平均特徴ベクトルを示す。
【図１０】本発明による図８に示した特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。
【図１１】本発明の方法に従って分類のために図８に示した特徴集合を有するフレームについて検索された特徴ベクトルを示す。
【図１２】本発明に従って２個以上のビデオ画像クラスのいずれかにビデオのフレームを分類する方法を示すフローチャートである。
【図１３】本発明に従って、主成分分析、最大分散を有する係数の選択または最大平均を有する係数の選択により決定された特徴集合を示す。
【図１４】本発明による図１３に示した特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された平均特徴ベクトルを示す。
【図１５】本発明による図１３に示した特徴集合を有するトレーニングフレームの２個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。
【図１６】本発明の方法に従って分類のために図１３に示した特徴集合を有するフレームについて検索された特徴ベクトルを示す。
【図１７】本発明による類似性を決定する方法において、類似性を決定するためのスレッショルドとして使用されるスライド画像クラス統計モデルの標準偏差の倍数の関数として、スライドとして正確に識別されたスライドフレームの割合およびスライドとして誤って識別された非スライドフレームの割合を示すグラフである。
【図１８】本発明に従って画像クラス統計モデルを用いてビデオフレームの類似性を決定する方法を示すフローチャートである。
【図１９】本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数の表示を示すグラフである。
【図２０】本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数を表示する方法を示すフローチャートである。
【図２１】特徴集合の成分の数ｄの関数として正確に分類されたフレームの割合、それらのフレームに適用された変換のタイプおよびｄ成分特徴集合の選択方法を示すグラフである。
【図２２】本発明の方法に従ってスライドと類似と見られるビデオの領域を表示するブラウザを示す。
【図２３】本発明によるビデオを分類する方法において使用される隠れマルコフモデルに対応するクラス遷移図を示す。
【図２４】図２３に示すクラス遷移図に対応する本発明に従ったクラス遷移確率マトリックスを示す。
【図２５】図２３に示すクラス遷移図に従った５連続初期ビデオフレームに対応する全部の可能なクラスシーケンスを示す。
【図２６】本発明に従ってクラス遷移確率マトリックスおよび画像クラス統計モデルを用いたビデオをセグメント化する方法を示すフローチャートである。
【図２７】本発明による類似性探索を実行する方法におけるデータの流れを示す。
【図２８】本発明によるビデオに対応する特徴ベクトルデータベースを計算する方法を示すフローチャートである。
【図２９】本発明による統計モデルを対話的にトレーニングする方法を示すフローチャートである。
【図３０】本発明によるブラウザ内でビデオフレームを提示し類似性測度を表示する方法を示すフローチャートである。
【図３１】本発明に従って、対話的に定義されたトレーニングビデオセグメント、そのトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換および、トレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。
【図３２】本発明による、トレーニングビデオセグメントを対話的に定義し類似性測度を表示する時間バーおよび、ユーザスレッショルドマウス入力を受け取るスレッショルドスライダバーを備えるブラウザを示す。
【図３３】ビデオの領域内にフレームを表示するためのスクロール可能ウィンドウが追加された図３２のブラウザを示す。
【図３４】１個以上のトレーニングビデオセグメントの終点を対話的に選択し、周期的フレームの類似性測度を表示する、ビデオの周期的フレームを表示するウェブベースのインタフェースを示す。
【図３５】本発明に従って離散コサイン変換係数およびアダマール変換係数を用いて計算されたビデオの類似性マトリックスを示す。
【図３６】本発明によるオーディオ・ビジュアル記録物をセグメント化する方法に対応するデータの流れを示す。
【図３７】２人の話者による２つのプレゼンテーションを含む記録された会議のスライドであるオーディオ・ビジュアル記録物のフレームの確率の対数を示すグラフである。
【図３８】本発明によるオーディオ区間に適用されるクラスタ化方法におけるデータの流れを示す。
【図３９】本発明による一連の話者単位を構成する話者遷移モデルを示す。
【図４０】本発明によるオーディオ・ビジュアル記録物をセグメント化する方法のセグメント化結果を示すグラフである。
【図４１】本発明によるセグメント間音響距離マトリックスを示す。
【図４２】本発明による、スライド画像クラスとの類似性を有する所定の時間間隔より長い１個以上のビデオフレーム区間を識別する方法を示すフローチャートである。
【図４３】本発明によるスライド区間から抽出されたオーディオ区間からのソース特定話者モデルをトレーニングする方法を示すフローチャートである。
【図４４】本発明による話者遷移モデルを用いたオーディオ・ビジュアル記録物をセグメント化する方法を示すフローチャートである。

Claims

オーディオ・ビデオ記録物をセグメント化する方法であって、
個々の話者を識別可能なビデオ特徴を有するビデオ画像クラスに対する類似性を有する１個以上のビデオフレーム区間を識別する工程と、
前記１個以上のビデオフレーム区間に対応する１個以上のオーディオ区間を抽出する工程と、
前記１個以上のオーディオ区間に音響クラスタ化方法を適用し、１個以上のオーディオクラスタを生成する工程と、
同一の前記オーディオクラスタ内のオーディオ区間を併合し、併合オーディオ区間を生成する工程と、
前記併合オーディオ区間の各々でソース特定話者モデルをトレーニングする工程とを含むことを特徴とする方法。
請求項１記載の方法であって、１個以上のビデオフレーム区間を識別する前記工程が、
間引かれたフレームを生成するために前記オーディオ・ビデオ記録物のビデオフレームを時間的および空間的に間引く工程と、
間引かれたフレームの各々について、変換マトリックスを生成するために前記間引かれたフレームを変換する工程と、
前記変換マトリックスから特徴ベクトルを抽出する工程と、
前記特徴ベクトルおよびビデオ画像クラス統計モデルを用いて前記間引かれたフレームの各々について前記ビデオ画像クラス統計モデルとの類似性を測定する工程とを含むことを特徴とする方法。
請求項２記載の方法であって、フレームの類似性を測定する前記工程が、
差分ベクトルを決定するために前記特徴ベクトルから前記ビデオ画像クラス統計モデルの平均特徴ベクトルを減算する工程と、
前記差分ベクトルの大きさをスレッショルドと比較する工程とを含むことを特徴とする方法。
請求項３記載の方法であって、前記差分ベクトルの大きさをスレッショルドと比較する工程が、
前記差分ベクトルの大きさを、前記ビデオ画像クラス統計モデルに関係する標準偏差の所定の倍数と比較する工程を含むことを特徴とする方法。
請求項１記載の方法であって、所定のビデオ画像クラスに対する類似性を有する１個以上のビデオフレーム区間を識別する前記工程が、
所定の時間間隔より長いスライド区間に対応するビデオフレーム区間を見つける工程を含むことを特徴とする方法。
請求項１記載の方法であって、音響クラスタ化方法を適用する前記工程が、
各オーディオ区間を平均ベクトルによってパラメータ化する工程と、
各オーディオ区間に対応する平均ベクトルの間のユークリッド距離に集塊クラスタ化法を適用する工程とを含むことを特徴とする方法。
請求項１記載の方法であって、
各話者を識別するために話者による前記オーディオ・ビデオ記録物を前記ソース特定話者モデルによってセグメント化する工程をさらに含むことを特徴とする方法。
請求項１記載の方法であって、
前記併合オーディオ区間および前記ソース特定話者モデルによって指示される話者シーケンスによって話者遷移モデルを作成する工程と、
前記話者遷移モデルによって前記オーディオ・ビデオ記録物をセグメント化する工程とをさらに含むことを特徴とする方法。
コンピュータに以下のオーディオ・ビデオ記録物をセグメント化する方法を実行させるためのコンピュータ可読プログラムコードを記憶したコンピュータ可読記憶媒体であって、
前記コンピュータ可読プログラムコードは、
個々の話者を識別可能なビデオ特徴を有するビデオ画像クラスに対する類似性を有する１個以上のビデオフレーム区間を識別する工程と、
前記１個以上のビデオフレーム区間に対応する１個以上のオーディオ区間を抽出する工程と、
前記１個以上のオーディオ区間に音響クラスタ化方法を適用し、１個以上のオーディオクラスタを生成する工程と、
同一の前記オーディオクラスタ内のオーディオ区間を併合し、併合オーディオ区間を生成する工程と、
前記併合オーディオ区間の各々でソース特定話者モデルをトレーニングする工程とを含むことを特徴とするコンピュータ可読記憶媒体。
請求項９記載のコンピュータ可読記憶媒体であって、
１個以上のビデオフレーム区間を識別する前記工程が、
間引かれたフレームを生成するために前記オーディオ・ビデオ記録物のビデオフレームを時間的および空間的に間引く工程と、
間引かれたフレームの各々について、変換マトリックスを生成するために前記間引かれたフレームを変換する工程と、
前記変換マトリックスから特徴ベクトルを抽出する工程と、
前記特徴ベクトルおよびビデオ画像クラス統計モデルを用いて前記間引かれたフレームの各々について前記ビデオ画像クラス統計モデルとの類似性を測定する工程とを含むことを特徴とするコンピュータ可読記憶媒体。
請求項１０記載のコンピュータ可読記憶媒体であって、
フレームの類似性を測定する前記工程が、
差分ベクトルを決定するために前記特徴ベクトルから前記ビデオ画像クラス統計モデルの平均特徴ベクトルを減算する工程と、
前記差分ベクトルの大きさを、前記ビデオ画像クラス統計モデルに関係する標準偏差の所定の倍数と比較する工程とを含むことを特徴とするコンピュータ可読記憶媒体。
請求項９記載のコンピュータ可読記憶媒体であって、
所定のビデオ画像クラスに対する類似性を有する１個以上のビデオフレーム区間を識別する前記工程が、
所定の時間間隔より長いスライド区間に対応するビデオフレーム区間を見つける工程を含むことを特徴とするコンピュータ可読記憶媒体。
請求項９記載のコンピュータ可読記憶媒体であって、
音響クラスタ化方法を適用する前記工程が、
各オーディオ区間をメル周波数ケプストラル係数平均ベクトルによってパラメータ化する工程と、
各オーディオ区間に対応するメル周波数ケプストラル係数平均ベクトルの間のユークリッド距離に集塊クラスタ化法を適用する工程とを含むことを特徴とするコンピュータ可読記憶媒体。
請求項９記載のコンピュータ可読記憶媒体であって、
各話者を識別するために話者による前記オーディオ・ビデオ記録物を前記ソース特定話者モデルによってセグメント化する工程をさらに含むことを特徴とするコンピュータ可読記憶媒体。
請求項９記載のコンピュータ可読記憶媒体であって、
前記併合オーディオ区間および前記ソース特定話者モデルによって指示される話者シーケンスによって話者遷移モデルを作成する工程と、
前記話者遷移モデルによって前記オーディオ・ビデオ記録物をセグメント化する工程とをさらに含むことを特徴とするコンピュータ可読記憶媒体。
請求項１５記載のコンピュータ可読記憶媒体であって、
前記話者遷移モデルが、各話者単位がソース特定話者モデルおよびフィラーモデルを含む、一連の話者単位を含むことを特徴とするコンピュータ可読記憶媒体。
コンピュータシステムであって、
プロセッサと、
前記コンピュータシステムに以下のオーディオ・ビデオ記録物をセグメント化する方法を実行させるためのプロセッサ可読プログラムコードを記憶したプロセッサ可読記憶媒体であって、
前記プロセッサ可読プログラムコードは、
個々の話者を識別可能なビデオ特徴を有するビデオ画像クラスに対する類似性を有する１個以上のビデオフレーム区間を識別する工程と、
前記１個以上のビデオフレーム区間に対応する１個以上のオーディオ区間を抽出する工程と、
前記１個以上のオーディオ区間に音響クラスタ化方法を適用し、１個以上のオーディオクラスタを生成する工程と、
同一の前記オーディオクラスタ内のオーディオ区間を併合し、併合オーディオ区間を生成する工程と、
前記併合オーディオ区間の各々でソース特定話者モデルをトレーニングする工程とを含むことを特徴とするコンピュータシステム。