JP4258090B2 - ビデオフレームの分類方法及びセグメント化方法、及びコンピュータ可読記憶媒体 - Google Patents
ビデオフレームの分類方法及びセグメント化方法、及びコンピュータ可読記憶媒体 Download PDFInfo
- Publication number
- JP4258090B2 JP4258090B2 JP2000065042A JP2000065042A JP4258090B2 JP 4258090 B2 JP4258090 B2 JP 4258090B2 JP 2000065042 A JP2000065042 A JP 2000065042A JP 2000065042 A JP2000065042 A JP 2000065042A JP 4258090 B2 JP4258090 B2 JP 4258090B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- class
- image class
- frame
- video image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
- G06V10/85—Markov-related models; Markov random fields
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
【発明の属する技術分野】
本発明は、内容に従ってビデオを自動的に分類する目的においてビデオを処理する分野に関する。特に本発明は、トレーニングフレームから導かれる画像クラス統計モデルにより測定され、あらかじめ定義されたビデオ画像クラスに対する類似性に従ってビデオフレームを分類する分野に関する。
【0002】
【従来の技術】
すでに開発されているシステムにおいては、分類用のクラスのために特別に選択した特徴を使用してあらかじめセグメント化したビデオクリップを分類しており、このため任意的なクラス選択が可能ではない。また別の従来システムは、ニュースとスポーツのビデオクリップを弁別しているが、これにおいてもモーション特徴のみを使用してビデオクリップをあらかじめセグメント化している。一部の従来システムにおいては、所定のビデオフレーム画像に対して類似のビデオフレームを識別している。別の従来システムでは、空間テンプレートマッチングおよびカラーヒストグラムを使用してビデオをセグメント化しているが、テンプレートを手作業で作成しなければならない。ブロック変換係数等の圧縮されたドメインの特徴を使用するビデオのセグメント化については、さらに多くの作業が行われることになる。これらの圧縮されたドメインのアプローチは効果的であるが、カラーヒストグラム等のブロック変換ドメインは暗示的な画像の特徴を取り込むことができない。
【0003】
ビデオのセグメント化においては、隠れマルコフモデルの使用がすでに知られているが、分類においてそれが考慮されたことはない。カラーヒストグラム特徴ならびにモーションのキュー(糸口)は、隠れマルコフモデルを使用するビデオセグメント化に使用されている。マルコフ型有限状態マシンが、フレームのピクセル輝度の主成分に対して使用されているが、変換特徴に対しては使用されていない。モーション特徴を使用する隠れマルコフモデルによるビデオのセグメント化はこれまでも試みられているが、画像の特徴をダイレクトに使用することはなく、また類似性のマッチングにおける使用にそれが向けられたこともない。極度に縮小されたフレーム画像表現の時間的相関を使用するビデオシーケンスのマッチングのためのシステムも試みられた。この従来アプローチによれば、ビデオショットの反復されたインスタンス、たとえば、スポーツイベントの「インスタントリプレイ」等を見つけ出すことは可能であるが、実質的に類似でないビデオにどの程度まで一般化し得るかということについては明らかでない。
【0004】
個別の画像フレームは、カラーヒストグラムとピクセルドメインのテンプレートマッチングの組み合わせを用いて解析されている。カラーヒストグラムは、モーション特徴ならびにテクスチャ特徴と同様に、ビデオをセグメント化するために使用されてきた。サブブロックならびにMPEGエンコード済みのビデオにすでに含まれているモーション情報を使用する圧縮されたドメインにおけるビデオのインデクス設定も研究されている。ランクベースのフレームの「フィンガープリント」の時間シーケンスを比較するビデオショットマッチングに関しての実験も行われた。これら多くの従来の画像検索システムは、ブロック変換係数の統計を使用していた。
【0005】
ウェーブレットアプローチはブロック変換の例外と考えられ、これにおいては、通常、ウェーブレットベースを使用して全画像の解析が行われる。高次係数の量子化および切り捨ては、次元を下げる一方、類似性の距離測定はビット単位の類似性の計数にすぎない。このアプローチは、離散的余弦変換あるいはアダマール変換といったより伝統的な変換に使用されることもなければ、ビデオに適用されることもなかった。ニューラルネットワークアプローチおよび決定ツリーアプローチは画像の分類においては使用されていても、空間(ピクセル輝度)ドメインには使用されていない。画像検索のためのシグニチャには高速フーリエ変換係数のラジアル投影が使用されている。
【0006】
【発明が解決しようとする課題】
ビデオの自動分類は、たとえば自動セグメント化およびコンテンツベース検索といった各種の広範なアプリケーションに有用である。自動分類を使用するアプリケーションは、ディジタルビデオのブラウズおよび検索においてユーザをサポートすることができる。それ以外には、演算負荷の高い顔認識を実行する前に顔がクローズアップされたビデオフレームを識別するといった応用が挙げられる。ビデオの分類およびセグメント化を行う従来のアプローチは、カラーヒストグラムあるいはモーション評価等の特徴を使用しているが、本発明の方法に従って使用される特徴に比べるとその効果は低い。カラーヒストグラムに基づく多くの類似性測定とは異なり、このアプローチは、画像の構成上の特徴をモデリングし、モノクロームソースを始めカラーソースにも有効である。
【0007】
【課題を解決するための手段】
本発明の第1の態様は、t個のトレーニング画像、すなわちv行h列の下位画像からなるt個のトレーニング画像からビデオ分類するためのd個のエントリを含む特徴セットを選択する方法において、前記t個のトレーニング画像のそれぞれに対して変換を実行することによってt個の変換マトリクスであって、それぞれがv行h列の係数位置を有し、各係数位置がそれに関連付けられた変換係数を有するt個の変換マトリクスを計算するステップと、前記t個の変換マトリクス内の変換係数に基づいて前記d個のエントリを含む特徴セットとしてd個の係数位置を選択するステップと、を包含する。
本発明の第2の態様は、第1の態様において、v行h列の分散位置を有する分散マトリクスであって、それぞれの分散位置がそれに関連付けられた分散を有し、それにおいて各分散は、t個の変換係数から計算され、該t個の変換係数は前記t個の変換マトリクスの対応する係数位置内にあるとする分散マトリクスを計算するステップをさらに包含し、前記d個の係数位置を選択するステップは、もっとも高いものからd個の分散を有する分散マトリクスの分散位置に対応するd個の係数位置を選択するステップを包含する。
本発明の第3の態様は、第1の態様において、v行h列の平均位置を有する平均マトリクスであって、それぞれの平均位置がそれに関連付けられた平均を有し、各平均は、t個の変換係数から計算され、該t個の変換係数は前記t個の変換マトリクスの対応する係数位置内にあるとする平均マトリクスを計算するステップをさらに包含し、前記d個の係数位置を選択するステップは、もっとも高いものからd個の平均を有する平均マトリクスの平均位置に対応するd個の係数位置を選択するステップを包含する。
本発明の第4の態様は、第1の態様において、前記d個の係数位置は、切り捨てによって選択される。
本発明の第5の態様は、第1の態様において、前記d個の係数位置は、主成分解析によって選択される。
本発明の第6の態様は、第1の態様において、前記d個の係数位置は、線形識別解析によって選択される。
本発明の第7の態様は、第1の態様において、前記変換は、離散的余弦変換からなる。
本発明の第8の態様は、第1の態様において、前記変換は、アダマール変換からなる。
本発明の第9の態様は、第1の態様において、v×hの行およびv×hの列の共分散位置を有する共分散マトリクスであって、それぞれの共分散位置がそれに関連付けられた共分散を有し、各共分散は、t個の変換係数から計算され、該t個の変換係数は前記t個の変換マトリクスの対応する係数位置内にあるとする共分散マトリクスを計算するステップをさらに包含し、前記d個の係数位置を選択するステップは、前記共分散マトリクスの共分散位置に対応するd個の係数位置を選択するステップを包含する。
本発明の第10の態様は、ビデオ画像クラス統計モデルを生成する方法において、d個の平均位置であって、それぞれの平均位置はそれに関連付けられた平均を有し、それにおいて各平均位置は、変換マトリクス内の変換係数位置に対応するものとする、d個の平均位置を有する第1のd個のエントリからなる平均ベクトルを決定するステップ、および、d個の分散位置であって、それぞれの分散位置はそれに関連付けられた分散を有し、それにおいて各分散位置は、前記平均位置の1つに対応するものとするd個の分散位置を有する第1のd個のエントリからなる分散特徴ベクトルを決定するステップ、を包含する。
本発明の第11の態様は、第10の態様において、第2のd個のエントリからなる平均ベクトルを決定するステップ、第2のd個のエントリからなる分散特徴ベクトルを決定するステップ、および、前記第1と前記第2のd個のエントリからなる平均ベクトルを結合するための混合の重み付けを決定するステップ、をさらに包含し、ここで、前記ビデオ画像クラス統計モデルはガウス混合であり、前記第1ならびに前記第2のd個のエントリからなる平均ベクトルおよび前記第1ならびに前記第2のd個のエントリからなる分散特徴ベクトルは、期待値最大アルゴリズムから計算される。
本発明の第12の態様は、s個のビデオ画像クラス統計モデルを生成する方法において、s個のビデオ画像クラスのそれぞれについて、d個の平均位置であって、それぞれの平均位置はそれに関連付けられた平均を有し、それにおいて各平均位置は、変換マトリクス内の変換係数位置に対応するものとする、d個の平均位置を有するd個のエントリからなる平均ベクトルを決定するステップ、および、s個のビデオ画像クラスのそれぞれについて、d個の分散位置であって、それぞれの分散位置はそれに関連付けられた分散を有し、それにおいて各分散位置は、前記平均位置の1つに対応するものとするd個の分散位置を有するd個のエントリからなる分散特徴ベクトルを決定するステップ、を包含する。
本発明の第13の態様は、第12の態様において、前記s個の、d個のエントリからなる平均ベクトルのそれぞれは、同一のd個の変換係数位置を参照する。本発明の第14の態様は、第12の態様において、前記画像クラス統計モデルはガウス分布である。
本発明の第15の態様は、第12の態様において、さらに、s行s列のクラス遷移確率位置であって、それぞれのクラス遷移確率位置はそれに関連付けられたクラス遷移確率を有し、それにおいてi番目の行およびj番目の列により特定されるクラス遷移確率位置は、直前のビデオフレームから現在のビデオフレームにフレーム遷移する間における、i番目のビデオ画像クラスからj番目のビデオ画像クラスに遷移する確率を表すものとするs行s列のクラス遷移確率位置を有するクラス遷移確率マトリクスを決定するステップを包含する。
本発明の第16の態様は、s個のビデオ画像クラスの1つへのビデオフレームの分類方法において、前記ビデオフレームに対応するd個のエントリからなる特徴ベクトルを検索するステップ、前記s個のビデオ画像クラスのそれぞれについて、前記d個のエントリからなる特徴ベクトルを使用し、s個の画像クラス統計モデルの対応する1つによって前記d個のエントリからなる特徴ベクトルの画像クラスがもたらされる画像クラス確率を計算するステップ、および、前記ビデオフレームを最大の画像クラス確率に対応するビデオ画像クラスに分類するステップ、を包含する。
本発明の第17の態様は、第16の態様において、前記検索するステップに先行して、前記ビデオフレームに対する変換を実行するステップをさらに包含する。
本発明の第18の態様は、第16の態様において、前記画像クラス確率を計算するステップは、ガウス確率分布関数を適用することによって実行される。
本発明の第19の態様は、第16の態様において、前記画像クラス確率を計算するステップは、ガウスの混合確率分布関数を適用することによって実行される。
本発明の第20の態様は、s個のビデオ画像クラスの1つへのビデオフレームの分類方法において、前記ビデオフレームに対応するd個のエントリからなる特徴ベクトルを検索するステップ、および、前記s個のビデオ画像クラスのそれぞれについて、前記d個のエントリからなる特徴ベクトル、s個の過去の画像クラス確率、s個のクラス遷移確率ベクトルの対応する1つ、およびs個の画像クラス統計モデルの対応する1つを使用して前記d個のエントリからなる特徴ベクトルに関する画像クラス確率を計算するステップ、を包含する。
本発明の第21の態様は、第20の態様において、s個のビデオ画像クラスのそれぞれについて、過去の画像クラス確率とクラス遷移確率の積の最大値に対応する直前の画像クラスポインタを生成するステップをさらに包含する。
本発明の第22の態様は、第21の態様において、前記ビデオフレームを、最大の画像クラス確率に対応するビデオ画像クラスに分類するステップをさらに包含する。
本発明の第23の態様は、第22の態様において、直前のフレームを、前記直前の画像クラスポインタによって示されるビデオ画像クラスに分類するステップをさらに包含する。
本発明の第24の態様は、一連のビデオフレームのs個のビデオ画像クラスの1つへのセグメント化方法において、前記一連のビデオフレーム内の各ビデオフレームについて、前記ビデオフレームに対応するd個のエントリからなる特徴ベクトルを検索するステップ、および、前記s個のビデオ画像クラスのそれぞれについて、前記d個のエントリからなる特徴ベクトル、s個の過去の画像クラス確率、s個のクラス遷移確率ベクトルの対応する1つ、およびs個の画像クラス統計モデルの対応する1つを使用して前記d個のエントリからなる特徴ベクトルに関する画像クラス確率を計算するステップ、および、過去の画像クラス確率とクラス遷移確率の積の最大値に対応する直前の画像クラスポインタを生成するステップ、前記一連のビデオフレーム内の最後のビデオフレームについて、前記ビデオフレームを、最大の画像クラス確率に対応するビデオ画像クラスに分類するステップ、および、前記一連のビデオフレーム内の最後のビデオフレームを除く各ビデオフレームについて、直前のフレームを、前記直前の画像クラスポインタによって示されるビデオ画像クラスに分類するステップ、を包含する。
本発明の第25の態様は、画像クラス統計モデルを使用してビデオフレームの類似性を決定する方法において、前記ビデオフレームに対応する特徴ベクトルを検索するステップ、前記画像クラス統計モデルの平均ベクトルを検索するステップ、および、前記特徴ベクトルから前記平均ベクトルを減じて差分ベクトルを生成するステップ、を包含することを特徴とする方法。
本発明の第26の態様は、第25の態様において、前記画像クラス統計モデルの標準偏差の所定倍数より前記差分ベクトルの大きさが小さいとき、前記ビデオフレームを類似であるとして分類するステップをさらに包含する。
本発明の第27の態様は、第25の態様において、前記特徴ベクトルを使用し画像クラス統計モデルによってビデオフレームの画像クラスがもたらされる画像クラス確率を計算するステップをさらに包含する。
本発明の第28の態様は、第27の態様において、前記画像クラス確率の対数を計算するステップ、および、前記ビデオフレームに関して前記画像クラス確率の対数を表示するステップ、をさらに包含する。
本発明の第29の態様は、コンピュータ可読記憶媒体において、前記コンピュータ可読記憶媒体上に記憶されたコンピュータ可読プログラムコードであって、t個のトレーニング画像、すなわちv行h列の下位画像からなるt個のトレーニング画像からビデオ分類するためのd個のエントリを含む特徴セットを選択する方法を実行すべくコンピュータをプログラムするためのコンピュータ可読プログラムコードを包含し、該方法は、前記t個のトレーニング画像のそれぞれに対して変換を実行することによってt個の変換マトリクスであって、それぞれがv行h列の係数位置を有し、各係数位置がそれに関連付けられた変換係数を有するt個の変換マトリクスを計算するステップ、および、前記t個の変換マトリクス内の変換係数に基づいて前記d個のエントリを含む特徴セットとしてd個の係数位置を選択するステップ、からなる。
本発明の第30の態様は、コンピュータ可読記憶媒体において、前記コンピュータ可読記憶媒体上に記憶されたコンピュータ可読プログラムコードであって、ビデオ画像クラス統計モデルを生成する方法を実行すべくコンピュータをプログラムするためのコンピュータ可読プログラムコードを包含し、該方法は、d個の平均位置であって、それぞれの平均位置はそれに関連付けられた平均を有し、それにおいて各平均位置は、変換マトリクス内の変換係数位置に対応するものとする、d個の平均位置を有する第1のd個のエントリからなる平均ベクトルを決定するステップ、および、d個の分散位置であって、それぞれの分散位置はそれに関連付けられた分散を有し、それにおいて各分散位置は、前記平均位置の1つに対応するものとするd個の分散位置を有する第1のd個のエントリからなる分散特徴ベクトルを決定するステップ、からなる。
本発明の第31の態様は、コンピュータ可読記憶媒体において、前記コンピュータ可読記憶媒体上に記憶されたコンピュータ可読プログラムコードであって、s個のビデオ画像クラス統計モデルを生成する方法を実行すべくコンピュータをプログラムするためのコンピュータ可読プログラムコードを包含し、該方法は、s個のビデオ画像クラスのそれぞれについて、d個の平均位置であって、それぞれの平均位置はそれに関連付けられた平均を有し、それにおいて各平均位置は、変換マトリクス内の変換係数位置に対応するものとする、d個の平均位置を有するd個のエントリからなる平均ベクトルを決定するステップ、および、s個のビデオ画像クラスのそれぞれについて、d個の分散位置であって、それぞれの分散位置はそれに関連付けられた分散を有し、それにおいて各分散位置は、前記平均位置の1つに対応するものとするd個の分散位置を有するd個のエントリからなる分散特徴ベクトルを決定するステップ、からなる。
本発明の第32の態様は、コンピュータ可読記憶媒体において、前記コンピュータ可読記憶媒体上に記憶されたコンピュータ可読プログラムコードであって、ビデオフレームをs個のビデオ画像クラスの1つに分類する方法を実行すべくコンピュータをプログラムするためのコンピュータ可読プログラムコードを包含し、該方法は、前記ビデオフレームに対応するd個のエントリからなる特徴ベクトルを検索するステップ、前記s個のビデオ画像クラスのそれぞれについて、前記d個のエントリからなる特徴ベクトルを使用し、s個の画像クラス統計モデルの対応する1つによって前記d個のエントリからなる特徴ベクトルの画像クラスがもたらされる画像クラス確率を計算するステップ、および、前記ビデオフレームを最大の画像クラス確率に対応するビデオ画像クラスに分類するステップ、からなる。
本発明の第33の態様は、コンピュータ可読記憶媒体において、前記コンピュータ可読記憶媒体上に記憶されたコンピュータ可読プログラムコードであって、ビデオフレームをs個のビデオ画像クラスの1つに分類する方法を実行すべくコンピュータをプログラムするためのコンピュータ可読プログラムコードを包含し、該方法は、前記ビデオフレームに対応するd個のエントリからなる特徴ベクトルを検索するステップ、および、前記s個のビデオ画像クラスのそれぞれについて、前記d個のエントリからなる特徴ベクトル、s個の過去の画像クラス確率、s個のクラス遷移確率ベクトルの対応する1つ、およびs個の画像クラス統計モデルの対応する1つを使用して前記d個のエントリからなる特徴ベクトルに関する画像クラス確率を計算するステップ、からなる。
本発明の第34の態様は、コンピュータ可読記憶媒体において、前記コンピュータ可読記憶媒体上に記憶されたコンピュータ可読プログラムコードであって、一連のビデオフレームをs個のビデオ画像クラスの1つにセグメント化する方法を実行すべくコンピュータをプログラムするためのコンピュータ可読プログラムコードを包含し、該方法は、前記一連のビデオフレーム内の各ビデオフレームについて、前記ビデオフレームに対応するd個のエントリからなる特徴ベクトルを検索するステップ、および、前記s個のビデオ画像クラスのそれぞれについて、前記d個のエントリからなる特徴ベクトル、s個の過去の画像クラス確率、s個のクラス遷移確率ベクトルの対応する1つ、およびs個の画像クラス統計モデルの対応する1つを使用して前記d個のエントリからなる特徴ベクトルに関する画像クラス確率を計算するステップ、および、過去の画像クラス確率とクラス遷移確率の積の最大値に対応する直前の画像クラスポインタを生成するステップ、前記一連のビデオフレーム内の最後のビデオフレームについて、前記ビデオフレームを、最大の画像クラス確率に対応するビデオ画像クラスに分類するステップ、および、前記一連のビデオフレーム内の最後のビデオフレームを除く各ビデオフレームについて、直前のフレームを、前記直前の画像クラスポインタによって示されるビデオ画像クラスに分類するステップ、からなる。
本発明の第35の態様は、コンピュータ可読記憶媒体において、前記コンピュータ可読記憶媒体上に記憶されたコンピュータ可読プログラムコードであって、画像クラス統計モデルを使用してビデオフレームの類似性を決定する方法を実行すべくコンピュータをプログラムするためのコンピュータ可読プログラムコードを包含し、該方法は、前記ビデオフレームに対応する特徴ベクトルを検索するステップ、前記画像クラス統計モデルの平均ベクトルを検索するステップ、および、前記特徴ベクトルから前記平均ベクトルを減じて差分ベクトルを生成するステップ、からなる。
本発明の第36の態様は、プロセッサ、および、プロセッサ可読記憶媒体、からなるコンピュータシステムにおいて、前記プロセッサ可読記憶媒体は、前記プロセッサ可読記憶媒体上に記憶されたプロセッサ可読プログラムコードであって、t個のトレーニング画像、すなわちv行h列の下位画像からなるt個のトレーニング画像からビデオ分類するためのd個のエントリを含む特徴セットを選択する方法を実行すべく前記コンピュータシステムをプログラムするためのプロセッサ可読プログラムコードを有し、該方法は、前記t個のトレーニング画像のそれぞれに対して変換を実行することによってt個の変換マトリクスであって、それぞれがv行h列の係数位置を有し、各係数位置がそれに関連付けられた変換係数を有するt個の変換マトリクスを計算するステップ、および、前記t個の変換マトリクス内の変換係数に基づいて前記d個のエントリを含む特徴セットとしてd個の係数位置を選択するステップ、を包含する。
本発明の第37の態様は、プロセッサ、および、プロセッサ可読記憶媒体、からなるコンピュータシステムにおいて、前記プロセッサ可読記憶媒体は、前記プロセッサ可読記憶媒体上に記憶されたプロセッサ可読プログラムコードであって、ビデオ画像クラス統計モデルを生成する方法を実行すべく前記コンピュータシステムをプログラムするためのプロセッサ可読プログラムコードを有し、該方法は、
d個の平均位置であって、それぞれの平均位置はそれに関連付けられた平均を有し、それにおいて各平均位置は、変換マトリクス内の変換係数位置に対応するものとする、d個の平均位置を有する第1のd個のエントリからなる平均ベクトルを決定するステップ、および、d個の分散位置であって、それぞれの分散位置はそれに関連付けられた分散を有し、それにおいて各分散位置は、前記平均位置の1つに対応するものとするd個の分散位置を有する第1のd個のエントリからなる分散特徴ベクトルを決定するステップ、を包含する。
本発明の第38の態様は、プロセッサ、および、プロセッサ可読記憶媒体、からなるコンピュータシステムにおいて、前記プロセッサ可読記憶媒体は、前記プロセッサ可読記憶媒体上に記憶されたプロセッサ可読プログラムコードであって、s個のビデオ画像クラス統計モデルを生成する方法を実行すべく前記コンピュータシステムをプログラムするためのプロセッサ可読プログラムコードを有し、該方法は、s個のビデオ画像クラスのそれぞれについて、d個の平均位置であって、それぞれの平均位置はそれに関連付けられた平均を有し、それにおいて各平均位置は、変換マトリクス内の変換係数位置に対応するものとする、d個の平均位置を有するd個のエントリからなる平均ベクトルを決定するステップ、および、s個のビデオ画像クラスのそれぞれについて、d個の分散位置であって、それぞれの分散位置はそれに関連付けられた分散を有し、それにおいて各分散位置は、前記平均位置の1つに対応するものとするd個の分散位置を有するd個のエントリからなる分散特徴ベクトルを決定するステップ、を包含する。
本発明の第39の態様は、プロセッサ、および、プロセッサ可読記憶媒体、からなるコンピュータシステムにおいて、前記プロセッサ可読記憶媒体は、前記プロセッサ可読記憶媒体上に記憶されたプロセッサ可読プログラムコードであって、ビデオフレームをs個のビデオ画像クラスの1つに分類する方法を実行すべく前記コンピュータシステムをプログラムするためのプロセッサ可読プログラムコードを有し、該方法は、前記ビデオフレームに対応するd個のエントリからなる特徴ベクトルを検索するステップ、前記s個のビデオ画像クラスのそれぞれについて、前記d個のエントリからなる特徴ベクトルを使用し、s個の画像クラス統計モデルの対応する1つによって前記d個のエントリからなる特徴ベクトルの画像クラスがもたらされる画像クラス確率を計算するステップ、および、前記ビデオフレームを最大の画像クラス確率に対応するビデオ画像クラスに分類するステップ、を包含する。
本発明の第40の態様は、プロセッサ、および、プロセッサ可読記憶媒体、からなるコンピュータシステムにおいて、前記プロセッサ可読記憶媒体は、前記プロセッサ可読記憶媒体上に記憶されたプロセッサ可読プログラムコードであって、ビデオフレームをs個のビデオ画像クラスの1つに分類する方法を実行すべく前記コンピュータシステムをプログラムするためのプロセッサ可読プログラムコードを有し、該方法は、前記ビデオフレームに対応するd個のエントリからなる特徴ベクトルを検索するステップ、および、前記s個のビデオ画像クラスのそれぞれについて、前記d個のエントリからなる特徴ベクトル、s個の過去の画像クラス確率、s個のクラス遷移確率ベクトルの対応する1つ、およびs個の画像クラス統計モデルの対応する1つを使用して前記d個のエントリからなる特徴ベクトルに関する画像クラス確率を計算するステップ、を包含する。
本発明の第41の態様は、プロセッサ、および、プロセッサ可読記憶媒体、からなるコンピュータシステムにおいて、前記プロセッサ可読記憶媒体は、前記プロセッサ可読記憶媒体上に記憶されたプロセッサ可読プログラムコードであって、一連のビデオフレームをs個のビデオ画像クラスの1つにセグメント化する方法を実行すべく前記コンピュータシステムをプログラムするためのプロセッサ可読プログラムコードを有し、該方法は、前記一連のビデオフレーム内の各ビデオフレームについて、前記ビデオフレームに対応するd個のエントリからなる特徴ベクトルを検索するステップ、および、前記s個のビデオ画像クラスのそれぞれについて、前記d個のエントリからなる特徴ベクトル、s個の過去の画像クラス確率、s個のクラス遷移確率ベクトルの対応する1つ、およびs個の画像クラス統計モデルの対応する1つを使用して前記d個のエントリからなる特徴ベクトルに関する画像クラス確率を計算するステップ、および、過去の画像クラス確率とクラス遷移確率の積の最大値に対応する直前の画像クラスポインタを生成するステップ、前記一連のビデオフレーム内の最後のビデオフレームについて、前記ビデオフレームを、最大の画像クラス確率に対応するビデオ画像クラスに分類するステップ、および、前記一連のビデオフレーム内の最後のビデオフレームを除く各ビデオフレームについて、直前のフレームを、前記直前の画像クラスポインタによって示されるビデオ画像クラスに分類するステップ、を包含する。
本発明の第42の態様は、プロセッサ、および、プロセッサ可読記憶媒体、からなるコンピュータシステムにおいて、前記プロセッサ可読記憶媒体は、前記プロセッサ可読記憶媒体上に記憶されたプロセッサ可読プログラムコードであって、画像クラス統計モデルを使用してビデオフレームの類似性を決定する方法を実行すべく前記コンピュータシステムをプログラムするためのプロセッサ可読プログラムコードを有し、該方法は、前記ビデオフレームに対応する特徴ベクトルを検索するステップ、前記画像クラス統計モデルの平均ベクトルを検索するステップ、および、前記特徴ベクトルから前記平均ベクトルを減じて差分ベクトルを生成するステップ、を包含する。
【0008】
本発明に従えば、ガウスの画像クラス統計モデルが特徴成分および画像クラスの形状を取り込み、その一方でモーションまたは照明の相違に起因する変動のモデリングも行う。従来のアプローチは分類に先行してセグメント化を行わなければならない。これに対し、本発明に従えば、分類およびセグメント化が、その両方に同一の特徴を使用することにより同時に実行される。本発明によれば、あらかじめ定義済みのビデオ画像クラスのセットに従ってビデオシーケンスの自動分類および検索が達成される。
【0009】
本発明の一態様によれば、ビデオシーケンスの分類に使用される特徴セットが、トレーニング画像から決定されるか、1ないしは複数のビデオから決定されるか、あるいはあらかじめ決定される。分類に使用する特徴セットは、切り捨てにより求めた、変換マトリクスの最低周波数成分の係数とするあらかじめ決定済み特徴セットとしてもよい。それに代えて、分類に使用する特徴セットを、主成分解析によって、平均の大きさがもっとも高い係数を選択することによって、平均の分散がもっとも高い係数を選択することによって、あるいは、トレーニング画像から、または1ないしは複数のビデオのフレームから求めた変換係数の線形識別解析によって決定することもできる。好ましくは、すべてのビデオ画像クラス統計モデルに同一の特徴セットを使用し、すべてのビデオ画像クラス統計モデルに関して各フレームの同一の特徴ベクトルが検索され、解析されるようにする。
【0010】
本発明の別の態様によれば、トレーニング画像から抽出された特徴ベクトルより平均特徴ベクトルおよび分散特徴ベクトルを計算することによって、ガウスモデルが調整される。複数のビデオ画像クラスに対応する複合ガウスモデルは、複数のトレーニング画像のクラスを使用して定義される。ビデオ画像クラス統計モデルを構成するためには、離散的余弦変換またはアダマール変換を使用してトレーニング画像を変換する。演算負荷を抑えつつ正確なモデリングを行うために、切り捨てまたは主成分解析によって係数マトリクスを寸法的に縮小して特徴セットを得る。特定のビデオ画像クラスに関する統計的モデルのパラメータは、トレーニング画像の変換マトリクスから抽出された特徴ベクトルより計算される。複数のクラスのそれぞれに関連するクラス遷移確率を用いれば、隠れマルコフモデルにより、ビデオ画像クラスシーケンスに関する情報を本発明に従った分類プロセスに因数分解することが可能になる。ユーザが任意のビデオクラスのセットをあらかじめ定義することは容易であり、それらのクラスに従って未知のビデオのセグメント化ならびに分類を行うべくシステムを調整することができる。
【0011】
本発明のさらに別の態様によれば、ビデオフレームを複数のビデオ画像クラスの1つに分類するビデオフレーム分類が、各画像クラス統計モデルを用いて当該ビデオフレームに対応する特徴ベクトルを解析することによってなされる。それにおいては、各画像クラス統計モデルが当該ビデオに対応する特徴ベクトルを生成する確率を、ガウスモデルを使用して計算する。ビデオフレームに対応する特徴ベクトルの解析に複数のビデオ画像クラス統計モデルを使用する場合は、そのビデオフレームに対応する特徴ベクトルを生成する確率がもっとも高くなる画像クラス統計モデルを有する画像クラスに当該ビデオフレームを分類する。演算負荷は高くなるが、隠れマルコフモデルを使用する分類は、クラス遷移確率がクラスの持続時間および順序を明示的にモデリングすることから、優れた分類ならびにセグメント化が得られるという利点がある。ビデオフレームに対応する特徴ベクトルの解析に単一のビデオ画像クラス統計モデルしか使用しないときは、特徴ベクトルと平均特徴ベクトルの差を計算する。この差は、テストデータがトレーニングフレームにどれだけ近いかを判断するための距離測定値として使用することができる。この差の大きさは、あらかじめ決定した所定値、つまり画像クラス統計モデルの標準偏差の倍数と比較する。フレームは、この比較の結果に基づいて類似もしくは非類似として分類される。
【0012】
本発明のさらに別の態様によれば、特徴ベクトルが画像クラス統計モデルによって生成される確率の対数が計算され、画像クラスに対するフレームの類似性がグラフィカルな指標として表示される。
【0013】
本発明の方法は、複数の会議ビデオにまたがるように、また、放送ニュースといった他の領域分野に容易に拡張される。本発明の上述および他の特徴および利益は、図面を参照してより完全に記述される。
【0014】
【発明の実施の形態】
ビデオの要約、ブラウジングおよび検索にとって、どのような種類の画像がそのビデオを構成しているかを知ることは、しばしば有益である。例えば、どのショットが人の顔のクローズアップを含んでいるかを知ることは、ビデオの要約にそれらを含めやすくするために有用である。本発明は、ビデオシーケンスを所定のクラスの集合にセグメント化し分類する方法を含む。ビデオクラスの例には、人々のクローズアップ、群衆シーンおよび「パワーポイント(登録商標)」スライドといったプレゼンテーション資料のショットを含む。分類に使用される特徴は一般的であり、従って、ユーザは任意のクラスタイプを指定できる。
【0015】
図1は、本発明に従った方法の実施に適する汎用コンピュータシステム100を例示している。汎用コンピュータシステム100は少なくとも1個のマイクロプロセッサ102を備える。カーソル制御装置105は、マウス、ジョイスティック、一連のボタンまたは、ユーザがディスプレイモニタ104上でのカーソルまたはポインタの位置を制御できるようにする他のいずれかの入力装置によって実現される。汎用コンピュータはまた、ランダムアクセスメモリ107、外部記憶装置103、ROMメモリ108、キーボード106、モデム110およびグラフィックコプロセッサ109を備えることもある。カーソル制御装置105および/またはキーボード106は、本発明に従ってユーザ入力を受け取るための例示的なユーザインタフェースである。汎用コンピュータ100のこれらの要素の全部は、1つの選択肢においては、各種要素間でデータを転送するための共通バス101によって互いに結合されている。バス101は一般に、データ、アドレスおよび制御の各信号を含む。図1に示す汎用コンピュータ100は、汎用コンピュータ100の要素の全部を一体に結合する単一のデータバス101を備えるが、汎用コンピュータ100の各種要素を接続する単一の通信バス101が存在しなければならない必要はまったくない。例えば、マイクロプロセッサ102、RAM 107、ROMメモリ108およびグラフィックコプロセッサ109はデータバスによって結合され、ハードディスク103、モデム110、キーボード106、ディスプレイモニタ104およびカーソル制御装置105は第2のデータバス(図示せず)によって接続される。この場合、第1のデータバス101および第2のデータバス(図示せず)は、双方向バスインタフェース(図示せず)によってリンクされる。あるいはまた、マイクロプロセッサ102およびグラフィックコプロセッサ109といった一部の要素は第1のデータバス101および第2のデータバス(図示せず)の両方と接続され、第1のデータバスと第2のデータバスとの間の通信はマイクロプロセッサ102およびグラフィックコプロセッサ109によって行われる。このように、本発明の方法は、図1に100で示したようなあらゆる汎用コンピュータシステム上で実行可能であり、このコンピュータシステムが本発明の方法を実行し得る唯一のものであるといった制限はまったく存在しないことは明白である。
【0016】
図2は、本発明によるビデオの分類を実行する方法におけるデータの流れを示す。ビデオファイル201はビデオ記録物のディジタル表現である。ビデオファイル201は一般にMPEGといった標準ディジタルフォーマットで符号化されている。画像クラス統計モデル202〜205は、4つの個別の画像クラスに対応する所定のガウス分布を表現している。矢印209は、特徴ベクトル208を抽出するためのビデオファイル201の処理を示す。矢印209において行われる処理は以下の通りである。ビデオファイル201は、MPEGといった標準ディジタルフォーマットで符号化されている場合、復号化され、画素の矩形マトリックスに変換される。画素の矩形マトリックスは、下位画像のより小形の矩形マトリックスに簡約化され、この場合、各下位画像はその下位画像に対応する画素から導かれるグレイスケール符号を表現する。下位画像の矩形マトリックスに変換が施され、変換係数のマトリックスを生じる。変換係数のマトリックスから、ビデオ特徴208が、ビデオ分類のためのビデオ集合として示される変換マトリックス内の係数位置にある変換係数として選択される。クラシファイヤ(分類ユニット)206は各ビデオ特徴208を受け取り、それらのビデオ特徴208を画像クラス統計モデル202〜205の各々に入力する。この結果、ビデオファイル201の各フレームは、画像クラス統計モデル202〜205により表現される画像クラスのいずれかに分類される。ビデオファイル201のフレームに対応するようにクラシファイヤ206によって決定された対応する画像クラスは、クラスのラベル付けされたビデオ207に索引づけられる。このようにして、クラスラベル付けされたビデオ207は、そのフレームが属する画像クラスを示す各フレームに関係づけられた情報を含む。
【0017】
図2に示す通り、システムは最初に、ビデオシーケンスから分類のための特徴、例えば離散コサイン変換係数を抽出するが、カラーヒストグラムといった他の特徴を選択的に使用することもできる。認識されるビデオの各フレームのモデルを構築するために、トレーニングデータが使用される。このトレーニングデータは、そのクラスからの単数または複数のビデオシーケンスより構成される。クラスモデルは、ガウス分布または隠れマルコフモデルのどちらか一方にもとづくことができる。未知のビデオからクラスモデルおよび特徴が与えられたと、システムは、そのビデオをセグメント化し、それぞれのクラスに属するセグメントに分類する。
【0018】
ガウス分布型クラシファイヤは、クラスモデルを用いて各フレームの尤度(likelihood)を計算する。そのフレームのクラスは最大尤度を有するクラスである。同じクラスラベルを有する隣接フレームは併合されてセグメントを形成する。さらに、その尤度は、各クラスにおける帰属関係の信頼の程度を表示するブラウザにおいて選択的に使用される。隠れマルコフモデル法の場合、隠れマルコフモデル状態は異なるビデオクラスに対応する。バイタービ(Viterbi)アルゴリズムが使用される。最大尤度状態シーケンス、従って各フレームのクラスラベルを見つけるため、信頼度のスコアは状態シーケンスの確率から得られる。この隠れマルコフモデルクラシファイヤは、上記のフレームごとのクラシファイヤよりも複雑であるが、セグメントの連続性および順序を強制することによってセグメントを平滑化する役割を果たす。これは、単一フレームのクラス決定の変更を効果的に禁止する。
【0019】
各画像またはビデオフレームは、離散コサイン変換またはアダマール変換といった変換を用いて変換される。多くの用途の場合、完全なビデオフレームレートは不要であり、フレームは、選択的に数個のフレームのうちの1個だけが変換されるように時間的に間引かれる。この間引きによって、記憶コストおよび計算時間は劇的に軽減される。画像圧縮においては、一般に小さな下位ブロックに対して変換が行われるが、ここではフレーム画像全体に変換が適用される。変換されたデータはその後、有意性の低い情報を破棄することによって低減される。これは、切り捨て(truncation)、主成分分析または線形識別解析などといった多数の技法のいずれかによって行われる。この用途の場合、また、経験的に示される通り、主成分分析が良好に作用する。それが特徴次元の相関を分離する傾向があり、従って、データが、後述の通りガウスモデルおよび隠れマルコフモデルの対角共分散仮定によく一致するからである。しかし、最大分散を有する係数を単純に選択することが極めて有効であると判明している。これは、各フレームに関してコンパクトな特徴ベクトル(簡約化された係数)をもたらす。この表現は、類似の画像のフレームが類似の特徴を有するので、分類にとって適切である。
【0020】
図3は、本発明による、トレーニングフレーム、トレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換およびトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を例示する。従って、トレーニングフレーム301〜308は、ビデオ画像クラスに関係する一連のトレーニング画像を表す。トレーニング画像301〜308によって表現された画像クラスは、英語で「演壇の正面に立つ話者」と説明される。フレーム310は、トレーニングフレーム301〜308から抽出された8成分特徴ベクトルにもとづいて計算された平均特徴ベクトルに対応する逆離散コサイン変換を図示している。フレーム310では、ビデオ分類のための特徴集合は10成分特徴集合である。従って、各フレームからの10個の変換係数だけが各トレーニングフレームに関係づけられた特徴ベクトルを構成する。フレーム311は、トレーニングフレーム301〜308の各々から抽出された100成分特徴ベクトルにもとづいて計算された平均特徴ベクトルの逆離散コサイン変換を表す。フレーム312は1000成分特徴ベクトルの逆離散コサイン変換である。フレーム312は、逆離散コサイン変換において使用される係数の数が増加しているので、それ自体がフレーム310よりも詳細な表示をしているフレーム311よりもさらに詳細に表示している。
【0021】
フレーム320は、トレーニング画像から得られた平均特徴ベクトルの逆アダマール変換を表す。フレーム321は100成分特徴ベクトルに対応する逆アダマール変換を表す。フレーム322は1000成分特徴ベクトルに対応する逆アダマール変換を表す。
【0022】
1/2秒間隔で取られたMPEGフレームは、復号化され、64×64グレイスケール強度下位画像に簡約化された。得られたフレーム画像は、離散コサイン変換およびアダマール変換により符号化された。最大分散(順位)を有する係数および最も重要な主成分の両者が特徴として選択された。ガウスモデルは、1〜1000の可変数の次元によってトレーニング集合でトレーニングされた。図3は特徴カテゴリの1つ(figonw)のサンプルを示す。このカテゴリは、明るい(白い)背景を背にした人々のクローズアップよりなる。このクラスの画像が、カメラアングル、照明および位置の点で、おそらくは典型的なニュースキャスターの画像よりもいかに大きく変化し得るかに留意されたい。平均および共分散は、最大分散の離散コサイン変換およびアダマール変換の係数によってトレーニングされた。各モデルは、ゼロに設定された破棄係数を有する平均を逆変換することによって画像化されている。共分散は示されていないが、平均がトレーニングデータからの主要な特徴(暗色の中央の人影)を捕捉することは明白である。図3は、少ない数の係数によっても、トレーニングデータにおける主要な形状が、逆変換された時に依然認識可能であることを示している。
【0023】
図4は、異なる平均および分散を有する2つの一次元ガウス分布を示す。確率曲線401によって表現された分布Aは平均μAを有する。確率曲線402によって表現された分布Bは平均μBを有する。分布Aから生じるある値Xの確率は、横軸に対する点403の垂直位置である。同様に、分布Bより生じる値Xの確率は、横軸に対する点404の垂直高さである。点403における確率が点404における確率よりも高いので、Xは分布Aから最も得られやすい。図4は一次元プロットであり、2つの画像クラスAおよびBならびに1成分特徴集合が与えられた時、図4は、本発明に従って行われるビデオフレームの分類の最大尤度の方法を的確に例示する。
【0024】
特徴データが与えられると、ビデオセグメントは統計的にモデル化される。単純な統計モデルは多次元ガウス分布である。ベクトルxが1フレームの特徴を表現すると仮定すると、そのフレームがガウスモデルcによって生成される確率は次式の通りである。
【0025】
【数1】
【0026】
ここで、μcは平均特徴ベクトル、Σcはモデルcに関係するd次元特徴の共分散マトリックスである。式(x−μc)’は差分ベクトルの変換である。実際には、対角共分散マトリックス、すなわちΣcの非対角線上成分がゼロであると仮定するのが普通である。これにはいくつかの利点がある。最も重要なことは、自由パラメータ(マトリックス成分)の数をd(d−1)/2からdに減らすことであり、これは問題の次元d(dは100のオーダー)が高い時に重要となる。共分散マトリックスは少数のトレーニングサンプルにより計算される際にしばしば不良条件となるので、これはマトリックスの逆の計算が極めて単純になり、より確固としたものになることを意味する。このようにガウスモデルによって画像を分類するために、必要なクラスの各々について1組のサンプルトレーニング画像が集められ、パラメータベクトルμcおよびΣcが計算される。未知の画像xが与えられると、各画像クラスの確率が計算され、その画像は最大尤度モデルによって分類される。あるクラス(トレーニング集合)にとっては対数尤度だけが類似性の有用な測度であり、本発明によるビデオブラウザといった用途において直接使用される。より精緻なモデルは、多数のパラメータおよび混合重みを評価するために期待値最大化アルゴリズムが与えられた時に、ガウス混合を使用することができる。さらなる代替として、ニューラルネットワークまたは他の形式のクラシファイヤが使用される。単一のガウスモデルの場合、μcおよびΣcの計算は、計算法としては容易であり、極めて迅速に行える。単一画像からのモデルのトレーニングの場合、平均ベクトルは画像特徴に設定され、分散ベクトル(対角共分散マトリックス)は全部の画像に対する大域変数の何らかの比に設定される。未知のフレームおよび数個のモデルが与えられた場合、その未知のフレームは、どのモデルが最大確率をもってそのフレームを生じるかによって分類される。
【0027】
図5は、本発明によるビデオ分類のための特徴集合を選択する例示的方法を示す。すなわち、図5は、統計モデルのトレーニングのため、および、統計モデルがトレーニングされた際のビデオの類似性測定および分類のために、抽出および分析する係数位置を変換する選択過程を表している。図5に記載した方法は、多数のトレーニング画像に見られるの特性を考慮している。以下に述べる分類法において、特徴集合を最適に選択するために使用されるトレーニング画像は、異なるクラス全部の画像を含む。これは、図5に示す方法が異なるクラスの画像を区別するために特徴の最適な集合を選択するのを助ける。図5に示す方法の代替として、特徴集合で使用する係数位置は、観測されるビデオ特性を全く考慮せずに、図6および8に示すように単に最低頻度係数を選択することによる切り捨てによって選択される。
【0028】
V×Hの離散コサイン変換係数位置を考え、そこから特徴集合としてより小さな数dを選択する。図6に示した例ではV=H=8である。より典型的で実際的なシナリオではV=H=64であり、従って、選択するべき4096(64×64)個の係数位置がある。最大分散係数を選び出すための1つの代替の方法は、4096×4096共分散マトリックスを計算した後、適切に特徴を選び出すが、必ずしも順番に行う必要はない。簡約化ベクトルの実際の順序は重要ではないが、一致していなければならない。
【0029】
工程501で、平均係数マトリックスが計算される。平均係数マトリックスは、変換が適用される下位画像のマトリックスと同じ行数Vおよび同じ列数Hを有しており、また、結果として得られる変換係数マトリックスとも同数の行および列を有する。平均マトリックスの各位置は、トレーニング画像にある対応する係数の算術平均である。1つの実施の形態では、平均係数マトリックスは、分散マトリックスを計算する過程の予備工程として計算される。別の実施の形態では、平均係数マトリックスの値自体を解析して、特徴集合を選択する。例えば、ある実施の形態では、最大平均値を有する係数位置が特徴集合として選択される。工程502では、分散マトリックスが計算される。分散マトリックスは、平均マトリックスおよび変換マトリックスと同じ行数Vおよび同じ列数Hを有する。分散マトリックス502の各値は、トレーニング画像の変換マトリックスにおける対応する位置の統計分散を表現する。あるいはまた、分散マトリックス502の各値は、標準統計分散以外である「分散」測度を表現するが、それでもやはりそれは変動の測度を表現する。例えば、観測された各係数の平均係数との差の算術平均絶対値は、標準統計分散に使用されるような2乗差の和よりも、「分散」測度として使用できる。
【0030】
工程503において、特徴集合が選択される。この特徴集合は、本発明による多様な方法のいずれかによって工程503で選択される。例えば、特徴集合は選択的に、最大平均値を有するd個の係数位置として選択される。あるいはまた、特徴集合は分散マトリックスで最大分散値を有するd個の係数位置として選択される。さらに別の代替法として、特徴集合は、主成分分析または線形識別解析によって選択される。
【0031】
最も単純な特徴集合選択法では、特徴集合のd個の係数位置が切り捨てによって選択され、それにより、変換マトリックスの最低頻度係数のみが、トレーニングフレームのいずれかにおけるそれらの位置の実際の係数の値にかかわらず、特徴集合を構成するように選択される。実際、切り捨てによると、最低頻度成分が最も重要であると単純に仮定されるので、いずれのトレーニングフレームもまったく分析される必要はない。
【0032】
特徴集合の選択はトレーニング画像の各群について行われる必要はないことに留意しなければならない。一般に、特徴集合は、分類方法において使用される全部のクラスモデルから全部のトレーニング画像を使用する上記の方法のいずれかにもとづいて選択される。例えば、図2のクラスモデル202〜205の各々を定義するために使用されるトレーニング画像の全部は、それらのトレーニング画像の全部について平均マトリックスおよび分散マトリックスを計算することによって解析されて、それらのクラスモデルの各々の分類のための最適な特徴集合を決定する。従って、本発明による分類法における各ビデオ画像クラスについて同じ特徴ベクトルが検索されるように、好ましくは同一の特徴集合が全部のクラスモデルに関して使用される。しかし、本発明による画像クラスの各々について同一の特徴集合が使用されなければならないという必要性はまったくない。これに関して、各画像クラスは、その画像クラスの検出に最適に選択された特徴集合を有することができるが、その画像クラスの対応する確率の計算を行うために各ビデオフレームから異なる特徴ベクトルを抽出しなければならないという演算負荷の増加を伴う。
【0033】
図6は、ビデオフレームの離散コサイン変換から得られる変換マトリックスを示す。列1は水平周波数0(従って直流)を表現し、列2は水平周波数fhを表現し、そして、列8は水平周波数13fvの係数を表す。同様に、行1は垂直周波数0(すなわち直流)の係数を表現し、行2は垂直周波数fvを表現する。変換マトリックス600の行8は垂直周波数13fhの係数を表す。変換マトリックス600の左上隅の9個の係数はその変換マトリックスの最低周波数係数を表す。ブラケット601および602で囲まれたこれらの9個の係数は、本発明による特徴集合を選択する9係数切り捨て法によって選択される9個の係数位置である。より高周波数の係数は画像の細部を表現するので、それらはあるフレームのビデオ画像クラスを決定するうえでそれほど重要でないことがほとんどである。
【0034】
図7は、本発明に従って2個以上の変換マトリックスから計算された分散マトリックスを示す。図8は、本発明に従った切り捨てによって決定された特徴集合800を示す。最低頻度成分に対応する変換マトリックスの9個の係数は、図8に示す通り特徴集合800として選択された。例えば、成分801、802および803は図6に示す変換マトリックス600の行1の最初の3個の係数位置を表し、成分804、805および806は変換マトリックス600の第2の行の最低頻度成分を表し、成分807、808および809は変換マトリックス600の第3の行の最低頻度係数位置を表す。変換マトリックス600の最初の3個の行は変換における最低垂直頻度を表し、従って特徴集合800で指定された9個の成分は切り捨て法に関して適切な選択である。
【0035】
図9は、本発明に従って図8に示した特徴集合を有するトレーニングフレームの2個の特徴ベクトルから計算された平均特徴ベクトル900を示す。このように、係数801〜809に対応する平均マトリックス(図示せず)の値は平均特徴ベクトル900として記憶される。
【0036】
図10は、本発明に従って図8に示した特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。共分散マトリックスは必ず正方かつ対称である。この共分散は次元d×dのマトリックスである。共分散は全部の異なる次元に関する相関を表現する。対角共分散を使用することによって、d個の非ゼロ値が存在し、数学演算のためには、それはマトリックスとして扱われなければならないものの、d成分のベクトルとしてみなすことができる。対角共分散マトリックス1000の全部の非対角線上成分は、特徴集合における全部の特徴がその特徴集合の他の特徴と統計的に非相関関係にあるという仮定にもとづき、ゼロに設定される。実際、特徴が相関関係にあれば、特徴空間の座標変換に対して主成分分析が最適に使用され、それにより対角共分散仮定も良好に満たされる。対角共分散マトリックス1000は、図9に示した特徴ベクトル900および、図6に示した変換マトリックス600の切り捨てにより決定された特徴ベクトル800に対応する。
【0037】
図11は、本発明の方法による図8に示した特徴集合を有するフレームについて検索された特徴ベクトル1100を示す。このように、特徴ベクトル1100の各成分1101〜1109は、変換された画像フレームから得られた実際の変換係数を含む。特徴ベクトル1100は、本発明に従った分類方法においてビデオファイル201から抽出される図2に示したビデオ特徴208の実例である。
【0038】
図12は、本発明により2個以上のビデオ画像クラスのいずれかにビデオのフレームを分類する方法を例示している。この方法は工程201に始まり、工程202で、ビデオの第1のフレームが離散コサイン変換またはアダマール変換のいずれか一方によって変換される。工程1203で、特徴工程によって示された位置にある係数に対応する特徴ベクトルが抽出される。工程1204では、特徴ベクトルを生成する各画像クラス統計モデルの尤度または確率が計算される。工程1205で、そのフレームに対応する特徴ベクトルを生成する確率が最も高い画像クラス統計モデルを有する画像クラスが選択される。工程1206で、そのフレームが、工程1205で決定されたそのクラス指定によりラベルづけされる。この工程では、フレームは、将来容易にブラウズまたは検索されるように、そのクラスに従って索引づけがなされる。検査1207は、そのビデオにさらにフレームが存在するかどうか、すなわち、それが分類中のビデオの最後のフレームであるかどうかを判定する。さらにフレームがあれば、分岐1208は方法を次のフレームを変換する工程1202へ戻し、それがビデオの最終フレームである場合には、工程1209は図2に示したクラスのラベルづけされたビデオ207が完了したことを指示する。
【0039】
図13は、本発明に従い切り捨て以外の方法によって決定された特徴集合を示す。例えば、主成分分析、最大分散を有する係数の選択または最大平均を有する係数の選択の内の1つの想定可能な結果が、図13に示す特徴集合1300によって例示されている。図13に示された6成分特徴集合1300は、図6に示した係数位置610〜615を含む。図13に示された6成分特徴ベクトル1300の係数位置1301として含まれ、図6に示された変換マトリックス600の第2行、第6列の係数位置614の包含は、11fhに対応する比較的高い水平頻度成分が画像クラスを弁別する際に有効であることを示す。高頻度成分の包含はほとんど、フレームを認識するのに一般に比較的小さく鋭いエッジを有するテキスト等の小さな鋭い特徴を検出することを要する場合に生じる。
【0040】
図14は、本発明に従って、図13に示す6成分特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された平均特徴ベクトル1400を示す。
【0041】
図15は、本発明に従って、図13に示す特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された対角共分散マトリックス1500を示す。特徴集合で示された係数位置の値の間に相関関係が存在しないという仮定にもとづき、対角共分散マトリックス1500の非対角線上成分は、やはりゼロに設定されている。
【0042】
図16は、本発明に従った分類のための図13に示す特徴集合1300を有するフレームから検索された特徴ベクトル1600を示す。このように、成分1601〜1606は、本発明の方法に従って分類されるフレームの変換によって生じる変換マトリックスから得られる実際の個々の変換係数を表現している。
【0043】
十分なデータ簡約化が行われた場合、クラシファイヤは、プレゼンテーションスライド、発表者または聴衆といった典型的な会議のビデオシーンの間を識別するために、本発明に従って容易にトレーニングされる。会議ビデオの領域分野の他に、この方法は、ニュースキャスターのショットなど、あるクラスの画像が類似の構成を有する場合には良好に作用するはずである。本発明による方法を評価するために、ビデオテープ録画されたスタッフ会議の資料に関して多数の実験を行った。ビデオショットは、6つのカテゴリに分類され、資料はトレーニング集合および試験集合に分けられた。
【0044】
ビデオ分類実験は、6カ月の期間に開かれビデオ録画されたスタッフ会議の資料に関して実施された。各ビデオはカメラオペレータによって作成され、オペレータは、パン/チルト/ズームの制御が可能な3台のカメラによるビデオと、パーソナルコンピュータおよび演壇カメラからのビデオ信号との間で切り換えを行った。後者の装置は、透明および不透明資料といったプレゼンテーショングラフィックスを背面映写スクリーンに表示できるようにした。従って、ビデオショットは一般に、発表者、聴衆ショットおよび、「パワーポイント(登録商標)」スライドまたは透明資料といったプレゼンテーショングラフィックスより構成される。得られたビデオはMPEG−1符号化され、サーバに記憶された。
【0045】
資料には、21回の会議ビデオが収められ、ビデオ収録時間の合計は13時間以上であった。資料は、会議ビデオを交互に選ぶ形で、試験およびトレーニングセグメントに任意にセグメント化された。試験およびトレーニングデータは下記の表1に示す6つのクラスにラベルづけられ、表はトレーニングおよび試験の各集合のフレームの数も示している。相当量のデータがいずれのカテゴリにも当てはまらず、ラベルづけされずに残された。6つのクラスは、プレゼンテーショングラフィックス(slides)、照明付き映写スクリーンのロングショット(longsw)、照明なしの映写スクリーンのロングショット(longsb)、聴衆のロングショット(crowd)、明背景での人物像の中間クローズアップ(figonw)および暗背景での人物像の中間クローズアップ(figonb)を表現するように選択された。(スクリーンショットといった)単一のカテゴリでかつ(照明付きと照明なしのスクリーンショットといった)著しく異なるモードの場合、各モードについて別のモデルが使用された。これは、単一ガウスモデルとのすぐれた一致を保証したが、別の方法は結合モデルをモデル化するためにガウス混合を代替的に使用する。同一の論理クラスをモデル化するように意図されている場合、異なるモデルは選択的に結合される。例えば、人物像を見つけることを意図している場合に背景色は重要ではないので、分類結果を提示する際にfigonwおよびfigonbクラスの結合が行われる。
【0046】
【表1】
【0047】
実験は、ガウス分布型クラシファイヤが長時間のビデオの脈絡における特定のクラスからビデオフレームを検出することを実証している。これは、長時間のビデオから、類似フレームの領域として定義されたショットをセグメント化するために使用される。これは、例えばスライドを含むショットの始まり、といった有益な索引点を提供する。他の方面では、例えばフレームまたは色の相違によってショットがすでに突き止められている場合、そのショットから全部のフレームに関してショットモデルが容易にトレーニングできる。これにより、共分散が動きその他の変化により生じる差異を捕捉するので、ショットを類似性により検索できるようになる。あるショットを表現するキーフレームが、尤度距離計量を用いてそのショット平均に最も近いフレームを見つけることにより容易に見出せる。画像を表現する係数の数は極めて控え目であるので(主成分分析のフレーム当たり10個程度の特徴)、1つの代替法は、ビデオデータ自体に比べてもほとんどまったくオーバヘッドを伴うことなく、ビデオとともに特徴を記憶することである。ガウスモデルは計算が容易なので、モデルは選択的にオンザフライでトレーニングされる。これは対話型ビデオ検索のような用途を可能にし、この場合、ユーザは、時間バー上をドラッグしてビデオ領域を選択するなどして、所望のクラスを指示する。モデルはその領域の特徴について迅速にトレーニングされ、大きなビデオ資料のフレームに対応する類似性が迅速に計算される。資料における高い尤度の領域は、選択されたビデオに良好に一致する領域であり、資料の索引として機能する。
【0048】
多様なモデル結果をスレッショルド設定を用いずに示すために、最大尤度法を使用して、ラベルづけされた試験フレームを分類した。下記の表2は、30個の最大分散離散コサイン変換係数の使用による結果を示す。クラスfigは、figonwおよびfigonbの結合クラスの上位集合である。各列は試験フレームの実地検証情報ラベルであり、行は、行クラスとして認識される試験集合におけるサンプルの割合(小数分率)を示す。非ゼロの非対角線上成分は分類誤差を表す。すべてのラベルづけされたフレームは、それ自体のラベルと異なることはあっても最大尤度クラスを有するので、列の合計は1になる。
【0049】
【表2】
【0050】
図17は、本発明によって類似性を決定する方法において、類似性を決定するためのスレッショルドとして使用されるスライド画像クラス統計モデルの標準偏差の倍数の関数として、スライドとして正しく識別されたスライドフレームの割合およびスライドとして誤って識別された非スライドフレームの割合を示す。代替的な実施の形態として、類似性を決定するためのスレッショルドは一般的なものであり、例えば、他のクラスの最大尤度によって決定される。x軸は標準偏差の所定の倍数を表し、y軸はスレッショルドのその特定の選択にもとづいて類似と識別されたフレームの割合を表す。プロット1701は、実際にスライドであり、本発明の類似性評価法によって正しくスライドとして識別されたフレームの割合を示す。プロット1702は、実際にはスライドでなく、本発明の類似性評価法によって誤ってスライドとして分類されたフレームの割合を示す。
【0051】
図17は、ビデオを分類しセグメント化するためにガウスモデルがどのように使用されるかを実証している。スタッフ会議ビデオの資料による実験は、スライド、話者、聴衆といったクラスが正しく認識されることを示した。1/2秒間隔で取られたMPEG−1フレームは、復号化され、64×64グレイスケール強度下位画像に簡約化された。得られたフレーム画像は離散コサイン変換およびアダマール変換により符号化され、最大平均値を有する100個の係数が特徴として選択された。対角共分散ガウスモデルが80例のスライドフレームについてトレーニングされ、無関係の試験ビデオのスライドフレームおよびタイトルの確率を計算するために使用された。
【0052】
(共分散|Σ|1/2からの)標準偏差の倍数で尤度をスレッショルドとすることは、クラスの帰属関係を検出するうえで極めて有効であることが示されている。また、そのようなスレッショルドは、使用される係数の数からまったく独立である。図17は、スライド検出比が多様なスレッショルドにおいてどのように変化するかを示している。グラフは、スレッショルドが標準偏差の約1.1倍のとき、84%の正確なスライド認識率をもたらし、誤り認識はほとんどない(9%)ことを示している。標準偏差により正規化された場合、尤度は、それ自体で、クラスモデルに対する所与のフレームの類似性の指標として有益である。全部のクラスが同様の検出率を有するが、誤り認識の数はクラスごとに異なっている。
【0053】
単純ガウスモデルは上記のようにトレーニング画像の平均を計算するので、画像シーケンスに関係するいずれかの時間変化情報を失う。動きまたは連続といった動的な情報を捕捉するために、モデルは様々な方式で選択的に拡張される。フレーム間差異または簡約化された特徴の傾向によりモデルをトレーニングすることにより、動きまたはフェードといった時間変化効果はモデル化される。
【0054】
図18は、本発明による画像クラス統計モデルを用いたビデオフレームの類似性を判定する方法を示す。工程1801で、現在分析中のフレームに対応する特徴ベクトルが検索される。工程1802で、その画像クラス統計モデルに対応する平均特徴ベクトルが検索される。工程1803で、特徴ベクトルからの平均特徴ベクトルの減算を表現する差分ベクトルが計算される。工程1804で、差分ベクトルの大きさが画像クラス統計モデルの標準偏差の所定の倍数と比較される。差の大きさが標準偏差の所定の倍数より小さい場合、工程1805はそのフレームを類似として分類する。差の大きさが標準偏差の所定の倍数より小さくなければ、工程1806がそのフレームを非類似として分類する。図18に例示した類似性を判定する方法は、ガウスの公式による実際の確率計算を必要としないことに留意しなければならない。代わりに、差分ベクトルの大きさおよび標準偏差がユークリッド距離として計算される。差分ベクトルの大きさは、そのd個の成分の平方の和の平方根によって計算される。画像クラスの標準偏差は、対角共分散マトリックスの対角線上成分の和の平方根として計算される。
【0055】
図19は、本発明に従ってビデオの各種フレームを生成する画像クラス統計モデルの確率の対数表示を示している。対数は単調関数なので、確率の対数は、類似性の大小を判定するために確率を比較するのと同様に比較される。
【0056】
図19は、ほぼ1時間継続する試験ビデオにおけるスライド画像でトレーニングされたガウスモデルの対数尤度を示す。ビデオでスライドが実際に示された時を指示する「実地検証情報(ground truth)」は、上部付近の幅広のバーとして示されている。この対数尤度が、ビデオでスライドが示されている時の良好な指標であることは明らかである。(共分散マトリックスΣcから計算された)ある標準偏差で対数尤度をスレッショルドとすることは、個々のフレームを分類するうえで極めて効果的であることが示されている。(共分散から計算された)標準偏差の倍数で尤度をスレッショルドとすることは、クラスの帰属関係を検出するうえで極めて効果的であることが示されている。また、こうしたスレッショルドは使用される係数の数とはまったく独立である。
【0057】
いずれかの特定のフレームまたはフレームのビデオセグメントと画像クラスとの間の類似性は、本発明に従って計算される。ガウスモデルの場合、所与のフレームの類似性測度は尤度であり、対数領域にあるものに代えることができる。ガウスモデルはまた、セグメント境界として機能する所与のスレッショルドを類似性測度が超えた時にそれらのフレームを見つけることによって、ビデオをセグメント化するためにも使用できる。時間モデルが存在しない場合、最小のセグメント長を求めるというような臨時の規則によりセグメント化を改善できる。
【0058】
図20は、本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数を表示する方法を示す。工程2001で、画像クラス統計モデルによって生成されるフレームの確率がガウスの公式によって計算される。工程2002で、確率の対数が計算される。工程2003で、確率の対数が図19と同様にして表示される。工程2004において、さらにフレームが存在する場合は、2006に分岐して工程2001に戻り、それ以上フレームがない場合、工程2005で終了する。
【0059】
図21は、特徴集合の成分の数dの関数として正しく分類されたフレームの割合、それらのフレームに適用された変換のタイプおよびd成分特徴集合の選択方法を示している。図21は、離散コサイン変換およびアダマール変換の両者について、正しい分類の確度が、一般に、特徴集合が増加するにつれ変換係数の数とともに向上することを示している。トレース2101、2102および2103の下降部分は、各クラスがそうした大きな数の係数位置を有する特徴集合を判定するために十分なトレーニングフレームがトレーニング集合に存在しないことの結果である。言い換えれば、トレース2101、2102および2103の下降部分は、特徴ベクトルが由来するべきものとして合理的にモデル化されるガウス分布に倣うのではなく、トレーニングフレームの特徴ベクトルの実際のデータポイントに倣っていることを示している。分布に倣わせるためには、トレーニングフレームの数は特徴集合の変換係数の数よりも相当に多くなければならない。これは、与えられた数のトレーニングフレームを前提とする限り、特徴集合の変換係数位置を100以下とすることが、計算上の負荷を軽くするだけでなく、より大きな特徴集合よりも効果的であることを実証する。
【0060】
異なる変換方法での変換係数の数の影響を判定するために、全正確さ、すなわち、正しいカテゴリに認識されたサンプルの割合を計算した。図21はその結果を示す。離散コサイン変換およびアダマール変換の主成分に関する認識分布がほぼ同一であることを指摘できるのは興味深い。最良の成績(87%正確な)は10個の主成分を用いて得られた。主成分分析を伴わない場合、分散順位づけ離散コサイン変換係数は30をピークとするのに対し、アダマール変換は300で若干高い確度を得る。アダマール変換はしばしば、離散コサイン変換と同様に知覚的特徴を保存しないということで批判されるが、この場合には多少すぐれているように思われる。直線アダマール変換ベースの関数は、シヌソイド離散コサイン変換系よりも良好に(スライドや壁といった)画像特徴を一致させるからである。
【0061】
図22は、本発明の方法に従ってスライドに類似であると見られるビデオの領域を表示するブラウザを示している。ブラウザ2200は、スライドビデオ画像クラスに類似であると判断されるフレームより構成されるビデオ内の時間間隔を黒い垂直バーで示す時間バー2201を含む。
【0062】
ユーザがビデオ内の興味のある部分を見つけるのを助成するためにビデオ分類を使用するアプリケーションが本発明に従って開発されている。長時間のビデオがそれを全体として見ることなく所望の情報を含むかどうかを判定することは単純ではない。インテリジェントメディアブラウザは、図22に示すように、ビデオから抽出されたメタデータを利用することによってビデオに対するきめ細かいアクセスを可能にする。あるビデオに関する信頼度スコアが時間バーにグラフィカルに表示される。信頼度スコアは、ソースメディアストリームへのランダムアクセスに時間軸を使用することによりソースストリームにおける興味ある領域への貴重な糸口を付与する。例えば、スライドモデルの正規化対数尤度が図22の時間バーに表示される。高尤度(信頼度)の2つの領域が灰色または黒色領域として視覚化され、それらはビデオにおけるスライド画像に対応する。時間軸上の点または領域を選択すると、対応する時間からメディアの再生を開始する。このようにして、興味のある部分となる高い可能性の時間間隔が、信頼度表示から視覚的に識別され、線形探索を伴わずに容易に調査できる。
【0063】
図23は、本発明に従ってビデオを分類する方法において使用される隠れマルコフモデルに対応するクラス遷移図を示す。画像クラスG、AおよびBの各々はガウス分布を用いてモデル化される。同一のクラスに留まるかまたは別のクラスに遷移する遷移確率は、遷移矢印の横に示されている。
【0064】
隠れマルコフモデルは、本発明に従ってビデオセグメントの継続時間およびシーケンス(順序)を明示的にモデル化できる。単純な実施例では、2状態隠れマルコフモデルの一方の状態は所望のクラスをモデル化し、他方の状態モデルは他のすべてをモデル化する(「ガーベージ」モデル)。多状態隠れマルコフモデルは、上記のガウスモデルを用いて、それらを平行に結合し、弧に沿って遷移ペナルティを加えることによって作成される。図23は、そうしたモデルを示しており、状態Gがガーベージモデルであり、状態AおよびBが所要のビデオクラスをモデル化している。(図示されたシーケンスは、ビデオクラスが2つの個別の成分AおよびBを有し、AがBの前に生起することを示唆している。多数の他のモデルシーケンスが可能である。)ビデオに対する最大尤度を使用した隠れマルコフモデルのアライメントはバイタービアルゴリズムによって決定される。これは、サンプルと類似しているセグメントおよび類似でないセグメントへのビデオのセグメント化をもたらす。さらに、観測されたビデオを生じるいずれかの特定の状態の尤度は、いずれかの特定のフレームについて選択的に決定され、探索、順位づけまたはブラウジングにおいて活用するための有用な類似性測度を与える。
【0065】
図23は、尤度スレッショルドを有する単一のガウスモデルが長時間のビデオから類似のショットをどのようにしてセグメント化できるかを示している。多様なショットモデルを使用することにより、尤度比または最大尤度を用いて、いずれのモデルにも良好に一致しないショットを排除するスレッショルドを選択的に有する多様なショットをセグメント化できる。異なるショットは、多様な代替計量を用いてそれらのガウスモデルを比較することによって、比較照合される。
【0066】
クエリー状態の隠れマルコフモデル出力分布は、上記のガウスモデルに関してまさに説明した通り、係数特徴の単数または複数のガウスモデルとして代替的にモデル化される。選択的に、エルゴード的に(完全に)結合された複数の状態が、複数の混合ガウスモデルと同様にセグメントをモデル化するために使用される。単数または複数のガーベージモデルの出力分布もガウス分布である。そのパラメータは、ビデオデータベースから推定され、システムに記憶される。クエリーおよびガーベージ状態に留まる遷移確率は、例題データから推定されるかまたは、クエリーの長さおよびビデオにおけるクエリーの生起間の長さが変化し得るので、ユーザによって選択的に調整される。この方式の利点は、遷移確率がほとんどの隣接フレームを同一状態に拘束し、従って見かけ上のセグメント化または類似性スコアの変動を低減することである。
【0067】
隠れマルコフモデルの公式化は、複数の状態および(音声認識における言語モデルに類似の)遷移グラフを用いてビデオの傾向またはシーケンスを捕捉するために強力に拡張されている。それ故、隠れマルコフモデルは、例えば、ニュース放送の開始を特徴づける放送局のロゴからニュースキャスターのショットへの遷移をモデル化するために選択的に使用される。この例で図23について説明すれば、状態Aは放送局のロゴをモデル化し、状態Bはニュースキャスターのショットをモデル化する。隠れマルコフモデルにおける暗示的シーケンス拘束のために、これは、A−Bシーケンスにのみ一致しB−Aシーケンスには一致せず、または、AまたはBを孤立してセグメント化するのに対して、単純ガウスモデルは全部について高いスコアを生じる。
【0068】
図24は、図23に示したクラス遷移図に対応する本発明に従ったクラス遷移確率マトリックスを示している。クラス遷移確率マトリックス2400の行は以前のフレームのクラスを表し、マトリックス2400の列は現在フレームのクラスを表す。クラス遷移確率マトリックス2400の各列は、ある現在の画像クラスに関係するクラス遷移確率ベクトルである。図23に示したクラス遷移図は以降のフレームについてクラスGからクラスBへの遷移を許していないので、マトリックス2400の成分2401はゼロである。同様に、クラス遷移図2300はクラスBからクラスAへの遷移を許していないので、マトリックス2400の成分2402はゼロである。
【0069】
図25は、図23に示したクラス遷移図に従った5つの連続した初期ビデオフレームに対応する可能なクラスシーケンスの全てを示す。クラス遷移図2300はそのシーケンスがクラスGで始まるように指示しているので、最初のフレームのクラスは図25の枠2501に示されたGである。しかし、第2のフレームは、それぞれ枠2502および2503に示されたクラスGまたはクラスAのどちらか一方となる。第2のフレームが枠2503で示されたクラスAである場合、第3のフレームは、それぞれ枠2504、2405および2506に示されたクラスG、AまたはBのいずれかとなる。クラスの確率は、そのクラスについて計算された尤度、以前のクラスの確率および、そのクラスへの遷移を生じるクラス遷移確率の関数である。各状態の確率は以下の式によって与えられる。
【0070】
【数2】
【0071】
図26は、本発明によるクラス遷移確率マトリックスおよび画像クラス統計モデルによってビデオをセグメント化する方法を示している。方法は工程2601に始まる。工程2602で、可能性のある現在の状態の各々に対応する最も確からしい以前の状態が計算される。それらの計算は図25に示した例に関する上記の式を用いて行われる。工程2603で、現在のフレームの尤度が、各画像クラスに対応するガウス関数によって可能な現在の状態の各々について計算される。工程2603での計算は、例えば図12に示した方法1200の工程1204において、計算された確率と同一である。工程2604で、全部の可能な状態に対応する現在の状態の確率が工程2603および2602による結果を用いて計算される。工程2604の計算は上記の式によって実行される。工程2602の計算は、現在の状態を仮定して式2、4および6を使用する。工程2604の計算は、上記の式1、3および5を使用する。検査2605はビデオの終わりに達したかどうかを判断し、否定されれば、工程2606はプロセスを次のフレームに進める。それが最後のフレームであれば、工程2605は処理を工程2606に渡し、そこでその最終状態が最大の全確率を有する状態として選択される。最終状態が選択された後、最も確からしい以前の状態が、上記の式2、4および6の以前の評価に従って選択される。言い換えれば、最終状態が既知であれば、以前の状態の全ては、工程2602ですでに行われた計算によって自明になる。工程2608で、さらにフレームが存在するかどうかが判定され、肯定されれば、工程2609はその以前のフレームを工程2607に渡し、工程2602ですでに計算された結果に従って次の以前の状態とのリンクの決定がなされる。第1のフレームが分類されると、処理は工程2610で終了する。
【0072】
隠れマルコフモデルの場合、セグメント化は、最大尤度状態シーケンスを見つけるためのバイタービアルゴリズムによって行われる。これは、特定の状態または状態の群とアライメントされた全部のフレームがセグメントとしてみなされるので、最大尤度セグメント化を直接与える。隠れマルコフモデルの構造は、アライメントが(従来行われていたように局所的にではなく)ビデオ全体について計算されるので、このタスクに特に適している。このモデルに内在するシーケンスおよび継続時間の拘束は、他の方式の分類誤りによって生じ得る単一フレームセグメントといった誤りを効果的に禁止する。所与のフレームとクエリーとの間の類似性は、バイタービアルゴリズムにおいて、単数または複数のクエリー状態の事後確率として計算される。類似性測度が与えられと、ビデオのあらゆる集合は、クエリーセグメントとの類似性によってセグメント化および/または順位づけられる。これは、ビデオの大きな資料からの類似性による内容にもとづく検索を可能にする。
【0073】
上述のように単純ガウスモデルはトレーニングフレームの平均を計算するので、ビデオシーケンスに関係する何らかの時間変化情報を失う。動的なシーケンス情報を捕捉するために、モデルは多様な方法で選択的に拡張される。フレーム間の差異または簡約化された特徴の傾向でモデルをトレーニングすることによって、動きまたはファクシミリといった時間変化効果はモデル化される。ビデオシーケンス間の類似性を見つけるために、2つのシーケンスのフレームのフレームごとの内積を合算することにより相関スコアが計算される。類似なシーケンスは大きな相関を有する。異なる長さの2つのシーケンス間の最良の一致を見つけるために動的プログラミングが選択的に使用される。本発明による動的事象を捕捉するすぐれた技法は、特徴出力確率をモデル化するためにガウス混合を用い、特に音声認識用に開発された効率的なトレーニングおよび認識アルゴリズムが与えられた、隠れマルコフモデルである。
【0074】
ここで行った実験は、変換係数の統計モデルが低い誤差率でビデオフレームを迅速に分類することを実証している。この方式の計算の単純さおよび少ない記憶要求量は、本発明による対話型ビデオ検索といった用途を可能にする。
【0075】
特定のビデオセグメントについてビデオデータベースを探索する際に、所望のビデオセグメントのタイプの記述を与えるよりも、例題を与えることによってクエリーを指定するほうが容易であることが多い。例えば、話を聞いている一群の人々を示すビデオのセグメントが望まれる場合、探索クエリーとしてシステムに群衆セグメントを単純に呈示することはより容易である。これは、選択されたセグメントに類似であるセグメントについて単一のビデオを探索する際に特に当てはまる。類似性による検索は、ユーザにとって容易であることに加え、実例からクエリーの良好なモデルを作成することが容易であるので、より正確であることが多い。
【0076】
自動ビデオ分類は、ブラウジング、自動セグメント化および内容にもとづく検索といった広範な用途に有用である。自動分類を用いたアプリケーションは、特定の話者を示すビデオを検索するか、または、ビデオの再生中にその話者のいる領域を強調表示させるなどによって、ディジタル化ビデオをブラウジングおよび検索するうえでユーザを支援することができる。自動生成注釈は、ビデオテープ録画された会議から重要な情報を検索する際にユーザを支援することができる。このようなツールは、ユーザが、特定のビデオおよびそのビデオ内の対象となる領域の両方を突き止めなければならない場合に、ビデオの大きな集合を取り扱うのを助けることができる。こうしたあらゆる用途にとって、ビデオのトレーニング用集合は異なるビデオおよびオーディオクラスに従ってラベルづけされ、統計モデルはそのラベルづけされたセグメントでトレーニングされる。
【0077】
本発明は、ビデオの類似性の統計的測度および、その類似性測度を使用して再生中にビデオの案内を助成するアプリケーションを含む。本発明によれば、類似性マッチングに使用されるビデオの領域を選択するための2つの異なるユーザインタフェースが開示される。
【0078】
ブラウザは、ビデオ領域を選択し類似領域を自動的に見つけることによってユーザにビデオの構造を探索させるように設計されている。例えば、ニュース放送を見る場合、ユーザはニュースキャスターのショットを含む領域を選択する。システムはその後、類似の領域を自動的に検出し、それらをグラフィカルに表示しかつ自動索引点として示し、それによりユーザは、例えば、介在箇所を見ることなく次の類似領域に直接跳ぶことが可能になる。これらの索引は、以後のユーザのために保存し注釈を付けることができる。類似性索引は対話的にかつ極めて迅速に作成できる。
【0079】
図27は、本発明に従って類似性探索を実行する方法におけるデータの流れを示している。ソースビデオ2701は、トレーニングセグメントが抽出されるビデオを表す。変換特徴2702は、図2において変換特徴208がビデオファイル201から抽出されたのと同様にして、ソースビデオ2701から抽出される。工程2703は、トレーニングフレームの収集のためのトレーニング領域のユーザ選択を示している。工程2704で、ガウス画像クラス統計モデルが、平均特徴ベクトルおよび対角共分散マトリックスを比較することによりトレーニングされる。ビデオ2705は、類似性の探索のためのターゲットとされたビデオを表す。同様に、変換特徴2706が抽出される。工程2707において尤度計算が、工程2704でトレーニングされた画像クラス統計モデルを用いて行われ、得られた確率が工程2708でフレームごとに出力される。
【0080】
図27は、システムが実際にどのように使用されるかのブロック図を示す。ユーザは最初に単数または複数のビデオセグメントを選択することによりクエリーを実行する。クエリーの簡約化された離散コサイン変換またはアダマール変換係数が、オンザフライでの計算またはデータベースにルックアップのどちらか一方によって得られる。クエリーのモデルはその後これらの係数を用いてトレーニングされる。単純な場合、単純ガウスモデルが使用される。データベース内のビデオの簡約化された離散コサイン変換またはアダマール変換係数はシステムに提示され、尤度計算が実行される。これは、一連の類似性スコアおよび、類似および非類似セグメントへのセグメント化を生じる。類似性スコアはその後ブラウザに表示され、ユーザが類似のビデオセグメントを調査できるようにする。
【0081】
類似性計算のデータは、図2の説明において前述したものと同様にして離散コサイン変換またはアダマール変換のどちらか一方によって得られる。この表現は、類似画像のフレームが類似の特徴を有するので、類似性を測定するために適切である。
【0082】
変換法にもとづく類似性測度は、従来のカラーヒストグラム方式よりも多くの用途に関してすぐれている。特に、変換係数は、形状についてほとんど変化がないヒストグラムと異なり、画像における主要な形状およびテクスチャを表現する。例えば、左上および右下に同一物体がある2つの画像は、ヒストグラムでの相違はごくわずかであるが、本発明による変換ドメインにおいては顕著に異なる。現在の類似性測度は輝度だけにもとづいているが、後述の通り、この技法を色を使用するように拡張することは容易なはずである。
【0083】
この変換法により可能なセグメント化およびモデル化の種類が比較的粗いことを指摘することは重要である。例えば、ニュース放送においてニュースキャスターとロケーションのショットとを識別することは単純であるが、特定のニュースキャスターを識別するといった、より精緻な区別はさらに特殊化されたデータ簡約化またはドメイン特定モデルを必要とするであろう。しかし、これらの技法は、例えば、群衆または自然のシーンを排除しつつ計算上高価な顔面識別アルゴリズムにより、以後の分析のために適切なクローズアップシーンを選択するといった、より精巧な方法の重要なフロントエンドまたはプレクラシファイヤとして代替的に機能する。
【0084】
図28は、本発明に従ってビデオに対応する特徴ベクトルデータベースを計算する方法を示している。迅速な尤度計算および画像クラス統計モデルの迅速なトレーニングを助成するために、ビデオのフレームに対応する特徴ベクトルを予備計算し、それを特徴データベースに記憶することが望ましい。工程2801で、フレームが離散コサイン変換またはアダマール変換によって変換される。工程2802で、変換係数マトリックスから特徴ベクトルが抽出される。工程2803で、特徴ベクトルが特徴ベクトルデータベースに記憶される。検査2804では、さらにフレームがあれば、次のフレームが工程2801に渡され、それ以上フレームがなければ、方法は工程2805で終了する。
【0085】
ビデオ領域間の類似性を評価するために、ビデオフレームの類似性が開示される。各フレームは、離散コサイン変換またはアダマール変換といった正規直交射影によって変換される。変換が、下位ブロックではなく画像全体について行われた場合、係数は画像を正確に表現する。変換されたデータはその後、上述のように切り捨て、主成分分析または線形識別解析などのいずれかの技法によって簡約化される。ここに提示した用途の場合、最大分散係数以外の全部を破棄することが良好に作用する。その簡約化表現は、高度にコンパクトであり、元のフレームの顕著な情報を保存している。これは、元の画像を復元することを意図する、データ圧縮とは異なることに留意されたい。元のデータは表示および使用に利用可能であると前提されているので、変換プロセスを逆にする必要はまったくない。従って、この変換法は、コンパクト性または画像忠実度よりも分析のために最適化されている。
【0086】
結果として得られるのは、各フレームのコンパクトな特徴ベクトルまたは簡約化された係数(10〜30パラメータ)である。この表現は、類似のフレームは類似の変換係数を有するので、ビデオの類似性を数量化するために適切である。特定のショットと隣接するフレームといった類似画像の集合をモデル化するために、ガウスモデルが例題フレームでトレーニングされる。ガウスの平均は例題フレームの平均を捕捉し、共分散は動きまたは照明の相違による変動をモデル化する。単一混合ガウスは、例題データに関して1パスで極めて迅速に選択的に計算され、例題フレームのおおよその構成および可変性をモデル化する。
【0087】
多くの用途にとって、完全なビデオフレームレートは必要なく、フレームは、毎秒数フレームだけを変換する必要があるような時間で間引かれる。こうした要因は、記憶コストが実際上無視でき、係数が計算されれば計算時間は極めて迅速であることを意味する。従って、リアルタイムアプリケーションに使用される戦略は、簡約化された係数を予備計算し、それらをビデオとともに記憶し、対話的かつ迅速な類似性測定を可能にすることである。MPEG−7といった将来のフォーマットはそうしたメタデータをビデオデータとともに含めることを可能にするが、現在好ましい実施の形態による用途では、係数は個別のファイルに記憶される。
【0088】
図29は、本発明に従って統計モデルを対話的にトレーニングする方法を示す。工程2901で、トレーニングフレームまたはトレーニングセグメントがユーザにより対話的に選択される。工程2902で、工程2901で選択されたトレーニングフレームまたはセグメントに対応する特徴ベクトルが、直接の計算または特徴ベクトルデータベースのルックアップのどちらか一方によって得られる。工程2903で、トレーニングフレームに対応する特徴ベクトルから平均特徴ベクトルおよび対角共分散マトリックスを計算することによって、画像クラス統計モデルが構築される。
【0089】
変換ドメインの1つの利点は、フレームを表現する特徴ベクトルの大きさが極めて控え目である(PCA特徴についてフレーム当たり10程度)ということである。クエリービデオトレーニングセグメントは、平均ベクトルおよび共分散マトリックスによってパラメータ化された多次元ガウス分布によりモデル化される。実際、特徴間のゼロ相関が前提とされるように対角共分散マトリックスを仮定することは普通であり、各特徴はガウス分布を有する独立のランダム変数であると仮定される。対角共分散マトリックス(すなわち非対角線上の成分がゼロである)は、モデルが高次元で頑強性を持つ(ロバスト)であるように仮定されている。ガウスモデルを用いてクラスをモデル化するために、トレーニング画像の集合について平均および共分散が計算される。クエリートレーニングセグメントは、平均ベクトルおよび共分散マトリックスを計算するために使用される。類似性スコアは、ビデオの各フレームについて、クエリー画像クラス統計モデルからフレームの尤度を計算することによって計算される。代替的に、より精巧なモデルは、ガウス混合を使用し、期待値最大化アルゴリズムを利用して、複数のパラメータおよび混合重み、それにより、複数のガウスモデルの各々に関係する複数の平均、分散および重み係数を評価する。しかしこれは、反復を要する。そうしたわけで、オンザフライで迅速に計算される単一混合ガウスモデルが仮定されている。
【0090】
フレームの係数に平均値を設定し、分散を定数等の値に設定することによって、またはいずれかのトレーニング集合から得られた分散を使用することによって、ガウスモデルを生成するために単一フレームクエリーが選択的に使用されることに留意されたい。他のフレームまたは静止画像はその後、類似性についてスコアが付けられる。定数の分散はユークリッド距離計量を生じ、トレーニング分散はマハロノビシュ(mahalonobis)距離を生じる。従って、類似の静止フレームまたは画像は、それらを距離測度によって順位づけることによって集合から検索される。本発明によるこのシステムの別の変種は、ただ1個の画像をクエリーとして使用する従来の画像検索システムではなく、画像の群またはクラスでクエリーモデルがトレーニングされた場合である。
【0091】
一度計算されると、任意のビデオフレームの類似性は、モデルがフレームを生成する尤度によって決定される。類似フレームは高い尤度を生じる。この方式は、会議ビデオの大きな資料での話者およびスライドといった所定のビデオクラスについて約90%の分類率をもたらしている。ガウスモデルは、動きまたは照明の相違による変動をモデル化しつつ、画像クラスの特徴的な構成および形状を捕捉することができる。特徴ベクトルが計算されると、多数の用途が使用可能である。最も単純なものの1つは直接的な距離測度である。類似フレームは類似の特徴ベクトルを生じるので、特徴ベクトル間の距離を測定することにより画像距離の指標が得られる。
【0092】
図30は、本発明に従ってブラウザ内にビデオフレームを呈示し、類似性測度を表示する方法を示す。工程3001でフレームの特徴ベクトルが検索される。工程3002で、画像クラス統計モデルによって生成される特徴ベクトルの確率が計算される。工程3003で、その確率がスレッショルドより大きいか否かが判定される。スレッショルドはやはりユーザによって対話的に定義される。工程3002で計算された尤度がスレッショルドより大きければ、工程3004はそのフレームを類似として索引づける。尤度がスレッショルドより小さければ、そのフレームを工程3005で非類似として索引づける。工程3006で、類似または非類似の類似性属性はそのフレームについてブラウザにグラフィカルに表示される。
【0093】
いずれかの特定のフレームまたはビデオセグメントとクエリーセグメントとの間の類似性が計算される。ガウスモデルの場合、所与のフレームの類似性は尤度であり、代替的に対数ドメインに存在する。ガウスモデルはまた、セグメント境界として機能する、また、所与のスレッショルドを類似性が超えた場合に、それらのフレームを見つけることによってビデオをセグメント化するためにも使用される。継続時間モデルが存在しない場合、最小セグメント長を要求するような臨時の規則がセグメント化を改善させることができる。
【0094】
図31は、本発明に従って、対話的に定義されたトレーニングビデオセグメント、そのトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換、およびトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。フレーム3101はユーザによって対話的に定義されたトレーニング画像を表す。フレーム3102は、フレーム3101に示すトレーニング画像から得られた平均特徴ベクトルの逆離散コサイン変換を表す。フレーム3103は、フレーム3101に示すトレーニング画像から得られた平均特徴ベクトルに対応する逆アダマール変換を表す。
【0095】
ビデオ類似の領域を突き止める本発明に従った方法は既述の通りである。類似性測度を用いるビデオブラウザを提供する、直接的なアプリケーションを以下に述べる。図32は、1つのブラウザのプロトタイプのユーザインタフェースを示す。左上に通常のビデオ再生ウィンドウおよびコントロールがある。右側中ほどには、下部の時間バーに表示させる類似性スコアを選択するメニューコントロールがある。類似性スコアは、ビデオスライダバーと時間同期的に表示される。暗色領域は類似性の高い区間であり、濃くなるほど類似である。図は、表示されたフレームにあるように、暗い背景を背に中央にいる話者の中間クローズショットの類似性を示している。類似ショットの位置および程度は時間ラインの黒色バーで直接明らかとなる。
【0096】
右側中ほどのスレッショルドスライダは、類似性スコアから索引点をどのように導き出すかを制御する。索引点は、時間バーの暗色(類似)領域の上部領域のやや明るいバーとして示されている。(この場合、これは主にB/W再現のためであり、索引点は類似性がスレッショルドを超えた時点に決定される。)時間バーの下の「|<<」および「>>|」のラベルが付けられたボタンは、再生点を次の索引点または前の索引点に自動的に進める。大きな類似性変動(多数の索引点)の領域では、ユーザは、スレッショルドを大きくすることによって最も重要な指標を選択できる。類似性が少ない領域では、ユーザは、スレッショルドを引き下げても索引点を見つけることができるが、信頼性が下がる。
【0097】
図32は、本発明による、トレーニングビデオセグメントを対話的に定義し類似性測度を表示するための時間バーおよびユーザスレッショルドマウス入力を受け取るためのスレッショルドスライダバーを備えるブラウザを示している。時間バー3201は、類似であるとみられるビデオのセグメントを縦の黒色バーとして示す。スレッショルドスライダバー3202は、類似性の検出に必要な確率スレッショルドを指定するためのユーザのマウス入力を受け取る。時間バー3201は、例えばトレーニングセグメント指定についてクリックドラッグ操作によってユーザトレーニングマウス入力を受け取るように動作可能である。
【0098】
図33は、ビデオの領域内のフレームを表示するためのスクロール可能ウィンドウ3301をさらに追加した図32のブラウザを示す。詳細には、メインブラウザウィンドウに表示され、時間バースライダ3303の位置によって指示されるフレーム3302およびその前後のフレームが、スクロール可能ウィンドウ3301に表示される。
【0099】
このウェブ(Web)ベースのインタフェースは、極めて良好な概観を提供し、ビデオ全体の各種クラスをラベルづけるためのすぐれた選択となる一方で、ビデオ再生中の迅速な類似性探索のために特殊に仕上げられている。従って、水平スクロール可能ウィンドウ(図33の下部参照)に周期的にサンプリングされた類似の静止画像を示す追加表示が、本発明に従って選択的に含まれる。再生中、ウィンドウは、再生ウィンドウと同期して留まるように自動的にスクロールする。時間的脈絡は、再生ウィンドウに示されたフレームに最も近い静止画像をスクロール可能ウィンドウの中央に置くことによって示される。ビデオが停止されると、静止画像は誘導案内用に使用される。関心のある領域にスクロールさせ、その静止画像上でダブルクリックすると、ビデオが対応する時間のビデオに位置づけられる。
【0100】
類似性探索の区間は静止画像上でマウスをドラッグすることによって選択される。選択された領域は、スクロール可能ウィンドウおよび時間バーの下部の両方に明緑色バーにより指示される。ビデオの小さな部分だけがスクロール可能ウィンドウの時間範囲内に表示されるので、示される選択領域はもっと大きなものである。図33で、スクロール可能ウィンドウに表示された選択領域は、スライダの爪のすぐ下のごく小さな領域に対応する。さらに、あらゆる時間依存媒体の場合と同様、ビデオに伴う問題は、何が選択されたのかが再生してみなければ必ずしも明白にならないということである。
【0101】
類似性索引を作成するためには、最初に例題ビデオを選択しなければならない。1つのインタフェース方法は、ビデオの領域を選択するために図32および図33の時間バーで単純にクリックドラッグすることである。あらゆる時間依存媒体の場合と同様、ビデオに伴う問題は、何が選択されたのかが再生してみなければ必ずしも明白にならないということである。前述の類似性測度の場合、最良の結果は、ソースビデオが、例えば同一のショットに由来するといったように、合理的に類似である場合に得られる。クリックドラッグ選択は、テキストの場合には効果的であるが、時としてユーザがほとんど気づかずに不要なビデオが選択される結果をもたらす。また、非接触選択も代替的に有効である。
【0102】
図34は、1個以上のトレーニングビデオセグメントの終点を対話的に選択し、周期的フレームの類似性測度を表示するためにビデオの周期的フレームを表示するウェブベースのインタフェースを示す。ビデオ全体は最初に、図34に示されたように表示される周期的フレームに分割される。各周期的フレームは、ユーザがその周期的フレームを選択し、それをフレームセグメントに包含させるようにするチェックボックスを備える。隣接する周期的フレームがチェックされると、その2つのチェックされた周期的フレーム間の後続のビデオの全部の非表示フレームは、トレーニングセグメントの一部となる。例えば、周期的フレーム3401と周期的フレーム3402との間のビデオの全部のフレームはトレーニングセグメントに含まれる。ビデオの類似性探索が行われると、周期的フレームに対応する類似性情報は、周期的フレームの周囲の矩形ボックスの陰影として選択的に表示される。
【0103】
図34は、選択された領域の視覚化と同時に非接触選択のサポートを可能にするビデオ領域選択用のウェブベースのアプリケーションを示している。このアプリケーションでは、ビデオは、通常の区間で切り取られた一連のキーフレームとして表される。図34は、選択された領域の視覚化と同時に非接触選択のサポートを可能にするビデオ領域選択用のウェブベースのアプリケーションを示している。このアプリケーションでは、ビデオは、通常の区間として切り取られた一連のキーフレームとして表され、それらのビデオにおける時間(秒単位)とともに示される。ビデオ録画プレゼンテーションの場合には5秒間隔が適切であるが、他の用途ではそれより速いかまたは遅いレートも選択的に好適である。ユーザは、各フレームの下のチェックボックスをクリックすることによって複数のキーフレームを選択する。隣接して選択されたキーフレーム間のビデオの全フレームについてモデルがトレーニングされる。このインタフェースは、終点を精確に位置決め可能とし、選択されたビデオ内容を明示的に表示するという理由で、クリックドラッグよりもある点ですぐれている。また図34は、非接触選択が複数の区間を次々と選択することにより可能であることも示している。このインタフェースは、簡潔な表示により、ユーザが一目で関心のある領域を見つけられるようにする。通常サイズのウェブブラウザでは、10分のビデオに対応する120個の画像がウィンドウに示され、残りのビデオもスクロールによって容易にアクセス可能である。インタフェースは、様々なクラスの画像への様々なラベルの割り当てもサポートする。以前に割り当てられたラベルは表示ではカラーコード化される。選択されたビデオの類似性は、ほぼ即時的に計算され、図32および図33のブラウザに表示されるか、または、スレッショルドで切られ、図34のように各フレームの周囲に異なる色でウェブインタフェースに表示される。
【0104】
図35は、本発明に従って離散コサイン変換およびアダマール変換係数によって計算されたビデオの類似性マトリックスを示す。距離計量の利用を示すために、全部のフレーム間の類似性を計算し、結果のマトリックスを画像として表示することにより、ビデオの自己類似性を視覚化することができる。図35は、スタッフ会議のビデオの距離マトリックスを示す。位置(i,j)の各画素は、類似フレームであればあるほど色濃くなるように、フレームiとフレームjとの間の距離に比例して着色されている。各軸の単位は秒単位での時間であり、各点は、最高分散を有する100個の離散コサイン変換およびアダマール変換係数間のユークリッド距離に比例して着色されている。アダマール変換ドメインに関して従来しばしばなされた批判は、知覚的相違と良好に相関しないということである。アダマール変換は一般にクラスタ化およびモデル化について同様に良好に作用するが、距離がアダマール変換および離散コサイン変換の両方の表現に関して極めて類似であることを指摘しておくことは興味深い。i=jにおける黒色直交線は、フレームがそれら自身と同一であることを指示する。いくつかの特徴が目につき、後続部分と類似でないビデオの始まりの導入期間が存在し、それは約500秒続くことが容易にわかる。
【0105】
右下隅の4個の濃色の正方形は、スライドプレゼンテーションの2つのロングショットに由来する。個々のスライドの変化はその中に見ることができるが、それらは聴衆または話者のカットよりも小さい大きさののものである。これらのスライドは、約550秒に開始する別のスライドプレゼンテーションとも極めて類似であり、同じく自己類似である聴衆のショットとインターカットし、「チェッカーボード」パターンを生じる。またスライドは、1600秒および1900秒のコンピュータデスクトップのショットともある程度類似であり、それらの領域を濃色に見せているが、他のスライド領域ほど濃くはない。これらのマトリックスは全体的に直観的ではなく、いずれかの特定の時間に得られる「スライス」は、ビデオの残部に対するその時間におけるそのフレームの類似性を示している。図32および図33の時間バーとして提示されると、これは、単一のフレームが類似のビデオ領域を見つけるためにどのように使用されるかを示すが、ガウスモデルは、分散をモデル化できるためによりロバストである傾向がある。
【0106】
本発明はまた、カラー情報にもとづき1個以上の付加的なシグネーチャを計算することによって、カラー検索を行うための改良を含む。これは、特徴ベクトルによって表現される現行の輝度(Y)シグネーチャに付加するために画像の色成分(YUV色空間におけるUV成分)に関する付加的な特徴シグネーチャを計算することによって実現される。色成分は少ない空間解像度を要するので、それらは少ないシグネーチャで表現される。本質的に、フレームの色成分の変換からの変換係数位置が選択され、特徴ベクトルに追加され、それにより、特徴ベクトルは同一カラーフレームから得られた輝度フレームおよび色フレームの両方の変換からの係数を含む。
【0107】
別の代替法によれば、YUBまたはRGBの各カラー成分は個別の画像フレームとして扱われる。従って、各フレームに対して3つの変換が適用され、シグネーチャ(特徴ベクトル)は各個別画像について計算されて比較される。これは、類似性計量における全カラーによる重みづけを可能にする。カラー情報の包含のための本発明に従ったさらに別の代替法は、この検索技法と別の、例えばカラーヒストグラムにもとづく技法との組合せである。初期の類似性工程において、画像は輝度特徴ベクトルによって類似性がわかる。その画像を領域に分解し、各領域についてカラーヒストグラムを計算することによって、画像における空間情報の一部が保存される。最終類似性工程では、初期類似性工程から得られた最上位画像が、カラーヒストグラム類似性評価法または他の類似性評価法によって類似性について再度スコアが付けられる。
【0108】
カラーは、多くの種類のビデオ画像にとって、例えばコンピュータプレゼンテーションがスライドの背景色だけで識別できる場合が多いスタッフ会議のビデオにおいて、有効な糸口である。また、動きまたは時間シーケンスのモデル化も多くの用途で極めて有用であり、より強力な統計モデルがそれを可能にする。
【0109】
ガウスモデルは多くの用途にとって有効であるが、区間内の全部の変化が平均化されるという短所を有する。時間的シーケンスまたは継続時間を捕捉することが重要である場合、隠れマルコフモデルが代替的に使用される。隠れマルコフモデルの出力分布は、まさしく前述の通り、特徴ベクトル上の単数または複数のガウスモデルとしてモデル化される。隠れマルコフモデルの利点は、各状態が暗示的または明示的な継続時間モデルを有することである。これは、(過度に長いまたは短い)ありそうにもない継続時間のショットにペナルティーを科す因子を尤度計算に加える。これは、継続時間モデルが同一状態と最も隣接するフレームを拘束し、従って擬似的なショット境界を低減するので、単純な最大尤度フレーム分類よりも有効である。
【0110】
隠れマルコフモデルでの公式化は、複数の状態および(音声認識における言語モデルに類似の)遷移グラフを用いてビデオの傾向またはシーケンスを捕捉するために選択的に強力に拡張される。従って、隠れマルコフモデルは、例えば、ニュース放送の開始を特徴づける放送局のロゴからニュースキャスターのショットへの遷移をモデル化するために選択的に使用される。隠れマルコフモデルに内在するシーケンス拘束のために、これは、放送の終了時に多く生じるニュースキャスターのショットから放送局のロゴへの遷移には一致しないが、単純ガウスモデルは両者の場合について高いスコアを生じる。
【0111】
また、元の特徴ベクトルのフレーム間差異として計算される差分表現も有用である。パーセヴァルの関係によって、各ベクトルのノルムは、画素の差のノルムに(ほぼ)比例する。従って、カットまたはカメラの移動によって生じた大きなフレーム間差異は、差分ベクトルのノルムを計算することによって容易に検出される。あるいはまた、それらは、動きを捕捉する追加の特徴を形成するために元の特徴ベクトルと連結される。
【0112】
本発明に従った類似性探索の方法は、類似のビデオ領域を見つける迅速かつ強力な手段を記述する。ユーザが例題ビデオを用いてクエリーを指定できるようにすることは、テキストベースまたはスケッチベースのインタフェースを凌ぐ進歩である。この技法は、大きなビデオコレクションに、さらにカラーまたは時間的類似性の測度に容易に拡張される。
【0113】
週毎のスタッフ会議が、複数のビデオカメラおよびマイクロフォンが装備された会議室で開かれることもある。会議は、経営陣およびスタッフによる全体発表に始まり、その後個々の職員によるプレゼンテーションに進む。プレゼンテーションは通常1人によって行われ、オーバヘッドプロジェクタまたはコンピュータによるスライドといったグラフィックスを含み、一般に会議では1つ以上のプレゼンテーションが行われる。カメラ担当者は、部屋のカメラを切換え、ビデオ録画のショットを提示する。ビデオはMPEG符号化され、社内イントラネットによってスタッフに利用可能となる。
【0114】
図36は、本発明に従ったオーディオビジュアル記録物をセグメント化する方法に対応するデータの流れを示す。ソースビデオ3601は工程3602でスライド領域を見つけるために分析される。ソースビデオ3601のオーディオチャネルは、スライド区間に対応するソースビデオ3601の領域について工程3603で抽出される。工程3603で抽出されたオーディオ区間は、話者ごとに工程3604でクラスタ化される。すなわち、オーディオ区間は、相互に比較照合され、それらのソースに従って分類される。得られたオーディオ区間のクラスタは、各々が単一話者に由来するものとみなされる。同一話者クラスタのオーディオ区間は工程3605で併合される。工程3606で、ソース特定話者モデルが各併合オーディオ区間についてトレーニングされる。工程3607で、ソースビデオ3601のオーディオチャネルは、話者認識によって話者ごとにセグメント化される。オーディオチャネルによるセグメント化の結果は、以後のブラウジングおよびソース特定検索操作のためにソースビデオ3601およびソースオーディオ3608において索引づけられる。
【0115】
図37は、2人の話者による2つのプレゼンテーションを有する記録された会議のスライドであるオーディオビジュアル記録物のフレームの確率の対数を示す。話者Aのプレゼンテーションの範囲を示すラベル3701は、ビデオを見ている人間のユーザにより得られた話者Aのプレゼンテーションの実際に観測された継続時間である。同様に、話者Bの指標3702は話者Bのプレゼンテーションの全範囲を示す。
【0116】
各フレームのコンパクトな特徴ベクトル(簡約化された係数)が上述の通り計算される。対角共分散ガウスモデルは、いくつかの無関係な会議ビデオからのスライド画像でトレーニングされている。このモデルは、各ビデオフレームに関する尤度を生成するために使用され、それはそのフレームがスライドであるという対数尤度を測定する。1個の標準偏差をスレッショルドとした場合、そのビデオにおいてスライドが表示された時点の確実な評価値を生じる。下記の表3に示すように、スライドは94%の確度でプレゼンテーションと関係づけられた。20秒以上の長さのスライド区間がシステムの候補スピーチ区間として使用される。図37は、スタッフ会議のスライドの対数尤度のプロットを示している。20秒以上の長さの上記のスレッショルド(点線)である判定基準を満たす4個の区間が存在し、それらは1、2、3および4のラベルが付けられている。この特定の会議において、それぞれAおよびBのラベルが付けられた2人の話者により行われた2つのプレゼンテーションが存在した。各プレゼンテーションの範囲は図37の上部に示されており、それはセグメント化実験に関する実地検証情報として機能する。話者Bのプレゼンテーションは、スライドが表示された期間の2倍以上続けられたことに留意されたい。
【0117】
【表3】
【0118】
図38は、図36に示した工程3604および3605に示したような本発明に従ったオーディオ区間に適用されるクラスタ化方法におけるデータの流れを示す。オーディオ区間3801〜3804は、図36に示したソースオーディオ3608から抽出された、図37で1、2、3および4のラベルが付けられた4個のオーディオ区間を表している。オーディオ区間3801〜3804はオーディオベクトル3805〜3808にパラメータ化される。クラスタ化法3809がオーディオベクトル3805〜3808に適用され、相互に小さいユークリッド距離を有するオーディオベクトルに集塊させる。クラスタ化法3809の結果は、それぞれ話者AおよびBに対応するオーディオ区間3810およびオーディオ区間3811と併合される。
【0119】
ある話者の口から数センチメートル以上離れたファーフィールドマイクロフォンによって話者識別を行うことは特に困難である。記録された会議でのオーディオは演壇マイクロフォンまたは他のクローズトーキングマイクロフォンではなく複数の天井マイクロフォンから得られるので、話者識別は特に困難になる。実際にあらゆる話者識別技法は、特定の話者を特徴づけるためにメル周波数ケプストラル係数(mel−frequency cepstral coefficient)といった何らかの種類のオーディオスペクトル測度を使用する。あらゆる現実的環境におけるファーフィールドマイクロフォンは、直接的に、また、壁、床、机といった環境配置によって反射された音声を拾ってしまう。こうしたマルチパス反射は、音声の周波数スペクトルを著しく変更するくし形フィルタ効果をもたらす。この問題は、(遠隔会議システムにおいて普通に行われているように)複数のマイクロフォンからの信号を混合することによってさらに悪化する。部屋の共鳴による付加的な効果も各マイクロフォンの周波数応答に影響する。共鳴およびくし形フィルタ効果はともに、室内の話者の位置により著しくかつ予測不可能に変化する。これは、トレーニングスピーチのサンプルを使用して話者モデルをトレーニングする現在の話者識別法を、ファーフィールドマイクロフォン環境にとって特に不適にさせる。音響環境によるスペクトル変化はしばしば、話者間のスペクトル差異とほとんど同じ程度の大きさである。
【0120】
予測できない室内音響によるトレーニングデータと試験データとの間の不可避的な不一致を回避するために、本システムは本質的に、単一話者によって発せられたと思えるセグメントを抽出することによって試験データからトレーニングデータを取得する。現在の実施の形態において、これは、単一話者のスピーチがスライドといったプレゼンテーション視覚物の表示と相関していると仮定することによって行われる。(仮定されたスタッフ会議の領域分野では、この仮定は、完全にではないが通常は、所与のスライド区間において質問、笑声または他の感嘆が頻繁に存在するので、正確である。)
【0121】
単純な顔面またはニュースキャスター検出といった他のビデオ分析は同様に使用される。本発明に従った代替法として、顔面認識は、ビデオ区間を特定の話者と関係づけるために使用されるオーディオクラスタ化を強化または代替できる。
【0122】
次の工程は、何人の話者がスライドプレゼンテーションを行ったかを判定するために候補区間をクラスタ化することである。これは、任意の数のクラスタ化技法のいずれかによって行えるが、現在の実施の形態の場合、オーディオ類似性の極めて単純な測度が使用される。各オーディオ区間はメル周波数ケプストラル係数にパラメータ化され、各区間の係数の平均が比較照合される。ユークリッド距離測度および、最大距離の1/2をスレッショルドとする集塊クラスタ化法によって、各話者候補に関する個別のクラスタが得られる。クラスタ化スレッショルドは、いずれかの既存のクラスタに十分に類似でない区間を排除する。例えば、あるスライドに関するクエリーがなされる場合、得られる区間はほとんど、多数の異なる話者からのスピーチを含む。より精緻な距離およびクラスタ化法、例えば、ノンパラメトリック類似性測度、尤度比距離および/または可変スレッショルドクラスタ化といった方法が選択的に使用される。隣接セグメントのクラスタ化を助成するために距離測度にバイアスをかけるといった付加的な拘束または、話者の数に関する事前の知識を使用することにより、選択的にクラスタ化を改善させることもできる。前述の通り、自動顔面認識は音響クラスタ化を代替的に強化または代替できる。
【0123】
図39は、本発明に従った一連の話者単位より構成される話者遷移モデルを示す。フィラーモデル3901、3903および3903は、例えばビデオの非単一話者セグメントでトレーニングされるオーディオモデルを表す。話者モデル3904は、図38に示した併合オーディオ区間3810でトレーニングされる話者モデルを表す。話者モデル3905は、図38に示した併合オーディオ区間3811でトレーニングされるモデルを表す。話者単位3806および3907は、セグメント化における話者シーケンスの知識によってソースオーディオ3608をセグメント化するために図36に示す工程3607で使用される隠れマルコフモデルを形成するために連結される。
【0124】
クラスタ化の結果から、プレゼンテーションを行う話者の数および彼らが話す順番が決定される。これは隠れマルコフモデルを用いてビデオをセグメント化できるようにする。さらに、クラスタ化されたオーディオセグメントは各話者モデルをトレーニングするために使用される。クラスタ化の結果から、ビデオの時間範囲をモデル化するために隠れマルコフモデルが自動的に構築される。図39はモデルの構造を示している。「フィラー」モデルは、発表者の話以外とみなされるオーディオを表す。この実施の形態では、フィラーモデルは、ソースビデオの最初の2分間からのオーディオと同様、他の会議ビデオからセグメント化された沈黙、笑声、称賛および聴衆の雑音でトレーニングされ、それはプレゼンテーションの話者による話を含まないとみなされる。フィラーモデルは、多重事例化されているが、好ましくは各事例で同一である。話者特定モデルはプレゼンテーションの話者からの話を表す。各話者特定モデルは、それに関係する結合されたスライド区間のクラスタからのオーディオでトレーニングされる。話者モデルおよび選択的なフィラーモデルを連結することにより「話者単位」が得られる。それらは、話者ごとに1個ずつ連結され、最終モデルを生じる。これにより正しい話者シーケンスが得られる。セグメント化は、完全モデルによりソースオーディオの最大尤度アライメントを見つけるためにバイタービアルゴリズムによって実行される。これは、スライドが表示される区間と実質的には異なる可能性があるので、各発表者の話の範囲を決定可能にする。特に、話者が話している間に話者のショット、聴衆のショットおよびプレゼンテーションスライドの間で交替が起こることはビデオにとって普通である。この実施の形態では、フィラーモデルおよび話者モデルともに単一の状態を有しており、単一混合の全共分散ガウス出力分布を有する。モデルが単一状態および単一混合を有するので、それらは1パスで迅速にトレーニングされる。複数状態または複数混合モデルは、より高価なトレーニングによって性能を改善できよう。自己遷移はいかなるペナルティーも伴わずに可能であり、明示的な時間継続をいっさい持たないエルゴード的モデルを生じる。これにより、モデルは、いかなる確率ペナルティーも伴わずに所与の時間長を表現することができる。
【0125】
図40は、本発明によるオーディオビジュアル記録物をセグメント化する方法のセグメント化の結果を例示している。このように、話者Aの指標4001は、話者Aのプレゼンテーションの実際の継続時間4003にほぼ重なり合っている話者Aのセグメント化を表す。話者Bのセグメント化指標4002は、セグメント化が実際の話者Bの継続時間4004にほぼ重なり合う結果となったことを表す。このようにして、話者Aの指標4001および話者Bの指標4002は、本発明によるセグメント化によって作成される索引より導出される。
【0126】
図40は、会議のソースビデオに関する自動セグメント化の結果を示す。不利な音響環境(利得制御を伴う6個のファーフィールドマイクロフォン)にもかかわらず、2人の話者は識別され、彼らのプレゼンテーションの範囲は、数十秒以内まで合理的に良好にセグメント化された。これはビデオのセグメント化およびブラウズにとって明らかに妥当である。最大の不一致は話者Aのプレゼンテーションの終わりにあり、それは事実上話者Bのプレゼンテーションの開始まで続くようにセグメント化された。これはたぶん、2人の話者が、映写装置の詳細を話し合っていたのでその区間に話をしていたためであろう。
【0127】
単一の会議を選択するために使用される同じ技法は、同じ話者の組を含む複数の会議に対しても選択的に適用される。個々の会議からのプレゼンテーションは会議の資料について選択的にクラスタ化される。これは発表者の目録を作成可能にする。それが潜在的に異なる音響環境(部屋の位置)における同一話者の話の十分な実例を含んでいれば、より強固な、位置に依存しない話者モデルが選択的にトレーニングされる。さらに、会議進行表において話者が識別されていれば、話者モデルは以後の識別および検索のために氏名と関係づけられる。
【0128】
スライドプレゼンテーションを含む6本のビデオ録画された会議が試験資料として使用された。オーディオフィラーモデルおよびスライド画像のトレーニングデータは別の組のビデオから得た。6本のビデオの合計長さは280分21秒であり、約45分の平均長であった。各ビデオは1〜5本のプレゼンテーションを含み、合計16本であったが、3本のプレゼンテーションはビデオおよびスライドを含んでおり、ほとんどが聴衆の質問または注釈を有していた。プレゼンテーションは一般にスライド区間の継続時間より長いので、スライドの存在はプレゼンテーションの良好な指標であり、スライドだけからプレゼンテーションを見つけることはプレゼンテーションの75%を見逃す結果となった。表3の第2行は、話者のセグメント化がこれをどれほど改善させるかを示す。プレゼンテーションの約5%だけがプレゼンテーション以外のものであると誤って識別された。
【0129】
16本のプレゼンテーションにもとづき、(ビデオおよび変則的なオーディオによる付加的な終点とともに)合計32個の検出すべき終点が存在した。実際の話者の話の開始または終了の15秒以内に生じていれば、終点は正確であるとみなした。表4は終点の位置の確度を示す。クラスタ化以前に、57のスライド区間による114個の終点が存在した。検出すべき32個の関連する終点の実地検証情報が与えられ、26個の終点が正確に突き止められて、これは0.23の精度による0.81のリコールをもたらし、ほとんどの終点は見つかったが、それが正しい終点である可能性が1/4未満であることを意味する。57個のアライメントされたセグメントをクラスタ化することにより23個のクラスタを得たが、これは不正確な終点の数を減らすことにより精度を劇的に改善させた。検出された終点のうち少なくとも2個はプレゼンテーションに対するビデオ区間によっており、精度は不当に悲観的であることに留意されたい。非理想的オーディオ環境もクラスタ化問題を生じた。マイクロフォンはHVACベント付近の音響天井タイルに設置されている。いくつかのプレゼンテーションは換気雑音の有無により誤ってクラスタ化された。これは音響信号に大きな影響を与え、同じ話者も換気システムの状態によって別様にクラスタ化され、一部のクラスタ境界はまさに換気スイッチのオンオフにより生じている。
【0130】
【表4】
【0131】
本発明によるこれらの方法は、会議ビデオの他に、個々の話者が識別可能なビデオ特徴に関係づけられるあらゆる分野に適用可能である。一例は、ニュースキャスターのショットが画像構成および背景により識別できる場合が多い、ニュース放送である。話者識別の使用により、ロケーションまたは他の介在ビデオが存在する場合でも、ニュースキャスターによるニュース記事のセグメント化が可能である。
【0132】
図41は、本発明に従ったセグメント間音響距離マトリックスを示す。対角線上成分4101〜4105は、各セグメントがそれ自体に類似であることを示す黒色である。灰色領域4106および4107は、ソースオーディオの始まりおよび終わりにおけるオーディオ区間の部分的類似性を表す。白色領域はオーディオセグメントの非類似を表す。
【0133】
多くの場合、例えば図40でラベル2、3および4が付けられたような、同一話者に対応する複数の隣接区間が存在する。クラスタ化は、尤度比距離などの多くの技法によって代替的に実行される。ここで使用するクラスタ化法は、ノンパラメトリック距離測度にもとづく。オーディオセグメントにパラメータ化されたメル周波数ケプストラル成分は、クラス境界を見つけるために最大相互情報量評価基準を用いて監視ベクトル量子化数をトレーニングするために使用される。トレーニングされると、セグメントはベクトル量子化され、二項分布のヒストグラムが作成される。このヒストグラムは、オーディオファイルのシグネーチャとして機能し、ベクトルとして処理される場合には2つのヒストグラム間のコサインはオーディオ類似性の良好な測度として機能する。図41はこの測度を用いて計算された距離マトリックスを示す。これは、単一の会議ビデオからの12個のスライド領域の間のオーディオ類似性を示している。各成分i,jは、より近い距離、すなわちより類似性であるものが濃色になるように、セグメントiおよびjの間の距離を図示するように着色されている。図41から、各々が特定の話者による話に対応する、いくつかの音響的に類似の群が存在することは明白である。例外は、中央の話者のプレゼンテーションにおいて示されたビデオからのタイトルに対応する、セグメント7によるものである。このような距離マトリックスは、単一話者に対応する類似区間を見つけるためにクラスタ化される。いずれかの種類の階層的クラスタ化が選択的に使用されるが、ここで採った単純な方式は、各自の距離のいずれもスレッショルドを超えない限り、全部の隣接セグメントを同一クラスタの一部であるとみなすことによって、クラスタメンバーの時間隣接性を強制することであった。図41のセグメントの場合、これは以下のように5個のクラスタとなった。
(1,2,3,4,5)−−−(6)−−−(7)−−−(8)−−−(9,10,11,12)
【0134】
実地検証情報は3つのプレゼンテーションが存在するということであったので、このクラスタ化法は、第2のプレゼンテーションを、オーディオ距離にもとづき3個に誤ってセグメント化した。重要な目的はビデオブラウジングのための索引を見つけることなので、それは絶望的な誤りではない。プレゼンテーションが開始した時点と同様、ビデオが表示された時点を見つけることも望ましい。より精緻なクラスタ化方法は、図41のセグメント7といったオーディオアウトライアーまたは、質問や称賛といった他の変則的オーディオを無視するために使用される。
【0135】
セグメント化プロセスにおける第1工程は、ビデオにおけるスライドを突き止めることである。これは、プレゼンテーショングラフィックスがそのビデオにおいて表示される時点の正確な推定値をもたらす、上述の本発明による技法によって行われる。元のMPEG−1ビデオは、時間に関して2フレーム/秒に、空間に関して64×64画素表現の下位画像に間引かれる。各簡約化されたフレームはその後、離散コサイン変換またはアダマール変換によって変換される。変換は、画像圧縮の場合に普通である小さな下位ブロックに対してではなく、フレーム画像全体に適用される。変換されたデータはその後、その100個の主成分に射影により簡約化される。
【0136】
図42は、本発明に従って、スライドビデオ画像と類似である所定の時間間隔よりも長い1個以上のビデオフレーム区間を識別する方法を示している。工程4201で、ビデオは時間および空間に関して間引かれる。工程4202で、フレームは離散コサイン変換またはアダマール変換によって変換される。工程4203では、工程4202で計算された変換マトリックスから特徴ベクトルが抽出される。工程4204で、スライドの確率がスライド画像クラスのガウスモデルを用いて計算される。工程4205では、工程4204において計算された尤度が、そのフレームがスライド画像クラスと類似であるか否かを判定するためにスレッショルドと比較される。それがスライドであると判定されると、工程4206は、以前のNフレームもスライドであったかどうかを検査する。Nは、工程4207でスライド区間が見つかる前に、検出されるスライドの所定の時間間隔が超えられなければならないように選択される。例えば、20秒のスライドスレッショルドで、2フレーム/秒に間引く場合、Nは40であるように選択される。従って、単一フレームがスライドであると判定されたが、そのスライドフレーム以前のフレームおよびスライドフレーム以降のフレームがスライドでなければ、スライド区間はラベルづけされない。工程4205がそのフレームは非スライドであると判定した場合または現在のフレームはスライドであるが以前のNフレームはスライドではないと判定した場合、工程4208は、ビデオの終わりに到達したかどうかを検査する。さらにフレームがある場合、方法は再び工程4202からその次のフレームに対して開始する。ビデオの終わりに到達していれば、方法は図43に進む。
【0137】
図43は、本発明に従ったスライド区間から抽出されたオーディオ区間によるソース特定話者モデルをトレーニングする方法を示している。工程4301で、スライド区間に対応するオーディオ区間が抽出される。この抽出は、そのスライド区間が抽出されたソースビデオ3601に対応する図36に示したソースオーディオ3608により行われる。工程4302で、最初のオーディオ区間がメル周波数ケプストラル係数にパラメータ化される。オーディオ区間に対応する多様なメル周波数ケプストラル係数ベクトルは、そのオーディオ区間に対応するオーディオ係数平均ベクトルを生成するために工程4303で平均化される。さらにオーディオ区間があれば、工程4304は、次のオーディオ区間の処理のために方法を工程4302に戻す。全部のオーディオ区間がパラメータ化され、オーディオ係数平均ベクトルが各オーディオ区間について計算されると、オーディオ区間は工程4305でクラスタ化される。工程4305は同一話者判定基準によってオーディオ区間をクラスタ化する。すなわち、ユークリッド距離に関して相互に十分に近いオーディオ係数平均ベクトルを有するオーディオ区間は、同一話者によるものであると判断される。工程4306で、同一クラスタのオーディオ区間が併合される。工程4307で、第1の話者モデルが第1の併合オーディオ区間でトレーニングされる。検査4308は、併合オーディオ区間のクラスタがさらに存在するかどうかが判断される。肯定であれば、工程4307は、一意的に決まる話者モデルをトレーニングするために全部の併合オーディオ区間が使用されるまで次々に処理する。
【0138】
図44は、本発明に従った話者遷移モデルを用いてオーディオビジュアル記録物をセグメント化する方法を示す。工程4401で、オーディオの隠れマルコフモデルが構築される。図39は、工程4401によって構築されるようなオーディオ隠れマルコフモデルを示している。ビデオおよびオーディオは、工程4402でそのオーディオ隠れマルコフモデルによってセグメント化される。工程4403で、ビデオおよびオーディオは、工程4402で決定されたセグメント化情報により索引づけられる。このように、図44に示す方法は、図36に示した工程3607を実施するために適する。
【0139】
会議の進行表が得られる場合、プレゼンテーションは、進行表からの情報を用いて選択的に自動的にラベルづけまたは索引づけされる。これにより、プレゼンテーションは発表者および演題によって容易に見つけることができる。このようにして、会議ビデオは、内容によって自動的に索引づけ、ブラウジングおよび検索される。
【0140】
本発明をいくつかの態様および実施の形態に関して説明したが、これらの態様および実施の形態は、限定としてではなく、例示として提起されている。本発明の精神および範囲を逸脱することなく各種の追加および変更が行い得ることを理解しなければならない。例えば、数倍の改善といった精緻な音響モデルは、継続時間モデルを各話者に対して強制することによって代替的に得られる。別の例として、オーディオ特徴と同様にビデオ特徴にもとづくセグメントのクラスタ化は、発表者のスライドが、発表者自身の画像だけでなく、類似性の構成およびカラー図式を有するはずであるという仮定にもとづき、本発明に包含される。それにより、オーディオおよびビデオの両方の変則的領域の識別をプレゼンテーション中に表示されるビデオによって可能にする。また別の例として、対話的に定義された探索セグメントを指定するユーザ入力を受け取るための他のウェブベースのインタフェースが使用できる。さらに別の例として、ガウス分布以外の確率分布を用いた分類が適切な状況において使用することができる。従って、こうした追加および変更はすべて、特許請求の範囲に記載された本発明の精神および範囲に通じるものであると見なされるべきである。
【図面の簡単な説明】
【図1】本発明の方法を実行するために適した汎用コンピュータアーキテクチャを示す。
【図2】本発明によるビデオの分類を実行する方法におけるデータの流れを示す。
【図3】本発明による、トレーニングフレーム、トレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換およびトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。
【図4】異なる平均および分散を有する一次元ガウス分布を示すグラフである。
【図5】本発明によるビデオ分類のための特徴集合を選択する方法を示すフローチャートである。
【図6】ビデオフレームの離散コサイン変換により得られる変換マトリックスを示す。
【図7】本発明に従って2個以上の変換マトリックスから計算された分散マトリックスを示す。
【図8】本発明に従って切り捨てによって決定された特徴集合を示す。
【図9】本発明による図8に示した特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された平均特徴ベクトルを示す。
【図10】本発明による図8に示した特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。
【図11】本発明の方法に従って分類のために図8に示した特徴集合を有するフレームについて検索された特徴ベクトルを示す。
【図12】本発明に従って2個以上のビデオ画像クラスのいずれかにビデオのフレームを分類する方法を示すフローチャートである。
【図13】本発明に従って、主成分分析、最大分散を有する係数の選択または最大平均を有する係数の選択により決定された特徴集合を示す。
【図14】本発明による図13に示した特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された平均特徴ベクトルを示す。
【図15】本発明による図13に示した特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。
【図16】本発明の方法に従って分類のために図13に示した特徴集合を有するフレームについて検索された特徴ベクトルを示す。
【図17】本発明による類似性を決定する方法において、類似性を決定するためのスレッショルドとして使用されるスライド画像クラス統計モデルの標準偏差の倍数の関数として、スライドとして正確に識別されたスライドフレームの割合およびスライドとして誤って識別された非スライドフレームの割合を示すグラフである。
【図18】本発明に従って画像クラス統計モデルを用いてビデオフレームの類似性を決定する方法を示すフローチャートである。
【図19】本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数の表示を示すグラフである。
【図20】本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数を表示する方法を示すフローチャートである。
【図21】特徴集合の成分の数dの関数として正確に分類されたフレームの割合、それらのフレームに適用された変換のタイプおよびd成分特徴集合の選択方法を示すグラフである。
【図22】本発明の方法に従ってスライドと類似と見られるビデオの領域を表示するブラウザを示す。
【図23】本発明によるビデオを分類する方法において使用される隠れマルコフモデルに対応するクラス遷移図を示す。
【図24】図23に示すクラス遷移図に対応する本発明に従ったクラス遷移確率マトリックスを示す。
【図25】図23に示すクラス遷移図に従った5連続初期ビデオフレームに対応する全部の可能なクラスシーケンスを示す。
【図26】本発明に従ってクラス遷移確率マトリックスおよび画像クラス統計モデルを用いたビデオをセグメント化する方法を示すフローチャートである。
【図27】本発明による類似性探索を実行する方法におけるデータの流れを示す。
【図28】本発明によるビデオに対応する特徴ベクトルデータベースを計算する方法を示すフローチャートである。
【図29】本発明による統計モデルを対話的にトレーニングする方法を示すフローチャートである。
【図30】本発明によるブラウザ内でビデオフレームを提示し類似性測度を表示する方法を示すフローチャートである。
【図31】本発明に従って、対話的に定義されたトレーニングビデオセグメント、そのトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換および、トレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。
【図32】本発明による、トレーニングビデオセグメントを対話的に定義し類似性測度を表示する時間バーおよび、ユーザスレッショルドマウス入力を受け取るスレッショルドスライダバーを備えるブラウザを示す。
【図33】ビデオの領域内にフレームを表示するためのスクロール可能ウィンドウが追加された図32のブラウザを示す。
【図34】1個以上のトレーニングビデオセグメントの終点を対話的に選択し、周期的フレームの類似性測度を表示する、ビデオの周期的フレームを表示するウェブベースのインタフェースを示す。
【図35】本発明に従って離散コサイン変換係数およびアダマール変換係数を用いて計算されたビデオの類似性マトリックスを示す。
【図36】本発明によるオーディオビジュアル記録物をセグメント化する方法に対応するデータの流れを示す。
【図37】2人の話者による2つのプレゼンテーションを含む記録された会議のスライドであるオーディオビジュアル記録物のフレームの確率の対数を示すグラフである。
【図38】本発明によるオーディオ区間に適用されるクラスタ化方法におけるデータの流れを示す。
【図39】本発明による一連の話者単位を構成する話者遷移モデルを示す。
【図40】本発明によるオーディオビジュアル記録物をセグメント化する方法のセグメント化結果を示すグラフである。
【図41】本発明によるセグメント間音響距離マトリックスを示す。
【図42】本発明による、スライド画像クラスとの類似性を有する所定の時間間隔より長い1個以上のビデオフレーム区間を識別する方法を示すフローチャートである。
【図43】本発明によるスライド区間から抽出されたオーディオ区間からのソース特定話者モデルをトレーニングする方法を示すフローチャートである。
【図44】本発明による話者遷移モデルを用いたオーディオビジュアル記録物をセグメント化する方法を示すフローチャートである。
Claims (6)
- 分類の対象となるビデオフレームのビデオ画像クラスへの分類を確率計算するためのモデルであって、ビデオ画像クラスに対応するd個の成分からなる平均特徴ベクトル及びd個の対角成分からなる対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされるビデオ画像クラス統計モデルにより記述されるs個のビデオ画像クラスの1つへの前記分類の対象となるビデオフレームの分類方法において、
検索手段が、予め前記分類の対象となるビデオフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで d 個の成分に簡約化することにより得られた前記ビデオフレームに対応するd個の成分からなる特徴ベクトルを前記特徴ベクトルを記憶するデータベースから検索するステップ、
計算手段が、前記s個のビデオ画像クラスのそれぞれについて、前記分類の対象となる前記ビデオフレームに対応する前記d個の成分からなる特徴ベクトルを使用し、s個の画像クラス統計モデルのビデオ画像クラスに対応する前記ガウス関数をそれぞれ用いて前記d個の成分からなる特徴ベクトルが前記ビデオ画像クラスのそれぞれに存在する画像クラス確率を計算するステップ、および、
分類手段が、前記分類の対象となるビデオフレームを、前記ビデオ画像クラスのそれぞれについて計算した前記画像クラス確率の中で最も高い確率のビデオ画像クラスに分類するステップ、
を包含することを特徴とする方法。 - さらに、前記s個のビデオ画像クラスを表すビデオ画像クラス統計モデルを生成するための第一の決定手段を備え、前記第一の決定手段が、
s個のビデオ画像クラスのそれぞれについて、前記ビデオ画像クラス統計モデルを準備するための複数のトレーニング画像に対して離散コサイン変換又はアダマール変換することにより得られた複数の変換マトリクスのd箇所の位置における成分をそれぞれ平均した値を、d個の成分とする平均特徴ベクトルを決定するステップ、および、
s個のビデオ画像クラスのそれぞれについて、前記 d 個の成分を有する平均特徴ベクトルの共分散マトリクスを計算するステップ、
を包含することを特徴とする請求項1記載の方法。 - 分類の対象となるビデオフレームのビデオ画像クラスへの分類を確率計算するためのモデルであって、ビデオ画像クラスに対応するd個の成分からなる平均特徴ベクトル及びd個の対角成分からなる対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされるビデオ画像クラス統計モデルにより記述されるs個のビデオ画像クラスの1つへの前記分類の対象となるビデオフレームの分類結果に基づいて一連の前記ビデオフレームをセグメント化する方法において、
前記一連のビデオフレーム内の前記分類の対象となる各ビデオフレームについて、
検索手段が、予め前記分類の対象となる各ビデオフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで d 個の成分に簡約化することにより得られた前記各ビデオフレームに対応するd個の成分からなる特徴ベクトルを前記特徴ベクトルを記憶するデータベースから検索するステップ、および
計算手段が、前記一連のビデオフレーム中のビデオフレーム間の前記s個のビデオ画像クラス間の遷移を隠れマルコフモデルを用いて、前記s個のビデオ画像クラスのそれぞれについて、前記分類の対象となる各ビデオフレームに対応する前記d個の成分からなる特徴ベクトル、前記分類の対象となる各ビデオフレームに遷移する前のビデオフレームが属するビデオ画像クラスであるs個の過去のビデオ画像クラスに属する確率である過去の画像クラス確率、前記分類の対象となる各ビデオフレームに遷移する前のビデオフレームの属するビデオ画像クラスから前記分類の対象となる各ビデオフレームの属するビデオ画像クラスに遷移する確率であるs個のクラス遷移確率ベクトル、および前記s個のビデオ画像クラスに対応する前記ガウス関数を使用して、前記分類の対象となる各ビデオフレー ムに対応する前記d個の成分からなる特徴ベクトルが前記s個のビデオ画像クラスに属する確率である画像クラス確率を計算するステップ、および、
生成手段が、前記過去の画像クラス確率と前記クラス遷移確率ベクトル中の前記s個のビデオ画像クラスに対応する成分であるクラス遷移確率とのそれぞれの積が最大となるビデオ画像クラスを遷移直前の画像クラスとして選択するステップ、
前記一連のビデオフレーム内の最後のビデオフレームについて、
第一の分類手段が、前記最後のビデオフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで d 個の成分に簡約化することにより得られた前記最後のビデオフレームに対応するd個の成分からなる特徴ベクトルを前記特徴ベクトルを記憶するデータベースから検索するとともに、前記最後のビデオフレームに対応する前記d個の成分からなる特徴ベクトルを使用し、s個の画像クラス統計モデルのビデオ画像クラスに対応する前記ガウス関数をそれぞれ用いて前記d個の成分からなる特徴ベクトルが前記ビデオ画像クラスのそれぞれに存在する画像クラス確率を計算し、前記最後のビデオフレームを、前記ビデオ画像クラスのそれぞれについて計算した前記画像クラス確率の中で最も高い確率のビデオ画像クラスに分類するステップ、および、
前記一連のビデオフレーム内の最後のビデオフレームを除く各ビデオフレームについて、
第二の分類手段が、前記各ビデオフレームの直前のフレームを、前記選択された直前のビデオ画像クラスに分類するステップ、
を包含することを特徴とする方法。 - さらに、前記s個のビデオ画像クラスを表すビデオ画像クラス統計モデルを生成するための第一の決定手段を備え、前記第一の決定手段が、
s個のビデオ画像クラスのそれぞれについて、前記ビデオ画像クラス統計モデルを準備するための複数のトレーニング画像に対して離散コサイン変換又はアダマール変換することにより得られた複数の変換マトリクスのd箇所の位置における成分をそれぞれ平均した値を、d個の成分とする平均特徴ベクトルを決定するステップ、および、
s個のビデオ画像クラスのそれぞれについて、前記 d 個の成分を有する平均ベクトルの共分散マトリクスを計算するステップ、
を包含することを特徴とする請求項3記載の方法。 - コンピュータに、分類の対象となるビデオフレームのビデオ画像クラスへの分類を確率計算するためのモデルであって、ビデオ画像クラスに対応するd個の成分からなる平均特徴ベクトル及びd個の対角成分からなる対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされるビデオ画像クラス統計モデルにより記述されるs個のビデオ画像クラスの1つに前記分類の対象となるビデオフレームを分類する処理を実行させるためのプログラムを記録したコンピュータ可読記憶媒体であって、該処理は、
予め前記分類の対象となるビデオフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで d 個の成分に簡約化することにより得られた前記ビデオフレームに対応するd個の成分からなる特徴ベクトルを前記特徴ベクトルを記憶するデータベースから検索するステップ、
前記s個のビデオ画像クラスのそれぞれについて、前記分類の対象となる前記ビデオフレームに対応する前記d個の成分からなる特徴ベクトルを使用し、s個の画像クラス統計モデルのビデオ画像クラスに対応する前記ガウス関数をそれぞれ用いて前記d個の成分からなる特徴ベクトルが前記ビデオ画像クラスのそれぞれに存在する画像クラス確率を計算するステップ、および、
前記分類の対象となるビデオフレームを、前記ビデオ画像クラスのそれぞれについて計算した前記画像クラス確率の中で最も高い確率のビデオ画像クラスに分類するステップ、
を含む、コンピュータ可読記憶媒体。 - コンピュータに、分類の対象となるビデオフレームのビデオ画像クラスへ の分類を確率計算するためのモデルであって、ビデオ画像クラスに対応するd個の成分からなる平均特徴ベクトル及びd個の対角成分からなる対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされるビデオ画像クラス統計モデルにより記述されるs個のビデオ画像クラスの1つへの前記分類の対象となるビデオフレームの分類結果に基づいて一連の前記ビデオフレームをセグメント化する処理を実行させるためのプログラムを記録したコンピュータ可読記憶媒体であって、該処理は、
前記一連のビデオフレーム内の前記分類の対象となる各ビデオフレームについて、
予め前記分類の対象となる各ビデオフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで d 個の成分に簡約化することにより得られた前記ビデオフレームに対応するd個の成分からなる特徴ベクトルを前記特徴ベクトルを記憶するデータベースから検索するステップ、および
前記一連のビデオフレーム中のビデオフレーム間の前記s個のビデオ画像クラス間の遷移を隠れマルコフモデルを用いて、前記s個のビデオ画像クラスのそれぞれについて、前記分類の対象となる各ビデオフレームに対応する前記d個の成分からなる特徴ベクトル、前記分類の対象となる各ビデオフレームに遷移する前のビデオフレームが属するビデオ画像クラスであるs個の過去のビデオ画像クラスに属する確率である過去の画像クラス確率、前記分類の対象となる各ビデオフレームに遷移する前のビデオフレームの属するビデオ画像クラスから前記分類の対象となる各ビデオフレームの属するビデオ画像クラスに遷移する確率であるs個のクラス遷移確率ベクトル、および前記s個のビデオ画像クラスに対応する前記ガウス関数を使用して、前記分類の対象となる各ビデオフレームに対応する前記d個の成分からなる特徴ベクトルが前記s個のビデオ画像クラスに属する確率である画像クラス確率を計算するステップ、および、
前記過去の画像クラス確率と前記クラス遷移確率ベクトル中の前記s個のビデオ画像クラスに対応する成分であるクラス遷移確率とのそれぞれの積が最大となるビデオ画像クラスを遷移直前の画像クラスとして選択するステップ、
前記一連のビデオフレーム内の最後のビデオフレームについて、
前記最後のビデオフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで d 個の成分に簡約化することにより得られた前記最後のビデオフレームに対応するd個の成分からなる特徴ベクトルを前記特徴ベクトルを記憶するデータベースから検索するとともに、前記最後のビデオフレームに対応する前記d個の成分からなる特徴ベクトルを使用し、s個の画像クラス統計モデルのビデオ画像クラスに対応する前記ガウス関数をそれぞれ用いて前記d個の成分からなる特徴ベクトルが前記ビデオ画像クラスのそれぞれに存在する画像クラス確率を計算し、前記最後のビデオフレームを、前記ビデオ画像クラスのそれぞれについて計算した前記画像クラス確率の中で最も高い確率のビデオ画像クラスに分類するステップ、および、
前記一連のビデオフレーム内の最後のビデオフレームを除く各ビデオフレームについて、
前記各ビデオフレームの直前のフレームを、前記選択された前記直前のビデオ画像クラスに分類するステップ、
を含む、コンピュータ可読記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/266,637 US6751354B2 (en) | 1999-03-11 | 1999-03-11 | Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models |
US266637 | 1999-03-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000311180A JP2000311180A (ja) | 2000-11-07 |
JP4258090B2 true JP4258090B2 (ja) | 2009-04-30 |
Family
ID=23015374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000065042A Expired - Fee Related JP4258090B2 (ja) | 1999-03-11 | 2000-03-09 | ビデオフレームの分類方法及びセグメント化方法、及びコンピュータ可読記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6751354B2 (ja) |
JP (1) | JP4258090B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8723793B2 (en) | 2003-05-01 | 2014-05-13 | Thomson Licensing | Multimedia user interface |
Families Citing this family (202)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8965898B2 (en) * | 1998-11-20 | 2015-02-24 | Intheplay, Inc. | Optimizations for live event, real-time, 3D object tracking |
WO2000046736A1 (en) * | 1999-02-05 | 2000-08-10 | Yoav Smith | Similarity measurement method for the classification of medical images into predetermined categories |
US7075683B1 (en) * | 1999-02-15 | 2006-07-11 | Canon Kabushiki Kaisha | Dynamic image digest automatic editing system and dynamic image digest automatic editing method |
SE513728C2 (sv) * | 1999-03-26 | 2000-10-30 | Goesta Granlund | Förfarande och system för artificiellt seende |
US20050038819A1 (en) * | 2000-04-21 | 2005-02-17 | Hicken Wendell T. | Music Recommendation system and method |
US7028325B1 (en) * | 1999-09-13 | 2006-04-11 | Microsoft Corporation | Annotating programs for automatic summary generation |
US6862363B2 (en) * | 2000-01-27 | 2005-03-01 | Applied Precision, Llc | Image metrics in the statistical analysis of DNA microarray data |
US7130848B2 (en) * | 2000-08-09 | 2006-10-31 | Gary Martin Oosta | Methods for document indexing and analysis |
CA2323883C (en) * | 2000-10-19 | 2016-02-16 | Patrick Ryan Morin | Method and device for classifying internet objects and objects stored oncomputer-readable media |
US20020126224A1 (en) * | 2000-12-28 | 2002-09-12 | Rainer Lienhart | System for detection of transition and special effects in video |
US7330588B2 (en) * | 2001-01-25 | 2008-02-12 | Applied Precision, Llc | Image metrics in the statistical analysis of DNA microarray data |
US20020159750A1 (en) * | 2001-04-26 | 2002-10-31 | Koninklijke Philips Electronics N.V. | Method for segmenting and indexing TV programs using multi-media cues |
US7274800B2 (en) * | 2001-07-18 | 2007-09-25 | Intel Corporation | Dynamic gesture recognition from stereo sequences |
US6965645B2 (en) * | 2001-09-25 | 2005-11-15 | Microsoft Corporation | Content-based characterization of video frame sequences |
US6999613B2 (en) * | 2001-12-28 | 2006-02-14 | Koninklijke Philips Electronics N.V. | Video monitoring and surveillance systems capable of handling asynchronously multiplexed video |
US6996268B2 (en) * | 2001-12-28 | 2006-02-07 | International Business Machines Corporation | System and method for gathering, indexing, and supplying publicly available data charts |
US20030154181A1 (en) * | 2002-01-25 | 2003-08-14 | Nec Usa, Inc. | Document clustering with cluster refinement and model selection capabilities |
GB2385414B (en) * | 2002-02-13 | 2005-07-06 | Snell & Wilcox Ltd | Improved video processing |
AU2003223639A1 (en) | 2002-04-15 | 2003-11-03 | The Trustees Of Columbia University In The City Of New York | Methods for selecting a subsequence of video frames from a sequence of video frames |
US20030212552A1 (en) * | 2002-05-09 | 2003-11-13 | Liang Lu Hong | Face recognition procedure useful for audiovisual speech recognition |
US7209883B2 (en) * | 2002-05-09 | 2007-04-24 | Intel Corporation | Factorial hidden markov model for audiovisual speech recognition |
US7165029B2 (en) | 2002-05-09 | 2007-01-16 | Intel Corporation | Coupled hidden Markov model for audiovisual speech recognition |
US7489727B2 (en) * | 2002-06-07 | 2009-02-10 | The Trustees Of Columbia University In The City Of New York | Method and device for online dynamic semantic video compression and video indexing |
US7974495B2 (en) * | 2002-06-10 | 2011-07-05 | Digimarc Corporation | Identification and protection of video |
US7082394B2 (en) * | 2002-06-25 | 2006-07-25 | Microsoft Corporation | Noise-robust feature extraction using multi-layer principal component analysis |
AU2002368116A1 (en) * | 2002-07-26 | 2004-02-16 | Communications Research Laboratory, Independent Administrative Institution | Content summarizing apparatus and content summarizing program |
AU2003250422A1 (en) * | 2002-08-26 | 2004-03-11 | Koninklijke Philips Electronics N.V. | Unit for and method of detection a content property in a sequence of video images |
FR2844079B1 (fr) * | 2002-08-30 | 2005-08-26 | France Telecom | Systeme associatif flou de description d'objets multimedia |
FR2845179B1 (fr) * | 2002-09-27 | 2004-11-05 | Thomson Licensing Sa | Procede de regroupement d'images d'une sequence video |
US7171043B2 (en) * | 2002-10-11 | 2007-01-30 | Intel Corporation | Image recognition using hidden markov models and coupled hidden markov models |
US7068817B2 (en) * | 2002-11-07 | 2006-06-27 | Mcmaster University | Method for on-line machine vision measurement, monitoring and control of product features during on-line manufacturing processes |
US7149361B2 (en) * | 2002-11-26 | 2006-12-12 | Lockheed Martin Corporation | Method and apparatus for image processing to detect changes in a scene |
US7472063B2 (en) * | 2002-12-19 | 2008-12-30 | Intel Corporation | Audio-visual feature fusion and support vector machine useful for continuous speech recognition |
US7203368B2 (en) * | 2003-01-06 | 2007-04-10 | Intel Corporation | Embedded bayesian network for pattern recognition |
US7680340B2 (en) * | 2003-11-13 | 2010-03-16 | Eastman Kodak Company | Method of using temporal context for image classification |
US6950495B2 (en) * | 2003-12-01 | 2005-09-27 | The Boeing Company | Backscatter imaging using Hadamard transform masking |
KR100571826B1 (ko) * | 2003-12-02 | 2006-04-17 | 삼성전자주식회사 | 대용량 얼굴 인식 장치 및 방법 |
US7403664B2 (en) * | 2004-02-26 | 2008-07-22 | Mitsubishi Electric Research Laboratories, Inc. | Traffic event detection in compressed videos |
WO2005088980A1 (en) * | 2004-03-01 | 2005-09-22 | Koninklijke Philips Electronics N.V. | Video encoding method and apparatus |
US7409407B2 (en) * | 2004-05-07 | 2008-08-05 | Mitsubishi Electric Research Laboratories, Inc. | Multimedia event detection and summarization |
KR100568237B1 (ko) * | 2004-06-10 | 2006-04-07 | 삼성전자주식회사 | 비디오 영상으로부터 이동 물체를 추출하는 장치 및 방법 |
US7457435B2 (en) * | 2004-11-17 | 2008-11-25 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
WO2010042486A1 (en) * | 2008-10-07 | 2010-04-15 | Euclid Discoveries, Llc | Feature-based video compression |
US8902971B2 (en) | 2004-07-30 | 2014-12-02 | Euclid Discoveries, Llc | Video compression repository and model reuse |
US7158680B2 (en) | 2004-07-30 | 2007-01-02 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US9743078B2 (en) | 2004-07-30 | 2017-08-22 | Euclid Discoveries, Llc | Standards-compliant model-based video encoding and decoding |
US9532069B2 (en) | 2004-07-30 | 2016-12-27 | Euclid Discoveries, Llc | Video compression repository and model reuse |
US7508990B2 (en) * | 2004-07-30 | 2009-03-24 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US7457472B2 (en) * | 2005-03-31 | 2008-11-25 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US7436981B2 (en) * | 2005-01-28 | 2008-10-14 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US9578345B2 (en) | 2005-03-31 | 2017-02-21 | Euclid Discoveries, Llc | Model-based video encoding and decoding |
JP2006058874A (ja) * | 2004-08-20 | 2006-03-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
JP4236266B2 (ja) * | 2004-08-27 | 2009-03-11 | キヤノン株式会社 | データ変換装置およびその方法 |
EP1802115A1 (en) * | 2004-09-09 | 2007-06-27 | Pioneer Corporation | Person estimation device and method, and computer program |
CN101061489B (zh) * | 2004-09-21 | 2011-09-07 | 欧几里得发现有限责任公司 | 用来处理视频数据的装置和方法 |
EP1640741A1 (en) * | 2004-09-23 | 2006-03-29 | Mitsubishi Electric Information Technology Centre Europe B.V. | Radar target classification using statistical descriptors |
JP4639734B2 (ja) * | 2004-09-30 | 2011-02-23 | 富士ゼロックス株式会社 | スライドコンテンツ処理装置およびプログラム |
US8521529B2 (en) * | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
US7783106B2 (en) * | 2004-11-12 | 2010-08-24 | Fuji Xerox Co., Ltd. | Video segmentation combining similarity analysis and classification |
JP2006165824A (ja) * | 2004-12-03 | 2006-06-22 | Fuji Xerox Co Ltd | 画像表示プログラム、画像表示方法及び画像表示装置 |
US7492921B2 (en) | 2005-01-10 | 2009-02-17 | Fuji Xerox Co., Ltd. | System and method for detecting and ranking images in order of usefulness based on vignette score |
US8074158B2 (en) * | 2005-02-02 | 2011-12-06 | Qualcomm Incorporated | Erasure detection for a transport channel with an unknown format |
WO2006095292A1 (en) * | 2005-03-10 | 2006-09-14 | Koninklijke Philips Electronics N.V. | Summarization of audio and/or visual data |
US7617188B2 (en) * | 2005-03-24 | 2009-11-10 | The Mitre Corporation | System and method for audio hot spotting |
US7409087B2 (en) * | 2005-05-20 | 2008-08-05 | Microsoft Corporation | Matrix slicing |
US20070010998A1 (en) * | 2005-07-08 | 2007-01-11 | Regunathan Radhakrishnan | Dynamic generative process modeling, tracking and analyzing |
US7545954B2 (en) | 2005-08-22 | 2009-06-09 | General Electric Company | System for recognizing events |
WO2007036888A2 (en) * | 2005-09-29 | 2007-04-05 | Koninklijke Philips Electronics N.V. | A method and apparatus for segmenting a content item |
US7505069B2 (en) * | 2005-10-26 | 2009-03-17 | Hewlett-Packard Development Company, L.P. | Method and apparatus for maintaining consistent white balance in successive digital images |
US20120114167A1 (en) * | 2005-11-07 | 2012-05-10 | Nanyang Technological University | Repeat clip identification in video data |
JP4437548B2 (ja) * | 2005-12-09 | 2010-03-24 | ソニー株式会社 | 音楽コンテンツ表示装置、音楽コンテンツ表示方法及び音楽コンテンツ表示プログラム |
JP4894252B2 (ja) * | 2005-12-09 | 2012-03-14 | ソニー株式会社 | データ表示装置、データ表示方法及びデータ表示プログラム |
JP4640155B2 (ja) | 2005-12-15 | 2011-03-02 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
WO2007073347A1 (en) * | 2005-12-19 | 2007-06-28 | Agency For Science, Technology And Research | Annotation of video footage and personalised video generation |
WO2007086042A2 (en) * | 2006-01-25 | 2007-08-02 | Nice Systems Ltd. | Method and apparatus for segmentation of audio interactions |
US20070239675A1 (en) * | 2006-03-29 | 2007-10-11 | Microsoft Corporation | Web search media service |
WO2007117236A1 (en) * | 2006-04-07 | 2007-10-18 | Ati Technologies Inc. | Video luminance chrominance separation |
US8155391B1 (en) * | 2006-05-02 | 2012-04-10 | Geoeye Solutions, Inc. | Semi-automatic extraction of linear features from image data |
JP4207977B2 (ja) * | 2006-05-29 | 2009-01-14 | セイコーエプソン株式会社 | 印刷装置、印刷方法、及び、プログラム |
WO2008091484A2 (en) * | 2007-01-23 | 2008-07-31 | Euclid Discoveries, Llc | Object archival systems and methods |
US7787697B2 (en) * | 2006-06-09 | 2010-08-31 | Sony Ericsson Mobile Communications Ab | Identification of an object in media and of related media objects |
KR100771244B1 (ko) * | 2006-06-12 | 2007-10-29 | 삼성전자주식회사 | 동영상 데이터 처리 방법 및 장치 |
US8064662B2 (en) * | 2006-07-17 | 2011-11-22 | Siemens Medical Solutions Usa, Inc. | Sparse collaborative computer aided diagnosis |
US8107541B2 (en) * | 2006-11-07 | 2012-01-31 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for video segmentation |
US7921120B2 (en) * | 2006-11-30 | 2011-04-05 | D&S Consultants | Method and system for image recognition using a similarity inverse matrix |
US8699824B2 (en) * | 2006-12-28 | 2014-04-15 | Nokia Corporation | Method, apparatus and computer program product for providing multi-feature based sampling for relevance feedback |
US8243118B2 (en) * | 2007-01-23 | 2012-08-14 | Euclid Discoveries, Llc | Systems and methods for providing personal video services |
JP2010526455A (ja) * | 2007-01-23 | 2010-07-29 | ユークリッド・ディスカバリーズ・エルエルシー | 画像データを処理するコンピュータ方法および装置 |
US8732187B1 (en) * | 2007-04-09 | 2014-05-20 | Google Inc. | Link-based ranking of objects that do not include explicitly defined links |
US8849432B2 (en) * | 2007-05-31 | 2014-09-30 | Adobe Systems Incorporated | Acoustic pattern identification using spectral characteristics to synchronize audio and/or video |
US8126262B2 (en) * | 2007-06-18 | 2012-02-28 | International Business Machines Corporation | Annotating video segments using feature rhythm models |
US8285118B2 (en) * | 2007-07-16 | 2012-10-09 | Michael Bronstein | Methods and systems for media content control |
US20090028517A1 (en) * | 2007-07-27 | 2009-01-29 | The University Of Queensland | Real-time near duplicate video clip detection method |
JP5060224B2 (ja) * | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
JP5341095B2 (ja) * | 2007-10-05 | 2013-11-13 | ドルビー ラボラトリーズ ライセンシング コーポレイション | メディア・コンテンツに信頼性よく対応するメディア・フィンガープリント |
US8510252B1 (en) * | 2007-12-07 | 2013-08-13 | Google, Inc. | Classification of inappropriate video content using multi-scale features |
US8059891B2 (en) * | 2007-12-30 | 2011-11-15 | Intel Corporation | Markov stationary color descriptor |
US9813671B2 (en) * | 2008-02-04 | 2017-11-07 | Unify Gmbh & Co. Kg | Method and apparatus for enhanced video mixing |
US20090245646A1 (en) * | 2008-03-28 | 2009-10-01 | Microsoft Corporation | Online Handwriting Expression Recognition |
US20090278937A1 (en) * | 2008-04-22 | 2009-11-12 | Universitat Stuttgart | Video data processing |
JP5121681B2 (ja) * | 2008-04-30 | 2013-01-16 | 株式会社日立製作所 | 生体認証システム、認証クライアント端末、及び生体認証方法 |
KR101027159B1 (ko) * | 2008-07-28 | 2011-04-05 | 뮤추얼아이피서비스(주) | 타겟 영상 검출 장치 및 그 방법 |
US8150169B2 (en) * | 2008-09-16 | 2012-04-03 | Viewdle Inc. | System and method for object clustering and identification in video |
US20100067800A1 (en) * | 2008-09-17 | 2010-03-18 | Microsoft Corporation | Multi-class transform for discriminant subspace analysis |
US9141862B2 (en) * | 2008-09-26 | 2015-09-22 | Harris Corporation | Unattended surveillance device and associated methods |
NZ592744A (en) * | 2008-11-14 | 2012-11-30 | Exxonmobil Upstream Res Co | Windowed statistical analysis for anomaly detection in geophysical datasets |
US8326087B2 (en) * | 2008-11-25 | 2012-12-04 | Xerox Corporation | Synchronizing image sequences |
US8218859B2 (en) * | 2008-12-05 | 2012-07-10 | Microsoft Corporation | Transductive multi-label learning for video concept detection |
US20100166314A1 (en) * | 2008-12-30 | 2010-07-01 | Microsoft Corporation | Segment Sequence-Based Handwritten Expression Recognition |
US9269154B2 (en) * | 2009-01-13 | 2016-02-23 | Futurewei Technologies, Inc. | Method and system for image processing to classify an object in an image |
WO2010089383A2 (en) * | 2009-02-06 | 2010-08-12 | Thomson Licensing | Method for fingerprint-based video registration |
US8260062B2 (en) * | 2009-05-07 | 2012-09-04 | Fuji Xerox Co., Ltd. | System and method for identifying document genres |
KR101640077B1 (ko) | 2009-06-05 | 2016-07-15 | 삼성전자주식회사 | 인체 동작 및 얼굴 표정 모델링 및 인식을 위한 비디오 센서 기반의 장치 및 방법 |
US9020259B2 (en) * | 2009-07-20 | 2015-04-28 | Thomson Licensing | Method for detecting and adapting video processing for far-view scenes in sports video |
US8280158B2 (en) * | 2009-10-05 | 2012-10-02 | Fuji Xerox Co., Ltd. | Systems and methods for indexing presentation videos |
US8897370B1 (en) * | 2009-11-30 | 2014-11-25 | Google Inc. | Bitrate video transcoding based on video coding complexity estimation |
WO2011072259A1 (en) * | 2009-12-10 | 2011-06-16 | Indiana University Research & Technology Corporation | System and method for segmentation of three dimensional image data |
US8489991B2 (en) * | 2010-03-17 | 2013-07-16 | Creative Technology Ltd | System and method for video frame marking |
US8380435B2 (en) | 2010-05-06 | 2013-02-19 | Exxonmobil Upstream Research Company | Windowed statistical analysis for anomaly detection in geophysical datasets |
US8792728B2 (en) * | 2010-09-27 | 2014-07-29 | Hewlett-Packard Development Company, L.P. | Near-duplicate image detection |
EP2437498A1 (en) | 2010-09-30 | 2012-04-04 | British Telecommunications Public Limited Company | Digital video fingerprinting |
US9292667B1 (en) | 2010-11-10 | 2016-03-22 | Amazon Technologies, Inc. | Location based community |
WO2012091938A1 (en) * | 2010-12-30 | 2012-07-05 | Dolby Laboratories Licensing Corporation | Ranking representative segments in media data |
US9607008B2 (en) * | 2011-06-30 | 2017-03-28 | Nec Corporation | Analysis engine control device |
US8577131B1 (en) | 2011-07-12 | 2013-11-05 | Google Inc. | Systems and methods for visual object matching |
GB201113633D0 (en) * | 2011-08-08 | 2011-09-21 | Vision Semantics Ltd | User-primed iterative discovery of object associations in distributed multi-source data |
US8958630B1 (en) * | 2011-10-24 | 2015-02-17 | Google Inc. | System and method for generating a classifier for semantically segmenting an image |
US8418249B1 (en) * | 2011-11-10 | 2013-04-09 | Narus, Inc. | Class discovery for automated discovery, attribution, analysis, and risk assessment of security threats |
US9860604B2 (en) | 2011-11-23 | 2018-01-02 | Oath Inc. | Systems and methods for internet video delivery |
US9064154B2 (en) | 2012-06-26 | 2015-06-23 | Aol Inc. | Systems and methods for associating electronic content |
US9058385B2 (en) | 2012-06-26 | 2015-06-16 | Aol Inc. | Systems and methods for identifying electronic content using video graphs |
US8958618B2 (en) * | 2012-06-28 | 2015-02-17 | Kabushiki Kaisha Toshiba | Method and system for identification of calcification in imaged blood vessels |
US8913835B2 (en) * | 2012-08-03 | 2014-12-16 | Kodak Alaris Inc. | Identifying key frames using group sparsity analysis |
EP2704429B1 (en) * | 2012-08-29 | 2015-04-15 | Alcatel Lucent | Video conference systems implementing orchestration models |
US9792350B2 (en) | 2013-01-10 | 2017-10-17 | International Business Machines Corporation | Real-time classification of data into data compression domains |
US9053121B2 (en) | 2013-01-10 | 2015-06-09 | International Business Machines Corporation | Real-time identification of data candidates for classification based compression |
US9564918B2 (en) | 2013-01-10 | 2017-02-07 | International Business Machines Corporation | Real-time reduction of CPU overhead for data compression |
US9547805B1 (en) * | 2013-01-22 | 2017-01-17 | The Boeing Company | Systems and methods for identifying roads in images |
US9626567B2 (en) * | 2013-03-13 | 2017-04-18 | Visible Measures Corp. | Automated video campaign building |
US9230159B1 (en) * | 2013-12-09 | 2016-01-05 | Google Inc. | Action recognition and detection on videos |
US9225879B2 (en) * | 2013-12-27 | 2015-12-29 | TCL Research America Inc. | Method and apparatus for video sequential alignment |
US10091507B2 (en) | 2014-03-10 | 2018-10-02 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
US9621917B2 (en) | 2014-03-10 | 2017-04-11 | Euclid Discoveries, Llc | Continuous block tracking for temporal prediction in video encoding |
US10097851B2 (en) | 2014-03-10 | 2018-10-09 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
US9639761B2 (en) * | 2014-03-10 | 2017-05-02 | Mitsubishi Electric Research Laboratories, Inc. | Method for extracting low-rank descriptors from images and videos for querying, classification, and object detection |
CN104143174B (zh) * | 2014-08-15 | 2017-04-12 | 陕西师范大学 | 基于Tangram算法和2维双尺度矩形映射的图像伪装及重构方法 |
KR20160035106A (ko) * | 2014-09-19 | 2016-03-31 | 삼성전자주식회사 | 영상처리장치, 영상처리방법 및 컴퓨터 판독가능 기록매체 |
US9984166B2 (en) * | 2014-10-10 | 2018-05-29 | Salesforce.Com, Inc. | Systems and methods of de-duplicating similar news feed items |
US10592841B2 (en) | 2014-10-10 | 2020-03-17 | Salesforce.Com, Inc. | Automatic clustering by topic and prioritizing online feed items |
US10133538B2 (en) * | 2015-03-27 | 2018-11-20 | Sri International | Semi-supervised speaker diarization |
US20160378863A1 (en) * | 2015-06-24 | 2016-12-29 | Google Inc. | Selecting representative video frames for videos |
US10192117B2 (en) * | 2015-06-25 | 2019-01-29 | Kodak Alaris Inc. | Graph-based framework for video object segmentation and extraction in feature space |
US10104207B1 (en) * | 2015-09-11 | 2018-10-16 | Kirio, Inc. | Automatic protocol discovery |
US20170109586A1 (en) * | 2015-10-16 | 2017-04-20 | Canary Connect, Inc. | Sensitivity adjustment for computer-vision triggered notifications |
US9934449B2 (en) * | 2016-02-04 | 2018-04-03 | Videoken, Inc. | Methods and systems for detecting topic transitions in a multimedia content |
US10964326B2 (en) * | 2016-02-16 | 2021-03-30 | Carnegie Mellon University, A Pennsylvania Non-Profit Corporation | System and method for audio-visual speech recognition |
GB2549073B (en) * | 2016-03-24 | 2020-02-26 | Imagination Tech Ltd | Generating sparse sample histograms |
CN109475294B (zh) | 2016-05-06 | 2022-08-19 | 斯坦福大学托管董事会 | 用于治疗精神障碍的移动和可穿戴视频捕捉和反馈平台 |
MY190933A (en) * | 2016-09-08 | 2022-05-20 | Goh Soo Siah | Video ingestion framework for visual search platform |
US9946958B1 (en) * | 2016-10-14 | 2018-04-17 | Cloudera, Inc. | Image processing system and method |
EP3598086B1 (en) | 2016-12-29 | 2024-04-17 | Samsung Electronics Co., Ltd. | Method and device for recognizing speaker by using resonator |
US11134253B2 (en) | 2017-02-02 | 2021-09-28 | Hewlett-Packard Development Company, L.P. | Video compression |
GB2567018B (en) * | 2017-09-29 | 2020-04-01 | Cirrus Logic Int Semiconductor Ltd | Microphone authentication |
CN107895021B (zh) * | 2017-11-15 | 2019-12-17 | 深圳云天励飞技术有限公司 | 图像识别方法及装置、计算机装置和计算机可读存储介质 |
US11983183B2 (en) * | 2018-08-07 | 2024-05-14 | Disney Enterprises, Inc. | Techniques for training machine learning models using actor data |
EP3621021A1 (en) | 2018-09-07 | 2020-03-11 | Delta Electronics, Inc. | Data search method and data search system thereof |
EP3620936A1 (en) | 2018-09-07 | 2020-03-11 | Delta Electronics, Inc. | System and method for recommending multimedia data |
EP3621022A1 (en) | 2018-09-07 | 2020-03-11 | Delta Electronics, Inc. | Data analysis method and data analysis system thereof |
IL311652A (en) * | 2018-09-18 | 2024-05-01 | Vertigo Studios Llc | A digital social recorder, with collaborative operation, of multi-stream media with intelligent routing, and systems and methods for matching and payment of crypto-assets |
US11574476B2 (en) | 2018-11-11 | 2023-02-07 | Netspark Ltd. | On-line video filtering |
US11468679B2 (en) | 2018-11-11 | 2022-10-11 | Netspark Ltd. | On-line video filtering |
CN111191484A (zh) * | 2018-11-14 | 2020-05-22 | 普天信息技术有限公司 | 视频图像中人物说话的识别方法和装置 |
US11024291B2 (en) | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
CN109684506B (zh) * | 2018-11-22 | 2023-10-20 | 三六零科技集团有限公司 | 一种视频的标签化处理方法、装置和计算设备 |
CN109711389B (zh) * | 2019-01-16 | 2023-06-23 | 华南农业大学 | 一种基于Faster R-CNN和HMM的哺乳母猪姿态转换识别方法 |
EP3935581A4 (en) | 2019-03-04 | 2022-11-30 | Iocurrents, Inc. | DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING |
CN111695392B (zh) * | 2019-03-15 | 2023-09-15 | 嘉楠明芯(北京)科技有限公司 | 基于级联的深层卷积神经网络的人脸识别方法及系统 |
CN110659383A (zh) * | 2019-08-19 | 2020-01-07 | 广州荔支网络技术有限公司 | 一种基于音频内容画像的音频主播评分方法 |
CN110797034A (zh) * | 2019-09-23 | 2020-02-14 | 重庆特斯联智慧科技股份有限公司 | 一种用于老人及病患照料的自动语音视频识别对讲系统 |
CN110853047B (zh) * | 2019-10-12 | 2023-09-15 | 平安科技(深圳)有限公司 | 智能图像分割及分类方法、装置及计算机可读存储介质 |
CN110851621B (zh) * | 2019-10-31 | 2023-10-13 | 中国科学院自动化研究所 | 基于知识图谱预测视频精彩级别的方法、装置及存储介质 |
CN111126403B (zh) * | 2019-11-13 | 2023-10-24 | 中国科学院计算技术研究所 | 一种基于磁共振血管造影图像的脑血管分割方法和系统 |
CN111291610B (zh) * | 2019-12-12 | 2024-05-28 | 深信服科技股份有限公司 | 视频检测方法、装置、设备及计算机可读存储介质 |
CN111274443B (zh) * | 2020-01-10 | 2023-06-09 | 北京百度网讯科技有限公司 | 视频片段描述的生成方法、装置、电子设备及存储介质 |
CN111246209B (zh) * | 2020-01-20 | 2022-08-02 | 北京字节跳动网络技术有限公司 | 自适应编码方法、装置、电子设备及计算机存储介质 |
CN113259761B (zh) * | 2020-02-13 | 2022-08-26 | 华为技术有限公司 | 视频处理方法和视频处理的设备、存储介质 |
CN111753719A (zh) * | 2020-06-24 | 2020-10-09 | 上海依图网络科技有限公司 | 一种指纹识别方法及装置 |
US11538248B2 (en) * | 2020-10-27 | 2022-12-27 | International Business Machines Corporation | Summarizing videos via side information |
US11587237B2 (en) * | 2020-11-30 | 2023-02-21 | Robert Bosch Gmbh | Image segmention via efficient semidefinate-programming based inference for binary and multi-class Markov Random Fields |
CN112559800B (zh) | 2020-12-17 | 2023-11-14 | 北京百度网讯科技有限公司 | 用于处理视频的方法、装置、电子设备、介质和产品 |
US11568543B2 (en) | 2021-03-10 | 2023-01-31 | Western Digital Technologies, Inc. | Attention masks in neural network video processing |
CN113221694B (zh) * | 2021-04-29 | 2023-08-01 | 苏州大学 | 一种动作识别方法 |
CN113642422B (zh) * | 2021-07-27 | 2024-05-24 | 东北电力大学 | 一种连续中文手语识别方法 |
CN115700838A (zh) * | 2021-07-29 | 2023-02-07 | 脸萌有限公司 | 用于图像识别模型的训练方法及其装置、图像识别方法 |
CN113743523B (zh) * | 2021-09-13 | 2024-05-14 | 西安建筑科技大学 | 一种视觉多特征引导的建筑垃圾精细分类方法 |
US20240153240A1 (en) * | 2021-11-17 | 2024-05-09 | Boe Technology Group Co., Ltd. | Image processing method, apparatus, computing device, and medium |
CN114264953B (zh) * | 2021-12-01 | 2024-05-24 | 珠海格力电器股份有限公司 | 一种永磁同步电机退磁故障诊断方法和系统以及诊断装置 |
CN113936015B (zh) * | 2021-12-17 | 2022-03-25 | 青岛美迪康数字工程有限公司 | 一种图像有效区域的提取方法及装置 |
CN114241223B (zh) * | 2021-12-17 | 2023-03-24 | 北京达佳互联信息技术有限公司 | 视频相似度确定方法、装置、电子设备及存储介质 |
CN114697763B (zh) * | 2022-04-07 | 2023-11-21 | 脸萌有限公司 | 一种视频处理方法、装置、电子设备及介质 |
US12093198B2 (en) * | 2022-10-10 | 2024-09-17 | City University Of Hong Kong | Processor for a cryptosystem |
CN117788843B (zh) * | 2024-02-27 | 2024-04-30 | 青岛超瑞纳米新材料科技有限公司 | 一种基于神经网络算法的碳纳米管图像处理方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE144731T1 (de) * | 1993-04-30 | 1996-11-15 | Massen Robert | Verfahren und vorrichtung zur sortierung von materialteilen |
US5699449A (en) * | 1994-11-14 | 1997-12-16 | The University Of Connecticut | Method and apparatus for implementation of neural networks for face recognition |
US5872865A (en) * | 1995-02-08 | 1999-02-16 | Apple Computer, Inc. | Method and system for automatic classification of video images |
CN1184542A (zh) * | 1995-03-20 | 1998-06-10 | Lau技术公司 | 识别图象的系统和方法 |
US5850352A (en) * | 1995-03-31 | 1998-12-15 | The Regents Of The University Of California | Immersive video, including video hypermosaicing to generate from multiple video views of a scene a three-dimensional video mosaic from which diverse virtual video scene images are synthesized, including panoramic, scene interactive and stereoscopic images |
US5870502A (en) * | 1996-04-08 | 1999-02-09 | The Trustees Of Columbia University In The City Of New York | System and method for a multiresolution transform of digital image information |
US6075875A (en) * | 1996-09-30 | 2000-06-13 | Microsoft Corporation | Segmentation of image features using hierarchical analysis of multi-valued image data and weighted averaging of segmentation results |
JP3864400B2 (ja) * | 1996-10-04 | 2006-12-27 | ソニー株式会社 | 画像処理装置および画像処理方法 |
US5905500A (en) * | 1997-02-19 | 1999-05-18 | Seiko Epson Corporation | Method and apparatus for adaptive nonlinear projective rendering |
US6072542A (en) * | 1997-11-25 | 2000-06-06 | Fuji Xerox Co., Ltd. | Automatic video segmentation using hidden markov model |
US6178260B1 (en) * | 1998-09-23 | 2001-01-23 | Xerox Corporation | Image segmentation apparatus and method |
-
1999
- 1999-03-11 US US09/266,637 patent/US6751354B2/en not_active Expired - Lifetime
-
2000
- 2000-03-09 JP JP2000065042A patent/JP4258090B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8723793B2 (en) | 2003-05-01 | 2014-05-13 | Thomson Licensing | Multimedia user interface |
Also Published As
Publication number | Publication date |
---|---|
JP2000311180A (ja) | 2000-11-07 |
US20020028021A1 (en) | 2002-03-07 |
US6751354B2 (en) | 2004-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4258090B2 (ja) | ビデオフレームの分類方法及びセグメント化方法、及びコンピュータ可読記憶媒体 | |
JP4253989B2 (ja) | ビデオの類似性探索方法及び記録媒体 | |
JP4269473B2 (ja) | オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム | |
US6928233B1 (en) | Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal | |
KR100737176B1 (ko) | 신호 처리 방법 및 영상 음성 처리 장치 | |
US10134440B2 (en) | Video summarization using audio and visual cues | |
JP3485766B2 (ja) | デジタルビデオデータから索引付け情報を抽出するシステムとその方法 | |
US5708767A (en) | Method and apparatus for video browsing based on content and structure | |
US5821945A (en) | Method and apparatus for video browsing based on content and structure | |
US8442384B2 (en) | Method and apparatus for video digest generation | |
US20040088289A1 (en) | Image processing | |
US20120057775A1 (en) | Information processing device, information processing method, and program | |
JP2009095013A (ja) | ビデオ要約システムおよびビデオ要約のためのコンピュータプログラム | |
US6996171B1 (en) | Data describing method and data processor | |
Girgensohn et al. | Video classification using transform coefficients | |
JP2000285242A (ja) | 信号処理方法及び映像音声処理装置 | |
JP2002513487A (ja) | オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム | |
AT&T | | |
Haller et al. | Audiovisual anchorperson detection for topic-oriented navigation in broadcast news | |
JP4224917B2 (ja) | 信号処理方法及び映像音声処理装置 | |
Ren et al. | General highlight detection in sport videos | |
Yamauchi et al. | Chapter generation for digital video recorder based on perceptual clustering | |
Omidyeganeh et al. | Group-based spatio-temporal video analysis and abstraction using wavelet parameters | |
Liu et al. | Nbr: A content-based news video browsing and retrieval system | |
Liu et al. | A content-based news video browsing and retrieval system: NewsBR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090113 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090126 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120220 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140220 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |