JP4253989B2 - ビデオの類似性探索方法及び記録媒体 - Google Patents
ビデオの類似性探索方法及び記録媒体 Download PDFInfo
- Publication number
- JP4253989B2 JP4253989B2 JP2000064979A JP2000064979A JP4253989B2 JP 4253989 B2 JP4253989 B2 JP 4253989B2 JP 2000064979 A JP2000064979 A JP 2000064979A JP 2000064979 A JP2000064979 A JP 2000064979A JP 4253989 B2 JP4253989 B2 JP 4253989B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- frame
- feature vector
- similarity
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/7864—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7328—Query by example, e.g. a complete video frame or video sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Television Signal Processing For Recording (AREA)
Description
【発明の属する技術分野】
本発明は、特定のコンテントを自動的に探出す目的で、対話形式でビデオを処理する分野に関するものである。具体的に言えば、本発明は、トレーニング画像を対話形式で定義し、類似性探索の結果を表示する分野に関する。
【0002】
【従来の技術】
ビデオ検索用の大部分の最新技術のシステムは、最初にビデオを各ショットにセグメント化し、次に、各ショットに対して、単一のキーフレーム、または複数のキーフレームを生成する。次に、ビデオセグメントの検索を、キーフレームに基づく画像検索に変える。さらに複雑な従来のシステムは、クエリーセグメントにわたって、色と時間の変化を平均化するが、その後で、セグメント化されたビデオ内のキーフレームに基づいて検索を行う。従来のシステムは、クエリー(例えば、即時再生)と正確に一致するビデオ系列を見つけるように設計されている。
【0003】
類似性による静止画像の検索について多くの研究がなされてきた。色ヒストグラムの類似性に基づく検索が記述されてきた。いくつかの画像類似性測度は、ウェーブレット分解に基づいていた。高次の係数を量子化し、切り捨てれば、次元数が減らされるが、一方、類似性距離測度は、ビット単位の類似性の計数にすぎない。とはいえ、この手法は、明らかに離散コサイン変換にも、アダマール変換にも用いられなかった。類似性による画像検索の公知のシステムはすべて、単一画像を1クエリーとして要求し、当然、画像グループまたは画像クラスにはまとめられない。ビデオクエリーについて多くの研究がなされてきたが、文献の多くは、現行の解析または注釈を前提としながら、クエリーの数学的表現に集中している。
【0004】
ビデオ処理の費用が高くつくために、高速の類似性測度に関しては、ほどんど研究がなされなかった。色ヒストグラムと画素定義域のテンプレート照合との組合せを用いて個々の画像フレームの解析が試みられた。ただし、テンプレートは、用途に合わせて作らせなければならず、したがって、一般化されない。別の距離測度技法は、これらのフレームの領域内のグレイレベルの平均偏差と標準偏差に基づく距離など、統計的な性質に基づいている。
【0005】
他の従来の手法は、スケッチによるクエリーを含み、このクエリーは、おそらく動き属性で向上する。クエリーとして、実際のビデオクリップを使用する限り、この文献に記載のいくつかの報告書は、ビデオ「ショット」が、クエリーに対しても検索に対しても静止画像で表されるシステムと、ビデオセグメントの特徴を、色ヒストグラムの平均の色と時間の変化とするシステムとを含む。同様な手法には、ショットを自動的に見つけ出した後で、これらのショットを、色ヒストグラムの類似性測度を用いて比較することが含まれる。きわめて縮小したフレーム画像表現の時間的相関を用いて、ビデオ系列と突合わせることが試みられてきた。これは、ビデオショットの繰返しインスタンス(例えば、スポーツイベントの「即時再生」)を見つけることができるが、実質的に類似しないビデオに、どの程度うまくまとめられるかは明らかでない。ビデオ類似性は、画像固有投影の距離で決定されるフレーム距離の短いウィンドウ間のユークリッド距離として計算されてきた。これは、テストビデオ内に類似領域を見つけ出せるように思われるが、ただし、固有投影の計算に用いられるビデオによって決まるから、これもまた一般化されない。色ヒストグラムの照合と画像相関を用いてビデオインデックス付けが試みられた。ただし、この相関が、大部分の対話形式のアプリケーションに対して充分高速に行われ得ることは明らかでない。動きの特徴を用いる隠れマルコフモデルのビデオセグメンテーションが研究されてきたが、これは、じかに画像の特徴を使用しないし、また画像類似性照合のためにも、画像の特徴を使用しない。
【0006】
定義済みのクラスを、ビデオの検索とナビゲーションに提供することに加えて、ビデオ分類技法は、他の目的にも使用できる。ビデオのプレイバック中に、ユーザが、プレゼンテーション中の話者のクローズアップなど、関心のある場面を見るときに、ユーザは、その特定の状況に対して、定義済みの画像クラスがなくとも、類似する場面を見つけ出すことに関心がある場合もある。
【0007】
【発明が解決しようとする課題】
本発明は、対話形式で、ビデオの中から1場面を選択し、これに類似する場面をビデオの中で見つけ出す方法を提供する。本発明は、ユーザで選択されたものに類するビデオの時間間隔を高速で見つけ出せるシステムを含む。類似性の結果は、グラフィック表示されるときに、ビデオの構造を決定するか、あるいはブラウズして所望のポイントを見つけ出すのに役立つ。各ビデオフレームが、少数の係数として表されるから、類似性の計算は、きわめて速く、実時間の何千倍もの速さで行われる。このことから、本発明による対話形式のアプリケーションが可能となる。
【0008】
従来のシステムは、類似するビデオ領域を対話形式で見つけ出すのに、特殊性、一般性、または速度を欠いている。従来の色ベースのシステムを用いると、誤って類似性ありと判定することがあまりにも多く発生する。画素定義域の手法に基づく従来のシステムは、計算的に過酷すぎるか(例えば、画像定義域相関照合)、あるいは、類似するものと判断されるようにビデオがほぼ同一でなければならない点で特殊すぎる。これと対照的に、本発明による、縮小変換の特徴と、統計モデルは、正確であって、充分に一般化され、高速で働く。
【0009】
【課題を解決するための手段】
本発明の第1の態様は、ビデオの類似性探索方法であって、定義手段が、類似性探索の対象となるビデオに含まれるフレームを画像クラス統計モデルにより表現される複数種類の画像クラスの何れかに分類してセグメント化するための、複数のトレーニングフレームから成るトレーニングビデオセグメントと前記トレーニングビデオセグメントが属する画像クラスとの対応関係をユーザに選択させて定義する工程と、第1の特徴ベクトル取得手段が、トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、分類先となる画像クラスに対応する特徴ベクトルを検索することにより、特徴ベクトルを得る工程と、トレーニング手段が、前記画像クラス中の複数のトレーニングフレームから得られた複数の特徴ベクトルから平均特徴ベクトル及び対角共分散マトリクスを計算することにより前記平均特徴ベクトル及び対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされる画像クラス統計モデルを構築する工程と、第2の特徴ベクトル取得手段が、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、前記類似性探索の対象となるビデオに含まれる各フレームに対応する特徴ベクトルを検索することにより、探索対象フレームの特徴ベクトルを得る工程と、計算手段が、得られた前記探索対象フレームの特徴ベクトルについて、画像クラス統計モデルに対応する前記ガウス関数を用いて前記画像クラスに分類される確率を計算することにより、類似性スコアとして各フレームの尤度を計算する工程と、分割手段が、類似性スコアを、ユーザにより定義された類似性スレッショルドと比較することにより、類似性探索の対象となるビデオに含まれるフレームを、前記画像クラスの類似セグメントと非類似セグメントに分ける工程と、を含む。本発明の第2の態様は、第1の態様において、トレーニングビデオセグメントのフレームに対応する各特徴ベクトルが、フレームの彩度成分から得られた特徴ベクトルと、フレームの輝度成分から得られた特徴ベクトルを含む。本発明の第3の態様は、第1の態様において、トレーニングビデオセグメントのフレームに対応する各特徴ベクトルが、フレームの赤色成分から得られた特徴ベクトル、フレームの緑色成分から得られた特徴ベクトル、フレームの青色成分から得られた特徴ベクトルを含む。本発明の第4の態様は、表示手段が、前記分割手段により分けられた前記類似セグメントを識別可能に表示装置に表示させる工程を含む。本発明の第5の態様は、ビデオの類似性探索を行う方法であって、類似性探索の対象となるビデオに含まれるフレームを画像クラス統計モデルにより表現される複数種類の画像クラスの何れかに分類してセグメント化するための、複数のトレーニングフレームから成るトレーニングビデオセグメントと前記トレーニングビデオセグメントが属する画像クラスとの対応関係をユーザに選択させて定義する工程と、トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、分類先となる画像クラスに対応する特徴ベクトルを検索することにより、特徴ベクトルを得る工程と、前記画像クラス中の複数のトレーニングフレームから得ら れた複数の特徴ベクトルから平均特徴ベクトル及び対角共分散マトリクスを計算することにより前記平均特徴ベクトル及び対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされる画像クラス統計モデルを構築する工程と、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、前記類似性探索の対象となるビデオに含まれる各フレームに対応する特徴ベクトルを検索することにより、探索対象フレームの特徴ベクトルを得る工程と、得られた前記探索対象フレームの特徴ベクトルについて、画像クラス統計モデルに対応する前記ガウス関数を用いて前記画像クラスに分類される確率を計算することにより、類似性スコアとして各フレームの尤度を計算する工程と、類似性スコアを、ユーザにより定義された類似性スレッショルドと比較することにより、類似性探索の対象となるビデオに含まれるフレームを、前記画像クラスの類似セグメントと非類似セグメントに分ける工程と、を含む方法をコンピュータで実行するためのプログラムを記録したコンピュータ読取り可能な記録媒体である。本発明の第6の態様は、前記類似セグメントを識別可能に表示装置に表示させる工程を含む。
【0010】
本発明は、類似性により、対話形式でビデオをブラウズし、問合わせ、検索するシステムに実施される。対話形式で選択されるビデオ領域は、オンザフライ式で統計モデルをトレーニングするのに用いられる。クエリートレーニングセグメントは、個々のフレームか、フレームのセグメントか、隣接しないセグメントか、画像のコレクションか、いずれかである。さらに、このシステムを使用すれば、1つ、または複数の静止画像から、類似する画像を検索することができる。類似性測度は、縮小変換係数の統計的尤度に基づいている。この類似性は、対話形式で類似するビデオ領域を探し出すために、高速計算され、グラフィック表示され、インデックスとして使用される。
【0011】
本発明は、探索とセグメンテーションを同時に行って、事前にビデオを各ショットにセグメント化する必要のないようにしている。ビデオの各フレームは、離散コサイン変換またはアダマール変換を用いて変換される。この変換されたデータは、それほど重要でない係数を捨てて、したがって、ビデオの効率的な表現をもたらすことで、減らされる。このクエリートレーニングセグメント(1つ、または複数)を使用して、ガウスモデルをトレーニングする。次に、トレーニングされたガウスモデルで各ビデオフレームが生成される確率を計算することで、単純な探索を行うことができる。これは、そのクエリーとの類似度を示す一連の信頼スコアを提供する。信頼スコアは、類似性が即座に表示できるビデオブラウザで役立つ。
【0012】
本発明の1つの態様では、ビデオ内の各フレームに対応する縮小変換係数は、事前に計算された特徴ベクトルのデータベースに格納される。クエリートレーニングセグメントの選択後に統計モデルをトレーニングするためにも、また統計モデルがトレーニングされた後に、各フレームの類似性を評価するためにも、この特徴ベクトルのデータベースを利用できる。
【0013】
本発明は、類似性により、ビデオセグメントを検索する方法を含む。ユーザは、ビデオセグメント(1つ、または複数)を選択することで、クエリーを形成する。クエリービデオセグメントの統計モデルが形成され、そのモデルを使用して、類似するセグメントを求めてビデオを探索する。各フレーム用の類似性スコアが、画像変換係数に基づいて計算される。ビデオデータベース内の類似するビデオセグメントが識別されて、それらをユーザに提示する。当該システムは、離散的な一組の類似ビデオクリップを返さずに、類似性スコアを提供し、その類似性スコアをビデオブラウザ内に使用すれば、多かれ少なかれ類似するセグメントを表示させることができる。
【0014】
本発明の別の態様では、ビデオウィンドウの下のタイムバーは、各フレームの尤度、したがって、クエリートレーニングセグメントとの類似度を表示する。このバーが濃くなればなるほど、それだけ、ビデオが、クエリートレーニングセグメントに類似する。さらに、このブラウザを使用して、タイムバーの類似セクションをクリックすると、類似セグメントがランダムに利用できる。ユーザは、タイムバーの或る部分をマウスでクリックアンドドラッグすれば、対話形式で、1つ、または複数のトレーニングビデオセグメントを定義できる。
【0015】
本発明のさらに別の態様では、ウェブベースのブラウザは、ビデオの中に、周期的な所定時間間隔(例えば、5秒)で、すべてのフレームを表示する。ユーザは、隣接する周期フレームを選択することで、トレーニングビデオセグメント(1つ、または複数)を選択する。次に、表示されない介在フレームはすべて、トレーニングセグメントとして使用される。例えば、2つの選択された隣接周期フレームの間の5秒間隔内のすべてのフレームが、トレーニングセグメントとして使用される。類似性は、計算されると、表示周期フレームの周りのシェードとして表示される。
【0016】
本発明のさらに別の態様では、調整可能なスレッショルドスライダバーを、このブラウザ内に設けている。類似性スコアが、このスレッショルドを超えるフレームは、類似するものとして示される。ビデオセグメンテーションは、1フレーム単位の類似性測度から行われる。ガウスモデルは、このモデル尤度がスレッショルドと、いつ交差するか求めることにより、セグメンテーションに使用できる。隣接する類似フレームは、類似するセグメントを定義する。類似するセグメントは、ブラウザに表示される。またスキップ前進・後退ボタンを使用すれば、次の類似セグメント、または前の類似セグメントの先頭にブラウズすることができる。このセグメンテーションでタイムバーを起動する場合には、タイムバーの濃い部分は、類似するセグメントを示し、またタイムバーの淡い部分は、類似しないセグメントを示す。
【0017】
本発明の上述および他の特徴および利益は、発明の詳細な説明において図面を参照してより完全に記述される。
【0018】
【発明の実施の形態】
ビデオの要約、ブラウジングおよび検索にとって、どのような種類の画像がそのビデオを構成しているかを知ることは、しばしば有益である。例えば、どのショットが人の顔のクローズアップを含んでいるかを知ることは、ビデオの要約にそれらを含めやすくするために有用である。本発明は、ビデオシーケンスを所定のクラスの集合にセグメント化し分類する方法を含む。ビデオクラスの例には、人々のクローズアップ、群衆シーンおよび「パワーポイント(登録商標)」スライドといったプレゼンテーション資料のショットを含む。分類に使用される特徴は一般的であり、従って、ユーザは任意のクラスタイプを指定できる。
【0019】
図1は、本発明に従った方法の実施に適する汎用コンピュータシステム100を例示している。汎用コンピュータシステム100は少なくとも1個のマイクロプロセッサ102を備える。カーソル制御装置105は、マウス、ジョイスティック、一連のボタンまたは、ユーザがディスプレイモニタ104上でのカーソルまたはポインタの位置を制御できるようにする他のいずれかの入力装置によって実現される。汎用コンピュータはまた、ランダムアクセスメモリ107、外部記憶装置103、ROMメモリ108、キーボード106、モデム110およびグラフィックコプロセッサ109を備えることもある。カーソル制御装置105および/またはキーボード106は、本発明に従ってユーザ入力を受け取るための例示的なユーザインタフェースである。汎用コンピュータ100のこれらの要素の全部は、1つの選択肢においては、各種要素間でデータを転送するための共通バス101によって互いに結合されている。バス101は一般に、データ、アドレスおよび制御の各信号を含む。図1に示す汎用コンピュータ100は、汎用コンピュータ100の要素の全部を一体に結合する単一のデータバス101を備えるが、汎用コンピュータ100の各種要素を接続する単一の通信バス101が存在しなければならない必要はまったくない。例えば、マイクロプロセッサ102、RAM 107、ROMメモリ108およびグラフィックコプロセッサ109はデータバスによって結合され、ハードディスク103、モデム110、キーボード106、ディスプレイモニタ104およびカーソル制御装置105は第2のデータバス(図示せず)によって接続される。この場合、第1のデータバス101および第2のデータバス(図示せず)は、双方向バスインタフェース(図示せず)によってリンクされる。あるいはまた、マイクロプロセッサ102およびグラフィックコプロセッサ109といった一部の要素は第1のデータバス101および第2のデータバス(図示せず)の両方と接続され、第1のデータバスと第2のデータバスとの間の通信はマイクロプロセッサ102およびグラフィックコプロセッサ109によって行われる。このように、本発明の方法は、図1に100で示したようなあらゆる汎用コンピュータシステム上で実行可能であり、このコンピュータシステムが本発明の方法を実行し得る唯一のものであるといった制限はまったく存在しないことは明白である。
【0020】
図2は、本発明によるビデオの分類を実行する方法におけるデータの流れを示す。ビデオファイル201はビデオ記録物のディジタル表現である。ビデオファイル201は一般にMPEGといった標準ディジタルフォーマットで符号化されている。画像クラス統計モデル202〜205は、4つの個別の画像クラスに対応する所定のガウス分布を表現している。矢印209は、特徴ベクトル208を抽出するためのビデオファイル201の処理を示す。矢印209において行われる処理は以下の通りである。ビデオファイル201は、MPEGといった標準ディジタルフォーマットで符号化されている場合、復号化され、画素の矩形マトリックスに変換される。画素の矩形マトリックスは、下位画像のより小形の矩形マトリックスに簡約化され、この場合、各下位画像はその下位画像に対応する画素から導かれるグレイスケール符号を表現する。下位画像の矩形マトリックスに変換が施され、変換係数のマトリックスを生じる。変換係数のマトリックスから、ビデオ特徴208が、ビデオ分類のためのビデオ集合として示される変換マトリックス内の係数位置にある変換係数として選択される。クラシファイヤ(分類ユニット)206は各ビデオ特徴208を受け取り、それらのビデオ特徴208を画像クラス統計モデル202〜205の各々に入力する。この結果、ビデオファイル201の各フレームは、画像クラス統計モデル202〜205により表現される画像クラスのいずれかに分類される。ビデオファイル201のフレームに対応するようにクラシファイヤ206によって決定された対応する画像クラスは、クラスのラベル付けされたビデオ207に索引づけられる。このようにして、クラスラベル付けされたビデオ207は、そのフレームが属する画像クラスを示す各フレームに関係づけられた情報を含む。
【0021】
図2に示す通り、システムは最初に、ビデオシーケンスから分類のための特徴、例えば離散コサイン変換係数を抽出するが、カラーヒストグラムといった他の特徴を選択的に使用することもできる。認識されるビデオの各フレームのモデルを構築するために、トレーニングデータが使用される。このトレーニングデータは、そのクラスからの単数または複数のビデオシーケンスより構成される。クラスモデルは、ガウス分布または隠れマルコフモデルのどちらか一方にもとづくことができる。未知のビデオからクラスモデルおよび特徴が与えられたと、システムは、そのビデオをセグメント化し、それぞれのクラスに属するセグメントに分類する。
【0022】
ガウス分布型クラシファイヤは、クラスモデルを用いて各フレームの尤度(likelihood)を計算する。そのフレームのクラスは最大尤度を有するクラスである。同じクラスラベルを有する隣接フレームは併合されてセグメントを形成する。さらに、その尤度は、各クラスにおける帰属関係の信頼の程度を表示するブラウザにおいて選択的に使用される。隠れマルコフモデル法の場合、隠れマルコフモデル状態は異なるビデオクラスに対応する。バイタービ(Viterbi)アルゴリズムが使用される。最大尤度状態シーケンス、従って各フレームのクラスラベルを見つけるため、信頼度のスコアは状態シーケンスの確率から得られる。この隠れマルコフモデルクラシファイヤは、上記のフレームごとのクラシファイヤよりも複雑であるが、セグメントの連続性および順序を強制することによってセグメントを平滑化する役割を果たす。これは、単一フレームのクラス決定の変更を効果的に禁止する。
【0023】
各画像またはビデオフレームは、離散コサイン変換またはアダマール変換といった変換を用いて変換される。多くの用途の場合、完全なビデオフレームレートは不要であり、フレームは、選択的に数個のフレームのうちの1個だけが変換されるように時間的に間引かれる。この間引きによって、記憶コストおよび計算時間は劇的に軽減される。画像圧縮においては、一般に小さな下位ブロックに対して変換が行われるが、ここではフレーム画像全体に変換が適用される。変換されたデータはその後、有意性の低い情報を破棄することによって低減される。これは、切り捨て(truncation)、主成分分析または線形識別解析などといった多数の技法のいずれかによって行われる。この用途の場合、また、経験的に示される通り、主成分分析が良好に作用する。それが特徴次元の相関を分離する傾向があり、従って、データが、後述の通りガウスモデルおよび隠れマルコフモデルの対角共分散仮定によく一致するからである。しかし、最大分散を有する係数を単純に選択することが極めて有効であると判明している。これは、各フレームに関してコンパクトな特徴ベクトル(簡約化された係数)をもたらす。この表現は、類似の画像のフレームが類似の特徴を有するので、分類にとって適切である。
【0024】
図3は、本発明による、トレーニングフレーム、トレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換およびトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を例示する。従って、トレーニングフレーム301〜308は、ビデオ画像クラスに関係する一連のトレーニング画像を表す。トレーニング画像301〜308によって表現された画像クラスは、英語で「演壇の正面に立つ話者」と説明される。フレーム310は、トレーニングフレーム301〜308から抽出された8成分特徴ベクトルにもとづいて計算された平均特徴ベクトルに対応する逆離散コサイン変換を図示している。フレーム310では、ビデオ分類のための特徴集合は10成分特徴集合である。従って、各フレームからの10個の変換係数だけが各トレーニングフレームに関係づけられた特徴ベクトルを構成する。フレーム311は、トレーニングフレーム301〜308の各々から抽出された100成分特徴ベクトルにもとづいて計算された平均特徴ベクトルの逆離散コサイン変換を表す。フレーム312は1000成分特徴ベクトルの逆離散コサイン変換である。フレーム312は、逆離散コサイン変換において使用される係数の数が増加しているので、それ自体がフレーム310よりも詳細な表示をしているフレーム311よりもさらに詳細に表示している。
【0025】
フレーム320は、トレーニング画像から得られた平均特徴ベクトルの逆アダマール変換を表す。フレーム321は100成分特徴ベクトルに対応する逆アダマール変換を表す。フレーム322は1000成分特徴ベクトルに対応する逆アダマール変換を表す。
【0026】
1/2秒間隔で取られたMPEGフレームは、復号化され、64×64グレイスケール強度下位画像に簡約化された。得られたフレーム画像は、離散コサイン変換およびアダマール変換により符号化された。最大分散(順位)を有する係数および最も重要な主成分の両者が特徴として選択された。ガウスモデルは、1〜1000の可変数の次元によってトレーニング集合でトレーニングされた。図3は特徴カテゴリの1つ(figonw)のサンプルを示す。このカテゴリは、明るい(白い)背景を背にした人々のクローズアップよりなる。このクラスの画像が、カメラアングル、照明および位置の点で、おそらくは典型的なニュースキャスターの画像よりもいかに大きく変化し得るかに留意されたい。平均および共分散は、最大分散の離散コサイン変換およびアダマール変換の係数によってトレーニングされた。各モデルは、ゼロに設定された破棄係数を有する平均を逆変換することによって画像化されている。共分散は示されていないが、平均がトレーニングデータからの主要な特徴(暗色の中央の人影)を捕捉することは明白である。図3は、少ない数の係数によっても、トレーニングデータにおける主要な形状が、逆変換された時に依然認識可能であることを示している。
【0027】
図4は、異なる平均および分散を有する2つの一次元ガウス分布を示す。確率曲線401によって表現された分布Aは平均μAを有する。確率曲線402によって表現された分布Bは平均μBを有する。分布Aから生じるある値Xの確率は、横軸に対する点403の垂直位置である。同様に、分布Bより生じる値Xの確率は、横軸に対する点404の垂直高さである。点403における確率が点404における確率よりも高いので、Xは分布Aから最も得られやすい。図4は一次元プロットであり、2つの画像クラスAおよびBならびに1成分特徴集合が与えられた時、図4は、本発明に従って行われるビデオフレームの分類の最大尤度の方法を的確に例示する。
【0028】
特徴データが与えられると、ビデオセグメントは統計的にモデル化される。単純な統計モデルは多次元ガウス分布である。ベクトルxが1フレームの特徴を表現すると仮定すると、そのフレームがガウスモデルcによって生成される確率は次式の通りである。
【0029】
【数1】
【0030】
ここで、μcは平均特徴ベクトル、Σcはモデルcに関係するd次元特徴の共分散マトリックスである。式(x−μc)’は差分ベクトルの変換である。実際には、対角共分散マトリックス、すなわちΣcの非対角線上成分がゼロであると仮定するのが普通である。これにはいくつかの利点がある。最も重要なことは、自由パラメータ(マトリックス成分)の数をd(d−1)/2からdに減らすことであり、これは問題の次元d(dは100のオーダー)が高い時に重要となる。共分散マトリックスは少数のトレーニングサンプルにより計算される際にしばしば不良条件となるので、これはマトリックスの逆の計算が極めて単純になり、より確固としたものになることを意味する。このようにガウスモデルによって画像を分類するために、必要なクラスの各々について1組のサンプルトレーニング画像が集められ、パラメータベクトルμcおよびΣcが計算される。未知の画像xが与えられると、各画像クラスの確率が計算され、その画像は最大尤度モデルによって分類される。あるクラス(トレーニング集合)にとっては対数尤度だけが類似性の有用な測度であり、本発明によるビデオブラウザといった用途において直接使用される。より精緻なモデルは、多数のパラメータおよび混合重みを評価するために期待値最大化アルゴリズムが与えられた時に、ガウス混合を使用することができる。さらなる代替として、ニューラルネットワークまたは他の形式のクラシファイヤが使用される。単一のガウスモデルの場合、μcおよびΣcの計算は、計算法としては容易であり、極めて迅速に行える。単一画像からのモデルのトレーニングの場合、平均ベクトルは画像特徴に設定され、分散ベクトル(対角共分散マトリックス)は全部の画像に対する大域変数の何らかの比に設定される。未知のフレームおよび数個のモデルが与えられた場合、その未知のフレームは、どのモデルが最大確率をもってそのフレームを生じるかによって分類される。
【0031】
図5は、本発明によるビデオ分類のための特徴集合を選択する例示的方法を示す。すなわち、図5は、統計モデルのトレーニングのため、および、統計モデルがトレーニングされた際のビデオの類似性測定および分類のために、抽出および分析する係数位置を変換する選択過程を表している。図5に記載した方法は、多数のトレーニング画像に見られるの特性を考慮している。以下に述べる分類法において、特徴集合を最適に選択するために使用されるトレーニング画像は、異なるクラス全部の画像を含む。これは、図5に示す方法が異なるクラスの画像を区別するために特徴の最適な集合を選択するのを助ける。図5に示す方法の代替として、特徴集合で使用する係数位置は、観測されるビデオ特性を全く考慮せずに、図6および8に示すように単に最低頻度係数を選択することによる切り捨てによって選択される。
【0032】
V×Hの離散コサイン変換係数位置を考え、そこから特徴集合としてより小さな数dを選択する。図6に示した例ではV=H=8である。より典型的で実際的なシナリオではV=H=64であり、従って、選択するべき4096(64×64)個の係数位置がある。最大分散係数を選び出すための1つの代替の方法は、4096×4096共分散マトリックスを計算した後、適切に特徴を選び出すが、必ずしも順番に行う必要はない。簡約化ベクトルの実際の順序は重要ではないが、一致していなければならない。
【0033】
工程501で、平均係数マトリックスが計算される。平均係数マトリックスは、変換が適用される下位画像のマトリックスと同じ行数Vおよび同じ列数Hを有しており、また、結果として得られる変換係数マトリックスとも同数の行および列を有する。平均マトリックスの各位置は、トレーニング画像にある対応する係数の算術平均である。1つの実施の形態では、平均係数マトリックスは、分散マトリックスを計算する過程の予備工程として計算される。別の実施の形態では、平均係数マトリックスの値自体を解析して、特徴集合を選択する。例えば、ある実施の形態では、最大平均値を有する係数位置が特徴集合として選択される。工程502では、分散マトリックスが計算される。分散マトリックスは、平均マトリックスおよび変換マトリックスと同じ行数Vおよび同じ列数Hを有する。分散マトリックス502の各値は、トレーニング画像の変換マトリックスにおける対応する位置の統計分散を表現する。あるいはまた、分散マトリックス502の各値は、標準統計分散以外である「分散」測度を表現するが、それでもやはりそれは変動の測度を表現する。例えば、観測された各係数の平均係数との差の算術平均絶対値は、標準統計分散に使用されるような2乗差の和よりも、「分散」測度として使用できる。
【0034】
工程503において、特徴集合が選択される。この特徴集合は、本発明による多様な方法のいずれかによって工程503で選択される。例えば、特徴集合は選択的に、最大平均値を有するd個の係数位置として選択される。あるいはまた、特徴集合は分散マトリックスで最大分散値を有するd個の係数位置として選択される。さらに別の代替法として、特徴集合は、主成分分析または線形識別解析によって選択される。
【0035】
最も単純な特徴集合選択法では、特徴集合のd個の係数位置が切り捨てによって選択され、それにより、変換マトリックスの最低頻度係数のみが、トレーニングフレームのいずれかにおけるそれらの位置の実際の係数の値にかかわらず、特徴集合を構成するように選択される。実際、切り捨てによると、最低頻度成分が最も重要であると単純に仮定されるので、いずれのトレーニングフレームもまったく分析される必要はない。
【0036】
特徴集合の選択はトレーニング画像の各群について行われる必要はないことに留意しなければならない。一般に、特徴集合は、分類方法において使用される全部のクラスモデルから全部のトレーニング画像を使用する上記の方法のいずれかにもとづいて選択される。例えば、図2のクラスモデル202〜205の各々を定義するために使用されるトレーニング画像の全部は、それらのトレーニング画像の全部について平均マトリックスおよび分散マトリックスを計算することによって解析されて、それらのクラスモデルの各々の分類のための最適な特徴集合を決定する。従って、本発明による分類法における各ビデオ画像クラスについて同じ特徴ベクトルが検索されるように、好ましくは同一の特徴集合が全部のクラスモデルに関して使用される。しかし、本発明による画像クラスの各々について同一の特徴集合が使用されなければならないという必要性はまったくない。これに関して、各画像クラスは、その画像クラスの検出に最適に選択された特徴集合を有することができるが、その画像クラスの対応する確率の計算を行うために各ビデオフレームから異なる特徴ベクトルを抽出しなければならないという演算負荷の増加を伴う。
【0037】
図6は、ビデオフレームの離散コサイン変換から得られる変換マトリックスを示す。列1は水平周波数0(従って直流)を表現し、列2は水平周波数fhを表現し、そして、列8は水平周波数13fvの係数を表す。同様に、行1は垂直周波数0(すなわち直流)の係数を表現し、行2は垂直周波数fvを表現する。変換マトリックス600の行8は垂直周波数13fhの係数を表す。変換マトリックス600の左上隅の9個の係数はその変換マトリックスの最低周波数係数を表す。ブラケット601および602で囲まれたこれらの9個の係数は、本発明による特徴集合を選択する9係数切り捨て法によって選択される9個の係数位置である。より高周波数の係数は画像の細部を表現するので、それらはあるフレームのビデオ画像クラスを決定するうえでそれほど重要でないことがほとんどである。
【0038】
図7は、本発明に従って2個以上の変換マトリックスから計算された分散マトリックスを示す。図8は、本発明に従った切り捨てによって決定された特徴集合800を示す。最低頻度成分に対応する変換マトリックスの9個の係数は、図8に示す通り特徴集合800として選択された。例えば、成分801、802および803は図6に示す変換マトリックス600の行1の最初の3個の係数位置を表し、成分804、805および806は変換マトリックス600の第2の行の最低頻度成分を表し、成分807、808および809は変換マトリックス600の第3の行の最低頻度係数位置を表す。変換マトリックス600の最初の3個の行は変換における最低垂直頻度を表し、従って特徴集合800で指定された9個の成分は切り捨て法に関して適切な選択である。
【0039】
図9は、本発明に従って図8に示した特徴集合を有するトレーニングフレームの2個の特徴ベクトルから計算された平均特徴ベクトル900を示す。このように、係数801〜809に対応する平均マトリックス(図示せず)の値は平均特徴ベクトル900として記憶される。
【0040】
図10は、本発明に従って図8に示した特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。共分散マトリックスは必ず正方かつ対称である。この共分散は次元d×dのマトリックスである。共分散は全部の異なる次元に関する相関を表現する。対角共分散を使用することによって、d個の非ゼロ値が存在し、数学演算のためには、それはマトリックスとして扱われなければならないものの、d成分のベクトルとしてみなすことができる。対角共分散マトリックス1000の全部の非対角線上成分は、特徴集合における全部の特徴がその特徴集合の他の特徴と統計的に非相関関係にあるという仮定にもとづき、ゼロに設定される。実際、特徴が相関関係にあれば、特徴空間の座標変換に対して主成分分析が最適に使用され、それにより対角共分散仮定も良好に満たされる。対角共分散マトリックス1000は、図9に示した特徴ベクトル900および、図6に示した変換マトリックス600の切り捨てにより決定された特徴ベクトル800に対応する。
【0041】
図11は、本発明の方法による図8に示した特徴集合を有するフレームについて検索された特徴ベクトル1100を示す。このように、特徴ベクトル1100の各成分1101〜1109は、変換された画像フレームから得られた実際の変換係数を含む。特徴ベクトル1100は、本発明に従った分類方法においてビデオファイル201から抽出される図2に示したビデオ特徴208の実例である。
【0042】
図12は、本発明により2個以上のビデオ画像クラスのいずれかにビデオのフレームを分類する方法を例示している。この方法は工程201に始まり、工程202で、ビデオの第1のフレームが離散コサイン変換またはアダマール変換のいずれか一方によって変換される。工程1203で、特徴工程によって示された位置にある係数に対応する特徴ベクトルが抽出される。工程1204では、特徴ベクトルを生成する各画像クラス統計モデルの尤度または確率が計算される。工程1205で、そのフレームに対応する特徴ベクトルを生成する確率が最も高い画像クラス統計モデルを有する画像クラスが選択される。工程1206で、そのフレームが、工程1205で決定されたそのクラス指定によりラベルづけされる。この工程では、フレームは、将来容易にブラウズまたは検索されるように、そのクラスに従って索引づけがなされる。検査1207は、そのビデオにさらにフレームが存在するかどうか、すなわち、それが分類中のビデオの最後のフレームであるかどうかを判定する。さらにフレームがあれば、分岐1208は方法を次のフレームを変換する工程1202へ戻し、それがビデオの最終フレームである場合には、工程1209は図2に示したクラスのラベルづけされたビデオ207が完了したことを指示する。
【0043】
図13は、本発明に従い切り捨て以外の方法によって決定された特徴集合を示す。例えば、主成分分析、最大分散を有する係数の選択または最大平均を有する係数の選択の内の1つの想定可能な結果が、図13に示す特徴集合1300によって例示されている。図13に示された6成分特徴集合1300は、図6に示した係数位置610〜615を含む。図13に示された6成分特徴ベクトル1300の係数位置1301として含まれ、図6に示された変換マトリックス600の第2行、第6列の係数位置614の包含は、11fhに対応する比較的高い水平頻度成分が画像クラスを弁別する際に有効であることを示す。高頻度成分の包含はほとんど、フレームを認識するのに一般に比較的小さく鋭いエッジを有するテキスト等の小さな鋭い特徴を検出することを要する場合に生じる。
【0044】
図14は、本発明に従って、図13に示す6成分特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された平均特徴ベクトル1400を示す。
【0045】
図15は、本発明に従って、図13に示す特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された対角共分散マトリックス1500を示す。特徴集合で示された係数位置の値の間に相関関係が存在しないという仮定にもとづき、対角共分散マトリックス1500の非対角線上成分は、やはりゼロに設定されている。
【0046】
図16は、本発明に従った分類のための図13に示す特徴集合1300を有するフレームから検索された特徴ベクトル1600を示す。このように、成分1601〜1606は、本発明の方法に従って分類されるフレームの変換によって生じる変換マトリックスから得られる実際の個々の変換係数を表現している。
【0047】
十分なデータ簡約化が行われた場合、クラシファイヤは、プレゼンテーションスライド、発表者または聴衆といった典型的な会議のビデオシーンの間を識別するために、本発明に従って容易にトレーニングされる。会議ビデオの領域分野の他に、この方法は、ニュースキャスターのショットなど、あるクラスの画像が類似の構成を有する場合には良好に作用するはずである。本発明による方法を評価するために、ビデオテープ録画されたスタッフ会議の資料に関して多数の実験を行った。ビデオショットは、6つのカテゴリに分類され、資料はトレーニング集合および試験集合に分けられた。
【0048】
ビデオ分類実験は、6カ月の期間に開かれビデオ録画されたスタッフ会議の資料に関して実施された。各ビデオはカメラオペレータによって作成され、オペレータは、パン/チルト/ズームの制御が可能な3台のカメラによるビデオと、パーソナルコンピュータおよび演壇カメラからのビデオ信号との間で切り換えを行った。後者の装置は、透明および不透明資料といったプレゼンテーショングラフィックスを背面映写スクリーンに表示できるようにした。従って、ビデオショットは一般に、発表者、聴衆ショットおよび、「パワーポイント(登録商標)」スライドまたは透明資料といったプレゼンテーショングラフィックスより構成される。得られたビデオはMPEG−1符号化され、サーバに記憶された。
【0049】
資料には、21回の会議ビデオが収められ、ビデオ収録時間の合計は13時間以上であった。資料は、会議ビデオを交互に選ぶ形で、試験およびトレーニングセグメントに任意にセグメント化された。試験およびトレーニングデータは下記の表1に示す6つのクラスにラベルづけられ、表はトレーニングおよび試験の各集合のフレームの数も示している。相当量のデータがいずれのカテゴリにも当てはまらず、ラベルづけされずに残された。6つのクラスは、プレゼンテーショングラフィックス(slides)、照明付き映写スクリーンのロングショット(longsw)、照明なしの映写スクリーンのロングショット(longsb)、聴衆のロングショット(crowd)、明背景での人物像の中間クローズアップ(figonw)および暗背景での人物像の中間クローズアップ(figonb)を表現するように選択された。(スクリーンショットといった)単一のカテゴリでかつ(照明付きと照明なしのスクリーンショットといった)著しく異なるモードの場合、各モードについて別のモデルが使用された。これは、単一ガウスモデルとのすぐれた一致を保証したが、別の方法は結合モデルをモデル化するためにガウス混合を代替的に使用する。同一の論理クラスをモデル化するように意図されている場合、異なるモデルは選択的に結合される。例えば、人物像を見つけることを意図している場合に背景色は重要ではないので、分類結果を提示する際にfigonwおよびfigonbクラスの結合が行われる。
【0050】
【表1】
【0051】
実験は、ガウス分布型クラシファイヤが長時間のビデオの脈絡における特定のクラスからビデオフレームを検出することを実証している。これは、長時間のビデオから、類似フレームの領域として定義されたショットをセグメント化するために使用される。これは、例えばスライドを含むショットの始まり、といった有益な索引点を提供する。他の方面では、例えばフレームまたは色の相違によってショットがすでに突き止められている場合、そのショットから全部のフレームに関してショットモデルが容易にトレーニングできる。これにより、共分散が動きその他の変化により生じる差異を捕捉するので、ショットを類似性により検索できるようになる。あるショットを表現するキーフレームが、尤度距離計量を用いてそのショット平均に最も近いフレームを見つけることにより容易に見出せる。画像を表現する係数の数は極めて控え目であるので(主成分分析のフレーム当たり10個程度の特徴)、1つの代替法は、ビデオデータ自体に比べてもほとんどまったくオーバヘッドを伴うことなく、ビデオとともに特徴を記憶することである。ガウスモデルは計算が容易なので、モデルは選択的にオンザフライでトレーニングされる。これは対話型ビデオ検索のような用途を可能にし、この場合、ユーザは、時間バー上をドラッグしてビデオ領域を選択するなどして、所望のクラスを指示する。モデルはその領域の特徴について迅速にトレーニングされ、大きなビデオ資料のフレームに対応する類似性が迅速に計算される。資料における高い尤度の領域は、選択されたビデオに良好に一致する領域であり、資料の索引として機能する。
【0052】
多様なモデル結果をスレッショルド設定を用いずに示すために、最大尤度法を使用して、ラベルづけされた試験フレームを分類した。下記の表2は、30個の最大分散離散コサイン変換係数の使用による結果を示す。クラスfigは、figonwおよびfigonbの結合クラスの上位集合である。各列は試験フレームの実地検証情報ラベルであり、行は、行クラスとして認識される試験集合におけるサンプルの割合(小数分率)を示す。非ゼロの非対角線上成分は分類誤差を表す。すべてのラベルづけされたフレームは、それ自体のラベルと異なることはあっても最大尤度クラスを有するので、列の合計は1になる。
【0053】
【表2】
【0054】
図17は、本発明によって類似性を決定する方法において、類似性を決定するためのスレッショルドとして使用されるスライド画像クラス統計モデルの標準偏差の倍数の関数として、スライドとして正しく識別されたスライドフレームの割合およびスライドとして誤って識別された非スライドフレームの割合を示す。代替的な実施の形態として、類似性を決定するためのスレッショルドは一般的なものであり、例えば、他のクラスの最大尤度によって決定される。x軸は標準偏差の所定の倍数を表し、y軸はスレッショルドのその特定の選択にもとづいて類似と識別されたフレームの割合を表す。プロット1701は、実際にスライドであり、本発明の類似性評価法によって正しくスライドとして識別されたフレームの割合を示す。プロット1702は、実際にはスライドでなく、本発明の類似性評価法によって誤ってスライドとして分類されたフレームの割合を示す。
【0055】
図17は、ビデオを分類しセグメント化するためにガウスモデルがどのように使用されるかを実証している。スタッフ会議ビデオの資料による実験は、スライド、話者、聴衆といったクラスが正しく認識されることを示した。1/2秒間隔で取られたMPEG−1フレームは、復号化され、64×64グレイスケール強度下位画像に簡約化された。得られたフレーム画像は離散コサイン変換およびアダマール変換により符号化され、最大平均値を有する100個の係数が特徴として選択された。対角共分散ガウスモデルが80例のスライドフレームについてトレーニングされ、無関係の試験ビデオのスライドフレームおよびタイトルの確率を計算するために使用された。
【0056】
(共分散|Σ|1/2からの)標準偏差の倍数で尤度をスレッショルドとすることは、クラスの帰属関係を検出するうえで極めて有効であることが示されている。また、そのようなスレッショルドは、使用される係数の数からまったく独立である。図17は、スライド検出比が多様なスレッショルドにおいてどのように変化するかを示している。グラフは、スレッショルドが標準偏差の約1.1倍のとき、84%の正確なスライド認識率をもたらし、誤り認識はほとんどない(9%)ことを示している。標準偏差により正規化された場合、尤度は、それ自体で、クラスモデルに対する所与のフレームの類似性の指標として有益である。全部のクラスが同様の検出率を有するが、誤り認識の数はクラスごとに異なっている。
【0057】
単純ガウスモデルは上記のようにトレーニング画像の平均を計算するので、画像シーケンスに関係するいずれかの時間変化情報を失う。動きまたは連続といった動的な情報を捕捉するために、モデルは様々な方式で選択的に拡張される。フレーム間差異または簡約化された特徴の傾向によりモデルをトレーニングすることにより、動きまたはフェードといった時間変化効果はモデル化される。
【0058】
図18は、本発明による画像クラス統計モデルを用いたビデオフレームの類似性を判定する方法を示す。工程1801で、現在分析中のフレームに対応する特徴ベクトルが検索される。工程1802で、その画像クラス統計モデルに対応する平均特徴ベクトルが検索される。工程1803で、特徴ベクトルからの平均特徴ベクトルの減算を表現する差分ベクトルが計算される。工程1804で、差分ベクトルの大きさが画像クラス統計モデルの標準偏差の所定の倍数と比較される。差の大きさが標準偏差の所定の倍数より小さい場合、工程1805はそのフレームを類似として分類する。差の大きさが標準偏差の所定の倍数より小さくなければ、工程1806がそのフレームを非類似として分類する。図18に例示した類似性を判定する方法は、ガウスの公式による実際の確率計算を必要としないことに留意しなければならない。代わりに、差分ベクトルの大きさおよび標準偏差がユークリッド距離として計算される。差分ベクトルの大きさは、そのd個の成分の平方の和の平方根によって計算される。画像クラスの標準偏差は、対角共分散マトリックスの対角線上成分の和の平方根として計算される。
【0059】
図19は、本発明に従ってビデオの各種フレームを生成する画像クラス統計モデルの確率の対数表示を示している。対数は単調関数なので、確率の対数は、類似性の大小を判定するために確率を比較するのと同様に比較される。
【0060】
図19は、ほぼ1時間継続する試験ビデオにおけるスライド画像でトレーニングされたガウスモデルの対数尤度を示す。ビデオでスライドが実際に示された時を指示する「実地検証情報(ground truth)」は、上部付近の幅広のバーとして示されている。この対数尤度が、ビデオでスライドが示されている時の良好な指標であることは明らかである。(共分散マトリックスΣcから計算された)ある標準偏差で対数尤度をスレッショルドとすることは、個々のフレームを分類するうえで極めて効果的であることが示されている。(共分散から計算された)標準偏差の倍数で尤度をスレッショルドとすることは、クラスの帰属関係を検出するうえで極めて効果的であることが示されている。また、こうしたスレッショルドは使用される係数の数とはまったく独立である。
【0061】
いずれかの特定のフレームまたはフレームのビデオセグメントと画像クラスとの間の類似性は、本発明に従って計算される。ガウスモデルの場合、所与のフレームの類似性測度は尤度であり、対数領域にあるものに代えることができる。ガウスモデルはまた、セグメント境界として機能する所与のスレッショルドを類似性測度が超えた時にそれらのフレームを見つけることによって、ビデオをセグメント化するためにも使用できる。時間モデルが存在しない場合、最小のセグメント長を求めるというような臨時の規則によりセグメント化を改善できる。
【0062】
図20は、本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数を表示する方法を示す。工程2001で、画像クラス統計モデルによって生成されるフレームの確率がガウスの公式によって計算される。工程2002で、確率の対数が計算される。工程2003で、確率の対数が図19と同様にして表示される。工程2004において、さらにフレームが存在する場合は、2006に分岐して工程2001に戻り、それ以上フレームがない場合、工程2005で終了する。
【0063】
図21は、特徴集合の成分の数dの関数として正しく分類されたフレームの割合、それらのフレームに適用された変換のタイプおよびd成分特徴集合の選択方法を示している。図21は、離散コサイン変換およびアダマール変換の両者について、正しい分類の確度が、一般に、特徴集合が増加するにつれ変換係数の数とともに向上することを示している。トレース2101、2102および2103の下降部分は、各クラスがそうした大きな数の係数位置を有する特徴集合を判定するために十分なトレーニングフレームがトレーニング集合に存在しないことの結果である。言い換えれば、トレース2101、2102および2103の下降部分は、特徴ベクトルが由来するべきものとして合理的にモデル化されるガウス分布に倣うのではなく、トレーニングフレームの特徴ベクトルの実際のデータポイントに倣っていることを示している。分布に倣わせるためには、トレーニングフレームの数は特徴集合の変換係数の数よりも相当に多くなければならない。これは、与えられた数のトレーニングフレームを前提とする限り、特徴集合の変換係数位置を100以下とすることが、計算上の負荷を軽くするだけでなく、より大きな特徴集合よりも効果的であることを実証する。
【0064】
異なる変換方法での変換係数の数の影響を判定するために、全正確さ、すなわち、正しいカテゴリに認識されたサンプルの割合を計算した。図21はその結果を示す。離散コサイン変換およびアダマール変換の主成分に関する認識分布がほぼ同一であることを指摘できるのは興味深い。最良の成績(87%正確な)は10個の主成分を用いて得られた。主成分分析を伴わない場合、分散順位づけ離散コサイン変換係数は30をピークとするのに対し、アダマール変換は300で若干高い確度を得る。アダマール変換はしばしば、離散コサイン変換と同様に知覚的特徴を保存しないということで批判されるが、この場合には多少すぐれているように思われる。直線アダマール変換ベースの関数は、シヌソイド離散コサイン変換系よりも良好に(スライドや壁といった)画像特徴を一致させるからである。
【0065】
図22は、本発明の方法に従ってスライドに類似であると見られるビデオの領域を表示するブラウザを示している。ブラウザ2200は、スライドビデオ画像クラスに類似であると判断されるフレームより構成されるビデオ内の時間間隔を黒い垂直バーで示す時間バー2201を含む。
【0066】
ユーザがビデオ内の興味のある部分を見つけるのを助成するためにビデオ分類を使用するアプリケーションが本発明に従って開発されている。長時間のビデオがそれを全体として見ることなく所望の情報を含むかどうかを判定することは単純ではない。インテリジェントメディアブラウザは、図22に示すように、ビデオから抽出されたメタデータを利用することによってビデオに対するきめ細かいアクセスを可能にする。あるビデオに関する信頼度スコアが時間バーにグラフィカルに表示される。信頼度スコアは、ソースメディアストリームへのランダムアクセスに時間軸を使用することによりソースストリームにおける興味ある領域への貴重な糸口を付与する。例えば、スライドモデルの正規化対数尤度が図22の時間バーに表示される。高尤度(信頼度)の2つの領域が灰色または黒色領域として視覚化され、それらはビデオにおけるスライド画像に対応する。時間軸上の点または領域を選択すると、対応する時間からメディアの再生を開始する。このようにして、興味のある部分となる高い可能性の時間間隔が、信頼度表示から視覚的に識別され、線形探索を伴わずに容易に調査できる。
【0067】
図23は、本発明に従ってビデオを分類する方法において使用される隠れマルコフモデルに対応するクラス遷移図を示す。画像クラスG、AおよびBの各々はガウス分布を用いてモデル化される。同一のクラスに留まるかまたは別のクラスに遷移する遷移確率は、遷移矢印の横に示されている。
【0068】
隠れマルコフモデルは、本発明に従ってビデオセグメントの継続時間およびシーケンス(順序)を明示的にモデル化できる。単純な実施例では、2状態隠れマルコフモデルの一方の状態は所望のクラスをモデル化し、他方の状態モデルは他のすべてをモデル化する(「ガーベージ」モデル)。多状態隠れマルコフモデルは、上記のガウスモデルを用いて、それらを平行に結合し、弧に沿って遷移ペナルティを加えることによって作成される。図23は、そうしたモデルを示しており、状態Gがガーベージモデルであり、状態AおよびBが所要のビデオクラスをモデル化している。(図示されたシーケンスは、ビデオクラスが2つの個別の成分AおよびBを有し、AがBの前に生起することを示唆している。多数の他のモデルシーケンスが可能である。)ビデオに対する最大尤度を使用した隠れマルコフモデルのアライメントはバイタービアルゴリズムによって決定される。これは、サンプルと類似しているセグメントおよび類似でないセグメントへのビデオのセグメント化をもたらす。さらに、観測されたビデオを生じるいずれかの特定の状態の尤度は、いずれかの特定のフレームについて選択的に決定され、探索、順位づけまたはブラウジングにおいて活用するための有用な類似性測度を与える。
【0069】
図23は、尤度スレッショルドを有する単一のガウスモデルが長時間のビデオから類似のショットをどのようにしてセグメント化できるかを示している。多様なショットモデルを使用することにより、尤度比または最大尤度を用いて、いずれのモデルにも良好に一致しないショットを排除するスレッショルドを選択的に有する多様なショットをセグメント化できる。異なるショットは、多様な代替計量を用いてそれらのガウスモデルを比較することによって、比較照合される。
【0070】
クエリー状態の隠れマルコフモデル出力分布は、上記のガウスモデルに関してまさに説明した通り、係数特徴の単数または複数のガウスモデルとして代替的にモデル化される。選択的に、エルゴード的に(完全に)結合された複数の状態が、複数の混合ガウスモデルと同様にセグメントをモデル化するために使用される。単数または複数のガーベージモデルの出力分布もガウス分布である。そのパラメータは、ビデオデータベースから推定され、システムに記憶される。クエリーおよびガーベージ状態に留まる遷移確率は、例題データから推定されるかまたは、クエリーの長さおよびビデオにおけるクエリーの生起間の長さが変化し得るので、ユーザによって選択的に調整される。この方式の利点は、遷移確率がほとんどの隣接フレームを同一状態に拘束し、従って見かけ上のセグメント化または類似性スコアの変動を低減することである。
【0071】
隠れマルコフモデルの公式化は、複数の状態および(音声認識における言語モデルに類似の)遷移グラフを用いてビデオの傾向またはシーケンスを捕捉するために強力に拡張されている。それ故、隠れマルコフモデルは、例えば、ニュース放送の開始を特徴づける放送局のロゴからニュースキャスターのショットへの遷移をモデル化するために選択的に使用される。この例で図23について説明すれば、状態Aは放送局のロゴをモデル化し、状態Bはニュースキャスターのショットをモデル化する。隠れマルコフモデルにおける暗示的シーケンス拘束のために、これは、A−Bシーケンスにのみ一致しB−Aシーケンスには一致せず、または、AまたはBを孤立してセグメント化するのに対して、単純ガウスモデルは全部について高いスコアを生じる。
【0072】
図24は、図23に示したクラス遷移図に対応する本発明に従ったクラス遷移確率マトリックスを示している。クラス遷移確率マトリックス2400の行は以前のフレームのクラスを表し、マトリックス2400の列は現在フレームのクラスを表す。クラス遷移確率マトリックス2400の各列は、ある現在の画像クラスに関係するクラス遷移確率ベクトルである。図23に示したクラス遷移図は以降のフレームについてクラスGからクラスBへの遷移を許していないので、マトリックス2400の成分2401はゼロである。同様に、クラス遷移図2300はクラスBからクラスAへの遷移を許していないので、マトリックス2400の成分2402はゼロである。
【0073】
図25は、図23に示したクラス遷移図に従った5つの連続した初期ビデオフレームに対応する可能なクラスシーケンスの全てを示す。クラス遷移図2300はそのシーケンスがクラスGで始まるように指示しているので、最初のフレームのクラスは図25の枠2501に示されたGである。しかし、第2のフレームは、それぞれ枠2502および2503に示されたクラスGまたはクラスAのどちらか一方となる。第2のフレームが枠2503で示されたクラスAである場合、第3のフレームは、それぞれ枠2504、2405および2506に示されたクラスG、AまたはBのいずれかとなる。クラスの確率は、そのクラスについて計算された尤度、以前のクラスの確率および、そのクラスへの遷移を生じるクラス遷移確率の関数である。各状態の確率は以下の式によって与えられる。
【0074】
【数2】
【0075】
図26は、本発明によるクラス遷移確率マトリックスおよび画像クラス統計モデルによってビデオをセグメント化する方法を示している。方法は工程2601に始まる。工程2602で、可能性のある現在の状態の各々に対応する最も確からしい以前の状態が計算される。それらの計算は図25に示した例に関する上記の式を用いて行われる。工程2603で、現在のフレームの尤度が、各画像クラスに対応するガウス関数によって可能な現在の状態の各々について計算される。工程2603での計算は、例えば図12に示した方法1200の工程1204において、計算された確率と同一である。工程2604で、全部の可能な状態に対応する現在の状態の確率が工程2603および2602による結果を用いて計算される。工程2604の計算は上記の式によって実行される。工程2602の計算は、現在の状態を仮定して式2、4および6を使用する。工程2604の計算は、上記の式1、3および5を使用する。検査2605はビデオの終わりに達したかどうかを判断し、否定されれば、工程2606はプロセスを次のフレームに進める。それが最後のフレームであれば、工程2605は処理を工程2606に渡し、そこでその最終状態が最大の全確率を有する状態として選択される。最終状態が選択された後、最も確からしい以前の状態が、上記の式2、4および6の以前の評価に従って選択される。言い換えれば、最終状態が既知であれば、以前の状態の全ては、工程2602ですでに行われた計算によって自明になる。工程2608で、さらにフレームが存在するかどうかが判定され、肯定されれば、工程2609はその以前のフレームを工程2607に渡し、工程2602ですでに計算された結果に従って次の以前の状態とのリンクの決定がなされる。第1のフレームが分類されると、処理は工程2610で終了する。
【0076】
隠れマルコフモデルの場合、セグメント化は、最大尤度状態シーケンスを見つけるためのバイタービアルゴリズムによって行われる。これは、特定の状態または状態の群とアライメントされた全部のフレームがセグメントとしてみなされるので、最大尤度セグメント化を直接与える。隠れマルコフモデルの構造は、アライメントが(従来行われていたように局所的にではなく)ビデオ全体について計算されるので、このタスクに特に適している。このモデルに内在するシーケンスおよび継続時間の拘束は、他の方式の分類誤りによって生じ得る単一フレームセグメントといった誤りを効果的に禁止する。所与のフレームとクエリーとの間の類似性は、バイタービアルゴリズムにおいて、単数または複数のクエリー状態の事後確率として計算される。類似性測度が与えられと、ビデオのあらゆる集合は、クエリーセグメントとの類似性によってセグメント化および/または順位づけられる。これは、ビデオの大きな資料からの類似性による内容にもとづく検索を可能にする。
【0077】
上述のように単純ガウスモデルはトレーニングフレームの平均を計算するので、ビデオシーケンスに関係する何らかの時間変化情報を失う。動的なシーケンス情報を捕捉するために、モデルは多様な方法で選択的に拡張される。フレーム間の差異または簡約化された特徴の傾向でモデルをトレーニングすることによって、動きまたはファクシミリといった時間変化効果はモデル化される。ビデオシーケンス間の類似性を見つけるために、2つのシーケンスのフレームのフレームごとの内積を合算することにより相関スコアが計算される。類似なシーケンスは大きな相関を有する。異なる長さの2つのシーケンス間の最良の一致を見つけるために動的プログラミングが選択的に使用される。本発明による動的事象を捕捉するすぐれた技法は、特徴出力確率をモデル化するためにガウス混合を用い、特に音声認識用に開発された効率的なトレーニングおよび認識アルゴリズムが与えられた、隠れマルコフモデルである。
【0078】
ここで行った実験は、変換係数の統計モデルが低い誤差率でビデオフレームを迅速に分類することを実証している。この方式の計算の単純さおよび少ない記憶要求量は、本発明による対話型ビデオ検索といった用途を可能にする。
【0079】
特定のビデオセグメントについてビデオデータベースを探索する際に、所望のビデオセグメントのタイプの記述を与えるよりも、例題を与えることによってクエリーを指定するほうが容易であることが多い。例えば、話を聞いている一群の人々を示すビデオのセグメントが望まれる場合、探索クエリーとしてシステムに群衆セグメントを単純に呈示することはより容易である。これは、選択されたセグメントに類似であるセグメントについて単一のビデオを探索する際に特に当てはまる。類似性による検索は、ユーザにとって容易であることに加え、実例からクエリーの良好なモデルを作成することが容易であるので、より正確であることが多い。
【0080】
自動ビデオ分類は、ブラウジング、自動セグメント化および内容にもとづく検索といった広範な用途に有用である。自動分類を用いたアプリケーションは、特定の話者を示すビデオを検索するか、または、ビデオの再生中にその話者のいる領域を強調表示させるなどによって、ディジタル化ビデオをブラウジングおよび検索するうえでユーザを支援することができる。自動生成注釈は、ビデオテープ録画された会議から重要な情報を検索する際にユーザを支援することができる。このようなツールは、ユーザが、特定のビデオおよびそのビデオ内の対象となる領域の両方を突き止めなければならない場合に、ビデオの大きな集合を取り扱うのを助けることができる。こうしたあらゆる用途にとって、ビデオのトレーニング用集合は異なるビデオおよびオーディオクラスに従ってラベルづけされ、統計モデルはそのラベルづけされたセグメントでトレーニングされる。
【0081】
本発明は、ビデオの類似性の統計的測度および、その類似性測度を使用して再生中にビデオの案内を助成するアプリケーションを含む。本発明によれば、類似性マッチングに使用されるビデオの領域を選択するための2つの異なるユーザインタフェースが開示される。
【0082】
ブラウザは、ビデオ領域を選択し類似領域を自動的に見つけることによってユーザにビデオの構造を探索させるように設計されている。例えば、ニュース放送を見る場合、ユーザはニュースキャスターのショットを含む領域を選択する。システムはその後、類似の領域を自動的に検出し、それらをグラフィカルに表示しかつ自動索引点として示し、それによりユーザは、例えば、介在箇所を見ることなく次の類似領域に直接跳ぶことが可能になる。これらの索引は、以後のユーザのために保存し注釈を付けることができる。類似性索引は対話的にかつ極めて迅速に作成できる。
【0083】
図27は、本発明に従って類似性探索を実行する方法におけるデータの流れを示している。ソースビデオ2701は、トレーニングセグメントが抽出されるビデオを表す。変換特徴2702は、図2において変換特徴208がビデオファイル201から抽出されたのと同様にして、ソースビデオ2701から抽出される。工程2703は、トレーニングフレームの収集のためのトレーニング領域のユーザ選択を示している。工程2704で、ガウス画像クラス統計モデルが、平均特徴ベクトルおよび対角共分散マトリックスを比較することによりトレーニングされる。ビデオ2705は、類似性の探索のためのターゲットとされたビデオを表す。同様に、変換特徴2706が抽出される。工程2707において尤度計算が、工程2704でトレーニングされた画像クラス統計モデルを用いて行われ、得られた確率が工程2708でフレームごとに出力される。
【0084】
図27は、システムが実際にどのように使用されるかのブロック図を示す。ユーザは最初に単数または複数のビデオセグメントを選択することによりクエリーを実行する。クエリーの簡約化された離散コサイン変換またはアダマール変換係数が、オンザフライでの計算またはデータベースにルックアップのどちらか一方によって得られる。クエリーのモデルはその後これらの係数を用いてトレーニングされる。単純な場合、単純ガウスモデルが使用される。データベース内のビデオの簡約化された離散コサイン変換またはアダマール変換係数はシステムに提示され、尤度計算が実行される。これは、一連の類似性スコアおよび、類似および非類似セグメントへのセグメント化を生じる。類似性スコアはその後ブラウザに表示され、ユーザが類似のビデオセグメントを調査できるようにする。
【0085】
類似性計算のデータは、図2の説明において前述したものと同様にして離散コサイン変換またはアダマール変換のどちらか一方によって得られる。この表現は、類似画像のフレームが類似の特徴を有するので、類似性を測定するために適切である。
【0086】
変換法にもとづく類似性測度は、従来のカラーヒストグラム方式よりも多くの用途に関してすぐれている。特に、変換係数は、形状についてほとんど変化がないヒストグラムと異なり、画像における主要な形状およびテクスチャを表現する。例えば、左上および右下に同一物体がある2つの画像は、ヒストグラムでの相違はごくわずかであるが、本発明による変換ドメインにおいては顕著に異なる。現在の類似性測度は輝度だけにもとづいているが、後述の通り、この技法を色を使用するように拡張することは容易なはずである。
【0087】
この変換法により可能なセグメント化およびモデル化の種類が比較的粗いことを指摘することは重要である。例えば、ニュース放送においてニュースキャスターとロケーションのショットとを識別することは単純であるが、特定のニュースキャスターを識別するといった、より精緻な区別はさらに特殊化されたデータ簡約化またはドメイン特定モデルを必要とするであろう。しかし、これらの技法は、例えば、群衆または自然のシーンを排除しつつ計算上高価な顔面識別アルゴリズムにより、以後の分析のために適切なクローズアップシーンを選択するといった、より精巧な方法の重要なフロントエンドまたはプレクラシファイヤとして代替的に機能する。
【0088】
図28は、本発明に従ってビデオに対応する特徴ベクトルデータベースを計算する方法を示している。迅速な尤度計算および画像クラス統計モデルの迅速なトレーニングを助成するために、ビデオのフレームに対応する特徴ベクトルを予備計算し、それを特徴データベースに記憶することが望ましい。工程2801で、フレームが離散コサイン変換またはアダマール変換によって変換される。工程2802で、変換係数マトリックスから特徴ベクトルが抽出される。工程2803で、特徴ベクトルが特徴ベクトルデータベースに記憶される。検査2804では、さらにフレームがあれば、次のフレームが工程2801に渡され、それ以上フレームがなければ、方法は工程2805で終了する。
【0089】
ビデオ領域間の類似性を評価するために、ビデオフレームの類似性が開示される。各フレームは、離散コサイン変換またはアダマール変換といった正規直交射影によって変換される。変換が、下位ブロックではなく画像全体について行われた場合、係数は画像を正確に表現する。変換されたデータはその後、上述のように切り捨て、主成分分析または線形識別解析などのいずれかの技法によって簡約化される。ここに提示した用途の場合、最大分散係数以外の全部を破棄することが良好に作用する。その簡約化表現は、高度にコンパクトであり、元のフレームの顕著な情報を保存している。これは、元の画像を復元することを意図する、データ圧縮とは異なることに留意されたい。元のデータは表示および使用に利用可能であると前提されているので、変換プロセスを逆にする必要はまったくない。従って、この変換法は、コンパクト性または画像忠実度よりも分析のために最適化されている。
【0090】
結果として得られるのは、各フレームのコンパクトな特徴ベクトルまたは簡約化された係数(10〜30パラメータ)である。この表現は、類似のフレームは類似の変換係数を有するので、ビデオの類似性を数量化するために適切である。特定のショットと隣接するフレームといった類似画像の集合をモデル化するために、ガウスモデルが例題フレームでトレーニングされる。ガウスの平均は例題フレームの平均を捕捉し、共分散は動きまたは照明の相違による変動をモデル化する。単一混合ガウスは、例題データに関して1パスで極めて迅速に選択的に計算され、例題フレームのおおよその構成および可変性をモデル化する。
【0091】
多くの用途にとって、完全なビデオフレームレートは必要なく、フレームは、毎秒数フレームだけを変換する必要があるような時間で間引かれる。こうした要因は、記憶コストが実際上無視でき、係数が計算されれば計算時間は極めて迅速であることを意味する。従って、リアルタイムアプリケーションに使用される戦略は、簡約化された係数を予備計算し、それらをビデオとともに記憶し、対話的かつ迅速な類似性測定を可能にすることである。MPEG−7といった将来のフォーマットはそうしたメタデータをビデオデータとともに含めることを可能にするが、現在好ましい実施の形態による用途では、係数は個別のファイルに記憶される。
【0092】
図29は、本発明に従って統計モデルを対話的にトレーニングする方法を示す。工程2901で、トレーニングフレームまたはトレーニングセグメントがユーザにより対話的に選択される。工程2902で、工程2901で選択されたトレーニングフレームまたはセグメントに対応する特徴ベクトルが、直接の計算または特徴ベクトルデータベースのルックアップのどちらか一方によって得られる。工程2903で、トレーニングフレームに対応する特徴ベクトルから平均特徴ベクトルおよび対角共分散マトリックスを計算することによって、画像クラス統計モデルが構築される。
【0093】
変換ドメインの1つの利点は、フレームを表現する特徴ベクトルの大きさが極めて控え目である(PCA特徴についてフレーム当たり10程度)ということである。クエリービデオトレーニングセグメントは、平均ベクトルおよび共分散マトリックスによってパラメータ化された多次元ガウス分布によりモデル化される。実際、特徴間のゼロ相関が前提とされるように対角共分散マトリックスを仮定することは普通であり、各特徴はガウス分布を有する独立のランダム変数であると仮定される。対角共分散マトリックス(すなわち非対角線上の成分がゼロである)は、モデルが高次元で頑強性を持つ(ロバスト)であるように仮定されている。ガウスモデルを用いてクラスをモデル化するために、トレーニング画像の集合について平均および共分散が計算される。クエリートレーニングセグメントは、平均ベクトルおよび共分散マトリックスを計算するために使用される。類似性スコアは、ビデオの各フレームについて、クエリー画像クラス統計モデルからフレームの尤度を計算することによって計算される。代替的に、より精巧なモデルは、ガウス混合を使用し、期待値最大化アルゴリズムを利用して、複数のパラメータおよび混合重み、それにより、複数のガウスモデルの各々に関係する複数の平均、分散および重み係数を評価する。しかしこれは、反復を要する。そうしたわけで、オンザフライで迅速に計算される単一混合ガウスモデルが仮定されている。
【0094】
フレームの係数に平均値を設定し、分散を定数等の値に設定することによって、またはいずれかのトレーニング集合から得られた分散を使用することによって、ガウスモデルを生成するために単一フレームクエリーが選択的に使用されることに留意されたい。他のフレームまたは静止画像はその後、類似性についてスコアが付けられる。定数の分散はユークリッド距離計量を生じ、トレーニング分散はマハロノビシュ(mahalonobis)距離を生じる。従って、類似の静止フレームまたは画像は、それらを距離測度によって順位づけることによって集合から検索される。本発明によるこのシステムの別の変種は、ただ1個の画像をクエリーとして使用する従来の画像検索システムではなく、画像の群またはクラスでクエリーモデルがトレーニングされた場合である。
【0095】
一度計算されると、任意のビデオフレームの類似性は、モデルがフレームを生成する尤度によって決定される。類似フレームは高い尤度を生じる。この方式は、会議ビデオの大きな資料での話者およびスライドといった所定のビデオクラスについて約90%の分類率をもたらしている。ガウスモデルは、動きまたは照明の相違による変動をモデル化しつつ、画像クラスの特徴的な構成および形状を捕捉することができる。特徴ベクトルが計算されると、多数の用途が使用可能である。最も単純なものの1つは直接的な距離測度である。類似フレームは類似の特徴ベクトルを生じるので、特徴ベクトル間の距離を測定することにより画像距離の指標が得られる。
【0096】
図30は、本発明に従ってブラウザ内にビデオフレームを呈示し、類似性測度を表示する方法を示す。工程3001でフレームの特徴ベクトルが検索される。工程3002で、画像クラス統計モデルによって生成される特徴ベクトルの確率が計算される。工程3003で、その確率がスレッショルドより大きいか否かが判定される。スレッショルドはやはりユーザによって対話的に定義される。工程3002で計算された尤度がスレッショルドより大きければ、工程3004はそのフレームを類似として索引づける。尤度がスレッショルドより小さければ、そのフレームを工程3005で非類似として索引づける。工程3006で、類似または非類似の類似性属性はそのフレームについてブラウザにグラフィカルに表示される。
【0097】
いずれかの特定のフレームまたはビデオセグメントとクエリーセグメントとの間の類似性が計算される。ガウスモデルの場合、所与のフレームの類似性は尤度であり、代替的に対数ドメインに存在する。ガウスモデルはまた、セグメント境界として機能する、また、所与のスレッショルドを類似性が超えた場合に、それらのフレームを見つけることによってビデオをセグメント化するためにも使用される。継続時間モデルが存在しない場合、最小セグメント長を要求するような臨時の規則がセグメント化を改善させることができる。
【0098】
図31は、本発明に従って、対話的に定義されたトレーニングビデオセグメント、そのトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換、およびトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。フレーム3101はユーザによって対話的に定義されたトレーニング画像を表す。フレーム3102は、フレーム3101に示すトレーニング画像から得られた平均特徴ベクトルの逆離散コサイン変換を表す。フレーム3103は、フレーム3101に示すトレーニング画像から得られた平均特徴ベクトルに対応する逆アダマール変換を表す。
【0099】
ビデオ類似の領域を突き止める本発明に従った方法は既述の通りである。類似性測度を用いるビデオブラウザを提供する、直接的なアプリケーションを以下に述べる。図32は、1つのブラウザのプロトタイプのユーザインタフェースを示す。左上に通常のビデオ再生ウィンドウおよびコントロールがある。右側中ほどには、下部の時間バーに表示させる類似性スコアを選択するメニューコントロールがある。類似性スコアは、ビデオスライダバーと時間同期的に表示される。暗色領域は類似性の高い区間であり、濃くなるほど類似である。図は、表示されたフレームにあるように、暗い背景を背に中央にいる話者の中間クローズショットの類似性を示している。類似ショットの位置および程度は時間ラインの黒色バーで直接明らかとなる。
【0100】
右側中ほどのスレッショルドスライダは、類似性スコアから索引点をどのように導き出すかを制御する。索引点は、時間バーの暗色(類似)領域の上部領域のやや明るいバーとして示されている。(この場合、これは主にB/W再現のためであり、索引点は類似性がスレッショルドを超えた時点に決定される。)時間バーの下の「|<<」および「>>|」のラベルが付けられたボタンは、再生点を次の索引点または前の索引点に自動的に進める。大きな類似性変動(多数の索引点)の領域では、ユーザは、スレッショルドを大きくすることによって最も重要な指標を選択できる。類似性が少ない領域では、ユーザは、スレッショルドを引き下げても索引点を見つけることができるが、信頼性が下がる。
【0101】
図32は、本発明による、トレーニングビデオセグメントを対話的に定義し類似性測度を表示するための時間バーおよびユーザスレッショルドマウス入力を受け取るためのスレッショルドスライダバーを備えるブラウザを示している。時間バー3201は、類似であるとみられるビデオのセグメントを縦の黒色バーとして示す。スレッショルドスライダバー3202は、類似性の検出に必要な確率スレッショルドを指定するためのユーザのマウス入力を受け取る。時間バー3201は、例えばトレーニングセグメント指定についてクリック・ドラッグ操作によってユーザトレーニングマウス入力を受け取るように動作可能である。
【0102】
図33は、ビデオの領域内のフレームを表示するためのスクロール可能ウィンドウ3301をさらに追加した図32のブラウザを示す。詳細には、メインブラウザウィンドウに表示され、時間バースライダ3303の位置によって指示されるフレーム3302およびその前後のフレームが、スクロール可能ウィンドウ3301に表示される。
【0103】
このウェブ(Web)ベースのインタフェースは、極めて良好な概観を提供し、ビデオ全体の各種クラスをラベルづけるためのすぐれた選択となる一方で、ビデオ再生中の迅速な類似性探索のために特殊に仕上げられている。従って、水平スクロール可能ウィンドウ(図33の下部参照)に周期的にサンプリングされた類似の静止画像を示す追加表示が、本発明に従って選択的に含まれる。再生中、ウィンドウは、再生ウィンドウと同期して留まるように自動的にスクロールする。時間的脈絡は、再生ウィンドウに示されたフレームに最も近い静止画像をスクロール可能ウィンドウの中央に置くことによって示される。ビデオが停止されると、静止画像は誘導案内用に使用される。関心のある領域にスクロールさせ、その静止画像上でダブルクリックすると、ビデオが対応する時間のビデオに位置づけられる。
【0104】
類似性探索の区間は静止画像上でマウスをドラッグすることによって選択される。選択された領域は、スクロール可能ウィンドウおよび時間バーの下部の両方に明緑色バーにより指示される。ビデオの小さな部分だけがスクロール可能ウィンドウの時間範囲内に表示されるので、示される選択領域はもっと大きなものである。図33で、スクロール可能ウィンドウに表示された選択領域は、スライダの爪のすぐ下のごく小さな領域に対応する。さらに、あらゆる時間依存媒体の場合と同様、ビデオに伴う問題は、何が選択されたのかが再生してみなければ必ずしも明白にならないということである。
【0105】
類似性索引を作成するためには、最初に例題ビデオを選択しなければならない。1つのインタフェース方法は、ビデオの領域を選択するために図32および図33の時間バーで単純にクリック・ドラッグすることである。あらゆる時間依存媒体の場合と同様、ビデオに伴う問題は、何が選択されたのかが再生してみなければ必ずしも明白にならないということである。前述の類似性測度の場合、最良の結果は、ソースビデオが、例えば同一のショットに由来するといったように、合理的に類似である場合に得られる。クリック・ドラッグ選択は、テキストの場合には効果的であるが、時としてユーザがほとんど気づかずに不要なビデオが選択される結果をもたらす。また、非接触選択も代替的に有効である。
【0106】
図34は、1個以上のトレーニングビデオセグメントの終点を対話的に選択し、周期的フレームの類似性測度を表示するためにビデオの周期的フレームを表示するウェブベースのインタフェースを示す。ビデオ全体は最初に、図34に示されたように表示される周期的フレームに分割される。各周期的フレームは、ユーザがその周期的フレームを選択し、それをフレームセグメントに包含させるようにするチェックボックスを備える。隣接する周期的フレームがチェックされると、その2つのチェックされた周期的フレーム間の後続のビデオの全部の非表示フレームは、トレーニングセグメントの一部となる。例えば、周期的フレーム3401と周期的フレーム3402との間のビデオの全部のフレームはトレーニングセグメントに含まれる。ビデオの類似性探索が行われると、周期的フレームに対応する類似性情報は、周期的フレームの周囲の矩形ボックスの陰影として選択的に表示される。
【0107】
図34は、選択された領域の視覚化と同時に非接触選択のサポートを可能にするビデオ領域選択用のウェブベースのアプリケーションを示している。このアプリケーションでは、ビデオは、通常の区間で切り取られた一連のキーフレームとして表される。図34は、選択された領域の視覚化と同時に非接触選択のサポートを可能にするビデオ領域選択用のウェブベースのアプリケーションを示している。このアプリケーションでは、ビデオは、通常の区間として切り取られた一連のキーフレームとして表され、それらのビデオにおける時間(秒単位)とともに示される。ビデオ録画プレゼンテーションの場合には5秒間隔が適切であるが、他の用途ではそれより速いかまたは遅いレートも選択的に好適である。ユーザは、各フレームの下のチェックボックスをクリックすることによって複数のキーフレームを選択する。隣接して選択されたキーフレーム間のビデオの全フレームについてモデルがトレーニングされる。このインタフェースは、終点を精確に位置決め可能とし、選択されたビデオ内容を明示的に表示するという理由で、クリック・ドラッグよりもある点ですぐれている。また図34は、非接触選択が複数の区間を次々と選択することにより可能であることも示している。このインタフェースは、簡潔な表示により、ユーザが一目で関心のある領域を見つけられるようにする。通常サイズのウェブブラウザでは、10分のビデオに対応する120個の画像がウィンドウに示され、残りのビデオもスクロールによって容易にアクセス可能である。インタフェースは、様々なクラスの画像への様々なラベルの割り当てもサポートする。以前に割り当てられたラベルは表示ではカラーコード化される。選択されたビデオの類似性は、ほぼ即時的に計算され、図32および図33のブラウザに表示されるか、または、スレッショルドで切られ、図34のように各フレームの周囲に異なる色でウェブインタフェースに表示される。
【0108】
図35は、本発明に従って離散コサイン変換およびアダマール変換係数によって計算されたビデオの類似性マトリックスを示す。距離計量の利用を示すために、全部のフレーム間の類似性を計算し、結果のマトリックスを画像として表示することにより、ビデオの自己類似性を視覚化することができる。図35は、スタッフ会議のビデオの距離マトリックスを示す。位置(i,j)の各画素は、類似フレームであればあるほど色濃くなるように、フレームiとフレームjとの間の距離に比例して着色されている。各軸の単位は秒単位での時間であり、各点は、最高分散を有する100個の離散コサイン変換およびアダマール変換係数間のユークリッド距離に比例して着色されている。アダマール変換ドメインに関して従来しばしばなされた批判は、知覚的相違と良好に相関しないということである。アダマール変換は一般にクラスタ化およびモデル化について同様に良好に作用するが、距離がアダマール変換および離散コサイン変換の両方の表現に関して極めて類似であることを指摘しておくことは興味深い。i=jにおける黒色直交線は、フレームがそれら自身と同一であることを指示する。いくつかの特徴が目につき、後続部分と類似でないビデオの始まりの導入期間が存在し、それは約500秒続くことが容易にわかる。
【0109】
右下隅の4個の濃色の正方形は、スライドプレゼンテーションの2つのロングショットに由来する。個々のスライドの変化はその中に見ることができるが、それらは聴衆または話者のカットよりも小さい大きさののものである。これらのスライドは、約550秒に開始する別のスライドプレゼンテーションとも極めて類似であり、同じく自己類似である聴衆のショットとインターカットし、「チェッカーボード」パターンを生じる。またスライドは、1600秒および1900秒のコンピュータデスクトップのショットともある程度類似であり、それらの領域を濃色に見せているが、他のスライド領域ほど濃くはない。これらのマトリックスは全体的に直観的ではなく、いずれかの特定の時間に得られる「スライス」は、ビデオの残部に対するその時間におけるそのフレームの類似性を示している。図32および図33の時間バーとして提示されると、これは、単一のフレームが類似のビデオ領域を見つけるためにどのように使用されるかを示すが、ガウスモデルは、分散をモデル化できるためによりロバストである傾向がある。
【0110】
本発明はまた、カラー情報にもとづき1個以上の付加的なシグネーチャを計算することによって、カラー検索を行うための改良を含む。これは、特徴ベクトルによって表現される現行の輝度(Y)シグネーチャに付加するために画像の色成分(YUV色空間におけるUV成分)に関する付加的な特徴シグネーチャを計算することによって実現される。色成分は少ない空間解像度を要するので、それらは少ないシグネーチャで表現される。本質的に、フレームの色成分の変換からの変換係数位置が選択され、特徴ベクトルに追加され、それにより、特徴ベクトルは同一カラーフレームから得られた輝度フレームおよび色フレームの両方の変換からの係数を含む。
【0111】
別の代替法によれば、YUBまたはRGBの各カラー成分は個別の画像フレームとして扱われる。従って、各フレームに対して3つの変換が適用され、シグネーチャ(特徴ベクトル)は各個別画像について計算されて比較される。これは、類似性計量における全カラーによる重みづけを可能にする。カラー情報の包含のための本発明に従ったさらに別の代替法は、この検索技法と別の、例えばカラーヒストグラムにもとづく技法との組合せである。初期の類似性工程において、画像は輝度特徴ベクトルによって類似性がわかる。その画像を領域に分解し、各領域についてカラーヒストグラムを計算することによって、画像における空間情報の一部が保存される。最終類似性工程では、初期類似性工程から得られた最上位画像が、カラーヒストグラム類似性評価法または他の類似性評価法によって類似性について再度スコアが付けられる。
【0112】
カラーは、多くの種類のビデオ画像にとって、例えばコンピュータプレゼンテーションがスライドの背景色だけで識別できる場合が多いスタッフ会議のビデオにおいて、有効な糸口である。また、動きまたは時間シーケンスのモデル化も多くの用途で極めて有用であり、より強力な統計モデルがそれを可能にする。
【0113】
ガウスモデルは多くの用途にとって有効であるが、区間内の全部の変化が平均化されるという短所を有する。時間的シーケンスまたは継続時間を捕捉することが重要である場合、隠れマルコフモデルが代替的に使用される。隠れマルコフモデルの出力分布は、まさしく前述の通り、特徴ベクトル上の単数または複数のガウスモデルとしてモデル化される。隠れマルコフモデルの利点は、各状態が暗示的または明示的な継続時間モデルを有することである。これは、(過度に長いまたは短い)ありそうにもない継続時間のショットにペナルティーを科す因子を尤度計算に加える。これは、継続時間モデルが同一状態と最も隣接するフレームを拘束し、従って擬似的なショット境界を低減するので、単純な最大尤度フレーム分類よりも有効である。
【0114】
隠れマルコフモデルでの公式化は、複数の状態および(音声認識における言語モデルに類似の)遷移グラフを用いてビデオの傾向またはシーケンスを捕捉するために選択的に強力に拡張される。従って、隠れマルコフモデルは、例えば、ニュース放送の開始を特徴づける放送局のロゴからニュースキャスターのショットへの遷移をモデル化するために選択的に使用される。隠れマルコフモデルに内在するシーケンス拘束のために、これは、放送の終了時に多く生じるニュースキャスターのショットから放送局のロゴへの遷移には一致しないが、単純ガウスモデルは両者の場合について高いスコアを生じる。
【0115】
また、元の特徴ベクトルのフレーム間差異として計算される差分表現も有用である。パーセヴァルの関係によって、各ベクトルのノルムは、画素の差のノルムに(ほぼ)比例する。従って、カットまたはカメラの移動によって生じた大きなフレーム間差異は、差分ベクトルのノルムを計算することによって容易に検出される。あるいはまた、それらは、動きを捕捉する追加の特徴を形成するために元の特徴ベクトルと連結される。
【0116】
本発明に従った類似性探索の方法は、類似のビデオ領域を見つける迅速かつ強力な手段を記述する。ユーザが例題ビデオを用いてクエリーを指定できるようにすることは、テキストベースまたはスケッチベースのインタフェースを凌ぐ進歩である。この技法は、大きなビデオコレクションに、さらにカラーまたは時間的類似性の測度に容易に拡張される。
【0117】
週毎のスタッフ会議が、複数のビデオカメラおよびマイクロフォンが装備された会議室で開かれることもある。会議は、経営陣およびスタッフによる全体発表に始まり、その後個々の職員によるプレゼンテーションに進む。プレゼンテーションは通常1人によって行われ、オーバヘッドプロジェクタまたはコンピュータによるスライドといったグラフィックスを含み、一般に会議では1つ以上のプレゼンテーションが行われる。カメラ担当者は、部屋のカメラを切換え、ビデオ録画のショットを提示する。ビデオはMPEG符号化され、社内イントラネットによってスタッフに利用可能となる。
【0118】
図36は、本発明に従ったオーディオ・ビジュアル記録物をセグメント化する方法に対応するデータの流れを示す。ソースビデオ3601は工程3602でスライド領域を見つけるために分析される。ソースビデオ3601のオーディオチャネルは、スライド区間に対応するソースビデオ3601の領域について工程3603で抽出される。工程3603で抽出されたオーディオ区間は、話者ごとに工程3604でクラスタ化される。すなわち、オーディオ区間は、相互に比較照合され、それらのソースに従って分類される。得られたオーディオ区間のクラスタは、各々が単一話者に由来するものとみなされる。同一話者クラスタのオーディオ区間は工程3605で併合される。工程3606で、ソース特定話者モデルが各併合オーディオ区間についてトレーニングされる。工程3607で、ソースビデオ3601のオーディオチャネルは、話者認識によって話者ごとにセグメント化される。オーディオチャネルによるセグメント化の結果は、以後のブラウジングおよびソース特定検索操作のためにソースビデオ3601およびソースオーディオ3608において索引づけられる。
【0119】
図37は、2人の話者による2つのプレゼンテーションを有する記録された会議のスライドであるオーディオ・ビジュアル記録物のフレームの確率の対数を示す。話者Aのプレゼンテーションの範囲を示すラベル3701は、ビデオを見ている人間のユーザにより得られた話者Aのプレゼンテーションの実際に観測された継続時間である。同様に、話者Bの指標3702は話者Bのプレゼンテーションの全範囲を示す。
【0120】
各フレームのコンパクトな特徴ベクトル(簡約化された係数)が上述の通り計算される。対角共分散ガウスモデルは、いくつかの無関係な会議ビデオからのスライド画像でトレーニングされている。このモデルは、各ビデオフレームに関する尤度を生成するために使用され、それはそのフレームがスライドであるという対数尤度を測定する。1個の標準偏差をスレッショルドとした場合、そのビデオにおいてスライドが表示された時点の確実な評価値を生じる。下記の表3に示すように、スライドは94%の確度でプレゼンテーションと関係づけられた。20秒以上の長さのスライド区間がシステムの候補スピーチ区間として使用される。図37は、スタッフ会議のスライドの対数尤度のプロットを示している。20秒以上の長さの上記のスレッショルド(点線)である判定基準を満たす4個の区間が存在し、それらは1、2、3および4のラベルが付けられている。この特定の会議において、それぞれAおよびBのラベルが付けられた2人の話者により行われた2つのプレゼンテーションが存在した。各プレゼンテーションの範囲は図37の上部に示されており、それはセグメント化実験に関する実地検証情報として機能する。話者Bのプレゼンテーションは、スライドが表示された期間の2倍以上続けられたことに留意されたい。
【0121】
【表3】
【0122】
図38は、図36に示した工程3604および3605に示したような本発明に従ったオーディオ区間に適用されるクラスタ化方法におけるデータの流れを示す。オーディオ区間3801〜3804は、図36に示したソースオーディオ3608から抽出された、図37で1、2、3および4のラベルが付けられた4個のオーディオ区間を表している。オーディオ区間3801〜3804はオーディオベクトル3805〜3808にパラメータ化される。クラスタ化法3809がオーディオベクトル3805〜3808に適用され、相互に小さいユークリッド距離を有するオーディオベクトルに集塊させる。クラスタ化法3809の結果は、それぞれ話者AおよびBに対応するオーディオ区間3810およびオーディオ区間3811と併合される。
【0123】
ある話者の口から数センチメートル以上離れたファーフィールドマイクロフォンによって話者識別を行うことは特に困難である。記録された会議でのオーディオは演壇マイクロフォンまたは他のクローズトーキングマイクロフォンではなく複数の天井マイクロフォンから得られるので、話者識別は特に困難になる。実際にあらゆる話者識別技法は、特定の話者を特徴づけるためにメル周波数ケプストラル係数(mel−frequency cepstral coefficient)といった何らかの種類のオーディオスペクトル測度を使用する。あらゆる現実的環境におけるファーフィールドマイクロフォンは、直接的に、また、壁、床、机といった環境配置によって反射された音声を拾ってしまう。こうしたマルチパス反射は、音声の周波数スペクトルを著しく変更するくし形フィルタ効果をもたらす。この問題は、(遠隔会議システムにおいて普通に行われているように)複数のマイクロフォンからの信号を混合することによってさらに悪化する。部屋の共鳴による付加的な効果も各マイクロフォンの周波数応答に影響する。共鳴およびくし形フィルタ効果はともに、室内の話者の位置により著しくかつ予測不可能に変化する。これは、トレーニングスピーチのサンプルを使用して話者モデルをトレーニングする現在の話者識別法を、ファーフィールドマイクロフォン環境にとって特に不適にさせる。音響環境によるスペクトル変化はしばしば、話者間のスペクトル差異とほとんど同じ程度の大きさである。
【0124】
予測できない室内音響によるトレーニングデータと試験データとの間の不可避的な不一致を回避するために、本システムは本質的に、単一話者によって発せられたと思えるセグメントを抽出することによって試験データからトレーニングデータを取得する。現在の実施の形態において、これは、単一話者のスピーチがスライドといったプレゼンテーション視覚物の表示と相関していると仮定することによって行われる。(仮定されたスタッフ会議の領域分野では、この仮定は、完全にではないが通常は、所与のスライド区間において質問、笑声または他の感嘆が頻繁に存在するので、正確である。)
【0125】
単純な顔面またはニュースキャスター検出といった他のビデオ分析は同様に使用される。本発明に従った代替法として、顔面認識は、ビデオ区間を特定の話者と関係づけるために使用されるオーディオクラスタ化を強化または代替できる。
【0126】
次の工程は、何人の話者がスライドプレゼンテーションを行ったかを判定するために候補区間をクラスタ化することである。これは、任意の数のクラスタ化技法のいずれかによって行えるが、現在の実施の形態の場合、オーディオ類似性の極めて単純な測度が使用される。各オーディオ区間はメル周波数ケプストラル係数にパラメータ化され、各区間の係数の平均が比較照合される。ユークリッド距離測度および、最大距離の1/2をスレッショルドとする集塊クラスタ化法によって、各話者候補に関する個別のクラスタが得られる。クラスタ化スレッショルドは、いずれかの既存のクラスタに十分に類似でない区間を排除する。例えば、あるスライドに関するクエリーがなされる場合、得られる区間はほとんど、多数の異なる話者からのスピーチを含む。より精緻な距離およびクラスタ化法、例えば、ノンパラメトリック類似性測度、尤度比距離および/または可変スレッショルドクラスタ化といった方法が選択的に使用される。隣接セグメントのクラスタ化を助成するために距離測度にバイアスをかけるといった付加的な拘束または、話者の数に関する事前の知識を使用することにより、選択的にクラスタ化を改善させることもできる。前述の通り、自動顔面認識は音響クラスタ化を代替的に強化または代替できる。
【0127】
図39は、本発明に従った一連の話者単位より構成される話者遷移モデルを示す。フィラーモデル3901、3903および3903は、例えばビデオの非単一話者セグメントでトレーニングされるオーディオモデルを表す。話者モデル3904は、図38に示した併合オーディオ区間3810でトレーニングされる話者モデルを表す。話者モデル3905は、図38に示した併合オーディオ区間3811でトレーニングされるモデルを表す。話者単位3806および3907は、セグメント化における話者シーケンスの知識によってソースオーディオ3608をセグメント化するために図36に示す工程3607で使用される隠れマルコフモデルを形成するために連結される。
【0128】
クラスタ化の結果から、プレゼンテーションを行う話者の数および彼らが話す順番が決定される。これは隠れマルコフモデルを用いてビデオをセグメント化できるようにする。さらに、クラスタ化されたオーディオセグメントは各話者モデルをトレーニングするために使用される。クラスタ化の結果から、ビデオの時間範囲をモデル化するために隠れマルコフモデルが自動的に構築される。図39はモデルの構造を示している。「フィラー」モデルは、発表者の話以外とみなされるオーディオを表す。この実施の形態では、フィラーモデルは、ソースビデオの最初の2分間からのオーディオと同様、他の会議ビデオからセグメント化された沈黙、笑声、称賛および聴衆の雑音でトレーニングされ、それはプレゼンテーションの話者による話を含まないとみなされる。フィラーモデルは、多重事例化されているが、好ましくは各事例で同一である。話者特定モデルはプレゼンテーションの話者からの話を表す。各話者特定モデルは、それに関係する結合されたスライド区間のクラスタからのオーディオでトレーニングされる。話者モデルおよび選択的なフィラーモデルを連結することにより「話者単位」が得られる。それらは、話者ごとに1個ずつ連結され、最終モデルを生じる。これにより正しい話者シーケンスが得られる。セグメント化は、完全モデルによりソースオーディオの最大尤度アライメントを見つけるためにバイタービアルゴリズムによって実行される。これは、スライドが表示される区間と実質的には異なる可能性があるので、各発表者の話の範囲を決定可能にする。特に、話者が話している間に話者のショット、聴衆のショットおよびプレゼンテーションスライドの間で交替が起こることはビデオにとって普通である。この実施の形態では、フィラーモデルおよび話者モデルともに単一の状態を有しており、単一混合の全共分散ガウス出力分布を有する。モデルが単一状態および単一混合を有するので、それらは1パスで迅速にトレーニングされる。複数状態または複数混合モデルは、より高価なトレーニングによって性能を改善できよう。自己遷移はいかなるペナルティーも伴わずに可能であり、明示的な時間継続をいっさい持たないエルゴード的モデルを生じる。これにより、モデルは、いかなる確率ペナルティーも伴わずに所与の時間長を表現することができる。
【0129】
図40は、本発明によるオーディオ・ビジュアル記録物をセグメント化する方法のセグメント化の結果を例示している。このように、話者Aの指標4001は、話者Aのプレゼンテーションの実際の継続時間4003にほぼ重なり合っている話者Aのセグメント化を表す。話者Bのセグメント化指標4002は、セグメント化が実際の話者Bの継続時間4004にほぼ重なり合う結果となったことを表す。このようにして、話者Aの指標4001および話者Bの指標4002は、本発明によるセグメント化によって作成される索引より導出される。
【0130】
図40は、会議のソースビデオに関する自動セグメント化の結果を示す。不利な音響環境(利得制御を伴う6個のファーフィールドマイクロフォン)にもかかわらず、2人の話者は識別され、彼らのプレゼンテーションの範囲は、数十秒以内まで合理的に良好にセグメント化された。これはビデオのセグメント化およびブラウズにとって明らかに妥当である。最大の不一致は話者Aのプレゼンテーションの終わりにあり、それは事実上話者Bのプレゼンテーションの開始まで続くようにセグメント化された。これはたぶん、2人の話者が、映写装置の詳細を話し合っていたのでその区間に話をしていたためであろう。
【0131】
単一の会議を選択するために使用される同じ技法は、同じ話者の組を含む複数の会議に対しても選択的に適用される。個々の会議からのプレゼンテーションは会議の資料について選択的にクラスタ化される。これは発表者の目録を作成可能にする。それが潜在的に異なる音響環境(部屋の位置)における同一話者の話の十分な実例を含んでいれば、より強固な、位置に依存しない話者モデルが選択的にトレーニングされる。さらに、会議進行表において話者が識別されていれば、話者モデルは以後の識別および検索のために氏名と関係づけられる。
【0132】
スライドプレゼンテーションを含む6本のビデオ録画された会議が試験資料として使用された。オーディオフィラーモデルおよびスライド画像のトレーニングデータは別の組のビデオから得た。6本のビデオの合計長さは280分21秒であり、約45分の平均長であった。各ビデオは1〜5本のプレゼンテーションを含み、合計16本であったが、3本のプレゼンテーションはビデオおよびスライドを含んでおり、ほとんどが聴衆の質問または注釈を有していた。プレゼンテーションは一般にスライド区間の継続時間より長いので、スライドの存在はプレゼンテーションの良好な指標であり、スライドだけからプレゼンテーションを見つけることはプレゼンテーションの75%を見逃す結果となった。表3の第2行は、話者のセグメント化がこれをどれほど改善させるかを示す。プレゼンテーションの約5%だけがプレゼンテーション以外のものであると誤って識別された。
【0133】
16本のプレゼンテーションにもとづき、(ビデオおよび変則的なオーディオによる付加的な終点とともに)合計32個の検出すべき終点が存在した。実際の話者の話の開始または終了の15秒以内に生じていれば、終点は正確であるとみなした。表4は終点の位置の確度を示す。クラスタ化以前に、57のスライド区間による114個の終点が存在した。検出すべき32個の関連する終点の実地検証情報が与えられ、26個の終点が正確に突き止められて、これは0.23の精度による0.81のリコールをもたらし、ほとんどの終点は見つかったが、それが正しい終点である可能性が1/4未満であることを意味する。57個のアライメントされたセグメントをクラスタ化することにより23個のクラスタを得たが、これは不正確な終点の数を減らすことにより精度を劇的に改善させた。検出された終点のうち少なくとも2個はプレゼンテーションに対するビデオ区間によっており、精度は不当に悲観的であることに留意されたい。非理想的オーディオ環境もクラスタ化問題を生じた。マイクロフォンはHVACベント付近の音響天井タイルに設置されている。いくつかのプレゼンテーションは換気雑音の有無により誤ってクラスタ化された。これは音響信号に大きな影響を与え、同じ話者も換気システムの状態によって別様にクラスタ化され、一部のクラスタ境界はまさに換気スイッチのオンオフにより生じている。
【0134】
【表4】
【0135】
本発明によるこれらの方法は、会議ビデオの他に、個々の話者が識別可能なビデオ特徴に関係づけられるあらゆる分野に適用可能である。一例は、ニュースキャスターのショットが画像構成および背景により識別できる場合が多い、ニュース放送である。話者識別の使用により、ロケーションまたは他の介在ビデオが存在する場合でも、ニュースキャスターによるニュース記事のセグメント化が可能である。
【0136】
図41は、本発明に従ったセグメント間音響距離マトリックスを示す。対角線上成分4101〜4105は、各セグメントがそれ自体に類似であることを示す黒色である。灰色領域4106および4107は、ソースオーディオの始まりおよび終わりにおけるオーディオ区間の部分的類似性を表す。白色領域はオーディオセグメントの非類似を表す。
【0137】
多くの場合、例えば図40でラベル2、3および4が付けられたような、同一話者に対応する複数の隣接区間が存在する。クラスタ化は、尤度比距離などの多くの技法によって代替的に実行される。ここで使用するクラスタ化法は、ノンパラメトリック距離測度にもとづく。オーディオセグメントにパラメータ化されたメル周波数ケプストラル成分は、クラス境界を見つけるために最大相互情報量評価基準を用いて監視ベクトル量子化数をトレーニングするために使用される。トレーニングされると、セグメントはベクトル量子化され、二項分布のヒストグラムが作成される。このヒストグラムは、オーディオファイルのシグネーチャとして機能し、ベクトルとして処理される場合には2つのヒストグラム間のコサインはオーディオ類似性の良好な測度として機能する。図41はこの測度を用いて計算された距離マトリックスを示す。これは、単一の会議ビデオからの12個のスライド領域の間のオーディオ類似性を示している。各成分i,jは、より近い距離、すなわちより類似性であるものが濃色になるように、セグメントiおよびjの間の距離を図示するように着色されている。図41から、各々が特定の話者による話に対応する、いくつかの音響的に類似の群が存在することは明白である。例外は、中央の話者のプレゼンテーションにおいて示されたビデオからのタイトルに対応する、セグメント7によるものである。このような距離マトリックスは、単一話者に対応する類似区間を見つけるためにクラスタ化される。いずれかの種類の階層的クラスタ化が選択的に使用されるが、ここで採った単純な方式は、各自の距離のいずれもスレッショルドを超えない限り、全部の隣接セグメントを同一クラスタの一部であるとみなすことによって、クラスタメンバーの時間隣接性を強制することであった。図41のセグメントの場合、これは以下のように5個のクラスタとなった。
(1,2,3,4,5)−−−(6)−−−(7)−−−(8)−−−(9,10,11,12)
【0138】
実地検証情報は3つのプレゼンテーションが存在するということであったので、このクラスタ化法は、第2のプレゼンテーションを、オーディオ距離にもとづき3個に誤ってセグメント化した。重要な目的はビデオブラウジングのための索引を見つけることなので、それは絶望的な誤りではない。プレゼンテーションが開始した時点と同様、ビデオが表示された時点を見つけることも望ましい。より精緻なクラスタ化方法は、図41のセグメント7といったオーディオアウトライアーまたは、質問や称賛といった他の変則的オーディオを無視するために使用される。
【0139】
セグメント化プロセスにおける第1工程は、ビデオにおけるスライドを突き止めることである。これは、プレゼンテーショングラフィックスがそのビデオにおいて表示される時点の正確な推定値をもたらす、上述の本発明による技法によって行われる。元のMPEG−1ビデオは、時間に関して2フレーム/秒に、空間に関して64×64画素表現の下位画像に間引かれる。各簡約化されたフレームはその後、離散コサイン変換またはアダマール変換によって変換される。変換は、画像圧縮の場合に普通である小さな下位ブロックに対してではなく、フレーム画像全体に適用される。変換されたデータはその後、その100個の主成分に射影により簡約化される。
【0140】
図42は、本発明に従って、スライドビデオ画像と類似である所定の時間間隔よりも長い1個以上のビデオフレーム区間を識別する方法を示している。工程4201で、ビデオは時間および空間に関して間引かれる。工程4202で、フレームは離散コサイン変換またはアダマール変換によって変換される。工程4203では、工程4202で計算された変換マトリックスから特徴ベクトルが抽出される。工程4204で、スライドの確率がスライド画像クラスのガウスモデルを用いて計算される。工程4205では、工程4204において計算された尤度が、そのフレームがスライド画像クラスと類似であるか否かを判定するためにスレッショルドと比較される。それがスライドであると判定されると、工程4206は、以前のNフレームもスライドであったかどうかを検査する。Nは、工程4207でスライド区間が見つかる前に、検出されるスライドの所定の時間間隔が超えられなければならないように選択される。例えば、20秒のスライドスレッショルドで、2フレーム/秒に間引く場合、Nは40であるように選択される。従って、単一フレームがスライドであると判定されたが、そのスライドフレーム以前のフレームおよびスライドフレーム以降のフレームがスライドでなければ、スライド区間はラベルづけされない。工程4205がそのフレームは非スライドであると判定した場合または現在のフレームはスライドであるが以前のNフレームはスライドではないと判定した場合、工程4208は、ビデオの終わりに到達したかどうかを検査する。さらにフレームがある場合、方法は再び工程4202からその次のフレームに対して開始する。ビデオの終わりに到達していれば、方法は図43に進む。
【0141】
図43は、本発明に従ったスライド区間から抽出されたオーディオ区間によるソース特定話者モデルをトレーニングする方法を示している。工程4301で、スライド区間に対応するオーディオ区間が抽出される。この抽出は、そのスライド区間が抽出されたソースビデオ3601に対応する図36に示したソースオーディオ3608により行われる。工程4302で、最初のオーディオ区間がメル周波数ケプストラル係数にパラメータ化される。オーディオ区間に対応する多様なメル周波数ケプストラル係数ベクトルは、そのオーディオ区間に対応するオーディオ係数平均ベクトルを生成するために工程4303で平均化される。さらにオーディオ区間があれば、工程4304は、次のオーディオ区間の処理のために方法を工程4302に戻す。全部のオーディオ区間がパラメータ化され、オーディオ係数平均ベクトルが各オーディオ区間について計算されると、オーディオ区間は工程4305でクラスタ化される。工程4305は同一話者判定基準によってオーディオ区間をクラスタ化する。すなわち、ユークリッド距離に関して相互に十分に近いオーディオ係数平均ベクトルを有するオーディオ区間は、同一話者によるものであると判断される。工程4306で、同一クラスタのオーディオ区間が併合される。工程4307で、第1の話者モデルが第1の併合オーディオ区間でトレーニングされる。検査4308は、併合オーディオ区間のクラスタがさらに存在するかどうかが判断される。肯定であれば、工程4307は、一意的に決まる話者モデルをトレーニングするために全部の併合オーディオ区間が使用されるまで次々に処理する。
【0142】
図44は、本発明に従った話者遷移モデルを用いてオーディオ・ビジュアル記録物をセグメント化する方法を示す。工程4401で、オーディオの隠れマルコフモデルが構築される。図39は、工程4401によって構築されるようなオーディオ隠れマルコフモデルを示している。ビデオおよびオーディオは、工程4402でそのオーディオ隠れマルコフモデルによってセグメント化される。工程4403で、ビデオおよびオーディオは、工程4402で決定されたセグメント化情報により索引づけられる。このように、図44に示す方法は、図36に示した工程3607を実施するために適する。
【0143】
会議の進行表が得られる場合、プレゼンテーションは、進行表からの情報を用いて選択的に自動的にラベルづけまたは索引づけされる。これにより、プレゼンテーションは発表者および演題によって容易に見つけることができる。このようにして、会議ビデオは、内容によって自動的に索引づけ、ブラウジングおよび検索される。
【0144】
本発明をいくつかの態様および実施の形態に関して説明したが、これらの態様および実施の形態は、限定としてではなく、例示として提起されている。本発明の精神および範囲を逸脱することなく各種の追加および変更が行い得ることを理解しなければならない。例えば、数倍の改善といった精緻な音響モデルは、継続時間モデルを各話者に対して強制することによって代替的に得られる。別の例として、オーディオ特徴と同様にビデオ特徴にもとづくセグメントのクラスタ化は、発表者のスライドが、発表者自身の画像だけでなく、類似性の構成およびカラー図式を有するはずであるという仮定にもとづき、本発明に包含される。それにより、オーディオおよびビデオの両方の変則的領域の識別をプレゼンテーション中に表示されるビデオによって可能にする。また別の例として、対話的に定義された探索セグメントを指定するユーザ入力を受け取るための他のウェブベースのインタフェースが使用できる。さらに別の例として、ガウス分布以外の確率分布を用いた分類が適切な状況において使用することができる。従って、こうした追加および変更はすべて、特許請求の範囲に記載された本発明の精神および範囲に通じるものであると見なされるべきである。
【図面の簡単な説明】
【図1】本発明の方法を実行するために適した汎用コンピュータアーキテクチャを示す。
【図2】本発明によるビデオの分類を実行する方法におけるデータの流れを示す。
【図3】本発明による、トレーニングフレーム、トレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換およびトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。
【図4】異なる平均および分散を有する一次元ガウス分布を示すグラフである。
【図5】本発明によるビデオ分類のための特徴集合を選択する方法を示すフローチャートである。
【図6】ビデオフレームの離散コサイン変換により得られる変換マトリックスを示す。
【図7】本発明に従って2個以上の変換マトリックスから計算された分散マトリックスを示す。
【図8】本発明に従って切り捨てによって決定された特徴集合を示す。
【図9】本発明による図8に示した特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された平均特徴ベクトルを示す。
【図10】本発明による図8に示した特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。
【図11】本発明の方法に従って分類のために図8に示した特徴集合を有するフレームについて検索された特徴ベクトルを示す。
【図12】本発明に従って2個以上のビデオ画像クラスのいずれかにビデオのフレームを分類する方法を示すフローチャートである。
【図13】本発明に従って、主成分分析、最大分散を有する係数の選択または最大平均を有する係数の選択により決定された特徴集合を示す。
【図14】本発明による図13に示した特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された平均特徴ベクトルを示す。
【図15】本発明による図13に示した特徴集合を有するトレーニングフレームの2個以上の特徴ベクトルから計算された対角共分散マトリックスを示す。
【図16】本発明の方法に従って分類のために図13に示した特徴集合を有するフレームについて検索された特徴ベクトルを示す。
【図17】本発明による類似性を決定する方法において、類似性を決定するためのスレッショルドとして使用されるスライド画像クラス統計モデルの標準偏差の倍数の関数として、スライドとして正確に識別されたスライドフレームの割合およびスライドとして誤って識別された非スライドフレームの割合を示すグラフである。
【図18】本発明に従って画像クラス統計モデルを用いてビデオフレームの類似性を決定する方法を示すフローチャートである。
【図19】本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数の表示を示すグラフである。
【図20】本発明に従ってビデオの各種フレームを生成するビデオ画像クラス統計モデルの確率の対数を表示する方法を示すフローチャートである。
【図21】特徴集合の成分の数dの関数として正確に分類されたフレームの割合、それらのフレームに適用された変換のタイプおよびd成分特徴集合の選択方法を示すグラフである。
【図22】本発明の方法に従ってスライドと類似と見られるビデオの領域を表示するブラウザを示す。
【図23】本発明によるビデオを分類する方法において使用される隠れマルコフモデルに対応するクラス遷移図を示す。
【図24】図23に示すクラス遷移図に対応する本発明に従ったクラス遷移確率マトリックスを示す。
【図25】図23に示すクラス遷移図に従った5連続初期ビデオフレームに対応する全部の可能なクラスシーケンスを示す。
【図26】本発明に従ってクラス遷移確率マトリックスおよび画像クラス統計モデルを用いたビデオをセグメント化する方法を示すフローチャートである。
【図27】本発明による類似性探索を実行する方法におけるデータの流れを示す。
【図28】本発明によるビデオに対応する特徴ベクトルデータベースを計算する方法を示すフローチャートである。
【図29】本発明による統計モデルを対話的にトレーニングする方法を示すフローチャートである。
【図30】本発明によるブラウザ内でビデオフレームを提示し類似性測度を表示する方法を示すフローチャートである。
【図31】本発明に従って、対話的に定義されたトレーニングビデオセグメント、そのトレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆離散コサイン変換および、トレーニングビデオセグメントのトレーニングフレームから得られた平均特徴ベクトルの逆アダマール変換を示す。
【図32】本発明による、トレーニングビデオセグメントを対話的に定義し類似性測度を表示する時間バーおよび、ユーザスレッショルドマウス入力を受け取るスレッショルドスライダバーを備えるブラウザを示す。
【図33】ビデオの領域内にフレームを表示するためのスクロール可能ウィンドウが追加された図32のブラウザを示す。
【図34】1個以上のトレーニングビデオセグメントの終点を対話的に選択し、周期的フレームの類似性測度を表示する、ビデオの周期的フレームを表示するウェブベースのインタフェースを示す。
【図35】本発明に従って離散コサイン変換係数およびアダマール変換係数を用いて計算されたビデオの類似性マトリックスを示す。
【図36】本発明によるオーディオ・ビジュアル記録物をセグメント化する方法に対応するデータの流れを示す。
【図37】2人の話者による2つのプレゼンテーションを含む記録された会議のスライドであるオーディオ・ビジュアル記録物のフレームの確率の対数を示すグラフである。
【図38】本発明によるオーディオ区間に適用されるクラスタ化方法におけるデータの流れを示す。
【図39】本発明による一連の話者単位を構成する話者遷移モデルを示す。
【図40】本発明によるオーディオ・ビジュアル記録物をセグメント化する方法のセグメント化結果を示すグラフである。
【図41】本発明によるセグメント間音響距離マトリックスを示す。
【図42】本発明による、スライド画像クラスとの類似性を有する所定の時間間隔より長い1個以上のビデオフレーム区間を識別する方法を示すフローチャートである。
【図43】本発明によるスライド区間から抽出されたオーディオ区間からのソース特定話者モデルをトレーニングする方法を示すフローチャートである。
【図44】本発明による話者遷移モデルを用いたオーディオ・ビジュアル記録物をセグメント化する方法を示すフローチャートである。
Claims (6)
- ビデオの類似性探索方法であって、定義手段が、類似性探索の対象となるビデオに含まれるフレームを画像クラス統計モデルにより表現される複数種類の画像クラスの何れかに分類してセグメント化するための、複数のトレーニングフレームから成るトレーニングビデオセグメントと前記トレーニングビデオセグメントが属する画像クラスとの対応関係をユーザに選択させて定義する工程と、第1の特徴ベクトル取得手段が、トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、分類先となる画像クラスに対応する特徴ベクトルを検索することにより、特徴ベクトルを得る工程と、トレーニング手段が、前記画像クラス中の複数のトレーニングフレームから得られた複数の特徴ベクトルから平均特徴ベクトル及び対角共分散マトリクスを計算することにより前記平均特徴ベクトル及び対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされる画像クラス統計モデルを構築する工程と、第2の特徴ベクトル取得手段が、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、前記類似性探索の対象となるビデオに含まれる各フレームに対応する特徴ベクトルを検索することにより、探索対象フレームの特徴ベクトルを得る工程と、計算手段が、得られた前記探索対象フレームの特徴ベクトルについて、画像クラス統計モデルに対応する前記ガウス関数を用いて前記画像クラスに分類される確率を計算することにより、類似性スコアとして各フレームの尤度を計算する工程と、分割手段が、類似性スコアを、ユーザにより定義された類似性スレッショルドと比較することにより、類似性探索の対象となるビデオに含まれるフレームを、前記画像クラスの類似セグメントと非類似セグメントに分ける工程と、を含むことを特徴とする方法。
- トレーニングビデオセグメントのフレームに対応する各特徴ベクトルが、フレームの彩度成分から得られた特徴ベクトルと、フレームの輝度成分から得られた特徴ベクトルを含むことを特徴とする請求項1記載の方法。
- トレーニングビデオセグメントのフレームに対応する各特徴ベクトルが、フレームの赤色成分から得られた特徴ベクトル、フレームの緑色成分から得られた特徴ベクトル、フレームの青色成分から得られた特徴ベクトルを含むことを特徴とする請求項1記載の方法。
- 表示手段が、前記分割手段により分けられた前記類似セグメントを識別可能に表示装置に表示させる工程を含むことを特徴とする請求項1乃至3のいずれかに記載の方法。
- ビデオの類似性探索を行う方法であって、類似性探索の対象となるビデオに含まれるフレームを画像クラス統計モデルにより表現される複数種類の画像クラスの何れかに分類してセグメント化するための、複数のトレーニングフレームから成るトレーニングビデオセグメントと前記トレーニングビデオセグメントが属する画像クラスとの対応関係をユーザに選択させて定義する工程と、トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記トレーニングビデオセグメントのフレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化 することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、分類先となる画像クラスに対応する特徴ベクトルを検索することにより、特徴ベクトルを得る工程と、前記画像クラス中の複数のトレーニングフレームから得られた複数の特徴ベクトルから平均特徴ベクトル及び対角共分散マトリクスを計算することにより前記平均特徴ベクトル及び対角共分散マトリクスの成分をパラメータとしてガウス関数が記述される多次元ガウス分布で表わされる画像クラス統計モデルを構築する工程と、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを抽出する、又は、前記類似性探索の対象となるビデオに含まれる各フレームを離散コサイン変換又はアダマール変換することにより得られた変換マトリクス中の変換係数の一部のみを用いることで簡約化することにより得られた特徴ベクトルを予め記憶した特徴ベクトルデータベースから、前記類似性探索の対象となるビデオに含まれる各フレームに対応する特徴ベクトルを検索することにより、探索対象フレームの特徴ベクトルを得る工程と、得られた前記探索対象フレームの特徴ベクトルについて、画像クラス統計モデルに対応する前記ガウス関数を用いて前記画像クラスに分類される確率を計算することにより、類似性スコアとして各フレームの尤度を計算する工程と、類似性スコアを、ユーザにより定義された類似性スレッショルドと比較することにより、類似性探索の対象となるビデオに含まれるフレームを、前記画像クラスの類似セグメントと非類似セグメントに分ける工程と、を含む方法をコンピュータで実行するためのプログラムを記録したコンピュータ読取り可能な記録媒体。
- 前記類似セグメントを識別可能に表示装置に表示させる工程を含む方法をコンピュータで実行するためのプログラムを記録した請求項5に記載のコンピュータ読取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US266558 | 1994-06-28 | ||
US09/266,558 US6774917B1 (en) | 1999-03-11 | 1999-03-11 | Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000322450A JP2000322450A (ja) | 2000-11-24 |
JP4253989B2 true JP4253989B2 (ja) | 2009-04-15 |
Family
ID=23015075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000064979A Expired - Fee Related JP4253989B2 (ja) | 1999-03-11 | 2000-03-09 | ビデオの類似性探索方法及び記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (2) | US6774917B1 (ja) |
JP (1) | JP4253989B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190026738A (ko) * | 2016-06-06 | 2019-03-13 | 아비질론 코포레이션 | 비디오 레코딩 내에 존재하는 동일한 사람 또는 물건을 대화형으로 식별하기 위한 방법, 시스템 및 컴퓨터 프로그램 제품 |
US10901575B2 (en) | 2016-09-09 | 2021-01-26 | Lsis Co., Ltd. | Apparatus for editing graphic objects |
Families Citing this family (324)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1081960B1 (en) * | 1999-01-29 | 2007-12-19 | Sony Corporation | Signal processing method and video/voice processing device |
GB2349460B (en) | 1999-04-29 | 2002-11-27 | Mitsubishi Electric Inf Tech | Method of representing colour images |
US8028314B1 (en) | 2000-05-26 | 2011-09-27 | Sharp Laboratories Of America, Inc. | Audiovisual information management system |
US7051271B1 (en) * | 2000-05-31 | 2006-05-23 | Fuji Xerox Co., Ltd. | Method, system and article of manufacture for linking a video to a scanned document |
US6763069B1 (en) * | 2000-07-06 | 2004-07-13 | Mitsubishi Electric Research Laboratories, Inc | Extraction of high-level features from low-level features of multimedia content |
KR20040041082A (ko) * | 2000-07-24 | 2004-05-13 | 비브콤 인코포레이티드 | 멀티미디어 북마크와 비디오의 가상 편집을 위한 시스템및 방법 |
DE60140755D1 (de) * | 2000-09-08 | 2010-01-21 | Koninkl Philips Electronics Nv | Vorrichtung zur wiedergabe eines auf einem aufzeichnungsmedium gespeicherten informationssignals |
KR20020050264A (ko) * | 2000-09-08 | 2002-06-26 | 요트.게.아. 롤페즈 | 컬러링된 슬라이더 바를 제공하는 재생 장치 |
US8020183B2 (en) | 2000-09-14 | 2011-09-13 | Sharp Laboratories Of America, Inc. | Audiovisual management system |
US6931595B2 (en) * | 2000-11-02 | 2005-08-16 | Sharp Laboratories Of America, Inc. | Method for automatic extraction of semantically significant events from video |
WO2002052565A1 (en) * | 2000-12-22 | 2002-07-04 | Muvee Technologies Pte Ltd | System and method for media production |
US20030038796A1 (en) | 2001-02-15 | 2003-02-27 | Van Beek Petrus J.L. | Segmentation metadata for audio-visual content |
KR100438269B1 (ko) * | 2001-03-23 | 2004-07-02 | 엘지전자 주식회사 | 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법 |
US7904814B2 (en) | 2001-04-19 | 2011-03-08 | Sharp Laboratories Of America, Inc. | System for presenting audio-video content |
US7499077B2 (en) | 2001-06-04 | 2009-03-03 | Sharp Laboratories Of America, Inc. | Summarization of football video content |
US7143354B2 (en) | 2001-06-04 | 2006-11-28 | Sharp Laboratories Of America, Inc. | Summarization of baseball video content |
US7191103B2 (en) * | 2001-08-08 | 2007-03-13 | Hewlett-Packard Development Company, L.P. | Predominant color identification in digital images |
EP1302865A1 (en) * | 2001-10-10 | 2003-04-16 | Mitsubishi Electric Information Technology Centre Europe B.V. | Method and apparatus for searching for and retrieving colour images |
US7474698B2 (en) | 2001-10-19 | 2009-01-06 | Sharp Laboratories Of America, Inc. | Identification of replay segments |
JP2003132090A (ja) * | 2001-10-26 | 2003-05-09 | Olympus Optical Co Ltd | 類似データ検索装置および方法 |
US7839400B2 (en) * | 2002-01-25 | 2010-11-23 | Autodesk, Inc. | Volume management system for volumetric displays |
US7120873B2 (en) | 2002-01-28 | 2006-10-10 | Sharp Laboratories Of America, Inc. | Summarization of sumo video content |
US9092841B2 (en) | 2004-06-09 | 2015-07-28 | Cognex Technology And Investment Llc | Method and apparatus for visual detection and inspection of objects |
US7545949B2 (en) * | 2004-06-09 | 2009-06-09 | Cognex Technology And Investment Corporation | Method for setting parameters of a vision detector using production line information |
US8214741B2 (en) | 2002-03-19 | 2012-07-03 | Sharp Laboratories Of America, Inc. | Synchronization of video and data |
US7043474B2 (en) * | 2002-04-15 | 2006-05-09 | International Business Machines Corporation | System and method for measuring image similarity based on semantic meaning |
EP1359536A3 (en) * | 2002-04-27 | 2005-03-23 | Samsung Electronics Co., Ltd. | Face recognition method and apparatus using component-based face descriptor |
US7974495B2 (en) * | 2002-06-10 | 2011-07-05 | Digimarc Corporation | Identification and protection of video |
US8238718B2 (en) * | 2002-06-19 | 2012-08-07 | Microsoft Corporaton | System and method for automatically generating video cliplets from digital video |
GB0215624D0 (en) * | 2002-07-05 | 2002-08-14 | Colthurst James R | Razor head |
US20040010792A1 (en) * | 2002-07-12 | 2004-01-15 | Wallace Michael W. | Method and system for providing flexible time-based control of application appearance and behavior |
US7657836B2 (en) | 2002-07-25 | 2010-02-02 | Sharp Laboratories Of America, Inc. | Summarization of soccer video content |
US7657907B2 (en) | 2002-09-30 | 2010-02-02 | Sharp Laboratories Of America, Inc. | Automatic user profiling |
FR2846502B1 (fr) * | 2002-10-28 | 2005-02-11 | Thomson Licensing Sa | Procede de selection de germes pour le regroupement d'images cles |
GB2395853A (en) * | 2002-11-29 | 2004-06-02 | Sony Uk Ltd | Association of metadata derived from facial images |
US7676820B2 (en) * | 2003-01-06 | 2010-03-09 | Koninklijke Philips Electronics N.V. | Method and apparatus for similar video content hopping |
KR100609154B1 (ko) * | 2003-05-23 | 2006-08-02 | 엘지전자 주식회사 | 비디오 콘텐츠 재생 방법 및 장치 |
US7788696B2 (en) * | 2003-10-15 | 2010-08-31 | Microsoft Corporation | Inferring information about media stream objects |
US7680340B2 (en) * | 2003-11-13 | 2010-03-16 | Eastman Kodak Company | Method of using temporal context for image classification |
US7542971B2 (en) * | 2004-02-02 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for collaborative note-taking |
US8949899B2 (en) | 2005-03-04 | 2015-02-03 | Sharp Laboratories Of America, Inc. | Collaborative recommendation system |
US7594245B2 (en) | 2004-03-04 | 2009-09-22 | Sharp Laboratories Of America, Inc. | Networked video devices |
US8356317B2 (en) | 2004-03-04 | 2013-01-15 | Sharp Laboratories Of America, Inc. | Presence based technology |
US7409407B2 (en) * | 2004-05-07 | 2008-08-05 | Mitsubishi Electric Research Laboratories, Inc. | Multimedia event detection and summarization |
US7802188B2 (en) * | 2004-05-13 | 2010-09-21 | Hewlett-Packard Development Company, L.P. | Method and apparatus for identifying selected portions of a video stream |
US8891852B2 (en) | 2004-06-09 | 2014-11-18 | Cognex Technology And Investment Corporation | Method and apparatus for configuring and testing a machine vision detector |
US20050276445A1 (en) | 2004-06-09 | 2005-12-15 | Silver William M | Method and apparatus for automatic visual detection, recording, and retrieval of events |
US8127247B2 (en) | 2004-06-09 | 2012-02-28 | Cognex Corporation | Human-machine-interface and method for manipulating data in a machine vision system |
US7426301B2 (en) * | 2004-06-28 | 2008-09-16 | Mitsubishi Electric Research Laboratories, Inc. | Usual event detection in a video using object and frame features |
WO2010042486A1 (en) * | 2008-10-07 | 2010-04-15 | Euclid Discoveries, Llc | Feature-based video compression |
US7457435B2 (en) * | 2004-11-17 | 2008-11-25 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US9578345B2 (en) | 2005-03-31 | 2017-02-21 | Euclid Discoveries, Llc | Model-based video encoding and decoding |
US9532069B2 (en) | 2004-07-30 | 2016-12-27 | Euclid Discoveries, Llc | Video compression repository and model reuse |
US7457472B2 (en) * | 2005-03-31 | 2008-11-25 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US9743078B2 (en) | 2004-07-30 | 2017-08-22 | Euclid Discoveries, Llc | Standards-compliant model-based video encoding and decoding |
US8902971B2 (en) | 2004-07-30 | 2014-12-02 | Euclid Discoveries, Llc | Video compression repository and model reuse |
US7436981B2 (en) * | 2005-01-28 | 2008-10-14 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US7508990B2 (en) * | 2004-07-30 | 2009-03-24 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US7158680B2 (en) | 2004-07-30 | 2007-01-02 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
JP4140579B2 (ja) | 2004-08-11 | 2008-08-27 | ソニー株式会社 | 画像処理装置および方法、撮影装置、並びにプログラム |
JP2006058874A (ja) * | 2004-08-20 | 2006-03-02 | Mitsubishi Electric Research Laboratories Inc | マルチメディア中の事象を検出する方法 |
WO2006022734A1 (en) * | 2004-08-23 | 2006-03-02 | Sherpa Technologies, Llc | Selective displaying of item information in videos |
JP4236266B2 (ja) * | 2004-08-27 | 2009-03-11 | キヤノン株式会社 | データ変換装置およびその方法 |
US9240188B2 (en) * | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
CN101061489B (zh) * | 2004-09-21 | 2011-09-07 | 欧几里得发现有限责任公司 | 用来处理视频数据的装置和方法 |
US7636449B2 (en) | 2004-11-12 | 2009-12-22 | Cognex Technology And Investment Corporation | System and method for assigning analysis parameters to vision detector using a graphical interface |
US7720315B2 (en) * | 2004-11-12 | 2010-05-18 | Cognex Technology And Investment Corporation | System and method for displaying and using non-numeric graphic elements to control and monitor a vision system |
US7783106B2 (en) * | 2004-11-12 | 2010-08-24 | Fuji Xerox Co., Ltd. | Video segmentation combining similarity analysis and classification |
US9292187B2 (en) | 2004-11-12 | 2016-03-22 | Cognex Corporation | System, method and graphical user interface for displaying and controlling vision system operating parameters |
GB2421094A (en) * | 2004-12-09 | 2006-06-14 | Sony Uk Ltd | Generating reduced feature vectors for information retrieval |
US7308443B1 (en) * | 2004-12-23 | 2007-12-11 | Ricoh Company, Ltd. | Techniques for video retrieval based on HMM similarity |
GB0428406D0 (en) * | 2004-12-24 | 2005-02-02 | Oxford Instr Superconductivity | Cryostat assembly |
CN1835507A (zh) * | 2005-03-17 | 2006-09-20 | 国际商业机器公司 | 用于用户与web浏览器交互的服务器端处理的方法与系统 |
JP4981026B2 (ja) * | 2005-03-31 | 2012-07-18 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 複合ニュース・ストーリーの合成 |
US7877383B2 (en) * | 2005-04-27 | 2011-01-25 | Microsoft Corporation | Ranking and accessing definitions of terms |
KR100708130B1 (ko) * | 2005-05-04 | 2007-04-17 | 삼성전자주식회사 | 동영상 추출장치 및 방법 |
US7970170B2 (en) * | 2005-05-09 | 2011-06-28 | Lockheed Martin Corporation | Continuous extended range image processing |
WO2007015228A1 (en) * | 2005-08-02 | 2007-02-08 | Mobixell Networks | Content distribution and tracking |
JP4732067B2 (ja) * | 2005-08-11 | 2011-07-27 | キヤノン株式会社 | コンピュータ装置及びその制御方法、プログラム |
US7545954B2 (en) * | 2005-08-22 | 2009-06-09 | General Electric Company | System for recognizing events |
US7526084B2 (en) * | 2005-09-02 | 2009-04-28 | Mitsubishi Electric Research Laboratories, Inc. | Secure classifying of data with Gaussian distributions |
US7991230B2 (en) * | 2005-10-14 | 2011-08-02 | Microsoft Corporation | Modeling micro-structure for feature extraction |
US9466068B2 (en) | 2005-10-26 | 2016-10-11 | Cortica, Ltd. | System and method for determining a pupillary response to a multimedia data element |
US10191976B2 (en) | 2005-10-26 | 2019-01-29 | Cortica, Ltd. | System and method of detecting common patterns within unstructured data elements retrieved from big data sources |
US10387914B2 (en) | 2005-10-26 | 2019-08-20 | Cortica, Ltd. | Method for identification of multimedia content elements and adding advertising content respective thereof |
US9767143B2 (en) | 2005-10-26 | 2017-09-19 | Cortica, Ltd. | System and method for caching of concept structures |
US9477658B2 (en) | 2005-10-26 | 2016-10-25 | Cortica, Ltd. | Systems and method for speech to speech translation using cores of a natural liquid architecture system |
US10607355B2 (en) | 2005-10-26 | 2020-03-31 | Cortica, Ltd. | Method and system for determining the dimensions of an object shown in a multimedia content item |
US10380267B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for tagging multimedia content elements |
US9489431B2 (en) | 2005-10-26 | 2016-11-08 | Cortica, Ltd. | System and method for distributed search-by-content |
US11003706B2 (en) | 2005-10-26 | 2021-05-11 | Cortica Ltd | System and methods for determining access permissions on personalized clusters of multimedia content elements |
US10535192B2 (en) | 2005-10-26 | 2020-01-14 | Cortica Ltd. | System and method for generating a customized augmented reality environment to a user |
US11403336B2 (en) | 2005-10-26 | 2022-08-02 | Cortica Ltd. | System and method for removing contextually identical multimedia content elements |
US11386139B2 (en) | 2005-10-26 | 2022-07-12 | Cortica Ltd. | System and method for generating analytics for entities depicted in multimedia content |
US9639532B2 (en) | 2005-10-26 | 2017-05-02 | Cortica, Ltd. | Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts |
US10949773B2 (en) | 2005-10-26 | 2021-03-16 | Cortica, Ltd. | System and methods thereof for recommending tags for multimedia content elements based on context |
US10621988B2 (en) | 2005-10-26 | 2020-04-14 | Cortica Ltd | System and method for speech to text translation using cores of a natural liquid architecture system |
US10848590B2 (en) | 2005-10-26 | 2020-11-24 | Cortica Ltd | System and method for determining a contextual insight and providing recommendations based thereon |
US9529984B2 (en) | 2005-10-26 | 2016-12-27 | Cortica, Ltd. | System and method for verification of user identification based on multimedia content elements |
US10698939B2 (en) | 2005-10-26 | 2020-06-30 | Cortica Ltd | System and method for customizing images |
US9191626B2 (en) | 2005-10-26 | 2015-11-17 | Cortica, Ltd. | System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto |
US8818916B2 (en) | 2005-10-26 | 2014-08-26 | Cortica, Ltd. | System and method for linking multimedia data elements to web pages |
US10635640B2 (en) | 2005-10-26 | 2020-04-28 | Cortica, Ltd. | System and method for enriching a concept database |
US10360253B2 (en) | 2005-10-26 | 2019-07-23 | Cortica, Ltd. | Systems and methods for generation of searchable structures respective of multimedia data content |
US8266185B2 (en) | 2005-10-26 | 2012-09-11 | Cortica Ltd. | System and methods thereof for generation of searchable structures respective of multimedia data content |
US11620327B2 (en) | 2005-10-26 | 2023-04-04 | Cortica Ltd | System and method for determining a contextual insight and generating an interface with recommendations based thereon |
US9384196B2 (en) | 2005-10-26 | 2016-07-05 | Cortica, Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
US8312031B2 (en) | 2005-10-26 | 2012-11-13 | Cortica Ltd. | System and method for generation of complex signatures for multimedia data content |
US9747420B2 (en) | 2005-10-26 | 2017-08-29 | Cortica, Ltd. | System and method for diagnosing a patient based on an analysis of multimedia content |
US10372746B2 (en) | 2005-10-26 | 2019-08-06 | Cortica, Ltd. | System and method for searching applications using multimedia content elements |
US11604847B2 (en) | 2005-10-26 | 2023-03-14 | Cortica Ltd. | System and method for overlaying content on a multimedia content element based on user interest |
US9372940B2 (en) | 2005-10-26 | 2016-06-21 | Cortica, Ltd. | Apparatus and method for determining user attention using a deep-content-classification (DCC) system |
US10380164B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for using on-image gestures and multimedia content elements as search queries |
US8326775B2 (en) | 2005-10-26 | 2012-12-04 | Cortica Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
US11019161B2 (en) | 2005-10-26 | 2021-05-25 | Cortica, Ltd. | System and method for profiling users interest based on multimedia content analysis |
US10742340B2 (en) | 2005-10-26 | 2020-08-11 | Cortica Ltd. | System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto |
US9031999B2 (en) | 2005-10-26 | 2015-05-12 | Cortica, Ltd. | System and methods for generation of a concept based database |
US11361014B2 (en) | 2005-10-26 | 2022-06-14 | Cortica Ltd. | System and method for completing a user profile |
US9646005B2 (en) | 2005-10-26 | 2017-05-09 | Cortica, Ltd. | System and method for creating a database of multimedia content elements assigned to users |
US10776585B2 (en) | 2005-10-26 | 2020-09-15 | Cortica, Ltd. | System and method for recognizing characters in multimedia content |
US11032017B2 (en) | 2005-10-26 | 2021-06-08 | Cortica, Ltd. | System and method for identifying the context of multimedia content elements |
US10180942B2 (en) | 2005-10-26 | 2019-01-15 | Cortica Ltd. | System and method for generation of concept structures based on sub-concepts |
US10380623B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for generating an advertisement effectiveness performance score |
US10193990B2 (en) | 2005-10-26 | 2019-01-29 | Cortica Ltd. | System and method for creating user profiles based on multimedia content |
US10691642B2 (en) | 2005-10-26 | 2020-06-23 | Cortica Ltd | System and method for enriching a concept database with homogenous concepts |
US9218606B2 (en) | 2005-10-26 | 2015-12-22 | Cortica, Ltd. | System and method for brand monitoring and trend analysis based on deep-content-classification |
US9953032B2 (en) * | 2005-10-26 | 2018-04-24 | Cortica, Ltd. | System and method for characterization of multimedia content signals using cores of a natural liquid architecture system |
US11216498B2 (en) | 2005-10-26 | 2022-01-04 | Cortica, Ltd. | System and method for generating signatures to three-dimensional multimedia data elements |
US10585934B2 (en) | 2005-10-26 | 2020-03-10 | Cortica Ltd. | Method and system for populating a concept database with respect to user identifiers |
US10614626B2 (en) | 2005-10-26 | 2020-04-07 | Cortica Ltd. | System and method for providing augmented reality challenges |
US9558449B2 (en) | 2005-10-26 | 2017-01-31 | Cortica, Ltd. | System and method for identifying a target area in a multimedia content element |
JP4437548B2 (ja) * | 2005-12-09 | 2010-03-24 | ソニー株式会社 | 音楽コンテンツ表示装置、音楽コンテンツ表示方法及び音楽コンテンツ表示プログラム |
JP4894252B2 (ja) * | 2005-12-09 | 2012-03-14 | ソニー株式会社 | データ表示装置、データ表示方法及びデータ表示プログラム |
US7388494B2 (en) * | 2005-12-20 | 2008-06-17 | Pitney Bowes Inc. | RFID systems and methods for probabalistic location determination |
US20070186179A1 (en) * | 2006-02-03 | 2007-08-09 | Williams Frank J | Method for interacting with graphic service information of an apparatus |
US8145656B2 (en) * | 2006-02-07 | 2012-03-27 | Mobixell Networks Ltd. | Matching of modified visual and audio media |
US9554093B2 (en) * | 2006-02-27 | 2017-01-24 | Microsoft Technology Licensing, Llc | Automatically inserting advertisements into source video content playback streams |
US7664329B2 (en) * | 2006-03-02 | 2010-02-16 | Honeywell International Inc. | Block-based Gaussian mixture model video motion detection |
US8689253B2 (en) | 2006-03-03 | 2014-04-01 | Sharp Laboratories Of America, Inc. | Method and system for configuring media-playing sets |
US7616816B2 (en) * | 2006-03-20 | 2009-11-10 | Sarnoff Corporation | System and method for mission-driven visual information retrieval and organization |
US7672976B2 (en) * | 2006-05-03 | 2010-03-02 | Ut-Battelle, Llc | Method for the reduction of image content redundancy in large image databases |
WO2008091484A2 (en) * | 2007-01-23 | 2008-07-31 | Euclid Discoveries, Llc | Object archival systems and methods |
KR100771244B1 (ko) * | 2006-06-12 | 2007-10-29 | 삼성전자주식회사 | 동영상 데이터 처리 방법 및 장치 |
WO2008006241A1 (en) * | 2006-07-03 | 2008-01-17 | Intel Corporation | Method and apparatus for fast audio search |
JP4775179B2 (ja) * | 2006-08-28 | 2011-09-21 | ソニー株式会社 | 表示のスクロール方法、表示装置および表示プログラム |
US20080082670A1 (en) * | 2006-09-28 | 2008-04-03 | Microsoft Corporation | Resilient communications between clients comprising a cloud |
US10733326B2 (en) | 2006-10-26 | 2020-08-04 | Cortica Ltd. | System and method for identification of inappropriate multimedia content |
US8379915B2 (en) * | 2006-11-20 | 2013-02-19 | Videosurf, Inc. | Method of performing motion-based object extraction and tracking in video |
US8488839B2 (en) * | 2006-11-20 | 2013-07-16 | Videosurf, Inc. | Computer program and apparatus for motion-based object extraction and tracking in video |
US8059915B2 (en) * | 2006-11-20 | 2011-11-15 | Videosurf, Inc. | Apparatus for and method of robust motion estimation using line averages |
US7921120B2 (en) * | 2006-11-30 | 2011-04-05 | D&S Consultants | Method and system for image recognition using a similarity inverse matrix |
JP4899842B2 (ja) * | 2006-12-06 | 2012-03-21 | ソニー株式会社 | ウィンドウの表示方法およびその表示装置 |
US7773811B2 (en) * | 2006-12-06 | 2010-08-10 | D & S Consultants, Inc. | Method and system for searching a database of graphical data |
US20080140523A1 (en) * | 2006-12-06 | 2008-06-12 | Sherpa Techologies, Llc | Association of media interaction with complementary data |
US20080263010A1 (en) * | 2006-12-12 | 2008-10-23 | Microsoft Corporation | Techniques to selectively access meeting content |
JP5088507B2 (ja) * | 2006-12-27 | 2012-12-05 | 日本電気株式会社 | 同一性判定装置、同一性判定方法および同一性判定用プログラム |
US7849095B2 (en) * | 2006-12-29 | 2010-12-07 | Brooks Roger K | Method for using two-dimensional dynamics in assessing the similarity of sets of data |
JP2010526455A (ja) * | 2007-01-23 | 2010-07-29 | ユークリッド・ディスカバリーズ・エルエルシー | 画像データを処理するコンピュータ方法および装置 |
US8243118B2 (en) * | 2007-01-23 | 2012-08-14 | Euclid Discoveries, Llc | Systems and methods for providing personal video services |
EP1959449A1 (en) * | 2007-02-13 | 2008-08-20 | British Telecommunications Public Limited Company | Analysing video material |
US8849432B2 (en) * | 2007-05-31 | 2014-09-30 | Adobe Systems Incorporated | Acoustic pattern identification using spectral characteristics to synchronize audio and/or video |
US8171030B2 (en) | 2007-06-18 | 2012-05-01 | Zeitera, Llc | Method and apparatus for multi-dimensional content search and video identification |
US8126262B2 (en) * | 2007-06-18 | 2012-02-28 | International Business Machines Corporation | Annotating video segments using feature rhythm models |
US20080319844A1 (en) * | 2007-06-22 | 2008-12-25 | Microsoft Corporation | Image Advertising System |
US8904442B2 (en) | 2007-09-06 | 2014-12-02 | At&T Intellectual Property I, Lp | Method and system for information querying |
US8654255B2 (en) * | 2007-09-20 | 2014-02-18 | Microsoft Corporation | Advertisement insertion points detection for online video advertising |
US8103085B1 (en) | 2007-09-25 | 2012-01-24 | Cognex Corporation | System and method for detecting flaws in objects using machine vision |
JP4909854B2 (ja) | 2007-09-27 | 2012-04-04 | 株式会社東芝 | 電子機器および表示処理方法 |
US8285718B1 (en) * | 2007-12-21 | 2012-10-09 | CastTV Inc. | Clustering multimedia search |
US20090171787A1 (en) * | 2007-12-31 | 2009-07-02 | Microsoft Corporation | Impressionative Multimedia Advertising |
JP2009163555A (ja) * | 2008-01-08 | 2009-07-23 | Omron Corp | 顔照合装置 |
US8126858B1 (en) | 2008-01-23 | 2012-02-28 | A9.Com, Inc. | System and method for delivering content to a communication device in a content delivery system |
WO2009113102A2 (en) * | 2008-02-27 | 2009-09-17 | Tata Consultancy Services Limited | Content based visual information retrieval systems |
EP2266057A1 (en) * | 2008-02-28 | 2010-12-29 | Ipharro Media, Gmbh | Frame sequence comparison in multimedia streams |
US20090245646A1 (en) * | 2008-03-28 | 2009-10-01 | Microsoft Corporation | Online Handwriting Expression Recognition |
US8233715B2 (en) * | 2008-04-28 | 2012-07-31 | Microsoft Corporation | Probabilistic intensity similarity measure based on noise distributions |
WO2009147553A1 (en) * | 2008-05-26 | 2009-12-10 | Koninklijke Philips Electronics N.V. | Method and apparatus for presenting a summary of a content item |
US8364660B2 (en) * | 2008-07-11 | 2013-01-29 | Videosurf, Inc. | Apparatus and software system for and method of performing a visual-relevance-rank subsequent search |
WO2010006334A1 (en) | 2008-07-11 | 2010-01-14 | Videosurf, Inc. | Apparatus and software system for and method of performing a visual-relevance-rank subsequent search |
US8587668B2 (en) * | 2008-07-25 | 2013-11-19 | Anvato, Inc. | Method and apparatus for detecting near duplicate videos using perceptual video signatures |
US20120004893A1 (en) * | 2008-09-16 | 2012-01-05 | Quantum Leap Research, Inc. | Methods for Enabling a Scalable Transformation of Diverse Data into Hypotheses, Models and Dynamic Simulations to Drive the Discovery of New Knowledge |
US8264524B1 (en) * | 2008-09-17 | 2012-09-11 | Grandeye Limited | System for streaming multiple regions deriving from a wide-angle camera |
JP5231928B2 (ja) * | 2008-10-07 | 2013-07-10 | 株式会社ソニー・コンピュータエンタテインメント | 情報処理装置および情報処理方法 |
US8207989B2 (en) * | 2008-12-12 | 2012-06-26 | Microsoft Corporation | Multi-video synthesis |
US8214742B2 (en) * | 2008-12-23 | 2012-07-03 | International Business Machines Corporation | Method of rapidly creating visual aids for presentation without technical knowledge |
JP4625862B2 (ja) * | 2008-12-24 | 2011-02-02 | 株式会社東芝 | オーサリング装置およびオーサリング方法 |
US8498978B2 (en) * | 2008-12-30 | 2013-07-30 | Yahoo! Inc. | Slideshow video file detection |
US20100166314A1 (en) * | 2008-12-30 | 2010-07-01 | Microsoft Corporation | Segment Sequence-Based Handwritten Expression Recognition |
EP2287749A4 (en) * | 2009-01-23 | 2011-08-03 | Nec Corp | DATA DEVICE RECALL |
US8254699B1 (en) * | 2009-02-02 | 2012-08-28 | Google Inc. | Automatic large scale video object recognition |
US20100201815A1 (en) * | 2009-02-09 | 2010-08-12 | Vitamin D, Inc. | Systems and methods for video monitoring |
WO2010090622A1 (en) * | 2009-02-09 | 2010-08-12 | Vitamin D, Inc. | Systems and methods for video analysis |
US20100205203A1 (en) * | 2009-02-09 | 2010-08-12 | Vitamin D, Inc. | Systems and methods for video analysis |
KR101634228B1 (ko) * | 2009-03-17 | 2016-06-28 | 삼성전자주식회사 | 디지털 이미지 처리장치, 추적방법, 추적방법을 실행시키기위한 프로그램을 저장한 기록매체 및 추적방법을 채용한 디지털 이미지 처리장치 |
US8250015B2 (en) * | 2009-04-07 | 2012-08-21 | Microsoft Corporation | Generating implicit labels and training a tagging model using such labels |
US8457469B2 (en) * | 2009-04-30 | 2013-06-04 | Sony Corporation | Display control device, display control method, and program |
US9449090B2 (en) | 2009-05-29 | 2016-09-20 | Vizio Inscape Technologies, Llc | Systems and methods for addressing a media database using distance associative hashing |
US10375451B2 (en) | 2009-05-29 | 2019-08-06 | Inscape Data, Inc. | Detection of common media segments |
US10116972B2 (en) | 2009-05-29 | 2018-10-30 | Inscape Data, Inc. | Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device |
US8769584B2 (en) * | 2009-05-29 | 2014-07-01 | TVI Interactive Systems, Inc. | Methods for displaying contextually targeted content on a connected television |
US10949458B2 (en) | 2009-05-29 | 2021-03-16 | Inscape Data, Inc. | System and method for improving work load management in ACR television monitoring system |
US9094714B2 (en) | 2009-05-29 | 2015-07-28 | Cognitive Networks, Inc. | Systems and methods for on-screen graphics detection |
JP5436104B2 (ja) * | 2009-09-04 | 2014-03-05 | キヤノン株式会社 | 画像検索装置及び画像検索方法 |
US8209316B2 (en) * | 2010-01-05 | 2012-06-26 | Microsoft Corporation | Providing suggestions of related videos |
US8086548B2 (en) * | 2010-05-05 | 2011-12-27 | Palo Alto Research Center Incorporated | Measuring document similarity by inferring evolution of documents through reuse of passage sequences |
US9508011B2 (en) * | 2010-05-10 | 2016-11-29 | Videosurf, Inc. | Video visual and audio query |
US9413477B2 (en) | 2010-05-10 | 2016-08-09 | Microsoft Technology Licensing, Llc | Screen detector |
US9311708B2 (en) | 2014-04-23 | 2016-04-12 | Microsoft Technology Licensing, Llc | Collaborative alignment of images |
US8473574B2 (en) | 2010-05-20 | 2013-06-25 | Microsoft, Corporation | Automatic online video discovery and indexing |
US9838753B2 (en) | 2013-12-23 | 2017-12-05 | Inscape Data, Inc. | Monitoring individual viewing of television events using tracking pixels and cookies |
US10192138B2 (en) | 2010-05-27 | 2019-01-29 | Inscape Data, Inc. | Systems and methods for reducing data density in large datasets |
US8786597B2 (en) | 2010-06-30 | 2014-07-22 | International Business Machines Corporation | Management of a history of a meeting |
US8566746B2 (en) * | 2010-08-30 | 2013-10-22 | Xerox Corporation | Parameterization of a categorizer for adjusting image categorization and retrieval |
US20130091437A1 (en) * | 2010-09-03 | 2013-04-11 | Lester F. Ludwig | Interactive data visulization utilizing hdtp touchpad hdtp touchscreens, advanced multitouch, or advanced mice |
US8990134B1 (en) * | 2010-09-13 | 2015-03-24 | Google Inc. | Learning to geolocate videos |
US20120078899A1 (en) * | 2010-09-27 | 2012-03-29 | Fontana James A | Systems and methods for defining objects of interest in multimedia content |
US8463036B1 (en) * | 2010-09-30 | 2013-06-11 | A9.Com, Inc. | Shape-based search of a collection of content |
US8990199B1 (en) | 2010-09-30 | 2015-03-24 | Amazon Technologies, Inc. | Content search with category-aware visual similarity |
US8422782B1 (en) | 2010-09-30 | 2013-04-16 | A9.Com, Inc. | Contour detection and image classification |
US8687941B2 (en) * | 2010-10-29 | 2014-04-01 | International Business Machines Corporation | Automatic static video summarization |
US8924993B1 (en) | 2010-11-11 | 2014-12-30 | Google Inc. | Video content analysis for automatic demographics recognition of users and videos |
US8923607B1 (en) * | 2010-12-08 | 2014-12-30 | Google Inc. | Learning sports highlights using event detection |
US8635197B2 (en) * | 2011-02-28 | 2014-01-21 | International Business Machines Corporation | Systems and methods for efficient development of a rule-based system using crowd-sourcing |
US8577131B1 (en) * | 2011-07-12 | 2013-11-05 | Google Inc. | Systems and methods for visual object matching |
US20140307798A1 (en) * | 2011-09-09 | 2014-10-16 | Newsouth Innovations Pty Limited | Method and apparatus for communicating and recovering motion information |
JP5836095B2 (ja) * | 2011-12-05 | 2015-12-24 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
WO2013086601A1 (en) * | 2011-12-12 | 2013-06-20 | The University Of British Columbia | System and method for determining a depth map sequence for a two-dimensional video sequence |
US9651499B2 (en) | 2011-12-20 | 2017-05-16 | Cognex Corporation | Configurable image trigger for a vision system and method for using the same |
JP5210440B2 (ja) * | 2012-01-04 | 2013-06-12 | インテル・コーポレーション | 高速音声検索のための方法、プログラムおよび装置 |
JP5862413B2 (ja) | 2012-03-28 | 2016-02-16 | 富士通株式会社 | 情報変換規則生成プログラム、情報変換規則生成装置および情報変換規則生成方法 |
US20130271655A1 (en) * | 2012-04-12 | 2013-10-17 | Google Inc. | System, apparatus and method to facilitate live video streaming |
US9015201B2 (en) * | 2012-04-24 | 2015-04-21 | Honeywell International Inc. | Discriminative classification using index-based ranking of large multimedia archives |
US8914452B2 (en) | 2012-05-31 | 2014-12-16 | International Business Machines Corporation | Automatically generating a personalized digest of meetings |
US9244923B2 (en) | 2012-08-03 | 2016-01-26 | Fuji Xerox Co., Ltd. | Hypervideo browsing using links generated based on user-specified content features |
US9462313B1 (en) * | 2012-08-31 | 2016-10-04 | Google Inc. | Prediction of media selection consumption using analysis of user behavior |
CN103475935A (zh) * | 2013-09-06 | 2013-12-25 | 北京锐安科技有限公司 | 一种视频片段的检索方法及装置 |
US9495439B2 (en) * | 2013-10-08 | 2016-11-15 | Cisco Technology, Inc. | Organizing multimedia content |
US9454289B2 (en) * | 2013-12-03 | 2016-09-27 | Google Inc. | Dyanmic thumbnail representation for a video playlist |
US11042274B2 (en) * | 2013-12-04 | 2021-06-22 | Autodesk, Inc. | Extracting demonstrations from in-situ video content |
US9607015B2 (en) | 2013-12-20 | 2017-03-28 | Qualcomm Incorporated | Systems, methods, and apparatus for encoding object formations |
US9955192B2 (en) | 2013-12-23 | 2018-04-24 | Inscape Data, Inc. | Monitoring individual viewing of television events using tracking pixels and cookies |
US9633042B2 (en) | 2014-02-28 | 2017-04-25 | Nant Holdings Ip, Llc | Object recognition trait analysis systems and methods |
US10091507B2 (en) | 2014-03-10 | 2018-10-02 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
US9621917B2 (en) | 2014-03-10 | 2017-04-11 | Euclid Discoveries, Llc | Continuous block tracking for temporal prediction in video encoding |
US10097851B2 (en) | 2014-03-10 | 2018-10-09 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
US9652534B1 (en) * | 2014-03-26 | 2017-05-16 | Amazon Technologies, Inc. | Video-based search engine |
JP6190041B2 (ja) * | 2014-03-31 | 2017-08-30 | 株式会社日立国際電気 | 安否確認システム及び秘匿化データの類似検索方法 |
US9652675B2 (en) | 2014-07-23 | 2017-05-16 | Microsoft Technology Licensing, Llc | Identifying presentation styles of educational videos |
US9405963B2 (en) * | 2014-07-30 | 2016-08-02 | International Business Machines Corporation | Facial image bucketing with expectation maximization and facial coordinates |
US10649740B2 (en) * | 2015-01-15 | 2020-05-12 | International Business Machines Corporation | Predicting and using utility of script execution in functional web crawling and other crawling |
CN108337925B (zh) | 2015-01-30 | 2024-02-27 | 构造数据有限责任公司 | 用于识别视频片段以及显示从替代源和/或在替代设备上观看的选项的方法 |
US10133538B2 (en) * | 2015-03-27 | 2018-11-20 | Sri International | Semi-supervised speaker diarization |
EP4375952A3 (en) | 2015-04-17 | 2024-06-19 | Inscape Data, Inc. | Systems and methods for reducing data density in large datasets |
CN104794220A (zh) * | 2015-04-28 | 2015-07-22 | 百度在线网络技术(北京)有限公司 | 信息搜索方法和信息搜索装置 |
US20160378863A1 (en) * | 2015-06-24 | 2016-12-29 | Google Inc. | Selecting representative video frames for videos |
CA2992519C (en) | 2015-07-16 | 2024-04-02 | Inscape Data, Inc. | Systems and methods for partitioning search indexes for improved efficiency in identifying media segments |
CA2992529C (en) | 2015-07-16 | 2022-02-15 | Inscape Data, Inc. | Prediction of future views of video segments to optimize system resource utilization |
CA2992319C (en) | 2015-07-16 | 2023-11-21 | Inscape Data, Inc. | Detection of common media segments |
US10080062B2 (en) | 2015-07-16 | 2018-09-18 | Inscape Data, Inc. | Optimizing media fingerprint retention to improve system resource utilization |
US10204273B2 (en) | 2015-10-20 | 2019-02-12 | Gopro, Inc. | System and method of providing recommendations of moments of interest within video clips post capture |
US11195043B2 (en) | 2015-12-15 | 2021-12-07 | Cortica, Ltd. | System and method for determining common patterns in multimedia content elements based on key points |
WO2017105641A1 (en) | 2015-12-15 | 2017-06-22 | Cortica, Ltd. | Identification of key points in multimedia data elements |
CN105528594B (zh) * | 2016-01-31 | 2019-01-22 | 江南大学 | 一种基于视频信号的事件识别方法 |
US11294957B2 (en) | 2016-02-11 | 2022-04-05 | Carrier Corporation | Video searching using multiple query terms |
US10474745B1 (en) | 2016-04-27 | 2019-11-12 | Google Llc | Systems and methods for a knowledge-based form creation platform |
US11039181B1 (en) | 2016-05-09 | 2021-06-15 | Google Llc | Method and apparatus for secure video manifest/playlist generation and playback |
US10595054B2 (en) | 2016-05-10 | 2020-03-17 | Google Llc | Method and apparatus for a virtual online video channel |
US10771824B1 (en) | 2016-05-10 | 2020-09-08 | Google Llc | System for managing video playback using a server generated manifest/playlist |
US10750248B1 (en) | 2016-05-10 | 2020-08-18 | Google Llc | Method and apparatus for server-side content delivery network switching |
US10750216B1 (en) | 2016-05-10 | 2020-08-18 | Google Llc | Method and apparatus for providing peer-to-peer content delivery |
US11069378B1 (en) | 2016-05-10 | 2021-07-20 | Google Llc | Method and apparatus for frame accurate high resolution video editing in cloud using live video streams |
US10785508B2 (en) | 2016-05-10 | 2020-09-22 | Google Llc | System for measuring video playback events using a server generated manifest/playlist |
US11032588B2 (en) | 2016-05-16 | 2021-06-08 | Google Llc | Method and apparatus for spatial enhanced adaptive bitrate live streaming for 360 degree video playback |
MY190933A (en) * | 2016-09-08 | 2022-05-20 | Goh Soo Siah | Video ingestion framework for visual search platform |
US10482126B2 (en) * | 2016-11-30 | 2019-11-19 | Google Llc | Determination of similarity between videos using shot duration correlation |
AU2018250286C1 (en) | 2017-04-06 | 2022-06-02 | Inscape Data, Inc. | Systems and methods for improving accuracy of device maps using media viewing data |
BR112019021201A8 (pt) * | 2017-04-10 | 2023-04-04 | Hewlett Packard Development Co | Pesquisa de imagens de aprendizado de máquina |
FR3067496B1 (fr) | 2017-06-12 | 2021-04-30 | Inst Mines Telecom | Procede d'apprentissage de descripteurs pour la detection et la localisation d'objets dans une video |
CN107316083B (zh) * | 2017-07-04 | 2021-05-25 | 北京百度网讯科技有限公司 | 用于更新深度学习模型的方法和装置 |
WO2019008581A1 (en) | 2017-07-05 | 2019-01-10 | Cortica Ltd. | DETERMINATION OF DRIVING POLICIES |
WO2019012527A1 (en) | 2017-07-09 | 2019-01-17 | Cortica Ltd. | ORGANIZATION OF DEPTH LEARNING NETWORKS |
CN107748750A (zh) * | 2017-08-30 | 2018-03-02 | 百度在线网络技术(北京)有限公司 | 相似视频查找方法、装置、设备及存储介质 |
GB2567018B (en) * | 2017-09-29 | 2020-04-01 | Cirrus Logic Int Semiconductor Ltd | Microphone authentication |
WO2019082965A1 (ja) * | 2017-10-26 | 2019-05-02 | 日本電気株式会社 | トラヒック分析装置、システム、方法及びプログラム |
WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
US10776415B2 (en) * | 2018-03-14 | 2020-09-15 | Fuji Xerox Co., Ltd. | System and method for visualizing and recommending media content based on sequential context |
CN110959157B (zh) | 2018-05-01 | 2024-03-12 | 谷歌有限责任公司 | 加速大规模相似性计算 |
US10846544B2 (en) | 2018-07-16 | 2020-11-24 | Cartica Ai Ltd. | Transportation prediction system and method |
WO2020022956A1 (en) * | 2018-07-27 | 2020-01-30 | Aioz Pte Ltd | Method and apparatus for video content validation |
US10839694B2 (en) | 2018-10-18 | 2020-11-17 | Cartica Ai Ltd | Blind spot alert |
US11181911B2 (en) | 2018-10-18 | 2021-11-23 | Cartica Ai Ltd | Control transfer of a vehicle |
US20200133308A1 (en) | 2018-10-18 | 2020-04-30 | Cartica Ai Ltd | Vehicle to vehicle (v2v) communication less truck platooning |
US11126870B2 (en) | 2018-10-18 | 2021-09-21 | Cartica Ai Ltd. | Method and system for obstacle detection |
US10748038B1 (en) | 2019-03-31 | 2020-08-18 | Cortica Ltd. | Efficient calculation of a robust signature of a media unit |
US11270132B2 (en) | 2018-10-26 | 2022-03-08 | Cartica Ai Ltd | Vehicle to vehicle communication and signatures |
US11024291B2 (en) | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
US10789535B2 (en) | 2018-11-26 | 2020-09-29 | Cartica Ai Ltd | Detection of road elements |
US20220121975A1 (en) * | 2018-12-31 | 2022-04-21 | Google Llc | Using bayesian inference to predict review decisions in a match graph |
CN111523347A (zh) * | 2019-02-01 | 2020-08-11 | 北京奇虎科技有限公司 | 图像侦测方法、装置、计算机设备及存储介质 |
US11643005B2 (en) | 2019-02-27 | 2023-05-09 | Autobrains Technologies Ltd | Adjusting adjustable headlights of a vehicle |
EP3935581A4 (en) | 2019-03-04 | 2022-11-30 | Iocurrents, Inc. | DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING |
US11285963B2 (en) | 2019-03-10 | 2022-03-29 | Cartica Ai Ltd. | Driver-based prediction of dangerous events |
US11694088B2 (en) | 2019-03-13 | 2023-07-04 | Cortica Ltd. | Method for object detection using knowledge distillation |
US11132548B2 (en) | 2019-03-20 | 2021-09-28 | Cortica Ltd. | Determining object information that does not explicitly appear in a media unit signature |
US12055408B2 (en) | 2019-03-28 | 2024-08-06 | Autobrains Technologies Ltd | Estimating a movement of a hybrid-behavior vehicle |
US11222069B2 (en) | 2019-03-31 | 2022-01-11 | Cortica Ltd. | Low-power calculation of a signature of a media unit |
US10789527B1 (en) | 2019-03-31 | 2020-09-29 | Cortica Ltd. | Method for object detection using shallow neural networks |
US10796444B1 (en) | 2019-03-31 | 2020-10-06 | Cortica Ltd | Configuring spanning elements of a signature generator |
US10776669B1 (en) | 2019-03-31 | 2020-09-15 | Cortica Ltd. | Signature generation and object detection that refer to rare scenes |
WO2021113326A1 (en) * | 2019-12-03 | 2021-06-10 | Leverton Holding Llc | Data style transformation with adversarial models |
US10748022B1 (en) | 2019-12-12 | 2020-08-18 | Cartica Ai Ltd | Crowd separation |
US11593662B2 (en) | 2019-12-12 | 2023-02-28 | Autobrains Technologies Ltd | Unsupervised cluster generation |
US11590988B2 (en) | 2020-03-19 | 2023-02-28 | Autobrains Technologies Ltd | Predictive turning assistant |
US11827215B2 (en) | 2020-03-31 | 2023-11-28 | AutoBrains Technologies Ltd. | Method for training a driving related object detector |
US11756424B2 (en) | 2020-07-24 | 2023-09-12 | AutoBrains Technologies Ltd. | Parking assist |
US11450111B2 (en) * | 2020-08-27 | 2022-09-20 | International Business Machines Corporation | Deterministic learning video scene detection |
US12049116B2 (en) | 2020-09-30 | 2024-07-30 | Autobrains Technologies Ltd | Configuring an active suspension |
CN112380394B (zh) * | 2020-10-27 | 2022-05-10 | 浙江工商大学 | 面向文本到视频片段定位的渐进式定位方法 |
US11538248B2 (en) | 2020-10-27 | 2022-12-27 | International Business Machines Corporation | Summarizing videos via side information |
CN112597335B (zh) * | 2020-12-21 | 2022-08-19 | 北京华录新媒信息技术有限公司 | 一种戏曲选段的输出装置及输出方法 |
US12110075B2 (en) | 2021-08-05 | 2024-10-08 | AutoBrains Technologies Ltd. | Providing a prediction of a radius of a motorcycle turn |
CN114399531A (zh) * | 2021-12-24 | 2022-04-26 | 南京创思奇科技有限公司 | 一种基于视频着色的无监督目标密集跟踪方法 |
CN114650435B (zh) * | 2022-02-23 | 2023-09-05 | 京东科技信息技术有限公司 | 视频内重复片段查找方法、装置及相关设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5606655A (en) * | 1994-03-31 | 1997-02-25 | Siemens Corporate Research, Inc. | Method for representing contents of a single video shot using frames |
US5821945A (en) * | 1995-02-03 | 1998-10-13 | The Trustees Of Princeton University | Method and apparatus for video browsing based on content and structure |
US5966121A (en) * | 1995-10-12 | 1999-10-12 | Andersen Consulting Llp | Interactive hypervideo editing system and interface |
-
1999
- 1999-03-11 US US09/266,558 patent/US6774917B1/en not_active Expired - Lifetime
-
2000
- 2000-03-09 JP JP2000064979A patent/JP4253989B2/ja not_active Expired - Fee Related
-
2004
- 2004-06-03 US US10/859,832 patent/US7246314B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190026738A (ko) * | 2016-06-06 | 2019-03-13 | 아비질론 코포레이션 | 비디오 레코딩 내에 존재하는 동일한 사람 또는 물건을 대화형으로 식별하기 위한 방법, 시스템 및 컴퓨터 프로그램 제품 |
KR102244476B1 (ko) | 2016-06-06 | 2021-04-23 | 아비질론 코포레이션 | 비디오 레코딩 내에 존재하는 동일한 사람 또는 물건을 대화형으로 식별하기 위한 방법, 시스템 및 컴퓨터 프로그램 제품 |
US10901575B2 (en) | 2016-09-09 | 2021-01-26 | Lsis Co., Ltd. | Apparatus for editing graphic objects |
Also Published As
Publication number | Publication date |
---|---|
JP2000322450A (ja) | 2000-11-24 |
US6774917B1 (en) | 2004-08-10 |
US7246314B2 (en) | 2007-07-17 |
US20040221237A1 (en) | 2004-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4253989B2 (ja) | ビデオの類似性探索方法及び記録媒体 | |
JP4258090B2 (ja) | ビデオフレームの分類方法及びセグメント化方法、及びコンピュータ可読記憶媒体 | |
JP4269473B2 (ja) | オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム | |
US6928233B1 (en) | Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal | |
US10134440B2 (en) | Video summarization using audio and visual cues | |
KR100737176B1 (ko) | 신호 처리 방법 및 영상 음성 처리 장치 | |
US5708767A (en) | Method and apparatus for video browsing based on content and structure | |
US5821945A (en) | Method and apparatus for video browsing based on content and structure | |
US8442384B2 (en) | Method and apparatus for video digest generation | |
JP3485766B2 (ja) | デジタルビデオデータから索引付け情報を抽出するシステムとその方法 | |
EP1374097B1 (en) | Image processing | |
US20120057775A1 (en) | Information processing device, information processing method, and program | |
US6996171B1 (en) | Data describing method and data processor | |
Pfeiffer et al. | Scene determination based on video and audio features | |
Hauptmann et al. | Video Classification and Retrieval with the Informedia Digital Video Library System. | |
De Avila et al. | VSUMM: An approach for automatic video summarization and quantitative evaluation | |
Girgensohn et al. | Video classification using transform coefficients | |
JP2000285242A (ja) | 信号処理方法及び映像音声処理装置 | |
JP2002513487A (ja) | オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム | |
Hua et al. | Content based photograph slide show with incidental music | |
Haller et al. | Audiovisual anchorperson detection for topic-oriented navigation in broadcast news | |
JP4224917B2 (ja) | 信号処理方法及び映像音声処理装置 | |
Ren et al. | General highlight detection in sport videos | |
Yamauchi et al. | Chapter generation for digital video recorder based on perceptual clustering | |
Graves | Iconic indexing for video search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050425 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080930 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090106 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090119 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140206 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |