JP2000322450A - ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム - Google Patents

ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータシステム

Info

Publication number
JP2000322450A
JP2000322450A JP2000064979A JP2000064979A JP2000322450A JP 2000322450 A JP2000322450 A JP 2000322450A JP 2000064979 A JP2000064979 A JP 2000064979A JP 2000064979 A JP2000064979 A JP 2000064979A JP 2000322450 A JP2000322450 A JP 2000322450A
Authority
JP
Japan
Prior art keywords
video
frame
training
similarity
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000064979A
Other languages
English (en)
Other versions
JP4253989B2 (ja
Inventor
T Foote Jonathan
ティー. フート ジョナサン
Gargenshorn Andreas
ガーゲンショーン アンドレアス
Lynn D Wilcox
ディー. ウィルコックス リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2000322450A publication Critical patent/JP2000322450A/ja
Application granted granted Critical
Publication of JP4253989B2 publication Critical patent/JP4253989B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

(57)【要約】 (修正有) 【課題】類似するビデオの探索とその結果を表示するた
め、トレーニング画像から成るビデオクエリーを、対話
形式でビデオから選択できるようにする。 【解決手段】トレーニング画像で定義された画像クラス
統計モデルは、トレーニング画像変換で抽出された特徴
ベクトルから計算される。各フレームの特徴ベクトルは
フレーム変換から抽出され、類似性測度は特徴ベクトル
と画像クラス統計モデルを用いて計算される。類似性測
度はグラフィック表示され、ビデオの時間構造の視覚化
とブラウジングを実現する。類似性は、他のビデオファ
イルに対しても高速計算され、コンテントベースの例示
検索を実現する。トレーニングセグメントの選択は、ビ
デオの持続時間を表すタイムバーをマウスでクリックア
ンドドラッグして行う。類似性は、タイムバー内のシェ
ードとして表示される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、特定のコンテント
を自動的に探出す目的で、対話形式でビデオを処理する
分野に関するものである。具体的に言えば、本発明は、
トレーニング画像を対話形式で定義し、類似性探索の結
果を表示する分野に関する。
【0002】
【従来の技術】ビデオ検索用の大部分の最新技術のシス
テムは、最初にビデオを各ショットにセグメント化し、
次に、各ショットに対して、単一のキーフレーム、また
は複数のキーフレームを生成する。次に、ビデオセグメ
ントの検索を、キーフレームに基づく画像検索に変え
る。さらに複雑な従来のシステムは、クエリーセグメン
トにわたって、色と時間の変化を平均化するが、その後
で、セグメント化されたビデオ内のキーフレームに基づ
いて検索を行う。従来のシステムは、クエリー(例え
ば、即時再生)と正確に一致するビデオ系列を見つける
ように設計されている。
【0003】類似性による静止画像の検索について多く
の研究がなされてきた。色ヒストグラムの類似性に基づ
く検索が記述されてきた。いくつかの画像類似性測度
は、ウェーブレット分解に基づいていた。高次の係数を
量子化し、切り捨てれば、次元数が減らされるが、一
方、類似性距離測度は、ビット単位の類似性の計数にす
ぎない。とはいえ、この手法は、明らかに離散コサイン
変換にも、アダマール変換にも用いられなかった。類似
性による画像検索の公知のシステムはすべて、単一画像
を1クエリーとして要求し、当然、画像グループまたは
画像クラスにはまとめられない。ビデオクエリーについ
て多くの研究がなされてきたが、文献の多くは、現行の
解析または注釈を前提としながら、クエリーの数学的表
現に集中している。
【0004】ビデオ処理の費用が高くつくために、高速
の類似性測度に関しては、ほどんど研究がなされなかっ
た。色ヒストグラムと画素定義域のテンプレート照合と
の組合せを用いて個々の画像フレームの解析が試みられ
た。ただし、テンプレートは、用途に合わせて作らせな
ければならず、したがって、一般化されない。別の距離
測度技法は、これらのフレームの領域内のグレイレベル
の平均偏差と標準偏差に基づく距離など、統計的な性質
に基づいている。
【0005】他の従来の手法は、スケッチによるクエリ
ーを含み、このクエリーは、おそらく動き属性で向上す
る。クエリーとして、実際のビデオクリップを使用する
限り、この文献に記載のいくつかの報告書は、ビデオ
「ショット」が、クエリーに対しても検索に対しても静
止画像で表されるシステムと、ビデオセグメントの特徴
を、色ヒストグラムの平均の色と時間の変化とするシス
テムとを含む。同様な手法には、ショットを自動的に見
つけ出した後で、これらのショットを、色ヒストグラム
の類似性測度を用いて比較することが含まれる。きわめ
て縮小したフレーム画像表現の時間的相関を用いて、ビ
デオ系列と突合わせることが試みられてきた。これは、
ビデオショットの繰返しインスタンス(例えば、スポー
ツイベントの「即時再生」)を見つけることができる
が、実質的に類似しないビデオに、どの程度うまくまと
められるかは明らかでない。ビデオ類似性は、画像固有
投影の距離で決定されるフレーム距離の短いウィンドウ
間のユークリッド距離として計算されてきた。これは、
テストビデオ内に類似領域を見つけ出せるように思われ
るが、ただし、固有投影の計算に用いられるビデオによ
って決まるから、これもまた一般化されない。色ヒスト
グラムの照合と画像相関を用いてビデオインデックス付
けが試みられた。ただし、この相関が、大部分の対話形
式のアプリケーションに対して充分高速に行われ得るこ
とは明らかでない。動きの特徴を用いる隠れマルコフモ
デルのビデオセグメンテーションが研究されてきたが、
これは、じかに画像の特徴を使用しないし、また画像類
似性照合のためにも、画像の特徴を使用しない。
【0006】定義済みのクラスを、ビデオの検索とナビ
ゲーションに提供することに加えて、ビデオ分類技法
は、他の目的にも使用できる。ビデオのプレイバック中
に、ユーザが、プレゼンテーション中の話者のクローズ
アップなど、関心のある場面を見るときに、ユーザは、
その特定の状況に対して、定義済みの画像クラスがなく
とも、類似する場面を見つけ出すことに関心がある場合
もある。
【0007】
【発明が解決しようとする課題】本発明は、対話形式
で、ビデオの中から1場面を選択し、これに類似する場
面をビデオの中で見つけ出す方法を提供する。本発明
は、ユーザで選択されたものに類するビデオの時間間隔
を高速で見つけ出せるシステムを含む。類似性の結果
は、グラフィック表示されるときに、ビデオの構造を決
定するか、あるいはブラウズして所望のポイントを見つ
け出すのに役立つ。各ビデオフレームが、少数の係数と
して表されるから、類似性の計算は、きわめて速く、実
時間の何千倍もの速さで行われる。このことから、本発
明による対話形式のアプリケーションが可能となる。
【0008】従来のシステムは、類似するビデオ領域を
対話形式で見つけ出すのに、特殊性、一般性、または速
度を欠いている。従来の色ベースのシステムを用いる
と、誤って類似性ありと判定することがあまりにも多く
発生する。画素定義域の手法に基づく従来のシステム
は、計算的に過酷すぎるか(例えば、画像定義域相関照
合)、あるいは、類似するものと判断されるようにビデ
オがほぼ同一でなければならない点で特殊すぎる。これ
と対照的に、本発明による、縮小変換の特徴と、統計モ
デルは、正確であって、充分に一般化され、高速で働
く。
【0009】
【課題を解決するための手段】本発明の第1の態様は、
ビデオの類似性探索方法であって、ビデオから、トレー
ニングビデオセグメントを対話形式で定義する工程と、
トレーニングビデオセグメントのフレームに対応する縮
小特徴ベクトルを得る工程と、縮小特徴ベクトルを用い
て統計モデルをトレーニングする工程と、を含む。本発
明の第2の態様は、第1の態様において、ビデオの各フ
レームに対して、縮小特徴ベクトルを得る工程と、縮小
特徴ベクトルと統計モデルを用いて、類似性スコアを計
算する工程と、をさらに含む。本発明の第3の態様は、
第2の態様において、類似性スコアに基づいて、ビデオ
を、類似セグメントと非類似セグメントに分ける工程を
さらに含む。本発明の第4の態様は、第2の態様におい
て、トレーニングビデオセグメントのフレームに対応す
る縮小特徴ベクトルを得る工程と、ビデオの各フレーム
に対して縮小特徴ベクトルを得る工程が、ビデオに対応
するあらかじめ計算された特徴ベクトルデータベースか
ら、縮小特徴ベクトルを検索することで実行される。本
発明の第5の態様は、第2の態様において、トレーニン
グビデオセグメントのフレームに対応する縮小特徴ベク
トルを得る工程と、ビデオの各フレームに対して縮小特
徴ベクトルを得る工程が、ビデオのフレームを変換して
実行される。本発明の第6の態様は、第1の態様におい
て、トレーニングビデオセグメントのフレームに対応す
る各縮小特徴ベクトルが、フレームの彩度成分を表す特
徴と、フレームの輝度成分を表す特徴を含む。本発明の
第7の態様は、第6の態様において、各縮小特徴ベクト
ルが、輝度成分を表す特徴よりも少ない、彩度成分を表
す特徴を含む。本発明の第8の態様は、第1の態様にお
いて、トレーニングビデオセグメントのフレームに対応
する各縮小特徴ベクトルが、フレームの赤色成分を表す
特徴、フレームの緑色成分を表す特徴、フレームの青色
成分を表す特徴を含む。本発明の第9の態様は、第3の
態様において、類似性スコアに基づいて、ビデオを、類
似セグメントと非類似セグメントに分ける工程が、類似
性スコアを、対話形式で定義された類似性スレッショル
ドと比較することで実行される。本発明の第10の態様
は、ビデオブラウザ内にビデオを提示する方法であっ
て、ビデオを見るための表示ウィンドウを提供する工程
と、内部の位置が、ビデオの開始からの経過時間に直線
的に対応しているタイムバーをビデオブラウザ内に表示
する工程と、ビデオから、1つ、または複数のトレーニ
ングビデオセグメントを示すユーザトレーニング入力を
受取る工程と、類似性測度を示すために、ビデオ内の各
フレームに対応する位置で、タイムバーのシェードを用
いて、各フレームの類似性測度をトレーニングビデオセ
グメントに表示する工程と、を含む。本発明の第11の
態様は、第10の態様において、ユーザトレーニング入
力を受取る工程が、タイムバーに沿って、ユーザトレー
ニングマウス入力を受取る工程を含む。本発明の第12
の態様は、第10の態様において、各フレームの類似性
測度と比較するために、スレッショルドレベルを示すユ
ーザスレッショルド入力を受取って、1つ、または複数
のトレーニングビデオセグメントに類似するか、または
類似しないものとして、各フレームにラベルを付ける工
程と、タイムバー内の第1の対比する色またはパターン
が、類似または非類似の一方を示し、また第2の対比す
る色またはパターンが、類似または非類似の他方を示す
工程と、をさらに含む。本発明の第13の態様は、第1
2の態様において、類似セグメントの開始として、非類
似フレームに続く各類似フレームにインデックスを付け
る工程をさらに含む。本発明の第14の態様は、第12
の態様において、ユーザスレッショルド入力を受取る工
程が、スレッショルドスライダバーに沿って、ユーザス
レッショルドマウス入力を受取る工程を含む。本発明の
第15の態様は、第12の態様において、第1の対比す
る色またはパターンが黒色シェードであり、また第2の
対比する色またはパターンが白色シェードである。本発
明の第16ウェブベースのインタフェース内にビデオを
提示する方法であって、所定の時間間隔で区切られたビ
デオの周期フレームを表示する工程と、ビデオから、1
つ、または複数のトレーニングビデオセグメントを示す
ユーザトレーニング入力を受取る工程と、類似性測度を
示すために、各表示周期フレームの周りのシェードを用
いて、ビデオ内の各表示周期フレームの類似性測度をト
レーニングビデオセグメントに表示する工程と、を含
む。本発明の第17の態様は、第16の態様において、
ユーザトレーニング入力を受取る工程が、隣接して表示
される周期フレームのマウスクリックを検出すること
で、ユーザトレーニングマウス入力を受取る工程を含
む。本発明の第18の態様は、ビデオの類似性探索を行
う方法であって、ビデオから、対話形式でトレーニング
ビデオセグメントを定義する工程と、トレーニングビデ
オセグメントのフレームに対応する縮小特徴ベクトルを
得る工程と、前記縮小特徴ベクトルを用いて、統計モデ
ルをトレーニングする工程と、を含む方法を実行するた
めに、コンピュータに組込む、コンピュータ読取り可能
記憶媒体上で記憶されるコンピュータ読取り可能プログ
ラムコードを備える。本発明の第19の態様は、ビデオ
をビデオブラウザ内に提示する方法であって、ビデオを
見るための表示ウィンドウを提供する工程と、内部の位
置が、ビデオの開始からの経過時間に直線的に対応して
いるタイムバーをビデオブラウザ内に表示する工程と、
ビデオから、1つ、または複数のトレーニングビデオセ
グメントを示すユーザトレーニング入力を受取る工程
と、類似性測度を示すために、ビデオ内の各フレームに
対応する位置で、タイムバーのシェードを用いて、各フ
レームの類似性測度をトレーニングビデオセグメントに
表示する工程と、を含む方法を実行するために、コンピ
ュータに組込む、コンピュータ読取り可能記憶媒体上で
記憶されるコンピュータ読取り可能プログラム・コード
を備える。本発明の第20の態様は、ビデオをウェブベ
ースのインタフェース内に提示する方法であって、所定
の時間間隔で区切られたビデオの周期フレームを表示す
る工程と、ビデオから、1つ、または複数のトレーニン
グビデオセグメントを示すユーザトレーニング入力を受
取る工程と、類似性測度を示すために、各表示周期フレ
ームの周りのシェードを用いて、ビデオ内の各表示周期
フレームの類似性測度をトレーニングビデオセグメント
に表示する工程と、を含む方法を実行するために、コン
ピュータに組込む、コンピュータ読取り可能記憶媒体上
で記憶されるコンピュータ読取り可能プログラムコード
を備える。本発明の第21の態様は、プレセッサと、ユ
ーザインタフェースと、ビデオの類似性探索を行う方法
であって、ビデオから、対話形式でトレーニングビデオ
セグメントを定義する工程と、トレーニングビデオセグ
メントのフレームに対応する縮小特徴ベクトルを得る工
程と、前記縮小特徴ベクトルを用いて、統計モデルをト
レーニングする工程と、を含む方法を実行するために、
コンピュータシステムに組込む、プロセッサ読取り可能
記憶媒体上で記憶されるプロセッサ読取り可能プログラ
ムコードを有するプロセッサ読取り可能記憶媒体と、を
備える。本発明の第22の態様は、ディスプレイと、ユ
ーザインタフェースと、プロセッサと、ビデオブラウザ
内にビデオを提示する方法であって、ビデオを見るため
の表示ウィンドウを提供する工程と、内部の位置が、ビ
デオの開始からの経過時間に直線的に対応しているタイ
ムバーをビデオブラウザ内に表示する工程と、ビデオか
ら、1つ、または複数のトレーニングビデオセグメント
を示すユーザトレーニング入力を受取る工程と、類似性
測度を示すために、ビデオ内の各フレームに対応する位
置で、タイムバーのシェードを用いて、各フレームの類
似性測度をトレーニングビデオセグメントに表示する工
程と、を含む方法を実行するために、コンピュータシス
テムに組込む、プロセッサ読取り可能記憶媒体上で記憶
されるプロセッサ読取り可能プログラムコードを有する
プロセッサ読取り可能記憶媒体と、を備える。本発明の
第23の態様は、ディスプレイと、ユーザインタフェー
スと、プロセッサと、ウェブベースのインタフェース内
にビデオを提示する方法であって、所定の時間間隔で区
切られたビデオの周期フレームを表示する工程と、ビデ
オから、1つ、または複数のトレーニングビデオセグメ
ントを示すユーザトレーニング入力を受取る工程と、類
似性測度を示すために、各表示周期フレームの周りのシ
ェードを用いて、ビデオ内の各表示周期フレームの類似
性測度をトレーニングビデオセグメントに表示する工程
と、を含む方法を実行するために、コンピュータシステ
ムに組込む、プロセッサ読取り可能記憶媒体上で記憶さ
れるプロセッサ読取り可能プログラムコードを有するプ
ロセッサ読取り可能記憶媒体と、を備える。
【0010】本発明は、類似性により、対話形式でビデ
オをブラウズし、問合わせ、検索するシステムに実施さ
れる。対話形式で選択されるビデオ領域は、オンザフラ
イ式で統計モデルをトレーニングするのに用いられる。
クエリートレーニングセグメントは、個々のフレーム
か、フレームのセグメントか、隣接しないセグメント
か、画像のコレクションか、いずれかである。さらに、
このシステムを使用すれば、1つ、または複数の静止画
像から、類似する画像を検索することができる。類似性
測度は、縮小変換係数の統計的尤度に基づいている。こ
の類似性は、対話形式で類似するビデオ領域を探し出す
ために、高速計算され、グラフィック表示され、インデ
ックスとして使用される。
【0011】本発明は、探索とセグメンテーションを同
時に行って、事前にビデオを各ショットにセグメント化
する必要のないようにしている。ビデオの各フレーム
は、離散コサイン変換またはアダマール変換を用いて変
換される。この変換されたデータは、それほど重要でな
い係数を捨てて、したがって、ビデオの効率的な表現を
もたらすことで、減らされる。このクエリートレーニン
グセグメント(1つ、または複数)を使用して、ガウス
モデルをトレーニングする。次に、トレーニングされた
ガウスモデルで各ビデオフレームが生成される確率を計
算することで、単純な探索を行うことができる。これ
は、そのクエリーとの類似度を示す一連の信頼スコアを
提供する。信頼スコアは、類似性が即座に表示できるビ
デオブラウザで役立つ。
【0012】本発明の1つの態様では、ビデオ内の各フ
レームに対応する縮小変換係数は、事前に計算された特
徴ベクトルのデータベースに格納される。クエリートレ
ーニングセグメントの選択後に統計モデルをトレーニン
グするためにも、また統計モデルがトレーニングされた
後に、各フレームの類似性を評価するためにも、この特
徴ベクトルのデータベースを利用できる。
【0013】本発明は、類似性により、ビデオセグメン
トを検索する方法を含む。ユーザは、ビデオセグメント
(1つ、または複数)を選択することで、クエリーを形
成する。クエリービデオセグメントの統計モデルが形成
され、そのモデルを使用して、類似するセグメントを求
めてビデオを探索する。各フレーム用の類似性スコア
が、画像変換係数に基づいて計算される。ビデオデータ
ベース内の類似するビデオセグメントが識別されて、そ
れらをユーザに提示する。当該システムは、離散的な一
組の類似ビデオクリップを返さずに、類似性スコアを提
供し、その類似性スコアをビデオブラウザ内に使用すれ
ば、多かれ少なかれ類似するセグメントを表示させるこ
とができる。
【0014】本発明の別の態様では、ビデオウィンドウ
の下のタイムバーは、各フレームの尤度、したがって、
クエリートレーニングセグメントとの類似度を表示す
る。このバーが濃くなればなるほど、それだけ、ビデオ
が、クエリートレーニングセグメントに類似する。さら
に、このブラウザを使用して、タイムバーの類似セクシ
ョンをクリックすると、類似セグメントがランダムに利
用できる。ユーザは、タイムバーの或る部分をマウスで
クリックアンドドラッグすれば、対話形式で、1つ、ま
たは複数のトレーニングビデオセグメントを定義でき
る。
【0015】本発明のさらに別の態様では、ウェブベー
スのブラウザは、ビデオの中に、周期的な所定時間間隔
(例えば、5秒)で、すべてのフレームを表示する。ユ
ーザは、隣接する周期フレームを選択することで、トレ
ーニングビデオセグメント(1つ、または複数)を選択
する。次に、表示されない介在フレームはすべて、トレ
ーニングセグメントとして使用される。例えば、2つの
選択された隣接周期フレームの間の5秒間隔内のすべて
のフレームが、トレーニングセグメントとして使用され
る。類似性は、計算されると、表示周期フレームの周り
のシェードとして表示される。
【0016】本発明のさらに別の態様では、調整可能な
スレッショルドスライダバーを、このブラウザ内に設け
ている。類似性スコアが、このスレッショルドを超える
フレームは、類似するものとして示される。ビデオセグ
メンテーションは、1フレーム単位の類似性測度から行
われる。ガウスモデルは、このモデル尤度がスレッショ
ルドと、いつ交差するか求めることにより、セグメンテ
ーションに使用できる。隣接する類似フレームは、類似
するセグメントを定義する。類似するセグメントは、ブ
ラウザに表示される。またスキップ前進・後退ボタンを
使用すれば、次の類似セグメント、または前の類似セグ
メントの先頭にブラウズすることができる。このセグメ
ンテーションでタイムバーを起動する場合には、タイム
バーの濃い部分は、類似するセグメントを示し、またタ
イムバーの淡い部分は、類似しないセグメントを示す。
【0017】本発明の上述および他の特徴および利益
は、発明の詳細な説明において図面を参照してより完全
に記述される。
【0018】
【発明の実施の形態】ビデオの要約、ブラウジングおよ
び検索にとって、どのような種類の画像がそのビデオを
構成しているかを知ることは、しばしば有益である。例
えば、どのショットが人の顔のクローズアップを含んで
いるかを知ることは、ビデオの要約にそれらを含めやす
くするために有用である。本発明は、ビデオシーケンス
を所定のクラスの集合にセグメント化し分類する方法を
含む。ビデオクラスの例には、人々のクローズアップ、
群衆シーンおよび「パワーポイント(登録商標)」スラ
イドといったプレゼンテーション資料のショットを含
む。分類に使用される特徴は一般的であり、従って、ユ
ーザは任意のクラスタイプを指定できる。
【0019】図1は、本発明に従った方法の実施に適す
る汎用コンピュータシステム100を例示している。汎
用コンピュータシステム100は少なくとも1個のマイ
クロプロセッサ102を備える。カーソル制御装置10
5は、マウス、ジョイスティック、一連のボタンまた
は、ユーザがディスプレイモニタ104上でのカーソル
またはポインタの位置を制御できるようにする他のいず
れかの入力装置によって実現される。汎用コンピュータ
はまた、ランダムアクセスメモリ107、外部記憶装置
103、ROMメモリ108、キーボード106、モデ
ム110およびグラフィックコプロセッサ109を備え
ることもある。カーソル制御装置105および/または
キーボード106は、本発明に従ってユーザ入力を受け
取るための例示的なユーザインタフェースである。汎用
コンピュータ100のこれらの要素の全部は、1つの選
択肢においては、各種要素間でデータを転送するための
共通バス101によって互いに結合されている。バス1
01は一般に、データ、アドレスおよび制御の各信号を
含む。図1に示す汎用コンピュータ100は、汎用コン
ピュータ100の要素の全部を一体に結合する単一のデ
ータバス101を備えるが、汎用コンピュータ100の
各種要素を接続する単一の通信バス101が存在しなけ
ればならない必要はまったくない。例えば、マイクロプ
ロセッサ102、RAM 107、ROMメモリ108
およびグラフィックコプロセッサ109はデータバスに
よって結合され、ハードディスク103、モデム11
0、キーボード106、ディスプレイモニタ104およ
びカーソル制御装置105は第2のデータバス(図示せ
ず)によって接続される。この場合、第1のデータバス
101および第2のデータバス(図示せず)は、双方向
バスインタフェース(図示せず)によってリンクされ
る。あるいはまた、マイクロプロセッサ102およびグ
ラフィックコプロセッサ109といった一部の要素は第
1のデータバス101および第2のデータバス(図示せ
ず)の両方と接続され、第1のデータバスと第2のデー
タバスとの間の通信はマイクロプロセッサ102および
グラフィックコプロセッサ109によって行われる。こ
のように、本発明の方法は、図1に100で示したよう
なあらゆる汎用コンピュータシステム上で実行可能であ
り、このコンピュータシステムが本発明の方法を実行し
得る唯一のものであるといった制限はまったく存在しな
いことは明白である。
【0020】図2は、本発明によるビデオの分類を実行
する方法におけるデータの流れを示す。ビデオファイル
201はビデオ記録物のディジタル表現である。ビデオ
ファイル201は一般にMPEGといった標準ディジタ
ルフォーマットで符号化されている。画像クラス統計モ
デル202〜205は、4つの個別の画像クラスに対応
する所定のガウス分布を表現している。矢印209は、
特徴ベクトル208を抽出するためのビデオファイル2
01の処理を示す。矢印209において行われる処理は
以下の通りである。ビデオファイル201は、MPEG
といった標準ディジタルフォーマットで符号化されてい
る場合、復号化され、画素の矩形マトリックスに変換さ
れる。画素の矩形マトリックスは、下位画像のより小形
の矩形マトリックスに簡約化され、この場合、各下位画
像はその下位画像に対応する画素から導かれるグレイス
ケール符号を表現する。下位画像の矩形マトリックスに
変換が施され、変換係数のマトリックスを生じる。変換
係数のマトリックスから、ビデオ特徴208が、ビデオ
分類のためのビデオ集合として示される変換マトリック
ス内の係数位置にある変換係数として選択される。クラ
シファイヤ(分類ユニット)206は各ビデオ特徴20
8を受け取り、それらのビデオ特徴208を画像クラス
統計モデル202〜205の各々に入力する。この結
果、ビデオファイル201の各フレームは、画像クラス
統計モデル202〜205により表現される画像クラス
のいずれかに分類される。ビデオファイル201のフレ
ームに対応するようにクラシファイヤ206によって決
定された対応する画像クラスは、クラスのラベル付けさ
れたビデオ207に索引づけられる。このようにして、
クラスラベル付けされたビデオ207は、そのフレーム
が属する画像クラスを示す各フレームに関係づけられた
情報を含む。
【0021】図2に示す通り、システムは最初に、ビデ
オシーケンスから分類のための特徴、例えば離散コサイ
ン変換係数を抽出するが、カラーヒストグラムといった
他の特徴を選択的に使用することもできる。認識される
ビデオの各フレームのモデルを構築するために、トレー
ニングデータが使用される。このトレーニングデータ
は、そのクラスからの単数または複数のビデオシーケン
スより構成される。クラスモデルは、ガウス分布または
隠れマルコフモデルのどちらか一方にもとづくことがで
きる。未知のビデオからクラスモデルおよび特徴が与え
られたと、システムは、そのビデオをセグメント化し、
それぞれのクラスに属するセグメントに分類する。
【0022】ガウス分布型クラシファイヤは、クラスモ
デルを用いて各フレームの尤度(likelihoo
d)を計算する。そのフレームのクラスは最大尤度を有
するクラスである。同じクラスラベルを有する隣接フレ
ームは併合されてセグメントを形成する。さらに、その
尤度は、各クラスにおける帰属関係の信頼の程度を表示
するブラウザにおいて選択的に使用される。隠れマルコ
フモデル法の場合、隠れマルコフモデル状態は異なるビ
デオクラスに対応する。バイタービ(Viterbi)
アルゴリズムが使用される。最大尤度状態シーケンス、
従って各フレームのクラスラベルを見つけるため、信頼
度のスコアは状態シーケンスの確率から得られる。この
隠れマルコフモデルクラシファイヤは、上記のフレーム
ごとのクラシファイヤよりも複雑であるが、セグメント
の連続性および順序を強制することによってセグメント
を平滑化する役割を果たす。これは、単一フレームのク
ラス決定の変更を効果的に禁止する。
【0023】各画像またはビデオフレームは、離散コサ
イン変換またはアダマール変換といった変換を用いて変
換される。多くの用途の場合、完全なビデオフレームレ
ートは不要であり、フレームは、選択的に数個のフレー
ムのうちの1個だけが変換されるように時間的に間引か
れる。この間引きによって、記憶コストおよび計算時間
は劇的に軽減される。画像圧縮においては、一般に小さ
な下位ブロックに対して変換が行われるが、ここではフ
レーム画像全体に変換が適用される。変換されたデータ
はその後、有意性の低い情報を破棄することによって低
減される。これは、切り捨て(truncatio
n)、主成分分析または線形識別解析などといった多数
の技法のいずれかによって行われる。この用途の場合、
また、経験的に示される通り、主成分分析が良好に作用
する。それが特徴次元の相関を分離する傾向があり、従
って、データが、後述の通りガウスモデルおよび隠れマ
ルコフモデルの対角共分散仮定によく一致するからであ
る。しかし、最大分散を有する係数を単純に選択するこ
とが極めて有効であると判明している。これは、各フレ
ームに関してコンパクトな特徴ベクトル(簡約化された
係数)をもたらす。この表現は、類似の画像のフレーム
が類似の特徴を有するので、分類にとって適切である。
【0024】図3は、本発明による、トレーニングフレ
ーム、トレーニングフレームから得られた平均特徴ベク
トルの逆離散コサイン変換およびトレーニングフレーム
から得られた平均特徴ベクトルの逆アダマール変換を例
示する。従って、トレーニングフレーム301〜308
は、ビデオ画像クラスに関係する一連のトレーニング画
像を表す。トレーニング画像301〜308によって表
現された画像クラスは、英語で「演壇の正面に立つ話
者」と説明される。フレーム310は、トレーニングフ
レーム301〜308から抽出された8成分特徴ベクト
ルにもとづいて計算された平均特徴ベクトルに対応する
逆離散コサイン変換を図示している。フレーム310で
は、ビデオ分類のための特徴集合は10成分特徴集合で
ある。従って、各フレームからの10個の変換係数だけ
が各トレーニングフレームに関係づけられた特徴ベクト
ルを構成する。フレーム311は、トレーニングフレー
ム301〜308の各々から抽出された100成分特徴
ベクトルにもとづいて計算された平均特徴ベクトルの逆
離散コサイン変換を表す。フレーム312は1000成
分特徴ベクトルの逆離散コサイン変換である。フレーム
312は、逆離散コサイン変換において使用される係数
の数が増加しているので、それ自体がフレーム310よ
りも詳細な表示をしているフレーム311よりもさらに
詳細に表示している。
【0025】フレーム320は、トレーニング画像から
得られた平均特徴ベクトルの逆アダマール変換を表す。
フレーム321は100成分特徴ベクトルに対応する逆
アダマール変換を表す。フレーム322は1000成分
特徴ベクトルに対応する逆アダマール変換を表す。
【0026】1/2秒間隔で取られたMPEGフレーム
は、復号化され、64×64グレイスケール強度下位画
像に簡約化された。得られたフレーム画像は、離散コサ
イン変換およびアダマール変換により符号化された。最
大分散(順位)を有する係数および最も重要な主成分の
両者が特徴として選択された。ガウスモデルは、1〜1
000の可変数の次元によってトレーニング集合でトレ
ーニングされた。図3は特徴カテゴリの1つ(figo
nw)のサンプルを示す。このカテゴリは、明るい(白
い)背景を背にした人々のクローズアップよりなる。こ
のクラスの画像が、カメラアングル、照明および位置の
点で、おそらくは典型的なニュースキャスターの画像よ
りもいかに大きく変化し得るかに留意されたい。平均お
よび共分散は、最大分散の離散コサイン変換およびアダ
マール変換の係数によってトレーニングされた。各モデ
ルは、ゼロに設定された破棄係数を有する平均を逆変換
することによって画像化されている。共分散は示されて
いないが、平均がトレーニングデータからの主要な特徴
(暗色の中央の人影)を捕捉することは明白である。図
3は、少ない数の係数によっても、トレーニングデータ
における主要な形状が、逆変換された時に依然認識可能
であることを示している。
【0027】図4は、異なる平均および分散を有する2
つの一次元ガウス分布を示す。確率曲線401によって
表現された分布Aは平均μAを有する。確率曲線402
によって表現された分布Bは平均μBを有する。分布A
から生じるある値Xの確率は、横軸に対する点403の
垂直位置である。同様に、分布Bより生じる値Xの確率
は、横軸に対する点404の垂直高さである。点403
における確率が点404における確率よりも高いので、
Xは分布Aから最も得られやすい。図4は一次元プロッ
トであり、2つの画像クラスAおよびBならびに1成分
特徴集合が与えられた時、図4は、本発明に従って行わ
れるビデオフレームの分類の最大尤度の方法を的確に例
示する。
【0028】特徴データが与えられると、ビデオセグメ
ントは統計的にモデル化される。単純な統計モデルは多
次元ガウス分布である。ベクトルxが1フレームの特徴
を表現すると仮定すると、そのフレームがガウスモデル
cによって生成される確率は次式の通りである。
【0029】
【数1】
【0030】ここで、μcは平均特徴ベクトル、Σcはモ
デルcに関係するd次元特徴の共分散マトリックスであ
る。式(x−μc)’は差分ベクトルの変換である。実
際には、対角共分散マトリックス、すなわちΣcの非対
角線上成分がゼロであると仮定するのが普通である。こ
れにはいくつかの利点がある。最も重要なことは、自由
パラメータ(マトリックス成分)の数をd(d−1)/
2からdに減らすことであり、これは問題の次元d(d
は100のオーダー)が高い時に重要となる。共分散マ
トリックスは少数のトレーニングサンプルにより計算さ
れる際にしばしば不良条件となるので、これはマトリッ
クスの逆の計算が極めて単純になり、より確固としたも
のになることを意味する。このようにガウスモデルによ
って画像を分類するために、必要なクラスの各々につい
て1組のサンプルトレーニング画像が集められ、パラメ
ータベクトルμcおよびΣcが計算される。未知の画像x
が与えられると、各画像クラスの確率が計算され、その
画像は最大尤度モデルによって分類される。あるクラス
(トレーニング集合)にとっては対数尤度だけが類似性
の有用な測度であり、本発明によるビデオブラウザとい
った用途において直接使用される。より精緻なモデル
は、多数のパラメータおよび混合重みを評価するために
期待値最大化アルゴリズムが与えられた時に、ガウス混
合を使用することができる。さらなる代替として、ニュ
ーラルネットワークまたは他の形式のクラシファイヤが
使用される。単一のガウスモデルの場合、μcおよびΣc
の計算は、計算法としては容易であり、極めて迅速に行
える。単一画像からのモデルのトレーニングの場合、平
均ベクトルは画像特徴に設定され、分散ベクトル(対角
共分散マトリックス)は全部の画像に対する大域変数の
何らかの比に設定される。未知のフレームおよび数個の
モデルが与えられた場合、その未知のフレームは、どの
モデルが最大確率をもってそのフレームを生じるかによ
って分類される。
【0031】図5は、本発明によるビデオ分類のための
特徴集合を選択する例示的方法を示す。すなわち、図5
は、統計モデルのトレーニングのため、および、統計モ
デルがトレーニングされた際のビデオの類似性測定およ
び分類のために、抽出および分析する係数位置を変換す
る選択過程を表している。図5に記載した方法は、多数
のトレーニング画像に見られるの特性を考慮している。
以下に述べる分類法において、特徴集合を最適に選択す
るために使用されるトレーニング画像は、異なるクラス
全部の画像を含む。これは、図5に示す方法が異なるク
ラスの画像を区別するために特徴の最適な集合を選択す
るのを助ける。図5に示す方法の代替として、特徴集合
で使用する係数位置は、観測されるビデオ特性を全く考
慮せずに、図6および8に示すように単に最低頻度係数
を選択することによる切り捨てによって選択される。
【0032】V×Hの離散コサイン変換係数位置を考
え、そこから特徴集合としてより小さな数dを選択す
る。図6に示した例ではV=H=8である。より典型的
で実際的なシナリオではV=H=64であり、従って、
選択するべき4096(64×64)個の係数位置があ
る。最大分散係数を選び出すための1つの代替の方法
は、4096×4096共分散マトリックスを計算した
後、適切に特徴を選び出すが、必ずしも順番に行う必要
はない。簡約化ベクトルの実際の順序は重要ではない
が、一致していなければならない。
【0033】工程501で、平均係数マトリックスが計
算される。平均係数マトリックスは、変換が適用される
下位画像のマトリックスと同じ行数Vおよび同じ列数H
を有しており、また、結果として得られる変換係数マト
リックスとも同数の行および列を有する。平均マトリッ
クスの各位置は、トレーニング画像にある対応する係数
の算術平均である。1つの実施の形態では、平均係数マ
トリックスは、分散マトリックスを計算する過程の予備
工程として計算される。別の実施の形態では、平均係数
マトリックスの値自体を解析して、特徴集合を選択す
る。例えば、ある実施の形態では、最大平均値を有する
係数位置が特徴集合として選択される。工程502で
は、分散マトリックスが計算される。分散マトリックス
は、平均マトリックスおよび変換マトリックスと同じ行
数Vおよび同じ列数Hを有する。分散マトリックス50
2の各値は、トレーニング画像の変換マトリックスにお
ける対応する位置の統計分散を表現する。あるいはま
た、分散マトリックス502の各値は、標準統計分散以
外である「分散」測度を表現するが、それでもやはりそ
れは変動の測度を表現する。例えば、観測された各係数
の平均係数との差の算術平均絶対値は、標準統計分散に
使用されるような2乗差の和よりも、「分散」測度とし
て使用できる。
【0034】工程503において、特徴集合が選択され
る。この特徴集合は、本発明による多様な方法のいずれ
かによって工程503で選択される。例えば、特徴集合
は選択的に、最大平均値を有するd個の係数位置として
選択される。あるいはまた、特徴集合は分散マトリック
スで最大分散値を有するd個の係数位置として選択され
る。さらに別の代替法として、特徴集合は、主成分分析
または線形識別解析によって選択される。
【0035】最も単純な特徴集合選択法では、特徴集合
のd個の係数位置が切り捨てによって選択され、それに
より、変換マトリックスの最低頻度係数のみが、トレー
ニングフレームのいずれかにおけるそれらの位置の実際
の係数の値にかかわらず、特徴集合を構成するように選
択される。実際、切り捨てによると、最低頻度成分が最
も重要であると単純に仮定されるので、いずれのトレー
ニングフレームもまったく分析される必要はない。
【0036】特徴集合の選択はトレーニング画像の各群
について行われる必要はないことに留意しなければなら
ない。一般に、特徴集合は、分類方法において使用され
る全部のクラスモデルから全部のトレーニング画像を使
用する上記の方法のいずれかにもとづいて選択される。
例えば、図2のクラスモデル202〜205の各々を定
義するために使用されるトレーニング画像の全部は、そ
れらのトレーニング画像の全部について平均マトリック
スおよび分散マトリックスを計算することによって解析
されて、それらのクラスモデルの各々の分類のための最
適な特徴集合を決定する。従って、本発明による分類法
における各ビデオ画像クラスについて同じ特徴ベクトル
が検索されるように、好ましくは同一の特徴集合が全部
のクラスモデルに関して使用される。しかし、本発明に
よる画像クラスの各々について同一の特徴集合が使用さ
れなければならないという必要性はまったくない。これ
に関して、各画像クラスは、その画像クラスの検出に最
適に選択された特徴集合を有することができるが、その
画像クラスの対応する確率の計算を行うために各ビデオ
フレームから異なる特徴ベクトルを抽出しなければなら
ないという演算負荷の増加を伴う。
【0037】図6は、ビデオフレームの離散コサイン変
換から得られる変換マトリックスを示す。列1は水平周
波数0(従って直流)を表現し、列2は水平周波数fh
を表現し、そして、列8は水平周波数13fvの係数を
表す。同様に、行1は垂直周波数0(すなわち直流)の
係数を表現し、行2は垂直周波数fvを表現する。変換
マトリックス600の行8は垂直周波数13fhの係数
を表す。変換マトリックス600の左上隅の9個の係数
はその変換マトリックスの最低周波数係数を表す。ブラ
ケット601および602で囲まれたこれらの9個の係
数は、本発明による特徴集合を選択する9係数切り捨て
法によって選択される9個の係数位置である。より高周
波数の係数は画像の細部を表現するので、それらはある
フレームのビデオ画像クラスを決定するうえでそれほど
重要でないことがほとんどである。
【0038】図7は、本発明に従って2個以上の変換マ
トリックスから計算された分散マトリックスを示す。図
8は、本発明に従った切り捨てによって決定された特徴
集合800を示す。最低頻度成分に対応する変換マトリ
ックスの9個の係数は、図8に示す通り特徴集合800
として選択された。例えば、成分801、802および
803は図6に示す変換マトリックス600の行1の最
初の3個の係数位置を表し、成分804、805および
806は変換マトリックス600の第2の行の最低頻度
成分を表し、成分807、808および809は変換マ
トリックス600の第3の行の最低頻度係数位置を表
す。変換マトリックス600の最初の3個の行は変換に
おける最低垂直頻度を表し、従って特徴集合800で指
定された9個の成分は切り捨て法に関して適切な選択で
ある。
【0039】図9は、本発明に従って図8に示した特徴
集合を有するトレーニングフレームの2個の特徴ベクト
ルから計算された平均特徴ベクトル900を示す。この
ように、係数801〜809に対応する平均マトリック
ス(図示せず)の値は平均特徴ベクトル900として記
憶される。
【0040】図10は、本発明に従って図8に示した特
徴集合を有するトレーニングフレームの2個以上の特徴
ベクトルから計算された対角共分散マトリックスを示
す。共分散マトリックスは必ず正方かつ対称である。こ
の共分散は次元d×dのマトリックスである。共分散は
全部の異なる次元に関する相関を表現する。対角共分散
を使用することによって、d個の非ゼロ値が存在し、数
学演算のためには、それはマトリックスとして扱われな
ければならないものの、d成分のベクトルとしてみなす
ことができる。対角共分散マトリックス1000の全部
の非対角線上成分は、特徴集合における全部の特徴がそ
の特徴集合の他の特徴と統計的に非相関関係にあるとい
う仮定にもとづき、ゼロに設定される。実際、特徴が相
関関係にあれば、特徴空間の座標変換に対して主成分分
析が最適に使用され、それにより対角共分散仮定も良好
に満たされる。対角共分散マトリックス1000は、図
9に示した特徴ベクトル900および、図6に示した変
換マトリックス600の切り捨てにより決定された特徴
ベクトル800に対応する。
【0041】図11は、本発明の方法による図8に示し
た特徴集合を有するフレームについて検索された特徴ベ
クトル1100を示す。このように、特徴ベクトル11
00の各成分1101〜1109は、変換された画像フ
レームから得られた実際の変換係数を含む。特徴ベクト
ル1100は、本発明に従った分類方法においてビデオ
ファイル201から抽出される図2に示したビデオ特徴
208の実例である。
【0042】図12は、本発明により2個以上のビデオ
画像クラスのいずれかにビデオのフレームを分類する方
法を例示している。この方法は工程201に始まり、工
程202で、ビデオの第1のフレームが離散コサイン変
換またはアダマール変換のいずれか一方によって変換さ
れる。工程1203で、特徴工程によって示された位置
にある係数に対応する特徴ベクトルが抽出される。工程
1204では、特徴ベクトルを生成する各画像クラス統
計モデルの尤度または確率が計算される。工程1205
で、そのフレームに対応する特徴ベクトルを生成する確
率が最も高い画像クラス統計モデルを有する画像クラス
が選択される。工程1206で、そのフレームが、工程
1205で決定されたそのクラス指定によりラベルづけ
される。この工程では、フレームは、将来容易にブラウ
ズまたは検索されるように、そのクラスに従って索引づ
けがなされる。検査1207は、そのビデオにさらにフ
レームが存在するかどうか、すなわち、それが分類中の
ビデオの最後のフレームであるかどうかを判定する。さ
らにフレームがあれば、分岐1208は方法を次のフレ
ームを変換する工程1202へ戻し、それがビデオの最
終フレームである場合には、工程1209は図2に示し
たクラスのラベルづけされたビデオ207が完了したこ
とを指示する。
【0043】図13は、本発明に従い切り捨て以外の方
法によって決定された特徴集合を示す。例えば、主成分
分析、最大分散を有する係数の選択または最大平均を有
する係数の選択の内の1つの想定可能な結果が、図13
に示す特徴集合1300によって例示されている。図1
3に示された6成分特徴集合1300は、図6に示した
係数位置610〜615を含む。図13に示された6成
分特徴ベクトル1300の係数位置1301として含ま
れ、図6に示された変換マトリックス600の第2行、
第6列の係数位置614の包含は、11fhに対応する
比較的高い水平頻度成分が画像クラスを弁別する際に有
効であることを示す。高頻度成分の包含はほとんど、フ
レームを認識するのに一般に比較的小さく鋭いエッジを
有するテキスト等の小さな鋭い特徴を検出することを要
する場合に生じる。
【0044】図14は、本発明に従って、図13に示す
6成分特徴集合を有するトレーニングフレームの2個以
上の特徴ベクトルから計算された平均特徴ベクトル14
00を示す。
【0045】図15は、本発明に従って、図13に示す
特徴集合を有するトレーニングフレームの2個以上の特
徴ベクトルから計算された対角共分散マトリックス15
00を示す。特徴集合で示された係数位置の値の間に相
関関係が存在しないという仮定にもとづき、対角共分散
マトリックス1500の非対角線上成分は、やはりゼロ
に設定されている。
【0046】図16は、本発明に従った分類のための図
13に示す特徴集合1300を有するフレームから検索
された特徴ベクトル1600を示す。このように、成分
1601〜1606は、本発明の方法に従って分類され
るフレームの変換によって生じる変換マトリックスから
得られる実際の個々の変換係数を表現している。
【0047】十分なデータ簡約化が行われた場合、クラ
シファイヤは、プレゼンテーションスライド、発表者ま
たは聴衆といった典型的な会議のビデオシーンの間を識
別するために、本発明に従って容易にトレーニングされ
る。会議ビデオの領域分野の他に、この方法は、ニュー
スキャスターのショットなど、あるクラスの画像が類似
の構成を有する場合には良好に作用するはずである。本
発明による方法を評価するために、ビデオテープ録画さ
れたスタッフ会議の資料に関して多数の実験を行った。
ビデオショットは、6つのカテゴリに分類され、資料は
トレーニング集合および試験集合に分けられた。
【0048】ビデオ分類実験は、6カ月の期間に開かれ
ビデオ録画されたスタッフ会議の資料に関して実施され
た。各ビデオはカメラオペレータによって作成され、オ
ペレータは、パン/チルト/ズームの制御が可能な3台
のカメラによるビデオと、パーソナルコンピュータおよ
び演壇カメラからのビデオ信号との間で切り換えを行っ
た。後者の装置は、透明および不透明資料といったプレ
ゼンテーショングラフィックスを背面映写スクリーンに
表示できるようにした。従って、ビデオショットは一般
に、発表者、聴衆ショットおよび、「パワーポイント
(登録商標)」スライドまたは透明資料といったプレゼ
ンテーショングラフィックスより構成される。得られた
ビデオはMPEG−1符号化され、サーバに記憶され
た。
【0049】資料には、21回の会議ビデオが収めら
れ、ビデオ収録時間の合計は13時間以上であった。資
料は、会議ビデオを交互に選ぶ形で、試験およびトレー
ニングセグメントに任意にセグメント化された。試験お
よびトレーニングデータは下記の表1に示す6つのクラ
スにラベルづけられ、表はトレーニングおよび試験の各
集合のフレームの数も示している。相当量のデータがい
ずれのカテゴリにも当てはまらず、ラベルづけされずに
残された。6つのクラスは、プレゼンテーショングラフ
ィックス(slides)、照明付き映写スクリーンの
ロングショット(longsw)、照明なしの映写スク
リーンのロングショット(longsb)、聴衆のロン
グショット(crowd)、明背景での人物像の中間ク
ローズアップ(figonw)および暗背景での人物像
の中間クローズアップ(figonb)を表現するよう
に選択された。(スクリーンショットといった)単一の
カテゴリでかつ(照明付きと照明なしのスクリーンショ
ットといった)著しく異なるモードの場合、各モードに
ついて別のモデルが使用された。これは、単一ガウスモ
デルとのすぐれた一致を保証したが、別の方法は結合モ
デルをモデル化するためにガウス混合を代替的に使用す
る。同一の論理クラスをモデル化するように意図されて
いる場合、異なるモデルは選択的に結合される。例え
ば、人物像を見つけることを意図している場合に背景色
は重要ではないので、分類結果を提示する際にfigo
nwおよびfigonbクラスの結合が行われる。
【0050】
【表1】
【0051】実験は、ガウス分布型クラシファイヤが長
時間のビデオの脈絡における特定のクラスからビデオフ
レームを検出することを実証している。これは、長時間
のビデオから、類似フレームの領域として定義されたシ
ョットをセグメント化するために使用される。これは、
例えばスライドを含むショットの始まり、といった有益
な索引点を提供する。他の方面では、例えばフレームま
たは色の相違によってショットがすでに突き止められて
いる場合、そのショットから全部のフレームに関してシ
ョットモデルが容易にトレーニングできる。これによ
り、共分散が動きその他の変化により生じる差異を捕捉
するので、ショットを類似性により検索できるようにな
る。あるショットを表現するキーフレームが、尤度距離
計量を用いてそのショット平均に最も近いフレームを見
つけることにより容易に見出せる。画像を表現する係数
の数は極めて控え目であるので(主成分分析のフレーム
当たり10個程度の特徴)、1つの代替法は、ビデオデ
ータ自体に比べてもほとんどまったくオーバヘッドを伴
うことなく、ビデオとともに特徴を記憶することであ
る。ガウスモデルは計算が容易なので、モデルは選択的
にオンザフライでトレーニングされる。これは対話型ビ
デオ検索のような用途を可能にし、この場合、ユーザ
は、時間バー上をドラッグしてビデオ領域を選択するな
どして、所望のクラスを指示する。モデルはその領域の
特徴について迅速にトレーニングされ、大きなビデオ資
料のフレームに対応する類似性が迅速に計算される。資
料における高い尤度の領域は、選択されたビデオに良好
に一致する領域であり、資料の索引として機能する。
【0052】多様なモデル結果をスレッショルド設定を
用いずに示すために、最大尤度法を使用して、ラベルづ
けされた試験フレームを分類した。下記の表2は、30
個の最大分散離散コサイン変換係数の使用による結果を
示す。クラスfigは、figonwおよびfigon
bの結合クラスの上位集合である。各列は試験フレーム
の実地検証情報ラベルであり、行は、行クラスとして認
識される試験集合におけるサンプルの割合(小数分率)
を示す。非ゼロの非対角線上成分は分類誤差を表す。す
べてのラベルづけされたフレームは、それ自体のラベル
と異なることはあっても最大尤度クラスを有するので、
列の合計は1になる。
【0053】
【表2】
【0054】図17は、本発明によって類似性を決定す
る方法において、類似性を決定するためのスレッショル
ドとして使用されるスライド画像クラス統計モデルの標
準偏差の倍数の関数として、スライドとして正しく識別
されたスライドフレームの割合およびスライドとして誤
って識別された非スライドフレームの割合を示す。代替
的な実施の形態として、類似性を決定するためのスレッ
ショルドは一般的なものであり、例えば、他のクラスの
最大尤度によって決定される。x軸は標準偏差の所定の
倍数を表し、y軸はスレッショルドのその特定の選択に
もとづいて類似と識別されたフレームの割合を表す。プ
ロット1701は、実際にスライドであり、本発明の類
似性評価法によって正しくスライドとして識別されたフ
レームの割合を示す。プロット1702は、実際にはス
ライドでなく、本発明の類似性評価法によって誤ってス
ライドとして分類されたフレームの割合を示す。
【0055】図17は、ビデオを分類しセグメント化す
るためにガウスモデルがどのように使用されるかを実証
している。スタッフ会議ビデオの資料による実験は、ス
ライド、話者、聴衆といったクラスが正しく認識される
ことを示した。1/2秒間隔で取られたMPEG−1フ
レームは、復号化され、64×64グレイスケール強度
下位画像に簡約化された。得られたフレーム画像は離散
コサイン変換およびアダマール変換により符号化され、
最大平均値を有する100個の係数が特徴として選択さ
れた。対角共分散ガウスモデルが80例のスライドフレ
ームについてトレーニングされ、無関係の試験ビデオの
スライドフレームおよびタイトルの確率を計算するため
に使用された。
【0056】(共分散|Σ|1/2からの)標準偏差の倍
数で尤度をスレッショルドとすることは、クラスの帰属
関係を検出するうえで極めて有効であることが示されて
いる。また、そのようなスレッショルドは、使用される
係数の数からまったく独立である。図17は、スライド
検出比が多様なスレッショルドにおいてどのように変化
するかを示している。グラフは、スレッショルドが標準
偏差の約1.1倍のとき、84%の正確なスライド認識
率をもたらし、誤り認識はほとんどない(9%)ことを
示している。標準偏差により正規化された場合、尤度
は、それ自体で、クラスモデルに対する所与のフレーム
の類似性の指標として有益である。全部のクラスが同様
の検出率を有するが、誤り認識の数はクラスごとに異な
っている。
【0057】単純ガウスモデルは上記のようにトレーニ
ング画像の平均を計算するので、画像シーケンスに関係
するいずれかの時間変化情報を失う。動きまたは連続と
いった動的な情報を捕捉するために、モデルは様々な方
式で選択的に拡張される。フレーム間差異または簡約化
された特徴の傾向によりモデルをトレーニングすること
により、動きまたはフェードといった時間変化効果はモ
デル化される。
【0058】図18は、本発明による画像クラス統計モ
デルを用いたビデオフレームの類似性を判定する方法を
示す。工程1801で、現在分析中のフレームに対応す
る特徴ベクトルが検索される。工程1802で、その画
像クラス統計モデルに対応する平均特徴ベクトルが検索
される。工程1803で、特徴ベクトルからの平均特徴
ベクトルの減算を表現する差分ベクトルが計算される。
工程1804で、差分ベクトルの大きさが画像クラス統
計モデルの標準偏差の所定の倍数と比較される。差の大
きさが標準偏差の所定の倍数より小さい場合、工程18
05はそのフレームを類似として分類する。差の大きさ
が標準偏差の所定の倍数より小さくなければ、工程18
06がそのフレームを非類似として分類する。図18に
例示した類似性を判定する方法は、ガウスの公式による
実際の確率計算を必要としないことに留意しなければな
らない。代わりに、差分ベクトルの大きさおよび標準偏
差がユークリッド距離として計算される。差分ベクトル
の大きさは、そのd個の成分の平方の和の平方根によっ
て計算される。画像クラスの標準偏差は、対角共分散マ
トリックスの対角線上成分の和の平方根として計算され
る。
【0059】図19は、本発明に従ってビデオの各種フ
レームを生成する画像クラス統計モデルの確率の対数表
示を示している。対数は単調関数なので、確率の対数
は、類似性の大小を判定するために確率を比較するのと
同様に比較される。
【0060】図19は、ほぼ1時間継続する試験ビデオ
におけるスライド画像でトレーニングされたガウスモデ
ルの対数尤度を示す。ビデオでスライドが実際に示され
た時を指示する「実地検証情報(ground tru
th)」は、上部付近の幅広のバーとして示されてい
る。この対数尤度が、ビデオでスライドが示されている
時の良好な指標であることは明らかである。(共分散マ
トリックスΣcから計算された)ある標準偏差で対数尤
度をスレッショルドとすることは、個々のフレームを分
類するうえで極めて効果的であることが示されている。
(共分散から計算された)標準偏差の倍数で尤度をスレ
ッショルドとすることは、クラスの帰属関係を検出する
うえで極めて効果的であることが示されている。また、
こうしたスレッショルドは使用される係数の数とはまっ
たく独立である。
【0061】いずれかの特定のフレームまたはフレーム
のビデオセグメントと画像クラスとの間の類似性は、本
発明に従って計算される。ガウスモデルの場合、所与の
フレームの類似性測度は尤度であり、対数領域にあるも
のに代えることができる。ガウスモデルはまた、セグメ
ント境界として機能する所与のスレッショルドを類似性
測度が超えた時にそれらのフレームを見つけることによ
って、ビデオをセグメント化するためにも使用できる。
時間モデルが存在しない場合、最小のセグメント長を求
めるというような臨時の規則によりセグメント化を改善
できる。
【0062】図20は、本発明に従ってビデオの各種フ
レームを生成するビデオ画像クラス統計モデルの確率の
対数を表示する方法を示す。工程2001で、画像クラ
ス統計モデルによって生成されるフレームの確率がガウ
スの公式によって計算される。工程2002で、確率の
対数が計算される。工程2003で、確率の対数が図1
9と同様にして表示される。工程2004において、さ
らにフレームが存在する場合は、2006に分岐して工
程2001に戻り、それ以上フレームがない場合、工程
2005で終了する。
【0063】図21は、特徴集合の成分の数dの関数と
して正しく分類されたフレームの割合、それらのフレー
ムに適用された変換のタイプおよびd成分特徴集合の選
択方法を示している。図21は、離散コサイン変換およ
びアダマール変換の両者について、正しい分類の確度
が、一般に、特徴集合が増加するにつれ変換係数の数と
ともに向上することを示している。トレース2101、
2102および2103の下降部分は、各クラスがそう
した大きな数の係数位置を有する特徴集合を判定するた
めに十分なトレーニングフレームがトレーニング集合に
存在しないことの結果である。言い換えれば、トレース
2101、2102および2103の下降部分は、特徴
ベクトルが由来するべきものとして合理的にモデル化さ
れるガウス分布に倣うのではなく、トレーニングフレー
ムの特徴ベクトルの実際のデータポイントに倣っている
ことを示している。分布に倣わせるためには、トレーニ
ングフレームの数は特徴集合の変換係数の数よりも相当
に多くなければならない。これは、与えられた数のトレ
ーニングフレームを前提とする限り、特徴集合の変換係
数位置を100以下とすることが、計算上の負荷を軽く
するだけでなく、より大きな特徴集合よりも効果的であ
ることを実証する。
【0064】異なる変換方法での変換係数の数の影響を
判定するために、全正確さ、すなわち、正しいカテゴリ
に認識されたサンプルの割合を計算した。図21はその
結果を示す。離散コサイン変換およびアダマール変換の
主成分に関する認識分布がほぼ同一であることを指摘で
きるのは興味深い。最良の成績(87%正確な)は10
個の主成分を用いて得られた。主成分分析を伴わない場
合、分散順位づけ離散コサイン変換係数は30をピーク
とするのに対し、アダマール変換は300で若干高い確
度を得る。アダマール変換はしばしば、離散コサイン変
換と同様に知覚的特徴を保存しないということで批判さ
れるが、この場合には多少すぐれているように思われ
る。直線アダマール変換ベースの関数は、シヌソイド離
散コサイン変換系よりも良好に(スライドや壁といっ
た)画像特徴を一致させるからである。
【0065】図22は、本発明の方法に従ってスライド
に類似であると見られるビデオの領域を表示するブラウ
ザを示している。ブラウザ2200は、スライドビデオ
画像クラスに類似であると判断されるフレームより構成
されるビデオ内の時間間隔を黒い垂直バーで示す時間バ
ー2201を含む。
【0066】ユーザがビデオ内の興味のある部分を見つ
けるのを助成するためにビデオ分類を使用するアプリケ
ーションが本発明に従って開発されている。長時間のビ
デオがそれを全体として見ることなく所望の情報を含む
かどうかを判定することは単純ではない。インテリジェ
ントメディアブラウザは、図22に示すように、ビデオ
から抽出されたメタデータを利用することによってビデ
オに対するきめ細かいアクセスを可能にする。あるビデ
オに関する信頼度スコアが時間バーにグラフィカルに表
示される。信頼度スコアは、ソースメディアストリーム
へのランダムアクセスに時間軸を使用することによりソ
ースストリームにおける興味ある領域への貴重な糸口を
付与する。例えば、スライドモデルの正規化対数尤度が
図22の時間バーに表示される。高尤度(信頼度)の2
つの領域が灰色または黒色領域として視覚化され、それ
らはビデオにおけるスライド画像に対応する。時間軸上
の点または領域を選択すると、対応する時間からメディ
アの再生を開始する。このようにして、興味のある部分
となる高い可能性の時間間隔が、信頼度表示から視覚的
に識別され、線形探索を伴わずに容易に調査できる。
【0067】図23は、本発明に従ってビデオを分類す
る方法において使用される隠れマルコフモデルに対応す
るクラス遷移図を示す。画像クラスG、AおよびBの各
々はガウス分布を用いてモデル化される。同一のクラス
に留まるかまたは別のクラスに遷移する遷移確率は、遷
移矢印の横に示されている。
【0068】隠れマルコフモデルは、本発明に従ってビ
デオセグメントの継続時間およびシーケンス(順序)を
明示的にモデル化できる。単純な実施例では、2状態隠
れマルコフモデルの一方の状態は所望のクラスをモデル
化し、他方の状態モデルは他のすべてをモデル化する
(「ガーベージ」モデル)。多状態隠れマルコフモデル
は、上記のガウスモデルを用いて、それらを平行に結合
し、弧に沿って遷移ペナルティを加えることによって作
成される。図23は、そうしたモデルを示しており、状
態Gがガーベージモデルであり、状態AおよびBが所要
のビデオクラスをモデル化している。(図示されたシー
ケンスは、ビデオクラスが2つの個別の成分AおよびB
を有し、AがBの前に生起することを示唆している。多
数の他のモデルシーケンスが可能である。)ビデオに対
する最大尤度を使用した隠れマルコフモデルのアライメ
ントはバイタービアルゴリズムによって決定される。こ
れは、サンプルと類似しているセグメントおよび類似で
ないセグメントへのビデオのセグメント化をもたらす。
さらに、観測されたビデオを生じるいずれかの特定の状
態の尤度は、いずれかの特定のフレームについて選択的
に決定され、探索、順位づけまたはブラウジングにおい
て活用するための有用な類似性測度を与える。
【0069】図23は、尤度スレッショルドを有する単
一のガウスモデルが長時間のビデオから類似のショット
をどのようにしてセグメント化できるかを示している。
多様なショットモデルを使用することにより、尤度比ま
たは最大尤度を用いて、いずれのモデルにも良好に一致
しないショットを排除するスレッショルドを選択的に有
する多様なショットをセグメント化できる。異なるショ
ットは、多様な代替計量を用いてそれらのガウスモデル
を比較することによって、比較照合される。
【0070】クエリー状態の隠れマルコフモデル出力分
布は、上記のガウスモデルに関してまさに説明した通
り、係数特徴の単数または複数のガウスモデルとして代
替的にモデル化される。選択的に、エルゴード的に(完
全に)結合された複数の状態が、複数の混合ガウスモデ
ルと同様にセグメントをモデル化するために使用され
る。単数または複数のガーベージモデルの出力分布もガ
ウス分布である。そのパラメータは、ビデオデータベー
スから推定され、システムに記憶される。クエリーおよ
びガーベージ状態に留まる遷移確率は、例題データから
推定されるかまたは、クエリーの長さおよびビデオにお
けるクエリーの生起間の長さが変化し得るので、ユーザ
によって選択的に調整される。この方式の利点は、遷移
確率がほとんどの隣接フレームを同一状態に拘束し、従
って見かけ上のセグメント化または類似性スコアの変動
を低減することである。
【0071】隠れマルコフモデルの公式化は、複数の状
態および(音声認識における言語モデルに類似の)遷移
グラフを用いてビデオの傾向またはシーケンスを捕捉す
るために強力に拡張されている。それ故、隠れマルコフ
モデルは、例えば、ニュース放送の開始を特徴づける放
送局のロゴからニュースキャスターのショットへの遷移
をモデル化するために選択的に使用される。この例で図
23について説明すれば、状態Aは放送局のロゴをモデ
ル化し、状態Bはニュースキャスターのショットをモデ
ル化する。隠れマルコフモデルにおける暗示的シーケン
ス拘束のために、これは、A−Bシーケンスにのみ一致
しB−Aシーケンスには一致せず、または、AまたはB
を孤立してセグメント化するのに対して、単純ガウスモ
デルは全部について高いスコアを生じる。
【0072】図24は、図23に示したクラス遷移図に
対応する本発明に従ったクラス遷移確率マトリックスを
示している。クラス遷移確率マトリックス2400の行
は以前のフレームのクラスを表し、マトリックス240
0の列は現在フレームのクラスを表す。クラス遷移確率
マトリックス2400の各列は、ある現在の画像クラス
に関係するクラス遷移確率ベクトルである。図23に示
したクラス遷移図は以降のフレームについてクラスGか
らクラスBへの遷移を許していないので、マトリックス
2400の成分2401はゼロである。同様に、クラス
遷移図2300はクラスBからクラスAへの遷移を許し
ていないので、マトリックス2400の成分2402は
ゼロである。
【0073】図25は、図23に示したクラス遷移図に
従った5つの連続した初期ビデオフレームに対応する可
能なクラスシーケンスの全てを示す。クラス遷移図23
00はそのシーケンスがクラスGで始まるように指示し
ているので、最初のフレームのクラスは図25の枠25
01に示されたGである。しかし、第2のフレームは、
それぞれ枠2502および2503に示されたクラスG
またはクラスAのどちらか一方となる。第2のフレーム
が枠2503で示されたクラスAである場合、第3のフ
レームは、それぞれ枠2504、2405および250
6に示されたクラスG、AまたはBのいずれかとなる。
クラスの確率は、そのクラスについて計算された尤度、
以前のクラスの確率および、そのクラスへの遷移を生じ
るクラス遷移確率の関数である。各状態の確率は以下の
式によって与えられる。
【0074】
【数2】
【0075】図26は、本発明によるクラス遷移確率マ
トリックスおよび画像クラス統計モデルによってビデオ
をセグメント化する方法を示している。方法は工程26
01に始まる。工程2602で、可能性のある現在の状
態の各々に対応する最も確からしい以前の状態が計算さ
れる。それらの計算は図25に示した例に関する上記の
式を用いて行われる。工程2603で、現在のフレーム
の尤度が、各画像クラスに対応するガウス関数によって
可能な現在の状態の各々について計算される。工程26
03での計算は、例えば図12に示した方法1200の
工程1204において、計算された確率と同一である。
工程2604で、全部の可能な状態に対応する現在の状
態の確率が工程2603および2602による結果を用
いて計算される。工程2604の計算は上記の式によっ
て実行される。工程2602の計算は、現在の状態を仮
定して式2、4および6を使用する。工程2604の計
算は、上記の式1、3および5を使用する。検査260
5はビデオの終わりに達したかどうかを判断し、否定さ
れれば、工程2606はプロセスを次のフレームに進め
る。それが最後のフレームであれば、工程2605は処
理を工程2606に渡し、そこでその最終状態が最大の
全確率を有する状態として選択される。最終状態が選択
された後、最も確からしい以前の状態が、上記の式2、
4および6の以前の評価に従って選択される。言い換え
れば、最終状態が既知であれば、以前の状態の全ては、
工程2602ですでに行われた計算によって自明にな
る。工程2608で、さらにフレームが存在するかどう
かが判定され、肯定されれば、工程2609はその以前
のフレームを工程2607に渡し、工程2602ですで
に計算された結果に従って次の以前の状態とのリンクの
決定がなされる。第1のフレームが分類されると、処理
は工程2610で終了する。
【0076】隠れマルコフモデルの場合、セグメント化
は、最大尤度状態シーケンスを見つけるためのバイター
ビアルゴリズムによって行われる。これは、特定の状態
または状態の群とアライメントされた全部のフレームが
セグメントとしてみなされるので、最大尤度セグメント
化を直接与える。隠れマルコフモデルの構造は、アライ
メントが(従来行われていたように局所的にではなく)
ビデオ全体について計算されるので、このタスクに特に
適している。このモデルに内在するシーケンスおよび継
続時間の拘束は、他の方式の分類誤りによって生じ得る
単一フレームセグメントといった誤りを効果的に禁止す
る。所与のフレームとクエリーとの間の類似性は、バイ
タービアルゴリズムにおいて、単数または複数のクエリ
ー状態の事後確率として計算される。類似性測度が与え
られと、ビデオのあらゆる集合は、クエリーセグメント
との類似性によってセグメント化および/または順位づ
けられる。これは、ビデオの大きな資料からの類似性に
よる内容にもとづく検索を可能にする。
【0077】上述のように単純ガウスモデルはトレーニ
ングフレームの平均を計算するので、ビデオシーケンス
に関係する何らかの時間変化情報を失う。動的なシーケ
ンス情報を捕捉するために、モデルは多様な方法で選択
的に拡張される。フレーム間の差異または簡約化された
特徴の傾向でモデルをトレーニングすることによって、
動きまたはファクシミリといった時間変化効果はモデル
化される。ビデオシーケンス間の類似性を見つけるため
に、2つのシーケンスのフレームのフレームごとの内積
を合算することにより相関スコアが計算される。類似な
シーケンスは大きな相関を有する。異なる長さの2つの
シーケンス間の最良の一致を見つけるために動的プログ
ラミングが選択的に使用される。本発明による動的事象
を捕捉するすぐれた技法は、特徴出力確率をモデル化す
るためにガウス混合を用い、特に音声認識用に開発され
た効率的なトレーニングおよび認識アルゴリズムが与え
られた、隠れマルコフモデルである。
【0078】ここで行った実験は、変換係数の統計モデ
ルが低い誤差率でビデオフレームを迅速に分類すること
を実証している。この方式の計算の単純さおよび少ない
記憶要求量は、本発明による対話型ビデオ検索といった
用途を可能にする。
【0079】特定のビデオセグメントについてビデオデ
ータベースを探索する際に、所望のビデオセグメントの
タイプの記述を与えるよりも、例題を与えることによっ
てクエリーを指定するほうが容易であることが多い。例
えば、話を聞いている一群の人々を示すビデオのセグメ
ントが望まれる場合、探索クエリーとしてシステムに群
衆セグメントを単純に呈示することはより容易である。
これは、選択されたセグメントに類似であるセグメント
について単一のビデオを探索する際に特に当てはまる。
類似性による検索は、ユーザにとって容易であることに
加え、実例からクエリーの良好なモデルを作成すること
が容易であるので、より正確であることが多い。
【0080】自動ビデオ分類は、ブラウジング、自動セ
グメント化および内容にもとづく検索といった広範な用
途に有用である。自動分類を用いたアプリケーション
は、特定の話者を示すビデオを検索するか、または、ビ
デオの再生中にその話者のいる領域を強調表示させるな
どによって、ディジタル化ビデオをブラウジングおよび
検索するうえでユーザを支援することができる。自動生
成注釈は、ビデオテープ録画された会議から重要な情報
を検索する際にユーザを支援することができる。このよ
うなツールは、ユーザが、特定のビデオおよびそのビデ
オ内の対象となる領域の両方を突き止めなければならな
い場合に、ビデオの大きな集合を取り扱うのを助けるこ
とができる。こうしたあらゆる用途にとって、ビデオの
トレーニング用集合は異なるビデオおよびオーディオク
ラスに従ってラベルづけされ、統計モデルはそのラベル
づけされたセグメントでトレーニングされる。
【0081】本発明は、ビデオの類似性の統計的測度お
よび、その類似性測度を使用して再生中にビデオの案内
を助成するアプリケーションを含む。本発明によれば、
類似性マッチングに使用されるビデオの領域を選択する
ための2つの異なるユーザインタフェースが開示され
る。
【0082】ブラウザは、ビデオ領域を選択し類似領域
を自動的に見つけることによってユーザにビデオの構造
を探索させるように設計されている。例えば、ニュース
放送を見る場合、ユーザはニュースキャスターのショッ
トを含む領域を選択する。システムはその後、類似の領
域を自動的に検出し、それらをグラフィカルに表示しか
つ自動索引点として示し、それによりユーザは、例え
ば、介在箇所を見ることなく次の類似領域に直接跳ぶこ
とが可能になる。これらの索引は、以後のユーザのため
に保存し注釈を付けることができる。類似性索引は対話
的にかつ極めて迅速に作成できる。
【0083】図27は、本発明に従って類似性探索を実
行する方法におけるデータの流れを示している。ソース
ビデオ2701は、トレーニングセグメントが抽出され
るビデオを表す。変換特徴2702は、図2において変
換特徴208がビデオファイル201から抽出されたの
と同様にして、ソースビデオ2701から抽出される。
工程2703は、トレーニングフレームの収集のための
トレーニング領域のユーザ選択を示している。工程27
04で、ガウス画像クラス統計モデルが、平均特徴ベク
トルおよび対角共分散マトリックスを比較することによ
りトレーニングされる。ビデオ2705は、類似性の探
索のためのターゲットとされたビデオを表す。同様に、
変換特徴2706が抽出される。工程2707において
尤度計算が、工程2704でトレーニングされた画像ク
ラス統計モデルを用いて行われ、得られた確率が工程2
708でフレームごとに出力される。
【0084】図27は、システムが実際にどのように使
用されるかのブロック図を示す。ユーザは最初に単数ま
たは複数のビデオセグメントを選択することによりクエ
リーを実行する。クエリーの簡約化された離散コサイン
変換またはアダマール変換係数が、オンザフライでの計
算またはデータベースにルックアップのどちらか一方に
よって得られる。クエリーのモデルはその後これらの係
数を用いてトレーニングされる。単純な場合、単純ガウ
スモデルが使用される。データベース内のビデオの簡約
化された離散コサイン変換またはアダマール変換係数は
システムに提示され、尤度計算が実行される。これは、
一連の類似性スコアおよび、類似および非類似セグメン
トへのセグメント化を生じる。類似性スコアはその後ブ
ラウザに表示され、ユーザが類似のビデオセグメントを
調査できるようにする。
【0085】類似性計算のデータは、図2の説明におい
て前述したものと同様にして離散コサイン変換またはア
ダマール変換のどちらか一方によって得られる。この表
現は、類似画像のフレームが類似の特徴を有するので、
類似性を測定するために適切である。
【0086】変換法にもとづく類似性測度は、従来のカ
ラーヒストグラム方式よりも多くの用途に関してすぐれ
ている。特に、変換係数は、形状についてほとんど変化
がないヒストグラムと異なり、画像における主要な形状
およびテクスチャを表現する。例えば、左上および右下
に同一物体がある2つの画像は、ヒストグラムでの相違
はごくわずかであるが、本発明による変換ドメインにお
いては顕著に異なる。現在の類似性測度は輝度だけにも
とづいているが、後述の通り、この技法を色を使用する
ように拡張することは容易なはずである。
【0087】この変換法により可能なセグメント化およ
びモデル化の種類が比較的粗いことを指摘することは重
要である。例えば、ニュース放送においてニュースキャ
スターとロケーションのショットとを識別することは単
純であるが、特定のニュースキャスターを識別するとい
った、より精緻な区別はさらに特殊化されたデータ簡約
化またはドメイン特定モデルを必要とするであろう。し
かし、これらの技法は、例えば、群衆または自然のシー
ンを排除しつつ計算上高価な顔面識別アルゴリズムによ
り、以後の分析のために適切なクローズアップシーンを
選択するといった、より精巧な方法の重要なフロントエ
ンドまたはプレクラシファイヤとして代替的に機能す
る。
【0088】図28は、本発明に従ってビデオに対応す
る特徴ベクトルデータベースを計算する方法を示してい
る。迅速な尤度計算および画像クラス統計モデルの迅速
なトレーニングを助成するために、ビデオのフレームに
対応する特徴ベクトルを予備計算し、それを特徴データ
ベースに記憶することが望ましい。工程2801で、フ
レームが離散コサイン変換またはアダマール変換によっ
て変換される。工程2802で、変換係数マトリックス
から特徴ベクトルが抽出される。工程2803で、特徴
ベクトルが特徴ベクトルデータベースに記憶される。検
査2804では、さらにフレームがあれば、次のフレー
ムが工程2801に渡され、それ以上フレームがなけれ
ば、方法は工程2805で終了する。
【0089】ビデオ領域間の類似性を評価するために、
ビデオフレームの類似性が開示される。各フレームは、
離散コサイン変換またはアダマール変換といった正規直
交射影によって変換される。変換が、下位ブロックでは
なく画像全体について行われた場合、係数は画像を正確
に表現する。変換されたデータはその後、上述のように
切り捨て、主成分分析または線形識別解析などのいずれ
かの技法によって簡約化される。ここに提示した用途の
場合、最大分散係数以外の全部を破棄することが良好に
作用する。その簡約化表現は、高度にコンパクトであ
り、元のフレームの顕著な情報を保存している。これ
は、元の画像を復元することを意図する、データ圧縮と
は異なることに留意されたい。元のデータは表示および
使用に利用可能であると前提されているので、変換プロ
セスを逆にする必要はまったくない。従って、この変換
法は、コンパクト性または画像忠実度よりも分析のため
に最適化されている。
【0090】結果として得られるのは、各フレームのコ
ンパクトな特徴ベクトルまたは簡約化された係数(10
〜30パラメータ)である。この表現は、類似のフレー
ムは類似の変換係数を有するので、ビデオの類似性を数
量化するために適切である。特定のショットと隣接する
フレームといった類似画像の集合をモデル化するため
に、ガウスモデルが例題フレームでトレーニングされ
る。ガウスの平均は例題フレームの平均を捕捉し、共分
散は動きまたは照明の相違による変動をモデル化する。
単一混合ガウスは、例題データに関して1パスで極めて
迅速に選択的に計算され、例題フレームのおおよその構
成および可変性をモデル化する。
【0091】多くの用途にとって、完全なビデオフレー
ムレートは必要なく、フレームは、毎秒数フレームだけ
を変換する必要があるような時間で間引かれる。こうし
た要因は、記憶コストが実際上無視でき、係数が計算さ
れれば計算時間は極めて迅速であることを意味する。従
って、リアルタイムアプリケーションに使用される戦略
は、簡約化された係数を予備計算し、それらをビデオと
ともに記憶し、対話的かつ迅速な類似性測定を可能にす
ることである。MPEG−7といった将来のフォーマッ
トはそうしたメタデータをビデオデータとともに含める
ことを可能にするが、現在好ましい実施の形態による用
途では、係数は個別のファイルに記憶される。
【0092】図29は、本発明に従って統計モデルを対
話的にトレーニングする方法を示す。工程2901で、
トレーニングフレームまたはトレーニングセグメントが
ユーザにより対話的に選択される。工程2902で、工
程2901で選択されたトレーニングフレームまたはセ
グメントに対応する特徴ベクトルが、直接の計算または
特徴ベクトルデータベースのルックアップのどちらか一
方によって得られる。工程2903で、トレーニングフ
レームに対応する特徴ベクトルから平均特徴ベクトルお
よび対角共分散マトリックスを計算することによって、
画像クラス統計モデルが構築される。
【0093】変換ドメインの1つの利点は、フレームを
表現する特徴ベクトルの大きさが極めて控え目である
(PCA特徴についてフレーム当たり10程度)という
ことである。クエリービデオトレーニングセグメント
は、平均ベクトルおよび共分散マトリックスによってパ
ラメータ化された多次元ガウス分布によりモデル化され
る。実際、特徴間のゼロ相関が前提とされるように対角
共分散マトリックスを仮定することは普通であり、各特
徴はガウス分布を有する独立のランダム変数であると仮
定される。対角共分散マトリックス(すなわち非対角線
上の成分がゼロである)は、モデルが高次元で頑強性を
持つ(ロバスト)であるように仮定されている。ガウス
モデルを用いてクラスをモデル化するために、トレーニ
ング画像の集合について平均および共分散が計算され
る。クエリートレーニングセグメントは、平均ベクトル
および共分散マトリックスを計算するために使用され
る。類似性スコアは、ビデオの各フレームについて、ク
エリー画像クラス統計モデルからフレームの尤度を計算
することによって計算される。代替的に、より精巧なモ
デルは、ガウス混合を使用し、期待値最大化アルゴリズ
ムを利用して、複数のパラメータおよび混合重み、それ
により、複数のガウスモデルの各々に関係する複数の平
均、分散および重み係数を評価する。しかしこれは、反
復を要する。そうしたわけで、オンザフライで迅速に計
算される単一混合ガウスモデルが仮定されている。
【0094】フレームの係数に平均値を設定し、分散を
定数等の値に設定することによって、またはいずれかの
トレーニング集合から得られた分散を使用することによ
って、ガウスモデルを生成するために単一フレームクエ
リーが選択的に使用されることに留意されたい。他のフ
レームまたは静止画像はその後、類似性についてスコア
が付けられる。定数の分散はユークリッド距離計量を生
じ、トレーニング分散はマハロノビシュ(mahalo
nobis)距離を生じる。従って、類似の静止フレー
ムまたは画像は、それらを距離測度によって順位づける
ことによって集合から検索される。本発明によるこのシ
ステムの別の変種は、ただ1個の画像をクエリーとして
使用する従来の画像検索システムではなく、画像の群ま
たはクラスでクエリーモデルがトレーニングされた場合
である。
【0095】一度計算されると、任意のビデオフレーム
の類似性は、モデルがフレームを生成する尤度によって
決定される。類似フレームは高い尤度を生じる。この方
式は、会議ビデオの大きな資料での話者およびスライド
といった所定のビデオクラスについて約90%の分類率
をもたらしている。ガウスモデルは、動きまたは照明の
相違による変動をモデル化しつつ、画像クラスの特徴的
な構成および形状を捕捉することができる。特徴ベクト
ルが計算されると、多数の用途が使用可能である。最も
単純なものの1つは直接的な距離測度である。類似フレ
ームは類似の特徴ベクトルを生じるので、特徴ベクトル
間の距離を測定することにより画像距離の指標が得られ
る。
【0096】図30は、本発明に従ってブラウザ内にビ
デオフレームを呈示し、類似性測度を表示する方法を示
す。工程3001でフレームの特徴ベクトルが検索され
る。工程3002で、画像クラス統計モデルによって生
成される特徴ベクトルの確率が計算される。工程300
3で、その確率がスレッショルドより大きいか否かが判
定される。スレッショルドはやはりユーザによって対話
的に定義される。工程3002で計算された尤度がスレ
ッショルドより大きければ、工程3004はそのフレー
ムを類似として索引づける。尤度がスレッショルドより
小さければ、そのフレームを工程3005で非類似とし
て索引づける。工程3006で、類似または非類似の類
似性属性はそのフレームについてブラウザにグラフィカ
ルに表示される。
【0097】いずれかの特定のフレームまたはビデオセ
グメントとクエリーセグメントとの間の類似性が計算さ
れる。ガウスモデルの場合、所与のフレームの類似性は
尤度であり、代替的に対数ドメインに存在する。ガウス
モデルはまた、セグメント境界として機能する、また、
所与のスレッショルドを類似性が超えた場合に、それら
のフレームを見つけることによってビデオをセグメント
化するためにも使用される。継続時間モデルが存在しな
い場合、最小セグメント長を要求するような臨時の規則
がセグメント化を改善させることができる。
【0098】図31は、本発明に従って、対話的に定義
されたトレーニングビデオセグメント、そのトレーニン
グビデオセグメントのトレーニングフレームから得られ
た平均特徴ベクトルの逆離散コサイン変換、およびトレ
ーニングビデオセグメントのトレーニングフレームから
得られた平均特徴ベクトルの逆アダマール変換を示す。
フレーム3101はユーザによって対話的に定義された
トレーニング画像を表す。フレーム3102は、フレー
ム3101に示すトレーニング画像から得られた平均特
徴ベクトルの逆離散コサイン変換を表す。フレーム31
03は、フレーム3101に示すトレーニング画像から
得られた平均特徴ベクトルに対応する逆アダマール変換
を表す。
【0099】ビデオ類似の領域を突き止める本発明に従
った方法は既述の通りである。類似性測度を用いるビデ
オブラウザを提供する、直接的なアプリケーションを以
下に述べる。図32は、1つのブラウザのプロトタイプ
のユーザインタフェースを示す。左上に通常のビデオ再
生ウィンドウおよびコントロールがある。右側中ほどに
は、下部の時間バーに表示させる類似性スコアを選択す
るメニューコントロールがある。類似性スコアは、ビデ
オスライダバーと時間同期的に表示される。暗色領域は
類似性の高い区間であり、濃くなるほど類似である。図
は、表示されたフレームにあるように、暗い背景を背に
中央にいる話者の中間クローズショットの類似性を示し
ている。類似ショットの位置および程度は時間ラインの
黒色バーで直接明らかとなる。
【0100】右側中ほどのスレッショルドスライダは、
類似性スコアから索引点をどのように導き出すかを制御
する。索引点は、時間バーの暗色(類似)領域の上部領
域のやや明るいバーとして示されている。(この場合、
これは主にB/W再現のためであり、索引点は類似性が
スレッショルドを超えた時点に決定される。)時間バー
の下の「|<<」および「>>|」のラベルが付けられ
たボタンは、再生点を次の索引点または前の索引点に自
動的に進める。大きな類似性変動(多数の索引点)の領
域では、ユーザは、スレッショルドを大きくすることに
よって最も重要な指標を選択できる。類似性が少ない領
域では、ユーザは、スレッショルドを引き下げても索引
点を見つけることができるが、信頼性が下がる。
【0101】図32は、本発明による、トレーニングビ
デオセグメントを対話的に定義し類似性測度を表示する
ための時間バーおよびユーザスレッショルドマウス入力
を受け取るためのスレッショルドスライダバーを備える
ブラウザを示している。時間バー3201は、類似であ
るとみられるビデオのセグメントを縦の黒色バーとして
示す。スレッショルドスライダバー3202は、類似性
の検出に必要な確率スレッショルドを指定するためのユ
ーザのマウス入力を受け取る。時間バー3201は、例
えばトレーニングセグメント指定についてクリック・ド
ラッグ操作によってユーザトレーニングマウス入力を受
け取るように動作可能である。
【0102】図33は、ビデオの領域内のフレームを表
示するためのスクロール可能ウィンドウ3301をさら
に追加した図32のブラウザを示す。詳細には、メイン
ブラウザウィンドウに表示され、時間バースライダ33
03の位置によって指示されるフレーム3302および
その前後のフレームが、スクロール可能ウィンドウ33
01に表示される。
【0103】このウェブ(Web)ベースのインタフェ
ースは、極めて良好な概観を提供し、ビデオ全体の各種
クラスをラベルづけるためのすぐれた選択となる一方
で、ビデオ再生中の迅速な類似性探索のために特殊に仕
上げられている。従って、水平スクロール可能ウィンド
ウ(図33の下部参照)に周期的にサンプリングされた
類似の静止画像を示す追加表示が、本発明に従って選択
的に含まれる。再生中、ウィンドウは、再生ウィンドウ
と同期して留まるように自動的にスクロールする。時間
的脈絡は、再生ウィンドウに示されたフレームに最も近
い静止画像をスクロール可能ウィンドウの中央に置くこ
とによって示される。ビデオが停止されると、静止画像
は誘導案内用に使用される。関心のある領域にスクロー
ルさせ、その静止画像上でダブルクリックすると、ビデ
オが対応する時間のビデオに位置づけられる。
【0104】類似性探索の区間は静止画像上でマウスを
ドラッグすることによって選択される。選択された領域
は、スクロール可能ウィンドウおよび時間バーの下部の
両方に明緑色バーにより指示される。ビデオの小さな部
分だけがスクロール可能ウィンドウの時間範囲内に表示
されるので、示される選択領域はもっと大きなものであ
る。図33で、スクロール可能ウィンドウに表示された
選択領域は、スライダの爪のすぐ下のごく小さな領域に
対応する。さらに、あらゆる時間依存媒体の場合と同
様、ビデオに伴う問題は、何が選択されたのかが再生し
てみなければ必ずしも明白にならないということであ
る。
【0105】類似性索引を作成するためには、最初に例
題ビデオを選択しなければならない。1つのインタフェ
ース方法は、ビデオの領域を選択するために図32およ
び図33の時間バーで単純にクリック・ドラッグするこ
とである。あらゆる時間依存媒体の場合と同様、ビデオ
に伴う問題は、何が選択されたのかが再生してみなけれ
ば必ずしも明白にならないということである。前述の類
似性測度の場合、最良の結果は、ソースビデオが、例え
ば同一のショットに由来するといったように、合理的に
類似である場合に得られる。クリック・ドラッグ選択
は、テキストの場合には効果的であるが、時としてユー
ザがほとんど気づかずに不要なビデオが選択される結果
をもたらす。また、非接触選択も代替的に有効である。
【0106】図34は、1個以上のトレーニングビデオ
セグメントの終点を対話的に選択し、周期的フレームの
類似性測度を表示するためにビデオの周期的フレームを
表示するウェブベースのインタフェースを示す。ビデオ
全体は最初に、図34に示されたように表示される周期
的フレームに分割される。各周期的フレームは、ユーザ
がその周期的フレームを選択し、それをフレームセグメ
ントに包含させるようにするチェックボックスを備え
る。隣接する周期的フレームがチェックされると、その
2つのチェックされた周期的フレーム間の後続のビデオ
の全部の非表示フレームは、トレーニングセグメントの
一部となる。例えば、周期的フレーム3401と周期的
フレーム3402との間のビデオの全部のフレームはト
レーニングセグメントに含まれる。ビデオの類似性探索
が行われると、周期的フレームに対応する類似性情報
は、周期的フレームの周囲の矩形ボックスの陰影として
選択的に表示される。
【0107】図34は、選択された領域の視覚化と同時
に非接触選択のサポートを可能にするビデオ領域選択用
のウェブベースのアプリケーションを示している。この
アプリケーションでは、ビデオは、通常の区間で切り取
られた一連のキーフレームとして表される。図34は、
選択された領域の視覚化と同時に非接触選択のサポート
を可能にするビデオ領域選択用のウェブベースのアプリ
ケーションを示している。このアプリケーションでは、
ビデオは、通常の区間として切り取られた一連のキーフ
レームとして表され、それらのビデオにおける時間(秒
単位)とともに示される。ビデオ録画プレゼンテーショ
ンの場合には5秒間隔が適切であるが、他の用途ではそ
れより速いかまたは遅いレートも選択的に好適である。
ユーザは、各フレームの下のチェックボックスをクリッ
クすることによって複数のキーフレームを選択する。隣
接して選択されたキーフレーム間のビデオの全フレーム
についてモデルがトレーニングされる。このインタフェ
ースは、終点を精確に位置決め可能とし、選択されたビ
デオ内容を明示的に表示するという理由で、クリック・
ドラッグよりもある点ですぐれている。また図34は、
非接触選択が複数の区間を次々と選択することにより可
能であることも示している。このインタフェースは、簡
潔な表示により、ユーザが一目で関心のある領域を見つ
けられるようにする。通常サイズのウェブブラウザで
は、10分のビデオに対応する120個の画像がウィン
ドウに示され、残りのビデオもスクロールによって容易
にアクセス可能である。インタフェースは、様々なクラ
スの画像への様々なラベルの割り当てもサポートする。
以前に割り当てられたラベルは表示ではカラーコード化
される。選択されたビデオの類似性は、ほぼ即時的に計
算され、図32および図33のブラウザに表示される
か、または、スレッショルドで切られ、図34のように
各フレームの周囲に異なる色でウェブインタフェースに
表示される。
【0108】図35は、本発明に従って離散コサイン変
換およびアダマール変換係数によって計算されたビデオ
の類似性マトリックスを示す。距離計量の利用を示すた
めに、全部のフレーム間の類似性を計算し、結果のマト
リックスを画像として表示することにより、ビデオの自
己類似性を視覚化することができる。図35は、スタッ
フ会議のビデオの距離マトリックスを示す。位置(i,
j)の各画素は、類似フレームであればあるほど色濃く
なるように、フレームiとフレームjとの間の距離に比
例して着色されている。各軸の単位は秒単位での時間で
あり、各点は、最高分散を有する100個の離散コサイ
ン変換およびアダマール変換係数間のユークリッド距離
に比例して着色されている。アダマール変換ドメインに
関して従来しばしばなされた批判は、知覚的相違と良好
に相関しないということである。アダマール変換は一般
にクラスタ化およびモデル化について同様に良好に作用
するが、距離がアダマール変換および離散コサイン変換
の両方の表現に関して極めて類似であることを指摘して
おくことは興味深い。i=jにおける黒色直交線は、フ
レームがそれら自身と同一であることを指示する。いく
つかの特徴が目につき、後続部分と類似でないビデオの
始まりの導入期間が存在し、それは約500秒続くこと
が容易にわかる。
【0109】右下隅の4個の濃色の正方形は、スライド
プレゼンテーションの2つのロングショットに由来す
る。個々のスライドの変化はその中に見ることができる
が、それらは聴衆または話者のカットよりも小さい大き
さののものである。これらのスライドは、約550秒に
開始する別のスライドプレゼンテーションとも極めて類
似であり、同じく自己類似である聴衆のショットとイン
ターカットし、「チェッカーボード」パターンを生じ
る。またスライドは、1600秒および1900秒のコ
ンピュータデスクトップのショットともある程度類似で
あり、それらの領域を濃色に見せているが、他のスライ
ド領域ほど濃くはない。これらのマトリックスは全体的
に直観的ではなく、いずれかの特定の時間に得られる
「スライス」は、ビデオの残部に対するその時間におけ
るそのフレームの類似性を示している。図32および図
33の時間バーとして提示されると、これは、単一のフ
レームが類似のビデオ領域を見つけるためにどのように
使用されるかを示すが、ガウスモデルは、分散をモデル
化できるためによりロバストである傾向がある。
【0110】本発明はまた、カラー情報にもとづき1個
以上の付加的なシグネーチャを計算することによって、
カラー検索を行うための改良を含む。これは、特徴ベク
トルによって表現される現行の輝度(Y)シグネーチャ
に付加するために画像の色成分(YUV色空間における
UV成分)に関する付加的な特徴シグネーチャを計算す
ることによって実現される。色成分は少ない空間解像度
を要するので、それらは少ないシグネーチャで表現され
る。本質的に、フレームの色成分の変換からの変換係数
位置が選択され、特徴ベクトルに追加され、それによ
り、特徴ベクトルは同一カラーフレームから得られた輝
度フレームおよび色フレームの両方の変換からの係数を
含む。
【0111】別の代替法によれば、YUBまたはRGB
の各カラー成分は個別の画像フレームとして扱われる。
従って、各フレームに対して3つの変換が適用され、シ
グネーチャ(特徴ベクトル)は各個別画像について計算
されて比較される。これは、類似性計量における全カラ
ーによる重みづけを可能にする。カラー情報の包含のた
めの本発明に従ったさらに別の代替法は、この検索技法
と別の、例えばカラーヒストグラムにもとづく技法との
組合せである。初期の類似性工程において、画像は輝度
特徴ベクトルによって類似性がわかる。その画像を領域
に分解し、各領域についてカラーヒストグラムを計算す
ることによって、画像における空間情報の一部が保存さ
れる。最終類似性工程では、初期類似性工程から得られ
た最上位画像が、カラーヒストグラム類似性評価法また
は他の類似性評価法によって類似性について再度スコア
が付けられる。
【0112】カラーは、多くの種類のビデオ画像にとっ
て、例えばコンピュータプレゼンテーションがスライド
の背景色だけで識別できる場合が多いスタッフ会議のビ
デオにおいて、有効な糸口である。また、動きまたは時
間シーケンスのモデル化も多くの用途で極めて有用であ
り、より強力な統計モデルがそれを可能にする。
【0113】ガウスモデルは多くの用途にとって有効で
あるが、区間内の全部の変化が平均化されるという短所
を有する。時間的シーケンスまたは継続時間を捕捉する
ことが重要である場合、隠れマルコフモデルが代替的に
使用される。隠れマルコフモデルの出力分布は、まさし
く前述の通り、特徴ベクトル上の単数または複数のガウ
スモデルとしてモデル化される。隠れマルコフモデルの
利点は、各状態が暗示的または明示的な継続時間モデル
を有することである。これは、(過度に長いまたは短
い)ありそうにもない継続時間のショットにペナルティ
ーを科す因子を尤度計算に加える。これは、継続時間モ
デルが同一状態と最も隣接するフレームを拘束し、従っ
て擬似的なショット境界を低減するので、単純な最大尤
度フレーム分類よりも有効である。
【0114】隠れマルコフモデルでの公式化は、複数の
状態および(音声認識における言語モデルに類似の)遷
移グラフを用いてビデオの傾向またはシーケンスを捕捉
するために選択的に強力に拡張される。従って、隠れマ
ルコフモデルは、例えば、ニュース放送の開始を特徴づ
ける放送局のロゴからニュースキャスターのショットへ
の遷移をモデル化するために選択的に使用される。隠れ
マルコフモデルに内在するシーケンス拘束のために、こ
れは、放送の終了時に多く生じるニュースキャスターの
ショットから放送局のロゴへの遷移には一致しないが、
単純ガウスモデルは両者の場合について高いスコアを生
じる。
【0115】また、元の特徴ベクトルのフレーム間差異
として計算される差分表現も有用である。パーセヴァル
の関係によって、各ベクトルのノルムは、画素の差のノ
ルムに(ほぼ)比例する。従って、カットまたはカメラ
の移動によって生じた大きなフレーム間差異は、差分ベ
クトルのノルムを計算することによって容易に検出され
る。あるいはまた、それらは、動きを捕捉する追加の特
徴を形成するために元の特徴ベクトルと連結される。
【0116】本発明に従った類似性探索の方法は、類似
のビデオ領域を見つける迅速かつ強力な手段を記述す
る。ユーザが例題ビデオを用いてクエリーを指定できる
ようにすることは、テキストベースまたはスケッチベー
スのインタフェースを凌ぐ進歩である。この技法は、大
きなビデオコレクションに、さらにカラーまたは時間的
類似性の測度に容易に拡張される。
【0117】週毎のスタッフ会議が、複数のビデオカメ
ラおよびマイクロフォンが装備された会議室で開かれる
こともある。会議は、経営陣およびスタッフによる全体
発表に始まり、その後個々の職員によるプレゼンテーシ
ョンに進む。プレゼンテーションは通常1人によって行
われ、オーバヘッドプロジェクタまたはコンピュータに
よるスライドといったグラフィックスを含み、一般に会
議では1つ以上のプレゼンテーションが行われる。カメ
ラ担当者は、部屋のカメラを切換え、ビデオ録画のショ
ットを提示する。ビデオはMPEG符号化され、社内イ
ントラネットによってスタッフに利用可能となる。
【0118】図36は、本発明に従ったオーディオ・ビ
ジュアル記録物をセグメント化する方法に対応するデー
タの流れを示す。ソースビデオ3601は工程3602
でスライド領域を見つけるために分析される。ソースビ
デオ3601のオーディオチャネルは、スライド区間に
対応するソースビデオ3601の領域について工程36
03で抽出される。工程3603で抽出されたオーディ
オ区間は、話者ごとに工程3604でクラスタ化され
る。すなわち、オーディオ区間は、相互に比較照合さ
れ、それらのソースに従って分類される。得られたオー
ディオ区間のクラスタは、各々が単一話者に由来するも
のとみなされる。同一話者クラスタのオーディオ区間は
工程3605で併合される。工程3606で、ソース特
定話者モデルが各併合オーディオ区間についてトレーニ
ングされる。工程3607で、ソースビデオ3601の
オーディオチャネルは、話者認識によって話者ごとにセ
グメント化される。オーディオチャネルによるセグメン
ト化の結果は、以後のブラウジングおよびソース特定検
索操作のためにソースビデオ3601およびソースオー
ディオ3608において索引づけられる。
【0119】図37は、2人の話者による2つのプレゼ
ンテーションを有する記録された会議のスライドである
オーディオ・ビジュアル記録物のフレームの確率の対数
を示す。話者Aのプレゼンテーションの範囲を示すラベ
ル3701は、ビデオを見ている人間のユーザにより得
られた話者Aのプレゼンテーションの実際に観測された
継続時間である。同様に、話者Bの指標3702は話者
Bのプレゼンテーションの全範囲を示す。
【0120】各フレームのコンパクトな特徴ベクトル
(簡約化された係数)が上述の通り計算される。対角共
分散ガウスモデルは、いくつかの無関係な会議ビデオか
らのスライド画像でトレーニングされている。このモデ
ルは、各ビデオフレームに関する尤度を生成するために
使用され、それはそのフレームがスライドであるという
対数尤度を測定する。1個の標準偏差をスレッショルド
とした場合、そのビデオにおいてスライドが表示された
時点の確実な評価値を生じる。下記の表3に示すよう
に、スライドは94%の確度でプレゼンテーションと関
係づけられた。20秒以上の長さのスライド区間がシス
テムの候補スピーチ区間として使用される。図37は、
スタッフ会議のスライドの対数尤度のプロットを示して
いる。20秒以上の長さの上記のスレッショルド(点
線)である判定基準を満たす4個の区間が存在し、それ
らは1、2、3および4のラベルが付けられている。こ
の特定の会議において、それぞれAおよびBのラベルが
付けられた2人の話者により行われた2つのプレゼンテ
ーションが存在した。各プレゼンテーションの範囲は図
37の上部に示されており、それはセグメント化実験に
関する実地検証情報として機能する。話者Bのプレゼン
テーションは、スライドが表示された期間の2倍以上続
けられたことに留意されたい。
【0121】
【表3】
【0122】図38は、図36に示した工程3604お
よび3605に示したような本発明に従ったオーディオ
区間に適用されるクラスタ化方法におけるデータの流れ
を示す。オーディオ区間3801〜3804は、図36
に示したソースオーディオ3608から抽出された、図
37で1、2、3および4のラベルが付けられた4個の
オーディオ区間を表している。オーディオ区間3801
〜3804はオーディオベクトル3805〜3808に
パラメータ化される。クラスタ化法3809がオーディ
オベクトル3805〜3808に適用され、相互に小さ
いユークリッド距離を有するオーディオベクトルに集塊
させる。クラスタ化法3809の結果は、それぞれ話者
AおよびBに対応するオーディオ区間3810およびオ
ーディオ区間3811と併合される。
【0123】ある話者の口から数センチメートル以上離
れたファーフィールドマイクロフォンによって話者識別
を行うことは特に困難である。記録された会議でのオー
ディオは演壇マイクロフォンまたは他のクローズトーキ
ングマイクロフォンではなく複数の天井マイクロフォン
から得られるので、話者識別は特に困難になる。実際に
あらゆる話者識別技法は、特定の話者を特徴づけるため
にメル周波数ケプストラル係数(mel−freque
ncy cepstral coefficient)
といった何らかの種類のオーディオスペクトル測度を使
用する。あらゆる現実的環境におけるファーフィールド
マイクロフォンは、直接的に、また、壁、床、机といっ
た環境配置によって反射された音声を拾ってしまう。こ
うしたマルチパス反射は、音声の周波数スペクトルを著
しく変更するくし形フィルタ効果をもたらす。この問題
は、(遠隔会議システムにおいて普通に行われているよ
うに)複数のマイクロフォンからの信号を混合すること
によってさらに悪化する。部屋の共鳴による付加的な効
果も各マイクロフォンの周波数応答に影響する。共鳴お
よびくし形フィルタ効果はともに、室内の話者の位置に
より著しくかつ予測不可能に変化する。これは、トレー
ニングスピーチのサンプルを使用して話者モデルをトレ
ーニングする現在の話者識別法を、ファーフィールドマ
イクロフォン環境にとって特に不適にさせる。音響環境
によるスペクトル変化はしばしば、話者間のスペクトル
差異とほとんど同じ程度の大きさである。
【0124】予測できない室内音響によるトレーニング
データと試験データとの間の不可避的な不一致を回避す
るために、本システムは本質的に、単一話者によって発
せられたと思えるセグメントを抽出することによって試
験データからトレーニングデータを取得する。現在の実
施の形態において、これは、単一話者のスピーチがスラ
イドといったプレゼンテーション視覚物の表示と相関し
ていると仮定することによって行われる。(仮定された
スタッフ会議の領域分野では、この仮定は、完全にでは
ないが通常は、所与のスライド区間において質問、笑声
または他の感嘆が頻繁に存在するので、正確である。)
【0125】単純な顔面またはニュースキャスター検出
といった他のビデオ分析は同様に使用される。本発明に
従った代替法として、顔面認識は、ビデオ区間を特定の
話者と関係づけるために使用されるオーディオクラスタ
化を強化または代替できる。
【0126】次の工程は、何人の話者がスライドプレゼ
ンテーションを行ったかを判定するために候補区間をク
ラスタ化することである。これは、任意の数のクラスタ
化技法のいずれかによって行えるが、現在の実施の形態
の場合、オーディオ類似性の極めて単純な測度が使用さ
れる。各オーディオ区間はメル周波数ケプストラル係数
にパラメータ化され、各区間の係数の平均が比較照合さ
れる。ユークリッド距離測度および、最大距離の1/2
をスレッショルドとする集塊クラスタ化法によって、各
話者候補に関する個別のクラスタが得られる。クラスタ
化スレッショルドは、いずれかの既存のクラスタに十分
に類似でない区間を排除する。例えば、あるスライドに
関するクエリーがなされる場合、得られる区間はほとん
ど、多数の異なる話者からのスピーチを含む。より精緻
な距離およびクラスタ化法、例えば、ノンパラメトリッ
ク類似性測度、尤度比距離および/または可変スレッシ
ョルドクラスタ化といった方法が選択的に使用される。
隣接セグメントのクラスタ化を助成するために距離測度
にバイアスをかけるといった付加的な拘束または、話者
の数に関する事前の知識を使用することにより、選択的
にクラスタ化を改善させることもできる。前述の通り、
自動顔面認識は音響クラスタ化を代替的に強化または代
替できる。
【0127】図39は、本発明に従った一連の話者単位
より構成される話者遷移モデルを示す。フィラーモデル
3901、3903および3903は、例えばビデオの
非単一話者セグメントでトレーニングされるオーディオ
モデルを表す。話者モデル3904は、図38に示した
併合オーディオ区間3810でトレーニングされる話者
モデルを表す。話者モデル3905は、図38に示した
併合オーディオ区間3811でトレーニングされるモデ
ルを表す。話者単位3806および3907は、セグメ
ント化における話者シーケンスの知識によってソースオ
ーディオ3608をセグメント化するために図36に示
す工程3607で使用される隠れマルコフモデルを形成
するために連結される。
【0128】クラスタ化の結果から、プレゼンテーショ
ンを行う話者の数および彼らが話す順番が決定される。
これは隠れマルコフモデルを用いてビデオをセグメント
化できるようにする。さらに、クラスタ化されたオーデ
ィオセグメントは各話者モデルをトレーニングするため
に使用される。クラスタ化の結果から、ビデオの時間範
囲をモデル化するために隠れマルコフモデルが自動的に
構築される。図39はモデルの構造を示している。「フ
ィラー」モデルは、発表者の話以外とみなされるオーデ
ィオを表す。この実施の形態では、フィラーモデルは、
ソースビデオの最初の2分間からのオーディオと同様、
他の会議ビデオからセグメント化された沈黙、笑声、称
賛および聴衆の雑音でトレーニングされ、それはプレゼ
ンテーションの話者による話を含まないとみなされる。
フィラーモデルは、多重事例化されているが、好ましく
は各事例で同一である。話者特定モデルはプレゼンテー
ションの話者からの話を表す。各話者特定モデルは、そ
れに関係する結合されたスライド区間のクラスタからの
オーディオでトレーニングされる。話者モデルおよび選
択的なフィラーモデルを連結することにより「話者単
位」が得られる。それらは、話者ごとに1個ずつ連結さ
れ、最終モデルを生じる。これにより正しい話者シーケ
ンスが得られる。セグメント化は、完全モデルによりソ
ースオーディオの最大尤度アライメントを見つけるため
にバイタービアルゴリズムによって実行される。これ
は、スライドが表示される区間と実質的には異なる可能
性があるので、各発表者の話の範囲を決定可能にする。
特に、話者が話している間に話者のショット、聴衆のシ
ョットおよびプレゼンテーションスライドの間で交替が
起こることはビデオにとって普通である。この実施の形
態では、フィラーモデルおよび話者モデルともに単一の
状態を有しており、単一混合の全共分散ガウス出力分布
を有する。モデルが単一状態および単一混合を有するの
で、それらは1パスで迅速にトレーニングされる。複数
状態または複数混合モデルは、より高価なトレーニング
によって性能を改善できよう。自己遷移はいかなるペナ
ルティーも伴わずに可能であり、明示的な時間継続をい
っさい持たないエルゴード的モデルを生じる。これによ
り、モデルは、いかなる確率ペナルティーも伴わずに所
与の時間長を表現することができる。
【0129】図40は、本発明によるオーディオ・ビジ
ュアル記録物をセグメント化する方法のセグメント化の
結果を例示している。このように、話者Aの指標400
1は、話者Aのプレゼンテーションの実際の継続時間4
003にほぼ重なり合っている話者Aのセグメント化を
表す。話者Bのセグメント化指標4002は、セグメン
ト化が実際の話者Bの継続時間4004にほぼ重なり合
う結果となったことを表す。このようにして、話者Aの
指標4001および話者Bの指標4002は、本発明に
よるセグメント化によって作成される索引より導出され
る。
【0130】図40は、会議のソースビデオに関する自
動セグメント化の結果を示す。不利な音響環境(利得制
御を伴う6個のファーフィールドマイクロフォン)にも
かかわらず、2人の話者は識別され、彼らのプレゼンテ
ーションの範囲は、数十秒以内まで合理的に良好にセグ
メント化された。これはビデオのセグメント化およびブ
ラウズにとって明らかに妥当である。最大の不一致は話
者Aのプレゼンテーションの終わりにあり、それは事実
上話者Bのプレゼンテーションの開始まで続くようにセ
グメント化された。これはたぶん、2人の話者が、映写
装置の詳細を話し合っていたのでその区間に話をしてい
たためであろう。
【0131】単一の会議を選択するために使用される同
じ技法は、同じ話者の組を含む複数の会議に対しても選
択的に適用される。個々の会議からのプレゼンテーショ
ンは会議の資料について選択的にクラスタ化される。こ
れは発表者の目録を作成可能にする。それが潜在的に異
なる音響環境(部屋の位置)における同一話者の話の十
分な実例を含んでいれば、より強固な、位置に依存しな
い話者モデルが選択的にトレーニングされる。さらに、
会議進行表において話者が識別されていれば、話者モデ
ルは以後の識別および検索のために氏名と関係づけられ
る。
【0132】スライドプレゼンテーションを含む6本の
ビデオ録画された会議が試験資料として使用された。オ
ーディオフィラーモデルおよびスライド画像のトレーニ
ングデータは別の組のビデオから得た。6本のビデオの
合計長さは280分21秒であり、約45分の平均長で
あった。各ビデオは1〜5本のプレゼンテーションを含
み、合計16本であったが、3本のプレゼンテーション
はビデオおよびスライドを含んでおり、ほとんどが聴衆
の質問または注釈を有していた。プレゼンテーションは
一般にスライド区間の継続時間より長いので、スライド
の存在はプレゼンテーションの良好な指標であり、スラ
イドだけからプレゼンテーションを見つけることはプレ
ゼンテーションの75%を見逃す結果となった。表3の
第2行は、話者のセグメント化がこれをどれほど改善さ
せるかを示す。プレゼンテーションの約5%だけがプレ
ゼンテーション以外のものであると誤って識別された。
【0133】16本のプレゼンテーションにもとづき、
(ビデオおよび変則的なオーディオによる付加的な終点
とともに)合計32個の検出すべき終点が存在した。実
際の話者の話の開始または終了の15秒以内に生じてい
れば、終点は正確であるとみなした。表4は終点の位置
の確度を示す。クラスタ化以前に、57のスライド区間
による114個の終点が存在した。検出すべき32個の
関連する終点の実地検証情報が与えられ、26個の終点
が正確に突き止められて、これは0.23の精度による
0.81のリコールをもたらし、ほとんどの終点は見つ
かったが、それが正しい終点である可能性が1/4未満
であることを意味する。57個のアライメントされたセ
グメントをクラスタ化することにより23個のクラスタ
を得たが、これは不正確な終点の数を減らすことにより
精度を劇的に改善させた。検出された終点のうち少なく
とも2個はプレゼンテーションに対するビデオ区間によ
っており、精度は不当に悲観的であることに留意された
い。非理想的オーディオ環境もクラスタ化問題を生じ
た。マイクロフォンはHVACベント付近の音響天井タ
イルに設置されている。いくつかのプレゼンテーション
は換気雑音の有無により誤ってクラスタ化された。これ
は音響信号に大きな影響を与え、同じ話者も換気システ
ムの状態によって別様にクラスタ化され、一部のクラス
タ境界はまさに換気スイッチのオンオフにより生じてい
る。
【0134】
【表4】
【0135】本発明によるこれらの方法は、会議ビデオ
の他に、個々の話者が識別可能なビデオ特徴に関係づけ
られるあらゆる分野に適用可能である。一例は、ニュー
スキャスターのショットが画像構成および背景により識
別できる場合が多い、ニュース放送である。話者識別の
使用により、ロケーションまたは他の介在ビデオが存在
する場合でも、ニュースキャスターによるニュース記事
のセグメント化が可能である。
【0136】図41は、本発明に従ったセグメント間音
響距離マトリックスを示す。対角線上成分4101〜4
105は、各セグメントがそれ自体に類似であることを
示す黒色である。灰色領域4106および4107は、
ソースオーディオの始まりおよび終わりにおけるオーデ
ィオ区間の部分的類似性を表す。白色領域はオーディオ
セグメントの非類似を表す。
【0137】多くの場合、例えば図40でラベル2、3
および4が付けられたような、同一話者に対応する複数
の隣接区間が存在する。クラスタ化は、尤度比距離など
の多くの技法によって代替的に実行される。ここで使用
するクラスタ化法は、ノンパラメトリック距離測度にも
とづく。オーディオセグメントにパラメータ化されたメ
ル周波数ケプストラル成分は、クラス境界を見つけるた
めに最大相互情報量評価基準を用いて監視ベクトル量子
化数をトレーニングするために使用される。トレーニン
グされると、セグメントはベクトル量子化され、二項分
布のヒストグラムが作成される。このヒストグラムは、
オーディオファイルのシグネーチャとして機能し、ベク
トルとして処理される場合には2つのヒストグラム間の
コサインはオーディオ類似性の良好な測度として機能す
る。図41はこの測度を用いて計算された距離マトリッ
クスを示す。これは、単一の会議ビデオからの12個の
スライド領域の間のオーディオ類似性を示している。各
成分i,jは、より近い距離、すなわちより類似性であ
るものが濃色になるように、セグメントiおよびjの間
の距離を図示するように着色されている。図41から、
各々が特定の話者による話に対応する、いくつかの音響
的に類似の群が存在することは明白である。例外は、中
央の話者のプレゼンテーションにおいて示されたビデオ
からのタイトルに対応する、セグメント7によるもので
ある。このような距離マトリックスは、単一話者に対応
する類似区間を見つけるためにクラスタ化される。いず
れかの種類の階層的クラスタ化が選択的に使用される
が、ここで採った単純な方式は、各自の距離のいずれも
スレッショルドを超えない限り、全部の隣接セグメント
を同一クラスタの一部であるとみなすことによって、ク
ラスタメンバーの時間隣接性を強制することであった。
図41のセグメントの場合、これは以下のように5個の
クラスタとなった。 (1,2,3,4,5)−−−(6)−−−(7)−−
−(8)−−−(9,10,11,12)
【0138】実地検証情報は3つのプレゼンテーション
が存在するということであったので、このクラスタ化法
は、第2のプレゼンテーションを、オーディオ距離にも
とづき3個に誤ってセグメント化した。重要な目的はビ
デオブラウジングのための索引を見つけることなので、
それは絶望的な誤りではない。プレゼンテーションが開
始した時点と同様、ビデオが表示された時点を見つける
ことも望ましい。より精緻なクラスタ化方法は、図41
のセグメント7といったオーディオアウトライアーまた
は、質問や称賛といった他の変則的オーディオを無視す
るために使用される。
【0139】セグメント化プロセスにおける第1工程
は、ビデオにおけるスライドを突き止めることである。
これは、プレゼンテーショングラフィックスがそのビデ
オにおいて表示される時点の正確な推定値をもたらす、
上述の本発明による技法によって行われる。元のMPE
G−1ビデオは、時間に関して2フレーム/秒に、空間
に関して64×64画素表現の下位画像に間引かれる。
各簡約化されたフレームはその後、離散コサイン変換ま
たはアダマール変換によって変換される。変換は、画像
圧縮の場合に普通である小さな下位ブロックに対してで
はなく、フレーム画像全体に適用される。変換されたデ
ータはその後、その100個の主成分に射影により簡約
化される。
【0140】図42は、本発明に従って、スライドビデ
オ画像と類似である所定の時間間隔よりも長い1個以上
のビデオフレーム区間を識別する方法を示している。工
程4201で、ビデオは時間および空間に関して間引か
れる。工程4202で、フレームは離散コサイン変換ま
たはアダマール変換によって変換される。工程4203
では、工程4202で計算された変換マトリックスから
特徴ベクトルが抽出される。工程4204で、スライド
の確率がスライド画像クラスのガウスモデルを用いて計
算される。工程4205では、工程4204において計
算された尤度が、そのフレームがスライド画像クラスと
類似であるか否かを判定するためにスレッショルドと比
較される。それがスライドであると判定されると、工程
4206は、以前のNフレームもスライドであったかど
うかを検査する。Nは、工程4207でスライド区間が
見つかる前に、検出されるスライドの所定の時間間隔が
超えられなければならないように選択される。例えば、
20秒のスライドスレッショルドで、2フレーム/秒に
間引く場合、Nは40であるように選択される。従っ
て、単一フレームがスライドであると判定されたが、そ
のスライドフレーム以前のフレームおよびスライドフレ
ーム以降のフレームがスライドでなければ、スライド区
間はラベルづけされない。工程4205がそのフレーム
は非スライドであると判定した場合または現在のフレー
ムはスライドであるが以前のNフレームはスライドでは
ないと判定した場合、工程4208は、ビデオの終わり
に到達したかどうかを検査する。さらにフレームがある
場合、方法は再び工程4202からその次のフレームに
対して開始する。ビデオの終わりに到達していれば、方
法は図43に進む。
【0141】図43は、本発明に従ったスライド区間か
ら抽出されたオーディオ区間によるソース特定話者モデ
ルをトレーニングする方法を示している。工程4301
で、スライド区間に対応するオーディオ区間が抽出され
る。この抽出は、そのスライド区間が抽出されたソース
ビデオ3601に対応する図36に示したソースオーデ
ィオ3608により行われる。工程4302で、最初の
オーディオ区間がメル周波数ケプストラル係数にパラメ
ータ化される。オーディオ区間に対応する多様なメル周
波数ケプストラル係数ベクトルは、そのオーディオ区間
に対応するオーディオ係数平均ベクトルを生成するため
に工程4303で平均化される。さらにオーディオ区間
があれば、工程4304は、次のオーディオ区間の処理
のために方法を工程4302に戻す。全部のオーディオ
区間がパラメータ化され、オーディオ係数平均ベクトル
が各オーディオ区間について計算されると、オーディオ
区間は工程4305でクラスタ化される。工程4305
は同一話者判定基準によってオーディオ区間をクラスタ
化する。すなわち、ユークリッド距離に関して相互に十
分に近いオーディオ係数平均ベクトルを有するオーディ
オ区間は、同一話者によるものであると判断される。工
程4306で、同一クラスタのオーディオ区間が併合さ
れる。工程4307で、第1の話者モデルが第1の併合
オーディオ区間でトレーニングされる。検査4308
は、併合オーディオ区間のクラスタがさらに存在するか
どうかが判断される。肯定であれば、工程4307は、
一意的に決まる話者モデルをトレーニングするために全
部の併合オーディオ区間が使用されるまで次々に処理す
る。
【0142】図44は、本発明に従った話者遷移モデル
を用いてオーディオ・ビジュアル記録物をセグメント化
する方法を示す。工程4401で、オーディオの隠れマ
ルコフモデルが構築される。図39は、工程4401に
よって構築されるようなオーディオ隠れマルコフモデル
を示している。ビデオおよびオーディオは、工程440
2でそのオーディオ隠れマルコフモデルによってセグメ
ント化される。工程4403で、ビデオおよびオーディ
オは、工程4402で決定されたセグメント化情報によ
り索引づけられる。このように、図44に示す方法は、
図36に示した工程3607を実施するために適する。
【0143】会議の進行表が得られる場合、プレゼンテ
ーションは、進行表からの情報を用いて選択的に自動的
にラベルづけまたは索引づけされる。これにより、プレ
ゼンテーションは発表者および演題によって容易に見つ
けることができる。このようにして、会議ビデオは、内
容によって自動的に索引づけ、ブラウジングおよび検索
される。
【0144】本発明をいくつかの態様および実施の形態
に関して説明したが、これらの態様および実施の形態
は、限定としてではなく、例示として提起されている。
本発明の精神および範囲を逸脱することなく各種の追加
および変更が行い得ることを理解しなければならない。
例えば、数倍の改善といった精緻な音響モデルは、継続
時間モデルを各話者に対して強制することによって代替
的に得られる。別の例として、オーディオ特徴と同様に
ビデオ特徴にもとづくセグメントのクラスタ化は、発表
者のスライドが、発表者自身の画像だけでなく、類似性
の構成およびカラー図式を有するはずであるという仮定
にもとづき、本発明に包含される。それにより、オーデ
ィオおよびビデオの両方の変則的領域の識別をプレゼン
テーション中に表示されるビデオによって可能にする。
また別の例として、対話的に定義された探索セグメント
を指定するユーザ入力を受け取るための他のウェブベー
スのインタフェースが使用できる。さらに別の例とし
て、ガウス分布以外の確率分布を用いた分類が適切な状
況において使用することができる。従って、こうした追
加および変更はすべて、特許請求の範囲に記載された本
発明の精神および範囲に通じるものであると見なされる
べきである。
【図面の簡単な説明】
【図1】本発明の方法を実行するために適した汎用コン
ピュータアーキテクチャを示す。
【図2】本発明によるビデオの分類を実行する方法にお
けるデータの流れを示す。
【図3】本発明による、トレーニングフレーム、トレー
ニングフレームから得られた平均特徴ベクトルの逆離散
コサイン変換およびトレーニングフレームから得られた
平均特徴ベクトルの逆アダマール変換を示す。
【図4】異なる平均および分散を有する一次元ガウス分
布を示すグラフである。
【図5】本発明によるビデオ分類のための特徴集合を選
択する方法を示すフローチャートである。
【図6】ビデオフレームの離散コサイン変換により得ら
れる変換マトリックスを示す。
【図7】本発明に従って2個以上の変換マトリックスか
ら計算された分散マトリックスを示す。
【図8】本発明に従って切り捨てによって決定された特
徴集合を示す。
【図9】本発明による図8に示した特徴集合を有するト
レーニングフレームの2個以上の特徴ベクトルから計算
された平均特徴ベクトルを示す。
【図10】本発明による図8に示した特徴集合を有する
トレーニングフレームの2個以上の特徴ベクトルから計
算された対角共分散マトリックスを示す。
【図11】本発明の方法に従って分類のために図8に示
した特徴集合を有するフレームについて検索された特徴
ベクトルを示す。
【図12】本発明に従って2個以上のビデオ画像クラス
のいずれかにビデオのフレームを分類する方法を示すフ
ローチャートである。
【図13】本発明に従って、主成分分析、最大分散を有
する係数の選択または最大平均を有する係数の選択によ
り決定された特徴集合を示す。
【図14】本発明による図13に示した特徴集合を有す
るトレーニングフレームの2個以上の特徴ベクトルから
計算された平均特徴ベクトルを示す。
【図15】本発明による図13に示した特徴集合を有す
るトレーニングフレームの2個以上の特徴ベクトルから
計算された対角共分散マトリックスを示す。
【図16】本発明の方法に従って分類のために図13に
示した特徴集合を有するフレームについて検索された特
徴ベクトルを示す。
【図17】本発明による類似性を決定する方法におい
て、類似性を決定するためのスレッショルドとして使用
されるスライド画像クラス統計モデルの標準偏差の倍数
の関数として、スライドとして正確に識別されたスライ
ドフレームの割合およびスライドとして誤って識別され
た非スライドフレームの割合を示すグラフである。
【図18】本発明に従って画像クラス統計モデルを用い
てビデオフレームの類似性を決定する方法を示すフロー
チャートである。
【図19】本発明に従ってビデオの各種フレームを生成
するビデオ画像クラス統計モデルの確率の対数の表示を
示すグラフである。
【図20】本発明に従ってビデオの各種フレームを生成
するビデオ画像クラス統計モデルの確率の対数を表示す
る方法を示すフローチャートである。
【図21】特徴集合の成分の数dの関数として正確に分
類されたフレームの割合、それらのフレームに適用され
た変換のタイプおよびd成分特徴集合の選択方法を示す
グラフである。
【図22】本発明の方法に従ってスライドと類似と見ら
れるビデオの領域を表示するブラウザを示す。
【図23】本発明によるビデオを分類する方法において
使用される隠れマルコフモデルに対応するクラス遷移図
を示す。
【図24】図23に示すクラス遷移図に対応する本発明
に従ったクラス遷移確率マトリックスを示す。
【図25】図23に示すクラス遷移図に従った5連続初
期ビデオフレームに対応する全部の可能なクラスシーケ
ンスを示す。
【図26】本発明に従ってクラス遷移確率マトリックス
および画像クラス統計モデルを用いたビデオをセグメン
ト化する方法を示すフローチャートである。
【図27】本発明による類似性探索を実行する方法にお
けるデータの流れを示す。
【図28】本発明によるビデオに対応する特徴ベクトル
データベースを計算する方法を示すフローチャートであ
る。
【図29】本発明による統計モデルを対話的にトレーニ
ングする方法を示すフローチャートである。
【図30】本発明によるブラウザ内でビデオフレームを
提示し類似性測度を表示する方法を示すフローチャート
である。
【図31】本発明に従って、対話的に定義されたトレー
ニングビデオセグメント、そのトレーニングビデオセグ
メントのトレーニングフレームから得られた平均特徴ベ
クトルの逆離散コサイン変換および、トレーニングビデ
オセグメントのトレーニングフレームから得られた平均
特徴ベクトルの逆アダマール変換を示す。
【図32】本発明による、トレーニングビデオセグメン
トを対話的に定義し類似性測度を表示する時間バーおよ
び、ユーザスレッショルドマウス入力を受け取るスレッ
ショルドスライダバーを備えるブラウザを示す。
【図33】ビデオの領域内にフレームを表示するための
スクロール可能ウィンドウが追加された図32のブラウ
ザを示す。
【図34】1個以上のトレーニングビデオセグメントの
終点を対話的に選択し、周期的フレームの類似性測度を
表示する、ビデオの周期的フレームを表示するウェブベ
ースのインタフェースを示す。
【図35】本発明に従って離散コサイン変換係数および
アダマール変換係数を用いて計算されたビデオの類似性
マトリックスを示す。
【図36】本発明によるオーディオ・ビジュアル記録物
をセグメント化する方法に対応するデータの流れを示
す。
【図37】2人の話者による2つのプレゼンテーション
を含む記録された会議のスライドであるオーディオ・ビ
ジュアル記録物のフレームの確率の対数を示すグラフで
ある。
【図38】本発明によるオーディオ区間に適用されるク
ラスタ化方法におけるデータの流れを示す。
【図39】本発明による一連の話者単位を構成する話者
遷移モデルを示す。
【図40】本発明によるオーディオ・ビジュアル記録物
をセグメント化する方法のセグメント化結果を示すグラ
フである。
【図41】本発明によるセグメント間音響距離マトリッ
クスを示す。
【図42】本発明による、スライド画像クラスとの類似
性を有する所定の時間間隔より長い1個以上のビデオフ
レーム区間を識別する方法を示すフローチャートであ
る。
【図43】本発明によるスライド区間から抽出されたオ
ーディオ区間からのソース特定話者モデルをトレーニン
グする方法を示すフローチャートである。
【図44】本発明による話者遷移モデルを用いたオーデ
ィオ・ビジュアル記録物をセグメント化する方法を示す
フローチャートである。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/91 G10L 3/00 551G 7/30 H04N 5/91 N 7/133 Z (72)発明者 リン ディー. ウィルコックス アメリカ合衆国 94028 カリフォルニア 州 ポートラ ヴァレイ ホワーキン ロ ード 45 (54)【発明の名称】 ビデオの類似性探索方法、ビデオブラウザ内にビデオを提示する方法、ウェブベースのインタフ ェース内にビデオを提示する方法、及びコンピュータ読取り可能記録媒体、並びにコンピュータ システム

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 ビデオの類似性探索方法であって、 ビデオから、トレーニングビデオセグメントを対話形式
    で定義する工程と、 トレーニングビデオセグメントのフレームに対応する縮
    小特徴ベクトルを得る工程と、 縮小特徴ベクトルを用いて統計モデルをトレーニングす
    る工程と、を含むことを特徴とする方法。
  2. 【請求項2】 ビデオの各フレームに対して、 縮小特徴ベクトルを得る工程と、 縮小特徴ベクトルと統計モデルを用いて、類似性スコア
    を計算する工程と、をさらに含むことを特徴とする請求
    項1記載の方法。
  3. 【請求項3】 類似性スコアに基づいて、ビデオを、類
    似セグメントと非類似セグメントに分ける工程をさらに
    含むことを特徴とする請求項2記載の方法。
  4. 【請求項4】 トレーニングビデオセグメントのフレー
    ムに対応する縮小特徴ベクトルを得る工程と、ビデオの
    各フレームに対して縮小特徴ベクトルを得る工程が、ビ
    デオに対応するあらかじめ計算された特徴ベクトルデー
    タベースから、縮小特徴ベクトルを検索することで実行
    されることを特徴とする請求項2記載の方法。
  5. 【請求項5】 トレーニングビデオセグメントのフレー
    ムに対応する縮小特徴ベクトルを得る工程と、ビデオの
    各フレームに対して縮小特徴ベクトルを得る工程が、ビ
    デオのフレームを変換して実行されることを特徴とする
    請求項2記載の方法。
  6. 【請求項6】 トレーニングビデオセグメントのフレー
    ムに対応する各縮小特徴ベクトルが、フレームの彩度成
    分を表す特徴と、フレームの輝度成分を表す特徴を含む
    ことを特徴とする請求項1記載の方法。
  7. 【請求項7】 各縮小特徴ベクトルが、輝度成分を表す
    特徴よりも少ない、彩度成分を表す特徴を含むことを特
    徴とする請求項6記載の方法。
  8. 【請求項8】 トレーニングビデオセグメントのフレー
    ムに対応する各縮小特徴ベクトルが、フレームの赤色成
    分を表す特徴、フレームの緑色成分を表す特徴、フレー
    ムの青色成分を表す特徴を含むことを特徴とする請求項
    1記載の方法。
  9. 【請求項9】 類似性スコアに基づいて、ビデオを、類
    似セグメントと非類似セグメントに分ける工程が、類似
    性スコアを、対話形式で定義された類似性スレッショル
    ドと比較することで実行されることを特徴とする請求項
    3記載の方法。
  10. 【請求項10】 ビデオブラウザ内にビデオを提示する
    方法であって、 ビデオを見るための表示ウィンドウを提供する工程と、 内部の位置が、ビデオの開始からの経過時間に直線的に
    対応しているタイムバーをビデオブラウザ内に表示する
    工程と、 ビデオから、1つ、または複数のトレーニングビデオセ
    グメントを示すユーザトレーニング入力を受取る工程
    と、 類似性測度を示すために、ビデオ内の各フレームに対応
    する位置で、タイムバーのシェードを用いて、各フレー
    ムの類似性測度をトレーニングビデオセグメントに表示
    する工程と、を含むことを特徴とする方法。
  11. 【請求項11】 ユーザトレーニング入力を受取る工程
    が、タイムバーに沿って、ユーザトレーニングマウス入
    力を受取る工程を含むことを特徴とする請求項10記載
    の方法。
  12. 【請求項12】 各フレームの類似性測度と比較するた
    めに、スレッショルドレベルを示すユーザスレッショル
    ド入力を受取って、1つ、または複数のトレーニングビ
    デオセグメントに類似するか、または類似しないものと
    して、各フレームにラベルを付ける工程と、 タイムバー内の第1の対比する色またはパターンが、類
    似または非類似の一方を示し、また第2の対比する色ま
    たはパターンが、類似または非類似の他方を示す工程
    と、をさらに含むことを特徴とする請求項10記載の方
    法。
  13. 【請求項13】 ウェブベースのインタフェース内にビ
    デオを提示する方法であって、 所定の時間間隔で区切られたビデオの周期フレームを表
    示する工程と、 ビデオから、1つ、または複数のトレーニングビデオセ
    グメントを示すユーザトレーニング入力を受取る工程
    と、 類似性測度を示すために、各表示周期フレームの周りの
    シェードを用いて、ビデオ内の各表示周期フレームの類
    似性測度をトレーニングビデオセグメントに表示する工
    程と、を含むことを特徴とする方法。
  14. 【請求項14】 ユーザトレーニング入力を受取る工程
    が、隣接して表示される周期フレームのマウスクリック
    を検出することで、ユーザトレーニングマウス入力を受
    取る工程を含むことを特徴とする請求項13記載の方
    法。
  15. 【請求項15】 ビデオの類似性探索を行う方法であっ
    て、 ビデオから、対話形式でトレーニングビデオセグメント
    を定義する工程と、 トレーニングビデオセグメントのフレームに対応する縮
    小特徴ベクトルを得る工程と、 前記縮小特徴ベクトルを用いて、統計モデルをトレーニ
    ングする工程と、を含む方法を実行するために、コンピ
    ュータに組込む、コンピュータ読取り可能記憶媒体上で
    記憶されるコンピュータ読取り可能プログラムコードを
    備えることを特徴とするコンピュータ読取り可能記憶媒
    体。
  16. 【請求項16】 ビデオをビデオブラウザ内に提示する
    方法であって、 ビデオを見るための表示ウィンドウを提供する工程と、 内部の位置が、ビデオの開始からの経過時間に直線的に
    対応しているタイムバーをビデオブラウザ内に表示する
    工程と、 ビデオから、1つ、または複数のトレーニングビデオセ
    グメントを示すユーザトレーニング入力を受取る工程
    と、 類似性測度を示すために、ビデオ内の各フレームに対応
    する位置で、タイムバーのシェードを用いて、各フレー
    ムの類似性測度をトレーニングビデオセグメントに表示
    する工程と、を含む方法を実行するために、コンピュー
    タに組込む、コンピュータ読取り可能記憶媒体上で記憶
    されるコンピュータ読取り可能プログラムコードを備え
    ることを特徴とするコンピュータ読取り可能記憶媒体。
  17. 【請求項17】 ビデオをウェブベースのインタフェー
    ス内に提示する方法であって、 所定の時間間隔で区切られたビデオの周期フレームを表
    示する工程と、 ビデオから、1つ、または複数のトレーニングビデオセ
    グメントを示すユーザトレーニング入力を受取る工程
    と、 類似性測度を示すために、各表示周期フレームの周りの
    シェードを用いて、ビデオ内の各表示周期フレームの類
    似性測度をトレーニングビデオセグメントに表示する工
    程と、を含む方法を実行するために、コンピュータに組
    込む、コンピュータ読取り可能記憶媒体上で記憶される
    コンピュータ読取り可能プログラムコードを備えること
    を特徴とするコンピュータ読取り可能記憶媒体。
  18. 【請求項18】 プロセッサと、 ユーザインタフェースと、ビデオの類似性探索を行う方
    法であって、 ビデオから、対話形式でトレーニングビデオセグメント
    を定義する工程と、 トレーニングビデオセグメントのフレームに対応する縮
    小特徴ベクトルを得る工程と、 前記縮小特徴ベクトルを用いて、統計モデルをトレーニ
    ングする工程と、を含む方法を実行するために、コンピ
    ュータシステムに組込む、プロセッサ読取り可能記憶媒
    体上で記憶されるプロセッサ読取り可能プログラムコー
    ドを有するプロセッサ読取り可能記憶媒体と、を備える
    ことを特徴とするコンピュータシステム。
  19. 【請求項19】 ディスプレイと、 ユーザインタフェースと、プロセッサと、 ビデオブラウザ内にビデオを提示する方法であって、 ビデオを見るための表示ウィンドウを提供する工程と、 内部の位置が、ビデオの開始からの経過時間に直線的に
    対応しているタイムバーをビデオブラウザ内に表示する
    工程と、 ビデオから、1つ、または複数のトレーニングビデオセ
    グメントを示すユーザトレーニング入力を受取る工程
    と、 類似性測度を示すために、ビデオ内の各フレームに対応
    する位置で、タイムバーのシェードを用いて、各フレー
    ムの類似性測度をトレーニングビデオセグメントに表示
    する工程と、を含む方法を実行するために、コンピュー
    タシステムに組込む、プロセッサ読取り可能記憶媒体上
    で記憶されるプロセッサ読取り可能プログラムコードを
    有するプロセッサ読取り可能記憶媒体と、を備えること
    を特徴とするコンピュータシステム。
  20. 【請求項20】 ディスプレイと、 ユーザインタフェースと、 プロセッサと、ウェブベースのインタフェース内にビデ
    オを提示する方法であって、 所定の時間間隔で区切られたビデオの周期フレームを表
    示する工程と、 ビデオから、1つ、または複数のトレーニングビデオセ
    グメントを示すユーザトレーニング入力を受取る工程
    と、 類似性測度を示すために、各表示周期フレームの周りの
    シェードを用いて、ビデオ内の各表示周期フレームの類
    似性測度をトレーニングビデオセグメントに表示する工
    程と、を含む方法を実行するために、コンピュータシス
    テムに組込む、プロセッサ読取り可能記憶媒体上で記憶
    されるプロセッサ読取り可能プログラムコードを有する
    プロセッサ読取り可能記憶媒体と、を備えることを特徴
    とするコンピュータシステム。
JP2000064979A 1999-03-11 2000-03-09 ビデオの類似性探索方法及び記録媒体 Expired - Fee Related JP4253989B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US266558 1999-03-11
US09/266,558 US6774917B1 (en) 1999-03-11 1999-03-11 Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video

Publications (2)

Publication Number Publication Date
JP2000322450A true JP2000322450A (ja) 2000-11-24
JP4253989B2 JP4253989B2 (ja) 2009-04-15

Family

ID=23015075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000064979A Expired - Fee Related JP4253989B2 (ja) 1999-03-11 2000-03-09 ビデオの類似性探索方法及び記録媒体

Country Status (2)

Country Link
US (2) US6774917B1 (ja)
JP (1) JP4253989B2 (ja)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002077906A (ja) * 2000-07-06 2002-03-15 Mitsubishi Electric Research Laboratories Inc マルチメディアコンテンツの低レベルの特徴から高レベルの特徴を抽出する方法およびシステム
JP2005331940A (ja) * 2004-05-07 2005-12-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2006058874A (ja) * 2004-08-20 2006-03-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
JP2006178974A (ja) * 2004-12-23 2006-07-06 Ricoh Co Ltd 情報処理方法、情報処理装置及びデータ処理装置
JP2006236311A (ja) * 2004-12-09 2006-09-07 Sony United Kingdom Ltd 情報処理方法
EP1766575A2 (en) 2004-06-09 2007-03-28 Cognex Technology and Investment Corporation Method and apparatus for configuring and testing a machine vision detector
JP2007087379A (ja) * 2005-09-02 2007-04-05 Mitsubishi Electric Research Laboratories Inc コンピュータによるデータ分類方法、コンピュータによる分類方法
WO2008078736A1 (ja) * 2006-12-27 2008-07-03 Nec Corporation 同一性判定装置、同一性判定方法および同一性判定用プログラム
JP2008537627A (ja) * 2005-03-31 2008-09-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 複合ニュース・ストーリーの合成
JP2009541869A (ja) * 2006-07-03 2009-11-26 インテル・コーポレーション 高速音声検索の方法および装置
US7907184B2 (en) 2004-08-11 2011-03-15 Sony Corporation Picture processing apparatus, picture processing method, picture taking apparatus, and program
JP2011238221A (ja) * 2010-05-05 2011-11-24 Palo Alto Research Center Inc パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定
US8103085B1 (en) 2007-09-25 2012-01-24 Cognex Corporation System and method for detecting flaws in objects using machine vision
US8127247B2 (en) 2004-06-09 2012-02-28 Cognex Corporation Human-machine-interface and method for manipulating data in a machine vision system
US8184945B2 (en) 2008-12-24 2012-05-22 Kabushiki Kaisha Toshiba Authoring device and authoring method
JP2012133371A (ja) * 2012-01-04 2012-07-12 Intel Corp 高速音声検索の方法および装置
US8249329B2 (en) 2004-06-09 2012-08-21 Cognex Technology And Investment Corporation Method and apparatus for detecting and characterizing an object
US8249296B2 (en) 2004-06-09 2012-08-21 Cognex Technology And Investment Corporation Method and apparatus for automatic visual event detection
US8295552B2 (en) 2004-06-09 2012-10-23 Cognex Technology And Investment Corporation Method for setting parameters of a vision detector using production line information
US8326623B2 (en) 2007-09-27 2012-12-04 Kabushiki Kaisha Toshiba Electronic apparatus and display process method
USRE44353E1 (en) 2004-11-12 2013-07-09 Cognex Technology And Investment Corporation System and method for assigning analysis parameters to vision detector using a graphical interface
US8582925B2 (en) 2004-11-12 2013-11-12 Cognex Technology And Investment Corporation System and method for displaying and using non-numeric graphic elements to control and monitor a vision system
US9116898B2 (en) 2012-03-28 2015-08-25 Fujitsu Limited Information conversion device, computer-readable recording medium, and information conversion method
US9292187B2 (en) 2004-11-12 2016-03-22 Cognex Corporation System, method and graphical user interface for displaying and controlling vision system operating parameters
US9651499B2 (en) 2011-12-20 2017-05-16 Cognex Corporation Configurable image trigger for a vision system and method for using the same

Families Citing this family (297)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000045604A1 (en) * 1999-01-29 2000-08-03 Sony Corporation Signal processing method and video/voice processing device
GB2349460B (en) 1999-04-29 2002-11-27 Mitsubishi Electric Inf Tech Method of representing colour images
US8028314B1 (en) 2000-05-26 2011-09-27 Sharp Laboratories Of America, Inc. Audiovisual information management system
US7051271B1 (en) * 2000-05-31 2006-05-23 Fuji Xerox Co., Ltd. Method, system and article of manufacture for linking a video to a scanned document
WO2002008948A2 (en) * 2000-07-24 2002-01-31 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
KR20020059706A (ko) * 2000-09-08 2002-07-13 요트.게.아. 롤페즈 저장 매체상에 저장된 정보 신호를 재생하는 장치
CN100409358C (zh) * 2000-09-08 2008-08-06 皇家菲利浦电子有限公司 提供一种彩色滑动条的再现装置
US8020183B2 (en) 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
US6931595B2 (en) * 2000-11-02 2005-08-16 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
GB2380599B (en) * 2000-12-22 2003-10-29 Kent Ridge Digital Labs System and method for media production
US20030038796A1 (en) 2001-02-15 2003-02-27 Van Beek Petrus J.L. Segmentation metadata for audio-visual content
KR100438269B1 (ko) * 2001-03-23 2004-07-02 엘지전자 주식회사 뉴스 비디오 브라우징 시스템에서 앵커 샷 자동 검출 방법
US7904814B2 (en) 2001-04-19 2011-03-08 Sharp Laboratories Of America, Inc. System for presenting audio-video content
US7499077B2 (en) 2001-06-04 2009-03-03 Sharp Laboratories Of America, Inc. Summarization of football video content
US7143354B2 (en) 2001-06-04 2006-11-28 Sharp Laboratories Of America, Inc. Summarization of baseball video content
US7191103B2 (en) * 2001-08-08 2007-03-13 Hewlett-Packard Development Company, L.P. Predominant color identification in digital images
EP1302865A1 (en) * 2001-10-10 2003-04-16 Mitsubishi Electric Information Technology Centre Europe B.V. Method and apparatus for searching for and retrieving colour images
US7474698B2 (en) 2001-10-19 2009-01-06 Sharp Laboratories Of America, Inc. Identification of replay segments
JP2003132090A (ja) * 2001-10-26 2003-05-09 Olympus Optical Co Ltd 類似データ検索装置および方法
US7839400B2 (en) * 2002-01-25 2010-11-23 Autodesk, Inc. Volume management system for volumetric displays
US7120873B2 (en) 2002-01-28 2006-10-10 Sharp Laboratories Of America, Inc. Summarization of sumo video content
US8214741B2 (en) 2002-03-19 2012-07-03 Sharp Laboratories Of America, Inc. Synchronization of video and data
US7043474B2 (en) * 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
EP1359536A3 (en) * 2002-04-27 2005-03-23 Samsung Electronics Co., Ltd. Face recognition method and apparatus using component-based face descriptor
US7974495B2 (en) * 2002-06-10 2011-07-05 Digimarc Corporation Identification and protection of video
US8238718B2 (en) * 2002-06-19 2012-08-07 Microsoft Corporaton System and method for automatically generating video cliplets from digital video
GB0215624D0 (en) * 2002-07-05 2002-08-14 Colthurst James R Razor head
US7260782B2 (en) * 2002-07-12 2007-08-21 Ensequence, Inc. Method and system for generating flexible time-based control of application appearance and behavior
US7657836B2 (en) 2002-07-25 2010-02-02 Sharp Laboratories Of America, Inc. Summarization of soccer video content
US7657907B2 (en) 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
FR2846502B1 (fr) * 2002-10-28 2005-02-11 Thomson Licensing Sa Procede de selection de germes pour le regroupement d'images cles
GB2395853A (en) * 2002-11-29 2004-06-02 Sony Uk Ltd Association of metadata derived from facial images
KR101001172B1 (ko) * 2003-01-06 2010-12-15 코닌클리케 필립스 일렉트로닉스 엔.브이. 유사 비디오 콘텐츠 호핑을 위한 방법 및 장치
KR100609154B1 (ko) * 2003-05-23 2006-08-02 엘지전자 주식회사 비디오 콘텐츠 재생 방법 및 장치
US7788696B2 (en) * 2003-10-15 2010-08-31 Microsoft Corporation Inferring information about media stream objects
US7680340B2 (en) * 2003-11-13 2010-03-16 Eastman Kodak Company Method of using temporal context for image classification
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
US8356317B2 (en) 2004-03-04 2013-01-15 Sharp Laboratories Of America, Inc. Presence based technology
US8949899B2 (en) 2005-03-04 2015-02-03 Sharp Laboratories Of America, Inc. Collaborative recommendation system
US7594245B2 (en) 2004-03-04 2009-09-22 Sharp Laboratories Of America, Inc. Networked video devices
US7802188B2 (en) * 2004-05-13 2010-09-21 Hewlett-Packard Development Company, L.P. Method and apparatus for identifying selected portions of a video stream
US7426301B2 (en) * 2004-06-28 2008-09-16 Mitsubishi Electric Research Laboratories, Inc. Usual event detection in a video using object and frame features
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US7457472B2 (en) * 2005-03-31 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
US7508990B2 (en) * 2004-07-30 2009-03-24 Euclid Discoveries, Llc Apparatus and method for processing video data
WO2010042486A1 (en) 2008-10-07 2010-04-15 Euclid Discoveries, Llc Feature-based video compression
EP2602742A1 (en) * 2004-07-30 2013-06-12 Euclid Discoveries, LLC Apparatus and method for processing video data
US7436981B2 (en) * 2005-01-28 2008-10-14 Euclid Discoveries, Llc Apparatus and method for processing video data
US7457435B2 (en) * 2004-11-17 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US20070260987A1 (en) * 2004-08-23 2007-11-08 Mohoney James S Selective Displaying of Item Information in Videos
JP4236266B2 (ja) * 2004-08-27 2009-03-11 キヤノン株式会社 データ変換装置およびその方法
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
CN101061489B (zh) * 2004-09-21 2011-09-07 欧几里得发现有限责任公司 用来处理视频数据的装置和方法
US7783106B2 (en) * 2004-11-12 2010-08-24 Fuji Xerox Co., Ltd. Video segmentation combining similarity analysis and classification
GB0428406D0 (en) * 2004-12-24 2005-02-02 Oxford Instr Superconductivity Cryostat assembly
CN1835507A (zh) 2005-03-17 2006-09-20 国际商业机器公司 用于用户与web浏览器交互的服务器端处理的方法与系统
US7877383B2 (en) * 2005-04-27 2011-01-25 Microsoft Corporation Ranking and accessing definitions of terms
KR100708130B1 (ko) * 2005-05-04 2007-04-17 삼성전자주식회사 동영상 추출장치 및 방법
WO2006122009A2 (en) 2005-05-09 2006-11-16 Lockheed Martin Corporation Continuous extended range image processing
WO2008091485A2 (en) * 2007-01-23 2008-07-31 Euclid Discoveries, Llc Systems and methods for providing personal video services
US20090019149A1 (en) * 2005-08-02 2009-01-15 Mobixell Networks Content distribution and tracking
JP4732067B2 (ja) * 2005-08-11 2011-07-27 キヤノン株式会社 コンピュータ装置及びその制御方法、プログラム
US7545954B2 (en) * 2005-08-22 2009-06-09 General Electric Company System for recognizing events
US7991230B2 (en) * 2005-10-14 2011-08-02 Microsoft Corporation Modeling micro-structure for feature extraction
US9558449B2 (en) 2005-10-26 2017-01-31 Cortica, Ltd. System and method for identifying a target area in a multimedia content element
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US10776585B2 (en) 2005-10-26 2020-09-15 Cortica, Ltd. System and method for recognizing characters in multimedia content
US9953032B2 (en) * 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US8266185B2 (en) 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US10380164B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for using on-image gestures and multimedia content elements as search queries
US10372746B2 (en) 2005-10-26 2019-08-06 Cortica, Ltd. System and method for searching applications using multimedia content elements
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US10949773B2 (en) 2005-10-26 2021-03-16 Cortica, Ltd. System and methods thereof for recommending tags for multimedia content elements based on context
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US9466068B2 (en) 2005-10-26 2016-10-11 Cortica, Ltd. System and method for determining a pupillary response to a multimedia data element
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US11386139B2 (en) 2005-10-26 2022-07-12 Cortica Ltd. System and method for generating analytics for entities depicted in multimedia content
US10387914B2 (en) 2005-10-26 2019-08-20 Cortica, Ltd. Method for identification of multimedia content elements and adding advertising content respective thereof
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US11019161B2 (en) 2005-10-26 2021-05-25 Cortica, Ltd. System and method for profiling users interest based on multimedia content analysis
US10742340B2 (en) 2005-10-26 2020-08-11 Cortica Ltd. System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto
US9384196B2 (en) 2005-10-26 2016-07-05 Cortica, Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US9191626B2 (en) 2005-10-26 2015-11-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
US9646005B2 (en) 2005-10-26 2017-05-09 Cortica, Ltd. System and method for creating a database of multimedia content elements assigned to users
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US9639532B2 (en) 2005-10-26 2017-05-02 Cortica, Ltd. Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts
US9218606B2 (en) 2005-10-26 2015-12-22 Cortica, Ltd. System and method for brand monitoring and trend analysis based on deep-content-classification
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US9489431B2 (en) 2005-10-26 2016-11-08 Cortica, Ltd. System and method for distributed search-by-content
US10607355B2 (en) 2005-10-26 2020-03-31 Cortica, Ltd. Method and system for determining the dimensions of an object shown in a multimedia content item
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US8818916B2 (en) 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
JP4437548B2 (ja) * 2005-12-09 2010-03-24 ソニー株式会社 音楽コンテンツ表示装置、音楽コンテンツ表示方法及び音楽コンテンツ表示プログラム
JP4894252B2 (ja) * 2005-12-09 2012-03-14 ソニー株式会社 データ表示装置、データ表示方法及びデータ表示プログラム
US7388494B2 (en) * 2005-12-20 2008-06-17 Pitney Bowes Inc. RFID systems and methods for probabalistic location determination
US20070186179A1 (en) * 2006-02-03 2007-08-09 Williams Frank J Method for interacting with graphic service information of an apparatus
US8145656B2 (en) * 2006-02-07 2012-03-27 Mobixell Networks Ltd. Matching of modified visual and audio media
US9554093B2 (en) * 2006-02-27 2017-01-24 Microsoft Technology Licensing, Llc Automatically inserting advertisements into source video content playback streams
US7664329B2 (en) * 2006-03-02 2010-02-16 Honeywell International Inc. Block-based Gaussian mixture model video motion detection
US8689253B2 (en) 2006-03-03 2014-04-01 Sharp Laboratories Of America, Inc. Method and system for configuring media-playing sets
US7616816B2 (en) * 2006-03-20 2009-11-10 Sarnoff Corporation System and method for mission-driven visual information retrieval and organization
US7672976B2 (en) * 2006-05-03 2010-03-02 Ut-Battelle, Llc Method for the reduction of image content redundancy in large image databases
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
JP4775179B2 (ja) * 2006-08-28 2011-09-21 ソニー株式会社 表示のスクロール方法、表示装置および表示プログラム
US20080082670A1 (en) * 2006-09-28 2008-04-03 Microsoft Corporation Resilient communications between clients comprising a cloud
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
US8488839B2 (en) * 2006-11-20 2013-07-16 Videosurf, Inc. Computer program and apparatus for motion-based object extraction and tracking in video
US8379915B2 (en) * 2006-11-20 2013-02-19 Videosurf, Inc. Method of performing motion-based object extraction and tracking in video
US8059915B2 (en) * 2006-11-20 2011-11-15 Videosurf, Inc. Apparatus for and method of robust motion estimation using line averages
US7921120B2 (en) * 2006-11-30 2011-04-05 D&S Consultants Method and system for image recognition using a similarity inverse matrix
JP4899842B2 (ja) * 2006-12-06 2012-03-21 ソニー株式会社 ウィンドウの表示方法およびその表示装置
US20080140523A1 (en) * 2006-12-06 2008-06-12 Sherpa Techologies, Llc Association of media interaction with complementary data
US7773811B2 (en) * 2006-12-06 2010-08-10 D & S Consultants, Inc. Method and system for searching a database of graphical data
US20080263010A1 (en) * 2006-12-12 2008-10-23 Microsoft Corporation Techniques to selectively access meeting content
US7849095B2 (en) * 2006-12-29 2010-12-07 Brooks Roger K Method for using two-dimensional dynamics in assessing the similarity of sets of data
JP2010526455A (ja) * 2007-01-23 2010-07-29 ユークリッド・ディスカバリーズ・エルエルシー 画像データを処理するコンピュータ方法および装置
CN101622874A (zh) * 2007-01-23 2010-01-06 欧几里得发现有限责任公司 对象存档系统和方法
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
US8126262B2 (en) * 2007-06-18 2012-02-28 International Business Machines Corporation Annotating video segments using feature rhythm models
US8171030B2 (en) 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
US20080319844A1 (en) * 2007-06-22 2008-12-25 Microsoft Corporation Image Advertising System
US8904442B2 (en) 2007-09-06 2014-12-02 At&T Intellectual Property I, Lp Method and system for information querying
US8654255B2 (en) * 2007-09-20 2014-02-18 Microsoft Corporation Advertisement insertion points detection for online video advertising
US8285718B1 (en) * 2007-12-21 2012-10-09 CastTV Inc. Clustering multimedia search
US20090171787A1 (en) * 2007-12-31 2009-07-02 Microsoft Corporation Impressionative Multimedia Advertising
JP2009163555A (ja) * 2008-01-08 2009-07-23 Omron Corp 顔照合装置
US8126858B1 (en) 2008-01-23 2012-02-28 A9.Com, Inc. System and method for delivering content to a communication device in a content delivery system
WO2009113102A2 (en) * 2008-02-27 2009-09-17 Tata Consultancy Services Limited Content based visual information retrieval systems
JP2011520162A (ja) * 2008-02-28 2011-07-14 アイファロ メディア ゲーエムベーハー マルチメディアストリームにおけるフレームシーケンス比較の方法
US20090245646A1 (en) * 2008-03-28 2009-10-01 Microsoft Corporation Online Handwriting Expression Recognition
US8233715B2 (en) * 2008-04-28 2012-07-31 Microsoft Corporation Probabilistic intensity similarity measure based on noise distributions
WO2009147553A1 (en) * 2008-05-26 2009-12-10 Koninklijke Philips Electronics N.V. Method and apparatus for presenting a summary of a content item
US8364660B2 (en) * 2008-07-11 2013-01-29 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
WO2010006334A1 (en) * 2008-07-11 2010-01-14 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
WO2010011991A2 (en) 2008-07-25 2010-01-28 Anvato, Inc. Method and apparatus for detecting near-duplicate videos using perceptual video signatures
US20120004893A1 (en) * 2008-09-16 2012-01-05 Quantum Leap Research, Inc. Methods for Enabling a Scalable Transformation of Diverse Data into Hypotheses, Models and Dynamic Simulations to Drive the Discovery of New Knowledge
US8264524B1 (en) * 2008-09-17 2012-09-11 Grandeye Limited System for streaming multiple regions deriving from a wide-angle camera
JP5231928B2 (ja) * 2008-10-07 2013-07-10 株式会社ソニー・コンピュータエンタテインメント 情報処理装置および情報処理方法
US8207989B2 (en) * 2008-12-12 2012-06-26 Microsoft Corporation Multi-video synthesis
US8214742B2 (en) * 2008-12-23 2012-07-03 International Business Machines Corporation Method of rapidly creating visual aids for presentation without technical knowledge
US20100166314A1 (en) * 2008-12-30 2010-07-01 Microsoft Corporation Segment Sequence-Based Handwritten Expression Recognition
US8498978B2 (en) * 2008-12-30 2013-07-30 Yahoo! Inc. Slideshow video file detection
EP2287749A4 (en) * 2009-01-23 2011-08-03 Nec Corp DATA DEVICE RECALL
US8254699B1 (en) * 2009-02-02 2012-08-28 Google Inc. Automatic large scale video object recognition
WO2010090622A1 (en) * 2009-02-09 2010-08-12 Vitamin D, Inc. Systems and methods for video analysis
US20100205203A1 (en) * 2009-02-09 2010-08-12 Vitamin D, Inc. Systems and methods for video analysis
US20100201815A1 (en) * 2009-02-09 2010-08-12 Vitamin D, Inc. Systems and methods for video monitoring
KR101634228B1 (ko) * 2009-03-17 2016-06-28 삼성전자주식회사 디지털 이미지 처리장치, 추적방법, 추적방법을 실행시키기위한 프로그램을 저장한 기록매체 및 추적방법을 채용한 디지털 이미지 처리장치
US8250015B2 (en) * 2009-04-07 2012-08-21 Microsoft Corporation Generating implicit labels and training a tagging model using such labels
WO2010125962A1 (ja) * 2009-04-30 2010-11-04 ソニー株式会社 表示制御装置、表示制御方法、及び、プログラム
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US9094714B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for on-screen graphics detection
US8769584B2 (en) 2009-05-29 2014-07-01 TVI Interactive Systems, Inc. Methods for displaying contextually targeted content on a connected television
JP5436104B2 (ja) * 2009-09-04 2014-03-05 キヤノン株式会社 画像検索装置及び画像検索方法
US8209316B2 (en) * 2010-01-05 2012-06-26 Microsoft Corporation Providing suggestions of related videos
US9508011B2 (en) * 2010-05-10 2016-11-29 Videosurf, Inc. Video visual and audio query
US9413477B2 (en) 2010-05-10 2016-08-09 Microsoft Technology Licensing, Llc Screen detector
US9311708B2 (en) 2014-04-23 2016-04-12 Microsoft Technology Licensing, Llc Collaborative alignment of images
US8473574B2 (en) 2010-05-20 2013-06-25 Microsoft, Corporation Automatic online video discovery and indexing
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
US8786597B2 (en) 2010-06-30 2014-07-22 International Business Machines Corporation Management of a history of a meeting
US8566746B2 (en) * 2010-08-30 2013-10-22 Xerox Corporation Parameterization of a categorizer for adjusting image categorization and retrieval
US20130091437A1 (en) * 2010-09-03 2013-04-11 Lester F. Ludwig Interactive data visulization utilizing hdtp touchpad hdtp touchscreens, advanced multitouch, or advanced mice
US8990134B1 (en) * 2010-09-13 2015-03-24 Google Inc. Learning to geolocate videos
US20120078899A1 (en) * 2010-09-27 2012-03-29 Fontana James A Systems and methods for defining objects of interest in multimedia content
US8463036B1 (en) * 2010-09-30 2013-06-11 A9.Com, Inc. Shape-based search of a collection of content
US8990199B1 (en) 2010-09-30 2015-03-24 Amazon Technologies, Inc. Content search with category-aware visual similarity
US8422782B1 (en) 2010-09-30 2013-04-16 A9.Com, Inc. Contour detection and image classification
US8687941B2 (en) * 2010-10-29 2014-04-01 International Business Machines Corporation Automatic static video summarization
US8924993B1 (en) 2010-11-11 2014-12-30 Google Inc. Video content analysis for automatic demographics recognition of users and videos
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US8635197B2 (en) 2011-02-28 2014-01-21 International Business Machines Corporation Systems and methods for efficient development of a rule-based system using crowd-sourcing
US8577131B1 (en) * 2011-07-12 2013-11-05 Google Inc. Systems and methods for visual object matching
US20140307798A1 (en) * 2011-09-09 2014-10-16 Newsouth Innovations Pty Limited Method and apparatus for communicating and recovering motion information
JP5836095B2 (ja) * 2011-12-05 2015-12-24 キヤノン株式会社 画像処理装置、画像処理方法
WO2013086601A1 (en) * 2011-12-12 2013-06-20 The University Of British Columbia System and method for determining a depth map sequence for a two-dimensional video sequence
US20130271655A1 (en) * 2012-04-12 2013-10-17 Google Inc. System, apparatus and method to facilitate live video streaming
US9015201B2 (en) * 2012-04-24 2015-04-21 Honeywell International Inc. Discriminative classification using index-based ranking of large multimedia archives
US8914452B2 (en) 2012-05-31 2014-12-16 International Business Machines Corporation Automatically generating a personalized digest of meetings
US9244923B2 (en) 2012-08-03 2016-01-26 Fuji Xerox Co., Ltd. Hypervideo browsing using links generated based on user-specified content features
US9462313B1 (en) * 2012-08-31 2016-10-04 Google Inc. Prediction of media selection consumption using analysis of user behavior
CN103475935A (zh) * 2013-09-06 2013-12-25 北京锐安科技有限公司 一种视频片段的检索方法及装置
US9495439B2 (en) * 2013-10-08 2016-11-15 Cisco Technology, Inc. Organizing multimedia content
US9454289B2 (en) * 2013-12-03 2016-09-27 Google Inc. Dyanmic thumbnail representation for a video playlist
US11042274B2 (en) * 2013-12-04 2021-06-22 Autodesk, Inc. Extracting demonstrations from in-situ video content
US20150178930A1 (en) 2013-12-20 2015-06-25 Qualcomm Incorporated Systems, methods, and apparatus for generating metadata relating to spatial regions of non-uniform size
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
WO2015131206A1 (en) * 2014-02-28 2015-09-03 Nant Vision, Inc. Object recognition trait analysis systems and methods
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
WO2015138008A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US9652534B1 (en) * 2014-03-26 2017-05-16 Amazon Technologies, Inc. Video-based search engine
SG11201607875WA (en) * 2014-03-31 2016-11-29 Hitachi Int Electric Inc Personal safety verification system and similarity search method for data encrypted for confidentiality
US9652675B2 (en) * 2014-07-23 2017-05-16 Microsoft Technology Licensing, Llc Identifying presentation styles of educational videos
US9405963B2 (en) * 2014-07-30 2016-08-02 International Business Machines Corporation Facial image bucketing with expectation maximization and facial coordinates
US10649740B2 (en) * 2015-01-15 2020-05-12 International Business Machines Corporation Predicting and using utility of script execution in functional web crawling and other crawling
AU2016211254B2 (en) 2015-01-30 2019-09-19 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
EP3284017B1 (en) 2015-04-17 2024-03-27 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
CN104794220A (zh) * 2015-04-28 2015-07-22 百度在线网络技术(北京)有限公司 信息搜索方法和信息搜索装置
US20160378863A1 (en) * 2015-06-24 2016-12-29 Google Inc. Selecting representative video frames for videos
EP3323054A1 (en) 2015-07-16 2018-05-23 Inscape Data, Inc. Prediction of future views of video segments to optimize system resource utilization
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
CN108293140B (zh) 2015-07-16 2020-10-02 构造数据有限责任公司 公共媒体段的检测
CA3229617A1 (en) 2015-07-16 2017-01-19 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
US10204273B2 (en) * 2015-10-20 2019-02-12 Gopro, Inc. System and method of providing recommendations of moments of interest within video clips post capture
WO2017105641A1 (en) 2015-12-15 2017-06-22 Cortica, Ltd. Identification of key points in multimedia data elements
US11195043B2 (en) 2015-12-15 2021-12-07 Cortica, Ltd. System and method for determining common patterns in multimedia content elements based on key points
CN105528594B (zh) * 2016-01-31 2019-01-22 江南大学 一种基于视频信号的事件识别方法
EP3414679A1 (en) * 2016-02-11 2018-12-19 Carrier Corporation Video searching using multiple query terms
US10474745B1 (en) 2016-04-27 2019-11-12 Google Llc Systems and methods for a knowledge-based form creation platform
US11039181B1 (en) 2016-05-09 2021-06-15 Google Llc Method and apparatus for secure video manifest/playlist generation and playback
US10750248B1 (en) 2016-05-10 2020-08-18 Google Llc Method and apparatus for server-side content delivery network switching
US10785508B2 (en) 2016-05-10 2020-09-22 Google Llc System for measuring video playback events using a server generated manifest/playlist
US10771824B1 (en) 2016-05-10 2020-09-08 Google Llc System for managing video playback using a server generated manifest/playlist
US10750216B1 (en) 2016-05-10 2020-08-18 Google Llc Method and apparatus for providing peer-to-peer content delivery
US10595054B2 (en) 2016-05-10 2020-03-17 Google Llc Method and apparatus for a virtual online video channel
US11069378B1 (en) 2016-05-10 2021-07-20 Google Llc Method and apparatus for frame accurate high resolution video editing in cloud using live video streams
US11032588B2 (en) 2016-05-16 2021-06-08 Google Llc Method and apparatus for spatial enhanced adaptive bitrate live streaming for 360 degree video playback
US10121515B2 (en) * 2016-06-06 2018-11-06 Avigilon Corporation Method, system and computer program product for interactively identifying same individuals or objects present in video recordings
EP4105822A1 (en) * 2016-09-08 2022-12-21 Goh Soo, Siah Video ingestion framework for visual search platform
KR102454725B1 (ko) 2016-09-09 2022-10-13 엘에스일렉트릭(주) 그래픽 객체 편집 장치
US10482126B2 (en) * 2016-11-30 2019-11-19 Google Llc Determination of similarity between videos using shot duration correlation
AU2018250286C1 (en) 2017-04-06 2022-06-02 Inscape Data, Inc. Systems and methods for improving accuracy of device maps using media viewing data
US20210089571A1 (en) * 2017-04-10 2021-03-25 Hewlett-Packard Development Company, L.P. Machine learning image search
FR3067496B1 (fr) 2017-06-12 2021-04-30 Inst Mines Telecom Procede d'apprentissage de descripteurs pour la detection et la localisation d'objets dans une video
CN107316083B (zh) * 2017-07-04 2021-05-25 北京百度网讯科技有限公司 用于更新深度学习模型的方法和装置
WO2019008581A1 (en) 2017-07-05 2019-01-10 Cortica Ltd. DETERMINATION OF DRIVING POLICIES
WO2019012527A1 (en) 2017-07-09 2019-01-17 Cortica Ltd. ORGANIZATION OF DEPTH LEARNING NETWORKS
CN107748750A (zh) * 2017-08-30 2018-03-02 百度在线网络技术(北京)有限公司 相似视频查找方法、装置、设备及存储介质
GB2567018B (en) * 2017-09-29 2020-04-01 Cirrus Logic Int Semiconductor Ltd Microphone authentication
JP6950744B2 (ja) * 2017-10-26 2021-10-13 日本電気株式会社 トラヒック分析装置、システム、方法及びプログラム
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US10776415B2 (en) * 2018-03-14 2020-09-15 Fuji Xerox Co., Ltd. System and method for visualizing and recommending media content based on sequential context
CN110959157B (zh) 2018-05-01 2024-03-12 谷歌有限责任公司 加速大规模相似性计算
US10846544B2 (en) 2018-07-16 2020-11-24 Cartica Ai Ltd. Transportation prediction system and method
WO2020022956A1 (en) * 2018-07-27 2020-01-30 Aioz Pte Ltd Method and apparatus for video content validation
US11126870B2 (en) 2018-10-18 2021-09-21 Cartica Ai Ltd. Method and system for obstacle detection
US10839694B2 (en) 2018-10-18 2020-11-17 Cartica Ai Ltd Blind spot alert
US20200133308A1 (en) 2018-10-18 2020-04-30 Cartica Ai Ltd Vehicle to vehicle (v2v) communication less truck platooning
US11181911B2 (en) 2018-10-18 2021-11-23 Cartica Ai Ltd Control transfer of a vehicle
US11700356B2 (en) 2018-10-26 2023-07-11 AutoBrains Technologies Ltd. Control transfer of a vehicle
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
US10789535B2 (en) 2018-11-26 2020-09-29 Cartica Ai Ltd Detection of road elements
US20220121975A1 (en) * 2018-12-31 2022-04-21 Google Llc Using bayesian inference to predict review decisions in a match graph
US11643005B2 (en) 2019-02-27 2023-05-09 Autobrains Technologies Ltd Adjusting adjustable headlights of a vehicle
JP2022523564A (ja) 2019-03-04 2022-04-25 アイオーカレンツ, インコーポレイテッド 機械学習を使用するデータ圧縮および通信
US11285963B2 (en) 2019-03-10 2022-03-29 Cartica Ai Ltd. Driver-based prediction of dangerous events
US11694088B2 (en) 2019-03-13 2023-07-04 Cortica Ltd. Method for object detection using knowledge distillation
US11132548B2 (en) 2019-03-20 2021-09-28 Cortica Ltd. Determining object information that does not explicitly appear in a media unit signature
US11488290B2 (en) 2019-03-31 2022-11-01 Cortica Ltd. Hybrid representation of a media unit
US11222069B2 (en) 2019-03-31 2022-01-11 Cortica Ltd. Low-power calculation of a signature of a media unit
US10796444B1 (en) 2019-03-31 2020-10-06 Cortica Ltd Configuring spanning elements of a signature generator
US10789527B1 (en) 2019-03-31 2020-09-29 Cortica Ltd. Method for object detection using shallow neural networks
US10776669B1 (en) 2019-03-31 2020-09-15 Cortica Ltd. Signature generation and object detection that refer to rare scenes
AU2020398868A1 (en) * 2019-12-03 2022-07-28 Leverton Holding Llc Data style transformation with adversarial models
US10748022B1 (en) 2019-12-12 2020-08-18 Cartica Ai Ltd Crowd separation
US11593662B2 (en) 2019-12-12 2023-02-28 Autobrains Technologies Ltd Unsupervised cluster generation
US11590988B2 (en) 2020-03-19 2023-02-28 Autobrains Technologies Ltd Predictive turning assistant
US11827215B2 (en) 2020-03-31 2023-11-28 AutoBrains Technologies Ltd. Method for training a driving related object detector
US11756424B2 (en) 2020-07-24 2023-09-12 AutoBrains Technologies Ltd. Parking assist
US11450111B2 (en) * 2020-08-27 2022-09-20 International Business Machines Corporation Deterministic learning video scene detection
CN112380394B (zh) * 2020-10-27 2022-05-10 浙江工商大学 面向文本到视频片段定位的渐进式定位方法
US11538248B2 (en) 2020-10-27 2022-12-27 International Business Machines Corporation Summarizing videos via side information
CN112597335B (zh) * 2020-12-21 2022-08-19 北京华录新媒信息技术有限公司 一种戏曲选段的输出装置及输出方法
CN114399531A (zh) * 2021-12-24 2022-04-26 南京创思奇科技有限公司 一种基于视频着色的无监督目标密集跟踪方法
CN114650435B (zh) * 2022-02-23 2023-09-05 京东科技信息技术有限公司 视频内重复片段查找方法、装置及相关设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5606655A (en) * 1994-03-31 1997-02-25 Siemens Corporate Research, Inc. Method for representing contents of a single video shot using frames
US5821945A (en) * 1995-02-03 1998-10-13 The Trustees Of Princeton University Method and apparatus for video browsing based on content and structure
US5966121A (en) * 1995-10-12 1999-10-12 Andersen Consulting Llp Interactive hypervideo editing system and interface

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4566466B2 (ja) * 2000-07-06 2010-10-20 ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド マルチメディアコンテンツの低レベルの特徴から高レベルの特徴を抽出する方法およびシステム
JP2002077906A (ja) * 2000-07-06 2002-03-15 Mitsubishi Electric Research Laboratories Inc マルチメディアコンテンツの低レベルの特徴から高レベルの特徴を抽出する方法およびシステム
JP2005331940A (ja) * 2004-05-07 2005-12-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
US8891852B2 (en) 2004-06-09 2014-11-18 Cognex Technology And Investment Corporation Method and apparatus for configuring and testing a machine vision detector
US8295552B2 (en) 2004-06-09 2012-10-23 Cognex Technology And Investment Corporation Method for setting parameters of a vision detector using production line information
EP1766575A2 (en) 2004-06-09 2007-03-28 Cognex Technology and Investment Corporation Method and apparatus for configuring and testing a machine vision detector
US8249296B2 (en) 2004-06-09 2012-08-21 Cognex Technology And Investment Corporation Method and apparatus for automatic visual event detection
JP2008502916A (ja) * 2004-06-09 2008-01-31 コグネックス・テクノロジー・アンド・インベストメント・コーポレーション マシンビジョン検出器の設定および試験の方法と装置
US8782553B2 (en) 2004-06-09 2014-07-15 Cognex Corporation Human-machine-interface and method for manipulating data in a machine vision system
US8630478B2 (en) 2004-06-09 2014-01-14 Cognex Technology And Investment Corporation Method and apparatus for locating objects
US8290238B2 (en) 2004-06-09 2012-10-16 Cognex Technology And Investment Corporation Method and apparatus for locating objects
US8249329B2 (en) 2004-06-09 2012-08-21 Cognex Technology And Investment Corporation Method and apparatus for detecting and characterizing an object
US9092841B2 (en) 2004-06-09 2015-07-28 Cognex Technology And Investment Llc Method and apparatus for visual detection and inspection of objects
US9183443B2 (en) 2004-06-09 2015-11-10 Cognex Technology And Investment Llc Method and apparatus for configuring and testing a machine vision detector
US9094588B2 (en) 2004-06-09 2015-07-28 Cognex Corporation Human machine-interface and method for manipulating data in a machine vision system
US8127247B2 (en) 2004-06-09 2012-02-28 Cognex Corporation Human-machine-interface and method for manipulating data in a machine vision system
US7907184B2 (en) 2004-08-11 2011-03-15 Sony Corporation Picture processing apparatus, picture processing method, picture taking apparatus, and program
JP2006058874A (ja) * 2004-08-20 2006-03-02 Mitsubishi Electric Research Laboratories Inc マルチメディア中の事象を検出する方法
USRE44353E1 (en) 2004-11-12 2013-07-09 Cognex Technology And Investment Corporation System and method for assigning analysis parameters to vision detector using a graphical interface
US8582925B2 (en) 2004-11-12 2013-11-12 Cognex Technology And Investment Corporation System and method for displaying and using non-numeric graphic elements to control and monitor a vision system
US9292187B2 (en) 2004-11-12 2016-03-22 Cognex Corporation System, method and graphical user interface for displaying and controlling vision system operating parameters
JP2006236311A (ja) * 2004-12-09 2006-09-07 Sony United Kingdom Ltd 情報処理方法
JP2006178974A (ja) * 2004-12-23 2006-07-06 Ricoh Co Ltd 情報処理方法、情報処理装置及びデータ処理装置
JP2008537627A (ja) * 2005-03-31 2008-09-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 複合ニュース・ストーリーの合成
JP2007087379A (ja) * 2005-09-02 2007-04-05 Mitsubishi Electric Research Laboratories Inc コンピュータによるデータ分類方法、コンピュータによる分類方法
JP2009541869A (ja) * 2006-07-03 2009-11-26 インテル・コーポレーション 高速音声検索の方法および装置
US9105306B2 (en) 2006-12-27 2015-08-11 Nec Corporation Identifying objects in images using object identity probabilities based on interframe distances
WO2008078736A1 (ja) * 2006-12-27 2008-07-03 Nec Corporation 同一性判定装置、同一性判定方法および同一性判定用プログラム
US8103085B1 (en) 2007-09-25 2012-01-24 Cognex Corporation System and method for detecting flaws in objects using machine vision
US8326623B2 (en) 2007-09-27 2012-12-04 Kabushiki Kaisha Toshiba Electronic apparatus and display process method
US8935169B2 (en) 2007-09-27 2015-01-13 Kabushiki Kaisha Toshiba Electronic apparatus and display process
US8184945B2 (en) 2008-12-24 2012-05-22 Kabushiki Kaisha Toshiba Authoring device and authoring method
JP2011238221A (ja) * 2010-05-05 2011-11-24 Palo Alto Research Center Inc パッセージシーケンスの再使用を介して文書の展開を推測することによる文書類似性の測定
US9651499B2 (en) 2011-12-20 2017-05-16 Cognex Corporation Configurable image trigger for a vision system and method for using the same
JP2012133371A (ja) * 2012-01-04 2012-07-12 Intel Corp 高速音声検索の方法および装置
US9116898B2 (en) 2012-03-28 2015-08-25 Fujitsu Limited Information conversion device, computer-readable recording medium, and information conversion method

Also Published As

Publication number Publication date
US7246314B2 (en) 2007-07-17
US6774917B1 (en) 2004-08-10
US20040221237A1 (en) 2004-11-04
JP4253989B2 (ja) 2009-04-15

Similar Documents

Publication Publication Date Title
JP4253989B2 (ja) ビデオの類似性探索方法及び記録媒体
JP4269473B2 (ja) オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム
JP4258090B2 (ja) ビデオフレームの分類方法及びセグメント化方法、及びコンピュータ可読記憶媒体
US6928233B1 (en) Signal processing method and video signal processor for detecting and analyzing a pattern reflecting the semantics of the content of a signal
US5821945A (en) Method and apparatus for video browsing based on content and structure
US8442384B2 (en) Method and apparatus for video digest generation
US8457469B2 (en) Display control device, display control method, and program
KR100737176B1 (ko) 신호 처리 방법 및 영상 음성 처리 장치
US5708767A (en) Method and apparatus for video browsing based on content and structure
US10134440B2 (en) Video summarization using audio and visual cues
EP1374097B1 (en) Image processing
JP3485766B2 (ja) デジタルビデオデータから索引付け情報を抽出するシステムとその方法
US20100278419A1 (en) Information processing apparatus and method, and program
Xiong et al. A unified framework for video summarization, browsing & retrieval: with applications to consumer and surveillance video
EP1067786B1 (en) Data describing method and data processor
Girgensohn et al. Video classification using transform coefficients
JP2002513487A (ja) オブジェクト指向コンテンツに基づくビデオ・サーチ用のアルゴリズム及びシステム
CN111062284A (zh) 一种交互式视频摘要模型的可视理解与诊断方法
Srinivasan et al. A survey of MPEG-1 audio, video and semantic analysis techniques
Chua et al. Stratification approach to modeling video
Abdel-Mottaleb et al. Aspects of multimedia retrieval
Qu et al. Using grammar induction to discover the structure of recurrent TV programs
Perez-Daniel et al. Scalable video summarization of cultural video documents in cross-media space based on data cube approach
Boreczky et al. Interactive similarity search for video browsing and retrieval.
Taskiran Automatic methods for content-based access and summarization of video sequences

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090119

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120206

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130206

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140206

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees