JP2004522354A - データ圧縮パラメータを利用したビデオコンテンツ分析方法およびシステム - Google Patents

データ圧縮パラメータを利用したビデオコンテンツ分析方法およびシステム Download PDF

Info

Publication number
JP2004522354A
JP2004522354A JP2002590671A JP2002590671A JP2004522354A JP 2004522354 A JP2004522354 A JP 2004522354A JP 2002590671 A JP2002590671 A JP 2002590671A JP 2002590671 A JP2002590671 A JP 2002590671A JP 2004522354 A JP2004522354 A JP 2004522354A
Authority
JP
Japan
Prior art keywords
data
content
frame
video
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002590671A
Other languages
English (en)
Inventor
ディミトロワ,ネヴェンカ
エフ エム マッギー,トマス
エイ ディー ネスヴァドバ,ジャン
イー メケンカンプ,ゲルハルドゥス
ダブリュ サロモンズ,エドゥアルド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004522354A publication Critical patent/JP2004522354A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2353Processing of additional data, e.g. scrambling of additional data or processing content descriptors specifically adapted to content descriptors, e.g. coding, compressing or processing of metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Library & Information Science (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】
【解決手段】ビデオデータの圧縮プロセスは、圧縮プロセスで必要とされる種々のデータ計算を伴う。本発明は、圧縮プロセスから派生するこれらのデータの少なくとも一部を利用して、たとえばコマーシャル検出などのコンテンツの識別を行う。輝度、動きベクトル場、残差、量子化データ、ビットレートなどはすべて、直接または組み合わせにより、コンテンツ固有の特性値として用いることができる。コンテンツ検出プロセスは、1以上の圧縮特性データを、特定種類のコンテンツを含むシーケンスの開始および/または終了インジケータとして用い、別の圧縮特性データを、開始および/または終了インジケータで区画されるコンテンツの種類の検証手段として用いる。これらの特性データを、組み合わせ、精錬することによって、計算効率とコンテンツ部位類の実効性の高い、より高レベルの特性データを生成することができる。

Description

【0001】
[関連出願]
本件出願は、下記の特許/出願と関連し、これら関連文献の全内容は本件出願に参照により組み込まれる。
(1)1998年7月28日に出願され、特許発行された、Nevenka Dimitrova他5名による米国特許第6,100,941号『ビデオデータストリーム内のコマーシャル位置の特定装置および方法(”Apparatus and Method for Locating a Commercial Disposed Witin a Video Data Stream”)』
(2)1999年10月13日に出願された、Nevenka Dimitrova他2名による米国特許出願第09/417,288号『コマーシャルその他のビデオコンテンツの特性に基づく自動検出、認識および抽出(”Automatic Signature-Based Spotting, Learning and Extracting of Commercials and Other video Content”)』
【技術分野】
【0002】
本発明は、ビデオデータストリームに含まれるコマーシャル等のコンテンツ検出に関し、特に、ある種類のコンテンツから別の種類のコンテンツへの遷移、たとえばコマーシャルを区画する時間的境界を正確に特定する技術に関する。
【背景技術】
【0003】
放映ビデオの内容を編集、記録するパーソナルビデオレシーバ/レコーダが普及しつつある。あらかじめ記憶されたユーザの好みに応じて、自動的に番組をハードディスク上に記録するビデオレコーダも、そのひとつである。このようなシステムの特徴のひとつに、コンテンツ検出がある。たとえば、コマーシャル検出機能のあるシステムを例にとると、ビデオストリーム中に別の広告を挿入する(コマーシャル差し替え)、あるいはコマーシャル中に別のことをしていても、番組の内容を見逃さないようにコマーシャル終了時点でビデオを休止させることが可能になる。
【0004】
コマーシャル検出方法のひとつに、シーン中の突然の変化による場面変化速度(シーンカットレート)の検出がある。これは、時間的に連続するフレーム間にフェーディング(フェイドアウト/フェイドイン)や動作遷移がないシーンにおける急激な変化を検出するものであるが、カットがフェーディングを含むこともあり、かならずしもハードカットであるとは限らない。より確実な判断基準は、遷移レートの上昇である。さらに別の指標として、コマーシャルブレークの開始を示す無音区間でのブラックフレーム(あるいは白黒フレーム)の検出が知られている。また、公知のコマーシャルインジケータとして、アクティビティ(動き率)の高さが用いられている。これは、コマーシャル中は、コマーシャル以外の番組に比較して動きが早く、より激しく変化するという観察/推論から導かれる指標である。これらの方法により、ある程度有効な結果はでるが、信頼性に欠ける。一方、白黒フレームと高アクティビティの検出を組み合わせたコマーシャル抽出に関する多くの特許が存在する。さらに、「エッジ変化率と動きベクトル長」と呼ばれる技術によって検出される白黒フレーム、シーンブレーク、アクションなどの利用が報告されている。
【0005】
ブラックフレーム検出と、輝度レベルの変化率で表わされる「アクティビティ(動き率)」の組み合わせも検討されている。しかし、なにが「アクティビティ」を構成するかを判断するのは困難であり、開始点と終了点を正確に特定するのはむずかしい。さらに、ブラックフレームは、ディソルブ(フェインドインやフェイドアウト)中でも用いられるので、偽陽性を示しやすい。したがって、ブラックフレームに続くハイアクションのシーケンスは、コマーシャルであると誤判断されて、スキップされる可能性がある。
【0006】
ブラックフレーム間の間隔を判断してコマーシャルの存在を判断する方法もある。画像のマッチングに基づいてコマーシャルを特定する方法、換言すると、画像コンテンツの質の相違を判断の指標として使用するコマーシャル特定方法も知られている。ビデオフレーム中にコマーシャルの境界を画定する所定のインジケータを用いる方法もあるが、これはあらかじめわかっているコマーシャルを示す方法にすぎず、コマーシャルを検出する方法ではない。ビデオストリームの分析に基づいてコンテンツを区別すべく訓練されたニューラルネットワークに基づくコマーシャル検出も提案されているが、現時点では、成功しているとは言えない。また、ニューラルネットワークをコマーシャル検出のために実施するのは、複雑でコスト高である。
【0007】
[発明の開示]
そこで、本発明は、ビデオ圧縮のプロセスで自動的に生成される低レベルおよび中間レベルの特性データを、様々な分類ツールへの入力として利用する。分類ツールは、コマーシャルの特性データを識別し、識別された特性データに応じた測定値を生成するように訓練される。複数の測定値を組み合わせて用い(スーパー分類器)、コマーシャルの境界を検出する。このような低レベルおよび中間レベルの特性データを用いることの利点は、これらの特性データは、ASICやASIPなどの比較的安価な電子部品を用いていて迅速に生成、処理される点にある。
【0008】
一般に、画像圧縮に関連するプロセスは高速処理を必要とするので、通常は、消費者の機器において専用チップで画像圧縮を行う。本発明の一側面では、圧縮プロセスから生じる結果を、データ圧縮だけではなく、特定種類のコンテンツの検出に必要とされるビデオデータの分析にも活用する。ビデオデータの圧縮デバイスとして、たとえば、MPEG−2と呼ばれるMPEG(Motion Picture Expert Group)圧縮規格がある。
【0009】
MPEG−2では、ビデオデータは、ビデオシーケンスで表わされる。各シーケンスはGOP(Group of Picture:ピクチャ・グループ)と呼ばれるデータから成り、各GOPはピクチャ、すなわち映像を構成する「フレーム」で構成される。フレームは、ビデオシーケンスの一次符号化の単位である。ピクチャは、3つの三角行列、すなわち輝度(フレームの様々な部分の強度)を表わす1つの行列と、色差(フレームの様々な部分の色差)を表わす2つの行列Cb、Crで構成される。輝度を表わす行列は、偶数個の行と列を有する。色差を表わす行列は、各方向(水平および垂直)に輝度(Y)行列の半分のサイズを有する。人間の視覚は、輝度に対するよりも色に対するほうが、より細かく認識できるからである。各フレームは、さらに1以上の隣接するマクロブロックに分割され、マクロブロックは、「スライス」ごとにグループ分けされる。スライス内に配置されるマクロブロックの順序は、左から右、上から下である。MPEG−2規格において、マクロブロックは、基本的な符号化ユニットであり、フレーム中の16×16画素を表わす。各色差成分は、水平および垂直方向において、輝度成分の半分の解像度を有するので、マクロブロックは、4つの輝度領域と、Cb領域とCr領域をそれぞれ1つずつで構成される。輝度を表わす各マクロブロックは、さらに4つの4×4画素領域に分割される。
【0010】
MPEG−2では、フレームは3つのタイプに分けられる。第1のタイプは、イントラ・フレームまたはIフレームと呼ばれ、他のフレームのコンテンツから独立している。この構成により、再生装置はIフレームがロードされた任意のポイントでビデオファイルに入ることができる。上述したように、MPEG−2では、フレームはGOPと呼ばれるピクチャ・グループにグループ分けされ、Iフレームは、常にGOPの先頭にある。第2のタイプは、Iフレームとは区別される予測フレーム(Pフレーム)である。Pフレームは、一部にはこのPフレームに対応するフレームデータを参照し、一部には1以上の過去のフレームデータを参照して定義される動き予測フレームである。第3のタイプは、双方向フレーム(Bフレーム)と呼ばれ、Bフレームそれ自体に対応するデータと、過去および将来のフレームからのデータによって表わされる双方向の動き予測フレームである。MPEG−2でのデータ圧縮方法は、フレームの種類に依存する。Iフレームのブロックの各々は、離散コサイン変換(DCT)と呼ばれる別のフォーマットへの変換処理を受ける。このプロセスは、大まかに言えば、各ブロックの出現を、あらかじめ定義された異なる複数の波形パターンの総和として定義するプロセスである。非常に細かいパターンは、多数の短い波形パターンを含む。滑らかなパターンは長い波形パターンを含むか、あるいは波形を含まない。離散コサイン変換を行う理由は、ビデオ画像では通常多くのブロックが滑らかなパターンを含み、このようなブロックでは、短い波形パターンで表わされるデータをランレングス法によりかなりの程度圧縮することができるからである。また、ボトルネックへのデータ押し込みのためにデータの一部を犠牲にしなければならない場合でも、原画像からデータを間引くと欠陥が生じるが、DCTによる周波数分布からデータを間引くことにより、画質が良好に維持される。
【0011】
DCTデータは多数の異なる波形パターンで表わされる場合もあれば、間隔のあいた数個の波形パターンで表わされる場合もある。DCTデータは、当初は非常にきめが細かいが、圧縮プロセスの一部として、DCTデータは量子化とよばれるプロセスを経る。異なる波形パターンの相対的な寄与度に応じ、データがどの程度圧縮されたかによって、粗い粒子スケールまたは細かい粒子スケールで表わされることになる。
【0012】
ビデオ画像を圧縮してPフレームとBフレームを生成するときは、より複雑なプロセスを経る。コンピュータは第1の画像と、その先行画像を取り込み、各ブロック(ユーザの選択によってはマクロブロック)のどの部分で、1の画像から次の画像に移動したかを求める。MPEG−2では、Pフレームの全てのブロックを記述するかわりに、先行フレームのどのブロックが、新規のフレームのどこに移動したかのみを示す。移動はベクトル、線、矢印、などで示され、長さは移動距離を、向き移動方向を表わす。この方法は、ビデオ中のすべての動きを移動ブロッブとして記述できるわけではないので、ある面で不完全ではある。しかし、この欠点は、動き予測された画像と実際の画像との差異を示す補償を行うことで回復される。この補償を残差と呼ぶ。動きデータと残差データは、Iフレーム画像データと同様に、DCTおよび量子化を受ける。Bフレームは、符号化する際に過去のフレームと将来のフレームの双方を参照して予測符号化する点を除いて、Pフレームと同様である。
【0013】
本発明の実施形態に係るビデオ圧縮装置は、圧縮プロセスの副産物として、フレームごとに下記のデータを生成する。以下の例は、圧縮エンコーダから効率的に求められる特性データの一例にすぎず、決して包括的なものではない。また、生成される特性データはエンコーダの種類によっても異なることに留意すべきである。
−フレーム・インジケータ:フレームの種類(I、P、B)を示すために用いられるフレーム識別子
−輝度DCトータル値:Iフレームの輝度を示す値
−量子化スケール:DCTデータに用いられる量子化スケール
−MAD(Mean Absolute Difference:平均絶対差):P画像またはB画像をブロックの移動として記述するベクトルの大きさの平均。フレーム全体の上部または下部のみを表わす平均値や、フレーム中のすべてのブロックを含む平均値など、いくつかの生成例がある。
−現在のビットレート:GOPを表わすデータ量
−プログレッシブ/インテーレース値:画像が、テレビビデオに通常みられるインターレースタイプのものか、あるいは映画やコンピュータアニメーションに通常みられるプログレッシブタイプのものかを示すインジケータ。
−輝度DC差分値:フレーム中のマクロブロック間での輝度の変動を示す値。変動が小さければ画像が同質であり、空白画面であり得る。
−色差DCトータル値:輝度トータル値に類似するが、輝度成分ではなく色差成分に基づく値。
−色差DC差分値:輝度差分値に類似するが、輝度成分ではなく色差成分に基づく値。
−レターボックス値:ワイドスクリーンフォーマットがテレビ画面に映し出されているときに、フレームの上下で同質の帯域を探してビデオイメージの形状を定義する。
−タイムスタンプ:コマーシャル用の印ではないが、ビデオストリーム中のロケーションを示し、ビデオシーケンスの開始と終点に印をつけてコンテンツ内容を区別するのに用いられる。
−シーン変化検出:平均MAD値の急変によるシーンコンテンツの突然の変化を示す。
−キーフレーム間隔:場面カット間のフレーム数を表わす。
【0014】
識別され時間的にブラケットで特定されるコンテンツ検出の例として、コマーシャルを含む15時間以上のビデオデータについてテストを行い、コマーシャルシーケンスの開始と終了を示すインジケータとして、種々の特性データの効果と、その組み合わせを実験した。
【0015】
インジケータとして個別の特性データを用いるよりも、組み合わせて用いるほうが、信頼性が高くなることがわかった。テスト結果から、圧縮プロセスで生成される特性データを多様な方法で組み合わせることによって、信頼の高いコンテンツの検出、特にコマーシャルの検出が可能になることが確認された。
【0016】
以下で、添付図面を参照して、本発明の良好な実施形態について説明する。図面に描かれているのは、良好な実施の形態を説明する目的で示された一例にすぎず、本発明の原理と思想を容易に理解せしめるのに適切であると思われる形態を例示するだけである。本発明の基本的な理解に必要な範囲を超えた細部構成を図示する意図はないことに留意されたい。図面を参照した以下の詳細な説明により、当業者にとって発明を具体化する様々な形態があることが明らかになるはずである。
[発明を実施するための良好な形態]
【0017】
図1は、ビデオ圧縮プロセスで生成されるデータを利用したコンテンツ検出に用いられるシステムの概略構成図である。本実施形態において、MPEGエンコーダ100は、インターネット、記憶装置、放送番組、その他任意の情報源から送られてくる生データから、ビデオデータ90を符号化する。MPEGエンコーダ100は圧縮データを生成し、圧縮したデータをハードディスク、DVD、CDROM、その他任意の格納手段110に格納する。あるいは、圧縮データをバッファして、適切な手段によって配信する構成としてもよい。MPEGエンコーダ100は、圧縮過程で様々なデータ値を生成する。その一部を以下にリストする。
−フレーム・インジケータ
−輝度DCトータル値
−量子化スケール
−MAD(Mean Absolute Difference:平均絶対差)
−現在のビットレート
−X方向へのフィールド移動平均
−輝度DC差分値
−上部MADトータル値:すべてのMAD値の総和
−下部MADトータル値:すべてのMAD値の総和
−レターボックス値
−タイムスタンプ
−色差DCトータル値
−色差DC差分値。
【0018】
一般に、チップベースの圧縮エンコーダは上記リストのすべての値を生成するわけではなく、生成された値を保持するレジスタは、それ以外の目的に用いられることはないので保持した値が公開されることはない。これに対し、本発明では、これらの値をコンテンツ識別のためのプロセスに適用する。上記リストのデータ値のいくつかを生成し、レジスタに保持されるこれらのデータ値を外部プロセスに公開するように、圧縮チップの変更を要する場合もある。チップに多少の変更を加えることによって、圧縮チップに対する計算負荷の増大を抑制することができる。このような圧縮チップの設計変更は、当業者が容易になし得る範囲内にある。純粋ソフトウェアシステムでは、変数の定義変更などの単純なソフトウェア変更によって、これらのデータを任意のプロセスに適用することができる。圧縮データは、MPEGエンコーダ100から生の形式でコンテンツアナライザ120に出力されてもよいし、エンコーダ100とコンテンツアナライザ120の間の機能割当てに応じて、データを精製してもよい。圧縮過程で生成されるこれらのデータはMPEGの分野では標準的なものではあるが、便宜上、以下で説明するとともに、これらのデータがどのように用いられ、フィルタリングされるかを述べることとする。
【0019】
再生セレクタ130は、コンテンツアナライザ120の処理結果を使用して、圧縮ビデオを編集する。たとえば、コマーシャルやハイアクションのシーケンスをビデオデータから削除したい場合は、再生セレクタ130は、データ格納手段110のMPEGファイルに格納された分析結果を参照して、コンテンツアナライザ120によりマーカーでブラケットされたデータ部分をスキップする。圧縮プロセスで生成される利用可能なMPEGデータの例を、以下で説明する。
【0020】
<フレーム・インジケータ>
フレーム・インジケータは、フレームの順序を表わす識別子である。フレーム・インジケータは、Iフレーム、Pフレーム(およびBフレーム)を区別する。GOPサイズが6の場合は、Iフレームは値“0”を有し、Pフレーム(またはBフレーム)は、1、2、3、4、5のいずれかの値をとる。IフレームとPフレーム(またはBフレーム)の表示は、以下で述べるようなコンテンツ検出に用いられる。
【0021】
<輝度トータル値>
輝度トータル値は、フレームを構成する各マクロブロックの4つの輝度DC値のうち、第1の輝度DC値のフレーム内の総和をとったものである。これ以外に、任意のDC(輝度または色差)値を選択して用いてもよい。前者(第1の輝度DC値)を用いた場合は、Iフレームのみに有用である。PフレームとBフレームについては、輝度トータル値は前のフレームに基づいて計算される。輝度トータル値を、ブラックフレーム検出に用いることもできる。後述するように、総数値、輝度差分値を用いても、単色(ブラックではないが、同色のフレーム)やその他の効果を提供できる。輝度トータル値はフラッシュの検出など、ある種の検出に効果的である。
【0022】
<量子化スケール>
量子化スケールは、MPEGエンコーダ100でビデオデータを量子化する際に用いられる量子化値である。量子化値を用いて、ビットレートが所定の範囲にあることを確保することができる。この特徴は、複雑で速い動きのシーンを検出するのに有効である。量子化値は、Iフレーム、Pフレーム、Bフレームに関係する。
【0023】
<上部MADトータル値>
上述したように、MPEG符号化プロセスは、ひとつのフレームから別のフレームへの、色および輝度フィールドの動き変化の予測を一部に含む。このプロセスの処理結果は、変位ベクトルとして得られる。ベクトル値は、MADマッチング判定によって決定される。上部のMADトータル値は、急激なシーンの変化を示す。フレームは上部(スライス0〜25)と、下部(スライス26〜35)に分割される。フレームの上部では字幕が表示されないので、字幕の変化による誤検出がない。上部MADトータル値は、スライス0〜25のマクロブロックのすべてのMAD値(平均絶対値差)の総和である。静的なシーンでは、マクロブロックでの変位は、あったとしてもごくわずかであり、基準マクロブロックとのマッチングが非常によい。したがって、MAD値は非常に小さく、ゼロに近くなる。急激な変化があると、マクロブロックのマッチングがほとんどなくなるか、大きなコンテンツの相違がある。したがって、急激なシーン変化におけるMAD値は、平均的なMAD値よりもずっと高くなる。
【0024】
<下部MADトータル値>
下部MADトータル値の計算は、フレームの上部のMADトータル値の計算と同じである。下部MADトータル値は、スライス26〜35のマクロブロックのMAD値の総和である。上述したように、字幕(ヨーロッパのいくつかの国では頻繁に用いられる)の変化がシーン変化の誤検出の原因となるので、フレームは上下に分割される。フレーム下部のMAD値は、字幕変化の検出と、急激なシーン変化検出のサポートとして有効に用いられる。
【0025】
<現在のビットレート>
現在のビットレートは、MPEGデータの送信ビットレートを示し、GOPごとに固定値を有する。ビットレートを所定の範囲内に保持するために、現在の実際のビットレートに応じて量子化値が増減される。現在のビットレートを量子化値と組み合わせて、速い変化や複雑な場面を示すのに用いられる。
【0026】
<プログレッシブ/インターレース値>
X方向へのフィールド移動平均値は、各マクロブロックのX方向への変位を示す。この値は、たとえば、シーン中の十分な動きのチェックとして用いることができる。そして、プログレッシブからインターレースビデオへ、またはその逆への遷移があったかどうかを示すのに用いられる。実際のマクロブロックの水平方向の変位の絶対値が、8半画素(左右への十分な動き制御の範囲)よりも大きい場合、そのマクロブロックがフレームDCT符号化(マクロブロックのDCTモードは0)されているときは、実際のフレームのプログレッシブ/インターレース値は1だけ増大する。マクロブロックがフィールドDCT符号化(マクロブロックのDCTモードは1)されているときは、1だけ減少する。しきい値に対するプログレッシブ/インターレース値は、現在のビデオがプログレッシブかインターレースかを示すインジケータとして使用される。
【0027】
<輝度DC差分値>
輝度DC差分値は、ブラックフレーム、単色フレーム、情報内容の低いフレームを示すのに用いられる。輝度DC差分値を計算するには、まず、各スライス中の連続するマクロブロックのDC値(各マクロブロックの第1のDC値のみ)の絶対差の総和を求める。次に、フレーム中のすべてのスライスにおける総和を、さらに足し合わせて、トータル値を求める。
【0028】
<色差DC差分値>
この値は、ブラックフレーム、単色フレーム、情報内容の低い(あるいは高い)フレームを示す補助値として用いられる。色差DC差分値を求めるには、まず、各スライス中の連続するマクロブロックのDC値(あるいはそのサブセット)の絶対差の総和を求める。別々の色差信号、すなわちCrとCbの各々について、個別に総和を求める。
【0029】
圧縮エンコーダからカラーヒストグラムを出力してもよい。ヒストグラムを用いて、単色フレームを示すことができる。ヒストグラムは、独立した特性デバイスとして機能することもできる。すなわち、その他のパラメータとともに、あるいは単独で、ある種のコンテンツをその他のコンテンツから区別する機能を有する。ブロックは原画像よりも解像度が低いので、効率的にヒストグラムを生成することができる。
【0030】
<レターボックス値>
レターボックス値は、輝度DC値に基づく。最初の2つのスライス(スライス0および1)のマイクロブロックの輝度DCトータル値と、最後の2つのスライス(PALではスライス34および35)のマクロブロックの輝度DCトータル値を足し合わせて、これら双方の大きいほうの値をレターボックス値とする。レターボックス値は、輝度差分値またはトータル値に基づいて算出される。
【0031】
<オーディオ特性>
後述するように、オーディオデータの圧縮プロセスでも、様々な有用なデータ値が生成されるので、これらをコンテンツの分類に用いることができる。たとえば、量子化されたサブバンドデータに作用する機能を利用して、さらなる特性データを生成することができる。
【0032】
<タイムスタンプ>
タイムスタンプは、フレーム検索してコンテンツの切れ目を検出するのに用いられる。
【0033】
上述した特性データから、さらに中間レベルの特性データを導き出せる。以下にリストする中間データで、コマーシャルブレーク検出のための補助機能をテストした。
−シーン変化検出
−ブラックフレーム/単色フレーム検出
−レターボックス検出
−インテーレース/プログレッシブインジケータ
−キーフレーム間隔
これらの特性を説明する。
【0034】
<シーン変化検出>
シーン変化のインジケータは、フレーム上部のMADトータル値から導き出せる。急激なシーン変化があった場合は、1,2のフレームでこのインジケータ値が急増して非常に高い値を示し、そして、もとの低い値にもどる。スライド時間ウィンドウを用いて、現在のフレームと以降のフレームの周囲の平均AMD値を計算してもよい。現在のフレームのMAD値(あるいは現在の値と以降のフレームの値の総和)が、平均MAD値と関連する所定のしきい値を超える場合は、シーン変化検出器の値を変化させることによって、急激なシーン変化の存在を示す構成とできる。
【0035】
<ブラックフレーム/単色フレーム検出器>
輝度DC差分値が所定のしきい値より小さい範囲にとどまっている場合は、複数のしきい値を用いて、ブラックフレームまたは単色フレームを検出することができる。コマーシャル間にブラックフレームのかわりに単色フレーム(たとえば青フレーム)を使用する放送局もあるので、この場合は、コマーシャル検出に単色フレーム用のインジケータを用いる。
【0036】
<インターレース/プログレッシブインジケータ>
インターレース/プログレッシブ値は、インターレースビデオとプログレッシブビデオを区別するのに用いられる。ランニングサムに各フレームのインターレース/プログレッシブ値を足し合わせて、さらにランニングサムを生成してもよい。ランニングサムがしきい値(たとえば2000)を超えると、ビデオデータはインテーレースビデオと判断されしきい値以下だと、プログレッシブビデオと判断される。ビデオデータが定義されていない場合は、2つのしきい値の間にデッドバンドを設定してもよい。このインジケータは、コマーシャルの検出に有用である。なぜなら、コマーシャルは様々な予算で様々な機器を用いて作成されるからである。したがって、コマーシャルブロックに含まれるビデオデータは、インターレースビデオになったり、プログレッシブビデオになったり、頻繁に変化する。
【0037】
<レターボックス検出器>
レターボックス検出器は、異なるアスペクト比(たとえば4:3、16:9など)の映像を区別するために用いられる。ある映像、たとえばコマーシャルは、主要番組データのフォーマットと異なるフォーマットで送信される。主要番組(映画などの)をレターボックスにいれてもよいし、変化そのものが重要なデータであるときは、コマーシャルをレターボックスに入れてもよい。レターボックスは、2つの上部スライスと下部スライスがブラックか否かを示す。広告のバナーや、黒い背景に小さな物体が存在する場合は、誤検出になることもあり得るが、これら特定のシーケンスは、ブラック(単色)フレームに含まれていないことのほうが多いので、コマーシャル検出にさほど影響しない。ブラック(単色)フレームに含まれる短いレターボックスシーケンスは、コマーシャルブロックであることの示す有効な表示手段である。
【0038】
<キーフレーム間隔検出器>
キーフレーム間隔検出は、時間(もしくはフレーム数やGOP数)の測定である。平均キーフレームのフレーム間隔検出器を用いて、ゆっくりと変化するビデオデータと急激に変化するビデオデータを示すことができる。コマーシャルブレークの間は、キーフレーム間隔は短く、一般に10〜15GOP程度で変化する。通常の番組の間は、キーフレーム間隔は40GOP程度であり、ときには100GOPを超える場合もある。平均キーフレーム間隔は、一定のキーフレームウィンドウ内のキーフレーム間隔から、ランニングアベレージとして求める。たとえば、しきい値を5フレームにして、コマーシャルやアクションコンテンツをその他のコンテンツから区別する。
【0039】
コマーシャル検出のために、テレビ放送された映像サンプルから、多様なMPEGデータを、単独あるいは組み合わせで導き出し、比較した。ヨーロッパコンテンツの時間スケジュール上に配置される実際のコマーシャルブレークを用いて、時間に対するすべての組み合わせをグラフにプロットした。グラフの分析に基づき、コマーシャルブレーク検出能力を、特性データごと、および他の特性データとの組み合わせにおいて分析した。分析結果を表Iおよび表IIに示す。
【0040】
【表1】
Figure 2004522354
【0041】
【表2】
Figure 2004522354
表は、番組のジャンルの他に、ブラックフレーム、レターボックス、プログレッシブ/インターレース変化、平均キーフレーム間隔を特性データとして示している。表Iでは、特性データごとに、その特性が単独でコマーシャル位置を示すインジケータとして使用され得るかどうかのテスト結果を示したものである。表IIは、特性ごとに、その特性が単独で、コマーシャルの正しい境界の検出に寄与できるかどうかを示す。表Iでは、ブラックフレームと、プログレッシブ/インターレース変化が、単独で番組中のコマーシャル位置を特定する有力なインジケータとして使用できることを示している。キーフレーム間隔は、ブラックフレームやプログレッシブ/インターレース変化に比較して弱いインジケータである。プログレッシブ/インターレースのビデオ変化に依存すると、偽陽性の発生が多くなるが、コマーシャル境界の見落しは非常に少なくなる。これは、その他の特性データについても言えることである。そこで、1の特性データをコマーシャル検出のトリガとして用い、さらに別の1以上の特性データを検証用に用いて、偽陽性を除去する方法を提案する。
【0042】
表IIは、個々の特性データを単独で用いるだけでは、コマーシャルブレークの正しい境界を高い信頼度で検出することはできないことを示している。しかし、上記表の生成に際して、(2秒で)厳密な境界を見つけるという厳しいトレランスを採用したため、2秒よりも早め、あるいは遅れてコマーシャルの境界が検出された場合は、検出失敗とみなされた。この基準を緩めると、ある種の特性データ、特に単色フレーム値は、単独で用いても十分検出効果を発揮するはずである。表IIでは、各特性データが、それぞれ単独でコマーシャルブレークの開始と終端を正確に特定できるかどうかを示すものである。ブラックフレームは、誤判断につながりやすい。放送局がいつも適正にブラックフレームを挿入するとは限らないし、輝度レベルが変化してブラックフレームを検出できないかもしれないからである。このトレランスは、ブラック(単色)フレームのテストで隣接するフレーム間の輝度の変化をより許容する方向のしきい値を設定することによって、調整することができる。レターボックスとキーフレーム間隔は、コマーシャルブレークの境界の検出に用いるには、信頼性が低い。ブラックフレームは、検出見落としの基準を緩めれば、全体的に平均してかなりの精度でコマーシャル境界の検出に用い得る。上記の表は、2秒で検出されないものは完全に検出失敗として扱う基準に基づいているので、実際には、ブラックフレーム検出に基づく検出器は、かなり正確にコマーシャル検出に用いることができる。
【0043】
図2を参照して、コマーシャル検出などのコンテンツ検出方法について説明する。ここでは、以下の特性データに基づいて検出を行う。
−ブラックフレーム検出
−単色フレーム検出
−プログレッシブ/インターレースモード検出
−キーフレーム間隔
−レターボックス
−MAD値の密度
まずステップS90で、ビデオデータの圧縮にともなって、各Iフレームで、生データと上記特性データ値が計算される。ステップS100で、境界シーケンスが特定され記録される。フレーム識別子があれば、それを用いて特定する。ステップS110で、検証データを特定し、適切なフレーム識別子がある場合は、その識別子とともに検証データを記録する。ステップS120で処理が完了したかどうかを判断し、未完了の場合は、ステップS90に戻って、次のビデオデータを圧縮する。処理が完了すると、上述した特性データでビデオシーケンスを評価したデータ集合が、圧縮ビデオデータとともに格納される。ステップS130で、格納されたデータを参照して、ビデオ表示のための適切な編集が行われる。
【0044】
特定のビデオシーケンスが圧縮される時点では、どのような編集が施されるか正確にはわかっていないので、ビデオデータの圧縮にしたがって、派生する圧縮特性の全記録を記録してもよい。これによって、再生鑑賞時に所望の編集を行うことができる。あるいは、映像に施す編集がわかっていれば、格納された圧縮ビデオデータをあらかじめ編集してよいし、編集のインストラクション集合を格納して、圧縮特性データの記録をその後破棄してもよい。
【0045】
図3を参照すると、映像マテリアルの特定や編集は、リアルタイムの処理に近いプロセスで行われるのが望ましい。たとえば、パーソナルディジタルレコーダで放映ビデオを圧縮してバッファ(一時格納)しておき、その後時間を置いてからユーザが再生する場合、放送番組が圧縮されている最中にコンテンツシーケンスの特定も行えれば有用である。圧縮を完了してしまうかわりに、そのときにコンテンツシーケンスを特定し、コマーシャルの間はボリュームを下げるなどの適切な編集を施すだけにする。図3は、特定の形態のコンテンツを識別する別の方法を示すフローチャートである。図3において、ステップS10で、ビデオデータを圧縮する。ステップS20で、システムは境界トリガイベントがあるかどうかを判断する。トリガイベントは、たとえば、輝度差分の検出によって示される一連のブラック(あるいは単色)フレームや、プログレッシブからインターレースへの遷移である。トリガイベントが検出されたならば、ステップS30で、特定種類のコンテンツの開始が検出されたことを示すフラグをセットする。フレームが検出されたときは、そのフレームの識別情報も記録に含ませる。これによって、イベントのタイムシーケンスを作成することができる。種々の異なる種類のビデオシーケンスの各々にフラグがある(たとえば、コマーシャル用フラグ、バイオレンス用のフラグ、アクション用のフラグ、トーキングヘッド用のフラグなど)。
【0046】
ステップS20でトリガイベントがない場合は、処理はステップS40に進み、コマーシャルやその他の種類のビデオコンテンツのシーケンスを検証するためのデータがあるかどうかを特定する。そのような検証データがあれば、ステップS50でそれを格納する。ステップS55で、特定種類のコンテンツであると検証されるべき主題の区画されたシーケンスがあるかどうかを判断する。そのようなシーケンスがあれば、ステップS65で、特定されたフレームの識別情報とともにそのシーケンスを記録する。ステップS65で編集が必要であれば、編集のインストラクションが記録され、後に(あるいは即座に)編集が行われる。ステップS70で圧縮処理が完了すると、プロセスは終了する。処理が完了していない場合は、ステップS10へ戻って処理を繰り返す。
【0047】
コマーシャル等の特定種類の映像の開始および/または終了を示すイベントは、適切な任意の特性データを用いることができる。テスト結果から、コマーシャル検出に特に有用であると思われる特性データは、検出された単色またはブラックフレーム間(あるいは連続するブラックまたは単色フレームシーケンス間)のフレーム間隔である。このようなイベントは、トリガとして用いられる
いくつかの国では、特定の場合にブラックフレームのかわりに別の単色フレームを用いる放送局がある。ブラックフレーム間隔が特定のパターン(間隔は20〜40秒の間である)に一致すれば、アルゴリズムはブラックフレームのカウントを開始する。3つのブラックフレームがカウントされると、コマーシャル検出の確率が高くなり、コマーシャルの見込み終了がセットされる。コマーシャルトリガとして別の特性データを用いることもできるが、その場合は検証のためのより複雑なアルゴリズムが必要になる。
【0048】
テスト結果から、ブラックフレームシーケンスの出現も、コマーシャル検出のトリガとして用いられ得る。通常、コマーシャルブレークでは、各コマーシャルを区画するためにブラックフレーム(または単色フレーム)がコンテンツクリエータによって挿入される。同様に、コマーシャルブレーク全体の開始時と終了時にもブラックフレーム(単色フレーム)が用いられる。コマーシャルブレークは、一連のブラック(単色)フレームによって開始され、コマーシャルブレーク中は、1200フレーム以内にひとつのブラックフレームが配置されると考えられる。コマーシャルの期間に制約を課してもよい。たとえば、コマーシャルであると検証されるには、1500フレーム以上、10000フレーム以下のシーケンスであることを要求するなどである。(ヨーロッパのコンテンツでは1秒あたり25フレーム、アメリカでは1秒あたり30フレームである。) コマーシャルとして検出される前に、候補のシーケンスの間の最小時間に制約をつける構成としてもよい。たとえば、コマーシャルは少なくとも2分(3000フレーム)離れていることを要求する。この最後の制約は、コマーシャルである可能性のあるセグメントをリンクさせるために重要である。リンクが長時間許されると、コマーシャル以外の主題を含む過度に長い「コマーシャル」ブレークが検出される結果になる。
【0049】
ブラックフレームの検出などにより見込みコマーシャルが検出されると、その他の特性データをテストして、検出されたブラックフレームやその他のトリガイベントで実際にコマーシャルブレークの開始が示される確率の高低を判断する。たとえば、ブラックフレームの直後にレターボックスの変化があるかどうか、プログレッシブからインターレースビデオ(あるいはその逆)への遷移があるか、カットレートは高いか、MAD密度は高いか、キーフレーム間隔は短いか、などを検証手段として用いることができる。キーフレーム間隔が短い(あるいはカットレートが高い)場合は、たとえばしきい値を超えるとコマーシャルである確率が高くなり、しきい値以下だとその確率が低くなるように、しきい値を設定することができる。あるいは、確率はキーフレーム間隔の逆数に比例し、MAD密度に比例するように設定してもよい。
【0050】
コマーシャルでのカット間の平均キーフレーム数は、たかだか5GOPであることが経験的に知られている。キーフレーム間隔に用いられるしきい値を10〜15の範囲に設定すると、よい結果が得られる。互いに近接するセグメントはリンクされて、コマーシャルブレーク全体を示すと推定される。長いキーフレーム間隔のコマーシャルも中にはあるので、これを許容するために、ある最大インターバル、たとえば750フレーム(30秒)のときは、キーフレーム間隔がより高くなるようにトレランスを設定する。
【0051】
圧縮エンコーダから生成される上述した特性データは、異なる種類のコンテンツを認識するのにより洗練された方法で応用され得る。たとえば、圧縮プロセスから生成される特性データと、これらの特性データからさらに導き出せる中間の特性データを、ニューラルネットワーク、隠れマルコフモデル、ベイズネットワーク、その他の分類エンジンに入力して、多様な種類のビデオコンテンツを認識させることができる。コマーシャルの見込み開始を示すトリガ特性としてひとつの特性データを抽出するよりは、全体の特性集合を用いてネットワークを訓練し、コマーシャルを特定するほうが望ましい。後者の場合は、コマーシャル区間を示す開始イベントと終了イベントの判断において、種々の特性の意義をその訓練プロセスにおいて決定させる。
【0052】
上述した例では、主としてビデオ特性に焦点をあてて述べてきたが、オーディオデータや、ビデオデータの音声部分の圧縮中に生成されるオーディオ特性を、上述したのと同様に活用することができる。たとえば、ビデオデータのコマーシャル部分やアクションシーケンスの音量は、他の部分と異なる。オーディオ圧縮エンコーダは、オーディオデータを表わす多種の特性を生成するが、このような特性は、自動化されたシステムで認識されてある種のコンテンツを他から区別するのを促進する固有の特徴を有するといえる。たとえば、現在のビットレートあるいは量子化値は、無音時間間隔の量を示す。別の例として、コマーシャルのようなハイアクションで注意を喚起する内容に対応するDCT係数は、通常の番組に対応するDCT係数とは非常に異なる。これらの特徴特性は、ベイズ分類器、ニューラルネットワーク、隠れマルコフモデルなどの分類器で定義され得る。
【0053】
上述した実施形態では、圧縮プロセスから得られる特性を用いてビデオストリーム中のコンテンツを分類するが、これらの特性は、その他の特性(たとえばリアルタイム特性)と関連して同様の目的で用いることもできる。たとえば、リアルタイムの音量をブラックフレーム(単色フレーム)の検出と関連して用い、コマーシャルへの、あるいはコマーシャルからの遷移を特定することができる。ビデオソースから追加のデータを生成する多様な方法があり、それらのデータを、現在の圧縮エンコーダから求められるデータと組み合わせてもよいし、エンコーダで生成されたデータと関連してビデオ/オーディオ分類に用いてもよい。すなわち、圧縮特性データは二次特性集合として用いられて、テキスト認識や顔認識などの詳細なコンテンツ分析に用いられる一次特性データ集合を補強し得る。
【0054】
本発明は詳細に上述した実施例に限定されず、本発明の趣旨あるいは本質的な特徴から離れることなく、多様な具体的形態をとり得ることは、当業者にとって明らかである。上述した実施形態はあらゆる点で例示にすぎず、本発明を制限するものではない。本発明の範囲は、上述した実施形態によってではなく、添付の請求の範囲によって定義される。請求項の記載およびその均等の範囲内でなされ得る多様な変更例も、本発明の範囲に含まれる。
【図面の簡単な説明】
【0055】
【図1】本発明の一実施形態に係る圧縮特性データに基づいたビデオコンテンツ識別プロセスを実行するハードウェアシステム図である。
【図2】本発明の一実施形態に係る圧縮特性データを利用したコンテンツシーケンス識別プロセスを示すフローチャートである。
【図3】本発明の別の実施形態に係る圧縮特性データを利用したコンテンツシーケンス識別プロセスを示すフローチャートである。

Claims (22)

  1. ビデオデータを圧縮して圧縮ビデオデータを生成する圧縮プロセスの一部として、ビデオシーケンスから第1および第2の特性データを生成し、当該第1および第2の特性データを前記圧縮ビデオデータから抽出するビデオ圧縮エンコーダと、
    前記第1および第2の特性データを受け取り、当該第1および第2の特性データの少なくとも一方から第3の特性データを算出する分析エンジンと、
    少なくとも前記第3の特性データに応じて、前記圧縮ビデオデータを編集する再生セレクタと
    を備えるコンテンツエディタ。
  2. 前記再生セレクタは、前記第1および第2の特性データの少なくとも一方に応じて、前記圧縮ビデオデータを編集することを特徴とする請求項1に記載のコンテンツエディタ。
  3. 前記第3の特性データは、単色フレームのシーケンスの存在を識別する識別子を含むことを特徴とする請求項1に記載のコンテンエディタ。
  4. 前記第3の特性データは、レターボックスフォーマットと非レターボックスフォーマットの間の遷移を識別する識別子を含むことを特徴とする請求項1に記載のコンテンツエディタ。
  5. 前記第3の特性データは、インターレースビデオとプログレッシブビデオの間の遷移を識別する識別子を含むことを特徴とする請求項1に記載のコンテンツエディタ。
  6. 前記第3の特性データは、シーンカット(場面転換)の頻度を表わす識別子を含むことを特徴とする請求項1に記載のコンテンツエディタ。
  7. 前記第3の特性データは、フレームを表わすカラーヒストグラムを含むことを特徴とする請求項1に記載のコンテンツエディタ。
  8. 前記第1および第2の特性データは、前記ビデオシーケンスのオーディオ特性を含むことを特徴とする請求項1に記載のコンテンツエディタ。
  9. 前記再生セレクタは、前記第1、第2および第3の特性データの少なくともひとつに応じて、前記圧縮ビデオデータを編集し、前記少なくともひとつの特性データは、動きベクトル平均、現在のビットレート、フレーム中の輝度変化、フレーム中の色変化、フレームのトータル輝度、フレームのトータルカラー、フレーム間の輝度変動、平均絶対差、および量子化スケールの少なくともひとつを含むことを特徴とする請求項1に記載のコンテンツエディタ。
  10. 非圧縮ビデオデータを受信して圧縮ビデオデータを生成するビデオ圧縮エンコーダと、
    前記ビデオ圧縮エンコーダに接続されて当該ビデオ圧縮エンコーダから第1のデータを受け取り、前記第1のデータに応じて、前記圧縮ビデオデータ中の特定種類のコンテンツの開始を特定する識別子を生成する分析エンジンと
    を備え、前記第1のデータは圧縮プロセスの結果として生成され、前記圧縮ビデオデータから抽出されることを特徴とするビデオコンテンツ検出装置。
  11. 前記第1のデータは、量子化スケール、動きベクトルデータ、フレーム中の輝度変化、フレーム中のカラー変化、クレームのトータル輝度、フレームのトータルカラー、フレーム間の輝度変動、および平均絶対差の少なくともひとつを含むことを特徴とする請求項10に記載のコンテンツ検出装置。
  12. 前記分析エンジンは、前記第1のデータの少なくともひとつから派生特性データを算出し、当該派生特性データに応じて前記識別子を生成することを特徴とする請求項10に記載のコンテンツ検出装置。
  13. 前記分析エンジンは、前記第1のデータに応じて、前記非圧縮ビデオデータ中のレターボックスの有無を判断し、前記レターボックスの有無に一致して、前記圧縮ビデオデータのシーケンス中のロケーションを特定する識別子を生成することを特徴とする請求項10に記載のコンテンツ検出装置。
  14. 前記分析エンジンは、前記第1のデータに応じて、前記非圧縮ビデオデータ中のインターレースまたはプログレッシブビデオフォーマットの有無を判断し、前記インターレースまたはプログレッシブビデオフォーマットに一致して、前記圧縮ビデオデータのシーケンス中のロケーションを特定する識別子を生成することを特徴とする請求項10に記載のコンテンツ検出装置。
  15. 前記分析エンジンは、前記第1のデータに応じて、前記非圧縮ビデオデータ中の単色フレームの存在を特定し、前記単色フレームに一致して、前記圧縮ビデオデータのシーケンス中のロケーションを特定する識別子を生成することを特徴とする請求項10に記載のコンテンツ検出装置。
  16. 前記分析エンジンは、前記第1のデータに応じて、前記非圧縮ビデオデータ中のシーンカット(場面変化)のインジケータまたは頻度を特定し、前記シーンカットの頻度に一致して、前記圧縮ビデオデータのシーケンス中のロケーションを特定する識別子を生成することを特徴とする請求項10に記載のコンテンツ検出装置。
  17. 圧縮ビデオストリームからコマーシャルを検出する方法であって、
    ビデオデータを圧縮して、圧縮ビデオデータと、ビデオデータ圧縮の副産物としての第1のデータを生成する工程と、
    前記第1のデータから、コマーシャルシーケンスの見込み開始点を示す第1イベントを識別する工程と、
    前記見込み開始点に引き続くビデオコンテンツがコマーシャルシーケンスの特性を有することを前記第1のデータに応じて検証する工程と、
    前記識別工程および検証工程の結果に応じて、コマーシャルの存在を示す肯定と
    を含むことを特徴とするコマーシャル検出方法。
  18. 前記検証工程は、シーンカットレート、単色フレームシーケンス、ビデオフレームのレターボックス境界、およびビデオフォーマットがプログレッシブかインターレースかを示す指標、の少なくともひとつを算出する工程を含むことを特徴とする請求項17に記載のコマーシャル検出方法。
  19. ビデオデータ中のコンテンツ検出方法であって、
    ビデオデータを圧縮して、圧縮ビデオデータと、ビデオデータ圧縮の副産物としての圧縮特性データとを生成する工程と、
    前記圧縮特性データと、非圧縮特性データとの組み合わせに基づいて、前記ビデオデータのコンテンツ部分を分類する工程と、
    前記分類工程で識別されたコンテンツを示す工程と
    を含むことを特徴とするコンテンツ検出方法。
  20. 前記分類工程は、前記あらかじめ定義されたコンテンツの例に基づいて分類エンジンをプログラムする工程を含むことを特徴とする請求項19に記載の方法。
  21. 前記分類工程は、分類器を訓練し、当該分類器を用いて前記あらかじめ定義されたコンテンツを分類することを特徴とする請求項19に記載の方法。
  22. 前記分類器は、ベイズ分類器、ニューラルネットワーク、隠れマルコフモデル分類器の少なくともひとつを含むことを特徴とする請求項21に記載の方法。
JP2002590671A 2001-05-14 2002-05-08 データ圧縮パラメータを利用したビデオコンテンツ分析方法およびシステム Pending JP2004522354A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/854,511 US6714594B2 (en) 2001-05-14 2001-05-14 Video content detection method and system leveraging data-compression constructs
PCT/IB2002/001633 WO2002093929A1 (en) 2001-05-14 2002-05-08 Video content analysis method and system leveraging data-compression parameters

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009021705A Division JP2009135957A (ja) 2001-05-14 2009-02-02 データ圧縮パラメータを利用したビデオコンテンツ分析方法およびシステム

Publications (1)

Publication Number Publication Date
JP2004522354A true JP2004522354A (ja) 2004-07-22

Family

ID=25318886

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002590671A Pending JP2004522354A (ja) 2001-05-14 2002-05-08 データ圧縮パラメータを利用したビデオコンテンツ分析方法およびシステム
JP2009021705A Pending JP2009135957A (ja) 2001-05-14 2009-02-02 データ圧縮パラメータを利用したビデオコンテンツ分析方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009021705A Pending JP2009135957A (ja) 2001-05-14 2009-02-02 データ圧縮パラメータを利用したビデオコンテンツ分析方法およびシステム

Country Status (6)

Country Link
US (1) US6714594B2 (ja)
EP (1) EP1393569A1 (ja)
JP (2) JP2004522354A (ja)
KR (1) KR100869038B1 (ja)
CN (1) CN100493186C (ja)
WO (1) WO2002093929A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008527940A (ja) * 2005-01-19 2008-07-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツアイテムを含むコンテンツストリームを分析する装置及び方法

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000051355A1 (en) * 1999-02-26 2000-08-31 Stmicroelectronics Asia Pacific Pte Ltd Method and apparatus for interlaced/non-interlaced frame determination, repeat-field identification and scene-change detection
US9038108B2 (en) * 2000-06-28 2015-05-19 Verizon Patent And Licensing Inc. Method and system for providing end user community functionality for publication and delivery of digital media content
GB2365245B (en) * 2000-07-28 2004-06-30 Snell & Wilcox Ltd Video Compression
AUPR133700A0 (en) * 2000-11-09 2000-11-30 Mediaware Solutions Pty Ltd Transition templates for compressed digital video and method of generating same
US20060236221A1 (en) * 2001-06-27 2006-10-19 Mci, Llc. Method and system for providing digital media management using templates and profiles
US20070089151A1 (en) * 2001-06-27 2007-04-19 Mci, Llc. Method and system for delivery of digital media experience via common instant communication clients
US8972862B2 (en) * 2001-06-27 2015-03-03 Verizon Patent And Licensing Inc. Method and system for providing remote digital media ingest with centralized editorial control
US8990214B2 (en) * 2001-06-27 2015-03-24 Verizon Patent And Licensing Inc. Method and system for providing distributed editing and storage of digital media over a network
US7970260B2 (en) * 2001-06-27 2011-06-28 Verizon Business Global Llc Digital media asset management system and method for supporting multiple users
US8238725B2 (en) * 2001-08-20 2012-08-07 Broadcom Corporation System and method for providing personal video recording trick modes
US7170566B2 (en) * 2001-12-21 2007-01-30 Koninklijke Philips Electronics N.V. Family histogram based techniques for detection of commercials and other video content
US20030123841A1 (en) * 2001-12-27 2003-07-03 Sylvie Jeannin Commercial detection in audio-visual content based on scene change distances on separator boundaries
US20030131350A1 (en) 2002-01-08 2003-07-10 Peiffer John C. Method and apparatus for identifying a digital audio signal
US7974495B2 (en) * 2002-06-10 2011-07-05 Digimarc Corporation Identification and protection of video
US7136417B2 (en) * 2002-07-15 2006-11-14 Scientific-Atlanta, Inc. Chroma conversion optimization
US20040015988A1 (en) * 2002-07-22 2004-01-22 Buvana Venkataraman Visual medium storage apparatus and method for using the same
WO2004015550A2 (en) * 2002-08-12 2004-02-19 Digital Interactive Streams, Inc Data streaming system and method
MXPA05014162A (es) * 2003-06-20 2006-03-13 Nielsen Media Res Inc Aparato y metodos de identificacion de programa a base de firma para uso con sistemas de difusion digital.
US7512180B2 (en) * 2003-06-25 2009-03-31 Microsoft Corporation Hierarchical data compression system and method for coding video data
KR101083100B1 (ko) 2003-07-18 2011-11-16 코닌클리케 필립스 일렉트로닉스 엔.브이. 디지털 비디오 스트림 내의 컨텐트 아이템 검출
KR100505699B1 (ko) * 2003-08-12 2005-08-03 삼성전자주식회사 실시간 가변 비트율 제어로 화질을 개선시키는 비디오인코더의 인코딩율 제어기, 이를 구비한 비디오 데이터전송 시스템 및 그 방법
EP1735999A4 (en) * 2004-03-29 2012-06-20 Nielsen Media Res Inc METHODS AND APPARATUS FOR DETECTING EMPTY FRAME IN DIGITAL VIDEO BROADCASTING SIGNAL
WO2005099274A1 (en) * 2004-04-08 2005-10-20 Koninklijke Philips Electronics N.V. Coding method applied to multimedia data
WO2005099273A1 (en) * 2004-04-08 2005-10-20 Koninklijke Philips Electronics N.V. Monochrome frame detection method and corresponding device
CA2574998C (en) * 2004-07-23 2011-03-15 Nielsen Media Research, Inc. Methods and apparatus for monitoring the insertion of local media content into a program stream
MX2007002071A (es) * 2004-08-18 2007-04-24 Nielsen Media Res Inc Metodos y aparatos para generar firmas.
JP4335779B2 (ja) * 2004-10-28 2009-09-30 富士通マイクロエレクトロニクス株式会社 符号化装置およびこれを用いた録画装置、並びに符号化方法および録画方法
US7650031B2 (en) * 2004-11-23 2010-01-19 Microsoft Corporation Method and system for detecting black frames in a sequence of frames
KR100707189B1 (ko) * 2005-04-29 2007-04-13 삼성전자주식회사 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체
JP2008541645A (ja) 2005-05-19 2008-11-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツアイテムの境界を検出するための方法及び装置
US7561206B2 (en) * 2005-06-29 2009-07-14 Microsoft Corporation Detecting progressive video
US8631226B2 (en) * 2005-09-07 2014-01-14 Verizon Patent And Licensing Inc. Method and system for video monitoring
US20070107012A1 (en) * 2005-09-07 2007-05-10 Verizon Business Network Services Inc. Method and apparatus for providing on-demand resource allocation
US9076311B2 (en) * 2005-09-07 2015-07-07 Verizon Patent And Licensing Inc. Method and apparatus for providing remote workflow management
US9401080B2 (en) 2005-09-07 2016-07-26 Verizon Patent And Licensing Inc. Method and apparatus for synchronizing video frames
WO2007051118A2 (en) 2005-10-25 2007-05-03 Nxstage Medical, Inc Safety features for medical devices requiring assistance and supervision
US8212939B2 (en) * 2005-12-23 2012-07-03 Swissqual License Ag Non-intrusive determination of an objective mean opinion score of a video sequence
JP2009533993A (ja) 2006-04-20 2009-09-17 エヌエックスピー ビー ヴィ データ要約システム及びデータストリーム要約方法
US7982797B2 (en) * 2006-06-30 2011-07-19 Hewlett-Packard Development Company, L.P. Detecting blocks of commercial content in video data
WO2008042953A1 (en) 2006-10-03 2008-04-10 Shazam Entertainment, Ltd. Method for high throughput of identification of distributed broadcast content
US8659654B2 (en) * 2006-10-11 2014-02-25 Microsoft Corporation Image verification with tiered tolerance
WO2008135877A2 (en) * 2007-05-07 2008-11-13 Nxp B.V. Device to allow content analysis in real time
CN101690405A (zh) 2007-05-22 2010-03-31 皇家飞利浦电子股份有限公司 远程照明控制
WO2009034487A2 (en) * 2007-09-10 2009-03-19 Nxp B.V. Method and apparatus for motion estimation and motion compensation in video image data
JP2009122829A (ja) * 2007-11-13 2009-06-04 Sony Corp 情報処理装置、情報処理方法、およびプログラム
CN101175214B (zh) * 2007-11-15 2010-09-08 北京大学 一种从广播数据流中实时检测广告的方法及设备
US20090237560A1 (en) * 2008-03-18 2009-09-24 Cisco Technology, Inc. Networked ip video wall
US8156244B2 (en) * 2008-05-22 2012-04-10 Cisco Technology, Inc. Software client control of digital picture frames
US20090320060A1 (en) * 2008-06-23 2009-12-24 Microsoft Corporation Advertisement signature tracking
US8275046B2 (en) * 2008-09-19 2012-09-25 Texas Instruments Incorporated Fast macroblock structure decision using SAD discrepancy and its prediction mode
CN102045520A (zh) * 2009-10-15 2011-05-04 康佳集团股份有限公司 一种电视节目的切换方法、系统及电视机
WO2011074588A1 (ja) * 2009-12-15 2011-06-23 ジャパンスーパークォーツ株式会社 ルツボの温度分布計算方法
US8925024B2 (en) 2009-12-31 2014-12-30 The Nielsen Company (Us), Llc Methods and apparatus to detect commercial advertisements associated with media presentations
AU2013203753B2 (en) * 2009-12-31 2016-01-07 The Nielsen Company (Us), Llc Methods and apparatus to detect commercial advertisements in television transmissions
US9137616B1 (en) * 2011-09-30 2015-09-15 Tribune Broadcasting Company, Llc Systems and methods for identifying a mute/sound sample-set attribute
US9998750B2 (en) 2013-03-15 2018-06-12 Cisco Technology, Inc. Systems and methods for guided conversion of video from a first to a second compression format
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
US10091265B2 (en) 2016-06-01 2018-10-02 Amazon Technologies, Inc. Catching up to the live playhead in live streaming
US10530825B2 (en) * 2016-06-01 2020-01-07 Amazon Technologies, Inc. Catching up to the live playhead in live streaming
US10306333B2 (en) * 2017-09-13 2019-05-28 The Nielsen Company (Us), Llc Flagging advertisement frames for automatic content recognition
US11277461B2 (en) * 2019-12-18 2022-03-15 The Nielsen Company (Us), Llc Methods and apparatus to monitor streaming media
US20220303618A1 (en) * 2021-03-17 2022-09-22 Comcast Cable Communications, Llc Systems, methods, and apparatuses for processing viewership information
EP4352948A1 (en) 2021-06-11 2024-04-17 Dolby Laboratories Licensing Corporation Surround area detection and blending for image filtering
WO2024063168A1 (ko) * 2022-09-19 2024-03-28 삼성전자 주식회사 라이브 비디오 분석에 대한 네트워크 자원 및 연산 자원 조인트 스케줄링을 위한 방법 및 장치

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4750052A (en) * 1981-02-13 1988-06-07 Zenith Electronics Corporation Apparatus and method for automatically deleting selected program intervals from recorded television broadcasts
US4752834A (en) * 1981-08-31 1988-06-21 Shelton Video Editors Inc. Reciprocating recording method and apparatus for controlling a video recorder so as to edit commercial messages from a recorded television signal
US4750213A (en) * 1986-06-09 1988-06-07 Novak Albert P Method and system for editing unwanted program material from broadcast signals
JPH01284092A (ja) * 1988-01-26 1989-11-15 Integrated Circuit Technol Ltd ビデオ信号から特定資料を識別し排除する方法及び装置
US5333091B2 (en) * 1993-01-08 1996-12-17 Arthur D Little Enterprises Method and apparatus for controlling a videotape player to automatically scan past recorded commercial messages
US5696866A (en) * 1993-01-08 1997-12-09 Srt, Inc. Method and apparatus for eliminating television commercial messages
JP2846840B2 (ja) * 1994-07-14 1999-01-13 三洋電機株式会社 2次元映像から3次元映像を生成する方法
JP3823333B2 (ja) * 1995-02-21 2006-09-20 株式会社日立製作所 動画像の変化点検出方法、動画像の変化点検出装置、動画像の変化点検出システム
US6002831A (en) * 1995-05-16 1999-12-14 Hitachi, Ltd. Image recording/reproducing apparatus
JPH0993588A (ja) * 1995-09-28 1997-04-04 Toshiba Corp 動画像処理方法
JP3332756B2 (ja) * 1996-03-14 2002-10-07 三洋電機株式会社 テレビジョン放送信号の記録再生装置
US5767922A (en) * 1996-04-05 1998-06-16 Cornell Research Foundation, Inc. Apparatus and process for detecting scene breaks in a sequence of video frames
US5999689A (en) * 1996-11-01 1999-12-07 Iggulden; Jerry Method and apparatus for controlling a videotape recorder in real-time to automatically identify and selectively skip segments of a television broadcast signal during recording of the television signal
JPH10215436A (ja) * 1997-01-30 1998-08-11 Sony Corp 記録再生装置および方法、並びに記録媒体
US6021220A (en) * 1997-02-11 2000-02-01 Silicon Biology, Inc. System and method for pattern recognition
JP3514063B2 (ja) * 1997-02-20 2004-03-31 松下電器産業株式会社 受信装置
US6014183A (en) * 1997-08-06 2000-01-11 Imagine Products, Inc. Method and apparatus for detecting scene changes in a digital video stream
JP2000069414A (ja) * 1998-08-17 2000-03-03 Sony Corp 記録装置および記録方法、再生装置および再生方法、ならびに、cm検出方法
JP2000209553A (ja) * 1998-11-13 2000-07-28 Victor Co Of Japan Ltd 情報信号記録装置及び再生装置
JP4178629B2 (ja) * 1998-11-30 2008-11-12 ソニー株式会社 情報処理装置および方法、並びに記録媒体
US6469749B1 (en) * 1999-10-13 2002-10-22 Koninklijke Philips Electronics N.V. Automatic signature-based spotting, learning and extracting of commercials and other video content
JP2003513556A (ja) * 1999-11-01 2003-04-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 不要なコマーシャルブレイク又はその他のビデオシーケンスのビデオコンテンツを交換するための方法及び装置
US6766098B1 (en) 1999-12-30 2004-07-20 Koninklijke Philip Electronics N.V. Method and apparatus for detecting fast motion scenes

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008527940A (ja) * 2005-01-19 2008-07-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツアイテムを含むコンテンツストリームを分析する装置及び方法

Also Published As

Publication number Publication date
US20020186768A1 (en) 2002-12-12
WO2002093929A1 (en) 2002-11-21
JP2009135957A (ja) 2009-06-18
US6714594B2 (en) 2004-03-30
KR20030031961A (ko) 2003-04-23
CN1757236A (zh) 2006-04-05
KR100869038B1 (ko) 2008-11-17
CN100493186C (zh) 2009-05-27
EP1393569A1 (en) 2004-03-03

Similar Documents

Publication Publication Date Title
JP2004522354A (ja) データ圧縮パラメータを利用したビデオコンテンツ分析方法およびシステム
US6473459B1 (en) Scene change detector
JP4267327B2 (ja) 動き記述子を用いてビデオを要約化する方法
JP4942883B2 (ja) 動き記述子およびカラー記述子を用いてビデオを要約化する方法
KR100468967B1 (ko) 썸네일 영상 생성장치 및 방법
US7170566B2 (en) Family histogram based techniques for detection of commercials and other video content
US8442384B2 (en) Method and apparatus for video digest generation
KR100464075B1 (ko) 비디오 하이라이트 자동 생성 방법 및 장치
US6940910B2 (en) Method of detecting dissolve/fade in MPEG-compressed video environment
US20030061612A1 (en) Key frame-based video summary system
US20030123841A1 (en) Commercial detection in audio-visual content based on scene change distances on separator boundaries
US20030016604A1 (en) System and method for detecting the border of recorded video data
JP2000224590A (ja) ビデオシ―ケンスの特徴抽出方法
JP4047264B2 (ja) 動画像処理装置、動画像処理方法および動画像処理プログラム
US6823011B2 (en) Unusual event detection using motion activity descriptors
Dimitrova et al. Real time commercial detection using MPEG features
JP3714871B2 (ja) サンプリングされたディジタル動画シーケンス中の推移を検出する方法
Smeaton et al. An evaluation of alternative techniques for automatic detection of shot boundaries in digital video
Lie et al. News video summarization based on spatial and motion feature analysis
JP2005175710A (ja) デジタル記録再生装置及びデジタル記録再生方法
JP4491009B2 (ja) 動画像処理装置
KR100683501B1 (ko) 신경망 기법을 이용한 뉴스 비디오의 앵커 화면 추출 장치및 그 방법
Saoudi et al. Spatio-temporal video slice edges analysis for shot transition detection and classification
Nakajima et al. Automatic anchorperson detection from an MPEG coded TV program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070906

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070911

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071204

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071211

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080718

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081007

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090105

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090327

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090605