JP2011507314A - ビデオ情報処理 - Google Patents

ビデオ情報処理 Download PDF

Info

Publication number
JP2011507314A
JP2011507314A JP2010527007A JP2010527007A JP2011507314A JP 2011507314 A JP2011507314 A JP 2011507314A JP 2010527007 A JP2010527007 A JP 2010527007A JP 2010527007 A JP2010527007 A JP 2010527007A JP 2011507314 A JP2011507314 A JP 2011507314A
Authority
JP
Japan
Prior art keywords
frame
scene
frames
video information
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010527007A
Other languages
English (en)
Other versions
JP2011507314A5 (ja
JP5524063B2 (ja
Inventor
レオンタリス、アサナシオス
トゥラピス、アレクサンドロス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2011507314A publication Critical patent/JP2011507314A/ja
Publication of JP2011507314A5 publication Critical patent/JP2011507314A5/ja
Application granted granted Critical
Publication of JP5524063B2 publication Critical patent/JP5524063B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/467Embedding additional information in the video signal during the compression process characterised by the embedded information being invisible, e.g. watermarking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/553Motion estimation dealing with occlusions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

ビデオ情報を処理するシステム、方法、及び技術について説明する。一つの実施形態における方法は、ビデオ情報を受け取り、この受け取ったビデオ情報における一つ以上のフレームを場面として分類し、このフレームの分類に基づいて、一つ以上の符号化パラメータを調整すると共に、この調整された符号化パラメータによりビデオ情報を符号化することを含む。
【選択図】 図10

Description

発明の詳細な説明
関連出願の相互参照
この出願は米国暫定出願(発明の名称”Treating Video Information(ビデオ情報処理)”)、出願番号第60/976,241号、出願日2007年9月28日に優先権の利益を主張しており、その開示事項は参照により本明細書に組み込まれている。
発明の技術分野
この開示事項はビデオ情報の処理に関する。
発明の背景
ビデオ情報は一般的に動的な視覚的イメージを意味する。視覚的イメージは、観察者に連続的に提示される静的イメージ(例えば、フレーム、ピクチュア、フィールド・ピクチュア(インターレース)等)の集合体を用いて表される。連続的な表示は表示装置((例えば、テレビジョン・スクリーン、コンピュータ・モニタ等)の動的フィールドに提示することができる。
例示的な実施例の簡単な概要
以下の段落には、本発明の例示的な実施例の幾つかの観点の基本的理解を与える簡単な単純化した要約を示す。この簡単な要約は、例示的な実施例の観点を広範に概観するものではないことに留意されたい。更に、この簡単な要約は、特に例示的な実施例又は一般的な本発明の特定の重要な観点又は要素を特定することを意図したものでもなく、これらの範囲を説明することを意図したものでもないことにも留意されたい。以下の簡単な概要は、簡略化且つ単純化された形式の例示的な実施例に関連する若干の概念を示すものにすぎない。従って、この簡単な要約は、以下の例示的な実施例の一つのより詳細な説明に対する概念的な序文としてのみ理解されたい。
ビデオ情報処理のためのシステム及び技術について説明する。一つの実施形態では、方法はビデオ情報を受信して、受信したビデオ情報における一つ以上のフレームを場面として分類して、フレームの分類に基づいて一つ以上の符号化パラメータを調節して、調節された符号化パラメータに従ってビデオ情報を符号化することを含む。
この観点及び他の観点は以下の特徴のうちの一つ以上を含むことができる。フレームは一つ以上のカメラズーム場面若しくはフェード場面として分類できる。例えば、フレームはクロスフェード場面又はフラッシュ場面として分類できる。フレームは、フラッシュ場面に先行するフレームとフラッシュ場面に続くフレームとの間で低い予測誤差を特定することによりフラッシュ場面として分類できる。一つ以上の符号化パラメータの調整は、内部符号化フレームとして符号化される特定のフレームを特定することを含むことができる。
一つ以上のフレームの分類は、場面の開始フレームと終了フレームとの少なくとも一方を特定することを含むことができる。一つ以上の符号化パラメータの調整は、開始フレームと終了フレームとの少なくとも一方を内部符号化フレームとして符号化されるように指定するか、及び/又は場面における内部フレームを開始フレームと終了フレームとの少なくとも一方を参照して符号化されるように指定することを含んでもよい。
他の観点では、方法はビデオ情報を受け取り、ビデオ情報上における動き評価及び補償を実行して、動き評価及び補償パラメータの集合を生成し、ビデオ情報における一つ以上のフレームを動き評価及び補償パラメータに基づいて場面として分類することを含む。
上述及び他の観点は以下の特徴のうち少なくとも一つを含むことができる。一つ以上のフレームは代表的な動き評価及び補償パラメータの成分に基づいてパン場面として分類することができる。
一つ以上のフレームは、二つ以上のフレームおけるブロックのための動きベクトルを特定し、ブロックについての動きベクトルは大きさが比較的に小さいことを判別し、再配列されたブロックについての動きベクトルが方向及び一連のフレームに亘って相関性があることを判別し、二つ以上のフレームをカメラズーム場面として分類することにより分類可能である。
一つ以上のフレームは、現在のフレームについての予測誤差メトリックを閾値と比較し、閾値を越える現在のフレームについての予測誤差メトリックに基づく場面変化を特定することにより、場面変化として分類する。例えば現在のフレームについての予測誤差メトリックは、以下のようにして閾値と比較することができる。即ち現在のフレームについての予測誤差メトリックを比較的に多数のフレームに亘る予測誤差メトリックに関連させて長時間閾値と比較し、且つ現在のフレームについての予測誤差メトリックを比較的に小数のフレームに亘る予測誤差メトリックに関連させて短時間閾値と比較する。現在のフレームについての予測誤差メトリックと閾値との比較は、現在のフレームについての予測誤差メトリックと隣接するフレームとの差を閾値と比較することを含むことができる。
フレームを符号化するビットレートは、ビデオ符号化モジュールによる運動モデルのための支援の欠如に基づいて変化する。動き評価及び補償パラメータの変化は、特定のフレームを参照フレームとしての使用から除外し、最終予測フレームにおける予備的予測フレームの重みを変化させ、及び/又は付加的な計算手段を予測動き評価へ割り当てる。
この方法は、一つ以上の符号化パラメータを、調整された符号化パラメータによる場面における場面分類及び符号化フレームに基づいて調整することも含むことができる。例えば、内部符号化フレームとして符号化される特定のフレームとして特定することができる。他の例では、場面を符号化するためのビット割り当ては増大させることができる。
他の観点では、方法は、ビデオ情報を受け取り、この受け取ったビデオ情報における一つ以上のフレームにおける領域を分類し、この領域の分類に基づいて一つ以上の符号化パラメータを調整し、この調整された符号化パラメータにより領域を符号化することを含む。その領域は、領域が出現するフレームよりも小さい。
この観点及び他の観点は、以下の特徴の少なくとも一つを含むことができる。
一つ以上の符号化パラメータは、領域の符号化のためのビット割り当てを増大させるか及び/又は領域のフィルタリングを低減させることにより調整できる。この領域は暗い領域として分類でき、この暗い領域を符号化するビット割り当ては増大することができる。
他の観点では、方法は、ビデオ情報を受け取り、この受け取ったビデオ情報における場面変化を特定し、重み付けされた予測を有する予測誤差と、重み付けされた予測を有さない予測誤差との間の不一致に基づいて場面を分類し、及び利用可能な場面の分類をなすことを含むことができる。
他の観点では、方法は、ビデオ情報を受け取り、この受け取ったビデオ情報における場面変化を特定し、場面変化の位置に基づいて場面を分類し、利用可能な場面の分類をなすことを含むことができる。
この観点及び他の観点は、以下の特徴の少なくとも一つを含むことができる。ビデオ情報のフィンガープリントは場面の分類を用いてなすことができる。ビデオ情報の符号化に用いられる符号化パラメータは、場面の分類を用いて調整することができる。これらの場面は符号化モジュールからのフィードバックに基づいて分類することができる。
場面変化の特定は、フェード場面を特定し、このフェード場面の終了部におけるフレームを場面変化として分類することを含むことができる。場面変化の特定は、現在のフレームに先行する参照フレームからの加重予測パラメータと現在のフレームに続く参照フレームからの加重予測パラメータとに基づいてフェード場面を検出することを含むこともできる。場面変化の特定は、現在の場面がフラッシュを含むことを認識し、この現在の場面がフラッシュを含むことの認識に基づいて、現在の場面を場面変化として特定されるものから除外することを含めることもできる。
他の観点では、方法は、ビデオ情報の一連のフレームにおける輝度の特性を受け取って、この輝度の特性に基づいて一連のフレームにおける一つ以上のフレームを場面として分類し、少なくとも一つ以上の場面を分類可能とする。
この観点及び他の観点は以下の特徴のうちの少なくとも一つ以上を含めることができる。少なくとも一つ以上のフレームは、少なくとも一つ以上のフレームの間の輝度の変化の量に基づいて速いフェード及び遅いフェードとして分類することができる。この方法は、少なくとも一つ以上の符号化パラメータを場面分類に基づいて調整し、この調整された符号化パラメータによりビデオ情報を符号化することを含むこともできる。この方法は、少なくとも一つ以上のフレームを暗い場面として分類することも含むことができ、且つビデオ情報の符号化は暗い場面に基づいてビット割り当てを増大させることを含む。
他の観点では、方法は、ビデオ情報の一連のフレームを受け取り、一連のフレームのうちの各々のフレームについて優勢な動きベクトルを決定し、一連のフレームにおける優勢な動きベクトルに基づいて場面変化を特定することを含めることができる。
この観点及び他の観点は、以下の特徴の少なくとも一つ以上を含めることができる。優勢動きベクトルは、何れの動きベクトルが現れるかの頻度を表す多次元動きベクトル・ヒストグラムを形成して、このヒストグラムに何れの動きベクトルが現れるかの頻度に基づいて優勢動きベクトルを選択することにより決定することができる。
他の観点では、方法は、ビデオ情報のフレームのシーケンスにおける輝度の特性を受け取って、この輝度の特性に基づいて、シーケンスにおける少なくとも一つ以上のフレームがフラッシュを含むものと認識し、このフラッシュを含むフレームを動き補償参照フレームとしての使用から除外することを含む。
他の観点では、システムは、ビデオ情報の集合体における動き特性化パラメータの集合を生成する動き評価及び動き予測モジュールと、ビデオ情報における動き特性化パラメータに少なくとも部分的に基づいてビデオ情報の集合体における一つ以上の場面を分類する決定モジュールとを含む。
この観点及び他の観点には、以下の特徴のうちの一つ以上を含めることができる。このシステムには、ビデオ情報の集合体における輝度特性化パラメータの集合を生成する輝度モジュールも含めることができる。決定モジュールは、ビデオ情報の集合体における輝度特性化パラメータに少なくとも部分的に基づいて一つ以上の場面を分類することができる。このシステムには、ビデオ情報の集合体におけるテクスチャ及びエッヂ効果特性化パラメータの集合を生成する空間解析モジュールも含めることもできる。決定モジュールは、ビデオ情報の集合体におけるテクスチャ及びエッヂ効果特性化パラメータに少なくとも部分的に基づいて一つ以上の場面を分類することができる。このシステムには、決定モジュールから動き評価及び動き予測モジュールへフィードバックを送るデータ経路も含めることができる。
このシステムには、一つ以上の場面の分類に少なくとも部分的に基づいてビデオ情報の集合体のビデオ・フィンガープリントを生成するビデオ・フィンガープリント・モジュール及び/又は一つ以上の場面の分類に少なくとも部分的に基づいて符号化ビデオ情報を生成する符号化モジュールも含めることができる。このシステムには、符号化モジュールから動き評価及び動き予測モジュールへフィードバックを送るデータ経路を含めることもできる。
用語「アルゴリズム」とは、ステップ、方法、処理、計画、手順、操作、プログラム、ガイドライン、技術、シーケンス、及び/又は一組の規則又は指示を意味することができる。例えば、アルゴリズムは、ハードウェア及び/またはソフトウェア・ビデオプロセッサのためのビデオ処理指令のセットとすることができる。このアルゴリズムは、一つ以上のコンピュータ・デバイス及び/又は機械により(例えば人間が介在することなく)記憶、生成、及び処理することができる。開示されたアルゴリズムは、ビデオに関連させることができ、ビデオ関連システム及び/又は任意のデバイス、機械、ハードウェア、及び/又は処理、圧縮、保存、送信、受信、試験、補整、表示のために製造された物品、及び/又はビデオ・データについての任意の組み合わせにおける任意の改良において、生成、実装、協働、及び/又は採用することができる。これらのアルゴリズム及び技術は、特定の符号化基準に限定されるものではなく、符号化基準外で或いは符号化基準に加えて用いることができる。また、符号化依存関係はビデオ符号化システムにおける符号化計画の間で調査して符号化性能を向上させることができる。
用語「イメージ特性」とは、フィールド内の一つ以上のピクチャ(例えば、一つ以上のピクセル)を意味するものとし得る。用語「源フィールド」とは、イメージ特性に関連した情報を決定または導出できるフィールドを意味するものとし得る。用語「中間フィールド」とは、ビデオ・シーケンスにおける源フィールドに時間的に後続又は先行するフィールドであり、ここではイメージ特性に関連する情報が源フィールドを参照して記述し得る。用語「視差推定(disparity estimation)」とは、動きベクトル、又は動き(例えばビデオ・シーケンスの二つ以上のフィールドの間の動き)を伴う他のパラメータ的な値を計算する技術、或いは、イメージ、イメージの領域、ブロック、又はピクセルと予測信号との間の他の差異を有効に予測し、モデル化し、或いは記述する技術を意味するものとし得る。視差推定の一例は動き推定とすることができる。用語「視差評価(disparity estimate)」とは、動きベクトル又は他の評価されたパラメータ的な予測関連値を意味するものとし得る。用語「視差補償」とは、動き評価又は他のパラメータを源フィールドにおけるイメージ特性の場所における空間的シフトを計算するために用いて、ビデオ・シーケンスの一つ以上の中間フィールドにおける動き又はイメージ特性の幾つかのパラメータを記述する技術を意味するものとし得る。視差補償の一例は動き補償とすることができる。上述の用語は他のビデオ・符号化概念(例えば内部予測及び輝度補償)に関連させて用いてもよい
本明細書に記載した何れの方法及び技術は、一つ以上の構成要素によるシステム、装置又はデバイス、機械、ソフトウェア又はハードウェア又はそれらの任意の組み合わせにおけるコンピューター・プログラム製品に実装することもできる。例えば、コンピュータ・プログラム製品は、コンピュータ読み取り可能な媒体に明らかに符号化することができ、且つデータ処理装置(例えばデータ・プロセッサ)に本明細書に記載した何れかの方法のための一つ以上の操作を実行させる指令を含むことができる。
一つ以上の実施態様の詳細は添付図面及び以下の説明中に記載されている。その他の特徴及び効果は以下の説明及び図面から、また特許請求の範囲から明らかになろう。
ビデオ特性化システムの一例の概略図である。 動き評価及び動き補償(MEMC)フレームワーク・モジュールの概略図である。 エラー予測モジュールによるエラー予測の例を示す概略図である。 エラー予測モジュールによるエラー予測の例を示す概略図である。 ビデオ特徴化システムの一例の概略図である。 8×8離散コサイン変換の周波数コンテンツに関する基礎ベクトルの例を示す図である。 ビデオ特徴化システムの一例の概略図である。 ビデオ特徴化システムの一例の概略図である。 場面分類を生成するために用いることができるバッファの実施の一例の概略図である。 場面分類を生成する処理の一例のフローチャートである。 場面変化を特定する処理の一例のフローチャートである。 場面変化を特定する処理の一例のフローチャートである。 場面変化を特定する処理の一例のフローチャートである。 フェード場面を分類する処理の一例のフローチャートである。 フェードイン遷移の終端を特定する処理の一例のフローチャートである。 カメラ・パン場面を分類する処理の一例のフローチャートである。 カメラズーム場面を特定する処理の一例のフローチャートである。 カメラズーム場面を特定する処理の一例のフローチャートである。 二つ以上の先行フレーム及び二つ以上の後続フレームの予測参照としての使用例を示す概略図である。 ビデオフィンガープリント・システムの一例の概略図である。 ビデオフィンガープリント化処理の一例のフローチャートである。 ビデオ符号化システムの一例の概略図である。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化システムの一例の概略図である。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 ビデオ符号化処理の一例のフローチャートである。 レート制御の処理の一例のフローチャートである。 システムの一例である。
各図中、同様な参照符号は同様な要素を示す。
実施例の説明
図1はビデオ特徴化システム100の概略図である。ビデオ特徴化システム100は、動き評価及び動き補償フレームワーク(MEMC)モジュール105と、決定モジュール110とを含む。ビデオ特徴化システム100は、ビデオ情報115を受け取って、場面分類125を生成する。以下に更に詳述するように、場面はフレーム、ピクチュア、及びフィールドピクチュアのシーケンスであり、これらは特徴的な特性を共有する。ピクチュアはプログレッシブ方式又はインターレース方式とすることができる(フィールドモード)。この開示事項では、用語「フレーム」と「ピクチユア」とは、フレーム、ピクチュア、及び/又はフィールドピクチュアを意味するものとして互換に用いられる。場面分類125は、更に後述するように、例えばビデオ・フィンガープリント化及びビデオ・符号化などの操作のために用いることができる。
MEMCモジュール105はビデオ情報処理デバイスであり、これはビデオ情報のフレームを特徴化する情報120を生成する。MEMCモジュール105は、機械読み取り可能な指令のセットの論理によりビデオ情報を処理することができる。この機械読み取り可能な指令はハードウェア及び/又はソフトウェアにより実施できることは明白である。例えば、MEMCモジュール105には、動き評価及び動き補償ソフトウェアの論理により作動するコンピュータを含めることができる。
動き補償は、或る参照フレームに関してフレームにおける一つ以上のブロックの動きに基づいてビデオ情報のセットにおけるフレームを特徴付ける。動き評価は、フレームの特徴化に使用するために、このような運動を示す処理である。動き評価は、変化した(又は変化しない)場所のブロックを特定するための先行又は後続フレームの解析と、例えば動きベクトルを用いて、その場所における変化の表示とを含むことができる。このブロックは、フレーム全体(例えばグローバル動き補償)及び/又は一つのフレームの離散領域を包含することができる。ブロックの寸法は、可変(例えば可変ブロック・サイズ動き補償)とすることもできる。ブロックの形状は、任意のもの(例えばメッシュに基づく動き補償)とすることもできる。
MEMCモジュール105は様々な情報120を出力することができる。例えば、ブロックの説明及びブロックの場所における任意の変化の表示(例えば動きベクトル)をMEMCモジュール105により出力することができる。或る実施形態においては、動き補償されたブロックの予測ピクセル値と実際のピクセル値との間の誤差の定量化も出力することができる。このような予測誤差は、例えば平均平方誤差(MSE)、絶対差和(SAD)、平方誤差和(SSE)、絶対変換差和(SATD)、ミンコフスキー・ノルム、及び/又は平均絶対差(MAD)として表現することができる。
決定モジュール110は、データ処理デバイスであり、これは場面分類125を生成する。決定モジュール110は情報、例えばフレーム特徴化情報を機械読み取り可能な指令セットの論理により処理して、場面分類125を生成することができる。この機械読み取り可能な指令はハードウェア及び/又はソフトウェアにより行うことができることは明白である。例えば、決定モジュール110には、動き評価及び動き補償ソフトウェアの論理により作動するコンピュータを含めることができる。
上述のように、場面は特徴的特性を共有するフレームのシーケンスである。場面は、フレームのシーケンスで生じる特徴的な動きに基づいて分類することができる。或る実施では、フレームのシーケンスにおける動きは、シーケンス中のカメラに対する調節に基づいて分類することができる。このような場面分類の例は、カメラ・パン場面、ズームイン画面、及びズームアウト場面を含む。これらの場面及び他の場面の分類に関する付加的な詳細については以下に述べる。
決定モジュール110により出力される場面分類125には、一つ以上の場面の開始及び/又は終了時間の説明による場面分類の特定を含めることができる。或る実施形態では、分類された場面に関する付加的な詳細も与えることができ、これは例えば、カメラ・パン場面中にカメラがパンされる率、ズームアウト場面中の倍率変化の評価などである。
図2はMEMCモジュール105の一つの実施の例示的な概略図である。このMEMCモジュールの例示的な実施は、双予測動き評価モジュール205の集合体、単方向予測動きモジュール210の集合体、双予測動き補償モジュール215の集合体、単方向予測動き補償モジュール220の集合体、バッファ225の集合体、乗算器230の集合体、加算器235、及び誤差予測モジュール240を含む。
双予測動き評価モジュール205は、現在のフレームにおける複数(例えば二つ)の参照フレームからの一つ以上のブロックの動きを表す。図示の実施形態においては、一つの参照フレームが現在のフレーム(例えばフレーム−1、−M)に先行し、一つのフレームが現在のフレーム(例えばフレーム+1,+M)に続く。そこで各々の双方向動き評価モジュール205における添字は、参照フレーム及び現在のフレームの相対位置を示す。双予測動き評価モジュール205は、様々な差分評価技術を用いて操作することができ、それは重み付け予測、並進、アファイン、又は双曲運動モデル、及び重畳ブロック運動評価技術を含む。
単方向予測動き評価モジュール210は、現在のフレームにおける単独の参照フレームからの一つ以上のブロックの動きを表す。図示の実施では、参照フレームは現在のフレームに先行する(例えばフレーム−1,−M,−N)か、或いは後続する(例えばフレーム+1,+M,+N)。そこで各々の単方向予測動き評価モジュール210における添字は、参照フレーム及び現在のフレームの相対位置を示す。単方向動き評価モジュール210は、様々な差分評価技術を用いて操作することができ、それは重み付け予測、並進、アファイン、又は双曲運動モデル、及び重畳ブロック運動評価技術を含む。
双予測動き補償モジュール215の各々は、各々の双予測動き評価モジュール205から受け取った動きベクトルを用いて双方予測動き補償を実行する。特に、以下の式1で示されるセットBは、二つの参照フレーム、即ち現在のフレームに先行する一つ及び現在のフレームに後続する一つを包含する。
Figure 2011507314
ここで
Figure 2011507314
は位置(i,j)におけるフレームn内の現在のピクセルの予測を表す。セットBは、フレームnについての全ての利用可能な参照フレームに対する指標を含む。並進のみのモデルの場合、各々の予測はピクセルp(i+vx,k,j+vy,k)を用いて利用可能な参照kから生成される。項(vx,k,vy,k)はフレームkの位置(i,j)からの偏移を表しており、小数値を採ることができる。項aはそれぞれ参照kについての重み付け因子に対応する。パラメータα及びoは、共通に輝度変化又は重み付けパラメータを意味し、それぞれ重み付け因子及び場面内の輝度変化を反映するオフセットを表す。或る実施形態では、輝度変化パラメータは特徴付けられず、o=0であり、且つ
Figure 2011507314
であり、ここでα=α
Figure 2011507314
である。
単方向予測動き補償モジュール220の各々は、単方向運動評価モジュール210の各々から受け取った動きベクトルを用いて単方向予測動き補償を実行する。特に、式1で示されるセットBは、単独の参照フレームを包含する。
バッファ225は一時的なデータ記憶器であり、これは先行及び後続の空間的及び時間的にフィルタリングされたフレームを含む。各乗算器230は、双予測動き補償モジュール215及び単方向予測動き補償モジュール220の一次予測フレーム出力に重みwを乗じる。この重み付け予測特性は、加算器235により組み合わされて、最終的な予測フレーム238が生成される。最終的な予測フレーム238は誤差予測モジュール240へ与えられる。誤差予測モジュール240は予想誤差測定基準を与えるように構成されている。或る実施形態においては、重みwは、誤差予測モジュール240(図示せず)により与えられた予測誤差を最小化する目的で、誤差予測モジュール240からのフィードバックにより調整できる。
操作においては、各入力フレームにおける動きは、双予測動き評価モジュール205及び単方向予測動き評価モジュール210において、一つ以上の参照フレームに基づいて評価されて、入力フレームの動き補償予測がもたらされる。特に、入力フレームはピクセルの重畳又は非重畳ブロックへ分割される。このようなブロックは一般に矩形であって、任意の大きさを有することができる。例えばブロックは16×16ピクセル又は8×8ピクセルの大きさである。或る実施形態においては、入力フレームは可変及び/又は任意の大きさの領域へ分割されて、入力フレーム内のイメージの特性及び対象に基づいて成形される。
現在の入力フレームnにおけるブロックは、一つ以上の参照フレームから生成された一つ以上の予測ブロックに整合させることができる。双予測動き評価モジュール205及び単方向予測動き評価モジュール210は、現在の入力フレームn及び一つ又は複数の予測ブロックにおけるブロックの相対位置に基づいて運動パラメータを決定することができる。
一般に、フレームm内のブロックb は、異なるフレームk内のブロック、即ち
Figure 2011507314
から予測することができる。フレームkはフレームのシーケンス内のフレームmに先行又は後続することができる。複数の参照フレーム、即ち参照バッファB内の全てのフレームは、b についての最終予測を次のように形成するように用いることができる。即ち、
Figure 2011507314
この予測処理は式1におけるフレーム予測に類似する。全ての予測ブロック、即ち
Figure 2011507314
は、概ねフレームmである動き補償フレームを形成するように組み合わせることができる。代替的に、複数の動き補償予測フレームは参照フレームkからの予測のみを用いて形成することができる。何れの場合においても、これらの一次予測フレームを組み合わせて最終的な予測フレーム238を形成することができる。
或る実施形態においては、複数の一次予測フレームが、異なる参照フレームのグループからブロックを組み合わせることにより生成される。次に、これら一次予測フレームを組み合わせて最終予測フレーム238を生成することができる。例えば、第1の一次予測フレームは、参照フレームk乃至kのグループを用いて生成することができ、第2の一次予測フレームは、参照フレームk乃至kのグループを用いて生成することができ、以下同様になすことができる。このような一次予測フレームは線形又は非線形に組み合わせて単独の最終予測フレームを生成することができる。或る実施形態においては、一つ以上の参照フレームを参照フレームの複数のグループに出現させて、複数の一次予測フレームを生成するのに用いることができる。或る実施形態においては、双予測動き評価モジュール205及び/又は単方向予測動き評価モジュール210に用いられた一つ以上の運動モデルをアファイン及び/又は並進運動モデルとすることができる。或る実施形態においては、これらの一つ以上を運動モデル化における輝度変化として考慮することができる。更に、双予測動き評価モジュール205の各々及び単方向予測動き評価モジュール210は異なる運動モデルを使用できることに留意されたい。
図3及び図4は誤差予測モジュール、例えば誤差予測モジュール240による平均絶対差(MAD)誤差予測基準の演算器300,400の異なる例を示す。MAD誤差予測基準演算器300,400は、MEMCモジュール105を含めて一つ以上のMEMCモジュールのために決定することができる。
特に、図3は単独の先行参照フレーム305を用いる誤差MAD演算器を概略的に示す。現在のフレーム310及び先行参照フレーム305は動き予測モジュール315へ入力される。動き評価モジュール315は、動き補償モジュール325へ与えられる一組の動きベクトル320を用いて一つ以上のブロックの動きを表示する。動き補償モジュール325は動きベクトル320を先行参照フレーム305における一つ以上のブロックへ適用して、予測フレーム330を生成する。予測フレーム330は、現在のフレーム310に示されるイメージの特徴化であって、動きベクトル320及び先行参照フレーム305に基づいている。誤差予測モジュール240は、予測フレーム330と現在のフレーム310との間の差を決定し、これを平均絶対差として表現する。
図4は複数の後続参照フレーム405,410を用いる誤差MAD演算器を概略的に示す。現在のフレーム310、第1の後続参照フレーム405、及び第2の後続参照フレーム410は、動き評価モジュール415へ入力される。動き評価モジュール415は、動き補償モジュール425へ与えられる一組の動きベクトル420を用いて一つ以上のブロックの動きを表示する。動き補償モジュール425は、動きベクトル420を第1及び第2後続参照フレーム405,410におけるブロックへ適用して、予測フレーム430を生成する。予測フレーム430は現在のフレーム310に示されるイメージの特徴化であって、動きベクトル420と第1及び第2の後続参照フレーム405,410とに基づいている。誤差予測モジュール240は、予測フレーム430と現在のフレーム310との間の差を決定し、これを平均絶対差として表現する。
他の実施形態においては、誤差予測、例えばMAD,SAD,SSEその他は、動き評価モジュールによる一つ以上のブロックの運動の表現(例えば一組の動きベクトル)出力から直接に計算することができる。換言すれば、動き補償は実行する必要はない。
或る実施形態においては、MEMCフレームワーク・モジュール105は、ビデオ情報115におけるフレームを特徴化する広範な情報120を生成することができる。MEMCフレームワークモジュール105は本明細書に説明した全ての形式の情報120を生成する必要はない。むしろ、結果の有効なサブセットを生成することができる。フレームnを特徴化する情報120の例は、以下を含むがそれらに限定されるものではない。即ち、
1.フレームnにおけるブロックmと参照フレームkにおけるブロックmの動き補償予想との差異。フレームkは、先行フレームn−N又は後続フレームn+Nとすることができる。或る実施形態においては、差異は、ルマ(luma)成分、色(彩度)成分、及び/又は動きベクトルコストを含むことができる。その動きベクトルコストは、現在のブロックの動き(又は動きベクトル)をその近隣のブロックの動きと比較した現在のブロックの動きの不一致の基準として規定することができる。
2.フレームnにおけるブロックmと、フレームk,l,m等(ここでk,l,及びmは、n−Nとn+Nとの間である)の線形又は非線形重み付け組み合わせにおけるブロックmの動き補償予測との間の差異。
3.フレームnにおけるブロックmと、最終予測フレームにおけるブロックmの動き補償予測との間の差異。或る実施形態においては、最終予測フレームにおけるブロックmの予測は、異なる参照フレーム及び/又は非ブロック化からの複数の予測仮定の組み合わせの結果とすることができる。
4.一つ以上の各参照フレームにおける一つ以上のブロックの運動を記述する動きベクトル。これらの動きベクトルは、多数の異なる運動モデル(これは例えば並進運動モデル、アファイン運動モデル、双曲運動モデルその他を含む)の任意のものを用いて決定することができる。
5.一次予測フレームに適用される重み付け及びオフセット。
6.予測誤差(例えば異なるブロック及びフレームについての予測誤差の平均及び差異)を定量化するパラメータ。
7.全フレームについての平均グローバル動きベクトル又はフレームおける最も「優勢な」領域についての一組の動きベクトル表現。
8.全フレームについての最も優勢な動きベクトル。これは多次元動きベクトルヒストグラムを用いて獲得することができる。優勢動きベクトルは、このようなヒストグラムのピーク(即ち、ヒストグラムのモード)として、またヒストグラムにおけるM−1最大値として記述することができる。
9.決定された優勢重み付け予測パラメータ。これは、一次双予測又は単方向予測フレームへ適用される重み付け及びオフセットの二次元ヒストグラムを用いて決定される。
図5はビデオ特徴化システム500を概略的に示す。決定モジュール110に加えて、ビデオ特徴化システム500は空間解析モジュール505も含む。ビデオ特徴化システム500は、ビデオ情報115を受け取って、空間解析モジュール505により生成された空間情報510の集合体に基づいて場面分類125を生成する。
空間解析モジュール505はビデオ情報処理デバイスであり、これはビデオ情報のフレームを特徴化する空間情報510を生成する。空間解析モジュール505は、一組の機械読み取り可能な指令の論理に従ってビデオ情報を処理することができる。この機械読み取り可能な指令は、ハードウェア及び/又はソフトウェアに具現できることは明白である。例えば、空間解析モジュール505は、空間解析ソフトウェアの論理に従って作動するコンピュータに実施することができる。
空間解析モジュール505により生成できる空間情報510内にあるのは、テクスチャ情報及びエッヂ強度情報である。テクスチャ情報は、視覚的若しくは触覚的表面特性を特徴化すると共に、一つのフレームにおける一つのブロックの出現、一つのフレームにおける一つの領域の出現又は一つのフレーム全体の出現を特徴化する情報である。空間周波数は、周波数解析変換をブロック、領域、又はフレームへ適用することにより決定することができる。このような周波数解析変換の例は、ウェーブレット変換及び離散コサイン変換(DCT)を含む。この空間周波数は様々なフィルタリング手法の使用によっても決定することができる。例えば、8×8DCT変換を源ブロックへ適用したとすれば、導出されるDCT係数は、源ブロックのテクスチャ的コンテンツを特徴化するために用いることができる。例えば、全てのDCT係数位置における平均エネルギが所定の閾値よりも小さいか、或いは、DCT係数が特定の位置においてのみ非零であるとすれば、源ブロックは低空間周波数ブロックとして分類することができる。
図6は8×8離散コサイン変換の基底関数の表現であり、8×8ブロックの空間表示における各DCT係数の影響を示す。上部左ブロック605は「DC係数」(これはロー・パス係数である)に関係し、且つ8×8ブロックにおけるピクセルの平均値を表す。残りのブロックは高周波DCT係数(即ち「AC係数」)に関係し、DC係数からの距離が増大するにつれて増大する水平及び垂直周波数を捕捉する。
このように図6は空間領域におけるブロックの特性に所定の周波数係数を持つ影響に関係する。例えば、特定の値x0がDC係数にあり、x1が特定のAC係数にあるならば、空間領域における最終的な表示はx0*DCbasis+x1*ACbasisとなる。
エッヂ強度情報はエッヂ・アナライザにより生成することができ、そのエッヂ・アナライザはフレームに一つ以上の勾配基礎エッヂフィルタを適用する。エッヂ・フィルタの例は、Sobelフィルタ及びPrewittフィルタ演算子を含む。或る実施形態においては、エッヂ・アナライザはCannyエッヂ検出器をフレームへ適用することができる。
一つ以上のピクセルを含む領域の周辺への例えばSobelフィルタの適用は、その領域における優勢エッヂの方向及び大きさをもたらすことができる。エッヂの存在は、領域における高空間周波数コンテンツの存在に対して一般に相関しているので、そのような高空間周波数コンテンツを特徴化するために用いることができる。エッヂの存在は符号化ツールの選択にも用いることができる。例えば、エッヂの存在は、H.264/AVCビデオコーディング基準における指向性内部予測モデルの選択に、動き評価及び補償についての外部予測ブロック形式の選択に、サブピクセル動き評価単純化及びその他に用いることができる。
或る実施形態においては、テクスチャ情報及びエッヂ強度情報を重み付けして組み合わせて、ブロック、領域、又はフレームを、非常にテクスチャ化された、適度にテクスチャ化された、或いは滑らかとして分類することができる。他の及び/又はより細かい分類を用いることもできる。或る実施形態においては、ブロックの色、領域、又はフレームをこのような分類をなすのに用いることができる。
図7はビデオ特徴化システム700の概略図である。決定モジュール110に加えて、ビデオ特徴化システム700は、輝度/カラー解析モジュール705も含む。ビデオ特徴化システム500は、ビデオ情報115を受け取って、輝度/カラー解析モジュール705により生成された輝度/カラー情報710の集合体に基づいて場面分類125を生成する。
輝度/カラー解析モジュール705はビデオ情報処理デバイスであり、これはビデオ情報のフレームを特徴化する輝度/カラー情報710を生成する。輝度/カラー解析モジュール705は、機械読み取り可能な指令セットの論理に従ってビデオ情報を処理することができる。その機械読み取り可能な指令はハードウェア及び/又はソフトウェアに具現できることは明白である。例えば、輝度/カラー解析モジュール705は、輝度解析ソフトウェアの論理に従って作動するコンピュータに実施することができる。
輝度/カラー解析モジュール705は様々な異なる輝度/カラー情報710を生成することができる。例えば、或る実施形態においては、輝度/カラー情報710は、ブロック、領域、又はフレームの彩度及び輝度成分の平均値のパラメータを特徴化することができる。これらのパラメータは、例えばYUV及びRGBカラー平面としてカラー平面上に計算することができる。このようなパラメータの例は、輝度及び彩度成分の(個々のブロック又は領域についての)局所的な及び(個々のフレームについての)大局的な平均DC値、各ブロック又は領域の局所的変動、及び源フレーム全体の大局的変動を含む。
或る実施では、フレームは輝度/カラー情報に基づいて以下の何れかに分類できる。即ち、a)光輝、即ちフィルタリング又は圧縮に起因するアーチファクトを隠しそうなもの、b)暗、即ちフィルタリング又は圧縮に起因するアーチファクトを強調しそうなもの、又はc)標準、即ち平均輝度を有するものである。他の実施形態においては、フレーム又は領域の他の及び/又はより細かい分類を用いることができる。
図8はビデオ特徴化システム800の概略図である。図示のように、ビデオ特徴化システム800は、決定モジュール110のみならず、MEMCモジュール105、空間解析モジュール505、輝度/カラー解析モジュール705を含む。ビデオ特徴化システム800は、ビデオ情報115を受け取って、モジュール105、505、705によりそれぞれ生成された情報120、空間情報510、及び輝度/カラー情報710の集合体に基づいて場面分類125を生成する。
上述のように、決定モジュール110は機械読み取り可能指令セットの論理に従って情報を処理して、場面分類125を生成することができる。ビデオ特徴化システム800においては、決定モジュール110が情報120、510、710を統合して場面分類125を生成する。
図9は場面分類を生成するために使用することができるバッファ900の実施形態を概略的に示す。例えば、このバッファ900は決定モジュール110のようなシステムに用いられるFIFOバッファとすることができる。
バッファ900は、nref個のフレームを特徴化することができる情報905の集合体を含む。情報905は、一つ以上の情報120,510、710(図1,5,7,8)を包含することができる。バッファ900は、情報905により特徴付けられたnref個のフレーム内のndec。w。個のフレームの摺動決定ウィンドウ910も含む。摺動決定ウィンドウ910のndec。w。個のフレームは互いに値を求められている。摺動決定ウィンドウ910は、各ndec。w。個のフレーム毎にndec。w。個のフレームだけ処理を進めて、決定ウィンドウにおける場面分類はFIFOバッファにおけるnref個のフレームの検討から利点を得る。この評価は、場面の分類及び/又は摺動決定ウィンドウ910内のndec。w。個のフレームの複雑さの特性の分類を含むことができる。
バッファ900は、決定オフセット915(”doff”として示す)も含む。決定オフセット915は、バッファ900により既に受け取られているが、未だ摺動決定ウィンドウ910には入っていないフレームに亘る。従って、FIFOバッファに最後に加えられたフレームがフレームnref−1であるならば、決定ウィンドウ910は、フレームm−doff−ndec。w。+1乃至m−doffに亘ることになる。
或る実施形態においては、新たなフレームがビデオ源のフレーム・レートでバッファ900へ入る。他の実施形態においては、新たなフレームがビデオ源のフレーム・レートよりも低いレートでバッファ900へ入る。例えば、新たなフレームはビデオ源のフレーム・レートの二分の一でバッファへ入ることができるので、この場合のバッファ900内のフレーム0,1,及び2は、ビデオ源におけるフレーム0,2,及び4に対応する。或る実施形態では、フレームがバッファ900へ入るレートと、ビデオ源のフレーム・レートとの間の関係は可変とすることができる。或る実施形態では、フレームを低解像度でバッファ900に記憶して(且つ続いて処理して)オーバーヘッドの処理を低減させることができる。
図10は、場面分類を生成するための処理1000のフローチャートである。処理1000は、バッファ900(図9)のようなデータ記憶デバイスを用いるシステム100、500、700、800(図1、5、7、8)における決定モジュール110により実行することができる。
処理1000を実行するシステムは、フレームのシーケンスを特徴化する情報の集合体を受け取ることができる(1005)。或る実施形態においては、この受け取った情報は、一つ以上の動き評価情報、輝度/彩度情報、空間情報及び/又はそれらの混合体を包含することができる。例えば、この受け取った情報は、情報120、510、710のうちの一つ以上を包含することができる。この情報は、モジュール、例えばモジュール105、505,705のうちの一つ以上から受け取ることができる。
この受け取った情報に基づいて、処理1000を実行するシステムは、フレームのシーケンス内の場面変化を特定することができる(1010)。場面変化は、第1の場面の終端と第2の場面の開始との間の境界である。上述のように場面は特徴的特性を共有するフレームのシーケンスである。第2の変化において、これら特徴的特性の第1のセットはこれら特徴的特性の第2のセットへ移行することができる。
従って場面変化は、現在のフレームの一つ以上の特性と参照フレームの一つ以上の特性との間の相関関係に基づいて特定することができる。或る実施においては、相関関係の欠如は、現在のフレームと現在のフレームの動き補償された予測との間の予測誤差の大きさに基づいて決定することができる。
処理1000を実行するシステムは場面を分類することができる(1015)。場面は、以下で更に説明するように、場面におけるフレームの一つ以上の特性に基づいて分類できる。
処理1000を実行するシステムは利用可能な場面分類をなすことができる(1020)。場面分類は、ビデオ情報の集合体による場面の配列を説明する情報のみならず、ビデオ情報の集合体における異なる分類の名前又はその他の識別子を含むことができる。場面の配列は、例えば場面が出現するシーケンス及び/又はシーケンスについての開始及び停止時間により記述することができる。
場面変化
図11は場面変化を識別する処理1100のフローチャートである。処理1100は孤立して実行することができ、或いは処理1100は他の活性に関連して実行できる。例えば、処理1100は、処理1000を実行するシステムにより実行することができる(1010)(図10)。
処理1100を実行するシステムは現在のフレームについての予測誤差メトリックを受け取ることができる(1110)。予測誤差メトリックは、一つ以上の先行の又は後続の参照フレームのコンテンツから現在のフレームのコンテンツが如何にして良く予想できるかを体現している。この予想誤差メトリックは予想誤差から決定でき、これは源フレームの実際のコンテンツとそのフレームの予想コンテンツとの間の実際の差である。予想コンテンツは例えば一つ以上のブロックの運動、一つ以上のブロックのテキスチュア、一つ以上のブロックのテキスチュアの特性、一つ以上のブロックの照明及び/又は彩度、一つ以上のブロックの照明及び/又は彩度の特性、例えば、受け取った予想誤差メトリックは、一つ以上の計算値300,400(図3,4)を用いて決定された平均絶対差MADとすることができる。他の例として、受け取った予測誤差メトリックは、動き予測フレームと実際のフレームとの間の絶対差(SAD)の合計とすることができる。
処理1100を実行するシステムは現在のフレーム1115についての予測誤差メトリックを記憶することができる。現在のフレームについて記憶された予測誤差メトリックは場面変化を特定するための後続の処理に用いることができる。例えば、同一の先行フレームから異なるフレームn,n+1について計算されたSADは、例えば更に後述するようにフラッシュを含むフレームを認識する。
処理1100を実行するシステムは、現在のフレームについての予測誤差メトリックが閾値を越えていれば判定することができる(1120)。或る実施形態では、閾値はフレームのシーケンスについての平均予測誤差メトリックの二倍である。或る実施形態では、平均予測誤差メトリックが決定されるフレームのシーケンスは、現在のフレームに相関していないフレームを除外することができる。例えば、更に後述するように、フラッシュを含むものとして認識されたフレームは平均予測誤差メトリックの決定から除外することができる。他の例としては、クッロス・フェードに属するとして分類されたフレーム、或いは大きく異なる空間的(例えばテキスチュア)特性を有する場面に属するものとして分類されたフレームは除外することができる。
絶対差SAD(n)のブロックレベル合計の平均(又は和)は、フレームn内のブロックがフレームm内のブロックから予測できるときに、ブロックレベルSAD誤差の合計として計算することができる。イメージシーケンス内の最初のフレームがインデックスi=0としてインデックス付けされるならば、現在のフレームはインデックスi=kを有する。既に入力されている全てのフレームのシーケンスSADの平均値は式2により与えられる。
Figure 2011507314
(式2)

或る実施形態では、閾値はバッファ900(図9)におけるndec.w.フレームの摺動決定ウィンドウ910内のシーケンス内の先行フレームについての平均SADの二倍である。このような閾値を越える現在のフレームについての予測誤差メトリックの決定は式3で表される。
Figure 2011507314
(式3)
現在のフレームについてのシステム予測誤差エラーメトリックが閾値を越えると、システムは1125にて現在のフレームを場面変化として分類する。現在のフレームは、例えば、フラグ又は他のマーカをビデオ情報の集合体における現在のフレームへ加えることにより、及び/又は、フレーム番号、時間、及び/又は他の特定化特性によって場面変化フレームを特定する個別のデータ構造を確立することにより、場面変化として分類することができる。この分類は、人間であるユーザー又はデータ処理活動の他の集合体へ利用可能なようになすことができる。
処理1100を実行するシステムが、現在のフレームについての予測誤差メトリックは閾値を越えないと判定するならば、システムはブロック1130を通じて次のフレームへ進むことができる。
処理1100を実行するシステムは、更に予測誤差メトリックが利用可能である更なるフレームが存在するか否かも判定することができる(1135)。例えば、このシステムはバッファ900(図9)の摺動決定ウィンドウ910に更なるフレームが存在するか否かを判定することができる。処理1100を実行するシステムは、予測誤差メトリックが利用可能である更なるフレームが存在すると判定するならば、処理1100を実行するシステムはフレームインデックスを増大することができる(1140)。フレーム・インデックスの増加は現在のフレームを変化させて、このシステムは1110へ戻って(異なる)現在のフレームについての予測誤差メトリックを受け取ることができる。
図12は、場面変化を特定する他の処理1200のフローチャートである。処理1200は個別に実行することができ、或いは処理1200は他の他の活動に関連して実行することができる。例えば、処理1200は処理1000(図10)を実行するシステムにより実行することができる(1010)。
処理1200を実行するシステムは現在のフレームについての予測誤差メトリックを受けることができ(1210)、且つ現在のフレームについての予測誤差メトリックを記憶することができる(1215)。処理1200を実行するシステムは、現在のフレームについての予測誤差メトリックが短期閾値及び長期閾値の加重平均を越えたか否かを判定することができる(1220)。短期閾値は比較的に小数のフレームの特性に基づく閾値である。長期閾値は比較的に多数のフレームの特性に基づく閾値である。例えば、短期閾値は、60の先行フレームについての平均予測誤差メトリックに基づくことができ、一方、長期閾値は、200の先行フレームについての平均予測誤差メトリックに基づくことができる。
一つの実施形態では、予測誤差メトリックには短期閾値及び長期閾値が動き予測フレームと実際のフレームとの間の絶対差(SAD)の合計に基づいている。フレームは、現在のフレーム及び先行フレームについてのSADの絶対差が、比較的に多数の参照フレームに亘る平均SAD及び比較的に小数の参照フレームに亘る平均SADの加重平均よりも大きいならば、次式のように場面変化として分類できる。
Figure 2011507314
(式3)
式3に表現された状態は、短期と長期との両方の平均SAD閾値に基づく閾値を用いている。或る実施形態では、短期平均SAD閾値は、バッファ900(図9)の摺動決定ウィンドウ910におけるフレームを特徴化するSAD情報の集合体に基づいて計算することができ、次式により与えることができる。
Figure 2011507314
(式4)
或る実施形態では、長期平均SAD閾値は、全ての先行処理済みフレームについてのSADの平均となり、次式により与えられる。
Figure 2011507314
(式5)
或る実施形態では、直前の先行参照フレーム以外のフレームを使用することができる。例えば、SADi−l(i+l)予測誤差メトリック又は任意のSADi−n(i+n)予測誤差メトリック(但し、m≧l且つn≧l)は異なる場面におけるフレームを分類するために用いることができる。これらの予測誤差メトリックがSAD誤差に比べて大きく、ここでn≧m且つn≧0であるならば、フレームiは場面変化である傾向がより大きい。
処理1200を実行するシステムが、現在のフレームについての予測誤差メトリックが短期閾値及び長期閾値の加重平均を越えないと判定するならば、このシステムは、場面変化が現在のフレームには存在しないことを示すことができる(1225)。このシステムは、場面変化が積極的に存在しないことを(例えば、フラグ又はマーカーを現在のフレームに関連させることにより)指示するか、或いは(例えば、現在のフレームを場面変化を含むフレームの集合体へ加えることをなさないか、或いは場面変化を示すフラグ又は他のマーカーを有する現在のフレームを印付けることを省略することにより)省略することができる。このような指示は人間であるユーザー又は他のデータ処理活動の集合体へ利用可能になすことができる。
処理1200を実行するシステムが現在のフレームについての予測誤差メトリックが加重平均を越えると判定するならば、このシステムは現在のフレーム及び先行フレームについての予測誤差メトリックにおける差が所定の閾値を越えるか否かを決定することができる(1230)
。予測誤差メトリックは、動き予測フレームと予測のために用いられた参照フレームとの間のブロックレベル絶対差(SAD)合計とすることができる。例えば、或る実施形態では判定に基づいている予測誤差メトリックにおける差異は次式により与えられる。
Figure 2011507314
(式6)
一つの実施形態では、α=0.5,β=0.5,及びTmin=20である。予測誤差メトリック(式4に表示された如し)におけるこのような差異は、非常に低い活動性コンテンツにおいて積極的に誤検出することができる。
処理1200を実行するシステムが、現在のフレーム及び先行フレームの予測誤差メトリックにおける差異が所定の閾値を越えると判定するならば、このシステムは場面変化が存在することを1235にて示す。このシステムは場面変化が存在することを、例えば現在のフレームにフラグ又は他のマーカーを関連させるか、或いは現在のフレームを場面変化を含むフレームの集合体へ加えることにより表示することができる。処理1200を実行するシステムが現在のフレーム及び先行フレームの予測誤差メトリックにおける差異が所定の閾値を越えないと判定するならば、このシステムは場面変化が現在のフレームには存在しないことを表示する(1225)。何れの場合でも、この表示は人間であるユーザー又は他のデータ処理活動の集合体へ利用可能になすことができる。
現在のフレームにおける場面変化の有無の表示に関わらず、処理1200を実行するシステムは、現在のフレームの特性を考慮して長期及び短期閾値を更新することができる。例えば、長期及び短期閾値が特定数の先行参照フレームについての平均予測誤差メトリックに基づいているとき、長期及び短期式位置は現在のフレームの予測誤差メトリックを考慮して更新することができる。
処理1200を実行するシステムは更に、予測誤差メトリックが利用可能な更なるフレームが存在するか否かを判定することができる(1245)。例えば、このシステムは、更なるフレームがバッファ900(図9)の摺動決定ウィンドウ910内に存在するか否かを判定することができる。処理1200を実行するシステムが、予測誤差メトリックが利用可能である更なるフレームが存在すると判定するならば、処理1200を実行するシステムはフレーム・インデックスを増加することができる(1250)。フレーム・インデックスの増加は現在のフレームを変化させて、システムは1210へ戻って(異なる)現在のフレームについての予測誤差メトリックを受け取る。
或る実施形態では、ビデオ情報の更なる特性を場面変化を特定するために用いることができる。例えば、現在のフレームの特性を一つ以上の閾値と比較して場面変化を特定することができる。或る実施形態では、これらの閾値はフレームのシーケンスにおける他のフレームの特性に基づいている。以下の特性の少なくとも一つを用いることができる。
1.輝度及び彩度成分の局所的(ブロック毎)及び/又は大局的(フレーム毎)平均DC値。
2.各ブロックの局所的変動及び/又は源フレーム全体の大局的変動。
3.動き補償予測誤差メトリックの変動。場面変化に属するフレームは、異なる場面に属する先行フレームに比べると異なる予測誤差変動を持つことができる。
4.参照フレームについての優勢な動きベクトルと、平均動きベクトルと、動きベクトルの変動とのうちの少なくとも一つの大きさ。一般に、動き予測は、異なる場面に属する他のフレームから一つのフレームを正確に予測することはできない。これに代えて、異常に大きく、空間的に相関せず、空間的に一貫せず、時間的に相関せず、且つ時間的に一貫しない動きベクトルを場面変化特定に用いることができる。
5.一つ以上の参照フレームにおける輝度に基づいて現在のフレームにおける輝度を予測するために用いられる輝度変化パラメータ。このような輝度変化パラメータにおける(特に小さな領域内の)大きな不安定さは、場面変化を特定するのに用いることができる。
或る実施形態においては、処理1100,1200(図11,図12)を実行するシステムによる場面変化の識別は、場面変化の偽陽性識別を回避するために二重チェックすることができる。例えば、或る実施形態では、フレームiが場面変化として特定されているならば、以下の判定をなすことができる。
Figure 2011507314
(式7)
参照フレームi−1からの、及び参照フレームi―2からのSAD予測誤差メトリックの絶対差が、参照フレームi−1からSAD予測誤差メトリックの四番目よりも大きいならば、そのフレームは場面変化として考える必要は無い。このような二重チェックは、SAD予測誤差メトリックにおける一時的なスパイク(例えば、急激な運動又は対象閉塞)を場面変化として誤分類することを防止するのに役立てることができる。
或る実施形態においては、二重チェックは輝度の急激な変化を、場面変化としての分類から除外するように実行することができる。このような輝度変化は、例えばビデオ情報の一つ以上のフレームがフラッシュを含むときに生じる。輝度の急速な変化を除外する際には、システムは、疑わしい輝度変化に先行する一つ以上のフレーム及び疑わしい輝度変化に続くフレームに一つ以上の予測誤差メトリックを評価することができる。例えば、SADi−1(i+1)予測誤差メトリック又は他のSADi−m(i+n)予測誤差メトリック(但し、m≧1且つn≧1)を評価することができる。評価された予測誤差メトリックが、先行フレーム(これは望ましければ一つ以上の因子により重み付けすることができる)のSAD予測誤差メトリックに比べて比較的に小さいならば、これは場面変化ではなく、輝度の変化に起因すると考えることができる。対照的に、予測誤差メトリックがnを増大するために増大するのであれば、予測誤差メトリックは場面変化に起因すると考えることができる。
或る実施形態においては、場面変化はフレームのシーケンスにおける場面の識別及び/又は分類に基づいて黙視的に特定することができる。例えば、フェードイン及びクロスフェードは、しばしば場面変化に先行する。フェードイン場面、クロスフェード場面、その他の場面の検出は、更に後述するように、場面変化の特定に用いることができる。
図13は場面変化を特定する処理1300のフローチャートである。処理1300は個別に実行でき、また、この処理1300は他の活動と関連させて実行することができる。例えば、処理1300は、処理1000(図10)を実行するシステムにて実行することができる(1010)。他の例としては、処理1300は、以下に更に後述するように、一つ以上の処理1100、1200(図11、12)を含むことができる。
処理1300を実行するシステム、は一つ以上の処理1100,1200を1305にて実行することができる。処理1300を実行するシステムは、1305にて実行した処理が現在のフレームが場面変化であると特定したか否かを判定することができる(1310)。
処理1300を実行するシステムが、1305にて実行した処理が現在のフレームが場面変化であると特定されたことを識別するならば、処理1300を実行するシステムは、現在のフレームにおける動きが閉塞するか否かを判定することができる(1315)。運動閉塞は、一つ以上のブロックの運動がビデオ情報のシーケンスのフィールドから隠れたときに生じる。例えば、運動閉塞は、移動するブロックが不動のブロックの前方又は後方を通過するとき、或いは二つのブロックの経路が異なる動きベクトル交差を有するときに生じることができる。運動閉塞は、例えば、フレーム内の特定の領域が他の領域に比べて相当に大きな予測誤差により特徴付けられるか否かを検査することにより、特定することができる。
処理1300を実行するシステムが、1305にて実行された処理は、現在のフレームを場面変化として分類しないと認識するならば、処理1300を実行するシステムは、現在のフレームがフェードインの終端で生じたか否かを判定することができる(1320)。フェード場面は、先行フレームに比べたとき、フレームの平均輝度における相当に大きな変化により特徴付けることができる。これらの平均輝度における変化は、瞬間的なものではなく、場面変化におけるものである。むしろ、これらの平均輝度の変化は漸進的である。フェードインは場面の開始で生じると共に、一般に平均輝度の漸進的増大に関連する。フェードアウトは場面の終端で生じると共に、一般に平均輝度の漸進的減少に関連する。フェードインは、更に後述するように、処理1400(図14)を用いて特定することができる。
処理1300を実行するシステムが現在のフレームがフェードインの終端で生じないと判定するならば(1320)、システムは現在のフレームがフラッシュ又は他の輝度における急激な変化を含むか否かを判定することができる(1325)。フラッシュのような輝度の急激な変化は上述したような二重チェックの試みを用いて特定することができる。
1)処理1300を実行するシステムが、現在のフレームは輝度の急激な変化を含まないと判定するか(1325)、或いは、2)処理1300を実行するシステムが、現在のフレームにおける動きは閉塞ではないと判定する(1315)ならば、処理1300を実行するシステムは、場面変化は1330に存在すると示すことができる。このシステムは、例えば、フラグ又は他のマーカーを現在のフレームに関連付けることにより、或いは現在のフレームを場面変化を含むフレームの集合体へ加えることにより、場面変化が存在することを表示することができる。この表示は人間であるユーザー又は他のデータ処理活動の集合体へ利用可能なようになすことができる。
1)処理1300を実行するシステムは、現在のフレームがフェードインの終端では生じないと判定するか(1320)、又は2)処理1300を実行するシステムは、現在のフレームが輝度の急激な変化を含むと判定するか(1325)、或いは3)処理1300を実行するシステムは、場面変化が存在すると特定する(1330)ならば、処理1300を実行するシステムは、予測誤差メトリックが利用可能な更なるフレームが存在するか否かを判定することができる(1335)。例えば、このシステムはバッファ900(図9)に更なるフレームがあるか否かを判定することができる。処理1300を実行するシステムが、予測誤差メトリックが利用可能な更なるフレームがあると判定するならば、処理1300を実行するシステムは、フレームインデックスを増やす(1340)。フレームインデックスの増大は、現在のフレームを代えて、システムは1305へ戻ることができる。
フェード場面
上述したように、フェード場面は、先行フレームと比べたとき、現在のフレームの平均輝度の比較的に大きな漸進的変化により特徴付けられる。フェードイン及びフェードアウトへの分類に加えて、フェード場面は、フェードから黒/黒からフェード、フェードから白/白からフェード、及びフェードから無地/無地からフェードとしても分類することができる。また、クロスフェードは一つの場面から次の場面へのフェード遷移である。
時間的に広げられたフェード場面検出器は、比較的長い期間のフェードの遅い遷移を捕捉するのに用いることができる。或る実施形態においては、このような検出器は、更なるフレームを処理して、遅い遷移を捕捉することができる。このような処理はフェード場面の特定に遅延を導入することができる。或る実施形態においては、フェード場面検出器は小さなピクチュアウィンドウに跨って適用することができる。摺動ウィンドウフレームバッファについてのフレーム決定オフセットdoff>1は、このような遅延を解決するのに役立てることができる。重み係数はフェード場面の特定のためのオフセットよりも重要とすることができる。
一般に、フェード場面検出は以下を含むことができる。
− 輝度成分分析を用いる検出。N個の連続したピクチュアについて、輝度成分の平均(DC)は、増大又は低減の何れかを有する。輝度DCの変化は閾値を越える。DC差の絶対値が計算されるならば、この検出器は、フェードイン、フェードアウト、及びクロスフェードを識別することはできない。この検出器はフェードイン及びフェードアウト検出に良く適している。
− MEMCフレームワークモジュールを用いてブロック毎に計算された輝度変化パラメータ。輝度変化パラメータは重み及びオフセットを含むことができる。M優勢パラメータ対は、加重パラメータの二次元ヒストグラムを通じてピクチュアから抽出することができる。このような加重オフセット対は、これらがフェードの検出のための特定の基準を満足するか否かを判定することができる。或る実施形態においては、双予測運動評価は、このような遷移の検出の信頼性を改善することができる。
フェード場面検出は、直前の先行フレーム(n−1)又は何れかの先行フレーム(例えば、n−2)を参照する加重予測パラメータを用いて実施することができる。これと同じことは後続のフレームについても当てはまる。例えば、現在のフレームnはフェードインになると仮定する。過去の参照n−k(但し、k≧l)を用いて得られた加重パラメータは、同一の予測方向において一貫して減少するか一貫して増大する。これと同じことは更なる参照n+k(但し、k≧l)を用いて得られた加重パラメータについても当てはまる。これはフェードアウト及びクロスフェードについても当てはまる。特にフェードインについては、加重パラメータは過去における更なる参照について減少し、将来における更なる参照について増大する。フェードアウトについては、加重パラメータは過去において更なる参照について増大し、将来において更なる参照について減少する。クロスフェードについては、加重パラメータは、過去及び将来における更なる参照について増大する。
或る実施形態においてはに、フェードイン及びフェードアウトの検出は空間的変動に基づくこともできる。例えば、フェードアウトは、源変動減少を伴うフレームのシーケンスに基づいて検出することができる。他の例として、フェードインは源変動の増大を伴うフレームのシーケンスに基づいて検出することができる。
或る実施形態においては、フェード検出に用いられる輝度変化の重要性は、動き補償MAD予測誤差の重み付け予測を持つものと持たないものとの間の差異に基づいて決定することができる。
図14は、フェード場面を分類する処理1400のフローチャートである。処理1400は単独で実行でき、或いは処理1400は他の活動性に関連させて実行させてもよい。例えば、処理1400は、処理1000(図10)を実行するシステムにより実行することができる(1015)。
処理1400を実行するシステムは、現在のフレームにおける輝度の特性を受け取ることができる(1405)。現在のフレームにおける輝度の特性は、先行/及び又は後続のフレームにおける輝度の特性によって、受け取ることができる。例えば、輝度の特性はバッファ900(図9)へアクセスすることができる。
処理1400を実行するシステムは、現在のフレームが速いフェードの一部であるか否かを判定することができる(1410)。速いフェードは、フレームのシーケンスの平均輝度が比較的に迅速に変化するフェードである。或る実施形態では、速いフェードは、フレームのシーケンスに亘る輝度の変化の特性に基づいて特定することができる。
現在のフレームが速いフェードの一部であるか否かを判定するのに用いることができるそのような輝度の変化の一例は、現在のフレームについての輝度変化及び後続のフレームについての輝度変化が閾値を越えて、且つ同一の符号を有することを要求する。ここで例えば8ビットコンテンツを仮定し、DCluma(i)はフレームiについての輝度成分の平均DC値を示すとし、項t fast=1,t fast=1,t0,A slow=0,t1,A slow=0,t0,B slow=0,及びt1,B slow=0は六つの閾値を示すとする。フレームmのDC輝度変化ΔDClumaは、フレームmのDC輝度からフレームm−1のDC輝度を減じたものである。次式が成り立つならば、速いフェードを特定できる。
Figure 2011507314
(式8)
Figure 2011507314
(式9)

Figure 2011507314
(式10)

式10は、フレームmについての輝度変化とフレームm−1についての輝度変化が同一方向にある(即ち、両方のフレームが増大した輝度及び減少した輝度を有する)ことを確定する。
現在のフレームが速いフェードの一部であるか否かを判定するのに用いることができる輝度変化の他の例は、現在のフレームについてのDC輝度変化及び後続のフレームについてのDC輝度変化が閾値を越えて、且つ同一の符号を有することを要求する。例えば、次式が成り立つならば、速いフェードを特定できる。
Figure 2011507314
(式11)

Figure 2011507314
(式12)


Figure 2011507314
(式13)
式13は、フレームmについての輝度変化とフレームm−1についての輝度変化が同一方向にある(即ち、両方のフレームが増大した輝度及び減少した輝度を有する)ことを確定する。或る実施形態においてシステムは、式8,9,10の組又は式11,12,13の組が満足するならば、現在のフレームが速いフェードの一部であると判定することができる。
処理1400を実行するシステムが現在のフレームが速いフェードの一部であると判定するならば(1410)、システムはフェード場面が存在することを表示することができる(1415)。このシステムは、例えば、フラグ又は他のマーカーを現在のフレームに関連付けるか、或いは現在のフレームの識別子をフェード場面におけるフレームのフレーム識別子の集合体へ加えることにより、フェード場面が存在することを表示することができる。この表示は、人間であるユーザー又は他のデータ処理活動の集合体に利用可能なようになすことができる。
処理1400を実行するシステムが、現在のフレームが速いフェードの一部ではないと判定するならば(1410)、このシステムは、現在のフレームは、それに代えて遅いフェードの一部であるか否かを判定することができる(1420)。遅いフェードは、フレームのシーケンスの平均輝度が比較的に緩慢に変化するフェードである。或る実施形態では、遅いフェードは、フレームのシーケンスに亘る輝度の変化の特性に基づいて特定することができる。
現在のフレームが遅いフェードの一部であるか否かを判定するのに用いることができるそのような輝度の変化の一例は、三つ以上の連続的なフレームに亘る輝度変化が閾値を越えて、且つ同一の符号を有することを要求する。例えば、連続的フレームは現在のフレームn及びフレームn+1,n+2とすることができる。この場合、現在のフレームが遅いフェードの一部であるという陽性判定のための条件は、次式により与えられる。
Figure 2011507314
(式14)
Figure 2011507314
(式15)
Figure 2011507314
(式16)
Figure 2011507314
(式17)
Figure 2011507314
(式18)
式17及び18は、フレームn,n+1,n+2についての輝度変化が同一方向にある(即ち、全ての三つのフレームが増大する輝度又は減少する輝度を有する)ことを確定する。
他の例として、連続するフレームは、現在のフレームn及びフレームn−1,n−2とすることができる。この場合、現在のフレームが遅いフェードの一部であるという陽性判定のための条件は、次式により与えられる。
Figure 2011507314
(式19)
Figure 2011507314
(式20)
Figure 2011507314
(式21)
Figure 2011507314
(式22)
Figure 2011507314
(式23)
式22及び23は、フレームn,n−1,n−2についての輝度変化が同一方向にある(即ち、全ての三つのフレームが増大する輝度又は減少する輝度を有する)ことを確定する。
処理1400を実行するシステムが現在のフレームが遅いフェードの一部であると判定するならば(1420)、システムは、フェード場面が存在することを表示する(1415)と共に、続いて二重チェックへ進んで、フェードが存在するか否かを判定することができる(1425)。或る実施形態においては、システムが、現在のフレームは遅いフェードの一部ではない判定するならば(1420)、このシステムはフェードが存在するか否かを判定するように二重チェックをなすことができる(1425)。
処理1400を実行するシステムは現在のフレームはフェード場面に入っているか否かを判定することができる(1425)。この判定は、直前の先行フレームと直後の後続フレームとの両方におけるフェードの存在に基づいてなすことができる。例えば、既にフェードが直前の先行フレームi−1と直後の後続フレームi+1との両方に特定されているならば、フレームiはフェードを含むものとして判定することができる。
1425における二重チェックにおいてフェードが存在すると判定したか否かを問わず、処理1400を実行するシステムは、輝度情報が利用可能な付加的なフレームが存在するか否かを判定することができる(1435)。例えば、システムはバッファ900(図9)に付加的なフレームが存在するか否かを判定することができる。処理1400を実行するシステムが、輝度情報を利用可能な付加的なフレームが存在すると判定したならば、処理1400を実行するシステムは、フレーム・インデックスを増やすことができる(1440)。フレーム・インデックの増加は現在のフレームを代えるので、システムは1405へ戻ることができる。
或る実施形態においては、フェード場面を分類するシステムは、フェード場面をフェードイン、フェードアウト及び/又はクロスフェードとして分類することもできる。図15はフェードイン繊維の終端を識別するための処理1500のフローチャートである。処理1500は個別に実行することができ、或いは処理1500は他の活動と関連して実行することができる。例えば、処理1500は、更に後述するように、処理1400の実行を含むこともできる(1510)(図14)。
処理1500を実行するシステムは、現在のフレームの輝度の特徴化を受け取ることができる(1505)。現在のフレームの輝度の特徴化は、先行及び/又は後続のフレームの輝度の特徴化と共に受け取ることができる。例えば、輝度の特徴化はバッファ900(図9)にアクセスすることができる。
処理1500を実行するシステムは、現在のフレームがフェードの一部であるか否かを判定することができる(1510)。例えば、このシステムは処理1400(図14)を実行して現在のフレームがフェードの一部であるか否かを判定することができる。他の例として、このシステムは、フラグ又はフェードを特定する情報の集合体を検査して、現在のフレームがフェードの一部であるか否かを判定することができる。
処理1500を実行するシステムが現在のフレームがフェードの一部であると判定するならば(1510)、このシステムは現在のフレームについてのDC輝度変化が零よりも大きいか否かを判定することができる。(1515)現在のフレームについてのDC輝度変化の方向(即ち、増大又は減少DC輝度)はフェードインとフェードアウトとを区別する。
処理1500を実行するシステムが、現在のフレームについてのDC輝度変化が零よりも大きいと判定するならば(1515)、このシステムはカウンタCfade−inを増加させて(1520)、このカウンタ(これは零に初期化されている)が今や1に等しいか否かを判定することができる(1525)。換言すれば、このシステムは、カウンターが増加したのはこれが初めてか否かを判定する。処理1500を実行するシステムが、カウンタCfade−inは1に等しく、ちょうど今初めて増加したものと判定するならば(1525)、このシステムは、現在のフレームの輝度の変動を表す値を記憶することができる(1530)。これはフェードインの初期フレームの輝度成分の変動VARstart fade−in=var(i)を記憶する効果を有しており、ここでvar(i)は現在のフレームiの輝度成分の変動である。このシステムは、更に後述するように、輝度情報を利用可能な付加的なフレームが存在するか否かを判定するように進むことができる(1570)。
1)処理1500を実行するシステムは、現在のフレームがフェードの一部ではない判定するか(1510)、又は2)処理1500を実行するシステムは、現在のフレームについてのDC輝度変化が零よりも大きくないと判定するならば(1515)、処理1500を実行するシステムは現在のフレームが潜在的にフェードインの終端にあるか否かを判定することができる(1540)。或る一つの実施形態においては、システムは、カウンタCfade−inに基づいて現在のフレームが潜在的にフェードインの終端にあるか否かを判定することができる。例えばカウンタCfade−inが閾値数(例えば3)よりも大きく、現在のフレームのインデックスがカウンタCfade−inよりも大きいならば、このシステムは、現在のフレームは潜在的にフェードインの終端にあると判定することができる。
処理1500を実行するシステムが、現在のフレームは潜在的にフェードインの終端にあると判定するならば(1540)、このシステムは、現在のフレームはフェードインの終端とすることを適格とする厳格な条件の一つ以上を満たすか否かを判定することができる(1545)。厳格な条件の一例は、フェードインにおける初期フレームと潜在的にフェードインの終端にある現在のフレームとの間のDC輝度変化の大きさが閾値を越えることを要求する。例えば、或る実施形態では、現在のフレームiについてのDC輝度の差からフレームi−Cfade−inのDC輝度を減じたものが、
Figure 2011507314
よりも大きくなることを要求し、ここでbit_depthは、コンテンツの現在のビット_深さである。或る実施形態では、ビット_深さは8に等しい。以下、特に断らない限り、数値的な式位置は8ビット入力データビット_深さに対応する。
より厳格な条件の他の例は、現在のフレームの輝度の変動がフェードインの初期フレームの輝度の変動を越えることを要求する。例えば、或る実施形態においては、現在のフレームの輝度の変動は、フェードインにおける初期フレームの変動の1.5倍よりも大きいことが要求される。
より厳格な条件の他の例は、連続的な先行するフレームの集合体のうちの一つもカメラパンとして分類されないことを要求する。例えば、処理1600(図16)は、連続的な進行フレームがカメラパン場面の一部であるか否かを特定するために用いることができる。例えば、或る実施形態においては、現在のフレームがフェードインの終端として適するのであれば、先行する三つのフレームの一つもカメラパンの一部として分類することができない。
より厳格な条件の他の例は、連続的な後続のフレームの集合体の一つも場面変化として分類されないことが要求される。場面変化としてのフレームの分類は、例えば上述のように処理1100,1200,1300(図11,12,13)の一つ以上を用いて実行することができる。例えば、或る実施形態においては、現在のフレームがフェードインの終端として適格であるならば、後続の12フレームには場面変化として分類できるものは一つも無い。
或る実施形態では、現在のフレームがフェードインの終端として適格である判定は、これらの四つのより厳格な条件の全てが満足することを要求する。
処理1500を実行するシステムが現在のフレームが厳格な条件を満足してフェードインの終端として適格であると判定するならば(1545)、このシステムはフェード場面変化が存在することを表示することができる(1550)。このシステムに用いられる表記法に応じて、このシステムは、フェード場面変化が現在のフレームに又は現在のフレームの直前の先行フレームに存在することを表示することができる。何れの場合にも、このシステムはフェードイン場面変化が存在することを、例えばフラグ又は他のマーカーを直前の先行フレームに関連させるか、或いは識別子をフェード場面変化を含むフレームの識別子の集合体へ加えることにより表示することができる。この表示は人間であるユーザー又は他の実施形態においてはデータ処理活動の集合体に利用可能なようになすことができる。
現在のフレームがフェードイン場面変化としての適格であるか否かに関係なく、処理1500実行するシステムは現在のフレームがフェードインの終端として適格であるための一つ以上の最終条件を満たすか否かを判定することができる(1555)。最終条件の一つの例はフェードインにおける初期フレームのDC輝度が閾値未満であることを要求する。或る実施形態においては、この閾値は50である。
最終条件の他の例は、フェードインにおける最終フレームと初期フレームとのDC輝度の差閾値よりも大きいことを要求する。或る実施形態においては、この閾値は12である。
最終条件の他の例は、フェードインにおける最終フレームの輝度の変動がフェードインにおける最初のフレームの変動の数倍よりも大きいことが要求される。或る実施形態においては、この変動の倍数は1.5である。
或る実施形態においては、現在のフレームがフェードインの終端として適格であるための最終条件を満たすという判定は、これらの最終条件の三つ全てを満たさすことが要求される。
処理1500を実行するシステムは現在のフレームがフェードインの終端に潜在的に存在しないと判定するか(1540)、或いは、より厳格な条件を満たさないと判定する(ひいては何れの場合もフェードインの終端として適格でない)(1555)ならば、このシステムは、現在のフレームはフェードインの一部ではないことを表示することができる(1560)。このシステムは、現在のフレームがフェードインの一部ではないことを、例えばフラグ又は他のマーカーをビデオ情報の集合体における現在のフレームへ加えるか及び/又はフェードインを識別するデータ構造から現在のフレームの識別子を排除するかにより表示することができる。システムがフェードイン場面変化が存在すると識別した場合には(1550)、このような識別は消去するか逆転させることができる。この表示は人間であるユーザー又は他の実施形態においてはデータ処理活動の集合体に利用可能なようになすことができる。
或る実施形態においては、システムは先行Cfade−in−1フレームはフェードインの一部ではないことも表示することができる(1560)。例えば、先行フレームはフェードインの一部ではないことが既に表示されている先行フレームに関連付けられたフラグは、それらのフレームがフェードインの一部ではないことを明確にするように切り替えることができる。
処理1500を実行するシステムが現在のフレームがフェードインの終端としての最終条件を満足すると判定するならば(1555)、このシステムはカウンタCfade−inを零にリセットすることができる(1565)。処理1500を実行するシステムは輝度情報を利用可能な付加的なフレームが存在するか否かも判定することができる(1570)。例えば、このシステムは付加的なフレームがバッファ900(図9)に存在するか否かを判定することができる。処理1500を実行するシステムが輝度情報を利用可能な付加的なフレームが存在すると判定するならば、処理1500を実行するシステムは、フレーム・インデックスを増加させることができる(1575)。フレーム・インデックスを増加させることは、現在のフレームを代えるので、このシステムは1505へ戻ることができる。
或る実施形態においては、フェード場面をフェード場面として分類するシステムは、処理1500(図15)に似た処理を用いて操作することができる。フェード場面のフェードアウトとしての識別の一つの例外は、現在のフレームについてのDC輝度変化が零未満になることを要求することができる。従って、(処理1500(図15)の1515でなしたような)現在のフレームについてのDC輝度変化が零よりも大きいか否かの判定ではなく、フェード場面をフェードアウトとして分類するシステムは、現在のフレームについてのDC輝度変化が零未満か否かを判定することができる。
フェード場面のフェードアウトとしての分類とフェード場面のフェードインとしての分類との間の類似性についての他の例外は、フェードアウト場面変化として適格とするための更なる厳格な条件である。処理1500(図15)の1545で適用したより厳格な条件を用いるのではなく、フェード場面をフェードアウトとして分類するシステムは他の条件を用いることができる。
例えば、或る実施形態では、フェード場面をフェードアウトして分類するシステムは、フェードアウトにおける現在のフレームとフェードアウトにおける初期フレームとの間のDC輝度変化の大きさが閾値を越える条件を要求することができる。例えば、或る実施形態においてはフレームi−Cfade−inについてのDC輝度の差から現在のフレームiについてのDC輝度を減じたものが、
Figure 2011507314
よりも大きくなることを要求し、ここでbit_depthは、コンテンツの現在のビット_深さである。
より厳格な条件の他の例は、現在のフレームの輝度の変動がフェードアウトの初期フレームの輝度の変動よりも低いことを要求する。例えば、或る実施形態においては、現在のフレームの輝度の変動は、フェードアウトにおける初期フレームの変動の0.66倍よりも低いいことが要求される。
より厳格な条件の他の例は、連続的な先行するフレームの集合体のうちの一つもカメラパンとして分類されないことを要求する。例えば、処理1600(図16)は、連続的な進行フレームがカメラパン場面の一部であるか否かを特定するために用いることができる。例えば、或る実施形態においては、現在のフレームがフェードアウトの終端として適するのであれば、先行する三つのフレームの一つもカメラパンの一部として分類することができない。
より厳格な条件の他の例は、輝度変化パラメータを考慮した場合についてと輝度変化パラメータを考慮しない場合についてのSAD誤差予測の差異が、閾値よりも低いことを要求する。このようなSAD誤差予測はMEMCモジュール(例えばMEMCフレームワークモジュール105(図1))から受け取って、輝度情報に関連させてバッファ900(図9)などのメモリへ記憶させることができる。これらの輝度変化パラメータは、先行参照フレームから輝度及び/又は彩度を予測しようと試みるときに決定することができる。
或る実施形態では、現在のフレームがフェードアウト場面変化として適格であるとするためのより厳格な条件を満たす判定は、これらの四つのより厳格な条件の全てが満足することを要求する。
フェード場面のフェードアウトとしての分類と場面のフェードインとしての分類との間の類似性についての他の例外は、フェードアウトの終端として適格とするための最終条件である。処理1500(図15)の1555にて適用された最終条件を用いるのではなく、フェード場面をフェードアウトとして分類するシステムは他の最終条件を用いることができる。例えば、或る実施形態では、フェード場面をフェードアウトして分類するシステムは、フェードアウトにおける初期フレームのDC輝度が閾値よりも小さいことを要求することができる。例えば、或る実施形態においては、この閾値は、
Figure 2011507314
であり、ここでbit_depthは、コンテンツの現在のビット_深さである。
最終条件の他の例は、フェードアウトにおける最終フレームと初期フレームとの間の輝度DC差が、閾値よりも低いことである。或る実施形態においては、この閾値は、
Figure 2011507314
最終条件の他の例は、最終フレームの輝度の変動がフェードアウトの初期フレームの輝度の変動よりも低いことを要求する。例えば、或る実施形態においては、この変動の倍数は0.67倍である。
或る実施形態では、現在のフレームがフェードアウトの終端として適格であるとするための最終条件を満たす判定は、これらの三つの最終条件の全てが満足することを要求する。
或る実施形態においては、フェード場面をフェードイン又はフェードアウトとしての何れかに分類するシステムは、空間的情報に頼ることもできる。例えば、フェードアウトは、空間的変動の減少を伴うフレームのシーケンスの存在に少なくとも部分的に基づいて特定することができ、一方、フェードインは、空間的変動の増大を伴うフレームのシーケンスの存在に少なくとも部分的に基づいて特定することができる。
或る実施形態においては、加重予測/輝度変化パラメータ及び予測誤差メトリック(例えばSAD)の両方は、フェード場面を特定するの用いることができる。例えば、フレームn+1がフェードに属するならば、参照フレームnからフレームn+1を予測する加重予測パラメータWP(n+1)は、参照フレームn+1からフレームnを予測する加重予測パラメータWPn+1(n)からほぼ逆にならねばならない。例えば、一方向からの優勢輝度基準パラメータが0.2であるならば、他方向からの優勢輝度基準パラメータは約5.0にならねばならない。識別は、相殺するパラメータについての同様な観察に基づくこともできる。更に、同一の予測方向におけるSADのような予測誤差メトリックは比較的に近接せねばならない。このシステムは、このようにフレームn+1を参照するフレームnについての加重予測パラメータ及び同一の動きベクトルについての予測誤差メトリックを、フレームnを参照するフレームn+1についての加重予測パラメータ及び同一の加重予測パラメータについての予測誤差メトリックと比較することにより、フェード場面を特定することができる。これらの加重予測パラメータ及び予測誤差メトリックがフェードの指標ではないならば、現在のフレームはフェードの一部としての特定から除外することができる。
カメラパン場面
一般に、カメラパン場面はビデオ情報の集合体におけるフィールドの走査により特徴付けられる。そのフィールドは、水平に、斜めに、又は垂直に走査することができる。パンニング(panning)とは、フィールドの走査に代表的に用いられているビデオカメラの回転又は他の運動を意味する。一般にカメラパンは、連続的なフレームの比較的に大きな数(例えば、5−10を越える)に亘って生じる。
或る実施形態においては、カメラパン場面の特定、連続的フレームの集合体の以下の特性の一つ以上に基づくことができる。例えば、カメラパン場面は、同一の一般的方向を有して閾値を越える運動パラメータによって特徴付けられる連続的フレームの集合体に基づいて特定することができる。このような運動パラメータは運動評価技術、例えばMEMCフレムワークモジュール105(図1)などのMEMCモジュールにより実行されたものを通じて得ることができる。或る実施形態では、他の運動評価技術、例えばピクセル再帰アルゴリズム、位相相関、及びその他を用いることができる。
他の例としては、カメラパン場面は、現在のフレームと他のフレームの組との間の運動関係に基づいて特定することができる。このような運動関係は、単独のブロック、一つ以上のブロック領域、又はフレーム全体を用いて導くことができる。特に、時間的予測距離(即ちフレーム・インデックスの差異)が増大するにつれて増大する大きさを有する同一の一般的方向における異なる参照ピクチュア点に動きベクトルが関連するならば、カメラパン場面を特定することができる。参照ピクチュアは、現在のピクチュアに先行するピクチュア又は後続するピクチュアの何れかであって、しかも現在のピクチュアに直ちに隣接しないピクチュアとすることができる。先行と後続との両方の参照ピクチュアが用いられるならば、運動の方向を説明することができる。
他の実施形態においては、カメラパン場面はアファイングローバルパラメータ(これは多重参照フレームからの遷移運動パラメータから導出できる)に基づいて識別することができる。
他の例としては、上述したカメラパン場面を特定する方法の少なくとも一つは場面の特性を考慮して変更することができる。特に、カメラパン期間中カメラの運動は、フィールドの外側にあった新たなブロックを漸進的にさらけだす。これらの新たなブロックは、カメラパン特定の使用から除外することができる。これらのブロックを特定するためには、フレーム内の全ての動きベクトルを判定することができる。新たなブロックに関連した動きベクトルのサブセットは、例えば、フレームの端部におけるブロックについての動きベクトルと、フレームの中間部におけるブロックについての動きベクトルとの間の関連性の検査に基づいて決定することができる。このような相関関係は、異なるブロック及び/又は運動パラメータの方向及び大きさに基づいて決めることができる。
図16は処理1600がカメラ・パンを分類する1600のフローチャートである。処理1600は個別に実行することがで、又は他の活動とともに実行することができる。例えば、処理1600は処理1000(図10)を実行するシステムにより実行することができる(1015)。他の例としては、処理1600は、処理1500(図15)における1545にて実行することができる。
処理1600を実行するシステムは、現在のフレームと現在のフレームに近隣のフレームとにおけるブロックの運動を特徴付ける動きベクトルを受け取ることができる。近隣フレームは現在のフレームに先行又は後行してもよいが、現在のフレームに直接隣接する必要はない動きベクトルは、バッファ900などのメモリをアクセスすることにより受け取ることができる。動きベクトルはMEMCモジュール、例えばMEMCフレームワークモジュール105(図1)により決定することができる。
処理1600を実行するシステムは現在のフレーム及びその近隣のフレームについての代表的な動きベクトルを決定することができる(1610)。代表的な動きベクトルはフレーム内の運動の特徴を表している。例えば、或る実施形態においては、代表的な動きベクトルは、フレーム内のブロックについての並進動きベクトルの二次元のヒストグラムを作成し、そのヒストグラム中に(ヒストグラムのモードで)最も頻繁に表れる並進動きベクトルを代表的な動きベクトルとして選択することができる。他の例としては、或る実施形態においては、代表的な動きベクトルを、フレームの領域の動きベクトルの平均水平及び/又は平均垂直成分を具体化する平均動きベクトルとすることができる。
或る実施形態においては、代表的な動きベクトルを決定するのに用いられた動きベクトルは、MEMCモジュールにより与えられた動きベクトルのサブセットから引き出すことができる。例えば、サブセットは、動きベクトルの源セットの閾値化、量子化、二段抽出、境界値及び/又は外れ値の排除、又は空間的−時間的フィルタリングを通じて得ることができる。
処理1600を実行するシステムは現在のフレーム及びその近隣のフレームについての代表的な動きベクトルの水平成分が閾値を越えるか否かを判定し(1615)、このシステムは現在のフレームを水平カメラパンとして分類する(1620)。このシステムは、例えばフラグ又は他のマーカーをビデオ情報の集合体における現在のフレームへ加えるか、及び/又は現在のフレームの識別子を水平カメラパンを特定するデータ構造へ加えることにより、現在のフレームを水平カメラパンとして分類することができる。
システムが、現在のフレーム及びその近隣フレームについての代表的な動きベクトルの水平成分が閾値を越えることを判定するならば、システムは現在のフレーム及びその近隣のフレームについての代表的な動きベクトルの垂直成分が閾値を越えるか否かを判定する(1625)。システムが、現在のフレーム及びその近隣フレームについての代表的な動きベクトルの垂直成分が閾値を越えると判定したならば、このシステムは現在のフレームを垂直カメラパンとして分類する(1630)。このシステムは、例えばフラグ又は他のマーカーをビデオ情報の集合体の現在のフレームへ加えるか及び/又は現在のフレームの識別子を垂直カメラパン特定するデータ構造へ加える。
水平又は垂直カメラパンとしての現在のフレームの分類は以下の擬似コードで記述することができ、ここでDMAi−j(i,x)は、参照フレームrefからのフレームiについての代表的な動きベクトルの水平成分を示し、tpanは閾値を示す。
Figure 2011507314
或る実施形態においては、閾値tpanは、例えば4分の1ピクセル単位で10とすることができる。
処理1600を実行するシステムは、動きベクトルが利用可能な付加的なフレームが存在するか否かも判定することができ(1635)、存在するのであれば、フレームインデックスを増加する(1640)。フレームインデックスの増大は現在のフレームを代えて、システムは1605へ戻ることができる。
或る実施形態においては、例えばアファインのような高度の運動モデルを使用でき、及び/又は他のものについての代表的な動きベクトル及び/又は付加的なフレームを使用できる。例えば、遠いフレーム(i−k、ここでk≧l)からの動きベクトルは、比較的に遅いカメラパンに関連して僅かな動きを正確に識別できる。これらの実施形態の何れかにおいて、閾値はフレームの間の増大した距離を反映して変更することができる。更に、付加的な先行及び/又は後続の参照フレームからの運動パラメータの間の相関関係は、現在のフレームをカメラパンとして分類するのに用いることができる。

カメラズーム画面
一般に、カメラズーム画面はビデオ情報の集合体におけるフィールドの倍率の変化により特徴付けられる。フィールドはズーム又はズームアウトすることができる。或る実施形態においては、カメラズーム場面は、アフィン運動モデルを用いて識別することができる。
図17はカメラズーム場面を特定するための処理1700のフローチャートである。処理1700は個別に実行することもでき、或いは処理1700を他の活動と関連させて実行することもできる。例えば、処理1700は、処理1000(図10)を実行するシステムにより実行することができる(1015)。
処理1700を実行するシステムは、現在のフレームと二つ以上の近隣のフレームとにおけるブロックの運動を特徴付ける動きベクトルを受け取ることができる(1705)。近隣フレームは現在のフレームに対して先行しても後続してもよく、現在のフレームに対して直接に隣接する必要はない。動きベクトルはバッファ900(図9)などのメモリにアクセスすることができる。動きベクトルはMEMCモジュール、例えばMEMCフレームワークモジュール105(図1)により判定できる。
処理1700を実行するシステムは、現在の及び近隣のフレームにおける相関するブロックについての動きベクトルを識別することができる(1710)。処理1700を実行するシステムは、全ての若しくは殆どの動きベクトルの平均的大きさが比較的に小さいか否かも判定することができる(1715)。原理的に、ズームシーケンスが存在するならば、ピクセルがイメージの中心から開始する全ての方向に移動するように予期されており、ピクセルについての移動距離は概ね等しく、これは中心から等距離である。運動の方向はズーム方向であることを強く示唆している(即ち、ズームイン又はズームアウト)。平均的な大きさは、動きベクトルの水平及び垂直成分の平均的大きさを計算して、これらの成分が零に近ければ、平均的な大きさは比較的に小さいと判定することができる。
処理1700を実行するシステムが、特定されたブロック動きベクトルの平均的大きさが比較的に小さいと判定するならば、このシステムは、配列されたブロックの動きベクトルが相関しているか否かも判定する(1720)。これらの動きベクトルは、概ね同一方向を指向しているときに相関している。
処理1700を実行するシステムが、配列されたブロック内の動きベクトルが相関している(即ち、同様な方向に指向している)と判定するならば、このシステムは、配列したブロックについての動きベクトルの大きさの変化が連続的か否かも判定する(1725)。大きさの連続的な変化は、現在のフレームと参照フレームとの間の時間的距離(又はフレームインデックスの差)の大きさが増大するにつれて、非均一に増大又は非均一に減少するときに生じる。或る実施形態においては、処理1700を実行するシステムは、配列したブロックについての動きベクトルの大きさの変化が、配列したブロックの動きベクトルの絶対値の大きさの合計を用いて連続的か否かを判定することができる。
処理1700を実行するシステムが、配列されたブロックについての動きベクトルの大きさにおける変化が連続的であると判定するならば、このシステムは現在のフレームをズーム場面の一部として分類することができる(1730)。現在のフレームは以下のようにしてズーム場面として識別できる。これは例えば、フラグ又は他のマーカーをビデオ情報の集合体における現在のフレームへ加えるか、及び/又は現在のフレームをフレーム番号、時間及び/又は他の識別特徴により、ズーム場面として識別する個別のデータ構造を確立するかによる。この識別は人間であるユーザー又は他のデータ処理活動の集合体に利用可能になすことができる。
処理1700を実行するシステムは、動きベクトルを利用可能な付加的なフレームが存在するか否かを判定し(1735)、そうであるならば、フレームインデックスを増加させる(1740)。フレームインデックスの増加は現在のフレームを代えて、システムは1705へ戻ることができる。
図18はカメラズーム場面を識別するための他の処理1800のフローチャートである。処理1800は個別に実行することもでき、或いは処理1800は他の実施の形態では、活動と関連して実行することもできる。例えば、処理1800は処理1000〔図10)を実行するシステムにより実行することができる(1015)。他の例としては、処理1800は処理1700’図17)と関連して実行してカメラズーム場面が正しく識別されることを保証する。
処理1800を実行するシステムは現在のフレームにおいて、先行する参照フレームにおいて、及び後続の参照フレームにおいて、ブロックの運動を特徴付ける動きベクトルを受け取ることができる(1805)。動きベクトルは、バッファ900(図9)などのメモリへアクセスできる。動きベクトルはMEMCフレームワークモジュール105(図1)などのMEMCモジュールにより判定することができる。
処理1800を実行するシステムは、それらのフレームのエッヂに位置する配列されたブロックについての動きベクトルを識別する(1810)。
処理1800を実行するシステムは、先行及び後続参照フレーム点を参照する動きベクトルの方向が反対方向にあるか否かを判定することができる(1815)。換言すれば、現在のフレームのエッヂにおけるブロックは、ズームインの間、先行フレームの内側及び後続フレームの外側にある。しかしながら、同心配置と見なすと、全部で三つのフレームにおけるブロックは、三つのフレームの中心を過去のフレームの前記ブロックと結ぶ仮想線に置かれる。同様に、現在のフレームのエッヂにおけるブロックは、ズームアウト期間中に、先行フレームの外側に、及び後続フレームの内側にある。従って先行の及び後続の参照フレームを参照する動きベクトルは、ズーム場面中は反対方向へ指向している。
処理1800を実行するシステムは、先行及び後続参照フレームからの動きベクトルが反対方向に指向して射ると判定するならば、このシステムは、現在のフレームをズーム場面の一部として分類することができる(1820)。現在のフレームは例えば以下のようにしてズーム場面として分類できる。即ち、フラグ又は他のマーカーをビデオ情報の集合体における現在のフレームへ加えるか、及び・又は、現在のフレームをフレーム番号、時間、及び/又は他の識別特性文字により現在のフレームをズーム場面として識別する個別のデータ構造を確立することである。この識別は人間であるユーザー又はデータ処理活動の集合体に利用できるようになすことができる。
処理1800を実行するシステムは、動きベクトルが利用可能である付加的なフレームが存在するか否かを判別し(1825)、そうであるならば、フレームインデックス1830を増加させる。フレームインデックスの増加は現在のフレームを代えるので、システムは1805へ戻ることができる。
他の実施の形態では、実施形態においては、システムはカメラズーム場面をアファイン運動パラメータの係数に基づいて特定することができる。特に、システムはブロックレベル運動パラメータ)例えばMEMCフレームワークモジュール105により与えられたもの)をアファイングローバル運動パラメータに変換する。これらのアファイングローバル運動パラメータの係数はカメラスーム場面を特定するように解析することができる。
或る実施形態においては、動きベクトルと予測誤差メトリック、例えばSADはカメラズーム場面を特定するのに用いることができる。例えば、図19に示すように、MEMCモジュール(例えばMEMCフレームワークモジュール105)は二つ以上の先行フレーム及び二つ以上の後続フレームを予測参照として用いることができる。
フレームn+1がズームに属するならば、参照フレームnからフレームn+1を予測する動きベクトルは、参照フレームn+1からフレームnを予測する動きベクトルから概ね逆にならねばならない。例えば、一方の動きベクトルが0.2であるならば、他方の動きベクトルは約5.0にならねばならない。更に、同一の予測方向における予測誤差メトリック、例えばSADは比較的に近接せねばならない。従って、このシステムは次のようにカメラズーム画面を特定することができる。即ち、フレームn+kを参照するフレームnについての動きベクトル、及び同一の動きベクトルについての予測誤差メトリックを、フレームnを参照するフレームn+kについての動きベクトル及び同一の動きベクトルについての予測誤差メトリックと比較することである。これらの動きベクトル及び予測誤差メトリックがカメラズーム画面の指標ではないならば、現在のフレームはカメラズーム画面としての特定から除外することができる。
回転場面
一般に、回転場面はフィールドが回転する場面である。回転場面は、ズーム場面を特徴付けるために用いられた処理と同様な処理を用いて分類することができる。上述の特性に代えて、回転場面は、回転中心からの等距離に匹敵する動きベクトルの大きさ及び回転中心の周りの円を規定するように変える動きベクトルの方向に基づいて特徴付けることができる。
静止場面
一般に、静止場面は、ビデオ情報の集合体におけるフィールドの変化が僅かであるか若しくは全くないことにより特徴付けられる。従って静止場面は、例えば一つ以上の閾値を下回る動きベクトル及び/又は予測誤差メトリックの大きさにより特定することができる。閾値は動きベクトルの平均的な大きさ及びビデオ情報の集合体についての予測誤差メトリックを下回ることができる。
能動場面
一般に、能動場面はビデオ情報の集合体におけるフィールドの多数の又は大きな変化により特徴付けられる。能動場面は例えば一つ以上の閾値を超える予測動きベクトル及び/又は誤差メトリックの大きさに基づいて特定することができる。或る実施形態においては、動きベクトルのヒストグラムを組み立てて、ヒストグラムのピークを選択することができる。このようなヒストグラムを用いて、多数の対象の運動は、比較できるブロック構成要素を有する多数のピークの存在に基づいて特定することができる。多くの場合、閾値はビデオ情報の集合体についての動きベクトル及び予測誤差メトリックの平均的な大きさを越えることができる。
フラッシュ場面
一般に、フラッシュ場面は、輝度の相当な増加が生じた一つ以上のフレームである。フラッシュ場面におけるフレームは以下にに基づいて検出することができる。即ち、短期間又は長期間閾値に対する大きな予測誤差、加重予測を有する予測誤差と予測を有さないものとの間の大きな差、及び/又はフレームn−kとn+mとの間の低予測誤差であり、ここでk>0及びm>0はフラッシュ場面の一部である。

フレーム領域分割
通常、フレーム領域の分割は、共通の特性を有するフレームのシーケンスにおける領域を特定する処理である。或る実施形態においては、異なるフレームにおける領域は,異なる領域における動きベクトルの相似性に基づいて特定することができる。例えば、K平均アルゴリズムは領域の数と大きさを特定するために用いることができる。或る実施形態では、フレーム領域の分割は以下の一つ以上に基づいて領域を特定することができる。即ち(a)領域についての動き補償予測誤差メトリック、(b)輝度及び彩度DC並びに可変な値、(c)領域についての領域源変動、(d)テキスチュア及び周波数解析を含む領域の空間的特性、(e)他のフレームからの領域分類(即ち、回復)である。
或る実施形態においては特定された領域は、その領域の例えば複雑性又は重要性を特徴付けるメトリックにより標識付けすることができる。このようなメトリックは領域の可視的な重要度を表すことができ、領域の運動、テキスチュア及び輝度特性に基づくことができる。例えば、或る実施形態においては、各領域は、一つ以上のメトリックを伴うことができ、このメトリックスは、最も優勢なN動きベクトル、平均輝度及び/又は彩度DC値、領域全体のテキスチュアの特性、その変動、変換係数のエネルギ、その多を特徴付けることができる。例えば、Nは1に等しい。
図20はビデオフィンガープリンティングシステム2000の概略図を示す。ビデオフィンガープリンティングシステム2000は、決定モジュール110及びビデオフィンガープリンティングモジュール2005を含む。決定モジュール110はシステム100、500,700,800(図1,5,7,8)の何れかの部分をなすことができ、ビデオ情報から場面分類125を生成する。ビデオフィンガープリンティングモジュール2005は決定モジュール110から場面分類125を受け取って、ビデオフィンガープリント1010を生成することができる。
一般に、ビデオフィンガプリンティングは、非視覚的場面のビデオ情報を特徴化する処理である。例えば、ビデオ情報の集合体の可視的な特徴(例えば、可視的パラメータの変動、運動、場面遷移、並びに時間的及び空間的補正)は言語を用いて説明することができる。ビデオフィンガプリンティングは、多くの異なる目的、例えば、検索及び導出、透かし入れ、オーディオ−ビデオ同期、及びコンテンツ分類、並びに著作物の特定化のための特徴付け、及び/又は目標の広告のビデオ情報の集合体への挿入を達成するために適用することができる。
図21はビデオフィンガープリンティングのための処理2100のフローチャートである。処理2100は一つ以上のデータ処理でバイスにより実行することができる。例えば、処理2100は、システム2000(図20)内のビデオフィンガープリンティングモジュール2005により実行することができる。処理2100は個別に実行することができ、処理2100は他の活動と関連して実行することができる。例えば、処理2100は処理1000(図10)の実行の後に実行することができる。
処理2100を実行するシステムは場面分類を受け取ることができる(2015)。例えば、このシステムは、ビデオ情報の源集合体における分類された場面の配列のみならず、一つ以上の場面の分類を特定する情報を受け取ることができる。場面の例示的な分類は、場面変化、カメラズーム、クロスフェード、フェードイン、フェードアウト、フラッシュ場面、高度な運動、活性セグメント、低運動、静止セグメント、テクスチャ分類、並びにブロックの数及びと大きさの分類を含む。
或る実施形態においては、場面分類は、源ビデオ情報を特徴付ける他の情報と関連させて受け取ることができる。例えば、場面分類は、以下の一つ以上を特徴付けるパラメータに関連して受け取ることができる。
(a)輝度及び彩度成分のDC又は変動
(b)一つ以上のエッヂフィルタリング技術(例えばSobe)を通じて得られたエッヂの大きさ及び向き情報
(c)ビデオ情報における周波数の特性、例えば一つ以上の変換の係数
(d)平均且つ優勢局所的及び広域動きベクトルであり、動きベクトルのフィルター化集合体、動きベクトルの量子化された集合体、又は異常値が取り除かれた動きベクトルの集合体
e)平均及び優勢局所的及び広域加重予測パラメータ、これは、加重予測パラメータのフィルタリングされた集合体、加重予測パラメータの量子化された集合体、或いは異常値を除外された加重予測パラメータの集合体を含む。
f)変換係数のエネルギ、これはウェーブレット、DCT、又はフーリエ変換係数を含む。
g)初期状態と動き補償予測との間の相関関係を反映する相関関係係数。
h)源ビデオ情報におけるフレームの空間的次元と数。
i)動き補償からの予測誤差メトリック。
j)一つ以上の参照フレームを用いる動き補償からの予測誤差メトリックの組み合わせの間の差異。及び/又は
k)広域運動モデルパラメータ。
処理2100を実行するシステムは場面分類をビデオフィンガープリントへ集めて(2110)、ビデオフィンガープリントを源ビデオ情報へ関連させることができる(2115)。一つの例としては、このシステムは、ビデオフィンガープリントを源ビデオ情報の名称又は他の識別子により標識付けることにより、ビデオフィンガープリントを源ビデオ情報へ関連付けることができる。他の例としては、このシステムは、ビデオフィンガープリントを源ビデオ情報と共に記憶させることにより、ビデオフィンガープリントを源ビデオ情報へ関連付けることができる。或る実施形態では、源ビデオ情報は圧縮フォーマットで記憶することができる。例えば、ビデオフィンガープリントは、MPEG−7XMLに基づくディスクリプターフォーマットを用いて源ビデオ情報と平行に記憶することができる。或る実施形態では、源ビデオ情報を特徴付ける一部又は全ての情報は、ビデオフィンガープリントへ含めることができる。
図22はビデオコーディングシステム2200の概略図である。ビデオコーディングシステム2200は決定モジュール110及びビデオコーディングモジュール2205を含む。決定モジュール110は、システム100,500,700,800(図1,図5,図7,図8)の何れかの一部として、ビデオ情報から場面分類を生成することができる。ビデオコーディングモジュール2205は決定モジュール110から場面分類125を受け取って符号化されたビデオ情報2210を生成することができる。更に、或る実施形態によれば、ビデオコーディングモジュール2205は決定モジュール110へフィードバック2215を与えて、場面分類125を支援することができる。
一般に,ビデオコーディングは目的のためにビデオ情報をフォーマットする処理である。たとえば、ビデオ情報はビデオコーディングを用いて記憶及び/又は転送のためにフォーマットすることができる。帯域幅及び/又は記憶スペースが制限されている状況では、ビデオコーディングはビデオ情報を転送及び/又は記憶のために圧縮することができる。ビデオコーディングのための技術の例は、Moving Picture Experts Group(MPEG)規格、例えばMPEG―2,MPEG−4AVC/H.264、及びMPEG−4SP/ASPをも含み、他のコーデック及び規格、例えばVC−1,On−2‘sVP6及びAVSのみではない。
図23−32はビデオコーディングのための処理2300,2400,2500,2600,2700,2800,2900,3000、3100,3200のフローチャートである。処理2300,2400,2500,2600,2700,2800,2900,3000、3100,3200の一つ以上は一つ以上のデータ処理デバイスにより実行することができる。例えば処理2300,2400,2500,2600,2700,2800,2900,3000、3100,3200の一つ以上は、システム2200(図22)におけるビデオコーディングモジュールにより実行することができる。処理2300,2400,2500,2600,2700,2802300,2400,2500,2600,2700,2800,2900,3000、3100,3200は個別に実行することができ、或いは処理2300,2400,2500,2600,2700,2802300,2400,2500,2600,2700,2800,2900,3000、3100,3200は互いに及び/又は他の活動と関連させて実行することができる。例えば、処理2300,2400,2500,2600,2700,2802300,2400,2500,2600,2700,2800,2900,3000、3100,3200の一つ以上は、処理1000(図10)を実行する後に実行することができる
図23は場面変化のビデオコーディングに関係する処理2300のフローチャートである。処理2300を実行するシステムは、フレームのシーケンスを受け取って、それらのフレームの分類をなし(2305)、フレームのシーケンス及びそれらのフレームの分類をなす。フレームのシーケンス及びそれらの分類は、決定モジュール110のような決定モジュールから受け取ることができる。或る実施形態では、分類はフラッグ又は他のマーカーをフレーム自体へ例えばヘッダーとして関連させる。他の実施形態では、分類は個別のデータ構造に記憶され、これはインデックス番号、時間その他によりフレームを識別する。
処理2300を実行するシステムは、フレームのシーケンスにおける一つ以上のフレームが場面変化として分類できるか否かを判定する(2310)。システムが一つ以上のフレームを場面変化として分類するならば、処理2300を実行するシステムは、これらのフレームを内部は符号化ピクチャとしての場面変化として分類し(2315)、シーケンスにおける他のフレームを参照することを避ける。内部符号化ピクチャは、他の先行符号化フレームを参照することなく複合化することができる。例えば、内部フレーム及びIDRフレーム(H.264/AVCにおける)は内部符号化フレームである。
処理2300を実行するシステムは、長期参照フレームとして一つ以上の場面変化も選択的に記憶することができる(2320)。長期参照フレームは他のフレームの動き補償予測のための参照として用いられるフレームであり、除去すべき明確な指示に基づく場合を除いては、参照バッファから除去されることはない。
図24は場面変化のビデオコーディングに関係する他の処理2400のフローチャートである。処理2400を実行するシステムは、フレームのシーケンスを受け取って、これらのフレームを分類し(2305)、フレームのシーケンスにおける一つ以上のフレームが場面変化として分類できるか否かを判定する(2310)。このシステムが一つ以上のフレームを場面変化として分類するならば、処理2400を実行するシステムは、一つ以上の近隣の最も優先レベルが高いフレームを内部符号化フレームとして分類することを確実にする(2405)。これに関連して、或るビデオコーダーは、他のフレームよりも高い優先レベルにおける特定のフレームを符号化する。例えば階層符号化構造は、特定のフレームを他のフレームよりも高い優先レベルにて符号化する。
処理2400を実行するシステムは、最高の優先レベルにて符号化すべき後続の近隣フレームを特定すると共に、このフレームが内部符号化ピクチャとして好ましく符号化されたことを保証する。これは近隣の場面変化における最高の優先フレームが内部符号化されたことを保証する。
図25はフェードイン遷移のビデオコーディングに関する他の処理2500のフローチャートである。処理2500を実行するシステムは、フレームのシーケンス及びこれらのフレームの分類を受け取り(2305)、フレームのシーケンスにおける一つ以上のフェードイン遷移を特定する(2505)。フェードイン遷移は、シーケンス内のフレームの受け取った分類を用いて特定することができる。処理2500を実行するシステムは、特定されたフェードイン遷移に属するフレームを符号化するビットの割り当てを増加させることができる(2510)。このビットは、特定されたフェードイン遷移についてのレート割り当てを変更することにより割り当てることができる。これは特に、輝度変化補償がビデオエンコーダーに利用可能でないときに有益である。
処理2500を実行するシステムは、フェードイン遷移の開始及び終了フレームを特定及び符号化することもできる(2515)。この開始及び終了フレームは、フレームのシーケンスの受け取った分類から特定することができる。処理2500を実行するシステムは、開始フレームと終了フレームとの一方又は両方を参照して、フェードイン遷移の内部フレーム(即ち、開始フレームと終了フレームとの間のフレーム)を符号化することができる(2520)。或る実施形態においては、双予測が用いられる(即ち、内部フレームが開始及び終了フレームの両方を参照して符号化される)。
処理2500を実行するシステムは、フェードイン遷移の端部フレームの直後に後続するフレームを内部符号化ピクチャとして符号化することもできる(2525)。このフレームが場面変化であるので、プロセッサ2300(図23)内の2315において内部符号化フレームとして場面変化フレームの符号化と一致する。処理2500を実行するシステムは、開始フレームと、終了フレームに直後に後続するフレームとを選択的に記憶することもできる(2350)。
フェードイン遷移を符号化するシステムは、2525及び2530にて説明した活動を実行するのではなく、特定のフレームを他のフレーム(例えば階層コーディング)において他のフレームよりも高い優先レベルの特定のフレームを符号化し、処理2500を実行するシステムは、一つ以上の最も優先レベルが高いフレーム(その近傍でフレームが終了フレームの直後に後続する)内部符号化フレームとして符号化することを補償する。
符号化器が輝度変化補償(加重予測)にアクセスする実施形態では、フェードインの終了フレームの直後に後続するフレームは、既に符号化されたフレームから予測でき、内部ピクチャとして符号化する必要はない。このことは単独の優先レベルを有する実施形態と複数の優先レベルを有する実施形態との両方へ適用される。
図26はフェードアウト遷移のビデオ符号化に関係する処理2600のフローチャートである。処理2600を実行するシステムは、フレームのシーケンス及びそれらのフレームの分類を受け取る(2305)と共に、レームのシーケンスにおける一つ以上のフェードアウト遷移を特定する(2605)。フェードアウト遷移は、受け取ったシーケンスにおけるフレームの分類を用いて特定することができる。処理2600を実行するシステムは、ビットの割り当てを増大して、特定されたフェードアウト遷移に属するフレームを符号化する(2610)。このビットは、特定されたフェードアウト遷移についてのレート割り当てを変更することにより割り当てることができる。これは特に、輝度変化補償がビデオエンコーダーに利用可能ではない場合に有益である。
処理2600を実行するシステムは、フェードアウト遷移の開始及び終了フレームを特定して符号化することもできる(2615)。その開始及び終了フレームは、フレームのシーケンスの受け取った分類から特定することができる。処理2600を実行するシステムは、開始フレームと終了フレームとの一方又は両方を参照して、フェードアウト遷移の内部フレーム(即ち、開始フレームと終了フレームとの間のフレーム)を符号化することができる(2620)。或る実施形態では、双予測が用いられる(即ち、内部フレームが開始フレームと終了フレームとの両方を参照して符号化される)。処理2600を実行するシステムは開始フレーム及び終了フレームを長期参照フレームとして選択的に記憶することもできる(2625)。フレームを長期参照フレームとして選択的に記憶することもできる。
図27はクロスフェード遷移のビデオ符号化に関係する処理2700のフローチャートである。 処理2600を実行するシステムは、フレームのシーケンス及びこれらのフレームの分類を受け取って(2305)、フレームのシーケンスにおけるクロスフェードの一つ以上を特定する(2705)。クロスフェード遷移は、受け取ったシーケンスにおけるフレームの分類を用いて特定することができる。処理2700を実行するシステムは、クロスフェード遷移の開始及び終了フレームを特定して符号化することができる(2710)。開始及び終了フレームはフレームのシーケンスの受け取った分類から特定することができる。処理2700を実行するシステムは、開始フレームと終了フレームとの一方又は両方を参照してクロスフェード遷移の内部フレーム(即ち、開始フレームと終了フレームとの間のフレーム)を符号化することができる(2715)。或る実施形態においては、双予測が用いられる(即ち、内部フレームが開始フレームと終了フレームとの両方を参照して符号化される)。この処理2700を実行するシステムは、2720にて、開始フレーム及び終了フレームを長期参照フレームとして記憶して、2725にて、クロスフェード繊維2725についての多重反復を有する高度に複雑な接合双予測運動評価を採用することができる
図28は静止場面のビデオ符号化に関する処理2800のフローチャートである。処理2800を実行するシステムは、2305にて、フレームのシーケンス及びこれらのフレームの分類を受け取って、2805にて、フレームのシーケンスにおける一つ以上の静止場面を特定する.静止場面は、受け取ったシーケンスにおけるフレームの分類を用いて特定することができる。処理2800を実行するシステムは、2810にて、静止場面を符号化する際に可視的な質を向上させることができる。また、処理2800を実行するシステムは、2815にて、階層符号化構造の長さとひいては符号化遅延との両方を増大することができる。これに関連して、nがフレームのシーケンスにおける最後に符号化されたフレームであるとすると、階層符号化構造は、双予測動き補償を用いて、フレームn+Nを圧縮すると共に、フレームn+1乃至n+N−1を符号化することができ、ここでN>1である。
図29は能動場面のビデオ符号化に関する処理2900のフローチャートである。処理2800を処理するシステムは、2305にて、フレームのシーケンス及びこれらのフレームの分類を受け取って、2905にて、フレームのシーケンスにおける一つ以上の能動場面を特定する。能動場面は、受け取ったシーケンスにおけるフレームの分類を用いて特定することができる。処理2900を実行するシステムは、2910にて、ローパスフィルターとすることができる。特に、表示中に感知できない細部は、能動場面からローパスフィルタリングすることができる。
処理2900を実行するシステムは、2915にて、能動場面に適用される非ブロッキング化フィルターパラメータを調整することができる。特に、或る実施形態においては、仮に場面が遮断を良好に削減しようとする試みにおける能動であれば、強力な非ブロッキングフィルタを用いることができる。しかしながら、非ブロッキング強度は、仮に場面が他の実施の形態では、アーチファクトの導入を避けるように高いテクスチャ領域により特徴付けられるならば、低減させることができる。増加及び減少は、現在のフレームのビットレート目標又は領域、或いは用いられている量子化パラメータに依存する。或る実施形態においては、非ブロッキング化フィルターパラメータは調整する必要が無く、これは特に、高いビットレート及び/又は低い量子化が僅かなブロッキングアーチファクトをもたらす場合である。実際、或る実施形態においては非ブロッキングフィルターパラメータは場面のテクスチャ特性の保持を低減させることができる。
処理2900を実行するシステムは、能動場面のために、高度に複雑な接続双予測運動評価を採用して(2920)、これを複数回反復することができる。更に、処理2900を実行するシステムは、能動場面に割り当てられたビットレートを低減させることができる(2925)。特に、割り当てられたビットレート、及びその結果としての品質は、場面に用いられた量子化又はラグランジアンパラメータを増大するか、変換及び量子化処理中に用いられた閾値化事項及び適合丸み付け係数を調整するか、スキップその他の低ビットコストを有する異なるモードの優先順位を決めるかによって、低減される。このような変化は、能動場面の符号化に用いられるビットの数を本質的に低減することができる。
図30は、カメラパン場面のビデオ符号化に関する処理3000のフローチャートである。処理3000を実行するシステムは、フレームのシーケンスを受け取り(2305)、これらのフレームを分類し(2305)、フレームのシーケンスにおける一つ以上のカメラパン場面を特定する(3005)。カメラパン場面は、受け取ったシーケンスにおけるフレームの分類を用いて特定することができる。処理3000を実行するシステムは、ビットの割り当てを増大して(3010)、特定されたカメラパン場面に属するフレームを符号化することができる。このビットは、特定されたカメラパン場面についてのビットレート割り当てを変更することにより割り当てることができる。処理3000を実行するシステムは、カメラパン場面の開始及び終了フレームを特定して符号化することができる(3015)。開始及び終了フレームは、受け取ったフレームのシーケンスの分類から特定することができる。或る実施形態においては、開始及び終了フレームは内部符号化ピクチャとして符号化することができる。
処理3000を実行するシステムは、開始フレームと終了フレームとの一方又は両方を参照して(3020)、カメラパン場面の内部フレーム(即ち、開始フレームと終了フレームとの間のフレーム)を符号化することができる。或る実施形態においては、双予測が用いられる(即ち、内部フレームが開始及び終了フレームの両方を参照して符号化される)。処理3000を実行するシステムは、開始フレーム及び終了フレームを長期参照フレームとして記憶することもできる(3025)。
図31はカメラズーム場面のビデオ符号化に関する処理3100のフローチャートである。処理3100を実行するシステムは、フレームのシーケンスとそれらのフレームの分類を受け取って(2305)、フレームのシーケンスにおける一つ以上のカメラズーム場面を特定する(3105)。カメラズーム場面は、受け取ったシーケンスにおけるフレームの分類を用いて特定することができる。処理3100を実行するシステムは、特定されたカメラズーム場面における運動を最適に特徴付ける二つ以上の運動モデルと、ビデオ符号化モジュールにより支援された運動モデルとの間に相違が存在するか否かを判定することができる(3110)。運動モデルの例は、アファイン運動モデル、並進運動モデル、及び高次元運動モデルを含む。或る実施形態においては、特定されたカメラズーム場面における運動は、例えば、ビデオ符号化モジュールにより支援されないアファイン運動モデルを用いることにより最適に特徴付けることができる。
処理3100を実行するシステムが相違が存在すると判定したならば、このシステムは、カメラズーム場面を符号化する割り当てビットレートを変えることができる(3115)。例えば、ビデオ符号化モジュールがアファイン運動モデルを支援するならば、これはズームなどのカメラ遷移を良好に特徴付けることができ、僅かなビットをズーム遷移へ割り当てることができる。一方、ビデオ符号化モジュールが単に並進運動モデルを支援するのみであれば、これはズーム遷移を符号化する際に効率的ではなく、より多くのビットが割り当てられる。一般に、ビデオ符号化モジュールが高次元運動モデルを支持するならば、これは複雑な運動を良好に支援し、一般に良好な動き補償予測性能をもたらし、カメラスズーム場面の符号化に僅かなビットを割り当てることができる。
処理3100を実行するするシステムは、カメラズーム場面の開始及び終了フレームを識別して符号化することもできる(3120)。この開始及び終了フレームは、受け取ったフレームのシーケンスの分類から特定することができる。或る実施形態では、開始及び終了フレームを内部符号化ピクチャとして符号化することができる。
処理3100を実行するシステムは、開始フレームと終了フレームとの一方又は両方を参照して、カメラズーム場面の内部フレーム(即ち、開始フレームと終了フレームとの間のフレーム)を符号化することができる(3125)。或る実施形態においては、双予測が用いられる(即ち、内部フレームが開始フレームと終了フレームとの両方を参照して符号化される)。処理3100を実行するシステムは開始フレーム及び終了フレームを長期参照フレームとして記憶することもできる(3130)。
図32はフラッシュ場面のビデオ符号化に関する処理3200のフローチャートである。処理3200を実行するシステムはフレームのシーケンス及びそれらのフレームの分類を受け取って(2305)、フレームのシーケンスにおける一つ以上のフラッシュ場面を特定する(3205)。フラッシュ場面は、受け取ったシーケンス内のフレームの分類を用いて特定することができる。処理3200を実行するシステムは、フラッシュ場面におけるフレームを参照フレームとしての使用から除外することができる(3210)。処理3200を実行するシステムは、ビットの割り当てを増大して、特定されたフラッシュ場面に属するフレームを符号化することもできる(3215)。ビットは特定されたフラッシュ場面についてのレート割り当ての変更により割り当てることができる。これは特に、輝度変化補償がビデオエンコーダに利用可能でない場合に有益である。
図33はビデオ符号化システム3300の概略図である。ビデオ符号化システム3300は決定モジュール110及びビデオ符号化モジュール3305を含む。決定モジュール110は、システム100,500,700,800(図1、図5、図6、図8)の何れかの一部として、ビデオ情報から場面分類125を生成することができる。場面分類125に加えて、ビデオ符号化モジュール2205は、決定モジュール110からビデオ特徴化情報3305を受け取ることもできる。ビデオ符号化モジュール2205はビデオ特徴化情報3305及び/又は場面分類125を用いて、符号化ビデオ情報2210を生成することができる。例えば、ビデオ符号化モジュール2205は、一つ以上のプロセッサ3400,3500,3600,3700,3800,3900,4000(図34−40)を用いて符号化ビデオ情報2210を生成することができる。或る実施形態では、ビデオ符号化モジュール2305はフィードバック2215を決定モジュール110へ与えて、場面分類125の生成を支援することができる。
図34はビデオ符号化のための処理3400のフローチャートである。処理3400を実行するシステムは、フレームのシーケンス、これらのフレームの分類、及びこれらのフレームを特徴付けるビデオ特徴化情報を受け取る(3405)。ビデオ特徴化情報は、シーケンスのフレームについての動き予測誤差メトリック及び源変動を特徴付ける情報を含む。或る実施形態では、このような情報は空間解析モジュール(例えば空間解析モジュール505(図5、図8))により判定することができる。
処理3400を実行するシステムは、ビデオ特徴化情報に基づいてフレームについての複雑性メトリックを計算することができる(3410)。複雑性メトリックは、シーケンスAにおけるフレームの複雑性を具体化するパラメータである。複雑性メトリックは、例えば、シーケンスにおけるフレームについての動き補償予測誤差メトリック及び源変動に基づいて計算することができる。例えば、或る実施形態においては、この複雑性メトリックは、近接した先行フレームの動き補償予測誤差メトリックと比べた現在のフレームの動き補償予測誤差メトリック(例えば、SAD)である。他の実施形態では、複雑性メトリックは、現在のピクチャの全ての参照の動き補償予測誤差メトリックと比べた現在のピクチャについての動き補償予測誤差メトリックの加重平均である。
処理3400を実行するシステムは、フレームについての複雑性メトリックに基づいてフレームに対するビット割り当てを変更することができる(3415)。特に、より複雑なフレームには増大した数のビットを割り当てて、複雑性が低いフレームには低減した数のビットを割り当てることができる。
図35はビデオ符号化のための処理3500のフローチャートである。この処理3500を実行するシステムは、フレームのシーケンス、これらのフレームの分類、及びこれらのフレームを特徴付けるビデオ特徴化情報を受け取る(3405)。このビデオ特徴化情報には、シーケンスにおける領域及びフレームの輝度を特徴付ける輝度パラメータを含めることができる。或る実施形態においては、このような情報は、例えば輝度/彩度解析モジュール705(図7、図8)のような輝度/彩度解析モジュールにより決定することができる。
処理3500を実行するシステムは、ビデオ特徴化情報に基づいて一つ以上の暗い領域及び暗いフレームを特定することができる。暗い領域とは、フレーム内の領域であって、閾値よりも暗いか若しくはフレームの残りの部分よりも暗い領域である。暗いフレームとは、閾値よりも暗いか若しくはシーケンスの残りのフレームよりも暗いフレームである。暗い領域及びフレームは輝度パラメータに基づいて特定することができる。処理3500を実行するシステムは、任意の特定された暗い領域及びフレームについてのビット割り当てを増大させることができる(3510)。
図36はビデオ符号化のための処理3600のフローチャートである。処理3600を実行するシステムは、フレームのシーケンス、それらのフレームの分類、及びそれらのフレームを特徴付けるビデオ特徴化情報を受け取る(3405)。ビデオ特徴化情報には、シーケンス内のフレームについてのSAD又は他の予測誤差メトリックを含めることができる。或る実施形態では、これらの予測誤差メトリックは、例えばMEMCフレームワークモジュール105(図1、図8)のようなMEMCフレームワークモジュールにより決定することができる。
処理3600を実行するシステムは、ビデオ特徴化情報に基づいてフレームのシーケンスにおける一つ以上の閉鎖フレームを特定することができる(3605)。閉鎖フレームとは、一つ以上の対象が、フレーム内の一つ以上の他の対象又は領域を時間的に閉鎖しているフレームである。閉鎖フレームは、例えば、別の対象がフレームのシーケンス期間中に異なる動きベクトルを有するときに生じる。閉鎖フレームは、例えば、上述したように、閉鎖に関係するSAD又は他の予測誤差メトリックの増大に基づいて特定することができる。
処理3600を実行するシステムは、閉鎖フレームを参照フレームとしての使用から除外することができ(3610)、閉鎖フレームを符号化するためのビット割り当てを増大させる(3615)。
図37はビデオ符号化のための処理3700のフローチャートである。処理3700を実行するシステムは、フレームのシーケンス、それらのフレームの分類、及びそれらのフレームを特徴付けるビデオ特徴化情報を受け取る(3405)。そのビデオ特徴化情報には、シーケンス内のフレームについての様々な予測誤差メトリック、例えばSADを含めることができ、これは、様々な動き及び区間解析モデルに基づいて計算することができる。或る実施形態においては、これらの予測誤差メトリックは、例えばMEMCフレームワークモジュール105(図1,図8)のようなMEMCフレームワークモジュールにより決定することができる。他の実施形態では、予測誤差メトリックを事前に計算しておいて、メタデータなどの外部の機構を通じて与えることができる。他の実施形態では、トランスコーディング・アーキテクチャに第2のビデオ符号化モジュールを含めて、既に符号化されたビデオを再符号化することができる。このような実施形態では、予測誤差メトリックはビットストリームから直接に導出することができ、これは例えば、ビットストリーム内の動き及びその他の情報を、或いはメタデータ及び/又はMEMCフレームワークモジュールから与えられた付加的な情報との組み合わせを解析することによってなされる。
処理3700を実行するシステムは、フレームのシーケンス内の動きを最適に特徴付ける二つ以上の動きモデルと、ビデオ符号化モジュールにより支援された動きモデルとの間に相違があるか否かを判定することができる(3705)。動きモデルの例は、アファイン動きモデル、並進モデル、及び高次元動きモデルを含む。
処理3700を実行するシステムが相違が存在すると判定したならば、システムは、フレームのシーケンスを符号化する割り当てビットレートを変更することができる(3710)
図38はビデオ符号化のための処理3800のフローチャートである。この処理3800を実行するシステムは、フレームのシーケンス、これらのフレームの分類、及びこれらのフレームを特徴付けるビデオ特徴化情報を受け取る(3405)。ビデオ特徴化情報は、シーケンス内のフレームのためのSADその他の予測誤差メトリックを含むことができる。或る実施形態においては、これらの予測誤差はメトリックは、例えばMEMCフレームワークモジュール105(図1,図8)のようなMEMCフレームワークモジュールにより決定することができる。
処理3800を実行するシステムは、ビデオ特徴化情報に基づいて、新たに現れた一つ以上の対象を含むフレームのシーケンスにおける一つ以上のフレームを特定することができる(3805)。新たに現れた対象を含むフレームは、例えば、対象の出現に関係するSADその他の予測誤差メトリックにおける増加に基づいて特定することができる。
処理3800を処理するシステムは、新たに出現する対象を含むフレーム及びそのフレームに先行する近隣のフレームを符号化するビット割り当てを増大させることができる(3810)。
或る実施形態においては、先行する近隣フレームは新たに出現する対象を含むフレームの直前に先行する。処理3800を実行するシステムは、新たに出現する対象を含むフレームを参照して、対象の出現後にフレームを符号化することができる(3815)。処理3800を実行するシステムは、先行する近隣フレームを参照して対象の出現前のフレームを符号化することができる(3820)。
処理3800を実行するシステムは、新たに出現する対象を含むフレームを長期参照フレームとして選択的に記憶することもできる。或る実施形態においては、先行近隣フレームも長期参照フレームとして記憶することもできる。というのは、これらは新たな対象により覆われる背景に関する情報を提供し得るためである。
図39はビデオ符号化のための処理3900のフローチャートである.処理3900を実行するシステムは、フレームのシーケンス、これらのフレームの分類、これらのフレームを特徴付けるビデオ特徴化情報を受け取る(3405)。そのビデオ特徴化情報はテクスチャ情報を含むことができる。或る実施形態においてテクスチャ情報は、例えば空間解析モジュール505(図5)のような空間解析モジュールにより決定することができる。
処理3900を実行するシステムは、ビデオ特徴化情報に基づいて、シーケンス内のフレームにおける一つ以上の領域が特定の形式の領域に属するか否かを判定することができる(3805)。例えば、システムは、シーケンス内のフレームにおける一つ以上の領域が、平滑領域、テクスチャ領域、或いはノイズ領域であるか否かを判定することができる。例えば、或るブロックが低い変動を有するか、或いは低振幅、低周波数係数(これはDCT基礎周波数解析を用いて決定することがでる)を含むのみであれば、このブロックは平滑領域として分類することができる。一方、空間的に活動的であるテクスチャ領域は、一貫性があり、通常に構成されたテクスチャパターンにより特徴付けられる領域であって、中程度から高い変動及び周波数特性を有するものとして分類できる。ノイズ領域とは、場面内の実際の信号(即ち実際の対象)とは無関係に現れる無作為のノイズパターンにより特徴付けられる領域である。ノイズ領域の分類には、ウィーナー(Wiener)及びカルマン(Kalman)フィルタリングなどの手法を用いることができるが、動き補償予測の使用に依ることもできる。特に、ノイズ領域は、時間的に相関する傾向にはなく、これは滑らかで或る程度延伸したテクスチャ領域とは異なっている。従って、高い動き補償予測誤差を伴う領域は、ノイズ領域に属する可能性が高いことを鑑みれば、それらの空間的特性もそのように分類することができる。
処理3900を実行するシステムが、フレームにおける一つ以上の領域を平滑領域と判定するならば、このシステムはそれらの領域のフィルタリングを低減することができる(3910)。フィルタリングにおける低減は、105のような動き補償時間的フィルタリング構造における源フレームの重みの増加を含むか、或いはより高い帯域幅フィルタの使用に依る。
処理3900を実行するシステムが、フレームにおける一つ以上の領域がテクスチャ領域でると判定するならば、このシステムはテクスチャ領域のフィルタリングを調節することができる(3915)。例えば、テクスチャ領域のフィルタリングは、これらのテクスチャ領域の詳細を保存するように調節することができる。これは、105のような動き補償時間的フィルタリング構造における源フレームの重みを増大することにより、或いはより高い帯域幅フィルタの使用を通じてなすことができる。調節可能なフィルタの例は、線形フィルタ(例えばガウス平滑化法)、非線形(例えばメジアン)フィルタ、及び、ウェーブレットや形態的処理等に基づく他のフィルタを含む。
処理3900を実行するシステムは、テクスチャ領域を符号化するビットの割り当てを増大することもでき(3925)、テクスチャ領域についての動き評価を予測するために付加的な計算資源を割り当てることもできる(3930)。
処理3900を実行するシステムが、フレーム内の一つ以上の領域がノイズ領域であると判定するならば、このシステムはノイズが閾値を越えるか否かを判定することができる(3935)。このシステムがノイズが閾値を超えると判定したならば、このシステムは変換係数閾値化及び量子化オフセットに適合することができる(3940)。変換係数閾値化とは、変換係数が保存するには大き過ぎるのであれば、変換係数が調整されたか外れた(即ち0に設定)を判定する処理である。量子化オフセットとは、量子化中の係数が端数を切り上げるべきか又は下げるべきかについて、変換及び量子化中に判定するように考慮されたパラメータである。変換係数閾値化及び量子化オフセットは、場面又は領域の形式及びその他のパラメータ(例えば品質又はビットレート目標など)に依存して増減することができる。例えば、或るブロックが高いテクスチャとして特徴付けられるならば、このことは、当該ブロックの圧縮性を増大しようとする試みにおいて、閾値化パラメータを増大及び/又は量子化オフセットを低減させることが望ましいであろう。一方、当該ブロックの主観的/知覚的品質を向上させようとする試みにおいて、平滑ブロックの詳細を可能な限り正確に保持して、閾値化パラメータを減少若しくは無効にするか及び/又は量子化オフセットを増大させることは望ましいことであろう。
処理3900を実行するシステムは、フィルタリングされた参照における動き評価を実行することもできる(3945)。フィルタリングされた参照は、ノイズを低減するように既にフィルタリングされたビデオ情報の集合体である。フィルタリングされた参照は、線形(例えば、ガウス平滑化)又は非線形フィルタ(例えば、メディアンフィルタリング)を使用することによりフィルタリングすることができる.動き評価が遠隔MEMCフレームワークモジュール、例えばMEMCフレームワークモジュール105(図1)により実行される或る実施形態では、フィルタリングされた参照の動き評価の性能は、ビデオ符号化モジュール2205から決定モジュール110へのフィードバックの提供を含むことができる。決定モジュール110は、次に、MEMCフレームワークモジュール105へ、動き評価に先立ってビデオ情報をフィルタリングするように指令することができる。
図40はビデオ符号化のための処理4000のフローチャートである。処理4000を実行するシステムはフレームのシーケンス、これらのフレームの分類、及びこれらのフレームを特徴付けるビデオ特徴化情報を受け取る(3405)。このビデオ特徴化情報には、動き及び輝度変化特性、輝度及び彩度強度、変動、テクスチャ特性及びその他を含めて、ブロックのテクスチャ又は動き特性の説明を含めることができる。或る実施形態においては、これらブロックの説明は、MEMCフレームワークモジュール、例えばMEMCフレームワークモジュール105(図1,図8)により決定することができる。
処理4000を実行するシステムは、フレームのシーケンスから一つ以上のフレーム内の一つ以上の領域を、ビデオ特徴化情報に基づいて、対象の領域として特定することができる(4005)。対象の領域とは、視聴者の感覚から他の領域よりもフレームの可視的品質により関係するフレームにおける領域である。対象の領域は、例えば、動き補償予測ブロックとして用いられる領域の頻度に基づいて特定することができる。
処理4000を実行するシステムは、対象の領域を符号化するビット割り当てを増大させることができる(4010)。処理4000を実行するシステムは、対象の領域に対して計算的に高価な符号化ツールを適用することもできる(4015)。計算的に高価な符号化ツールとは、増大した計算資源を必要とするものの、向上した符号化効率/性能をもたらし得る符号化技術である。計算的に高価な符号化ツールの例は、複数の反復を伴う重み予測及び双予測動き評価である。
予測及び動き評価が遠隔MEMCフレームワークモジュール、例えばMEMCフレームワークモジュール105(図1)で実行される或る実施形態では、計算的に高価なコーディング・ツールの適用は、ビデオ・コーディング・モジュール2205から決定モジュール110へのフィードバック2215の提供を含むことができる。次に決定モジュール110は、MEMCフレームワークモジュール105に計算的に高価なコーディング・ツールを対象の領域へ適用するように指示することができる。
処理4000を実行するシステムは、対象の領域のフィルタリングを低減させることもできる(4020)。フィルタリングの低減は、前置処理段階における高帯域フィルタの使用、及び/又は、ビデオ符号化モジュール、例えばビデオ符号化モジュール2205(図22)におけるインループ非ブロック化フィルタの強度の減少を含むことができる。
或る実施形態においては、本明細書に説明されたシステム及び技術はレート制御計画に関連させて用いることができる。レート制御とは、フレームの符号化中にビット目標を達成させる機構である。特に、圧縮されたビットストリームは、送信又は目標中間通過レート制御により課された特定の帯域幅の制約を満たすことができよう。レート制御アルゴリズムは、各フレームへ割り当てられたビット数を変動させるように試みて、可視的な品質を保ちつつ目標ビットレートを達成させることができる。
adaptは適応期間を示すものとする。フレーム又は領域のシーケンスが静的であるならば、ピクチァに割り当てられたビットは、一時的に増大した各適合ピクチャとすることができる。例えば、或る実施形態においては、量子化パラメータ(QP)値は、各padaptピクチャ毎に変更因子QPinit adaptにより変更することができ、これは負の値を有する。各シーケンスから残りのpadapt−1フレームは適合されたピクチァよりも僅かなビットを受け取ることができる。例えば、或る実施形態においては、QPinit のQP変更子(これはQPinit adapt以上である)を用いることができる。従って圧縮効率は、静止若しくは動きが少ない場面について向上させることができ、専ら対象の領域へ適用することができる。例えばピクチァシーケンスは、高動き領域及び低動き領域へ分割することができる。この技術は、低動き領域についてのビット割り当てを向上させるために使用することができる。しかしながら、高動き場面又は領域にこの試みを用いることは性能を低減させる。特に、連続的なピクチァ間の制限された相関関係は、シーケンス内のフレームへ割り当てられた任意の付加的なビットを浪費させる。というのは、最初のフレームは後続のフレームにより参照されことは稀であるためである。
この問題に対処するために、フレーム及び/又は領域は、特定のフレーム及び/又は領域に付加的なビットを割り当てるべきか否かを判定するように解析することができる。従って、分類決定がなされるピクチァの期間値及び数の合計は、摺動ウィンドウピクチァバッファ長さ padat+ndoc.w.<nrefよりも低く保つことができる。これは摺動ウィンドウが充分に大きいので、padatフレームの見込みに基づいてウィンドウ内に付加的なビットを割り当てられるか否かを判定できることを確実にする。階層符号化構造がイメージシーケンスの符号化に用いられるのであれば、期間padatは最高の優先レベル(階層期間phier)のフレーム間の期間の倍数に制限することができる。全てのフレームが同じ優先レベルを有するならば、phier=1である。同じ制約がパラメータndoc.wにも適用できる。更に、付加的なビットが割り当てられるフレーム(例えばそれらのQPがQPinit adaptにより変更されることによる)は、最高の優先レベルに置かれるように制限することができる。
図41はレート制御のための処理4100のフローチャートである。処理4100を実行するシステムは、カウンタCntadaptをイメージシーケンスの開始において零に設定することができる(4105)。更に、カウンタCntadaptは、フレームに割り当てられるビットが一時的に増大するたびに繰り返し消去することができる。或る実施形態においては、ビット割り当ては、フレームのQPをQPinit adaptで変更することにより、増大させることができる。処理4100を実行するシステムは、このシステムが動き補償SADの絶対差が閾値よりも小さいと判定する(4110)たびにCntadaptカウンタをphierで増加することができる(4115)。例えば、閾値は定数と短期及び長期SAD平均の重みの組み合わせとの積とすることができる。
Figure 2011507314
(式24)
或る実施形態においては、α=0.5且つβ=0.5である。しかしながら、これらの値は階層符号化構造の使用に基づいて変更することができる。ビットが領域へ割り当てられている或る実施形態においては、SADは特定の領域に属するブロックを含む。
処理4100を実行するシステムが式24の条件を満たさないと判定するならば、Cntadaptカウンタは、考慮事項(j−padapt)の下のフレームに続く時間的に相関するピクチァ又は領域の不十分な数を反映して消去することができる(4120)。処理4100を実行するシステムが式24の条件を満たすと判定するならば、このシステムはカウンタCntadaptをphierだけ増加させることができる(4115)。
処理4100を実行するシステムは、カウンタが値Padaptに達したか否かを判定することもできる(4125)。処理4100を実行するシステムがカウンタが値Padaptに達したと判定するならば、このシステムはフレームj−padaptへ割り当てられたビットの数を一時的に増加させる(これは例えば、フレームj−PadaptのQP値をQPinit adaptで変更することによる)ことができ(4130)、カウンタcntadaptを消去することができる(4135)。他方、処理4100を実行するシステムは(例えば、QP変更因子QPinit をフレームへ割り当てることにより)僅かなビットを割り当てることもできる(4140)。動き補償SADは、MEMCフレームワークモジュール、例えばMEMCフレームワークモジュール105を用いて導くことができる。他の誤差メトリックも用いることができる。短期平均は、決定閾値を局所的な場面統計値へ適合させるように用いることがで、これは次式で与えられる。
Figure 2011507314
(式25)
ここで長期MADは次式で与えられる。
Figure 2011507314
式26
閾値tstaticは浮動小数点数である。或る実施形態においては、tstaticは概ね0.15の値を有する。或る実施形態においては、QP変更因子QPinit adaptは局所領域又は場面統計値へ適合させることができる。適合アルゴリズムは、時間的、空間的、及び輝度情報を考慮に入れることができる。例えば、
(a)時間的相関関係はSAD誤差の大きさを見積もることにより考慮することができる。誤差の大きさがより大きければ僅かな付加的ビットが割り当てられる。或る実施形態においては、変更因子QPinit adaptはより小さくなる。というのは、大きなSADは大きな動きを表すためである。
(b)空間的複雑性は、空間的変動を見積もることにより考慮することができる。この場合も同様に、誤差の大きさがより大きければ僅かな付加的ビットが割り当てられる。或る実施形態においては、変更因子QPinit adaptはより小さくなる。
(c)高い輝度は圧縮アーチファクトを覆い隠し、付加的なビット数は例えば変更因子を低減させることにより低減させることができる。より暗い場面はアーチファクトをより圧縮する傾向にあるが、付加的なビット数は、例えば変更因子の値を増大することにより増大させることができる。
例示的システム
図42は本明細書に説明した何れの技術(若しくは何れの組み合わせ)を採用できるシステムの例を示す。この技術は一つ以上のコンピュータ4205A,4205Bで用いることができる。本明細書における一つ以上の方法(例えば、アルゴリズム/処理)は、コンピュータ及び/又はビデオディスプレイ4220、送信、処理、及び再生システムと共に、或いはこれらに採用して実施することができる。本明細書に説明したコンピュータは任意の種類のコンピュータとすることができ、汎用、若しくは或る特定の目的のコンピュータ、例えばワークステーションの何れでもよい。コンピュータ4205Bは、例えばIntel又はAMDに基づき、Windows XP(商標)、Vista(商標)、又はLinux(商標)が作動するものでもよく、或いはMacintoshコンピュータとしてもよい。一つの実施例は、例えばハンドヘルドコンピュータ、例えばPDA4215,携帯電話4215,又はラップトップ4205Aに関係してもよい。コンピュータは、イメージ記録或いはデータ(特にビデオデータ)の受信4225,4230,4235、処理、記憶4240、及び分配のための装置又は装置の部品も称するものとし得る。
本明細書に説明した実施例の任意の組み合わせはビデオシステムの一部及びその要素としてもよい。実施例の任意の組み合わせは、ビデオエンコーダの一部及び/又は例示的なビデオシステムの一部及び/又は何れかの図面に描かれた要素/モジュールの一部としてもよい。実施例の任意の組み合わせは、ハードウェア及び/又はソフトウェアに実装してもよい。例えば、任意の実施例はコンピュータプログラムにより実施してもよい。
コンピューター及び/又はグラフィック・プログラムは、C又はPython、又はJava,Brew或いは他のプログラミング言語で記述してもよい。プログラムは記憶媒体に常駐させてもよく、その記憶媒体は、例えば、磁気的又は光学的、例えばコンピュータ・ハードドライブ、取り外し自在なディスク又は媒体、例えばメモリースティック、又はSD媒体、有線又は無線ネットワークに基づくもの、又はBluetoothに基づくもの(又はその他の)ネットワーク取り付け記憶装置(NAS)、或いは他の固定又は取り外し可能媒体である。このプログラムはネットワーク4250上で作動させてもよく、これは例えば局所的装置へ通信を送るサーバーその他の装置であり、これは局所的装置に本明細書に説明した操作を実行させることを可能にする。そのネットワークは記憶領域ネットワーク(SAN)を含んでもよい。
幾つかの実施例のみについてその詳細を上記に説明したが、他の実施例も可能である。本発明の実施例は、本明細書に説明した一つ以上の例示的な技術についての均等物若しくは代替物を包含し得ることに留意されたい。本明細書には一般的な目標を他の方式で達成するための特定の例を説明した。この説明は例示的な実施例を代表するものであって、以下の請求項は何れの均等物、変形例、若しくは代替例を包含するように意図されていることに留意されたい。
本明細書に説明した主題事項及び機能的操作は、本明細書に開示した構造及びその構造的均等物、又はそれらの一つ以上の組み合わせを含めて、デジタル電子回路系で、又はコンピュータソフトウェア、ファームウェア、或いはハードウェアで実施することができる。本明細書に説明した主題事項の実施例は、一つ以上のコンピュータプログラム製品、例えば、データ処理装置により実行されるか、或いはデータ処理装置の操作を制御するようにコンピュータ読み取り可能媒体に符号化されたコンピュータプログラム指令の一つ以上のモジュールとして実施することができる。コンピュータ読み取り可能媒体は、機械読み取り可能記憶媒体4240,機械読み取り可能記憶基板、メモリデバイス、機械読み取り可能伝搬処理交信に物質的効果を与える構成要素、或いはそれらの一つ以上の組み合わせとすることができる。用語「データ処理装置」とは、例としてプログラマブルプロセッサ、コンピュータ、又はコンピュータの複数のプロセッサを含めて、データを処理する全ての装置、デバイス及び機械を包含する。この装置はハードウェアに加えて、問題であるコンピュータプログラムのための実行環境を形成するコード、例えば、プロセッサファームウェア、プロトコルスタック、グラフィカルシステム、データベース管理システム、オペレーティングシステム、又はこれらの一つ以上の組み合わせを構成するコードを含むことができる。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、又はコードとしても知られる)は、コンパイル形式又はインタープリテッド形式言語を含めて任意の形式のログラム言語で記述することができ、これは単独で作動するプログラムとして、或いはモジュール、構成要素、サブルーティーン、又は計算環境における使用に適する他のユニットとしてのものを含めて任意の形式で展開することができる。コンピュータプログラムは、ファイルシステムにおけるファイルに対応する必要はない。プログラムは、問題のプログラム専用の単独のファイル、又は多重調整ファイル(例えば、一つ以上のモジュール、補助プログラム、又はコードの一部を記憶するファイル)において、他のプログラム又はデータ(例えば、マークアップ言語ドキュメントに記憶された一つ以上のスクリプト)を保持するファイルの一部に記憶させることができる。コンピュータプログラムは、一つのコンピュータで実行するように、或いは複数の場所に亘って分散されて交信ネットワークで相互接続された複数のコンピュータで実行するように展開することができる。
本明細書に説明説及び図示した処理及び論理フロー並びに図面は、一つ以上のプログラマブルプロセッサにより実行することができ、そのプロセッサは入力データ及び生成される出力を操作することにより、機能を遂行する一つ以上のコンピュータプログラムを実行することができる。プロセッサ及び論理フローは特定用途の論理回路系により実行することもでき、また、装置も特定用途の論理回路系として実施することもでき、これは例えばFPGA(フィールドプログラマブルゲートアレイ)、若しくは他のプログラマブル論理デバイス(PLD)、例えばマイクロコントローラであり、或いはASIC(特定用途向け集積回路)である。
コンピュータプログラムの実行に適するプロセッサは、例として、汎用と特定目的との両方のマイクロプロセッサ、及び任意の形式のデジタルコンピュータの一つ以上のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリ又はランダム・アクセス・メモリ若しくはそれらの両方からの指令又はデータを受け取ることができる。コンピュータの基本的要素は、指令を実行するプロセッサと、指令及びデータを記憶するための一つ以上のメモリーデバイスである。一般に、コンピュータは、例えば、磁気的、光磁気ディスク、又は光ディスクなどのデータを記憶する一つ以上の大容量記憶デバイスを含むこともでき、或いはそれに対してデータを送信したり受信したりするように動作可能に接続することもできる。しかしながら、コンピュータはそのようなデバイスを有している必要はない。更に、コンピュータは、他のデバイスに組み込むこともでき、その若干の例を挙げると、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、携帯型オーディオプレーヤー、全地球測位システム(GPS)受信機などである。コンピュータプログラム指令及びデータを記憶するのに適するコンピュータ読み取り可能媒体は、例として、半導体メモリデバイス(例えばEPROM、EEPROM、及びフラッシュメモリデバイス)、磁気ディスク(例えば内蔵ハードディスク、又は取り外し可能ディスク)、光磁気ディスク、並びにCD ROM及びDVD―ROMディスクを含めて、不揮発性メモリ、媒体、及びメモリ・デバイスの全ての形態を含む。プロセッサ及びメモリは、特定用途論理回路系により補完できるか、或いはそれに組み込むことができる。
ユーザーとの対話を与えるために、本明細書に説明された主題の或る実施例は、コンピュータで実施することが可能であり、そのコンピュータは、ユーザーへ情報を表示するためのディスプレイ・デバイス(例えば、CRT(陰極線管)、LCD(液晶ディスプレイ)、又はプラズマ・ディスプレイ・モニタ4220)、キーボード、及びセレクタ(例えば、ポインティング・デバイス、マウス、又はトラックボールなど、これによりユーザーがコンピュータへ入力を与えることができるもの)を有する。他の種類のデバイスをユーザーとの対話を与えるために用いることができ、しかも、例えばユーザーへ与えられるフィードバックは、任意の形式の知覚フィードバック、例えば可視フィードバック、聴覚フィードバック、又は触覚フィードバックとすることができ、ユーザーからの入力は、音響、発話、又は触覚入力を含めて、任意の形式で受け取ることができる。
本明細書に説明した主題の或る実施例は、コンピューティング・システムに実装することが可能であり、このコンピューティング・システムは、例えばデータ・サーバーとしての後置構成要素を含むもの、又は例えばアプリケーション・サーバーのようなミドルウェア構成要素を含むもの、又はユーザーが本明細書に説明された主題の実施例と対話できるグラフィカル・ユーザー・インターフェース又はウェブ・ブラウザを有するクライアント・コンピュータなどの前置構成要素を含むもの、或いはこれらの後置、ミドルウェア、又は前置構成要素の一つ以上の任意の組み合わせを含むものである。このシステムの構成要素は、デジタル・データ交信システム、例えば交信ネットワークの任意の形式又は媒体により相互接続することができる。交信ネットワークの例は、ローカル・エリア・ネットワーク(LAN)及び広域ネットワーク(WAN)、例えばインターネットを含む。
このコンピューティング・システムは、クライアント及びサーバーを含む。クライアントとサーバーとは、一般に互いに遠隔しており、典型的には交信ネットワークを通じて相互作用する。クライアントとサーバーとの関係は、各コンピュータで作動するコンピュータプログラムの効能により生じると共に、互いにクライアント−サーバー関係を有する。
この開示事項は多くの仕様を包含するが、これは請求すべき事項の制限としてではなく、むしろ本発明の特定の実施例の特徴的仕様の説明として見なすべきである。個別の実施例に関連して本明細書に説明した特定の特徴は、単独の実施例の組み合わせに実装してもよい。逆に言えば、単独の実施例に関連して説明した様々な特徴は、複数の個別の実施例において、或いは任意の適切なサブ・コンビネーションにおいて実施することができる。更に、上述では特徴が特定の組み合わせにおいて作動するものとして説明し、そのようなものも冒頭に等しく請求したが、請求した組み合わせからの一つ以上の特徴は、或る場合には組み合わせから削除することができ、請求された組み合わせはサブコンビネーション若しくはサブコンビネーションの変形例も指向している。同様に、操作が特定の順序で図面に描かれているが、これは、そのような操作が図示された特定の順序若しくは逐次的順序で実行する必要があると解釈すべきではなく、また、全ての図示された操作が望ましい結果を得るために実行する必要があると解釈すべきではない。特定の環境においては、マルチタスキング及び並列処理が更に有益であろう。更に、上述の実施例における様々なシステム構成要素の分離は、このような分離が全ての実施例において要求されるものであるとは解釈すべきではなく、説明したプログラム構成要素及びシステムは、通常は、単独のソフトウェア又はハードウェア製品に互いに集積されるか、或いは複数のソフトウェア又はハードウェア製品に同梱されることに留意されたい。
多数の実施形態について説明した。それにも拘わらず、幾多の変形例をなし得ることに留意されたい。例えば、動き評価は、現在のフレームに似ているような時間的距離以外の基準に基づいて選択された参照フレームを用いて実行することができる。例えば、或る実施形態では、動き評価及び動き補償は、既にフィルタリングされたフレームで実行することができる。参照フレームは空間的フィルタリング若しくは時空間的フィルタリングをなすことができる。或る実施形態では、フレームは参照フレームとしての使用に先立って複数回フィルタリングすることができる。フレームの入力シーケンスはカスケード式連続フィルタを用いてフィルタリングすることができる。或る実施形態では、非ブロック化フィルタは、低域通過フィルタ及び拡張フィルタの後に続かせることができる。第1のフィルタはアーチファクト阻止を低減させることができ、第2のフィルタはノイズを低減させることができ、そして最後のフィルタは、第1及び第2のフィルタで減衰したであろう詳細を向上させることができる。或る実施形態では、フィルタは、平行で且つそれらの出力が線形若しくは非線形に組み合わされたものに適用することができる。或る実施形態では、平行とカスケード式とのフィルタの組み合わせ体を使用することができる。これらの場合、一つのフィルタリング配列の出力は他のフィルタリング配列のへの入力として用いることができる。
他の例として、或る実施形態では、非ブロッキング・フィルタは予想フレームへ適用することができる。例えば、非ブロッキング・フィルタは、アーチファクト阻止(即ち、不要な境界アーチファクト)を低減するために適用することができる。或る実施形態においては、非ブロッキングフィルタは最終予測フィルタのみに適用される。他の実施形態においては非ブロッキングフィルタは一つ以上の前置予測フィルタへ適用される。非ブロッキングフィルタの前置予測フィルタへの適用は、異なる動きモデルを前置予測フレームへ達するように用いるならば、特に有益である。
他の例としては、ビデオ符号化モジュール22O5は、決定モジュール110以外の一つ以上のデバイスからビデオ特徴化情報33O5を受け取ることができる。例えば、或る実施形態においては、ビデオ符号化モジュール2205は、一つ以上のモジュール105,505,705から直接にビデオ特徴化情報3305を受け取ることができる。
従って、他の実施形態も以下の特許請求の範囲の目的の範囲内にある。

Claims (89)

  1. ビデオ情報を受け取り、
    この受け取ったビデオ情報を場面として一つ以上のフレームに分類し、
    このフレームの分類に基づいて一つ以上の符号化パラメータを調整すると共に、
    この調整された符号化パラメータにより前記ビデオ情報を符号化することを含む方法。
  2. 請求項1の方法において、前記フレームの分類が、前記フレームを一つ以上のカメラズーム場面又はフェード場面として分類することを含む方法。
  3. 請求項2の方法において、前記フレームの分類が、前記フレームをクロスフェード場面として分類することを含む方法。
  4. 請求項1の方法において、前記フレームの分類が、前記フレームをフラッシュ場面として分類することを含む方法。
  5. 請求項3の方法において、前記フレームをフラッシュ場面として分類することが、前記フラッシュ場面に先行するフレームと前記フラッシュ場面に後続するフレームとの間の低予測誤差を特定することを含む方法。
  6. 請求項1の方法において、一つ以上の符号化パラメータの調整が、特定のフレームを内部コードフレームとして指定することを含む方法。
  7. 請求項1の方法において、
    一つ以上のフレームを分類することが、前記場面の開始フレームと終了フレームとの少なくとも一方を特定することを含み、
    一つ以上の符号化パラメータの調整が、前記開始フレームと前記終了フレームとの少なくとも一方を内部符号化フレームとして符号化すべきものとして指定することを含む方法。
  8. 請求項1の方法において、一つ以上の符号化パラメータを調整することが、前記開始フレームと前記終了フレームとの少なくとも一方を参照して、前記場面内の符号化すべき内部フレームを指定することを更に含む方法。
  9. ビデオ情報を受け取り、
    そのビデオ情報における動き評価及び補償を実行して動き評価及び補償パラメータの集合体を形成すると共に、
    前記ビデオ情報における一つ以上のフレームを、前記動き評価及び補償パラメータに基づいて、場面として分類することを含む方法。
  10. 請求項9の方法において、前記一つ以上のフレームの分類が、前記一つ以上のフレームを、代表的な動き評価及び補償パラメータの一つの成分に基づいて、パン場面として分類することを含む方法。
  11. 請求項9の方法において、前記一つ以上のフレームの分類が、
    二つ以上のフレーム内のブロックについての動きベクトルを特定し、
    前記ブロックについての前記動きベクトルがその大きさにおいて比較的に小さいことを判定し、
    ブロックについての前記動きベクトルが方向に関して相関しており、且つ連続的なフレームに亘って連続していることを判定すると共に、
    前記二つ以上のフレームをカメラズーム場面として分類することを含む方法。
  12. 請求項9の方法において、前記一つ以上のフレームを場面として分類することが、
    現在のフレームについての予測誤差メトリックを閾値と比較すると共に、
    前記予測誤差メトリックが前記閾値を越えることに基づいて、場面変化を特定する方法。
  13. 請求項12の方法において、前記現在のフレームについての前記予測誤差メトリックを前記閾値と比較することが、
    前記現在のフレームについての前記予測誤差メトリックを、比較的に多数のフレームに亘る予測誤差メトリックに関する長期閾値と比較すると共に、
    前記現在のフレームについての前記予測誤差メトリックを、比較的に少数のフレームに亘る予測誤差メトリックに関する短期期閾値と比較することを含む方法。
  14. 請求項12の方法において、前記現在のフレームについての前記予測誤差メトリックを前記閾値と比較することが、現在のフレームと隣接するフレームについての予測誤差メトリックにおける差異を閾値と比較することを含む方法。
  15. 請求項9の方法が、ビデオ符号化モジュールによる動きモデルについての支援の欠如に基づいて、前記フレームを符号化するビットレートを変更することを含む方法。
  16. 請求項15の方法において、前記動き評価及び補償パラメータの変更が、特定のフレームを参照フレームとしての使用から除外することを含む方法。
  17. 請求項15の方法において、前記動き評価及び補償パラメータの変更が、最終的な予測フレームにおける前置予測フレームの重みを変更させることを含む方法。
  18. 請求項15の方法において、前記動き評価及び補償パラメータの変更が、動き評価を予測するために付加的な計算資源を割り当てることを含む方法。
  19. 請求項9の方法において、
    一つ以上の符号化パラメータを前記場面分類に基づいて調整すると共に、
    前記場面内のフレームを前記調整された符号化パラメータにより符号化することを更に含む方法。
  20. 請求項19の方法において、一つ以上の符号化パラメータの調整が、特定のフレームを内部符号化フレームとして符号化するように指定することを含む方法。
  21. 請求項19の方法において、一つ以上の符号化パラメータを調整することが、前記場面を符号化するためのビット割り当てを増加させることを含む方法。
  22. ビデオ情報を受け取り、
    この受け取ったビデオ情報における一つ以上のフレーム内の領域を分類し、その領域は、この領域が出現するフレームよりも小さく、
    一つ以上の符号化パラメータを前記領域の前記分類に基づいて調整すると共に、
    前記調整された符号化パラメータにより前記領域を符号化することを含む方法。
  23. 請求項22の方法において、一つ以上の符号化パラメータを調整することが、前記領域を符号化するためのビット割り当てを増加させることを含む方法。
  24. 請求項22の方法において、一つ以上の符号化パラメータを調整することが、前記領域のフィルタリングを低減させることを含む方法。
  25. 請求項22の方法において、前記領域の分類は前記領域を暗い領域として分類することを含む方法。
  26. 請求項25の方法において、前記暗い領域を符号化するためのビット割り当てを増加させることを更に含む方法。
  27. ビデオ情報を受け取り、
    この受け取ったビデオ情報における場面変化を特定し、
    加重予測を有する予測誤差と加重予測を有さない予測誤差との間の相違に基づいて場面を分類すると共に、
    利用可能な前記場面の分類をなすことを含む方法。
  28. ビデオ情報を受け取り、
    この受け取ったビデオ情報における場面変化を特定し、
    その場面変化の位置に基づいて場面を分類すると共に、
    利用可能な前記場面の分類をなすことを含む方法。
  29. 請求項28の方法において、前記場面の前記分類を用いて前記ビデオ情報のフィンガープリントを形成することを含む方法。
  30. 請求項28の方法において、前記ビデオ情報の符号化に用いる符号化パラメータを、前記場面の前記分類に基づいて調整することを更に含む方法。
  31. 請求項28の方法において、前記場面の分類が、符号化モジュールからのフィードバックに基づいて前記場面を分類することを含む方法。
  32. 請求項28の方法において、前記場面変化の特定が、
    フェード場面を特定し、
    このフェード場面の終端におけるフレームを場面変化として分類することを含む方法。
  33. 請求項28の方法において、前記場面変化を特定することが、現在のフレームに先行する参照フレームからの加重予測パラメータと、前記現在のフレームに続く参照フレームからの加重予測パラメータとに基づいて、フェード場面を検出することを含む方法。
  34. 請求項28の方法において、前記場面変化を特定することが、
    現在の場面がフラッシュを含むことを認識すると共に、
    この現在の場面がフラッシュを含むという認識に基づいて、現在の場面を場面変化としての特定から除外することを含む方法。
  35. ビデオ情報のフレームのシーケンスにおける輝度の特性を受け取り、
    前記フレームのシーケンスにおける一つ以上のフレームを、前記輝度の前記特性に基づいて、場面として分類すると共に、
    利用可能な一つ以上の場面分類をなすこと含む方法。
  36. 請求項35の方法において、前記一つ以上のフレームの分類が、前記一つ以上のフレームの間の前記輝度の変化の量に基づいて、前記一つ以上のフレームを早いフェード及び遅いフェードとして分類することを含む方法。
  37. 請求項35の方法において、
    一つ以上の符号化パラメータを前記場面分類に基づいて調整すると共に、
    この調整された符号化パラメータにより前記ビデオ情報を符号化することを更に含む方法。
  38. 請求項37の方法において、
    前記一つ以上のフレームを分類することが、前記一つ以上のフレームを暗い場面として分類することを含むと共に、
    前記ビデオ情報を符号化することが、前記暗い場面に基づいてビット割り当てを増大させることを含む方法。
  39. ビデオ情報のフレームのシーケンスを受け取り、
    前記シーケンス内の前記フレームの各々についての優勢な動きベクトルを判定すると共に、
    前記シーケンス内の前記フレームの前記優勢動きベクトルに基づいて場面変化を特定することを含む方法。
  40. 請求項39の方法において、前記優勢動きベクトルの判定が、
    何れの動きベクトルが出現するかの頻度を体現する多次元動きベクトルヒストグラムを形成すると共に、
    前記ヒストグラム内で何れの動きベクトルが出現するかの前記頻度に基づいて前記優勢動きベクトルを選択することを含む方法。
  41. ビデオ情報のフレームのシーケンスの輝度の特性を受け取り、
    この輝度の特性に基づいて、前記シーケンス内の一つ以上のフレームをフラッシュを含むものとして認識すると共に、
    前記フラッシュを含む前記フレームを、動き補償参照フレームとしての使用から除外することを含む方法。
  42. ビデオ情報の集合体における動きを特徴付けるパラメータの集合体を生成する動き評価及び動き予測モジュールと、
    前記ビデオ情報の集合体における前記動きを特徴付ける前記パラメータに少なくとも部分的に基づいて、前記ビデオ情報の集合体における一つ以上の場面を分類する決定モジュールとを備えるシステム。
  43. 請求項42のシステムにおいて、
    前記ビデオ情報の集合体における輝度を特徴付けるパラメータの集合体を生成する輝度モジュールを更に備えると共に、
    前記決定モジュールは、前記ビデオ情報の集合体における前記輝度を特徴付ける前記パラメータに少なくとも部分的に基づいて前記一つ以上の場面を分類するシステム。
  44. 請求項42のシステムにおいて、
    前記ビデオ情報の集合体におけるテクスチャ及びエッジ効果を特徴付けるパラメータの集合体を生成する空間解析モジュールを更に備えると共に、
    前記決定モジュールは、前記ビデオ情報の集合体における前記テクスチャ及びエッジ効果を特徴付ける前記パラメータに少なくとも部分的に基づいて前記一つ以上の場面を分類するシステム。
  45. 請求項42のシステムにおいて、前記決定モジュールから前記動き評価動き予測モジュールへフィードバックを送るデータ経路を更に備えるシステム。
  46. 請求項42のシステムにおいて、前記一つ以上の場面の前記分類に少なくとも部分的に基づいて、前記ビデオ情報の集合体のビデオフィンガープリントを生成するビデオフィンガープリンティングモジュールを更に備えるシステム。
  47. 請求項42のシステムにおいて、前記一つ以上の場面の前記分類に少なくとも部分的に基づいて、符号化されたビデオ情報を生成する符号化モジュールを更に備えるシステム。
  48. 請求項47のシステムにおいて、前記符号化モジュールから前記動き評価動き予測モジュールへフィードバックを送るデータ経路を更に備えるシステム。
  49. コンピュータプログラム製品であって、コンピュータ読み取り可能媒体に明確に符号化されており、
    データ処理装置にビデオ符号化操作を実行させる指令を備え、その操作は、
    ビデオ情報を受け取り、
    この受け取られたビデオ情報における一つ以上のフレームを場面として分類し、
    前記フレームの分類に基づいて、一つ以上の符号化パラメータを調整すると共に、
    前記ビデオ情報を前記調整された符号化パラメータにより符号化することを含むコンピュータプログラム製品。
  50. 請求項49の製品において、前記フレームの分類が、前記フレームを一つ以上のカメラズーム場面又はフェード場面として分類する指令を含む方法。
  51. 請求項50の製品において、前記フレームの分類が、前記フレームをクロスフェード場面として分類する指令を含む製品。
  52. 請求項49の製品において、前記フレームの分類が、前記フレームをフラッシュ場面として分類する指令を含む製品。
  53. 請求項52の製品において、前記フレームをフラッシュ場面として分類することが、前記フラッシュ場面に先行するフレームと、前記フラッシュ場面に続くフレームとの間の低予測誤差を特定する指令を含む製品。
  54. 請求項49の製品において、一つ以上の符号化パラメータを調整することが、特定のフレームを内部符号化フレームとして符号化するように指定する指令を含む製品。
  55. 請求項49の製品において、
    一つ以上のフレームの分類が、前記場面の開始フレームと終了フレームとの少なくとも一方を特定する指令を含むと共に、
    前記一つ以上の符号化パラメータの調整が、前記開始フレームと前記終了フレームとの少なくとも一方を内部符号化フレームとして符号化するように指定する指令を含む製品。
  56. 請求項49の製品において、一つ以上の符号化パラメータを調整する前記指令が、前記開始フレームと前記終了フレームとの少なくとも一方を参照して、前記場面における内部フレームを符号化するように指定する指令を含む製品。
  57. コンピュータプログラム製品であって、コンピュータ読み取り可能媒体に明白に符号化されており、
    データ処理装置にビデオ符号化操作を実行させる指令を備え、その操作は、
    ビデオ情報を受け取り、
    このビデオ情報に動き評価及び補償を実行して、動き評価及び補償パラメータの集合体を生成すると共に、
    前記ビデオ情報における一つ以上のフレームを、前記動き評価及び補償パラメータに基づいて、場面として分類することを含む製品。
  58. 請求項57の製品において、前記一つ以上のフレームの分類が、前記一つ以上のフレームを、代表的な動き評価及び補償パラメータに基づいて、パン場面として分類する指令を含む製品。
  59. 請求項57の製品において、前記一つ以上のフレームの分類が、
    二つ以上のフレームにおけるブロックについての動きベクトルを特定し、
    前記ブロックについての前記動きベクトルがその大きさにおいて比較的に小さいことを判定し、
    前記ブロックについての前記動きベクトルが方向において相関しており、且つ連続的なフレームに亘って連続していることを判定すると共に、
    前記二つ以上のフレームをカメラズーム場面として分類するための指令を含む製品。
  60. 請求項57の製品において、前記一つ以上のフレームを場面として分類することが、
    現在のフレームについての予測誤差メトリックを閾値と比較すると共に
    前記現在のフレームについての前記予測誤差メトリックが前記閾値を越えることに基づいて、場面変化を特定する指令を含む製品。
  61. 請求項60の製品において、前記現在のフレームについての前記予測誤差メトリックを前記閾値と比較する前記指令が操作を含み、この操作は、
    前記現在のフレームについての前記予測誤差を、比較的に多数のフレームに亘る予測誤差メトリックに関する長期閾値と比較すると共に、
    前記現在のフレームについての前記予測誤差を、比較的に少数のフレームに亘る予測誤差メトリックに関する短期閾値と比較することを含む製品。
  62. 請求項60の製品において、前記現在のフレームについての前記予測誤差メトリックを前記閾値と比較することが、現在のフレームと隣接するフレームとの差を閾値と比較する指令を含む製品。
  63. 請求項57の製品において、ビデオ符号化モジュールによる動きモデルについての支援の欠如に基づいて、前記フレームを符号化するビットレートを変化させる指令を更に含む製品。
  64. 請求項63の製品において、前記動き評価及び補償パラメータの変更が、特定のフレームを参照フレームとしての使用から除外する指令を含む製品。
  65. 請求項63の製品において、前記動き評価及び補償パラメータの変更が、最終的な予測フレームにおける前置予測フレームの重みを変更させる指令を含む製品。
  66. 請求項63の製品において、前記動き評価及び補償パラメータの変更が、動き評価を予測するために付加的な計算資源を割り当てる指令を含製品。
  67. 請求項57の製品において、
    一つ以上の符号化パラメータを前記場面分類に基づいて調整すると共に、
    前記場面内のフレームを前記調整された符号化パラメータにより符号化することを更に含む方法。
  68. 請求項67の製品において、一つ以上の符号化パラメータの調整が、特定のフレームを内部符号化フレームとして符号化するように指定することを含む製品。
  69. 請求項67の製品において、一つ以上の符号化パラメータを調整することが、前記場面を符号化するためのビット割り当てを増加させることを含む製品。
  70. コンピュータプログラム製品であって、コンピュータ読み取り可能媒体に明白に符号化されており、データ処理装置にビデオ符号化操作を実行させる指令を含み、その指令は、
    ビデオ情報を受け取り、
    この受け取ったビデオ情報における一つ以上のフレーム内の領域を分類し、その領域は、この領域が出現するフレームよりも小さく、
    一つ以上の符号化パラメータを前記領域の前記分類に基づいて調整すると共に、
    前記調整された符号化パラメータにより前記領域を符号化することを含む製品。
  71. 請求項70の製品において、一つ以上の符号化パラメータを調整することが、前記領域を符号化するためのビット割り当てを増加させることを含む製品。
  72. 請求項70の製品おいて、一つ以上の符号化パラメータを調整することが、前記領域のフィルタリングを低減させることを含む製品。
  73. 請求項70の製品において、前記領域の分類は前記領域を暗い領域として分類することを含む製品。
  74. 請求項73の製品において、前記暗い領域を符号化するためのビット割り当てを増加させることを更に含む製品。
  75. コンピュータプログラム製品であって、コンピュータ読み取り可能媒体に明白に符号化されており、データ処理装置にビデオ符号化操作を実行させる指令を含み、その指令は、
    ビデオ情報を受け取り、
    この受け取ったビデオ情報における場面変化を特定し、
    加重予測を有する予測誤差と加重予測を有さない予測誤差との間の相違に基づいて場面を分類すると共に、
    利用可能な前記場面の分類をなすことを含む製品。
  76. コンピュータプログラム製品であって、コンピュータ読み取り可能媒体に明白に符号化されており、データ処理装置にビデオ符号化操作を実行させる指令を含み、その指令は、
    ビデオ情報を受け取り、
    この受け取ったビデオ情報における場面変化を特定し、
    その場面変化の位置に基づいて場面を分類すると共に、
    利用可能な前記場面の分類をなすことを含む製品。
  77. 請求項76の製品において、前記場面の前記分類を用いて前記ビデオ情報のフィンガープリントを形成する指令を更に含む製品。
  78. 請求項76の製品において、前記ビデオ情報の符号化に用いる符号化パラメータを、前記場面の前記分類に基づいて調整することを更に含む製品。
  79. 請求項76の製品において、前記場面の分類が、符号化モジュールからのフィードバックに基づいて前記場面を分類する指令を含む製品。
  80. 請求項76の製品において、前記場面変化の特定が、
    フェード場面を特定すると共に、
    このフェード場面の終端におけるフレームを場面変化として分類する指令を含む製品。
  81. 請求項76の製品において、前記場面変化を特定することが、現在のフレームに先行する参照フレームからの加重予測パラメータと、前記現在のフレームに続く参照フレームからの加重予測パラメータとに基づいて、フェード場面を検出する指令を含む製品。
  82. 請求項76の製品において、前記場面変化を特定することが、
    現在の場面がフラッシュを含むことを認識すると共に、
    この現在の場面がフラッシュを含むという認識に基づいて、現在の場面を場面変化としての特定から除外することを含む製品。
  83. コンピュータプログラム製品であって、コンピュータ読み取り可能媒体に明白に符号化されており、データ処理装置にビデオ符号化操作を実行させる指令を含み、その操作は、
    ビデオ情報のフレームのシーケンスにおける輝度の特性を受け取り、
    前記フレームのシーケンスにおける一つ以上のフレームを、前記輝度の前記特性に基づいて、場面として分類すると共に、
    利用可能な一つ以上の場面分類をなすこと含む製品。
  84. 請求項83の製品において、前記一つ以上のフレームの分類が、前記一つ以上のフレームの間の前記輝度の変化の量に基づいて、前記一つ以上のフレームを早いフェード及び遅いフェードとして分類する指令を含む製品。
  85. 請求項83の製品において、
    一つ以上の符号化パラメータを前記場面分類に基づいて調整すると共に、
    この調整された符号化パラメータにより前記ビデオ情報を符号化する指令を更に含む製品。
  86. 請求項85の製品において、
    前記一つ以上のフレームを分類することが、前記一つ以上のフレームを暗い場面として分類することを含むと共に、
    前記ビデオ情報を符号化することが、前記暗い場面に基づいてビット割り当てを増大させることを含む製品。
  87. コンピュータプログラム製品であって、コンピュータ読み取り可能媒体に明白に符号化されており、データ処理装置にビデオ符号化操作を実行させる指令を含み、その操作は、
    ビデオ情報のフレームのシーケンスを受け取り、
    前記シーケンス内の前記フレームの各々についての優勢な動きベクトルを判定すると共に、
    前記シーケンス内の前記フレームの前記優勢動きベクトルに基づいて場面変化を特定することを含む製品。
  88. 請求項87の製品において、前記優勢動きベクトルの判定が、
    何れの動きベクトルが出現するかの頻度を体現する多次元動きベクトルヒストグラムを形成すると共に、
    前記ヒストグラム内で何れの動きベクトルが出現するかの前記頻度に基づいて前記優勢動きベクトルを選択する指令を含む製品。
  89. コンピュータプログラム製品であって、コンピュータ読み取り可能媒体に明白に符号化されており、データ処理装置にビデオ符号化操作を実行させる指令を含み、その操作は、
    ビデオ情報のフレームのシーケンスの輝度の特性を受け取り、
    この輝度の特性に基づいて、前記シーケンス内の一つ以上のフレームをフラッシュを含むものとして認識すると共に、
    前記フラッシュを含む前記フレームを、動き補償参照フレームとしての使用から除外することを含む製品。
JP2010527007A 2007-09-28 2008-09-08 ビデオ情報処理 Expired - Fee Related JP5524063B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US97624107P 2007-09-28 2007-09-28
US60/976,241 2007-09-28
PCT/US2008/075600 WO2009045682A2 (en) 2007-09-28 2008-09-08 Treating video information

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013031527A Division JP5714042B2 (ja) 2007-09-28 2013-02-20 ビデオ情報処理

Publications (3)

Publication Number Publication Date
JP2011507314A true JP2011507314A (ja) 2011-03-03
JP2011507314A5 JP2011507314A5 (ja) 2011-11-24
JP5524063B2 JP5524063B2 (ja) 2014-06-18

Family

ID=40508274

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010527007A Expired - Fee Related JP5524063B2 (ja) 2007-09-28 2008-09-08 ビデオ情報処理
JP2013031527A Active JP5714042B2 (ja) 2007-09-28 2013-02-20 ビデオ情報処理

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013031527A Active JP5714042B2 (ja) 2007-09-28 2013-02-20 ビデオ情報処理

Country Status (6)

Country Link
US (2) US8243790B2 (ja)
EP (1) EP2193663B1 (ja)
JP (2) JP5524063B2 (ja)
CN (2) CN101855911B (ja)
HU (1) HUE037450T2 (ja)
WO (1) WO2009045682A2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012217165A (ja) * 2011-03-31 2012-11-08 Fujitsu Ltd ビデオにおけるカメラ動きの型を検出する方法および装置
WO2013069990A1 (ko) * 2011-11-08 2013-05-16 삼성전자 주식회사 비디오 부호화 또는 비디오 복호화를 위한 움직임 벡터 결정 방법 및 장치
US9307240B2 (en) 2011-08-29 2016-04-05 Ntt Electronics Corporation Fade type determination device
JP2016171510A (ja) * 2015-03-13 2016-09-23 日本放送協会 予測符号化判定装置、符号化装置、及びプログラム
US9554156B2 (en) 2010-09-03 2017-01-24 Dolby Laboratories Licensing Corporation Method and system for illumination compensation and transition for video coding and processing

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI401944B (zh) * 2007-06-13 2013-07-11 Novatek Microelectronics Corp 用於視訊處理系統之雜訊消除裝置
EP2188979A2 (en) * 2007-09-10 2010-05-26 Nxp B.V. Method and apparatus for motion estimation in video image data
US9979972B2 (en) * 2007-10-05 2018-05-22 Thomson Licensing Dtv Method and apparatus for rate control accuracy in video encoding and decoding
KR101336951B1 (ko) * 2007-11-02 2013-12-04 삼성전자주식회사 휴대 단말기 및 그 파노라마 이미지 촬영 모드 수행 방법
US8570375B1 (en) * 2007-12-04 2013-10-29 Stoplift, Inc. Method and apparatus for random-access review of point of sale transactional video
JP5191240B2 (ja) * 2008-01-09 2013-05-08 オリンパス株式会社 シーン変化検出装置およびシーン変化検出プログラム
JP5232175B2 (ja) * 2008-01-24 2013-07-10 パナソニック株式会社 動画像圧縮装置
WO2009112971A2 (en) * 2008-03-10 2009-09-17 Koninklijke Philips Electronics N.V. Video processing
JP4963680B2 (ja) * 2008-03-27 2012-06-27 株式会社メガチップス 画像処理装置
US8195001B2 (en) 2008-04-09 2012-06-05 Intel Corporation In-loop adaptive wiener filter for video coding and decoding
TW201004361A (en) * 2008-07-03 2010-01-16 Univ Nat Cheng Kung Encoding device and method thereof for stereoscopic video
US8175161B1 (en) * 2008-09-12 2012-05-08 Arecont Vision, Llc. System and method for motion estimation
EP2345258A4 (en) * 2008-11-12 2012-04-25 Thomson Licensing ELIMINATION OF FRAME SCINTILLE I FOR MULTIPHREAD VIDEO CODING PARALLEL TO THE GOP
US9143788B2 (en) * 2008-11-13 2015-09-22 Thomson Licensing Multiple thread video encoding using HRD information sharing and bit allocation waiting
US8665326B2 (en) * 2009-01-30 2014-03-04 Olympus Corporation Scene-change detecting device, computer readable storage medium storing scene-change detection program, and scene-change detecting method
US8269885B2 (en) * 2009-04-03 2012-09-18 Samsung Electronics Co., Ltd. Fade in/fade-out fallback in frame rate conversion and motion judder cancellation
GB2469528B (en) * 2009-04-18 2011-10-05 Saffron Digital Ltd Transcoding video data
US8537175B1 (en) * 2009-05-07 2013-09-17 Google Inc. Video enhancement for large scale applications
KR101702156B1 (ko) * 2009-05-16 2017-02-13 톰슨 라이센싱 비디오 인코딩 및 디코딩에 대한 개선된 양자화 라운딩 오프셋 조정을 위한 방법들 및 장치
US9179161B2 (en) * 2009-05-20 2015-11-03 Nissim Nissimyan Video encoding
US8498330B2 (en) * 2009-06-29 2013-07-30 Hong Kong Applied Science and Technology Research Institute Company Limited Method and apparatus for coding mode selection
US8588296B2 (en) * 2009-07-02 2013-11-19 Dialogic Corporation Bitrate control algorithm for video transcoding systems
JP2011029987A (ja) * 2009-07-27 2011-02-10 Toshiba Corp 圧縮歪除去装置
US9729888B2 (en) 2009-09-10 2017-08-08 Dolby Laboratories Licensing Corporation Speedup techniques for rate distortion optimized quantization
US9118912B2 (en) * 2009-12-14 2015-08-25 Thomson Licensing Object-aware video encoding strategies
US20160182971A1 (en) * 2009-12-31 2016-06-23 Flickintel, Llc Method, system and computer program product for obtaining and displaying supplemental data about a displayed movie, show, event or video game
JP2011227153A (ja) * 2010-04-15 2011-11-10 Canon Inc 画像表示装置、画像表示方法
KR101791078B1 (ko) 2010-04-16 2017-10-30 에스케이텔레콤 주식회사 영상 부호화/복호화 장치 및 방법
US8660174B2 (en) * 2010-06-15 2014-02-25 Mediatek Inc. Apparatus and method of adaptive offset for video coding
JP2011259204A (ja) * 2010-06-09 2011-12-22 Sony Corp 画像復号化装置と画像符号装置およびその方法とプログラム
EP2424243B1 (en) * 2010-08-31 2017-04-05 OCT Circuit Technologies International Limited Motion estimation using integral projection
US20120069895A1 (en) * 2010-09-17 2012-03-22 David Frederique Blum High Quality Video Encoder
US9055305B2 (en) * 2011-01-09 2015-06-09 Mediatek Inc. Apparatus and method of sample adaptive offset for video coding
KR101834470B1 (ko) * 2010-11-29 2018-03-05 톰슨 라이센싱 영상의 자기-유사성 텍스쳐드 영역을 재구성하기 위한 방법 및 디바이스
US9258573B2 (en) * 2010-12-07 2016-02-09 Panasonic Intellectual Property Corporation Of America Pixel adaptive intra smoothing
JP2012142702A (ja) * 2010-12-28 2012-07-26 Sony Corp 画像処理装置および方法、並びにプログラム
US9161041B2 (en) 2011-01-09 2015-10-13 Mediatek Inc. Apparatus and method of efficient sample adaptive offset
US9807424B2 (en) 2011-01-10 2017-10-31 Qualcomm Incorporated Adaptive selection of region size for identification of samples in a transition zone for overlapped block motion compensation
WO2012117744A1 (en) 2011-03-03 2012-09-07 Panasonic Corporation Method of encoding an image into a coded image, method of decoding a coded image, and apparatuses thereof
WO2012126627A1 (en) * 2011-03-22 2012-09-27 Panasonic Corporation Classifications in cascaded filtering
WO2012134046A2 (ko) * 2011-04-01 2012-10-04 주식회사 아이벡스피티홀딩스 동영상의 부호화 방법
US8804820B2 (en) * 2011-04-21 2014-08-12 Dialogic Corporation Rate control with look-ahead for video transcoding
US9232233B2 (en) * 2011-07-01 2016-01-05 Apple Inc. Adaptive configuration of reference frame buffer based on camera and background motion
KR101175597B1 (ko) * 2011-09-27 2012-08-21 (주)올라웍스 아다부스트 학습 알고리즘을 이용하여 얼굴 특징점 위치를 검출하기 위한 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체
JP2014241457A (ja) * 2011-10-04 2014-12-25 シャープ株式会社 シーンチェンジ検出装置、表示装置、シーンチェンジ検出方法およびシーンチェンジ検出プログラム
US10051289B2 (en) 2011-11-04 2018-08-14 Qualcomm Incorporated Adaptive center band offset filter for video coding
US8774146B2 (en) * 2011-12-19 2014-07-08 Alcatel Lucent Large-scale antenna method and apparatus of wireless communication with suppression of intercell interference
US10536726B2 (en) * 2012-02-24 2020-01-14 Apple Inc. Pixel patch collection for prediction in video coding system
US9326008B2 (en) 2012-04-10 2016-04-26 Google Inc. Noise reduction for image sequences
US9532080B2 (en) 2012-05-31 2016-12-27 Sonic Ip, Inc. Systems and methods for the reuse of encoding information in encoding alternative streams of video data
JP6046923B2 (ja) * 2012-06-07 2016-12-21 キヤノン株式会社 画像符号化装置、画像符号化方法及びプログラム
US9451288B2 (en) 2012-06-08 2016-09-20 Apple Inc. Inferred key frames for fast initiation of video coding sessions
US9270993B2 (en) 2012-09-10 2016-02-23 Apple Inc. Video deblocking filter strength derivation
WO2014120369A1 (en) * 2013-01-30 2014-08-07 Intel Corporation Content adaptive partitioning for prediction and coding for next generation video
US9357210B2 (en) 2013-02-28 2016-05-31 Sonic Ip, Inc. Systems and methods of encoding multiple video streams for adaptive bitrate streaming
US8731282B1 (en) * 2013-02-28 2014-05-20 Sonic Ip, Inc. Systems and methods for region of interest background smoothing and compression enhancement
US9813706B1 (en) * 2013-12-02 2017-11-07 Google Inc. Video content analysis and/or processing using encoding logs
WO2015095166A2 (en) * 2013-12-16 2015-06-25 Arris Enterprises, Inc. Producing an output need parameter for an encoder
CN104980677B (zh) * 2014-04-02 2018-12-14 联想(北京)有限公司 一种在视频中添加标签的方法及装置
FR3022724A1 (fr) * 2014-06-19 2015-12-25 Orange Procede de codage et de decodage d'images, dispositif de codage et de decodage d'images et programmes d'ordinateur correspondants
CN104202604B (zh) * 2014-08-14 2017-09-22 深圳市腾讯计算机系统有限公司 视频增强的方法和装置
US20160057428A1 (en) * 2014-08-21 2016-02-25 Facebook, Inc. Systems and methods for blurriness bounding for videos
US9799376B2 (en) * 2014-09-17 2017-10-24 Xiaomi Inc. Method and device for video browsing based on keyframe
DE102014220809A1 (de) * 2014-10-14 2016-04-14 Siemens Aktiengesellschaft Vorrichtung und Verfahren zum Detektieren eines sich bewegenden Objekts
CA2972961C (en) * 2015-01-05 2021-06-01 Arris Enterprises Llc Using motion compensated temporal filter (mctf) statistics for scene change detection when a fade, dissolve or cut occurs
CN107004018B (zh) * 2015-03-27 2020-11-17 华为技术有限公司 数据处理方法及装置
US10735773B2 (en) * 2015-06-04 2020-08-04 Apple Inc. Video coding techniques for high quality coding of low motion content
WO2017015958A1 (zh) * 2015-07-30 2017-02-02 华为技术有限公司 一种视频编解码方法及装置
KR20170054900A (ko) * 2015-11-10 2017-05-18 삼성전자주식회사 디스플레이 장치 및 그 제어 방법
CN105898106A (zh) * 2015-12-11 2016-08-24 乐视云计算有限公司 场景切换帧判断方法及装置
JP6789682B2 (ja) * 2016-06-13 2020-11-25 キヤノン株式会社 撮像装置、その制御方法、及びプログラム
CN110769255B (zh) * 2016-06-30 2022-04-22 华为技术有限公司 一种图像编码方法及装置
WO2018028615A1 (en) * 2016-08-12 2018-02-15 Mediatek Inc. Methods and apparatuses of predictor-based partition in video processing system
CN107071577A (zh) * 2017-04-24 2017-08-18 安徽森度科技有限公司 一种视频传送签名方法
US20190045213A1 (en) * 2017-08-03 2019-02-07 Intel Corporation Reference frame reprojection for improved video coding
US10623744B2 (en) * 2017-10-04 2020-04-14 Apple Inc. Scene based rate control for video compression and video streaming
US10681374B2 (en) * 2017-11-16 2020-06-09 Google Llc Diversified motion using multiple global motion models
US11093788B2 (en) * 2018-02-08 2021-08-17 Intel Corporation Scene change detection
JP7014041B2 (ja) * 2018-05-11 2022-02-01 株式会社デンソー レーダ装置
CN109120934B (zh) * 2018-09-25 2020-06-23 杭州电子科技大学 一种适用于hevc视频编码的帧级量化参数计算方法
US20200169760A1 (en) * 2018-11-28 2020-05-28 Ati Technologies Ulc Scene change detection and handling
CN109685036B (zh) * 2019-01-07 2020-10-27 哈尔滨工业大学(深圳) 一种结构响应缓变和瞬变成分分离方法
US11310496B2 (en) * 2019-03-27 2022-04-19 Ati Technologies Ulc Determining quality values for blocks of encoded video
CN110248195B (zh) * 2019-07-17 2021-11-05 北京百度网讯科技有限公司 用于输出信息的方法和装置
US11128688B2 (en) * 2019-10-16 2021-09-21 Disney Enterprises, Inc. Transcoder conditioning for segment fluidity
CN113518227B (zh) * 2020-04-09 2023-02-10 于江鸿 数据处理的方法和系统
US20210325508A1 (en) * 2021-06-24 2021-10-21 Intel Corporation Signal-to-Noise Ratio Range Consistency Check for Radar Ghost Target Detection
CN113676729A (zh) * 2021-07-12 2021-11-19 杭州未名信科科技有限公司 一种视频编码的方法、装置、计算机设备及存储介质
US11599605B1 (en) * 2021-11-09 2023-03-07 Hidden Pixels, LLC System and method for dynamic data injection
CN115630191B (zh) * 2022-12-22 2023-03-28 成都纵横自动化技术股份有限公司 基于全动态视频的时空数据集检索方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000115778A (ja) * 1998-09-25 2000-04-21 Sarnoff Corp ビデオ・デ―タ中のフラッシュ・フレ―ムの検出および符号化
JP2002010270A (ja) * 2000-06-27 2002-01-11 Mitsubishi Electric Corp 画像符号化装置及び画像符号化方法
JP2002051341A (ja) * 2000-08-02 2002-02-15 Fujitsu Ltd 動画像符号化装置および動画像の特殊効果シーン検出装置
JP2004128550A (ja) * 2002-09-30 2004-04-22 Kddi R & D Laboratories Inc 動画像データのシーン分類装置
WO2005086478A1 (ja) * 2004-03-04 2005-09-15 Seiko Epson Corporation 動画像データ処理

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US646310A (en) * 1899-06-26 1900-03-27 Nathan Goldtree Device for convenient filling of lamps.
JPH0422A (ja) 1990-04-13 1992-01-06 Viscodrive Japan Kk ビスカスカップリング
JPH042276A (ja) * 1990-04-19 1992-01-07 Fuji Photo Film Co Ltd 画像信号圧縮符号化装置
US6178265B1 (en) * 1994-09-22 2001-01-23 Intel Corporation Method and apparatus for motion vector compression
JP3517455B2 (ja) 1994-09-30 2004-04-12 キヤノン株式会社 画像符号化方法及び装置
CN1238837C (zh) * 1996-10-15 2006-01-25 松下电器产业株式会社 声音编码方法和编码装置
WO1999016251A1 (en) * 1997-09-23 1999-04-01 Koninklijke Philips Electronics N.V. Motion estimation and motion-compensated interpolation
KR100243430B1 (ko) * 1997-12-31 2000-02-01 구자홍 적응형 양자화 제어방법
US6792152B1 (en) 1998-03-05 2004-09-14 Matsushita Electric Industrial Co., Ltd. Image coding method, image coding/decoding method, image coder, or image recording/reproducing apparatus
JP2002084544A (ja) * 2000-09-06 2002-03-22 Mitsubishi Electric Corp 動画像符号化装置および動画像符号化方法
US7038736B2 (en) * 2000-09-21 2006-05-02 Canon Kabushiki Kaisha Moving image processing apparatus and method, and computer readable memory
US7068722B2 (en) * 2002-09-25 2006-06-27 Lsi Logic Corporation Content adaptive video processor using motion compensation
US20060271947A1 (en) 2005-05-23 2006-11-30 Lienhart Rainer W Creating fingerprints
FR2887731A1 (fr) * 2005-06-23 2006-12-29 Nextream France Sa Methode et dispositif de detection de fondus dans une sequence d'images
JP4236654B2 (ja) * 2005-09-13 2009-03-11 株式会社東芝 動画像符号化装置及びその方法
US8879857B2 (en) * 2005-09-27 2014-11-04 Qualcomm Incorporated Redundant data encoding methods and device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000115778A (ja) * 1998-09-25 2000-04-21 Sarnoff Corp ビデオ・デ―タ中のフラッシュ・フレ―ムの検出および符号化
JP2002010270A (ja) * 2000-06-27 2002-01-11 Mitsubishi Electric Corp 画像符号化装置及び画像符号化方法
JP2002051341A (ja) * 2000-08-02 2002-02-15 Fujitsu Ltd 動画像符号化装置および動画像の特殊効果シーン検出装置
JP2004128550A (ja) * 2002-09-30 2004-04-22 Kddi R & D Laboratories Inc 動画像データのシーン分類装置
WO2005086478A1 (ja) * 2004-03-04 2005-09-15 Seiko Epson Corporation 動画像データ処理

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9554156B2 (en) 2010-09-03 2017-01-24 Dolby Laboratories Licensing Corporation Method and system for illumination compensation and transition for video coding and processing
JP2012217165A (ja) * 2011-03-31 2012-11-08 Fujitsu Ltd ビデオにおけるカメラ動きの型を検出する方法および装置
US9307240B2 (en) 2011-08-29 2016-04-05 Ntt Electronics Corporation Fade type determination device
WO2013069990A1 (ko) * 2011-11-08 2013-05-16 삼성전자 주식회사 비디오 부호화 또는 비디오 복호화를 위한 움직임 벡터 결정 방법 및 장치
US9204163B2 (en) 2011-11-08 2015-12-01 Samsung Electronics Co., Ltd. Method and apparatus for motion vector determination in video encoding or decoding
US9225995B2 (en) 2011-11-08 2015-12-29 Samsung Electronics Co., Ltd. Method and apparatus for motion vector determination in video encoding or decoding
US9332273B2 (en) 2011-11-08 2016-05-03 Samsung Electronics Co., Ltd. Method and apparatus for motion vector determination in video encoding or decoding
US9451282B2 (en) 2011-11-08 2016-09-20 Samsung Electronics Co., Ltd. Method and apparatus for motion vector determination in video encoding or decoding
JP2016171510A (ja) * 2015-03-13 2016-09-23 日本放送協会 予測符号化判定装置、符号化装置、及びプログラム

Also Published As

Publication number Publication date
CN101855911B (zh) 2013-06-19
CN103124354A (zh) 2013-05-29
EP2193663A2 (en) 2010-06-09
JP5714042B2 (ja) 2015-05-07
JP2013138489A (ja) 2013-07-11
WO2009045682A3 (en) 2010-09-16
CN103124354B (zh) 2016-01-20
CN101855911A (zh) 2010-10-06
US20090086814A1 (en) 2009-04-02
US20120275514A1 (en) 2012-11-01
WO2009045682A2 (en) 2009-04-09
HUE037450T2 (hu) 2018-09-28
US8750372B2 (en) 2014-06-10
JP5524063B2 (ja) 2014-06-18
EP2193663B1 (en) 2017-11-08
US8243790B2 (en) 2012-08-14

Similar Documents

Publication Publication Date Title
JP5714042B2 (ja) ビデオ情報処理
EP3389276B1 (en) Hash-based encoder decisions for video coding
JP4047879B2 (ja) 動きベクトル検出装置および動きベクトル検出方法
US8902986B2 (en) Look-ahead system and method for pan and zoom detection in video sequences
KR20040006065A (ko) 장면전환검출장치 및 그 방법
US10623744B2 (en) Scene based rate control for video compression and video streaming
JP2010500818A (ja) 漫画アニメーション圧縮のためのシステムおよび方法
KR101149522B1 (ko) 장면 전환 검출 시스템 및 방법
Yao et al. Detecting video frame-rate up-conversion based on periodic properties of edge-intensity
Lin et al. PEA265: Perceptual assessment of video compression artifacts
US7295711B1 (en) Method and apparatus for merging related image segments
Muhit et al. Video coding using fast geometry-adaptive partitioning and an elastic motion model
Gorur et al. Skip decision and reference frame selection for low-complexity H. 264/AVC surveillance video coding
US20080112487A1 (en) Image search methods for reducing computational complexity of motion estimation
Bachu et al. Adaptive order search and tangent-weighted trade-off for motion estimation in H. 264
Jung et al. Frame-rate conversion detection based on periodicity of motion artifact
KR100816013B1 (ko) 압축영상의 장면전환 검출장치 및 방법
Islam et al. Classification based inter-frame prediction in video compression
Fan et al. Spatiotemporal segmentation based on two-dimensional spatiotemporal entropic thresholding
JP4763241B2 (ja) 動き予測情報検出装置
JP2008072608A (ja) 画像符号化装置及び画像符号化方法
Cai et al. Object-based video coding with dynamic quality control
KR100413002B1 (ko) 동영상 부호화기의 확산누적배열을 이용한 블록정합 장치및 그 방법
Kim et al. An automatic shot change detection algorithm using weighting variance and histogram variation
Eom et al. Scene change detection on H. 264/AVC compressed video using intra mode distribution histogram based on intra prediction mode

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110811

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110831

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110906

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110906

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110831

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140409

R150 Certificate of patent or registration of utility model

Ref document number: 5524063

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees