JP2010503265A - 解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置 - Google Patents

解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置 Download PDF

Info

Publication number
JP2010503265A
JP2010503265A JP2009526636A JP2009526636A JP2010503265A JP 2010503265 A JP2010503265 A JP 2010503265A JP 2009526636 A JP2009526636 A JP 2009526636A JP 2009526636 A JP2009526636 A JP 2009526636A JP 2010503265 A JP2010503265 A JP 2010503265A
Authority
JP
Japan
Prior art keywords
distortion
zero
video coding
video
zero quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009526636A
Other languages
English (en)
Other versions
JP5087624B2 (ja
Inventor
ヤン,ホア
ボイス,ジル,マクドナルド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2010503265A publication Critical patent/JP2010503265A/ja
Application granted granted Critical
Publication of JP5087624B2 publication Critical patent/JP5087624B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置が提供される。装置は、ビデオ符号化歪みを第1の部分及び第2の部分に分け、第1の部分を実験計算により計算し、第2の部分を解析計算により計算することによって、ビデオ符号化歪みをモデル化する歪み計算器(315,320)を有する。

Description

本発明は、概して、ビデオ符号化に関し、より具体的には、解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置に関する。
ビデオ符号化においては、ビデオフレームのレート歪み(RD(Rate-Distortion))曲線を正確に推定する最適な方法を決定することが望ましい。フレームのレート歪み特性が知られている場合は、全体の最適化された符号化性能が達成されるように、適切に、制限された符号化リソース、通常は符号化ビットレートを、異なるフレームに配分することが可能である。ほとんどの場合、問題は、レート歪みを最適化されたフレームレベルビットレート配分として現れる。この場合に、目的は、特定の総ビットレート及びバッファ制約を前提として、平均又は最大平均二乗誤差(MSE)ソース符号化歪みのいずれかを最小化することである。従って、フレームのレート歪み特性が正確に推定され得るか否かは、結果として得られる全体のレート制御性能に大いに影響を及ぼしうる。
実際に、既存のビデオ符号化標準は、符号化のための有限数の量子化スケールを特定する。有効なレート制御は、夫々の正規の量子化スケールを適用した後に、フレームの、結果として得られるレート歪みデータを知る工程を実行され得る。便宜上、我々の議論では、変換符号化のための予測残余データは予め利用可能であるとされる。この場合に、問題は、全ての有効なQについて全てのR−Q及びD−Qを計算することである。ここで、“R−Q”は、あるQを有する結果として得られる符号化ビットを表し、“D−Q”は、あるQを有する結果として得られる符号化歪みを表し、“Q”は量子化スケール、すなわち量子化ステップサイズを表す。留意すべきは、Qと、ビデオ符号化標準及び提言で定義される(QPによって表される)量子化パラメータとの間には1対1のマッピングが存在する点である。例えば、国際標準化機構(International Organization for Standardization)/国際電気標準化会議(International Electrotechnical Commission)(ISO/IEC)、MPEG(Moving Picture Experts Group)−4、パート10、AVC(Advanced Video Coding)標準/国際電気通信連合(International Telecommunication Union)、電気通信標準化部門(Telecommunication Sector)(ITU−T)H.264提言(以降、“MPEG−4AVC標準”)で、QPは0から51の範囲を有し、夫々のQPは、ある量子化ステップサイズ又はスケールQに対応する。レート歪みデータを正確に計算すべく、ブルートフォース(brut force)を用いて、全てのQを有してフレームを余すところなく符号化する必要がある。網羅的な計算は最も高い精度を提供するが、それはまた、法外な計算複雑性をもたらす。従って、実際に、多数の様々なレート歪みモデルが、低い又は低減された複雑性を有する正確なレート歪みデータ推定目標として、提案されている。
ほとんどの既存のレート歪みモデルは、解析モデルである。かかる解析モデルで、R又はDは、量子化スケールDに関する陽関数及び残余信号(residue signal)σの分散として表される。
原理上は、フレームの符号化の結果として得られるレート及び歪みは、量子化スケールのみならずソースビデオ信号自体の特性にも関連する。しかし、ソースビデオ信号の特性は非定常である。従って、解析モデルでは、予測残余信号の分散は、一般に、非定常のビデオ信号を考慮するよう選ばれる。歪みモデル化に関して、1つの先行技術による歪み推定アプローチで歪み推定はQ及びσに関する統合的な関数の簡単な形式を有することができるが、他のアプローチで、Dは、σに対するQの異なる相対的な大きさに従って異なるD−Q又はD−σの関係を与える区分的関数を介してより正確に推定さえ得る。解析的なレート及び歪みモデル化の最も注目すべき利点は、その低い計算複雑性である。最初にσを計算することしか必要とせず、次いで、前出の関数に従って直接にR又はDを推定することができる。分散の計算は、変形及び量子化の延在を必要とせずに、単に空間領域の残余信号で行われ得、従って、極めて低い計算複雑性をもたらす。しかし、D−Qの解析的なモデル化の欠点は、その妥協した推定精度である。これは、大部分は、レート歪み推定での映像信号の非定常性の影響を十分に考慮するために分散しか用いないという不備のためである。この欠点は、つい最近のρ領域での解析RDモデルで改善される。この場合に、従来のR−Q及びD−Qモデルに代えて、新しいモデルは、Qとの1対1のマッピングを有するρによって表される零量子化係数のパーセンテージに基づく。留意すべきは、ρは、変換される残余信号にQを適用した結果であり、従って、Qの情報のみならず非定常のソースビデオ信号の情報をも反映する点である。ρ領域モデルは、他の既存のQに基づくモデルよりも良いモデル化性能をもたらすが、一方で、離散コサイン変換(DCT)の付加的な関与により計算複雑性がわずかに増す。
解析モデルは、RDとQ(又はρ)との間の一定の明示的な関係を想定する。しかし、実際には、フレームの実際のレート歪みデータは、しばしば全く滑らかでない又は区分的に滑らかでない演算上のレート歪み曲線を示す。このような不整合は、解析モデルの推定精度を大いにおとしめうる。高い精度を確かにすべく、更に複雑性を低減しながら、実験的アプローチが提案された。このアプローチでは、網羅的な符号化は、選択されたQの小さな組についてのみ行われ、残りのQのレート歪みデータは、利用可能なものから補間される。実験モデルのモデル化精度は解析モデルの精度よりも良いが、それは、かなりの量の付加的な計算負荷を更にもたらす多数の付加的な符号化動作を必要とし、リアルタイムのビデオストリーミングシステムで常に受け入れられるわけではない。
また、Rモデル化に関して、ρ領域モデルがすでに高い推定精度を達成し、更なる改善のための機会が極めて制限されることは、注目に値する。しかし、Dモデル化に関して、ρ領域モデル及び既存のQに基づくモデルは両方とも、ρ領域Rモデルの推定性能と同じくらい良い推定性能を示すことはできない。
先行技術の上記及び他の欠点及び不利な点は、本原理によって対処される。本原理は、解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置を対象とする。
本原理の一観点に従って、装置が提供される。当該装置は、ビデオ符号化歪みを第1の部分及び第2の部分に分け、該第1の部分を実験計算により計算し、該第2の部分を解析計算により計算することによって、前記ビデオ符号化歪みをモデル化する歪み計算器を有する。
本原理の他の観点に従って、装置が提供される。当該装置は、画像データのビデオ符号化歪みをモデル化することによって該画像データを符号化するビデオエンコーダを有する。前記ビデオエンコーダは、前記ビデオ符号化歪みを第1の部分及び第2の部分に分け、該第1の部分を実験計算により計算し、該第2の部分を解析計算により計算することによって、当該ビデオ符号化歪みをモデル化する。
本原理の更なる他の観点に従って、方法が提供される。当該方法は、ビデオ符号化歪みをモデル化するモデル化工程を有する。このモデル化工程は、前記ビデオ符号化歪みを第1の部分及び第2の部分に分ける分割工程と、前記第1の部分を実験計算により計算する工程と、前記第2の部分を解析計算により計算する工程とを有する。
本原理は、以下の例となる図面に従ってより良く理解され得る。
本原理の実施形態に従う、複合型の歪みモデルに関連する例となる方法のフロー図である。 本原理の実施形態に従う、ビデオフレームのD−QPデータを推定する例となる方法のフロー図である。 本原理の実施形態に従う、推定されるレート歪みモデルデータの生成に関連する例となる前置アナライザのブロック図である。 本原理の実施形態に従う、図1の複合型の歪みモデルが適用され得る例となるフレームレベル・レートコントローラのブロック図である。 本原理の実施形態に従う、一般にフレームレベル及びMBレベルのレート制御を用いる例となるビデオエンコーダのブロック図である。
本原理のこれら及び他の観点、特徴及び効果は、添付の図面に関連して読まれるべき例となる実施形態の以下の詳細な記載から明らかになるであろう。
本原理は、解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置を対象とする。
本明細書は本原理を表す。従って、当業者が、ここで明示的に記載又は図示されてなくとも、本原理を具現し且つその精神及び適用範囲の中に含まれる様々な配置に想到しうることは、明らかである。
ここに挙げられている全ての例及び条件付きの専門用語は、当該技術の増進に本発明者によって寄与される原理及び概念を理解する際に読み手の助けとなるよう教育上の目的を有し、更に、このように具体的に挙げられている例及び条件に限定されることなく解釈されるべきである。
更に、本原理の原理、観点及び実施形態、並びにそれらの具体例をここで挙げている全ての記述は、それらの構造上及び機能上の等価なものを包含するよう意図されている。加えて、このような等価なものは、現在知られている相当物及び将来開発される相当物、すなわち、構造に関わらず、同じ機能を実行するよう開発されたあらゆる要素を含むことが意図されている。
従って、例えば、当業者には明らかなように、ここに表されているブロック図は、本原理を具現する実例となる回路の概念視点を表す。同様に、あらゆるフローチャート、フロー図、状態遷移図、擬似コード、及びその他も、コンピュータ読取可能な媒体に実質的に表され且つコンピュータ又はプロセッサによって、このようなコンピュータ又はプロセッサが明示的に示されていようとなかろうと、そのように実行され得る様々な処理を表すことは明らかである。
図中に示される様々な要素の機能は、専用のハードウェア及び、適切なソフトウェアと関連してソフトウェアを実行することができるハードウェアの使用を通して提供され得る。プロセッサによって提供される場合に、機能は、単一の専用プロセッサによって、単一の共有プロセッサによって、又は、幾つかは共有され得る複数の個々のプロセッサによって提供され得る。更に、用語“プロセッサ”又は“コントローラ”の明示的な使用は、専らソフトウェアを実行可能なハードウェアのみを指しているよう解釈されるべきではなく、限定されることなく、デジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを記憶する読出専用メモリ(ROM)、ランダムアクセスメモリ(RAM)及び不揮発性記憶装置を暗に含みうる。
従来型及び/又はカスタムの他のハードウェアが、また、使用されても良い。同様に、図中に示される如何なるスイッチも単に概念であるにすぎない。それらの機能は、プログラムロジックの動作を通して、専用のロジックを通して、プログラム制御及び専用のロジックの相互作用を通して、又は手動で実行され得る。特定の技術は、文脈からより具体的に理解されるように開発者によって選択可能である。
特許請求の範囲で、特定される機能を実行するための手段として表される如何なる要素も、例えば、a)その機能を実行する回路素子の組み合わせ、あるいはb)機能を実行するようそのソフトウェアを実行するための適切な回路と組み合わされる、ファームウェア、マイクロコードその他を含むあらゆる形のソフトウェアを含め、その機能を実行するあらゆる方法を包含するよう意図される。このような特許請求の範囲によって定義される本原理は、様々な列挙される手段によって提供される機能性が、特許請求の範囲が求めるように組み合わされてまとめられるという事実にある。このようにして、かかる機能性を提供することができる如何なる手段も、ここで示されているものと等価であると考えられる。
本原理の“一実施形態”又は“実施形態”に対する明細書中の参照は、その実施形態に関連して記載される特定の特徴、構造、特性その他が本原理の少なくとも1つの実施形態に含まれることを意味する。このようにして、明細書全体を通して様々な箇所に現れる“一実施形態で”又は“実施形態で”というフレーズの出現は、必ずしも全て同じ実施形態を指しているわけではない。
当然、本原理の1又はそれ以上の実施形態はMPEG−4AVC標準に関連してここで記載されるが、本原理はこの標準にのみ限定されず、従って、本原理の精神を保ちながら、MPEG−4AVC標準の拡張を含め、他のビデオ符号化標準、提言及びそれらの拡張に関して利用され得る。
更に、当然、本原理の1又はそれ以上の実施形態は、輝度成分の歪みに関してここで記載されるが、本原理は同様にクロミナンス成分の歪みに適用可能である。このようにして、本原理は、本原理の精神を保ちながら、輝度成分及び/又はクロミナンス成分の歪みに関して使用され得る。
更に、当然、語“及び/又は”の使用は、例えば“A及び/又はB”の場合に、最初に挙げられている選択肢(A)の選択、次に挙げられている選択肢(B)の選択、あるいは、両方の選択肢(A及びB)の選択を包含するよう意図される。更なる例として、“A、B及び/又はC”の場合に、このような言い回しは、最初に挙げられている選択肢(A)の選択、2番目に挙げられている選択肢(B)の選択、3番目に挙げられている選択肢(C)の選択、最初と2番目に挙げられている選択肢(A及びB)の選択、最初と3番目に挙げられている選択肢(A及びC)の選択、2番目と3番目に挙げられている選択肢(B及びC)の選択、あるいは、全ての3つの選択肢(A及びB及びC)の選択を包含するよう意図される。これは、列挙される同数の事項に関して、当該技術及び関連する技術において通常の知識を有するものによって容易に理解されるように、拡張され得る。
ここで使用されているように、用語“実験的”は、関係する符号化ビット(R)又は符号化歪み(D)の量の計算を表すために使用され得る。ある実施形態では、このような計算は網羅的でありうる。ここで使用されているように、“網羅的”及び“実質的に網羅的”は、モデル化の如何なる簡単化又は近似も用いずに量子化歪みを正確に計算することを表す。
更に、ここで使用されているように、用語“解析的”は、解析的モデル化を介する関係する符号化ビット(R)又は符号化歪みの量の計算を表す。
更に、ここで使用されているように、フレーズ“非零量子化係数(non-zero quantized coefficients)”は、特定のQによる量子化の後に零とならない変換係数を表すために使用される。すなわち、フレーズ“非零量子化係数”は、特定のQによる量子化の後に零でない値を有しうる変換係数を表す。
また、ここで使用されているように、フレーズ“零量子化係数(zero quantized coefficients)”は、特定のQによる量子化の後に零となる変換係数を表すために使用される。すなわち、フレーズ“零量子化係数”は、特定のQによる量子化の後に値零を有しうる変換係数を表す。
上述されるように、本原理は、解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置を対象とする。
更に上述されるように、Rモデル化に関して、ρ領域モデルはすでに高い推定精度を達成し、更なる改善のための機会は極めて制限される。しかし、Dモデル化に関して、ρ領域モデル及び既存のQに基づくモデルは両方とも、ρ領域Rモデルの推定性能と同じくらい良い推定性能を示すことはできない。
本原理に従って、我々は、全ての他の既存のモデルより性能が優れており且つ最適に近いモデル化性能を達成する新たな複合型の歪みモデルにより、このような溝を満たす。
従って、実施形態で、方法及び装置は、フレームのソース符号化平均二乗誤差歪み特性を推定するために提供される。解析的又は実験的ないずれかの方法である、その先行技術に従うモデルとは異なり、提案されるモデルは、解析的且つ実験的な複合型のモデルである。この複合型のモデルの実施形態は、有効なテーブルルックアップ・アプローチにより実施される。結果として得られるモデルは、(計算複雑性が低い)解析的モデル化の利点及び(高いモデル化精度を有する)実験的モデル化の利点の両方を備え、概して、改善された最適化性能の問題を伴うあらゆるフレームレベル・レート歪み最適化(例えば、フレームのソースとチャネル符号化との間のビット配分又はフレームレベルのビット配分)で適用され得る。
図1を参照すると、複合型歪みモデルに関連する例となる方法が、概して、参照番号100によって示されている。
この方法は、機能ブロック110に制御を渡す開始ブロック105を有する。機能ブロック110は、A個のピクセルを有するブロックに関して、離散コサイン変換(DCT)を適用し、その変換の結果を特定の量子化値(Q)により量子化し、制御を機能ブロック115に渡す。機能ブロック115は、特定の量子化値Qに関連する歪みD(Q)=0を計算し、制御をループリミットブロック120に渡す。ループリミットブロック120は、夫々の量子化された変換係数iに関してループ(loop)を実行し、制御を判断ブロック125に渡す。判断ブロック125は、現在の量子化された変換係数iが零であるか否かを判断する。iが零である場合は、制御は機能ブロック130に渡される。一方、iが零でない場合は、制御は機能ブロック150に渡される。
機能ブロック130は、実験的計算を実行して、以下、D(Q)=Coeff z,j(Q)のように歪みを正確に計算し、制御を機能ブロック135に渡す。
機能ブロック135はD(Q)=D(Q)+D(Q)を計算し、制御をループリミットブロック140に渡す。ループリミットブロック140は、夫々の量子化された変換係数iにわたるループを終了し、制御を機能ブロック145に渡す。機能ブロック145はD(Q)=(1/A)D(Q)を計算し、制御を終了ブロック199に渡す。
機能ブロック150は、解析的計算を実行して、以下、D(Q)=(1/12)Qのように歪みをモデル化し、制御を機能ブロック135に渡す。
図1に示されるように、複合型歪みモデルは、2つの構成要素、すなわち、零量子化係数からの実験的に計算される歪み寄与、及び非零量子化係数からの解析的に計算される歪み寄与を有する。
実施形態で、テーブルルックアップを用いるソース符号化歪みのための解析的且つ実験的な複合型のモデルの使用は、量子化スケールごとに平均二乗誤差量子化歪みを正確に推定するモデルを提供し、このようにして、高いモデル化精度と低い計算複雑性の両方を同時に達成する。
基本のレート歪みモデル化の問題において、一般的に、変換、量子化及びエントロピー符号化への入力信号は利用可能であると考えられ、レート歪みモデル化のタスクは、この入力信号に異なるQPを提供するレート歪みの結果を推定することである。例えば、MPEG−4AVC標準で、関係する入力信号は、動作補償予測又はイントラ予測(intra-prediction)の後の残余信号である。留意すべきは、実際の問題においてレート歪みモデルを適用する場合に、通常、変換符号化の前には正確な入力信号が知られていない点である。例えば、フレームレベルのビット配分の問題では、全ての関連するフレームのレート歪みデータを、それらのうちのいずれも符号化することなく推定する必要がある。従って、フレームレベルのビット配分の時点で正確な予測参照フレーム及びフレームのマクロブロック符号化モードを知ることは不可能である。ビット配分で推測される参照及び符号化モードと、実際の符号化において選ばれるそれらとの間の不整合は、基本レート歪みモデル化の精度をおとしめる。
実施形態に従って、あるフレーム及びある量子化スケールQに関して、結果として得られる平均二乗誤差歪みD(Q)は2つの部分、すなわち、非零量子化係数の歪み寄与Dnz(Q)及び零量子化係数の歪み寄与D(Q)に分けられる。留意すべきは、実際には、関係する歪みは、通常、輝度成分のみの歪みである点である。従って、便宜上、本記載では、輝度歪みを例とする。しかし、上述されるように、提案されるモデルは、輝度成分及びクロミナンス成分の両方に伴う歪みにも適用する。ここで、また、クリッピングの影響は無視され、周波数領域での歪みは空間領域での歪みと同じであるとする。従って、
Figure 2010503265
が得られる。
ここで、f及び
(外1)
Figure 2010503265
は、フレームの元のピクセル及び再構成されるピクセルを表し、Aは、フレームにおけるピクセルの総数を表す。留意すべきは、MPEG−4AVC標準で、QPは0から51の範囲を有し、QPとQとの間の関係は大体
Figure 2010503265
のようである点である。
一様な歪みを有するランダムな変数として非零量子化係数の量子化誤差がモデル化され、このようにして、非零係数の歪みは、以下
Figure 2010503265
のように容易に計算され得る。
ここで、ρ(Q)は、フレームの全ての変換係数の中の零量子化係数のパーセンテージを表し、Qとの一対一のマッピングを有する。零量子化係数の歪みは、以下
Figure 2010503265
のように正確に計算される。
ここで、Coeff(Q)は、量子化スケールQにより零に量子化されうる係数の大きさを表す。要約すると、全体のソース符号化歪みは、以下
Figure 2010503265
のように推定される。
実際には、フレームのD−Qの関係は、実際の符号化の前に事前解析処理を介して推定され得、次いで、式(5)から結果として得られる推定される歪みは、フレームレベルのビット配分又はレート制御で使用される。上述されるように、事前解析で推測される参照及び符号化モードと実際の符号化で選ばれるそれらとの間には不可避の不整合が存在し、この不整合は、基本のレート歪みモデル化の精度をおとしめる。不整合による影響を補償するよう、1つの新しいモデルパラメータが、以下のように最終的な歪み推定を計算するために導入され得る。この中で、DModel(Q)は式(5)からのモデル化された歪みであり、DEst(Q)は最終的な歪み推定であり、αはモデルパラメータである。実際には、αは、過去のフレームの実際の符号化歪みの結果により然るべく更新され得る。
Figure 2010503265
解析的又は実験的のいずれかである既存の歪みモデルとは異なり、提案されるモデルは複合型の解決法である。解析関数が非零係数歪みについて及び零係数について仮定される場合に、それらの正確な歪み寄与が計算される。留意すべきは、非零係数量子化誤差について一様な歪みを推定することと、零係数についてそのままの歪みを計算することとは、ソース符号化歪みモデル化で別個に用いられている点である。しかし、我々の提案されるモデルとは異なり、既存の解決法は全て、相対的なQ対σの大きさの様々な値に依存して、全体のソース符号化歪みを推定する際の2つのプラクティスのうちのいずれか一方を適用する。このようにして、既存の解決法は、様々な区分的解析歪みモデルをもたらす。具体的に、これらの既存のモデルで、特定のQに関して、Q/σが閾値より小さい場合は、係数のほとんどは量子化後に零でない可能性が非常に高く、従って、全体的な歪みはQ/12によって推定される。Q/σが閾値より大きい場合は、係数のほとんどが零に量子化される可能性が非常に高い。この場合に、全体的な歪みは、簡単に、σによって推定される。零平均を推定する場合は、σは、全ての係数が零に量子化される場合にまさに歪みである。対照的に、本原理に従う複合型のモデルは、実際の非零及び零領域係数においてこれら2つの有効な推定を別々に適用し、既存の区分的モデルよりも正確なモデルである。
実際には、誤りを引き起こしうる本原理のモデルにおける唯一の因子は、非零係数における一様な歪みの予測である。広範囲の経験を介して、この予測は、推定される歪みが常に実際の歪みの値に極めて近いことから、実際面で極めて正確な予測であると分かっている。対照的に、ρ領域モデルによる先行技術アプローチの解析的なD−(ρ,σ)の関係の仮定と、レート歪みを最適化されたフレームレベルのビット配分による先行技術アプローチでの補間のための滑らかな曲線予測とは両方とも、本原理による予測より強いモデル化推定であり、ここで提案されるモデルに比べて劣った推定精度をもたらす。実験において、提案されるモデルの推定性能は、ここに記載されるρ領域解析モデルの推定性能と比較される。その結果は、提案されるモデルが既存のモデルよりも良い性能を一貫して達成することを示す。
計算複雑性に関して、既存のρ領域モデルと同様に、提案されるモデルは、また、変換領域での歪みを推定する。従って、それは1つの時間変換動作を必要とする。このことは、取るに足らない複雑性の増大しか招かない。特に、MPEG−4AVC標準で、用いられる変換は、元の離散コサイン変換への近似であり、より低い計算複雑性を伴う。提案されるモデルに関係する複雑性は、零量子化係数のパーセンテージ及び歪みの計算に関連する。最悪の場合に、夫々のQに関して、量子化を全ての変換係数で行って、零量子化係数の数及び歪みを網羅的にカウントする必要がある。このことは、著しい計算複雑性を必要としうる。幸いにも、実際には、ρの計算のための高速ルックアップテーブルアルゴリズムが存在する。これは、D(Q)の計算のために本場合に拡張され得る。このような高速アルゴリズムにより、全てのQについてのD(Q)及びρ(Q)は、全ての係数にわたるテーブルルックアップ計算の1つの単一パスで得られる。このことは、また、ほんの僅かに複雑性を増大させる。しかし、ルックアップテーブルの記憶のためのメモリ空間の幾らかの追加的消費がある。
実際上、提案されるモデルは、最適化されたフレームレベルのビット配分に関してフレームの歪み特性を推定するために使用され得る。
図2及び図3は、夫々、ビデオフレームのD−Qデータを推定するための例となる事前解析方法及び例となる前置アナライザを提供する。次いで、結果として得られるデータは、図4に示されるようなフレームレベルのビット配分又はレート制御に使用される。当然、図4はフレームレベルのビット配分又はレート制御のための結果として得られるデータの使用を示すが、ここで提供される本原理の技術を鑑み、当該技術及び関連する技術において通常の知識を有する者は、本発明の精神を保ちながら、結果として得られるデータの使用をフレームレベルのビット配分及び/又はレート制御に容易に拡張することができる(例えば、ある実施形態で、データはそれら両方に使用され得る。)。フレームレベル及びMBレベルのレート制御モジュールを備える例となるビデオエンコーダは、図5に表される。これらの図で、典型的なグループ・オブ・ピクチャ(GOP(group-of-picture))符号化構造が考えられる。一般に、夫々のGOPの最初のフレームはIフレームとして符号化される。図2及び図3に示されるように、簡単化及び低減される複雑性のために、インター16×16モードしか事前解析において考えられない。当然、本原理は、インター16×16モードにのみ限定されるわけではなく、従って、他のモードも、本原理の精神を保ちながら、使用され得る。更に、参照フレームを仮定した事前解析と実際の符号化からのそれらの結果との間の不整合を減らすよう、予測参照のために元の入力フレームを用いることに代えて、量子化が、近似されたエンコーダ再生構成を参照のために生成するよう適用され得る。この場合に、量子化パラメータ(QP)は、最後に符号化されるGOPのある平均QPでありうる。
事前解析の後、推定されるR−Q及びD−Qデータは、次いで、図4に示されるように、フレームレベルのビット配分を実行するためにフレームレベル・レート制御モジュールで使用される。この中で、Rtargetは目標となるビットレートを表し、Di−1,actualは夫々、最後に符号化されるフレーム、すなわち、フレームi−1の実際の符号化されるビット数及び歪み値を表す。Ri,allocatedは、現在のフレーム、すなわち、フレームiについて、最終的に割り当てられるビットバジェット(bit budget)である。過去の符号化結果、すなわち、Ri−1,actual及びDi−1,actualは、R及びDのモデルで然るべくパラメータ、例えば、式(6)の提案されるDモデルに関するパラメータαを更新するために使用され得る。提案される複合型の歪みモデルを介する推定されるD−Qデータは、フレームレベルのビット配分を最適化するために何通りかの方法で適用され得る。例えば、全ての残りのフレームを考えて、残りの全体のビットの制約を満足するよう、最適なビット配分は、一般に、残りのフレームの平均歪みを最小限とすること又は最大歪みを最小限とすることのいずれかにより定義される。次いで、割り当てられるフレームのビットバジェットは、MBレベル・レート制御モジュールへ送られる。このMBレベル・レート制御モジュールは、最終的に、夫々のマクロブロック(MB)に関して適切なQPを決定し、割り当てられるビットバジェットを正確に達成するよう意図されている。これは、図5に表されている。
図2を参照すると、ビデオフレームのD−QPデータを推定するための例となる方法が、概して参照番号200によって表されている。
この方法200は、ループリミットブロック210に制御を渡す開始ブロック205を有する。ループリミットブロック210は、ビデオシーケンスにおける各フレームごとにループを実行し、制御を機能ブロック215に渡す。機能ブロック215は、残余データを生成する動作補償予測を実行し、制御を機能ブロック220に渡す。機能ブロック220は、各フレームごとに以下、∀QP∈[QPminQPmax]、ρ(QP)=0及びD(QP)=0を計算し、制御をループリミットブロック225に渡す。ループリミットブロック225は、夫々のフレームにおける各ブロックiごとにループを実行し、制御を機能ブロック230に渡す。機能ブロック230は、現在のブロックについて係数を生成する離散コサイン変換(DCT)を実行し、制御を機能ブロック235に渡す。機能ブロック235は、{ρ(QP),DZ,j(QP)}QPについて高速ルックアップテーブル計算を実行し、制御をループリミットブロック240に渡す。ループリミットブロック240は、それぞれのブロックiにわたるループを終了し、制御を機能ブロック245に渡す。機能ブロック245は、各フレームごとに以下、∀QP∈[QPminQPmax]、ρ(QP)=ρ(QP)+ρ(QP)、D(QP)=D(QP)+DZ,j(QP)を計算し、制御をループリミットブロック250に渡す。ループリミットブロック250は、夫々のフレームにわたるループを終了し、制御を機能ブロック255に渡す。機能ブロック255は、{ρ(QP),D(QP)}QPを得るためにフレームレベル平均化を実行し、制御を機能ブロック260に渡す。機能ブロック260は、∀QP∈[QPminQPmax]及びD(QP)=1−ρ(QP)、(1/12)Q(QP)+D(QP)を計算し、制御を終了ブロック299に渡す。
図3を参照すると、推定されるレート歪みモデルデータの生成に関連する例となる前置アナライザが、概して参照番号300によって示されている。
前置アナライザ300は、変換器310の入力と信号通信で接続される出力を有する結合器305を有する。変換器310の出力は、高速ルックアップテーブルの入力及び量子化器325の入力と信号通信で接続される。高速ルックアップテーブル315の出力は、フレームレベルρ−Qデータ及びD−Qデータ計算器320の入力と信号通信で接続される。
量子化器325の出力は、逆量子化器330の入力と信号通信で接続される。逆量子化器330の出力は、逆変換器335の入力と信号通信で接続される。逆変換器335の出力は、結合器340の第1の非反転入力と信号通信で接続される。結合器340の出力は、参照ピクチャバッファ345の入力と信号通信で接続される。参照ピクチャバッファ345の出力は、動作推定器350の第2の入力と信号通信で接続される。動作推定器350の出力は、動作補償器355の入力と信号通信で接続される。動作補償器355の出力は、結合器340の第2の非反転入力及び結合器305の反転入力と信号通信で接続される。
結合器305の入力及び動作推定器350の入力は、入力ビデオフレームを受け取るために、前置アナライザ300への入力として利用可能である。フレームレベルρ−Qデータ及びD−Qデータ計算器320の出力は、フレームレベルのレート制御データを出力するために、前置アナライザ300の出力として利用可能である。
高速ルックアップテーブル315は、夫々のマクロブロック(MB)のρ−Qデータ及びD−Qデータを計算するために使用される。フレームレベルρ−Qデータ及びD−Qデータ計算器320は、提案される複合型モデルを用いてρ−Qデータ及びD−Qデータを計算する。動作推定器350は、動作補償器355による使用のために動作推定を生成するようインター16×16モードを使用する。次いで、動作補償器355は、動作補償予測を生成する。
記載は、目下、図2又は図3で、夫々、ブロックレベル高速ルックアップテーブル及びフレームレベル平均化に関して2つの関連するブロックに関して与えられる。
最初に、変換されるブロックのρ(QP)及びD(QP)の計算のための高速ルックアップテーブルアルゴリズムについて記載する。関係するフレーム全体の量は、それらの対応するブロックレベルの量から得られる。留意すべきは、異なるビデオ符号化標準は異なる変換及び/又は変換ブロックサイズを有しうる点である。例えば、国際電気通信連合、電気通信標準化部門(ITU−T)H.263提言(以降、“H.263提言”)及びMPEG−4AVC標準のシンプルプロファイルでは、用いられる変換は離散コサイン変換であり、この変換はフレームの各8×8ブロックで行われ、一方、MPEG−4AVC標準の現在のバージョン(すなわち、シンプルでないプロファイル)では、変換は4×4ブロックのための変形された離散コサイン変換である。夫々の変換されるブロックに関して、高速ルックアップテーブルは以下の通りである。
ブロックレベルの高速計算:
(1)初期化:∀QP、ρ(QP)=0、D(QP)=0;
(2)ワンパスのテーブルルックアップ:夫々の係数Coeffについて:
(a)レベル=|Coeff|;
(b)QP=QP_レベル_テーブル[レベル]。QP_レベル_テーブルは、夫々の係数レベルについて、その特定のレベルの係数を零であるよう量子化する最小の量子化パラメータ(QP)を示す表である;
(c)ρ(QP)=ρ(QP)+1、D(QP)=D(QP)+Coeff
(3)総和:夫々のQPについて、QPminからスタートしてQPmaxまで:
Figure 2010503265
{ρ(QP),D(QP)}QPを得た後、フレームの全てのブロックについて、以下に示されるように、夫々このデータを平均化して、対応するフレームレベル量を得ることができる。ここで、Bはフレームにおけるブロックの総数を表す。
フレームレベルの平均化:夫々のQPについて:
(1)
Figure 2010503265
(2)ρ(QP)>0の場合に、
Figure 2010503265
その他の場合は、D(QP)=0。
以上より、全ての量子化パラメータのρ及びDは、全ての変換係数にわたってQP_レベル_テーブルのルックアップのワンパスを介して計算され得、生ずる計算費用は相当に低いことが分かる。
上記の高速計算アルゴリズムにより、提案される複合型の歪みモデルは、極めて低い計算複雑性を有して極めて正確な歪み推定を達成することができる。このモデルは、MPEG−4AVC標準のシンプルプロファイルによるエンコーダにおいて実施され、広範囲の経験を介してその性能を徹底的に調べられた。その結果、提案される複合型の歪みモデルは、最適に近い推定精度を一貫して達成することが分かった。すなわち、推定される歪みは、常に、実際の歪みに極めて近い。このような推定性能は、他の既知の歪みモデルに対して改善されている。更に、生ずる計算費用は相当に低い。従って、提案される歪みモデルは、既存の歪みモデルに取って代わって、ビデオ符号化システムの全体の性能を改善するために、如何なるレート歪み最適化に基づくビット配分の問題においても広く適用され得る。
図4を参照すると、図1の複合型の歪みモデルが適用され得る例となるフレームレベル・レートコントローラが、概して参照番号400によって示されている。
フレームレベル・レートコントローラ400は、フレームレベル・ビット割り当て器410の第1の入力と信号通信する出力を有する第1の更新器405を有する。フレームレベル・レートコントローラ400は、更に、フレームレベル・ビット割り当て器410の第2の入力と信号通信で接続される出力を有する第2の更新器415を有する。
第1の更新器405の第1の入力は、RTargetを受け取るために、フレームレベル・レートコントローラ400への入力として利用可能である。
第1の更新器405の第2の入力及び第2の更新器415の第1の入力は、Ri−1,actualを受け取るために、フレームレベル・レートコントローラ400への入力として利用可能である。
第2の更新器415の第2の入力は、Di−1,actualを受け取るために、フレームレベル・レートコントローラ400の入力として利用可能である。
フレームレベル・ビット割り当て器410の第3の入力は、例えば、図1の前置アナライザ300から、R−Q及びD−Qのデータに関する推定値を受け取るために、フレームレベル・レートコントローラ400の入力として利用可能である。
フレームレベル・ビット割り当て器410の出力は、Ri,allocatedを出力するために、フレームレベル・レートコントローラ400の出力として利用可能である。
第1の更新器405は、現在のGOPで残りのフレームについて残りのビットを更新するために用いられる。第2の更新器415は、R及びDのモデル化パラメータを更新するために用いられる。フレームレベル・ビット割り当て器410は、現在のGOPで残りのフレームについてフレームレベルのビット配分を実行するために用いられる。
図5を参照すると、本原理が適用され得る例となるエンコーダが、概して参照番号500によって示されている。
エンコーダ500は、変換器510の入力と信号通信する出力を有する結合器505を有する。変換器510の出力は、量子化器515の第1の入力と信号通信で接続される。量子化器515の第1の出力は、可変長符号器(VLC(Variable Length Coder))555の入力と信号通信で接続される。可変長符号器555の第1の出力は、マクロブロックレベル・レートコントローラ560の第1の入力及びフレームレベル・実符号化ビット計算器565の入力と信号通信で接続される。マイクロブロックレベル・レートコントローラ560の出力は、量子化器515の第2の入力及び逆量子化器520の第2の入力と信号通信で接続される。量子化器515の第2の出力は、逆量子化器520の第1の入力と信号通信で接続される。逆量子化器520の出力は、逆変換器525の入力と信号通信で接続される。逆変換器525の出力は、結合器530の第1の非反転入力と信号通信で接続される。結合器530の出力は、フレームレベル・実符号化歪み計算器550の第2の入力及び参照ピクチャバッファ535の入力と信号通信で接続される。参照ピクチャバッファ535の出力は、動作推定器及び符号化モード選択器540の第2の入力と信号通信で接続される。動作推定器及び符号化モード選択器540の出力は、動作補償器545の入力と信号通信で接続される。動作補償器545の出力は、結合器505の反転入力及び結合器530の第2の非反転入力と信号通信で接続される。フレームレベル・実符号化ビット計算器565の出力は、フレームレベル・レートコントローラ570の第1の入力と信号通信で接続される。フレームレベル・レートコントローラ570の出力は、マクロレベル・レートコントローラ560の第2の入力と信号通信で接続される。フレームレベル・実符号化歪み計算器550の出力は、フレームレベル・レートコントローラ570の第2の入力と信号通信で接続される。
結合器505の非反転入力、動作推定器540の第1の入力、及びフレームレベル・実符号化歪み計算器550の第1の入力は、入力ビデオフレームを受け取るために、エンコーダ100の入力として利用可能である。
可変長符号器555の第2の出力は、符号化されたビデオストリームを出力するために、エンコーダ100の出力として利用可能である。
目下、記載は、本発明の多数の付随する利点/特徴の幾つかに関して与えられる。かかる利点/特徴のうち幾つかは上述されている。例えば、1つの利点/特徴は、ビデオ符号化歪みを第1の部分及び第2の部分に分け、第1の部分を実験計算により計算し、第2の部分を解析計算により計算することによって、ビデオ符号化歪みをモデル化する歪み計算器を有する装置である。
他の利点/特徴は、上述されるように歪み計算器を有する装置であって、前記実験計算は実質的に網羅的である装置である。
更なる他の利点/特徴は、上述されるように歪み計算器を有する装置であって、前記歪み計算器は、前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって、前記ビデオ符号化歪みを分ける装置である。
更に、他の利点/特徴は、上述されるように前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって前記ビデオ符号化歪みを分ける歪み計算器を有する装置であって、前記零量子化係数歪みは正確に計算される装置である。
更に、他の利点/特徴は、他の利点/特徴は、上述されるように前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって前記ビデオ符号化歪みを分ける歪み計算器を有する装置であって、前記歪み計算器は、全ての零量子化係数にわたるワンパスのルックアップにより全ての量子化ステップサイズについて前記零量子化係数歪みの値を計算する装置である。
また、他の利点/特徴は、他の利点/特徴は、上述されるように前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって前記ビデオ符号化歪みを分ける歪み計算器を有する装置であって、前記非零量子化係数歪みは、一様な歪みを有するランダムな変数を用いて推定される装置である。
加えて、他の利点/特徴は、上述されるように歪み計算器を有する装置であって、前記歪み計算器は、前記ビデオ符号化歪みによりフレームビットバジェットを配分するビデオエンコーダに含まれる装置である。
更に、他の利点/特徴は、上述されるように歪み計算器を有する装置であって、前記ビデオ符号化歪みはソース符号化平均二乗誤差歪みである装置である。
他の利点/特徴は、画像データのビデオ符号化歪みをモデル化することによって該画像データを符号化するビデオエンコーダを有する装置である。前記ビデオエンコーダは、前記ビデオ符号化歪みを第1の部分及び第2の部分に分け、該第1の部分を実験計算により計算し、該第2の部分を解析計算により計算することによって、当該ビデオ符号化歪みをモデル化する。
更なる他の利点/特徴は、上述されるようにビデオエンコーダを有する装置であって、前記実験計算は実質的に網羅的である装置である。
更に、他の利点/特徴は、上述されるようにビデオエンコーダを有する装置であって、前記ビデオエンコーダは、前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって、前記ビデオ符号化歪みを分ける装置である。
更に、他の利点/特徴は、上述されるように前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって前記ビデオ符号化歪みを分けるビデオエンコーダを有する装置であって、前記零量子化係数歪みは正確に計算される装置である。
また、他の利点/特徴は、上述されるように前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって前記ビデオ符号化歪みを分けるビデオエンコーダを有する装置であって、前記ビデオエンコーダは、全ての零量子化係数にわたるワンパスのルックアップにより全ての量子化ステップサイズについて前記零量子化係数歪みの値を計算する装置である。
加えて、他の利点/特徴は、上述されるように前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって前記ビデオ符号化歪みを分けるビデオエンコーダを有する装置であって、前記非零量子化係数歪みは、一様な歪みを有するランダムな変数を用いて推定される装置である。
更に、他の利点/特徴は、上述されるようにビデオエンコーダを有する装置であって、前記ビデオ符号化歪みは、ソース符号化平均二乗誤差歪みである装置である。
本原理のこれら及び他の特徴及び利点は、本明細書中の教示基づいて当業者には容易に確かめられ得る。当然、本原理の教示は、ハードウェア、ソフトウェア、特別目的のプロセッサ、又はそれらの結合の様々な形で実施され得る。
最も望ましくは、本原理の教示は、ハードウェア及びソフトウェアの組み合わせとして実施される。更に、ソフトウェアは、プログラム記憶ユニット上に明白に具現されるアプリケーションプログラムとして実施され得る。アプリケーションプログラムは、いずれかの適切なアーキテクチャを有するマシンにアップロードされて、そのマシンによって実行され得る。望ましくは、マシンは、例えば、1又はそれ以上の中央演算処理ユニット(CPU)、ランダムアクセスメモリ(RAM)、及び入出力(I/O)インターフェースのようなハードウェアを有するコンピュータプラットフォームで実施される。コンピュータプラットフォームは、また、オペレーティングシステム及びマイクロインストラクションコードを有することができる。ここに記載される様々な処理及び機能は、CPUによって実行され得るマイクロインストラクションコードの部分若しくはアプリケーションプログラムの部分、又はそれらのいずれかの組み合わせのいずれか1つでありうる。加えて、例えば補助データ記憶ユニット及び印刷ユニットのような様々な他の周辺ユニットがコンピュータプラットフォームへ接続され得る。
更に、当然、添付の図面に表されている構成するシステムコンポーネント及び方法の幾つかは望ましくはソフトウェアで実施されるので、システムコンポーネント又は処理機能ブロックの間の実際の接続は、本原理がプログラミングされる様式に依存して異なりうる。本明細書中の教示を鑑み、当業者は本原理のこれらの及び類似する実装又は形態に想到しうる。
実例となる実施形態が添付の図面を参照してここで記載されてきたが、当然、本原理はこれらの厳密な実施形態に限定されず、様々な変形及び改良が本原理の適用範囲及び精神を逸脱することなく当業者によってそれらに行われ得る。全てのこのような変更及び改良は、添付の特許請求の範囲に挙げられているような本原理の適用範囲内に含まれるよう意図される。
本願は、2006年8月30日に出願した米国仮出願番号60/823,942号に基づく優先権を主張するものであり、同米国出願の全内容を本願に参照により援用する。

Claims (23)

  1. ビデオ符号化歪みを第1の部分及び第2の部分に分け、該第1の部分を実験計算により計算し、該第2の部分を解析計算により計算することによって、前記ビデオ符号化歪みをモデル化する歪み計算器を有する装置。
  2. 前記実験計算は実質的に網羅的である、請求項1記載の装置。
  3. 前記歪み計算器は、前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって、前記ビデオ符号化歪みを分ける、請求項1記載の装置。
  4. 前記零量子化係数歪みは正確に計算される、請求項3記載の装置。
  5. 前記歪み計算器は、全ての零量子化係数にわたるワンパスのルックアップにより全ての量子化ステップサイズについて前記零量子化係数歪みの値を計算する、請求項3記載の装置。
  6. 前記非零量子化係数歪みは、一様な歪みを有するランダムな変数を用いて推定される、請求項3記載の装置。
  7. 前記歪み計算器は、前記ビデオ符号化歪みによりフレームビットバジェットを配分するビデオエンコーダに含まれる、請求項1記載の装置。
  8. 前記ビデオ符号化歪みは、ソース符号化平均二乗誤差歪みである、請求項1記載の装置。
  9. 画像データのビデオ符号化歪みをモデル化することによって該画像データを符号化するビデオエンコーダを有し、
    前記ビデオエンコーダは、前記ビデオ符号化歪みを第1の部分及び第2の部分に分け、該第1の部分を実験計算により計算し、該第2の部分を解析計算により計算することによって、当該ビデオ符号化歪みをモデル化する、装置。
  10. 前記実験計算は実質的に網羅的である、請求項9記載の装置。
  11. 前記ビデオエンコーダは、前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって、前記ビデオ符号化歪みを分ける、請求項9記載の装置。
  12. 前記零量子化係数歪みは正確に計算される、請求項11記載の装置。
  13. 前記ビデオエンコーダは、全ての零量子化係数にわたるワンパスのルックアップにより全ての量子化ステップサイズについて前記零量子化係数歪みの値を計算する、請求項11記載の装置。
  14. 前記非零量子化係数歪みは、一様な歪みを有するランダムな変数を用いて推定される、請求項11記載の装置。
  15. 前記ビデオ符号化歪みは、ソース符号化平均二乗誤差歪みである、請求項9記載の装置。
  16. ビデオ符号化歪みをモデル化するモデル化工程を有し、
    前記モデル化工程は、
    前記ビデオ符号化歪みを第1の部分及び第2の部分に分ける分割工程と、
    前記第1の部分を実験計算により計算する工程と、
    前記第2の部分を解析計算により計算する工程と
    を有する方法。
  17. 前記実験計算は実質的に網羅的である、請求項16記載の方法。
  18. 前記分割工程は、前記第1の部分に零量子化係数歪みを割り当て且つ前記第2の部分に非零量子化係数歪みを割り当てることによって、前記ビデオ符号化歪みを分ける、請求項16記載の方法。
  19. 前記零量子化係数歪みは正確に計算される、請求項18記載の方法。
  20. 前記第1の部分を計算する工程は、全ての零量子化係数にわたるワンパスのルックアップにより全ての量子化ステップサイズについて前記零量子化係数歪みの値を計算する工程を有する、請求項18記載の方法。
  21. 前記第2の部分を計算する工程は、前記非零量子化係数歪みが一様な歪みを有するランダムな変数を用いて推定される工程を有する、請求項18記載の方法。
  22. 前記ビデオ符号化歪みによりフレームビットバジェットを配分するビデオエンコーダで実行される、請求項16記載の方法。
  23. 前記ビデオ符号化歪みは、ソース符号化平均二乗誤差歪みである、請求項16記載の方法。
JP2009526636A 2006-08-30 2007-08-21 解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置 Expired - Fee Related JP5087624B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US82394206P 2006-08-30 2006-08-30
US60/823,942 2006-08-30
PCT/US2007/018481 WO2008027250A2 (en) 2006-08-30 2007-08-21 Method and apparatus for analytical and empirical hybrid encoding distortion modeling

Publications (2)

Publication Number Publication Date
JP2010503265A true JP2010503265A (ja) 2010-01-28
JP5087624B2 JP5087624B2 (ja) 2012-12-05

Family

ID=39032145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009526636A Expired - Fee Related JP5087624B2 (ja) 2006-08-30 2007-08-21 解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置

Country Status (7)

Country Link
US (1) US8265172B2 (ja)
EP (1) EP2060125B1 (ja)
JP (1) JP5087624B2 (ja)
KR (1) KR101377833B1 (ja)
CN (1) CN101513072B (ja)
DE (1) DE602007013775D1 (ja)
WO (1) WO2008027250A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015211424A (ja) * 2014-04-30 2015-11-24 日本電信電話株式会社 主観画質推定装置及び主観画質推定プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8982947B2 (en) * 2007-07-20 2015-03-17 The Hong Kong University Of Science And Technology Rate control and video denoising for noisy video data
KR20120084168A (ko) * 2011-01-19 2012-07-27 삼성전자주식회사 비디오 인코딩 모드 선택 방법 및 이를 수행하는 비디오 인코딩 장치
EP2544450B1 (en) 2011-07-07 2016-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Model parameter estimation for a rate- or distortion-quantization model function
KR102114252B1 (ko) 2013-07-05 2020-05-22 삼성전자 주식회사 영상을 부호화하기 위한 영상 예측 모드 결정 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002185966A (ja) * 2000-12-15 2002-06-28 Matsushita Electric Ind Co Ltd 映像符号化装置
JP2006140758A (ja) * 2004-11-12 2006-06-01 Toshiba Corp 動画像符号化方法、動画像符号化装置および動画像符号化プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69605523T2 (de) * 1995-04-25 2000-07-06 Koninkl Philips Electronics Nv Vorrichtung und verfahren zur kodierung von videobildern.
US6434196B1 (en) * 1998-04-03 2002-08-13 Sarnoff Corporation Method and apparatus for encoding video information
JP2003530736A (ja) * 1999-11-29 2003-10-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディアデータの符号化及び復号化方法
US6687294B2 (en) * 2001-04-27 2004-02-03 Koninklijke Philips Electronics N.V. Distortion quantizer model for video encoding
US7194035B2 (en) 2003-01-08 2007-03-20 Apple Computer, Inc. Method and apparatus for improved coding mode selection
US20060204115A1 (en) * 2003-03-03 2006-09-14 Dzevdet Burazerovic Video encoding
WO2004093462A1 (en) * 2003-04-17 2004-10-28 Koninklijke Philips Electronics N.V. Content analysis of coded video data
US7327786B2 (en) * 2003-06-02 2008-02-05 Lsi Logic Corporation Method for improving rate-distortion performance of a video compression system through parallel coefficient cancellation in the transform
KR100594056B1 (ko) * 2003-09-01 2006-07-03 삼성전자주식회사 효율적인 비트율 제어를 위한 h.263/mpeg 비디오인코더 및 그 제어 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002185966A (ja) * 2000-12-15 2002-06-28 Matsushita Electric Ind Co Ltd 映像符号化装置
JP2006140758A (ja) * 2004-11-12 2006-06-01 Toshiba Corp 動画像符号化方法、動画像符号化装置および動画像符号化プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015211424A (ja) * 2014-04-30 2015-11-24 日本電信電話株式会社 主観画質推定装置及び主観画質推定プログラム

Also Published As

Publication number Publication date
WO2008027250A2 (en) 2008-03-06
CN101513072B (zh) 2011-07-27
JP5087624B2 (ja) 2012-12-05
EP2060125A2 (en) 2009-05-20
US20090232225A1 (en) 2009-09-17
CN101513072A (zh) 2009-08-19
EP2060125B1 (en) 2011-04-06
KR101377833B1 (ko) 2014-03-26
KR20090057236A (ko) 2009-06-04
US8265172B2 (en) 2012-09-11
DE602007013775D1 (de) 2011-05-19
WO2008027250A3 (en) 2008-05-22

Similar Documents

Publication Publication Date Title
JP5087627B2 (ja) 効果的なレート制御および拡張したビデオ符号化品質のためのρ領域フレームレベルビット割り当てのための方法
KR101169108B1 (ko) 적응형 레이트 제어를 구비한 인코더
KR100960249B1 (ko) Min-max 접근법을 이용하여 비디오 코딩을 하기 위한2 패스 레이트 제어 기술
JP5770476B2 (ja) ビデオ符号化に於いてレート制御を正確にする方法及び装置
US9025664B2 (en) Moving image encoding apparatus, moving image encoding method, and moving image encoding computer program
JP2006140758A (ja) 動画像符号化方法、動画像符号化装置および動画像符号化プログラム
WO2005004335A2 (en) Cauchy-distribution based coding system and method
US10432961B2 (en) Video encoding optimization of extended spaces including last stage processes
MXPA05014209A (es) Control de pasos multiples de velocidad de video para emparejar restricciones de canal de ventana deslizable.
JP2008543182A (ja) 映像コーディングデバイスにおけるac/dc予測に関する固定小数点整数除算
JP5087624B2 (ja) 解析的且つ実験的な複合型の符号化歪みモデル化のための方法及び装置
Pang et al. An analytic framework for frame-level dependent bit allocation in hybrid video coding
KR20040007818A (ko) 동영상 부호화를 위한 dct연산량 조절 방법 및 그 장치
KR100797396B1 (ko) 매크로블록 복잡도를 이용한 트랜스코딩 비트율 제어 방법및 장치
CN113473136A (zh) 视频编码器及其码率控制装置
KR20130032807A (ko) 동영상 부호화 장치 및 방법
KR100911098B1 (ko) H.263 영상 부호화에 의한 왜곡량 예측 장치 및 그 방법
KR20080107867A (ko) 비디오 인코딩 데이터율 제어 방법
KR20030083109A (ko) 비트율 변환부호화장치
KR100295327B1 (ko) 적응적 임계치를 이용한 움직임 추정 장치
JPH08102952A (ja) 実時間画像符号化装置及び方法
KR100480698B1 (ko) 엠펙 인코딩 방법
KR20040028332A (ko) 실시간 h.263 영상 부호율 제어를 위한 비트량 예측 장치및 그 방법
KR0185832B1 (ko) 고선명 텔레비젼의 레이트제어장치
KR100207416B1 (ko) 부호화 비트발생율 제어방법 및 그 제어장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120419

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120814

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120910

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150914

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees