JP2013021690A - レート−又は歪み−量子化モデル関数のためのモデルパラメータ推定 - Google Patents

レート−又は歪み−量子化モデル関数のためのモデルパラメータ推定 Download PDF

Info

Publication number
JP2013021690A
JP2013021690A JP2012149192A JP2012149192A JP2013021690A JP 2013021690 A JP2013021690 A JP 2013021690A JP 2012149192 A JP2012149192 A JP 2012149192A JP 2012149192 A JP2012149192 A JP 2012149192A JP 2013021690 A JP2013021690 A JP 2013021690A
Authority
JP
Japan
Prior art keywords
quantization
rate
model
frame
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012149192A
Other languages
English (en)
Other versions
JP5416812B2 (ja
Inventor
Schwaab Manuel
マニュエル シュワーブ
Herbert Thoma
ヘルベルト トーマ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of JP2013021690A publication Critical patent/JP2013021690A/ja
Application granted granted Critical
Publication of JP5416812B2 publication Critical patent/JP5416812B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/15Data rate or code amount at the encoder output by monitoring actual compressed data size at the memory before deciding storage at the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • H04N19/198Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters including smoothing of a sequence of encoding parameters, e.g. by averaging, by choice of the maximum, minimum or median value

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】レート−又は歪み−量子化モデル関数のためのモデルパラメータを正確に推定することで、効率的なビデオ符号化を可能にする。
【解決手段】フレームシーケンスの連続するフレームの間でモデルパラメータを推定するために時間離散カルマンフィルタを使用し、1回目のフィルタ修正ステップとして現フレームの複雑度の値に依存する測定値を用いて修正し、2回目として、現フレームを所定の量子化を使用して符号化するときのビデオ符号器の実際の符号化レート又は歪みに依存する測定値を用いて修正を行う。レート−量子化モデル関数はビデオ符号器の量子化とそのビデオ符号器の符号化レートとを関係付けるものであり、更に、細かい量子化区間においては二次関数を示し、粗い量子化区間においては指数関数を示すようなピース毎に定義されるレート−量子化モデル関数が供給される。
【選択図】図1

Description

本発明は、例えばリアルタイムビデオ符号化のためのフレームシーケンスについて、ビデオ符号器の実際のレート−量子化又は歪み−量子化の関数を近似するための、レート−量子化又は歪み−量子化のモデル関数のモデルパラメータ推定に関する。
ビデオ符号化におけるレート制御作業は、現フレームのレート−量子化特性R(QP)が既知であれば、即ちどの量子化手段がどのレートをもたらすのかが分かっていれば、格段に効率化できる。この点は、特に、与えられた目標ビットレートに非常に近くマッチすることが重要であるような低い遅延レート制御の場合に明らかである。しかし、リアルタイム・アプリケーションにおいては、R(QP)を正確に決定することは通常は不可能である。なぜなら、それは、可能性のある全ての量子化パラメータを用いてフレームを符号化することを必要とするからである。そのため、レートと量子化との関係を予測するよう試みるモデルが導入された。即ち、レート−量子化関数R(QP)が以下のようにモデル化された。
Figure 2013021690
ここで、βはモデルのパラメータを含むべクトルである。
歪み−量子化関数のための十分に正確なモデルは既に使用可能となっている(非特許文献21を参照)。
しかし、レート−量子化関係をモデル化する作業は格段に困難である。
H.264/AVCで符号化されたビデオフレームのR−Q(レート−量子化)特性を表現することを目的とする、複数の異なるモデルが文献で示されて来た。最も一般的なモデル(例えば非特許文献11で使用されている)は、非特許文献5により提案された二次モデル(quadratic model)である。そのモデルは2個の調整可能なパラメータを持ち、多くの場合はMAD(mean absolute difference:絶対平均差)を用いて新たなフレーム複雑度(complexity)を予測する(非特許文献22を参照)。次式はこれを定義している。
Figure 2013021690
ここで、量子化パラメータと量子化ステップサイズ(QStep)との間の関係はH.264/AVC標準において定義されている(非特許文献14を参照)。異なる複雑度に関係する更なる提案として、線形モデル(非特許文献12を参照)、指数モデル(非特許文献24を参照)、非ゼロ係数の個数に基づくρ−ドメインモデル(非特許文献8を参照)、又は非特許文献7が示すピース毎に定義されるモデル等が挙げられる。
R−Qモデルの潜在的な正確性よりも更に重要な点は、そのパラメータの信頼できる推定(非特許文献6を参照)である。(例えば上述したMADのように)統計的な値を用いる方法の他に、これらのモデルのパラメータは、通常、例えば非特許文献5や非特許文献10に示す線形回帰(linear regression)によって決定される。更に、例えば非特許文献23や非特許文献4に示すようなカルマンフィルタ(Kalman filter)を用いる手法も幾つか存在する。
しかし、上述したモデルの全てが、モデルの正確性、複雑度、平滑性又は凸状性(convexity)に関して欠点を有する。同様に、モデルパラメータの決定に使用するために文献に示されたいずれのアルゴリズムも、十分に正確で且つ単純な推定を提供しているとは言えない。
Toby Berger. Rate Distortion Theory (Prentice-Hall series in information and system sciences). Prentice Hall, 1971 Jr. Arthur E. Bryson and Yu-Chi Ho. Applied Optimal Control: Optimization, Estimation and Control. Ginn and Company, 1969 Bryson, A. E., Jr. and Henrikson, L. J. Estimation using sampled-data containing sequentially correlated noise. Journal of Spacecraft and Rockets, 5(6):662-665, 1967 Din-Yuen Chan and Shou-Jen Lin and Chun-Yuan Chang. A rate control scheme using Kalman filtering for H.263. Journal of Visual Communication and Image Representation, 16(6):734-748, 2005 Tihao Chiang and Ya-Qin Zhang. A new rate control scheme using quadratic rate distortion model. IEEE Transactions on Circuits and Systems for Video Technology, 7(1):246-250, 1997 Jianpeng Dong and Nam Ling. On Model Parameter Estimation for H.264/AVC Rate Control. IEEE International Symposium on Circuits and Systems, :289 -292, 2007 Thomasz Grajek and Marek Domanski. New Model of MPEG-4 AVC/H.264 Video Encoders. International Conference on Image Processing, pages 961-964, Honk Kong, 2010 Zhihai He and Mitra, S.K. ρ-domain bit allocation and rate control for real time video coding. International Conference on Image Processing, 3:546-549, 2001 Do-Kyoung Kwon and Mei-Yin Shen and Kuo, C.-C.J. Rate Control for H.264 Video With Enhanced Rate and Distortion Models. IEEE Transactions on Circuits and Systems for Video Technology, 17(5):517-529, 2007 Hung-Ju Lee and Tihao Chiang and Ya-Qin Zhang. Scalable rate control for MPEG-4 video. IEEE Transactions on Circuits and Systems for Video Technology, 10(6):878 -894, 2000 Zhengguo Li and Feng Pan and Keng Pang Lim and Genan Feng and Xiao Lin and Susanto Rahardja. Adaptive Basic Unit Layer Rate Control for JVT. Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG, 2003. JVT-G012 Ma, S. and Wen Gao and Yan Lu. Rate-distortion analysis for H.264/AVC video coding and its application to rate control. IEEE Transactions on Circuits and Systems for Video Technology, 15(12):1533-1544, 2005 Petovello, M. and OaKeefe, K. and Lachapelle, G. and Cannon, M. Consideration of time-correlated errors in a Kalman filter applicable to GNSS. Journal of Geodesy, 83:51-56, 2009 Rec. ITU-T H.264 and ISO/IEC 14496-10 (MPEG4-AVC). Advanced video coding for generic audiovisual services. 2010 Sermadevi, Y. and Hemami, S.S. and Masry, M. Convex Programming Formulations for Rate Allocation in Video Coding. IEEE Transactions on Circuits and Systems for Video Technology, 16(8):947-959, 2006 Simon, D. and Tien Li Chia. Kalman filtering with state equality constraints. IEEE Transactions on Aerospace and Electronic Systems, 38(1):128 -136, 2002 Dan Simon. Optimal State Estimation: Kalman, H Infinity, and Nonlinear Approaches. Wiley-Interscience, 2006 Devinderjit Sivia and John Skilling. Data Analysis: A Bayesian Tutorial. Oxford University Press, USA, 2 edition, 2006 H. W. Sorenson. Least-squares estimation from Gauss to Kalman. IEEE Spectrum, 7:63-68, 1970 Robert F. Stengel. Optimal Control and Estimation (Dover Books on Advanced Mathematics). Dover Publications, 1994 Koichi Takagi and Yasuhiro Takishima and Yasuyuki Nakajima. A study on rate distortion optimization scheme for JVT coder. Proc. SPIE, 5150:914-923, 2003 Vetro, A. and Huifang Sun and Yao Wang. MPEG-4 rate control for multiple video objects. IEEE Transactions on Circuits and Systems for Video Technology, 9(1):186-199, 1999 Webb, J.L.H. and Oehler, K. A simple rate-distortion model, parameter estimation, and application to real-time rate control for DCT-based coders. International Conference on Image Processing. Proceedings., 2:13-16, 1997 Yimin Zhou and Yu Sun and Zhidan Feng and Shixin Sun. New rate-distortion modeling and efficient rate control for H.264/AVC video coding. Signal Processing: Image Communication, 24(5):345 - 356, 2009
そこで、本発明の目的は、レート−又は歪み−量子化モデル関数のためのモデルパラメータ推定スキームであって、より正確な推定と、従ってより効率的なビデオ符号化とを可能にするスキームを提供することである。
この目的は独立請求項に記載の要旨によって達成される。
本発明の第1の態様に従えば、本発明は次のような知見に基づいている。即ち、もしフレームシーケンスの連続するフレームの間でモデルパラメータを離散的に推定するためにカルマンフィルタが使用され、更にもしその時間離散カルマンフィルタの修正ステップが各フレームについて2回実行された場合、即ち、1回目として、現フレームの(1つ又は複数の)複雑度の値に依存する測定値を用いて修正することで時間的カルマンフィルタの第1次の修正済み状態が取得され、2回目として、現フレームを所定の量子化を使用して符号化するときのビデオ符号器の実際の符号化レート又は歪みに依存する測定値を用いて修正が行われる場合であり、その所定の量子化が、第1次の修正済み状態に従う実際のレート−又は歪み−量子化関数の推定を用いて決定されたものである場合には、さらに正確なモデルパラメータ推定が達成できるという知見である。
本発明の他の態様によれば、本発明は次のような知見に基づいている。即ち、もしレート−量子化モデル関数であって、ビデオ符号器の量子化とそのビデオ符号器の符号化レートとを関係付けるものであり、更に、細かい量子化区間においては二次関数を示し、粗い量子化区間においては指数関数を示すようなピース毎に定義されるレート−量子化モデル関数が使用された場合には、不安定なモデルパラメータ推定をもたらす複雑過ぎるレート−量子化モデル関数と、安定的ではあるが不正確なレート−量子化関数近似をもたらす単純過ぎるレート−量子化モデル関数との間におけるより良好な妥協点が得られるという知見である。
上述した2つの態様の概念や利点については、個々に説明する。代替的に、本発明の実施形態は、両方の態様の利点を活用しても良い。
フレームシーケンスを符号化するビデオ符号器の実際のレート−量子化関数を近似するための、レート−量子化モデル関数のモデルパラメータを推定する装置のブロック図であり、更に本発明の実施形態に従うビデオ符号器を含むシステムに対するその装置の可能性のある統合を示すブロック図である。 モバイルシーケンスの1つのフレームについてのレート−量子化曲線の形状を示す図である。 H.264/AVCを用いて符号化されたビデオフレームのレート−量子化曲線を示す図であり、異なるシーケンスに対してはこのレート−量子化が大幅に異なることができるため、選択されたモデルが良好な適合性を持つことを示す図である。 本発明の一実施形態に従う二次およびピース毎に定義されたレート−量子化モデルの近似品質の比較を示す図である。 本発明の一実施形態に従う二次およびピース毎に定義されたレート−量子化モデルの絶対近似誤差を示す。 本発明の一実施形態に従うピース毎に定義されたレート−量子化モデルと近似技術を使用する、異なるシーケンスのフレームのR−Q関係の近似を示す図であり、下方の図には対応する相対近似誤差が示される。 複雑度の値に基づく予測における誤差が通常はシーケンシャルに修正されるという事実を表す図である。 図1に示す装置で実行可能なカルマンフィルタに基づくアルゴリズムの一サイクルの設計を示し、R−Qモデルパラメータは各フレームkについて反復される3つのステップによって推定される。 本発明の一実施形態に従って定義されたレート−量子化モデル及び近似技術の一サイクルを視覚化した図である。 一定のビットレート(各フレームに500キロビット)の目標を持つある場面変化の場合におけるモデル推定の例を示す。 各フレームに500キロビットという一定のビットレート(720pの場合には1画素あたり約0.54ビット)を達成すべき場合の、200フレームから成る一周期に亘るモデルベースのQP及びレート選択を示す。
次に、本発明の好適な実施の形態を、添付の図面を参照して以下に説明する。
図1は、フレームシーケンス14を符号化するビデオ符号器12の実際のレート−量子化関数を近似するための、レート−量子化モデル関数のモデルパラメータを推定する装置10を示す。符号器12と装置10とが一体となり、フレームシーケンス14を符号化するシステムを形成している。任意ではあるが、このシステム16はレート制御手段18を更に備えても良い。この制御手段18の機能については後段で詳細に説明する。
フレームシーケンス14は、ある場面の任意のビデオ又は任意の他の空間−時間的サンプリングであっても良い。フレームシーケンス14のフレームのサンプル値は、輝度若しくはルーマ値(luma values)、色の値、深度又はそれらに類似する値でも良く、更にそれらの値の組合せであっても良い。
ビデオ符号器12は、任意のタイプであっても良く、例えばフレームブロック・ベースでモーションパラメータを選択する動き補償予測を用いた、時間的予測型の符号器であっても良い。特に、ビデオ符号器12はハイブリッド符号器であっても良く、フレームシーケンス14のフレームがサブ分割されていくブロックに関し、先に符号化されたフレームに基づく時間的予測を使用して予測すべきか、及び/又は先に符号化された現フレームの隣接ブロックに基づく空間的予測を使用して予測すべきかについて、ブロック毎のベースで決定しても良い。後段で詳細に説明する実施形態に従えば、符号器12は例えばH.264順応型のデータストリームを生成するよう構成されたビデオ符号器である。しかし代替的に、符号器12はJPEG2000標準に従って動作しても良く、又は来たるべきH.265ビデオ標準に従って動作しても良い。
ビデオ符号器12は、例えばフレームシーケンス14のようなフレームシーケンスを符号化するときに、所定の特性を有する。入来するフレームシーケンスを符号化するときにビデオ符号器12が従うべきデータストリームの指示によって、そのフレームシーケンス14を符号化するためにビデオ符号器12が使用する量子化と、符号化レート即ちその符号化に必要とされるビット数との間に、ビデオ符号器12は特徴的な関係を示す。このときその特徴的な曲線は、そのフレームシーケンス自身の複雑度に依存している。より詳しくは、ビデオ符号器12は、符号化すべきフレームを表現するサンプル値及び/又は変換係数を量子化したり、その予測残余のサンプル値及び/又は変換係数を量子化するような量子化を使用することにより、損失が多い方法でフレームシーケンス14を符号化するよう構成されている。当然ながら、量子化の量が増大するにつれて符号化品質は低下する。即ち、量子化が粗くなるほど符号化品質が低下する。しかし他方、ビデオ符号器12は、低い符号化レートを使用する粗い量子化において低い符号化品質を生みだすことも可能であり、従ってこのとき、実際のレート−量子化関数R(q)、即ち符号化レートRを量子化qへと或いは量子化qを符号化レートRへと関係付けるR(q)は、通常は量子化qが増大するにつれて単調に減少する関数である。しかし、上述したように、この関係は符号化されるべき材料の複雑度にも依存する。言うまでもないが、1つのフレームシーケンス内のフレームの複雑度が一定でない場合が多い。従って、フレームシーケンス14のための符号器12のレート−量子化関数も、時間的変化を受ける。これを図示する目的で、図1には、フレームシーケンス14のフレームkのための符号器12の例示的なレート−量子化関数を参照番号20、即ちRk(q)で示し、同じグラフ24内に、先行フレームk−1のためのレート−量子化関数Rk-1(q)を参照番号22で示す。このグラフ24の横軸は量子化qの大きさ(span)を示し、縦軸は符号化レートRの大きさを示す。細かい注意点ではあるが、量子化qの値は符号器12により使用される量子化の量を示す任意の値であっても良い。このときq=0は、符号器12が量子化を全く使用していないか、又はビットレベルで動作するような最小の量子化しか使用していないことを意味する。更に、図1は、符号器12が量子化qを継続的に変更できることを示しているが、他の可能性として、符号器12は量子化qの離散的な設定を許可するだけでも良い。同じことが、符号化レートRについても言える。この符号化レートRを数値化するために、それぞれのフレームを符号化するために使用されたビット数など、任意の値を使用しても良い。
レート−量子化関数20がフレームシーケンス14のコンテンツに依存しているために、そのレート−量子化関数20はアプリオリ(事前的)には知られていない。勿論、フレームシーケンス14の各フレームのためのレート−量子化関数20をサンプルする目的で、可能性のある符号化の選択肢(量子化の量を含む)を設定する際に符号器12が多数の試行を行い、その結果、そこでサンプリングされたR−Q曲線に基づく量子化の最適量を最終的に選択することも可能ではある。しかし、そのような方法は符号器12にとっては面倒な作業となり、アプリケーションによっては、符号器12がそのような作業をするために十分な時間がないこともある。現実には、例えばカムコーダー(camcorders)などの場合のように、符号器12がフレームシーケンス14をリアルタイムで符号化するようなリアルタイムアプリケーションの場合が当てはまる。そのような場合には、現フレームのための符号器12のレート−量子化関数を予想できることが有利である。それにより、試行数を最小に減らすことができ、又は推定されたレート−量子化関数に基づいて、例えばレート制御手段18により決定された最適な量子化を符号器12が採用できる程度に、現フレームの符号器12による符号化を整理できるからである。例えば、レート制御手段18は、符号器12により生成されたデータストリームが、システム16に課せられた幾つかのレートの制約に従っていることを保証しなければならない。そのレートの制約とは、例えばある種の不揮発性メモリの記憶レートや、データストリームが伝送される無線若しくは有線の通信経路の伝送のような、データストリームが伝送される伝送能力に起因するものである。レート−量子化関数20の推定が良好であればある程、所定の符号化レートに順応し推定されたレート−量子化関数に従う量子化が、実際に、その符号化レートの制約に順応する実際の符号化レートを持つデータストリームをもたらす可能性が高まる。
上述したように、装置10の役割はレート−量子化モデル関数のモデルパラメータを推定することであり、その際、モデルパラメータがビデオ符号器12の実際のレート−量子化関数20をできるだけ近く近似するように推定することである。このとき、装置10が実行する近似は、装置10が持つレート−量子化モデル関数のパラメータ化可能な状態によって制限を受ける。後段で説明するより詳細な実施形態においては、このレート−量子化モデル関数はピース毎の関数であり、細かい量子化区間内では二次関数部分/ピースを有し、粗い量子化区間内では指数関数部分/ピースを有し、5次元、即ち独立して選択可能な5つのモデルパラメータを持つモデルパラメータのマニホールドを備えている。しかし、図1の実施形態はいずれかのレート−量子化モデル関数に制限されるものではなく、他のレート−量子化モデル関数との関係においても使用することができる。一般的に、装置10によって使用されるレート−量子化モデル関数は、実際のレート−量子化関数20を近似するモデル、即ち
Figure 2013021690
であり、ここでXはレート−量子化モデル関数fのモデルパラメータを表している。好適には、全単射関数(bijective function)がモデルパラメータXを可能性のある/有効なレート−量子化モデル関数の具体化のセットへとマップし、その逆も可能である。これを図示する目的で、図1は、現フレームkの実際のレート−量子化関数20を近似するためのあるモデルパラメータのレート−量子化モデル関数26を示す。装置10が対応するモデルパラメータを決定又は推定する方法は、後段で説明する。
装置10は、更新手段28と第1修正手段30と第2修正手段32とを備える。後段でより詳細に説明するように、更新手段28と第1修正手段30と第2修正手段32とは一体となって拡張型時間離散カルマンフィルタを形成し、そのため、1つのループへとシーケンシャルに接続されている。
装置10はフレームシーケンス14を受け取るための入力34を備える。図1から分かるように、第1修正手段30は、この入力34に接続された入力を有する。更新手段28及び第2修正手段32も、任意ではあるが入力34と接続される入力を有しても良い。さらに装置10は、符号器12に対し、直接的又は任意のレート制御手段18を介して双方向形式で接続されており、符号器12又はレート制御手段18に対してモデルパラメータの推定を提供し、現フレームを実際に符号化することで得られた実際の符号化レートを符号器12から受け取る。これについては後段で詳細に説明する。
特に、更新手段28は、時間離散カルマンフィルタの予測ステップを実行するよう構成され、その初期状態は、フレームシーケンス14の先行フレームk−1のための時間離散カルマンフィルタの状態
Figure 2013021690
から、フレームシーケンス14の現フレームkのための時間離散カルマンフィルタの予測状態
Figure 2013021690
を取得するための、モデルパラメータのパラメータ推定を定義する。つまり、更新手段28は、現フレームkについての時間離散カルマンフィルタの反復ステップにおける第1ステップを実行するのであり、その目的で、先行フレームk−1に関する先行する反復の終端における最終状態、即ち
Figure 2013021690
を受け取る。
後段でより詳しく説明するが、更新手段28は、前記時間離散カルマンフィルタの予測ステップを実行する際に、恒等行列を状態遷移行列(state transition matrix)として使用し、その結果、予測状態
Figure 2013021690
は、先行フレームk−1の最終状態
Figure 2013021690
により定義されたパラメータ推定を採用する。同時に、更新手段28は、前記最終状態と比較して予測状態の不確実性(uncertainty)を増大させる。その不確実性の値として、共分散行列を使用しても良い。具体的には、更新手段28は、現フレームkと先行フレームk−1との間の類似度を決定し、予測状態
Figure 2013021690
の不確実性をこの類似度に依存する量によって増大させる。例えば連続するフレームk−1とフレームkとの間に突然の場面変化がある場合には、これらのフレームは類似性を殆ど持たないことになり、先行状態
Figure 2013021690
から現在のカルマン状態
Figure 2013021690
を予測することによる不確実性の増大量は最大限に高まる。反対に、静的な場面では、更新手段28の予測に基づく不確実性の増大量は、ゼロに近くなる可能性が高い。更新手段28は、連続的なフレーム間の類似度を測定するために、任意の記述統計学的方法を用いても良い。類似度は、現フレームkと先行フレームk−1との間において、これらのフレーム間の動きがその類似度を増大させ、及び/又はこれらフレーム間のその動きの除去/無視が伴われる方法で、決定されても良い。例えば、更新手段28は、先行フレームk−1から予測された予測フレームを、現フレームkとその予測フレームとの間の類似度を決定するために使用することもできる。予測フレームは、図1において破線矢印36で示すように、符号器12からもたらされても良い。符号器12は、動き補償予測を使用してその予測フレームを決定していても良いが、しかし、現フレームを符号化するために最終的に使用された動き解像度よりも低い動き解像度において決定されていても良い。つまり、この予測フレームの基底にある動きベクトルは、現フレームkを符号化するために最終的に使用された動きべクトルよりも低い解像度において、符号器12により決定されていても良く、量子化された予測残余と共に、データストリームの中にサイド情報として導入されても良い。代替的に、シーケンス14の中のフレームk−1以外のフレームが、参照フレームとして使用されても良く、このとき、現在の時刻tにあるフレームkに近いフレームが好ましい。追加的に、フレームkとフレームk−1との間の類似度であってその間に動き補償がないものが、この類似度の値を得るために使用されても良い。
時間離散カルマンフィルタについて公知であるように、各反復ステップは、更新手段28により実行される予測ステップに続いて修正ステップを持つ。装置10の場合には、この修正ステップは各反復について2回実行される。第1修正手段30は、現フレームkに関する反復の途中で1回目の修正ステップを実行する。特に、第1修正手段30は現フレームの複雑度の値を決定し、決定されたその複雑度の値に依存する測定値を使用して時間離散カルマンフィルタの修正ステップを実行するよう構成され、その結果、予測状態
Figure 2013021690
から第1次の修正済み状態
Figure 2013021690
を取得する。第1修正手段30は、前記複雑度の値を決定する際に、動き補償予測により決定された暫定的予測フレームと現フレームとの間の偏差を示す値、及び/又は現フレームのその中心傾向(central tendency)の周りにおけるサンプル値の分布を示す分散値を決定するよう構成されても良い。従って、破線矢印38で示すように、第1修正手段30はビデオ符号器12から暫定的な予測フレームを受け取っても良い。実際、この暫定的な予測フレームは、破線矢印36通じて更新手段28が任意に受け取るものと同じであっても良い。上述したそれぞれの値についての例を以下に詳細に説明する。原則的に、偏差の値とは、範囲、平均偏差、分散、又はそられに類似する値でも良い。現フレームについての分散値についても、同じことが言える。これら統計学的な値の全てはブロック毎のベースのように局所的に決定されても良く、このとき対象となる複雑度のための最終ヒントとして、中心傾向の平均又は他の値を取っても良い。
さらに詳細には、実際のレート−量子化関数20をできるだけ近く近似するために、第1修正手段30はレート−量子化モデル関数26に関するモデルパラメータを粗く予測するよう構成されている。この予測は複雑度だけに基いており、即ち時間離散カルマンフィルタの先行する状態を何も使用せず、現在の状態
Figure 2013021690
からも独立している。勿論、この予測は非常に粗いが、第1修正手段30は時間離散カルマンフィルタの修正ステップを、このように粗く予測されたモデルパラメータと、そのモデルパラメータの予測の結果と、の間の差に等しいある測定値を使用して実行しても良い。その予測の結果とは、先行フレームk−1について決定され、ある相関行列に適用された複雑度に基づいて、その先行フレームk−1について第1修正手段30によって得られたものである。換言すれば、第1修正手段30は、先行フレームk−1についてのレート−量子化モデル関数のモデルパラメータの粗い予測を、この先行フレームk−1のために決定されたそれぞれの複雑度に基づいて、以前の反復ステップの中で既に実行していたのである。修正ステップのためのそのような測定値を得るために、第1修正手段30は、先行フレームk−1のこれらの粗く予測されたモデルパラメータをある相関行列へと適用し、この適用の結果と現フレームkの粗く予測されたモデルパラメータとの間の差を決定しても良い。このように、第1修正手段30は粗い予測のノイズのシーケンシャルな相関関係を考慮し、その結果、より良好な測定値を得ることができる。このとき、第1修正手段30は、使用された相関行列を恒等行列から差し引いたものに等しいある測定行列を使用しても良い。この相関行列は、あるスカラψkを掛けた恒等行列であっても良く、第1修正手段30は、現フレームkと先行フレームk−1との間の類似性に依存して、そのスカラをセットするよう構成されても良い。第1修正手段30は、その類似度を、矢印36に関して上述したように、更新手段28と同調して決定しても良い。
最後に、第2修正手段32は、所定の量子化を使用して現フレームkを符号化する際のビデオ符号器12の実際の符号化レートに依存するある測定値を使用して、時間離散カルマンフィルタの修正ステップの2回目を実行するよう構成されている。換言すれば、第2修正手段32は、第1修正手段30から出力された第1次の修正済み状態
Figure 2013021690
に対して追加の修正を実行することになる。ビデオ符号器12が、その出力40で出力するデータストリームの中へ現フレームkを符号化する際に必要とする実際の符号化レートを得るためには、第2修正手段32は、データストリーム自身を精査するか、又は代替的に、図1に矢印42で示すようにビデオ符号器12から別に符号化レートを受け取っても良い。ビデオ符号器12が実際の符号化レート42で現フレームkを符号化するために使用した所定の量子化は、第1次の修正済み状態
Figure 2013021690
のモデルパラメータによって定義されるレート−量子化モデル関数を使用して決定されたものであっても良い。ビデオ符号器12は、所定の量子化の決定を符号器自身で実行しても良い。代替的に、任意のレート制御手段18が所定の量子化を決定し、更に、このように決定された所定の量子化44を使用してビデオ符号器12を外部的に制御しても良い。例えば、レート制御手段18は幾つかの符号化レートの制約に従う必要があることも有るが、第1次の修正済み状態
Figure 2013021690
のモデルパラメータによって決定されたレート−量子化モデル関数に基づいて、最適な所定の量子化44を探求する。最適な量子化とは、符号化レート又は何らかのコスト関数を、符号化レート及び符号化品質の両方に依存して最小化することにより定義されても良い。第2修正手段32は時間離散カルマンフィルタの修正ステップを実行するが、このとき第2修正手段32は、実際の符号化レート42に依存する測定値を使用し、更に、モデルパラメータXと、所定の量子化44のためのレート−量子化モデル関数に従うビデオ符号器12の符号化レートと、の間の関係の線形化されたバージョンであって、第1次の修正済み状態
Figure 2013021690
において線形化された関係に依存する測定行列を使用する。さらに換言すれば、現フレームを実際の符号化レート42で
Figure 2013021690
のモデルパラメータを用いて符号化する際に、第2修正手段32は、符号器12により使用された所定の量子化でf(q,x)を線形化し、この線形化された関係は、第2修正手段32により、時間離散カルマンフィルタの修正ステップの中で測定行列として使用される。第2修正手段32により実行される第2修正ステップの結果は、2回の修正を受けた時間離散カルマンフィルタの状態を表し、従って、現フレームの実際のレート−量子化関数20のより良好な近似のためのより良好なモデルパラメータの推定を表す。また、第2修正手段32はこの2回の修正を受けた状態を、更新手段28が次のフレームk+1に関して実行する予測ステップのための参照状態として伝送する。
上段では図1の実施形態を比較的大まかに説明したが、後段では、図1の実施形態の可能性のある構成について、レート−量子化モデル関数の明確な例を挙げながら詳細に説明する。当然ながら、後段の詳細な説明は他のレート−量子化モデル関数に対しても容易に転用可能である。従って、他のレート−量子化モデル関数に関係する限り、後段の詳細な説明が、上述した実施形態の詳細な構成を表すことにもなる。同様に、後段の説明の中ではビデオ符号器12をH.264符号器と仮定しているが、後段の説明は符号器のそのタイプだけに限定されるものではない。事実、後段の説明が他のビデオ符号器に対しても転用可能であることは、その記述から容易に推定可能である。
後段の詳細な説明における数学的記述を容易にする目的で、まずR−Qモデルの具体的な実施例を紹介し、このR−Qモデルのモデルパラメータが如何にしてダイナミック・システムの状態として解釈できるかについて説明する。このダイナミック・システムとは、時間離散カルマンフィルタが作動するシステムである。次に、カルマンフィルタの基本を示す。その後、R−Qモデルを決定するために有効な情報を後続の章において説明する。第IV章においては、モデルパラメータの正確な推定を得るために、この情報が修正カルマンフィルタによってどのように処理されるかについて説明する。第V章では幾つかの重要な注意点を記載する。第VI章では、推定アルゴリズムとの組合せにおける提案モデルの品質を証明する結果を提供する。これらの詳細な説明の中に点在するように、図1への参照が求められるが、これは、図1に示し且つこれまで説明した項目に対する可能性のある構成の詳細として、上段の詳細を関連付けるためである。後段における詳細は、図1の要素に対して個別に関係することに注意されたい。
I.R−Qモデル
通常は、実際のR−Q関数を得るために、可能性のある全ての量子化パラメータを用いて1つのフレームを符号化することは不可能である。その代わり、量子化パラメータとレート制御に対するビットレートとの間の関係についての近似知識を提供する、モデルが使用される。
動き補償ビデオ符号化における時間的予測に起因して、1つのフレームのレート−量子化特性は参照フレームに使用された量子化パラメータに強く依存する。しかしこのため、近似モデルを見つけることはより困難となる。なぜなら、R−Q曲線はもっと変化し易いからである。このような複雑性を回避するため、モデルはある一定の(constant)量子化手段に対して有効であると推定されている。つまり、Rk(QP)はQPで量子化されたフレームkのためのレートであり、このとき参照フレームは同じ量子化パラメータQPで符号化されたと仮定している。
多数のモデルがテクスチャ/ソースビットとヘッダビットとを区別している(例えば非特許文献9を参照)。テクスチャビットは実際の画像データをモデル化するために使用されるビットであり、ヘッダビットは動きべクトル、予測モード及び量子化パラメータのような必要なサイド情報を供給する。しかし、このような区別は通常必ずしも必要という訳ではなく、また、モデリングの問題を簡単にする訳でもない。従って、ここで提示するレート−量子化モデルは、全レート(テクスチャビット+ヘッダビット)を考慮したものである。
H.264/AVCにおいては、選択可能な量子化パラメータは、選択されたビット深度(bit depth)に依存する。以下に示すモデルは、可能性のある全てのビット深度についてのR−Q関数を近似できる。従って、量子化パラメータQPは次式により定義される。
Figure 2013021690
ここで、ビット深度オフセット(BDO)は、
BDO=6・(bit_depth_luma-8)
として定義される。
A.R−Qモデル関数
H.264/AVC符号化されたビデオフレームのレート−量子化曲線R(QP)は、異なるフレームについてはかなり異なる様子を示すことがある。これは、高いビット深度及び高い量子化ステップサイズにおいて特に当てはまる。これらの曲線の全てを十分に近似できるようにするためには、頻繁に使用される二次関数(数式(2))は満足できるものではない。そのため、非特許文献7に記載されたようなより複雑なモデルが提案された。
ここで導かれるモデルは、R(QP)曲線は低い量子化パラメータにおいて線形又は二次関数に似ているという見解に基づくものである。反対に、高いQP値においては、R(QP)曲線は通常は指数的な形状を持つ。図2はこの様子を図示している。
従って、学習的に決定された以下のピース毎の関数を、図1内のモデル関数26として使用しても良い。
Figure 2013021690
ここで、第1の区間は次の二次関数でカバーされ、
Figure 2013021690
第2の区間は次の指数関数でモデル化される。
Figure 2013021690
パラメータべクトルβはβ=[a1,b1,c1,m,a2,b2,c2]及びN=51+BDOとして定義される。表記法的に簡素化するために導入された、実際の量子化パラメータQPとモデルパラメータqとの関係は、次式となる。
Figure 2013021690
つまり、qはBDOの分だけシフトされた実際の量子化パラメータQPを表すだけという意味になる。
モデルf(q,β)は常に1画素当たりのビットのレートを表すことに注意されたい。期待されるビットの実際の個数を得るために、f(q,β)は単純にフレーム又はスライス内の画素数(NP)によって掛け算されなければならない。従って、R−Q関数は次のようにモデル化される。
Figure 2013021690
パラメータa1,b1,c1,a2,b2,c2及びmは、関数をレート−量子化曲線へとフィットさせるために使用される。第1区間が終了して第2区間が開始する位置m(量子化パラメータ)は、それ自身が調整可能であることに注意されたい。この点は有利である。なぜなら、(遷移点が数式(10)に記載の曲線フィッティングを使用して決定された)図3に示すように、二次モデルと指数モデルとの間の遷移点の位置は、異なるシーケンスにおいては非常に異なる可能性があるからである。
f(q,β)は平滑であるべきことから、それは連続的に微分可能であることが求められる。従って、βについては次式を満たす値だけが許可される。
Figure 2013021690
これに従えば、a1=exp(a2)及びb1=b2・a1である。つまり、数式(4)により与えられた関数をフレームの実際のレート−量子化曲線へとフィットさせるために使用できる、自由に選択可能なパラメータは現実には5個しかないことになる。
図4では、二次モデルの近似品質が、モバイルシーケンスのフレームの例示的なR−Q曲線について今回提案されたモデルと比較される。二次のモデル及びその今回提案されたモデルのパラメータは最小二乗法を用いて決定されたことに注意されたい。図から、今回提案されたモデルは、レート−量子化関係を非常に良好に近似できることが分かる。完全ではないが、二次モデルもまた合理的に見える。しかし、図5から分かるように、対応する絶対誤差はかなり大きい。今回提案されたモデルの潜在的な正確性には、それが多少複雑であるという欠点がある。これは、そのパラメータを高い信頼性で推定することはより困難であることも意味する。事実、単純なモデルのパラメータは急速かつ高い信頼性で予測できる(非特許文献6を参照)。しかし、モデルは量子化手段の領域の全体について有効でなければならない。しかも、後続の章で説明するように、高い品質でパラメータを推定することは依然として可能である。更に、そのようなモデルは通常、フレームの(及び恐らくスライスの)レイヤにおいてのみ意味を持つため、必要とされる追加的な演算は微々たるものである。
B.近似
数式(4)により与えられたモデルは、実際のR(QP)関係を適切に近似するであろう。QP領域の全体のための適切なモデルを得るために、本発明の発明者らは、小さな絶対近似誤差よりも、小さな相対近似誤差を持つことの方が重要であることを発見した。まず対数変換を行い、次に最小二乗法を使用することで、許容可能な相対誤差を達成することができた。従って、最適なパラメータべクトル
Figure 2013021690
は次式により定義される。
Figure 2013021690
ここでは、数式(9)に従って有効べクトルだけが考慮されると想定される。相対誤差の方がより重要であることを考慮に入れるため、ある対数変換が適用される。
確かに、
Figure 2013021690
により与えられるモデルは、実際のR−Q関数R(QP)の非常に正確な近似であることが発見された。この点は、モデルパラメータが前述した方法に従って決定された、図6に示す例によっても証明される。この図6は、相対誤差が全てのQPについて同様に保たれる、即ち、近似品質は全てのドメインにおいて良好であることを示している。
モデル
Figure 2013021690
は実際のR−Q関数を非常に良好に近似するが、しかし、いくらかの誤差が残っている。この点は次式で表現できる。
Figure 2013021690
ここで、近似誤差
Figure 2013021690
は、ゼロ平均及び分散
Figure 2013021690
によって正規分布される。即ち次式となる。
Figure 2013021690
C.状態の公式化
数式(10)に従い、各フレームkについて適切なパラメータべクトル
Figure 2013021690
を見つけることができる。この
Figure 2013021690
を使用して、モデル
Figure 2013021690
は対応するフレームのレート−量子化特性Rk(QP)を近似的に記述する。ここで、
Figure 2013021690
がべクトルxkにより表現できると仮定すると、このべクトルxkはフレームkのR−Qモデルの状態として解釈することができる。ここで、以下に示すxkの定義を選択する。
Figure 2013021690
実際、その状態として
Figure 2013021690
を選択することも可能である。しかし、このように選択した理由は、使用されたモデル関数が独立パラメータを5個しか持っていないために、xkのサイズが5×1に過ぎないからである。更に、この選択が粗い結果をもたらし、パラメータa1,b1,c1及びa2,b2,c2の相対的に容易な計算を可能にする。
Figure 2013021690
の対数をとることで、モデル関数が正の領域f(q,x)≧0を持つことが保証される。
表記上の簡素化のために、この章では時間に関する下付き文字kを以後省略する。即ち、x1はベクトルxの第1要素である。関数パラメータは状態ベクトルxから以下のように決定される。
Figure 2013021690
従って、R−Qモデル26は状態に関して以下のように書き換えることができる。
Figure 2013021690
但し、
Figure 2013021690
及び
Figure 2013021690
である。
D.モデルの制約
自明であるが、レート−量子化モデルは量子化パラメータの全ての領域において正でなければならない。更に、QPが増加するにつれて、単調に減少しなければならない。最後に、現実的には完璧に正しいとは言えないが、レート−歪み関数は凸状でなければならない。この制約は、ビデオ符号化の幾つかのアルゴリズムのために必要であり(非特許文献15を参照)、更に、レート−歪み理論(非特許文献1)に従うものである。従って、xは次式を満たす必要がある。
Figure 2013021690
数式(16)、(17)に含まれる指数により、及びf'(q,x)≦0の仮定により、f(q,x)≧0が保証される。残りの制約は以下のように示すことができる。
Figure 2013021690
ここで、最初の2つの不等式によりf'(q,x)≦0が保証され、後の2つの不等式によりf''(q,x)≧0が保証される。
II.カルマンフィルタ
後段でも説明するように、R−Qモデルのための最適なパラメータを発見するという問題は、ダイナミック・システムの状態を決定するという問題として考えることができる。線形ダイナミック・システムの最適な状態は、カルマンフィルタを使用して発見することができる。従って、カルマンフィルタは第IV章において提示するモデルパラメータ推定アルゴリズムの基礎でもある。そのため、この章の残りの段落においてカルマンフィルタの基礎について説明する。
線形離散時間システムは次式にて記述でき、
Figure 2013021690
測定式は
Figure 2013021690
であり、ここで、wkは処理ノイズ(process noise)であり、vkは測定ノイズ(measument noise)であり、これらの両方が白色、ゼロ平均、無相関であり、共分散
Figure 2013021690
をそれぞれ持つ。べクトルxkはシステムの状態を表し、Φk-1は状態遷移行列であり、Hkは状態を測定ykへと関連付ける。そのようなシステムのために、最適な状態
Figure 2013021690
が離散時間カルマンフィルタ・アルゴリズムを適用することで見つけられる。
A.離散時間カルマンフィルタ
上述した形式の線形離散時間システムを解くために、離散時間カルマンフィルタ(導出方法については非特許文献17を参照)を使用することができる。それは各時間ステップ又は反復kについて以下の演算を含む。
1)予測(状態及び共分散伝播(Covariance Propagation))
Figure 2013021690
2)修正(状態及び共分散更新)
Figure 2013021690
B.シーケンシャルなカルマンフィルタ処理
カルマンフィルタは、時間kにおいてr個の別々の測定が存在すると仮定している。つまり、r×1測定べクトルykが存在し、これが数式(25)における修正に使用される。しかし、全ての測定を一度に処理する必要はない。代わりに、一つずつ処理することも可能である。これが図1に示すシーケンシャルなカルマンフィルタの考え方である。つまり、最初にy0kが処理され、次にy1kが処理されるというような調子で、全てのr個の測定が考慮される。この方法はカルマンフィルタ修正式をr回演算することを必要とするが、しかし、この方法は非常に有用であると言える。なぜなら、数式(24)における逆が単に割り算となるからである。即ち、行列反転(matrix inversion)が必要でないからである。
もし測定ノイズ共分散行列Vkが対角行列である場合には、シーケンシャルなカルマンフィルタは特に有益となり得る。Vkの他のタイプについては、追加的で時間が掛かる演算が必要となるかもしれない。そのような場合には、従来のバッチアルゴリズムの方が通常は適切である。シーケンシャルなカルマンフィルタのより詳細な説明は、非特許文献17に開示されている。
C.有色測定ノイズ
時には、測定を損なわせるノイズがシーケンシャルに相関付けられる。即ち、
Figure 2013021690
で示され、ここで、ζkは共分散
Figure 2013021690
を持つゼロ平均白色ノイズである。
上述したように、標準カルマンフィルタはノイズvkを白色と想定している。この問題を解く2つの一般的な方法がある。状態の増加(augmenting)による方法と測定差別化(measurement differencing)による手法である(非特許文献2、3を参照)。後段で説明するように、本発明で考慮するこの問題への好適な手法は、非特許文献13においてペトヴェロ(Petovello)等が提案した測定差別化の手法を少し修正したバージョンである。
非特許文献3においてブリソン(Bryson)とヘンリクソン(Henrikson)が提示した測定差別化の手法は、新たな測定べクトルy'kを次式で定義する。
Figure 2013021690
数式(21)を(29)に代入すると、次式がもたらされる。
Figure 2013021690
非特許文献13に従って、数式(20)を次式のように整理する。
Figure 2013021690
これを数式(30)に代入すると、次式となる。
Figure 2013021690
数式(27)を使用して、この式(32)を
Figure 2013021690
に置き換えることができ、ここで、
Figure 2013021690
である。
補助の測定ベクトルy'kのノイズv'kは、もはやシーケンシャルに相関付けられない。即ち、
Figure 2013021690
となり、ここで、δkjは次式で定義されるクロネッカー・デルタ関数(Kronecker-Delta)である。
Figure 2013021690
及び
Figure 2013021690
新たな測定ノイズv'kと処理ノイズwk-1との間に導入される相関関係は、次式となる。
Figure 2013021690
この相関関係は、妨害入力(disturbance input)と測定ノイズとの間のクロスの相関関係を考慮する一般的な離散カルマンフィルタによって、取り扱うことができる(非特許文献17、20を参照)。
D.拡張カルマンフィルタ
拡張カルマンフィルタは、測定及び状態が非線形な様子で関係している場合、即ち、
Figure 2013021690
の場合に使用できる。
拡張カルマンフィルタの考え方は、現時点の状態
Figure 2013021690
の周囲の測定式を線形化することである。
Figure 2013021690
次式を設定すれば、
Figure 2013021690
次式が得られる。
Figure 2013021690
この線形近似はカルマンフィルタによって取り扱うことができる形式である。
III. 測定
ここで、R−Qモデルのパラメータを決定するために次の章で使用される測定について説明する。1番目は、あるフレームを符号化することがどの程度複雑かを示すいわゆる複雑度の値である。これらは、修正手段30によって決定され、使用される。2番目は、符号化後に得られるビットレートであって、現時点のモデルの推定誤差を示すものである。これらは修正手段32によって決定され、使用される。
A.複雑度の値
フレームを符号化する前に修正手段30によって計算できる、様々な統計上の値が存在する。その中には、平均値、分散(σ2)、及び予測と実際のフレームとの間の平均二乗差(mean squared difference)(Δ)が含まれる。後者は、符号器12などの中で少なくとも粗い動き検出が行われた場合にだけ有効となる。代替的に、複数のレート−歪みモデル推定の手法において使用されている、一般的なMAD(平均絶対差)を差の値として使用することも可能である。
更に、これらの値の変形、即ち平均対数分散(σlog 2)及び平均対数差(Δlog)を使用することもできる。後者2つの利点は、はずれ値(例えば適切に予測できないマクロブロック)が最終値に対してあまり大きな影響を与えないことである。
分散のような値とは異なり、予測差の値は明らかに最終フレームの符号化に依存する。つまり、もし最終フレームが非常にまずく符号化されていた場合には、たとえ元の2つのフレームの間に何の変化が無い場合でも予測誤差が発生してしまう。このような依存性を克服するために、参照フレームの歪みに起因する悪影響が、測定された予測差から除去されなければならない。これは、分散に加え、QP及び参照フレームの歪みをも考慮に入れることで、略可能となる。その結果は、元のフレームが参照フレームとして使用された場合に得られたであろう予測差の値の推定と丁度同じになる。
上述した複雑度の値は、対応するフレームの符号化特性を示すこともできる。つまり、これら複雑度の値とレート−量子化モデルのパラメータとの間にはある関係があるという意味である。従って、修正手段30がレート−量子化モデルのパラメータ又は状態を推定することは可能であり、それぞれ次式で得られる。
Figure 2013021690
関係hi,hpは、種々のシーケンスについてのレート−量子化関係を計算することで経験的に得られたものである。現フレームが新たな場面の1番目のフレームであるとき、即ち、Δ及びΔlogが非常に大きいときに、hpは合理的な推定をもたらすことにも注意すべきである。
状態推定
Figure 2013021690
を使用して、フレームkについての以下のような測定式を公式化できる。
Figure 2013021690
ここで、5×1のべクトルvkは予測誤差又はノイズとして考慮することができる。数式(44)に記載した経験的な導出に従えば、
Figure 2013021690
が想定可能となる。
Figure 2013021690
は状態の推定であるから、行列Hkは丁度恒等行列となる。即ち、
Figure 2013021690
となる。
通常は、予測誤差vkは時間において高い相関関係がある。その理由は、複雑度の値は、レート−量子化特性と同様に、後続のフレームに対して類似的となるからである。つまり例えば、予測状態
Figure 2013021690
がそのフレームkの複雑度を過小評価している場合、フレームk+1について予測された状態
Figure 2013021690
もまたその複雑度を過小評価していることを意味する。従って、vkは実際に有色ノイズであり(第II−C章と比較されたい)、即ち
Figure 2013021690
であり、ここでζkは時間的に無相関であり、ゼロ平均及び分散Zkで正規分布している。つまり、
Figure 2013021690
であり、Zkは経験的に決定されたものである。簡素化するために、5×5の相関行列Ykを次式で定義した。
Figure 2013021690
ここで、スカラは0≦ψk≦1である。つまり、全てのパラメータ
Figure 2013021690
について同じ相関関係ψkが想定される。この点は合理的である。なぜなら、相関関係は最後及び現フレームとの間のR−Q特性の変化の量(全てのパラメータについて同じである)に依存するからである。場面変換の場合には、例えばψk=0となる。
図7には、パラメータx1(状態べクトルxの第1の要素)について、予測誤差のシーケンシャルな相関関係が図示されている。図から分かるように、予測
Figure 2013021690
は常に実際値を過大評価している。そのため、誤差
Figure 2013021690
はシーケンシャルな相関関係を持つ。数式(47)を使用すれば、その相関関係を除去して残りの白色ノイズを抽出することが可能になる。
(全ての状態パラメータが同じ複雑度の値から予測されているために)完全に正しい訳ではないが、予測されたパラメータ同士の間にはクロスの相関関係がないと想定される。即ち、Zkは対角行列である。この点は、各測定をシーケンシャルに行うことで、カルマンフィルタの式を演算量から見て(行列反転を含まずに)効率的に計算できるという利点をもたらす。
B.符号化ビットレート
1つのビデオシーケンスの連続するフレームは、一般的に非常に似通ったものである。従って、近接するフレームのR−Q特性には高い相関関係がある。つまり、フレームkにおけるモデルがより正確であればあるほど、フレームk+1についてのモデルもより正確に推定できることになる。従って、たとえフレームkが既に符号化されていた場合でも、図1における第2修正手段がフレームkのモデルを更新することには意味がある。
結果として、量子化パラメータQPkを用いてフレームkを符号化した後で測定されたビットレートBkは、R−Qモデルを修正するためのフィードバックとして使用される。もし参照フレームが異なる量子化パラメータを用いて符号化されていた場合には、このレートはRk(QPk)(もし参照フレームもQPkを用いて符号化されていた場合には測定されていたであろうレートのこと。第I章を参照)から逸脱するかもしれない。しかし、モデルは実際のR−Q曲線Rk(QP)を近似しなければならないため、新たなビットレート
Figure 2013021690
は以下のように定義される。
Figure 2013021690
ここで、関数γkの目標は、実際に測定されたレートBkからRk(QPk)をできるだけ良好に推定すること、即ち、γk(Bk,QPk)≒Rk(QPk)である。単純な選択としては、γk(Bk,QPk)=Bkである。即ち、時間的な依存性を無視し、且つ測定されたレートだけを使用することである。しかし、主な参照フレームの統計上の値と量子化パラメータに基づいて、
Figure 2013021690
を計算することも可能であり、これはRk(QPk)により近いものである。このレート
Figure 2013021690
は次にモデルを修正するために使用可能である。数式(11)に従えば、以下のような関係がビットレートと状態の間に存在する。
Figure 2013021690
この式は複数のフレームからなる1つのシーケンス(フレーム毎に1つの特定のQP)についてのモデルと実際のR−Q関数との間の誤差を考慮しており、他方、数式(11)は様々なQP(但し1つのフレームのみ)に関するモデルと実際のR−Q関数との間の誤差を考慮していることに注意されたい。
上述したように、誤差ukはモデルがR−Q曲線を完全に表現することができないことを示すものである。参照フレームとは異なる量子化に起因する誤差は、tkによってモデル化される。もし参照フレームもQPkによって符号化されていたならば、この誤差は明らかにゼロとなる。実質的に、uk及びtk
Figure 2013021690
の中へと組み込んでしまい、それをゼロ平均及び分散
Figure 2013021690
を持つランダム白色ノイズと考えることが適切である。即ち次式となる。
Figure 2013021690
IV.モデルパラメータ推定
多くの文献の中では、二次のR−Qモデルのパラメータは線形最小二乗によって決定されるようである。しかしカルマンフィルタは、ある程度(再帰的)線形最小二乗に類似しているが(非特許文献19を参照)、この特別な問題については幾つかの決定的な長所を有している。これらは、主に変形に対する固有の適応能力と、不確実性(ノイズ)の考慮と、複数の測定を合体させる可能性とである。
上述したように、ビデオフレームのレート−量子化特性は、場面変化を除き、時間において高い相関関係を持つ。つまり、1つのフレームのR−Q関数は、次のフレームのR−Q関数に通常は似ている。その結果、この相関関係を利用して、モデルの正確さを向上させることができる。しかし、当然ながら、ビデオ及びそのレート−量子化特性はダイナミックである。つまり、通常はゆっくりと、時間とともに変化する。当然ながら、モデルは変化したR−Q関係に対して適応しなければならない。
従って、R−Qモデルの推定の問題は、以下のようなダイナミック離散時間システムの状態を推定するという問題として考えられる。
Figure 2013021690
状態べクトルxkは第I−C章で定義されたR−Qモデルのパラメータを表す。1つのフレームから次のフレームへのR−Q特性の決定的な変化がないことから、状態遷移行列Φkは恒等行列である。即ち、
Figure 2013021690
である。
処理ノイズwkは次式で定義される。
Figure 2013021690
ここで、妨害ノイズ共分散行列Qkは、最後の状態が現フレームに対しても影響を与える不確実性をモデル化している。
数式(52)によって与えられ、数式(45)及び(50)の測定を備えるダイナミック・システムの状態の最適な推定を見つけるために、装置10は離散カルマンフィルタの修正バージョンを構成している。この修正カルマンフィルタとそれに含まれたデータの原理的な働きが、フレームkについて図8に図式化されている。個々のアルゴリズムステップの詳細な説明を以下に述べる。
つまり、図8は、後段で説明する具体的な構成に従って図1の要素が実行するステップを示している。この構成に従えば、要素28、30、32が拡張カルマンフィルタを実現する。
A.予測
図8に示す現フレームkに関する一巡のアルゴリズムの第1のステップは、例えば更新手段28によって実行される予測ステップ50である。
予測ステップ50において、最終フレームの修正済みの状態と共分散行列とは、時間上の現フレーム、即ち現フレームkのためのそれらを予測するために使用される。数式(22)と(23)の中に数式(53)を適用すれば、次式が得られる。
Figure 2013021690
この式から分かるように、更なる情報がないときには現フレームkについての状態の最適な推定は、ちょうど最終フレームk−1の事後的状態推定(posteriori state estimate)となる。しかし、状態の不確実性はQk-1により増大している。
これらの演算式(55)及び(56)は、予測ステップ50内の更新手段28によって実行される。
B.修正
上述したように、図8の修正カルマンフィルタ・アルゴリズムの修正は2つの修正ステップ52と54とに分かれ、それぞれ第1修正手段30と第2修正手段32とにより実行される。
このステップ52及び54の段階で、状態を修正するために測定が使用される。第III章で説明したように、測定には2つのタイプがある。複雑度の値から予測された状態と、符号化の後で得られるビットレートである。通常は、全ての測定は測定べクトルの中に組み込まれ、状態を更新するために使用される。しかし、この場合には、複雑度の値から予測された状態は実際にフレームを符号化する前に有効であり、他方、ビットレートはその後にだけ有効である。しかし、符号化の前に良好なレート−量子化モデルを持つことは重要である。なぜならそのモデルは、量子化パラメータを決定するために、制御手段18等のレート制御手段によって使用できるからである。明らかに、モデルとレート制御は、もし複雑度の値を符号化の後にだけ考慮した場合と同様には良好とはいえないであろう。そのため、従来のカルマンフィルタとは違い、この修正段階は2つのステップへと分割された訳である。第1のステップ52では複雑度の値が、第2のステップ54ではビットレートが、状態を更新するために使用される。
このような分割は第II−B章に説明したシーケンシャルなカルマンフィルタに従って実際に可能である。更に、2段階の修正は容易に利用することができる。なぜなら、予測状態vkの要素の誤差と測定されたビットレート
Figure 2013021690
の誤差との間において、何も修正が想定されていないからである。即ち、
Figure 2013021690
2つのタイプの誤差は完全に異なる欠点から発生しているため、このような想定は適格である。予測状態の誤差は複雑度の値の予測における限界に起因しており、他方、測定されたレートの誤差はモデルが実際のR−Q関数へと完全にはマッチできないことに起因する。つまり、これら2つのタイプの測定の間における相関関係は殆ど無いという意味になる。確かに、実地試験では、予測状態と測定ビットレートとの間における有意な修正は見つかっていない。
1)修正ステップ1:修正手段30により実行される第1の修正ステップ52は、第1修正手段30による複雑度の値
Figure 2013021690
を決定するステップ56を含む。上述したように、最適な決定には、符号器12がフル・ペル動き推定(full pel motion estimation)を実行するなどして粗い時間的予測58を実行し、先行フレームk−1から現フレームkを予測することが含まれていても良い。符号器12は必ずしも直前に符号化されたフレームを参照フレームとして使用する必要はないことに注意すべきである。参照フレームは、現在の時間シーケンスにおける直前のものに限られてはいない。符号器12は参照インデックスを選択する自由を有している。即ち、先行するいずれの符号化済フレームを参照フレームとして指標化しても良い。次に、第1ステップ52において、複雑度の値
Figure 2013021690
から数式(44)に定義されるように予測された状態が、現フレームに関するR−Qモデルの推定品質を向上させるために使用される。予測誤差のシーケンシャルな相関関係に対処するため、第II−C章で説明した測定差別化の手法が使用されても良い。数式(29)に従い、補助的な測定y'kが以下のように定義される。
Figure 2013021690
数式(53)及び(46)を数式(34)へと挿入すれば、以下のような新たな測定行列H'kができる。
Figure 2013021690
このステップのためのカルマン・ゲインK'kは次式となり、
Figure 2013021690
ここで、
Figure 2013021690
となる。
これは数式(46)及び(53)をそれぞれ数式(38)及び(39)内で使用することで得られたものである。数式(60)は、非特許文献17及び非特許文献20に開示されたように、クロスの相関関係を持つ妨害及び測定入力の場合におけるカルマン・ゲインのための数式に過ぎないことに注意すべきである。このカルマン・ゲインK'kを使用して、その状態を更新することで以下のような中間状態の推定
Figure 2013021690
を得ることができる。
Figure 2013021690
同様に、このステップのための処理ノイズ共分散の更新は次式となる。
Figure 2013021690
つまり、第1修正手段30は数式(58)を演算して測定値y'kを取得し、更に、数式(59)に従う測定行列を設定し、かつ数式(60)及び数式(61)に従うカルマン・ゲインを設定することで、数式(62)に従うカルマン状態と数式(63)に従う関連する不確実性とを一緒に修正しても良い。
2)修正ステップ2:第1の修正ステップ52の結果は第1次の修正済み状態
Figure 2013021690
であり、上述したように、このモデルパラメータの推定は、例えばレート制御手段18又は符号器12自身の何らかの内部的な要素(この代替案については図1内に図示していない)によって、符号器の符号化レートを制御するために使用されても良い。このレート制御ステップは図8内では参照符号60で示される。特に、ステップ60は、
Figure 2013021690
によって決定されたレート−量子化モデル関数に基づいて現フレームkを符号化するための所定の量子化QPkを選択することを含む。実際の符号化は、この所定の量子化を使用して、ステップ62において符号器12によって実行される。その結果、選択された所定の量子化QPkを使用することで得られた実際の符号化レートBkが既知となり、第2の修正ステップ54において使用することができる。このステップ54では、符号化の後で得られたビットレートが、R−Qモデル26のためのフィードバックとして使用される。つまり、その状態は関係(50b)に従って修正されるという意味になる。この関係は(log(f(q,x))のために)非線形であることから、拡張カルマンフィルタ(第II−D章を参照)が使用され、それに従えば、現時点の状態
Figure 2013021690
の周囲の測定の方程式は次式のように線形化される。
Figure 2013021690
ここで、
Figure 2013021690

Figure 2013021690
における(f(qk,x))の勾配と定義する。
Figure 2013021690
すると、数式(64)は次式に書き換えることができる。
Figure 2013021690
この式の左側を数式(25)における測定として使用すれば、このステップのための測定更新は次式となる。
Figure 2013021690
カルマン・ゲイン
Figure 2013021690
と更新済みの共分散行列Pk +とは、一般的な数式(24)及び(26)に従って計算される。即ち、
Figure 2013021690
つまり、第2の修正手段32は、数式(65)に従い、使用された量子化qkにおけるレート−量子化モデル関数fとモデルパラメータの第1次的に予測された状態
Figure 2013021690
とを線形化して測定行列を取得し、更に、数式(67)を計算してカルマン状態を更新し、数式(69)を計算して対応する不確実性を数式(64),(66)及び(68)に従って更新する。
数式(50a)及び(50b)に関して説明したように、第2修正手段32は以下のように構成されても良い。即ち、測定値はビデオ符号器12の測定された符号化レート42に依存し、その依存方法は、現フレームkを符号化するときに使用された所定の量子化qkと以前に符号化された参照フレームをビデオ符号器12が符号化するときに使用された別の量子化との間の関係に依存するものである。この参照フレームとは、その再構成されたバージョンから、ビデオ符号器12が動き補償予測によって現フレームを予測した元のフレームのことである。
図8についての上述の説明の中では、更新手段28が何らかの方法で妨害ノイズ共分散行列Qkを予測しなければならず、更にその行列は第1修正手段30に適用され、この第1修正手段30は測定ノイズ共分散行列Zk及び
Figure 2013021690
を追加的に選択する必要があるという点について、説明を省略して来た。次章Cでは、その可能性のある選択と、更に相関行列Ψkについての可能性のある選択について説明する。
C.推定の制御
異なる有効な情報の適切な融合は、Qk、Zk
Figure 2013021690
及びΨkによって制御される。これらの行列は、測定の中の不確実性と状態とをモデル化する。それらを適切に選択することで、状態の合理的な推定と、レート−量子化モデルの合理的な推定とを得ることができる。都合良いことに、ビデオフレームのR−Q特性の可変性によって、それらは全てのフレームに対して適合できる。
行列Qk-1は、
Figure 2013021690
もまたフレームkについての良好な推定であるという不確実性を表す。この不確実性は1つのフレームから他のフレームへの符号化特性の変化に起因する。つまり、もし2つの連続するフレーム(及びそれらに対応する関数)が非常に異なっている場合、不確実性の増加が高くなる。反対にもし2つのフレームが略同一であれば、最終フレームの状態は現フレームに対しても適切である可能性が高い。同様に、パラメータ推定
Figure 2013021690
との間の相関関係、及びΨkとZkとの適切な選択もまた、1つのフレームから次のフレームへのR−Q関係における変化量に依存すると考えることができる。
仮に、フレームk−1からフレームkの間で場面変化が起こった場合を例として想定する。この場合、処理ノイズ共分散行列Qk-1の主対角要素は無限大となり、状態における不確実性はなくなってしまう。これは、場面変化を超えるフレーム間のレート−歪み特性が無相関であることから、必然的である。同様の理由によって、そのような場合における相関関係パラメータΨkはゼロとなり、Zk=Vkとなることが結論付けられる。従って、もし場面変化がある場合には、全ての時間情報が無視され、複雑度の値から予測された状態
Figure 2013021690
が可能性な限りの最適な状態となる。
Figure 2013021690
の値はR−Qモデルの変化に直接的には依存していない。仮にそれがモデル関数と実際のR−Qとの間の誤差をモデル化するだけであるとすれば、関係
Figure 2013021690
は一定に保持することができるであろう。しかし、それはまた、Rk(QPk)からの
Figure 2013021690
の可能性のある偏差をもモデル化しなければならないため、参照フレームが他のQPを用いて符号化された場合には、この
Figure 2013021690
の値も都合良く増大することができる。
V.所見
図8に示すように、レート制御60は、第1修正ステップ52の後で得られた状態推定に基づくレート−量子化モデルを使用する。つまり、レート制御は、
Figure 2013021690
が量子化パラメータとフレームkのレートとの間の関係を表すと想定している。
連続するフレームの近似誤差において相関関係がないと想定することは(数式(51)を参照)、現実に幾つかの顕著な結果をもたらす。もし常に同様なQPが符号化のために選択されている場合には、使用される量子化パラメータの領域内においてモデルはさらに正確性を増すであろう。つまり、モデルは全体のQP領域に亘って最適とは言えないが、現時点で使用されているQP値の周囲では良好である可能性が高いという意味になる。レート制御によって考慮されるQP値の領域は狭い場合が多いため、このような特性は非常に有益である。反対に、もし可能性のある全ての領域[−BDO,51]からのQPが使用される場合には、モデルは数式(10)の意味において包括的に最適となるであろう。即ち、モデルは全ての量子化パラメータについて同じ推定品質を持つことになる。つまり、モデルの正確性がQP選択動作に対して自動的に適合することになる。
修正と予測との両方、及び推定されたモデルは、現フレームの符号化が先行フレームの符号化に依存していないと想定している。しかし、第I章で説明したように、これは真実ではない。実際に作動するレート−量子化曲線と推定されたレート−量子化モデルとの間の偏差もまた、モデル化できる。しかしこの点は、正確なビットレートを知る必要がある場合にのみ重要となる。もしビットレートが長期においてのみフィットする必要がある場合には、生のレート−量子化モデルが現実的には十分であるか、又はより良好な情報を与える。
第II−C章で説明したものとは別に、シーケンシャルな相関関係がある測定を取り扱う他の方法、例えば状態付加(state augmentation)や従来の測定差別化法なども存在する。状態付加の手法は10×10の行列演算を含むために計算能力上不安定である一方で、従来の測定差別化の手法はシーケンシャルに適用することが困難である。第II−C章で使用された手法の欠点は、通常は状態遷移行列Φの逆転を必要とするという点である。しかし、この場合には、Φ-1=I-1=Iとなるため、これは問題とならない。
同様に、拡張カルマンフィルタだけが非線形システムを取り扱う方法という訳ではない。例えば非特許文献17を参照すれば、他の手法が開示されている。しかし、拡張カルマンフィルタは、本件で考慮した具体的な問題には適切であると考えられる。その理由は、演算上の簡易さであり、線形化の誤差にもかかわらず適切な結果をもたらすという事実である。
非常に稀ではあるが、カルマンフィルタによってリターンされた更新済みの状態が数式(19)の1つ又は複数の制約を破る場合も起こり得る。その場合には、非特許文献16に記載の制約付きカルマンフィルタ処理の手法の1つを使用して、有効な状態を得ることができる。
測定は行列の逆転を必要とせずにシーケンシャルに処理されることが可能であることに注意されたい。加えて、多くの行列がまばら及び又は対称的である。この点は処理時間を短縮させる目的で利用可能である。
Iピクチャのレート−歪み特性はP又はBピクチャのそれとは異なる。そのため、Iピクチャについての測定が時間的に予測されたピクチャに関するレート−量子化モデルを更新するために使用されるべきではない。
フレームのレート−量子化特性は、ピクチャ・タイプと参照フレームまでの時間的距離とにも依存する。例えばもしフレーム予測構造IbBbPbBbPが使用された場合、PフレームのR−Q関係はbフレームのそれとはかなり異なる。そのような場合には、各ピクチャ・タイプについてアルゴリズムの一例(先述の例では4個)がなければならない。一例では状態推定
Figure 2013021690
と対応する誤差共分散行列Pとを含む。当然ながら、この場合のインデックスk−1は同じタイプの先行して符号化されたフレームを指している。換言すれば、図1の装置10は、それが操作しているフレームシーケンスが、特定の予測タイプのフレームだけを含み、ビデオシーケンス14の異なる予測タイプのフレームを含まないという点で、ビデオシーケンス14の適切なサブセットであるよう構成されている。複数の装置10が並列に設けられ、それぞれが異なる予測タイプに対応していても良く、又は、1つの装置が異なるカルマン状態及び関連する不確実性を処理してもよい。即ち、各予測タイプについて1つのペア(カルマン状態及び不確実性)を処理しても良い。
VI.結果
提案モデルの潜在的な正確性を示す目的で、種々のシーケンスのフレームについて実際のレート−量子化曲線R(QP)を計算した。その後、二次モデル及び提案モデルを測定されたR−Q関数に対してフィットさせた。比較できる値を得る目的で、このフィッティングは数式(10)に従って両方のモデルについて行った。平均近似誤差は次式のように計算した。
Figure 2013021690
ここで、Mは考慮されたフレームの個数を示す。二次モデル(二次モデルは通常は8ビットの場合のみについて定義されている。12ビットの場合については単純な拡張であると考えられるものを使用した)(数式(1))と、提案モデル(数式(4))に関する種々のシーケンスについての結果をまとめると、表1になる。
Figure 2013021690
この表から分かるように、特に12ビットのサンプル深度において、提案モデルの方が二次モデルに比べて明らかに性能が優れている。
提案推定アルゴリズムの印象を得るために、例示的な特性を図9に示す。2つの連続したフレームのレート−量子化特性の間にこれ程大きな差異が存在することは、むしろ例外的であることに注意されたい。しかし、明示する目的においては、良い例と言える。図から分かるように、修正ステップ1は、現フレームが最終フレームよりも符号化が複雑であることを既に認識している。しかし、測定されたレートは、
Figure 2013021690
が現実のレート−量子化特性を依然として過小評価していることを示している。従って、修正ステップ2では、モデル関数を更に高めに導く。修正済みのR−Q曲線が修正に使用されたサンプルを正確に通過している訳ではないことに注目されたい。その理由は、(ビットレートはフレーム毎に振れることが多いため)モデルの振動を防ぐ
Figure 2013021690
を使用しているからである。
図10及び図11は、他の観点から見た推定を示す。ここでは、低い遅延シナリオにおけるR−Qモデルを例示的に使用する。レート制御は与えられた目標レート(この場合では各フレームに500キロビット)をもたらすQPを見つけるべく動作する。つまり、最適なQPは次式となる。
Figure 2013021690
Figure 2013021690
であるから、このレート制御では、
Figure 2013021690
が最小化される量子化パラメータが使用される。これらの計算では、選択された最適なQPをR−Qモデルに従って選択されたQPと比較する。更に、複雑度の値から予測された状態だけを考慮する場合(第1修正のみ)に選択されるQPと、符号化の後で測定されるレートだけをモデルの修正に使用する場合(第2修正のみ)に選択されるQPとに対しても比較する。
図10から、場面変化の場合においては、複雑度の値から得る状態予測だけが信頼できることが分かる。測定されたレートを使用する修正は、その予測された状態の歪みを除去するために重要である。この点は、選択されたQPと対応するレートとを長期間に亘って示す図11に示されている。両方の修正を組み合わせることにより、最適により近い解決策が見つけられる(図10及び図11を参照)。
VII.結論
以上のように、上述したモデルは可能性のある種々のレート−量子化曲線を近似することができ、その結果、H.264/AVCを用いた符号化によって非常に高い正確性をもたらす。この正確性は量子化領域全体に及ぶ。一般的に使用されている二次モデルと比較しても、上述のモデルは顕著な高品質を示す。このモデル及び他のモデルのパラメータを推定するという問題は、カルマンフィルタの修正バージョンを使用することで解決できる。これにより、時間的相関関係と有効な複雑度の値とが考慮可能となる。その結果、ノイズ共分散行列と相関関係パラメータとを介して完璧に制御可能な、洗練され且つ簡素なアルゴリズムが得られた。このモデルの優れた品質とその推定は、様々なシミュレーション及び実験によって証明することができる。
換言すれば、上述の実施形態は、H.264/AVCのためのピース毎に定義されたレート−量子化モデルのカルマンフィルタに基づく推定形式を持つ両方の態様を結合したものである。一方では、H.264/AVCビデオ符号化標準のための有利なフレーム層レート−量子化(R−Q)モデルが使用された。特に、上述した実施形態においては、有利なモデル関数とともに有利なパラメータ推定アルゴリズムが使用された。ピース毎に定義されたモデル関数は、レート−量子化曲線の種々の異なる形状を非常の良好に表現することができる。モデルパラメータ推定のために、カルマンフィルタの修正バージョンに基づくアルゴリズムが使用されている。そのため、連続するフレームの時間的相関関係を利用することが可能となり、同時に、複雑度の値と符号化から得られたビットレートとが考慮可能となる。上述したモデルとパラメータ推定アルゴリズムとを使用すれば、実際のレート−量子化曲線を高い正確性で予測できる。高品質R−Qモデルは、例えば低遅延レート制御のような種々のワンパスレート制御問題や、レート−歪み最適化問題に対して非常に有益となり得る。換言すれば、このモデルはH.264/AVC符号化済みフレームのレート−量子化関係を正確に表現することができる。更に、上述したアルゴリズムはこのモデルのパラメータを適切に推定できる。他の多くの手法とは異なり、上述の実施形態はレート制御とR−Qモデルとの間を厳密に区別する。レート−量子化モデルとパラメータ推定とにより、レート制御がどの量子化手段を使用すべきかを決定できる。これは、異なるレート制御タイプが同じR−Qモデルを使用できるという長所を有することも明らかである。
しかし、両方の態様、即ちモデル関数とカルマンフィルタに基づくパラメータ推定とは、互いに分離した状態で利用された場合でも有益である。つまり、上述したようなピース毎のモデル関数は、上述の第1及び第2の修正手段を含むカルマン・ベースのパラメータ推定を使用又は構成していないモデルパラメータ推定装置の中で使用されても良い。上述の長所は、モデルパラメータ推定において安定性が危険にさらされる程の多過ぎる数のモデルパラメータと、近似が劣悪になる程の少な過ぎる数のモデルパラメータと、の間で良好に定義された妥協点からもたらされる。他方、上述したように第1及び第2の修正手段を含むカルマン・ベースのモデルパラメータ推定は、上述したようなピース毎のモデル関数ではなく、他のレート−量子化モデル関数との関連で使用されても良い。その場合、修正プロセスを2つのステップに分離し、各修正ステップにおいてできるだけ正確な測定値を利用することから、上述の長所が生まれる。カルマン・ベースのモデルパラメータは、ビデオ符号器の実際の歪み−量子化関数を近似するための、歪み−量子化モデル関数のモデルパラメータを推定するために使用されても良い。その場合には、例えば第一次の修正済みカルマンフィルタ状態から得られた所定の量子化における実際の符号化歪みが、第二次の修正ステップのために使用されても良い。しかし、レート制御は、歪み−量子化モデル関数を使用するか、又はレート−量子化と歪み−量子化との両方のモデル関数を使用して、符号化レートを制御できる。
上述したレート−量子化モデル関数は、R−Q関係をピース毎に定義された関数形式で近似する。この関数は少なくとも2つのピースから成るか、若しくは2つのピースを含む。1番目、即ち細かい量子化ピースは二次の関数であり、量子化手段の低い領域をカバーする。2番目の粗い量子化ピースは指数関数であり、高いQPにおけるR−Q関係を表現する。この関数は自己発見的に決定される。しかし、それは実際のR−Q関係の特性によって影響を受けたものである。二次及び指数関数ピースの間の遷移点はそれ自身が可変である。そのため、モデルの適応性が非常に高い。実際のR−Q関数の形状は多様になり得るため、この点は有利である。更に、モデル関数が例えば8,10及び12ビットのビット深度の場合に使用できるという事実からも有利である。パラメータに対して制約を課すことで、関数が連続的に微分可能(C1)であることが保証される。残りの5個のパラメータはモデルを実際のR−Q関数へと高い正確性を持ってフィットさせるために使用されても良い。
他方、上述したR−Qモデルパラメータ推定では、モデルパラメータ推定の問題を、ダイナミック離散時間システムの状態を推定する問題として認識している。この点は有効である。なぜなら、連続するフレームのR−Q特性には高い相関関係があるが、僅かに変化する可能性もあるからである。
このように、システムの最適な状態及び各R−Qモデルの最適なパラメータを決定するために、修正カルマンフィルタが使用される。上述したカルマンフィルタ・ベースのアルゴリズムは、各フレームについて実行され以下に説明するような、3つの主たるステップを含む。
1)時間更新:1つのフレームから他のフレームへのR−Q特性の決定的な変化は無い。従って、最終フレームの状態が現フレームの第1の推定として認識される。しかし、状態の不確実性は増大する。
2)第1の修正:複雑度の値は、例えば分散および予測誤差である。これらの値は符号化の前に有効であり、現フレームについてのモデルのパラメータを直接的に予測するために使用できる。残念ながら、(複雑度の値の制約により)この予測自身は非常に不正確である。従って、予測されたパラメータはカルマンフィルタ・アルゴリズム内の測定値として認識される。そこで、それらは現時点の状態を修正するために使用される。予測されたパラメータのノイズのシーケンシャルな相関関係により、測定差別化の手法が優位に使用される。
3)第2の修正:現フレームを符号化した後で、符号化に必要とされたビット数が状態の修正のために使用できる。測定値と状態との間の非線形的な関係により、現時点の状態の周辺の測定式は線形化(拡張カルマンフィルタの手法)される。フレームは既に符号化されてはいたが、この修正は有意義である。なぜなら、連続するフレームの間には高い相関関係があるからである。即ち、現フレームのためのモデルが良好であればあるほど、次のフレームのためのモデルが良好になる。当然ながら、(モデルパラメータにおいて線形である)線形R−Qモデルも上述の実施形態の関連で使用されても良い。その場合には、線形化は単に標準カルマンフィルタ・ベースのアルゴリズムをもたらす結果になり、その線形化は必要とされないであろうし、何も変化を生まないであろう。換言すれば、上述した実施形態は、拡張カルマンフィルタではなく、標準カルマンフィルタを用いて作動するように修正されても良い。その場合には、第2修正手段における線形化は実行されない。なぜなら、第1次の修正済み状態におけるテストされ又は選択された量子化についてのレート−又は歪み−量子化モデル関数26に従うモデルパラメータと符号化レートとの間の関係は、既に線形となっているからである。
レート制御は、ステップ2の後で得られる状態に基づくモデルを使用する。このモデルをフレーム及びスライスレイヤに対して使用することは、通常は有意義である。正確なモデルは特に低い遅延シナリオにとって有益である。もしフレームQPが既に最適であるならば、マクロレベルにおいては殆ど変更を行う必要が無く、R−Dパーフォーマンスにおいて有意な低下を防止できる。これはまた、より単純なモデルと比較した演算のオーバーヘッドを正当化する。
通常、カルマンフィルタは2つのステップのみから構成される。しかし、ステップ1は符号化の前に行われ、ステップ2は符号化の後でしか行われないという事実に配慮して、レート制御のために可能な限り正確なモデルを提供するために、本発明では修正段階を2つのステップへと分割する。この方法はシーケンシャルなカルマンフィルタにより可能であり、ステップ1の測定とステップ2の測定との間にクロスの相関関係がないという事実により可能である。
状態の不確実性はカルマンフィルタのノイズ共分散行列によって正確にモデル化することができる。そのため、状態及びそのモデルを、変化するR−Q特性へと適応させることができる。例えば、場面変化に対しては、現時点の状態の不確実性を増大させることだけで対処することができる。この場合、ステップ2で説明した予測パラメータだけが信頼できることに注意されたい。
絶対誤差を小さくすることよりも相対誤差を小さくすることの方が重要であることが分かって来た。この点は、対数変換を用いることでアルゴリズムの中で考慮されている。そのため、QP領域の全体に亘る正確なモデルがもたらされる。
ステップ3で使用されたビットレートは白色ノイズによって壊されているという想定から、モデルの正確性はレート制御のQP選択の挙動に対して自動的に適合する。つまり、もし類似するQPが常に使用された場合にはモデルは局所的に正確となる一方で、ランダムなQPが使用された場合にはモデルは全体的に最適となる。
上述の概念のいくつかの態様を装置の文脈において説明したが、これらの態様は対応する方法の説明をも表すものであり、そこではブロック又は装置が、方法の各段階又は方法の各段階の特徴に相当することが明らかである。同様に、方法の各段階の文脈において説明した態様は、対応する装置の対応するブロック、項目又は特徴の説明をも表すものである。上述した方法ステップの幾つか又は全ての機能は、例えばマイクロプロセッサ、プログラム可能なコンピュータ又は電子的回路のような、ハードウエア装置(又はその使用)によって実行されても良い。幾つかの実施形態では、重要な方法ステップの1つ又は複数がそのような装置によって実行されても良い。
所定の構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどを使用して実行することができる。従って、そのデジタル記憶媒体はコンピュータ読み取り可能であっても良い
本発明に従う実施形態の幾つかは、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含んでも良い。
一般的に、本発明の実施例は、コンピュータプログラム製品として構成することができ、このプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の1つを実行するよう作動する。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されても良い。
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを含む。
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有する、コンピュータプログラムである。
本発明の他の実施形態は、上述した方法の1つを実行するために記憶されたプログラムコードを含む、データキャリア(又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体)である。当該データキャリア、デジタル記憶媒体又は記録済みの媒体は、典型的には有体物であり、変化しない物である。
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号シーケンスである。そのデータストリーム又は信号シーケンスは、例えばインターネットを介するデータ通信接続を介して伝送されるように構成されても良い。
他の実施形態は、上述した方法の1つを実行するように構成又は適用された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを受信器に対して(例えば電子的に又は光学的に)伝送するよう構成された、装置或いはシステムを含む。その受信器は、例えばコンピュータ、モバイル装置、メモリ装置又はその類似物であっても良い。その装置或いはシステムは、例えばコンピュータプログラムを受信器に対して伝送するためのファイルサーバーを含んでも良い。
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には、任意のハードウエア装置によって実行される
上述した実施の形態は、本発明の原理を単に例示的に示したにすぎない。本願明細書に記載した構成及び詳細について、修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本願明細書に実施形態の説明及び解説として提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
通常は、予測誤差vkは時間において高い相関関係がある。その理由は、複雑度の値は、レート−量子化特性と同様に、後続のフレームに対して類似的となるからである。つまり例えば、予測状態
Figure 2013021690
がそのフレームkの複雑度を過小評価している場合、フレームk+1について予測された状態
Figure 2013021690
もまたその複雑度を過小評価していることを意味する。従って、vkは実際に有色ノイズであり(第II−C章と比較されたい)、即ち
Figure 2013021690
であり、ここでζkは時間的に無相関であり、ゼロ平均及び分散Zkで正規分布している。つまり、
Figure 2013021690
であり、Zkは経験的に決定されたものである。簡素化するために、5×5の相関行列Ψ kを次式で定義した。
Figure 2013021690
ここで、スカラは0≦ψk≦1である。つまり、全てのパラメータ
Figure 2013021690
について同じ相関関係ψkが想定される。この点は合理的である。なぜなら、相関関係は最後及び現フレームとの間のR−Q特性の変化の量(全てのパラメータについて同じである)に依存するからである。場面変換の場合には、例えばψk=0となる。

Claims (22)

  1. フレームシーケンス(14)のためのビデオ符号器(12)の実際のレート−又は歪み−量子化関数(20)を近似するために、レート−又は歪み−量子化モデル関数(26)のモデルパラメータを推定する装置であって、
    時間離散カルマンフィルタの予測ステップ(50)を実行するよう構成された更新手段(28)であって、前記時間離散カルマンフィルタの状態が前記モデルパラメータのパラメータ推定を表しており、前記フレームシーケンス(14)の先行フレーム(k−1)についての時間離散カルマンフィルタの状態から、前記フレームシーケンス(14)の現フレーム(k)についての時間離散カルマンフィルタの予測状態
    Figure 2013021690
    を得る、更新手段(28)と、
    前記現フレームkの複雑度の値を決定し、かつ決定されたその複雑度の値に依存する測定値を使用して前記時間離散カルマンフィルタの修正ステップ(52)を実行するよう構成された第1修正手段(30)であって、前記予測状態
    Figure 2013021690
    から前記時間離散カルマンフィルタの第1次の修正済み状態
    Figure 2013021690
    を得る、第1修正手段(30)と、
    所定の量子化を使用して前記現フレーム(k)を符号化する際の前記ビデオ符号器(12)の実際の符号化レート又は歪み(42)に依存する測定値を使用して、前記時間離散カルマンフィルタの修正ステップ(54)を実行する、第2修正手段(32)と、
    を備える装置。
  2. 前記時間離散カルマンフィルタの前記予測ステップを実行する際に、前記更新手段(28)は恒等行列を状態遷移行列として使用し、その結果、前記予測状態は前記先行フレームについての前記時間離散カルマンフィルタの状態によって定義される前記パラメータ推定を採用し、更に前記更新手段(28)は、前記先行フレームについての前記時間離散カルマンフィルタの状態と比較して前記予測状態の不確実性を増大させることを特徴とする、請求項1に記載の装置。
  3. 前記更新手段(28)は、前記現フレーム(k)と前記先行フレーム(k−1)との間の類似度を決定し、更に、その類似度に依存する量によって前記予測状態の不確実性を増大させることを特徴とする、請求項2に記載の装置。
  4. 前記第1修正手段(30)は、前記複雑度の値を決定する際に、動き補償予測により決定された暫定的予測フレームと現フレームとの間の偏差を示す値、及び/又は現フレームの分布の中心傾向の周りにおけるサンプル値の分布を示す分散値、を決定することを特徴とする、請求項1乃至3のいずれか1項に記載の装置。
  5. 前記第1修正手段(30)は、決定された前記複雑度の値に基づいて前記現フレーム(k)についてのレート−又は歪み−量子化モデル関数のモデルパラメータを予測し、更に、前記予測されたモデルパラメータと、前記先行フレームに関して決定され、ある相関行列に適用された複雑度の値に基づく前記先行フレームについてのモデルパラメータの予測の結果と、の間の差に依存する測定値を使用し、かつ前記恒等行列から前記相関行列を減算したもの等しい測定行列を使用して、前記修正ステップを実行することを特徴とする、請求項1乃至4のいずれか1項に記載の装置。
  6. 前記第1修正手段(30)は、前記現フレームと前記先行フレームとの間の類似度に依存して、前記相関行列を設定することを特徴とする、請求項5に記載の装置。
  7. 前記第2修正手段は、前記モデルパラメータと、前記所定の量子化に関するレート−又は歪み−量子化モデル関数(26)に従う符号化レート又は歪みと、の間の前記第1次の修正済み状態
    Figure 2013021690
    における線形的関係の線形バージョンに依存する測定行列を使用し、前記測定値を使用して前記時間離散カルマンフィルタの前記修正ステップを実行することを特徴とする、請求項1乃至6のいずれか1項に記載の装置。
  8. 前記第2修正手段は、前記モデルパラメータと、前記所定の量子化に関するレート−又は歪み−量子化モデル関数(26)に従う符号化レート又は歪みと、の間の関係の前記第1次の修正済み状態
    Figure 2013021690
    において線形化されたバージョンに依存する測定行列を使用し、前記測定値を使用して前記時間離散カルマンフィルタの前記修正ステップを実行することを特徴とする、請求項1乃至6のいずれか1項に記載の装置。
  9. 前記レート−又は歪み−量子化モデル関数はレート−量子化モデル関数であり、
    前記第1修正手段は、前記現フレームkについてのレート−量子化モデル関数のモデルパラメータを前記決定された複雑度の値に基づいて予測し、かつその予測されたモデルパラメータに依存して前記修正ステップにおける前記測定値を決定し、
    前記第2修正手段は、前記モデルパラメータと前記レート−量子化モデル関数に従う符号化レートとの間の関係の線形化されたバージョンに依存する測定行列を決定し、
    ビデオ符号器による量子化qをビデオ符号器の符号化レートへと関係付けるレート−量子化モデル関数fがピース毎の関数であり、細かい量子化区間内においては二次関数ピースを含み、粗い量子化区間内においては指数関数を含むことを特徴とする、請求項8に記載の装置。
  10. 前記第1修正手段は、前記現フレームkについてのレート−量子化モデル関数のモデルパラメータを前記決定された複雑度の値に基づいて予測し、かつその予測されたモデルパラメータに依存して前記修正ステップにおける前記測定値を決定し、
    前記第2修正手段は、前記モデルパラメータと前記レート−量子化モデル関数に従う符号化レートとの間の関係の線形化されたバージョンに依存する測定行列を決定し、
    ビデオ符号器による量子化qをビデオ符号器の符号化レートへと関係付けるレート−量子化モデル関数fが次式であり、
    Figure 2013021690
    ここで、β=[a1,b1,c1,m,a2,b2,c2]であり、Nは量子化qの領域を0≦q≦Nとなるよう定義し、次式
    Figure 2013021690
    はモデルパラメータx1,x2,x3,x4及びx5を定義することを特徴とする、請求項8又は9に記載の装置。
  11. 前記予測ステップを実行する際に前記更新手段が次式を計算し、
    Figure 2013021690
    ここで、
    Figure 2013021690
    は前記先行フレームk−1についての前記時間離散カルマンフィルタの状態であり、
    Figure 2013021690
    は前記現フレームについての前記時間離散カルマンフィルタの予測状態であり、
    k-1 +は前記先行フレームk−1についての前記時間離散カルマンフィルタの状態の前記不確実性を測定する共分散行列であり、
    k -は前記現フレームについての前記時間離散カルマンフィルタの予測状態の前記不確実性を測定する共分散行列であり、
    k-1は妨害ノイズ共分散行列であり、
    前記第1修正手段は前記現フレームと前記先行フレームとの間の類似度に依存してQk-1を設定し、
    更に前記第1修正手段は次式を計算し、
    Figure 2013021690
    ここで、
    Figure 2013021690
    であり、
    Figure 2013021690
    は前記現フレームについての前記時間離散カルマンフィルタの第1次の修正済み状態であり、
    k 0は前記第1次の修正済み状態の不確実性を測定する共分散行列であり、
    Figure 2013021690
    は前記現フレームkの前記決定された複雑度の値から予測されるモデルパラメータを定義するものであり、
    Figure 2013021690
    は前記先行フレームk−1の前記決定された複雑度の値から予測されるモデルパラメータを定義するものであり、
    Ψkは前記現フレームと前記先行フレームとの間の類似度に依存して設定される相関関係行列であり、
    Iは恒等行列であり、
    kは測定ノイズ共分散行列であり、
    前記第2修正手段は次式を計算し、
    Figure 2013021690
    ここで、
    Figure 2013021690
    であり、
    fは前記モデルパラメータxによってパラメータ化可能であり且つ符号化レート−又は歪み−量子化関数を表現しているレート−又は歪み−量子化モデル関数であり、
    Figure 2013021690
    は前記現フレームについての前記時間離散カルマンフィルタの2回の修正済みの状態であり、
    k +は前記2回の修正済みの状態の前記不確実性を測定する共分散行列であり、
    kは前記所定の量子化であり、
    Figure 2013021690
    は他の測定ノイズ共分散行列であり、
    Figure 2013021690
    は前記所定の量子化を使用して前記現フレームを符号化する際の前記ビデオ符号器の実際の符号化レート又は歪みを示す値であることを特徴とする、請求項1乃至10のいずれか1項に記載の装置。
  12. 前記第2修正手段は、前記測定値が前記ビデオ符号器(12)の実際の符号化レート又は歪み(42)に依存しており、その依存方法は、前記現フレーム(k)を符号化するときに使用された前記所定の量子化と、先行して符号化された参照フレームを符号化するときに前記ビデオ符号器により使用された別の量子化との間の関係に依存する方法であり、その先行して符号化された参照フレームとは、そのフレームの再構成されたバージョンから、前記ビデオ符号器が前記現フレームを符号化するときに動き補償済の予測内で前記現フレームを予測したものであることを特徴とする、請求項1乃至11のいずれか1項に記載の装置。
  13. 前記フレームシーケンスが特定の予測タイプのフレームだけを含み、異なる予測タイプのフレームを含まないという点で、前記フレームシーケンスがビデオシーケンスの適切なサブセットであるように構成されていることを特徴とする、請求項1乃至12のいずれか1項に記載の装置。
  14. ビデオ符号器(12)と、
    フレームシーケンス(14)のためのビデオ符号器(12)の実際のレート−又は歪み−量子化関数(20)を近似するために、レート−又は歪み−量子化モデル関数(26)のモデルパラメータを推定する、請求項1乃至13のいずれか1項に記載の装置と、
    を備えるシステム。
  15. 前記第1次の修正済み状態によって決定されたレート−又は歪み−量子化モデル関数を使用して前記所定の量子化を決定するレート制御手段(18)を更に備え、
    前記ビデオ符号器は前記所定の量子化を使用して前記現フレームをデータストリーム内へと符号化することを特徴とする、請求項14に記載のシステム。
  16. 前記ビデオ符号器は動き補償予測を用いて第1の動き解像度における前記現フレームを予測して前記暫定的予測フレームを取得し、
    前記第1修正手段は前記暫定的予測フレームを使用して前記複雑度の値を決定し、
    前記ビデオ符号器は前記第1の動き解像度よりも高い第2の動き解像度における前記現フレームを予測することで最終的に予測されたフレームを取得し、かつ前記最終的に予測されたフレームを使用して前記現フレームを符号化することを特徴とする、請求項15に記載のシステム。
  17. フレームシーケンス(14)のためのビデオ符号器(12)の実際のレート−量子化関数(20)を近似するために、レート−量子化モデル関数(26)のモデルパラメータを推定する装置であって、
    前記レート−量子化モデル関数はピース毎の関数であり、細かい量子化区間内では二次関数のピースを含み、粗い量子化区間内では指数関数のピースを含むことを特徴とする装置。
  18. 量子化軸に沿った前記二次関数のピースと前記指数関数のピースとの間の遷移点の位置が、前記モデルパラメータを用いて調整可能であることを特徴とする、請求項17に記載の装置。
  19. 前記モデルパラメータは拡張カルマンフィルタを使用して推定され、前記拡張カルマンフィルタの状態が前記モデルパラメータのパラメータ推定を定義することを特徴とする、請求項17又は18に記載の装置。
  20. フレームシーケンス(14)のためのビデオ符号器(12)の実際のレート−又は歪み−量子化関数(20)を近似するために、レート−又は歪み−量子化モデル関数(26)のモデルパラメータを推定する方法であって、
    時間離散カルマンフィルタの予測ステップ(50)を実行するステップであって、前記時間離散カルマンフィルタの状態が前記モデルパラメータのパラメータ推定を定義するものであり、前記フレームシーケンス(14)の先行フレーム(k−1)についての時間離散カルマンフィルタの状態から、前記フレームシーケンス(14)の現フレーム(k)についての時間離散カルマンフィルタの予測状態
    Figure 2013021690
    を得るステップと、
    前記現フレームkの複雑度の値を決定し、かつ決定されたその複雑度の値に依存する測定値を使用して前記時間離散カルマンフィルタの修正ステップ(52)を実行するステップであって、前記予測状態
    Figure 2013021690
    から前記時間離散カルマンフィルタの第1次の修正済み状態
    Figure 2013021690
    を得るステップと、
    所定の量子化を使用して前記現フレーム(k)を符号化する際の前記ビデオ符号器(12)の実際の符号化レート又は歪み(42)に依存する測定値を使用し、かつ前記モデルパラメータと、前記所定の量子化に関するレート−又は歪み−量子化モデル関数(26)に従う符号化レート又は歪みと、の間の関係の前記第1次の修正済み状態
    Figure 2013021690
    において線形化されたバージョンに依存する測定行列を使用して、前記時間離散カルマンフィルタの修正ステップ(54)を実行するステップと、を含む方法。
  21. フレームシーケンス(14)のためのビデオ符号器(12)の実際のレート−量子化関数(20)を近似するために、レート−量子化モデル関数(26)のモデルパラメータを推定する方法であって、
    前記レート−量子化モデル関数はピース毎の関数であり、細かい量子化区間内では二次関数のピースを含み、粗い量子化区間内では指数関数のピースを含むことを特徴とする方法。
  22. コンピュータに請求項20又は21に記載の方法を実行させるプログラムコードを有するコンピュータプログラム。
JP2012149192A 2011-07-07 2012-07-03 レート−又は歪み−量子化モデル関数のためのモデルパラメータ推定 Active JP5416812B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP11173076.8 2011-07-07
EP11173076.8A EP2544450B1 (en) 2011-07-07 2011-07-07 Model parameter estimation for a rate- or distortion-quantization model function

Publications (2)

Publication Number Publication Date
JP2013021690A true JP2013021690A (ja) 2013-01-31
JP5416812B2 JP5416812B2 (ja) 2014-02-12

Family

ID=44533843

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012149192A Active JP5416812B2 (ja) 2011-07-07 2012-07-03 レート−又は歪み−量子化モデル関数のためのモデルパラメータ推定

Country Status (5)

Country Link
US (1) US9445102B2 (ja)
EP (1) EP2544450B1 (ja)
JP (1) JP5416812B2 (ja)
CN (1) CN102868884B (ja)
HK (1) HK1180159A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9002678B1 (en) 2014-01-10 2015-04-07 King Fahd University Of Petroleum And Minerals Unified approach to detection and isolation of parametric faults using a kalman filter residual-based approach

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017509268A (ja) 2013-12-22 2017-03-30 エルジー エレクトロニクス インコーポレイティド 量子化エラーの追加的な制御を利用したビデオ信号のエンコード、デコード方法及び装置
CN106331704B (zh) * 2015-07-07 2019-10-22 杭州海康威视数字技术股份有限公司 一种视频码率控制方法及视频编码装置
CN105223906B (zh) * 2015-09-15 2017-10-03 华中科技大学 一种数控系统伺服驱动信号谐波频率的自动校正方法
US10397515B2 (en) * 2017-01-05 2019-08-27 Nokia Of America Corporation Protecting personal privacy in a video monitoring system
CN107078852B (zh) * 2017-01-18 2019-03-08 深圳市大疆创新科技有限公司 传输编码数据的方法、装置、计算机系统和移动设备
EP3769576A1 (en) * 2018-03-23 2021-01-27 Nokia Technologies OY Allocating radio access network resources based on predicted video encoding rates
CN110460853B (zh) * 2018-05-07 2021-04-30 上海富瀚微电子股份有限公司 一种高效视频编码码率估计装置及方法
WO2019242852A1 (en) * 2018-06-20 2019-12-26 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for massive mu-mimo
CA3070812A1 (en) * 2019-03-13 2020-09-13 Alexander GILADI Method and apparatus for content-adaptive frame duration extension
CN110401451B (zh) * 2019-06-12 2020-12-04 中国科学院信息工程研究所 基于字符集变换的自动机空间压缩方法及系统
CN110418134B (zh) * 2019-08-01 2021-10-26 字节跳动(香港)有限公司 基于视频质量的视频编码方法、装置及电子设备
CN112697215B (zh) * 2020-11-19 2022-10-18 浙江工业大学 一种用于超声波水表数据滤波的卡尔曼滤波参数调试方法
JP2024511636A (ja) * 2021-03-31 2024-03-14 ヒョンダイ モーター カンパニー インター予測にディープラーニングベースのインループフィルタを用いるビデオコーディング方法及び装置
CN114578811B (zh) * 2022-02-17 2023-06-20 中国矿业大学 一种带式输送机巡检机器人系统高精度定位方法
CN115760850B (zh) * 2023-01-05 2023-05-26 长江勘测规划设计研究有限责任公司 一种利用机器视觉的无标尺识别水位的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001526850A (ja) * 1997-02-11 2001-12-18 シャープ株式会社 画像符号化器における量子化値の最適化方法及び装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6111991A (en) * 1998-01-16 2000-08-29 Sharp Laboratories Of America Method and apparatus for optimizing quantizer values in an image encoder
US20050262276A1 (en) * 2004-05-13 2005-11-24 Ittiam Systamc (P) Ltd. Design method for implementing high memory algorithm on low internal memory processor using a direct memory access (DMA) engine
CN100505874C (zh) 2005-02-01 2009-06-24 华为技术有限公司 一种视频编码速率控制的方法
US8379721B2 (en) 2005-09-22 2013-02-19 Qualcomm Incorported Two pass rate control techniques for video coding using a min-max approach
CN101523915B (zh) 2005-09-22 2011-06-08 高通股份有限公司 使用min-max方法的用于视频编码的两遍速率控制技术
WO2008027250A2 (en) 2006-08-30 2008-03-06 Thomson Licensing Method and apparatus for analytical and empirical hybrid encoding distortion modeling
JP5427785B2 (ja) * 2007-09-28 2014-02-26 ドルビー ラボラトリーズ ライセンシング コーポレイション ビデオ圧縮技法及びビデオ伝達技法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001526850A (ja) * 1997-02-11 2001-12-18 シャープ株式会社 画像符号化器における量子化値の最適化方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9002678B1 (en) 2014-01-10 2015-04-07 King Fahd University Of Petroleum And Minerals Unified approach to detection and isolation of parametric faults using a kalman filter residual-based approach

Also Published As

Publication number Publication date
CN102868884B (zh) 2015-09-16
US9445102B2 (en) 2016-09-13
HK1180159A1 (zh) 2013-10-11
EP2544450B1 (en) 2016-04-13
US20130010859A1 (en) 2013-01-10
CN102868884A (zh) 2013-01-09
JP5416812B2 (ja) 2014-02-12
EP2544450A1 (en) 2013-01-09

Similar Documents

Publication Publication Date Title
JP5416812B2 (ja) レート−又は歪み−量子化モデル関数のためのモデルパラメータ推定
US8244048B2 (en) Method and apparatus for image encoding and image decoding
KR101023262B1 (ko) 화상 부호화 방법 및 복호 방법, 이들의 장치 및 이들의 프로그램과 프로그램을 기록한 기억매체
US8130838B2 (en) Encoding device and dynamic image recording system using the encoding device
KR101374812B1 (ko) 다시점 영상 부호화 방법, 다시점 영상 복호 방법, 다시점 영상 부호화 장치, 다시점 영상 복호 장치 및 프로그램
KR101449435B1 (ko) 움직임 벡터 정규화에 기초한 영상의 부호화 방법 및 장치, 영상의 복호화 방법 및 장치
Dar et al. Motion-compensated coding and frame rate up-conversion: Models and analysis
Hyun et al. A frame-level constant bit-rate control using recursive Bayesian estimation for versatile video coding
US9635362B2 (en) System and method for the dynamic reduction of the entropy of a signal upstream to a data compression device
US10171807B2 (en) Picture-level QP rate control for HEVC encoding
KR101253917B1 (ko) 움직임 추정 장치 및 그 방법
JP4784618B2 (ja) 動画像符号化装置、動画像復号化装置、動画像符号化プログラム、及び動画像復号化プログラム
JP4490353B2 (ja) 量子化歪み推定方法,量子化歪み推定装置,量子化歪み推定プログラムおよびその記録媒体
US20120106641A1 (en) Method for predicting a block of image data, decoding and coding devices implementing said method
Pang et al. Frame-level dependent bit allocation via geometric programming
JP4824712B2 (ja) 動き推定精度推定方法、動き推定精度推定装置、動き推定精度推定プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
US10075691B2 (en) Multiview video coding method using non-referenced view video group
JP4785890B2 (ja) 動き推定精度推定方法、動き推定精度推定装置、動き推定精度推定プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR102245740B1 (ko) 깊이 영상에서 신축을 이용한 움직임 추정 방법 및 장치
JP6700877B2 (ja) 画像復号装置、画像復号プログラム及びチップ
JP4160513B2 (ja) 動画像の輝度変化パラメータ推定方法,動画像の輝度変化パラメータ推定プログラムおよびその記録媒体,並びに,動画像符号化装置,動画像符号化方法,動画像符号化プログラムおよびその記録媒体
An Optimization and learning based video coding

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130913

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131115

R150 Certificate of patent or registration of utility model

Ref document number: 5416812

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250