JP2008517499A - Apparatus and method for generating an encoded video sequence using intermediate layer residual value prediction and decoding the encoded video sequence - Google Patents
Apparatus and method for generating an encoded video sequence using intermediate layer residual value prediction and decoding the encoded video sequence Download PDFInfo
- Publication number
- JP2008517499A JP2008517499A JP2007536022A JP2007536022A JP2008517499A JP 2008517499 A JP2008517499 A JP 2008517499A JP 2007536022 A JP2007536022 A JP 2007536022A JP 2007536022 A JP2007536022 A JP 2007536022A JP 2008517499 A JP2008517499 A JP 2008517499A
- Authority
- JP
- Japan
- Prior art keywords
- base
- extended
- residual
- motion
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000033001 locomotion Effects 0.000 claims abstract description 459
- 239000013598 vector Substances 0.000 claims description 108
- 238000013139 quantization Methods 0.000 claims description 69
- 230000002123 temporal effect Effects 0.000 claims description 22
- 238000000354 decomposition reaction Methods 0.000 claims description 19
- 230000002441 reversible effect Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 41
- 238000005192 partition Methods 0.000 description 31
- 238000012545 processing Methods 0.000 description 19
- 230000005540 biological transmission Effects 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 13
- 238000001914 filtration Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000011664 signaling Effects 0.000 description 7
- 241000023320 Luma <angiosperm> Species 0.000 description 6
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101150077913 VIP3 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
- H04N19/615—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/31—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/36—Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
- H04N19/517—Processing of motion vectors by encoding
- H04N19/52—Processing of motion vectors by encoding by predictive encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
ビデオコーダは、ベースレイヤから動きデータを用いて拡張レイヤの動きデータを決定し、および/または、中間レイヤ予測器(1018)を介してベースレイヤから残差ピクチャのシーケンスを用いて拡張レイヤにおいて動き補償予測の後に残差ピクチャのシーケンスを予測するために、ベースレイヤ(1002)および拡張レイヤ(1004)の両方において、動き補償予測(1906、1012、1014、1016)を実行する。デコーダ側において、中間レイヤ結合器がこの中間レイヤ予測をキャンセルするために用いられる。それによって、データレートが、同じピクチャ品質を有する中間レイヤ予測なしにスケーラビリティスキームと比較して改善される。
【選択図】図1aThe video coder determines motion data for the enhancement layer using motion data from the base layer and / or motions in the enhancement layer using a sequence of residual pictures from the base layer via an intermediate layer predictor (1018). In order to predict the sequence of residual pictures after compensated prediction, motion compensated prediction (1906, 1012, 1014, 1016) is performed in both the base layer (1002) and enhancement layer (1004). On the decoder side, an intermediate layer combiner is used to cancel this intermediate layer prediction. Thereby, the data rate is improved compared to the scalability scheme without intermediate layer prediction with the same picture quality.
[Selection] Figure 1a
Description
本発明は、ビデオ符号化システムに関し、特に、ビデオ符号化規格H.264/AVCまたは新しいMPEGビデオ符号化システムに関連して用いられるスケーラブルビデオ符号化システムに関する。 The present invention relates to a video coding system, and more particularly to a video coding standard H.264. The present invention relates to a scalable video coding system used in connection with H.264 / AVC or a new MPEG video coding system.
H.264/AVC規格は、ITU−Tのビデオ符号化専門家グループVCEGとISO/IECの動画像符号化専門家グループ(MPEG)とのビデオ標準化プロジェクトの結果である。この標準化プロジェクトの主たる目標は、非常に良好な圧縮特性を有し、同時にネットワークで使いやすいビデオ表現を生成する明瞭なビデオ符号化概念を提供することであって、これは、ビデオ電話のような「会話型」のアプリケーションおよび会話型でないアプリケーション(保存、放送、ストリーム転送)の双方を含む。 H. The H.264 / AVC standard is the result of a video standardization project between the ITU-T video coding expert group VCEG and the ISO / IEC video coding expert group (MPEG). The main goal of this standardization project is to provide a clear video coding concept that has very good compression characteristics and at the same time generates a video representation that is easy to use on the network, Includes both “conversational” applications and non-conversational applications (save, broadcast, stream transfer).
前述の規格ISO/IEC14496−10と別に、その規格に関するいくつかの発表がある。単なる例であるが、参考文献として、ラルフ・シェーファー(Ralf Schaefer)、トーマス・ウィーガント(Thomas Wiegand)およびハイコ・シュヴァルツ(Heiko Schwarz)の「新たなH.264−AVC規格(Emerging H.264−AVC standard)」、EBUテクニカルレビュー(EBU Technical Review)、2003年1月がある。さらに、トーマス・ウィーガント(Thomas Wiegand)、ゲーリーJ.サリバン(Gary J. Sullivan)、ゲスレ・ブジョンテガート(Gesle Bjontegaard)およびアジェイ・ロスラ(Ajay Lothra)の専門出版物「H.264/AVCビデオ符号化規格の概説(Overview of the H.264/AVC Video Coding Standard)」、ビデオ技術の回路およびシステムについてのIEEEトランザクション(IEEE Transactions on Circuits and Systems for Video Technology)、2003年7月、および、デトレフ・マープ(Detlev Marpe)、ハイコ・シュヴァルツ(Heiko Schwarz)およびトーマス・ウィーガント(Thomas Wiegand)の専門出版物「H.264/AVCビデオ圧縮規格におけるコンテクストベースの適応バイナリ算術符号化(Context−based adaptive Binary Arithmethic Coding in the H.264/AVC Video Compression Standard)」、ビデオ技術の回路およびシステムについてのIEEEトランザクション(IEEE Transactions on Circuits and Systems for Video Technology)、2003年9月は、そのビデオ符号化規格の種々特徴について細かくその概要を記載している。 Apart from the aforementioned standard ISO / IEC 14496-10, there are several announcements regarding the standard. By way of example only, references include “New H.264-AVC Standard (Emerging H.264-AVC)” by Ralph Schaefer, Thomas Wiegand, and Heiko Schwartz. standard) ”, EBU Technical Review, January 2003. In addition, Thomas Wiegand, Gary J. et al. Gary J. Sullivan, Gesle Bjontegaard and Ajay Lothra, a specialized publication “Overview of H.264 / AVC Video Coding Standard (Overview of the H.264 / AVC) Video Coding Standard), IEEE Transactions on Circuits and Systems for Video Technology (July 2003), and Detlev Marp (D) And Thomas Wiegant (Thomas Wiega) d) Special Publication “Context-based adaptive Binary Arithmetic Coding in the H.264 / AVC Video Compression Standard circuit and video technology in the H.264 / AVC video compression standard”. IEEE Transactions on Systems and Systems for Video Technology (September 2003) for the system gives a detailed overview of the various features of the video coding standard.
しかしながら、さらによく理解するために、図9〜図11を参照しながらビデオ符号化/復号化アルゴリズムの概要を説明する。 However, for better understanding, an overview of the video encoding / decoding algorithm will be described with reference to FIGS.
図9は、ビデオコーダの全体構造を示し、それは一般に2つの異なるステージで構成されている。通常、第1ステージでは、一般的なビデオ関連の操作が行われて出力データが生成され、このデータは、図9の80で示すように第2ステージでエントロピー符号化される。このデータは、データ81a、量子化変換係数81bおよび動きデータ81cからなり、これらのデータ81a、81b、81cは、エントロピーコーダ80に送られ、エントロピーコーダ80の出力端に符号化されたビデオ信号が生成される。
FIG. 9 shows the overall structure of a video coder, which generally consists of two different stages. In general, in the first stage, general video-related operations are performed to generate output data, and this data is entropy encoded in the second stage as indicated by 80 in FIG. This data consists of data 81a, quantized transform coefficients 81b, and motion data 81c. These data 81a, 81b, 81c are sent to the
具体的には、入力ビデオ信号はそれぞれ区分化されマクロブロックに分割され、各マクロブロックは16×16ピクセルを有する。次に、マクロブロックのスライス群およびスライスへの関連付けが選択され、これにより、図8に示すように、各々のスライスの各々のマクロブロックは、操作ブロックのネット毎に処理される。なお、ビデオピクチャに各種のスライスが存在する場合、マクロブロックを効率的に並行処理することが可能であることに注意すべきである。マクロブロックのスライス群およびスライスへの関連付けは、図8のブロックコーダ制御82を介して実行される。各種のスライスがあって以下のように定義される。
Iスライス:Iスライスは、スライスの全てのマクロブロックがイントラ予測を用いて符号化されるスライスである。
Pスライス:Pスライスの特定のマクロブロックは、Iスライスの符号化タイプに加えて、予測ブロックごとに少なくとも1つの動き補償予測信号を有するインター予測を用いて符号化することも可能である。
Bスライス:Bスライスの特定のマクロブロックは、Pスライスで利用可能なコーダタイプに加えて、予測ブロックごとに2つの動き補償予測信号を有するインター予測を用いて符号化することも可能である。
Specifically, each input video signal is segmented and divided into macroblocks, and each macroblock has 16 × 16 pixels. Next, the macroblock slice group and the association with the slice are selected, whereby each macroblock of each slice is processed for each net of the operation block, as shown in FIG. It should be noted that when various slices exist in a video picture, it is possible to efficiently process macroblocks in parallel. The association of macroblocks with slice groups and slices is performed via the
I slice: An I slice is a slice in which all macroblocks of the slice are encoded using intra prediction.
P slice: A specific macroblock of a P slice can be encoded using inter prediction with at least one motion compensated prediction signal for each prediction block in addition to the I slice encoding type.
B slice: Specific macroblocks of a B slice can be encoded using inter prediction with two motion compensated prediction signals per prediction block in addition to the coder types available in P slices.
上述の3つのコーダタイプは、以前の規格のタイプと非常に似ているが、後述するように参照ピクチャを用いるという点が異なる。次の2つのコーダタイプは、H.264/AVC規格における新しいものである。
SPスライス:それは、スイッチPスライスとも言われ、異なる事前に符号化されたピクチャの間での効率的な切り替えが可能なように符号化される。
SIスライス:SIスライスは、スイッチIスライスとも言われ、直接ランダムアクセスおよびエラー修復目的のために、SPスライス中でマクロブロックの正確な適合を可能にする。
The above three coder types are very similar to the previous standard types, except that they use reference pictures as described below. The next two coder types are H.264 and H.264. This is new in the H.264 / AVC standard.
SP slice: It is also referred to as a switch P slice and is coded so that it can be efficiently switched between different pre-coded pictures.
SI slice: The SI slice, also referred to as the switch I slice, allows precise adaptation of macroblocks in the SP slice for direct random access and error recovery purposes.
概して言えば、スライスはマクロブロックのシーケンスであり、マクロブロックは、フレキシブルなマクロブロックの順番FMOの機能が用いられない場合に、ラスタースキャンの順に処理され、それもその規格に定義されている。図11に示すように、ピクチャを1つまたはいくつかのスライスに区分化することができる。このように、ピクチャは1つまたはいくつかのスライスの集合となる。ビットストリームからはスライスのシンタックスエレメントを分析(シンタックス分析)することができ、コーダとデコーダとに用いられる参照ピクチャが同一であれば、他のスライスからのデータを必要とせずに、スライスが表現するピクチャの範囲内でサンプルの値を正しく復号化できるので、そういった意味でスライスは相互に独立している。ただし、スライス境界間のデブロッキングフィルタを用いるため、他のスライスからの特定の情報が必要となることがある。 Generally speaking, a slice is a sequence of macroblocks, which are processed in raster scan order when the flexible macroblock order FMO feature is not used, and is also defined in the standard. As shown in FIG. 11, a picture can be partitioned into one or several slices. Thus, a picture is a collection of one or several slices. The syntax element of the slice can be analyzed from the bitstream (syntax analysis). If the reference pictures used for the coder and the decoder are the same, the slice can be analyzed without requiring data from other slices. In this sense, the slices are independent of each other because the sample values can be correctly decoded within the range of the picture to be represented. However, since a deblocking filter between slice boundaries is used, specific information from other slices may be required.
FMO機能は、スライス群の概念を用いて、ピクチャを、スライスおよびマクロブロックに区分化する方法を変更する。各々のスライス群は、マクロブロックからスライス群へのマッピングによって定義されるマクロブロックのセットであり、ピクチャパラメータセットとスライスヘッダからの特定の情報とで特定される。このマクロブロックのスライス群へのマッピングは、ピクチャ中の各々のマクロブロックのスライス群識別番号で構成され、これにより関連マクロブロックがどのスライス群に属するかが特定される。各々のスライス群は、1つまたはいくつかのスライスに区分化でき、スライスは、同一のスライス群の中のマクロブロックのシーケンスであり、個別のスライス群のマクロブロックのセット内でラスタサンプリングの順に処理される。 The FMO function changes the method of partitioning a picture into slices and macroblocks using the concept of slice groups. Each slice group is a set of macroblocks defined by mapping from macroblocks to slice groups, and is specified by a picture parameter set and specific information from the slice header. This mapping of macroblocks to slice groups is made up of slice group identification numbers for each macroblock in the picture, and this identifies the slice group to which the associated macroblock belongs. Each slice group can be partitioned into one or several slices, where a slice is a sequence of macroblocks within the same slice group and in the order of raster sampling within the set of macroblocks of individual slice groups. It is processed.
各々のマクロブロックを、スライスコーダタイプに応じて1つまたはいくつかのコーダタイプにおいて送信することができる。全てのスライスコーダタイプにおいて、イントラ-4×4またはイントラ-16×16と言われるタイプのイントラ符号化がサポートされ、さらに、クロマ予測モードおよびI-PCM予測モードがサポートされている。
Each macroblock may be transmitted in one or several coder types depending on the slice coder type. In all slice coder types, a type of intra coding called intra- 4 × 4 or intra- 16 × 16 is supported, and in addition, chroma prediction mode and
イントラ-4×4モードは、各々の4×4クロマブロックの個別の予測に基づいており、際立って詳細なピクチャ部分を符号化するために適している。他方、イントラ-16×16モードは、16×16クロマブロック全体の予測を実行し、ピクチャの「ソフト」領域を符号化するためにより適している。 The Intra- 4 × 4 mode is based on individual prediction of each 4 × 4 chroma block and is suitable for encoding a distinctly detailed picture portion. On the other hand, the intra- 16 × 16 mode is more suitable for performing prediction of the entire 16 × 16 chroma block and coding the “soft” region of the picture.
これら2つのクロマ予測タイプに加え、別のクロマ予測が実行される。イントラ-4×4およびイントラ-16×16に代わるタイプとして、I-4×4コーダタイプでは、コーダは予測および変換符号化を単にスキップし、その代わりに符号化されたサンプルの値を直接送信することができる。I-PCMモードは、以下の目的を有する。すなわち、そのモードは、コーダがサンプルの値を正確に表現できるようにする。そのモードは、非常に変則的な画面内容の値を、データを拡大することなく正確に表現する方法を提供する。さらに、そのモードは、コーダが、符号化効率を損なうことなくマクロブロックを取り扱うために必要とする、ビット数に対する厳格な境界を決定することを可能にする。 In addition to these two chroma prediction types, another chroma prediction is performed. As the type of alternative to intra -4 × 4 and intra -16 × 16, I in -4 × 4 coder type coder prediction and transform coding simply skips, send the value of the coded samples instead directly can do. The I- PCM mode has the following purposes. That is, the mode allows the coder to accurately represent sample values. The mode provides a way to accurately represent very irregular screen content values without enlarging the data. In addition, the mode allows the coder to determine the strict boundary for the number of bits it needs to handle a macroblock without compromising coding efficiency.
イントラ予測が変換領域内において実行されていた従前のビデオ符号化規格(すなわちH.263プラスおよびMPEG−4ビジュアル)と対照的に、H.264/AVCにおけるイントラ予測は、予測されるブロックの左側および上部にそれぞれ位置する既に符号化されたブロックの隣接サンプルを参照しながら、常に空間領域で実行される(図10)。送受信エラーが発生したような特定の状況において、これはエラーの伝播につながることがあり、このエラー伝播は、イントラ符号化されたマクロブロック中の動き補償により引き起こされる。このように、イントラ符号化モードによる信号化には限界があり、イントラ符号化された隣接マクロブロックの予測が可能なだけである。 In contrast to previous video coding standards in which intra prediction was performed in the transform domain (ie H.263 plus and MPEG-4 visuals). Intra prediction in H.264 / AVC is always performed in the spatial domain with reference to adjacent samples of already coded blocks located respectively on the left and top of the predicted block (FIG. 10). In certain situations, such as when transmission and reception errors occur, this can lead to error propagation, which is caused by motion compensation in intra-coded macroblocks. As described above, there is a limit to signalization by the intra coding mode, and it is only possible to predict adjacent macroblocks that are intra-coded.
イントラ-4×4モードを用いた場合、空間的に隣接するサンプルの各々の4×4ブロックが予測される。隣接するブロック中にあり、先に復号化されたサンプルを用いて、4×4ブロックの16のサンプルが予測される。各々の4×4ブロックに対し9つの予測モードのいずれか1つを用いることができる。「DC予測」(これは、ある値を用いて4×4ブロック全体の予測をする)に加えて、8方向の予測モードが特定される。これらのモードは、異なった角度のエッジといったピクチャ中の方向構造を予測するために適している。 When using the intra- 4 × 4 mode, 4 × 4 blocks of each spatially adjacent sample are predicted. Using the previously decoded samples that are in adjacent blocks, 16 samples of a 4 × 4 block are predicted. Any one of nine prediction modes can be used for each 4 × 4 block. In addition to “DC prediction” (which predicts the entire 4 × 4 block using a certain value), 8-way prediction modes are specified. These modes are suitable for predicting directional structures in pictures such as edges at different angles.
イントラマクロブロックコーダタイプに加えて、各種の予測または動き補償コーダタイプが、Pマクロブロックタイプとして特定されている。Pマクロブロックのどのタイプも、マクロブロックをブロックフォームに区分化する特定のパーティションに対応し、そのフォームが動き補償予測に用いられる。16×16、16×8、8×8または8×16のルマブロックサイズのサンプルのパーティションは、シンタックスでサポートされる。8×8サンプルのパーティションの場合、各々の8×8パーティションに対して追加シンタックスエレメントが送信される。このシンタックスエレメントは、それぞれの8×8パーティションを、さらに8×4、4×8または4×4ルマサンプルおよび対応するクロマサンプルのパーティションに区分化するかどうかを特定している。 In addition to the intra macroblock coder type, various prediction or motion compensation coder types are identified as P macroblock types. Any type of P macroblock corresponds to a particular partition that partitions the macroblock into block forms, which are used for motion compensated prediction. Partitions of samples with 16 × 16, 16 × 8, 8 × 8 or 8 × 16 luma block sizes are supported in the syntax. For 8 × 8 sample partitions, an additional syntax element is transmitted for each 8 × 8 partition. This syntax element specifies whether each 8 × 8 partition is further partitioned into 8 × 4, 4 × 8 or 4 × 4 luma samples and corresponding chroma sample partitions.
予測符号化された各々のM×Mルマブロックに対する予測信号は、並進動きベクトルおよびピクチャ参照インデックスにより特定されたそれぞれの参照ピクチャの領域をシフトすることによって得られる。そのため、4つの8×8パーティションを用いてマクロブロックを符号化する場合、さらに、各々の8×8パーティションを4つの4×4パーティションに区分化する場合、単一のPマクロブロックに対し最大量16の動きベクトルをいわゆるモーションフィールド内で送信することができる。 A prediction signal for each predictive-coded M × M luma block is obtained by shifting the area of each reference picture specified by the translational motion vector and the picture reference index. Therefore, if a macroblock is encoded using four 8x8 partitions, and if each 8x8 partition is partitioned into four 4x4 partitions, the maximum amount for a single P macroblock Sixteen motion vectors can be transmitted in a so-called motion field.
H.264/AVCでは、量子化パラメータスライスQPを用いて、変換係数の量子化が算出される。このパラメータは、52個の値を取ることができる。これらの値は、量子化パラメータに関する値1の増加が、量子化ステップ幅の約12%の増加となるように処理される。このことは、量子化パラメータが6増大すると、量子化ステップ幅は丁度2倍になることを意味する。なお、ステップサイズが約12%変化することは、ビットレートが約12%低下することでもある。 H. In H.264 / AVC, the quantization of the transform coefficient is calculated using the quantization parameter slice QP. This parameter can take 52 values. These values are processed so that an increase of 1 for the quantization parameter results in an increase of about 12% of the quantization step width. This means that if the quantization parameter is increased by 6, the quantization step width is exactly doubled. Note that a step size change of about 12% also means that the bit rate is reduced by about 12%.
ブロックの量子化変換係数は、一般にジグザグ経路でサンプリングされ、エントロピー符号化法を用いて処理される。クロマ成分の2×2DC係数は、ラスタスキャンシーケンスでサンプリングされ、H.264/AVC内での全ての逆変換操作は、16ビットの整数値の加算およびシフト操作だけを用いて実施することができる。 The quantized transform coefficients of the block are generally sampled in a zigzag path and processed using an entropy coding method. The 2 × 2 DC coefficient of the chroma component is sampled in a raster scan sequence and All inverse transform operations within H.264 / AVC can be performed using only 16-bit integer value addition and shift operations.
図9を参照すると、入力信号は、まず、あらゆるピクチャに対し、ビデオシーケンスのピクチャ毎に16×16ピクセルのマクロブロックに区分化される。次に、各ピクチャは減算器84に送られ、減算器は、そのピクチャから、コーダに内蔵されたデコーダ85から供給された元のピクチャを差し引く。差し引き結果は、空間領域における残余信号であり、次に、これが変換されスケールされさらに量子化され(ブロック86)、ライン81b上に量子化変換係数が得られる。減算器874に供給される減算信号を生成するために、量子化変換係数は、最初に、再スケールされさらに逆変換され(ブロック87)、加算器88に送られ、その出力がデブロッキングフィルタ89に供給される。この出力ビデオ信号は、たとえばデコーダによって復号化され、たとえば制御のために、デブロッキングフィルタの出力端でモニタすることができる(出力端90)。
Referring to FIG. 9, the input signal is first partitioned into 16 × 16 pixel macroblocks for each picture of the video sequence for every picture. Next, each picture is sent to a subtractor 84, which subtracts the original picture supplied from the
出力端90における復号化された出力信号を用いて、ブロック91において動き推定が実行される。図9に見られるように、ブロック90における動き推定のため、元のビデオ信号のピクチャが供給される。この規格では、2つの異なる動き推定、すなわち前方向動き推定および後方向動き推定が可能である。前方向動き推定においては、現在のピクチャの動きは以前のピクチャに関して推定される。一方、後方向動き推定においては、現在のピクチャの動きは将来のピクチャを用いて推定される。動き推定(ブロック91)の結果は、動き補償ブロック92に送られ、ここで、具体的に、図9の場合のようにスイッチ93がインター予測モードに切り替えられたときに、動き補償インター予測が実行される。一方、スイッチ93がイントラフレーム予測に切り替えられているときには、ブロック490を用いてイントラフレーム予測が実行される。したがって、動きデータは必要でない、というのはイントラフレーム予測においては動き補償は実行されないからである。
Motion estimation is performed in
動き推定ブロック91は、動きデータおよびモーションフィールドをそれぞれ生成し、動きデータおよびモーションフィールドは、動きベクトルで構成されており、これらはそれぞれデコーダに送信されて、対応する逆予測、すなわち、変換係数と動きデータを用いた再構成を実施することができる。なお、前方向予測の場合には、動きベクトルを、直前のピクチャおよび先行するいくつかのピクチャからそれぞれ計算することができる。後方向予測の場合には、直後に隣接する将来のピクチャを使用して、当然、さらに将来のピクチャも使用して現在のピクチャを計算することができる。
The
図9に示したビデオ符号化概念の不利な点として、簡単なスケーラビリティを備えていないことがある。この分野で公知のように、「スケーラビリティ」という用語は、コーダがスケールされたデータストリームを送信するコーダ/デコーダ概念を言う。スケールされたデータストリームは、ベーススケーリングレイヤおよび1つまたはいくつかの拡張スケーリングレイヤを含む。ベーススケーリングレイヤは、一般に低品質であるが低いデータレートでもある符号化される信号の表現を含む。拡張スケーリングレイヤは、ビデオ信号のさらなる表現を含み、通常、ベーススケーリングレイヤにおけるビデオ信号の表現と併せて、ベーススケーリングレイヤに関して改良された品質の表現を提供する。反面、拡張スケーリングレイヤには、当然、個別のビット要求量があり、レイヤを拡張する毎に、符号化される信号を表すビット数は増加する。 A disadvantage of the video coding concept shown in FIG. 9 is that it does not have simple scalability. As is known in the art, the term “scalability” refers to a coder / decoder concept in which a coder transmits a scaled data stream. The scaled data stream includes a base scaling layer and one or several enhanced scaling layers. The base scaling layer typically includes a representation of the encoded signal that is of low quality but also has a low data rate. The enhanced scaling layer includes a further representation of the video signal, and usually provides an improved quality representation for the base scaling layer in conjunction with the representation of the video signal in the base scaling layer. On the other hand, the extended scaling layer naturally has individual bit requirements, and the number of bits representing a signal to be encoded increases each time the layer is expanded.
設計および性能によっては、デコーダは、ベーススケーリングレイヤだけを復号化し、符号化された信号により表されるピクチャ信号の比較的品質の悪い表現を提供する。しかし、さらなるスケーリングレイヤを「追加」するごとに、デコーダは、(ビットレートを犠牲にして)段階的に信号の品質を向上する。 Depending on design and performance, the decoder decodes only the base scaling layer and provides a relatively poor quality representation of the picture signal represented by the encoded signal. However, as each additional scaling layer is "added", the decoder improves the signal quality in stages (at the expense of bit rate).
実施およびコーダからデコーダへの伝送路によっては、少なくともベーススケーリングレイヤだけが送信される、というのは通常ベーススケーリングレイヤのビットレートはとても低いので、かなり制限された伝送路でも十分だからである。伝送路に、アプリケーションに対するそれ以上のバンド幅がない場合、ベーススケーリングレイヤだけが送信され、拡張スケーリングレイヤは送信されないことになる。その結果、デコーダは、ピクチャ信号の低品質な表現しか生成できない。スケーリングが行われず、データレートが高すぎて伝送システムが対応できないような場合に比べれば、低品質の表現にはそれなりの利点がある。1つまたはいくつかの拡張レイヤの送信が可能な伝送路の場合には、コーダはデコーダに1つまたはいくつかの拡張レイヤを送信することになり、必要に応じて段階的に出力ビデオ信号の品質を向上することができる。 Depending on the implementation and the transmission path from the coder to the decoder, at least only the base scaling layer is transmitted, because the bit rate of the base scaling layer is usually very low, so a rather limited transmission path is sufficient. If the transmission path does not have any more bandwidth for the application, only the base scaling layer will be transmitted and the enhanced scaling layer will not be transmitted. As a result, the decoder can only generate a low quality representation of the picture signal. Compared to the case where the scaling is not performed and the data rate is too high for the transmission system to support, the low quality representation has some advantages. In the case of a transmission path that allows transmission of one or several enhancement layers, the coder will send one or several enhancement layers to the decoder, step by step of the output video signal as needed. Quality can be improved.
ビデオシーケンスの符号化に関して、2つの異なるスケーリングに区別することができる。1つのスケーリングは時間スケーリングであり、ビデオシーケンスの全てのビデオフレームを送信せず、データレートを減らすために、たとえば、2番目毎、3番目毎、4番目毎などにだけ送信する。 A distinction can be made between two different scalings for the coding of video sequences. One scaling is time scaling, which does not transmit all video frames of the video sequence, but only transmits every second, every third, every fourth, etc., to reduce the data rate.
もう1つのスケーリングは、SNRスケーラビリティ(SNR=信号対ノイズ比)であり、各々のスケーリングレイヤ、たとえば、ベーススケーリングレイヤと、第1、第2、第3、…拡張スケーリングレイヤとの双方が、全ての時間情報を含むがその品質は違っている。このように、ベーススケーリングレイヤは、低いデータレートであるが低い信号ノイズ比を有し、これに段階的に1つずつ拡張スケーリングレイヤを加えることによって、この信号ノイズ比を改善することができる。 Another scaling is SNR scalability (SNR = signal-to-noise ratio) where each scaling layer, eg, base scaling layer, and first, second, third,. Time information, but the quality is different. Thus, the base scaling layer has a low data rate but a low signal to noise ratio, and this signal to noise ratio can be improved by adding an extended scaling layer step by step to it.
図9に示したコーダ概念は、残余値だけが減算器84によって生成され、その後処理されるという事実に基づいている点に問題がある。これらの残余値は、図9に示した装置の中で予測アルゴリズムに基づいて計算され、この装置は、ブロック86、87、88、89、93、94および84を用いた閉ループを形成しており、量子化パラメータは、この閉ループに、すなわちブロック86、87に入力される。これでたとえば単純なSNRスケーラビリティが実施された場合、あらゆる予測残余信号は、最初に粗い量子化ステップ幅で量子化され、次に、拡張レイヤを用いて、段階的により細かな量子化ステップ幅に量子化されることになり、以下のような結果をもたらすことになろう。逆量子化および予測に起因して、特に、一方で元のピクチャ、他方で量子化ピクチャを用いて行われる動き推定(ブロック91)および動き補償(ブロック92)に関して、コーダおよびデコーダの双方で量子化器のステップ幅の「発散」が生じる。このことにより、コーダ側で拡張スケーリングレイヤを生成することに深刻な問題が生じることになる。さらに、デコーダ側での拡張スケーリングレイヤの処理については、少なくともH.264/AVC規格に定義されたエレメントに関しては不可能になる。この理由は、前記のように図9において示したビデオコーダ中の量子化が含まれている閉ループにある。
The coder concept shown in FIG. 9 is problematic in that it is based on the fact that only the residual value is generated by the subtractor 84 and then processed. These residual values are calculated based on the prediction algorithm in the apparatus shown in FIG. 9, which forms a closed
2003年12月2日〜5日のサンディエゴでの第9回JVT会議で発表された、ハイコ・シュヴァルツ(Heiko Schwarz)、デトレフ・マープ(Detlev Marpe)およびトーマス・ウィーガント(Thomas Wiegand)の標準化文書JVT−I 032 t1、題名「H.264/AVCのSNRスケーラブル拡張(SNR−Scalable Extension of H.264/AVC)」の中で、H.264/AVCに対するスケーラブル拡張が発表されており、これには、(同等なまたは異なる時間的精度を有する)時間および信号ノイズ比の双方に関するスケーラビリティが含まれている。そこでは、時間サブバンドパーティションのリフティング表現が紹介されており、動き補償予測に対し既知の方法の使用が可能となっている。 Standardized document JVT of Heiko Schwartz, Detlev Marpe and Thomas Wiegand presented at the 9th JVT meeting in San Diego, December 2-5, 2003 -I 032 t1, the title “H.264 / AVC SNR Scalable Extension of SNR-Scalable Extension of H.264 / AVC”. A scalable extension to H.264 / AVC has been announced, which includes scalability in terms of both time and signal-to-noise ratio (with comparable or different temporal accuracy). There, a lifting representation of temporal subband partitions is introduced, and a known method can be used for motion compensation prediction.
J.−R.オーム(Ohm)の「MCTFフレーム間ウェーブレット構造の複雑性および遅延解析(Complexity and delay analysis of MCTF interframe wavelet structures)」、ISO/IECJTC1/WG11 Doc.M8520、2002年7月の中に、ビデオコーダアルゴリズムに基づくウェーブレットが記載されており、ウェーブレット解析およびウェーブレット合成のため、リフティング実施が用いられている。また、D.トーブマン(Taubman)の「ビデオの逐次的改善:基本問題、これまでの努力および新しい方向(Successive refinement of video:fundamental issues, past efforts and new directions)」、SPIE(VCIP‘03)のプロシーディング、2003年、第5150巻、649−663頁にもスケーラビリティについてのコメントがあるが、コーダの大幅な変更が必要と記載されている。本発明によれば、一方で、スケーラビリティ可能性を保持し、他方で、具体的には例えば動き補償に対し、その規格に適合するエレメントに基づくことが可能なコーダ/デコーダ概念を実現する。 J. et al. -R. Ohm, "Complexity and delay analysis of MCTF interframe wave structure", ISO / IECJTC1 / WG11 Doc. In M8520, July 2002, wavelets based on video coder algorithms are described, and lifting implementations are used for wavelet analysis and wavelet synthesis. D. Taubman's “Sequential Improvement of Video: Basic Issues, Previous Efforts, and New Directions (Successive refinements of video: past effects and new directions)”, SPIE (3), Proe. There is also a comment on scalability in the year 5150, pages 649-663, but it is stated that significant changes to the coder are necessary. According to the present invention, a coder / decoder concept is realized which, on the one hand, retains scalability possibilities and on the other hand can be based on elements that conform to the standard, in particular for motion compensation.
図3に関してコーダ/デコーダのさらなる詳細を参照する前に、まず、コーダ側の基本的リフティングスキームおよびデコーダ側の逆リフティングスキームについて、それぞれ図4に関して説明する。リフティングスキームとウェーブレット変換との結合のバックグラウンドの詳しい説明については、W.スウェルデンス(Sweldens)の「双直交ウェーブレットのカスタム設計構造(A custom design construction of biorthogonal wavelets)」、J.Appl.Comp.Harm.Anal.、1996年、第3巻(No.2)、186−200頁、およびI.ドウベチーズ(Daubechies)およびW.スウェルデンス(Sweldens)の「ウェーブレット変換のリフティングステップへのファクタリング(Factoring wavelet transforms into lifting Steps)」、J.Fourier Anal.Appl.、1998年、第4巻(No.3)、247−269頁を参照することができる。一般に、リフティングスキームは、多相分解ステップ、予測ステップおよび更新ステップの3つのステップで構成される。 Before referring to further details of the coder / decoder with respect to FIG. 3, first the basic lifting scheme on the coder side and the inverse lifting scheme on the decoder side will be described respectively with respect to FIG. For a detailed description of the background of the combination of lifting schemes and wavelet transforms, see W.W. Sweldens, “A custom design of construction of biological wavelets”, J. Org. Appl. Comp. Harm. Anal. 1996, Volume 3 (No. 2), pages 186-200, and I.C. Daubechies and W. Swelldens, “Factoring wavelet transforms into lifting Steps”, J. Am. Fourier Anal. Appl. 1998, Vol. 4 (No. 3), pages 247-269. In general, a lifting scheme is composed of three steps: a multiphase decomposition step, a prediction step, and an update step.
分解ステップは、入力側データストリームを、下側ブランチ40aに対する同一の第1のコピーと、上側ブランチ40bに対する同一のコピーとに区分化するステップを含む。さらに、上側ブランチ40bの同一のコピーは時間ステージ(z-1)によって遅延され、奇数インデックスkを有するサンプルS2k+1と偶数インデックスを有するサンプルS2kとは、同様に、それぞれのデシメータおよびダウンサンプラー42a、42bをそれぞれ通過する。デシメータ42aおよび42bは、2番目毎のサンプルを排除することによって、それぞれ、上側および下側ブランチ40b、40aにおけるサンプルの数を削減する。 The disassembling step includes partitioning the input data stream into the same first copy for the lower branch 40a and the same copy for the upper branch 40b. Further, identical copies of the upper branch 40b is delayed by a time stage (z -1), and the sample S 2k with sample S 2k + 1 and the even index having odd indices k, likewise, the respective decimator and down Pass through the samplers 42a and 42b, respectively. Decimators 42a and 42b reduce the number of samples in the upper and lower branches 40b and 40a, respectively, by eliminating every second sample.
第2領域IIは、予測ステップと関係しており、予測演算子43および減算器44を含む。第3領域は、更新ステップであり、更新演算子45および加算器46を含む。出力側には、2つの正規化器47、48があり、ハイパス信号hkを正規化し(正規化器47)、正規化器48を通してローパス信号lkを正規化する。
The second region II is related to the prediction step and includes a
具体的には、多相分解では、所定の信号s[k]は、偶数および奇数サンプルに区分化される。相関構造は、通常、局所的特徴を示すので、偶数および奇数の多相成分は、高い相関性を有する。このように、最終ステップにおいて、整数サンプルを用いて、奇数サンプルの予測(P)が実行される。各々の奇数サンプルsodd[k]=s[2k+1]に対応する予測演算子(P)は、隣接する偶数サンプルseven[k]=s[2k]の一次結合である、すなわち、
となる。
Specifically, in multiphase decomposition, the predetermined signal s [k] is partitioned into even and odd samples. Since the correlation structure usually exhibits local features, even and odd polyphase components are highly correlated. Thus, in the final step, odd sample prediction (P) is performed using integer samples. The prediction operator (P) corresponding to each odd sample s odd [k] = s [2k + 1] is a linear combination of adjacent even samples s even [k] = s [2k], ie
It becomes.
予測ステップの結果として、奇数サンプルは、これらそれぞれの予測残余値で置き換えられ、
となる。
As a result of the prediction step, odd samples are replaced with their respective prediction residual values,
It becomes.
なお、I.ドウベチーズ(Daubechies)およびW.スウェルデンス(Sweldens)の「ウェーブレット変換のリフティングステップへのファクタリング(Factoring wavelet transforms into lifting steps)」、J.Fourier Anal.Appl.、1998年、第4巻(No.3)、247−269頁の中で説明されているように、予測ステップは、2チャンネルフィルタバンクによるハイパスろ波を実行することに等しい。 In addition, I.I. Daubechies and W. Swelldens, “Factoring wavelet transforms into lifting steps”, J. Am. Fourier Anal. Appl. 1998, Volume 4 (No. 3), pages 247-269, the prediction step is equivalent to performing high-pass filtering with a two-channel filter bank.
リフティングスキームの第3ステップにおいて、偶数サンプルseven[k]を予測残余値h[k]の一次結合で置き換えることによって、ローパスろ波が実行される。それぞれの更新演算子Uは、次式
により与えられる。
In the third step of the lifting scheme, low-pass filtering is performed by replacing the even sample s even [k] with a linear combination of predicted residual values h [k]. Each update operator U is given by
Given by.
偶数サンプルを次式
で置き換えることによって、所定の信号s[k]を、最終的にl(k)およびh(k)で表すことができ、各信号は、半分のサンプルレートを有する。更新ステップおよび予測ステップの双方は完全に可逆的なので、対応する変換は、厳密にサンプリングされた完全な再構成フィルタバンクと解釈することができる。実際に、ウェーブレットフィルタの一切の双直交ファミリを、1つまたはいくつかの予測ステップおよび1つまたはいくつかの更新ステップによって、実現することができる。前記で説明したように、ローパスおよびハイパス成分を正規化するため、正規化器47および48には、適切に選択されたスケーリングファクタFlおよびFhが供給される。
The even number sample is
, The given signal s [k] can ultimately be represented by l (k) and h (k), each signal having a half sample rate. Since both the update and prediction steps are completely reversible, the corresponding transform can be interpreted as a perfectly sampled fully reconstructed filter bank. In fact, any bi-orthogonal family of wavelet filters can be realized with one or several prediction steps and one or several update steps. As explained above, the
逆リフティングスキームは、合成フィルタバンクに相当し、図4の右側に示されている。これは、単に、逆の順に逆符号向きの予測および更新演算子のアプリケーションで構成されており、その後に偶数および奇数の多相成分を用いた再構成が続く。具体的には、図4の右側のデコーダは、この場合もやはり、第1デコーダ領域I、第2デコーダ領域IIおよび第3デコーダ領域IIIを含む。第1デコーダ領域では、更新演算子45の作用がキャンセルされる。これは、さらなる正規化器50によって正規化されているハイパス信号を、更新演算子45に供給することで達成される。次に、デコーダ側の更新演算子45の出力信号は、図4の加算器46と対照的な減算器52に供給される。同様に、予測器43の出力信号が処理され、次に、その出力信号はコーダ側のように減算器ではなく、加算器53に供給される。次に、ファクタ2による信号のアップサンプリングが各々のブランチで行われる(ブロック54a、54b)。次に、上側ブランチは1サンプル分だけ将来に向かってシフトされ、これは下側ブランチを遅延させることと同じであって、加算器55で上側ブランチおよび下側ブランチ上のデータストリームの加算が実行され、合成フィルタバンクの出力端において再構成された信号skが得られる。
The inverse lifting scheme corresponds to a synthesis filter bank and is shown on the right side of FIG. It consists simply of the application of prediction and update operators in reverse order in reverse order, followed by reconstruction with even and odd polyphase components. Specifically, the decoder on the right side of FIG. 4 again includes a first decoder region I, a second decoder region II, and a third decoder region III. In the first decoder area, the action of the
いくつかのウェーブレットは、それぞれ、予測器43および更新演算子45によって実施することができる。いわゆるヘアーウェーブレットを実施する場合、予測演算子および更新演算子は次式で与えられ、
ここで、
であり、これらの式は、それぞれ、ヘアーフィルタの非正規化ハイパスおよびローパス(分析)出力信号に対応する。
Several wavelets can be implemented by the
here,
And these equations correspond to the unnormalized high pass and low pass (analysis) output signals of the hair filter, respectively.
5/3双直交スプラインウェーブレットの場合は、このウェーブレットのローパスおよびハイパス分析フィルタは、それぞれ5つおよび3つのフィルタタップを有し、対応するスケーリング関数は2次Bスプラインである。JPEG2000のような、静止ピクチャに対するコーダアプリケーションにおいて、このウェーブレットは時間サブバンドコーダスキームに用いられる。リフティング環境において、対応する5/3変換の予測および更新演算子は次式
で与えられる。
In the case of a 5/3 biorthogonal spline wavelet, the low pass and high pass analysis filters of this wavelet have 5 and 3 filter taps, respectively, and the corresponding scaling function is a quadratic B spline. In a coder application for still pictures, such as JPEG2000, this wavelet is used in a temporal subband coder scheme. In the lifting environment, the corresponding 5/3 transformation prediction and update operators are:
Given in.
図3は、コーダ側およびデコーダ側の双方が典型的な4つのフィルタレベルを有するコーダ/デコーダ構造のブロック図である。コーダに関しては、図3から、第1フィルタレベル、第2フィルタレベル、第3フィルタレベルおよび第4フィルタレベルとも同様であることが分かる。また、デコーダに関しても各フィルタレベルは同じである。コーダ側において、各々のフィルタレベルは、中心エレメントとして、後方向予測器Mi0および前方向予測器Mi161を含む。後方向予測器60は、原理的に図4の予測器43に相当し、前方向予測器61は、図4の更新演算子に相当する。
FIG. 3 is a block diagram of a coder / decoder structure in which both the coder side and the decoder side have typical four filter levels. As for the coder, it can be seen from FIG. 3 that the first filter level, the second filter level, the third filter level, and the fourth filter level are the same. The filter levels are the same for the decoder. On the coder side, each filter level includes a backward predictor M i0 and a
なお、図4と違って、図4は、サンプルのストリームに関し、あるサンプルは奇数インデックス2k+1を有し、別のサンプルは偶数インデックス2kを有している。しかしながら、図1に関して既に説明したように、図3の表記は、サンプルの群ではなく、ピクチャの群に関するものである。あるピクチャが、たとえばいくつかのサンプルおよびピクチャをそれぞれ有する場合、そのピクチャ全体が送られる。次に、次のピクチャも送り込まれ、以下続く。このように、奇数および偶数サンプルはもうないが、奇数および偶数ピクチャはある。本発明によれば、奇数および偶数サンプルについて述べたリフティングスキームは、奇数および偶数ピクチャにそれぞれ適用され、これらピクチャの各々は複数のサンプルを有する。このように、図4のサンプル毎の予測器43は、後方向動き補償予測60となり、サンプル毎の更新演算子45は、ピクチャ毎の前方向動き補償予測61となる。
Note that, unlike FIG. 4, FIG. 4 relates to a stream of samples, where one sample has an
なお、動きフィルタは、動きベクトルで構成され、ブロック60および61に対する係数を表しており、2つの連続する関連ピクチャに対して計算され、さらにコーダからデコーダへのサイド情報として送信される。しかしながら、ここで、図9を参照して説明したように、H.264/AVC規格で標準化されているエレメント91、92を用いて容易に、モーションフィールドMi0およびモーションフィールドMi1を計算できることは本発明の概念の主な利点である。このように、本発明の概念では、新しい予測器/更新演算子を用いる必要はなく、機能性および効率性について検証され確認され、ビデオ規格に記載された既存のアルゴリズムを、前方向または後方向の動き補償に用いることができる。
Note that the motion filter is composed of motion vectors and represents the coefficients for
具体的には、図3に示された使用フィルタバンクの一般的構造は、入力端64に送り込まれた16ピクチャの群のビデオ信号の時間的分解を示す。この分解は、ビデオ信号の2進の時間的分解であり、図3に示され、4つのレベル24=16のピクチャを有する実施の形態、すなわち16ピクチャの群サイズの実施の形態において、最小の時間的解像度を有する表現、すなわち、出力端28aおよび28bからの信号を達成することが必要である。このように、16ピクチャをグループ化すれば、16ピクチャの遅延につながり、このことにより、図3に示す4つのレベルの概念では、インタラクティブなアプリケーションに対していろいろ問題が生じる。このように、インタラクティブなアプリケーションを狙いとするのであれば、4または8ピクチャの群のようなもっと小さなピクチャの群を形成することが望ましい。次に、それに応じて遅延も低減され、インタラクティブなアプリケーションへの使用も可能となる。保存目的等のように双方向性が必要でない場合には、群中のピクチャ数すなわち群サイズを、それに応じて32、64などの数に増大することができる。
Specifically, the general structure of the used filter bank shown in FIG. 3 shows the temporal decomposition of the video signal of the group of 16 pictures sent to the
このように、ヘアベースでの動き補償リフティングスキームのインタラクティブなアプリケーションが用いられ、これはH.264/AVC中にあるように後方向動き補償予測(Mi0)からなり、前方向動き補償(Mi1)を含む更新ステップをさらに含む。予測ステップおよび更新ステップの双方は、H.264/AVCに示されているように、動き補償処理を用いる。さらに、動き補償ばかりでなく、図9に参照番号89で示されているデブロッキングフィルタ89も用いられる。
Thus, an interactive application of a hair-based motion compensation lifting scheme is used, which is The method further includes an updating step comprising backward motion compensation prediction (M i0 ) as in H.264 / AVC and including forward motion compensation (M i1 ). Both the prediction step and the update step are H.264. As shown in H.264 / AVC, motion compensation processing is used. Further, not only motion compensation but also a
第2フィルタレベルは、同様に、ダウンサンプラー66a、66b、減算器69、後方向予測器67、前方向予測器68および加算器70、ならびに、第2レベルの第1および第2ハイパスピクチャを追加処理手段の出力部に出力するためのその追加処理手段を含み、第2レベルの第1および第2ローパスピクチャは、加算器70の出力端に出力される。
Similarly, the second filter level adds down samplers 66a and 66b, a subtractor 69, a
さらに、図3のコーダは、第3レベルおよび第4レベルを含み、16ピクチャの群は第4レベルの入力端64に送られる。第4レベルで、HP4とも称するハイパス出力端72からは、量子化パラメータQによって量子化され、これに応じて処理された8つのハイパスピクチャが出力される。同様に、8つのローパスピクチャは、第4フィルタレベルのローパス出力端73に出力され、第3フィルタレベルの入力端74に送り込まれる。このレベルも、同様に、HP3とも称するハイパス出力端75に4つのハイパスピクチャを生成し、さらにローパス出力端76に4つのローパスピクチャを生成するために有効であり、これは第2フィルタレベルの入力端10に送り込まれ分解される。
Further, the coder of FIG. 3 includes a third level and a fourth level, and a group of 16 pictures is sent to the
ここで、あるフィルタレベルで処理されるピクチャの群は、必ずしも元のビデオシーケンスに直接由来するビデオピクチャである必要はなく、1段上のフィルタレベルによってそのフィルタレベルのローパス出力端から出力されるローパスピクチャとすることができる。 Here, the group of pictures processed at a certain filter level does not necessarily need to be a video picture directly derived from the original video sequence, and is output from the low-pass output terminal of the filter level by the filter level one stage above. It can be a low-pass picture.
さらに、単に、第4フィルタレベルを削除してピクチャの群を入力端74に送り込むだけで、図3に示した16ピクチャに対するコーダ概念を容易に8ピクチャに低減することができる。同様に、図3に示した概念を、第5フィルタレベルを加え、第5フィルタレベルのハイパス出力端から16ハイパスピクチャを出力し、第5フィルタレベルの出力端の16ローパスピクチャを第4フィルタレベルの入力端64に送り込むことによって、32ピクチャの群に拡張することも可能である。
Furthermore, the coder concept for the 16 pictures shown in FIG. 3 can be easily reduced to 8 pictures by simply deleting the fourth filter level and sending the group of pictures to the
コーダ側のツリーのような概念を、デコーダ側にも適用するが、今度は、コーダ側のように高レベルからより低レベルへではなく、デコーダ側では、低レベルからより高レベルへの処理となる。そのため、データストリームは、概略的にネットワーク抽象化レイヤ100と呼ぶ伝送媒体から受信されるが、受信されたビットストリームは、まず、逆向き追加処理手段を用いて逆向き追加処理され、図3の手段30aの出力端に第1レベルの第1ハイパスピクチャの再構成されたバージョンおよび図3のブロック30bの出力端に第1レベルのローパスピクチャの再構成されたバージョンが得られる。次に、図4の右半分と類似のやり方で、まず、前方向動き補償予測が予測器61を介して逆処理され、次に予測器61の出力信号がローパス信号の再構成されたバージョンから差し引かれる(減算器101)。
A coder-side tree-like concept is applied to the decoder side, but this time it is not from the high level to the lower level as in the coder side, but the decoder side performs processing from the low level to the higher level. Become. For this reason, the data stream is received from a transmission medium generally called the
減算器101の出力信号は後方向補償予測器60に送り込まれ、予測結果が生成されて、これが、加算器102によりハイパスピクチャの再構成されたバージョンに加えられる。次に、下側ブランチ103a、103b中の双方の信号は、アップサンプラ104aおよび104bを用いて2倍のサンプルレートにもたらされ、このとき、上側ブランチの信号は、実施に応じて、遅延または[加速]される。なお、そのアップサンプリングは、ブリッジ104a、104bによって、単に、ピクチャあたりのサンプル数に対応する数のゼロを挿入することによって実行される。上側ブランチ103bでは、下側ブランチ103aに対しピクチャがz-1で示すエレメントによって遅延されシフトするため、加算器106の加算により、加算器106の出力側に、2つの第2レベルのローパスピクチャが連続して発生する。
The output signal of the subtractor 101 is fed into the backward compensated
次に、第1および第2の第2レベルのローパスピクチャの再構成されたバージョンは、デコーダ側の第2レベルの逆フィルタに送り込まれ、同じ実施の逆フィルタバンクによって、送信された第2レベルのハイパスピクチャと再び結合され、第2レベルの出力端101に4つの第3レベルのローパスピクチャのシーケンスが得られる。4つの第3レベルのローパスピクチャは、次に、第3レベルの逆フィルタレベルによって、送信されてきた第3レベルのハイパスピクチャと結合され、第3レベルの逆フィルタの出力端110に、連続したフォーマットの8つの第4レベルのローパスピクチャを得る。次に、これら8つの第3レベルのローパスピクチャは、同様に、第4レベルの逆フィルタによって、入力端HP4を介して伝送媒体100から受信した8つの第4レベルのハイパスピクチャと結合され、第1レベルに関して説明したように、第4レベルの逆フィルタの出力端112に、再構成された16ピクチャの群を得る。
Next, the reconstructed versions of the first and second second level low pass pictures are fed into a second level inverse filter on the decoder side and transmitted by the same implementation inverse filter bank. And a sequence of four third level low pass pictures at the second level output 101. The four third level low pass pictures are then combined with the transmitted third level high pass picture by the third level inverse filter level and connected to the
このように、分析フィルタバンクの各ステージ毎に、元の複数のピクチャまたは1つ上位のレベルで生成されたローパス信号を表す複数のピクチャのうちのいずれかの2つのピクチャが、ローパス信号とハイパス信号とに分解される。ローパス信号は、入力ピクチャに共通する特徴を表現すると考えることができ、ハイパス信号は、入力ピクチャの間の違いを表現すると考えることができる。合成フィルタバンクの対応するステージでは、2つの入力ピクチャは、ローパス信号とハイパス信号とを用いて再び再構成される。合成ステップでは、分析ステップの逆操作が実行され、分析/合成フィルタバンク(当然ながら量子化は含まない)によって完全な再構成が保証される。 In this way, for each stage of the analysis filter bank, any two pictures out of the plurality of original pictures or the plurality of pictures representing the low-pass signal generated at the level one higher are the low-pass signal and the high-pass signal. Broken down into signals. The low-pass signal can be considered to express a feature common to the input pictures, and the high-pass signal can be considered to express a difference between the input pictures. At the corresponding stage of the synthesis filter bank, the two input pictures are reconstructed again using the low pass signal and the high pass signal. In the synthesis step, the inverse operation of the analysis step is performed and a complete reconstruction is guaranteed by the analysis / synthesis filter bank (which naturally does not include quantization).
発生する損失は、26a、26b、18のような追加処理手段における量子化に起因するものだけである。非常に細かい量子化を行えば、良好な信号ノイズ比が達成される。反対に、量子化を非常に粗く実行すれば、相対的に悪い信号ノイズ比となるが、反面、低いビットレートすなわち低いビット要求が達成される。 The loss that occurs is only due to quantization in the additional processing means such as 26a, 26b, 18. With very fine quantization, a good signal to noise ratio is achieved. Conversely, if the quantization is performed very roughly, the signal to noise ratio will be relatively poor, but on the other hand, a low bit rate or low bit requirement will be achieved.
図3に示した概念において、SNRスケーラビリティがなくても、時間スケーリング制御を実施することができる。そこで、時間スケーリング制御120が用いられ、それは、その入力側に、ハイパスおよびローパスのそれぞれの出力、ならびに、追加処理手段(26a、26b、18…)からのそれぞれの出力を得て、これらの部分的データストリームTP1、HP1、HP2、HP3、HP4から、スケールされたデータストリームを生成するように形成される。部分的データストリームは、ベーススケーリングレイヤ中に第1ローパスピクチャおよび第1ハイパスピクチャの処理されたバージョンを有する。次に、第2ハイパスピクチャの処理されたバージョンを第1拡張スケーリングレイヤに適応することができる。第3レベルのハイパスピクチャの処理されたバージョンを第2拡張スケーリングレイヤに適応することができ、また、第4レベルのハイパスピクチャの処理されたバージョンは第3拡張スケーリングレイヤに導入される。これにより、デコーダは、ベーススケーリングレイヤだけに基づいて、時間低品質で低レベルのローパスピクチャのシーケンス、すなわち、ピクチャの群毎に2つの第1レベルのローパスピクチャを生成することがまず可能となる。各拡張スケーリングレイヤを加える毎に、群毎の再構成されたピクチャの数は常に2倍になる。通常、デコーダの機能は、スケーリング制御によって制御され、制御は、データストリーム中にいくつのスケーリングレイヤが含まれているか、復号化の際、デコーダはいくつのスケーリングレイヤを考慮する必要があるかを、それぞれ検知するように形成されている。 In the concept shown in FIG. 3, time scaling control can be performed without SNR scalability. A time scaling control 120 is then used, which takes on its input the respective outputs of the high pass and the low pass, as well as the respective outputs from the additional processing means (26a, 26b, 18...) The data stream TP1, HP1, HP2, HP3, HP4 is formed to generate a scaled data stream. The partial data stream has a processed version of the first low pass picture and the first high pass picture in the base scaling layer. The processed version of the second high pass picture can then be adapted to the first enhancement scaling layer. The processed version of the third level high pass picture can be adapted to the second enhancement scaling layer, and the processed version of the fourth level high pass picture is introduced to the third enhancement scaling layer. This makes it possible for the decoder to first generate a sequence of low-pass pictures of low quality and low level, i.e. two first level low pass pictures for each group of pictures, based only on the base scaling layer. . With each enhancement scaling layer added, the number of reconstructed pictures per group is always doubled. Typically, the decoder functionality is controlled by scaling control, which controls how many scaling layers are included in the data stream and how many scaling layers the decoder needs to consider when decoding. Each is formed to detect.
2003年12月8日〜12日のハワイ・ワイコロアでの第10回JVT会議で発表された、ハイコ・シュヴァルツ(Heiko Schwarz)、デトレフ・マープ(Detlev Marpe)およびトーマス・ウィーガント(Thomas Wiegand)のJVT文書JVT−J 035、題名「H.264/AVCのSNRスケーラブル拡張(SNR−Scalable Extension of H.264/AVC)」は、図3および図4に図示した時間的分解スキームのSNRスケーラブル拡張を記載している。具体的には、時間スケーリングレイヤは個別の「SNRスケーリングサブレイヤ」に区分化され、SNRベースレイヤは、特定の時間スケーリングレイヤが第1のより粗い量子化ステップ幅で量子化されてSNRベースレイヤを得るようにして得られる。次に、まず逆量子化が実行され、元の信号から逆量子化の結果信号を差し引いて差分信号が得られ、次に、これがより細かい量子化ステップ幅で量子化されて第2スケーリングレイヤが得られる。しかしながら、第2スケーリングレイヤは、そのより細かい量子化ステップ幅で再量子化され、元の信号から、再量子化の後に得られた信号を差し引いてさらなる差分信号が得られ、これも再び、より細かい量子化ステップ幅で量子化されて、第2SNRスケーリングレイヤとSNR拡張レイヤとがそれぞれ表現される。 JVT of Heiko Schwarz, Detlev Marpe and Thomas Wiegand announced at the 10th JVT Conference in Waikoloa, Hawaii, December 8-12, 2003 Document JVT-J 035, entitled “SNR-Scalable Extension of H.264 / AVC”, describes the SNR scalable extension of the temporal decomposition scheme illustrated in FIG. 3 and FIG. is doing. Specifically, the time-scaling layer is partitioned into separate “SNR scaling sublayers”, and the SNR base layer is quantized with a first coarser quantization step width to form the SNR base layer. To get. Next, dequantization is first performed, and the difference signal is obtained by subtracting the signal resulting from the dequantization from the original signal, and then this is quantized with a finer quantization step width so that the second scaling layer is can get. However, the second scaling layer is re-quantized with its finer quantization step width, and the signal obtained after re-quantization is subtracted from the original signal to obtain a further difference signal, which again is more The second SNR scaling layer and the SNR enhancement layer are each expressed by quantization with a fine quantization step width.
このように、動き補償時間フィルタリング(MCTF)に基づく上述したスケーラビリティスキームは、時間スケーラビリティおよびSNRスケーラビリティに関し、高い柔軟性を備えていることが分かる。しかしながら、ピクチャを最高品質で符号化する場合、これら複数のスケーリングレイヤの合計ビットレートが、スケーラビリティなしで達成可能なビットレートをはるかに超えてしまうという問題がまだ残っている。これら複数のスケーリングレイヤに対するサイド情報に起因して、スケーラブルコーダが、スケールされない場合のビットレートを全く達成できない可能性もある。しかしながら、複数のスケーリングレイヤを有するデータストリームのビットレートを、スケーリングされない場合のビットレートにできるだけ近付けるようにすべきではある。 Thus, it can be seen that the above-described scalability scheme based on motion compensated temporal filtering (MCTF) has high flexibility with respect to temporal scalability and SNR scalability. However, when coding a picture with the highest quality, the problem remains that the total bit rate of these multiple scaling layers far exceeds the bit rate achievable without scalability. Due to side information for these multiple scaling layers, the scalable coder may not be able to achieve the bit rate at all when not scaled. However, the bit rate of a data stream with multiple scaling layers should be as close as possible to the bit rate without scaling.
さらに、スケーラビリティ概念では、全てのスケーラビリティタイプに対する高い柔軟性、すなわち、時間および空間とSNRとの双方に関し、高い柔軟性を提供すべきである。 In addition, the scalability concept should provide a high degree of flexibility for all scalability types, ie both time and space and SNR.
低解像度のピクチャは既に十分であるが、さらに高い時間的解像度が必要な場合に、高い柔軟性は特に重要である。このような状況は、たとえば、ボールに加えて多くの人間が同時に動くチームスポーツのビデオのようなピクチャの中で起こる早い変化などにより生じる。 Low resolution pictures are already sufficient, but high flexibility is particularly important when higher temporal resolution is required. This situation arises, for example, due to fast changes occurring in pictures such as team sports videos where many people move in addition to the ball.
本発明の目的は、スケーラブル概念であるという事実にもかかわらず、できるだけ低いビットレートを提供する柔軟性のある符号化/復号化するための概念を提供することである。 The object of the present invention is to provide a concept for flexible encoding / decoding that provides the lowest possible bit rate, despite the fact that it is a scalable concept.
この目的は、請求項1による符号化されたビデオシーケンスを生成するための装置、請求項15による符号化されたビデオシーケンスを生成するための方法、請求項16による符号化されたビデオシーケンスを復号化するための装置、請求項26による符号化されたビデオシーケンスを復号化するための方法、請求項27によるコンピュータプログラムまたは請求項28によるコンピュータ読み取り可能な媒体によって達成される。
The object is to provide an apparatus for generating an encoded video sequence according to
本発明は、ビットレート削減が、スケーリングレイヤ内で実行される動き補償予測によって得られるだけでなく、一定のピクチャ品質を有するさらなるビットレート削減が、ベースレイヤのような低位レイヤの、拡張レイヤのような高位レイヤへの動き補償予測の後で、残余ピクチャの中間スケーリングレイヤ予測を実行することによって得られるという知見に基づいている。 The present invention not only provides the bit rate reduction by motion compensated prediction performed in the scaling layer, but also allows further bit rate reduction with constant picture quality to be achieved for lower layers such as the base layer, for enhancement layers. This is based on the knowledge that it is obtained by performing intermediate scaling layer prediction of residual pictures after motion compensated prediction to such higher layers.
個別に考慮された異なるスケーリングレイヤ、これらは望ましくは解像度に関してまたは信号ノイズ比に関してスケールされるものであるが、これらの残余値は、同じ時間スケーリングレイヤ内において、動き補償予測後の残余値の間で相関を有するということが発見された。本発明では、デコーダ側の中間レイヤ結合器に対応する中間レイヤ予測器を拡張スケーリングレイヤに対してコーダ側に備えることによって、これらの相関が有利に活用される。望ましくは、この中間レイヤ予測器は、適応的に設計され、たとえば、各々のマクロブロックに対して、中間レイヤ予測が価値のあるものかどうか、あるいは予測することがむしろビットレートの増加につながるのかどうかを決定するようになっている。後者の場合は、予測残余信号がその後のエントロピーコーダに関して拡張レイヤの元の動き補償残余信号より大きくなる場合である。しかしながら、この状態は多くの場合には起こらず、中間レイヤ予測器がアクティブにされて大きなビットレート削減をもたらす。 Different scaling layers considered individually, which are preferably scaled with respect to resolution or signal to noise ratio, but these residual values are between the residual values after motion compensated prediction within the same temporal scaling layer It was discovered that there is a correlation. In the present invention, by providing an intermediate layer predictor corresponding to the intermediate layer combiner on the decoder side on the coder side with respect to the enhanced scaling layer, these correlations are advantageously utilized. Desirably, this intermediate layer predictor is adaptively designed, for example, for each macroblock, whether intermediate layer prediction is valuable, or does prediction lead to an increase in bit rate rather? It is to decide whether. The latter case is when the prediction residual signal is larger than the original motion compensation residual signal of the enhancement layer with respect to the subsequent entropy coder. However, this situation does not occur in many cases and the intermediate layer predictor is activated resulting in significant bit rate reduction.
さらに、本発明の好適な実施の形態において、拡張レイヤの動きデータの予測も、実行される。このように、それは、SNRまたは解像度に関するように、異なる品質スケーリングレイヤ中で、異なるスケーリングレイヤにおけるモーションフィールドが、互いに相関を有し、動きデータ予測子を提供することによって本発明によるビットレート削減に有利に用いられうることをさらに示す。この実施において、予測は個別の動きデータが拡張レイヤに対して計算されないという点で実行することができるが、ベースレイヤの動きデータは最終的にアップサンプリングの後に送信される。しかしながら、これは、動きデータが特に拡張レイヤに対して計算される場合よりも拡張レイヤにおける動き補償残余信号が大きくなるという事実になる。しかしながら、この不利な点は、伝送の間に拡張レイヤのために節約される動きデータによる節減がおそらくより大きな残余値によって生じるビットレート増加より大きい場合に、差が生じない。 Furthermore, in a preferred embodiment of the present invention, prediction of enhancement layer motion data is also performed. Thus, it relates to bit rate reduction according to the present invention by providing motion data predictors in which motion fields in different scaling layers are correlated with each other in different quality scaling layers, as for SNR or resolution. It is further shown that it can be used advantageously. In this implementation, the prediction can be performed in that separate motion data is not calculated for the enhancement layer, but the base layer motion data is ultimately transmitted after upsampling. However, this results in the fact that the motion compensation residual signal in the enhancement layer is larger than if motion data is calculated specifically for the enhancement layer. However, this disadvantage does not make a difference if the savings due to motion data saved for the enhancement layer during transmission is greater than the bit rate increase possibly caused by a larger residual value.
しかしながら、個別のモーションフィールドは、実施において拡張レイヤのために計算することができ、ベースレイヤのモーションフィールドは、計算に組み入れられるか、または、モーションフィールド残余値だけを送信する予測器として用いられる。この実施は、2つのスケーリングレイヤの動きデータ相関が完全に利用され、動きデータの残余値が動きデータ予測の後にできるだけ小さいという効果を有する。しかしながら、この概念の不利な点は、追加の動きデータ残余値を送信しなければならないという事実である。 However, a separate motion field can be calculated for the enhancement layer in the implementation, and the base layer motion field is incorporated into the calculation or used as a predictor that transmits only the motion field residual values. This implementation has the effect that the motion data correlation of the two scaling layers is fully utilized and the residual value of the motion data is as small as possible after motion data prediction. However, a disadvantage of this concept is the fact that additional motion data residual values must be transmitted.
本発明の好適な実施の形態において、さらに、SNRスケーラビリティが用いられる。これは、量子化が拡張レイヤにおいてよりも、より粗い量子化パラメータを有するベースレイヤにおいて実行されることを意味する。より粗い量子化器ステップ幅によって量子化され、再構成されるベース動き予測の残余値は、このことにより中間レイヤ予測器に対する予測信号として用いられる。純粋なSNRスケーラビリティの場合、それは、コーダ側の全てのスケーリングレイヤに対して1つのモーションフィールドを計算するために十分でありうる。拡張レイヤの動きデータに関して、これは、また、さらなる拡張動きデータを送信する必要がないが、ベースレイヤからの拡張動きデータが拡張レイヤに対する逆の動き補償のためにコーダ側に完全に用いられうることを意味する。しかしながら、動きデータの計算が用いられる場合、異なる量子化パラメータが、量子化パラメータが導入される異なるモーションフィールドをもたらす。 In a preferred embodiment of the present invention, SNR scalability is further used. This means that the quantization is performed at the base layer with coarser quantization parameters than at the enhancement layer. The residual value of the base motion prediction quantized and reconstructed with a coarser quantizer step width is thereby used as a prediction signal for the intermediate layer predictor. For pure SNR scalability it may be sufficient to calculate one motion field for all scaling layers on the coder side. For enhancement layer motion data, this also does not require transmission of further enhancement motion data, but the enhancement motion data from the base layer can be fully used on the coder side for inverse motion compensation for the enhancement layer. Means that. However, when motion data computation is used, different quantization parameters result in different motion fields in which the quantization parameters are introduced.
空間スケーラビリティが用いられる場合、ベーススケーリングレイヤが拡張スケーリングレイヤより粗い空間解像度を有することを意味し、拡張スケーリングレイヤのより低い空間解像度から変換し次にそれを中間レイヤ予測器に提供することを意味するベース動き予測の残余値を補間することが好ましい。 When spatial scalability is used, it means that the base scaling layer has a coarser spatial resolution than the enhanced scaling layer, meaning that it is converted from the lower spatial resolution of the enhanced scaling layer and then provided to the intermediate layer predictor It is preferable to interpolate the residual value of the base motion prediction.
さらに、各スケーリングレイヤに対して動き情報の個別の計算を実行することが好ましい。しかしながら、本発明の好適な実施の形態において、動きデータ予測がデータレート削減のためにここで用いられ、それは、予測されない動きデータより低いデータレートを要求する動きデータ残余値だけを送信するために、(スケーリング後の)低位のスケーリングレイヤの動きデータの完全な伝送にあり、または、より高位のスケーリングレイヤの動きベクトルを予測するためのより低位のスケーリングレイヤのアップサンプルされた動きベクトルを使用することからなりうる。この場合、中間レイヤ予測器および拡張動きデータ予測器の両方を適応的に設計することが好ましい。 Furthermore, it is preferable to perform separate calculation of motion information for each scaling layer. However, in a preferred embodiment of the invention, motion data prediction is used here for data rate reduction, which is to send only motion data residual values that require a lower data rate than unpredicted motion data. In full transmission of motion data of the lower scaling layer (after scaling), or use a lower scaling layer upsampled motion vector to predict a higher scaling layer motion vector It can consist of things. In this case, it is preferable to adaptively design both the intermediate layer predictor and the extended motion data predictor.
本発明の好適な実施の形態において、ベーススケーリングレイヤおよび拡張スケーリングレイヤが、空間解像度において、さらに、用いられた量子化器ステップ幅を意味する用いられた量子化パラメータにおいて異なるという点で、結合されたスケーラビリティが用いられる。この場合、たとえば、ラグランジュ最適化によるベーススケーリングレイヤに対する前の量子化パラメータから始まって、ベースレイヤのための量子化パラメータ、ベースレイヤの動きデータのためのひずみおよびビット要求の結合が計算される。動き補償予測の後に得られる残余値および用いられるベース動きデータは、それにより、より高位のスケーリングレイヤのそれぞれのデータの予測のために用いられ、より高位のスケーリングレイヤのためのより細かなスケーリングパラメータから再び始まって、動きデータのビット要求、量子化パラメータおよびひずみの結合、拡張動きデータが計算されうる。 In a preferred embodiment of the invention, the base scaling layer and the enhanced scaling layer are combined in that they differ in spatial resolution and in the used quantization parameter, which means the used quantizer step width. Scalability is used. In this case, for example, starting from the previous quantization parameter for the base scaling layer with Lagrange optimization, the combination of the quantization parameter for the base layer, the distortion for the base layer motion data and the bit requirement is calculated. The residual values obtained after motion compensated prediction and the base motion data used are thereby used for the prediction of the respective data of the higher scaling layer, and finer scaling parameters for the higher scaling layer. Beginning again, motion data bit requirements, quantization parameter and distortion combinations, and extended motion data can be calculated.
本発明の好適な実施の形態が添付図面に関して以下において説明されるが、これらの図としては:
図1aは、本発明のコーダの好適な実施の形態であり、
図1bは、図1aのベースピクチャコーダの詳細な表現であり、
図1cは、中間レイヤ予測フラグの機能の説明であり、
図1dは、動きデータフラグの説明であり、
図1eは、図1aの拡張動き補償器1014の好適な実施であり、
図1fは、図2の拡張動きデータ決定手段1078の好適な実施であり、
図1gは、拡張動きデータを計算し、さらに、必要に応じて、信号伝達および残余データ伝送のために拡張動きデータ処理するための3つの好適な実施の形態の概略表現であり、
図2は、本発明のデコーダの好適な実施の形態であり、
図3は、4つのレベルを有するデコーダのブロック図であり、
図4は、時間サブバンドフィルタバンクのリフティング分解を説明するためのブロック図であり、
図5aは、図4に示すリフティングスキームの機能の表現であり、
図5bは、一方向予測(ヘアウェーブレット)および双方向予測(5/3変換)を有する2つの好適なリフティング仕様の表現であり、
図5cは、リフティングスキームによって処理される2つのピクチャの任意に選択に対する動き補償および参照インデックスを有する予測および更新演算子の好適な実施の形態であり、
図5dは、マクロブロック毎に、元のピクチャ情報をハイパスピクチャに挿入可能なイントラモードの表現であり、
図6aは、マクロブロックモードを信号伝達するための略図表現であり、
図6bは、本発明の好適な実施の形態による空間スケーラビリティにおける動きデータのアップサンプリングのための略図表現であり、
図6cは、動きベクトル差分に対するデータストリームシンタックスの略図表現であり、
図6dは、本発明の好適な実施の形態による残余値シンタックス拡張の略図表現であり、
図7は、たとえば8ピクチャの群の時間シフトを説明するための概略図であり、
図8は、16ピクチャの群に対するローパスピクチャの好適な時間配置であり、
図9は、マクロブロックに対するH.264/AVC規格によるコーダに対する基本的なコーダ構造を説明するための概略ブロック図であり、
図10は、現在のシンタックスエレメントCの左側および上部にそれぞれ隣接する2つのピクセルエレメントAおよびBで構成されるコンテクスト配列であり、
図11は、ピクチャのスライスへのパーティションの表現である。
Preferred embodiments of the present invention are described below with reference to the accompanying drawings, which include:
FIG. 1a is a preferred embodiment of the coder of the present invention,
FIG. 1b is a detailed representation of the base picture coder of FIG.
FIG. 1c is an illustration of the function of the intermediate layer prediction flag,
FIG. 1d is an illustration of the motion data flag,
FIG. 1e is a preferred implementation of the
FIG. 1f is a preferred implementation of the extended motion
FIG. 1g is a schematic representation of three preferred embodiments for calculating extended motion data and, if necessary, processing extended motion data for signaling and residual data transmission,
FIG. 2 is a preferred embodiment of the decoder of the present invention,
FIG. 3 is a block diagram of a decoder having four levels,
FIG. 4 is a block diagram for explaining lifting decomposition of a temporal subband filter bank,
FIG. 5a is a functional representation of the lifting scheme shown in FIG.
FIG. 5b is a representation of two preferred lifting specifications with unidirectional prediction (hair wavelet) and bi-directional prediction (5/3 transform),
FIG. 5c is a preferred embodiment of a prediction and update operator with motion compensation and reference index for arbitrary selection of two pictures processed by a lifting scheme;
FIG. 5d is a representation of an intra mode in which original picture information can be inserted into a high-pass picture for each macroblock,
FIG. 6a is a schematic representation for signaling the macroblock mode,
FIG. 6b is a schematic representation for upsampling motion data in spatial scalability according to a preferred embodiment of the present invention;
FIG. 6c is a schematic representation of the data stream syntax for motion vector differences;
FIG. 6d is a schematic representation of a residual value syntax extension according to a preferred embodiment of the present invention,
FIG. 7 is a schematic diagram for explaining a time shift of a group of 8 pictures, for example.
FIG. 8 is a preferred temporal arrangement of low-pass pictures for a group of 16 pictures,
FIG. 2 is a schematic block diagram for explaining a basic coder structure for a coder according to the H.264 / AVC standard;
FIG. 10 is a context array composed of two pixel elements A and B adjacent to the left and top of the current syntax element C, respectively.
FIG. 11 is a representation of a partition into a slice of a picture.
図1aは、ベーススケーリングレイヤおよび拡張スケーリングレイヤを有する符号化されたビデオシーケンスを生成するための装置の好適な実施の形態を示す。8、16または任意の数のピクチャの群を有する元のビデオシーケンスは、入力端1000を介して送り込まれる。出力側では、符号化されたビデオシーケンスは、ベーススケーリングレイヤ1002および拡張スケーリングレイヤ1004を含む。拡張スケーリングレイヤ1004およびベーススケーリングレイヤ1002は、出力側に単一のスケーラブルビットストリームを生成するビットストリームマルチプレクサに供給される。ただし、実施によっては、2つのスケーリングレイヤの別々の伝送も可能であり、一部の場合には有用である。図1aは、2つのスケーリングレイヤ、すなわち、ベーススケーリングレイヤおよび拡張スケーリングレイヤを生成するためのコーダを示す。必要な場合、1つまたはいくつかのさらなる拡張レイヤを生成するコーダを得るためには、図1に示す拡張スケーリングレイヤ1004にベーススケーリングレイヤ1002によりデータが供給されるように、拡張スケーリングレイヤの機能が繰り返され、より高次の拡張スケーリングレイヤに必ず1段下の拡張スケーリングレイヤによりデータが供給される。
FIG. 1a shows a preferred embodiment of an apparatus for generating an encoded video sequence having a base scaling layer and an enhanced scaling layer. The original video sequence with 8, 16 or any number of groups of pictures is fed via input 1000. On the output side, the encoded video sequence includes a
SNRスケーラビリティ、または空間スケーラビリティ、または空間およびSNRスケーラビリティを結合したスケーラビリティのような、各種スケーリングタイプの内容に言及する前に、まず、本発明の基本原理について説明する。最初に、コーダは、ベース動きデータを計算するためのベース動き補償器またはベース動き推定器1006を含み、これは、ベース動き補償器1006が入力側から得るピクチャの群の中の別のピクチャに関して、現在のピクチャ中のマクロブロックがどのように動いたかを示す。動きデータを計算するための技法、具体的には、基本的にデジタルビデオピクチャ中のピクセルの領域であるマクロブロックに対する動きベクトルを計算するための技法が知られている。望ましくは、ビデオ符号化規格H.264/AVCの中に標準化されているように、動き補償計算が用いられる。これによって、後のピクチャのマクロブロックが考慮され、先のピクチャと比較してマクロブロックがどのように「動いた」かが決定される。この動き(xy方向における)は、2次元の動きベクトルで示され、ブロック1006によってあらゆるマクロブロックに対して計算され、さらに動きデータライン1008を介してベースピクチャコーダ1010に供給される。次に、次のピクチャに対して、前のピクチャから次のピクチャにマクロブロックがどのように動いたかが計算される。
Before referring to the contents of various scaling types such as SNR scalability, or spatial scalability, or scalability combining spatial and SNR scalability, the basic principle of the present invention will be described first. Initially, the coder includes a base motion compensator or
1つの実施において、この新しい動きベクトルは、ある意味では第2から第3ピクチャへの動きを示し、2次元ベクトルとして送信することもできる。ただし、効率上の理由から、動きベクトル差分だけを送信することが望ましく、この差分とは、第2から第3ピクチャへのマクロブロックの動きベクトルと、第1から第2ピクチャへのマクロブロックの動きベクトルとの差分のことである。また、これに換えて、直前のピクチャでなく、さらに先行するピクチャへ参照し、それらとの差分をそれぞれ使用することもできる。 In one implementation, this new motion vector represents the motion from the second to the third picture in a sense and can also be transmitted as a two-dimensional vector. However, for efficiency reasons, it is desirable to transmit only the motion vector difference, which is the difference between the macroblock motion vector from the second to the third picture and the macroblock from the first to the second picture. It is the difference from the motion vector. Instead of this, it is also possible to refer to not only the previous picture but also a preceding picture and use the difference between them.
ブロック1006によって計算された動きデータは、次にベース動き予測器1012に供給され、この予測器は、動きデータおよびピクチャの群を使用するために、残差ピクチャのベースシーケンスを計算するように設計されている。このように、ベース動き予測器は動き補償を実行するが、この動き補償は、ある意味では動き補償器および動き推定器それぞれによって準備されたものである。次に、この残差ピクチャのベースシーケンスは、ベースピクチャコーダに供給される。ベースピクチャコーダは、その出力端にベーススケーリングレイヤを出力するように形成されている。
The motion data calculated by
さらに、本発明のコーダは、拡張動きデータを検知するための拡張動き補償器または拡張動き推定器1014を含む。これらの拡張動きデータは、拡張動き予測器1016に供給され、この拡張動き予測器は、出力側に残差ピクチャの拡張シーケンスを生成し、さらにこれらを下流の中間レイヤ予測器1018に供給する。このように、拡張動き予測器は動き補償を実行するが、この動き補償は、ある意味では動き補償器および動き推定器それぞれによって準備されたものである。
In addition, the coder of the present invention includes an extended motion compensator or
中間レイヤ予測器は、出力側に拡張予測残差ピクチャを計算するように形成されている。実施によっては、中間レイヤ予測器は、ブロック1016から得るデータに加え、すなわち残差ピクチャの拡張シーケンスに加え、点線のバイパスライン1020を介してブロック1012から供給される残差ピクチャのベースシーケンスを用いる。またこれに換えて、ブロック1018は、ブロック1012の出力端から供給され、補間器1022によって補間された残差ピクチャの補間されたシーケンスも用いることができる。同様に、上記に換えて、中間レイヤ予測器は、ベースピクチャコーダ1010の出力端1024から提供されるように、残差ピクチャの再構成されたベースシーケンスを提供することもできる。図1aから分かるように、残差ピクチャのこの再構成されたベースシーケンスは、補間されること(1022)も補間されないこと(1020)もできる。このように、一般的に、中間レイヤ予測器は、残差ピクチャのベースシーケンスを用いて動作し、中間レイヤ予測器の入力端1026での情報は、たとえば、ブロック1012の出力端からの残差ピクチャのベースシーケンスの再構成または補間によって導出される。
The intermediate layer predictor is configured to calculate an extended prediction residual picture on the output side. In some implementations, the intermediate layer predictor uses the base sequence of residual pictures supplied from
中間レイヤ予測器1018の下流に、拡張ピクチャコーダ1028があり、これは、符号化された拡張スケーリングレイヤ1004を得るために、拡張予測残差ピクチャを符号化するように形成されている。
Downstream of the
本発明の好適な実施の形態において、中間レイヤ予測器は、マクロブロック毎およびピクチャ毎に、中間レイヤ予測器1018が拡張動き予測器1016から得るそれぞれの信号からその出力端1026の信号を差し引くように形成されている。この減算結果で得られる信号は、拡張予測残差ピクチャのピクチャ中のマクロブロックを表している。
In the preferred embodiment of the present invention, the intermediate layer predictor subtracts the signal at its
本発明の好適な実施の形態において、中間レイヤ予測器は適応的に形成されている。あらゆるマクロブロックに対して、中間レイヤ予測フラグ1030が提供され、この中間レイヤ予測フラグは、中間レイヤ予測器に対して、予測を実行する必要があることを示すか、または、他の表示状態で、予測を実行する必要はないが、拡張動き予測器1016の出力端での対応するマクロブロックがさらなる予測をしないでそのまま拡張ピクチャコーダ1028に供給されることを示す。この適応実施では、中間レイヤ予測が有用な場合にだけ実行されるという効果があり、中間レイヤ予測が実行されないが拡張動き予測器1016の出力データが直接的に符号化される場合に比べて、予測残余信号が低い出力ピクチャレートになる。
In the preferred embodiment of the invention, the intermediate layer predictor is adaptively formed. For every macroblock, an intermediate
空間スケーラビリティの場合、デシメータ1032は、拡張スケーリングレイヤとベーススケーリングレイヤとの間に備えられ、入力端における特定の空間解像度を有するビデオシーケンスを、出力端におけるより低い解像度を有するビデオシーケンスに変換するように形成されている。純粋なSNRスケーラビリティが用いられている場合、すなわち、2つのスケーリングレイヤに対するベースピクチャコーダ1010および1028が、それぞれ異なる量子化パラメータ1034および1036で動作する場合には、デシメータ1032は備えられない。これは、図1aのバイパスライン1038によって概略的に示されている。
For spatial scalability, a
さらに、空間スケーラビリティの場合では、補間器1022を備える必要がある。純粋なSNRスケーラビリティの場合では、補間器1022は備えられない。代わりに、図1aに示すように、バイパスライン1020が採用される。
Further, in the case of spatial scalability, an
1つの実施において、拡張動き補償器1014は、個々のモーションフィールドを全部計算するか、あるいは、ベース動き補償器1006によって計算されるモーションフィールドを直接的に(バイパスライン1040)またはアップサンプラ1042によってアップサンプリングした後に用いるように形成されている。空間スケーラビリティの場合は、ベース動きデータの動きベクトルをより高い解像度にアップサンプルするために、たとえばスケールするために、アップサンプラ1042を備える必要がある。たとえば、拡張解像度がベース解像度の2倍の高さおよび幅であれば、拡張レイヤ中のマクロブロック(16×16輝度サンプル)が、ベースレイヤ中のサブマクロブロック(8×8輝度サンプル)に対応するピクチャの領域をカバーすることになる。
In one implementation, the
このように、拡張スケーリングレイヤのマクロブロックに対してベース動きベクトルの使用を可能にするために、ベース動きベクトルは、そのx成分およびy成分において2倍にされ、すなわち2倍にスケールされる。これについては、図6bを参照しながらさらに詳しく説明する。 In this way, the base motion vector is doubled in its x and y components, i.e. scaled twice, to allow the use of the base motion vector for macroblocks in the enhanced scaling layer. This will be described in more detail with reference to FIG.
一方、SNRスケーラビリティだけの場合には、全てのスケーリングレイヤに対してモーションフィールドは同じである。そのため、これは一度しか計算する必要がなく、高位のあらゆるスケーリングレイヤは、より低位のスケーリングレイヤが計算したものを直接使用することができる。 On the other hand, in the case of SNR scalability only, the motion field is the same for all scaling layers. Thus, this only needs to be calculated once, and any higher scaling layer can directly use what the lower scaling layer has calculated.
中間レイヤ予測のために、ベース動き予測器1012の出力端の信号を用いることもできる。これに換えて、ライン1024上の再構成された信号を用いることもできる。これらの2つの信号のうちのいずれを予測に用いるかの選択は、スイッチ1044によって行われる。ライン1024上の信号は、それが既に量子化過程を経ているという点で、ブロック1012の出力端の信号とは異なっている。このことは、ブロック1012の出力端の信号と対比すると、ライン1024上の信号は量子化エラーを有することを意味する。中間レイヤ予測のためにライン1024上の信号を用いる選択には、SNRスケーラビリティが単独でまたは空間スケーラビリティと結合して用いられている場合に特に利点があり、その理由は、この場合、ベースピクチャコーダ1010によって発生される量子化エラーは、より高位のスケーリングレイヤに「持ち運ばれる」、すなわち、ブロック1018の出力信号は、第1スケーリングレイヤによって発生される量子化エラーを含み、次にそれが入力端1036において通常はより細かな量子化ステップ幅および違った量子化パラメータ2をそれぞれ有する拡張ピクチャコーダによって量子化され、さらに拡張スケーリングレイヤ1004に書き込まれることになるからである。
The signal at the output end of the
中間レイヤ予測フラグ1030と似たように、動きデータフラグ1048がピクチャコーダに送り込まれ、動きデータについての対応する情報が拡張スケーリングレイヤ1004に含められ、後でデコーダに使用されることになるが、このことについては、図2を参照して説明する。
Similar to the intermediate
純粋な空間スケーラビリティが用いられる場合、ベース動き予測器1012の出力信号すなわち残差ピクチャのベースシーケンスを、ライン1024上の信号の代わりに、すなわちベース残差ピクチャの再構成されたシーケンスの代わりに用いることができる。
If pure spatial scalability is used, the output signal of
実施に応じて、このスイッチの制御を、手動でまたは予測利益関数に基づいて行うことができる。 Depending on the implementation, control of this switch can be performed manually or based on a predicted profit function.
なお、望ましくは、全ての予測、すなわち、動き予測、拡張動きデータ予測および中間レイヤ残余値予測は、適応的に設計されている。具体的には、たとえば、残差ピクチャのベースシーケンスのピクチャ中において、必ずしもあらゆるマクロブロックまたはサブマクロブロックに対して、動きデータ予測残余値が存在する必要はない。このように、残差ピクチャのベースシーケンスのピクチャは、「残差ピクチャ」と呼ばれているにもかかわらず、予測されないマクロブロックおよびサブマクロブロックをもそれぞれ含むことができる。この状況は、たとえば、ピクチャの中に新しいオブジェクトが生じたことが検知された場合に起こることになる。ここでは、動き補償予測は役立たなく、その理由は、予測残差信号が、ピクチャにおいて元の信号よりも大きくなってしまうからである。ブロック1016での拡張動き予測では、このような場合、このブロック(たとえばマクロブロックまたはサブマクロブロック)に対する予測演算子および最終的には更新演算子の双方が非アクティブにされる。
Desirably, all predictions, that is, motion prediction, extended motion data prediction, and intermediate layer residual value prediction are designed adaptively. Specifically, for example, a motion data prediction residual value does not necessarily have to exist for every macroblock or sub-macroblock in a picture of a base sequence of residual pictures. In this way, the pictures of the base sequence of residual pictures can each include unpredicted macroblocks and sub-macroblocks even though they are called “residual pictures”. This situation will occur, for example, when it is detected that a new object has occurred in the picture. Here, motion compensated prediction is not useful, because the prediction residual signal will be larger than the original signal in the picture. In the extended motion prediction at
ここで、明確化のために、たとえば、残差ピクチャのベースシーケンスが、仮に、動き予測残余信号を実際に含む1つのブロックを有する残差ピクチャのベースシーケンスの1枚の残差ピクチャだけであったとしても、これを残差ピクチャのベースシーケンスということにする。ただし、典型的なアプリケーションの場合、実際には、どの残差ピクチャも動き予測残余データを有する多数のブロックを有する。 Here, for clarification, for example, the base sequence of the residual picture is only one residual picture of the base sequence of the residual picture having one block that actually includes the motion prediction residual signal. Even so, this is referred to as a base sequence of residual pictures. However, for a typical application, in practice every residual picture has a large number of blocks with motion prediction residual data.
本発明の意味において、これを残差ピクチャの拡張シーケンスに対しても適用する。あのように、拡張レイヤにおける状態もベースレイヤの状態と同様なことになる。このように、本発明の意味において、残差ピクチャの拡張シーケンスは、ピクチャのシーケンスということになり、極端な場合には、単一の「残差ピクチャ」の単一のブロックだけが動き予測残余値を有し、このピクチャ中の他の全てのブロック中さらには他の全ての「残差ピクチャ」中には、他の全てのピクチャ/ブロックに対して動き補償付予測および必要な場合に動き補償更新が非アクティブにされているので、残差が存在しないこともある。 In the sense of the present invention, this also applies to an extended sequence of residual pictures. As such, the state in the enhancement layer is the same as the state in the base layer. Thus, in the sense of the present invention, an extended sequence of residual pictures is a sequence of pictures, and in extreme cases only a single block of a single “residual picture” is a motion prediction residual. In all other blocks in this picture, as well as in all other “residual pictures”, with motion-compensated prediction and motion if necessary for all other pictures / blocks Since the compensation update is deactivated, there may be no residual.
本発明では、これは、拡張予測残差ピクチャを計算する中間レイヤ予測器にも適用する。典型的には、拡張予測残差ピクチャは、シーケンスとして存在することになる。一方、中間レイヤ予測器も、望ましくは、同様に適応的に形成される。たとえば、ベースレイヤから拡張レイヤへのベースレイヤの残余データ予測が、単一の「残差ピクチャ」の単一のブロックだけに有用であり、このピクチャの他の全てのブロックに対して、および、必要に応じて拡張予測残差ピクチャのシーケンスの他の全てのピクチャに対しては、中間レイヤ残余データ予測が非アクティブにされていることが検知された場合、本発明の文脈において、明確化のために、このシーケンスでも拡張予測残差ピクチャということにする。なお、これに関連して、中間レイヤ予測器が残余データを予測できるのは、ベースレイヤ中の残差ピクチャの対応するブロックにおいて動き補償残余値が既に計算され、さらにこのブロックに対応するブロック(たとえば同一のx、y位置)に対する動き補償予測も拡張シーケンスの残差ピクチャ中で既に実行されて、このブロックにおいて残差値が動き補償予測による拡張レイヤ中に存在する場合だけである。実際の動き補償予測残余値が、考慮される双方のブロックに存在する場合においてだけ、望ましくは中間レイヤ予測器がアクティブになり、ベースレイヤのピクチャ中の残差値のブロックを拡張レイヤのピクチャ中の残差値のブロックに対する予測子として用い、次にこの予測の残余値だけすなわち考慮されたピクチャのこのブロック中の拡張予測残差データだけを拡張ピクチャコーダに送信する。 In the present invention, this also applies to an intermediate layer predictor that calculates an extended prediction residual picture. Typically, the enhanced prediction residual picture will exist as a sequence. On the other hand, the intermediate layer predictor is preferably formed adaptively as well. For example, base layer residual data prediction from base layer to enhancement layer is only useful for a single block of a single “residual picture”, for all other blocks of this picture, and If necessary, for all other pictures in the sequence of enhanced prediction residual pictures, if it is detected that middle layer residual data prediction is deactivated, in the context of the present invention, Therefore, this sequence is also referred to as an extended prediction residual picture. In this connection, the intermediate layer predictor can predict the residual data because the motion compensation residual value is already calculated in the corresponding block of the residual picture in the base layer, and the block corresponding to this block ( For example, motion compensated prediction for the same x, y position) is also already performed in the residual picture of the extended sequence, and only if the residual value is present in the enhancement layer by motion compensated prediction in this block. The intermediate layer predictor is preferably activated only if the actual motion compensated prediction residual value is present in both considered blocks, and the residual value block in the base layer picture is replaced in the enhancement layer picture. As a predictor for a block of residual values, only the residual value of this prediction, ie, only the extended prediction residual data in this block of the considered picture, is sent to the extended picture coder.
以下に、図1bを参照しながら、ベースピクチャコーダ1010、拡張ピクチャコーダ1028およびその他のピクチャコーダの詳細事例を説明する。ピクチャコーダは、入力側で、残差ピクチャの群を受信し、それらをマクロブロック毎に変換器1050に供給する。次に、変換されたマクロブロックは、ブロック1052においてスケールされ、さらに量子化パラメータ1034、1036、・・・を用いて量子化される。ブロック1052の出力端からは、用いられた量子化パラメータ、すなわち、マクロブロックに対して用いられた量子化ステップ幅およびマクロブロックのスペクトル値に対する量子化インデックスが出力される。次に、この情報は、図1bには示されていないが、エントロピーコーダステージに供給され、これはハフマンコーダ、望ましくは算術コーダを含み、H.264/AVCによる周知のCABAC概念で動作する。また、手段1052の出力信号はブロック1054にも供給され、ここでは逆スケーリングおよび再量子化が実行されて、量子化インデックスを量子化パラメータとともに数値に変換し、次に、それはブロック1056の逆変換器に供給されて、残差ピクチャの再構成された群を得る。これは、残差ピクチャの元の群に比べて、変換ブロック1050の入力端での量子化エラーを有し、量子化エラーは、量子化パラメータおよび量子化ステップ幅にそれぞれ依存する。本発明の残余値予測を実行するために、スイッチ1044の制御によって、1つの信号または他の信号が補間器1022または直接に中間レイヤ予測器1018に供給される。
In the following, detailed examples of the
中間レイヤ予測器フラグ1030の簡単な実施が図1cに示されている。中間レイヤ予測フラグがセットされていると、中間レイヤ予測器1018はアクティブにされる。しかしながら、フラグがセットされていなければ、中間レイヤ予測器は非アクティブにされ、このマクロブロックまたはそのマクロブロックに従属するサブマクロブロックに対して、同時キャスト操作が実行される。前述のように、この理由は、予測によるコーダ利得が実際にはコーダ損失になってしまう、すなわち、ブロック1016の出力端での対応するマクロブロックを伝送した方が、予測残余値が用いられる場合よりも後のエントロピー復号化において、より良いコーダ利得が提供されるということである。
A simple implementation of the intermediate
動きデータフラグ1030の簡単な実施が図1dに示されている。フラグがセットされていると、拡張レイヤの動きデータがベースレイヤのアップサンプルされた動きデータから導出される。SNRスケーラビリティの場合、アップサンプラ1042は必要ない。ここで、フラグ1048がセットされていると、拡張レイヤの動きデータを、ベース動きデータから直接導出することができる。なお、この動きデータ「導出」は、動きデータの直接引用であることも、動きデータ予測値を得るために、ブロック1014がベースレイヤから得られる動きベクトルをブロック1014によって計算された拡張スケーリングレイヤに対して対応する動きベクトルから差し引くという実際の予測であることもある。拡張レイヤの動きデータ(どのようなタイプの予測も実行されなかった場合)または予測の残余値(実際の予測が実行された場合)が、図1aに示した出力端を介して拡張ピクチャコーダ1028に供給され、最後には、拡張スケーリングレイヤビットストリーム1004に含まれることになる。しかしながら、スケーリングの有無にかかわらず、ベーススケーリングレイヤから動きデータの全面的な引き継ぎが実行される場合、それらは拡張スケーリングレイヤビットストリーム1004の中に書き込まれる必要はない。拡張スケーリングレイヤビットストリーム中の動きデータフラグ1048によってそのことを信号伝達するだけで十分である。
A simple implementation of the
図2は、ベーススケーリングレイヤ1002および拡張スケーリングレイヤ1004を含む符号化されたビデオシーケンスを復号化するための装置を示す。拡張スケーリングレイヤ1004およびベーススケーリングレイヤ1002は、ビットストリームデマルチプレクサから取り出すことができ、これは、共通のビットストリームからベーススケーリングレイヤ1002および拡張スケーリングレイヤ1004の両方を抽出するために、両方のスケーリングレイヤをそれぞれ有するスケーラブルビットストリームを分離する。ベーススケーリングレイヤ1002は、ベースピクチャデコーダ1060に供給され、ベースピクチャデコーダは、残差ピクチャのベースシーケンスおよびベース動きデータを得るためにベーススケーリングレイヤを復号化するように形成され、これらは出力ライン1062に適用される。次に、ライン1062上の出力信号は、ベース動き結合器1064に供給され、ベース動き結合器は、出力側に第1スケーリングレイヤの復号化されたピクチャを出力するために、ブロック1012のコーダ中に導入されたベース動き予測子をキャンセルする。さらに、本発明のデコーダは、出力ライン1068に拡張予測残差ピクチャを得るために、拡張スケーリングレイヤ1004を復号化するための拡張ピクチャデコーダ1066を含む。さらに、出力ライン1068は、動きデータフラグ1070、または、拡張スケーリングレイヤ1004中に拡張動きデータまたは拡張動きデータ残余値が実際に存在する場合にはこれらの拡張動きデータなどの動きデータ情報を含む。一方、ライン1062上の復号化されたベースシーケンスは、補間器1070によって補間され、または、図1aの中間レイヤ予測器1018によって実行される中間レイヤ予測をキャンセルするために、変更されないまま(ライン1072)中間レイヤ結合器1074に供給されることになる。このように、中間レイヤ結合器は、残差ピクチャの拡張シーケンスを得るために、拡張予測残差ピクチャと、ライン1062上の補間された(1070)またはされてない(1072)復号化されたベースシーケンスについての情報とを結合するように形成されている。この拡張シーケンスは、最終的に、拡張動き結合器1076に提供され、その拡張動き結合器は、ベース動き結合器1064と同様に、拡張レイヤ中に実行されている動き補償をキャンセルする。拡張動き結合器1076は、ブロック1076中の動き結合のための動きデータを提供するために、動きデータ算定手段1078に結合する。この動きデータを、実際に、出力端1068から拡張ピクチャデコーダによって提供される拡張レイヤに対する全拡張動きデータとすることができる。これに換えて、拡張動きデータを、動きデータ残余値とすることもできる。双方の場合とも、対応するデータは、拡張動きデータライン1080を介して動きデータ決定手段1078に供給される。ただし、動きデータフラグ1070が、拡張レイヤに対して個別拡張動きデータが送信されていないと信号伝達している場合、必要な動きデータは、ベースレイヤから、ライン1082を介して、用いられたスケーラビリティに応じて、直接(ライン1084)、または、アップサンプラ1086によるアップサンプリングの後に、取られる。
FIG. 2 shows an apparatus for decoding an encoded video sequence that includes a
さらに、イントラブロックの中間レイヤ予測の場合、動きデータ残余値がなく、拡張動き結合器1076とベース動き結合器1064との間の対応するつながりはデコーダ側に設けられ、デコーダは、空間スケーラビリティのある場合には補間器1090を、または、SNRスケーラビリティだけが用いられている場合にはバイパスラインを有する。2つのレイヤの間の選択的イントラブロック予測の場合には、予測残余信号だけがそのイントラブロックに対する拡張レイヤに送信され、ビットストリーム中の対応する信号伝達情報によってイントラブロックが示される。この場合、拡張動き結合器も、以下に説明する機能に加えて、このマクロブロックに対する加算を実行し、すなわち、マクロブロック残余値と低位のスケーリングレイヤからのマクロブロック値との結合を実行し、さらに得られたマクロブロックを実際の逆動き補償処理に供給する。
Furthermore, in the case of intra-block intermediate layer prediction, there is no residual motion data value, and the corresponding connection between the
以下に、図3〜図5dを参照しながら、ベース動き予測器1012または拡張動き予測器1016、および、逆処理エレメント、すなわち拡張動き結合器1076またはベース動き補償器1064の好適な実施の形態を説明する。
In the following, preferred embodiments of the
基本的には、任意の動き補償予測アルゴリズムを、すなわち、図9の92に示した動き補償アルゴリズムも用いることができる。このように、従来の動き補償アルゴリズムも、図1に示したシステムに追随するが、図4に参照番号45で示した更新演算子Uは非アクティブにされる。これにより、ピクチャの群は、元のピクチャと、残余ピクチャと、予測残余信号とに、または、ピクチャによっては残差ピクチャとに変換される。しかしながら、図4に示したような更新演算子がアクティブであり、たとえば図5a〜図5dに例示したように計算される、既知の動き補償スキームで拡張が実施される場合、標準的な動き補償予測計算は、動き補償時間フィルタリングともいわれるいわゆるMCTF処理となる。ここで、元のピクチャは更新演算子によって重み付けされた予測残余信号と結合されるので、従来の動き補償の標準ピクチャおよびイントラピクチャは、それぞれ、更新演算を介してローパスピクチャとなる。
Basically, any motion compensation prediction algorithm can be used, ie, the motion compensation algorithm shown at 92 in FIG. Thus, the conventional motion compensation algorithm also follows the system shown in FIG. 1, but the update operator U, indicated by
本発明の好適な実施の形態において、図1aおよび図2に関して既に説明したように、このようなMCTF処理は、あらゆるスケーリングレイヤに対して実行され、MCTF処理は、望ましくは、図3〜図5dおよび図7〜図8を参照して説明するようなやり方で実行される。 In the preferred embodiment of the present invention, as already described with respect to FIGS. 1a and 2, such MCTF processing is performed for every scaling layer, and MCTF processing is preferably performed in FIGS. And in the manner described with reference to FIGS.
以下に、図4およびその後の図5a〜図5dを参照しながら動き補償予測フィルタの好適な実施の形態を説明する。既に説明したように、動き補償時間フィルタ(MCTF)は、3つのステップ、すなわち多相分解、予測および更新の3ステップを有する一般的なリフティングスキームで構成される。対応する分析/合成フィルタバンク構造を図4に示す。分析側では、所定の信号の奇数サンプルは、予測演算子Pとハイパス信号Hとを用いて、偶数サンプルの一次結合によって予測残余値にろ波される。対応するローパス信号lは、更新演算子を用いて、予測残余値hの一次結合を、入力信号sの偶数サンプルに加えることによって形成される。変数hおよびlの数式的な関係を図4に示し、演算子PおよびUの基本的な実施の形態を図5aに示す。 Hereinafter, a preferred embodiment of the motion compensation prediction filter will be described with reference to FIG. 4 and the subsequent FIGS. 5a to 5d. As already explained, the motion compensated temporal filter (MCTF) is composed of a general lifting scheme with three steps: polyphase decomposition, prediction and update. The corresponding analysis / synthesis filter bank structure is shown in FIG. On the analysis side, odd samples of a given signal are filtered to a prediction residual value by linear combination of even samples using the prediction operator P and the high pass signal H. The corresponding low-pass signal l is formed by adding a linear combination of predicted residual values h to the even samples of the input signal s using an update operator. The mathematical relationship between variables h and l is shown in FIG. 4, and a basic embodiment of operators P and U is shown in FIG. 5a.
予測ステップおよび更新ステップの双方とも完全に逆処理することが可能なので、対応する変換を、厳密にサンプルされた完全な再構成フィルタバンクと見なすことができる。合成フィルタバンクは、合算プロセスにおいて、逆の順に配置された逆符号の予測演算子および更新演算子のアプリケーションを含み、その合算プロセスでは偶数および奇数の多相成分が用いられる。ハイパス/ローパス成分の正規化のために、対応するスケーリングファクタFlおよびFhが用いられる。これらのスケーリングファクタを必ず用いる必要はないが、符号化の過程で量子化ステップサイズを選択する際にそれらを用いることができる。 Since both the prediction and update steps can be completely reversed, the corresponding transform can be considered as a strictly sampled complete reconstruction filter bank. The synthesis filter bank includes an application of inverse sign prediction and update operators arranged in reverse order in the summation process, where even and odd polyphase components are used. For normalization of the high-pass / low-pass components, corresponding scaling factors F l and F h are used. These scaling factors are not necessarily used, but can be used in selecting the quantization step size during the encoding process.
f[x、k]は、空間座標x=(x,y)Tを示し、kは時間座標である。ヘアウェーブレットのリフティング表現を用いた時間的分解に対する予測演算子Pおよび更新演算子Uは、図5bの左側に示す式で与えられる。5/3変換については、対応する演算子が図5bの右側に示すように得られる。動き補償時間フィルタリングに対する拡張は、図5cに示すように、予測演算子および更新演算子を変形することにより得られる。具体的には、r>0の参照インデックスを参照することになり、これにより一般的ピクチャ適応動き補償フィルタリングが可能となる。これらの参照インデックスを介し、図4に示したシナリオにおいて、時間的に引き続く2つのピクチャをハイパスピクチャとローパスピクチャとに分解できるだけでなく、たとえば、第1ピクチャを動き補償されたやり方で、シーケンスの第3ピクチャでろ波することができる。これに換えて、参照インデックスを適切に選択することによって、たとえば、シーケンス群のあるシーケンスの同じ1つのピクチャを、動きベクトルに対するベースとして活用できるようにすることができる。このことは、参照インデックスによって、たとえば、全ての動きベクトルがシーケンスの第4ピクチャに関連付けられている8ピクチャのシーケンスにおいて、これらの8ピクチャを図4のフィルタスキームで処理した結果として、単一のローパスピクチャを得、さらに7ハイパスピクチャ(拡張ピクチャ)および元のシーケンスの同じ1つのピクチャに関連する全ての動きベクトルを得ることができ、1つの拡張ピクチャがあらゆる動きベクトルに関連付けられている。 f [x, k] indicates a spatial coordinate x = (x, y) T , and k is a time coordinate. The prediction operator P and the update operator U for temporal decomposition using the lifting expression of the hair wavelet are given by the equations shown on the left side of FIG. For the 5/3 transformation, the corresponding operator is obtained as shown on the right side of FIG. 5b. Extensions to motion compensated temporal filtering are obtained by modifying the prediction and update operators as shown in FIG. 5c. Specifically, a reference index of r> 0 is referred to, thereby enabling general picture adaptive motion compensation filtering. Through these reference indices, in the scenario shown in FIG. 4, not only can the two temporally succeeding pictures be decomposed into a high-pass picture and a low-pass picture, but for example the first picture in a motion compensated manner. The third picture can be filtered. Alternatively, by appropriately selecting the reference index, for example, the same one picture of a sequence in a sequence group can be used as a base for a motion vector. This means that a single index as a result of processing these 8 pictures with the filter scheme of FIG. 4 in a sequence of 8 pictures in which all motion vectors are associated with the 4th picture of the sequence by means of the reference index. A low-pass picture can be obtained, and all the motion vectors associated with 7 high-pass pictures (enhanced pictures) and the same one picture of the original sequence can be obtained, with one extended picture being associated with every motion vector.
このように、あるシーケンスの同じ1つのピクチャがいくつかのさらなるピクチャのフィルタリングのための基準として用いられる場合、これは2のファクタによらない時間的解像度スケーリングにつながり、ある種のアプリケーションには有利である。常に、同一のピクチャ、すなわち、たとえば8ピクチャのシーケンスの第4ピクチャが、図4の分析フィルタバンクの下側ブランチに送り込まれる。ローパスピクチャは、あらゆるフィルタリングにおいて同一であり、言い換えれば、ピクチャのシーケンスの最終的に必要な単一のローパスピクチャである。更新パラメータがゼロの場合、ベースピクチャは、下側ブランチを通って「通過」となる。これに対して、ハイパスピクチャは、常に、元のシーケンスの対応する他のピクチャと予測演算子とに依存し、入力ピクチャに関連付けられる動きベクトルが予測に用いられる。このように、この場合、最終的に得られたローパスピクチャは、ピクチャの元のシーケンスの特定のピクチャに関連付けられ、また、各々のハイパスピクチャも、元のシーケンスのピクチャに関連付けられ、元のピクチャの偏差は、シーケンスの選択されたベースピクチャ(これは図4の分析フィルタバンクの下側ブランチに供給される)からのシーケンス(動き補償)にまさに対応する。あらゆる更新パラメータM01、M11、M21およびM31がゼロに等しい場合、それは、第4レベルの下側ブランチ73中に送り込まれるピクチャが、底部に向けて「通過」となることである。ある意味では、ローパスピクチャTP1は「繰り返して」フィルタバンクに供給され、一方、他のピクチャは、参照インデックスによって制御され、1つずつ図3の入力端64に導入される。
Thus, if the same single picture of a sequence is used as a reference for filtering several additional pictures, this leads to temporal resolution scaling independent of a factor of 2, which is advantageous for certain applications. It is. At all times, the same picture, ie the fourth picture of a sequence of eg 8 pictures, is fed into the lower branch of the analysis filter bank of FIG. The low-pass picture is the same in all filtering, in other words, the single low-pass picture that is ultimately required for the sequence of pictures. If the update parameter is zero, the base picture is “passed” through the lower branch. On the other hand, a high-pass picture always depends on other pictures corresponding to the original sequence and a prediction operator, and a motion vector associated with the input picture is used for prediction. Thus, in this case, the finally obtained low pass picture is associated with a particular picture of the original sequence of pictures, and each high pass picture is also associated with a picture of the original sequence. Is exactly corresponding to the sequence (motion compensation) from the selected base picture of the sequence (which is fed to the lower branch of the analysis filter bank of FIG. 4). If any update parameters M 01 , M 11 , M 21 and M 31 are equal to zero, it means that the picture sent into the
前の式からも分かるように、動き補償フィルタリングに対する予測および更新演算子は、それぞれ、2つの異なるウェーブレットに対して異なった予測を提供する。ヘアウェーブレットが用いられる場合、一方向動き補償予測が達成される。しかしながら、5/3スプラインウェーブレットが用いられる場合、2つの演算子は双方向動き補償予測を特定する。 As can be seen from the previous equation, the prediction and update operators for motion compensation filtering each provide different predictions for two different wavelets. When hair wavelets are used, one-way motion compensated prediction is achieved. However, when 5/3 spline wavelets are used, the two operators specify bi-directional motion compensated prediction.
双方向補償予測は、通常、一方向予測と比べて、予測残余値のエネルギーを低減するが、動きベクトルレートを増加するので、一方向および双方向予測の間での切り替えをダイナミックに行うことが望ましく、このことは、ピクチャに依存している制御信号に依存する5/3スプラインウェーブレットおよびヘアウェーブレットのリフティング表現の間での切り替えを可能にすることを意味する。本発明の概念は、時間フィルタリングに対する閉じたフィードバックループを用いずに、2つのウェーブレットの間でこのマクロブロック毎の切り替えを可能にし、また、柔軟性および特にデータレートの節減をサポートし、信号適応的なやり方で最適に実行することができる。 Bidirectional compensated prediction typically reduces the energy of the prediction residual value compared to unidirectional prediction, but increases the motion vector rate, so switching between unidirectional and bidirectional prediction can be performed dynamically. Desirably, this means that it is possible to switch between lifting representations of 5/3 spline wavelets and hair wavelets that depend on picture-dependent control signals. The inventive concept allows this macroblock-by-macro switching between two wavelets without using a closed feedback loop for temporal filtering, and also supports flexibility and especially data rate savings, signal adaptation Can be performed optimally in a traditional manner.
モーションフィールドまたは一般に動き予測データフィールドMPおよびMUを理想的に表現するために、H.264/AVC中のBスライスの既存のシンタックスを使用することができる。 In order to ideally represent the motion field or generally the motion prediction data fields M P and M U , The existing syntax of B slices in H.264 / AVC can be used.
ペアワイズピクチャ分解ステージをカスケードすることによって、2項分解的なツリー構造が得られ、これにより、8ピクチャの群に対する例を図7に示すように、2nピクチャの群は、2n-1残余ピクチャと単一のローパス(またはイントラ)ピクチャとに分解される。具体的には、図7は、第1レベルのフィルタの出力端22における第1レベルのハイパスピクチャHP1、および第1レベルのフィルタの出力端24における第1レベルのローパスピクチャを示している。第2レベルのフィルタの出力端16における2つのローパスピクチャTP2、および第2レベルから得られたハイパスピクチャが、第2レベルのピクチャとして図7に示されている。第3レベルのローパスピクチャは、第3レベルのフィルタの出力端76に適用され、第3レベルのハイパスピクチャは、処理されたフォームで出力端75に適用される。8ピクチャの群はもともと8ピクチャで構成することができ、そのため、図3のデコーダは第4レベルのフィルタなしに用いられる。ただし、8ピクチャの群が、第4レベルのフィルタの出力端73で用いられるような8ローパスピクチャの群である場合、本発明のMCTF分解を、ベース動き予測器、拡張動き予測器として、さらに、ベース動き結合器または拡張動き結合器として、それぞれ用いることができる。
By cascading the pairwise picture decomposition stages, a binomial decomposition tree structure is obtained, whereby the group of 2 n pictures is represented by 2 n-1 residuals, as shown in FIG. It is decomposed into a picture and a single low-pass (or intra) picture. Specifically, FIG. 7 shows a first level high pass picture HP1 at the output end 22 of the first level filter and a first level low pass picture at the
このように、この分解では、2nピクチャの群、(2n+1-2)モーションフィールド記述、(2n-1)残余ピクチャおよび単一のローパス(またはイントラ)ピクチャが送信される。 Thus, in this decomposition, a group of 2 n pictures, a (2 n + 1-2 ) motion field description, a (2 n-1 ) residual picture and a single low-pass (or intra) picture are transmitted.
ベース動き補償器および拡張動き補償器の双方は、望ましくは、ベース制御パラメータおよび拡張制御パラメータによってそれぞれ制御され、量子化パラメータ(1034または1036)および動き情報の最適な結合が計算され、この結合は特定のレートに固定されている。これは、特定の最大ビットレートに関して最適の比率を得るために、以下の方法に従って実行される。このように、比較的粗い量子化パラメータを意味する低いビットレートにおいては、比較的細かい量子化パラメータが取られる高位のスケーリングレイヤに対するよりも、動きベクトルがより重要であることが分かる。このように、粗い量子化、従ってより低いビットレートの場合、より高位のスケーリングレイヤに対するよりも、少ない動きデータが計算される。そこで、より高位のスケーリングレイヤでは、高位のスケーリングレイヤの場合に比べて残余データに関して動きデータが比例的に重要である低ビットレートの場合よりも、良好な品質および高ビットレートでの最適状態のために、ある程度多くの動きデータを計算するためにサブマクロブロックモードに移行することが望ましい。以下に、これについて説明する。 Both the base motion compensator and the extended motion compensator are preferably controlled by the base control parameter and the extended control parameter, respectively, and an optimal combination of the quantization parameter (1034 or 1036) and the motion information is calculated, It has been fixed to a specific rate. This is performed according to the following method in order to obtain an optimal ratio for a particular maximum bit rate. Thus, it can be seen that at low bit rates, meaning relatively coarse quantization parameters, motion vectors are more important than for higher order scaling layers where relatively fine quantization parameters are taken. Thus, for coarse quantization and thus lower bit rates, less motion data is calculated than for higher scaling layers. Therefore, the higher scaling layers have better quality and optimal state at higher bit rates than the lower bit rates where motion data is proportionally important with respect to residual data compared to higher scaling layers. Therefore, it is desirable to shift to the sub macroblock mode in order to calculate a certain amount of motion data. This will be described below.
元のピクチャまたは前の分析ステージで生成されるローパス信号を表すピクチャであるピクチャAおよびBが与えられる。さらに、ルマサンプルa[]およびb[]の対応する配列が提供される。動き記述Mi0は、次のようにマクロブロック毎に推定される。
ピクチャB内のマクロブロックiの可能な全てのマクロブロックおよびサブマクロブロックパーティションに対して、関連動きベクトル
は、ラグランジュ関数
を最小化することによって計算され、ここで、劣化数式項は次式
で与えられる。
ここで、Sは、参照ピクチャA内の動きベクトル検索領域を特定する。Pは、考慮されたマクロブロックパーティションまたはサブマクロブロックパーティションによってカバーされる領域である。R(i,m)は、動きベクトルmの全ての成分を送信するために必要なビット数を特定し、λは固定ラグランジュ乗数である。
Pictures A and B are given, which are the original picture or the picture representing the low pass signal generated in the previous analysis stage. In addition, corresponding sequences of luma samples a [] and b [] are provided. The motion description M i0 is estimated for each macroblock as follows.
For all possible macroblocks and sub-macroblock partitions of macroblock i in picture B, the associated motion vector
Lagrange function
, Where the degradation formula term is
Given in.
Here, S specifies a motion vector search area in the reference picture A. P is the area covered by the considered macroblock partition or sub-macroblock partition. R (i, m) specifies the number of bits required to transmit all the components of the motion vector m, and λ is a fixed Lagrange multiplier.
最初に、動き検索が所定の検索領域S中の全ての整数サンプルの正確な動きベクトルを通して進む。次に、最善の整数動きベクトルを用いて、8つの周囲の半分サンプルの正確な動きベクトルがテストされる。最後に、最善の半分サンプルの正確な動きベクトルを用いて、8つの周囲の4分の1サンプルの正確な動きベクトルがテストされる。半分および4分の1の正確な動きベクトルの改善に対する数式項
は、補間演算子として解釈される。
Initially, the motion search proceeds through the exact motion vector of all integer samples in a given search region S. Next, using the best integer motion vector, the eight surrounding half-sample accurate motion vectors are tested. Finally, using the best half-sample accurate motion vector, the eight surrounding quarter-sample accurate motion vectors are tested. Mathematical terms for half and quarter accurate motion vector improvements
Is interpreted as an interpolation operator.
一般に、マクロブロックモードおよびサブマクロブロックに対するモード決定は、同じアプローチをたどる。次のラグランジュ関数を最小化するモードpiは、可能なマクロブロックまたはサブマクロブロックモードSmodeの所定のセットから選択される。
劣化数式項は、次式
で与えられ、ここで、Pは、マクロブロックまたはサブマクロブロック領域を特定し、m[p,x,y]は、マクロブロックまたはサブマクロブロックのモードpおよびルマ位置(x,y)を含むパーティションまたはサブマクロブロックパーティションに関連付けられる動きベクトルである。
In general, mode determination for macroblock mode and sub-macroblock follows the same approach. The mode p i that minimizes the next Lagrangian function is selected from a predetermined set of possible macroblock or sub-macroblock modes S mode .
Degradation formula term is
Where P identifies the macroblock or sub-macroblock region and m [p, x, y] includes the mode p and luma position (x, y) of the macroblock or sub-macroblock A motion vector associated with a partition or sub-macroblock partition.
レート数式項R(i,p)は、コーダモードpの選択に関連付けられるビット数を表す。動き補償コーダモードでは、同モードは、マクロブロックモード(適用される場合)と、サブマクロブロックモードおよびその複数モード(適用される場合)のそれぞれと、動きベクトルおよびその複数ベクトルのそれぞれとに対するビットを含む。イントラモードでは、同モードは、マクロブロックモードと量子化されたルマおよびクロマ変換係数レベルの配列とに対するビットを含む。 The rate formula term R (i, p) represents the number of bits associated with the selection of the coder mode p. In motion compensation coder mode, the mode is a bit for macroblock mode (if applicable), sub-macroblock mode and its multiple modes (if applicable), and motion vector and each of its multiple vectors. including. In intra mode, the mode includes bits for macroblock mode and an array of quantized luma and chroma transform coefficient levels.
可能なサブマクロブロックモードのセットは、
で与えられる。
The set of possible sub-macroblock modes is
Given in.
可能なマクロブロックモードのセットは、
で与えられ、ここで、INTRAモードは、予測ステップで用いられるモーションフィールド記述Mi0が推定される場合にだけ用いられる。
The set of possible macroblock modes is
Where the INTRA mode is used only when the motion field description M i0 used in the prediction step is estimated.
ラグランジュ乗数λは、モーションフィールドが推定される分解ステージのハイパスピクチャまたはピクチャQPHiに対するベースレイヤ量子化パラメータに基づいて、次式
に従って設定される。
The Lagrangian multiplier λ is based on the base layer quantization parameter for the high-pass picture or picture QP Hi of the decomposition stage where the motion field is estimated:
Set according to.
本発明によれば、図8に示す分解スキームが用いられ、これは、時間スケーラビリティとコーダ効率との間で賢明な折衷ができるよう想定されたものである。元のピクチャのシーケンスは、入力ピクチャA、B、A、B、A、B、・・・、A、Bのシーケンスとして取り扱われる。このように、このスキームでは、最適な時間スケーラビリティ(ローパスピクチャ間の等距離)のステージを提供する。ローパスピクチャのシーケンスは、以降の全ての分解ステージに対して入力信号として用いられるが、入力ピクチャB、A、A、B、B、A、・・・A、Bのシーケンスとして取り扱われ、以降の2チャンネル分析スキームでは、分解されるローパスピクチャ間のスペースは、図8で分かるように、小さく保たれている。 In accordance with the present invention, the decomposition scheme shown in FIG. 8 is used, which is assumed to be a sensible compromise between time scalability and coder efficiency. The sequence of original pictures is handled as a sequence of input pictures A, B, A, B, A, B,. Thus, this scheme provides a stage with optimal temporal scalability (equal distance between low-pass pictures). The low-pass picture sequence is used as an input signal for all subsequent decomposition stages, but is treated as a sequence of input pictures B, A, A, B, B, A,. In the two-channel analysis scheme, the space between the low-pass pictures to be decomposed is kept small, as can be seen in FIG.
以下に、動きデータ中間レイヤ予測および残余データ中間レイヤ予測の双方の好適な実施に関して、図6a〜図6dを参照する。空間およびSNRスケーラビリティをそれぞれ得るために、基本的には、低位のスケーリングレイヤの動きデータおよびテクスチャデータは、高位のスケーリングレイヤの予測のために用いられる。ここで、特に空間スケーラビリティにおいて、動きデータが空間拡張レイヤの復号化のための予測として用いられる前に、動きデータのアップサンプリングが必要となる。ベースレイヤ表現の動き予測データは、AVCの既存のBスライスシンタックスのサブセットを用いて送信される。望ましくは、2つの追加マクロブロックモードが、拡張レイヤのモーションフィールドの符号化のために導入される。 In the following, reference is made to FIGS. 6a to 6d for the preferred implementation of both motion data intermediate layer prediction and residual data intermediate layer prediction. In order to obtain spatial and SNR scalability, respectively, basically the motion data and texture data of the lower scaling layer are used for the prediction of the higher scaling layer. Here, particularly in spatial scalability, upsampling of the motion data is required before the motion data is used as a prediction for spatial enhancement layer decoding. Base layer representation motion prediction data is transmitted using a subset of the existing B-slice syntax of AVC. Preferably, two additional macroblock modes are introduced for enhancement layer motion field encoding.
第1マクロブロックモードは、「base_layer_mode」であり、第2モードは、「qpel_refinement_mode」である。これらの2つの追加マクロブロックモードを信号伝達するために、図1に示すように、シンタックスエレメントmb_modeに先立って、2つのフラグ、すなわちBLFlagおよびQrefFlagがマクロブロックレイヤシンタックスに加えられる。このように、第1フラグBLFlag1098は、ベースレイヤモードを信号伝達し、もう一方のフラグ1100は、Qpel refinement modeを記号表示する。このようなフラグがセットされると、その値は1となり、データストリームは図6aに示すようになる。このように、フラグ1098が1の値である場合、フラグ1100およびシンタックスエレメントマクロブロックモード1102はこれ以上重要性がない。一方、フラグ1098の値がゼロの場合、そのフラグはセットされておらず、フラグ1100が用いられ、フラグ1100がセットされれば、エレメント1102に再びブリッジをすることになる。しかしながら、双方のフラッグ1098および1100の値がゼロ場合、すなわち両方ともセットされていない場合、マクロブロックモードは、シンタックスエレメント1102において評価される。
The first macroblock mode is “base_layer_mode”, and the second mode is “qpel_refinement_mode”. To signal these two additional macroblock modes, two flags, BLFflag and QrefFlag, are added to the macroblock layer syntax prior to the syntax element mb_mode, as shown in FIG. Thus, the
BLFlag=1の場合、対応するマクロブロックに対して、ベースレイヤモードが用いられ、さらなる情報は用いられない。このマクロブロックモードは、ベースレイヤの対応するマクロブロックのマクロブロックパーティションを含む動き予測情報が、このようにして拡張レイヤのために直接用いられていることを示す。なお、本明細書のこの箇所および全体を通して、「ベースレイヤ」という用語は、現在考慮されている拡張レイヤに関して1段低位のレイヤを表す。ベースレイヤが半分の空間解像度を有するレイヤを表す場合、動きベクトルフィールド、すなわちマクロブロックパーティションを含む動きベクトルのフィールドは、図6bに示すように、それに応じてスケールされる。この場合、現在のマクロブロックは、ベースレイヤのモーションフィールドの8×8サブマクロブロックと同じ領域を含む。このように、対応するベースレイヤのマクロブロックが、直接的に16×16、16×8または8×16モードに符号化されている場合、または、対応するベースレイヤのサブマクロブロックが、8×8モードまたは直接8×8モードに符号化されている場合、現在のマクロブロックに対して16×16モードが用いられる。一方、ベースレイヤのサブマクロブロックが8×4、4×8または4×4モードに符号化されている場合、現在のマクロブロックに対するモードは、マクロブロックモード=16×8、8×16または8×8(ただし全てのサブマクロブロックモード=8×8)となる。ベースレイヤのマクロブロックがINTRAマクロブロックを表している場合、現在のマクロブロックは、INTRA_BASE、すなわち、ベースレイヤからの予測を有するマクロブロックに設定される。現在マクロブロックのマクロブロックパーティションについては、ベースレイヤブロックの対応するマクロブロック/サブマクロブロックパーティションに対するのと同じ参照インデックスが用いられる。関連動きベクトルは2倍にされる。この倍率は、図6bに示す状況、すなわち、ベースレイヤ1102が、拡張レイヤ104の半分のピクセル領域およびピクセル数をそれぞれ含む状況で適用される。ベースレイヤ空間解像度の拡張レイヤ空間解像度に対する比率が1/2でない場合、対応するスケーリング倍率が動きベクトルに対して用いられる。
If BLFlag = 1, the base layer mode is used for the corresponding macroblock and no further information is used. This macroblock mode indicates that motion prediction information including the macroblock partition of the corresponding macroblock of the base layer is thus directly used for the enhancement layer. It should be noted that throughout this part and throughout this specification, the term “base layer” refers to a layer one level lower with respect to the currently considered enhancement layer. If the base layer represents a layer with half spatial resolution, the motion vector field, ie the field of the motion vector containing the macroblock partition, is scaled accordingly, as shown in FIG. 6b. In this case, the current macroblock includes the same area as the 8 × 8 sub-macroblock of the base layer motion field. Thus, if the corresponding base layer macroblock is directly encoded in 16 × 16, 16 × 8 or 8 × 16 mode, or if the corresponding base layer sub-macroblock is 8 × If it is encoded in 8 mode or directly in 8x8 mode, the 16x16 mode is used for the current macroblock. On the other hand, if the base layer sub-macroblock is encoded in 8 × 4, 4 × 8 or 4 × 4 mode, the mode for the current macroblock is macroblock mode = 16 × 8, 8 × 16 or 8 × 8 (however, all sub macroblock modes = 8 × 8). If the base layer macroblock represents an INTRA macroblock, the current macroblock is set to INTRA_BASE, ie, the macroblock with prediction from the base layer. For the macroblock partition of the current macroblock, the same reference index is used as for the corresponding macroblock / sub-macroblock partition of the base layer block. The associated motion vector is doubled. This scaling factor is applied in the situation shown in FIG. 6b, ie, the
しかしながら、フラグ1098がゼロに等しく、フラグ1100が1に等しい場合、マクロブロックモードqpel_refinement_modeが信号伝達される。フラグ1100は、望ましくは、ベースレイヤが現在レイヤの半分の空間解像度を有するレイヤを表す場合にだけ存在する。そうでない場合は、マクロブロックモード(qpel_refinement_mode)は、実施可能なマクロブロックモードのセットには含まれない。この場合のマクロブロックは、ベースレイヤモードと同様である。マクロブロックパーティション、参照インデックスおよび動きベクトルは、ベースレイヤモードにおけるように導出される。ただし、各々の動きベクトルに対して、あらゆる動きベクトル成分に対するさらなる4分の1サンプルの動きベクトルのリファインメント−1.0または+1があり、これは追加して送信され、導出された動きベクトルに加えられる。
However, if the
フラグ1098=0でフラグ1100=0の場合、すなわち、フラグ1100が存在しない場合、通常通り、マクロブロックモードと、対応参照インデックスと、動きベクトル差分とが特定される。このことは、動きデータの全体セットが、ベースレイヤに対して行われたのと同様に、拡張レイヤに対して送信されることを意味する。しかしながら、本発明によれば、(空間動きベクトル予測子の代わりに)現在の拡張レイヤ動きベクトルに対する予測子として、ベースレイヤ動きベクトルを用いる可能性が提供される。このように、リストX(Xは0から1までの間の値)により、考慮された動きベクトルの参照インデックスリストが特定される。引き続くすべての状態が真であれば、図6cに示すように、あらゆる動きベクトルの差分について、次のようなフラグMvPrdFlagが送信される。
− 現在のマクロブロック/サブマクロブロックパーティションを含むベースレイヤマクロブロックは、INTRAマクロブロックモードでは符号化されない。
− 現在のマクロブロック/サブマクロブロックパーティショの上部左のサンプルをカバーするベースレイヤマクロブロック/サブマクロブロックパーティションは、リストXまたは双予測を使用する。
− 現在のマクロブロック/サブマクロブロックパーティションの上部左のサンプルを含むベースレイヤマクロブロック/サブマクロブロックパーティションのリストX参照インデックスは、現在のマクロブロック/サブマクロブロックパーティションのリストX参照インデックスに等しい。
When the
-Base layer macroblocks containing the current macroblock / sub-macroblock partition are not encoded in INTRA macroblock mode.
The base layer macroblock / submacroblock partition covering the upper left sample of the current macroblock / submacroblock partition uses list X or bi-prediction.
The list X reference index of the base layer macroblock / submacroblock partition containing the upper left sample of the current macroblock / submacroblock partition is equal to the list X reference index of the current macroblock / submacroblock partition.
図6cのフラグ1106が存在しない場合、または、このフラグ1106=0の場合、AVC規格と同様に空間動きベクトル予測子が特定される。そうでない場合、フラグ1106が存在して=1の場合、動きベクトル予測子として対応するベースレイヤベクトルが用いられる。この場合、現在のマクロブロック/サブマクロブロックパーティションのリストX動きベクトル(X=0または1)は、ベースレイヤマクロブロック/サブマクロブロックパーティションの場合によってスケールされたリストX動きベクトルに、送信されたリストX動きベクトル差分を加算することによって得られる。
When the
このように、フラグ1098、1100および1106は、併せて、図1aにそれぞれ概略的に示したような動きデータフラグ1048および動きデータ制御信号1048を実施できるやり方を表している。もちろん、異なった他の信号伝達のやり方もあり、送信器と受信器との間で、当然一定の取り決めを用いて信号伝達情報を削減することができる。
Thus,
ここで、図1の拡張動き補償器1014および図2の拡張動きデータ決定手段1078それぞれの具体的な実施について、さらなる詳細を図1e、1fおよび1gに関して説明する。
Further details regarding the specific implementation of the
図1eを参照すると、拡張動き補償器1014は、基本的に2つのことを行わなければならないことが分かる。すなわち、それは、第一に、拡張動きデータ、典型的には全動きベクトルを計算し、さらにそれを拡張動き予測器1016に供給しなければならなく、その結果、それは、従来技術では通常ブロック毎に適応的に実行される残差ピクチャの拡張シーケンスを得るために、符号化されていないフォームのこれらのベクトルを用いることができる。もう一方の事項は、拡張動きデータを処理すること、すなわち、次に、動き補償予測に用いられる動きデータをできるだけ圧縮してビットストリームに書き込むことである。何かをビットストリームに書き込むためには、図1eに示すように、それぞれのデータを拡張ピクチャコーダ1028に送り込む必要がある。このように、拡張動きデータ処理手段1014bは、拡張動きデータ計算手段1014aが決定した拡張動きデータに含まれる冗長性を、ベースレイヤに関して、できる限り削減するための機能を有する。
Referring to FIG. 1e, it can be seen that the
本発明によれば、ベース動きデータまたはアップサンプルされたベース動きデータについては、拡張動きデータ計算手段1014aが、実際に用いられる拡張動きデータの計算に用いることもでき、または、拡張動きデータの処理、すなわち拡張動きデータの圧縮のためだけに用いることもできるが、これらのことは拡張動きデータの計算には重要ではない。図1gの1.)および2.)の2つの可能性は、拡張動きデータの計算において、ベース動きデータおよびアップサンプルされたベース動きデータが用いられている実施の形態を示し、図1bの3.)は、ベース動きデータについての情報が拡張動きデータの計算に用いられないが、残余データの符号化およびキャプチャだけにそれぞれ用いられる場合を示す。 According to the present invention, for the base motion data or the upsampled base motion data, the extended motion data calculation means 1014a can be used to calculate the actually used extended motion data, or the extended motion data can be processed. That is, it can be used only for compression of extended motion data, but these are not important for the calculation of extended motion data. In FIG. ) And 2. 2) shows an embodiment in which base motion data and upsampled base motion data are used in the calculation of the extended motion data, as shown in 3.b of FIG. ) Shows a case where the information about the base motion data is not used for the calculation of the extended motion data, but is used only for encoding and capturing the residual data.
図1fは、拡張動きデータ決定手段1078のデコーダ側の実施を示し、これはブロック毎の制御を行うための制御モジュール1078aを有し、これにはビットストリームからと拡張ピクチャデコーダ1066からとの信号情報伝達がそれぞれ含まれる。さらに、拡張動きデータ決定手段1078は、拡張動きデータ再構成手段1078bを含み、これは、復号化されたベース動きデータまたは復号化されたアップサンプリングベース動きデータだけを用いて、または、復号化されたベース動きデータについての情報と拡張動きデコーダ1066によって拡張スケーリングレイヤ1004から抽出された残余データからの情報とを結合することによって、拡張動きデータフィールドの動きベクトルを実際に決定し、次に、この動きベクトルを、コーダ側の動き補償予測を逆処理するための共通結合器として形成することができる拡張動き結合器1076によって、用いることができる。
FIG. 1f shows the decoder side implementation of the extended motion
以下に、図1gに概略を示す各種の実施の形態を参照する。図6aに関して既に説明したように、BLFlag1098は、拡張動き予測のためのアップスケールされたベース動きデータの全面的な引き継ぎを信号伝達する。この場合、手段1014aは、ベース動きデータを全面的に引き継ぐように、さらに、異なるレイヤからの異なる解像度の場合には、アップスケールされたフォームで動きデータを引き継ぎ、これらをそれぞれ手段1016に送信するように形成されている。しかしながら、モーションフィールドまたは動きベクトルについての情報は、拡張ピクチャコーダには送信されない。代わりに、マクロブロックまたはサブマクロブロックのどちらかの各ブロックに対して個別のフラグ1098だけが送信される。
In the following, reference is made to the various embodiments outlined in FIG. As already described with respect to FIG. 6a, the
デコーダ側では、図1fの手段1078aが1つのブロックに対してフラグ1098を復号化し、それがアクティブであった場合、ベースレイヤにある復号化されたベース動きデータ、または、復号化されたアップサンプルされたベース動きデータを用いて、拡張動きデータを計算し、次に、それをブロック1076に供給する。この場合、手段1078は、動きベクトル残余データを必要としない。
On the decoder side, means 1078a of FIG. 1f decodes
本発明の第2の実施の形態では、フラグQrefFlag1100によって信号伝達され、ベース動きベクトルは、手段1014aによって実行される拡張動きデータ計算に組み入れられる。図1gの部分2.)および上記で説明したように、動きデータ計算および動きベクトルmの計算は、それぞれ、数式項
の最小値を検索することによって実行される。
In the second embodiment of the invention, signaled by the
This is done by searching for the minimum value of.
現在のピクチャBのブロックと、特定の潜在的な動きベクトルによりシフトされた先行するおよび/または後続するピクチャのブロックとの差分は、ひずみ数式項Dに導入される。図1aの1036で示した拡張ピクチャコーダの量子化パラメータは、ファクタλに導入される。数式項Rは、潜在的な動きベクトルを符号化するために用いられるビット数についての情報を提供する。 The difference between the current picture B block and the preceding and / or following picture block shifted by a particular potential motion vector is introduced into the distortion formula term D. The quantization parameter of the extended picture coder shown at 1036 in FIG. 1a is introduced into the factor λ. The formula term R provides information about the number of bits used to encode the potential motion vector.
通常、検査は、いろいろな潜在的な動きベクトルの間で実行され、あらゆる新しい動きベクトルに対してひずみ数式項Dが計算され、レート数式項Rが計算され、一定であることが望ましいが変化させることもできる拡張量子化パラメータ1036が検討される。上記の合計数式項がいろいろな潜在的な動きベクトルに対して評価され、最小結果の合計を提供する動きベクトルが用いられる。
Usually, a test is performed between the various potential motion vectors, the distortion formula term D is calculated for every new motion vector, the rate formula term R is calculated, preferably constant but varies. An
次に、本発明によれば、ベースレイヤからの対応するブロックのベース動きベクトルも、このインタラクティブな検索に組み入れられる。ベクトルが検索基準を満たす場合、先と同様に、フラグ1100だけを送信しなければならないが、このブロックに対する残余値または他のどんなものも送信してはならない。このように、ベース動きベクトルがブロックに対する基準(前の数式項の最小化)を満たす場合、手段1014aは、それを手段1016に送信するために動きベクトルを用いる。ただし、フラッグ1100だけが拡張ピクチャコーダに送信される。
Then, according to the present invention, the base motion vector of the corresponding block from the base layer is also incorporated into this interactive search. If the vector meets the search criteria,
デコーダ側では、手段1078bがベース動きデータからのこのブロックに対する動きベクトルを決定するためにフラグ1100を復号化する場合、手段1078aが手段1078bを制御するが、その理由は拡張ピクチャデコーダが残余データを送信していないからである。
On the decoder side, if
第2の実施の形態の変形例において、ベース動きベクトルだけでなく、そのベース動きベクトルから導出され(わずかに)違いのある複数のベース動きベクトルも検索に組み入れられる。実施によっては、動きベクトルのどの成分も、個別に1インクリメント増加させたり低減させたりでき、または同じままにしておくことができる。このインクリメントは、動きベクトルの特定の粒度、たとえば、解像度ステップ、半分解像度ステップまたは4分の1解像度ステップを表すことができる。このような違いのあるベース動きベクトルが検索基準を満たす場合、その違い、すなわち+1、0または−1のインクリメントの値が「残余データ」としてフラグ1100に追加して送信される。
In the modification of the second embodiment, not only the base motion vector but also a plurality of base motion vectors derived from the base motion vector and having (slightly) differences are incorporated in the search. Depending on the implementation, any component of the motion vector can be individually incremented or decremented by one, or can remain the same. This increment can represent a particular granularity of the motion vector, eg, a resolution step, a half resolution step or a quarter resolution step. When such a different base motion vector satisfies the search criterion, the difference, that is, the increment value of +1, 0, or −1 is added to the
フラグ1100によってアクティブにされて、デコーダは、データストリーム中のインクリメントを探し、さらにベース動きベクトルまたはアップサンプルされたベース動きベクトルをリカバーし、拡張レイヤにおける対応するブロックに対する動きベクトルを得るために、ブロック1078において、そのインクリメントと対応するベース動きベクトルとを結合する。
Activated by
フラグ1106によって信号伝達される第3の実施の形態において、動きベクトルの決定を、基本的には任意に実行することができる。この全面的な柔軟性に関して、手段1014aは、拡張動きデータを、たとえば、第2の実施の形態に関連して説明した最小化オブジェクトに従って決定することができる。次に、決定された動きベクトルは、ベースレイヤからの情報を配慮することなく、コーダ側の動き補償予測に用いられる。ただし、この場合、拡張動きデータ処理1014aは、実際の算術符号化の前の冗長度削減のための動きベクトル処理にベース動きベクトルを組み入れるように形成される。
In the third embodiment, signaled by the
このように、H.264/AVC規格に従って、動きベクトル差分の伝送が実行され、隣接するブロックの間の差分はピクチャ内で決定される。この実施において、この差分をいろいろな隣接するブロックの間で形成し、その中で最小の差分を選択することができる。次に、本発明によれば、ピクチャ中の対応するブロックに対するベース動きベクトルは、動きベクトル差分に対して最も好適な予測子のためのこの検索に組み入れられる。そのベース動きベクトルが、予測子として最小の残差値を提供するという基準を満たす場合、それがフラグ1106によって信号伝達され、その残差値だけがブロック1028に送信される。そのベース動きベクトルがこの基準を満たさない場合、フラグ1106はセットされず、空間動きベクトル差分計算が実行される。
In this way, H.C. According to the H.264 / AVC standard, motion vector difference transmission is performed, and the difference between adjacent blocks is determined in a picture. In this implementation, this difference can be formed between various adjacent blocks and the smallest difference can be selected. Next, according to the present invention, the base motion vector for the corresponding block in the picture is incorporated into this search for the most suitable predictor for the motion vector difference. If the base motion vector meets the criterion of providing the smallest residual value as a predictor, it is signaled by
しかしながら、より簡単なコーダ実施においては、インタラクティブな検索の代わりに、単に常に適応的に決定されたブロックに対して、それぞれのベース動きベクトルおよびそのアップサンプルされたそれぞれのバージョンを予測子として用いることができる。 However, in a simpler coder implementation, instead of interactive search, simply use each base motion vector and its upsampled version as a predictor for always adaptively determined blocks. Can do.
本発明によれば、残余データの中間レイヤ予測も実行される。これについては、以下に説明する。動き情報が1つのレイヤから次のレイヤへと変更される場合、残余情報を予測することが有利なことも不利になることもあり、MCTF分解の場合、ベースレイヤからの拡張レイヤのハイパス情報のそれぞれの予測がそうである。現在のレイヤのブロックに対する動きベクトルが、対応するベースレイヤの動きベクトルに類似し、さらに、マクロブロック毎に、対応するベースレイヤの対応する動きベクトルに類似している場合、符号化されたベースレイヤ残余信号(ハイパス信号)が拡張残余信号(拡張ハイパス信号)の予測に用いられ、これにより、拡張残余信号とベースレイヤ再構成(図1aのライン1024)との差分だけが符号化されれば、コーダ効率が上がる可能性が高い。しかしながら、動きベクトルが類似していない場合、残余信号の予測が、コーダ効率を向上させる可能性は非常に低いものとなる。その結果、残余信号およびハイパス信号それぞれの予測には、適応アプローチが用いられる。この適応アプローチ、すなわち中間レイヤ予測器がアクティブか否かによる適応アプローチについては、差分信号に基づく利点の実際の計算により実行することができ、または、マクロブロックに対するベーススケーリングレイヤの動きベクトルが、拡張スケーリングレイヤ中の対応するマクロブロックに対して、どのくらい違っているかの推定に基づいて実行することができる。この差異が特定の閾値より小さい場合、中間レイヤ予測器が制御ライン130を介してアクティブにされる。しかしながら、この差異が特定の閾値より大きい場合、このマクロブロックに対する中間レイヤ予測器は非アクティブにされる。
According to the present invention, intermediate layer prediction of residual data is also performed. This will be described below. When motion information is changed from one layer to the next, it may be advantageous or disadvantageous to predict the residual information. In the case of MCTF decomposition, the high-pass information of the enhancement layer from the base layer Each prediction is so. If the motion vector for a block of the current layer is similar to the motion vector of the corresponding base layer, and for each macroblock, the motion vector of the corresponding base layer is similar, the encoded base layer If the residual signal (high pass signal) is used for prediction of the extended residual signal (extended high pass signal), and only the difference between the extended residual signal and the base layer reconstruction (
フラグResPrdFlag1108が送信される。このフラグ1108=1の場合、ベースレイヤの再構成された残余信号が、拡張レイヤの現在のマクロブロックの残余信号の予測のために使用され、拡張レイヤの現在の残余信号とそのベースレイヤの再構成との間の差分の近似値だけが符号化される。そうでない場合には、フラグ1108は存在しないかまたはゼロに等しい。ここで、拡張レイヤ中の現在のマクロブロックの残余信号は、ベースレイヤからの予測なしに符号化される。
A
ベースレイヤが、拡張レイヤの半分の空間解像度を有するレイヤを表す場合、残存信号は、補間フィルタを用いてアップサンプルされ、その後、ベースレイヤのアップサンプルされた残余信号が予測信号として用いられる。このフィルタは、6タップを有する補間フィルタであって、より低い解像度によるベースレイヤ中には存在しなかった拡張レイヤのより高い空間解像度の値を補間するために、周囲からの値ができるだけ良好な補間データを得るために用いられる。 If the base layer represents a layer having a spatial resolution half that of the enhancement layer, the residual signal is upsampled using an interpolation filter, and then the base layer upsampled residual signal is used as the prediction signal. This filter is an interpolation filter with 6 taps, with values from the surroundings being as good as possible in order to interpolate higher spatial resolution values of the enhancement layer that were not present in the lower resolution base layer Used to obtain interpolation data.
しかしながら、変換ブロックのエッジの値が補間され、さらに補間フィルタが補間のための別の変換ブロックの値しか使用できないときは、これをやめるが、考慮されたブロックの外側で補間フィルタの値を合成して、できるだけアーチファクトの発生が少ない補間が起こるようにすることが望ましい。 However, if the value of the edge of the transform block is interpolated and the interpolation filter can only use the value of another transform block for interpolation, stop this, but synthesize the value of the interpolation filter outside the considered block Thus, it is desirable to perform interpolation with as few artifacts as possible.
いわゆるコア実験に基づいて、動きおよび残余値の中間レイヤ予測によって、AVCベースのMCTFアプローチにおいてコーダ効率が大幅に改善されることが判明した。特定のテストポイントに対して、1dBより高いPSNRゲインが得られた。特に、あらゆる空間解像度に対して(ベースレイヤを例外として)非常に低いビットレートでは、再構成品質の改善が明確に確認できた。 Based on so-called core experiments, it has been found that middle layer prediction of motion and residual values significantly improves coder efficiency in the AVC-based MCTF approach. A PSNR gain higher than 1 dB was obtained for a particular test point. In particular, at very low bit rates (with the exception of the base layer) for all spatial resolutions, the improvement in reconstruction quality was clearly confirmed.
状況によっては、本発明の方法は、ハードウエアまたはソフトウエアで実施しうる。この実施は、その方法が実行されるように、プログラム可能なコンピュータシステムと協働する、電子的に読み取り可能な制御信号を有する、デジタル記憶媒体、特に、ディスクまたはCD上で実行することができる。そのため、本発明は、一般に、コンピュータプログラム製品がコンピュータ上で実行されるときに、機械で読み取り可能なキャリアに格納された本発明の方法を実行するためのプログラムコードを有するコンピュータプログラム製品にも存在する。言い換えると、本発明は、コンピュータプログラムがコンピュータ上で実行されるときに、この方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現することができる。 In some situations, the method of the present invention may be implemented in hardware or software. This implementation can be carried out on a digital storage medium, in particular a disc or CD, having electronically readable control signals that cooperate with a programmable computer system so that the method is carried out. . As such, the present invention generally also resides in a computer program product having program code for performing the method of the present invention stored on a machine-readable carrier when the computer program product is executed on a computer. To do. In other words, the present invention can be realized as a computer program having a program code for executing this method when the computer program is executed on a computer.
さらに、本発明は、関連制御文字とともに第1スケーリングレイヤおよび第2スケーリングレイヤを有するスケーラブルデータストリームが各種のデコーダ側の手段のために格納されたコンピュータ読み取り可能な媒体に関する。このように、コンピュータ読み取り可能な媒体を、データストリームがプロバイダから受信者に送信されるデータキャリアまたはインターネットとすることもできる。 Furthermore, the invention relates to a computer readable medium on which a scalable data stream having a first scaling layer and a second scaling layer with associated control characters is stored for various decoder-side means. Thus, the computer readable medium may be a data carrier or the Internet where a data stream is transmitted from a provider to a recipient.
Claims (28)
現在のピクチャ中のマクロブロックがピクチャの群中の別のピクチャに関してどのように動いたかを示すベース動きデータを計算するためのベース動き補償器(1006)と、
前記ベース動きデータを用いて残差ピクチャのベースシーケンスを計算するためのベース動き予測器(1012)と、
残差ピクチャの前記ベースシーケンスから前記符号化されたベーススケーリングレイヤ(1002)を計算するように形成されているベースピクチャコーダ(1010)と、
拡張動きデータを決定するための拡張動き補償器(1014)と、
残差ピクチャの拡張シーケンスを計算するための拡張動き予測器(1016)と、
残差ピクチャの前記拡張シーケンスを用いさらに残差ピクチャの前記ベースシーケンスについての情報(1026)を用いて拡張予測残差ピクチャを計算するための中間レイヤ予測器(1018)と、
前記符号化された拡張スケーリングレイヤ(1004)を得るために前記拡張予測残差ピクチャを符号化するための拡張ピクチャコーダ(1028)とを備える、装置。 An apparatus for generating an encoded video sequence having a base scaling layer (1002) and an enhanced scaling layer (1004), the apparatus comprising:
A base motion compensator (1006) for calculating base motion data indicating how a macroblock in the current picture has moved with respect to another picture in the group of pictures;
A base motion estimator (1012) for calculating a base sequence of residual pictures using the base motion data;
A base picture coder (1010) configured to calculate the encoded base scaling layer (1002) from the base sequence of residual pictures;
An extended motion compensator (1014) for determining extended motion data;
An extended motion estimator (1016) for calculating an extended sequence of residual pictures;
An intermediate layer predictor (1018) for calculating an extended prediction residual picture using the extended sequence of residual pictures and further using information about the base sequence of residual pictures (1026);
An apparatus comprising: an extended picture coder (1028) for encoding the extended prediction residual picture to obtain the encoded extended scaling layer (1004).
前記拡張ピクチャコーダ(1028)は、拡張量子化パラメータ(1036)を用いて量子化を実行するように形成され、前記拡張量子化パラメータ(1036)は、前記ベース量子化パラメータ(1034)よりも細かな量子化を実行することができ、
前記ベースピクチャコーダ(1010)は、再構成されたベースシーケンスを得るために第1量子化パラメータを用いて量子化された残差ピクチャの前記ベースシーケンスを再構成するように形成され、さらに
前記中間レイヤ予測器(1026)は、残差ピクチャの前記拡張シーケンスを用い、さらに残差ピクチャの前記再構成されたベースシーケンスを残差ピクチャの前記ベースシーケンスについての情報として用いて、前記拡張予測残差ピクチャを計算するように形成されている、請求項1に記載の装置。 The base picture coder (1010) is configured to perform quantization using a base quantization parameter (1034);
The extended picture coder (1028) is configured to perform quantization using an extended quantization parameter (1036), and the extended quantization parameter (1036) is finer than the base quantization parameter (1034). Can perform efficient quantization,
The base picture coder (1010) is configured to reconstruct the base sequence of residual pictures quantized using a first quantization parameter to obtain a reconstructed base sequence; A layer predictor (1026) uses the extended sequence of residual pictures, and further uses the reconstructed base sequence of residual pictures as information about the base sequence of residual pictures, The apparatus of claim 1, configured to calculate a picture.
残差ピクチャの補間されたベースシーケンスを得るために残差ピクチャの前記ベースシーケンスまたは残差ピクチャの再構成されたベースシーケンスを空間的に補間するための補間器(1022)であって、残差ピクチャの補間されたベースシーケンスを残差ピクチャの前記ベースシーケンスについての情報(1026)として前記中間レイヤ予測器(1018)に供給することができる補間器とをさらに備える、請求項1または請求項2に記載の装置。 A decimator (1032) for thinning out the resolution of the group of pictures, the decimator (1032) having a base resolution lower than the extended resolution of the group of pictures provided to the extended motion compensator (1014) A decimator configured to provide the base compensator (1006) with a group of pictures having
An interpolator (1022) for spatially interpolating said base sequence of residual pictures or a reconstructed base sequence of residual pictures to obtain an interpolated base sequence of residual pictures, comprising: 3. An interpolator capable of supplying an interpolated base sequence of pictures as information (1026) about the base sequence of residual pictures to the intermediate layer predictor (1018). The device described in 1.
現在のピクチャ中のマクロブロックがピクチャの群中の別のピクチャに関してどのように動いたかを示すベース動きデータを計算するステップ(1006)と、
前記ベース動きデータを用いて残差ピクチャのベースシーケンスを計算するステップ(1012)と、
残差ピクチャの前記ベースシーケンスから前記符号化されたベーススケーリングレイヤ(1002)を計算するために残差ピクチャの前記ベースシーケンスについての情報を符号化するステップ(1010)と、
拡張動きデータを決定するステップ(1014)と、
残差ピクチャの拡張シーケンスを計算するステップ(1016)と、
残差ピクチャの前記拡張シーケンスを用いさらに残差ピクチャの前記ベースシーケンスについての情報(1026)を用いて拡張予測残差ピクチャを計算するステップ(1018)と、
前記符号化された拡張スケーリングレイヤ(1004)を得るために前記拡張予測残差ピクチャを符号化するステップ(1028)とを備える、方法。 A method for generating an encoded video sequence having a base scaling layer (1002) and an enhanced scaling layer (1004), the method comprising:
Calculating (1006) base motion data indicating how a macroblock in the current picture has moved with respect to another picture in the group of pictures;
Calculating a base sequence of residual pictures using the base motion data (1012);
Encoding (1010) information about the base sequence of residual pictures to calculate the encoded base scaling layer (1002) from the base sequence of residual pictures;
Determining extended motion data (1014);
Calculating an extended sequence of residual pictures (1016);
Calculating (1018) an extended prediction residual picture using the extended sequence of residual pictures and further using information about the base sequence of residual pictures (1026);
Encoding (1028) the enhanced prediction residual picture to obtain the encoded enhanced scaling layer (1004).
残差ピクチャの復号化されたベースシーケンスおよびベース動きデータを得るために前記ベーススケーリングレイヤを復号化するためのベースピクチャデコーダ(1060)と、
前記ベース動きデータおよび残差ピクチャの前記復号化されたシーケンスを用いて前記ベーススケーリングレイヤのピクチャのシーケンスを得るためのベース動き結合器(1064)と、
拡張予測残差ピクチャを得るために前記拡張スケーリングレイヤを復号化するための拡張ピクチャデコーダ(1066)と、
残差ピクチャの拡張シーケンスを得るために、残差ピクチャの前記復号化されたベースシーケンスまたは残差ピクチャの補間されたベースシーケンスと前記拡張予測残差ピクチャとを結合するための中間レイヤ結合器(1074)と、
残差ピクチャの前記拡張シーケンスおよび拡張動きデータを用いて前記拡張スケーリングレイヤのピクチャのシーケンスを得るように形成されている拡張動き結合器(1076)とを備える、装置。 An apparatus for decoding an encoded video sequence having a base scaling layer (1002) and an enhanced scaling layer (1004), the apparatus comprising:
A base picture decoder (1060) for decoding the base scaling layer to obtain a decoded base sequence and base motion data of a residual picture;
A base motion combiner (1064) for obtaining the base scaling layer sequence of pictures using the base motion data and the decoded sequence of residual pictures;
An enhanced picture decoder (1066) for decoding the enhanced scaling layer to obtain an enhanced prediction residual picture;
An intermediate layer combiner for combining the decoded base sequence of residual pictures or the interpolated base sequence of residual pictures and the extended prediction residual picture to obtain an extended sequence of residual pictures 1074)
An extended motion combiner (1076) configured to obtain a sequence of pictures of the extended scaling layer using the extended sequence and extended motion data of residual pictures.
前記中間レイヤ結合器(1074)は、残差ピクチャの前記復号化されたベースシーケンスまたは残差ピクチャの補間されたバージョンを用いるように形成されている、請求項16に記載の装置。 The base picture decoder (1060) is configured to perform inverse quantization using a base quantization parameter that is larger than an extended quantization parameter, and the intermediate layer combiner (1074) is configured to decode the residual picture. 17. The apparatus of claim 16, wherein the apparatus is configured to use an interpolated version of the base sequence or residual picture.
残差ピクチャの前記復号化されたベースシーケンスを高い解像度に補間するための残余値補間器(1070)をさらに有する、請求項16または請求項17に記載の装置。 The pictures of the base scaling layer (1002) may have a lower resolution than the pictures of the enhanced scaling layer (1004), and a residual for interpolating the decoded base sequence of residual pictures to a higher resolution The apparatus according to claim 16 or 17, further comprising a value interpolator (1070).
前記拡張動きデータまたは前記拡張動きデータの予測を得るために前記ベース動きデータを前記拡張解像度に変換するための動きデータアップサンプラ(1086)をさらに有する、請求項16ないし請求項18のいずれかに記載の装置。 The base scaling layer picture has a lower resolution than the enhanced scaling layer picture, and further converts the base motion data to the enhanced resolution to obtain the enhanced motion data or a prediction of the enhanced motion data. 19. Apparatus according to any of claims 16 to 18, further comprising a motion data upsampler (1086).
前記拡張動きデータを決定するために前記残余動きデータと前記拡張動きデータの前記予測とを結合するための動きデータ決定器(1078)を有する、請求項19に記載の装置。 The encoded video sequence has residual motion data, and a motion data determiner (1078) for combining the residual motion data and the prediction of the extended motion data to determine the extended motion data 20. The device according to claim 19, comprising:
前記装置は、前記中間レイヤ予測制御信号(1030)が考慮されたマクロブロックに対する中間レイヤ予測を示す場合にだけ、前記中間レイヤ結合器(1074)をアクティブにするようにさらに形成されている、請求項16ないし請求項24のいずれかに記載の装置。 The encoded video sequence for a macroblock has an intermediate layer prediction control signal (1030) in the enhanced scaling layer that indicates whether the macroblock was generated with or without intermediate layer prediction; The apparatus is further configured to activate the intermediate layer combiner (1074) only when the intermediate layer prediction control signal (1030) indicates intermediate layer prediction for a considered macroblock. 25. The apparatus according to any one of items 16 to 24.
残差ピクチャの復号化されたベースシーケンスおよびベース動きデータを得るために前記ベーススケーリングレイヤを復号化するステップ(1060)と、
前記ベース動きデータおよび残差ピクチャの前記復号化されたシーケンスを用いて前記ベーススケーリングレイヤのピクチャのシーケンスを得るためにベース動き結合(1064)を実行するステップと、
拡張予測残差ピクチャを得るために前記拡張スケーリングレイヤを復号化するステップ(1066)と、
残差ピクチャの拡張シーケンスを得るために、残差ピクチャの前記復号化されたベースシーケンスまたは残差ピクチャの補間されたベースシーケンスと前記拡張予測残差ピクチャとを結合するステップ(1074)と、
残差ピクチャの前記拡張シーケンスおよび拡張動きデータを用いて前記拡張スケーリングレイヤのピクチャのシーケンスを得るために拡張動き結合(1076)を実行するステップとを備える、方法。 A method for decoding an encoded video sequence having a base scaling layer (1002) and an enhanced scaling layer (1004), the method comprising:
Decoding (1060) the base scaling layer to obtain a decoded base sequence and base motion data of a residual picture;
Performing base motion combining (1064) to obtain a sequence of pictures of the base scaling layer using the base motion data and the decoded sequence of residual pictures;
Decoding (1066) the enhanced scaling layer to obtain an enhanced prediction residual picture;
Combining the decoded base sequence of residual pictures or the interpolated base sequence of residual pictures with the extended prediction residual picture to obtain an extended sequence of residual pictures; (1074);
Performing extended motion combining (1076) to obtain a sequence of pictures of the enhanced scaling layer using the extended sequence and extended motion data of residual pictures.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US61945704P | 2004-10-15 | 2004-10-15 | |
US60/619,457 | 2004-10-15 | ||
DE102004059978A DE102004059978B4 (en) | 2004-10-15 | 2004-12-13 | Apparatus and method for generating a coded video sequence and decoding a coded video sequence using interlayer residue prediction, and a computer program and computer readable medium |
DE102004059978.5 | 2004-12-13 | ||
PCT/EP2005/010227 WO2006042612A1 (en) | 2004-10-15 | 2005-09-21 | Device and method for generating a coded video sequence and for decoding a coded video sequence while using an inter-layer residual value prediction |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011000843A Division JP5470280B2 (en) | 2004-10-15 | 2011-01-05 | Apparatus and method for generating an encoded video sequence using intermediate layer residual value prediction and decoding the encoded video sequence |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008517499A true JP2008517499A (en) | 2008-05-22 |
JP5122288B2 JP5122288B2 (en) | 2013-01-16 |
Family
ID=35431439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007536022A Active JP5122288B2 (en) | 2004-10-15 | 2005-09-21 | Apparatus and method for generating an encoded video sequence using intermediate layer residual value prediction and decoding the encoded video sequence |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1800488A1 (en) |
JP (1) | JP5122288B2 (en) |
WO (1) | WO2006042612A1 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013042359A1 (en) * | 2011-09-22 | 2013-03-28 | パナソニック株式会社 | Moving-image encoding method, moving-image encoding device, moving image decoding method, and moving image decoding device |
JP2013516870A (en) * | 2010-01-11 | 2013-05-13 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | Video quality estimation technology |
WO2014013880A1 (en) * | 2012-07-18 | 2014-01-23 | ソニー株式会社 | Image processing device and method |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060153295A1 (en) * | 2005-01-12 | 2006-07-13 | Nokia Corporation | Method and system for inter-layer prediction mode coding in scalable video coding |
WO2006129184A1 (en) * | 2005-06-03 | 2006-12-07 | Nokia Corporation | Residual prediction mode in scalable video coding |
DE102007022955A1 (en) * | 2007-05-16 | 2008-11-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Quality Scalable Video Signal, Method of Producing It, Encoder and Decoder |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0670340A (en) * | 1992-03-17 | 1994-03-11 | Koninkl Ptt Nederland Nv | Apparatus provided with at least one encoder for coding of digital signal and with at least one decoder for decoding of coded digital signal as well as encoder and decoder for above apparatus |
JPH10136372A (en) * | 1996-09-09 | 1998-05-22 | Sony Corp | Image encoder, image encoding method, image decoder image decoding method, image processor, image processing method, recording medium and recording method |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6023301A (en) * | 1995-07-14 | 2000-02-08 | Sharp Kabushiki Kaisha | Video coding device and video decoding device |
US6233356B1 (en) * | 1997-07-08 | 2001-05-15 | At&T Corp. | Generalized scalability for video coder based on video objects |
DE10121259C2 (en) * | 2001-01-08 | 2003-07-24 | Siemens Ag | Optimal SNR scalable video coding |
-
2005
- 2005-09-21 EP EP05784915A patent/EP1800488A1/en not_active Withdrawn
- 2005-09-21 WO PCT/EP2005/010227 patent/WO2006042612A1/en active Application Filing
- 2005-09-21 JP JP2007536022A patent/JP5122288B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0670340A (en) * | 1992-03-17 | 1994-03-11 | Koninkl Ptt Nederland Nv | Apparatus provided with at least one encoder for coding of digital signal and with at least one decoder for decoding of coded digital signal as well as encoder and decoder for above apparatus |
JPH10136372A (en) * | 1996-09-09 | 1998-05-22 | Sony Corp | Image encoder, image encoding method, image decoder image decoding method, image processor, image processing method, recording medium and recording method |
Non-Patent Citations (4)
Title |
---|
FENG WU ET AL.: "A Framework for Efficient Progressive Fine Granularity Scalable Video Coding", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 11, no. 3, JPN6011058638, March 2001 (2001-03-01), pages 332 - 344, XP055084208, ISSN: 0002063381, DOI: 10.1109/76.911159 * |
HEIKO SCHWARZ ET AL.: "Subband Extension of H.264/AVC", JOINT VIDEO TEAM (JVT) OF ISO/IEC MPEG & ITU-T VCEG (ISO/IEC JTC1/SC29/WG11 AND ITU-T SG16 Q.6) 11TH, JPN6012050993, March 2004 (2004-03-01), ISSN: 0002345370 * |
SCHWARZ H, ISO/IEC JTC 1/SC 29/WG 11043, vol. N.M11043, JPN5007017569, 23 July 2004 (2004-07-23), pages 1 - 6, ISSN: 0001661659 * |
社団法人映像情報メディア学会編, 総合マルチメディア選書 MPEG, vol. 第1版, 第4刷, JPN6011058639, 20 July 1998 (1998-07-20), pages 117 - 124, ISSN: 0002063382 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013516870A (en) * | 2010-01-11 | 2013-05-13 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | Video quality estimation technology |
US10728538B2 (en) | 2010-01-11 | 2020-07-28 | Telefonaktiebolaget L M Ericsson(Publ) | Technique for video quality estimation |
WO2013042359A1 (en) * | 2011-09-22 | 2013-03-28 | パナソニック株式会社 | Moving-image encoding method, moving-image encoding device, moving image decoding method, and moving image decoding device |
US10764604B2 (en) | 2011-09-22 | 2020-09-01 | Sun Patent Trust | Moving picture encoding method, moving picture encoding apparatus, moving picture decoding method, and moving picture decoding apparatus |
WO2014013880A1 (en) * | 2012-07-18 | 2014-01-23 | ソニー株式会社 | Image processing device and method |
Also Published As
Publication number | Publication date |
---|---|
JP5122288B2 (en) | 2013-01-16 |
EP1800488A1 (en) | 2007-06-27 |
WO2006042612A1 (en) | 2006-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5470280B2 (en) | Apparatus and method for generating an encoded video sequence using intermediate layer residual value prediction and decoding the encoded video sequence | |
EP2008469B1 (en) | Multilayer-based video encoding method and apparatus thereof | |
JP4891234B2 (en) | Scalable video coding using grid motion estimation / compensation | |
JP5270166B2 (en) | Multi-layer video encoding method, decoding method and apparatus using the method | |
KR100888963B1 (en) | Method for scalably encoding and decoding video signal | |
KR100636229B1 (en) | Method and apparatus for adaptive entropy encoding and decoding for scalable video coding | |
US20060104354A1 (en) | Multi-layered intra-prediction method and video coding method and apparatus using the same | |
JP4844741B2 (en) | Moving picture coding apparatus and moving picture decoding apparatus, method and program thereof | |
EP2008463A2 (en) | Method and apparatus for encoding/decoding fgs layers using weighting factor | |
KR20130107861A (en) | Method and apparatus for inter layer intra prediction | |
JP5122288B2 (en) | Apparatus and method for generating an encoded video sequence using intermediate layer residual value prediction and decoding the encoded video sequence | |
KR20140122189A (en) | Method and Apparatus for Image Encoding and Decoding Using Inter-Layer Combined Intra Prediction | |
JP2008517498A (en) | Apparatus and method for generating an encoded video sequence using intermediate layer motion data prediction | |
KR100834757B1 (en) | Method for enhancing entropy coding efficiency, video encoder and video decoder thereof | |
JP4844455B2 (en) | Video signal hierarchical decoding device, video signal hierarchical decoding method, and video signal hierarchical decoding program | |
JP4844456B2 (en) | Video signal hierarchical encoding apparatus, video signal hierarchical encoding method, and video signal hierarchical encoding program | |
WO2006059848A1 (en) | Method and apparatus for multi-layered video encoding and decoding | |
US20150010083A1 (en) | Video decoding method and apparatus using the same | |
JP2003116140A (en) | Moving picture reversible coding method and its decoding method, and apparatus for the same | |
WO2005022917A1 (en) | Apparatus and method for coding a group of successive pictures, and apparatus and method for decoding a coded picture signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100928 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101005 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101122 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111108 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120131 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121002 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121024 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151102 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5122288 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |