JP2014207713A - Moving picture decoding method - Google Patents
Moving picture decoding method Download PDFInfo
- Publication number
- JP2014207713A JP2014207713A JP2014158494A JP2014158494A JP2014207713A JP 2014207713 A JP2014207713 A JP 2014207713A JP 2014158494 A JP2014158494 A JP 2014158494A JP 2014158494 A JP2014158494 A JP 2014158494A JP 2014207713 A JP2014207713 A JP 2014207713A
- Authority
- JP
- Japan
- Prior art keywords
- prediction
- block
- dct
- image
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 117
- 238000013139 quantization Methods 0.000 claims abstract description 40
- 238000006243 chemical reaction Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims description 48
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000009466 transformation Effects 0.000 description 17
- 239000013598 vector Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本発明は動画像を復号化する動画像復号化技術に関する。 The present invention relates to a moving picture decoding technique for decoding a moving picture.
大容量の動画像情報をデジタルデータ化して記録、伝達する手法として、MPEG(Moving Picture Experts Group)方式及びその他の符号化方式が策定されている。これらの規格は、符号化処理が完了した画像情報を利用して符号化対象画像をブロック単位で予測し、原画像との差分(予測差分)を符号化することによって、動画像の持つ冗長性を除いて符号量を減らしている。 An MPEG (Moving Picture Experts Group) system and other encoding systems have been developed as techniques for recording and transmitting large-volume moving image information as digital data. These standards predict the encoding target image in units of blocks using image information that has been encoded, and encode the difference (prediction difference) from the original image, thereby providing redundancy of the moving image. The code amount is reduced except for.
特に、対象画像とは別の画像を参照する画面間予測は、符号化対象ブロックと相関の高いブロックを参照画像中から探索することによって、高精度な予測を可能としている。また、予測差分の符号化は、数値の集積度を高めるために一度周波数変換、例えば離散コサイン変換(DCT:Discrete Cosine Transform)、を施し、変換後の係数値を量子化する。予測差分もまた局所領域に強い相関性を有するため、上記周波数変換も画像を細かく分割したブロック単位で施される。 In particular, inter-screen prediction that refers to an image different from the target image enables high-precision prediction by searching for a block having a high correlation with the encoding target block from the reference image. In addition, the prediction difference is encoded by performing frequency conversion, for example, discrete cosine transform (DCT) once in order to increase the degree of numerical integration, and quantizing the converted coefficient values. Since the prediction difference also has a strong correlation with the local region, the frequency conversion is also performed in units of blocks obtained by finely dividing the image.
しかし、これらの方式は固定サイズのブロック(マクロブロック)を符号化処理の基本単位として設定しているため、マクロブロックを超えるサイズのブロックや、複数のマクロブロックにまたがるブロックを設定することができず、これが圧縮効率向上の妨げとなっていた。 However, because these methods set a fixed-size block (macroblock) as the basic unit of encoding processing, it is possible to set a block that exceeds the macroblock or a block that spans multiple macroblocks. This has hindered improvement in compression efficiency.
これに対し、例えば、特許文献1では、その段落0003から段落0005に記載されるように、「高精細動画像などの同一動き量とみなされる領域が大きい映像素材」について「符号化効率の改善を図る」ために、「動き予測を行って動画像を符号化する動画像符号化装置において、符号化する当該ピクチャのマクロブロックサイズの上限を、当該ピクチャの直前のピクチャ又は/及び当該ピクチャのマクロブロックの特徴量を基に最適に決定する手段を具備し、動き予測を行う際のマクロブロックサイズの上限をピクチャまたはマクロブロック単位にて任意に選択可能」とする技術が開示されている。 On the other hand, for example, in Patent Document 1, as described in paragraphs 0003 to 0005, “enhancement of encoding efficiency” for “video material having a large area that is regarded as the same motion amount, such as a high-definition moving image”. To achieve this, “in the moving picture coding apparatus that performs motion prediction and codes a moving picture, the upper limit of the macroblock size of the picture to be coded is set to the picture immediately before the picture and / or the picture. A technique is disclosed that includes means for determining optimally based on the feature amount of a macroblock, and the upper limit of the macroblock size when performing motion prediction can be arbitrarily selected in units of pictures or macroblocks.
特許文献1に開示の技術は、予測を行う際のブロックを拡大するため、予測精度が低下するといった課題があった。予測精度が低下すると人の目につく雑音が発生する原因となり、主観画質が低下する。 The technique disclosed in Patent Document 1 has a problem in that prediction accuracy is reduced because a block for performing prediction is enlarged. When the prediction accuracy is lowered, noise that is noticeable to human eyes is generated, and subjective image quality is lowered.
本発明は上記課題を鑑みてなされたものであり、その目的は、符号量削減と主観画質向上を図ることにある。 The present invention has been made in view of the above problems, and an object thereof is to reduce the amount of code and improve the subjective image quality.
本発明の一態様の動画像復号化方法は、以下の処理を行う。符号化ストリームを入力する。前記入力した符号化ストリームに可変長復号化処理を行う。前記可変長復号化処理を行ったデータについて第1のブロック単位で逆量子化処理及び逆周波数変換処理を行って予測差分を生成する。第2のブロック単位で予測処理を行う。前記生成した予測差分と前記予測処理の結果に基づいて復号画像を生成する。前記第1のブロック単位は、前記第2のブロック単位よりも大きいブロック単位である。 The moving image decoding method according to an aspect of the present invention performs the following processing. Input an encoded stream. A variable length decoding process is performed on the input encoded stream. A prediction difference is generated by performing an inverse quantization process and an inverse frequency transform process on the data subjected to the variable length decoding process on a first block basis. Prediction processing is performed in units of second blocks. A decoded image is generated based on the generated prediction difference and the result of the prediction process. The first block unit is a larger block unit than the second block unit.
本発明によれば、より好適に符号量削減と主観画質向上が可能となる。 According to the present invention, it is possible to more suitably reduce the code amount and improve the subjective image quality.
実施形態1.
以下本発明の実施形態1について、H.264/AVCでの処理と比較して説明する。まず、H.264/AVCは、符号化処理が完了した画像情報を利用して符号化対象画像を予測し、原画像との予測差分を符号化することによって、動画像の持つ冗長性を減らして符号量を削減している。ここでは、動画像の局所的性質を利用するために、画像を細かく分割したブロック単位で予測が行われる。
Embodiment 1. FIG.
Hereinafter, the first embodiment of the present invention will be described in H.264. This will be described in comparison with the processing in H.264 / AVC. First, H. H.264 / AVC predicts an encoding target image using image information that has been encoded, and encodes a prediction difference from the original image, thereby reducing the redundancy of the moving image and increasing the code amount. Reduced. Here, in order to use the local property of a moving image, prediction is performed in units of blocks obtained by finely dividing an image.
図3に示すとおり、符号化処理は対象画像305に対してラスタースキャンの順序(矢印)301に従い、16×16画素で構成されるマクロブロック302単位で実行される。図3において、対象画像305は既符号化領域306と未符号化領域307とで構成されている。予測には大別して画面内予測と画面間予測がある。
As shown in FIG. 3, the encoding process is performed on the
図4はH.264/AVCによる画面間予測処理の動作を概念的に示している。画面間予測を行う際には、符号化対象画像403と同じ映像401に含まれる符号化済みの画像の復号画像を参照画像402とし、対象画像中の対象ブロック404と相関の高いブロック(予測画像)405を参照画像402中から探索する。
FIG. The operation | movement of the inter prediction process by H.264 / AVC is shown notionally. When performing inter-screen prediction, a decoded image of an encoded image included in the
このとき、両ブロックの差分として計算される予測差分に加えて、予測に必要なサイド情報として、両ブロックの座標値の差分として表される動きベクトル406を符号化する。一方復号化の際には上記の逆の手順を行えばよく、復号化された予測差分を参照画像中のブロック(予測画像)405に加算することにより、復号化画像を取得できる。
At this time, in addition to the prediction difference calculated as the difference between both blocks, the
また、H.264/AVCは、マクロブロックをさらに小さなサイズのブロックに分割して上記予測を行うことができる。図5は、画面間予測を行う際に許容されているマクロブロックの分割パターンについて示している。すなわち、H.264/AVCは、対象画像501中の各マクロブロック502の予測において、あらかじめ定義された4×4画素サイズから16×16画素サイズまでの分割パターン(マクロブロックの分割パターン)503の中から最適なものを選択することができる。マクロブロックごとにどの分割パターンを用いて分割をしたのかを示す情報が、マクロブロック単位で符号化される。
H. H.264 / AVC can perform the above prediction by dividing a macroblock into smaller blocks. FIG. 5 shows a macroblock division pattern allowed when inter-screen prediction is performed. That is, H.I. H.264 / AVC is optimal for predicting each
一方、上記予測処理により生成された予測差分は、周波数変換手法の一つであるDCT(Discrete Cosine Transformation:離散コサイン変換)により周波数成分に分解され、その係数値が符号化される。図6は予測差分がDCTにより周波数成分に分解される様子を概念的に示している。DCTは、入力信号を基底信号603とその係数値の加重和によって表現する周波数変換の一手法である。予測差分601に対してDCTを適用することによりその係数値602が低周波成分に偏ることが多いため、効率的に可変長符号化を行うことができる。
On the other hand, the prediction difference generated by the prediction process is decomposed into frequency components by DCT (Discrete Cosine Transformation) which is one of frequency conversion methods, and the coefficient value is encoded. FIG. 6 conceptually shows how the prediction difference is decomposed into frequency components by DCT. DCT is a method of frequency conversion in which an input signal is expressed by a weighted sum of a
なお、H.264/AVCでは、予測差分に対してもマクロブロックをさらに小さなサイズのブロックに分割してDCTを適用することができるが、DCTを行う際のブロックサイズは固定されており、例えばH.264/AVCのBaselineプロファイルでは、図7に示すように、そのサイズを4×4画素とすることが規定されている。図7において、予測差分701のマクロブロック702は、4×4の小さいブロック(画素)に分割されている(図7における703)。
H. In H.264 / AVC, DCT can be applied to a prediction difference by dividing a macroblock into smaller blocks, but the block size when performing DCT is fixed. In the Baseline profile of H.264 / AVC, as shown in FIG. 7, it is specified that the size is 4 × 4 pixels. In FIG. 7, the
以上のように、H.264/AVCは、適応的に画像を細かなブロックに分割して符号化することにより、高い性能を実現している。しかし、H.264/AVCはマクロブロックを符号化処理の基本単位としているため、マクロブロックよりも大きなサイズのブロックや、複数のマクロブロックを跨ぐようなブロックを扱うことができなかった。こういったブロック形状に関する制限が、圧縮効率の向上を妨げている要因の一つであった。 As described above, H.P. H.264 / AVC achieves high performance by adaptively dividing and encoding an image into fine blocks. However, H. Since H.264 / AVC uses macroblocks as a basic unit of encoding processing, it has not been possible to handle blocks larger in size than macroblocks or blocks that straddle a plurality of macroblocks. This restriction on the block shape was one of the factors that hindered the improvement of compression efficiency.
一般的に、小さなサイズのブロックを用いるときめ細かな処理が可能になるため、予測やDCTの精度が向上して画質が高くなる。しかし一方で、小さなブロックを用いると符号量が増大するといった問題がある。これは、画像内のブロック数が増加することに起因する。例えば画面間予測を行う場合には、予測処理に必要な動きベクトルをブロックごとに符号化する必要があるため、ブロック数が増加するとそれに伴って動きベクトル数も増加し、符号量が増大する。 Generally, fine processing is possible when using a small-sized block, so that the accuracy of prediction and DCT is improved and the image quality is improved. On the other hand, however, there is a problem that the code amount increases when a small block is used. This is due to the increase in the number of blocks in the image. For example, when performing inter-screen prediction, it is necessary to encode a motion vector necessary for prediction processing for each block. Therefore, when the number of blocks increases, the number of motion vectors increases accordingly, and the code amount increases.
また、DCTを行う場合には、ブロック数が増加するとそれに伴ってDCT係数のうちで有意となる低周波成分の数が増えるため、VLC(Variable Length Coding)の効率が落ちてしまい符号量が増大する。そのため、適切なブロックサイズの判定は、こういった画質と符号量のトレードオフを考慮する必要がある。 In addition, when DCT is performed, the number of significant low-frequency components in the DCT coefficients increases with an increase in the number of blocks, so that the efficiency of VLC (Variable Length Coding) decreases and the code amount increases. To do. Therefore, it is necessary to consider such a trade-off between image quality and code amount when determining an appropriate block size.
一方、近年ではデジタルシネマやスーパHDなどハイビジョンを越える高精細映像に対する需要が高まっており、これら高精細映像を効率的に符号化する方式の登場が望まれている。一般的に、解像度の高い高精細映像は画面内の相関性が高いため、大きなサイズのブロックを用いても画質の劣化が少ないことが知られている。 On the other hand, in recent years, demand for high-definition video exceeding high-definition such as digital cinema and super HD is increasing, and the appearance of a method for efficiently encoding such high-definition video is desired. In general, high-definition video with high resolution has high correlation in the screen, and it is known that there is little deterioration in image quality even when a large size block is used.
そのため、符号化のターゲットを高解像度映像に絞れば、符号化の処理単位となるブロックのサイズを拡大することにより圧縮率の劇的向上を実現することができる。例えば、特許文献1の技術は、マクロブロックのサイズを変更可能にし、その上限値を既符号化領域の特徴量に応じて適応的に変更している。この方法によれば、画像の性質に応じてマクロブロックを拡大することが可能になり、特に高精細映像の圧縮効率を高めることができる。 Therefore, if the encoding target is narrowed down to high-resolution video, the compression ratio can be dramatically improved by increasing the size of the block that is the processing unit of encoding. For example, the technique of Patent Document 1 makes it possible to change the size of a macroblock and adaptively changes the upper limit value according to the feature amount of an already-encoded area. According to this method, it is possible to enlarge the macroblock according to the property of the image, and in particular, it is possible to increase the compression efficiency of high definition video.
しかし、この方法では予測を行う際のブロックを拡大するため、予測精度が低下するといった課題があった。予測精度が低下すると人の目につく雑音が発生する原因となり、主観画質が低下する。 However, this method has a problem in that the prediction accuracy is reduced because the block used for prediction is enlarged. When the prediction accuracy is lowered, noise that is noticeable to human eyes is generated, and subjective image quality is lowered.
本実施形態は上記課題を改善し、主観画質をより好適に維持したまま符号量をより低減する。具体的には、本実施形態は、画面間予測処理を小さなブロック単位、例えばマクロブロック単位、で細かく行う一方で、予測差分に対する周波数変換(本実施形態は一例としてDCTを用いる)の適用サイズを拡大可能にする。 The present embodiment improves the above problem and further reduces the code amount while maintaining the subjective image quality more suitably. Specifically, in the present embodiment, inter-screen prediction processing is performed in small blocks, for example, in units of macroblocks, while the application size of frequency conversion for the prediction difference (this embodiment uses DCT as an example). Make it expandable.
例えば図8は、予測差分801を示している。図8に示すように、対象画像が複数のオブジェクトにより構成されるような複雑なテキスチャを有する場合でも、予測精度が高ければ予測差分は低周波成分の多いなだらかな分布となり、大きなブロック単位でDCTを施しても画質劣化が少なくなる。そのため、予測精度が高い領域802に対しては隣接する複数ブロックの予測差分を統合し、大きなブロックを形成してDCTを施すことにより、DCT係数の符号量を大幅に削減することができる。
For example, FIG. 8 shows a
また、複雑な動きを伴う物体の一部など予測精度が低い領域803に対しては、予測差分の分布が複雑になり、高周波成分が多くなるため大きなブロック単位でDCTを施すと画質劣化が目立つ。そのため、こういった予測精度が低い領域に対しては、ブロックの統合は行わず、予測を行った際のブロックと同じもしくはそれよりも小さいブロック単位でDCTを施すことにより、画質を維持することができる。以上のように、複数ブロックの予測差分を統合してDCTを施すことにより、圧縮率を高め、符号量を低減することができる。
In addition, for a
以下、本実施形態の詳細について述べる。なお、本実施形態において説明する処理は画面間符号化を行うことが可能なフレーム(H.264/AVCで言えばPスライスもしくはBスライス)に適用するものとして説明する。画面内のすべての領域を画面内符号化するフレーム(H.264/AVCで言えばIスライス)に対しては、以下の実施形態において説明する処理を適用してもよく、適用しなくても良い。 Details of this embodiment will be described below. Note that the processing described in the present embodiment will be described as being applied to a frame (P slice or B slice in H.264 / AVC) that can perform inter-frame coding. The processing described in the following embodiment may or may not be applied to a frame (I slice in H.264 / AVC) in which all areas in the screen are encoded. good.
実施形態1では、画面間符号化を行うことが可能なフレーム(H.264/AVCで言えばPスライスもしくはBスライス)においてすべての領域を画面間符号化する場合、すなわち画面内にはインターマクロブロック(画面間符号化を行うマクロブロック)のみが存在し、イントラマクロブロック(画面内符号化を行うマクロブロック)は存在しない場合を例として説明する。 In the first embodiment, when all areas are inter-coded in a frame (P slice or B slice in H.264 / AVC) in which inter picture coding can be performed, that is, an inter macro is included in the picture. An example will be described in which there is only a block (macroblock that performs inter-screen coding) and no intra macroblock (macroblock that performs intra-screen coding).
図9は、本実施形態におけるDCTに用いるブロックサイズの一例を表している。ここで、予測差分901は、例えば、以下の方法で生成される。この方法は、例えばH.264/AVCと同様の手段(図5)により16×16画素サイズのマクロブロック単位でブロック分割を行い、それぞれのマクロブロックの画面間予測を行い、それらの予測差分を1画面分統合する。本実施形態は、この予測差分に対してDCTを施す際に、例えば隣接する16個のマクロブロックを統合したブロック群902(64×64画素)を形成し、ブロック群単位でブロック分割を行う。
FIG. 9 shows an example of a block size used for DCT in the present embodiment. Here, the
ただし、ブロック群902のサイズは64×64画素サイズに限らず、複数のマクロブロック903を統合したものであれば32×32や128×128など、どのようなものでもよい。好ましい一つの方法は、ブロック群902の分割パターン903として8×8画素、16×16画素、32×32画素、64×64画素など、多くの種類をあらかじめ用意しておき、それらの中から最適なパターンを選択してDCTを施す。
However, the size of the
その際、例えば図10に示すような符号表を利用し、どのパターンを選択したのかを表す情報をブロック群ごとに符号化する。ここでは、頻繁に選択されるパターンに対して短い符号長を割り当てることにより、全体の符号量を削減することができる。また、上記ブロックパターンの選択は、例えば数式1に示すコスト関数を利用し、これを最小化する分割パターンが最適であると判断すると効果的である。
ただし、数式1において、Distは原画像と復号画像の誤差和、RateはDCT係数の符号量とブロック分割パターンの符号量の和、Weightは重み係数を表す。ここで、Weightの値を調整することにより、画質と符号量のトレードオフを制御することができる。例えば画質を多少劣化させても符号量を大幅に低下させたければ、コスト値に対する符号量の寄与率が大きくなるようWeighの値を高めに設定すればよい。 In Equation 1, Dist represents the sum of errors between the original image and the decoded image, Rate represents the sum of the code amount of the DCT coefficient and the code amount of the block division pattern, and Weight represents the weight coefficient. Here, the trade-off between image quality and code amount can be controlled by adjusting the value of Weight. For example, if the code amount is to be significantly reduced even if the image quality is somewhat deteriorated, the value of Weigh may be set higher so that the contribution rate of the code amount to the cost value increases.
図11は、各ブロックに対する予測差分の符号化手順を示す。この符号化は、まず対象ブロックの予測差分1101に対してDCTを施し、DCT係数1102を取得する。続いて、DCT係数1102に対して量子化を行い、符号化対象となる要素数を減少させる。この際、本実施形態のように大きなブロックサイズでDCTを施すと高周波成分に多くのDCT係数が発生し符号量が増加するため、例えばDCT係数の高周波成分に対して大きな量子化ステップを適用するように量子化ステップの重み1103を設定することにより、高周波成分を大幅に削減して効率的に符号化を行うことができる。ただし、本図では基準となる量子化ステップをQとして表している。
FIG. 11 shows a prediction difference encoding procedure for each block. In this encoding, first, DCT is performed on the
続いて、量子化後のDCT係数1104に対し、低周波成分から高周波成分に向かって2次元的なジグザグ方向のスキャンによる一次元展開を行い(1105)、VLCを施して符号語を生成する(1106)。以上の処理を、ブロック群を分割したすべてのブロックに対して繰り返す。
Subsequently, the
各ブロック群に対する処理順序はどのようなものでも構わないが、図12にその一例を示す。ここでは、ブロック群をラスタースキャンの順序に従って処理する例について示している。まず、画面左上端に位置するブロック群1201を処理し、続いてブロック群1201の右側に隣接するブロック群1202を処理する。その後、さらに右側に隣接するブロック群1203、ブロック群1204に対して処理を進め、処理が画面右端に到達した時点で、ブロック群1201の下側に隣接するブロック群1205を処理する。以上の処理を画面右下端に到達するまで行う。このとき、同一ブロック群に含まれるマクロブロックの処理順序はどのようなものでも良いが、例えばジグザグ方向1210に沿って処理すると効果的である。
Any processing order may be used for each block group, and FIG. 12 shows an example. Here, an example is shown in which a block group is processed in the order of raster scanning. First, the
また、本実施形態は、複数のマクロブロックによる予測差分を統合してDCTを施すために、予測差分を一時的に記憶しておくためのメモリが必要になる。上記メモリに一度に格納する領域を『アクセスグループ』と呼ぶことにする。このとき、予測とDCTはそれぞれアクセスグループ単位で行われる。本符号化方法は、例えば画面全体を1つのアクセスグループとして設定した場合、画面内のすべてのマクロブロックに対して予測処理を行い、順次メモリに格納する。 Further, in the present embodiment, in order to perform DCT by integrating prediction differences due to a plurality of macroblocks, a memory for temporarily storing the prediction differences is required. The area stored in the memory at once is called an “access group”. At this time, prediction and DCT are performed for each access group. In this encoding method, for example, when the entire screen is set as one access group, prediction processing is performed on all macroblocks in the screen, and sequentially stored in the memory.
続いてメモリに格納されている1画面分の予測差分に対して、ブロック群単位でブロック分割を行い、DCTを施す。アクセスグループはどのような範囲に設定しても構わないが、例えば図13に示すように1ライン分のブロック群により1つのアクセスグループを構成すると、効率的に符号化を行うことができる。 Subsequently, the prediction difference for one screen stored in the memory is divided into blocks in units of blocks and DCT is performed. The access group may be set in any range. For example, as shown in FIG. 13, if one access group is constituted by a block group for one line, encoding can be performed efficiently.
この場合、まず初めに画面最上ラインに位置するブロック群1301〜ブロック群1304によって構成されるアクセスグループ1311に対して予測とDCTを行った後、その次のラインに位置するブロック群1305〜ブロック群1308によって構成されるアクセスグループ1312に対して予測とDCTを行う。これを画面最下ラインに到達するまで続ければ、1フレーム分の符号化処理は完了する。
In this case, first, prediction and DCT are performed on the
図14は、本実施形態における符号化ストリームの構成例(1ブロック群分)を表す。ここでは、該当ブロック群内に、予測処理の基本単位となるマクロブロックが16個存在する場合について説明する。ここではまず、最初のマクロブロック(マクロブロック1)に対して予測方法(順方向画面間予測、逆方向画面間予測、双方向画面間予測、画面内予測など)とそのブロック分割パターンの組み合わせとして表される予測モード1401を符号化し、続いて予測に必要なサイド情報1402として、各ブロックにおける動きベクトルを符号化する。
FIG. 14 illustrates a configuration example (for one block group) of the encoded stream in the present embodiment. Here, a case will be described in which 16 macroblocks serving as basic units for prediction processing exist in the block group. Here, first, as a combination of a prediction method (forward inter-screen prediction, reverse inter-screen prediction, bidirectional inter-screen prediction, intra-screen prediction, etc.) and its block division pattern for the first macroblock (macroblock 1) The represented
続いて、2個目のマクロブロック2に対する予測モード1403とそのマクロブロックを分割した各ブロックにおける動きベクトル1404を符号化する。これを該当ブロック群に含まれるすべてのマクロブロックに対して繰り返す。続いて、該当ブロック群の予測差分に対してDCTを施す際のブロック分割パターン1405と、各ブロックのDCT係数1406を符号化する。このとき、DCTを行うブロックサイズは例えば64×64などで固定値に設定してもよく、この場合は、ブロック群の分割パターン1405の符号化は不要である。
Subsequently, the
図1は本実施形態における動画像符号化装置の一例を示したものである。動画像符号化装置は、入力された原画像101を保持する入力画像メモリ102と、入力画像メモリ102中の画像に対してブロック分割を行うブロック分割部103と、ブロック単位で画面内予測を行う画面内予測部104と、動き探索部105にて検出された動きベクトルを基に画面間予測を行う画面間予測部106と、画像の性質に合った予測方法及びブロック形状を決定する予測方法・ブロック決定部107を有する。
FIG. 1 shows an example of a moving image encoding apparatus according to this embodiment. The moving image encoding apparatus performs an intra-screen prediction in units of blocks, an
動画像符号化装置は、さらに、予測差分を生成するための減算部108と、予測差分に対して周波数変換を行うDCT部110及び予測差分の性質に合った周波数変換のブロック形状を決定する周波数変換ブロック決定部116と、周波数変換後の係数値に対して量子化を施す量子化処理部111及び記号の発生確率に応じた符号化を行うための可変長符号化処理部112と、一度符号化した予測差分を復号化するための逆量子化処理部113及び逆DCT部114と、復号化された予測差分を用いて復号化画像を生成するための加算部115と、復号化画像を保持して後の予測に活用するための参照画像メモリ117を有する。
The moving image encoding apparatus further includes a
入力画像メモリ102は原画像101の中から一枚の画像を符号化対象画像として保持する。ブロック分割部103は画像データを適切なサイズのブロックに分割し、画面内予測部104、動き探索部105、画面間予測部106及び減算部108に送る。動き探索部105は、参照画像メモリ117に格納されている復号化済み画像を用いて該当ブロックの動き量を計算し、動きベクトルを画面間予測部106に送る。画面内予測部104及び画面間予測部106は、画面内予測処理及び画面間予測処理を数種類の形状のブロック単位で実行する。予測方法・ブロック決定部107は、最適な予測方法とブロック形状(マクロブロックの分割パターン)を選ぶ。
The
続いて減算部108は、原画像と予測結果を用いて最適な予測符号化手段による予測差分を生成し、予測差分メモリ109に送る。予測差分メモリ109は、1アクセスグループ分の予測差分が蓄えられた段階で、予測差分をDCT部110に送る。DCT部110及び量子化処理部111は、ブロック群単位で数種類の形状のブロックに分割してそれぞれDCTなどの周波数変換及び量子化処理を行い、可変長符号化処理部112及び逆量子化処理部113に送る。逆量子化処理部113及び逆DCT部114は、量子化後の周波数変換係数に対して、それぞれ逆量子化及び逆周波数変換(例えばIDCT(Inverse DCT:逆DCT))を施し、予測差分を取得して加算部115に送る。
Subsequently, the
続いて加算部115は復号化画像を生成する。周波数変換ブロック決定部116及び参照画像メモリ117は、復号化画像を格納する。周波数変換ブロック決定部116は、周波数変換を行う際の最適なブロック形状(ブロック群の分割パターン)を決定し、その情報を可変長符号化処理部112に送る。さらに可変長符号化処理部112は、予測・周波数変換を行う際の最適なブロック形状情報(マクロブロック、ブロック群の分割パターン)と、最適なブロック形状による周波数変換係数(予測差分情報)、及び復号化時の予測処理に必要なサイド情報(例えば画面内予測を行う際の予測方向や画面間予測を行う際の動きベクトル)を、記号の発生確率に基づいて可変長符号化して符号化ストリームを生成する。
Subsequently, the adding
図2は本実施形態による動画像復号化装置の一例を示したものである。動画像復号化装置は、例えば図1に示す動画像符号化装置によって生成された符号化ストリーム201に対して可変長符号化の逆の手順を行って各種情報を復号化するための可変長復号化部202と、予測差分情報を復号化するための逆量子化処理部203及び逆DCT部204と、1アクセスグループ分の予測差分を記憶するための予測差分メモリ205と、画面間予測を行う画面間予測部206と、画面内予測を行う画面内予測部207と、復号化画像を取得するための加算部208と、復号化画像を一時的に記憶しておくための参照画像メモリ209を有する。
FIG. 2 shows an example of a moving picture decoding apparatus according to this embodiment. For example, the moving picture decoding apparatus performs variable length decoding for decoding various information by performing the reverse procedure of variable length coding on the encoded stream 201 generated by the moving picture encoding apparatus shown in FIG. , An inverse
可変長復号化部202は、符号化ストリーム201を可変長復号化し、予測と周波数変換を行う際のブロック形状情報、予測差分情報、及び復号化時の予測処理に必要なサイド情報を取得する。これらのうち、周波数変換を行う際のブロック形状情報(ブロック群の分割パターン)と予測差分情報は逆量子化処理部203に送られ、予測を行う際のブロック形状情報(マクロブロックの分割パターン)と復号化時の予測処理に必要なサイド情報は、画面間予測部206、または画面内予測部207に送られる。
The variable-length decoding unit 202 performs variable-length decoding on the encoded stream 201, and acquires block shape information when performing prediction and frequency conversion, prediction difference information, and side information necessary for prediction processing at the time of decoding. Among these, block shape information (block group division pattern) and prediction difference information when performing frequency conversion are sent to the inverse
続いて、逆量子化処理部203及び逆DCT部204は、ブロック群単位で指定されたブロック形状(ブロック群の分割パターン)でそれぞれ、予測差分情報に対する逆量子化と逆DCTなどの逆周波数変換を施して復号化を行い、予測差分メモリ205に送る。続いて画面間予測部206または画面内予測部207は、可変長復号化部202から送られてきた情報に基づいて、参照画像メモリ209を参照して指定されたブロック形状(マクロブロック分割パターン)にて予測処理を実行する。加算部208は、予測処理の結果と予測差分メモリ205が記憶している1アクセスグループ分の予測差分とから復号化画像を生成するとともに、復号化画像を参照画像メモリ209に格納する。
Subsequently, the inverse
図15は、本実施形態における1フレームの符号化処理手順を示している。まず、符号化対象となるフレーム内に存在するすべての領域に対して(1501)、以下の処理を行う。すなわち、該当アクセスグループ内のすべてのマクロブロックに対して(1502)、利用可能なすべての予測方法(前方向画面間予測、後方向画面間予測、双方向画面間予測、画面内予測など)及びブロック形状(マクロブロックの分割パターン)にて予測を実行し(1503)、予測差分の計算を行う。 FIG. 15 shows an encoding processing procedure for one frame in the present embodiment. First, the following processing is performed for all regions existing in the frame to be encoded (1501). That is, for all macroblocks in the corresponding access group (1502), all available prediction methods (forward inter-screen prediction, backward inter-screen prediction, bidirectional inter-screen prediction, intra-screen prediction, etc.) and Prediction is executed with the block shape (macroblock division pattern) (1503), and the prediction difference is calculated.
そして、すべての予測方法・ブロック形状にて予測を行った結果の中から、最適な組み合わせを選択し(1504)、その組み合わせの情報を符号化するとともに、予測差分をメモリに格納する。ここで言う最適とは、予測差分と符号量がともに小さくなる場合を言う。上記予測方法とブロック形状の組み合わせの選択には、例えばすべての組み合わせに対して数式2にて表される符号化コスト(Cost)を計算し、これが最も小さい組み合わせを選択すると効果的である。
Then, an optimal combination is selected from the prediction results of all prediction methods and block shapes (1504), information on the combination is encoded, and the prediction difference is stored in the memory. The term “optimal” here means a case where both the prediction difference and the code amount are small. For selecting the combination of the prediction method and the block shape, for example, it is effective to calculate the coding cost (Cost) expressed by
ここで、SAD(Square Absolute Difference)は予測差分の絶対値和を、R(Rate)は、予測差分を符号化した際の符号量の見積もり値を表す。また、λは重み付けをするための定数であり、この値は予測方法(画面内予測・画面間予測)や量子化時のパラメータなどによって最適値が異なるので、これらに応じて値を使い分けると効果的である。符号量の見積もり値は、予測差分情報だけではなく、ブロック形状情報や動きベクトルなどの符号量を考慮して算出するのが望ましい。
アクセスグループ内のすべてのマクロブロックに対して上記の処理が終了すれば、続いてメモリに格納されている該当アクセスグループ分の予測差分に対して(1505)、ブロック群ごとに利用可能なすべてのブロック形状(ブロック群の分割パターン)にて、DCT(1506)、量子化(1507)、及び可変長符号化(1508)を行う。そして、量子化後のDCT係数に対して、逆量子化(1509)及び逆DCT(1510)を施して予測差分情報を復号化し、さらに数式1を利用して最適なブロック形状(ブロック群の分割パターン)を選択して(1511)、その形状情報を符号化する。 When the above processing is completed for all the macroblocks in the access group, the prediction difference corresponding to the corresponding access group stored in the memory (1505) is subsequently obtained for all the blocks available for each block group. DCT (1506), quantization (1507), and variable length coding (1508) are performed in the block shape (block group division pattern). Then, the quantized DCT coefficients are subjected to inverse quantization (1509) and inverse DCT (1510) to decode the prediction difference information, and further using Equation 1, an optimal block shape (block group division) Pattern) is selected (1511), and the shape information is encoded.
また、形状情報の選択は、数式1以外にも、例えば画質歪みと符号量の関係から最適な符号化モードを決定するRD−Optimization方式を利用することができる。RD−Optimization方式は広く知られた技術であり、ここでの詳細な説明を省略する。詳細については、例えば、参考文献1を参照のこと(参考文献1:G. Sullivan and T. Wiegand : “Rate-Distortion Optimization for Video Compression”、IEEE Signal Processing Magazine, vol.15, no.6, pp.74-90, 1998.)。 In addition to Equation 1, the shape information can be selected using, for example, an RD-Optimization method that determines an optimal encoding mode from the relationship between image quality distortion and code amount. The RD-Optimization method is a well-known technique and will not be described in detail here. For details, see Reference 1, for example (Reference 1: G. Sullivan and T. Wiegand: “Rate-Distortion Optimization for Video Compression”, IEEE Signal Processing Magazine, vol. 15, no. 6, pp. .74-90, 1998.).
続いて、復号化された予測差分と予測画像とを加算することにより復号化画像を取得し(1512)、参照画像メモリに格納する。以上の処理をすべてのアクセスグループに対して完了すれば、画像1フレーム分の符号化は終了する(1513)。 Subsequently, a decoded image is obtained by adding the decoded prediction difference and the predicted image (1512), and stored in the reference image memory. When the above processing is completed for all the access groups, the encoding for one frame of the image is completed (1513).
図16は、本実施形態における1フレームの復号化処理手順を示している。まず、1フレーム内のすべてのアクセスグループに対して、以下の処理を行う(1601)。すなわち、アクセスグループ内のすべてのブロック群に対して(1602)、可変長復号化処理を施し(1603)、指定されたブロック形状(ブロック群の分割パターン)にて逆量子化処理(1604)及び逆DCT(1605)を施して予測差分を復号化してメモリに格納する。 FIG. 16 shows a decoding processing procedure for one frame in the present embodiment. First, the following processing is performed for all access groups in one frame (1601). That is, all the block groups in the access group (1602) are subjected to variable length decoding processing (1603), and the inverse quantization processing (1604) and the designated block shape (block group division pattern) are performed. Inverse DCT (1605) is applied to decode the prediction difference and store it in the memory.
以上の処理をアクセスグループ内のすべてのブロック群に対して完了すると、続いて、同じアクセスグループに対して(1606)、可変長復号化した予測方法と予測を行う際のブロック形状(マクロブロックの分割パターン)に基づいて予測(1607)を行い、メモリに格納されている予測差分と加算することにより、復号画像を取得する(1608)。以上の処理をフレーム中のすべてのアクセスグループに対して完了すれば、画像1フレーム分の復号化が終了する(1609)。 When the above processing is completed for all the block groups in the access group, subsequently, for the same access group (1606), the variable length decoding prediction method and the block shape (macroblock Based on the division pattern), prediction (1607) is performed, and a decoded image is obtained by adding the prediction difference stored in the memory (1608). When the above processing is completed for all access groups in the frame, decoding for one frame of image is completed (1609).
本実施形態では周波数変換の一例としてDCTを挙げているが、DST(Discrete Sine Transformation:離散サイン変換)、WT(Wavelet Transformation:ウェーブレット変換)、DFT(Discrete Fourier Transformation:離散フーリエ変換)、KLT(Karhunen-Loeve Transformation:カルーネン-レーブ変換)など、画素間相関除去に利用する直交変換ならどのようなものでも構わないし、特に周波数変換を施さずに予測差分そのものに対して符号化を行っても構わない。さらに、可変長符号化も特に行わなくて良い。また、本実施形態を別の方法と組み合わせて利用しても良い。 In this embodiment, DCT is cited as an example of frequency transformation, but DST (Discrete Sine Transformation), WT (Wavelet Transformation), DFT (Discrete Fourier Transformation), KLT (Karhunen). -Loeve Transformation (Carhunen-Leave transformation) etc., any orthogonal transformation used for removing correlation between pixels may be used, and the prediction difference itself may be encoded without any frequency transformation. . Furthermore, variable length coding is not particularly required. Further, this embodiment may be used in combination with another method.
以上説明した実施形態1に係る動画像符号化装置及び符号化方法、動画像復号化装置及び復号化方法によれば、インターマクロブロックにより構成されるフレームについての符号化、復号化において、予測に用いるマクロブロックよりも大きいブロック単位で周波数変換を行うことにより、主観画質をより好適に維持したまま符号量をより低減する動画像符号化装置及び符号化方法、動画像復号化装置及び復号化方法を実現することができる。 According to the video encoding device and encoding method, the video decoding device, and the decoding method according to Embodiment 1 described above, prediction is performed in encoding and decoding of a frame configured by inter macroblocks. Moving picture encoding apparatus, encoding method, moving picture decoding apparatus, and decoding method for reducing code amount while maintaining subjective image quality more suitably by performing frequency conversion in units of blocks larger than the macroblock to be used Can be realized.
実施形態2.
実施形態1は、画面間符号化を行うことが可能なフレーム(H.264/AVCで言えばPスライスもしくはBスライス)においてすべての領域を画面間符号化する場合、すなわち画面内にはインターマクロブロック(画面間符号化を行うマクロブロック)のみが存在し、イントラマクロブロック(画面内符号化を行うマクロブロック)は存在しない場合を例として説明した。
In the first embodiment, when all areas are inter-coded in a frame (P slice or B slice in H.264 / AVC) in which inter-picture coding can be performed, that is, an inter macro is included in the picture. An example has been described in which only blocks (macroblocks that perform inter-frame encoding) exist and intra macroblocks (macroblocks that perform intra-frame encoding) do not exist.
これに対し実施形態2は、画面間符号化を行うことが可能なフレーム(H.264/AVCで言えばPスライスもしくはBスライス)において画面内符号化を適用可能な場合、すなわちインターマクロブロック(画面間符号化を行うマクロブロック)とイントラマクロブロック(画面内符号化を行うマクロブロック)とを混在させて符号化を行うことが可能である場合について説明する。 On the other hand, in the second embodiment, when intra-frame coding can be applied to a frame (P slice or B slice in H.264 / AVC) in which inter-frame coding can be performed, that is, an inter macroblock ( A case will be described in which encoding can be performed by mixing a macro block that performs inter-screen encoding) and an intra macro block (macro block that performs intra-screen encoding).
イントラマクロブロックでは、既に符号化が完了したブロックの復号化画像を利用して予測を行うため、対象ブロックを予測する際には、隣接するブロックにおけるDCT処理が完了している必要がある。そのため、1ブロック群分のマクロブロックに対して一括で予測を行い、それら予測差分を統合してDCTを施すことはできない。 In an intra macroblock, prediction is performed using a decoded image of a block that has already been encoded. Therefore, when predicting a target block, it is necessary to complete DCT processing in adjacent blocks. For this reason, it is impossible to perform batch prediction on macroblocks for one block group and perform DCT by integrating these prediction differences.
そのため、イントラマクロブロックが1つでも含まれるブロック群に対してはマクロブロック単位で予測とDCTを行う。このとき、DCT処理はマクロブロックを分割したブロック単位で行うことになり、そのサイズはマクロブロック以下となる。そのため、DCT処理におけるブロックサイズ(DCTのためのマクロブロックの分割パターン)としては、図9における32×32、64×64などは利用できない。このとき、例えば図18に示す符号表を利用して上記分割パターンの符号化を行う。 Therefore, prediction and DCT are performed on a macroblock basis for a block group including even one intra macroblock. At this time, the DCT process is performed in units of blocks obtained by dividing the macroblock, and the size thereof is equal to or smaller than the macroblock. Therefore, 32 × 32, 64 × 64, etc. in FIG. 9 cannot be used as a block size (DCT macroblock division pattern) in DCT processing. At this time, for example, the division pattern is encoded using a code table shown in FIG.
図17は、各ブロック群の符号化方法の一例について、概念的に示している。この例では、アクセスグループがブロック群に一致する場合について示している。符号化処理は、まず、画像左上端に位置するブロック群1701に含まれるすべてのマクロブロック対して予測を行い、すべてのマクロブロックがインターマクロブロックであれば、実施形態1と同様の手段(図9)でブロック群の分割パターンを決定してDCTを施す。続いてブロック群1の右側に隣接するブロック群1702に対しても、イントラマクロブロックを含まなければ同じ処理を行う。
FIG. 17 conceptually shows an example of an encoding method for each block group. This example shows a case where the access group matches the block group. In the encoding process, first, prediction is performed for all macroblocks included in the
さらにブロック群1703、ブロック群1704に対しても同じ処理を進め、画面右端に到達した時点で、ブロック群1701の下側に隣接するブロック群1705を処理する。ここで、例えばブロック群1706に含まれる1つ以上のマクロブロックがイントラマクロブロックであったとすると、このブロック群に対してはマクロブロック単位で予測とDCTを行う。以上のように、本実施形態は、該当マクロブロック群がイントラマクロブロックを含むか否かによって、DCTを行う単位をマクロブロックとマクロブロック群で切り替える。処理が画面右下端に到達すると、位置画面分の符号化が終了する。
Further, the same processing is advanced for the
図19は、本実施形態において、1つ以上のイントラマクロブロックが存在するブロック群に対する符号化ストリームの構成例を表す。ここでは、該当ブロック群内に、マクロブロックが16個存在する場合について説明する。まず、最初のマクロブロック(マクロブロック1)に対して予測を行う際の予測方法(順方向画面間予測、逆方向画面間予測、双方向画面間予測、画面内予測など)とその分割パターンの組み合わせとして表される予測モード1901を符号化する。続いて予測に必要なサイド情報1902として、インターマクロブロックの場合は動きベクトルを、イントラマクロブロックの場合は予測方向に関する情報を符号化する。
FIG. 19 shows a configuration example of an encoded stream for a block group in which one or more intra macroblocks exist in the present embodiment. Here, a case where 16 macroblocks exist in the block group will be described. First, the prediction method (forward inter-screen prediction, reverse inter-screen prediction, bi-directional inter-screen prediction, intra-screen prediction, etc.) and its division pattern when predicting the first macroblock (macroblock 1) A
続いて、同じマクロブロックに対してDCTを施す際のマクロブロックブロック分割パターン1903と、各ブロックのDCT係数1904を符号化する。以上の処理を1ブロック群に含まれるすべてのマクロブロックに対して行う。また、DCTを行うブロックサイズは例えば8×8などで固定値に設定してもよく、この場合は、マクロブロック単位の分割パターンの符号化は不要である。なお、イントラマクロブロックが1つも存在しないブロック群に対する符号化ストリームの構成は、実施形態1と同様(図14)である。
Subsequently, the macroblock
図20は、本実施形態において、1つ以上のイントラマクロブロックが存在するブロック群における符号化処理手順を示している。この処理は、該当ブロック群に含まれるすべてのマクロブロックに対して(2001)、利用可能なすべての予測方法(前方向画面間予測、後方向画面間予測、双方向画面間予測、画面内予測など)及びブロック形状(マクロブロックの分割パターン)にて予測を実行し(2002)、予測差分の計算を行う。 FIG. 20 shows an encoding processing procedure in a block group in which one or more intra macroblocks exist in the present embodiment. This process is performed for all macroblocks included in the corresponding block group (2001), for all available prediction methods (forward inter-screen prediction, backward inter-screen prediction, bidirectional inter-screen prediction, intra-screen prediction). Etc.) and a block shape (macroblock division pattern) (2002), and a prediction difference is calculated.
そして、すべての予測方法・ブロック形状にて予測を行った結果の中から、好適な組み合わせを選択し(2003)、その組み合わせの情報を符号化する。ここで言う好適とは、予測差分と符号量がともに小さくなる場合を言い、その評価には数式2あるいは他の数式で表されるコスト関数を利用すると効果的である。
Then, a suitable combination is selected from the prediction results of all prediction methods / block shapes (2003), and information on the combination is encoded. The term “preferable” here means a case where both the prediction difference and the code amount are small, and it is effective to use a cost function expressed by
続いて同じマクロブロックの予測差分に対して、利用可能なブロック形状(DCTを施すマクロブロックの分割パターン)にて、DCT(2004)、量子化(2005)、及び可変長符号化(2006)を行う。そして、量子化後のDCT係数に対して、逆量子化(2007)及び逆DCT(2008)を施して予測差分情報を復号化し、さらに数式1を利用して最適なブロック形状(DCTのためのマクロブロックの分割パターン)を選択し(2009)、その形状情報を符号化する。形状情報の選択は、上述の参考文献1の別手法あるいは他の手法を利用しても良い。 Subsequently, DCT (2004), quantization (2005), and variable length coding (2006) are performed on the prediction difference of the same macroblock in an available block shape (macroblock division pattern subjected to DCT). Do. Then, the quantized DCT coefficients are subjected to inverse quantization (2007) and inverse DCT (2008) to decode the prediction difference information, and further using Equation 1, an optimal block shape (for DCT) Macroblock division pattern) is selected (2009), and its shape information is encoded. The selection of the shape information may use another method of Reference Document 1 described above or another method.
続いて、復号化された予測差分と予測画像と加算することにより復号化画像を取得し(2010)、参照画像メモリに格納する。以上の処理を該当ブロック群に含まれるすべてのマクロブロックに対して完了すれば、該当ブロック群の符号化が終了する。なお、イントラマクロブロックが存在しないブロック群における符号化処理手順は、実施形態1と同様(図15)である。 Subsequently, a decoded image is acquired by adding the decoded prediction difference and the predicted image (2010), and stored in the reference image memory. When the above processing is completed for all the macroblocks included in the corresponding block group, the encoding of the corresponding block group is completed. Note that the encoding processing procedure in a block group in which no intra macroblock exists is the same as that in the first embodiment (FIG. 15).
図21は、本実施形態において、1つ以上のイントラマクロブロックが存在するブロック群における復号化処理手順を示している。この処理は、ブロック群に含まれるすべてのマクロブロックに対して(2101)、可変長復号化処理を施し(2102)、指定されたブロック形状にて逆量子化処理(2103)及び逆DCT(2104)を施して予測差分を復号化してメモリに格納する。 FIG. 21 shows a decoding processing procedure in a block group in which one or more intra macroblocks exist in this embodiment. In this processing, all macroblocks included in the block group (2101) are subjected to variable length decoding processing (2102), and inverse quantization processing (2103) and inverse DCT (2104) are performed in the designated block shape. ) To decode the prediction difference and store it in the memory.
続いて、可変長復号化した予測方法と予測を行う際のブロック形状(DCTのためのマクロブロックの分割パターン)に基づいて予測(2105)を行い、メモリに格納されている予測差分と加算することにより、復号画像を取得する(2106)。以上の処理を該当ブロック群に含まれるすべてのマクロブロックに対して完了すれば、該当ブロック群の復号化が終了する。なお、イントラマクロブロックが存在しないブロック群における復号化処理手順は、実施形態1と同様(図16)である。 Subsequently, prediction (2105) is performed based on the prediction method subjected to variable length decoding and the block shape (macroblock division pattern for DCT) when performing prediction, and the prediction difference stored in the memory is added. Thus, a decoded image is acquired (2106). When the above processing is completed for all the macroblocks included in the block group, the decoding of the block group is completed. Note that the decoding processing procedure in the block group in which no intra macroblock exists is the same as that in the first embodiment (FIG. 16).
なお、実施形態2の処理を行う動画像符号化装置、動画像復号化装置は、図1及び図2に示す実施形態1の動画像符号化装置、動画像復号化装置の構成の各構成部の動作を上述の動作に変更すればよいため、構成自体の説明は省略する。 Note that the moving picture encoding apparatus and the moving picture decoding apparatus that perform the processing of the second embodiment are components of the moving picture encoding apparatus and the moving picture decoding apparatus according to the first embodiment shown in FIGS. 1 and 2. Therefore, the description of the configuration itself is omitted.
本実施形態では周波数変換の一例としてDCTを挙げているが、DST(Discrete Sine Transformation:離散サイン変換)、WT(Wavelet Transformation:ウェーブレット変換)、DFT(Discrete Fourier Transformation:離散フーリエ変換)、KLT(Karhunen-Loeve Transformation:カルーネン−レーブ変換)など、画素間相関除去に利用する直交変換ならどのようなものでも構わないし、特に周波数変換を施さずに予測差分そのものに対して符号化を行っても構わない。さらに、可変長符号化も特に行わなくて良い。また、本実施形態を別の方法と組み合わせて利用しても良い。 In this embodiment, DCT is cited as an example of frequency transformation, but DST (Discrete Sine Transformation), WT (Wavelet Transformation), DFT (Discrete Fourier Transformation), KLT (Karhunen). -Loeve Transformation (Caroonen-Leave transformation), etc., any orthogonal transformation can be used to remove the correlation between pixels, and the prediction difference itself may be encoded without any frequency transformation. . Furthermore, variable length coding is not particularly required. Further, this embodiment may be used in combination with another method.
以上説明した実施形態2に係る動画像符号化装置及び符号化方法、動画像復号化装置及び復号化方法によれば、インターマクロブロックとイントラマクロブロックが混在する構成のフレームについての符号化、復号化においても、予測に用いるマクロブロックよりも大きいブロック単位で周波数変換を行うことにより、主観画質をより好適に維持したまま符号量をより低減する動画像符号化装置及び符号化方法、動画像復号化装置及び復号化方法を実現することができる。
According to the moving picture coding apparatus and coding method, the moving picture decoding apparatus, and the decoding method according to
以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。 The present invention has been described in detail with reference to the accompanying drawings, but the present invention is not limited to such a specific configuration, and various modifications and equivalents within the spirit of the appended claims. The configuration is included.
特許請求の範囲に記載した以外の本発明の観点の代表的な方法として、次の処理があげられる。 As a representative method from the viewpoint of the present invention other than those described in the scope of claims, the following treatment can be given.
(1)符号化ストリームを入力する。前記入力した符号化ストリームに可変長復号化処理を行う。前記可変長復号化処理を行ったデータについて第1のブロック単位または第2のブロック単位で逆量子化処理及び逆周波数変換処理を行って予測差分を生成する。このとき、前記ブロック群に画面内予測ブロックが含まれる場合には、該ブロック群においては、前記第2のブロック単位で前記逆量子化処理及び前記逆周波数変換処理を行い、前記ブロック群に画面内予測ブロックが含まれない場合には、該ブロック群においては、前記第1のブロック単位で前記逆量子化処理及び前記逆周波数変換処理を行う。前記第2のブロック単位で予測処理を行う。前記生成した予測差分と前記予測処理結果とに基づいて復号画像を生成する。前記第1のブロック単位における1つのブロックは、前記第2の単位における複数のブロックからなるブロック群を統合した1つのブロックである。 (1) Input an encoded stream. A variable length decoding process is performed on the input encoded stream. A prediction difference is generated by performing an inverse quantization process and an inverse frequency transform process on the data subjected to the variable length decoding process on a first block basis or on a second block basis. At this time, if the block group includes an intra-screen prediction block, the block group performs the inverse quantization process and the inverse frequency transform process in units of the second block, and the block group includes a screen. When an intra prediction block is not included, the block group performs the inverse quantization process and the inverse frequency transform process in units of the first block. Prediction processing is performed in units of the second block. A decoded image is generated based on the generated prediction difference and the prediction processing result. One block in the first block unit is one block obtained by integrating a block group composed of a plurality of blocks in the second unit.
(2)符号化ストリームを入力する。前記入力した符号化ストリームに可変長復号化処理を行う。前記可変長復号化処理を行ったデータについて第1のブロック単位または第2のブロック単位で逆量子化処理及び逆周波数変換処理を行って予測差分を生成する。前記第2のブロック単位で予測処理を行う。前記生成した予測差分と前記予測処理結果とに基づいて復号画像を生成する。前記第1のブロック単位における1つのブロックは、前記第2の単位における複数のブロックからなるブロック群を統合した1つのブロックである。前記ブロック群に画面内予測ブロックが含まれる場合には、該ブロック群においては、前記第2のブロック単位で前記逆量子化処理及び前記逆周波数変換処理を行う。前記ブロック群に画面内予測ブロックが含まれない場合には、該ブロック群においては、前記第1のブロック単位で前記逆量子化処理及び前記逆周波数変換処理を行う。前記入力する前記符号化ストリームにおいて、画面内予測ブロックを含むブロック群のストリーム構成には、前記第2のブロック単位の予測モードの情報と前記第2のブロック単位の周波数変換係数とが含まれ、画面内予測ブロックを含まないブロック群のストリーム構成には、前記第2のブロック単位の予測モードの情報と前記第1のブロック単位の周波数変換係数とが含まれる。 (2) Input an encoded stream. A variable length decoding process is performed on the input encoded stream. A prediction difference is generated by performing an inverse quantization process and an inverse frequency transform process on the data subjected to the variable length decoding process on a first block basis or on a second block basis. Prediction processing is performed in units of the second block. A decoded image is generated based on the generated prediction difference and the prediction processing result. One block in the first block unit is one block obtained by integrating a block group composed of a plurality of blocks in the second unit. When an intra-screen prediction block is included in the block group, the inverse quantization process and the inverse frequency transform process are performed in the block group in units of the second block. When the intra-frame prediction block is not included in the block group, the inverse quantization process and the inverse frequency transform process are performed in the block group in the first block unit. In the encoded stream to be input, the stream configuration of the block group including the intra prediction block includes the prediction mode information of the second block unit and the frequency transform coefficient of the second block unit, The stream configuration of the block group that does not include the intra-screen prediction block includes the prediction mode information of the second block unit and the frequency conversion coefficient of the first block unit.
(3)入力画像を入力する。前記入力画像について第1のブロック単位で予測処理を行って予測差分を生成する。前記生成した予測差分に周波数変換処理及び量子化処理を行って量子化データを生成する。このとき、複数のブロックからなるブロック群に画面内予測ブロックが含まれる場合には、前記ブロック群において、前記第1のブロック単位で前記周波数変換処理と前記量子化処理を行い、前記ブロック群に画面内予測ブロックが含まれない場合には、前記ブロック群において、前記第1のブロック単位のブロックを複数個統合した大きさの第2のブロック単位で、前記周波数変換処理と前記量子化処理を行う。前記生成した量子化データに可変長符号化を行って符号化ストリームを生成する。 (3) Input an input image. A prediction difference is generated by performing a prediction process on the input image for each first block. The generated prediction difference is subjected to frequency conversion processing and quantization processing to generate quantized data. At this time, when an intra-screen prediction block is included in a block group including a plurality of blocks, the block group performs the frequency conversion process and the quantization process in the first block unit, and the block group includes When the intra prediction block is not included, in the block group, the frequency conversion process and the quantization process are performed in a second block unit having a size obtained by integrating a plurality of blocks in the first block unit. Do. Variable length coding is performed on the generated quantized data to generate an encoded stream.
(4)入力画像を入力する。前記入力画像について第1のブロック単位で予測処理を行って予測差分を生成する。前記生成した予測差分に周波数変換処理及び量子化処理を行って量子化データを生成する。前記生成した量子化データに可変長符号化を行って符号化ストリームを生成する。複数のブロックからなるブロック群に画面内予測ブロックが含まれる場合に、前記ブロック群において、前記第1のブロック単位で前記周波数変換処理と前記量子化処理を行い、前記ブロック群に画面内予測ブロックが含まれない場合に、前記ブロック群において、前記第1のブロック単位のブロックを複数個統合した大きさの第2のブロック単位で、前記周波数変換処理と前記量子化処理を行う。前記生成した符号化ストリームの前記複数のブロックからなるブロック群についてのストリーム構成において、前記ブロック群に画面内予測ブロックが含まれる場合には、該ブロック群のストリーム構成には、前記第1のブロック単位の予測モードの情報と前記第1のブロック単位の周波数変換係数とが含まれ、前記ブロック群に画面内予測ブロックが含まれない場合には、前記第1のブロック単位の予測モードの情報と前記第2のブロック単位の周波数変換係数とが含まれる。 (4) Input an input image. A prediction difference is generated by performing a prediction process on the input image for each first block. The generated prediction difference is subjected to frequency conversion processing and quantization processing to generate quantized data. Variable length coding is performed on the generated quantized data to generate an encoded stream. When an intra-screen prediction block is included in a block group consisting of a plurality of blocks, the block group performs the frequency conversion process and the quantization process in units of the first block, and the block group includes an intra-screen prediction block. Is not included in the block group, the frequency conversion process and the quantization process are performed in a second block unit having a size obtained by integrating a plurality of blocks in the first block unit. In the stream configuration for the block group including the plurality of blocks of the generated encoded stream, when the intra-frame prediction block is included in the block group, the stream configuration of the block group includes the first block. When the prediction mode information of the unit and the frequency conversion coefficient of the first block unit are included, and the intra-prediction block is not included in the block group, the prediction mode information of the first block unit and And a frequency conversion coefficient of the second block unit.
以上のように、本発明は、動画像の符号化/復号化に適用することができ、特にブロック単位での符号化/復号化に適用することができる。 As described above, the present invention can be applied to encoding / decoding of moving images, and in particular, can be applied to encoding / decoding in units of blocks.
Claims (1)
前記入力ステップで入力した符号化ストリームに可変長復号化処理を行う可変長復号化ステップと、
前記可変長復号化ステップで可変長復号化処理を行ったデータについて、第1のブロック単位で逆量子化処理及び逆周波数変換処理を行って予測差分を生成する逆量子化・逆周波数変換ステップと、
第2のブロック単位で予測処理を行う予測ステップと、
前記逆量子化・逆周波数変換ステップで生成した予測差分と前記予測ステップにおける予測処理結果に基づいて復号画像を生成する復号画像生成ステップとを備え、
前記逆量子化・逆周波数変換ステップで用いる前記第1のブロック単位が、前記予測ステップで用いる前記第2のブロック単位よりも大きいブロック単位であることを特徴とする動画像復号化方法。 An input step for inputting an encoded stream;
A variable length decoding step for performing a variable length decoding process on the encoded stream input in the input step;
An inverse quantization / inverse frequency transform step for generating a prediction difference by performing an inverse quantization process and an inverse frequency transform process on a first block basis for the data subjected to the variable length decoding process in the variable length decoding step; ,
A prediction step for performing prediction processing in units of second blocks;
A decoded image generation step for generating a decoded image based on the prediction difference generated in the inverse quantization / inverse frequency conversion step and a prediction processing result in the prediction step;
The moving picture decoding method, wherein the first block unit used in the inverse quantization / inverse frequency conversion step is a block unit larger than the second block unit used in the prediction step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014158494A JP5882416B2 (en) | 2009-09-16 | 2014-08-04 | Video decoding method |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009214011 | 2009-09-16 | ||
JP2009214011 | 2009-09-16 | ||
JP2014158494A JP5882416B2 (en) | 2009-09-16 | 2014-08-04 | Video decoding method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013183776A Division JP5611432B2 (en) | 2009-09-16 | 2013-09-05 | Video decoding method |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016019157A Division JP6088080B2 (en) | 2009-09-16 | 2016-02-03 | Video decoding method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014207713A true JP2014207713A (en) | 2014-10-30 |
JP5882416B2 JP5882416B2 (en) | 2016-03-09 |
Family
ID=43758466
Family Applications (7)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011531838A Active JP5363581B2 (en) | 2009-09-16 | 2010-07-20 | Video decoding method and video encoding method |
JP2013183776A Active JP5611432B2 (en) | 2009-09-16 | 2013-09-05 | Video decoding method |
JP2014158494A Active JP5882416B2 (en) | 2009-09-16 | 2014-08-04 | Video decoding method |
JP2016019157A Active JP6088080B2 (en) | 2009-09-16 | 2016-02-03 | Video decoding method |
JP2017019023A Active JP6360214B2 (en) | 2009-09-16 | 2017-02-03 | Video decoding method |
JP2018117566A Active JP6585776B2 (en) | 2009-09-16 | 2018-06-21 | Processing method |
JP2019161948A Active JP6837110B2 (en) | 2009-09-16 | 2019-09-05 | Video decoding method |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011531838A Active JP5363581B2 (en) | 2009-09-16 | 2010-07-20 | Video decoding method and video encoding method |
JP2013183776A Active JP5611432B2 (en) | 2009-09-16 | 2013-09-05 | Video decoding method |
Family Applications After (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016019157A Active JP6088080B2 (en) | 2009-09-16 | 2016-02-03 | Video decoding method |
JP2017019023A Active JP6360214B2 (en) | 2009-09-16 | 2017-02-03 | Video decoding method |
JP2018117566A Active JP6585776B2 (en) | 2009-09-16 | 2018-06-21 | Processing method |
JP2019161948A Active JP6837110B2 (en) | 2009-09-16 | 2019-09-05 | Video decoding method |
Country Status (2)
Country | Link |
---|---|
JP (7) | JP5363581B2 (en) |
WO (1) | WO2011033853A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5363581B2 (en) * | 2009-09-16 | 2013-12-11 | 株式会社日立製作所 | Video decoding method and video encoding method |
JP6248783B2 (en) * | 2014-04-24 | 2017-12-20 | 富士通株式会社 | Moving picture coding apparatus, moving picture coding method, and moving picture coding computer program |
WO2018047952A1 (en) | 2016-09-12 | 2018-03-15 | 日本電気株式会社 | Intra-prediction mode determination method, intra-prediction mode determination device, and storage medium for storing intra-prediction mode determination program |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003250161A (en) * | 2001-12-19 | 2003-09-05 | Matsushita Electric Ind Co Ltd | Encoder and decoder |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10022331A1 (en) * | 2000-05-10 | 2001-11-15 | Bosch Gmbh Robert | Method for transformation coding of moving image sequences e.g. for audio-visual objects, involves block-wise assessing movement vectors between reference- and actual- image signals of image sequence |
CN101848391B (en) * | 2005-09-26 | 2014-11-26 | 三菱电机株式会社 | Dynamic image encoding device and dynamic image decoding device |
JP4937224B2 (en) * | 2008-09-30 | 2012-05-23 | 株式会社東芝 | Image encoding device |
JP5363581B2 (en) * | 2009-09-16 | 2013-12-11 | 株式会社日立製作所 | Video decoding method and video encoding method |
-
2010
- 2010-07-20 JP JP2011531838A patent/JP5363581B2/en active Active
- 2010-07-20 WO PCT/JP2010/062180 patent/WO2011033853A1/en active Application Filing
-
2013
- 2013-09-05 JP JP2013183776A patent/JP5611432B2/en active Active
-
2014
- 2014-08-04 JP JP2014158494A patent/JP5882416B2/en active Active
-
2016
- 2016-02-03 JP JP2016019157A patent/JP6088080B2/en active Active
-
2017
- 2017-02-03 JP JP2017019023A patent/JP6360214B2/en active Active
-
2018
- 2018-06-21 JP JP2018117566A patent/JP6585776B2/en active Active
-
2019
- 2019-09-05 JP JP2019161948A patent/JP6837110B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003250161A (en) * | 2001-12-19 | 2003-09-05 | Matsushita Electric Ind Co Ltd | Encoder and decoder |
Also Published As
Publication number | Publication date |
---|---|
JP2018164299A (en) | 2018-10-18 |
JP5611432B2 (en) | 2014-10-22 |
JPWO2011033853A1 (en) | 2013-02-07 |
JP5363581B2 (en) | 2013-12-11 |
JP6585776B2 (en) | 2019-10-02 |
JP2014007759A (en) | 2014-01-16 |
WO2011033853A1 (en) | 2011-03-24 |
JP6837110B2 (en) | 2021-03-03 |
JP6088080B2 (en) | 2017-03-01 |
JP2020005294A (en) | 2020-01-09 |
JP5882416B2 (en) | 2016-03-09 |
JP2016067062A (en) | 2016-04-28 |
JP2017103810A (en) | 2017-06-08 |
JP6360214B2 (en) | 2018-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6084730B2 (en) | Video decoding device | |
US7266149B2 (en) | Sub-block transform coding of prediction residuals | |
US20070098067A1 (en) | Method and apparatus for video encoding/decoding | |
JP2009094828A (en) | Device and method for encoding image, and device and method for decoding image | |
KR20170108367A (en) | Method and apparatus for processing a video signal based on intra prediction | |
JP6837110B2 (en) | Video decoding method | |
JP2021027464A (en) | Prediction block generation device, image coding device, image decoding device, and program | |
JP5887012B2 (en) | Image decoding method | |
JP2009049969A (en) | Device and method of coding moving image and device and method of decoding moving image | |
JP5886922B2 (en) | Image decoding method | |
JP5171658B2 (en) | Image encoding device | |
JP5891333B2 (en) | Image decoding method | |
JP5887013B2 (en) | Image decoding method | |
WO2010061515A1 (en) | Dynamic image encoding device, encoding method, dynamic image decoding device, and decoding method | |
JP5690898B2 (en) | Image decoding method | |
JP5422681B2 (en) | Image decoding method | |
JP6497100B2 (en) | Video encoding apparatus, method and program | |
JP2016129391A (en) | Image decoding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20150312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20150312 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5882416 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |