JP2010011075A - Method and apparatus for encoding and decoding moving image - Google Patents
Method and apparatus for encoding and decoding moving image Download PDFInfo
- Publication number
- JP2010011075A JP2010011075A JP2008167884A JP2008167884A JP2010011075A JP 2010011075 A JP2010011075 A JP 2010011075A JP 2008167884 A JP2008167884 A JP 2008167884A JP 2008167884 A JP2008167884 A JP 2008167884A JP 2010011075 A JP2010011075 A JP 2010011075A
- Authority
- JP
- Japan
- Prior art keywords
- moving
- prediction
- image signal
- pixel
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本発明は、動画像から背景領域と動領域を分離し、分離した動領域に対して動き補償予測処理を行う動画像符号化及び動画像復号化の方法及び装置に関する。 The present invention relates to a moving image coding and moving image decoding method and apparatus for separating a background region and a moving region from a moving image and performing motion compensation prediction processing on the separated moving region.
近年、大幅に符号化効率を向上させた動画像符号化方法がITU-TとISO/IECとの共同で、ITU-T Rec. H. 264及びISO/IEC 14496-10(以下、H. 264という)として勧告されている。H.264では、予測処理・変換処理・エントロピー符号化処理が矩形ブロック単位(16x16,8x8等)で行われる。このため、H. 264では矩形ブロックで表現出来ないオブジェクトを予測する際に、より小さな予測ブロック形状(4×4等)を選択することで予測効率を高めている。このようなオブジェクトを効果的に予測するために、矩形ブロックに複数の予測パターンを用意する方法や、ブロックを任意の線分で分割し、分割した形状毎に動き補償を適応する方法などが提案されている。 In recent years, a moving picture coding method with greatly improved coding efficiency has been jointly developed by ITU-T and ISO / IEC, and ITU-T Rec. H. 264 and ISO / IEC 14496-10 (hereinafter referred to as H. 264). Recommended). In H.264, prediction processing, conversion processing, and entropy encoding processing are performed in units of rectangular blocks (16 × 16, 8 × 8, etc.). For this reason, when predicting an object that cannot be represented by a rectangular block in H.264, the prediction efficiency is increased by selecting a smaller predicted block shape (4 × 4, etc.). In order to predict such objects effectively, a method of preparing multiple prediction patterns in a rectangular block, a method of dividing a block with an arbitrary line segment, and applying motion compensation for each divided shape are proposed. Has been.
背景画像と前景画像を分離する予測方法として、2枚の参照画像に挟まれた符号化スライス(B-slice)に着目して、前景・後景を分離し、別々に動き補償する手法が提案されている[特許文献1]。また、既に符号化が完了した複数の参照画像間の差分から、それぞれの参照画像に対応する背景画像マスクと背景参照画像を作成し、動き補償予測の際に合成する手法が提案されている[非特許文献1]。 As a prediction method that separates the background image and the foreground image, focusing on a coded slice (B-slice) sandwiched between two reference images, a method that separates the foreground and the foreground and performs motion compensation separately is proposed. [Patent Document 1]. In addition, a method has been proposed in which a background image mask and a background reference image corresponding to each reference image are created from the differences between a plurality of reference images that have already been encoded, and combined in motion compensated prediction [ Non-patent document 1].
特許文献1の方法では、前景・後景に対応した動きベクトル情報やブロック分割情報を符号化する必要があるため、低ビットレート時に対して符号化効率が低下する問題がある。また、エンコーダでは、最適な予測モードを選択するために、繰り返し符号化する必要があり演算量が増大する。
In the method of
非特許文献1の方法では、画像間の絶対差分値を基準として画素毎に領域を分離するため、符号化する映像に含まれるノイズや、高圧縮に符号化する際などに発生する量子化誤差などの影響によって、オブジェクトと背景領域との分離が困難となり、予測効率が低下する場合がある。また、参照画像毎に背景画像マスクと背景参照画像メモリを生成する必要があり、デコーダのメモリが増大すると言う問題がある。
本発明の目的は、復号化済みの複数の参照画像から、それぞれの参照画像信号毎に対応する二値の動領域分離マスクとただ1つの背景画像信号を生成し、動領域分離マスクから動領域と判定された領域に対して動き補償予測を実施し、背景領域と判定された領域に対して、背景画像信号を補完した値を補填することによって、過度のブロック細分化による符号量の増加を防ぎ、予測効率を向上させる。 An object of the present invention is to generate a binary moving region separation mask and a single background image signal corresponding to each reference image signal from a plurality of decoded reference images, and generate a moving region from the moving region separation mask. The motion compensation prediction is performed on the area determined as the background area, and the area determined as the background area is supplemented with the value supplemented with the background image signal, thereby increasing the code amount due to excessive block segmentation. Prevent and improve prediction efficiency.
本発明の一態様は、入力画像信号を複数の画素ブロックに分割し、参照画像信号を用いて各画素ブロックの予測処理を行い,前記入力画像信号と予測画像信号との差分信号を符号化する動画像符号化方法において、各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成するマスク生成ステップと、2つ以上の前記参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値により、1つの背景画像の信号を生成或いは更新する背景画像生成/更新ステップと、前記動領域分離マスクを用いて、(1)前記動領域に対応する、予測対象画像の第1部分に対して動き補償処理を行い、(2)前記背景領域に対応する、前記予測対象画像の第2部分には前記背景画像の信号を補間した信号を補填する、ことによって予測画像信号を生成する予測画像生成ステップと、を有するように構成される動画像符号化方法を提供する。 One embodiment of the present invention divides an input image signal into a plurality of pixel blocks, performs a prediction process on each pixel block using a reference image signal, and encodes a difference signal between the input image signal and the predicted image signal In the moving image encoding method, a mask generating step for generating a binary moving region separation mask indicating a moving region and a background region for each reference image signal, and comparing the signals of two or more reference images or the A background image generating / updating step for generating or updating a signal of one background image according to a binary moving region separation mask value for each signal of a reference image, and using the moving region separation mask, (1) Motion compensation processing is performed on the first part of the prediction target image corresponding to the moving area, and (2) the background image signal is interpolated in the second part of the prediction target image corresponding to the background area Complement the signal , To provide a moving picture coding method configured to have a predictive image generation step of generating a predictive image signal by.
本発明の手法を用いることで、矩形ブロックに適さない動オブジェクトを予測するために、過度のブロック分割が施されて、ブロック分割情報が増大することを防ぐ。つまり、付加的な情報を増加させずに、ブロック内の動領域と背景領域を分離し、それぞれに最適な予測方法を適用することによって、符号化効率を向上させると共に主観画質も向上するという効果を奏する。 By using the method of the present invention, in order to predict a moving object that is not suitable for a rectangular block, excessive block division is prevented and block division information is prevented from increasing. In other words, the effect of improving coding efficiency and subjective image quality by separating the motion area and background area in a block without applying additional information and applying an optimal prediction method to each of them. Play.
以下、図面を参照して本発明の第1〜第6の実施形態を説明する。 Hereinafter, first to sixth embodiments of the present invention will be described with reference to the drawings.
<動画像符号化装置>
本発明に従った動領域分離予測符号化を実現するための動画像符号化装置100の構成は図1に示されている。動画像符号化装置100の予測部106の詳細なブロック図は図2に示されている。動領域分離予測符号化方法を実施する動領域分離予測符号化に関連するインター予測部のブロック図は図3に示されている。まず、動画像符号化に関する動領域分離予測符号化方法について図1、図2、図3を参照しながら実施形態について説明する。
<Moving picture encoding apparatus>
A configuration of a moving
(第1の実施形態)
図1を参照して、第1の実施形態に従った動画像符号化装置を説明する。この画像符号化装置は、入力画像信号を構成する各々のフレームを複数の画素ブロックに分割し、これら分割した画素ブロックに対して符号化処理を行って圧縮符号化し、符号列を出力するよう構成されている。具体的には、この画像符号化装置100は入力画像信号110と予測画像信号117との差分を計算し、予測誤差信号111を出力する減算値101と、予測誤差信号111を変換及び量子化し、変換係数112を出力する変換・量子化部102と、変換係数112を逆量子化し、逆変換して復元予測誤差信号113を生成する逆量子化・逆変換部103とを含む。更に、画像符号化装置100は復元予測誤差信号113と予測画像信号117とを加算して復号画像信号114を生成する加算器104と、復号画像信号114を参照画像信号として記憶する参照画像メモリ105と、参照画像信号116と入力画像信号110とを用いて予測画像信号117を生成する予測部106を備えている。更に、動画像符号化装置100は変換係数112を符号化列に符号化し、符号列を出力バッファ109に出力する符号列符号化部108を備えている。この動画像符号化装置100は符号化制御部107によって制御される。
(First embodiment)
With reference to FIG. 1, a moving picture encoding apparatus according to the first embodiment will be described. The image coding apparatus is configured to divide each frame constituting an input image signal into a plurality of pixel blocks, perform coding processing on the divided pixel blocks, perform compression coding, and output a code string Has been. Specifically, the
上記構成の動画像符号化装置では、動画像または静止画像の入力画像信号110が小画素ブロック単位、例えばマクロブロック単位に分割され、動画像符号化装置100に入力される。ここで入力画像信号110とは、フレーム及びフィールドの両方を含む1つの符号化の処理単位(ピクチャ)を意味している。また、ここでは、マクロブロックを符号化処理の基本的な処理ブロックサイズとする。マクロブロックは、典型的に例えば図4Aに示すような16×16画素ブロックであるが、32×32画素ブロック単位であっても8×8画素ブロック単位であってもよく、またマクロブロックの形状は正方格子である必要は必ずしもない。以下、入力画像信号110の符号化対象マクロブロックを単に対象ブロックという。本実施形態では、説明を簡単にするために図4Aに示されているように左上から右下に向かって符号化処理がなされていくものとする。
In the moving image encoding apparatus having the above configuration, the input image signal 110 of a moving image or a still image is divided into small pixel blocks, for example, macroblocks, and input to the moving
動画像符号化装置100は、ブロックサイズや予測画像信号117の生成方法の異なる複数の予測モードが用意されている。予測画像信号117の生成方法は、具体的には大きく分けて符号化対象のフレーム内(フィールド内)だけで予測画像を生成するイントラ予測(フレーム内予測)と、時間的に異なる複数の参照フレーム(参照フィールド)を用いて予測を行うインター予測(フレーム間予測)がある。
The moving
次に、動画像符号化装置100による符号化の流れを説明する。まず、入力画像信号110が、最初に減算器101へと入力される。減算器101には、後述する予測部106から出力された各々の予測モードに応じた予測画像信号117が更に入力される。減算器101は、入力画像信号110から予測画像信号117を減算した予測誤差信号111を算出する。減算器101で生成され、出力された予測誤差信号111は変換・量子化部102へと入力される。変換・量子化部102では、予測誤差信号111に対して例えば離散コサイン変換(DCT)のような直交変換が施されることにより、変換係数が生成される。
Next, the flow of encoding by the moving
変換・量子化部102は、符号化制御部107によって与えられる量子化パラメータ、量子化マトリクス等に代表される量子化情報に従って変換係数を量子化する。量子化後の変換係数112は変換・量子化部102から出力され、符号列符号化部108へと入力されるとともに、逆量子化・逆変換部103へも出力される。ここで、変換・量子化部102における変換には、H.264で用いられているような離散コサイン変換について説明したが、離散サイン変換、ウェーブレット変換や独立成分解析などの手法を用いてもよい。
The transform /
符号列符号化部108では、量子化後の変換係数112と共に、符号化制御部107から出力された予測情報119などを含んだ、対象ブロックを符号化したときに用いた様々な符号化パラメータに対してエントロピー符号化、例えばハフマン符号化や算術符号化などが行われ、符号化データが生成される。ここで符号化パラメータとは、予測情報119はもとより、変換係数に関する情報、量子化に関する情報、などの復号の際に必要になるあらゆるパラメータを指す。
In the code
符号列符号化部108により生成された符号化データ118は動画像符号化装置100から出力され、多重化器(図示せず)によって復号に必要なパラメータと多重化され、出力バッファ109に一旦蓄積される。出力バッファ109の符号化データ118は、符号化制御部107が管理する出力タイミングに従って動画像符号化装置100外へ出力される。符号化データ118は、図示しない蓄積系(蓄積メディア)または伝送系(通信回線)へ送出される。
The encoded data 118 generated by the code
一方、変換・量子化部102から出力された量子化後の変換係数112は、逆量子化・逆変換部103へと入力される。逆量子化・逆変換部103では、変換係数112は最初に逆量子化処理が行われる。ここでは、変換・量子化部102で使用されたものと同様の量子化パラメータ、量子化マトリクス等に代表される量子化情報が、符号化制御部107からロードされて変換係数112は逆量子化処理が行われる。
On the other hand, the quantized transform coefficient 112 output from the transform /
逆量子化後の変換係数は、逆離散コサイン変換(IDCT)のような逆直交変換が施されることによって、復号後の予測誤差信号113が再生される。復号予測誤差信号113は、加算器104に入力される。加算器104では、復号予測誤差信号113と予測部106から出力された予測画像信号117とが加算されることにより、復号画像信号114(局所復号画像信号)が生成される。復号画像信号114は、参照画像メモリ105に参照画像信号116として蓄積される。参照画像メモリ105に蓄積された参照画像信号116は、予測部106に出力され予測の際などに参照される。予測部106から出力された動領域分離マスク115は参照画像メモリ105に入力され、同時刻の復号画像信号114とともに参照画像メモリ105内に蓄積される。以後、参照画像信号116とは、同一時刻に符号化又は局所復号化処理された復号画像信号114と動領域分離マスク115のセットを指す。
The inverse-quantized transform coefficient is subjected to inverse orthogonal transform such as inverse discrete cosine transform (IDCT), thereby reproducing the decoded prediction error signal 113. The decoded prediction error signal 113 is input to the adder 104. The adder 104 adds the decoded prediction error signal 113 and the predicted image signal 117 output from the
予測部106では、参照画像メモリ105に蓄積された参照画像信号116の画素(復号化済み参照画素と生成済みの動領域分離マスクの画素)を利用して、インター予測またはイントラ予測が行われ、対象ブロックに対して選択可能な予測画像信号117が生成される。ただし、H. 264のイントラ予測、例えば図4Cに示される4×4画素ブロックに対応するイントラ予測または図4Dに示される8×8画素ブロックに対するイントラ予測のように、対象ブロック内で局部復号信号を作成しないと次の予測ができないような予測モードに関しては、予測部106の内部で変換/量子化及び逆量子化/逆変換或いは、それぞれ対応する画素ブロック毎の復号化処理などを行ってもよい。
The
図2に予測部106のブロック図を示す。予測部106は、イントラ予測部201、インター予測部202、動きベクトル推定部203、モード判定スイッチ204、モード判定部205を備えている。予測部106に参照画像信号116が入力されると、イントラ予測部201とインター予測部202は、画素ブロックにおける利用可能な予測モードの予測画像信号117を生成する。それぞれの予測方法については後述する。イントラ予測部201で生成された予測画像信号とインター予測部202で生成された予測画像信号がモード判定スイッチ204へと出力される。モード判定スイッチ204は、入力されてきた予測画像信号のどちらを利用するかを切り替える機能を有する。スイッチを切り替える情報は、モード判定部205から提供される予測情報206に基づいている。モード判定部205の動作については後述する。
FIG. 2 shows a block diagram of the
イントラ予測部201における予測モードの例として、H.264のイントラ予測について説明する。H.264のイントラ予測では、4×4画素イントラ予測(図4C参照)、8×8画素イントラ予測(図4D参照)、16x16画素イントラ予測(図4B参照)が規定されている。このイントラ予測では、参照画像メモリ105に保存されている参照画像信号116から、補間画素を作成し、空間方向にコピーすることによって予測値を生成する。
As an example of the prediction mode in the
次に、図3を参照してインター予測部202の構成及び動作を説明する。図3によると、インター予測部202は参照画像信号116が入力される動き補償部301及び動領域分離予測部302並びに背景画像生成部303を備えている。動領域分離予測部302には、動領域分離予測するために動領域分離マスク115,参照画像信号116,動きベクトル207及び背景画像信号306が入力される。動き補償部301及び動領域分離予測部302は予測分離スイッチ305によって切換えられる。予測分離スイッチ305の切換えは予測切換部304によって行われる。
Next, the configuration and operation of the
上記構成のインター予測部202では、図2の動きベクトル推定部203で算出された予測対象ブロックの動きベクトル207と参照画像信号116を元に、補間処理を行って予測画像信号117を生成する。図5にインター予測の動き補償予測の一例を示す。インター予測では、参照画像メモリ105に蓄積されている複数の参照画像信号116を用いて補間処理を行い、作成した補間画像と原画像信号との同位置の画素ブロックからのズレ量を元に予測画像信号117が生成される。補間処理としては、1/2画素精度の補間処理や、1/4画素精度の補間処理などが用いられ、参照画像信号116に対してフィルタリング処理を行うことによって、補間画素の値を生成する。例えば輝度信号に対して1/4画素精度までの補間処理が可能なH.264では、ズレ量は整数画素精度の4倍で表現される。このズレ量を動きベクトルと呼ぶ。
The
インター予測では、複数の予測ブロックの中から現在の予測対象ブロックに適したブロックサイズを選択することが可能である。図6Aにマクロブロック単位の動き補償ブロックのサイズを、図6Bにサブブロック(8×8画素ブロック以下)単位の動き補償ブロックのサイズを示す。これらの予測ブロックのサイズ毎に、動きベクトルを求めることが可能であるため、入力画像信号110の局所的な性質に従って、最適な予測ブロックの形状と動きベクトルを利用することが可能である。また、どの参照画像信号に対して動きベクトルを計算したかの情報はRef_idxとして最小で8×8画素ブロック毎に変更することが可能である。 In inter prediction, a block size suitable for the current prediction target block can be selected from among a plurality of prediction blocks. FIG. 6A shows the size of the motion compensation block in units of macroblocks, and FIG. 6B shows the size of the motion compensation block in units of sub-blocks (8 × 8 pixel blocks or less). Since a motion vector can be obtained for each size of these prediction blocks, an optimal prediction block shape and motion vector can be used in accordance with the local nature of the input image signal 110. Further, information on which reference image signal is calculated for the motion vector can be changed as a minimum for each 8 × 8 pixel block as Ref_idx.
次に、動きベクトル推定部203について説明する。動きベクトル推定部203は、入力画像信号110と参照画像信号116を用いて、予測対象ブロックに適した動きベクトル207を算出する機能を有する。動きベクトル207の算出では、入力画像信号110の予測対象ブロックと、参照画像信号116の補間画像との間でブロックマッチングを行う。マッチングの評価基準としては、入力画像信号110とマッチング後の補間画像との差分を画素毎に累積した値を用いる。最適な動きベクトル207の決定では、前述した方法の他に予測された画像と原画像との差を変換した値を用いても良いし、動きベクトルの大きさを加味したり、動きベクトルの符号量などを加味したりして、判定してもよい良い。また後述する式(1)(2)などを利用しても良い。また、マッチングのやり方は、符号化装置の外部から提供される探索範囲情報に基づいてマッチングの範囲内を全探索しても良いし、画素精度毎に階層的に実施しても良い。
Next, the motion
このようにして複数の参照画像信号(時間的に異なる局部復号画像信号を指す)に対して算出された動きベクトル207は、インター予測部202へと入力され、予測画像信号117の生成に利用される。算出された動きベクトル207は、対応する画素ブロック形状などの予測に係わる情報とともに予測情報119として符号化制御部107に保持され、符号列符号化部108へ予測情報119として渡されて、エントロピー符号化された後、符号化データに多重化される。
The motion vector 207 calculated for a plurality of reference image signals (pointing to locally decoded image signals that are temporally different) in this way is input to the
次に、モード判定部205について概要を説明する。モード判定部205は、現在符号化しているスライスの情報に応じて、スイッチ切替情報206をモード判定スイッチ204へ出力する。スイッチ切替情報206には、イントラ予測部201の出力端とインター予測部202の出力端のどちらと、スイッチを繋ぐかの情報が記述されている。
Next, an outline of the
次に、モード判定部205の機能を説明する。現在符号化しているスライスがイントラ符号化スライスである場合、モード判定部205は、モード判定スイッチ204の出力端をイントラ予測部201に接続する。一方、現在符号化しているスライスがインター符号化スライスである場合、モード判定部205はモード判定スイッチ204をイントラ予測部201の出力端に繋ぐか、インター予測部202の出力端へ繋ぐかを判定する。
Next, the function of the
より具体的に説明すると、上記の場合、モード判定部205では次式(1)のようなコストを用いたモード判定を行う。予測モードを選択した際に必要となる予測情報119に関する符号量(例えば動きベクトルの符号量やブロック形状の符号量など)をOH、入力画像信号110と予測画像信号117の差分絶対和(予測誤差信号111の絶対累積和を意味する)をSADとすると、以下のモード判定式を用いる。
ここでKはコスト、λは定数をそれぞれ表す。λは量子化スケールや量子化パラメータの値に基づいて決められるラグランジュ未定乗数である。このようにして得られたコストKを基に、モード判定が行われる。すなわち、コストKが最も小さい値を与えるモードが最適な予測モードとして選択される。 Here, K represents a cost, and λ represents a constant. λ is a Lagrangian undetermined multiplier determined based on the quantization scale and the value of the quantization parameter. The mode determination is performed based on the cost K obtained in this way. That is, the mode that gives the smallest value of cost K is selected as the optimal prediction mode.
モード判定部205においては、式(1)に代えて(a)予測情報119のみ、(b)SADのみ、を用いてモード判定を行ってもよいし、これら(a)予測情報119のみ、(b)SADのみにアダマール変換を施した値、またはそれに近似した値を利用してもよい。さらに、モード判定部205において入力画像信号110のアクテビティ(信号値の分散)を用いてコストを作成してもよいし、量子化スケールまたは量子化パラメータを利用してコスト関数を作成してもよい。
The
さらに別の例として、仮符号化ユニットを用意し、仮符号化ユニットによりある予測モードで生成された予測誤差信号111を実際に符号化した場合の符号量と、入力画像信号110と復号画像信号114との間の二乗誤差を用いてモード判定を行ってもよい。この場合のモード判定式は、以下のようになる。
ここで、Jは符号化コスト、Dは入力画像信号110と復号画像信号114との間の二乗誤差を表す符号化歪みである。一方、Rは仮符号化によって見積もられた符号量を表している。 Here, J is an encoding cost, and D is an encoding distortion representing a square error between the input image signal 110 and the decoded image signal 114. On the other hand, R represents a code amount estimated by provisional encoding.
式(2)の符号化コストJを用いると、予測モード毎に仮符号化と局部復号処理が必要となるため、回路規模または演算量は増大する。反面、より正確な符号量と符号化歪みを用いるため、高い符号化効率を維持することができる。式(2)に代えてRのみ、またはDのみを用いてコストを算出してもよいし、RまたはDを近似した値を用いてコスト関数を作成してもよい。 When the encoding cost J of Expression (2) is used, provisional encoding and local decoding processing are required for each prediction mode, so that the circuit scale or the amount of calculation increases. On the other hand, since a more accurate code amount and encoding distortion are used, high encoding efficiency can be maintained. The cost may be calculated using only R or only D instead of Equation (2), or the cost function may be created using a value approximating R or D.
以上のようにして、イントラ予測部201で生成された予測画像信号を選ぶか、インター予測部202で生成された予測画像信号を選ぶか、を判定し、モード判定スイッチ204の出力端を切り替える。ここで選択された予測モードの予測画像信号117が予測部106から出力されて、減算器101へ入力されるとともに、加算器104へ出力される。
As described above, it is determined whether the prediction image signal generated by the
次に、インター予測部202についてより詳細に説明する。図3にインター予測部202のブロック図が示されている。インター予測部202は、上述したように動き補償部301、動領域分離予測部302、背景画像生成部303、予測切替部304、予測分離スイッチ305を備えている。
Next, the
参照画像メモリ105から出力された参照画像信号116は、予測部106へと入力され、インター予測部202へと入力される。同時に動きベクトル推定部203で推定された動きベクトル207が入力される。動き補償部301では、まず動きベクトル207の情報に従って、予測画素ブロックの位置から、次式(3)を用いて動きベクトル207で参照されている位置を割り出す。ここでは前述の通り、H.264の1/4画素精度の補間を例に挙げて説明する。つまり、動きベクトルの各成分が4の倍数である場合は、整数画素位置を指していることを意味する。それ以外の場合は、分数精度の補間位置に対応する予測位置であることがわかる。
ここで、(x,y)は予測対象ブロックの先頭位置を表す垂直、水平方向のインデックスであり、(x_pos,y_pos)は参照画像信号の対応する予測位置を表している。(mv_x,mv_y)は1/4画素精度を持つ動きベクトルを示している。次に割り出した画素位置に対して、参照画像信号116の対応する画素位置の補填又は補間処理によって予測画素を生成する。 Here, (x, y) is an index in the vertical and horizontal directions representing the start position of the prediction target block, and (x_pos, y_pos) represents the corresponding predicted position of the reference image signal. (mv_x, mv_y) represents a motion vector having a 1/4 pixel accuracy. Next, predicted pixels are generated by interpolation or interpolation processing of corresponding pixel positions of the reference image signal 116 with respect to the determined pixel positions.
図7にH.264の予測画素生成の例を示す。図中大文字で示されるアルファベット(斜線で表示された正方形)は整数位置の画素を示しており、網掛けで表示されている正方形は1/2画素位置の補間画素を示している。また、白塗りで表示された正方形は1/4画素位置に対応する補間画素を示している。例えば、図中でアルファベットb、hの位置に対応する1/2画素の補間処理は次式(4)で算出される。
また、図中でアルファベットa、dの位置に対応する1/4画素の補間処理は次式(5)で算出される。
このように1/2画素位置の補間画素は、6タップFIRフィルタ(タップ係数:(1,−5,20,20、−5,1)/32)を用いて生成し、1/4画素位置の補間画素は、2タップの平均値フィルタ(タップ係数:(1/2,1/2))を用いて算出される。4つの整数画素位置の中間に存在するアルファベットjに対応する1/2画素の補間処理は、垂直方向6タップと水平方向6タップの両方向を行うことによって生成される。説明した以外の画素位置も同様のルールで補間値が生成できる。以上が、動き補償部301おける予測画像信号生成の例である。
Thus, the interpolation pixel at the 1/2 pixel position is generated using a 6-tap FIR filter (tap coefficient: (1, -5, 20, 20, -5, 1) / 32), and the 1/4 pixel position is obtained. These interpolation pixels are calculated using a 2-tap average value filter (tap coefficients: (1/2, 1/2)). The interpolation process of 1/2 pixel corresponding to the alphabet j existing in the middle of the four integer pixel positions is generated by performing both directions of 6 taps in the vertical direction and 6 taps in the horizontal direction. Interpolated values can be generated by the same rule for pixel positions other than those described. The above is an example of predictive image signal generation in the
次に、背景画像生成部303について説明する。背景画像生成部303は、入力された参照画像信号116を用いて、背景画像信号306及び動領域分離マスク115を生成する機能と、生成した背景画像信号306を保持するメモリとしての機能を有する。まず、動領域分離マスク115の生成について説明する。動領域分離マスク115は、参照画像信号116で提供された各々の時刻で復号された復号画像信号114に対してそれぞれ1つずつ存在する。動領域分離マスク115は、同時刻に復号された復号画像信号114の各画素に対して、それ以前に復号された復号画像信号114との時間的な輝度変化(差分値)が予め定めた規定値THよりも小さい場合に背景画素と認定し、輝度変化が規定値THを超える場合を動画素と判定する2値のマスクマップである。
利用可能な参照画像信号116が複数ある場合は、時間方向に同位置の全ての画素に対して差分値を算出して、後述する代表値を確定し、確定した差分値に対して規定値を用いて背景画素であるか、動画素であるかを判定する。
ここで、LDは局所復号画像信号を表している。sは時間方向の変位を表すインデックスであり、s=0は予測対象画像そのものを指している。例えば参照画像信号のインデックスに対応する。図8に複数の参照画像信号に対して差分値を求める際の参照画素と対象画素の対応関係を示す。wは時間的な距離に応じて重み付けを行う変数である。例えば時間的に近い復号画像信号に対して大きな重みを与え、時間的に距離の遠い復号画像信号に対しては小さな重みを与えることによって、時間相関を考慮することが可能となる。図9に予測対象画素ブロックからの時間的距離に応じて重みwを変える例を示す。 Here, LD represents a locally decoded image signal. s is an index representing the displacement in the time direction, and s = 0 indicates the prediction target image itself. For example, it corresponds to the index of the reference image signal. FIG. 8 shows the correspondence between reference pixels and target pixels when obtaining difference values for a plurality of reference image signals. w is a variable that performs weighting according to a temporal distance. For example, it is possible to consider temporal correlation by giving a large weight to a decoded image signal close in time and giving a small weight to a decoded image signal far in time. FIG. 9 shows an example in which the weight w is changed according to the temporal distance from the prediction target pixel block.
尚、上記では単純に差分値のみによって画素の領域判定を行う例を示したが、代表値を決める指標として、利用可能な複数の復号画像信号間(時間方向)の画素の差分値の絶対和、差分値の最大値、差分値の平均値、差分値のメディアン値、差分値の分散を用いて判定しても良いし、復号画像信号の領域判定を行う画素に隣接する画素(空間方向)の差分値の絶対和、差分値の最大値、差分値の平均値、差分値のメディアン値、差分値の分散、などの指標を用いて判定しても良い。 In addition, although the example which performs pixel area | region determination only with only a difference value was shown above, the absolute sum of the difference value of the pixel between several decoding image signals which can be used (time direction) is used as an index for determining a representative value. The maximum difference value, the average value of the difference values, the median value of the difference values, and the variance of the difference values may be used for the determination, or the pixels adjacent to the pixel that performs the region determination of the decoded image signal (in the spatial direction) Determination may be made using indices such as the absolute sum of the difference values, the maximum value of the difference values, the average value of the difference values, the median value of the difference values, and the variance of the difference values.
また、一度生成した動領域分離マスクに対して補正を行っても良い。例えば、生成した動領域分離マスクの補正対象画素において、隣接位置に対応する上下左右の4点、或いは対角方向も含めた9点のマスクの値を用いて、孤立点となるような領域を補正したり、予測ブロック形状に合わせてブロック境界のマスクの値を修正したりしても良い。この場合の例を次式(8)で示す。
ここで(i,j)は、対象画素に隣接する画素のインデックスを示しており、(i,j)=(0,0)は補正対象画素を示している。図10に対象画素と隣接画素の関係を示す。丸印の密度が高くなるほど対象画素との距離が離れることを意味している。また、vは隣接画素の位置関係に応じて重み付けを行う変数である。例えば、空間的距離が近い(i,j)=(0,1)、(1,0)、(0,-1)、(-1,0)に対して重みを大きくし、空間的距離が大きい(i,j)=(1,1)、(1,-1)、(-1,1)、(-1,-1)などの画素の重みを小さくする、などの空間的相関を考慮するために利用される。 Here, (i, j) indicates an index of a pixel adjacent to the target pixel, and (i, j) = (0,0) indicates a correction target pixel. FIG. 10 shows the relationship between the target pixel and adjacent pixels. It means that the distance from the target pixel increases as the density of the circles increases. Further, v is a variable that performs weighting according to the positional relationship between adjacent pixels. For example, when the spatial distance is close (i, j) = (0,1), (1,0), (0, -1), (-1,0), the weight is increased and the spatial distance is Consider spatial correlation such as reducing the weight of pixels such as large (i, j) = (1,1), (1, -1), (-1,1), (-1, -1) To be used.
図11に空間方向の市街地距離に応じて、重みvを変更する例を示す。算出されたDiffが予め定めた規定値TVより大きい場合は、隣接画素の動領域分離マスクの値が異なっており、相関が低いと判定できることから、対象画素のマスクの値を変更する。一方、規定値TVより小さい場合は、空間相関が高いために値を変更しない、などの処理を行う。このように空間方向に対して重みvを適切に設定することによって、生成された動領域分離マスクを補正することができ、孤立点の除去、不連続点の連結、矩形ブロックへの領域拡大・縮小、エッジ修正、画素補填、画素マッチング等が可能となる。尚、本実施の形態では、市街地距離による重み変更例を示したが、距離の定義は市街地距離、マンハッタン距離などを含む、ミンコフスキー距離の中から1つを用いて計算することが可能である。 FIG. 11 shows an example in which the weight v is changed according to the city area distance in the spatial direction. When the calculated Diff is larger than the predetermined value TV, the value of the moving region separation mask of the adjacent pixel is different and it can be determined that the correlation is low, so the mask value of the target pixel is changed. On the other hand, when the value is smaller than the specified value TV, processing such as not changing the value because the spatial correlation is high is performed. By appropriately setting the weight v in the spatial direction in this way, the generated moving region separation mask can be corrected, and isolated points are removed, discontinuous points are connected, and the region is expanded to a rectangular block. Reduction, edge correction, pixel compensation, pixel matching, and the like are possible. In this embodiment, an example of changing the weight based on the city distance is shown, but the definition of the distance can be calculated using one of the Minkowski distances including the city distance, the Manhattan distance, and the like.
次に、背景画像信号306の生成について説明する。背景画像信号306とは、時間方向で輝度変化が少ない背景領域のみを集めた信号となっており、動領域分離マスク115と時間的に最近接の復号画像信号114に基づいて画素毎に導出される。前述した動領域分離マスク115から次式(9)を用いて背景画像信号306を生成する。
ここでBGは背景画像信号306を表しており、LDは更新するフレームに対して時間的に最近接の復号画像信号114を表している。 Here, BG represents the background image signal 306, and LD represents the decoded image signal 114 closest in time to the frame to be updated.
上式の通り、当該時刻の背景画像信号306の更新時は、参照画像信号116の中の時間的に最近接の復号画像信号114と動領域分離マスク115を利用し、マスクの値が0(背景画素の場合)のみ、最近接の復号画像信号114と更新前の背景画像信号306の重み付き和で更新が行われる。重み付き和は例えばwt=1/2に設定することで平均値フィルタとなる。一方、マスクの値が1(動画素)の場合には、更新は行われない。尚、背景画像信号306の初期値は、予め定めた輝度値(例えば輝度信号であれば0や最大輝度値(8ビットでは256)、色差信号であれば中間輝度値(8ビットで128))で埋めておいても良いし、画面内予測だけで符号化されるようなI-sliceの輝度値を用いたりしても良い。背景画像信号306のリフレッシュは、入力画像信号においてシーンチェンジが行われるような場合や、IDRピクチャが挿入される場合に行われる。本実施の形態ではI-sliceのタイミングで必ず背景画像信号306のリフレッシュが行われる例を示している。以上のような過程で背景画像信号306が適切なタイミングで更新される。 As shown in the above equation, when the background image signal 306 at that time is updated, the decoded image signal 114 and the moving region separation mask 115 that are temporally closest in the reference image signal 116 are used, and the mask value is 0 ( Only in the case of a background pixel, the update is performed with the weighted sum of the nearest decoded image signal 114 and the background image signal 306 before the update. The weighted sum becomes an average value filter by setting, for example, wt = 1/2. On the other hand, when the mask value is 1 (moving pixel), the update is not performed. The initial value of the background image signal 306 is a predetermined luminance value (for example, 0 or maximum luminance value (256 for 8 bits) for luminance signals, and intermediate luminance value (128 for 8 bits) for color difference signals). It is also possible to use I-slice luminance values that are encoded only by intra prediction. The background image signal 306 is refreshed when a scene change is performed in the input image signal or when an IDR picture is inserted. In this embodiment, an example is shown in which the background image signal 306 is always refreshed at the timing of I-slice. In the above process, the background image signal 306 is updated at an appropriate timing.
尚、背景画像信号306は、背景画像生成部303の内部メモリに保持されており、更新された信号が動領域分離予測部302へと出力される。また、生成された動領域分離マスク115は、インター予測部202から出力され、予測部106を経て、同じ時刻の復号画像信号114とともに参照画像信号105として参照画像メモリ105へと保存される。
The background image signal 306 is held in the internal memory of the background
ここでは、時間的に最近接の復号画像信号を用いた例を説明したが、(1)ディスプレイの表示時間的に利用可能な最近接の参照画像の画素値を補填する方法、(2)符号化の実行時間的に利用可能な最近接の参照画像の画素値を補填する方法、(3)次に符号化される画像に対して時間的に利用可能な最近接の参照画像の画素値を補填する方法、(4)前記背景画像メモリに蓄積されている画素と前記表示時間的に利用可能な最近接の参照画像の画素の線形和で生成された画素を補填する方法、(5)前記背景画像メモリに蓄積されている画素と前記符号化時間的に利用可能な最近接の参照画像の画素の線形和で生成された画素を補填する方法、(6)前記背景画像メモリに蓄積されている画素と前記次に符号化される画像に時間的に利用可能な最近接の参照画像の画素の線形和で生成された画素を補填する方法、の中からいずれか1つの方法を利用してもよい。 In this example, the example using the decoded image signal closest to the time has been described. (1) A method of compensating for the pixel value of the closest reference image that can be used for the display time of the display. (3) The pixel value of the nearest reference image that can be temporally used for the next encoded image is calculated. A method of compensating, (4) a method of compensating for a pixel generated by a linear sum of a pixel stored in the background image memory and a pixel of the nearest reference image usable in display time, and (5) the above A method of compensating for a pixel generated by a linear sum of a pixel stored in a background image memory and a pixel of the nearest reference image usable in the encoding time; (6) stored in the background image memory; Of the nearest reference image that is temporally available for the current pixel and the next encoded image. How to compensate for pixels generated by the linear sum of elementary may utilize any one of the methods from the.
次に、動領域分離予測部302について説明する。動領域分離予測部302は、動きベクトル推定部203から出力された動きベクトル207、参照画像メモリ105から出力された参照画像信号116、及び背景画像信号生成部303から出力された背景画像信号306が入力される。動領域分離予測部302は、入力された動領域分離マスク115を用いて、動領域に対して動き補償処理を、背景領域に対しては、背景画像信号の補填を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル207を用いて動領域分離マスク115にもマッチングを行う。つまり、動き補償部301の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク115にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。1/4画素精度の動き補償処理の場合の整数画素位置へのマッピングは次式(10)で表される。
ここで、(mv_x,mv_y)はそれぞれ1/4画素精度の動きベクトルの水平成分、垂直成分を表しており、(imv_x,imv_y)はそれぞれ整数画素精度の動きベクトルの水平成分、垂直成分を表している。導出された整数精度の動きベクトルを用いて次式(11)のようにして動領域分離予測が行われる。
ここでPは動領域分離予測によって生成される予測画像信号を表している。MCは、動き補償予測部301で行われる動き補償予測によって生成される予測画像信号であり、既に動き補償部301の説明で詳細を述べているため、ここでは説明を省略する。例えば図7で生成された補間画素a、b、jなどの値や整数画素G、H、Mなどの値が予測画像信号MCに入る。同時刻の復号画像信号114と動領域分離マスク115に対して動きベクトル207が適用され、動領域に対しては通常の動き補償予測を、背景領域に対しては背景画像信号306を補填することによって、動オブジェクトの形状によらずに予測精度を上げることが可能となる。図12に、参照画像信号が時間方向に4枚利用可能な場合の、復号画像信号114と動領域分離マスク115の例と背景画像信号306の例を示す。このようにして作成された予測画像信号が動領域分離予測部302から出力されるとともに、この時利用したブロック形状、動きベクトルなどの予測情報119が、符号化制御部107に記録される。
Here, P represents a predicted image signal generated by moving region separation prediction. MC is a predicted image signal generated by the motion compensation prediction performed by the motion
次に、予測切替部304と予測分離スイッチ305について説明する。予測切替部304は、入力されてきた動領域分離マスク115の情報に基づいて、予測分離スイッチ305を制御するための予測切替情報307を出力する。予測分離スイッチ305は、予測切替情報307に従って、スイッチの出力端を動き補償部301側に接続するか、動領域分離予測部302側に接続するかを切り替える機能を有する。より具体的に説明すると、当該予測対象画素ブロック内に含まれる動領域分離マスクの比率を算出し、動領域が予め設定した規定値TPより大きいか、小さいかによって予測切替情報307を更新する。例えば、予測対象とした8×8画素ブロック内に含まれる64個のマスク値の内、4個の画素のみが0を、残り60個の画素が1を取っている場合、対象とする画素ブロックは9割以上が動領域であるため、スイッチの出力端を動き補償部301へと接続する。このように、予測対象画素ブロック内の動領域分離マスクの比率を算出し、この比率の値の大きさによって、どちらの予測部と接続するかを動的に切り替えることができる。図13に、TP=90%に設定した場合の切替の例を示している。このようにして、予測対象画素ブロックのインター予測の予測方法(動き補償予測と動領域分離予測)が切り替えられ、インター予測部202から予測画像信号117が出力される。
Next, the
次に、図15を用いてインター予測部202内の背景画像生成部303の処理フローを説明する。まず、背景画像生成部303で行われる動領域分離マスク115の生成と背景画像信号306の更新は、1枚のフレーム又はスライスの符号化処理或いは局所復号処理が完了した後、或いは次のフレーム又はスライスの符号化処理が行われる直前に行われる(S501)。まず、背景画像生成部303は、現在の符号化スライス(次に予測が行われる符号化スライス)のスライスの種類をチェックする。当該符号化スライスがイントラ符号化スライス(I-slice)である場合(S502の判定がYES)、背景画像信号306が初期化される(S503)。当該符号化スライスがI-slice以外の場合(S502の判定がNO)、参照画像信号116を用いて、動領域分離マスク115が生成される(S504)。更に参照画像信号116と生成された動領域分離マスク115などを用いて背景画像信号306の更新を行う(S505)。この背景画像信号306は、背景画像生成部303に存在する内部メモリに保持されている。生成した動領域分離マスク115が出力(S506)されるとともに、背景画像信号306が動領域分離予測部302へと出力される(S507)。次に、当該符号化スライスが最終符号化フレームかどうかの判定(S508)が行われ、かかる判定がNOの場合、当該符号化スライスが符号化されるのを待って、処理がS502へと戻る。一方かかる判定がYESの場合、処理を終了する(S509)。
Next, a processing flow of the background
次に図16を用いて、上述した詳細機能を除いた、インター予測部202内の背景画像生成部303の全体の処理フローを説明する。動領域分離予測部302へ、動きベクトル207と参照画像信号116及び背景画像信号306が入力されると(S601)、入力ベクトル207を用いて参照画像信号116中の対応する復号画像信号114の予測位置を導出する(S602)。次に動きベクトル207を用いて整数精度の動きベクトルを導出し、動領域分離マスクの対応位置を導出する(S603)。また、動領域分離マスク115内の予測対象ブロック内に含まれる動画素の比率を算出する(S604)。算出された動画素の比率が予め設定した規定値TPよりも大きいかどうかをチェックする(S605)。かかる判定がYESの場合、画素idxを0に初期化し(S613)、画素idxに対応する画素に対して動き補償予測処理を行い(S614)、画素idxをインクリメントする(S616)。インクリメント後の画素idxが予め定めた対象予測ブロックの最後の画素に対応する値であるかどうかを判定し(S616)、かかる判定がNOの場合は、インクリメントされた画素idxで再度画素idxに対応する画素に対して動き補償予測を行う(S614)。一方、かかる判定がYESの場合、予測画像信号117を出力(S617)して処理を終了する(S618)。
Next, an overall processing flow of the background
S605の判定がNOの場合、まず、画素idxを0に初期化する。画素idxに対して、動領域分離マスクの対応する位置の値をチェックし(S607)、当該画素のマスク値が動画素であった場合(S607がYES)、当該画素に対して動き補償予測処理を実施する(S612)。一方、当該画素のマスク値が背景画素であった場合(S607がNO)、背景画像信号の予測位置を導出し(S608)、当該予測位置の背景画像信号を補填する(S609)。次に、画素idxの値をインクリメントし(S610)、画素idxが予め定めた対象予測ブロックの最後の画素に対応する値であるかどうかを判定し(S611)、かかる判定がNOの場合は、インクリメントされた画素idxで再度動領域分離マスクの対応する位置の値をチェックする(S607)。かかる判定がYESの場合、予測画像信号117を出力(S617)して処理を終了する(S618)。フローチャートの各ステップの内、S604、S605は予測切替部304の有する機能であり、ステップS613-S616までは動き補償部301が有する機能である。また、ステップS602、S603及びS607−S611までが主に動領域分離予測部302が有する機能である。
If the determination in S605 is NO, the pixel idx is first initialized to 0. The value of the corresponding position of the moving region separation mask is checked for the pixel idx (S607), and if the mask value of the pixel is a moving pixel (YES in S607), motion compensation prediction processing is performed for the pixel (S612). On the other hand, when the mask value of the pixel is a background pixel (NO in S607), a predicted position of the background image signal is derived (S608), and the background image signal at the predicted position is compensated (S609). Next, the value of the pixel idx is incremented (S610), and it is determined whether or not the pixel idx is a value corresponding to the last pixel of the target prediction block determined in advance (S611). The value of the corresponding position of the moving region separation mask is checked again with the incremented pixel idx (S607). If this determination is YES, the predicted image signal 117 is output (S617) and the process is terminated (S618). Among the steps of the flowchart, S604 and S605 are functions that the
次に、本動画像符号化装置100におけるシンタクス構造について説明する。図23に示すとおり、シンタクスは主に3つのパートからなり、ハイレベルシンタクス1601は、スライス以上の上位レイヤのシンタクス情報が詰め込まれている。スライスレベルシンタクス1602では、スライス毎に必要な情報が明記されており、マクロブロックレベルシンタクス1603では、マクロブロック毎に必要とされるデータが明記されている。
Next, a syntax structure in the moving
それぞれは、更に詳細なシンタクスで構成されており、ハイレベルシンタクス1601では、シーケンスパラメータセットシンタクス1604とピクチャパラメータセットシンタクス1605などのシーケンス、ピクチャレベルのシンタクスから構成されている。スライスレベルシンタクス1602では、スライスヘッダーシンタクス1605、スライスデータシンタクス1606などから成る。更に、マクロブロックレベルシンタクス1603は、マクロブロックレイヤーシンタクス1607、マクロブロックプレディクションシンタクス1608などから構成されている。
Each has a more detailed syntax. The high-
図24にスライスヘッダーシンタクスの例を示す。図中に示されるslice_motion_region_separation_flagは、インター予測部202中の予測切替部304から出力される予測切替情報307に利用される。slice_motion_region_separation_flagが0である場合、予測切替部304は、スライスにおいて常に動き補償予測部301の出力端を出力するように予測切替情報307を設定して予測分離スイッチ305を切り替える。つまり、必ず動き補償予測が行われることを意味している。一方、slice_motion_region_separation_flagが1である場合、前述の通り、スライスにおいて背景画像生成部303から出力された動領域分離マスク115の信号に基づいて動き補償予測と動領域分離予測が動的に切り替わる。
FIG. 24 shows an example of slice header syntax. The slice_motion_region_separation_flag shown in the figure is used for the prediction switching information 307 output from the
図25に符号化パラメータの例としてマクロブロックレイヤーシンタクスの例を示す。表中に示されるmb_typeは、マクロブロックタイプ情報を示している。すなわち、現在のマクロブロックがイントラ符号化されているか、インター符号化されているか、或いはどのようなブロック形状で予測が行われているか、などの情報を含んでいる。表中に示されるcoded_block_patternは、8×8画素ブロック毎に、変換係数が存在するかどうかを示している。例えばこの値が0である時、対象ブロックに変換係数が存在しないことを意味している。表中のmb_qp_deltaは、量子化パラメータに関する情報を示している。この情報は対象ブロックの1つ前に符号化されたブロックの量子化パラメータからの差分値を表している。表中のintra_pred_modeは、イントラ予測の予測方法を示す予測モードを示している。表中のref_idx_l0及びref_idx_l1は、インター予測が選択されているときに、対象ブロックがどの参照画像を用いて予測されたか、を表す参照画像のインデックスを示している。表中のmv_l0、mv_l1は動きベクトル情報を示している。表中のtransform_8x8_flagは、対象ブロックが8×8変換であるかどうかを示す変換情報を表している。 FIG. 25 shows an example of macroblock layer syntax as an example of encoding parameters. Mb_type shown in the table indicates macroblock type information. That is, it includes information such as whether the current macroblock is intra-coded, inter-coded, or in what block shape is predicted. “Coded_block_pattern” shown in the table indicates whether or not a transform coefficient exists for each 8 × 8 pixel block. For example, when this value is 0, it means that there is no transform coefficient in the target block. Mb_qp_delta in the table indicates information on the quantization parameter. This information represents a difference value from the quantization parameter of the block encoded immediately before the target block. Intra_pred_mode in the table indicates a prediction mode indicating a prediction method of intra prediction. Ref_idx_l0 and ref_idx_l1 in the table indicate the index of a reference image that indicates which reference image was used to predict the target block when inter prediction is selected. Mv_l0 and mv_l1 in the table indicate motion vector information. In the table, transform_8 × 8_flag represents conversion information indicating whether or not the target block is 8 × 8 conversion.
表中の行間には、本発明で規定していないシンタクス要素が挿入されることも可能であるし、それ以外の条件分岐に関する記述が含まれていても良い。或いは、シンタクステーブルを複数のテーブルに分割、統合することも可能である。また、必ずしも同一の用語を用いる必要は無く、利用する形態によって任意に変更しても良い。更に、当該マクロブロックレイヤーシンタクスに記述されている各々のシンタクスエレメントは、後述するマクロブロックデータシンタクスに明記されるように変更しても良い。 A syntax element not defined in the present invention can be inserted between the rows in the table, and other conditional branch descriptions may be included. Alternatively, the syntax table can be divided and integrated into a plurality of tables. Moreover, it is not always necessary to use the same term, and it may be arbitrarily changed depending on the form to be used. Furthermore, each syntax element described in the macroblock layer syntax may be changed as specified in a macroblock data syntax described later.
以上が、本発明に係わる動画像符号化装置100の説明である。
The above is the description of the moving
(第1の実施形態:変更例1:切替情報のシグナリング)
本実施の形態では、インター予測部202内の予測方法として、動き補償部301と動領域分離予測部302の2つを予測切替部304によって動的に切り替える例を示したが、動き補償予測と動領域分離予測の切替を動的に行わない実施の形態も可能である。この場合、どちらの予測方法が利用されたかのインデックスを符号化する必要が生じる。このインデックスは、予測切替情報307に記述されており、選択された予測画像信号117に対するインデックスが予測切替情報307に記述されるとともに、この情報は符号化制御部107に保持される。予測方法を用いて生成された予測画像信号117が符号化されるのと同時に、符号化制御部107から予測情報119として、保持されていた予測切替情報307がロードされ、符号列符号化部108へと入力されるとともに符号化処理が行われる。
(First Embodiment: Modification Example 1: Switching Information Signaling)
In the present embodiment, as an example of a prediction method in the
図14にマクロブロック毎に利用した予測方法を示すインデックスを符号化する例を示す。9割以上の画素が動画素である場合は、動き補償予測が選択され、背景画素で占められているマクロブロックは動領域分離予測を行っている。更に、動画素と背景画素の比率が規定値THMAXからTHMINの間に含まれる場合は、どちらの予測を利用したかを示すインデックスを符号化する。 FIG. 14 shows an example of encoding an index indicating a prediction method used for each macroblock. When 90% or more of the pixels are moving pixels, motion compensation prediction is selected, and the macroblock occupied by the background pixels performs moving region separation prediction. Further, when the ratio of the moving pixel and the background pixel is included between the specified values THMAX and THMIN, an index indicating which prediction is used is encoded.
図26に本実施の形態におけるマクロブロックレイヤーシンタクスの例を示す。図中に示されるmb_motion_region_separation_flagは、インター予測部202中の予測切替部304から出力される予測切替情報307に利用される。mb_motion_region_separation_flagが0である場合、予測切替部304は、マクロブロックにおいて常に動き補償予測部301の出力端を出力するように予測切替情報307を設定して予測分離スイッチ305を切り替える。つまり、必ず動き補償予測が行われることを意味している。一方、mb_motion_region_separation_flagが1である場合、予測切替部304は、当該マクロブロックにおいて常に動領域分離予測部302の出力端を出力するように予測切替情報307を設定して予測分離スイッチ305を切り替える。つまり、必ず動領域分離予測が行われることを意味している。SignalingFlagはmb_motion_region_separation_flagを符号化するかどうかを決定するための内部パラメータである。SignalingFlagが1の場合、動画素の比率が規定値THMAXからTHMINの間に含まれることを意味する。一方、SignalingFlagが0の場合、動画素の比率が規定値THMAXからTHMINの間に含まれないことを意味する。
FIG. 26 shows an example of macroblock layer syntax in the present embodiment. Mb_motion_region_separation_flag shown in the figure is used for the prediction switching information 307 output from the
(第1の実施形態:変更例2:予測画像信号の使いまわし)
本実施の形態では、動き補償部301と動領域分離予測部302をそれぞれ別々の予測方法として記述しているが、図16のフローチャートでも示したとおり、動領域分離予測部302内で動き補償部301と同様の予測方法も用いている。このように同様の処理を複数回行うことによる演算量の増加を避けるため、図17に示すように動き補償部301で算出した予測画像信号117を動領域分離予測部302へと入力する構造としても良い。或いは動き補償部301の機能を動領域分離予測部302と統合させても良い。
(First Embodiment: Modification Example 2: Reuse of Predictive Image Signal)
In this embodiment, the
(第1の実施形態:変更例3:切替構造の削除)
本実施の形態では、動き補償部301と動領域分離予測部302をそれぞれ別々の予測方法として記述しているが、予測方法を動領域分離予測302に単一化して、予測切替部304を削除する構造としても良い。図18に、動き補償部301、予測切替部304、予測分離スイッチ305を削除した実施例を示す。予測構造が簡略化するため、ハードウェア規模などの増大を防ぐことが可能となる。
(First embodiment: Modification 3: Deletion of switching structure)
In this embodiment, the
(第2の実施形態:グローバルMC)
本実施の形態では、動画像符号化装置100の構造は図2と同一であるため、説明を省略する。但し、予測部106の機能が異なっているため、予測701が設けられている。図19に第2の実施形態における予測部701の構造を示す。尚、既に説明した機能と同様の機能を持つものに対しては同じインデックスを与えて、その説明を省略する。尚、図2のインター予測部202とは、機能の違いのために異なるインデックスとしてインター予測部801が設けられている。
(Second embodiment: Global MC)
In the present embodiment, the structure of moving
予測部701では、インター予測部801に加えて、グローバルベクトル推定部802が備えられている。グローバルベクトル推定部802は、符号化フレーム毎、符号化スライス毎或いはマクロブロック毎に、カメラなどの撮像系の変化によって生じる画面全体の変化量を表すベクトル(グローバルMV(動きベクトル)803)を算出する機能を有する。本実施の形態では、画面全体の動きを求めるための枠組みとして平行移動モデルについて説明するが、動きのモデルとしてアフィン変換を用いたモデルや、相似変換、射影変換などに基づいたモデルを用いても良い。平行移動モデルでは、撮影した映像のカメラのパン・チルトに対応することが出来るが、アフィン変換モデルなどを使うことにより、拡大・縮小などにも対応が可能である。また、グローバルMVの精度は整数画素精度の場合について説明を行うが、前述の通り分数精度への拡張も容易である。
The
グローバルベクトル推定部802の基本的なベクトル推定機能は、既に説明した動きベクトル推定部203と同様であるが、ブロックなどの領域毎に算出した局所的な動きベクトル(ローカル動きベクトル)を統合して、グローバルMV803を算出する機能が追加されている。例えば4×4画素ブロックごとの画面内の動きベクトルを算出し、算出した動きベクトルのヒストグラムを作成する。局所的なブロックで算出した局所動きベクトルでは、画面内の移動オブジェクトの影響により、カメラの動きに追随できない場合がある。そこで、グローバルな動きベクトルを求めるため、この中でもっとも出現頻度が高い動きベクトルをグローバル動きベクトル702に設定する。グローバルベクトル推定部802で算出されたグローバルMV803は、インター予測部801へと入力される。
The basic vector estimation function of the global
次に、インター予測部801について説明する。図20はインター予測部801のブロック図である。第1の実施形態の背景画像生成部303及び動領域分離予測部302に、グローバルMV803が入力されている以外は図1と同一であるが、背景画像信号生成部901、動領域分離予測部902の処理が異なる。
Next, the
まず、背景画像生成部901について説明する。背景画像生成部901は、参照画像メモリ105から出力された参照画像信号116及びグローバルMV803が入力される。背景画像生成部901は、グローバルMV803を利用することによって、カメラが動いているような映像に対しても、背景画像信号306を生成することが可能である。まず、動領域分離マスク115の生成方法について説明する。動領域分離マスク115は、参照画像信号116とグローバルMV803を用いて次式(12)で算出される。
ここで、(gmv_x,gmv_y)はグローバルMV803の水平・垂直成分を表している。また、MCLDは、動き補償処理を施した復号画像信号を表しており、グローバルMV803が分数精度の場合は、動き補償部301で説明したような動き補償処理を適用する。例えば1/4画素精度の場合は、式中の(gmv_x,gmv_y)をそれぞれ(gmv_x/4,gmv_y/4)に置き換える。グローバルMV803が整数精度の場合は、式(12)のMCLDをLDに置き換えた処理となる。
Here, (gmv_x, gmv_y) represents the horizontal / vertical component of the
ここで、差分値の代表値を決める指標は、第1の実施形態で述べた方法を当てはめることが可能である。また、第1の実施形態と同様に一度生成した動領域分離マスクに対して補正を行っても良い。 Here, as the index for determining the representative value of the difference value, the method described in the first embodiment can be applied. Moreover, you may correct | amend with respect to the dynamic region separation mask once produced | generated similarly to 1st Embodiment.
次に、背景画像信号306の生成について説明する。背景画像信号306は、前述した動領域分離マスク115と復号画像信号114、及びグローバルMV803を用いてから次式(13)で導出される。
ここで、MCBGは背景画像信号306に対してグローバルMV803を用いて動き補償処理を行った値を示している。上式の通り、当該時刻の背景画像信号306の更新時は、参照画像信号116の中の時間的に最近接の復号画像信号114と動領域分離マスク115を利用し、マスクの値が0(背景画素)の場合は、最近接の復号画像信号114と更新前の背景画像信号306にグローバルMV803を考慮したものの重み付き和で更新が行われる。
Here, MCBG indicates a value obtained by performing motion compensation processing on the background image signal 306 using the
次に、動領域分離予測部902について説明する。動領域分離予測部902は、動きベクトル推定部203から出力された動きベクトル207、参照画像メモリ105から出力された参照画像信号116、及び背景画像信号生成部901から出力された背景画像信号306、及びグローバルMV803が入力される。動領域分離予測部902は、入力された動領域分離マスク115を用いて、動領域に対して動き補償処理を、背景領域に対しては、グローバルMV803を用いた動き補償処理を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル207を用いて動領域分離マスク115にもマッチングを行う。つまり、動き補償部301の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク115にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。1/4画素精度の動き補償処理の場合の整数画素位置へのマッピングは式(11)で表される。導出された整数精度の動きベクトルを用いて次式(14)のようにして動領域分離予測が行われる。
ここでPは動領域分離予測によって生成される予測画像信号を表している。動領域に対しては通常の動き補償予測を、背景領域に対しては、背景画像信号306を、グローバルMV803を用いて動き補償することによって、動オブジェクトの形状によらずに予測精度を上げることが可能となる。このようにして作成された予測画像信号が動領域分離予測部302から出力されるとともに、この時利用したブロック形状、動きベクトル207、及びグローバルMV803などの予測情報119が、符号化制御部107に記録され、エントロピー符号化され、最終的に符号化データに多重化される。
Here, P represents a predicted image signal generated by moving region separation prediction. By using the
図27に本実施の形態におけるスライスヘッダーシンタクスの例を示す。図中に示されるslice_global_motion_flagは、グローバルMV803を利用した動領域分離予測を行うかどうかを示すフラグである。slice_global_motion_flagが0である場合、背景画像生成部901及び動領域分離予測部902は、第1の実施の形態で説明した背景画像生成部303及び動領域分離予測部302と同様の予測を行う。つまり、グローバルMV803は送られず、利用しない。一方、slice_global_motion_flagが1である場合、予め定められたグローバルMV803のパラメータの数を示すNumOfGMPの数だけ、gmv_paramを符号化する。これらの情報を用いて、背景画像生成部901及び動領域分離予測902で対応する予測画像信号が生成される。本実施の形態では、NumOfGMP=2の例を示しており、gmv_param[0]は水平方向の動きベクトルを、gmv_param[1]は垂直方向の動きベクトルを表している。これらの情報は、グローバルベクトル推定部802によって算出され、符号化制御部107が与える予測情報119として符号列符号化部108で符号化される。
FIG. 27 shows an example of slice header syntax in the present embodiment. The slice_global_motion_flag shown in the figure is a flag indicating whether or not to perform motion region separation prediction using the
ここで、本実施の形態ではgmv_paramが直接グローバルMV803のパラメータとして与えられる例を示したが、直近に符号化されたスライスのグローバルMV803からの差分値を符号化しても良いし、予め定めた予測方法によってグローバルMV803を算出し、そこからの差分値を符号化しても良い。
Here, although an example in which gmv_param is directly given as a parameter of
以上が、本発明に係わる動画像符号化装置100のインター予測部801の説明である。
The above is the description of the
(第3の実施形態:適応補間フィルタ)
本実施の形態では、動画像符号化装置100の構造は図2と同一であるため、説明を省略する。但し、予測部106の機能が異なっているため、予測部1001が設けられている。図21に第3の実施形態における予測部1001を示す。尚、既に説明した機能と同様の機能を持つものに対しては同じインデックスを与えて、その説明を省略する。尚、インター予測部202は、機能の違いのためにインター予測部1101が設けられている。
(Third embodiment: adaptive interpolation filter)
In the present embodiment, the structure of moving
予測部1001では、インター予測部1101に加えて、動き補償フィルタ係数推定部1102が設けられている。動き補償フィルタ係数推定部1102は、符号化フレーム毎、符号化スライス毎或いはマクロブロック毎に、インター予測の動き補償処理で用いるフィルタ係数1103を算出する機能を有する。本実施の形態では、動き補償処理として二次元6タップのFIRフィルタを例に挙げて説明するが、タップ数はNタップと仮定することが可能であり、利用するハードウェア等の制限によって自由に選択できる。また、一次元フィルタ、二次元フィルタや三次元フィルタなども適用可能である。
The
動き補償フィルタ係数推定部1102では、入力画像信号110や予測画像信号117の性質に応じてフィルタ係数を設計する。例えば、既に第1、2の実施の形態中の動き補償部301で説明したように、フィルタ係数固定の動き補償フィルタで予測したときの予測誤差と動きベクトルとの対応関係を累積し、動きベクトルが指す分数位置毎の予測誤差が最小になるように、最小二乗法を用いてフィルタ係数を算出する。このときの評価基準として次式(15)を用いる。
ここで、Oは入力画像信号110を示しており、MCは固定フィルタを用いて算出された予測画像信号である。hは導出するフィルタ係数1103を示しており、(i,j)はフィルタリング処理を行う分数位置を示している。また、(a,b)はフィルタオフセットを示す固定値である。式(15)の二乗コストが最小となるようにフィルタ係数hを設計する。設計されたフィルタ係数1103は、インター予測部1101へと入力される。
Here, O indicates the input image signal 110, and MC is a predicted image signal calculated using a fixed filter. h indicates the filter coefficient 1103 to be derived, and (i, j) indicates the fractional position where the filtering process is performed. (A, b) is a fixed value indicating the filter offset. The filter coefficient h is designed so that the square cost of Expression (15) is minimized. The designed filter coefficient 1103 is input to the
本実施の形態では、通常の固定動き補償フィルタを用いてフィルタを設計する方法について説明したが、入力画像信号110の特徴量を用いてフィルタを設計しても良い。例えば、高周波数成分用のフィルタ係数セット、中周波数成分用のフィルタ係数セット、低周波数成分用のフィルタ係数セットを用意しておき、入力画像信号の周波数特性に応じて、選択的にフィルタ係数を入力しても良い。 In this embodiment, the method of designing a filter using a normal fixed motion compensation filter has been described. However, the filter may be designed using the feature amount of the input image signal 110. For example, a filter coefficient set for high-frequency components, a filter coefficient set for medium-frequency components, and a filter coefficient set for low-frequency components are prepared, and filter coefficients are selectively selected according to the frequency characteristics of the input image signal. You may enter.
次に、インター予測部1101について説明する。図22はインター予測部1101のブロック図である。第1の実施形態の動領域分離予測部302に対してフィルタ係数1103が入力されている以外は図1と同一であるため、それ以外の説明を省略する。
Next, the
先ず動領域分離予測部1201について説明する。動領域分離予測部1201は、動きベクトル推定部203から出力された動きベクトル207、参照画像メモリ105から出力された参照画像信号116、及び背景画像信号生成部901から出力された背景画像信号306、及びフィルタ係数1103が入力される。動領域分離予測部1201は、入力された動領域分離マスク115を用いて、動領域に対して適応動き補償処理を、背景領域に対しては、背景画像信号306の補填を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル207を用いて動領域分離マスク115にもマッチングを行う。つまり、動き補償部301の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク115にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。1/4画素精度の動き補償処理の場合の整数画素位置へのマッピングは式(10)で表される。導出された整数精度の動きベクトルを用いて次式(16)によって予測画像信号が生成される。
ここでAMCは適応動き補償予測によって導出された予測値を示している。より具体的に図7を参照しながら適応動き補償予測を説明する。 Here, AMC indicates a prediction value derived by adaptive motion compensation prediction. The adaptive motion compensation prediction will be described more specifically with reference to FIG.
最初に1/2画素位置に対応するa,b,c,d,h,nの画素位置の予測値を6タップの1次元フィルタで生成する。例えばa、dの画素位置に対応する予測値は次式(17)で生成される。
次に残りの分数精度位置に対応するe,f,g,i,j,k,p,q,rの画素位置の予測値を6タップの2次元フィルタで生成する。例えばeの画素位置に対応する予測は次式(18)で生成される。
上記生成方法で予測画像を作成する場合、フィルタ係数が最大360個程度発生する。そこで、空間的対照性を加味してフィルタ係数を統合する。例えば、上記画素a,c,d,lの対象性を利用して次式(19)でフィルタ係数を統合する。
このような対照性を利用した係数を利用することで、適応動き補償予測で用いるフィルタ係数を削減することが可能である。 By using a coefficient using such contrast, it is possible to reduce the filter coefficient used in adaptive motion compensation prediction.
このように動き補償フィルタ係数推定部1102で算出され、入力されたフィルタ係数1103を利用して式(16)のAMCの予測画像信号を生成する。
In this way, the AMC prediction image signal of Expression (16) is generated using the filter coefficient 1103 calculated and input by the motion compensation filter
動領域に対しては、算出されたフィルタ係数1103を用いて、適応動き補償を行い、背景領域に対しては、背景画像信号306を補填することによって、動いているオブジェクトと背景領域毎に最適な予測画像信号が生成できるため、予測精度を高めることが可能となる。このようにして作成された予測画像信号117が動領域分離予測部1201から出力されるとともに、この時利用したブロック形状、動きベクトル207、及びフィルタ係数1103などの予測情報119が、符号化制御部107に記録され、エントロピー符号化され、最終的に符号化データに多重化される。
For the moving area, adaptive motion compensation is performed using the calculated filter coefficient 1103, and for the background area, the background image signal 306 is compensated to optimize the moving object and the background area. Since a predictive image signal can be generated, the prediction accuracy can be increased. The prediction image signal 117 generated in this way is output from the motion region
図27に本実施の形態におけるスライスヘッダーシンタクスの例を示す。図中に示されるslice_adaptive_filter_flagは、適応動き補償予測を利用した動領域分離予測を行うかどうかを示すフラグである。slice_adaptive_filter_flagが0である場合、動領域分離予測部1201は、第1の実施の形態で説明した動領域分離予測部302と同様の予測を行う。つまり、動画素に対する適応動き補償予測は行われず、フィルタ係数も利用しない。一方、slice_adaptive_filter_flagが1である場合、予め定められた二次元のフィルタ係数1103の個数を示すNumOfPosXとNumOfPosYの数だけ、filter_coeffを符号化する。これらの情報を用いて、動領域分離予測1201で動画素に対して適応動き補償予測が行われ、予測画像信号が生成される。これらの情報は、動き補償フィルタ係数推定部1102によって算出され、符号化制御部107が与える予測情報119として符号列符号化部108で符号化される。
FIG. 27 shows an example of slice header syntax in the present embodiment. The slice_adaptive_filter_flag shown in the figure is a flag indicating whether or not to perform motion region separation prediction using adaptive motion compensation prediction. When slice_adaptive_filter_flag is 0, the moving region
ここで、本実施の形態ではfilter_coeffが直接フィルタ係数1103のパラメータとして与えられる例を示したが、直近に符号化されたスライスのフィルタ係数1103からの差分値を符号化しても良いし、予め定めた予測方法によってフィルタ係数1103を算出し、そこからの差分値を符号化しても良い。 Here, although an example in which filter_coeff is directly given as a parameter of the filter coefficient 1103 has been described in the present embodiment, a difference value from the filter coefficient 1103 of the most recently encoded slice may be encoded or predetermined. Alternatively, the filter coefficient 1103 may be calculated by the prediction method, and the difference value therefrom may be encoded.
以上が、本発明に係わる動画像符号化装置100のインター予測部1101の説明である。
The above is the description of the
以上説明したように、本実施形態では、矩形ブロックに適さない動オブジェクトを予測するために、過度のブロック分割が施されて、ブロック分割情報が増大することを防ぐ。つまり、付加的な情報を増加させずに、ブロック内の動領域と背景領域を分離し、それぞれに最適な予測方法を適用することによって、符号化効率を向上させると共に主観画質も向上するという効果を奏する。 As described above, in this embodiment, in order to predict a moving object that is not suitable for a rectangular block, excessive block division is prevented and block division information is prevented from increasing. In other words, the effect of improving coding efficiency and subjective image quality by separating the motion area and background area in a block without applying additional information and applying an optimal prediction method to each of them. Play.
<動画像復号化装置>
次に、動画像復号化に関する第4〜第6の実施形態について述べる。
(第4の実施形態)
図29は、図1〜図28を用いて説明した第1〜第3の実施形態に従う動画像符号化装置に対応する、第4の実施形態に従う動画像復号化装置を示している。動画像復号化装置400は、入力バッファ401から入力される符号化データ409を復号する符号列復号部402、符号列復号部402からの変換係数を逆量子化し、逆変換する逆量子化・逆変換部403、逆量子化・逆変換部403からの予測誤差信号411と予測画像信号415とを加算する加算器404、加算器404からの復号画像信号を参照画像として記憶する参照画像メモリ405、参照画像信号413,動領域マスク414,予測情報および動きベクトル417を受けて予測画像信号415を生成する予測部406を備えている。動画像符号化装置400は符号化制御部408によって制御され、復号画像信号を出力バッファ407に出力する。
<Video decoding device>
Next, fourth to sixth embodiments relating to moving picture decoding will be described.
(Fourth embodiment)
FIG. 29 illustrates a video decoding device according to the fourth embodiment corresponding to the video encoding devices according to the first to third embodiments described with reference to FIGS. 1 to 28. The
上記構成において、図1に示した動画像符号化装置100などから送出され、蓄積系または伝送系を経て送られてきた符号化データ409は入力バッファ401に一度蓄えられ、多重化された符号化データが動画像復号化装置400に入力される。
In the above configuration, encoded
動画像復号化装置400では、符号化データが符号列復号部402に入力され、1フレームまたは1フィールド毎にシンタクスに基づいて構文解析による解読が行われる。すなわち、符号列復号部402では、順次各シンタクスの符号列がエントロピー復号化され、予測情報416、変換係数410、対象ブロックの符号化パラメータなどが再生される。本実施の形態においては、符号化パラメータとは、予測情報416はもとより、変換係数に関する情報、量子化に関する情報、などの復号の際に必要になるあらゆるパラメータを指す。
In the
符号列復号部402で解読が行われた変換係数410は、逆量子化・逆変換部403へと入力される。符号列復号部402によって解読された量子化に関する様々な情報、すなわち、量子化パラメータや量子化マトリクスは、復号化制御部408に設定され、逆量子化処理として利用される際にロードされる。ロードされた量子化に関する情報を用いて、逆量子化・逆変換部403では、最初に逆量子化処理が行われる。逆量子化された変換係数410は、続いて逆変換処理(例えば逆離散コサイン変換など)が実行される。ここでは、逆直交変換について説明したが、符号化装置でウェーブレット変換などが行われている場合、逆量子化・逆変換部403は、対応する逆量子化及び逆ウェーブレット変換などが実行されても良い。
The transform coefficient 410 decoded by the code
逆量子化・逆変換部403を通って、復元された予測誤差信号411は加算器404へと入力され、ここで後述する予測部406で生成された予測画像信号415と加算され、復号画像信号412が生成される。生成された復号画像信号412は、動画像復号化装置400から出力されて、出力バッファ407に一旦蓄積された後、復号化制御部408が管理する出力タイミングに従って出力される。また、この復号画像信号412は参照画像メモリ405へと保存され、参照画像信号413となる。参照画像信号413は参照画像メモリ405から、順次フレーム毎或いはフィールド毎に読み出され、予測部406へと入力される。
Through the inverse quantization /
次に、予測部406について説明する。符号列復号部402で解読された予測方法を示す予測情報416が予測部406に入力されるとともに、参照画像メモリ405に蓄積されている既に符号化済みの復号画像信号412が参照画像413として予測部406へと入力される。尚、本図では、説明時の簡略化のために、動き補償予測と動領域分離予測で利用される予測情報416中の動きベクトル417を分けて入力している。
Next, the
図30に予測部406のブロック図を示す。予測部406は、予測切替スイッチ503、イントラ予測部501、インター予測部502を備えている。予測部406に入力された予測情報416に含まれる予測モードに従って予測切替スイッチ503は、どの予測方法で予測するかを切り替える機能を有する。予測モードがイントラ予測であった場合、予測切替スイッチ503はイントラ予測部501へと接続される。一方、予測モードがインター予測であった場合、予測切替スイッチはインター予想部502へと接続される。
FIG. 30 shows a block diagram of the
イントラ予測部501は、第1の実施の形態で説明した処理を行って予測画像信号417を生成する。本実施の形態では、4×4画素イントラ予測(図4C参照)、8×8画素イントラ予測(図4D参照)、16x16画素イントラ予測(図4B参照)が規定されている。このイントラ予測では、参照画像メモリ405に保存されている参照画像信号413から、補間画素を作成し、空間方向にコピーすることによって予測値を生成している。
The
次に、インター予測部502について説明する。インター予測部502の構造は図2で説明した動画像符号化装置におけるインター予測部202と全く同じである。但し、予測部406内で生成される予測画像信号415は、予測情報416で与えられる予測モードのみの予測画像信号生成処理だけを行えばよい。つまり、与えられた予測モード以外の予測画像信号415を生成する必要はない。例えば、予測情報416で与えられる予測モードがインター予測である場合、符号列復号部402にて解読され、生成された動きベクトル417と予測情報416内に含まれるブロック形状情報、利用する参照画像信号のインデックスなどが与えられ、対象ブロックに対してこれらの与えられた情報からただ1つの予測画像信号415を生成すればよい。
Next, the
インター予測部502(202)内の動き補償部301についてより詳細に説明する。動き補償部301では、まず動きベクトル417(207)の情報に従って、当該予測画素ブロックの位置から、式(3)を用いて動きベクトル417(207)で参照されている位置を割り出す。ここでは、H.264の1/4画素精度の補間を例に挙げて説明する。動きベクトルの各成分が4の倍数である場合は、整数画素位置を指していることを意味する。それ以外の場合は、分数精度の補間位置に対応する予測位置であることがわかる。次に割り出した画素位置に対して、参照画像信号413(116)の対応する画素位置の補填もしくは補間処理によって予測画素を生成する。図8にH.264の予測画素生成の例を示す。例えば、図中でアルファベットb、hの位置に対応する1/2画素の補間処理は式(4)で算出される。また、図中でアルファベットa、dの位置に対応する1/4画素の補間処理は式(5)で算出される。このように1/2画素位置の補間画素は、6タップFIRフィルタ(タップ係数:(1,−5,20,20、−5,1)/32)を用いて生成し、1/4画素位置の補間画素は、2タップの平均値フィルタ(タップ係数:(1/2,1/2))を用いて算出される。4つの整数画素位置の中間に存在するアルファベットjに対応する1/2画素の補間処理は、垂直方向6タップと水平方向6タップの両方向を行うことによって生成される。説明した以外の画素位置も同様のルールで補間値が生成できる。以上が、動き補償部301おける予測画像信号生成の例である。
The
次に、背景画像生成部303について説明する。背景画像生成部303は、入力された参照画像信号413(116)を用いて、背景画像信号306及び動領域分離マスク414(115)を生成する機能と、生成した背景画像信号306を保持するメモリとしての機能を有する。まず、動領域分離マスク414(115)の生成について説明する。動領域分離マスク414(115)は、参照画像信号413(116)で提供された各々の時刻で復号された復号画像信号114に対してそれぞれ1つずつ存在する。動領域分離マスク414(115)は、同時刻に復号された復号画像信号412の各画素に対して、それ以前に復号された復号画像信号412との時間的な輝度変化(差分値)が予め定めた規定値THよりも小さい場合に背景画素と認定し、輝度変化が規定値THを超える場合を動画素と判定する2値のマスクマップであり式(6)で表される。
Next, the background
利用可能な参照画像信号413(116)が複数ある場合は、式(7)を用いて背景画素であるか、動画素であるかを判定する。図9に複数の参照画像信号に対して差分値を求める際の対応関係を示す。また、図11に予測対象画素ブロックからの時間的距離に応じて重みwを変える例を示す。 When there are a plurality of reference image signals 413 (116) that can be used, it is determined whether the pixel is a background pixel or a moving pixel using Equation (7). FIG. 9 shows a correspondence relationship when obtaining difference values for a plurality of reference image signals. FIG. 11 shows an example in which the weight w is changed according to the temporal distance from the prediction target pixel block.
尚、上記では単純に差分値のみによって画素の領域判定を行う例を示したが、代表値を決める指標として、利用可能な複数の復号画像信号間(時間方向)の画素の差分値、差分値の最大値、差分値の平均値、差分値のメディアン値、差分値の分散を用いて判定しても良いし、復号画像信号の領域判定を行う画素に隣接する画素(空間方向)の差分値の最大値、差分値の平均値、差分値のメディアン値、差分値の分散、などの指標を用いて判定しても良い。 In addition, although the example which performs the area | region determination of a pixel only by only a difference value was shown above, as an index for determining a representative value, a pixel difference value or a difference value between a plurality of available decoded image signals (time direction) May be determined using the maximum value, the average value of the difference values, the median value of the difference values, and the variance of the difference values, or the difference value of the pixels (space direction) adjacent to the pixel that performs the region determination of the decoded image signal It may be determined using indices such as the maximum value, the average value of the difference values, the median value of the difference values, and the variance of the difference values.
また、一度生成した動領域分離マスクに対して補正を行っても良い。例えば、生成した動領域分離マスクの補正対象画素において、隣接位置に対応する上下左右の4点、或いは対角方向も含めた9点のマスクの値を用いて、孤立点となるような領域を補正したり、予測ブロック形状に合わせてブロック境界のマスクの値を修正したりしても良い。この場合の例が式(8)に示されている。図11に対象画素と隣接画素の関係を示す。図10の丸印の密度が高くなるほど対象画素との距離が離れることを意味している。更に図12に空間方向の市街地距離に応じて、重みvを変更する例を示す。このように空間方向に対して重みvを適切に設定することによって、生成された動領域分離マスクを補正することができ、孤立点の除去、不連続点の連結、矩形ブロックへの領域拡大・縮小、エッジ修正、画素補填、画素マッチング等が可能となる。尚、本発明の本実施の形態では、市街地距離による重み変更例を示したが、距離の定義は市街地距離、マンハッタン距離などを含む、ミンコフスキー距離の中から1つを用いて計算することが可能である。 Further, correction may be performed on the once generated moving region separation mask. For example, in the correction target pixel of the generated moving region separation mask, an area that becomes an isolated point is obtained by using the mask values of four points on the top, bottom, left, and right corresponding to the adjacent positions, or nine points including the diagonal direction. It may be corrected or the mask value at the block boundary may be corrected in accordance with the predicted block shape. An example of this case is shown in equation (8). FIG. 11 shows the relationship between the target pixel and adjacent pixels. As the density of the circles in FIG. 10 increases, the distance from the target pixel increases. Further, FIG. 12 shows an example in which the weight v is changed according to the city area distance in the spatial direction. By appropriately setting the weight v in the spatial direction in this way, the generated moving region separation mask can be corrected, and isolated points are removed, discontinuous points are connected, and the region is expanded to a rectangular block. Reduction, edge correction, pixel compensation, pixel matching, and the like are possible. In the present embodiment of the present invention, an example of changing the weight based on the city distance is shown, but the definition of the distance can be calculated using one of the Minkowski distances including the city distance, the Manhattan distance, and the like. It is.
次に、背景画像信号306の生成について説明する。背景画像信号306とは、時間方向で輝度変化が少ない背景領域のみを集めた信号となっており、動領域分離マスク414(115)と時間的に最近接の復号画像信号412に基づいて画素毎に導出される。前述した動領域分離マスク414(115)から式(9)を用いて背景画像信号306を生成する。当該時刻の背景画像信号306の更新時は、参照画像信号413(116)の中の時間的に最近接の復号画像信号412と動領域分離マスク414(115)を利用し、マスクの値が0(背景画素の場合)のみ、最近接の復号画像信号114と更新前の背景画像信号306の重み付き和で更新が行われる。重み付き和は例えばwt=1/2に設定することで平均値フィルタとなる。一方、マスクの値が1(動画素の場合)には、更新は行われない。尚、背景画像信号306の初期値は、予め定めた輝度値(例えば輝度信号であれば0や最大輝度値(8ビットでは256)、色差信号であれば中間輝度値(8ビットで128))で埋めておいても良いし、画面内予測だけで符号化されるようなI-sliceの輝度値を用いたりしても良い。背景画像信号306のリフレッシュは、I-sliceが挿入された場合や、IDRピクチャが挿入された場合に行われる。本実施の形態ではI-sliceのタイミングで必ず背景画像信号306のリフレッシュが行われる例を示している。以上のような過程で背景画像信号306が適切なタイミングで更新される。 Next, generation of the background image signal 306 will be described. The background image signal 306 is a signal obtained by collecting only background regions with little change in luminance in the time direction, and each pixel is based on the moving region separation mask 414 (115) and the decoded image signal 412 closest in time. To be derived. A background image signal 306 is generated from the moving region separation mask 414 (115) using Equation (9). When the background image signal 306 at the time is updated, the decoded image signal 412 and the moving region separation mask 414 (115) that are closest in time in the reference image signal 413 (116) are used, and the mask value is 0. Only in the case of the background pixel, the update is performed with the weighted sum of the nearest decoded image signal 114 and the background image signal 306 before the update. The weighted sum becomes an average value filter by setting, for example, wt = 1/2. On the other hand, when the mask value is 1 (in the case of moving pixels), no update is performed. The initial value of the background image signal 306 is a predetermined luminance value (for example, 0 or maximum luminance value (256 for 8 bits) for luminance signals, and intermediate luminance value (128 for 8 bits) for color difference signals). It is also possible to use I-slice luminance values that are encoded only by intra prediction. The background image signal 306 is refreshed when an I-slice is inserted or when an IDR picture is inserted. In this embodiment, an example is shown in which the background image signal 306 is always refreshed at the timing of I-slice. In the above process, the background image signal 306 is updated at an appropriate timing.
尚、背景画像信号306は、背景画像生成部303の内部メモリに保持されており、更新された信号が動領域分離予測部302へと出力される。また、生成された動領域分離マスク414(115)は、インター予測部202から出力され、予測部106を経て、同じ時刻の復号画像信号412とともに参照画像信号413として参照画像メモリ405へと保存される。
The background image signal 306 is held in the internal memory of the background
次に、動領域分離予測部302について説明する。動領域分離予測部302は、符号列復号部402で解読された動きベクトル417(207)、参照画像メモリ405から出力された参照画像信号413(116)、及び背景画像信号生成部303から出力された背景画像信号306が入力される。動領域分離予測部302は、入力された動領域分離マスク414(115)を用いて、動領域に対して動き補償処理を、背景領域に対しては、背景画像信号の補填を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル417(207)を用いて動領域分離マスク414(115)にもマッチングを行う。つまり、動き補償部301の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク115にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。1/4画素精度の動き補償処理の場合の整数画素位置へのマッピングは式(10)で表される。導出された整数精度の動きベクトルを用いて式(11)のようにして動領域分離予測が行われる。
Next, the moving region
例えば図8で生成された補間画素a、b、jなどの値や整数画素G、H、Mなどの値がMCに入る。図13に、参照画像信号が時間方向に4枚利用可能な場合の、復号画像信号412と動領域分離マスク414(115)の例と背景画像信号306の例を示す。このようにして作成された予測画像信号が動領域分離予測部302から出力される。
For example, values such as interpolation pixels a, b, and j and integer pixels G, H, and M generated in FIG. 8 enter MC. FIG. 13 shows an example of the decoded image signal 412 and the moving region separation mask 414 (115) and an example of the background image signal 306 when four reference image signals are available in the time direction. The predicted image signal created in this way is output from the moving region
次に、予測切替部304と予測分離スイッチ305について説明する。予測切替部304は、入力されてきた動領域分離マスク414(115)の情報に基づいて、予測分離スイッチ305を制御するための予測切替情報307を出力する。予測分離スイッチ305は、予測切替情報307に従って、スイッチの出力端を動き補償部301側に接続するか、動領域分離予測部302側に接続するかを切り替える機能を有する。より具体的に説明すると、当該予測対象画素ブロック内に含まれる動領域分離マスクの比率を算出し、動領域が予め設定した規定値TPより大きいか、小さいかによって予測切替情報307を更新する。図14に、TP=90%に設定した場合の切替の例を示している。このようにして、予測対象画素ブロックのインター予測の予測方法(動き補償予測と動領域分離予測)が動的に切り替えられ、インター予測部202から予測画像信号415(117)が出力される。
Next, the
次に、本動画像復号化装置400におけるシンタクス構造について説明する。図24に示すとおり、シンタクスは主に3つのパートからなり、ハイレベルシンタクス1601は、スライス以上の上位レイヤのシンタクス情報が詰め込まれている。スライスレベルシンタクス1602では、スライス毎に必要な情報が明記されており、マクロブロックレベルシンタクス1603では、マクロブロック毎に必要とされるデータが明記されている。
Next, a syntax structure in main
それぞれは、更に詳細なシンタクスで構成されており、ハイレベルシンタクス1601では、シーケンスパラメータセットシンタクス1604とピクチャパラメータセットシンタクス1605などのシーケンス、ピクチャレベルのシンタクスから構成されている。スライスレベルシンタクス1602では、スライスヘッダーシンタクス1605、スライスデータシンタクス1606などから成る。更に、マクロブロックレベルシンタクス1603は、マクロブロックレイヤーシンタクス1607、マクロブロックプレディクションシンタクス1608などから構成されている。
Each has a more detailed syntax. The high-
図25にスライスヘッダーシンタクスの例を示す。図中に示されるslice_motion_region_separation_flagは、インター予測部502(202)中の予測切替部304から出力される予測切替情報307に利用される。slice_motion_region_separation_flagが0である場合、予測切替部304は、スライスにおいて常に動き補償予測部301の出力端を出力するように予測切替情報307を設定して予測分離スイッチ305を切り替える。つまり、必ず動き補償予測が行われることを意味している。一方、slice_motion_region_separation_flagが1である場合、前述の通り、スライスにおいて背景画像生成部303から出力された動領域分離マスク414(115)の信号に基づいて動き補償予測と動領域分離予測が動的に切り替わる。
FIG. 25 shows an example of slice header syntax. The slice_motion_region_separation_flag shown in the figure is used for the prediction switching information 307 output from the
図26に符号化パラメータの例としてマクロブロックレイヤーシンタクスの例を示す。表中に示されるmb_typeは、マクロブロックタイプ情報を示している。すなわち、現在のマクロブロックがイントラ符号化されているか、インター符号化されているか、或いはどのようなブロック形状で予測が行われているか、などの情報を含んでいる。表中に示されるcoded_block_patternは、8×8画素ブロック毎に、変換係数が存在するかどうかを示している。例えばこの値が0である時、対象ブロックに変換係数が存在しないことを意味している。表中のmb_qp_deltaは、量子化パラメータに関する情報を示している。対象ブロックの1つ前に符号化されたブロックの量子化パラメータからの差分値を表している。表中のintra_pred_modeは、イントラ予測の予測方法を示す予測モードを示している。表中のref_idx_l0及びref_idx_l1は、インター予測が選択されているときに、対象ブロックがどの参照画像を用いて予測されたか、を表す参照画像のインデックスを示している。表中のmv_l0、mv_l1は動きベクトル情報を示している。表中のtransform_8x8_flagは、対象ブロックが8×8変換であるかどうかを示す変換情報を表している。 FIG. 26 shows an example of macroblock layer syntax as an example of encoding parameters. Mb_type shown in the table indicates macroblock type information. That is, it includes information such as whether the current macroblock is intra-coded, inter-coded, or in what block shape is predicted. “Coded_block_pattern” shown in the table indicates whether or not a transform coefficient exists for each 8 × 8 pixel block. For example, when this value is 0, it means that there is no transform coefficient in the target block. Mb_qp_delta in the table indicates information on the quantization parameter. The difference value from the quantization parameter of the block encoded immediately before the target block is represented. Intra_pred_mode in the table indicates a prediction mode indicating a prediction method of intra prediction. Ref_idx_l0 and ref_idx_l1 in the table indicate the index of a reference image that indicates which reference image was used to predict the target block when inter prediction is selected. Mv_l0 and mv_l1 in the table indicate motion vector information. In the table, transform_8 × 8_flag represents conversion information indicating whether or not the target block is 8 × 8 conversion.
表中の行間には、本発明で規定していないシンタクス要素が挿入されることも可能であるし、それ以外の条件分岐に関する記述が含まれていても良い。或いは、シンタクステーブルを複数のテーブルに分割、統合することも可能である。また、必ずしも同一の用語を用いる必要は無く、利用する形態によって任意に変更しても良い。更に、マクロブロックレイヤーシンタクスに記述されている各々のシンタクスエレメントは、後述するマクロブロックデータシンタクスに明記されるように変更しても良い。 A syntax element not defined in the present invention can be inserted between the rows in the table, and other conditional branch descriptions may be included. Alternatively, the syntax table can be divided and integrated into a plurality of tables. Moreover, it is not always necessary to use the same term, and it may be arbitrarily changed depending on the form to be used. Furthermore, each syntax element described in the macroblock layer syntax may be changed as specified in a macroblock data syntax described later.
以上が、本発明に係わる動画像復号化装置400の説明である。
The above is the description of the moving
(第4の実施形態:変更例1:切替情報のシグナリング)
本実施の形態では、インター予測部502(202)内の予測方法として、動き補償部301と動領域分離予測部302の2つを予測切替部304によって動的に切り替える例を示したが、動き補償予測と動領域分離予測の切替を動的に行わない実施の形態も可能である。この場合、どちらの予測方法が利用されたかのインデックスを復号化する必要が生じる。このインデックスは、予測切替情報307に記述されており、選択された予測画像信号117に対するインデックスが予測切替情報307に記述されている。
(Fourth embodiment: modification example 1: switching information signaling)
In the present embodiment, as an example of a prediction method in the inter prediction unit 502 (202), an example in which the
図15にマクロブロック毎に利用した予測方法を示すインデックスを復号化する例を示す。また、図27に本実施の形態におけるマクロブロックレイヤーシンタクスの例を示す。図中に示されるmb_motion_region_separation_flagは、インター予測部502(202)中の予測切替部304から出力される予測切替情報307に利用される。mb_motion_region_separation_flagが0である場合、予測切替部304は、マクロブロックにおいて常に動き補償予測部301の出力端を出力するように予測切替情報307を設定して予測分離スイッチ305を切り替える。つまり、必ず動き補償予測が行われることを意味している。一方、mb_motion_region_separation_flagが1である場合、予測切替部304は、マクロブロックにおいて常に動領域分離予測部302の出力端を出力するように予測切替情報307を設定して予測分離スイッチ305を切り替える。つまり、必ず動領域分離予測が行われることを意味している。SignalingFlagはmb_motion_region_separation_flagを符号化するかどうかを決定するための内部パラメータである。SignalingFlagが1の場合、動画素の比率が規定値THMAXからTHMINの間に含まれることを意味する。一方、SignalingFlagが0の場合、動画素の比率が規定値THMAXからTHMINの間に含まれないことを意味する。
FIG. 15 shows an example of decoding an index indicating a prediction method used for each macroblock. FIG. 27 shows an example of macroblock layer syntax in the present embodiment. The mb_motion_region_separation_flag shown in the figure is used for the prediction switching information 307 output from the
(第4の実施形態:変更例2:予測画像信号の使いまわし)
本実施の形態では、動き補償部301と動領域分離予測部302をそれぞれ別々の予測方法として記述しているが、動領域分離予測部302内で動き補償部301と同様の予測方法も用いている。このように同様の処理を複数回行うことによる演算量の増加を避けるため、図18に示すように動き補償部301で算出した予測画像信号415(117)を動領域分離予測部302へと入力する構造としても良い。或いは動き補償部301の機能を動領域分離予測部302と統合させても良い。
(Fourth embodiment: Modification 2: Reuse of predicted image signal)
In this embodiment, the
(第4の実施形態:変更例3:切替構造の削除)
本実施の形態では、動き補償部301と動領域分離予測部302をそれぞれ別々の予測方法として記述しているが、予測方法を動領域分離予測302に単一化して、予測切替部304を削除する構造としても良い。図19に、動き補償部301、予測切替部304、予測分離スイッチ305を削除した実施形態を示す。予測構造が簡略化するため、ハードウェア規模などの増大を防ぐことが可能となる。
(Fourth embodiment: modification example 3: deletion of switching structure)
In this embodiment, the
(第5の実施形態:グローバルMC)
本実施の形態では、動画像復号化装置400において、予測情報416にグローバルMV1401の情報が含まれている。尚、動画像復号化装置400としての構造は図29と変わらないため、同じ構成要素に関する説明は省略する。但し、予測部406の機能が異なるため、図31に示されるように新たに予測部1400が設けられている。予測部1400は、構造としては予測部406と同一であるが、予測情報416に含まれているグローバルMV1401がインター予測部801へと入力されている点だけが異なる。
(Fifth embodiment: Global MC)
In the present embodiment, in the
インター予測部801内の機能について図20を用いて説明する。まず、背景画像生成部901について説明する。背景画像生成部901は、参照画像メモリ405(105)から出力された参照画像信号413(116)及びグローバルMV1401(803)が入力される。背景画像生成部901は、グローバルMV1401(803)を利用することによって、カメラが動いているような映像に対しても、背景画像信号306を生成することが可能である。まず、動領域分離マスク414(115)の生成方法について説明する。動領域分離マスク414(115)は、参照画像信号413(116)とグローバルMV1401(803)を用いて式(12)で算出される。ここで、差分値の代表値を決める指標は、第4の実施形態で述べた方法を当てはめることが可能である。また、第4の実施形態と同様に一度生成した動領域分離マスクに対して補正を行っても良い。
Functions in the
次に、背景画像信号306の生成について説明する。背景画像信号306は、前述した動領域分離マスク414(115)と復号画像信号412、及びグローバルMV1401(803)を用いてから式(13)で導出される。 Next, generation of the background image signal 306 will be described. The background image signal 306 is derived by Expression (13) after using the above-described moving region separation mask 414 (115), the decoded image signal 412, and the global MV 1401 (803).
次に、動領域分離予測部902について説明する。動領域分離予測部902は、動きベクトル417(207)、参照画像信号413、及び背景画像信号生成部901から出力された背景画像信号306、及びグローバルMV1401(803)が入力される。動領域分離予測部902は、入力された動領域分離マスク414(115)を用いて、動領域に対して動き補償処理を、背景領域に対しては、グローバルMV1401(803)を用いた動き補償処理を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル417(207)を用いて動領域分離マスク414(115)にもマッチングを行う。つまり、動き補償部301の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク414(115)にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。1/4画素精度の動き補償処理の場合の整数画素位置へのマッピングは式(10)で表される。導出された整数精度の動きベクトルを用いて式(14)のようにして動領域分離予測が行われる。
Next, the moving region
動領域に対しては通常の動き補償予測を、背景領域に対しては、背景画像信号306を、グローバルMV1401(803)を用いて動き補償することによって、動オブジェクトの形状によらずに予測精度を挙げることが可能となる。 By performing motion compensation using the global MV1401 (803) for the motion region using normal motion compensation prediction and for the background region using the background image signal 306, the prediction accuracy can be achieved regardless of the shape of the moving object. Can be mentioned.
図27に本実施の形態におけるスライスヘッダーシンタクスの例を示す。図中に示されるslice_global_motion_flagは、グローバルMV1401(803)を利用した動領域分離予測を行うかどうかを示すフラグである。slice_global_motion_flagが0である場合、背景画像生成部901及び動領域分離予測部902は、第4の実施の形態で説明した背景画像生成部303及び動領域分離予測部302と同様の予測を行う。つまり、グローバルMV1401(803)は復号されず、利用できない。
FIG. 27 shows an example of slice header syntax in the present embodiment. The slice_global_motion_flag shown in the figure is a flag indicating whether or not to perform motion region separation prediction using the global MV 1401 (803). When slice_global_motion_flag is 0, the background
一方、slice_global_motion_flagが1である場合、予め定められたグローバルMV1401(803)のパラメータの数を示すNumOfGMPの数だけ、gmv_paramを復号化する。これらの情報を用いて、背景画像生成部901及び動領域分離予測902で対応する予測画像信号が生成される。本実施の形態では、NumOfGMP=2の例を示しており、gmv_param[0]は水平方向の動きベクトルを、gmv_param[1]は垂直方向の動きベクトルを表している。
On the other hand, when slice_global_motion_flag is 1, gmv_param is decoded by the number of NumOfGMP indicating the number of parameters of global MV1401 (803) determined in advance. Using these pieces of information, a corresponding predicted image signal is generated by the background
ここで、本実施の形態ではgmv_paramが直接グローバルMV1401(803)のパラメータとして与えられる例を示したが、直近に復号されたスライスのグローバルMV1401(803)からの差分値を符号化しても良いし、予め定めた予測方法によってグローバルMV1401(803)を算出し、そこからの差分値を復号しても良い。 Here, although an example in which gmv_param is directly given as a parameter of global MV 1401 (803) has been described in the present embodiment, a difference value from the global MV 1401 (803) of the most recently decoded slice may be encoded. Alternatively, the global MV 1401 (803) may be calculated by a predetermined prediction method, and the difference value therefrom may be decoded.
以上が、本発明に係わる動画像復号化装置の説明である。 The above is the description of the moving picture decoding apparatus according to the present invention.
(第6の実施形態:適応補間フィルタ)
本発明の本実施の形態では、動画像復号化装置400において、予測情報416にフィルタ係数1501の情報が含まれている。尚、動画像復号化装置400としての構造は図29と変わらないため、同じ構成要素に関する説明は省略する。但し、予測部406の機能が異なるため、新たに予測部1500のインデックスを与え、図32で説明する。予測部1500は、構造としては予測部406と同一であるが、予測情報416に含まれているフィルタ係数1501がインター予測部1101へと入力されている点だけが異なる。
(Sixth embodiment: adaptive interpolation filter)
In the present embodiment of the present invention, in the
インター予測部1101内の機能について図22を用いて説明する。動領域分離予測部1201は、動きベクトル417(207)、参照画像信号413(116)、及び背景画像信号生成部901から出力された背景画像信号306、及びフィルタ係数1501(1103)が入力される。動領域分離予測部1202は、入力された動領域分離マスク414(115)を用いて、動領域に対して適応動き補償処理を、背景領域に対しては、背景画像信号306の補填を行い、別々の予測方法で予測された信号を合成する機能を有する。尚、入力された動きベクトル417(207)を用いて動領域分離マスク414(115)にもマッチングを行う。つまり、動き補償部301の説明で述べた動きベクトルから補間位置の導出を動領域分離マスク414(115)にも適用する。この場合、動領域分離マスクは整数画素精度のみなので、分数精度の動きベクトルの場合は、整数画素精度へのマッピングを行う。1/4画素精度の動き補償処理の場合の整数画素位置へのマッピングは式(10)で表される。導出された整数精度の動きベクトルを用いて式(16)によって予測画像信号が生成される。
Functions in the
より具体的に図8を参照しながら適応動き補償予測を説明する。最初に1/2画素位置に対応するa,b,c,d,h,nの画素位置の予測値を6タップの1次元フィルタで生成する。例えばa、dの画素位置に対応する予測値は式(17)で生成される。次に残りの分数精度位置に対応するe,f,g,i,j,k,p,q,rの画素位置の予測値を6タップの2次元フィルタで生成する。例えばeの画素位置に対応する予測は式(18)で生成される。尚フィルタの対照性を考慮して、式(19)を用いてフィルタ係数1501(1103)を統合する。このような対照性を利用した係数を利用することで、適応動き補償予測で用いるフィルタ係数1501(1103)を削減することが可能である。 The adaptive motion compensation prediction will be described more specifically with reference to FIG. First, predicted values of pixel positions a, b, c, d, h, and n corresponding to 1/2 pixel positions are generated by a 6-tap one-dimensional filter. For example, predicted values corresponding to the pixel positions a and d are generated by Expression (17). Next, predicted values of pixel positions e, f, g, i, j, k, p, q, and r corresponding to the remaining fractional precision positions are generated by a 6-tap two-dimensional filter. For example, the prediction corresponding to the pixel position of e is generated by Expression (18). In consideration of the contrast of the filter, the filter coefficient 1501 (1103) is integrated using Expression (19). By using a coefficient using such contrast, the filter coefficient 1501 (1103) used in adaptive motion compensation prediction can be reduced.
動領域に対しては復号されたフィルタ係数1501(1103)を用いて、適応動き補償を行い、背景領域に対しては、背景画像信号306を補填することによって、動いているオブジェクトと背景領域毎に最適な予測画像信号が生成できるため、予測精度を高めることが可能となる。 Adaptive motion compensation is performed using the decoded filter coefficient 1501 (1103) for the moving region, and the background image signal 306 is supplemented for the background region, so that the moving object and each background region are compensated. Therefore, it is possible to improve the prediction accuracy.
図28に本実施の形態におけるスライスヘッダーシンタクスの例を示す。図中に示されるslice_adaptive_filter_flagは、適応動き補償予測を利用した動領域分離予測を行うかどうかを示すフラグである。slice_adaptive_filter_flagが0である場合、動領域分離予測部1201は、第3の実施の形態で説明した動領域分離予測部302と同様の予測を行う。つまり、動画素に対する適応動き補償予測は行われず、フィルタ係数も利用しない。一方、slice_adaptive_filter_flagが1である場合、予め定められた二次元のフィルタ係数の個数を示すNumOfPosXとNumOfPosYの数だけ、filter_coeffを復号する。これらの情報を用いて、動領域分離予測1201で動画素に対して適応動き補償予測が行われ、予測画像信号が生成される。
FIG. 28 shows an example of slice header syntax in the present embodiment. The slice_adaptive_filter_flag shown in the figure is a flag indicating whether or not to perform motion region separation prediction using adaptive motion compensation prediction. When slice_adaptive_filter_flag is 0, the motion region
ここで、本実施の形態ではfilter_coeffが直接フィルタ係数1501(1103)のパラメータとして与えられる例を示したが、直近に復号化されたスライスのフィルタ係数1501(1103)からの差分値を復号化しても良いし、予め定めた予測方法によってフィルタ係数を算出し、そこからの差分値を復号化しても良い。 Here, although an example in which filter_coeff is directly given as a parameter of the filter coefficient 1501 (1103) is shown in the present embodiment, the difference value from the filter coefficient 1501 (1103) of the most recently decoded slice is decoded. Alternatively, the filter coefficient may be calculated by a predetermined prediction method, and the difference value therefrom may be decoded.
以上が、本発明に係わる動画像復号化装置の説明である。 The above is the description of the moving picture decoding apparatus according to the present invention.
(第1〜第6の実施形態の変形例)
(1)第1〜第6の実施形態においては、処理対象フレームを16×16画素サイズなどの短形ブロックに分割し、図4Aに示したように画面左上のブロックから右下に向かって順に符号化/復号化する場合について説明しているが、符号化/復号化順序はこれに限られない。例えば、右下から左上に向かって順に符号化/復号化を行ってもよいし、画面中央から渦巻状に向かって順に符号化/復号化を行ってもよい。さらに、右上から左下に向かって順に符号化/復号化を行ってもよいし、画面の周辺部から中心部に向かって順に符号化/復号化を行ってもよい。
(Modification of the first to sixth embodiments)
(1) In the first to sixth embodiments, the processing target frame is divided into short blocks of 16 × 16 pixel size or the like, and sequentially from the upper left block to the lower right side as shown in FIG. 4A. Although the case of encoding / decoding has been described, the encoding / decoding order is not limited to this. For example, encoding / decoding may be performed sequentially from the lower right to the upper left, or encoding / decoding may be performed sequentially from the center of the screen toward the spiral. Furthermore, encoding / decoding may be performed in order from the upper right to the lower left, or encoding / decoding may be performed in order from the periphery of the screen toward the center.
(2)第1〜第6の実施形態においては、ブロックサイズを4×4画素ブロック、8×8画素ブロックとして説明を行ったが、対象ブロックは均一なブロック形状にする必要なく、16×8画素ブロック、8×16画素ブロック、8×4画素ブロック、4×8画素ブロックなどのブロックサイズであってもよい。また、1つのマクロブロック内でも均一なブロックサイズを取る必要はなく、それぞれ異なるサイズのブロックを混在させてもよい。この場合、分割数が増えると分割情報を符号化するための符号量が増加するが、変換係数の符号量と局部復号画像とのバランスを考慮して、ブロックサイズを選択すればよい。 (2) In the first to sixth embodiments, the block size is described as a 4 × 4 pixel block and an 8 × 8 pixel block. However, the target block does not need to have a uniform block shape, and 16 × 8. The block size may be a pixel block, an 8 × 16 pixel block, an 8 × 4 pixel block, a 4 × 8 pixel block, or the like. Also, it is not necessary to have a uniform block size within one macroblock, and blocks of different sizes may be mixed. In this case, the code amount for encoding the division information increases as the number of divisions increases, but the block size may be selected in consideration of the balance between the code amount of the transform coefficient and the locally decoded image.
(3)第1〜第6の実施形態においては、輝度信号と色差信号を分割せず、一方の色信号成分に限定した例として記述した。しかし、予測処理が輝度信号と色差信号で異なる場合、それぞれ異なる予測方法を用いてもよいし、同一の予測方法を用いても良い。異なる予測方法を用いる場合は、色差信号に対して選択した予測方法を輝度信号と同様の方法で符号化/復号化する。 (3) In the first to sixth embodiments, the luminance signal and the color difference signal are not divided and described as an example limited to one color signal component. However, when the prediction processing is different between the luminance signal and the color difference signal, different prediction methods may be used, or the same prediction method may be used. When a different prediction method is used, the prediction method selected for the color difference signal is encoded / decoded in the same manner as the luminance signal.
(4)第1及び第4の実施形態においては、図17で説明したように、動き補償部301で生成された予測画像信号を動領域分離予測部302で使いまわす変更例や、図18で説明したように、動き補償部301を削除して、常に動領域分離予測部302を利用する変更例を示したが、これらの変更例は第2、3実施の形態及び第5,6実施の形態においても同様の枠組みが適応可能である。また、第2及び5実施の形態におけるグローバルMV803を利用した動き補償予測を、動き補償部301に適用しても良いし、実施の形態3及び6におけるフィルタ係数1103を利用する適応動き補償予測を動き補償部301に適応しても一向に構わない。
(4) In the first and fourth embodiments, as described with reference to FIG. 17, a modification example in which the prediction image signal generated by the
なお、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。 The above-described embodiment is not limited to the above-described embodiment, and the constituent elements can be modified and embodied without departing from the spirit of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
101…減算器、102…変換・量子化部、103…逆変換・逆量子化部、104…加算器、105…参照画像メモリ、106…予測部、107…符号化制御部、108…符号列符号化部、109…出力バッファ、114…復号画像信号、115…動領域分離マスク、116…参照画像信号、117…予測画像信号、201…イントラ予測部、202…インター予測部、203…動きベクトル推定部、204…モード判定スイッチ、205…モード判定部、301…動き補償部、302…動領域分離予測部、303…背景画像生成部、304…予測切替部、305…予測分離スイッチ、306…背景画像信号
DESCRIPTION OF SYMBOLS 101 ... Subtractor, 102 ... Transformation / quantization part, 103 ... Inverse transformation / inverse quantization part, 104 ... Adder, 105 ... Reference image memory, 106 ... Prediction part, 107 ... Coding control part, 108 ... Code
Claims (36)
各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成するマスク生成ステップと、
2つ以上の前記参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値により、1つの背景画像の信号を生成或いは更新する背景画像生成/更新ステップと、
前記動領域分離マスクを用いて、(1)前記動領域に対応する、予測対象画像の第1部分に対して動き補償処理を行い、(2)前記背景領域に対応する、前記予測対象画像の第2部分には前記背景画像の信号を補間した信号を補填する、ことによって予測画像信号を生成する予測画像生成ステップと、
を有するように構成される動画像符号化方法。 In the moving picture coding method for dividing an input image signal into a plurality of pixel blocks, performing a prediction process of each pixel block using a reference image signal, and coding a difference signal between the input image signal and the predicted image signal,
A mask generating step for generating a binary moving area separation mask indicating a moving area and a background area for each reference image signal;
A background image generating / updating step for generating or updating one background image signal based on a comparison of two or more reference image signals or a binary moving region separation mask value for each reference image signal;
Using the moving region separation mask, (1) motion compensation processing is performed on the first portion of the prediction target image corresponding to the moving region, and (2) the prediction target image corresponding to the background region is selected. In the second part, a predicted image generation step of generating a predicted image signal by supplementing a signal obtained by interpolating the signal of the background image, and
A moving picture encoding method configured to include:
利用可能な2つ以上の参照画像のいずれかと前記予測対象画像間に対して、撮像系の変化に起因する画像間の変化量を補正するためのグローバルベクトルを推定するステップと、推定されたグローバルベクトルに基づいて補間した画像を用いて、前記動領域分離マスクを生成及び前記背景画像の信号を生成或いは更新するステップと、
前記グローバルベクトルに関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化するステップと、
を含むことを特徴とする請求項1又は2記載の動画像符号化方法。 The mask generation step and the background image generation / update step include
Estimating a global vector for correcting an amount of change between images due to a change in an imaging system between any of two or more available reference images and the prediction target image; and an estimated global Using the image interpolated based on the vector, generating the dynamic region separation mask and generating or updating the background image signal;
Encoding information on the global vector in units of any one of a sequence, an image, a slice, and a block;
The moving picture coding method according to claim 1 or 2, characterized by comprising:
を含むことを特徴とする請求項1乃至3のいずれか1項記載の動画像符号化方法。 The predicted image generation step includes a step of changing a coefficient of a filter that generates an interpolated image of integer accuracy or fractional accuracy for each pixel position, for the pixel in which the moving region separation mask is determined to be a moving region, and the change Encoding the information regarding the filter coefficients in units of any one of each sequence, each image, each slice, and each block;
The moving picture encoding method according to claim 1, further comprising:
前記予測対象画像の前記第1部分のブロックと同位置又は前記整数精度にマッピングしたローカル動きベクトルに基づいて導出された位置のいずれか1つ以上の動領域分割マスクに対して、前記動領域の比率或いは前記背景領域の比率を算出するステップと、
前記動領域の比率或いは前記背景領域の比率のいずれかが予め定めた規定値より大きいか、小さいか、に従って予測方法を切り替えるステップと、
を含むことを特徴とする請求項4項記載の動画像符号化方法。 The predicted image generation step includes:
With respect to any one or more moving region division masks at the same position as the block of the first part of the prediction target image or a position derived based on a local motion vector mapped to the integer precision, Calculating a ratio or ratio of the background region;
Switching the prediction method according to whether either the ratio of the moving area or the ratio of the background area is larger or smaller than a predetermined value,
The moving picture encoding method according to claim 4, further comprising:
前記動領域分離マスクに基づいて前記動領域と前記背景領域に対してそれぞれ異なる予測方法を適用する第1の予測方法と、前記予測対象画像のブロックに含まれる前記動領域分離マスクの値が全て動領域とみなして、単一の予測方法で予測する第2の予測方法を持ち、前記第1及び第2の予測方法のいずれの予測方法を用いたかを示す情報を符号化するステップを更に含むことを特徴とする請求項1乃至4のいずれか1項記載の動画像符号化方法。 The predicted image generation step includes:
A first prediction method that applies different prediction methods to the moving region and the background region based on the moving region separation mask, and all values of the moving region separation mask included in the block of the prediction target image The method further includes a step of encoding a piece of information indicating which one of the first and second prediction methods is used, the second prediction method having a second prediction method that is regarded as a moving region and is predicted by a single prediction method. 5. The moving picture encoding method according to claim 1, wherein
前記動領域分離マスクで前記背景領域と決定された画素に対して、前記背景画像の信号を前記グローバルベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成するステップと、
前記動領域と決定された画素に対して、前記参照画像信号を前記ローカル動きベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成するステップと、
を含むことを特徴とする請求項1乃至3のいずれか1項記載の動画像符号化方法。 The predicted image generation step includes:
Generating the predicted image signal by using a pixel value obtained by interpolating the signal of the background image based on the global vector for the pixel determined as the background region by the moving region separation mask;
Generating the predicted image signal by using a pixel value obtained by interpolating the reference image signal based on the local motion vector for the pixel determined as the moving region;
The moving picture encoding method according to claim 1, further comprising:
各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成するマスク生成ステップと
前記2つ以上の参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値により、1つの背景画像信号を生成或いは更新する背景画像生成/更新ステップと、
前記動領域分離マスクを用いて、(1)前記動領域に対応する、予測対象画像の第1部分に動き補償処理を行い、(2)前記背景領域に対応する、前記予測対象画像の第2部分には前記背景画像の信号を補間した信号を補填することによって予測画像信号を生成する予測画像信号生成ステップと、
を有することを特徴とする動画像復号化方法。 In a moving picture decoding method for decoding moving picture encoded data obtained by encoding each frame constituting an input image signal in units of pixel blocks, and performing decoding processing by a prescribed method,
A mask generation step for generating a binary moving region separation mask indicating a moving region and a background region for each signal of the reference image, and comparison of the signals of the two or more reference images or binary for each signal of the reference image A background image generating / updating step of generating or updating one background image signal according to the value of the moving region separation mask;
Using the moving region separation mask, (1) motion compensation processing is performed on the first portion of the prediction target image corresponding to the moving region, and (2) the second portion of the prediction target image corresponding to the background region is used. A predicted image signal generating step for generating a predicted image signal by compensating a signal obtained by interpolating the signal of the background image in the part;
A moving picture decoding method comprising:
前記マスク生成ステップ及び前記背景画像生成/更新ステップは、
利用可能な2つ以上の参照画像の信号のいずれかと前記予測対象画像間に対して、撮像系の変化に起因する画像間の変化量を補正するためのグローバルベクトルの推定を行い、推定されたグローバルベクトルに基づいて補間した画像を用いて、前記動領域分離マスクを生成及び前記背景画像信号を生成或いは更新するステップと、
前記グローバルベクトルに関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化するステップと、
を含むことを特徴とする請求項10又は11記載の動画像復号化方法。 (Moving image decoding: camera correction of moving region separation mask: middle concept)
The mask generation step and the background image generation / update step include
A global vector for correcting the amount of change between images caused by a change in the imaging system is estimated between one of two or more available reference image signals and the prediction target image. Using the image interpolated based on a global vector, generating the dynamic region separation mask and generating or updating the background image signal;
Encoding information on the global vector in units of any one of a sequence, an image, a slice, and a block;
The moving picture decoding method according to claim 10 or 11, further comprising:
前記動領域分割マスクが動領域と判定された画素に対して、整数精度或いは分数精度の補間画像を生成するフィルタの係数を画素位置ごとに変更するステップと、
前記変更したフィルタ係数に関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化するステップと、
を含むことを特徴とする前記請求項10乃至12のいずれか1項記載の動画像復号化方法。 The predicted image generation step includes:
Changing a coefficient of a filter for generating an interpolated image of integer precision or fractional precision for each pixel position for a pixel in which the moving area division mask is determined to be a moving area;
Encoding the information regarding the changed filter coefficient in units of any one of each sequence, each image, each slice, and each block;
The moving picture decoding method according to any one of claims 10 to 12, further comprising:
を含むことを特徴とする前記請求項10乃至13のいずれか1項記載の動画像復号化方法。 The predicted image generation step is performed for any one or more moving region division masks at the same position as the partial block of the prediction target image or a position derived based on a local motion vector mapped with the integer precision. Calculating a ratio of the moving area or the ratio of the background area, and a prediction method according to whether either the ratio of the moving area or the ratio of the background area is larger or smaller than a predetermined value. Switching steps;
The moving picture decoding method according to claim 10, further comprising:
前記動領域分離マスクに基づいて前記動領域と前記背景領域に対してそれぞれ異なる予測方法を適用する第1の予測方法と、前記予測対象画像の前記第1部分のブロックに含まれる前記動領域分離マスクの値が全て動領域とみなして、単一の予測方法で予測する第2の予測方法を持ち、前記第1の予測方法と前記第2の予測方法のいずれの予測方法を用いたかを示す情報を復号化するステップを含む、ことを特徴とする前記請求項10乃至13のいずれか1項記載の動画像復号化方法。 The predicted image generation step includes:
A first prediction method that applies different prediction methods to the moving region and the background region based on the moving region separation mask, and the moving region separation included in the block of the first portion of the prediction target image It has a second prediction method in which all mask values are regarded as moving regions and is predicted by a single prediction method, and indicates which of the first prediction method and the second prediction method is used. 14. The moving picture decoding method according to claim 10, further comprising a step of decoding information.
前記動領域分離マスクで前記背景領域と判定された画素に対して、前記背景画像信号を前記グローバルベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成するステップと、
前記動領域と判定された画素に対して、前記参照画像信号を前記ローカル動きベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成するステップと、
を含むことを特徴とする前記請求項10乃至12のいずれか1項記載の動画像復号化方法。 The predicted image generation step includes:
Generating the predicted image signal by using a pixel value obtained by interpolating the background image signal based on the global vector for the pixel determined as the background region by the moving region separation mask;
Generating the predicted image signal by using a pixel value obtained by interpolating the reference image signal based on the local motion vector for the pixel determined to be the moving region;
The moving picture decoding method according to any one of claims 10 to 12, further comprising:
各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成するマスク生成手段と、
2つ以上の前記参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値によって、1つの背景画像の信号を生成或いは更新する背景画像生成/更新手段と、
前記動領域分離マスクを用いて、(1)前記動領域に対応する、予測対象画像の第1部分に対して動き補償処理を行い、(2)前記背景領域に対応する、前記予測対象画像の第2部分には背景画像信号を補間した信号を補填することによって予測画像信号を生成する予測画像生成手段と、
を有するように構成される動画像符号化装置。 In a moving image encoding apparatus that divides an input image signal into a plurality of pixel blocks, performs a prediction process on each pixel block using a reference image signal, and encodes a difference signal between the input image signal and the predicted image signal.
Mask generating means for generating a binary moving region separation mask indicating a moving region and a background region for each reference image signal;
A background image generating / updating means for generating or updating one background image signal by comparing two or more reference image signals or by a binary moving region separation mask value for each reference image signal;
Using the moving region separation mask, (1) motion compensation processing is performed on the first portion of the prediction target image corresponding to the moving region, and (2) the prediction target image corresponding to the background region is selected. A predicted image generating means for generating a predicted image signal by supplementing a signal obtained by interpolating a background image signal in the second part;
A moving picture encoding apparatus configured to include:
前記マスク生成手段及び前記背景画像生成/更新手段は、推定された前記グローバルベクトルに基づいて補間した画像を用いて、前記動領域分離マスクを生成するマスク生成手段及び前記背景画像の信号を生成或いは更新する背景画像生成/更新手段によって構成される、
ことを特徴とする請求項19又は20記載の動画像符号化装置。 An estimation means for estimating a global vector for correcting an amount of change between images caused by a change in an imaging system between any one of two or more available reference images and the prediction target image; and the global vector And encoding means for encoding the information on the sequence, the image, the slice, or the block.
The mask generation unit and the background image generation / update unit generate a mask generation unit that generates the moving region separation mask and a signal of the background image using an image interpolated based on the estimated global vector, or Consists of background image generation / update means for updating,
21. The moving picture coding apparatus according to claim 19 or 20, wherein
を含むことを特徴とする請求項19乃至21のいずれか1項記載の動画像符号化装置。 The prediction image means includes a changing means for changing a coefficient of a filter for generating an interpolation image with integer precision or fractional precision for each pixel position, for the pixel in which the moving area separation mask is determined to be a moving area, and the change Encoding means for encoding the information regarding the filter coefficient in units of any one of each sequence, each image, each slice, and each block;
The moving picture coding apparatus according to any one of claims 19 to 21, wherein the moving picture coding apparatus includes:
前記予測対象画像の前記第1部分のブロックと同位置又は前記整数精度にマッピングしたローカル動きベクトルに基づいて導出された位置のいずれか1つ以上の動領域分割マスクに対して、前記動領域の比率或いは前記背景領域の比率を算出する算出手段と、
前記動領域の比率或いは前記背景領域の比率のいずれかが予め定めた規定値より大きいか、小さいか、に従って予測方法を切り替える切替手段と、
を含むことを特徴とする請求項22項記載の動画像符号化装置。 The predicted image means includes
With respect to any one or more moving region division masks at the same position as the block of the first part of the prediction target image or a position derived based on a local motion vector mapped to the integer precision, Calculating means for calculating a ratio or a ratio of the background region;
Switching means for switching a prediction method according to whether either the ratio of the moving area or the ratio of the background area is larger or smaller than a predetermined value,
23. The moving picture coding apparatus according to claim 22, further comprising:
前記動領域分離マスクに基づいて前記動領域と前記背景領域に対してそれぞれ異なる予測方法を適用する第1の予測方法と、前記予測対象画像のブロックに含まれる前記動領域分離マスクの値が全て動領域とみなして、単一の予測方法で予測する第2の予測方法を持ち、前記第1及び第2の予測方法のいずれの予測方法を用いたかを示す情報を符号化する符号化手段を更に含むことを特徴とする請求項19乃至22のいずれか1項記載の動画像符号化装置。 The predicted image generation means includes
A first prediction method that applies different prediction methods to the moving region and the background region based on the moving region separation mask, and all values of the moving region separation mask included in the block of the prediction target image Encoding means for encoding a piece of information indicating which one of the first and second prediction methods is used, having a second prediction method that is regarded as a moving region and predicting with a single prediction method 23. The moving picture coding apparatus according to claim 19, further comprising:
前記動領域分離マスクで前記背景領域と決定された画素に対して、前記背景画像の信号を前記グローバルベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成する生成手段と、
前記動領域と決定された画素に対して、前記参照画像の信号を前記ローカル動きベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成する生成手段と、
を含むことを特徴とする請求項19乃至22のいずれか1項記載の動画像符号化装置。 The predicted image generation means includes
Generating means for generating the predicted image signal by using a pixel value obtained by interpolating the signal of the background image based on the global vector for the pixel determined as the background region by the moving region separation mask;
Generating means for generating the predicted image signal by using a pixel value obtained by interpolating the signal of the reference image based on the local motion vector for the pixel determined to be the moving region;
23. The moving picture coding apparatus according to claim 19, further comprising:
各参照画像の信号毎に動領域と背景領域とを示す二値の動領域分離マスクを生成するマスク生成手段と
前記2つ以上の参照画像の信号の比較或いは前記参照画像の信号毎の二値の前記動領域分離マスクの値により、1つの背景画像信号を生成或いは更新する背景画像生成/更新手段と、
前記動領域分離マスクを用いて、(1)前記動領域に対応する、予測対象画像の第1部分に動き補償処理を行い、(2)前記背景領域に対応する、前記予測対象画像の第2部分には前記背景画像の信号を補間した信号を補填することによって予測画像信号を生成する予測画像信号生成手段と、
を有することを特徴とする動画像復号化装置。 In a moving image decoding apparatus that decodes moving image encoded data obtained by encoding each frame constituting an input image signal in units of pixel blocks, and performs decoding processing by a prescribed method,
A mask generating means for generating a binary moving region separation mask indicating a moving region and a background region for each reference image signal, and a comparison of the signals of the two or more reference images or a binary value for each signal of the reference image A background image generating / updating means for generating or updating one background image signal according to the value of the moving region separation mask;
Using the moving region separation mask, (1) motion compensation processing is performed on the first portion of the prediction target image corresponding to the moving region, and (2) the second portion of the prediction target image corresponding to the background region is used. A predicted image signal generating means for generating a predicted image signal by supplementing a signal obtained by interpolating the signal of the background image in the portion;
A moving picture decoding apparatus comprising:
前記マスク生成手段及び前記背景画像生成/更新手段は、推定された前記グローバルベクトルに基づいて補間した画像を用いて、前記動領域分離マスクを生成するマスク生成手段及び前記背景画像信号を生成或いは更新する背景画像生成/更新手段とで構成される、
ことを特徴とする請求項28又は29記載の動画像復号化装置。 An estimation means for estimating a global vector for correcting an amount of change between images caused by a change in an imaging system, between any of two or more available reference image signals and the prediction target image; Encoding means for encoding the information about the global vector in units of any one of a sequence, an image, a slice, and a block;
The mask generation means and the background image generation / update means generate or update the mask generation means for generating the moving region separation mask and the background image signal using an image interpolated based on the estimated global vector. Comprising background image generation / update means for
30. A moving picture decoding apparatus according to claim 28 or 29.
前記動領域分割マスクが動領域と判定された画素に対して、整数精度或いは分数精度の補間画像を生成するフィルタの係数を画素位置ごとに変更する変更手段と、
前記変更したフィルタ係数に関する情報を、シーケンス毎、画像毎、スライス毎、ブロック毎のいずれかの単位で符号化する符号化手段と、
を含むことを特徴とする前記請求項28乃至30のいずれか1項記載の動画像復号化装置。 The predicted image generation means includes
Change means for changing, for each pixel position, a coefficient of a filter that generates an integer-accurate or fraction-accurate interpolated image for pixels in which the moving area division mask is determined to be a moving area;
Encoding means for encoding the information regarding the changed filter coefficient in units of any one of a sequence, an image, a slice, and a block;
31. The moving picture decoding apparatus according to any one of claims 28 to 30, wherein the moving picture decoding apparatus includes:
を含むことを特徴とする前記請求項28乃至31のいずれか1項記載の動画像復号化装置。 The predicted image generation means applies to one or more moving region division masks at the same position as the partial block of the prediction target image or a position derived based on a local motion vector mapped with the integer precision. A prediction unit that calculates a ratio of the moving area or the ratio of the background area, and whether either the ratio of the moving area or the ratio of the background area is larger or smaller than a predetermined value. Switching means for switching between,
32. The moving picture decoding apparatus according to claim 28, further comprising:
前記動領域分離マスクに基づいて前記動領域と前記背景領域に対してそれぞれ異なる予測方法を適用する第1の予測方法と、前記予測対象画像の前記第1部分のブロックに含まれる前記動領域分離マスクの値が全て動領域とみなして、単一の予測方法で予測する第2の予測方法を持ち、前記第1の予測方法と前記第2の予測方法のいずれの予測方法を用いたかを示す情報を復号化する復号手段を含む、ことを特徴とする前記請求項28乃至31のいずれか1項記載の動画像復号化装置。 The predicted image generation means includes
A first prediction method that applies different prediction methods to the moving region and the background region based on the moving region separation mask, and the moving region separation included in the block of the first portion of the prediction target image It has a second prediction method in which all mask values are regarded as moving regions and is predicted by a single prediction method, and indicates which of the first prediction method and the second prediction method is used. 32. The moving picture decoding apparatus according to claim 28, further comprising decoding means for decoding information.
前記動領域分離マスクで前記背景領域と判定された画素に対して、前記背景画像信号を前記グローバルベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成する生成手段と、
前記動領域と判定された画素に対して、前記参照画像信号を前記ローカル動きベクトルに基づいて補間した画素値を用いることによって前記予測画像信号を生成する生成手段と、
を含むことを特徴とする前記請求項28乃至30のいずれか1項記載の動画像復号化装置。 The predicted image generation means includes
Generating means for generating the predicted image signal by using a pixel value obtained by interpolating the background image signal based on the global vector for the pixel determined as the background region by the moving region separation mask;
Generating means for generating the predicted image signal by using a pixel value obtained by interpolating the reference image signal based on the local motion vector for the pixel determined to be the moving region;
31. The moving picture decoding apparatus according to any one of claims 28 to 30, wherein the moving picture decoding apparatus includes:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008167884A JP2010011075A (en) | 2008-06-26 | 2008-06-26 | Method and apparatus for encoding and decoding moving image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008167884A JP2010011075A (en) | 2008-06-26 | 2008-06-26 | Method and apparatus for encoding and decoding moving image |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010011075A true JP2010011075A (en) | 2010-01-14 |
JP2010011075A5 JP2010011075A5 (en) | 2011-07-14 |
Family
ID=41591028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008167884A Pending JP2010011075A (en) | 2008-06-26 | 2008-06-26 | Method and apparatus for encoding and decoding moving image |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010011075A (en) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011142279A1 (en) * | 2010-05-13 | 2011-11-17 | シャープ株式会社 | Encoding device, decoding device, and data structure |
WO2011152518A1 (en) * | 2010-06-04 | 2011-12-08 | ソニー株式会社 | Image processing device and method |
JP2012186573A (en) * | 2011-03-04 | 2012-09-27 | Kddi Corp | Moving image encoder, moving image encoding method, and program |
CN103299644A (en) * | 2011-01-03 | 2013-09-11 | 苹果公司 | Video coding system using implied reference frames |
RU2716230C2 (en) * | 2011-09-09 | 2020-03-06 | Кт Корпорейшен | Video decoding method |
JP2022529509A (en) * | 2019-04-25 | 2022-06-22 | オーピー ソリューションズ, エルエルシー | Candidates for frames with global motion |
JP2022529510A (en) * | 2019-04-25 | 2022-06-22 | オーピー ソリューションズ, エルエルシー | Selective motion vector prediction candidates in frames with global motion |
JP2022529508A (en) * | 2019-04-25 | 2022-06-22 | オーピー ソリューションズ, エルエルシー | Global motion constraint motion vector in inter-prediction |
JP2022529737A (en) * | 2019-04-25 | 2022-06-23 | オーピー ソリューションズ, エルエルシー | Adaptive motion vector prediction candidates in frames with global motion |
JP2022529736A (en) * | 2019-04-25 | 2022-06-23 | オーピー ソリューションズ, エルエルシー | Global motion model for motion vector inter-prediction |
JP2022529735A (en) * | 2019-04-25 | 2022-06-23 | オーピー ソリューションズ, エルエルシー | Efficient coding of global motion vectors |
JP2022530054A (en) * | 2019-04-25 | 2022-06-27 | オーピー ソリューションズ, エルエルシー | Signal transduction of global motion vector in picture header |
JP2022530411A (en) * | 2019-04-25 | 2022-06-29 | オーピー ソリューションズ, エルエルシー | Signal transduction of global motion vector in picture header |
JP2022531131A (en) * | 2019-04-25 | 2022-07-06 | オーピー ソリューションズ, エルエルシー | Global motion for fusion mode candidates in interprediction |
WO2023091780A1 (en) * | 2021-11-22 | 2023-05-25 | Beijing Dajia Internet Information Technology Co., Ltd. | Planar mode improvement for intra prediction |
CN116708931A (en) * | 2022-11-14 | 2023-09-05 | 荣耀终端有限公司 | Image processing method and electronic equipment |
RU2808638C2 (en) * | 2019-04-25 | 2023-11-30 | Оп Солюшнз, Ллк | Global motion vector signal in image title |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001507541A (en) * | 1996-12-30 | 2001-06-05 | シャープ株式会社 | Sprite-based video coding system |
WO2007002437A2 (en) * | 2005-06-24 | 2007-01-04 | Ntt Docomo, Inc. | Method and apparatus for video encoding and decoding using adaptive interpolation |
-
2008
- 2008-06-26 JP JP2008167884A patent/JP2010011075A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001507541A (en) * | 1996-12-30 | 2001-06-05 | シャープ株式会社 | Sprite-based video coding system |
WO2007002437A2 (en) * | 2005-06-24 | 2007-01-04 | Ntt Docomo, Inc. | Method and apparatus for video encoding and decoding using adaptive interpolation |
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011142279A1 (en) * | 2010-05-13 | 2011-11-17 | シャープ株式会社 | Encoding device, decoding device, and data structure |
US10904547B2 (en) | 2010-05-13 | 2021-01-26 | Sharp Kabushikikaisha | Image decoding device, image encoding device, and image decoding method |
US11336912B2 (en) | 2010-05-13 | 2022-05-17 | Sharp Kabushiki Kaisha | Image decoding device, image encoding device, and image decoding method |
US10306251B2 (en) | 2010-05-13 | 2019-05-28 | Sharp Kabushiki Kaisha | Encoding device, decoding device, and data structure |
JP5670444B2 (en) * | 2010-05-13 | 2015-02-18 | シャープ株式会社 | Encoding device and decoding device |
CN103369322A (en) * | 2010-06-04 | 2013-10-23 | 索尼公司 | Image processing device and method |
US10230964B2 (en) | 2010-06-04 | 2019-03-12 | Sony Corporation | Image processing apparatus and method |
WO2011152518A1 (en) * | 2010-06-04 | 2011-12-08 | ソニー株式会社 | Image processing device and method |
US8731310B2 (en) | 2010-06-04 | 2014-05-20 | Sony Corporation | Image processing apparatus and method |
US8849052B2 (en) | 2010-06-04 | 2014-09-30 | Sony Corporation | Image processing apparatus and method |
US10375403B2 (en) | 2010-06-04 | 2019-08-06 | Sony Corporation | Image processing apparatus and method |
CN102918837B (en) * | 2010-06-04 | 2015-09-30 | 索尼公司 | Image processing equipment and method |
CN102918837A (en) * | 2010-06-04 | 2013-02-06 | 索尼公司 | Image processing device and method |
US9369704B2 (en) | 2010-06-04 | 2016-06-14 | Sony Corporation | Image processing apparatus and method |
US9380299B2 (en) | 2010-06-04 | 2016-06-28 | Sony Corporation | Image processing apparatus and method |
CN103369323A (en) * | 2010-06-04 | 2013-10-23 | 索尼公司 | Image processing device and method |
CN103369323B (en) * | 2010-06-04 | 2016-12-28 | 索尼公司 | Image processing equipment and method |
US9924177B2 (en) | 2010-06-04 | 2018-03-20 | Sony Corporation | Image processing apparatus and method |
KR101607735B1 (en) * | 2011-01-03 | 2016-03-30 | 애플 인크. | Video coding system using implied reference frames |
CN103299644A (en) * | 2011-01-03 | 2013-09-11 | 苹果公司 | Video coding system using implied reference frames |
JP2014504823A (en) * | 2011-01-03 | 2014-02-24 | アップル インコーポレイテッド | Video coding system using implicit reference frame |
CN102655591B (en) * | 2011-03-04 | 2016-12-14 | Kddi株式会社 | Dynamic image encoding device, moving image decoding apparatus and dynamic image encoding method |
JP2012186573A (en) * | 2011-03-04 | 2012-09-27 | Kddi Corp | Moving image encoder, moving image encoding method, and program |
RU2716563C2 (en) * | 2011-09-09 | 2020-03-12 | Кт Корпорейшен | Video decoding method |
RU2716231C2 (en) * | 2011-09-09 | 2020-03-06 | Кт Корпорейшен | Video decoding method |
US10805639B2 (en) | 2011-09-09 | 2020-10-13 | Kt Corporation | Method for deriving a temporal predictive motion vector, and apparatus using the method |
RU2716229C2 (en) * | 2011-09-09 | 2020-03-06 | Кт Корпорейшен | Video decoding method |
US11089333B2 (en) | 2011-09-09 | 2021-08-10 | Kt Corporation | Method for deriving a temporal predictive motion vector, and apparatus using the method |
RU2716230C2 (en) * | 2011-09-09 | 2020-03-06 | Кт Корпорейшен | Video decoding method |
JP2022530411A (en) * | 2019-04-25 | 2022-06-29 | オーピー ソリューションズ, エルエルシー | Signal transduction of global motion vector in picture header |
JP7323220B2 (en) | 2019-04-25 | 2023-08-08 | オーピー ソリューションズ, エルエルシー | Candidates in frames with global motion |
JP2022529508A (en) * | 2019-04-25 | 2022-06-22 | オーピー ソリューションズ, エルエルシー | Global motion constraint motion vector in inter-prediction |
JP2022529737A (en) * | 2019-04-25 | 2022-06-23 | オーピー ソリューションズ, エルエルシー | Adaptive motion vector prediction candidates in frames with global motion |
JP2022529736A (en) * | 2019-04-25 | 2022-06-23 | オーピー ソリューションズ, エルエルシー | Global motion model for motion vector inter-prediction |
JP2022529735A (en) * | 2019-04-25 | 2022-06-23 | オーピー ソリューションズ, エルエルシー | Efficient coding of global motion vectors |
JP2022530054A (en) * | 2019-04-25 | 2022-06-27 | オーピー ソリューションズ, エルエルシー | Signal transduction of global motion vector in picture header |
JP2022529509A (en) * | 2019-04-25 | 2022-06-22 | オーピー ソリューションズ, エルエルシー | Candidates for frames with global motion |
JP2022531131A (en) * | 2019-04-25 | 2022-07-06 | オーピー ソリューションズ, エルエルシー | Global motion for fusion mode candidates in interprediction |
JP7466960B2 (en) | 2019-04-25 | 2024-04-15 | オーピー ソリューションズ, エルエルシー | Efficient coding of global motion vectors. |
JP7321583B2 (en) | 2019-04-25 | 2023-08-07 | オーピー ソリューションズ, エルエルシー | Signaling global motion vectors in picture headers |
JP2022529510A (en) * | 2019-04-25 | 2022-06-22 | オーピー ソリューションズ, エルエルシー | Selective motion vector prediction candidates in frames with global motion |
JP7448975B2 (en) | 2019-04-25 | 2024-03-13 | オーピー ソリューションズ, エルエルシー | Global motion constraint motion vector in inter prediction |
US11785238B2 (en) | 2019-04-25 | 2023-10-10 | Op Solutions, Llc | Candidates in frames with global motion |
US11800137B2 (en) | 2019-04-25 | 2023-10-24 | Op Solutions Llc | Efficient coding of global motion vectors |
US11812053B2 (en) | 2019-04-25 | 2023-11-07 | Op Solutions, Llc | Adaptive motion vector prediction candidates in frames with global motion |
RU2808638C2 (en) * | 2019-04-25 | 2023-11-30 | Оп Солюшнз, Ллк | Global motion vector signal in image title |
JP7428405B2 (en) | 2019-04-25 | 2024-02-06 | オーピー ソリューションズ, エルエルシー | Global motion for fusion mode candidates in inter prediction |
WO2023091780A1 (en) * | 2021-11-22 | 2023-05-25 | Beijing Dajia Internet Information Technology Co., Ltd. | Planar mode improvement for intra prediction |
CN116708931A (en) * | 2022-11-14 | 2023-09-05 | 荣耀终端有限公司 | Image processing method and electronic equipment |
CN116708931B (en) * | 2022-11-14 | 2024-03-15 | 荣耀终端有限公司 | Image processing method and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010011075A (en) | Method and apparatus for encoding and decoding moving image | |
JP5368631B2 (en) | Image encoding method, apparatus, and program | |
RU2739499C1 (en) | Method of decoding video for motion compensation | |
WO2010001916A1 (en) | Image processing device and method | |
WO2011013253A1 (en) | Prediction-signal producing device using geometric transformation motion-compensation prediction, time-varying image encoding device, and time-varying image decoding device | |
JP2010135864A (en) | Image encoding method, device, image decoding method, and device | |
WO2010090335A1 (en) | Motion picture coding device and motion picture decoding device using geometric transformation motion compensating prediction | |
WO2009133845A1 (en) | Video encoding/decoding device and method | |
JP5444497B2 (en) | Image encoding method and image decoding method | |
JP2008193501A (en) | Image encoding device and image encoding method | |
JP2014090459A (en) | Image encoding method and image decoding method | |
JP5571262B2 (en) | Image encoding method and image decoding method | |
JP5367161B2 (en) | Image encoding method, apparatus, and program | |
JP6609004B2 (en) | Image encoding method and image decoding method | |
JP6367452B2 (en) | Image encoding method and image decoding method | |
JP6370977B2 (en) | Image encoding method and image decoding method | |
JP6196341B2 (en) | Image encoding method and image decoding method | |
JP5649701B2 (en) | Image decoding method, apparatus, and program | |
JP2024023525A (en) | Image coding method nd image decoding method | |
JP5509398B1 (en) | Image encoding method and image decoding method | |
JP5571229B2 (en) | Image encoding method and image decoding method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110526 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110526 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120626 |