以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態(変換係数のクリップ)
2.第2の実施の形態(ノルム正規化の際のビットシフト量制御)
3.第3の実施の形態(行列演算の分解)
4.第4の実施の形態(16点HyGTの別表現)
5.第5の実施の形態(2N点HyGT)
6.第6の実施の形態(64点HyGT)
7.第7の実施の形態(ブロック分割)
8.第8の実施の形態(サブブロックの選択)
9.第9の実施の形態(SDTへの適用)
10.第10の実施の形態(その他)
<1.第1の実施の形態>
<ブロック分割>
MPEG2(Moving Picture Experts Group 2(ISO/IEC 13818-2))やMPEG-4 Part10(Advanced Video Coding、以下AVCと記す)などの旧来の画像符号化方式では、符号化処理は、マクロブロックと呼ばれる処理単位で実行される。マクロブロックは、16x16画素の均一なサイズを有するブロックである。これに対し、HEVC(High Efficiency Video Coding)では、符号化処理は、CU(Coding Unit)と呼ばれる処理単位(符号化単位)で実行される。CUは、最大符号化単位であるLCU(Largest Coding Unit)を再帰的に分割することにより形成される、可変的なサイズを有するブロックである。選択可能なCUの最大サイズは、64x64画素である。選択可能なCUの最小サイズは、8x8画素である。最小サイズのCUは、SCU(Smallest Coding Unit)と呼ばれる。なお、CUの最大サイズは、64x64画素に限定されず、より大きい128x128画素、256x256画素などのブロックサイズとしてもよい。
このように、可変的なサイズを有するCUが採用される結果、HEVCでは、画像の内容に応じて画質及び符号化効率を適応的に調整することが可能である。予測符号化のための予測処理は、PU(Prediction Unit)と呼ばれる処理単位(予測単位)で実行される。PUは、CUをいくつかの分割パタンのうちの1つで分割することにより形成される。また、PUは、輝度(Y)及び色差(Cb,Cr)毎のPB(Prediction Block)と呼ばれる処理単位(予測ブロック)から構成される。さらに、直交変換処理は、TU(Transform Unit)と呼ばれる処理単位(変換単位)で実行される。TUは、CU又はPUをある深さまで分割することにより形成される。また、TUは、輝度(Y)及び色差(Cb, Cr)毎のTB(Transform Block)と呼ばれる処理単位(変換ブロック)から構成される。
<再帰的なブロックの分割>
図1は、HEVCにおけるCUについての再帰的なブロック分割の概要を説明するための説明図である。CUのブロック分割は、1つのブロックの4(=2x2)個のサブブロックへの分割を再帰的に繰り返すことにより行われ、結果として四分木(Quad-Tree)状のツリー構造が形成される。1つの四分木の全体をCTB(Coding Tree Block)といい、CTBに対応する論理的な単位をCTU(Coding Tree Unit)という。
図1の上部には、一例として、64x64画素のサイズを有するCUであるC01が示されている。C01の分割の深さは、ゼロに等しい。これは、C01がCTUのルートでありLCUに相当することを意味する。LCUサイズは、SPS(Sequence Parameter Set)又はPPS(Picture Parameter Set)において符号化されるパラメータにより指定され得る。CUであるC02は、C01から分割される4つのCUのうちの1つであり、32x32画素のサイズを有する。C02の分割の深さは、1に等しい。CUであるC03は、C02から分割される4つのCUのうちの1つであり、16x16画素のサイズを有する。C03の分割の深さは、2に等しい。CUであるC04は、C03から分割される4つのCUのうちの1つであり、8x8画素のサイズを有する。C04の分割の深さは、3に等しい。このように、CUは、符号化される画像を再帰的に分割することにより形成される。分割の深さは、可変的である。例えば、青空のような平坦な画像領域には、より大きいサイズの(即ち、深さが小さい)CUが設定され得る。一方、多くのエッジを含む急峻な画像領域には、より小さいサイズの(即ち、深さが大きい)CUが設定され得る。そして、設定されたCUの各々が、符号化処理の処理単位となる。
<CUへのPUの設定>
PUは、イントラ予測及びインター予測を含む予測処理の処理単位である。PUは、CUをいくつかの分割パタンのうちの1つで分割することにより形成される。図2は、図1に示したCUへのPUの設定について説明するための説明図である。図2の右には、2Nx2N、2NxN、Nx2N、NxN、2NxnU、2NxnD、nLx2N及びnRx2Nという、8種類の分割パタンが示されている。これら分割パタンのうち、イントラ予測では、2Nx2N及びNxNの2種類が選択可能である(NxNはSCUでのみ選択可能)。これに対してインター予測では、非対称動き分割が有効化されている場合に、8種類の分割パタンの全てが選択可能である。
<CUへのTUの設定>
TUは、直交変換処理の処理単位である。TUは、CU(イントラCUについては、CU内の各PU)をある深さまで分割することにより形成される。図3は、図2に示したCUへのTUの設定について説明するための説明図である。図3の右には、C02に設定され得る1つ以上のTUが示されている。例えば、TUであるT01は、32x32画素のサイズを有し、そのTU分割の深さはゼロに等しい。TUであるT02は、16x16画素のサイズを有し、そのTU分割の深さは1に等しい。TUであるT03は、8x8画素のサイズを有し、そのTU分割の深さは2に等しい。
上述したCU、PU及びTUといったブロックを画像に設定するためにどのようなブロック分割を行うかは、典型的には、符号化効率を左右するコストの比較に基づいて決定される。エンコーダは、例えば1つの2Mx2M画素のCUと、4つのMxM画素のCUとの間でコストを比較し、4つのMxM画素のCUを設定した方が符号化効率が高いならば、2Mx2M画素のCUを4つのMxM画素のCUへと分割することを決定する。
<CUとPUの走査順>
画像を符号化する際、画像(又はスライス、タイル)内に格子状に設定されるCTB(又はLCU)が、ラスタスキャン順に走査される。1つのCTBの中では、CUは、四分木を左から右、上から下に辿るように走査される。カレントブロックを処理する際、上及び左の隣接ブロックの情報が入力情報として利用される。図4は、CUとPUの走査順について説明するための説明図である。図4の左上には、1つのCTBに含まれ得る4つのCUである、C10、C11、C12及びC13が示されている。各CUの枠内の数字は、処理の順序を表現している。符号化処理は、左上のCUであるC10、右上のCUであるC11、左下のCUであるC12、右下のCUであるC13の順で実行される。図4の右には、CUであるC11に設定され得るインター予測のための1つ以上のPUが示されている。図4の下には、CUであるC12に設定され得るイントラ予測のための1つ以上のPUが示されている。これらPUの枠内の数字に示したように、PUもまた、左から右、上から下に辿るように走査される。
以下においては、画像(ピクチャ)の部分領域や処理単位として「ブロック」を用いて説明する場合がある(処理部のブロックではない)。この場合の「ブロック」は、ピクチャ内の任意の部分領域を示し、その大きさ、形状、および特性等は限定されない。つまり、この場合の「ブロック」には、例えば、TU、TB、PU、PB、SCU、CU、LCU(CTB)、サブブロック、マクロブロック、タイル、またはスライス等、任意の部分領域(処理単位)が含まれるものとする。
<変換係数のダイナミックレンジ>
非特許文献1には、画像符号化において、画像とその予測画像の差分である予測残差に対してプライマリ変換を行った後に、さらに、エナジーコンパクションを高める(低域に変換係数を集中させる)ために、変換ブロック内のサブブロック毎に、セカンダリ変換を適用することが開示されている。また、その非特許文献1には、どのセカンダリ変換を適用するかを示すセカンダリ変換識別子をCU単位でシグナルすることも開示されている。
非特許文献2には、エンコーダにおいて、RDO(Rate-Distortion Optimization)に基づいて、非特許文献1に記載のCU単位でどのセカンダリ変換を適用するか決定するのは、計算複雑度が大きく、変換ブロック単位でのセカンダリ変換を適用するか否かを示すセカンダリ変換フラグをシグナルすることが開示されている。また、その非特許文献2には、どのセカンダリ変換を適用するかを示すセカンダリ変換識別子を、プライマリ変換識別子およびイントラ予測モードに基づいて導出することも開示されている。
しかしながら、非特許文献1および非特許文献2のいずれに記載の方法においても、セカンダリ変換の各行列の要素の精度は、9ビット(bit)精度で近似している。この精度でセカンダリ変換や逆セカンダリ変換を実行すると、セカンダリ変換や逆セカンダリ変換後の各信号のダイナミックレンジが16ビットを超える可能性があった。そのため、セカンダリ変換や逆セカンダリ変換後の演算結果を一時的に格納する中間バッファに必要な容量が増大する等、符号化・復号の負荷が増大するおそれがあった。
例えば、セカンダリ変換は、以下の式(1)のように表すことができる。
Y = T・XT ・・・(1)
式(1)において、Tは16×16の行列であり、Xは1×16の1次元のベクトルである。Xの各要素の値の値域は、[-A, A-1]である。
この場合、式(1)においてYの各要素のダイナミックレンジの上限値MaxValは、以下の式(2)のように表される。
式(2)において、rは、行ベクトルを示し、iは行ベクトルrのi番目の要素を示す。つまり、行列Tのある行ベクトルrに着目した場合、行ベクトルの全要素の絶対値和とXの値域の上限値が最大となる行ベクトルrが、式(1)のダイナミックレンジの上限値となる。同様に、下限値は、-MaxValとなる。
例えば、セカンダリ変換において行われる行列演算に、図5に示されるような行列Rが用いられるとする。この場合Rの行ベクトルrの全要素の絶対値和が最大となるのは、r = 3のときである(図中四角で囲まれた行ベクトル)。このとき、絶対値和は、以下の式(3)に示されるように、627である。
非特許文献1に記載の方法におけるセカンダリ変換におけるダイナミックレンジは図6に示される表のようになる。この表に示されるように、Coeff >> 8や、Coeff_P >> 8の操作(ノルム正規化)の後の係数が215を超える可能性があった。
このようにダイナミックレンジが16ビットを超えると、中間バッファサイズは、16ビットでは不足するので、32ビットにしなければならなくなり、コストが増大するおそれがある。このように、非特許文献1や非特許文献2に記載の方法では、符号化・復号の負荷が増大するおそれがあった。
<変換係数のクリップ>
そこで、変換係数を、所定の上限値若しくは下限値またはその両方でクリップするようにする。このようにすることにより、変換係数のダイナミックレンジ幅の増大を抑制することができるので、符号化・復号の負荷の増大を抑制することができる。
<画像符号化装置>
図7は、本技術を適用した画像処理装置の一態様である画像符号化装置の構成の一例を示すブロック図である。図7に示される画像符号化装置100は、AVCやHEVCのように、画像とその予測画像との予測残差を符号化する装置である。例えば、画像符号化装置100は、HEVCに提案された技術や、JVET(Joint Video Exploration Team)にて提案された技術を実装している。
なお、図7においては、処理部やデータの流れ等の主なものを示しており、図7に示されるものが全てとは限らない。つまり、画像符号化装置100において、図7においてブロックとして示されていない処理部が存在したり、図7において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
図7に示されるように画像符号化装置100は、制御部101、演算部111、変換部112、量子化部113、符号化部114、逆量子化部115、逆変換部116、演算部117、フレームメモリ118、および予測部119を有する。
制御部101は、外部、または予め指定された処理単位のブロックサイズに基づいて、画像符号化装置100に入力される動画像を処理単位のブロック(CU, PU, 変換ブロック(TB)など)へ分割し、分割されたブロックに対応する画像Iを演算部111へ供給させる。また、制御部101は、各ブロックへ供給する符号化パラメータ(ヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo等)を、例えば、RDO(Rate-Distortion Optimization)に基づいて決定する。決定された符号化パラメータは、各ブロックへ供給される。
ヘッダ情報Hinfoは、例えば、ビデオパラメータセット(VPS(Video Parameter Set))、シーケンスパラメータセット(SPS(Sequence Parameter Set))、ピクチャパラメータセット(PPS(Picture Parameter Set))、スライスヘッダ(SH)等の情報を含む。例えば、ヘッダ情報Hinfoには、画像サイズ(横幅PicWidth、縦幅PicHeight)、ビット深度(輝度bitDepthY, 色差bitDepthC)、CUサイズの最大値MaxCUSize/最小値MinCUSize、変換ブロックサイズの最大値MaxTBSize/最小値MinTBSize、変換スキップブロックの最大値MaxTSSize(最大変換スキップブロックサイズとも称する)、各符号化ツールのオンオフフラグ(有効フラグとも称する)などを規定する情報が含まれる。もちろん、ヘッダ情報Hinfoの内容は任意であり、上述した例以外のどのような情報がこのヘッダ情報Hinfoに含まれるようにしてもよい。
予測モード情報Pinfoには、例えば、処理対象PUのPUサイズ(予測ブロックサイズ)を示す情報であるPUサイズPUSize、処理対象のブロックのイントラ予測モードに関する情報であるイントラ予測モード情報IPinfo(例えば、JCTVC-W1005, 7.3.8.5 Coding Unit syntax中のprev_intra_luma_pred_flag, mpm_idx, rem_intra_pred_mode等)、処理対象のブロックの動き予測に関する情報である動き予測情報MVinfo(例えば、JCTVC-W1005, 7.3.8.6 Prediction Unit Syntax中のmerge_idx, merge_flag, inter_pred_idc, ref_idx_LX, mvp_lX_flag, X={0,1}, mvd等)等が含まれる。もちろん、予測モード情報Pinfoの内容は任意であり、上述した例以外のどのような情報がこの予測モード情報Pinfoに含まれるようにしてもよい。
変換情報Tinfoには、例えば、以下のような情報が含まれる。
ブロックサイズTBSize(あるいは、2を底とするTBSizeの対数値log2TBSize、変換ブロックサイズとも称する)は、処理対象変換ブロックのブロックサイズを示す情報である。
セカンダリ変換識別子(st_idx)は、対象とするデータ単位において、どのセカンダリ変換または逆セカンダリ変換((逆)セカンダリ変換とも称する)を適用するかを示す識別子である(例えば、JVET-B1001、2.5.2 Secondary Transformsを参照。JEM2では、nsst_idx, rot_idxとも称する)。換言するに、このセカンダリ変換識別子は、対象とするデータ単位における(逆)セカンダリ変換の内容に関する情報である。
例えば、セカンダリ変換識別子st_idxは、その値が0より大きい場合、(逆)セカンダリ変換の行列を指定する識別子である。換言するに、この場合、セカンダリ変換識別子st_idxは、(逆)セカンダリ変換の実行を示す。また、例えば、セカンダリ変換識別子st_idxは、その値が0の場合、(逆)セカンダリ変換のスキップを示す。
スキャン識別子(scanIdx)は、スキャン方法に関する情報である。量子化パラメータ(qp)は、対象とするデータ単位において、(逆)量子化に用いられる量子化パラメータを示す情報である。量子化マトリックス(scaling_matrix)は、対象とするデータ単位において、(逆)量子化に用いられる量子化マトリックスを示す情報である(例えば、JCTVC-W1005, 7.3.4 Scaling list data syntax)。
もちろん、変換情報Tinfoの内容は任意であり、上述した例以外のどのような情報がこの変換情報Tinfoに含まれるようにしてもよい。
ヘッダ情報Hinfoは、例えば、各ブロックに供給される。予測モード情報Pinfoは、例えば、符号化部114および予測部119に供給される。変換情報Tinfoは、例えば、変換部112、量子化部113、符号化部114、逆量子化部115、および逆変換部116に供給される。
演算部111は、入力された処理単位のブロックに対応する画像Iから、予測部119から供給された予測画像Pを、式(4)に示すように減算して予測残差Dを求め、それを変換部112に供給する。
D=I-P ・・・(4)
変換部112は、制御部101から供給される変換情報Tinfoに基づいて、演算部111から供給される予測残差Dに対して変換処理を行い、変換係数Coeffを導出する。変換部112は、その変換係数Coeffを量子化部113に供給する。
量子化部113は、制御部101から供給される変換情報Tinfoに基づいて、変換部112から供給される変換係数Coeffをスケーリング(量子化)する。つまり、量子化部113は、変換処理が行われた変換係数Coeffの量子化を行う。量子化部113は、その量子化により得られた量子化後の変換係数、すなわち量子化変換係数レベルlevelを符号化部114および逆量子化部115に供給する。
符号化部114は、量子化部113から供給される量子化変換係数レベルlevel等を所定の方法で符号化する。例えば、符号化部114は、シンタックステーブルの定義に沿って、制御部101から供給される符号化パラメータ(ヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo等)や、量子化部113から供給される量子化変換係数レベルlevelを、各シンタックス要素のシンタックス値へ変換し、各シンタックス値を符号化(例えば、算術符号化)し、ビット列(符号化データ)を生成する。
また、符号化部114は、量子化変換係数レベルlevelから残差情報RInfoを導出し、残差情報RInfoを符号化し、ビット列(符号化データ)を生成する。
残差情報RInfoには、例えば、ラスト非ゼロ係数X座標(last_sig_coeff_x_pos)、ラスト非ゼロ係数Y座標(last_sig_coeff_y_pos)、サブブロック非ゼロ係数有無フラグ(coded_sub_block_flag)、非ゼロ係数有無フラグ(sig_coeff_flag)、非ゼロ係数のレベルが1より大きいかを示すフラグ情報であるGR1フラグ(gr1_flag)、非ゼロ係数のレベルが2より大きいかを示すフラグ情報であるGR2フラグ(gr2_flag)、非ゼロ係数の正負を示す符号であるサイン符号(sign_flag)、非ゼロ係数の残余レベルを示す情報である非ゼロ係数残余レベル(coeff_abs_level_remaining)などが含まれる(例えば、JCTVC-W1005の7.3.8.11 Residual Coding syntaxを参照)。もちろん、残差情報RInfoの内容は任意であり、上述した例以外のどのような情報がこの残差情報RInfoに含まれるようにしてもよい。
符号化部114は、例えば、符号化された各シンタックス要素のビット列(符号化データ)を多重化し、ビットストリームとして出力する。
逆量子化部115は、制御部101から供給される変換情報Tinfoに基づいて、量子化部113から供給される量子化変換係数レベルlevelの値をスケーリング(逆量子化)し、逆量子化後の変換係数Coeff_IQを導出する。逆量子化部115は、その変換係数Coeff_IQを逆変換部116に供給する。この逆量子化部115により行われる逆量子化は、量子化部113により行われる量子化の逆処理であり、後述する画像復号装置において行われる逆量子化と同様の処理である。したがって、この逆量子化については、画像復号装置に関する説明において後述する。
逆変換部116は、制御部101から供給される変換情報Tinfoに基づいて、逆量子化部115から供給される変換係数Coeff_IQに対して逆変換を行い、予測残差D’を導出する。逆変換部116は、その予測残差D’を演算部117に供給する。この逆変換部116により行われる逆変換は、変換部112により行われる変換の逆処理であり、後述する画像復号装置において行われる逆変換と同様の処理である。したがって、この逆変換については、画像復号装置に関する説明において後述する。
演算部117は、逆変換部116から供給される予測残差D’と、予測部119より供給される、その予測残差D’に対応する予測画像P(予測信号)とを、以下の式(5)のように加算して局所復号画像Recを導出する。演算部117は、その局所復号画像Recをフレームメモリ118に供給する。
Rec=D’+P ・・・(5)
フレームメモリ118は、演算部117より供給される局所復号画像Recを用いてピクチャ単位毎の復号画像を再構築し、フレームメモリ118内のバッファへ格納する。フレームメモリ118は、予測部119により指定される復号画像を参照画像としてバッファより読み出し、予測部119に供給する。また、フレームメモリ118は、復号画像の生成に係るヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfoなどを、フレームメモリ118内のバッファに格納するようにしても良い。
予測部119は、予測モード情報PInfoによって指定される、フレームメモリ118に格納された復号画像を参照画像として取得し、その参照画像を用いて、予測モード情報Pinfoによって指定される予測方法により予測画像Pを生成する。予測部119は、生成した予測画像Pを演算部111や演算部117に供給する。
このような画像符号化装置100において、画像とその画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を、所定の上限値若しくは下限値またはその両方でクリップするクリップ処理部を備えるようにする。つまり、変換部112が、画像とその画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を、所定の上限値若しくは下限値またはその両方でクリップするようにする。
<変換部>
図8は、変換部112の主な構成例を示すブロック図である。図8において、変換部112は、プライマリ変換部131およびセカンダリ変換部132を有する。
プライマリ変換部131は、演算部111から供給される予測残差Dに対して、例えば直交変換等のプライマリ変換を実行し、その予測残差Dに対応するプライマリ変換後の変換係数Coeff_P(プライマリ変換係数とも称する)を導出する。すなわち、プライマリ変換部131は、予測残差Dをプライマリ変換係数Coeff_Pに変換する。プライマリ変換部131は、導出したプライマリ変換係数Coeff_Pをセカンダリ変換部132に供給する。
セカンダリ変換部132は、プライマリ変換部131から供給されるプライマリ変換係数Coeff_Pを1次元のベクトルに変換し、その1次元のベクトルに対する行列演算を行い、その行列演算が行われた1次元のベクトルのスケーリングを行い、そのスケーリングされた前記1次元のベクトルを行列化する変換処理であるセカンダリ変換を行う。
セカンダリ変換部132は、セカンダリ変換の内容に関する情報であるセカンダリ変換識別子st_idxと、変換係数のスキャン方法に関する情報であるスキャン識別子scanIdxとに基づいて、プライマリ変換係数Coeff_Pに対してセカンダリ変換を行い、セカンダリ変換後の変換係数Coeff(セカンダリ変換係数とも称する)を導出する。つまり、セカンダリ変換部132は、プライマリ変換係数Coeff_Pをセカンダリ変換係数Coeffに変換する。
図8に示されるように、セカンダリ変換部132は、ラスタライズ部141、行列演算部142、スケーリング部143、行列化部144、クリップ処理部145、およびセカンダリ変換選択部146を有する。
ラスタライズ部141は、スキャン識別子scanIdxによって指定される変換係数のスキャン方法に基づいて、サブブロック単位(4x4サブブロック)毎に、プライマリ変換部131から供給されるプライマリ変換係数Coeff_Pを1×16次元のベクトルX1dへ変換する。ラスタライズ部141は、得られたベクトルX1dを行列演算部142に供給する。
セカンダリ変換選択部146は、セカンダリ変換識別子st_idxで指定されるセカンダリ変換の行列Rを、セカンダリ変換選択部146の内部メモリ(不図示)より読み出し、行列演算部142に供給する。例えば、セカンダリ変換選択部146は、あるセカンダリ変換識別子st_idxの値のとき、セカンダリ変換として、図5に示される16×16の行列Rを読み出し、行列演算部142に供給する。
なお、セカンダリ変換選択部146が、セカンダリ変換識別子st_idxおよびイントラ予測モード情報IPinfo(例えば、予測モード番号)に応じて、セカンダリ変換Rを選択するようにしてもよい。また、セカンダリ変換選択部146が、イントラ予測モード情報IPinfoの代わりに、動き予測情報MVinfoおよびセカンダリ変換識別子st_idxに応じて、変換Rを選択するようにしてもよい。
行列演算部142は、1次元ベクトルX1dおよびセカンダリ変換Rの行列を用いて、以下の式(6)に示すような行列演算を行い、その結果Y1dをスケーリング部143に供給する。ここで、演算子"T"は、転置行列の操作を表す。
Y1d
T=R・X1d
T ・・・(6)
スケーリング部143は、行列演算部142から供給される信号Y1dのノルムを正規化するために、以下の式(7)に示されるようなN(Nは自然数)ビットのビットシフト演算を行い、ビットシフト後の信号Z1dを求める。
Z1d=(Y1d)>>N ・・・(7)
なお、以下の式(8)のようにNビットのシフト演算前に、オフセットとして、1<<(N-1)の値を、信号Z1dの各要素へ加算するようにしてもよい。
Z1d=(Y1d+((N-1)<<1)・E)>>N ・・・(8)
なお、式(8)において、Eは、すべての要素の値が1の1×16次元のベクトルである。例えば、図5に示されるセカンダリ変換Rの行列は、8ビットスケーリングされた行列であるため、スケーリング部143において、ノルムの正規化に用いるNの値は8である。一般的に、セカンダリ変換の行列Rが、Nビットスケーリングされている場合、ノルム正規化のビットシフト量は、Nビットである。スケーリング部143は、以上のように得られた信号Z1dを行列化部144に供給する。
行列化部144は、スキャン識別子scanIdxによって指定されるスキャン方法に基づいて、ノルム正規化後の1×16次元のベクトルZ1dを4×4行列へ変換する。行列化部144は、得られた変換係数Coeffをクリップ処理部145に供給する。
クリップ処理部145は、4x4行列の変換係数Coeff、変換係数の最大値CoeffMax、および最小値CoeffMinを入力とする。クリップ処理部145は、行列化部144から供給される4x4行列の変換係数Coeffの各要素Coeff(i,j) (i=0…3, j=0…3)に対して、以下に示す式(9)のように、変換係数の最大値CoeffMaxおよび最小値CoeffMinによってクリップ処理を行う。
Coeff(i,j) = Clip3 (CoeffMin, CoeffMax, Coeff(i,j) )
・・・(9)
ここで、演算子Clip3(Xmin, Xmax, X)は、入力値Xが、Xminより小さい場合、Xminの値を返し、入力値XがXmaxより大きい場合、Xmaxを返し、それ以外の場合は、入力値Xを返すクリップ処理である。Clip3は、Min(x,y), Max(x,y)を使って、以下の式(10)のように表現することもできる。
Clip3(Xmin, Xmax, X ) = Min(Xmin, Max(Xmax, X)) = Max(Xmax, Min(Xmin, X))
・・・(10)
なお、変換係数の最大値CoeffMax、最小値CoeffMinは、16bit精度であるとすれば、以下の値であることが望ましい。
CoeffMax = 215 - 1 = 32767
CoeffMin = -215 = -32768
なお、変換係数の最大値CoeffMax、最小値CoeffMinの精度は、16bit精度に限定されず、一般的に、8bitの整数倍(M倍(M>=1))精度であるとしてもよい。この場合、以下のように、変換係数の最大値CoeffMaxは8*M-1の値に設定し、最小値CoeffMinは-8*Mに設定する。
CoeffMax = 8*M - 1
CoeffMin = -8*M
また、変換係数の最大値CoeffMax、及び最小値CoeffMinは、入力信号のビット深度BitDepthと、パラメータセット(SPS/PPSなど)において通知される拡張演算精度フラグextended_precision_processing_flagに基づいて、以下の式(11)乃至式(13)によって導出してもよい。
MaxLog2TrDynamicRange =
= extended_precision_processing_flag ? Max(15,BitDepth + 6) : 15
・・・(11)
CoeffMax = (1<<MaxLog2TrDynamicRange) - 1
・・・(12)
CoeffMin = - (1<<MaxLog2TrDynamicRange)
・・・(13)
ここで、拡張演算精度フラグは、フラグの値が1の場合には、変換係数の精度を拡張することを示し、フラグの値が0の場合には、変換係数の精度を拡張しないことを示す。式(11)において、拡張演算精度フラグの値が1の場合には、入力信号のビット深度BitDepthと6の和の値と、15を比較して大きい方の値が、変数MaxLog2TrDynamicRangeに設定される。
例えば、入力信号のビット深度BitDepth=10の場合、変数MaxLog2TrDynamicRangeの値は、16となる。この例の場合、変換係数の最大値CoeffMax、及び最小値CoeffMinは、式(12)および式(13)に従って、以下の値となる。この場合、変換係数の精度は、17bitである。
CoeffMax = (1<<16) - 1 = 65535
CoeffMin = -(1<<16) = -65536
同様にして、入力信号のビット深度BitDepth=12の場合、変数MaxLog2TrDynamicRangeの値は、22となる。この例の場合、変換係数の最大値CoeffMax、及び最小値CoeffMinは、式(12)および式(13)に従って、以下の値となる。この場合、変換係数の精度は、23bitである。
CoeffMax = (1<<22) - 1 = 4194303
CoeffMin = -(1<<22) = -4194304
式(11)において、拡張演算精度フラグの値が0の場合、変数MaxLog2TrDynamicRangeの値は15に設定される。この場合、変換係数の最大値CoeffMax、最小値CoeffMinは、式(12)および式(13)に従って、以下の値となる。
CoeffMax = (1<<15) - 1 = 32767
CoeffMin = -(1<<15) = -32768
以上、式(11)乃至式(13)によれば、入力信号のビット深度、及び拡張演算精度フラグに基づいて、変換係数の最大値CoeffMax、最大値CoeffMinを決定することができる。特に、入力信号のビット深度が大きい場合(例、16bit)には、変換係数の精度が16bitでは演算精度が不足し、符号化効率が低下する。従って、上記のように、入力信号のビット深度に応じて、変換係数の演算精度を制御できるようにしておくことが好ましい。
クリップ処理部145は、クリップ処理を行った変換係数Coeffをセカンダリ変換係数として量子化部113に供給する。
つまり、クリップ処理部145によりセカンダリ変換係数Coeffがクリップ処理され、その値が所定の最大値乃至最小値の範囲内に制限される。したがって、変換係数のダイナミックレンジ幅を所定の範囲内(例えば16ビット)に抑えることができるので、符号化の負荷の増大を抑制することができる。これにより、変換係数を格納する中間バッファのサイズの増大を抑制することができ、コストの増大を抑制することができる。
<画像符号化処理の流れ>
次に、画像符号化装置100により実行される各処理の流れの例を説明する。最初に、画像符号化処理の流れの例を、図9のフローチャートを参照して説明する。
画像符号化処理が開始されると、ステップS101において、制御部101は、符号化制御処理を行い、ブロック分割や符号化パラメータの設定等を行う。
ステップS102において、予測部119は、予測処理を行い、最適な予測モードの予測画像等を生成する。例えば、この予測処理において、予測部119は、イントラ予測を行って最適なイントラ予測モードの予測画像等を生成し、インター予測を行って最適なインター予測モードの予測画像等を生成し、それらの中から、コスト関数値等に基づいて最適な予測モードを選択する。
ステップS103において、演算部111は、入力画像と、ステップS102の予測処理により選択された最適なモードの予測画像との差分を演算する。つまり、演算部111は、入力画像と予測画像との予測残差Dを生成する。このようにして求められた予測残差Dは、元の画像データに比べてデータ量が低減される。したがって、画像をそのまま符号化する場合に比べて、データ量を圧縮することができる。
ステップS104において、変換部112は、ステップS103の処理により生成された予測残差Dに対して変換処理を行い、変換係数Coeffを導出する。ステップS104の処理の詳細については後述する。
ステップS105において、量子化部113は、制御部101により算出された量子化パラメータを用いる等して、ステップS104の処理により得られた変換係数Coeffを量子化し、量子化変換係数レベルlevelを導出する。
ステップS106において、逆量子化部115は、ステップS105の処理により生成された量子化変換係数レベルlevelを、そのステップS105の量子化の特性に対応する特性で逆量子化し、変換係数Coeff_IQを導出する。
ステップS107において、逆変換部116は、ステップS106の処理により得られた変換係数Coeff_IQを、ステップS104の変換処理に対応する方法で逆変換し、予測残差D’を導出する。なお、この逆変換処理は、ステップS104の変換処理の逆処理であり、後述する画像復号処理において実行される逆変換処理と同様に実行される。そのため、この逆変換処理の説明は、復号側の説明において行う。
ステップS108において、演算部117は、ステップS107の処理により導出された予測残差D’に、ステップS102の予測処理により得られた予測画像を加算することにより、局所的に復号された復号画像を生成する。
ステップS109において、フレームメモリ118は、ステップS108の処理により得られた、局所的に復号された復号画像を記憶する。
ステップS110において、符号化部114は、ステップS105の処理により得られた量子化変換係数レベルlevelを符号化する。例えば、符号化部114は、画像に関する情報である量子化変換係数レベルlevelを、算術符号化等により符号化し、符号化データを生成する。また、このとき、符号化部114は、各種符号化パラメータ(ヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo)を符号化する。さらに、符号化部114は、量子化変換係数レベルlevelから残差情報RInfoを導出し、その残差情報RInfoを符号化する。符号化部114は、このように生成した各種情報の符号化データをまとめて、ビットストリームとして画像符号化装置100の外部に出力する。このビットストリームは、例えば、伝送路や記録媒体を介して復号側に伝送される。
ステップS110の処理が終了すると、画像符号化処理が終了する。
なお、これらの各処理の処理単位は任意であり、互いに同一でなくてもよい。したがって、各ステップの処理は、適宜、他のステップの処理等と並行して、または、処理順を入れ替えて実行することもできる。
<変換処理の流れ>
次に、図9のステップS104において実行される変換処理の流れの例を、図10のフローチャートを参照して説明する。
変換処理が開始されると、ステップS121において、プライマリ変換部131は、プライマリ変換識別子pt_idxに基づいて、予測残差Dに対するプライマリ変換を行い、プライマリ変換係数Coeff_Pを導出する。
ステップS122において、セカンダリ変換部132は、セカンダリ変換識別子st_idxがセカンダリ変換を適用するか否か(st_idx>0)を判定する。セカンダリ変換識別子st_idxが0である(セカンダリ変換識別子st_idxがセカンダリ変換のスキップを示す)と判定された場合、セカンダリ変換(ステップS123乃至ステップS130の処理)がスキップされ、変換処理が終了し、処理は図9に戻る。すなわち、セカンダリ変換部132は、プライマリ変換係数Coeff_Pを変換係数Coeffとして量子化部113に供給する。
また、ステップS122において、セカンダリ変換識別子st_idxが0より大きい(セカンダリ変換識別子st_idxがセカンダリ変換の実行を示す)と判定された場合、処理はステップS123に進む。ステップS123乃至ステップS130の処理によりセカンダリ変換が実行される。
ステップS123において、セカンダリ変換選択部146は、セカンダリ変換識別子st_idxにより指定されるセカンダリ変換Rを選択する。
ステップS124において、セカンダリ変換部132は、処理対象の変換ブロックをサブブロックに分割し、未処理のサブブロックを選択する。
ステップS125において、ラスタライズ部141は、スキャン識別子scanIdxで指定されるスキャン方法に基づいて、プライマリ変換係数Coeff_Pを1×16次元のベクトルX1dに変換する。
ステップS126において、行列演算部142は、ベクトルX1dとセカンダリ変換Rとの行列積を演算し、ベクトルY1dを求める。
ステップS127において、スケーリング部143は、ベクトルY1dのノルムを正規化し、ベクトルZ1dを求める。
ステップS128において、行列化部144は、スキャン識別子scanIdxで指定されるスキャン方法に基づいて、ベクトルZ1dを4×4の行列へ変換し、処理対象のサブブロックのセカンダリ変換係数Coeffを求める。
ステップS129において、クリップ処理部145は、入力された、処理対象のサブブロックのセカンダリ変換係数Coeffの各要素に対して、最大値CoeffMaxおよび最小値CoeffMinによるクリップ処理を行う。このセカンダリ変換係数Coeffが量子化部113に供給される。
ステップS130において、セカンダリ変換部132は、処理対象の変換ブロックの全てのサブブロックを処理したか否かを判定する。未処理のサブブロックが存在すると判定された場合、処理はステップS124に戻り、それ以降の処理を繰り返す。つまり、処理対象の変換ブロックの各サブブロックについて、ステップS124乃至ステップS130の各処理(セカンダリ変換)が実行される。ステップS130において、全てのサブブロックを処理した(全てのサブブロックのセカンダリ変換を行った)と判定された場合、変換処理が終了し、処理は図9に戻る。
なお、変換処理は、実施可能な範囲で、各ステップの処理順の入れ替えや、処理の内容を変更してよい。例えば、ステップS123においてセカンダリ変換識別子st_idx=0であると判定された場合、16×16の単位行列がセカンダリ変換Rとして選択され、ステップS124乃至ステップS130の各処理が実行されるようにしてもよい。また、ステップS127で導出されるベクトルY1dのノルム正規化後のベクトルZ1dに対して、ステップS129のクリップ処理を実行し、その後、ステップS128の行列化の処理を行ってもよい。
以上のように各処理を実行することにより、変換係数のダイナミックレンジ幅を所定の範囲内(例えば16ビット)に抑えることができる。つまり、符号化の負荷の増大を抑制することができる。また、これにより、変換係数を格納する中間バッファのサイズの増大を抑制することができ、コストの増大を抑制することができる。
<画像復号装置>
次に、以上のように符号化された符号化データの復号について説明する。図11は、本技術を適用した画像処理装置の一態様である画像復号装置の構成の一例を示すブロック図である。図11に示される画像復号装置200は、図7の画像符号化装置100に対応する画像復号装置であり、画像符号化装置100が生成した符号化データ(ビットストリーム)を、画像符号化装置100による符号化方法に対応する復号方法で復号する。例えば、画像復号装置200は、HEVCに提案された技術や、JVETにて提案された技術を実装している。
なお、図11においては、処理部やデータの流れ等の主なものを示しており、図11に示されるものが全てとは限らない。つまり、画像復号装置200において、図11においてブロックとして示されていない処理部が存在したり、図11において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
図11に示されるように画像復号装置200は、復号部211、逆量子化部212、逆変換部213、演算部214、フレームメモリ215、および予測部216を有する。画像復号装置200には、例えば伝送媒体や記録媒体等を介して、画像符号化装置100等が生成した符号化データが例えばビットストリーム等として供給される。
復号部211は、供給される符号化データを、その符号化方法に対応する所定の復号方法で復号する。例えば、復号部211は、シンタックステーブルの定義に沿って、供給された符号化データ(ビットストリーム)のビット列から、各シンタックス要素のシンタックス値を復号する。シンタックス要素には、例えば、ヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo、残差情報Rinfoなどの情報が含まれる。
復号部211は、残差情報Rinfoを参照して、各変換ブロック内の各係数位置の量子化変換係数レベルlevelを導出する。復号部211は、復号して得た予測モード情報Pinfo、量子化変換係数レベルlevel、変換情報Tinfoを各ブロックへ供給する。例えば、復号部211は、予測モード情報Pinfoを予測部216に供給し、量子化変換係数レベルlevelを逆量子化部212に供給し、変換情報Tinfoを逆量子化部212および逆変換部213に供給する。
逆量子化部212は、復号部211から供給される変換情報Tinfoに基づいて、復号部211から供給される量子化変換係数レベルlevelの値をスケーリング(逆量子化)し、逆量子化後の変換係数Coeff_IQを導出する。この逆量子化は、画像符号化装置100の量子化部113(図7)により行われる量子化の逆処理である。なお、逆量子化部115(図7)は、この逆量子化部212と同様の逆量子化を行う。逆量子化部212は、得られた変換係数Coeff_IQを逆変換部213に供給する。
逆変換部213は、復号部211から供給される変換情報Tinfoに基づいて、逆量子化部212より供給される変換係数Coeff_IQを逆変換し、予測残差D’を導出する。この逆変換は、画像符号化装置100の変換部112(図7)により行われる変換処理の逆処理である。なお、逆変換部116は、この逆変換部213と同様の逆変換を行う。この逆変換の詳細については、後述する。逆変換部213は、得られた予測残差D’を演算部214に供給する。
演算部214は、以下の式(14)に示されるように、逆変換部213から供給される予測残差D’とその予測残差D’に対応する予測画像P(予測信号)とを加算し、局所的な復号画像Recを導出する。演算部214は、得られた局所的な復号画像Recを用いてピクチャ単位毎の復号画像を再構築し、得られた復号画像を画像復号装置200の外部に出力する。また、演算部214は、その局所的な復号画像Recをフレームメモリ215にも供給する。
Rec=D’+P ・・・(14)
フレームメモリ215は、演算部214より供給される局所的な復号画像Recを用いてピクチャ単位毎の復号画像を再構築し、フレームメモリ215内のバッファに格納する。フレームメモリ215は、予測部216の予測モード情報Pinfoによって指定される復号画像を参照画像としてバッファより読み出し、予測部216に供給する。また、フレームメモリ215は、その復号画像の生成に係るヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfoなどをフレームメモリ215内のバッファに格納するようにしても良い。
予測部216は、復号部211から供給される予測モード情報PInfoによって指定される、フレームメモリ215に格納された復号画像を参照画像として取得し、その参照画像を用いて、その予測モード情報Pinfoによって指定される予測方法により予測画像Pを生成する。予測部216は、生成した予測画像Pを、演算部214に供給する。
このような画像復号装置200において、逆変換処理することにより画像とその画像の予測画像との差分である予測残差が得られる変換係数を、所定の上限値若しくは下限値またはその両方でクリップするクリップ処理部を備えるようにする。つまり、逆変換部213が、逆変換処理することにより画像とその画像の予測画像との差分である予測残差が得られる変換係数を、所定の上限値若しくは下限値またはその両方でクリップするようにする。
<逆変換部>
図12は、図11の逆変換部213の主な構成例を示すブロック図である。図12に示されるように、逆変換部213は、逆セカンダリ変換部231、および逆プライマリ変換部232を有する。
逆セカンダリ変換部231は、逆量子化部212から供給される変換係数Coeff_IQ、すなわち、符号化データが復号され、逆量子化されて得られる変換係数Coeff_IQ(セカンダリ変換係数とも称する)を1次元のベクトルに変換し、その1次元のベクトルに対する行列演算を行い、その行列演算が行われた1次元のベクトルのスケーリングを行い、そのスケーリングされた1次元のベクトルを行列化する変換処理である逆セカンダリ変換を行う。
逆セカンダリ変換部231は、セカンダリ変換の内容に関する情報であるセカンダリ変換識別子st_idxと、変換係数のスキャン方法に関する情報であるスキャン識別子scanIdxとに基づいて、セカンダリ変換係数Coeff_IQに対して逆セカンダリ変換を行い、逆セカンダリ変換後の変換係数Coeff_IS(プライマリ変換係数とも称する)を導出する。つまり、逆セカンダリ変換部231は、セカンダリ変換係数Coeff_IQをプライマリ変換係数Coeff_ISに変換する。逆セカンダリ変換部231は、そのプライマリ変換係数Coeff_ISを、逆プライマリ変換部232に供給する。なお、逆セカンダリ変換部231の詳細については、後述する。
逆プライマリ変換部232は、逆セカンダリ変換部231から供給されるプライマリ変換係数Coeff_ISに対して、例えば逆直交変換等の逆プライマリ変換を実行し、予測残差D’を導出する。すなわち、逆プライマリ変換部232は、プライマリ変換係数Coeff_ISを予測残差D’に変換する。逆プライマリ変換部232は、導出した予測残差D’を演算部214に供給する。
次に、逆セカンダリ変換部231について説明する。図12に示されるように、逆セカンダリ変換部231は、ラスタライズ部241、行列演算部242、スケーリング部243、行列化部244、クリップ処理部245、および逆セカンダリ変換選択部246を有する。
ラスタライズ部241は、復号部211から供給されるスキャン識別子scanIdxによって指定される変換係数のスキャン方法に基づいて、サブブロック(4×4サブブロック)毎に、逆量子化部212から供給される変換係数Coeff_IQを1×16次元のベクトルX1dに変換する。ラスタライズ部241は、得られたベクトルX1dを行列演算部242に供給する。
逆セカンダリ変換選択部246は、復号部211から供給される、セカンダリ変換の内容に関する情報であるセカンダリ変換識別子st_idxにより指定される逆セカンダリ変換の行列IR(=RT)を、逆セカンダリ変換選択部246の内部メモリ(不図示)より読み出し、行列演算部242に供給する。例えば、逆セカンダリ変換選択部246は、あるセカンダリ変換識別子st_idxの値のとき、逆セカンダリ変換の行列IRとして、図5に示される16×16の行列Rの転置行列RTを読み出し、それを行列演算部242に供給する。
なお、逆セカンダリ変換選択部246が、例えば、復号部211から供給されるセカンダリ変換識別子st_idxやイントラ予測モード情報IPinfo(例えば、イントラ予測モード番号)に応じて、逆セカンダリ変換IR(=RT)を選択するようにしてもよい。また、イントラ予測モード情報IPinfoの代わりに、動き予測情報MVinfoとセカンダリ変換識別子st_idxに応じて、逆変換IRが選択されるようにしてもよい。
行列演算部242は、サブブロック(4×4サブブロック)毎に、1×16次元のベクトルX1dおよび逆セカンダリ変換IR(=RT)の行列を用いて、以下の式(15)に示されるような行列演算を行い、その結果としてベクトルY1dを導出する。ここで、演算子"T"は、転置行列の操作を表す。
Y1d
T=IR・X1d
T=RT・X1d
T ・・・(15)
スケーリング部243は、サブブロック(4×4サブブロック)毎に、行列演算部242から供給される信号Y1dのノルムを正規化するために、以下の式(16)に示されるよなN(Nは自然数)ビットのビットシフト演算を信号Y1dのすべての要素に対して行い、ビットシフト後の信号Z1dを求める。
Z1d=(Y1d)>>N ・・・(16)
なお、以下の式(17)に示されるように、Nビットのシフト演算前に、オフセットとして、1<<(N-1)の値が、信号Z1dの各要素に加算されるようにしてもよい。なお、式(17)において、ベクトルEは、すべての要素の値が1の1×16次元のベクトルである。
Z1d=(Y1d+((N-1)<<1)・E)>>N ・・・(17)
例えば、逆セカンダリ変換IR(=RT)の行列は、図5に示されるセカンダリ変換Rの行列の転置行列であり、8ビットスケーリングされた行列であるため、スケーリング部243において、ノルムの正規化に用いられるNの値は8である。一般的に、逆セカンダリ変換の行列IR(=RT)が、Nビットスケーリングされている場合、ノルム正規化のビットシフト量は、Nビットである。
行列化部244は、サブブロック(4×4サブブロック)毎に、ノルム正規化後の信号Z1dおよびスキャン識別子scanIdxを入力とし、復号部211から供給されるスキャン識別子scanIdxによって指定されるスキャン方法に基づいて、スケーリング部243から供給される1×16次元のベクトルZ1dを4×4行列の変換係数Coeff_ISに変換する。行列化部244は、得られた変換係数Coeff_ISをクリップ処理部245に供給する。
クリップ処理部245は、4×4行列の変換係数Coeff_IS、変換係数の最大値CoeffMax、および最小値CoeffMinを入力とする。クリップ処理部245は、行列化部244から供給される変換係数Coeff_ISの各要素Coeff(i,j) (i=0…3, j=0…3)に対して、以下に示す式(18)のように、変換係数の最大値CoeffMaxおよび最小値CoeffMinによってクリップ処理を行う。
Coeff_IS(i,j) = Clip3 (CoeffMin, CoeffMax, Coeff_IS(i,j) )
・・・(18)
ここで、演算子Clip3(Xmin, Xmax, X)は、入力値Xが、Xminより小さい場合、Xminの値を返し、入力値XがXmaxより大きい場合、Xmaxを返し、それ以外の場合、入力値Xを返すクリップ処理である。Clip3は、Min(x,y), Max(x,y)を使って、以下の式(19)のように表現することもできる。
Clip3(Xmin, Xmax, X ) = Min(Xmin, Max(Xmax, X)) = Max(Xmax, Min(Xmin, X))
・・・(19)
なお、変換係数の最大値CoeffMax、最小値CoeffMinは、16bit精度であるとすれば、以下の値であることが望ましい。
CoeffMax = 215 - 1 = 32767
CoeffMin = -215 = -32768
なお、変換係数の最大値CoeffMax、最小値CoeffMinの精度は、16bit精度に限定されず、一般的に、8bitの整数倍(M倍(M>=1))精度であるとしてもよい。この場合、変換係数の最大値CoeffMaxは、8*M-1の値に設定し、最小値CoeffMinは、-8*Mに設定する。
CoeffMax = 8*M - 1
CoeffMin = -8*M
また、変換係数の最大値CoeffMax、及び最小値CoeffMinは、入力信号のビット深度BitDepthと、パラメータセット(SPS/PPSなど)において通知される拡張演算精度フラグextended_precision_processing_flagに基づいて、上述の式(11)乃至式(13)によって導出してもよい。
式(11)乃至式(13)によれば、入力信号のビット深度、及び拡張演算精度フラグに基づいて、変換係数の最大値CoeffMax、最大値CoeffMinを決定することができる。特に、入力信号のビット深度が大きい場合(例、16bit)には、変換係数の精度が16bitでは演算精度が不足し、符号化効率が低下する。従って、上記のように、入力信号のビット深度に応じて、変換係数の演算精度を制御できるようにしておくことが好ましい。
クリップ処理部245は、クリップ処理を行った変換係数Coeffをプライマリ変換係数として逆プライマリ変換部232に供給する。
つまり、クリップ処理部245によりプライマリ変換係数Coeff_ISがクリップ処理され、その値が所定の最大値乃至最小値の範囲内に制限される。したがって、変換係数のダイナミックレンジ幅を所定の範囲内(例えば16ビット)に抑えることができるので、復号の負荷の増大を抑制することができる。これにより、変換係数を格納する中間バッファのサイズの増大を抑制することができ、コストの増大を抑制することができる。
<画像復号処理の流れ>
次に、以上のような画像復号装置200により実行される各処理の流れについて説明する。最初に、図13のフローチャートを参照して、画像復号処理の流れの例を説明する。
画像復号処理が開始されると、ステップS201において、復号部211は、画像復号装置200に供給されるビットストリーム(符号化データ)を復号し、ヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo、残差情報Rinfo、量子化変換係数レベルlevel等の情報を得る。
ステップS202において、逆量子化部212は、ステップS201の処理により得られた量子化変換係数レベルlevelを逆量子化して変換係数Coeff_IQを導出する。この逆量子化は、画像符号化処理のステップS105(図9)において行われる量子化の逆処理であり、画像符号化処理のステップS106(図9)において行われる逆量子化と同様の処理である。
ステップS203において、逆変換部213は、ステップS202の処理により得られた変換係数Coeff_IQを逆変換し、予測残差D'を導出する。この逆変換は、画像符号化処理のステップS104(図9)において行われる変換処理の逆処理であり、画像符号化処理のステップS107(図9)において行われる逆変換と同様の処理である。
ステップS204において、予測部216は、予測モード情報PInfoに基づいて、符号化の際の予測と同一の予測モードで予測を行い、予測画像生成する。
ステップS205において、演算部214は、ステップS203の処理により得られた予測残差D’に、ステップS204の処理により得られた予測画像を加算し、復号画像を得る。
ステップS205の処理が終了すると、画像復号処理が終了される。
<逆変換処理の流れ>
次に、図13のステップS203において実行される逆変換処理の流れの例を、図14のフローチャートを参照して説明する。
逆変換処理が開始されると、ステップS221において、逆セカンダリ変換部231は、セカンダリ変換識別子st_idxが逆セカンダリ変換を適用するか否か(st_idx>0)を判定する。セカンダリ変換識別子st_idxが0である(セカンダリ変換識別子st_idxが逆セカンダリ変換のスキップを示す)と判定された場合、逆セカンダリ変換(ステップS222乃至ステップS229の処理)がスキップされ、処理はステップS230に進む。つまり、逆セカンダリ変換部231は、変換係数Coeff_IQをプライマリ変換係数Coeff_ISとして、逆プライマリ変換部232に供給する。
また、ステップS221において、セカンダリ変換識別子st_idxが0より大きい(セカンダリ変換識別子st_idxが逆セカンダリ変換の実行を示す)と判定された場合、処理はステップS222に進む。ステップS222乃至ステップS229の処理により逆セカンダリ変換が実行される。
ステップS222において、逆セカンダリ変換選択部246は、セカンダリ変換識別子st_idxにより指定される逆セカンダリ変換IRを選択する。
ステップS223において、逆セカンダリ変換部231は、処理対象の変換ブロックに含まれる未処理のサブブロックを選択する。
ステップS224において、ラスタライズ部241は、スキャン識別子scanIdxにより指定されるスキャン方法に基づいて、変換係数Coeff_IQを1×16次元のベクトルX1dに変換する。
ステップS225において、行列演算部242は、ベクトルX1dと逆セカンダリ変換IRとの行列積を演算し、ベクトルY1dを求める。
ステップS226において、スケーリング部243は、ベクトルY1dのノルムを正規化し、ベクトルZ1dを求める。
ステップS227において、行列化部244は、スキャン識別子scanIdxにより指定されるスキャン方法に基づいて、ベクトルZ1dを4×4の行列へ変換し、処理対象のサブブロックのプライマリ変換係数Coeff_ISを求める。
ステップS228において、クリップ処理部245は、その処理対象のサブブロックのプライマリ変換係数Coeff_ISの各要素に対して、最大値CoeffMaxおよび最小値CoeffMinによるクリップ処理を行う。このクリップ処理されたプライマリ変換係数Coeff_ISが逆プライマリ変換部232に供給される。
ステップS229において、逆セカンダリ変換部231は、処理対象の変換ブロックの全てのサブブロックを処理したか否かを判定する。未処理のサブブロックが存在すると判定された場合、処理はステップS223に戻り、それ以降の処理を繰り返す。つまり、処理対象の変換ブロックの各サブブロックについて、ステップS223乃至ステップS229の各処理(逆セカンダリ変換)が実行される。ステップS229において、全てのサブブロックを処理した(全てのサブブロックの逆セカンダリ変換を行った)と判定された場合、処理はステップS230に進む。
ステップS230において、逆プライマリ変換部232は、プライマリ変換識別子pt_idxに基づいて、プライマリ変換係数Coeff_ISに対する逆プライマリ変換を行い、予測残差D’を導出する。この予測残差D’は、演算部214に供給される。
ステップS230の処理が終了すると、逆変換処理が終了し、処理は図13に戻る。
なお、以上の逆変換処理は、実施可能な範囲で、各ステップの処理順の入れ替えや、処理の内容を変更してよい。例えば、ステップS221においてセカンダリ変換識別子st_idxが0であると判定された場合、16×16の単位行列が逆セカンダリ変換IRとして選択され、ステップS222乃至ステップS229の各処理が実行されるようにしてもよい。また、ステップS226で導出されるベクトルY1dのノルム正規化後のベクトルZ1dに対して、ステップS228のクリップ処理を実行し、その後、ステップS227の行列化の処理を行ってもよい。
以上のように各処理を実行することにより、変換係数のダイナミックレンジ幅を所定の範囲内(例えば16ビット)に抑えることができる。つまり、復号の負荷の増大を抑制することができる。また、これにより、変換係数を格納する中間バッファのサイズの増大を抑制することができ、コストの増大を抑制することができる。
なお、以上においては上限値および下限値を用いて変換係数をクリップするように説明したが、上限値または下限値のいずれか一方のみを用いて変換係数をクリップするようにしてもよい。
<2.第2の実施の形態>
<ノルム正規化の際のビットシフト量制御>
なお、セカンダリ変換や逆セカンダリ変換において、変換係数をクリップ処理する代わりに、1次元のベクトルのシフト量を導出し、行列演算が行われた1次元のベクトルに対して、その導出したシフト量に応じたスケーリングを行うようにしてもよい。
このようにしても、第1の実施の形態の場合と同様に、変換係数のダイナミックレンジ幅を所定の範囲内(例えば16ビット)に抑え、符号化・復号の負荷の増大を抑制することができる。また、この場合、クリップ処理を行わずに、符号化・復号の負荷の増大を抑制することができる。
<変換部>
この場合も画像符号化装置100は、第1の実施の形態の場合と基本的に同様の構成を有する。ただし、この場合の画像符号化装置100は、画像とその画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を1次元のベクトルに変換するラスタライズ部と、その1次元のベクトルのシフト量を導出するシフト量導出部と、その1次元のベクトルに対する行列演算を行う行列演算部と、その行列演算が行われた1次元のベクトルに対して、シフト量導出部により導出されるシフト量に応じたスケーリングを行うスケーリング部と、スケーリングされた1次元のベクトルを行列化する行列化部とを備える。つまり、この場合の変換部112は、画像とその画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を1次元のベクトルに変換し、その1次元のベクトルのシフト量を導出し、その1次元のベクトルに対する行列演算を行い、その行列演算が行われた1次元のベクトルに対して、導出されるシフト量に応じたスケーリングを行い、そのスケーリングされた1次元のベクトルを行列化する。
図15は、この場合の変換部112の主な構成例を示すブロック図である。図15に示されるように、この場合も変換部112は、基本的に第1の実施の形態の場合(図8)と同様の構成を有する。ただし、この場合のセカンダリ変換部132は、スケーリング部143およびクリップ処理部145の代わりに、シフト量導出部301およびスケーリング部302を有する。
シフト量導出部301は、ビット深度の最大値(最大ビット深度) bitDepthMax、中間バッファのビット深度の最大値(中間バッファ最大ビット深度)bitDepthMaxBuffer、およびセカンダリ行列Rを入力とする。シフト量導出部301は、上述の式(2)のようにセカンダリ変換後の変換係数Coeffのダイナミックレンジの上限値MaxValを推定する。ここで、Aには、1<<(bitDepthMax-1)の値が設定される。また、Tは、セカンダリ変換Rが設定される。
次に、セカンダリ変換Rのダイナミックレンジの上限値MaxValと、中間バッファの上限値MaxValBuffer ( = 1<<(bitDepthMaxBuffer-1) = 215 - 1 = 32767 )との差DiffMaxValを以下の式(20)により導出する。ここでは、bitDepthMaxBufferの値を16としている。
DiffMaxVal = MaxVal - MaxValBuffer
・・・(20)
続いて、差DiffMaxValの2を底とする対数値log2DiffMaxValを以下の式(21)により導出する。なお、式(21)では、差DiffMaxValは0以上の整数であると仮定している。また、2を底とする対数log2(・)に入力する値は、差DiffMaxValの絶対値|DiffMaxVal|であってもよい。
log2DiffMaxVal = log2( DiffMaxVal )
・・・(21)
導出した対数値log2DiffMaxValに対して、天井関数Ceil(・)を適用し、スケーリング部302において、セカンダリ変換後の変換係数Coeffに対して、右ビットシフトするシフト量Sを以下の式(22)に示すように導出する。また、天井関数Ceil(・)の代わりに、床関数Floor(・)を用いて、シフト量Sを、以下の式(23)に示すように導出してもよい。
S = Ceil ( log2DiffMaxVal )
・・・(22)
S = Floor ( log2DiffMaxVal ) + 1
・・・(23)
シフト量導出部301は、以上のように求めたシフト量Sをスケーリング部302に供給する。なお、シフト量導出部301は、式(2)、式(20)、式(21)、式(22)、および式(23)を通してシフト量Sを導出するがこれに限定されない。例えば、シフト量導出部301は、各セカンダリ変換R毎に対応するシフト量Sを予め導出しておき、ルックアップテーブルに格納し、セカンダリ変換識別子st_idxで指定されるセカンダリ変換Rに該当するシフト量Sをルックアップテーブルからを読みだし、スケーリング部302に供給するようにしてもよい。この場合、シフト量Sを導出する処理量を低減することができる。
スケーリング部302は、行列演算部142より入力された信号Y1dおよびシフト量Sを入力とする。スケーリング部302は、サブブロック単位(4×4サブブロック)毎に、行列演算部142より入力された信号Y1dのノルムの正規化およびダイナミックレンジを中間バッファのダイナミックレンジbitDepthMaxBufferに抑えるため、以下の式(24)に示すように、(N+S) ビットのビットシフト演算を信号Y1dのすべての要素に対して行う。
Z1d = ( Y1d )>>(N+S)
・・・(24)
なお、以下の式(25)に示されるように、(N+S)ビットのシフト演算前に、オフセットとして、1<<(N-1)の値を、信号Z1dの各要素へ加算してもよい。なお、式(25)において、ベクトルEは、すべての要素の値が1の1×16次元のベクトルである。
Z1d = (Y1d + ((N-1)<<1)・E)>>(N+S)
・・・(25)
例えば、図5に示すセカンダリ変換Rの行列は、8ビットスケーリングされた行列であるため、スケーリング部302において、ノルムの正規化に用いるNの値は8である。一般的に、セカンダリ変換の行列Rが、Nビットスケーリングされている場合、ノルム正規化のビットシフト量は、Nビットである。
つまり、シフト量導出部301が、セカンダリ変換後の変換係数Coeffが中間バッファのダイナミックレンジ内に収まるようにダイナミックレンジを補正するためのシフト量Sを導出する。そして、スケーリング部302が、その導出されたシフト量Sとノルム正規化のシフト量Nとに基づいて、行列演算が行われた1次元のベクトルY1dに対して、(N+S)の右ビットシフトを行い、中間バッファのダイナミックレンジ内に収まるように補正する。したがって、変換係数のダイナミックレンジ幅を所定の範囲内(例えば16ビット)に抑えることができるので、符号化の負荷の増大を抑制することができる。これにより、変換係数を格納する中間バッファのサイズの増大を抑制することができ、コストの増大を抑制することができる。この場合、クリップ処理を省略することができる。
<変換処理の流れ>
次に、画像符号化装置100により実行される各処理の流れの例を説明する。この場合画像符号化装置100は、画像符号化処理を、第1の実施の形態の場合(図9)と基本的に同様に行う。この場合の変換処理の流れの例を、図16のフローチャートを参照して説明する。
変換処理が開始されると、ステップS301乃至ステップS303の各処理は、図10のステップS121乃至ステップS123の各処理と同様に実行される。
ステップS304において、シフト量導出部301は、ビット深度の最大値(最大ビット深度) bitDepthMax、中間バッファのビット深度の最大値(中間バッファ最大ビット深度)bitDepthMaxBuffer、およびセカンダリ変換行列Rに基づいて、シフト量Sを導出する。
ステップS305乃至ステップS307の各処理は、図10のステップS124乃至ステップS126の各処理と基本的に同様に実行される。
ステップS308において、スケーリング部302は、シフト量Nおよびシフト量Sを用いてベクトルY1dのノルムを正規化し、ベクトルZ1dを求める。
ステップS309およびステップS310の各処理は、図10のステップS129およびステップS130の各処理と同様に実行される。
ステップS310において、全てのサブブロックを処理した(全てのサブブロックのセカンダリ変換を行った)と判定された場合、変換処理が終了し、処理は図9に戻る。
以上のように各処理を実行することにより、変換係数のダイナミックレンジ幅を所定の範囲内(例えば16ビット)に抑えることができる。つまり、符号化の負荷の増大を抑制することができる。また、これにより、変換係数を格納する中間バッファのサイズの増大を抑制することができ、コストの増大を抑制することができる。また、クリップ処理を省略することができる。
<逆変換部>
次に画像復号装置200について説明する。この場合も画像復号装置200は、第1の実施の形態の場合と基本的に同様の構成を有する。ただし、この場合の画像復号装置200は、逆変換処理することにより画像とその画像の予測画像との差分である予測残差が得られる変換係数を1次元のベクトルに変換するラスタライズ部と、その1次元のベクトルのシフト量を導出するシフト量導出部と、その1次元のベクトルに対する行列演算を行う行列演算部と、その行列演算が行われた1次元のベクトルに対して、シフト量導出部により導出されるシフト量に応じたスケーリングを行うスケーリング部と、そのスケーリングされた1次元のベクトルを行列化する行列化部とを備える。つまり、逆変換部213は、逆変換処理することにより画像とその画像の予測画像との差分である予測残差が得られる変換係数を1次元のベクトルに変換し、その1次元のベクトルのシフト量を導出し、その1次元のベクトルに対する行列演算を行い、その行列演算が行われた1次元のベクトルに対して、導出されるシフト量に応じたスケーリングを行い、そのスケーリングされた1次元のベクトルを行列化する。
図17は、この場合の逆変換部213の主な構成例を示すブロック図である。図17に示されるように、この場合も逆変換部213は、基本的に第1の実施の形態の場合(図12)と同様の構成を有する。ただし、この場合の逆セカンダリ変換部231は、スケーリング部243およびクリップ処理部245の代わりに、シフト量導出部311およびスケーリング部312を有する。
シフト量導出部311は、ビット深度の最大値(最大ビット深度) bitDepthMax、中間バッファのビット深度の最大値(中間バッファ最大ビット深度)bitDepthMaxBuffer、及び逆セカンダリ行列IRを入力とする。シフト量導出部311は、上述の式(2)のように逆セカンダリ変換後のプライマリ変換係数Coeff_ISのダイナミックレンジの上限値MaxValを推定する。ここで、Aには、1<<(bitDepthMax-1)の値が設定される。また、Tは、逆セカンダリ変換IRが設定される。
次に、逆セカンダリ変換IRのダイナミックレンジの上限値MaxValと、中間バッファの上限値MaxValBuffer ( = 1<<(bitDepthMaxBuffer-1) = 215 - 1 = 32767 )との差DiffMaxValを以下の式(26)により導出する。ここでは、bitDepthMaxBufferの値を16としている。
DiffMaxVal = MaxVal - MaxValBuffer
・・・(26)
続いて、差DiffMaxValの2を底とする対数値log2DiffMaxValを以下の式(27)により導出する。なお、この式(27)では、差DiffMaxValは0以上の整数であると仮定している。また、2を底とする対数log2(・)に入力する値は、差DiffMaxValの絶対値|DiffMaxVal|であってもよい。
log2DiffMaxVal = log2( DiffMaxVal )
・・・(27)
導出した対数値log2DiffMaxValに対して、天井関数Ceil(・)を適用し、スケーリング部312において、逆セカンダリ変換後の変換係数Coeff_ISに対して、右ビットシフトするシフト量Sを以下の式(28)に示すように導出する。また、天井関数Ceil(・)の代わりに、床関数Floor(・)を用いて、シフト量Sを、以下の式(29)に示すように導出してもよい。
S = Ceil ( log2DiffMaxVal )
・・・(28)
S = Floor ( log2DiffMaxVal ) + 1
・・・(29)
シフト量導出部311は、以上のように求めたシフト量Sをスケーリング部312に供給する。なお、シフト量導出部311は、式(2)、式(26)、式(27)、式(28)、および式(29)を通してシフト量Sを導出するがこれに限定されない。例えば、シフト量導出部311は、各逆セカンダリ変換IR毎に対応するシフト量Sを予め導出しておき、ルックアップテーブルに格納し、セカンダリ変換識別子st_idxで指定される逆セカンダリ変換IRに該当するシフト量Sをルックアップテーブルからを読みだし、スケーリング部312に供給するようにしてもよい。この場合、シフト量Sを導出する処理量を低減することができる。
スケーリング部312は、行列演算部242より入力される信号Y1dおよびシフト量導出部311から供給されるシフト量Sを入力とする。スケーリング部312は、サブブロック単位(4×4サブブロック)毎に、行列演算部242より入力された信号Y1dのノルムの正規化およびダイナミックレンジを中間バッファのダイナミックレンジbitDepthMaxBufferに抑えるため、以下の式(30)に示されるように、(N+S)ビットのビットシフト演算を信号Y1dのすべての要素に対して行う。
Z1d = ( Y1d )>>(N+S)
・・・(30)
なお、以下の式(31)に示すように、(N+S)ビットのシフト演算前に、オフセットとして、1<<(N-1)の値を、信号Z1dの各要素へ加算してもよい。なお、式(31)において、ベクトルEは、すべての要素の値が1の1×16次元のベクトルである。
Z1d = (Y1d + ((N-1)<<1)・E)>>(N+S)
・・・(31)
例えば、図5に示されるセカンダリ変換Rの転置行列である逆セカンダリ変換IR(=RT)の行列は、8ビットスケーリングされた行列であるため、スケーリング部312において、ノルムの正規化に用いるNの値は8である。一般的に、逆セカンダリ変換の行列IR(=RT)が、Nビットスケーリングされている場合、ノルム正規化のビットシフト量は、Nビットである。
つまり、シフト量導出部311が、逆セカンダリ変換後のプライマリ変換係数Coeff_ISが中間バッファのダイナミックレンジ内に収まるようにダイナミックレンジを補正するためのシフト量Sを導出する。そして、スケーリング部312が、その導出されたシフト量Sとノルム正規化のシフト量Nとに基づいて、行列演算が行われた1次元のベクトルY1dに対して、(N+S)の右ビットシフトを行い、中間バッファのダイナミックレンジ内に収まるように補正する。したがって、変換係数のダイナミックレンジ幅を所定の範囲内(例えば16ビット)に抑えることができるので、復号の負荷の増大を抑制することができる。これにより、変換係数を格納する中間バッファのサイズの増大を抑制することができ、コストの増大を抑制することができる。この場合、クリップ処理を省略することができる。
<逆変換処理の流れ>
次に、画像復号装置200により実行される各処理の流れの例を説明する。この場合画像復号装置200は、画像復号処理を、第1の実施の形態の場合(図13)と基本的に同様に行う。この場合の逆変換処理の流れの例を、図18のフローチャートを参照して説明する。
変換処理が開始されると、ステップS321およびステップS322の各処理は、図14のステップS221およびステップS222の各処理と同様に実行される。
ステップS323において、シフト量導出部311は、ビット深度の最大値(最大ビット深度) bitDepthMax、中間バッファのビット深度の最大値(中間バッファ最大ビット深度)bitDepthMaxBuffer、および逆セカンダリ変換行列IRに基づいて、シフト量Sを導出する。
ステップS324乃至ステップS326の各処理は、図14のステップS223乃至ステップS225の各処理と基本的に同様に実行される。
ステップS327において、スケーリング部312は、シフト量Nおよびシフト量Sを用いてベクトルY1dのノルムを正規化し、ベクトルZ1dを求める。
ステップS328乃至ステップS330の各処理は、図14のステップS227、ステップS229、およびステップS230の各処理と同様に実行される。
ステップS330の処理が終了すると、逆変換処理が終了し、処理は図13に戻る。
以上のように各処理を実行することにより、変換係数のダイナミックレンジ幅を所定の範囲内(例えば16ビット)に抑えることができる。つまり、復号の負荷の増大を抑制することができる。また、これにより、変換係数を格納する中間バッファのサイズの増大を抑制することができ、コストの増大を抑制することができる。また、クリップ処理を省略することができる。
<3.第3の実施の形態>
<行列演算>
非特許文献1には、プライマリ変換(既存のDCT/DSTなどによる直交変換)を行った後に、さらに、エネルギーコンパクションを高める(低域に変換係数を集中させる)ために、4×4サブブロック単位で、非セパラブルなセカンダリ変換を適用することが開示されている。また、非特許文献2には、同様に、ハイパーキューブギブンズ変換(Hypercube-Givens Transform)(HyGTとも称する)ベースの非セパラブルなセカンダリ変換を4×4サブブロック単位で適用することが開示されている。なお、要素数16に関するHyGTを16点HyGT(または16-points HyGT)とも称する。また、要素数2Nに関するHyGTを2N点HyGT(または2N-points HyGT)とも称する。
しかしながら、非特許文献1に記載の方法および非特許文献2に記載の方法のいずれにおいても、セカンダリ変換は、非セパラブルであるため、演算量が多かった。また、イントラ予測モードのクラス数と各クラスに対応するセカンダリ変換の数だけ、セカンダリ変換の行列を有しており、セカンダリ変換の行列を保持するメモリサイズが増大するおそれがあった。すなわち、符号化・復号の負荷が増大するおそれがあった。
例えば、非特許文献1に記載の方法の場合、イントラ予測モードのクラス数=12であり、各クラスに対するセカンダリ変換の数= 3であり、12*3 = 36の行列が存在する。非特許文献2に記載の方法の場合、イントラ予測モードのクラス数=35であり、各クラスに対するセカンダリ変換の数= 5であり、35*5 = 175の行列が存在する。
例えば、各行列の要素を9bit精度で保持するとする。非特許文献1に記載の方法において、全セカンダリ変換の行列を保持に要するメモリサイズは、9bit * 16*16 * 36 = 829944 bits = 10368 bytes = 10.125KBである。また、非特許文献2に記載の方法において、全セカンダリ変換の行列を保持に要するメモリサイズは、9bit * 16*16 * 175 = 403200 bits = 50400 bytes = 49.21875KBである。
<行列演算の分解>
そこで、セカンダリ変換や逆セカンダリ変換において、画像と前記画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を1次元のベクトルに変換し、その1次元のベクトルに対して複数回の行列積よりなる行列演算を行うようにする。
例えば、非特許文献2に記載の16点HyGTを4つの直交行列と3つの置換行列に分解し、セパラブルな直交変換とし、このようなセパラブルな直交変換を用いてセカンダリ変換や逆セカンダリ変換を行うようにする。
非特許文献2に記載の16点HyGTの様子の例を図19のAに示す。この16点HyGTの四角401は、図19のBに示されるような回転行列(ギブンズ変換(Givens Transform))である。つまり、HyGTは、このような複数の回転行列により構成される。
そこで、図20に示されるように、四角402で示されるような16点HyGTのi段目の変換(または操作とも称する)を変換(操作)Tiとし、点線403で囲まれるような、その変換(操作)Tiのj番目の回転行列を回転行列Gi,jとする。
<1段目の操作>
まず、16点HyGTの1段目の操作(図21のAにおいて枠411で囲まれた部分)について説明する。図21のBは、この1段目の操作T1を拡大して模式化したものである。図21のBに示されるように、この1段目の操作T1は、G1,1乃至G1,8の8つの回転行列からなる直交変換よりなる。
つまり、この1段目の操作T1は、以下の式(32)のように、回転行列G1,jを対角成分に有し、それ以外の要素が0である疎な直交行列F1として表現することができる。なお、各回転行列Gi,jは、式(33)のように表すことができる。
<2段目の操作>
次にHyGTの2段目の操作(図22のAにおいて枠412で囲まれた部分)について説明する。図22のBは、この2段目の操作T2を拡大して模式化したものである。図22のBに示されるように、この2段目の操作T2は、置換δ1、G2,1乃至G2,8の回転行列からなる直交変換、および逆置換δ1Tよりなる。置換δ1は、以下の式(34)のように表すことができる。
また、この置換δ1は、以下の式(35)に示されるように、行列Pを用いて置換行列P1として表すこともできる。この行列Pは、式(36)のように表すことができる。
なお、逆置換δ1Tは、置換行列P1の転置行列P1
Tとして表すことができる。また、2段目の直交変換は、式(37)のように、回転行列G2,jを対角成分に有し、それ以外の要素が0である疎な直交行列F2として表現することができる。
つまり、2段目の操作T2は、以下の式(38)のように、行列分解して表現することができる。
T2 = P1
T・F2・P1 ・・・(38)
<3段目の操作>
次にHyGTの3段目の操作(図23のAにおいて枠413で囲まれた部分)について説明する。図23のBは、この3段目の操作T3を拡大して模式化したものである。図23のBに示されるように、この3段目の操作T3は、置換δ2、G3,1乃至G3,8の回転行列からなる直交変換、および逆置換δ2Tよりなる。置換δ2は、以下の式(39)のように表すことができる。
また、この置換δ2は、以下の式(40)に示されるように、行列Pを用いて置換行列P2として表すこともできる。この行列Pは、式(41)のように表すことができる。
なお、逆置換δ2Tは、置換行列P2の転置行列P2
Tとして表すことができる。また、3段目の直交変換は、式(42)のように、回転行列G3,jを対角成分に有し、それ以外の要素が0である疎な直交行列F3として表現することができる。
つまり、3段目の操作T3は、以下の式(43)のように、行列分解して表現することができる。
T3 = P2
T・F3・P2 ・・・(43)
<4段目の操作>
次にHyGTの4段目の操作(図24のAにおいて枠414で囲まれた部分)について説明する。図24のBは、この4段目の操作T4を拡大して模式化したものである。図24のBに示されるように、この4段目の操作T4は、置換δ3、G4,1乃至G4,8の回転行列からなる直交変換、および逆置換δ3Tよりなる。置換δ3は、以下の式(44)のように表すことができる。
また、この置換δ3は、以下の式(45)に示されるように、置換行列P3として表すこともできる。
なお、逆置換δ3Tは、置換行列P3の転置行列P3
Tとして表すことができる。また、4段目の直交変換は、式(46)のように、回転行列G4,jを対角成分に有し、それ以外の要素が0である疎な直交行列F4として表現することができる。
つまり、4段目の操作T4は、以下の式(47)のように、行列分解して表現することができる。
T4 = P3
T・F4・P3 ・・・(47)
以上のことから、16点HyGT(セカンダリ変換の行列R)は、以下の式(48)のように行列分解して表現することができる。同様に、inverse HyGT(逆セカンダリ変換の行列IR(= R-1))は、以下の式(49)のように行列分解して表現することができる。
R = P3
T・F4・P3・P2
T・F3・P2・P1
T・F2・P1・F1
・・・(48)
R-1 = ( P3
T・F4・P3・P2
T・F3・P2・P1
T・F2・P1・F1 )-1
= F1
-1・P1
-1・F2
-1・( P1
T )-1・P2
-1・F3
-1・( P2
T )-1・P3
-1・F4
-1・( P3
T )-1
= F1
T・P1
T・F2
T・P1・P2
T・F3
T・P2・P3
T・F4
T・P3
・・・(49)
非特許文献2に記載の非セパラブルなセカンダリ変換の場合と、以上のように行列分解したセパラブルなセカンダリ変換の場合とで、乗算と加算の処理数を比較した結果を図25のAの表に示す。図25のAの表に示されるように、行列分解することにより、乗算や加算の処理数を低減することができる。
また、非特許文献2に記載の非セパラブルなセカンダリ変換の場合と、以上のように行列分解したセパラブルなセカンダリ変換の場合とで、セカンダリ変換の行列の情報量(1変換当たり)と、その行列を保持するのに必要なメモリサイズを比較した結果を図25のBの表に示す。行列分解することにより、行列分解した各直交変換の疎行列の性質および係数の対称性を利用して、セカンダリ変換として保持する係数の数を低減することができる。したがって、図25のBの表に示されるように、セカンダリ変換の行列の情報量を低減することができ、必要なメモリサイズの増大を抑制することができる。つまり、符号化の負荷の増大を抑制することができる。
<変換部>
この場合も画像符号化装置100は、第1の実施の形態の場合と基本的に同様の構成を有する。ただし、この場合の画像符号化装置100は、画像とその画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を1次元のベクトルに変換するラスタライズ部と、その1次元のベクトルに対して複数回の行列積よりなる行列演算を行う行列演算部と、その行列演算が行われた1次元のベクトルに対してスケーリングを行うスケーリング部と、そのスケーリングされた1次元のベクトルを行列化する行列化部とを備える。つまり、この場合の変換部112は、画像とその画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を1次元のベクトルに変換し、その1次元のベクトルに対して複数回の行列積よりなる行列演算を行い、その行列演算が行われた1次元のベクトルに対してスケーリングを行い、そのスケーリングされた1次元のベクトルを行列化する。
図26は、この場合の変換部112の主な構成例を示すブロック図である。図26に示されるように、この場合も変換部112は、基本的に第1の実施の形態の場合(図8)と同様の構成を有する。ただし、この場合のセカンダリ変換部132は、行列演算部142の代わりに、行列演算部421を有する。また、この場合、クリップ処理部145は省略することができる。なお、行列演算部421では、Nビットスケーリングされた複数の直交行列を用いて、複数回(M回)の行列積よりなる行列演算を行うため、ダイナミックレンジは、M*Nビットとなる。従って、スケーリング部143は、ベクトルY1dのノルムを正規化するために用いるシフト量は、(M*N)である。
行列演算部421は、ラスタライズ部141から供給される1次元のベクトルに対して、セカンダリ変換Rの行列を行列分解した複数回の行列積よりなる行列演算を行う。
<行列演算部(16点HyGT部)>
図27は、行列演算部421の主な構成例を示すブロック図である。図27に示されるように、行列演算部421は、回転操作部431、置換操作部432、回転操作部433、置換操作部434、回転操作部435、置換操作部436、回転操作部437、および置換操作部438を有する。なお、行列演算部421は、16点HyGT部421とも称する。
回転操作部431は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる直交行列F1と、ラスタライズ部141から供給される行ベクトルX1dとの行列積A1dを求める。回転操作部431は、その行列積A1dを置換操作部432に供給する。
置換操作部432は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる置換行列P1と、回転操作部431から供給される行列積A1dとの行列積B1dを求める。置換操作部432は、その行列積B1dを回転操作部433に供給する。
回転操作部433は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる直交行列F2と、置換操作部432から供給される行列積B1dとの行列積C1dを求める。回転操作部433は、その行列積C1dを置換操作部434に供給する。
置換操作部434は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる置換行列P2と、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる置換行列P1の転置行列P1
Tと、回転操作部433から供給される行列積C1dとの行列積D1dを求める。置換操作部434は、その行列積D1dを回転操作部435に供給する。
回転操作部435は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる直交行列F3と、置換操作部434から供給される行列積D1dとの行列積E1dを求める。回転操作部435は、その行列積E1dを置換操作部436に供給する。
置換操作部436は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる置換行列P3と、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる置換行列P2の転置行列P2
Tと、回転操作部435から供給される行列積E1dとの行列積G1dを求める。置換操作部436は、その行列積G1dを回転操作部437に供給する。
回転操作部437は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる直交行列F4と、置換操作部436から供給される行列積G1dとの行列積H1dを求める。回転操作部437は、その行列積H1dを置換操作部438に供給する。
置換操作部438は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる置換行列P3の転置行列P3
Tと、回転操作部437から供給される行列積H1dとの行列積Y1dを求める。置換操作部436は、その行列積Y1dをスケーリング部143に供給する。
以上のように、行列演算部421は、セカンダリ変換の行列を行列分解して行列演算を行い、行ベクトルX1dを行ベクトルY1dに変換するので、セカンダリ変換の演算量(乗算・加算)を低減することができる。また、セカンダリ変換として保持する係数の数を低減させることができ、セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。すなわち、符号化の負荷の増大を抑制することができる。
<変換処理の流れ>
次に、画像符号化装置100により実行される各処理の流れの例を説明する。この場合画像符号化装置100は、画像符号化処理を、第1の実施の形態の場合(図9)と基本的に同様に行う。この場合の変換処理の流れの例を、図28のフローチャートを参照して説明する。
変換処理が開始されると、ステップS401乃至ステップS409の各処理は、図10のステップS121乃至ステップS128、並びに、ステップS130の各処理と基本的に同様に実行される。
ただし、この場合、ステップS406の処理において、行列演算は、セカンダリ変換の行列Rを上述したように行列分解して行われる。
<行列演算処理の流れ>
図29のフローチャートを参照して、図28のステップS406において実行される行列演算処理の流れの例を説明する。
行列演算処理が開始されると、ステップS421において、回転操作部431は、直交行列F1と行ベクトルX1dとの行列積A1dを求める。
ステップS422において、置換操作部432は、置換行列P1と行列積A1dとの行列積B1dを求める。
ステップS423において、回転操作部433は、直交行列F2と行列積B1dとの行列積C1dを求める。
ステップS424において、置換操作部434は、置換行列P2と置換行列P1の転置行列P1
Tと行列積C1dとの行列積D1dを求める。
ステップS425において、回転操作部435は、直交行列F3と行列積D1dとの行列積E1dを求める。
ステップS426において、置換操作部436は、置換行列P3と置換行列P2の転置行列P2
Tと行列積E1dとの行列積G1dを求める。
ステップS427において、回転操作部437は、直交行列F4と行列積G1dとの行列積H1dを求める。
ステップS428において、置換操作部438は、置換行列P3の転置行列P3
Tと行列積H1dとの行列積Y1dを求める。
ステップS428の処理が終了すると、処理は図28に戻る。
以上のように各処理を実行することにより、セカンダリ変換の演算量(乗算・加算)を低減することができ、セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。すなわち、符号化の負荷の増大を抑制することができる。
なお、本実施形態では、行列演算部421において、Nビットスケーリングされた複数の直交行列を用いて、複数回(M回)の行列積よりなる行列演算を行うため、ダイナミックレンジは、M*Nビットとなる。従って、スケーリング部143は、ベクトルY1dのノルムを正規化するために用いるシフト量は、(M*N)しているがこれに限定されない。例えば、図27の行列演算部421において、回転操作部437を除いて、各回転操作部(回転操作部431、回転操作部433、回転操作部435)の後に、各回転操作部から得られる行列積のノルムを正規化するためのスケーリング部をそれぞれ配置してもよい。この場合、各スケーリング部(スケーリング部143を含む)におけるノルムを正規化するためのシフト量は、Nである。
また、各回転操作部の後に、スケーリング部を配置する代わりに、複数の回転操作後の行列積に対して、ノルムを正規化するようにスケーリング部を配置してもよい。例えば、回転操作部431、置換操作部432、及び回転操作部433を通して得られる行列積を正規化するためのスケーリング部を、回転操作部433の後に配置し、行列積のノルムの正規化を行う。同様に、置換操作部434、回転操作部435、置換操作部436、及び回転操作部437を通して得られる行列積をスケーリング部143において、ノルムの正規化を行ってもよい。この場合、各スケーリング部におけるノルムを正規化するためのシフト量は、2Nである。
<逆変換部>
次に画像復号装置200について説明する。この場合も画像復号装置200は、第1の実施の形態の場合と基本的に同様の構成を有する。ただし、この場合の画像復号装置200は、逆変換処理することにより画像とその画像の予測画像との差分である予測残差が得られる変換係数を1次元のベクトルに変換するラスタライズ部と、その1次元のベクトルに対して複数回の行列積よりなる行列演算を行う行列演算部と、その行列演算が行われた1次元のベクトルに対してスケーリングを行うスケーリング部と、そのスケーリングされた1次元のベクトルを行列化する行列化部とを備える。つまり、逆変換部213は、逆変換処理することにより画像とその画像の予測画像との差分である予測残差が得られる変換係数を1次元のベクトルに変換し、その1次元のベクトルに対して複数回の行列積よりなる行列演算を行い、その行列演算が行われた1次元のベクトルに対してスケーリングを行い、そのスケーリングされた1次元のベクトルを行列化する。
図30は、この場合の逆変換部213の主な構成例を示すブロック図である。図30に示されるように、この場合も逆変換部213は、基本的に第1の実施の形態の場合(図12)と同様の構成を有する。ただし、この場合の逆セカンダリ変換部231は、行列演算部242の代わりに、行列演算部451を有する。また、この場合、クリップ処理部245は省略することができる。なお、行列演算部451では、Nビットスケーリングされた複数の直交行列を用いて、複数回(M回)の行列積よりなる行列演算を行うため、ダイナミックレンジは、M*Nビットとなる。従って、スケーリング部243は、ベクトルY1dのノルムを正規化するために用いるシフト量は、(M*N)である。
行列演算部451は、ラスタライズ部241から供給される1次元のベクトルに対して、逆セカンダリ変換IRの行列を行列分解した複数回の行列積よりなる行列演算を行う。
<行列演算部(16点逆HyGT部)>
図31は、行列演算部451の主な構成例を示すブロック図である。図31に示されるように、行列演算部451は、置換操作部461、回転操作部462、置換操作部463、回転操作部464、置換操作部465、回転操作部466、置換操作部467、および回転操作部468を有する。なお、行列演算部451は、16点逆HyGT部451とも称する。
置換操作部461は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる置換行列P3と、ラスタライズ部241から供給される行ベクトルX1dとの行列積A1dを求める。置換操作部461は、その行列積A1dを回転操作部462に供給する。
回転操作部462は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる直交行列F4の転置行列F4
Tと、置換操作部461から供給される行列積A1dとの行列積B1dを求める。回転操作部462は、その行列積B1dを置換操作部463に供給する。
置換操作部463は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる置換行列P2と、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる置換行列P3の置換行列P3
Tと、回転操作部462から供給される行列積B1dとの行列積C1dを求める。置換操作部463は、その行列積C1dを回転操作部464に供給する。
回転操作部464は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる直交行列F3の転置行列F3
Tと、置換操作部462から供給される行列積C1dとの行列積D1dを求める。回転操作部464は、その行列積D1dを置換操作部465に供給する。
置換操作部465は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる置換行列P1と、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる置換行列P2の転置行列P2
Tと、回転操作部464から供給される行列積D1dとの行列積E1dを求める。置換操作部465は、その行列積E1dを回転操作部466に供給する。
回転操作部466は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる直交行列F2の転置行列F2
Tと、置換操作部465から供給される行列積E1dとの行列積G1dを求める。回転操作部466は、その行列積G1dを置換操作部467に供給する。
置換操作部467は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる置換行列P1の転置行列P1
Tと、回転操作部466から供給される行列積G1dとの行列積H1dを求める。置換操作部467は、その行列積H1dを回転操作部468に供給する。
回転操作部468は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる直交行列F1の転置行列F1
Tと、置換操作部467から供給される行列積H1dとの行列積Y1dを求める。回転操作部468は、その行列積Y1dをスケーリング部243に供給する。
以上のように、行列演算部451は、逆セカンダリ変換の行列を行列分解して行列演算を行い、行ベクトルX1dを行ベクトルY1dに変換するので、逆セカンダリ変換の演算量(乗算・加算)を低減することができる。また、逆セカンダリ変換として保持する係数の数を低減させることができ、逆セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。すなわち、復号の負荷の増大を抑制することができる。
<逆変換処理の流れ>
次に、画像復号装置200により実行される各処理の流れの例を説明する。この場合画像復号装置200は、画像復号処理を、第1の実施の形態の場合(図13)と基本的に同様に行う。この場合の逆変換処理の流れの例を、図32のフローチャートを参照して説明する。
逆変換処理が開始されると、ステップS441乃至ステップS449の各処理は、図14のステップS221乃至ステップS227、並びに、ステップS229およびステップS230の各処理と基本的に同様に実行される。
ただし、この場合、ステップS445の処理において、行列演算は、逆セカンダリ変換の行列IRを上述したように行列分解して行われる。
<行列演算処理の流れ>
図33のフローチャートを参照して、図32のステップS445において実行される行列演算処理の流れの例を説明する。
行列演算処理が開始されると、ステップS461において、置換操作部461は、置換行列P3と行ベクトルX1dとの行列積A1dを求める。
ステップS462において、回転操作部462は、直交行列F4の転置行列F4
Tと行列積A1dとの行列積B1dを求める。
ステップS463において、置換操作部463は、置換行列P2と置換行列P3の転置行列P3
Tと行列積B1dとの行列積C1dを求める。
ステップS464において、回転操作部464は、直交行列F3の転置行列F3
Tと行列積C1dとの行列積D1dを求める。
ステップS465において、置換操作部465は、置換行列P1と置換行列P2の転置行列P2
Tと行列積D1dとの行列積E1dを求める。
ステップS466において、回転操作部466は、直交行列F2の転置行列F2
Tと行列積E1dとの行列積G1dを求める。
ステップS467において、置換操作部467は、置換行列P1の転置行列P1
Tと行列積G1dとの行列積H1dを求める。
ステップS468において、回転操作部468は、直交行列F1の転置行列F1
Tと行列積H1dとの行列積Y1dを求める。
ステップS468の処理が終了すると、処理は図32に戻る。
以上のように各処理を実行することにより、逆セカンダリ変換の演算量(乗算・加算)を低減することができ、逆セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。すなわち、復号の負荷の増大を抑制することができる。
なお、本実施形態では、行列演算部451において、Nビットスケーリングされた複数の直交行列を用いて、複数回(M回)の行列積よりなる行列演算を行うため、ダイナミックレンジは、M*Nビットとなる。従って、スケーリング部243は、ベクトルY1dのノルムを正規化するために用いるシフト量は、(M*N)しているがこれに限定されない。例えば、図31の行列演算部451において、回転操作部468を除いて、各回転操作部(回転操作部462、回転操作部464、回転操作部466)の後に、各回転操作部から得られる行列積のノルムを正規化するためのスケーリング部をそれぞれ配置してもよい。この場合、各スケーリング部(スケーリング部243を含む)におけるノルムを正規化するためのシフト量は、Nである。
また、各回転操作部の後に、スケーリング部を配置する代わりに、複数の回転操作後の行列積に対して、ノルムを正規化するようにスケーリング部を配置してもよい。例えば、置換操作部461、回転操作部462、置換操作部463、及び回転操作部464を通して得られる行列積を正規化するためのスケーリング部を、回転操作部464の後に配置し、行列積のノルムの正規化を行う。同様に、置換操作部465、回転操作部466、置換操作部467、及び回転操作部468を通して得られる行列積をスケーリング部243において、ノルムの正規化を行う。この場合、各スケーリング部におけるノルムを正規化するためのシフト量は、2Nである。
<4.第4の実施の形態>
<16点HyGTの別表現>
第3の実施の形態では、16点HyGTの1段目の操作T1(図21のAにおいて枠411で囲まれた部分)については、置換操作の表現を用いずに、G1,1乃至G1,8の8つの回転行列からなる直交変換F1からなると表現したが、入力信号の置換を行わないことを示す特殊な置換を伴う表現で表すことが可能である。
便宜上、第3の実施の形態において、操作T1における置換操作を置換δ0と定義し、図21のBの模式図を、図34に置き換えることができる。置換δ0は、以下の式(50)で表される。置換δ0は、入力信号の置換を行わないことを示す置換操作である。すなわち、式(50)において、i番目(i=0,…,15)の入力信号は、そのままi番目の出力信号として出力される。
つまり、1段目の操作T1は、以下の式(51)のように、置換δ0、直交変換F1、逆置換δ0Tによって表現することができる。ここで、式(51)において置換δ0に対応する行列は、P0であり、16×16の単位行列に対応する。
T1 = P0
T・F1・P0
・・・(51)
この式(51)の結果から、第3の実施の形態において説明した16点HyGT(セカンダリ変換R)、及び16点inverseHyGT(逆セカンダリ変換)を表すそれぞれの式(48)は以下の式(52)へ、式(49)は、式(53)へ置換δ0を導入した表現し直すことができる。ここで、置換δ0, δ1, δ2, δ3、及び対応する置換行列P0, P1, P2, P3の下付き文字のインデックスの開始番号を0から1へ置き換え、置換δ1, δ2, δ3, δ4、及び対応する置換行列P1, P2, P3, P4と定義し直せば、式(52)は以下の式(54)によって、式(53)は以下の式(55)によって表現することができる。
R = T
4 ・T
3・T
2・T
1
= (P
3
T・F
4・P
3)・(P
2
T・F
3・P
2)・(P
1
T・F
2・P
1)・(P
0
T・F
1・P
0)
・・・(52)
R
-1 = (T
4 ・T
3・T
2・T
1)
-1
=((P
3
T・F
4・P
3)・(P
2
T・F
3・P
2)・(P
1
T・F
2・P
1)・(P
0
T・F
1・P
0))
-1
=(P
0
-1・F
1
-1・(P
0
T)
-1)・(P
1
-1・F
2
-1・(P
1
T)
-1)・(P
2
-1・F
3
-1・( P
2
T)
-1)・(P
3
-1・F
4
-1・(P
3
T)
-1)
=(P
0
T・F
1
T・P
0)・)P
1
T・F
2
T・P
1)・(P
2
T・F
3
T・P
2)・(P
3
T・F
4
T・P
3)
・・・(53)
R = (P
4
T・F
4・P
4) ・(P
3
T・F
3・P
3)・(P
2
T・F
2・P
2)・(P
1
T・F
1・P
1)
・・・(54)
R
-1 = ((P
4
T・F
4・P
4)・(P
3
T・F
3・P
3)・(P
2
T・F
2・P
2)・(P
1
T・F
1・P
1))
-1
・・・(55)
<行列演算部(16点HyGT部)>
以上の式52(式54)の結果に基づいて、第3の実施の形態において説明したセカンダリ変換部132の行列演算部421は、図27に示される構成の代わりに、図35に示される構成によっても実現することができる。図35の場合、行列演算部421は、図27の場合と機能は同一であるが、16点HyGTを4つの直交行列に分解し、セパラブルな直交変換としている。従って、図35の場合の行列演算部421は、図27の場合と比較して、構成ブロックの個数を削減することができる。すなわち、回路規模を削減することができる。
図35は、行列演算部421の主な構成例を示すブロック図である。図35の場合、行列演算部421は、回転操作部501-1、回転操作部501-2、回転操作部501-3、および回転操作部501-4を有する。
回転操作部501-1は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる直交行列T1(=P1
T・F1・P1=F1)と、ラスタライズ部141から供給される行ベクトルX1dとの行列積A1dを求める。回転操作部501-1は、その行列積A1dを置換操作部501-2に供給する。
回転操作部501-2は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる直交行列T2(=P2
T・F2・P2)と、回転操作部501-1から供給される行列積A1dとの行列積B1dを求める。回転操作部501-2は、その行列積B1dを回転操作部501-3に供給する。
回転操作部501-3は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる直交行列T3(=P3
T・F3・P3)と、回転操作部501-2から供給される行列積B1dとの行列積C1dを求める。回転操作部501-3は、その行列積C1dを回転操作部501-4に供給する。
回転操作部501-4は、セカンダリ変換選択部146から供給されるセカンダリ変換の行列Rを行列分解して得られる直交行列T4(=P4
T・F4・P4)と、回転操作部501-3から供給れる行列積C1dとの行列積D1dを求める。回転操作部501-4は、その行列積Y1dをスケーリング部143に供給する。
つまり、回転操作部501-1乃至回転操作部501-4は、それぞれ、行列積を求める処理部であり、互いに同一の処理を行う。以下において、回転操作部501-1乃至回転操作部501-4を互いに区別して説明する必要が無い場合、回転操作部501と称する。つまり、この場合、行列演算部421は、4つの回転操作部501により構成される。
以上のように、行列演算部421は、セカンダリ変換の行列を行列分解して行列演算を行い、行ベクトルX1dを行ベクトルY1dに変換するので、セカンダリ変換の演算量(乗算・加算)を低減することができる。また、セカンダリ変換として保持する係数の数を低減させることができ、セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。すなわち、符号化の負荷の増大を抑制することができる。
<行列演算処理の流れ>
図36のフローチャートを参照して、図28のステップS406において実行される行列演算処理の流れの例を説明する。
行列演算処理が開始されると、ステップS501-1において、回転操作部501-1は、直交行列T1(=P1
T・F1・P1=F1)と行ベクトルX1dとの行列積A1dを求める。
ステップS501-2において、回転操作部501-2は、直交行列T2(=P2
T・F2・P2)と行列積A1dとの行列積B1dを求める。
ステップS501-3において、回転操作部501-3は、直交行列T3(=P3
T・F3・P3)と行列積B1dとの行列積C1dを求める。
ステップS501-4において、回転操作部501-4は、直交行列T4(=P4
T・F4・P4)と行列積C1dとの行列積Y1dを求める。
ステップS501-4の処理が終了すると、処理は図28に戻る。
以上のように各処理を実行することにより、セカンダリ変換の演算量(乗算・加算)を低減することができ、セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。すなわち、符号化の負荷の増大を抑制することができる。
<行列演算部(16点逆HyGT部)>
同様にして、式(53)(式(54))の結果に基づいて、第3の実施の形態において説明した逆セカンダリ変換部231の行列演算部451は、図31に示される構成の代わりに、図37に示されるような構成によっても実現することができる。図37の場合、行列演算部451は、図31の場合と機能は同一であるが、16点逆HyGTを4つの直交行列に分解し、セパラブルな直交変換としている。従って、図37の場合の行列演算部451は、図31の場合と比較して、構成ブロックの個数を削減することができる。すなわち、回路規模を削減することができる。
図37は、行列演算部451の主な構成例を示すブロック図である。図37の場合、行列演算部451は、回転操作部511-1、回転操作部511-2、回転操作部511-3、および回転操作部511-4を有する。
回転操作部511-1は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる直交行列T4(=P4
T・F4・P4)の転置行列T4
T(=P4
T・F4
T・P4)と、ラスタライズ部241から供給される行ベクトルX1dとの行列積A1dを求める。回転操作部511-1は、その行列積A1dを回転操作部511-2に供給する。
回転操作部511-2は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる直交行列T3(=P3
T・F3・P3)の転置行列T3
T(=P3
T・F3
T・P3)と、回転操作部511-1から供給される行列積A1dとの行列積B1dを求める。回転操作部511-2は、その行列積B1dを回転操作部511-3に供給する。
回転操作部511-3は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる直交行列T2(=P2
T・F2・P2)の転置行列T2
T(=P2
T・F2
T・P2)と、回転操作部511-4から供給される行列積B1dとの行列積C1dを求める。回転操作部511-3は、その行列積C1dを回転操作部511-4に供給する。
回転操作部511-4は、逆セカンダリ変換選択部246から供給される逆セカンダリ変換の行列IRを行列分解して得られる直交行列T1(=P1
T・F1・P1=F1)の転置行列T1
T(=P1
T・F1
T・P1=F1
T)と、回転操作部511-3から供給される行列積C1dとの行列積Y1dを求める。回転操作部511-4は、その行列積Y1dをスケーリング部243に供給する。
つまり、回転操作部511-1乃至回転操作部511-4は、それぞれ、行列積を求める処理部であり、互いに同一の処理を行う。以下において、回転操作部511-1乃至回転操作部511-4を互いに区別して説明する必要が無い場合、回転操作部511と称する。つまり、この場合、行列演算部451は、4つの回転操作部511により構成される。
以上のように、行列演算部451は、逆セカンダリ変換の行列を行列分解して行列演算を行い、行ベクトルX1dを行ベクトルY1dに変換するので、逆セカンダリ変換の演算量(乗算・加算)を低減することができる。また、逆セカンダリ変換として保持する係数の数を低減させることができ、逆セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。すなわち、復号の負荷の増大を抑制することができる。
<行列演算処理の流れ>
図38のフローチャートを参照して、図32のステップS445において実行される行列演算処理の流れの例を説明する。
行列演算処理が開始されると、ステップS511-1において、回転操作部511-1は、直交行列直交行列T4(=P4
T・F4・P4)の転置行列T4
T(=P4
T・F4
T・P4)と行ベクトルX1dとの行列積A1dを求める。
ステップS511-2において、回転操作部511-2は、直交行列T3(=P3
T・F3・P3)の転置行列T3
T(=P3
T・F3
T・P3)と行列積A1dとの行列積B1dを求める。
ステップS511-3において、回転操作部511-3は、直交行列T2(=P2
T・F2・P2)の転置行列T2
T(=P2
T・F2
T・P2)と行列積B1dとの行列積C1dを求める。
ステップS511-4において、回転操作部511-4は、直交行列T1(=P1
T・F1・P1=F1)の転置行列T1
T(=P1
T・F1
T・P1=F1
T)と行列積C1dとの行列積Y1dを求める。
ステップS511-4の処理が終了すると、処理は図32に戻る。
以上のように各処理を実行することにより、逆セカンダリ変換の演算量(乗算・加算)を低減することができ、逆セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。すなわち、復号の負荷の増大を抑制することができる。
<5.第5の実施の形態>
<2N点HyGT及び2N点逆HyGTについて>
HyGTについて一般化すると、2N点HyGTにおいて、i番目の操作Tiは、2N点の置換δi(あるいは対応する2N×2Nの置換行列Pi)、及び2N×2Nの直交行列Fi(i=1,…,N)とすると、Ti=(Pi
T・Fi・Pi)と表現される。従って、2N点HyGTは、以下の式(56)のように、N個の変換Tiの行列積によって表現される。
また、同様にして、2N点HyGTの逆変換、すなわち、2N点逆HyGT(2N点inverseHyGT)は、以下の式(57)によって表現される。
ここで、2N点HyGTのi番目の変換Tiにおける直交行列Fiは、以下の式(58)に示されるように、式(33)に示す回転行列Gi,j(j=1,…,2N-1)を対角成分に有し、それ以外の要素が0である疎な直交行列である。
また、2N点HyGTのi番目の変換Tiにおける置換δiは、図39に示される疑似コード521によって導出される。なお、この疑似コード521において、配列permList[i]が置換δiに対応し、permList[i][j] は、置換δiにおいて、j番目の要素と入れ替える要素番号に対応する。
例えば、32点HyGT(N=5)におけるi番目の変換Tiにおける置換δiは、図40に示す通りとなる。すなわち、2N点HyGTのi番目(i=1,…,N)の変換Tiにおける置換δiは、0,…,2**N-1までの要素を、順方向に、2i個(i=1,...,N)の要素からなるN-i+1個のサブセットに分割し、各サブセットj(j=0,…,N-i)において、それぞれ2i-1個からなる左半分の要素群{j*2i-1,..,(j+1)*2i-1/2-1}(第1のクラス)と右半分の要素群{(j+1)*2i-1/2,..,(j+1)*2i-1-1}(第2のクラス)とにおいて、第1のクラスの奇数番目の要素kを、上記第2のクラスの対応する奇数番目l(=j+2i-1)の要素の右となりの偶数番目の要素m(=j+2i-1+1)と入れ替えることで導出される。
例えば、図40に示される32点HyGT(N=5)の場合、図41の上段に示されるように、1番目の変換δ1の要素は、2個の要素からなるサブセット522に分割される。図40においては、左端のサブセットにのみ符号を付しているが、四角枠で示されるそれぞれが全てサブセット522である。また、各サブセット522において、左の1個の要素が第1のクラス523として設定され、右の1個の要素が第2のクラス524として設定される。そして変換δ1においては、要素の入れ替えは行われない。
2番目の変換δ2の要素は、図41の中段に示されるように、4個の要素からなるサブセット522に分割される。各サブセット522の左の2個の要素が第1のクラス523として設定され、右の2個の要素が第2のクラス524として設定される。そして、例えば、左端のサブセット522においては、第1のクラス523の要素「1」と、第2のクラス524の要素「3」とが入れ替えられる。他のサブセット522においても同様の位置関係で要素が入れ替えられる。
3番目の変換δ3の要素は、図41の下段に示されるように、8個の要素からなるサブセット522に分割される。各サブセット522の左の4個の要素が第1のクラス523として設定され、右の4個の要素が第2のクラス524として設定される。そして、例えば、左端のサブセット522においては、第1のクラス523の要素「1」と第2のクラス524の要素「4」とが入れ替えられ、第1のクラス523の要素「3」と第2のクラス524の要素「6」とが入れ替えられる。他のサブセット522においても同様の位置関係で要素が入れ替えられる。
4番目の変換δ4の要素は、図42の上段に示されるように、16個の要素からなるサブセット522に分割される。各サブセット522の左の8個の要素が第1のクラス523として設定され、右の8個の要素が第2のクラス524として設定される。そして、例えば、左端のサブセット522においては、第1のクラス523の要素「1」と第2のクラス524の要素「8」とが入れ替えられ、第1のクラス523の要素「3」と第2のクラス524の要素「10」とが入れ替えられ、第1のクラス523の要素「5」と第2のクラス524の要素「12」とが入れ替えられ、第1のクラス523の要素「7」と第2のクラス524の要素「14」とが入れ替えられる。他のサブセット522においても同様の位置関係で要素が入れ替えられる。
5番目の変換δ5の要素は、図42の下段に示されるように、32個の要素からなるサブセット522に分割される。つまり、この場合、δ5全体が1つのサブセット522に設定される。そしてそのサブセット522の左の16個の要素が第1のクラス523として設定され、右の16個の要素が第2のクラス524として設定される。そして、第1のクラス523の要素「1」と第2のクラス524の要素「16」とが入れ替えられ、第1のクラス523の要素「3」と第2のクラス524の要素「18」とが入れ替えられ、第1のクラス523の要素「5」と第2のクラス524の要素「20」とが入れ替えられ、第1のクラス523の要素「7」と第2のクラス524の要素「22」とが入れ替えられ、第1のクラス523の要素「9」と第2のクラス524の要素「24」とが入れ替えられ、第1のクラス523の要素「11」と第2のクラス524の要素「26」とが入れ替えられ、第1のクラス523の要素「13」と第2のクラス524の要素「28」とが入れ替えられ、第1のクラス523の要素「15」と第2のクラス524の要素「30」とが入れ替えられる。
また、64点HyGT(N=6)におけるi番目の変換Tiにおける置換δiは、図43に示す通りとなる。なお、置換δiに対応する置換行列Piは、置換δiから自明であるため、説明を省略する。
このように、図39に示される疑似コード521によって、2N点HyGTのi番目の変換Tiにおける置換δiを導出することができる。
<2N点HyGT部>
次に、以上のように一般化されたHyGTの構成について説明する。図44は、このような2N点のHyGTを行う2N点HyGT部530の主な構成例を示すブロック図である。図44に示されるように、2N点HyGT部530は、N個の回転操作部(回転操作部531-1、回転操作部531-2、・・・、回転操作部531-N)を有する。なお、Nは1以上の任意の整数をとりうる。また、以下において回転操作部531-1、回転操作部531-2、・・・、回転操作部531-Nを互いに区別して説明する必要が無い場合、回転操作部531と称する。
回転操作部531-1は、以下の式(59)に示されるように、2N点HyGT部530の外部より供給される2N点HyGTの行列Rを行列分解して得られる1番目の操作に対応する直交行列T1と、2N点HyGT部530の外部から供給される1×2N行ベクトルX0(=X1d)の転置行列との行列積X1(1×2Nの行ベクトル)を求める。回転操作部531-1は、その行列積X1を回転操作部531-2に供給する。
X1
T=T1・X0
T=P1
T・F1・P1・X0
T
・・・(59)
回転操作部531-2は、以下の式(60)に示されるように、2N点HyGT部530の外部より供給される2N点HyGTの行列Rを行列分解して得られる2番目の操作に対応する直交行列T2と、回転操作部531-1から供給される1×2N行ベクトルX1の転置行列との行列積X2(1×2Nの行ベクトル)を求める。回転操作部531-2は、その行列積X2を次の回転操作部531に供給する。
X2
T=T2・X1
T=P2
T・F2・P2・X1
T
・・・(60)
以下、各回転操作部531において同様の処理が行われる。つまり、i番目の回転操作部531-iは、2N点HyGT部530の外部より供給される2N点HyGTの行列Rを行列分解して得られるi番目の操作に対応する直交行列Tiと、1つ前の回転操作部531-(i-1)から供給される1×2N行ベクトルXi-1の転置行列との行列積Xi(1×2Nの行ベクトル)を求める。回転操作部531-iは、その行列積Xiを次の回転操作部531-(i+1)に供給する。
そして、回転操作部531-Nは、以下の式(61)に示されるように、2N点HyGT部530の外部から供給される2N点HyGTの行列Rを行列分解して得られるN番目の操作に対応する直交行列TNと、1つ前の回転操作部531から供給される1×2N行ベクトルXN-1の転置行列との行列積XN(1×2Nの行ベクトル)を求める。回転操作部531-Nは、その行列積XN(=Y1d)を2N点HyGT部530の外部へ出力する。
XN
T=TN・XN-1
T=PN
T・FN・PN・XN-1
T
・・・(61)
なお、N=2の場合は、回転操作部531-2が求めた行列積X2を行列積Y1dとして2N点HyGT部530の外部へ出力する。また、N=1の場合は、回転操作部531-1が求めた行列積X1を行列積Y1dとして2N点HyGT部530の外部へ出力する。
以上のように、N個の回転操作部531は、互いに同様の変換処理を行う。つまり、2N点HyGT部530は、2N点HyGTの行列Rを行列分解して行列演算を行い、行ベクトルX1dを行ベクトルY1dに変換することができる。したがって、2N点HyGTによる変換の演算量(乗算・加算)を低減することができる。また、これにより、2N点HyGTの変換として保持する係数の数を低減させることができ、2N点HyGTの行列Rを保持するのに必要なメモリサイズを低減させることができる。
なお、各回転操作部531の後段に、ノルム正規のためのスケーリングを行うスケーリング部を設けるようにしてもよい。
<行列演算処理の流れ>
図45のフローチャートを参照して、2N点HyGT部530により実行される行列演算処理の流れの例を説明する。
行列演算処理が開始されると、ステップS521-1において、回転操作部531-1は、直交行列T1(=P1
T・F1・P1=F1)と行ベクトルX0との行列積X1を求める。
ステップS521-2において、回転操作部531-2は、直交行列T2(=P2
T・F2・P2)と行列積X1との行列積X2を求める。
同様に、i番目の回転操作部531-iは、ステップS521-iにおいて、直交行列Ti(=Pi
T・Fi・Pi)と行列積Xi-1との行列積Xiを求める。
そして、ステップS521-Nにおいて、回転操作部531-Nは、直交行列TN(=PN
T・FN・PN)と行列積XN-1との行列積XN(=Y1d)を求める。ステップS521-Nの処理が終了すると、行列演算処理が終了する。
以上のように各処理を実行することにより、2N点HyGTによる変換の演算量(乗算・加算)を低減することができる。
なお、N=2の場合、ステップS521-2の処理が終了すると行列演算処理が終了する。また、N=1の場合、ステップS521-1の処理が終了すると行列演算処理が終了する。
<第3の実施の形態への適用>
このような、2N点HyGT部530は、例えば、第3の実施の形態において上述した行列演算部421として適用することができる。第3の実施の形態の行列演算部421は、16点HyGTを行うので、N=4である。つまり、第4の実施の形態において説明した構成(図35)となる。すなわち、各回転操作部531は、図35の各回転操作部501と同様の処理を行う。したがって、この場合の行列演算処理は、図36のフローチャートを参照して説明した場合と同様の流れとなる。
<2N点逆HyGT部)>
次に、このような2N点HyGT部530に対応する(2N点HyGT部530が行う行列演算の逆処理を行う)2N点逆HyGT部について説明する。図46は、そのような2N点逆HyGT部の主な構成例を示すブロック図である。図46に示されるように、2N点逆HyGT部540は、N個の回転操作部(回転操作部541-1、回転操作部541-2、・・・、回転操作部541-N)を有する。なお、Nは1以上の任意の整数をとりうる。また、以下において回転操作部541-1、回転操作部541-2、・・・、回転操作部541-Nを互いに区別して説明する必要が無い場合、回転操作部541と称する。
回転操作部541-1は、以下の式(62)に示されるように、2N点逆HyGT部540の外部より供給される2N点逆HyGTの行列IRを行列分解して得られる1番目の操作に対応する直交行列TN
Tと、2N点逆HyGT部540の外部から供給される1×2N行ベクトルX0(=X1d)の転置行列との行列積X1(1×2Nの行ベクトル)を求める。回転操作部541-1は、その行列積X1を回転操作部541-2に供給する。
X1
T=TN
T・X0
T=PN
T・FN
T・PN・X0
T
・・・(62)
回転操作部541-2は、以下の式(63)に示されるように、2N点逆HyGT部540の外部より供給される2N点逆HyGTの行列IRを行列分解して得られる2番目の操作に対応する直交行列TN-1
Tと、回転操作部541-1から供給される1×2N行ベクトルX1の転置行列との行列積X2(1×2Nの行ベクトル)を求める。回転操作部541-2は、その行列積X2を次の回転操作部541に供給する。
X2
T=TN-1
T・X1
T=PN-1
T・FN-1
T・PN-1・X1
T
・・・(63)
以下、各回転操作部541において同様の処理が行われる。つまり、i番目の回転操作部541-iは、2N点逆HyGT部540の外部より供給される2N点逆HyGTの行列IRを行列分解して得られるi番目の操作に対応する直交行列TN-i+1と、1つ前の回転操作部541-(i-1)から供給される1×2N行ベクトルXi-1の転置行列との行列積Xi(1×2Nの行ベクトル)を求める。回転操作部541-iは、その行列積Xiを次の回転操作部541-(i+1)に供給する。
そして、回転操作部541-Nは、以下の式(64)に示されるように、2N点逆HyGT部540の外部より供給される2N点逆HyGTの行列IRを行列分解して得られるN番目の操作に対応する直交行列T1
Tと、1つ前の回転操作部541-(N-1)から供給される1×2N行ベクトルXi-1の転置行列との行列積XN(1×2Nの行ベクトル)を求める。回転操作部541-Nは、その行列積XN(= Y1d)を2N点逆HyGT部540の外部へ出力する。
XN
T=T1
T・XN-1
T=P1
T・F1
T・P1・XN-1
T=F1
T・XN-1
T
・・・(64)
なお、N=2の場合は、回転操作部541-2が求めた行列積X2を行列積Y1dとして2N点逆HyGT部540の外部へ出力する。また、N=1の場合は、回転操作部541-1が求めた行列積X1を行列積Y1dとして2N点逆HyGT部540の外部へ出力する。
以上のように、2N点逆HyGT部540は、2N点逆HyGTの行列IRを行列分解して行列演算を行い、行ベクトルX1dを行ベクトルY1dに変換するので、2N点逆HyGTによる変換の演算量(乗算・加算)を低減することができる。また、2N点逆HyGTの変換として保持する係数の数を低減させることができ、2N点逆HyGTの行列を保持するのに必要なメモリサイズを低減させることができる。
なお、各回転操作部541の後段に、ノルム正規のためのスケーリングを行うスケーリング部を設けるようにしてもよい。
<行列演算処理の流れ>
図47のフローチャートを参照して、2N点逆HyGT部540において実行される行列演算処理の流れの例を説明する。
行列演算処理が開始されると、ステップS531-1において、回転操作部541-1は、直交行列TN
T(=PN
T・FN
T・PN)と行ベクトルX0との行列積X1を求める。
ステップS531-2において、回転操作部541-2は、直交行列TN-1
T(=PN-1
T・FN-1
T・PN-1)と行列積X1との行列積X2を求める。
同様に、i番目の回転操作部541-iは、ステップS531-iにおいて、直交行列TN-i+1
T(=P N-i+1
T・F N-i+1・P N-i+1i)と行列積Xi-1との行列積Xiを求める。
そして、ステップS531-Nにおいて、回転操作部541-Nは、直交行列T1
T(=P1
T・F1
T・P1= F1
T)と行列積XN-1との行列積XN(=Y1d)を求める。ステップS531-Nの処理が終了すると、行列演算処理が終了する。
以上のように各処理を実行することにより、2N点逆HyGTによる変換の演算量(乗算・加算)を低減することができる。
なお、N=2の場合、ステップS531-2の処理が終了すると行列演算処理が終了する。また、N=1の場合、ステップS531-1の処理が終了すると行列演算処理が終了する。
<第3の実施の形態への適用>
このような、2N点逆HyGT部540は、例えば、第3の実施の形態において上述した行列演算部451として適用することができる。第3の実施の形態の行列演算部451は、16点HyGTを行うので、N=4である。つまり、第4の実施の形態において説明した構成(図37)となる。すなわち、各回転操作部541は、図37の各回転操作部511と同様の処理を行う。したがって、この場合の行列演算処理は、図38のフローチャートを参照して説明した場合と同様の流れとなる。
<6.第6の実施の形態>
<64点HyGTの場合>
第3の実施の形態では、4×4サブブロック毎にHyGTベースのセカンダリ変換を適用する場合において、行列分解による高速演算が可能なセカンダリ変換、及び逆セカンダリ変換について説明した。また、第6の実施の形態の変形例6では、HyGTを一般化した2N点HyGT、及び2N逆点HyGTについて説明した。ところで、X.Zhao, A.Said, V.Seregin, M.Karczewicz, J.Chen, "EE2.7 related Improved non-seperable secondary secondary transform", JVET-C0063, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 3rd Meeting: Geneva, CH, from 2016-05-26 to 2016-06-01 2016(以下、非特許文献3とも称する)には、セカンダリ変換のエナジーコンパクションの性能を向上させるために、変換ブロックサイズが8×8以上の場合に、8×8サブブロック単位に、64点HyGTベースのセカンダリ変換を適用することが開示されている。
しかしながら、非特許文献3に記載の方法の64点HyGTベースのセカンダリ変換は、非セパラブルであるため、演算量が多かった。また、イントラ予測モードのクラス数と各クラスに対応するセカンダリ変換の数だけ、4×4及び8×8セカンダリ変換の行列を有しており、セカンダリ変換の行列を保持するメモリサイズが非特許文献2に記載の方法に比べてさらに増大するおそれがあった。すなわち、符号化・復号の負荷が増大するおそれがあった。
例えば、非特許文献3に記載の方法の場合、イントラ予測モードのクラス数=35であり、各クラスに対するセカンダリ変換の数=5であり、35*5 = 175の行列が4×4及び8×8セカンダリ変換毎に存在する。したがって、各行列の要素を9bit精度で保持するとすると、全セカンダリ変換の行列を保持に要するメモリサイズは、9bit * 16*16 * 175 + 9bit * 64 * 64 * 175 = 6854400 bits = 856800 byte = 836.71875KBである。
<行列演算の分解>
そこで、第3の実施の形態において説明した16点HyGTと同様に、8×8サブブロック単位のセカンダリ変換や逆セカンダリ変換において、画像とその画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を1次元のベクトルに変換し、その1次元のベクトルに対して複数回の行列積よりなる行列演算を行うようにする。
例えば、非特許文献3に記載の64点HyGTとその逆変換である64点逆HyGTに、第5の実施の形態において説明した2N点HyGTおよび2N点逆HyGTを適用することにより(N=6)、6つの直交行列に分解されたセパラブルな直交変換を用いてそのセカンダリ変換や逆セカンダリ変換を行うことができる。
この場合の64点HyGTおよび64点逆HyGTを表す行列表現は、上述した式(56)および式(57)において、N=6とすればよい。つまり、これらの行列表現は、以下の式(65)および式(66)のように表すことができる。なお、式(56)および式(57)における直交行列Fi(i=1,…,6)は、式(33)に示す回転行列Gi,j(j=1,…,16)を対角成分を有し、それ以外の要素が0である疎な64×64の行列であり、置換行列Pi(i=1,…,6)は、図39に示す疑似コード521においてN=6として実行することで得られる置換δi(i=1,…,6)に対応する64×64の行列である。
R = (P6
T・F6・P6)・(P5
T・F5・P5)・(P4
T・F4・P4)・
(P3
T・F3・P3)・(P2
T・F2・P2)・(P1
T・F1・P1)
・・・(65)
R-1 =((P6
T・F6・P6)・(P5
T・F5・P5)・(P4
T・F4・P4)・
(P3
T・F3・P3)・(P2
T・F2・P2)・(P1
T・F1・P1))-1
=(P1
T・F1
T・P1)・(P2
T・F2
T・P2)・(P3
T・F3
T・P3)・
(P4
T・F4
T・P4)・(P5
T・F5
T・P5)・(P6
T・F6
T・P6)
・・・(66)
非特許文献3に記載の非セパラブルな64点HyGTベースセカンダリ変換の場合と、以上のように行列分解したセパラブルな64点HyGTベースのセカンダリ変換の場合とで、乗算と加算の処理数を比較した結果を図48のAの表に示す。図48のAの表に示されるように、行列分解することにより、明らかに、乗算や加算の処理数を低減することができる。
また、非特許文献3に記載の非セパラブルな64HyGTベースのセカンダリ変換の場合と、以上のように行列分解したセパラブルな64点HyGTベースのセカンダリ変換の場合とで、セカンダリ変換の行列の情報量(1変換当たり)と、その行列を保持するのに必要なメモリサイズを比較した結果を図48のBの表に示す。行列分解することにより、行列分解した各直交変換の疎行列の性質および係数の対称性を利用して、セカンダリ変換として保持する係数の数を低減することができる。したがって、図48のBの表に示されるように、明らかに、セカンダリ変換の行列の情報量を大幅に低減することができ、必要なメモリサイズの増大を抑制することができる。つまり、符号化の負荷の増大を抑制することができる。
<7.第7の実施の形態>
<CU,PU、およびTUの形状>
図49は、CU,PU、およびTUの形状について説明する図である。本技術を適用する場合のCU,PU、およびTUとして、H. Huang, K. Zhang, Y.-W. Huang, S. Lei, "EE2.1: Quadtree plus binary tree structure integration with JEM tools", JVET-C0024, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 3rd Meeting: Geneva, CH, from 2016-05-26 to 2016-06-01 2016(以下、非特許文献4とも称する)に記載されているQTBT(Quad tree plus binary tree)のCU,PU、およびTUを適用することができる。
つまり、CUのブロック分割において、図49に示される例のように、1つのブロックを4(=2x2)個だけでなく、2(=1x2,2x1)個のサブブロックにも分割することができる。即ち、この場合、CUのブロック分割は、1つのブロックを4個または2個のサブブロックへの分割を再帰的に繰り返すことにより行われ、結果として4分木(Quad-Tree)状または水平方向もしくは垂直方向の2分木(Binary-Tree)状のツリー構造が形成される。図49において、LCU550の中の白地の四角で示されるCU551が、4分木状に分割されたCUであり、斜線模様の四角で示されるCU552が、2分木状に分割されたCUである。
その結果、CUの形状は、正方形だけでなく、長方形である可能性がある。例えば、LCUサイズが128x128である場合、CUのサイズ(水平方向のサイズw×垂直方向のサイズh)は、図49に示すように、128x128、64x64、32x32、16x16、8x8、4x4といった正方形のサイズだけでなく、128x64、128x32、128x16、128x8、128x4、64x128、32x128、16x128、8x128、4x128、64x32、64x16、64x8、64x4、32x64、16x64、8x64、4x64、32x16、32x8、32x4、16x32、8x32、4x32、16x8、16x4、8x16、4x16、 8x4、4x8といった長方形のサイズである可能性がある。またこの場合、PUとTUは、CUと同一である。すなわち、変換ブロックの形状は、CU同様、正方形だけでなく、長方形となりうる。
<セカンダリ変換部>
このようなブロック(CU,PU、およびTU)を適用する場合も、画像符号化装置100は、第3の実施の形態の場合と基本的に同様の構成を有することができる。すなわち、画像符号化装置100は、例えば図7に示されるような構成を有し、変換部112は、例えば図26に示されるような構成を有する。ただし、この場合、セカンダリ変換部132は、例えば図50に示されるような構成を有する。
つまり、この場合、セカンダリ変換部132は、図26のラスタライズ部141、スケーリング部143、および行列化部144を有するが、図26のセカンダリ変換選択部146の代わりに図50のセカンダリ変換選択部561を有し、図26の行列演算部421の代わりに図50の行列演算部562を有する。なお、この場合、図26の場合と同様にクリップ処理部145は省略してもよい。
ラスタライズ部141は、スキャン識別子scanIdxによって指定される変換係数のスキャン方法に基づいて、N個の要素からなるサブグループ単位毎に、プライマリ変換部131から供給されるプライマリ変換係数Coeff_Pを1×N次元のベクトルX1dへ変換する。なお、変換ブロックの縦サイズTBHSizeおよび横サイズTBWSizeのいずれか一方が4である場合、4×4サブブロックをサブグループとする。この場合、N=16である。これに対して、変換ブロックの縦サイズTBHSizeおよび横サイズTBWSizeのいずれとも8以上である場合、8×8サブブロックをサブグループとする。この場合、N=64である。ラスタライズ部141は、得られたベクトルX1dを行列演算部562に供給する。なお、サブグループのサイズ(要素数)を示すNは、例えば以下の式(67)に従って決定される。また、式(67)の代わりに、各サイズの対数値を用いて以下の式(68)に従って決定するようにしてもよい。
N = min(TBHSize, TBWSize) == 4 ? 16 : 64
・・・(67)
N = min(log2TBHSize, log2TBWSize) == 2 ? 16 : 64
・・・(68)
セカンダリ変換選択部561は、セカンダリ変換識別子st_idxと、変換ブロックの縦サイズTBHSizeおよび横サイズTBWSizeで導出されるサブグループのサイズNによって指定されるセカンダリ変換の行列Rを、セカンダリ変換選択部146の内部メモリ(不図示)より読み出し、行列演算部562に供給する。例えば、サブグループのサイズNがN=16(4×4サブブロック)の場合、セカンダリ変換識別子st_idxに対応する行列分解された16点HyGTの変換行列Rが選択される。また、サブグループのサイズNがN=64(8×8サブブロック)の場合、セカンダリ変換識別子st_idxに対応する行列分解された64点HyGTの変換行列Rが選択される。
なお、セカンダリ変換選択部561が、セカンダリ変換識別子st_idxおよびイントラ予測モード情報IPinfo(例えば、予測モード番号)に応じて、サブグループのサイズ別にセカンダリ変換Rを選択するようにしてもよい。また、セカンダリ変換選択部561が、イントラ予測モード情報IPinfoの代わりに、動き予測情報MVinfoおよびセカンダリ変換識別子st_idxに応じて、変換Rを選択するようにしてもよい。
行列演算部562は、16点HyGT部421および64点HyGT部563を有する。行列演算部562は、サブグループ毎に、1×N次元ベクトルX1d(=X0)およびセカンダリ変換Rの行列を、16点HyGT部421または64点HyGT部563に供給する。より具体的には、サブグループのサイズNが16の場合(セカンダリ変換の処理単位が4×4サブブロック)、行列演算部562は、1×16次元ベクトルX1d(=X0)および16点HyGTの変換行列Rを16点HyGT部421に供給する。また、サブグループのサイズNが64の場合(セカンダリ変換の処理単位が8×8サブブロック)、行列演算部562は、1×64次元ベクトルX1d(=X0)および64点HyGTの変換行列Rを64点HyGT部563に供給する。
1×16次元ベクトルX1d(=X0)および16点HyGTの変換行列Rを供給された場合、16点HyGT部421は、変換行列Rと1×16次元ベクトルX1dとの行列積Y1dを導出し、スケーリング部143に供給する。また、1×64次元ベクトルX1d(=X0)および64点HyGTの変換行列Rを供給された場合、64点HyGT部563は、変換行列Rと1×64次元ベクトルX1dとの行列積Y1dを導出し、スケーリング部143に供給する。
スケーリング部143は、行列演算部562から供給される信号Y1dのノルムを正規化し、正規化後の信号Z1dを求める。スケーリング部143は、得られた信号Z1dを行列化部144に供給する。行列化部144は、スキャン識別子scanIdxによって指定されるスキャン方法に基づいて、ノルム正規化後の1×N次元のベクトルZ1dを、サブグループのサイズNに対応するM×Mサブブロック(M×M正方行列)へ変換する。例えば、サブグループのサイズN=16の場合、1×16次元のベクトルZ1dを4×4サブブロック(4×4正方行列)へ変換する。また、例えば、サブグループのサイズN=64の場合、1×64次元のベクトルZ1dを8×8サブブロック(8×8正方行列)へ変換する。行列化部144は、このようにして得られた変換係数Coeffを外部へ出力する。
以上のように、行列演算部562は、16点HyGTまたは64点HyGTベースのセカンダリ変換の行列を行列分解して行列演算を行い、行ベクトルX1dを行ベクトルY1dに変換するので、セカンダリ変換の演算量(乗算・加算)を低減することができる。また、セカンダリ変換として保持する係数の数を低減させることができ、セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。
<64点HyGT部>
図51は、64点HyGT部563の主な構成例を示すブロック図である。図51に示されるように、64点HyGT部563は、回転操作部564-1、回転操作部564-2、回転操作部564-3、回転操作部564-4、回転操作部564-5、および回転操作部564-6を有する。なお、以下において回転操作部564-1乃至回転操作部564-6を互いに区別して説明する必要が無い場合、回転操作部564と称する。
回転操作部564-1は、以下の式(69)に示されるように、64点HyGT部563の外部(セカンダリ変換選択部561(図50))より供給される64点HyGTの行列Rを行列分解して得られる1番目の操作に対応する直交行列T1と、64点HyGT部563の外部(ラスタライズ部141(図50))から供給される1×64行ベクトルX0(=X1d)の転置行列との行列積X1(1×64の行ベクトル)を求める。回転操作部564-1は、その行列積X1を回転操作部564-2に供給する。
X1
T=T1・X0
T=P1
T・F1・P1・X0
T
・・・(69)
回転操作部564-2は、以下の式(70)に示されるように、64点HyGT部563の外部(セカンダリ変換選択部561(図50))より供給される64点HyGTの行列Rを行列分解して得られる2番目の操作に対応する直交行列T2と、回転操作部564-1から供給される1×64行ベクトルX1の転置行列との行列積X2(1×64の行ベクトル)を求める。回転操作部564-2は、その行列積X2を回転操作部564-3に供給する。
X2
T=T2・X1
T=P2
T・F2・P2・X1
T
・・・(70)
回転操作部564-3は、以下の式(71)に示されるように、64点HyGT部563の外部(セカンダリ変換選択部561(図50))より供給される64点HyGTの行列Rを行列分解して得られる3番目の操作に対応する直交行列T3と、外部から供給される1×64行ベクトルX2の転置行列との行列積X3(1×64の行ベクトル)を求める。回転操作部564-3は、その行列積X3を回転操作部564-4に供給する。
X3
T=T3・X2
T=P3
T・F3・P3・X2
T
・・・(71)
回転操作部564-4は、以下の式(72)に示されるように、64点HyGT部563の外部(セカンダリ変換選択部561(図50))より供給される64点HyGTの行列Rを行列分解して得られる4番目の操作に対応する直交行列T4と、外部から供給される1×64行ベクトルX3の転置行列との行列積X4(1×64の行ベクトル)を求める。回転操作部564-4は、その行列積X4を回転操作部564-5に供給する。
X4
T=T4・X3
T=P4
T・F4・P4・X3
T
・・・(72)
回転操作部564-5は、以下の式(73)に示されるように、64点HyGT部563の外部(セカンダリ変換選択部561(図50))より供給される64点HyGTの行列Rを行列分解して得られる5番目の操作に対応する直交行列T5と、外部から供給される1×64行ベクトルX4の転置行列との行列積X5(1×64の行ベクトル)を求める。回転操作部564-5は、その行列積X5を回転操作部564-6に供給する。
X5
T=T5・X4
T=P5
T・F5・P5・X4
T
・・・(73)
回転操作部564-6は、以下の式(74)に示されるように、64点HyGT部563の外部(セカンダリ変換選択部561(図50))より供給される64点HyGTの行列Rを行列分解して得られる6番目の操作に対応する直交行列T6と、外部から供給される1×64行ベクトルX5の転置行列との行列積X6(1×64の行ベクトル)を求める。回転操作部564-6は、その行列積X6(=Y1d)を64点HyGT部563の外部(スケーリング部143(図50))に供給する。
X6
T=T6・X5
T=P6
T・F6・P6・X5
T
・・・(74)
以上のように、6個の回転操作部564は、互いに同様の変換処理を行う。つまり、64点HyGT部563は、64点HyGTの行列Rを行列分解して行列演算を行い、行ベクトルX1dを行ベクトルY1dに変換するので、64点HyGTによる変換の演算量(乗算・加算)を低減することができる。また、64点HyGTの変換として保持する係数の数を低減させることができ、64点HyGTの行列Rを保持するのに必要なメモリサイズを低減させることができる。
<変換処理の流れ>
次に、図9のステップS104において実行される変換処理の流れの例を、図52のフローチャートを参照して説明する。
この場合も変換処理は、図28のフローチャートを参照して説明した場合と基本的に同様の流れで行われる。つまり、変換処理が開始されると、ステップS541乃至ステップS549の各処理は、図28のステップS401乃至ステップS409の各処理と基本的に同様に実行される。
なお、ステップS543の処理において、セカンダリ変換の行列Rは、セカンダリ変換識別子st_idxと、変換ブロックの縦サイズTBHSize及び横サイズTBWSizeで導出されるサブグループのサイズNによって選択される。また、ステップS544の処理において、ステップS404におけるサブブロックを、サブグループと読み替えて実行される。さらに、ステップS545の処理において、ステップS405における1×16次元のベクトルX1dを、1×N次元のベクトルX1d(N=16, 64)に読み替えて実行される。また、ステップS546の処理において、行列演算は、セカンダリ変換の行列Rを上述したように行列分解して行われる。さらに、ステップS549の処理において、ステップS409におけるサブブロックをサブグループと読み替えて実行される。
なお、変換処理は、実施可能な範囲で、各ステップの処理順の入れ替えや、処理の内容を変更してよい。例えば、ステップS542においてセカンダリ変換識別子st_idx=0であると判定された場合、サブグループのサイズNに対応するN×Nの単位行列がセカンダリ変換Rとして選択され、ステップS544乃至ステップS549の各処理が実行されるようにしてもよい。
以上のように各処理を実行することにより、セカンダリ変換の演算量(乗算・加算)を低減することができ、セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。
<行列演算処理の流れ>
次に、図53のフローチャートを参照して、図52のステップS546において実行される、64点HyGTの行列演算処理の流れの例を説明する。
64点HyGTの行列演算処理が開始されると、ステップS561において、回転操作部564-1は、直交行列T1(=P1
T・F1・P1=F1)と行ベクトルX0との行列積X1を求める。
ステップS562において、回転操作部564-2は、直交行列T2(=P2
T・F2・P2)と行列積X1との行列積X2を求める。
ステップS563において、回転操作部564-3は、直交行列T3(=P3
T・F3・P3)と行列積X2との行列積X3を求める。
ステップS564において、回転操作部564-4は、直交行列T4(=P4
T・F4・P4)と行列積X3との行列積X4を求める。
ステップS565において、回転操作部564-5は、直交行列T5(=P5
T・F5・P5)と行列積X4との行列積X5を求める。
ステップS566において、回転操作部564-6は、直交行列T6(=P6
T・F6・P6)と行列積X5との行列積X6(=Y1d)を求める。ステップS566の処理が終了すると、処理は図52に戻る。
以上のように各処理を実行することにより、64点HyGTによる変換の演算量(乗算・加算)を低減することができる。そして、以上のように各処理を実行することにより、セカンダリ変換の演算量(乗算・加算)を低減することができ、セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。
<逆セカンダリ変換部>
次に画像符号化装置100に対応する画像復号装置200について説明する。画像復号装置200は、図49の例のような、4分木(Quad-Tree)状または水平方向もしくは垂直方向の2分木(Binary-Tree)状のツリー構造のブロック(CU,PU、およびTU)を適用する場合も、第3の実施の形態の場合と基本的に同様の構成を有することができる。すなわち、画像復号装置200は、例えば図11に示されるような構成を有し、逆変換部213は、例えば図30に示されるような構成を有する。ただし、この場合、逆セカンダリ変換部231は、例えば図54に示されるような構成を有する。
つまり、この場合、逆セカンダリ変換部231は、図30のラスタライズ部241、スケーリング部243、および行列化部244を有するが、図30の逆セカンダリ変換選択部246の代わりに図54の逆セカンダリ変換選択部571を有し、図30の行列演算部451の代わりに図54の行列演算部572を有する。なお、この場合、図30の場合と同様にクリップ処理部145は省略してもよい。
ラスタライズ部241は、外部から供給されるスキャン識別子scanIdxによって指定される変換係数のスキャン方法に基づいて、N個の要素からなるサブグループ単位毎に、逆量子化部212(図11)から供給される変換係数Coeff_IQを1×N次元のベクトルX1dに変換する。ラスタライズ部241は、得られたベクトルX1dを行列演算部572に供給する。なお、変換ブロックの縦サイズTBHSizeおよび横サイズTBWSizeのいずれか一方が4の場合、4×4サブブロックをサブグループとする。この場合、N=16である。これに対して、変換ブロックの縦サイズTBHSizeおよび横サイズTBWSizeのいずれとも8以上の場合には、8×8サブブロックをサブグループとする。この場合、N=64である。ラスタライズ部241は、得られたベクトルX1dを行列演算部572に供給する。サブグループのサイズ(要素数)を示すNは、例えば上述の式(67)によって決定される。また、式(67)の代わりに、各サイズの対数値を用いて上述の式(68)に従って決定するようにしてもよい。
逆セカンダリ変換選択部571は、復号部211(図11)から供給される、セカンダリ変換の内容に関する情報であるセカンダリ変換識別子st_idxと、変換ブロックの縦サイズTBHSizeおよび横サイズTBWSizeで導出されるサブグループのサイズNによって指定される逆セカンダリ変換の行列IR(=RT)を、逆セカンダリ変換選択部571の内部メモリ(不図示)より読み出し、行列演算部572に供給する。例えば、サブグループのサイズNがN=16(4×4サブブロック)の場合、セカンダリ変換識別子st_idxに対応する行列分解された16点逆HyGTの変換行列IRが選択される。また、サブグループのサイズNがN=64(8×8サブブロック)の場合、セカンダリ変換識別子st_idxに対応する行列分解された64点逆HyGTの変換行列IRが選択される。
なお、逆セカンダリ変換選択部571が、例えば、復号部211から供給されるセカンダリ変換識別子st_idxやイントラ予測モード情報IPinfo(例えば、イントラ予測モード番号)に応じて、サブグループのサイズ別に逆セカンダリ変換IR(=RT)を選択するようにしてもよい。また、イントラ予測モード情報IPinfoの代わりに、動き予測情報MVinfoとセカンダリ変換識別子st_idxに応じて、逆変換IRが選択されるようにしてもよい。
行列演算部572は、16点逆HyGT部451および64点逆HyGT部573を有する。行列演算部572は、サブグループ毎に、1×N次元のベクトルX1d(=X0)および逆セカンダリ変換IR(=RT)の行列を、16点逆HyGT部451または64点逆HyGT部573に供給する。より具体的には、サブグループのサイズNが16の場合(逆セカンダリ変換の処理単位が4×4サブブロック)、行列演算部572は、1×16次元ベクトルX1d(=X0)および16点逆HyGTの変換行列IRを16点逆HyGT部451に供給する。また、サブグループのサイズNが64の場合(逆セカンダリ変換の処理単位が8×8サブブロック)、行列演算部572は、1×64次元ベクトルX1d(=X0)および64点逆HyGTの変換行列IRを64点逆HyGT部573に供給する。
1×16次元ベクトルX1d(=X0)および16点逆HyGTの変換行列IRを供給された場合、16点逆HyGT部451は、変換行列IRと1×16次元ベクトルX1dとの行列積Y1dを導出し、スケーリング部243に供給する。また、1×64次元ベクトルX1d(=X0)および64点逆HyGTの変換行列IRを供給された場合、64点逆HyGT部573は、変換行列IRと1×64次元ベクトルX1dとの行列積Y1dを導出し、スケーリング部243に供給する。
スケーリング部243は、行列演算部572から供給される信号Y1dのノルムを正規化し、正規化後の信号Z1dを求める。スケーリング部243は、得られた信号Z1dを行列化部244に供給する。行列化部244は、スキャン識別子scanIdxによって指定されるスキャン方法に基づいて、ノルム正規化後の1×N次元のベクトルZ1dを、サブグループのサイズNに対応するM×Mサブブロック(M×M正方行列)へ変換する。例えば、サブグループのサイズN=16の場合、1×16次元のベクトルZ1dを4×4サブブロック(4×4正方行列)へ変換する。また、サブグループのサイズN=64の場合、1×64次元のベクトルZ1dを8×8サブブロック(8×8正方行列)へ変換する。 行列化部244は、得られた変換係数Coeffを外部へ出力する。
以上のように、行列演算部572は、16点逆HyGTまたは64点逆HyGTベースの逆セカンダリ変換の行列を行列分解して行列演算を行い、行ベクトルX1dを行ベクトルY1dに変換するので、逆セカンダリ変換の演算量(乗算・加算)を低減することができる。また、逆セカンダリ変換として保持する係数の数を低減させることができ、逆セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。
<64点逆HyGT部>
図55は、64点逆HyGT部573の主な構成例を示すブロック図である。図55に示されるように、64点逆HyGT部573は、回転操作部574-1、回転操作部574-2、回転操作部574-3、回転操作部574-4、回転操作部574-5、および回転操作部574-6を有する。なお、以下において回転操作部574-1乃至回転操作部574-6を互いに区別して説明する必要が無い場合、回転操作部574と称する。
回転操作部574-1は、以下の式(75)に示されるように、64点逆HyGT部573の外部(逆セカンダリ変換選択部571(図54))より供給される64点逆HyGTの行列IRを行列分解して得られる1番目の操作に対応する直交行列T6
Tと、64点逆HyGT部573の外部(ラスタライズ部241(図54))から供給される1×64行ベクトルX0(=X1d)の転置行列との行列積X1(1×64の行ベクトル)を求める。回転操作部574-1は、その行列積X1を回転操作部574-2に供給する。
X1
T=T6
T・X0
T=P6
T・F6
T・P6・X0
T
・・・(75)
回転操作部574-2は、以下の式(76)に示されるように、64点逆HyGT部573の外部(逆セカンダリ変換選択部571(図54))より供給される64点逆HyGTの行列IRを行列分解して得られる2番目の操作に対応する直交行列T5
Tと、回転操作部574-1から供給される1×64行ベクトルX1の転置行列との行列積X2(1×64の行ベクトル)を求める。回転操作部574-2は、その行列積X2を回転操作部574-3に供給する。
X2
T=T5
T・X1
T=P5
T・F5
T・P5・X1
T
・・・(76)
回転操作部574-3は、以下の式(77)に示されるように、64点逆HyGT部573の外部(逆セカンダリ変換選択部571(図54))より供給される64点逆HyGTの行列IRを行列分解して得られる3番目の操作に対応する直交行列T4
Tと、回転操作部574-2から供給される1×64行ベクトルX2の転置行列との行列積X3(1×64の行ベクトル)を求める。回転操作部574-3は、その行列積X3を回転操作部574-4に供給する。
X3
T=T4
T・X3
T=P4
T・F4
T・P4・X3
T
・・・(77)
回転操作部574-4は、以下の式(78)に示されるように、64点逆HyGT部573の外部(逆セカンダリ変換選択部571(図54))より供給される64点逆HyGTの行列IRを行列分解して得られる4番目の操作に対応する直交行列T3
Tと、回転操作部574-3から供給される1×64行ベクトルX3の転置行列との行列積X4(1×64の行ベクトル)を求める。回転操作部574-4は、その行列積X4を回転操作部574-5に供給する。
X4
T=T3
T・X3
T=P3
T・F3
T・P3・X4
T
・・・(78)
回転操作部574-5は、以下の式(79)に示されるように、64点逆HyGT部573の外部(逆セカンダリ変換選択部571(図54))より供給される64点逆HyGTの行列IRを行列分解して得られる5番目の操作に対応する直交行列T2
Tと、回転操作部574-4から供給される1×64行ベクトルX4の転置行列との行列積X5(1×64の行ベクトル)を求める。回転操作部574-5は、その行列積X5を回転操作部574-6に供給する。
X5
T=T2
T・X4
T=P5
T・F5
T・P5・X4
T
・・・(79)
回転操作部574-6は、以下の式(80)に示されるように、64点逆HyGT部573の外部(逆セカンダリ変換選択部571(図54))より供給される64点逆HyGTの行列IRを行列分解して得られる6番目の操作に対応する直交行列T1
Tと、回転操作部574-5から供給される1×64行ベクトルX5の転置行列との行列積X6(1×16の行ベクトル)を求める。回転操作部574-6は、その行列積X6(=Y1d)を64点逆HyGT部573の外部(スケーリング部243(図54))に供給する。
X6
T=T1
T・X5
T=P1
T・F1
T・P1・X5
T
・・・(80)
以上のように、6個の回転操作部574は、互いに同様の変換処理を行う。つまり、64点逆HyGT部573は、64点逆HyGTの行列IRを行列分解して行列演算を行い、行ベクトルX1dを行ベクトルY1dに変換するので、64点逆HyGTによる変換の演算量(乗算・加算)を低減することができる。また、64点逆HyGTの変換として保持する係数の数を低減させることができ、64点逆HyGTの行列IRを保持するのに必要なメモリサイズを低減させることができる。
<逆変換処理の流れ>
次に、図13のステップS203において実行される逆変換処理の流れの例を、図56のフローチャートを参照して説明する。
この場合も逆変換処理は、図32のフローチャートを参照して説明した場合と基本的に同様の流れで行われる。つまり、逆変換処理が開始されると、ステップS581乃至ステップS589の各処理は、図32のステップS441乃至ステップS449の各処理と基本的に同様に実行される。
なお、ステップS582の処理において、逆セカンダリ変換の行列IRは、セカンダリ変換識別子st_idxと、変換ブロックの縦サイズTBHSizeおよび横サイズTBWSizeで導出されるサブグループのサイズNによって選択される。また、ステップS583の処理において、ステップS443におけるサブブロックを、サブグループと読み替えて実行される。さらに、ステップS584の処理において、ステップS444における1×16次元のベクトルX1dを、1×N次元のベクトルX1d(N=16,64)に読み替えて実行される。また、ステップS585の処理において、行列演算は、逆セカンダリ変換の行列IRを上述したように行列分解して行われる。さらに、ステップS588の処理において、ステップS448におけるサブブロックをサブグループと読み替えて実行される。
なお、逆変換処理は、実施可能な範囲で、各ステップの処理順の入れ替えや、処理の内容を変更してよい。例えば、ステップS581においてセカンダリ変換識別子st_idx=0であると判定された場合、サブグループのサイズNに対応するN×Nの単位行列が逆セカンダリ変換IRとして選択され、ステップS582乃至ステップS589の各処理が実行されるようにしてもよい。
以上のように各処理を実行することにより、逆セカンダリ変換の演算量(乗算・加算)を低減することができ、逆セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。
<行列演算処理の流れ>
次に、図57のフローチャートを参照して、図56のステップS585において実行される64点逆HyGTの行列演算処理の流れの例を説明する。
64点逆HyGTの行列演算処理が開始されると、ステップS601において、回転操作部574-1は、直交行列T6
T(=P6
T・F6
T・P6)と行ベクトルX0との行列積X1を求める。
ステップS602において、回転操作部574-2は、直交行列T5
T(=P5
T・F5
T・P5)と行列積X1との行列積X2を求める。
ステップS603において、回転操作部574-3は、直交行列T4
T(=P4
T・F4
T・P4)と行列積X2との行列積X3を求める。
ステップS604において、回転操作部574-4は、直交行列T3
T(=P3
T・F3
T・P3)と行列積X3との行列積X4を求める。
ステップS605において、回転操作部574-5は、直交行列T2
T(=P2
T・F2
T・P2)と行列積X4との行列積X5を求める。
ステップS606において、回転操作部574-6は、直交行列T1
T(=P1
T・F1
T・P1=F1
T)と行列積X5との行列積X6(=Y1d)を求める。ステップS606の処理が終了すると、処理は図56に戻る。
以上のように各処理を実行することにより、64点逆HyGTによる変換の演算量(乗算・加算)を低減することができる。そして、以上のように各処理を実行することにより、逆セカンダリ変換の演算量(乗算・加算)を低減することができ、逆セカンダリ変換の行列を保持するのに必要なメモリサイズを低減させることができる。
<8.第8の実施の形態>
<セカンダリ変換の実行>
セカンダリ変換は、図58に示されるように、4×4サブブロック単位またはサブグループ(8×8サブブロック)単位で実行される。図58のAは変換ブロックが正方形の場合の例を示し、図58のBは変換ブロックが長方形(TBHSize < TBWSize)の場合の例を示し、図58のCは変換ブロックが長方形(TBHSize > TBWSize)の場合の例を示している。図58において、実線の四角がサブグループ(8×8サブブロック)を示し、点線で区切られた領域が4×4サブブロックを示している。そして斜線模様で示される領域がセカンダリ変換が行われる領域を示している。
セカンダリ変換は、図58の例のように、変換ブロック全体について行うこともできるが、図59の例のように、低周波成分に対してのみ行うこともできる。図58の場合と同様に、図59のAは変換ブロックが正方形の場合の例を示し、図59のBは変換ブロックが長方形(TBHSize < TBWSize)の場合の例を示し、図59のCは変換ブロックが長方形(TBHSize > TBWSize)の場合の例を示している。図59において、実線の四角がサブグループ(8×8サブブロック)を示し、点線で区切られた領域が4×4サブブロックを示している。そして斜線模様で示される領域がセカンダリ変換が行われる領域を示している。
従来、低周波成分に対してのみ行う場合、セカンダリ変換は、図59に示されるように、変換ブロックの左上の、縦2つ×横2つの4つの4×4サブブロックに対して行われていた(図59の斜線部分)。これは、変換ブロックが正方形の場合(図59のA)も、長方形(TBHSize < TBWSize)の場合(図59のB)も、長方形(TBHSize > TBWSize)の場合(図59のC)も同様である。
しかしながら、この場合のセカンダリ変換を行う領域(斜線部分)は、復号処理順と一致していないので、この領域内の全てのサブブロックが復号されるまでセカンダリ変換を行うことができなかった。つまり、不要な待機時間が生じ、その分、処理時間が増大するおそれがあった。
そこで、低周波成分に対してのみセカンダリ変換を行う際に、そのセカンダリ変換を行うサブブロックをスキャン順に応じて設定するようにしてもよい。例えば、図59に示されるように4つの4×4サブブロックに対してセカンダリ変換を行う場合、scanIdxで示されるスキャン順に従って最初に復号される4つの4×4サブブロックに対してセカンダリ変換を行うようにしてもよい。
例えば、scanIdxで示されるスキャン順が図60のような斜め方向の場合、セカンダリ変換を、変換ブロックの左上端の4×4サブブロック、上から2段目の左端の4×4サブブロック、最上段の左から2番目の4×4サブブロック、上から3段目の左端の4×4サブブロックに対して、この順に行うようにしてもよい。図58の場合と同様に、図60のAは変換ブロックが正方形の場合の例を示し、図60のBは変換ブロックが長方形(TBHSize < TBWSize)の場合の例を示し、図60のCは変換ブロックが長方形(TBHSize > TBWSize)の場合の例を示している。図60において、実線の四角がサブグループ(8×8サブブロック)を示し、点線で区切られた領域が4×4サブブロックを示している。また、矢印は、scanIdxで指定されるスキャン順を示している。そして斜線模様で示される領域がセカンダリ変換が行われる領域を示している。図60のAの場合も、図60のBの場合も、図60のCの場合も、セカンダリ変換は、上述の4つの4×4サブブロック(変換ブロック内で最初に復号される4つの4×4サブブロック)に対して行われる。
例えば、scanIdxで示されるスキャン順が図61のような水平方向の場合、セカンダリ変換を、変換ブロックの左上端の4×4サブブロック、最上段の左から2番目の4×4サブブロック、最上段の左から3番目の4×4サブブロック、最上段の左から4番目の4×4サブブロックに対して、この順に行うようにしてもよい。図58の場合と同様に、図61のAは変換ブロックが正方形の場合の例を示し、図61のBは変換ブロックが長方形(TBHSize < TBWSize)の場合の例を示し、図61のCは変換ブロックが長方形(TBHSize > TBWSize)の場合の例を示している。図61において、実線の四角がサブグループ(8×8サブブロック)を示し、点線で区切られた領域が4×4サブブロックを示している。また、矢印は、scanIdxで指定されるスキャン順を示している。そして斜線模様で示される領域がセカンダリ変換が行われる領域を示している。図61のAの場合も、図61のBの場合も、図61のCの場合も、セカンダリ変換は、上述の4つの4×4サブブロック(変換ブロック内で最初に復号される4つの4×4サブブロック)に対して行われる。
例えば、scanIdxで示されるスキャン順が図62のような垂直方向の場合、セカンダリ変換を、変換ブロックの左上端の4×4サブブロック、上から2段目の左端の4×4サブブロック、上から3段目の左端の4×4サブブロック、上から4段目の左端の4×4サブブロックに対して、この順に行うようにしてもよい。図58の場合と同様に、図62のAは変換ブロックが正方形の場合の例を示し、図62のBは変換ブロックが長方形(TBHSize < TBWSize)の場合の例を示し、図62のCは変換ブロックが長方形(TBHSize > TBWSize)の場合の例を示している。図62において、実線の四角がサブグループ(8×8サブブロック)を示し、点線で区切られた領域が4×4サブブロックを示している。また、矢印は、scanIdxで指定されるスキャン順を示している。そして斜線模様で示される領域がセカンダリ変換が行われる領域を示している。図62のAの場合も、図62のBの場合も、図62のCの場合も、セカンダリ変換は、上述の4つの4×4サブブロック(変換ブロック内で最初に復号される4つの4×4サブブロック)に対して行われる。
図60乃至図62の例のようにスキャン順に応じた4×4サブブロックをセカンダリ変換することにより、復号された4×4サブブロックを順次セカンダリ変換することができ、処理時間の増大を抑制することができる。なお、このような処理順は、任意の方法のセカンダリ変換に適用することができる。例えば、従来のように非セパラブルなHyGTを用いたセカンダリ変換にも、上述したようなセパラブルなHyGTを用いたセカンダリ変換にも適用することができる。
<9.第9の実施の形態>
<SDT>
非特許文献1には、プライマリ変換(既存のDCT(Discrete Cosine Transform)やDST(Discrete Sine Transform)などによる直交変換)を行った後に、さらに、エネルギーコンパクションを高める(低域に変換係数を集中させる)ために、4×4サブブロック単位で、16点KLT(Karhunen-Loeve transform)ベースの非セパラブルなセカンダリ変換を適用することが開示されている。また、非特許文献1には、注目する符号化対象ブロックの周辺の局所復号画像と類似する複数のパッチを、現フレームの復号済画素領域を探索して見つけ、そのパッチ群からKLTベースの直交変換を導出し、そのKLTベースの直交変換を符号化対象ブロックに対して適用するSDT(Signal Dependent Transform)という符号化モードが開示されている。
非特許文献2には、16点HyGTベースの非セパラブルなセカンダリ変換を適用することが開示されている。非特許文献3には、非特許文献2に記載の4×4サブブロック単位で行う16点HyGTベースの非セパラブルなセカンダリ変換に加えて、8×8サブブロック単位で行う64点HyGTベースの非セパラブルなセカンダリ変換を適用することが開示されている。
しかしながら、非特許文献3に記載の64点HyGTベースのセカンダリ変換は、非分解(非セパラブル)であるため、演算量が多かった。また、イントラ予測モードのクラス数と各クラスに対応するセカンダリ変換の数だけ、セカンダリ変換の行列を有しており、セカンダリ変換の行列を保持するメモリサイズが巨大であった。非特許文献3では、イントラ予測モードのクラス数=35であり、変換ブロックのサイズ数=2であり、各クラスに対するセカンダリ変換の数=5であり、35*5=175の行列が各変換ブロックサイズ毎に存在する。例えば、各行列の要素を9bit精度で保持する場合、全16点HyGTベースのセカンダリ変換の行列を保持に要するメモリサイズと全64点HyGTベースのセカンダリ変換の行列を保持に要するメモリサイズはそれぞれ以下の式(81)および式(82)のようになる。
全16点HyGTベースのセカンダリ変換の行列を保持に要するメモリサイズ
= 9bit * 16*16 * 175 = 403200 bits = 50400 bytes = 49.21875KB
・・・(81)
全64点HyGTベースのセカンダリ変換の行列を保持に要するメモリサイズ
= 9bit * 64*64 * 175 = 6451200 bits = 806400 bytes = 787.5KB
・・・(82)
つまり合計836.71875KBの容量が必要であった。
また、KLTベースで直交変換を求める場合、非常に演算複雑度が高く、処理の負荷が増大するおそれがった。そのため、回路規模やコストが増大するおそれがった。例えば、N点のKLTを求める際、行列分解(Matrix Decomposition)を解くのに必要な演算複雑度のオーダーはO(N^3)である。例えば、N=16とすると、O(16**3)=O(4096)となる。
そこで、2**N点HyGTベースの直交変換をN個の直交行列とN-1個の置換行列とに分解するセパラブルなHyGTベースの直交変換を、KLTベースのセカンダリ変換/逆セカンダリ変換(64点)およびSDTにおける直交変換/逆直交変換(2**N点)として適用する。このようにすることにより、行列分解した各直交変換の疎行列の性質、及び係数の対称性を利用し、直交変換としての演算量を低減することができるので、KLTベースの直交変換と比較して、直交変換/逆直交変換に必要な演算量(乗算、加算)を低減させることができる。
また、2**N点HyGTの変換基底の導出は、2点HyGTへの問題を細分化することができ、行列分解の演算複雑度を低減させることができる。したがって、KLTの変換基底導出方法に比べて大幅に演算量を低減させることができる。例えば、16点HyGTベースの直交変換の場合、行列分解に必要な演算複雑度のオーダーはO(2**3) * 8* 4 = O (8) * 32 = O(256)となる。したがって、16点KLTベースの直交変換の場合の行列分解にかかる演算複雑度O(4096)と比較して、同等のエナジーコンパクションを維持しつつ、適応直交変換の変換基底を導出するのに必要な演算複雑度をO(256)に抑えることができる。
一般的に、2**N点のKLTベースの直交変換の導出には、O((2**N)**3)の演算複雑度が必要であるのに対して、2**N点のHyGTベースの直交変換の導出には、O(2**3)*(2**N/2)*N = O(4*N*2**N)となり、劇的に演算量を低減させることができる。
<シンタックス>
まず、シンタックスにおいてSDTを選択することができるようにする。例えば、シーケンスパラメータセット(sequence parameter set)において、図63に示される斜線模様の行のように、SDT用に、sdt_enabled_flagをセットすることができるようにする。sdt_enabled_flagは、SDTを選択可能であるか否かを示すフラグである。sdt_enabled_flagが真(例えば「1」)の場合、そのシーケンス内において、SDTの選択が可能である。また、sdt_enabled_flagが偽(例えば「0」)の場合、SDTを選択することができない。
そして、Residual Codingにおいて、図64に示される斜線模様の行のように、そのsdt_enabled_flagの値に応じて、SDTAvailableFlagをセットすることができるようにする。また、そのSDTAvailableFlagの値に応じてsdt_flagをセットすることができるようにする。
SDTAvailableFlagは、sdt_flagを復号するか否かを示すフラグである。SDTAvailableFlagが真(例えば「1」)の場合、sdt_flagの復号が行われる。つまり、この場合、sdt_flagが存在する(セットされている)。また、SDTAvailableFlagが偽(例えば「0」)の場合、sdt_flagの復号が省略される。つまり、その場合、sdt_flagは存在しない(セットされていない)。例えば、図64の場合、sdt_enabled_flagが真であるとき、SDTAvailableFlagがセットされる。その際、SDTAvailableFlagは、インター予測であり、輝度信号であり、ブロックが所定の上限サイズより小さな正方形であり、変換(逆変換)をスキップするか否かを示すtransform_skip_flagが偽であり、かつ、変換(逆変換)および量子化(逆量子化)をスキップするか否かを示すcu_transquant_bypass_flagが偽である場合、真(例えば「1」)にセットされ、それ以外の場合、偽(例えば「0」)にセットされる。
sdt_flagは、セカンダリ変換としてSDTを選択するか否かを示すフラグである。sdt_flagが真(例えば「1」)の場合、SDTが選択される。逆に、sdt_flagが偽(例えば「0」)の場合、SDTが選択されない。例えば、図64の場合、SDTAvailableFlagが真のとき、sdt_flagがセットされる。
なお、SDTは、イントラ予測においても選択することができるようにしてもよい。例えば、シーケンスパラメータセット(sequence parameter set)において、図65に示される斜線模様の行のように、SDT用に、intra_sdt_enabled_flagとinter_sdt_enabled_flagとをセットすることができるようにする。intra_sdt_enabled_flagは、イントラ予測の際にSDTを選択可能であるか否かを示すフラグである。intra_sdt_enabled_flagが真(例えば「1」)の場合、そのシーケンス内のイントラ予測が行われるブロックにおいてSDTの選択が可能である。また、intra_sdt_enabled_flagが偽(例えば「0」)の場合、そのシーケンス内のイントラ予測が行われるブロックにおいてSDTを選択することができない。
また、inter_sdt_enabled_flagは、インター予測の際にSDTを選択可能であるか否かを示すフラグである。inter_sdt_enabled_flagが真(例えば「1」)の場合、そのシーケンス内のインター予測が行われるブロックにおいてSDTの選択が可能である。また、inter_sdt_enabled_flagが偽(例えば「0」)の場合、そのシーケンス内のインター予測が行われるブロックにおいてSDTを選択することができない。
そして、この場合、Residual Codingにおいて、図66に示される斜線模様の行のように、intra_sdt_enabled_flagやinter_sdt_enabled_flagの値に応じて、SDTAvailableFlagをセットすることができるようにする。また、そのSDTAvailableFlagの値に応じてsdt_flagをセットすることができるようにする。
例えば、図66の場合、intra_sdt_enabled_flagまたはinter_sdt_enabled_flagが真であるとき、SDTAvailableFlagがセットされる。例えば、輝度信号であり、ブロックが所定の上限サイズより小さく所定の下限サイズより大きな正方形であり、transform_skip_flagおよびcu_transquant_bypass_flagが偽であり、かつ、イントラ予測が行われ、intra_sdt_enabled_flagが真でinter_sdt_enabled_flagが偽であるか、または、インター予測が行われ、intra_sdt_enabled_flagが偽でinter_sdt_enabled_flagが真である場合、SDTAvalableFlagは真(例えば「1」)にセットされ、それ以外の場合、SDTAvalableFlagは偽(例えば「0」)にセットされる。
そして、例えば、図66の場合、SDTAvalableFlagが真のとき、sdt_flagがセットされる。
<変換部>
この場合も画像符号化装置100は、第3の実施の形態の場合と基本的に同様の構成を有することができる。すなわち、画像符号化装置100は、例えば図7に示されるような構成を有する。ただし、この場合、変換部112は、例えば図67に示されるような構成を有する。つまり、この場合、変換部112は、図67に示されるように、スイッチ601、スイッチ602、プライマリ変換部131、セカンダリ変換部132、およびSDT部603を有する。
スイッチ601は、プライマリ変換およびセカンダリ変換の実行を制御する制御部の一実施の形態である。例えば、スイッチ601は、プライマリ変換をスキップさせる場合、セカンダリ変換もスキップさせるように制御する。例えば、スイッチ601は、変換情報Tinfoに含まれるプライマリ変換のスキップに関する変換スキップフラグts_flagの値や、変換情報Tinfoに含まれる変換量子化バイパスフラグtransquant_bypass_flagの値に応じて、演算部111から供給される予測残差Dの供給先を制御する。
例えば、変換スキップフラグts_flagの値が1、または、変換量子化バイパスフラグtransquant_bypass_flagの値が1である場合、スイッチ601は、プライマリ変換およびセカンダリ変換をスキップさせる。つまり、この場合、スイッチ601は、予測残差Dを変換係数Coeffとして量子化部113に供給する。
また、変換スキップフラグts_flagの値が0であり、かつ、変換量子化バイパスフラグtransquant_bypass_flagの値が0である場合、スイッチ601は、予測残差Dをスイッチ602に供給する。
スイッチ602は、SDTの選択(実行)を制御する制御部の一実施の形態である。例えば、スイッチ602は、sdt_flagの値に応じて、スイッチ601から供給される予測残差Dの供給先を制御する。例えば、sdt_flagの値が1である場合、スイッチ602は、SDTを選択する。つまり、この場合、スイッチ602は、予測残差DをSDT部603に供給する。また、スイッチ602は、sdt_flagの値が0である場合、SDTを選択せずに、予測残差Dをプライマリ変換部131に供給する。
SDT部603は、予測画像P、局所復号画像curPic、参照画像refPic等に基づいて、スイッチ602から供給される予測残差Dに対するSDTに関する処理を行う。SDT部603は、SDTを行って得られた変換係数Coeffを量子化部113に供給する。なお、予測残差Dは、2K×2Lのブロックサイズであり、要素数は、2N(=2(K+L),N=K+L)であるとする。K, Lはともにに1以上の整数とする。
<SDT部>
図68にSDT部603の主な構成例を示す。図68に示されるように、SDT部603は、例えば、学習サンプル導出部611、2N点HyGT導出部612、ラスタライズ部613、2N点HyGT部614、スケーリング部615、および行列化部616を有する。
学習サンプル導出部611は、予測画像P、局所復号画像curPic、および参照画像refPic[n]を用いて、学習サンプルXtrainを導出する。学習サンプルの導出の詳細については後述する。学習サンプル導出部611は、導出した学習サンプルXtrainを2N点HyGT導出部612に供給する。
2N点HyGT導出部612は、学習サンプル導出部611から供給される学習サンプルXtrainを用いて2N点HyGTの行列Rを導出する。2N点HyGT導出部612は、導出した2N点HyGTの行列Rを2N点HyGT部614に供給する。
ラスタライズ部613は、ラスタライズ部141と基本的に同様の処理を行う。すなわち、ラスタライズ部613は、スイッチ602から供給される予測残差Dを1×2N次元のベクトルX1dへ変換する。ラスタライズ部613は、得られたベクトルX1dを2N点HyGT部614に供給する。
2N点HyGT部614は、行列演算部421と基本的に同様の処理を行う。すなわち、2N点HyGT部614は、2N点HyGT導出部612から供給される2N点HyGTの行列Rと、ラスタライズ部613から供給されるベクトルX1dとの行列積Y1dを導出する。2N点HyGT部614は、導出した行列積Y1dをスケーリング部615に供給する。
スケーリング部615は、スケーリング部143と基本的に同様の処理を行う。すなわち、スケーリング部615は、2N点HyGT部614から供給される信号Y1dのノルムを正規化し、正規化後の信号Z1dを求める。スケーリング部615は、得られた信号Z1dを行列化部616に供給する。
行列化部616は、行列化部144と基本的に同様の処理を行う。すなわち、行列化部616は、スキャン識別子scanIdxによって指定されるスキャン方法に基づいて、ノルム正規化後の1×2N次元のベクトルZ1dを、予測残差Dと同一のブロックサイズである2K×2Lのブロック(2K×2L行列)へ変換する。行列化部616は、得られた変換係数Coeffを変換部112の外部(量子化部113)に供給する。
<学習サンプルの導出>
2N点HyGT導出部612は、処理対象であるカレントブロックと似た周辺の画像を用いて行列Rを導出する。より具体的には、学習サンプル導出部611が、処理対象であるカレントブロックと似た周辺の画像を用いて学習サンプルXtrainを導出し、2N点HyGT導出部612は、その学習サンプルXtrainを用いて行列Rを導出する。
上述のように、学習サンプル導出部611は、予測画像P、局所復号画像curPic、および参照画像refPic[n]を用いて、学習サンプルXtrainを導出する。図68に示されるように、学習サンプル導出部611は、テンプレートマッチング部621および残差導出部622を有する。
テンプレートマッチング部621は、テンプレートのマッチングに関する処理を行い、予測画像P、局所復号画像curPic、および参照画像refPic[n]を用いて、パッチ群BListを導出する。テンプレートマッチング部621は、導出したパッチ群BListを残差導出部622に供給する。
残差導出部622は、予測画像Pと、テンプレートマッチング部621から供給されたパッチ群BListを用いて残差Diを導出し、学習サンプルXtrainを導出する。残差導出部622は、導出した学習サンプルXtrainを2N点HyGT導出部612に供給する。
<テンプレートマッチング>
次に、この学習サンプルの導出におけるテンプレートマッチングについて説明する。テンプレートマッチング部621は、カレントブロックに似た周辺画像の検索を行う。カレントブロックに似た周辺画像は、図69に示されるように、処理対象のカレントフレーム(Current coding frame)以外の参照フレーム(Reference frame n(nは任意の自然数))の中から検索される。この検索の対象とする参照フレームの数は任意であり、図69に示されるように複数であってもよい。
例えば、図70において、カレントピクチャcurPicのBcurがカレントブロックである。このカレントブロックBcurの縦サイズをHTBとし、横サイズをWTBとする。また、カレントピクチャcurPicのPは、カレントブロックBcurに対応する予測画像である。また、カレントピクチャcurPicのLcurは、このカレントブロックBcurに隣接する局所復号画素群からなるL字のパッチである。このパッチLcurの幅をWLとする。カレントピクチャcurPicのTMcurは、カレントブロックBcurとパッチLcurとからなるカレントテンプレートである。このように、変換ブロックとパッチとにより構成される領域をテンプレートTMと称する。
ここで類似画像の検索は、このテンプレートTMと称する変換ブロックよりも大きな所定の大きさの領域を単位として行う。テンプレートTMのサイズは、縦が(HTB+WL)であり、横が(WTB+WL)である。
テンプレートマッチング部621は、予測画像Pと局所復号画像curPicを用いてカレントテンプレートTMcurを設定し、各参照画像refPic[n]にブロックBjやそのブロックBjを含むテンプレートTMjを設定する。そして、テンプレートマッチング部621は、カレントテンプレートTMcurと周辺の各テンプレートTMjとの間で差分(誤差Ej)を導出し、その誤差Ejが所定の閾値(ThE)より小さいテンプレートTMjを検索する。そして、テンプレートマッチング部621は、検出した誤差Ejが小さいテンプレートTMjのブロックBjをパッチ群リストBListに含める(追加する)。
このようにして、テンプレートマッチング部621は、パッチ群リストBList(BList = {B1,B2,・・・,BM}(Mはパッチの数))を導出し、それを残差導出部622に供給する。
<残差の導出>
次に、学習サンプルの導出における残差の導出について説明する。残差導出部622は、テンプレートマッチング部621から供給されるパッチ群リストBList(BList = {B1,B2,・・・,BM})の要素であるパッチBiと予測画像Pとの差分(Bi-P)を導出する。このパッチBiと予測画像Pとの差分(Bi-P)を残差Diと称する。残差導出部622は、各パッチBiについて、この残差Diを導出し、導出したM個の残差Diを学習サンプルXtrainとする。
残差導出部622は、以上のように導出した学習サンプルXtrain(Xtrain = {D1,D2,・・・,DM})を2N点HyGT導出部612に供給する。
以上のように、SDTにおける行列演算に本技術を適用したセパラブルな2N点HyGTを適用することにより、各実施の形態において説明したように、直交変換に必要な演算量を低減させることができる。また、直交変換の際に保持する係数の数を低減させることができ、直交変換の行列を保持するのに必要なメモリサイズを低減させることができる。
また、以上のように、2N点HyGTを用いて2N点HyGTの行列Rを導出することにより、演算複雑度の増大を抑制することができ、演算量を低減させることができる。
<変換処理の流れ>
次に、図9のステップS104において実行されるこの場合の変換処理の流れの例を、図71のフローチャートを参照して説明する。
この場合、スイッチ601は、ステップS621において、変換スキップフラグts_flagが1であるか、または、変換量子化バイパスフラグtransquant_bypass_flagの値が1であるか否かを判定する。変換スキップフラグts_flagと変換量子化バイパスフラグtransquant_bypass_flagの内、少なくとも一方の値が1であると判定された場合、変換処理が終了し、処理は図9に戻る。また、ステップS621において、変換スキップフラグts_flagと変換量子化バイパスフラグtransquant_bypass_flagの両方とも値が0であると判定された場合、処理はステップS622に進む。
ステップS622において、スイッチ602は、sdt_flagの値が1であるか否かを判定する。sdt_flagの値が0であると判定された場合、処理はステップS623に進む。ステップS623において、プライマリ変換部131はプライマリ変換を行い、セカンダリ変換部132は、セカンダリ変換を行う。ステップS623の処理が終了すると、変換処理が終了し、処理は図9に戻る。
また、ステップS622において、sdt_flagの値が1であると判定された場合、処理はステップS624に進む。ステップS624において、SDT部603は、SDT処理を実行する。ステップS624の処理が終了すると、変換処理が終了し、処理は図9に戻る。
<SDT処理の流れ>
次に、図71のステップS624において実行されるSDT処理の流れの例を、図72のフローチャートを参照して説明する。
SDT処理が開始されると、SDT部603の学習サンプル導出部611は、ステップS631において、学習サンプルXtrainの導出を行う。ステップS632において、2N点HyGT導出部612は、変換行列Rの導出を行う。これらの処理の詳細については後述する。
ステップS633において、ラスタライズ部613乃至行列化部616は、ステップS632において導出された変換行列R(2N点HyGTの行列R)による直交変換を行う。この処理は、各実施の形態において上述した処理(例えば図52のステップS543乃至ステップS549等)と同様であるので、その説明を省略する。
ステップS633の処理が終了すると、SDT処理が終了し、処理は図71に戻る。
<学習サンプル導出処理>
次に、図72のステップS631において実行される学習サンプル導出処理の流れの例を、図73および図74のフローチャートを参照して説明する。
学習サンプル導出処理が開始されると、テンプレートマッチング部621は、ステップS641において、テンプレートTMcurを設定する。ステップS642において、テンプレートマッチング部621は、未処理の参照画像を選択する。ステップS643において、テンプレートマッチング部621は、ステップS642において選択した参照画像refPic[n]を読み込む。ステップS644において、テンプレートマッチング部621は、カレントブロックに類似したブロックを探索する探索範囲Sh×Swを設定する。
ステップS645において、テンプレートマッチング部621は、検出したパッチ数Mがパッチ数の最大値maxPatchNumより少ないか否かを判定する。パッチ数MがmaxPatchNumより少ないと判定された場合、処理はステップS646に進む。
ステップS646において、テンプレートマッチング部621は、参照画像refPic[n]上のブロックBjおよびテンプレートTMjを設定する。ステップS646の処理が終了すると処理は図74のステップS651に進む。
図74のステップS651において、テンプレートマッチング部621は、誤差Ej(Ej = |TMj-TMcur|)を求める。ステップS652において、テンプレートマッチング部621は、ステップS651において求めた誤差Ejが所定の閾値ThEより小さいか否かを判定する。小さいと判定された場合、処理はステップS653に進む。
ステップS653において、テンプレートマッチング部621は、テンプレートTjに対応するブロックBjをパッチ群BListに追加する。ステップS653の処理が終了すると、処理はステップS654に進む。また、ステップS652において、誤差Ejが所定の閾値ThE以上であると判定された場合、ステップS653の処理が省略され、処理はステップS654に進む。
ステップS654において、テンプレートマッチング部621は、参照画像refPic[n]上の全てのブロックBjおよびテンプレートTMjを処理したか否かを判定する。未処理のテンプレートTMjが存在すると判定された場合、処理は図73のステップS645に戻り、それ以降の処理が繰り返される。つまり、参照画像refPic[n]上の全てのブロックBjおよびテンプレートTMjに対してステップS645乃至ステップS654の処理が実行される。そして、ステップS654において全て処理したと判定された場合、処理はステップS655に進む。
ステップS655において、テンプレートマッチング部621は、全ての参照画像について処理したか否かを判定する。未処理の参照画像が存在すると判定された場合、処理は図73のステップS642に戻り、それ以降の処理が繰り返される。つまり、各参照画像の全てのブロックBjおよびテンプレートTMjに対してステップS642乃至ステップS655の処理が実行される。そして、ステップS655において全て処理したと判定された場合、処理はステップS656に進む。
ステップS656において、残差導出部622は、以上の処理により導出されたパッチ群BList内の各ブロックBiと予測画像Pとの差分である残差Diを導出し、学習サンプルXtrain = {D0,・・・,DM}を生成する。ステップS656の処理が終了すると、学習サンプル導出処理が終了し、処理は図72に戻る。
<変換行列R導出処理の流れ>
次に、図72のステップS632において実行される変換行列R導出処理の流れの例を、図75のフローチャートを参照して説明する。
変換行列導出処理が開始されると、2N点HyGT導出部612は、ステップS661において、全段について差分Diを用いて学習サンプルXsを設定する。ステップS662において、2N点HyGT導出部612は、変数sを初期化する。
ステップS663において、2N点HyGT導出部612は、変数sをインクリメント(+1)する。ステップS664において、2N点HyGT導出部612は、行列積Ps・Xsを用いて学習サンプルXsを再定義する。ステップS665において、2N点HyGT導出部612は、s段目の更新された学習サンプルXsを2N-1個のM×2行列Us,k(k = 1,・・・,2N-1)へ分割する。
ステップS666において、2N点HyGT導出部612は、回転行列Gs,kを導出し、直交行列Fsを求める。ステップS667において、2N点HyGT導出部612は、行列積Fx・Xsを用いて学習サンプルXsを更新する。ステップS668において、2N点HyGT導出部612は、行列積Ps
T・Xsを用いて学習サンプルXs+1を求める。
ステップS669において、2N点HyGT導出部612は、N段処理したか否かを判定する。N段処理していないと判定された場合、処理はステップS663に戻り、それ以降の処理を繰り返す。ステップS663乃至ステップS669の各処理を、各段について行い、ステップS669において、N段処理されたと判定された場合、変換行列Rが導出されたので、変換行列R導出処理が終了し、処理を図72に戻す。
以上のように各処理を実行することにより、SDTの演算量(乗算・加算)を低減することができ、SDTの直交変換の行列を保持するのに必要なメモリサイズを低減させることができる。
<逆変換部>
次に以上のよな変換部112に対応する逆変換部213について説明する。この場合も画像符号化装置100に対応する画像復号装置200は、第3の実施の形態の場合と基本的に同様の構成を有することができる。すなわち、画像復号装置200は、例えば図11に示されるような構成を有する。ただし、この場合、逆変換部213は、例えば図76に示されるような構成を有する。つまり、この場合、逆変換部213は、図76に示されるように、スイッチ651、スイッチ652、逆セカンダリ変換部231、逆プライマリ変換部232、および逆SDT部653を有する。
スイッチ651は、逆セカンダリ変換および逆プライマリ変換の実行を制御する制御部の一実施の形態である。例えば、スイッチ651は、逆セカンダリ変換をスキップさせる場合、逆プライマリ変換もスキップさせるように制御する。例えば、スイッチ651は、変換情報Tinfoに含まれるプライマリ変換のスキップに関する変換スキップフラグts_flagの値や、変換情報Tinfoに含まれる変換量子化バイパスフラグtransquant_bypass_flagの値に応じて、逆量子化部212から供給される変換係数Coeff_IQの供給先を制御する。
例えば、変換スキップフラグts_flagの値が1、または、変換量子化バイパスフラグtransquant_bypass_flagの値が1である場合、スイッチ651は、逆セカンダリ変換および逆プライマリ変換をスキップさせる。つまり、この場合、スイッチ651は、変換係数Coeff_IQを予測残差D’として演算部214に供給する。
また、変換スキップフラグts_flagの値が0であり、かつ、変換量子化バイパスフラグtransquant_bypass_flagの値が0である場合、スイッチ651は、変換係数Coeff_IQをスイッチ652に供給する。
スイッチ652は、SDTの逆処理である逆SDTの選択(実行)を制御する制御部の一実施の形態である。例えば、スイッチ652は、sdt_flagの値に応じて、スイッチ651から供給される変換係数Coeff_IQの供給先を制御する。例えば、sdt_flagの値が1である場合、スイッチ652は、逆SDTを選択する。つまり、この場合、スイッチ652は、変換係数Coeff_IQを逆SDT部653に供給する。また、スイッチ652は、sdt_flagの値が0である場合、逆SDTを選択せずに、変換係数Coeff_IQを逆セカンダリ変換部231に供給する。
逆SDT部653は、予測画像P、局所復号画像curPic、参照画像refPic等に基づいて、スイッチ652から供給される変換係数Coeff_IQに対する逆SDTに関する処理を行う。逆SDT部653は、逆SDTを行って得られた予測残差D’を演算部214に供給する。なお、予測残差D'、2K×2Lのブロックサイズであり、要素数は、2N(=2(K+L),N=K+L)であるとする。K, Lはともにに1以上の整数とする。
<逆SDT部>
図77に逆SDT部653の主な構成例を示す。図77に示されるように、逆SDT部653は、例えば、学習サンプル導出部661、2N点逆HyGT導出部662、ラスタライズ部663、2N点逆HyGT部664、スケーリング部665、および行列化部666を有する。
学習サンプル導出部661は、学習サンプル導出部661と同様の処理を行い、予測画像P、局所復号画像curPic、および参照画像refPic[n]を用いて、学習サンプルXtrainを導出する。学習サンプル導出部661は、テンプレートマッチング部671および残差導出部672を有する。テンプレートマッチング部671は、テンプレートマッチング部621と同様の処理を行い、予測画像P、局所復号画像curPic、および参照画像refPic[n]を用いて、パッチ群BListを導出する。残差導出部672は、残差導出部622と同様の処理を行い、予測画像Pと、テンプレートマッチング部671から供給されたパッチ群BListを用いて残差Diを導出し、学習サンプルXtrainを導出する。学習サンプル導出部661(残差導出部622)は、導出した学習サンプルXtrainを2N点逆HyGT導出部662に供給する。
2N点逆HyGT導出部662は、学習サンプル導出部661から供給される学習サンプルXtrainを用いて2N点逆HyGTの行列IRを導出する。2N点逆HyGT導出部662は、導出した2N点逆HyGTの行列IRを2N点逆HyGT部664に供給する。
ラスタライズ部663は、ラスタライズ部241と基本的に同様の処理を行う。すなわち、ラスタライズ部663は、スイッチ652から供給される変換係数Coeff_IQを1×2N次元のベクトルX1dへ変換する。ラスタライズ部663は、得られたベクトルX1dを2N点逆HyGT部664に供給する。
2N点逆HyGT部664は、行列演算部451と基本的に同様の処理を行う。すなわち、2N点逆HyGT部664は、2N点逆HyGT導出部662から供給される2N点逆HyGTの行列IRと、ラスタライズ部663から供給されるベクトルX1dとの行列積Y1dを導出する。2N点逆HyGT部664は、導出した行列積Y1dをスケーリング部665に供給する。
スケーリング部665は、スケーリング部243と基本的に同様の処理を行う。すなわち、スケーリング部665は、2N点逆HyGT部664から供給される信号Y1dのノルムを正規化し、正規化後の信号Z1dを求める。スケーリング部665は、得られた信号Z1dを行列化部666に供給する。
行列化部666は、行列化部244と基本的に同様の処理を行う。すなわち、行列化部666は、スキャン識別子scanIdxによって指定されるスキャン方法に基づいて、ノルム正規化後の1×2N次元のベクトルZ1dを、予測残差D'と同一のブロックサイズである2K×2Lのブロック(2K×2L行列)へ変換する。行列化部666は、得られた予測残差D’を逆変換部213の外部(演算部214)に供給する。
以上のように、逆SDTにおける行列演算にも、SDTの場合と同様に、本技術を適用したセパラブルな2N点逆HyGTを適用することができる。これにより、各実施の形態において説明したように、逆直交変換に必要な演算量を低減させることができる。また、逆直交変換の際に保持する係数の数を低減させることができ、逆直交変換の行列を保持するのに必要なメモリサイズを低減させることができる。
また、以上のように、2N点逆HyGTを用いて2N点逆HyGTの行列IRを導出することにより、演算複雑度の増大を抑制することができ、演算量を低減させることができる。
<逆変換処理の流れ>
次に、図13のステップS203において実行される逆変換処理のこの場合の流れの例を、図78のフローチャートを参照して説明する。
この場合、スイッチ651は、ステップS681において、変換スキップフラグts_flagが1であるか、または、変換量子化バイパスフラグtransquant_bypass_flagの値が1であるか否かを判定する。変換スキップフラグts_flagと変換量子化バイパスフラグtransquant_bypass_flagの内、少なくとも一方の値が1であると判定された場合、逆変換処理が終了し、処理は図13に戻る。また、ステップS681において、変換スキップフラグts_flagと変換量子化バイパスフラグtransquant_bypass_flagの両方とも値が0であると判定された場合、処理はステップS682に進む。
ステップS682において、スイッチ652は、sdt_flagの値が1であるか否かを判定する。sdt_flagの値が0であると判定された場合、処理はステップS683に進む。ステップS683において、逆セカンダリ変換部231は逆セカンダリ変換を行い、逆プライマリ変換部232は、逆プライマリ変換を行う。ステップS683の処理が終了すると、逆変換処理が終了し、処理は図13に戻る。
また、ステップS682において、sdt_flagの値が1であると判定された場合、処理はステップS684に進む。ステップS684において、逆SDT部653は、逆SDT処理を実行する。ステップS684の処理が終了すると、逆変換処理が終了し、処理は図13に戻る。
<SDT処理の流れ>
次に、図78のステップS684において実行される逆SDT処理の流れの例を、図79のフローチャートを参照して説明する。
逆SDT処理が開始されると、逆SDT部653の学習サンプル導出部661は、ステップS691において、学習サンプルXtrainの導出を行う。この場合の学習サンプル導出処理は、上述したSDT処理において行われる場合(図73および図74)と同様であるので、その説明を省略する。
ステップS692において、2N点逆HyGT導出部662は、変換行列IR(= RT)の導出を行う。この処理の詳細については後述する。
ステップS693において、ラスタライズ部663乃至行列化部666は、ステップS692において導出された変換行列IR(2N点逆HyGTの行列IR)による逆直交変換を行う。この処理は、各実施の形態において上述した処理(例えば図56のステップS582乃至ステップS588等)と同様であるので、その説明を省略する。
ステップS693の処理が終了すると、逆SDT処理が終了し、処理は図78に戻る。
<変換行列IR導出処理の流れ>
次に、図79のステップS692において実行される変換行列IR導出処理の流れの例を、図80のフローチャートを参照して説明する。
変換行列IR導出処理が開始されると、2N点逆HyGT導出部662は、ステップS701において、全段について差分Diを用いて学習サンプルXsを設定する。ステップS702において、2N点逆HyGT導出部662は、変数sを初期化する。
ステップS703において、2N点逆HyGT導出部662は、変数sをインクリメント(+1)する。ステップS704において、2N点逆HyGT導出部662は、行列積Ps・Xsを用いて学習サンプルXsを再定義する。ステップS705において、2N点逆HyGT導出部662は、s段目の更新された学習サンプルXsを2N-1個のM×2行列Us,k(k = 1,・・・,2N-1)へ分割する。
ステップS706において、2N点逆HyGT導出部662は、回転行列Gs,kを導出し、直交行列Fsを求める。ステップS707において、2N点逆HyGT導出部662は、行列積Fs・Xsを用いて学習サンプルXsを更新する。ステップS708において、2N点逆HyGT導出部662は、行列積Ps
T・Xsを用いて学習サンプルXs+1を求める。
ステップS709において、2N点逆HyGT導出部662は、N段処理したか否かを判定する。N段処理していないと判定された場合、処理はステップS703に戻り、それ以降の処理を繰り返す。ステップS703乃至ステップS709の各処理を、各段について行い、ステップS709において、N段処理されたと判定された場合、処理はステップS710に進む。ステップS710において、2N点逆HyGT導出部662は、ステップS709までの処理により得られた変換行列Rの転置行列RT(= IR)を求める。このようにして変換行列IRが得られると変換行列IR導出処理が終了し、処理を図79に戻す。
以上のように各処理を実行することにより、逆SDTの演算量(乗算・加算)を低減することができ、逆SDTの逆直交変換の行列を保持するのに必要なメモリサイズを低減させることができる。
<画像符号化装置の逆変換部>
以上においては、各実施の形態において画像復号装置200の逆変換部213について説明したが、画像符号化装置100の逆変換部116に対しても同様に本技術を適用することができる。つまり、上述した逆変換部213に関する説明は、逆変換部116に対しても適用することができる。
ただし、逆変換部116は、変換部112において用いられた変換行列R(変換部112において導出されたものも含む)を用いて変換行列IRを求めるようにしてもよい。例えば、逆変換部116の逆SDT部653(図76、図77)が、SDT部603(図67、図68)の2N点HyGT導出部612により導出された2N点HyGTの行列Rから、2N点逆HyGTの行列IRを求めるようにしてもよい。
その場合の逆SDT部653の主な構成例を図81に示す。図81に示されるように、この場合、逆SDT部653は、図77の場合と基本的に同様の構成を有するが、学習サンプル導出部661および2N点逆HyGT導出部662の代わりに、2N点逆HyGT導出部681を有する。
2N点逆HyGT導出部681は、SDT部603(2N点HyGT導出部612)(図68)から2N点HyGTの行列Rを取得する。2N点逆HyGT導出部681は、その2N点HyGTの行列Rから2N点逆HyGTの行列IRを導出する。2N点逆HyGT導出部681は、2N点HyGTの行列Rの転置行列を求めることにより、2N点逆HyGTの行列IRを導出する。2N点逆HyGT導出部681は、導出した2N点逆HyGTの行列IRを2N点逆HyGT部664に供給する。2N点逆HyGT部664は、その2N点逆HyGTの行列IRと、ラスタライズ部663から供給されるベクトルX1dとの行列積Y1dを導出する。
以上のようにすることにより、逆SDT部653は、学習サンプルを導出する場合よりも容易に2N点逆HyGTの行列IRを導出することができる。
<逆SDT処理の流れ>
この場合の、逆SDT処理の流れの例を、図82のフローチャートを参照して説明する。この場合、逆SDT処理が開始されると、2N点逆HyGT導出部681は、ステップS731において、変換行列Rを用いて変換行列IR(=RT)を導出する。
ステップS732において、ラスタライズ部663乃至行列化部666は、ステップS731において導出された変換行列IR(2N点逆HyGTの行列IR)による逆直交変換を行う。この処理は、各実施の形態において上述した処理(例えば図56のステップS582乃至ステップS588等)と同様であるので、その説明を省略する。
以上のように各処理を実行することにより、逆SDTの演算量(乗算・加算)を低減することができ、逆SDTの逆直交変換の行列を保持するのに必要なメモリサイズを低減させることができる。
<10.第10の実施の形態>
<情報のデータ単位>
以上において説明した画像に関する情報や画像の符号化・復号に関する情報が設定される(または対象とするデータの)データ単位は、それぞれ任意であり、上述した例に限定されない。例えば、これらの情報が、それぞれ、TU、PU、CU、LCU、サブブロック、ブロック、タイル、スライス、ピクチャ、シーケンス、またはコンポーネント毎に設定されるようにしてもよいし、それらのデータ単位のデータを対象とするようにしてもよい。もちろん、このデータ単位は、情報毎に設定される。つまり、全ての情報が同一のデータ単位毎に設定される(または対象とする)ようにしなくてもよい。なお、これらの情報の格納場所は任意であり、上述したデータ単位のヘッダやパラメータセット等に格納されるようにしてもよい。また、複数個所に格納されるようにしてもよい。
<制御情報>
以上の各実施の形態において説明した本技術に関する制御情報を符号化側から復号側に伝送するようにしてもよい。例えば、上述した本技術を適用することを許可(または禁止)するか否かを制御する制御情報(例えばenabled_flag)を伝送するようにしてもよい。また、例えば、上述した本技術を適用することを許可(または禁止)するブロックサイズの上限若しくは下限、またはその両方を指定する制御情報を伝送するようにしてもよい。
<符号化・復号>
本技術は、プライマリ変換およびセカンダリ変換(逆セカンダリ変および逆プライマリ変換)を行う任意の画像符号化・復号に適用することができる。つまり、変換(逆変換)、量子化(逆量子化)、符号化(復号)、予測等の仕様は任意であり、上述した例に限定されない。例えば、変換(逆変換)において、(逆)プライマリ変換および(逆)セカンダリ変換以外の(逆)変換(すなわち3以上の(逆)変換)が行われるようにしてもよい。また、符号化(復号)は、可逆な方式であってもよいし、非可逆な方式であってもよい。さらに、量子化(逆量子化)や予測等は省略するようにしてもよい。また、フィルタ処理等の上述していない処理が行われるようにしてもよい。
<本技術の適用分野>
本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。
例えば、本技術は、鑑賞の用に供される画像を伝送するシステムやデバイスにも適用することができる。また、例えば、本技術は、交通の用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、セキュリティの用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、スポーツの用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、農業の用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、畜産業の用に供されるシステムやデバイスにも適用することができる。さらに、本技術は、例えば火山、森林、海洋等の自然の状態を監視するシステムやデバイスにも適用することができる。また、本技術は、例えば天気、気温、湿度、風速、日照時間等を観測する気象観測システムや気象観測装置に適用することができる。さらに、本技術は、例えば鳥類、魚類、ハ虫類、両生類、哺乳類、昆虫、植物等の野生生物の生態を観測するシステムやデバイス等にも適用することができる。
<多視点画像符号化・復号システムへの適用>
上述した一連の処理は、複数の視点(ビュー(view))の画像を含む多視点画像の符号化・復号を行う多視点画像符号化・復号システムに適用することができる。その場合、各視点(ビュー(view))の符号化・復号において、本技術を適用するようにすればよい。
<階層画像符号化・復号システムへの適用>
また、上述した一連の処理は、所定のパラメータについてスケーラビリティ(scalability)機能を有するように複数レイヤ化(階層化)された階層画像の符号化・復号を行う階層画像符号化(スケーラブル符号化)・復号システムに適用することができる。その場合、各階層(レイヤ)の符号化・復号において、本技術を適用するようにすればよい。
<コンピュータ>
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
図83は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
図83に示されるコンピュータ800において、CPU(Central Processing Unit)801、ROM(Read Only Memory)802、RAM(Random Access Memory)803は、バス804を介して相互に接続されている。
バス804にはまた、入出力インタフェース810も接続されている。入出力インタフェース810には、入力部811、出力部812、記憶部813、通信部814、およびドライブ815が接続されている。
入力部811は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部812は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部813は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部814は、例えば、ネットワークインタフェースよりなる。ドライブ815は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア821を駆動する。
以上のように構成されるコンピュータでは、CPU801が、例えば、記憶部813に記憶されているプログラムを、入出力インタフェース810およびバス804を介して、RAM803にロードして実行することにより、上述した一連の処理が行われる。RAM803にはまた、CPU801が各種の処理を実行する上において必要なデータなども適宜記憶される。
コンピュータ(CPU801)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア821に記録して適用することができる。その場合、プログラムは、リムーバブルメディア821をドライブ815に装着することにより、入出力インタフェース810を介して、記憶部813にインストールすることができる。
また、このプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部814で受信し、記憶部813にインストールすることができる。
その他、このプログラムは、ROM802や記憶部813に、あらかじめインストールしておくこともできる。
<本技術の応用>
上述した実施形態に係る画像符号化装置100や画像復号装置200は、例えば、衛星放送、ケーブルTVなどの有線放送、インターネット上での配信、及びセルラー通信による端末への配信などにおける送信機や受信機、または、光ディスク、磁気ディスク及びフラッシュメモリなどの媒体に画像を記録する記録装置や、これら記憶媒体から画像を再生する再生装置などの、様々な電子機器に応用され得る。
<第1の応用例:テレビジョン受像機>
図84は、上述した実施形態を適用したテレビジョン装置の概略的な構成の一例を示している。テレビジョン装置900は、アンテナ901、チューナ902、デマルチプレクサ903、デコーダ904、映像信号処理部905、表示部906、音声信号処理部907、スピーカ908、外部インタフェース(I/F)部909、制御部910、ユーザインタフェース(I/F)部911、及びバス912を備える。
チューナ902は、アンテナ901を介して受信される放送信号から所望のチャンネルの信号を抽出し、抽出した信号を復調する。そして、チューナ902は、復調により得られた符号化ビットストリームをデマルチプレクサ903へ出力する。即ち、チューナ902は、画像が符号化されている符号化ストリームを受信する、テレビジョン装置900における伝送部としての役割を有する。
デマルチプレクサ903は、符号化ビットストリームから視聴対象の番組の映像ストリーム及び音声ストリームを分離し、分離した各ストリームをデコーダ904へ出力する。また、デマルチプレクサ903は、符号化ビットストリームからEPG(Electronic Program Guide)などの補助的なデータを抽出し、抽出したデータを制御部910に供給する。なお、デマルチプレクサ903は、符号化ビットストリームがスクランブルされている場合には、デスクランブルを行ってもよい。
デコーダ904は、デマルチプレクサ903から入力される映像ストリーム及び音声ストリームを復号する。そして、デコーダ904は、復号処理により生成される映像データを映像信号処理部905へ出力する。また、デコーダ904は、復号処理により生成される音声データを音声信号処理部907へ出力する。
映像信号処理部905は、デコーダ904から入力される映像データを再生し、表示部906に映像を表示させる。また、映像信号処理部905は、ネットワークを介して供給されるアプリケーション画面を表示部906に表示させてもよい。また、映像信号処理部905は、映像データについて、設定に応じて、例えばノイズ除去などの追加的な処理を行ってもよい。さらに、映像信号処理部905は、例えばメニュー、ボタン又はカーソルなどのGUI(Graphical User Interface)の画像を生成し、生成した画像を出力画像に重畳してもよい。
表示部906は、映像信号処理部905から供給される駆動信号により駆動され、表示デバイス(例えば、液晶ディスプレイ、プラズマディスプレイ又はOELD(Organic ElectroLuminescence Display)(有機ELディスプレイ)など)の映像面上に映像又は画像を表示する。
音声信号処理部907は、デコーダ904から入力される音声データについてD/A変換及び増幅などの再生処理を行い、スピーカ908から音声を出力させる。また、音声信号処理部907は、音声データについてノイズ除去などの追加的な処理を行ってもよい。
外部インタフェース部909は、テレビジョン装置900と外部機器又はネットワークとを接続するためのインタフェースである。例えば、外部インタフェース部909を介して受信される映像ストリーム又は音声ストリームが、デコーダ904により復号されてもよい。即ち、外部インタフェース部909もまた、画像が符号化されている符号化ストリームを受信する、テレビジョン装置900における伝送部としての役割を有する。
制御部910は、CPUなどのプロセッサ、並びにRAM及びROMなどのメモリを有する。メモリは、CPUにより実行されるプログラム、プログラムデータ、EPGデータ、及びネットワークを介して取得されるデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、テレビジョン装置900の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース部911から入力される操作信号に応じて、テレビジョン装置900の動作を制御する。
ユーザインタフェース部911は、制御部910と接続される。ユーザインタフェース部911は、例えば、ユーザがテレビジョン装置900を操作するためのボタン及びスイッチ、並びに遠隔制御信号の受信部などを有する。ユーザインタフェース部911は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部910へ出力する。
バス912は、チューナ902、デマルチプレクサ903、デコーダ904、映像信号処理部905、音声信号処理部907、外部インタフェース部909及び制御部910を相互に接続する。
このように構成されたテレビジョン装置900において、デコーダ904が、上述した画像復号装置200の機能を有するようにしてもよい。つまり、デコーダ904が、符号化データを、以上の各実施の形態において説明した方法で復号するようにしてもよい。このようにすることにより、テレビジョン装置900は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
また、このように構成されたテレビジョン装置900において、映像信号処理部905が、例えば、デコーダ904から供給される画像データを符号化し、得られた符号化データを、外部インタフェース部909を介してテレビジョン装置900の外部に出力させることができるようにしてもよい。そして、その映像信号処理部905が、上述した画像符号化装置100の機能を有するようにしてもよい。つまり、映像信号処理部905が、デコーダ904から供給される画像データを、以上の各実施の形態において説明した方法で符号化するようにしてもよい。このようにすることにより、テレビジョン装置900は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
<第2の応用例:携帯電話機>
図85は、上述した実施形態を適用した携帯電話機の概略的な構成の一例を示している。携帯電話機920は、アンテナ921、通信部922、音声コーデック923、スピーカ924、マイクロホン925、カメラ部926、画像処理部927、多重分離部928、記録再生部929、表示部930、制御部931、操作部932、及びバス933を備える。
アンテナ921は、通信部922に接続される。スピーカ924及びマイクロホン925は、音声コーデック923に接続される。操作部932は、制御部931に接続される。バス933は、通信部922、音声コーデック923、カメラ部926、画像処理部927、多重分離部928、記録再生部929、表示部930、及び制御部931を相互に接続する。
携帯電話機920は、音声通話モード、データ通信モード、撮影モード及びテレビ電話モードを含む様々な動作モードで、音声信号の送受信、電子メール又は画像データの送受信、画像の撮像、及びデータの記録などの動作を行う。
音声通話モードにおいて、マイクロホン925により生成されるアナログ音声信号は、音声コーデック923に供給される。音声コーデック923は、アナログ音声信号を音声データへ変換し、変換された音声データをA/D変換し圧縮する。そして、音声コーデック923は、圧縮後の音声データを通信部922へ出力する。通信部922は、音声データを符号化及び変調し、送信信号を生成する。そして、通信部922は、生成した送信信号を、アンテナ921を介して基地局(図示せず)へ送信する。また、通信部922は、アンテナ921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。そして、通信部922は、受信信号を復調及び復号して音声データを生成し、生成した音声データを音声コーデック923へ出力する。音声コーデック923は、音声データを伸張し及びD/A変換し、アナログ音声信号を生成する。そして、音声コーデック923は、生成した音声信号をスピーカ924に供給して音声を出力させる。
また、データ通信モードにおいて、例えば、制御部931は、操作部932を介するユーザによる操作に応じて、電子メールを構成する文字データを生成する。また、制御部931は、文字を表示部930に表示させる。また、制御部931は、操作部932を介するユーザからの送信指示に応じて電子メールデータを生成し、生成した電子メールデータを通信部922へ出力する。通信部922は、電子メールデータを符号化及び変調し、送信信号を生成する。そして、通信部922は、生成した送信信号を、アンテナ921を介して基地局(図示せず)へ送信する。また、通信部922は、アンテナ921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。そして、通信部922は、受信信号を復調及び復号して電子メールデータを復元し、復元した電子メールデータを制御部931へ出力する。制御部931は、表示部930に電子メールの内容を表示させると共に、電子メールデータを記録再生部929に供給し、その記憶媒体に書き込ませる。
記録再生部929は、読み書き可能な任意の記憶媒体を有する。例えば、記憶媒体は、RAM又はフラッシュメモリなどの内蔵型の記憶媒体であってもよく、ハードディスク、磁気ディスク、光磁気ディスク、光ディスク、USB(Universal Serial Bus)メモリ、又はメモリカードなどの外部装着型の記憶媒体であってもよい。
また、撮影モードにおいて、例えば、カメラ部926は、被写体を撮像して画像データを生成し、生成した画像データを画像処理部927へ出力する。画像処理部927は、カメラ部926から入力される画像データを符号化し、符号化ストリームを記録再生部929に供給し、その記憶媒体に書き込ませる。
さらに、画像表示モードにおいて、記録再生部929は、記憶媒体に記録されている符号化ストリームを読み出して画像処理部927へ出力する。画像処理部927は、記録再生部929から入力される符号化ストリームを復号し、画像データを表示部930に供給し、その画像を表示させる。
また、テレビ電話モードにおいて、例えば、多重分離部928は、画像処理部927により符号化された映像ストリームと、音声コーデック923から入力される音声ストリームとを多重化し、多重化したストリームを通信部922へ出力する。通信部922は、ストリームを符号化及び変調し、送信信号を生成する。そして、通信部922は、生成した送信信号を、アンテナ921を介して基地局(図示せず)へ送信する。また、通信部922は、アンテナ921を介して受信される無線信号を増幅し及び周波数変換し、受信信号を取得する。これら送信信号及び受信信号には、符号化ビットストリームが含まれ得る。そして、通信部922は、受信信号を復調及び復号してストリームを復元し、復元したストリームを多重分離部928へ出力する。多重分離部928は、入力されるストリームから映像ストリーム及び音声ストリームを分離し、映像ストリームを画像処理部927、音声ストリームを音声コーデック923へ出力する。画像処理部927は、映像ストリームを復号し、映像データを生成する。映像データは、表示部930に供給され、表示部930により一連の画像が表示される。音声コーデック923は、音声ストリームを伸張し及びD/A変換し、アナログ音声信号を生成する。そして、音声コーデック923は、生成した音声信号をスピーカ924に供給して音声を出力させる。
このように構成された携帯電話機920において、例えば画像処理部927が、上述した画像符号化装置100の機能を有するようにしてもよい。つまり、画像処理部927が、画像データを、以上の各実施の形態において説明した方法で符号化するようにしてもよい。このようにすることにより、携帯電話機920は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
また、このように構成された携帯電話機920において、例えば画像処理部927が、上述した画像復号装置200の機能を有するようにしてもよい。つまり、画像処理部927が、符号化データを、以上の各実施の形態において説明した方法で復号するようにしてもよい。このようにすることにより、携帯電話機920は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
<第3の応用例:記録再生装置>
図86は、上述した実施形態を適用した記録再生装置の概略的な構成の一例を示している。記録再生装置940は、例えば、受信した放送番組の音声データ及び映像データを符号化して記録媒体に記録する。また、記録再生装置940は、例えば、他の装置から取得される音声データ及び映像データを符号化して記録媒体に記録してもよい。また、記録再生装置940は、例えば、ユーザの指示に応じて、記録媒体に記録されているデータをモニタ及びスピーカ上で再生する。このとき、記録再生装置940は、音声データおよび映像データを復号する。
記録再生装置940は、チューナ941、外部インタフェース(I/F)部942、エンコーダ943、HDD(Hard Disk Drive)部944、ディスクドライブ945、セレクタ946、デコーダ947、OSD(On-Screen Display)部948、制御部949、およびユーザインタフェース(I/F)部950を備える。
チューナ941は、アンテナ(図示せず)を介して受信される放送信号から所望のチャンネルの信号を抽出し、抽出した信号を復調する。そして、チューナ941は、復調により得られた符号化ビットストリームをセレクタ946へ出力する。即ち、チューナ941は、記録再生装置940における伝送部としての役割を有する。
外部インタフェース部942は、記録再生装置940と外部機器又はネットワークとを接続するためのインタフェースである。外部インタフェース部942は、例えば、IEEE(Institute of Electrical and Electronic Engineers)1394インタフェース、ネットワークインタフェース、USBインタフェース、又はフラッシュメモリインタフェースなどであってよい。例えば、外部インタフェース部942を介して受信される映像データおよび音声データは、エンコーダ943へ入力される。即ち、外部インタフェース部942は、記録再生装置940における伝送部としての役割を有する。
エンコーダ943は、外部インタフェース部942から入力される映像データおよび音声データが符号化されていない場合に、映像データおよび音声データを符号化する。そして、エンコーダ943は、符号化ビットストリームをセレクタ946へ出力する。
HDD部944は、映像および音声などのコンテンツデータが圧縮された符号化ビットストリーム、各種プログラムおよびその他のデータを内部のハードディスクに記録する。また、HDD部944は、映像および音声の再生時に、これらデータをハードディスクから読み出す。
ディスクドライブ945は、装着されている記録媒体へのデータの記録および読み出しを行う。ディスクドライブ945に装着される記録媒体は、例えばDVD(Digital Versatile Disc)ディスク(DVD-Video、DVD-RAM(DVD - Random Access Memory)、DVD-R(DVD - Recordable)、DVD-RW(DVD - Rewritable)、DVD+R(DVD + Recordable)、DVD+RW(DVD + Rewritable)等)又はBlu-ray(登録商標)ディスクなどであってよい。
セレクタ946は、映像および音声の記録時には、チューナ941又はエンコーダ943から入力される符号化ビットストリームを選択し、選択した符号化ビットストリームをHDD944又はディスクドライブ945へ出力する。また、セレクタ946は、映像及び音声の再生時には、HDD944又はディスクドライブ945から入力される符号化ビットストリームをデコーダ947へ出力する。
デコーダ947は、符号化ビットストリームを復号し、映像データ及び音声データを生成する。そして、デコーダ947は、生成した映像データをOSD部948へ出力する。また、デコーダ947は、生成した音声データを外部のスピーカへ出力する。
OSD部948は、デコーダ947から入力される映像データを再生し、映像を表示する。また、OSD部948は、表示する映像に、例えばメニュー、ボタン又はカーソルなどのGUIの画像を重畳してもよい。
制御部949は、CPUなどのプロセッサ、並びにRAM及びROMなどのメモリを有する。メモリは、CPUにより実行されるプログラム、及びプログラムデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、記録再生装置940の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース部950から入力される操作信号に応じて、記録再生装置940の動作を制御する。
ユーザインタフェース部950は、制御部949と接続される。ユーザインタフェース部950は、例えば、ユーザが記録再生装置940を操作するためのボタンおよびスイッチ、並びに遠隔制御信号の受信部などを有する。ユーザインタフェース部950は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部949へ出力する。
このように構成された記録再生装置940において、例えばエンコーダ943が、上述した画像符号化装置100の機能を有するようにしてもよい。つまり、エンコーダ943が、画像データを、以上の各実施の形態において説明方法で符号化するようにしてもよい。このようにすることにより、記録再生装置940は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
また、このように構成された記録再生装置940において、例えばデコーダ947が、上述した画像復号装置200の機能を有するようにしてもよい。つまり、デコーダ947が、符号化データを、以上の各実施の形態において説明した方法で復号するようにしてもよい。このようにすることにより、記録再生装置940は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
<第4の応用例:撮像装置>
図87は、上述した実施形態を適用した撮像装置の概略的な構成の一例を示している。撮像装置960は、被写体を撮像して画像を生成し、画像データを符号化して記録媒体に記録する。
撮像装置960は、光学ブロック961、撮像部962、信号処理部963、画像処理部964、表示部965、外部インタフェース(I/F)部966、メモリ部967、メディアドライブ968、OSD部969、制御部970、ユーザインタフェース(I/F)部971、およびバス972を備える。
光学ブロック961は、撮像部962に接続される。撮像部962は、信号処理部963に接続される。表示部965は、画像処理部964に接続される。ユーザインタフェース部971は、制御部970に接続される。バス972は、画像処理部964、外部インタフェース部966、メモリ部967、メディアドライブ968、OSD部969、および制御部970を相互に接続する。
光学ブロック961は、フォーカスレンズ及び絞り機構などを有する。光学ブロック961は、被写体の光学像を撮像部962の撮像面に結像させる。撮像部962は、CCD(Charge Coupled Device)又はCMOS(Complementary Metal Oxide Semiconductor)などのイメージセンサを有し、撮像面に結像した光学像を光電変換によって電気信号としての画像信号に変換する。そして、撮像部962は、画像信号を信号処理部963へ出力する。
信号処理部963は、撮像部962から入力される画像信号に対してニー補正、ガンマ補正、色補正などの種々のカメラ信号処理を行う。信号処理部963は、カメラ信号処理後の画像データを画像処理部964へ出力する。
画像処理部964は、信号処理部963から入力される画像データを符号化し、符号化データを生成する。そして、画像処理部964は、生成した符号化データを外部インタフェース部966またはメディアドライブ968へ出力する。また、画像処理部964は、外部インタフェース部966またはメディアドライブ968から入力される符号化データを復号し、画像データを生成する。そして、画像処理部964は、生成した画像データを表示部965へ出力する。また、画像処理部964は、信号処理部963から入力される画像データを表示部965へ出力して画像を表示させてもよい。また、画像処理部964は、OSD部969から取得される表示用データを、表示部965へ出力する画像に重畳してもよい。
OSD部969は、例えばメニュー、ボタン又はカーソルなどのGUIの画像を生成して、生成した画像を画像処理部964へ出力する。
外部インタフェース部966は、例えばUSB入出力端子として構成される。外部インタフェース部966は、例えば、画像の印刷時に、撮像装置960とプリンタとを接続する。また、外部インタフェース部966には、必要に応じてドライブが接続される。ドライブには、例えば、磁気ディスク又は光ディスクなどのリムーバブルメディアが装着され、リムーバブルメディアから読み出されるプログラムが、撮像装置960にインストールされ得る。さらに、外部インタフェース部966は、LAN又はインターネットなどのネットワークに接続されるネットワークインタフェースとして構成されてもよい。即ち、外部インタフェース部966は、撮像装置960における伝送部としての役割を有する。
メディアドライブ968に装着される記録媒体は、例えば、磁気ディスク、光磁気ディスク、光ディスク、又は半導体メモリなどの、読み書き可能な任意のリムーバブルメディアであってよい。また、メディアドライブ968に記録媒体が固定的に装着され、例えば、内蔵型ハードディスクドライブ又はSSD(Solid State Drive)のような非可搬性の記憶部が構成されてもよい。
制御部970は、CPUなどのプロセッサ、並びにRAM及びROMなどのメモリを有する。メモリは、CPUにより実行されるプログラム、及びプログラムデータなどを記憶する。メモリにより記憶されるプログラムは、例えば、撮像装置960の起動時にCPUにより読み込まれ、実行される。CPUは、プログラムを実行することにより、例えばユーザインタフェース部971から入力される操作信号に応じて、撮像装置960の動作を制御する。
ユーザインタフェース部971は、制御部970と接続される。ユーザインタフェース部971は、例えば、ユーザが撮像装置960を操作するためのボタン及びスイッチなどを有する。ユーザインタフェース部971は、これら構成要素を介してユーザによる操作を検出して操作信号を生成し、生成した操作信号を制御部970へ出力する。
このように構成された撮像装置960において、例えば画像処理部964が、上述した画像符号化装置100の機能を有するようにしてもよい。つまり、画像処理部964が、画像データを、以上の各実施の形態において説明した方法で符号化するようにしてもよい。このようにすることにより、撮像装置960は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
また、このように構成された撮像装置960において、例えば画像処理部964が、上述した画像復号装置200の機能を有するようにしてもよい。つまり、画像処理部964が、符号化データを、以上の各実施の形態において説明した方法で復号するようにしてもよい。このようにすることにより、撮像装置960は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
<第5の応用例:ビデオセット>
また、本技術は、任意の装置またはシステムを構成する装置に搭載するあらゆる構成、例えば、システムLSI(Large Scale Integration)等としてのプロセッサ、複数のプロセッサ等を用いるモジュール、複数のモジュール等を用いるユニット、ユニットにさらにその他の機能を付加したセット等(すなわち、装置の一部の構成)として実施することもできる。図88は、本技術を適用したビデオセットの概略的な構成の一例を示している。
近年、電子機器の多機能化が進んでおり、その開発や製造において、その一部の構成を販売や提供等として実施する場合、1機能を有する構成として実施を行う場合だけでなく、関連する機能を有する複数の構成を組み合わせ、複数の機能を有する1セットとして実施を行う場合も多く見られるようになってきた。
図88に示されるビデオセット1300は、このような多機能化された構成であり、画像の符号化や復号(いずれか一方でもよいし、両方でも良い)に関する機能を有するデバイスに、その機能に関連するその他の機能を有するデバイスを組み合わせたものである。
図88に示されるように、ビデオセット1300は、ビデオモジュール1311、外部メモリ1312、パワーマネージメントモジュール1313、およびフロントエンドモジュール1314等のモジュール群と、コネクティビティ1321、カメラ1322、およびセンサ1323等の関連する機能を有するデバイスとを有する。
モジュールは、互いに関連するいくつかの部品的機能をまとめ、まとまりのある機能を持った部品としたものである。具体的な物理的構成は任意であるが、例えば、それぞれ機能を有する複数のプロセッサ、抵抗やコンデンサ等の電子回路素子、その他のデバイス等を配線基板等に配置して一体化したものが考えられる。また、モジュールに他のモジュールやプロセッサ等を組み合わせて新たなモジュールとすることも考えられる。
図88の例の場合、ビデオモジュール1311は、画像処理に関する機能を有する構成を組み合わせたものであり、アプリケーションプロセッサ、ビデオプロセッサ、ブロードバンドモデム1333、およびRFモジュール1334を有する。
プロセッサは、所定の機能を有する構成をSoC(System On a Chip)により半導体チップに集積したものであり、例えばシステムLSI(Large Scale Integration)等と称されるものもある。この所定の機能を有する構成は、論理回路(ハードウエア構成)であってもよいし、CPU、ROM、RAM等と、それらを用いて実行されるプログラム(ソフトウエア構成)であってもよいし、その両方を組み合わせたものであってもよい。例えば、プロセッサが、論理回路とCPU、ROM、RAM等とを有し、機能の一部を論理回路(ハードウエア構成)により実現し、その他の機能をCPUにおいて実行されるプログラム(ソフトウエア構成)により実現するようにしてもよい。
図88のアプリケーションプロセッサ1331は、画像処理に関するアプリケーションを実行するプロセッサである。このアプリケーションプロセッサ1331において実行されるアプリケーションは、所定の機能を実現するために、演算処理を行うだけでなく、例えばビデオプロセッサ1332等、ビデオモジュール1311内外の構成を必要に応じて制御することもできる。
ビデオプロセッサ1332は、画像の符号化・復号(その一方または両方)に関する機能を有するプロセッサである。
ブロードバンドモデム1333は、インターネットや公衆電話回線網等の広帯域の回線を介して行われる有線若しくは無線(またはその両方)の広帯域通信により送信するデータ(デジタル信号)をデジタル変調する等してアナログ信号に変換したり、その広帯域通信により受信したアナログ信号を復調してデータ(デジタル信号)に変換したりする。ブロードバンドモデム1333は、例えば、ビデオプロセッサ1332が処理する画像データ、画像データが符号化されたストリーム、アプリケーションプログラム、設定データ等、任意の情報を処理する。
RFモジュール1334は、アンテナを介して送受信されるRF(Radio Frequency)信号に対して、周波数変換、変復調、増幅、フィルタ処理等を行うモジュールである。例えば、RFモジュール1334は、ブロードバンドモデム1333により生成されたベースバンド信号に対して周波数変換等を行ってRF信号を生成する。また、例えば、RFモジュール1334は、フロントエンドモジュール1314を介して受信されたRF信号に対して周波数変換等を行ってベースバンド信号を生成する。
なお、図88において点線1341に示されるように、アプリケーションプロセッサ1331とビデオプロセッサ1332を、一体化し、1つのプロセッサとして構成されるようにしてもよい。
外部メモリ1312は、ビデオモジュール1311の外部に設けられた、ビデオモジュール1311により利用される記憶デバイスを有するモジュールである。この外部メモリ1312の記憶デバイスは、どのような物理構成により実現するようにしてもよいが、一般的にフレーム単位の画像データのような大容量のデータの格納に利用されることが多いので、例えばDRAM(Dynamic Random Access Memory)のような比較的安価で大容量の半導体メモリにより実現するのが望ましい。
パワーマネージメントモジュール1313は、ビデオモジュール1311(ビデオモジュール1311内の各構成)への電力供給を管理し、制御する。
フロントエンドモジュール1314は、RFモジュール1334に対してフロントエンド機能(アンテナ側の送受信端の回路)を提供するモジュールである。図88に示されるように、フロントエンドモジュール1314は、例えば、アンテナ部1351、フィルタ1352、および増幅部1353を有する。
アンテナ部1351は、無線信号を送受信するアンテナおよびその周辺の構成を有する。アンテナ部1351は、増幅部1353から供給される信号を無線信号として送信し、受信した無線信号を電気信号(RF信号)としてフィルタ1352に供給する。フィルタ1352は、アンテナ部1351を介して受信されたRF信号に対してフィルタ処理等を行い、処理後のRF信号をRFモジュール1334に供給する。増幅部1353は、RFモジュール1334から供給されるRF信号を増幅し、アンテナ部1351に供給する。
コネクティビティ1321は、外部との接続に関する機能を有するモジュールである。コネクティビティ1321の物理構成は、任意である。例えば、コネクティビティ1321は、ブロードバンドモデム1333が対応する通信規格以外の通信機能を有する構成や、外部入出力端子等を有する。
例えば、コネクティビティ1321が、Bluetooth(登録商標)、IEEE 802.11(例えばWi-Fi(Wireless Fidelity、登録商標))、NFC(Near Field Communication)、IrDA(InfraRed Data Association)等の無線通信規格に準拠する通信機能を有するモジュールや、その規格に準拠した信号を送受信するアンテナ等を有するようにしてもよい。また、例えば、コネクティビティ1321が、USB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)等の有線通信規格に準拠する通信機能を有するモジュールや、その規格に準拠した端子を有するようにしてもよい。さらに、例えば、コネクティビティ1321が、アナログ入出力端子等のその他のデータ(信号)伝送機能等を有するようにしてもよい。
なお、コネクティビティ1321が、データ(信号)の伝送先のデバイスを含むようにしてもよい。例えば、コネクティビティ1321が、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等の記録媒体に対してデータの読み出しや書き込みを行うドライブ(リムーバブルメディアのドライブだけでなく、ハードディスク、SSD(Solid State Drive)、NAS(Network Attached Storage)等も含む)を有するようにしてもよい。また、コネクティビティ1321が、画像や音声の出力デバイス(モニタやスピーカ等)を有するようにしてもよい。
カメラ1322は、被写体を撮像し、被写体の画像データを得る機能を有するモジュールである。カメラ1322の撮像により得られた画像データは、例えば、ビデオプロセッサ1332に供給されて符号化される。
センサ1323は、例えば、音声センサ、超音波センサ、光センサ、照度センサ、赤外線センサ、イメージセンサ、回転センサ、角度センサ、角速度センサ、速度センサ、加速度センサ、傾斜センサ、磁気識別センサ、衝撃センサ、温度センサ等、任意のセンサ機能を有するモジュールである。センサ1323により検出されたデータは、例えば、アプリケーションプロセッサ1331に供給されてアプリケーション等により利用される。
以上においてモジュールとして説明した構成をプロセッサとして実現するようにしてもよいし、逆にプロセッサとして説明した構成をモジュールとして実現するようにしてもよい。
以上のような構成のビデオセット1300において、後述するようにビデオプロセッサ1332に本技術を適用することができる。したがって、ビデオセット1300は、本技術を適用したセットとして実施することができる。
<ビデオプロセッサの構成例>
図89は、本技術を適用したビデオプロセッサ1332(図88)の概略的な構成の一例を示している。
図89の例の場合、ビデオプロセッサ1332は、ビデオ信号およびオーディオ信号の入力を受けてこれらを所定の方式で符号化する機能と、符号化されたビデオデータおよびオーディオデータを復号し、ビデオ信号およびオーディオ信号を再生出力する機能とを有する。
図89に示されるように、ビデオプロセッサ1332は、ビデオ入力処理部1401、第1画像拡大縮小部1402、第2画像拡大縮小部1403、ビデオ出力処理部1404、フレームメモリ1405、およびメモリ制御部1406を有する。また、ビデオプロセッサ1332は、エンコード・デコードエンジン1407、ビデオES(Elementary Stream)バッファ1408Aおよび1408B、並びに、オーディオESバッファ1409Aおよび1409Bを有する。さらに、ビデオプロセッサ1332は、オーディオエンコーダ1410、オーディオデコーダ1411、多重化部(MUX(Multiplexer))1412、逆多重化部(DMUX(Demultiplexer))1413、およびストリームバッファ1414を有する。
ビデオ入力処理部1401は、例えばコネクティビティ1321(図88)等から入力されたビデオ信号を取得し、デジタル画像データに変換する。第1画像拡大縮小部1402は、画像データに対してフォーマット変換や画像の拡大縮小処理等を行う。第2画像拡大縮小部1403は、画像データに対して、ビデオ出力処理部1404を介して出力する先でのフォーマットに応じて画像の拡大縮小処理を行ったり、第1画像拡大縮小部1402と同様のフォーマット変換や画像の拡大縮小処理等を行ったりする。ビデオ出力処理部1404は、画像データに対して、フォーマット変換やアナログ信号への変換等を行って、再生されたビデオ信号として例えばコネクティビティ1321等に出力する。
フレームメモリ1405は、ビデオ入力処理部1401、第1画像拡大縮小部1402、第2画像拡大縮小部1403、ビデオ出力処理部1404、およびエンコード・デコードエンジン1407によって共用される画像データ用のメモリである。フレームメモリ1405は、例えばDRAM等の半導体メモリとして実現される。
メモリ制御部1406は、エンコード・デコードエンジン1407からの同期信号を受けて、アクセス管理テーブル1406Aに書き込まれたフレームメモリ1405へのアクセススケジュールに従ってフレームメモリ1405に対する書き込み・読み出しのアクセスを制御する。アクセス管理テーブル1406Aは、エンコード・デコードエンジン1407、第1画像拡大縮小部1402、第2画像拡大縮小部1403等で実行される処理に応じて、メモリ制御部1406により更新される。
エンコード・デコードエンジン1407は、画像データのエンコード処理、並びに、画像データが符号化されたデータであるビデオストリームのデコード処理を行う。例えば、エンコード・デコードエンジン1407は、フレームメモリ1405から読み出した画像データを符号化し、ビデオストリームとしてビデオESバッファ1408Aに順次書き込む。また、例えば、ビデオESバッファ1408Bからビデオストリームを順次読み出して復号し、画像データとしてフレームメモリ1405に順次書き込む。エンコード・デコードエンジン1407は、これらの符号化や復号において、フレームメモリ1405を作業領域として使用する。また、エンコード・デコードエンジン1407は、例えばマクロブロック毎の処理を開始するタイミングで、メモリ制御部1406に対して同期信号を出力する。
ビデオESバッファ1408Aは、エンコード・デコードエンジン1407によって生成されたビデオストリームをバッファリングして、多重化部(MUX)1412に供給する。ビデオESバッファ1408Bは、逆多重化部(DMUX)1413から供給されたビデオストリームをバッファリングして、エンコード・デコードエンジン1407に供給する。
オーディオESバッファ1409Aは、オーディオエンコーダ1410によって生成されたオーディオストリームをバッファリングして、多重化部(MUX)1412に供給する。オーディオESバッファ1409Bは、逆多重化部(DMUX)1413から供給されたオーディオストリームをバッファリングして、オーディオデコーダ1411に供給する。
オーディオエンコーダ1410は、例えばコネクティビティ1321等から入力されたオーディオ信号を例えばデジタル変換し、例えばMPEGオーディオ方式やAC3(AudioCode number 3)方式等の所定の方式で符号化する。オーディオエンコーダ1410は、オーディオ信号が符号化されたデータであるオーディオストリームをオーディオESバッファ1409Aに順次書き込む。オーディオデコーダ1411は、オーディオESバッファ1409Bから供給されたオーディオストリームを復号し、例えばアナログ信号への変換等を行って、再生されたオーディオ信号として例えばコネクティビティ1321等に供給する。
多重化部(MUX)1412は、ビデオストリームとオーディオストリームとを多重化する。この多重化の方法(すなわち、多重化により生成されるビットストリームのフォーマット)は任意である。また、この多重化の際に、多重化部(MUX)1412は、所定のヘッダ情報等をビットストリームに付加することもできる。つまり、多重化部(MUX)1412は、多重化によりストリームのフォーマットを変換することができる。例えば、多重化部(MUX)1412は、ビデオストリームとオーディオストリームとを多重化することにより、転送用のフォーマットのビットストリームであるトランスポートストリームに変換する。また、例えば、多重化部(MUX)1412は、ビデオストリームとオーディオストリームとを多重化することにより、記録用のファイルフォーマットのデータ(ファイルデータ)に変換する。
逆多重化部(DMUX)1413は、多重化部(MUX)1412による多重化に対応する方法で、ビデオストリームとオーディオストリームとが多重化されたビットストリームを逆多重化する。つまり、逆多重化部(DMUX)1413は、ストリームバッファ1414から読み出されたビットストリームからビデオストリームとオーディオストリームとを抽出する(ビデオストリームとオーディオストリームとを分離する)。つまり、逆多重化部(DMUX)1413は、逆多重化によりストリームのフォーマットを変換(多重化部(MUX)1412による変換の逆変換)することができる。例えば、逆多重化部(DMUX)1413は、例えばコネクティビティ1321やブロードバンドモデム1333等から供給されたトランスポートストリームを、ストリームバッファ1414を介して取得し、逆多重化することにより、ビデオストリームとオーディオストリームとに変換することができる。また、例えば、逆多重化部(DMUX)1413は、例えばコネクティビティ1321により各種記録媒体から読み出されたファイルデータを、ストリームバッファ1414を介して取得し、逆多重化することにより、ビデオストリームとオーディオストリームとに変換することができる。
ストリームバッファ1414は、ビットストリームをバッファリングする。例えば、ストリームバッファ1414は、多重化部(MUX)1412から供給されたトランスポートストリームをバッファリングし、所定のタイミングにおいて、または外部からの要求等に基づいて、例えばコネクティビティ1321やブロードバンドモデム1333等に供給する。
また、例えば、ストリームバッファ1414は、多重化部(MUX)1412から供給されたファイルデータをバッファリングし、所定のタイミングにおいて、または外部からの要求等に基づいて、例えばコネクティビティ1321等に供給し、各種記録媒体に記録させる。
さらに、ストリームバッファ1414は、例えばコネクティビティ1321やブロードバンドモデム1333等を介して取得したトランスポートストリームをバッファリングし、所定のタイミングにおいて、または外部からの要求等に基づいて、逆多重化部(DMUX)1413に供給する。
また、ストリームバッファ1414は、例えばコネクティビティ1321等において各種記録媒体から読み出されたファイルデータをバッファリングし、所定のタイミングにおいて、または外部からの要求等に基づいて、逆多重化部(DMUX)1413に供給する。
次に、このような構成のビデオプロセッサ1332の動作の例について説明する。例えば、コネクティビティ1321等からビデオプロセッサ1332に入力されたビデオ信号は、ビデオ入力処理部1401において4:2:2Y/Cb/Cr方式等の所定の方式のデジタル画像データに変換され、フレームメモリ1405に順次書き込まれる。このデジタル画像データは、第1画像拡大縮小部1402または第2画像拡大縮小部1403に読み出されて、4:2:0Y/Cb/Cr方式等の所定の方式へのフォーマット変換および拡大縮小処理が行われ、再びフレームメモリ1405に書き込まれる。この画像データは、エンコード・デコードエンジン1407によって符号化され、ビデオストリームとしてビデオESバッファ1408Aに書き込まれる。
また、コネクティビティ1321等からビデオプロセッサ1332に入力されたオーディオ信号は、オーディオエンコーダ1410によって符号化され、オーディオストリームとして、オーディオESバッファ1409Aに書き込まれる。
ビデオESバッファ1408Aのビデオストリームと、オーディオESバッファ1409Aのオーディオストリームは、多重化部(MUX)1412に読み出されて多重化され、トランスポートストリームまたはファイルデータ等に変換される。多重化部(MUX)1412により生成されたトランスポートストリームは、ストリームバッファ1414にバッファされた後、例えばコネクティビティ1321やブロードバンドモデム1333等を介して外部ネットワークに出力される。また、多重化部(MUX)1412により生成されたファイルデータは、ストリームバッファ1414にバッファされた後、例えばコネクティビティ1321等に出力され、各種記録媒体に記録される。
また、例えばコネクティビティ1321やブロードバンドモデム1333等を介して外部ネットワークからビデオプロセッサ1332に入力されたトランスポートストリームは、ストリームバッファ1414にバッファされた後、逆多重化部(DMUX)1413により逆多重化される。また、例えばコネクティビティ1321等において各種記録媒体から読み出され、ビデオプロセッサ1332に入力されたファイルデータは、ストリームバッファ1414にバッファされた後、逆多重化部(DMUX)1413により逆多重化される。つまり、ビデオプロセッサ1332に入力されたトランスポートストリームまたはファイルデータは、逆多重化部(DMUX)1413によりビデオストリームとオーディオストリームとに分離される。
オーディオストリームは、オーディオESバッファ1409Bを介してオーディオデコーダ1411に供給され、復号されてオーディオ信号が再生される。また、ビデオストリームは、ビデオESバッファ1408Bに書き込まれた後、エンコード・デコードエンジン1407により順次読み出されて復号されてフレームメモリ1405に書き込まれる。復号された画像データは、第2画像拡大縮小部1403によって拡大縮小処理されて、フレームメモリ1405に書き込まれる。そして、復号された画像データは、ビデオ出力処理部1404に読み出されて、4:2:2Y/Cb/Cr方式等の所定の方式にフォーマット変換され、さらにアナログ信号に変換されて、ビデオ信号が再生出力される。
このように構成されるビデオプロセッサ1332に本技術を適用する場合、エンコード・デコードエンジン1407に、上述した各実施形態に係る本技術を適用すればよい。つまり、例えば、エンコード・デコードエンジン1407が、上述した画像符号化装置100の機能若しくは画像復号装置200の機能またはその両方を有するようにしてもよい。このようにすることにより、ビデオプロセッサ1332は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
なお、エンコード・デコードエンジン1407において、本技術(すなわち、画像符号化装置100の機能若しくは画像復号装置200の機能またはその両方)は、論理回路等のハードウエアにより実現するようにしてもよいし、組み込みプログラム等のソフトウエアにより実現するようにしてもよいし、それらの両方により実現するようにしてもよい。
<ビデオプロセッサの他の構成例>
図90は、本技術を適用したビデオプロセッサ1332の概略的な構成の他の例を示している。図90の例の場合、ビデオプロセッサ1332は、ビデオデータを所定の方式で符号化・復号する機能を有する。
より具体的には、図90に示されるように、ビデオプロセッサ1332は、制御部1511、ディスプレイインタフェース1512、ディスプレイエンジン1513、画像処理エンジン1514、および内部メモリ1515を有する。また、ビデオプロセッサ1332は、コーデックエンジン1516、メモリインタフェース1517、多重化・逆多重化部(MUX DMUX)1518、ネットワークインタフェース1519、およびビデオインタフェース1520を有する。
制御部1511は、ディスプレイインタフェース1512、ディスプレイエンジン1513、画像処理エンジン1514、およびコーデックエンジン1516等、ビデオプロセッサ1332内の各処理部の動作を制御する。
図90に示されるように、制御部1511は、例えば、メインCPU1531、サブCPU1532、およびシステムコントローラ1533を有する。メインCPU1531は、ビデオプロセッサ1332内の各処理部の動作を制御するためのプログラム等を実行する。メインCPU1531は、そのプログラム等に従って制御信号を生成し、各処理部に供給する(つまり、各処理部の動作を制御する)。サブCPU1532は、メインCPU1531の補助的な役割を果たす。例えば、サブCPU1532は、メインCPU1531が実行するプログラム等の子プロセスやサブルーチン等を実行する。システムコントローラ1533は、メインCPU1531およびサブCPU1532が実行するプログラムを指定する等、メインCPU1531およびサブCPU1532の動作を制御する。
ディスプレイインタフェース1512は、制御部1511の制御の下、画像データを例えばコネクティビティ1321等に出力する。例えば、ディスプレイインタフェース1512は、デジタルデータの画像データをアナログ信号に変換し、再生されたビデオ信号として、またはデジタルデータの画像データのまま、コネクティビティ1321のモニタ装置等に出力する。
ディスプレイエンジン1513は、制御部1511の制御の下、画像データに対して、その画像を表示させるモニタ装置等のハードウエアスペックに合わせるように、フォーマット変換、サイズ変換、色域変換等の各種変換処理を行う。
画像処理エンジン1514は、制御部1511の制御の下、画像データに対して、例えば画質改善のためのフィルタ処理等、所定の画像処理を施す。
内部メモリ1515は、ディスプレイエンジン1513、画像処理エンジン1514、およびコーデックエンジン1516により共用される、ビデオプロセッサ1332の内部に設けられたメモリである。内部メモリ1515は、例えば、ディスプレイエンジン1513、画像処理エンジン1514、およびコーデックエンジン1516の間で行われるデータの授受に利用される。例えば、内部メモリ1515は、ディスプレイエンジン1513、画像処理エンジン1514、またはコーデックエンジン1516から供給されるデータを格納し、必要に応じて(例えば、要求に応じて)、そのデータを、ディスプレイエンジン1513、画像処理エンジン1514、またはコーデックエンジン1516に供給する。この内部メモリ1515は、どのような記憶デバイスにより実現するようにしてもよいが、一般的にブロック単位の画像データやパラメータ等といった小容量のデータの格納に利用することが多いので、例えばSRAM(Static Random Access Memory)のような比較的(例えば外部メモリ1312と比較して)小容量だが応答速度が高速な半導体メモリにより実現するのが望ましい。
コーデックエンジン1516は、画像データの符号化や復号に関する処理を行う。このコーデックエンジン1516が対応する符号化・復号の方式は任意であり、その数は1つであってもよいし、複数であってもよい。例えば、コーデックエンジン1516は、複数の符号化・復号方式のコーデック機能を備え、その中から選択されたもので画像データの符号化または符号化データの復号を行うようにしてもよい。
図90に示される例において、コーデックエンジン1516は、コーデックに関する処理の機能ブロックとして、例えば、MPEG-2 Video1541、AVC/H.2641542、HEVC/H.2651543、HEVC/H.265(Scalable)1544、HEVC/H.265(Multi-view)1545、およびMPEG-DASH1551を有する。
MPEG-2 Video1541は、画像データをMPEG-2方式で符号化したり復号したりする機能ブロックである。AVC/H.2641542は、画像データをAVC方式で符号化したり復号したりする機能ブロックである。HEVC/H.2651543は、画像データをHEVC方式で符号化したり復号したりする機能ブロックである。HEVC/H.265(Scalable)1544は、画像データをHEVC方式でスケーラブル符号化したりスケーラブル復号したりする機能ブロックである。HEVC/H.265(Multi-view)1545は、画像データをHEVC方式で多視点符号化したり多視点復号したりする機能ブロックである。
MPEG-DASH1551は、画像データをMPEG-DASH(MPEG-Dynamic Adaptive Streaming over HTTP)方式で送受信する機能ブロックである。MPEG-DASHは、HTTP(HyperText Transfer Protocol)を使ってビデオのストリーミングを行う技術であり、予め用意された解像度等が互いに異なる複数の符号化データの中から適切なものをセグメント単位で選択し伝送することを特徴の1つとする。MPEG-DASH1551は、規格に準拠するストリームの生成やそのストリームの伝送制御等を行い、画像データの符号化・復号については、上述したMPEG-2 Video1541乃至HEVC/H.265(Multi-view)1545を利用する。
メモリインタフェース1517は、外部メモリ1312用のインタフェースである。画像処理エンジン1514やコーデックエンジン1516から供給されるデータは、メモリインタフェース1517を介して外部メモリ1312に供給される。また、外部メモリ1312から読み出されたデータは、メモリインタフェース1517を介してビデオプロセッサ1332(画像処理エンジン1514またはコーデックエンジン1516)に供給される。
多重化・逆多重化部(MUX DMUX)1518は、符号化データのビットストリーム、画像データ、ビデオ信号等、画像に関する各種データの多重化や逆多重化を行う。この多重化・逆多重化の方法は任意である。例えば、多重化の際に、多重化・逆多重化部(MUX DMUX)1518は、複数のデータを1つにまとめるだけでなく、所定のヘッダ情報等をそのデータに付加することもできる。また、逆多重化の際に、多重化・逆多重化部(MUX DMUX)1518は、1つのデータを複数に分割するだけでなく、分割した各データに所定のヘッダ情報等を付加することもできる。つまり、多重化・逆多重化部(MUX DMUX)1518は、多重化・逆多重化によりデータのフォーマットを変換することができる。例えば、多重化・逆多重化部(MUX DMUX)1518は、ビットストリームを多重化することにより、転送用のフォーマットのビットストリームであるトランスポートストリームや、記録用のファイルフォーマットのデータ(ファイルデータ)に変換することができる。もちろん、逆多重化によりその逆変換も可能である。
ネットワークインタフェース1519は、例えばブロードバンドモデム1333やコネクティビティ1321等向けのインタフェースである。ビデオインタフェース1520は、例えばコネクティビティ1321やカメラ1322等向けのインタフェースである。
次に、このようなビデオプロセッサ1332の動作の例について説明する。例えば、コネクティビティ1321やブロードバンドモデム1333等を介して外部ネットワークからトランスポートストリームを受信すると、そのトランスポートストリームは、ネットワークインタフェース1519を介して多重化・逆多重化部(MUX DMUX)1518に供給されて逆多重化され、コーデックエンジン1516により復号される。コーデックエンジン1516の復号により得られた画像データは、例えば、画像処理エンジン1514により所定の画像処理が施され、ディスプレイエンジン1513により所定の変換が行われ、ディスプレイインタフェース1512を介して例えばコネクティビティ1321等に供給され、その画像がモニタに表示される。また、例えば、コーデックエンジン1516の復号により得られた画像データは、コーデックエンジン1516により再符号化され、多重化・逆多重化部(MUX DMUX)1518により多重化されてファイルデータに変換され、ビデオインタフェース1520を介して例えばコネクティビティ1321等に出力され、各種記録媒体に記録される。
さらに、例えば、コネクティビティ1321等により図示せぬ記録媒体から読み出された、画像データが符号化された符号化データのファイルデータは、ビデオインタフェース1520を介して多重化・逆多重化部(MUX DMUX)1518に供給されて逆多重化され、コーデックエンジン1516により復号される。コーデックエンジン1516の復号により得られた画像データは、画像処理エンジン1514により所定の画像処理が施され、ディスプレイエンジン1513により所定の変換が行われ、ディスプレイインタフェース1512を介して例えばコネクティビティ1321等に供給され、その画像がモニタに表示される。また、例えば、コーデックエンジン1516の復号により得られた画像データは、コーデックエンジン1516により再符号化され、多重化・逆多重化部(MUX DMUX)1518により多重化されてトランスポートストリームに変換され、ネットワークインタフェース1519を介して例えばコネクティビティ1321やブロードバンドモデム1333等に供給され図示せぬ他の装置に伝送される。
なお、ビデオプロセッサ1332内の各処理部の間での画像データやその他のデータの授受は、例えば、内部メモリ1515や外部メモリ1312を利用して行われる。また、パワーマネージメントモジュール1313は、例えば制御部1511への電力供給を制御する。
このように構成されるビデオプロセッサ1332に本技術を適用する場合、コーデックエンジン1516に、上述した各実施形態に係る本技術を適用すればよい。つまり、例えば、コーデックエンジン1516が、上述した画像符号化装置100の機能若しくは画像復号装置200の機能またはその両方を有するようにすればよい。このようにすることにより、ビデオプロセッサ1332は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
なお、コーデックエンジン1516において、本技術(すなわち、画像符号化装置100の機能)は、論理回路等のハードウエアにより実現するようにしてもよいし、組み込みプログラム等のソフトウエアにより実現するようにしてもよいし、それらの両方により実現するようにしてもよい。
以上にビデオプロセッサ1332の構成を2例示したが、ビデオプロセッサ1332の構成は任意であり、上述した2例以外のものであってもよい。また、このビデオプロセッサ1332は、1つの半導体チップとして構成されるようにしてもよいが、複数の半導体チップとして構成されるようにしてもよい。例えば、複数の半導体を積層する3次元積層LSIとしてもよい。また、複数のLSIにより実現されるようにしてもよい。
<装置への適用例>
ビデオセット1300は、画像データを処理する各種装置に組み込むことができる。例えば、ビデオセット1300は、テレビジョン装置900(図84)、携帯電話機920(図85)、記録再生装置940(図86)、撮像装置960(図87)等に組み込むことができる。ビデオセット1300を組み込むことにより、その装置は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
なお、上述したビデオセット1300の各構成の一部であっても、ビデオプロセッサ1332を含むものであれば、本技術を適用した構成として実施することができる。例えば、ビデオプロセッサ1332のみを本技術を適用したビデオプロセッサとして実施することができる。また、例えば、上述したように点線1341により示されるプロセッサやビデオモジュール1311等を、本技術を適用したプロセッサやモジュール等として実施することができる。さらに、例えば、ビデオモジュール1311、外部メモリ1312、パワーマネージメントモジュール1313、およびフロントエンドモジュール1314を組み合わせ、本技術を適用したビデオユニット1361として実施することもできる。いずれの構成の場合であっても、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
つまり、ビデオプロセッサ1332を含むものであればどのような構成であっても、ビデオセット1300の場合と同様に、画像データを処理する各種装置に組み込むことができる。例えば、ビデオプロセッサ1332、点線1341により示されるプロセッサ、ビデオモジュール1311、または、ビデオユニット1361を、テレビジョン装置900(図84)、携帯電話機920(図85)、記録再生装置940(図86)、撮像装置960(図87)等に組み込むことができる。そして、本技術を適用したいずれかの構成を組み込むことにより、その装置は、ビデオセット1300の場合と同様に、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
<第6の応用例:ネットワークシステム>
また、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。図91は、本技術を適用したネットワークシステムの概略的な構成の一例を示している。
図91に示されるネットワークシステム1600は、機器同士が、ネットワークを介して画像(動画像)に関する情報を授受するシステムである。このネットワークシステム1600のクラウドサービス1601は、自身に通信可能に接続されるコンピュータ1611、AV(Audio Visual)機器1612、携帯型情報処理端末1613、IoT(Internet of Things)デバイス1614等の端末に対して、画像(動画像)に関するサービスを提供するシステムである。例えば、クラウドサービス1601は、所謂動画配信(オンデマンドやライブ配信)のような、画像(動画像)のコンテンツの供給サービスを端末に提供する。また、例えば、クラウドサービス1601は、端末から画像(動画像)のコンテンツを受け取って保管するバックアップサービスを提供する。また、例えば、クラウドサービス1601は、端末同士の画像(動画像)のコンテンツの授受を仲介するサービスを提供する。
クラウドサービス1601の物理構成は任意である。例えば、クラウドサービス1601は、動画像を保存し、管理するサーバ、動画像を端末に配信するサーバ、動画像を端末から取得するサーバ、ユーザ(端末)や課金を管理するサーバ等の各種サーバや、インターネットやLAN等の任意のネットワークを有するようにしてもよい。
コンピュータ1611は、例えば、パーソナルコンピュータ、サーバ、ワークステーション等のような情報処理装置により構成される。AV機器1612は、例えば、テレビジョン受像機、ハードディスクレコーダ、ゲーム機器、カメラ等のような画像処理装置により構成される。携帯型情報処理端末1613は、例えば、ノート型パーソナルコンピュータ、タブレット端末、携帯電話機、スマートフォン等のような携帯型の情報処理装置により構成される。IoTデバイス1614は、例えば、機械、家電、家具、その他の物、ICタグ、カード型デバイス等、画像に関する処理を行う任意の物体により構成される。これらの端末は、いずれも通信機能を有し、クラウドサービス1601に接続し(セッションを確立し)、クラウドサービス1601と情報の授受を行う(すなわち通信を行う)ことができる。また、各端末は、他の端末と通信を行うこともできる。端末間の通信は、クラウドサービス1601を介して行うようにしてもよいし、クラウドサービス1601を介さずに行うようにしてもよい。
以上のようなネットワークシステム1600に本技術を適用し、端末間や、端末とクラウドサービス1601との間で画像(動画像)のデータが授受される際に、その画像データを各実施の形態において上述したように符号化・復号するようにしてもよい。つまり、端末(コンピュータ1611乃至IoTデバイス1614)やクラウドサービス1601が、それぞれ、上述した画像符号化装置100や画像復号装置200の機能を有するようにしてもよい。このようにすることにより、画像データを授受する端末(コンピュータ1611乃至IoTデバイス1614)やクラウドサービス1601は、図1乃至図82を参照して上述した各実施の形態と同様の効果を得ることができる。
<その他>
なお、符号化データ(ビットストリーム)に関する各種情報は、符号化データに多重化されて伝送され又は記録されるようにしてもよいし、符号化データに多重化されることなく、符号化データと関連付けられた別個のデータとして伝送され又は記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る(リンクさせ得る)ようにすることを意味する。つまり、互いに関連付けられたデータは、1つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の記録媒体(又は同一の記録媒体の別の記録エリア)に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、1フレーム、又はフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。
また、上述したように、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを1つのデータにまとめるといった、複数の物を1つにまとめることを意味し、上述の「関連付ける」の1つの方法を意味する。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術を、他の実施の形態において説明した本技術と組み合わせて実施することもできる。また、上述した任意の本技術を、上述していない他の技術と併用して実施することもできる。
なお、本技術は以下のような構成も取ることができる。
(1) 画像と前記画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を、所定の上限値若しくは下限値またはその両方でクリップするクリップ処理部
を備える画像処理装置。
(2) 前記予測残差に対する変換処理であるプライマリ変換を行うプライマリ変換部と、
前記プライマリ変換部により前記予測残差が前記プライマリ変換されて得られるプライマリ変換係数に対する変換処理であるセカンダリ変換を行うセカンダリ変換部と
をさらに備え、
前記クリップ処理部は、前記セカンダリ変換部により前記プライマリ変換係数が前記セカンダリ変換されて得られるセカンダリ変換係数をクリップするように構成される
(1)に記載の画像処理装置。
(3) 前記プライマリ変換は直交変換であり、
前記セカンダリ変換は、
前記プライマリ変換係数を1次元のベクトルに変換し、
前記1次元のベクトルに対する行列演算を行い、
前記行列演算が行われた前記1次元のベクトルのスケーリングを行い、
スケーリングされた前記1次元のベクトルを行列化する
変換処理である
(1)または(2)に記載の画像処理装置。
(4) 前記変換係数を1次元のベクトルに変換するラスタライズ部と、
前記1次元のベクトルに対する行列演算を行う行列演算部と、
前記行列演算が行われた前記1次元のベクトルのスケーリングを行うスケーリング部と、
スケーリングされた前記1次元のベクトルを行列化する行列化部と
をさらに備え、
前記クリップ処理部は、前記スケーリング部によりスケーリングされた前記1次元のベクトルをクリップするように構成され、
前記行列化部は、前記クリップ処理部によりクリップされた前記1次元のベクトルを行列化するように構成される
(1)乃至(3)のいずれかに記載の画像処理装置。
(5) 前記予測残差は変換ブロックのサブブロック毎に変換処理され、
前記クリップ処理部は、前記変換係数をサブブロック毎にクリップする
(1)乃至(4)のいずれかに記載の画像処理装置。
(6) 前記サブブロックは、4×4の変換係数により構成される
(1)乃至(5)のいずれかに記載の画像処理装置。
(7) 前記上限値は、215 - 1であり、
前記下限値は、-215である
(1)乃至(6)のいずれかに記載の画像処理装置。
(8) 前記クリップ処理部によりクリップされた前記変換係数に対して量子化を行う量子化部と、
前記量子化部による前記変化係数が量子化されて得られる量子化変換係数レベルを符号化する符号化部と
をさらに備える(1)乃至(7)のいずれかに記載の画像処理装置。
(9) 前記予測画像を生成する予測部
をさらに備える(1)乃至(8)のいずれかに記載の画像処理装置。
(10) 画像と前記画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を、所定の上限値若しくは下限値またはその両方でクリップする
画像処理方法。
(11) 逆変換処理することにより画像と前記画像の予測画像との差分である予測残差が得られる変換係数を、所定の上限値若しくは下限値またはその両方でクリップするクリップ処理部
を備える画像処理装置。
(12) 前記変換係数に対して逆セカンダリ変換を行う逆セカンダリ変換部と、
前記変換係数が前記逆セカンダリ変換されて得られるプライマリ変換係数に対して逆プライマリ変換を行う逆プライマリ変換部と
をさらに備え、
前記クリップ処理部は、前記逆セカンダリ変換部により前記変換係数が前記逆セカンダリ変換されて得られる前記プライマリ変換係数をクリップするように構成され、
前記プライマリ変換部は、前記クリップ処理部によりクリップされた前記プライマリ変換係数に対して前記逆プライマリ変換を行うように構成される
(11)に記載の画像処理装置。
(13) 前記逆セカンダリ変換は、
前記変換係数を1次元のベクトルに変換し、
前記1次元のベクトルに対する行列演算を行い、
前記行列演算が行われた前記1次元のベクトルのスケーリングを行い、
スケーリングされた前記1次元のベクトルを行列化する
変換処理であり、
前記逆プライマリ変換は逆直交変換である
(11)または(12)に記載の画像処理装置。
(14) 前記変換係数を1次元のベクトルに変換するラスタライズ部と、
前記1次元のベクトルに対する行列演算を行う行列演算部と、
前記行列演算が行われた前記1次元のベクトルのスケーリングを行うスケーリング部と、
スケーリングされた前記1次元のベクトルを行列化する行列化部と
をさらに備え、
前記クリップ処理部は、前記スケーリング部によりスケーリングされた前記1次元のベクトルをクリップするように構成され、
前記行列化部は、前記クリップ処理部によりクリップされた前記1次元のベクトルを行列化するように構成される
(11)乃至(13)のいずれかに記載の画像処理装置。
(15) 前記クリップ処理部は、前記変換係数を変換ブロックのサブブロック毎にクリップする
(11)乃至(14)のいずれかに記載の画像処理装置。
(16) 前記サブブロックは、4×4の変換係数により構成される
(11)乃至(15)のいずれかに記載の画像処理装置。
(17) 前記上限値は、215 - 1であり、
前記下限値は、-215である
(11)乃至(16)のいずれかに記載の画像処理装置。
(18) 符号化データを復号する復号部と、
前記復号部により、前記符号化データが復号されて得られる量子化変換係数レベルを逆量子化して前記変換係数を得る逆量子化部と
をさらに備える(11)乃至(17)のいずれかに記載の画像処理装置。
(19) 前記予測画像を生成する予測部
をさらに備える(11)乃至(18)のいずれかに記載の画像処理装置。
(20) 逆変換処理することにより画像と前記画像の予測画像との差分である予測残差が得られる変換係数を、所定の上限値若しくは下限値またはその両方でクリップする
画像処理方法。
(21) 画像と前記画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を1次元のベクトルに変換するラスタライズ部と、
前記1次元のベクトルのシフト量を導出するシフト量導出部と、
前記1次元のベクトルに対する行列演算を行う行列演算部と、
前記行列演算が行われた前記1次元のベクトルに対して、前記シフト量導出部により導出される前記シフト量に応じたスケーリングを行うスケーリング部と、
スケーリングされた前記1次元のベクトルを行列化する行列化部と
を備える画像処理装置。
(22) 前記シフト量導出部は、前記変換係数のダイナミックレンジ幅と、前記行列演算部が前記行列演算に用いる行列とに基づいて、前記シフト量を導出する
(21)に記載の画像処理装置。
(23) 前記変換係数のダイナミックレンジ幅は16である
(21)または(22)に記載の画像処理装置。
(24) 前記シフト量導出部は、前記変換係数のダイナミックレンジ幅と、前記行列とに基づいて、前記行列化部により前記1次元のベクトルが行列化されて得られるセカンダリ変換係数のダイナミックレンジの上限値を導出する
(21)乃至(23)のいずれかに記載の画像処理装置。
(25) 前記シフト量導出部は、前記セカンダリ変換係数のダイナミックレンジの上限値と、中間バッファのダイナミックレンジの上限値との差に天井関数を用いて前記シフト量を導出する
(21)乃至(24)のいずれかに記載の画像処理装置。
(26) 前記中間バッファのダイナミックレンジ幅は16である
(21)乃至(25)のいずれかに記載の画像処理装置。
(27) 前記変換係数を変換ブロックのサブブロック毎に処理される
(21)乃至(26)のいずれかに記載の画像処理装置。
(28) 前記サブブロックは、4×4の変換係数により構成される
(21)乃至(27)のいずれかに記載の画像処理装置。
(29) 前記予測残差をプライマリ変換するプライマリ変換部と、
前記行列化部により前記1次元のベクトルが行列化されて得られるセカンダリ変換係数に対して量子化を行う量子化部と、
前記量子化部により前記セカンダリ変化係数が量子化されて得られる量子化変換係数レベルを符号化する符号化部と
をさらに備え、
前記ラスタライズ部は、前記プライマリ変換部により前記予測残差が前記プライマリ変換されて得られるプライマリ変換係数を1次元のベクトルに変換するように構成される
(21)乃至(28)のいずれかに記載の画像処理装置。
(30) 画像と前記画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を1次元のベクトルに変換し、
前記1次元のベクトルのシフト量を導出し、
前記1次元のベクトルに対する行列演算を行い、
前記行列演算が行われた前記1次元のベクトルに対して、導出される前記シフト量に応じたスケーリングを行い、
スケーリングされた前記1次元のベクトルを行列化する
画像処理方法。
(31) 逆変換処理することにより画像と前記画像の予測画像との差分である予測残差が得られる変換係数を1次元のベクトルに変換するラスタライズ部と、
前記1次元のベクトルのシフト量を導出するシフト量導出部と、
前記1次元のベクトルに対する行列演算を行う行列演算部と、
前記行列演算が行われた前記1次元のベクトルに対して、前記シフト量導出部により導出される前記シフト量に応じたスケーリングを行うスケーリング部と、
スケーリングされた前記1次元のベクトルを行列化する行列化部と
を備える画像処理装置。
(32) 前記シフト量導出部は、前記変換係数のダイナミックレンジ幅と、前記行列演算部が前記行列演算に用いる行列とに基づいて、前記シフト量を導出する
(31)に記載の画像処理装置。
(33) 前記変換係数のダイナミックレンジ幅は16である
(31)または(32)に記載の画像処理装置。
(34) 前記シフト量導出部は、前記変換係数のダイナミックレンジ幅と、前記行列とに基づいて、前記行列化部により前記1次元のベクトルが行列化されて得られるプライマリ変換係数のダイナミックレンジの上限値を導出する
(31)乃至(33)のいずれかに記載の画像処理装置。
(35) 前記シフト量導出部は、前記プライマリ変換係数のダイナミックレンジの上限値と、中間バッファのダイナミックレンジの上限値との差に天井関数を用いて前記シフト量を導出する
(31)乃至(34)のいずれかに記載の画像処理装置。
(36) 前記中間バッファのダイナミックレンジ幅は16である
(31)乃至(35)のいずれかに記載の画像処理装置。
(37) 前記変換係数を変換ブロックのサブブロック毎に処理される
(31)乃至(36)のいずれかに記載の画像処理装置。
(38) 前記サブブロックは、4×4の変換係数により構成される
(31)乃至(37)のいずれかに記載の画像処理装置。
(39) 符号化データを復号する復号部と、
前記復号部により前記符号化データが復号されて得られる量子化変換係数レベルを逆量子化する逆量子化部と、
前記行列化部により前記1次元のベクトルが行列化されて得られるプライマリ変換係数を逆プライマリ変換する逆プライマリ変換部と
をさらに備え、
前記ラスタライズ部は、前記逆量子化部により前記量子化変換係数レベルが前記逆量子化されて得られるセカンダリ変換係数を1次元のベクトルに変換するように構成される
(31)乃至(38)のいずれかに記載の画像処理装置。
(40) 逆変換処理することにより画像と前記画像の予測画像との差分である予測残差が得られる変換係数を1次元のベクトルに変換し、
前記1次元のベクトルのシフト量を導出し、
前記1次元のベクトルに対する行列演算を行い、
前記行列演算が行われた前記1次元のベクトルに対して、導出される前記シフト量に応じたスケーリングを行い、
スケーリングされた前記1次元のベクトルを行列化する
画像処理方法。
(41) 画像と前記画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を1次元のベクトルに変換するラスタライズ部と、
前記1次元のベクトルに対して複数回の行列積よりなる行列演算を行う行列演算部と、 前記行列演算が行われた前記1次元のベクトルに対してスケーリングを行うスケーリング部と、
スケーリングされた前記1次元のベクトルを行列化する行列化部と
を備える画像処理装置。
(42) 前記行列演算部は、第1の直交行列乃至第4の直交行列、並びに、第1の置換行列乃至第3の置換行列を用いて、前記ラスタライズ部により前記変換係数が変換されて得られた前記1次元のベクトルである第1の行ベクトルに対して前記行列演算を行い、第2の行ベクトルを求める
(41)に記載の画像処理装置。
(43) 前記行列演算部は、
前記第1の直交行列と前記第1の行ベクトルとの行列積である第1の行列積を求める第1の回転操作部と、
前記第1の置換行列と前記第1の行列積との行列積である第2の行列積を求める第1の置換操作部と、
前記第2の直交行列と前記第2の行列積との行列積である第3の行列積を求める第2の回転操作部と、
前記第2の置換行列と前記第1の置換行列の転置行列と前記第3の行列積との行列積である第4の行列積を求める第2の置換操作部と、
前記第3の直交行列と前記第4の行列積との行列積である第5の行列積を求める第3の回転操作部と、
前記第3の置換行列と前記第2の置換行列の転置行列と前記第5の行列積との行列積である第6の行列積を求める第3の置換操作部と、
前記第4の直交行列と前記第6の行列積との行列積である第7の行列積を求める第4の回転操作部と、
前記第3の置換行列の転置行列と前記第7の行列積との行列積を求めることにより、前記第2の行ベクトルを求める第4の置換操作部と
を備える(41)または(42)に記載の画像処理装置。
(44) 前記第1の直交行列乃至前記第4の直交行列は、それぞれ、対角成分に互いに異なる8個の2×2回転行列を有し、その他の要素は0である疎行列である
(41)乃至(43)のいずれかに記載の画像処理装置。
(45) 前記第1の置換行列乃至前記第3の置換行列は、置換対象の要素を互いに異なる順に並べ替える置換行列である
(41)乃至(44)のいずれかに記載の画像処理装置。
(46) 前記第1の置換行列は、前記置換対象の第0番目乃至第15番目の各要素を、第0番目の要素、第2番目の要素、第1番目の要素、第3番目の要素、第4番目の要素、第6番目の要素、第5番目の要素、第7番目の要素、第8番目の要素、第10番目の要素、第9番目の要素、第11番目の要素、第12番目の要素、第14番目の要素、第13番目の要素、第15番目の要素の順に並べ替え、
前記第2の置換行列は、前記置換対象の第0番目乃至第15番目の各要素を、第0番目の要素、第4番目の要素、第2番目の要素、第6番目の要素、第1番目の要素、第5番目の要素、第3番目の要素、第7番目の要素、第8番目の要素、第12番目の要素、第10番目の要素、第14番目の要素、第9番目の要素、第13番目の要素、第11番目の要素、第15番目の要素の順に並べ替え、
前記第3の置換行列は、前記置換対象の第0番目乃至第15番目の各要素を、第0番目の要素、第8番目の要素、第2番目の要素、第10番目の要素、第4番目の要素、第12番目の要素、第6番目の要素、第14番目の要素、第1番目の要素、第9番目の要素、第3番目の要素、第11番目の要素、第5番目の要素、第13番目の要素、第7番目の要素、第15番目の要素の順に並べ替える
(41)乃至(45)のいずれかに記載の画像処理装置。
(47) 前記予測残差をプライマリ変換するプライマリ変換部をさらに備え、
前記ラスタライズ部は、前記プライマリ変換部により前記予測残差が前記プライマリ変換されて得られるプライマリ変換係数を1次元のベクトルに変換するように構成される
(41)乃至(46)のいずれかに記載の画像処理装置。
(48) 前記行列化部により前記1次元のベクトルが行列化されて得られるセカンダリ変換係数に対して量子化を行う量子化部と、
前記量子化部により前記セカンダリ変化係数が量子化されて得られる量子化変換係数レベルを符号化する符号化部と
をさらに備える(41)乃至(47)のいずれかに記載の画像処理装置。
(49) 前記予測画像を生成する予測部
をさらに備える(41)乃至(48)のいずれかに記載の画像処理装置。
(50) 画像と前記画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を1次元のベクトルに変換し、
前記1次元のベクトルに対して複数回の行列積よりなる行列演算を行い、
前記行列演算が行われた前記1次元のベクトルに対してスケーリングを行い、
スケーリングされた前記1次元のベクトルを行列化する
画像処理方法。
(51) 逆変換処理することにより画像と前記画像の予測画像との差分である予測残差が得られる変換係数を1次元のベクトルに変換するラスタライズ部と、
前記1次元のベクトルに対して複数回の行列積よりなる行列演算を行う行列演算部と、 前記行列演算が行われた前記1次元のベクトルに対してスケーリングを行うスケーリング部と、
スケーリングされた前記1次元のベクトルを行列化する行列化部と
を備える画像処理装置。
(52) 前記行列演算部は、第1の直交行列乃至第4の直交行列、並びに、第1の置換行列乃至第3の置換行列を用いて、前記ラスタライズ部により前記変換係数が変換されて得られた前記1次元のベクトルである第1の行ベクトルに対して前記行列演算を行い、第2の行ベクトルを求める
(51)に記載の画像処理装置。
(53) 前記行列演算部は、
前記第4の直交行列の転置行列と前記第1の行ベクトルとの行列積である第1の行列積を求める第1の回転操作部と、
前記第2の置換行列と前記第3の置換行列の転置行列と前記第1の行列積との行列積である第2の行列積を求める第1の置換操作部と、
前記第3の直交行列の転置行列と前記第2の行列積との行列積である第3の行列積を求める第2の回転操作部と、
前記第1の置換行列と前記第2の置換行列の転置行列と前記第3の行列積との行列積である第4の行列積を求める第2の置換操作部と、
前記第2の直交行列の転置行列と前記第4の行列積との行列積である第5の行列積を求める第3の回転操作部と、
前記第1の置換行列の転置行列と前記第5の行列積との行列積である第6の行列積を求める第3の置換操作部と、
前記第1の直交行列の転置行列と前記第6の行列積との行列積を求めることにより、前記第2の行ベクトルを求める第4の回転操作部と
を備える(51)または(52)に記載の画像処理装置。
(54) 前記第1の直交行列乃至前記第4の直交行列は、それぞれ、対角成分に互いに異なる8個の2×2回転行列を有し、その他の要素は0である疎行列である
(51)乃至(53)のいずれかに記載の画像処理装置。
(55) 前記第1の置換行列乃至前記第3の置換行列は、置換対象の要素を互いに異なる順に並べ替える置換行列である
(51)乃至(54)のいずれかに記載の画像処理装置。
(56) 前記第1の置換行列は、前記置換対象の第0番目乃至第15番目の各要素を、第0番目の要素、第2番目の要素、第1番目の要素、第3番目の要素、第4番目の要素、第6番目の要素、第5番目の要素、第7番目の要素、第8番目の要素、第10番目の要素、第9番目の要素、第11番目の要素、第12番目の要素、第14番目の要素、第13番目の要素、第15番目の要素の順に並べ替え、
前記第2の置換行列は、前記置換対象の第0番目乃至第15番目の各要素を、第0番目の要素、第4番目の要素、第2番目の要素、第6番目の要素、第1番目の要素、第5番目の要素、第3番目の要素、第7番目の要素、第8番目の要素、第12番目の要素、第10番目の要素、第14番目の要素、第9番目の要素、第13番目の要素、第11番目の要素、第15番目の要素の順に並べ替え、
前記第3の置換行列は、前記置換対象の第0番目乃至第15番目の各要素を、第0番目の要素、第8番目の要素、第2番目の要素、第10番目の要素、第4番目の要素、第12番目の要素、第6番目の要素、第14番目の要素、第1番目の要素、第9番目の要素、第3番目の要素、第11番目の要素、第5番目の要素、第13番目の要素、第7番目の要素、第15番目の要素の順に並べ替える
(51)乃至(55)のいずれかに記載の画像処理装置。
(57) 符号化データを復号する復号部と、
前記復号部により前記符号化データが復号されて得られる量子化変換係数レベルを逆量子化する逆量子化部と
をさらに備え、
前記ラスタライズ部は、前記逆量子化部により前記量子化変換係数レベルが前記逆量子化されて得られるセカンダリ変換係数を1次元のベクトルに変換するように構成される
(51)乃至(56)のいずれかに記載の画像処理装置。
(58) 前記行列化部により前記1次元のベクトルが行列化されて得られるプライマリ変換係数を逆プライマリ変換する逆プライマリ変換部
をさらに備える(51)乃至(57)のいずれかに記載の画像処理装置。
(59) 前記予測画像を生成する予測部
をさらに備える(51)乃至(58)のいずれかに記載の画像処理装置。
(60) 逆変換処理することにより画像と前記画像の予測画像との差分である予測残差が得られる変換係数を1次元のベクトルに変換し、
前記1次元のベクトルに対して複数回の行列積よりなる行列演算を行い、
前記行列演算が行われた前記1次元のベクトルに対してスケーリングを行い、
スケーリングされた前記1次元のベクトルを行列化する
画像処理方法。
(61) 要素数2N点の行ベクトルX0(Nは自然数)と、N個の2N×2Nの直交行列Ti(i=1,2,・・・,N)より構成される直交行列Rとの行列積を導出することにより、前記行ベクトルX0を要素数2N点の行ベクトルXnに変換する変換部
を備える画像処理装置。
(62) 前記直交行列Tiは、第iの置換行列Piの転置行列Pi
Tと、第iの直交行列Fiと、第iの置換行列Piとの行列積(Pi
T・Fi・Pi)からなる
(61)に記載の画像処理装置。
(63) 前記変換部は、前記第iの直交行列Tiと第i-1(i>0)の行ベクトルXi-1の転置行列Xi-1
Tとの行列積Xiを導出する
(62)に記載の画像処理装置。
(64) 前記直交行列Fiは、対角成分に互いに異なる2N-1個の2×2回転行列を有し、その他の要素は0である疎行列である
(62)または(63)に記載の画像処理装置。
(65) 前記置換行列Piは、順方向に2i個の要素からなるN-i+1個のサブセットに分割し、各サブセットjの左半分の要素群を第1のクラスとし、右半分の要素群を第2のクラスとし、前記第1のクラスの奇数番目の要素Kを前記第2のクラスの対応する奇数番目Lの要素の右隣の偶数番目の要素Mと入れ替えることで導出される行列である
(62)乃至(64)のいずれかに記載の画像処理装置。
(66) 前記Nは4である
(61)乃至(65)のいずれかに記載の画像処理装置。
(67) 前記Nは6である
(61)乃至(66)のいずれかに記載の画像処理装置。
(68) 要素数2N点の1次元のベクトルからなる前記行ベクトルX0を生成するラスタライズ部をさらに備え、
前記変換部は、前記ラスタライズ部により得られた前記行ベクトルX0と前記直交行列Rとの行列積を導出することにより、前記行ベクトルX0を前記行ベクトルXnに変換する
(61)乃至(67)のいずれかに記載の画像処理装置。
(69) 前記ラスタライズ部は、画像と前記画像の予測画像との差分である予測残差が変換処理されて得られる変換係数を、要素数2N点の1次元のベクトルからなる前記行ベクトルX0に変換する
(68)に記載の画像処理装置。
(70) 前記ラスタライズ部は、画像と前記画像の予測画像との差分である予測残差を、要素数2N点の1次元のベクトルからなる前記行ベクトルX0に変換する
(68)または(69)に記載の画像処理装置。
(71) 参照画像とカレントブロックの予測画像との残差の集合からなる学習サンプルを用いて、前記直交行列Rを導出する直交行列導出部をさらに備え、
前記変換部は、前記ラスタライズ部により得られた前記行ベクトルX0と、前記直交行列導出部により導出された前記直交行列Rとの行列積を導出することにより、前記行ベクトルX0を前記行ベクトルXnに変換する
(70)に記載の画像処理装置。
(72) 前記学習サンプルを導出する学習サンプル導出部をさらに備え、
前記直交行列導出部は、前記学習サンプル導出部により導出された前記学習サンプルを用いて前記直交行列Rを導出する
(71)に記載の画像処理装置。
(73) 前記学習サンプル導出部は、前記カレントブロックの予測画像と、前記参照画像との比較を所定のサイズのテンプレート単位で行い、前記比較において前記カレントブロックの予測画像と類似すると判定された前記参照画像と前記カレントブロックの予測画像との残差を求めることにより前記学習サンプルを導出する
(72)に記載の画像処理装置。
(74) 前記変換部は、変換ブロックのうちの一部のサブブロックについてのみ、前記行ベクトルX0を前記行ベクトルXnに変換する
(61)乃至(73)のいずれかに記載の画像処理装置。
(75) 前記変換部は、低周波側の一部のサブブロックについてのみ、前記行ベクトルX0を前記行ベクトルXnに変換する
(74)に記載の画像処理装置。
(76) 前記変換部は、スキャン順において先頭から連続する一部のサブブロックについてのみ、前記行ベクトルX0を前記行ベクトルXnに変換する
(75)に記載の画像処理装置。
(77) 前記変換部は、前記スキャン順が斜め方向の場合、前記変換ブロックの左上端の4×4サブブロック、上から2段目の左端の4×4サブブロック、最上段の左から2番目の4×4サブブロック、上から3段目の左端の4×4サブブロックに対して、この順に、前記行ベクトルX0から前記行ベクトルXnへの変換を行う
(76)に記載の画像処理装置。
(78) 前記変換部は、前記スキャン順が水平方向の場合、前記変換ブロックの左上端の4×4サブブロック、最上段の左から2番目の4×4サブブロック、最上段の左から3番目の4×4サブブロック、最上段の左から4番目の4×4サブブロックに対して、この順に、前記行ベクトルX0から前記行ベクトルXnへの変換を行う
(76)または(77)に記載の画像処理装置。
(79) 前記変換部は、前記スキャン順が垂直方向の場合、前記変換ブロックの左上端の4×4サブブロック、上から2段目の左端の4×4サブブロック、上から3段目の左端の4×4サブブロック、上から4段目の左端の4×4サブブロックに対して、この順に、前記行ベクトルX0から前記行ベクトルXnへの変換を行う
(76)乃至(78)のいずれかに記載の画像処理装置。
(80) 要素数2N点の行ベクトルX0(Nは自然数)と、N個の2N×2Nの直交行列Ti(i=1,2,・・・,N)より構成される直交行列Rとの行列積を導出することにより、前記行ベクトルX0を要素数2N点の行ベクトルXnに変換する
画像処理方法。
(81) 要素数2N点の行ベクトルX0(Nは自然数)と、N個の2N×2Nの直交行列Ti(i=1,2,・・・,N)より構成される直交行列Rの逆行列である直交行列IRとの行列積を導出することにより、前記行ベクトルX0を要素数2N点の行ベクトルXnに逆変換する逆変換部
を備える画像処理装置。
(82) 前記直交行列IRは、前記直交行列Tiの転置行列Ti
Tにより構成され、
前記直交行列Ti
Tは、第iの置換行列Piの転置行列Pi
Tと、第iの直交行列Fiの転置行列Fi
Tと、第iの置換行列Piとの行列積(Pi
T・Fi
T・Pi)からなる
(81)に記載の画像処理装置。
(83) 前記逆変換部は、前記第iの直交行列Tiの転置行列Ti
Tと第i-1(i>0)の行ベクトルXi-1の転置行列Xi-1
Tとの行列積Xiを導出する
(82)に記載の画像処理装置。
(84) 前記直交行列Fiは、対角成分に互いに異なる2N-1個の2×2回転行列を有し、その他の要素は0である疎行列である
(82)または(83)に記載の画像処理装置。
(85) 前記置換行列Piは、順方向に2i個の要素からなるN-i+1個のサブセットに分割し、各サブセットjの左半分の要素群を第1のクラスとし、右半分の要素群を第2のクラスとし、前記第1のクラスの奇数番目の要素Kを前記第2のクラスの対応する奇数番目Lの要素の右隣の偶数番目の要素Mと入れ替えることで導出される行列である
(82)乃至(84)のいずれかに記載の画像処理装置。
(86) 前記Nは4である
(81)乃至(85)のいずれかに記載の画像処理装置。
(87) 前記Nは6である
(81)乃至(86)のいずれかに記載の画像処理装置。
(88) 前記逆変換部は、逆セカンダリ変換として前記行ベクトルX0を要素数2N点の行ベクトルXnに逆変換する
(81)乃至(87)のいずれかに記載の画像処理装置。
(89) 前記逆変換部は、SDT(Signal Dependent Transform)として前記行ベクトルX0を要素数2N点の行ベクトルXnに逆変換する
(81)乃至(88)のいずれかに記載の画像処理装置。
(90) 参照画像とカレントブロックの予測画像との残差の集合からなる学習サンプルを用いて、前記直交行列IRを導出する直交行列導出部をさらに備え、
前記逆変換部は、前記行ベクトルX0と、前記直交行列導出部により導出された前記直交行列IRとの行列積を導出することにより、前記行ベクトルX0を前記行ベクトルXnに変換する
(89)に記載の画像処理装置。
(91) 前記学習サンプルを導出する学習サンプル導出部をさらに備え、
前記直交行列導出部は、前記学習サンプル導出部により導出された前記学習サンプルを用いて前記直交行列IRを導出する
(90)に記載の画像処理装置。
(92) 前記学習サンプル導出部は、前記カレントブロックの予測画像と、前記参照画像との比較を所定のサイズのテンプレート単位で行い、前記比較において前記カレントブロックの予測画像と類似すると判定された前記参照画像と前記カレントブロックの予測画像との残差を求めることにより前記学習サンプルを導出する
(91)に記載の画像処理装置。
(93) 前記直交行列導出部は、直交行列Rを用いて前記直交行列IRを導出する
(90)乃至(92)のいずれかに記載の画像処理装置。
(94) 前記逆変換部は、変換ブロックのうちの一部のサブブロックについてのみ、前記行ベクトルX0を前記行ベクトルXnに変換する
(81)乃至(93)のいずれかに記載の画像処理装置。
(95) 前記逆変換部は、低周波側の一部のサブブロックについてのみ、前記行ベクトルX0を前記行ベクトルXnに変換する
(94)に記載の画像処理装置。
(96) 前記逆変換部は、スキャン順において先頭から連続する一部のサブブロックについてのみ、前記行ベクトルX0を前記行ベクトルXnに変換する
(95)に記載の画像処理装置。
(97) 前記逆変換部は、前記スキャン順が斜め方向の場合、前記変換ブロックの左上端の4×4サブブロック、上から2段目の左端の4×4サブブロック、最上段の左から2番目の4×4サブブロック、上から3段目の左端の4×4サブブロックに対して、この順に、前記行ベクトルX0から前記行ベクトルXnへの変換を行う
(96)に記載の画像処理装置。
(98) 前記逆変換部は、前記スキャン順が水平方向の場合、前記変換ブロックの左上端の4×4サブブロック、最上段の左から2番目の4×4サブブロック、最上段の左から3番目の4×4サブブロック、最上段の左から4番目の4×4サブブロックに対して、この順に、前記行ベクトルX0から前記行ベクトルXnへの変換を行う
(96)または(97)に記載の画像処理装置。
(99) 前記逆変換部は、前記スキャン順が垂直方向の場合、前記変換ブロックの左上端の4×4サブブロック、上から2段目の左端の4×4サブブロック、上から3段目の左端の4×4サブブロック、上から4段目の左端の4×4サブブロックに対して、この順に、前記行ベクトルX0から前記行ベクトルXnへの変換を行う
(96)乃至(98)のいずれかに記載の画像処理装置。
(100) 要素数2N点の行ベクトルX0(Nは自然数)と、N個の2N×2Nの直交行列Ti(i=1,2,・・・,N)より構成される直交行列Rの逆行列である直交行列IRとの行列積を導出することにより、前記行ベクトルX0を要素数2N点の行ベクトルXnに逆変換する
画像処理方法。