JP2022526375A

JP2022526375A - ビデオコーディングのための拡張されたマルチプル変換選択

Info

Publication number: JP2022526375A
Application number: JP2021557963A
Authority: JP
Inventors: エイイレメゼ、ヒルミ・エネス; セレジン、バディム; サイド、アミール; カルチェビチ、マルタ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2019-04-05
Filing date: 2020-04-03
Publication date: 2022-05-24
Also published as: US11683527B2; US20220030278A1; WO2020206286A1; US20200322636A1; CN113632472A; SG11202109470VA; KR20210142642A; BR112021018855A2; US11240534B2; EP3949399A1

Abstract

ビデオデータをコーディングするための例示的なデバイスは、ビデオデータを記憶するように構成されたメモリと、回路においてインプリメントされる１つまたは複数のプロセッサとを含み、１つまたは複数のプロセッサは、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換のセットからの２次変換を表す第２のコードワードをコーディングすることと、現在のブロックのための残差データのコーディング中に、１次変換および２次変換を適用することと、を行うように構成される。第２のコードワードは、低周波数非分離可能変換（ＬＦＮＳＴ）シンタックス要素の値であり得る。【選択図】図９

Description

関連出願の相互参照

[0001]本願は、２０２０年４月２日に出願された米国特許出願第１６／８３８，５５３号、２０１９年４月５日に出願された米国仮特許出願第６２／８３０，１２５号、および２０１９年５月３１日に出願された米国仮特許出願第６２／８５５，３９８号の利益を主張し、これら各々の内容全体が、参照により本明細書に組み込まれている。

[0002]本開示は、ビデオ符号化およびビデオ復号を含む、ビデオコーディングに関する。

[0003]デジタルビデオ能力は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダ、デジタルカメラ、デジタル記録デバイス、デジタルメディアプレーヤ、ビデオゲームデバイス、ビデオゲームコンソール、セルラ式または衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、広範囲のデバイスに組み込まれ得る。デジタルビデオデバイスは、ＭＰＥＧ－２、ＭＰＥＧ－４、ＩＴＵ－ＴＨ．２６３、ＩＴＵ－ＴＨ．２６４／ＭＰＥＧ－４、パート１０、アドバンストビデオコーディング（ＡＶＣ）、高効率ビデオコーディング（ＨＥＶＣ）規格、ＩＴＵ－ＴＨ．２６５／高効率ビデオコーディング（ＨＥＶＣ）によって定義された規格、およびこのような規格の拡張に記載されているものなどの、ビデオコーディング技法をインプリメントする。ビデオデバイスは、このようなビデオコーディング技法をインプリメントすることによって、デジタルビデオ情報をより効率的に送信、受信、符号化、復号、および／または記憶し得る。

[0004]ビデオコーディング技法は、ビデオシーケンスに固有の冗長性を低減または除去するための、空間的（イントラピクチャ）予測および／または時間的（インターピクチャ）予測を含む。ブロックベースのビデオコーディングの場合、ビデオスライス（例えば、ビデオピクチャまたはビデオピクチャの一部分）が、ビデオブロックに区分され得、これは、コーディングツリーユニット（ＣＴＵ）、コーディングユニット（ＣＵ）、および／またはコーディングノードとも呼ばれ得る。ピクチャのイントラコーディングされた（Ｉ）スライス中のビデオブロックは、同じピクチャ内の隣接ブロックにおける参照サンプルに対して空間的予測を使用して符号化される。ピクチャのインターコーディングされた（ＰまたはＢ）スライス中のビデオブロックは、同じピクチャ内の隣接ブロックにおける参照サンプルに対して空間的予測を使用し得、または他の参照ピクチャ内の参照サンプルに対して時間的予測を使用し得る。ピクチャは、フレームと呼ばれ得、参照ピクチャは、参照フレームと呼ばれ得る。

[0005]一般に、本開示は、ビデオコーディングにおける変換コーディングに関する技法を説明する。変換コーディングは、現代のビデオ圧縮規格の重要な要素である。本開示は、汎用のビデオコーディング（ＶＶＣ：Versatile Video Coding）／ＩＴＵ－ＴＨ．２６６のものなど、他のＭＴＳツールを拡張するマルチプル変換選択（ＭＴＳ：multiple transform selection）設計を説明する。本開示で説明される設計は、エンコーダがより多くの変換候補から変換を選ぶことを可能にするので、これらの技法は、コーディング効率を改善し得る。本開示はまた、コーディング効率の著しい低下なしにエンコーダおよびデコーダの複雑さを低減し得る低周波数非分離可能変換（ＬＦＮＳＴ：Low-Frequency Non-separable Transformation）の様々な簡略化されたバージョンを説明する。したがって、これらの技法は、アドバンストビデオコーデック、およびＶＶＣなどの次世代ビデオコーディング規格において使用され得る。

[0006]一例では、ビデオデータをコーディング（符号化または復号）する方法が、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの１つの選択された変換方式を表す第１のコードワードをコーディングすることと、該選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの１つの２次変換であり、利用可能な２次変換の該セットからの該２次変換を表す第２のコードワードをコーディングすることと、該現在のブロックのための残差データのコーディング中に、該１次変換および該２次変換を適用することと、を含む。

[0007]別の例では、ビデオデータをコーディングするためのデバイスが、ビデオデータを記憶するように構成されたメモリと、回路中にインプリメントされる１つまたは複数のプロセッサとを含み、１つまたは複数のプロセッサは、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、該選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換の該セットからの該２次変換を表す第２のコードワードをコーディングすることと、該現在のブロックのための残差データのコーディング中に、該１次変換および該２次変換を適用することと、を行うように構成される。

[0008]別の例では、ビデオデータをコーディングするためのデバイスが、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングするための手段と、該選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換の該セットからの該２次変換を表す第２のコードワードをコーディングするための手段と、該現在のブロックのための残差データのコーディング中に、該１次変換および該２次変換を適用するための手段と、を含む。

[0009]別の例では、コンピュータ可読記憶媒体が、実行されると、プロセッサに、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、該選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換の該セットからの該２次変換を表す第２のコードワードをコーディングすることと、該現在のブロックのための残差データのコーディング中に、該１次変換および該２次変換を適用することと、を行わせる命令を記憶している。

[0010]１つまたは複数の例の詳細が、添付の図面および以下の説明に記載される。他の特徴、目的、および利点が、説明および図面、ならびに特許請求の範囲から明らかになるであろう。

[0011]図１は、本開示の技法を実行し得る例示的なビデオ符号化および復号システムを示すブロック図である。 [0012]図２Ａは、例示的な４分木２分木（ＱＴＢＴ）構造を示す概念図である。図２Ｂは、対応するコーディングツリーユニット（ＣＴＵ）を示す概念図である。 [0013]図３Ａは、高効率ビデオコーディング（ＨＥＶＣ）の残差４分木に基づく例示的な変換方式を示す概念図である。図３Ｂは、高効率ビデオコーディング（ＨＥＶＣ）の残差４分木に基づく例示的な変換方式を示す概念図である。 [0014]図４は、適応型変換選択を用いた（with）ハイブリッドビデオ符号化のための例示的なシステムを示すブロック図である。 [0015]図５Ａは、別個の変換インプリメンテーションとして水平変換を示す概念図である。図５Ｂは、別個の変換インプリメンテーションとして垂直変換を示す概念図である。 [0016]図６は、２つの変換を識別するために使用されるマルチプル変換選択（ＭＴＳ）シグナリングの一例を表す概念図である。 [0017]図７は、例示的な変換割当ておよび対応するユーナリー（unary）コードワードを示す概念図である。 [0018]図８は、２次変換をサポートする例示的なＭＴＳ設計を示す概念図である。 [0019]図９は、ビデオコーダ（ビデオエンコーダまたはビデオデコーダ）が適用し得る低周波数非分離可能変換（ＬＦＮＳＴ）の例を示す概念図である。 [0020]図１０は、Ｈ×Ｗブロックの（左上の部分における）係数のサブセットに適用されるＬＦＮＳＴの一例を示す概念図である。 [0021]図１１Ａは、例示的な２ステップＬＦＮＳＴプロセスのインプリメンテーションを示す概念図である。図１１Ｂは、例示的な２ステップＬＦＮＳＴプロセスのインプリメンテーションを示す概念図である。 [0022]図１２は、本開示の技法を実行し得る例示的なビデオエンコーダを示すブロック図である。 [0023]図１３は、本開示の技法を実行し得る例示的なビデオデコーダを示すブロック図である。 [0024]図１４は、本開示の技法による、現在のブロックを符号化するための例示的な方法を示すフローチャートである。 [0025]図１５は、本開示の技法による、ビデオデータの現在のブロックを復号するための例示的な方法を示すフローチャートである。 [0026]図１６は、本開示の技法による、例示的なビデオ符号化方法を示すフローチャートである。 [0027]図１７は、本開示の技法による、例示的なビデオ復号方法を示すフローチャートである。

詳細な説明

[0028]本開示は、変換コーディングに関する技法を説明し、これは、例えば、M. Wien, High Efficiency Video Coding: Coding Tools and Specification, Springer- Verlag, Berlin, 2015に説明されているように、現代のビデオ圧縮規格の重要な要素である。本開示は、拡張されたマルチプル変換選択（ＭＴＳ）技法を説明する。

[0029]一般に、ビデオデータは、連続した一連のピクチャとして表される。ビデオコーダは、ピクチャをブロックに区分し、ブロックの各々をコーディングする。コーディングは、一般に、予測コーディングと残差コーディングとを含む。予測中、ビデオコーダは、イントラ予測（予測ブロックが、同じピクチャの、隣接する以前にコーディングされたブロックから形成される）またはインター予測（予測ブロックが、以前にコーディングされたピクチャの、以前にコーディングされたブロックから形成される）を使用して、予測ブロックを形成し得る。残差ブロックは、予測ブロックと、元のコーディングされていないブロックとの間のピクセルごとの差分を表す。ビデオエンコーダは、変換係数を含む変換ブロックを生成するために、残差ブロックに変換を適用し得、一方、ビデオデコーダは、残差ブロックの１つのバージョンを再生するために、変換ブロックに逆変換を適用し得る。

[0030]入力Ｎ点ベクトルが、ｘ＝［ｘ_０，ｘ_１，．．．，ｘ_Ｎ－１］^Ｔとして示されると仮定すると、それは、行列を乗じることによって、ｙ＝［ｙ_０，ｙ_１，．．．，ｙ_Ｎ－１］^Ｔとして示される別のＮ点変換係数ベクトルに変換され、このプロセスは、以下の変換公式化のうちの１つに従ってさらに示され得、ここにおいて、ｋは、両端値を含む０～Ｎ－１である：

[0031]変換タイプは、変換基底関数の数学的公式化によって指定される。例えば、４点ＤＳＴ－ＶＩＩおよび８点ＤＳＴ－ＶＩＩは、Ｎの値にかかわらず、同じ変換タイプを有する。

[0032]一般性を失うことなく、上記の変換タイプは全て、以下の一般的公式化を使用して表され得る：

ここで、Ｔは、１つのある特定の変換の定義によって指定される変換行列、例えば、ＤＣＴタイプＩ～ＤＣＴタイプＶＩＩＩ、またはＤＳＴタイプＩ～ＤＳＴタイプＶＩＩＩであり、Ｔの行ベクトル、例えば、［Ｔ_ｉ，０，Ｔ_ｉ，１，Ｔ_ｉ，２，．．．，Ｔ_{ｉ，Ｎ－１}］は、ｉ番目の変換基底ベクトルである。Ｎ点入力ベクトルに適用される変換は、Ｎ点変換と呼ばれる。

[0033]また、１次元（１－Ｄ）入力データｘに適用される上記の変換公式化が、以下のような行列乗算形式で表され得ることに留意されたく、

ここで、Ｔは、変換行列を示し、ｘは、入力データベクトルを示し、ｙは、出力変換係数ベクトルを示す。

[0034]上述された変換は、１－Ｄ入力データに適用され、変換はまた、２次元（２－Ｄ）入力データソースにも拡張され得る。Ｘが、入力Ｍ×Ｎデータ配列であると仮定する。２－Ｄ入力データに変換を適用する典型的な方法は、分離可能２－Ｄ変換および非分離可能２－Ｄ変換を含む。

[0035]分離可能２－Ｄ変換は、Ｘの水平ベクトルおよび垂直ベクトルに対する１－Ｄ変換を連続的に適用し、以下のように公式化される：
Ｙ＝Ｃ・Ｘ・Ｒ^Ｔ
ここで、ＣおよびＲは、それぞれ、所与のＭ×ＭおよびＮ×Ｎの変換行列を示す。公式化から、Ｃが、Ｘの列ベクトルに対して１－Ｄ変換を適用し、一方、Ｒが、Ｘの行ベクトルに対して１－Ｄ変換を適用することがわかる。本開示の後の部分では、簡潔さのために、ＣおよびＲは、左（垂直）変換および右（水平）変換を示し得、変換ペアを形成すると見なされ得る。ＣがＲに等しく、直交行列であるケースが存在する。このようなケースでは、分離可能２－Ｄ変換は、たった１つの変換行列によって決定される。

[0036]非分離可能２－Ｄ変換は、最初に、例として以下の数学的マッピングを行うことによって、Ｘの全ての要素を単一のベクトル、すなわち、Ｘ’に再編成している：
Ｘ’_{（ｉ・Ｎ＋ｊ）}＝Ｘ_ｉ，ｊ

[0037]次いで、１－Ｄ変換Ｔ’が、下記のように、Ｘ’に対して適用される：
Ｙ＝Ｔ’・Ｘ’
ここで、Ｔ’は、（Ｍ＊Ｎ）×（Ｍ＊Ｎ）変換行列である。

[0038]ビデオコーディングでは、分離可能２－Ｄ変換が一般的に適用され、これは、分離可能２－Ｄ変換が、典型的に、１－Ｄ変換と比較してより少ない演算（加算および乗算）数を必要とするからである。

[0039]Ｈ．２６４／ＡＶＣなどの従来のビデオコーデックでは、４点および８点離散コサイン変換（ＤＣＴ）タイプＩＩの整数近似（integer approximation）が、常にイントラ予測残差とインター予測残差との両方に対して適用される。残差サンプルの様々な統計値により良く適合するために、ＤＣＴタイプＩＩ以外のより柔軟なタイプの変換が、新世代のビデオコーデックにおいて利用される。例えば、ＨＥＶＣでは、４点タイプＶＩＩ離散サイン変換（ＤＳＴ）の整数近似が、イントラ予測残差のために利用され、これは、ＤＳＴタイプＶＩＩが、イントラ予測方向に沿って生成される残差ベクトルについてＤＣＴタイプＩＩよりも効率的であることが、（J.Han,A.Saxena and K. Rose,“Towards jointly optimal spatial prediction and adaptive transform in video/image coding, ”IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),March 2010,pp.726-729において）理論的に証明されていると共に、実験的に実証されている。

例えば、ＤＳＴタイプＶＩＩは、水平イントラ予測方向によって生成された行残差ベクトルについてＤＣＴタイプＩＩよりも効率的である。ＨＥＶＣでは、４点ＤＳＴタイプＶＩＩの整数近似は、４×４ルーマイントラ予測残差ブロックにのみ適用される。ＨＥＶＣで使用される４点ＤＳＴ－ＶＩＩを以下に示す：

[0040]ＨＥＶＣでは、４×４ルーマイントラ予測残差ブロックでない残差ブロックについては、以下に示すように、４点、８点、１６点および３２点ＤＣＴタイプＩＩの整数近似も適用され得る：

[0041]図１は、本開示の技法を実行し得る例示的なビデオ符号化および復号システム１００を示すブロック図である。本開示の技法は、一般に、ビデオデータをコーディング（符号化および／または復号）することを対象とする。一般に、ビデオデータは、ビデオを処理するための任意のデータを含む。したがって、ビデオデータは、生のコーディングされていないビデオ、符号化されたビデオ、復号された（例えば、再構成された）ビデオ、およびシグナリングデータなどのビデオメタデータを含み得る。

[0042]図１に示されるように、システム１００は、この例では、宛先デバイス１１６によって復号および表示されることになる符号化されたビデオデータを提供するソースデバイス１０２を含む。特に、ソースデバイス１０２は、コンピュータ可読媒体１１０を介して、宛先デバイス１１６にビデオデータを提供する。ソースデバイス１０２および宛先デバイス１１６は、デスクトップコンピュータ、ノートブック（すなわち、ラップトップ）コンピュータ、タブレットコンピュータ、セットトップボックス、スマートフォンなどの電話ハンドセット、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイス、または同様のものを含む、幅広い範囲のデバイスのうちの任意のものを備え得る。いくつかのケースでは、ソースデバイス１０２および宛先デバイス１１６は、ワイヤレス通信のために装備され得、したがって、ワイヤレス通信デバイスと呼ばれ得る。

[0043]図１の例では、ソースデバイス１０２は、ビデオソース１０４、メモリ１０６、ビデオエンコーダ２００、および出力インターフェース１０８を含む。宛先デバイス１１６は、入力インターフェース１２２、ビデオデコーダ３００、メモリ１２０、およびディスプレイデバイス１１８を含む。本開示によれば、ソースデバイス１０２のビデオエンコーダ２００および宛先デバイス１１６のビデオデコーダ３００は、ＭＴＳデータをコーディングするための技法を適用するように構成され得る。したがって、ソースデバイス１０２は、ビデオ符号化デバイスの一例を表し、一方、宛先デバイス１１６は、ビデオ復号デバイスの一例を表す。他の例では、ソースデバイスおよび宛先デバイスは、他の構成要素または配置を含み得る。例えば、ソースデバイス１０２は、外部カメラなどの外部ビデオソースからビデオデータを受信し得る。同様に、宛先デバイス１１６は、一体化されたディスプレイデバイスを含むのではなく、外部ディスプレイデバイスとインターフェースし得る。

[0044]図１に示されるようなシステム１００は、単なる一例に過ぎない。一般に、任意のデジタルビデオ符号化および／または復号デバイスが、ＭＴＳデータをコーディングするための技法を実行し得る。ソースデバイス１０２および宛先デバイス１１６は、ソースデバイス１０２が宛先デバイス１１６への送信のためのコーディングされたビデオデータを生成するような、コーディングデバイスの単なる例に過ぎない。本開示は、「コーディング」デバイスを、データのコーディング（符号化および／または復号）を実行するデバイスとして参照する。したがって、ビデオエンコーダ２００およびビデオデコーダ３００は、コーディングデバイスの例を表し、特に、それぞれビデオエンコーダおよびビデオデコーダを表す。いくつかの例では、デバイス１０２、１１６は、デバイス１０２、１１６の各々がビデオ符号化および復号構成要素を含むように、実質的に対称的な方法で動作し得る。したがって、システム１００は、例えば、ビデオストリーミング、ビデオ再生、ビデオブロードキャスティング、またはビデオテレフォニーのために、ビデオデバイス１０２、１１６間の一方向または双方向のビデオ送信をサポートし得る。

[0045]一般に、ビデオソース１０４は、ビデオデータ（すなわち、生のコーディングされていないビデオデータ）のソースを表し、ビデオデータの連続する一連のピクチャ（「フレーム」とも呼ばれる）を、ピクチャのためのデータを符号化するビデオエンコーダ２００に提供する。ソースデバイス１０２のビデオソース１０４は、ビデオカメラなどのビデオキャプチャデバイス、以前にキャプチャされた生のビデオを含むビデオアーカイブ、および／またはビデオコンテンツプロバイダからのビデオを受信するためのビデオフィードインターフェースを含み得る。さらなる代替として、ビデオソース１０４は、ソースビデオとしてコンピュータグラフィックスベースのデータ、または、ライブビデオ、アーカイブされたビデオ、およびコンピュータ生成されたビデオの組合せを生成し得る。各ケースにおいて、ビデオエンコーダ２００は、キャプチャされた、事前にキャプチャされた、またはコンピュータ生成されたビデオデータを符号化する。ビデオエンコーダ２００は、ピクチャを、受信された順序（「表示順序」と呼ばれることもある）から、コーディングのためのコーディング順序に並べ替え得る。ビデオエンコーダ２００は、符号化されたビデオデータを含むビットストリームを生成し得る。次いで、ソースデバイス１０２は、例えば、宛先デバイス１１６の入力インターフェース１２２による、受信および／または取り出しのために、符号化されたビデオデータを、出力インターフェース１０８を介してコンピュータ可読媒体１１０上に出力し得る。

[0046]ソースデバイス１０２のメモリ１０６および宛先デバイス１１６のメモリ１２０は、汎用メモリを表す。いくつかの例では、メモリ１０６、１２０は、生のビデオデータ、例えば、ビデオソース１０４からの生のビデオおよびビデオデコーダ３００からの生の復号されたビデオデータを記憶し得る。追加または代替として、メモリ１０６、１２０は、例えば、それぞれ、ビデオエンコーダ２００およびビデオデコーダ３００によって実行可能なソフトウェア命令を記憶し得る。この例では、ビデオエンコーダ２００およびビデオデコーダ３００とは別個に示されているが、ビデオエンコーダ２００およびビデオデコーダ３００はまた、機能的に類似したまたは同等の目的のために内部メモリを含み得ることが理解されるべきである。さらに、メモリ１０６、１２０は、符号化されたビデオデータ、例えば、ビデオエンコーダ２００からの出力およびビデオデコーダ３００への入力を記憶し得る。いくつかの例では、メモリ１０６、１２０の一部は、例えば、生の復号されたおよび／または符号化されたビデオデータを記憶するための、１つまたは複数のビデオバッファとして割り振られ得る。

[0047]コンピュータ可読媒体１１０は、符号化されたビデオデータをソースデバイス１０２から宛先デバイス１１６にトランスポートすることが可能な任意のタイプの媒体またはデバイスを表し得る。一例では、コンピュータ可読媒体１１０は、ソースデバイス１０２が、例えば、無線周波数ネットワークまたはコンピュータベースのネットワークを介して、符号化されたビデオデータをリアルタイムで宛先デバイス１１６に直接送信することを可能にする通信媒体を表す。出力インターフェース１０８は、符号化されたビデオデータを含む送信信号を変調し得、入力インターフェース１２２は、ワイヤレス通信プロトコルなどの通信規格に従って、受信された送信信号を復調し得る。通信媒体は、無線周波数（ＲＦ）スペクトルあるいは１つまたは複数の物理伝送線などの、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットのようなグローバルネットワークなどの、パケットベースのネットワークの一部を形成し得る。通信媒体は、ルータ、スイッチ、基地局、またはソースデバイス１０２から宛先デバイス１１６への通信を容易にするのに有用であり得るその他任意の機器を含み得る。

[0048]いくつかの例では、ソースデバイス１０２は、符号化されたデータを出力インターフェース１０８から記憶デバイス１１２に出力し得る。同様に、宛先デバイス１１６は、入力インターフェース１２２を介して、記憶デバイス１１２からの符号化されたデータにアクセスし得る。記憶デバイス１１６は、ハードドライブ、ブルーレイディスク、ＤＶＤ、ＣＤ－ＲＯＭ、フラッシュメモリ、揮発性もしくは不揮発性メモリ、または符号化されたビデオデータを記憶するためのその他任意の好適なデジタル記憶媒体などの、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のうちの任意のものを含み得る。

[0049]いくつかの例では、ソースデバイス１０２は、ソースデバイス１０２によって生成された符号化されたビデオを記憶し得るファイルサーバ１１４または別の中間記憶デバイスに、符号化されたビデオデータを出力し得る。宛先デバイス１１６は、ストリーミングまたはダウンロードを介して、ファイルサーバ１１４からの記憶されたビデオデータにアクセスし得る。ファイルサーバ１１４は、符号化されたビデオデータを記憶し、その符号化されたビデオデータを宛先デバイス１１６に送信することが可能な任意のタイプのサーバデバイスであり得る。ファイルサーバ１１４は、（例えば、ウェブサイトのための）ウェブサーバ、ファイル転送プロトコル（ＦＴＰ）サーバ、コンテンツ配信ネットワークデバイス、またはネットワーク接続ストレージ（ＮＡＳ）デバイスを表し得る。宛先デバイス１１６は、インターネット接続を含む任意の標準的なデータ接続を通じて、ファイルサーバ１１４からの符号化されたビデオデータにアクセスし得る。これは、ファイルサーバ１１４上に記憶された符号化されたビデオデータにアクセスするのに好適である、ワイヤレスチャネル（例えば、Ｗｉ－Ｆｉ接続）、ワイヤード接続（例えば、ＤＳＬ、ケーブルモデム、等）、または両方の組合せを含み得る。ファイルサーバ１１４および入力インターフェース１２２は、ストリーミング送信プロトコル、ダウンロード送信プロトコル、またはこれらの組合せに従って動作するように構成され得る。

[0050]出力インターフェース１０８および入力インターフェース１２２は、ワイヤレス送信機／受信機、モデム、ワイヤードネットワーキング構成要素（例えば、イーサネット（登録商標）カード）、様々なＩＥＥＥ８０２．１１規格のうちの任意のものに従って動作するワイヤレス通信構成要素、または他の物理的構成要素を表し得る。出力インターフェース１０８および入力インターフェース１２２がワイヤレス構成要素を備える例では、出力インターフェース１０８および入力インターフェース１２２は、４Ｇ、４Ｇ－ＬＴＥ（登録商標）（ロングタームエボリューション）、ＬＴＥアドバンスト、５Ｇ、または同様のものなどのセルラ通信規格に従って、符号化されたビデオデータなどのデータを転送するように構成され得る。出力インターフェース１０８がワイヤレス送信機を備えるいくつかの例では、出力インターフェース１０８および入力インターフェース１２２は、ＩＥＥＥ８０２．１１仕様、ＩＥＥＥ８０２．１５仕様（例えば、ＺｉｇＢｅｅ（登録商標））、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格、または同様のものなどの他のワイヤレス規格に従って、符号化されたビデオデータなどのデータを転送するように構成され得る。いくつかの例では、ソースデバイス１０２および／または宛先デバイス１１６は、それぞれのシステムオンチップ（ＳｏＣ）デバイスを含み得る。例えば、ソースデバイス１０２は、ビデオエンコーダ２００および／または出力インターフェース１０８に帰属する（attributed to）機能を実行するためのＳｏＣデバイスを含み得、宛先デバイス１１６は、ビデオデコーダ３００および／または入力インターフェース１２２に帰属する機能を実行するためのＳｏＣデバイスを含み得る。

[0051]本開示の技法は、無線テレビ放送、ケーブルテレビ送信、衛星テレビ送信、ＨＴＴＰを介した動的適応型ストリーミング（ＤＡＳＨ）などのインターネットストリーミングビデオ送信、データ記憶媒体上に符号化されるデジタルビデオ、データ記憶媒体に記憶されたデジタルビデオの復号、または他のアプリケーションなどの、様々なマルチメディアアプリケーションのうちの任意のものをサポートするビデオコーディングに適用され得る。

[0052]宛先デバイス１１６の入力インターフェース１２２は、コンピュータ可読媒体１１０（例えば、記憶デバイス１１２、ファイルサーバ１１４、または同様のもの）から符号化されたビデオビットストリームを受信する。コンピュータ可読媒体１１０の符号化されたビデオビットストリームは、ビデオブロックまたは他のコーディングされたユニット（例えば、スライス、ピクチャ、ピクチャのグループ、シーケンス、または同様のもの）の特性および／または処理を記述する値を有するシンタックス要素などの、ビデオエンコーダ２００によって定義されるシグナリング情報を含み得、これはまた、ビデオデコーダ３００によっても使用される。ディスプレイデバイス１１８は、復号されたビデオデータの復号されたピクチャをユーザに表示する。ディスプレイデバイス１１８は、ブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または別のタイプのディスプレイデバイスなどの様々なディスプレイデバイスのうちの任意のものを表し得る。

[0053]図１には示されていないが、いくつかの例では、ビデオエンコーダ２００およびビデオデコーダ３００は、オーディオエンコーダおよび／またはオーディオデコーダとそれぞれ一体化され得、共通のデータストリーム中にオーディオとビデオとの両方を含む多重化ストリームを処理するために、適切なＭＵＸ－ＤＥＭＵＸユニット、あるいは他のハードウェアおよび／またはソフトウェアを含み得る。適用可能な場合、ＭＵＸ－ＤＥＭＵＸユニットは、ＩＴＵＨ．２２３マルチプレクサプロトコル、またはユーザデータグラムプロトコル（ＵＤＰ）などの他のプロトコルに準拠し得る。

[0054]ビデオエンコーダ２００およびビデオデコーダ３００は、１つまたは複数のマイクロプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理回路、ソフトウェア、ハードウェア、ファームウェア、またはこれらの任意の組合せなどの、様々な好適なエンコーダおよび／またはデコーダ回路のうちの任意のものとしてそれぞれインプリメントされ得る。本技法が部分的にソフトウェアにおいてインプリメントされるとき、デバイスは、好適な非一時的なコンピュータ可読媒体にソフトウェアのための命令を記憶し、本開示の技法を実行するために、１つまたは複数のプロセッサを使用してハードウェアにおいて命令を実行し得る。ビデオエンコーダ２００およびビデオデコーダ３００の各々は、１つまたは複数のエンコーダまたはデコーダに含まれ得、これらのいずれもが、それぞれのデバイスにおいて複合エンコーダ／デコーダ（ＣＯＤＥＣ）の一部として一体化され得る。ビデオエンコーダ２００および／またはビデオデコーダ３００を含むデバイスは、集積回路、マイクロプロセッサ、および／またはセルラ電話などのワイヤレス通信デバイスを備え得る。

[0055]ビデオエンコーダ２００およびビデオデコーダ３００は、高効率ビデオコーディング（ＨＥＶＣ）とも呼ばれる、ＩＴＵ－ＴＨ．２６５などのビデオコーディング規格、またはマルチビューおよび／またはスケーラブルビデオコーディング拡張などの、それに対する拡張に従って動作し得る。代替として、ビデオエンコーダ２００およびビデオデコーダ３００は、ＩＴＵ－ＴＨ．２６６になることが計画されている最新の汎用のビデオコーディング（ＶＶＣ）規格などの、他のプロプライエタリ規格または業界標準規格に従って動作し得る。ＶＶＣのワーキングドラフトが、Bross他、“Versatile Video Coding (Draft 5)” Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, 14th Meeting, Geneva, CH, 19-27 Mar. 2019, document JVET-N1001-v5である。しかしながら、本開示の技法は、いかなる特定のコーディング規格にも限定されない。

[0056]一般に、ビデオエンコーダ２００およびビデオデコーダ３００は、ピクチャのブロックベースのコーディングを実行し得る。「ブロック」という用語は、一般に、処理される（例えば、符号化される、復号される、あるいは、符号化および／または復号プロセスにおいて別様に使用される）べきデータを含む構造を指す。例えば、ブロックは、ルミナンスおよび／またはクロミナンスデータのサンプルの２次元行列を含み得る。一般に、ビデオエンコーダ２００およびビデオデコーダ３００は、ＹＵＶ（例えば、Ｙ、Ｃｂ、Ｃｒ）フォーマットで表されるビデオデータをコーディングし得る。すなわち、ピクチャのサンプルについての赤、緑、および青（ＲＧＢ）データをコーディングするのではなく、ビデオエンコーダ２００およびビデオデコーダ３００は、ルミナンス成分およびクロミナンス成分をコーディングし得、ここで、クロミナンス成分は、赤の色相クロミナンス成分と青の色相クロミナンス成分との両方を含み得る。いくつかの例では、ビデオエンコーダ２００は、受信されたＲＧＢフォーマットされたデータを、符号化する前にＹＵＶ表現に変換し、ビデオデコーダ３００は、ＹＵＶ表現をＲＧＢフォーマットに変換する。代替として、前処理ユニットおよび後処理ユニット（図示せず）が、これらの変換を実行し得る。

[0057]本開示は、一般に、ピクチャのデータを符号化または復号するプロセスを含むように、ピクチャのコーディング（例えば、符号化および復号）を参照し得る。同様に、本開示は、ブロックのためのデータを符号化または復号するプロセス、例えば、予測および／または残差コーディングを含むように、ピクチャのブロックのコーディングを参照し得る。符号化されたビデオビットストリームは、一般に、コーディング決定（例えば、コーディングモード）と、ピクチャのブロックへの区分とを表すシンタックス要素についての一連の値を含む。したがって、ピクチャまたはブロックをコーディングすることへの参照は、一般に、ピクチャまたはブロックを形成するシンタックス要素の値をコーディングすることとして、理解されるべきである。

[0058]ＨＥＶＣは、コーディングユニット（ＣＵ）、予測ユニット（ＰＵ）、および変換ユニット（ＴＵ）を含む、様々なブロックを定義する。ＨＥＶＣによれば、ビデオコーダ（ビデオエンコーダ２００など）は、４分木構造に従って、コーディングツリーユニット（ＣＴＵ）をＣＵに区分する。すなわち、ビデオコーダは、ＣＴＵおよびＣＵを４つの等しい重複しない正方形に区分し、４分木の各ノードは、ゼロか４つのいずれかの子ノードを有する。子ノードを有さないノードは、「リーフノード」と呼ばれ得、そのようなリーフノードのＣＵは、１つまたは複数のＰＵ、および／または、１つまたは複数のＴＵを含み得る。ビデオコーダは、ＰＵおよびＴＵをさらに区分し得る。例えば、ＨＥＶＣでは、残差４分木（ＲＱＴ）は、ＴＵの区分を表す。ＨＥＶＣでは、ＰＵは、インター予測データを表し、一方、ＴＵは、残差データを表す。イントラ予測されるＣＵは、イントラモードインジケーションなどのイントラ予測情報を含む。

[0059]別の例として、ビデオエンコーダ２００およびビデオデコーダ３００は、ＶＶＣに従って動作するように構成され得る。ＶＶＣによれば、ビデオコーダ（ビデオエンコーダ２００など）は、ピクチャを複数のコーディングツリーユニット（ＣＴＵ）に区分する。ビデオエンコーダ２００は、４分木２分木（ＱＴＢＴ）構造などのツリー構造に従ってＣＴＵを区分し得る。ＶＶＣのＱＴＢＴ構造は、ＨＥＶＣのＣＵ、ＰＵ、およびＴＵ間の分離などの、複数の区分タイプの概念を除去する。ＶＶＣのＱＴＢＴ構造は、４分木区分に従って区分された第１のレベルと、２分木区分に従って区分された第２のレベルとの２つのレベルを含む。ＱＴＢＴ構造のルートノードは、ＣＴＵに対応する。２分木のリーフノードは、コーディングユニット（ＣＵ）に対応する。

[0060]いくつかの例では、ビデオエンコーダ２００およびビデオデコーダ３００は、ルミナンス成分およびクロミナンス成分の各々を表すために、単一のＱＴＢＴ構造を使用し得、一方、他の例では、ビデオエンコーダ２００およびビデオデコーダ３００は、ルミナンス成分のための１つのＱＴＢＴ構造および両方のクロミナンス成分のための別のＱＴＢＴ構造（または、それぞれのクロミナンス成分のための２つのＱＴＢＴ構造）などの、２つ以上のＱＴＢＴ構造を使用し得る。

[0061]ビデオエンコーダ２００およびビデオデコーダ３００は、ＨＥＶＣによる４分木区分、ＶＶＣによるＱＴＢＴ区分、または他の区分構造を使用するように構成され得る。説明を目的として、本開示の技法の説明は、ＱＴＢＴ区分に関して提示される。しかしながら、本開示の技法はまた、４分木区分、または他のタイプの区分も使用するように構成されたビデオコーダに適用され得ることが理解されるべきである。

[0062]本開示は、「Ｎ×Ｎ」および「Ｎ掛けるＮ（N by N）」を交換可能に使用して、垂直寸法および水平寸法に関するブロック（ＣＵまたは他のビデオブロックなど）のサンプル寸法、例えば、１６×１６サンプルまたは１６掛ける１６（16 by 16）サンプルを参照し得る。一般に、１６×１６のＣＵは、垂直方向に１６個のサンプル（ｙ＝１６）と、水平方向に１６個のサンプル（ｘ＝１６）とを有することになる。同様に、Ｎ×ＮのＣＵは、一般に、垂直方向にＮ個のサンプルと、水平方向にＮ個のサンプルとを有し、ここで、Ｎは、非負整数値を表す。ＣＵ中のサンプルは、行および列に配置され得る。さらに、ＣＵは、水平方向に、垂直方向と同じ数のサンプルを必ずしも有する必要はない。例えば、ＣＵは、Ｎ×Ｍ個のサンプルを備え得、ここで、Ｍは、必ずしもＮに等しいとは限らない。

[0063]ビデオエンコーダ２００は、予測情報および／または残差情報、ならびに他の情報を表す、ＣＵについてのビデオデータを符号化する。予測情報は、ＣＵのための予測ブロックを形成するために、どのようにＣＵが予測されるべきかを示す。残差情報は、一般に、予測ブロックおよび符号化する前のＣＵのサンプル間のサンプルごとの差分を表す。

[0064]ＣＵを予測するために、ビデオエンコーダ２００は、一般に、インター予測またはイントラ予測を通じて、ＣＵのための予測ブロックを形成し得る。インター予測は、一般に、以前にコーディングされたピクチャのデータからＣＵを予測することを指し、一方、イントラ予測は、一般に、同じピクチャの以前にコーディングされたデータからＣＵを予測することを指す。インター予測を実行するために、ビデオエンコーダ２００は、１つまたは複数の動きベクトルを使用して予測ブロックを生成し得る。ビデオエンコーダ２００は、一般に、例えば、ＣＵと参照ブロックとの間の差分に関して、ＣＵに密接に（closely）マッチする参照ブロックを識別するために、動き探索を実行し得る。ビデオエンコーダ２００は、参照ブロックが現在のＣＵに密接にマッチするかどうかを決定するために、絶対差分和（ＳＡＤ：sum of absolute difference）、２乗差分和（ＳＳＤ：sum of squared differences）、平均絶対差分（ＭＡＤ：mean absolute difference）、平均２乗差分（ＭＳＤ：mean squared differences）、または他のそのような差分算出を使用して、差分メトリックを算出し得る。いくつかの例では、ビデオエンコーダ２００は、単方向予測または双方向予測を使用して、現在のＣＵを予測し得る。

[0065]ＶＶＣはまた、アフィン動き補償モードを提供し、これは、インター予測モードと見なされ得る。アフィン動き補償モードでは、ビデオエンコーダ２００は、ズームインまたはズームアウト、回転、遠近動き（perspective motion）、または他の不規則な動きタイプなどの、非並進動きを表す２つ以上の動きベクトルを決定し得る。

[0066]イントラ予測を実行するために、ビデオエンコーダ２００は、予測ブロックを生成するためのイントラ予測モードを選択し得る。ＶＶＣは、様々な方向性モード、ならびにプレーナモード（planar mode）およびＤＣモードを含む、６７個のイントラ予測モードを提供する。一般に、ビデオエンコーダ２００は、現在のブロック（例えば、ＣＵのブロック）のサンプルをそこから予測するための、現在のブロックに隣接するサンプルを記述する（describes）イントラ予測モードを選択する。このようなサンプルは、一般に、ビデオエンコーダ２００がラスタ走査順序（左から右、上から下）でＣＴＵおよびＣＵをコーディングすると仮定すると、現在のブロックと同じピクチャ内の、現在のブロックの上、左上、または左にあり得る。

[0067]ビデオエンコーダ２００は、現在のブロックのための予測モードを表すデータを符号化する。例えば、インター予測モードの場合、ビデオエンコーダ２００は、様々な利用可能なインター予測モードのうちのどれが使用されるかを表すデータ、ならびに対応するモードについての動き情報を符号化し得る。単方向または双方向インター予測の場合、例えば、ビデオエンコーダ２００は、アドバンスト動きベクトル予測（ＡＭＶＰ：advanced motion vector prediction）またはマージモードを使用して、動きベクトルを符号化し得る。ビデオエンコーダ２００は、アフィン動き補償モードのための動きベクトルを符号化するために、同様のモードを使用し得る。

[0068]ブロックのイントラ予測またはインター予測などの予測に続いて、ビデオエンコーダ２００は、ブロックについての残差データを算出し得る。残差ブロックなどの残差データは、ブロックと、対応する予測モードを使用して形成された、ブロックのための予測ブロックとの間のサンプルごとの差分を表す。ビデオエンコーダ２００は、変換されたデータを、サンプルドメインの代わりに変換ドメインにおいて生成するために、残差ブロックに１つまたは複数の変換を適用し得る。例えば、ビデオエンコーダ２００は、残差ビデオデータに、離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、または概念的に同様の変換を適用し得る。加えて、ビデオエンコーダ２００は、第１の変換に続いて、モード依存非分離可能２次変換（ＭＤＮＳＳＴ：mode-dependent non-separable secondary transform）、信号依存変換、カルーネンレーベ変換（ＫＬＴ：Karhunen-Loeve transform）、または同様のものなどの２次変換を適用し得る。ビデオエンコーダ２００は、１つまたは複数の変換の適用に続いて、変換係数を生成する。

[0069]本開示の技法によれば、ビデオエンコーダ２００は、現在のブロックのための残差ブロックに適用すべき特定の変換のタイプ（a particular type of transform）（または複数の変換）を決定し得る。決定された変換のタイプは、１次変換を含み得、これは、水平変換および垂直変換を含む分離可能変換であり得る。いくつかの例では、決定された変換のタイプは、２次変換（例えば、非分離可能変換）をさらに含み得る。ビデオエンコーダ２００は、選択された変換のタイプを表す第１のコードワードを符号化し得、これは、１次変換と、選択された変換のタイプが２次変換を含むか否かを表す。選択された変換のタイプが２次変換を含むことを第１のコードワードが示すケースでは、ビデオエンコーダ２００は、利用可能な２次変換のセットのうちの選択された２次変換を表す第２のコードワードをさらに符号化し得る。さらに、ビデオエンコーダ２００は、１次変換と２次変換との両方を適用し得る。コードワードのこのような組合せの例については、表１～表１２および図６～図８に関して以下でより詳細に説明される。

[0070]上述されたように、変換係数を生成するための任意の変換に続いて、ビデオエンコーダ２００は、変換係数の量子化を実行し得る。量子化は、一般に、変換係数が量子化されて、係数を表すために使用されるデータ量をできる限り（possibly）低減し、さらなる圧縮を提供するプロセスを指す。量子化プロセスを実行することによって、ビデオエンコーダ２００は、係数のうちのいくつかまたは全てに関連付けられたビット深度を低減し得る。例えば、ビデオエンコーダ２００は、量子化中にｎビット値をｍビット値に切り捨て得、ここで、ｎはｍよりも大きい。いくつかの例では、量子化を実行するために、ビデオエンコーダ２００は、量子化されるべき値のビット単位の右シフトを実行し得る。

[0071]量子化に続いて、ビデオエンコーダ２００は、変換係数を走査し得、量子化された変換係数を含む２次元行列から１次元ベクトルを生成する。走査は、ベクトルの前方により高いエネルギー（したがって、より低い周波数）係数を置き、ベクトルの後方により低いエネルギー（したがって、より高い周波数）変換係数を置くように設計され得る。いくつかの例では、ビデオエンコーダ２００は、直列化されたベクトルを生成するために、量子化された変換係数を走査するための予め定義された走査順序を利用し、次いで、ベクトルの量子化された変換係数をエントロピー符号化し得る。他の例では、ビデオエンコーダ２００は、適応走査を実行し得る。１次元ベクトルを形成するために、量子化された変換係数を走査した後、ビデオエンコーダ２００は、例えば、コンテキスト適応型バイナリ算術コーディング（ＣＡＢＡＣ）に従って、１次元ベクトルをエントロピー符号化し得る。ビデオエンコーダ２００はまた、ビデオデータを復号する際にビデオデコーダ３００による使用のための、符号化されたビデオデータに関連付けられたメタデータを記述するシンタックス要素の値をエントロピー符号化し得る。

[0072]ＣＡＢＡＣを実行するために、ビデオエンコーダ２００は、送信されることになるシンボルに、コンテキストモデル内のコンテキストを割り当て得る。コンテキストは、例えば、シンボルの隣接値がゼロ値であるか否かに関連し得る。確率の決定は、シンボルに割り当てられたコンテキストに基づき得る。

[0073]ビデオエンコーダ２００は、例えば、ピクチャヘッダ、ブロックヘッダ、スライスヘッダ、またはシーケンスパラメータセット（ＳＰＳ）、ピクチャパラメータセット（ＰＰＳ）、もしくはビデオパラメータセット（ＶＰＳ）などの他のシンタックスデータの中で、ビデオデコーダ３００へのブロックベースのシンタックスデータ、ピクチャベースのシンタックスデータ、およびシーケンスベースのシンタックスデータなどの、シンタックスデータをさらに生成し得る。ビデオデコーダ３００は、対応するビデオデータをどのように復号すべきかを決定するために、このようなシンタックスデータを同様に復号し得る。

[0074]このようにして、ビデオエンコーダ２００は、符号化されたビデオデータ、例えば、ピクチャのブロック（例えば、ＣＵ）への区分と、ブロックについての予測情報および／または残差情報と、を記述するシンタックス要素を含むビットストリームを生成し得る。最終的に、ビデオデコーダ３００は、ビットストリームを受信し、符号化されたビデオデータを復号し得る。

[0075]一般に、ビデオデコーダ３００は、ビットストリームの符号化されたビデオデータを復号するために、ビデオエンコーダ２００によって実行されたものとは逆のプロセスを実行する。例えば、ビデオデコーダ３００は、ビデオエンコーダ２００のＣＡＢＡＣ符号化プロセスと逆ではあるが、実質的に同様の方法でＣＡＢＡＣを使用して、ビットストリームのシンタックス要素の値を復号し得る。シンタックス要素は、ＣＴＵへのピクチャの区分情報と、ＣＴＵのＣＵを定義するための、ＱＴＢＴ構造などの対応する区分構造に従う各ＣＴＵの区分とを定義し得る。シンタックス要素は、ビデオデータのブロック（例えば、ＣＵ）についての予測情報および残差情報をさらに定義し得る。

[0076]残差情報は、例えば、量子化された変換係数によって表され得る。ビデオデコーダ３００は、ブロックについての残差ブロックを再生するために、ブロックの量子化された変換係数を逆量子化および逆変換し得る。

[0077]本開示の技法によれば、ビデオデコーダ３００は、ビデオデータの現在のブロックのための復号された変換係数に適用されるべき変換のタイプを表す第１のコードワードを復号し得る。上記で説明されたように、変換のタイプは、１次変換を表し得、これは、水平変換および垂直変換を含む分離可能変換であり得る。変換のタイプは、２次変換をさらに含み得る。変換のタイプが２次変換を含む場合、ビデオデコーダ３００は、利用可能な２次変換のセットに含まれ得る２次変換を表す第２のコードワードを復号し得る。次いで、ビデオデコーダ３００は、変換係数の中間セットを生成するために、復号された変換係数に２次変換を適用し、次いで、現在のブロックのための残差ブロックを再生するために、変換係数の中間セットに１次変換を適用し得る。

[0078]ビデオデコーダ３００は、ブロックのための予測ブロックを形成するために、シグナリングされた予測モード（イントラ予測またはインター予測）および関連する予測情報（例えば、インター予測のための動き情報）を使用する。次いで、ビデオデコーダ３００は、元のブロックを再生するために、（サンプルごとの単位で）予測ブロックと残差ブロックとを組み合わせ得る。ビデオデコーダ３００は、ブロックの境界に沿った視覚的アーティファクトを低減するために、デブロッキングプロセスを実行することなど、追加の処理を実行し得る。

[0079]上述されたように、ビデオエンコーダ２００およびビデオデコーダ３００は、シンタックス要素の値にＣＡＢＡＣ符号化および復号を適用し得る。シンタックス要素にＣＡＢＡＣ符号化を適用するために、ビデオエンコーダ２００は、シンタックス要素の値を２値化して、「ビン」と呼ばれる一連の１つまたは複数のビットを形成し得る。加えて、ビデオエンコーダ２００は、コーディングコンテキストを識別し得る。コーディングコンテキストは、特定の値を有するビンの確率を識別し得る。例えば、コーディングコンテキストは、０値ビンをコーディングする０．７の確率と、１値ビンをコーディングする０．３の確率とを示し得る。コーディングコンテキストを識別した後、ビデオエンコーダ２００は、区間（interval）を下側サブ区間と上側サブ区間とに分割し得る。一方のサブ区間は、値０に関連付けられ得、他方のサブ区間は、値１に関連付けられ得る。

[0080]サブ区間の幅は、識別されたコーディングコンテキストによって関連する値について示された確率に比例し得る。シンタックス要素のビンが下側サブ区間に関連付けられた値を有する場合、符号化された値は、下側サブ区間の下側境界に等しくなり得る。シンタックス要素の同じビンが上側サブ区間に関連付けられた値を有する場合、符号化された値は、上側サブ区間の下側境界に等しくなり得る。シンタックス要素の次のビンを符号化するために、ビデオエンコーダ２００は、符号化されたビットの値に関連付けられたサブ区間である区間で（with）、これらのステップを繰り返し得る。ビデオエンコーダ２００が次のビンについてこれらのステップを繰り返すとき、ビデオエンコーダ２００は、符号化されるビンの実際の値および識別されたコーディングコンテキストによって示される確率に基づいて、修正された確率を使用し得る。

[0081]ビデオデコーダ３００がシンタックス要素の値に対してＣＡＢＡＣ復号を実行するとき、ビデオデコーダ３００は、コーディングコンテキストを識別し得る。次いで、ビデオデコーダ３００は、区間を下側サブ区間と上側サブ区間とに分割し得る。一方のサブ区間は、値０に関連付けられ得、他方のサブ区間は、値１に関連付けられ得る。サブ区間の幅は、識別されたコーディングコンテキストによって関連する値について示された確率に比例し得る。符号化された値が下側サブ区間内にある場合、ビデオデコーダ３００は、下側サブ区間に関連付けられた値を有するビンを復号し得る。符号化された値が上側サブ区間内にある場合、ビデオデコーダ３００は、上側サブ区間に関連付けられた値を有するビンを復号し得る。シンタックス要素の次のビンを復号するために、ビデオデコーダ３００は、符号化された値を含むサブ区間である区間で、これらのステップを繰り返し得る。ビデオデコーダ３００が次のビンについてこれらのステップを繰り返すとき、ビデオデコーダ３００は、復号されたビンおよび識別されたコーディングコンテキストによって示される確率に基づいて、修正された確率を使用し得る。次いで、ビデオデコーダ３００は、シンタックス要素の値を復元するために、ビンを逆２値化し得る。

[0082]ＨＥＶＣより前のビデオコーディング規格では、ＤＣＴ－２が垂直方向と水平方向との両方に使用される、固定された分離可能変換のみが使用される。ＨＥＶＣでは、ＤＣＴ－２に加えて、ＤＳＴ－７もまた、固定された分離可能変換として４×４ブロックのために用いられる。

[0083]米国特許第１０，３０６，２２９号、米国特許出願公開第２０１８／００２０２１８号、および米国仮特許出願第６２／６７９，５７０号は、マルチプル変換選択（ＭＴＳ）技法を説明している。ＭＴＳは、以前は適応型マルチプル変換（ＡＭＴ：Adaptive Multiple Transforms）と呼ばれていた。米国仮特許出願第６２／６７９，５７０号におけるＭＴＳの一例が、ＪＶＥＴ（Joint Video Experts Team）のＪＥＭ（Joint Experimental Model）において採用されており（ＪＥＭ－７．０）、後に、ＭＴＳの簡略化バージョンがＶＶＣにおいて採用されている。

[0084]本開示は、一般に、シンタックス要素などの、ある特定の情報の「シグナリング」に言及し得る。「シグナリング」という用語は、一般に、符号化されたビデオデータを復号するために使用されるシンタックス要素の値および／または他のデータの通信を指し得る。すなわち、ビデオエンコーダ２００は、ビットストリーム中でシンタックス要素の値をシグナリングし得る。一般に、シグナリングは、ビットストリーム中で値を生成することを指す。上述されたように、ソースデバイス１０２は、実質的にリアルタイムで、または、宛先デバイス１１６による後の取り出しのために記憶デバイス１１２にシンタックス要素を記憶するときに起こり得るなど、リアルタイムではなく、宛先デバイス１１６にビットストリームをトランスポートし得る。

[0085]図２Ａおよび図２Ｂは、例示的な４分木２分木（ＱＴＢＴ）構造１３０、および対応するコーディングツリーユニット（ＣＴＵ）１３２を示す概念図である。実線は、４分木分割を表し、点線は、２分木分割を示す。２分木の各分割（すなわち、非リーフ）ノードでは、１つのフラグが、どの分割タイプ（すなわち、水平または垂直）が使用されているかを示すためにシグナリングされ、ここで、この例では、０は、水平分割を示し、１は、垂直分割を示す。４分木分割の場合、４分木ノードが、ブロックを等しいサイズを有する４つのサブブロックへと水平および垂直に分割するので、分割タイプを示す必要はない。したがって、ＱＴＢＴ構造１３０の領域ツリーレベル（すなわち、実線）についての（分割情報などの）シンタックス要素と、ＱＴＢＴ構造１３０の予測ツリーレベル（すなわち、破線）についての（分割情報などの）シンタックス要素とを、ビデオエンコーダ２００は符号化し得、ビデオデコーダ３００は復号し得る。ＱＴＢＴ構造１３０の終端リーフノードによって表されるＣＵについての、予測および変換データなどのビデオデータを、ビデオエンコーダ２００は符号化し得、ビデオデコーダ３００は復号し得る。

[0086]一般に、図２ＢのＣＴＵ１３２は、第１および第２のレベルにおけるＱＴＢＴ構造１３０のノードに対応するブロックのサイズを定義するパラメータに関連付けられ得る。これらのパラメータは、ＣＴＵサイズ（サンプル中のＣＴＵ１３２のサイズを表す）、最小４分木サイズ（ＭｉｎＱＴＳｉｚｅ、最小許容４分木リーフノードサイズを表す）、最大２分木サイズ（ＭａｘＢＴＳｉｚｅ、最大許容２分木ルートノードサイズを表す）、最大２分木深度（ＭａｘＢＴＤｅｐｔｈ、最大許容２分木深度を表す）、および最小２分木サイズ（ＭｉｎＢＴＳｉｚｅ、最小許容２分木リーフノードサイズを表す）を含み得る。

[0087]ＣＴＵに対応するＱＴＢＴ構造のルートノードは、ＱＴＢＴ構造の第１のレベルにおいて４つの子ノードを有し得、その各々は、４分木区分に従って区分され得る。すなわち、第１のレベルのノードは、リーフノード（子ノードを有さない）であるか、または４つの子ノードを有するかのいずれかである。ＱＴＢＴ構造１３０の例は、そのようなノードを、分岐について実線を有する親ノードおよび子ノードを含むものとして表す。最大許容２分木ルートノードサイズ（ＭａｘＢＴＳｉｚｅ）よりも大きくない第１のレベルのノードは、それぞれの２分木によってさらに区分され得る。１つのノードの２分木分割は、分割の結果として生じるノードが、最小許容２分木リーフノードサイズ（ＭｉｎＢＴＳｉｚｅ）または最大許容２分木深度（ＭａｘＢＴＤｅｐｔｈ）に達するまで、繰り返され得る。ＱＴＢＴ構造１３０の例は、そのようなノードを、分岐について破線を有するものとして表す。２分木リーフノードは、コーディングユニット（ＣＵ）と呼ばれ、これは、それ以上の区分なしに（without any further partitioning）、予測（例えば、イントラピクチャ予測またはインターピクチャ予測）および変換のために使用される。上記で説明されたように、ＣＵは、「ビデオブロック」または「ブロック」とも呼ばれ得る。

[0088]ＱＴＢＴ区分構造の一例では、ＣＴＵサイズは、１２８×１２８（ルーマサンプルおよび２つの対応する６４×６４クロマサンプル）として設定され、ＭｉｎＱＴＳｉｚｅは、１６×１６として設定され、ＭａｘＢＴＳｉｚｅは、６４×６４として設定され、ＭｉｎＢＴＳｉｚｅは（幅と高さの両方について）、４として設定され、ＭａｘＢＴＤｅｐｔｈは、４として設定される。４分木リーフノードを生成するために、最初に４分木区分がＣＴＵに適用される。４分木リーフノードは、１６×１６（すなわち、ＭｉｎＱＴＳｉｚｅ）から１２８×１２８（すなわち、ＣＴＵサイズ）までのサイズを有し得る。リーフ４分木ノードが１２８×１２８である場合、サイズがＭａｘＢＴＳｉｚｅ（すなわち、この例では、６４×６４）を超えるので、それは、２分木によってそれ以上分割されないことになる。そうでない場合、リーフ４分木ノードは、２分木によってさらに区分されることになる。したがって、４分木リーフノードはまた、２分木のためのルートノードであり、０の２分木深度を有する。２分木深度がＭａｘＢＴＤｅｐｔｈ（この例では、４）に達したとき、それ以上の分割は許可されない。２分木ノードがＭｉｎＢＴＳｉｚｅ（この例では、４）に等しい幅を有するとき、それは、それ以上の垂直分割が許可されないことを暗示する。同様に、ＭｉｎＢＴＳｉｚｅに等しい高さを有する２分木ノードは、その２分木ノードに対してそれ以上の水平分割が許可されないことを暗示する。上述されたように、２分木のリーフノードは、ＣＵと呼ばれ、それ以上の区分なしに、予測および変換に従ってさらに処理される。

[0089]図３Ａおよび図３Ｂは、ＨＥＶＣの残差４分木に基づく例示的な変換方式を示す概念図である。ＨＥＶＣでは、残差４分木（ＲＱＴ）を使用する変換コーディング構造が、残差ブロックの様々な特性を適応させるために適用され、これは、www.hhi.fraunhofer.de/fields-of-competence/image-processing/research-groups/image-video-coding/hevc-high-efficiency-video-coding/transform-coding-using-the-residual-quadtree-rqt.htmlを出典とし、以下で簡単に説明される。

[0090]ＨＥＶＣでは、各ピクチャは、コーディングツリーユニット（ＣＴＵ）に分割され、これは、特定のタイルまたはスライスについてラスタ走査順序でコーディングされる。ＣＴＵは、正方形ブロックであり、４分木、すなわち、コーディングツリーのルートを表す。ＣＴＵサイズは、８×８から６４×６４ルーマサンプルまでの範囲にあり得るが、典型的に６４×６４が使用される。各ＣＴＵは、コーディングユニット（ＣＵ）と呼ばれるより小さい正方形ブロックにさらに分割され得る。

[0091]ＣＴＵがＣＵに再帰的に分割された後、各ＣＵは、予測ユニット（ＰＵ）および変換ユニット（ＴＵ）にさらに分割される。ＣＵのＴＵへの区分は、４分木手法に基づいて再帰的に実行され、したがって、各ＣＵの残差信号は、ツリー構造、すなわち、残差４分木（ＲＱＴ）によってコーディングされる。ＲＱＴは、４×４から３２×３２ルーマサンプルまでのＴＵサイズを可能にする。

[0092]図３Ａは、ＣＵが、文字ａ～ｊでラベル付けされた１０個のＴＵを含む一例と、対応するブロック区分とを図示する。図３Ｂに示されるＲＱＴの各ノードは、実際には、図３Ａに対応する変換ユニット（ＴＵ）である。個々のＴＵは、図３Ａにアルファベット順として示される深さ優先ツリートラバーサル順序（depth-first tree traversal order）で処理され、これは、深さ優先トラバーサルによる再帰的Ｚ走査に従う。４分木手法は、残差信号の変動する空間周波数特性（the varying space-frequency characteristics）に対する変換の適応を可能にする。

[0093]典型的に、より大きい空間サポートを有するより大きい変換ブロックサイズは、より良い周波数分解能を提供する。しかしながら、より小さい空間サポートを有するより小さい変換ブロックサイズは、より良い空間分解能を提供する。空間分解能と周波数分解能との２つの間のトレードオフは、例えば、レート歪み最適化技法（rate-distortion optimization technique）に基づいて、エンコーダモード決定によって選ばれる。レート歪み最適化技法は、各コーディングモード（例えば、特定のＲＱＴ分割構造）について、コーディングビットと再構成歪みとの加重和、すなわち、レート歪みコストを算出し、最小のレート歪みコストを有するコーディングモードを最良のモードとして選択する。

[0094]３つのパラメータがＨＥＶＣによるＲＱＴにおいて定義されており、すなわち、ツリーの最大深度、最小許容変換サイズ、および最大許容変換サイズである。最小および最大変換サイズは、４×４から３２×３２サンプルまでの範囲内で変動し得、これは、前の段落で述べたサポートされるブロック変換に対応する。ＲＱＴの最大許容深度は、ＴＵの数を制限する。ゼロに等しい最大深度は、各含まれたＴＢが最大許容変換サイズ、例えば、３２×３２に達した場合、ＣＢがこれ以上分割され得ないことを意味する。

[0095]これらのパラメータは全て、相互作用し、ＨＥＶＣにおけるＲＱＴ構造に影響を及ぼす。ルートＣＢサイズが６４×６４であり、最大深度がゼロに等しく、最大変換サイズが３２×３２に等しいケースを考慮する。このケースでは、ＣＢは、少なくとも１回区分される必要があり、これは、そうでない場合、６４×６４のＴＢをもたらすことになり、これは許容されないからである。ＲＱＴパラメータ、すなわち、最大ＲＱＴ深度、最小および最大変換サイズは、ＨＥＶＣによる、シーケンスパラメータセットレベルにおいて、ビットストリーム中で送信される。ＲＱＴ深度に関しては、異なる値が、イントラコーディングされたＣＵとインターコーディングされたＣＵとについて指定されおよびシグナリングされ得る。

[0096]４分木変換は、ＨＥＶＣではイントラ残差ブロックおよびインター残差ブロックの両方に適用される。典型的に、現在の残差４分木区分と同じサイズのＤＣＴ－ＩＩ変換が、残差ブロックに対して適用される。しかしながら、現在の残差４分木ブロックが４×４であり、かつイントラ予測によって生成される場合、上記の４×４ＤＳＴ－ＶＩＩ変換が適用される。

[0097]ＨＥＶＣでは、より大きいサイズの変換、例えば、６４×６４変換は、主に、比較的より小さい解像度のビデオに対する比較的高い複雑さを考慮して、それらの限られた利益により採用されない。

[0098]図４は、適応型変換選択を用いたハイブリッドビデオ符号化のための例示的なシステム１４０を示すブロック図である。本開示の技法は、このようなシステム、または対応する復号システムによって実行され得る。一般に、本開示の技法は、適応型変換コーディング方式に適用可能であり、ここで、予測残差の各ブロックについて、異なる変換が、ビデオエンコーダによって選択され、サイド情報としてシグナリングされ、サイド情報を使用してビデオデコーダによって決定され得る。

[0099]図４のシステム１４０は、ブロック分離ユニット１４２、ブロック予測ユニット１４４、残差生成ユニット１４６、ブロック変換ユニット１４８、変換バンク１５０、量子化ユニット１５２、エントロピー符号化ユニット１５４、逆量子化ユニット１５６、逆ブロック変換ユニット１５８、ブロック再構成ユニット１６０、およびフレームバッファ１６２を含む。ブロック分離ユニット１４２は、一般に、生のコーディングされていないビデオデータを受信し、ビデオデータのピクチャをブロックに区分する。ブロック予測ユニット１４４は、符号化されるべきビデオデータの現在のブロックについての予測ブロックを生成する。ブロック分離ユニット１４２は、現在のブロックを残差生成ユニット１４６に提供し、ブロック予測ユニット１４４は、予測ブロックを残差生成ユニット１４６に提供する。残差生成ユニット１４６は、残差ブロック（ｒ）を生成し、残差ブロックをブロック変換ユニット１４８に提供する。

[0100]ブロック変換ユニット１４８は、変換バンク１５０から１つまたは複数の変換を選択する。例えば、本開示の技法によれば、変換バンク１５０は、１つまたは複数の１次変換（例えば、分離可能変換）と、１つまたは複数の２次変換（例えば、非分離可能変換）とを含み得る。次いで、ブロック変換ユニット１４８は、変換係数を生成するために、１次変換と、適用可能な場合、２次変換とを適用し得る。さらに、ブロック変換ユニット１４８は、（１つまたは複数の）変換のインジケーション（ｔ）をエントロピー符号化ユニット１５４に送り得る。ブロック変換ユニット１４８は、変換係数（Ｔ^（ｔ）ｒ）を量子化ユニット１５２に提供する。

[0101]量子化ユニット１５２は、例えば、現在のブロックのための量子化パラメータ（ＱＰ）に従って、変換係数のビット深度を低減することによって、変換係数を量子化する。量子化ユニット１５２は、量子化された変換係数を、エントロピー符号化ユニット１５４および逆量子化ユニット１５６に提供する。

[0102]エントロピー符号化ユニット１５４は、量子化された変換係数および変換（ｔ）のインジケーションを含む、シンタックス要素の値のエントロピー符号化を実行する。本開示の技法によれば、エントロピー符号化ユニット１５４は、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードを符号化し得る。選択された変換方式は、１次変換と、いくつかの例では、１次変換に加えて適用されるべき２次変換とを含み得る。選択された変換方式が２次変換を含むケースでは、エントロピー符号化ユニット１５４は、利用可能な２次変換のセットにおける２次変換を表す第２のコードワードを符号化し得る。エントロピー符号化ユニット１５４は、符号化されたビデオビットストリーム中にエントロピー符号化されたデータ（例えば、第１および／または第２のコードワードと、量子化された変換係数についてのエントロピー符号化されたシンタックス要素）を含め得る。

[0103]逆量子化ユニット１５６は、量子化された変換係数を逆量子化し、結果として得られた変換係数を逆ブロック変換ユニット１５８に渡し得る。逆ブロック変換ユニット１５８は、残差ブロックを再生するために、１次変換と、適用可能な場合、２次変換とを変換係数に適用し得る。逆ブロック変換ユニット１５８は、残差ブロックをブロック再構成ユニット１６０に提供し得、これは、再構成されたブロックを生成するために、残差ブロックを予測ブロックと組み合わせ、再構成されたブロックをフレームバッファ１６２に記憶し得る。フレームバッファ１６２は、復号ピクチャバッファ（ＤＰＢ）とも呼ばれ得る。

[0104]図４の様々な構成要素の各々は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組合せでインプリメントされ得る。ソフトウェアまたはファームウェアでインプリメントされるとき、様々な動作のための命令は、メモリに記憶され、１つまたは複数の処理ユニットによって実行され得る。処理ユニットおよびメモリは、回路においてインプリメントされ得る。処理ユニットは、例えば、任意の組合せにおいて、１つまたは複数のデジタルシグナルプロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他の同等の集積されたまたはディスクリートロジック回路を含み得る。

[0105]このようにして、図４のシステム１４０は、ビデオデータを記憶するように構成されたメモリと、回路においてインプリメントされ、かつビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換のセットからの２次変換を表す第２のコードワードをコーディングすることと、現在のブロックのための残差データのコーディング中に、１次変換および２次変換を適用することと、を行うように構成された１つまたは複数のプロセッサと、を含むビデオエンコーダの一例を表す。

[0106]図５Ａおよび図５Ｂは、別個の変換インプリメンテーションとして水平変換および垂直変換を示す概念図である。特に、残差値の水平ラインおよび垂直ライン（horizontal and vertical lines）は、水平変換および垂直変換を使用して独立に変換され得る（例えば、計算複雑さを低減するために、ブロック変換は、分離可能な方法で計算され得る）。

[0107]ＨＥＶＣより前のビデオコーディング規格では、ＤＣＴ－２が垂直方向と水平方向との両方に使用される、固定された分離可能変換のみが使用される。ＨＥＶＣでは、ＤＣＴ－２に加えて、ＤＳＴ－７もまた、固定された分離可能変換として４×４ブロックのために用いられる。米国特許出願第１５／００５，７３６号および第１５／６４９，６１２号は、それらの固定された変換の適応型拡張を説明しており、２０１６年１月２５日に出願された米国特許出願第１５／００５，７３６号、２０１７年７月１３日に出願された米国特許出願第１５／６４９，６１２号、および２０１８年６月１日に出願された第６２／６７９，５７０号に説明されているＭＴＳ（適応型マルチプル変換（ＡＭＴ）とも呼ばれる）の一例が、ＪＶＥＴ（Joint Video Experts Team）のＪＥＭ（Joint Experimental Model）において採用されている（Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, JEM Software、jvet.hhi.fraunhofer.de/svn/svn_HMJEMSoftware/tags/HM-16.6-JEM-7.0で入手可能）。

[0108]図６は、２つの変換を識別するために使用されるＭＴＳシグナリングの一例を表す概念図である。ＶＴＭの現在のバージョン（Versatile Video Coding (Draft 4), Joint Video Experts Team (JVET), ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, 13th Meeting: Marrakech, MA, 9-18 Jan. 2019, Document JVET-M1001、phenix.it-sudparis.eu/jvet/doc_end_user/documents/13_Marrakech/wg11/JVET-M1001-v7.zipで入手可能）では、複数の変換候補が、トランケーテッドユーナリー２値化（truncated unary binarization）に基づいてシグナリングされ、これは、図６および図７における２分木を連結することによって示され得る。次いで、変換候補は、連結によって取得されるコードワードに関連付けられる。

[0109]図７は、例示的な変換割当ておよび対応するユーナリーコードワードを示す概念図である。ＶＶＣの現在のバージョンにおけるＭＴＳシグナリングは、図６の２分木を連結することによって取得されるコードワードに変換を割り当てることを含み、ここで、「Ｈ：ＤＣＴ－８，Ｖ：ＤＳＴ－７」は、分離可能変換のために、ＤＣＴ－８が水平に適用され、ＤＳＴ－７が垂直に適用されることを意味し、ＩＤＴは、１－Ｄ恒等変換（1-D identity transform）（スケーリングを実行すること）を示す。

[0110]ＶＶＣのＭＴＳ（マルチプル－変換－選択）設計は、（図７に示すように）６つの変換候補を使用し、それは、単一のタイプの変換を水平方向と垂直方向との両方において使用する以外の、ＤＳＴ－７およびＤＣＴ－８との組合せをサポートする（すなわち、ＩＤＴ、ＤＣＴ－２、およびＤＳＴ－７を水平および垂直に適用する）。実際には、より良好なコーディング効率が、より多くの数の変換候補を許容することによって達成され得る。本開示は、コーディング効率を改善し得る現在のＭＴＳ設計の様々な拡張を説明する。

[0111]ＭＴＳ方式は、指定されたシグナリング方法のコードワードに変換を割り当てることによって定義され得る。ビデオエンコーダ２００および／またはビデオデコーダ３００は、上記で説明され、および以下でより詳細に説明されるように、本開示の技法に従って構成され得る。特に、本開示によるＭＴＳ方式は、指定されたシグナリング方法のコードワードに変換を割り当てることによって定義され得る。したがって、ＭＴＳ方式は、（ｉ）変換の単一のセットまたは複数のセット（すなわち、変換候補）、および（ｉｉ）関連するシグナリング方法、を指定することによって完全に定義され得る。したがって、ビデオエンコーダ２００およびビデオデコーダ３００は、本開示の技法のうちの任意のものを単独でまたは任意の組合せで使用して、ＭＴＳ方式のインジケーションをコーディングするように構成され得る。

[0112]ＭＴＳ方式のインジケーションは、コードワードであり得る。いくつかの例では、ＭＴＳ方式は、分離可能変換（例えば、水平変換および垂直変換）などの１次変換と、２次変換との両方を含み得る。このような例では、ビデオエンコーダ２００およびビデオデコーダ３００は、２次変換を表す第２のコードワードをコーディングし得、ここで、第２のコードワードは、利用可能な２次変換のセット中の２次変換を識別し得る。

[0113]ＶＶＣにおけるＭＴＳ設計は、下記表１に示されるような６つの分離可能変換候補を含む、単一の変換のセットを使用する：

[0114]上記の例示的な６つの変換候補は、図７（右）に示されるように、２分木（図６）を連結することによって生成されるコードワードを使用してシグナリングされ得る。各コードワードについて、図７（左）に示されるように、変換候補が割り当てられ得る。

[0115]代替のＭＴＳ設計が、以下の技法の、１つまたは複数の組合せに基づいて定義され得る。すなわち、ビデオエンコーダ２００およびビデオデコーダ３００は、単独でまたは任意の組合せで、以下で説明される技法のうちの任意のものを実行し得る。
１．ＭＴＳ設計は、表１に示されるような、ＶＶＣにおける現在の候補のセットのうちのいくつかを置き換えて、または置き換えずに、新しい変換候補を含むことによって拡張され得る。
２．ＤＣＴ－２およびＤＳＴ－７の組合せが、追加の変換候補として含まれ得る。
ａ．一例では、現在のＶＶＣに加えて、さらに２つの変換候補が追加され得、その結果、表２に示されるように、合計８つの分離可能変換候補が許容される：

ｂ．別の例では、さらに２つの変換候補が、「Ｈ：ＤＣＴ－８，Ｖ：ＤＣＴ－８」の組合せを削除することによって追加され得、その結果、表３に示されるように、合計７つの分離可能変換候補が許容される：

３．ＩＤＴおよびＤＳＴ－７の組合せが、追加の変換候補として含まれ得る。
ａ．例えば、表４に示されるように、以下の７つの変換候補が、ＭＴＳにおいて使用され得る。

ｂ．別の例では、以下の１０個の変換候補が、ＤＣＴ－２およびＤＳＴ－７の組合せ、ならびにＩＤＴおよびＤＳＴ－７の組合せを追加することによって、ＭＴＳにおいて使用され得る。

ｃ．別の例では、以下の９つの変換スキップ（これは、恒等候補（identity candidates）を適用することと同等である）が、上記リストからのＤＣＴ－８およびＤＣＴ－８の組合せを以下のように置き換えることによって、ＭＴＳにおいて使用され得る：

４．これら候補およびそれらの関連する２値化（すなわち、コードワード）は、異なる順序付け（ordering）を有し得る。
ａ．順序付けは、予め定義され得、各変換候補の統計値／頻度（frequency）に基づく固定された設計であり得る。
ｂ．例えば、順序付けは、使用される各変換候補の頻度をランク付けすることによって行われ得る。
ｃ．例えば、それは、変換候補をシグナリングするために使用される平均コードワード長を低減するように設計され得る（例えば、使用される各候補の確率に基づいて生成されるハフマンコード）。
ｄ．例えば、実用的なコーデックでは、Ｈ：ＤＳＴ－７，Ｖ：ＤＳＴ－７およびＨ：ＤＣＴ－２，Ｖ：ＤＣＴ－２の組合せが頻繁に使用される。したがって、シグナリングオーバーヘッドを低減するために、表１のＭＴＳ設計は、表７の以下の例のように順序付けられ得る：

５．予測モードおよび／またはブロックサイズに依存して、異なるＭＴＳ設計が、ブロックをコーディングするために使用され得、ここで、ブロックは、変換ユニット（ＴＵ）またはコーディングユニット（ＣＵ）であり得る。
ａ．異なるＭＴＳ設計は、以下を含み得る：
i．変換候補の異なるセット、
ii．異なるシグナリングおよび２値化（すなわち、各候補について使用されるコードワード）、
iii．上記i）およびii）の両方。
ｂ．複数のＭＴＳ設計が、イントラおよび／またはインター予測モードに依存して、変換の選択肢（transform choices）を決定するために使用され得る：
i．異なるタイプの予測方法（例えば、イントラ予測およびインター予測）は、異なるＭＴＳ設計を使用し得る。例えば、インター予測されたブロックをコーディングする場合、表１に定義されたＭＴＳが使用され得、一方、イントラ予測されたブロックの場合、表５に定義されたＭＴＳが変換を決定するために使用され得る。
ii．イントラ予測モードの異なるサブセットは、異なるＭＴＳ設計を使用し得る。モードの異なるサブセットは、プレーナモード、ＤＣモードおよび角度モードのサブセットの相互に排他的で集合的に網羅的な選択（mutually exclusive and collectively exhaustive selection）によって定義され得る。例えば、プレーナモード（０）、ＤＣモード（１）および対角モード（３４）については、３つの候補を有する表８のＭＴＳ設計が使用され得る。（２）から（３３）までの角度モードについては、表９が使用され得る。（３５）から（６６）までの残りの角度モードについては、表１０が使用され得る。

ｃ．複数のＭＴＳ設計が、ブロック形状およびブロックサイズに依存して、変換の選択肢を決定するために使用され得る。
i．異なるＭＴＳ設計が、異なるサイズおよび／または形状のブロックに対して使用され得る。
ii．例えば、小さいブロックをコーディングする場合は、より少ない候補を有するＭＴＳ設計が使用され得、一方、より大きいブロックの場合は、より多くの変換候補を有する別のＭＴＳ設計が使用され得る。したがって、小さいブロックのための変換シグナリングオーバーヘッドが、低減され得る。
iii．小さいブロックは、その幅および／または高さに基づいて定義され得る。例えば、８より小さい幅または高さを有するブロックは、小さいブロックと見なされ得、一方、残りのブロックは、大きいブロックと見なされ得る（例えば、ブロックの幅と高さの最小値が１６より小さい場合には、ブロックは、小さいとして分類され得る）。
iv．ブロックはまた、正方形／長方形の形状に基づいて分類され得、ここで、幅と高さとの間の比が、異なる形状を有するブロックを分類するために使用され得る（例えば、４×８および８×４ブロックは、１つのクラスに属し得、サイズ４×１６および１６×４のブロックは、別のクラスに属し得る）。
ｄ．単一の（統合された）ＭＴＳ設計がまた、シグナリングのために使用され得る。
６．変換候補をシグナリングするためのコンテキスト導出がまた、以下のうちの１つまたは組合せに依存して行われ得る：
ａ．ブロックサイズ、
ｂ．ブロック形状、
ｃ．イントラモード、
ｄ．インターモード。
－別個のコンテキストが、イントラ予測およびインター予測されたＣＵ／ＴＵのために定義され得る。
－別個のコンテキストは、ブロックの幅および高さの最小値に基づいて定義され得る。
７．分離可能変換に加えて、ＭＴＳ設計は、変換候補として非分離可能変換も含み得る。一例が、表１１に示される。

[0116]さらに、２次変換が、分離可能変換に加えてＭＴＳ設計に含まれ得る。表１２は、Ｈ：ＤＣＴ－８，Ｖ：ＤＣＴ－８の組合せが、２次変換のセットによって置き換えられる、ＭＴＳの一例を提示する。

[0117]２次変換は、２０１６年９月２０日に出願された米国特許出願第１５／２７０，４５５号および２０１９年３月２５日に出願された米国特許出願第１６／３６４，００７号に記載されている態様を含み得る。具体的には、エンコーダ側において、２次変換が、（例えば、２－ＤＤＣＴ－２から得られた）１次変換係数のサブセットに適用され得、ここで、この順序は、デコーダにおいて逆にされる（最初に逆２次変換が適用され、次いで１次変換が適用される）。

[0118]２次変換は、図８に示され、以下でより詳細に説明されるように、複数の２次変換の中から選択される変換を決定するために、追加のシグナリングを必要とし得る。単一の２次変換候補のみが存在する（すなわち、セットが単一の２次変換のみであり得る）場合、表１２におけるＭＴＳシグナリングに加えて追加のシグナリングは必要とされないことに留意されたい。

[0119]２次変換の場合、変換候補はまた、予測モード、ブロックサイズおよびブロック形状のうちの１つまたは組合せに依存し得る。

８．ＭＴＳ設計における分離可能変換は、ＩＤＴ、ＤＳＴ－７、ＤＣＴ－８、およびＤＣＴ－２に加えて、他のタイプのＤＳＴおよびＤＣＴの組合せ（例えば、ＤＳＴ－４およびＤＣＴ－４）を使用して構築され得る。
９．上記の方法のうちの１つまたは組合せは、イントラ予測されたＣＵのために使用され得る。
１０．上記の方法のうちの１つまたは組合せは、インター予測されたＣＵのために使用され得る。
１１．上記の方法のうちの１つまたは組合せは、イントラ予測されたＣＵとインター予測されたＣＵとの両方のために使用され得る。
１２．上記の方法のうちの１つまたは組合せが、ルーマチャネルもしくはクロマチャネルまたは両方のために使用され得る。

[0120]図８は、２次変換をサポートする例示的なＭＴＳ設計を示す概念図である。２次変換がシグナリングされた／選ばれた場合、追加のシグナリングが、Ｎ個の可能な２次変換の中から２次変換を示すために使用され得る。すなわち、ビデオエンコーダ２００は、１次変換と、１次変換に加えて２次変換が適用されるべきであることとを示す第１のコードワードを符号化し、変換のセットのうちの２次変換（例えば、図８に図示されるＮ個の利用可能な変換のうちの１つ）を示す第２のコードワードをさらに符号化し得る。同様に、ビデオデコーダ３００は、第１のコードワードを復号し、第１のコードワードが、１次変換と、２次変換が適用されるべきであることと示すことを決定し得る。したがって、ビデオデコーダ３００は、第１のコードワードに応答して第２のコードワードをさらに復号し、２次変換を決定するために、第２のコードワードを使用し得る。ビデオエンコーダ２００およびビデオデコーダ３００は、１次変換と２次変換との両方をさらに適用し得る。

[0121]いくつかの例では、以下でより詳細に説明されるように、２次変換は、低周波数非分離可能変換（ＬＦＮＳＴ：Low-Frequency Non-separable Transformation）であり得る。したがって、第１のコードワードは、ＭＳＴシンタックス要素と呼ばれ得、第２のコードワードは、ＬＦＮＳＴシンタックス要素と呼ばれ得る。

[0122]図９および図１０は、低周波数非分離可能変換（ＬＦＮＳＴ）の使用を示す概念図である。ＬＦＮＳＴは、ＭＴＳのコーディング効率をさらに改善するために、ＪＥＭ－７．０において使用され、ここで、ＬＦＮＳＴのインプリメンテーションは、ハイパーキューブギブンス変換（ＨｙＧＴ：Hypercube-Givens Transform）に基づき、これは、米国特許出願公開第２０１７／０２３８０１３号、米国特許出願公開第２０１７／００９４３１３号、第２０１７／０２３８０１４号、米国特許出願第１６／３６４，００７号、ならびに米国仮特許出願第６２／６６８，１０５号および第６２／８４９，６８９号（代替の設計およびさらなる詳細を説明している）に記載されている。ＬＦＮＳＴは、以前は非分離可能２次変換（ＮＳＳＴ）または２次変換と呼ばれていたが、ＬＦＮＳＴ、ＮＳＳＴ、および２次変換は、一般に同じ技法を指し得る。最近では、Koo他、“CE6: Reduced Secondary Transform (RST) (CE6-3.1),” Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11, 14th Meeting, Geneva, CH, 19-27 Mar. 2019, document JVET-N0193に記載されているように、ＬＦＮＳＴがドラフトＶＶＣ規格へと採用された。

[0123]図９は、ビデオエンコーダ２００およびビデオデコーダ３００によって適用されるＬＦＮＳＴ変換を示す概念図である。ＬＦＮＳＴは、コーデックにおいて、分離可能変換と量子化との間に新たな段階を導入している。図１０は、Ｈ×Ｗブロックの（左上の部分における）係数のサブセットに適用されるＬＦＮＳＴを示す概念図である。

[0124]ＶＶＣドラフト５は、有意なコーディング利益なしに、いくらかのエンコーダ／デコーダの複雑さを導入する以下の仕様を含む：
１）ＬＦＮＳＴは、変換スキップ（ＴＳ）モードを除く、任意のＭＴＳ変換と共に使用され得る、
２）ＬＦＮＳＴインデックスをシグナリングするために使用されるコンテキストモデルは、ＭＴＳインデックスに依存する。例えば、ビデオコーダは、ＭＴＳインデックスに基づいて、ＬＦＮＳＴインデックスをＣＡＢＡＣコーディングする（または他のコーディング技法の）際に使用されるコンテキストモデルを選択し得る。コンテキストモデルは、ＬＦＮＳＴインデックスの第１のビットが特定の値を有する確率を示し得る。
３）ＬＦＮＳＴは、クロマチャネルをコーディングする際に使用され得るが、ＭＴＳは、クロマに対して規範的に（normatively）無効にされる、
４）４×４および８×８ブロックに適用されるＬＦＮＳＴは、単一の段階を使用して（すなわち、単一の非分離可能変換を使用して）インプリメントされ得るが、現在のインプリメンテーションは、２段階プロセスに基づく。

[0125]本開示は、上記の問題に対処することによって、ＬＦＮＳＴ設計を簡略化し得る技法を説明する。本開示で説明されるＬＦＮＳＴ設計は、個別に、または任意の組合せで使用され得る。

[0126]ＶＶＣドラフト５では、ＬＦＮＳＴは、３つのモードを含み、これらは、ＬＦＮＳＴインデックス値０、１および２を使用してシグナリングされ、ここで：
・ＬＦＮＳＴインデックス０は、ＬＦＮＳＴプロセスをスキップすることに対応する（例えば、ＭＴＳのみが使用される）、
・ＬＦＮＳＴインデックス１および２は、ブロック（例えば、ＣＵ、ＴＵなど）のモードおよびサイズに依存して選ばれる２つの変換のセットから非分離可能変換を決定するために使用される。

[0127]この設計に基づいて、ＬＦＮＳＴは、ある特定の条件下で使用されるように制限され得る：
・ＬＦＮＳＴは、変換の予め定義されたセット（すなわち、ある特定のＭＴＳ候補）と共に適用され得る。したがって、ＬＦＮＳＴインデックスは、予め定義されたセットからの変換が選択された場合にシグナリングされ得、このセットは、ブロック寸法（幅および高さ）に依存し得る。そうでない場合、すなわち、予め定義されたセット外の（out of）変換が選ばれた場合、ＬＦＮＳＴインデックスは、ゼロであると推定（inferred）され得、その結果、ＬＦＮＳＴは、スキップされる（すなわち、適用されない）。
○ＬＦＮＳＴの使用は、変換タイプおよび／またはＭＴＳインデックス／フラグおよび／またはブロック寸法に基づいて制限され得る。
□ＬＦＮＳＴは、予め定義された変換タイプおよび／またはＭＴＳインデックス／フラグが使用されるときに有効にされ得る。
・ＬＦＮＳＴは、分離可能２－ＤＤＣＴ－２が使用される場合（すなわち、ＤＣＴ－２が水平および垂直に適用される場合）、有効にされ得る
○ＶＶＣにおいて、これは、ＭＴＳインデックス／フラグがゼロである（すなわち、２－ＤＤＣＴ－２が使用される）場合に、ＬＦＮＳＴインデックスをシグナリングすることに対応し、ＭＴＳインデックス／フラグが０とは異なる場合、ＬＦＮＳＴインデックス／フラグは、シグナリングされず、ビデオデコーダ３００によって、ゼロと推定される。
○このケースでは、ＬＦＮＳＴインデックス／フラグをコーディングするためのコンテキストモデルは、ＭＴＳインデックスに依存しない。
□ＬＦＮＳＴは、変換スキップモードに対して無効にされ得る。
・変換スキップが有効にされたとき、ＬＦＮＳＴプロセスはスキップされ、ＬＦＮＳＴインデックス／フラグは、０と推定される。
○ＬＦＮＳＴインデックスのシグナリングをコーディングするためのコンテキストモデルは、ＭＴＳインデックスに依存し得る。各ＭＴＳインデックスについて、別個のコンテキストが、ＬＦＮＳＴインデックスをコーディングするために定義され得る。
・ＬＦＮＳＴは、ルーマブロックのために使用され得、クロマチャネルに対して無効にされ得る。したがって、ＬＦＮＳＴインデックスは、シグナリングされず、クロマチャネルについて０と推定される。

[0128]したがって、本開示の１つまたは複数の技法による一例では、ビデオエンコーダ２００は、ＬＦＮＳＴインデックスのシグナリングに対する１つまたは複数の制限が現在のブロックには適用されない場合、ビデオデータの符号化された表現を備えるビットストリームに、ビデオデータの現在のブロックのためのＬＦＮＳＴインデックスを追加し得る。加えて、この例では、ビデオエンコーダ２００は、現在のブロックのための中間データを生成するために、生成すべき現在のブロックのための残差データに変換を適用し得る。この例では、ＬＦＮＳＴインデックスの値に基づいて、ビデオエンコーダ２００は、現在のブロックのための変換係数を生成するために、中間データにＬＦＮＳＴを適用し得る。ビデオエンコーダ２００は、ビットストリーム中に現在のブロックのための変換係数を表すデータを含め得る。

[0129]本開示の１つまたは複数の技法による一例では、ビデオデコーダ３００は、ＬＦＮＳＴインデックスのシグナリングに対する１つまたは複数の制限が現在のブロックには適用されない場合、ビデオデータの符号化された表現を含むビットストリームから、ビデオデータの現在のブロックのためのＬＦＮＳＴインデックスを取得し得る。この例では、ビデオデコーダ３００は、ビットストリーム中のデータに基づいて、変換係数のブロックを決定し得る。ＬＦＮＳＴインデックスの値に基づいて、ビデオデコーダ３００は、現在のブロックのための中間データを生成するために、変換係数のブロックに逆ＬＦＮＳＴを適用し得る。ビデオデコーダ３００は、現在のブロックのための残差データを生成するために、現在のブロックのための中間データに変換の逆を適用し得る。この例では、ビデオデコーダ３００は、現在のブロックのための残差データに基づいて、現在のブロックのサンプルを再構成し得る。

[0130]図１１Ａおよび図１１Ｂは、２０１９年５月３０日のＶＶＣテストモデル（ＶＴＭ）による、例示的な２ステップＬＦＮＳＴプロセスのインプリメンテーションを示す概念図である。この例では、ＬＦＮＳＴは、左上領域におけるより濃い網掛けのサブブロック内で、分離可能変換係数（例えば、ＭＴＳ係数）のサブセットに加えて（on top of a subset of separable transform coefficients）適用される。この２ステップ手順は、図１１Ａのブロック形状／サイズでは回避できない場合がある。しかしながら、図１１Ｂに示されるような、４×４および８×８ブロックの場合、ＬＦＮＳＴ変換サイズと分離可能変換サイズとが揃っている（すなわち、ＬＦＮＳＴ変換および分離可能変換のサポートは、濃い網掛けのブロック内の同じ係数ロケーション／位置を含み得る）。このケースでは、この変換プロセスは、以下のように単一の段階の非分離可能変換に低減され得る：
－２段階でＬＦＮＳＴを適用する代わりに（例えば、分離可能変換と共にＬＦＮＳＴを適用する代わりに）、ビデオエンコーダ２００およびビデオデコーダ３００は、１段階で非分離可能変換から係数を直接取得し得る。例えば：
○４×４のケースについては、１６長の非分離可能変換が使用され、これは、行列－ベクトル乗算としてインプリメントされ得る。
○８×８のケースについては、６４長の非分離可能変換が使用され、これもまた、行列－ベクトル乗算としてインプリメントされ得る。
－さらに、ゼロアウト方式（zero-out scheme）（例えば、米国仮特許出願第６２／８４９，６８９号に記載されている）が、行列ベースのインプリメンテーションに必要とされる乗算の数を低減するために使用され得る。
○ゼロアウト方式では、最初のＫ個の最も低い周波数係数（the first K lowest-frequency coefficients）が計算される必要があり得、残りの変換係数は、規範的にゼロアウトされ得る（すなわち、ビデオエンコーダ２００とビデオデコーダ３００との両方において、ゼロであると仮定される）。
□Ｋの値は、ブロックサイズに依存し得る。例えば：
・４×４ブロックの場合、Ｋは８であり得、したがって、残りの８個の係数は、規範的にゼロアウトされる。
・８×８ブロックの場合、Ｋは８であり得、したがって、残りの５６個の係数は、規範的にゼロアウトされる。
・８×８ブロックの場合、Ｋは１６であり得、したがって、残りの４８個の係数は、規範的にゼロアウトされる。
－ＬＦＮＳＴは、４×４および８×８の場合、単一の段階の非分離可能変換としてインプリメントされ得、他のケースでは、ＬＦＮＳＴは、米国仮特許出願第６２／３３７，７３６号に記載されているような２ステッププロセスとしてインプリメントされ得る。

[0131]本開示の技法による一例では、ビデオエンコーダ２００は、ビデオデータの第１のブロックのための残差データを決定し得る。加えて、ビデオエンコーダ２００は、ビデオデータの第２のブロックのための残差データを決定し得る。第１のブロックの幅が第１のブロックの高さに等しいことに基づいて、ビデオエンコーダ２００は、第１のブロックのための変換係数を生成するために、第１のブロックのための残差データに非分離可能変換を適用し、ビデオデータの符号化された表現を含むビットストリーム中に、第１のブロックのための変換係数を表すデータを含め得る。この例では、第２のブロックの幅が第２のブロックの高さに等しくないことに基づいて、ビデオエンコーダ２００は、第２のブロックのための中間データを生成するために、第２のブロックのための残差データに変換を適用し、第２のブロックのための変換係数を生成するために、第２のブロックのための中間データにＬＦＮＳＴを適用し、ビットストリーム中に、第２のブロックのための変換係数を表すデータを含め得る。

[0132]本開示の技法による別の例では、ビデオデコーダ３００は、ビデオデータの符号化された表現を含むビットストリーム中の第１のデータに基づいて、ビデオの第１のブロックのための変換係数を決定し得る。さらに、ビデオデコーダ３００は、ビットストリーム中の第２のデータに基づいて、ビデオデータの第２のブロックのための変換係数を決定し得る。第１のブロックの幅が第１のブロックの高さに等しいことに基づいて、ビデオデコーダ３００は、第１のブロックのための残差データを生成するために、第１のブロックのための変換係数に非分離可能変換の逆を適用し、第１のブロックのための残差データに基づいて、第１のブロックのサンプルを再構成し得る。この例では、第２のブロックの幅が第２のブロックの高さに等しくないことに基づいて、ビデオデコーダ３００は、第２のブロックのための中間データを生成するために、第２のブロックのための変換係数に逆変換を適用し、第２のブロックのための残差データを生成するために、第２のブロックのための中間データにＬＦＮＳＴの逆を適用し、第２のブロックのための残差データに基づいて、第２のブロックのサンプルを再構成し得る。

[0133]図１２は、本開示の技法を実行し得る例示的なビデオエンコーダ２００を示すブロック図である。図１２は、説明を目的として提供されており、本開示において広く実証および説明される技法を限定するものとみなされるべきではない。説明を目的として、本開示は、ＨＥＶＣビデオコーディング規格および開発中のＨ．２６６／ＶＶＣビデオコーディング規格などのビデオコーディング規格のコンテキストにおいて、ビデオエンコーダ２００を説明する。しかしながら、本開示の技法は、これらのビデオコーディング規格に限定されず、一般にビデオ符号化および復号に適用可能である。

[0134]図１２の例では、ビデオエンコーダ２００は、ビデオデータメモリ２３０、モード選択ユニット２０２、残差生成ユニット２０４、変換処理ユニット２０６、量子化ユニット２０８、逆量子化ユニット２１０、逆変換処理ユニット２１２、再構成ユニット２１４、フィルタユニット２１６、復号ピクチャバッファ（ＤＰＢ）２１８、およびエントロピー符号化ユニット２２０を含む。図１２は、上記の図４に示されるように、本開示の技法に従って、変換処理ユニット２０６および逆変換処理ユニット２１２がそこから変換を選択する変換バンクをさらに含み得る。同様に、図４に示されるように、変換処理ユニット２０６は、選択された変換のインジケーションをエントロピー符号化ユニット２２０に提供し得、これは、本開示の技法に従って、ＭＴＳ方式のための様々な変換のうちのどれがビデオデータの現在のブロックのために選択されるかを表すデータを符号化し得る。

[0135]ビデオデータメモリ２３０は、ビデオエンコーダ２００の構成要素によって符号化されるべきビデオデータを記憶し得る。ビデオエンコーダ２００は、例えば、ビデオソース１０４（図１）から、ビデオデータメモリ２３０に記憶されたビデオデータを受信し得る。ＤＰＢ２１８は、ビデオエンコーダ２００による後続のビデオデータの予測において使用するための参照ビデオデータを記憶する参照ピクチャメモリとして機能し得る。ビデオデータメモリ２３０およびＤＰＢ２１８は、同期ＤＲＡＭ（ＳＤＲＡＭ）を含むダイナミックランダムアクセスメモリ（ＤＲＡＭ）、磁気抵抗ＲＡＭ（ＭＲＡＭ）、抵抗ＲＡＭ（ＲＲＡＭ（登録商標））、または他のタイプのメモリデバイスなどの、様々なメモリデバイスのうちの任意のものによって形成され得る。ビデオデータメモリ２３０およびＤＰＢ２１８は、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、ビデオデータメモリ２３０は、例示されるように、ビデオエンコーダ２００の他の構成要素とともにオンチップであり得、またはそれらの構成要素に対してオフチップであり得る。

[0136]本開示では、ビデオデータメモリ２３０への参照は、そのように明記されていない限り、ビデオエンコーダ２００の内部にあるメモリに、またはそのように明記されていない限り、ビデオエンコーダ２００の外部にあるメモリに、限定されると解釈されるべきではない。むしろ、ビデオデータメモリ２３０への参照は、ビデオエンコーダ２００が符号化のために受信するビデオデータ（例えば、符号化されるべき現在のブロックについてのビデオデータ）を記憶する参照メモリとして理解されるべきである。図１のメモリ１０６はまた、ビデオエンコーダ２００の様々なユニットからの出力の一時記憶（temporary storage）を提供し得る。

[0137]図１２の様々なユニットは、ビデオエンコーダ２００によって実行される動作の理解を助けるために例示される。これらユニットは、固定機能回路、プログラマブル回路、またはこれらの組合せとしてインプリメントされ得る。固定機能回路は、特定の機能を提供する回路を指し、実行され得る動作で予め設定されている。プログラマブル回路は、様々なタスクを実行するようにプログラムされ得る回路を指し、実行され得る動作において柔軟な機能を提供する。例えば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義された方法でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、（例えば、パラメータを受け取るまたはパラメータを出力するために）ソフトウェア命令を実行し得るが、固定機能回路が実行する動作のタイプは、一般に変更不可能である。いくつかの例では、これらユニットのうちの１つまたは複数は、個別の回路ブロック（固定機能またはプログラマブル）であり得、いくつかの例では、１つまたは複数のユニットは、集積回路であり得る。

[0138]ビデオエンコーダ２００は、プログラマブル回路から形成された、演算論理ユニット（ＡＬＵ）、初等関数ユニット（ＥＦＵ）、デジタル回路、アナログ回路、および／またはプログラマブルコアを含み得る。ビデオエンコーダ２００の動作が、プログラマブル回路によって実行されるソフトウェアを使用して実行される例では、メモリ１０６（図１）が、ビデオエンコーダ２００が受信および実行するソフトウェアのオブジェクトコードを記憶し得るか、またはビデオエンコーダ２００内の別のメモリ（図示せず）が、そのような命令を記憶し得る。

[0139]ビデオデータメモリ２３０は、受信されたビデオデータを記憶するように構成される。ビデオエンコーダ２００は、ビデオデータメモリ２３０からビデオデータのピクチャを取り出し、ビデオデータを残差生成ユニット２０４およびモード選択ユニット２０２に提供し得る。ビデオデータメモリ２３０内のビデオデータは、符号化されるべき生のビデオデータであり得る。

[0140]モード選択ユニット２０２は、動き推定ユニット２２２、動き補償ユニット２２４、およびイントラ予測ユニット２２６を含む。モード選択ユニット２０２は、他の予測モードに従ってビデオ予測を実行するための追加の機能ユニットを含み得る。例として、モード選択ユニット２０２は、パレットユニット、イントラブロックコピーユニット（これは、動き推定ユニット２２２および／または動き補償ユニット２２４の一部であり得る）、アフィンユニット、線形モデル（ＬＭ）ユニット、または同様のものを含み得る。

[0141]モード選択ユニット２０２は、一般に、複数の符号化パスを調整して、符号化パラメータの組合せと、そのような組合せについての結果として得られるレート歪み値とをテストする。符号化パラメータは、ＣＴＵのＣＵへの区分、ＣＵのための予測モード、ＣＵの残差データのための変換タイプ、ＣＵの残差データのための量子化パラメータなどを含み得る。モード選択ユニット２０２は、最終的に、他のテストされた組合せよりも良好なレート歪み値を有する符号化パラメータの組合せを選択し得る。

[0142]ビデオエンコーダ２００は、ビデオデータメモリ２３０から取り出されたピクチャを一連のＣＴＵに区分し、スライス内に１つまたは複数のＣＴＵをカプセル化し得る。モード選択ユニット２０２は、上記で説明されたＨＥＶＣの４分木構造またはＱＴＢＴ構造などのツリー構造に従って、ピクチャのＣＴＵを区分し得る。上記で説明されたように、ビデオエンコーダ２００は、ツリー構造に従ってＣＴＵを区分することから１つまたは複数のＣＵを形成し得る。このようなＣＵは、一般に「ビデオブロック」または「ブロック」とも呼ばれ得る。

[0143]一般に、モード選択ユニット２０２はまた、現在のブロック（例えば、現在のＣＵ、またはＨＥＶＣでは、ＰＵとＴＵとの重複部分）についての予測ブロックを生成するように、その構成要素（例えば、動き推定ユニット２２２、動き補償ユニット２２４、およびイントラ予測ユニット２２６）を制御する。現在のブロックのインター予測のために、動き推定ユニット２２２は、１つまたは複数の参照ピクチャ（例えば、ＤＰＢ２１８に記憶された１つまたは複数の以前にコーディングされたピクチャ）内の、１つまたは複数の密接にマッチする参照ブロックを識別するために、動き探索を実行し得る。特に、動き推定ユニット２２２は、例えば、絶対差分和（ＳＡＤ）、２乗差分和（ＳＳＤ）、平均絶対差分（ＭＡＤ）、平均２乗差分（ＭＳＤ）、または同様のものに従って、潜在的な参照ブロックが現在のブロックにどれだけ類似しているかを表す値を算出し得る。動き推定ユニット２２２は、一般に、現在のブロックと考慮されている参照ブロックとの間のサンプルごとの差分を使用して、これらの算出を実行し得る。動き推定ユニット２２２は、現在のブロックに最も密接にマッチする参照ブロックを示す、これらの算出の結果として生じる最低値を有する参照ブロックを識別し得る。

[0144]動き推定ユニット２２２は、現在のピクチャ内の現在のブロックの位置に対する参照ピクチャ内の参照ブロックの位置を定義する、１つまたは複数の動きベクトル（ＭＶ）を形成し得る。次いで、動き推定ユニット２２２は、動きベクトルを動き補償ユニット２２４に提供し得る。例えば、単方向インター予測の場合、動き推定ユニット２２２は、単一の動きベクトルを提供し得る一方で、双方向インター予測の場合、動き推定ユニット２２２は、２つの動きベクトルを提供し得る。次いで、動き補償ユニット２２４は、動きベクトルを使用して予測ブロックを生成し得る。例えば、動き補償ユニット２２４は、動きベクトルを使用して参照ブロックのデータを取り出し得る。別の例として、動きベクトルが分数サンプル精度（fractional sample precision）を有する場合、動き補償ユニット２２４は、１つまたは複数の補間フィルタに従って、予測ブロックの値を補間し得る。さらに、双方向インター予測の場合、動き補償ユニット２２４は、それぞれの動きベクトルによって識別された２つの参照ブロックについてのデータを取り出し、例えば、サンプルごとの平均化または重み付け平均化を通じて、取り出されたデータを組み合わせ得る。

[0145]別の例として、イントラ予測、またはイントラ予測コーディングの場合、イントラ予測ユニット２２６は、現在のブロックに隣接するサンプルから予測ブロックを生成し得る。例えば、方向性モードの場合、イントラ予測ユニット２２６は、一般に、隣接サンプルの値を数学的に組み合わせ、これらの算出された値を現在のブロックにわたって定義された方向にポピュレートして（populate）、予測ブロックを生成し得る。別の例として、ＤＣモードの場合、イントラ予測ユニット２２６は、現在のブロックに対する隣接サンプルの平均を算出し、予測ブロックの各サンプルについてのこの結果として得られる平均を含むように予測ブロックを生成し得る。

[0146]モード選択ユニット２０２は、予測ブロックを残差生成ユニット２０４に提供する。残差生成ユニット２０４は、ビデオデータメモリ２３０から現在のブロックの生のコーディングされていないバージョンを受信し、モード選択ユニット２０２から予測ブロックを受信する。残差生成ユニット２０４は、現在のブロックと予測ブロックとの間のサンプルごとの差分を算出する。結果として得られるサンプルごとの差分は、現在のブロックについての残差ブロックを定義する。いくつかの例では、残差生成ユニット２０４はまた、残差差分パルスコード変調（ＲＤＰＣＭ：residual differential pulse code modulation）を使用して残差ブロックを生成するために、残差ブロック中のサンプル値間の差分を決定し得る。いくつかの例では、残差生成ユニット２０４は、バイナリ減算を実行する１つまたは複数の減算器回路を使用して形成され得る。

[0147]モード選択ユニット２０２がＣＵをＰＵに区分する例では、各ＰＵは、ルーマ予測ユニットおよび対応するクロマ予測ユニットに関連付けられ得る。ビデオエンコーダ２００およびビデオデコーダ３００は、様々なサイズを有するＰＵをサポートし得る。上記で示されたように、ＣＵのサイズは、ＣＵのルーマコーディングブロックのサイズを指し得、ＰＵのサイズは、ＰＵのルーマ予測ユニットのサイズを指し得る。特定のＣＵのサイズが２Ｎ×２Ｎであると仮定すると、ビデオエンコーダ２００は、イントラ予測の場合、２Ｎ×２ＮまたはＮ×ＮのＰＵサイズ、およびインター予測の場合、２Ｎ×２Ｎ、２Ｎ×Ｎ、Ｎ×２Ｎ、Ｎ×Ｎ、または同様の対称ＰＵサイズをサポートし得る。ビデオエンコーダ２００およびビデオデコーダ３００はまた、インター予測の場合、２Ｎ×ｎＵ、２Ｎ×ｎＤ、ｎＬ×２Ｎ、およびｎＲ×２ＮのＰＵサイズについての非対称区分をサポートし得る。

[0148]モード選択ユニットがＣＵをＰＵにそれ以上区分しない例では、各ＣＵは、ルーマコーディングブロックおよび対応するクロマコーディングブロックに関連付けられ得る。上記のように、ＣＵのサイズは、ＣＵのルーマコーディングブロックのサイズを指し得る。ビデオエンコーダ２００およびビデオデコーダ３００は、２Ｎ×２Ｎ、２Ｎ×Ｎ、またはＮ×２ＮのＣＵサイズをサポートし得る。

[0149]ほんの一例として、イントラブロックコピーモードコーディング、アフィンモードコーディング、および線形モデル（ＬＭ）モードコーディングなどの他のビデオコーディング技法の場合、モード選択ユニット２０２は、これらコーディング技法に関連付けられたそれぞれのユニットを介して、符号化されている現在のブロックのための予測ブロックを生成する。パレットモードコーディングなどのいくつかの例では、モード選択ユニット２０２は、予測ブロックを生成せず、代わりに、選択されたパレットに基づいてブロックを再構成する方法を示すシンタックス要素を生成し得る。このようなモードでは、モード選択ユニット２０２は、これらのシンタックス要素をエントロピー符号化ユニット２２０に提供して、符号化されるようにし得る。

[0150]上記で説明されたように、残差生成ユニット２０４は、現在のブロックについてのビデオデータと、対応する予測ブロックとを受信する。次いで、残差生成ユニット２０４は、現在のブロックについての残差ブロックを生成する。残差ブロックを生成するために、残差生成ユニット２０４は、予測ブロックと現在のブロックとの間のサンプルごとの差分を算出する。

[0151]変換処理ユニット２０６は、変換係数のブロック（本明細書では「変換係数ブロック」と呼ばれる）を生成するために、残差ブロックに１つまたは複数の変換を適用する。変換処理ユニット２０６は、変換係数ブロックを形成するために、残差ブロックに様々な変換を適用し得る。例えば、変換処理ユニット２０６は、残差ブロックに、離散コサイン変換（ＤＣＴ）、方向性変換、カルーネンレーベ変換（ＫＬＴ）、または概念的に同様の変換を適用し得る。いくつかの例では、変換処理ユニット２０６は、残差ブロックに複数の変換、例えば、回転変換などの１次変換および２次変換を実行し得る。いくつかの例では、変換処理ユニット２０６は、残差ブロックに変換を適用しない。

[0152]本開示の技法によれば、変換処理ユニット２０６は、１次変換と２次変換との両方を含む変換方式（例えば、ＭＴＳ方式）を選択し得る。１次変換は、様々なＤＣＴおよび／またはＤＳＴのうちの１つなどの、水平変換および垂直変換を含む分離可能変換であり得る。２次変換は、ＬＦＮＳＴであり得る。変換処理ユニット２０６は、追加として、選択された変換方式のインジケーションと、選択された変換方式が２次変換を含む場合は、選択された２次変換のインジケーションとをエントロピー符号化ユニット２２０に提供し得る。エントロピー符号化ユニット２２０は、順に、選択された変換方式を表す第１のコードワードを符号化し得る（これはまた、選択された変換方式が２次変換を含むかどうかを示し得る）。選択された変換方式がＬＦＮＳＴなどの２次変換を含む場合、エントロピー符号化ユニット２２０は、選択された２次変換を表す第２のコードワードをさらに符号化し得る。ビデオエンコーダ２００は、例えば、上記で説明されたように、１次変換がＤＣＴ－２水平変換とＤＣＴ－２垂直変換とを含む場合、選択された変換方式が２次変換を含むと決定し得る。さらに、変換処理ユニット２０６は、残差ブロックに１次変換を適用し得る。選択された変換方式が２次変換を含む場合、変換処理ユニット２０６はまた、１次変換に続いて２次変換を適用し得る。

[0153]量子化ユニット２０８は、量子化された変換係数ブロックを生成するために、変換係数ブロックにおける変換係数を量子化し得る。量子化ユニット２０８は、現在のブロックに関連付けられた量子化パラメータ（ＱＰ）値に従って、変換係数ブロックの変換係数を量子化し得る。ビデオエンコーダ２００は（例えば、モード選択ユニット２０２を介して）、ＣＵに関連付けられたＱＰ値を調整することによって、現在のブロックに関連付けられた係数ブロックに適用される量子化の程度を調整し得る。量子化は、情報の損失をもたらし得、したがって、量子化された変換係数は、変換処理ユニット２０６によって生成された元の変換係数よりも低い精度を有し得る。

[0154]逆量子化ユニット２１０および逆変換処理ユニット２１２は、変換係数ブロックから残差ブロックを再構成するために、それぞれ、量子化された変換係数ブロックに逆量子化および逆変換を適用し得る。本開示の技法によれば、逆変換処理ユニット２１２は、変換係数に対して、逆２次変換を適用し、次いで、逆１次変換を適用し得る。再構成ユニット２１４は、再構成された残差ブロックと、モード選択ユニット２０２によって生成された予測ブロックとに基づいて、（潜在的にある程度の歪みを伴ってではあるが）現在のブロックに対応する再構成されたブロックを生成し得る。例えば、再構成ユニット２１４は、再構成されたブロックを生成するために、再構成された残差ブロックのサンプルを、モード選択ユニット２０２によって生成された予測ブロックからの対応するサンプルに加算し得る。

[0155]フィルタユニット２１６は、再構成されたブロックに対して１つまたは複数のフィルタ動作を実行し得る。例えば、フィルタユニット２１６は、ＣＵのエッジに沿ったブロッキネスアーティファクトを低減するために、デブロッキング動作を実行し得る。いくつかの例では、フィルタユニット２１６の動作は、スキップされ得る。

[0156]ビデオエンコーダ２００は、再構成されたブロックをＤＰＢ２１８に記憶する。例えば、フィルタユニット２１６の動作が必要とされない例では、再構成ユニット２１４が、再構成されたブロックをＤＰＢ２１８に記憶し得る。フィルタユニット２１６の動作が必要とされる例では、フィルタユニット２１６が、フィルタリングされた再構成されたブロックをＤＰＢ２１８に記憶し得る。動き推定ユニット２２２および動き補償ユニット２２４は、その後に符号化されるピクチャ（subsequently encoded pictures）のブロックをインター予測するために、再構成された（および潜在的にフィルタリングされた）ブロックから形成された参照ピクチャを、ＤＰＢ２１８から取り出し得る。加えて、イントラ予測ユニット２２６は、現在のピクチャ内の他のブロックをイントラ予測するために、現在のピクチャのＤＰＢ２１８中の再構成されたブロックを使用し得る。

[0157]一般に、エントロピー符号化ユニット２２０は、ビデオエンコーダ２００の他の機能的構成要素から受信されたシンタックス要素をエントロピー符号化し得る。例えば、エントロピー符号化ユニット２２０は、量子化ユニット２０８からの量子化された変換係数ブロックをエントロピー符号化し得る。別の例として、エントロピー符号化ユニット２２０は、モード選択ユニット２０２からの予測シンタックス要素（例えば、インター予測のための動き情報またはイントラ予測のためのイントラモード情報）をエントロピー符号化し得る。エントロピー符号化ユニット２２０は、エントロピー符号化されたデータを生成するために、ビデオデータの別の例であるシンタックス要素に対して１つまたは複数のエントロピー符号化オペレーションを実行し得る。例えば、エントロピー符号化ユニット２２０は、データに対して、コンテキスト適応型可変長コーディング（ＣＡＶＬＣ）演算（operation）、ＣＡＢＡＣ演算、Ｖ２Ｖ（variable-to-variable）長コーディング演算、シンタックスベースのコンテキスト適応型バイナリ算術コーディング（ＳＢＡＣ）演算、確率間隔区分エントロピー（ＰＩＰＥ）コーディング演算、指数ゴロム符号化演算、または別のタイプのエントロピー符号化演算を実行し得る。いくつかの例では、エントロピー符号化ユニット２２０は、シンタックス要素がエントロピー符号化されないバイパスモードで動作し得る。

[0158]ビデオエンコーダ２００は、スライスまたはピクチャのブロックを再構成するために必要とされるエントロピー符号化されたシンタックス要素を含むビットストリームを出力し得る。特に、エントロピー符号化ユニット２２０が、ビットストリームを出力し得る。

[0159]上記で説明された動作は、ブロックに関して説明されたものである。このような説明は、ルーマコーディングブロックおよび／またはクロマコーディングブロックのための動作であると理解されるべきである。上記で説明されたように、いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、ＣＵのルーマ成分およびクロマ成分である。いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、ＰＵのルーマ成分およびクロマ成分である。

[0160]いくつかの例では、ルーマコーディングブロックに関して実行される動作は、クロマコーディングブロックに対して繰り返される必要はない。一例として、ルーマコーディングブロックのための動きベクトル（ＭＶ）および参照ピクチャを識別するための動作は、クロマブロックのためのＭＶおよび参照ピクチャを識別するために繰り返される必要はない。むしろ、ルーマコーディングブロックのためのＭＶは、クロマブロックのためのＭＶを決定するためにスケーリングされ得、参照ピクチャは、同じであり得る。別の例として、イントラ予測プロセスは、ルーマコーディングブロックとクロマコーディングブロックとで同じであり得る。

[0161]ビデオエンコーダ２００は、ビデオデータを符号化するように構成されたデバイスの一例を表し、このデバイスは、ビデオデータを記憶するように構成されたメモリと、回路においてインプリメントされる１つまたは複数の処理ユニットとを含み、１つまたは複数の処理ユニットは、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換のセットからの２次変換を表す第２のコードワードをコーディングすることと、現在のブロックのための残差データのコーディング中に、１次変換および２次変換を適用することと、を行うように構成される。

[0162]図１３は、本開示の技法を実行し得る例示的なビデオデコーダ３００を示すブロック図である。図１３は、説明を目的として提供されており、本開示において広く実証および説明される技法を限定するものではない。説明を目的として、本開示は、ＶＶＣおよびＨＥＶＣの技法に従って説明されるビデオデコーダ３００を説明する。しかしながら、本開示の技法は、他のビデオコーディング規格に合わせて構成されたビデオコーディングデバイスによっても実行され得る。

[0163]図１３の例では、ビデオデコーダ３００は、コーディングされたピクチャバッファ（ＣＰＢ）メモリ３２０、エントロピー復号ユニット３０２、予測処理ユニット３０４、逆量子化ユニット３０６、逆変換処理ユニット３０８、再構成ユニット３１０、フィルタユニット３１２、および復号ピクチャバッファ（ＤＰＢ）３１４を含む。図１３は、上記の図４に示されるように、本開示の技法に従って、逆変換処理ユニット３０８がそこから変換を選択する変換バンクをさらに含み得る。同様に、図４に示された技法とは逆に、エントロピー復号ユニット３０２は、本開示の技法に従って、ＭＴＳ方式のための様々な変換のうちのどれがビデオデータの現在のブロックのために選択されるかを表すデータを復号し、変換のインジケーションを逆変換処理ユニット３０８に提供し得る。

[0164]予測処理ユニット３０４は、動き補償ユニット３１６およびイントラ予測ユニット３１８を含む。予測処理ユニット３０４は、他の予測モードに従って予測を実行するための追加のユニットを含み得る。例として、予測処理ユニット３０４は、パレットユニット、イントラブロックコピーユニット（これは、動き補償ユニット３１６の一部を形成し得る）、アフィンユニット、線形モデル（ＬＭ）ユニット、または同様のものを含み得る。他の例では、ビデオデコーダ３００は、より多い数の、より少ない数の、または異なる機能的構成要素を含み得る。

[0165]ＣＰＢメモリ３２０は、ビデオデコーダ３００の構成要素によって復号されることになる、符号化されたビデオビットストリームなどのビデオデータを記憶し得る。ＣＰＢメモリ３２０に記憶されるビデオデータは、例えば、コンピュータ可読媒体１１０（図１）から取得され得る。ＣＰＢメモリ３２０は、符号化されたビデオビットストリームからの符号化されたビデオデータ（例えば、シンタックス要素）を記憶するＣＰＢを含み得る。また、ＣＰＢメモリ３２０は、ビデオデコーダ３００の様々なユニットからの出力を表す一時データなど、コーディングされたピクチャのシンタックス要素以外のビデオデータを記憶し得る。ＤＰＢ３１４は、一般に、ビデオデコーダ３００が、出力し得、および／または符号化されたビデオビットストリームの後続のデータまたはピクチャを復号するときに、参照ビデオデータとして使用し得る、復号されたピクチャを記憶する。ＣＰＢメモリ３２０およびＤＰＢ３１４は、同期ＤＲＡＭ（ＳＤＲＡＭ）を含むダイナミックランダムアクセスメモリ（ＤＲＡＭ）、磁気抵抗ＲＡＭ（ＭＲＡＭ）、抵抗ＲＡＭ（ＲＲＡＭ）、または他のタイプのメモリデバイスなどの、様々なメモリデバイスのうちの任意のものによって形成され得る。ＣＰＢメモリ３２０およびＤＰＢ３１４は、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、ＣＰＢメモリ３２０は、ビデオデコーダ３００の他の構成要素とともにオンチップであり得、またはそれらの構成要素に対してオフチップであり得る。

[0166]追加または代替として、いくつかの例では、ビデオデコーダ３００は、メモリ１２０（図１）からコーディングされたビデオデータを取り出し得る。すなわち、メモリ１２０は、ＣＰＢメモリ３２０について上記で説明されたようなデータを記憶し得る。同様に、メモリ１２０は、ビデオデコーダ３００の機能のうちのいくつかまたは全てが、ビデオデコーダ３００の処理回路によって実行されるソフトウェアにおいてインプリメントされるとき、ビデオデコーダ３００によって実行されることになる命令を記憶し得る。

[0167]図１３に示される様々なユニットは、ビデオデコーダ３００によって実行される動作の理解を助けるために例示される。これらユニットは、固定機能回路、プログラマブル回路、またはこれらの組合せとしてインプリメントされ得る。図１２と同様に、固定機能回路は、特定の機能を提供する回路を指し、実行され得る動作で予め設定されている。プログラマブル回路は、様々なタスクを実行するようにプログラムされ得る回路を指し、実行され得る動作において柔軟な機能を提供する。例えば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義された方法でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、（例えば、パラメータを受け取るまたはパラメータを出力するために）ソフトウェア命令を実行し得るが、固定機能回路が実行する動作のタイプは、一般に変更不可能である。いくつかの例では、これらユニットのうちの１つまたは複数は、個別の回路ブロック（固定機能またはプログラマブル）であり得、いくつかの例では、１つまたは複数のユニットは、集積回路であり得る。

[0168]ビデオデコーダ３００は、プログラマブル回路から形成される、ＡＬＵ、ＥＦＵ、デジタル回路、アナログ回路、および／またはプログラマブルコアを含み得る。ビデオデコーダ３００の動作がプログラマブル回路で実行中のソフトウェアによって実行される例では、オンチップまたはオフチップメモリが、ビデオデコーダ３００が受信および実行するソフトウェアの命令（例えば、オブジェクトコード）を記憶し得る。

[0169]エントロピー復号ユニット３０２は、ＣＰＢから符号化されたビデオデータを受信し、ビデオデータをエントロピー復号して、シンタックス要素を再生し得る。予測処理ユニット３０４、逆量子化ユニット３０６、逆変換処理ユニット３０８、再構成ユニット３１０、およびフィルタユニット３１２は、ビットストリームから抽出されたシンタックス要素に基づいて、復号されたビデオデータを生成し得る。

[0170]本開示の技法によれば、エントロピー復号ユニット３０２は、ビデオデータの現在のブロックのための復号された変換係数に適用されるべき変換方式を表す第１のコードワードを復号し得る。エントロピー復号ユニット３０２は、選択された変換方式が、１次変換に加えて適用されるべき２次変換（例えば、ＬＦＮＳＴ）を含むかどうかをさらに決定し得る。例えば、１次変換がＤＣＴ－２水平変換とＤＣＴ－２垂直変換とを含む場合、エントロピー復号ユニット３０２は、２次変換も適用されるべきであると決定し得る。さらに、２次変換が適用されるべきであると決定することに応答して、エントロピー復号ユニット３０２はまた、利用可能な２次変換のセットのうちの２次変換を表す第２のコードワードを復号し得る。

[0171]一般に、ビデオデコーダ３００は、ブロックごとの単位でピクチャを再構成する。ビデオデコーダ３００は、各ブロックに対して個々に再構成動作を実行し得る（ここで、現在再構成されている、すなわち、復号されているブロックは、「現在のブロック」と呼ばれ得る）。

[0172]エントロピー復号ユニット３０２は、量子化された変換係数ブロックの量子化された変換係数を定義するシンタックス要素、ならびに量子化パラメータ（ＱＰ）および／または（１つまたは複数の）変換モードインジケーションなどの、変換情報をエントロピー復号し得る。逆量子化ユニット３０６は、量子化の程度、また同様に、逆量子化ユニット３０６が適用すべき逆量子化の程度（degree）を決定するために、量子化された変換係数ブロックに関連付けられたＱＰを使用し得る。逆量子化ユニット３０６は、例えば、量子化された変換係数を逆量子化するために、ビット単位の左シフト演算を実行し得る。逆量子化ユニット３０６は、それによって、変換係数を含む変換係数ブロックを形成し得る。

[0173]逆量子化ユニット３０６が変換係数ブロックを形成した後、逆変換処理ユニット３０８は、現在のブロックに関連付けられた残差ブロックを生成するために、変換係数ブロックに１つまたは複数の逆変換を適用し得る。例えば、逆変換処理ユニット３０８は、係数ブロックに、逆ＤＣＴ、逆整数変換、逆カルーネンレーベ変換（ＫＬＴ）、逆回転変換、逆方向性変換、または別の逆変換を適用し得る。変換方式が２次変換を含む場合、逆量子化ユニット３０６は、１次変換を適用するより前に２次変換を適用し得る。

[0174]さらに、予測処理ユニット３０４は、エントロピー復号ユニット３０２によってエントロピー復号された予測情報シンタックス要素に従って、予測ブロックを生成する。例えば、現在のブロックがインター予測されることを予測情報シンタックス要素が示す場合、動き補償ユニット３１６が、予測ブロックを生成し得る。このケースでは、予測情報シンタックス要素は、参照ブロックをそこから取り出すＤＰＢ３１４中の参照ピクチャ、ならびに、現在のピクチャ内の現在のブロックのロケーションに対する参照ピクチャ内の参照ブロックのロケーションを識別する動きベクトルを示し得る。動き補償ユニット３１６は、一般に、動き補償ユニット２２４（図１２）に関して説明されたのと実質的に同様の方法で、インター予測プロセスを実行し得る。

[0175]別の例として、現在のブロックがイントラ予測されることを予測情報シンタックス要素が示す場合、イントラ予測ユニット３１８は、予測情報シンタックス要素によって示されるイントラ予測モードに従って、予測ブロックを生成し得る。この場合も、イントラ予測ユニット３１８は、一般に、イントラ予測ユニット２２６（図１２）に関して説明されたのと実質的に同様の方法で、イントラ予測プロセスを実行し得る。イントラ予測ユニット３１８は、ＤＰＢ３１４から、現在のブロックに隣接するサンプルのデータを取り出し得る。

[0176]再構成ユニット３１０は、予測ブロックおよび残差ブロックを使用して、現在のブロックを再構成し得る。例えば、再構成ユニット３１０は、現在のブロックを再構成するために、残差ブロックのサンプルを予測ブロックの対応するサンプルに加算し得る。

[0177]フィルタユニット３１２は、再構成されたブロックに対して１つまたは複数のフィルタ動作を実行し得る。例えば、フィルタユニット３１２は、再構成されたブロックのエッジに沿ったブロッキネスアーティファクトを低減させるために、デブロッキング動作を実行し得る。フィルタユニット３１２の動作は、必ずしも全ての例において実行される訳ではない。

[0178]ビデオデコーダ３００は、再構成されたブロックをＤＰＢ３１４に記憶し得る。上記で説明されたように、ＤＰＢ３１４は、予測処理ユニット３０４に、後続の動き補償のための以前に復号されたピクチャおよびイントラ予測のための現在のピクチャのサンプルなどの、参照情報を提供し得る。さらに、ビデオデコーダ３００は、図１のディスプレイデバイス１１８などの、ディスプレイデバイス上での後続の表示のために、復号されたピクチャをＤＰＢから出力し得る。

[0179]ビデオデコーダ３００は、ビデオ復号デバイスの一例を表し、ビデオ復号デバイスは、ビデオデータを記憶するように構成されたメモリと、回路においてインプリメントされる１つまたは複数の処理ユニットとを含み、１つまたは複数の処理ユニットは、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換のセットからの２次変換を表す第２のコードワードをコーディングすることと、現在のブロックのための残差データのコーディング中に、１次変換および２次変換を適用することと、を行うように構成される。

[0180]図１４は、本開示の技法による、現在のブロックを符号化するための例示的な方法を示すフローチャートである。現在のブロックは、現在のＣＵを備え得る。ビデオエンコーダ２００（図１および図１２）に関して説明されるが、他のデバイスが図１４と同様の方法を実行するように構成され得ることが理解されるべきである。

[0181]この例では、ビデオエンコーダ２００は、最初に現在のブロックを予測する（３５０）。例えば、ビデオエンコーダ２００は、現在のブロックのための予測ブロックを形成し得る。次いで、ビデオエンコーダ２００は、現在のブロックのための残差ブロックを算出し得る（３５２）。残差ブロックを算出するために、ビデオエンコーダ２００は、元のコーディングされていないブロックと、現在のブロックのための予測ブロックとの間の差分を算出し得る。次いで、ビデオエンコーダ２００は、変換を選択し、選択された変換を使用し、残差ブロックの係数を量子化し得る（３５４）。選択された変換は、１次変換および／またはＬＦＮＳＴなどの２次変換を含み得る。ビデオエンコーダ２００は、選択された変換に従って、１次変換および／または２次変換のいずれかまたは両方を適用し得る。

[0182]次に、ビデオエンコーダ２００は、残差ブロックの量子化された変換係数を走査し得る（３５６）。走査中、または走査に続いて、ビデオエンコーダ２００は、係数、ならびに選択された変換を表すデータをエントロピー符号化し得る（３５８）。例えば、ビデオエンコーダ２００は、上記で説明されたような本開示の様々な技法のうちの任意のものを使用して、変換を表すデータをエントロピー符号化し得る。ビデオエンコーダ２００は、ＣＡＶＬＣまたはＣＡＢＡＣを使用して、係数を符号化し得る。特に、ビデオエンコーダ２００は、本開示の技法に従って変換方式を選択し、本開示の技法のうちの任意のものに従って、選択された変換を表すコードワードをエントロピー符号化し得る。選択された変換方式が２次変換を含む場合、ビデオエンコーダ２００は、例えば、図８に関して上記で説明されたように、利用可能な２次変換のセットからの２次変換を表す第２のコードワードをさらに符号化し得る。次いで、ビデオエンコーダ２００は、ブロックの（１つまたは複数の）変換および係数を表すエントロピー符号化されたデータを出力し得る（３６０）。

[0183]このようにして、図１４の方法は、ビデオデータを符号化する方法の一例を表し、この方法は、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換のセットからの２次変換を表す第２のコードワードをコーディングすることと、現在のブロックのための残差データのコーディング中に、１次変換および２次変換を適用することと、を含む。

[0184]図１５は、本開示の技法による、ビデオデータの現在のブロックを復号するための例示的な方法を示すフローチャートである。現在のブロックは、現在のＣＵを備え得る。ビデオデコーダ３００（図１および図１３）に関して説明されるが、他のデバイスが図１５のものと同様の方法を実行するように構成され得ることが理解されるべきである。

[0185]ビデオデコーダ３００は、現在のブロックに対応する残差ブロックの係数についてのエントロピーコーディングされたデータおよびエントロピーコーディングされた予測情報などの、現在のブロックについてのエントロピーコーディングされたデータを受信し得る（３７０）。ビデオデコーダ３００は、現在のブロックについての予測情報、現在のブロックのための変換を決定し、残差ブロックの係数を再生するために、エントロピーコーディングされたデータをエントロピー復号し得る（３７２）。ビデオデコーダ３００は、本開示の様々な技法のうちの任意のものに従って、変換情報をエントロピー復号し得る。ビデオデコーダ３００は、現在のブロックのための予測ブロックを算出するために、例えば、現在のブロックについての予測情報によって示されるようなイントラ予測モードまたはインター予測モードを使用して、現在のブロックを予測し得る（３７４）。次いで、ビデオデコーダ３００は、量子化された変換係数のブロックを作成するために、再生された係数を逆走査し得る（３７６）。次いで、ビデオデコーダ３００は、残差ブロックを生成するために、示された変換を使用して、係数を逆量子化および逆変換し得る（３７８）。例えば、ビデオデコーダ３００は、本開示の技法のうちの任意のものに従って適用されるべき変換を表すコードワードを復号し得る。ビデオデコーダ３００は、最終的に、予測ブロックと残差ブロックとを組み合わせること（３８０）によって、現在のブロックを復号し得る。

[0186]このようにして、図１５の方法は、ビデオデータを復号する方法の一例を表し、この方法は、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換のセットからの２次変換を表す第２のコードワードをコーディングすることと、現在のブロックのための残差データのコーディング中に、１次変換および２次変換を適用することと、を含む。

[0187]図１６は、本開示の技法による、例示的なビデオ符号化方法を示すフローチャートである。例を目的として、図１６の方法は、図１および図１２のビデオエンコーダ２００に関して説明されるが、他のビデオエンコーダがこの方法または同様の方法を実行するように構成され得ることが理解されるべきである。

[0188]最初に、ビデオエンコーダ２００は、１次変換と２次変換とを含む変換方式を選択し得る（４００）。モード選択ユニット２０２はまた、利用可能な２次変換のセットから２次変換を選択し得る（４０２）。例えば、モード選択ユニット２０２は、ビデオエンコーダ２００の様々な構成要素に、様々な変換方式をテストすることを含む、様々な符号化パスを実行させ得る。モード選択ユニット２０２は、レート歪みメトリックを算出し、１次変換と選択された２次変換とを含む選択された変換方式が、最良のテストされたレート歪み特性をもたらすと決定し得る。

[0189]次いで、ビデオエンコーダ２００は、選択された変換方式を表す第１のコードワードを符号化し得る（４０４）。加えて、ビデオエンコーダ２００は、選択された２次変換方式を表す第２のコードワードを符号化し得る（４０６）。特に、エントロピー符号化ユニット２２０は、第１のコードワードと第２のコードワードとをエントロピー符号化し得る。

[0190]次いで、ビデオエンコーダ２００は、残差ブロックに１次変換を適用し得る（４０８）。特に、変換処理ユニット２０６は、残差ブロックに１次変換を適用し得、変換係数の変換ブロックを生成する。ビデオエンコーダ２００（特に、変換処理ユニット２０６）はまた、変換ブロックに２次変換を適用し得る（４１０）。

[0191]このようにして、図１６の方法は、ビデオデータを符号化する方法の一例を表し、この方法は、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換のセットからの２次変換を表す第２のコードワードをコーディングすることと、現在のブロックのための残差データのコーディング中に、１次変換および２次変換を適用することと、を含む。

[0192]図１７は、本開示の技法による、例示的なビデオ復号方法を示すフローチャートである。例を目的として、図１７の方法は、図１および図１３のビデオデコーダ３００に関して説明されるが、他のビデオエンコーダがこの方法または同様の方法を実行するように構成され得ることが理解されるべきである。

[0193]ビデオデコーダ３００は、最初に、１次変換と２次変換との両方を含む変換方式を表す第１のコードワードを復号し得る（４２０）。特に、エントロピー復号ユニット３０２は、第１のコードワードをエントロピー復号し得る。ビデオデコーダ３００のエントロピー復号ユニット３０２はまた、利用可能な２次変換のセットにおける２次変換を表す第２のコードワードをエントロピー復号し得る（４２２）。例えば、第２のコードワードは、利用可能な２次変換のセットへのインデックスとして機能し得る。

[0194]次いで、ビデオデコーダ３００は、中間変換ブロックを生成するために、変換ブロックの復号された変換係数に２次変換を適用し得る（４２４）。ビデオデコーダ３００はまた、残差ブロックを再生するために、中間変換ブロックに１次変換を適用し得る（４２６）。特に、逆変換処理ユニット３０８は、２次変換および１次変換を適用し得る。

[0195]このようにして、図１７の方法は、ビデオデータを復号する方法の一例を表し、この方法は、ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、利用可能な２次変換のセットからの２次変換を表す第２のコードワードをコーディングすることと、現在のブロックのための残差データのコーディング中に、１次変換および２次変換を適用することと、を含む。

[0196]例に依存して、本明細書で説明された技法のうちの任意のもののある特定の動作（act）またはイベントは、異なる順序で実行され得、追加、併合、または完全に省略され得る（例えば、全ての説明された動作またはイベントが本技法の実施に必ずしも必要ではない）ことを認識されたい。さらに、ある特定の例では、動作またはイベントは、シーケンシャル順にではなく、例えば、マルチスレッド処理、割り込み処理、または複数のプロセッサを通じて、同時並行（concurrently）に実行され得る。

[0197]１つまたは複数の例では、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組合せでインプリメントされ得る。ソフトウェアでインプリメントされる場合、これら機能は、コンピュータ可読媒体上で１つまたは複数の命令またはコードとして記憶または送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形の媒体に対応するコンピュータ可読記憶媒体、または、例えば、通信プロトコルに従って、１つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含み得る。このように、コンピュータ可読媒体は、一般に、（１）非一時的である有形のコンピュータ可読記憶媒体、または（２）信号または搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明された技法のインプリメンテーションのための命令、コードおよび／またはデータ構造を取り出すために、１つまたは複数のコンピュータまたは１つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0198]限定ではなく例として、このようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ－ＲＯＭまたは他の光ディスク記憶装置、磁気ディスク記憶装置、または他の磁気記憶デバイス、フラッシュメモリ、あるいは、データ構造または命令の形で所望のプログラムコードを記憶するために使用され得、かつコンピュータによってアクセスされ得る、その他任意の媒体を備え得る。また、任意の接続が、厳密にはコンピュータ可読媒体と称される。例えば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、またはその他の遠隔ソースから送信される場合には、この同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まないが、代わりに、非一時的な有形の記憶媒体に向けられることが理解されるべきである。本明細書で使用される場合、ディスク（disk）およびディスク（disc）は、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタル多目的ディスク（ＤＶＤ）、フロッピー（登録商標）ディスク、およびブルーレイ（登録商標）ディスクを含み、ここでディスク（disks）は、通常磁気的にデータを再生し、一方、ディスク（discs）は、レーザーを用いて光学的にデータを再生する。上記の組合せもまた、コンピュータ可読媒体の範囲内に含まれるべきである。

[0199]命令は、１つまたは複数のデジタルシグナルプロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他の同等の集積されたまたはディスクリートロジック回路などの、１つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用される場合、「プロセッサ」という用語は、前述の構造の任意のものまたは本明細書で説明された技法のインプリメンテーションに好適なその他任意の構造を指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成された専用のハードウェアおよび／またはソフトウェアモジュール内で提供され得、または、複合コーデックに組み込まれ得る。また、これら技法は、１つまたは複数の回路または論理要素において完全にインプリメントされ得る。

[0200]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（例えば、チップセット）を含む、幅広い様々なデバイスまたは装置でインプリメントされ得る。様々な構成要素、モジュール、またはユニットは、開示された技法を実行するように構成されたデバイスの機能的な態様を強調するために、本開示において説明されているが、必ずしも異なるハードウェアユニットによる実現を必要とする訳ではない。むしろ、上記で説明されたように、様々なユニットは、コーデックハードウェアユニットにおいて組み合わされ得るか、または、好適なソフトウェアおよび／またはファームウェアと併せて、上記で説明されたような１つまたは複数のプロセッサを含む、相互運用のハードウェアユニット（interoperative hardware units）の集合によって提供され得る。

[0201]様々な例が説明された。これらおよび他の例は、以下の特許請求の範囲の範囲内にある。

Claims

ビデオデータをコーディングする方法であって、前記方法は、
ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、前記選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、
前記利用可能な２次変換のセットからの前記２次変換を表す第２のコードワードをコーディングすることと、
前記現在のブロックのための残差データのコーディング中に、前記１次変換および前記２次変換を適用することと、
を備える、方法。
前記変換候補のセットは、
１）水平恒等変換および垂直恒等変換と、
２）離散コサイン変換（ＤＣＴ）－２水平変換およびＤＣＴ－２垂直変換と、
３）離散サイン変換（ＤＳＴ）－７水平変換およびＤＳＴ－７垂直変換と、
４）ＤＣＴ－８水平変換およびＤＳＴ－７垂直変換と、
５）ＤＳＴ－７水平変換およびＤＳＴ－８垂直変換と、
６）第１の非分離可能変換と、
７）第２の非分離可能変換と、
を含む、請求項１に記載の方法。
前記変換候補のセットは、
１）水平恒等変換および垂直恒等変換と、
２）離散コサイン変換（ＤＣＴ）－２水平変換およびＤＣＴ－２垂直変換と、
３）離散サイン変換（ＤＳＴ）－７水平変換およびＤＳＴ－７垂直変換と、
４）ＤＣＴ－８水平変換およびＤＳＴ－７垂直変換と、
５）ＤＳＴ－７水平変換およびＤＳＴ－８垂直変換と、
６）前記利用可能な２次変換のセットのうちの前記２次変換と、
を含む、請求項１に記載の方法。
前記変換候補のセットは、離散コサイン変換（ＤＣＴ）－８水平変換およびＤＣＴ－８垂直変換の組合せを除外する、請求項１に記載の方法。
前記変換候補に関連付けられたコードワードはハフマンコードを備える、請求項１に記載の方法。
前記第１のコードワードをコーディングすることは、前記現在のブロックのサイズまたは予測モードのうちの少なくとも１つに従って、前記第１のコードワードをコーディングすることを備える、請求項１に記載の方法。
前記現在のブロックの前記サイズまたは前記予測モードのうちの少なくとも１つに従って、変換候補の異なるセットまたは前記変換候補についての異なる２値化のうちの少なくとも１つをそれぞれ含むＭＴＳ方式のセットから、前記ＭＴＳ方式を選択することをさらに備える、請求項６に記載の方法。
前記予測モードがイントラ予測モードであるか、またはインター予測モードであるかに従って、前記ＭＴＳ方式を選択することをさらに備える、請求項６に記載の方法。
前記現在のブロックの形状または前記現在のブロックのサイズのうちの少なくとも１つに従って、ＭＴＳ方式のセットから前記ＭＴＳ方式を選択することをさらに備える、請求項６に記載の方法。
前記ＭＴＳ方式のセットは、第１のサイズのブロックのための第１の数の変換候補を有する第１のＭＴＳ方式と、第２のサイズのブロックのための第２の数の変換候補を有する第２のＭＴＳ方式とを含み、前記第２の数は、前記第１の数より大きく、前記第２のサイズは、前記第１のサイズより大きい、請求項９に記載の方法。
前記現在のブロックの前記サイズは、前記現在のブロックの幅または前記現在のブロックの高さのうち少なくとも１つに従って定義される、請求項６に記載の方法。
前記現在のブロックの形状が、正方形または長方形として定義される、請求項６に記載の方法。
前記現在のブロックのサイズ、前記現在のブロックの形状、または前記現在のブロックのための予測モードのうちの少なくとも１つに従って、前記第１のコードワードをコーディングするためのコンテキストを決定することをさらに備える、請求項１に記載の方法。
前記変換候補のセットは、１つまたは複数の分離可能変換候補と、１つまたは複数の非分離可能変換候補とを含む、請求項１に記載の方法。
前記第２のコードワードは、低周波数非分離可能変換（ＬＦＮＳＴ）シンタックス要素の値を備え、前記方法は、
前記選択された変換方式に従って、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定すること、
をさらに備え、
ここにおいて、前記ＬＦＮＳＴシンタックス要素の前記値をコーディングすることは、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定することに応答して、前記ＬＦＮＳＴシンタックス要素の前記値をコーディングすることを備える、
請求項１に記載の方法。
前記第１のコードワードは、ＭＴＳシンタックス要素を備え、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定することは、前記第１のコードワードに従って、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定することを備える、請求項１５に記載の方法。
前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定することは、前記選択された変換方式が離散コサイン変換（ＤＣＴ）－２水平変換およびＤＣＴ－２垂直変換を含むかどうかに従って、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定することを備える、請求項１５に記載の方法。
前記第１のコードワードをコーディングすることは、前記第１のコードワードを復号することを備え、
前記第２のコードワードをコーディングすることは、前記第２のコードワードを復号することを備え、
前記１次変換および前記２次変換を適用することは、
中間変換係数を生成するために、復号された変換係数に前記２次変換を適用することと、
前記現在のブロックのための残差ブロックを生成するために、前記中間変換係数に前記１次変換を適用することと、
を備える、請求項１に記載の方法。
前記第１のコードワードをコーディングすることは、前記第１のコードワードを符号化することを備え、
前記第２のコードワードをコーディングすることは、前記第２のコードワードを符号化することを備え、
前記１次変換および前記２次変換を適用することは、
中間変換係数を生成するために、前記現在のブロックのための残差ブロックに前記１次変換を適用することと、
前記中間変換係数に前記２次変換を適用することと、
を備える、請求項１に記載の方法。
ビデオデータをコーディングするためのデバイスであって、前記デバイスは、
ビデオデータを記憶するように構成されたメモリと、
回路においてインプリメントされる１つまたは複数のプロセッサと、
を備え、前記１つまたは複数のプロセッサは、
ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、前記選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、
前記利用可能な２次変換のセットからの前記２次変換を表す第２のコードワードをコーディングすることと、
前記現在のブロックのための残差データのコーディング中に、前記１次変換および前記２次変換を適用することと、
を行うように構成される、デバイス。
前記変換候補のセットは、
１）水平恒等変換および垂直恒等変換と、
２）離散コサイン変換（ＤＣＴ）－２水平変換およびＤＣＴ－２垂直変換と、
３）離散サイン変換（ＤＳＴ）－７水平変換およびＤＳＴ－７垂直変換と、
４）ＤＣＴ－８水平変換およびＤＳＴ－７垂直変換と、
５）ＤＳＴ－７水平変換およびＤＳＴ－８垂直変換と、
６）第１の非分離可能変換と、
７）第２の非分離可能変換と、
を含む、請求項２０に記載のデバイス。
前記変換候補のセットは、
１）水平恒等変換および垂直恒等変換と、
２）離散コサイン変換（ＤＣＴ）－２水平変換およびＤＣＴ－２垂直変換と、
３）離散サイン変換（ＤＳＴ）－７水平変換およびＤＳＴ－７垂直変換と、
４）ＤＣＴ－８水平変換およびＤＳＴ－７垂直変換と、
５）ＤＳＴ－７水平変換およびＤＳＴ－８垂直変換と、
６）前記利用可能な２次変換のセットのうちの前記２次変換と、
を含む、請求項２０に記載のデバイス。
前記変換候補のセットは、離散コサイン変換（ＤＣＴ）－８水平変換およびＤＣＴ－８垂直変換の組合せを除外する、請求項２０に記載のデバイス。
前記１つまたは複数のプロセッサは、前記現在のブロックのサイズまたは予測モードのうちの少なくとも１つに従って、前記第１のコードワードをコーディングするように構成される、請求項２０に記載のデバイス。
前記１つまたは複数のプロセッサは、前記現在のブロックのサイズ、前記現在のブロックの形状、または前記現在のブロックのための予測モードのうちの少なくとも１つに従って、前記第１のコードワードをコーディングするためのコンテキストを決定するようにさらに構成される、請求項２０に記載のデバイス。
前記第２のコードワードは、低周波数非分離可能変換（ＬＦＮＳＴ）シンタックス要素の値を備え、前記１つまたは複数のプロセッサは、
前記選択された変換方式に従って、前記ＬＦＮＳＴシンタックス要素の値がコーディングされると決定すること、
を行うようにさらに構成され、
ここにおいて、前記１つまたは複数のプロセッサは、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定することに応答して、前記ＬＦＮＳＴの前記値をコーディングするように構成される、
請求項２０に記載のデバイス。
前記第１のコードワードは、ＭＴＳシンタックス要素を備え、前記１つまたは複数のプロセッサは、前記第１のコードワードに従って、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされるかどうかを決定するように構成される、請求項２６に記載のデバイス。
前記１つまたは複数のプロセッサは、前記選択された変換方式が離散コサイン変換（ＤＣＴ）－２水平変換およびＤＣＴ－２垂直変換を含むかどうかに従って、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定するように構成される、請求項２６に記載のデバイス。
前記デバイスは、ビデオデコーダを備え、前記１つまたは複数のプロセッサは、
前記第１のコードワードを復号することと、
前記第２のコードワードを復号することと、
中間変換係数を生成するために、復号された変換係数に前記２次変換を適用することと、
前記現在のブロックのための残差ブロックを生成するために、前記中間変換係数に前記１次変換を適用することと、
を行うように構成される、請求項２０に記載のデバイス。
前記デバイスは、ビデオエンコーダを備え、前記１つまたは複数のプロセッサは、
前記第１のコードワードを符号化することと、
前記第２のコードワードを符号化することと、
中間変換係数を生成するために、前記現在のブロックのための残差ブロックに前記１次変換を適用することと、
前記中間変換係数に前記２次変換を適用することと、
を行うように構成される、請求項２０に記載のデバイス。
復号されたビデオデータを表示するように構成されたディスプレイをさらに備える、請求項２０に記載のデバイス。
前記デバイスは、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの１つまたは複数を備える、請求項２０に記載のデバイス。
前記デバイスは、
集積回路、
マイクロプロセッサ、または
ワイヤレス通信デバイス、
のうちの少なくとも１つを備える、請求項２０に記載のデバイス。
ビデオデータをコーディングするためのデバイスであって、前記デバイスは、
ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングするための手段と、前記選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、
前記利用可能な２次変換のセットからの前記２次変換を表す第２のコードワードをコーディングするための手段と、
前記現在のブロックのための残差データのコーディング中に、前記１次変換および前記２次変換を適用するための手段と、
を備える、デバイス。
前記第２のコードワードは、低周波数非分離可能変換（ＬＦＮＳＴ）シンタックス要素の値を備え、
前記選択された変換方式に従って、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定するための手段、
をさらに備え、
ここにおいて、前記ＬＦＮＳＴシンタックス要素の前記値をコーディングするための前記手段は、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定することに応答して、前記ＬＦＮＳＴシンタックス要素の前記値をコーディングするための手段を備える、
請求項３４に記載のデバイス。
前記デバイスは、ビデオデコーダを備え、
前記第１のコードワードをコーディングするための前記手段は、前記第１のコードワードを復号するための手段を備え、
前記第２のコードワードをコーディングするための前記手段は、前記第２のコードワードを復号するための手段を備え、
前記１次変換および前記２次変換を適用するための前記手段は、
中間変換係数を生成するために、復号された変換係数に前記２次変換を適用するための手段と、
前記現在のブロックのための残差ブロックを生成するために、前記中間変換係数に前記１次変換を適用するための手段と、
を備える、請求項３４に記載のデバイス。
命令を記憶したコンピュータ可読記憶媒体であって、前記命令は、実行されると、ビデオデータをコーディングするためのデバイスのプロセッサに、
ビデオデータの現在のブロックのためのマルチプル変換選択（ＭＴＳ）方式の変換候補のセットのうちの選択された変換方式を表す第１のコードワードをコーディングすることと、前記選択された変換方式は、１次変換に加えて適用されるべき利用可能な２次変換のセットのうちの２次変換であり、
前記利用可能な２次変換のセットからの前記２次変換を表す第２のコードワードをコーディングすることと、
前記現在のブロックのための残差データのコーディング中に、前記１次変換および前記２次変換を適用することと、
を行わせる、コンピュータ可読記憶媒体。
前記第２のコードワードは、低周波数非分離可能変換（ＬＦＮＳＴ）シンタックス要素の値を備え、
前記プロセッサに、
前記選択された変換方式に従って、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定すること、
を行わせる命令をさらに備え、
ここにおいて、前記プロセッサに、前記ＬＦＮＳＴシンタックス要素の前記値をコーディングすることを行わせる前記命令は、前記プロセッサに、前記ＬＦＮＳＴシンタックス要素の前記値がコーディングされると決定することに応答して、前記ＬＦＮＳＴシンタックス要素の前記値をコーディングすることを行わせる命令を備える、
請求項３７に記載のコンピュータ可読記憶媒体。
前記プロセッサに、前記第１のコードワードをコーディングすることを行わせる前記命令は、前記プロセッサに、前記第１のコードワードを復号することを行わせる命令を備え、
前記プロセッサに、前記第２のコードワードをコーディングすることを行わせる前記命令は、前記プロセッサに、前記第２のコードワードを復号することを行わせる命令を備え、
前記プロセッサに、前記１次変換および前記２次変換を適用することを行わせる前記命令は、前記プロセッサに、
中間変換係数を生成するために、復号された変換係数に前記２次変換を適用することと、
前記現在のブロックのための残差ブロックを生成するために、前記中間変換係数に前記１次変換を適用することと、
を行わせる命令を備える、請求項３７に記載のコンピュータ可読記憶媒体。