JP2022517787A

JP2022517787A - 動画符号化方法、動画符号化機器及びコンピュータプログラム

Info

Publication number: JP2022517787A
Application number: JP2021540213A
Authority: JP
Inventors: シン・ジャオ; シアン・リ; シャン・リュウ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2019-03-16
Filing date: 2020-03-16
Publication date: 2022-03-10
Anticipated expiration: 2040-03-16
Also published as: CN113545055A; CN113545055B; EP3871414A4; JP7216830B2; US11025937B2; EP3871414A1; WO2020190835A1; US20200296399A1

Abstract

デコーダに用いる動画復号化方法を提供する。該方法において、符号化された動画ビットストリームから変換ブロックシグナリング情報を取得する。変換ブロックシグナリング情報に基づいて変換類型を特定する。変換類型と、複数のサブ変換ユニットのうちの１つのサブ変換ユニットの隣接するサブ変換ユニットとに基づいて、複数のサブ変換ユニットのうちの１つのサブ変換ユニットの低周波数係数を特定する。前記複数のサブ変換ユニットは、現在の符号化ブロックユニット（ＣＵ）から区分されてなる。複数のサブ変換ユニットの低周波数係数に基づいて、現在の符号化ブロックユニットを復号化する。前記低周波数係数は、複数のサブ変換ユニットのうちの１つのサブ変換ユニットの低周波数係数を含む。

Description

本願は、２０２０年３月１４日に提出された米国特許出願１６／８１９，０８５「ＭＥＴＨＯＤＡＮＤＡＰＰＡＲＡＴＵＳＦＯＲＶＩＤＥＯＣＯＤＩＮＧ」の優先権を主張し、該米国特許出願１６／８１９，０８５は、２０１９年３月１６日に提出された米国仮出願６２／８１９，５６８「ＤＣＰＲＥＤＩＣＴＩＯＮＦＯＲＳＵＢＴＲＡＮＳＦＯＲＭＵＮＩＴ」の優先権を主張し、上記の各出願の全内容は本明細書に援用により組み込まれる。

本開示は、一般的に動画符号化に関する実施形態を記載する。

本明細書で提供された背景記載は、本開示内容の背景を総体的に体現することを目的とする。この背景技術に記載された範囲について、現在署名の発明者の作業、及び提出の際、別に従来技術の記載として限定されていない態様について、明確且つ暗黙的に本開示内容に対する従来技術として認められない。

動き補償を有するインターピクチャ予測を使用して動画の符号化及び復号化を実行してもよい。非圧縮のデジタル動画は一連のピクチャを含み、各ピクチャは、例えば１９２０×１０８０の輝度サンプル及び関連付けられた色度サンプルの空間次元を有してもよい。当該一連のピクチャは、例えば、１秒当たり６０ピクチャ又は６０Ｈｚの固定又は可変のピクチャレート（非正式にはフレームレートとも呼ばれる）を有してもよい。非圧縮の動画には、高いビットレート要件がある。例えば、１サンプルあたり８ビットにおける１０８０ｐ６０４：２：０の動画（６０Ｈｚフレームレートでの１９２０×１０８０の輝度サンプルの解像度）は、約１．５Ｇｂｉｔ／ｓに近い帯域幅が必要である。１時間のこのような動画は、６００ＧＢを超えるストレージスペースが必要である。

動画符号化及び復号化は、圧縮により入力動画信号における冗長を減少させることを１つの目的とする。幾つかの場合、圧縮は、前記した帯域幅又はストレージスペースに対する要件を、２つ又はより多いオーダーだけ減少させることに寄与することができる。可逆圧縮、非可逆圧縮、及びその組み合わせを採用してもよい。可逆圧縮とは、圧縮された元の信号から元の信号の正確なレプリカを再構築できる技術を指す。非可逆圧縮を使用する場合、再構築された信号は元の信号と異なる可能性があるが、元の信号と再構築された信号との間の歪みが十分に小さいから、再構築された信号は目的のアプリケーションに役立つ。動画の場合、非可逆圧縮は広く利用されている。許容される歪み量はアプリケーションに依存し、例えば、消費者ストリーミング媒体プリケーションのユーザがテレビ貢献アプリケーションのユーザよりも高い歪みを許容する。実現できる圧縮比は、許可／許容可能な歪みが高いほど、圧縮比が高くなることを反映している。

動画エンコーダとデコーダは、例えば、動き補償、変換、量子化、エントロピー符号化などを含む、いくつかの幅広いカテゴリの技術を利用し得る。

動画コーデック技術は、イントラ符号化と呼ばれる技術を含み得る。イントラ符号化の場合、サンプル値は、先に再構築された参照ピクチャからのサンプル、又は他のデータを参照せず示される。いくつかの動画コーデックでは、ピクチャは空間的にサンプルブロックに細分される。全てのサンプルブロックをイントラモードで符号化する場合、当該ピクチャはイントラピクチャであってもよい。イントラピクチャ及びその派生物、例えば、独立したデコーダリフレッシュピクチャは、デコーダの状態をリセットするために使用できるため、符号化された動画ビットストリームと動画セッションにおける第１のピクチャ、又は静止画像として使用されることができる。イントラブロックのサンプルを変換することができ、また、エントロピー符号化を行う前に、変換係数を量子化することができる。イントラ予測は、プレ変換ドメインにおいてサンプル値を最小化する技術であってもよい。幾つかの場合、変換されたＤＣ値が小さくてＡＣ係数が小さいほど、所定の量子化ステップサイズでエントロピー符号化されたブロックを表すために必要なビットが少なくなる。

例えばＭＰＥＧ－２世代の符号化技術から知られている従来のイントラ符号化は、イントラ予測を使用しない。しかしながら、いくつかの新動画圧縮技術は、例えば、空間的に隣接し且つ復号化順序で先行するデータブロックを符号化／復号化している期間に取得されたメタデータ及び／又は周辺のサンプルデータから試みる技術を含む。以降、このような技術は「イントラ予測」技術と呼ばれる。なお、少なくともいくつかの場合に、イントラ予測は、参照画像からの参照データを使用しなく、再構築中の現在ピクチャからの参照データのみを使用することに注意されたい。

イントラ予測には多くの異なる形式があり得る。所定の動画符号化技術において１種以上のこのような技術を使用できる場合に、使用される技術はイントラ予測モードで符号化することができる。幾つかの場合に、モードは、サブモード及び／又はパラメータを有してもよく、これらのサブモード及び／又はパラメータは、個別に符号化されたり、モードコードワードに含まれたりしてもよい。所定のモード／サブモード／パラメータの組み合わせにどのコードワードを使用するかは、イントラ予測による符号化効率ゲインに影響を与えるため、コードワードをビットストリームに変換するためのエントロピー符号化技術に影響を与える。

イントラ予測のあるモードはＨ．２６４から導入され、Ｈ．２６５において細分化され、例えば、共同探査モデル（ＪＥＭ）、多用途動画符号化（ＶＶＣ）、ベンチマークセット（ＢＭＳ）などの新符号化技術では、さらに細分化される。既に使用可能なサンプルに属する隣接サンプル値を使用して予測器ブロックを形成してもよい。方向に応じて、隣接サンプルのサンプル値を予測器ブロックにレプリカする。使用中の方向の参照は、ビットストリームに符号化されるか、またはその自身は予測されることができる。

本開示の実施形態は、動画符号化／復号化用方法および機器を提供する。一部の実施形態では、動画復号化用機器は、受信回路システムと処理回路システムとを含む。

本開示の実施形態によれば、デコーダにおける動画復号化方法を提供する。該方法において、符号化された動画ビットストリームから変換ブロックシグナリング情報を取得する。変換ブロックシグナリング情報に基づいて変換類型を特定する。変換類型と、複数のサブ変換ユニットのうちの１つのサブ変換ユニットの隣接するサブ変換ユニットとに基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数を特定する。前記複数のサブ変換ユニットは、現在の符号化ブロックユニット（ＣＵ）から区分されたものである。その後、複数のサブ変換ユニットの低周波数係数に基づいて、現在の符号化ブロックユニットを復号化し、低周波数係数は、前記複数のサブ変換ユニットのうち前記１つのサブ変換ユニットの低周波数係数を含む。

一部の実施形態では、変換ブロックシグナリング情報は第１の高レベル構文要素、第２の高レベル構文要素、または第３の高レベル構文要素を含んでもよい。第１の高レベル構文要素は、変換類型が離散コサイン変換２（ＤＣＴ－２）であることを示す。第２の高レベル構文要素は、変換類型がＤＣＴ－２または変換スキップであることを示す。第３の高レベル構文要素は、変換類型が離散コサイン変換８（ＤＣＴ－８）と離散サイン変換７（ＤＳＴ－７）に基づく多重変換選択（ＭＴＳ）であることを示す。

一部の実施形態では、複数のサブ変換ユニットが、暗黙的変換分割によって現在の符号化ブロックユニット（ＣＵ）から区分される場合、変換ブロックシグナリング情報は、変換類型が離散コサイン変換２（ＤＣＴ－２）であることを示してもよい。

低周波数係数を特定するために、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの隣接するサブ変換ユニットの変換係数に基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数の絶対値または符号付き値を特定してもよい。

一部の実施形態では、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの上側および／または左側の隣接するサブ変換ユニットの低周波数係数の絶対値の平均値に基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数の絶対値を特定してもよい。前記複数のサブ変換ユニットのうちの１つのサブ変換ユニットの上側および／または左側の隣接するサブ変換ユニットの低周波数係数の符号付き値の平均値に基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数の絶対値を特定してもよい。

一部の実施形態では、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットと前記隣接するサブ変換ユニットを異なる変換類型に基づいて変換する場合、前記隣接するサブ変換ユニットの低周波数係数の絶対値をスケーリングしてもよい。

一部の実施形態では、イントラサブ区分モードまたは暗黙的変換分割のうちの少なくとも１つに基づいて、現在の符号化ブロックユニットから複数のサブ変換ユニットを区分してもよい。

一部の実施形態では、複数のサブ変換ユニットのうちの１つのサブ変換ユニットの低周波数係数を特定した後、複数のサブ変換ユニットの低周波数係数を二次変換して複数の変換係数を取得してもよい。複数の変換係数のそれぞれは、複数のサブ変換ユニットの対応低周波数係数に基づいて取得してもよい。その後、複数の変換係数に基づいて現在の符号化ブロックユニットを復号化してもよい。

一部の実施形態では、二次変換は、非正方形アダマール変換、正方形アダマール変換、ＤＣＴ－２、ＤＳＴ－７、ＤＣＴ－８、Ｋａｒｈｕｎｅｎ－Ｌｏｅｖｅ変換（ＫＬＴ）または分離不可能なＫＬＴを含んでもよい。

一部の実施形態では、現在の符号化ブロックユニット（ＣＵ）における複数のサブ変換ユニットが同じ変換類型を共有する場合、二次変換を実行してもよい。

本開示の実施形態は、命令を記憶する非一時的なコンピュータ読み取り可能な媒体をさらに提供し、該命令がコンピュータによって実行されて動画復号化することにより、コンピュータに動画復号化方法を実行させる。

以下の詳細な説明および図面に基づいて、開示される主題の更なる特徴、性質、および様々な利点が、より明らかになるであろう。
実施形態による通信システム（１００）の簡略化ブロック図である。実施形態による通信システム（２００）の簡略化ブロック図である。実施形態によるデコーダの簡略化ブロック図である。実施形態によるエンコーダの簡略化ブロック図である。別の実施形態によるエンコーダのブロック図を示している。別の実施形態による別のデコーダのブロック図を示している。四分木プラス二分木（ＱＴＢＴ）を用いた例示的なブロック区分を示す。ＱＴＢＴを用いた例示的なブロック区分による対応木の表現を示す。垂直な中心側の三叉の木の区分を示す。水平な中心側の三叉の木の区分を示す。イントラサブ区分（ＩＳＰ）符号化モードに基づく輝度イントラ予測ブロックの第１の例示的な区分を示す。イントラサブ区分（ＩＳＰ）符号化モードに基づく輝度イントラ予測ブロックの第２の例示的な区分を示す。例示的なサブブロック変換パターンを示す。例示的なサブブロック変換パターンを示す。例示的なサブブロック変換パターンを示す。例示的なサブブロック変換パターンを示す。６４×３２符号化ユニット（ＣＵ）から８個の１６×１６サブ変換ユニット（ＳＴＵ）までの例示的な区分を示す。複数のＳＴＵに基づく係数ブロックの形成を示す。本開示の一部の実施形態による処理例の概略的フローチャートを示す。実施形態に基づくコンピュータシステムの概略図である。

図１は、本開示内容による通信システム（１００）の簡略ブロック図を示す。通信システム（１００）は、例えばネットワーク（１５０）を介して互いに通信する複数の端末デバイスを含む。例えば、通信システム（１００）は、ネットワーク（１５０）を介して相互接続された第１対の端末デバイス（１１０）と（１２０）を含む。図１に示す例において、第１対の端末デバイス（１１０）と（１２０）とは一方向のデータ伝送を実行する。例えば、端末デバイス（１１０）は、動画データ（例えば、端末デバイス（１１０）によってキャプチャされた動画ピクチャストリーム）を符号化して、ネットワーク（１５０）を介して他の端末（１２０）に伝送してもよい。符号化された動画データは１つ又は複数の符号化された動画ビットストリームで伝送される。端末デバイス（１２０）は、ネットワーク（１５０）から符号化された動画データを受信し、符号化されたデータを復号化して、動画ピクチャを復元し、復元された動画データに基づいて、動画ピクチャを表示してもよい。一方向のデータ伝送は、媒体サービスアプリケーションなどでは一般的である。

他の実施形態では、通信システム（１００）は、符号化された動画データの双方向伝送を実行する、第２対の端末デバイス（１３０）と（１４０）とを含み、当該双方向伝送は、例えば動画会議中に発生する可能性がある。双方向データ伝送については、例において、端末デバイス（１３０）と端末デバイス（１４０）のそれぞれは、動画データ（例えば、端末デバイスによってキャプチャされた動画ピクチャストリーム）を符号化して、ネットワーク（１５０）を介して端末デバイス（１３０）と端末デバイス（１４０）のうちの他方の端末デバイスに伝送してもよい。端末デバイス（１２０）と（１４０）のそれぞれは、端末デバイス（１３０）と（１４０）のうちの他方の端末デバイスによって送信された符号化された動画データをさらに受信し、符号化されたデータを復号化して動画ピクチャを復元し、復元された動画データに基づいて、動画画像をアクセス可能な表示デバイスに表示してもよい。

図１の実施形態では、端末機器（１１０）、端末機器（１２０）、末機器（１３０）、および端末機器（１４０）は、サーバ、パーソナルコンピュータ及びスマートフォンとして示され得るが、本開示内容の原理はこれに限定されていない。本開示内容の実施形態はラップトップコンピュータ、タブレット、メディアプレイヤー及び／又は専用の動画会議機器に適用される。ネットワーク（１５０）は端末デバイス（１１０）、（１２０）、（１３０）及び（１４０）の間で符号化された動画データを伝送する任意の数のネットワークを示し、例えば、有線（結線される）及び／又は無線通信ネットワークを含む。通信ネットワーク（１５０）は、回線交換及び／又はパケット交換チャネルにおいてデータを交換し得る。代表的なネットワークは通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又はインターネットを含む。この検討を目的として、ネットワーク（１５０）のアーキテクチャとトポロジーは、以下に本明細書で説明されない限り、本開示内容の操作にとって重要ではない場合がある。

開示された主題の適用例として、図２は、ストリーミング環境における動画エンコーダとデコーダの配置を示し、開示された主題は、例えば、動画会議、デジタルテレビ、ＣＤ、ＤＶＤ、メモリースティックなどを含むデジタルメデイアの圧縮動画の保存を含む動画をサポートする他のアプリケーションに同様に適用され得る。

ストリーミングシステムはキャプチャサブシステム（２１３）を含んでもよい。当該キャプチャサブシステム（２１３）は、例えば非圧縮の動画ピクチャストリーム（２０２）を構築する、例えば、デジタルカメラなどの動画ソース（２０１）を含んでもよい。例において、動画ピクチャストリーム（２０２）はデジタルカメラによって撮影されたサンプルを含む。動画ピクチャストリーム（２０２）は、符号化された動画データ（２０４）（又は符号化された動画ビットストリーム）と比べて、データ量が多いことを強調するために太い線として描画され、当該動画ピクチャストリームは、動画ソース（２０１）に結合される動画エンコーダ（２０３）の電子機器（２２０）によって処理されてもよい。動画エンコーダ（２０３）は、以下でより詳細に説明する開示主題の各態様を実現又は実施するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含んでもよい。符号化された動画データ（２０４）（符号化された動画ビットストリーム（２０４））は、動画ピクチャスレリーム（２０２）と比べて、データ量が少ないことを強調するために細い線として描画され、符号化された動画データは、将来の使用のために、ストリーミングサーバ（２０５）に記憶され得る。１つ又は複数のストリーミングクライアントサブシステム、例えば、図２におけるクライアントサブシステム（２０６）と（２０８）は、ストリーミングサーバ（２０５）にアクセスして、符号化された動画データ（２０４）のレプリカ（２０７）と（２０９）を検索し得る。クライアントサブシステム（２０６）は、例えば、電子機器（２３０）における動画デコーダ（２１０）を含んでもよい。動画デコーダ（２１０）は、符号化された動画データの着信レプリカ（２０７）を復号化し、ディスプレイ（２１２）（例えば、スクリーン）又は他のレンダリングデバイス（図示せず）でレンダリングできる発信動画ピクチャストリーム（２１１）を作成する。一部のストリーミングシステムにおいて、動画符号化／圧縮規格に基づいて、符号化された動画ビットストリーム（２０４）、（２０７）、（２０９）（例えば、動画ビットストリーム）を符号化してもよい。これらの規格の実施形態は、ＩＴＵ-ＴＨ．２６５提案書を含む。実施形態において、開発中の動画符号化規格は非公式に多用途動画符号化又はＶＶＣと呼ばれる。開示された主題は、ＶＶＣ規格における環境に使用可能である。

なお、電子機器（２２０）と（２３０）は、他の構成要素（図示せず）を含んでもよい。例えば、電子機器（２２０）は動画デコーダ（図示せず）を含んでもよく、電子機器（２３０）は動画エンコーダ（図示せず）を含んでもよい。

図３は、本開示内容の実施形態による動画デコーダ（３１０）のブロック図を示す。動画デコーダ（３１０）は電子機器（３３０）に含まれてもよい。電子機器（３３０）は受信器（３３１）（例えば、受信回路）を含んでもよい。動画デコーダ（３１０）は図２に示す実施形態における動画デコーダ（２１０）の代わりに使用されてもよい。

受信機（３３１）は、動画デコーダ（３１０）によって復号化される１つ又は複数の符号化された動画シーケンスを受信してもよく、同一実施形態又は別の実施形態において、１回に１つの符号化された動画シーケンスを受信し、各符号化された動画シーケンスの復号化は他の符号化された動画シーケンスから独立している。チャネル（３０１）から符号化された動画シーケンスを受信してもよい。当該チャネル（３０１）は、符号化された動画データを記憶する記憶装置へのハードウェア／ソフトウェアリンクであってもよい。受信機（３３１）は、符号化された動画データ、及び、例えば、符号化されたオーディオデータ及び／又は補助データストリームなどの他のデータを受信することができる。前記他のデータは、それぞれの使用エンティティ（図示せず）に転送され得る。受信機（３３１）は、符号化された動画シーケンスを他のデータから分離することができる。ネットワークジッタを防止するために、受信機（３３１）とエントロピーデコーダ／パーサ（３２０）（以降、「パーサ」と呼ばれる）との間にバッファメモリ（３１５）を結合し得る。いくつかの応用において、バッファメモリ（３１５）は動画デコーダ（３１０）の一部である。他の応用において、バッファメモリ（３１５）は動画デコーダ（３１０）（図示せず）の外部にあってもよい。他の応用において、動画デコーダ（３１０）の外部には、ネットワークジッタを防止するためにバッファメモリ（図示せず）があってもよく、さらに例えば動画デコーダ（３１０）の内部に、再生タイミングを処理するために、別のバッファメモリ（３１５）があり得る。受信機（３３１）が十分な帯域幅と制御可能性を有する記憶／転送デバイス、又は等同期ネットワークからデータを受信する場合に、バッファメモリ（３１５）は必要とされないか、又は小サイズであればよいと言った可能性がある。ベストパケットネットワーク、例えばインターネットで使用するために、バッファメモリ（３１５）が必要である場合があり、当該バッファメモリ（３１５）は相対的に大きく、自己適応サイズを有利に有してもよい。そして、少なくとも部分的にオペレーティングシステム又は動画デコーダ（３１０）の外部における類似している構成要素（図示せず）で実現されてもよい。

動画デコーダ（３１０）は、符号化された動画シーケンスに応じてシンボル（３２１）を再構築するパーサ（３２０）を含み得る。これらのシンボルのカテゴリには、動画デコーダ（３１０）の操作を管理するための情報と、レンダリングデバイス（３１２）（例えば表示スクリーン）のようなレンダリングデバイスを制御するための情報とを含んでもよく、当該レンダリングデバイスは、図３に示すように、電子機器（３３０）の構成部分ではなく、電子機器（３３０）に結合され得る。レンダリングデバイスに使用される制御情報は、補助拡張情報（ＳＥＩメッセージ）又は動画ユーザビリティ情報（ＶＵＩ）パラメータセットフラグメント（図示せず）形式であってもよい。パーサ（３２０）は、受信された符号化された動画シーケンスに対して解析／エントロピー復号化を行ってもよい。符号化された動画シーケンスの符号化は、動画符号化技術又は規格に従って行われ、且つ、可変長符号化、エルフマン符号化（Ｈｕｆｆｍａｎｃｏｄｉｎｇ）、文脈依存の有無に関わる算術符号化などを含む様々な原理に従って行われてよい。パーサ（３２０）は、グループに対応する少なくとも１つのパラメーターに基づいて、符号化された動画シーケンスから、動画デコーダにおける画素のサブグループのうちの少なくとも１つに対するサブグループパラメータセットを抽出してもよい。サブグループは、ピクチャのグループ（ＧＯＰ）、ピクチャ、タイル、スライス（ｓｌｉｃｅ）、マクロブロック、符号化ユニット（ＣＵ）、ブロック、変換ユニット（ＴＵ）、予測ユニット（ＰＵ）などを含んでもよい。パーサ（３２０）は、また、符号化された動画シーケンスから、例えば、変換係数、量子化器パラメーター値、動きベクトルなどの情報を抽出してもよい。

パーサ（３２０）は、バッファメモリ（３１５）から受信した動画シーケンスに対しエントロピー復号化／解析操作を実行し、シンボル（３２１）を作成することができる。

シンボル（３２１）の再構築は、符号化された動画ピクチャ又は他の部分のタイプ（例えば、インターピクチャとイントラピクチャ、インターブロックとイントラブロック）及び他の要因に応じて、複数の異なるユニットに関し得る。どのユニットが関与し、どのように制御するかについて、パーサ（３２０）により符号化された動画シーケンスから解析したサブグループ制御情報によって制御されてもよい。簡潔のために、パーサ（３２０）と以下の複数のユニットとの間におけるサブグループ制御情報の流れについて説明しない。

既に言及された機能ブロックに加えて、動画デコーダ（３１０）は概念的には、以下に説明する複数の機能ユニットに細分化することができる。商業的な制約の下で運行する実際の実現形態では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合することができる。しかしながら、開示された主題を説明する目的のために、概念的には、以下の機能ユニットに細分化されることは適切である。

第１のユニットは、スケーラ／逆変換ユニット（３５１）である。スケーラ／逆変換ユニット（３５１）は、パーサ（３２０）から１つ又は複数のシンボル（３２１）である量子化変換係数及び制御情報を受信し、使用する変換方法、ブロックサイズ、量子化係数、量子化スケーリングマトリックスなどを含む。スケーラ／逆変換ユニット（３５１）は、サンプル値を含むブロックを出力することができ、前記サンプル値はアグリゲータ（４５５）に入力され得る。

いくつかの場合に、スケーラ／逆変換ユニット（３５１）の出力サンプルは、イントラ符号化ブロック、即ち、事前に再構築されたピクチャからの予測情報を使用しないが、現在のピクチャの事前に再構築された部分からの予測情報を使用し得るブロックに属してもよい。このような予測情報は、イントラピクチャ予測ユニット（３５２）によって提供され得る。いくつかの場合に、イントラピクチャ予測ユニット（３５２）は現在のピクチャバッファ（３５８）から抽出された、周囲が既に再構築された情報を使用して、再構築しているブロックと同じサイズ及び形状のブロックを生成する。現在のピクチャバッファ（３５８）は、例えば、部分的に再構築された現在のピクチャ及び／又は完全に再構築された現在のピクチャをバッファリングする。いくつかの場合に、アグリゲータ（３５５）は各サンプルに基づいて、イントラ予測ユニット（３５２）によって生成される予測情報を、スケーラ／逆変換ユニット（３５１）から提供される出力サンプル情報に追加する。

他の場合に、スケーラ／逆変換ユニット（３５１）の出力サンプルはインター符号化され且つ潜在動き補償であり得るブロックに属してもよい。このような場合に、動き補償予測ユニット（３５３）は、参照ピクチャメモリ（３５７）にアクセスして、予測のためのサンプルを取得してもよい。当該ブロックに属するシンボル（３２１）に応じて、取得されたサンプルに対して動き補償を行った後に、これらのサンプルは、アグリゲータ（３５５）によってスケーラ／逆変換ユニット（３５１）の出力（この場合に、残差サンプル又は残差信号と呼ばれる）に追加されることで、出力サンプル情報を生成することができる。動き補償ユニット（３５３）がサンプルを取得する参照ピクチャメモリ（３５７）におけるアドレスは、動きベクトルによって制御されてもよく、前記動きベクトルは、シンボル（３２１）の形式で動き補償ユニット（３５３）に使用され得、前記シンボル（３２１）は、例えば、Ｘ、Ｙ、及び参照ピクチャ成分を有してもよい。動き補償には、サブサンプルの正確な動きベクトルが使用されている際に参照ピクチャメモリ（３５７）から取得されたサンプル値の補間、動きベクトル予測メカニズムなどを含んでもよい。

アグリゲータ（３５５）の出力サンプルは、ループフィルタユニット（３５６）において種々のループフィルタ技術によって処理され得る。動画圧縮技術は、ループ内フィルタ技術を含んでもよく、当該ループ内フィルタ技術は、符号化された動画シーケンス（符号化された動画ビットストリームとも呼ばれる）に含まれ且つパーサ（４２０）からのシンボル（３２１）としてループフィルタユニット（３５６）に使用可能なパラメータによって制御されるが、符号化されたピクチャ又は符号化された動画シーケンスの（復号化順序で）前の部分を復号化している間に得られたメタ情報や事前に再構築されてループフィルタリング処理されたサンプル値に応答してもよい。

ループフィルタユニット（３５６）の出力は、サンプルストリームであってもよく、将来のインターピクチャ予測に使用されるために、レンダリングデバイス（３１２）に出力されて参照ピクチャメモリ（３５７）に記憶され得る。

特定の符号化されたピクチャは、完全に再構築されると、参照ピクチャとして将来の予測に使用され得る。例えば、現在のピクチャに対応する符号化されたピクチャは完全に再構築され、且つ符号化されたピクチャが、例えばパーサ（４２０）によって、参照ピクチャとして識別されると、現在のピクチャバッファ（３５８）が参照ピクチャメモリ（３５７）の一部になり得、そして、その後の符号化されたピクチャの再構築を開始する前に、新しい現在のピクチャバッファを新たに配分してもよい。

動画デコーダ（３１０）は、例えばＩＴＵ-ＴＨ．２６５提案書における所定のビデ圧縮技術のような規格に応じて復号化操作を実行してもよい。符号化された動画シーケンスが動画圧縮技術又は規格の構文及び動画圧縮技術又は規格に記録されているプロファイルに準拠する意味で、符号化された動画シーケンスは、使用されるビデ圧縮技術又は規格で指定される構文に準拠することができる。具体的に、プロファイルは、ビデ圧縮技術又は規格で利用可能な全てのツールから、幾つかのツールをプロファイルのみで使用され得るツールとして選択してもよい。コンプライアンスについて、符号化された動画シーケンスの複雑さがビデ圧縮技術又は規格のレベルで限定される範囲内にあることも要求される。いくつかの場合に、レベルは、最大ピクチャのサイズ、最大フレームレート、最大再構築サンプルレート（例えば１秒あたりのメガサンプルを単位として測定する）、最大参照ピクチャサイズなどを制限する。いくつかの場合に、レベルによって設定される制限は、仮想参照デコーダ（ＨＲＤ）の仕様及び符号化された動画シーケンスにおけるシグナリングされるＨＲＤバッファの管理するメタデータによってさらに制限されてもよい。

実施形態において、受信機（３３１）は、符号化された動画とともに、追加の（冗長な）データを受信してもよい。追加のデータは１つまたは複数の符号化された動画シーケンスの一部として含まれてもよい。動画デコーダ（３１０）は、追加のデータを使用してデータを正確に復号化し、及び／又は元の動画データをより正確に再構築してもよい。追加のデータは、時間、空間、または信号対雑音比（ＳＮＲ）拡張層、冗長スライス、冗長ピクチャ、誤り訂正符号などの形式であってもよい。

図４は、本開示の実施形態による動画エンコーダ（４０３）のブロック図を示す。動画エンコーダ（４０３）は、電子機器（４２０）に含まれる。電子機器（４２０）は送信機（４４０）（例えば、送信回路システム）を有する。動画エンコーダ（４０３）は、図２の実施形態における動画エンコーダ（２０３）の代わりに使用されてもよい。

動画エンコーダ（４０３）は、動画ソース（４０１）（図４に示す例における電子機器（４２０）の一部ではない）から動画サンプルを受信してもよく、当該動画ソース（４０１）は、動画エンコーダ（４０３）によって符号化されようとする１つまたは複数の動画画像をキャプチャすることができる。別の実施形態では、動画ソース（４０１）は、電子機器（４２０）の一部である。

動画ソース（４０１）は、動画エンコーダ（４０３）によって符号化されようとするデジタル動画サンプルストリーム形式であるソース動画シーケンスを提供してもよく、当該デジタル動画サンプルストリームは、任意の適切なビット深さ（例えば、８ビット、１０ビット、１２ビット…）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ…）及び任意の適切なサンプリング構成（例えば、ＹＣｒＣｂ４:２:０、ＹＣｒＣｂ４:４:４）を有してもよい。メディアサービスシステムでは、動画ソース（４０１）は、先に準備された動画を記憶する記憶装置であってもよい。動画会議システムでは、動画ソース（４０１）は、ローカル画像情報を動画シーケンスとしてキャプチャするカメラであってもよい。動画データは、順番に見る際に動きが付与される複数の個別のピクチャとして提供されてもよい。ピクチャ自体は空間画素アレイとして編成されてもよく、使用されているサンプリング構成、色空間などに応じて、各画素は、１つ又は複数のサンプルを含んでもよい。当業者は、画素とサンプルとの間の関係を容易に理解することができる。以下の説明では、サンプルを中心に説明する。

実施形態では、動画エンコーダ（４０３）は、リアルタイム又は要求される他の任意の時間制約の下で、ソース動画シーケンスのピクチャを、符号化された動画シーケンス（４４３）に符号化して圧縮してもよい。適切な符号化速度で実行することはコントローラ（４５０）の機能の１つである。いくつかの実施形態において、コントローラ（４５０）は、以下で説明する他の機能ユニットを制御し、これらのユニットに機能的に結合される。簡潔のために、結合は図示されていない。コントローラ（４５０）によって設置されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技術のλ値…）、ピクチャサイズ、ピクチャグループ（ＧＯＰ）レイアウト、最大動きベクトル検索範囲などを含んでもよい。コントローラ（４５０）は、特定のシステム設計に対して最適化された動画エンコーダ（５０３）に属する他の適切な機能を有するように配置されてもよい。

幾つかの実施形態において、動画エンコーダ（４０３）は、符号化ループ内で動作するように構成される。非常に簡略化した説明として、例において、符号化ループは、ソースエンコーダ（４３０）（例えば、符号化しようとする入力ピクチャおよび１つまたは複数の参照ピクチャに基づいてシンボルストリームのようなシンボルを生成することを担当する）と、動画エンコーダ（４０３）に組み込まれた（ローカル）デコーダ（４３３）とを含んでもよい。デコーダ（４３３）は、（リモート）デコーダがサンプルデータを作成する方法と同様にサンプルを作成するために、シンボルを再構築する（シンボルと符号化された動画ビットストリームとの間の圧縮は開示された主題で考慮される動画圧縮技術では無損失であるため）。再構築されたサンプルストリーム（サンプルデータ）を参照ピクチャメモリ（４３４）に入力する。シンボルストリームの復号化によって、デコーダの位置（ローカル又はリモート）に関係がないビットが正確である結果が得られるため、参照ピクチャメモリ（４３４）のコンテンツもローカルエンコーダとリモートエンコーダとの間でビットが正確である。つまり、エンコーダの予測部分は、デコーダが復号化中に予測を使用するときに「見た」のとまったく同じサンプル値を参照ピクチャサンプルとして見なす。このような参照ピクチャの同期性の基本原理（及び、たとえばチャネルエラーのために同期性を維持できない場合は結果として生じるドリフト）は、一部の関連技術でも使用される。

「ローカル」デコーダ（４３３）の動作は、「リモート」デコーダ、例えば動画デコーダ（３１０）の動作と同じであってもよく、以上で図３を参照しながら詳細に説明した。しかしながら、さらに、簡単に図３を参照し、シンボルは、利用可能であり、且つ、エントロピーエンコーダ（４４５）及びパーサ（３２０）はシンボルを、符号化された動画シーケンスに無損失で符号化／復号化できる場合に、バッファメモリ（３１５）及びパーサ（３２０）を含める動画デコーダ（３１０）のエントロピー復号化部分は、ローカルデコーダ（４３３）で完全に実現されない場合がある。

この場合、デコーダに存在する解析／エントロピー復号化以外の任意のデコーダ技術も、必然的に基本的に同じ機能形式で対応するエンコーダに存在することが観察されることができる。そのため、開示された主題は、デコーダの動作に着目する。エンコーダ技術は包括的に説明されたデコーダ技術の逆であるため、エンコーダ技術の説明を簡略化することができる。より詳しい説明は、特定の領域のみで必要であり、以下で提供される。

動作中に、いくつかの例において、ソースエンコーダ（４３０）は、動き補償の予測的符号化を実行してもよく、該動き補償予測符号化は、動画シーケンスの中で「参照ピクチャ」として指定された１つまたは複数の以前に符号化されたピクチャを参照することで、入力ピクチャを予測的符号化する。このようにして、符号化エンジン（４３２）は、入力ピクチャの画素ブロックと、参照ピクチャの画素ブロックとの間の差異を符号化してもよく、当該参照ピクチャは、入力ピクチャへの予測参照として選択され得る。

ローカルデコーダ（４３３）は、ソースエンコーダ（４３０）によって生成されたシンボルに基づいて、参照ピクチャとして指定可能なピクチャの符号化された動画データを復号化してもよい。符号化エンジン（４３２）の動作は、有利には非可逆プロセスであり得る。符号化された動画データが動画デコーダ（図４に図示せず）で復号化され得る場合に、再構築された動画シーケンスは、通常、多少の誤差を伴うソース動画シーケンスのレプリカであり得る。ローカルデコーダ（４３３）は、参照ピクチャに対して動画デコーダによって実行され得る復号化処理をコピーし、再構築された参照ピクチャを参照ピクチャバッファ（４３４）に記憶してもよい。このようにして、動画エンコーダ（４０３）は、再構築された参照ピクチャの共通の内容を有するレプリカを、リモート動画デコーダによって得られる再構築された参照ピクチャとしてローカルに記憶することができる（伝送誤差がない）。

予測器（４３５）は、符号化エンジン（４３２）に対して予測検索を実行することができる。つまり、符号化されようとする新しいピクチャについて、予測器（４３５）は、参照ピクチャメモリ（４３４）において、新しいピクチャの適切な予測参照として使用され得るサンプルデータ（候補参照画素ブロックとする）又は、例えば、参照ピクチャの動きベクトル、ブロック形状などの特定のメタデータを検索してもよい。予測器（４３５）は、適切な予測参照が見つけられるように、サンプルブロックに基づいて、画素ブロックごとに動作することができる。いくつかの場合に、例えば、予測器（４３５）によって得られた検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ（４３４）に記憶された複数の参照ピクチャから抽出された予測参照を有してもよい。

コントローラ（４５０）は、例えば、動画データを符号化するためのパラメータとサブグループパラメータの設置を含むソースエンコーダ（４３０）の符号化動作を管理することができる。

上記の全ての機能ユニットの出力は、エントロピーエンコーダ（４４５）においてエントロピー符号化されてもよい。エントロピーエンコーダ（４４５）は、例えばハフマン符号化、可変長符号化、算術符号化などの当業者に知られている技術に基づいて、各機能ユニットによって生成されたシンボルに対して可逆圧縮を行うことによって、シンボルを、符号化された動画シーケンスに変換する。

送信機（４４０）は、通信チャネル（４６０）を介した伝送の準備をするように、エントロピーエンコーダ（４４５）によって作成された１つ又は複数の符号化された動画シーケンスをバッファリングしてもよく、通信チャネル（４６０）は、符号化された動画データを記憶する記憶装置へのハードウェア／ソフトウェアリンクであってもよい。送信機（４４０）は、動画エンコーダ（５０３）からの符号化された動画データを、伝送しようとする他のデータ、例えば、符号化されたオーディオデータ及び／又は補助データストリーム（ソースは図示せず）とともにマージしてもよい。

コントローラ（４５０）は、動画エンコーダ（４０３）の動作を管理することができる。コントローラ（４５０）は、符号化中に、各符号化されたピクチャに、対応するピクチャに適用され得る符号化技術に影響する可能性がある特定の符号化されたピクチャタイプを指定することができる。例えば、通常、ピクチャを、以下のピクチャタイプのいずれかとして割り当てられ得る。

イントラピクチャ（Ｉピクチャ）は、シーケンスにおける他のピクチャを予測ソースとして使用せずに符号化および復号化できるピクチャであってもよい。一部の動画コーデックは、例えば、独立デコーダリフレッシュ（「ＩＤＲ」）ピクチャを含む異なるタイプのイントラピクチャを許容する。当業者は、Ｉピクチャのそれらの変形及び対応する適用と特徴を知っている。

予測ピクチャ（Ｐピクチャ）は、イントラ予測またはインター予測を使用して符号化および復号化を行うピクチャであってもよく、前記イントラ予測またはインター予測は、多くとも１つの動きベクトル及び参照インデックスを使用して各ブロックのサンプル値を予測する。

双方向予測ピクチャ（Ｂピクチャ）は、イントラ予測またはインター予測を使用して符号化および復号化を行うピクチャであってもよく、前記イントラ予測またはインター予測は、多くとも２つの動きベクトルと参照インデックスを使用して各ブロックのサンプル値を予測する。同様に、複数の予測ピクチャは、２つを超える参照ピクチャと関連するメタデータを使用して単一のブロックを再構築することができる。

ソースピクチャは、一般的に、空間的に複数のサンプルブロックに細分化され（例えば、それぞれ４×４、８×８、４×８又は１６×１６のサンプルブロックである）、ブロックごとに符号化されてもよい。ブロックは、ブロックに適用される相応するピクチャの符号化割り当てによって決定される他の（すでに符号化された）ブロックを参照して予測的に符号化されることができる。例えば、Ｉピクチャのブロックについて、非予測的に符号化してもよく、又は、同じピクチャの符号化されたブロックを参照して予測的に符号化してもよい（空間的予測又はイントラ予測）。Ｐピクチャの画素ブロックは、１つの以前に符号化された参照ピクチャを参照して空間的予測又は時間的予測を介して予測的に符号化されてもよい。Ｂピクチャのブロックは、１つ又は２つの以前に符号化された参照ピクチャを参照して空間的予測又は時間的予測を介して非予測的に符号化されてもよい。

動画エンコーダ（４０３）は、ＩＴＵ－ＴＨ．２６５提案書などの所定の動画符号化技術や規格に基づいて、符号化操作を行うことができる。動画エンコーダ（４０３）は、その動作中に、入力動画シーケンスにおける時間的及び空間的冗長性を利用した予測符号化動作を含む様々な圧縮動作を実行することができる。従って、符号化された動画データは、使用されている動画符号化技術又は規格によって指定された構文に準拠し得る。

実施形態では、送信機（４４０）は、符号化された動画とともに、追加のデータを送信してもよい。ソースエンコーダ（４３０）は、このようなデータを、符号化された動画シーケンスの一部として含んでもよい。追加のデータは、時間的／空間的／ＳＮＲ拡張層、冗長ピクチャ、スライスなどの他の形式の冗長データ、ＳＥＩメッセージ、ＶＵＩパラメータセットフラグメントなどを含んでもよい。

動画は、時系列で複数のソースピクチャ（動画ピクチャ）としてキャプチャされてもよい。イントラピクチャ予測（通常、イントラ予測と簡略化される）は、所定のピクチャにおける空間的関連性を利用し、インターピクチャ予測はピクチャ間の（時間的又は他の）関連性を利用する。例おいて、符号化／復号化中の現在のピクチャと呼ばれる特定のピクチャはブロックに分割される。現在のピクチャにおけるブロックは、動画における、以前に符号化されまだバッファリングされている参照ピクチャにおける参照ブロックと類似している場合に、動きベクトルと呼ばれるベクトルによって現在のピクチャにおけるブロックを符号化してもよい。動きベクトルは参照ピクチャにおける参照ブロックを指し、また、複数の参照ピクチャを使用する場合に、動きベクトルは、参照ピクチャを認識する第３の次元を有してもよい。

幾つかの実施形態において、双方向予測技術は、インターピクチャ予測に使用されてもよい。双方向予測技術によれば、例えば、動画における現在のピクチャよりも復号化順序で先行する（ただし、それぞれ表示順序で過去及び将来にあり得る）第１の参照ピクチャ及び第２の参照ピクチャである２つの参照ピクチャを使用する。第１の参照ピクチャにおける第１の参照ブロックを指す第１の動きベクトル、第２の参照ピクチャにおける第２の参照ブロックを指す第２の動きベクトルによって、現在のピクチャにおけるブロックを符号化してもよい。第１の参照ブロックと第２の参照ブロックとの組み合わせによって当該ブロックを予測してもよい。

また、マージモード技術は、符号化の効率を向上させるために、インターピクチャ予測に使用することができる。

本開示内容の幾つかの実施形態によれば、例えばインターピクチャ予測及びイントラピクチャ予測のような予測はブロックごとに実行される。例えば、ＨＥＶＣ規格に応じて、動画ピクチャシーケンスにおけるピクチャは、圧縮のための符号化ツリーユニット（ＣＴＵ）に分割され、ピクチャにおけるＣＴＵは、例えば、６４×６４画素、３２×３２画素又は１６×１６画素などの同じサイズを持っている。一般に、ＣＴＵは、３つの符号化ツリーブロック（ＣＴＢ）、即ち、１つの輝度ＣＴＢと２つの色度ＣＴＢを含む。各ＣＴＵは、１つ又は複数の符号化ユニット（ＣＵ）に再帰的に四分木で分割されてもよい。例えば、６４×６４画素のＣＴＵを１つの６４×６４画素のＣＵ、又は、４つの３２×３２画素のＣＵ、又は１６個の１６×１６画素のＣＵに分割してもよい。例において、各ＣＵを分析して、当該ＣＵに使用される予測タイプ、例えば、インター予測タイプ又はイントラ予測タイプを決定する。時間的及び／又は空間的予測可能性に依存し、ＣＵは１つ又は複数の予測ユニット（ＰＵ）に分割される。通常、各ＰＵは輝度予測ブロック（ＰＢ）及び２つの色度ＰＢを含む。実施形態において、符号化（符号化／復号化）中の予測動作は予測ブロックごとに実行される。輝度予測ブロックを予測ブロックとして使用する例において、予測ブロックは画素値（例えば、輝度値）の行列、例えば、８×８画素、１６×１６画素、８×１６画素、１６×８画素などを含む。

図５は、本開示の別の実施形態による動画エンコーダ（５０３）を説明する図を示す。動画エンコーダ（５０３）は、動画ピクチャシーケンスにおける現在の動画ピクチャのサンプル値の処理ブロック（例えば、予測ブロック）を受信し、該処理ブロックを符号化された動画シーケンスの一部である符号化されたピクチャに符号化するように構成されている。例において、動画エンコーダ（５０３）は、図２に示す例における動画エンコーダ（２０３）の代わりに使用される。

ＨＥＶＣの例では、動画エンコーダ（５０３）は、例えば８×８サンプルの予測ブロックなどである処理ブロックに使用されるサンプル値の行列を受信する。動画エンコーダ（５０３）は、例えばレート歪み（ｒａｔｅ－ｄｉｓｔｏｒｔｉｏｎ、ＲＤ）最適化を使用して、イントラモード、インターモードまたは双方向予測モードを使用して処理ブロックを最適に符号化するかどうかを特定する。イントラモードで処理ブロックを符号化する場合、動画エンコーダ（５０３）は、イントラ予測技術を使用して、処理ブロックを、符号化されたピクチャに符号化してもよく、インターモード又は双方向予測モードで処理ブロックを符号化する場合に、動画エンコーダ（５０３）は、インター予測または双方向予測技術をそれぞれ用いて、処理ブロックを符号化されたピクチャに符号化してもよい。いくつかの動画符号化技術では、マージモードはインターピクチャ予測サブモードであってもよく、なお、予測器の外部の符号化された動きベクトル成分を使用せずに、１つ又は複数の動きベクトル予測器から動きベクトルを取得する。いくつかの他の動画符号化技術では、主題ブロックに適用される動きベクトル成分が存在し得る。例において、動画エンコーダ（５０３）は、処理ブロックのモードを特定するためのモード特定モジュール（図示せず）などの他のコンポーネントを含む。

図５の例においては、動画エンコーダ（５０３）は、図５に示されるように、一体に結合されたインターエンコーダ（５３０）、イントラエンコーダ（５２２）、残差計算機（５２３）、スイッチ（５２６）、残差エンコーダ（２４）、汎用コントローラ（５２１）、およびエントロピーエンコーダ（５２５）を含んでいる。

インターエンコーダ（５３０）は、現在のブロック（例えば、処理ブロック）のサンプルを受信し、当該ブロックと参照ピクチャにおける１つまたは複数の参照ブロック（例えば、前のピクチャと後のピクチャにおけるブロック）とを比較し、インター予測情報（例えば、インター符号化技術の冗長な情報の説明、動きベクトル、マージモード情報）を生成し、インター予測情報に基づいて、任意の適切な技術を用いてインター予測結果（例えば、予測ブロック）を算出するように構成されている。幾つかの例では、参照ピクチャは符号化された動画情報に基づいて復号化された復号化済み参照ピクチャである。

イントラエンコーダ（５２２）は、現在のブロック（例えば、処理ブロック）のサンプルを受信し、いくつかの場合、当該ブロックと、同一ピクチャにおける符号化されたブロックとを比較し、変換された量子化係数を生成し、いくつかの場合、（例えば、１つまたは複数のイントラ符号化技術に基づくイントラ予測方向情報に基づいて）イントラ予測情報を生成するように構成されている。例において、イントラエンコーダ（５２２）は、さらにイントラ予測情報と同一のピクチャにおける参照ブロックとに基づいてイントラ予測結果（例えば予測ブロック）を算出する。

汎用コントローラ（５２１）は、汎用制御データを特定し、汎用制御データに基づいて動画エンコーダ（５０３）の他の構成要素を制御するように構成されている。例において、汎用コントローラ（５２１）は、ブロックモードを特定し、当該モードに基づいて制御信号をスイッチ（５２６）に供給する。例えば、当該モードがイントラモードである場合に、汎用コントローラ（５２１）は、残差計算器（５２３）に使用されるイントラモード結果を選択するようにスイッチ（５２６）を制御するとともに、イントラ予測情報を選択してイントラ予測情報をビットストリームに含めるようにエントロピーエンコーダ（５２５）を制御し、当該モードがインターモードである場合に、汎用コントローラ（５２１）は、残差計算器（５２３）に使用されるインター予測結果を選択するようにスイッチ（５２６）を制御するとともに、インター予測情報を選択してインター予測情報をビットストリームに含めるようにエントロピーエンコーダ（５２５）を制御する。

残差計算器（５２３）は、受信したブロックと、イントラエンコーダ（５２２）またはインターエンコーダ（５３０）から選択した予測結果との間の差（残差データ）を算出するように構成されている。残差エンコーダ（５２４）は、残差データに基づいて、残差データを符号化して変換係数を生成するように構成されている。例において、残差エンコーダ（５２４）は、残差データを時間領域から周波数領域に変換し、変換係数を生成するように構成されている。次に、変換係数は、量子化処理にされて、量子化された変換係数を求める。各実施形態において、動画エンコーダ（５０３）は、残差デコーダ（５２８）をさらに含む。残差デコーダ（５２８）は、逆変換を実行し、復号化された残差データを生成するように構成されている。復号化された残差データは、適宜にイントラエンコーダ（５２２）及びインターエンコーダ（５３０）によって使用されうる。例えば、インターエンコーダ（５３０）は、復号化された残差データおよびインター予測情報に基づいて、復号化されたブロックを生成してもよく、イントラエンコーダ（５２２）は、復号化された残差データおよびイントラ予測情報に基づいて、復号化されたブロックを生成してもよい。復号化されたピクチャを生成するように復号化ブロックを適切に処理し、幾つかの実施形態において、復号化されたピクチャは、メモリ回路（図示せず）にバッファリングされ、参照ピクチャとして使用される。

エントロピーエンコーダ（５２５）は、符号化されたブロックを含むようにビットストリームをフォーマットするように構成されている。エントロピーエンコーダ（５２５）は、ＨＥＶＣ規格のような適切な規格に従う様々な情報を含むように構成されている。例において、エントロピーエンコーダ（５２５）は、汎用制御データ、選択された予測情報（例えば、イントラ予測情報またはインター予測情報）、残差情報および他の適切な情報をビットストリームに含めるように構成されている。開示された主題によれば、インターモード又は双方向予測モードのマージサブモードでブロックを符号化する場合に残差情報がないことに留意されたい。

図６は、本開示の他の実施形態に応じて動画デコーダ（６１０）の図を示す。動画デコーダ（６１０）は、符号化された動画シーケンスの一部である符号化ピクチャを受信し、符号化されたピクチャを復号化して、再構築されたピクチャを生成するように構成されている。例において、動画デコーダ（６１０）は、図２に示す例における動画デコーダ（２１０）の代わりに使用される。

図６に示す例において、動画デコーダ（６１０）は、図６に示されたように、一体に結合されたエントロピーデコーダ（６７１）、インターデコーダ（６８０）、残差デコーダ（６７３）、再構築モジュール（６７４）、およびイントラエンコーダ（６７２）を含む。

エントロピーデコーダ（６７１）は、符号化されたピクチャに基づいて、特定のシンボルを再構築するように配置されてもよく、これらのシンボルは、符号化されたピクチャを構成する構文要素を表す。そのようなシンボルは、例えば、ブロックを符号化するためのモード（例えば、イントラモード、インターモード、双方向予測モード、インターモードと双方向予測モードとのマージサブモード又は別のサブモード）、イントラエンコーダ（６７２）またはインターエンコーダ（６８０）の予測に使用される特定のサンプル又はメタデータとして認識され得る予測情報（例えば、イントラ予測情報又はインター予測情報）、例えば量子化変換係数の形である残差情報などを含んでもよい。例において、予測モードがインターまたは双方向予測モードである場合に、インター予測情報をインターデコーダ（６８０）に提供し、予測類型がイントラ予測モードである場合に、イントラ予測情報をイントラエンコーダ（６７２）に提供する。残差情報は逆量子化されて残差デコーダ（６７３）に提供されてもよい。

インターエンコーダ（６８０）は、インター予測情報を受信し、インター予測情報に基づいてインター予測結果を生成するように構成されている。

イントラデコーダ（６７２）は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成されている。

残差デコーダ（６７３）は、逆量子化を実行して非量子化された変換係数を抽出し、非量子化された変換係数を処理して残差を周波数領域から空間領域に変換するように構成される。残差デコーダ（６７３）は、特定の制御情報（量子化器パラメータ（ＱｕａｎｔｉｚｅｒＰａｒａｍｅｔｅｒ、ＱＰ）を含む）も必要とする場合があり、前記情報はエントロピーデコーダ（６７１）から提供されてもよい（少量の制御情報に過ぎないため、データパスが図示されていない）。

再構築モジュール（６７４）は、空間領域において、残差デコーダ（６７３）から出力された残差と予測結果（場合によってインター予測モジュールまたはイントラ予測モジュールによって出力れる）を組み合わせて、再構築されたブロックを形成するように構成され、再構築されたブロックは再構築されたピクチャの一部であってもよく、再構築されたピクチャは、再構築された動画の一部であってもよい。視覚的品質を改善するために、デブロッキング操作などの他の適切な操作を実行できることに留意されたい。

任意の適切な技術を使用して動画エンコーダ（２０３）、動画エンコーダ（４０３）、動画エンコーダ（５０３）、および動画デコーダ（２１０）、動画デコーダ（３１０）、動画デコーダ（６１０）を実現し得ることに留意されたい。実施例において、１つ又は複数の集積回路を使用して、動画エンコーダ（２０３）、動画エンコーダ（４０３）、動画エンコーダ（５０３）、および動画デコーダ（２１０）、動画デコーダ（３１０）、動画デコーダ（６１０）を実現してもよい。他の実施形態において、ソフトウェア命令を実行する１つまたは複数のプロセッサを使用して動画エンコーダ（２０３）、動画エンコーダ（４０３）、動画エンコーダ（４０３）、および動画デコーダ（２１０）、動画デコーダ（３１０）、動画デコーダ（６１０）を実現してもよい。

本開示の実施形態は、ＨＥＶＣ（高効率動画符号化）以外の次世代動画符号化技術、例えば多用途動画符号化（ＶＶＣ）を提供する。より具体的には、サブ変換ユニットで適用されるＤＣ値を予測するための案を開示する。

ＩＴＵ－ＴＶＣＥＧ（Ｑ６／１６）とＩＳＯ／ＩＥＣＭＰＥＧ（ＪＴＣ１／ＳＣ２９／ＷＧ１１）は、２０１３（バージョン１）、２０１４（バージョン２）、２０１５（バージョン３）、２０１６（バージョン４）でＨ．２６５／ＨＥＶＣ（高効率動画符号化）を公開した。その後、ＩＴＵとＩＳＯ／ＩＥＣはＨＥＶＣ規格（その拡張を含む）の圧縮能力を著しく超える将来の動画符号化技術の規格化に対する潜在的なニーズを検討してきた。２０１７年１０月に、ＩＴＵとＩＳＯ／ＩＥＣはＨＥＶＣを超えた能力を持つ動画圧縮に関する共同提案書（ＣａｌｌｆｏｒＰｒｏｐｏｓａｌ、ＣｆＰ）を発表した。２０１８年２月１５日に、規格ダイナミックレンジ（ＳＤＲ）に関する合計２２のＣｆＰ応答、ハイダイナミックレンジ（ｈｉｇｈｄｙｎａｍｉｃｒａｎｇｅ、ＨＤＲ）に関する１２のＣｆＰ応答、および３６０の動画カテゴリに関する１２のＣｆＰ応答がそれぞれ提出された。２０１８年４月に、１２２ＭＰＥＧ／１０回目のＪＶＥＴ（連合動画検索グループ－連合動画専門家グループ）会議で、受信したすべてのＣｆＰ応答を評価した。慎重な検討により、ＪＶＥＴはＨＥＶＣ以外の次世代動画符号化の規格化、いわゆる多用途動画符号化（ＶＶＣ）を正式に開始した。

ＨＥＶＣでは、符号化ツリーユニット（ｃｏｄｉｎｇｔｒｅｅｕｎｉｔ、ＣＴＵ）は、四分木構造を用いることにより複数の符号化ユニット（ＣＵ）に区分され、該四分木構造は、様々な局所的特性に適した符号化ツリーとして示される。ＣＵレベルでは、ピクチャ領域を符号化するためにインターピクチャ（時間）予測を使用するか、それとも、イントラピクチャ（空間）予測を使用するかの方策を決める。各ＣＵは、ＰＵ（ｐｒｅｄｉｃｔｉｏｎｕｎｉｔ、ＰＵ）区分類型に応じて、１つ、２つ、または４つの予測ユニット（ＰＵ）に区分してもよい。１つのＰＵ内では、同じ予測処理を利用し、ＰＵに基づいて関連情報をデコーダに送信する。ＰＵ区分類型に基づく予測処理を適用して残差ブロックを得た後、ＣＵの符号化ツリーのような他の四分木構造に応じて、ＣＵを変換ユニット（ｔｒａｎｓｆｏｒｍｕｎｉｔ、ＴＵ）に区分してもよい。ＨＥＶＣ構造の重要な特徴の１つは、ＨＥＶＣがＣＵ、ＰＵ、ＴＵを含む複数の区分概念を持つことである。ＨＥＶＣでは、ＣＵまたはＴＵは正方形の形状のみであってもよいが、ＰＵはインター予測ブロック用正方形または矩形の形状であってもよい。ＨＥＶＣでは、１つの符号化ブロックは４つの正方形のサブブロックに区分され、各サブブロック、すなわちＴＵに対して変換を実行することもできる。各ＴＵは、（四分木を使用して）さらに再帰的に小さなＴＵに区分することができ、それは残差四分木（ＲｅｓｉｄｕａｌＱｕａｄ－Ｔｒｅｅ、ＲＱＴ）と呼ばれる。

ピクチャ境界では、ＨＥＶＣは、暗黙的な四分木区分を採用して、サイズがクチャ境界に合うまでブロックが四分木区分に維持される。

以上のように、ＨＥＶＣでは、ＣＴＵは、四分木構造を用いることにより複数のＣＵに区分され、該四分木構造は、様々な局所的特性に適するように符号化ツリーとして示される。ＣＵレベルでは、ピクチャ領域を符号化するためにインターピクチャ（時間）予測を使用するか、それとも、イントラピクチャ（空間）予測を使用するかの方策を決める。各ＣＵは、ＰＵ区分類型に応じて、１つ、２つ、または４つのＰＵに区分してもよい。１つのＰＵ内では、同じ予測処理を利用して、ＰＵに基づいて関連情報をデコーダに送信する。ＰＵ区分類型に基づく予測処理を利用して残差ブロックを取得した後、他の四分木構造（例えば、ＣＵの符号化ツリー）に応じて、ＣＵを変換ユニットに区分してもよい。ＨＥＶＣ構造の重要な特徴の１つは、ＣＵ、ＰＵ、及びＴＵを含む複数の区分概念を持つことである。

ＶＶＣでは、四分木（ｑｕａｄ－ｔｒｅｅ、ＱＴ）プラス二分木（ｂｉｎａｒｙｔｒｅｅ、ＢＴ）を用いたブロック区分構造を提案した。ＱＴＢＴ構造は、複数の区分類型の概念を除去したものである。すなわち、ＱＴＢＴ構造がＣＵ、ＰＵ、ＴＵ概念の分離を除去し、ＣＵ区分形状のより柔軟性をサポートする。ＱＴＢＴブロック構造（またはＱＴＢＴ構造）では、ＣＵは正方形または矩形の形状を有してもよい。図７Ａおよび図７Ｂに示すように、符号化ツリーユニット（ＣＴＵ）は、まず、四分木構造によって区分される。四分木リーフノードはさらに二分木構造で区分される。二分木区分には、対称水平区分と対称垂直区分の２種類がある。二分木のリーフノードは、符号化ユニット（ＣＵ）と呼ばれ、いずれの区分なしで予測と変換処理に用いる。これは、ＣＵ、ＰＵ及びＴＵがＱＴＢＴ符号化ブロック構造において同じブロックサイズを有することを意味する。実験ソフト共同探査モデル（ＪＥＭ）では、ＣＵは異なる色成分の符号化ブロック（ｃｏｄｉｎｇｂｌｏｃｋ、ＣＢ）から構成される場合があり、例えば、４：２：０のクロマ形式のＰスライスとＢスライスの場合、１つのＣＵは１つの輝度ＣＢと２つのクロマＣＢから構成され、１つの成分のＣＢから構成される場合もある。例えば、Ｉスライスの場合、１つのＣＵは１つの輝度ＣＢのみ、または２つのクロマＣＢのみを含む。

幾つかの実施形態では、ＱＴＢＴ区分案に対して、以下のパラメータを限定する。（１）ＣＴＵサイズとは、四分木のルートノードのサイズであり、その概念はＨＥＶＣにおける概念と同じである。（２）ＭｉｎＱＴＳｉｚｅとは、最小許容の四分木リーフノードのサイズである。（３）ＭａｘＢＴＳｉｚｅとは、最大許容の二分木のルートノードのサイズである。（４）ＭａｘＢＴＤｅｐｔｈとは、最大許容の二分木の深さである。（５）ＭｉｎＢＴＳｉｚｅとは、最小許容の二分木のリーフノードのサイズである。

ＱＴＢＴ区分構造（またはＱＴＢＴ構造）の例において、ＣＴＵサイズは１２８×１２８の輝度サンプルと、対応する６４×６４ブロックのクロマサンプル２つに設定され、ＭｉｎＱＴＳｉｚｅは１６×１６に設定され、ＭａｘＢＴＳｉｚｅは６４×６４に設定され、ＭｉｎＢＴＳｉｚｅ（幅と高さ）は４×４に設定され、ＭａｘＢＴＤｅｐｔｈは４に設定される。四分木区分は、最初にＣＴＵに適用され、複数の四分木リーフノードを生成する。四分木リーフノードは、１６×１６（すなわち、ＭｉｎＱＴＳｉｚｅ）から１２８×１２８（すなわち、ＣＴＵサイズ）までのサイズを有してもよい。リーフの四分木ノードが１２８×１２８の場合、サイズがＭａｘＢＴＳｉｚｅ（すなわち、６４×６４）を超えるため、リーフの四分木は二分木によってさらに区分されない。そうでなければ、リーフの四分木ノードは二分木でさらに区分してもよい。したがって、四分木リーフノードは二分木のルートノードでもあり、四分木リーフは０の二分木の深さを持つ。二分木の深さがＭａｘＢＴＤｅｐｔｈ（すなわち、４）に達すると、それ以上の区分は考慮されない。二分木のノードの幅がＭｉｎＢＴＳｉｚｅ（すなわち、４）と等しい場合、それ以上の水平区分は考慮されない。同様、二分木のノードの高さがＭｉｎＢＴＳｉｚｅと等しい場合、それ以上の垂直区分は考慮されない。それ以上の区分が不要な場合は、予測と変換処理により二分木のリーフノードをさらに処理する。ＪＥＭでは、最大ＣＴＵサイズは２５６×２５６輝度サンプルであってもよい。

図７Ａは、ＱＴＢＴを使用してブロック区分を行う例を示す。図７Ｂは、対応するツリー表現を示す。実線は四分木区分を示し、破線は二分木区分を示す。二分木の各区分（すなわち、非リーフ）ノードにおいて、どの区分類型（すなわち、水平または垂直）を使用するかを指示するフラグがシグナリングされており、０は水平区分を示し、１は垂直区分を示す。四分木区分では、常にブロックを水平および垂直に区分して均等サイズの４つのサブブロックを生成しているため、区分類型を支持する必要がない。

また、ＱＴＢＴ案（またはＱＴＢＴ構造）は、輝度とクロマが個別のＱＴＢＴ構造を持つ柔軟性をサポートする。現在、ＰスライスとＢスライスに対して、１つのＣＴＵの輝度とクロマＣＴＢが同じＱＴＢＴ構造を共有する。しかしながら、Ｉスライスに対して、輝度ＣＴＢはＱＴＢＴ構造でＣＵに区分され、クロマＣＴＢは他のＱＴＢＴ構造でクロマＣＵに区分される。これは、Ｉスライス中のＣＵは輝度成分の符号化ブロックまたは２つのクロマ成分の符号化ブロックで構成され、ＰスライスとＢスライス中のＣＵは３つの色成分すべての符号化ブロックで構成されることを意味する。

ＨＥＶＣでは、小さいブロックに対するインター予測は、４×８ブロックと８×４ブロックについては双方向予測がサポートされず、４×４ブロックについてはインター予測がサポートされないように、動き補償のメモリアクセスを減らすために制限されている。ＪＥＭ－７．０で実装されたＱＴＢＴでは、これらの制限は削除される。

ＶＣＣでは、マルチタイプツリー（Ｍｕｌｔｉ－ｔｙｐｅ－ｔｒｅｅ、ＭＴＴ）構造をさらに提案する。ＭＴＴはＱＴＢＴよりも柔軟なツリー構造である。ＭＴＴでは、図８Ａおよび図８Ｂに示すように、四分木および二分木の他に、水平および垂直中心側の三分木が導入される。図８Ａは、垂直中心側の三分木区分であり、図８Ｂは、水平中心側の三分木区分である。三分木区分の重要な利点は、（ａ）三分木区分は、四分木区分と二分木区分の補完であり、三分木区分はブロックの中心にあるオブジェクトをキャプチャすることができるが、四分木と二分木は常にブロックの中心に沿って区分することと、（ｂ）提案した三分木の区分の幅と高さは常に２のべき乗であるため、付加変換は不要であることと、２点にある。二次木の設計は主に複雑さを低減することによって実現される。理論的には、ツリーをトラバースする複雑度はＴＤであり、ここで、Ｔは区分類型の数を表し、Ｄはツリーの深さである。

ＨＥＶＣでは、一次変換は４ポイント、８ポイント、１６ポイント、３２ポイントのＤＣＴ－２であり、変換コア行列は８ビットの整数（即ち、８変換コア）を使用して表される。小さなＤＣＴ－２の変換コア行列は、次のように大きなＤＣＴ－２の一部である。

ＤＣＴ－２コアは対称／反対称特性を示している。そこで、いわゆる「部分蝶形」の実現方式をサポートすることによって、操作カウント（乗算、加算／減算、シフト）の数を減らし、部分蝶形を使って行列乗算の同じ結果を得ることができる。

現在のＶＶＣは、ＨＥＶＣと同じ４ポイント、８ポイント、１６ポイント、３２ポイントのＤＣＴ－２変換に加えて、追加の２ポイントと６４ポイントのＤＣＴ－２をさらに含む。ＶＶＣで限定された６４ポイントのＤＣＴ－２コアは、以下の６４×６４行列として示される。

ここで、

ＨＥＶＣで採用されているＤＣＴ－２と４×４ＤＳＴ－７のほか、ＶＶＣでは自己適応マルチ変換（ＡｄａｐｔｉｖｅＭｕｌｔｉｐｌｅＴｒａｎｓｆｏｒｍ、ＡＭＴ、または拡張マルチ変換（ＥｎｈａｎｃｅｄＭｕｌｔｉｐｌｅＴｒａｎｓｆｏｒｍ、ＥＭＴ、またはマルチ変換選択（ＭｕｌｔｉｐｌｅＴｒａｎｓｆｏｒｍＳｅｌｅｃｔｉｏｎ，ＭＴＳ）呼ばれている）方式がインター符号化ブロックとイントラ符号化ブロックの両方の残差符号化に使用されている。ＭＴＳは、ＨＥＶＣでの現在の変換以外のＤＣＴ／ＤＳＴファミリからの複数の選択された変換を使用する。新しく導入された変換行列はＤＳＴ－７、ＤＣＴ－８である。表１は選択されたＤＳＴ／ＤＣＴの基底関数を示している。

ＶＣにおけるすべての一次変換行列は、８ビット表現とともに使用される。ＡＭＴは幅と高さの両方が３２以下のＣＵに適用され、ＡＭＴを適用するかどうかはｍｔｓ＿ｆｌａｇと呼ばれるフラグによって制御される。ｍｔｓ＿ｆｌａｇが０に等しい場合、残差を符号化するためにＤＣＴ－２のみが適用される。ｍｔｓ＿ｆｌａｇが１に等しい場合、インデックスｍｔｓ＿ｉｄｘは、表２に応じて使用する水平変換と垂直変換を指定するために、２つの周波数帯域を使用してさらにシグナリングで表され、ここで、値１はＤＳＴ－７の使用を表し、値２はＤＣＴ－８の使用を表す。

ＤＳＴ－７の変換コア（すなわち、基底ベクトルからなる行列）は、次のように表してもよい。
４ポイントＤＳＴ－７：

ここで、

８ポイントＤＳＴ－７：

ここで、

１６ポイントＤＳＴ－７：

ここで、

３２ポイントＤＳＴ－７：

ここで、

４ポイントＤＣＴ－８：

ここで、

８ポイントＤＣＴ－８：

ここで、

１６ポイントＤＣＴ－８：

ここで、

３２ポイントＤＣＴ－８：

ここで、

ＶＣＣでは、表３に示すように、イントラサブ区分（ＩｎｔｒａＳｕｂ－Ｐａｒｔｉｔｉｏｎ、ＩＳＰ）の符号化モードは、ブロックサイズに基づいて、輝度イントラ予測ブロックを垂直または水平に２つまたは４つのサブ区分に区分する。図９及び図１０は、２つの可能性の例を示している。図９は、４×８ブロックまたは８×４ブロックの例示的な区分を示す。図１０は、４×８ブロック、８×４ブロック、または４×４ブロックのいずれかの１つではないブロックの例示的な区分を示す。すべてのサブ区分は、少なくとも１６つのサンプルを有する条件を満たしている。クロマ成分については、ＩＳＰを適用しない。

これらのサブ区分のそれぞれについて、エンコーダによって送られた係数を、エントロピー復号化して、引き続き逆量子化および逆変換を行うことによって残差信号を生成する。そして、サブ区分は、イントラ予測され、最終的に残差信号と予測信号とを加算することによって、対応する再構築サンプルを得る。したがって、各サブ区分の再構築された値は、次のサブ区分の予測の生成に用いることができ、該処理などが繰り返される。すべてのサブ区分は同じイントラモードを共有する。

幾つかの実施形態では、ＩＳＰアルゴリズムは、ＭＰＭリストの一部であるイントラモードのみを利用してテストされる。したがって、ブロックがＩＳＰを使用する場合、ＭＰＭフラグは一であると推定される。また、ＩＳＰが特定ブロックに使用される場合、ＭＰＭリストは、ＤＣモードを除外するように修正され、ＩＳＰの水平区分用の水平イントラモードと垂直区分用の垂直イントラモードとで優先順位が区別される。

ＩＳＰでは、変換と再構築はサブ区分ごとに個別に実行されるため、サブ区分はサブＴＵと考えてもよい。表４は、ＩＳＰ用のシグナリングされる関連構文要素を示している。

ＪＶＥＴ－Ｊ００２４、ＪＶＥＴ－Ｋ０１３９、及びＪＶＥＴ－Ｌ０３５８では、空間変化変換（ｓｐａｔｉａｌｌｙｖａｒｙｉｎｇｔｒａｎｓｆｏｒｍ，ＳＶＴ）案が提案される。ＳＶＴでは、インター予測残差に対して、符号化ブロックには残差ブロックのみ存在しているが、残差ブロックが符号化ブロックよりも小さいため、ＳＶＴにおける変換サイズは符号化ブロックサイズよりも小さい。残差ブロックによって、覆われていない領域又は変換されていない領域については、ゼロ残差と仮定する。

より具体的には、ＪＶＥＴ－Ｌ０３５８では、ＳＶＴはサブブロック変換（Ｓｕｂ－ｂｌｏｃｋＴｒａｎｓｆｏｒｍ、ＳＢＴ）とも呼ばれる。ＳＢＴでサポートされているサブブロック類型（ＳＶＴ－Ｈ、ＳＶＴ－Ｖ）、サイズ、および位置（左１／２、左１／４、右１／２、右１／４、上１／２、上１／４、下１／２、下１／４）を、図１１Ａ図１１Ｄに示してもよい。図１１Ａ～図１１Ｄは、それぞれ、ＳＢＴでサポートされているサブブロック類型（ＳＶＴ－Ｈ、ＳＶＴ－Ｖ）と、位置（左１／２、右１／２、上１／２、下１／２）を示している。アルファベット「Ａ」で示されるハッチング領域は変換を行う残差ブロックであり、他の領域は変換を行わないゼロ残差ブロックであると仮定される。

ＳＢＴ手段の１つの問題は以下の通りである。即ち、これらの手段が、サブブロック類型（水平または垂直）、サイズ（１／２または１／４）、および位置（左または右、上または下）を示すように、追加のオーバーヘッドビット（例えば、ｃｕ＿ｓｂｔ＿ｆｌａｇ、ｃｕ＿ｓｂｔ＿ｑｕａｄ＿ｆｌａｇ、ｃｕ＿ｓｂｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｆｌａｇ、ｃｕ＿ｓｂｔ＿ｐｏｓ＿ｆｌａｇ）がシグナリングされる必要がある。表５～表１１および次の段落のテキストは、提案されたＳＢＴを示している。

シーケンスパラメータセットＲＢＳＰの意味
ｓｐｓ＿ｓｂｔ＿ｅｎａｂｌｅｄ＿ｆｌａｇ＝０は、インター予測のＣＵのサブブロック変換を無効にすることを指定する。ｓｐｓ＿ｓｂｔ＿ｅｎａｂｌｅｄ＿ｆｌａｇ＝１は、インター予測のＣＵのサブブロック変換を有効にすることを指定する。

共通スライスヘッダの意味
ｓｌｉｃｅ＿ｓｂｔ＿ｍａｘ＿ｓｉｚｅ＿６４＿ｆｌａｇ＝０は、サブブロックの変換を許可する最大のＣＵ幅と高さが３２であることを指定する。ｓｌｉｃｅ＿ｓｂｔ＿ｍａｘ＿ｓｉｚｅ＿６４＿ｆｌａｇ＝１は、サブブロックの変換を許可する最大のＣＵ幅と高さが６４であることを指定する。
ｍａｘｓｂｔｓｉｚｅ＝Ｓｌｉｃｅ＿ＳＢＴ＿ｍａｘ＿ｓｉｚｅ＿６４ｆｌａｇ？６４：３２

符号化ユニットの意味
ｃｕ＿ｓｂｔ＿ｆｌａｇ[ｘ０][ｙ０]＝１は、現在の符号化ユニットに対して、サブブロック変換を使用することを指定する。ｃｕ＿ｓｂｔ＿ｆｌａｇ[ｘ０][ｙ０]＝０は、現在の符号化ユニットに対して、サブブロック変換を使用しないことを指定する。
ｃｕ＿ｓｂｔ＿ｆｌａｇ[ｘ０][ｙ０]が存在しない場合、その値は０と推定される。
サブブロック変換を使用する場合、符号化ユニットは２つの変換ユニットにタイル化され、一方の変換ユニットは残差ブロックを有し、他方の変換ユニットは残差ブロックを有しない。
ｃｕ＿ｓｂｔ＿ｑｕａｄ＿ｆｌａｇ[ｘ０][ｙ０]＝１は、現在の符号化ユニットに対して、サブブロック変換は現在の符号化ユニットの１／４サイズの変換ユニットを含む。ｃｕ＿ｓｂｔ＿ｑｕａｄ＿ｆｌａｇ[ｘ０][ｙ０]＝０は、現在の符号化ユニットに対して、サブブロック変換は現在の符号化ユニットの１／２サイズの変換ユニットを含む。
ｃｕ＿ｓｂｔ＿ｑｕａｄ＿ｆｌａｇ[ｘ０][ｙ０]が存在しない場合、その値は０と推定される。
ｃｕ＿ｓｂｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｆｌａｇ[ｘ０][ｙ０]＝１は、現在の符号化ユニットを水平区分で２つの変換ユニットにタイル化されることを指定する。ｃｕ＿ｓｂｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｆｌａｇ[ｘ０][ｙ０]＝０は、現在の符号化ユニットを垂直区分で２つの変換ユニットにタイル化されることを指定する。
ｃｕ＿ｓｂｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｆｌａｇ[ｘ０][ｙ０]が存在しない場合、次のように値が得られる。
（ａ）ｃｕ＿ｓｂｔ＿ｑｕａｄ＿ｆｌａｇ[ｘ０][ｙ０]＝１の場合、ｃｕ＿ｓｂｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｆｌａｇ[ｘ０][ｙ０]をａｌｌｏｗＳｂｔＨｏｒｉＱｕａｄに設定する。
（ｂ）それ以外の場合（ｃｕ＿ｓｂｔ＿ｑｕａｄ＿ｆｌａｇ[ｘ０][ｙ０]＝０場合）、ｃｕ＿ｓｂｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｆｌａｇ[ｘ０][ｙ０]をａｌｌｏｗＳｂｔＨｏｒｉＨａｌｆに設定しる。
ｃｕ＿ｓｂｔ＿ｐｏｓ＿ｆｌａｇ[ｘ０][ｙ０]＝１は、現在の符号化ユニットにおける第１の変換ユニットのｔｕ＿ｃｂｆ＿ｌｕｍａ、ｔｕ＿ｃｂｆ＿ｃｂ、ｔｕ＿ｃｂｆ＿ｃｒはビットストリームに存在しないことを指定する。ｃｕ＿ｓｂｔ＿ｐｏｓ＿ｆｌａｇ[ｘ０][ｙ０]＝０は、現在の符号化ユニットにおける第２の変換ユニットのｔｕ＿ｃｂｆ＿ｌｕｍａ、ｔｕ＿ｃｂｆ＿ｃｂ、ｔｕ＿ｃｂｆ＿ｃｒがビットストリームに存在しないことを指定する。

スケーリング用変換係数の変換処理
該処理の入力は、
現在のピクチャの左上輝度サンプルに対する現在の輝度変換ブロックの左上サンプルを指定する輝度位置（ｘＴｂＹ、ｙＴｂＹ）、
現在の変換ブロックの幅を指定する変数ｎＴｂＷ、
現在の変換ブロックの高さを指定する変数ｎＴｂＨ、
現在のブロックの色成分を指定する変数ｃＩｄｘ、及び
スケーリング変換係数の（ｎＴｂＷ）×（ｎＴｂＨ）行列ｄ[ｘ][ｙ]（ここで、ｘ＝０．．．ｎＴｂＷ－１，ｙ＝０．．．ｎＴｂＨ－１）、
である。
該処理の出力は、残差サンプルの（ｎＴｂＷ）×（ｎＴｂＨ）行列ｒ[ｘ][ｙ]であり、ここで、ｘ＝０．．．ｎＴｂＷ－１，ｙ＝０．．．ｎＴｂＨ－１。
ｃｕ＿ｓｂｔ＿ｆｌａｇ[ｘＴｂＹ][ｙＴｂＹ]＝１の場合、表８－Ｘではｃｕ＿ｓｂｔ＿ｈｏｒｉｚｏｎｔａｌ＿ｆｌａｇ[ｘＴｂＹ][ｙＴｂＹ]とｃｕ＿ｓｂｔ＿ｐｏｓ＿ｆｌａｇ[ｘＴｂＹ][ｙＴｂＹ]によって、水平変換コアを指定する変数ｔｒＴｙｐｅＨｏｒと垂直変換コアを指定する変数ｔｒＴｙｐｅＶｅｒを求める。
それ以外の場合、（ｃｕ＿ｓｂｔ＿ｆｌａｇ[ｘＴｂＹ][ｙＴｂＹ]＝０＝０）、表８～表９ではｍｔｓ＿ｉｄｘ[ｘＴｂＹ][ｙＴｂＹ]とＣｕＰｒｅｄＭｏｄｅ[ｘＴｂＹ][ｙＴｂＹ]によって、水平変換コアを指定する変数ｔｒＴｙｐｅＨｏｒと垂直変換コアを指定する変数ｔｒＴｙｐｅＶｅｒを求める。
残差サンプルの（ｎＴｂＷ）×（ｎＴｂＨ）行列ｒは、以下のようにして得られる。
（１）各列のｘ＝ｎＴｂＷ－１（ここで、変換ブロックの高さがｎＴｂＨである）に対して１次元変換処理を呼び出すことにより、スケーリング変換係数ｄ[ｘ][ｙ]（ここで、ｘ＝０．．ｎＴｂＷ－１，ｙ＝０．．ｎＴｂＨ－１）の各（垂直）列をｅ[ｘ][ｙ]（ここで、ｘ＝０．．ｎＴｂＷ－１，ｙ＝０．．ｎＴｂＨ－１）に変換し、列表ｄ[ｘ][ｙ]（ここで、ｙ＝０…ｎＴｂＨ－１）と「＝ｔｒＴｙｐｅＶｅｒ」に設定された変換型変数ｔｒＴｙｐｅは入力とし、列表出力は列表ｅ[ｘ][ｙ]（ここで、ｙ＝０…ｎＴｂＨ－１）とする。
（２）次のように中間サンプル値ｇ[ｘ][ｙ]を求める。ここで、ｘ＝０．．ｎＴｂＷ－１，ｙ＝０．．ｎＴｂＨ－１：

（３）行ｙ＝０．．ｎＴｂＨ－１（ここで、変換ブロックの幅がｎＴｂＷである）ごとに、１次元変換処理を呼び出すことで得られた行列ｇ[ｘ][ｙ]（ここで、ｘ＝０．．ｎＴｂＷ－１，ｙ＝０．．ｎＴｂＨ－１）の各（水平）行をｒ[ｘ][ｙ]（ここで、ｘ＝０．．ｎＴｂＷ－１，ｙ＝０．．ｎＴｂＨ－１）に変換し、列表ｇ[ｘ][ｙ]（ここで、ｘ＝０．．ｎＴｂＷ－１）と、ｔｒＴｙｐｅＨｏｒに相当すると設定された変換型変数ｔｒＴｙｐｅとを、入力として、列表ｒ[ｘ][ｙ]（ここで、ｘ＝０…ｎＴｂＷ－１）を列表出力である出力とする。

現在のＶＶＣドラフトでは、最大変換ユニットに制限があり、６４×６４である。
符号化ユニットの幅（Ｗ）または高さ（Ｈ）が６４より大きい場合、符号化ユニットは暗黙的に複数のｍｉｎ（Ｗ、６４）×ｍｉｎ（Ｈ、６４）サブブロックに区分され、各サブブロック（すなわち、サブ変換ユニット（ＳＴＵ））に対して変換が行われる。

ＪＶＥＴ－Ｎ０３６２や発明者らの先の仮出願では、構成可能な最大変換サイズの提案をしている。提案する方法は、長さ６４未満の代替最大変換サイズを許容する。例えば、最大変換サイズを１６に設定し、ＣＵの幅（Ｗ）または高さ（Ｈ）が１６より大きい場合、ＣＵは暗黙的に複数のｍｉｎ（Ｗ、１６）×ｍｉｎ（Ｈ、１６）サブブロックに区分され、各サブブロック（すなわちサブ変換ユニット（ＳＴＵ））に対して変換が行われる。また、ＳＴＵの幅と高さは最大変換サイズより大きくすることはできない。

しかしながら、前記の方法にはいくつかの欠点がある。例えば、符号化ユニットを複数のＳＴＵに区分する場合、通常はこれらのＳＴＵのＤＣ値の間に相関があってもよい。しかし、符号化性能の向上のために、現在のＶＣＣドラフトではこれらの相関性は考慮されていない。また、現在のＶＶＣドラフトでは、ＴＵレベルでＭＴＳと変換スキップされたシグナリングを操作しているので、各ＳＴＵについて、大きなＣＵが依然として適用され、ＭＴＳと変換スキップをシグナリングで表すことができ、これは非効率的かもしれない。

本開示の実施形態によれば、サブ変換ユニットに適用されるＤＣ値を予測する方法が提供される。開示された方法は単独で、あるいは任意の順序で組み合わせて使用することができる。さらに、方法（または実施形態）、エンコーダ、およびデコーダのそれぞれは、処理回路（例えば、１つまたは複数のプロセッサ、または１つまたは複数の集積回路）によって実装できる。実施形態では、１つまたは複数のプロセッサが、非一時的なコンピュータ読み取り可能な媒体に記憶されたプログラムを実行する。

幾つかの実施形態によれば、高レベル構文（ｈｉｇｈ－ｌｅｖｅｌｓｙｎｔａｘ、ＨＬＳ）要素は、動画パラメータセット（ＶｉｄｅｏＰａｒａｍｅｔｅｒＳｅｔ、ＶＰＳ）、シーケンスパラメータセット（ＳｅｑｕｅｎｃｅＰａｒａｍｅｔｅｒＳｅｔ、ＳＰＳ）、ピクチャパラメータセット（ＰｉｃｔｕｒｅＰａｒａｍｅｔｅｒＳｅｔ、ＰＰＳ）、スライスヘッダ、ブロックヘッダ、ブロックグループヘッダのいずれかを指すことができる。最大ＣＵサイズであるＣＴＵ（符号化ツリーユニット）ヘッダは、例えばヘッダ情報として、ＣＴＵ用信号毎に示す構文要素である。変換サイズとは、最大変換幅および／または高さ、または最大変換ユニット領域サイズのことである。低周波数係数（ｌｏｗ－ｆｒｅｑｕｅｎｃｙｃｏｅｆｆｉｃｉｅｎｔ、ＬＦＣ）は、ＤＣ係数のみ、ＤＣ係数に最も近い２つ（または３つ）の係数、または左上のｍ×ｎ変換係数（または変換スキップを適用する場合の空間残差）、あるいは係数ブロックの左上のＭ×Ｎ部分の変換係数の所定の領域（または変換スキップを適用する場合の空間残差）を指すことができる。

幾つかの実施形態では、開示される方法は、ＤＣＴ－２以外の追加の変換類型が適用されるかどうかを指示するために、ＨＬＳをシグナリングすることを含む。フラグｓｐｓ＿ｅｎａｂｌｅ＿ｄｓｔ７＿ｆｌａｇまたはｓｐｓ＿ｅｎａｂｌｅ＿ｄｓｔ７＿ｄｃｔ８＿ｆｌａｇが真の場合、変換中にＤＳＴ－７またはＤＣＴ－８を適用できる。ｓｐｓ＿ｅｎａｂｌｅ＿ｄｓｔ７＿ｆｌａｇとｓｐｓ＿ｅｎａｂｌｅ＿ｄｓｔ７＿ｄｃｔ８＿ｆｌａｇが偽の場合、実施形態では、ＤＣＴ－２のみを適用できるか、変換スキップを適用できるかを指示するために、ＨＬＳをシグナリングで示す。実施形態では、ＤＣＴ－２のみを適用できるかを指示するために、ＨＬＳをシグナリングで示す。

幾つかの実施形態では、ＣＵが暗黙的に複数のＳＴＵに区分された場合、シグナリングを用いずにＭＴＳおよび／または変換スキップを表す。

幾つかの実施形態では、現在のＣＵが複数のＳＴＵに区分される場合、各ＳＴＵについて、隣接するブロックおよび／または隣接するＳＴＵの係数を使用してＬＦＣの絶対値またはＬＦＣの符号値（符号付き値とも呼ばれる）を予測する。例えば、図１２に示すように、最大変換サイズを１６に設定した場合、６４×３２ＣＵは８つの１６×１６ＳＴＵに区分され、現在のＳＴＵ（Ｃ）に対して、上ＳＴＵ（Ｔ）と左ＳＴＵ（Ｌ）と左上部ＳＴＵ（ＴＬ）のＬＦＣは、現在のＳＴＵの絶対値または符号値（符号付き値とも呼ばれる）を予測するために使用できる

第１例において、上および／または左隣接ブロック（またはサブブロックＳＴＵ）のＤＣ係数の絶対値の平均（または中央値）を使用して現在のＳＴＵのＬＦＣ絶対値を予測する。例えば、ＤＣＣ＝（ＤＣＴ＋ＤＣＬ＋１）／（２×Ｎ）ここで、Ｎは正の整数である。一部の実施形態では、Ｎ＝ｌ。別の実施形態では、Ｎ＝２である。

第２の例において、同一ＣＵに属する上と左の隣接ブロック（またはサブブロック、ＳＴＵ）のＬＦＣの絶対値の平均を使用して、現在のＳＴＵのＬＦＣ絶対値を予測する。

第３の例において、上と左の隣接ブロックの絶対値ＬＦＣを使用して、現在のＳＴＵのＬＦＣの絶対値を予測し、変換スキップモードで符号化しない。

第４の例において、同じ変換類型（例えば、ＤＣＴ－２、ＤＳＴ－７、またはＤＣＴ－８）を使用して符号化された上と左隣接ブロックの絶対値ＬＦＣを使用して現在のＳＴＵのＬＦＣ絶対値を予測する。

第５の例において、現在のＳＴＵと隣接ブロックが異なる変換類型を使用して符号化されている場合、例えば、現在のＳＴＵがＤＣＴ－２で符号化されており、隣接ブロックが変換スキップによって符号化されている場合、該隣接するＳＴＵのＬＦＣの絶対値は、現在のブロックを予測するために使用されるＬＦＣの前にスケーリングされる。スケーリング係数は√２または1/√2またはm/２^Ｎでもよく、ここで、ｍとＮは整数である。

第６の例において、最も近い整数に丸められた後、上および／または左隣接するブロックの符号値の平均（または中央値）を使用して現在のＳＴＵとＬＦＣ符号値を予測する。例えば、３つの隣接ブロックを使用して符号値を予測する場合、隣接ブロックに２回以上現れる符号値を使用して現在のブロックの符号値を予測する。

第７の例において、同一ＣＵに属する上と左の隣接ブロックの符号値の平均値を使用して、現在のＳＴＵのＬＦＣの符号値を予測する。

第８の例において、変換スキップモードで符号化されていない上と左隣接ブロックの符号値ＬＦＣを使用して、現在のＳＴＵのＬＦＣの符号値（符号付き値とも呼ばれる）を予測する。

第９例において、同じ変換類型（例えば、ＤＣＴ－２、ＤＳＴ－７、またはＤＣＴ－８）を使用して符号化された上と左隣接ブロックの符号値ＬＦＣを使用して現在のＳＴＵのＬＦＣの符号値を予測する。

幾つかの実施形態によれば、前記第１の実施例～第９の実施例で言及された方法は、ＩＳＰパターンのサブ区分によって生成されたＳＴＵまたは暗黙的変換分割によって生成されたＳＴＵに適用できる。量子化係数または逆量子化係数に対しても前記方法を実行してもよい。

実施形態において、現在のＣＵが複数のＳＴＵに区分される場合、ＳＴＵのＬＦＣからなるブロック（または係数ブロック）に二次変換を適用することができる。例えば、図１３に示されるように、３２×６４ブロック（またはＣＵ）を８つの１６×１６ＳＴＵに区分し、各ＳＴＵ（例えば、各ＳＴＵの左上に位置するテクスチャブロック）のＤＣ係数を認識して、新たな４×２ブロック（または係数ブロック）を構築し、該４×２ブロックで二次変換を行うことができる。

例において、二次変換された変換係数をＳＴＵに対応するＬＦＣにフィードバックしてもよい。他の例において、二次変換された変換係数は係数ブロックとして個別に符号化され得る。

例において、二次変換は非正方形アダマール変換であってもよい。例としては、２×４、１×４、４×２、４×１、２×１８、８×２等を含む。例において、二次変換は正方形アダマール変換であってもよい。例において、二次変換はＤＣＴ－２であってもよい。例において、二次変換はＤＳＴ－７またはＤＣＴ－８であってもよい。例において、二次変換はＫａｒｈｕｎｅｎ－Ｌｏｅｖｅ変換（ＫＬＴ）でも、分離不可な変換（例えば、分離不可能なＫＬＴ）であってもよい。

例において、二次変換のサイズは、水平方向と垂直方向にＳＴＵの数に合わせて調整できる。

実施形態では、ＣＵのすべてのＳＴＵが同じ変換類型を共有している場合にのみ、二次変換を適用する。

例において、異なる二次変換を適用できる。ＳＴＵの一次変換に基づいて二次変換の類型を特定する。

現在のＶＣＣドラフトでは、符号化ユニットを複数のＳＴＵに区分する場合、通常はこれらのＳＴＵのＤＣ値の間に相関があってもよい。しかし、符号化性能の向上のために、現在のＶＣＣドラフトではこれらの相関性は考慮されていない。また、現在のＶＶＣドラフトでは、ＴＵレベルでＭＴＳと変換スキップされたシグナリングを操作しているので、各ＳＴＵについて、大きなＣＵが依然として適用され、ＭＴＳと変換スキップをシグナリングで表すことができ、これは非効率的かもしれない。本開示では、サブ変換ユニットに適用されるＤＣ値を予測する方法を提供する。開示される方法では、変換類型および隣接するサブ変換ユニットの低周波数係数に基づいて、現在の変換ユニットの低周波数係数（またはＤＣ値）を特定することができ、これにより符号化効率を高めることができる。

図１４は、本開示の実施形態によるプロセス（１４００）の概要を示す流れ図である。処理（１４００）を使用して、再構築中のブロックについて予測ブロックを生成するためにイントラモードで符号化されたブロックを再構築することができる。様々な実施形態では、プロセス（１４００）は、以下のような処理回路システムによって実行する。例えば、端末機器（１１０）、（１２０）、（１３０）および（１４０）における処理回路システム、動画エンコーダ（２０３）の機能を実行する処理回路システム、動画デコーダ（２１０）の機能を実行する処理回路システム、動画デコーダ（３１０）の機能を実行する処理回路システム、動画エンコーダ（４０３）を実行する処理回路システムなどが挙げられる。一部の実施形態では、処理（１４００）はソフトウェア命令で実装されるので、処理回路システムがソフトウェア命令を実行すると、処理回路システムは処理（１４００）を実行する。処理は（Ｓ１４０１）で始まり、（Ｓ１４１０）に進む。

（Ｓ１４１０）では、変換ブロックシグナリング情報が符号化された動画ビットストリームから取得される。変換ブロックシグナリング情報は、変換類型が離散コサイン変換２（ＤＣＴ－２）であることを示している第１の高レベル構文要素であってもよいし、変換類型がＤＣＴ－２または変換スキップのいずれかであることを示している第２の高レベル構文要素であってもよいし、変換類型が離散コサイン変換８（ＤＣＴ－８）と離散サイン変換７（ＤＳＴ－７）に基づく多重変換選択（ＭＴＳ）であることを示している第３の高レベル構文要素であってもよい。

（Ｓ１４２０）において、変換ブロックシグナリング情報に基づいて変換類型を特定することができる。前述のように、変換ブロックシグナリング情報に基づいて、変換類型はＤＣＴ－２、変換スキップ、ＤＳＴ－７、ＤＣＴ－８とすることができる。

（Ｓ１４３０）では、複数のサブ変換ユニットのうちの１つの変換類型と隣接するサブ変換ユニットに基づいて、複数のサブ変換ユニットのうちの１つの低周波数係数を特定し、現在の符号化ブロックユニット（ＣＵ）から複数のサブ変換ユニットを区分する。

一部の実施形態では、複数のサブ変換ユニットのうちの１つの隣接するサブ変換ユニットの変換係数に基づいて、複数のサブ変換ユニットのうちの１つの低周波数係数の絶対値または符号付き値を特定してもよい。

（Ｓ１４４０）では、複数のサブ変換ユニットの低周波数係数に基づいて現在の符号化ブロックユニットを符号化する。

幾つかの実施形態では、複数の変換ユニットの低周波数係数は、複数の変換係数を得るために二次変換を実行する。複数のサブ変換ユニットの対応する低周波数係数に基づいて複数の変換係数のそれぞれを得る。現在の符号化ブロックユニットは、複数の変換係数に基づいて復号化ことができる。実施形態では、二次変換された変換係数をＳＴＵに対応するＬＦＣにフィードバックすることができる。別の実施形態では、二次変換された変換係数は係数ブロックとして個別に符号化され得る。

前記技術は、コンピュータ読み取り可能な命令によってコンピュータソフトウェアとして実装され、１つ又は複数のコンピュータ可読媒体に物理的に記憶される。例えば、図１５は、開示された主題のいくつかの実施形態を実装するのに適合したコンピュータシステム（１５００）を示す。

任意の適切なマシンコード又はコンピュータ言語を使用してコンピュータソフトウェアを符号化することができ、機械コード又はコンピュータ言語がアセンブル、コンパイル、リンクなどのメカニズムを介して命令を含むコードを作成することができ、当該命令は、１つ又は複数のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）などによって直接的に実行されるか、又は解釈、マイクロコード実行などによって実行されることができる

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機器、モノのインターネット機器などを含む様々なタイプのコンピュータまたはそのコンポーネント上で実行することができる。

図１５に示すコンピュータシステム（１５００）に関する構成要素は、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用範囲または機能に何ら限定することを意図していない。コンポーネントの構成は、コンピュータシステム（１５００）の例示的な実施形態に示されるコンポーネントのいずれか１つまたは組み合わせに関する依存性または要件を有するものと解釈されるべきではない。

コンピュータシステム（１５００）は、いくつかのヒューマンインタフェース入力デバイスを含んでもよい。このようなヒューマンインタフェース入力デバイスは、触覚入力（例えば、キーストローク、スライド、データグローブの移動）、音声入力（例えば、音声、拍打）、視覚入力（例えば、ジェスチャ）、嗅覚入力（図示せず）などの１人以上の人間のユーザに応答することができる。ヒューマンインタフェース入力デバイスは、オーディオ（例えば、音声、音楽、環境音）、ピクチャ（例えば、スキャンピクチャ、静止画撮像機器から得られた撮影ピクチャ）、動画（例えば、２次元動画、立体動画を含む３次元動画）など、ユーザによる意識的な入力と直接関係のない特定のメディアをキャプチャするためにも使用されうる。

ヒューマンインタフェース入力デバイスは、キーボード（１５０１）、マウス（１５０２）、タッチパッド（１５０３）、タッチスクリーン（１５１０）、データグローブ（図示せず）、ジョイスティック（１５０５）、マイク（１５０６）、スキャナ（５０１０）のうちの１つまたは複数を含んでもよい（それぞれ１つのみ図示）。

コンピュータシステム（１５００）は、一部のヒューマンインタフェース入力デバイスを含んでもよい。該ヒューマンインタフェース入力デバイスは、例える触覚出力、音、光、匂い／味によって、１人以上の人間のユーザの感覚を刺激することができる。該ヒューマンインタフェース入力デバイスは、触覚出力デバイス（例えば、タッチスクリーン（１５１０）の触覚フィードバック、データグローブ（図示せず）、またはジョイスティック（１５０５）を含んでもよいが、入力デバイスとして機能しない触覚フィードバックデバイス、音声出力デバイス（例えば、スピーカ（１５０９）、ヘッドフォン（図示せず））、視覚出力デバイス（例えば、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含み（各スクリーンはタッチスクリーンの入力機能がある場合とない場合があり、各スクリーンは触覚フィードバック機能がある場合とない場合があり、その中には、一部のスクリーンは立体ピクチャ出力などのデバイスを介して２次元視覚出力を出力したり、３次元以上の出力を出力したりできるスクリーン（１５０１）、バーチャルリアリティメガネ（図示せず）、ホログラフィックディスプレイと発煙器（図示せず））、プリンタ（図示せず）を含む。

コンピュータシステム（１５００）は、光学メディアなどの人間がアクセス可能なストレージデバイスと、関連メディアとを含んでもよく、ＣＤ／ＤＶＤなどのメディア（１５２１）を含むＣＤ／ＤＶＤＲＯＭＺＲＷ（１５２０）、サムドライブ（１５２２）、リムーバブルハードディスクまたはソリッドステートドライブ（１５２３）、磁気テープやフロッピー（図示せず）などの従来の磁気メディアを含んでもよく、セキュアなセキュリティドングル（図示せず）などの専用のＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスを含んでもよい。

当業者はまた、現在開示されている主題と関連して使用される用語「コンピュータ読み取り可能な媒体」は、送信媒体、搬送波、または他の瞬時信号をカバーしないことを理解するであろう。

計算機システム（１５００）は、１つまたは複数の通信ネットワークインターフェースを含んでもよい。ネットワークは、例えば無線、有線、光学であってもよい。ネットワークは、ローカルエリアネットワーク、ワイドエリアネットワーク、メトロポリタンネットワーク、車両工業ネットワーク、リアルタイムネットワーク、遅延許容ネットワークなどであってもよい。ネットワークの例としては、イーサネットなどのローカルエリアネットワーク、無線ＬＡＮ、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラネットワーク、ケーブルテレビ、衛星テレビ、地上放送テレビを含むテレビケーブルや無線広域デジタルネットワーク、ＣＡＮＢｕｓを含む車両産業テレビなどが挙げられる。一般に、一部のネットワークは、一部の汎用データポートまたは周辺バス（１５４９）（例えば、コンピュータシステム（１５００）のＵＳＢポート）の外部ネットワークインターフェースアダプタに取り付ける必要がありうる。他のネットワークは、通常、以下で説明されるように、システムバスに取り付けられることによってコンピュータシステム（１５００）のコアに統合される（例えば、イーサネットインターフェイスがＰＣコンピュータシステムに統合されているか、セルラネットワークインターフェイスがスマートフォンコンピュータシステムに統合されている）。これらのネットワークのいずれかを使用して、コンピューターシステム（１５００）は他のエンティティと通信することができる。このような通信は、一方向の受信のみ（例えば、放送テレビ）、一方向の送信のみ（例えば、あるＣＡＮｂｕｓデバイスへのＣＡＮｂｕｓ）、または双方向（例えば、ローカルエリアネットワークまたはワイドエリアネットワークを使用して他のコンピュータシステムに）であってもよい。前述のように、いくつかのプロトコルおよびプロトコルスタックは、それらのネットワークおよびネットワークインターフェースのそれぞれで使用され得る。

前記ヒューマンインタフェース入力デバイスがアクセスできる記憶機器、およびネットワークインターフェースはコンピュータシステム（１５００）のコア（１５４０）に取り付けることができる。

コア（１５４０）は、１つまたは複数の中央処理ユニット（ＣＰＵ）（１５４１）、グラフィック処理ユニット（ＧＰＵ）（１５４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）の形態特有のプログラマブル処理ユニット（１５４３）、特定のタスク用のハードウェアアクセラレータ（１５４４）などを含んでもよい。これらのデバイスは読み取り専用メモリ（ＲＯＭ）（１５４５）、ランダムアクセスメモリ（１５４６）、内部大容量記憶機器（例えば、内部非ユーザアクセス可能ハードディスクドライブ、ＳＳＤなど）と、システムバス（１５４８）を介して接続することができる。一部のコンピュータシステムでは、システムバス（１５４８）に１つまたは複数の物理プラグの形でアクセスして、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にすることができる。周辺機器はコアのシステムバス（１５４８）に直接取り付けられていてもよいし、周辺バス（１５４９）を介して取り付けられていてもよい。周辺バスのアーキテクチャには、ＰＣＩ、ＵＳＢなどがある。

ＣＰＵ（１５４１）、ＧＰＵ（１５４２）、ＦＰＧＡ（１５４３）、加速器（１５４４）は、いくつかの命令を実行することができ、これらの命令は組み合わせて前記のコンピュータコードを構成することができる。該コンピュータコードは、ＲＯＭ（１５４５）またはＲＡＭ（１５４６）に記憶することができる。遷移データはＲＡＭ（１５４６）に記憶もよく、永久データは例えば内部の大容量記憶機器（１５４７）に記憶もよい。任意のメモリデバイスの高速記憶と検索は、１つまたは複数のＣＰＵ（１５４１）、ＧＰＵ（１５４２）、大容量記憶機器（１５４７）、ＲＯＭ（１５４５）、ＲＡＭ（１５４６）などと密接に関連するキャッシュメモリを使用することによって実現する。

コンピュータ読み取り可能な媒体は、様々なコンピュータによって実装される動作を実行するためのコンピュータコードを有することができる。メディアおよびコンピュータコードは、本開示の目的で特別に設計および構築されたものであってもよいし、またはコンピュータソフトウェアの当業者に公知で利用可能な類型であってもよい。

限定ではなく一例として、アーキテクチャ（１５００）、特にコア（１５４０）をもつコンピュータシステムは、１つまたは複数の有形のコンピュータ読み取り可能な媒体に含まれるソフトウェアをプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータなどを含む）が実行することによって機能を提供することができる。このようなコンピュータ読み取り可能な媒体は、前記で説明したユーザがアクセスできる大容量記憶機器に関連する媒体であってもよいし、コア内部の大容量記憶機器（１５４７）やＲＯＭ（１５４５）のような非一時的なコア（１５４０）を有する何らかの記憶機器であってもよい。本開示の様々な実施形態を実施するソフトウェアは、このようなデバイスに記憶され、コア（１５４０）によって実行されてよい。特定のニーズに応じて、コンピュータ読み取り可能な媒体は１つまたは複数の記憶デバイスまたはチップを含んでもよい。該ソフトウェアは、コア（１５４０）、特にその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に、本明細書で説明する特定の処理または特定の処理の特定の部分を実行させることができ、ＲＡＭ（１５４６）に記憶されたデータ構造を限定し、ソフトウェアで限定された処理に従ってこのようなデータ構造を修正することを含む。付加的にまたは代替として、コンピュータシステムは、ソフトウェアの代わりに、またはソフトウェアと共に動作して本明細書に記載の特定の処理または特定の処理を実行することができる論理ハード接続のために、あるいは別の方法で回路（例えば、アクセラレータ（１５４４））に実装されて機能を提供することができる。必要に応じて、ソフトウェアへの参照には論理が含まれてもよいし、その逆もまた然りである。必要に応じて、コンピュータ読み取り可能な媒体への参照は、実行のためのソフトウェア回路（例えば、集積回路（ＩＣ））を記憶するか、実行のための論理回路を実装するか、またはその両方を含む。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを含む。

付録Ａ：頭文字の略語
ＪＥＭ：共同探査モデル
ＶＶＣ：多用途動画符号化
ＢＭＳ：ベンチマークセット
ＭＶ：動きベクトル
ＨＥＶＣ：高効率動画符号化
ＳＥＩ：補足拡張情報
ＶＵＩ：動画ユーザビリティ情報
ＧＯＰ：ピクチャグループ
ＴＵ：変換ユニット
ＰＵ：予測ユニット
ＣＴＵ：符号化ツリーユニット
ＣＴＢ：符号化ツリーブロック
ＰＢ：予測ブロック
ＨＲＤ：仮想参照デコーダ
ＳＮＲ：信号対雑音比
ＣＰＵ：中央処理ユニット
ＧＰＵ：グラフィック処理ユニット
ＣＲＴ：陰極線管
ＬＣＤ：液晶ディスプレイ
ＯＬＥＤ：有機発光ダイオード
ＣＤ：コンパクトディスク
ＤＶＤ：デジタル動画ディスク
ＲＯＭ：読み取り専用メモリ
ＲＡＭ：ランダムアクセスメモリ
ＡＳＩＣ：専用集積回路
ＰＬＤ：プログラマブルロジックデバイス
ＬＡＮ：ローカルエリアネットワーク
ＧＳＭ：グローバル移動体通信システム
ＬＴＥ：長期的な進化
ＣＡＮＢｕｓ：コントローラーエリアネットワークバス
ＵＳＢ：汎用シリアルバス
ＰＣＩ：周辺コンポーネント相互接続
ＦＰＧＡ：フィールドプログラマブルゲートエリア
ＳＳＤ：ソリッドステートドライブ
ＩＣ：集積回路
ＣＵ：符号化ユニット

本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲に該当する変更、置換および様々な代替的均等物が存在する。したがって、本明細書に明示的に示されていないかまたは記載されていないが、本開示の原理を具体化し、これによってその精神および範囲内にいくつかのシステムおよび方法を当業者は設計できることを理解されたい。

１００通信システム
１１０端末デバイス
１２０端末デバイス
１３０端末デバイス

Claims

デコーダに用いる動画復号化方法であって、
符号化された動画ビットストリームから変換ブロックシグナリング情報を取得するステップと、
前記変換ブロックシグナリング情報に基づいて変換類型を特定するステップと、
前記変換類型と、複数のサブ変換ユニットのうちの１つのサブ変換ユニットの隣接するサブ変換ユニットとに基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数を特定するステップであって、前記複数のサブ変換ユニットは、現在の符号化ブロックユニット（ＣＵ）から区分されてなるステップと、
複数のサブ変換ユニットの低周波数係数に基づいて、前記現在の符号化ブロックユニット（ＣＵ）を復号化するステップであって、前記低周波数係数は、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数を含むステップと、を含む
ことを特徴とするデコーダにおける動画復号化方法。
前記変換ブロックシグナリング情報は、
前記変換類型が離散コサイン変換２（ＤＣＴ－２）であることを示す第１の高レベル構文要素と、
前記変換類型がＤＣＴ－２または変換スキップであることを示す第２の高レベル構文要素と、
前記変換類型が離散コサイン変換８（ＤＣＴ－８）と離散サイン変換７（ＤＳＴ－７）に基づく多重変換選択（ＭＴＳ）であることを示す第３の高レベル構文要素と、
のうちの１つであることを特徴とする請求項１に記載の方法。
前記複数のサブ変換ユニットが、暗黙的変換分割によって前記現在の符号化ブロックユニット（ＣＵ）から区分されたことに応答して、前記変換ブロックシグナリング情報は、前記変換類型が離散コサイン変換２（ＤＣＴ－２）であることを示す
ことを特徴とする請求項１に記載の方法。
前記の低周波数係数を特定するステップは、
前記複数のサブ変換ユニットのうちの１つのサブ変換ユニットの隣接するサブ変換ユニットの変換係数に基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数の絶対値又は符号付き値を特定するステップを含む
ことを特徴とする請求項１に記載の方法。
前記複数のサブ変換ユニットのうちの１つのサブ変換ユニットの上側及び／又は左側の隣接するサブ変換ユニットの低周波数係数の絶対値の平均値に基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数の絶対値を特定するステップと、
前記複数のサブ変換ユニットのうちの１つのサブ変換ユニットの上側及び／又は左側の隣接するサブ変換ユニットの低周波数係数の符号付き値の平均値に基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数の絶対値を特定するステップと、をさらに含む
ことを特徴とする請求項４に記載の方法。
前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットと、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの隣接するサブ変換ユニットとを、異なる変換類型に基づいて変換することに応答して、前記隣接するサブ変換ユニットの低周波数係数の絶対値をスケーリングする
ことを特徴とする請求項４に記載の方法。
イントラサブ分割モード及び暗黙的変換分割の少なくとも１つに基づいて、前記現在の符号化ブロックユニットから前記複数のサブ変換ユニットを区分する
ことを特徴とする請求項４に記載の方法。
前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数を特定した後に、以下のステップ、即ち、
複数の変換係数を得るように前記複数のサブ変換ユニットの低周波数係数を二次変換するステップであって、前記複数の変換係数のそれぞれは、前記複数のサブ変換ユニットのそれぞれに対応する低周波数係数に基づいて得られたものであるステップをさらに含み、
前記の復号化するステップは、前記複数の変換係数に基づいて前記現在の符号化ブロックユニットを復号化するステップをさらに含む
ことを特徴とする請求項１に記載の方法。
前記二次変換は、非正方形アダマール変換、正方形アダマール変換、ＤＣＴ－２、ＤＳＴ－７、ＤＣＴ－８、Ｋａｒｈｕｎｅｎ－Ｌｏｅｖｅ変換（ＫＬＴ）及び分離不可能なＫＬＴのうちのいずれかである
ことを特徴とする請求項８に記載の方法。
前記現在の符号化ブロックユニット（ＣＵ）における前記複数のサブ変換ユニットが同じ変換類型を共有することに応答して、前記二次変換を実行する
ことを特徴とする請求項８に記載の方法。
動画復号化用装置であって、
符号化された動画ビットストリームから変換ブロックシグナリング情報を取得するステップと、
前記変換ブロックシグナリング情報に基づいて変換類型を特定するステップと、
前記変換類型と、複数のサブ変換ユニットのうちの１つのサブ変換ユニットの隣接するサブ変換ユニットとに基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数を特定するステップであって、前記複数のサブ変換ユニットは、現在の符号化ブロックユニット（ＣＵ）から区分されてなるステップと、
複数のサブ変換ユニットの低周波数係数に基づいて、前記現在の符号化ブロックユニットを復号化するステップであって、前記低周波数係数は、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数を含むステップと、実行するように構成される処理回路システムを含む
ことを特徴とする動画復号化用装置。
前記変換ブロックシグナリング情報は、
前記変換類型が離散コサイン変換２（ＤＣＴ－２）であることを示す第１の高レベル構文要素と、
前記変換類型がＤＣＴ－２または変換スキップであることを示す第２の高レベル構文要素と
前記変換類型が離散コサイン変換８（ＤＣＴ－８）と離散サイン変換７（ＤＳＴ－７）に基づく多重変換選択（ＭＴＳ）であることを示す第３の高レベル構文要素と
のうちの１つであることを特徴とする請求項１１に記載の装置。
前記複数のサブ変換ユニットが、暗黙的変換分割によって前記現在の符号化ブロックユニット（ＣＵ）から区分されたことに応答して、前記変換ブロックシグナリング情報は、前記変換類型が離散コサイン変換２（ＤＣＴ－２）であることを示す
ことを特徴とする請求項１１に記載の装置。
前記処理回路は、
前記複数のサブ変換ユニットのうちの１つのサブ変換ユニットの隣接するサブ変換ユニットの変換係数に基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数の絶対値又は符号付き値を特定するステップを実行するように構成される
ことを特徴とする請求項１１に記載の装置。
前記処理回路は、
前記複数のサブ変換ユニットのうちの１つのサブ変換ユニットの上側及び／又は左側の隣接するサブ変換ユニットの低周波数係数の絶対値の平均値に基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数の絶対値を特定するステップと、
前記複数のサブ変換ユニットのうちの１つのサブ変換ユニットの上側及び／又は左側の隣接するサブ変換ユニットの低周波数係数の符号付き値の平均値に基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数の絶対値を特定するステップと、
のうちの１つのステップを実行するように構成されている
ことを特徴とする請求項１４に記載の装置。
前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットと、前記隣接するサブ変換ユニットを、異なる変換類型に基づいて変換することに応答して、前記隣接するサブ変換ユニットの低周波数係数の絶対値をスケーリングする
ことを特徴とする請求項１４に記載の装置。
イントラサブ分割モード（ＩＳＰ）及び暗黙的変換分割の少なくとも１つに基づいて、前記現在の符号化ブロックユニットから前記複数のサブ変換ユニットを区分する
ことを特徴とする請求項１４に記載の装置。
前記処理回路は、
複数の変換係数を得るように前記複数のサブ変換ユニットの低周波数係数を二次変換するステップであって、前記複数の変換係数のそれぞれは、前記複数のサブ変換ユニットのそれぞれに対応する低周波数係数に基づいて得られたものであるステップと、
前記複数の変換係数に基づいて前記現在の符号化ブロックユニットを復号化するステップをさらに実行するように構成される
ことを特徴とする請求項１１に記載の装置。
前記二次変換は、非正方形アダマール変換、正方形アダマール変換、ＤＣＴ－２、ＤＳＴ－７、ＤＣＴ－８、Ｋａｒｈｕｎｅｎ－Ｌｏｅｖｅ変換（ＫＬＴ）及び分離不可能なＫＬＴのうちのいずれかである
ことを特徴とする請求項１８に記載の装置。
非一時的なコンピュータ読み取り可能な媒体であって、命令が記憶されており、
前記命令が動画復号化用のコンピュータによって実行されると、符号化された動画ビットストリームから変換ブロックシグナリング情報を取得するステップと、
前記変換ブロックシグナリング情報に基づいて変換類型を特定するステップと、
前記変換類型と、複数のサブ変換ユニットのうちの１つのサブ変換ユニットのＳＴＵとに基づいて、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数を特定するステップであって、前記複数のサブ変換ユニットは、現在の符号化ブロックユニット（ＣＵ）から区分されてなるステップと、
前記複数のサブ変換ユニットの低周波数係数に基づいて、前記現在の符号化ブロックユニットを復号化するステップであって、前記低周波数係数は、前記複数のサブ変換ユニットのうちの前記１つのサブ変換ユニットの低周波数係数を含むステップと、を実行させる
ことを特徴とする非一時的なコンピュータ読み取り可能な媒体。