JP7319468B2

JP7319468B2 - ビデオ復号化方法、電子装置、非一時的コンピュータ可読記憶媒体、及びプログラム

Info

Publication number: JP7319468B2
Application number: JP2022529703A
Authority: JP
Inventors: シウ、シアオユイ; マー、ツォン－チョアン; チェン、イー－ウェン; ワン、シアンリン; チュー、ホン－ジェン; ユイ、ピン
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-11-21
Filing date: 2020-11-23
Publication date: 2023-08-01
Anticipated expiration: 2040-11-23
Also published as: KR20240024337A; KR102638578B1; US12015798B2; US20240283977A1; MX2022006209A; CN116016915B; CN115004704A; JP2023139135A; EP4062645A4; KR20240024338A; US20220286708A1; EP4062645A1; CN118509590A; WO2021102424A1; CN116016915A; KR20220097913A; US20240292033A1; JP2022552580A; JP2023129533A

Description

本出願は、一般に、ビデオ符号化及び圧縮に関し、より具体的には、ＶＶＣ（ｖｅｒｓａｔｉｌｅｖｉｄｅｏｃｏｄｉｎｇ）規格における変換符号化方法及び係数符号化方法の既存の設計を改善し簡素化する方法及び装置に関する。

デジタルビデオは、デジタルテレビ、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、デジタルカメラ、デジタル記録装置、デジタルメディアプレーヤ、ビデオゲームコンソール、スマートフォン、ビデオテレビ会議装置、ビデオストリーミング装置等の様々な電子装置によってサポートされる。電子装置は、ＭＰＥＧ－４、ＩＴＵ－ＴＨ．２６３、ＩＴＵ－ＴＨ．２６４／ＭＰＥＧ－４、パート１０、ＡＶＣ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）、ＨＥＶＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）、およびＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）規格によって定義されるビデオ圧縮／解凍規格を実装することによって、デジタルビデオデータを送信、受信、符号化、復号化、および／または格納する。ビデオ圧縮は通常、ビデオデータに固有の冗長性を低減または除去するために、空間（イントラフレーム）予測および／または時間（インターフレーム）予測を実行することを含む。ブロックベースのビデオ符号化の場合、ビデオフレームは１以上のスライスに分割され、各スライスは符号化ツリーユニット（ＣＴＵ）とも呼ばれ得る複数のビデオブロックを有する。各ＣＴＵは、１つの符号化ユニット（ＣＵ）を含むか、または、所定の最小ＣＵサイズに達するまで、より小さなＣＵに再帰的に分割することができる。各ＣＵ（リーフＣＵとも呼ばれる）は１以上の変換ユニット（ＴＵ）を含み、各ＣＵは、１以上の予測ユニット（ＰＵ）も含む。各ＣＵは、イントラモード、インターモード、またはＩＢＣモードのいずれかで符号化することができる。ビデオフレームのイントラ符号化（Ｉ）スライス内のビデオブロックは、同じビデオフレーム内の隣接ブロック内の参照サンプルに関する空間予測を使用して符号化される。ビデオフレームのインター符号化（ＰまたはＢ）スライス内のビデオブロックは、同じビデオフレーム内の隣接ブロック内の参照サンプルに関する空間予測、または他の以前および／または将来の参照ビデオフレーム内の参照サンプルに関する時間予測を使用することができる。

以前に符号化された参照ブロック、例えば、隣接ブロックに基づく空間的または時間的予測は、符号化されるべき現在のビデオブロックのための予測ブロックをもたらす。参照ブロックを見つけるプロセスは、ブロックマッチングアルゴリズムによって達成することができる。符号化される現在のブロックと予測ブロックとの間の画素差を表す残差データは、残差ブロックまたは予測誤差と呼ばれる。インター符号化されたブロックは、予測ブロックを形成する参照フレーム内の参照ブロック、および残差ブロックを指し示す動きベクトルに従って符号化される。動きベクトルを決定するプロセスは、典型的には動き推定と呼ばれる。イントラ符号化ブロックは、イントラ予測モード及び残差ブロックに従って符号化される。さらなる圧縮のために、残差ブロックは、画素領域から変換領域、例えば周波数領域に変換され、結果として残差変換係数が得られ、次いで、量子化され得る。量子化された変換係数は、まず、２次元アレイに配置され、変換係数の１次元ベクトルを生成するために走査され、次いで、ビデオビットストリームにエントロピー符号化されて、さらに多くの圧縮を達成することができる。

次いで、符号化されたビデオビットストリームはデジタルビデオ機能を有する別の電子装置によってアクセスされるか、もしくは、有線または無線で電子装置に直接送信されるように、コンピュータ可読記憶媒体（例えば、フラッシュメモリ）に保存される。次いで、電子装置はビットストリームから構文要素を得るために符号化ビデオビットストリームを構文解析し、ビットストリームから得られた構文要素に少なくとも部分的に基づいて符号化ビデオビットストリームから元のフォーマットにデジタルビデオデータを再構成することによって、ビデオ解凍（上述のビデオ圧縮とは反対の処理である）を実行し、再構成されたデジタルビデオデータを電子装置のディスプレイ上にレンダリングする。

高精細度から４Ｋ×２Ｋまたは８Ｋ×４Ｋに至るデジタルビデオ品質では、符号化／復号化されるビデオデータの量は指数関数的に増大する。これは、復号化されたビデオデータの画質を維持しつつ、ビデオデータをより効率的に符号化／復号化する方法が課題となっている。

本出願はビデオデータの符号化および復号化に関連する実装を説明し、より具体的には、変換および係数符号化方法の既存の設計を改善し、単純化する方法および装置を説明する。

本出願の第１態様によれば、ビデオデータ復号化方法は、変換ブロックを符号化するビットストリームを受信し、前記変換ブロックは、非ゼロ領域とゼロアウト領域とを含み、前記ゼロアウト領域内に非ゼロ係数があるかどうかチェックし、前記変換ブロックの前記ゼロアウト領域に非ゼロ係数がないという決定に従って、走査方向に沿った前記変換ブロックの最後の非ゼロ係数の走査順序インデックスを決定し、前記最後の非ゼロ係数の前記走査順序インデックスが所定のしきい値よりも大きいという決定に従って、前記ビットストリームから、多重変換選択（ＭＴＳ）インデックスの値を受信し、前記多重変換選択（ＭＴＳ）インデックスの値に基づいて、前記変換ブロックの係数を変換するために、水平方向および垂直方向の両方で各々の変換を適用する。

本出願の第２態様によれば、電子装置は、１以上の処理ユニットと、メモリと、メモリに格納された複数のプログラムとを含む。プログラムは１以上の処理ユニットによって実行されると、電子装置に、上述したようなビデオデータ復号化方法を実行させる。

本出願の第３の態様によれば、非一時的コンピュータ可読記憶媒体は、１以上の処理ユニットを有する電子装置によって実行される複数のプログラムを記憶する。プログラムは１以上の処理ユニットによって実行されると、電子装置に、上述したようなビデオデータ復号化方法を実行させる。

本開示のいくつかの実装による例示的なビデオ符号化および復号化システムを示すブロック図である。本開示のいくつかの実装による例示的なビデオエンコーダを示すブロック図である。本開示のいくつかの実装による例示的なビデオデコーダを示すブロック図である。本開示のいくつかの実装による、フレームが異なるサイズおよび形状の複数のビデオブロックに再帰的にどのように分割されるかを示すブロック図である。本開示のいくつかの実装による、フレームが異なるサイズおよび形状の複数のビデオブロックに再帰的にどのように分割されるかを示すブロック図である。本開示のいくつかの実装による、フレームが異なるサイズおよび形状の複数のビデオブロックに再帰的にどのように分割されるかを示すブロック図である。本開示のいくつかの実装による、フレームが異なるサイズおよび形状の複数のビデオブロックに再帰的にどのように分割されるかを示すブロック図である。本開示のいくつかの実装による、フレームが異なるサイズおよび形状の複数のビデオブロックに再帰的にどのように分割されるかを示すブロック図である。本開示のいくつかの実装による、インター符号化ブロックおよびイントラ符号化ブロックの残差を変換するための例示的な多重変換選択（ＭＴＳ）スキームを示す表である。本開示のいくつかの実装による、非ゼロ変換係数を有する例示的な変換ブロックを示すブロック図である。ビデオコーダが本開示のいくつかの実装による、多重変換選択（ＭＴＳ）スキームを使用してブロック残差を符号化する技法を実装する例示的なプロセスを示すフローチャートである。本開示のいくつかの実装による、例示的なコンテキスト適応バイナリ算術符号化（ＣＡＢＡＣ）エンジンを示すブロック図である。

添付の図面は実施形態のさらなる理解を提供するために含まれ、本明細書に組み込まれ、本明細書の一部を構成し、説明された実施形態を示し、説明とともに、基礎となる原理を説明するのに役立つ。同様の参照番号は、対応する部分を指す。

ここで、特定の実施例を詳細に参照し、その例を添付の図面に示す。以下の詳細な説明では、本明細書で提示される主題の理解を助けるために、多数の非限定的な特定の詳細が記載される。しかし、当業者には特許請求の範囲から逸脱することなく、様々な代替形態を使用することができ、主題はこれらの特定の詳細なしに実施することができることが明らかであろう。例えば、本明細書で提示される主題はデジタルビデオ機能を有する多くのタイプの電子装置上で実施され得ることが、当業者には明らかであろう。

図１は、本開示のいくつかの実装による、ビデオブロックを並列に符号化および復号化するための例示的なシステム１０を示すブロック図である。図１に示すように、システム１０はソース装置１２を含み、ソース装置１２はデスティネーション装置１４によって後で復号化されるビデオデータを生成し、符号化する。ソース装置１２およびデスティネーション装置１４は、デスクトップまたはラップトップコンピュータ、タブレットコンピュータ、スマートフォン、セットトップボックス、デジタルテレビ、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイスなどを含む、多種多様な電子装置のいずれかを備えることができる。一部の実装では、ソース装置１２及びデスティネーション装置１４は無線通信機能を備える。

ある実装では、デスティネーション装置１４がリンク１６を介して復号化されるべき符号化ビデオデータを受信することができる。リンク１６は、符号化されたビデオデータをソース装置１２からデスティネーション装置１４に移動させることができる任意のタイプの通信媒体または装置を含むことができる。一例では、リンク１６が、ソース装置１２が符号化されたビデオデータをデスティネーション装置１４に直接リアルタイムで送信できるようにするための通信媒体を備えてもよい。符号化されたビデオデータは、無線通信プロトコルなどの通信規格に従って変調され、デスティネーション装置１４に送信されてもよい。通信媒体は、無線周波数（ＲＦ）スペクトルもしくは１以上の物理的伝送線など、任意の無線または有線通信媒体を備えることができる。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークのようなパケットベースのネットワークの一部を形成することができる。通信媒体は、ルータ、スイッチ、基地局、またはソース装置１２からデスティネーション装置１４への通信を容易にするために有用であり得る任意の他の機器を含み得る。

他のいくつかの実装では、符号化されたビデオデータが出力インターフェイス２２から記憶装置３２に送信されてもよい。続いて、記憶装置３２内の符号化されたビデオデータは、入力インターフェイス２８を介してデスティネーション装置１４によってアクセスされることができる。記憶装置３２は、ハードドライブ、ブルレイディスク、ＤＶＤ、ＣＤ－ＲＯＭ、フラッシュメモリ、揮発性または不揮発性メモリ、または符号化されたビデオデータを記憶する他の任意の適切なデジタル記憶媒体などの、様々な分散またはローカルにアクセスされるデータ記憶媒体のいずれかを含むことができる。さらなる例では、記憶装置３２がソース装置１２によって生成された符号化ビデオデータを保持することができるファイルサーバまたは別の中間記憶装置に対応することができる。デスティネーション装置１４は、ストリーミングまたはダウンロードを介して記憶装置３２から、記憶されたビデオデータにアクセスすることができる。ファイルサーバは符号化されたビデオデータを記憶し、符号化されたビデオデータをデスティネーション装置１４に送信することができる任意のタイプのコンピュータであってもよい。例示的なファイルサーバは、ウェブサーバ、ＦＴＰサーバ、ネットワークアタッチドストレージ装置、またはローカルディスクドライブを含む。デスティネーション装置１４は無線チャネル（例えば、Ｗｉ－Ｆｉ接続）、有線接続（例えば、ＤＳＬ、ケーブルモデム等）、またはファイルサーバに記憶された符号化ビデオデータにアクセスするのに適した両方の組み合わせを含む、任意の標準データ接続を介して符号化ビデオデータにアクセスすることができる。記憶装置３２からの符号化されたビデオデータの伝送は、ストリーミング伝送、ダウンロード伝送、またはその両方の組み合わせであってもよい。

図１に示すように、ソース装置１２は、ビデオソース１８と、ビデオエンコーダ２０と、出力インターフェイス２２とを含む。ビデオソース１８はビデオキャプチャ装置、例えば、ビデオカメラ、以前にキャプチャされたビデオを含むビデオアーカイブ、ビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェイス、および／またはソースビデオとしてコンピュータグラフィックスデータを生成するためのコンピュータグラフィックスシステム、あるいはそのようなソースの組み合わせなどのソースを含むことができる。一例として、ビデオソース１８がセキュリティ監視システムのビデオカメラである場合、ソース装置１２およびデスティネーション装置１４は、カメラ付き電話またはビデオ電話を形成することができる。しかしながら、本願に記載されている実装は一般にビデオ符号化に適用可能であり、無線および／または有線アプリケーションに適用可能である。

キャプチャされた、事前キャプチャされた、またはコンピュータ生成されたビデオは、ビデオエンコーダ２０によって符号化され得る。符号化されたビデオデータは、ソース装置１２の出力インターフェイス２２を介してデスティネーション装置１４に直接送信されてもよい。符号化されたビデオデータは復号化および／または再生のために、デスティネーション装置１４または他の装置による以後のアクセスのために記憶装置３２に記憶することもできる。出力インターフェイス２２は、モデムおよび／または送信機をさらに含むことができる。

デスティネーション装置１４は、入力インターフェイス２８と、ビデオデコーダ３０と、表示装置３４とを含む。入力インターフェイス２８は受信機および／またはモデムを含み、リンク１６を介して符号化ビデオデータを受信することができる。リンク１６を介して通信されるか、または記憶装置３２上に提供される符号化されたビデオデータは、ビデオデータを復号化する際にビデオデコーダ３０によって使用するためにビデオエンコーダ２０によって生成される様々な構文要素を含むことができる。このような構文要素は、通信媒体上で送信されてもよいし、記憶媒体上に記憶されてもよいし、またはファイルサーバに記憶されてもよいし、符号化されたビデオデータ内に含まれてもよい。

一部の実装では、デスティネーション装置１４は、統合表示装置であり得る表示装置３４と、デスティネーション装置１４と通信するように構成された外部表示装置とを含むことができる。表示装置３４は復号化されたビデオデータをユーザに表示し、液晶ディスプレイ（ＬＥＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）、または別のタイプの表示装置のような様々な表示装置のいずれかを備えることができる。

ビデオエンコーダ２０およびビデオデコーダ３０は、ＶＶＣ、ＨＥＶＣ、ＭＰＥＧ－４、Ｐａｒｔ１０、ＡＶＣ（ＡｄｖａｎｃｅｄｖｉｄｅｏＣｏｄｉｎｇ）、またはそのような規格の拡張など、独自仕様または業界規格に従って動作することができる。本出願は、特定のビデオ符号化／復号化規格に限定されず、他のビデオ符号化／復号化規格に適用可能であることを理解されたい。一般に、ソース装置１２のビデオエンコーダ２０は、これらの現在または将来の規格のいずれかに従ってビデオデータを符号化するように構成され得ることが企図される。同様に、一般に、デスティネーション装置１４のビデオデコーダ３０は、これらの現在または将来の規格のいずれかに従ってビデオデータを復号化するように構成され得ることも企図される。

ビデオエンコーダ２０およびビデオデコーダ３０はそれぞれ、１以上のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリートロジック、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組合せなど、様々な適切なエンコーダ回路のいずれかとして実装することができる。部分的にソフトウェアで実装される場合、電子装置は適切な非一時的コンピュータ可読媒体にソフトウェアの命令を格納し、本開示で開示されるビデオ符号化／復号化動作を実行するために１以上のプロセッサを使用してハードウェアで命令を実行することができる。ビデオエンコーダ２０およびビデオデコーダ３０のそれぞれは、１以上のエンコーダまたはデコーダに含まれてもよく、そのいずれも、それぞれの装置内の複合エンコーダ／デコーダ（ＣＯＤＥＣ）の一部として統合されてもよい。

図２は、本出願で説明されるいくつかの実装形態による例示的なビデオエンコーダ２０を示すブロック図である。ビデオエンコーダ２０は、ビデオフレーム内のビデオブロックのイントラ予測符号化およびインター予測符号化を実行し得る。イントラ予測符号化は所与のビデオフレームまたはピクチャ内のビデオデータにおける空間冗長性を低減または除去するために、空間予測に依存する。インター予測符号化はビデオシーケンスの隣接するビデオフレームまたはピクチャ内のビデオデータにおける時間的冗長性を低減または除去するために、時間的予測に依存する。

図２に示すように、ビデオエンコーダ２０は、ビデオデータメモリ４０と、予測処理ユニット４１と、復号ピクチャバッファ（ＤＰＢ）６４と、加算器５０と、変換処理ユニット５２と、量子化ユニット５４と、エントロピー符号化ユニット５６とを含む。予測処理ユニット４１はさらに、動き推定ユニット４２、動き補償ユニット４４、分割ユニット４５、イントラ予測処理ユニット４６、イントラブロックコピー（ＢＣ）ユニット４８を有する。いくつかの実装では、ビデオエンコーダ２０はまた、逆量子化ユニット５８、逆変換処理ユニット６０、及びビデオブロック再構成のための加算器６２を含む。デブロッキングフィルタ（図示せず）を加算器６２とＤＰＢ６４との間に配置して、ブロック境界をフィルタリングして、再構成されたビデオからブロックノイズアーチファクトを除去することができる。インループフィルタ（図示せず）は、デブロッキングフィルタに加えて、加算器６２の出力をフィルタリングするために使用されてもよい。ビデオエンコーダ２０は固定またはプログラマブルハードウェアユニットの形態をとることができ、または図示された固定またはプログラマブルハードウェアユニットのうちの１以上の間で分割することができる。

ビデオデータメモリ４０は、ビデオエンコーダ２０の構成要素によって符号化されるべきビデオデータを記憶することができる。ビデオデータメモリ４０内のビデオデータは例えば、ビデオソース１８から取得することができる。ＤＰＢ６４はビデオエンコーダ２０によるビデオデータの符号化に（例えば、イントラ予測符号化モードまたはインター予測符号化モードで）使用するための参照ビデオデータを格納するバッファである。ビデオデータメモリ４０およびＤＰＢ６４は、様々なメモリ装置のいずれかによって形成することができる。様々な例では、ビデオデータメモリ４０がビデオエンコーダ２０の他の構成要素とオンチップであってもよく、または、これらの構成要素とオフチップであってもよい。

図２に示すように、ビデオデータを受信した後、予測処理ユニット４１内の分割ユニット４５は、ビデオデータをビデオブロックに分割する。この分割はまた、ビデオフレームを、ビデオデータに関連付けられた４分木構造などの事前定義された分割構造に従って、スライス、タイル、または他のより大きな符号化ユニット（ＣＵ）に分割することを含むことができる。ビデオフレームは、複数のビデオブロック（またはタイルと呼ばれるビデオブロックのセット）に分割することができる。予測処理ユニット４１は誤差結果（例えば、符号化率及び歪みのレベル）に基づいて、現在のビデオブロックに対して、複数のイントラ予測符号化モードの１以上のインター予測符号化モードの１つなどの、複数の可能な予測符号化モードの１つを選択することができる。予測処理ユニット４１は結果として生じるイントラまたはインター予測符号化ブロックを加算器５０に提供して、残差ブロックを生成し、続いて参照フレームの一部として使用するために符号化ブロックを再構成する加算器６２に提供することができる。予測処理ユニット４１はまた、動きベクトル、イントラモード指標、分割情報、および他のそのような構文情報などの構文要素をエントロピー符号化ユニット５６に提供する。

現在のビデオブロックのための適切なイントラ予測符号化モードを選択するために、予測処理ユニット４１内のイントラ予測処理ユニット４６は空間予測を提供するために、符号化されるべき現在のブロックと同じフレーム内の１以上の隣接ブロックに対して、現在のビデオブロックのイントラ予測符号化を実行し得る。予測処理ユニット４１内の動き推定ユニット４２および動き補償ユニット４４は時間予測を提供するために、１以上の参照フレーム内の１以上の予測ブロックに対する現在のビデオブロックのインター予測符号化を実行する。ビデオエンコーダ２０は、例えば、ビデオデータの各ブロックについて適切な符号化モードを選択するために、複数の符号化パスを実行することができる。

いくつかの実装形態では、動き推定ユニット４２がビデオフレームのシーケンス内の所定のパターンに従って、参照ビデオフレーム内の予測ブロックに対する現在のビデオフレーム内のビデオブロックの予測ユニット（ＰＵ）の変位を示す動きベクトルを生成することによって、現在のビデオフレームのインター予測モードを決定する。動き推定ユニット４２によって実行される動き推定は動きベクトルを生成するプロセスであり、動きベクトルは、ビデオブロックの動きを推定する。動きベクトルは例えば、現在のフレーム（または他の符号化ユニット）内で符号化されている現在のブロックに対する、参照フレーム（または他の符号化ユニット）内の予測ブロックに対する、現在のビデオフレームまたはピクチャ内のビデオブロックのＰＵの変位を示し得る。所定のパターンは、シーケンス内のビデオフレームをＰフレームまたはＢフレームとして指定することができる。イントラＢＣユニット４８は相互予測のための動き推定ユニット４２による動きベクトルの決定に類似した方法で、イントラＢＣ符号化のためのベクトル、例えばブロックベクトルを決定することができ、または、ブロックベクトルを決定するために動き推定ユニット４２を利用することができる。

予測ブロックは、絶対差分和（ＳＡＤ）、二乗差分和（ＳＳＤ）、または他の差分メトリックによって決定され得る、画素差分に関して符号化されるべきビデオブロックのＰＵに近く一致すると見なされる参照フレームのブロックである。いくつかの実装では、ビデオエンコーダ２０がＤＰＢ６４に格納された参照フレームのサブ整数画素位置の値を計算することができる。例えば、ビデオエンコーダ２０は、参照フレームの１／４画素位置、１／８画素位置、または他の分数画素位置の値を補間することができる。従って、動き推定部４２は全画素位置及び分数画素位置に対して動き探索を行い、分数画素精度で動きベクトルを出力することができる。

動き推定ユニット４２は、ＰＵの位置を、それぞれがＤＰＢ６４に格納された１以上の参照フレームを識別する第１参照フレームリスト（Ｌｉｓｔ０）または第２参照フレームリスト（Ｌｉｓｔ１）から選択された参照フレームの予測ブロックの位置と比較することによって、インター予測符号化フレーム内のビデオブロックのＰＵの動きベクトルを計算する。動き推定ユニット４２は計算された動きベクトルを動き補償ユニット４４に送り、次いでエントロピー符号化ユニット５６に送る。

動き補償ユニット４４によって実行される動き補償は、動き推定ユニット４２によって決定された動きベクトルに基づいて予測ブロックをフェッチまたは生成することを含むことができる。現在のビデオブロックのＰＵのための動きベクトルを受信すると、動き補償ユニット４４は、動きベクトルが参照フレームリストのうちの１つを示す、予測ブロックを探し出し、ＤＰＢ６４から予測ブロックを取り出し、予測ブロックを加算器５０に転送することができる。次いで、加算器５０は、動き補償ユニット４４によって提供される予測ブロックの画素値を、符号化されている現在のビデオブロックの画素値から差し引くことによって、画素差分値の残差ビデオブロックを形成する。残差ビデオブロックを形成する画素差分値は、輝度または彩度成分の差分またはその両方を含むことができる。動き補償ユニット４４はまた、ビデオフレームのビデオブロックを復号化する際にビデオデコーダ３０によって使用されるために、ビデオフレームのビデオブロックに関連する構文要素を生成し得る。構文要素は例えば、予測ブロックを識別するために使用される動きベクトルを定義する構文要素、予測モードを示す任意のフラグ、または本明細書に記載する他の任意の構文情報を含むことができる。動き推定ユニット４２および動き補償ユニット４４は高度に統合されてもよいが、概念的な目的のために別々に図示されていることに留意されたい。

いくつかの実装ではイントラＢＣユニット４８が動き推定ユニット４２および動き補償ユニット４４に関連して上述したのと同様の方法でベクトルを生成し、予測ブロックをフェッチすることができるが、予測ブロックは符号化されている現在のブロックと同じフレーム内にあり、ベクトルは動きベクトルとは対照的にブロックベクトルと呼ばれる。特に、イントラＢＣユニット４８は、現在のブロックを符号化するために使用するイントラ予測モードを決定することができる。いくつかの例では、イントラＢＣユニット４８が例えば別個の符号化パスの間に、様々なイントラ予測モードを用いて現在のブロックを符号化し、レート歪解析を通してそれらの性能をテストすることができる。次に、イントラＢＣユニット４８は種々の試されたイントラ予測モードの中で、適切なイントラ予測モードを使用し、それに応じてイントラモード指標を生成することができる。例えば、イントラＢＣユニット４８は種々の試されたイントラ予測モードに対してレート歪み解析を用いてレート歪み値を計算し、使用する適切なイントラ予測モードとして、試されたモードの中で最良のレート歪み特性を有するイントラ予測モードを選択することができる。レート歪み分析は一般に、符号化されたブロックと、符号化されたブロックを生成するために符号化された元の符号化されていないブロックとの間の歪み（または誤差）の量、ならびに符号化されたブロックを生成するために使用されるビットレート（すなわち、ビット数）を決定する。イントラＢＣユニット４８はどのイントラ予測モードがブロックのための最良のレート歪み値を示すかを決定するために、様々な符号化されたブロックのための歪みおよびレートから比率を計算することができる。

他の例では、イントラＢＣユニット４８が本明細書で説明される実装によるイントラＢＣ予測のためのそのような機能を実行するために、全体的にまたは部分的に、動き推定ユニット４２および動き補償ユニット４４を使用することができる。いずれの場合も、イントラブロックコピーの場合、予測ブロックは絶対差分和（ＳＡＤ）、二乗差分和（ＳＳＤ）、または他の差分メトリックによって決定され得る、画素差に関して、符号化されるブロックに近く一致すると見なされるブロックであり得、予測ブロックの識別はサブ整数画素位置の値の計算を含み得る。

予測ブロックがイントラ予測による同じフレームからであるか、あるいはインター予測による異なるフレームからであるかにかかわらず、ビデオエンコーダ２０は、予測ブロックの画素値を、符号化されている現在のビデオブロックの画素値から差し引いて、画素差分値を形成することによって、残差ビデオブロックを形成することができる。残差ビデオブロックを形成する画素差分値は、輝度成分差分及び彩度成分差分の両方を含むことができる。

イントラ予測処理ユニット４６は上述したように、動き推定ユニット４２及び動き補償ユニット４４によって実行されるインター予測、またはイントラＢＣユニット４８によって実行されるイントラブロックコピー予測に代わるものとして、現在のビデオブロックをイントラ予測することができる。特に、イントラ予測処理ユニット４６は、現在のブロックを符号化するために使用するイントラ予測モードを決定することができる。そうするために、イントラ予測処理ユニット４６は例えば、別々の符号化パスに、様々なイントラ予測モードを使用して現在のブロックを符号化することができ、イントラ予測処理ユニット４６（または、いくつかの例ではモード選択ユニット）がテストされたイントラ予測モードから使用するための適切なイントラ予測モードを選択することができる。イントラ予測処理ユニット４６は、ブロックのための選択されたイントラ予測モードを示す情報をエントロピー符号化ユニット５６に提供することができる。エントロピー符号化ユニット５６は、選択されたイントラ予測モードを示す情報をビットストリームに符号化することができる。

予測処理ユニット４１がインター予測またはイントラ予測のいずれかを介して現在のビデオブロックの予測ブロックを決定した後、加算器５０は、現在のビデオブロックから予測ブロックを減算することによって残差ビデオブロックを形成する。残差ブロック内の残差ビデオデータは１以上の変換ユニット（ＴＵ）に含めることができ、変換処理ユニット５２に供給される。変換処理ユニット５２は、離散コサイン変換（ＤＣＴ）または概念的に同様の変換などの変換を使用して、残差ビデオデータを残差変換係数に変換する。

変換処理ユニット５２は、得られた変換係数を量子化ユニット５４に送ることができる。量子化ユニット５４は、変換係数を量子化してビットレートをさらに低減する。また、量子化プロセスは、係数の一部または全てに関連するビット深度を低減することができる。量子化の度合いは、量子化パラメータを調整することによって修正されてもよい。いくつかの例では、量子化ユニット５４が次に、量子化変換係数を含む行列の走査を実行することができる。あるいは、エントロピー符号化ユニット５６が走査を実行してもよい。

量子化に続いて、エントロピー符号化ユニット５６は例えば、コンテキスト適応可変長符号化（ＣＡＶＬＣ）、コンテキスト適応バイナリ算術符号化（ＣＡＢＡＣ）、構文ベースのコンテキスト適応バイナリ算術符号化（ＳＢＡＣ）、確率間隔分割エントロピー（ＰＩＰＥ）符号化、または別のエントロピー符号化方法または技法を使用して、量子化された変換係数をビデオビットストリームにエントロピー符号化する。符号化されたビットストリームは次に、ビデオデコーダ３０に送信されるかもしれないし、または、以降のビデオデコーダ３０への送信または検索のために記憶装置３２にアーカイブされるかもしれない。エントロピー符号化ユニット５６はまた、符号化されている現在のビデオフレームのための動きベクトルおよび他の構文要素をエントロピー符号化することができる。

逆量子化ユニット５８および逆変換処理ユニット６０は、それぞれ逆量子化および逆変換を適用して、他のビデオブロックの予測のための参照ブロックを生成するための画素ドメイン内の残差ビデオブロックを再構成する。上述のように、動き補償ユニット４４は、ＤＰＢ６４に記憶されたフレームの１以上の参照ブロックから動き補償予測ブロックを生成することができる。動き補償ユニット４４はまた、動き推定で使用するためのサブ整数画素値を計算するために、予測ブロックに１以上の補間フィルタを適用することができる。

加算器６２は、動き補償ユニット４４によって生成された動き補償予測ブロックに再構成された残差ブロックを追加して、ＤＰＢ６４に記憶するための参照ブロックを生成する。次いで、参照ブロックは、後続のビデオフレーム内の別のビデオブロックを予測するための予測ブロックとして、イントラＢＣユニット４８、動き推定ユニット４２および動き補償ユニット４４によって使用され得る。

図３は、本出願のいくつかの実装による例示的なビデオデコーダ３０を示すブロック図である。ビデオデコーダ３０は、ビデオデータメモリ７９、エントロピー復号化ユニット８０、予測処理ユニット８１、逆量子化ユニット８６、逆変換処理ユニット８８、加算器９０、およびＤＰＢ９２を含む。予測処理ユニット８１はさらに、動き補償ユニット８２、イントラ予測処理ユニット８４、イントラＢＣユニット８５を有している。ビデオデコーダ３０は、図２に関連してビデオエンコーダ２０に関して上述した符号化プロセスとほぼ逆の復号化プロセスを実行することができる。例えば、動き補償ユニット８２はエントロピー復号化ユニット８０から受け取った動きベクトルに基づいて予測データを生成することができ、一方、イントラ予測ユニット８４は、エントロピー復号化ユニット８０から受け取ったイントラ予測モード指標に基づいて予測データを生成することができる。

いくつかの例では、ビデオデコーダ３０のユニットが本願の実装を実行するようにタスクされてもよい。また、いくつかの例では、本開示の実装がビデオデコーダ３０のユニットのうちの１以上の間で分割され得る。例えば、イントラＢＣユニット８５は、単独で、または動き補償ユニット８２、イントラ予測処理ユニット８４、およびエントロピー復号化ユニット８０などのビデオデコーダ３０の他のユニットと組み合わせて、本願の実装を実行することができる。いくつかの例ではビデオデコーダ３０がイントラＢＣユニット８５を含んでいなくてもよく、イントラＢＣユニット８５の機能は動き補償ユニット８２のような予測処理ユニット８１の他の構成要素によって実行されてもよい。

ビデオデータメモリ７９はビデオデコーダ３０の他の構成要素によって復号化されるために、符号化されたビデオビットストリームなどのビデオデータを記憶することができる。ビデオデータメモリ７９に記憶されたビデオデータは例えば、記憶装置３２から、カメラなどのローカルビデオソースから、ビデオデータの有線または無線ネットワーク通信を介して、または物理データ記憶媒体（例えば、フラッシュドライブまたはハードディスク）にアクセスすることによって、取得することができる。ビデオデータメモリ７９は、符号化ビデオビットストリームからの符号化ビデオデータを記憶する符号化ピクチャバッファ（ＣＰＢ）を含むことができる。ビデオデコーダ３０の復号化されたピクチャバッファ（ＤＰＢ）９２はビデオデコーダ３０によってビデオデータを復号化する際に使用するための参照ビデオデータを記憶する（例えば、イントラまたはインター予測符号化モードで）ビデオデータメモリ７９およびＤＰＢ９２は、ＳＤＲＡＭ（ｓｙｎｃｈｒｏｎｏｕｓＤＲＡＭ）、ＭＲＡＭ（ｍａｇｎｅｔｏ－ｒｅｓｉｓｔｉｖｅＲＡＭ）、ＲＲＡＭ（登録商標）（ｒｅｓｉｓｔｉｖｅＲＡＭ）、または他のタイプのメモリデバイスを含む、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）などの様々なメモリデバイスのいずれかによって形成され得る。説明のために、ビデオデータメモリ７９およびＤＰＢ９２は、図３のビデオデコーダ３０の２つの別個の構成要素として示されている。しかしながら、当業者には、ビデオデータメモリ７９およびＤＰＢ９２が同じメモリ装置または別個のメモリ装置によって提供されてもよいことは明らかであろう。いくつかの例では、ビデオデータメモリ７９がビデオデコーダ３０の他の構成要素とオンチップであってもよく、またはそれらの構成要素に対してオフチップであってもよい。

復号化プロセスの間に、ビデオデコーダ３０は、符号化されたビデオフレームのビデオブロックおよび関連する構文要素を表す符号化されたビデオビットストリームを受信する。ビデオデコーダ３０は、ビデオフレームレベルおよび／またはビデオブロックレベルで構文要素を受信することができる。ビデオデコーダ３０のエントロピー復号化ユニット８０は、ビットストリームをエントロピー復号化して、量子化された係数、動きベクトルまたはイントラ予測モード指標、および他の構文要素を生成する。次に、エントロピー復号化ユニット８０は、動きベクトルおよび他の構文要素を予測処理ユニット８１に転送する。

ビデオフレームがイントラ予測符号化（Ｉ）フレームとして、または他のタイプのフレームのイントラ符号化予測ブロックのために符号化される場合、予測処理ユニット８１のイントラ予測処理ユニット８４は、シグナリングされたイントラ予測モードと、現在のフレームの以前に復号化されたブロックからの参照データとに基づいて、現在のビデオフレームのビデオブロックのための予測データを生成し得る。

ビデオフレームがインター予測符号化（すなわち、ＢまたはＰ）フレームとして符号化されるとき、予測処理ユニット８１の動き補償ユニット８２は、エントロピー復号化ユニット８０から受信された動きベクトルおよび他の構文要素に基づいて、現在のビデオフレームのビデオブロックのための１以上の予測ブロックを生成する。予測ブロックの各々は、参照フレームリストのうちの１つの参照フレームから生成され得る。ビデオデコーダ３０は、ＤＰＢ９２に記憶された参照フレームに基づくデフォルト構成技術を使用して、参照フレームリスト、Ｌｉｓｔ０およびＬｉｓｔ１を構成することができる。

いくつかの例ではビデオブロックが本明細書で説明されるイントラＢＣモードに従って符号化される場合、予測処理ユニット８１のイントラＢＣユニット８５はエントロピー復号化ユニット８０から受信されるブロックベクトルおよび他の構文要素に基づいて、現在のビデオブロックのための予測ブロックを生成する。予測ブロックは、ビデオエンコーダ２０によって定義された現在のビデオブロックと同じピクチャの再構成された領域内にあってもよい。

動き補償ユニット８２および／またはイントラＢＣユニット８５は動きベクトルおよび他の構文要素を構文解析することによって、現在のビデオフレームのビデオブロックの予測情報を決定し、次いで、その予測情報を使用して、復号化されている現在のビデオブロックの予測ブロックを生成する。例えば、動き補償ユニット８２は受信した構文要素のうちのいくつかを使用して、ビデオフレームのビデオブロックを符号化するために使用される予測モード（例えば、イントラ予測またはインター予測）、インター予測フレームタイプ（例えば、ＢまたはＰ）、フレームのための参照フレームリストのうちの１以上のための構成情報、フレームの各インター予測符号化ビデオブロックのための動きベクトル、フレームの各インター予測符号化ビデオブロックのためのインター予測ステータス、および現在のビデオフレームのビデオブロックを復号化するための他の情報を決定する。

同様に、イントラＢＣユニット８５は受信した構文要素のいくつか、例えばフラグを使用して、現在のビデオブロックがイントラＢＣモードを使用して予測されたこと、フレームのどのビデオブロックが再構成領域内にあり、ＤＰＢ９２に格納されるべきかの構成情報、フレームの各イントラＢＣ予測ビデオブロックのブロックベクトル、フレームの各イントラＢＣ予測ビデオブロックのイントラＢＣ予測ステータス、および現在のビデオフレームのビデオブロックを復号化するための他の情報を決定することができる。

また、動き補償ユニット８２はビデオブロックの符号化中にビデオエンコーダ２０によって使用されるような補間フィルタを使用して補間を実行し、参照ブロックのサブ整数画素に対する補間値を計算してもよい。この場合、動き補償ユニット８２は受信した構文要素からビデオエンコーダ２０によって使用される補間フィルタを決定し、補間フィルタを使用して予測ブロックを生成することができる。

逆量子化処理ユニット８６は、ビデオフレームのビデオブロックごとにビデオエンコーダ２０によって計算された同じ量子化パラメータを用いて、ビットストリームに提供されエントロピー復号化部８０によってエントロピー復号化された量子化変換係数を逆量子化して量子化の度合いを決定する。逆変換処理ユニット８８は、画素領域で残差ブロックを再構成するために、逆変換、例えば、逆ＤＣＴ、逆整数変換、または概念的に類似する逆変換処理を変換係数に適用する。

動き補償ユニット８２またはイントラＢＣユニット８５がベクトルおよび他の構文要素に基づいて現在のビデオブロックのための予測ブロックを生成した後、加算器９０は、逆変換処理ユニット８８からの残差ブロックと、動き補償ユニット８２およびイントラＢＣユニット８５によって生成された対応する予測ブロックとを加算することによって、現在のビデオブロックのための復号化されたビデオブロックを再構成する。インループフィルタ（図示せず）を加算器９０とＤＰＢ９２との間に配置して、復号化されたビデオブロックをさらに処理することができる。所定のフレーム内の復号化されたビデオブロックは、次のビデオブロックの後続の動き補償のために使用される参照フレームを格納するＤＰＢ９２に格納される。ＤＰＢ９２、またはＤＰＢ９２とは別個のメモリ装置は図１の表示装置３４のような表示装置上に後で提示するために、復号化されたビデオを記憶することもできる。

典型的なビデオ符号化プロセスでは、ビデオシーケンスが典型的にはフレームまたはピクチャの順序付けられたセットを含む。各フレームは、ＳＬ、ＳＣｂ、およびＳＣｒで示される３つのサンプルアレイを含むことができる。ＳＬは、輝度サンプルの２次元アレイである。ＳＣｂは、Ｃｂ彩度サンプルの２次元アレイである。ＳＣｒは、Ｃｒ彩度サンプルの２次元アレイである。他の例では、フレームは単色であってもよく、したがって、輝度サンプルの１つの２次元アレイのみを含む。

図４Ａに示すように、ビデオエンコーダ２０（またはより具体的には分割ユニット４５）は、まず、フレームを１セットの符号化ツリーユニット（ＣＴＵ）に分割することによって、フレームの符号化表現を生成する。ビデオフレームは、左から右へ、および上から下へのラスタ走査順序で連続的に順序付けられた整数個のＣＴＵを含むことができる。各ＣＴＵは最大の論理符号化単位であり、ＣＴＵの幅および高さは、ビデオシーケンスの全てのＣＴＵが１２８×１２８、６４×６４、３２×３２、および１６×１６のうちの１つである同じサイズを有するように、シーケンスパラメータセットでビデオエンコーダ２０によってシグナリングされる。しかし、本願は、必ずしも特定のサイズに限定されないことに留意されたい。図４Ｂに示すように、各ＣＴＵは、輝度サンプルの１つの符号化ツリーブロック（ＣＴＢ）、彩度サンプルの２つの対応する符号化ツリーブロック、および符号化ツリーブロックのサンプルを符号化するために使用される構文要素を備えることができる。構文要素は、インターまたはイントラ予測、イントラ予測モード、動きベクトル、および他のパラメータを含む、画素の符号化ブロックの異なるタイプのユニットのプロパティ、およびビデオシーケンスがビデオデコーダ３０においてどのように再構成され得るかを記述する。モノクロピクチャまたは３つの別々のカラープレーンを有するピクチャでは、ＣＴＵが単一の符号化ツリーブロックと、符号化ツリーブロックのサンプルを符号化するために使用される構文要素とを備えることができる。符号化ツリーブロックは、サンプルのＮ×Ｎブロックであってもよい。

より良好な性能を達成するために、ビデオエンコーダ２０はＣＴＵの符号化ツリーブロック上で、２分木分割、３分木分割、４分木分割、または両方の組合せなどのツリー分割を再帰的に実行し、ＣＴＵをより小さい符号化単位（ＣＵ）に分割することができる。図４Ｃに示すように、６４×６４ＣＴＵ４００は、まず、各々が３２×３２のブロックサイズを有する４つのより小さなＣＵに分割される。４つのより小さいＣＵの中で、ＣＵ４１０およびＣＵ４２０は、それぞれ、ブロックサイズによって１６×１６の４つのＣＵに分割される。２つの１６×１６ＣＵ４３０および４４０はそれぞれ、ブロックサイズによって８×８の４つのＣＵにさらに分割される。図４Ｄは図４Ｃに示されるようなＣＴＵ４００の分割プロセスの最終結果を示す４分木データ構造を示し、４分木の各リーフノードは、３２×３２から８×８の範囲のそれぞれのサイズの１つのＣＵに対応する。図４Ｂに示すＣＴＵと同様に、各ＣＵは、輝度サンプルの符号化ブロック（ＣＢ）と、同じサイズのフレームの彩度サンプルの２つの対応する符号化ブロックと、符号化ブロックのサンプルを符号化するために使用される構文要素とを備えることができる。モノクロピクチャまたは３つの別々のカラープレーンを有するピクチャでは、ＣＵが単一の符号化ブロックと、符号化ブロックのサンプルを符号化するために使用される構文構造とを備えることができる。図４Ｃおよび図４Ｄに示された４分木分割は例示の目的のためだけのものであり、１つのＣＴＵをＣＵに分割して、４分木／３分木／２分木分割に基づいて様々なローカル特性に適応させることができることに留意されたい。マルチタイプツリー構造では１つのＣＴＵが４分木構造によって区分され、各４分木リーフＣＵは２分木構造および３分木構造によってさらに区分することができる。図４Ｅに示すように、５つの分割タイプ、すなわち、４分割、水平２分割、垂直分割、水平３分割、および垂直３分割がある。

いくつかの実装では、ビデオエンコーダ２０がＣＵの符号化ブロックを１以上のＭ×Ｎ予測ブロック（ＰＢ）にさらに分割することができる。予測ブロックは、同じ予測、インターまたはイントラが適用されるサンプルの矩形（正方形または非正方形）ブロックである。ＣＵの予測ユニット（ＰＵ）は、輝度サンプルの予測ブロックと、彩度サンプルの２つの対応する予測ブロックと、予測ブロックを予測するために使用される構文要素とを備え得る。モノクロピクチャまたは３つの別個のカラープレーンを有するピクチャでは、ＰＵが単一の予測ブロックと、予測ブロックを予測するために使用される構文構造とを備えることができる。ビデオエンコーダ２０は、ＣＵの各ＰＵの輝度、Ｃｂ、およびＣｒ予測ブロックについて、予測輝度、Ｃｂ、およびＣｒブロックを生成することができる。

ビデオエンコーダ２０はＰＵに対する予測ブロックを生成するために、イントラ予測またはインター予測を使用してもよい。ビデオエンコーダ２０がＰＵの予測ブロックを生成するためにイントラ予測を使用する場合、ビデオエンコーダ２０は、ＰＵに関連するフレームの復号化されたサンプルに基づいて、ＰＵの予測ブロックを生成し得る。ビデオエンコーダ２０がＰＵの予測ブロックを生成するためにインター予測を使用する場合、ビデオエンコーダ２０は、ＰＵに関連するフレーム以外の１以上のフレームの復号化サンプルに基づいて、ＰＵの予測ブロックを生成し得る。

ビデオエンコーダ２０がＣＵの１以上のＰＵのための予測輝度、Ｃｂ、およびＣｒブロックを生成した後、ビデオエンコーダ２０は、ＣＵの輝度残差ブロック内の各サンプルがＣＵの予測輝度ブロックのうちの１つの輝度サンプルと、ＣＵの元の輝度符号化ブロックの対応するサンプルとの間の差を示すように、元の輝度符号化ブロックからＣＵの予測輝度ブロックを減算することによって、ＣＵのための輝度残差ブロックを生成し得る。同様に、ビデオエンコーダ２０は、ＣＵのＣｂ残差ブロック内の各サンプルがＣＵの予測Ｃｂブロックのうちの１つのＣｂサンプルと、ＣＵの元のＣｂ符号化ブロック内の対応するサンプルとの間の差を示し、ＣＵのＣｒ残差ブロック内の各サンプルがＣＵの予測Ｃｒブロックのうちの１つ内のＣｒサンプルと、ＣＵの元のＣｒ符号化ブロック内の対応するサンプルとの間の差を示し得るように、ＣＵのためのＣｂ残差ブロックおよびＣｒ残差ブロックをそれぞれ生成し得る。

さらに、図４Ｃに示すように、ビデオエンコーダ２０はＣＵの輝度、Ｃｂ、およびＣｒ残差ブロックを１以上の輝度、Ｃｂ、およびＣｒ変換ブロックに分解するために、４分木分割を使用してもよい。変換ブロックは、同じ変換が適用されるサンプルの矩形（正方形または非正方形）ブロックである。ＣＵの変換ユニット（ＴＵ）は、輝度サンプルの変換ブロックと、彩度サンプルの２つの対応する変換ブロックと、変換ブロックサンプルを変換するために使用される構文要素とを備え得る。したがって、ＣＵの各ＴＵは、輝度変換ブロック、Ｃｂ変換ブロック、およびＣｒ変換ブロックに関連付けられ得る。いくつかの例では、ＴＵに関連する輝度変換ブロックがＣＵの輝度残差ブロックのサブブロックであり得る。Ｃｂ変換ブロックは、ＣＵのＣｂ残差ブロックのサブブロックであってもよい。Ｃｒ変換ブロックは、ＣＵのＣｒ残差ブロックのサブブロックであってもよい。モノクロピクチャまたは３つの別々のカラープレーンを有するピクチャでは、ＴＵが単一の変換ブロックと、変換ブロックのサンプルを変換するために使用される構文構造とを備えることができる。

ビデオエンコーダ２０は、ＴＵの輝度変換ブロックに１以上の変換を適用して、ＴＵの輝度係数ブロックを生成することができる。係数ブロックは、変換係数の２次元配列であってもよい。変換係数は、スカラー量であってもよい。ビデオエンコーダ２０は、ＴＵのＣｂ変換ブロックに１以上の変換を適用して、ＴＵのＣｂ係数ブロックを生成することができる。ビデオエンコーダ２０は、ＴＵのＣｒ変換ブロックに１以上の変換を適用して、ＴＵ用のＣｒ係数ブロックを生成することができる。

係数ブロック（例えば、輝度係数ブロック、Ｃｂ係数ブロックまたはＣｒ係数ブロック）を生成した後、ビデオエンコーダ２０は、係数ブロックを量子化することができる。量子化とは、一般に、変換係数が量子化されて、変換係数を表現するために使用されるデータの量がおそらく減少し、さらなる圧縮が提供されるプロセスを指す。ビデオエンコーダ２０が係数ブロックを量子化した後、ビデオエンコーダ２０は、量子化された変換係数を示す構文要素をエントロピー符号化することができる。例えば、ビデオエンコーダ２０は、量子化された変換係数を示す構文要素に対して、コンテキスト適応バイナリ算術符号化（ＣＡＢＡＣ）を実行することができる。最後に、ビデオエンコーダ２０は符号化されたフレームと関連データの表現を形成するビット列を含むビットストリームを出力することができ、これは、記憶装置３２に保存されるか、またはデスティネーション装置１４に送信されるかのいずれかである。

ビデオエンコーダ２０によって生成されたビットストリームを受信した後、ビデオデコーダ３０は、ビットストリームを構文解析して、ビットストリームから構文要素を得ることができる。ビデオデコーダ３０は、ビットストリームから得られた構文要素に少なくとも部分的に基づいて、ビデオデータのフレームを再構成してもよい。ビデオデータを再構成するプロセスは一般に、ビデオエンコーダ２０によって実行される符号化プロセスと逆である。例えば、ビデオデコーダ３０は、現在のＣＵのＴＵに関連付けられた係数ブロックに対して逆変換を実行して、現在のＣＵのＴＵに関連付けられた残差ブロックを再構成することができる。ビデオデコーダ３０はまた、現在のＣＵのＰＵのための予測ブロックのサンプルを、現在のＣＵのＴＵの変換ブロックの対応するサンプルに加算することによって、現在のＣＵの符号化ブロックを再構成する。フレームの各ＣＵについて符号化ブロックを再構成した後、ビデオデコーダ３０は、フレームを再構成することができる。

上述のように、ビデオ符号化は主に２つのモード、すなわち、イントラフレーム予測（またはイントラ予測）およびインターフレーム予測（またはインター予測）を使用してビデオ圧縮を達成する。パレットベースの符号化は、多くのビデオ符号化規格によって採用されている別の符号化方式である。画面生成コンテンツ符号化に特に適し得るパレットベースの符号化ではビデオコーダ（例えば、ビデオエンコーダ２０またはビデオデコーダ３０）は所与のブロックのビデオデータを表す色のパレットテーブルを形成する。パレットテーブルは所与のブロックの最も優勢な（例えば、頻繁に使用される）画素値を含む。指定されたブロックのビデオデータで頻繁に表現されない画素値は、パレットテーブルに含まれないか、エスケープカラーとしてパレットテーブルに含まれる。

パレットテーブルの各エントリには、パレットテーブルの対応する画素値のインデックスが含まれる。ブロックのサンプルに対するパレットインデックスは、パレットテーブルからのどのエントリがどのサンプルを予測または再構成するために使用されるかを示すために符号化されてもよい。このパレットモードは、ピクチャ、スライス、タイル、またはその他のビデオブロックのグループ化の最初のブロックのパレット予測子を生成するプロセスから始まる。以下に説明するように、後続のビデオブロックのパレット予測子は、典型的には以前に使用されたパレット予測子を更新することによって生成される。説明のために、パレット予測子は画像レベルで定義されると仮定される。言い換えると、ピクチャはそれぞれが独自のパレットテーブルを有する複数の符号化ブロックを含むことができるが、ピクチャ全体に対する１つのパレット予測子が存在する。

ビデオビットストリームのパレットエントリのシグナリングに必要なビットを減らすために、ビデオデコーダは、ビデオブロックの再構成に使用されるパレットテーブルの新しいパレットエントリを決定するためのパレット予測子を利用することができる。例えば、パレット予測子は以前に使用されたパレットテーブルからのパレットエントリを含むことができ、あるいは最後に使用されたパレットテーブルの全てのエントリを含むことによって、最後に使用されたパレットテーブルで初期化されることさえできる。一部の実装では、パレット予測子が最後に使用されたパレットテーブルからの全てのエントリより少ないエントリを含み、その後、他の以前に使用されたパレットテーブルからのいくつかのエントリを組み込むことができる。パレット予測子は、異なるブロックを符号化するために使用されるパレットテーブルと同じサイズを有してもよく、あるいは異なるブロックを符号化するために使用されるパレットテーブルよりも大きくても小さくてもよい。１つの例では、パレット予測子が６４のパレットエントリを含む先入れ先出し（ＦＩＦＯ）テーブルとして実装されている。

パレット予測子からビデオデータのブロックのパレットテーブルを生成するために、ビデオデコーダは符号化されたビデオビットストリームから、パレット予測子の各エントリに対して１ビットのフラグを受信することができる。１ビットフラグはパレット予測子の関連するエントリがパレットテーブルに含まれることを示す第１値（例えば、バイナリ１）、またはパレット予測子の関連するエントリがパレットテーブルに含まれないことを示す第２値（例えば、バイナリ０）を有することができる。パレット予測子のサイズがビデオデータのブロックに使用されるパレットテーブルより大きい場合、ビデオデコーダは、パレットテーブルの最大サイズに達すると、より多くのフラグの受信を停止することがある。

一部の実装では、パレットテーブルの一部のエントリがパレット予測子を使用して決定される代わりに、符号化されたビデオビットストリームで直接シグナリングされてもよい。そのようなエントリについて、ビデオデコーダは符号化されたビデオビットストリームから、輝度の画素値を示す３つの別個のｍビット値と、エントリに関連付けられた２つの彩度成分とを受信することができ、ここで、ｍは、ビデオデータのビット深度を表す。直接シグナリングされたパレットエントリに必要な複数のｍビット値と比較して、パレット予測子から派生したそれらのパレットエントリは、１ビットフラグのみを必要とする。したがって、パレット予測子を使用していくつかのまたは全てのパレットエントリをシグナリングすることは、新しいパレットテーブルのエントリをシグナリングするために必要とされるビット数を大幅に低減することができ、それによってパレットモード符号化の全体的な符号化効率を改善する。

多くの場合、１つのブロックのパレット予測子は、以前に符号化された１以上のブロックを符号化するために使用されるパレットテーブルに基づいて決定される。しかし、ピクチャ、スライス、またはタイル内の最初の符号化ツリーユニットを符号化するとき、以前に符号化されたブロックのパレットテーブルは利用できないことがある。したがって、以前に使用したパレットテーブルのエントリを使用してパレット予測子を生成することはできない。このような場合、パレット予測子イニシャライザのシーケンスはシーケンスパラメータセット（ＳＰＳ）および／またはピクチャパラメータセット（ＰＰＳ）でシグナリングされることがあり、これは、以前に使用されたパレットテーブルが利用できないときにパレット予測子を生成するために使用される値である。ＳＰＳは一般に、各スライスセグメントヘッダに見られる構文要素によって参照されるＰＰＳに見られる構文要素の内容によって決定される、符号化ビデオシーケンス（ＣＶＳ）と呼ばれる一連の連続符号化ビデオ画像に適用される構文要素の構文構造を指す。ＰＰＳは一般に、各スライスセグメントヘッダに見られる構文要素によって決定されるように、ＣＶＳ内の１以上の個々のピクチャに適用される構文要素の構文構造を指す。それゆえ、ＳＰＳは一般に、ＰＰＳより高いレベルの構文構造と見なされ、ＳＰＳに含まれる構文要素は一般に、ＰＰＳに含まれる構文要素と比較して、あまり頻繁に変更されず、ビデオデータのより大きな部分に適用されることを意味する。

図５は、本開示のいくつかの実装による、インター符号化ブロックおよびイントラ符号化ブロックの残差を変換するための例示的な多重変換選択（ＭＴＳ）スキームを示す表５００である。例えば、符号化の間、ビデオエンコーダ２０は、図２の変換処理ユニット５２を用いてＭＴＳを実行する。復号化の間、ビデオデコーダ３０は、図３の逆変換処理ユニット８８を用いて、対応する逆変換方法を使用して逆変換を実行する。

現在のＶＶＣ仕様は、インター符号化ブロックおよびイントラ符号化ブロックの両方において残差を変換するためのＭＴＳ方式を採用している。ＭＴＳが使用される場合、符号化の間に、ビデオエンコーダが符号化されたブロックの残差に適用するために、多くの変換方法のうちの１つを選択する。例えば、ビデオエンコーダはＤＣＴ２変換（例えば、ＭＴＳがディスエーブルされる）、ＤＣＴ８変換、またはＤＳＴ７変換を、符号化ブロックの残差に適用することができる。構文要素のグループ（例えば、ＭＴＳ＿ＣＵ＿ｆｌａｇ、ＭＴＳ＿Ｈｏｒ＿ｆｌａｇ、ＭＴＳ_Ｖｅｒ_ｆｌａｇ)(フラグとも呼ばれる）は、符号化されたブロックに使用される特定の変換方法を通知するために使用される。

いくつかの実施形態では、イントラモードとインターモードのためのＭＴＳを別々に可能にするために、２つの構文要素がシーケンスレベルで指定される（例えば、シーケンスパラメータセット（ＳＰＳ）に含まれる）。ＭＴＳがシーケンスレベルで有効にされると、別のＣＵレベル構文要素（例えば、表５００のＭＴＳ＿ＣＵ＿ｆｌａｇ）が、ＭＴＳが特定のＣＵに適用されるかどうかを示すためにさらにシグナリングされる。

いくつかの実施形態ではＭＴＳが符号化ブロックの特性に関連する複数の基準が満たされる場合にのみ使用され、この基準には、１）符号化ブロックの幅および高さの両方が所定の値（例えば、３２）以下であること、２）符号化ブロックが輝度符号化ブロックであること（例えば、ＭＴＳが輝度残差符号化においてのみ使用されるので、輝度ＣＢＦフラグ＝＝１であること）、および３）最後の非ゼロ係数の水平座標および垂直座標の両方が所定の値（例えば、１６）よりも小さいこと（例えば、最後の非ゼロ係数が変換ブロックの所定の左上領域に限定されること）が含まれる。上記の基準のいずれかが満たされない場合、ビデオエンコーダはＭＴＳを適用せず、むしろブロック残差を変換するためのＤＣＴ２変換のようなデフォルト変換方法を適用し、対応する構文要素は、デフォルト変換が使用されることを示すように設定される（例えば、ＭＴＳ＿ＣＵ＿ｆｌａｇ＝＝０およびＭＴＳ＿Ｈｏｒ＿ｆｌａｇおよびＭＴＳ＿Ｖｅｒ＿ｆｌａｇはシグナリングされない）。

表５００は、構文要素値と、ＭＴＳで使用されている対応する変換方法とを示す。ＤＣＴ２変換を使用してブロック残差を変換する場合、ＭＴＳ＿ＣＵ＿ｆｌａｇは０に設定され、ＭＴＳ＿Ｈｏｒ＿ｆｌａｇおよびＭＴＳ＿Ｖｅｒ＿ｆｌａｇはシグナリングされない。ＭＴＳ＿ＣＵ＿ｆｌａｇが１にセットされている場合（例えば、ＤＣＴ８および／またはＤＳＴ７が使用されていることを示す）、水平方向および垂直方向の変換タイプを示すために、２つの他の構文要素（例えば、ＭＴＳ＿Ｈｏｒ＿ｆｌａｇ、ＭＴＳ＿Ｖｅｒ＿ｆｌａｇ）が追加でシグナリングされる。ＭＴＳ＿Ｈｏｒ＿ｆｌａｇ＝＝１またはＭＴＳ＿Ｖｅｒ＿ｆｌａｇ＝＝１の場合、それぞれの水平または垂直成分はＤＳＴ７方式を使用して変換される。ＭＴＳ＿Ｈｏｒ＿ｆｌａｇ＝＝０またはＭＴＳ＿Ｖｅｒ＿ｆｌａｇ＝＝０の場合、ＤＣＴ８方式で水平／垂直成分を変換する。

いくつかの実施形態では、全てのＭＴＳ変換係数がＤＣＴ２コア変換と同じ６ビット精度で符号化される。ＶＶＣがＨＥＶＣで使用される全ての変換サイズをサポートすると仮定すると、ＨＥＶＣで使用される全ての変換コアは、４ポイント、８ポイント、１６ポイント、および３２ポイントＤＣＴ２変換、ならびに４ポイントＤＳＴ７変換を含めて、ＶＶＣと同じに保たれる。一方、６４ポイントＤＣＴ２、４ポイントＤＣＴ８、８ポイント、１６ポイント、３２ポイントＤＳＴ７およびＤＣＴ８を含む他の変換コアは、ＶＶＣ変換設計において追加的にサポートされる。

さらに、大きなサイズのＤＳＴ７またはＤＣＴ８変換の計算量を削減するために、ブロックの幅または高さのいずれかが３２に等しい場合に、変換係数（例えば、変換ブロックの左上１６×１６領域）が低周波数領域の外側に位置する変換係数（例えば、高周波数変換係数）はＤＳＴ７およびＤＣＴ８変換ブロックに対してゼロに設定される（例えば、ゼロアウト動作）。

いくつかの実施形態では、変換ブロックの変換係数が非重複係数グループ（ＣＧ）を使用して符号化される。ＣＧサイズは、変換ブロックのサイズに基づいて決定される。変換ブロック内のＣＧおよび各ＣＧ内の変換係数は１つの事前定義された走査順序（例えば、対角走査順序）に基づいて符号化される。

図６は、本開示のいくつかの実装による、非ゼロ変換係数を有する例示的な変換ブロック６００を示すブロック図である。変換ブロック６００は、変換ブロック６００の左上のメッシュ部分に対応する第１領域６０２と、変換ブロック６００の破線部分によって表される第２領域６０４とを含む。第１領域６０２は変換ブロック６００の所定のサイズ（例えば、左上１６×１６領域）を有し、１以上の非ゼロ変換係数（例えば、第１、第２、および第３の非ゼロ係数６０６、６０８、および６１０）を含む。第２領域６０４は１以上の非ゼロ変換係数を含んでも含まなくてもよい、第１領域６０２の外側の領域である。

図５で説明したように、ビデオエンコーダ／デコーダはＭＴＳを使用して、イントラモードおよびインターモードの両方（例えば、ＤＣＴ８またはＤＳＴ７変換）における残差（例えば、輝度残差）を変換してもよい。さらに、ビデオエンコーダ／デコーダは（１）符号化ブロックの幅および高さの両方が所定の値（たとえば、３２）以下である場合にのみＭＴＳを使用し、（２）符号化ブロックは輝度符号化ブロックであり（たとえば、ＭＴＳが輝度残差符号化にのみ適用されるので、輝度ＣＢＦフラグ＝＝１）、（３）最後の非ゼロ係数（たとえば、第３非ゼロ係数６１０）の水平座標および垂直座標の両方が所定の値（たとえば、１６）よりも小さく、すなわち、第１領域６０２内である。

いくつかの実施形態では、上に列挙した３つの基準が満たされる場合、変換ブロックの所定の左上領域（例えば、第１領域６０２）に１つの非ゼロ変換係数しかない場合であっても、ＭＴＳをイネーブルにすることができる。他の実施形態ではＭＴＳ符号化利得がＤＣＴ２変換よりも良好なエネルギーコンパクションにつながる１つの非ＤＣＴ２変換の適切な選択から来るので、ＭＴＳツールは変換ブロックに十分な数の非ゼロ変換係数が存在する場合にのみ有効である。この場合、ＭＴＳ構文要素をシグナリングするために、追加の基準が使用される。

いくつかの実施形態では、追加の基準が変換ブロック内に少なくとも最小数の非ゼロ変換係数があることを含む（例えば、ＭＴＳ＿ＣＵ＿ｆｌａｇは上記の３つの基準が満たされるとき、および変換ブロック全体に少なくとも最小数の非ゼロ変換係数があるときにのみシグナリングされる）。復号化の間、ビデオデコーダは非ゼロ変換係数の数が事前に定義されたしきい値を超えた場合に、ＭＴＳ構文要素（例えば、ＭＴＳ＿ＣＵ＿ｆｌａｇ）を受信し、解析するだけである。非ゼロ変換係数の最小数が存在しない場合、ビデオデコーダはＭＴＳ＿ＣＵ＿ｆｌａｇを０に設定し、逆ＤＣＴ２変換を変換ブロックに適用する。例えば、変換ブロック６００において、ＭＴＳをイネーブルするための非ゼロ変換係数の最小数が２であると仮定すると、３つの非ゼロ係数があるので、ＭＴＳは変換ブロック６００に対してイネーブルされ得る。

いくつかの実施形態では、ＭＴＳ構文要素が変換ブロック内の最後の非ゼロ変換係数の走査順序インデックスに基づいて条件付きでシグナリングされる。例えば、図６では最後の非ゼロ変換係数（第３非ゼロ係数６１０）の走査順序インデックスはＮであり、その結果、ビデオエンコーダまたはデコーダは変換ブロック内の非ゼロ係数の数が所定の閾値を超えるかどうかを判定するために、全ての非ゼロ変換係数をカウントする必要はない（これは輝度残差を解析するときに、無視できない計算の複雑さの増加を引き起こす可能性がある）。具体的には、ＭＴＳが最後の非ゼロ係数の走査順序インデックス（すなわち、Ｎ）が所定の閾値（例えば、３）を超える場合にのみ、変換ブロックに使用される。最後の非ゼロ変換係数の走査順序インデックスが所定のしきい値よりも大きい場合、ＭＴＳ＿ＣＵ＿ｆｌａｇは（例えば、図５のテーブル５００に従って）使用される特定の変換を示すようにシグナリングされる。一方、最後の非ゼロ変換係数のインデックス位置が所定のしきい値よりも大きくない場合、ＭＴＳ＿ＣＵ＿ｆｌａｇはシグナリングされず、ゼロであると推論される（例えば、ＤＣＴ２が使用される）。このアプローチでは、ＭＴＳ構文要素を解析する前に、変換ブロックごとに１つのチェックのみが実行される。以下の表１は、この方法が関連する変更に下線を引いた条件ＭＴＳシグナリングに適用される場合に、符号化ユニットおよび変換ユニットに使用される構文テーブルを示す。表１では、ブール変数ＭｔｓＬａｓｔＳｉｇＣｏｅｆｆＰｏｓＭｅｔＴｈｒｅｓｈｏｌｄＦｌａｇを使用して、最後の非ゼロ係数のインデックス位置が事前定義されたしきい値より大きいかどうかを表すため、ＭＴＳ＿ＣＵ＿ｆｌａｇが所定の変換ブロックに対してシグナリングされることが許可される。

表１：ＭＴＳシグナリングのための符号化ユニットおよび変換ユニットの修正構文テーブル

図５に関連する説明で言及したように、ＭＴＳの下で、変換ブロックにおける所定の左上領域（例えば、非ゼロ領域としても知られる左上１６×１６領域）の外側の変換係数（例えば、高周波変換係数）は変換ブロックの幅または高さのいずれかが所定値（例えば、１６）よりも大きい場合に、ゼロに強制される（例えば、この領域は、ゼロアウト領域としても知られる）。例えば、図６において、第２領域６０４はゼロアウト領域であってもよく、第１領域６０２は非ゼロ領域であってもよい。ＭＴＳ＿ＣＵ＿ｆｌａｇは最後の非ゼロ係数（例えば、第３非ゼロ係数６１０）の水平座標および垂直座標の両方が所定の値（例えば、１６）よりも小さく、最後の非ゼロ係数が非ゼロ領域内にあることを示す場合にのみシグナリングされる。しかしながら、変換係数が対角走査順序に基づいて走査されるという事実のために、そのようなＭＴＳシグナリング条件は全ての非ゼロ変換係数が常に所定の最上位左側領域の内側に位置することを保証することができない（例えば、図６には示されていないが、最後の非ゼロ係数の前の１以上の非ゼロ係数が第２領域６０４に存在することがある）。したがって、全ての非ゼロ係数が非ゼロ領域（例えば、第１領域６０２）の内側にあることを保証するために、追加のチェックが必要である。

いくつかの実施形態では、追加のチェックの例がＭＴＳゼロアウト領域（例えば、第２領域６０４）内に非ゼロ係数が存在する場合に、ＭＴＳインデックスの値、すなわち、ＭＴＳ＿ｉｄｘがゼロでなければならない（すなわち、ＤＣＴ２がデフォルトで使用される）ように、ビットストリーム適合制約を含む。

いくつかの実施形態では、左上領域の外側に位置する非ゼロ係数があるかどうかに応じて（例えば、ｍｉｎ（ＴＵＷｉｄｔｈ，１６)×ｍｉｎ（ＴＵＨｅｉｇｈｔ，１６））、ＭＴＳインデックスがシグナリングされる。肯定された場合、ＭＴＳインデックスはシグナリングされず、常に０として推論される。そうでない場合、ＭＴＳインデックスはビットストリームにシグナリングされ、使用されている変換を示す。

各走査位置をチェックする代わりに、符号化グループ（ＣＧ）レベルでＣＢＦをチェックすることによって、ゼロアウト領域に非ゼロ係数があるかどうかの判定を行うことができる。具体的には、ゼロアウト領域内に位置する現在のＴＢのいずれかのＣＧが１に等しいＣＢＦ値を有する（すなわち、ＣＧ内に非ゼロ係数がある）場合、ＭＴＳインデックスのシグナリングは省略される。以下の表２は（現在のＶＶＣ仕様と比較して）上述のＭＴＳシグナリング制約が適用される場合の変換ユニットの修正構文テーブルを示し、提案された制約付きＭＴＳシグナリングに関連する変更に下線が引かれている。

表２：ＭＴＳシグナリングのための提案された変換ユニット構文テーブル

いくつかの実施形態では、変換スキップモードがビットストリーム内の３つの変換スキップフラッグを、各成分に１つずつシグナリングすることによって、輝度成分および彩度成分に独立して適用することができる。しかしながら、現在の設計では、現在のＴＵの彩度残差がＪＣＣＲモードで符号化されるとき、変換スキップモードを彩度成分に適用することは禁止される。変換スキップおよびＪＣＣＲは、彩度残差を再構成する際に異なる段階で適用されるので、２つの符号化ツールを同時に使用可能にすることができる。したがって、本開示の別の実施形態では、１つのＴＵ内の彩度残差がＪＣＣＲモードで符号化される場合に、彩度変換スキップモードを可能にすることが提案される

図７は、本開示のいくつかの実装による、ビデオコーダが多重変換選択（ＭＴＳ）スキームを使用してブロック残差を符号化する技法を実装する例示的なプロセス７００を示すフローチャートである。説明の便宜上、プロセス７００はビデオデコーダ、例えば、図３のビデオデコーダ３０によって実行されるものとして説明される。プロセス７００の間、ＭＴＳのシグナリングは、最後の非ゼロ係数の位置、および変換ブロックの異なる領域における非ゼロ係数の存在に条件付けされる。

最初のステップとして、ビデオデコーダ３０は変換ブロックを符号化するビットストリームを受信し、変換ブロックは非ゼロ領域（例えば、左上１６×１６領域）およびゼロアウト領域（例えば、左上１６×１６領域の外側の領域）を含む（７１０）。

次に、ビデオデコーダ３０は、ゼロアウト領域内に非ゼロ係数があるかどうかをチェックする（７２０）。

変換ブロックのゼロアウト領域内に非ゼロ係数が存在しないとの判断に従い、ビデオデコーダ３０は走査方向（例えば、対角走査方向）（７３０）に沿った変換ブロックの最後の非ゼロ係数の走査順序インデックスを決定する。例えば、図６において、変換ブロックの最後の非ゼロ係数（第３非ゼロ係数６１０）は、３の走査次数インデックスを有する。

最後の非ゼロ係数の走査順序インデックスが事前定義されたしきい値（例えば、ブール変数ＭｔｓＬａｓｔＳｉｇＣｏｅｆｆＰｏｓＭｅｔＴｈｒｅｓｈｏｌｄＦｌａｇ＝＝１より大きいという決定に従って）（７４０）、ビデオデコーダ３０はビットストリームから、多重変換選択（ＭＴＳ）インデックスの値を受信する（７５０）。例えば、図６の変換ブロック６００について、所定のしきい値が２である場合、最後の非ゼロ係数３が所定のしきい値２より大きいので、ビデオデコーダ３０はＭＴＳインデックスの値を受信する。

最後に、ビデオデコーダ３０は、それぞれの変換を、ＭＴＳインデックス（７６０）の値に基づいて、水平方向および垂直方向の両方における変換ブロックの変換係数に適用する。例えば、図５および関連する記載で説明したように、ＭＴＳ＿ＣＵ＿ｆｌａｇの値が０である場合、ビデオデコーダは逆ＤＣＴ２変換を変換ブロックに適用する。ＭＴＳ＿ＣＵ＿ｆｌａｇの値が１の場合、ビデオデコーダはさらに追加の構文要素（ＭＴＳ＿Ｈｏｒ＿ｆｌａｇやＭＴＳ＿Ｖｅｒ＿ｆｌａｇなど）を受信し、逆ＤＳＴ７またはＤＣＴ８を変換ブロックに選択的に適用する。

いくつかの実施形態では、最後の非ゼロ係数の走査順序インデックスが所定の閾値以下であるという決定に従って、ビデオデコーダ３０は変換ブロック（例えば、ＤＣＴ－２）にデフォルト変換を適用する。

ある実施形態では、ビデオデコーダ３０が、ＭＴＳインデックスがビットストリームから受信する第１値（例えば、１）を有するという決定に従って、ＭＴＳインデックスの値に基づいて、変換ブロックに変換の各々を適用する。ＭＴＳ水平フラグ（ＭＴＳ＿Ｈｏｒ＿ｆｌａｇなど）の値とＭＴＳ垂直フラグ（ＭＴＳ＿Ｖｅｒ＿ｆｌａｇなど）の値に基づいて水平方向の変換ブロックの係数を適用し（ＭＴＳ＿Ｈｏｒ＿ｆｌａｇ＝＝０の場合はＤＳＴ－７、ＭＴＳ＿Ｖｅｒ＿ｆｌａｇ＝＝１の場合はＤＣＴ－８など）、ＭＴＳインデックスが２番目の値を持つとの判断に従って（例えば、０）、水平方向と垂直方向の両方でデフォルトの変換（例えばＤＣＴ－２）を使用して変換ブロックを変換する。

いくつかの実施形態では、ビデオデコーダ３０がゼロアウト領域内の輝度係数群の符号化ブロックフラグ（ＣＢＦ）をチェックし、ゼロアウト領域内の全ての輝度係数群のＣＢＦがゼロである場合にのみ、ゼロアウト領域内に非ゼロ係数がないと判定することによって、ゼロアウト領域内に非ゼロ係数があるかどうかをチェックする。例えば、ゼロアウト領域内の１つの輝度係数群のＣＢＦが１である場合、ゼロアウト領域内に少なくとも１つの非ゼロ係数があり、ＭＴＳインデックスはシグナリングされない。

いくつかの実施形態では、ビデオデコーダ３０が最後の非ゼロ係数の水平座標および垂直座標をチェックし、最後の非ゼロ係数の水平座標または垂直座標のいずれかがゼロアウト領域内にあるときに、ゼロアウト領域内に少なくとも１つの非ゼロ係数があると判定することによって、ゼロアウト領域内に非ゼロ係数があるかどうかをチェックする。例えば、最後の非ゼロ係数の水平座標または垂直座標がゼロアウト領域内にある場合、ゼロアウト領域内に少なくとも１つの非ゼロ係数がある。

いくつかの実施形態では変換ブロックの彩度残差が彩度残差ジョイント符号化（ＪＣＣＲ）モードにおいて符号化され、彩度変換スキップモードは変換ブロックに対してイネーブルされる。

いくつかの実施形態では、非ゼロ領域が変換ブロックの左上１６×１６領域である。

いくつかの実施形態では、走査順序は対角走査順序である。

上述のように、ＭＴＳを使用する動機は、ＤＣＴ／ＤＳＴ変換における他のコア変換を使用して、残差サンプルのより良好なエネルギー圧縮を達成することである。異なる予測モードから生じる残差は、異なる特性を提示することができる。いくつかの実施形態では、全ての予測モードにＭＴＳを使用することは有益ではない場合がある。例えば、通常、空間領域におけるよりも時間領域におけるサンプル間に多くの相関があり、したがって、インター予測サンプルはしばしば、イントラ予測サンプルよりも良好な予測効率を有する。換言すれば、インター予測ブロックの残差の大きさは、イントラ予測ブロックの残差の大きさよりも小さいことが多い。この場合、ＭＴＳモードは、ブロックをインター符号化するためにディスエーブルされてもよい。具体的には、現在の符号化ブロックがイントラ符号化されるとき、構文ｍｔｓ＿ｉｄｘは非ＤＣＴ２変換が現在の符号化ブロックに適用されるか否かを決定するために解析される。さもなければ、現在の符号化ブロックがインター符号化されるとき、構文ｍｔｓ＿ｉｄｘは解析されず、常に０であると推論される、すなわち、ＤＣＴ２変換のみが適用可能である。提案された方法を有する対応する構文テーブルは、以下のように指定される。

表３：ＭＴＳシグナリングのための追加の提案された変換ユニット構文テーブル

図８は、本開示のいくつかの実装による、例示的なコンテキスト適応バイナリ算術符号化（ＣＡＢＡＣ）エンジンを示すブロック図である。

コンテキスト適応バイナリ算術符号化（ＣＡＢＡＣ）は多くのビデオ符号化規格、例えば、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ、ＨＥＶＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）およびＶＶＣで使用されるエントロピー符号化の形態である。ＣＡＢＡＣは算術符号化に基づいており、ビデオ符号化規格のニーズに適応させるために、いくつかの革新および変更がなされている。例えば、ＣＡＢＡＣはバイナリシンボルを符号化し、これは、複雑さを低く保ち、任意のシンボルのより頻繁に使用されるビットに対する確率モデリングを可能にする。確率モデルは、局所コンテキストに基づいて適応的に選択され、符号化モードが通常局所的に良好に相関されるので、確率のより良好なモデリングを可能にする。最後に、ＣＡＢＡＣは量子化された確率範囲および確率状態を用いることで、乗算不要の範囲分割を実現している。

ＣＡＢＡＣは、異なるコンテキストに対して複数の確率モードを有する。まず、全ての非バイナリシンボルをバイナリに変換する。次いで、各ビン（またはビットと呼ばれる）について、コーダはどの確率モデルを使用するかを選択し、次いで、近くの要素からの情報を使用して、確率推定値を最適化する。最後に算術符号化を適用してデータを圧縮する。

コンテキストモデリングは、符号化シンボルの条件付き確率の推定値を提供する。適切なコンテキストモデルを利用して、符号化する現在のシンボルの近傍における既に符号化されたシンボルに従って異なる確率モデル間で切り替えることによって、所与のシンボル間冗長性を利用することができる。データシンボルの符号化には、以下の段階が含まれる。

２値化：ＣＡＢＡＣは、バイナリ決定（１または０）のみが符号化されることを意味するバイナリ算術符号化を使用する。非２値化シンボル（例えば、変換係数または動きベクトル）は、算術符号化の前に「２値化」されるか、またはバイナリコードに変換される。このプロセスはデータシンボルを可変長コードに変換するプロセスに似ているが、バイナリコードは送信前にさらに（算術コーダによって）符号化される。ステージは、２値化されたシンボルの各ビン（または「ビット」）に対して繰り返される。

コンテキストモデル選択：「コンテキストモデル」は、２値化シンボルの１以上のビンの確率モデルである。このモデルは、最近符号化されたデータシンボルの統計に応じて、利用可能なモデルの選択から選択されてもよい。コンテキストモデルは、各ビンが「１」または「０」である確率を格納する。

算術符号化：算術コーダは、選択された確率モデルに従って各ビンを符号化する。各ビンには２つのサブレンジ（「０」および「１」に対応する）しかないことに留意されたい。

確率更新：選択されたコンテキストモデルは実際の符号化値に基づいて更新される（例えば、ビン値が「１」であった場合、「１」の頻度カウントが増加される）。

各非バイナリ構文要素値をビンのシーケンスに分解することによって、ＣＡＢＡＣにおける各ビン値のさらなる処理は関連する符号化モード決定に依存し、これは、通常モードまたはバイパスモードのいずれかとして選択することができる。後者は、一様に分布していると仮定され、その結果、正規のバイナリ算術符号化（および復号化）プロセス全体が単にバイパスされるビンに対して選択される。正規符号化モードでは、各ビン値が正規バイナリ算術符号化エンジンを使用することによって符号化され、関連する確率モデルは構文要素のタイプと、構文要素の２値化表現におけるビン位置またはビンインデックス（ｂｉｎＩｄｘ）とに基づいて、固定選択によって決定されるか、または関連するサイド情報（例えば、ＣＵ／ＰＵ／ＴＵの空間近傍、成分、深さ、またはサイズ、あるいはＴＵ内の位置）に応じて２つ以上の確率モデルから適応的に選択される。確率モデルの選択は、コンテキストモデリングと呼ばれる。重要な設計決定として、後者の場合は一般に、最も頻繁に観測されるビンのみに適用され、他の、通常は頻繁に観測されないビンは、ジョイント、典型的にはゼロ次確率モデルを使用して処理される。このようにして、ＣＡＢＡＣはサブシンボルレベルでの選択的適応確率モデリングを可能にし、従って、著しく低減した全体モデリングまたは学習コストでシンボル間冗長性を活用するための効率的な手段を提供する。固定の場合と適応の場合の両方について、原則として、１つの確率モデルから別の確率モデルへの切り替えが、任意の２つの連続する正規符号化ビンの間で起こり得ることに留意されたい。一般に、ＣＡＢＡＣにおけるコンテキストモデルの設計は不必要なモデリングコストオーバーヘッドを回避し、統計的依存性を大幅に活用するという相反する目的の間の良好な妥協ポイントを見出す目的を反映する。

ＣＡＢＡＣにおける確率モデルのパラメータは適応的であり、これはビンソースの統計的変動に対するモデル確率の適応がエンコーダ及びデコーダの両方において、後方適応及び同期方式でビン毎に実行されることを意味し、この処理は確率推定と呼ばれる。そのために、ＣＡＢＡＣの各確率モデルは、区間［０：０１８７５；０：９８１２５］の範囲にある関連付けられたモデル確率値ｐを持つ１２６の異なる状態の中から１つを取り出すことができる。各確率モデルの２つのパラメータは、コンテキストメモリ内に７ビットエントリとして記憶される：最低確率シンボル（ＬＰＳ）のモデル確率ｐＬＰＳを表す６３の確率状態の各々について６ビット、および最高確率シンボル（ＭＰＳ）の値であるｎＭＰＳについて１ビット。

１以上の例では、説明された機能がハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実施される場合、機能は、１以上の命令またはコードとして、コンピュータ可読媒体上に記憶され、またはそれを介して送信され、ハードウェアベースの処理ユニットによって実行されてもよい。コンピュータ可読媒体はデータ記憶媒体のような有形媒体に対応するコンピュータ可読記憶媒体、または例えば通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は一般に、（１）非一時的有形コンピュータ可読記憶媒体、または（２）信号または搬送波などの通信媒体に対応することができる。データ記憶媒体は本願に記載の実施のための命令、コードおよび／またはデータ構造を取り出すために、１以上のコンピュータまたは１以上のプロセッサによってアクセス可能な任意の利用可能な媒体であってもよい。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

本明細書の実装の説明で使用される用語は特定の実装を説明するためだけのものであり、特許請求の範囲を限定することを意図するものではない。実施形態の説明および添付の特許請求の範囲で使用されるように、「１つの」などの単数形は文脈が別段の明確な指示をしない限り、複数形も同様に含むことが意図される。また、本明細書で使用される用語「および／または」は関連する列挙された項目のうちの１以上の任意の、および全ての可能な組合せを指し、包含することが理解されるのであろう。用語「含む」などは本明細書で使用される場合、述べられた特徴、要素、および／または構成要素の存在を指定するが、１以上の他の特徴、要素、構成要素、および／またはそれらのグループの存在または追加を排除しないことがさらに理解されるであろう。

また、第１、第２などの用語は様々な要素を説明するために本明細書で使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことも理解される。これらの用語は、１つの要素を別の要素から区別するためにのみ使用される。例えば、実施の範囲から逸脱することなく、第１電極を第２電極と呼ぶことができ、同様に、第２電極を第１電極と呼ぶことができる。第１電極と第２電極は両方とも電極であるが、それらは同じ電極ではない。

本出願の説明は例示および説明の目的で提示されており、網羅的であることも、開示された形態の発明に限定されることも意図されていない。前述の説明および関連する図面に提示された教示の恩恵を受ける当業者には、多くの修正形態、変形形態、および代替実施形態が明らかになる。本実施形態は本発明の原理、実際の応用を最もよく説明するために、また、他の当業者が様々な実施のために本発明を理解し、考えられる特定の用途に適した様々な修正を伴う基礎となる原理および様々な実施を最もよく利用することができるように、選択され、説明された。したがって、特許請求の範囲は開示された実施態様の特定の例に限定されるべきではなく、変更および他の実施態様は添付の特許請求の範囲内に含まれることが意図されることを理解されたい。

〔関連出願〕
本出願は２０１９年１１月２１日に出願された「変換および係数シグナリングに関する方法および装置」という名称の米国仮特許出願第６２／９３８，８９０号、および２０２０年１月１０日に出願された「変換および係数シグナリングに関する方法および装置」という名称の米国仮特許出願第６２／９５９，３２５号の優先権を主張し、これらの両方は、その全体が参照により組み込まれる。

Claims

符号化された変換ブロックを有するビットストリームを受信し、
前記変換ブロックは、非ゼロ領域とゼロアウト領域とを含み、
前記ゼロアウト領域内に位置する前記変換ブロックの符号化グループの何れかが非ゼロ係数を有するか否か決定し、
非ゼロ係数を有する前記ゼロアウト領域内に位置する前記変換ブロックの符号化グループがないという決定に応じて、
前記ビットストリームから、多重変換選択（ＭＴＳ）インデックスの値を受信し、
前記多重変換選択（ＭＴＳ）インデックスの値に基づいて、前記変換ブロックの係数を変換するために、水平方向および垂直方向で各々の逆変換を適用する、
ビデオ復号化方法。
前記ゼロアウト領域内に位置する前記変換ブロックの符号化グループが非ゼロ係数を有するという決定に従って、
所定のデフォルト逆変換を適用して、前記変換ブロックの係数を、前記水平方向および垂直方向の両方で変換する、
ことをさらに含む、請求項１に記載のビデオ復号化方法。
前記変換ブロックの係数を変換するために、各々の逆変換を適用することは、
前記多重変換選択（ＭＴＳ）インデックスが第１値を有するという決定に従って、
前記ビットストリームから、多重変換選択（ＭＴＳ）水平フラグの値と多重変換選択（ＭＴＳ）垂直フラグの値を受信し、
前記多重変換選択（ＭＴＳ）水平フラグの値に基づいて、前記水平方向の前記変換ブロックの前記係数に水平逆変換を適用し、
前記多重変換選択（ＭＴＳ）垂直フラグの値に基づいて、前記垂直方向の前記水平逆変換の後の前記変換ブロックの前記係数に垂直逆変換を適用し、
前記多重変換選択（ＭＴＳ）インデックスが前記第１値とは異なる第２値を有するという決定に従って、
前記変換ブロックの前記係数を、前記水平方向および前記垂直方向の両方で所定のデフォルト変換を使用して変換する、
ことを含む、請求項１に記載のビデオ復号化方法。
前記所定のデフォルト逆変換は逆ＤＣＴ－２変換であり、前記各々の逆変換のそれぞれは逆ＤＳＴ－７変換または逆ＤＣＴ－８変換を含む、
請求項２に記載のビデオ復号化方法。
前記変換ブロックの彩度残差は彩度残差ジョイント符号化（ＪＣＣＲ）モードで符号化され、
変換スキップモードが対応する彩度変換ブロックに対してイネーブルされる、
請求項１に記載のビデオ復号化方法。
前記非ゼロ領域は、前記変換ブロックの左上の１６×１６領域である、請求項１に記載のビデオ復号化方法。
前記変換ブロックの係数の走査順序は、対角走査順序である、請求項１に記載のビデオ復号化方法。
電子装置であって、
１以上の処理ユニットと、
１以上の前記処理ユニットに結合されたメモリと、
１以上の前記処理ユニットによって実行されると、前記電子装置に請求項１～請求項７の何れか１項に記載のビデオ復号化方法を実行させる、前記メモリに記憶された複数のプログラムと、
を含む、
電子装置。
１以上の処理ユニットを有する電子装置によって実行される複数のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、複数の前記プログラムは、１以上の前記処理ユニットによって実行されると、前記電子装置に請求項１～請求項７の何れか１項に記載のビデオ復号化方法を実行させる、非一時的コンピュータ可読記憶媒体。
１以上の処理ユニットを有する電子装置によって実行されるプログラムであって、１以上の前記処理ユニットによって実行されると、前記電子装置に請求項１～請求項７の何れか１項に記載のビデオ復号化方法を実行させる、プログラム。