JP2023508364A

JP2023508364A - コンテキスト適応変換セット

Info

Publication number: JP2023508364A
Application number: JP2022538768A
Authority: JP
Inventors: ジャオ，シン; ペリンガーサリークリシュナン，マドゥー; リィウ，シャン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-09-10
Filing date: 2021-06-29
Publication date: 2023-03-02
Also published as: CN114641996A; US20230118056A1; EP4042688A1; WO2022055599A1; US20220078423A1; KR20220077931A; EP4042688A4; US11683490B2

Abstract

コーディングビットストリームをコーディング及びデコーディングするためのシステム及び方法を提供する。方法は、コーディングビットストリームから画像のブロックをでこーづするステップを含む。コーディングするステップは、１つ以上の、先行してデコードされた近接ブロックから又は先行してデコードされた画像から少なくとも１つの近接する再構成されたサンプルに基づいて変換セットを選択するステップと、変換セットからの変換を使用してブロックの係数を逆変換するステップと、を含む。

Description

関連出願の相互参照
本出願は、２０２０年９月１０日に出願された米国仮出願第６３／０７６，８１７号及び２０２０年９月１１日に出願された米国仮出願第６３／０７７，３８１号、に基づく優先権を主張し、それらの開示の全体が参照により本明細書に組み込まれている。

本開示の実施形態は、セットの高度なビデオコーディング技術、より具体的には、一次変換セット及び二次変換セット選択スキームに関する。

ＡＯＭｅｄｉａＶｉｄｅｏ１（ＡＶ１）は、インターネットを介したビデオ伝送用に設計されたオープンビデオコーディングフォーマットである。これは、半導体企業、ビデオオンデマンドプロバイダー、ビデオコンテンツプロデューサー、ソフトウェア開発会社、およびＷｅｂブラウザーベンダーを含む、２０１５年に設立されたコンソーシアムであるＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）によってＶＰ９の後継として開発された。ＡＶ１プロジェクトのコンポーネントの多くは、アライアンスメンバーによるこれまでの研究努力から調達された。個々のコントリビュータは、数年前に実験的なテクノロジープラットフォームを開始した：Ｘｉｐｈ／ＭｏｚｉｌｌａのＤａａｌａは２０１０年にコードを公開し、Ｇｏｏｇｌｅの実験的なＶＰ９進化プロジェクトＶＰ１０は２０１４年９月１２日に発表され、ＣｉｓｃｏのＴｈｏｒは２０１５年８月１１日に公開された。ＶＰ９のコードベースに基づいて、ＡＶ１には追加の技術が組み込まれており、そのいくつかはこれらの実験的フォーマットで開発された。ＡＶ１参照コーデックのバージョン０．１．０の最初のバージョンは、２０１６年４月７日に公表された。アライアンスは、２０１８年３月２８日に、リファレンス、ソフトウェアベースのエンコーダ及びデコーダとともに、ＡＶ１ビットストリーム仕様のリリースを発表した。２０１８年６月２５日に、検証済みのバージョン１．０．０の仕様がリリースされた。２０１９年１月８日に「ＡＶ１Ｂｉｔｓｔｒｅａｍ＆ＤｅｃｏｄｉｎｇＰｒｏｃｅｓｓＳｐｅｃｉｆｉｃａｔｉｏｎ」がリリースされ、Ｅｒｒａｔａ１のバリデーション済みバージョン１．０．０である。ＡＶ１ビットストリーム仕様は、参照ビデオコーデックを含む。「ＡＶ１Ｂｉｔｓｔｒｅａｍ＆ＤｅｃｏｄｉｎｇＰｒｏｃｅｓｓＳｐｅｃｉｆｉｃａｔｉｏｎ」（Ｖｅｒｓｉｏｎ１．０．０ｗｉｔｈＥｒｒａｔａ１）、ＴｈｅＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ）（２０１９年１月８日）は、参照によりその全体が本書に組み込まれる。

高効率ビデオコーディング（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ：ＨＥＶＣ）規格は、ＩＴＵ－Ｔビデオコーディングエキスパートグループ（ＶｉｄｅｏＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ：ＶＣＥＧ）とＩＳＯ／ＩＥＣ動画エキスパートグループ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ：ＭＰＥＧ）標準化団体によって共同で開発されている。ＨＥＶＣ規格を開発するために、これらの２つの標準化組織は、ＪＣＴ－ＶＣ（ＪｏｉｎｔＣｏｌｌａｂｏｒａｔｉｖｅＴｅａｍｏｎＶｉｄｅｏＣｏｄｉｎｇ）と呼ばれるパートナーシップの中で協力している。ＨＥＶＣ規格の初版は、２０１３年１月に完成し、ＩＴＵ－ＴとＩＳＯ／ＩＥＣの両方で発行された整列されたテキストになった。その後、標準を拡張して、精度とカラーフォーマットのサポートが強化された拡張範囲の使用、スケーラブルなビデオコーディング、３Ｄ／ステレオ／マルチビュービデオコーディングを含む、いくつかの追加のアプリケーションシナリオをサポートするための追加作業が組織された。ＩＳＯ／ＩＥＣではＨＥＶＣ規格がＭＰＥＧ－ＨＰａｒｔ２（ＩＳＯ／ＩＥＣ２３００８－２）となり、ＩＴＵ－ＴではＩＴＵ－Ｔ勧告Ｈ．２６５となった。ＨＥＶＣ規格「ＳＥＲＩＥＳＨ：ＡＵＤＩＯＶＩＳＵＡＬＡＮＤＭＵＬＴＩＭＥＤＩＡＳＹＳＴＥＭＳ，ＩｎｆｒａｓｔｒｕｃｔｕｒｅｏｆＡｕｄｉｏｖｉｓｉｏｎＳｅｒｖｉｃｅｓ－Ｃｏｄｉｎｇｏｆｍｏｖｉｎｇｖｉｄｅｏ」、ＩＴＵ－ＴＨ．２６５，ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ（２０１５年４月）の仕様は、参照により、本願明細書において組み込まれる。

ＩＴＵ－ＴＶＣＥＧ（Ｑ６／１６）及びＩＳＯ／ＩＥＣＭＰＥＧ（ＪＴＣ１／ＳＣ２９／ＷＧ１１）は、２０１３年（バージョン１）、２０１４年（バージョン２）、２０１５年（バージョン３）、２０１６年（バージョン４）にＨ．２６５／ＨＥＶＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）規格を公表した。それ以来、圧縮能力においてＨＥＶＣを大幅に上回る性能を持つ将来のビデオコーディング技術の標準化の潜在的ニーズを研究してきた。２０１７年１０月には、ＨＥＶＣ（ＣｆＰ）を超える能力を有する映像圧縮に関する提案を共同で募集した。２０１８年２月１５日までに、標準ダイナミックレンジ（ＳＤＲ）上の２２のＣｆＰ応答、高ダイナミックレンジ（ＨＤＲ）上の１２のＣｆＰ応答、及び３６０のビデオカテゴリー上の１２のＣｆＰ応答をそれぞれ提出した。２０１８年４月には、１２２ＭＰＥＧ／１０合同映像探査チーム－合同映像エキスパートチーム（ＪＶＥＴ）会合において、受け取ったＣｆＰ回答の全てが評価された。ＪＶＥＴは慎重に評価し、ＨＥＶＣを越えて次世代ビデオコーディングの標準化、すなわち、いわゆるＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）を正式に開始した。ＶＶＣ規格「ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（Ｄｒａｆｔ７）」、ＪＶＥＴ－Ｐ２００１－ｖＥ、ＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔｓＴｅａｍ（２０１９年１０月）の仕様は、その全体が参照により本明細書に組み込まれている。ＶＶＣ規格「ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（Ｄｒａｆｔ１０）」、ＪＶＥＴ－Ｓ２００１－ｖＥ、ＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔｓＴｅａｍ（２０２０年７月）の別の仕様は、その全体が参照により本明細書に組み込まれている。

実施形態によれば、近接する再構成されたサンプルを使用する一次変換セット及び二次変換セットの選択スキームが提供される。実施形態によれば、画像及びビデオ圧縮のためのニューラルネットワークベースの変換セット選択スキームが提供される。

１つ以上の実施形態によれば、少なくとも１つのプロセッサによって実行される方法が提供される。この方法は、コーディングされたビットストリームを受信するステップと、コーディングされたビットストリームから画像のブロックをデコードするステップとを含む。デコードするステップは、１つ以上の、先行してデコードされた近接ブロックから又は先行してデコードされた画像から少なくとも１つの近接する再構成されたサンプルに基づいて変換セットを選択するステップと、変換セットからの変換を使用してブロックの係数を逆変換するステップと、を含む。

１つ以上の実施形態によれば、変換セットを選択するステップは、さらに、予測モードのコーディングされた情報に基づく。

一実施形態によれば、コーディングされた情報はインター予測モードのものである。

一実施形態によれば、変換セットを選択するステップは：第１コーディング情報に基づいて変換セットのグループから変換セットのサブグループを選択するステップと；サブグループから変換セットを選択するステップと；を含む。

一実施形態によれば、サブグループから変換セットを選択するステップは、第２コーディング情報に基づいて変換セットを選択するステップを含み、方法はさらに、コーディングされたビットストリーム内でシグナリングされたインデックス値に基づいて変換セットから変換候補を選択するステップを含む。

一実施形態によれば、少なくとも１つの近接する再構成サンプルは、１つ以上の、先行してデコードされた近接するブロックから再構成されたサンプルを含む。

一実施形態によれば、変換セットを選択するステップは、変換セットのグループから変換セットを選択するステップを含み、変換セットのグループは二次変換カーネルのみを含む。

一実施形態によれば、第２変換カーネルは非分離可能（ｎｏｎ－ｓｅｐａｒａｂｌｅ）である。

一実施形態によれば、変換セットを選択するステップは、ニューラルネットワークに少なくとも１つの近接する再構成サンプルの情報を入力するステップと、ニューラルネットワークからの出力であるインデックスに基づいて変換セットを識別するステップと、によって実行される。

一実施形態によれば、変換セットは二次変換である。

１つ以上の実施形態によれば、システムが提供される。システムは、コンピュータプログラムコードを格納するように構成された少なくとも１つのメモリと、プログラムコードにアクセスし、コンピュータプログラムコードによって命令されるように動作するように構成された少なくとも１つのプロセッサと、を備え、コンピュータプログラムコードは、少なくとも１つのプロセッサに、受信されたコーディングされたビットストリームから画像のブロックをデコードさせるように構成されたデコードコードを含む。デコードコードは、少なくとも１つのプロセッサに、１つ以上の、先行してデコードされた近接ブロックから又は先行してデコードされた画像から少なくとも１つの近接する再構成されたサンプルに基づいて変換セットを選択させるように構成された変換セット選択コードと、少なくとも１つのプロセッサに、変換セットからの変換を使用してブロックの係数を逆変換させるように構成された変換コードと、
を含む。

一実施形態によれば、変換セットは、さらに予測モードのコーディング情報に基づいて選択されたものである。

一実施形態によれば、コーディング情報はインター予測モードのものである。

一実施形態によれば、変換セット選択コードは、少なくとも１つのプロセッサに、第１コーディング情報に基づいて前記変換セットのグループから変換セットのサブグループを選択させ、サブグループから変換セットを選択させる

一実施形態によれば、変換セット選択コードは、少なくとも１つのプロセッサに、第２コーディング情報に基づいて変換セットを選択させるように構成されており、デコードコードはさらに、少なくとも１つのプロセッサに、コーディングされたビットストリーム内でシグナリングされたインデックス値に基づいて変換セットから変換候補を選択させるように構成された変換選択コードを含む。

一実施形態によれば、変換セット選択コードは、変換セットのグループから変換セットを選択するように構成されており、変換セットのグループは二次変換カーネルのみを含む。

一実施形態によれば、第２変換カーネルは非分離可能である。

一実施形態によれば、変換セット選択コードは、少なくとも１つのプロセッサに、ニューラルネットワークに少なくとも１つの近接する再構成サンプルの情報を入力させ、ニューラルネットワークからの出力であるインデックスに基づいて変換セットを識別させる、ように構成されている。

１つ以上の実施形態によれば、コンピュータ命令を格納する非一時的コンピュータ可読媒体が提供される。コンピュータコードは、少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、受信されたコーディングビットストリームからの画像のブロックを：１つ以上の、先行してデコードされた近接ブロックから又は先行してデコードされた画像から少なくとも１つの近接する再構成されたサンプルに基づいて変換セットを選択するステップと、変換セットからの変換を使用してブロックの係数を逆変換するステップと、によってデコードさせるように構成されている。

開示された主題のさらなる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。
図１は、一実施形態による通信システムの簡略ブロック図を模式的に示す図である。図２は、一実施形態による通信システムの簡略ブロック図を模式的に示す図である。図３は、一実施形態によるデコーダの簡略ブロック図を模式的に示す図である。図４は、一実施形態によるエンコーダの簡略ブロック図を模式的に示す図である。図５Ａは、ＶＰ９の第１例示的パーテション構造を示す図である。図５Ｂは、ＶＰ９の第２例示的パーテション構造を示す図である。図５Ｃは、ＶＰ９の第３例示的パーテション構造を示す図である。図５Ｄは、ＶＰ９の第４例示的パーテション構造を示す図である。図６Ａは、ＡＶ１の第１例示的パーテション構造を示す図である。図６Ｂは、ＡＶ１の第２例示的パーテション構造を示す図である。図６Ｃは、ＡＶ１の第３例示的パーテション構造を示す図である。図６Ｄは、ＡＶ１の第４例示的パーテション構造を示す図である。図６Ｅは、ＡＶ１の第５例示的パーテション構造を示す図である。図６Ｆは、ＡＶ１の第６例示的パーテション構造を示す図である。図６Ｇは、ＡＶ１の第７例示的パーテション構造を示す図である。図６Ｈは、ＡＶ１の第８例示的パーテション構造を示す図である。図６Ｉは、ＡＶ１の第９例示的パーテション構造を示す図である。図６Ｊは、ＡＶ１の第１０例示的パーテション構造を示す図である。図７は、ＡＶ１における８つの公称角度を示す図である。図８は、現在ブロックとサンプルを示す図である。図９は、再帰的イントラフィルタリングモードの例を示す図である。図１０は、コーディングブロックユニットに近接する参照ラインを示す図である。図１１は、ＡＶ１ハイブリッド変換カーネル及びそれらの利用可能性の表である。図１２は、低周波非分離可能変換プロセスの図である。図１３は、マトリクスの説明図である。図１４は、カーネル及び画像の二次元コンボリューションを説明するための図である。図１５は、画像のパッチの最大プーリングを示すための図である。図１６Ａは、第１イントラデコーディングプロセスを示す図である。図１６Ｂは、第２イントラデコーディングプロセスを示す図である。図１７は、畳み込みニューラルネットワークフィルタアーキテクチャの一例を示す図である。図１８は、畳み込みニューラルネットワークフィルタアーキテクチャの一例を示す図である。図１９は、高密度残差ユニット構造の一例を示す図である。図２０は、第１プロセスを示す図である。図２１は、第２プロセスを示す図である。図２２は、イントラ予測モードから変換セットインデックスへのマッピングの表である。図２３Ａは、比較例による第１残差パターンの説明図である。図２３Ｂは、比較例による第２残差パターンの説明図である。図２３Ｃは、比較例による第３残差パターンの説明図である。図２３Ｄは、比較例による第４残差パターンの説明図である。図２４は、本開示の一実施例によるデコーダの概略図である。図２５は、実施形態を実施するのに適したコンピュータシステムの図である。

本開示において、ブロックという用語は、予測ブロック、コーディングブロック、又はコーディングユニット（ＣＵ）として解釈され得る。ここでの「ブロック」という用語は、変換ブロックを指すためにも使用され得る。

本開示において、用語「変換セット（ｔｒａｎｓｆｏｒｍｓｅｔ）」は、変換カーネル（又は候補）オプションのグループを指す。変換セットは一つ以上の変換カーネル（又は候補）オプションを含むことがある。本開示の実施形態によれば、１つ以上の変換オプションが利用可能である場合、インデックスは、変換セット内の変換オプションのうちのいずれが現在のブロックに適用されるかを示すためにシグナリングされ得る。

本開示において、用語「予測モードセット」は、予測モードオプションのグループを指す。予測モードセットは、複数の予測モードオプションを含み得る。本開示の実施形態によれば、複数の予測モードオプションが利用可能である場合に、インデックスは、予測モードセットにおける予測モードオプションのうちの１つが予測を実行するために現在のブロックに適用されるものを示すために、さらにシグナリングされ得る。

本開示において、用語「近接する再構成されたサンプルセット（ｎｅｉｇｈｂｏｒｉｎｇｒｅｃｏｎｓｔｒｕｃｔｅｄｓａｍｐｌｅｓｓｅｔ）」は、先行してデコードされた近接するブロックから再構成されたサンプル、又は先行してデコードされた画像内の再構成されたサンプルのグループを指す。

本開示において、「ニューラルネットワーク」という用語は、「ビデオコーディングのための深層学習」に関して本明細書で説明されるように、１つまたは複数の層を有するデータ処理構造の一般的な概念を指す。本開示の実施形態によれば、任意のニューラルネットワークは、実施形態を実施するように構成され得る。

図１は、本開示の一実施形態による通信システム（１００）の簡略化されたブロック図を示す。システム（１００）は、ネットワーク（１５０）を介して相互接続された少なくとも２つの端末（１１０、１２０）を含み得る。データの一方向伝送のために、第１端末（１１０）は、ネットワーク（１５０）を介して他の端末（１２０）に伝送するために、ローカル位置でビデオデータをコーディングし得る。第２端末（１２０）は、ネットワーク（１５０）から他方の端末のコーディングされたビデオデータを受信し、コーディングされたデータをデコードし、復元されたビデオデータを表示することができる。一方向性データ伝送は、メディア提供アプリケーション等において一般的であり得る。

図１は、例えば、テレビ会議中に発生し得るコーディングビデオの双方向伝送をサポートするために設けられた第２端末ペア（１３０、１４０）を示す。データの双方向伝送のために、各端末（１３０，１４０）は、ネットワーク（１５０）を介して他方の端末に伝送するために、ローカル位置で捕捉されたビデオデータをコーディングし得る。各端末（１３０，１４０）はまた、他の端末によって送信されたコーディングビデオデータを受信することができ、コーディングビデオデータをデコードすることができ、復元されたビデオデータをローカル表示装置に表示することができる。

図１において、端末（１１０～１４０）は、サーバ、パーソナルコンピュータ、及びスマートフォン、及び／又は任意の他のタイプの端末として示されることができる。例えば、端末（１１０～１４０）は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、及び／又は専用のテレビ会議装置であることができる。ネットワーク（１５０）は、例えば、有線及び／又は無線通信ネットワークを含む、端末（１１０～１４０）間でコーディングされたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク（１５０）は、回線交換及び／又はパケット交換チャネル内のデータを交換することができる。代表的なネットワークには、テレコミュニケーションネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又はインターネットが含まれる。本説明の目的のためには、以下に説明しない限り、ネットワーク（１５０）のアーキテクチャ及びトポロジーは本発明の動作には重要ではない。

図２は、開示された主題のアプリケーションの例として、ストリーミング環境におけるビデオエンコーダ及びデコーダの配置を示す。開示された主題は、例えば、ビデオ会議、デジタルＴＶや、ＣＤ、ＤＶＤ、メモリースティック等を含むデジタルメディアへの圧縮ビデオの保存等を含む、他のビデオ対応アプリケーションに等しく適用することができる。

図２に示すように、ストリーミングシステム（２００）は、ビデオソース（２０１）及びエンコーダ（２０３）を含むことができるキャプチャサブシステム（２１３）を含み得る。ビデオソース（２０１）は、例えば、デジタルカメラであり得、非圧縮ビデオサンプルストリーム（２０２）を生成するように構成され得る。非圧縮ビデオサンプルストリーム（２０２）は、エンコードされたビデオビットストリームと比較した場合に、高いデータボリュームを提供することができ、カメラ（２０１）に結合されたエンコーダ（２０３）によって処理することができる。エンコーダ（２０３）は、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができ、以下により詳細に説明されるように、開示された主題の態様を可能にし、又は実現する。エンコードされたビデオビットストリーム（２０４）は、サンプルストリームと比較した場合、より低いデータボリュームを含むことができ、将来の使用のためにストリーミングサーバ（２０５）に格納することができる。１つ以上のストリーミングクライアント（２０６）は、ストリーミングサーバ（２０５）にアクセスして、エンコードされたビデオビットストリーム（２０４）のコピーであり得るビデオビットストリーム（２０９）を検索することができる。

実施形態において、ストリーミングサーバ（２０５）はまた、メディアアウェアネットワーク要素（ＭＡＮＥ）として機能し得る。例えば、ストリーミングサーバ（２０５）は、潜在的に異なるビットストリームを１つ以上のストリーミングクライアント（２０６）に合わせて調整するために、エンコードされたビデオビットストリーム（２０４）をプルーニングするように構成され得る。実施形態において、ＭＡＮＥは、ストリーミングシステム（２００）内のストリーミングサーバ（２０５）から別々に提供され得る。

ストリーミングクライアント（２０６）は、ビデオデコーダ（２１０）及びディスプレイ（２１２）を含むことができる。ビデオデコーダ（２１０）は、例えば、エンコードされたグビデオビットストリーム（２０４）の受信コピーであるビデオビットストリーム（２０９）をデコードし、ディスプレイ（２１２）又は他のレンダリングデバイス（図示せず）上でレンダリング可能な送信ビデオサンプルストリーム（２１１）を生成することができる。いくつかのストリーミングシステムでは、ビデオビットストリーム（２０４、２０９）は、特定のビデオコーディング／圧縮標準に従ってエンコードされることができる。このような標準の例としては、ＩＴＵ－Ｔ勧告Ｈ．２６５が挙げられるが、これに限定されるものではない。多用途ビデオコーディング（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ：ＶＣＣ）として知られるビデオコーディング規格は開発中である。本開示の実施形態は、ＶＶＣに関連して使用され得る。

図３は、本開示の一実施形態による、ディスプレイ（２１２）に取り付けられたビデオデコーダ（２１０）の機能ブロック図の一例を示す。

ビデオデコーダ（２１０）は、チャネル（３１２）、受信器（３１０）、バッファメモリ（３１５）、エントロピデコーダ／パーサ（３２０）、スカラ／逆変換ユニット（３５１）、イントラ予測ユニット（３５２）、モーション補償予測ユニット（３５３）、アグリゲータ（３５５）、ループフィルタユニット（３５６）、参照画像メモリ（３５７）、及び現在画像メモリ（３５７）を含み得る。少なくとも１つの実施形態では、ビデオデコーダ（２１０）は、集積回路、一連の集積回路、及び／又は他の電子回路を含むことができる。ビデオデコーダ（２１０）はまた、関連するメモリを備えた１つ以上のＣＰＵ上で実行されるソフトウェアで部分的又は完全に実施され得る。

この実施形態及び他の実施形態では、受信器（３１０）は、１つのコーディングビデオシーケンスがデコーダ（２１０）によってデコードされるべき、１つ以上のコーディングビデオシーケンスを受信することができ、各コーディングビデオシーケンスのデコードは、他のコーディングビデオシーケンスから独立している。コーディングされたビデオシーケンスは、チャネル（３１２）から受信することができ、このチャネルは、エンコードされたビデオデータを格納するストレージデバイスへのハードウェア／ソフトウェアリンクであり得る。受信器（３１０）は、エンコードされたビデオデータを、他のデータ、例えばコーディングされたオーディオデータ及び／又は補助的なデータストリームと共に受信することができ、これらのデータは、それぞれのエンティティ（図示せず）を使用して転送され得る。受信器（３１０）は、コーディングされたビデオシーケンスを他のデータから分離することができる。ネットワークジッタに対抗するために、バッファメモリ（３１５）が、受信器（３１０）とエントロピデコーダ／パーサ（３２０）（以後「パーサ」）との間に結合され得る。受信器（３１０）が、十分な帯域幅及び可制御性のストア／フォワードデバイスから、又は、等同期ネットワーク（ｉｓｏｓｙｎｃｈｒｏｎｏｕｓｎｅｔｗｏｒｋ）からデータを受信している場合、バッファ（３１５）は使用されないか、又は小さい可能性がある。インターネットのようなベストエフォート型パケット網上の使用のために、バッファ（３１５）は、必要とされることができて、比較的大きくなることができて、適応サイズであることができる。

ビデオデコーダ（２１０）は、コーディングされたビデオシーケンスからシンボル（３２１）を再構成するためのパーサ（３２０）を含み得る。これらのシンボルのカテゴリには、例えば、デコーダ（２１０）の動作を管理するために使用される情報、及び図２に示すようにデコーダに結合され得るディスプレイ（２１２）のようなレンダリングデバイスを制御するための潜在的な情報が含まれる。（１つ以上の）レンダリングデバイスの制御情報は、付加拡張情報（ＳＥＩ）メッセージ又はビデオユーザビリティ情報（ＶＵＩ）パラメータセットフラグメント（図示せず）の形態であり得る。パーサ（３２０）は、受信されるコーディングされたビデオシーケンスをパースし／エントロピデコードすることができる。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術又は標準に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト感度を伴う又は伴わない算術コーディングなどを含む原理に従うことができる。パーサ（３２０）は、グループに対応する少なくとも１つのパラメータに基づいて、ビデオデコーダ内のピクセルのサブグループのうちの少なくとも１つに対するサブグループパラメータのセットを、コーディングされたビデオシーケンスから抽出し得る。サブグループは、画像グループ（ＧＯＰ）、画像、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ）、ブロック、変換ユニット（ＴＵ）、予測ユニット（ＰＵ）等を含み得る。

パーサ（３２０）はまた、変換係数、量子化パラメータ値、動きベクトル等の情報を、コーディングされたビデオシーケンスから抽出し得る。パーサ（３２０）は、シンボル（３２１）を生成するように、バッファ（３１５）から受信したビデオシーケンスに、エントロピデコード／パース動作を実行し得る。

シンボル（３２１）の再構成は、コーディングされたビデオ画像又はその部分のタイプ（例えば、画像間及び画像内、ブロック間及びブロック内）及び他の要因に応じて、複数の異なるユニットを含むことができる。どのユニットが、どのように含まれているかは、パーサ（３２０）によってコーディングされたビデオシーケンスからパースされたサブグループ制御情報によって制御されることができる。パーサ（３２０）と以下の複数ユニットとの間のかかるサブグループ制御情報のフローは、明確さのために図示されていない。

すでに述べた機能ブロックの他に、デコーダ（２１０）は、概念的に、以下に説明するように、いくつかの機能ユニットに分割されることができる。商業的制約の下で動作する実用的な実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合されることができる。しかしながら、開示された主題を説明するの目的で、以下の機能単位に概念的に細分化することが適切である。

１つのユニットは、スケーラ／逆変換ユニット（３５１）であり得る。スケーラ／逆変換ユニット（３５１）は、パーサー（３２０）から（１つ以上の）シンボル（３２１）として、量子化された変換係数並びに使用する変換、ブロックサイズ、量子化係数、量子化スケーリングマトリクス等を含む制御情報を受信することができるスケーラ／逆変換ユニット（３５１）は、アグリゲータ（３５５）に入力可能なサンプル値を含むブロックを出力することができる。

いくつかの場合には、スケーラ／逆変換ユニット（３５１）の出力サンプルは、イントラコーディングされたブロックに関係することができる；すなわち、先行して再構成された画像からの予測情報を使用していないが、現在の画像の、先行して再構成された部分からの予測情報を使用できるブロック。かかる予測情報は、イントラ画像予測ユニット（３５２）によって提供されることができる。場合によっては、イントラ画像予測ユニット（３５２）は、現在の画像メモリ（３５８）から、（部分的に再構成された）現在の画像からフェッチされた周囲のすでに再構成された情報を使用して、再構成中のブロックと同じサイズ及び形状のブロックを生成する。アグリゲータ（３５５）は、場合によっては、サンプル毎に、イントラ予測ユニット（３５２）が生成した予測情報を、スケーラ／逆変換ユニット（３５１）によって提供される出力サンプル情報に加算する。

他の場合には、スケーラ／逆変換ユニット（３５１）の出力サンプルは、インターコーディングに関係し、潜在的にモーション補償ブロックに関係することができる。かかる場合、動き補償予測ユニット（３５３）は、予測に使用されるサンプルをフェッチするために参照画像メモリ（３５７）にアクセスすることができる。ブロックに関連するシンボル（３２１）にしたがって、フェッチされたサンプルを動き補償した後、これらのサンプルは、アグリゲータ（３５５）によってスケーラ／逆変換ユニット（３５１）の出力（この場合は残差サンプル又は残差信号と称される）に追加して、出力サンプル情報を生成できる。動き補償予測ユニット（３５３）が予測サンプルをフェッチする参照画像メモリ（３５７）内のアドレスは、動きベクトルによって制御することができる。動きベクトルは、例えば、Ｘ、Ｙ、及び参照画像コンポーネントを有することができるシンボル（３２１）の形態で、動き補償予測ユニット（３５３）に利用可能であり得る。動き補償はまた、サブサンプルの正確な動きベクトルが使用されている場合には、参照画像メモリ（３５７）からフェッチされるようにサンプル値を補間すること、動きベクトル予測機構、等を含むことができる。

アグリゲータ（３５５）の出力サンプルは、ループフィルタユニット（３５６）内の種々のループフィルタリング技術を受けることができる。ビデオ圧縮技術は、コーディングされたビデオビットストリームに含まれるパラメータによって制御され、パーサー（３２０）からのシンボル（３２１）としてループフィルターユニット（３５６）に利用可能になるインループフィルター技術を含むことができるが、コーディングされた画像又はコーディングされたビデオシーケンスの先行した（デコード順の）部分的なデコード中に取得されたメタ情報に応答することも、先行して再構成及びループフィルタリングされたサンプル値に応答することもできます。

ループフィルタユニット（３５６）の出力は、ディスプレイ（２１２）等のレンダリングデバイスに出力されることができ、また将来のインター画像予測に使用するために参照画像メモリ（３５７）に記憶されることができるサンプルストリームであることができる。

コーディングされた画像は、一旦完全に再構成されると、将来の予測のための参照画像として使用されることができる。コーディングされた画像が完全に再構成されており、コーディングされた画像が参照画像として（例えば、パーサー（３２０）によって）識別され、現在の参照画像は、参照画像メモリ（３５７）の一部となり、新たな現在の画像メモリは、後続のコーディング画像の再構成を開始する前に再割当てされ得る。

ビデオデコーダ（２１０）は、ＩＴＵ－ＴＲｅｃ．２６５などの標準に文書化され得る所定のビデオ圧縮技術に従ってデコード動作を実行することができる。コーディングされたビデオシーケンスは、使用されているビデオ圧縮技術または標準によって指定された構文に準拠している可能性があり、その意味でビデオ圧縮技術ドキュメント又は標準、特にその中のプロファイルドキュメントで指定されているように、ビデオ圧縮技術又は標準の構文に準拠しています。また、一部のビデオ圧縮技術又は標準に準拠するために、コーディングされたビデオシーケンスの複雑さは、ビデオ圧縮技術又は標準のレベルによって定義される範囲内にある場合がある。場合によっては、レベルは、最大画像サイズ、最大フレームレート、最大再構成サンプルレート（例えば、毎秒メガサンプルで測定される）、最大参照画像サイズなどを制限する。レベルによって設定された制限は、場合によっては、仮想参照デコーダ（ＨＲＤ：ＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ）の仕様と、コーディングされたビデオシーケンスでシグナリングされるＨＲＤバッファ管理のメタデータによってさらに制限され得る。

一実施形態では、受信器（３１０）は、エンコードされたビデオと共に追加の（冗長な）データを受信することができる。追加データは、コーディングされた（複数の）ビデオシーケンスの部分として含まれ得る。追加のデータは、データを適切にデコードするため、及び／又は元のビデオデータをより正確に再構成するために、ビデオデコーダ（２１０）によって使用され得る。追加のデータは、例えば、時間的、空間的、又はＳＮＲ拡張層、冗長スライス、冗長画像、前方エラー補正コードなどの形態であり得る。

図４は、本開示の一実施形態による、ビデオ・ソース（２０１）に関連付けられたビデオ・エンコーダ（２０３）の機能ブロック図の一例を示す。

ビデオエンコーダ（２０３）は、例えば、ソースコーダ（４３０）、コーディングエンジン（４３２）、（ローカル）デコーダ（４３３）、基準画像メモリ（４３４）、予測器（４３５）、送信器（４４０）、エントロピコーダ（４４５）、コントローラ（４５０）、及びチャネル（４６０）であるエンコーダを含むことができる。

エンコーダ（２０３）は、エンコーダ（２０３）によってコーディングされるべきビデオ画像を捕捉することができるビデオソース（２０１）（エンコーダの一部ではない）からビデオサンプルを受信することができる。

ビデオソース（２０１）は、任意の適切なビット深さ（例えば、８ビット、１０ビット、１２ビット、．．．）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ、．．．）及び任意の適切なサンプリング構造（例えば、ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）であり得るデジタルビデオサンプルストリームの形態で、エンコーダ（２０３）によってコーディングされるソースビデオシーケンスを提供することができる。メディア配信システムにおいて、ビデオソース（２０１）は、予め準備されたビデオを記憶する記憶デバイスであり得る。ビデオ会議システムでは、ビデオソース（２０３）は、局所映像情報をビデオシーケンスとして捕捉するカメラであり得る。ビデオデータは、シーケンスで見たときに動きをもたらす複数の個々の画像として提供され得る。画像自体は、ピクセルの空間アレイとして組織化されることができ、各ピクセルは、使用中のサンプリング構造、色空間等に応じて、１つ以上のサンプルを含むことができる。当業者は、ピクセルとサンプルとの関係を容易に理解することができる。以下の説明は、サンプルに焦点を当てている。

一実施例によれば、エンコーダ（２０３）は、リアルタイムで、又はアプリケーションによって必要とされる他の任意の時間制約の下で、ソースビデオシーケンスの画像をコーディングされたビデオシーケンス（４４３）にコーディングして圧縮することができる。適切なコーディング速度を強制することは、コントローラー（４５０）の１つの機能である。コントローラ（４５０）はまた、以下に説明されるように他の機能ユニットを制御することができ、これらのユニットに機能的に結合することができる。カップリングは、明確にするため表されない。コントローラ（４５０）によって設定されるパラメータは、レート制御関連パラメータ（画像スキップ、量子化器、レート歪み最適化技術のラムダ値、．．．）、画像サイズ、画像グループレイアウト、最大動きベクトルサーチレンジ等を含むことができる。当業者は、コントローラ（４５０）の他の機能を、特定のシステム設計のために最適化されたビデオエンコーダ（２０３）に関連し得るので、容易に識別することができる。

いくつかのビデオエンコーダは、当業者が「コーディングループ」として容易に認識できるもので動作する。単純化されすぎた説明として、コーディングループは、ソースコーダ（４３０）のエンコード部分（コーディングされるべき入力ピクチャ及び（１つ以上の）参照ピクチャに基づいてシンボルを生成する責任がある）と、エンコーダ（２０３）に埋め込まれた（ローカル）デコーダ（４３３）とから構成され、これは、シンボルを再構成し、（リモート）デコーダがまた、特定のビデオ圧縮技術においてシンボルとコーディングされたビデオビットストリームとの間の圧縮がロスレスであるときに生成するであろうサンプルデータを生成する。再構成されたサンプルストリームは、参照画像メモリ（４３４）に入力される。シンボルストリームのデコーディングは、デコーダロケーション（ローカル又はリモート）に依存しないビットイクザクトな結果（ｂｉｔ－ｅｘａｃｔｒｅｓｕｌｔｓ）をもたらすので、参照画像メモリ内容もまた、ローカルエンコーダとリモートエンコーダとの間でビットイクザクトである。換言すれば、エンコーダの予測部分は、デコーダがデコード中に予測を使用するときに「見る」のとまったく同じサンプル値を参照画像サンプルとして「見る」。参照画像同期性のこの基本原理（及び、例えばチャンネルエラーのために、同期性が維持できない場合の結果として生じるドリフト）は、当業者に知られている。

「ローカル」デコーダ（４３３）の動作は、「リモート」デコーダ（２１０）の動作と同じであり得、これは、図３と関連して詳細に既に上述したとおりである。しかしながら、シンボルが利用可能であり、エントロピコーダ（４４５）及びパーサ（３２０）によるコーディングビデオシーケンスへのシンボルのエンコード／デコードがロスレスであるため、チャネル（３１２）、受信器（３１０）、バッファ（３１５）及びパーサ（３２０）を含むデコーダ（２１０）のエントロピデコード部分は、ローカルデコーダ（４３３）に完全には実装されないことがある。

この点で行うことができる観察は、デコーダ内に存在するパース／エントロピデコードを除く任意のデコーダ技術であり、対応するエンコーダ内に実質的に同一の機能的形態で存在する必要があり得ることである。このために、開示された主題は、デコーダ動作に集中する。エンコーダ技術の記述は、総合的に記述されたデコーダ技術の逆であり得るため、省略することができる。特定の分野においてのみ、より詳細な説明が必要であり、以下に提供される。

その動作の一部として、ソースコーダ（４３０）は、動き補償予測コーディングを実行することができ、これは、「参照フレーム」として指定されたビデオシーケンスからの１つ以上の、先行してコーディングされたフレームを参照して入力フレームをコーディングする。このようにして、コーディングエンジン（４３２）は、入力フレームのピクセルブロックと、入力フレームに対する（１つ以上の）予測参照として選択され得る（１つ以上の）参照フレームのピクセルブロックとの間の差分をコーディングする。

ローカルビデオデコーダ（４３３）は、ソースコーダ（４３０）によって生成されたシンボルに基づいて、参照画像として指定され得るフレームのコーディングされたビデオデータをデコードし得る。コーディングエンジン（４３２）の動作は、有利には、非可逆プロセスであり得る。コーディングされたビデオデータがビデオデコーダ（図４には示されていない）でデコードされ得る場合、再構成されたビデオシーケンスは、典型的には、いくつかのエラーを伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ（４３３）は、参照フレーム上でビデオデコーダによって実行され、参照画像メモリ（４３４）に格納されるべき再構成された参照フレームを生じさせ得るデコード処理を繰り返す。このようにして、エンコーダ（２０３）は、遠位端ビデオデコーダ（送信エラーがない）によって得られるであろう再構成された参照フレームとして、共通のコンテンツを有する再構成された参照フレームのコピーをローカルに格納することができる。

予測器（４３５）は、コーディングエンジン（４３２）について予測サーチを実行し得る。すなわち、コーディングされるべき新たなフレームのために、予測器（４３５）は、参照画像メモリ（４３４）を検索して、サンプルデータ（候補参照ピクセルブロックとして）又は参照画像動きベクトル、ブロック形状などの特定のメタデータをサーチすることができ、これは、新たな画像の適切な予測参照として役立つ可能性がある。予測器（４３５）は、適切な予測参照を見出すために、サンプルブロック毎に動作し得る。場合によっては、予測器（４３５）によって得られたサーチ結果によって決定されるように、入力画像は、参照画像メモリ（４３４）に記憶された複数の参照画像から引き出された予測参照を有し得る。

コントローラ（４５０）は、例えば、ビデオデータをエンコードするために使用されるパラメータ及びサブグループパラメータの設定を含む、ビデオコーダ（４３０）のコーディング動作を管理し得る。

上述した機能ユニットの全ての出力は、エントロピコーダ（４４５）におけるエントロピコーディングを受け得る。エントロピコーダは、例えばハフマンコーディング、可変長コーディング、算術コーディング等の当業者に知られた技術にしたがって、シンボルをロスレスに圧縮することによって、種々の機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。

送信器（４４０）は、エントロピコーダー（４４５）によって作成された（１つ以上の）コーディングビデオシーケンスをバッファリングして、エンコードされたビデオデータを格納し得るストレージデバイスへのハードウェア／ソフトウェアリンクあり得る通信チャネル（４６０）を介した送信に備えることができる。送信器（４４０）は、ビデオコーダ（４３０）からのコーディングされたビデオデータを、例えばコーディングされたオーディオデータ及び／又は補助的なデータストリーム（図示せず）等の、送信されるべき他のデータとともにマージし得る。

コントローラ（４５０）は、エンコーダ（２０３）の動作を管理し得る。コーディングの間、コントローラ（４５０）は、各コーディングされた画像に、特定のコーディングされた画像タイプを割り当てることができ、これは、各画像に適用され得るコーディング技術に影響を及ぼし得る。例えば、画像は多くの場合、イントラ画像（Ｉ画像）、予測画像（Ｐ画像）又は双方向予測画像（Ｂ画像）として割り当てられます。

イントラ画像（Ｉ画像）は、予測の出所としてシーケンスの他の任意のフレームを使用せずにコーディング及びデコードされることができるものであり得る。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ（ＩＤＲ：ＩｎｄｅｐｅｎｄｅｎｔＤｅｃｏｄｅｒＲｅｆｒｅｓｈ）画像を含む、異なるタイプのイントラ画像を許容する。当業者は、Ｉ画像のこれらの変形例、並びにそれらのそれぞれの用途及び特徴を認識している。

予測画像（Ｐ画像）は、各ブロックのサンプル値を予測するために、最大で１つの動きベクトルと参照インデックスを用いるインター予測又はイントラ予測を使用して、コーディングされ、デコードされ得るものであり得る。

双方向（ｂｉ－ｄｉｒｅｃｔｉｏｎａｌｌｙ）予測画像（Ｂ画像）は、各ブロックのサンプル値を予測するために、最大で２つの動きベクトルと参照インデックスを用いるインター予測又はイントラ予測を使用して、コーディングされ、デコードされ得るものであり得る。同様に、複数の予測画像は、１つのブロックの再構成のために、２つ以上の参照画像及び関連するメタデータを使用することができる。

ソース画像は、通常、空間的に複数のサンプルブロック（例えば、４×４、８×８、４×８、又は１６×１６の各サンプルのブロック）に分割され、ブロック毎にコーディングされる。ブロックは、ブロックのそれぞれの画像に適用されるコーディング割り当てによって決定された、他の（既にコーディングされた）ブロックを参照して予測的にコーディングされ得る。例えば、Ｉ画像のブロックは、非予測的にコーディングされるか、又は、それらは、同じ画像の既にコーディングされたブロック（空間予測又はイントラ予測）を参照して予測的にコーディングされ得る。空間予測を経て、又は、１つの、先行してコードかされた参照画像に関する時間予測を経て、Ｐ画像のピクセルブロックは、非予測的にコーディングされることができる。Ｂ画像のブロックは、１つ又は２つの、先行してコーディングされた参照画像を参照して、空間的予測を介して、又は時間的予測を介して非予測的にコーディングされ得る。

ビデオエンコーダ（２０３）は、所定のビデオコーディング技術又はＩＴＵ－ＴＲｅｃ．Ｈ．２６５．等の標準にしたがってコーディング動作を実行し得る。その動作において、ビデオコーダ（２０３）は、入力ビデオシーケンスにおける時間的及び空間的冗長性を活用する予測コーディング動作を含む種々の圧縮動作を実行し得る。したがって、コーディングされたビデオデータは、使用されているビデオコーディング技術又は標準によって指定された構文に準拠し得る。

一実施例において、送信器（４４０）は、エンコードされたビデオとともに付加的なデータを送信することができる。ソースコーダ（４３０）は、コーディングされたビデオシーケンスの一部としてかかるデータを含むことができる。追加のデータは、時間的／空間的／ＳＮＲ強調レイヤーや、他の形式の冗長データ、例えば冗長画像及びスライス、補足強化情報（ＳＥＩ：ＳｕｐｐｌｅｍｅｎｔａｒｙＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ）メッセージ、視覚ユーザビリティ情報（ＶＵＩ：ＶｉｓｕａｌＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ）パラメータセットフラグメント等を含み得る。

［ＶＰ９とＡＶ１のコーディングブロックパーテション］

図５Ａ～Ｄのパーテション構造（５０２）～（５０８）を参照すると、ＶＰ９は、６４ｘ６４レベルから４ｘ４レベルまでの４ウェイパーテションツリーを使用するが、ブロック８ｘ８にはいくつかの追加の制限がある。図５ＤにおいてＲとして示されたパーテションは、最低の４×４レベルに達するまで、同じパーテションツリーがより低いスケールで繰り返されるという点で、再帰を意味することに留意されたい。

図６Ａ～Ｊのパーテション構造（５１１）～（５２０）を参照する。ＡＶ１は、パーテションツリーを１０ウェイ構造に拡張するだけでなく、最大サイズ（ＶＰ９／ＡＶ１用語ではスーパーブロックと称される）を１２８ｘ１２８から開始するように拡張する。これには、ＶＰ９に存在しなかった４：１／１：４の矩形パーテションが含まれていることに留意されたい。図６Ｃ～Ｆに示すように、３つのサブパーテションを持つパーテションタイプは”Ｔ型”パーテションと称される。矩形パーテションは、さらに細分化することはできない。コーディングブロックのサイズに加えて、ルートノートからの分割深さを示すために、コーディングツリー深さを画定することができる。具体的には、ルートノードのコーディングツリー深さ、例えば１２８ｘ１２８を０に設定し、ツリーブロックをさらに分割した後、コーディングツリー深さを１増やす。

ＶＰ９のように固定された変換ユニットのサイズを実施する代わりに、ＡＶ１を使用すると、ルマコーディングブロックを複数のサイズの変換ユニットにパーテション化でき、この変換ユニットは、最大２レベル下がる再帰パーテションで表すことができる。ＡＶ１の拡張コーディングブロックパーテションを組み込むために、正方形、２：１／１：２及び４：１／１：４の、４ｘ４から６４ｘ６４へのサイズ変換がサポートされ得る。クロマブロックでは、可能な最大の変換ユニットのみが許可される。

［ＨＥＶＣのブロックパーテション化］

ＨＥＶＣでは、コーディングツリーユニット（ＣＴＵ）は、様々なローカル特性に適応するためにコーディングツリーとして示される四分木（ＱＴ）構造を使用することによってコーディングユニット（ＣＵ）に分割され得る。インター画像（時間的）予測又はイントラ画像（空間的）予測を使用して画像領域をコーディングするかどうかの決定を、ＣＵレベルで行うことができる。各ＣＵはさらに、ＰＵ分割タイプにしたがって、１つ、２つ、又は４つの予測ユニット（ＰＵ）に分割することができる。１つのＰＵの内部では、同じ予測プロセスが適用され、関連情報がＰＵベースでデコーダに送信される。ＰＵ分割型に基づく予測プロセスを適用して残留ブロックを取得した後、ＣＵを、ＣＵのコーディングツリーのような別の四分木構造に従って変換ユニット（ＴＵ）に分割できる。ＨＥＶＣ構造の重要な特徴の一つは、ＣＵ、ＰＵ、及びＴＵを含む多重パーテション概念を有することである。ＨＥＶＣでは、ＣＵ又はＴＵは正方形の形状のみを有することができ、一方、ＰＵは、インター予測ブロックに対して正方形又は長方形の形状を有することができる。ＨＥＶＣでは、１つのコーディングブロックをさらに４つの正方形サブブロックに分割し、変換を各サブブロック（すなわち、ＴＵ）に対して実行することができる。各ＴＵはさらに再帰的に（四分木分割を用いて）より小さなＴＵに分割することができ、これは残差四分木（ＲＱＴ）と呼ばれる。

画像境界では、ＨＥＶＣは、ブロックが画像境界に合うサイズになるまで四分木分割を維持するように、暗黙的四分木分割（ｉｍｐｌｉｃｉｔｑｕａｄ－ｔｒｅｅｓｐｌｉｔ）を採用する。

［ＶＶＣにおけるネスト型マルチタイプツリーコーディングブロック構造を持つ四分木］

ＶＶＣでは、２進分割・３進分割セグメンテーション構造を用いた、ネストされたマルチタイプツリーを有する四分木が、複数のパーテションユニットタイプの概念を置き換える。つまり、ＶＶＣには、最大変換長に対してサイズが大きすぎるＣＵに必要な場合を除いて、ＣＵ、ＰＵ、及びＴＵの概念の分離は含まれず、ＣＵパーテション形状の柔軟性を向上させる。コーディングツリー構造では、ＣＵは正方形又は長方形のいずれかの形をとることができる。コーディングツリーユニット（ＣＴＵ）は、先ず四次ツリー（別名、四分木）構造によって分割される。その後、四次ツリーリーフノードは、マルチタイプツリー構造によってさらに分割することができる。マルチタイプツリー構造には、垂直二分法（ＳＰＬＩＴ＿ＢＴ＿ＶＥＲ）、水平二分法（ＳＰＬＩＴ＿ＢＴ＿ＨＯＲ）、垂直三分法（ＳＰＬＩＴ＿ＴＴ＿ＶＥＲ）、水平三分法（ＳＰＬＩＴ＿ＴＴ＿ＨＯＲ）の４つの分法がある。マルチタイプツリーリーフノードは、コーディングユニット（ＣＵ）と呼ばれることがあり、ＣＵが最大変換長に対して大きすぎない限り、このセグメンテーションは、さらなる分割なしに、予測及び変換処理に使用され得る。これは、ほとんどの場合、ＣＵ、ＰＵ、及びＴＵは、ネストされたマルチタイプのツリーコーディングブロック構造を持つ四分木において同じブロックサイズを持つことを意味する。例外は、サポートされる変換長の最大値がＣＵの色成分の幅又は高さよりも小さい場合に発生する。ブロックパーテションの一例は、ＣＴＵが、四分木とネスト型マルチタイプツリーコーディングブロック構造を備えた複数のＣＵに分割され、四分木パーテションとマルチタイプツリーパーテションを備えていることである。ネストされたマルチタイプツリーパーテションを持つ四分木は、ＣＵから構成されるコンテンツ適応コーディングツリー構造を提供する。

ＶＶＣでは、最大サポートされるルミナンス変換サイズは６４×６４、最大サポートされるクロミナンス変換サイズは３２×３２です。マ形質転換サイズは３２×３２である。ＣＢの幅又は高さが最大変換幅又は高さよりも大きい場合、ＣＢは自動的に水平方向及び／又は垂直方向に分割され、その方向の変換サイズの制限を満たすことができる。

ＶＴＭ７では、コーディングツリー方式はルマとクロマが別々のブロックツリー構造を持つ能力をサポートする。Ｐ及びＢスライスの場合、１つのＣＴＵのルマ及びクロマＣＴＢは、同一のコーディングツリー構造を共有しなければならない可能性がある。しかしながら、Ｉスライスの場合、ルマとクロマは別々のブロックツリー構造を持つことができる。個別のブロックツリーモードを適用すると、ルマＣＴＢは１つのコーディングツリー構造によってＣＵにパーテションされ、クロマＣＴＢは別のコーディングツリー構造によってクロマＣＵにパーテションされる。これは、Ｉスライス中のＣＵは、ルマ成分のコーディングブロック又は２つのクロマ成分のコーディングブロックを含むことができ、Ｐスライス又はＢスライス中のＣＵは、ビデオがモノクロでない限り、３つのカラー成分すべてのコーディングブロックを含むことができることを意味する。

［ＡＶ１における指向性イントラ予測］

ＶＰ９は、４５度から２０７度までの角度に対応する８方向モードをサポートする。ＡＶ１では、指向性テクスチャにおけるより多様な空間冗長性を利用するために、指向性イントラモード（ｄｉｒｅｃｔｉｏｎａｌｉｎｔｒａｍｏｄｅｓ）をより細かい粒度で設定した角度に拡張した。元の８つの角度は、わずかに変更され、公称角度として作られ、これらの８つの公称角度は、現在ブロック（５４１）に関して図７に示される、Ｖ＿ＰＲＥＤ（５４２）、Ｈ＿ＰＲＥＤ（５４３）、Ｄ４５＿ＰＲＥＤ（５４４）、Ｄ１３５＿ＰＲＥＤ（５４５）、Ｄ１１３＿ＰＲＥＤ（５４４６）、Ｄ１５７＿ＰＲＥＤ（５４７）、Ｄ２０３＿ＰＲＥＤ（５４８）、及びＤ６７＿ＰＲＥＤ（５４９）として命名される。各公称角度に対して、７つのより細かい角度があるため、ＡＶ１は合計５６の方向角度を有する。予測角度は、公称内角度に角度デルタを加えたもので、ステップサイズの３度の－３～３倍である。ＡＶ１では、８つの公称モードと５つの非角度平滑モードが先ずシグナリングされる。その後、現在モードが角度モードである場合、対応する公称角度に対する角度デルタを示すために、インデックスがさらにシグナリングされる。汎用の方法を介してＡＶ１に方向予測モードを実装するために、ＡＶ１の５６方向イントラ予測モードはすべて、各ピクセルを参照サブピクセル位置に投影し、２タップ双線形フィルタによって参照ピクセルを補間する統一された方向予測器で実装される。

［ＡＶ１における非指向性平滑イントラ予測子］

ＡＶ１には、ＤＣ、ＰＡＥＴＨ、ＳＭＯＯＯＴＨ、ＳＭＯＯＴＨ＿Ｖ、ＳＭＯＯＴＨ＿Ｈの５つの非指向性平滑イントラ予測モード（ｎｏｎ－ｄｉｒｅｃｔｉｏｎａｌｓｍｏｏｔｈｉｎｔｒａｐｒｅｄｉｃｔｉｏｎｍｏｄｅｓ）がある。ＤＣ予測のために、左上の近接サンプルの平均が予測すべきブロックの予測子として使用される。ＰＡＥＴＨ予測子は、先ず上部、左側、左上の参照サンプルを取り出し、その後予測する画素の予測子として、最も近い（上＋左－左）値を設定する。図８は、現在ブロック（５５０）内のピクセル（５５２）に対する、上部サンプル（５５４）、左側サンプル（５５６）、及び左上サンプル（５５８）の位置を示す。ＳＭＯＯＴＨ、ＳＭＯＯＴＨ＿Ｖ、及びＳＭＯＯＯＴＨ＿Ｈモードでは、垂直方向又は水平方向の２次補間、又は両方向の平均を使用して、現在ブロック（５５０）が予測される。

［再帰フィルタリングベースのイントラ予測子］

エッジ上の参照による減衰空間相関を捕捉するために、フィルタイントラモードがルマブロック用に設計されている。５つのフィルタイントラモードがＡＶ１に画定されており、それぞれが４ｘ２パッチのピクセルとそれに近接する７つの近接部（ｎｅｉｇｈｂｏｒｓ）との間の相関を反映する８つの７タップフィルタのセットで表される。換言すると、７タップフィルタの重み付け係数は位置に依存する。例えば、図９に示すように、８×８ブロック（５６０）を８×４２パッチに分割することができる。これらのパッチは、図９においてＢ０、Ｂ１、Ｂ２、Ｂ３、Ｂ４、Ｂ５、Ｂ６、及びＢ７として示されている。各パッチについて、Ｒ０～Ｒ６で示される７つの近接部、現在のパッチ内のピクセルを予測するために使用され得る。パッチＢ０では、すべての近接部がすでに再構成されている可能性がある。しかしながら、他のパッチでは、いくつかの近接部が再構成されない可能性があり、近接部の予測値が参照として使用される。例えば、パッチＢ７のすべての近接部が再構成されないので、近接部の予測サンプルが代わりに使用される。

［ルマから予測されるクロマ］

ルマ（ＣｆＬ）からのクロマは、クロマピクセルを同時再構成ルマピクセルの線形関数としてモデル化するクロマのみのイントラ予測子である。ＣｆＬ予測は、式（１）において以下のように表すことができる：
ＣｆＬ（α）＝α×Ｌ^ＡＣ＋ＤＣ（式１）
ここで、ＬＡＣはルマ成分のＡＣ寄与を示し、αは線形モデルのパラメータを示し、ＤＣはクロマ成分のＤＣ寄与を示す。具体的には、再構成されたルマピクセルをクロマ解像度にサブサンプリングし、その後平均値を差し引いてＡＣ寄与を形成する。ＡＣ寄与からクロマＡＣ成分を近似するために、一部の背景技術のようにデコーダにスケーリングパラメータの計算を要求する代わりに、ＡＶ１ＣｆＬは、元のクロマピクセルに基づいてパラメータαを決定し、ビットストリームでそれらをシグナリングすることができる。これは、デコーダの複雑さを低減し、より正確な予測をもたらす。クロマ成分のＤＣ寄与に関しては、ほとんどのクロマコンテンツに十分であり、成熟した高速実装を有するイントラＤＣモードを用いて計算することができる。

［複数行イントラ予測］

マルチラインイントラ予測は、イントラ予測のためにより多くの参照ラインを使用することができ、エンコーダは、どの参照ラインがイントラ予測子を生成するために使用されるかを決定し、シグナリングする。参照ラインインデックスは、イントラ予測モードの前にシグナリングされることができ、ゼロでない参照ラインインデックスがシグナリングされる場合には、最も可能性の高いモードのみが許されることができる。図１０では、４つの参照ライン（５７０）の例が示され、各参照ライン（５７０）は、左上の参照サンプルと共に、６つのセグメント、すなわち、セグメントＡ～Ｆからなる。さらに、セグメントＡとＦには、それぞれセグメントＢとＥの最も近いサンプルが詰め込まれている。

［ＡＶ１の一次変換］

拡張コーディングブロックパーテションをサポートするために、複数の変換サイズ（例えば、各次元に対して４点から６４点までの範囲）及び変換形状（例えば、正方形；幅／高さ比が２：１／１：２及び４：１／１：４の矩形）がＡＶ１に導入される。

２Ｄ変換プロセスは、ハイブリッド変換カーネル（例えば、コーディング残留ブロックの各次元に対して異なる一次元（１Ｄ）変換で構成される）の使用を含むことができる。一実施形態によれば、一次１Ｄ変換は、（ａ）４ポイント、８ポイント、１６ポイント、３２ポイント、又は６４ポイントのＤＣＴ－２；（ｂ）４ポイント、８ポイント、又は１６ポイントの非対称ＤＳＴ（ＤＳＴ－４、ＤＳＴ－７）及びそれらの反転バージョン；及び（ｃ）４ポイント、８ポイント、１６ポイント、又は３２ポイントの識別変換である。ＡＶ１で使用されるＤＣＴ－２及び非対称ＤＳＴの基底関数を以下の表１に示す。表１は、Ｎ点入力のためのＡＶ１一次変換基底関数ＤＣＴ－２、ＤＳＴ－４及びＤＳＴ－７を示す。

ハイブリッド変換カーネルの可用性は、変換ブロックサイズ及び予測モードに基づくことができる。この依存関係は、図１１の表５８０にリストされている。表５８０は、ＡＶ１ハイブリッド変換カーネルと、予測モード及びブロックサイズに基づくそれらの可用性を示す。表５８０において、記号”→”及び”↓”はそれぞれ水平及び垂直次元を示し、”レ”及び”×”はそれぞれそのブロックサイズ及び予測モードのカーネルの可用性及び不可用性を示す。

クロマ成分について、変換タイプの選択は暗黙的に行われることができる。イントラ予測残差について、変換タイプは、以下の表２で指定されるように、イントラ予測モードに従って選択されることができる。インター予測残差について、変換タイプは、コロケーションされた（ｃｏ－ｌｏｃａｔｅｄ）ルマブロックの変換タイプ選択に従って選択することができる。したがって、クロマ成分については、ビットストリームにシグナリングする変換タイプが存在しない可能性がある。

［ＶＶＣにおける二次変換］

図１２を参照すると、ＶＶＣでは、縮小二次変換として知られている低周波非分離可能変換（ＬＦＮＳＴ）が、順方向一次変換（５９１）と量子化（５９３）（エンコーダで）との間、及び脱量子化（ｄｅ－ｑｕａｎｔｉｚａｔｉｏｎ）（５９４）と逆一次変換（５９６）（デコーダ側）との間に適用されて、一次変換係数をさらに非相関化することができる。例えば、順方向ＬＦＮＳＴ（５９２）がエンコーダによって適用されることができ、逆方向ＬＦＮＳＴ（５９５）がデコーダによって適用されることができる。ＬＦＮＳＴでは、ブロックサイズに応じて、４×４非分離可能変換又は８×８非分離可能変換を適用することができる。例えば、４×４ＬＦＮＳＴは小さなブロック（すなわち、ｍｉｎ（ｗｉｄｔｈ，ｈｅｉｇｈｔ）＜８）に適用され、８×８ＬＦＮＳＴは、より大きなブロック（すなわち、ｍｉｎ（ｗｉｄｔｈ，ｈｅｉｇｈｔ）＞４）に適用され得る。４×４順ＬＦＮＳＴ及び８×８順ＬＦＮＳＴについて、順ＬＦＮＳＴ（５９２）は、それぞれ１６及び６４の入力係数を有することができる。４×４逆ＬＦＮＳＴ及び８×８逆ＬＦＮＳＴについて、逆ＬＦＮＳＴ（５９５）は、それぞれ８及び１６の入力係数を有することができる。

ＬＦＮＳＴで使用される非分離可能変換の適用は、例として入力を用いて以下のように記述される。４×４ＬＦＮＳＴを適用するために、下記式（２）に示される４×４の入力ブロックＸは、まず、下記式（３）に示されるように、ベクトル

（以下、Ｘ￣とも表す。）として表すことができる：

非分離可能変換は、

として計算されることができ、ここで、

（以下、Ｆ￣とも表す。）は変換係数ベクトルを示し、Ｔは１６ｘ１６変換行列です１６×１係数ベクトルＦ￣は、その後、そのブロックに対する走査順序（水平、垂直、又は対角）を使用して、４×４ブロックとして再編成される。より小さいインデックスを有する係数は、４×４係数ブロック内のより小さい走査インデックスで配置される。

Ａ．縮小非分離可能変換（ＲｅｄｕｃｅｄＮｏｎ－ＳｅｐａｒａｂｌｅＴｒａｎｓｆｏｒｍ）

ＬＦＮＳＴは、直接行列乗算アプローチに基づくことができ、多重反復なしに単一パスで実装されるように非分離可能変換を適用する。しかしながら、非分離可能変換マトリクス次元は、縮小又は低減されることができ、計算複雑性及び変換係数を格納するためのメモリ空間を最小化する。従って、縮小非分離可能変換（ＲＳＴ）法をＬＦＮＳＴで使用することができる。低減された非分離可能変換の主なアイデアは、Ｎ（８×８ＮＳＳＴではＮは通常６４に等しい）次元ベクトルを、異なる空間内のＲ次元ベクトルにマッピングすることである。ここで、Ｎ／Ｒ（Ｒ＜Ｎ）は縮小係数である。従って、ＮｘＮ行列の代わりに、ＲＳＴ行列は、図１３に示されるように、Ｒ×Ｎ行列（６００）になる。

Ｒ×Ｎ行列（６００）には、Ｎ次元空間のＲ基底である変換のＲ行がある。ＲＴの逆変換行列は、その順方向変換の転置行列とすることができる。８×８のＬＦＮＳＴに対しては、４の縮小係数が適用されることができ、従来の８×８の非分離可能変換行列サイズである６４×６４の直接行列は、１６×４８の直接行列に低減されることができる。したがって、４８×１６の逆ＲＳＴ行列をデコーダ側で用いて、８×８の左上領域でコア（一次）変換係数を生成することができる。１６×４８行列は、同じ変換集合構成を有する１６×６４の代わりに適用され、各行列は、左上の８×８ブロックにおいて、右下の４×４ブロックを除き、３つの４×４ブロックから４８の入力データを取り得る。縮小次元の助けを借りて、すべてのＬＦＮＳＴ行列を格納するためのメモリ使用量を、合理的な性能低下で１０ＫＢから８ＫＢに低減することができる。複雑さを低減するために、ＬＦＮＳＴは、第１係数サブグループ外の全ての係数が有意でない場合にのみ、適用できるように制限することができる。したがって、ＬＦＮＳＴが適用される場合、すべての一次変換係数はゼロでなければならない場合がある。これは、ＬＦＮＳＴインデックスシグナリングを最後の有効位置（ｌａｓｔ－ｓｉｇｎｉｆｉｃａｎｔｐｏｓｉｔｉｏｎ）に条件付けることを可能にし、従って、現在のＬＦＮＳＴ設計における余分な（ｅｘｔｒａ）係数スキャニングを回避し、これは特定の位置のみで有意な係数をチェックするために必要とされる可能性がある。ＬＦＮＳＴの最悪ケース処理（画素あたりの乗算の観点から）は、４×４及び８×８ブロックの非分離可能変換を、それぞれ８×１６及び８×４８変換に制限する。そのような場合、ＬＦＮＳＴを適用したときの最後の有効スキャン位置は、１６未満の別のサイズの場合は８未満でなければならない場合がある。４×Ｎ及びＮ×４及びＮ＞８の形状を有するブロックについて、制限は、ＬＦＮＳＴが現在は１回のみ、左上の４ｘ４領域のみに適用されることを意味する場合がある。ＬＦＮＳＴが適用される場合、全ての一次のみの係数はゼロであることができる、このような場合、一次変換のための演算の数は低減されることができる。エンコーダの観点から、係数の量子化は、ＬＦＮＳＴ変換がテストされるとき、著しく単純化される。レート歪み最適量子化は、最初の１６個の係数に対して（スキャン順に）最大で行うことができ、残りの係数はゼロであるように強制することができる。

Ｂ．ＬＦＮＳＴ変換選択

ＬＦＮＳＴで使用される変換集合ごとに、４つの変換セットと２つ非分離可能変換行列（カーネル）があり得る。イントラ予測モードから変換集合へのマッピングは、以下の表３に示すように、予め定義することができる。現在のブロックに３つのＣＣＬＭモード（ＩＮＴＲＡ＿ＬＴ＿ＣＣＬＭ，ＩＮＴＲＡ＿Ｔ＿ＣＣＬＭ，又はＩＮＴＲＡ＿Ｌ＿ＣＣＬＭ）のいずれかが使用されている場合（８１＜＝ｐｒｅｄＭｏｄｅＩｎｔｒａ＝８３）、現在のクロマブロックに変換セット０を選択できる。各変換集合に対して、選択された非分離可能二次変換候補は、明示的にシグナリングされたＬＦＮＳＴインデックスによってさらに指定されることができる。インデックスは、変換係数の後、イントラＣＵ毎に一度ビットストリームでシグナリングされることができる。

Ｃ．ＬＦＮＳＴインデックスシグナリング及び他のツールとの相互作用

ＬＦＮＳＴは、第１係数サブグループ外の全ての係数が有意でない場合にのみ適用できるように制限されることができるため、ＬＦＮＳＴインデックスコーディングは、最後の有意な係数の位置に依存する可能性がある。加えて、ＬＦＮＳＴインデックスは、コンテキストコーディングされることがあるが、イントラ予測モードに依存しないことがあり、最初のビンのみがコンテキストコーディングされることがある。さらに、ＬＦＮＳＴは、イントラスライスとインタースライスの両方でイントラＣＵに、さらにルマとクロマの両方に適用することができる。デュアルツリーが有効にされている場合、ルマとクロマに対するＬＦＮＳＴインデックスは、別々にシグナリングされることができる。インタースライス（デュアルツリーが無効）では、単一のＬＦＮＳＴインデックスがシグナリングされ、ルマとクロマの両方に使用することができる。

イントラサブパーテション（ＩＳＰ）モードが選択された場合、ＬＦＮＳＴが無効にされ、ＲＳＴインデックスがシグナリングされないことがある。ＲＳＴがすべての実現可能なパーテションブロックに適用されたとしても、パフォーマンスの改善はわずかであり得るからである。さらに、ＩＳＰ予測された残差に対してＲＳＴを無効にすることは、エンコードの複雑さを低減し得る。また、マトリクスベースのイントラ予測（ＭＩＰ）モードが選択される場合、ＬＦＮＳＴは無効にされることができ、インデックスはシグナリングされないことができる。

６４×６４を超える大きなＣＵが、既存の最大変換サイズ制限（例えば、６４×６４）のために暗黙的に分割（ＴＵタイリング）され得ることを考慮すると、ＬＦＮＳＴインデックスサーチは、特定の数のデコードパイプラインステージに対して、データバッファリングを４倍増加させ得る。従って、ＬＦＮＳＴが許される最大サイズは６４ｘ６４に制限され得る。実施形態によれば、ＬＦＮＳＴは、ＤＣＴ２のみで有効にすることができる。

［ＡＶ１の残差コーディング］

各変換ユニットについて、ＡＶ１係数コーディングは、スキップサインのシグナリングから始まり、変換カーネルタイプ及びスキップ記号がゼロのときのブロック終端（ｅｎｄ－ｏｆ－ｂｌｏｃｋ：ｅｏｂ）位置が続き得る。次いで、各係数値は、複数のレベルマップ及びサインにマッピングされ得る。

ｅｏｂ位置がコーディングされた後、下位レベルマップ及び中位レベルマップは、逆スキャン順序でコーディングされることができ、前者は、係数の大きさが０から２の間であるかどうかを示すことができ、後者は、範囲が３から１４の間であるかどうかを示すことができる。次のステップでは、係数のサインと、指数ゴロムコード（Ｅｘｐ－Ｇｏｌｏｍｂｃｏｄｅ）による１４より大きい係数の残差値を、順スキャン順序でコーディングすることができる。

コンテキストモデリングの使用に関しては、下位レベルマップコーディングは、変換サイズ及び方向、ならびに５つまでの近接係数情報を組み込むことができる。他方、中位レベルマップコーディングは、近接係数の数が２まで減少することを除いて、下位レベルアンプコーディングと同様のアプローチをとることができる。残差レベルに対する指数ゴロムコード及びＡＣ係数のサインは、コンテキストモデルなしでコーディングすることができ、一方、ＤＣ係数のサインは、その近接変換ユニットのｄｃサインを用いてコーディングされる。

［ビデオコーディングのための深層学習］

深層学習は、異なる非線形変換を組み合わせた複雑なアーキテクチャでデータをモデル化しようとする一連の学習方法である。深層学習の基本的なブリックはニューラルネットワークであり、それが結合されて深層ニューラルネットワークを形成する。

人工ニューラルネットワークは、エントリｘ及び出力ｙ＝ｆ（ｘ，θ）に関連するパラメータθに関して非線形のアプリケーションである。パラメータθは、学習サンプルから推定される。ニューラルネットワークは、回帰又は分類に使用することができる。ニューラルネットワークのアーキテクチャにはいくつかのタイプが存在する：（ａ）ニューラルネットワークの最も古い形態である多層パーセプトロン；（ｂ）画像処理に特に適した畳み込みニューラルネットワーク（ＣＮＮ）；（ｃ）テキスト又は時系列等のシーケンシャルデータに使用される反復ニューラルネットワーク。

深層学習及びニューラルネットワークは、ビデオコーディングにおいて主に２つの理由により使用され得る：第１に、従来の機械学習アルゴリズムとは異なり、深層学習アルゴリズムはデータをスキャンし、特徴エンジニアリングが不要な特徴をサーチする。第２に、深層学習モデルは、特に画像関連のタスクにおいて、新しいデータと良好に一般化される。

Ａ．ＣＮＮ層

多層パーセプトロンと比較した場合のＣＮＮの長所は２つある：ＣＮＮは、層内のニューロンがその前の小さな領域にのみ接続されるため、重みの量が大幅に減少される；さらに、ＣＮＮは並進不変性であり、空間情報を失うことなく画像を処理するのに特に適している。ＣＮＮは、数種類の層、すなわち、畳み込み層、プーリング層及び完全に接続された層から構成される。

（１）畳み込み層

２つの関数ｆとｇとの間の離散畳み込みは、下記式（４）で示されるように定義される：

画像などの２次元信号については、２次元畳み込みについて以下の式（５）は考慮され得る：

ここで、Ｋは２Ｄ信号（又は画像）Ｉに適用される畳み込みカーネルである。

図１４を参照すると、２Ｄコンボリューションの原理は、コンボリューションカーネル（６１２）を画像（６１０）上にドラッグすることである。各位置で、コンボリューションカーネルと現在処理されている画像の一部（６１１）との間にコンボリューションが適用される。その後、畳み込みカーネルは、ピクセルの数ｓによって移動し、ここで、ｓはストライドと呼ばれる。時には、出力のサイズを制御するために、画像の周囲にゼロ値を含むサイズｐのマージンであるゼロパディングが追加される。画像にそれぞれサイズｋ×ｋのＣ０カーネル（フィルターとも呼ばれる）が適用されていると仮定する。入力画像のサイズがＷ_ｉ×Ｈ_ｉ×Ｃ_ｉの場合（Ｗ_ｉは幅、Ｈ_ｉは高さ、Ｃ_ｉはチャンネル数、通常Ｃ_ｉ＝３）、出力ボリュームはＷ_０×Ｈ_０×Ｃ_０となり、Ｃ０はカーネル数に対応し、Ｗ０とＨ０は式（６）と（７）で示される関係を有する

畳み込み演算は、ネットワークに非線形性を加えるために、活性化関数φと組み合わせることができる：ｚ（ｘ）＝φ（Ｋ＊ｘ＋ｂ）ここで、ｂはバイアスである。一例は、ｍａｘ（０，ｘ）演算を実行する正規化線形ユニット（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ：ＲｅＬＵ）活性化関数である。

（２）プーリング層

また、ＣＮＮはプーリング層を有し、画像のパッチ上の平均又は最大をとることによって（平均プーリング又は最大プーリング）、サブサンプリングとも称されるネットワーク次元を縮小することができる。畳み込み層のように、プーリング層はストライドで画像の小さなパッチに作用する。一例において、図１５を参照して、最大プーリングがストライドｓ＝２で実行される４×４入力パッチ（６２０）を考慮すると、出力（６２２）の出力次元は、水平方向及び垂直方向の入力次元の半分である。また、ゼロ埋め込みなしに、１よりも大きなストライドをとることによって、畳み込み層を用いて次元を低減することも可能であるが、プーリングの利点は、入力画像の小さな変換に対するネットワークの感度を低下させることである。

（３）全結合層

複数の畳み込み層及びプーリング層の後、ＣＮＮは、一般に、いくつかの全結合層（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒｓ）で終わる。先行する畳み込み／プーリング層の出力であるテンソルは、値の単一ベクトルに変換される。

Ｂ．ＣＮＮのビデオコーディングへの適用

（１）ループフィルタリング

ＪＶＥＴ－Ｉ００２２では、イントラフレーム用の畳み込みニューラルネットワークフィルタ（ＣＮＮＦ）が提供されている。ＣＮＮＦは、ＪｏｉｎｔＥｘｐｌｏｒａｔｉｏｎＭｏｄｅｌ（ＪＥＭ）のフィルタ、すなわちバイラテラルフィルタ（ＢＦ）、デブロッキングフィルタ（ＤＦ）、及びサンプル適応オフセット（ＳＡＯ）を置き換えるイントラフレームのためのループフィルタとして機能する。図１６Ａは、エントロピデコーディング（６３１）、逆量子化（ｉｎｖｅｒｓｅｑｕａｎｔｉｚａｔｉｏｎ）（６３２）、逆変換（６３３）、ＢＦ（６３４）、ＤＦ（６３５）、ＳＡＯ（６３６）、予測（６３７）及び適応ループフィルタ（ＡＬＦ）（６３８）を含むＪＥＭのイントラデコーディングプロセス（６３０）を示す。図１６Ｂは、ＢＦ（６３４）、ＤＦ（６３５）、及びＳＡＯ（６３６）の代わりにＣＮＮＦ（６４４）を含む、イントラでコーディングプロセスを示す。ＢフレームとＰフレームについて、フィルタはＪＥＭ７．０と同じに保たれる。

図１６Ｂ及び１７を参照すると、ＣＮＮＦ（６４４）は、再構成パラメータ（６５２）及び量子化パラメータ（ＱＰ）（６５４）の２つの入力を含むことができ、これは、異なる品質を有する再構成に適応するために、単一セットのパラメータを使用することを可能にし得る。訓練プロセスにおけるより良い収束のために、２つの入力の両方を正規化することができる。複雑さを低減するために、１０層の単純なＣＮＮを採用してもよい。ＣＮＮは、１つの連結層（６５６）、７つの畳み込み層（６５８Ａ～Ｇ）、それぞれに続くＲｅＬＵ層、１つの畳み込み層（６６０）、及び１つの加算層（ｓｕｍｍａｔｉｏｎｌａｙｅｒ）（６６２）から構成されてもよい。これらの層は、１つずつ結合され、ネットワークを形成することができる。上記の層パラメータは、畳み込み層に含まれ得ることが理解され得る。再構成されたＹ，Ｕ，Ｖを加算層に結合することにより、ネットワークは再構成画像と元の画像との間の残差の特性を学習するために正規化される。一実施形態によれば、シミュレーション結果は、ルマについて－３．５７％、－６．１７％及び－７．０６％のＢＤレート節約と、ＡＩ構成を有するＪＥＭ－７．０についての両方のクロマ成分と、エンコーディング及びデコーディング時間はアンカーと比較してそれぞれ１０７％及び１２８８７％であることと、を報告する。

ＪＶＥＴ‐Ｎ０２５４では、インループフィルタ（ＤＲＮＬＦ）に基づく高密度残差畳み込みニューラルネットワークの実験結果が報告されている。ここで図１８を参照すると、高密度残差ネットワーク（ＤＲＮ）（６７０）の一例の構造ブロック図が示されている。ネットワーク構造は、Ｎ密度の残差ユニット（ＤＲＵ）（６７２Ａ～Ｎ）を含むことができ、Ｍは多数の畳み込みカーネルを示すことができる。例えば、計算効率と性能との間のトレードオフとして、Ｎを４に設定し、Ｍを３２に設定することができる。正規化ＱＰマップ（６７４）は、ＤＲＮ（６７０）への入力として、再構成フレームと連結されることができる。

実施形態によれば、ＤＲＵ（６７２Ａ～Ｎ）は、それぞれ、図１９に示される構造（６８０）を有することができる。ＤＲＵは、ショートカットを介して、入力を後続のユニットに直接伝搬することができる。計算コストをさらに低減するために、３×３の深さ方向分離可能畳み込み（ＤＳＣ）層をＤＲＵに適用することができる。

ネットワークの出力は、Ｙ、Ｃｂ、Ｃｒにそれぞれ対応する３つのチャネルを有することができる。フィルタは、イントラ画像とインター画像の両方に適用することができる。ＤＲＮＬＦのオン／オフを示すために、各ＣＴＵに対して追加フラグがシグナリングされることができる。一実施形態の実験結果は、全イントラ構成では、Ｙ、Ｃｂ、及びＣｒ成分のそれぞれ－１．５２％、－２．１２％及び－２．７３％のＢＤレート、ランダムアクセス構成では、－１．４５％、－４．３７％及び－４．２７％のＢＤレート、並びに、低遅延構成における－１．５４％、－６．０４％及び－５．８６％のＢＤレートを示す。本実施形態では、デコーディング時間は、ＡＩ、ＲＡ及びＬＤＢ構成において４６６７％、７１５６％及び９１２７％である。

（２）イントラ予測

ここで、図２０及び２１を参照すると、イントラ予測モードのための第１のプロセス（６９０Ａ）及び第２のプロセス（６９０Ｂ）の図が示される。イントラ予測モードを使用して、将来のビデオコーデックにおいて矩形ブロック上にイントラ画像予測信号を生成することができる。これらのイントラ予測モードは、以下の２つの主要なステップを実行する：第１に、デコードされたサンプルから１セットの特徴を抽出する。第２には、これらの特徴を用いて、予め定義された画像パターンのアフィン線形結合を予測信号として選択する。また、特定の信号化方式が、イントラ予測モードのために使用され得る。

図２０を参照すると、Ｍ≦３２及びＮ≦３２を有する所与のＭｘＮブロック（６９２Ａ）上で、ルマ予測信号ｐｒｅｄの生成は、ニューラルネットワークを介して１セットの参照サンプルｒを処理することによって実行される。参照サンプルｒは、ブロック（６９２Ａ）の上のサイズＮ＋ＫのＫ行と、左側のサイズＭのＫ列で構成されることができる。数ＫはＭとＮに依存し得る。例えば、ＫはすべてのＭとＮに対して２に設定され得る。

ニューラルネットワーク（６９６Ａ）は、以下のように、再構成されたサンプルから特徴のベクトルｆｔｒを抽出することができる。ｄ_０＝Ｋ＊（Ｎ＋Ｍ＋Ｋ）がｒのサンプル数を示す場合、ｒは次元ｄ０の実数ベクトル空間のベクトルと見なされる。それぞれｄ０行の列を有する固定積分正方行列Ａ１及びＡ２と、及び次元ｄ０の固定積分バイアスベクトルｂ１とｂ２とについて、最初に下記式（８）を計算する。
ｔ_１＝ρ（Ａ_１・ｒ＋ｂ_１）（式８）

式（８）「・」、通常の行列ベクトル積を意味する。さらに、関数ρは、ＥＬＵ関数ρ０さらに、関数ρはＥＬＵ関数ρ０の整数近似であり、ここで、後者の関数は、下記式（９）に示すように、ｐ次元ベクトルｖで定義される。

ここで、ρ_０（ｖ）_ｉ及びｖ_ｉはベクトルのｉ番目の成分を示す。同様の操作をｔ_１に適用し、式（１０）に示すようにｔ_２を計算する。
ｔ_２＝ρ（Ａ_２・ｔ_１＋ｂ_２）（式１０）

０≦ｄ_１≦ｄ_０を有する固定整数ｄ１の場合、ｄ１の行及びｄ０の列と、１つ以上のバイアス重み（６９４Ａ）とを有する所定の積分行列Ａ３、例えば、次元ｄ１の所定の積分バイアスベクトルｂ３が存在することができ、したがって、下記の式（１１）に示されるように特徴ベクトルｆｔｒを計算する。
ｆｔｒ＝ρ（Ａ・ｔ_２＋ｂ_３）（式１１）

ｄ１の値はＭとＮに依存する。現時点では、ｄ_１＝ｄ_０とする。

フィーチャーベクトルｆｔｒのうち、最終的な予測信号ｐｒｅｄは、アフィン線形マップを使用して生成され、その後、ビット深度に依存する標準的なクリッピング操作が続く。したがって、Ｍ＊Ｎ行とｄ１列を有する所定の行列Ａ_４と、次元Ｍ＊Ｎの所定のバイアスベクトルｂ４があり、したがって、式（１２）において以下のように計算される。
ｐｒｅｄ＝Ｃｌｉｐ（Ａ_４・ｆｔｒ＋ｂ_４）（式１２）

ここで図２１を参照すると、ｎ個の異なるイントラ予測モード（６９８Ｂ）が使用され、ここでｎはｍａｘ（Ｍ、Ｎ）＜３２の場合は３５に設定され、それ以外の場合は１１に設定される。従って、０≦ｐｒｅｍｏｄｅ＜ｎを有するインデックスｐｒｅｍｏｄｅはエンコーダによってシグナリングされ、デコーダによってパースされるものであり、以下の高文化使用され得る。１つはｎ＝３＋２^ｋを有し、ここで、ｍａｘ（Ｍ，Ｎ）＝３２の場合はｋ＝３、それ以外の場合はｋ＝５である。第１のステップでは、０≦ｐｒｅｄＩｄｘ＜ｎを有するインデックスｐｒｅｄＩｄｘが、次のコードを使用してシグナリングされる。まず、１つのビンがｐｒｅｄＩｄｘ＜３かどうかをエンコードする。ｐｒｅｄＩｄｘ＜３の場合、第２のビンはｐｒｅｄＩｄｘ＝０かどうかをエンコードし、ｐｒｅｄＩｄｘ≠０の場合、別のビンはｐｒｅｄＩｄｘが１又は等しいかどうかをエンコードする。ｐｒｅｄＩｄｘ≧３の場合、ｐｒｅｄＩｄｘの値は、ｋ個のビンを使用して標準的な方法（ｃａｎｏｎｉｃａｌｗａｙ）でシグナリングされる。

インデックスｐｒｅｄＩｄｘから、実際のインデックスｐｒｅｄｍｏｄｅは、１つの隠れ層を持つ完全に接続されたニューラルネットワーク（６９６Ｂ）を使用して導出され、これは、上記のサイズＮ＋２の２つの行と、ブロック（６９２Ｂ）の左側のサイズＭの２つの列に、再構成されたサンプルｒ’を入力として有する。

再構成したサンプルｒ’は、次元２＊（Ｍ＋Ｎ＋２）の実ベクトル空間におけるベクトルと考えられる。固定正方行列Ａ_１’があり、２＊（Ｍ＋Ｎ＋２）の実数ベクトル空間内の固定バイアスベクトルｂ_１’のように、２＊（Ｍ＋Ｎ＋２）行列及び１つ以上のバイアス重み（６９４Ｂ）を有し、したがって下記式（１３）に示すようにｔ１’を計算する。
ｔ_１’＝ρ（Ａ_１’・ｒ’＋ｂ_１）（式１３）

ｎ行と２＊（Ｍ＋Ｎ＋２）列を有する行列Ａ_２’が存在することができ、次元ｎの実数ベクトル空間に固定バイアスベクトルｂ_２’が存在することができ、下記式（１４）に示すようにｌｇｔを計算する。
ｌｇｔ＝Ａ_２’・ｔ_１’＋ｂ_２’（式１４）

ここで、インデックスｐｒｅｄｍｏｄｅは、ｌｇｔのｐｒｅｄＩｄｘ番目に大きい成分の位置として導出される。ここで、２つのコンポーネント（ｌｇｔ）_ｋ及び（ｌｇｔ）_ｌがｋ≠ｌに対して等しい場合、（ｌｇｔ）_ｋは（ｌｇｔ）_ｌよりも大きいと見なされ、ｆｋ＜ｌ及び（ｌｇｔ）_ｌは、（ｌｇｔ）_ｋよりも大きいと見なされる。

［マルチ変換選択］

ＨＥＶＣで使用されてきたＤＣＴ‐ＩＩに加えて、マルチ変換選択（ＭＴＳ）スキームが、インター及びイントラブロックの両方の残差コーディングに使用される。スキームには、ＤＣＴ８／ＤＳＴ７から選択された複数の変換が含まれ得る。実施形態によれば、ＤＳＴ－ＶＩＩ及びＤＣＴ－ＶＩＩＩが含まれ得る。表４は、Ｎポイント入力用に選択されたＤＳＴ／ＤＣＴの変換基底関数を示している。

変換行列の直交性を維持するために、変換行列をＨＥＶＣにおける変換行列よりも正確に量子化され得る。変換された係数の中間値を、水平変換の後、垂直変換の後に、１６ビットの範囲内に維持するために、すべての係数は１０ビットである必要があり得る。

ＭＴＳスキームを制御するために、別々のイネーブルフラグが、それぞれイントラ及びインターに対してＳＰＳレベルで指定され得る。ＳＰＳでＭＴＳがイネーブルにされると、ＣＵレベルフラグはＭＴＳが適用されているか否かを示すためにシグナリングされる。実施形態によれば、ＭＴＳはルマに対してのみ適用することができる。ＭＴＳシグナリングは、以下の条件のうちのの１つが適用される場合にスキップされることができる：（１）ルマＴＢの最後の有意な係数の位置が１未満（すなわち、ＤＣのみ）であるか、又は（２）ルマＴＢの最後の有意な係数がＭＴＳゼロアウト領域内にある。

ＭＴＳＣＵフラグがゼロに等しい場合、ＤＣＴ２は両方向に適用され得る。しかしながら、もしＭＴＳＣＵフラグが１に等しい場合、２つの他のフラグが水平方向と垂直方向のそれぞれの変換タイプを示すために追加的にシグナリングされ得る。下記の表５は、変換及びシグナリングマッピングテーブルの例を示す。ＩＳＰと黙示的ＭＴＳに対する変換選択は、イントラモードとブロック形状依存性を除去することによって統一することができる。現在のブロックがＩＳＰモードの場合、又は現在のブロックがイントラブロックであり、かつイントラ及びインターの明示的ＭＴＳがオンの場合、水平及び垂直変換コアの両方にＤＳＴ７のみを使用することができる。変換マトリックスの精度については、８ビットの一次変換コアが使用され得る。したがって、ＨＥＶＣで使用される変換コアは、すべて同じに保たれ、４点ＤＣＴ－２及びＤＳＴ－７、８点、１６点、３２点ＤＣＴ－２を含む。また、６４点ＤＣＴ－２、４点ＤＣＴ－８、８点、１６点、３２点ＤＣＴ－７及びＤＣＴ－８を含む他の変換コアは、８ビット一次変換コアを使用し得る。

大きなサイズのＤＳＴ－７及びＤＣＴ－８の複雑さを低減するために、サイズ（幅又は高さ、又は、幅及び高さの両方）が３２に等しいＤＳＴ－７及びＤＣＴ－８ブロックに対しては、高周波変換係数がゼロ出力され得る。１６×１６のより低い周波領域内の係数のみが保持され得る。

ＨＥＶＣの場合と同様に、残りのブロックは変換スキップモードでコーディングすることができる。構文コーディングの冗長性を避けるために、ＣＵレベルＭＴＳ＿ＣＵ＿ｆｌａｇがゼロに等しくない場合、変換スキップフラグはシグナリングされないことができる。実施形態によれば、暗黙的ＭＴＳ変換は、ＬＦＮＳＴ又はＭＩＰが現在のＣＵに対して活性化される場合、ＤＣＴ２に設定され得る。また、暗黙的ＭＴＳは、インターコーディングブロックに対してＭＴＳが有効である場合でも有効であることができる。

［非分離可能二次変換］

ＪＥＭでは、モード依存非分離二次変換（ＮＳＳＴ）を順方向コア変換と量子化（エンコーダにおける）との間、及び脱量子化と逆コア変換（デコーダのける）との間に適用することができる。低い複雑性を維持するために、ＮＳＳＴは一次変換後の低周波数係数にのみ適用される。変換係数ブロックの幅（Ｗ）と高さ（Ｈ）の両方が８以上であれば、８×８の非分離可能二次変換を変換係数ブロックの左上の８×８領域に適用することができる。さもなければ、変換係数ブロックのＷ又はＨのいずれかが４に等しい場合、４×４の非分離可能二次変換が適用され、４×４の非分離可能変換が変換係数ブロックの左上の最小（８，Ｗ）×最小（８，Ｈ）領域に対して実行され得る。上記の変換選択規則は、ルマ成分とクロマ成分の両方に適用することができる。

非分離可能変換の行列乗算の実装は、式（２）～（３）に関して、「ＶＶＣにおける二次変換」のサブセクションで上述したように実施することができる。実施形態によれば、非分離可能二次変換は、直接行列乗算を使用して実現することができる。

［モード依存変換コア選択］

４×４及び８×８ブロックサイズの両方に対して、３５×３の非分離可能二次変換があり得、ここで、３５は、イントラ予測モードによって指定される変換セットの数であり、３は、各イントラ予測モードに対する非分離可能二次変換（ＮＳＳＴ）候補の数である。イントラ予測モードから変換セットへのマッピングは、図２２に示す表７００に示すように定義することができる。ルマ／クロマ変換係数に適用される変換セットは、表７００にしたがって、対応するルマ／クロマイントラ予測モードによって指定することができる。３４（斜め予測方向）より大きいイントラ予測モードの場合、変換係数ブロックは、エンコーダ／デコーダにおける二次変換の前後に入れ替えられることができる。

各変換セットに対して、選択された非分離可能二次変換候補は、明示的にシグナリングされたＣＵレベルＮＳＳＴインデックスによってさらに指定されことができる。変換係数及び切り捨て単項二値化（ｔｒｕｎｃａｔｅｄｕｎａｒｙｂｉｎａｒｉｚａｔｉｏｎ）を使用した後、インデックスは、イントラＣＵ毎に一度ビットストリームでシグナリングすることができる。切り捨て値は、平面又はＤＣモードの場合は２であり、角度イントラ予測モードの場合は３であり得る。このＮＳＳＴインデックスは、ＣＵ内に１つより多い非ゼロ係数がある場合にのみ、シグナリングすることができる。デフォルト値は、シグナリングされていない場合、ゼロになることがあります。この構文要素のゼロ値は、二次変換が現在のＣＵに適用されていないことを示すことができ、値１－３は、セットから適用されるべき二次変換を示すことができる。

ＪＥＭでは、ＮＳＳＴは、変換スキップモードでコーディングされたブロックに適用されないことができる。ＮＳＳＴインデックスがＣＵに対してシグナリングされ、ゼロに等しくない場合、ＮＳＳＴは、ＣＵにおいて変換スキップモードでコーディングされた成分のブロックに対して使用されないことができる。全ての成分のブロックを有するＣＵが変換スキップモードでコーディングされるか、又は非変換スキップモードＣＢの非ゼロ係数の数が２未満である場合、ＮＳＳＴインデックスは、ＣＵに対してシグナリングされないことができる。

［比較実施形態の形変換スキームの課題］

比較実施態様において、分離可能変換スキームは、指向性テクスチャパターン（ｄｉｒｅｃｔｉｏｎａｌｔｅｘｔｕｒｅｐａｔｔｅｒｎｓ）（例えば、４５／１３５度方向のエッジ）を捕捉するのにあまり効率的ではない。非分離可能変換スキームは、これらのシナリオにおけるコーディング効率を改善するために有用である。計算の複雑さとメモリフットプリントを低減するために、非分離可能変換スキームは、通常、一次変換の低周波数係数の上に適用される二次変換として考案される。既存の実装では、（一次／二次及び分離／非分離の両方の変換カーネルのグループから）使用される変換カーネルの選択は、予測モード情報に基づいて行われる。しかし、予測モード情報だけでは、図２３Ａ～Ｄの表示７１０、７２０、７３０、及び７４０によって示されるように、その予測モードについて観察された残差パターンの空間全体の大まかな表現を提供することができるだけである。表示７１０、７２０、７３０及び７３０は、ＡＶ１におけるＤ４５（４５°）イントラ予測モードについて観察された残差パターンを示す。近隣の再構成されたサンプルは、これらの残留パターンのより効率的な表現のための追加情報を提供することができる。

複数の変換カーネル候補を有する変換スキームのために、変換セットはエンコーダ及びデコーダの両方で利用可能なコーディング情報を使って識別される必要があり得る。ＭＴＳ及びＮＳＳＴ等の既存のマルチ変換スキームでは、変換セットはイントラ予測モード等のコーディング予測モード情報に基づいて選択される。しかしながら、予測モードは予測残差のすべての統計を完全にカバーし、近隣の再構成サンプルは予測残差のより効率的な分類のための追加情報を提供することができる。ニューラルネットワークベースの方法は、予測残差の効率的な分類のために適用でき、従って、より効率的な変換セット選択を提供する。

［本開示の実施形態の例示的態様］

本開示の実施形態は、別々に、又は任意の順序で組み合わせて使用され得る。さらに、各実施形態（例えば、方法、エンコーダ、及びデコーダ）は、処理回路（例えば、１つ以上のプロセッサ、又は１つ以上の集積回路）によって実装され得る。一実施例では、１つ以上のプロセッサは、非一時的コンピュータ可読媒体に格納されたプログラムを実行する。

本開示の実施形態は、上述の任意の数の態様を組み込むことができる。また、本開示の実施形態は、以下に記載される態様の１つ以上を組み込み、上述の問題及び／又は他の問題を解決して得る。

Ａ．第１態様

実施形態によれば、近接する再構成されたサンプルは、変換セットを選択するために使用され得る。１つ以上の実施形態において、変換セットのグループから、変換セットのサブグループが、予測モード（例えば、イントラ予測モード又はインター予測モード）などのコーディングされた情報を使用して選択される。一実施形態では、変換セットの選択されたサブグループから、１つの変換セットが、イントラ／インター予測モードのタイプ、ブロックサイズ、現在のブロックの予測ブロックサンプル、及び現在のブロックの近接する再構成されたサンプルなどの、他のコーディングされた情報を使用して識別される。最後に、現在のブロックのための変換候補が、ビットストリームでシグナリングされた関連するインデックスを使用して識別された変換セットから選択される。一実施形態では、変換セットの選択されたサブグループから、イントラ／インター予測モードのタイプ、ブロックサイズ、現在ブロックの予測ブロックサンプル、及び現在ブロックの近接する再構成サンプルなどの他のコーディングされた情報を使用して、最終変換候補が暗黙的に識別される。

１つ以上の実施形態において、近接する再構成されたサンプルセットは、先行して再構成された近接するブロックからのサンプルを含むことができる。一実施形態では、近接する再構成されたサンプルセットは、上部及び左側の近接する再構成されたサンプルの１つ以上のラインを含むことができる。一実施例において、上部及び／又は左側の近接する再構成されたサンプルのライン数は、イントラ予測に使用される近接する再構成されたサンプルのラインの最大数と同じである。一実施例では、上部及び／又は左側の近接する再構成されたサンプルのライン数は、ＣｆＬ予測モードに使用される近接する再構成されたサンプルの最大ライン数と同じである。一実施形態では、近接する再構成されたサンプルセットは、近接する再構成されたブロックからの全てのサンプルを含むことができる。

１つ以上の実施形態において、変換セットのグループは、一次変換カーネルのみ、二次変換カーネルのみ、又は一次変換カーネルと二次変換カーネルの組み合わせを含む。変換セットのグループが一次変換カーネルのみを含む場合、一次変換カーネルは分離可能であるか、非分離可能であるか、異なるタイプのＤＣＴ／ＤＳＴを使用するか、又は異なるセルフループレートを有する異なるライングラフ変換を使用することができる。変換セットのグループが二次変換カーネルのみを含む場合、二次変換カーネルは非分離可能であるか、異なるセルフループレートを有する異なる非分離可能ライングラフ変換を使用することができる。

１つ以上の実施形態において、近接する再構成されたサンプルは、特定の変換セットに関連するインデックスを導出するように処理されることができる。一実施形態では、近接する再構成されたサンプルは、変換プロセスに入力され、変換係数は、特定の変換セットに関連するインデックスを識別するために使用される。一実施形態では、近接する再構成されたサンプルが複数の変換プロセスに入力され、コスト関数が各変換プロセスのコスト値を評価するために使用される。その後、コスト値は、変換集合インデックスを選択するために使用される。例示的なコスト値は、限定されるものではないが、あるスキャン順序に沿った最初のＮ（例えば、１、２、３、４、．．．、１６）個の変換係数の大きさの合計を含む。一実施形態では、分類器が予め定義され、近接する再構成されたサンプルが分類器に入力されて、変換セットインデックスを識別する。

Ｂ．第２態様

実施形態によれば、ニューラルネットワークベースの変換セット選択スキームが提供されることができる。ニューラルネットワークの入力は、現在のブロックの予測ブロックサンプル、現在のブロックの近接する再構成されたサンプルを含むことができ、出力は、変換セットを識別するために使用されるインデックスであることができるが、これらに限定されない。

１つ以上の実施形態では、変換集合のグループが定義され、変換集合のサブグループが、予測モード（例えば、イントラ予測モード又はインター予測モード）などのコーディングされた情報を使用して選択され、その後、変換セットの選択されたサブグループの１つの変換セットが、現在のブロックの予測ブロックサンプル、現在ブロックの近接する再構成サンプルなどの他のコード情報を使用して識別される。その後、現在のブロックに対する変換候補が、ビットストリームでシグナリングされた関連するインデックスを使用して識別された変換セットから選択される。

１つ以上の実施形態において、近接する再構成されたサンプルは、上部及び左側の近接する再構成されたサンプルの１つ以上のラインを含むことができる。一実施例において、上部及び／又は左側の近接する再構成されたサンプルのライン数は、イントラ予測に使用される近接する再構成されたサンプルのラインの最大数と同じである。一実施例では、上部及び／又は左側の近接する再構成されたサンプルのラインの数は、ＣｆＬ予測モードに使用される近接する再構成されたサンプルのラインの最大数と同じである。

１つ以上の実施形態において、現在のブロックの近接する再構成されたサンプル及び／又は予測ブロックサンプルは、ニューラルネットワークの入力であり、出力は、変換セットに対する識別子を含むだけでなく、予測モードセットに対する識別子も含む。換言すれば、ニューラルネットワークは、変換セット及び予測モードの特定の組み合わせを識別するために、近接する再構成されたサンプル及び／又は現在ブロックの予測ブロックサンプルを使用する。

１つ以上の実施形態において、ニューラルネットワークは、二次変換のための変換セットを識別するために使用される。あるいは、ニューラルネットワークは、一次変換に使用される変換セットを識別するために使用される。あるいは、ニューラルネットワークは、二次変換と一次変換の組み合わせを指定するために使用される変換セットを識別するために使用される。一実施形態では、二次変換は、非分離可能変換スキームを使用する。一実施形態では、一次変換は、異なるタイプのＤＣＴ／ＤＳＴを使用することができる。別の実施形態では、一次変換は、異なるセルフループレートを有する異なるライングラフ変換を使用することができる。

１つ以上の実施形態において、異なるブロックサイズについて、隣接する再構成されたサンプル及び／又は現在のブロックの予測ブロックサンプルは、ニューラルネットワークの入力として使用される前に、さらにアップサンプリング又はダウンサンプリングされ得る。

１つ以上の実施形態では、異なる内部ビット深度に対して、近接する再構成されたサンプル及び／又は現在のブロックの予測ブロックサンプルは、ニューラルネットワークの入力として使用される前に、内部ビット深度値に従ってさらにスケーリング（又は量子化）され得る。

１つ以上の実施形態において、ニューラルネットワークで使用されるパラメータは：ブロックがイントラコーディングされているか否か、ブロック幅及び／又はブロック高さ、量子化パラメータ、現在の画像がイントラ（キー）フレームとしてコーディングされているか否か、及びイントラ予測モードを含むが、これらに限定されないコーディングされた情報に依存する。

実施形態によれば、コンピュータプログラム命令を格納する少なくとも１つのプロセッサ及びメモリが提供されることができる。コンピュータプログラム命令は、少なくとも１つのプロセッサによって実行されると、エンコーダ又はデコーダを実施することができ、本開示に記載される任意の数の機能を実行することができる。例えば、図２４を参照すると、少なくとも１つのプロセッサは、デコーダ（８００）を実装してもよい。コンピュータプログラム命令は、例えば、少なくとも１つのプロセッサが、受信されたコーディングされたビットストリーム（例えば、エンコーダ）から、画像のブロックをデコードするように構成されたデコードコード（８１０）を含むことができる。デコーディングコード（８１０）は、例えば、変換セット選択コード（８２０）、変換選択コード（８３０）、及び変換コード（８４０）を含むことができる。

変換セット選択コード（８２０）は、本開示の実施形態にしたがって、少なくとも１つのプロセッサに変換セットを選択させることができる。例えば、変換セット選択コード（８２０）は、少なくとも１つのプロセッサに、１つ以上の、先行してデコードされた近接ブロックから又は先行してデコードされた画像から少なくとも１つの近接する再構成されたサンプルに基づいて変換セットを選択させることができる。実施形態によれば、変換セット選択コード（８２０）は、本開示の実施形態にしたがって、少なくとも１つのプロセッサに、第１コーディング情報に基づいて変換セットのグループから変換セットのサブグループを選択させ、サブグループから変換セットを選択させるように構成されることができる。

変換選択コード（８３０）は、少なくとも１つのプロセッサに、本開示の実施形態にしたがって、変換セットから変換候補を選択させることができる。例えば、変換選択コード（８３０）は、本開示の実施形態にしたがって、少なくとも１つのプロセッサに、コーディングされたビットストリームにおいてシグナリングされたインデックス値に基づいて、変換セットから変換候補を選択させることができる。

変換コード（８４０）は、本開示の実施形態にしたがって、変換セットからの変換（例えば、変換候補）を使用して、少なくとも１つのプロセッサにブロックの係数を逆変換させることができる。

実施形態によれば、デコードコード８１０は、本開示の実施形態によれば、ニューラルネットワークが、変換グループ、変換サブグループ、変換セット、及び／又は変換を選択する際に、使用されるようにすることができ、又はそうでなければ、デコードの少なくとも一部を実行させることができる。実施形態によれば、デコーダ（８００）は、本開示の実施形態にしたがって、少なくとも１つのプロセッサにニューラルネットワークを実装させるように構成されたニューラルネットワークコード（８５０）をさらに含んでもよい。

実施形態によれば、上記のプロセスに対応するエンコーダ側のプロセスは、上記の説明に基づいて、当業者によって理解されるように、画像をエンコードするためのエンコードコードによって実施することができる。

上記の本開示の実施例の技術は、コンピュータ可読命令を用いたコンピュータソフトウェアとして行うことができて、物理的に一つ以上のコンピュータ可読媒体に格納されることができる。例えば、図２５は、開示された主題の実施例を実施するのに適しているコンピュータシステム（９００）を示す。

コンピュータソフトウェアは、アセンブリ、コンパイル、リンク、又は同様のメカニズムの対象となり得る任意の適切な機械コード又はコンピュータ言語を使用してコーディングされることができ、コンピュータ中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）などによって、直接実行され、又は解釈、マイクロコード実行などを介して、実行され得る命令を含むコードを生成し得る。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、物品のインターネット等を含む種々のタイプのコンピュータ又はその構成要素上で実行されることができる。

コンピュータシステム（９００）のための図２５に示されるコンポーネントは、例示的な性質のものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能性に関する制限を示唆することを意図するものではない。また、コンポーネントの構成は、コンピュータシステム（９００）の例示的な実施形態に示されるコンポーネントのいずれか１つ又は組み合わせに関連する依存性又は要件を有すると解釈されるべきではない。

コンピュータシステム（９００）は、特定のヒューマンインタフェース入力デバイスを含み得る。このようなヒューマンインタフェース入力デバイスは、例えば、触覚入力（例えば、キーストローク、スイッピング、データグローブの動き）、音声入力（例えば、音声、拍手）、視覚入力（例えば、ジェスチャ）、嗅覚入力（図示せず）を介して、一人又は複数の人間ユーザによる入力に応答し得る。また、ヒューマンインタフェースデバイスは、オーディオ（例えば、音声、音楽、周囲の音声）、画像（例えば、走査画像、静止画像カメラから得られる写真画像）、ビデオ（例えば、２次元ビデオ、立体画像を含む３次元ビデオ）等の、人間による意識的入力に必ずしも直接関係しない特定の媒体を捕捉するために用いられ得る。

入力ヒューマンインタフェースデバイスには、次のものが１つ以上含まれ得る（それぞれ１つのみ表されている）：キーボード（９０１）、マウス（９０２）、トラックパッド（９０３）、タッチスクリーン（９１０）、データグローブ、ジョイスティック（９０５）、マイクロホン（９０６）、スキャナ（９０７）、及びカメラ（９０８）。

コンピュータシステム（９００）はまた、特定のヒューマンインタフェース出力デバイスを含み得る。かかるヒューマンインタフェース出力デバイスは、例えば、触覚出力、音、光、及び嗅覚／味覚を通して、１人又は複数の人間ユーザの感覚を刺激し得る。かかるヒューマンインタフェース出力デバイスには、触覚出力デバイスが含むことができ（たとえば、タッチスクリーン（９１０）、データグローブ、またはジョイスティック（９０５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスであることもできる）。例えば、かかるデバイスは、オーディオ出力デバイス（例えば、スピーカー（９０９）、ヘッドホン（図示せず））、視覚出力デバイス（例えば、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン（９１０）など、それぞれタッチスクリーン入力機能を備えるか又は備えない、それぞれ触覚フィードバック機能を備えるか又は備えない、ーそのうちのいくつかは、ステレオグラフィック出力などの手段を介して、２次元の視覚的出力又は３次元以上の出力を出力できる場合がある：バーチャルリアリティグラス（図示せず）、ホログラフィックディスプレイ、及びスモークタンク（図示せず））、プリンタ（図示せず）などであり得る。

コンピュータシステム（９００）はまた、人間がアクセス可能な記憶デバイスと、それらのアクセス可能な媒体とを含むことができ、媒体は、例えば、ＣＤ／ＤＶＤ等の媒体（９２１）によるＣＤ／ＤＶＤＲＯＭ／ＲＷを含む光学媒体ドライブ（９２０）、ＵＳＢメモリ（９２２）、着脱可能ヘッドドライブ又はソリッドステートドライブ（９２３）、テープ、フロッピーディスク（図示せず）等の従来の磁気媒体、セキュリティドングル等の特殊化されたＲＯＭ／ＡＳＩＣ／ＰＬＤベースデバイス等である。

当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解されたい。

コンピュータシステム（９００）はまた、１つ以上の通信ネットワークへのインタフェースを含むことができる。ネットワークは、例えば、無線、有線、光であり得る。ネットワークは、さらに、ローカル、広域、大都市、車両及び工業、リアルタイム、遅延耐性等であり得る。ネットワークの例としては、イーサネット、無線ＬＡＮ、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥ等を含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、及び地上放送ＴＶ、ＣＡＮＢｕｓを含む産業用及び車両用を含む。特定のネットワークは、特定の汎用データポート又はペリフェラルバス（９４９）（たとえば、コンピュータシステム（９００）のＵＳＢポート）に接続された外部ネットワークインターフェイスアダプタを必要とする；他には、一般に、以下に説明するようにシステムバス（たとえば、ＰＣコンピュータシステムへのイーサネットインターフェイス又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース）に接続することによってコンピュータシステム（９００）のコアに統合される。これらのネットワークのいずれかを使用して、コンピュータシステム（９００）は、他のエンティティと通信することができる。かかる通信は、単指向性通信、受信のみ（例えば、放送テレビ）通信、単指向性送信専用（例えば、特定のＣＡＮバスデバイスへのＣＡＮバス）通信、又は、例えばローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの、双方向通信であることができる。この種の通信は、クラウドコンピューティング環境（９５５）との通信を含むことができる。特定のプロトコル及びプロトコルスタックは、上述のように、それらのネットワーク及びネットワークインタフェースの各々で使用されることができる。

前述のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス、及びネットワークインタフェース（９５４）は、コンピュータシステム（９００）のコア（９４０）に接続されることができる。

コア（９４０）は、１つ以上の中央処理デバイス（ＣＰＵ）（９４１）、グラフィックス処理デバイス（ＧＰＵ）（９４２）、フィールドプログラマブルゲートエリア（ＦＰＧＡ）（９４３）の形態の特殊なプログラマブル処理デバイス、特定のタスクのためのハードウェアアクセラレータ８４４等を含むことができる。これらのデバイスは、読出し専用メモリ（ＲＯＭ）（９４５）、ランダムアクセスメモリ（９４６）、内部大容量記憶デバイス、例えば内部非ユーザアクセス可能ハードドライブ、ＳＳＤ等（９４７）と共に、システムバス（９４８）を介して接続され得る。いくつかのコンピュータシステムでは、システムバス（９４８）は、追加のＣＰＵ、ＧＰＵ等による拡張を可能にするために、１つ又は複数の物理プラグの形態でアクセス可能である。周辺デバイスは、コアのシステムバス（９４８）に直接接続するか、又は周辺バス（９４９）を介して接続することができる。周辺バスのアーキテクチャは、ＰＣＩ、ＵＳＢ等を含む。グラフィックアダプタ（９５０）は、コア（９４０）に含まれることができる。

ＣＰＵ（９４１）、ＧＰＵ（９４２）、ＦＰＧＡ（９４３）、及びアクセラレータ（９４４）は、組み合わされて、上述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ（９４５）又はＲＡＭ（９４６）に格納されることができる。移行データは、ＲＡＭ（９４６）に格納されることもできるが、永久データは例えば内部大容量記憶デバイス（９４７）に格納されことができる。１つ以上のＣＰＵ（９４１）、ＧＰＵ（９４２）、大容量記憶デバイス（９４７）、ＲＯＭ（９４５）、ＲＡＭ（９４６）等と密接に関連付けることができるキャッシュメモリを使用することによって、メモリデバイスのいずれかへの高速記憶及び検索を可能にすることができる。

コンピュータ可読媒体は、各種のコンピュータ実施動作（ｃｏｍｐｕｔｅｒ－ｉｍｐｌｅｍｅｎｔｅｄｏｐｅｒａｔｉｏｎｓ）を実行するためにその上のコンピュータコードを有することができる。メディアおよびコンピュータコードは特別に設計されたそれらであることができて、本開示のために作成されることができる、または、それらはよく公知で、コンピュータソフトウェア技術の技術を有するそれらが利用できる種類でありえる。

一例として、限定するものではなく、アーキテクチャ（９００）、具体的にはコア（９４０）を有するコンピュータシステムは、１つ以上の有形のコンピュータ可読媒体に具現化されたソフトウェアを実行するプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ等を含む）の結果として機能性を提供することができる。かかるコンピュータ可読媒体は、コア－内部大容量記憶デバイス（９４７）又はＲＯＭ（９４５）等の一時的でない性質のコア（９４０）の特定の記憶デバイスと同様に、上述のようにユーザがアクセス可能な大容量記憶デバイスに関連する媒体であってもよい。本開示の様々な実施形態を実装するソフトウェアは、かかるデバイスに記憶され、コア（９４０）によって実行され得る。コンピュータ読取可能媒体は、特定のニーズに応じて、１つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア（９４０）及びその中の具体的にプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ等を含む）に、ＲＡＭ（９４６）に記憶されたデータ構造を定義し、ソフトウェアによって定義されたプロセスにしたがって、かかるデータ構造を変更することを含む、本明細書に記載された特定のプロセス又は特定の部分を実行させることができる。付加的に又は代替的に、コンピュータシステムは、回路（例えば、アクセラレータ（９４４））内に配線された、又は他の方法で具現化されたロジックの結果として、機能性を提供することができ、これは、本明細書に記載される特定のプロセス又は特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに、又はソフトウェアと共に動作することができる。ソフトウェアへの言及は、論理を含み、また、必要に応じて、その逆も可能である。コンピュータ読取り可能媒体への参照は、実行のためのソフトウェアを記憶する（集積回路（ＩＣ）等の）回路、実行のためのロジックを具体化する回路、又は適切な場合にはその両方を含むことができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを包含する。

この開示は、いくつかの非限定的な例示的な実施形態を説明しているが、本開示の範囲内にある変更、順列、および様々な代替の同等物が存在する。したがって、当業者は、本明細書に明示的に示されていないか又は記載されていないが、本発明の原理を実施し、したがってその概念及び範囲内にある多数のシステム及び方法を創造することができることが理解されよう。

Claims

少なくとも１つのプロセッサによって実行される方法であって、
コーディングされたビットストリームを受信するステップと、
前記コーディングされたビットストリームから画像のブロックをデコードするステップと、を含み、
前記デコードするステップは、
１つ以上の、先行してデコードされた近接ブロックから又は先行してデコードされた画像から少なくとも１つの近接する再構成されたサンプルに基づいて変換セットを選択するステップと、
前記変換セットからの変換を使用して前記ブロックの係数を逆変換するステップと、を含む、
方法。
前記変換セットを選択するステップは、さらに、予測モードのコーディングされた情報に基づく、
請求項１記載の方法。
前記コーディングされた情報はインター予測モードのものである、
請求項２記載の方法。
前記変換セットを選択するステップは、
第１コーディング情報に基づいて変換セットのグループから変換セットのサブグループを選択するステップと、
前記サブグループから前記変換セットを選択するステップと、を含む、
請求項１記載の方法。
前記サブグループから前記変換セットを選択するステップは、第２コーディング情報に基づいて前記変換セットを選択するステップを含み、
前記方法はさらに、前記コーディングされたビットストリーム内でシグナリングされたインデックス値に基づいて前記変換セットから変換候補を選択するステップを含む、
請求項４記載の方法。
前記少なくとも１つの近接する再構成されたサンプルは、前記１つ以上の、先行してデコードされた近接するブロックから再構成されたサンプルを含む、
請求項１記載の方法。
前記変換セットを選択するステップは、変換セットのグループから前記変換セットを選択するステップを含み、
前記変換セットのグループは二次変換カーネルのみを含む、
請求項１記載の方法。
前記二次変換カーネルは非分離可能である、
請求項７記載の方法。
前記変換セットは、ニューラルネットワークへの前記少なくとも１つの近接する再構成されたサンプルの情報を入力するステップ、及び、前記ニューラルネットワークからの出力であるインデックスに基づいて前記変換セットを識別するステップ、によって実行される、
請求項１記載の方法。
前記変換セットは二次変換である、
請求項１記載の方法。
コンピュータプログラムコードを格納するように構成された少なくとも１つのメモリと、
前記プログラムコードにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するように構成された少なくとも１つのプロセッサと、
を備えるシステムであって、
前記コンピュータプログラムは、
前記少なくとも１つのプロセッサに、請求項１乃至１０いずれか１項記載の方法を実施させるように構成されている、
システム。
少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに、受信されたコーディングビットストリームからの画像のブロックをデコードさせるように構成されたコンピュータ命令含むプログラムであって、前記コンピュータ命令は：
前記少なくとも１つのプロセッサに請求項１乃至１０いずれか１項記載の方法を実行させるように構成されている、プログラム。