JP2024510710A

JP2024510710A - 特徴マップ符号化対通常のビデオ符号化のためのツール選択

Info

Publication number: JP2024510710A
Application number: JP2023547314A
Authority: JP
Inventors: クリストファージェームズロゼワーン，
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-04-07
Filing date: 2022-03-11
Publication date: 2024-03-11
Also published as: WO2022213139A1; AU2024200562A1; KR20230162802A; CN117546176A; EP4320557A1; AU2021202142A1

Abstract

第１符号化データおよび第２符号化データを生成するための装置。装置は、装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定する判定手段を有する。また、装置は、装置が特徴マップの符号化データを含まない符号化ビデオデータの形で第１符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて第１符号化データを生成する符号化手段を有する。符号化手段は、装置が特徴マップの符号化データを含む第２符号化データを生成する場合、複数の機能のうちの第１部分を用いるが複数の機能のうちの第２部分を用いずに特徴マップの符号化データを生成する。

Description

関連出願への言及
本出願は、２０２１年４月７日に出願されたオーストラリア特許出願第２０２１２０２１４２号の出願日の３５Ｕ．Ｓ．Ｃ§１１９に基づく利益を主張し、その全体があたかも本明細書に完全に記載されているかのように、参照により本明細書に組み込まれる。

本発明は一般に、デジタルビデオ信号処理に関し、特に、畳み込みニューラルネットワークからテンソルを符号化および復号するための方法、装置、およびシステムに関する。本発明はまた、ビデオ圧縮技術を使用して畳み込みニューラルネットワークからテンソルを符号化および復号するためのコンピュータプログラムを記録したコンピュータ可読媒体を含むコンピュータプログラム製品に関する。

ビデオ圧縮は、ビデオデータの送信および記憶のためのアプリケーションを含む、多くのアプリケーションをサポートするために使用されるユビキタス技術である。多くのビデオコーディング規格が開発されており、他のものは現在開発中である。ビデオコーディング標準化における最近の発展は、「Joint Video Experts Team」（ＪＶＥＴ）と呼ばれるグループの形成につながった。Joint Video Experts Team（JVET）は、２つの標準設定組織（Standards Setting Organisations）（SSO）、つまり、「Video Coding Experts Group」（ＶＣＥＧ）としても知られる、International Telecommunication Union（ITU）のTelecommunication Standardisation Sector（ＩＴＵ－Ｔ）のStudy Group １６、Ｑｕｅｓｔｉｏｎ６（ＳＧ１６／Ｑ６）と、「Moving Picture Experts Group」（ＭＰＥＧ）としても知られる、国際標準化機構／国際電気標準会議合同技術委員会１／小委員会２９／Working Group １１(ISO／IEC JTC１／ＳＣ２９／ＷＧ１１）と、のメンバを含む。

Joint video Experts Team(JVET)は、「versatile video coding」（ＶＶＣ）と呼ばれるビデオ圧縮規格を開発した。

畳み込みニューラルネットワーク（ＣＮＮ）は、とりわけ、物体認識、物体追跡、人間の姿勢推定、および行動認識などのマシンビジョンを伴うユースケースに対処する新興の技術である。ＣＮＮは典型的には、畳み込み層および全結合層などの多くの層を含み、データは、「テンソル」の形式で１つの層から次の層に渡される。各層の重みは、トレーニングステージで決定され、ここで、非常に大量のトレーニングデータがＣＮＮを通過し、決定された結果がトレーニングデータに関連するグラウンドトゥルースと比較される。確率的勾配降下などのネットワーク重みを更新するためのプロセスは、ネットワークが所望のレベルの精度で実行するまで、ネットワーク重みを反復的に精緻化するために適用される。畳み込みステージが１より大きい「ストライド」を有する場合、畳み込みからの出力テンソルは、対応する入力テンソルよりも低い空間分解能を有する。「最大プーリング」のような動作はまた、入力テンソルと比較して、出力テンソルの空間サイズを低減する。最大プーリングは、入力テンソルをデータサンプルのグループ（たとえば、データサンプルの２×２グループ）に分割し、各グループから、出力テンソル内の対応する値のための出力として最大値を選択することによって出力テンソルを生成する。入力を用いてＣＮＮを実行し、入力を出力に漸進的に変換するプロセスは、一般に「推論」と呼ばれる。

一般に、テンソルは４つの次元、すなわち、バッチ、チャネル、高さおよび幅を有する。ビデオデータを推論するときのサイズ「１」の第１次元「バッチ」は、一度に１つのフレームがＣＮＮを通過することを示す。ネットワークをトレーニングするとき、所定の「バッチサイズ」に従って、ネットワークの重みが更新される前に複数のフレームがネットワークを通過するように、バッチ次元の値を増加させることができる。マルチフレームビデオは、所与のビデオのフレームの数に従ってサイズが増加されたバッチ次元を有する単一のテンソルとして通過され得る。しかしながら、メモリ消費およびアクセスに関する実際的な考慮事項のために、ビデオデータの推論は、典型的にはフレーム単位で実行される。「チャネル」次元は、所与のテンソルに対する同時（concurrent）の「特徴マップ」の数を示し、高さおよび幅の次元は、ＣＮＮの特定のステージにおける特徴マップのサイズを示す。チャネルカウントは、ネットワークアーキテクチャに従ってＣＮＮを介して変化する。また、特徴マップサイズは、特定のネットワーク層で発生するサブサンプリングに応じて変化する。

ＣＮＮの第１層への入力は、典型的には第１層へのテンソル入力の次元との互換性のためにリサイズされる、画像またはビデオフレームである。テンソルの次元はＣＮＮアーキテクチャに依存し、一般に、入力幅および高さに関連するいくつかの次元と、さらなる「チャネル」次元と、を有する。

チャネルに基づいてテンソルをスライスすることは、いわゆる「特徴マップ」のセットをもたらし、これはテンソルの各スライスが対応する入力画像と何らかの関係を有し、エッジなどの何らかの特性を捕捉するためである。ネットワークへの入力からさらに離れたレイヤにおいて、関係は、より抽象的であり得る。ＣＮＮの「タスク性能」は、特定の入力を使用してタスクを実行する際のＣＮＮの結果を、提供されたグラウンドトゥルース（すなわち、「トレーニングデータ」）と比較することによって測定され、一般に、人間によって準備され、「正しい」結果を示すことが意図される。

ネットワークトポロジが決定されると、ネットワークの重みは、より多くのトレーニングデータが利用可能になるにつれて時間更新され得る。また、ＣＮＮの一部分を再トレーニングし、ネットワークの他の部分（複数可）における重みを変更しないままにすることも可能である。ＣＮＮの全体的な複雑さは、非常に高くなる傾向があり、多数の積和演算が実行され、多数の中間テンソルがメモリに書き込まれ、メモリから読み出される。いくつかのアプリケーションでは、ＣＮＮが全体的に「クラウド」において実装され、高く高価な処理能力が必要となる。他のアプリケーションでは、ＣＮＮがカメラまたは携帯電話などのエッジデバイスにおいて実装され、柔軟性は低くなるが、処理負荷はより分散される。

ＶＶＣは特に、ビデオフォーマットが（たとえば、より高い解像度およびより高いフレームレートを有する）能力を増加させるにつれて、ますます高い圧縮性能に対する継続的な需要に対処し、帯域幅コストが比較的高いＷＡＮを介したサービス配信に対する増大する市場需要に対処することが予想される。ＶＶＣは現代のシリコンプロセスにおいて実施可能であり、達成された性能と実施コストとの間の許容可能なトレードオフを提供する。実装コストはたとえば、シリコンエリア、ＣＰＵプロセッサロード、メモリ利用率、および帯域幅のうちの１つまたは複数に関して考慮され得る。ＶＶＣ規格の汎用性の一部は、ビデオデータを圧縮するために利用可能なツールの幅広い選択、ならびにＶＶＣが適している広範囲のアプリケーションにある。

ビデオデータは、画像データのフレームのシーケンスを含み、各フレームは、１つまたは複数のカラーチャネルを含む。一般に、１つの一次カラーチャネルおよび２つの二次カラーチャネルが必要とされる。一次カラーチャネルは一般に「ルマ」チャネルと呼ばれ、二次カラーチャネルは一般に「クロマ」チャネルと呼ばれる。ビデオデータは典型的にはＲＧＢ（赤－緑－青）色空間で表示されるが、この色空間は３つのそれぞれの構成要素の間に高い相関度を有する。エンコーダまたはデコーダによって見られるビデオデータ表現はしばしば、ＹＣｂＣｒなどの色空間を使用している。ＹＣｂＣｒは、伝達関数に従って「ルマ」にマッピングされた輝度を、Ｙ（一次）チャネルに集中させ、ＣｂおよびＣｒ（二次）チャネルに彩度を集中させる。非相関ＹＣｂＣｒ信号の使用により、ルマチャネルの統計は、クロマチャネルの統計と著しく異なる。主要な差異は、量子化の後、クロマチャネルが対応するルマチャネルブロックの係数と比較して、所与のブロックのための比較的少数の有意係数を含むことである。さらに、ＣｂおよびＣｒチャネルは、「４：２：０クロマフォーマット」として知られる、ルマチャネルと比較してより低いレート、例えば、水平方向に半分および垂直方向に半分で空間的にサンプリング（サブサンプリング）されてもよい。４：２：０クロマフォーマットは、インターネットビデオストリーミング、ブロードキャストテレビジョン、Blu-Ray^TMディスクへの保存など、「コンシューマ」アプリケーションで一般的に使用される。ルマサンプルのみが存在する場合、結果として生じるモノクロフレームは、「４：０：０クロマフォーマット」を使用すると言われる。

ＶＶＣ規格は「ブロックベース」アーキテクチャを規定し、フレームは最初に、「コーディングツリーユニット」（ＣＴＵ）として知られる領域の正方形アレイに分割される。一般に、ＣＴＵは、１２８×１２８ルマサンプルのような比較的大きな面積を占める。ただし、各フレームの右端および下端のＣＴＵは、面積がより小さくなり得る。各ＣＴＵに関連付けられているのは、ルマチャネルおよびクロマチャネルの両方のための「コーディングツリー」（「共有ツリー」）、またはルマチャネルおよびクロマチャネルのそれぞれのための別個のツリーである。コーディングツリーは、ＣＴＵのエリアの、「コーディングブロック」（ＣＢ）とも呼ばれるブロックのセットへの分解を定義する。共有ツリーが使用中であるとき、単一のコーディングツリーはルマチャネルおよびクロマチャネルの両方のためのブロックを指定し、その場合、コロケートされたコーディングブロックのコレクションは「コーディングユニット」（ＣＵ）と呼ばれる（すなわち、各カラーチャネルのためのコーディングブロックを有する各ＣＵ）。ＣＢは、特定の順序で符号化または復号するために処理される。４：２：０クロマフォーマットの使用の結果として、１２８×１２８ルマサンプルエリアのためのルマコーディングツリーを有するＣＴＵは、１２８×１２８ルマサンプルエリアと並置された６４×６４クロマサンプルエリアのための対応するクロマコーディングツリーを有する。単一のコーディングツリーがルマチャネルおよびクロマチャネルのために使用されているとき、所与のエリアのためのコロケートされたブロックのコレクションは概して、「ユニット」、たとえば、上記のＣＵ、ならびに「予測ユニット」（ＰＵ）および「変換ユニット」（ＴＵ）と呼ばれる。４：２：０クロマフォーマットビデオデータのカラーチャネルにまたがるＣＵを有する単一のツリーは、クロマブロックを、対応するルマブロックの幅および高さの半分にする。所与のエリアのために別個のコーディングツリーが使用されるとき、上述のＣＢ、ならびに「予測ブロック」（ＰＢ）および「変換ブロック」（ＴＢ）が使用される。

「ユニット」と「ブロック」との間の上記の区別にもかかわらず、「ブロック」という用語は、すべてのカラーチャネルに動作が適用されるフレームのエリアまたは領域の総称として使用され得る。

ＣＵごとに、フレームデータの対応する領域のコンテンツ（サンプル値）の予測ユニット（ＰＵ）が生成される（「予測ユニット」）。さらに、予測と、エンコーダへの入力で見られる領域の内容と、の間の差分（または「空間領域」残差）の表現が形成される。各色チャネルにおける差分は、残差係数のシーケンスとして変換され、コーディングされ得、所与のＣＵのための１つまたは複数のＴＵを形成する。適用される変換は、残差値の各ブロックに適用される、離散コサイン変換（ＤＣＴ）または他の変換であり得る。変換は分離可能に適用される（すなわち、２次元変換は、２つのパスで実行される）。ブロックは最初に、ブロック内のサンプルの各行に１次元変換を適用することによって変換される。次いで、部分結果は、部分結果の各列に１次元変換を適用することによって変換され、残差サンプルを実質的に非相関化する変換係数の最終ブロックを生成する。様々なサイズの変換は、矩形形状ブロックの変換を含むＶＶＣ規格によってサポートされ、各サイド寸法は２のべき乗である。変換係数は、ビットストリームへのエントロピー符号化のために量子化される。

ＶＶＣは、イントラフレーム予測およびインターフレーム予測を特徴とする。イントラフレーム予測は、フレーム内のデータサンプルの現在のブロックの予測を生成するために使用されているフレーム内の以前に処理されたサンプルの使用を伴う。インターフレーム予測は、以前に復号されたフレームから取得されたサンプルのブロックを使用して、フレーム中のサンプルの現在のブロックの予測を生成することを伴う。以前に復号されたフレームから取得されたサンプルのブロックは、しばしばフィルタリングが適用された動きベクトルに従って、現在のブロックの空間位置からオフセットされる。イントラフレーム予測ブロックは、（ｉ）均一サンプル値（「ＤＣイントラ予測」）、（ｉｉ）オフセットおよび水平および垂直勾配を有するプレーン（「平面イントラ予測」）、（ｉｉｉ）特定の方向に適用された隣接サンプルを有するブロックの母集団（「角度イントラ予測」）、または（ｉｖ）隣接サンプルおよび選択された行列係数を使用した行列乗算の結果であり得る。予測されたブロックと対応する入力サンプルとの間のさらなる不一致は、「残差」をビットストリームに符号化することによって、ある程度補正され得る。残差は一般に、空間領域から周波数領域に変換されて、「一次変換領域において残差係数を形成し、これは、「二次変換領域」において残差係数を生成するために、「二次変換」のアプリケーションによってさらに変換され得る。残差係数は量子化パラメータに従って量子化され、デコーダで生成されたサンプルの再構成の精度の損失をもたらすが、ビットストリームにおけるビットレートの低減を伴う。

本発明の目的は、既存の構成の１つまたは複数の欠点を実質的に克服するか、または少なくとも改善することである。

本開示の一態様によれば、第１符号化データおよび第２符号化データを生成するための装置であって、
前記装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定する判定手段と、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第１符号化データを生成する符号化手段と、を備え、前記符号化手段は、前記装置が前記特徴マップの符号化データを含む前記第２符号化データを生成する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを生成する、装置が提供される。

本開示の別の態様によれば、第１符号化データおよび第２符号化データを復号するための装置であって、
前記装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定する判定手段と、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第１符号化データを復号する復号手段と、を備え、前記復号手段は、前記装置が前記特徴マップの符号化データを含む前記第２符号化データを復号する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを復号する、装置が提供される。

本開示の別の態様によれば、第１符号化データおよび第２符号化データを生成する方法であって、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定し、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第１符号化データを生成し、
前記装置が前記特徴マップの符号化データを含む前記第２符号化データを生成する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを生成する、方法が提供される。

本開示の別の態様によれば、第１符号化データおよび第２符号化データを復号する方法であって、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定し、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第１符号化データを復号し、
前記装置が前記特徴マップの符号化データを含む前記第２符号化データを復号する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを復号する、方法が提供される。

本開示の別の態様によれば、第１符号化データおよび第２符号化データを生成する方法を実行するためのプログラムを格納する非一時的なコンピュータ可読格納媒体であって、前記方法は、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定することと、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第１符号化データを生成することと、
前記装置が前記特徴マップの符号化データを含む前記第２符号化データを生成する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを生成することと、を含む非一時的なコンピュータ可読格納媒体が提供される。

本開示の他の態様によれば、第１符号化データおよび第２符号化データを復号する方法を実行するためのプログラムを格納する非一時的コンピュータ可読格納媒体であって、前記方法は、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定することと、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第１符号化データを復号することと、
前記装置が前記特徴マップの符号化データを含む前記第２符号化データを復号する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを復号することと、を含む非一時的なコンピュータ可読格納媒体が提供される。

他の態様も開示される。

次に、本発明の少なくとも１つの実施形態を、以下の図面および付録を参照して説明する。
図１は、分散マシンタスクシステムを示す概略ブロック図である。図２Ａは、図１の分散マシンタスクシステムが実施され得る汎用コンピュータシステムの概略ブロック図を形成する。図２Ｂは、図１の分散マシンタスクシステムが実施され得る汎用コンピュータシステムの概略ブロック図を形成する。図３Ａは、ＣＮＮのバックボーン部分の機能モジュールを示す概略ブロック図である。図３Ｂは、図３Ａの残差ブロックを示す概略ブロック図である。図３Ｃは、図３Ａの残差ユニットを示す概略ブロック図である。図３Ｄは、図３ＡのＣＢＬモジュールを示す概略ブロック図である。図４は、ＣＮＮの代替バックボーン部分の機能モジュールを示す概略ブロック図である。図５は、分散マシンタスクシステムの一部としての特徴マップ量子化器およびパッカを示す概略ブロック図である。図６は、ビデオエンコーダの機能モジュールを示す概略ブロック図である。図７は、ビデオデコーダの機能モジュールを示す概略ブロック図である。図８は、分散マシンタスクシステムの一部としての特徴マップ逆量子化器およびアンパッカを示す概略ブロック図である。図９Ａは、ＣＮＮのヘッド部を示す概略ブロック図である。図９Ｂは、図９Ａのアップスケーラモジュールを示す概略ブロック図である。図９Ｃは、図９Ａの検出モジュールを示す概略ブロック図である。図１０は、ＣＮＮの代替ヘッド部分を示す概略ブロック図である。図１１は、モノクロフレームにおける特徴マップパッキング配置を示す概略ブロック図である。図１２は、モノクロフレームにおける代替的な特徴マップパッキング配置を示す概略ブロック図である。図１３は、４：２：０クロマサブサンプリングカラーフレームにおける特徴マップパッキング配置を示す概略ブロック図である。図１４は、符号化されたパックされた特徴マップおよび関連するメタデータを保持するビットストリームを示す概略ブロック図である。図１５は、ＣＮＮの第１部分を実行し、結果として得られる特徴マップを符号化するための方法を示す。図１６は、特徴マップを復号し、ＣＮＮの第２の部分を実行するための方法を示す。図１７は、特徴マップのグループ化を決定する方法を示す。図１８は、ビデオ規格からコーディングツールまたは機能のセットを選択するための方法を示す。付録Ａは、ビットストリーム中の特徴マップパッキングおよび量子化に関連するメタデータを表すための補足強化情報（ＳＥＩ）メッセージフォーマットを示すシンタックステーブルである。

添付の図面のいずれか１つまたは複数において、同じ参照符号を有するステップおよび／または特徴が参照される場合、それらのステップおよび／または特徴は反対の意図がない限り、本説明の目的のために、同じ機能または動作を有する。

分散マシンタスクシステムは、中間圧縮データを生成するネットワークカメラまたはスマートフォンなどのエッジデバイスを含むことができる。分散マシンタスクシステムはまた、中間圧縮データを操作して何らかのタスク結果を生成するサーバファームベース（「クラウド」）アプリケーションなどの最終デバイスを含み得る。加えて、エッジデバイス機能は、クラウドにおいて具現化されてもよく、中間圧縮データは潜在的に、必要に応じて複数の異なるタスクのために、後の処理のために記憶されてもよい。

中間圧縮データの便利な形態は、高性能圧縮規格およびその実装の利用可能性のために、圧縮ビデオビットストリームである。ビデオ圧縮規格は、典型的には平面アレイに配置された、１０ビットなど、いくつかの所与のビット深度の整数サンプルを操作する。カラービデオは、用途に応じて、例えば色成分Ｙ、Ｃｂ、Ｃｒ、またはＲ、Ｇ、Ｂに対応する３つの平面アレイを有する。ＣＮＮは通常、テンソルの形で浮動小数点データを操作し、テンソルは一般に、ＣＮＮが動作するが、カラービデオデータの典型的な３つのチャネルよりも多くのチャネルを有する、入ってくるビデオデータと比較して、はるかに小さい空間次元を有する。

テンソルは典型的には以下の次元：フレーム、チャネル、高さ、および幅を有する。例えば、次元［１、２５６、７６、１３６］のテンソルは、各々がサイズ１３６×７６の２５６個の特徴マップを含むと言われる。ビデオデータの場合、推論は、典型的には複数のフレームを含むテンソルを使用するのではなく、一度に１つのフレームで実行される。

ＶＶＣエンコーダおよびデコーダは、「制約」として知られる能力シグナリングメカニズムを含む。ビットストリームの初期には、ＶＶＣ規格のどの能力がビットストリームにおいて使用されないかを示す制約のセットが存在する。制約は、ビットストリームの「プロファイル」および「レベル」とともにシグナリングされる。プロファイルは、ビットストリームを復号するために利用可能である必要があるツールのセットを広く示す。制約はまた、どのツールが指定されたプロファイルにおいてさらに制約されるかの制御の細かい粒度を提供する。ツールのさらなる制約は「サブプロファイリング」に類似しているが、サブプロファイルはＶＶＣ規格外で定義され、一般的な制約フラグセマンティクスはＶＶＣ規格内で定義される。ビデオエンコーダによって符号化されているデータのタイプに応じて、サブプロファイルを（たとえば、定義することと同等に）ツールのサブセットを定義することによって、デコーダは、ビットストリームの示されたプロファイルのコーディングツールのサブセットが使用されるべきであることを、ビットストリーム復号を開始する前に知ることができる。

図１は、分散マシンタスクシステム１００の機能モジュールを示す概略ブロック図である。システム１００は、符号化されたデータから特徴マップを符号化および復号するための平面フレームに特徴マップを効率的にパッキングおよび量子化するための方法を実装するために使用され得、その結果、関連するオーバーヘッドデータは過度に負担がかからず、復号された特徴マップのタスク性能はビットストリームのビットレートの変化に対して回復力がある。

システム１００は、符号化ビデオ情報の形で符号化データを生成するためのソースデバイス１１０を含む。システム１００はまた、宛先デバイス１４０を含む。通信チャネル１３０は、ソースデバイス１１０から宛先デバイス１３０に符号化ビデオ情報を通信するために使用される。いくつかの構成では、ソースデバイス１１０および宛先デバイス１４０の一方もしくは両方が、それぞれの移動電話ハンドセット（たとえば、「スマートフォン」）またはネットワークカメラおよびクラウドアプリケーションを有しても良い。通信チャネル１３０は、イーサネット（登録商標）などの有線接続、またはＷｉＦｉもしくは５Ｇなどの無線接続であり得る。さらに、ソースデバイス１１０および宛先デバイス１４０は、符号化ビデオデータがファイルサーバ内のハードディスクドライブなどの何らかのコンピュータ可読記憶媒体上でキャプチャされるアプリケーションを備え得る。

図１に示すように、ソースデバイス１１０は、ビデオソース１１２と、ＣＮＮバックボーン１１４と、特徴マップ量子化器およびパッカ１１６と、マルチプレクサ１１８と、ビデオエンコーダ１２０と、送信機１２２と、を含む。ビデオソース１１２は、典型的には画像キャプチャセンサ、非一時的記録媒体上に記憶された以前にキャプチャされたビデオシーケンス、または遠隔画像キャプチャセンサからのビデオフィードなど、キャプチャされたビデオフレームデータ（１１３として示される）のソースを備える。ビデオソース１１２はまた、コンピュータグラフィックスカードの出力であってもよく、例えば、コンピューティングデバイス（例えば、タブレットコンピュータ）上で実行される様々なアプリケーションおよびオペレーティングシステムのビデオ出力を表示する。ビデオソース１１２として画像キャプチャセンサを含み得るソースデバイス１１０の例は、スマートフォン、ビデオカムコーダ、プロフェッショナルビデオカメラ、およびネットワークビデオカメラを含む。

ＣＮＮバックボーン１１４は、ビデオフレームデータ１１３を受信し、ＣＮＮの「バックボーン」に対応するレイヤなど、全体的なＣＮＮの特定のレイヤを実行する。ＣＮＮのバックボーンレイヤは例えば、ビデオフレームデータ１１３によって表される入力画像の異なる空間スケールに対応する複数のテンソルを出力として生成することができる。「フィーチャピラミッドネットワーク(feature pyramid network)」（ＦＰＮ）アーキテクチャは、バックボーン１１４から出力される３つのレイヤに対応する３つのテンソルを、様々な空間分解能およびチャネルカウントでもたらすことができる。特徴マップ量子化器およびパッカ１１６は、ＣＮＮバックボーン１１４から出力されるテンソル１１５を受信する。特徴マップ量子化器およびパッカ１１６は、テンソル１１５内の浮動小数点値をフレーム１１９にパックされるデータサンプルに量子化することによって、ＣＮＮバックボーン１１４の出力である全体的なＣＮＮの内部層をビデオエンコーダ１２０にインターフェースするように作用する。フレーム１１９の解像度は、コーディングされるべき特徴マップの総面積および目標アスペクト比に基づき得る。パッキング中に、フレーム１１９内の過剰な未使用領域が発生した場合、フレームサイズが増加され得（たとえば、高さが増加され得る）、したがって、すべての特徴マップがフレーム１１９内に配置されることが可能である。たとえば、フレーム１１９の解像度は２０５６×１２２４であり得、フレーム１１９のビット深度は１０ビットであり得る。フレーム１１９内の特徴マップ配置を決定することは、テンソル１１５の次元が確立されるときにのみ実行される必要がある。チャネル次元に沿ってテンソル１１５をスライスすることはチャネルごとに１つの特徴マップを抽出することをもたらし、所与のテンソルの特徴マップはテンソルの追加の次元から決定される特定のサイズを有する。ＦＰＮが使用される場合、着信フレームごとに複数のテンソルが生成され、特徴マップの複数のセットを含み、特徴マップの各セットは異なる空間分解能を有する。すべてのレイヤの特徴マップは、パックされた特徴マップフレーム１１７などの平面ビデオフレームにパックされる。マルチプレクサ１１８はソースデバイス１１０がビデオデータを符号化するように構成されている場合、ソースデバイス１１０が特徴マップまたはフレームデータ１１３を符号化するように構成されている場合、パックされた特徴マップフレーム１１７を選択し、フレーム１１９をビデオエンコーダ１２０の形の符号化ユニットに出力する。特徴マップと通常のビデオデータとの間の選択は、メタデータＳＥＩメッセージ内の「ｆｒａｍｅ＿ｔｙｐｅ」シンタックスエレメントを使用してビットストリーム内で符号化される。メタデータＳＥＩメッセージは、付録Ａを参照して説明される。フレーム１１９がビデオエンコーダ１２０に入力され、そこで、非可逆圧縮がフレーム１１９に適用されて、ビットストリーム１２１を生成する。ビットストリーム１２１は通信チャネル１３０を介した送信のために送信機１２２に供給されるか、またはビットストリーム１２１は後で使用するために記憶装置１３２に書き込まれる。

ＣＮＮバックボーン１１４によるテンソルへの変換後、結果として得られる特徴マップのコンテンツは、ビデオデータ１１３において明確に識別可能である個人（individuals）をもはや識別することができない。記憶装置１３２を使用する（例えば圧縮された形態での）特徴マップの記憶は、特に偽名化または匿名化のための欧州一般データ保護規則（ＧＤＰＲ）要件に関連して、ユーザプライバシーの観点からより安全であり得る。

ソースデバイス１１０は、ＣＮＮバックボーン１１４のための特定のネットワークをサポートする。しかしながら、宛先デバイス１４０は、ヘッドＣＮＮ１５０のためのいくつかのネットワークのうちの１つを使用し得る。このようにして、パックされた特徴マップの形の部分的に処理されたデータは、ＣＮＮバックボーン１１４の動作を再度実行する必要なく、様々なタスクを実行する際に後で使用するために記憶され得る。ビデオエンコーダ１２０は、フレームデータ１１９を符号化するためにＶＶＣのコーディングツール（または「プロファイル」）の特定のセットを使用する。

ビットストリーム１２１は、送信機１２２によって、符号化ビデオデータ（または「符号化ビデオ情報」）として通信チャネル１３０を介して送信される。ビットストリーム１２１はいくつかの実装形態では記憶装置１３２に記憶することができ、記憶装置１３２は、後に通信チャネル１３０を介して送信されるまで（または通信チャネル１３０を介した送信の代わりに）、「フラッシュ」メモリまたはハードディスクドライブなどの非一時的記憶デバイスである。例えば、符号化されたビデオデータは、ビデオストリーミングアプリケーションのためのワイドエリアネットワーク（ＷＡＮ）を介して需要に応じて顧客に提供され得る。

宛先デバイス１４０は、受信機１４２と、ビデオデコーダ１４４と、デマルチプレクサ１４６と、特徴マップアンパッカおよび逆量子化器１４８と、ＣＮＮヘッド１５０と、ＣＮＮタスク１５２と、表示デバイス１６０と、を含む。受信機１４２は通信チャネル１３０から符号化ビデオデータを受信し、受信したビデオデータをビットストリームとしてビデオデコーダ１４４に渡す（矢印１４３で示す）。そして、ビデオデコーダ１４４は、復号されたフレームデータをデマルチプレクサ１４６に出力する（矢印１４５で示す）。復号されたメタデータ１５５はまた、ビデオデコーダ１４４によってビットストリーム１４３から抽出され、特徴マップアンパッカおよび逆量子化器１４８に渡される。復号されたメタデータ１５５は、典型的にはビットストリーム１４３に存在する「補足強化情報」（ＳＥＩ）メッセージ１４１３（図１４参照）から取得される。付録Ａは各例示的なシンタックスエレメントのセマンティクスとともに、復号されたメタデータ１５５の例示的なシンタックスを示す。復号されたメタデータ１５５は、あらゆるフレームのビットストリームから復号され、存在し得る。復号されたメタデータ１５５は、すべてのフレームよりも少ない頻度で存在し、復号され得る。たとえば、復号されたメタデータ１５５は、ビットストリーム１４３中のイントラピクチャにのみ存在し、復号され得る。復号されたメタデータ１５５が所与のフレームについて存在しないとき、最も最近の利用可能なメタデータが使用される。宛先デバイス１４０がビットストリーム１４３のＳＥＩメッセージ１４１３中の「ｆｒａｍｅ＿ｔｙｐｅ」シンタックスエレメントによって示されるように、ＣＮＮタスクを実行するように構成される場合、フレームデータ１４５は、特徴マップフレームデータ１４７として、特徴マップアンパッカおよび逆量子化器１４８に出力される。そうではなく、宛先デバイス１４０がビデオデータの復号を実行するように構成される場合、フレームデータ１４５は、フレームデータ１５９として出力され、ビデオとして表示するために表示デバイス１６０に供給される。特徴マップアンパッカおよび逆量子化器は、ＣＮＮヘッド１５０に供給されるテンソル１４７を出力する。ＣＮＮヘッド１５０は、ＣＮＮバックボーン１１４で開始されたタスクの後のレイヤを実行して、タスク結果バッファ１５２に記憶されたタスク結果１５１を生成する。表示デバイス１６０の例は、陰極線管、スマートフォン、タブレットコンピュータ、コンピュータモニタ、またはスタンドアロンテレビセットなどの液晶ディスプレイを含む。ソースデバイス１１０および宛先デバイス１４０の各々の機能性は単一のデバイスにおいて具現化されることも可能であり、その例は、携帯電話ハンドセット、タブレットコンピュータ、およびクラウドアプリケーションを含む。

上述の例示的なデバイスにもかかわらず、ソースデバイス１１０および宛先デバイス１４０の各々は、一般にハードウェア構成要素とソフトウェア構成要素との組合せを通して、汎用コンピューティングシステム内で構成され得る。図２Ａは、コンピュータモジュール２０１と、キーボード２０２とマウスポインタデバイス２０３とスキャナ２２６と、ビデオソース１１２として構成され得るカメラ２２７と、マイクロフォン２８０となどの入力デバイスと、プリンタ２１５と、表示デバイス１６０として構成され得る表示デバイス２１４と、ラウドスピーカ２１７とを含む出力デバイスとを含む、そのようなコンピュータシステム２００を示す。外部変調器－復調器（Ｍｏｄｅｍ）トランシーバデバイス２１６は、コネクション２２１を介して通信ネットワーク２２０との間で通信するためにコンピュータモジュール２０１によって使用され得る。通信チャネル１３０を表し得る通信ネットワーク２２０は、インターネット、セルラー電気通信ネットワーク、またはプライベートＷＡＮなどの（ＷＡＮ）であり得る。コネクション２２１が電話回線である場合、モデム２１６は、従来の「ダイヤルアップ」モデムであってもよい。代替として、コネクション２２１が大容量（たとえば、ケーブルまたは光）コネクションである場合、モデム２１６はブロードバンドモデムであり得る。ワイヤレスモデムはまた、通信ネットワーク２２０へのワイヤレス接続のために使用され得る。トランシーバデバイス２１６は、送信機１１６および受信機１４２の機能を提供することができ、通信チャネル１３０は、コネクション２２１において具現化され得る。

コンピュータモジュール２０１は、典型的には少なくとも１つのプロセッサユニット２０５と、メモリユニット２０６とを含む。例えば、メモリユニット２０６は、半導体RAM(random access memory)及び半導体ROM(read only memory)を有することができる。コンピュータモジュール２０１はまた、ビデオディスプレイ２１４に結合するオーディオビデオインターフェース２０７、ラウドスピーカ２１７およびマイクロフォン２８０と、キーボード２０２、マウス２０３、スキャナ２２６、カメラ２２７、および任意選択でジョイスティックまたは他のヒューマンインターフェースデバイス（図示せず）に結合するＩ／Ｏインターフェース２１３と、外部モデム２１６およびプリンタ２１５のためのインターフェース２０８とを含む、いくつかの入力／出力（Ｉ／Ｏ）インターフェースを含む。オーディオ－ビデオインターフェース２０７からコンピュータモニタ２１４への信号は一般に、コンピュータグラフィックスカードの出力である。いくつかの実装形態では、モデム２１６がコンピュータモジュール２０１内に、たとえばインターフェース２０８内に組み込まれ得る。コンピュータモジュール２０１はまた、ローカルエリアネットワーク（ＬＡＮ）として知られるローカルエリア通信ネットワーク２２２へのコネクション２２３を介してコンピュータシステム２００の結合を可能にするローカルネットワークインターフェース２１１を有する。図２Ａに示されるように、ローカル通信ネットワーク２２２はまた、コネクション２２４を介してワイドネットワーク２２０に結合することができ、これは、典型的にはいわゆる「ファイアウォール」デバイスまたは同様の機能のデバイスを含む。ローカルネットワークインターフェース２１１は、Ｅｔｈｅｒｎｅｔ^TM回路カード、Ｂｌｕｅｔｏｏｔｈ^TMワイヤレス構成、またはＩＥＥＥ８０２．１１ワイヤレス構成を有しうるが、インターフェース２１１のために多数の他のタイプのインターフェースが実施され得る。ローカルネットワークインターフェース２１１はまた、送信機１２２および受信機１４２の機能を提供することができ、通信チャネル１３０はまた、ローカル通信ネットワーク２２２において具現化され得る。

Ｉ／Ｏインターフェース２０８および２１３は、シリアルコネクティビティおよびパラレルコネクティビティのいずれかまたは両方を提供することができ、前者は典型的にはユニバーサルシリアルバス（ＵＳＢ）規格に従って実装され、対応するＵＳＢコネクタ（図示せず）を有する。記憶デバイス２０９が提供され、典型的にはハードディスクドライブ（ＨＤＤ）２１０を含む。また、フロッピーディスク（登録商標）ドライブや磁気テープドライブ（図示せず）などの他の記憶デバイスを用いてもよい。光ディスクドライブ２１２は、典型的にはデータの不揮発性ソースとして機能するように設けられる。例えば、光ディスク（例えば、ＣＤ－ＲＯＭ、ＤＶＤ、ＢｌｕｒａｙＤｉｓｃ^TM）、ＵＳＢ－ＲＡＭ、ポータブル、外部ハードディスク、およびフロッピーディスクなどのポータブルメモリデバイスを、コンピュータシステム２００への適切なデータのソースとして使用することができる。典型的には、ＨＤＤ２１０、光ドライブ２１２、ネットワーク２２０および２２２のいずれも、ビデオソース１１２として、またはディスプレイ２１４を介して再生のために記憶される復号されたビデオデータの宛先として動作するように構成されてもよい。システム１００のソースデバイス１１０および宛先デバイス１４０は、コンピュータシステム２００において具現化され得る。

コンピュータモジュール２０１の構成要素２０５～２１３は、典型的には、相互接続されたバス２０４を介して、当業者に知られているコンピュータシステム２００の従来の動作モードをもたらすように通信する。たとえば、プロセッサ２０５は、コネクション２１８を使用してシステムバス２０４に結合される。同様に、メモリ２０６および光ディスクドライブ２１２は、コネクション２１９によってシステムバス２０４に結合される。説明された構成を実施することができるコンピュータの例は、ＩＢＭ－ＰＣおよび互換機、ＳｕｎＳＰＡＲＣｓｔａｔｉｏｎ、ＡｐｐｌｅＭａｃ^TM、または同様のコンピュータシステムを含む。

適切または望ましい場合、ビデオエンコーダ１２０およびビデオデコーダ１４４、ならびに以下で説明する方法は、コンピュータシステム２００を使用して実装され得る。特に、ビデオエンコーダ１２０、ビデオデコーダ１４４、および説明される方法は、コンピュータシステム２００内で実行可能な１つまたは複数のソフトウェアアプリケーションプログラム２３３として実装され得る。特に、ビデオエンコーダ１２０、ビデオデコーダ１４４、および説明される方法のステップは、コンピュータシステム２００内で実行されるソフトウェア２３３内の命令２３１（図２Ｂ参照）によって実行される。ソフトウェア命令２３１は、それぞれが１つまたは複数の特定のタスクを実行するための１つまたは複数のコードモジュールとして形成され得る。ソフトウェアはまた、２つの別個の部分に分割され得、第１部分および対応するコードモジュールは説明された方法を実行し、第２部分および対応するコードモジュールは、第１部分とユーザとの間のユーザインターフェースを管理する。

ソフトウェアはたとえば、以下で説明する記憶デバイスを含むコンピュータ可読媒体に記憶され得る。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム２００にロードされ、次いで、コンピュータシステム２００によって実行される。そのようなソフトウェアまたはコンピュータ可読媒体に記録されたコンピュータプログラムを有するコンピュータ可読媒体は、コンピュータプログラム製品である。コンピュータシステム２００におけるコンピュータプログラム製品の使用は、好ましくはソースデバイス１１０および宛先デバイス１４０を実装するための有利な装置と、説明された方法とをもたらす。

ソフトウェア２３３は、典型的には、ＨＤＤ２１０またはメモリ２０６に格納される。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム２００にロードされ、コンピュータシステム２００によって実行される。したがって、たとえば、ソフトウェア２３３は光ディスクドライブ２１２によって読み取られる光学的に読み取り可能なディスク記憶媒体（たとえば、ＣＤ－ＲＯＭ）２２５に記憶され得る。

いくつかの例では、アプリケーションプログラム２３３が１つまたは複数のＣＤ－ＲＯＭ２２５上で符号化されたユーザに供給され、対応するドライブ２１２を介して読み出されてもよく、あるいはネットワーク２２０または２２２からユーザによって読み出されてもよい。さらに、ソフトウェアは、他のコンピュータ可読媒体からコンピュータシステム２００にロードすることもできる。コンピュータ可読記憶媒体は実行および／または処理のために、記録された命令および／またはデータをコンピュータシステム２００に提供する任意の非一時的有形記憶媒体を指す。このような記憶媒体の例は、フロッピーディスク、磁気テープ、ＣＤ－ＲＯＭ、ＤＶＤ、Ｂｌｕ－ｒａｙＤｉｓｃ^TM、ハードディスクドライブ、ＲＯＭ又は集積回路、ＵＳＢメモリ、光磁気ディスク、又はＰＣＭＣＩＡカード等のコンピュータ可読カードを含み、これらのデバイスはコンピュータモジュール２０１の内部又は外付けである。コンピュータモジュール２０１へのソフトウェア、アプリケーションプログラム、命令、および／またはビデオデータもしくは符号化ビデオデータの提供に参加することもできる一時的または非有形のコンピュータ可読伝送媒体の例は、無線または赤外線伝送チャネル、ならびに別のコンピュータまたはネットワーク化されたデバイスへのネットワークコネクション、ならびに電子メール送信およびウェブサイトなどに記録された情報を含むインターネットまたはイントラネットを含む。

アプリケーションプログラム２３３の第２部分および上述の対応するコードモジュールは、ディスプレイ２１４上にレンダリングされるかまたは表される１つまたは複数のグラフィカルユーザインターフェース（ＧＵＩ）を実装するために実行され得る。典型的にはキーボード２０２およびマウス２０３の操作を通して、コンピュータシステム２００およびアプリケーションのユーザは、機能的に適応可能な方法でインターフェースを操作して、ＧＵＩに関連するアプリケーションに制御コマンドおよび／または入力を提供することができる。ラウドスピーカ２１７を介して出力されるスピーチプロンプトと、マイクロフォン２８０を介して入力されるユーザ音声コマンドとを利用するオーディオインターフェースなど、機能的に適応可能なユーザインターフェースの他の形態も実装され得る。

図２Ｂは、プロセッサ２０５および「メモリ」２３４の詳細な概略ブロック図である。メモリ２３４は、図２Ａのコンピュータモジュール２０１によってアクセス可能な全てのメモリモジュール（記憶デバイス２０９及び半導体メモリ２０６を含む）の論理的集合を表す。

コンピュータモジュール２０１が最初に電源投入されると、パワーオンセルフテスト（ＰＯＳＴ）プログラム２５０が実行される。ＰＯＳＴプログラム２５０は、典型的には図２Ａの半導体メモリ２０６のＲＯＭ２４９に格納される。ソフトウェアを記憶するＲＯＭ２４９などのハードウェアデバイスは、ファームウェアと呼ばれることがある。ＰＯＳＴプログラム２５０は適切な機能を保証するためにコンピュータモジュール２０１内のハードウェアを検査し、典型的には、正しい動作のために、プロセッサ２０５、メモリ２３４（２０９、２０６）、および同様に典型的にはＲＯＭ２４９に記憶された基本入出力システムソフトウェア（ＢＩＯＳ）モジュール２５１をチェックする。ＰＯＳＴプログラム２５０が正常に実行されると、ＢＩＯＳ２５１は、図２Ａのハードディスクドライブ２１０を起動する。ハードディスクドライブ２１０の起動により、ハードディスクドライブ２１０に常駐するブートストラップローダプログラム２５２に、プロセッサ２０５を介して実行させる。これにより、オペレーティングシステム２５３がＲＡＭメモリ２０６にロードされ、オペレーティングシステム２５３が動作を開始する。オペレーティングシステム２５３はプロセッサ２０５によって実行可能なシステムレベルアプリケーションであり、プロセッサ管理、メモリ管理、デバイス管理、ストレージ管理、ソフトウェアアプリケーションインターフェース、および汎用ユーザインターフェースを含む、様々な高レベルの機能を果たす。

オペレーティングシステム２５３は、メモリ２３４（２０９、２０６）を管理して、コンピュータモジュール２０１上で実行される各プロセスまたはアプリケーションが別のプロセスに割り振られたメモリと衝突することなく実行するのに十分なメモリを有することを保証する。さらに、図２Ａのコンピュータシステム２００において利用可能な異なるタイプのメモリは、各プロセスが効果的に実行され得るように、適切に使用される必要がある。したがって、集約メモリ２３４は、メモリの特定のセグメントがどのように割り振られるかを示すことを意図するものではなく（特に明記しない限り）、むしろ、コンピュータシステム２００によってアクセス可能なメモリの一般的なビュー、およびそのようなメモリがどのように使用されるかを提供することを意図するものである。

図２Ｂに示されるように、プロセッサ２０５は、制御部２３９と、算術論理部（ＡＬＵ）２４０と、キャッシュメモリと呼ばれることもあるローカルまたは内部メモリ２４８とを含む、いくつかの機能モジュールを含む。キャッシュメモリ２４８は、典型的にはレジスタセクション内にいくつかの記憶レジスタ２４４～２４６を含む。１つ以上の内部バス２４１は、これらの機能モジュールを機能的に相互接続する。プロセッサ２０５はまた、典型的には、コネクション２１８を使用して、システムバス２０４を介して外部デバイスと通信するための１つまたは複数のインターフェース２４２を有する。メモリ２３４は、コネクション２１９を使用してバス２０４に結合される。

アプリケーションプログラム２３３は、条件付き分岐およびループ命令を含むことができる一連の命令２３１を含む。また、プログラム２３３は、プログラム２３３の実行に用いられるデータ２３２を含んでもよい。命令２３１およびデータ２３２は、それぞれ、メモリロケーション２２８、２２９、２３０および２３５、２３６、２３７に記憶される。命令２３１およびメモリロケーション２２８～２３０の相対的なサイズに応じて、特定の命令はメモリロケーション２３０に示される命令によって示されるように、単一のメモリロケーションに記憶され得る。代替的に、命令はメモリロケーション２２８および２２９に示される命令セグメントによって示されるように、それぞれが別個のメモリロケーションに記憶されるいくつかの部分にセグメント化され得る。

一般に、プロセッサ２０５には、その中で実行される命令のセットが与えられる。プロセッサ２０５は、プロセッサ２０５が別の命令セットを実行することによって反応する後続の入力を待つ。各入力は、すべて図２Ａに示される、入力デバイス２０２、２０３のうちの１つまたは複数によって生成されたデータ、ネットワーク２２０、２０２のうちの１つにわたって外部ソースから受信されたデータ、記憶デバイス２０６、２０９のうちの１つから取り出されたデータ、または、対応するリーダ２１２に挿入された記憶媒体２２５から取り出されたデータを含む、いくつかのソースのうちの１つまたは複数から提供され得る。命令のセットの実行は、場合によってはデータの出力をもたらし得る。実行はまた、データまたは変数をメモリ２３４に記憶することを伴い得る。

ビデオエンコーダ１２０、ビデオデコーダ１４４、および説明する方法は、入力変数２５４を使用し得、入力変数はメモリ２３４中の対応するメモリロケーション２５５、２５６、２５７に記憶される。ビデオエンコーダ１２０、ビデオデコーダ１４４、および説明される方法は、出力変数２６１を生成し、それらは、メモリ２３４中の対応するメモリロケーション２６２、２６３、２６４に記憶される。中間変数２５８は、メモリロケーション２５９、２６０、２６６、および２６７に記憶され得る。

図２Ｂのプロセッサ２０５を参照すると、レジスタ２４４、２４５、２４６、算術論理ユニット（ＡＬＵ）２４０、および制御部２３９は、プログラム２３３を構成する命令セット内の命令ごとに「フェッチ、デコード、および実行」サイクルを実行するために必要なマイクロオペレーションのシーケンスを実行するように協働する。各フェッチ、デコード、および実行サイクルは：
メモリロケーション２２８、２２９、２３０から命令２３１をフェッチまたは読み出すフェッチ動作；
制御部２３９が、どの命令がフェッチされたかを判定するデコード動作と、
制御部２３９および／またはＡＬＵ２４０が命令を実行する実行動作とを含む。

その後、次の命令のためのさらなるフェッチ、デコード、および実行サイクルが実行され得る。同様に、格納サイクルは、制御部２３９が値をメモリロケーション２３２に格納または書き込むことによって実行されてもよい。

説明される図１５、１６、１７、および１８の方法における各ステップまたはサブプロセスは、プログラム２３３の１つまたは複数のセグメントに関連付けられ、典型的には、プロセッサ２０５内のレジスタセクション２４４、２４５、２４７、ＡＬＵ２４０、および制御部２３９によって実行され、プログラム２３３の言及されたセグメントのための命令セット内のすべての命令について、フェッチ、デコード、および実行サイクルを実行するように協働する。

図３Ａは、ＣＮＮバックボーン１１４として機能し得るＣＮＮのバックボーン部分３１０の機能モジュールを示す概略ブロック図である。バックボーン部分１１４は「ＤａｒｋＮｅｔ－５３」と呼ばれることもあるが、異なるバックボーンも可能であり、その結果、フレームごとにテンソル１１５の層の数および次元が異なる。図１４および付録Ａを参照して説明される、ＳＥＩメッセージ１４１３内の「ｂａｃｋｂｏｎｅ＿ｉｄ」シンタックスエレメントは、バックボーンのタイプを示す。バックボーンのタイプが未知である場合、テンソル次元は、各レイヤについての特徴マップカウント（「ｆｍ＿ｃｎｔ」）および各レイヤについての特徴マップ次元（「ｆｍ＿ｗｉｄｔｈ」および「ｆｍ＿ｈｅｉｇｈｔ」）を使用して指定される。

図３Ａに見られるように、ビデオデータ１１３は、ＣＮＮバックボーン３１０による処理に適した解像度にフレームをリサイズするリサイザモジュール３０４に渡され、リサイズされたフレームデータ３１２を生成する。フレームデータ１１３の解像度が既にＣＮＮバックボーン３１０に適している場合、リサイザモジュール３０４の動作は不要である。リサイズされたフレームデータ３１２は、畳み込みバッチ正規化漏れ修正線形（convolutional batch normalisation leaky rectified linear）（ＣＢＬ）モジュール３１４に渡され、テンソル３１６を生成する。ＣＢＬ３１４は図３Ｄに示されるように、ＣＢＬモジュール３６０を参照して説明されるようなモジュールを含む。

ＣＢＬモジュール３６０は、テンソル３６１を入力として受け取り、これは、畳み込みレイヤ３６２に渡されてテンソル３６３を生成する。畳み込みレイヤ３６２が１のストライドを有するとき、テンソル３６３はテンソル３６１と同じ空間次元を有する。畳み込みレイヤ３６２が２などのより大きいストライドを有するとき、テンソル３６３はテンソル３６１と比較してより小さい空間次元を有し、例えば、２のストライドのサイズが半分になる。ストライドにかかわらず、テンソル３６３のチャネル次元のサイズは、特定のＣＢＬブロックのテンソル３６１のチャネル次元と比較して変化し得る。テンソル３６３は、テンソル３６５を出力するバッチ正規化モジュール３６４に渡される。バッチ正規化モジュール３６４は、入力テンソル３６３を正規化し、スケーリング係数およびオフセット値を適用して、出力テンソル３６５を生成する。スケーリング係数およびオフセット値は、トレーニングプロセスから導出される。テンソル３６５は、漏れ修正線形活性化（「ＬｅａｋｙＲｅＬＵ」）モジュール３６６に渡され、テンソル３６７を生成する。モジュール３６６は「活性化関数」を提供し、テンソル内の正の値が通過され、負の値の大きさが、例えば、それらの以前の値の０．１Ｘに大幅に低減される。

テンソル３１６は、ＣＢＬブロック３１４から、内部で１１個の残差ユニットの連結を含む残差ブロック１１モジュール３２０に渡される。

残差ブロックは、図３Ｂに示されるＲｅｓＢｌｏｃｋ３４０を参照して説明される。ＲｅｓＢｌｏｃｋ３４０は、テンソル３４３を生成するためにゼロパディングモジュール３４２によってゼロパディングされたテンソル３４１を受け取る。テンソル３４３は、ＣＢＬモジュール３４４に渡されてテンソル３４５を生成する。テンソル３４５は残差ユニット３４６に渡され、残差ブロック３４０は一連の連結された残差ユニットを含む。残差ユニット３４６の最後の残差ユニットは、テンソル３４７を出力する。残差ユニットは図３Ｃに見られるように、ＲｅｓＵｎｉｔ３５０を参照して説明される。ＲｅｓＵｎｉｔ３５０はテンソル３５１を入力とし、ＣＢＬモジュール３５２に渡されてテンソル３５３を生成する。テンソル３５３は、第２ＣＢＬユニット３５４に渡され、テンソル３５５を生成する。加算モジュール３５６は、テンソル３５５をテンソル３５１と合計してテンソル３５７を生成する。加算モジュール３５６は、入力テンソル３５１が出力テンソル３５７に実質的に影響を与えるので、「ショートカット」と呼ばれることもある。トレーニングされていないネットワークの場合、ＲｅｓＵｎｉｔ３５０は、パススルーテンソルに作用する。トレーニングが実行されると、ＣＢＬモジュール３５２および３５４は、トレーニングデータおよびグラウンドトゥルースデータに従ってテンソル３５７をテンソル３５１から離すように動作する。

Ｒｅｓ１１モジュール３２０はテンソル３２２を出力し、これは、バックボーンモジュール３１０からレイヤのうちの１つとして出力され、また、Ｒｅｓ８モジュール３２４に提供される。Ｒｅｓ８モジュール３２４は８個の残差ユニット（すなわち、３５０）を含む残差ブロック（すなわち、３４０）である。Ｒｅｓ８モジュール３２４はテンソル３２６を生成し、これはＲｅｓ４モジュール３２８に渡され、レイヤの１つとしてバックボーンモジュール３１０からも出力される。Ｒｅｓ４モジュールは４つの残差ユニット（すなわち、３５０）を含む残差ブロック（すなわち、３４０）である。Ｒｅｓ４モジュール３２４は、レイヤの１つとしてバックボーンモジュール３１０から出力されるテンソル３２９を生成する。まとめて、レイヤテンソル３２２、３２６、および３２９は、テンソル１１５として出力される。バックボーンＣＮＮ３１０は入力として、解像度１０８８×６０８のビデオフレームをとり、３つのレイヤに対応する３つのテンソルを生成することができ、次の［１、２５６、７６、１３６］、［１、５１２、３８、６８］、［１、１０２４、１９、３４］の次元を有する。図３および図９に示される全体的なＣＮＮは示されるように分割されてもよいが、全体的なＣＮＮの他の分割も可能である。ＣＢＬブロック９１２、９２６、および９４０における第１畳み込みから出力されるテンソル（すなわち、各それぞれのＣＢＬモジュールにおけるテンソル３６３）はバックボーンからの出力としてタップされ得、その場合、アップスケーラモジュール９２２および９３６ならびにＣＢＬモジュール９１２、９２６、および９４０の第１畳み込みはバックボーンＣＮＮ３１０に含まれる。結果として得られるテンソルの次元数は、［１、５１２、３４、１９］、［１、２５６、６８、３８］、［１、１２８、１３６、７６］である。ＹＯＬＯｖ３ネットワークのすべてのレイヤおよび動作が列挙されるとき、ＣＢＬモジュール９１２、９２６、および９４０におけるタッピングテンソル３６３は、それぞれ、ＹＯＬＯｖ３ネットワークにおける第７５モジュール、第９０モジュール、および第１０５モジュールにおけるタッピングテンソルに対応する。結果として生じるテンソルは「Ｄａｒｋｎｅｔ－５３」出力（すなわち、３２２、３２６、および３２９）と比較して、各解像度における特徴マップの数の半分を有する。

図４は、ＣＮＮバックボーン１１４として機能し得るＣＮＮの代替バックボーン部分４００の機能モジュールを示す概略ブロック図である。バックボーン部分４００は特徴ピラミッドネットワーク（「ResNet FPN」）を有する残差ネットワークを実施し、ＣＮＮバックボーン１１４の代替である。フレームデータ１１３は入力され、テンソル４０９、４１３、４１７、４２５を介して、ステムネットワーク４０８、ｒｅｓ２モジュール４１２、ｒｅｓ３モジュール４１６、ｒｅｓ４モジュール４２０、ｒｅｓ５モジュール４２４、およびｍａｘプールモジュール４２８を通過し、ｍａｘプールモジュール４２８は、出力としてテンソル４２９を生成する。ステムネットワーク４０８は、２のストライドを有する７ｘ７畳み込みと、最大プーリング動作とを含む。ｒｅｓ２モジュール４１２、ｒｅｓ３モジュール４１６、ｒｅｓ４モジュール４２０、およびｒｅｓ５モジュール４２４は、畳み込み演算、ＬｅａｋｙＲｅＬＵアクティベーションを実行する。各モジュール４２１、４１６、４２０および４２４はまた、２のストライドセッティングを介して、処理されたテンソルの解像度の１つの半分を実行する。テンソル４０９、４１３、４１７、および４２５は、１ｘ１横方向畳み込みモジュール４４０、４４２、４４４、および４４６に渡され、テンソル４４１、４４３、４４５、および４４７を生成する。テンソル４４１は、３ｘ３出力畳み込みモジュール４７０に渡され、出力テンソルＰ５４７１を生成する。テンソル４４１はまた、アップサンプリングされたテンソル４５１を生成するために、アップサンプラモジュール４５０に渡される。合計モジュール４６０はテンソル４４３および４５１を合計してテンソル４６１を生成し、これは、アップサンプラモジュール４５２および３ｘ３横方向畳み込みモジュール４７２に渡される。モジュール４７２は、Ｐ４テンソル４７３を出力する。アップサンプラモジュール４５２は、アップサンプリングされたテンソル４５３を生成する。合計モジュール４６２はテンソル４４５および４５３を合計してテンソル４６３を生成し、テンソルは、３ｘ３横方向畳み込みモジュール４７４およびアップサンプラモジュール４５４に渡される。モジュール４７４は、Ｐ３テンソル４７５を出力する。アップサンプラモジュール４５４は、アップサンプリングされたテンソル４５５を出力する。合計モジュール４６４はテンソル４４７および４５５を合計してテンソル４６５を生成し、これは、３ｘ３横方向畳み込みモジュール４７６に渡される。モジュール４７６は、Ｐ２テンソル４７７を出力する。アップサンプラモジュール４５０、４５２、および４５４は、低い計算量のために最近接補間を使用する。テンソル４２９、４７１、４７３、４７５、および４７７は、ＣＮＮバックボーン４００の出力テンソル１１５を形成する。

図５は、分散マシンタスクシステム１００の一部としての特徴マップ量子化器およびパッカ１１６を示す概略ブロック図である。ＣＮＮバックボーン１１４からのテンソル１１５は、グループ決定モジュール５１０、範囲決定モジュール５１４、および量子化器モジュール５１８に入力される。言い換えれば、量子化器モジュール５１８は、浮動小数点値から整数値へのマッピング関数または伝達関数を実施する。グループ決定モジュール５１０は、入力テンソル１１５の特徴マップ（チャネル）を、所定の基準またはテンソル１１５に存在するデータの何らかの尺度に基づいて、特徴マップグループ５１２に割り当てる。特徴マップグループ５１２は、異なるレイヤのテンソルにまたがってもよく、または個々のレイヤに限定されてもよい。特徴マップグループ５１２は、範囲決定モジュール５１４に渡され、メタデータ１２５の一部として出力される。範囲決定モジュール５１４はグループごとに、それぞれのグループに属する特徴マップに存在する最大振幅値を示す量子化範囲を決定し、量子化範囲５１６を生成する。範囲決定モジュール５１４はすべてのフレームで新しい量子化範囲を決定することができ、または、たとえば、イントラピクチャ上でのみ、より低い頻度で新しい量子化範囲を決定することができる。

ビットストリーム１２１は、量子化範囲が更新されたか否かを示す「ｑｒ＿ｕｐｄａｔｅ」フラグをメタデータ（付録Ａ参照）に含む。単一の量子化範囲を使用して、量子化範囲が属するグループの特徴マップ内の量子化前の任意の値の最大の大きさを表すことができる。別のアレンジメントでは、特徴マップグループ内の最大正値および特徴マップ内の最大負値のための別個の量子化範囲が使用され、その結果、グループあたり２つの値を有する非対称量子化範囲が得られる。

テンソル１１５は一般に、３２ビットの浮動小数点精度値を有し、したがって、各量子化範囲は、浮動小数点値でもある。１６ビットおよび８ビットなどの他の浮動小数点精度が可能であり、浮動小数点値の指数部および小数部に対するビットの様々な割り当ても可能である。

量子化範囲５１６は、量子化器モジュール５１８に渡され、メタデータ１２５の一部として出力される。量子化器モジュール５１８は、各特徴マップを２段階でサンプル値に量子化する。まず、特徴マップが属する特徴マップグループの量子化範囲を用いて、特徴マップ値を正規化し、［－１，１］からの範囲の値を得る。第２に、正規化された特徴マップ値は、ビデオエンコーダ１２０のビット深度に対応するサンプル範囲にスケーリングされる。１０ビット演算の場合、正規化された特徴マップは、特徴マップグループ５１２によって乗算され、次いで、特徴マップグループ５１２のオフセットが加算され、合計が整数精度に変換され、整数化された特徴マップ５２０として出力される。乗算および加算演算は所与の特徴マップグループの特徴マップの中で、最小または最大許容サンプル値（すなわち、１０ビットビデオに対して０または１０２３）の少なくとも１つの値の利用をもたらす。ビデオデコーダ１４４の出力において生じ得るオーバーシュートに対するある程度の回復力を提供するために、正規化された特徴マップに適用される乗算係数は、クリッピングを導入することなく使用され得る可能な最大の乗算係数と比較して低減され得る。ＹＣｂＣｒ色空間で表されるレギュラビデオの場合、１６～２３５または８ビットビデオデータの「ビデオ範囲」と、１０ビットビデオデータについて６４～９４０の「ビデオ範囲」とが定義される。したがって、乗算係数を全値の７／８に低減することができ、結果として、ＹＣｂＣｒビデオデータのビデオ範囲に見られるような同様のサンプル範囲が得られる。結果として得られる乗算係数は、７／８×（１＜＜(ｂｉｔ_ｄｅｐｔｈ－１））となる。負のテンソル値を正の範囲にシフトするために使用されるオフセット係数は図６および図７を参照して説明されるように、イントラ予測のための利用不可能な参照サンプルのデフォルト予測子に対応する、中間点、すなわち１＜＜(ｂｉｔ_ｄｅｐｔｈ－１）に残される。量子化から生成される整数値が、フレーム内のサンプルのビット深度によって許容される範囲を超える場合、クリッピングが適用されて、整数値がフレーム内のサンプルのビット深度内に留まることを保証する。整数化された特徴マップ５２０はパッカモジュール５２２に渡され、それはパッキングフォーマットに従って配置された整数化された特徴マップ５２０の各特徴マップを含むパックされた特徴マップフレーム１１７を生成する。パッキングフォーマットは、図１１～１３を参照してさらに説明される。結果として得られるパックされた特徴マップフレーム１１７は、マルチプレクサ１１８を介してビデオエンコーダ１２０に渡される。

図６は、ビデオエンコーダ１２０の機能モジュールを示す概略ブロック図である。図７は、ビデオデコーダ１４４の機能モジュールを示す概略ブロック図である。一般に、データは、固定サイズのサブブロックへのブロックの分割など、サンプルまたは係数のグループ中で、またはアレイとして、ビデオエンコーダ１２０内の機能モジュールとビデオデコーダ１４４内の機能モジュールとの間を通過する。ビデオエンコーダ１２０およびビデオデコーダ１４４は図２Ａおよび図２Ｂに示すように、汎用コンピュータシステム２００を使用して実装され得り、様々な機能モジュールは、コンピュータシステム２００内の専用ハードウェアによって、ハードディスクドライブ２０５上に常駐し、プロセッサ２０５によってその実行において制御されるソフトウェアアプリケーションプログラム２３３の１つまたは複数のソフトウェアコードモジュールなど、コンピュータシステム２００内で実行可能なソフトウェアによって実装され得る。あるいは、ビデオエンコーダ１２０およびビデオデコーダ１４４が専用ハードウェアと、コンピュータシステム２００内で実行可能なソフトウェアとの組合せによって実装され得る。ビデオエンコーダ１２０、ビデオデコーダ１４４、および説明される方法は代替的に、説明される方法の機能またはサブ機能を実行する１つまたは複数の集積回路など、専用ハードウェアにおいて実装され得る。そのような専用ハードウェアは、グラフィック処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け標準製品（ＡＳＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または１つもしくは複数のマイクロプロセッサおよび関連するメモリを含み得る。特に、ビデオエンコーダ１２０はモジュール６１０～６９０を備え、ビデオデコーダ１４４はモジュール７２０～７９６を備え、これらのモジュールはそれぞれ、ソフトウェアアプリケーションプログラム２３３の１つまたは複数のソフトウェアコードモジュールとして実装され得る。

図６のビデオエンコーダ１２０は汎用ビデオコーディング（ＶＶＣ）ビデオ符号化パイプラインの一例であるが、本明細書で説明する処理ステージを実行するために他のビデオコーデックも使用され得る。ビデオエンコーダ１２０は一連のフレームなどのフレームデータ１１９を受信し、各フレームは、１つまたは複数のカラーチャネルを含む。フレームデータ１１９は使用中のプロファイルによってサポートされる任意のクロマフォーマットおよびビット深度、たとえば、８～１０ビットのサンプル精度で、ＶＶＣ規格の「Ｍａｉｎ１０」プロファイルに対して４：０：０、４：２：０であり得る。ブロックパーティショナ６１０は最初に、フレームデータ１１９を、形状が概ね正方形であり、ＣＴＵのための特定のサイズが使用されるように構成されたＣＴＵに分割する。ＣＴＵの最大有効サイズはたとえば、「シーケンスパラメータセット」中に存在する「ｓｐｓ＿ｌｏｇ２＿ｃｔｕ＿ｓｉｚｅ＿ｍｉｎｕｓ５」シンタックスエレメントによって構成される、３２×３２、６４×６４、または１２８×１２８ルマサンプルであり得る。ＣＴＵサイズはまた、さらなる分割を伴わないＣＴＵが１つのＣＵを含むので、最大ＣＵサイズを提供する。ブロックパーティショナ６１０はさらに、ルマコーディングツリーおよびクロマコーディングツリーに従って、各ＣＴＵを１つまたは複数のＣＢに分割する。ルマチャネルは、一次カラーチャネルと呼ばれることもある。各クロマチャネルは、二次カラーチャネルとも呼ばれ得る。ＣＢは様々なサイズを有し、正方形と非正方形の両方のアスペクト比を含み得る。しかしながら、ＶＶＣ規格ではＣＢ、ＣＵ、ＰＵ、およびＴＵは常に２のべき乗である辺長を有する。したがって、６１２として表される現在のＣＢは、ＣＴＵのルマコーディングツリーおよびクロマコーディングツリーに従って、ＣＴＵの１つまたは複数のブロックにわたる反復に従って進行する、ブロックパーティショナ６１０から出力される。ＣＵまたはＣＢは、四分木分割（親領域の２×２分割として配置された４つのサブ領域に分割）、２値（binary）分割（親領域の２つの等しいサイズのサブ領域に水平または垂直に分割）、および３値（ternary）分割（１：２：１の面積比を有する３つのサブ領域に水平または垂直に分割）を使用してＣＴＵを再帰的に分割することによって生成される。

動作は概してＣＴＵごとに説明されるが、ビデオエンコーダ１２０およびビデオデコーダ１４４はメモリ消費を低減するために、より小さいサイズの領域について動作し得る。たとえば、各ＣＴＵは、サイズ６４×６４の「仮想パイプラインデータユニット」（ＶＰＤＵ）として知られる、より小さい領域に分割され得る。ＶＰＤＵはハードウェアアーキテクチャにおけるパイプライン処理により適したデータの粒度を形成し、メモリフットプリントの低減は、完全なＣＴＵについての動作と比較して、シリコン面積、したがってコストを低減する。ＣＴＵサイズが１２８×１２８である場合、１つのＶＰＤＵの処理が次のＶＰＤＵに進む前に完全に完了されることを保証するために、許可されたコーディングツリーに対する制限が設けられる。例えば、１２８×１２８ＣＴＵのコーディングツリーのルートノードでは、結果として生じるＣＵ（３２×１２８／１２８×３２など、またはそのさらなる分解）が１つの６４×６４領域から後続の６４×６４領域への必要な進行で処理され得ないので、三値分割は禁止される。ＣＴＵサイズが６４×６４である場合、エンコーダによって選択されたコーディングツリーにかかわらず、処理は次の６４×６４領域（すなわち、１つのＣＴＵから次）に進む前に、必ず１つの６４×６４領域を完了する。

フレームデータ１１９の最初の分割から得られるＣＴＵは、ラスタ走査順序で走査され得、１つまたは複数の「スライス」にグループ化され得る。スライスは、「イントラ」（または「Ｉ」）スライスであり得る。イントラスライス（Ｉスライス）は、スライス内のすべてのＣＵがイントラ予測されることを示す。一般に、コード化レイヤビデオシーケンス（ＣＬＶＳ）中の第１ピクチャはＩスライスのみを含み、「イントラピクチャ」と呼ばれる。ＣＬＶＳは「ランダムアクセスポイント」（すなわち、復号が開始され得るビデオシーケンス中の中間フレーム）を形成する、周期的なイントラピクチャを含み得る。代替として、スライスは、それぞれ、スライス中の単予測および双予測の追加の利用可能性を示す、単予測または双予測（それぞれ、「Ｐ」または「Ｂ」スライス）であり得る。

４：０：０以外のクロマフォーマットが使用されているとき、Ｉスライスでは、各ＣＴＵのコーディングツリーが６４×６４レベルより下で、１つはルマ用であり、別の１つはクロマ用である２つの別個のコーディングツリーに発散し得る。別個のツリーの使用は、ＣＴＵのルマ６４×６４エリア内のルマとクロマとの間に異なるブロック構造が存在することを可能にする。たとえば、大きいクロマＣＢは、多数のより小さいルマＣＢとコロケートされ得、逆もまた同様である。ＰまたはＢスライスにおいて、ＣＴＵの単一のコーディングツリーは、ルマおよびクロマに共通のブロック構造を定義する。単一ツリーの結果として生じるブロックは、イントラ予測またはインター予測され得る。

各ＣＴＵについて、ビデオエンコーダ１２０は２つのステージで動作する。第１ステージ（「サーチ」ステージと呼ばれる）では、ブロックパーティショナ６１０がコーディングツリーの様々な潜在的な構成をテストする。コーディングツリーの各潜在的構成は、関連する「候補」ＣＢを有する。第１ステージは比較的低い歪みで比較的高い圧縮効率を提供するＣＢを選択するために、様々な候補ＣＢをテストすることを伴う。テストは一般に、ラグランジュ最適化を伴い、それによって、レート（すなわち、符号化コスト）および歪み（すなわち、入力フレームデータ１１９に対する誤差）の重み付けされた組合せに基づいて候補ＣＢが評価される。「最良」候補ＣＢ（すなわち、評価されたレート／歪みが最も低いＣＢ）が、ビットストリーム１２１への後続の符号化のために選択される。候補ＣＢの評価に含まれるのは、所与のエリアに対してＣＢを使用するか、または様々な分割オプションに従ってエリアをさらに分割し、より小さい結果のエリアの各々をさらなるＣＢでコーディングするか、またはエリアをさらに分割するオプションである。結果として、コーディングツリーおよびＣＢ自体の両方が、サーチステージにおいて選択される。

ビデオエンコーダ１２０はＣＢ、たとえば、ＣＢ６１２ごとに、矢印６２０によって示される予測ブロック（ＰＢ）を生成する。ＰＢ６２０は、関連するＣＢ６１２のコンテンツの予測である。減算器モジュール６２２はＰＢ６２０とＣＢ６１２との間に、６２４として示される差分（または、空間領域における差分を参照する「残差」）を生成する。差分６２４は、ＰＢ６２０およびＣＢ６１２における対応するサンプル間のブロックサイズ差分である。差分６２４は、変換され、量子化され、矢印６３６によって示される変換ブロック（ＴＢ）として表される。ＰＢ６２０および関連するＴＢ６３６は典型的にはたとえば、評価されたコストまたは歪みに基づいて、多くの可能な候補ＣＢのうちの１つから選択される。

候補コーディングブロック（ＣＢ）は、関連付けられたＰＢおよび結果として生じる残差のためにビデオエンコーダ１２０に利用可能な予測モードのうちの１つから生じるＣＢである。ＴＢ６３６は、ビデオエンコーダ１２０中の予測されたＰＢと組み合わされると、ビットストリーム中の追加の信号を犠牲にして、復号されたＣＢとオリジナルのＣＢ６１２との間の差を低減する。

したがって、各候補コーディングブロック（ＣＢ）、すなわち変換ブロック（ＴＢ）と組み合わせた予測ブロック（ＰＢ）は、関連するコーディングコスト（または「レート」）と、関連する差分（または「歪み」）とを有する。ＣＢの歪みは、典型的には絶対差の和（ＳＡＤ）、二乗差の和（ＳＳＤ）、または差に適用されるアダマール変換など、サンプル値の差として推定される。各候補ＰＢから結果として生じる推定は予測モード６８７を決定するために、差分６２４を使用してモードセレクタ６８６によって決定され得る。予測モード６８７は現在のＣＢのための特定の予測モード、たとえば、イントラフレーム予測またはインターフレーム予測を使用する決定を示す。各候補予測モードと対応する残差コーディングとに関連するコーディングコストの推定は、残差のエントロピーコーディングよりも著しく低いコストで実行され得る。したがって、いくつかの候補モードが、リアルタイムビデオエンコーダにおいてさえ、レート歪み検知において最適モードを決定するために評価され得る。

レート歪みに関して最適モードを決定することは、典型的にはラグランジュ最適化のバリエーションを使用して達成される。

ラグランジアンまたは同様の最適化処理は、（ブロックパーティショナ６１０による）ＣＢへのＣＴＵの最適なパーティショニングの選択、ならびに複数の可能性からの最良の予測モードの選択の両方に使用され得る。モード選択モジュール６８６における候補モードのラグランジュ最適化プロセスの適用を通して、最も低いコスト測定値を有するイントラ予測モードが「最良」モードとして選択される。最低コストモードは選択された二次変換インデックス６８８を含み、これはまた、エントロピーエンコーダ６３８によってビットストリーム１２１において符号化される。

ビデオエンコーダ１２０の動作の第２ステージ（「コーディング」ステージと呼ばれる）では、各ＣＴＵの決定されたコーディングツリーに対する反復がビデオエンコーダ１２０において実行される。別個のツリーを使用するＣＴＵの場合、ＣＴＵの６４×６４ルマ領域ごとに、ルマコーディングツリーが最初に符号化され、次いでクロマコーディングツリーが符号化される。ルマコーディングツリー内ではルマＣＢのみが符号化され、クロマコーディングツリー内ではクロマＣＢのみが符号化される。共有ツリーを使用するＣＴＵの場合、単一のツリーは共有ツリーの共通ブロック構造に従ってＣＵ（すなわち、ルマＣＢおよびクロマＣＢ）を記述する。

エントロピーエンコーダ６３８は、可変長および固定長コードワードを使用するシンタックスエレメントのビットワイズコーディングと、シンタックスエレメントのための算術コーディングモードとをサポートする。「パラメータセット」などのビットストリームの一部、例えば、シーケンスパラメータセット（ＳＰＳ）およびピクチャパラメータセット（ＰＰＳ）は、固定長コードワードと可変長コードワードとの組合せを使用する。連続部分とも呼ばれるスライスは、可変長コーディングを使用するスライスヘッダと、それに続く算術コーディングを使用するスライスデータを有する。スライスヘッダは、スライスレベルの量子化パラメータオフセットなど、現在のスライスに固有のパラメータを定義する。スライスデータは、スライス中の各ＣＴＵのシンタックスエレメントを含む。可変長符号化および算術符号化の使用は、ビットストリームの各部分内での逐次的な構文解析を必要とする。部分は、「ネットワーク抽象化レイヤユニット」または「ＮＡＬユニット」を形成するための開始コードで区切られ得る。算術符号化は、コンテキスト適応型バイナリ算術符号化プロセスを使用してサポートされる。

算術的にコーディングされたシンタックスエレメントは、１つ以上の「ビン」のシーケンスからなる。ビンはビットと同様に、「０」または「１」の値を有する。しかしながら、ビンは、ディスクリートビットとしてビットストリーム１２１内に符号化されない。ビンは、関連する予測（または「可能性が高い」または「最も可能性が高い」）値と、「コンテキスト」として知られる関連する確率とを有する。コーディングされるべき実際のビンが予測値と一致するとき、「最確シンボル」（ＭＰＳ）がコーディングされる。最も可能性の高いシンボルをコーディングすることは、ビットストリーム１２１内の消費ビットに関して比較的安価であり、１つ未満のディスクリートビットに相当するコストを含む。コーディングされる実際のビンが可能性のある値と一致しない場合、「最低確率シンボル」（ＬＰＳ）がコーディングされる。最も可能性の低いシンボルをコーディングすることは、消費されるビットに関して比較的高いコストを有する。ビンコーディング技法は、「０」対「１」の確率が歪んでいるビンの効率的なコーディングを可能にする。２つの可能な値（すなわち、「フラグ」）を有するシンタックスエレメントについては、単一のビンが適切である。多くの可能な値を有するシンタックスエレメントの場合、ビンのシーケンスが必要とされる。

シーケンス中の後のビンの存在は、シーケンス中の前のビンの値に基づいて決定され得る。さらに、各ビンは、２つ以上のコンテキストに関連付けられ得る。特定のコンテキストの選択は、シンタックスエレメント中の以前のビン、隣接するシンタックスエレメントのビン値（すなわち、隣接するブロックからのもの）などに依存し得る。文脈コーディングされたビンが符号化されるたびに、そのビン（もしあれば）のために選択されたコンテキストは、新しいビン値を反映する方法で更新される。このように、バイナリ算術コーディング方式は、適応的であると言われる。

また、エントロピーエンコーダ６３８によってサポートされるのは、「バイパスビン」と呼ばれる、コンテキストを欠くビンである。バイパスビンは、「０」と「１」との間の等確率分布を仮定してコーディングされる。したがって、各ビンは、ビットストリーム１２１中の１ビットのコーディングコストを有する。コンテキストがないことはメモリを節約し、複雑さを低減し、したがって、バイパスビンは特定のビンの値の分布が歪まない場合に使用される。コンテキストおよび適応を使用するエントロピーコーダの一例はＣＡＢＡＣ(コンテキスト適応型バイナリ算術コーダ）として当技術分野で知られており、このコーダの多くの変形例がビデオコーディングにおいて使用されている。

エントロピーエンコーダ６３８は量子化パラメータ６９２を符号化し、現在のＣＢのために使用されている場合、ＬＦＮＳＴインデックス３８８を、コンテキストコーディングされたビンとバイパスコーディングされたビンとの組合せを使用して符号化する。量子化パラメータ６９２は、「デルタＱＰ」を使用して符号化される。デルタＱＰは、「量子化グループ」として知られる各エリアにおいて最大で１回シグナリングされる。量子化パラメータ６９２は、ルマＣＢの残差係数に適用される。調整された量子化パラメータが、コロケートされたクロマＣＢの残差係数に適用される。調整された量子化パラメータは、オフセットのリストから選択されたＣＵレベルオフセットおよびマッピングテーブルに従ってルマ量子化パラメータ６９２からマッピングすることを含み得る。二次変換インデックス６８８は、変換ブロックに関連する残差が二次変換の適用によって一次係数に変換される係数位置にのみ有意な残差係数を含むときにシグナリングされる。

マルチプレクサモジュール６８４は、各候補ＣＢのテストされた予測モードから選択された、決定された最良のイントラ予測モードに従って、イントラフレーム予測モジュール６６４からＰＢ６２０を出力する。候補予測モードは、ビデオエンコーダ１２０によってサポートされるすべての考えられる予測モードを含む必要はない。イントラ予測は３つのタイプに分けられ、第１に、「ＤＣイントラ予測」はＰＢに、近くの再構成されたサンプルの平均を表す単一の値をポピュレートすることを伴い、第２に、「平面イントラ予測」はＰＢに、平面に従ってサンプルをポピュレートすることを伴い、ＤＣオフセットおよび垂直および水平勾配は、近くの再構成された隣接するサンプルから導出される。近隣の再構成されたサンプルは、典型的にはある程度までＰＢの右に延在する現在のＰＢの上の再構成されたサンプルの行と、ある程度までＰＢを越えて下方に延在する、現在のＰＢの左に再構成されたサンプルの列と、特定の方向（または「角度」）にＰＢにわたってフィルタリングされ伝播された再構成された近隣のサンプルをＰＢにポピュレートすることを含む、第３の「角度イントラ予測」とを含む。ＶＶＣでは、６５個の角度がサポートされ、矩形ブロックは合計８７個の角度を生成するために、正方形ブロックには利用できない追加の角度を利用することができる。

クロマＰＢには第４のタイプのイントラ予測が利用可能であり、それによりＰＢは「クロスコンポーネント線形モデル」(ＣＣＬＭ)モードに従ってコロケートされたルマ再構成サンプルから生成される。３つの異なるＣＣＬＭモードが利用可能であり、各モードは、隣接するルマサンプルおよびクロマサンプルから導出された異なるモデルを使用する。導出されたモデルは、コロケートされたルマサンプルからクロマＰＢのためのサンプルのブロックを生成するために使用される。ルマブロックは、行列の事前定義されたセットから選択された１つの行列を使用して、参照サンプルの行列乗算を使用してイントラ予測され得る。この行列イントラ予測（ＭＩＰ）はビデオデータの大きなセットについてトレーニングされた行列を使用することによって利得を達成し、行列は、角度、平面、またはＤＣイントラ予測モードでは容易に捕捉されない参照サンプルと予測ブロックとの間の関係を表す。

モジュール６６４はまた、「イントラブロックコピー」（ＩＢＣ）方法を使用して現在のフレームの近くからブロックをコピーすることによって予測ユニットを生成し得る。参照ブロックのロケーションは、ＶＰＤＵとして知られる６４×６４の領域に分割された１つのＣＴＵに相当する領域に制約され、その領域は１つのＣＴＵの領域制限まで、前のＣＴＵのＶＰＤＵおよび現在のＣＴＵの処理されたＶＰＤＵをカバーする。この領域は「ＩＢＣ仮想バッファ」として知られており、ＩＢＣ参照領域を制限し、したがって、必要とされる記憶を制限する。ＩＢＣバッファは再構成されたサンプル６５４でポピュレートされ（すなわち、ループフィルタリングの前に）、したがって、フレームバッファ６７２への別個のバッファが必要とされる。

特徴マップデータを符号化するときの予測ブロックの残差は、自然ビデオについて見られる残差とは異なる。そのような自然ビデオは典型的には、オペレーティングシステムのユーザインターフェースなどに一般に見られるように、画像センサまたはスクリーンコンテンツによってキャプチャされる。特徴マップ残差は多くの詳細を含む傾向があり、これは、様々な変換の主に低周波数係数よりも多くのコーディングをスキップする変換に適している。実験（Experiments）は、特徴マップ残差が変換コーディングから利益を得るのに十分なローカル類似性を有することを示す。しかしながら、特徴マップ残差係数の分布は、変換ブロックのＤＣ(左上）係数に向かってクラスタ化されない。言い換えれば、特徴マップデータを符号化するときに変換が利得を示すのに十分な相関が存在し、これは、特徴マップデータの予測ブロックを生成するためにイントラブロックコピーが使用されるときにも当てはまる。したがって、アダマールコスト推定は、ＳＡＤまたはＳＳＤコスト推定のみに依存するのではなく、特徴マップデータを符号化するときに、イントラブロックコピーの候補ブロックベクトルから生じる残差を評価するときに使用され得る。ＳＡＤまたはＳＳＤコスト推定は、スキップコーディングを変換するのにより適した残差を有するブロックベクトルを選択する傾向があり、変換を使用してコンパクトに符号化される残差を有するブロックベクトルを見逃す可能性がある。ＶＶＣ規格の多重変換選択（ＭＴＳ）ツールはＤＣＴ－２変換に加えて、ＤＳＴ－７およびＤＣＴ－８変換の組合せが残差符号化のために水平および垂直に利用可能であるように、特徴マップデータを符号化するときに使用され得る。

イントラ予測されたルマコーディングブロックは垂直または水平のいずれかで、等しいサイズの予測ブロックのセットに区分され得、各ブロックは１６個のルマサンプルの最小エリアを有する。このイントラサブパーティション（ＩＳＰ）アプローチは、別個の変換ブロックがルマコーディングブロック中の１つのサブパーティションから次のサブパーティションへの予測ブロック生成に寄与することを可能にし、圧縮効率を改善する。

以前に再構成された隣接するサンプルが利用できない場合、例えば、フレームのエッジにおいて、サンプルの範囲の半分のデフォルトハーフトーン値が使用される。例えば、１０ビットビデオの場合、５１２の値が使用される。フレームの左上位置に配置されたＣＢには以前のサンプルが利用可能ではないので、角度および平面イントラ予測モードはＤＣ予測モード（すなわち、大きさとしてハーフトーン値を有するサンプルの平面）と同じ出力を生成する。

インターフレーム予測の場合、予測ブロック６８２は、動き補償モジュール６８０によってビットストリーム内のコーディング順序フレームにおいて現在のフレームに先行する１つまたは２つのフレームからのサンプルを使用して生成され、マルチプレクサモジュール６８４によってＰＢ６２０として出力される。さらに、インターフレーム予測の場合、単一のコーディングツリーが典型的には、ルマチャネルとクロマチャネルの両方のために使用される。ビットストリーム中のフレームをコーディングする順序は、キャプチャまたは表示されたときのフレームの順序とは異なり得る。１つのフレームが予測のために使用されるとき、ブロックは「単予測」であると言われ、１つの関連する動きベクトルを有する。２つのフレームが予測のために使用されるとき、ブロックは「双予測」であると言われ、２つの関連する動きベクトルを有する。Ｐスライスの場合、各ＣＵは、イントラ予測または単予測され得る。Ｂスライスの場合、各ＣＵは、イントラ予測、単予測、または双予測され得る。

フレームは、典型的には「ピクチャのグループ」構造を使用してコーディングされ、フレームの時間的階層を可能にする。フレームは複数のスライスに分割され得、スライスの各々はフレームの一部分を符号化する。フレームの時間的階層は、フレームを表示する順序で、フレームが前後のピクチャを参照することを可能にする。画像は、各フレームを復号するための依存性が満たされることを保証するために必要な順序でコーディングされる。予測ユニットのための参照サンプルブロックを選択およびフィルタリングするために１つまたは２つの動きベクトルを使用する代わりに、予測ユニットは複数のより小さいブロックに分割され、動きフィールドが生成され、したがって、各々のより小さいブロックは別個の動きベクトルを有するアフィンインター予測モードが利用可能である。動きフィールドは、予測ユニットの近くの点の動きベクトルを「制御点」として使用する。アフィン予測は深く分割されたコーディングツリーを使用する必要性がより少ない、異なる変換への動きのコーディングを可能にする。ＶＶＣに利用可能な双予測モードは、シグナリングされたブロックの中心からの角度およびオフセットを有する、選択された軸に沿った２つの参照ブロックの幾何学的ブレンドを実行する。この幾何学的分割モード（「ＧＰＭ」）は、コーディングユニットのためにコーディングされた境界のジオメトリを角度および中心オフセットとして、２つのオブジェクト間の境界に沿ってより大きいコーディングユニットを使用することを可能にする。デカルト（ｘ、ｙ）オフセットを使用する代わりに、動きベクトル差は、サポートされる２の累乗距離のセットを用いて、方向（上／下／左／右）および距離としてコーディングされ得る。動きベクトル予測子は、オフセットが適用されないかのように、隣接ブロック（「マージモード」）から取得される。現在のブロックは、選択された隣接ブロックと同じ動きベクトルを共有する。

サンプルは、動きベクトル６７８および参照ピクチャインデックスに従って選択される。動きベクトル６７８および参照ピクチャインデックスは、すべてのカラーチャネルに適用され、したがって、インター予測はＰＢではなくＰＵでの動作に関して主に説明される。各ＣＴＵの１つまたは複数のインター予測ブロックへの分解は、単一のコーディングツリーを用いて説明される。インター予測方法は、動きパラメータの数およびそれらの精度において変化し得る。動きパラメータは典型的には参照フレームのリストからのどの参照フレームが使用されるべきかを示す参照フレームインデックスと、参照フレームの各々のための空間変換とを備えるが、より多くのフレーム、専用のフレーム、またはスケーリングおよび回転などの複雑なアフィンパラメータを含み得る。加えて、参照されたサンプルブロックに基づいて密な動き推定を生成するために、所定の動き精緻化処理が適用され得る。

ＰＢ６２０を決定して選択し、減算器６２２で元のサンプルブロックからＰＢ６２０を減算すると、６２４として表される最も低いコーディングコストを有する残差が得られ、非可逆圧縮を受ける。非可逆圧縮プロセスは、変換、量子化、およびエントロピーコーディングのステップを含む。順方向一次変換モジュール６２６は差分６２４に順方向変換を適用し、差分６２４を空間領域から周波数領域に変換し、矢印６２８によって表される一次変換係数を生成する。一次元における最大の一次変換サイズは、シーケンスパラメータセット中の「ｓｐｓ＿ｍａｘ＿ｌｕｍａ＿ｔｒａｎｓｆｏｒｍ＿ｓｉｚｅ＿６４＿ｆｌａｇ」によって構成される３２ポイントＤＣＴ－２または６４ポイントＤＣＴ－２変換のいずれかである。符号化されているＣＢがブロックサイズ（たとえば、６４×６４または３２×３２）として表される最大のサポートされる一次変換サイズよりも大きい場合、一次変換６２６は、差分６２４のすべてのサンプルを変換するためにタイル方式で適用される。非正方形ＣＢが使用される場合、タイリングはまた、ＣＢの各寸法において最大の利用可能な変換サイズを使用して実行される。たとえば、３２の最大変換サイズが使用されるとき、６４×１６ＣＢは、タイル方式で構成された２つの３２×１６一次変換を使用する。ＣＢが最大サポート変換サイズよりもサイズが大きいとき、ＣＢはタイル状にＴＢで埋められる。例えば、６４－ｐｔ変換最大サイズを有する１２８×１２８ＣＢは、２×２配置で４つの６４×６４ＴＢで埋められる。３２－ｐｔ変換最大サイズを有する６４×１２８ＣＢは、２×４配置で８つの３２×３２ＴＢで埋められる。

変換６２６の適用は、ＣＢのための複数のＴＢをもたらす。変換の各アプリケーションが３２×３２よりも大きい差分６２４、例えば、６４×６４のＴＢに対して動作する場合、ＴＢの左上の３２×３２エリアの外側のすべての結果として生じる一次変換係数６２８はゼロに設定される（すなわち、破棄される）。残りの一次変換係数６２８は、量子化器モジュール６３４に渡される。一次変換係数６２８は、ＣＢに関連する量子化パラメータ６９２に従って量子化されて、一次変換係数６３２を生成する。量子化パラメータ６９２に加えて、量子化器モジュール６３４はまた、ＴＢ内のそれらの空間位置に従って残差係数をさらにスケーリングすることによって、ＴＢ内の不均一量子化を可能にするために「スケーリングリスト」を適用し得る。量子化パラメータ６９２は、ルマＣＢ対各クロマＣＢについて異なり得る。一次変換係数６３２は、順方向二次変換モジュール６３０に渡され、非分離可能二次変換（ＮＳＳＴ）動作を実行するか、または二次変換をバイパスすることによって、矢印６３６によって表される変換係数を生成する。順方向一次変換は典型的には分離可能であり、行のセット、次いで、各ＴＢの列のセットを変換する。順方向一次変換モジュール６２６は、水平方向および垂直方向におけるタイプＩＩ離散コサイン変換（ＤＣＴ－２）、または水平方向および垂直方向における変換のバイパス、または幅および高さが１６サンプルを超えないルマＴＢについて水平方向または垂直方向におけるタイプＶＩＩ離散サイン変換（ＤＳＴ－７）とタイプＶＩＩＩ離散コサイン変換（ＤＣＴ－８）との組合せのいずれかを使用する。ＤＳＴ－７とＤＣＴ－８との組み合わせの使用は、ＶＶＣ規格において「多重変換選択セット」（ＭＴＳ）と呼ばれる。

モジュール６３０の順方向二次変換は概して、非分離可能変換であり、それは、イントラ予測されたＣＵの残差に対してのみ適用され、それにもかかわらず、バイパスされ得る。順方向二次変換は、１６個のサンプル（一次変換係数６２８の左上の４×４サブブロックとして構成される）または４８個のサンプル（一次変換係数６２８の左上の８×８係数において３つの４×４サブブロックとして構成される）のいずれかに対して動作して、二次変換係数のセットを生成する。二次変換係数のセットは、それらが導出される一次変換係数のセットよりも数が少なくてもよい。互いに隣接し、ＤＣ係数を含む係数のセットのみに二次変換を適用することにより、二次変換は、「低周波数非分離可能二次変換」（ＬＦＮＳＴ）と呼ばれる。さらに、ＬＦＮＳＴが適用されるとき、ＴＢ中のすべての残りの係数は、一次変換領域および二次変換領域の両方において、ゼロである。

量子化パラメータ６９２は、所与のＴＢについて一定であり、したがって、ＴＢについての一次変換領域における残差係数の生成のための均一なスケーリングをもたらす。量子化パラメータ６９２は、シグナリングされた「デルタ量子化パラメータ」とともに周期的に変化し得る。デルタ量子化パラメータ（デルタＱＰ）は、「量子化グループ」と呼ばれる、所与のエリア内に含まれるＣＵについて１回シグナリングされる。ＣＵが量子化グループサイズよりも大きい場合、デルタＱＰは、ＣＵのＴＢのうちの１つを用いて１回シグナリングされる。すなわち、デルタＱＰは、ＣＵの第１量子化グループについて１回エントロピーエンコーダ６３８によってシグナリングされ、ＣＵの任意の後続の量子化グループについてはシグナリングされない。「量子化行列」を適用することによって、不均一なスケーリングも可能であり、それによって、各残差係数に適用されるスケーリング係数は、量子化パラメータ６９２と、スケーリング行列における対応するエントリとの組合せから導出される。スケーリング行列はＴＢのサイズよりも小さいサイズを有することができ、ＴＢに適用されるとき、ＴＢサイズよりも小さいサイズのスケーリング行列からの各残差係数のためのスケーリング値を提供するために、最近傍アプローチが使用される。残差係数６３６は、ビットストリーム１２１における符号化のためにエントロピーエンコーダ６３８に供給される。典型的には、ＴＵの少なくとも１つの有意な残差係数を有する各ＴＢの残差係数が走査パターンに従って、値の順序付けられたリストを生成するために走査される。走査パターンは一般に、４×４「サブブロック」のシーケンスとしてＴＢを走査し、４×４セットの残差係数の粒度で規則的な走査動作を提供し、サブブロックの配置は、ＴＢのサイズに依存する。各サブブロック内の走査および１つのサブブロックから次のサブブロックへの進行は、典型的には後方斜め走査パターンに従う。さらに、量子化パラメータ６９２はデルタＱＰシンタックスエレメントを使用してビットストリーム１２１に符号化され、二次変換インデックス６８８はビットストリーム１２１に符号化される。

上述したように、ビデオエンコーダ１２０は、ビデオデコーダ１４４に見られる復号されたフレーム表現に対応するフレーム表現にアクセスする必要がある。したがって、残差係数６３６は逆二次変換モジュール６４４を通過し、二次変換インデックス６８８に従って動作して、矢印６４２によって表される中間逆変換係数を生成する。中間逆変換係数６４２は、量子化パラメータ６９２に従って逆量子化器モジュール６４０によって逆量子化され、矢印６４６によって表される逆変換係数を生成する。逆量子化器モジュール６４０はまた、量子化器モジュール６３４において実行される順方向スケーリングに対応する、スケーリングリストを使用して残差係数の逆不均一スケーリングを実行し得る。逆変換係数６４６は、逆一次変換モジュール６４８に渡されて、ＴＵの、矢印６５０によって表される残差サンプルを生成する。逆一次変換モジュール６４８は順方向一次変換モジュール６２６を参照して説明したように、最大の利用可能な変換サイズによって制約されて、ＤＣＴ－２変換を水平および垂直に適用する。逆二次変換モジュール６４４によって実行される逆変換のタイプは、順方向二次変換モジュール６３０によって実行される順方向変換のタイプに対応する。逆一次変換モジュール６４８によって実行される逆変換のタイプは、一次変換モジュール６２６によって実行される一次変換のタイプに対応する。加算モジュール６５２は、残差サンプル６５０およびＰＵ６２０を加算して、ＣＵの再構成されたサンプル（矢印６５４によって示される）を生成する。

再構成されたサンプル６５４は、参照サンプルキャッシュ６５６およびループ内フィルタモジュール６６８に渡される。典型的には、コストのかかるオフチップメモリアクセスを回避するためにＡＳＩＣ上のスタティックＲＡＭを使用して実装される参照サンプルキャッシュ６５６は、フレーム内の後続のＣＵのためのイントラフレームＰＢを生成するための依存性を満たすために必要とされる最小限のサンプル記憶を提供する。最小依存性は、典型的にはＣＴＵの次の行による使用のためのＣＴＵの行の底部に沿ったサンプルの「ラインバッファ」と、ＣＴＵの高さによってその範囲が設定される列バッファリングとを含む。参照サンプルキャッシュ６５６は、参照サンプル（矢印６５８によって表される）を参照サンプルフィルタ６６０に供給する。サンプルフィルタ６６０は、平滑化演算を適用して、フィルタリングされた参照サンプルを生成する（矢印６６２によって示される）。フィルタリングされた参照サンプル６６２は、イントラフレーム予測モジュール６６４によって使用されて、矢印６６６によって表される、サンプルのイントラ予測されたブロックを生成する。各候補イントラ予測モードについて、イントラフレーム予測モジュール６６４は、サンプルのブロック、すなわち６６６を生成する。サンプルのブロック６６６は、ＤＣ、平面、または角度イントラ予測などの技法を使用して、モジュール６６４によって生成される。サンプルのブロック６６６はまた、入力として隣接する参照サンプルを用いる行列乗算アプローチと、ビデオエンコーダ１２０によって行列のセットから選択された行列とを使用して生成され得、選択された行列は、インデックスを使用してビットストリーム１２０中でシグナリングされ、行列のセットのどの行列がビデオデコーダ１４４によって使用されるべきかを識別する。

ループ内フィルタモジュール６６８は、再構成されたサンプル６５４にいくつかのフィルタリングステージを適用する。フィルタリングステージは、不連続性に起因するアーチファクトを低減するためにＣＵ境界に整列された平滑化を適用する「デブロッキングフィルタ」（ＤＢＦ）を含む。デブロッキングフィルタはブロック境界に沿って不整列境界を引き起こす変換基底関数から生じるコーディングアーチファクトが見られ得るブロックエッジを平滑化し、そのようなアーチファクトは、量子化パラメータ６９２のより高い値においてより可視である。量子化パラメータ６９２のより低い値では、デブロッキングフィルタのフィルタリング強度が低減される。ループ内フィルタモジュール６６８に存在する別のフィルタリングステージは「適応ループフィルタ」（ＡＬＦ）であり、これは、ウィナーベースの適応フィルタを適用して、歪みをさらに低減する。ループ内フィルタモジュール６６８においてさらに利用可能なフィルタリングステージは、「サンプル適応オフセット」（ＳＡＯ）フィルタである。ＳＡＯフィルタは最初に、再構成されたサンプルを１つまたは複数のカテゴリに分類し、割り当てられたカテゴリに従って、サンプルレベルでオフセットを適用することによって動作する。

矢印６７０によって表されるフィルタリングされたサンプルは、ループ内フィルタモジュール６６８から出力される。フィルタリングされたサンプル６７０は、フレームバッファ６７２に格納される。フレームバッファ６７２は典型的にはいくつかの（たとえば、最大１６個の）ピクチャを記憶する容量を有し、したがって、メモリ２０６に記憶される。フレームバッファ６７２は典型的には、必要とされる大きなメモリ消費のために、オンチップメモリを使用して記憶されない。したがって、フレームバッファ６７２へのアクセスは、メモリ帯域幅の点でコストがかかる。フレームバッファ６７２は、参照フレーム（矢印６７４によって表される）を動き推定モジュール６７６および動き補償モジュール６８０に提供する。

動き推定モジュール６７６は（６７８として示される）いくつかの「動きベクトル」を推定し、各々は現在のＣＢの位置からのデカルト空間オフセットであり、フレームバッファ６７２中の参照フレームのうちの１つの中のブロックを参照する。参照サンプルのフィルタリングされたブロック（６８２として表される）が、動きベクトルごとに生成される。フィルタリングされた参照サンプル６８２は、モードセレクタ６８６による潜在的な選択のために利用可能なさらなる候補モードを形成する。さらに、所与のＣＵについて、ＰＵ６２０は、１つの参照ブロック（「単予測された」）を使用して形成され得るか、または２つの参照ブロック（「双予測された」）を使用して形成され得る。選択された動きベクトルについて、動き補償モジュール６８０は、動きベクトルにおけるサブピクセル精度をサポートするフィルタリング処理に従ってＰＢ６２０を生成する。したがって、（多くの候補動きベクトルに対して動作する）動き推定モジュール６７６は、（選択された候補のみに対して動作する）動き補償モジュール６８０のものと比較して簡略化されたフィルタリング処理を実行して、低減された計算量を達成することができる。ビデオエンコーダ１２０がＣＵのためのインター予測を選択するとき、動きベクトル６７８はビットストリーム１２１に符号化される。

図６のビデオエンコーダ１２０は汎用ビデオコーディング（ＶＶＣ）を参照して説明されるが、他のビデオコーディング規格または実装形態はまた、モジュール６１０～６９０の処理ステージを採用し得る。フレームデータ１１９（およびビットストリーム１２１）はまた、メモリ２０６、ハードディスクドライブ２１０、ＣＤ－ＲＯＭ、ブルーレイディスク^TM、または他のコンピュータ可読記憶媒体から読み出される（またはに対して書き込まれる）ことができる。さらに、フレームデータ１１９（およびビットストリーム１２１）は、通信ネットワーク２２０または無線周波数受信機に接続されたサーバなどの外部ソースから受信（または外部ソースに送信）され得る。通信ネットワーク２２０は制限された帯域幅を提供することができ、フレームデータ１１９を圧縮することが困難なときにネットワークを飽和させることを回避するために、ビデオエンコーダ１２０におけるレート制御の使用を必要とする。さらに、ビットストリーム１２１は、プロセッサ２０５の制御下で協調的に動作する、ビデオエンコーダ１２０の１つまたは複数のインスタンスによって生成された、フレームデータ１１９の空間セクション（ＣＴＵのコレクション）を表す１つまたは複数のスライスから構築され得る。

ビデオデコーダ１４４は図７に示される。図７のビデオデコーダ１４４は汎用ビデオコーディング（ＶＶＣ）ビデオ復号パイプラインの一例であるが、本明細書で説明する処理ステージを実行するために他のビデオコーデックも使用され得る。図７に示すように、ビットストリーム１４３は、ビデオデコーダ１４４に入力される。ビットストリーム１４３は、メモリ２０６、ハードディスクドライブ２１０、ＣＤ－ＲＯＭ、ブルーレイディスク^TM、または他の非一時的コンピュータ可読記憶媒体から読み出され得る。あるいは、ビットストリーム１４３が通信ネットワーク２２０または無線周波数受信機に接続されたサーバなどの外部ソースから受信されてもよい。ビットストリーム１４３は、復号されるべきキャプチャされたフレームデータを表す符号化されたシンタックスエレメントを含む。

ビットストリーム１４３は、エントロピーデコーダモジュール７２０に入力される。エントロピーデコーダモジュール７２０は「ビン」のシーケンスを復号することによってビットストリーム１４３からシンタックスエレメントを抽出し、シンタックスエレメントの値をビデオデコーダ１４４内の他のモジュールに渡す。エントロピーデコーダモジュール７２０は可変長および固定長復号を使用して、算術復号エンジン、ＳＰＳ、ＰＰＳ、またはスライスヘッダを復号し、スライスデータのシンタックスエレメントを１つまたは複数のビンのシーケンスとして復号する。各ビンは１つまたは複数の「コンテキスト」を使用することができ、コンテキストは、ビンの「１」値および「０」値をコーディングするために使用される確率レベルを記述する。所与のビンについて複数のコンテキストが利用可能である場合、「コンテキストモデリング」または「コンテキスト選択」ステップが実行されて、ビンを復号するために利用可能なコンテキストのうちの１つが選択される。ビンを復号するプロセスは順次フィードバックループを形成し、したがって、各スライスは、所与のエントロピーデコーダ７２０のインスタンスによってスライス全体において復号され得る。単一の（または少数の）高性能エントロピーデコーダ７２０インスタンスはビットストリーム１４３からのフレームのすべてのスライスを復号することができ、複数の低性能エントロピーデコーダ７２０インスタンスは、ビットストリーム１４３からのフレームのスライスを同時に復号することができる。

エントロピーデコーダモジュール７２０は、算術符号化アルゴリズム、例えば「コンテキスト適応型バイナリ算術符号化」（ＣＡＢＡＣ）を適用して、ビットストリーム１４３からシンタックスエレメントを復号する。復号されたシンタックスエレメントは、ビデオデコーダ１４４内のパラメータを再構成するために使用される。パラメータは、残差係数（矢印７２４によって表される）、量子化パラメータ７７４、二次変換インデックス７７０、およびイントラ予測モード（矢印７５８によって表される）などのモード選択情報を含む。モード選択情報はまた、動きベクトル、および各ＣＴＵの１つまたは複数のＣＢへの区分などの情報を含む。パラメータはＰＢを生成するために使用され、典型的には以前に復号されたＣＢからのサンプルデータと組み合わせられる。

残差係数７２４は、逆二次変換モジュール７３６に渡され、二次変換インデックスに従って、二次変換が適用されるか、または動作が実行されない（バイパス）。逆二次変換モジュール７３６は二次変換領域係数から、再構成された変換係数７３２、すなわち一次変換領域係数を生成する。再構成された変換係数７３２は、逆量子化器モジュール７２８に入力される。逆量子化器モジュール７２８は量子化パラメータ７７４に従って、矢印７４０によって表される、再構成された中間変換係数を作成するために、残差係数７３２、すなわち、一次変換係数領域において、逆量子化（または「スケーリング」）を実行する。逆量子化器モジュール７２８はまた、スケーリング行列を適用して、逆量子化器モジュール６４０の動作に対応する、ＴＢ内の不均一な逆量子化を提供し得る。不均一逆量子化行列を使用することがビットストリーム１４３に示される場合、ビデオデコーダ１４４はビットストリーム１４３から量子化行列をスケーリングファクタのシーケンスとして読み出し、スケーリングファクタを行列に配置する。逆スケーリングは、量子化パラメータと組み合わせて量子化行列を使用して、再構成された中間変換係数７４０を作成する。

再構成された変換係数７４０は、逆一次変換モジュール７４４に渡される。モジュール７４４は、係数７４０を周波数領域から空間領域に戻すように変換する。逆一次変換モジュール７４４は順方向一次変換モジュール６２６を参照して説明したように、最大利用可能変換サイズによって制約された、逆ＤＣＴ－２変換を水平および垂直に適用する。モジュール７４４の動作の結果は、矢印７４８によって表される残差サンプルのブロックである。残差サンプル７４８のブロックのサイズは、対応するＣＢに等しい。残差サンプル７４８は、加算モジュール７５０に供給される。

加算モジュール７５０において、残差サンプル７４８は、復号されたＰＢ（７５２として表される）に加算されて、矢印７５６によって表される、再構成されたサンプルのブロックを生成する。再構成されたサンプル７５６は、再構成されたサンプルキャッシュ７６０およびループ内フィルタリングモジュール７８８に供給される。ループ内フィルタリングモジュール７８８は、７９２として表される、フレームサンプルの再構成されたブロックを生成する。フレームサンプル７９２は、フレームバッファ７９６に書き込まれる。

再構成されたサンプルキャッシュ７６０は、ビデオエンコーダ１２０の再構成されたサンプルキャッシュ６５６と同様に動作する。再構成されたサンプルキャッシュ７６０はメモリ２０６なしで後続のＣＢをイントラ予測するのに必要な再構成されたサンプルのための記憶を提供する（例えば、典型的にはオンチップメモリであるデータ２３２を代わりに使用することによって）。矢印７６４によって表される参照サンプルは、再構成されたサンプルキャッシュ７６０から取得され、参照サンプルフィルタ７６８に供給されて、矢印７７２によって示されるフィルタリングされた参照サンプルを生成する。フィルタリングされた参照サンプル７７２は、イントラフレーム予測モジュール７７６に供給される。モジュール７７６は、ビットストリーム１４３においてシグナリングされ、エントロピーデコーダ７２０によって復号されたイントラ予測モードパラメータ７５８に従って、矢印７８０によって表されるイントラ予測サンプルのブロックを生成する。イントラ予測モジュール７７６は、ＩＢＣおよびＭＩＰを含むモジュール６６４のモードをサポートする。サンプル７８０のブロックは、ＤＣ、平面、または角度イントラ予測などのモードを使用して生成される。

ＣＢの予測モードがビットストリーム１４３においてイントラ予測を使用するように示されるとき、イントラ予測サンプル７８０は、マルチプレクサモジュール７８４を介して復号ＰＢ７５２を形成する。イントラ予測はサンプルの予測ブロック（ＰＢ）を生成し、これは、同じ色成分における「隣接サンプル」を使用して導出される、１つの色成分におけるブロックである。隣接サンプルは現在のブロックに隣接するサンプルであり、ブロック復号順序に先行することによって、すでに再構成されている。ルマブロックとクロマブロックとがコロケートされる場合、ルマブロックとクロマブロックとは異なるイントラ予測モードを使用し得る。しかしながら、２つのクロマＣＢは、同じイントラ予測モードを共有する。

ＣＢの予測モードがビットストリーム１４３内のインター予測であると示されるとき、動き補償モジュール７３４は、７３８として表されるインター予測サンプルのブロックを生成する。インター予測サンプル７３８のブロックは、エントロピーデコーダ７２０によってビットストリーム１４３から復号された動きベクトルと、フレームバッファ７９６からサンプル７９８のブロックを選択およびフィルタリングするための参照フレームインデックスとを使用して生成される。サンプル７９８のブロックは、フレームバッファ７９６に記憶された以前に復号されたフレームから取得される。双予測の場合、サンプルの２つのブロックが生成され、一緒にブレンドされて、復号されたＰＢ７５２のためのサンプルが生成される。フレームバッファ７９６は、ループ内フィルタリングモジュール７８８からのフィルタリングされたブロックデータ７９２でポピュレートされる。ビデオエンコーダ１２０のループ内フィルタリングモジュール６６８と同様に、ループ内フィルタリングモジュール７８８は、ＤＢＦ、ＡＬＦ、およびＳＡＯフィルタリング動作のいずれかを適用する。一般に、動きベクトルはルマチャネルとクロマチャネルの両方に適用されるが、ルマチャネルとクロマチャネルにおけるサブサンプル補間のためのフィルタリング処理は異なる。

図６および図７には示されていないが、各クロマチャネル内のサンプル値の範囲のより均一な使用が達成されるようにサンプル値をシフトするために、符号化前にビデオを前処理し、復号後にビデオを後処理するためのモジュールである。マルチセグメント線形モデルは、ビデオエンコーダ１２０において導出され、サンプルシフトを取り消すためにビデオデコーダ１４４によって使用するためにビットストリームにおいてシグナリングされる。この線形モデルクロマスケーリング（ＬＭＣＳ）ツールは、量子化の適用からより高い品質損失をもたらし得るサンプル空間の利用において、ある程度の不均一性、特に限られた範囲の利用を有する特定の色空間およびコンテンツに対して圧縮利点を提供する。

図８は、分散マシンタスクシステム１００の一部としての特徴マップ逆量子化器およびアンパッカ１４８を示す概略ブロック図である。復号されたフレーム１４７はアンパッカーモジュール８１０に入力され、ここで特徴マップはパッキングフォーマットに従って各フレームから抽出されて、アンパックされた特徴マップ８１２を生成する。アンパックされた特徴マップ８１２は、復号されたフレーム１４７に存在するサンプル値を含む。パッキングフォーマットは、図１１～１３を参照してさらに説明される。アンパックされた特徴マップ８１２内の特徴マップのセットは各特徴マップが１つのグループに属し、１つまたは複数のグループが特徴マップグループ８２０内に示されるように、復号されたメタデータ１５５から取得された特徴マップグループ８２０に従ってグループに割り当てられる。逆量子化器８１４は、次いで、スケーリングを実行して、アンパックされた特徴マップ８１２中に存在する整数サンプル値をテンソル１４９中に存在する浮動小数点値に変換する。スケーリングは、特徴マップのグループに対して量子化範囲を使用する。量子化範囲は、復号されたメタデータ１５５から抽出された量子化範囲８２２から得られる。量子化範囲は、対応するグループに属する特徴マップに見られる任意の浮動小数点値の最大の大きさを指定する。逆量子化器８１４は各グループの特徴マップ８１２からのサンプルを、検出された最大振幅値の符号が正または負であることに応じて、ゼロを中心とし、１または－１に達する範囲に正規化する。正および負の値が等しい最大の大きさを有するまれな場合には、［－１，１］の範囲が観察される。次いで、特徴マップのグループの正規化されたサンプルは、特徴マップのグループの量子化範囲と乗算（スケーリング）される。

特徴マップの全てのグループがスケーリングされると、結果はテンソル１４９の形式の中間データとして出力される。テンソル１４９は例えば、ＣＮＮバックボーン１１４がＦＰＮを含むとき、各々が異なる空間分解能を有する複数のテンソルを含み得る。ゼロ中心線形対称量子化処理を使用することに加えて、他の量子化処理も可能である。たとえば、正および負の量子化範囲が各特徴マップグループに対してシグナリングされる非対称アプローチが使用され得る。正および負の量子化範囲は、特徴のグループの浮動小数点値によって利用される範囲を、サンプルのビット深度によって与えられる完全なサンプル範囲にマッピングし、これは、もはやゼロ浮動小数点値に対応することが保証されないサンプル範囲の中点として非対称量子化をもたらす。ＳＥＩメッセージ１４１３内の「ｑｕａｎｔ＿ｔｙｐｅ」シンタックスエレメントは量子化アプローチを選択し、付録Ａを参照して説明される。

特徴マップの所与のグループの量子化範囲はグループの特徴マップ内の値から導出されるが、量子化範囲はグループの特徴マップ内の値と同じデータタイプを保持する必要がある。より粗い浮動小数点精度が使用され得、オリジナルの浮動小数点フォーマット（例えば、３２ビットＩＥＥＥ７５４フォーマット）で表現されたときの範囲が縮小されないように、丸めが適用される。例えば、ステップ１５５０において、より粗い浮動小数点精度を上向き丸めて使用することができる。上向きの丸めは定数値εを量子化範囲ｑｒに加算することによって達成され得、調整された量子化範囲ｑｒ_adjustを生成し、ε＝２^{floor(log2(qr))}／２^fract_precであり、ここで、ｆｒａｃ＿ｐｒｅｃは保存すべき小数ビットの個数であり、「ｆｌｏｏｒ」演算子は次に負の整数に向かって丸められる。次に、ｑｒ_adjustの小数部分のfract_prec左端ビットがＳＥＩメッセージに取り込まれ、コーディングされ、残りのビットは切り捨てられ、ｑｒ_adjustはｑｒよりも小さい値にならない。小数部分に割り当てられるビットに関する量子化範囲の精度は付録Ａを参照して説明される「ｑｒ＿ｆｒａｃｔｉｏｎ＿ｐｒｅｃｉｓｉｏｎ」シンタックスエレメントを使用して選択される。ｑｒ_ｆｒａｃｔｉｏｎ＿ｐｒｅｃｉｓｉｏｎ（ｆｒａｃｔ_ｐｒｅｃ）を５に設定することにより、量子化範囲を正確に設定することができ、オリジナルの浮動小数点値の小数精度と比較して、すなわち、小数精度を５ビットに低減する前に、～３％の最悪の場合の増加を伴う。量子化範囲の仮数を生成するために、先頭の「１」が小数部分に付加される（すなわち、量子化範囲は「非正規」値でなくてもよい）。量子化範囲は常に正であるので、量子化範囲ごとに符号ビットを符号化する必要はない。量子化範囲は、１より大きくても１より小さくてもよいので、量子化範囲指数に対する符号ビットが必要とされる。システム１００のアレンジメントでは、１．０未満の量子化範囲は許可されず、量子化指数符号ビットはＳＥＩメッセージ１４１３から省略され得る。量子化指数符号ビットがコーディングされない場合、量子化範囲決定モジュール５１４において、１．０未満の量子化範囲が値１．０にクリップされる。

逆量子化器モジュール８１４および量子化器モジュール５１８の動作が「量子化」と呼ばれるにもかかわらず、モジュール５１８および８１４の動作は、量子化パラメータの使用を伴う、ビデオエンコーダ１２０およびビデオデコーダ１４４の量子化動作とは異なる。さらに、モジュール５１８および８１４の動作は、テンソルの浮動小数点ドメインとフレームのサンプルドメインとの間の変換を伴う、トーンマッピング動作の一形態と見なされ得る。広範囲のサンプル値空間を利用する目的で、スケーリング（すなわち、特徴マップの各グループの量子化範囲を介して）があるが、量子化器ステップサイズをさらに変更するためにモジュール５１８および８１４に適用可能な量子化パラメータはない。

図９Ａは、物体検出のためのＣＮＮのヘッド部分１５０を示す概略ブロック図である。宛先デバイス１４０において実行されるべきタスクに応じて、ＣＮＮヘッド１５０の代わりに異なるネットワークを使用することができる。入力テンソル１４９は各レイヤのテンソル（すなわち、テンソル９１０、９２０、および９３４）に分離される。テンソル９１０はＣＢＬモジュール９１２に渡されてテンソル９１４を生成し、検出モジュール９１６およびアップスケーラモジュール９２２に渡される。検出テンソルの形式のバウンディングボックス９１８は、非最大抑制（ＮＭＳ）モジュール９４８に渡され、検出結果１５１を生成する。オリジナルのビデオデータ１１３内の座標をアドレス指定するバウンディングボックスを生成するために、ネットワーク１１４のバックボーン部分のサイズ変更の前に、オリジナルのビデオ幅および高さによるスケーリングが実行される（「ｏｒｉｇ＿ｓｏｕｒｃｅ＿ｗｉｄｔｈ」および「ｏｒｉｇ＿ｓｏｕｒｃｅ＿ｈｅｉｇｈｔ」参照、ＳＥＩメッセージ１４１３から復号され、付録Ａを参照して説明される）。アップスケーラモジュール９２２はアップスケールされたテンソル９２４を生成し、これは、ＣＢＬモジュール９２６に渡され、出力としてテンソル９２８を生成する。テンソル９２８は、検出モジュール９３０およびアップスケーラモジュール９３６に渡される。検出モジュール９３０は、ＮＭＳモジュール９４８に供給される検出テンソル９３２を生成する。アップスケーラモジュール９３６はモジュール９６０の別のインスタンスであり、アップスケールされたテンソル９３８を出力する。アップスケールされたテンソル９３８はＣＢＬモジュール９４０に渡され、ＣＢＬモジュールはテンソル９４２を検出モジュール９４４に出力する。ＣＢＬモジュール９１２、９２６、および９４０はそれぞれ、５つのＣＢＬモジュールの連結を含む。アップスケーラモジュール９２２および９３６はそれぞれ、図９Ｂに示されるようなアップスケーラモジュール９６０のインスタンスである。

アップスケーラモジュール９６０は、テンソル９６２を入力として受け付け、テンソル９６８を生成するためにＣＢＬモジュール９６６に渡される。テンソル９６８はアップサンプリングされたテンソル９７２を生成するために、アップサンプラ９７０に渡される。連結モジュール９７４は、アップサンプリングされたテンソル９７２を入力テンソル９６４と連結することによって、テンソル９７６を生成する。検出モジュール９１６、９３０、および９４４は、図９Ｃに示されるような検出モジュール９８０のインスタンスである。検出モジュール９６０はテンソル９８２を受信し、ＣＢＬモジュール９８４に渡されてテンソル９８６を生成する。テンソル９８６は、検出カーネルを実装する畳み込みモジュール９８８に渡される。検出カーネル１×１カーネルは、３つのレイヤにおける特徴マップの出力を生成するために適用される。検出カーネルは１×１×（Ｂｘ（５＋Ｃ））であり、ここで、Ｂは特定のセルが予測することができるバウンディングボックスの数であり、典型的には３であり、Ｃは８０であり得るクラスの数であり、２５５の検出属性（すなわち、テンソル９９０）のカーネルサイズをもたらす。定数「５」は、４つの境界ボックス属性（ボックス中心ｘ、ｙおよびサイズスケールｘ、ｙ）および１つのオブジェクト信頼レベル（「オブジェクト性」）を表す。検出カーネルの結果は入力特徴マップと同じ空間次元を有するが、出力の深さは検出属性に対応する。検出カーネルは、各レイヤ、典型的には３つのレイヤに適用され、多数の候補バウンディングボックスをもたらす。非最大抑制のプロセスはＮＭＳモジュール９４８によって、結果として得られるバウンディングボックスに適用され、類似のスケールでの重複予測などの冗長ボックスを破棄し、結果として、オブジェクト検出のための出力としてバウンディングボックスの最終セットをもたらす。

図１０は、ＣＮＮの代替ヘッド部分１０００を示す概略ブロック図である。ヘッド部分１０００は「faster ＲＣＮＮ」として知られる全体的なネットワークの一部を形成し、特徴ネットワーク（すなわち、バックボーン部分４００）、領域提案ネットワーク、および検出ネットワークを含む。ヘッド部分１０００への入力は、Ｐ２－Ｐ６レイヤテンソル１０１０、１０１２、１０１４、１０１６、および１０１８を含むテンソル１４９である。Ｐ２－Ｐ６テンソル１０１０、１０１２、１０１４、１０１６、および１０１８は、領域提案ネットワーク（ＲＰＮ）ヘッドモジュール１０２０に入力される。ＲＰＮヘッドモジュール１０２０は入力テンソルに対して畳み込みを実行し、２つの後続の兄弟レイヤに供給される中間テンソルを生成し、１つは分類のためのものであり、１つはバウンディングボックスのためのものであり、または「注目領域」（ＲＯＩ）のためのものであり、分類およびバウンディングボックス１０２２として回帰する。分類およびバウンディングボックス１０２２はＮＭＳモジュール１０２４に渡され、それはより低いスコアを有する重複ボックスを除去することによって、冗長なバウンディングボックスを刈り取って、刈り取られたバウンディングボックス１０２６を生成する。バウンディングボックス１０２６は、注目領域（ＲＯＩ）プーラ１０２８に渡される。ＲＯＩプーラ１０２８は最大プーリング動作を使用して、様々な入力サイズマップから固定サイズ特徴マップを生成し、サブサンプリングは、入力値の各グループ内の最大値を取って、出力テンソル内に１つの出力値を生成する。

ＲＯＩプーラ１０２８への入力は、Ｐ２－Ｐ５特徴マップ１０１０、１０１２、１０１４、および１０１６、ならびに注目領域提案１０２６である。１０２６からの各提案（ＲＯＩ）は固定サイズのマップを生成するために、特徴マップ（１０１０～１０１６）の一部分に関連付けられる。固定サイズのマップは、特徴マップ１０１０～１０１６の基礎となる部分とは無関係のサイズである。特徴マップ１０１０～１０１６のうちの１つは、結果として得られるクロップされたマップが例えば、以下のルールに従って十分な詳細を有するように選択される：ｆｌｏｏｒ（４＋ｌｏｇ２（ｓｑｒｔ（ｂｏｘ＿ａｒｅａ）／２２４）、ここで２２４は正規のボックスサイズである。したがって、ＲＯＩプーラ１０２８は、テンソル１０３０を生成する提案１０２６に従って、入力特徴マップをクロップする。テンソル１０３０は、全結合（ＦＣ）ニューラルネットワークヘッド１０３２に供給される。ＦＣヘッド１０３２は、２つの全結合レイヤを実行して、クラススコアおよびバウンディングボックス予測子デルタテンソル１０３４を生成する。クラススコアは一般に、８０要素テンソルであり、各要素は、対応するオブジェクトカテゴリの予測スコアに対応する。バウンディングボックス予測子デルタテンソルは８０ｘ４＝３２０要素テンソルであり、対応するオブジェクトカテゴリのバウンディングボックスを含む。最終処理は出力層モジュール１０３６によって実行され、テンソル１０３４を受信し、フィルタリング演算を実行して、フィルタリングされたテンソル１０３８を生成する。低スコアリング（低分類）オブジェクトは、さらなる考慮から除外される。非最大抑制モジュール１０４０はより低い分類スコアを有する重複ボックスを除去することによって、重複するバウンディングボックスを除去し、推論出力テンソル１５１をもたらす。

図１１は、モノクロフレーム１１０２の形式の２次元アレイにおける特徴マップパッキングアレンジメント１１００を示す概略ブロック図である。特徴マップ１１１０、特徴マップ１１１２、および特徴マップ１１１４などの３つのレイヤの特徴マップは、フレーム１１０２内に配置可能である。図１１の例では、フレーム１１０２がそれぞれが特徴マップ（例えば、特徴マップ１１１０）に対応する領域を含む。特徴マップ１１１０、１１１２、および１１１４は、モノクロフレーム１１０２を満たすラスタスキャンアレンジメントに配置される。フレーム１１０２のサイズはまず、フレーム１１０２に配置される全ての特徴マップのエリアに応じて設定され、ターゲットとなるＵＨＤフレームのアスペクト比、すなわち、３８４０／２１６０～＝１．７８に近いアスペクト比を有する。解像度は例えば、幅および高さがそれぞれ４の倍数になるように、最小ブロックサイズの倍数になるように幅および高さを増加させることができる。特徴マップを配置する際に、特徴マップサイズとフレーム幅との不整合のために、最終フレーム高さは、適切なスペースを提供するために増加され得、未使用の空間なしに特徴マップを一緒にパックすることができないことに起因するいくらかの未使用のスペースを可能にする。未使用スペース１１０４など、フレーム１１０２内の未使用スペース内のサンプル値はフレームのビット深度の中間トーン点、すなわち、１０ビットフレームの場合、５１２に設定される。特徴マップのサイズは、ＣＮＮバックボーン１１４に依存する。「Ｄａｒｋｎｅｔ－５３」バックボーンの場合、サイズは特徴マップ１１１０に対して１３６×７６であり、２５６インスタンスを有し、特徴マップ１１１２に対して６８×３８であり、５１２インスタンスを有し、特徴マップ１１２０に対して３４×１９であり、１０２４インスタンスを有する。明確にするために、図１２は典型的な用途に存在するよりも少ない特徴マップを含むフレーム１２０２を示すが、３つのレイヤおよび相対解像度は以下に説明するように図１２に表される。ＣＮＮの「バックボーン」セクションと「ヘッド」セクションとの間の異なるＣＮＮおよび異なる分割は各レイヤについての異なる次元および数の特徴マップ、ならびに異なる数のレイヤ（すなわち、３つのレイヤ以外の量）をもたらし得る。

モノクロフレーム１１０２の形式で２次元アレイ内に特徴マップを配置する際に、フレーム１１０２内に隣接してフレームの同じグループの特徴マップが配置される。例えば、グループ１１０６は特徴マップ１１１０を含み、グループ１１０８およびグループ１１０９はレイヤ内の残りの特徴マップを含む。同様に、グループ１１１４は、レイヤのための２つの追加のグループを有する特徴マップ１１１２を含む。簡潔にするために、最小の特徴マップ（すなわち、特徴マップ１１２０）を含むレイヤについてのグループ化は示されていないが、同じグループごとのパッキング手法が使用される。各グループ内で、特徴マップは決定された順序付けに存在し、モノクロフレーム１１０２内の配置は、順序付けを反映する。

図１２のモノクロフレーム１２０２に特徴マップを配置する際、４×４グリッド境界などの特定の境界に対する位置合わせが維持され得る。特徴マップサイズがそのようなアライメントの倍数ではない場合、未使用のサンプルスペースが隣接する特徴マップ間に存在する。例えば、サイズ３４×１９の特徴マップは３６×２０のサンプル領域を占めて配置され、未使用スペースは中間トーンサンプル値によって占められる。特徴マップ間の未使用スペースの存在は隣接する特徴マップ内のコンテンツによって引き起こされる１つの特徴マップ内のコーディングアーティファクトの発生を低減し、ビデオコーデックの基礎となるブロック構造に対する特徴マップの位置合わせを改善する。例えば、ＶＶＣの場合、４×４の最小ブロックサイズが典型的に使用される。

特徴マップを特定の位置合わせグリッドに位置合わせすることに加えて、２つのサンプルなどの特徴マップ間の最小パディングを実施することもできる。最小パディングは特徴マップサイズが位置合わせグリッドの倍数である場合に、隣接する特徴マップ内のコンテンツによって引き起こされる１つの特徴マップ内のアーティファクトを防止するのに役立つ。例えば、サイズ１３６×７６の特徴マップはそれ自体と隣接する特徴マップとの間に挿入された未使用のサンプルスペースを伴わずに、４×４位置合わせグリッドに適合する。最小パディングエリアは隣接する特徴マップ間のいくらかの分離を保証し、これは、１つの特徴マップから隣接する特徴マップへと交差するコーディングアーチファクトを低減するのに役立ち得る。

図１２は、モノクロフレーム１２０２における代替的な特徴マップパッキングアレンジメント１２００を示す概略ブロック図である。特徴マップパッキングアレンジメント１２００は、４つの特徴マップの多数のグルーピングが存在する特徴マップグルーピングに適している。図１２のグルーピングは、特徴マップ間の空間的類似性に基づくことができ、同様の特徴マップのグルーピングをもたらす。空間的類似性は、絶対差分和または二乗差和または何らかの他の類似性尺度を使用して測定され得る。グルーピングは、同じレイヤ内の特徴マップに適用され、複数のレイヤにまたがってはいない。図１２に見られるように、グルーピング１２１０は、４つの特徴マップを含む。グルーピング１２１０の特徴マップは、構成要素特徴マップのエリア２×２を占めるようにサンプルワイズインターリービングを使用してモノクロフレーム１２０２に配置される。サンプルワイズインターリービングは同じコーディングツリー構造によって共有される４つの特徴マップのより高い構造的詳細をもたらし、４つの特徴マップ間の詳細は、サンプルごとに異なる。したがって、共通のコーディングツリー構造および共有残差（異なる特徴マップの隣接するサンプルをコーディングするのに必要な局所的差異を除く）が達成され、圧縮効率の増加をもたらす。サイズ４の全てのグループが所与のレイヤについてモノクロフレーム１２０２にパックされると、特徴マップ１２１４などの残りの特徴マップはグルーピングに基づいて隣接してパックされるが、インタリーブ方式ではパックされない。残りの特徴マップはパッキングの順序とは別に、それらのグループ構成がパッキングプロセスに影響を及ぼさないので、任意のサイズのグループに割り当てられ得る。次のレイヤでは、グループ１２２０などの４つのグループがサンプルワイズインターリーブ方法でパックされ、続いて、特徴マップ１２２４などの他のサイズのグループに属する特徴マップがパックされる。最終レイヤについて、グループ１２３０などの４つのグループが、サンプルワイズインターリーブ方法でパックされ、続いて、特徴マップ１２３４などの他のサイズのグループに属する特徴マップがパックされる。

図１３は、４：２：０クロマサブサンプリングカラーフレーム１３０１における特徴マップパッキングアレンジメント１３００を示す概略ブロック図である。高度の類似性を有し、異なるレイヤに属する２つまたは３つの特徴マップを含む特徴マップグループは、カラーフレーム１３０１のコロケートされた領域内の異なるカラーチャネルに配置される。したがって、１つのレイヤにおける第１特徴マップの少なくとも一部の位置は、別のレイヤにおける第２特徴マップの少なくとも一部の位置に相対的に対応する。隣接するレイヤ内の２つの特徴マップの場合、より大きい特徴マップは、特徴マップ１３０４などのルマ平面１３０２内に配置される。２つの特徴マップのうちより小さい特徴マップは、特徴マップ１３１４などのクロマ平面１３１０内に配置される。グループが３つの特徴マップを含む場合、第３特徴マップはクロマ平面１３１０に配置された特徴マップよりもサイズが小さく、第３特徴マップはサイズが２倍になるように第２クロマ平面１３２０にパックされ、その結果、２倍のパックされた特徴マップ１３２４が得られる。グループの２つまたは３つの特徴マップが空間的類似性に基づいてグループ化されたので、図１３の例では、カラーフレーム１３０１をコーディングするときの圧縮効率を改善するために、インターチャネル相関をターゲットとするコーディングツールが利用可能である。たとえば、クロスカラー成分予測をターゲットとする線形モデルなど、差のモデルに基づいてルマからクロマサンプルを予測することを試みるツールが適用され得る。共有コーディングツリーがルマコーディングブロックおよびクロマコーディングブロックを指定するインタースライスの場合、２つまたは３つの特徴マップのブロック構造は特徴マップが異なる位置に配置された場合と同様に、別個のコーディングツリーを必要とする代わりに、単一のコーディングツリーを使用してコーディングされる。

図１４は、符号化されたパックされた特徴マップおよび関連するメタデータを保持するビットストリーム１４００を示す概略ブロック図である。ビットストリーム１４００は、ビデオエンコーダ１２０によって生成されたビットストリーム１２１またはビデオデコーダ１３４によって復号されたビットストリーム１４３に対応する。ビットストリームは、「ネットワーク抽象化レイヤ」ユニットヘッダによって前置されたシンタックスのグループを含む。例えば、ＮＡＬユニットヘッダ１４０８は、シーケンスパラメータセット（ＳＰＳ）１４１０に先行する。ＳＰＳ１４１０はシンタックスの「一般制約情報」（ＧＣＩ）ユニット（すなわち、制約フラグ１４４０）を含み得る、シンタックス１４３８の「プロファイルレベルティア」（ＰＬＴ）ユニットを含み得る。制約フラグ１４４０は「ｇｃｉ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ」がＳＰＳ１４１０中に存在し、１に等しいとき、ＳＰＳ１４１０中に存在し、そわない場合、制約フラグ１４４０は、ＳＰＳ１４１０中に存在しない。制約フラグがＳＰＳ１４１０内に存在するとき、アクティブ化されている任意の１つは、ビットストリーム１４００がビットストリーム１４００のシグナリングされたプロファイル内に示されるツールまたは機能（functions）の制限されたサブセット（サブプロファイルに対応し得る）に適合することを示す。制約フラグがＳＰＳ１４１０に存在しないとき、そわなければシグナリングされるのであろう各制約フラグはゼロの値を有すると推論され、ビットストリームはビットストリーム１４００のシグナリングされたプロファイルに準拠する。制約フラグ１４４０内の各フラグは設定されると、ＶＶＣ規格で定義されたフラグのセマンティクスと共に、ＶＶＣ規格内の特定のツールの無効化を示す。シンタックスエレメントの別個のセット（ｐｔｌ＿ｎｕｍ＿ｓｕｂ＿ｐｒｏｆｉｌｅｓおよびｇｅｎｅｒａｌ＿ｓｕｂ＿ｐｒｏｆｉｌｅ＿ｉｄｃシンタックスエレメントの０個以上のインスタンス）はビットストリームが準拠する特定のサブプロファイルを識別し、サブプロファイルの定義はＶＶＣ規格外で定義される。ＧＣＩはフラグのセットを含み、各フラグは、ビットストリーム１４００において使用されない特定のコーディングツールを制約する。ＰＬＴ１４３８は、ビットストリーム１４００において使用することができる、「プロファイル」として知られているツールの特定のセットをシグナリングすることができる。プロファイルの一例は「Ｍａｉｎ１０」であり、４：０：０または４：２：０クロマフォーマットのいずれかを有する８～１０ビットビデオを提供し、広範な展開をターゲットとする。ＧＣＩは、サブプロファイルに対応し得る、ツールのサブセットへのプロファイルのツールのセットに対するさらなる制約を示し得る。一般に、ビデオエンコーダ１２０が（すなわち、マルチプレクサ１１８を介してビデオソース１１２からの）ビデオサンプルを符号化しているとき、所与のプロファイルのすべてのツールが、フレームデータを効率的に符号化するために使用され得る。ビデオエンコーダ１２０がフレームにパックされた（すなわち、モジュール１１６からの）特徴マップを符号化しているとき、ＶＶＣ規格のいくつかのツールは、もはや圧縮利点を与えない。パックされた特徴マップに圧縮利点を提供しないツールは、ビデオエンコーダ１２０によって試される必要はなく、ビットストリーム１４００において使用されないものとしてＧＣＩにおいてシグナリングされ得る。ＳＰＳ１４１０はまた、クロマフォーマット、ビット深度、ビットストリーム１４００によって表されるフレームデータの解像度を示す。

ピクチャパラメータセット（ＰＰＳ）１４１２は、デブロッキングフィルタの制御を含むツールの下位レベル挙動を制御するシンタックスエレメントを含む。ＰＰＳ１４１２はｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｃｏｎｔｒｏｌ＿ｐｒｅｓｅｎｔ＿ｆｌａｇを含み、これは、設定されると、デブロッキングフィルタ設定がＰＰＳ１４１２において制御されることを示す。ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｃｏｎｔｒｏｌ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが設定されると、ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｄｉｓａｂｌｅｄ＿ｆｌａｇがＰＰＳ１４１２に存在する。ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｄｉｓａｂｌｅｄ＿ｆｌａｇがＰＰＳ１４１２中に存在し、１に設定されるとき、デブロッキング制御のさらなるオーバーライドがピクチャのピクチャヘッダまたはスライスヘッダ１４１８中で発生しない限り、デブロッキングフィルタは、ＰＰＳ１４１２を参照するすべてのピクチャについてディセーブルされる。ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｄｉｓａｂｌｅｄ＿ｆｌａｇがＰＰＳ１４１２に存在し、１に設定されると、ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｏｖｅｒｒｉｄｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇがＰＰＳ１４１２に存在する。ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｏｖｅｒｒｉｄｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇが存在し、ＰＰＳ１４１２において１に設定されるとき、各ピクチャのスライスヘッダ１４１８またはピクチャヘッダは、ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｄｉｓａｂｌｅｄ＿ｆｌａｇによって示されるデブロッキングフィルタの有効化または無効化をオーバーライドし得る追加のフラグを含む。

ＳＥＩメッセージ１４１３は範囲決定モジュール５１４によって決定されるように、グループ決定モジュール５１０および量子化範囲１４３２によって決定されるように、特徴マップグルーピング１４３０を符号化する。付録Ａは、ＳＥＩメッセージ１４１３の例示的なシンタックスおよびセマンティクスを示す。パッカモジュール５２２によって使用されるパッキングフォーマットはまた、すべての利用可能な特徴パッキングフォーマットの列挙から１つの特徴パッキングフォーマットを選択するためのインデックスを使用して、ＳＥＩメッセージ１４１３中で符号化され得る。特徴マップを生成するために使用された特定のＣＮＮバックボーンは、所定のＣＮＮバックボーンのセットの列挙から１つのＣＮＮバックボーンを選択するためのインデックスを用いてＳＥＩメッセージ１４１３内に示されても良く、そのうちのいくつかまたはすべてがソースデバイス１１０に利用可能である。ＣＮＮバックボーンタイプインデックスから、各レイヤにおけるレイヤの数およびチャネルの数、ならびに各レイヤにおける各特徴マップの解像度が決定され得る。所与のグループ内の特徴マップが同じレイヤ内にあるグルーピングの場合、特徴マップインデックスの別個のグループリストが各レイヤについてコーディングされる。所与のグループ内の特徴マップが複数のレイヤにわたり得るグルーピングの場合、特徴マップインデックスとレイヤインデックスペアは、各グループ内のアイテムとしてコーディングされる。存在するそれらが隣接するレイヤ内であり、各レイヤに最大で１つの特徴マップが存在するグルーピングの場合、レイヤインデックスは、グループ内の第１特徴マップにのみ必要とされる。グループがすべてのレイヤの特徴マップを含む場合、例えば、すべての３つのレイヤにおいて、特徴マップインデックスは、各レイヤにおける１つの特徴マップに暗黙的に適用されるので、グループインデックスは必要とされない。所与のレイヤのすべての特徴マップが１つの別個のレイヤに属する場合、レイヤごとに１つの量子化範囲がコーディングされる。

各フレームは図１４に見られるように、アクセスユニット１４１４などの「アクセスユニット」としてビットストリーム１４００内に符号化される。各アクセスユニットは、スライス１４１６などの１つまたは複数のスライスを含む。ビットストリームの第１アクセスユニットについて、一般に「ランダムアクセスポイント」アクセスユニットについて、イントラスライスは、ビットストリーム１４００中の他のアクセスユニットに対するいかなる予測依存性も回避するために使用される。スライス１４１６は、スライスヘッダ１４１８と、それに続くスライスデータ１４２０とを含む。スライスデータ１４２０は、フレームデータのコーディングされた表現を与えるＣＴＵのシーケンスを含む。ＣＴＵは正方形であり、典型的には１２８×１２８のサイズであり、これは典型的な特徴マップサイズに十分に整合されない。４×４グリッドなどの最小ブロックサイズに特徴マップを配置すると、この位置ずれが部分的に改善される。

図１５はＣＮＮの第１部分を実行し、ビデオデータのフレームのために結果として得られる特徴マップを符号化するための方法１５００を示す。方法１５００は、構成されたＦＰＧＡ、ＡＳＩＣ、またはＡＳＳＰなどの装置を使用して実装され得る。代替的に、以下で説明するように、方法１５００は、プロセッサ２０５の実行下で、アプリケーションプログラム２３３の１つまたは複数のソフトウェアコードモジュールとして、ソースデバイス１１０によって実装され得る。方法１５００を実施するアプリケーションプログラム２３３のソフトウェアコードモジュールは例えば、ハードディスクドライブ２１０および／またはメモリ２０６に常駐することができる。方法１５００は、ビデオソース１１２によって生成されたビデオデータの各フレームに対して繰り返される。方法１５００は、コンピュータ可読記憶媒体および／またはメモリ２０６に記憶され得る。

方法１５００は、実行ＣＮＮ第１部分ステップ１５１０で開始する。ステップ１５１０において、ＣＮＮバックボーン１１４は、プロセッサ２０５の実行下で、特定のＣＮＮのレイヤのサブセットを実行して、入力フレーム１１３を中間テンソル１１５に変換する。予測ヘッドまたはＦＰＮの使用により、テンソル１１５は、複数のテンソルを含み得る。方法１５００は、ビデオソース１１２からのビデオデータの１つのフレームに対応するテンソルを符号化するように動作する。次に、プロセッサ２０５における制御は、ステップ１５１０から特徴マップ類似性判定ステップ１５２０に進む。中間テンソル１１５は例えば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。

特徴マップ類似性判定ステップ１５２０において、モジュール１１６は、プロセッサ２０５の実行下で、各レイヤ内の各特徴マップとの各特徴マップの類似性の尺度を含む類似性行列を生成する。類似性行列は例えば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。類似性尺度は、２つの特徴マップの平均二乗差（ＭＳＥ）、または２つの特徴マップの絶対差の和（ＳＡＤ）、または何らかの他の差の尺度であってもよい。異なるレイヤにおける特徴マップの類似性を測定することが望まれる場合、より低い空間分解能を有する特徴マップは差分測定の目的のために、より高い空間分解能と互換性のある分解能を生成するために、（例えば、最も近い隣接補間を使用して）アップスケールされ得る。計算オーバヘッドを低減するために、ステップ１５２０はまれに、たとえば、ＣＬＶＳ中の各ランダムアクセスポイントについて、またはＣＬＶＳの第１ピクチャについてのみ実行される。次に、プロセッサ２０５における制御は、ステップ１５２０から特徴マップグルーピング決定ステップ１５３０に進む。

特徴マップグループ決定ステップ１５３０において、グループ決定器５１０は、プロセッサ２０５の実行下で、特徴マップが割り当てられるグループのセットを決定する。特徴マップのグループは例えば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。図１７を参照して、グループ決定器５１０の動作について説明する。ステップ１５３０はステップ１５２０の類似性行列がたとえば、ＣＬＶＳの最初のピクチャについて、またはＣＬＶＳ内のすべてのランダムアクセスポイントについて決定されたときに、実行される必要がある。プロセッサ２０５における制御は、ステップ１５３０から特徴マップ配置決定ステップ１５４０に進む。

特徴マップ配置決定ステップ１５４０において、パッカモジュール５２２は、プロセッサ２０５の実行下で、各特徴マップがフレーム内に配置される位置を決定する。フレームがモノクロフレームであるとき、特徴マップはフレーム領域を満たすラスタ走査順序で配置され、フレーム領域はフレームにパックされるべきすべての特徴マップの総面積と目標アスペクト比とに基づいて初期化される。パッキングアレンジメントは、図１１～１３を参照して説明される。使用中のパッキングフォーマットは付録Ａを参照して説明される、ＳＥＩメッセージ１４１３から復号された「ｐａｃｋｉｎｇ＿ｆｏｒｍａｔ」シンタックスエレメントから決定される。所与のグループに属する特徴マップは順次パックされ、各グループ内に特徴マップがリストされる順序でパックされる。図１３を参照して説明したように、異なるレイヤに属する各特徴マップを有するサイズ２または３の特徴マップのグループは空間的に、しかし異なる色チャネルで、まとめてパックされる。特徴マップの数およびサイズはソースデバイス１１０の動作中に変化しないので、配置は一度決定され、後続のフレームとともに使用するために保存され得る。パックされたフレームはたとえば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。次に、プロセッサ２０５における制御は、ステップ１５４０からグループ範囲決定ステップ１５５０に進む。

グループ範囲決定ステップ１５５０において、範囲決定器５１４は、プロセッサ２０５の実行下で、ステップ１５３０において決定された特徴マップの各グループにおける浮動小数点データの範囲を決定する。決定された範囲は例えば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。対称動作の場合、グループの範囲は、グループに属する特徴マップ内の値の最大の大きさ（絶対）値である。範囲は整数サンプル値への量子化および変換の前に特徴マップデータの正規化のための値を提供する。非対称動作の場合、正および負の範囲が、特徴マップの各グループについて決定され、特徴マップのグループ内で遭遇する最大の正および最大の負の値を示す。量子化範囲は、テンソル１１５内の特徴マップの各グループに対して決定される。量子化範囲は、ビデオデータのすべてのフレームのテンソルについて決定され得るか、またはより低い頻度の更新が適用され得る。シグナリングオーバヘッドを低減するために、量子化範囲は、ビデオビットストリーム中のみのイントラピクチャまたはランダムアクセスピクチャについて決定され得る。量子化範囲が決定されなかった後続フレームの浮動小数点データテンソルの範囲は、以前に決定された量子化範囲を超え得る。安全マージンは、何らかの指定されたスケーリングファクタによって決定された量子化範囲の大きさを増加させることによって導入され得る。量子化範囲に固定係数、たとえば８／７を乗算すると、使用されるデータのサンプル範囲が、YCbCrビデオデータで使用されるビデオ範囲にほぼ対応する範囲に圧縮される。量子化範囲が決定されない可能性がある後のフレームは、サンプルビット深度、例えば、１０ビットビデオの場合［０．．１０２３］の限界までこの範囲を超えるいくつかのヘッドルームを有する。次に、プロセッサ２０５における制御は、ステップ１５５０から特徴マップ量子化ステップ１５６０に進む。

特徴マップ量子化ステップ１５６０において、量子化器モジュール５１８は、プロセッサ２０５の実行下で、特徴マップが属するグループの量子化範囲に従って、浮動小数点値から整数サンプル値に各特徴マップを量子化する。決定された整数サンプル値は例えば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。最大値が１．０である正規化された範囲へのスケーリングが最初に実行され、その後、サンプル範囲への乗算、およびオフセットの加算が行われ、サンプルの大きさの実質的な部分の利用をもたらす。１０ビットビデオの場合、乗算係数５１２が使用され、オフセットｑｕａｎｔ＿ｏｆｆｓｅｔ５１２も使用される。ビデオエンコーダ１２０およびビデオエンコーダ１４４によって導入され得るオーバーシュートからの非線形効果を低減するために、より小さい乗算係数が使用され得る。量子化範囲がＹＣｂＣｒビデオデータにおいて一般に使用されるビデオ範囲と整列するために、８／７などの固定係数によってまだ調整されていない場合、７／８ｘ５１２＝４４８のスケーリングファクタｓｃａｌｅ＿ｆが使用され得る。８ビットビデオデータの場合、ビデオレンジアラインされた動作のための１２８のオフセットおよび１２８または１１２のスケーリングファクタが使用され得る。量子化範囲が前のフレームからのテンソルについて決定され、現在のフレームについて更新されていない場合、入力浮動小数点値が特徴マップが属する特徴マップグループについての量子化範囲を超えることが可能である。浮動小数点値を整数サンプル値にマッピングするときのオーバーフローを防ぐために、クリッピング操作が適用される。量子化器モジュール５１８の１つのアレンジメントでは、浮動小数点値の量子化範囲によって示される範囲へのクリッピングがオーバーフローを防止するために適用される。量子化範囲への浮動小数点値のクリッピングは、すべてのサンプルが［ｑｕａｎｔ＿ｏｆｆｓｅｔ－ｓｃａｌｅ＿ｆ、ｑｕａｎｔ＿ｏｆｆｓｅｔ＋ｓｃａｌｅ＿ｆ］の範囲内にあることを保証する。量子化器モジュール５１８の別のアレンジメントでは、クリッピングがｑｕａｎｔ＿ｏｆｆｓｅｔおよびｓｃａｌｅ＿ｆの適用後に適用され、その時点で、決定された値はビット深度によって示される範囲外に入ることができ、整数サンプル値への変換前に適用される。クリッピングは、整数サンプル値がビット深度、すなわち［０．．（１＜＜ｂｉｔ＿ｄｅｐｔｈ）－１］によって示される範囲内にあることを保証するために適用される。スケーリング後および整数変換前のクリッピングは、ビデオ範囲などのより小さい範囲を利用するｓｃａｌｅ＿ｆ値と組み合わせて、後続のフレームのいくつかのヘッドルームがより前のフレームから決定された量子化範囲を超えることを可能にする。クリッピングが浮動小数点テンソルから整数への変換および浮動小数点テンソルに戻る変換に非線形歪みを導入する前の、ビデオエンコーダ１２０およびビデオデコーダ１４４の動作におけるある程度のオーバーシュートに対する許容も存在する。次に、プロセッサ２０５における制御は、ステップ１５６０から特徴マップパックステップ１５７０に進む。

特徴マップパックステップ１５７０において、パッカモジュール５２２は、プロセッサ２０５の実行下で、整数特徴マップ５２０をパックして、パックされた特徴マップフレーム１１７を生成する。テンソル１１５の各レイヤからの特徴マップに対応する量子化された特徴マップ５２０は例えば、１フレームのビデオデータを保持するメモリ２０６および／またはハードディスクドライブ２１０内に構成されたメモリバッファに記憶され得る。図１１－１３を参照して、特徴マップのパッキングフォーマットについて説明する。次に、プロセッサ２０５における制御は、ステップ１５７０からメタデータ符号化ステップ１５８０に進む。

メタデータ符号化ステップ１５８０において、エントロピーエンコーダ６３８はプロセッサ２０５の実行下で、特徴マップグルーピング５１２および量子化範囲５１６、すなわち、メタデータ１２５をビットストリーム１２１に符号化する。メタデータ１２５は、ＳＥＩメッセージ１４１３として使用して符号化することができる。ＳＥＩメッセージ１４１３のフォーマットは付録Ａを参照して説明される。次に、プロセッサ２０５における制御は、ステップ１５８０からフレーム符号化ステップ１５９０に進む。第１ピクチャ（ピクチャ順序カウントが０に等しい）では、ＳＥＩメッセージ１４１３中の「ｌａｙｅｒｓ＿ｕｐｄａｔｅ」、「ｇｒｏｕｐｓ＿ｕｐｄａｔｅ」、および「ｑｒ＿ｕｐｄａｔｅ」フラグが設定され、特徴マップレイヤおよび次元、特徴マップグループ定義、ならびに関連する量子化範囲がビットストリーム１２１中で符号化される。ＳＥＩメッセージ１４１３中の「ｑｒ＿ｕｐｄａｔｅ」フラグは定期的に設定され得、量子化範囲情報はそれに応じて更新される。ランダムアクセス構成の場合、すべてのランダムアクセスポイントまたはイントラピクチャは、更新された量子化範囲を含み得る。低遅延構成の場合、量子化範囲の周期的な更新はインターピクチャ、たとえば、ランダムアクセス構成のイントラピクチャ周期性に対応するおよそ１秒ごとに１つのピクチャに対して行われ得る。いくつかのインターピクチャの量子化範囲を更新することは、たとえば、イントラピクチャがビットストリーム中で非常にまれに発生するとき、ビットストリームの構造に依存しないデータへの連続的なアダプテーション（すなわち、イントラ／インタースライス選択）を可能にする。

フレーム符号化ステップ１５９０において、ビデオエンコーダ１２０は、プロセッサ２０５の実行の下で、フレーム１１９をビットストリーム１２１に符号化する。ソースデバイス１１０が特徴マップを符号化するように構成されるとき、フレーム１１９は、マルチプレクサ１１８を介してパックされた特徴マップフレーム１１７から取得される。ソースデバイス１１０が特徴マップを符号化するように構成されるとき、ビデオエンコーダ１２０は、ビデオコーディング規格のプロファイルに利用可能なコーディングツールのサブセットを使用し得る。コーディングツールのサブセットは、一般的な制約フラグを使用してシグナリングされ得る。たとえば、「Ｍａｉｎ１０」プロファイルは、ビットストリーム１２０中のプロファイルレベルティアシンタックス１４３８中でシグナリングされ得、一般な制約フラグ１４４０は以下のツール：ＬＦＮＳＴ(ｇｃｉ_ｎｏ_ｌｆｎｓｔ_ｃｏｎｓｔｒａｉｎｔ_ｆｌａｇを介して）、ＭＩＰ（ｇｃｉ＿ｎｏ＿ｍｉｐ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇを介して）、ＬＭＣＳ（ｇｃｉ＿ｎｏ＿ｌｍｃｓ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇを介して）、ＩＳＰ（ｇｃｉ＿ｎｏ＿ｉｓｐ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇを介して）、Ａｆｆｉｎｅ(ｇｃｉ_ｎｏ_ａｆｆｉｎｅ_ｍｏｔｉｏｎ_ｃｏｎｓｔｒａｉｎｔ_ｆｌａｇを介して）、ＧＰＭ（ｇｃｉ＿ｎｏ＿ｇｐｍ＿ｃｏｎｓｔｒａｉｎｔ＿ｆｌａｇを介して）、ＭＭＶＤ（gci_no_mmvd_constraint_flagを介して）がビットストリーム１２０において使用されないことをシグナリングし得る。ＧＣＩフラグの使用に加えて、またはそれらの使用の代わりに、サブプロファイルは、特徴マップ符号化のためにＶＶＣ規格の外側で定義され、ＳＰＳ１４１０中に含まれ得るｇｅｎｅｒａｌ＿ｓｕｂ＿ｐｒｏｆｉｌｅ＿ｉｄｃシンタックスエレメントの特定の値を使用してビットストリーム内で識別され得る。デブロッキングフィルタを無効にすると、特徴マップを符号化するときの圧縮効率が向上し、タスクパフォーマンスが向上する。ＶＶＣコーディング規格では、ｓｈ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｄｉｓａｂｌｅｄ＿ｆｌａｇを「１」の値でコーディングすることによって、またはｐｈ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｄｉｓａｂｌｅｄ＿ｆｌａｇを「１」の値でコーディングすることによって、スライスまたはピクチャレベルでオーバーライドされない限り、ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｄｉｓａｂｌｅｄ＿ｆｌａｇを「１」に設定したビットストリーム１２１内のピクチャパラメータセットを参照するピクチャに対してデブロッキングフィルタは無効になっている。デブロッキングはＶＶＣ規格バージョン１の制約フラグを使用して明示的に無効化されず、したがって、デブロッキングフィルタを無効化することはそのような無効化が利点を示すにもかかわらず、特徴マップ符号化のためのサブプロファイルと等価であり得るツールサブセットの一部を構成しない。方法１５００は完了し、プロセッサ２０５における処理は次のフレームに進む。

図１６は符号化データから特徴マップを復号し、ＣＮＮの第２部分を実行するための方法１６００を示す。方法１６００は、構成されたＦＰＧＡ、ＡＳＩＣ、またはＡＳＳＰなどの装置によって実装され得る。代替的に、以下で説明するように、方法１６００はプロセッサ２０５の実行下において、アプリケーションプログラム２３３の１つまたは複数のソフトウェアコードモジュールとして、宛先デバイス１４０によって実装され得る。方法１６００は、ビットストリーム１４３において符号化されたビデオデータの各フレームに対して繰り返される。方法１６００を実施するアプリケーションプログラム２３３のソフトウェアコードモジュールは例えば、ハードディスクドライブ２１０および／またはメモリ２０６に記憶され得る。方法１６００は、特徴マップグルーピング復号ステップ１６１０で開始する。方法１６００は量子化に関連する１つまたは複数のパラメータを決定し、符号化データから復号されたデータサンプルに対して逆量子化を実行して、１つまたは複数のパラメータに従って特徴マップを導出するように構成される。一構成では、方法１６００は、逆量子化が実行された後、特徴マップのグループに対応する特徴マップをデインターリーブするように構成される。以下で詳細に説明するように、方法１６００は、第１フレーム（または２次元アレイ）に配置された特徴マップの第１グループと、第２フレーム（または２次元アレイ）に配置された特徴マップの第２グループとの画像に基づいて特徴マップを決定するために使用され得、第１のフレームは第２のフレームとは異なる。

特徴マップグルーピング復号ステップ１６１０において、エントロピーデコーダ７２０はプロセッサ２０５の実行下で、ＳＥＩメッセージ１４１３から、各レイヤの各特徴マップの、特徴マップの１つまたは複数のグループ（すなわち、特徴マップグループ８２０）への割り当てを示す構造を復号する。復号された構造は例えば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。ＳＥＩメッセージ１４１３における特徴マップグルーピングのシンタックスは付録Ａを参照して説明される。次いで、プロセッサ２０５における制御はステップ１６１０から量子化範囲復号ステップ１６２０に進む。

量子化範囲復号ステップ１６２０において、エントロピー復号器７２０はプロセッサ２０５の実行下で、ステップ１６１０においてＳＥＩメッセージ１４１３から決定されたように、８２０の各特徴マップグループについて量子化範囲８２２の形式でパラメータを復号する。量子化範囲８２２は、特徴マップグループ内の複数の特徴マップの各々によって共有される。ステップ１６２０で決定された量子化範囲８２２は例えば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。対称量子化が使用されているとき、ステップ１６２０において、各特徴マップグループについて単一の値が復号され、それぞれのグループに属する特徴マップ内の浮動小数点データの最大の大きさを表す。非対称量子化がステップ１６２０で使用されているとき、それぞれのグループに属する特徴マップ内の浮動小数点データの最大値および最小値を表す一対の値が、各特徴マップグループについて復号される。プロセッサ２０５はビデオデータのすべてのフレームに対してステップ１６２０を実行するように動作することができ、またはプロセッサ２０５は、より少ない頻度でステップ１６２０を実行するように動作することができる。ステップ１６２０は、ビットストリーム１４３中のランダムアクセスポイントまたはイントラピクチャで実行され得る。ステップ１６２０が全てのフレームについて実行されないとき、特徴マップグルーピングおよび／または量子化範囲データの新しいセットがビットストリーム１４３から復号されるまで、特徴マップグルーピングおよび量子化範囲データは、再使用のために後続のフレームにわたって搬送される。次に、プロセッサ２０５における制御は、ステップ１６２０からフレーム復号ステップ１６３０に進む。

フレーム復号ステップ１６３０において、エントロピーデコーダ１１４は、プロセッサ２０５の実行下で、ＡＵ１４１４などのアクセスユニットに対応するビットストリーム１４３の一部分を復号することによってフレーム１４５を生成するように動作する。フレーム１４５はパックされた特徴マップを含んでもよく、または例えばビデオソース１１２からのフレームに対応する画像を含んでもよい。フレーム１４５が画像フレームを含む場合、すなわち、パックされた特徴マップを含まない場合、方法１６００は終了し、次いで復号は次のフレームに進む。ステップ１６３０で生成されたフレーム１４５は例えば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。フレーム１４５がパックされた特徴マップを含む場合、プロセッサ２０５は、ステップ１６３０から特徴マップ配置決定ステップ１６４０に進む。

特徴マップ配置決定ステップ１６４０において、アンパッカモジュール８１０は、プロセッサ２０５の実行下で、フレーム１４５内の各レイヤの各特徴マップの位置を決定する。各特徴マップの空間サイズ、特徴マップグルーピング、および各レイヤにおける特徴マップの数を使用して、配置情報は、ステップ１５４０のアプローチに従って、図１１～１３を参照して説明したように決定される。特徴マップサイズ、量、およびパッキングフォーマットが前のフレームと比較して変化しない場合、特徴マップ配置データは、前のフレームから保持される。次いで、プロセッサ２０５における制御はステップ１６４０から、特徴マップアンパック（ｕｎｐａｃｋ）ステップ１６５０に進む。

特徴マップアンパックステップ１６５０において、アンパッカモジュール８１０はプロセッサ２０５の実行下で、フレーム１４７からサンプルを抽出し、ステップ１６４０からの決定された特徴マップ配置に従って整数特徴マップ８１２を生成する。ステップ１６５０で決定された整数特徴マップ８１２は例えば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。次に、プロセッサ２０５における制御は、ステップ１６５０から特徴マップ逆量子化ステップ１６６０に進む。

特徴マップ逆量子化ステップ１６６０において、逆量子化モジュール８１４はプロセッサ２０５の実行下で、整数特徴マップ８１２を浮動小数点特徴マップに変換し、ＣＮＮヘッド１５０への入力としてテンソル１４９にアセンブルされる。浮動小数点特徴マップは例えば、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。整数サンプルは浮動小数点精度に変換され、ステップ１５６０のｑｕａｎｔ＿ｏｆｆｓｅｔ値およびｓｃａｌｅ＿ｆ値は、サンプルを正規化された範囲にシフトするために使用される。特徴マップグループ内の各特徴マップについて、正規化された範囲値に、８２０の特徴マップグループの量子化範囲８２２を乗算して、浮動小数点特徴マップを作成する。浮動小数点特徴マップは多次元アレイとしてテンソル１１９に組み立てられ、一般に、次元は（フレーム、チャネル、高さ、幅）である。ＦＰＮが使用される場合、アセンブリは、ＦＰＮレイヤに対応する１１９におけるテンソルのセットから１つのテンソルに特徴マップを書き込むように動作する。プロセッサ２０５における制御は、ステップ１６６０からＣＮＮ第２部分実行ステップ１６７０に進む。

ＣＮＮ第２部分実行ステップ１６７０において、ＣＮＮヘッド１５０はプロセッサ２０５の実行下で、ＣＮＮの残りのステージ（すなわち、特定のタスクに固有のステージ）を実行する。復号され、アンパックされ、逆量子化されたテンソル１４９は、ＣＮＮヘッド１５０に入力される。ＣＮＮヘッド１５０内では、一連の畳み込み、正規化、全結合レイヤ演算、および活性化ステージが実行され、ＣＮＮ結果１５１が得られる。ＣＮＮ結果１５１は、例えばメモリ２０６内に構成されたタスク結果バッファ１５２に格納される。方法１６００は終了し、プロセッサ２０５における制御は次のフレームに進む。

方法１６００の１つのアレンジメントでは、ステップ１６１０および１６２０がＳＥＩメッセージ１４１３中のフラグによって示されるときに実行される。ステップ１６１０はＳＥＩメッセージ１４１３から復号された「ｇｒｏｕｐｓ＿ｕｐｄａｔｅ」フラグによって示されるときに実行され、ステップ１６２０は同様にＳＥＩメッセージ１４１３から復号された「ｑｒ＿ｕｐｄａｔｅ」フラグによって示されるときに実行される。

図１７は、特徴マップのグルーピングを決定する方法を示す。方法１７００は、構成されたＦＰＧＡ、ＡＳＩＣ、またはＡＳＳＰなどの装置によって具現化され得る。あるいは上記で説明したように、方法１７００はプロセッサ２０５の実行下で、アプリケーションプログラム２３３の１つまたは複数のソフトウェアコードモジュールとして、ソースデバイス１１０によって実装され得る。方法１７００を実施するアプリケーションプログラム２３３のソフトウェアコードモジュールは例えば、ハードディスクドライブ２１０および／またはメモリ２０６に記憶され得る。方法１７００は、リスト初期化ステップ１７１０で開始する。

リスト初期化ステップ１７１０において、グループ決定器５１０はプロセッサ２０５の実行下で、所与のレイヤ内の各特徴マップが単一のグループに割り当てられるように、グループのセットを作成する。グループは、特徴マップのペアの類似性を示すために１つのグループ内の隣接関係を有する、特徴マップの順序付けられたリストとして表される。順序付けられたリストは初期化され、メモリ２０６および／またはハードディスクドライブ２１０に記憶され得る。次いで、プロセッサ２０５における制御はステップ１７１０から、最も類似する特徴マップペアを見つけるステップ１７２０に進む。

ステップ１７２０において、グループ決定器５１０は、プロセッサ２０５の実行下で、ステップ１５２０からの類似性行列において最大の類似性を有する特徴マップのペアを決定する。類似性行列は特徴マップ間の差の尺度であるので、最大の類似性を有するペアは最小値を有する行列内の位置によって識別される。類似性行列が特徴マップのさらなるペアが類似性を有さないことを示す場合（すなわち、すべてのエントリが「ｎｏｔ－ａ－ｎｕｍｂｅｒ」（ＮａＮ）に設定されている）、この値が返される。次に、プロセッサ２０５における制御は、ステップ１７２０から残りのマップテストステップ１７３０に進む。

残りのマップテストステップ１７３０において、グループ決定器５１０は、プロセッサ２０５の実行下で、ステップ１７２０において、特徴マップのすべてのペアが識別されたかどうかを決定する。ステップ１７２０がＮａＮを返した場合、次いで、すべての特徴マップのグループは結合のために考慮され、グループをさらに一緒に接続する必要はない（すなわち、２つのより小さいグループから１つのより大きいグループを形成する）。グループをさらに一緒に接続する必要がない場合、方法１７００は終了し、グループのセットが結果として得られる。そうではなく、測定された類似性を有する特徴マップのペア（すなわち、最小演算の結果がＮａＮではない）の場合、次いでプロセッサにおける制御はステップ１７３０からグループ指示発見ステップ１７４０に進む。

グループインデックス決定ステップ１７４０において、グループ決定器５１０は、プロセッサ２０５の実行下で、それぞれの特徴マップがどのグループに属するか、および特徴マップの各グループ内のインデックスを決定する。次に、プロセッサ２０５における制御は、ステップ１７４０から接続可能なグループテストステップ１７５０に進む。

接続可能なグループテストステップ１７５０において、グループ決定器５１０はプロセッサ２０５の実行下で、特徴マップのペアを接続して、１つのより大きなグループを形成できるかどうかを決定する。いずれかの特徴マップが対応するグループの中央にある場合、リスト内のノードは先行ノードおよび後続ノードのみを有することがあるので、特徴マップを互いに接続することは不可能である。特徴マップのペアに対応する類似性行列におけるエントリは、ＮａＮに設定され、この特徴マップのペアのさらなる考慮を妨げる。また、２つの特徴マップが同じグループに属する場合、次いで特徴マップのペアに対応する類似性行列内のエントリはＮａＮに設定され、これらの２つの特徴マップを結合することのさらなる考慮を妨げる。両方の特徴マップがそれらのそれぞれのグループの開始または終了にある場合、特徴マップは互いに接続され、２つの初期グループから１つのより大きいグループを形成することが可能である。グループサイズが特定の数の特徴マップに制限される構成では、結合することができるグループについて、結果として得られるグループサイズがグループサイズ制限を超える場合、特徴マップのペアに対応する類似性行列におけるエントリはＮａＮに設定され、グループは互いに結合されない。特徴マップグループを決定するための反復を低減するために、グループサイズが制限され、結合後、結果として得られるグループがグループサイズに等しい場合、新たに形成されたグループの各終点に対応する類似性行列内の行および列はＮａＮに設定され、より大きなグループに結合するためのこれらの特徴マップのさらなる考慮を妨げる。グループが接続される場合、プロセッサ２０５における制御は、グループ接続ステップ１７６０に進む。

グループ接続ステップ１７６０において、グループ決定器５１０は、プロセッサ２０５の実行下で、ステップ１７２０で識別された特徴マップのペアを含む２つのグループを一緒に接続する。このグループは、新しく形成されたより大きなグループにおいてペアが隣接するように接続される。ステップ１７６０で決定された接続グループは例えば、メモリ２０６及び／又はハードディスクドライブ２１０に記憶されてもよい。特徴マップが２つ以上の特徴マップの前のグループにあり、別のグループに接続されているとき、特徴マップは、今や、新たに形成されたより大きなグループの中央の何らかの位置を占める。特徴マップがリストまたはグループ内の中間ノードになると、その特徴マップに対応する類似性行列内の行および列がＮａＮに設定され、その特徴マップを他のグループに結合することのさらなる考慮が妨げられる。次いで、プロセッサ２０５はステップ１７６０からステップ１７２０に進み、より大きなグループに結合することを考慮すべき特徴マップの次のペアを決定する。

１つのアレンジメントでは、各レイヤ内のすべての特徴マップが１つのグループにマージされる。パッキングフォーマット１１００に従ってパックされると、結果として得られる特徴マップ配置は、同様の特徴マップを比較的近接させる。次いで、ＶＶＣのイントラブロックコピーコーディングツールを使用して、ＩＢＣ仮想バッファから生じるブロック選択に対する何らかの制限を伴って、前のおよび隣接する特徴マップから１つの特徴マップの部分を予測することができる。特徴マップの残差は連続的であり、様々な変換を使用してより効率的にコーディングされる傾向があるので、ＩＢＣ探索はＳＡＤコスト推定に加えて、またはその代わりに、コスト推定としてアダマール変換を使用し得る。

別のアレンジメントでは、グループサイズは４に制限される。グループサイズが４に制限されるとき、「４つのグループ」特徴マップは、４つの特徴マップ間で共有ブロック構造およびある程度の共有予測信号から圧縮効率を達成するために、サンプルワイズインターリービングパッキングフォーマット１２００を使用して配置され得る。類似性閾値は、４つの特徴マップが非常に類似している４つの特徴マップのグループのみが決定されるように、方法１７００の実行において適用され得る。他の、それほど類似していない特徴マップは、ラスタ走査フォーマットでパックされる１つのより大きな残余グループに割り当てられてもよい。

さらに別のアレンジメントでは、グループがレイヤにわたって決定され、サイズが３に制限されてもよく、特に３層ＦＰＮに適している。インターレイヤグルーピングは、パッキングアレンジメント１３００を使用して、コロケートされた方法でパッキングされ、圧縮効率を改善するためにＶＶＣのクロス構成要素予測ツールが使用されることを可能にする。インターレイヤグループがレイヤにわたって特徴マップをコロケートするために使用される場合、組合せグルーピングが可能であり、一方、イントラレイヤグルーピングは、フレームのルマチャネルを占有するレイヤに基づいてグループを配置する。

さらに別のアレンジメントでは、レイヤごとに１つのグループが存在し、レイヤのすべての特徴マップがそのレイヤのグループ内に存在する。グループ内で、特徴マップの順序付けが符号化され、ＩＢＣなどのツールが隣接する特徴マップから１つの特徴マップを予測することができるように、レイヤ内の同様の特徴マップが近くに配置されることを可能にする。

さらに別の構成では、レイヤごとに１つのグループがあり、各グループ内で、特徴マップはそれらのテンソルのチャネルインデックスに従って配置される。そのような構成では、レイヤごとに１つの量子化範囲がコーディングされ、その結果、ＳＥＩメッセージ１４１３中の量子化範囲コーディングのオーバヘッドが低くなる。

様々なグルーピングアプローチが可能であるので、「ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ」シンタックスエレメントがＳＥＩメッセージ１４１３に含まれ、付録Ａを参照してさらに説明される。

図１８は、符号化されるフレームデータのタイプに従って、ビデオ規格のコーディングツールまたは機能（functions）のセットを選択するための方法を示す。方法１８００は、構成されたＦＰＧＡ、ＡＳＩＣ、またはＡＳＳＰなどの装置によって実装され得る。代替的に、以下で説明するように、方法１８００は、プロセッサ２０５の実行下で、アプリケーションプログラム２３３の１つまたは複数のソフトウェアコードモジュールとして、ソースデバイス１１０によって実装され得る。方法１８００を実施するアプリケーションプログラム２３３のソフトウェアコードモジュールは例えば、ハードディスクドライブ２１０および／またはメモリ２０６に記憶され得る。方法１８００のステップは、ソースデバイス１２０が畳み込みニューラルネットワーク（ＣＮＮ）に基づいて、特徴マップの符号化データを含む符号化ビデオデータを生成するかどうかを決定するように構成される。方法１８００のステップはまた、ソースデバイス１２０が特徴マップの符号化ビデオデータを含む符号化データを生成する場合、ビデオデータを符号化するための複数のコーディングツールまたは機能（functions）を使用して符号化ビデオデータを生成するように構成される。また、説明されるように、方法１８００のステップは、ソースデバイス１２０が特徴マップの符号化データを含む第２符号化データを生成する場合、複数のコーディングツールまたは機能（functions）の第１部分を使用するが、複数のコーディングツールまたは機能（functions）の第２部分を使用しない、特徴マップの符号化データを生成するように構成される。

方法１８００は、フレームタイプ構成決定ステップ１８１０で開始する。

フレームタイプ構成ステップ１８１０において、ソースデバイス１１０は、プロセッサ２０５の実行下で、ビデオデータまたは特徴マップデータのいずれかに対して動作するように構成される。構成はネットワーク２００または２２２を介してコマンドを受信した結果であってもよく、またはユーザインターフェースを介して（例えば、キーボード２０２、マウス２０３を介して）直接的なユーザ制御によってであってもよい。次に、プロセッサ２０５における制御はステップ１８１０から、フレーム含有特徴マップデータテストステップ１８２０に進む。

ステップ１８２０において、ソースデバイス１１０は、プロセッサ２０５の実行下で、ソースデバイス１１０が畳み込みニューラルネットワーク（ＣＮＮ）に基づいて、符号化された通常のビデオフレームデータを生成するか、または符号化された特徴マップデータを生成するかを決定する。符号化データはコーディング規格（例えば、ＶＶＣ規格）に準拠している。ソースデバイス１１０がビデオフレームデータのために構成されるとき、プロセッサ２０５における制御は、ステップ１８２０からビデオデータ機能（functions）選択ステップ１８３０に進む。ソースデバイス１１０が特徴マップ送信のために構成されるとき、プロセッサ２０５における制御は、ステップ１８２０から特徴マップ機能（functions）選択ステップ１８４０に進む。

ビデオデータ機能選択ステップ１８３０において、マルチプレクサ１１８は、プロセッサ２０５の実行下で、フレームデータ１１３をビデオエンコーダ１２０に直接ルーティングする。機能（functions）またはコーディングツールのセットが選択されて、フレームデータ１１９を符号化するために使用される。機能のセットは、フレームデータ１１９を符号化するために使用されているビデオコーディング規格のプロファイルにおいて利用可能な機能に対応する。機能のセットは、上述の複数のコーディングツールまたは機能の第１部分に対応する。例えば、ステップ１８３０において、ＶＶＣ規格の「Ｍａｉｎ１０」プロファイルに対して定義された機能のセットが選択されてもよい。プロセッサ２０５における制御は、ステップ１８３０からフレームデータ符号化ステップ１８５０に進む。

特徴マップ機能選択ステップ１８４０において、マルチプレクサ１１８は、プロセッサ２０５の実行下で、パックされた特徴マップ１１７をフレームデータ１１９としてビデオエンコーダ１２０にルーティングする。標準のプロファイルのコーディングツールのサブセットである機能またはコーディングツールのセットは、フレームデータ１１９を符号化する際に使用するために選択される。コーディングツールのサブセットは、フレームデータ１１９を符号化するために使用されているビデオコーディング規格の特定のコーディングツールまたは機能を無効にするために「制約フラグ」をアクティブ化することによって選択され得る。無効化されたコーディングツールまたは機能は上記で説明したコーディングツールまたは機能の第２部分を表し、低周波数非分離変換（ＬＦＮＳＴ）、行列イントラ予測（ＭＩＰ）、線形モードクロマスケーリング（ＬＭＣＳ）、アファイン予測モード、幾何分割モード（ＧＰＭ）、ＩＳＰ、デブロッキングフィルタのうちの少なくとも１つであり得る。本例では、コーディングツールまたは機能の第２部分の使用の禁止が制約フラグを使用して示され得る。ＶＶＣ以外のビデオコーディング規格の場合、類似の機能を提供するコーディングツールは、同様に無効にされ得る。プロセッサ２０５における制御は、ステップ１８４０からフレームデータ符号化ステップ１８５０に進む。

フレームデータ符号化ステップ１８５０において、ビデオエンコーダ１２０は、プロセッサ２０５の実行下で、機能またはコーディングツールのセットに従ってフレームデータ１１９を符号化する。方法１８００は終了し、ソースデバイス１１０は次のフレームに進む。方法１８００の結果として、ビットストリーム１２１は含まれているデータが通常のビデオデータであるか、またはパックされた特徴マップデータであるかを明確に示す（たとえば、ビットストリームのはじめに現れる制約フラグのセットの形式で）を含む。さらに、ビットストリーム１２１がパックされた特徴マップデータを符号化するとき、ＳＥＩメッセージ１４１３は少なくとも１つのフレームのために存在し、宛先デバイス１４０がビットストリームを復号した後にデータをさらに処理することを可能にする（たとえば、モジュール１４８および１５０を用いて復号フレームデータ１４５を処理する）。宛先デバイス１４０が、ＣＮＮヘッド１５０に従ってタスクを実行することのみを意図される場合、宛先デバイスは初期プロファイルおよび制約フラグシンタックスを超える通常のビデオデータを含むことが示されるとき、ビットストリーム１４３を復号する必要がない。タスク結果１５１のみをタスク結果バッファ１５２に出力し、復号されたビデオを（たとえば、表示デバイス１６０に）出力しない宛先デバイスは、制約フラグを介して無効にされるように示されるコーディングツールまたは機能を実装する必要がない。

方法１８００のアレンジメントでは、制約フラグを設定することによって、どのツールが特徴マップコーディングに対して無効にされるかを示す代わりに、ツールは例えば、シーケンスパラメータセットまたは同等のシンタックス構造において、有効化フラグを無効にすることによって示される。

方法１５００および１６００のアレンジメントでは、ステップ１５８０および１６１０が特徴マップグループサイズをｌｏｇ２値として符号化および復号し（すなわち、特徴マップグループサイズは２のべき乗値である必要がある）、ゼロのコード化値が１の特徴マップグループサイズに対応するように、１のオフセットが適用される。’ｌｏｇ２＿ｇｒｏｕｐ＿ｓｉｚｅ＿ｍｉｎｕｓ１’シンタックスエレメントは、特徴マップグループサイズを符号化するために使用される。

方法１５００、１６００、および１７００の別のアレンジメントでは、特徴マップグループが所与のレイヤ内で単調に増加する順序でインデックス付けされた特徴マップを含むように制約される。特徴マップが各グループ内で単調に増加する順序でインデックスによって存在するとき、グループ構成は、グループ内の所与の特徴マップの不在の存在を示すビットマップを使用して符号化され得る。後続のグループの場合、コード化ビットマップは以前のグループにすでに割り当てられている特徴マップインデックスを省くために、長さが低減され得る。

ＣＮＮバックボーン３１０のアレンジメントでは、テンソルの次元、したがって結果として得られる特徴マップのサイズはＶＶＣ規格のブロックサイズに整合されるように選択される。概して長方形のビデオおよび１２８×１２８のデフォルトＣＴＵサイズでは特徴マップの幅および高さは２の累乗であり得、たとえば、３つのレイヤのサイズは１２８×６４、６４×３２、および３２×１６であり得る。特徴マップサイズが２のべき乗であると、クワッドツリー、バイナリ、またはターナリ分割に起因するＶＶＣ規格で利用可能なブロックサイズでパックされた特徴の位置合わせが大きくなり、隣接する特徴マップの内容によって引き起こされる１つの特徴マップ内のアーティファクトのコーディングの可能性が低くなる。

ビットストリーム１４００のアレンジメントでは、ＳＰＳ拡張が１に等しい「ｓｐｓ＿ｅｘｔｅｎｓｉｏｎ＿ｆｌａｇ」をフラグを介してアクティブであるときに存在する追加のシンタックスとして、ＳＰＳ１４１０はデブロッキングフィルタを制御するためのｓｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｅｎａｂｌｅｄ＿ｆｌａｇを含む。ｓｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｅｎａｂｌｅｄ＿ｆｌａｇがゼロに等しいとき、ＰＰＳ１４１２内のｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｃｏｎｔｒｏｌ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが１に設定されなければならず、したがって、デブロッキングフィルタ制御が明示的にコーディングされ、ＰＰＳ１４１２内のｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｏｖｅｒｒｉｄｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇがゼロに設定されなければならず、したがって、ＰＰＳ１４１２内のデブロッキング制御セットのスライスヘッダまたはピクチャヘッダオーバーライドが禁止され、ＰＰＳ１４１２内のｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｄｉｓａｂｌｅｄ＿ｆｌａｇがゼロに設定されなければならず、ループ内フィルタリングをディスエーブルする。ｓｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｅｎａｂｌｅｄ＿ｆｌａｇが１に等しいとき、ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｃｏｎｔｒｏｌ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ、ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｏｖｅｒｒｉｄｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇ、およびｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｄｉｓａｂｌｅｄ＿ｆｌａｇフラグに対するこれらの制約は、適用されない。ｇｃｉ＿ｎｏ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｆｌａｇが制約フラグ１４４０に存在し、１に設定されると、ＳＰＳ１４１０内のｓｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｅｎａｂｌｅｄ＿ｆｌａｇはゼロに設定されなければならない。ｇｃｉ＿ｎｏ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｆｌａｇがゼロに設定されると、ＳＰＳ１４１０内のｓｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｅｎａｂｌｅｄ＿ｆｌａｇに制約は適用されない。ｓｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｅｎａｂｌｅｄ＿ｆｌａｇがＳＰＳ１４１０に存在しない場合、ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｃｏｎｔｒｏｌ＿ｐｒｅｓｅｎｔ＿ｆｌａｇ、ｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｏｖｅｒｒｉｄｅ＿ｅｎａｂｌｅｄ＿ｆｌａｇ、およびｐｐｓ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｄｉｓａｂｌｅｄ＿ｆｌａｇフラグに適用可能な制約は、ｇｃｉ＿ｎｏ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｆｌａｇが１に設定されているときに適用する。制約フラグを介してデブロッキングフィルタ適用を明示的に禁止することにより、デブロッキングフィルタの適用を除外する特徴マップ符号化のためにサブプロファイルを定義することが可能になる。ｇｃｉ＿ｎｏ＿ｄｅｂｌｏｃｋｉｎｇ＿ｆｉｌｔｅｒ＿ｆｌａｇは、ＶＶＣ規格のバージョン１におけるｇｃｉ＿ｒｅｓｅｒｖｅｄ＿ｚｅｒｏ＿ｂｉｔｓを含む制約フラグ１４４０の領域に存在し得る。システム１００の適用が量子化パラメータ６９２の低い値を使用して達成される高品質、すなわち、高ビットレートを必要とするとき、デブロッキングは不要であり得、制約フラグがたとえば、特徴マップ符号化のために使用され得、デブロッキングを完全に省略し得る。
産業上の利用可能性

記載された構成はコンピュータおよびデータ処理産業に適用可能であり、特に、高い圧縮効率を達成する、ビデオおよび画像信号などの信号の符号化および復号のためのデジタル信号処理に適用可能である。上述の制約フラグのうちの１つ以上を提供することにより、（「サブプロファイリング」と同等の）所与のプロファイルのツールのサブセットの選択が可能になる。ツールのサブセットの選択は、ベンダが例えば複雑さの観点から、不必要な又は他の問題のあるコーディングツールを除外するプロファイルのサブセットを指定することができるので、ＶＶＣのベンダの実装上の利点など、いくつかの利点を提供する。

チャネルまたは特徴マップのグループ内の浮動小数点テンソルデータを量子化し、得られた整数値を平面フレームにパッキングするための構成も開示される。量子化範囲データのための低いオーバーヘッドと、量子化範囲データのための高いオーバーヘッドを有する、グルーピングの非常に細かい粒度とを有する、グルーピング方法およびトレードオフの非常に粗いグルーピングが開示され、グルーピングの中間粒度は、タスクパフォーマンスの利点を提供する。

上記は本発明のいくつかの実施形態のみを説明し、本発明の範囲および趣旨から逸脱することなく、修正および／または変更を行うことができ、実施形態は例示的であり、限定的ではない。

付録Ａ：ビットストリームにおける特徴マップパッキングおよび量子化に関連するメタデータを表すためのＳＥＩメッセージフォーマットおよび関連するセマンティクスは、以下の通りである。

特徴マップパッキング情報セマンティクス
シンタック構造は特徴マップ平面フレームをアンパックし、推論タスクを実行するためにテンソルに変換するために必要な情報を指定する。

記述子ｕ（ｎ）を有するシンタックスエレメントは、シンタックスエレメントがｎビットを使用してコーディングされ、符号なし整数値として解釈されることを示す。記述子ｕｅ（ｖ）を有するシンタックスエレメントは、シンタックスエレメントが指数ゴロム値としてコーディングされ、符号なし整数値として解釈されることを示す。

特徴マップ情報ＳＥＩメッセージの持続性は、関連するＡＵから、次に特徴マップ情報ＳＥＩメッセージが発生するか、CLVSが終了するまで持続します。

０に等しいｆｒａｍｅ＿ｔｙｐｅはＡＵがパックされた特徴マップデータを含まないことを示し、１に等しいｆｒａｍｅ＿ｔｙｐｅは、ＡＵがパックされた特徴マップデータを含むことを示す。

１に等しいｌａｙｅｒｓ＿ｕｐｄａｔｅは、特徴マップパッキング情報ＳＥＩメッセージのこのインスタンスが各レイヤにおける特徴マップのレイヤの数、次元数、および量を定義することを示す。

１に等しいｇｒｏｕｐｓ＿ｕｐｄａｔｅは、特徴マップパッキング情報ＳＥＩメッセージのこのインスタンスが特徴マップグループの数および構成を定義することを示す。

１に等しいｑｒ＿ｕｐｄａｔｅは、特徴マップパッキング情報ＳＥＩメッセージのこのインスタンスが特徴マップグループの量子化範囲の更新をシグナリングすることを示す。

ｂａｃｋｂｏｎｅ＿ｉｄは、ネットワークバックボーンおよび抽出ポイントのタイプを示し、テンソルのレイヤカウントおよび次元、したがって特徴マップの次元を暗黙的にシグナリングする。以下の表は、いくつかの事前定義されたネットワークバックボーンと、関連するレイヤカウントと、特徴マップカウントと、次元とを示す。

ｌａｙｅｒ＿ｃｎｔは、フレーム内に存在するレイヤの数を指定する。

ｆｍ_ｃｎｔ[ｌａｙｅｒ_ｉｄｘ]は、ｌａｙｅｒ＿ｉｄｘに存在する特徴マップの数を指定する。

ｆｍ_ｗｉｄｔｈ[ｌａｙｅｒ_ｉｄｘ]は、ｌａｙｅｒ＿ｉｄｘの特徴マップの幅を指定する。

ｆｍ_ｈｅｉｇｈｔ[ｌａｙｅｒ_ｉｄｘ]は、ｌａｙｅｒ＿ｉｄｘの特徴マップの高さを指定する。

ｏｒｉｇ＿ｓｏｕｒｃｅ＿ｗｉｄｔｈは、バックボーン動作のためにサイズ変更する前、すなわちリサイザモジュール３０４の前に、ルマサンプルにおけるフレーム１１２の幅を指定する。

ｏｒｉｇ＿ｓｏｕｒｃｅ＿ｈｅｉｇｈｔは、バックボーン動作のためにサイズ変更する前、すなわちリサイザモジュール３０４の前に、ルマサンプルにおけるフレーム１１２の高さを指定する。

ｐａｃｋｉｎｇ＿ｆｏｒｍａｔは、フレーム内のパックされた特徴マップデータのフォーマットを指定する。フォーマットは次の表に従って列挙される。

ｇｒｏｕｐｉｎｇ＿ｔｙｐｅは、ＥｘｐｌｉｃｉｔＧｒｏｕｐｉｎｇフラグ、ＥｘｐｌｉｃｉｔＧｒｏｕｐＳｉｚｅフラグ、およびＥｘｐｌｉｃｉｔＬａｙｅｒＩｄフラグを設定することで、特徴マップグループの範囲を指定する。

１に等しいＥｘｐｌｉｃｉｔＧｒｏｕｐｉｎｇフラグは、特徴マップグルーピングがビットストリーム中で明示的にシグナリングされることを示し、０に等しいＥｘｐｌｉｃｉｔＧｒｏｕｐｉｎｇフラグは、特徴マップグルーピングがｇｒｏｕｐｉｎｇ＿ｔｙｐｅに基づいて暗黙的に決定されることを示す。

１に等しいＥｘｐｌｉｃｉｔＧｒｏｕｐＳｉｚｅフラグは、各特徴マップグループのサイズがビットストリーム中で明示的にシグナリングされることを示し、０に等しいＥｘｐｌｉｃｉｔＧｒｏｕｐＳｉｚｅフラグは、各特徴マップグループのサイズがｇｒｏｕｐｉｎｇ＿ｔｙｐｅに基づいて暗黙的に決定されることを示す。

１に等しいＥｘｐｌｉｃｉｔＬａｙｅｒＩｄフラグは、グループが異なるレイヤ内に特徴マップを含み得ることを示し、ゼロに等しいＥｘｐｌｉｃｉｔＬａｙｅｒＩｄフラグは、グループが暗黙的に単一レイヤに限定されることを示す。

次の表に、ｇｒｏｕｐｉｎｇ＿ｔｙｐｅに従ってフラグＥｘｐｌｉｃｉｔＧｒｏｕｐｉｎｇフラグ、ＥｘｐｌｉｃｉｔＧｒｏｕｐＳｉｚｅフラグ、およびＥｘｐｌｉｃｉｔＬａｙｅｒＩｄに割り当てられた値を示す。暗黙的な信号が使用される場合は、暗黙的な動作について説明する。

ｇｒｏｕｐ＿ｃｎｔは、ＥｘｐｌｉｃｉｔＧｒｏｕｐｉｎｇフラグが１に等しく、特徴マップグループの数をシグナリングするときに存在する。ＥｘｐｌｉｃｉｔＧｒｏｕｐｉｎｇＦｌａｇがゼロに等しいとき、ｇｒｏｕｐ＿ｃｎｔは、上記の表に従ってｇｒｏｕｐｉｎｇ＿ｔｙｐｅに基づいて推論される。

ｑｕａｎｔ＿ｔｙｐｅは、以下の表に従った量子化演算のタイプを示す。

ｑｒ＿ｆｒａｃｔｉｏｎ＿ｐｒｅｃｉｓｉｏｎは、浮動小数点量子化範囲の小数部がビット単位でコーディングされる精度を指定する。

ｇｒｏｕｐ＿ｓｉｚｅは、ＥｘｐｌｉｃｉｔＧｒｏｕｐｉｎｇフラグが１で、ＥｘｐｌｉｃｉｔＧｒｏｕｐＳｉｚｅフラグが１の場合に存在する。ｇｒｏｕｐ＿ｓｉｚｅは、ｇｒｏｕｐｇｒｐ＿ｉｄｘのサイズを指定する。ｇｒｏｕｐ＿ｓｉｚｅが存在しない場合、’ｇｒｏｕｐｉｎｇ＿ｔｙｐｅ’テーブルに記述されている’ＩｍｐｌｉｃｉｔＲｕｌｅｓ’に従って推論される。

ｆｍ_ｉｄｘ[ｇｒｐ_ｉｄｘ][ｆｍ_ｉｄｘ]は、グループｇｒｐ＿ｉｄｘ内の位置ｆｍ＿ｉｄｘの特徴マップインデックスまたはチャネルインデックスを指定する。

ｌａｙｅｒ_ｉｄ[ｇｒｐ_ｉｄｘ][ｆｍ_ｉｄｘ]は、存在する場合、ｆｍ_ｉｄｘ[ｇｒｐ_ｉｄｘ][ｆｍ_ｉｄｘ]で識別される対応する特徴マップのためのレイヤインデックスを指定する。ｌａｙｅｒ＿ｉｄｘが存在しない場合、それは推論される。１、２、または３に等しいｇｒｏｕｐ＿ｔｙｐｅの場合、レイヤ０の特徴マップは最初に１つまたは複数のグループに割り当てられ、レイヤ０のすべての特徴マップがグループに割り当てられると、レイヤ１の特徴マップは１つまたは複数のグループに割り当てられ、以下同様である。４に等しいｇｒｏｕｐ＿ｔｙｐｅの場合、１つのグループは、すべてのレイヤのすべての特徴マップを含む。

ｑｒ_ｅｘｐ[ｇｒｐ_ｉｄｘ]は、グループｇｒｐ＿ｉｄｘの量子化範囲の指数部を指定する。

ｑｒ_ｅｘｐ_ｓｉｇｎ[ｇｒｐ_ｉｄｘ]は、グループｇｒｐ＿ｉｄｘの量子化範囲の指数部の符号を指定する。

ｑｒ_ｆｒａｃｔｉｏｎ[ｇｒｐ_ｉｄｘ]は、ｑｒ＿ｐｒｅｃｉｓｉｏｎで指定されたビット幅で、グループｇｒｐ＿ｉｄｘの量子化範囲の小数部を指定する。

ｓｅｃｏｎｄ_ｑｒ_ｅｘｐ[ｇｒｐ_ｉｄｘ]が存在する場合、グループｇｒｐ＿ｉｄｘの第２量子化範囲の指数部分を指定する。

ｓｅｃｏｎｄ_ｑｒ_ｅｘｐ_ｓｉｇｎ[ｇｒｐ_ｉｄｘ]は、グループｇｒｐ＿ｉｄｘの量子化範囲の指数部の符号を指定する。

ｓｅｃｏｎｄ_ｑｒ_ｆｒａｃｔｉｏｎ[ｇｒｐ_ｉｄｘ]は、存在する場合、ｑｒ＿ｐｒｅｃｉｓｉｏｎで指定されるビット幅で、グループｇｒｐ＿ｉｄｘの第２量子化範囲の小数部を指定する。

ｑｕａｎｔ＿ｔｙｐｅがゼロに等しいとき、量子化範囲は、量子化範囲が適用されるグループ内の特徴マップ内で遭遇する値の最大の大きさを示す。

ｑｕａｎｔ＿ｔｙｐｅが１に等しいとき、量子化範囲は量子化範囲が適用されるグループ内の特徴マップ内で遭遇する最大正値を示し、第２量子化範囲は、第２量子化範囲が適用されるグループ内の特徴マップ内で遭遇する最大負値を示す。

量子化範囲および第２量子化（存在する場合）範囲は、１．０よりわずかに大きい値を掛けることなどによって、あるヘッドルームを可能にするように調整されていてもよい。そのようなヘッドルームは、量子化モジュール５１８においてテンソル値をクリップする必要がある可能性が低減された、特徴マップパッキング情報ＳＥＩメッセージに関連付けられたフレームに後続フレームのために、量子化範囲が再使用されることを可能にする。

Claims

第１符号化データおよび第２符号化データを生成するための装置であって、
前記装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定する判定手段と、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第１符号化データを生成する符号化手段と、を備え、前記符号化手段は、前記装置が前記特徴マップの符号化データを含む前記第２符号化データを生成する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを生成する、装置。
前記複数の機能のうちの第２部分は、ＬＦＮＳＴ、ＭＩＰ、ＬＭＣＳ、およびＩＳＰのうちの少なくとも１つを含む、請求項１に記載の装置。
前記複数の機能のうちの第２部分は、Ａｆｆｉｎｅ、ＧＰＭ、およびＭＭＶＤのうちの少なくとも１つを含む、請求項１に記載の装置。
前記複数の機能のうちの第２部分は、前記特徴マップの符号化に使用されないように制約される、請求項１に記載の装置。
前記符号化手段は、前記複数の機能のうちの第２部分が前記特徴マップの復号に使用されないように制約されていることを示す情報を符号化する、請求項１に記載の装置。
前記第１符号化データは第１符号化規格に準拠し、前記第２符号化データは第２符号化規格に準拠する、請求項１に記載の装置。
前記特徴マップは、前記中間データの空間次元以外の次元に沿ってニューラルネットワーク内で生成された中間データユニットのスライスである、請求項１に記載の装置。
前記符号化手段は、複数の特徴マップを表すためのメタデータをビデオデータの平面フレームに符号化し、前記メタデータはＳＥＩメッセージを使用して表される、請求項１に記載の装置。
前記符号化手段は、前記複数の機能のうちの第２部分の使用禁止を制約フラグを用いて符号化する、請求項１に記載の装置。
第１符号化データおよび第２符号化データを復号するための装置であって、
前記装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定する判定手段と、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第１符号化データを復号する復号手段と、を備え、前記復号手段は、前記装置が前記特徴マップの符号化データを含む前記第２符号化データを復号する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを復号する、装置。
前記複数の機能のうちの第２部分は、ＬＦＮＳＴ、ＭＩＰ、ＬＭＣＳ、およびＩＳＰのうちの少なくとも１つを含む、請求項１０に記載の装置。
前記複数の機能のうちの第２部分は、Ａｆｆｉｎｅ、ＧＰＭ、およびＭＭＶＤのうちの少なくとも１つを含む、請求項１０に記載の装置。
前記複数の機能のうちの第２部分は、前記特徴マップの復号に使用されないように制約される、請求項１０に記載の装置。
前記復号手段は、前記複数の機能のうちの第２部分が前記特徴マップの復号に使用されないように制約されていることを示す情報を復号する、請求項１０に記載の装置。
前記第１符号化データは第１符号化規格に準拠し、前記第２符号化データは第２符号化規格に準拠する、請求項１０に記載の方法。
前記特徴マップは、前記中間データの空間次元以外の次元に沿ってニューラルネットワーク内で生成された中間データユニットのスライスである、請求項１０に記載の装置。
前記復号手段は、複数の特徴マップを表すためのメタデータをビデオデータの平面フレームに復号し、前記メタデータはＳＥＩメッセージを使用して表される、請求項１０に記載の装置。
前記復号手段は、前記複数の機能のうちの第２部分の使用禁止を制約フラグを用いて復号する、請求項１０に記載の装置。
第１符号化データおよび第２符号化データを生成する方法であって、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定し、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第１符号化データを生成し、
前記装置が前記特徴マップの符号化データを含む前記第２符号化データを生成する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを生成する、方法。
第１符号化データおよび第２符号化データを復号する方法であって、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定し、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第１符号化データを復号し、
前記装置が前記特徴マップの符号化データを含む前記第２符号化データを復号する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを復号する、方法。
第１符号化データおよび第２符号化データを生成する方法を実行するためのプログラムを格納する非一時的なコンピュータ可読格納媒体であって、前記方法は、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定することと、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第１符号化データを生成することと、
前記装置が前記特徴マップの符号化データを含む前記第２符号化データを生成する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを生成することと、を含む非一時的なコンピュータ可読格納媒体。
第１符号化データおよび第２符号化データを復号する方法を実行するためのプログラムを格納する非一時的コンピュータ可読格納媒体であって、前記方法は、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定することと、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第１符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第１符号化データを復号することと、
前記装置が前記特徴マップの符号化データを含む前記第２符号化データを復号する場合、前記複数の機能のうちの第１部分を用いるが前記複数の機能のうちの第２部分を用いずに前記特徴マップの符号化データを復号することと、を含む非一時的なコンピュータ可読格納媒体。