JP2024510710A - 特徴マップ符号化対通常のビデオ符号化のためのツール選択 - Google Patents

特徴マップ符号化対通常のビデオ符号化のためのツール選択 Download PDF

Info

Publication number
JP2024510710A
JP2024510710A JP2023547314A JP2023547314A JP2024510710A JP 2024510710 A JP2024510710 A JP 2024510710A JP 2023547314 A JP2023547314 A JP 2023547314A JP 2023547314 A JP2023547314 A JP 2023547314A JP 2024510710 A JP2024510710 A JP 2024510710A
Authority
JP
Japan
Prior art keywords
encoded data
feature map
data
functions
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023547314A
Other languages
English (en)
Inventor
クリストファー ジェームズ ロゼワーン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2024510710A publication Critical patent/JP2024510710A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Discrete Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Figure 2024510710000001
第1符号化データおよび第2符号化データを生成するための装置。装置は、装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定する判定手段を有する。また、装置は、装置が特徴マップの符号化データを含まない符号化ビデオデータの形で第1符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて第1符号化データを生成する符号化手段を有する。符号化手段は、装置が特徴マップの符号化データを含む第2符号化データを生成する場合、複数の機能のうちの第1部分を用いるが複数の機能のうちの第2部分を用いずに特徴マップの符号化データを生成する。

Description

関連出願への言及
本出願は、2021年4月7日に出願されたオーストラリア特許出願第2021202142号の出願日の35U.S.C§119に基づく利益を主張し、その全体があたかも本明細書に完全に記載されているかのように、参照により本明細書に組み込まれる。
本発明は一般に、デジタルビデオ信号処理に関し、特に、畳み込みニューラルネットワークからテンソルを符号化および復号するための方法、装置、およびシステムに関する。本発明はまた、ビデオ圧縮技術を使用して畳み込みニューラルネットワークからテンソルを符号化および復号するためのコンピュータプログラムを記録したコンピュータ可読媒体を含むコンピュータプログラム製品に関する。
ビデオ圧縮は、ビデオデータの送信および記憶のためのアプリケーションを含む、多くのアプリケーションをサポートするために使用されるユビキタス技術である。多くのビデオコーディング規格が開発されており、他のものは現在開発中である。ビデオコーディング標準化における最近の発展は、「Joint Video Experts Team」(JVET)と呼ばれるグループの形成につながった。Joint Video Experts Team(JVET)は、2つの標準設定組織(Standards Setting Organisations)(SSO)、つまり、「Video Coding Experts Group」(VCEG)としても知られる、International Telecommunication Union(ITU)のTelecommunication Standardisation Sector(ITU-T)のStudy Group 16、Question 6(SG16/Q6)と、「Moving Picture Experts Group」(MPEG)としても知られる、国際標準化機構/国際電気標準会議合同技術委員会1/小委員会29/Working Group 11(ISO/IEC JTC1/SC29/WG11)と、のメンバを含む。
Joint video Experts Team(JVET)は、「versatile video coding」(VVC)と呼ばれるビデオ圧縮規格を開発した。
畳み込みニューラルネットワーク(CNN)は、とりわけ、物体認識、物体追跡、人間の姿勢推定、および行動認識などのマシンビジョンを伴うユースケースに対処する新興の技術である。CNNは典型的には、畳み込み層および全結合層などの多くの層を含み、データは、「テンソル」の形式で1つの層から次の層に渡される。各層の重みは、トレーニングステージで決定され、ここで、非常に大量のトレーニングデータがCNNを通過し、決定された結果がトレーニングデータに関連するグラウンドトゥルースと比較される。確率的勾配降下などのネットワーク重みを更新するためのプロセスは、ネットワークが所望のレベルの精度で実行するまで、ネットワーク重みを反復的に精緻化するために適用される。畳み込みステージが1より大きい「ストライド」を有する場合、畳み込みからの出力テンソルは、対応する入力テンソルよりも低い空間分解能を有する。「最大プーリング」のような動作はまた、入力テンソルと比較して、出力テンソルの空間サイズを低減する。最大プーリングは、入力テンソルをデータサンプルのグループ(たとえば、データサンプルの2×2グループ)に分割し、各グループから、出力テンソル内の対応する値のための出力として最大値を選択することによって出力テンソルを生成する。入力を用いてCNNを実行し、入力を出力に漸進的に変換するプロセスは、一般に「推論」と呼ばれる。
一般に、テンソルは4つの次元、すなわち、バッチ、チャネル、高さおよび幅を有する。ビデオデータを推論するときのサイズ「1」の第1次元「バッチ」は、一度に1つのフレームがCNNを通過することを示す。ネットワークをトレーニングするとき、所定の「バッチサイズ」に従って、ネットワークの重みが更新される前に複数のフレームがネットワークを通過するように、バッチ次元の値を増加させることができる。マルチフレームビデオは、所与のビデオのフレームの数に従ってサイズが増加されたバッチ次元を有する単一のテンソルとして通過され得る。しかしながら、メモリ消費およびアクセスに関する実際的な考慮事項のために、ビデオデータの推論は、典型的にはフレーム単位で実行される。「チャネル」次元は、所与のテンソルに対する同時(concurrent)の「特徴マップ」の数を示し、高さおよび幅の次元は、CNNの特定のステージにおける特徴マップのサイズを示す。チャネルカウントは、ネットワークアーキテクチャに従ってCNNを介して変化する。また、特徴マップサイズは、特定のネットワーク層で発生するサブサンプリングに応じて変化する。
CNNの第1層への入力は、典型的には第1層へのテンソル入力の次元との互換性のためにリサイズされる、画像またはビデオフレームである。テンソルの次元はCNNアーキテクチャに依存し、一般に、入力幅および高さに関連するいくつかの次元と、さらなる「チャネル」次元と、を有する。
チャネルに基づいてテンソルをスライスすることは、いわゆる「特徴マップ」のセットをもたらし、これはテンソルの各スライスが対応する入力画像と何らかの関係を有し、エッジなどの何らかの特性を捕捉するためである。ネットワークへの入力からさらに離れたレイヤにおいて、関係は、より抽象的であり得る。CNNの「タスク性能」は、特定の入力を使用してタスクを実行する際のCNNの結果を、提供されたグラウンドトゥルース(すなわち、「トレーニングデータ」)と比較することによって測定され、一般に、人間によって準備され、「正しい」結果を示すことが意図される。
ネットワークトポロジが決定されると、ネットワークの重みは、より多くのトレーニングデータが利用可能になるにつれて時間更新され得る。また、CNNの一部分を再トレーニングし、ネットワークの他の部分(複数可)における重みを変更しないままにすることも可能である。CNNの全体的な複雑さは、非常に高くなる傾向があり、多数の積和演算が実行され、多数の中間テンソルがメモリに書き込まれ、メモリから読み出される。いくつかのアプリケーションでは、CNNが全体的に「クラウド」において実装され、高く高価な処理能力が必要となる。他のアプリケーションでは、CNNがカメラまたは携帯電話などのエッジデバイスにおいて実装され、柔軟性は低くなるが、処理負荷はより分散される。
VVCは特に、ビデオフォーマットが(たとえば、より高い解像度およびより高いフレームレートを有する)能力を増加させるにつれて、ますます高い圧縮性能に対する継続的な需要に対処し、帯域幅コストが比較的高いWANを介したサービス配信に対する増大する市場需要に対処することが予想される。VVCは現代のシリコンプロセスにおいて実施可能であり、達成された性能と実施コストとの間の許容可能なトレードオフを提供する。実装コストはたとえば、シリコンエリア、CPUプロセッサロード、メモリ利用率、および帯域幅のうちの1つまたは複数に関して考慮され得る。VVC規格の汎用性の一部は、ビデオデータを圧縮するために利用可能なツールの幅広い選択、ならびにVVCが適している広範囲のアプリケーションにある。
ビデオデータは、画像データのフレームのシーケンスを含み、各フレームは、1つまたは複数のカラーチャネルを含む。一般に、1つの一次カラーチャネルおよび2つの二次カラーチャネルが必要とされる。一次カラーチャネルは一般に「ルマ」チャネルと呼ばれ、二次カラーチャネルは一般に「クロマ」チャネルと呼ばれる。ビデオデータは典型的にはRGB(赤-緑-青)色空間で表示されるが、この色空間は3つのそれぞれの構成要素の間に高い相関度を有する。エンコーダまたはデコーダによって見られるビデオデータ表現はしばしば、YCbCrなどの色空間を使用している。YCbCrは、伝達関数に従って「ルマ」にマッピングされた輝度を、Y(一次)チャネルに集中させ、CbおよびCr(二次)チャネルに彩度を集中させる。非相関YCbCr信号の使用により、ルマチャネルの統計は、クロマチャネルの統計と著しく異なる。主要な差異は、量子化の後、クロマチャネルが対応するルマチャネルブロックの係数と比較して、所与のブロックのための比較的少数の有意係数を含むことである。さらに、CbおよびCrチャネルは、「4:2:0クロマフォーマット」として知られる、ルマチャネルと比較してより低いレート、例えば、水平方向に半分および垂直方向に半分で空間的にサンプリング(サブサンプリング)されてもよい。4:2:0クロマフォーマットは、インターネットビデオストリーミング、ブロードキャストテレビジョン、Blu-RayTMディスクへの保存など、「コンシューマ」アプリケーションで一般的に使用される。ルマサンプルのみが存在する場合、結果として生じるモノクロフレームは、「4:0:0クロマフォーマット」を使用すると言われる。
VVC規格は「ブロックベース」アーキテクチャを規定し、フレームは最初に、「コーディングツリーユニット」(CTU)として知られる領域の正方形アレイに分割される。一般に、CTUは、128×128ルマサンプルのような比較的大きな面積を占める。ただし、各フレームの右端および下端のCTUは、面積がより小さくなり得る。各CTUに関連付けられているのは、ルマチャネルおよびクロマチャネルの両方のための「コーディングツリー」(「共有ツリー」)、またはルマチャネルおよびクロマチャネルのそれぞれのための別個のツリーである。コーディングツリーは、CTUのエリアの、「コーディングブロック」(CB)とも呼ばれるブロックのセットへの分解を定義する。共有ツリーが使用中であるとき、単一のコーディングツリーはルマチャネルおよびクロマチャネルの両方のためのブロックを指定し、その場合、コロケートされたコーディングブロックのコレクションは「コーディングユニット」(CU)と呼ばれる(すなわち、各カラーチャネルのためのコーディングブロックを有する各CU)。CBは、特定の順序で符号化または復号するために処理される。4:2:0クロマフォーマットの使用の結果として、128×128ルマサンプルエリアのためのルマコーディングツリーを有するCTUは、128×128ルマサンプルエリアと並置された64×64クロマサンプルエリアのための対応するクロマコーディングツリーを有する。単一のコーディングツリーがルマチャネルおよびクロマチャネルのために使用されているとき、所与のエリアのためのコロケートされたブロックのコレクションは概して、「ユニット」、たとえば、上記のCU、ならびに「予測ユニット」(PU)および「変換ユニット」(TU)と呼ばれる。4:2:0クロマフォーマットビデオデータのカラーチャネルにまたがるCUを有する単一のツリーは、クロマブロックを、対応するルマブロックの幅および高さの半分にする。所与のエリアのために別個のコーディングツリーが使用されるとき、上述のCB、ならびに「予測ブロック」(PB)および「変換ブロック」(TB)が使用される。
「ユニット」と「ブロック」との間の上記の区別にもかかわらず、「ブロック」という用語は、すべてのカラーチャネルに動作が適用されるフレームのエリアまたは領域の総称として使用され得る。
CUごとに、フレームデータの対応する領域のコンテンツ(サンプル値)の予測ユニット(PU)が生成される(「予測ユニット」)。さらに、予測と、エンコーダへの入力で見られる領域の内容と、の間の差分(または「空間領域」残差)の表現が形成される。各色チャネルにおける差分は、残差係数のシーケンスとして変換され、コーディングされ得、所与のCUのための1つまたは複数のTUを形成する。適用される変換は、残差値の各ブロックに適用される、離散コサイン変換(DCT)または他の変換であり得る。変換は分離可能に適用される(すなわち、2次元変換は、2つのパスで実行される)。ブロックは最初に、ブロック内のサンプルの各行に1次元変換を適用することによって変換される。次いで、部分結果は、部分結果の各列に1次元変換を適用することによって変換され、残差サンプルを実質的に非相関化する変換係数の最終ブロックを生成する。様々なサイズの変換は、矩形形状ブロックの変換を含むVVC規格によってサポートされ、各サイド寸法は2のべき乗である。変換係数は、ビットストリームへのエントロピー符号化のために量子化される。
VVCは、イントラフレーム予測およびインターフレーム予測を特徴とする。イントラフレーム予測は、フレーム内のデータサンプルの現在のブロックの予測を生成するために使用されているフレーム内の以前に処理されたサンプルの使用を伴う。インターフレーム予測は、以前に復号されたフレームから取得されたサンプルのブロックを使用して、フレーム中のサンプルの現在のブロックの予測を生成することを伴う。以前に復号されたフレームから取得されたサンプルのブロックは、しばしばフィルタリングが適用された動きベクトルに従って、現在のブロックの空間位置からオフセットされる。イントラフレーム予測ブロックは、(i)均一サンプル値(「DCイントラ予測」)、(ii)オフセットおよび水平および垂直勾配を有するプレーン(「平面イントラ予測」)、(iii)特定の方向に適用された隣接サンプルを有するブロックの母集団(「角度イントラ予測」)、または(iv)隣接サンプルおよび選択された行列係数を使用した行列乗算の結果であり得る。予測されたブロックと対応する入力サンプルとの間のさらなる不一致は、「残差」をビットストリームに符号化することによって、ある程度補正され得る。残差は一般に、空間領域から周波数領域に変換されて、「一次変換領域において残差係数を形成し、これは、「二次変換領域」において残差係数を生成するために、「二次変換」のアプリケーションによってさらに変換され得る。残差係数は量子化パラメータに従って量子化され、デコーダで生成されたサンプルの再構成の精度の損失をもたらすが、ビットストリームにおけるビットレートの低減を伴う。
本発明の目的は、既存の構成の1つまたは複数の欠点を実質的に克服するか、または少なくとも改善することである。
本開示の一態様によれば、第1符号化データおよび第2符号化データを生成するための装置であって、
前記装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定する判定手段と、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第1符号化データを生成する符号化手段と、を備え、前記符号化手段は、前記装置が前記特徴マップの符号化データを含む前記第2符号化データを生成する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを生成する、装置が提供される。
本開示の別の態様によれば、第1符号化データおよび第2符号化データを復号するための装置であって、
前記装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定する判定手段と、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第1符号化データを復号する復号手段と、を備え、前記復号手段は、前記装置が前記特徴マップの符号化データを含む前記第2符号化データを復号する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを復号する、装置が提供される。
本開示の別の態様によれば、第1符号化データおよび第2符号化データを生成する方法であって、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定し、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第1符号化データを生成し、
前記装置が前記特徴マップの符号化データを含む前記第2符号化データを生成する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを生成する、方法が提供される。
本開示の別の態様によれば、第1符号化データおよび第2符号化データを復号する方法であって、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定し、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第1符号化データを復号し、
前記装置が前記特徴マップの符号化データを含む前記第2符号化データを復号する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを復号する、方法が提供される。
本開示の別の態様によれば、第1符号化データおよび第2符号化データを生成する方法を実行するためのプログラムを格納する非一時的なコンピュータ可読格納媒体であって、前記方法は、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定することと、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第1符号化データを生成することと、
前記装置が前記特徴マップの符号化データを含む前記第2符号化データを生成する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを生成することと、を含む非一時的なコンピュータ可読格納媒体が提供される。
本開示の他の態様によれば、第1符号化データおよび第2符号化データを復号する方法を実行するためのプログラムを格納する非一時的コンピュータ可読格納媒体であって、前記方法は、
装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定することと、
前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第1符号化データを復号することと、
前記装置が前記特徴マップの符号化データを含む前記第2符号化データを復号する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを復号することと、を含む非一時的なコンピュータ可読格納媒体が提供される。
他の態様も開示される。
次に、本発明の少なくとも1つの実施形態を、以下の図面および付録を参照して説明する。
図1は、分散マシンタスクシステムを示す概略ブロック図である。 図2Aは、図1の分散マシンタスクシステムが実施され得る汎用コンピュータシステムの概略ブロック図を形成する。 図2Bは、図1の分散マシンタスクシステムが実施され得る汎用コンピュータシステムの概略ブロック図を形成する。 図3Aは、CNNのバックボーン部分の機能モジュールを示す概略ブロック図である。 図3Bは、図3Aの残差ブロックを示す概略ブロック図である。 図3Cは、図3Aの残差ユニットを示す概略ブロック図である。 図3Dは、図3AのCBLモジュールを示す概略ブロック図である。 図4は、CNNの代替バックボーン部分の機能モジュールを示す概略ブロック図である。 図5は、分散マシンタスクシステムの一部としての特徴マップ量子化器およびパッカを示す概略ブロック図である。 図6は、ビデオエンコーダの機能モジュールを示す概略ブロック図である。 図7は、ビデオデコーダの機能モジュールを示す概略ブロック図である。 図8は、分散マシンタスクシステムの一部としての特徴マップ逆量子化器およびアンパッカを示す概略ブロック図である。 図9Aは、CNNのヘッド部を示す概略ブロック図である。 図9Bは、図9Aのアップスケーラモジュールを示す概略ブロック図である。 図9Cは、図9Aの検出モジュールを示す概略ブロック図である。 図10は、CNNの代替ヘッド部分を示す概略ブロック図である。 図11は、モノクロフレームにおける特徴マップパッキング配置を示す概略ブロック図である。 図12は、モノクロフレームにおける代替的な特徴マップパッキング配置を示す概略ブロック図である。 図13は、4:2:0クロマサブサンプリングカラーフレームにおける特徴マップパッキング配置を示す概略ブロック図である。 図14は、符号化されたパックされた特徴マップおよび関連するメタデータを保持するビットストリームを示す概略ブロック図である。 図15は、CNNの第1部分を実行し、結果として得られる特徴マップを符号化するための方法を示す。 図16は、特徴マップを復号し、CNNの第2の部分を実行するための方法を示す。 図17は、特徴マップのグループ化を決定する方法を示す。 図18は、ビデオ規格からコーディングツールまたは機能のセットを選択するための方法を示す。 付録Aは、ビットストリーム中の特徴マップパッキングおよび量子化に関連するメタデータを表すための補足強化情報(SEI)メッセージフォーマットを示すシンタックステーブルである。
添付の図面のいずれか1つまたは複数において、同じ参照符号を有するステップおよび/または特徴が参照される場合、それらのステップおよび/または特徴は反対の意図がない限り、本説明の目的のために、同じ機能または動作を有する。
分散マシンタスクシステムは、中間圧縮データを生成するネットワークカメラまたはスマートフォンなどのエッジデバイスを含むことができる。分散マシンタスクシステムはまた、中間圧縮データを操作して何らかのタスク結果を生成するサーバファームベース(「クラウド」)アプリケーションなどの最終デバイスを含み得る。加えて、エッジデバイス機能は、クラウドにおいて具現化されてもよく、中間圧縮データは潜在的に、必要に応じて複数の異なるタスクのために、後の処理のために記憶されてもよい。
中間圧縮データの便利な形態は、高性能圧縮規格およびその実装の利用可能性のために、圧縮ビデオビットストリームである。ビデオ圧縮規格は、典型的には平面アレイに配置された、10ビットなど、いくつかの所与のビット深度の整数サンプルを操作する。カラービデオは、用途に応じて、例えば色成分Y、Cb、Cr、またはR、G、Bに対応する3つの平面アレイを有する。CNNは通常、テンソルの形で浮動小数点データを操作し、テンソルは一般に、CNNが動作するが、カラービデオデータの典型的な3つのチャネルよりも多くのチャネルを有する、入ってくるビデオデータと比較して、はるかに小さい空間次元を有する。
テンソルは典型的には以下の次元:フレーム、チャネル、高さ、および幅を有する。例えば、次元[1、256、76、136]のテンソルは、各々がサイズ136×76の256個の特徴マップを含むと言われる。ビデオデータの場合、推論は、典型的には複数のフレームを含むテンソルを使用するのではなく、一度に1つのフレームで実行される。
VVCエンコーダおよびデコーダは、「制約」として知られる能力シグナリングメカニズムを含む。ビットストリームの初期には、VVC規格のどの能力がビットストリームにおいて使用されないかを示す制約のセットが存在する。制約は、ビットストリームの「プロファイル」および「レベル」とともにシグナリングされる。プロファイルは、ビットストリームを復号するために利用可能である必要があるツールのセットを広く示す。制約はまた、どのツールが指定されたプロファイルにおいてさらに制約されるかの制御の細かい粒度を提供する。ツールのさらなる制約は「サブプロファイリング」に類似しているが、サブプロファイルはVVC規格外で定義され、一般的な制約フラグセマンティクスはVVC規格内で定義される。ビデオエンコーダによって符号化されているデータのタイプに応じて、サブプロファイルを(たとえば、定義することと同等に)ツールのサブセットを定義することによって、デコーダは、ビットストリームの示されたプロファイルのコーディングツールのサブセットが使用されるべきであることを、ビットストリーム復号を開始する前に知ることができる。
図1は、分散マシンタスクシステム100の機能モジュールを示す概略ブロック図である。システム100は、符号化されたデータから特徴マップを符号化および復号するための平面フレームに特徴マップを効率的にパッキングおよび量子化するための方法を実装するために使用され得、その結果、関連するオーバーヘッドデータは過度に負担がかからず、復号された特徴マップのタスク性能はビットストリームのビットレートの変化に対して回復力がある。
システム100は、符号化ビデオ情報の形で符号化データを生成するためのソースデバイス110を含む。システム100はまた、宛先デバイス140を含む。通信チャネル130は、ソースデバイス110から宛先デバイス130に符号化ビデオ情報を通信するために使用される。いくつかの構成では、ソースデバイス110および宛先デバイス140の一方もしくは両方が、それぞれの移動電話ハンドセット(たとえば、「スマートフォン」)またはネットワークカメラおよびクラウドアプリケーションを有しても良い。通信チャネル130は、イーサネット(登録商標)などの有線接続、またはWiFiもしくは5Gなどの無線接続であり得る。さらに、ソースデバイス110および宛先デバイス140は、符号化ビデオデータがファイルサーバ内のハードディスクドライブなどの何らかのコンピュータ可読記憶媒体上でキャプチャされるアプリケーションを備え得る。
図1に示すように、ソースデバイス110は、ビデオソース112と、CNNバックボーン114と、特徴マップ量子化器およびパッカ116と、マルチプレクサ118と、ビデオエンコーダ120と、送信機122と、を含む。ビデオソース112は、典型的には画像キャプチャセンサ、非一時的記録媒体上に記憶された以前にキャプチャされたビデオシーケンス、または遠隔画像キャプチャセンサからのビデオフィードなど、キャプチャされたビデオフレームデータ(113として示される)のソースを備える。ビデオソース112はまた、コンピュータグラフィックスカードの出力であってもよく、例えば、コンピューティングデバイス(例えば、タブレットコンピュータ)上で実行される様々なアプリケーションおよびオペレーティングシステムのビデオ出力を表示する。ビデオソース112として画像キャプチャセンサを含み得るソースデバイス110の例は、スマートフォン、ビデオカムコーダ、プロフェッショナルビデオカメラ、およびネットワークビデオカメラを含む。
CNNバックボーン114は、ビデオフレームデータ113を受信し、CNNの「バックボーン」に対応するレイヤなど、全体的なCNNの特定のレイヤを実行する。CNNのバックボーンレイヤは例えば、ビデオフレームデータ113によって表される入力画像の異なる空間スケールに対応する複数のテンソルを出力として生成することができる。「フィーチャピラミッドネットワーク(feature pyramid network)」(FPN)アーキテクチャは、バックボーン114から出力される3つのレイヤに対応する3つのテンソルを、様々な空間分解能およびチャネルカウントでもたらすことができる。特徴マップ量子化器およびパッカ116は、CNNバックボーン114から出力されるテンソル115を受信する。特徴マップ量子化器およびパッカ116は、テンソル115内の浮動小数点値をフレーム119にパックされるデータサンプルに量子化することによって、CNNバックボーン114の出力である全体的なCNNの内部層をビデオエンコーダ120にインターフェースするように作用する。フレーム119の解像度は、コーディングされるべき特徴マップの総面積および目標アスペクト比に基づき得る。パッキング中に、フレーム119内の過剰な未使用領域が発生した場合、フレームサイズが増加され得(たとえば、高さが増加され得る)、したがって、すべての特徴マップがフレーム119内に配置されることが可能である。たとえば、フレーム119の解像度は2056×1224であり得、フレーム119のビット深度は10ビットであり得る。フレーム119内の特徴マップ配置を決定することは、テンソル115の次元が確立されるときにのみ実行される必要がある。チャネル次元に沿ってテンソル115をスライスすることはチャネルごとに1つの特徴マップを抽出することをもたらし、所与のテンソルの特徴マップはテンソルの追加の次元から決定される特定のサイズを有する。FPNが使用される場合、着信フレームごとに複数のテンソルが生成され、特徴マップの複数のセットを含み、特徴マップの各セットは異なる空間分解能を有する。すべてのレイヤの特徴マップは、パックされた特徴マップフレーム117などの平面ビデオフレームにパックされる。マルチプレクサ118はソースデバイス110がビデオデータを符号化するように構成されている場合、ソースデバイス110が特徴マップまたはフレームデータ113を符号化するように構成されている場合、パックされた特徴マップフレーム117を選択し、フレーム119をビデオエンコーダ120の形の符号化ユニットに出力する。特徴マップと通常のビデオデータとの間の選択は、メタデータSEIメッセージ内の「frame_type」シンタックスエレメントを使用してビットストリーム内で符号化される。メタデータSEIメッセージは、付録Aを参照して説明される。フレーム119がビデオエンコーダ120に入力され、そこで、非可逆圧縮がフレーム119に適用されて、ビットストリーム121を生成する。ビットストリーム121は通信チャネル130を介した送信のために送信機122に供給されるか、またはビットストリーム121は後で使用するために記憶装置132に書き込まれる。
CNNバックボーン114によるテンソルへの変換後、結果として得られる特徴マップのコンテンツは、ビデオデータ113において明確に識別可能である個人(individuals)をもはや識別することができない。記憶装置132を使用する(例えば圧縮された形態での)特徴マップの記憶は、特に偽名化または匿名化のための欧州一般データ保護規則(GDPR)要件に関連して、ユーザプライバシーの観点からより安全であり得る。
ソースデバイス110は、CNNバックボーン114のための特定のネットワークをサポートする。しかしながら、宛先デバイス140は、ヘッドCNN150のためのいくつかのネットワークのうちの1つを使用し得る。このようにして、パックされた特徴マップの形の部分的に処理されたデータは、CNNバックボーン114の動作を再度実行する必要なく、様々なタスクを実行する際に後で使用するために記憶され得る。ビデオエンコーダ120は、フレームデータ119を符号化するためにVVCのコーディングツール(または「プロファイル」)の特定のセットを使用する。
ビットストリーム121は、送信機122によって、符号化ビデオデータ(または「符号化ビデオ情報」)として通信チャネル130を介して送信される。ビットストリーム121はいくつかの実装形態では記憶装置132に記憶することができ、記憶装置132は、後に通信チャネル130を介して送信されるまで(または通信チャネル130を介した送信の代わりに)、「フラッシュ」メモリまたはハードディスクドライブなどの非一時的記憶デバイスである。例えば、符号化されたビデオデータは、ビデオストリーミングアプリケーションのためのワイドエリアネットワーク(WAN)を介して需要に応じて顧客に提供され得る。
宛先デバイス140は、受信機142と、ビデオデコーダ144と、デマルチプレクサ146と、特徴マップアンパッカおよび逆量子化器148と、CNNヘッド150と、CNNタスク152と、表示デバイス160と、を含む。受信機142は通信チャネル130から符号化ビデオデータを受信し、受信したビデオデータをビットストリームとしてビデオデコーダ144に渡す(矢印143で示す)。そして、ビデオデコーダ144は、復号されたフレームデータをデマルチプレクサ146に出力する(矢印145で示す)。復号されたメタデータ155はまた、ビデオデコーダ144によってビットストリーム143から抽出され、特徴マップアンパッカおよび逆量子化器148に渡される。復号されたメタデータ155は、典型的にはビットストリーム143に存在する「補足強化情報」(SEI)メッセージ1413(図14参照)から取得される。付録Aは各例示的なシンタックスエレメントのセマンティクスとともに、復号されたメタデータ155の例示的なシンタックスを示す。復号されたメタデータ155は、あらゆるフレームのビットストリームから復号され、存在し得る。復号されたメタデータ155は、すべてのフレームよりも少ない頻度で存在し、復号され得る。たとえば、復号されたメタデータ155は、ビットストリーム143中のイントラピクチャにのみ存在し、復号され得る。復号されたメタデータ155が所与のフレームについて存在しないとき、最も最近の利用可能なメタデータが使用される。宛先デバイス140がビットストリーム143のSEIメッセージ1413中の「frame_type」シンタックスエレメントによって示されるように、CNNタスクを実行するように構成される場合、フレームデータ145は、特徴マップフレームデータ147として、特徴マップアンパッカおよび逆量子化器148に出力される。そうではなく、宛先デバイス140がビデオデータの復号を実行するように構成される場合、フレームデータ145は、フレームデータ159として出力され、ビデオとして表示するために表示デバイス160に供給される。特徴マップアンパッカおよび逆量子化器は、CNNヘッド150に供給されるテンソル147を出力する。CNNヘッド150は、CNNバックボーン114で開始されたタスクの後のレイヤを実行して、タスク結果バッファ152に記憶されたタスク結果151を生成する。表示デバイス160の例は、陰極線管、スマートフォン、タブレットコンピュータ、コンピュータモニタ、またはスタンドアロンテレビセットなどの液晶ディスプレイを含む。ソースデバイス110および宛先デバイス140の各々の機能性は単一のデバイスにおいて具現化されることも可能であり、その例は、携帯電話ハンドセット、タブレットコンピュータ、およびクラウドアプリケーションを含む。
上述の例示的なデバイスにもかかわらず、ソースデバイス110および宛先デバイス140の各々は、一般にハードウェア構成要素とソフトウェア構成要素との組合せを通して、汎用コンピューティングシステム内で構成され得る。図2Aは、コンピュータモジュール201と、キーボード202とマウスポインタデバイス203とスキャナ226と、ビデオソース112として構成され得るカメラ227と、マイクロフォン280となどの入力デバイスと、プリンタ215と、表示デバイス160として構成され得る表示デバイス214と、ラウドスピーカ217とを含む出力デバイスとを含む、そのようなコンピュータシステム200を示す。外部変調器-復調器(Modem)トランシーバデバイス216は、コネクション221を介して通信ネットワーク220との間で通信するためにコンピュータモジュール201によって使用され得る。通信チャネル130を表し得る通信ネットワーク220は、インターネット、セルラー電気通信ネットワーク、またはプライベートWANなどの(WAN)であり得る。コネクション221が電話回線である場合、モデム216は、従来の「ダイヤルアップ」モデムであってもよい。代替として、コネクション221が大容量(たとえば、ケーブルまたは光)コネクションである場合、モデム216はブロードバンドモデムであり得る。ワイヤレスモデムはまた、通信ネットワーク220へのワイヤレス接続のために使用され得る。トランシーバデバイス216は、送信機116および受信機142の機能を提供することができ、通信チャネル130は、コネクション221において具現化され得る。
コンピュータモジュール201は、典型的には少なくとも1つのプロセッサユニット205と、メモリユニット206とを含む。例えば、メモリユニット206は、半導体RAM(random access memory)及び半導体ROM(read only memory)を有することができる。コンピュータモジュール201はまた、ビデオディスプレイ214に結合するオーディオビデオインターフェース207、ラウドスピーカ217およびマイクロフォン280と、キーボード202、マウス203、スキャナ226、カメラ227、および任意選択でジョイスティックまたは他のヒューマンインターフェースデバイス(図示せず)に結合するI/Oインターフェース213と、外部モデム216およびプリンタ215のためのインターフェース208とを含む、いくつかの入力/出力(I/O)インターフェースを含む。オーディオ-ビデオインターフェース207からコンピュータモニタ214への信号は一般に、コンピュータグラフィックスカードの出力である。いくつかの実装形態では、モデム216がコンピュータモジュール201内に、たとえばインターフェース208内に組み込まれ得る。コンピュータモジュール201はまた、ローカルエリアネットワーク(LAN)として知られるローカルエリア通信ネットワーク222へのコネクション223を介してコンピュータシステム200の結合を可能にするローカルネットワークインターフェース211を有する。図2Aに示されるように、ローカル通信ネットワーク222はまた、コネクション224を介してワイドネットワーク220に結合することができ、これは、典型的にはいわゆる「ファイアウォール」デバイスまたは同様の機能のデバイスを含む。ローカルネットワークインターフェース211は、EthernetTM回路カード、BluetoothTMワイヤレス構成、またはIEEE802.11ワイヤレス構成を有しうるが、インターフェース211のために多数の他のタイプのインターフェースが実施され得る。ローカルネットワークインターフェース211はまた、送信機122および受信機142の機能を提供することができ、通信チャネル130はまた、ローカル通信ネットワーク222において具現化され得る。
I/Oインターフェース208および213は、シリアルコネクティビティおよびパラレルコネクティビティのいずれかまたは両方を提供することができ、前者は典型的にはユニバーサルシリアルバス(USB)規格に従って実装され、対応するUSBコネクタ(図示せず)を有する。記憶デバイス209が提供され、典型的にはハードディスクドライブ(HDD)210を含む。また、フロッピーディスク(登録商標)ドライブや磁気テープドライブ(図示せず)などの他の記憶デバイスを用いてもよい。光ディスクドライブ212は、典型的にはデータの不揮発性ソースとして機能するように設けられる。例えば、光ディスク(例えば、CD-ROM、DVD、Blu ray DiscTM)、USB-RAM、ポータブル、外部ハードディスク、およびフロッピーディスクなどのポータブルメモリデバイスを、コンピュータシステム200への適切なデータのソースとして使用することができる。典型的には、HDD210、光ドライブ212、ネットワーク220および222のいずれも、ビデオソース112として、またはディスプレイ214を介して再生のために記憶される復号されたビデオデータの宛先として動作するように構成されてもよい。システム100のソースデバイス110および宛先デバイス140は、コンピュータシステム200において具現化され得る。
コンピュータモジュール201の構成要素205~213は、典型的には、相互接続されたバス204を介して、当業者に知られているコンピュータシステム200の従来の動作モードをもたらすように通信する。たとえば、プロセッサ205は、コネクション218を使用してシステムバス204に結合される。同様に、メモリ206および光ディスクドライブ212は、コネクション219によってシステムバス204に結合される。説明された構成を実施することができるコンピュータの例は、IBM-PCおよび互換機、SunSPARCstation、AppleMacTM、または同様のコンピュータシステムを含む。
適切または望ましい場合、ビデオエンコーダ120およびビデオデコーダ144、ならびに以下で説明する方法は、コンピュータシステム200を使用して実装され得る。特に、ビデオエンコーダ120、ビデオデコーダ144、および説明される方法は、コンピュータシステム200内で実行可能な1つまたは複数のソフトウェアアプリケーションプログラム233として実装され得る。特に、ビデオエンコーダ120、ビデオデコーダ144、および説明される方法のステップは、コンピュータシステム200内で実行されるソフトウェア233内の命令231(図2B参照)によって実行される。ソフトウェア命令231は、それぞれが1つまたは複数の特定のタスクを実行するための1つまたは複数のコードモジュールとして形成され得る。ソフトウェアはまた、2つの別個の部分に分割され得、第1部分および対応するコードモジュールは説明された方法を実行し、第2部分および対応するコードモジュールは、第1部分とユーザとの間のユーザインターフェースを管理する。
ソフトウェアはたとえば、以下で説明する記憶デバイスを含むコンピュータ可読媒体に記憶され得る。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム200にロードされ、次いで、コンピュータシステム200によって実行される。そのようなソフトウェアまたはコンピュータ可読媒体に記録されたコンピュータプログラムを有するコンピュータ可読媒体は、コンピュータプログラム製品である。コンピュータシステム200におけるコンピュータプログラム製品の使用は、好ましくはソースデバイス110および宛先デバイス140を実装するための有利な装置と、説明された方法とをもたらす。
ソフトウェア233は、典型的には、HDD210またはメモリ206に格納される。ソフトウェアは、コンピュータ可読媒体からコンピュータシステム200にロードされ、コンピュータシステム200によって実行される。したがって、たとえば、ソフトウェア233は光ディスクドライブ212によって読み取られる光学的に読み取り可能なディスク記憶媒体(たとえば、CD-ROM)225に記憶され得る。
いくつかの例では、アプリケーションプログラム233が1つまたは複数のCD-ROM225上で符号化されたユーザに供給され、対応するドライブ212を介して読み出されてもよく、あるいはネットワーク220または222からユーザによって読み出されてもよい。さらに、ソフトウェアは、他のコンピュータ可読媒体からコンピュータシステム200にロードすることもできる。コンピュータ可読記憶媒体は実行および/または処理のために、記録された命令および/またはデータをコンピュータシステム200に提供する任意の非一時的有形記憶媒体を指す。このような記憶媒体の例は、フロッピーディスク、磁気テープ、CD-ROM、DVD、Blu-ray DiscTM、ハードディスクドライブ、ROM又は集積回路、USBメモリ、光磁気ディスク、又はPCMCIAカード等のコンピュータ可読カードを含み、これらのデバイスはコンピュータモジュール201の内部又は外付けである。コンピュータモジュール201へのソフトウェア、アプリケーションプログラム、命令、および/またはビデオデータもしくは符号化ビデオデータの提供に参加することもできる一時的または非有形のコンピュータ可読伝送媒体の例は、無線または赤外線伝送チャネル、ならびに別のコンピュータまたはネットワーク化されたデバイスへのネットワークコネクション、ならびに電子メール送信およびウェブサイトなどに記録された情報を含むインターネットまたはイントラネットを含む。
アプリケーションプログラム233の第2部分および上述の対応するコードモジュールは、ディスプレイ214上にレンダリングされるかまたは表される1つまたは複数のグラフィカルユーザインターフェース(GUI)を実装するために実行され得る。典型的にはキーボード202およびマウス203の操作を通して、コンピュータシステム200およびアプリケーションのユーザは、機能的に適応可能な方法でインターフェースを操作して、GUIに関連するアプリケーションに制御コマンドおよび/または入力を提供することができる。ラウドスピーカ217を介して出力されるスピーチプロンプトと、マイクロフォン280を介して入力されるユーザ音声コマンドとを利用するオーディオインターフェースなど、機能的に適応可能なユーザインターフェースの他の形態も実装され得る。
図2Bは、プロセッサ205および「メモリ」234の詳細な概略ブロック図である。メモリ234は、図2Aのコンピュータモジュール201によってアクセス可能な全てのメモリモジュール(記憶デバイス209及び半導体メモリ206を含む)の論理的集合を表す。
コンピュータモジュール201が最初に電源投入されると、パワーオンセルフテスト(POST)プログラム250が実行される。POSTプログラム250は、典型的には図2Aの半導体メモリ206のROM249に格納される。ソフトウェアを記憶するROM249などのハードウェアデバイスは、ファームウェアと呼ばれることがある。POSTプログラム250は適切な機能を保証するためにコンピュータモジュール201内のハードウェアを検査し、典型的には、正しい動作のために、プロセッサ205、メモリ234(209、206)、および同様に典型的にはROM249に記憶された基本入出力システムソフトウェア(BIOS)モジュール251をチェックする。POSTプログラム250が正常に実行されると、BIOS251は、図2Aのハードディスクドライブ210を起動する。ハードディスクドライブ210の起動により、ハードディスクドライブ210に常駐するブートストラップローダプログラム252に、プロセッサ205を介して実行させる。これにより、オペレーティングシステム253がRAMメモリ206にロードされ、オペレーティングシステム253が動作を開始する。オペレーティングシステム253はプロセッサ205によって実行可能なシステムレベルアプリケーションであり、プロセッサ管理、メモリ管理、デバイス管理、ストレージ管理、ソフトウェアアプリケーションインターフェース、および汎用ユーザインターフェースを含む、様々な高レベルの機能を果たす。
オペレーティングシステム253は、メモリ234(209、206)を管理して、コンピュータモジュール201上で実行される各プロセスまたはアプリケーションが別のプロセスに割り振られたメモリと衝突することなく実行するのに十分なメモリを有することを保証する。さらに、図2Aのコンピュータシステム200において利用可能な異なるタイプのメモリは、各プロセスが効果的に実行され得るように、適切に使用される必要がある。したがって、集約メモリ234は、メモリの特定のセグメントがどのように割り振られるかを示すことを意図するものではなく(特に明記しない限り)、むしろ、コンピュータシステム200によってアクセス可能なメモリの一般的なビュー、およびそのようなメモリがどのように使用されるかを提供することを意図するものである。
図2Bに示されるように、プロセッサ205は、制御部239と、算術論理部(ALU)240と、キャッシュメモリと呼ばれることもあるローカルまたは内部メモリ248とを含む、いくつかの機能モジュールを含む。キャッシュメモリ248は、典型的にはレジスタセクション内にいくつかの記憶レジスタ244~246を含む。1つ以上の内部バス241は、これらの機能モジュールを機能的に相互接続する。プロセッサ205はまた、典型的には、コネクション218を使用して、システムバス204を介して外部デバイスと通信するための1つまたは複数のインターフェース242を有する。メモリ234は、コネクション219を使用してバス204に結合される。
アプリケーションプログラム233は、条件付き分岐およびループ命令を含むことができる一連の命令231を含む。また、プログラム233は、プログラム233の実行に用いられるデータ232を含んでもよい。命令231およびデータ232は、それぞれ、メモリロケーション228、229、230および235、236、237に記憶される。命令231およびメモリロケーション228~230の相対的なサイズに応じて、特定の命令はメモリロケーション230に示される命令によって示されるように、単一のメモリロケーションに記憶され得る。代替的に、命令はメモリロケーション228および229に示される命令セグメントによって示されるように、それぞれが別個のメモリロケーションに記憶されるいくつかの部分にセグメント化され得る。
一般に、プロセッサ205には、その中で実行される命令のセットが与えられる。プロセッサ205は、プロセッサ205が別の命令セットを実行することによって反応する後続の入力を待つ。各入力は、すべて図2Aに示される、入力デバイス202、203のうちの1つまたは複数によって生成されたデータ、ネットワーク220、202のうちの1つにわたって外部ソースから受信されたデータ、記憶デバイス206、209のうちの1つから取り出されたデータ、または、対応するリーダ212に挿入された記憶媒体225から取り出されたデータを含む、いくつかのソースのうちの1つまたは複数から提供され得る。命令のセットの実行は、場合によってはデータの出力をもたらし得る。実行はまた、データまたは変数をメモリ234に記憶することを伴い得る。
ビデオエンコーダ120、ビデオデコーダ144、および説明する方法は、入力変数254を使用し得、入力変数はメモリ234中の対応するメモリロケーション255、256、257に記憶される。ビデオエンコーダ120、ビデオデコーダ144、および説明される方法は、出力変数261を生成し、それらは、メモリ234中の対応するメモリロケーション262、263、264に記憶される。中間変数258は、メモリロケーション259、260、266、および267に記憶され得る。
図2Bのプロセッサ205を参照すると、レジスタ244、245、246、算術論理ユニット(ALU)240、および制御部239は、プログラム233を構成する命令セット内の命令ごとに「フェッチ、デコード、および実行」サイクルを実行するために必要なマイクロオペレーションのシーケンスを実行するように協働する。各フェッチ、デコード、および実行サイクルは:
メモリロケーション228、229、230から命令231をフェッチまたは読み出すフェッチ動作;
制御部239が、どの命令がフェッチされたかを判定するデコード動作と、
制御部239および/またはALU240が命令を実行する実行動作とを含む。
その後、次の命令のためのさらなるフェッチ、デコード、および実行サイクルが実行され得る。同様に、格納サイクルは、制御部239が値をメモリロケーション232に格納または書き込むことによって実行されてもよい。
説明される図15、16、17、および18の方法における各ステップまたはサブプロセスは、プログラム233の1つまたは複数のセグメントに関連付けられ、典型的には、プロセッサ205内のレジスタセクション244、245、247、ALU240、および制御部239によって実行され、プログラム233の言及されたセグメントのための命令セット内のすべての命令について、フェッチ、デコード、および実行サイクルを実行するように協働する。
図3Aは、CNNバックボーン114として機能し得るCNNのバックボーン部分310の機能モジュールを示す概略ブロック図である。バックボーン部分114は「DarkNet-53」と呼ばれることもあるが、異なるバックボーンも可能であり、その結果、フレームごとにテンソル115の層の数および次元が異なる。図14および付録Aを参照して説明される、SEIメッセージ1413内の「backbone_id」シンタックスエレメントは、バックボーンのタイプを示す。バックボーンのタイプが未知である場合、テンソル次元は、各レイヤについての特徴マップカウント(「fm_cnt」)および各レイヤについての特徴マップ次元(「fm_width」および「fm_height」)を使用して指定される。
図3Aに見られるように、ビデオデータ113は、CNNバックボーン310による処理に適した解像度にフレームをリサイズするリサイザモジュール304に渡され、リサイズされたフレームデータ312を生成する。フレームデータ113の解像度が既にCNNバックボーン310に適している場合、リサイザモジュール304の動作は不要である。リサイズされたフレームデータ312は、畳み込みバッチ正規化漏れ修正線形(convolutional batch normalisation leaky rectified linear)(CBL)モジュール314に渡され、テンソル316を生成する。CBL314は図3Dに示されるように、CBLモジュール360を参照して説明されるようなモジュールを含む。
CBLモジュール360は、テンソル361を入力として受け取り、これは、畳み込みレイヤ362に渡されてテンソル363を生成する。畳み込みレイヤ362が1のストライドを有するとき、テンソル363はテンソル361と同じ空間次元を有する。畳み込みレイヤ362が2などのより大きいストライドを有するとき、テンソル363はテンソル361と比較してより小さい空間次元を有し、例えば、2のストライドのサイズが半分になる。ストライドにかかわらず、テンソル363のチャネル次元のサイズは、特定のCBLブロックのテンソル361のチャネル次元と比較して変化し得る。テンソル363は、テンソル365を出力するバッチ正規化モジュール364に渡される。バッチ正規化モジュール364は、入力テンソル363を正規化し、スケーリング係数およびオフセット値を適用して、出力テンソル365を生成する。スケーリング係数およびオフセット値は、トレーニングプロセスから導出される。テンソル365は、漏れ修正線形活性化(「LeakyReLU」)モジュール366に渡され、テンソル367を生成する。モジュール366は「活性化関数」を提供し、テンソル内の正の値が通過され、負の値の大きさが、例えば、それらの以前の値の0.1Xに大幅に低減される。
テンソル316は、CBLブロック314から、内部で11個の残差ユニットの連結を含む残差ブロック11モジュール320に渡される。
残差ブロックは、図3Bに示されるResBlock340を参照して説明される。ResBlock340は、テンソル343を生成するためにゼロパディングモジュール342によってゼロパディングされたテンソル341を受け取る。テンソル343は、CBLモジュール344に渡されてテンソル345を生成する。テンソル345は残差ユニット346に渡され、残差ブロック340は一連の連結された残差ユニットを含む。残差ユニット346の最後の残差ユニットは、テンソル347を出力する。残差ユニットは図3Cに見られるように、ResUnit350を参照して説明される。ResUnit350はテンソル351を入力とし、CBLモジュール352に渡されてテンソル353を生成する。テンソル353は、第2CBLユニット354に渡され、テンソル355を生成する。加算モジュール356は、テンソル355をテンソル351と合計してテンソル357を生成する。加算モジュール356は、入力テンソル351が出力テンソル357に実質的に影響を与えるので、「ショートカット」と呼ばれることもある。トレーニングされていないネットワークの場合、ResUnit350は、パススルーテンソルに作用する。トレーニングが実行されると、CBLモジュール352および354は、トレーニングデータおよびグラウンドトゥルースデータに従ってテンソル357をテンソル351から離すように動作する。
Res11モジュール320はテンソル322を出力し、これは、バックボーンモジュール310からレイヤのうちの1つとして出力され、また、Res8モジュール324に提供される。Res8モジュール324は8個の残差ユニット(すなわち、350)を含む残差ブロック(すなわち、340)である。Res8モジュール324はテンソル326を生成し、これはRes4モジュール328に渡され、レイヤの1つとしてバックボーンモジュール310からも出力される。Res4モジュールは4つの残差ユニット(すなわち、350)を含む残差ブロック(すなわち、340)である。Res4モジュール324は、レイヤの1つとしてバックボーンモジュール310から出力されるテンソル329を生成する。まとめて、レイヤテンソル322、326、および329は、テンソル115として出力される。バックボーンCNN310は入力として、解像度1088×608のビデオフレームをとり、3つのレイヤに対応する3つのテンソルを生成することができ、次の[1、256、76、136]、[1、512、38、68]、[1、1024、19、34]の次元を有する。図3および図9に示される全体的なCNNは示されるように分割されてもよいが、全体的なCNNの他の分割も可能である。CBLブロック912、926、および940における第1畳み込みから出力されるテンソル(すなわち、各それぞれのCBLモジュールにおけるテンソル363)はバックボーンからの出力としてタップされ得、その場合、アップスケーラモジュール922および936ならびにCBLモジュール912、926、および940の第1畳み込みはバックボーンCNN310に含まれる。結果として得られるテンソルの次元数は、[1、512、34、19]、[1、256、68、38]、[1、128、136、76]である。YOLOv3ネットワークのすべてのレイヤおよび動作が列挙されるとき、CBLモジュール912、926、および940におけるタッピングテンソル363は、それぞれ、YOLOv3ネットワークにおける第75モジュール、第90モジュール、および第105モジュールにおけるタッピングテンソルに対応する。結果として生じるテンソルは「Darknet-53」出力(すなわち、322、326、および329)と比較して、各解像度における特徴マップの数の半分を有する。
図4は、CNNバックボーン114として機能し得るCNNの代替バックボーン部分400の機能モジュールを示す概略ブロック図である。バックボーン部分400は特徴ピラミッドネットワーク(「ResNet FPN」)を有する残差ネットワークを実施し、CNNバックボーン114の代替である。フレームデータ113は入力され、テンソル409、413、417、425を介して、ステムネットワーク408、res2モジュール412、res3モジュール416、res4モジュール420、res5モジュール424、およびmaxプールモジュール428を通過し、maxプールモジュール428は、出力としてテンソル429を生成する。ステムネットワーク408は、2のストライドを有する7x7畳み込みと、最大プーリング動作とを含む。res2モジュール412、res3モジュール416、res4モジュール420、およびres5モジュール424は、畳み込み演算、LeakyReLUアクティベーションを実行する。各モジュール421、416、420および424はまた、2のストライドセッティングを介して、処理されたテンソルの解像度の1つの半分を実行する。テンソル409、413、417、および425は、1x1横方向畳み込みモジュール440、442、444、および446に渡され、テンソル441、443、445、および447を生成する。テンソル441は、3x3出力畳み込みモジュール470に渡され、出力テンソル P5 471を生成する。テンソル441はまた、アップサンプリングされたテンソル451を生成するために、アップサンプラモジュール450に渡される。合計モジュール460はテンソル443および451を合計してテンソル461を生成し、これは、アップサンプラモジュール452および3x3横方向畳み込みモジュール472に渡される。モジュール472は、P4テンソル473を出力する。アップサンプラモジュール452は、アップサンプリングされたテンソル453を生成する。合計モジュール462はテンソル445および453を合計してテンソル463を生成し、テンソルは、3x3横方向畳み込みモジュール474およびアップサンプラモジュール454に渡される。モジュール474は、P3テンソル475を出力する。アップサンプラモジュール454は、アップサンプリングされたテンソル455を出力する。合計モジュール464はテンソル447および455を合計してテンソル465を生成し、これは、3x3横方向畳み込みモジュール476に渡される。モジュール476は、P2テンソル477を出力する。アップサンプラモジュール450、452、および454は、低い計算量のために最近接補間を使用する。テンソル429、471、473、475、および477は、CNNバックボーン400の出力テンソル115を形成する。
図5は、分散マシンタスクシステム100の一部としての特徴マップ量子化器およびパッカ116を示す概略ブロック図である。CNNバックボーン114からのテンソル115は、グループ決定モジュール510、範囲決定モジュール514、および量子化器モジュール518に入力される。言い換えれば、量子化器モジュール518は、浮動小数点値から整数値へのマッピング関数または伝達関数を実施する。グループ決定モジュール510は、入力テンソル115の特徴マップ(チャネル)を、所定の基準またはテンソル115に存在するデータの何らかの尺度に基づいて、特徴マップグループ512に割り当てる。特徴マップグループ512は、異なるレイヤのテンソルにまたがってもよく、または個々のレイヤに限定されてもよい。特徴マップグループ512は、範囲決定モジュール514に渡され、メタデータ125の一部として出力される。範囲決定モジュール514はグループごとに、それぞれのグループに属する特徴マップに存在する最大振幅値を示す量子化範囲を決定し、量子化範囲516を生成する。範囲決定モジュール514はすべてのフレームで新しい量子化範囲を決定することができ、または、たとえば、イントラピクチャ上でのみ、より低い頻度で新しい量子化範囲を決定することができる。
ビットストリーム121は、量子化範囲が更新されたか否かを示す「qr_update」フラグをメタデータ(付録A参照)に含む。単一の量子化範囲を使用して、量子化範囲が属するグループの特徴マップ内の量子化前の任意の値の最大の大きさを表すことができる。別のアレンジメントでは、特徴マップグループ内の最大正値および特徴マップ内の最大負値のための別個の量子化範囲が使用され、その結果、グループあたり2つの値を有する非対称量子化範囲が得られる。
テンソル115は一般に、32ビットの浮動小数点精度値を有し、したがって、各量子化範囲は、浮動小数点値でもある。16ビットおよび8ビットなどの他の浮動小数点精度が可能であり、浮動小数点値の指数部および小数部に対するビットの様々な割り当ても可能である。
量子化範囲516は、量子化器モジュール518に渡され、メタデータ125の一部として出力される。量子化器モジュール518は、各特徴マップを2段階でサンプル値に量子化する。まず、特徴マップが属する特徴マップグループの量子化範囲を用いて、特徴マップ値を正規化し、[-1,1]からの範囲の値を得る。第2に、正規化された特徴マップ値は、ビデオエンコーダ120のビット深度に対応するサンプル範囲にスケーリングされる。10ビット演算の場合、正規化された特徴マップは、特徴マップグループ512によって乗算され、次いで、特徴マップグループ512のオフセットが加算され、合計が整数精度に変換され、整数化された特徴マップ520として出力される。乗算および加算演算は所与の特徴マップグループの特徴マップの中で、最小または最大許容サンプル値(すなわち、10ビットビデオに対して0または1023)の少なくとも1つの値の利用をもたらす。ビデオデコーダ144の出力において生じ得るオーバーシュートに対するある程度の回復力を提供するために、正規化された特徴マップに適用される乗算係数は、クリッピングを導入することなく使用され得る可能な最大の乗算係数と比較して低減され得る。YCbCr色空間で表されるレギュラビデオの場合、16~235または8ビットビデオデータの「ビデオ範囲」と、10ビットビデオデータについて64~940の「ビデオ範囲」とが定義される。したがって、乗算係数を全値の7/8に低減することができ、結果として、YCbCrビデオデータのビデオ範囲に見られるような同様のサンプル範囲が得られる。結果として得られる乗算係数は、7/8×(1<<(bit_depth-1))となる。負のテンソル値を正の範囲にシフトするために使用されるオフセット係数は図6および図7を参照して説明されるように、イントラ予測のための利用不可能な参照サンプルのデフォルト予測子に対応する、中間点、すなわち1<<(bit_depth-1)に残される。量子化から生成される整数値が、フレーム内のサンプルのビット深度によって許容される範囲を超える場合、クリッピングが適用されて、整数値がフレーム内のサンプルのビット深度内に留まることを保証する。整数化された特徴マップ520はパッカモジュール522に渡され、それはパッキングフォーマットに従って配置された整数化された特徴マップ520の各特徴マップを含むパックされた特徴マップフレーム117を生成する。パッキングフォーマットは、図11~13を参照してさらに説明される。結果として得られるパックされた特徴マップフレーム117は、マルチプレクサ118を介してビデオエンコーダ120に渡される。
図6は、ビデオエンコーダ120の機能モジュールを示す概略ブロック図である。図7は、ビデオデコーダ144の機能モジュールを示す概略ブロック図である。一般に、データは、固定サイズのサブブロックへのブロックの分割など、サンプルまたは係数のグループ中で、またはアレイとして、ビデオエンコーダ120内の機能モジュールとビデオデコーダ144内の機能モジュールとの間を通過する。ビデオエンコーダ120およびビデオデコーダ144は図2Aおよび図2Bに示すように、汎用コンピュータシステム200を使用して実装され得り、様々な機能モジュールは、コンピュータシステム200内の専用ハードウェアによって、ハードディスクドライブ205上に常駐し、プロセッサ205によってその実行において制御されるソフトウェアアプリケーションプログラム233の1つまたは複数のソフトウェアコードモジュールなど、コンピュータシステム200内で実行可能なソフトウェアによって実装され得る。あるいは、ビデオエンコーダ120およびビデオデコーダ144が専用ハードウェアと、コンピュータシステム200内で実行可能なソフトウェアとの組合せによって実装され得る。ビデオエンコーダ120、ビデオデコーダ144、および説明される方法は代替的に、説明される方法の機能またはサブ機能を実行する1つまたは複数の集積回路など、専用ハードウェアにおいて実装され得る。そのような専用ハードウェアは、グラフィック処理ユニット(GPU)、デジタル信号プロセッサ(DSP)、特定用途向け標準製品(ASSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または1つもしくは複数のマイクロプロセッサおよび関連するメモリを含み得る。特に、ビデオエンコーダ120はモジュール610~690を備え、ビデオデコーダ144はモジュール720~796を備え、これらのモジュールはそれぞれ、ソフトウェアアプリケーションプログラム233の1つまたは複数のソフトウェアコードモジュールとして実装され得る。
図6のビデオエンコーダ120は汎用ビデオコーディング(VVC)ビデオ符号化パイプラインの一例であるが、本明細書で説明する処理ステージを実行するために他のビデオコーデックも使用され得る。ビデオエンコーダ120は一連のフレームなどのフレームデータ119を受信し、各フレームは、1つまたは複数のカラーチャネルを含む。フレームデータ119は使用中のプロファイルによってサポートされる任意のクロマフォーマットおよびビット深度、たとえば、8~10ビットのサンプル精度で、VVC規格の「Main 10」プロファイルに対して4:0:0、4:2:0であり得る。ブロックパーティショナ610は最初に、フレームデータ119を、形状が概ね正方形であり、CTUのための特定のサイズが使用されるように構成されたCTUに分割する。CTUの最大有効サイズはたとえば、「シーケンスパラメータセット」中に存在する「sps_log2_ctu_size_minus5」シンタックスエレメントによって構成される、32×32、64×64、または128×128ルマサンプルであり得る。CTUサイズはまた、さらなる分割を伴わないCTUが1つのCUを含むので、最大CUサイズを提供する。ブロックパーティショナ610はさらに、ルマコーディングツリーおよびクロマコーディングツリーに従って、各CTUを1つまたは複数のCBに分割する。ルマチャネルは、一次カラーチャネルと呼ばれることもある。各クロマチャネルは、二次カラーチャネルとも呼ばれ得る。CBは様々なサイズを有し、正方形と非正方形の両方のアスペクト比を含み得る。しかしながら、VVC規格ではCB、CU、PU、およびTUは常に2のべき乗である辺長を有する。したがって、612として表される現在のCBは、CTUのルマコーディングツリーおよびクロマコーディングツリーに従って、CTUの1つまたは複数のブロックにわたる反復に従って進行する、ブロックパーティショナ610から出力される。CUまたはCBは、四分木分割(親領域の2×2分割として配置された4つのサブ領域に分割)、2値(binary)分割(親領域の2つの等しいサイズのサブ領域に水平または垂直に分割)、および3値(ternary)分割(1:2:1の面積比を有する3つのサブ領域に水平または垂直に分割)を使用してCTUを再帰的に分割することによって生成される。
動作は概してCTUごとに説明されるが、ビデオエンコーダ120およびビデオデコーダ144はメモリ消費を低減するために、より小さいサイズの領域について動作し得る。たとえば、各CTUは、サイズ64×64の「仮想パイプラインデータユニット」(VPDU)として知られる、より小さい領域に分割され得る。VPDUはハードウェアアーキテクチャにおけるパイプライン処理により適したデータの粒度を形成し、メモリフットプリントの低減は、完全なCTUについての動作と比較して、シリコン面積、したがってコストを低減する。CTUサイズが128×128である場合、1つのVPDUの処理が次のVPDUに進む前に完全に完了されることを保証するために、許可されたコーディングツリーに対する制限が設けられる。例えば、128×128CTUのコーディングツリーのルートノードでは、結果として生じるCU(32×128/128×32など、またはそのさらなる分解)が1つの64×64領域から後続の64×64領域への必要な進行で処理され得ないので、三値分割は禁止される。CTUサイズが64×64である場合、エンコーダによって選択されたコーディングツリーにかかわらず、処理は次の64×64領域(すなわち、1つのCTUから次)に進む前に、必ず1つの64×64領域を完了する。
フレームデータ119の最初の分割から得られるCTUは、ラスタ走査順序で走査され得、1つまたは複数の「スライス」にグループ化され得る。スライスは、「イントラ」(または「I」)スライスであり得る。イントラスライス(Iスライス)は、スライス内のすべてのCUがイントラ予測されることを示す。一般に、コード化レイヤビデオシーケンス(CLVS)中の第1ピクチャはIスライスのみを含み、「イントラピクチャ」と呼ばれる。CLVSは「ランダムアクセスポイント」(すなわち、復号が開始され得るビデオシーケンス中の中間フレーム)を形成する、周期的なイントラピクチャを含み得る。代替として、スライスは、それぞれ、スライス中の単予測および双予測の追加の利用可能性を示す、単予測または双予測(それぞれ、「P」または「B」スライス)であり得る。
4:0:0以外のクロマフォーマットが使用されているとき、Iスライスでは、各CTUのコーディングツリーが64×64レベルより下で、1つはルマ用であり、別の1つはクロマ用である2つの別個のコーディングツリーに発散し得る。別個のツリーの使用は、CTUのルマ64×64エリア内のルマとクロマとの間に異なるブロック構造が存在することを可能にする。たとえば、大きいクロマCBは、多数のより小さいルマCBとコロケートされ得、逆もまた同様である。PまたはBスライスにおいて、CTUの単一のコーディングツリーは、ルマおよびクロマに共通のブロック構造を定義する。単一ツリーの結果として生じるブロックは、イントラ予測またはインター予測され得る。
各CTUについて、ビデオエンコーダ120は2つのステージで動作する。第1ステージ(「サーチ」ステージと呼ばれる)では、ブロックパーティショナ610がコーディングツリーの様々な潜在的な構成をテストする。コーディングツリーの各潜在的構成は、関連する「候補」CBを有する。第1ステージは比較的低い歪みで比較的高い圧縮効率を提供するCBを選択するために、様々な候補CBをテストすることを伴う。テストは一般に、ラグランジュ最適化を伴い、それによって、レート(すなわち、符号化コスト)および歪み(すなわち、入力フレームデータ119に対する誤差)の重み付けされた組合せに基づいて候補CBが評価される。「最良」候補CB(すなわち、評価されたレート/歪みが最も低いCB)が、ビットストリーム121への後続の符号化のために選択される。候補CBの評価に含まれるのは、所与のエリアに対してCBを使用するか、または様々な分割オプションに従ってエリアをさらに分割し、より小さい結果のエリアの各々をさらなるCBでコーディングするか、またはエリアをさらに分割するオプションである。結果として、コーディングツリーおよびCB自体の両方が、サーチステージにおいて選択される。
ビデオエンコーダ120はCB、たとえば、CB612ごとに、矢印620によって示される予測ブロック(PB)を生成する。PB620は、関連するCB612のコンテンツの予測である。減算器モジュール622はPB620とCB612との間に、624として示される差分(または、空間領域における差分を参照する「残差」)を生成する。差分624は、PB620およびCB612における対応するサンプル間のブロックサイズ差分である。差分624は、変換され、量子化され、矢印636によって示される変換ブロック(TB)として表される。PB620および関連するTB636は典型的にはたとえば、評価されたコストまたは歪みに基づいて、多くの可能な候補CBのうちの1つから選択される。
候補コーディングブロック(CB)は、関連付けられたPBおよび結果として生じる残差のためにビデオエンコーダ120に利用可能な予測モードのうちの1つから生じるCBである。TB636は、ビデオエンコーダ120中の予測されたPBと組み合わされると、ビットストリーム中の追加の信号を犠牲にして、復号されたCBとオリジナルのCB612との間の差を低減する。
したがって、各候補コーディングブロック(CB)、すなわち変換ブロック(TB)と組み合わせた予測ブロック(PB)は、関連するコーディングコスト(または「レート」)と、関連する差分(または「歪み」)とを有する。CBの歪みは、典型的には絶対差の和(SAD)、二乗差の和(SSD)、または差に適用されるアダマール変換など、サンプル値の差として推定される。各候補PBから結果として生じる推定は予測モード687を決定するために、差分624を使用してモードセレクタ686によって決定され得る。予測モード687は現在のCBのための特定の予測モード、たとえば、イントラフレーム予測またはインターフレーム予測を使用する決定を示す。各候補予測モードと対応する残差コーディングとに関連するコーディングコストの推定は、残差のエントロピーコーディングよりも著しく低いコストで実行され得る。したがって、いくつかの候補モードが、リアルタイムビデオエンコーダにおいてさえ、レート歪み検知において最適モードを決定するために評価され得る。
レート歪みに関して最適モードを決定することは、典型的にはラグランジュ最適化のバリエーションを使用して達成される。
ラグランジアンまたは同様の最適化処理は、(ブロックパーティショナ610による)CBへのCTUの最適なパーティショニングの選択、ならびに複数の可能性からの最良の予測モードの選択の両方に使用され得る。モード選択モジュール686における候補モードのラグランジュ最適化プロセスの適用を通して、最も低いコスト測定値を有するイントラ予測モードが「最良」モードとして選択される。最低コストモードは選択された二次変換インデックス688を含み、これはまた、エントロピーエンコーダ638によってビットストリーム121において符号化される。
ビデオエンコーダ120の動作の第2ステージ(「コーディング」ステージと呼ばれる)では、各CTUの決定されたコーディングツリーに対する反復がビデオエンコーダ120において実行される。別個のツリーを使用するCTUの場合、CTUの64×64ルマ領域ごとに、ルマコーディングツリーが最初に符号化され、次いでクロマコーディングツリーが符号化される。ルマコーディングツリー内ではルマCBのみが符号化され、クロマコーディングツリー内ではクロマCBのみが符号化される。共有ツリーを使用するCTUの場合、単一のツリーは共有ツリーの共通ブロック構造に従ってCU(すなわち、ルマCBおよびクロマCB)を記述する。
エントロピーエンコーダ638は、可変長および固定長コードワードを使用するシンタックスエレメントのビットワイズコーディングと、シンタックスエレメントのための算術コーディングモードとをサポートする。「パラメータセット」などのビットストリームの一部、例えば、シーケンスパラメータセット(SPS)およびピクチャパラメータセット(PPS)は、固定長コードワードと可変長コードワードとの組合せを使用する。連続部分とも呼ばれるスライスは、可変長コーディングを使用するスライスヘッダと、それに続く算術コーディングを使用するスライスデータを有する。スライスヘッダは、スライスレベルの量子化パラメータオフセットなど、現在のスライスに固有のパラメータを定義する。スライスデータは、スライス中の各CTUのシンタックスエレメントを含む。可変長符号化および算術符号化の使用は、ビットストリームの各部分内での逐次的な構文解析を必要とする。部分は、「ネットワーク抽象化レイヤユニット」または「NALユニット」を形成するための開始コードで区切られ得る。算術符号化は、コンテキスト適応型バイナリ算術符号化プロセスを使用してサポートされる。
算術的にコーディングされたシンタックスエレメントは、1つ以上の「ビン」のシーケンスからなる。ビンはビットと同様に、「0」または「1」の値を有する。しかしながら、ビンは、ディスクリートビットとしてビットストリーム121内に符号化されない。ビンは、関連する予測(または「可能性が高い」または「最も可能性が高い」)値と、「コンテキスト」として知られる関連する確率とを有する。コーディングされるべき実際のビンが予測値と一致するとき、「最確シンボル」(MPS)がコーディングされる。最も可能性の高いシンボルをコーディングすることは、ビットストリーム121内の消費ビットに関して比較的安価であり、1つ未満のディスクリートビットに相当するコストを含む。コーディングされる実際のビンが可能性のある値と一致しない場合、「最低確率シンボル」(LPS)がコーディングされる。最も可能性の低いシンボルをコーディングすることは、消費されるビットに関して比較的高いコストを有する。ビンコーディング技法は、「0」対「1」の確率が歪んでいるビンの効率的なコーディングを可能にする。2つの可能な値(すなわち、「フラグ」)を有するシンタックスエレメントについては、単一のビンが適切である。多くの可能な値を有するシンタックスエレメントの場合、ビンのシーケンスが必要とされる。
シーケンス中の後のビンの存在は、シーケンス中の前のビンの値に基づいて決定され得る。さらに、各ビンは、2つ以上のコンテキストに関連付けられ得る。特定のコンテキストの選択は、シンタックスエレメント中の以前のビン、隣接するシンタックスエレメントのビン値(すなわち、隣接するブロックからのもの)などに依存し得る。文脈コーディングされたビンが符号化されるたびに、そのビン(もしあれば)のために選択されたコンテキストは、新しいビン値を反映する方法で更新される。このように、バイナリ算術コーディング方式は、適応的であると言われる。
また、エントロピーエンコーダ638によってサポートされるのは、「バイパスビン」と呼ばれる、コンテキストを欠くビンである。バイパスビンは、「0」と「1」との間の等確率分布を仮定してコーディングされる。したがって、各ビンは、ビットストリーム121中の1ビットのコーディングコストを有する。コンテキストがないことはメモリを節約し、複雑さを低減し、したがって、バイパスビンは特定のビンの値の分布が歪まない場合に使用される。コンテキストおよび適応を使用するエントロピーコーダの一例はCABAC(コンテキスト適応型バイナリ算術コーダ)として当技術分野で知られており、このコーダの多くの変形例がビデオコーディングにおいて使用されている。
エントロピーエンコーダ638は量子化パラメータ692を符号化し、現在のCBのために使用されている場合、LFNSTインデックス388を、コンテキストコーディングされたビンとバイパスコーディングされたビンとの組合せを使用して符号化する。量子化パラメータ692は、「デルタQP」を使用して符号化される。デルタQPは、「量子化グループ」として知られる各エリアにおいて最大で1回シグナリングされる。量子化パラメータ692は、ルマCBの残差係数に適用される。調整された量子化パラメータが、コロケートされたクロマCBの残差係数に適用される。調整された量子化パラメータは、オフセットのリストから選択されたCUレベルオフセットおよびマッピングテーブルに従ってルマ量子化パラメータ692からマッピングすることを含み得る。二次変換インデックス688は、変換ブロックに関連する残差が二次変換の適用によって一次係数に変換される係数位置にのみ有意な残差係数を含むときにシグナリングされる。
マルチプレクサモジュール684は、各候補CBのテストされた予測モードから選択された、決定された最良のイントラ予測モードに従って、イントラフレーム予測モジュール664からPB620を出力する。候補予測モードは、ビデオエンコーダ120によってサポートされるすべての考えられる予測モードを含む必要はない。イントラ予測は3つのタイプに分けられ、第1に、「DCイントラ予測」はPBに、近くの再構成されたサンプルの平均を表す単一の値をポピュレートすることを伴い、第2に、「平面イントラ予測」はPBに、平面に従ってサンプルをポピュレートすることを伴い、DCオフセットおよび垂直および水平勾配は、近くの再構成された隣接するサンプルから導出される。近隣の再構成されたサンプルは、典型的にはある程度までPBの右に延在する現在のPBの上の再構成されたサンプルの行と、ある程度までPBを越えて下方に延在する、現在のPBの左に再構成されたサンプルの列と、特定の方向(または「角度」)にPBにわたってフィルタリングされ伝播された再構成された近隣のサンプルをPBにポピュレートすることを含む、第3の「角度イントラ予測」とを含む。VVCでは、65個の角度がサポートされ、矩形ブロックは合計87個の角度を生成するために、正方形ブロックには利用できない追加の角度を利用することができる。
クロマPBには第4のタイプのイントラ予測が利用可能であり、それによりPBは「クロスコンポーネント線形モデル」(CCLM)モードに従ってコロケートされたルマ再構成サンプルから生成される。3つの異なるCCLMモードが利用可能であり、各モードは、隣接するルマサンプルおよびクロマサンプルから導出された異なるモデルを使用する。導出されたモデルは、コロケートされたルマサンプルからクロマPBのためのサンプルのブロックを生成するために使用される。ルマブロックは、行列の事前定義されたセットから選択された1つの行列を使用して、参照サンプルの行列乗算を使用してイントラ予測され得る。この行列イントラ予測(MIP)はビデオデータの大きなセットについてトレーニングされた行列を使用することによって利得を達成し、行列は、角度、平面、またはDCイントラ予測モードでは容易に捕捉されない参照サンプルと予測ブロックとの間の関係を表す。
モジュール664はまた、「イントラブロックコピー」(IBC)方法を使用して現在のフレームの近くからブロックをコピーすることによって予測ユニットを生成し得る。参照ブロックのロケーションは、VPDUとして知られる64×64の領域に分割された1つのCTUに相当する領域に制約され、その領域は1つのCTUの領域制限まで、前のCTUのVPDUおよび現在のCTUの処理されたVPDUをカバーする。この領域は「IBC仮想バッファ」として知られており、IBC参照領域を制限し、したがって、必要とされる記憶を制限する。IBCバッファは再構成されたサンプル654でポピュレートされ(すなわち、ループフィルタリングの前に)、したがって、フレームバッファ672への別個のバッファが必要とされる。
特徴マップデータを符号化するときの予測ブロックの残差は、自然ビデオについて見られる残差とは異なる。そのような自然ビデオは典型的には、オペレーティングシステムのユーザインターフェースなどに一般に見られるように、画像センサまたはスクリーンコンテンツによってキャプチャされる。特徴マップ残差は多くの詳細を含む傾向があり、これは、様々な変換の主に低周波数係数よりも多くのコーディングをスキップする変換に適している。実験(Experiments)は、特徴マップ残差が変換コーディングから利益を得るのに十分なローカル類似性を有することを示す。しかしながら、特徴マップ残差係数の分布は、変換ブロックのDC(左上)係数に向かってクラスタ化されない。言い換えれば、特徴マップデータを符号化するときに変換が利得を示すのに十分な相関が存在し、これは、特徴マップデータの予測ブロックを生成するためにイントラブロックコピーが使用されるときにも当てはまる。したがって、アダマールコスト推定は、SADまたはSSDコスト推定のみに依存するのではなく、特徴マップデータを符号化するときに、イントラブロックコピーの候補ブロックベクトルから生じる残差を評価するときに使用され得る。SADまたはSSDコスト推定は、スキップコーディングを変換するのにより適した残差を有するブロックベクトルを選択する傾向があり、変換を使用してコンパクトに符号化される残差を有するブロックベクトルを見逃す可能性がある。VVC規格の多重変換選択(MTS)ツールはDCT-2変換に加えて、DST-7およびDCT-8変換の組合せが残差符号化のために水平および垂直に利用可能であるように、特徴マップデータを符号化するときに使用され得る。
イントラ予測されたルマコーディングブロックは垂直または水平のいずれかで、等しいサイズの予測ブロックのセットに区分され得、各ブロックは16個のルマサンプルの最小エリアを有する。このイントラサブパーティション(ISP)アプローチは、別個の変換ブロックがルマコーディングブロック中の1つのサブパーティションから次のサブパーティションへの予測ブロック生成に寄与することを可能にし、圧縮効率を改善する。
以前に再構成された隣接するサンプルが利用できない場合、例えば、フレームのエッジにおいて、サンプルの範囲の半分のデフォルトハーフトーン値が使用される。例えば、10ビットビデオの場合、512の値が使用される。フレームの左上位置に配置されたCBには以前のサンプルが利用可能ではないので、角度および平面イントラ予測モードはDC予測モード(すなわち、大きさとしてハーフトーン値を有するサンプルの平面)と同じ出力を生成する。
インターフレーム予測の場合、予測ブロック682は、動き補償モジュール680によってビットストリーム内のコーディング順序フレームにおいて現在のフレームに先行する1つまたは2つのフレームからのサンプルを使用して生成され、マルチプレクサモジュール684によってPB620として出力される。さらに、インターフレーム予測の場合、単一のコーディングツリーが典型的には、ルマチャネルとクロマチャネルの両方のために使用される。ビットストリーム中のフレームをコーディングする順序は、キャプチャまたは表示されたときのフレームの順序とは異なり得る。1つのフレームが予測のために使用されるとき、ブロックは「単予測」であると言われ、1つの関連する動きベクトルを有する。2つのフレームが予測のために使用されるとき、ブロックは「双予測」であると言われ、2つの関連する動きベクトルを有する。Pスライスの場合、各CUは、イントラ予測または単予測され得る。Bスライスの場合、各CUは、イントラ予測、単予測、または双予測され得る。
フレームは、典型的には「ピクチャのグループ」構造を使用してコーディングされ、フレームの時間的階層を可能にする。フレームは複数のスライスに分割され得、スライスの各々はフレームの一部分を符号化する。フレームの時間的階層は、フレームを表示する順序で、フレームが前後のピクチャを参照することを可能にする。画像は、各フレームを復号するための依存性が満たされることを保証するために必要な順序でコーディングされる。予測ユニットのための参照サンプルブロックを選択およびフィルタリングするために1つまたは2つの動きベクトルを使用する代わりに、予測ユニットは複数のより小さいブロックに分割され、動きフィールドが生成され、したがって、各々のより小さいブロックは別個の動きベクトルを有するアフィンインター予測モードが利用可能である。動きフィールドは、予測ユニットの近くの点の動きベクトルを「制御点」として使用する。アフィン予測は深く分割されたコーディングツリーを使用する必要性がより少ない、異なる変換への動きのコーディングを可能にする。VVCに利用可能な双予測モードは、シグナリングされたブロックの中心からの角度およびオフセットを有する、選択された軸に沿った2つの参照ブロックの幾何学的ブレンドを実行する。この幾何学的分割モード(「GPM」)は、コーディングユニットのためにコーディングされた境界のジオメトリを角度および中心オフセットとして、2つのオブジェクト間の境界に沿ってより大きいコーディングユニットを使用することを可能にする。デカルト(x、y)オフセットを使用する代わりに、動きベクトル差は、サポートされる2の累乗距離のセットを用いて、方向(上/下/左/右)および距離としてコーディングされ得る。動きベクトル予測子は、オフセットが適用されないかのように、隣接ブロック(「マージモード」)から取得される。現在のブロックは、選択された隣接ブロックと同じ動きベクトルを共有する。
サンプルは、動きベクトル678および参照ピクチャインデックスに従って選択される。動きベクトル678および参照ピクチャインデックスは、すべてのカラーチャネルに適用され、したがって、インター予測はPBではなくPUでの動作に関して主に説明される。各CTUの1つまたは複数のインター予測ブロックへの分解は、単一のコーディングツリーを用いて説明される。インター予測方法は、動きパラメータの数およびそれらの精度において変化し得る。動きパラメータは典型的には参照フレームのリストからのどの参照フレームが使用されるべきかを示す参照フレームインデックスと、参照フレームの各々のための空間変換とを備えるが、より多くのフレーム、専用のフレーム、またはスケーリングおよび回転などの複雑なアフィンパラメータを含み得る。加えて、参照されたサンプルブロックに基づいて密な動き推定を生成するために、所定の動き精緻化処理が適用され得る。
PB620を決定して選択し、減算器622で元のサンプルブロックからPB620を減算すると、624として表される最も低いコーディングコストを有する残差が得られ、非可逆圧縮を受ける。非可逆圧縮プロセスは、変換、量子化、およびエントロピーコーディングのステップを含む。順方向一次変換モジュール626は差分624に順方向変換を適用し、差分624を空間領域から周波数領域に変換し、矢印628によって表される一次変換係数を生成する。一次元における最大の一次変換サイズは、シーケンスパラメータセット中の「sps_max_luma_transform_size_64_flag」によって構成される32ポイントDCT-2または64ポイントDCT-2変換のいずれかである。符号化されているCBがブロックサイズ(たとえば、64×64または32×32)として表される最大のサポートされる一次変換サイズよりも大きい場合、一次変換626は、差分624のすべてのサンプルを変換するためにタイル方式で適用される。非正方形CBが使用される場合、タイリングはまた、CBの各寸法において最大の利用可能な変換サイズを使用して実行される。たとえば、32の最大変換サイズが使用されるとき、64×16CBは、タイル方式で構成された2つの32×16一次変換を使用する。CBが最大サポート変換サイズよりもサイズが大きいとき、CBはタイル状にTBで埋められる。例えば、64-pt変換最大サイズを有する128×128CBは、2×2配置で4つの64×64TBで埋められる。32-pt変換最大サイズを有する64×128CBは、2×4配置で8つの32×32TBで埋められる。
変換626の適用は、CBのための複数のTBをもたらす。変換の各アプリケーションが32×32よりも大きい差分624、例えば、64×64のTBに対して動作する場合、TBの左上の32×32エリアの外側のすべての結果として生じる一次変換係数628はゼロに設定される(すなわち、破棄される)。残りの一次変換係数628は、量子化器モジュール634に渡される。一次変換係数628は、CBに関連する量子化パラメータ692に従って量子化されて、一次変換係数632を生成する。量子化パラメータ692に加えて、量子化器モジュール634はまた、TB内のそれらの空間位置に従って残差係数をさらにスケーリングすることによって、TB内の不均一量子化を可能にするために「スケーリングリスト」を適用し得る。量子化パラメータ692は、ルマCB対各クロマCBについて異なり得る。一次変換係数632は、順方向二次変換モジュール630に渡され、非分離可能二次変換(NSST)動作を実行するか、または二次変換をバイパスすることによって、矢印636によって表される変換係数を生成する。順方向一次変換は典型的には分離可能であり、行のセット、次いで、各TBの列のセットを変換する。順方向一次変換モジュール626は、水平方向および垂直方向におけるタイプII離散コサイン変換(DCT-2)、または水平方向および垂直方向における変換のバイパス、または幅および高さが16サンプルを超えないルマTBについて水平方向または垂直方向におけるタイプVII離散サイン変換(DST-7)とタイプVIII離散コサイン変換(DCT-8)との組合せのいずれかを使用する。DST-7とDCT-8との組み合わせの使用は、VVC規格において「多重変換選択セット」(MTS)と呼ばれる。
モジュール630の順方向二次変換は概して、非分離可能変換であり、それは、イントラ予測されたCUの残差に対してのみ適用され、それにもかかわらず、バイパスされ得る。順方向二次変換は、16個のサンプル(一次変換係数628の左上の4×4サブブロックとして構成される)または48個のサンプル(一次変換係数628の左上の8×8係数において3つの4×4サブブロックとして構成される)のいずれかに対して動作して、二次変換係数のセットを生成する。二次変換係数のセットは、それらが導出される一次変換係数のセットよりも数が少なくてもよい。互いに隣接し、DC係数を含む係数のセットのみに二次変換を適用することにより、二次変換は、「低周波数非分離可能二次変換」(LFNST)と呼ばれる。さらに、LFNSTが適用されるとき、TB中のすべての残りの係数は、一次変換領域および二次変換領域の両方において、ゼロである。
量子化パラメータ692は、所与のTBについて一定であり、したがって、TBについての一次変換領域における残差係数の生成のための均一なスケーリングをもたらす。量子化パラメータ692は、シグナリングされた「デルタ量子化パラメータ」とともに周期的に変化し得る。デルタ量子化パラメータ(デルタQP)は、「量子化グループ」と呼ばれる、所与のエリア内に含まれるCUについて1回シグナリングされる。CUが量子化グループサイズよりも大きい場合、デルタQPは、CUのTBのうちの1つを用いて1回シグナリングされる。すなわち、デルタQPは、CUの第1量子化グループについて1回エントロピーエンコーダ638によってシグナリングされ、CUの任意の後続の量子化グループについてはシグナリングされない。「量子化行列」を適用することによって、不均一なスケーリングも可能であり、それによって、各残差係数に適用されるスケーリング係数は、量子化パラメータ692と、スケーリング行列における対応するエントリとの組合せから導出される。スケーリング行列はTBのサイズよりも小さいサイズを有することができ、TBに適用されるとき、TBサイズよりも小さいサイズのスケーリング行列からの各残差係数のためのスケーリング値を提供するために、最近傍アプローチが使用される。残差係数636は、ビットストリーム121における符号化のためにエントロピーエンコーダ638に供給される。典型的には、TUの少なくとも1つの有意な残差係数を有する各TBの残差係数が走査パターンに従って、値の順序付けられたリストを生成するために走査される。走査パターンは一般に、4×4「サブブロック」のシーケンスとしてTBを走査し、4×4セットの残差係数の粒度で規則的な走査動作を提供し、サブブロックの配置は、TBのサイズに依存する。各サブブロック内の走査および1つのサブブロックから次のサブブロックへの進行は、典型的には後方斜め走査パターンに従う。さらに、量子化パラメータ692はデルタQPシンタックスエレメントを使用してビットストリーム121に符号化され、二次変換インデックス688はビットストリーム121に符号化される。
上述したように、ビデオエンコーダ120は、ビデオデコーダ144に見られる復号されたフレーム表現に対応するフレーム表現にアクセスする必要がある。したがって、残差係数636は逆二次変換モジュール644を通過し、二次変換インデックス688に従って動作して、矢印642によって表される中間逆変換係数を生成する。中間逆変換係数642は、量子化パラメータ692に従って逆量子化器モジュール640によって逆量子化され、矢印646によって表される逆変換係数を生成する。逆量子化器モジュール640はまた、量子化器モジュール634において実行される順方向スケーリングに対応する、スケーリングリストを使用して残差係数の逆不均一スケーリングを実行し得る。逆変換係数646は、逆一次変換モジュール648に渡されて、TUの、矢印650によって表される残差サンプルを生成する。逆一次変換モジュール648は順方向一次変換モジュール626を参照して説明したように、最大の利用可能な変換サイズによって制約されて、DCT-2変換を水平および垂直に適用する。逆二次変換モジュール644によって実行される逆変換のタイプは、順方向二次変換モジュール630によって実行される順方向変換のタイプに対応する。逆一次変換モジュール648によって実行される逆変換のタイプは、一次変換モジュール626によって実行される一次変換のタイプに対応する。加算モジュール652は、残差サンプル650およびPU620を加算して、CUの再構成されたサンプル(矢印654によって示される)を生成する。
再構成されたサンプル654は、参照サンプルキャッシュ656およびループ内フィルタモジュール668に渡される。典型的には、コストのかかるオフチップメモリアクセスを回避するためにASIC上のスタティックRAMを使用して実装される参照サンプルキャッシュ656は、フレーム内の後続のCUのためのイントラフレームPBを生成するための依存性を満たすために必要とされる最小限のサンプル記憶を提供する。最小依存性は、典型的にはCTUの次の行による使用のためのCTUの行の底部に沿ったサンプルの「ラインバッファ」と、CTUの高さによってその範囲が設定される列バッファリングとを含む。参照サンプルキャッシュ656は、参照サンプル(矢印658によって表される)を参照サンプルフィルタ660に供給する。サンプルフィルタ660は、平滑化演算を適用して、フィルタリングされた参照サンプルを生成する(矢印662によって示される)。フィルタリングされた参照サンプル662は、イントラフレーム予測モジュール664によって使用されて、矢印666によって表される、サンプルのイントラ予測されたブロックを生成する。各候補イントラ予測モードについて、イントラフレーム予測モジュール664は、サンプルのブロック、すなわち666を生成する。サンプルのブロック666は、DC、平面、または角度イントラ予測などの技法を使用して、モジュール664によって生成される。サンプルのブロック666はまた、入力として隣接する参照サンプルを用いる行列乗算アプローチと、ビデオエンコーダ120によって行列のセットから選択された行列とを使用して生成され得、選択された行列は、インデックスを使用してビットストリーム120中でシグナリングされ、行列のセットのどの行列がビデオデコーダ144によって使用されるべきかを識別する。
ループ内フィルタモジュール668は、再構成されたサンプル654にいくつかのフィルタリングステージを適用する。フィルタリングステージは、不連続性に起因するアーチファクトを低減するためにCU境界に整列された平滑化を適用する「デブロッキングフィルタ」(DBF)を含む。デブロッキングフィルタはブロック境界に沿って不整列境界を引き起こす変換基底関数から生じるコーディングアーチファクトが見られ得るブロックエッジを平滑化し、そのようなアーチファクトは、量子化パラメータ692のより高い値においてより可視である。量子化パラメータ692のより低い値では、デブロッキングフィルタのフィルタリング強度が低減される。ループ内フィルタモジュール668に存在する別のフィルタリングステージは「適応ループフィルタ」(ALF)であり、これは、ウィナーベースの適応フィルタを適用して、歪みをさらに低減する。ループ内フィルタモジュール668においてさらに利用可能なフィルタリングステージは、「サンプル適応オフセット」(SAO)フィルタである。SAOフィルタは最初に、再構成されたサンプルを1つまたは複数のカテゴリに分類し、割り当てられたカテゴリに従って、サンプルレベルでオフセットを適用することによって動作する。
矢印670によって表されるフィルタリングされたサンプルは、ループ内フィルタモジュール668から出力される。フィルタリングされたサンプル670は、フレームバッファ672に格納される。フレームバッファ672は典型的にはいくつかの(たとえば、最大16個の)ピクチャを記憶する容量を有し、したがって、メモリ206に記憶される。フレームバッファ672は典型的には、必要とされる大きなメモリ消費のために、オンチップメモリを使用して記憶されない。したがって、フレームバッファ672へのアクセスは、メモリ帯域幅の点でコストがかかる。フレームバッファ672は、参照フレーム(矢印674によって表される)を動き推定モジュール676および動き補償モジュール680に提供する。
動き推定モジュール676は(678として示される)いくつかの「動きベクトル」を推定し、各々は現在のCBの位置からのデカルト空間オフセットであり、フレームバッファ672中の参照フレームのうちの1つの中のブロックを参照する。参照サンプルのフィルタリングされたブロック(682として表される)が、動きベクトルごとに生成される。フィルタリングされた参照サンプル682は、モードセレクタ686による潜在的な選択のために利用可能なさらなる候補モードを形成する。さらに、所与のCUについて、PU620は、1つの参照ブロック(「単予測された」)を使用して形成され得るか、または2つの参照ブロック(「双予測された」)を使用して形成され得る。選択された動きベクトルについて、動き補償モジュール680は、動きベクトルにおけるサブピクセル精度をサポートするフィルタリング処理に従ってPB620を生成する。したがって、(多くの候補動きベクトルに対して動作する)動き推定モジュール676は、(選択された候補のみに対して動作する)動き補償モジュール680のものと比較して簡略化されたフィルタリング処理を実行して、低減された計算量を達成することができる。ビデオエンコーダ120がCUのためのインター予測を選択するとき、動きベクトル678はビットストリーム121に符号化される。
図6のビデオエンコーダ120は汎用ビデオコーディング(VVC)を参照して説明されるが、他のビデオコーディング規格または実装形態はまた、モジュール610~690の処理ステージを採用し得る。フレームデータ119(およびビットストリーム121)はまた、メモリ206、ハードディスクドライブ210、CD-ROM、ブルーレイディスクTM、または他のコンピュータ可読記憶媒体から読み出される(またはに対して書き込まれる)ことができる。さらに、フレームデータ119(およびビットストリーム121)は、通信ネットワーク220または無線周波数受信機に接続されたサーバなどの外部ソースから受信(または外部ソースに送信)され得る。通信ネットワーク220は制限された帯域幅を提供することができ、フレームデータ119を圧縮することが困難なときにネットワークを飽和させることを回避するために、ビデオエンコーダ120におけるレート制御の使用を必要とする。さらに、ビットストリーム121は、プロセッサ205の制御下で協調的に動作する、ビデオエンコーダ120の1つまたは複数のインスタンスによって生成された、フレームデータ119の空間セクション(CTUのコレクション)を表す1つまたは複数のスライスから構築され得る。
ビデオデコーダ144は図7に示される。図7のビデオデコーダ144は汎用ビデオコーディング(VVC)ビデオ復号パイプラインの一例であるが、本明細書で説明する処理ステージを実行するために他のビデオコーデックも使用され得る。図7に示すように、ビットストリーム143は、ビデオデコーダ144に入力される。ビットストリーム143は、メモリ206、ハードディスクドライブ210、CD-ROM、ブルーレイディスクTM、または他の非一時的コンピュータ可読記憶媒体から読み出され得る。あるいは、ビットストリーム143が通信ネットワーク220または無線周波数受信機に接続されたサーバなどの外部ソースから受信されてもよい。ビットストリーム143は、復号されるべきキャプチャされたフレームデータを表す符号化されたシンタックスエレメントを含む。
ビットストリーム143は、エントロピーデコーダモジュール720に入力される。エントロピーデコーダモジュール720は「ビン」のシーケンスを復号することによってビットストリーム143からシンタックスエレメントを抽出し、シンタックスエレメントの値をビデオデコーダ144内の他のモジュールに渡す。エントロピーデコーダモジュール720は可変長および固定長復号を使用して、算術復号エンジン、SPS、PPS、またはスライスヘッダを復号し、スライスデータのシンタックスエレメントを1つまたは複数のビンのシーケンスとして復号する。各ビンは1つまたは複数の「コンテキスト」を使用することができ、コンテキストは、ビンの「1」値および「0」値をコーディングするために使用される確率レベルを記述する。所与のビンについて複数のコンテキストが利用可能である場合、「コンテキストモデリング」または「コンテキスト選択」ステップが実行されて、ビンを復号するために利用可能なコンテキストのうちの1つが選択される。ビンを復号するプロセスは順次フィードバックループを形成し、したがって、各スライスは、所与のエントロピーデコーダ720のインスタンスによってスライス全体において復号され得る。単一の(または少数の)高性能エントロピーデコーダ720インスタンスはビットストリーム143からのフレームのすべてのスライスを復号することができ、複数の低性能エントロピーデコーダ720インスタンスは、ビットストリーム143からのフレームのスライスを同時に復号することができる。
エントロピーデコーダモジュール720は、算術符号化アルゴリズム、例えば「コンテキスト適応型バイナリ算術符号化」(CABAC)を適用して、ビットストリーム143からシンタックスエレメントを復号する。復号されたシンタックスエレメントは、ビデオデコーダ144内のパラメータを再構成するために使用される。パラメータは、残差係数(矢印724によって表される)、量子化パラメータ774、二次変換インデックス770、およびイントラ予測モード(矢印758によって表される)などのモード選択情報を含む。モード選択情報はまた、動きベクトル、および各CTUの1つまたは複数のCBへの区分などの情報を含む。パラメータはPBを生成するために使用され、典型的には以前に復号されたCBからのサンプルデータと組み合わせられる。
残差係数724は、逆二次変換モジュール736に渡され、二次変換インデックスに従って、二次変換が適用されるか、または動作が実行されない(バイパス)。逆二次変換モジュール736は二次変換領域係数から、再構成された変換係数732、すなわち一次変換領域係数を生成する。再構成された変換係数732は、逆量子化器モジュール728に入力される。逆量子化器モジュール728は量子化パラメータ774に従って、矢印740によって表される、再構成された中間変換係数を作成するために、残差係数732、すなわち、一次変換係数領域において、逆量子化(または「スケーリング」)を実行する。逆量子化器モジュール728はまた、スケーリング行列を適用して、逆量子化器モジュール640の動作に対応する、TB内の不均一な逆量子化を提供し得る。不均一逆量子化行列を使用することがビットストリーム143に示される場合、ビデオデコーダ144はビットストリーム143から量子化行列をスケーリングファクタのシーケンスとして読み出し、スケーリングファクタを行列に配置する。逆スケーリングは、量子化パラメータと組み合わせて量子化行列を使用して、再構成された中間変換係数740を作成する。
再構成された変換係数740は、逆一次変換モジュール744に渡される。モジュール744は、係数740を周波数領域から空間領域に戻すように変換する。逆一次変換モジュール744は順方向一次変換モジュール626を参照して説明したように、最大利用可能変換サイズによって制約された、逆DCT-2変換を水平および垂直に適用する。モジュール744の動作の結果は、矢印748によって表される残差サンプルのブロックである。残差サンプル748のブロックのサイズは、対応するCBに等しい。残差サンプル748は、加算モジュール750に供給される。
加算モジュール750において、残差サンプル748は、復号されたPB(752として表される)に加算されて、矢印756によって表される、再構成されたサンプルのブロックを生成する。再構成されたサンプル756は、再構成されたサンプルキャッシュ760およびループ内フィルタリングモジュール788に供給される。ループ内フィルタリングモジュール788は、792として表される、フレームサンプルの再構成されたブロックを生成する。フレームサンプル792は、フレームバッファ796に書き込まれる。
再構成されたサンプルキャッシュ760は、ビデオエンコーダ120の再構成されたサンプルキャッシュ656と同様に動作する。再構成されたサンプルキャッシュ760はメモリ206なしで後続のCBをイントラ予測するのに必要な再構成されたサンプルのための記憶を提供する(例えば、典型的にはオンチップメモリであるデータ232を代わりに使用することによって)。矢印764によって表される参照サンプルは、再構成されたサンプルキャッシュ760から取得され、参照サンプルフィルタ768に供給されて、矢印772によって示されるフィルタリングされた参照サンプルを生成する。フィルタリングされた参照サンプル772は、イントラフレーム予測モジュール776に供給される。モジュール776は、ビットストリーム143においてシグナリングされ、エントロピーデコーダ720によって復号されたイントラ予測モードパラメータ758に従って、矢印780によって表されるイントラ予測サンプルのブロックを生成する。イントラ予測モジュール776は、IBCおよびMIPを含むモジュール664のモードをサポートする。サンプル780のブロックは、DC、平面、または角度イントラ予測などのモードを使用して生成される。
CBの予測モードがビットストリーム143においてイントラ予測を使用するように示されるとき、イントラ予測サンプル780は、マルチプレクサモジュール784を介して復号PB752を形成する。イントラ予測はサンプルの予測ブロック(PB)を生成し、これは、同じ色成分における「隣接サンプル」を使用して導出される、1つの色成分におけるブロックである。隣接サンプルは現在のブロックに隣接するサンプルであり、ブロック復号順序に先行することによって、すでに再構成されている。ルマブロックとクロマブロックとがコロケートされる場合、ルマブロックとクロマブロックとは異なるイントラ予測モードを使用し得る。しかしながら、2つのクロマCBは、同じイントラ予測モードを共有する。
CBの予測モードがビットストリーム143内のインター予測であると示されるとき、動き補償モジュール734は、738として表されるインター予測サンプルのブロックを生成する。インター予測サンプル738のブロックは、エントロピーデコーダ720によってビットストリーム143から復号された動きベクトルと、フレームバッファ796からサンプル798のブロックを選択およびフィルタリングするための参照フレームインデックスとを使用して生成される。サンプル798のブロックは、フレームバッファ796に記憶された以前に復号されたフレームから取得される。双予測の場合、サンプルの2つのブロックが生成され、一緒にブレンドされて、復号されたPB752のためのサンプルが生成される。フレームバッファ796は、ループ内フィルタリングモジュール788からのフィルタリングされたブロックデータ792でポピュレートされる。ビデオエンコーダ120のループ内フィルタリングモジュール668と同様に、ループ内フィルタリングモジュール788は、DBF、ALF、およびSAOフィルタリング動作のいずれかを適用する。一般に、動きベクトルはルマチャネルとクロマチャネルの両方に適用されるが、ルマチャネルとクロマチャネルにおけるサブサンプル補間のためのフィルタリング処理は異なる。
図6および図7には示されていないが、各クロマチャネル内のサンプル値の範囲のより均一な使用が達成されるようにサンプル値をシフトするために、符号化前にビデオを前処理し、復号後にビデオを後処理するためのモジュールである。マルチセグメント線形モデルは、ビデオエンコーダ120において導出され、サンプルシフトを取り消すためにビデオデコーダ144によって使用するためにビットストリームにおいてシグナリングされる。この線形モデルクロマスケーリング(LMCS)ツールは、量子化の適用からより高い品質損失をもたらし得るサンプル空間の利用において、ある程度の不均一性、特に限られた範囲の利用を有する特定の色空間およびコンテンツに対して圧縮利点を提供する。
図8は、分散マシンタスクシステム100の一部としての特徴マップ逆量子化器およびアンパッカ148を示す概略ブロック図である。復号されたフレーム147はアンパッカーモジュール810に入力され、ここで特徴マップはパッキングフォーマットに従って各フレームから抽出されて、アンパックされた特徴マップ812を生成する。アンパックされた特徴マップ812は、復号されたフレーム147に存在するサンプル値を含む。パッキングフォーマットは、図11~13を参照してさらに説明される。アンパックされた特徴マップ812内の特徴マップのセットは各特徴マップが1つのグループに属し、1つまたは複数のグループが特徴マップグループ820内に示されるように、復号されたメタデータ155から取得された特徴マップグループ820に従ってグループに割り当てられる。逆量子化器814は、次いで、スケーリングを実行して、アンパックされた特徴マップ812中に存在する整数サンプル値をテンソル149中に存在する浮動小数点値に変換する。スケーリングは、特徴マップのグループに対して量子化範囲を使用する。量子化範囲は、復号されたメタデータ155から抽出された量子化範囲822から得られる。量子化範囲は、対応するグループに属する特徴マップに見られる任意の浮動小数点値の最大の大きさを指定する。逆量子化器814は各グループの特徴マップ812からのサンプルを、検出された最大振幅値の符号が正または負であることに応じて、ゼロを中心とし、1または-1に達する範囲に正規化する。正および負の値が等しい最大の大きさを有するまれな場合には、[-1,1]の範囲が観察される。次いで、特徴マップのグループの正規化されたサンプルは、特徴マップのグループの量子化範囲と乗算(スケーリング)される。
特徴マップの全てのグループがスケーリングされると、結果はテンソル149の形式の中間データとして出力される。テンソル149は例えば、CNNバックボーン114がFPNを含むとき、各々が異なる空間分解能を有する複数のテンソルを含み得る。ゼロ中心線形対称量子化処理を使用することに加えて、他の量子化処理も可能である。たとえば、正および負の量子化範囲が各特徴マップグループに対してシグナリングされる非対称アプローチが使用され得る。正および負の量子化範囲は、特徴のグループの浮動小数点値によって利用される範囲を、サンプルのビット深度によって与えられる完全なサンプル範囲にマッピングし、これは、もはやゼロ浮動小数点値に対応することが保証されないサンプル範囲の中点として非対称量子化をもたらす。SEIメッセージ1413内の「quant_type」シンタックスエレメントは量子化アプローチを選択し、付録Aを参照して説明される。
特徴マップの所与のグループの量子化範囲はグループの特徴マップ内の値から導出されるが、量子化範囲はグループの特徴マップ内の値と同じデータタイプを保持する必要がある。より粗い浮動小数点精度が使用され得、オリジナルの浮動小数点フォーマット(例えば、32ビットIEEE754フォーマット)で表現されたときの範囲が縮小されないように、丸めが適用される。例えば、ステップ1550において、より粗い浮動小数点精度を上向き丸めて使用することができる。上向きの丸めは定数値εを量子化範囲qrに加算することによって達成され得、調整された量子化範囲qradjustを生成し、ε=2floor(log2(qr))/2fract_precであり、ここで、frac_precは保存すべき小数ビットの個数であり、「floor」演算子は次に負の整数に向かって丸められる。次に、qradjustの小数部分のfract_prec左端ビットがSEIメッセージに取り込まれ、コーディングされ、残りのビットは切り捨てられ、qradjustはqrよりも小さい値にならない。小数部分に割り当てられるビットに関する量子化範囲の精度は付録Aを参照して説明される「qr_fraction_precision」シンタックスエレメントを使用して選択される。qr_fraction_precision(fract_prec)を5に設定することにより、量子化範囲を正確に設定することができ、オリジナルの浮動小数点値の小数精度と比較して、すなわち、小数精度を5ビットに低減する前に、~3%の最悪の場合の増加を伴う。量子化範囲の仮数を生成するために、先頭の「1」が小数部分に付加される(すなわち、量子化範囲は「非正規」値でなくてもよい)。量子化範囲は常に正であるので、量子化範囲ごとに符号ビットを符号化する必要はない。量子化範囲は、1より大きくても1より小さくてもよいので、量子化範囲指数に対する符号ビットが必要とされる。システム100のアレンジメントでは、1.0未満の量子化範囲は許可されず、量子化指数符号ビットはSEIメッセージ1413から省略され得る。量子化指数符号ビットがコーディングされない場合、量子化範囲決定モジュール514において、1.0未満の量子化範囲が値1.0にクリップされる。
逆量子化器モジュール814および量子化器モジュール518の動作が「量子化」と呼ばれるにもかかわらず、モジュール518および814の動作は、量子化パラメータの使用を伴う、ビデオエンコーダ120およびビデオデコーダ144の量子化動作とは異なる。さらに、モジュール518および814の動作は、テンソルの浮動小数点ドメインとフレームのサンプルドメインとの間の変換を伴う、トーンマッピング動作の一形態と見なされ得る。広範囲のサンプル値空間を利用する目的で、スケーリング(すなわち、特徴マップの各グループの量子化範囲を介して)があるが、量子化器ステップサイズをさらに変更するためにモジュール518および814に適用可能な量子化パラメータはない。
図9Aは、物体検出のためのCNNのヘッド部分150を示す概略ブロック図である。宛先デバイス140において実行されるべきタスクに応じて、CNNヘッド150の代わりに異なるネットワークを使用することができる。入力テンソル149は各レイヤのテンソル(すなわち、テンソル910、920、および934)に分離される。テンソル910はCBLモジュール912に渡されてテンソル914を生成し、検出モジュール916およびアップスケーラモジュール922に渡される。検出テンソルの形式のバウンディングボックス918は、非最大抑制(NMS)モジュール948に渡され、検出結果151を生成する。オリジナルのビデオデータ113内の座標をアドレス指定するバウンディングボックスを生成するために、ネットワーク114のバックボーン部分のサイズ変更の前に、オリジナルのビデオ幅および高さによるスケーリングが実行される(「orig_source_width」および「orig_source_height」参照、SEIメッセージ1413から復号され、付録Aを参照して説明される)。アップスケーラモジュール922はアップスケールされたテンソル924を生成し、これは、CBLモジュール926に渡され、出力としてテンソル928を生成する。テンソル928は、検出モジュール930およびアップスケーラモジュール936に渡される。検出モジュール930は、NMSモジュール948に供給される検出テンソル932を生成する。アップスケーラモジュール936はモジュール960の別のインスタンスであり、アップスケールされたテンソル938を出力する。アップスケールされたテンソル938はCBLモジュール940に渡され、CBLモジュールはテンソル942を検出モジュール944に出力する。CBLモジュール912、926、および940はそれぞれ、5つのCBLモジュールの連結を含む。アップスケーラモジュール922および936はそれぞれ、図9Bに示されるようなアップスケーラモジュール960のインスタンスである。
アップスケーラモジュール960は、テンソル962を入力として受け付け、テンソル968を生成するためにCBLモジュール966に渡される。テンソル968はアップサンプリングされたテンソル972を生成するために、アップサンプラ970に渡される。連結モジュール974は、アップサンプリングされたテンソル972を入力テンソル964と連結することによって、テンソル976を生成する。検出モジュール916、930、および944は、図9Cに示されるような検出モジュール980のインスタンスである。検出モジュール960はテンソル982を受信し、CBLモジュール984に渡されてテンソル986を生成する。テンソル986は、検出カーネルを実装する畳み込みモジュール988に渡される。検出カーネル1×1カーネルは、3つのレイヤにおける特徴マップの出力を生成するために適用される。検出カーネルは1×1×(Bx(5+C))であり、ここで、Bは特定のセルが予測することができるバウンディングボックスの数であり、典型的には3であり、Cは80であり得るクラスの数であり、255の検出属性(すなわち、テンソル990)のカーネルサイズをもたらす。定数「5」は、4つの境界ボックス属性(ボックス中心x、yおよびサイズスケールx、y)および1つのオブジェクト信頼レベル(「オブジェクト性」)を表す。検出カーネルの結果は入力特徴マップと同じ空間次元を有するが、出力の深さは検出属性に対応する。検出カーネルは、各レイヤ、典型的には3つのレイヤに適用され、多数の候補バウンディングボックスをもたらす。非最大抑制のプロセスはNMSモジュール948によって、結果として得られるバウンディングボックスに適用され、類似のスケールでの重複予測などの冗長ボックスを破棄し、結果として、オブジェクト検出のための出力としてバウンディングボックスの最終セットをもたらす。
図10は、CNNの代替ヘッド部分1000を示す概略ブロック図である。ヘッド部分1000は「faster RCNN」として知られる全体的なネットワークの一部を形成し、特徴ネットワーク(すなわち、バックボーン部分400)、領域提案ネットワーク、および検出ネットワークを含む。ヘッド部分1000への入力は、P2-P6レイヤテンソル1010、1012、1014、1016、および1018を含むテンソル149である。P2-P6テンソル1010、1012、1014、1016、および1018は、領域提案ネットワーク(RPN)ヘッドモジュール1020に入力される。RPNヘッドモジュール1020は入力テンソルに対して畳み込みを実行し、2つの後続の兄弟レイヤに供給される中間テンソルを生成し、1つは分類のためのものであり、1つはバウンディングボックスのためのものであり、または「注目領域」(ROI)のためのものであり、分類およびバウンディングボックス1022として回帰する。分類およびバウンディングボックス1022はNMSモジュール1024に渡され、それはより低いスコアを有する重複ボックスを除去することによって、冗長なバウンディングボックスを刈り取って、刈り取られたバウンディングボックス1026を生成する。バウンディングボックス1026は、注目領域(ROI)プーラ1028に渡される。ROIプーラ1028は最大プーリング動作を使用して、様々な入力サイズマップから固定サイズ特徴マップを生成し、サブサンプリングは、入力値の各グループ内の最大値を取って、出力テンソル内に1つの出力値を生成する。
ROIプーラ1028への入力は、P2-P5特徴マップ1010、1012、1014、および1016、ならびに注目領域提案1026である。1026からの各提案(ROI)は固定サイズのマップを生成するために、特徴マップ(1010~1016)の一部分に関連付けられる。固定サイズのマップは、特徴マップ1010~1016の基礎となる部分とは無関係のサイズである。特徴マップ1010~1016のうちの1つは、結果として得られるクロップされたマップが例えば、以下のルールに従って十分な詳細を有するように選択される:floor(4+log2(sqrt(box_area)/224)、ここで224は正規のボックスサイズである。したがって、ROIプーラ1028は、テンソル1030を生成する提案1026に従って、入力特徴マップをクロップする。テンソル1030は、全結合(FC)ニューラルネットワークヘッド1032に供給される。FCヘッド1032は、2つの全結合レイヤを実行して、クラススコアおよびバウンディングボックス予測子デルタテンソル1034を生成する。クラススコアは一般に、80要素テンソルであり、各要素は、対応するオブジェクトカテゴリの予測スコアに対応する。バウンディングボックス予測子デルタテンソルは80x4=320要素テンソルであり、対応するオブジェクトカテゴリのバウンディングボックスを含む。最終処理は出力層モジュール1036によって実行され、テンソル1034を受信し、フィルタリング演算を実行して、フィルタリングされたテンソル1038を生成する。低スコアリング(低分類)オブジェクトは、さらなる考慮から除外される。非最大抑制モジュール1040はより低い分類スコアを有する重複ボックスを除去することによって、重複するバウンディングボックスを除去し、推論出力テンソル151をもたらす。
図11は、モノクロフレーム1102の形式の2次元アレイにおける特徴マップパッキングアレンジメント1100を示す概略ブロック図である。特徴マップ1110、特徴マップ1112、および特徴マップ1114などの3つのレイヤの特徴マップは、フレーム1102内に配置可能である。図11の例では、フレーム1102がそれぞれが特徴マップ(例えば、特徴マップ1110)に対応する領域を含む。特徴マップ1110、1112、および1114は、モノクロフレーム1102を満たすラスタスキャンアレンジメントに配置される。フレーム1102のサイズはまず、フレーム1102に配置される全ての特徴マップのエリアに応じて設定され、ターゲットとなるUHDフレームのアスペクト比、すなわち、3840/2160~=1.78に近いアスペクト比を有する。解像度は例えば、幅および高さがそれぞれ4の倍数になるように、最小ブロックサイズの倍数になるように幅および高さを増加させることができる。特徴マップを配置する際に、特徴マップサイズとフレーム幅との不整合のために、最終フレーム高さは、適切なスペースを提供するために増加され得、未使用の空間なしに特徴マップを一緒にパックすることができないことに起因するいくらかの未使用のスペースを可能にする。未使用スペース1104など、フレーム1102内の未使用スペース内のサンプル値はフレームのビット深度の中間トーン点、すなわち、10ビットフレームの場合、512に設定される。特徴マップのサイズは、CNNバックボーン114に依存する。「Darknet-53」バックボーンの場合、サイズは特徴マップ1110に対して136×76であり、256インスタンスを有し、特徴マップ1112に対して68×38であり、512インスタンスを有し、特徴マップ1120に対して34×19であり、1024インスタンスを有する。明確にするために、図12は典型的な用途に存在するよりも少ない特徴マップを含むフレーム1202を示すが、3つのレイヤおよび相対解像度は以下に説明するように図12に表される。CNNの「バックボーン」セクションと「ヘッド」セクションとの間の異なるCNNおよび異なる分割は各レイヤについての異なる次元および数の特徴マップ、ならびに異なる数のレイヤ(すなわち、3つのレイヤ以外の量)をもたらし得る。
モノクロフレーム1102の形式で2次元アレイ内に特徴マップを配置する際に、フレーム1102内に隣接してフレームの同じグループの特徴マップが配置される。例えば、グループ1106は特徴マップ1110を含み、グループ1108およびグループ1109はレイヤ内の残りの特徴マップを含む。同様に、グループ1114は、レイヤのための2つの追加のグループを有する特徴マップ1112を含む。簡潔にするために、最小の特徴マップ(すなわち、特徴マップ1120)を含むレイヤについてのグループ化は示されていないが、同じグループごとのパッキング手法が使用される。各グループ内で、特徴マップは決定された順序付けに存在し、モノクロフレーム1102内の配置は、順序付けを反映する。
図12のモノクロフレーム1202に特徴マップを配置する際、4×4グリッド境界などの特定の境界に対する位置合わせが維持され得る。特徴マップサイズがそのようなアライメントの倍数ではない場合、未使用のサンプルスペースが隣接する特徴マップ間に存在する。例えば、サイズ34×19の特徴マップは36×20のサンプル領域を占めて配置され、未使用スペースは中間トーンサンプル値によって占められる。特徴マップ間の未使用スペースの存在は隣接する特徴マップ内のコンテンツによって引き起こされる1つの特徴マップ内のコーディングアーティファクトの発生を低減し、ビデオコーデックの基礎となるブロック構造に対する特徴マップの位置合わせを改善する。例えば、VVCの場合、4×4の最小ブロックサイズが典型的に使用される。
特徴マップを特定の位置合わせグリッドに位置合わせすることに加えて、2つのサンプルなどの特徴マップ間の最小パディングを実施することもできる。最小パディングは特徴マップサイズが位置合わせグリッドの倍数である場合に、隣接する特徴マップ内のコンテンツによって引き起こされる1つの特徴マップ内のアーティファクトを防止するのに役立つ。例えば、サイズ136×76の特徴マップはそれ自体と隣接する特徴マップとの間に挿入された未使用のサンプルスペースを伴わずに、4×4位置合わせグリッドに適合する。最小パディングエリアは隣接する特徴マップ間のいくらかの分離を保証し、これは、1つの特徴マップから隣接する特徴マップへと交差するコーディングアーチファクトを低減するのに役立ち得る。
図12は、モノクロフレーム1202における代替的な特徴マップパッキングアレンジメント1200を示す概略ブロック図である。特徴マップパッキングアレンジメント1200は、4つの特徴マップの多数のグルーピングが存在する特徴マップグルーピングに適している。図12のグルーピングは、特徴マップ間の空間的類似性に基づくことができ、同様の特徴マップのグルーピングをもたらす。空間的類似性は、絶対差分和または二乗差和または何らかの他の類似性尺度を使用して測定され得る。グルーピングは、同じレイヤ内の特徴マップに適用され、複数のレイヤにまたがってはいない。図12に見られるように、グルーピング1210は、4つの特徴マップを含む。グルーピング1210の特徴マップは、構成要素特徴マップのエリア2×2を占めるようにサンプルワイズインターリービングを使用してモノクロフレーム1202に配置される。サンプルワイズインターリービングは同じコーディングツリー構造によって共有される4つの特徴マップのより高い構造的詳細をもたらし、4つの特徴マップ間の詳細は、サンプルごとに異なる。したがって、共通のコーディングツリー構造および共有残差(異なる特徴マップの隣接するサンプルをコーディングするのに必要な局所的差異を除く)が達成され、圧縮効率の増加をもたらす。サイズ4の全てのグループが所与のレイヤについてモノクロフレーム1202にパックされると、特徴マップ1214などの残りの特徴マップはグルーピングに基づいて隣接してパックされるが、インタリーブ方式ではパックされない。残りの特徴マップはパッキングの順序とは別に、それらのグループ構成がパッキングプロセスに影響を及ぼさないので、任意のサイズのグループに割り当てられ得る。次のレイヤでは、グループ1220などの4つのグループがサンプルワイズインターリーブ方法でパックされ、続いて、特徴マップ1224などの他のサイズのグループに属する特徴マップがパックされる。最終レイヤについて、グループ1230などの4つのグループが、サンプルワイズインターリーブ方法でパックされ、続いて、特徴マップ1234などの他のサイズのグループに属する特徴マップがパックされる。
図13は、4:2:0クロマサブサンプリングカラーフレーム1301における特徴マップパッキングアレンジメント1300を示す概略ブロック図である。高度の類似性を有し、異なるレイヤに属する2つまたは3つの特徴マップを含む特徴マップグループは、カラーフレーム1301のコロケートされた領域内の異なるカラーチャネルに配置される。したがって、1つのレイヤにおける第1特徴マップの少なくとも一部の位置は、別のレイヤにおける第2特徴マップの少なくとも一部の位置に相対的に対応する。隣接するレイヤ内の2つの特徴マップの場合、より大きい特徴マップは、特徴マップ1304などのルマ平面1302内に配置される。2つの特徴マップのうちより小さい特徴マップは、特徴マップ1314などのクロマ平面1310内に配置される。グループが3つの特徴マップを含む場合、第3特徴マップはクロマ平面1310に配置された特徴マップよりもサイズが小さく、第3特徴マップはサイズが2倍になるように第2クロマ平面1320にパックされ、その結果、2倍のパックされた特徴マップ1324が得られる。グループの2つまたは3つの特徴マップが空間的類似性に基づいてグループ化されたので、図13の例では、カラーフレーム1301をコーディングするときの圧縮効率を改善するために、インターチャネル相関をターゲットとするコーディングツールが利用可能である。たとえば、クロスカラー成分予測をターゲットとする線形モデルなど、差のモデルに基づいてルマからクロマサンプルを予測することを試みるツールが適用され得る。共有コーディングツリーがルマコーディングブロックおよびクロマコーディングブロックを指定するインタースライスの場合、2つまたは3つの特徴マップのブロック構造は特徴マップが異なる位置に配置された場合と同様に、別個のコーディングツリーを必要とする代わりに、単一のコーディングツリーを使用してコーディングされる。
図14は、符号化されたパックされた特徴マップおよび関連するメタデータを保持するビットストリーム1400を示す概略ブロック図である。ビットストリーム1400は、ビデオエンコーダ120によって生成されたビットストリーム121またはビデオデコーダ134によって復号されたビットストリーム143に対応する。ビットストリームは、「ネットワーク抽象化レイヤ」ユニットヘッダによって前置されたシンタックスのグループを含む。例えば、NALユニットヘッダ1408は、シーケンスパラメータセット(SPS)1410に先行する。SPS1410はシンタックスの「一般制約情報」(GCI)ユニット(すなわち、制約フラグ1440)を含み得る、シンタックス1438の「プロファイルレベルティア」(PLT)ユニットを含み得る。制約フラグ1440は「gci_present_flag」がSPS1410中に存在し、1に等しいとき、SPS1410中に存在し、そわない場合、制約フラグ1440は、SPS1410中に存在しない。制約フラグがSPS1410内に存在するとき、アクティブ化されている任意の1つは、ビットストリーム1400がビットストリーム1400のシグナリングされたプロファイル内に示されるツールまたは機能(functions)の制限されたサブセット(サブプロファイルに対応し得る)に適合することを示す。制約フラグがSPS1410に存在しないとき、そわなければシグナリングされるのであろう各制約フラグはゼロの値を有すると推論され、ビットストリームはビットストリーム1400のシグナリングされたプロファイルに準拠する。制約フラグ1440内の各フラグは設定されると、VVC規格で定義されたフラグのセマンティクスと共に、VVC規格内の特定のツールの無効化を示す。シンタックスエレメントの別個のセット(ptl_num_sub_profilesおよびgeneral_sub_profile_idcシンタックスエレメントの0個以上のインスタンス)はビットストリームが準拠する特定のサブプロファイルを識別し、サブプロファイルの定義はVVC規格外で定義される。GCIはフラグのセットを含み、各フラグは、ビットストリーム1400において使用されない特定のコーディングツールを制約する。PLT1438は、ビットストリーム1400において使用することができる、「プロファイル」として知られているツールの特定のセットをシグナリングすることができる。プロファイルの一例は「Main10」であり、4:0:0または4:2:0クロマフォーマットのいずれかを有する8~10ビットビデオを提供し、広範な展開をターゲットとする。GCIは、サブプロファイルに対応し得る、ツールのサブセットへのプロファイルのツールのセットに対するさらなる制約を示し得る。一般に、ビデオエンコーダ120が(すなわち、マルチプレクサ118を介してビデオソース112からの)ビデオサンプルを符号化しているとき、所与のプロファイルのすべてのツールが、フレームデータを効率的に符号化するために使用され得る。ビデオエンコーダ120がフレームにパックされた(すなわち、モジュール116からの)特徴マップを符号化しているとき、VVC規格のいくつかのツールは、もはや圧縮利点を与えない。パックされた特徴マップに圧縮利点を提供しないツールは、ビデオエンコーダ120によって試される必要はなく、ビットストリーム1400において使用されないものとしてGCIにおいてシグナリングされ得る。SPS1410はまた、クロマフォーマット、ビット深度、ビットストリーム1400によって表されるフレームデータの解像度を示す。
ピクチャパラメータセット(PPS)1412は、デブロッキングフィルタの制御を含むツールの下位レベル挙動を制御するシンタックスエレメントを含む。PPS1412はpps_deblocking_filter_control_present_flagを含み、これは、設定されると、デブロッキングフィルタ設定がPPS1412において制御されることを示す。pps_deblocking_filter_control_present_flagが設定されると、pps_deblocking_filter_disabled_flagがPPS1412に存在する。pps_deblocking_filter_disabled_flagがPPS1412中に存在し、1に設定されるとき、デブロッキング制御のさらなるオーバーライドがピクチャのピクチャヘッダまたはスライスヘッダ1418中で発生しない限り、デブロッキングフィルタは、PPS1412を参照するすべてのピクチャについてディセーブルされる。pps_deblocking_filter_disabled_flagがPPS1412に存在し、1に設定されると、pps_deblocking_filter_override_enabled_flagがPPS1412に存在する。pps_deblocking_filter_override_enabled_flagが存在し、PPS1412において1に設定されるとき、各ピクチャのスライスヘッダ1418またはピクチャヘッダは、pps_deblocking_filter_disabled_flagによって示されるデブロッキングフィルタの有効化または無効化をオーバーライドし得る追加のフラグを含む。
SEIメッセージ1413は範囲決定モジュール514によって決定されるように、グループ決定モジュール510および量子化範囲1432によって決定されるように、特徴マップグルーピング1430を符号化する。付録Aは、SEIメッセージ1413の例示的なシンタックスおよびセマンティクスを示す。パッカモジュール522によって使用されるパッキングフォーマットはまた、すべての利用可能な特徴パッキングフォーマットの列挙から1つの特徴パッキングフォーマットを選択するためのインデックスを使用して、SEIメッセージ1413中で符号化され得る。特徴マップを生成するために使用された特定のCNNバックボーンは、所定のCNNバックボーンのセットの列挙から1つのCNNバックボーンを選択するためのインデックスを用いてSEIメッセージ1413内に示されても良く、そのうちのいくつかまたはすべてがソースデバイス110に利用可能である。CNNバックボーンタイプインデックスから、各レイヤにおけるレイヤの数およびチャネルの数、ならびに各レイヤにおける各特徴マップの解像度が決定され得る。所与のグループ内の特徴マップが同じレイヤ内にあるグルーピングの場合、特徴マップインデックスの別個のグループリストが各レイヤについてコーディングされる。所与のグループ内の特徴マップが複数のレイヤにわたり得るグルーピングの場合、特徴マップインデックスとレイヤインデックスペアは、各グループ内のアイテムとしてコーディングされる。存在するそれらが隣接するレイヤ内であり、各レイヤに最大で1つの特徴マップが存在するグルーピングの場合、レイヤインデックスは、グループ内の第1特徴マップにのみ必要とされる。グループがすべてのレイヤの特徴マップを含む場合、例えば、すべての3つのレイヤにおいて、特徴マップインデックスは、各レイヤにおける1つの特徴マップに暗黙的に適用されるので、グループインデックスは必要とされない。所与のレイヤのすべての特徴マップが1つの別個のレイヤに属する場合、レイヤごとに1つの量子化範囲がコーディングされる。
各フレームは図14に見られるように、アクセスユニット1414などの「アクセスユニット」としてビットストリーム1400内に符号化される。各アクセスユニットは、スライス1416などの1つまたは複数のスライスを含む。ビットストリームの第1アクセスユニットについて、一般に「ランダムアクセスポイント」アクセスユニットについて、イントラスライスは、ビットストリーム1400中の他のアクセスユニットに対するいかなる予測依存性も回避するために使用される。スライス1416は、スライスヘッダ1418と、それに続くスライスデータ1420とを含む。スライスデータ1420は、フレームデータのコーディングされた表現を与えるCTUのシーケンスを含む。CTUは正方形であり、典型的には128×128のサイズであり、これは典型的な特徴マップサイズに十分に整合されない。4×4グリッドなどの最小ブロックサイズに特徴マップを配置すると、この位置ずれが部分的に改善される。
図15はCNNの第1部分を実行し、ビデオデータのフレームのために結果として得られる特徴マップを符号化するための方法1500を示す。方法1500は、構成されたFPGA、ASIC、またはASSPなどの装置を使用して実装され得る。代替的に、以下で説明するように、方法1500は、プロセッサ205の実行下で、アプリケーションプログラム233の1つまたは複数のソフトウェアコードモジュールとして、ソースデバイス110によって実装され得る。方法1500を実施するアプリケーションプログラム233のソフトウェアコードモジュールは例えば、ハードディスクドライブ210および/またはメモリ206に常駐することができる。方法1500は、ビデオソース112によって生成されたビデオデータの各フレームに対して繰り返される。方法1500は、コンピュータ可読記憶媒体および/またはメモリ206に記憶され得る。
方法1500は、実行CNN第1部分ステップ1510で開始する。ステップ1510において、CNNバックボーン114は、プロセッサ205の実行下で、特定のCNNのレイヤのサブセットを実行して、入力フレーム113を中間テンソル115に変換する。予測ヘッドまたはFPNの使用により、テンソル115は、複数のテンソルを含み得る。方法1500は、ビデオソース112からのビデオデータの1つのフレームに対応するテンソルを符号化するように動作する。次に、プロセッサ205における制御は、ステップ1510から特徴マップ類似性判定ステップ1520に進む。中間テンソル115は例えば、メモリ206および/またはハードディスクドライブ210に記憶され得る。
特徴マップ類似性判定ステップ1520において、モジュール116は、プロセッサ205の実行下で、各レイヤ内の各特徴マップとの各特徴マップの類似性の尺度を含む類似性行列を生成する。類似性行列は例えば、メモリ206および/またはハードディスクドライブ210に記憶され得る。類似性尺度は、2つの特徴マップの平均二乗差(MSE)、または2つの特徴マップの絶対差の和(SAD)、または何らかの他の差の尺度であってもよい。異なるレイヤにおける特徴マップの類似性を測定することが望まれる場合、より低い空間分解能を有する特徴マップは差分測定の目的のために、より高い空間分解能と互換性のある分解能を生成するために、(例えば、最も近い隣接補間を使用して)アップスケールされ得る。計算オーバヘッドを低減するために、ステップ1520はまれに、たとえば、CLVS中の各ランダムアクセスポイントについて、またはCLVSの第1ピクチャについてのみ実行される。次に、プロセッサ205における制御は、ステップ1520から特徴マップグルーピング決定ステップ1530に進む。
特徴マップグループ決定ステップ1530において、グループ決定器510は、プロセッサ205の実行下で、特徴マップが割り当てられるグループのセットを決定する。特徴マップのグループは例えば、メモリ206および/またはハードディスクドライブ210に記憶され得る。図17を参照して、グループ決定器510の動作について説明する。ステップ1530はステップ1520の類似性行列がたとえば、CLVSの最初のピクチャについて、またはCLVS内のすべてのランダムアクセスポイントについて決定されたときに、実行される必要がある。プロセッサ205における制御は、ステップ1530から特徴マップ配置決定ステップ1540に進む。
特徴マップ配置決定ステップ1540において、パッカモジュール522は、プロセッサ205の実行下で、各特徴マップがフレーム内に配置される位置を決定する。フレームがモノクロフレームであるとき、特徴マップはフレーム領域を満たすラスタ走査順序で配置され、フレーム領域はフレームにパックされるべきすべての特徴マップの総面積と目標アスペクト比とに基づいて初期化される。パッキングアレンジメントは、図11~13を参照して説明される。使用中のパッキングフォーマットは付録Aを参照して説明される、SEIメッセージ1413から復号された「packing_format」シンタックスエレメントから決定される。所与のグループに属する特徴マップは順次パックされ、各グループ内に特徴マップがリストされる順序でパックされる。図13を参照して説明したように、異なるレイヤに属する各特徴マップを有するサイズ2または3の特徴マップのグループは空間的に、しかし異なる色チャネルで、まとめてパックされる。特徴マップの数およびサイズはソースデバイス110の動作中に変化しないので、配置は一度決定され、後続のフレームとともに使用するために保存され得る。パックされたフレームはたとえば、メモリ206および/またはハードディスクドライブ210に記憶され得る。次に、プロセッサ205における制御は、ステップ1540からグループ範囲決定ステップ1550に進む。
グループ範囲決定ステップ1550において、範囲決定器514は、プロセッサ205の実行下で、ステップ1530において決定された特徴マップの各グループにおける浮動小数点データの範囲を決定する。決定された範囲は例えば、メモリ206および/またはハードディスクドライブ210に記憶され得る。対称動作の場合、グループの範囲は、グループに属する特徴マップ内の値の最大の大きさ(絶対)値である。範囲は整数サンプル値への量子化および変換の前に特徴マップデータの正規化のための値を提供する。非対称動作の場合、正および負の範囲が、特徴マップの各グループについて決定され、特徴マップのグループ内で遭遇する最大の正および最大の負の値を示す。量子化範囲は、テンソル115内の特徴マップの各グループに対して決定される。量子化範囲は、ビデオデータのすべてのフレームのテンソルについて決定され得るか、またはより低い頻度の更新が適用され得る。シグナリングオーバヘッドを低減するために、量子化範囲は、ビデオビットストリーム中のみのイントラピクチャまたはランダムアクセスピクチャについて決定され得る。量子化範囲が決定されなかった後続フレームの浮動小数点データテンソルの範囲は、以前に決定された量子化範囲を超え得る。安全マージンは、何らかの指定されたスケーリングファクタによって決定された量子化範囲の大きさを増加させることによって導入され得る。量子化範囲に固定係数、たとえば8/7を乗算すると、使用されるデータのサンプル範囲が、YCbCrビデオデータで使用されるビデオ範囲にほぼ対応する範囲に圧縮される。量子化範囲が決定されない可能性がある後のフレームは、サンプルビット深度、例えば、10ビットビデオの場合[0..1023]の限界までこの範囲を超えるいくつかのヘッドルームを有する。次に、プロセッサ205における制御は、ステップ1550から特徴マップ量子化ステップ1560に進む。
特徴マップ量子化ステップ1560において、量子化器モジュール518は、プロセッサ205の実行下で、特徴マップが属するグループの量子化範囲に従って、浮動小数点値から整数サンプル値に各特徴マップを量子化する。決定された整数サンプル値は例えば、メモリ206および/またはハードディスクドライブ210に記憶され得る。最大値が1.0である正規化された範囲へのスケーリングが最初に実行され、その後、サンプル範囲への乗算、およびオフセットの加算が行われ、サンプルの大きさの実質的な部分の利用をもたらす。10ビットビデオの場合、乗算係数512が使用され、オフセットquant_offset512も使用される。ビデオエンコーダ120およびビデオエンコーダ144によって導入され得るオーバーシュートからの非線形効果を低減するために、より小さい乗算係数が使用され得る。量子化範囲がYCbCrビデオデータにおいて一般に使用されるビデオ範囲と整列するために、8/7などの固定係数によってまだ調整されていない場合、7/8x512=448のスケーリングファクタscale_fが使用され得る。8ビットビデオデータの場合、ビデオレンジアラインされた動作のための128のオフセットおよび128または112のスケーリングファクタが使用され得る。量子化範囲が前のフレームからのテンソルについて決定され、現在のフレームについて更新されていない場合、入力浮動小数点値が特徴マップが属する特徴マップグループについての量子化範囲を超えることが可能である。浮動小数点値を整数サンプル値にマッピングするときのオーバーフローを防ぐために、クリッピング操作が適用される。量子化器モジュール518の1つのアレンジメントでは、浮動小数点値の量子化範囲によって示される範囲へのクリッピングがオーバーフローを防止するために適用される。量子化範囲への浮動小数点値のクリッピングは、すべてのサンプルが[quant_offset-scale_f、quant_offset+scale_f]の範囲内にあることを保証する。量子化器モジュール518の別のアレンジメントでは、クリッピングがquant_offsetおよびscale_fの適用後に適用され、その時点で、決定された値はビット深度によって示される範囲外に入ることができ、整数サンプル値への変換前に適用される。クリッピングは、整数サンプル値がビット深度、すなわち[0..(1<<bit_depth)-1]によって示される範囲内にあることを保証するために適用される。スケーリング後および整数変換前のクリッピングは、ビデオ範囲などのより小さい範囲を利用するscale_f値と組み合わせて、後続のフレームのいくつかのヘッドルームがより前のフレームから決定された量子化範囲を超えることを可能にする。クリッピングが浮動小数点テンソルから整数への変換および浮動小数点テンソルに戻る変換に非線形歪みを導入する前の、ビデオエンコーダ120およびビデオデコーダ144の動作におけるある程度のオーバーシュートに対する許容も存在する。次に、プロセッサ205における制御は、ステップ1560から特徴マップパックステップ1570に進む。
特徴マップパックステップ1570において、パッカモジュール522は、プロセッサ205の実行下で、整数特徴マップ520をパックして、パックされた特徴マップフレーム117を生成する。テンソル115の各レイヤからの特徴マップに対応する量子化された特徴マップ520は例えば、1フレームのビデオデータを保持するメモリ206および/またはハードディスクドライブ210内に構成されたメモリバッファに記憶され得る。図11-13を参照して、特徴マップのパッキングフォーマットについて説明する。次に、プロセッサ205における制御は、ステップ1570からメタデータ符号化ステップ1580に進む。
メタデータ符号化ステップ1580において、エントロピーエンコーダ638はプロセッサ205の実行下で、特徴マップグルーピング512および量子化範囲516、すなわち、メタデータ125をビットストリーム121に符号化する。メタデータ125は、SEIメッセージ1413として使用して符号化することができる。SEIメッセージ1413のフォーマットは付録Aを参照して説明される。次に、プロセッサ205における制御は、ステップ1580からフレーム符号化ステップ1590に進む。第1ピクチャ(ピクチャ順序カウントが0に等しい)では、SEIメッセージ1413中の「layers_update」、「groups_update」、および「qr_update」フラグが設定され、特徴マップレイヤおよび次元、特徴マップグループ定義、ならびに関連する量子化範囲がビットストリーム121中で符号化される。SEIメッセージ1413中の「qr_update」フラグは定期的に設定され得、量子化範囲情報はそれに応じて更新される。ランダムアクセス構成の場合、すべてのランダムアクセスポイントまたはイントラピクチャは、更新された量子化範囲を含み得る。低遅延構成の場合、量子化範囲の周期的な更新はインターピクチャ、たとえば、ランダムアクセス構成のイントラピクチャ周期性に対応するおよそ1秒ごとに1つのピクチャに対して行われ得る。いくつかのインターピクチャの量子化範囲を更新することは、たとえば、イントラピクチャがビットストリーム中で非常にまれに発生するとき、ビットストリームの構造に依存しないデータへの連続的なアダプテーション(すなわち、イントラ/インタースライス選択)を可能にする。
フレーム符号化ステップ1590において、ビデオエンコーダ120は、プロセッサ205の実行の下で、フレーム119をビットストリーム121に符号化する。ソースデバイス110が特徴マップを符号化するように構成されるとき、フレーム119は、マルチプレクサ118を介してパックされた特徴マップフレーム117から取得される。ソースデバイス110が特徴マップを符号化するように構成されるとき、ビデオエンコーダ120は、ビデオコーディング規格のプロファイルに利用可能なコーディングツールのサブセットを使用し得る。コーディングツールのサブセットは、一般的な制約フラグを使用してシグナリングされ得る。たとえば、「Main10」プロファイルは、ビットストリーム120中のプロファイルレベルティアシンタックス1438中でシグナリングされ得、一般な制約フラグ1440は以下のツール:LFNST(gci_no_lfnst_constraint_flagを介して)、MIP(gci_no_mip_constraint_flagを介して)、LMCS(gci_no_lmcs_constraint_flagを介して)、ISP(gci_no_isp_constraint_flagを介して)、Affine(gci_no_affine_motion_constraint_flagを介して)、GPM(gci_no_gpm_constraint_flagを介して)、MMVD(gci_no_mmvd_constraint_flagを介して)がビットストリーム120において使用されないことをシグナリングし得る。GCIフラグの使用に加えて、またはそれらの使用の代わりに、サブプロファイルは、特徴マップ符号化のためにVVC規格の外側で定義され、SPS1410中に含まれ得るgeneral_sub_profile_idcシンタックスエレメントの特定の値を使用してビットストリーム内で識別され得る。デブロッキングフィルタを無効にすると、特徴マップを符号化するときの圧縮効率が向上し、タスクパフォーマンスが向上する。VVCコーディング規格では、sh_deblocking_filter_disabled_flagを「1」の値でコーディングすることによって、またはph_deblocking_filter_disabled_flagを「1」の値でコーディングすることによって、スライスまたはピクチャレベルでオーバーライドされない限り、pps_deblocking_filter_disabled_flagを「1」に設定したビットストリーム121内のピクチャパラメータセットを参照するピクチャに対してデブロッキングフィルタは無効になっている。デブロッキングはVVC規格バージョン1の制約フラグを使用して明示的に無効化されず、したがって、デブロッキングフィルタを無効化することはそのような無効化が利点を示すにもかかわらず、特徴マップ符号化のためのサブプロファイルと等価であり得るツールサブセットの一部を構成しない。方法1500は完了し、プロセッサ205における処理は次のフレームに進む。
図16は符号化データから特徴マップを復号し、CNNの第2部分を実行するための方法1600を示す。方法1600は、構成されたFPGA、ASIC、またはASSPなどの装置によって実装され得る。代替的に、以下で説明するように、方法1600はプロセッサ205の実行下において、アプリケーションプログラム233の1つまたは複数のソフトウェアコードモジュールとして、宛先デバイス140によって実装され得る。方法1600は、ビットストリーム143において符号化されたビデオデータの各フレームに対して繰り返される。方法1600を実施するアプリケーションプログラム233のソフトウェアコードモジュールは例えば、ハードディスクドライブ210および/またはメモリ206に記憶され得る。方法1600は、特徴マップグルーピング復号ステップ1610で開始する。方法1600は量子化に関連する1つまたは複数のパラメータを決定し、符号化データから復号されたデータサンプルに対して逆量子化を実行して、1つまたは複数のパラメータに従って特徴マップを導出するように構成される。一構成では、方法1600は、逆量子化が実行された後、特徴マップのグループに対応する特徴マップをデインターリーブするように構成される。以下で詳細に説明するように、方法1600は、第1フレーム(または2次元アレイ)に配置された特徴マップの第1グループと、第2フレーム(または2次元アレイ)に配置された特徴マップの第2グループとの画像に基づいて特徴マップを決定するために使用され得、第1のフレームは第2のフレームとは異なる。
特徴マップグルーピング復号ステップ1610において、エントロピーデコーダ720はプロセッサ205の実行下で、SEIメッセージ1413から、各レイヤの各特徴マップの、特徴マップの1つまたは複数のグループ(すなわち、特徴マップグループ820)への割り当てを示す構造を復号する。復号された構造は例えば、メモリ206および/またはハードディスクドライブ210に記憶され得る。SEIメッセージ1413における特徴マップグルーピングのシンタックスは付録Aを参照して説明される。次いで、プロセッサ205における制御はステップ1610から量子化範囲復号ステップ1620に進む。
量子化範囲復号ステップ1620において、エントロピー復号器720はプロセッサ205の実行下で、ステップ1610においてSEIメッセージ1413から決定されたように、820の各特徴マップグループについて量子化範囲822の形式でパラメータを復号する。量子化範囲822は、特徴マップグループ内の複数の特徴マップの各々によって共有される。ステップ1620で決定された量子化範囲822は例えば、メモリ206および/またはハードディスクドライブ210に記憶され得る。対称量子化が使用されているとき、ステップ1620において、各特徴マップグループについて単一の値が復号され、それぞれのグループに属する特徴マップ内の浮動小数点データの最大の大きさを表す。非対称量子化がステップ1620で使用されているとき、それぞれのグループに属する特徴マップ内の浮動小数点データの最大値および最小値を表す一対の値が、各特徴マップグループについて復号される。プロセッサ205はビデオデータのすべてのフレームに対してステップ1620を実行するように動作することができ、またはプロセッサ205は、より少ない頻度でステップ1620を実行するように動作することができる。ステップ1620は、ビットストリーム143中のランダムアクセスポイントまたはイントラピクチャで実行され得る。ステップ1620が全てのフレームについて実行されないとき、特徴マップグルーピングおよび/または量子化範囲データの新しいセットがビットストリーム143から復号されるまで、特徴マップグルーピングおよび量子化範囲データは、再使用のために後続のフレームにわたって搬送される。次に、プロセッサ205における制御は、ステップ1620からフレーム復号ステップ1630に進む。
フレーム復号ステップ1630において、エントロピーデコーダ114は、プロセッサ205の実行下で、AU1414などのアクセスユニットに対応するビットストリーム143の一部分を復号することによってフレーム145を生成するように動作する。フレーム145はパックされた特徴マップを含んでもよく、または例えばビデオソース112からのフレームに対応する画像を含んでもよい。フレーム145が画像フレームを含む場合、すなわち、パックされた特徴マップを含まない場合、方法1600は終了し、次いで復号は次のフレームに進む。ステップ1630で生成されたフレーム145は例えば、メモリ206および/またはハードディスクドライブ210に記憶され得る。フレーム145がパックされた特徴マップを含む場合、プロセッサ205は、ステップ1630から特徴マップ配置決定ステップ1640に進む。
特徴マップ配置決定ステップ1640において、アンパッカモジュール810は、プロセッサ205の実行下で、フレーム145内の各レイヤの各特徴マップの位置を決定する。各特徴マップの空間サイズ、特徴マップグルーピング、および各レイヤにおける特徴マップの数を使用して、配置情報は、ステップ1540のアプローチに従って、図11~13を参照して説明したように決定される。特徴マップサイズ、量、およびパッキングフォーマットが前のフレームと比較して変化しない場合、特徴マップ配置データは、前のフレームから保持される。次いで、プロセッサ205における制御はステップ1640から、特徴マップアンパック(unpack)ステップ1650に進む。
特徴マップアンパックステップ1650において、アンパッカモジュール810はプロセッサ205の実行下で、フレーム147からサンプルを抽出し、ステップ1640からの決定された特徴マップ配置に従って整数特徴マップ812を生成する。ステップ1650で決定された整数特徴マップ812は例えば、メモリ206および/またはハードディスクドライブ210に記憶され得る。次に、プロセッサ205における制御は、ステップ1650から特徴マップ逆量子化ステップ1660に進む。
特徴マップ逆量子化ステップ1660において、逆量子化モジュール814はプロセッサ205の実行下で、整数特徴マップ812を浮動小数点特徴マップに変換し、CNNヘッド150への入力としてテンソル149にアセンブルされる。浮動小数点特徴マップは例えば、メモリ206および/またはハードディスクドライブ210に記憶され得る。整数サンプルは浮動小数点精度に変換され、ステップ1560のquant_offset値およびscale_f値は、サンプルを正規化された範囲にシフトするために使用される。特徴マップグループ内の各特徴マップについて、正規化された範囲値に、820の特徴マップグループの量子化範囲822を乗算して、浮動小数点特徴マップを作成する。浮動小数点特徴マップは多次元アレイとしてテンソル119に組み立てられ、一般に、次元は(フレーム、チャネル、高さ、幅)である。FPNが使用される場合、アセンブリは、FPNレイヤに対応する119におけるテンソルのセットから1つのテンソルに特徴マップを書き込むように動作する。プロセッサ205における制御は、ステップ1660からCNN第2部分実行ステップ1670に進む。
CNN第2部分実行ステップ1670において、CNNヘッド150はプロセッサ205の実行下で、CNNの残りのステージ(すなわち、特定のタスクに固有のステージ)を実行する。復号され、アンパックされ、逆量子化されたテンソル149は、CNNヘッド150に入力される。CNNヘッド150内では、一連の畳み込み、正規化、全結合レイヤ演算、および活性化ステージが実行され、CNN結果151が得られる。CNN結果151は、例えばメモリ206内に構成されたタスク結果バッファ152に格納される。方法1600は終了し、プロセッサ205における制御は次のフレームに進む。
方法1600の1つのアレンジメントでは、ステップ1610および1620がSEIメッセージ1413中のフラグによって示されるときに実行される。ステップ1610はSEIメッセージ1413から復号された「groups_update」フラグによって示されるときに実行され、ステップ1620は同様にSEIメッセージ1413から復号された「qr_update」フラグによって示されるときに実行される。
図17は、特徴マップのグルーピングを決定する方法を示す。方法1700は、構成されたFPGA、ASIC、またはASSPなどの装置によって具現化され得る。あるいは上記で説明したように、方法1700はプロセッサ205の実行下で、アプリケーションプログラム233の1つまたは複数のソフトウェアコードモジュールとして、ソースデバイス110によって実装され得る。方法1700を実施するアプリケーションプログラム233のソフトウェアコードモジュールは例えば、ハードディスクドライブ210および/またはメモリ206に記憶され得る。方法1700は、リスト初期化ステップ1710で開始する。
リスト初期化ステップ1710において、グループ決定器510はプロセッサ205の実行下で、所与のレイヤ内の各特徴マップが単一のグループに割り当てられるように、グループのセットを作成する。グループは、特徴マップのペアの類似性を示すために1つのグループ内の隣接関係を有する、特徴マップの順序付けられたリストとして表される。順序付けられたリストは初期化され、メモリ206および/またはハードディスクドライブ210に記憶され得る。次いで、プロセッサ205における制御はステップ1710から、最も類似する特徴マップペアを見つけるステップ1720に進む。
ステップ1720において、グループ決定器510は、プロセッサ205の実行下で、ステップ1520からの類似性行列において最大の類似性を有する特徴マップのペアを決定する。類似性行列は特徴マップ間の差の尺度であるので、最大の類似性を有するペアは最小値を有する行列内の位置によって識別される。類似性行列が特徴マップのさらなるペアが類似性を有さないことを示す場合(すなわち、すべてのエントリが「not-a-number」(NaN)に設定されている)、この値が返される。次に、プロセッサ205における制御は、ステップ1720から残りのマップテストステップ1730に進む。
残りのマップテストステップ1730において、グループ決定器510は、プロセッサ205の実行下で、ステップ1720において、特徴マップのすべてのペアが識別されたかどうかを決定する。ステップ1720がNaNを返した場合、次いで、すべての特徴マップのグループは結合のために考慮され、グループをさらに一緒に接続する必要はない(すなわち、2つのより小さいグループから1つのより大きいグループを形成する)。グループをさらに一緒に接続する必要がない場合、方法1700は終了し、グループのセットが結果として得られる。そうではなく、測定された類似性を有する特徴マップのペア(すなわち、最小演算の結果がNaNではない)の場合、次いでプロセッサにおける制御はステップ1730からグループ指示発見ステップ1740に進む。
グループインデックス決定ステップ1740において、グループ決定器510は、プロセッサ205の実行下で、それぞれの特徴マップがどのグループに属するか、および特徴マップの各グループ内のインデックスを決定する。次に、プロセッサ205における制御は、ステップ1740から接続可能なグループテストステップ1750に進む。
接続可能なグループテストステップ1750において、グループ決定器510はプロセッサ205の実行下で、特徴マップのペアを接続して、1つのより大きなグループを形成できるかどうかを決定する。いずれかの特徴マップが対応するグループの中央にある場合、リスト内のノードは先行ノードおよび後続ノードのみを有することがあるので、特徴マップを互いに接続することは不可能である。特徴マップのペアに対応する類似性行列におけるエントリは、NaNに設定され、この特徴マップのペアのさらなる考慮を妨げる。また、2つの特徴マップが同じグループに属する場合、次いで特徴マップのペアに対応する類似性行列内のエントリはNaNに設定され、これらの2つの特徴マップを結合することのさらなる考慮を妨げる。両方の特徴マップがそれらのそれぞれのグループの開始または終了にある場合、特徴マップは互いに接続され、2つの初期グループから1つのより大きいグループを形成することが可能である。グループサイズが特定の数の特徴マップに制限される構成では、結合することができるグループについて、結果として得られるグループサイズがグループサイズ制限を超える場合、特徴マップのペアに対応する類似性行列におけるエントリはNaNに設定され、グループは互いに結合されない。特徴マップグループを決定するための反復を低減するために、グループサイズが制限され、結合後、結果として得られるグループがグループサイズに等しい場合、新たに形成されたグループの各終点に対応する類似性行列内の行および列はNaNに設定され、より大きなグループに結合するためのこれらの特徴マップのさらなる考慮を妨げる。グループが接続される場合、プロセッサ205における制御は、グループ接続ステップ1760に進む。
グループ接続ステップ1760において、グループ決定器510は、プロセッサ205の実行下で、ステップ1720で識別された特徴マップのペアを含む2つのグループを一緒に接続する。このグループは、新しく形成されたより大きなグループにおいてペアが隣接するように接続される。ステップ1760で決定された接続グループは例えば、メモリ206及び/又はハードディスクドライブ210に記憶されてもよい。特徴マップが2つ以上の特徴マップの前のグループにあり、別のグループに接続されているとき、特徴マップは、今や、新たに形成されたより大きなグループの中央の何らかの位置を占める。特徴マップがリストまたはグループ内の中間ノードになると、その特徴マップに対応する類似性行列内の行および列がNaNに設定され、その特徴マップを他のグループに結合することのさらなる考慮が妨げられる。次いで、プロセッサ205はステップ1760からステップ1720に進み、より大きなグループに結合することを考慮すべき特徴マップの次のペアを決定する。
1つのアレンジメントでは、各レイヤ内のすべての特徴マップが1つのグループにマージされる。パッキングフォーマット1100に従ってパックされると、結果として得られる特徴マップ配置は、同様の特徴マップを比較的近接させる。次いで、VVCのイントラブロックコピーコーディングツールを使用して、IBC仮想バッファから生じるブロック選択に対する何らかの制限を伴って、前のおよび隣接する特徴マップから1つの特徴マップの部分を予測することができる。特徴マップの残差は連続的であり、様々な変換を使用してより効率的にコーディングされる傾向があるので、IBC探索はSADコスト推定に加えて、またはその代わりに、コスト推定としてアダマール変換を使用し得る。
別のアレンジメントでは、グループサイズは4に制限される。グループサイズが4に制限されるとき、「4つのグループ」特徴マップは、4つの特徴マップ間で共有ブロック構造およびある程度の共有予測信号から圧縮効率を達成するために、サンプルワイズインターリービングパッキングフォーマット1200を使用して配置され得る。類似性閾値は、4つの特徴マップが非常に類似している4つの特徴マップのグループのみが決定されるように、方法1700の実行において適用され得る。他の、それほど類似していない特徴マップは、ラスタ走査フォーマットでパックされる1つのより大きな残余グループに割り当てられてもよい。
さらに別のアレンジメントでは、グループがレイヤにわたって決定され、サイズが3に制限されてもよく、特に3層FPNに適している。インターレイヤグルーピングは、パッキングアレンジメント1300を使用して、コロケートされた方法でパッキングされ、圧縮効率を改善するためにVVCのクロス構成要素予測ツールが使用されることを可能にする。インターレイヤグループがレイヤにわたって特徴マップをコロケートするために使用される場合、組合せグルーピングが可能であり、一方、イントラレイヤグルーピングは、フレームのルマチャネルを占有するレイヤに基づいてグループを配置する。
さらに別のアレンジメントでは、レイヤごとに1つのグループが存在し、レイヤのすべての特徴マップがそのレイヤのグループ内に存在する。グループ内で、特徴マップの順序付けが符号化され、IBCなどのツールが隣接する特徴マップから1つの特徴マップを予測することができるように、レイヤ内の同様の特徴マップが近くに配置されることを可能にする。
さらに別の構成では、レイヤごとに1つのグループがあり、各グループ内で、特徴マップはそれらのテンソルのチャネルインデックスに従って配置される。そのような構成では、レイヤごとに1つの量子化範囲がコーディングされ、その結果、SEIメッセージ1413中の量子化範囲コーディングのオーバヘッドが低くなる。
様々なグルーピングアプローチが可能であるので、「grouping_type」シンタックスエレメントがSEIメッセージ1413に含まれ、付録Aを参照してさらに説明される。
図18は、符号化されるフレームデータのタイプに従って、ビデオ規格のコーディングツールまたは機能(functions)のセットを選択するための方法を示す。方法1800は、構成されたFPGA、ASIC、またはASSPなどの装置によって実装され得る。代替的に、以下で説明するように、方法1800は、プロセッサ205の実行下で、アプリケーションプログラム233の1つまたは複数のソフトウェアコードモジュールとして、ソースデバイス110によって実装され得る。方法1800を実施するアプリケーションプログラム233のソフトウェアコードモジュールは例えば、ハードディスクドライブ210および/またはメモリ206に記憶され得る。方法1800のステップは、ソースデバイス120が畳み込みニューラルネットワーク(CNN)に基づいて、特徴マップの符号化データを含む符号化ビデオデータを生成するかどうかを決定するように構成される。方法1800のステップはまた、ソースデバイス120が特徴マップの符号化ビデオデータを含む符号化データを生成する場合、ビデオデータを符号化するための複数のコーディングツールまたは機能(functions)を使用して符号化ビデオデータを生成するように構成される。また、説明されるように、方法1800のステップは、ソースデバイス120が特徴マップの符号化データを含む第2符号化データを生成する場合、複数のコーディングツールまたは機能(functions)の第1部分を使用するが、複数のコーディングツールまたは機能(functions)の第2部分を使用しない、特徴マップの符号化データを生成するように構成される。
方法1800は、フレームタイプ構成決定ステップ1810で開始する。
フレームタイプ構成ステップ1810において、ソースデバイス110は、プロセッサ205の実行下で、ビデオデータまたは特徴マップデータのいずれかに対して動作するように構成される。構成はネットワーク200または222を介してコマンドを受信した結果であってもよく、またはユーザインターフェースを介して(例えば、キーボード202、マウス203を介して)直接的なユーザ制御によってであってもよい。次に、プロセッサ205における制御はステップ1810から、フレーム含有特徴マップデータテストステップ1820に進む。
ステップ1820において、ソースデバイス110は、プロセッサ205の実行下で、ソースデバイス110が畳み込みニューラルネットワーク(CNN)に基づいて、符号化された通常のビデオフレームデータを生成するか、または符号化された特徴マップデータを生成するかを決定する。符号化データはコーディング規格(例えば、VVC規格)に準拠している。ソースデバイス110がビデオフレームデータのために構成されるとき、プロセッサ205における制御は、ステップ1820からビデオデータ機能(functions)選択ステップ1830に進む。ソースデバイス110が特徴マップ送信のために構成されるとき、プロセッサ205における制御は、ステップ1820から特徴マップ機能(functions)選択ステップ1840に進む。
ビデオデータ機能選択ステップ1830において、マルチプレクサ118は、プロセッサ205の実行下で、フレームデータ113をビデオエンコーダ120に直接ルーティングする。機能(functions)またはコーディングツールのセットが選択されて、フレームデータ119を符号化するために使用される。機能のセットは、フレームデータ119を符号化するために使用されているビデオコーディング規格のプロファイルにおいて利用可能な機能に対応する。機能のセットは、上述の複数のコーディングツールまたは機能の第1部分に対応する。例えば、ステップ1830において、VVC規格の「Main10」プロファイルに対して定義された機能のセットが選択されてもよい。プロセッサ205における制御は、ステップ1830からフレームデータ符号化ステップ1850に進む。
特徴マップ機能選択ステップ1840において、マルチプレクサ118は、プロセッサ205の実行下で、パックされた特徴マップ117をフレームデータ119としてビデオエンコーダ120にルーティングする。標準のプロファイルのコーディングツールのサブセットである機能またはコーディングツールのセットは、フレームデータ119を符号化する際に使用するために選択される。コーディングツールのサブセットは、フレームデータ119を符号化するために使用されているビデオコーディング規格の特定のコーディングツールまたは機能を無効にするために「制約フラグ」をアクティブ化することによって選択され得る。無効化されたコーディングツールまたは機能は上記で説明したコーディングツールまたは機能の第2部分を表し、低周波数非分離変換(LFNST)、行列イントラ予測(MIP)、線形モードクロマスケーリング(LMCS)、アファイン予測モード、幾何分割モード(GPM)、ISP、デブロッキングフィルタのうちの少なくとも1つであり得る。本例では、コーディングツールまたは機能の第2部分の使用の禁止が制約フラグを使用して示され得る。VVC以外のビデオコーディング規格の場合、類似の機能を提供するコーディングツールは、同様に無効にされ得る。プロセッサ205における制御は、ステップ1840からフレームデータ符号化ステップ1850に進む。
フレームデータ符号化ステップ1850において、ビデオエンコーダ120は、プロセッサ205の実行下で、機能またはコーディングツールのセットに従ってフレームデータ119を符号化する。方法1800は終了し、ソースデバイス110は次のフレームに進む。方法1800の結果として、ビットストリーム121は含まれているデータが通常のビデオデータであるか、またはパックされた特徴マップデータであるかを明確に示す(たとえば、ビットストリームのはじめに現れる制約フラグのセットの形式で)を含む。さらに、ビットストリーム121がパックされた特徴マップデータを符号化するとき、SEIメッセージ1413は少なくとも1つのフレームのために存在し、宛先デバイス140がビットストリームを復号した後にデータをさらに処理することを可能にする(たとえば、モジュール148および150を用いて復号フレームデータ145を処理する)。宛先デバイス140が、CNNヘッド150に従ってタスクを実行することのみを意図される場合、宛先デバイスは初期プロファイルおよび制約フラグシンタックスを超える通常のビデオデータを含むことが示されるとき、ビットストリーム143を復号する必要がない。タスク結果151のみをタスク結果バッファ152に出力し、復号されたビデオを(たとえば、表示デバイス160に)出力しない宛先デバイスは、制約フラグを介して無効にされるように示されるコーディングツールまたは機能を実装する必要がない。
方法1800のアレンジメントでは、制約フラグを設定することによって、どのツールが特徴マップコーディングに対して無効にされるかを示す代わりに、ツールは例えば、シーケンスパラメータセットまたは同等のシンタックス構造において、有効化フラグを無効にすることによって示される。
方法1500および1600のアレンジメントでは、ステップ1580および1610が特徴マップグループサイズをlog2値として符号化および復号し(すなわち、特徴マップグループサイズは2のべき乗値である必要がある)、ゼロのコード化値が1の特徴マップグループサイズに対応するように、1のオフセットが適用される。’log2_group_size_minus1’シンタックスエレメントは、特徴マップグループサイズを符号化するために使用される。
方法1500、1600、および1700の別のアレンジメントでは、特徴マップグループが所与のレイヤ内で単調に増加する順序でインデックス付けされた特徴マップを含むように制約される。特徴マップが各グループ内で単調に増加する順序でインデックスによって存在するとき、グループ構成は、グループ内の所与の特徴マップの不在の存在を示すビットマップを使用して符号化され得る。後続のグループの場合、コード化ビットマップは以前のグループにすでに割り当てられている特徴マップインデックスを省くために、長さが低減され得る。
CNNバックボーン310のアレンジメントでは、テンソルの次元、したがって結果として得られる特徴マップのサイズはVVC規格のブロックサイズに整合されるように選択される。概して長方形のビデオおよび128×128のデフォルトCTUサイズでは特徴マップの幅および高さは2の累乗であり得、たとえば、3つのレイヤのサイズは128×64、64×32、および32×16であり得る。特徴マップサイズが2のべき乗であると、クワッドツリー、バイナリ、またはターナリ分割に起因するVVC規格で利用可能なブロックサイズでパックされた特徴の位置合わせが大きくなり、隣接する特徴マップの内容によって引き起こされる1つの特徴マップ内のアーティファクトのコーディングの可能性が低くなる。
ビットストリーム1400のアレンジメントでは、SPS拡張が1に等しい「sps_extension_flag」をフラグを介してアクティブであるときに存在する追加のシンタックスとして、SPS1410はデブロッキングフィルタを制御するためのsps_deblocking_filter_enabled_flagを含む。sps_deblocking_filter_enabled_flagがゼロに等しいとき、PPS1412内のpps_deblocking_filter_control_present_flagが1に設定されなければならず、したがって、デブロッキングフィルタ制御が明示的にコーディングされ、PPS1412内のpps_deblocking_filter_override_enabled_flagがゼロに設定されなければならず、したがって、PPS1412内のデブロッキング制御セットのスライスヘッダまたはピクチャヘッダオーバーライドが禁止され、PPS1412内のpps_deblocking_filter_disabled_flagがゼロに設定されなければならず、ループ内フィルタリングをディスエーブルする。sps_deblocking_filter_enabled_flagが1に等しいとき、pps_deblocking_filter_control_present_flag、pps_deblocking_filter_override_enabled_flag、およびpps_deblocking_filter_disabled_flagフラグに対するこれらの制約は、適用されない。gci_no_deblocking_filter_flagが制約フラグ1440に存在し、1に設定されると、SPS1410内のsps_deblocking_filter_enabled_flagはゼロに設定されなければならない。gci_no_deblocking_filter_flagがゼロに設定されると、SPS1410内のsps_deblocking_filter_enabled_flagに制約は適用されない。sps_deblocking_filter_enabled_flagがSPS1410に存在しない場合、pps_deblocking_filter_control_present_flag、pps_deblocking_filter_override_enabled_flag、およびpps_deblocking_filter_disabled_flagフラグに適用可能な制約は、gci_no_deblocking_filter_flagが1に設定されているときに適用する。制約フラグを介してデブロッキングフィルタ適用を明示的に禁止することにより、デブロッキングフィルタの適用を除外する特徴マップ符号化のためにサブプロファイルを定義することが可能になる。gci_no_deblocking_filter_flagは、VVC規格のバージョン1におけるgci_reserved_zero_bitsを含む制約フラグ1440の領域に存在し得る。システム100の適用が量子化パラメータ692の低い値を使用して達成される高品質、すなわち、高ビットレートを必要とするとき、デブロッキングは不要であり得、制約フラグがたとえば、特徴マップ符号化のために使用され得、デブロッキングを完全に省略し得る。
産業上の利用可能性
記載された構成はコンピュータおよびデータ処理産業に適用可能であり、特に、高い圧縮効率を達成する、ビデオおよび画像信号などの信号の符号化および復号のためのデジタル信号処理に適用可能である。上述の制約フラグのうちの1つ以上を提供することにより、(「サブプロファイリング」と同等の)所与のプロファイルのツールのサブセットの選択が可能になる。ツールのサブセットの選択は、ベンダが例えば複雑さの観点から、不必要な又は他の問題のあるコーディングツールを除外するプロファイルのサブセットを指定することができるので、VVCのベンダの実装上の利点など、いくつかの利点を提供する。
チャネルまたは特徴マップのグループ内の浮動小数点テンソルデータを量子化し、得られた整数値を平面フレームにパッキングするための構成も開示される。量子化範囲データのための低いオーバーヘッドと、量子化範囲データのための高いオーバーヘッドを有する、グルーピングの非常に細かい粒度とを有する、グルーピング方法およびトレードオフの非常に粗いグルーピングが開示され、グルーピングの中間粒度は、タスクパフォーマンスの利点を提供する。
上記は本発明のいくつかの実施形態のみを説明し、本発明の範囲および趣旨から逸脱することなく、修正および/または変更を行うことができ、実施形態は例示的であり、限定的ではない。
付録A:ビットストリームにおける特徴マップパッキングおよび量子化に関連するメタデータを表すためのSEIメッセージフォーマットおよび関連するセマンティクスは、以下の通りである。
Figure 2024510710000002
特徴マップパッキング情報セマンティクス
シンタック構造は特徴マップ平面フレームをアンパックし、推論タスクを実行するためにテンソルに変換するために必要な情報を指定する。
記述子u(n)を有するシンタックスエレメントは、シンタックスエレメントがnビットを使用してコーディングされ、符号なし整数値として解釈されることを示す。記述子ue(v)を有するシンタックスエレメントは、シンタックスエレメントが指数ゴロム値としてコーディングされ、符号なし整数値として解釈されることを示す。
特徴マップ情報SEIメッセージの持続性は、関連するAUから、次に特徴マップ情報SEIメッセージが発生するか、CLVSが終了するまで持続します。
0に等しいframe_typeはAUがパックされた特徴マップデータを含まないことを示し、1に等しいframe_typeは、AUがパックされた特徴マップデータを含むことを示す。
1に等しいlayers_updateは、特徴マップパッキング情報SEIメッセージのこのインスタンスが各レイヤにおける特徴マップのレイヤの数、次元数、および量を定義することを示す。
1に等しいgroups_updateは、特徴マップパッキング情報SEIメッセージのこのインスタンスが特徴マップグループの数および構成を定義することを示す。
1に等しいqr_updateは、特徴マップパッキング情報SEIメッセージのこのインスタンスが特徴マップグループの量子化範囲の更新をシグナリングすることを示す。
backbone_idは、ネットワークバックボーンおよび抽出ポイントのタイプを示し、テンソルのレイヤカウントおよび次元、したがって特徴マップの次元を暗黙的にシグナリングする。以下の表は、いくつかの事前定義されたネットワークバックボーンと、関連するレイヤカウントと、特徴マップカウントと、次元とを示す。
Figure 2024510710000003
layer_cntは、フレーム内に存在するレイヤの数を指定する。
fm_cnt[layer_idx]は、layer_idxに存在する特徴マップの数を指定する。
fm_width[layer_idx]は、layer_idxの特徴マップの幅を指定する。
fm_height[layer_idx]は、layer_idxの特徴マップの高さを指定する。
orig_source_widthは、バックボーン動作のためにサイズ変更する前、すなわちリサイザモジュール304の前に、ルマサンプルにおけるフレーム112の幅を指定する。
orig_source_heightは、バックボーン動作のためにサイズ変更する前、すなわちリサイザモジュール304の前に、ルマサンプルにおけるフレーム112の高さを指定する。
packing_formatは、フレーム内のパックされた特徴マップデータのフォーマットを指定する。フォーマットは次の表に従って列挙される。
Figure 2024510710000004
grouping_typeは、ExplicitGroupingフラグ、ExplicitGroupSizeフラグ、およびExplicitLayerIdフラグを設定することで、特徴マップグループの範囲を指定する。
1に等しいExplicitGroupingフラグは、特徴マップグルーピングがビットストリーム中で明示的にシグナリングされることを示し、0に等しいExplicitGroupingフラグは、特徴マップグルーピングがgrouping_typeに基づいて暗黙的に決定されることを示す。
1に等しいExplicitGroupSizeフラグは、各特徴マップグループのサイズがビットストリーム中で明示的にシグナリングされることを示し、0に等しいExplicitGroupSizeフラグは、各特徴マップグループのサイズがgrouping_typeに基づいて暗黙的に決定されることを示す。
1に等しいExplicitLayerIdフラグは、グループが異なるレイヤ内に特徴マップを含み得ることを示し、ゼロに等しいExplicitLayerIdフラグは、グループが暗黙的に単一レイヤに限定されることを示す。
次の表に、grouping_typeに従ってフラグExplicitGroupingフラグ、ExplicitGroupSizeフラグ、およびExplicitLayerIdに割り当てられた値を示す。暗黙的な信号が使用される場合は、暗黙的な動作について説明する。
Figure 2024510710000005
group_cntは、ExplicitGroupingフラグが1に等しく、特徴マップグループの数をシグナリングするときに存在する。ExplicitGroupingFlagがゼロに等しいとき、group_cntは、上記の表に従ってgrouping_typeに基づいて推論される。
quant_typeは、以下の表に従った量子化演算のタイプを示す。
Figure 2024510710000006
qr_fraction_precisionは、浮動小数点量子化範囲の小数部がビット単位でコーディングされる精度を指定する。
group_sizeは、ExplicitGroupingフラグが1で、ExplicitGroupSizeフラグが1の場合に存在する。group_sizeは、group grp_idxのサイズを指定する。group_sizeが存在しない場合、’grouping_type’テーブルに記述されている’Implicit Rules’に従って推論される。
fm_idx[grp_idx][fm_idx]は、グループgrp_idx内の位置fm_idxの特徴マップインデックスまたはチャネルインデックスを指定する。
layer_id[grp_idx][fm_idx]は、存在する場合、fm_idx[grp_idx][fm_idx]で識別される対応する特徴マップのためのレイヤインデックスを指定する。layer_idxが存在しない場合、それは推論される。1、2、または3に等しいgroup_typeの場合、レイヤ0の特徴マップは最初に1つまたは複数のグループに割り当てられ、レイヤ0のすべての特徴マップがグループに割り当てられると、レイヤ1の特徴マップは1つまたは複数のグループに割り当てられ、以下同様である。4に等しいgroup_typeの場合、1つのグループは、すべてのレイヤのすべての特徴マップを含む。
qr_exp[grp_idx]は、グループgrp_idxの量子化範囲の指数部を指定する。
qr_exp_sign[grp_idx]は、グループgrp_idxの量子化範囲の指数部の符号を指定する。
qr_fraction[grp_idx]は、qr_precisionで指定されたビット幅で、グループgrp_idxの量子化範囲の小数部を指定する。
second_qr_exp[grp_idx]が存在する場合、グループgrp_idxの第2量子化範囲の指数部分を指定する。
second_qr_exp_sign[grp_idx]は、グループgrp_idxの量子化範囲の指数部の符号を指定する。
second_qr_fraction[grp_idx]は、存在する場合、qr_precisionで指定されるビット幅で、グループgrp_idxの第2量子化範囲の小数部を指定する。
quant_typeがゼロに等しいとき、量子化範囲は、量子化範囲が適用されるグループ内の特徴マップ内で遭遇する値の最大の大きさを示す。
quant_typeが1に等しいとき、量子化範囲は量子化範囲が適用されるグループ内の特徴マップ内で遭遇する最大正値を示し、第2量子化範囲は、第2量子化範囲が適用されるグループ内の特徴マップ内で遭遇する最大負値を示す。
量子化範囲および第2量子化(存在する場合)範囲は、1.0よりわずかに大きい値を掛けることなどによって、あるヘッドルームを可能にするように調整されていてもよい。そのようなヘッドルームは、量子化モジュール518においてテンソル値をクリップする必要がある可能性が低減された、特徴マップパッキング情報SEIメッセージに関連付けられたフレームに後続フレームのために、量子化範囲が再使用されることを可能にする。

Claims (22)

  1. 第1符号化データおよび第2符号化データを生成するための装置であって、
    前記装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定する判定手段と、
    前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第1符号化データを生成する符号化手段と、を備え、前記符号化手段は、前記装置が前記特徴マップの符号化データを含む前記第2符号化データを生成する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを生成する、装置。
  2. 前記複数の機能のうちの第2部分は、LFNST、MIP、LMCS、およびISPのうちの少なくとも1つを含む、請求項1に記載の装置。
  3. 前記複数の機能のうちの第2部分は、Affine、GPM、およびMMVDのうちの少なくとも1つを含む、請求項1に記載の装置。
  4. 前記複数の機能のうちの第2部分は、前記特徴マップの符号化に使用されないように制約される、請求項1に記載の装置。
  5. 前記符号化手段は、前記複数の機能のうちの第2部分が前記特徴マップの復号に使用されないように制約されていることを示す情報を符号化する、請求項1に記載の装置。
  6. 前記第1符号化データは第1符号化規格に準拠し、前記第2符号化データは第2符号化規格に準拠する、請求項1に記載の装置。
  7. 前記特徴マップは、前記中間データの空間次元以外の次元に沿ってニューラルネットワーク内で生成された中間データユニットのスライスである、請求項1に記載の装置。
  8. 前記符号化手段は、複数の特徴マップを表すためのメタデータをビデオデータの平面フレームに符号化し、前記メタデータはSEIメッセージを使用して表される、請求項1に記載の装置。
  9. 前記符号化手段は、前記複数の機能のうちの第2部分の使用禁止を制約フラグを用いて符号化する、請求項1に記載の装置。
  10. 第1符号化データおよび第2符号化データを復号するための装置であって、
    前記装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定する判定手段と、
    前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第1符号化データを復号する復号手段と、を備え、前記復号手段は、前記装置が前記特徴マップの符号化データを含む前記第2符号化データを復号する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを復号する、装置。
  11. 前記複数の機能のうちの第2部分は、LFNST、MIP、LMCS、およびISPのうちの少なくとも1つを含む、請求項10に記載の装置。
  12. 前記複数の機能のうちの第2部分は、Affine、GPM、およびMMVDのうちの少なくとも1つを含む、請求項10に記載の装置。
  13. 前記複数の機能のうちの第2部分は、前記特徴マップの復号に使用されないように制約される、請求項10に記載の装置。
  14. 前記復号手段は、前記複数の機能のうちの第2部分が前記特徴マップの復号に使用されないように制約されていることを示す情報を復号する、請求項10に記載の装置。
  15. 前記第1符号化データは第1符号化規格に準拠し、前記第2符号化データは第2符号化規格に準拠する、請求項10に記載の方法。
  16. 前記特徴マップは、前記中間データの空間次元以外の次元に沿ってニューラルネットワーク内で生成された中間データユニットのスライスである、請求項10に記載の装置。
  17. 前記復号手段は、複数の特徴マップを表すためのメタデータをビデオデータの平面フレームに復号し、前記メタデータはSEIメッセージを使用して表される、請求項10に記載の装置。
  18. 前記復号手段は、前記複数の機能のうちの第2部分の使用禁止を制約フラグを用いて復号する、請求項10に記載の装置。
  19. 第1符号化データおよび第2符号化データを生成する方法であって、
    装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定し、
    前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第1符号化データを生成し、
    前記装置が前記特徴マップの符号化データを含む前記第2符号化データを生成する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを生成する、方法。
  20. 第1符号化データおよび第2符号化データを復号する方法であって、
    装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定し、
    前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第1符号化データを復号し、
    前記装置が前記特徴マップの符号化データを含む前記第2符号化データを復号する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを復号する、方法。
  21. 第1符号化データおよび第2符号化データを生成する方法を実行するためのプログラムを格納する非一時的なコンピュータ可読格納媒体であって、前記方法は、
    装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて生成するか否かを判定することと、
    前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを生成する場合、ビデオデータを符号化するための複数の機能を用いて前記第1符号化データを生成することと、
    前記装置が前記特徴マップの符号化データを含む前記第2符号化データを生成する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを生成することと、を含む非一時的なコンピュータ可読格納媒体。
  22. 第1符号化データおよび第2符号化データを復号する方法を実行するためのプログラムを格納する非一時的コンピュータ可読格納媒体であって、前記方法は、
    装置が特徴マップの符号化データを含む符号化データをニューラルネットワークに基づいて復号するか否かを判定することと、
    前記装置が前記特徴マップの符号化データを含まない符号化ビデオデータの形で前記第1符号化データを復号する場合、ビデオデータを復号するための複数の機能を用いて前記第1符号化データを復号することと、
    前記装置が前記特徴マップの符号化データを含む前記第2符号化データを復号する場合、前記複数の機能のうちの第1部分を用いるが前記複数の機能のうちの第2部分を用いずに前記特徴マップの符号化データを復号することと、を含む非一時的なコンピュータ可読格納媒体。
JP2023547314A 2021-04-07 2022-03-11 特徴マップ符号化対通常のビデオ符号化のためのツール選択 Pending JP2024510710A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AU2021202142A AU2021202142A1 (en) 2021-04-07 2021-04-07 Tool selection for feature map encoding vs regular video encoding
AU2021202142 2021-04-07
PCT/AU2022/050200 WO2022213139A1 (en) 2021-04-07 2022-03-11 Tool selection for feature map encoding vs regular video encoding

Publications (1)

Publication Number Publication Date
JP2024510710A true JP2024510710A (ja) 2024-03-11

Family

ID=83544879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023547314A Pending JP2024510710A (ja) 2021-04-07 2022-03-11 特徴マップ符号化対通常のビデオ符号化のためのツール選択

Country Status (6)

Country Link
EP (1) EP4320557A1 (ja)
JP (1) JP2024510710A (ja)
KR (1) KR20230162802A (ja)
CN (1) CN117546176A (ja)
AU (2) AU2021202142A1 (ja)
WO (1) WO2022213139A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2022204911A1 (en) * 2022-07-08 2024-01-25 Canon Kabushiki Kaisha Method, apparatus and system for encoding and decoding a tensor
CN116778346B (zh) * 2023-08-23 2023-12-08 蓝茵建筑数据科技(上海)有限公司 一种基于改进自注意力机制的管线识别方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102017997B1 (ko) * 2018-01-16 2019-09-03 한국과학기술원 특징맵 압축을 이용한 이미지 처리 방법 및 장치

Also Published As

Publication number Publication date
WO2022213139A1 (en) 2022-10-13
AU2024200562A1 (en) 2024-02-15
KR20230162802A (ko) 2023-11-28
CN117546176A (zh) 2024-02-09
EP4320557A1 (en) 2024-02-14
AU2021202142A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
AU2016203628B2 (en) Method, apparatus and system for encoding and decoding video data
TWI827616B (zh) 用以編碼及解碼經轉換之視訊樣本區塊的方法、設備和系統
TWI821610B (zh) 用於將編碼樹單元編碼與解碼的方法、設備及系統
US20220394311A1 (en) Method apparatus and system for encoding and decoding a coding tree unit
CN114902670B (zh) 用信号通知子图像划分信息的方法和装置
JP2024510710A (ja) 特徴マップ符号化対通常のビデオ符号化のためのツール選択
JP2023159400A (ja) ビデオサンプルのブロックを符号化及び復号するための方法、装置、及びシステム
JP7394875B2 (ja) ビデオサンプルのブロックを符号化並びに復号するための方法、装置、及びシステム
JP7500745B2 (ja) ビデオサンプルのブロックを符号化および復号する方法、装置、およびシステム
US20240205402A1 (en) Grouped feature map quantisation
US20240236377A1 (en) Tool selection for feature map encoding vs regular video encoding
AU2021202141A1 (en) 4:2:0 packing of feature maps
WO2023130153A1 (en) Method, apparatus and system for encoding and decoding a block of video samples
JP2024046650A (ja) ビデオサンプルのブロックを符号化並びに復号するための方法、装置、及びシステム
WO2024077323A1 (en) Method, apparatus and system for encoding and decoding a tensor
WO2023197031A1 (en) Method, apparatus and system for encoding and decoding a tensor
WO2023197030A1 (en) Method, apparatus and system for encoding and decoding a tensor

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230921