JP2023542029A

JP2023542029A - 低ビット精度のニューラルネットワーク（ｎｎ）に基づくクロスコンポーネント予測のための方法、機器、及びコンピュータプログラム

Info

Publication number: JP2023542029A
Application number: JP2023518069A
Authority: JP
Inventors: リン，シェン; ジャン，ウェイ; ワン，ウェイ; リウ，シャン; シュー，シャオジョン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-06-15
Filing date: 2022-05-31
Publication date: 2023-10-04
Anticipated expiration: 2042-05-31
Also published as: JP7609381B2; EP4128051A1; EP4128051A4; KR20230156789A; WO2022265849A1; US20220400273A1; US11949892B2; CN116670686A

Abstract

画像フレーム又はビデオシーケンスの符号化又は復号中の低ビット精度のニューラルネットワークNNに基づくクロスコンポーネント予測のための方法及び機器であって、クロマ予測のための予めトレーニングされた深層ニューラルネットワーク（DNN）クロスコンポーネント予測（CCP）モデルを用いて、受信したルマコンポーネントに基づきクロマコンポーネントを再構成することを含み得る。方法は、少なくとも１つのビデオシーケンスに基づき低ビット精度のクロマ予測のための更新済みDNN CCPを生成するステップと、短縮した処理時間で前記少なくとも１つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用するステップと、を更に含んでよい。

Description

［関連出願］
本願は、参照により全体がここに組み込まれる米国特許出願番号第６３／２１０７５１号、２０２１年６月１５日出願、に基づき及びその優先権を主張する。

［技術分野］
本開示の実施形態は、画像及び／又はビデオシーケンスの符号化又は復号中のニューラルネットワークに基づくクロスコンポーネント予測に関する。

ビデオコーディング及び復号は、圧縮を通じて、入力ビデオ信号の中の冗長性を削減する。圧縮は、可逆（無損失）及び不可逆（損失）の両方とも、幾つかの場合には大きさで２桁以上も、帯域幅又は記憶空間要件を軽減するのを助けることができる。無損失圧縮は、元の信号の正確なコピーが圧縮された元の信号から再構成可能である技術を表す。損失圧縮を用いると、再構成された信号は、元の信号と同一ではないが、元の信号と再構成された信号との間の歪みは、意図される用途のために有用な再構成された信号を生成するのに十分に小さい。損失圧縮は、ビデオ符号化又は復号において広く利用されている。歪み耐性の量は、アプリケーションに依存してよい。例えば、特定の消費者ストリーミングアプリケーションのユーザは、テレビジョン投稿アプリケーションのユーザよりも高い歪みに耐え得る。

H.２６４/Advanced Video Coding （H.２６４/AVC）、High-Efficiency Video Coding （HEVC）、及びVersatile Video Coding （VVC）のような伝統的なビデオコーディング規格は、同様の（再帰的な）ブロックに基づくハイブリッド予測／変換の枠組みの上に設計されている。ここで、イントラ／インター予測、整数変換、及びコンテキスト適応型エントロピーコーディングのような個々のコーディングツールは、全体の効率を最適化するために徹底的に手作業で作られている。基本的に、時空間ピクセルの近傍は、後続の変換、量子化、及びエントロピーコーディングのための対応する残差を得るために、予測信号構成に利用される。しかしながら、このアプローチは、種々のレイヤの時空間情報を分析することにより異なるレベルの時空間刺激を抽出することができない。従って、より良い圧縮効率及びより良い圧縮品質のために、非線形性及び非局所的な時空間相関を探求する装置が必要である。

本開示の態様によると、符号化又は復号中の低ビット精度のニューラルネットワーク（NN）に基づくクロスコンポーネント予測のための方法が提供され得る。前記方法は、
クロマ予測のための予めトレーニングされた深層ニューラルネットワーク（DNN）クロスコンポーネント予測（CCP）モデルを用いて受信したルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、
低ビット精度の前記予めトレーニングされたDNN CCPモデルの１つ以上のパラメータを更新するステップと、
少なくとも１つのビデオシーケンスに基づき、低ビット精度のクロマ予測のための更新済みDNN CCPモデルを生成するステップと、
短縮した処理時間で、前記少なくとも１つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用するステップと、
を含んでよい。

本開示の態様によると、符号化又は復号中の低ビット精度のニューラルネットワーク（NN）に基づくクロスコンポーネント予測のための機器が提供され得る。前記機器は、
プログラムコードを格納するよう構成される少なくとも１つのメモリと、
前記プログラムコードを読み出し、前記プログラムコードにより指示されたように動作するよう構成される１つ以上のプロセッサと、
を含んでよい。
前記プログラムコードは、
前記少なくとも１つのプロセッサに、クロマ予測のための予めトレーニングされたDNN CCPモデルを用いて、受信したルマコンポーネントに基づきクロマコンポーネントを再構成させるよう構成される再構成コードと、
前記少なくとも１つのプロセッサに、低ビット精度の前記予めトレーニングされたDNN CCPモデルの１つ以上のパラメータを更新させるよう構成される更新コードと、
前記少なくとも１つのプロセッサに、少なくとも１つのビデオシーケンスに基づき、低ビット精度のクロマ予測のための更新済みDNN CCPモデルを生成させるよう構成される生成コードと、
前記少なくとも１つのプロセッサに、短縮した処理時間で、前記少なくとも１つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用させるよう構成される予測コードと、
を含んでよい。

本開示の態様によると、命令を格納している非一時的コンピュータ可読媒体が提供され得る。前記命令は、符号化又は復号中の低ビット精度の深層ニューラルネットワーク（NN）に基づくクロスコンポーネント予測のためのものである。前記命令は、少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに、
クロマ予測のための予めトレーニングされたDNN CCPモデルを用いて、受信したルマコンポーネントに基づきクロマコンポーネントを再構成させ、
低ビット精度の前記予めトレーニングされたDNN CCPモデルの１つ以上のパラメータを更新させ、
少なくとも１つのビデオシーケンスに基づき、低ビット精度のクロマ予測のための更新済みDNN CCPモデルを生成させ、
短縮した処理時間で、前記少なくとも１つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用させる。

開示の主題の更なる特徴、特性、及び種々の利点は、以下の詳細な説明及び添付の図面から一層明らかになるだろう。

実施形態による通信システムの簡略ブロック図である。

図１の１つ以上の装置の例示的なコンポーネントのブロック図である

実施形態によると、符号化又は復号中の低ビット精度の例示的な深層ニューラルネットワーク（DNN）に基づくクロスコンポーネント予測の図である。

実施形態によると、符号化又は復号中の低ビット精度の深層ニューラルネットワーク（DNN）に基づくクロスコンポーネント予測のための方法のフローチャートを示す。

実施形態によるストリーミング環境の図である。

実施形態によるビデオデコーダのブロック図である。

実施形態によるビデオエンコーダのブロック図である。

上述のように、従来の方法は、後続の変換、量子化、及びエントロピーコーディングのための対応する残差を得るために、予測信号構成のために時空間ピクセルの近傍を利用することがある。しかしながら、このアプローチは、種々のレイヤの時空間情報を分析することにより異なるレベルの時空間刺激を抽出することができない。従って、より良い圧縮効率及びより良い圧縮品質のために、非線形性及び非局所的な時空間相関を探求する装置が必要である。

異なるコンポーネントからの情報及び追加サイド情報を利用して、非ニューラルネットワークに基づくエンコーダは、他のコンポーネントを予測して、より良い圧縮性能を達成することができる。しかしながら、それらの性能は、にゅーらに基づくエンコーダと比べて劣る。例えば、イントラ予測のクロスコンポーネント線形予測モードは、深層ニューラルネットワーク（deep neural network （DNN））に基づく方法と比べると、実行に失敗し、効率的ではない。

DNNは、基本的に、異なるレベルの刺激を抽出するようプログラムされ、高度な非線形性及び非局所的相関を探求する能力を有する。これは、高い圧縮品質を実現する有望な機会を提供する。

本開示の実施形態によると、クロスコンポーネント予測（Cross Component Prediction （CCP））のための低ビット精度のコンテンツ適応型オンライントレーニングが提供され得る。オンライントレーニングは、１つ以上のモデルのリアルタイムトレーニングを含んでよい。実施形態はビデオ処理のための深層ニューラルネットワーク（Deep Neural Networks （DNN））に基づいてよく、オンライントレーニング段階中にモデルの精度を調整し、一連の処理により異なるビデオ入力に対してビデオ圧縮品質を向上する。

図１は、本開示の実施形態による通信システム（１００）の簡易ブロック図を示す。通信システム１００は、ネットワーク１５０を介して相互接続される少なくとも２つの端末１４０～１３０を含んでよい。データの一方向送信では、第１端末（１４０）は、ネットワーク（１５０）を介して他の端末（１３０）へ送信するために、ビデオデータをローカル位置でコーディングしてよい。第２端末（１３０）は、ネットワーク（１５０）から他の端末のコーディングビデオデータを受信し、コーディングデータを復号して、復元したビデオデータを表示してよい。単方向データ伝送は、メディアサービングアプリケーション等で共通であってよい。

図１は、例えばビデオ会議中に生じ得る、コーディングビデオの双方向送信をサポートするために適用される第２端末ペア（１１０、１２０）を示す。データの双方向送信では、各端末（１１０、１２０）は、ネットワーク（１５０）を介して他の端末へ送信するために、ローカルでキャプチャしたビデオデータをコーディングしてよい。各端末１１０、１２０は、また、他の端末により送信されたコーディングビデオデータを受信してよく、コーディングデータを復号してよく、及び復元したビデオデータをローカルディスプレイ装置で表示してよい。

図１では、端末装置１４０～１２０は、サーバ、パーソナルコンピュータ、及びスマートフォンとして示されてよいが、本開示の原理はこれらに限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤ、及び／又は専用ビデオ会議設備による適用がある。ネットワーク（１５０）は、端末（１４０～１２０）の間でコーディングビデオデータを運ぶ任意の数のネットワークを表し、例えば有線及び／又は無線通信ネットワークを含む。通信ネットワーク（１５０）は、回線切り換え及び／又はパケット切り換えチャネルでデータを交換してよい。代表的なネットワークは、電子通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク、及び／又はインターネットを含む。本発明の議論の目的で、ネットワーク（１５０）のアーキテクチャ及びトポロジは、以下で特に断りの無い限り、本開示の動作にとって重要でないことがある。

図２は、図１の１つ以上の装置の例示的なコンポーネントのブロック図である。

装置２００は、端末（１１０～３１４０）のうちのいずれか１つに対応してよい。図２に示すように、装置２００は、バス２１０、プロセッサ２２０、メモリ２３０、記憶コンポーネント２４０、入力コンポーネント２５０、出力コンポーネント２６０、及び通信インタフェース２７０を含んでよい。

バス２１０は、装置２００のコンポーネントの間で通信を可能にするコンポーネントを含む。プロセッサ２２０は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実装される。プロセッサ２２０は、中央処理装置（CPU）、グラフィックス処理装置（GPU）、加速処理装置（APU）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（DSP）、フィールドプログラマブルゲートアレイ（FPGA）、特定用途向け集積回路（ASIC）、又は別のタイプの処理コンポーネントである。幾つかの実施態様では、プロセッサ２２０は、機能を実行するようにプログラム可能な１つ以上のプロセッサを含む。メモリ２３０は、ランダムアクセスメモリ（RAM）、読み出し専用メモリ（ROM）、及び／又は、プロセッサ２２０により使用するための情報及び／又は命令を格納する別のタイプの動的若しくは静的記憶装置（例えば、フラッシュメモリ、磁気メモリ、及び／又は光メモリ）を含む。

記憶コンポーネント２４０は、装置２００の動作及び使用に関連する情報及び／又はソフトウェアを格納する。例えば、記憶コンポーネント２４０は、対応するドライブと一緒に、ハードディスク（例えば、磁気ディスク、光ディスク、光磁気ディスク、及び／又は固体ディスク）、コンパクトディスク（CD）、デジタルバーサタイルディスク（DVD）、フロッピディスク、カートリッジ、磁気テープ、及び／又は別の種類の非一時的コンピュータ可読媒体を含んでよい。

入力コンポーネント２５０は、装置２００が、例えばユーザ入力（例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び／又はマイクロフォン）を介して情報を受信することを可能にするコンポーネントを含む。追加又は代替として、入力コンポーネント２５０は、情報を検知するセンサを含んでよい（例えば、全地球測位システム（GPS）コンポーネント、加速度計、ジャイロスコープ、及び／又はアクチュエータ）。出力コンポーネント２６０は、装置２００からの出力情報を提供するコンポーネントを含む（例えば、ディスプレイ、スピーカ、及び／又は１つ以上の発光ダイオード（LED））。

通信インタフェース２７０は、例えば有線接続、無線接続、又は有線及び無線接続の組合せを介して装置２００が他の装置と通信することを可能にするトランシーバのようなコンポーネント（例えば、トランシーバ、及び／又は別個の受信機及び送信機）を含む。通信インタフェース２７０は、装置２００が別の装置から情報を受信し、及び／又は別の装置に情報を提供できるようにしてよい。例えば、通信インタフェース２７０は、Ethernet（登録商標）インタフェース、光インタフェース、同軸インタフェース、赤外線インタフェース、無線周波数（RF）インタフェース、ユニバーサルシリアルバス（USB）インタフェース、WiFiインタフェース、セルラネットワークインタフェース、等を含んでよい。

装置２００は、本願明細書に記載された１つ以上の処理を実行してよい。装置２００は、プロセッサ２２０が、メモリ２３０及び／又は記憶コンポーネント２４０のような一時的コンピュータ可読媒体に格納されたソフトウェア命令を実行することに応答して、これらの処理を実行してよい。コンピュータ可読媒体は、本願明細書では非一時的メモリ装置として定義される。メモリ装置は、単一の物理記憶装置内のメモリ空間、又は複数の物理的記憶装置に渡り広がるメモリ空間を含む。

ソフトウェア命令は、別のコンピュータ可読媒体から又は別の装置から通信インタフェース２７０を介して、メモリ２３０及び／又は記憶コンポーネント２４０に読み込まれてよい。実行されると、メモリ２３０及び／又は記憶コンポーネント２４０に格納されたソフトウェア命令は、プロセッサ２２０に、本願明細書に記載された１つ以上の処理を実行させてよい。追加又は代替として、本願明細書に記載の１つ以上の処理を実行するために、ハード結線回路が、ソフトウェア命令の代わりに又はそれと組合せて使用さてよい。従って、本願明細書に記載される実装は、ハードウェア回路及びソフトウェアの任意の特定の組み合わせに限定されない。

図２に示すコンポーネントの数及び配置は、例として提供される。実際に、装置２００は、図２に示されるものより、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は異なる配置のコンポーネントを含んでよい。追加又は代替として、装置２００のコンポーネントのセット（例えば、１つ以上のコンポーネント）は、装置２００の装置の別のセットによって実行されるものとして説明される１つ以上の機能を実行してよい。

ビデオ圧縮の枠組みは、以下に説明され得る。入力ビデオxは、複数の画像フレームx_１、．．．，x_Tを含んでよい。ここで、Tはビデオの中のフレームの総数を表す。フレームは、空間ブロックにパーティションされてよく、各ブロックはより小さなブロックに繰り返しパーティションされることができる。パーティションのために任意の適切な方法が使用されてよい。例えば、３Dツリーコーディング（例えば、８分木パーティション）が使用されてよい。パーティション済みブロックは、ルマコンポーネント及びクロマコンポーネントの両方を含んでよい。イントラ予測処理中に、ルマコンポーネントが先ず予測されてよく、次に、２つのクロマチャネルが後に予測されてよい。実施形態によると、両方のクロマチャネルの予測は、共同で又は別個に生成されてよい。再構成クロマコンポーネントは、エンコーダ及びデコーダの両方で、DNNに基づくモデルにより生成されてよい。幾つかの実施形態では、再構成クロマコンポーネントは、デコーダでのみ、DNNに基づくモデルにより生成されてよい。

実施形態によると、信号処理、空間又は時間フィルタリング、スケーリング、加重平均、アップ／ダウンサンプリング、プーリング、メモリによる再帰処理、線形システム処理、非線形システム処理、ニューラルネットワーク処理、深層学習に基づく処理、AI処理、予めトレーニングされたネットワーク処理、機械学習に基づく処理、又はそれらの組み合わせを含む１つ以上の処理は、画像フレームの前処理及び／又は画像フレームの後処理のために、モジュールとして使用できる。

図３は、実施形態によると、符号化又は復号中の低ビット精度の例示的な深層ニューラルネットワーク（DNN）に基づくクロスコンポーネント予測処理（３００）の図である。図３に示すように、処理３００は、ニューラルネットワークモデル（３０２）、及び再構成品質計算（３０４）を含んでよい。

（例えば、符号化中に）ルマコンポーネント又は（例えば復号中に）再構成ルマコンポーネント、特定のサイド情報、又は隣接ルマ参照ブロック及び隣接クロマ参照ブロックに関連する情報が、ニューラルネットワークモデル（３０２）の入力として与えられると、ニューラルネットワークモデル（３０２）は、トレーニングされ、及び共同で推定を実行できる。

幾つかの実施形態では、ニューラルネットワークモデル（３０２）は、ニューラルネットワークモデル（３０２）を用いて符号化又は復号する前又は後の時間に微調整される予めトレーニングされたモデルであってよい。幾つかの実施形態では、ニューラルネットワークモデル（３０２）は、予めトレーニングされてよいが、各々の符号化又は復号中に、推定加速及び連続チューニングを利用して連続的に更新されてよい。連続更新のために、幾つかの実施形態では、ニューラルネットワークモデル（３０２）は、カスタマイズされたハードウェアプロセッサによりサポートされてよく、トレーニング中に使用される低精度浮動小数点表現によりサポートされてもよい。

実施形態によると、追加サイド情報は、限定ではないが、ルマコンポーネント、ブロックサイズ、ブロックコンポーネント、量子化パラメータ（QP）値、等を含むエンコーダにより提供される画像特性及び情報を含んでよい。

ニューラルネットワークモデル（３０２）の出力は、予測されたクロマコンポーネントであってよい。２つのクロマチャネルは、異なるニューラルネットワークに基づくモデルを使用するか、又は同じものを使用してもよい。本開示の実施形態は結合を許容し、これらのコンポーネントが入力としてどのように使用されるかの連結又は順序は任意に変更できる。

予測されたクロマコンポーネントは、再構成クロマブロックを生成するために、再構成品質計算（３０４）への入力として使用されてよい。幾つかの実施形態では、再構成品質計算（３０４）は、他の予測モードからのクロマブロックを入力として使用してもよい。幾つかの実施形態では、再構成品質計算（３０４）は、再構成クロマブロックに関連付けられた元のクロマブロックを受信してよく、圧縮品質を決定し、ニューラルネットワークモデルの１つ以上のパラメータが更新される必要があるか又は更新されてよいか、従ってニューラルネットワークモデルを更新するかを決定する。

実施形態によると、低精度の予めトレーニングされたニューラルネットワークに基づくモデルの部分的（又は全体の）パラメータを更新することにより、１つの又は幾つかの再構成コンポーネントに対するより良い圧縮性能が、入力ビデオについて最適化できる。デフォルトモデルパラメータ精度は、大部分の現在のニューラルネットワークにおいてFP３２であるが（特定のハードウェアはFP６４モデルトレーニングをサポートする場合がある）、推定段階に来ると、FP１６、INT８、INT４、INT２、及びINT１のような低ビット精度が特定のハードウェアプラットフォームによりサポートされる場合がある。低ビット精度は、圧縮性能と全体の処理時間との間のトレードオフであり得る。

ニューラルネットワークに基づくクロスコンポーネント予測モデルの学習速度及び正確さを向上するために、幾つかの追加パラメータが、本開示のニューラルネットワークに基づくクロスコンポーネント予測モデルに追加されてよい。これらの１つ以上の追加パラメータは、初期トレーニング、微調整、又は連続調整の間に、学習可能なパラメータとして追加されてよい。トレーニング中、追加パラメータは、入力ビデオシーケンスに基づきレート歪み損失を最適化することにより学習できる。

一実施形態によると、クロスコンポーネント予測のためのニューラルネットワークに基づくモデルは、微調整されてよく、又は単一ビデオシーケンスに基づき連続的に更新されてよい。一実施形態によると、クロスコンポーネント予測のためのニューラルネットワークに基づくモデルは、微調整されてよく、又はビデオシーケンスのセットに基づき連続的に更新されてよい。

実施形態によると、ニューラルネットワークに基づくモデルは予めトレーニングされてよい。一実施形態によると、ニューラルネットワークモデルの１つのレイヤ又は特定のタイプのレイヤのみの中の１つ以上のパラメータは、更新されてよく、新しいモデルが生成される。他の好適な実施形態では、パラメータは、ニューラルネットワークモデルの複数の又は全部のレイヤで更新される。一実施形態では、１つ以上のバイアス項／パラメータのみが、低ビット精度で最適化され更新されてよい。一実施形態では、１つ以上の重み（係数）項／パラメータが、低ビット精度で最適化され更新されてよい。一実施形態では、１つ以上のバイアスパラメータ及び１つ以上の重み項／パラメータの両方が、共同で最適化され、又は低ビット精度で一緒に最適化され更新されてよい。

トレーニング及び／又は微調整の終わりに、更新済みパラメータが計算されてよい。実施形態では、圧縮性能は、更新済みパラメータと既存の予めトレーニングされたパラメータとの間で計算されてよい。実施形態では、更新済みパラメータは、微調整パラメータである。つまり、ニューラルネットワークモデルは、微調整パラメータにより更新され、既存の予めトレーニングされたパラメータを置き換えてよい。他の好適な実施形態では、更新済みパラメータは、微調整済みパラメータの幾つかの特定の変換であってよい。

実施形態によると、データ圧縮が、更新済みパラメータに対して実行されてよい。例えば、LZMA２アルゴリズムが、更新済みパラメータの圧縮に使用されてよい。実施形態では、圧縮が実行されなくてよい。

ここに開示されるニューラルネットワークに基づくクロスコンポーネント予測方法と比べると、イントラ予測モードにおけるクロスコンポーネント予測方法は、より良い圧縮品質を有してよい。幾つかの実施形態によると、最適化されるべき１つ以上のパラメータは、低ビット精度で更新されてよく、特定のビデオをオンライントレーニングの入力として、圧縮性能を向上する。更に、低ビット精度でパラメータを更新する及び／又は微調整することにより、更新済みパラメータは、低ビット精度になり、これは、推定処理を高速化し、処理時間を短縮できる。

図４は、実施形態によると、符号化又は復号中の低ビット精度の深層ニューラルネットワーク（deep neural network （DNN））に基づくクロスコンポーネント予測のための処理４００のフローチャートを示す。処理４００は、エンコーダ又はデコーダ又はその両者を用いて実行されてよい。

動作４０５で、クロマコンポーネントは、クロマ予測のための予めトレーニングされた深層ニューラルネットワーク（DNN）クロスコンポーネント予測（cross component prediction （CCP））モデルを用いて、受信したルマコンポーネントに基づき再構成されてよい。クロマコンポーネントは、クロマ予測のための予めトレーニングされたニューラルネットワークモデルを用いて、ルマコンポーネントに基づき再構成されてよい。幾つかの実施形態では、動作４０５で、ルマコンポーネントが受信されてよい。幾つかの例では、ルマコンポーネントは、既に再構成されていてよい。

動作４１０で、予めトレーニングされたDNN CCPモデルの１つ以上のパラメータは、低ビット精度で更新されてよい。

動作４１５で、クロマ予測のための予めトレーニングされたニューラルネットワークモデルは、低ビット精度で更新されてよい。幾つかの実施形態では、予めトレーニングされたニューラルネットワークモデルを更新することは、低ビット精度で予めトレーニングされたニューラルネットワークモデルの１つ以上のパラメータを最適化することを含んでよい。幾つかの実施形態では、低ビット精度でクロマ予測のための予めトレーニングされたニューラルネットワークモデルを更新することは、単一ビデオシーケンス又はビデオシーケンスのセットに基づき更新することを含んでよい。

再構成クロマコンポーネントは、予測されたクロマコンポーネント、及び予測モードのセットを用いてコーディングされた１つ以上のクロマコンポーネントに基づき、生成されてよい。実施形態によると、再構成クロマコンポーネントを生成することは、予測されたクロマコンポーネントの品質計算に基づいてよい。ここで、予測されたクロマコンポーネントの品質計算は、他の予測モードからの１つ以上のクロマコンポーネント、及び予測されたクロマコンポーネントに関連付けられた元のクロマコンポーネントに基づいてよい。

動作４２０で、更新済みDNN CCPモデルは、短縮した処理時間で、少なくとも１つのビデオシーケンスのクロスコンポーネント予測に使用されてよい。

幾つかの実施形態では、予めトレーニングされたニューラルネットワークモデルを更新することは、低ビット精度で予めトレーニングされたニューラルネットワークモデルの１つ以上のレイヤの中から１つ以上のパラメータを最適化することを含んでよい。幾つかの実施形態では、低ビット精度で最適化されている１つ以上のパラメータは、１つ以上のバイアスパラメータを含んでよい。幾つかの実施形態では、低ビット精度で最適化されている１つ以上のパラメータは、１つ以上の重みパラメータを含んでよい。幾つかの実施形態では、低ビット精度の最適化子である１つ以上のパラメータは、１つ以上のバイアスパラメータ及び１つ以上の重みパラメータの共同最適化を含んでよい。

幾つかの実施形態では、１つ以上のレイヤは、予めトレーニングされたニューラルネットワークモデルの１つ以上の畳み込みレイヤを含んでよい。幾つかの実施形態では、１つ以上のレイヤは、予めトレーニングされたニューラルネットワークモデルの最終レイヤのセットを含んでよい。

幾つかの実施形態では、更新するステップは、
１つ以上の倍率で最適化された１つ以上のパラメータを含む更新済みニューラルネットワークモデルの第１圧縮性能を計算するステップと、
１つ以上の関連パラメータを含む予めトレーニングされたニューラルネットワークの第２圧縮性能を計算すステップと、
第１圧縮性能及び第２圧縮性能の比較が閾値より高いことに基づき、１つ以上の倍率により最適化された１つ以上のパラメータを含むよう、予めトレーニングされたニューラルネットワークモデルを更新するかどうかを決定する、ステップと、
を含んでよい。

図５は、開示の主題の適用の一例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示の主題は、例えばビデオ会議、デジタルTV、CD、DVD、メモリスティック、等を含むデジタル媒体への圧縮ビデオの格納、他のビデオ可能アプリケーション、等に等しく適用可能である。

ストリーミングシステムは、例えば非圧縮ビデオサンプルストリーム（５０２）を生成するビデオソース（５０１）、例えばデジタルカメラを含み得るキャプチャサブシステム（５１３）を含んでよい。サンプルストリーム（５０２）は、符号化ビデオビットストリームと比べるとき高データ容量を強調するために太線で示され、カメラ（５０１）に結合されるエンコーダ（５０３）により処理できる。エンコーダ（５０３）は、ハードウェア、ソフトウェア、又はそれらの組み合わせを含み、以下に詳述するように開示の主題の態様を可能にし又は実装することができる。符号化ビデオビットストリーム（５０４）は、サンプルストリームと比べたとき、低データ容量を強調するために細線で示され、将来の使用のためにストリーミングサーバ（５０５）に格納できる。１つ以上のストリーミングクライアント（５０６、５０８）は、ストリーミングサーバ（５０５）にアクセスして、符号化ビデオビットストリーム（５０４）のコピー（５０７、５０９）を読み出すことができる。クライアント（５０６）は、ビデオデコーダ（５１０）を含むことができる。ビデオデコーダ（３１０）は、符号化ビットストリーム（５０７）の入来するコピーを復号し、ディスプレイ（５１２）又は他のレンダリング装置（図示しない）においてレンダリング可能な出力ビデオサンプルストリーム（５１１）を生成する。幾つかのストリーミングシステムでは、ビデオビットストリーム（５０４、５０７、５０９）は、特定のビデオコーディング／圧縮規格に従い符号化できる。それらの規格の例は、H．２６５ HEVCを含む。策定中のビデオ符号化標準は、略式にVVC（Versatile Video Coding）として知られている。開示の主題は、VVCの文脈で使用されてよい。

図６は、本開示の一実施形態によるビデオデコーダ５１０のブロック図を示す。

受信機（６１０）は、ビデオデコーダ（６１０）により復号されるべき１つ以上のコーディングビデオシーケンス、同じ又は別の実施形態では、一度に１つのコーディングビデオシーケンスを受信してよい。ここで、各コーディングビデオシーケンスの復号は、他のコーディングビデオシーケンスと独立している。コーディングビデオシーケンスは、符号化ビデオデータを格納する記憶装置へのハードウェア／ソフトウェアリンクであってよいチャネル（６１２）から受信されてよい。受信機（６１０）は、他のデータ、例えば、各々の使用エンティティ（図示しない）へと転送され得るコーディング音声データ及び／又は補助データストリームと共に、符号化ビデオデータを受信してよい。受信機（６１０）は、他のデータからコーディングビデオシーケンスを分離してよい。ネットワークジッタを除去するために、バッファメモリ（６１５）は、受信機（６１０）とエントロピーデコーダ／パーサ（６２０）（以後、「パーサ」）との間に接続されてよい。受信機（６１０）が、十分な帯域幅の記憶／転送装置から制御可能に、又はアイソクロナス（isosynchronous）ネットワークから、データを受信しているとき、バッファ（６１５）は、必要なくてよく又は小さくできる。インターネットのようなベストエフォート型パケットネットワークで使用する場合、バッファ（６１５）が必要であってよく、比較的大きくすることができ、有利なことに適応サイズにすることができる。

ビデオデコーダ（５１０）は、エントロピーコーディングビデオシーケンスからシンボル（６２１）を再構成するために、パーサ（６２０）を含んでよい。これらのシンボルのカテゴリは、デコーダ（５１０）の動作を管理するために使用される情報、及び場合によっては図６に示したようにデコーダの統合部分ではないがデコーダに接続され得るディスプレイ（５１２）のようなレンダリング装置を制御するための情報を含む。レンダリング装置のための制御情報は、SEI（Supplementary Enhancement Information）メッセージ又はVUI（Video Usability Information）パラメータセットフラグメント（図示しない）の形式であってよい。パーサ（６２０）は、受信された符号かビデオシーケンスをパース／エントロピー復号してよい。コーディングビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト依存関係を有する又は有しない算術コーディング、等を含む、当業者によく知られた原理に従うことができる。パーサ６２０は、符号化ビデオシーケンスから、ビデオデコーダの中のピクセルのサブグループのうちの少なくとも１つについて、該グループに対応する少なくとも１つのパラメータに基づき、サブグループパラメータのセットを抽出してよい。サブグループは、GOP（Groups of Picture）、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット（Coding Units：CU）、ブロック、変換ユニット（Transform Units：TU）予測ユニット（Prediction Units：PU）、等を含み得る。エントロピーデコーダ／パーサは、符号化ビデオシーケンスから、変換係数、量子化パラメータ（quantizer parameter（QP））値、動きベクトル、等のような情報も抽出してよい。

パーサ（６２０）は、バッファ（６１５）から受信したビデオシーケンスに対してエントロピー復号／パース動作を実行して、シンボル（６２１）を生成してよい。パーサ６２０は、符号化データを受信し、及び特定のシンボル６２１を選択的に復号してよい。さらに、パーサ６２０は、特定のシンボル６２１が動き補償予測ユニット６５３、スケーラ／逆変換ユニット６５１、イントラ予測ユニット６５２、又はループフィルタ６５６に提供されるべきか否かを決定してよい。

シンボル（６２１）の再構成は、コーディングビデオピクチャ又はその部分の種類（例えば、インター及びイントラピクチャ、インター及びイントラブロック）及び他の要因に依存して、複数の異なるユニットを含み得る。どのユニットがどのように含まれるかは、パーサ（６２０）によりコーディングビデオシーケンスからパースされたサブグループ制御情報により制御できる。パーサ（６２０）と以下の複数のユニットとの間のこのようなサブグループ制御情報のフローは、明確さのために示されない。

既に言及した機能ブロックを超えて、デコーダ（５１０）は、後述のように、多数の機能ユニットに概念的に細分化されてよい。商用的制約の下で動作する実際の実装では、これらのユニットの多くは、互いに密に相互作用し、少なくとも部分的に互いに統合され得る。しかしながら、開示の主題を説明する目的で、機能ユニットへの以下の概念的細分化は適切である。

第１ユニットは、スケーラ／逆変換ユニット６５１である。スケーラ／逆変換ユニット（６５１）は、量子化された変換係数、及び、どの変換が使用されるべきか、ブロックサイズ、量子化係数、量子化スケーリングマトリクス、等を含む制御情報を、パーサ（６２０）からのシンボル（６２１）として受信する。これは、アグリゲータ（６５５）に入力され得るサンプル値を含むブロックを出力できる。

幾つかの例では、スケーラ／逆変換（６５１）の出力サンプルは、イントラコーディングブロック、つまり、前に再構成されたピクチャからの予測情報を使用しないが現在ピクチャの前に再構成された部分からの予測情報を使用可能なブロックに関連してよい。このような予測情報は、イントラピクチャ予測ユニット（６５２）により提供できる。幾つかの場合には、イントラピクチャ予測ユニット（６５２）は、再構成中のブロックと同じサイズ及び形状のブロックを、現在（部分的に再構成された）ピクチャ（６６６）からフェッチした周囲の既に再構成された情報を用いて、生成する。アグリゲータ（６５５）は、幾つかの場合には、サンプル毎に、イントラ予測ユニット（６５２）の生成した予測情報を、スケーラ／逆変換ユニット（６５１）により提供された出力サンプル情報に追加する。

他の場合には、スケーラ／逆変換ユニット（６５１）の出力サンプルは、インターコーディングされた、場合によっては動き補償されたブロックに関連し得る。このような場合には、動き補償予測ユニット（６５３）は、参照ピクチャメモリ（６５７）にアクセスして、予測のために使用されるサンプルをフェッチできる。ブロックに関連するシンボル（６２１）に従いフェッチしたサンプルを動き補償した後に、これらのサンプルは、アグリゲータ（６５５）により、出力サンプル情報を生成するために、スケーラ／逆変換ユニットの出力に追加され得る（この場合、残差サンプル又は残差信号と呼ばれる）。動き補償予測ユニットが予測サンプルをフェッチする参照ピクチャメモリ内のアドレスは、例えばＸ、Ｙ及び参照ピクチャコンポーネントを有し得るシンボル（６２１）の形式で、動き補償予測ユニットの利用可能な動きベクトルにより制御できる。動き補償は、サブサンプルの正確な動きベクトルが使用中であるとき参照ピクチャメモリからフェッチされたサンプル値の補間、動きベクトル予測メカニズム、等も含み得る。

アグリゲータ（６５５）の出力サンプルは、ループフィルタユニット（６５６）において種々のループフィルタリング技術を受け得る。ビデオ圧縮技術は、コーディングビデオビットストリームに含まれ且つパーサ（６２０）からのシンボル（６２１）としてループフィルタユニット（６５６）に利用可能にされたパラメータにより制御されるが、コーディングピクチャ又はコーディングビデオシーケンスの（復号順序で）前の部分の復号中に取得されたメタ情報にも応答し、前に再構成されループフィルタリングされたサンプル値にも応答し得るインループフィルタ技術を含み得る。

ループフィルタユニット（６５６）の出力は、レンダー装置（５１２）へと出力でき及び将来のインターピクチャ予測で使用するために参照ピクチャメモリ（６６６）に格納され得るサンプルストリームであり得る。

特定のコーディングピクチャは、一旦完全に再構成されると、将来の予測のための参照ピクチャとして使用できる。コーディングピクチャが完全に再構成され、コーディングピクチャが（例えばパーサ（６２０）により）参照ピクチャとして識別されると、現在参照ピクチャ（６６６）は、参照ピクチャバッファ（６５７）の一部になることができ、後続のコーディングピクチャの再構成を開始する前に、新鮮な現在ピクチャメモリを再割り当てできる。

ビデオデコーダ（５１０）はH．２６５ HEVCのような規格で策定され得る所定のビデオ圧縮技術に従い復号動作を実行してよい。コーディングビデオシーケンスが、ビデオ圧縮技術又は規格で、具体的にはその中のプロファイル文書で指定された、ビデオ圧縮技術又は規格のシンタックスに従うという意味で、コーディングビデオシーケンスは、使用中のビデオ圧縮技術又は規格により指定されたシンタックスに従ってよい。また、遵守のために必要なことは、コーディングビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルにより定められる限界の範囲内であることであり得る。幾つかの場合には、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（例えばメガサンプル／秒で測定される）、最大参照ピクチャサイズ、等を制限する。レベルにより設定される限界は、幾つかの場合には、HRD（Hypothetical Reference Decoder）仕様及びコーディングビデオシーケンスの中でシグナリングされるHRDバッファ管理のためのメタデータを通じて更に制限され得る。

実施形態では、受信機（６１０）は、符号化ビデオと共に追加（冗長）データを受信してよい。追加データは、コーディングビデオシーケンスの部分として含まれてよい。追加データは、データを正しく復号するため及び／又は元のビデオデータをより正確に再構成するために、ビデオデコーダ５１０により使用されてよい。追加データは、例えば、時間的、空間的、又は信号雑音比（SNR）の拡張レイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号、等の形式であり得る。

図７は、本開示の一実施形態によるビデオエンコーダ（５０３）の機能ブロック図であり得る。

エンコーダ（５０３）は、ビデオサンプルを、エンコーダ（５０３）によりコーディングされるべきビデオ画像をキャプチャし得るビデオソース（５０１）（エンコーダの部分ではない）から受信してよい。

ビデオソース（５０１）は、エンコーダ（５０３）によりコーディングされるべきソースビデオシーケンスを、任意の適切なビット深さ（例えば、８ビット、１０ビット、１２ビット、．．．）、任意の色空間（例えば、BT.６０１ Y CrCb, RGB,．．．）、及び任意の適切なサンプリング構造（例えば、Y CrCb ４:２:０, Y CrCb ４:４:４）のデジタルビデオサンプルストリームの形式で、提供してよい。メディア提供システムでは、ビデオソース（５０１）は、前に準備されたビデオを格納する記憶装置であってよい。ビデオ会議システムでは、ビデオソース（５０３）は、ビデオシーケンスとしてローカル画像情報をキャプチャするカメラであってよい。ビデオデータは、続けて閲覧されると動きを与える複数の個別ピクチャとして提供されてよい。ピクチャ自体は、ピクセルの空間的配列として組織化されてよい。各ピクセルは、使用中のサンプリング構造、色空間、等に依存して、１つ以上のサンプルを含み得る。当業者は、ピクセルとサンプルとの間の関係を直ちに理解できる。以下の説明はサンプルに焦点を当てる。

一実施形態によると、エンコーダ（５０３）は、ソースビデオシーケンスのピクチャを、コーディングビデオシーケンス（７４３）へと、リアルタイムに又はアプリケーションにより要求される任意の他の時間制約の下でコーディングし圧縮してよい。適切なコーディング速度の実施は、制御部（７５０）の１つの機能である。制御部（７５０）は、後述するように他の機能ユニットを制御してよく、これらのユニットに機能的に結合される。結合は、明確さのために図示されない。制御部により設定されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、等）、ピクチャサイズ、GOP（group of pictures）レイアウト、最大動きベクトル探索範囲、等を含み得る。当業者は、特定のシステム設計のために最適化されたビデオエンコーダ（５０３）に関連し得るとき、制御部（７５０）の他の機能を直ちに識別できる。

幾つかのビデオエンコーダは、当業者が「コーディングループ」として直ちに認識する中で動作する。非常に簡略化した説明として、コーディングループは、エンコーダ（７３０）（以後、「ソースコーダ」）（コーディングされるべき入力ピクチャと参照ピクチャとに基づき、シンボルを生成する）及びエンコーダ（５０３）内に組み込まれ、シンボルを再構成して、（シンボルとコーディングビデオビットストリームとの間の任意の圧縮が開示の主題において考慮されるビデオ圧縮技術の中で無損失であるとき）（リモート）デコーダが生成し得るサンプルデータを生成する（ローカル）デコーダ（７３３）の符号化部分を含むことができる。再構成されたサンプルストリームは、参照ピクチャメモリ７３４に入力される。シンボルストリームの復号が、デコーダ位置（ローカル又はリモート）と独立にビット正確な結果をもたらすとき、参照ピクチャバッファの内容も、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えると、エンコーダの予測部分が、復号中に予測を用いるときデコーダが「見る」のと正確に同じサンプル値を、参照ピクチャサンプルとして「見る」。参照ピクチャ同期性のこの基本原理（及び、例えばチャネルエラーのために同期性が維持できない場合には、結果として生じるドリフト）は、当業者によく知られている。

「ローカル」デコーダ（７３３）の動作は、図１６と関連して以上に詳述した「リモート」デコーダ（５１０）のものと同じであり得る。簡単に図１６も参照すると、しかしながら、シンボルが利用可能であり、エントロピーコーダ（７４５）及びパーサ（６２０）によるコーディングビデオシーケンスへのシンボルの符号化／復号が無損失であり得るので、チャネル（６１２）、受信機（６１０）、バッファ（６１５）、及びパーサ（６２０）を含むデコーダ（５１０）のエントロピー復号部分は、ローカルデコーダ（７３３）に完全に実装されなくてよい。

この点で行われる考察は、デコーダ内に存在するパース／エントロピー復号を除く任意のデコーダ技術も、対応するエンコーダ内と実質的に同一の機能形式で存在する必要があるということである。エンコーダ技術の説明は、それらが包括的に説明されるデコーダ技術の逆であるので、省略できる。特定の領域においてのみ、より詳細な説明が必要であり、以下に提供される。

動作中、幾つかの例では、ソースコーダ（７３０）は、動き補償された予測コーディングを実行してよい。これは、「参照フレーム」として指定されたビデオシーケンスからの１つ以上の前にコーディングされたフレームを参照して予測的に入力フレームをコーディングする。この方法では、コーディングエンジン（７３２）は、入力フレームのピクセルブロックと、入力フレームに対する予測基準として選択されてよい参照フレームのピクセルブロックとの間の差分をコーディングする。

ローカルビデオデコーダ（７３３）は、ソースコーダ（７３０）により生成されたシンボルに基づき、参照フレームとして指定されてよいフレームのコーディングビデオデータを復号してよい。コーディングエンジン（７３２）の動作は、有利なことに、損失処理であってよい。コーディングビデオデータがビデオデコーダ（図１７に図示されない）において復号され得るとき、再構成ビデオシーケンスは、標準的に、幾つかのエラーを有するソースビデオシーケンスの複製であってよい。ローカルビデオデコーダ（７３３）は、参照フレームに対してビデオデコーダにより実行され得る復号処理を複製し、参照ピクチャキャッシュ（７３４）に格納されるべき再構成参照フレームを生じ得る。このように、エンコーダ（５０３）は、（伝送誤りが無ければ）遠端ビデオデコーダにより取得される再構成参照フレームと共通の内容を有する再構成参照フレームのコピーをローカルに格納してよい。

予測器（７３５）は、コーディングエンジン（７３２）のために予測探索を実行してよい。つまり、コーディングされるべき新しいフレームについて、予測器（７３５）は、新しいピクチャのための適切な予測基準として機能し得る（候補参照ピクセルブロックのような）サンプルデータ又は参照ピクチャ動きベクトル、ブロック形状、等のような特定のメタデータについて、参照ピクチャメモリ（７３４）を検索してよい。予測器（７３５）は、適切な予測基準を見付けるために、サンプルブロック－ピクセルブロック毎に動作してよい。幾つかの例では、予測器（７３５）により取得された検索結果により決定されるように、入力ピクチャは、参照ピクチャメモリ（７３４）に格納された複数の参照ピクチャから引き出された予測基準を有してよい。

制御部（７５０）は、例えば、ビデオデータの符号化のために使用されるパラメータ及びサブグループパラメータの設定を含む、ビデオコーダ（７３０）のコーディング動作を管理してよい。

全ての前述の機能ユニットの出力は、エントロピーコーダ（７４５）におけるエントロピーコーディングを受けてよい。エントロピーコーダは、ハフマンコーディング、可変長コーディング、算術コーディング、等のような当業者によく知られた技術に従いシンボルを無損失圧縮することにより、種々の機能ユニットにより生成されたシンボルを、コーディングビデオシーケンスへと変換する。

送信機（７４０）は、コーディングビデオデータを格納し得る記憶装置へのハードウェア／ソフトウェアリンクであってよい通信チャネル（７６０）を介する伝送のために準備するために、エントロピーコーダ（７４５）により生成されたコーディングビデオシーケンスをバッファリングしてよい。送信機（７４０）は、ビデオコーダ（７３０）からのコーディングビデオデータを、送信されるべき他のデータ、例えばコーディング音声データ及び／又は補助データストリーム（図示されないソース）とマージ（merge）してよい。

制御部（７５０）は、エンコーダ（５０３）の動作を管理してよい。コーディング中、制御部（７５０）は、各々のピクチャに適用され得るコーディング技術に影響し得る特定のコーディングピクチャタイプを、各コーディングピクチャに割り当ててよい。例えば、ピクチャは、多くの場合、以下のピクチャタイプのうちの１つとして割り当てられてよい。

イントラピクチャ（Iピクチャ）は、予測のソースとしてシーケンス内の任意の他のフレームを使用せずにコーディング及び復号され得るピクチャであってよい。幾つかのビデオコーデックは、例えばIDR（Independent Decoder Refresh）ピクチャを含む異なる種類のイントラピクチャを許容する。当業者は、Iピクチャの変形、及びそれらの個々の適用及び特徴を認識する。

予測ピクチャ（Pピクチャ）は、殆どの場合、各ブロックのサンプル値を予測するために１つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測を用いてコーディング及び復号され得るピクチャであってよい。

双方向予測ピクチャ（Bピクチャ、Bi-directionally Predictive Picture （B Picture））は、各ブロックのサンプル値を予測するために最大で２つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測を用いてコーディング及び復号され得るピクチャであってよい。同様に、マルチ予測ピクチャは、単一のブロックの再構成のために、２つより多くの参照ピクチャ及び関連付けられたメタデータを使用できる。

ソースピクチャは、一般に、複数のサンプルブロック（例えば、各々４×４、８×８、４×８、又は１６×１６個のサンプルのブロック）に空間的に細分化され、ブロック毎にコーディングされてよい。ブロックは、ブロックの各々のピクチャに適用されるコーディング割り当てにより決定される他の（既にコーディングされた）ブロックへの参照により予測的にコーディングされてよい。例えば、Iピクチャのブロックは、非予測的にコーディングされてよく、又はそれらは同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされてよい（空間予測又はイントラ予測）。Pピクチャのピクセルブロックは、１つの前にコーディングされた参照ピクチャを参照して、空間予測を介して又は時間予測を介して、予測的にコーディングされてよい。Bピクチャのブロックは、１つ又は２つの前にコーディングされた参照ピクチャを参照して、空間予測を介して又は時間予測を介して、非予測的にコーディングされてよい。

ビデオコーダ（５０３）はH．２６５ HEVCのような所定のビデオコーディング技術又は規格に従いコーディング動作を実行してよい。その動作において、ビデオコーダ（５０３）は、入力ビデオシーケンスの中の時間的及び空間的冗長性を利用する予測コーディング動作を含む種々の圧縮動作を実行してよい。コーディングビデオデータは、従って、使用されているビデオコーディング技術又は規格により指定されたシンタックスに従ってよい。

一実施形態では、送信機（７４０）は、符号化ビデオと共に追加データを送信してよい。ビデオコーダ（７３０）は、このようなデータをコーディングビデオシーケンスの部分として含んでよい。追加データは、時間／空間／SNR拡張レイヤ、冗長ピクチャ及びスライスのような他の形式の冗長データ、SEI（Supplementary Enhancement Information）メッセージ、VUI（Visual Usability Information）パラメータセットフラグメント、等を含んでよい。

本開示は、動き情報がビデオ符号化のためのツリー分割中に考慮される、幾つかのブロックパーティション方法を対象としている。より具体的には、本開示の技術は、動きフィールド情報に基づく柔軟なツリー構造のためのツリー分割方法に関する。本開示で提案された技術は、同種及び異種の導出された動きフィールドの両方に適用されてよい。

ブロックの導出された動きフィールドは、導出された動きフィールドがブロック内の全部のサブブロックに利用可能であり、導出された動きフィールド内の全部の動きベクトルが同様であるならば、例えば、動きベクトルが同じ参照フレームを共有し、動きベクトル間の絶対差が全部特定の閾値より低いならば、同種であると定義される。閾値は、ビットストリーム内でシグナリングされるか、又は予め定められてよい。

ブロックの導出された動きフィールドは、導出された動きフィールドがブロック内の全部のサブブロックに利用可能であり、導出された動きフィールド内の動きベクトルが同様ではないならば、例えば、少なくとも１つの動きベクトルが他の動きベクトルにより参照されない参照フレームを参照するか、又はフィールド内の２つの動きベクトル間の少なくとも１つの絶対差がシグナリングされた又は所定の閾値より大きいならば、異種であると定義される。

本開示は、幾つかの例示的な実施形態を記載したが、代替、置換、及び種々の代用の均等物が存在し、それらは本開示の範囲に包含される。当業者に明らかなことに、ここに明示的に示され又は説明されないが、本開示の原理を実施し、従って、本開示の精神及び範囲に含まれる多数のシステム及び方法を考案可能である。

Claims

復号中の低ビット精度のニューラルネットワーク（NN）に基づくクロスコンポーネント予測のための方法であって、前記方法は、１つ以上のプロセッサにより実行され、前記方法は、
クロマ予測のための予めトレーニングされた深層ニューラルネットワーク（DNN）クロスコンポーネント予測（CCP）モデルを用いて受信したルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、
低ビット精度の前記予めトレーニングされたDNN CCPモデルの１つ以上のパラメータを更新するステップと、
少なくとも１つのビデオシーケンスに基づき、低ビット精度のクロマ予測のための更新済みDNN CCPモデルを生成するステップと、
短縮した処理時間で、前記少なくとも１つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用するステップと、
を含む方法。
前記予めトレーニングされたDNN CCPモデルの前記１つ以上のパラメータを更新するステップは、低ビット精度の前記予めトレーニングされたDNN CCPモデルの１つ以上のパラメータを更新するステップを含む、請求項１に記載の方法。
前記予めトレーニングされたDNN CCPモデルの前記１つ以上のパラメータを更新するステップは、低ビット精度の前記予めトレーニングされたDNN CCPモデルの１つ以上のレイヤの中から前記１つ以上のパラメータを更新するステップを含む、請求項２に記載の方法。
低ビット精度のクロマ予測のための前記予めトレーニングされたDNN CCPモデルの１つ以上のパラメータを更新するステップは、複数のビデオシーケンスに基づき更新するステップを更に含む、請求項１に記載の方法。
低ビット精度で更新される前記１つ以上のパラメータは、１つ以上のバイアスパラメータを含む、請求項２に記載の方法。
低ビット精度で更新される前記１つ以上のパラメータは、１つ以上の重みパラメータを含む、請求項２に記載の方法。
前記１つ以上のパラメータが低ビット精度で更新されることは、１つ以上のバイアスパラメータ及び１つ以上の重みパラメータの共同更新を含む、請求項２に記載の方法。
前記１つ以上のレイヤは、前記予めトレーニングされたDNN CCPモデルの１つ以上の畳み込みレイヤを含む、請求項３に記載の方法。
前記１つ以上のレイヤは、前記予めトレーニングされたDNN CCPモデルの最終レイヤのセットを含む、請求項３に記載の方法。
前記１つ以上のレイヤは、同じレイヤプロパティを有する前記予めトレーニングされたDNN CCPモデルの全部のレイヤを含む、請求項３に記載の方法。
前記再構成されたクロマコンポーネントの品質計算は、他の予測モードからの１つ以上のクロマコンポーネント、及び前記再構成されたクロマコンポーネントに関連付けられた元のクロマコンポーネントに基づく、請求項１に記載の方法。
更新するステップは、
低ビット精度で更新された１つ以上のパラメータを含む更新済みDNN CCPモデルの第１圧縮性能を計算するステップと、
１つ以上の関連パラメータを含む前記予めトレーニングされたDNN CCPモデルの第２圧縮性能を計算すステップと、
前記第１圧縮性能及び前記第２圧縮性能の比較が閾値より高いことに基づき、低ビット精度の前記１つ以上のパラメータを含むよう、前記予めトレーニングされたDNN CCPモデルを更新するかどうかを決定する、ステップと、
を更に含む請求項１に記載の方法。
復号中の低ビット精度のニューラルネットワーク（NN）に基づくクロスコンポーネント予測のための機器であって、前記機器は、請求項１～１２のいずれか一項に記載の方法を実行する機器。
復号中の低ビット精度のニューラルネットワーク（NN）に基づくクロスコンポーネント予測のためのコンピュータプログラムであって、少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサに、請求項１～１２のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
符号化中の低ビット精度のニューラルネットワーク（NN）に基づくクロスコンポーネント予測のための方法であって、前記方法は、１つ以上のプロセッサにより実行され、前記方法は、
クロマ予測のための予めトレーニングされた深層ニューラルネットワーク（DNN）クロスコンポーネント予測（CCP）モデルを用いて受信したルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、
低ビット精度の前記予めトレーニングされたDNN CCPモデルの１つ以上のパラメータを更新するステップと、
少なくとも１つのビデオシーケンスに基づき、低ビット精度のクロマ予測のための更新済みDNN CCPモデルを生成するステップと、
短縮した処理時間で、前記少なくとも１つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用するステップと、
を含む方法。