JP2023542029A - 低ビット精度のニューラルネットワーク(nn)に基づくクロスコンポーネント予測のための方法、機器、及びコンピュータプログラム - Google Patents

低ビット精度のニューラルネットワーク(nn)に基づくクロスコンポーネント予測のための方法、機器、及びコンピュータプログラム Download PDF

Info

Publication number
JP2023542029A
JP2023542029A JP2023518069A JP2023518069A JP2023542029A JP 2023542029 A JP2023542029 A JP 2023542029A JP 2023518069 A JP2023518069 A JP 2023518069A JP 2023518069 A JP2023518069 A JP 2023518069A JP 2023542029 A JP2023542029 A JP 2023542029A
Authority
JP
Japan
Prior art keywords
parameters
prediction
bit precision
ccp
dnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023518069A
Other languages
English (en)
Other versions
JP7609381B2 (ja
Inventor
リン,シェン
ジャン,ウェイ
ワン,ウェイ
リウ,シャン
シュー,シャオジョン
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023542029A publication Critical patent/JP2023542029A/ja
Application granted granted Critical
Publication of JP7609381B2 publication Critical patent/JP7609381B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

画像フレーム又はビデオシーケンスの符号化又は復号中の低ビット精度のニューラルネットワークNNに基づくクロスコンポーネント予測のための方法及び機器であって、クロマ予測のための予めトレーニングされた深層ニューラルネットワーク(DNN)クロスコンポーネント予測(CCP)モデルを用いて、受信したルマコンポーネントに基づきクロマコンポーネントを再構成することを含み得る。方法は、少なくとも1つのビデオシーケンスに基づき低ビット精度のクロマ予測のための更新済みDNN CCPを生成するステップと、短縮した処理時間で前記少なくとも1つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用するステップと、を更に含んでよい。

Description

[関連出願]
本願は、参照により全体がここに組み込まれる米国特許出願番号第63/210751号、2021年6月15日出願、に基づき及びその優先権を主張する。
[技術分野]
本開示の実施形態は、画像及び/又はビデオシーケンスの符号化又は復号中のニューラルネットワークに基づくクロスコンポーネント予測に関する。
ビデオコーディング及び復号は、圧縮を通じて、入力ビデオ信号の中の冗長性を削減する。圧縮は、可逆(無損失)及び不可逆(損失)の両方とも、幾つかの場合には大きさで2桁以上も、帯域幅又は記憶空間要件を軽減するのを助けることができる。無損失圧縮は、元の信号の正確なコピーが圧縮された元の信号から再構成可能である技術を表す。損失圧縮を用いると、再構成された信号は、元の信号と同一ではないが、元の信号と再構成された信号との間の歪みは、意図される用途のために有用な再構成された信号を生成するのに十分に小さい。損失圧縮は、ビデオ符号化又は復号において広く利用されている。歪み耐性の量は、アプリケーションに依存してよい。例えば、特定の消費者ストリーミングアプリケーションのユーザは、テレビジョン投稿アプリケーションのユーザよりも高い歪みに耐え得る。
H.264/Advanced Video Coding (H.264/AVC)、High-Efficiency Video Coding (HEVC)、及びVersatile Video Coding (VVC)のような伝統的なビデオコーディング規格は、同様の(再帰的な)ブロックに基づくハイブリッド予測/変換の枠組みの上に設計されている。ここで、イントラ/インター予測、整数変換、及びコンテキスト適応型エントロピーコーディングのような個々のコーディングツールは、全体の効率を最適化するために徹底的に手作業で作られている。基本的に、時空間ピクセルの近傍は、後続の変換、量子化、及びエントロピーコーディングのための対応する残差を得るために、予測信号構成に利用される。しかしながら、このアプローチは、種々のレイヤの時空間情報を分析することにより異なるレベルの時空間刺激を抽出することができない。従って、より良い圧縮効率及びより良い圧縮品質のために、非線形性及び非局所的な時空間相関を探求する装置が必要である。
本開示の態様によると、符号化又は復号中の低ビット精度のニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための方法が提供され得る。前記方法は、
クロマ予測のための予めトレーニングされた深層ニューラルネットワーク(DNN)クロスコンポーネント予測(CCP)モデルを用いて受信したルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、
低ビット精度の前記予めトレーニングされたDNN CCPモデルの1つ以上のパラメータを更新するステップと、
少なくとも1つのビデオシーケンスに基づき、低ビット精度のクロマ予測のための更新済みDNN CCPモデルを生成するステップと、
短縮した処理時間で、前記少なくとも1つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用するステップと、
を含んでよい。
本開示の態様によると、符号化又は復号中の低ビット精度のニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための機器が提供され得る。前記機器は、
プログラムコードを格納するよう構成される少なくとも1つのメモリと、
前記プログラムコードを読み出し、前記プログラムコードにより指示されたように動作するよう構成される1つ以上のプロセッサと、
を含んでよい。
前記プログラムコードは、
前記少なくとも1つのプロセッサに、クロマ予測のための予めトレーニングされたDNN CCPモデルを用いて、受信したルマコンポーネントに基づきクロマコンポーネントを再構成させるよう構成される再構成コードと、
前記少なくとも1つのプロセッサに、低ビット精度の前記予めトレーニングされたDNN CCPモデルの1つ以上のパラメータを更新させるよう構成される更新コードと、
前記少なくとも1つのプロセッサに、少なくとも1つのビデオシーケンスに基づき、低ビット精度のクロマ予測のための更新済みDNN CCPモデルを生成させるよう構成される生成コードと、
前記少なくとも1つのプロセッサに、短縮した処理時間で、前記少なくとも1つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用させるよう構成される予測コードと、
を含んでよい。
本開示の態様によると、命令を格納している非一時的コンピュータ可読媒体が提供され得る。前記命令は、符号化又は復号中の低ビット精度の深層ニューラルネットワーク(NN)に基づくクロスコンポーネント予測のためのものである。前記命令は、少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに、
クロマ予測のための予めトレーニングされたDNN CCPモデルを用いて、受信したルマコンポーネントに基づきクロマコンポーネントを再構成させ、
低ビット精度の前記予めトレーニングされたDNN CCPモデルの1つ以上のパラメータを更新させ、
少なくとも1つのビデオシーケンスに基づき、低ビット精度のクロマ予測のための更新済みDNN CCPモデルを生成させ、
短縮した処理時間で、前記少なくとも1つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用させる。
開示の主題の更なる特徴、特性、及び種々の利点は、以下の詳細な説明及び添付の図面から一層明らかになるだろう。
実施形態による通信システムの簡略ブロック図である。
図1の1つ以上の装置の例示的なコンポーネントのブロック図である
実施形態によると、符号化又は復号中の低ビット精度の例示的な深層ニューラルネットワーク(DNN)に基づくクロスコンポーネント予測の図である。
実施形態によると、符号化又は復号中の低ビット精度の深層ニューラルネットワーク(DNN)に基づくクロスコンポーネント予測のための方法のフローチャートを示す。
実施形態によるストリーミング環境の図である。
実施形態によるビデオデコーダのブロック図である。
実施形態によるビデオエンコーダのブロック図である。
上述のように、従来の方法は、後続の変換、量子化、及びエントロピーコーディングのための対応する残差を得るために、予測信号構成のために時空間ピクセルの近傍を利用することがある。しかしながら、このアプローチは、種々のレイヤの時空間情報を分析することにより異なるレベルの時空間刺激を抽出することができない。従って、より良い圧縮効率及びより良い圧縮品質のために、非線形性及び非局所的な時空間相関を探求する装置が必要である。
異なるコンポーネントからの情報及び追加サイド情報を利用して、非ニューラルネットワークに基づくエンコーダは、他のコンポーネントを予測して、より良い圧縮性能を達成することができる。しかしながら、それらの性能は、にゅーらに基づくエンコーダと比べて劣る。例えば、イントラ予測のクロスコンポーネント線形予測モードは、深層ニューラルネットワーク(deep neural network (DNN))に基づく方法と比べると、実行に失敗し、効率的ではない。
DNNは、基本的に、異なるレベルの刺激を抽出するようプログラムされ、高度な非線形性及び非局所的相関を探求する能力を有する。これは、高い圧縮品質を実現する有望な機会を提供する。
本開示の実施形態によると、クロスコンポーネント予測(Cross Component Prediction (CCP))のための低ビット精度のコンテンツ適応型オンライントレーニングが提供され得る。オンライントレーニングは、1つ以上のモデルのリアルタイムトレーニングを含んでよい。実施形態はビデオ処理のための深層ニューラルネットワーク(Deep Neural Networks (DNN))に基づいてよく、オンライントレーニング段階中にモデルの精度を調整し、一連の処理により異なるビデオ入力に対してビデオ圧縮品質を向上する。
図1は、本開示の実施形態による通信システム(100)の簡易ブロック図を示す。通信システム100は、ネットワーク150を介して相互接続される少なくとも2つの端末140~130を含んでよい。データの一方向送信では、第1端末(140)は、ネットワーク(150)を介して他の端末(130)へ送信するために、ビデオデータをローカル位置でコーディングしてよい。第2端末(130)は、ネットワーク(150)から他の端末のコーディングビデオデータを受信し、コーディングデータを復号して、復元したビデオデータを表示してよい。単方向データ伝送は、メディアサービングアプリケーション等で共通であってよい。
図1は、例えばビデオ会議中に生じ得る、コーディングビデオの双方向送信をサポートするために適用される第2端末ペア(110、120)を示す。データの双方向送信では、各端末(110、120)は、ネットワーク(150)を介して他の端末へ送信するために、ローカルでキャプチャしたビデオデータをコーディングしてよい。各端末110、120は、また、他の端末により送信されたコーディングビデオデータを受信してよく、コーディングデータを復号してよく、及び復元したビデオデータをローカルディスプレイ装置で表示してよい。
図1では、端末装置140~120は、サーバ、パーソナルコンピュータ、及びスマートフォンとして示されてよいが、本開示の原理はこれらに限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤ、及び/又は専用ビデオ会議設備による適用がある。ネットワーク(150)は、端末(140~120)の間でコーディングビデオデータを運ぶ任意の数のネットワークを表し、例えば有線及び/又は無線通信ネットワークを含む。通信ネットワーク(150)は、回線切り換え及び/又はパケット切り換えチャネルでデータを交換してよい。代表的なネットワークは、電子通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク、及び/又はインターネットを含む。本発明の議論の目的で、ネットワーク(150)のアーキテクチャ及びトポロジは、以下で特に断りの無い限り、本開示の動作にとって重要でないことがある。
図2は、図1の1つ以上の装置の例示的なコンポーネントのブロック図である。
装置200は、端末(110~3140)のうちのいずれか1つに対応してよい。図2に示すように、装置200は、バス210、プロセッサ220、メモリ230、記憶コンポーネント240、入力コンポーネント250、出力コンポーネント260、及び通信インタフェース270を含んでよい。
バス210は、装置200のコンポーネントの間で通信を可能にするコンポーネントを含む。プロセッサ220は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実装される。プロセッサ220は、中央処理装置(CPU)、グラフィックス処理装置(GPU)、加速処理装置(APU)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、又は別のタイプの処理コンポーネントである。幾つかの実施態様では、プロセッサ220は、機能を実行するようにプログラム可能な1つ以上のプロセッサを含む。メモリ230は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、及び/又は、プロセッサ220により使用するための情報及び/又は命令を格納する別のタイプの動的若しくは静的記憶装置(例えば、フラッシュメモリ、磁気メモリ、及び/又は光メモリ)を含む。
記憶コンポーネント240は、装置200の動作及び使用に関連する情報及び/又はソフトウェアを格納する。例えば、記憶コンポーネント240は、対応するドライブと一緒に、ハードディスク(例えば、磁気ディスク、光ディスク、光磁気ディスク、及び/又は固体ディスク)、コンパクトディスク(CD)、デジタルバーサタイルディスク(DVD)、フロッピディスク、カートリッジ、磁気テープ、及び/又は別の種類の非一時的コンピュータ可読媒体を含んでよい。
入力コンポーネント250は、装置200が、例えばユーザ入力(例えば、タッチスクリーンディスプレイ、キーボード、キーパッド、マウス、ボタン、スイッチ、及び/又はマイクロフォン)を介して情報を受信することを可能にするコンポーネントを含む。追加又は代替として、入力コンポーネント250は、情報を検知するセンサを含んでよい(例えば、全地球測位システム(GPS)コンポーネント、加速度計、ジャイロスコープ、及び/又はアクチュエータ)。出力コンポーネント260は、装置200からの出力情報を提供するコンポーネントを含む(例えば、ディスプレイ、スピーカ、及び/又は1つ以上の発光ダイオード(LED))。
通信インタフェース270は、例えば有線接続、無線接続、又は有線及び無線接続の組合せを介して装置200が他の装置と通信することを可能にするトランシーバのようなコンポーネント(例えば、トランシーバ、及び/又は別個の受信機及び送信機)を含む。通信インタフェース270は、装置200が別の装置から情報を受信し、及び/又は別の装置に情報を提供できるようにしてよい。例えば、通信インタフェース270は、Ethernet(登録商標)インタフェース、光インタフェース、同軸インタフェース、赤外線インタフェース、無線周波数(RF)インタフェース、ユニバーサルシリアルバス(USB)インタフェース、WiFiインタフェース、セルラネットワークインタフェース、等を含んでよい。
装置200は、本願明細書に記載された1つ以上の処理を実行してよい。装置200は、プロセッサ220が、メモリ230及び/又は記憶コンポーネント240のような一時的コンピュータ可読媒体に格納されたソフトウェア命令を実行することに応答して、これらの処理を実行してよい。コンピュータ可読媒体は、本願明細書では非一時的メモリ装置として定義される。メモリ装置は、単一の物理記憶装置内のメモリ空間、又は複数の物理的記憶装置に渡り広がるメモリ空間を含む。
ソフトウェア命令は、別のコンピュータ可読媒体から又は別の装置から通信インタフェース270を介して、メモリ230及び/又は記憶コンポーネント240に読み込まれてよい。実行されると、メモリ230及び/又は記憶コンポーネント240に格納されたソフトウェア命令は、プロセッサ220に、本願明細書に記載された1つ以上の処理を実行させてよい。追加又は代替として、本願明細書に記載の1つ以上の処理を実行するために、ハード結線回路が、ソフトウェア命令の代わりに又はそれと組合せて使用さてよい。従って、本願明細書に記載される実装は、ハードウェア回路及びソフトウェアの任意の特定の組み合わせに限定されない。
図2に示すコンポーネントの数及び配置は、例として提供される。実際に、装置200は、図2に示されるものより、追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は異なる配置のコンポーネントを含んでよい。追加又は代替として、装置200のコンポーネントのセット(例えば、1つ以上のコンポーネント)は、装置200の装置の別のセットによって実行されるものとして説明される1つ以上の機能を実行してよい。
ビデオ圧縮の枠組みは、以下に説明され得る。入力ビデオxは、複数の画像フレームx、...,xTを含んでよい。ここで、Tはビデオの中のフレームの総数を表す。フレームは、空間ブロックにパーティションされてよく、各ブロックはより小さなブロックに繰り返しパーティションされることができる。パーティションのために任意の適切な方法が使用されてよい。例えば、3Dツリーコーディング(例えば、8分木パーティション)が使用されてよい。パーティション済みブロックは、ルマコンポーネント及びクロマコンポーネントの両方を含んでよい。イントラ予測処理中に、ルマコンポーネントが先ず予測されてよく、次に、2つのクロマチャネルが後に予測されてよい。実施形態によると、両方のクロマチャネルの予測は、共同で又は別個に生成されてよい。再構成クロマコンポーネントは、エンコーダ及びデコーダの両方で、DNNに基づくモデルにより生成されてよい。幾つかの実施形態では、再構成クロマコンポーネントは、デコーダでのみ、DNNに基づくモデルにより生成されてよい。
実施形態によると、信号処理、空間又は時間フィルタリング、スケーリング、加重平均、アップ/ダウンサンプリング、プーリング、メモリによる再帰処理、線形システム処理、非線形システム処理、ニューラルネットワーク処理、深層学習に基づく処理、AI処理、予めトレーニングされたネットワーク処理、機械学習に基づく処理、又はそれらの組み合わせを含む1つ以上の処理は、画像フレームの前処理及び/又は画像フレームの後処理のために、モジュールとして使用できる。
図3は、実施形態によると、符号化又は復号中の低ビット精度の例示的な深層ニューラルネットワーク(DNN)に基づくクロスコンポーネント予測処理(300)の図である。図3に示すように、処理300は、ニューラルネットワークモデル(302)、及び再構成品質計算(304)を含んでよい。
(例えば、符号化中に)ルマコンポーネント又は(例えば復号中に)再構成ルマコンポーネント、特定のサイド情報、又は隣接ルマ参照ブロック及び隣接クロマ参照ブロックに関連する情報が、ニューラルネットワークモデル(302)の入力として与えられると、ニューラルネットワークモデル(302)は、トレーニングされ、及び共同で推定を実行できる。
幾つかの実施形態では、ニューラルネットワークモデル(302)は、ニューラルネットワークモデル(302)を用いて符号化又は復号する前又は後の時間に微調整される予めトレーニングされたモデルであってよい。幾つかの実施形態では、ニューラルネットワークモデル(302)は、予めトレーニングされてよいが、各々の符号化又は復号中に、推定加速及び連続チューニングを利用して連続的に更新されてよい。連続更新のために、幾つかの実施形態では、ニューラルネットワークモデル(302)は、カスタマイズされたハードウェアプロセッサによりサポートされてよく、トレーニング中に使用される低精度浮動小数点表現によりサポートされてもよい。
実施形態によると、追加サイド情報は、限定ではないが、ルマコンポーネント、ブロックサイズ、ブロックコンポーネント、量子化パラメータ(QP)値、等を含むエンコーダにより提供される画像特性及び情報を含んでよい。
ニューラルネットワークモデル(302)の出力は、予測されたクロマコンポーネントであってよい。2つのクロマチャネルは、異なるニューラルネットワークに基づくモデルを使用するか、又は同じものを使用してもよい。本開示の実施形態は結合を許容し、これらのコンポーネントが入力としてどのように使用されるかの連結又は順序は任意に変更できる。
予測されたクロマコンポーネントは、再構成クロマブロックを生成するために、再構成品質計算(304)への入力として使用されてよい。幾つかの実施形態では、再構成品質計算(304)は、他の予測モードからのクロマブロックを入力として使用してもよい。幾つかの実施形態では、再構成品質計算(304)は、再構成クロマブロックに関連付けられた元のクロマブロックを受信してよく、圧縮品質を決定し、ニューラルネットワークモデルの1つ以上のパラメータが更新される必要があるか又は更新されてよいか、従ってニューラルネットワークモデルを更新するかを決定する。
実施形態によると、低精度の予めトレーニングされたニューラルネットワークに基づくモデルの部分的(又は全体の)パラメータを更新することにより、1つの又は幾つかの再構成コンポーネントに対するより良い圧縮性能が、入力ビデオについて最適化できる。デフォルトモデルパラメータ精度は、大部分の現在のニューラルネットワークにおいてFP32であるが(特定のハードウェアはFP64モデルトレーニングをサポートする場合がある)、推定段階に来ると、FP16、INT8、INT4、INT2、及びINT1のような低ビット精度が特定のハードウェアプラットフォームによりサポートされる場合がある。低ビット精度は、圧縮性能と全体の処理時間との間のトレードオフであり得る。
ニューラルネットワークに基づくクロスコンポーネント予測モデルの学習速度及び正確さを向上するために、幾つかの追加パラメータが、本開示のニューラルネットワークに基づくクロスコンポーネント予測モデルに追加されてよい。これらの1つ以上の追加パラメータは、初期トレーニング、微調整、又は連続調整の間に、学習可能なパラメータとして追加されてよい。トレーニング中、追加パラメータは、入力ビデオシーケンスに基づきレート歪み損失を最適化することにより学習できる。
一実施形態によると、クロスコンポーネント予測のためのニューラルネットワークに基づくモデルは、微調整されてよく、又は単一ビデオシーケンスに基づき連続的に更新されてよい。一実施形態によると、クロスコンポーネント予測のためのニューラルネットワークに基づくモデルは、微調整されてよく、又はビデオシーケンスのセットに基づき連続的に更新されてよい。
実施形態によると、ニューラルネットワークに基づくモデルは予めトレーニングされてよい。一実施形態によると、ニューラルネットワークモデルの1つのレイヤ又は特定のタイプのレイヤのみの中の1つ以上のパラメータは、更新されてよく、新しいモデルが生成される。他の好適な実施形態では、パラメータは、ニューラルネットワークモデルの複数の又は全部のレイヤで更新される。一実施形態では、1つ以上のバイアス項/パラメータのみが、低ビット精度で最適化され更新されてよい。一実施形態では、1つ以上の重み(係数)項/パラメータが、低ビット精度で最適化され更新されてよい。一実施形態では、1つ以上のバイアスパラメータ及び1つ以上の重み項/パラメータの両方が、共同で最適化され、又は低ビット精度で一緒に最適化され更新されてよい。
トレーニング及び/又は微調整の終わりに、更新済みパラメータが計算されてよい。実施形態では、圧縮性能は、更新済みパラメータと既存の予めトレーニングされたパラメータとの間で計算されてよい。実施形態では、更新済みパラメータは、微調整パラメータである。つまり、ニューラルネットワークモデルは、微調整パラメータにより更新され、既存の予めトレーニングされたパラメータを置き換えてよい。他の好適な実施形態では、更新済みパラメータは、微調整済みパラメータの幾つかの特定の変換であってよい。
実施形態によると、データ圧縮が、更新済みパラメータに対して実行されてよい。例えば、LZMA2アルゴリズムが、更新済みパラメータの圧縮に使用されてよい。実施形態では、圧縮が実行されなくてよい。
ここに開示されるニューラルネットワークに基づくクロスコンポーネント予測方法と比べると、イントラ予測モードにおけるクロスコンポーネント予測方法は、より良い圧縮品質を有してよい。幾つかの実施形態によると、最適化されるべき1つ以上のパラメータは、低ビット精度で更新されてよく、特定のビデオをオンライントレーニングの入力として、圧縮性能を向上する。更に、低ビット精度でパラメータを更新する及び/又は微調整することにより、更新済みパラメータは、低ビット精度になり、これは、推定処理を高速化し、処理時間を短縮できる。
図4は、実施形態によると、符号化又は復号中の低ビット精度の深層ニューラルネットワーク(deep neural network (DNN))に基づくクロスコンポーネント予測のための処理400のフローチャートを示す。処理400は、エンコーダ又はデコーダ又はその両者を用いて実行されてよい。
動作405で、クロマコンポーネントは、クロマ予測のための予めトレーニングされた深層ニューラルネットワーク(DNN)クロスコンポーネント予測(cross component prediction (CCP))モデルを用いて、受信したルマコンポーネントに基づき再構成されてよい。クロマコンポーネントは、クロマ予測のための予めトレーニングされたニューラルネットワークモデルを用いて、ルマコンポーネントに基づき再構成されてよい。幾つかの実施形態では、動作405で、ルマコンポーネントが受信されてよい。幾つかの例では、ルマコンポーネントは、既に再構成されていてよい。
動作410で、予めトレーニングされたDNN CCPモデルの1つ以上のパラメータは、低ビット精度で更新されてよい。
動作415で、クロマ予測のための予めトレーニングされたニューラルネットワークモデルは、低ビット精度で更新されてよい。幾つかの実施形態では、予めトレーニングされたニューラルネットワークモデルを更新することは、低ビット精度で予めトレーニングされたニューラルネットワークモデルの1つ以上のパラメータを最適化することを含んでよい。幾つかの実施形態では、低ビット精度でクロマ予測のための予めトレーニングされたニューラルネットワークモデルを更新することは、単一ビデオシーケンス又はビデオシーケンスのセットに基づき更新することを含んでよい。
再構成クロマコンポーネントは、予測されたクロマコンポーネント、及び予測モードのセットを用いてコーディングされた1つ以上のクロマコンポーネントに基づき、生成されてよい。実施形態によると、再構成クロマコンポーネントを生成することは、予測されたクロマコンポーネントの品質計算に基づいてよい。ここで、予測されたクロマコンポーネントの品質計算は、他の予測モードからの1つ以上のクロマコンポーネント、及び予測されたクロマコンポーネントに関連付けられた元のクロマコンポーネントに基づいてよい。
動作420で、更新済みDNN CCPモデルは、短縮した処理時間で、少なくとも1つのビデオシーケンスのクロスコンポーネント予測に使用されてよい。
幾つかの実施形態では、予めトレーニングされたニューラルネットワークモデルを更新することは、低ビット精度で予めトレーニングされたニューラルネットワークモデルの1つ以上のレイヤの中から1つ以上のパラメータを最適化することを含んでよい。幾つかの実施形態では、低ビット精度で最適化されている1つ以上のパラメータは、1つ以上のバイアスパラメータを含んでよい。幾つかの実施形態では、低ビット精度で最適化されている1つ以上のパラメータは、1つ以上の重みパラメータを含んでよい。幾つかの実施形態では、低ビット精度の最適化子である1つ以上のパラメータは、1つ以上のバイアスパラメータ及び1つ以上の重みパラメータの共同最適化を含んでよい。
幾つかの実施形態では、1つ以上のレイヤは、予めトレーニングされたニューラルネットワークモデルの1つ以上の畳み込みレイヤを含んでよい。幾つかの実施形態では、1つ以上のレイヤは、予めトレーニングされたニューラルネットワークモデルの最終レイヤのセットを含んでよい。
幾つかの実施形態では、更新するステップは、
1つ以上の倍率で最適化された1つ以上のパラメータを含む更新済みニューラルネットワークモデルの第1圧縮性能を計算するステップと、
1つ以上の関連パラメータを含む予めトレーニングされたニューラルネットワークの第2圧縮性能を計算すステップと、
第1圧縮性能及び第2圧縮性能の比較が閾値より高いことに基づき、1つ以上の倍率により最適化された1つ以上のパラメータを含むよう、予めトレーニングされたニューラルネットワークモデルを更新するかどうかを決定する、ステップと、
を含んでよい。
図5は、開示の主題の適用の一例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示の主題は、例えばビデオ会議、デジタルTV、CD、DVD、メモリスティック、等を含むデジタル媒体への圧縮ビデオの格納、他のビデオ可能アプリケーション、等に等しく適用可能である。
ストリーミングシステムは、例えば非圧縮ビデオサンプルストリーム(502)を生成するビデオソース(501)、例えばデジタルカメラを含み得るキャプチャサブシステム(513)を含んでよい。サンプルストリーム(502)は、符号化ビデオビットストリームと比べるとき高データ容量を強調するために太線で示され、カメラ(501)に結合されるエンコーダ(503)により処理できる。エンコーダ(503)は、ハードウェア、ソフトウェア、又はそれらの組み合わせを含み、以下に詳述するように開示の主題の態様を可能にし又は実装することができる。符号化ビデオビットストリーム(504)は、サンプルストリームと比べたとき、低データ容量を強調するために細線で示され、将来の使用のためにストリーミングサーバ(505)に格納できる。1つ以上のストリーミングクライアント(506、508)は、ストリーミングサーバ(505)にアクセスして、符号化ビデオビットストリーム(504)のコピー(507、509)を読み出すことができる。クライアント(506)は、ビデオデコーダ(510)を含むことができる。ビデオデコーダ(310)は、符号化ビットストリーム(507)の入来するコピーを復号し、ディスプレイ(512)又は他のレンダリング装置(図示しない)においてレンダリング可能な出力ビデオサンプルストリーム(511)を生成する。幾つかのストリーミングシステムでは、ビデオビットストリーム(504、507、509)は、特定のビデオコーディング/圧縮規格に従い符号化できる。それらの規格の例は、H.265 HEVCを含む。策定中のビデオ符号化標準は、略式にVVC(Versatile Video Coding)として知られている。開示の主題は、VVCの文脈で使用されてよい。
図6は、本開示の一実施形態によるビデオデコーダ510のブロック図を示す。
受信機(610)は、ビデオデコーダ(610)により復号されるべき1つ以上のコーディングビデオシーケンス、同じ又は別の実施形態では、一度に1つのコーディングビデオシーケンスを受信してよい。ここで、各コーディングビデオシーケンスの復号は、他のコーディングビデオシーケンスと独立している。コーディングビデオシーケンスは、符号化ビデオデータを格納する記憶装置へのハードウェア/ソフトウェアリンクであってよいチャネル(612)から受信されてよい。受信機(610)は、他のデータ、例えば、各々の使用エンティティ(図示しない)へと転送され得るコーディング音声データ及び/又は補助データストリームと共に、符号化ビデオデータを受信してよい。受信機(610)は、他のデータからコーディングビデオシーケンスを分離してよい。ネットワークジッタを除去するために、バッファメモリ(615)は、受信機(610)とエントロピーデコーダ/パーサ(620)(以後、「パーサ」)との間に接続されてよい。受信機(610)が、十分な帯域幅の記憶/転送装置から制御可能に、又はアイソクロナス(isosynchronous)ネットワークから、データを受信しているとき、バッファ(615)は、必要なくてよく又は小さくできる。インターネットのようなベストエフォート型パケットネットワークで使用する場合、バッファ(615)が必要であってよく、比較的大きくすることができ、有利なことに適応サイズにすることができる。
ビデオデコーダ(510)は、エントロピーコーディングビデオシーケンスからシンボル(621)を再構成するために、パーサ(620)を含んでよい。これらのシンボルのカテゴリは、デコーダ(510)の動作を管理するために使用される情報、及び場合によっては図6に示したようにデコーダの統合部分ではないがデコーダに接続され得るディスプレイ(512)のようなレンダリング装置を制御するための情報を含む。レンダリング装置のための制御情報は、SEI(Supplementary Enhancement Information)メッセージ又はVUI(Video Usability Information)パラメータセットフラグメント(図示しない)の形式であってよい。パーサ(620)は、受信された符号かビデオシーケンスをパース/エントロピー復号してよい。コーディングビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト依存関係を有する又は有しない算術コーディング、等を含む、当業者によく知られた原理に従うことができる。パーサ620は、符号化ビデオシーケンスから、ビデオデコーダの中のピクセルのサブグループのうちの少なくとも1つについて、該グループに対応する少なくとも1つのパラメータに基づき、サブグループパラメータのセットを抽出してよい。サブグループは、GOP(Groups of Picture)、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット(Coding Units:CU)、ブロック、変換ユニット(Transform Units:TU)予測ユニット(Prediction Units:PU)、等を含み得る。エントロピーデコーダ/パーサは、符号化ビデオシーケンスから、変換係数、量子化パラメータ(quantizer parameter(QP))値、動きベクトル、等のような情報も抽出してよい。
パーサ(620)は、バッファ(615)から受信したビデオシーケンスに対してエントロピー復号/パース動作を実行して、シンボル(621)を生成してよい。パーサ620は、符号化データを受信し、及び特定のシンボル621を選択的に復号してよい。さらに、パーサ620は、特定のシンボル621が動き補償予測ユニット653、スケーラ/逆変換ユニット651、イントラ予測ユニット652、又はループフィルタ656に提供されるべきか否かを決定してよい。
シンボル(621)の再構成は、コーディングビデオピクチャ又はその部分の種類(例えば、インター及びイントラピクチャ、インター及びイントラブロック)及び他の要因に依存して、複数の異なるユニットを含み得る。どのユニットがどのように含まれるかは、パーサ(620)によりコーディングビデオシーケンスからパースされたサブグループ制御情報により制御できる。パーサ(620)と以下の複数のユニットとの間のこのようなサブグループ制御情報のフローは、明確さのために示されない。
既に言及した機能ブロックを超えて、デコーダ(510)は、後述のように、多数の機能ユニットに概念的に細分化されてよい。商用的制約の下で動作する実際の実装では、これらのユニットの多くは、互いに密に相互作用し、少なくとも部分的に互いに統合され得る。しかしながら、開示の主題を説明する目的で、機能ユニットへの以下の概念的細分化は適切である。
第1ユニットは、スケーラ/逆変換ユニット651である。スケーラ/逆変換ユニット(651)は、量子化された変換係数、及び、どの変換が使用されるべきか、ブロックサイズ、量子化係数、量子化スケーリングマトリクス、等を含む制御情報を、パーサ(620)からのシンボル(621)として受信する。これは、アグリゲータ(655)に入力され得るサンプル値を含むブロックを出力できる。
幾つかの例では、スケーラ/逆変換(651)の出力サンプルは、イントラコーディングブロック、つまり、前に再構成されたピクチャからの予測情報を使用しないが現在ピクチャの前に再構成された部分からの予測情報を使用可能なブロックに関連してよい。このような予測情報は、イントラピクチャ予測ユニット(652)により提供できる。幾つかの場合には、イントラピクチャ予測ユニット(652)は、再構成中のブロックと同じサイズ及び形状のブロックを、現在(部分的に再構成された)ピクチャ(666)からフェッチした周囲の既に再構成された情報を用いて、生成する。アグリゲータ(655)は、幾つかの場合には、サンプル毎に、イントラ予測ユニット(652)の生成した予測情報を、スケーラ/逆変換ユニット(651)により提供された出力サンプル情報に追加する。
他の場合には、スケーラ/逆変換ユニット(651)の出力サンプルは、インターコーディングされた、場合によっては動き補償されたブロックに関連し得る。このような場合には、動き補償予測ユニット(653)は、参照ピクチャメモリ(657)にアクセスして、予測のために使用されるサンプルをフェッチできる。ブロックに関連するシンボル(621)に従いフェッチしたサンプルを動き補償した後に、これらのサンプルは、アグリゲータ(655)により、出力サンプル情報を生成するために、スケーラ/逆変換ユニットの出力に追加され得る(この場合、残差サンプル又は残差信号と呼ばれる)。動き補償予測ユニットが予測サンプルをフェッチする参照ピクチャメモリ内のアドレスは、例えばX、Y及び参照ピクチャコンポーネントを有し得るシンボル(621)の形式で、動き補償予測ユニットの利用可能な動きベクトルにより制御できる。動き補償は、サブサンプルの正確な動きベクトルが使用中であるとき参照ピクチャメモリからフェッチされたサンプル値の補間、動きベクトル予測メカニズム、等も含み得る。
アグリゲータ(655)の出力サンプルは、ループフィルタユニット(656)において種々のループフィルタリング技術を受け得る。ビデオ圧縮技術は、コーディングビデオビットストリームに含まれ且つパーサ(620)からのシンボル(621)としてループフィルタユニット(656)に利用可能にされたパラメータにより制御されるが、コーディングピクチャ又はコーディングビデオシーケンスの(復号順序で)前の部分の復号中に取得されたメタ情報にも応答し、前に再構成されループフィルタリングされたサンプル値にも応答し得るインループフィルタ技術を含み得る。
ループフィルタユニット(656)の出力は、レンダー装置(512)へと出力でき及び将来のインターピクチャ予測で使用するために参照ピクチャメモリ(666)に格納され得るサンプルストリームであり得る。
特定のコーディングピクチャは、一旦完全に再構成されると、将来の予測のための参照ピクチャとして使用できる。コーディングピクチャが完全に再構成され、コーディングピクチャが(例えばパーサ(620)により)参照ピクチャとして識別されると、現在参照ピクチャ(666)は、参照ピクチャバッファ(657)の一部になることができ、後続のコーディングピクチャの再構成を開始する前に、新鮮な現在ピクチャメモリを再割り当てできる。
ビデオデコーダ(510)はH.265 HEVCのような規格で策定され得る所定のビデオ圧縮技術に従い復号動作を実行してよい。コーディングビデオシーケンスが、ビデオ圧縮技術又は規格で、具体的にはその中のプロファイル文書で指定された、ビデオ圧縮技術又は規格のシンタックスに従うという意味で、コーディングビデオシーケンスは、使用中のビデオ圧縮技術又は規格により指定されたシンタックスに従ってよい。また、遵守のために必要なことは、コーディングビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルにより定められる限界の範囲内であることであり得る。幾つかの場合には、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えばメガサンプル/秒で測定される)、最大参照ピクチャサイズ、等を制限する。レベルにより設定される限界は、幾つかの場合には、HRD(Hypothetical Reference Decoder)仕様及びコーディングビデオシーケンスの中でシグナリングされるHRDバッファ管理のためのメタデータを通じて更に制限され得る。
実施形態では、受信機(610)は、符号化ビデオと共に追加(冗長)データを受信してよい。追加データは、コーディングビデオシーケンスの部分として含まれてよい。追加データは、データを正しく復号するため及び/又は元のビデオデータをより正確に再構成するために、ビデオデコーダ510により使用されてよい。追加データは、例えば、時間的、空間的、又は信号雑音比(SNR)の拡張レイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号、等の形式であり得る。
図7は、本開示の一実施形態によるビデオエンコーダ(503)の機能ブロック図であり得る。
エンコーダ(503)は、ビデオサンプルを、エンコーダ(503)によりコーディングされるべきビデオ画像をキャプチャし得るビデオソース(501)(エンコーダの部分ではない)から受信してよい。
ビデオソース(501)は、エンコーダ(503)によりコーディングされるべきソースビデオシーケンスを、任意の適切なビット深さ(例えば、8ビット、10ビット、12ビット、...)、任意の色空間(例えば、BT.601 Y CrCb, RGB,...)、及び任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0, Y CrCb 4:4:4)のデジタルビデオサンプルストリームの形式で、提供してよい。メディア提供システムでは、ビデオソース(501)は、前に準備されたビデオを格納する記憶装置であってよい。ビデオ会議システムでは、ビデオソース(503)は、ビデオシーケンスとしてローカル画像情報をキャプチャするカメラであってよい。ビデオデータは、続けて閲覧されると動きを与える複数の個別ピクチャとして提供されてよい。ピクチャ自体は、ピクセルの空間的配列として組織化されてよい。各ピクセルは、使用中のサンプリング構造、色空間、等に依存して、1つ以上のサンプルを含み得る。当業者は、ピクセルとサンプルとの間の関係を直ちに理解できる。以下の説明はサンプルに焦点を当てる。
一実施形態によると、エンコーダ(503)は、ソースビデオシーケンスのピクチャを、コーディングビデオシーケンス(743)へと、リアルタイムに又はアプリケーションにより要求される任意の他の時間制約の下でコーディングし圧縮してよい。適切なコーディング速度の実施は、制御部(750)の1つの機能である。制御部(750)は、後述するように他の機能ユニットを制御してよく、これらのユニットに機能的に結合される。結合は、明確さのために図示されない。制御部により設定されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、等)、ピクチャサイズ、GOP(group of pictures)レイアウト、最大動きベクトル探索範囲、等を含み得る。当業者は、特定のシステム設計のために最適化されたビデオエンコーダ(503)に関連し得るとき、制御部(750)の他の機能を直ちに識別できる。
幾つかのビデオエンコーダは、当業者が「コーディングループ」として直ちに認識する中で動作する。非常に簡略化した説明として、コーディングループは、エンコーダ(730)(以後、「ソースコーダ」)(コーディングされるべき入力ピクチャと参照ピクチャとに基づき、シンボルを生成する)及びエンコーダ(503)内に組み込まれ、シンボルを再構成して、(シンボルとコーディングビデオビットストリームとの間の任意の圧縮が開示の主題において考慮されるビデオ圧縮技術の中で無損失であるとき)(リモート)デコーダが生成し得るサンプルデータを生成する(ローカル)デコーダ(733)の符号化部分を含むことができる。再構成されたサンプルストリームは、参照ピクチャメモリ734に入力される。シンボルストリームの復号が、デコーダ位置(ローカル又はリモート)と独立にビット正確な結果をもたらすとき、参照ピクチャバッファの内容も、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えると、エンコーダの予測部分が、復号中に予測を用いるときデコーダが「見る」のと正確に同じサンプル値を、参照ピクチャサンプルとして「見る」。参照ピクチャ同期性のこの基本原理(及び、例えばチャネルエラーのために同期性が維持できない場合には、結果として生じるドリフト)は、当業者によく知られている。
「ローカル」デコーダ(733)の動作は、図16と関連して以上に詳述した「リモート」デコーダ(510)のものと同じであり得る。簡単に図16も参照すると、しかしながら、シンボルが利用可能であり、エントロピーコーダ(745)及びパーサ(620)によるコーディングビデオシーケンスへのシンボルの符号化/復号が無損失であり得るので、チャネル(612)、受信機(610)、バッファ(615)、及びパーサ(620)を含むデコーダ(510)のエントロピー復号部分は、ローカルデコーダ(733)に完全に実装されなくてよい。
この点で行われる考察は、デコーダ内に存在するパース/エントロピー復号を除く任意のデコーダ技術も、対応するエンコーダ内と実質的に同一の機能形式で存在する必要があるということである。エンコーダ技術の説明は、それらが包括的に説明されるデコーダ技術の逆であるので、省略できる。特定の領域においてのみ、より詳細な説明が必要であり、以下に提供される。
動作中、幾つかの例では、ソースコーダ(730)は、動き補償された予測コーディングを実行してよい。これは、「参照フレーム」として指定されたビデオシーケンスからの1つ以上の前にコーディングされたフレームを参照して予測的に入力フレームをコーディングする。この方法では、コーディングエンジン(732)は、入力フレームのピクセルブロックと、入力フレームに対する予測基準として選択されてよい参照フレームのピクセルブロックとの間の差分をコーディングする。
ローカルビデオデコーダ(733)は、ソースコーダ(730)により生成されたシンボルに基づき、参照フレームとして指定されてよいフレームのコーディングビデオデータを復号してよい。コーディングエンジン(732)の動作は、有利なことに、損失処理であってよい。コーディングビデオデータがビデオデコーダ(図17に図示されない)において復号され得るとき、再構成ビデオシーケンスは、標準的に、幾つかのエラーを有するソースビデオシーケンスの複製であってよい。ローカルビデオデコーダ(733)は、参照フレームに対してビデオデコーダにより実行され得る復号処理を複製し、参照ピクチャキャッシュ(734)に格納されるべき再構成参照フレームを生じ得る。このように、エンコーダ(503)は、(伝送誤りが無ければ)遠端ビデオデコーダにより取得される再構成参照フレームと共通の内容を有する再構成参照フレームのコピーをローカルに格納してよい。
予測器(735)は、コーディングエンジン(732)のために予測探索を実行してよい。つまり、コーディングされるべき新しいフレームについて、予測器(735)は、新しいピクチャのための適切な予測基準として機能し得る(候補参照ピクセルブロックのような)サンプルデータ又は参照ピクチャ動きベクトル、ブロック形状、等のような特定のメタデータについて、参照ピクチャメモリ(734)を検索してよい。予測器(735)は、適切な予測基準を見付けるために、サンプルブロック-ピクセルブロック毎に動作してよい。幾つかの例では、予測器(735)により取得された検索結果により決定されるように、入力ピクチャは、参照ピクチャメモリ(734)に格納された複数の参照ピクチャから引き出された予測基準を有してよい。
制御部(750)は、例えば、ビデオデータの符号化のために使用されるパラメータ及びサブグループパラメータの設定を含む、ビデオコーダ(730)のコーディング動作を管理してよい。
全ての前述の機能ユニットの出力は、エントロピーコーダ(745)におけるエントロピーコーディングを受けてよい。エントロピーコーダは、ハフマンコーディング、可変長コーディング、算術コーディング、等のような当業者によく知られた技術に従いシンボルを無損失圧縮することにより、種々の機能ユニットにより生成されたシンボルを、コーディングビデオシーケンスへと変換する。
送信機(740)は、コーディングビデオデータを格納し得る記憶装置へのハードウェア/ソフトウェアリンクであってよい通信チャネル(760)を介する伝送のために準備するために、エントロピーコーダ(745)により生成されたコーディングビデオシーケンスをバッファリングしてよい。送信機(740)は、ビデオコーダ(730)からのコーディングビデオデータを、送信されるべき他のデータ、例えばコーディング音声データ及び/又は補助データストリーム(図示されないソース)とマージ(merge)してよい。
制御部(750)は、エンコーダ(503)の動作を管理してよい。コーディング中、制御部(750)は、各々のピクチャに適用され得るコーディング技術に影響し得る特定のコーディングピクチャタイプを、各コーディングピクチャに割り当ててよい。例えば、ピクチャは、多くの場合、以下のピクチャタイプのうちの1つとして割り当てられてよい。
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内の任意の他のフレームを使用せずにコーディング及び復号され得るピクチャであってよい。幾つかのビデオコーデックは、例えばIDR(Independent Decoder Refresh)ピクチャを含む異なる種類のイントラピクチャを許容する。当業者は、Iピクチャの変形、及びそれらの個々の適用及び特徴を認識する。
予測ピクチャ(Pピクチャ)は、殆どの場合、各ブロックのサンプル値を予測するために1つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測を用いてコーディング及び復号され得るピクチャであってよい。
双方向予測ピクチャ(Bピクチャ、Bi-directionally Predictive Picture (B Picture))は、各ブロックのサンプル値を予測するために最大で2つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測を用いてコーディング及び復号され得るピクチャであってよい。同様に、マルチ予測ピクチャは、単一のブロックの再構成のために、2つより多くの参照ピクチャ及び関連付けられたメタデータを使用できる。
ソースピクチャは、一般に、複数のサンプルブロック(例えば、各々4×4、8×8、4×8、又は16×16個のサンプルのブロック)に空間的に細分化され、ブロック毎にコーディングされてよい。ブロックは、ブロックの各々のピクチャに適用されるコーディング割り当てにより決定される他の(既にコーディングされた)ブロックへの参照により予測的にコーディングされてよい。例えば、Iピクチャのブロックは、非予測的にコーディングされてよく、又はそれらは同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされてよい(空間予測又はイントラ予測)。Pピクチャのピクセルブロックは、1つの前にコーディングされた参照ピクチャを参照して、空間予測を介して又は時間予測を介して、予測的にコーディングされてよい。Bピクチャのブロックは、1つ又は2つの前にコーディングされた参照ピクチャを参照して、空間予測を介して又は時間予測を介して、非予測的にコーディングされてよい。
ビデオコーダ(503)はH.265 HEVCのような所定のビデオコーディング技術又は規格に従いコーディング動作を実行してよい。その動作において、ビデオコーダ(503)は、入力ビデオシーケンスの中の時間的及び空間的冗長性を利用する予測コーディング動作を含む種々の圧縮動作を実行してよい。コーディングビデオデータは、従って、使用されているビデオコーディング技術又は規格により指定されたシンタックスに従ってよい。
一実施形態では、送信機(740)は、符号化ビデオと共に追加データを送信してよい。ビデオコーダ(730)は、このようなデータをコーディングビデオシーケンスの部分として含んでよい。追加データは、時間/空間/SNR拡張レイヤ、冗長ピクチャ及びスライスのような他の形式の冗長データ、SEI(Supplementary Enhancement Information)メッセージ、VUI(Visual Usability Information)パラメータセットフラグメント、等を含んでよい。
本開示は、動き情報がビデオ符号化のためのツリー分割中に考慮される、幾つかのブロックパーティション方法を対象としている。より具体的には、本開示の技術は、動きフィールド情報に基づく柔軟なツリー構造のためのツリー分割方法に関する。本開示で提案された技術は、同種及び異種の導出された動きフィールドの両方に適用されてよい。
ブロックの導出された動きフィールドは、導出された動きフィールドがブロック内の全部のサブブロックに利用可能であり、導出された動きフィールド内の全部の動きベクトルが同様であるならば、例えば、動きベクトルが同じ参照フレームを共有し、動きベクトル間の絶対差が全部特定の閾値より低いならば、同種であると定義される。閾値は、ビットストリーム内でシグナリングされるか、又は予め定められてよい。
ブロックの導出された動きフィールドは、導出された動きフィールドがブロック内の全部のサブブロックに利用可能であり、導出された動きフィールド内の動きベクトルが同様ではないならば、例えば、少なくとも1つの動きベクトルが他の動きベクトルにより参照されない参照フレームを参照するか、又はフィールド内の2つの動きベクトル間の少なくとも1つの絶対差がシグナリングされた又は所定の閾値より大きいならば、異種であると定義される。
本開示は、幾つかの例示的な実施形態を記載したが、代替、置換、及び種々の代用の均等物が存在し、それらは本開示の範囲に包含される。当業者に明らかなことに、ここに明示的に示され又は説明されないが、本開示の原理を実施し、従って、本開示の精神及び範囲に含まれる多数のシステム及び方法を考案可能である。

Claims (15)

  1. 復号中の低ビット精度のニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための方法であって、前記方法は、1つ以上のプロセッサにより実行され、前記方法は、
    クロマ予測のための予めトレーニングされた深層ニューラルネットワーク(DNN)クロスコンポーネント予測(CCP)モデルを用いて受信したルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、
    低ビット精度の前記予めトレーニングされたDNN CCPモデルの1つ以上のパラメータを更新するステップと、
    少なくとも1つのビデオシーケンスに基づき、低ビット精度のクロマ予測のための更新済みDNN CCPモデルを生成するステップと、
    短縮した処理時間で、前記少なくとも1つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用するステップと、
    を含む方法。
  2. 前記予めトレーニングされたDNN CCPモデルの前記1つ以上のパラメータを更新するステップは、低ビット精度の前記予めトレーニングされたDNN CCPモデルの1つ以上のパラメータを更新するステップを含む、請求項1に記載の方法。
  3. 前記予めトレーニングされたDNN CCPモデルの前記1つ以上のパラメータを更新するステップは、低ビット精度の前記予めトレーニングされたDNN CCPモデルの1つ以上のレイヤの中から前記1つ以上のパラメータを更新するステップを含む、請求項2に記載の方法。
  4. 低ビット精度のクロマ予測のための前記予めトレーニングされたDNN CCPモデルの1つ以上のパラメータを更新するステップは、複数のビデオシーケンスに基づき更新するステップを更に含む、請求項1に記載の方法。
  5. 低ビット精度で更新される前記1つ以上のパラメータは、1つ以上のバイアスパラメータを含む、請求項2に記載の方法。
  6. 低ビット精度で更新される前記1つ以上のパラメータは、1つ以上の重みパラメータを含む、請求項2に記載の方法。
  7. 前記1つ以上のパラメータが低ビット精度で更新されることは、1つ以上のバイアスパラメータ及び1つ以上の重みパラメータの共同更新を含む、請求項2に記載の方法。
  8. 前記1つ以上のレイヤは、前記予めトレーニングされたDNN CCPモデルの1つ以上の畳み込みレイヤを含む、請求項3に記載の方法。
  9. 前記1つ以上のレイヤは、前記予めトレーニングされたDNN CCPモデルの最終レイヤのセットを含む、請求項3に記載の方法。
  10. 前記1つ以上のレイヤは、同じレイヤプロパティを有する前記予めトレーニングされたDNN CCPモデルの全部のレイヤを含む、請求項3に記載の方法。
  11. 前記再構成されたクロマコンポーネントの品質計算は、他の予測モードからの1つ以上のクロマコンポーネント、及び前記再構成されたクロマコンポーネントに関連付けられた元のクロマコンポーネントに基づく、請求項1に記載の方法。
  12. 更新するステップは、
    低ビット精度で更新された1つ以上のパラメータを含む更新済みDNN CCPモデルの第1圧縮性能を計算するステップと、
    1つ以上の関連パラメータを含む前記予めトレーニングされたDNN CCPモデルの第2圧縮性能を計算すステップと、
    前記第1圧縮性能及び前記第2圧縮性能の比較が閾値より高いことに基づき、低ビット精度の前記1つ以上のパラメータを含むよう、前記予めトレーニングされたDNN CCPモデルを更新するかどうかを決定する、ステップと、
    を更に含む請求項1に記載の方法。
  13. 復号中の低ビット精度のニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための機器であって、前記機器は、請求項1~12のいずれか一項に記載の方法を実行する機器。
  14. 復号中の低ビット精度のニューラルネットワーク(NN)に基づくクロスコンポーネント予測のためのコンピュータプログラムであって、少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに、請求項1~12のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
  15. 符号化中の低ビット精度のニューラルネットワーク(NN)に基づくクロスコンポーネント予測のための方法であって、前記方法は、1つ以上のプロセッサにより実行され、前記方法は、
    クロマ予測のための予めトレーニングされた深層ニューラルネットワーク(DNN)クロスコンポーネント予測(CCP)モデルを用いて受信したルマコンポーネントに基づきクロマコンポーネントを再構成するステップと、
    低ビット精度の前記予めトレーニングされたDNN CCPモデルの1つ以上のパラメータを更新するステップと、
    少なくとも1つのビデオシーケンスに基づき、低ビット精度のクロマ予測のための更新済みDNN CCPモデルを生成するステップと、
    短縮した処理時間で、前記少なくとも1つのビデオシーケンスのクロスコンポーネント予測に前記更新済みDNN CCPモデルを使用するステップと、
    を含む方法。
JP2023518069A 2021-06-15 2022-05-31 低ビット精度のニューラルネットワーク(nn)に基づくクロスコンポーネント予測のための方法、機器、及びコンピュータプログラム Active JP7609381B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163210751P 2021-06-15 2021-06-15
US63/210,751 2021-06-15
US17/825,591 US11949892B2 (en) 2021-06-15 2022-05-26 Content-adaptive online training for DNN-based cross component prediction with low-bit precision
US17/825,591 2022-05-26
PCT/US2022/031508 WO2022265849A1 (en) 2021-06-15 2022-05-31 Content-adaptive online training for dnn-based cross component prediction with low-bit precision

Publications (2)

Publication Number Publication Date
JP2023542029A true JP2023542029A (ja) 2023-10-04
JP7609381B2 JP7609381B2 (ja) 2025-01-07

Family

ID=84390750

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023518069A Active JP7609381B2 (ja) 2021-06-15 2022-05-31 低ビット精度のニューラルネットワーク(nn)に基づくクロスコンポーネント予測のための方法、機器、及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US11949892B2 (ja)
EP (1) EP4128051A4 (ja)
JP (1) JP7609381B2 (ja)
KR (1) KR20230156789A (ja)
CN (1) CN116670686A (ja)
WO (1) WO2022265849A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7571289B2 (ja) 2021-06-15 2024-10-22 テンセント・アメリカ・エルエルシー Dnnベースのクロスコンポーネント予測

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230186435A1 (en) * 2021-12-14 2023-06-15 Netflix, Inc. Techniques for component-based image preprocessing
CN116612157A (zh) * 2023-07-21 2023-08-18 云南大学 视频单目标跟踪方法、装置及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786036B2 (en) 2015-04-28 2017-10-10 Qualcomm Incorporated Reducing image resolution in deep convolutional networks
US10728546B2 (en) 2016-02-05 2020-07-28 Apple Inc. Sample adaptive offset systems and methods
US20240202507A1 (en) * 2021-04-23 2024-06-20 Nokia Technologies Oy Method, apparatus and computer program product for providing finetuned neural network filter
WO2022238967A1 (en) * 2021-05-14 2022-11-17 Nokia Technologies Oy Method, apparatus and computer program product for providing finetuned neural network

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7571289B2 (ja) 2021-06-15 2024-10-22 テンセント・アメリカ・エルエルシー Dnnベースのクロスコンポーネント予測

Also Published As

Publication number Publication date
JP7609381B2 (ja) 2025-01-07
EP4128051A1 (en) 2023-02-08
EP4128051A4 (en) 2023-10-04
KR20230156789A (ko) 2023-11-14
WO2022265849A1 (en) 2022-12-22
US20220400273A1 (en) 2022-12-15
US11949892B2 (en) 2024-04-02
CN116670686A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
JP7339389B2 (ja) ビデオ圧縮における複数ラインのフレーム内予測のための方法および装置
JP7257535B2 (ja) 変換スキップモードとブロック差分パルスコード変調の改善された残差コーディング
JP7358464B2 (ja) ビデオ符号化のための方法及び機器
JP7223018B2 (ja) ビデオ符号化/復号化の方法及び装置
JP7436715B2 (ja) ビデオコーディングの方法および装置、ならびにコンピュータプログラム
JP7343668B2 (ja) Vvcにおける色変換のための方法及び機器
US10623746B2 (en) Method and apparatus for video coding
JP7362878B2 (ja) ローカルデュアルツリー構造の下でのパレットベースの符号化モードのための方法および装置
JP7609381B2 (ja) 低ビット精度のニューラルネットワーク(nn)に基づくクロスコンポーネント予測のための方法、機器、及びコンピュータプログラム
JP7221390B2 (ja) ビデオ復号及び符号化の方法、装置並びにプログラム
JP7427814B2 (ja) ビデオ符号化及び復号の方法及び装置並びにコンピュータプログラム
JP7416946B2 (ja) ビデオコーディングのための方法および装置
AU2023202653B2 (en) Method and apparatus for reducing context models for entropy coding of transform coefficient significant flag
JP2022525467A (ja) ビデオ符号化又は復号化の方法、装置及びコンピュータプログラム
CN115550644A (zh) 视频编码的方法和装置、计算机设备和存储介质
JP2023515810A (ja) 深層強化学習によるエンドツーエンド依存量子化
US11956453B2 (en) Content-adaptive online training for DNN-based cross component prediction with scaling factors
JP7423132B2 (ja) ビデオ符号化のための方法および装置
KR102747635B1 (ko) 비디오 코딩을 위한 방법 및 장치
JP7383038B2 (ja) ビデオコーディングのための方法、装置及びプログラム
JP7490299B2 (ja) スキップ変換フラグ符号化
JP7523844B2 (ja) デブロッキング操作の高度制御
KR20240072213A (ko) 다중 참조 라인 인트라 예측을 위한 템플릿 매칭

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230320

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240319

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241211