JP2023501563A - 代替エンドツーエンドビデオコーディング - Google Patents
代替エンドツーエンドビデオコーディング Download PDFInfo
- Publication number
- JP2023501563A JP2023501563A JP2022527226A JP2022527226A JP2023501563A JP 2023501563 A JP2023501563 A JP 2023501563A JP 2022527226 A JP2022527226 A JP 2022527226A JP 2022527226 A JP2022527226 A JP 2022527226A JP 2023501563 A JP2023501563 A JP 2023501563A
- Authority
- JP
- Japan
- Prior art keywords
- image
- distortion
- framework
- alternative representation
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 126
- 230000008569 process Effects 0.000 claims abstract description 90
- 238000013528 artificial neural network Methods 0.000 claims abstract description 81
- 238000005457 optimization Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 description 65
- 230000007246 mechanism Effects 0.000 description 27
- 238000012549 training Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 19
- 238000012360 testing method Methods 0.000 description 16
- 238000010801 machine learning Methods 0.000 description 12
- 230000000007 visual effect Effects 0.000 description 9
- 230000002093 peripheral effect Effects 0.000 description 8
- 238000013139 quantization Methods 0.000 description 8
- 230000008685 targeting Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013442 quality metrics Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 238000013403 standard screening design Methods 0.000 description 2
- 230000004936 stimulating effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 244000263375 Vanilla tahitensis Species 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/184—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
- H04N19/192—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
本開示は、2021年4月15日に提出された米国特許出願第17/231,537号「代替エンドツーエンドビデオコーディング」の優先権を主張しており、この米国特許出願第17/231,537号は、2020年5月12日に提出された米国仮出願第63/023,687号「代替エンドツーエンド画像圧縮(Substitutional End-to-End Image Compression)」、および2020年5月18日に提出された米国仮出願第63/026,397号「ビットレート制約を用いた代替エンドツーエンド画像圧縮(Substitutional End-to-End Image Compression with Bitrate Constraint)」の優先権を主張している。先の出願の開示は、参照によりそれらの全体が本明細書に組み込まれる。
本開示は、一般に人工ニューラルネットワークに基づくビデオコーディングに関する実施形態を説明する。
[式1]
L(Pe,Pd,Pr)=R(X)+λD(X,X’)
ここで、λは、トレードオフ係数である。
[式2]
L(Ps)=R(Xs)+λD(X,Xs’)
[式3]
L(Ps)=R(Xs)+λ目標D(X,Xs’)
[式4]
L(Ps)=ηL(R(Xs),R目標)+D(X,Xs’)
ここで、L(R(Xs),Rtarget)は、R(Xs)とRtargetとの間の差の損失を測定するものであり、ηは、異なる損失項L(R(Xs),Rtarget)とD(X,Xs’)の寄与をバランスさせるハイパーパラメータ(トレードオフパラメータ)である。一実施形態において、ηは、結果として生成されるビットレートができるだけターゲットビットレートRtargetに近づくことを確保するために、大きな値として設定され得る。損失関数(式4)によってガイドされた代替学習プロセス(300)の期間では、代替画像Xsは、コード化された後にターゲットビットレートを有するように決定され得る。次いで、代替画像Xsは、異なるANNモデルインスタンス間で切り替えることなくターゲットビットレートを実現するために、E2Eビデオコーディングシステム(100)によって処理され得る(現在のターゲットビットレートとは異なるビットレートをターゲッティングするように予め訓練され得る)。
[式5]
L(R(Xs),Rtarget)=max(R(Xs)-Rtarget,ε)
ここで、εは、ハイパーパラメータである。一実施形態は、εは、R(Xs)とRtargetとの間の差が、εによって指示された特定の範囲内にあることを確保するために、小さい値に設定され得る。
[式1]
L(Pe,Pd,Pr)=R(X)+λD(X,X’)
[式2]
L(Ps)=R(Xs)+λD(X,Xs’)
[式6]
L(Ps)=R(Xs)+ηL(D(X,Xs’),Dtarget)
ここで、L(D(X,Xs’),Dtarget)は、D(X,Xs’)とDtargetとの差の損失を測定するものであり、ηは、異なる損失項R(Xs)とL(D(X,Xs’),Dtarget)の寄与をバランスさせるハイパーパラメータ(トレードオフパラメータ)である。一実施形態において、ηは、結果として生成される歪みレベルができるだけターゲット歪みレベルDtargetに近づくことを確保するために、大きな値として設定され得る。損失関数(式6)によってガイドされた代替学習プロセス(300)の期間では、代替画像Xsは、コード化された後にターゲット歪みレベルを有するように決定され得る。次いで、代替画像Xsは、異なるANNモデルのインスタンス間で切り替えることなくターゲット歪みレベルを実現するために、E2Eビデオコーディングシステム(100)によって処理され得る。
[式7]
L(D(X,Xs’),Dtarget)
=max(D(X,Xs’)-Dtarget,ε)
ここで、εは、ハイパーパラメータである。一実施形態では、εは、D(X,Xs’)とDtargetとの間の差が、εによって指示された特定の範囲内にあることを確保するために、小さい値に設定され得る。
(S920)において、画像の代替表現を決定することができる。例えば、機械学習プロセス(最適化プロセスとも呼ばれる)は、画像の代替表現の要素の値をチューニングするために実行され得て、これにより、エンドツーエンド(E2E)最適化されたフレームワークに基づいて画像の代替表現をコーディングするレート歪み性能が最適化される。一例では、画像の代替表現の要素の値をチューニングするための機械学習プロセスは、画像の代替表現の要素の値に対する損失関数を最適化するために実行され得る。E2E最適化されたフレームワークの例は、図3の例におけるE2E訓練されたフレームワーク(301)を含み得る。
101 E2Eフレームワーク
110 エンコーダ
112 代替画像生成器
114 ANNエンコーダ
116 量子化器
118 エントロピーエンコーダ
120 デコーダ
124 ANNデコーダ
128 エントロピーデコーダ
131 ビットストリーム
212 歪み損失生成器
216 量子化器
201 E2E訓練フレームワーク
218 レート損失推定器
300 機械学習プロセス
301 E2E訓練されたフレームワーク
400 テストシステム
500 第1ビットレート制御メカニズム
600 第2ビットレート制御メカニズム
700 歪みメトリックタイプを調整するためのメカニズム
800 ターゲット歪みレベルを調整するためのメカニズム
1000 コンピュータシステム
1001 キーボード
1002 マウス
1003 トラックパッド
1005 ジョイスティック
1006 マイクロホン
1007 スキャナ
1008 カメラ
1009 スピーカ
1010 視覚出力デバイス
1020 CD/DVDを有するCD/DVD ROM/RW
1021 光学媒体または類似の媒体
1022 サムドライブ
1023 リムーバブルハードドライブ
1040 コア
1041 中央処理ユニット(CPU)
1042 グラフィック処理ユニット(GPU)
1043 フィールドプログラマブルゲートアレイ(FPGA)
1044 ハードウェア加速器
1045 リードオンリーメモリ(ROM)
1046 ランダムアクセスメモリ
1047 内部大容量ストレージ
1048 システムバス
1049 周辺デバイス
1050 グラフィックアダプタ
1054 インターフェース
1055 1つまたは複数のネットワーク
[式3]
L(Ps)=R(Xs)+λ目標D(X,Xs’)
[式4]
L(Ps)=ηL(R(Xs),R目標)+D(X,Xs’)
ここで、L(R(Xs),Rtarget)は、R(Xs)とRtargetとの間の差の損失を測定するものであり、ηは、異なる損失項L(R(Xs),Rtarget)とD(X,Xs’)の寄与をバランスさせるハイパーパラメータ(トレードオフパラメータ)である。一実施形態において、ηは、結果として生成されるビットレートができるだけターゲットビットレートRtargetに近づくことを確保するために、大きな値として設定され得る。レート歪み損失関数(式4)によってガイドされた代替学習プロセス(300)の期間では、代替画像Xsは、コード化された後にターゲットビットレートを有するように決定され得る。次いで、代替画像Xsは、異なるANNモデルインスタンス間で切り替えることなくターゲットビットレートを実現するために、E2Eビデオコーディングシステム(100)によって処理され得る(現在のターゲットビットレートとは異なるビットレートをターゲッティングするように予め訓練され得る)。
[式1]
L(Pe,Pd,Pr)=R(X)+λD(X,X’)
[式2]
L(Ps)=R(Xs)+λD(X,Xs’)
[式6]
L(Ps)=R(Xs)+ηL(D(X,Xs’),Dtarget)
ここで、L(D(X,Xs’),Dtarget)は、D(X,Xs’)とDtargetとの差の損失を測定するものであり、ηは、異なる損失項R(Xs)とL(D(X,Xs’),Dtarget)の寄与をバランスさせるハイパーパラメータ(トレードオフパラメータ)である。一実施形態において、ηは、結果として生成される歪みレベルができるだけターゲット歪みレベルDtargetに近づくことを確保するために、大きな値として設定され得る。損失関数(式6)によってガイドされた代替学習プロセス(300)の期間では、代替画像Xsは、コード化された後にターゲット歪みレベルを有するように決定され得る。次いで、代替画像Xsは、異なるANNモデルのインスタンス間で切り替えることなくターゲット歪みレベルを実現するために、E2Eビデオコーディングシステム(100)によって処理され得る。
Claims (20)
- ビデオエンコーダでのビデオ符号化方法であって、
画像を受信するステップと、
エンドツーエンド(E2E)最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定するステップであって、前記E2E最適化されたフレームワークは、予め訓練された、人工ニューラルネットワーク(ANN)に基づくビデオコーディングフレームワークであるステップと、
前記画像の代替表現を符号化することでビットストリームを生成するステップと、
を含むことを特徴とする方法。 - 前記画像の代替表現を決定するステップは、
前記画像の代替表現の要素の値に関する損失関数を最適化するために、前記画像の代替表現の要素をコーディングするための前記最適化プロセスを実行するステップを、含む、
ことを特徴とする請求項1に記の方法。 - 前記最適化プロセスを実行するステップは、
前記ビデオエンコーダに入力される画像ごとに予め固定されたステップサイズおよび反復回数を含むハイパーパラメータに基づいて、前記最適化プロセスを実行するステップを、含む、
ことを特徴とする請求項2に記載の方法。 - 前記最適化プロセスを実行するステップは、
前記ビデオエンコーダに入力される画像ごとに調整されたステップサイズおよび反復回数を含むハイパーパラメータに基づいて、前記最適化プロセスを実行するステップ、を含む、
ことを特徴とする請求項2に記載の方法。 - 前記最適化プロセスの現在の反復は、
前記損失関数を最小化するために、前記画像の代替表現の要素の現在値を調整するための勾配降下を実行するステップと、
前記画像の代替表現の要素の調整された現在値を、前記最適化プロセスの次の反復の入力として使用するステップと、を含む、
ことを特徴とする請求項2に記載の方法。 - 前記損失関数は、前記E2E最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするためのビットレート測度と歪み測度との加重和を含む、
ことを特徴とする請求項2に記載の方法。 - 前記歪み測度は、前記画像と、前記E2E最適化されたフレームワークに基づいてコード化されたときの前記画像の代替表現の再構成された画像との間の差を含む、
ことを特徴とする請求項6に記載の方法。 - 前記E2E最適化されたフレームワークに基づいて前記画像をコーディングするためのビットレートを調整するために、前記加重和におけるトレードオフ係数を調整するステップを、含む、
ことを特徴とする請求項6に記載の方法。 - 前記ビットレート測度は、ターゲットビットレートと、前記E2E最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするためのビットレートとの間の差を含み、また、前記方法は、
前記E2E最適化されたフレームワークを使用して前記画像をコーディングするためのビットレートを調整するために、前記加重和におけるターゲットビットレートを調整するステップ、をさらに含む、
ことを特徴とする請求項6に記載の方法。 - 前記歪み測度は、前記E2E最適化されたフレームワークを最適化するために使用される歪みメトリックタイプとは異なるターゲット歪みメトリックタイプに基づくものである、
ことを特徴とする請求項6に記載の方法。 - 前記歪み測度は、前記E2E最適化されたフレームワークを最適化するために使用される歪みメトリックタイプと同じターゲット歪みメトリックタイプに基づくものである、
ことを特徴とする請求項6に記載の方法。 - 前記歪み測度は、前記E2E最適化されたフレームワークを最適化するために使用される同じ歪みメトリックタイプの歪みレベルとは異なる歪みメトリックタイプのターゲット歪みレベルに基づくものである、
ことを特徴とする請求項6に記載の方法。 - 前記歪み測度は、前記E2E最適化されたフレームワークを最適化するために使用される同じ歪みメトリックタイプの歪みレベルと同じ歪みメトリックタイプのターゲット歪みレベルに基づくものである、
ことを特徴とする請求項6に記載の方法。 - 回路を含むビデオ符号化装置であって、前記回路は、
画像を受信することと、
エンドツーエンド(E2E)最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定することであって、前記E2E最適化されたフレームワークは、予め訓練された、人工ニューラルネットワーク(ANN)に基づくビデオコーディングフレームワークであることと、
前記画像の代替表現を符号化することでビットストリームを生成することと、を行うように構成される、
ことを特徴とする装置。 - 前記回路は、さらに、
前記画像の代替表現の要素の値に関する損失関数を最適化するために、前記画像の代替表現の要素をコーディングするための前記最適化プロセスを実行すること、を行うように構成される、
ことを特徴とする請求項14に記載の装置。 - 前記最適化プロセスの現在の反復は、
前記損失関数を最小化するために、前記画像の代替表現の要素の現在値を調整するための勾配降下を実行することと、
前記画像の代替表現の要素の調整された現在値を、前記最適化プロセスの次の反復の入力として使用することと、を含む、
ことを特徴とする請求項15に記載の装置。 - 前記損失関数は、前記E2E最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするためのビットレート測度と歪み測度との加重和を含む、
ことを特徴とする請求項15に記載の装置。 - 前記歪み測度は、前記画像と、前記E2E最適化されたフレームワークに基づいてコード化されたときの前記画像の代替表現の再構成された画像との間の差を含む、
ことを特徴とする請求項17に記載の装置。 - 前記回路は、さらに、
前記E2E最適化されたフレームワークに基づいて前記画像をコーディングするためのビットレートを調整するために、前記加重和におけるトレードオフ係数を調整すること、を行うように構成される、
ことを特徴とする請求項17に記載の装置。 - 命令が記憶されている非一時的なコンピュータ読み取り可能な媒体であって、前記命令がプロセッサによって実行されるとき、ビデオ符号化方法を前記プロセッサに実行させ、前記方法は、
画像を受信するステップと、
エンドツーエンド(E2E)最適化されたフレームワークに基づいて前記画像の代替表現をコーディングするレート歪み性能を最適化するために、前記画像の代替表現の要素をチューニングするための最適化プロセスを実行することにより、前記画像の代替表現を決定するステップであって、前記E2E最適化されたフレームワークは、予め訓練された、人工ニューラルネットワーク(ANN)に基づくビデオコーディングフレームワークであるステップと、
前記画像の代替表現を符号化することでビットストリームを生成するステップと、を含む、
ことを特徴とする媒体。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063023687P | 2020-05-12 | 2020-05-12 | |
US63/023,687 | 2020-05-12 | ||
US202063026397P | 2020-05-18 | 2020-05-18 | |
US63/026,397 | 2020-05-18 | ||
US17/231,537 | 2021-04-15 | ||
US17/231,537 US11388415B2 (en) | 2020-05-12 | 2021-04-15 | Substitutional end-to-end video coding |
PCT/US2021/027939 WO2021231036A1 (en) | 2020-05-12 | 2021-04-19 | Substitutional end-to-end video coding |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023501563A true JP2023501563A (ja) | 2023-01-18 |
JP7345650B2 JP7345650B2 (ja) | 2023-09-15 |
Family
ID=78512158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022527226A Active JP7345650B2 (ja) | 2020-05-12 | 2021-04-19 | 代替エンドツーエンドビデオコーディング |
Country Status (6)
Country | Link |
---|---|
US (1) | US11388415B2 (ja) |
EP (1) | EP4026052A4 (ja) |
JP (1) | JP7345650B2 (ja) |
KR (1) | KR20220077917A (ja) |
CN (1) | CN114600457A (ja) |
WO (1) | WO2021231036A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4144087A1 (en) | 2020-04-29 | 2023-03-08 | Deep Render Ltd | Image compression and decoding, video compression and decoding: methods and systems |
GB202019531D0 (en) * | 2020-12-10 | 2021-01-27 | Deep Render Ltd | Bit allocation |
US11599972B1 (en) * | 2021-12-22 | 2023-03-07 | Deep Render Ltd. | Method and system for lossy image or video encoding, transmission and decoding |
CN114093377B (zh) * | 2022-01-18 | 2022-05-03 | 成都时识科技有限公司 | 分裂归一化方法、装置、音频特征提取器、芯片 |
US20230319298A1 (en) * | 2022-03-29 | 2023-10-05 | Tencent America LLC | Method and apparatus for optimizing end-to-end neural image compression framework |
WO2024039024A1 (ko) * | 2022-08-18 | 2024-02-22 | 삼성전자 주식회사 | 적응적 양자화 및 역양자화를 위한 영상 복호화 장치, 영상 부호화 장치 및 이에 의한 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200014566A1 (en) * | 2018-06-22 | 2020-01-09 | Elenion Technologies, Llc | Optical domain equalization for coherent optical receivers |
WO2020035684A1 (en) * | 2018-08-15 | 2020-02-20 | Imperial College Of Science, Technology And Medicine | Joint source channel coding of information sources using neural networks |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6760463B2 (en) * | 1995-05-08 | 2004-07-06 | Digimarc Corporation | Watermarking methods and media |
US6801210B2 (en) * | 2001-07-12 | 2004-10-05 | Vimatix (Bvi) Ltd. | Method and apparatus for image representation by geometric and brightness modeling |
US8879857B2 (en) * | 2005-09-27 | 2014-11-04 | Qualcomm Incorporated | Redundant data encoding methods and device |
WO2008027249A2 (en) * | 2006-08-28 | 2008-03-06 | Thomson Licensing | Method and apparatus for determining expected distortion in decoded video blocks |
US20080205515A1 (en) * | 2007-01-25 | 2008-08-28 | Florida Atlantic University | Video encoding with reduced complexity |
WO2017036370A1 (en) * | 2015-09-03 | 2017-03-09 | Mediatek Inc. | Method and apparatus of neural network based processing in video coding |
US20180107926A1 (en) * | 2016-10-19 | 2018-04-19 | Samsung Electronics Co., Ltd. | Method and apparatus for neural network quantization |
WO2019009449A1 (ko) | 2017-07-06 | 2019-01-10 | 삼성전자 주식회사 | 영상을 부호화/복호화 하는 방법 및 그 장치 |
WO2019197712A1 (en) * | 2018-04-09 | 2019-10-17 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
US11625609B2 (en) * | 2018-06-14 | 2023-04-11 | International Business Machines Corporation | Integration of external applications into deep neural networks |
CN109451308B (zh) * | 2018-11-29 | 2021-03-09 | 北京市商汤科技开发有限公司 | 视频压缩处理方法及装置、电子设备及存储介质 |
US11640528B2 (en) * | 2019-10-22 | 2023-05-02 | Baidu Usa Llc | Method, electronic device and computer readable medium for information processing for accelerating neural network training |
-
2021
- 2021-04-15 US US17/231,537 patent/US11388415B2/en active Active
- 2021-04-19 CN CN202180006102.2A patent/CN114600457A/zh active Pending
- 2021-04-19 WO PCT/US2021/027939 patent/WO2021231036A1/en unknown
- 2021-04-19 JP JP2022527226A patent/JP7345650B2/ja active Active
- 2021-04-19 KR KR1020227014670A patent/KR20220077917A/ko active Search and Examination
- 2021-04-19 EP EP21804631.6A patent/EP4026052A4/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200014566A1 (en) * | 2018-06-22 | 2020-01-09 | Elenion Technologies, Llc | Optical domain equalization for coherent optical receivers |
WO2020035684A1 (en) * | 2018-08-15 | 2020-02-20 | Imperial College Of Science, Technology And Medicine | Joint source channel coding of information sources using neural networks |
Non-Patent Citations (2)
Title |
---|
CHANGQING ZHANG, YEQING LIU, AND HUAZHU FU: "AE2-Nets: Autoencoder in Autoencoder Networks", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), JPN6023014347, 2019, pages 2572 - 2580, XP033687059, ISSN: 0005032778, DOI: 10.1109/CVPR.2019.00268 * |
CHING-CHUN HUANG, THANH-PHAT NGUYEN, AND CHEN-TUNG LAI: "MULTI-CHANNEL MULTI-LOSS DEEP LEARNING BASED COMPRESSION MODEL FOR COLOR IMAGES", ICIP 2019 AUTHORIZED LICENSED, JPN6023014345, 2019, pages 4524 - 4528, XP033647395, ISSN: 0005032779, DOI: 10.1109/ICIP.2019.8803487 * |
Also Published As
Publication number | Publication date |
---|---|
CN114600457A (zh) | 2022-06-07 |
US20210360259A1 (en) | 2021-11-18 |
WO2021231036A1 (en) | 2021-11-18 |
EP4026052A1 (en) | 2022-07-13 |
KR20220077917A (ko) | 2022-06-09 |
EP4026052A4 (en) | 2022-12-07 |
JP7345650B2 (ja) | 2023-09-15 |
US11388415B2 (en) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7345650B2 (ja) | 代替エンドツーエンドビデオコーディング | |
Hu et al. | Learning end-to-end lossy image compression: A benchmark | |
KR20220070326A (ko) | 비디오 코딩을 위한 변형 가능한 콘볼루션에 의한 예측 프레임 생성 | |
JP7434604B2 (ja) | ニューラル画像圧縮における画像置換を用いたコンテンツ適応型オンライン訓練 | |
WO2020062074A1 (en) | Reconstructing distorted images using convolutional neural network | |
JP2023505647A (ja) | ニューラルネットワークモデルの圧縮 | |
US20220353512A1 (en) | Content-adaptive online training with feature substitution in neural image compression | |
US11496151B1 (en) | Neural network model compression with block partitioning | |
US11683515B2 (en) | Video compression with adaptive iterative intra-prediction | |
US20230336738A1 (en) | Multi-rate of computer vision task neural networks in compression domain | |
US20230334718A1 (en) | Online training computer vision task models in compression domain | |
US20230306239A1 (en) | Online training-based encoder tuning in neural image compression | |
US20230316588A1 (en) | Online training-based encoder tuning with multi model selection in neural image compression | |
US20230316048A1 (en) | Multi-rate computer vision task neural networks in compression domain | |
JP2024521021A (ja) | 画像処理方法 | |
JP2024519675A (ja) | 圧縮領域におけるマルチレートのコンピュータビジョンタスクニューラルネットワーク | |
KR20240021158A (ko) | 이미지 코덱 | |
KR20240025629A (ko) | 광학 흐름를 이용한 비디오 압축 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220511 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230905 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7345650 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |