JP2021520162A - ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体 - Google Patents
ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体 Download PDFInfo
- Publication number
- JP2021520162A JP2021520162A JP2020560352A JP2020560352A JP2021520162A JP 2021520162 A JP2021520162 A JP 2021520162A JP 2020560352 A JP2020560352 A JP 2020560352A JP 2020560352 A JP2020560352 A JP 2020560352A JP 2021520162 A JP2021520162 A JP 2021520162A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- residual
- information
- motion information
- motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
本出願は、出願日が2018年11月29日であり、出願番号が第201811440753.9である中国特許出願に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることを含む。
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得るように構成されるビデオ圧縮モジュールを備える。
メモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータの実行可能な命令を実行することによって、前記いずれか1つの技術的解決手段により提供されるビデオ圧縮処理方法を実現させるように構成されるプロセッサとを備える。
第1運動情報に基づいて符号化を行い、運動特徴を得ることと、
運動特徴に基づいて復号を行い、第2運動情報を得ることと、
1つ前の再構成フレーム及び前記第2運動情報に基づいて、現在の予測フレームを得ることとを含んでもよい。
前記第1運動特徴に所定の雑音を加え、前記第2運動特徴を得ることを更に含む。モデル訓練過程において勾配法を実施する必要があるため、四捨五入処理、切り上げ又は切り下げ処理を直接的に行う場合、勾配法の実施が難しくなり、エンドツーエンドモデル訓練に異常が発生してしまう。従って、幾つかの実施例において、前記所定の雑音を取り込むことで、勾配法の実現ができるようになり、前記エンドツーエンドモデルの訓練を容易にする。
第1畳み込み層によって前記第1運動情報に対して畳み込みを行い、第1符号化値を得ることと、
第1正規化層によって前記第1符号化値を正規化し、第1正規化値を得ることと、
第n畳み込み層によって第n−1正規化層から出力された第n−1正規化値に対して畳み込みを行い、第n符号化値を得ることと、
第n正規化層によって第n符号化値に対して正規化処理を行い、第n正規化値を得ることと、
第N畳み込み層によって第N−1正規化値に対して正規化処理を行い、前記第1運動特徴を得ることとを含み、
ここで、nは、1より大きくてNより小さい正整数であり、Nは畳み込み層の数である。
第1逆畳み込み層によって前記第1運動特徴に対して逆畳み込みを行い、第1復号値を得ることと、
第1逆正規化層によって前記第1復号値に対して逆正規化処理を行い、第1逆正規化値を得ることと、
第n逆畳み込み層によって第n−1逆正規化層から出力された第n−1逆正規化値に対して逆畳み込みを行い、第n復号値を得ることと、
第n逆正規化層によって第n復号値に対して正規化処理を行い、第n逆正規化値を出力することと、
第N逆畳み込み層によって第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動情報を得ることとを含んでもよく、
ここで、nは1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数である。
は、前記第1運動情報を表す。
は、前記第2運動情報を表す。
は、第1運動特徴を表す。
は第2運動特徴を表す。Qは計量化操作を表す。
前記1つ前の再構成フレーム、前記第2運動情報及び投影フレームを組み合わせ、第1組み合わせフレームを得、前記投影フレームが、前記1つ前の再構成フレーム及び前記第2運動情報に基づいて畳み込みを行って生成されたものであることと、
前記第1組み合わせフレームに対して畳み込みを行い、第1畳み込みフレームを得ることと、
前記第1畳み込みフレームに基づいて、S+1回の第1残差処理及びS回のプーリング処理を行い、第1中間フレームを得、前記第1残差処理と前記プーリング処理が交互に実行されることと、
前記第1中間フレームに対して、S+1回の第2残差処理及びS回のアップサンプリング処理を行い、第2中間フレームを得、前記第2残差処理と前記アップサンプリング処理が交互に実行されることと、
前記第2中間フレームに対して第2畳み込み処理を行い、第2畳み込みフレームを得ることと、
前記第2畳み込みフレームに対して第3畳み込み処理を行い、前記現在の予測フレームを得ることとを含む。
前記1つ前の再構成フレーム、所述第2運動情報及び投影フレームを組み合わせ、第1組み合わせフレームを得て、前記投影フレームが、前記1つ前の再構成フレーム及び前記第2運動情報に基づいて畳み込みを行って生成されたものであることと、
前記第1組み合わせフレームに対して畳み込みを行い、第1畳み込みフレームを得ることと、
前記第1畳み込みフレームに対して線形修正及び畳み込み処理を行ってから、前記第1畳み込みフレームと共に残差処理を行い、第1残差フレームを得ることと、
前記第1残差フレームをプーリング処理し、第1プーリングフレームを得ることと、
前記第1プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第1プーリングフレームと共に残差処理を行い、第2残差フレームを得ることと、
前記第2残差フレームをプーリング処理し、第2プーリングフレームを得ることと、
前記第2プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第2プーリングフレームと共に残差処理を行い、第3残差フレームを得ることと、
前記第3残差フレームに対して線形修正及び畳み込み処理を行ってから、前記第3残差フレームと共に残差処理を行い、第4残差フレームを得ることと、
前記第4残差フレームをアップサンプリングし、第1アップサンプリングフレームを得ることと、
第2組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第2組み合わせフレームと共に残差処理を行い、第5残差フレームを得て、前記第2組み合わせフレームが前記第1アップサンプリングフレーム及び前記第2残差フレームに基づいて生成されたものであることと、
前記第5残差フレームをアップサンプリングし、第2アップサンプリングフレームを得ることと、
第3組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第3組み合わせフレームと共に残差処理を行い、第6残差フレームを得て、前記第3組み合わせフレームが前記第2アップサンプリングフレーム及び前記第1残差フレームに基づいて生成されたものであることと、
前記第6残差フレームを畳み込み、第2畳み込みフレームを得ることと、
前記第2畳み込みフレームを畳み込み、前記現在の予測フレームを得ることとを含んでもよい。
は損失値であり、
は前記現在のフレームと前記現在の再構成フレームとの歪み値である。
は、前記第1残差情報に対して符号化を行いて計量化することで得られた第2運動特徴である。
は、前記第1残差情報に対して符号化を行いて計量化することで得られた第2残差特徴である。
は、
を符号化してから得られたコードワードの数である。
は、
を符号化してから得られたコードワードの数である。
は、コードレートと歪みとの平衡係数である。
は、現在のオリジナルフレームと現在の再構成フレームとのピーク信号対雑音比(Peak Signal to Noise Ratio:PSNR)であってもよい。例えば、PSNR=10*log10((2^n−1)^2/ MSE)である。MSEは、前記現在のオリジナルフレームと前記現在の再構成フレームとの平均二乗誤差であってもよい。
は、現在のオリジナルフレームと現在の再構成フレームとの平均平方誤差(Structural Similarity Index:SSIM)又はマルチスケール平均平方誤差(Multi−Scale−Structural Similarity Index:MS−SSIM)に基づいて決定されたものであってもよい。
に対するコードレートと同じであるため、
及び
に対する損失は同じである。この場合、
は、コードレートと歪みとの平衡係数である。
がそのままであれば、
及び
を符号化して得られたコードワードの数は多いほど、損失値は大きくなり、
及び
を符号化して得れたコードワークの数が少ないほど、損失値は小さくなる。
は調整可能である。異なるエンドツーエンドモデルの
は異なってもよい。
が大きいほど、
による影響が小さくなり、コードレートがエンドツーエンドモデルの損失に与える損失が大きくなる。
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得るように構成されるビデオ圧縮モジュールを備える。
現在のオリジナルフレーム及び1つ前の再構成フレームに基づいて第1運動情報を取得するように構成される運動推定モジュール101と、
前記第1運動情報及び前記1つ前の再構成フレームに基づいて現在の予測フレームを得るように構成される現在の予測フレームモジュール102と、
前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第1残差情報を得るように構成される残差処理モジュールであって、前記第1運動情報及び前記第1残差情報が、前記ビデオ圧縮情報を形成するためのものである残差処理モジュール103とを備える。
第1残差情報及び前記現在の予測フレームに基づいて現在の再構成フレームを得て、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第1運動情報を取得するために用いられるように構成される再構成フレームモジュール104を更に備える。
前記第1運動情報に対して符号化を行い、第1運動特徴を得るように構成される運動情報符号化サブモジュールと、
前記第1運動特徴を計量化し、第2運動特徴を得るように構成される第1計量化サブモジュールと、
前記第2運動特徴を復号し、再構成された第2運動情報を得るように構成される運動情報復号サブモジュールと、
前記1つ前の再構成フレーム及び第2運動情報に基づいて、現在の予測フレームを得るように構成される運動補償サブモジュールとを備える。
前記第1運動情報に対して畳み込みを行い、第1符号化値を得るように構成される第1畳み込み層と、
前記第1符号化値を正規化し、第1正規化値を得るように構成される第1正規化層と、
第n−1正規化層から出力された第n−1正規化値に対して畳み込みを行い、第n符号化値を得るように構成される第n畳み込み層と、
第n符号化値に対して正規化処理を行い、第n正規化値を得るように構成される第n正規化層と、
第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動特徴を得るように構成される第N逆畳み込み層とを備え、
ここで、nは、1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数である。
前記第1運動特徴に対して逆畳み込みを行い、第1復号値を得るように構成される第1逆畳み込み層と、
前記第1復号値に対して逆正規化処理を行い、第1逆正規化値を得るように構成される第1逆正規化層と、
第n−1逆正規化層から出力された第n−1逆正規化値に対して逆畳み込みを行い、第n復号値を得るように構成される第n逆畳み込み層と、
第n復号値に対して正規化処理を行い、第n逆正規化値を出力するように構成される第n逆正規化層と、
第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動情報を得るように構成される第N逆畳み込み層とを備え、
ここで、nは1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数である。
前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて第1残差情報を得るように構成される残差情報取得サブモジュールと、
前記第1残差情報に対して符号化を行い、第1残差特徴を得るように構成される残差符号化サブモジュールと、
前記第1残差特徴に対して計量化を行い、第2残差特徴を得るように構成される第2計量化サブモジュールとを備え、
ここで、前記第2残差特徴と前記第1運動情報に基づいて得られた第2運動特徴とは、前記ビデオ圧縮情報の構成部分である。
前記1つ前の再構成フレーム、前記第2運動情報及び投影フレームを組み合わせ、第1組み合わせフレームを得るように構成される組み合わせ層であって、前記投影フレームが、前記1つ前の再構成フレーム及び前記第2運動情報に基づいて畳み込みを行って生成されたものである組み合わせ層と、
前記第1組み合わせフレームに対して畳み込みを行い、第1畳み込みフレームを得るように構成される第1畳み込み層と、
前記第1畳み込みフレームに基づいて、S+1回の第1残差処理及びS回のプーリング処理を行い、第1中間フレームを得るように構成される第1中間処理ユニットであって、前記第1残差処理と前記プーリング処理が交互に実行される第1中間処理ユニットと、
前記第1中間フレームに対して、S+1回の第2残差処理及びS回のアップサンプリング処理を行い、第2中間フレームを得るように構成される第2中間処理ユニットであって、前記第2残差処理と前記アップサンプリング処理が交互に実行される第2中間処理ユニットと、
前記第2中間フレームに対して第2畳み込み処理を行い、第2畳み込みフレームを得るように構成される第2畳み込み層と、
前記第2畳み込みフレームに対して第3畳み込み処理を行い、前記現在の予測フレームを得るように構成される第3畳み込み層とを備える。
前記第1畳み込みフレームに対して線形修正及び畳み込み処理を行ってから、前記第1畳み込みフレームと共に残差処理を行い、第1残差フレームを得るように構成される第1残差ユニットと、
前記第1残差フレームをプーリング処理し、第1プーリングフレームを得るように構成される第1プーリング層と、
前記第1プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第1プーリングフレームと共に残差処理を行い、第2残差フレームを得るように構成される第2残差ユニットと、
前記第2残差フレームをプーリング処理し、第2プーリングフレームを得るように構成される第2プーリング層と、
前記第2プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第2プーリングフレームと共に残差処理を行い、第3残差フレームを得るように構成される第3残差ユニットとを備える。
前記第2中間層は、
前記第3残差フレームに対して線形修正及び畳み込み処理を行ってから、前記第3残差フレームと共に残差処理を行い、第4残差フレームを得るように構成される第4残差ユニットと、
前記第4残差フレームをアップサンプリングし、第1アップサンプリングフレームを得るように構成される第1アップサンプリング層と、
第2組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第2組み合わせフレームと共に残差処理を行い、第5残差フレームを得て、前記第2組み合わせフレームが前記第1アップサンプリングフレーム及び前記第2残差フレームに基づいて生成されたものであるように構成される第5残差ユニットと、
前記第5残差フレームをアップサンプリングし、第2アップサンプリングフレームを得るように構成される第2アップサンプリング層と、
第3組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第3組み合わせフレームと共に残差処理を行い、第6残差フレームを得て、前記第3組み合わせフレームが前記第2アップサンプリングフレーム及び前記第1残差フレームに基づいて生成されたものであるように構成される第6残差ユニットとを素姉る。
第3畳み込み層は、前記第2畳み込みフレームを畳み込み、前記現在の予測フレームを得るように構成される。
ただし、
は損失値であり、
は前記現在のフレームと前記現在の再構成フレームとの歪み値である。
は、前記第1残差情報に対して符号化を行いて計量化することで得られた第2運動特徴である。
は、前記第1残差情報に対して符号化を行いて計量化することで得られた第2残差特徴である。
は、
を符号化してから得られたコードワードの数である。
は、
を符号化してから得られたコードワードの数である。
は、コードレートと歪みとの平衡係数である。
である。まず、運動情報符号化サブモジュール(MV Encoder Net)により、運動特徴
を得る。Qは、計量化操作を表す。計量化結果は、
である。
をMV Decoder Netにより処理し、対応する再構成された運動情報
を得る。MV Encoder Net及びMV Decoder Netは図6に示す通りである。
を現在の時刻に投影し、投影フレームを得て初期畳み込みフレーム(warped frame)と呼ぶ。続いて、warped frame、1つ前の時刻の再構成フレーム、再構成運動情報を組み合わせ、畳み込みニューラルネットワークに入力し、対応する予測フレーム
を得る。図9において、CNNは、畳み込みネットワークを表す。
を得る。
を残差エンコーダに入力し、残差特徴
を得て、計量化を行い、
を得る。
を残差デコーダに入力し、
を得る。残差符号化ネットワーク及び残差復号ネットワークとして、現在のピクチャ圧縮に関わるネットワークを用いてもよい。
情報を記憶するように構成されるメモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータの実行可能な命令を実行することによって、前記1つ又は複数の技術的解決手段で提供されるビデオ圧縮処理方法を実現させ、例えば図1、図2A、図2B、図3、図4、図5、図6、図8、図9及び図10に示した方法のうちの1つ又は複数を実現させるように構成されるプロセッサとを備える。
Claims (25)
- ビデオ圧縮処理方法であって、
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることを含む、ビデオ圧縮処理方法。 - 単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることは、
現在のオリジナルフレーム及び1つ前の再構成フレームに基づいて第1運動情報を取得することと、
前記第1運動情報及び前記1つ前の再構成フレームに基づいて現在の予測フレームを得ることと、
前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第1残差情報を得、前記第1運動情報及び前記第1残差情報が、前記ビデオ圧縮情報を形成するためのものであることと、を含むことを特徴とする
請求項1に記載の方法。 - 単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることは、
第1残差情報及び前記現在の予測フレームに基づいて、現在の再構成フレームを得て、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第1運動情報を取得するために用いられることを更に含むことを特徴とする
請求項2に記載の方法。 - 前記第1運動情報及び前記1つ前の再構成フレームに基づいて現在の予測フレームを得ることは、
第1運動情報に基づいて運動特徴を得ることと、
前記運動特徴に基づいて復号を行い、第2運動情報を得ることと、
前記1つ前の再構成フレーム及び前記第2運動情報に基づいて、前記現在の予測フレームを得ることとを含むことを特徴とする
請求項2又は3に記載の方法。 - 第1運動情報に基づいて運動特徴を得ることは、
前記第1運動情報に対して符号化を行い、第1運動特徴を得ることを含み、
前記方法は、
前記第1運動特徴を計量化し、第2運動特徴を得ることを更に含み、
前記運動特徴に基づいて復号を行い、第2運動情報を得ることは、
前記第2運動特徴を復号し、再構成された第2運動情報を得ることを含むことを特徴とする
請求項4に記載の方法。 - 前記第1運動情報に対して符号化を行い、第1運動特徴を得ることは、
第1畳み込み層によって前記第1運動情報に対して畳み込みを行い、第1符号化値を得ることと、
第1正規化層によって前記第1符号化値を正規化し、第1正規化値を得ることと、
第n畳み込み層によって第n−1正規化層から出力された第n−1正規化値に対して畳み込みを行い、第n符号化値を得ることと、
第n正規化層によって第n符号化値に対して正規化処理を行い、第n正規化値を得ることと、
第N畳み込み層によって第N−1正規化値に対して正規化処理を行い、前記第1運動特徴を得ることとを含み、
ここで、nは、1より大きくてNより小さい正整数であり、Nは畳み込み層の数であることを特徴とする
請求項5に記載の方法。 - 前記第2運動特徴を復号し、再構成された第2運動情報を得ることは、
第1逆畳み込み層によって前記第1運動特徴に対して逆畳み込みを行い、第1復号値を得ることと、
第1逆正規化層によって前記第1復号値に対して逆正規化処理を行い、第1逆正規化値を得ることと、
第n逆畳み込み層によって第n−1逆正規化層から出力された第n−1逆正規化値に対して逆畳み込みを行い、第n復号値を得ることと、
第n逆正規化層によって第n復号値に対して正規化処理を行い、第n逆正規化値を出力することと、
第N逆畳み込み層によって第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動情報を得ることとを含んでもよく、
ここで、nは1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数であることを特徴とする
請求項6に記載の方法。 - 前記方法は、
前記第1残差情報に対して符号化を行い、第1残差特徴を得ることと、
前記第1残差特徴に対して計量化を行い、第2残差特徴を得ることとを更に含み、
ここで、前記第2残差特徴と前記第1運動情報に基づいて得られた第2運動特徴とは、前記ビデオ圧縮情報の構成部分であることを特徴とする
請求項2から7のいずれか一項に記載の方法。 - 前記1つ前の再構成フレーム及び第2運動情報に基づいて、現在の予測フレームを得ることは、
前記1つ前の再構成フレーム、前記第2運動情報及び投影フレームを組み合わせ、第1組み合わせフレームを得、前記投影フレームが、前記1つ前の再構成フレーム及び前記第2運動情報に基づいて畳み込みを行って生成されたものであることと、
前記第1組み合わせフレームに対して畳み込みを行い、第1畳み込みフレームを得ることと、
前記第1畳み込みフレームに基づいて、S+1回の第1残差処理及びS回のプーリング処理を行い、第1中間フレームを得、前記第1残差処理と前記プーリング処理が交互に実行されることと、
前記第1中間フレームに対して、S+1回の第2残差処理及びS回のアップサンプリング処理を行い、第2中間フレームを得、前記第2残差処理と前記アップサンプリング処理が交互に実行されることと、
前記第2中間フレームに対して第2畳み込み処理を行い、第2畳み込みフレームを得ることと、
前記第2畳み込みフレームに対して第3畳み込み処理を行い、前記現在の予測フレームを得ることとを含むことを特徴とする
請求項8に記載の方法。 - 前記アップサンプリング処理は、双線形補間法を利用することを特徴とする
請求項9に記載の方法。 - 前記エンドツーエンドモデルの損失値は、前記損失関数を利用して、第1運動情報、前記第1残差情報、現在のオリジナルフレーム及び現在の予測フレームに基づいて決定されたものであることを特徴とする
請求項1から10のいずれか一項に記載の方法。 - ビデオ圧縮処理装置であって、
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得るように構成されるビデオ圧縮モジュールを備える、ビデオ圧縮処理装置。 - 前記ビデオ圧縮モジュールは、
現在のオリジナルフレーム及び1つ前の再構成フレームに基づいて第1運動情報を取得するように構成される運動推定モジュールと、
前記第1運動情報及び前記1つ前の再構成フレームに基づいて現在の予測フレームを得るように構成される現在の予測フレームモジュールと、
前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第1残差情報を得るように構成される残差処理モジュールであって、前記第1運動情報及び前記第1残差情報が、前記ビデオ圧縮情報を形成するためのものである残差処理モジュールと、を備えることを特徴とする
請求項12に記載の装置。 - 前記ビデオ圧縮モジュールは、
第1残差情報及び前記現在の予測フレームに基づいて現在の再構成フレームを得るように構成される再構成フレームモジュールを更に備え、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第1運動情報を取得するために用いられることを特徴とする
請求項13に記載の装置。 - 前記現在の予測フレームモジュールは、第1運動情報に基づいて運動特徴を得て、前記運動特徴に基づいて復号を行い、第2運動情報を得て、1つ前の再構成フレーム及び前記第2運動情報に基づいて、現在の予測フレームを得るように構成されることを特徴とする
請求項13又は14に記載の装置。 - 前記現在の予測フレームモジュールは、
前記第1運動情報に対して符号化を行い、第1運動特徴を得るように構成される運動情報符号化サブモジュールと、
前記第1運動特徴を計量化し、第2運動特徴を得るように構成される第1計量化サブモジュールと、
前記第2運動特徴を復号し、再構成された第2運動情報を得るように構成される運動情報復号サブモジュールと、
前記1つ前の再構成フレーム及び第2運動情報に基づいて、現在の予測フレームを得るように構成される運動補償サブモジュールとを備えることを特徴とする
請求項15に記載の装置。 - 前記運動情報符号化サブモジュールは、
前記第1運動情報に対して畳み込みを行い、第1符号化値を得るように構成される第1畳み込み層と、
前記第1符号化値を正規化し、第1正規化値を得るように構成される第1正規化層と、
第n−1正規化層から出力された第n−1正規化値に対して畳み込みを行い、第n符号化値を得るように構成される第n畳み込み層と、
第n符号化値に対して正規化処理を行い、第n正規化値を得るように構成される第n正規化層と、
第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動特徴を得るように構成される第N逆畳み込み層とを備え、
ここで、nは、1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数であることを特徴とする
請求項16に記載の装置。 - 前記運動情報復号サブモジュールは、
前記第1運動特徴に対して逆畳み込みを行い、第1復号値を得るように構成される第1逆畳み込み層と、
前記第1復号値に対して逆正規化処理を行い、第1逆正規化値を得るように構成される第1逆正規化層と、
第n−1逆正規化層から出力された第n−1逆正規化値に対して逆畳み込みを行い、第n復号値を得るように構成される第n逆畳み込み層と、
第n復号値に対して正規化処理を行い、第n逆正規化値を出力するように構成される第n逆正規化層と、
第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動情報を得るように構成される第N逆畳み込み層とを備え、
ここで、nは1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数であることを特徴とする
請求項16又は17に記載の装置。 - 前記残差処理モジュールは、
前記第1残差情報に対して符号化を行い、第1残差特徴を得るように構成される残差符号化サブモジュールと、
前記第1残差特徴に対して計量化を行い、第2残差特徴を得るように構成される第2計量化サブモジュールとを更に備え、
ここで、前記第2残差特徴と前記第1運動情報に基づいて得られた第2運動特徴とは、前記ビデオ圧縮情報の構成部分であることを特徴とする
請求項13から18のいずれか一項に記載の装置。 - 前記運動補償サブモジュールは、
前記1つ前の再構成フレーム、前記第2運動情報及び投影フレームを組み合わせ、第1組み合わせフレームを得るように構成される組み合わせ層であって、前記投影フレームが、前記1つ前の再構成フレーム及び前記第2運動情報に基づいて畳み込みを行って生成されたものである組み合わせ層と、
前記第1組み合わせフレームに対して畳み込みを行い、第1畳み込みフレームを得るように構成される第1畳み込み層と、
前記第1畳み込みフレームに基づいて、S+1回の第1残差処理及びS回のプーリング処理を行い、第1中間フレームを得るように構成される第1中間処理ユニットであって、前記第1残差処理と前記プーリング処理が交互に実行される第1中間処理ユニットと、
前記第1中間フレームに対して、S+1回の第2残差処理及びS回のアップサンプリング処理を行い、第2中間フレームを得るように構成される第2中間処理ユニットであって、前記第2残差処理と前記アップサンプリング処理が交互に実行される第2中間処理ユニットと、
前記第2中間フレームに対して第2畳み込み処理を行い、第2畳み込みフレームを得るように構成される第2畳み込み層と、
前記第2畳み込みフレームに対して第3畳み込み処理を行い、前記現在の予測フレームを得るように構成される第3畳み込み層とを備えることを特徴とする
請求項19に記載の装置。 - 前記アップサンプリング処理は、双線形補間法を利用することを特徴とする
請求項20に記載の装置。 - 前記エンドツーエンドモデルの損失値は、前記損失関数を利用して、第1運動情報、第1残差情報、現在のオリジナルフレーム及び現在の予測フレームに基づいて決定されたものであることを特徴とする
請求項12から21のいずれか一項に記載の装置。 - 電子機器であって、
メモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータの実行可能な命令を実行することによって、請求項1から11のいずれか一項に記載のビデオ圧縮処理方法を実現させるように構成されるプロセッサと、を備える、電子機器。 - コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータの実行可能な命令が記憶されており、前記コンピュータの実行可能な命令がプロセッサにより実行される時に、請求項1から11のいずれか一項に記載のビデオ圧縮処理方法を実現させる、コンピュータ記憶媒体。
- プログラムであって、コンピュータに、請求項1から11のいずれか一項に記載のビデオ圧縮処理方法を実行させる、プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811440753.9A CN109451308B (zh) | 2018-11-29 | 2018-11-29 | 视频压缩处理方法及装置、电子设备及存储介质 |
CN201811440753.9 | 2018-11-29 | ||
PCT/CN2019/092530 WO2020107877A1 (zh) | 2018-11-29 | 2019-06-24 | 视频压缩处理方法及装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021520162A true JP2021520162A (ja) | 2021-08-12 |
JP7123169B2 JP7123169B2 (ja) | 2022-08-22 |
Family
ID=65555193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020560352A Active JP7123169B2 (ja) | 2018-11-29 | 2019-06-24 | ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11290723B2 (ja) |
JP (1) | JP7123169B2 (ja) |
CN (1) | CN109451308B (ja) |
SG (1) | SG11202010522WA (ja) |
WO (1) | WO2020107877A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109451308B (zh) | 2018-11-29 | 2021-03-09 | 北京市商汤科技开发有限公司 | 视频压缩处理方法及装置、电子设备及存储介质 |
CN109934183B (zh) * | 2019-03-18 | 2021-09-14 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、检测设备及存储介质 |
CN110248191A (zh) * | 2019-07-15 | 2019-09-17 | 山东浪潮人工智能研究院有限公司 | 一种基于深层卷积神经网络的视频压缩方法 |
CN110650339A (zh) * | 2019-08-08 | 2020-01-03 | 合肥图鸭信息科技有限公司 | 一种视频压缩方法、装置及终端设备 |
US11973964B2 (en) * | 2019-09-20 | 2024-04-30 | Interdigital Madison Patent Holdings, Sas | Video compression based on long range end-to-end deep learning |
CN111263161B (zh) * | 2020-01-07 | 2021-10-26 | 北京地平线机器人技术研发有限公司 | 视频压缩处理方法、装置、存储介质和电子设备 |
US11388415B2 (en) * | 2020-05-12 | 2022-07-12 | Tencent America LLC | Substitutional end-to-end video coding |
CN112651449B (zh) * | 2020-12-29 | 2023-08-01 | 北京百度网讯科技有限公司 | 确定视频的内容特征的方法、装置、电子设备及存储介质 |
US20240155154A1 (en) * | 2021-03-28 | 2024-05-09 | Sharp Kabushiki Kaisha | Systems and methods for autoencoding residual data in coding of a multi-dimensional data |
US20220329876A1 (en) | 2021-04-08 | 2022-10-13 | Disney Enterprises, Inc. | Machine Learning Model-Based Video Compression |
CN117750021B (zh) * | 2024-02-19 | 2024-04-30 | 北京铁力山科技股份有限公司 | 一种视频压缩方法、装置、计算机设备及存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103037219B (zh) * | 2012-10-22 | 2016-08-10 | 北京航空航天大学 | 一种基于分形和h.264的视频压缩与解压缩方法 |
US10748062B2 (en) | 2016-12-15 | 2020-08-18 | WaveOne Inc. | Deep learning based adaptive arithmetic coding and codelength regularization |
EP3370424A1 (en) * | 2017-03-02 | 2018-09-05 | Thomson Licensing | A method and a device for picture encoding and decoding |
CN106911930A (zh) * | 2017-03-03 | 2017-06-30 | 深圳市唯特视科技有限公司 | 一种基于递归卷积神经网络进行压缩感知视频重建的方法 |
CN107105278B (zh) * | 2017-04-21 | 2019-10-25 | 中国科学技术大学 | 运动矢量自动生成的视频编解码系统 |
CN107197260B (zh) * | 2017-06-12 | 2019-09-13 | 清华大学深圳研究生院 | 基于卷积神经网络的视频编码后置滤波方法 |
CN107396124B (zh) * | 2017-08-29 | 2019-09-20 | 南京大学 | 基于深度神经网络的视频压缩方法 |
CN108012157B (zh) * | 2017-11-27 | 2020-02-04 | 上海交通大学 | 用于视频编码分数像素插值的卷积神经网络的构建方法 |
KR102262554B1 (ko) * | 2017-12-14 | 2021-06-09 | 한국전자통신연구원 | 예측 네트워크를 사용하는 영상의 부호화 및 복호화를 위한 방법 및 장치 |
CN108171325B (zh) * | 2017-12-28 | 2020-08-28 | 中国科学技术大学 | 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置 |
CN108174218B (zh) * | 2018-01-23 | 2020-02-07 | 中国科学技术大学 | 基于学习的视频编解码系统 |
CN108307193B (zh) * | 2018-02-08 | 2018-12-18 | 北京航空航天大学 | 一种有损压缩视频的多帧质量增强方法及装置 |
US10929654B2 (en) * | 2018-03-12 | 2021-02-23 | Nvidia Corporation | Three-dimensional (3D) pose estimation from a monocular camera |
US11019355B2 (en) * | 2018-04-03 | 2021-05-25 | Electronics And Telecommunications Research Institute | Inter-prediction method and apparatus using reference frame generated based on deep learning |
CN108900848B (zh) * | 2018-06-12 | 2021-03-02 | 福建帝视信息科技有限公司 | 一种基于自适应可分离卷积的视频质量增强方法 |
US20200021815A1 (en) * | 2018-07-10 | 2020-01-16 | Fastvdo Llc | Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (vqa) |
CN109451308B (zh) * | 2018-11-29 | 2021-03-09 | 北京市商汤科技开发有限公司 | 视频压缩处理方法及装置、电子设备及存储介质 |
-
2018
- 2018-11-29 CN CN201811440753.9A patent/CN109451308B/zh active Active
-
2019
- 2019-06-24 JP JP2020560352A patent/JP7123169B2/ja active Active
- 2019-06-24 SG SG11202010522WA patent/SG11202010522WA/en unknown
- 2019-06-24 WO PCT/CN2019/092530 patent/WO2020107877A1/zh active Application Filing
-
2020
- 2020-10-28 US US17/082,661 patent/US11290723B2/en active Active
Non-Patent Citations (4)
Title |
---|
JIANG, FENG ET AL.: "An End-to-End Compression Framework Based on Convolutional Neural Networks", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. Volume: 28, Issue: 10, JPN6021050144, 1 August 2017 (2017-08-01), pages 3007 - 3018, ISSN: 0004667574 * |
LU, GUO ET AL., DVC: AN END-TO-END DEEP VIDEO COMPRESSION FRAMEWORK, vol. v1, JPN7021005511, 30 November 2018 (2018-11-30), pages 1 - 14, ISSN: 0004667573 * |
WU, CHAO-YUAN ET AL., VIDEO COMPRESSION THROUGH IMAGE INTERPOLATION, JPN7021005510, 18 April 2018 (2018-04-18), pages 1 - 18, ISSN: 0004667572 * |
ZHAO, ZHENGHUI ET AL.: "CNN-Based Bi-Directional Motion Compensation for High Efficiency Video Coding", 2018 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS), JPN6021050146, 4 May 2018 (2018-05-04), pages 1 - 4, XP033434636, ISSN: 0004667575, DOI: 10.1109/ISCAS.2018.8351189 * |
Also Published As
Publication number | Publication date |
---|---|
SG11202010522WA (en) | 2020-11-27 |
CN109451308B (zh) | 2021-03-09 |
US20210044804A1 (en) | 2021-02-11 |
WO2020107877A1 (zh) | 2020-06-04 |
JP7123169B2 (ja) | 2022-08-22 |
US11290723B2 (en) | 2022-03-29 |
CN109451308A (zh) | 2019-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7123169B2 (ja) | ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体 | |
Hu et al. | Learning end-to-end lossy image compression: A benchmark | |
US10462476B1 (en) | Devices for compression/decompression, system, chip, and electronic device | |
US20200145692A1 (en) | Video processing method and apparatus | |
CN109923864B (zh) | 数据处理设备、方法、计算机程序和计算机可读介质 | |
CN110677651A (zh) | 一种视频压缩方法 | |
CN111641826B (zh) | 对数据进行编码、解码的方法、装置与系统 | |
CN111988609A (zh) | 图像编码装置、概率模型生成装置和图像解码装置 | |
CN112702592B (zh) | 端到端双目图像联合压缩方法、装置、设备和介质 | |
US11856210B2 (en) | Apparatuses, methods, computer programs and computer-readable media | |
CN113079378B (zh) | 图像处理方法、装置和电子设备 | |
CN110753225A (zh) | 一种视频压缩方法、装置及终端设备 | |
CN111510739B (zh) | 一种视频传输方法及装置 | |
WO2019056898A1 (zh) | 一种编码、解码方法及装置 | |
CN113747163B (zh) | 基于上下文重组建模的图像编码、解码方法及压缩方法 | |
KR20210018668A (ko) | 딥러닝 신경 네트워크를 사용하여 다운샘플링을 수행하는 이미지 처리 시스템 및 방법, 영상 스트리밍 서버 시스템 | |
Zhang et al. | Lossless image compression using a multi-scale progressive statistical model | |
CN110913230A (zh) | 一种视频帧预测方法、装置及终端设备 | |
CN115866253B (zh) | 一种基于自调制的通道间变换方法、装置、终端及介质 | |
CN112866697A (zh) | 视频图像编解码方法、装置、电子设备及存储介质 | |
CN110944212A (zh) | 一种视频帧重构方法、装置及终端设备 | |
CN111080729A (zh) | 基于Attention机制的训练图片压缩网络的构建方法及系统 | |
CN115913245A (zh) | 数据编码方法、数据解码方法以及数据处理装置 | |
CN111083500A (zh) | 一种视频帧重构方法、装置及终端设备 | |
CN110830806A (zh) | 一种视频帧预测方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201027 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201027 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220719 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7123169 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |