JP2021520162A - ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体 - Google Patents

ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2021520162A
JP2021520162A JP2020560352A JP2020560352A JP2021520162A JP 2021520162 A JP2021520162 A JP 2021520162A JP 2020560352 A JP2020560352 A JP 2020560352A JP 2020560352 A JP2020560352 A JP 2020560352A JP 2021520162 A JP2021520162 A JP 2021520162A
Authority
JP
Japan
Prior art keywords
frame
residual
information
motion information
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020560352A
Other languages
English (en)
Other versions
JP7123169B2 (ja
Inventor
ガオ ルー
ガオ ルー
ワンリー ウーヤン
ワンリー ウーヤン
シアオユン ジャン
シアオユン ジャン
チュンレイ ツァイ
チュンレイ ツァイ
ドン シュー
ドン シュー
ジーヨン ガオ
ジーヨン ガオ
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド, ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021520162A publication Critical patent/JP2021520162A/ja
Application granted granted Critical
Publication of JP7123169B2 publication Critical patent/JP7123169B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本出願の実施例は、ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体を開示する。前記ビデオ圧縮処理方法は、単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることを含む。【選択図】図1

Description

(関連出願の相互参照)
本出願は、出願日が2018年11月29日であり、出願番号が第201811440753.9である中国特許出願に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。
本出願は、情報技術分野に関するものであるが、これに限定せず、特に、ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体に関する。
ビデオ圧縮は、様々なビデオシステムに広く適用されている。これは、ビデオの記憶及び伝送のスペースの低減にとって非常に有意義なものである。また、多くのコンピュータビジョンタスクがビデオ圧縮品質に非常に敏感であるため、ビデオ圧縮の性能を更に向上させることは、他のビデオタスクに対しても大きな助力となる。
これに鑑み、本出願の実施例は、ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体を提供することが望ましい。
本出願の技術的解決手段は、下記のように実現する。
ビデオ圧縮処理方法であって、
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることを含む。
ビデオ圧縮処理装置であって、
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得るように構成されるビデオ圧縮モジュールを備える。
電子機器であって、
メモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータの実行可能な命令を実行することによって、前記いずれか1つの技術的解決手段により提供されるビデオ圧縮処理方法を実現させるように構成されるプロセッサとを備える。
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータの実行可能な命令が記憶されており、前記コンピュータの実行可能な命令がプロセッサにより実行されてから、前記いずれか1つの技術的解決手段により提供されるビデオ圧縮処理方法を実現させることができる。
プログラム製品であって、前記プログラム製品には、コンピュータの実行可能な命令が記憶されており、前記コンピュータの実行可能な命令が実行されてから、前記いずれか1つの技術的解決手段により提供されるビデオ圧縮処理方法を実現させることができる。
本出願の実施例により提供される技術的解決手段は、単一の損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮処理を行う。従って、様々な損失関数により訓練された複数の深層学習モジュールを組み合わせてなる非エンドツーエンドモデルを利用する場合に比べて、各深層学習モジュール同士の損失値の積算による圧縮されたビデオの歪みが大きいという現象を低減させ、ビデオ圧縮効果を向上させる。また、単一の損失関数を利用することで、ビデオ圧縮情報のコードレートと損失値とのバラスを全体的に取ることができ、歪み率を一定に確保する上で、全体的にコードレートの向上を可能な限り実現させることができる。
本出願の実施例による第1のビデオ圧縮処理方法を示すフローチャートである。 本出願の実施例による第2のビデオ圧縮処理方法を示すフローチャートである。 本出願の実施例による第3のビデオ圧縮処理方法を示すフローチャートである。 本出願の実施例による現在の予測フレームの生成を示すフローチャートである。 本出願の実施例による運動情報の符号化及び復号を示すフローチャートである。 本出願の実施例による第2残差特徴の生成を示すフローチャートである。 本出願の実施例による現在の予測フレームの生成を示すもう1つのフローチャートである。 本出願の実施例によるビデオ圧縮処理装置の構造を示す概略図である。 本出願の実施例による第4のビデオ圧縮処理方法を示すフローチャートである。 本出願の実施例による1つ前の再構成フレーム及び第2運動情報に基づいて現在の予測フレームを生成することを示す概略図である。 本出願の実施例による1つ前の再構成フレーム及び第2運動情報に基づいて現在の予測フレームを生成することを示すもう1つの概略図である。
下記、明細書の図面及び具体的な実施例を参照しながら本出願の技術的解決手段を更に詳しく説明する。
図1に示すように、本実施例は、ビデオ圧縮処理方法を提供する。前記方法は、下記を含む。
ステップS100において、単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得る。
本実施例で提供されるビデオ圧縮処理方法は、単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ処理を行う。
ここで、前記単一損失関数は、1つの損失関数である。前記エンドツーエンドモデルは、圧縮しようとするビデオを前記エンドツーエンドモデルに入力してから、前記エンドツーエンドモデルが、ビデオ圧縮情報を直接的に出力するモデルである。ここで、ビデオ圧縮情報は、ビデオ圧縮後の情報である。
本実施例において、エンドツーエンドモデルを用い、該エンドツーエンドモデルにおける各深層学習モジュールのビデオに対する処理の損失値を同一の損失関数により算出する。従って、1つのみの損失関数を利用して損失値を算出しているため、異なる深層学習モジュールが異なる損失関数により損失値を算出することによる冗長的な演算量を低減させる。一方で、同一の損失関数により、エンドツーエンドモデル全体の損失値を算出しているため、異なる深層学習モデルがそれぞれ損失値を算出する場合に比べて、損失値の累積によってモデルの最終的な損失値が制御できなくなり又は損失が大きすぎるという現象を低減させる。それにより、単一損失関数により訓練されたエンドツーエンドモデルを利用することで、訓練過程において各深層学習モジュールの損失値をそれぞれ算出することに起因した、ビデオ圧縮の歪み率が制御不能になるという現象を減少させ、所定のコードレートでビデオを圧縮する場合のビデオ圧縮品質を確保する。
幾つかの実施例において、図2Aに示すように、前記ステップS100は、下記のステップを含んでもよい。
ステップS101において、現在のオリジナルフレーム及び1つ前の再構成フレームに基づいて第1運動情報を取得する。
ステップS102において、前記第1運動情報及び前記1つ前の再構成フレームに基づいて現在の予測フレームを得る。
ステップS103において、前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第1残差情報を得、前記第1運動情報及び前記第1残差情報が、前記ビデオ圧縮情報を形成するためのものである。
本実施例において、ビデオは、ビデオフレームからなるものである。これらのビデオフレームを所定の時間順で組み合わせ、又は再生する場合、動的な連続したビデオ情報を形成する。
前記現在のオリジナルフレームは、圧縮をしようとするビデオフレームである。本実施例において、現在のオリジナルフレーム及び1つ前の再構成フレームに基づいて第1運動情報を得る。ここで、1つ前の再構成フレームは、1つ前の圧縮後のビデオフレームによって圧縮情報を得ることで再構成されたビデオフレームであってもよい。1つ前の再構成フレームは、1つ前のオリジナルフレームに対応する。
本実施例において、1つのビデオフレームは、1つの再構成フレームに対応する。ビデオフレームが所定順序で付番されたものであるため、再構成フレームも所定順序で付番されたものである。現在のオリジナルフレームが第nフレームであれば、1つ前の再構成フレームはビデオにおける第n−1フレームの再構成フレームである。
現在のオリジナルフレームがビデオの先頭フレームである場合、即ち、1番目のフレームであれば、1番目のフレームの再構成フレームの形成は下記の通りである。
先頭フレームをエンコーダに入力し、符号化情報を得る。
符号化情報をデコーダに入力し、先頭フレームの再構成フレームを得る。先頭フレームの再構成フレームは、ビデオにおける2番目のフレームの再構成に用いられることができる。
上記ステップS101からステップS103は、ビデオにおける先頭フレーム以外のものに対する処理であってもよい。
前記第1運動情報は、現在のオリジナルフレームと1つ前のオリジナルフレームにおけるターゲット図形の運動状況を表すためのものであってもよい。
例えば、圧縮されるビデオが球技試合ビデオである場合、ビデオにおいて、異なるビデオフレームの間の競技参加者の結像の差異は、前記第1運動情報により表されることができる。
前記第1運動情報は、具体的には、前記現在のオリジナルフレームと1つ前の再構成フレームとの画素毎の差分情報であってもよい。
前記第1運動情報を得てから、前記第1運動情報及び前記1つ前の再構成フレームに基づいて現在の予測フレームを得ることができる。具体的には、前記1つ前の再構成フレームを投影して投影フレームを得て、前記第1運動情報に基づいて、投影フレームを補正し、現在の予測フレームを得る。ここで、第1運動情報を参照して投影フレームを補正することは、ターゲット図形の前後2つのフレームの期間内における運動量に基づいて、投影フレームにおける対応する画素の画素座標を調整し、それによって、補正後の前記現在の予測フレームを得ることを含んでもよい。勿論、ここで、単なる例である。1つ前の再構成フレーム及び前記第1運動情報に基づいて前記現在の予測フレームを得るための具体的な形態は、これに限定されずに、複数がある。該現在の予測フレームは、ビデオを解凍する時に、第1残差情報及び1つ前の解凍復元フレームに基づいて得られた解凍復元後のビデオフレームに対応する。幾つかの実施例において、前記1つ前の再構成フレーム及び前記第1運動情報で表わされる前後の2つのビデオフレームの差分情報を、画素ごとに重み付け加算して前記現在の予測フレームを得ることができる。
前記現在の予測フレームを得てから、前記現在の予測フレーム及び前記現在のオリジナルフレームに対して差分処理などを行い、それによって、前記第1残差情報を得ることができる。前記第1残差情報によって、具体的には、前記現在の予測フレームと前記現在のオリジナルフレームとの差異情報を反映することができる。
本実施例において、前記第1残差情報及び前記第1運動情報を符号化した後に、前記ビデオ圧縮情報を得ることができる。第1残差情報及び前記第1運動情報はいずれも差異情報を表すものである。前記現在のオリジナルフレームを直接的に出力することに比べて、データ量を大幅に低減させ、ビデオ圧縮を実現させることができる。
図2Bに示すように、前記ステップS100は更に下記を含んでもよい。
ステップS104において、第1残差情報及び前記現在の予測フレームに基づいて、現在の再構成フレームを得て、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第1運動情報を取得するために用いられる。
本実施例において、前記第1残差情報及び現在の予測フレームは、現在の再構成フレームの取得に用いられる。それに対して現在の再構成フレームは、次のオリジナルフレームの圧縮に用いられる。
本実施例において、前記1つ前の再構成フレームは、1つ前のオリジナルフレームに対応する第1残差情報及び1つ前の予測フレームに基づいて得られたものである。従って、本実施例において、前記ステップS101からステップS104は、ビデオ圧縮の繰り返し処理になる。
幾つかの実施例において、ステップS102は、
第1運動情報に基づいて符号化を行い、運動特徴を得ることと、
運動特徴に基づいて復号を行い、第2運動情報を得ることと、
1つ前の再構成フレーム及び前記第2運動情報に基づいて、現在の予測フレームを得ることとを含んでもよい。
具体的には、図3に示すように、前記S102は、下記を含んでもよい。
ステップS1021において、前記第1運動情報に対して符号化を行い、第1運動特徴を得る。
ステップS1022において、前記第1運動特徴を計量化し、第2運動特徴を得る。
ステップS1023において、前記第2運動特徴を復号し、再構成された第2運動情報を得る。
ステップS1024において、前記1つ前の再構成フレーム及び第2運動情報に基づいて、現在の予測フレームを得る。
幾つかの実施例において、前記第1運動情報は、異なるフレームの比較に基づいて得られた情報であってもよい。前記第1運動情報は、1つ前のフレームの符号化されていない画素情報であってもよい。本実施例において、まず、第1運動情報を符号化する。例えば、所定のビデオ符号化フォーマットを利用して前記第1運動情報を符号化して第1運動特徴を得る。この場合、得られた第1運動特徴情報は、さらに計量化処理する必要があるアナログ情報と見なすことができる。
ステップS1022において、第1運動特徴を計量化し、計量化後の第2運動特徴を得る。
第1運動特徴の計量化のための形態は多種である。例えば、第1運動特徴に対して、四捨五入処理を行い、前記第2運動特徴を得る。また例えば、前記第1運動特徴を切り上げ、前記第2運動特徴を得る。更に例えば、前記第1運動特徴を切り下げ、前記第2運動特徴を得る。
前記エンドツーエンドモデルの訓練段階において、前記第1運動特徴を計量化することは、
前記第1運動特徴に所定の雑音を加え、前記第2運動特徴を得ることを更に含む。モデル訓練過程において勾配法を実施する必要があるため、四捨五入処理、切り上げ又は切り下げ処理を直接的に行う場合、勾配法の実施が難しくなり、エンドツーエンドモデル訓練に異常が発生してしまう。従って、幾つかの実施例において、前記所定の雑音を取り込むことで、勾配法の実現ができるようになり、前記エンドツーエンドモデルの訓練を容易にする。
前記第2運動特徴を得てから、前記第2運動特徴に基づいて復号を行うことで、ビデオ圧縮復号過程における復号側による第2運動特徴の復号をシミュレートし、再構成された第2運動情報を得る。
最後に、ステップS1024において、第2運動情報及び前記1つ前の再構成フレームに基づいて前記現在の予測フレームを生成する。
幾つかの実施例において、前記ステップS1021は具体的には、
第1畳み込み層によって前記第1運動情報に対して畳み込みを行い、第1符号化値を得ることと、
第1正規化層によって前記第1符号化値を正規化し、第1正規化値を得ることと、
第n畳み込み層によって第n−1正規化層から出力された第n−1正規化値に対して畳み込みを行い、第n符号化値を得ることと、
第n正規化層によって第n符号化値に対して正規化処理を行い、第n正規化値を得ることと、
第N畳み込み層によって第N−1正規化値に対して正規化処理を行い、前記第1運動特徴を得ることとを含み、
ここで、nは、1より大きくてNより小さい正整数であり、Nは畳み込み層の数である。
本実施例において、前記第1運動情報を符号化して前記第1運動特徴を得ることは、畳み込みネットワークにより実現してもよい。前記畳み込みネットワークは、N個の畳み込み層及びN−1個の正規化層を含んでもよい。畳み込み層と正規化層は、交互に配置されてもよい。従って、畳み込みネットワークの第1畳み込み層(即ち1番目の畳み込み層)は、第1運動情報を直接受けて畳み込み処理し、第1符号化値を得る。第1符号化値を得てから、第1正規化層(即ち1番目の正規化層)を利用して第1符号化値の正規化を行う。ここで、第1符号化値の正規化は、種々の正規化処理により実現してもよい。具体的な実現形態は多種であり、ここで詳細な説明を省略する。ここで、正規化処理は、規範化操作と呼ばれてもよい。
従って、N回の畳み込み処理及びN−1回の正規化処理を繰り返して行ってから、第N畳み込み層から出力される第N符号化値は、前記第1運動特徴である。
前記Nの値は、2下記の正整数であってもよい。幾つかの実施例において、前記Nの値は、3、4又は5等であってもよい。
本実施例において、前記第1畳み込み層乃至第N畳み込み層に用いられる畳み込みパラメータは同じであってもよい。例えば、前記畳み込みパラメータは、(M1,M2,S1)であってもよい。ここで、M1は、M1*M1の畳み込みカーネルを表す。例えば、前記M1の値は、3又は4等であってもよい。M2は、該畳み込み層の出力数を表す。例えば、前記M2は、128、256又は512等であってもよい。S2は、畳み込みカーネルの移動のステップ幅であってもよい。例えば、S1の値は、1又は2等であってもよい。S1が1であれば、画像を該畳み込み層に入力して畳み込み処理を行ってから得られた出力画像の画像サイズは、不変のままである。S2が2又は2以上の正整数であれば、画像を畳み込み層に入力して畳み込み処理を行ってから得られた画像のサイズは縮小する。
幾つかの実施例において、前記S1023は、
第1逆畳み込み層によって前記第1運動特徴に対して逆畳み込みを行い、第1復号値を得ることと、
第1逆正規化層によって前記第1復号値に対して逆正規化処理を行い、第1逆正規化値を得ることと、
第n逆畳み込み層によって第n−1逆正規化層から出力された第n−1逆正規化値に対して逆畳み込みを行い、第n復号値を得ることと、
第n逆正規化層によって第n復号値に対して正規化処理を行い、第n逆正規化値を出力することと、
第N逆畳み込み層によって第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動情報を得ることとを含んでもよく、
ここで、nは1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数である。
本実施例において、前記第2運動特徴の復号は、前記第1運動情報の符号化の逆過程である。本実施例において、逆畳み込みネットワークにより、前記第2運動情報を得る。該逆畳み込みネットワークは、符号化に用いられる畳み込みネットワークにおける畳み込み層の数と同じである逆畳み込み層を含む。逆畳み込みネットワークに含まれる逆正規化層の数は、符号化に用いられる畳み込みネットワークにおける正規化層の数と同じである。逆畳み込みネットワークにおいて、逆畳み込み層と逆正規化層は交互に配置される。本実施例において、第1逆畳み込み層から第N−1逆畳み込み層に用いられる逆畳み込みパラメータは、符号化過程に用いられた畳み込みパラメータに対応し、いずれも(M1,M2,S1)であってもよい。第N個の逆畳み込み層の逆畳み込みパラメータは異なってもよい。例えば、第N個の逆畳み込み層に用いられる畳み込みカーネルは、前記第1逆畳み込み層から第N−1逆畳み込み層に用いられる畳み込みカーネルと同じであり、いずれもM1*M1の畳み込みカーネルであるが、入力チャネルの数は変更可能である。例えば、第1逆畳み込み層乃至第N−1逆畳み込み層に用いられる逆畳み込みパラメータは(3,128,2)であれば、第N逆畳み込み層の逆畳み込みパラメータは、(3,2,2)であってもよい。
本実施例において、前記第1運動情報のエンコーダと前記第2運動特徴のデコーダは、計量化ネットワークにより接続されてもよい。図4は、運動情報の符号化及び復号を行うネットワークの構造を示す概略図である。図4において、GDNは、正規化層を表す。IGDNは逆正規化層を表す。Convは畳み込み層を表す。Deconvは、逆畳み込み層を表す。図4において、
Figure 2021520162
は、前記第1運動情報を表す。
Figure 2021520162
は、前記第2運動情報を表す。
Figure 2021520162
は、第1運動特徴を表す。
Figure 2021520162
は第2運動特徴を表す。Qは計量化操作を表す。
幾つかの実施例において、図5に示すように、前記S103は下記をふくんでもよい。
ステップS1031において、前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて第1残差情報を得る。
ステップS1032において、前記第1残差情報に対して符号化を行い、第1残差特徴を得る。
ステップS1033において、前記第1残差特徴に対して計量化を行い、第2残差特徴を得る。
ここで、前記第2残差特徴と前記第1運動情報に基づいて得られた第2運動特徴とは、前記ビデオ圧縮情報の構成部分である。
本実施例において、現在のオリジナルフレーム及び現在の予測フレームに基づいて第1残差情報を得る。例えば、前記現在のオリジナルフレームと現在の予測フレームを画素ごとに比較することで、前記第1残差情報を得る。
続いて、第1残差情報に対して符号化を行い、前記第1残差特徴を得る。また、第1残差特徴に対して計量化を行い、第2残差特徴を得る。ここで、計量化処理は、第1残差特徴の四捨五入処理、第1残差特徴の切り上げ処理又は前記第1残差特徴の切り下げ処理を含んでもよい。
訓練段階において、同様に、前記第1残差特徴に所定の雑音を加えて、前記第2残差特徴を得る。
幾つかの実施例において、前記S1024は、
前記1つ前の再構成フレーム、前記第2運動情報及び投影フレームを組み合わせ、第1組み合わせフレームを得、前記投影フレームが、前記1つ前の再構成フレーム及び前記第2運動情報に基づいて畳み込みを行って生成されたものであることと、
前記第1組み合わせフレームに対して畳み込みを行い、第1畳み込みフレームを得ることと、
前記第1畳み込みフレームに基づいて、S+1回の第1残差処理及びS回のプーリング処理を行い、第1中間フレームを得、前記第1残差処理と前記プーリング処理が交互に実行されることと、
前記第1中間フレームに対して、S+1回の第2残差処理及びS回のアップサンプリング処理を行い、第2中間フレームを得、前記第2残差処理と前記アップサンプリング処理が交互に実行されることと、
前記第2中間フレームに対して第2畳み込み処理を行い、第2畳み込みフレームを得ることと、
前記第2畳み込みフレームに対して第3畳み込み処理を行い、前記現在の予測フレームを得ることとを含む。
前記Sの値は、2、3又は4等であってもよい。
本実施例において、前記1つ前の再構成フレーム、第2運動情報及び投影フレームを組み合わせて第1組み合わせフレームを得る。例えば、前記1つ前の再構成フレームは、W*H*C1の画像フレームであってもよく、前記第2運動情報は、W*H*C2であってもよく、前記投影フレームは、W*H*C3の画像フレームであってもよい。従って、前記1つ前の再構成フレーム、第2運動情報及び投影フレームを組み合わせることで得られた第1組み合わせフレームは、W*H*(C1+C2+C3)の画像フレームであってもよい。該第1組み合わせフレームにおいて、各画像のデータ長さは、元のC1、C2又はC3からC1+C2+C3になる。前記投影フレームは、前記1つ前の再構成フレーム及び第2運動情報に対して畳み込み処理を行って得られた画像フレームであってもよい。例えば、1つ前の再構成フレームと前記第1運動情報を畳み込むことで、含まれる画素の数が1つ前の再構成フレームに含まれる画素の数と同じである投影フレームを得ることができる。
例えば、前記Sが3であれば、前記ステップS1024は、
前記1つ前の再構成フレーム、所述第2運動情報及び投影フレームを組み合わせ、第1組み合わせフレームを得て、前記投影フレームが、前記1つ前の再構成フレーム及び前記第2運動情報に基づいて畳み込みを行って生成されたものであることと、
前記第1組み合わせフレームに対して畳み込みを行い、第1畳み込みフレームを得ることと、
前記第1畳み込みフレームに対して線形修正及び畳み込み処理を行ってから、前記第1畳み込みフレームと共に残差処理を行い、第1残差フレームを得ることと、
前記第1残差フレームをプーリング処理し、第1プーリングフレームを得ることと、
前記第1プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第1プーリングフレームと共に残差処理を行い、第2残差フレームを得ることと、
前記第2残差フレームをプーリング処理し、第2プーリングフレームを得ることと、
前記第2プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第2プーリングフレームと共に残差処理を行い、第3残差フレームを得ることと、
前記第3残差フレームに対して線形修正及び畳み込み処理を行ってから、前記第3残差フレームと共に残差処理を行い、第4残差フレームを得ることと、
前記第4残差フレームをアップサンプリングし、第1アップサンプリングフレームを得ることと、
第2組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第2組み合わせフレームと共に残差処理を行い、第5残差フレームを得て、前記第2組み合わせフレームが前記第1アップサンプリングフレーム及び前記第2残差フレームに基づいて生成されたものであることと、
前記第5残差フレームをアップサンプリングし、第2アップサンプリングフレームを得ることと、
第3組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第3組み合わせフレームと共に残差処理を行い、第6残差フレームを得て、前記第3組み合わせフレームが前記第2アップサンプリングフレーム及び前記第1残差フレームに基づいて生成されたものであることと、
前記第6残差フレームを畳み込み、第2畳み込みフレームを得ることと、
前記第2畳み込みフレームを畳み込み、前記現在の予測フレームを得ることとを含んでもよい。
組み合わせを完了してから、第1組み合わせフレームを得る。続いて、第1組み合わせフレームに対して畳み込み処理を行ってから、所定の回数の残差処理及びプーリング処理を交互に行う。続いて、所定の回数の残差処理及びアップサンプリング処理を交互に行ってから、畳み込み処理を行い、最後に前記現在の予測フレームを出力する。
図6は、現在の予測フレームの取得処理を示すフローチャートである。図6において
Figure 2021520162
は、第2運動情報である。
Figure 2021520162
は、投影フレームを表す。
Figure 2021520162
は、1つ前の再構成フレームを表す。
幾つかの実施例において、前記アップサンプリング処理は、双線形補間法を利用する。
本実施例にいて、前記双線形補間は、X方向及びY方向における補間処理により、データのアップサンプリングを実現させることができる。前記X方向とY方向は相互垂直である方向である。例えば、画像フレームにおいて、隣接する2つの画素値に基づいて行及び列においてそれぞれ補間処理を行うことで、画像フレームに含まれる画素の数を増加させることができる。
幾つかの実施例において、前記エンドツーエンドモデルの損失値は、前記損失関数を利用して、第1運動情報、前記第1残差情報、前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて決定されたものである。
具体的には、例えば、前記第1運動情報を符号化して計量化してから、第2運動特徴を得る。前記第1残差情報に対して符号化を行いて計量化してから、第2残差特徴を得る。それらは、前記損失関数の引数として損失値演算に用いられる。
幾つかの実施例において、前記損失関数は下記を含む。
Figure 2021520162
ただし、
Figure 2021520162
は損失値であり、
Figure 2021520162
は前記現在のフレームと前記現在の再構成フレームとの歪み値である。
Figure 2021520162
は、前記第1残差情報に対して符号化を行いて計量化することで得られた第2運動特徴である。
Figure 2021520162
は、前記第1残差情報に対して符号化を行いて計量化することで得られた第2残差特徴である。
Figure 2021520162
は、
Figure 2021520162
を符号化してから得られたコードワードの数である。
Figure 2021520162
は、
Figure 2021520162
を符号化してから得られたコードワードの数である。
Figure 2021520162
は、コードレートと歪みとの平衡係数である。
幾つかの実施例において、前記
Figure 2021520162
は、現在のオリジナルフレームと現在の再構成フレームとのピーク信号対雑音比(Peak Signal to Noise Ratio:PSNR)であってもよい。例えば、PSNR=10*log10((2^n−1)^2/ MSE)である。MSEは、前記現在のオリジナルフレームと前記現在の再構成フレームとの平均二乗誤差であってもよい。
幾つかの実施例において、前記
Figure 2021520162
は、現在のオリジナルフレームと現在の再構成フレームとの平均平方誤差(Structural Similarity Index:SSIM)又はマルチスケール平均平方誤差(Multi−Scale−Structural Similarity Index:MS−SSIM)に基づいて決定されたものであってもよい。
Figure 2021520162
に対するコードレートは、
Figure 2021520162
に対するコードレートと同じであるため、
Figure 2021520162
及び
Figure 2021520162
に対する損失は同じである。この場合、
Figure 2021520162
は、コードレートと歪みとの平衡係数である。
Figure 2021520162
がそのままであれば、
Figure 2021520162
及び
Figure 2021520162
を符号化して得られたコードワードの数は多いほど、損失値は大きくなり、
Figure 2021520162
及び
Figure 2021520162
を符号化して得れたコードワークの数が少ないほど、損失値は小さくなる。
幾つかの実施例において、前記
Figure 2021520162
は調整可能である。異なるエンドツーエンドモデルの
Figure 2021520162
は異なってもよい。
Figure 2021520162
が大きいほど、
Figure 2021520162
による影響が小さくなり、コードレートがエンドツーエンドモデルの損失に与える損失が大きくなる。
本実施例において、前記損失関数における
Figure 2021520162
が十分に大きい場合、損失関数は、下記と等価である。
Figure 2021520162
前記エンドツーエンドモデルによる符号化を行ってから得られたコードワードの数が少ないか又は
Figure 2021520162
が小さい場合、前記損失関数は、下記と等価である。
Figure 2021520162
要するに、本実施例において、エンドツーエンドモデルによりビデオ圧縮符号化を行うため、得らえたビデオ圧縮情報は、コードレートとビデオの歪みとのバランスを好適に取ることができる。圧縮されたビデオの復元効果を確保する上で、十分な圧縮率を確保する。ビデオ圧縮効果と圧縮率とのバランスを好適に取ることができる。
本実施例はビデオ圧縮処理装置を提供する。前記装置は、
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得るように構成されるビデオ圧縮モジュールを備える。
本実施例において、前記エンドツーエンドモデルは、ビデオ圧縮のための複数の深層学習モジュールを備えてもよい。これらの深層学習モジュールは、同一の損失関数を利用して損失を算出する。これにより、エンドツーエンドモデル全体の損失出力を好適に制御し、ビデオ圧縮の圧縮効果を確保し、コードレートと歪みとの優れたバランスを実現させることができる。
幾つかの実施例において、前記ビデオ圧縮処理装置は、情報を記憶するように構成される記憶モジュールを更に備える。例えば、記憶モジュールは、現在のオリジナルフレーム又は1つ前のオリジナルフレームの再構成フレーム等をキャッシュするように構成される。該記憶モジュールは、前記ビデオ圧縮モジュールに接続され、ビデオ圧縮処理のために情報記憶スペースを提供するように構成される。
幾つかの実施例において、図7に示すように、前記ビデオ圧縮モジュールは、
現在のオリジナルフレーム及び1つ前の再構成フレームに基づいて第1運動情報を取得するように構成される運動推定モジュール101と、
前記第1運動情報及び前記1つ前の再構成フレームに基づいて現在の予測フレームを得るように構成される現在の予測フレームモジュール102と、
前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第1残差情報を得るように構成される残差処理モジュールであって、前記第1運動情報及び前記第1残差情報が、前記ビデオ圧縮情報を形成するためのものである残差処理モジュール103とを備える。
幾つかの実施例において、図7に示すように、前記ビデオ圧縮モジュールは、
第1残差情報及び前記現在の予測フレームに基づいて現在の再構成フレームを得て、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第1運動情報を取得するために用いられるように構成される再構成フレームモジュール104を更に備える。
幾つかの実施例において、前記現在の予測フレームモジュール102は、第1運動情報に基づいて運動特徴を得て、前記運動特徴に基づいて復号を行い、第2運動情報を得て、1つ前の再構成フレーム及び前記第2運動情報に基づいて、現在の予測フレームを得るように構成される。
幾つかの実施例において、前記現在の予測フレームモジュール102は、
前記第1運動情報に対して符号化を行い、第1運動特徴を得るように構成される運動情報符号化サブモジュールと、
前記第1運動特徴を計量化し、第2運動特徴を得るように構成される第1計量化サブモジュールと、
前記第2運動特徴を復号し、再構成された第2運動情報を得るように構成される運動情報復号サブモジュールと、
前記1つ前の再構成フレーム及び第2運動情報に基づいて、現在の予測フレームを得るように構成される運動補償サブモジュールとを備える。
幾つかの実施例において、前記運動情報符号化サブモジュールは、
前記第1運動情報に対して畳み込みを行い、第1符号化値を得るように構成される第1畳み込み層と、
前記第1符号化値を正規化し、第1正規化値を得るように構成される第1正規化層と、
第n−1正規化層から出力された第n−1正規化値に対して畳み込みを行い、第n符号化値を得るように構成される第n畳み込み層と、
第n符号化値に対して正規化処理を行い、第n正規化値を得るように構成される第n正規化層と、
第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動特徴を得るように構成される第N逆畳み込み層とを備え、
ここで、nは、1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数である。
幾つかの実施例において、前記運動情報復号サブモジュールは、
前記第1運動特徴に対して逆畳み込みを行い、第1復号値を得るように構成される第1逆畳み込み層と、
前記第1復号値に対して逆正規化処理を行い、第1逆正規化値を得るように構成される第1逆正規化層と、
第n−1逆正規化層から出力された第n−1逆正規化値に対して逆畳み込みを行い、第n復号値を得るように構成される第n逆畳み込み層と、
第n復号値に対して正規化処理を行い、第n逆正規化値を出力するように構成される第n逆正規化層と、
第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動情報を得るように構成される第N逆畳み込み層とを備え、
ここで、nは1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数である。
幾つかの実施例において、残差処理モジュール103は、
前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて第1残差情報を得るように構成される残差情報取得サブモジュールと、
前記第1残差情報に対して符号化を行い、第1残差特徴を得るように構成される残差符号化サブモジュールと、
前記第1残差特徴に対して計量化を行い、第2残差特徴を得るように構成される第2計量化サブモジュールとを備え、
ここで、前記第2残差特徴と前記第1運動情報に基づいて得られた第2運動特徴とは、前記ビデオ圧縮情報の構成部分である。
幾つかの実施例において、前記運動補償サブモジュールは、
前記1つ前の再構成フレーム、前記第2運動情報及び投影フレームを組み合わせ、第1組み合わせフレームを得るように構成される組み合わせ層であって、前記投影フレームが、前記1つ前の再構成フレーム及び前記第2運動情報に基づいて畳み込みを行って生成されたものである組み合わせ層と、
前記第1組み合わせフレームに対して畳み込みを行い、第1畳み込みフレームを得るように構成される第1畳み込み層と、
前記第1畳み込みフレームに基づいて、S+1回の第1残差処理及びS回のプーリング処理を行い、第1中間フレームを得るように構成される第1中間処理ユニットであって、前記第1残差処理と前記プーリング処理が交互に実行される第1中間処理ユニットと、
前記第1中間フレームに対して、S+1回の第2残差処理及びS回のアップサンプリング処理を行い、第2中間フレームを得るように構成される第2中間処理ユニットであって、前記第2残差処理と前記アップサンプリング処理が交互に実行される第2中間処理ユニットと、
前記第2中間フレームに対して第2畳み込み処理を行い、第2畳み込みフレームを得るように構成される第2畳み込み層と、
前記第2畳み込みフレームに対して第3畳み込み処理を行い、前記現在の予測フレームを得るように構成される第3畳み込み層とを備える。
幾つかの実施例において、前記第1中間層は、1つ又は複数の残差ユニット及びプーリング層を備えてもよく、及び/又は、前記第2中間層は、1つ又は複数の残差ユニット及びアップサンプリング層を備えてもよい。
例えば、前記第1中間層は、
前記第1畳み込みフレームに対して線形修正及び畳み込み処理を行ってから、前記第1畳み込みフレームと共に残差処理を行い、第1残差フレームを得るように構成される第1残差ユニットと、
前記第1残差フレームをプーリング処理し、第1プーリングフレームを得るように構成される第1プーリング層と、
前記第1プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第1プーリングフレームと共に残差処理を行い、第2残差フレームを得るように構成される第2残差ユニットと、
前記第2残差フレームをプーリング処理し、第2プーリングフレームを得るように構成される第2プーリング層と、
前記第2プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第2プーリングフレームと共に残差処理を行い、第3残差フレームを得るように構成される第3残差ユニットとを備える。
及び/又は、
前記第2中間層は、
前記第3残差フレームに対して線形修正及び畳み込み処理を行ってから、前記第3残差フレームと共に残差処理を行い、第4残差フレームを得るように構成される第4残差ユニットと、
前記第4残差フレームをアップサンプリングし、第1アップサンプリングフレームを得るように構成される第1アップサンプリング層と、
第2組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第2組み合わせフレームと共に残差処理を行い、第5残差フレームを得て、前記第2組み合わせフレームが前記第1アップサンプリングフレーム及び前記第2残差フレームに基づいて生成されたものであるように構成される第5残差ユニットと、
前記第5残差フレームをアップサンプリングし、第2アップサンプリングフレームを得るように構成される第2アップサンプリング層と、
第3組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第3組み合わせフレームと共に残差処理を行い、第6残差フレームを得て、前記第3組み合わせフレームが前記第2アップサンプリングフレーム及び前記第1残差フレームに基づいて生成されたものであるように構成される第6残差ユニットとを素姉る。
第2畳み込み層は、前記第6残差差フレームを畳み込み、第2畳み込みフレームを得るように構成され、
第3畳み込み層は、前記第2畳み込みフレームを畳み込み、前記現在の予測フレームを得るように構成される。
幾つかの実施例において、前記アップサンプリング処理は、双線形補間法を利用する。
幾つかの実施例において、前記エンドツーエンドモデルの損失値は、前記単一損失関数を利用して、第1運動情報、前記第1残差情報、前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて決定されたものである。
幾つかの実施例において、前記単一損失関数は、下記を含み、
Figure 2021520162
ただし、
Figure 2021520162
は損失値であり、
Figure 2021520162
は前記現在のフレームと前記現在の再構成フレームとの歪み値である。
Figure 2021520162
は、前記第1残差情報に対して符号化を行いて計量化することで得られた第2運動特徴である。
Figure 2021520162
は、前記第1残差情報に対して符号化を行いて計量化することで得られた第2残差特徴である。
Figure 2021520162
は、
Figure 2021520162
を符号化してから得られたコードワードの数である。
Figure 2021520162
は、
Figure 2021520162
を符号化してから得られたコードワードの数である。
Figure 2021520162
は、コードレートと歪みとの平衡係数である。
下記、上記任意の実施例を参照しながら、具体的な例を提供する。
該例において、完全なエンドツーエンド最適化された深層学習に基づいたビデオ圧縮システムを構築する。ビデオ符号化のための全ての肝心なモジュールは、運動推定モジュール、運動補償モジュール、運動情報圧縮モジュール、残差情報圧縮モジュール、計量化モジュール及びコードレート推定モジュールなどを備える。それらはいずれも深層ニューラルネットワークにより実現し、完全なエンドツーエンド最適化を実現させることができる。
該例で提出された深層ニューラルネットワークに基づいたビデオ圧縮アーキテクチャは、最適化過程において、再構成画像の品質と圧縮に必要なコードレートとのバランスを十分に考慮し、より高い圧縮効率を実現させることができる。
運動推定及び運動情報圧縮に対して、該例において、オプティカルフロー推定によるニューラルネットワークを利用して対応するオプティカルフローを得て運動情報とする。
それと同時に、該例において、運動情報圧縮ネットワークを提供する。それは、ビデオ圧縮に対して下記処理を行う。
ステップ1において、推定されたオプティカルフローを圧縮し、対応する運動特徴を得て、運動特徴を計量化し、運動デコーダにより、対応する再構成運動情報を得る。
ステップ2において、運動補償は、ステップ1で得られた再構成運動情報に基づいて運動補償を行い、運動補償を行った結果に基づいて、対応する残差情報を算出することを含む。
ステップ3において、残差符号化は、ステップ2で得らえた残差情報をまず残差デコーダにより処理してから、計量化を行い、計量化された残差特徴を得て、計量化された残差を残差デコーダにより処理し、対応する再構成残差を得ることを含む。
ステップ4において、エントロピー符号化を行う。ステップ1で得られた運動特徴及びステップ3で得られた残差特徴に基づいて、符号化されたコードワードを推定する。ここで、エントロピー符号化されたコードワードは、ビデオ圧縮情報として出力される。
ステップ5において、再構成を行う。ステップ2で得られた運動補償フレームとステップ3で得られた再構成残差を加算して最終的な再構成画像である符号化画像を得る。
ステップ6において、運動推定及び運動情報圧縮に対して、該例において、Spynetにより、オプティカルフロー推定を行い、対応する運動情報を得る。他の学習に基づいたオプティカルフローネットワークは、ここで適用可能である。運動情報を圧縮するために、自己符号化器タイプのネットワークを提供して運動情報を圧縮する。
図8に示すように、オプティカルフローネットワークにより得られた運動情報は、
Figure 2021520162
である。まず、運動情報符号化サブモジュール(MV Encoder Net)により、運動特徴
Figure 2021520162
を得る。Qは、計量化操作を表す。計量化結果は、
Figure 2021520162
である。
Figure 2021520162
をMV Decoder Netにより処理し、対応する再構成された運動情報
Figure 2021520162
を得る。MV Encoder Net及びMV Decoder Netは図6に示す通りである。
畳み込み層の畳み込みパラメータは、conv(3,128,2)であってもよい。conv(3,128,2)は、畳み込みカーネルが3*3であり、出力チャネルが128であり、ステップ幅が2である標準的な畳み込み操作を表す。
逆畳み込み層の逆畳み込みパラメータは、Deconv(3,128,2)であってもよい。Deconv(3,128,2)は、畳み込みカーネルが3*3であり、出力チャネルが128であり、ステップ幅が2である標準的な畳み込み操作を表す。GDNは、対応する正規化処理を表す。IGDNは、逆正規化処理を表す。
運動補償に対して、該例において、運動補償ネットワークを提供して対応する予測フレーム
Figure 2021520162
を得る。具体的なステップは下記の通りである。
まず、図9に示すように、運動情報を再構成し、1つ前の時刻の再構成フレーム
Figure 2021520162
を現在の時刻に投影し、投影フレームを得て初期畳み込みフレーム(warped frame)と呼ぶ。続いて、warped frame、1つ前の時刻の再構成フレーム、再構成運動情報を組み合わせ、畳み込みニューラルネットワークに入力し、対応する予測フレーム
Figure 2021520162
を得る。図9において、CNNは、畳み込みネットワークを表す。
図8に示す畳み込みニューラルネットワークは、図10に示す通りである。
Figure 2021520162
は投影フレームを表す。残差ユニット(Residual Block)は、一般的に用いられる残差ネットワークを表す。該残差ユニットは、線形修正層(Rectified Linear Unit,ReLU)及び畳み込み層からなる。前記線形修正層は、入力されたデータの修正に用いられる。例えば、活性化関数を利用して異常値を修正する。該残差ユニットは、数が同じであるReLUと畳み込み層を備えてもよい。ReLUと畳み込み層は、交互に配置される。また、該例において、ReLUは、畳み込み層の前に配置される。例えば、前記残差ユニットは、2つのReLU及び2つの畳み込み層を備えてもよい。
本実例において、前記予測フレーム生成ネットワークは、プーリング層を更に備える。プーリング層は、プーリング操作により画像フレームをダウンサンプリングする。アップサンプリング層は、プーリング層に対応する層である。プーリング層とアップサンプリング層は、互いに逆となる操作を行う。アップサンプリング過程において、双線形補間によりアップサンプリングを行う。
残差符号化ネットワーク(前記残差符号化サブモジュールに対応する)及び残差復号ネットワーク(前記残差復号サブモジュールに対応する)は図6に示す通りである。
予測フレーム及びオリジナルフレームに基づいて、対応する残差情報
Figure 2021520162
を得る。
Figure 2021520162
を残差エンコーダに入力し、残差特徴
Figure 2021520162
を得て、計量化を行い、
Figure 2021520162
を得る。
Figure 2021520162
を残差デコーダに入力し、
Figure 2021520162
を得る。残差符号化ネットワーク及び残差復号ネットワークとして、現在のピクチャ圧縮に関わるネットワークを用いてもよい。
エントロピー符号化を行う。計量化された運動特徴
Figure 2021520162
及び計量化された残差特徴
Figure 2021520162
を対応するコードレート推定ネットワークに入力し、対応するコードワード数を得る。
本出願の実施例は電子機器を提供する。前記電子機器は、
情報を記憶するように構成されるメモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータの実行可能な命令を実行することによって、前記1つ又は複数の技術的解決手段で提供されるビデオ圧縮処理方法を実現させ、例えば図1、図2A、図2B、図3、図4、図5、図6、図8、図9及び図10に示した方法のうちの1つ又は複数を実現させるように構成されるプロセッサとを備える。
該メモリは、ランダムメモリ、読み取り専用メモリ、フラッシュのような様々なメモリであってもよい。前記メモリは、情報記憶に用いられ、例えば、コンピュータの実行可能な命令などの記憶に用いられる。前記コンピュータの実行可能な命令は、ターゲットプログラム命令及び/又はソースプログラム命令などのような様々なプログラム命令であってもよい。
前記プロセッサは、中央演算処理装置、マイクロプロセッサ、デジタル信号プロセッサ、プログラマブルアレイ、デジタル信号プロセッサ、特定用途向け集積回路又は画像処理装置などのような様々なプロセッサであってもよい。前記プロセッサは、バスを経由して前記メモリに接続される。前記バスは、集積回路バスなどであってもよい。
本実施例において、前記電子機器は、デスクトップコンピュータ、ノートパソコン、タブレット又はウェアラブル機器などのような、前記ペイントクライアントを実行している様々なタイプの電子機器であってもよい。
幾つかの実施例において、前記端末装置は、通信インタフェースを更に備えてもよい。該通信インタフェースは、ローカルエリアネットワーク、送受信アンテナなどのようなネットワークインタフェースであってもよい。前記通信インタフェースも、前記プロセッサに接続され、情報送受信に用いられる。
幾つかの実施例において、前記端末装置は、ヒューマンインタラクティブインタフェースを更に備える。例えば、前記ヒューマンインタラクティブインタフェースは、キーボード、タッチパネルなどのような様々な入力出力装置を含んでもよい。
本出願の実施例は、コンピュータ記憶媒体を提供する。前記コンピュータ記憶媒体には、コンピュータによる実行可能なコードが記憶されており、前記コンピュータによる実行可能なコードが実行されてから、前記1つ又は複数の技術的解決手段で提供されるビデオ圧縮処理方法を実現させ、例えば図1、図2A、図2B、図3、図4、図5、図6、図8、図9及び図10に示した方法のうちの1つ又は複数を実現させる。
前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ(ROM:Read-only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。前記記憶媒体は、非一時的記憶媒体であってもよい。
本出願の実施例は、コンピュータプログラム製品を提供する。前記プログラム製品は、コンピュータの実行可能な命令を含み、前記コンピュータの実行可能な命令が実行されてから、前記いずれかの実施例で提供されるビデオ圧縮処理方法を実現させ、例えば図1、図2A、図2B、図3、図4、図5、図6、図8、図9及び図10に示した方法のうちの1つ又は複数を実現させる。
本出願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェイス、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせて実現してもよい。
上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶され、該プログラムが実行される時、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ(ROM:Read-only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含むことは、当業者であれば理解されるべきである。
以上は本発明の具体的な実施形態に過ぎず、本発明の保護の範囲はそれらに制限されるものではなく、当業者が本発明に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

Claims (25)

  1. ビデオ圧縮処理方法であって、
    単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることを含む、ビデオ圧縮処理方法。
  2. 単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることは、
    現在のオリジナルフレーム及び1つ前の再構成フレームに基づいて第1運動情報を取得することと、
    前記第1運動情報及び前記1つ前の再構成フレームに基づいて現在の予測フレームを得ることと、
    前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第1残差情報を得、前記第1運動情報及び前記第1残差情報が、前記ビデオ圧縮情報を形成するためのものであることと、を含むことを特徴とする
    請求項1に記載の方法。
  3. 単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることは、
    第1残差情報及び前記現在の予測フレームに基づいて、現在の再構成フレームを得て、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第1運動情報を取得するために用いられることを更に含むことを特徴とする
    請求項2に記載の方法。
  4. 前記第1運動情報及び前記1つ前の再構成フレームに基づいて現在の予測フレームを得ることは、
    第1運動情報に基づいて運動特徴を得ることと、
    前記運動特徴に基づいて復号を行い、第2運動情報を得ることと、
    前記1つ前の再構成フレーム及び前記第2運動情報に基づいて、前記現在の予測フレームを得ることとを含むことを特徴とする
    請求項2又は3に記載の方法。
  5. 第1運動情報に基づいて運動特徴を得ることは、
    前記第1運動情報に対して符号化を行い、第1運動特徴を得ることを含み、
    前記方法は、
    前記第1運動特徴を計量化し、第2運動特徴を得ることを更に含み、
    前記運動特徴に基づいて復号を行い、第2運動情報を得ることは、
    前記第2運動特徴を復号し、再構成された第2運動情報を得ることを含むことを特徴とする
    請求項4に記載の方法。
  6. 前記第1運動情報に対して符号化を行い、第1運動特徴を得ることは、
    第1畳み込み層によって前記第1運動情報に対して畳み込みを行い、第1符号化値を得ることと、
    第1正規化層によって前記第1符号化値を正規化し、第1正規化値を得ることと、
    第n畳み込み層によって第n−1正規化層から出力された第n−1正規化値に対して畳み込みを行い、第n符号化値を得ることと、
    第n正規化層によって第n符号化値に対して正規化処理を行い、第n正規化値を得ることと、
    第N畳み込み層によって第N−1正規化値に対して正規化処理を行い、前記第1運動特徴を得ることとを含み、
    ここで、nは、1より大きくてNより小さい正整数であり、Nは畳み込み層の数であることを特徴とする
    請求項5に記載の方法。
  7. 前記第2運動特徴を復号し、再構成された第2運動情報を得ることは、
    第1逆畳み込み層によって前記第1運動特徴に対して逆畳み込みを行い、第1復号値を得ることと、
    第1逆正規化層によって前記第1復号値に対して逆正規化処理を行い、第1逆正規化値を得ることと、
    第n逆畳み込み層によって第n−1逆正規化層から出力された第n−1逆正規化値に対して逆畳み込みを行い、第n復号値を得ることと、
    第n逆正規化層によって第n復号値に対して正規化処理を行い、第n逆正規化値を出力することと、
    第N逆畳み込み層によって第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動情報を得ることとを含んでもよく、
    ここで、nは1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数であることを特徴とする
    請求項6に記載の方法。
  8. 前記方法は、
    前記第1残差情報に対して符号化を行い、第1残差特徴を得ることと、
    前記第1残差特徴に対して計量化を行い、第2残差特徴を得ることとを更に含み、
    ここで、前記第2残差特徴と前記第1運動情報に基づいて得られた第2運動特徴とは、前記ビデオ圧縮情報の構成部分であることを特徴とする
    請求項2から7のいずれか一項に記載の方法。
  9. 前記1つ前の再構成フレーム及び第2運動情報に基づいて、現在の予測フレームを得ることは、
    前記1つ前の再構成フレーム、前記第2運動情報及び投影フレームを組み合わせ、第1組み合わせフレームを得、前記投影フレームが、前記1つ前の再構成フレーム及び前記第2運動情報に基づいて畳み込みを行って生成されたものであることと、
    前記第1組み合わせフレームに対して畳み込みを行い、第1畳み込みフレームを得ることと、
    前記第1畳み込みフレームに基づいて、S+1回の第1残差処理及びS回のプーリング処理を行い、第1中間フレームを得、前記第1残差処理と前記プーリング処理が交互に実行されることと、
    前記第1中間フレームに対して、S+1回の第2残差処理及びS回のアップサンプリング処理を行い、第2中間フレームを得、前記第2残差処理と前記アップサンプリング処理が交互に実行されることと、
    前記第2中間フレームに対して第2畳み込み処理を行い、第2畳み込みフレームを得ることと、
    前記第2畳み込みフレームに対して第3畳み込み処理を行い、前記現在の予測フレームを得ることとを含むことを特徴とする
    請求項8に記載の方法。
  10. 前記アップサンプリング処理は、双線形補間法を利用することを特徴とする
    請求項9に記載の方法。
  11. 前記エンドツーエンドモデルの損失値は、前記損失関数を利用して、第1運動情報、前記第1残差情報、現在のオリジナルフレーム及び現在の予測フレームに基づいて決定されたものであることを特徴とする
    請求項1から10のいずれか一項に記載の方法。
  12. ビデオ圧縮処理装置であって、
    単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得るように構成されるビデオ圧縮モジュールを備える、ビデオ圧縮処理装置。
  13. 前記ビデオ圧縮モジュールは、
    現在のオリジナルフレーム及び1つ前の再構成フレームに基づいて第1運動情報を取得するように構成される運動推定モジュールと、
    前記第1運動情報及び前記1つ前の再構成フレームに基づいて現在の予測フレームを得るように構成される現在の予測フレームモジュールと、
    前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第1残差情報を得るように構成される残差処理モジュールであって、前記第1運動情報及び前記第1残差情報が、前記ビデオ圧縮情報を形成するためのものである残差処理モジュールと、を備えることを特徴とする
    請求項12に記載の装置。
  14. 前記ビデオ圧縮モジュールは、
    第1残差情報及び前記現在の予測フレームに基づいて現在の再構成フレームを得るように構成される再構成フレームモジュールを更に備え、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第1運動情報を取得するために用いられることを特徴とする
    請求項13に記載の装置。
  15. 前記現在の予測フレームモジュールは、第1運動情報に基づいて運動特徴を得て、前記運動特徴に基づいて復号を行い、第2運動情報を得て、1つ前の再構成フレーム及び前記第2運動情報に基づいて、現在の予測フレームを得るように構成されることを特徴とする
    請求項13又は14に記載の装置。
  16. 前記現在の予測フレームモジュールは、
    前記第1運動情報に対して符号化を行い、第1運動特徴を得るように構成される運動情報符号化サブモジュールと、
    前記第1運動特徴を計量化し、第2運動特徴を得るように構成される第1計量化サブモジュールと、
    前記第2運動特徴を復号し、再構成された第2運動情報を得るように構成される運動情報復号サブモジュールと、
    前記1つ前の再構成フレーム及び第2運動情報に基づいて、現在の予測フレームを得るように構成される運動補償サブモジュールとを備えることを特徴とする
    請求項15に記載の装置。
  17. 前記運動情報符号化サブモジュールは、
    前記第1運動情報に対して畳み込みを行い、第1符号化値を得るように構成される第1畳み込み層と、
    前記第1符号化値を正規化し、第1正規化値を得るように構成される第1正規化層と、
    第n−1正規化層から出力された第n−1正規化値に対して畳み込みを行い、第n符号化値を得るように構成される第n畳み込み層と、
    第n符号化値に対して正規化処理を行い、第n正規化値を得るように構成される第n正規化層と、
    第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動特徴を得るように構成される第N逆畳み込み層とを備え、
    ここで、nは、1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数であることを特徴とする
    請求項16に記載の装置。
  18. 前記運動情報復号サブモジュールは、
    前記第1運動特徴に対して逆畳み込みを行い、第1復号値を得るように構成される第1逆畳み込み層と、
    前記第1復号値に対して逆正規化処理を行い、第1逆正規化値を得るように構成される第1逆正規化層と、
    第n−1逆正規化層から出力された第n−1逆正規化値に対して逆畳み込みを行い、第n復号値を得るように構成される第n逆畳み込み層と、
    第n復号値に対して正規化処理を行い、第n逆正規化値を出力するように構成される第n逆正規化層と、
    第N−1逆正規化値に対して逆畳み込みを行い、前記第2運動情報を得るように構成される第N逆畳み込み層とを備え、
    ここで、nは1より大きくてNより小さい正整数であり、Nは逆畳み込み層の数であることを特徴とする
    請求項16又は17に記載の装置。
  19. 前記残差処理モジュールは、
    前記第1残差情報に対して符号化を行い、第1残差特徴を得るように構成される残差符号化サブモジュールと、
    前記第1残差特徴に対して計量化を行い、第2残差特徴を得るように構成される第2計量化サブモジュールとを更に備え、
    ここで、前記第2残差特徴と前記第1運動情報に基づいて得られた第2運動特徴とは、前記ビデオ圧縮情報の構成部分であることを特徴とする
    請求項13から18のいずれか一項に記載の装置。
  20. 前記運動補償サブモジュールは、
    前記1つ前の再構成フレーム、前記第2運動情報及び投影フレームを組み合わせ、第1組み合わせフレームを得るように構成される組み合わせ層であって、前記投影フレームが、前記1つ前の再構成フレーム及び前記第2運動情報に基づいて畳み込みを行って生成されたものである組み合わせ層と、
    前記第1組み合わせフレームに対して畳み込みを行い、第1畳み込みフレームを得るように構成される第1畳み込み層と、
    前記第1畳み込みフレームに基づいて、S+1回の第1残差処理及びS回のプーリング処理を行い、第1中間フレームを得るように構成される第1中間処理ユニットであって、前記第1残差処理と前記プーリング処理が交互に実行される第1中間処理ユニットと、
    前記第1中間フレームに対して、S+1回の第2残差処理及びS回のアップサンプリング処理を行い、第2中間フレームを得るように構成される第2中間処理ユニットであって、前記第2残差処理と前記アップサンプリング処理が交互に実行される第2中間処理ユニットと、
    前記第2中間フレームに対して第2畳み込み処理を行い、第2畳み込みフレームを得るように構成される第2畳み込み層と、
    前記第2畳み込みフレームに対して第3畳み込み処理を行い、前記現在の予測フレームを得るように構成される第3畳み込み層とを備えることを特徴とする
    請求項19に記載の装置。
  21. 前記アップサンプリング処理は、双線形補間法を利用することを特徴とする
    請求項20に記載の装置。
  22. 前記エンドツーエンドモデルの損失値は、前記損失関数を利用して、第1運動情報、第1残差情報、現在のオリジナルフレーム及び現在の予測フレームに基づいて決定されたものであることを特徴とする
    請求項12から21のいずれか一項に記載の装置。
  23. 電子機器であって、
    メモリと、
    前記メモリに接続され、前記メモリに記憶されているコンピュータの実行可能な命令を実行することによって、請求項1から11のいずれか一項に記載のビデオ圧縮処理方法を実現させるように構成されるプロセッサと、を備える、電子機器。
  24. コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータの実行可能な命令が記憶されており、前記コンピュータの実行可能な命令がプロセッサにより実行される時に、請求項1から11のいずれか一項に記載のビデオ圧縮処理方法を実現させる、コンピュータ記憶媒体。
  25. プログラムであって、コンピュータに、請求項1から11のいずれか一項に記載のビデオ圧縮処理方法を実行させる、プログラム。
JP2020560352A 2018-11-29 2019-06-24 ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体 Active JP7123169B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811440753.9A CN109451308B (zh) 2018-11-29 2018-11-29 视频压缩处理方法及装置、电子设备及存储介质
CN201811440753.9 2018-11-29
PCT/CN2019/092530 WO2020107877A1 (zh) 2018-11-29 2019-06-24 视频压缩处理方法及装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021520162A true JP2021520162A (ja) 2021-08-12
JP7123169B2 JP7123169B2 (ja) 2022-08-22

Family

ID=65555193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020560352A Active JP7123169B2 (ja) 2018-11-29 2019-06-24 ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体

Country Status (5)

Country Link
US (1) US11290723B2 (ja)
JP (1) JP7123169B2 (ja)
CN (1) CN109451308B (ja)
SG (1) SG11202010522WA (ja)
WO (1) WO2020107877A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109451308B (zh) 2018-11-29 2021-03-09 北京市商汤科技开发有限公司 视频压缩处理方法及装置、电子设备及存储介质
CN109934183B (zh) * 2019-03-18 2021-09-14 北京市商汤科技开发有限公司 图像处理方法及装置、检测设备及存储介质
CN110248191A (zh) * 2019-07-15 2019-09-17 山东浪潮人工智能研究院有限公司 一种基于深层卷积神经网络的视频压缩方法
CN110650339A (zh) * 2019-08-08 2020-01-03 合肥图鸭信息科技有限公司 一种视频压缩方法、装置及终端设备
US11973964B2 (en) * 2019-09-20 2024-04-30 Interdigital Madison Patent Holdings, Sas Video compression based on long range end-to-end deep learning
CN111263161B (zh) * 2020-01-07 2021-10-26 北京地平线机器人技术研发有限公司 视频压缩处理方法、装置、存储介质和电子设备
US11388415B2 (en) * 2020-05-12 2022-07-12 Tencent America LLC Substitutional end-to-end video coding
CN112651449B (zh) * 2020-12-29 2023-08-01 北京百度网讯科技有限公司 确定视频的内容特征的方法、装置、电子设备及存储介质
US20240155154A1 (en) * 2021-03-28 2024-05-09 Sharp Kabushiki Kaisha Systems and methods for autoencoding residual data in coding of a multi-dimensional data
US20220329876A1 (en) 2021-04-08 2022-10-13 Disney Enterprises, Inc. Machine Learning Model-Based Video Compression
CN117750021B (zh) * 2024-02-19 2024-04-30 北京铁力山科技股份有限公司 一种视频压缩方法、装置、计算机设备及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103037219B (zh) * 2012-10-22 2016-08-10 北京航空航天大学 一种基于分形和h.264的视频压缩与解压缩方法
US10748062B2 (en) 2016-12-15 2020-08-18 WaveOne Inc. Deep learning based adaptive arithmetic coding and codelength regularization
EP3370424A1 (en) * 2017-03-02 2018-09-05 Thomson Licensing A method and a device for picture encoding and decoding
CN106911930A (zh) * 2017-03-03 2017-06-30 深圳市唯特视科技有限公司 一种基于递归卷积神经网络进行压缩感知视频重建的方法
CN107105278B (zh) * 2017-04-21 2019-10-25 中国科学技术大学 运动矢量自动生成的视频编解码系统
CN107197260B (zh) * 2017-06-12 2019-09-13 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法
CN107396124B (zh) * 2017-08-29 2019-09-20 南京大学 基于深度神经网络的视频压缩方法
CN108012157B (zh) * 2017-11-27 2020-02-04 上海交通大学 用于视频编码分数像素插值的卷积神经网络的构建方法
KR102262554B1 (ko) * 2017-12-14 2021-06-09 한국전자통신연구원 예측 네트워크를 사용하는 영상의 부호화 및 복호화를 위한 방법 및 장치
CN108171325B (zh) * 2017-12-28 2020-08-28 中国科学技术大学 一种多尺度人脸恢复的时序集成网络、编码装置及解码装置
CN108174218B (zh) * 2018-01-23 2020-02-07 中国科学技术大学 基于学习的视频编解码系统
CN108307193B (zh) * 2018-02-08 2018-12-18 北京航空航天大学 一种有损压缩视频的多帧质量增强方法及装置
US10929654B2 (en) * 2018-03-12 2021-02-23 Nvidia Corporation Three-dimensional (3D) pose estimation from a monocular camera
US11019355B2 (en) * 2018-04-03 2021-05-25 Electronics And Telecommunications Research Institute Inter-prediction method and apparatus using reference frame generated based on deep learning
CN108900848B (zh) * 2018-06-12 2021-03-02 福建帝视信息科技有限公司 一种基于自适应可分离卷积的视频质量增强方法
US20200021815A1 (en) * 2018-07-10 2020-01-16 Fastvdo Llc Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (vqa)
CN109451308B (zh) * 2018-11-29 2021-03-09 北京市商汤科技开发有限公司 视频压缩处理方法及装置、电子设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIANG, FENG ET AL.: "An End-to-End Compression Framework Based on Convolutional Neural Networks", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. Volume: 28, Issue: 10, JPN6021050144, 1 August 2017 (2017-08-01), pages 3007 - 3018, ISSN: 0004667574 *
LU, GUO ET AL., DVC: AN END-TO-END DEEP VIDEO COMPRESSION FRAMEWORK, vol. v1, JPN7021005511, 30 November 2018 (2018-11-30), pages 1 - 14, ISSN: 0004667573 *
WU, CHAO-YUAN ET AL., VIDEO COMPRESSION THROUGH IMAGE INTERPOLATION, JPN7021005510, 18 April 2018 (2018-04-18), pages 1 - 18, ISSN: 0004667572 *
ZHAO, ZHENGHUI ET AL.: "CNN-Based Bi-Directional Motion Compensation for High Efficiency Video Coding", 2018 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS), JPN6021050146, 4 May 2018 (2018-05-04), pages 1 - 4, XP033434636, ISSN: 0004667575, DOI: 10.1109/ISCAS.2018.8351189 *

Also Published As

Publication number Publication date
SG11202010522WA (en) 2020-11-27
CN109451308B (zh) 2021-03-09
US20210044804A1 (en) 2021-02-11
WO2020107877A1 (zh) 2020-06-04
JP7123169B2 (ja) 2022-08-22
US11290723B2 (en) 2022-03-29
CN109451308A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
JP7123169B2 (ja) ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体
Hu et al. Learning end-to-end lossy image compression: A benchmark
US10462476B1 (en) Devices for compression/decompression, system, chip, and electronic device
US20200145692A1 (en) Video processing method and apparatus
CN109923864B (zh) 数据处理设备、方法、计算机程序和计算机可读介质
CN110677651A (zh) 一种视频压缩方法
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
CN111988609A (zh) 图像编码装置、概率模型生成装置和图像解码装置
CN112702592B (zh) 端到端双目图像联合压缩方法、装置、设备和介质
US11856210B2 (en) Apparatuses, methods, computer programs and computer-readable media
CN113079378B (zh) 图像处理方法、装置和电子设备
CN110753225A (zh) 一种视频压缩方法、装置及终端设备
CN111510739B (zh) 一种视频传输方法及装置
WO2019056898A1 (zh) 一种编码、解码方法及装置
CN113747163B (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
KR20210018668A (ko) 딥러닝 신경 네트워크를 사용하여 다운샘플링을 수행하는 이미지 처리 시스템 및 방법, 영상 스트리밍 서버 시스템
Zhang et al. Lossless image compression using a multi-scale progressive statistical model
CN110913230A (zh) 一种视频帧预测方法、装置及终端设备
CN115866253B (zh) 一种基于自调制的通道间变换方法、装置、终端及介质
CN112866697A (zh) 视频图像编解码方法、装置、电子设备及存储介质
CN110944212A (zh) 一种视频帧重构方法、装置及终端设备
CN111080729A (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
CN115913245A (zh) 数据编码方法、数据解码方法以及数据处理装置
CN111083500A (zh) 一种视频帧重构方法、装置及终端设备
CN110830806A (zh) 一种视频帧预测方法、装置及终端设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201027

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220809

R150 Certificate of patent or registration of utility model

Ref document number: 7123169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150