JP2021520162A

JP2021520162A - ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2021520162A
Application number: JP2020560352A
Authority: JP
Inventors: ガオルー; ワンリーウーヤン; シアオユンジャン; チュンレイツァイ; ドンシュー; ジーヨンガオ
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-11-29
Filing date: 2019-06-24
Publication date: 2021-08-12
Anticipated expiration: 2039-06-24
Also published as: JP7123169B2; US11290723B2; SG11202010522WA; WO2020107877A1; CN109451308B; US20210044804A1; CN109451308A

Abstract

本出願の実施例は、ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体を開示する。前記ビデオ圧縮処理方法は、単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることを含む。【選択図】図１

Description

（関連出願の相互参照）
本出願は、出願日が２０１８年１１月２９日であり、出願番号が第２０１８１１４４０７５３．９である中国特許出願に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。

本出願は、情報技術分野に関するものであるが、これに限定せず、特に、ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体に関する。

ビデオ圧縮は、様々なビデオシステムに広く適用されている。これは、ビデオの記憶及び伝送のスペースの低減にとって非常に有意義なものである。また、多くのコンピュータビジョンタスクがビデオ圧縮品質に非常に敏感であるため、ビデオ圧縮の性能を更に向上させることは、他のビデオタスクに対しても大きな助力となる。

これに鑑み、本出願の実施例は、ビデオ圧縮処理方法及び装置、電子機器並びに記憶媒体を提供することが望ましい。

本出願の技術的解決手段は、下記のように実現する。

ビデオ圧縮処理方法であって、
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることを含む。

ビデオ圧縮処理装置であって、
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得るように構成されるビデオ圧縮モジュールを備える。

電子機器であって、
メモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータの実行可能な命令を実行することによって、前記いずれか１つの技術的解決手段により提供されるビデオ圧縮処理方法を実現させるように構成されるプロセッサとを備える。

コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータの実行可能な命令が記憶されており、前記コンピュータの実行可能な命令がプロセッサにより実行されてから、前記いずれか１つの技術的解決手段により提供されるビデオ圧縮処理方法を実現させることができる。

プログラム製品であって、前記プログラム製品には、コンピュータの実行可能な命令が記憶されており、前記コンピュータの実行可能な命令が実行されてから、前記いずれか１つの技術的解決手段により提供されるビデオ圧縮処理方法を実現させることができる。

本出願の実施例により提供される技術的解決手段は、単一の損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮処理を行う。従って、様々な損失関数により訓練された複数の深層学習モジュールを組み合わせてなる非エンドツーエンドモデルを利用する場合に比べて、各深層学習モジュール同士の損失値の積算による圧縮されたビデオの歪みが大きいという現象を低減させ、ビデオ圧縮効果を向上させる。また、単一の損失関数を利用することで、ビデオ圧縮情報のコードレートと損失値とのバラスを全体的に取ることができ、歪み率を一定に確保する上で、全体的にコードレートの向上を可能な限り実現させることができる。

本出願の実施例による第１のビデオ圧縮処理方法を示すフローチャートである。本出願の実施例による第２のビデオ圧縮処理方法を示すフローチャートである。本出願の実施例による第３のビデオ圧縮処理方法を示すフローチャートである。本出願の実施例による現在の予測フレームの生成を示すフローチャートである。本出願の実施例による運動情報の符号化及び復号を示すフローチャートである。本出願の実施例による第２残差特徴の生成を示すフローチャートである。本出願の実施例による現在の予測フレームの生成を示すもう１つのフローチャートである。本出願の実施例によるビデオ圧縮処理装置の構造を示す概略図である。本出願の実施例による第４のビデオ圧縮処理方法を示すフローチャートである。本出願の実施例による１つ前の再構成フレーム及び第２運動情報に基づいて現在の予測フレームを生成することを示す概略図である。本出願の実施例による１つ前の再構成フレーム及び第２運動情報に基づいて現在の予測フレームを生成することを示すもう１つの概略図である。

下記、明細書の図面及び具体的な実施例を参照しながら本出願の技術的解決手段を更に詳しく説明する。

図１に示すように、本実施例は、ビデオ圧縮処理方法を提供する。前記方法は、下記を含む。

ステップＳ１００において、単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得る。

本実施例で提供されるビデオ圧縮処理方法は、単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ処理を行う。

ここで、前記単一損失関数は、１つの損失関数である。前記エンドツーエンドモデルは、圧縮しようとするビデオを前記エンドツーエンドモデルに入力してから、前記エンドツーエンドモデルが、ビデオ圧縮情報を直接的に出力するモデルである。ここで、ビデオ圧縮情報は、ビデオ圧縮後の情報である。

本実施例において、エンドツーエンドモデルを用い、該エンドツーエンドモデルにおける各深層学習モジュールのビデオに対する処理の損失値を同一の損失関数により算出する。従って、１つのみの損失関数を利用して損失値を算出しているため、異なる深層学習モジュールが異なる損失関数により損失値を算出することによる冗長的な演算量を低減させる。一方で、同一の損失関数により、エンドツーエンドモデル全体の損失値を算出しているため、異なる深層学習モデルがそれぞれ損失値を算出する場合に比べて、損失値の累積によってモデルの最終的な損失値が制御できなくなり又は損失が大きすぎるという現象を低減させる。それにより、単一損失関数により訓練されたエンドツーエンドモデルを利用することで、訓練過程において各深層学習モジュールの損失値をそれぞれ算出することに起因した、ビデオ圧縮の歪み率が制御不能になるという現象を減少させ、所定のコードレートでビデオを圧縮する場合のビデオ圧縮品質を確保する。

幾つかの実施例において、図２Ａに示すように、前記ステップＳ１００は、下記のステップを含んでもよい。

ステップＳ１０１において、現在のオリジナルフレーム及び１つ前の再構成フレームに基づいて第１運動情報を取得する。

ステップＳ１０２において、前記第１運動情報及び前記１つ前の再構成フレームに基づいて現在の予測フレームを得る。

ステップＳ１０３において、前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第１残差情報を得、前記第１運動情報及び前記第１残差情報が、前記ビデオ圧縮情報を形成するためのものである。

本実施例において、ビデオは、ビデオフレームからなるものである。これらのビデオフレームを所定の時間順で組み合わせ、又は再生する場合、動的な連続したビデオ情報を形成する。

前記現在のオリジナルフレームは、圧縮をしようとするビデオフレームである。本実施例において、現在のオリジナルフレーム及び１つ前の再構成フレームに基づいて第１運動情報を得る。ここで、１つ前の再構成フレームは、１つ前の圧縮後のビデオフレームによって圧縮情報を得ることで再構成されたビデオフレームであってもよい。１つ前の再構成フレームは、１つ前のオリジナルフレームに対応する。

本実施例において、１つのビデオフレームは、１つの再構成フレームに対応する。ビデオフレームが所定順序で付番されたものであるため、再構成フレームも所定順序で付番されたものである。現在のオリジナルフレームが第ｎフレームであれば、１つ前の再構成フレームはビデオにおける第ｎ−１フレームの再構成フレームである。

現在のオリジナルフレームがビデオの先頭フレームである場合、即ち、１番目のフレームであれば、１番目のフレームの再構成フレームの形成は下記の通りである。

先頭フレームをエンコーダに入力し、符号化情報を得る。

符号化情報をデコーダに入力し、先頭フレームの再構成フレームを得る。先頭フレームの再構成フレームは、ビデオにおける２番目のフレームの再構成に用いられることができる。

上記ステップＳ１０１からステップＳ１０３は、ビデオにおける先頭フレーム以外のものに対する処理であってもよい。

前記第１運動情報は、現在のオリジナルフレームと１つ前のオリジナルフレームにおけるターゲット図形の運動状況を表すためのものであってもよい。

例えば、圧縮されるビデオが球技試合ビデオである場合、ビデオにおいて、異なるビデオフレームの間の競技参加者の結像の差異は、前記第１運動情報により表されることができる。

前記第１運動情報は、具体的には、前記現在のオリジナルフレームと１つ前の再構成フレームとの画素毎の差分情報であってもよい。

前記第１運動情報を得てから、前記第１運動情報及び前記１つ前の再構成フレームに基づいて現在の予測フレームを得ることができる。具体的には、前記１つ前の再構成フレームを投影して投影フレームを得て、前記第１運動情報に基づいて、投影フレームを補正し、現在の予測フレームを得る。ここで、第１運動情報を参照して投影フレームを補正することは、ターゲット図形の前後２つのフレームの期間内における運動量に基づいて、投影フレームにおける対応する画素の画素座標を調整し、それによって、補正後の前記現在の予測フレームを得ることを含んでもよい。勿論、ここで、単なる例である。１つ前の再構成フレーム及び前記第１運動情報に基づいて前記現在の予測フレームを得るための具体的な形態は、これに限定されずに、複数がある。該現在の予測フレームは、ビデオを解凍する時に、第１残差情報及び１つ前の解凍復元フレームに基づいて得られた解凍復元後のビデオフレームに対応する。幾つかの実施例において、前記１つ前の再構成フレーム及び前記第１運動情報で表わされる前後の２つのビデオフレームの差分情報を、画素ごとに重み付け加算して前記現在の予測フレームを得ることができる。

前記現在の予測フレームを得てから、前記現在の予測フレーム及び前記現在のオリジナルフレームに対して差分処理などを行い、それによって、前記第１残差情報を得ることができる。前記第１残差情報によって、具体的には、前記現在の予測フレームと前記現在のオリジナルフレームとの差異情報を反映することができる。

本実施例において、前記第１残差情報及び前記第１運動情報を符号化した後に、前記ビデオ圧縮情報を得ることができる。第１残差情報及び前記第１運動情報はいずれも差異情報を表すものである。前記現在のオリジナルフレームを直接的に出力することに比べて、データ量を大幅に低減させ、ビデオ圧縮を実現させることができる。

図２Ｂに示すように、前記ステップＳ１００は更に下記を含んでもよい。

ステップＳ１０４において、第１残差情報及び前記現在の予測フレームに基づいて、現在の再構成フレームを得て、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第１運動情報を取得するために用いられる。

本実施例において、前記第１残差情報及び現在の予測フレームは、現在の再構成フレームの取得に用いられる。それに対して現在の再構成フレームは、次のオリジナルフレームの圧縮に用いられる。

本実施例において、前記１つ前の再構成フレームは、１つ前のオリジナルフレームに対応する第１残差情報及び１つ前の予測フレームに基づいて得られたものである。従って、本実施例において、前記ステップＳ１０１からステップＳ１０４は、ビデオ圧縮の繰り返し処理になる。

幾つかの実施例において、ステップＳ１０２は、
第１運動情報に基づいて符号化を行い、運動特徴を得ることと、
運動特徴に基づいて復号を行い、第２運動情報を得ることと、
１つ前の再構成フレーム及び前記第２運動情報に基づいて、現在の予測フレームを得ることとを含んでもよい。

具体的には、図３に示すように、前記Ｓ１０２は、下記を含んでもよい。

ステップＳ１０２１において、前記第１運動情報に対して符号化を行い、第１運動特徴を得る。

ステップＳ１０２２において、前記第１運動特徴を計量化し、第２運動特徴を得る。

ステップＳ１０２３において、前記第２運動特徴を復号し、再構成された第２運動情報を得る。

ステップＳ１０２４において、前記１つ前の再構成フレーム及び第２運動情報に基づいて、現在の予測フレームを得る。

幾つかの実施例において、前記第１運動情報は、異なるフレームの比較に基づいて得られた情報であってもよい。前記第１運動情報は、１つ前のフレームの符号化されていない画素情報であってもよい。本実施例において、まず、第１運動情報を符号化する。例えば、所定のビデオ符号化フォーマットを利用して前記第１運動情報を符号化して第１運動特徴を得る。この場合、得られた第１運動特徴情報は、さらに計量化処理する必要があるアナログ情報と見なすことができる。

ステップＳ１０２２において、第１運動特徴を計量化し、計量化後の第２運動特徴を得る。

第１運動特徴の計量化のための形態は多種である。例えば、第１運動特徴に対して、四捨五入処理を行い、前記第２運動特徴を得る。また例えば、前記第１運動特徴を切り上げ、前記第２運動特徴を得る。更に例えば、前記第１運動特徴を切り下げ、前記第２運動特徴を得る。

前記エンドツーエンドモデルの訓練段階において、前記第１運動特徴を計量化することは、
前記第１運動特徴に所定の雑音を加え、前記第２運動特徴を得ることを更に含む。モデル訓練過程において勾配法を実施する必要があるため、四捨五入処理、切り上げ又は切り下げ処理を直接的に行う場合、勾配法の実施が難しくなり、エンドツーエンドモデル訓練に異常が発生してしまう。従って、幾つかの実施例において、前記所定の雑音を取り込むことで、勾配法の実現ができるようになり、前記エンドツーエンドモデルの訓練を容易にする。

前記第２運動特徴を得てから、前記第２運動特徴に基づいて復号を行うことで、ビデオ圧縮復号過程における復号側による第２運動特徴の復号をシミュレートし、再構成された第２運動情報を得る。

最後に、ステップＳ１０２４において、第２運動情報及び前記１つ前の再構成フレームに基づいて前記現在の予測フレームを生成する。

幾つかの実施例において、前記ステップＳ１０２１は具体的には、
第１畳み込み層によって前記第１運動情報に対して畳み込みを行い、第１符号化値を得ることと、
第１正規化層によって前記第１符号化値を正規化し、第１正規化値を得ることと、
第ｎ畳み込み層によって第ｎ−１正規化層から出力された第ｎ−１正規化値に対して畳み込みを行い、第ｎ符号化値を得ることと、
第ｎ正規化層によって第ｎ符号化値に対して正規化処理を行い、第ｎ正規化値を得ることと、
第Ｎ畳み込み層によって第Ｎ−１正規化値に対して正規化処理を行い、前記第１運動特徴を得ることとを含み、
ここで、ｎは、１より大きくてＮより小さい正整数であり、Ｎは畳み込み層の数である。

本実施例において、前記第１運動情報を符号化して前記第１運動特徴を得ることは、畳み込みネットワークにより実現してもよい。前記畳み込みネットワークは、Ｎ個の畳み込み層及びＮ−１個の正規化層を含んでもよい。畳み込み層と正規化層は、交互に配置されてもよい。従って、畳み込みネットワークの第１畳み込み層（即ち１番目の畳み込み層）は、第１運動情報を直接受けて畳み込み処理し、第１符号化値を得る。第１符号化値を得てから、第１正規化層（即ち１番目の正規化層）を利用して第１符号化値の正規化を行う。ここで、第１符号化値の正規化は、種々の正規化処理により実現してもよい。具体的な実現形態は多種であり、ここで詳細な説明を省略する。ここで、正規化処理は、規範化操作と呼ばれてもよい。

従って、Ｎ回の畳み込み処理及びＮ−１回の正規化処理を繰り返して行ってから、第Ｎ畳み込み層から出力される第Ｎ符号化値は、前記第１運動特徴である。

前記Ｎの値は、２下記の正整数であってもよい。幾つかの実施例において、前記Ｎの値は、３、４又は５等であってもよい。

本実施例において、前記第１畳み込み層乃至第Ｎ畳み込み層に用いられる畳み込みパラメータは同じであってもよい。例えば、前記畳み込みパラメータは、（Ｍ１，Ｍ２，Ｓ１）であってもよい。ここで、Ｍ１は、Ｍ１＊Ｍ１の畳み込みカーネルを表す。例えば、前記Ｍ１の値は、３又は４等であってもよい。Ｍ２は、該畳み込み層の出力数を表す。例えば、前記Ｍ２は、１２８、２５６又は５１２等であってもよい。Ｓ２は、畳み込みカーネルの移動のステップ幅であってもよい。例えば、Ｓ１の値は、１又は２等であってもよい。Ｓ１が１であれば、画像を該畳み込み層に入力して畳み込み処理を行ってから得られた出力画像の画像サイズは、不変のままである。Ｓ２が２又は２以上の正整数であれば、画像を畳み込み層に入力して畳み込み処理を行ってから得られた画像のサイズは縮小する。

幾つかの実施例において、前記Ｓ１０２３は、
第１逆畳み込み層によって前記第１運動特徴に対して逆畳み込みを行い、第１復号値を得ることと、
第１逆正規化層によって前記第１復号値に対して逆正規化処理を行い、第１逆正規化値を得ることと、
第ｎ逆畳み込み層によって第ｎ−１逆正規化層から出力された第ｎ−１逆正規化値に対して逆畳み込みを行い、第ｎ復号値を得ることと、
第ｎ逆正規化層によって第ｎ復号値に対して正規化処理を行い、第ｎ逆正規化値を出力することと、
第Ｎ逆畳み込み層によって第Ｎ−１逆正規化値に対して逆畳み込みを行い、前記第２運動情報を得ることとを含んでもよく、
ここで、ｎは１より大きくてＮより小さい正整数であり、Ｎは逆畳み込み層の数である。

本実施例において、前記第２運動特徴の復号は、前記第１運動情報の符号化の逆過程である。本実施例において、逆畳み込みネットワークにより、前記第２運動情報を得る。該逆畳み込みネットワークは、符号化に用いられる畳み込みネットワークにおける畳み込み層の数と同じである逆畳み込み層を含む。逆畳み込みネットワークに含まれる逆正規化層の数は、符号化に用いられる畳み込みネットワークにおける正規化層の数と同じである。逆畳み込みネットワークにおいて、逆畳み込み層と逆正規化層は交互に配置される。本実施例において、第１逆畳み込み層から第Ｎ−１逆畳み込み層に用いられる逆畳み込みパラメータは、符号化過程に用いられた畳み込みパラメータに対応し、いずれも（Ｍ１，Ｍ２，Ｓ１）であってもよい。第Ｎ個の逆畳み込み層の逆畳み込みパラメータは異なってもよい。例えば、第Ｎ個の逆畳み込み層に用いられる畳み込みカーネルは、前記第１逆畳み込み層から第Ｎ−１逆畳み込み層に用いられる畳み込みカーネルと同じであり、いずれもＭ１＊Ｍ１の畳み込みカーネルであるが、入力チャネルの数は変更可能である。例えば、第１逆畳み込み層乃至第Ｎ−１逆畳み込み層に用いられる逆畳み込みパラメータは（３，１２８，２）であれば、第Ｎ逆畳み込み層の逆畳み込みパラメータは、（３，２，２）であってもよい。

本実施例において、前記第１運動情報のエンコーダと前記第２運動特徴のデコーダは、計量化ネットワークにより接続されてもよい。図４は、運動情報の符号化及び復号を行うネットワークの構造を示す概略図である。図４において、ＧＤＮは、正規化層を表す。ＩＧＤＮは逆正規化層を表す。Ｃｏｎｖは畳み込み層を表す。Ｄｅｃｏｎｖは、逆畳み込み層を表す。図４において、

は、前記第１運動情報を表す。

は、前記第２運動情報を表す。

は、第１運動特徴を表す。

は第２運動特徴を表す。Ｑは計量化操作を表す。

幾つかの実施例において、図５に示すように、前記Ｓ１０３は下記をふくんでもよい。

ステップＳ１０３１において、前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて第１残差情報を得る。

ステップＳ１０３２において、前記第１残差情報に対して符号化を行い、第１残差特徴を得る。

ステップＳ１０３３において、前記第１残差特徴に対して計量化を行い、第２残差特徴を得る。

ここで、前記第２残差特徴と前記第１運動情報に基づいて得られた第２運動特徴とは、前記ビデオ圧縮情報の構成部分である。

本実施例において、現在のオリジナルフレーム及び現在の予測フレームに基づいて第１残差情報を得る。例えば、前記現在のオリジナルフレームと現在の予測フレームを画素ごとに比較することで、前記第１残差情報を得る。

続いて、第１残差情報に対して符号化を行い、前記第１残差特徴を得る。また、第１残差特徴に対して計量化を行い、第２残差特徴を得る。ここで、計量化処理は、第１残差特徴の四捨五入処理、第１残差特徴の切り上げ処理又は前記第１残差特徴の切り下げ処理を含んでもよい。

訓練段階において、同様に、前記第１残差特徴に所定の雑音を加えて、前記第２残差特徴を得る。

幾つかの実施例において、前記Ｓ１０２４は、
前記１つ前の再構成フレーム、前記第２運動情報及び投影フレームを組み合わせ、第１組み合わせフレームを得、前記投影フレームが、前記１つ前の再構成フレーム及び前記第２運動情報に基づいて畳み込みを行って生成されたものであることと、
前記第１組み合わせフレームに対して畳み込みを行い、第１畳み込みフレームを得ることと、
前記第１畳み込みフレームに基づいて、Ｓ＋１回の第１残差処理及びＳ回のプーリング処理を行い、第１中間フレームを得、前記第１残差処理と前記プーリング処理が交互に実行されることと、
前記第１中間フレームに対して、Ｓ＋１回の第２残差処理及びＳ回のアップサンプリング処理を行い、第２中間フレームを得、前記第２残差処理と前記アップサンプリング処理が交互に実行されることと、
前記第２中間フレームに対して第２畳み込み処理を行い、第２畳み込みフレームを得ることと、
前記第２畳み込みフレームに対して第３畳み込み処理を行い、前記現在の予測フレームを得ることとを含む。

前記Ｓの値は、２、３又は４等であってもよい。

本実施例において、前記１つ前の再構成フレーム、第２運動情報及び投影フレームを組み合わせて第１組み合わせフレームを得る。例えば、前記１つ前の再構成フレームは、Ｗ＊Ｈ＊Ｃ１の画像フレームであってもよく、前記第２運動情報は、Ｗ＊Ｈ＊Ｃ２であってもよく、前記投影フレームは、Ｗ＊Ｈ＊Ｃ３の画像フレームであってもよい。従って、前記１つ前の再構成フレーム、第２運動情報及び投影フレームを組み合わせることで得られた第１組み合わせフレームは、Ｗ＊Ｈ＊（Ｃ１＋Ｃ２＋Ｃ３）の画像フレームであってもよい。該第１組み合わせフレームにおいて、各画像のデータ長さは、元のＣ１、Ｃ２又はＣ３からＣ１＋Ｃ２＋Ｃ３になる。前記投影フレームは、前記１つ前の再構成フレーム及び第２運動情報に対して畳み込み処理を行って得られた画像フレームであってもよい。例えば、１つ前の再構成フレームと前記第１運動情報を畳み込むことで、含まれる画素の数が１つ前の再構成フレームに含まれる画素の数と同じである投影フレームを得ることができる。

例えば、前記Ｓが３であれば、前記ステップＳ１０２４は、
前記１つ前の再構成フレーム、所述第２運動情報及び投影フレームを組み合わせ、第１組み合わせフレームを得て、前記投影フレームが、前記１つ前の再構成フレーム及び前記第２運動情報に基づいて畳み込みを行って生成されたものであることと、
前記第１組み合わせフレームに対して畳み込みを行い、第１畳み込みフレームを得ることと、
前記第１畳み込みフレームに対して線形修正及び畳み込み処理を行ってから、前記第１畳み込みフレームと共に残差処理を行い、第１残差フレームを得ることと、
前記第１残差フレームをプーリング処理し、第１プーリングフレームを得ることと、
前記第１プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第１プーリングフレームと共に残差処理を行い、第２残差フレームを得ることと、
前記第２残差フレームをプーリング処理し、第２プーリングフレームを得ることと、
前記第２プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第２プーリングフレームと共に残差処理を行い、第３残差フレームを得ることと、
前記第３残差フレームに対して線形修正及び畳み込み処理を行ってから、前記第３残差フレームと共に残差処理を行い、第４残差フレームを得ることと、
前記第４残差フレームをアップサンプリングし、第１アップサンプリングフレームを得ることと、
第２組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第２組み合わせフレームと共に残差処理を行い、第５残差フレームを得て、前記第２組み合わせフレームが前記第１アップサンプリングフレーム及び前記第２残差フレームに基づいて生成されたものであることと、
前記第５残差フレームをアップサンプリングし、第２アップサンプリングフレームを得ることと、
第３組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第３組み合わせフレームと共に残差処理を行い、第６残差フレームを得て、前記第３組み合わせフレームが前記第２アップサンプリングフレーム及び前記第１残差フレームに基づいて生成されたものであることと、
前記第６残差フレームを畳み込み、第２畳み込みフレームを得ることと、
前記第２畳み込みフレームを畳み込み、前記現在の予測フレームを得ることとを含んでもよい。

組み合わせを完了してから、第１組み合わせフレームを得る。続いて、第１組み合わせフレームに対して畳み込み処理を行ってから、所定の回数の残差処理及びプーリング処理を交互に行う。続いて、所定の回数の残差処理及びアップサンプリング処理を交互に行ってから、畳み込み処理を行い、最後に前記現在の予測フレームを出力する。

図６は、現在の予測フレームの取得処理を示すフローチャートである。図６において

は、第２運動情報である。

は、投影フレームを表す。

は、１つ前の再構成フレームを表す。

幾つかの実施例において、前記アップサンプリング処理は、双線形補間法を利用する。

本実施例にいて、前記双線形補間は、Ｘ方向及びＹ方向における補間処理により、データのアップサンプリングを実現させることができる。前記Ｘ方向とＹ方向は相互垂直である方向である。例えば、画像フレームにおいて、隣接する２つの画素値に基づいて行及び列においてそれぞれ補間処理を行うことで、画像フレームに含まれる画素の数を増加させることができる。

幾つかの実施例において、前記エンドツーエンドモデルの損失値は、前記損失関数を利用して、第１運動情報、前記第１残差情報、前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて決定されたものである。

具体的には、例えば、前記第１運動情報を符号化して計量化してから、第２運動特徴を得る。前記第１残差情報に対して符号化を行いて計量化してから、第２残差特徴を得る。それらは、前記損失関数の引数として損失値演算に用いられる。

幾つかの実施例において、前記損失関数は下記を含む。

ただし、

は損失値であり、

は前記現在のフレームと前記現在の再構成フレームとの歪み値である。

は、前記第１残差情報に対して符号化を行いて計量化することで得られた第２運動特徴である。

は、前記第１残差情報に対して符号化を行いて計量化することで得られた第２残差特徴である。

は、

を符号化してから得られたコードワードの数である。

は、

を符号化してから得られたコードワードの数である。

は、コードレートと歪みとの平衡係数である。

幾つかの実施例において、前記

は、現在のオリジナルフレームと現在の再構成フレームとのピーク信号対雑音比（ＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ：ＰＳＮＲ）であってもよい。例えば、ＰＳＮＲ＝１０＊ｌｏｇ１０（（２＾ｎ−１）＾２／ＭＳＥ）である。ＭＳＥは、前記現在のオリジナルフレームと前記現在の再構成フレームとの平均二乗誤差であってもよい。

幾つかの実施例において、前記

は、現在のオリジナルフレームと現在の再構成フレームとの平均平方誤差（ＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙＩｎｄｅｘ：ＳＳＩＭ）又はマルチスケール平均平方誤差（Ｍｕｌｔｉ−Ｓｃａｌｅ−ＳｔｒｕｃｔｕｒａｌＳｉｍｉｌａｒｉｔｙＩｎｄｅｘ：ＭＳ−ＳＳＩＭ）に基づいて決定されたものであってもよい。

に対するコードレートは、

に対するコードレートと同じであるため、

及び

に対する損失は同じである。この場合、

は、コードレートと歪みとの平衡係数である。

がそのままであれば、

及び

を符号化して得られたコードワードの数は多いほど、損失値は大きくなり、

及び

を符号化して得れたコードワークの数が少ないほど、損失値は小さくなる。

幾つかの実施例において、前記

は調整可能である。異なるエンドツーエンドモデルの

は異なってもよい。

が大きいほど、

による影響が小さくなり、コードレートがエンドツーエンドモデルの損失に与える損失が大きくなる。

本実施例において、前記損失関数における

が十分に大きい場合、損失関数は、下記と等価である。

。

前記エンドツーエンドモデルによる符号化を行ってから得られたコードワードの数が少ないか又は

が小さい場合、前記損失関数は、下記と等価である。

。

要するに、本実施例において、エンドツーエンドモデルによりビデオ圧縮符号化を行うため、得らえたビデオ圧縮情報は、コードレートとビデオの歪みとのバランスを好適に取ることができる。圧縮されたビデオの復元効果を確保する上で、十分な圧縮率を確保する。ビデオ圧縮効果と圧縮率とのバランスを好適に取ることができる。

本実施例はビデオ圧縮処理装置を提供する。前記装置は、
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得るように構成されるビデオ圧縮モジュールを備える。

本実施例において、前記エンドツーエンドモデルは、ビデオ圧縮のための複数の深層学習モジュールを備えてもよい。これらの深層学習モジュールは、同一の損失関数を利用して損失を算出する。これにより、エンドツーエンドモデル全体の損失出力を好適に制御し、ビデオ圧縮の圧縮効果を確保し、コードレートと歪みとの優れたバランスを実現させることができる。

幾つかの実施例において、前記ビデオ圧縮処理装置は、情報を記憶するように構成される記憶モジュールを更に備える。例えば、記憶モジュールは、現在のオリジナルフレーム又は１つ前のオリジナルフレームの再構成フレーム等をキャッシュするように構成される。該記憶モジュールは、前記ビデオ圧縮モジュールに接続され、ビデオ圧縮処理のために情報記憶スペースを提供するように構成される。

幾つかの実施例において、図７に示すように、前記ビデオ圧縮モジュールは、
現在のオリジナルフレーム及び１つ前の再構成フレームに基づいて第１運動情報を取得するように構成される運動推定モジュール１０１と、
前記第１運動情報及び前記１つ前の再構成フレームに基づいて現在の予測フレームを得るように構成される現在の予測フレームモジュール１０２と、
前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第１残差情報を得るように構成される残差処理モジュールであって、前記第１運動情報及び前記第１残差情報が、前記ビデオ圧縮情報を形成するためのものである残差処理モジュール１０３とを備える。

幾つかの実施例において、図７に示すように、前記ビデオ圧縮モジュールは、
第１残差情報及び前記現在の予測フレームに基づいて現在の再構成フレームを得て、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第１運動情報を取得するために用いられるように構成される再構成フレームモジュール１０４を更に備える。

幾つかの実施例において、前記現在の予測フレームモジュール１０２は、第１運動情報に基づいて運動特徴を得て、前記運動特徴に基づいて復号を行い、第２運動情報を得て、１つ前の再構成フレーム及び前記第２運動情報に基づいて、現在の予測フレームを得るように構成される。

幾つかの実施例において、前記現在の予測フレームモジュール１０２は、
前記第１運動情報に対して符号化を行い、第１運動特徴を得るように構成される運動情報符号化サブモジュールと、
前記第１運動特徴を計量化し、第２運動特徴を得るように構成される第１計量化サブモジュールと、
前記第２運動特徴を復号し、再構成された第２運動情報を得るように構成される運動情報復号サブモジュールと、
前記１つ前の再構成フレーム及び第２運動情報に基づいて、現在の予測フレームを得るように構成される運動補償サブモジュールとを備える。

幾つかの実施例において、前記運動情報符号化サブモジュールは、
前記第１運動情報に対して畳み込みを行い、第１符号化値を得るように構成される第１畳み込み層と、
前記第１符号化値を正規化し、第１正規化値を得るように構成される第１正規化層と、
第ｎ−１正規化層から出力された第ｎ−１正規化値に対して畳み込みを行い、第ｎ符号化値を得るように構成される第ｎ畳み込み層と、
第ｎ符号化値に対して正規化処理を行い、第ｎ正規化値を得るように構成される第ｎ正規化層と、
第Ｎ−１逆正規化値に対して逆畳み込みを行い、前記第２運動特徴を得るように構成される第Ｎ逆畳み込み層とを備え、
ここで、ｎは、１より大きくてＮより小さい正整数であり、Ｎは逆畳み込み層の数である。

幾つかの実施例において、前記運動情報復号サブモジュールは、
前記第１運動特徴に対して逆畳み込みを行い、第１復号値を得るように構成される第１逆畳み込み層と、
前記第１復号値に対して逆正規化処理を行い、第１逆正規化値を得るように構成される第１逆正規化層と、
第ｎ−１逆正規化層から出力された第ｎ−１逆正規化値に対して逆畳み込みを行い、第ｎ復号値を得るように構成される第ｎ逆畳み込み層と、
第ｎ復号値に対して正規化処理を行い、第ｎ逆正規化値を出力するように構成される第ｎ逆正規化層と、
第Ｎ−１逆正規化値に対して逆畳み込みを行い、前記第２運動情報を得るように構成される第Ｎ逆畳み込み層とを備え、
ここで、ｎは１より大きくてＮより小さい正整数であり、Ｎは逆畳み込み層の数である。

幾つかの実施例において、残差処理モジュール１０３は、
前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて第１残差情報を得るように構成される残差情報取得サブモジュールと、
前記第１残差情報に対して符号化を行い、第１残差特徴を得るように構成される残差符号化サブモジュールと、
前記第１残差特徴に対して計量化を行い、第２残差特徴を得るように構成される第２計量化サブモジュールとを備え、
ここで、前記第２残差特徴と前記第１運動情報に基づいて得られた第２運動特徴とは、前記ビデオ圧縮情報の構成部分である。

幾つかの実施例において、前記運動補償サブモジュールは、
前記１つ前の再構成フレーム、前記第２運動情報及び投影フレームを組み合わせ、第１組み合わせフレームを得るように構成される組み合わせ層であって、前記投影フレームが、前記１つ前の再構成フレーム及び前記第２運動情報に基づいて畳み込みを行って生成されたものである組み合わせ層と、
前記第１組み合わせフレームに対して畳み込みを行い、第１畳み込みフレームを得るように構成される第１畳み込み層と、
前記第１畳み込みフレームに基づいて、Ｓ＋１回の第１残差処理及びＳ回のプーリング処理を行い、第１中間フレームを得るように構成される第１中間処理ユニットであって、前記第１残差処理と前記プーリング処理が交互に実行される第１中間処理ユニットと、
前記第１中間フレームに対して、Ｓ＋１回の第２残差処理及びＳ回のアップサンプリング処理を行い、第２中間フレームを得るように構成される第２中間処理ユニットであって、前記第２残差処理と前記アップサンプリング処理が交互に実行される第２中間処理ユニットと、
前記第２中間フレームに対して第２畳み込み処理を行い、第２畳み込みフレームを得るように構成される第２畳み込み層と、
前記第２畳み込みフレームに対して第３畳み込み処理を行い、前記現在の予測フレームを得るように構成される第３畳み込み層とを備える。

幾つかの実施例において、前記第１中間層は、１つ又は複数の残差ユニット及びプーリング層を備えてもよく、及び／又は、前記第２中間層は、１つ又は複数の残差ユニット及びアップサンプリング層を備えてもよい。

例えば、前記第１中間層は、
前記第１畳み込みフレームに対して線形修正及び畳み込み処理を行ってから、前記第１畳み込みフレームと共に残差処理を行い、第１残差フレームを得るように構成される第１残差ユニットと、
前記第１残差フレームをプーリング処理し、第１プーリングフレームを得るように構成される第１プーリング層と、
前記第１プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第１プーリングフレームと共に残差処理を行い、第２残差フレームを得るように構成される第２残差ユニットと、
前記第２残差フレームをプーリング処理し、第２プーリングフレームを得るように構成される第２プーリング層と、
前記第２プーリングフレームに対して線形修正及び畳み込み処理を行ってから、前記第２プーリングフレームと共に残差処理を行い、第３残差フレームを得るように構成される第３残差ユニットとを備える。

及び／又は、
前記第２中間層は、
前記第３残差フレームに対して線形修正及び畳み込み処理を行ってから、前記第３残差フレームと共に残差処理を行い、第４残差フレームを得るように構成される第４残差ユニットと、
前記第４残差フレームをアップサンプリングし、第１アップサンプリングフレームを得るように構成される第１アップサンプリング層と、
第２組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第２組み合わせフレームと共に残差処理を行い、第５残差フレームを得て、前記第２組み合わせフレームが前記第１アップサンプリングフレーム及び前記第２残差フレームに基づいて生成されたものであるように構成される第５残差ユニットと、
前記第５残差フレームをアップサンプリングし、第２アップサンプリングフレームを得るように構成される第２アップサンプリング層と、
第３組み合わせフレームに対して線形修正及び畳み込み処理を行ってから、前記第３組み合わせフレームと共に残差処理を行い、第６残差フレームを得て、前記第３組み合わせフレームが前記第２アップサンプリングフレーム及び前記第１残差フレームに基づいて生成されたものであるように構成される第６残差ユニットとを素姉る。

第２畳み込み層は、前記第６残差差フレームを畳み込み、第２畳み込みフレームを得るように構成され、
第３畳み込み層は、前記第２畳み込みフレームを畳み込み、前記現在の予測フレームを得るように構成される。

幾つかの実施例において、前記エンドツーエンドモデルの損失値は、前記単一損失関数を利用して、第１運動情報、前記第１残差情報、前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて決定されたものである。

幾つかの実施例において、前記単一損失関数は、下記を含み、

ただし、

は損失値であり、

は、

を符号化してから得られたコードワードの数である。

は、

を符号化してから得られたコードワードの数である。

は、コードレートと歪みとの平衡係数である。

下記、上記任意の実施例を参照しながら、具体的な例を提供する。

該例において、完全なエンドツーエンド最適化された深層学習に基づいたビデオ圧縮システムを構築する。ビデオ符号化のための全ての肝心なモジュールは、運動推定モジュール、運動補償モジュール、運動情報圧縮モジュール、残差情報圧縮モジュール、計量化モジュール及びコードレート推定モジュールなどを備える。それらはいずれも深層ニューラルネットワークにより実現し、完全なエンドツーエンド最適化を実現させることができる。

該例で提出された深層ニューラルネットワークに基づいたビデオ圧縮アーキテクチャは、最適化過程において、再構成画像の品質と圧縮に必要なコードレートとのバランスを十分に考慮し、より高い圧縮効率を実現させることができる。

運動推定及び運動情報圧縮に対して、該例において、オプティカルフロー推定によるニューラルネットワークを利用して対応するオプティカルフローを得て運動情報とする。

それと同時に、該例において、運動情報圧縮ネットワークを提供する。それは、ビデオ圧縮に対して下記処理を行う。

ステップ１において、推定されたオプティカルフローを圧縮し、対応する運動特徴を得て、運動特徴を計量化し、運動デコーダにより、対応する再構成運動情報を得る。

ステップ２において、運動補償は、ステップ１で得られた再構成運動情報に基づいて運動補償を行い、運動補償を行った結果に基づいて、対応する残差情報を算出することを含む。

ステップ３において、残差符号化は、ステップ２で得らえた残差情報をまず残差デコーダにより処理してから、計量化を行い、計量化された残差特徴を得て、計量化された残差を残差デコーダにより処理し、対応する再構成残差を得ることを含む。

ステップ４において、エントロピー符号化を行う。ステップ１で得られた運動特徴及びステップ３で得られた残差特徴に基づいて、符号化されたコードワードを推定する。ここで、エントロピー符号化されたコードワードは、ビデオ圧縮情報として出力される。

ステップ５において、再構成を行う。ステップ２で得られた運動補償フレームとステップ３で得られた再構成残差を加算して最終的な再構成画像である符号化画像を得る。

ステップ６において、運動推定及び運動情報圧縮に対して、該例において、Ｓｐｙｎｅｔにより、オプティカルフロー推定を行い、対応する運動情報を得る。他の学習に基づいたオプティカルフローネットワークは、ここで適用可能である。運動情報を圧縮するために、自己符号化器タイプのネットワークを提供して運動情報を圧縮する。

図８に示すように、オプティカルフローネットワークにより得られた運動情報は、

である。まず、運動情報符号化サブモジュール（ＭＶＥｎｃｏｄｅｒＮｅｔ）により、運動特徴

を得る。Ｑは、計量化操作を表す。計量化結果は、

である。

をＭＶＤｅｃｏｄｅｒＮｅｔにより処理し、対応する再構成された運動情報

を得る。ＭＶＥｎｃｏｄｅｒＮｅｔ及びＭＶＤｅｃｏｄｅｒＮｅｔは図６に示す通りである。

畳み込み層の畳み込みパラメータは、ｃｏｎｖ（３，１２８，２）であってもよい。ｃｏｎｖ（３，１２８，２）は、畳み込みカーネルが３＊３であり、出力チャネルが１２８であり、ステップ幅が２である標準的な畳み込み操作を表す。

逆畳み込み層の逆畳み込みパラメータは、Ｄｅｃｏｎｖ（３，１２８，２）であってもよい。Ｄｅｃｏｎｖ（３，１２８，２）は、畳み込みカーネルが３＊３であり、出力チャネルが１２８であり、ステップ幅が２である標準的な畳み込み操作を表す。ＧＤＮは、対応する正規化処理を表す。ＩＧＤＮは、逆正規化処理を表す。

運動補償に対して、該例において、運動補償ネットワークを提供して対応する予測フレーム

を得る。具体的なステップは下記の通りである。

まず、図９に示すように、運動情報を再構成し、１つ前の時刻の再構成フレーム

を現在の時刻に投影し、投影フレームを得て初期畳み込みフレーム（ｗａｒｐｅｄｆｒａｍｅ）と呼ぶ。続いて、ｗａｒｐｅｄｆｒａｍｅ、１つ前の時刻の再構成フレーム、再構成運動情報を組み合わせ、畳み込みニューラルネットワークに入力し、対応する予測フレーム

を得る。図９において、ＣＮＮは、畳み込みネットワークを表す。

図８に示す畳み込みニューラルネットワークは、図１０に示す通りである。

は投影フレームを表す。残差ユニット（ＲｅｓｉｄｕａｌＢｌｏｃｋ）は、一般的に用いられる残差ネットワークを表す。該残差ユニットは、線形修正層（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ，ＲｅＬＵ）及び畳み込み層からなる。前記線形修正層は、入力されたデータの修正に用いられる。例えば、活性化関数を利用して異常値を修正する。該残差ユニットは、数が同じであるＲｅＬＵと畳み込み層を備えてもよい。ＲｅＬＵと畳み込み層は、交互に配置される。また、該例において、ＲｅＬＵは、畳み込み層の前に配置される。例えば、前記残差ユニットは、２つのＲｅＬＵ及び２つの畳み込み層を備えてもよい。

本実例において、前記予測フレーム生成ネットワークは、プーリング層を更に備える。プーリング層は、プーリング操作により画像フレームをダウンサンプリングする。アップサンプリング層は、プーリング層に対応する層である。プーリング層とアップサンプリング層は、互いに逆となる操作を行う。アップサンプリング過程において、双線形補間によりアップサンプリングを行う。

残差符号化ネットワーク（前記残差符号化サブモジュールに対応する）及び残差復号ネットワーク（前記残差復号サブモジュールに対応する）は図６に示す通りである。

予測フレーム及びオリジナルフレームに基づいて、対応する残差情報

を得る。

を残差エンコーダに入力し、残差特徴

を得て、計量化を行い、

を得る。

を残差デコーダに入力し、

を得る。残差符号化ネットワーク及び残差復号ネットワークとして、現在のピクチャ圧縮に関わるネットワークを用いてもよい。

エントロピー符号化を行う。計量化された運動特徴

及び計量化された残差特徴

を対応するコードレート推定ネットワークに入力し、対応するコードワード数を得る。

本出願の実施例は電子機器を提供する。前記電子機器は、
情報を記憶するように構成されるメモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータの実行可能な命令を実行することによって、前記１つ又は複数の技術的解決手段で提供されるビデオ圧縮処理方法を実現させ、例えば図１、図２Ａ、図２Ｂ、図３、図４、図５、図６、図８、図９及び図１０に示した方法のうちの１つ又は複数を実現させるように構成されるプロセッサとを備える。

該メモリは、ランダムメモリ、読み取り専用メモリ、フラッシュのような様々なメモリであってもよい。前記メモリは、情報記憶に用いられ、例えば、コンピュータの実行可能な命令などの記憶に用いられる。前記コンピュータの実行可能な命令は、ターゲットプログラム命令及び／又はソースプログラム命令などのような様々なプログラム命令であってもよい。

前記プロセッサは、中央演算処理装置、マイクロプロセッサ、デジタル信号プロセッサ、プログラマブルアレイ、デジタル信号プロセッサ、特定用途向け集積回路又は画像処理装置などのような様々なプロセッサであってもよい。前記プロセッサは、バスを経由して前記メモリに接続される。前記バスは、集積回路バスなどであってもよい。

本実施例において、前記電子機器は、デスクトップコンピュータ、ノートパソコン、タブレット又はウェアラブル機器などのような、前記ペイントクライアントを実行している様々なタイプの電子機器であってもよい。

幾つかの実施例において、前記端末装置は、通信インタフェースを更に備えてもよい。該通信インタフェースは、ローカルエリアネットワーク、送受信アンテナなどのようなネットワークインタフェースであってもよい。前記通信インタフェースも、前記プロセッサに接続され、情報送受信に用いられる。

幾つかの実施例において、前記端末装置は、ヒューマンインタラクティブインタフェースを更に備える。例えば、前記ヒューマンインタラクティブインタフェースは、キーボード、タッチパネルなどのような様々な入力出力装置を含んでもよい。

本出願の実施例は、コンピュータ記憶媒体を提供する。前記コンピュータ記憶媒体には、コンピュータによる実行可能なコードが記憶されており、前記コンピュータによる実行可能なコードが実行されてから、前記１つ又は複数の技術的解決手段で提供されるビデオ圧縮処理方法を実現させ、例えば図１、図２Ａ、図２Ｂ、図３、図４、図５、図６、図８、図９及び図１０に示した方法のうちの１つ又は複数を実現させる。

前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ-ｏｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。前記記憶媒体は、非一時的記憶媒体であってもよい。

本出願の実施例は、コンピュータプログラム製品を提供する。前記プログラム製品は、コンピュータの実行可能な命令を含み、前記コンピュータの実行可能な命令が実行されてから、前記いずれかの実施例で提供されるビデオ圧縮処理方法を実現させ、例えば図１、図２Ａ、図２Ｂ、図３、図４、図５、図６、図８、図９及び図１０に示した方法のうちの１つ又は複数を実現させる。

本出願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインターフェイス、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。

分離部材として説明した該ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。

また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、２つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットはハードウェアとして実現してもよく、ハードウェアとソフトウェア機能ユニットとの組み合わせて実現してもよい。

上記各方法に係る実施例の全部又は一部のステップはプログラム命令に係るハードウェアにより実現され、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶され、該プログラムが実行される時、上記方法の実施例におけるステップを実行し、前記記憶媒体は、携帯型記憶装置、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ-ｏｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含むことは、当業者であれば理解されるべきである。

以上は本発明の具体的な実施形態に過ぎず、本発明の保護の範囲はそれらに制限されるものではなく、当業者が本発明に開示された技術範囲内で容易に想到しうる変更や置換はいずれも、本発明の保護範囲内に含まれるべきである。従って、本発明の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。

Claims

ビデオ圧縮処理方法であって、
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることを含む、ビデオ圧縮処理方法。
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることは、
現在のオリジナルフレーム及び１つ前の再構成フレームに基づいて第１運動情報を取得することと、
前記第１運動情報及び前記１つ前の再構成フレームに基づいて現在の予測フレームを得ることと、
前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第１残差情報を得、前記第１運動情報及び前記第１残差情報が、前記ビデオ圧縮情報を形成するためのものであることと、を含むことを特徴とする
請求項１に記載の方法。
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得ることは、
第１残差情報及び前記現在の予測フレームに基づいて、現在の再構成フレームを得て、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第１運動情報を取得するために用いられることを更に含むことを特徴とする
請求項２に記載の方法。
前記第１運動情報及び前記１つ前の再構成フレームに基づいて現在の予測フレームを得ることは、
第１運動情報に基づいて運動特徴を得ることと、
前記運動特徴に基づいて復号を行い、第２運動情報を得ることと、
前記１つ前の再構成フレーム及び前記第２運動情報に基づいて、前記現在の予測フレームを得ることとを含むことを特徴とする
請求項２又は３に記載の方法。
第１運動情報に基づいて運動特徴を得ることは、
前記第１運動情報に対して符号化を行い、第１運動特徴を得ることを含み、
前記方法は、
前記第１運動特徴を計量化し、第２運動特徴を得ることを更に含み、
前記運動特徴に基づいて復号を行い、第２運動情報を得ることは、
前記第２運動特徴を復号し、再構成された第２運動情報を得ることを含むことを特徴とする
請求項４に記載の方法。
前記第１運動情報に対して符号化を行い、第１運動特徴を得ることは、
第１畳み込み層によって前記第１運動情報に対して畳み込みを行い、第１符号化値を得ることと、
第１正規化層によって前記第１符号化値を正規化し、第１正規化値を得ることと、
第ｎ畳み込み層によって第ｎ−１正規化層から出力された第ｎ−１正規化値に対して畳み込みを行い、第ｎ符号化値を得ることと、
第ｎ正規化層によって第ｎ符号化値に対して正規化処理を行い、第ｎ正規化値を得ることと、
第Ｎ畳み込み層によって第Ｎ−１正規化値に対して正規化処理を行い、前記第１運動特徴を得ることとを含み、
ここで、ｎは、１より大きくてＮより小さい正整数であり、Ｎは畳み込み層の数であることを特徴とする
請求項５に記載の方法。
前記第２運動特徴を復号し、再構成された第２運動情報を得ることは、
第１逆畳み込み層によって前記第１運動特徴に対して逆畳み込みを行い、第１復号値を得ることと、
第１逆正規化層によって前記第１復号値に対して逆正規化処理を行い、第１逆正規化値を得ることと、
第ｎ逆畳み込み層によって第ｎ−１逆正規化層から出力された第ｎ−１逆正規化値に対して逆畳み込みを行い、第ｎ復号値を得ることと、
第ｎ逆正規化層によって第ｎ復号値に対して正規化処理を行い、第ｎ逆正規化値を出力することと、
第Ｎ逆畳み込み層によって第Ｎ−１逆正規化値に対して逆畳み込みを行い、前記第２運動情報を得ることとを含んでもよく、
ここで、ｎは１より大きくてＮより小さい正整数であり、Ｎは逆畳み込み層の数であることを特徴とする
請求項６に記載の方法。
前記方法は、
前記第１残差情報に対して符号化を行い、第１残差特徴を得ることと、
前記第１残差特徴に対して計量化を行い、第２残差特徴を得ることとを更に含み、
ここで、前記第２残差特徴と前記第１運動情報に基づいて得られた第２運動特徴とは、前記ビデオ圧縮情報の構成部分であることを特徴とする
請求項２から７のいずれか一項に記載の方法。
前記１つ前の再構成フレーム及び第２運動情報に基づいて、現在の予測フレームを得ることは、
前記１つ前の再構成フレーム、前記第２運動情報及び投影フレームを組み合わせ、第１組み合わせフレームを得、前記投影フレームが、前記１つ前の再構成フレーム及び前記第２運動情報に基づいて畳み込みを行って生成されたものであることと、
前記第１組み合わせフレームに対して畳み込みを行い、第１畳み込みフレームを得ることと、
前記第１畳み込みフレームに基づいて、Ｓ＋１回の第１残差処理及びＳ回のプーリング処理を行い、第１中間フレームを得、前記第１残差処理と前記プーリング処理が交互に実行されることと、
前記第１中間フレームに対して、Ｓ＋１回の第２残差処理及びＳ回のアップサンプリング処理を行い、第２中間フレームを得、前記第２残差処理と前記アップサンプリング処理が交互に実行されることと、
前記第２中間フレームに対して第２畳み込み処理を行い、第２畳み込みフレームを得ることと、
前記第２畳み込みフレームに対して第３畳み込み処理を行い、前記現在の予測フレームを得ることとを含むことを特徴とする
請求項８に記載の方法。
前記アップサンプリング処理は、双線形補間法を利用することを特徴とする
請求項９に記載の方法。
前記エンドツーエンドモデルの損失値は、前記損失関数を利用して、第１運動情報、前記第１残差情報、現在のオリジナルフレーム及び現在の予測フレームに基づいて決定されたものであることを特徴とする
請求項１から１０のいずれか一項に記載の方法。
ビデオ圧縮処理装置であって、
単一損失関数により訓練して得られたエンドツーエンドモデルを利用してビデオ圧縮を行い、ビデオ圧縮情報を得るように構成されるビデオ圧縮モジュールを備える、ビデオ圧縮処理装置。
前記ビデオ圧縮モジュールは、
現在のオリジナルフレーム及び１つ前の再構成フレームに基づいて第１運動情報を取得するように構成される運動推定モジュールと、
前記第１運動情報及び前記１つ前の再構成フレームに基づいて現在の予測フレームを得るように構成される現在の予測フレームモジュールと、
前記現在のオリジナルフレーム及び前記現在の予測フレームに基づいて、第１残差情報を得るように構成される残差処理モジュールであって、前記第１運動情報及び前記第１残差情報が、前記ビデオ圧縮情報を形成するためのものである残差処理モジュールと、を備えることを特徴とする
請求項１２に記載の装置。
前記ビデオ圧縮モジュールは、
第１残差情報及び前記現在の予測フレームに基づいて現在の再構成フレームを得るように構成される再構成フレームモジュールを更に備え、前記現在の再構成フレーム及び次のオリジナルフレームが、共同で次のオリジナルフレームを圧縮するための第１運動情報を取得するために用いられることを特徴とする
請求項１３に記載の装置。
前記現在の予測フレームモジュールは、第１運動情報に基づいて運動特徴を得て、前記運動特徴に基づいて復号を行い、第２運動情報を得て、１つ前の再構成フレーム及び前記第２運動情報に基づいて、現在の予測フレームを得るように構成されることを特徴とする
請求項１３又は１４に記載の装置。
前記現在の予測フレームモジュールは、
前記第１運動情報に対して符号化を行い、第１運動特徴を得るように構成される運動情報符号化サブモジュールと、
前記第１運動特徴を計量化し、第２運動特徴を得るように構成される第１計量化サブモジュールと、
前記第２運動特徴を復号し、再構成された第２運動情報を得るように構成される運動情報復号サブモジュールと、
前記１つ前の再構成フレーム及び第２運動情報に基づいて、現在の予測フレームを得るように構成される運動補償サブモジュールとを備えることを特徴とする
請求項１５に記載の装置。
前記運動情報符号化サブモジュールは、
前記第１運動情報に対して畳み込みを行い、第１符号化値を得るように構成される第１畳み込み層と、
前記第１符号化値を正規化し、第１正規化値を得るように構成される第１正規化層と、
第ｎ−１正規化層から出力された第ｎ−１正規化値に対して畳み込みを行い、第ｎ符号化値を得るように構成される第ｎ畳み込み層と、
第ｎ符号化値に対して正規化処理を行い、第ｎ正規化値を得るように構成される第ｎ正規化層と、
第Ｎ−１逆正規化値に対して逆畳み込みを行い、前記第２運動特徴を得るように構成される第Ｎ逆畳み込み層とを備え、
ここで、ｎは、１より大きくてＮより小さい正整数であり、Ｎは逆畳み込み層の数であることを特徴とする
請求項１６に記載の装置。
前記運動情報復号サブモジュールは、
前記第１運動特徴に対して逆畳み込みを行い、第１復号値を得るように構成される第１逆畳み込み層と、
前記第１復号値に対して逆正規化処理を行い、第１逆正規化値を得るように構成される第１逆正規化層と、
第ｎ−１逆正規化層から出力された第ｎ−１逆正規化値に対して逆畳み込みを行い、第ｎ復号値を得るように構成される第ｎ逆畳み込み層と、
第ｎ復号値に対して正規化処理を行い、第ｎ逆正規化値を出力するように構成される第ｎ逆正規化層と、
第Ｎ−１逆正規化値に対して逆畳み込みを行い、前記第２運動情報を得るように構成される第Ｎ逆畳み込み層とを備え、
ここで、ｎは１より大きくてＮより小さい正整数であり、Ｎは逆畳み込み層の数であることを特徴とする
請求項１６又は１７に記載の装置。
前記残差処理モジュールは、
前記第１残差情報に対して符号化を行い、第１残差特徴を得るように構成される残差符号化サブモジュールと、
前記第１残差特徴に対して計量化を行い、第２残差特徴を得るように構成される第２計量化サブモジュールとを更に備え、
ここで、前記第２残差特徴と前記第１運動情報に基づいて得られた第２運動特徴とは、前記ビデオ圧縮情報の構成部分であることを特徴とする
請求項１３から１８のいずれか一項に記載の装置。
前記運動補償サブモジュールは、
前記１つ前の再構成フレーム、前記第２運動情報及び投影フレームを組み合わせ、第１組み合わせフレームを得るように構成される組み合わせ層であって、前記投影フレームが、前記１つ前の再構成フレーム及び前記第２運動情報に基づいて畳み込みを行って生成されたものである組み合わせ層と、
前記第１組み合わせフレームに対して畳み込みを行い、第１畳み込みフレームを得るように構成される第１畳み込み層と、
前記第１畳み込みフレームに基づいて、Ｓ＋１回の第１残差処理及びＳ回のプーリング処理を行い、第１中間フレームを得るように構成される第１中間処理ユニットであって、前記第１残差処理と前記プーリング処理が交互に実行される第１中間処理ユニットと、
前記第１中間フレームに対して、Ｓ＋１回の第２残差処理及びＳ回のアップサンプリング処理を行い、第２中間フレームを得るように構成される第２中間処理ユニットであって、前記第２残差処理と前記アップサンプリング処理が交互に実行される第２中間処理ユニットと、
前記第２中間フレームに対して第２畳み込み処理を行い、第２畳み込みフレームを得るように構成される第２畳み込み層と、
前記第２畳み込みフレームに対して第３畳み込み処理を行い、前記現在の予測フレームを得るように構成される第３畳み込み層とを備えることを特徴とする
請求項１９に記載の装置。
前記アップサンプリング処理は、双線形補間法を利用することを特徴とする
請求項２０に記載の装置。
前記エンドツーエンドモデルの損失値は、前記損失関数を利用して、第１運動情報、第１残差情報、現在のオリジナルフレーム及び現在の予測フレームに基づいて決定されたものであることを特徴とする
請求項１２から２１のいずれか一項に記載の装置。
電子機器であって、
メモリと、
前記メモリに接続され、前記メモリに記憶されているコンピュータの実行可能な命令を実行することによって、請求項１から１１のいずれか一項に記載のビデオ圧縮処理方法を実現させるように構成されるプロセッサと、を備える、電子機器。
コンピュータ記憶媒体であって、前記コンピュータ記憶媒体には、コンピュータの実行可能な命令が記憶されており、前記コンピュータの実行可能な命令がプロセッサにより実行される時に、請求項１から１１のいずれか一項に記載のビデオ圧縮処理方法を実現させる、コンピュータ記憶媒体。
プログラムであって、コンピュータに、請求項１から１１のいずれか一項に記載のビデオ圧縮処理方法を実行させる、プログラム。