JP2023081099A - 学習装置、映像処理装置、送受信装置、及び送受信システム - Google Patents

学習装置、映像処理装置、送受信装置、及び送受信システム Download PDF

Info

Publication number
JP2023081099A
JP2023081099A JP2021194800A JP2021194800A JP2023081099A JP 2023081099 A JP2023081099 A JP 2023081099A JP 2021194800 A JP2021194800 A JP 2021194800A JP 2021194800 A JP2021194800 A JP 2021194800A JP 2023081099 A JP2023081099 A JP 2023081099A
Authority
JP
Japan
Prior art keywords
video
unit
downscaling
learning
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021194800A
Other languages
English (en)
Inventor
大地 新井
Daichi Arai
俊輔 岩村
Shunsuke Iwamura
敦郎 市ヶ谷
Atsuro Ichigaya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2021194800A priority Critical patent/JP2023081099A/ja
Publication of JP2023081099A publication Critical patent/JP2023081099A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ダウンスケーリング及びアップスケーリングの学習を、高解像度映像を用いてend-to-endで行う。【解決手段】学習機能を有し、入力された学習用映像をダウンスケーリングして低解像度映像を生成するダウンスケーリング部と、前記低解像度映像を符号化しビットストリームへ変換するニューラルネットワーク映像符号化部と、前記ビットストリームを復号して低解像度符号化復号映像を生成するニューラルネットワーク映像復号部と、学習機能を有し、前記低解像度符号化復号映像をアップスケーリングして高解像度符号化復号映像を出力するアップスケーリング部とを備えた学習装置において、出力された前記高解像度符号化復号映像が前記学習用映像と一致するように、前記ダウンスケーリング部及び前記アップスケーリング部の少なくとも一方の機械学習を行うことを特徴とする。【選択図】図1

Description

本発明は、学習装置、映像処理装置、送受信装置、及び送受信システムに関し、特に、映像のダウンスケーリング又はアップスケーリングを行う学習装置、映像処理装置、送受信装置、及び送受信システムに関する。
4K映像や8K映像などの高解像度映像を、利用可能な帯域幅の小さい伝送路で送信する場合、送信側で映像のダウンスケーリングを行ってからHEVC(High Efficiency Video Coding)方式又はVVC(Versatile Video Coding)方式などの映像符号化方式により圧縮して送信し、受信側でアップスケーリングすることで、符号化効率が向上することが知られている(非特許文献1)。
図11は、8K映像をダウンスケーリングして送信する送受信システムの概念図である。図11の送受信システムは、ダウンスケーラー1と、エンコーダ2と、デコーダ3と、アップスケーラー4とを備えており、送信側に8K映像が入力され、受信側で8K再構成映像を出力する。
ダウンスケーラー1は、入力された8K映像を1/2ダウンスケーリングして4K映像を生成し、エンコーダ2に出力する。先行研究(非特許文献1)では、送信側のダウンスケーリングにはバイキュービック法を用いている。
エンコーダ2は、ダウンスケーリングされた4K映像を符号化する。符号化方式としては、HEVC方式又はVVC方式等、一般的な映像符号化技術を用いることができる。エンコーダ2は、4K映像を伝送路の帯域幅に合わせたビットストリームに変換し、ビットストリームを送信する。
デコーダ3は、ビットストリームを受信し、エンコーダ2の符号化方式に対応した方式で復号する。ここでは、デコーダ3は4K復号映像を生成し、これをアップスケーラー4に出力する。
アップスケーラー4は、入力された4K復号映像を2倍にアップスケーリングして、8K映像(再構成映像)を生成する。先行研究では、受信側で4K映像を8K映像にアップスケーリングする手法はランチョス法を用いている。この解像度変換と符号化を組み合わせることで、解像度変換を施さずに8K映像を符号化して送信する手法と比べて、符号化効率が向上する。すなわち、同じ帯域幅であれば画像品質を向上させることができ、同じ画像品質であれば伝送するための帯域幅を抑えることができる。
また、ランチョス法の代わりにニューラルネットワークによる超解像手法を用いることで、ランチョス法よりも符号化効率が向上することが、先行研究により示されている。先行研究では、超解像手法としてSRFBN(Super-Resolution with Feedback Network:非特許文献2)というニューラルネットワークモデルをアップスケーリングに用いている。一般的に超解像のニューラルネットワークモデルの学習には、入力は原画である高解像度映像に対してダウンスケーリングを施した低解像度映像、出力は原画である高解像度映像を用いるが、HEVC方式やVVC方式の符号化劣化の特徴をニューラルネットワークモデルに学習させるために、入力を原画である高解像度映像をダウンスケーリングした後に符号化・復号した低解像度復号映像とし、出力(正解データ)を原画である高解像度映像としてもよい。
Charles Bonnineau, Wassim Hamidouche, Jean-Francois Travers and Olivier Deforges, "Versatile Video Coding and Super-Resolution for Efficient Delivery of 8K Video with 4K Backward-Compatibility", In ICASSP 2020, pp.2048-2052. Zhen Li, Jinglei Yang, Zheng Liu, Xiaomin Yang, Gwanggil Jeon, and Wei Wu, "Feedback network for image Super-Resolution", In CVPR 2019. (arXiv:1903.09814) Heewon Kim, Myungsub Choi, Bee Lim, and Kyoung Mu Lee, "Task-Aware Image Downscaling", In ECCV 2018. Mingqing Xiao, Shuxin Zheng, Chang Liu, Yaolong Wang, Di He, Guolin Ke, Jiang Bian, Zhouchen Lin, and Tie-Yan Liu, "Invertible Image Rescaling", In ECCV 2020. (arXiv:2005.05650) Guo Lu, Wanli Ouyang, Dong Xu, Xiaoyun Zhang, Chunlei Cai and Zhiyong Gao, "DVC: An End-to-end Deep Video Compression Framework", In CVPR 2019. (arXiv:1812.00101)
これまでの研究では、受信側のアップスケーリングにニューラルネットワークによる超解像手法を用いることで符号化効率を向上させているが、送信側のダウンスケーリングにはバイキュービック法を用いており、送信側のダウンスケーリングでニューラルネットワークを用いて符号化効率を向上させる試みは行われていない。
受信側でアップスケーリングを行うニューラルネットワークの学習では、入力を原画である高解像度映像をダウンスケーリングした後に符号化・復号した低解像度映像とし、出力(正解データ)を原画である高解像度映像とすることで、一応の学習を行うことが可能である。一方、送信側でダウンスケーリングを行うニューラルネットワークの学習を行う場合、ダウンスケーリングのみならず、符号化及び復号を通してend-to-endで学習を行う必要がある。しかし、HEVC方式やVVC方式などの映像符号化方式ではニューラルネットワークの学習法である誤差逆伝搬法を用いることができないため、送信側でダウンスケーリングを行うニューラルネットワークの学習を行うことができない。
したがって、上記のような問題点に鑑みてなされた本発明の目的は、ダウンスケーリング及びアップスケーリングの学習を、符号化・復号を含めてend-to-endで行うことができる学習装置を提供するとともに、HEVC方式やVVC方式などの映像符号化方式により映像を圧縮・送信する場合においても、従来の解像度変換と比較して、符号化効率を向上させることができる映像処理装置、送受信装置、及び送受信システムを提供することにある。
なお、本明細書において、高解像度映像とは、ダウンスケーリングを行う前の映像であって、ダウンスケーリング後の映像よりも高い解像度の映像のことをいう。また、低解像度映像とは、ダウンスケーリング後又はアップスケーリング前の映像であって、ダウンスケーリング前又はアップスケーリング後の映像よりも低い解像度の映像を意味する。
上記課題を解決するために本発明に係る学習装置は、学習機能を有し、入力された学習用映像をダウンスケーリングして低解像度映像を生成するダウンスケーリング部と、前記低解像度映像を符号化しビットストリームへ変換するニューラルネットワーク映像符号化部と、前記ビットストリームを復号して低解像度符号化復号映像を生成するニューラルネットワーク映像復号部と、学習機能を有し、前記低解像度符号化復号映像をアップスケーリングして高解像度符号化復号映像を出力するアップスケーリング部とを備え、出力された前記高解像度符号化復号映像が前記学習用映像と一致するように、前記ダウンスケーリング部及び前記アップスケーリング部の少なくとも一方の機械学習を行うことを特徴とする。
また、前記学習装置は、前記ダウンスケーリング部及び前記アップスケーリング部が、ニューラルネットワークで構成されることが望ましい。
上記課題を解決するために本発明に係る学習装置は、学習機能を有し、入力された学習用映像をダウンスケーリングして低解像度映像を生成するダウンスケーリング部と、前記低解像度映像を符号化しビットストリームへ変換するニューラルネットワーク映像符号化部と、前記ビットストリームを復号して低解像度符号化復号映像を出力するニューラルネットワーク映像復号部とを備え、出力された前記低解像度符号化復号映像が、前記学習用映像を所定の演算処理によりダウンスケーリングして生成した低解像度映像と一致するように、少なくとも前記ダウンスケーリング部の機械学習を行うことを特徴とする。
上記課題を解決するために本発明に係る映像処理装置は、入力された映像をダウンスケーリングして低解像度映像を生成する学習済みモデルを備えたダウンスケーリング部を有し、画像縮小を行う映像処理装置であって、前記学習済みモデルは、ダウンスケーリング部、符号化部、復号部、及びアップスケーリング部を全てニューラルネットワークで構成し、一連の処理の後のアップスケーリング部からの出力映像がダウンスケーリング部への入力映像と一致するように機械学習を行った、ダウンスケーリング部の学習済みモデルであることを特徴とする。
上記課題を解決するために本発明に係る映像処理装置は、入力された映像をダウンスケーリングして低解像度映像を生成する学習済みモデルを備えたダウンスケーリング部を有し、画像縮小を行う映像処理装置であって、前記学習済みモデルは、ダウンスケーリング部、符号化部、及び復号部を全てニューラルネットワークで構成し、入力映像の一連の処理後の復号部からの出力映像が、前記入力映像を所定の演算処理によりダウンスケーリングして生成した映像と一致するように機械学習を行った、ダウンスケーリング部の学習済みモデルであることを特徴とする。
上記課題を解決するために本発明に係る送信装置は、入力された映像をダウンスケーリングする前記映像処理装置と、前記映像処理装置からの出力映像を所定の符号化方式で符号化しビットストリームへ変換する映像符号化部とを備えることを特徴とする。
また、前記送信装置は、前記所定の符号化方式は、HEVC方式又はVVC方式であることが望ましい。
上記課題を解決するために本発明に係る映像処理装置は、入力された映像をアップスケーリングして高解像度映像を生成する学習済みモデルを備えたアップスケーリング部を有し、画像拡大を行う映像処理装置であって、前記学習済みモデルは、ダウンスケーリング部、符号化部、復号部、及びアップスケーリング部を全てニューラルネットワークで構成し、一連の処理の後のアップスケーリング部からの出力映像がダウンスケーリング部への入力映像と一致するように機械学習を行った、アップスケーリング部の学習済みモデルであることを特徴とする。
上記課題を解決するために本発明に係る受信装置は、入力されたビットストリームを所定の符号化方式で復号し、符号化復号映像を生成する映像復号部と、前記符号化復号映像をアップスケーリングする前記映像処理装置とを備えることを特徴とする。
上記課題を解決するために本発明に係る送受信システムは、前記送信装置と、前記受信装置を備えることを特徴とする。
本発明における学習装置によれば、ダウンスケーリング及びアップスケーリングの学習を、符号化・復号を含めてend-to-endで行うことができる。また、本発明の映像処理装置、送受信装置、及び送受信システムによれば、HEVC方式やVVC方式などの映像符号化方式により映像を圧縮・送信する場合においても、従来の解像度変換と比較して、符号化効率を向上させることができる。
本発明の第1の実施形態の学習装置のブロック図の例である。 第1の実施形態の学習装置の学習アルゴリズムの例を示すフローチャートである。 学習済みモデルを用いて推論を行うシステムのブロック図の例である。 第1の実施形態の変形例の学習装置のブロック図の例である。 第1の実施形態の変形例の学習装置の学習アルゴリズムの例を示すフローチャートである。 本発明の第2の実施形態の映像処理装置のブロック図の例である。 本発明の第3の実施形態の送信装置のブロック図の例である。 本発明の第4の実施形態の映像処理装置のブロック図の例である。 本発明の第5の実施形態の受信装置のブロック図の例である。 本発明と従来手法の符号化結果から算出したRDカーブである。 8K映像をダウンスケーリングして送信する送受信システムの概念図である。
以下、本発明の実施の形態について、図面を用いて説明する。
(第1の実施形態)
本発明の第1の実施形態である学習装置は、ダウンスケーリング、符号化、復号、及びアップスケーリングを行うことによって高解像度映像を伝送するシステムの学習を行う。
図1は、本発明の第1の実施形態の学習装置のブロック図の例である。学習装置100は、フレーム取得部10と、ダウンスケーリング部21と、ニューラルネットワーク映像符号化部22と、ニューラルネットワーク映像復号部23と、アップスケーリング部24と、誤差判定部30とを備えている。このうち、ダウンスケーリング部21、ニューラルネットワーク映像符号化部22、ニューラルネットワーク映像復号部23、及びアップスケーリング部24が、全体として学習ブロック20を構成する。
学習装置100の入力は、4K映像や8K映像などの原画となる高解像度映像であり、学習用映像として用いる。ここで、映像とは静止画像であってもよい。また、本発明において、画像とは動画像(映像)を含む。学習装置100の出力は、学習済みのモデル(例えば、ニューラルネットワークのパラメータ)であり、学習ブロック20(特に、ダウンスケーリング部21とアップスケーリング部24)の最適パラメータを出力する。
この学習装置100は、全体を一つのコンピュータとプログラムにより構成することができる。なお、必要に応じて、各ブロックを独立したコンピュータとプログラムで構成してもよい。以下、各構成について説明する。
フレーム取得部10は、入力された学習用映像を取得し、一時的に保持する。フレーム取得部10は、保持した映像のフレームを、順次、ダウンスケーリング部21に出力する。また、保持した映像のフレームを、教師データ(正解データ)として誤差判定部30に出力する。
ダウンスケーリング部21は、学習機能を有しており、例えば、ニューラルネットワークで構成される。ダウンスケーリング部21は、入力の原画である高解像度映像を低解像度映像にダウンスケーリングし、ニューラルネットワーク映像符号化部22に出力する。本実施形態では、例えば、8K映像を4K映像に、すなわち1/2倍の解像度となるようにダウンスケーリングを施すが、3/4倍又は1/4倍など任意の解像度へダウンスケーリングを施してもよい。
ダウンスケーリング部21のニューラルネットワークのモデルは、入力が高解像度映像、出力が低解像度映像となるニューラルネットワークであれば任意のモデルを用いてもよいが、本実施形態ではニューラルネットワークによる解像度変換の手法であるTAD(Task-Aware Downscaling:非特許文献3)又は、ウェーブレット変換とニューラルネットワークを組み合わせた解像度変換の手法であるIRN(Invertible Rescaling Network:非特許文献4)を用いる。
ニューラルネットワーク映像符号化部22は、入力映像(本実施形態では、ダウンスケーリング部21の出力である低解像度映像)を符号化してビットストリームへ変換し、生成したビットストリームをニューラルネットワーク映像復号部23に出力する。
ニューラルネットワーク映像符号化部22のモデルは、任意のニューラルネットワークで構成される映像符号化方式を用いてもよいが、HEVC方式やVVC方式などの映像符号化方式を推論時に用いたときに映像符号化効率を向上させるために、DVC(Deep Video Compression:非特許文献5)モデルのようなHEVC方式やVVC方式と同様なアーキテクチャを持つニューラルネットワークモデルを用いることが望ましい。DVCモデルはHEVC方式やVVC方式と同様にブロック単位で動き予測や動き補償を行い、変換・量子化・エントロピー符号化を一貫してニューラルネットワークで行うモデルである。ニューラルネットワーク映像符号化部22は、設定された帯域幅に対応するビットストリームとなるように、映像を圧縮符号化する。
ニューラルネットワーク映像復号部23は、ニューラルネットワーク映像符号化部22で符号化されたビットストリームを復号し、復号された映像(符号化復号映像と言うことがある。)をアップスケーリング部24へ出力する。本実施形態では、低解像度符号化復号映像が生成される。ニューラルネットワーク映像復号部23は、ニューラルネットワークで構成される映像符号化方式を用いるが、ニューラルネットワーク映像符号化部22で用いた同一の映像符号化方式(符号化モデル)を復号にも用いる。
アップスケーリング部24は、学習機能を有しており、例えば、ニューラルネットワークで構成される。アップスケーリング部24は、ニューラルネットワーク映像復号部23の出力である低解像度符号化復号映像を、高解像度符号化復号映像へアップスケーリングする。ダウンスケーリング部21で施したダウンスケーリングに応じて、低解像度符号化復号映像が原画である高解像度映像と同等の解像度となるようにアップスケーリングを行う。例えば、1/2倍の解像度となるようにダウンスケーリングを施した場合は2倍の解像度となるようなアップスケーリング、3/4倍の解像度となるようにダウンスケーリングを施した場合は4/3倍の解像度となるようなアップスケーリングを施す。
アップスケーリング部24のニューラルネットワークのモデルは、入力が低解像度映像、出力が高解像度映像となるニューラルネットワークであれば任意のモデルを用いてもよいが、本実施形態では、ニューラルネットワークによる解像度変換の手法であるTAU(Task-Aware Upscaling:非特許文献3)や、ウェーブレット変換とニューラルネットワークを組み合わせた解像度変換の手法であるIRNを用いる。
誤差判定部30は、フレーム取得部10からの入力映像(高解像度映像)を正解データとして、アップスケーリング部24の出力である高解像度符号化復号映像の誤差判定を行う。誤差判定部30は、一般的な損失関数を用いてモデルの予測精度を評価し、その結果を学習ブロック20に出力する。学習ブロック20は、誤差判定部30で計算された損失(誤差)を小さくするように、誤差逆伝播法等を用いて、アップスケーリング部24、ニューラルネットワーク映像復号部23、ニューラルネットワーク映像符号化部22、及びダウンスケーリング部21のモデルの学習(パラメータの修正)を順次行う。
なお、学習するパラメータについては、ダウンスケーリング部21、ニューラルネットワーク映像符号化部22、ニューラルネットワーク映像復号部23、アップスケーリング部24の全てのモデルのパラメータを学習(修正)してもよいし、一部のモデルのパラメータを固定して学習してもよい。例えば、ニューラルネットワーク映像符号化部22及びニューラルネットワーク映像復号部23のパラメータを固定し、ダウンスケーリング部21とアップスケーリング部24の最適化を行ってもよい。学習装置100は、ダウンスケーリング部21及びアップスケーリング部24の少なくとも一方の機械学習を行う。
なお、ダウンスケーリング部21のみの学習を行う場合は、受信側で計算量やハードウェアの都合でニューラルネットワークによるアップスケーリングが施せない場合を考慮して、アップスケーリング部はバイキュービック法やランチョス法などの手法をパラメータ固定のニューラルネットワークで構成してもよい。
学習用映像による学習が終了後、学習装置100は、ダウンスケーリング部21及びアップスケーリング部24の学習済みモデル、すなわち、ニューラルネットワークによるモデルの最適パラメータを出力する。
本実施形態では、HEVC方式やVVC方式などの所定の演算処理による映像符号化方式ではなく、ニューラルネットワークで構成される映像符号化方式を用いることで、ダウンスケーリング、符号化、復号、アップスケーリングの全てを通してend-to-endでの学習、すなわち、一連の処理の入力と出力に高解像度映像を用いる正確な学習を行うことができる。これにより、送信側のダウンスケーリング部21のニューラルネットワークの学習も、適正に精度よく行うことができる。また、受信側のアップスケーリング部24のニューラルネットワークの学習も、ダウンスケーリング部21と同時により精度よく行うことができる。この学習法により、送信側でバイキュービック法等の演算によるダウンスケーリングを行うことと比較して、システム全体の符号化効率を向上させることができる。
図2に、本実施形態の学習装置100の学習アルゴリズムの例をフローチャートで示す。以下、各ステップについて説明する。
ステップS11:学習装置100は、学習用映像である高解像度映像を取得する。学習装置100のフレーム取得部10は、取得した高解像度映像をダウンスケーリング部21に出力する。
ステップS12:学習装置100のダウンスケーリング部21は、高解像度映像を低解像度映像にダウンスケーリングする。
ステップS13:学習装置100のニューラルネットワーク映像符号化部22は、低解像度映像を符号化し、ビットストリームに変換して出力する。
ステップS14:学習装置100のニューラルネットワーク映像復号部23は、符号化されたビットストリームを復号し、低解像度符号化復号映像を生成する。
ステップS15:学習装置100のアップスケーリング部24は、生成された低解像度符号化復号映像を、高解像度符号化復号映像へアップスケーリングする。
ステップS16:学習装置100の誤差判定部30は、フレーム取得部10からの高解像度映像を教師データ(正解データ)として、アップスケーリング部24の出力である高解像度符号化復号映像の誤差を判定する。
ステップS17:学習装置100は、誤差判定部30の誤差に基づいて、学習ブロック20(ダウンスケーリング部21、ニューラルネットワーク映像符号化部22、ニューラルネットワーク映像復号部23、及びアップスケーリング部24)の学習を行い、各部のパラメータを修正する。
ステップS18:学習装置100は、所定の学習終了条件(例えば、誤差の程度、学習回数等)を満たすか判定し、満たさない場合は最初(ステップS11)に戻り、満たす場合は学習処理を終了し、学習済みモデル(最適パラメータ)を出力する。
本発明の学習装置100による学習ブロック20の学習は、上記の学習アルゴリズムに基づいて行う。
図3は、学習済みモデルを用いて推論を行うシステムのブロック図の例である。図3のシステムは、図1の学習装置100により学習を行った(又は学習済みの最適パラメータを移植した)学習済みのダウンスケーリング部21及びアップスケーリング部24を用いている。しかし、推論時の符号化・復号には、ニューラルネットワークではなく、HEVC方式やVVC方式などの任意の映像符号化方式で構成される映像符号化部25及び映像復号部26を用いる。これは、ダウンスケーリング部21及びアップスケーリング部24は、一般の送受信システム、すなわち、任意の映像符号化方式を用いた送信装置及び受信装置の中で使用することを想定しているからである。学習させたニューラルネットワークのモデルを用いてダウンスケーリング及びアップスケーリングを行うことで、推論時にHEVC方式やVVC方式などの映像符号化方式により圧縮し送信する場合においても、従来のバイキュービック法等の演算による解像度変換を用いた場合に比較して、符号化効率が向上する。
本システムでは、学習時と推論時で、ニューラルネットワークで構成される映像符号化方式と、HEVC方式やVVC方式等の所定の演算による映像符号化方式とを切り替える。推論を行うシステムの映像符号化部25においては、任意の量子化パラメータQPで符号化を行ってもよいが、学習時に用いたニューラルネットワークで構成される符号化方式と同等のビットレートとなるようにQPを選択してもよい。推論時の符号化の予測モードとしては、All Intra、Random Access、Low Delayのうち任意のモードを用いてもよいが、学習時の実施形態で用いたDVCが前方向の画面間予測のみを用いていることからRandom Access 又はLow Delayを用いることが望ましい。
図3のシステムによる推論について、簡単に説明する。高解像度映像が入力されると、まず、ダウンスケーリング部21は、学習済みモデルに基づいて、高解像度映像を低解像度映像にダウンスケーリングする。
次いで、映像符号化部25は、所定の映像符号化方式(例えば、HEVC方式やVVC方式)で低解像度映像を符号化し、ビットストリームを生成する。生成されたビットストリームは、映像復号部26に出力される。
映像復号部26は、映像符号化部25に対応する符号化方式(例えば、HEVC方式やVVC方式)でビットストリームを復号し、低解像度の符号化復号映像を生成する。
アップスケーリング部24は、学習済みモデルに基づいて、低解像度符号化復号映像を高解像度符号化復号映像にアップスケーリングする。こうして、学習済みモデルを用いて推論を行い、高解像度再構成映像を出力する。
図3のシステムでは、ダウンスケーリング部21とアップスケーリング部24の両者を学習済みモデルとしたが、一方のみに学習済みモデルを用いてもよい。例えば、アップスケーリング部24は、推論時にはニューラルネットワークを用いず、任意のアップスケーリングの手法を用いてよい。この場合であっても、ダウンスケーリング部21に学習済みモデルを用いることにより、送信側のダウンスケーリングにバイキュービック法を用いた場合と比較して、全体の符号化効率が向上する。
以上のように、第1の実施形態では、ダウンスケーリング、符号化、復号、及びアップスケーリングを通して、end-to-endで学習を行い、ダウンスケーリング部21とアップスケーリング部24の学習を同時に行ったが、次に、第1の実施形態の変形例として、ダウンスケーリング部21の学習を主に行う学習装置について説明する。第1の実施形態の変形例は、アップスケーリング部24を省略して、簡易な構成でダウンスケーリング部21の学習を可能としたものである。
(第1の実施形態の変形例)
本発明の第1の実施形態の変形例である学習装置は、ダウンスケーリング、符号化、及び復号を行うことによって映像を伝送するシステムの学習を行う。
図4は、第1の実施形態の変形例の学習装置のブロック図の例である。学習装置101は、フレーム取得部10と、ダウンスケーリング部21と、ニューラルネットワーク映像符号化部22と、ニューラルネットワーク映像復号部23と、低解像度映像生成部15と、誤差判定部30とを備えている。このうち、ダウンスケーリング部21、ニューラルネットワーク映像符号化部22、及びニューラルネットワーク映像復号部23が、全体として学習ブロック20を構成する。
学習装置101の入力は、4K映像や8K映像などの原画となる高解像度映像であり、学習用映像として用いる。ここで、映像とは静止画像であってもよい。学習装置101の出力は、学習済みのモデル(例えば、ニューラルネットワークのパラメータ)であり、学習ブロック20(特に、ダウンスケーリング部21)の最適パラメータを出力する。
この学習装置101は、全体を一つのコンピュータとプログラムにより構成することができる。なお、必要に応じて、各ブロックを独立したコンピュータとプログラムで構成してもよい。以下、各構成について説明するが、図1の第1の実施形態と共通の構成は、説明を簡略化する。
フレーム取得部10は、入力された学習用映像を取得し、一時的に保持する。フレーム取得部10は、保持した映像のフレームを、順次、ダウンスケーリング部21に出力する。また、保持した映像のフレームを、低解像度映像生成部15に出力する。
ダウンスケーリング部21は、学習機能を有しており、例えば、ニューラルネットワークで構成される。ダウンスケーリング部21のニューラルネットワークのモデルは、入力が高解像度映像、出力が低解像度映像となるニューラルネットワークであれば任意のモデルを用いてもよいが、第1の実施形態と同様に、TAD又はIRNを用いる。ダウンスケーリング部21は、入力の原画である高解像度映像を低解像度映像にダウンスケーリングし、ニューラルネットワーク映像符号化部22に出力する。ダウンスケーリング部21は、例えば、8K映像を4K映像に、すなわち1/2倍の解像度となるようにダウンスケーリングを施す。
ニューラルネットワーク映像符号化部22は、入力映像(ダウンスケーリング部21の出力である低解像度映像)を符号化してビットストリームへ変換し、生成したビットストリームをニューラルネットワーク映像復号部23に出力する。ニューラルネットワーク映像符号化部22のモデルは、任意のニューラルネットワークで構成される映像符号化方式を用いてもよいが、第1の実施形態と同様に、DVCモデルのようなHEVC方式やVVC方式と同様なアーキテクチャを持つニューラルネットワークモデルを用いることが望ましい。ニューラルネットワーク映像符号化部22は、設定された帯域幅に対応するビットストリームとなるように、映像を圧縮符号化する。
ニューラルネットワーク映像復号部23は、ニューラルネットワーク映像符号化部22で符号化されたビットストリームを復号する。本変形例では、伝送された映像として低解像度符号化復号映像が生成され、誤差判定部30に出力される。ニューラルネットワーク映像復号部23は、ニューラルネットワークで構成される映像符号化方式を用いるが、ニューラルネットワーク映像符号化部22で用いた同一の映像符号化方式(符号化モデル)を復号にも用いる。
低解像度映像生成部15は、バイキュービック法やランチョス法などの手法、すなわち、所定の演算処理によりダウンスケーリングを行い、低解像度映像を生成する。なお、低解像度映像生成部15は、ダウンスケーリング部21が行うダウンスケーリングの倍率と同じ倍率で(例えば、1/2倍の解像度となるように)ダウンスケーリングを施す。低解像度映像生成部15は、生成した低解像度映像を、教師データ(正解データ)として誤差判定部30に出力する。
誤差判定部30は、低解像度映像生成部15からの入力映像(低解像度映像)を正解データとして、ニューラルネットワーク映像復号部23の出力である低解像度符号化復号映像の誤差判定を行う。誤差判定部30は、一般的な損失関数を用いてモデルの予測精度を評価し、その結果を学習ブロック20に出力する。学習ブロック20は、誤差判定部30で計算された損失(誤差)を小さくするように、誤差逆伝播法等を用いて、ニューラルネットワーク映像復号部23、ニューラルネットワーク映像符号化部22、及びダウンスケーリング部21のモデルの学習(パラメータの修正)を順次行う。
なお、学習するパラメータについては、ダウンスケーリング部21、ニューラルネットワーク映像符号化部22、ニューラルネットワーク映像復号部23の全てのモデルのパラメータを学習(修正)してもよいし、一部のモデルのパラメータを固定して学習してもよい。例えば、ニューラルネットワーク映像符号化部22及びニューラルネットワーク映像復号部23のパラメータを固定し、ダウンスケーリング部21のみの最適化を行ってもよい。
学習用映像による学習が終了後、学習装置101は、ダウンスケーリング部21の学習済みモデル、すなわち、ニューラルネットワークによるモデルの最適パラメータを出力する。
本変形例では、HEVC方式やVVC方式などの所定の演算処理による映像符号化方式ではなく、ニューラルネットワークで構成される映像符号化方式を用いることで、ダウンスケーリング、符号化、復号の全てを通してend-to-endでの学習ができる。これにより、送信側のダウンスケーリング部21のニューラルネットワークの学習を、適正に精度よく行うことができる。この学習法により、送信側でバイキュービック法等の演算によるダウンスケーリングを行うことと比較して、システム全体の符号化効率を向上させることができる。
図5に、第1の実施形態の変形例の学習装置101の学習アルゴリズムの例をフローチャートで示す。なお、図5のフローチャートは、図2のフローチャートと比較して、ステップS15’が異なっている。以下、各ステップについて説明する。
ステップS11:学習装置101は、学習用映像である高解像度映像を取得する。学習装置101のフレーム取得部10は、取得した高解像度映像をダウンスケーリング部21に出力する。
ステップS12:学習装置101のダウンスケーリング部21は、高解像度映像を低解像度映像にダウンスケーリングする。
ステップS13:学習装置101のニューラルネットワーク映像符号化部22は、低解像度映像を符号化し、ビットストリームに変換して出力する。
ステップS14:学習装置101のニューラルネットワーク映像復号部23は、符号化されたビットストリームを復号し、低解像度符号化復号映像を生成する。
ステップS15’:学習装置101の低解像度映像生成部15は、フレーム取得部10からの高解像度映像に対して、バイキュービック法やランチョス法などの演算処理によるダウンスケーリング手法を用いて、低解像度映像を生成する。
ステップS16:学習装置101の誤差判定部30は、低解像度映像生成部15からの低解像度映像を教師データ(正解データ)として、ニューラルネットワーク映像復号部23の出力である低解像度符号化復号映像の誤差を判定する。
ステップS17:学習装置101は、誤差判定部30の誤差に基づいて、学習ブロック20(ダウンスケーリング部21、ニューラルネットワーク映像符号化部22、及びニューラルネットワーク映像復号部23)の学習を行い、各部のパラメータを修正する。
ステップS18:学習装置101は、所定の学習終了条件(例えば、誤差の程度、学習回数等)を満たすか判定し、満たさない場合は最初(ステップS11)に戻り、満たす場合は学習処理を終了し、学習済みモデル(最適パラメータ)を出力する。
本変形例の学習装置101による学習ブロック20の学習は、上記の学習アルゴリズムに基づいて行う。
第1の実施形態の変形例である学習装置101により学習を行った(又は学習済みの最適パラメータを移植した)学習済みのダウンスケーリング部21は、ダウンスケーリング、符号化、及び復号を行うことによって映像を伝送する任意のシステムに適用することができる。すなわち、推論時には、学習済みのダウンスケーリング部21と、ニューラルネットワークではなく、HEVC方式やVVC方式などの任意の映像符号化方式で構成される映像符号化部25及び映像復号部26からなる、映像伝送システムに用いられる。さらに、図3に示す学習済みモデルを用いて推論を行うシステムのダウンスケーリング部21として、用いることができる。学習させたニューラルネットワークのモデルを用いてダウンスケーリングを行うことで、推論時にHEVC方式やVVC方式などの映像符号化方式により圧縮し送信する場合においても、従来のバイキュービック法等の演算による解像度変換を用いた場合に比較して、符号化効率が向上する。
図6は、本発明の第2の実施形態の映像処理装置のブロック図の例である。本実施形態の映像処理装置は、画像縮小装置110である。画像縮小装置110は、フレームメモリ11と、ダウンスケーリング部21とを備えている。画像縮小装置(映像処理装置)110は、入力された映像(高解像度映像)をダウンスケーリング(画像縮小)して低解像度映像(縮小画像)を出力する。
フレームメモリ11は、入力された高解像度映像をいったん保存し、映像のフレームを順次ダウンスケーリング部21に送出する。なお、フレームメモリはダウンスケーリング部21に内在されていてもよく、独立したブロックとして必須のものではない。
ダウンスケーリング部21は、入力された映像をダウンスケーリングし、解像度を低くした低解像度映像を出力する。このダウンスケーリング部21は、図1に示す本発明の学習装置100により学習を行った学習済みモデルを備えたダウンスケーリング部21である。例えば、ダウンスケーリング部21は、ニューラルネットワークによる解像度変換の手法であるTAD又はIRNのモデルで構成され、学習装置100の出力である最適パラメータ(学習済みモデル)を移植して作成される。
或いは、このダウンスケーリング部21は、図4に示す学習装置101により学習を行った学習済みモデルを備えたダウンスケーリング部21であってもよい。例えば、ダウンスケーリング部21は、ニューラルネットワークによる解像度変換の手法であるTAD又はIRNのモデルで構成され、学習装置101の出力である最適パラメータ(学習済みモデル)を移植して作成される。
本実施形態の映像処理装置である画像縮小装置110は、符号化及び復号を行う送受信システムの送信側に適用することができる。本実施形態のダウンスケーリング部21の学習済みモデルは、ダウンスケーリング部、符号化部、復号部、及びアップスケーリング部を全てニューラルネットワークで構成し、一連の処理のend-to-endでの学習、すなわち、アップスケーリング部からの出力映像がダウンスケーリング部への入力映像と一致するように機械学習を行った、ダウンスケーリング部の学習済みモデルである。或いは、本実施形態のダウンスケーリング部21の学習済みモデルは、ダウンスケーリング部、符号化部、及び復号部を全てニューラルネットワークで構成し、一連の処理のend-to-endでの学習、すなわち、復号部からの出力映像が、入力映像を所定の演算処理によりダウンスケーリングして生成した映像と一致するように機械学習を行った、ダウンスケーリング部の学習済みモデルである。この学習済みモデルを用いてダウンスケーリングを行うことで、HEVC方式やVVC方式などの映像符号化方式により圧縮し送信する場合において、従来のバイキュービック法等の演算を用いたダウンスケーリングと比較して、符号化効率が向上する。
図7は、本発明の第3の実施形態の送信装置のブロック図の例である。送信装置120は、画像縮小装置110と、映像符号化部25とを備えている。送信装置120は、高解像度映像が入力され、ビットストリームを出力する。
画像縮小装置110は、本発明の第2の実施形態の画像縮小装置110であり、内部に学習済みモデルを備えたダウンスケーリング部21を有し、入力された高解像度映像をダウンスケーリングして、低解像度映像を出力する。
映像符号化部25は、HEVC方式やVVC方式などの任意の映像符号化方式で構成され、入力された低解像度映像を符号化し、ビットストリームを出力する。
本実施形態の送信装置120は、送受信システムの送信装置として用いることにより、従来よりも符号化効率が向上した送受信を行うことができる。
図8は、本発明の第4の実施形態の映像処理装置のブロック図の例である。本実施形態の映像処理装置は、画像拡大装置130である。画像拡大装置130は、フレームメモリ12と、アップスケーリング部24とを備えている。画像拡大装置(映像処理装置)130は、入力された映像(低解像度映像)をアップスケーリング(画像拡大)して高解像度映像(拡大画像)を出力する。
フレームメモリ12は、入力された低解像度映像をいったん保存し、映像のフレームを順次アップスケーリング部24に送出する。なお、フレームメモリはアップスケーリング部24に内在されていてもよく、独立したブロックとして必須のものではない。
アップスケーリング部24は、入力された映像をアップスケーリングし、解像度を高くした高解像度映像を出力する。このアップスケーリング部24は、図1に示す本発明の学習装置100により学習を行った学習済みモデルを備えたアップスケーリング部24である。例えば、アップスケーリング部24は、ニューラルネットワークによる解像度変換の手法であるTAU又はIRNのモデルで構成され、学習装置100の出力である最適パラメータ(学習済みモデル)を移植して作成される。
本実施形態の映像処理装置である画像拡大装置130は、符号化及び復号を行う送受信システムの受信側に適用することができる。本実施形態のアップスケーリング部24の学習済みモデルは、ダウンスケーリング部、符号化部、復号部、及びアップスケーリング部を全てニューラルネットワークで構成し、一連の処理のend-to-endでの学習、すなわち、アップスケーリング部からの出力映像がダウンスケーリング部への入力映像と一致するように機械学習を行った、アップスケーリング部の学習済みモデルである。この学習済みモデルを用いてアップスケーリングを行うことで、HEVC方式やVVC方式などの映像符号化方式により圧縮し送信された映像を受信する場合において、従来のバイキュービック法等のダウンスケーリングに対応させて学習したアップスケーリング部よりも、符号化効率をより向上させることができる。
図9は、本発明の第5の実施形態の受信装置のブロック図の例である。受信装置140は、映像復号部26と、画像拡大装置130とを備えている。受信装置140は、ビットストリームが入力され、高解像度映像を出力する。
映像復号部26は、HEVC方式やVVC方式などの送信側と対応する映像符号化方式で構成され、入力されたビットストリームを復号し、映像(本実施形態では、低解像度符号化復号映像)を出力する。
画像拡大装置130は、本発明の第4の実施形態の画像拡大装置130であり、内部に学習済みモデルを備えたアップスケーリング部24を有し、入力された低解像度映像をアップスケーリングして、高解像度映像を出力する。
本実施形態の受信装置140は、送受信システムの受信装置として用いることにより、従来よりも符号化効率が向上した送受信を行うことができる。
本発明の第6の実施形態として、第3の実施形態の送信装置と第5の実施形態の受信装置とを組み合わせることで、送受信システムを構築することができる。この送受信システムは、ダウンスケーリング、符号化、復号、及びアップスケーリングを全てニューラルネットワークで構成し、一連の処理のend-to-endでの学習、すなわち、入力と出力に高解像度映像を用いた正確な学習を行ったダウンスケーリング部21とアップスケーリング部24を、送信装置120と受信装置に140に備えているため、送受信システム全体の符号化効率を向上させることができる。
一般的に、地上デジタル放送で用いられている受信機にはアップスケーリングによる画素補間を行う機能が存在するため、例えば、これを本発明の画像拡大装置で代替することができる。本発明の映像処理装置、送受信装置、及び送受信システムを地上デジタル放送へ適用し、符号化効率を向上することが可能である。
(実験結果と効果の検証)
本発明の実験結果について示す。実験は表1に示す条件で行った。ダウンスケーリング部において、本発明はニューラルネットワークのモデルとしてTADを用いて、従来手法であるバイキュービック法との比較を行った。映像符号化方式にはVVC方式の参照用ソフトウェアであるVTM(VVC Test Model)のバージョン14.0を用いた。また、受信側で計算量やハードウェアの都合でニューラルネットワークによるアップスケーリングが施せない場合を想定し、アップスケーリング部では、本発明も従来手法もバイキュービック法を用いた。
Figure 2023081099000002
実験はJVET(Joint Video Experts Team)テストシーケンスの映像であるBQSquareを用いて行った。BQSquareは432×240の解像度であり、ダウンスケーリング部において1/2倍の解像度である216×120の解像度へ縮小した後、VTMによる符号化・復号を行い、アップスケーリング部において2倍の解像度である432×240へ拡大した。
図10は、本発明と従来手法の符号化結果から算出したRDカーブである。横軸はビットレート、縦軸は原画である高解像度映像と高解像度再構成映像を比較した際の輝度成分のPSNR(Peak signal-to-noise ratio)を表す。符号化結果からBD-Rateを算出したところ-51.89%となり、本発明が符号化効率を向上させることを確認した。
上記の第1の実施形態では、学習装置100の構成と動作について説明したが、本発明はこれに限らず、ダウンスケーリング部及びアップスケーリング部の学習を行う学習方法として構成されてもよい。すなわち、図2のフローチャートに基づいて、ダウンスケーリング、符号化、復号、及びアップスケーリングの各工程を備えた、学習方法として構成されても良い。
なお、上述した学習装置100,101又は各ブロックとして機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、学習装置100,101又は各ブロックの各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。なお、このプログラムは、コンピュータ読取り可能な記録媒体に記録可能である。
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形又は変更が可能である。例えば、実施形態に記載の各ブロック、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の構成ブロック、ステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
1 ダウンスケーラー
2 エンコーダ
3 デコーダ
4 アップスケーラー
10 フレーム取得部
11 フレームメモリ
12 フレームメモリ
15 低解像度映像生成部
20 学習ブロック
21 ダウンスケーリング部
22 ニューラルネットワーク映像符号化部
23 ニューラルネットワーク映像復号部
24 アップスケーリング部
25 映像符号化部
26 映像復号部
30 誤差判定部
100 学習装置
110 画像縮小装置
120 送信装置
130 画像拡大装置
140 受信装置

Claims (10)

  1. 学習機能を有し、入力された学習用映像をダウンスケーリングして低解像度映像を生成するダウンスケーリング部と、
    前記低解像度映像を符号化しビットストリームへ変換するニューラルネットワーク映像符号化部と、
    前記ビットストリームを復号して低解像度符号化復号映像を生成するニューラルネットワーク映像復号部と、
    学習機能を有し、前記低解像度符号化復号映像をアップスケーリングして高解像度符号化復号映像を出力するアップスケーリング部とを備え、
    出力された前記高解像度符号化復号映像が前記学習用映像と一致するように、前記ダウンスケーリング部及び前記アップスケーリング部の少なくとも一方の機械学習を行うことを特徴とする、学習装置。
  2. 請求項1の学習装置において、
    前記ダウンスケーリング部及び前記アップスケーリング部は、ニューラルネットワークで構成されることを特徴とする、学習装置。
  3. 学習機能を有し、入力された学習用映像をダウンスケーリングして低解像度映像を生成するダウンスケーリング部と、
    前記低解像度映像を符号化しビットストリームへ変換するニューラルネットワーク映像符号化部と、
    前記ビットストリームを復号して低解像度符号化復号映像を出力するニューラルネットワーク映像復号部とを備え、
    出力された前記低解像度符号化復号映像が、前記学習用映像を所定の演算処理によりダウンスケーリングして生成した低解像度映像と一致するように、少なくとも前記ダウンスケーリング部の機械学習を行うことを特徴とする、学習装置。
  4. 入力された映像をダウンスケーリングして低解像度映像を生成する学習済みモデルを備えたダウンスケーリング部を有し、画像縮小を行う映像処理装置であって、
    前記学習済みモデルは、ダウンスケーリング部、符号化部、復号部、及びアップスケーリング部を全てニューラルネットワークで構成し、一連の処理の後のアップスケーリング部からの出力映像がダウンスケーリング部への入力映像と一致するように機械学習を行った、ダウンスケーリング部の学習済みモデルであることを特徴とする、映像処理装置。
  5. 入力された映像をダウンスケーリングして低解像度映像を生成する学習済みモデルを備えたダウンスケーリング部を有し、画像縮小を行う映像処理装置であって、
    前記学習済みモデルは、ダウンスケーリング部、符号化部、及び復号部を全てニューラルネットワークで構成し、入力映像の一連の処理後の復号部からの出力映像が、前記入力映像を所定の演算処理によりダウンスケーリングして生成した映像と一致するように機械学習を行った、ダウンスケーリング部の学習済みモデルであることを特徴とする、映像処理装置。
  6. 入力された映像をダウンスケーリングする請求項4又は5に記載の映像処理装置と、
    前記映像処理装置からの出力映像を所定の符号化方式で符号化しビットストリームへ変換する映像符号化部と
    を備えることを特徴とする、送信装置。
  7. 請求項6に記載の送信装置において、
    前記所定の符号化方式は、HEVC方式又はVVC方式であることを特徴とする、送信装置。
  8. 入力された映像をアップスケーリングして高解像度映像を生成する学習済みモデルを備えたアップスケーリング部を有し、画像拡大を行う映像処理装置であって、
    前記学習済みモデルは、ダウンスケーリング部、符号化部、復号部、及びアップスケーリング部を全てニューラルネットワークで構成し、一連の処理の後のアップスケーリング部からの出力映像がダウンスケーリング部への入力映像と一致するように機械学習を行った、アップスケーリング部の学習済みモデルであることを特徴とする、映像処理装置。
  9. 入力されたビットストリームを所定の符号化方式で復号し、符号化復号映像を生成する映像復号部と、
    前記符号化復号映像をアップスケーリングする請求項8に記載の映像処理装置と
    を備えることを特徴とする、受信装置。
  10. 請求項6に記載の送信装置と、請求項9に記載の受信装置を備えることを特徴とする、送受信システム。
JP2021194800A 2021-11-30 2021-11-30 学習装置、映像処理装置、送受信装置、及び送受信システム Pending JP2023081099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021194800A JP2023081099A (ja) 2021-11-30 2021-11-30 学習装置、映像処理装置、送受信装置、及び送受信システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021194800A JP2023081099A (ja) 2021-11-30 2021-11-30 学習装置、映像処理装置、送受信装置、及び送受信システム

Publications (1)

Publication Number Publication Date
JP2023081099A true JP2023081099A (ja) 2023-06-09

Family

ID=86656397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021194800A Pending JP2023081099A (ja) 2021-11-30 2021-11-30 学習装置、映像処理装置、送受信装置、及び送受信システム

Country Status (1)

Country Link
JP (1) JP2023081099A (ja)

Similar Documents

Publication Publication Date Title
CN108848376B (zh) 视频编码、解码方法、装置和计算机设备
KR102287947B1 (ko) 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
KR102285738B1 (ko) 영상의 주관적 품질을 평가하는 방법 및 장치
US20200311870A1 (en) Apparatus and method for performing scalable video decoding
US7379496B2 (en) Multi-resolution video coding and decoding
US8340192B2 (en) Wyner-Ziv coding with multiple side information
US9723318B2 (en) Compression and decompression of reference images in a video encoder
KR102312337B1 (ko) Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
JP5285682B2 (ja) 画像符号化装置、画像符号化方法
US10368103B2 (en) Method and apparatus for image encoding/decoding
KR102500761B1 (ko) 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
US20100086048A1 (en) System and Method for Video Image Processing
EP4365820A1 (en) Video super-resolution network, and video super-resolution, encoding and decoding processing method and device
KR20100073725A (ko) 영상처리시스템에서의 영상 변환 장치 및 방법
CN113747242B (zh) 图像处理方法、装置、电子设备及存储介质
JP2023081099A (ja) 学習装置、映像処理装置、送受信装置、及び送受信システム
Jenab et al. Content-adaptive resolution control to improve video coding efficiency
JP4762486B2 (ja) マルチ・リゾルーション・ビデオ符号化および復号化
KR20190098634A (ko) 인코딩, 디코딩 방법 및 장치
JP2016525295A (ja) ビデオのマルチレベルの空間‐時間解像度上昇
US9432614B2 (en) Integrated downscale in video core
CN113556567B (zh) 帧间预测的方法和装置
US20240020884A1 (en) Online meta learning for meta-controlled sr in image and video compression
Guleryuz et al. Sandwiched Compression: Repurposing Standard Codecs with Neural Network Wrappers
JP2023005305A (ja) 画像処理装置、学習装置、方法、及びプログラム