JP2020198463A - 符号化プログラム、復号プログラム、符号化装置、復号装置、符号化方法及び復号方法 - Google Patents

符号化プログラム、復号プログラム、符号化装置、復号装置、符号化方法及び復号方法 Download PDF

Info

Publication number
JP2020198463A
JP2020198463A JP2019101629A JP2019101629A JP2020198463A JP 2020198463 A JP2020198463 A JP 2020198463A JP 2019101629 A JP2019101629 A JP 2019101629A JP 2019101629 A JP2019101629 A JP 2019101629A JP 2020198463 A JP2020198463 A JP 2020198463A
Authority
JP
Japan
Prior art keywords
image
quantization
learning
generated
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019101629A
Other languages
English (en)
Other versions
JP7318314B2 (ja
Inventor
健太朗 片山
Kentaro Katayama
健太朗 片山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019101629A priority Critical patent/JP7318314B2/ja
Priority to US16/857,225 priority patent/US11128873B2/en
Priority to EP20172404.4A priority patent/EP3745720A1/en
Priority to CN202010402038.7A priority patent/CN112019843B/zh
Publication of JP2020198463A publication Critical patent/JP2020198463A/ja
Application granted granted Critical
Publication of JP7318314B2 publication Critical patent/JP7318314B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • H04N19/82Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】ループ内フィルタのフィルタ性能を向上させる。【解決手段】符号化プログラムは、画面内予測または画面間予測により生成された予測画像と処理対象の入力画像との差分から予測残差を算出し、算出した予測残差に対して直交変換処理及び量子化処理を行った後、エントロピ符号化処理を行うコンピュータに、前記処理対象の入力画像を符号化する際、前記量子化処理において用いられた量子化パラメータと、前記量子化処理において生じる量子化誤差を含む信号と、前記画面内予測または画面間予測において生じる予測誤差を含む画像とをそれぞれ取得し、学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する、処理を実行させる。【選択図】図7

Description

本発明は、符号化プログラム、復号プログラム、符号化装置、復号装置、符号化方法及び復号方法に関する。
動画像データの圧縮符号化に関する次世代の国際標準であるVVC(Versatile Video Coding)規格では、ループ内フィルタとして、参照画像に含まれる符号化歪みを推論可能なAI(Artificial Intelligence)フィルタの適用が検討されている。
国際公開第2016/199330号明細書
しかしながら、ループ内フィルタで処理される参照画像は、画面内予測または画面間予測により生成された予測画像に、予測残差(予測画像と入力画像との差分に対して量子化処理及び逆量子化処理等を行うことで得られる予測残差)を加算することで生成される。
このため、参照画像には、画面内予測または画面間予測の際に生じる“予測誤差”と、量子化処理の際に生じる“量子化誤差”の両方が混在することになる。この結果、参照画像を入力として学習したAIフィルタの場合、充分なフィルタ性能が得られないといった事態が想定される。
一つの側面では、ループ内フィルタのフィルタ性能を向上させることを目的としている。
一態様によれば、符号化プログラムは、
画面内予測または画面間予測により生成された予測画像と処理対象の入力画像との差分から予測残差を算出し、算出した予測残差に対して直交変換処理及び量子化処理を行った後、エントロピ符号化処理を行うことで、前記処理対象の入力画像を符号化するコンピュータに、
前記処理対象の入力画像を符号化する際、前記量子化処理において用いられた量子化パラメータと、前記量子化処理において生じる量子化誤差を含む信号と、前記画面内予測または画面間予測において生じる予測誤差を含む画像とをそれぞれ取得し、
学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する、処理を実行させる。
ループ内フィルタのフィルタ性能を向上させることができる。
画像処理システムのシステム構成の一例を示す図である。 学習装置、符号化装置、復号装置のハードウェア構成の一例を示す図である。 学習装置における学習用データ生成部の機能構成及び生成した学習用データの一例を示す図である。 学習装置における学習部の機能構成の一例を示す図である。 学習装置による学習処理の流れを示すフローチャートである。 符号化装置における符号化部の機能構成の一例を示す図である。 符号化装置におけるループ内フィルタ部の機能構成及びNNフィルタ部の機能構成の一例を示す図である。 符号化装置におけるNNフィルタ部によるフィルタ処理の流れを示すフローチャートである。 比較例の符号化装置における符号化部の機能構成の一例を示す図である。 比較例の符号化装置におけるループ内フィルタ部の機能構成及びNNフィルタ部の機能構成の一例を示す図である。 比較例の符号化装置における量子化誤差及び予測誤差を示す図である。 符号化装置における量子化誤差及び予測誤差を示す図である。 復号装置における復号部の機能構成の一例を示す図である。 復号装置におけるループ内フィルタ部の機能構成及びNNフィルタ部の機能構成の一例を示す図である。 復号装置におけるNNフィルタ部によるフィルタ処理の流れを示すフローチャートである。
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
[実施形態]
<画像処理システムのシステム構成>
はじめに、画像処理システムのシステム構成について説明する。図1は、画像処理システムのシステム構成の一例を示す図である。図1に示すように、画像処理システム100は、学習装置110と、符号化装置120と、復号装置130とを有する。
学習装置110は、符号化装置120及び復号装置130が有するループ内フィルタ部に搭載されるAIフィルタの一例である、学習済みCNNF(Convolutional Neural Network Filter)を生成する装置である。
学習装置110には、学習プログラムがインストールされており、当該プログラムが実行されることで、学習装置110は、学習用データ生成部111、学習部112として機能する。
学習用データ生成部111は、CNNFの学習に用いる学習用データを生成する。学習用データ生成部111により生成された学習用データは、学習用データ格納部113に格納される。
学習部112は、学習用データ格納部113に格納された学習用データを用いて、CNNFについて学習処理を行い、学習済みCNNFを生成する。学習部112により生成された学習済みCNNFは、符号化装置120に(または、符号化装置120と復号装置130とに)送信される。
符号化装置120は、画像データを符号化し、符号化データを生成する装置である。符号化装置120には、符号化プログラムがインストールされており、当該プログラムが実行されることで、符号化装置120は、画像データ取得部121、符号化部122、符号化データ出力部123として機能する。
画像データ取得部121は、符号化する画像データを取得する。符号化部122は、画像データ取得部121により取得された画像データを符号化し、符号化データを生成する。符号化部122では、符号化データを生成する際、学習済みCNNFを用いる。
符号化データ出力部123は、符号化部122により生成された符号化データを、復号装置130に送信する。また、符号化データ出力部123は、符号化データを送信するにあたり、量子化パラメータもあわせて送信する。なお、符号化データ出力部123は、符号化データ及び量子化パラメータを送信するにあたり、符号化データの生成に用いられた学習済みCNNFを送信してもよい。
復号装置130は、符号化データを受信し、受信した符号化データを復号することで、画像データを出力する装置である。復号装置130には、復号プログラムがインストールされており、当該プログラムが実行されることで、復号装置130は、符号化データ入力部131、復号部132、画像データ出力部133として機能する。
符号化データ入力部131は、符号化装置120より符号化データ及び量子化パラメータを受信する。復号部132は、符号化装置120より受信した符号化データを復号し、画像データを生成する。復号部132では、符号化データを復号する際、符号化装置120より受信した量子化パラメータと学習装置110(または符号化装置120)より送信された学習済みCNNFを用いる。画像データ出力部133は、復号部132により生成された画像データを出力する。
<各装置のハードウェア構成>
次に、学習装置110、符号化装置120、復号装置130の各装置のハードウェア構成について説明する。なお、本実施形態において、学習装置110、符号化装置120、復号装置130の各装置は、同様のハードウェア構成を有しているものとする。
図2は、学習装置、符号化装置、復号装置のハードウェア構成の一例を示す図である。図2に示すように、各装置は、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203を有する。CPU201、ROM202、RAM203は、いわゆるコンピュータを形成する。
また、各装置は、補助記憶装置204、表示装置205、操作装置206、通信装置207、ドライブ装置208を有する。なお、各装置において各ハードウェアは、バス209を介して相互に接続されている。
CPU201は、補助記憶装置204にインストールされている各種プログラム(例えば、学習プログラム、符号化プログラム、または、復号プログラム等)を実行する演算デバイスである。
ROM202は、不揮発性メモリである。ROM202は、補助記憶装置204にインストールされている各種プログラムをCPU201が実行するために必要な各種プログラム、データ等を格納する主記憶デバイスとして機能する。具体的には、ROM202はBIOS(Basic Input/Output System)やEFI(Extensible Firmware Interface)等のブートプログラム等を格納する、主記憶デバイスとして機能する。
RAM203は、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)等の揮発性メモリである。RAM203は、補助記憶装置204にインストールされている各種プログラムがCPU201によって実行される際に展開される作業領域を提供する、主記憶デバイスとして機能する。
補助記憶装置204は、各種プログラムやデータを格納する補助記憶デバイスである。例えば、学習用データ格納部113は、補助記憶装置204において実現される。表示装置205は、各装置の内部状態を表示する表示デバイスである。操作装置206は、各装置のユーザが各装置に対して各種指示を入力するための入力デバイスである。通信装置207は、各装置が他の装置との間で情報を送受信するための通信デバイスである。
ドライブ装置208は、コンピュータ読み取り可能な記録媒体をセットするためのデバイスである。ここでいう記録媒体には、CD−ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。あるいは、記録媒体には、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
なお、補助記憶装置204にインストールされる各種プログラムは、例えば、配布された記録媒体がドライブ装置208にセットされ、該記録媒体に記録された各種プログラムがドライブ装置208により読み出されることでインストールされてもよい。
<学習装置の詳細>
次に、学習装置110の詳細について説明する。
(1)学習装置における学習用データ生成部の機能構成及び学習用データの説明
はじめに、学習装置における学習用データ生成部111の機能構成、及び、学習用データ生成部111により生成される学習用データの詳細について説明する。図3は、学習装置における学習用データ生成部の機能構成及び生成した学習用データの一例を示す図である。
図3に示すように、学習用データ生成部111は、差分部301、直交変換部310、量子化部311、エントロピ符号化部312、逆量子化部313、逆直交変換部314を有する。また、学習用データ生成部111は、加算部302、バッファ部315、ループ内フィルタ部316、フレームバッファ部317、画面内予測部318、画面間予測部319を有する。
差分部301は、学習用の入力画像と予測画像との差分を算出し、予測残差信号を出力する。
直交変換部310は、差分部301により出力された予測残差信号に対して、直交変換処理を実行する。
量子化部311は、直交変換処理された予測残差信号を量子化し、量子化信号を生成する。
エントロピ符号化部312は、量子化信号に対してエントロピ符号化処理を行うことで、符号化データを生成する。
逆量子化部313は、量子化信号を逆量子化する。逆直交変換部314は、逆量子化された量子化信号に対して、逆直交変換処理を実行する。
加算部302は、逆直交変換部314より出力された信号と、予測画像とを加算することで、参照画像を生成する。バッファ部315は、加算部302により生成された参照画像を格納する。
ループ内フィルタ部316は、バッファ部315に格納された参照画像に対してフィルタ処理を行う。ループ内フィルタ部316には、
・デブロッキングフィルタ(Deblocking filter:DB)、
・サンプルアダプティブオフセットフィルタ(Sample Adaptive Offset filter:SAO)、
・適応ループフィルタ(Adaptive loop filter:ALF)、
が含まれる。
フレームバッファ部317は、ループ内フィルタ部316によりフィルタ処理が行われた参照画像をフレーム単位で格納する。
画面内予測部318は、参照画像に基づいて画面内予測を行い、予測画像を生成する。画面間予測部319は、学習用の入力画像と参照画像とを用いてフレーム間で動き補償を行い、予測画像を生成する。
なお、画面内予測部318または画面間予測部319により生成された予測画像は、差分部301及び加算部302に出力される。
ここで、学習用データ生成部111では、学習用の入力画像を符号化し符号化データを生成する際に各部より出力されたデータ、及び、各部での処理に用いられたデータを取得し、学習用の入力画像と対応付けて、学習用データ格納部113に格納する。
学習用データ320は、学習用データ格納部113に格納された学習用データの一例を示している。図3に示すように、学習用データ320は、情報の項目として、“ピクチャID”、“CTU−ID”、“QP”、“逆直交変換部より出力された信号”、“予測画像”、“学習用の入力画像”が含まれる。
“ピクチャID”には、学習用の入力画像の各フレームを識別する識別子が格納される。“CTU−ID”には、各フレームを処理する際の処理単位(CTU)を識別する識別子が格納される。
“QP”には、量子化部311が対象となる処理単位(CTU)について量子化信号を生成する際に用いた量子化パラメータ(QP:Quantization Parameter)が格納される。
“逆直交変換部より出力された信号”には、逆直交変換部314が対象となる処理単位(CTU)について、逆直交変換処理することで出力した信号が格納される。
“学習用の入力画像”には、学習用の入力画像が格納される。
(2)学習装置における学習部の機能構成の説明
次に、学習装置における学習部112の機能構成について説明する。図4は、学習装置における学習部の機能構成の一例を示す図である。図4に示すように、学習部112は、CNNF410と、加算部411と、比較/変更部412とを有する。
学習部112は、学習用データ格納部113より学習用データ320を読み出す。また、学習部112は、所定のピクチャID、所定のCTU―IDに対応付けられた、“QP”、“逆直交変換部より出力された信号”、“予測画像”をCNNF410に入力することで、CNNF410を実行させる。
加算部411は、CNNF410より出力された出力結果と、CNNF410に入力された、“逆直交変換部より出力された信号”及び“予測画像”とを加算し、加算結果を比較/変更部412に入力する。なお、“逆直交変換部より出力された信号”と“予測画像”とを加算することで、参照画像が生成される。つまり、加算部411では、CNNF410より出力された出力結果と、参照画像とを加算し、加算結果を比較/変更部412に入力する。
比較/変更部412は、加算部411より出力された加算結果と、学習用データ320の、所定のピクチャID、所定のCTU−IDに対応付けられた、“学習用の入力画像”とを比較し、誤差を算出する。また、比較/変更部412は、算出した誤差を逆伝播させて、CNNF410のモデルパラメータを更新する。このように、学習部112は、CNNF410より出力された出力結果と参照画像とを加算した加算結果が、学習用の入力画像に近づくように、CNNF410について学習を行う。
なお、学習部112では、学習用データ格納部113の学習用データ320に格納された、複数のピクチャID、複数のCTU−IDについて、同様の処理を行うことで、CNNF410について学習を行う。
これにより、学習部112は、学習用の入力画像を符号化した際の、
・量子化パラメータ、
・逆直交変換部より出力された信号、
・予測画像、
と、
・参照画像と学習用の入力画像との差分
との対応関係を学習し、学習済みCNNFを生成する。
なお、参照画像と学習用の入力画像との差分とは、学習用の入力画像を符号化した際の“符号化歪み”に他ならない。つまり、CNNF410より出力された出力結果とは、符号化歪みに他ならず、学習済みCNNFは、量子化パラメータ、逆直交変換部より出力された信号、予測画像を入力として符号化歪みを推論する。
(3)学習装置による学習処理の流れ
次に、学習装置110による学習処理の流れについて説明する。図5は、学習装置による学習処理の流れを示すフローチャートである。
ステップS501において、学習用データ生成部111は、学習用の入力画像を取得する。ステップS502において、学習用データ生成部111は、取得した学習用の入力画像を符号化して符号化データを生成する、符号化処理を行う。
ステップS503において、学習用データ生成部111は、符号化データを生成する際に取得された学習用データを格納する。
ステップS504において、学習用データ生成部111は、所定量の学習用データが格納されたか否かを判定する。ステップS504において、所定量の学習用データが格納されていないと判定した場合には(ステップS504においてNoの場合には)、ステップS501に戻る。一方、ステップS504において、所定量の学習用データが格納されたと判定した場合には(ステップS504においてYesの場合には)、ステップS505に進む。
ステップS505において、学習部112は、CNNF410の各モデルパラメータを初期化する。
続いて、ステップS506からステップS508までの処理は、学習用データの各ピクチャIDのピクチャ(フレーム)、各CTU−IDのCTU(処理単位)を処理対象として実行する。
ステップS506において、学習部112は、学習用データより、処理対象のCTU−IDに対応付けられた“QP”、“逆直交変換部より出力された信号”、“予測画像”を読み出す。
ステップS507において、学習部112は、“QP”、“逆直交変換部より出力された信号”、“予測画像”をCNNF410に入力することで、CNNF410を実行させる。また、加算部411は、CNNF410より出力された出力結果と参照画像とを加算し、加算結果を、比較/変更部412に入力する。
ステップS508において、比較/変更部412は、加算部411の加算結果と、“学習用の入力画像”とを比較し、誤差を算出する。また、比較/変更部412は、算出した誤差を逆伝播させることで、CNNF410のモデルパラメータを更新する。
学習用データの全てのピクチャIDのピクチャ(フレーム)、全てのCTU−IDのCTU(処理単位)を処理対象として、ステップS506からステップS508までの処理が完了すると、学習部112は、学習処理を終了する。
<符号化装置の説明>
次に、符号化装置120の詳細について説明する。
(1)符号化装置における符号化部の機能構成の説明
はじめに、符号化装置120における符号化部122の機能構成の詳細について説明する。図6は、符号化装置における符号化部の機能構成の一例を示す図である。
図6に示すように、符号化装置120における符号化部122の機能構成は、図3を用いて説明した、学習装置110における学習用データ生成部111の機能構成と概ね同じである。学習装置110における学習用データ生成部111の機能構成との相違点は、ループ内フィルタ部600である。そこで、以下では、ループ内フィルタ部600について説明する。
ループ内フィルタ部600は、バッファ部315に格納された参照画像に対してフィルタ処理を行う。ループ内フィルタ部600には、
・デブロッキングフィルタ(DB)、
・サンプルアダプティブオフセットフィルタ(SAO)、
・適応ループフィルタ(ALF)、
・NNフィルタ部、
が含まれる。
このうち、デブロッキングフィルタ、サンプルアダプティブオフセットフィルタ、適応ループフィルタは、バッファ部315に格納された参照画像に対して、フィルタ処理を行うことで、フィルタ処理後の参照画像を出力する。
一方、NNフィルタ部は、学習済みCNNFを有する。学習済みCNNFは、量子化パラメータと、逆直交変換部より出力された信号と、予測画像とを入力することで、符号化歪みを推論する。
また、NNフィルタ部は、学習済みCNNFにより推論された符号化歪みを、バッファ部315に格納された参照画像に加算することで、フィルタ処理後の参照画像を出力する。
(2)符号化装置におけるループ内フィルタ部の機能構成及びNNフィルタ部の機能構成
次に、符号化装置120におけるループ内フィルタ部600の機能構成の詳細及びNNフィルタ部の機能構成の詳細について説明する。図7は、符号化装置におけるループ内フィルタ部の機能構成及びNNフィルタ部の機能構成の一例を示す図である。
図7に示すように、ループ内フィルタ部600は、DB700、SAO701、ALF702、分割部703、NNフィルタ部710、分割部711、レート歪み最適化部720を有する。
このうち、DB(デブロッキングフィルタ)700は、参照画像をフィルタ処理することで、入力画像を符号化した際に各CTUのブロック境界で生じた歪みを減少させる。
SAO(サンプルアダプティブオフセットフィルタ)701は、DB700によりフィルタ処理された参照画像を、画素単位で分類し、各画素に対して分類に応じたオフセット値を加算する。
ALF(適応ループフィルタ)702は、SAO701によりオフセット値が加算された参照画像をフィルタ処理することで、対応する入力画像との誤差を低減させる。
分割部703は、ALF702によりフィルタ処理されたフィルタ処理後の参照画像を、所定の大きさ(例えば、64画素×64画素)のブロックに分割する。
NNフィルタ部710は第1及び第2の取得部の一例であり、学習済みCNNFを有する。NNフィルタ部710は、量子化部311より量子化パラメータを取得する。また、NNフィルタ部710は、逆直交変換部314より出力された信号を取得する。更に、NNフィルタ部710は、画面内予測部318または画面間予測部319より出力された予測画像を取得する。
また、NNフィルタ部710は、取得した量子化パラメータ、逆直交変換部314より出力された信号、予測画像を、学習済みCNNF730に分けて入力することで、学習済みCNNFを実行させる。これにより、学習済みCNNFでは、符号化歪みを推論する。
更に、NNフィルタ部710は、学習済みCNNFにより推論された符号化歪みを、参照画像(逆直交変換部314より出力された信号と予測画像とを加算することで得られる参照画像)に加算する。これにより、NNフィルタ部710は、フィルタ処理後の参照画像を出力する。
分割部711は、NNフィルタ部710より出力された、フィルタ処理後の参照画像を、所定の大きさ(例えば、64画素×64画素)のブロックに分割する。
レート歪み最適化部720は、分割部703により分割されたブロックのレート歪みと、分割部711により分割されたブロックのレート歪みとをそれぞれ算出する。また、レート歪み最適化部720は、レート歪みが小さい方のブロックを、ループ内フィルタ部600によるフィルタ処理後の最終的な参照画像として出力する。
(3)符号化装置におけるNNフィルタ部によるフィルタ処理の流れ
次に、符号化装置120におけるNNフィルタ部710によるフィルタ処理の流れについて説明する。図8は、符号化装置におけるNNフィルタ部によるフィルタ処理の流れを示すフローチャートである。
ステップS801からステップS803までの処理は、処理対象の入力画像の各ピクチャ(各フレーム)、各CTU(各処理単位)について実行される。
ステップS801において、NNフィルタ部710は、処理対象のCTUの量子化パラメータ、逆直交変換部より出力された信号、予測画像を取得する。
ステップS802において、NNフィルタ部710は、量子化パラメータ、逆直交変換部より出力された信号、予測画像を、学習済みCNNF730に分けて入力することで、学習済みCNNF730を実行させる。また、NNフィルタ部710は、学習済みCNNF730により推論された符号化歪みを取得する。
ステップS803において、NNフィルタ部710は、取得した符号化歪みを、参照画像に加算することで、フィルタ処理後の参照画像を算出する。
処理対象の入力画像に含まれる全てのピクチャ(フレーム)、全てのCTU(処理単位)について、ステップS801からステップS803までの処理が完了すると、NNフィルタ部710は、フィルタ処理を終了する。
<比較例の符号化装置との対比>
次に、上記符号化装置120における符号化部122の機能構成を、比較例の符号化装置の機能構成と対比することで、上記符号化装置120の特徴を明確にする。なお、ここでいう、比較例の符号化装置とは、ループ内フィルタ部として、参照画像に含まれる符号化歪みを推論するAIフィルタ(参照画像を入力として学習したAIフィルタ)を適用した符号化装置を指すものとする。
(1)比較例の符号化装置の機能構成
図9は、比較例の符号化装置における符号化部の機能構成の一例を示す図である。比較例の符号化装置における符号化部900の場合、ループ内フィルタ部910に含まれるNNフィルタ部は、量子化パラメータ及び参照画像と、符号化歪みとの対応関係を学習することで生成された学習済みCNNFを有している。
このため、NNフィルタ部には、デブロッキングフィルタ、サンプルアダプティブオフセットフィルタ、適応ループフィルタと同様に、バッファ部315に格納された参照画像が入力される。
ただし、NNフィルタ部の場合、更に、量子化パラメータが入力されて学習済みCNNFが実行される。そして、NNフィルタ部では、学習済みCNNFにより推論された符号化歪みを参照画像に加算することで、フィルタ処理後の参照画像を出力する。
(2)比較例の符号化装置におけるループ内フィルタ部の機能構成及びNNフィルタ部の機能構成
次に、比較例の符号化装置におけるループ内フィルタ部910の機能構成の詳細及びNNフィルタ部の機能構成の詳細について説明する。図10は、比較例の符号化装置におけるループ内フィルタ部の機能構成及びNNフィルタ部の機能構成の一例を示す図である。
図7に示した符号化装置120のループ内フィルタ部600との相違点は、図10の場合、NNフィルタ部1010に、参照画像と量子化パラメータとが入力され、学習済みCNNF1011が、符号化歪みを推論している点である。
(3)機能構成の違いに伴う効果の違い
次に、符号化装置120と、比較例の符号化装置との機能構成の違いに伴う効果の違いについて図11及び図12を用いて説明する。図11は、比較例の符号化装置における量子化誤差及び予測誤差を示す図である。
上述したように、比較例の符号化装置の場合、学習済みCNNF1011に参照画像と量子化パラメータとが入力されることで、符号化歪みを推論する。ここで、図11に示すように、参照画像は、逆直交変換部314より出力された信号と予測画像とを加算することで生成される。
このうち、逆直交変換部314より出力される信号は、予測残差信号を直交変換処理及び量子化処理した後に、逆量子化処理及び逆直交変換処理することで得られる。このため、逆直交変換部314より出力される信号には、量子化処理を行った際の量子化誤差が含まれる。
一方、予測画像は、画面内予測処理または画面間予測処理することで得られる画像であり、予測誤差が含まれる。
つまり、逆直交変換部314より出力される信号と、予測画像とを加算することで得られる参照画像とは、量子化誤差を含む信号と、予測誤差を含む画像とを加算することで得られる画像に他ならず、参照画像には量子化誤差と予測誤差の両方が混在することになる。
このため、学習用の入力画像によっては、学習済みCNNF1011を生成する際に、学習処理が収束しないといった事態が生じ得る。また、処理対象の入力画像によっては、学習済みCNNF1011により推論される符号化歪みの推論精度が低く、充分なフィルタ性能が得られないといった事態が生じ得る。
一方、図12は、符号化装置における量子化誤差及び予測誤差を示す図である。上述したように、符号化装置120が有する学習済みCNNF730は、学習処理の際、量子化誤差を含む信号と、予測誤差を含む画像とを分けて入力することで生成される。このため、学習用の入力画像によらず、学習処理が収束しないといった事態を回避することができる。
また、符号化装置120が有する学習済みCNNF730は、推論の際、量子化誤差を含む信号と、予測誤差を含む画像とを分けて入力する。このため、処理対象の入力画像によらず、符号化歪みを高い推論精度で推論することができ、フィルタ性能を向上させることができる。
<復号装置の説明>
次に、復号装置130の詳細について説明する。
(1)復号装置における復号部の機能構成の説明
はじめに、復号装置130における復号部132の機能構成の詳細について説明する。図13は、復号装置における復号部の機能構成の一例を示す図である。
図13に示すように、復号装置130における復号部132は、エントロピ復号部1310、逆量子化部1311、逆直交変換部1312、画面内予測部1313、動き補償部1314、加算部1301を有する。また、復号部132は、ループ内フィルタ部1315、フレームバッファ部1316を有する。
エントロピ復号部1310は、受信した符号化データを復号し、量子化信号を出力する。また、エントロピ復号部1310は、量子化パラメータを抽出し、ループ内フィルタ部1315に通知する。なお、符号化装置120が符号化データを送信する際、符号化データの生成に用いられた学習済みCNNFを送信していた場合にあっては、エントロピ復号部1310は、学習済みCNNFを取得し、ループ内フィルタ部1315に通知する。
逆量子化部1311は、量子化信号を逆量子化し、逆直交変換部1312に出力する。逆直交変換部1312は、逆量子化された量子化信号に対して逆直交変換処理を行うことで、予測残差信号を得る。
加算部1301は、逆直交変換部1312により得られた予測残差信号と、画面内予測部1313により生成された予測画像、または、動き補償部1314により動き補償された予測画像とを加算し、参照画像を出力する。
ループ内フィルタ部1315は、フィルタ処理を行う。ループ内フィルタ部1315には、
・デブロッキングフィルタ、
・サンプルアダプティブオフセットフィルタ、
・適応ループフィルタ、
・NNフィルタ部、
が含まれる。なお、NNフィルタ部には、学習装置110より通知された学習済みCNNF(あるいは、符号化装置120により送信されていた場合にあっては、エントロピ復号部1310より通知された学習済みCNNF)が含まれる。
また、フィルタ処理を行うにあたり、ループ内フィルタ部1315では、
・予測画像と予測残差信号とを加算することで生成される参照画像を取得する、あるいは、
・逆直交変換部1312より出力された予測残差信号と、画面内予測部1313または動き補償部1314により生成された予測画像と、エントロピ復号部1310より通知された量子化パラメータとを、それぞれ取得する。
また、ループ内フィルタ部1315は、フィルタ処理後の参照画像を、復号画像として出力するとともに、フレームバッファ部1316に記憶する。
画面内予測部1313は、フィルタ処理後の参照画像を用いて予測画像を生成する画面内予測を行う。動き補償部1314は、フィルタ処理後の参照画像の各フレームに基づいて、予測画像を生成する動き補償を行う。
画面内予測部1313の画面内予測により生成された予測画像または動き補償部1314の動き補償により生成された予測画像が出力されると、加算部1301は、出力された予測画像と逆直交変換部1312により出力された予測残差信号とを加算する。
(2)復号装置におけるループ内フィルタ部の機能構成及びNNフィルタ部の機能構成
次に、復号装置130におけるループ内フィルタ部1315の機能構成の詳細及びNNフィルタ部の機能構成の詳細について説明する。図14は、復号装置におけるループ内フィルタ部の機能構成及びNNフィルタ部の機能構成の一例を示す図である。
図14に示すように、ループ内フィルタ部1315は、DB1400、SAO1401、ALF1402、分割部1403、第1及び第2の取得部の一例であるNNフィルタ部1410、分割部1411、レート歪み最適化部1420を有する。
なお、ループ内フィルタ部1315に含まれる各部の機能は、図7を用いて説明したループ内フィルタ部600に含まれる各部の機能と同様であるため、ここでは説明を省略する。
(3)復号装置におけるNNフィルタ部によるフィルタ処理の流れ
次に、復号装置130におけるNNフィルタ部1410によるフィルタ処理の流れについて説明する。図15は、復号装置におけるNNフィルタ部によるフィルタ処理の流れを示すフローチャートである。
ステップS1501からステップS1503までの処理は、処理対象の符号化データの各ピクチャ(各フレーム)、各CTU(各処理単位)について実行される。
ステップS1501において、NNフィルタ部1410は、処理対象のCTUの量子化パラメータ、逆直交変換部1312より出力された信号、予測画像を取得する。
ステップS1502において、NNフィルタ部1410は、量子化パラメータ、逆直交変換部1312より出力された信号、予測画像を、学習済みCNNF730に分けて入力することで、学習済みCNNF730を実行させる。また、NNフィルタ部1410は、学習済みCNNF730により推論された符号化歪みを取得する。
ステップS1503において、NNフィルタ部1410は、取得した符号化歪みを、参照画像に加算することで、フィルタ処理後の参照画像を算出する。
処理対象の符号化データに含まれる全てのピクチャ(フレーム)、全てのCTU(処理単位)について、ステップS1501からステップS1503までの処理が完了すると、NNフィルタ部1410は、フィルタ処理を終了する。
以上の説明から明らかなように、本実施形態に係る学習装置は、既存のループ内フィルタ部が配された符号化部を用いて、学習用の入力画像について符号化処理を行い、符号化部の各部より出力されるデータを学習用データとして格納する。また、本実施形態に係る学習装置は、学習用データを用いて符号化歪みを学習する際、CNNFに対して、量子化誤差を含む信号と、予測誤差を含む画像とを分けて入力する。
これにより、本実施形態に係る学習装置によれば、量子化誤差と予測誤差とを分けて、符号化歪みを学習することができる。この結果、本実施形態に係る学習装置によれば、符号化歪みを学習する際に、学習処理が収束しないといった事態を回避することができる。
また、本実施形態に係る符号化装置は、学習装置が学習処理を行うことで生成した学習済みCNNFを含むNNフィルタ部を有し、量子化誤差を含む信号と、予測誤差を含む画像とを分けて入力することで推論された、符号化歪みを取得する。
これにより、本実施形態に係る符号化装置によれば、符号化歪みを高い推論精度で推論することができ、フィルタ性能を向上させることができる。
また、本実施形態に係る復号装置は、学習装置が学習処理を行うことで生成した学習済みCNNFを含むNNフィルタ部を有し、量子化誤差を含む信号と、予測誤差を含む画像とを分けて入力することで推論された、符号化歪みを取得する。
これにより、本実施形態に係る復号装置によれば、符号化歪みを高い推論精度で推論することができ、フィルタ性能を向上させることができる。
このように、本実施形態によれば、ループ内フィルタ部のフィルタ性能を向上させることができる。
なお、開示の技術では、以下に記載する付記のような形態が考えられる。
(付記1)
画面内予測または画面間予測により生成された予測画像と処理対象の入力画像との差分から予測残差を算出し、算出した予測残差に対して直交変換処理及び量子化処理を行った後、エントロピ符号化処理を行うことで、前記処理対象の入力画像を符号化するコンピュータに、
前記処理対象の入力画像を符号化する際、前記量子化処理において用いられた量子化パラメータと、前記量子化処理において生じる量子化誤差を含む信号と、前記画面内予測または画面間予測において生じる予測誤差を含む画像とをそれぞれ取得し、
学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する、
処理を実行させるための符号化プログラム。
(付記2)
前記量子化処理において生じる量子化誤差を含む信号とは、前記量子化処理を行った結果に対して、逆量子化処理及び逆直交変換処理を行うことで得られる信号であり、
前記予測誤差を含む画像とは、前記画面内予測または画面間予測により生成される前記予測画像である、
付記1に記載の符号化プログラム。
(付記3)
前記逆直交変換処理を行うことで得られる信号と、前記予測画像とを加算することで参照画像を生成し、
前記フィルタ部に、取得した前記量子化パラメータと、前記逆直交変換処理を行うことで得られる信号と、前記予測画像とを分けて入力することで推論された符号化歪みを、生成した前記参照画像に加算することで、フィルタ処理後の第1の参照画像を出力する、
付記2に記載の符号化プログラム。
(付記4)
生成した前記参照画像を他のフィルタ部に入力することで、フィルタ処理後の第2の参照画像を出力し、
フィルタ処理後の前記第1の参照画像とフィルタ処理後の前記第2の参照画像のうち、レート歪みの小さいいずれか一方を、フィルタ処理後の最終的な参照画像として出力する、
付記3に記載の符号化プログラム。
(付記5)
前記フィルタ部は、学習用の入力画像を符号化する際に取得される学習用データを用いて学習することで生成される、付記4に記載の符号化プログラム。
(付記6)
前記学習用データには、
画面内予測または画面間予測により生成された予測画像と、
該予測画像と学習用の入力画像との差分から算出した予測残差に対して、直交変換処理及び量子化処理を行った際に用いた量子化パラメータと、
該量子化処理の結果に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号と、
前記学習用の入力画像と、
が含まれる付記5に記載の符号化プログラム。
(付記7)
前記フィルタ部は、前記学習用データに含まれる前記予測画像と、前記量子化パラメータと、前記信号とを入力した際の出力に、該予測画像と該信号とを加算した加算結果が、前記学習用データに含まれる前記学習用の入力画像に近づくように学習することで生成される、付記6に記載の符号化プログラム。
(付記8)
符号化データをエントロピ復号した量子化信号に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号と、画面内予測または動き補償を行うことで得られた予測画像とを加算し、フィルタ処理を行うことで、前記符号化データを復号するコンピュータに、
前記符号化データを復号する際、量子化パラメータと、量子化誤差を含む信号と、前記画面内予測または動き補償において生じる予測誤差を含む画像とをそれぞれ取得し、
学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する、
処理を実行させるための復号プログラム。
(付記9)
前記量子化誤差を含む信号とは、前記量子化信号に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号であり、
前記予測誤差を含む画像とは、前記画面内予測または動き補償により生成される前記予測画像である、
付記8に記載の復号プログラム。
(付記10)
前記逆直交変換処理を行うことで得られた信号と、前記予測画像とを加算することで参照画像を生成し、
前記フィルタ部に、取得した前記量子化パラメータと、前記逆直交変換処理を行うことで得られる信号と、前記予測画像とを分けて入力することで推論された符号化歪みを、生成した前記参照画像に加算することで、フィルタ処理後の第1の参照画像を出力し、前記符号化データを復号する、
付記9に記載の復号プログラム。
(付記11)
前記フィルタ部は、学習用の入力画像を符号化する際に取得される学習用データを用いて学習することで生成される、付記10に記載の復号プログラム。
(付記12)
前記学習用データには、
画面内予測または画面間予測により生成された予測画像と、
該予測画像と学習用の入力画像との差分から算出した予測残差に対して、直交変換処理及び量子化処理を行った際に用いた量子化パラメータと、
該量子化処理の結果に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号と、
前記学習用の入力画像と、
が含まれる付記11に記載の復号プログラム。
(付記13)
前記フィルタ部は、前記学習用データに含まれる前記予測画像と、前記量子化パラメータと、前記信号とを入力した際の出力に、該予測画像と該信号とを加算した加算結果が、前記学習用データに含まれる前記学習用の入力画像に近づくように学習することで生成される、付記12に記載の復号プログラム。
(付記14)
画面内予測または画面間予測により生成された予測画像と処理対象の入力画像との差分から予測残差を算出し、算出した予測残差に対して直交変換処理及び量子化処理を行った後、エントロピ符号化処理を行うことで、前記処理対象の入力画像を符号化する符号化装置であって、
前記処理対象の入力画像を符号化する際、前記量子化処理において用いられた量子化パラメータと、前記量子化処理において生じる量子化誤差を含む信号と、前記画面内予測または画面間予測において生じる予測誤差を含む画像とをそれぞれ取得する第1の取得部と、
学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する第2の取得部と
を有する符号化装置。
(付記15)
符号化データをエントロピ復号した量子化信号に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号と、画面内予測または動き補償を行うことで得られた予測画像とを加算し、フィルタ処理を行うことで、前記符号化データを復号する復号装置であって、
前記符号化データを復号する際、量子化パラメータと、量子化誤差を含む信号と、前記画面内予測または動き補償において生じる予測誤差を含む画像とをそれぞれ取得する第1の取得部と、
学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する第2の取得部と
を有する復号装置。
(付記16)
画面内予測または画面間予測により生成された予測画像と処理対象の入力画像との差分から予測残差を算出し、算出した予測残差に対して直交変換処理及び量子化処理を行った後、エントロピ符号化処理を行うことで、前記処理対象の入力画像を符号化する符号化方法であって、
前記処理対象の入力画像を符号化する際、前記量子化処理において用いられた量子化パラメータと、前記量子化処理において生じる量子化誤差を含む信号と、前記画面内予測または画面間予測において生じる予測誤差を含む画像とをそれぞれ取得し、
学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する、
処理をコンピュータが実行する符号化方法。
(付記17)
符号化データをエントロピ復号した量子化信号に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号と、画面内予測または動き補償を行うことで得られた予測画像とを加算し、フィルタ処理を行うことで、前記符号化データを復号する復号方法であって、
前記符号化データを復号する際、量子化パラメータと、量子化誤差を含む信号と、前記画面内予測または動き補償において生じる予測誤差を含む画像とをそれぞれ取得し、
学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する、
処理をコンピュータが実行する復号方法。
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
110 :学習装置
111 :学習用データ生成部
112 :学習部
120 :符号化装置
121 :画像データ取得部
122 :符号化部
123 :符号化データ出力部
130 :復号装置
131 :符号化データ入力部
132 :復号部
133 :画像データ出力部
310 :直交変換部
311 :量子化部
312 :エントロピ符号化部
313 :逆量子化部
314 :逆直交変換部
315 :バッファ部
316 :ループ内フィルタ部
317 :フレームバッファ部
318 :画面内予測部
319 :画面間予測部
320 :学習用データ
410 :CNNF
600 :ループ内フィルタ部
710 :NNフィルタ部
730 :学習済みCNNF
1310 :エントロピ復号部
1311 :逆量子化部
1312 :逆直交変換部
1313 :画面内予測部
1314 :動き補償部
1315 :ループ内フィルタ部
1316 :フレームバッファ部
1410 :NNフィルタ部

Claims (17)

  1. 画面内予測または画面間予測により生成された予測画像と処理対象の入力画像との差分から予測残差を算出し、算出した予測残差に対して直交変換処理及び量子化処理を行った後、エントロピ符号化処理を行うことで、前記処理対象の入力画像を符号化するコンピュータに、
    前記処理対象の入力画像を符号化する際、前記量子化処理において用いられた量子化パラメータと、前記量子化処理において生じる量子化誤差を含む信号と、前記画面内予測または画面間予測において生じる予測誤差を含む画像とをそれぞれ取得し、
    学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する、
    処理を実行させるための符号化プログラム。
  2. 前記量子化処理において生じる量子化誤差を含む信号とは、前記量子化処理を行った結果に対して、逆量子化処理及び逆直交変換処理を行うことで得られる信号であり、
    前記予測誤差を含む画像とは、前記画面内予測または画面間予測により生成される前記予測画像である、
    請求項1に記載の符号化プログラム。
  3. 前記逆直交変換処理を行うことで得られる信号と、前記予測画像とを加算することで参照画像を生成し、
    前記フィルタ部に、取得した前記量子化パラメータと、前記逆直交変換処理を行うことで得られる信号と、前記予測画像とを分けて入力することで推論された符号化歪みを、生成した前記参照画像に加算することで、フィルタ処理後の第1の参照画像を出力する、
    請求項2に記載の符号化プログラム。
  4. 生成した前記参照画像を他のフィルタ部に入力することで、フィルタ処理後の第2の参照画像を出力し、
    フィルタ処理後の前記第1の参照画像とフィルタ処理後の前記第2の参照画像のうち、レート歪みの小さいいずれか一方を、フィルタ処理後の最終的な参照画像として出力する、
    請求項3に記載の符号化プログラム。
  5. 前記フィルタ部は、学習用の入力画像を符号化する際に取得される学習用データを用いて学習することで生成される、請求項4に記載の符号化プログラム。
  6. 前記学習用データには、
    画面内予測または画面間予測により生成された予測画像と、
    該予測画像と学習用の入力画像との差分から算出した予測残差に対して、直交変換処理及び量子化処理を行った際に用いた量子化パラメータと、
    該量子化処理の結果に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号と、
    前記学習用の入力画像と、
    が含まれる請求項5に記載の符号化プログラム。
  7. 前記フィルタ部は、前記学習用データに含まれる前記予測画像と、前記量子化パラメータと、前記信号とを入力した際の出力に、該予測画像と該信号とを加算した加算結果が、前記学習用データに含まれる前記学習用の入力画像に近づくように学習することで生成される、請求項6に記載の符号化プログラム。
  8. 符号化データをエントロピ復号した量子化信号に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号と、画面内予測または動き補償を行うことで得られた予測画像とを加算し、フィルタ処理を行うことで、前記符号化データを復号するコンピュータに、
    前記符号化データを復号する際、量子化パラメータと、量子化誤差を含む信号と、前記画面内予測または動き補償において生じる予測誤差を含む画像とをそれぞれ取得し、
    学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する、
    処理を実行させるための復号プログラム。
  9. 前記量子化誤差を含む信号とは、前記量子化信号に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号であり、
    前記予測誤差を含む画像とは、前記画面内予測または動き補償により生成される前記予測画像である、
    請求項8に記載の復号プログラム。
  10. 前記逆直交変換処理を行うことで得られた信号と、前記予測画像とを加算することで参照画像を生成し、
    前記フィルタ部に、取得した前記量子化パラメータと、前記逆直交変換処理を行うことで得られる信号と、前記予測画像とを分けて入力することで推論された符号化歪みを、生成した前記参照画像に加算することで、フィルタ処理後の第1の参照画像を出力し、前記符号化データを復号する、
    請求項9に記載の復号プログラム。
  11. 前記フィルタ部は、学習用の入力画像を符号化する際に取得される学習用データを用いて学習することで生成される、請求項10に記載の復号プログラム。
  12. 前記学習用データには、
    画面内予測または画面間予測により生成された予測画像と、
    該予測画像と学習用の入力画像との差分から算出した予測残差に対して、直交変換処理及び量子化処理を行った際に用いた量子化パラメータと、
    該量子化処理の結果に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号と、
    前記学習用の入力画像と、
    が含まれる請求項11に記載の復号プログラム。
  13. 前記フィルタ部は、前記学習用データに含まれる前記予測画像と、前記量子化パラメータと、前記信号とを入力した際の出力に、該予測画像と該信号とを加算した加算結果が、前記学習用データに含まれる前記学習用の入力画像に近づくように学習することで生成される、請求項12に記載の復号プログラム。
  14. 画面内予測または画面間予測により生成された予測画像と処理対象の入力画像との差分から予測残差を算出し、算出した予測残差に対して直交変換処理及び量子化処理を行った後、エントロピ符号化処理を行うことで、前記処理対象の入力画像を符号化する符号化装置であって、
    前記処理対象の入力画像を符号化する際、前記量子化処理において用いられた量子化パラメータと、前記量子化処理において生じる量子化誤差を含む信号と、前記画面内予測または画面間予測において生じる予測誤差を含む画像とをそれぞれ取得する第1の取得部と、
    学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する第2の取得部と
    を有する符号化装置。
  15. 符号化データをエントロピ復号した量子化信号に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号と、画面内予測または動き補償を行うことで得られた予測画像とを加算し、フィルタ処理を行うことで、前記符号化データを復号する復号装置であって、
    前記符号化データを復号する際、量子化パラメータと、量子化誤差を含む信号と、前記画面内予測または動き補償において生じる予測誤差を含む画像とをそれぞれ取得する第1の取得部と、
    学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する第2の取得部と
    を有する復号装置。
  16. 画面内予測または画面間予測により生成された予測画像と処理対象の入力画像との差分から予測残差を算出し、算出した予測残差に対して直交変換処理及び量子化処理を行った後、エントロピ符号化処理を行うことで、前記処理対象の入力画像を符号化する符号化方法であって、
    前記処理対象の入力画像を符号化する際、前記量子化処理において用いられた量子化パラメータと、前記量子化処理において生じる量子化誤差を含む信号と、前記画面内予測または画面間予測において生じる予測誤差を含む画像とをそれぞれ取得し、
    学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する、
    処理をコンピュータが実行する符号化方法。
  17. 符号化データをエントロピ復号した量子化信号に対して、逆量子化処理及び逆直交変換処理を行うことで得られた信号と、画面内予測または動き補償を行うことで得られた予測画像とを加算し、フィルタ処理を行うことで、前記符号化データを復号する復号方法であって、
    前記符号化データを復号する際、量子化パラメータと、量子化誤差を含む信号と、前記画面内予測または動き補償において生じる予測誤差を含む画像とをそれぞれ取得し、
    学習用の入力画像を符号化する際に生じた符号化歪みを学習したフィルタ部に、取得した前記量子化パラメータと、前記量子化誤差を含む信号と、前記予測誤差を含む画像とを分けて入力することで、前記フィルタ部により推論された符号化歪みを取得する、
    処理をコンピュータが実行する復号方法。
JP2019101629A 2019-05-30 2019-05-30 符号化プログラム、復号プログラム、符号化装置、復号装置、符号化方法及び復号方法 Active JP7318314B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019101629A JP7318314B2 (ja) 2019-05-30 2019-05-30 符号化プログラム、復号プログラム、符号化装置、復号装置、符号化方法及び復号方法
US16/857,225 US11128873B2 (en) 2019-05-30 2020-04-24 Storage medium, encoding device, decoding device, encoding method, and decoding method
EP20172404.4A EP3745720A1 (en) 2019-05-30 2020-04-30 Video coding with in-loop neural network filter to improve the reconstructed reference image
CN202010402038.7A CN112019843B (zh) 2019-05-30 2020-05-13 编码和解码方法、设备、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019101629A JP7318314B2 (ja) 2019-05-30 2019-05-30 符号化プログラム、復号プログラム、符号化装置、復号装置、符号化方法及び復号方法

Publications (2)

Publication Number Publication Date
JP2020198463A true JP2020198463A (ja) 2020-12-10
JP7318314B2 JP7318314B2 (ja) 2023-08-01

Family

ID=70482381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019101629A Active JP7318314B2 (ja) 2019-05-30 2019-05-30 符号化プログラム、復号プログラム、符号化装置、復号装置、符号化方法及び復号方法

Country Status (4)

Country Link
US (1) US11128873B2 (ja)
EP (1) EP3745720A1 (ja)
JP (1) JP7318314B2 (ja)
CN (1) CN112019843B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7475842B2 (ja) 2019-11-26 2024-04-30 キヤノン株式会社 画像復号装置、制御方法、およびプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114868390A (zh) * 2020-12-04 2022-08-05 深圳市大疆创新科技有限公司 视频编码方法、解码方法、编码器、解码器以及ai加速器
WO2023014065A1 (ko) * 2021-08-06 2023-02-09 삼성전자 주식회사 영상에 대한 ai 기반 필터링을 위한 장치 및 방법
EP4383708A1 (en) * 2021-08-06 2024-06-12 Samsung Electronics Co., Ltd. Device and method for ai-based filtering of image
WO2023051654A1 (en) * 2021-09-29 2023-04-06 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for video processing

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019072097A1 (en) * 2017-10-12 2019-04-18 Mediatek Inc. VIDEO ENCODING METHOD USING NEURAL NETWORK
US20190124348A1 (en) * 2017-10-19 2019-04-25 Samsung Electronics Co., Ltd. Image encoder using machine learning and data processing method of the image encoder
WO2019087905A1 (ja) * 2017-10-31 2019-05-09 シャープ株式会社 画像フィルタ装置、画像復号装置、および画像符号化装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013223050A (ja) 2012-04-13 2013-10-28 Sharp Corp フィルタ装置、復号装置、および符号化装置
US10321128B2 (en) * 2015-02-06 2019-06-11 Sony Corporation Image encoding apparatus and image encoding method
CN107736027B (zh) 2015-06-12 2021-06-01 松下知识产权经营株式会社 图像编码方法、图像解码方法、图像编码装置及图像解码装置
KR102124714B1 (ko) * 2015-09-03 2020-06-19 미디어텍 인크. 비디오 코딩에서의 신경망 기반 프로세싱의 방법 및 장치
WO2017222140A1 (ko) * 2016-06-24 2017-12-28 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
KR101974261B1 (ko) 2016-06-24 2019-04-30 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치
CN107197260B (zh) * 2017-06-12 2019-09-13 清华大学深圳研究生院 基于卷积神经网络的视频编码后置滤波方法
JPWO2019039283A1 (ja) * 2017-08-22 2020-10-01 ソニー株式会社 画像処理装置及び画像処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019072097A1 (en) * 2017-10-12 2019-04-18 Mediatek Inc. VIDEO ENCODING METHOD USING NEURAL NETWORK
US20190124348A1 (en) * 2017-10-19 2019-04-25 Samsung Electronics Co., Ltd. Image encoder using machine learning and data processing method of the image encoder
WO2019087905A1 (ja) * 2017-10-31 2019-05-09 シャープ株式会社 画像フィルタ装置、画像復号装置、および画像符号化装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7475842B2 (ja) 2019-11-26 2024-04-30 キヤノン株式会社 画像復号装置、制御方法、およびプログラム

Also Published As

Publication number Publication date
JP7318314B2 (ja) 2023-08-01
EP3745720A1 (en) 2020-12-02
CN112019843A (zh) 2020-12-01
US20200382794A1 (en) 2020-12-03
US11128873B2 (en) 2021-09-21
CN112019843B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
US11694125B2 (en) Image encoder using machine learning and data processing method of the image encoder
US10798421B2 (en) Method for encoding and decoding image information
JP2020198463A (ja) 符号化プログラム、復号プログラム、符号化装置、復号装置、符号化方法及び復号方法
US11902575B2 (en) Image encoding method using a skip mode, and a device using the method
US8929450B2 (en) Temporal block merge mode
US9066104B2 (en) Spatial block merge mode
US9414086B2 (en) Partial frame utilization in video codecs
TW201739260A (zh) 視訊編碼中限制塊尺寸的視訊資料處理方法與裝置
US20210037237A1 (en) Video Processing Methods and Apparatuses for Processing Video Data Coded in Large Size Coding Units
TWI770681B (zh) 視訊編碼或解碼系統中的視訊處理方法和裝置
US11997259B2 (en) Methods for encoding and decoding pictures and associated apparatus
KR20220009473A (ko) 영상의 부호화/복호화 방법 및 장치
US7702017B2 (en) Moving picture encoding apparatus, moving picture encoding method, moving picture encoding program, moving picture decoding apparatus, moving picture decoding method, and moving picture decoding program
US11785221B2 (en) Encoding and decoding method, apparatus and communication system
US10212436B2 (en) Image encoding apparatus, image decoding apparatus and image transmission method
US20240089440A1 (en) Image decoding device, method, and non-transitory computer-readable storage medium
US12015773B2 (en) Image encoding apparatus, image encoding method, image decoding apparatus, image decoding method, and non-transitory computer-readable storage medium
US11973964B2 (en) Video compression based on long range end-to-end deep learning
WO2021263251A1 (en) State transition for dependent quantization in video coding
US10375392B2 (en) Video encoding apparatus, video encoding method, video decoding apparatus, and video decoding method
US10992942B2 (en) Coding method, decoding method, and coding device
WO2024077576A1 (zh) 基于神经网络的环路滤波、视频编解码方法、装置和系统
US20230007311A1 (en) Image encoding device, image encoding method and storage medium, image decoding device, and image decoding method and storage medium
JP6270472B2 (ja) 画像符号化装置、画像符号化方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230703

R150 Certificate of patent or registration of utility model

Ref document number: 7318314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150