CN118020305A

CN118020305A - 运动图像编码装置、运动图像解码装置

Info

Publication number: CN118020305A
Application number: CN202280063704.6A
Authority: CN
Inventors: 高田圭一郎; 八杉将伸; 猪饲知宏; 青野友子; 中条健; 桥本知典
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2021-09-22
Filing date: 2022-09-07
Publication date: 2024-05-10
Also published as: JPWO2023047950A1; US20240397042A1; EP4407994A1; WO2023047950A1

Abstract

在将神经网络滤波强度的尺度值设为0的情况下，由于输出去块滤波前的解码图像，因此会出现块噪声。此外，在不考虑亮度/色差参数的情况下，无法适当地进行对多个传递函数、色差参数的图像的处理。以规定的块单位，使用表示NN滤波的应用程度的参数，改变比率来将去块滤波后的图像和NN滤波后的图像合成。此外，基于亮度参数来切换亮度图像的滤波处理，基于色差参数来切换色差图像的滤波处理。

Description

运动图像编码装置、运动图像解码装置

技术领域

本发明的实施方式涉及运动图像编码装置、运动图像解码装置。本申请基于2021年9月22在日本提出申请的日本专利申请2021-153957号主张优先权，并将其内容援引于此。

背景技术

为了高效地传输或记录运动图像，使用通过对运动图像进行编码来生成编码数据的运动图像编码装置，以及通过对该编码数据进行解码来生成解码图像的运动图像解码装置。

作为具体的运动图像编码方式，例如可以列举出H.264/AVC、H.265/HEVC(High-Efficiency Video Coding：高效运动图像编码)方式等。

在这样的运动图像编码方式中，构成运动图像的图像(图片)通过分级结构来管理，并按每个CU进行编码/解码，所述分级结构包括：通过分割图像而得到的切片、通过分割切片而得到的编码树单元(CTU：Coding Tree Unit)、通过分割编码树单元而得到的编码单位(有时也称为编码单元(Coding Unit：CU))以及通过分割编码单位而得到的转换单元(TU：Transform Unit)。

此外，在这样的运动图像编码方式中，通常，基于通过对输入图像进行编码/解码而得到的局部解码图像而生成预测图像，对从输入图像(原图像)中减去该预测图像而得到的预测误差(有时也称为“差分图像”或“残差图像”)进行编码。作为预测图像的生成方法，可列举出画面间预测(帧间预测)和画面内预测(帧内预测)。

此外，作为近年来的运动图像编码和解码的技术，可列举出非专利文献1。

在非专利文献1中，规定了作为为了对重构图像降低块边界失真而应用的滤波处理的去块滤波技术。

在非专利文献2中，公开了跳过去块滤波而实施神经网络滤波，通过尺度值控制神经网络滤波的强度的方法。

现有技术文献

非专利文献

非专利文献1：ITU-T Recommendation H.266(08/20)2020-08-29

非专利文献2：H.Wang，J.Chen，K.Reuze，“A.M.Kotra and M.Karczewicz，EE1-related：Neural Network-based in-loop filter with constrained computationalcomplexity，”JVET-W0131，July.2021.

发明内容

发明要解决的问题

在非专利文献1中，若使用表示去块滤波的强度的bS值来实施去块滤波，则存在由于图像被平滑化而丢失边缘信息的问题。

在非专利文献2中，公开了利用表示非专利文献1的块噪声的强度的bS值，具有去块滤波的效果的神经网络滤波。然而，在将神经网络滤波强度的尺度值设为0的情况下，输出去块滤波前的解码图像，存在看得见块噪声的问题。此外，图像的性质根据传递函数、颜色空间而变化，不能适当地进行对这些多个传递函数、颜色空间的图像的处理。

技术方案

本发明的一个方案的运动图像解码装置具备：参数解码部，对滤波参数进行解码；bS推导部，推导去块滤波强度bS；DF部，进行去块滤波；NN滤波部，通过神经网络进行滤波处理；以及图像合成部，上述参数解码部以规定的块单位对表示NN滤波的应用程度的nn_area_weight参数进行解码，上述NN部从上述DF部的处理前的图像输出第一图像，上述DF部从上述NN滤波部的处理前的图像输出第二图像，上述图像合成部从上述第一图像、上述第二图像以及上述nn_area_weight推导出输出图像。

此外，具备：参数解码部，对与传递函数有关的亮度参数进行解码；以及NN滤波部，通过神经网络进行滤波处理，上述NN滤波部具备：亮度NN滤波部，对亮度图像进行滤波；以及色差NN滤波部，对色差图像进行滤波，上述亮度NN滤波部基于上述亮度参数来切换滤波处理。

而且，具备：参数解码部，对与颜色空间有关的色差参数进行解码；以及NN滤波部，通过神经网络进行滤波处理，上述NN滤波部具备：亮度NN滤波部，对亮度图像进行滤波；以及色差NN滤波部，对色差图像进行滤波，上述色差NN滤波部基于上述色差参数来切换滤波处理。

有益效果

通过设为这样的构成，无论神经网络滤波的强度如何，都能获得降低解码图像的块噪声的效果。此外，能获得对多个传递函数、色差参数的图像进行优选的处理的效果。

附图说明

图1是表示本实施方式的运动图像传输系统的构成的概略图。

图2是表示编码数据的分级结构的图。

图3是表示图像解码装置的构成的概略图。

图4是对图像解码装置的概略动作进行说明的流程图。

图5是表示图像编码装置的构成的框图。

图6是表示NN滤波部611的神经网络的构成的图。

图7是表示解码装置中的环路滤波器305A的构成的图。

图8是表示编码装置中的环路滤波器107A的构成的图。

图9是表示解码装置中的环路滤波器305B的构成的图。

图10是表示编码装置中的环路滤波器107B的构成的图。

图11是表示去块滤波的图。

图12是表示使用了TransferFunction信息/色差参数的亮度/色差NN滤波的图。

图13是表示使用了TransferFunction信息的亮度滤波部的图。

图14是表示使用了色差参数的色差滤波部的图。

具体实施方式

(第一实施方式)

以下，参照附图对本发明的实施方式进行说明。

图1是表示本实施方式的运动图像传输系统的构成的概略图。

运动图像传输系统1是传输对转换了分辨率的不同分辨率的图像进行编码而得到的编码数据，对所传输的编码数据进行解码，将图像逆转换为原来的分辨率并显示的系统。运动图像传输系统1由运动图像编码装置10、网络21、运动图像解码装置30以及图像显示装置41构成。

运动图像编码装置10由前处理装置(预处理部)51、图像编码装置(图像编码部)11以及合成信息生成装置(合成信息生成部)71构成。

运动图像解码装置30由图像解码装置(图像解码部)31以及后处理装置(后处理部)61构成。

前处理装置51根据需要对运动图像中包括的图像T的分辨率进行转换，将包括不同分辨率的图像的可变分辨率运动图像T2提供给图像编码装置11。此外，前处理装置51可以将表示有无图像的分辨率转换的滤波信息提供给图像编码装置11。

合成信息生成装置71基于运动图像中包括的图像T1来生成滤波信息，发送至图像编码装置11。在图像编码装置11中输入可变分辨率图像T2。图像编码装置11使用RPR的架构，按PPS单位对输入图像的图像尺寸信息进行编码，并发送至图像解码装置31。

网络21将编码后的滤波信息和编码数据Te传输至图像解码装置31。编码后的滤波信息的一部分或全部可以作为附加扩展信息SEI而包括在编码数据Te中。网络21是互联网(Internet)、广域网(WAN：Wide Area Network)、小型网络(LAN：Local Area Network，局域网)或它们的组合。网络21不一定限定于双向的通信网，也可以是传输地面数字广播、卫星广播等广播波的单向的通信网。此外，网络21也可以用DVD(Digital Versatile Disc：数字通用光盘，注册商标)、BD(Blue-ray Disc：蓝光光盘，注册商标)等记录有编码数据Te的存储介质代替。

图像解码装置31对网络21所传输的编码数据Te分别进行解码，生成可变分辨率解码图像并提供给后处理装置61。

后处理装置61在滤波信息表示分辨率转换的情况下，基于编码数据中包括的图像尺寸信息，来进行使用超分辨用的模型参数的超分辨处理。然后，通过对分辨率转换后的图像进行逆转换，来生成原始尺寸的解码图像。此外，在滤波信息不表示分辨率转换的情况下，进行使用图像复原用的模型参数的图像复原处理。通过进行图像复原处理，来生成降低了编码噪声的解码图像。

图像显示装置41显示从后处理装置61输入的一个或多个解码图像Td2中的全部或者一部分。图像显示装置41例如具备液晶显示器、有机EL(Electro-luminescence：电致发光)显示器等显示设备。作为显示器的形式，可以列举出固定式、移动式、HMD(Head MountedDisplay：头戴显示器)等。此外，在图像解码装置31具有高处理能力的情况下，显示画质高的图像，在仅具有较低处理能力的情况下，显示不需要高处理能力、显示能力的图像。

<运算符>

以下对在本说明书中使用的运算符进行描述。

＞＞为向右位移，＜＜为向左位移，&为逐位AND，|为逐位OR，|＝为OR代入运算符，||表示逻辑和。

x？y：z是在x为真(0以外)的情况下取y、在x为假(0)的情况下取z的3项运算符。

Clip3(a，b，c)是将c限幅于a以上b以下的值的函数，是在c＜a的情况下返回a、在c＞b的情况下返回b、在其他情况下返回c的函数(其中a＜＝b)。

abs(a)是返回a的绝对值的函数。

Int(a)是返回a的整数值的函数。

floor(a)是返回a以下的最大整数的函数。

ceil(a)是返回a以上的最小整数的函数。

a/d表示a除以d(舍去小数点以下)。

a^b表示a的b次方。在a＝2、b为整数的情况下，2^b＝1＜＜b。

array[x]表示阵列array[x]在位置x处的值。

<编码数据Te的构造>

在对本实施方式的图像编码装置11以及图像解码装置31进行详细说明之前，对由图像编码装置11生成，并由图像解码装置31解码的编码数据Te的数据结构进行说明。

图2是表示编码数据Te中的数据的阶层结构的图。编码数据Te示例性地包括序列以及构成序列的多个图片。图2中示出了表示规定序列SEQ的编码视频序列、规定图片PICT的编码图片、规定切片S的编码切片、规定切片数据的编码切片数据、编码切片数据中包括的编码树单元、编码树单元中包括的编码单元的图。

(编码视频序列)

在编码视频序列中，规定有供图像解码装置31参照以便对处理对象的序列SEQ进行解码的数据的集合。如图2所示，序列SEQ包括视频参数集(Video Parameter Set)、序列参数集SPS(Sequence Parameter Set)、图片参数集PPS(Picture Parameter Set)、自适应参数集(Adaptation Parameter Set：APS)、图片PICT以及补充增强信息SEI(SupplementalEnhancement Information)。

在视频参数集VPS中，在由多层构成的运动图像中，规定有多个运动图像通用的编码参数的集合，以及运动图像中包括的多层和与各层关联的编码参数的集合。

在序列参数集SPS中，规定有供图像解码装置31参照以便对对象序列进行解码的编码参数的集合。例如，规定有图片的宽度、高度。需要说明的是，SPS可以存在多个。在该情况下，从PPS中选择多个SPS中的任一个SPS。

在图片参数集PPS中，规定有供图像解码装置31参照以便对对象序列内的各图片进行解码的编码参数的集合。需要说明的是，PPS可以存在多个。在该情况下，从对象序列内的各图片中选择多个PPS中的任一个。

(编码图片)

在编码图片中，规定有供图像解码装置31参照以便对处理对象的图片PICT进行解码的数据的集合。如图2所示，图片PICT包括图片报头PH、切片0～切片NS-1(NS为图片PICT中包括的切片的总数)。

以下，在无需对各切片0～切片NS-1进行区分的情况下，有时会省略代码的后缀来进行记述。此外，以下说明的编码数据Te中包括的数据、即标注有后缀的其它数据也是同样的。

(编码切片)

在编码切片中，规定有供图像解码装置31参照以便对处理对象的切片S进行解码的数据的集合。切片如图2所示包括切片报头和切片数据。

切片报头中包括供图像解码装置31参照以便确定对象切片的解码方法的编码参数组。指定切片类型的切片类型指定信息(slice_type)是切片报头中包括的编码参数的一个示例。

作为能由切片类型指定信息指定的切片类型，可列举出：(1)在进行编码时仅使用帧内预测的I切片、(2)在进行编码时使用单向预测(L0预测)或帧内预测的P切片以及(3)在进行编码时使用单向预测(L0预测或L1预测)、双向预测或帧内预测的B切片等。需要说明的是，帧间预测不限于单向预测、双向预测，也可以使用更多的参照图片来生成预测图像。以下，称为P、B切片的情况是指包括能使用帧间预测的块的切片。

需要说明的是，切片报头中也可以包括对图片参数集PPS的参照(pic_parameter_set_id)。

(编码切片数据)

在编码切片数据中，规定有供图像解码装置31参照以便对处理对象的切片数据进行解码的数据的集合。如图2的编码切片报头所示，切片数据包括CTU。CTU是构成切片的固定尺寸(例如64×64)的块，也称为最大编码单位(LCU：Largest Coding Unit)。

(编码树单元)

在图2中，规定有供图像解码装置31参照以便对处理对象的CTU进行解码的数据的集合。CTU通过递归的四叉树分割(QT(Quad Tree)分割)、二叉树分割(BT(BinaryTree)分割)或三叉树分割(TT(Ternary Tree)分割)分割成作为编码处理的基本单位的编码单元CU。将BT分割和TT分割统称为多叉树分割(MT(Multi Tree)分割)。将通过递归的四叉树分割而得到的树形结构的节点称为编码节点(Coding Node)。四叉树、二叉树以及三叉树的中间节点为编码节点，CTU本身也被规定为最上层的编码节点。

(编码单元)

在图2中，规定有供图像解码装置31参照以便对处理对象的编码单元进行解码的数据的集合。具体而言，CU由CU报头CUH、预测参数、转换参数、量化转换系数等构成。在CU报头中规定有预测模式等。

预测处理存在以CU为单位进行的情况和以进一步分割CU而得到的子CU为单位进行的情况。在CU与子CU的尺寸相等的情况下，CU中的子CU为1个。在CU的尺寸大于子CU的尺寸的情况下，CU被分割成子CU。例如，在CU为8×8、子CU为4×4的情况下，CU被分割成4个子CU，包括水平分割的两部分和垂直分割的两部分。

预测的种类(预测模式)存在帧内预测和帧间预测两种。帧内预测是同一图片内的预测，帧间预测是指在互不相同的图片间(例如显示时刻间、层图像间)进行的预测处理。

转换/量化处理以CU为单位来进行，但量化转换系数也可以以4×4等子块为单位来进行熵编码。

(预测参数)

预测图像由附加于块的预测参数推导出。预测参数中存在帧内预测和帧间预测的预测参数。

(运动矢量)

mvLX表示不同的两张图片上的块间的移位量。将与mvLX有关的预测矢量、差分矢量分别称为mvpLX、mvdLX。

(图像解码装置的构成)

对本实施方式的图像解码装置31(图3)的构成进行说明。

图像解码装置31构成为包括：熵解码部301、参数解码部(预测图像解码装置)302、环路滤波器305、参照图片存储器306、预测参数存储器307、预测图像生成部(预测图像生成装置)308、逆量化/逆转换部311以及加法部312、预测参数推导部320。需要说明的是，根据后述的图像编码装置11，也存在图像解码装置31中不包括环路滤波器305的构成。

参数解码部302还具备报头解码部3020、CT信息解码部3021以及CU解码部3022(预测模式解码部)，CU解码部3022还具备TU解码部3024。也可以将它们统称为解码模块。报头解码部3020从编码数据中解码VPS、SPS、PPS、APS等参数集信息、切片报头(切片信息)。CT信息解码部3021从编码数据中解码CT。CU解码部3022从编码数据中解码CU。TU解码部3024在TU中包括预测误差的情况下，从编码数据解码QP(Quantization Parameter：量化参数)更新信息(量化校正值)和量化预测误差(residual_coding)。

TU解码部3024从编码数据中解码QP更新信息和量化预测误差。

预测图像生成部308构成为包括帧间预测图像生成部和帧内预测图像生成部。

此外，在下文中对将CTU、CU用作处理单位的示例进行了记载，但不限于该示例，也可以以子CU为单位进行处理。或者，也可以将CTU、CU替换为块，将子CU替换为子块，进行以块或者子块为单位的处理。

熵解码部301对从外部输入的编码数据Te进行熵解码，并对各个代码(语法要素)进行解码。熵解码部301将解码后的代码输出至参数解码部302。基于参数解码部302的指示来进行对哪一个代码进行解码的控制。

预测参数推导部320基于从参数解码部302输入的语法要素，参照存储于预测参数存储器307的预测参数来推导出预测参数。此外，将预测参数输出至预测图像生成部308、预测参数存储器307。

环路滤波器305是设于编码环路内的滤波器，是去除块失真、振铃失真来改善画质的滤波器。环路滤波器305对加法部312所生成的CU的解码图像实施去块滤波、取样自适应偏移(SAO)、自适应环路滤波(ALF)等滤波。

参照图片存储器306将CU的解码图像按每个对象图片和对象CU存储于预定的位置。

预测参数存储器307将预测参数按每个CTU或者CU存储于预定的位置。具体而言，预测参数存储器307存储由参数解码部302解码后的参数和由预测参数推导部320推导出的参数等。

对预测图像生成部308输入由预测参数推导部320推导出的参数。此外，预测图像生成部308从参照图片存储器306中读出参照图片。预测图像生成部308在predMode所指示的预测模式下，使用参数和参照图片(参照图片块)来生成块或子块的预测图像。在此，参照图片块是指参照图片上的像素的集合(通常为矩形，因此称为块)，是为了生成预测图像而参照的区域。

逆量化/逆转换部311将从参数解码部302输入的量化转换系数逆量化，来求出转换系数。

加法部312按每个像素将从预测图像生成部308输入的块的预测图像和从逆量化/逆转换部311输入的预测误差相加，生成块的解码图像。加法部312将块的解码图像存储于参照图片存储器306，再输出至环路滤波器305。

(基本流程)

图4是对图像解码装置31的概略动作进行说明的流程图。

(S1100：参数集信息解码)报头解码部3020从编码数据解码VPS、SPS、PPS等参数集信息。

(S1200：切片信息解码)报头解码部3020从编码数据解码切片报头(切片信息)。

以下，图像解码装置31通过针对对象图片中包括的各CTU反复进行S1300至S5000的处理来推导出各CTU的解码图像。

(S1300：CTU信息解码)CT信息解码部3021从编码数据中解码CTU。

(S1400：CT信息解码)CT信息解码部3021从编码数据中解码CT。

(S1500：CU解码)CU解码部3022实施S1510、S1520，从编码数据中解码CU。

(S1510：CU信息解码)CU解码部3022从编码数据解码CU信息、预测信息、TU分割标志、CU残差标志等。

(S1520：TU信息解码)TU解码部3024在TU中包括预测误差的情况下，从编码数据解码QP更新信息和量化预测误差。需要说明的是，QP更新信息是与作为量化参数QP的预测值的量化参数预测值qPpred的差分值。

(S2000：预测图像生成)预测图像生成部308针对对象CU中包括的各块，基于预测信息生成预测图像。

(S3000：逆量化/逆转换)逆量化/逆转换部311针对对象CU中包括的各TU，执行逆量化/逆转换处理。

(S4000：解码图像生成)加法部312通过将由预测图像生成部308提供的预测图像与由逆量化/逆转换部311提供的预测误差相加来生成对象CU的解码图像。

(S5000：环路滤波)环路滤波器305对解码图像施加去块滤波、SAO(SampleAdaptive Offset：取样自适应偏移)、ALF(Adaptive Loop Filter：自适应环路滤波)等环路滤波，生成解码图像。

(图像编码装置的构成)

接着，对本实施方式的图像编码装置11的构成进行说明。图5是表示本实施方式的图像编码装置11的构成的框图。图像编码装置11构成为包括：预测图像生成部101、减法部102、转换/量化部103、逆量化/逆转换部105、加法部106、环路滤波器107、预测参数存储器(预测参数存储部、帧存储器)108、参照图片存储器(参照图像存储部、帧存储器)109、编码参数确定部110、参数编码部111、预测参数推导部120以及熵编码部104。

预测图像生成部101按每个CU生成预测图像。

减法部102从图像T的像素值中减去从预测图像生成部101输入的块的预测图像的像素值，生成预测误差。减法部102将预测误差输出至转换/量化部103。

转换/量化部103对从减法部102输入的预测误差，通过频率转换计算出转换系数，并通过量化推导出量化转换系数。转换/量化部103将量化转换系数输出至参数编码部111和逆量化/逆转换部105。

逆量化/逆转换部105与图像解码装置31中的逆量化/逆转换部311(图3)相同，省略其说明。计算出的预测误差输出至加法部106。

参数编码部111具备报头编码部1110、CT信息编码部1111、CU编码部1112(预测模式编码部)。CU编码部1112还具备TU编码部1114。以下，对各模块的概略动作进行说明。

报头编码部1110进行滤波信息、报头信息、分割信息、预测信息、量化转换系数等参数的编码处理。

CT信息编码部1111对QT、MT(BT、TT)分割信息等进行编码。

CU编码部1112对CU信息、预测信息、分割信息等进行编码。

TU编码部1114在TU中包括预测误差的情况下，对QP更新信息和量化预测误差进行编码。

CT信息编码部1111、CU编码部1112将帧间预测参数、帧内预测参数、量化转换系数等语法要素提供给参数编码部111。

熵编码部104被从参数编码部111输入量化转换系数和编码参数(分割信息、预测参数)。熵编码部104对它们进行熵编码，生成并输出编码数据Te。

预测参数推导部120根据从编码参数确定部110输入的参数推导出帧内预测参数和帧间预测参数。推导出的帧间预测参数和帧内预测参数输出至参数编码部111。

加法部106将从预测图像生成部101输入的预测块的像素值和从逆量化/逆转换部105输入的预测误差按每个像素相加来生成解码图像。加法部106将生成的解码图像存储于参照图片存储器109。

环路滤波器107对加法部106所生成的解码图像，实施去块滤波器、SAO、ALF。需要说明的是，环路滤波器107不一定包括上述三种滤波器，例如也可以是仅包括去块滤波器的构成。

预测参数存储器108将编码参数确定部110所生成的预测参数按每个对象图片和CU存储于预定的位置。

参照图片存储器109将环路滤波器107所生成的解码图像按每个对象图片和CU存储于预定的位置。

编码参数确定部110选择编码参数的多个集合中的一个集合。编码参数确定部110将所确定的编码参数输出至参数编码部111和预测参数推导部120。

(NN滤波部的构成例)

图6是表示神经网络滤波部(NN滤波部611)的构成的图。NN滤波部611是对输入图像进行通过神经网络进行的滤波处理的单元，进行等倍或有理数倍的缩小/放大。NN滤波部也可以用于对参照图像实施的环路滤波、根据参照图像的预测图像生成处理、输出图像的后滤波中的任一种。

图6的(a)是环路滤波器的构成例。运动图像解码装置的环路滤波器305(运动图像编码装置的环路滤波器107)具备NN滤波部611。NN滤波部611对参照图片存储器306/106的图像实施滤波，并保存于参照图片存储器306/106。如已说明的那样，环路滤波器可以具备DF、ALF、SAO、双边滤波器等。

图6的(b)是预测图像生成部的构成例。运动图像解码装置、运动图像编码装置的预测图像生成部308具备NN滤波部611。NN滤波部611读出参照图片存储器306/106的图像并实施滤波，生成预测图像。预测图像可以用于CIIP预测、GPM预测、加权预测、BDOF，也可以保持原样地输出至加法部312(在编码装置中为减法部102)。

图6的(c)是后滤波器的构成例。运动图像解码装置之后的后处理部61具备NN滤波部611。NN滤波部611在输出参照图片存储器306的图像时，通过NN滤波部611进行处理并输出至外部。也可以对输出图像进行显示、文件写入、重编码(转码)、传输等。

(去块滤波与NN滤波的切换)

对将NN滤波应用于运动图像解码装置的环路滤波器305(运动图像编码装置的环路滤波器107)进行说明。以下，相对于包括去块滤波的环路滤波器305、107，将包括NN滤波的环路滤波器记为305A、107A。图7是表示环路滤波器305A的构成的图。在本构成中，以区域单位(例如，CTU、32x32、64x64单位等)对NN滤波的打开/关闭进行切换。本构成的环路滤波器305A由DF部601、NN滤波部611、图像切换部621A构成。DF部601由以像素、边界、线段为单位推导出去块滤波的强度bS的bS推导部602以及为了降低块噪声而进行去块滤波处理的DF滤波部603构成。

nn_area_flag是由参数解码部302以规定的单位进行解码的二值的标志。例如，nn_area_flag可以在图片报头、切片报头、图块报头中进行解码，也可以在CTU中解码。此外，也可以以颜色分量为单位进行解码。以下，将区域的左上坐标(xCTU，yCTU)、颜色分量cIdx的nn_area_flag[cIdx][xCTU][yCTU]仅表示为nn_area_flag。颜色分量cIdx取0、1、2的值，该值可以分别表示Y、Cb、Cr，也可以分别表示Y、Co、Cb。此外，也可以表示G、B、R或R、G、B。

nn_area_flag是表示是使用去块滤波601还是使用NN滤波611作为环路滤波器的标志。图像切换部621A具备切换开关631，选择NN滤波611的输出图像和DF部601的输出图像中的一方来输出。切换开关631接收nn_area_flag、DF图像以及NN图像。在此，nnarea_flag是具有0或1的二值的变量。即，根据nn_area_flag的值来切换是将NN滤波部611的输出设为输出图像还是将DF的输出设为输出图像。

就是说，环路滤波器305A在nn_area_flag为1的情况下，对输入图像实施NN滤波，在nn_area_flag为0的情况下，对输入图像实施去块滤波。

NN滤波部611是神经网络，同时具有抑制在预测、转换的块边界产生的去块噪声的效果。DF滤波部603是根据由bS推导部602推导出的bS值来进行滤波处理的滤波器，具有抑制去块噪声的效果。

在图像编码装置中的环路滤波器中，如图8所示，在图像切换部622A中，确定nn_area_flag，并基于此选择DF的输出和NN滤波的输出中的任一方来输出。此外，参数编码部111以规定的单位对nn_area_flag进行编码。需要说明的是，也可以使用在环路滤波器部的外部确定nn_area_flag并输入至环路滤波器的图7的构成。

通过上述的构成，即使在以区域为单位将NN滤波部的输出关闭的情况下，通过使用DF的输出，无论NN滤波打开/关闭，都起到抑制去块噪声的效果。

(NN滤波部611的详情)

NN滤波部611可以输入bS推导部602的输出参数bS[][]来进行神经网络处理。而且，bS推导部602的输出也可以在NN滤波部611中用作与图像不同的通道。就是说，若将对象块的左上坐标设为(xCb，yCb)、宽度设为width、高度设为height，则可以在x＝xCb..xCb+width-1、y＝yCb..yCb+height-1时如下所示进行定义。

inSamples[0][x][y]＝recSamples[cIdx][x][y]

inSamples[1][x][y]＝bS[x][y]

也可以利用bS作为NN滤波部611的输入图像inSamples的一部分(一个通道)，在此，cIdx是颜色分量索引。recSamples[cIdx][x][y]是颜色分量cIdx的图像(解码图像、参照图像)。也可以是recSamples[0][x][y]的亮度图像。

而且，也可以输入最大滤波长度maxFilterLength[][]、longTapEnables[][]来进行神经网络处理。maxFilterLength[][]可以是bS推导部602的输出。longTapEnables[][]是表示是否使用长抽头滤波器的参数。这些参数也可以在NN滤波部611中用作与图像不同的通道。例如，可以如下所示地设定。

inSamples[0][x][y]＝recSamples[cIdx][x][y]

inSamples[1][x][y]＝bS[x][y]

inSamples[2][x][y]＝maxFilterLength[x][y]

或

inSamples[0][x][y]＝recSamples[cIdx][x][y]

inSamples[1][x][y]＝bS[x][y]

inSamples[2][x][y]＝longTapEnables[x][y]

(NN滤波的应用程度的调整)

图9是表示环路滤波器的构成的图。本构成的环路滤波器305B由DF部601、NN滤波部611、图像合成部622B构成。DF部601由推导去块滤波的强度bS的bS推导部602、接收输入图像来进行去块滤波的DF滤波部603构成。

nn_area_weight是具有由参数解码部302以规定的单位进行解码的三值以上的参数，表示NN滤波的应用程度。例如，nn_area_weight可以在图片报头、切片报头、图块报头中进行解码，也可以在CTU中解码。此外，也可以以颜色分量为单位进行解码。以下，将区域的左上坐标(xCTU，yCTU)、颜色分量cIdx的nn_area_weight[cIdx][xCTU][yCTU]仅表示为nn_area_weight。在此，nn_area_weight取0、1、(1＜＜shift)的整数值。

本构成的图像合成部621B对DF部601的输出图像dfSamples[x][y]和NN滤波部611的输出图像nnSamples[x][y]进行加权(加权平均)，合成环路滤波器的输出图像。

如下所示，图像合成部621B使用nn_area_weight将dfSamples和nnSamples合成。

recSamples[x][y]＝(nn_area_weight*dfSamples[x][y]+((1＜＜shift)-nn_area_weight)*nnSamples[x][y]+round)＞＞shift

图像合成部621B能根据nn_area_weight的值来改变DF的输出与NN滤波的输出的比率来进行合成。

已对NN滤波611和DF部601进行了说明，因此省略说明。

如图10所示，编码装置中的环路滤波器在图像合成部622B中确定nn_area_weight并输出。此外，在参数编码部111中按每个规定的单位对nn_area_weight进行编码。

通过上述的构成，即使在根据区域来调整NN滤波部的输出的情况下，通过按每个区域对去块滤波图像和NN滤波图像件加权并合成，也起到抑制去块噪声的效果。

(bS推导部602)

bS推导部602对推导出表示在输入图像resPicture中是否存在分区分割边界、预测块的边界、转换块的边界的边缘度edgeIdc和去块滤波的最大滤波长度maxFilterLength。而且，从edgeIdc和转换块的边界、编码参数推导出去块滤波的强度bS。编码参数例如是表示是否是各CU的预测模式CuPredMode、BDPCM预测模式intra_bdpcm_luma_flag、IBC预测模式的标志、表示运动矢量、参照图片、转换块中是否存在非0系数的标志tu_y_coded_flag、tu_u_coded_flag等。edgeIdc和bS可以取0、1、2的值，也可以是除此以外的值。

bS推导部602根据转换块大小来推导出用于去块滤波的长度的maxFilterLength。bS推导部602推导出用于去块滤波的切换的边缘判定参数dE。

图11是对去块滤波的一个示例进行说明的图。去块滤波在经由块(CTU/CU/TU)边界邻接的像素的像素值之差在预先设定的范围内的情况下判定为存在块失真。然后，通过对输入图像中的该块边界实施去块处理，进行该块边界附近的图像的平滑化。通过去块滤波实施了去块处理的图像是dfSamples。

DF滤波器部603在dE的值为0以外且为3以外的情况下，作为短抽头滤波器进行以下的处理。通过以下的算式进行去块滤波的打开/关闭判定。

abs(p20-2*p10+p00)+abs(p23-2*p13+p03)+abs(q20-2*q10+q00)+abs(q23-2*q13+q03)＜β(算式DB-1)

在此，p2k、p1k、p0k、q0k、q1k、q2k分别是与块边界的距离为2、1、0、0、1、2的像素的列或行。p2k、p1k、p0k是在边界相接的块P、块Q中的块P中所包含的像素，q0k、q1k、q2k是块Q中所包含的像素。k表示块边界方向的像素的编号，k＞＝0。β是从块P和块Q的量化参数的平均值QPavg以及在PPS或切片报头SH中通知的pps_beta_offset_div2、slice_beta_offset_div2推导的阈值。在满足(算式DB-1)的情况下，对块P与块Q的边界打开(实施)去块滤波。此外，通过以下算式进行去块滤波处理。

p2′＝Clip3(p2-2*tc，p2+2*tc，(2*p3+3*p2+p1+p0+q0+4)＞＞3)(算式DB-2)

p1′＝Clip3(p1-2*tc，p1+2*tc，(p2+p1+p0+q0+2)＞＞2)

p0′＝Clip3(p0-2*tc，p0+2*tc，(p2+2*p1+2*p0+2*q0+q1+4)＞＞3)

q0′＝Clip3(q0-2*tc，q0+2*tc，(p1+2*p0+2*q0+2*q1+q2+4)＞＞3)

q1′＝Clip3(q1-2*tc，q1+2*tc，(p0+q0+q1+q2+2)＞＞2)

q2′＝Clip3(q2-2*tc，q2+2*tc，(p0+q0+q1+3*q2+2*q3+4)＞＞3)

(算式DB-2)是对图11中的各k(k＞＝0)通用的处理，因此省略了k。p3、p2、p1、p0、q0、q1、q2、q3分别是距离块边界的距离为3、2、1、0、0、1、2、3像素的列或行。tc是用于抑制滤波处理的变量，是从块P和块Q的量化参数的平均值QPavg以及在PPS或切片报头SH中通知的pps_tc_offset_div2、slice_tc_offset_div2等推导的阈值。

DF滤波部603在dE的值为3的情况下，推导出依赖于中间像素值refMiddle和maxFilterLength的像素值refP、refQ作为长抽头滤波器。

refMiddle＝(p4+p3+2*(p2+p1+p0+q0+q0+q2)+q3+q4+8)＞＞4

refP＝(pmaxFilterLengthP+qmaxFilterLengthP-1)＞＞1

refQ＝(qmaxFilterLengthQ+pmaxFilterLengthQ-1)＞＞1

DF滤波部603使用对象像素pi、refMiddle、refP(qi，refMiddle，refQ)推导出滤波后的像素值。

pi′＝Clip3(pi-(tC*tCPDi＞＞1)，pi+(tC*tCPDi＞＞1)，(refMiddle*fi+refP*(64-fi)+32)＞＞6)

qj′＝Clip3(qj-(tC*tCQDj＞＞1)，qj+(tC*tCQDj＞＞1)，(refMiddle*gj+refQ*(64-gj)+32)＞＞6)

在此，tCPDi、tCQDj分别是由maxFilerLengthP、maxFilterLengthQ决定的规定的值。

(基于TransferFuntion信息/色差参数的亮度/色差NN滤波的切换)

图12是表示使用了TransferFuntion信息/色差参数的亮度/色差NN滤波的图。NN滤波部611具有亮度滤波部711、色差滤波部721，接收TransferFunction信息、色差参数、亮度图像以及色差图像，分别输出实施了NN滤波处理的亮度图像、色差图像。

亮度滤波部711至少输入亮度图像，输出亮度图像。色差滤波部721至少输入色差图像，输出色差图像。色差图像可以同时输入Cb、Cr的两个图像，同时输出两个图像。此外，也可以对色差滤波部721输入亮度图像。也可以对亮度滤波部711、色差滤波部721输入QP值、bS值等编码参数。

TransferFunction信息表示由图像解码装置解码的亮度信号与由显示设备用于显示的亮度值的关系或捕获图像的亮度值与由图像编码装置编码的亮度信号的关系。有时也将前者称为电光传递函数(electronic-opto transfer function：EOTF)，将后者称为光电传递函数(opto-electronic transfer function：OETF)，在此不进行区分。需要说明的是，传递函数能区分是SDR还是HDR，区分HDR信号的种类。需要说明的是，在本实施方式中，TransferFunction信息具有三值以上的值。该值也可以是包含与SDR、PQ、HLG对应的值的构成。色差参数信息是表示亮度(Y)、色差(Cb，Cr)使用哪个颜色空间的值，具有二值以上的值，该值也可以是包含与ITU-RBT.2020(ITU-R BT.2100)、ITU-R BT.709对应的值的构成。根据传递函数/色差参数来进行NN滤波的切换，但是，不进行基于TransferFunction信息的色差NN滤波的切换，此外，不进行基于色差参数的亮度NN滤波的切换。

图13是表示使用了TransferFuntion信息的亮度滤波部的图。亮度滤波部711具有亮度NN滤波部712，接收TransferFuntion信息和亮度图像，生成亮度输出图像。亮度NN滤波部712具有输入层713、中间层714以及输出层715。输入层713接收亮度图像和TransferFunction信息，基于Transferfunction信息，将亮度图像映射至共同的亮度空间，并传递至中间层714。输出层715也接收来自中间层714的输出和TransferFunction信息，将来自中间层714的输出映射至由TransferFunction信息表示的亮度空间，生成亮度输出图像。通过对输入层713和输出层715输入TransferFunction信息，具有能与传递函数无关地共用内部的中间的网络来进行同样的处理的效果。此外，输入TransferFunction信息的输入层713也可以由不具有被称为1x1 Conv的空间扩展，而仅通道间的积和、偏置项的相加以及激活(Activation)构成。此外，1x1 Conv的层不限定于一层，也可以将重叠了多层1x1Conv的层设为输入层713。

输入的通道数为m、输出的通道数为n、核尺寸为k的Conv处理的计算量为k*k*m*n。此外，输入TransferFunction信息的输出层713也可以是上述1x1 Conv。1x1 Conv的计算量为1*1*m*n，与k＝3的3x3Conv相比，计算量为1/9。在上述的构成中，由于不使用3x3这样的空间核，因此在降低处理量的基础上，获得对多个TransferFunction信息的图像进行优选的处理的效果。

神经网络可以反复应用以下的处理。

在Conv中，如以下的算式所示，在输入图像(亮度图像)inSamples中卷积运算核k[mm][i][j]，推导出加上bias的输出图像(亮度输出图像)outSamples。在此，nn＝0..n-1，xx＝0..width-1，yy＝0..height-1。

outSamples[nn][xx][yy]＝∑∑∑(k[mm][i][j]*inSamples[mm][xx+i-of][yy+j-of]+bias[nn])

在1x1 Conv的情况下，∑分别表示mm＝0..m-1，i＝0，j＝0的总和。此时，设定of＝0。在3x3 Conv的情况下，∑分别表示mm＝0..m-1，i＝0..2，j＝0..2的总和。此时，设定of＝1。n是outSamples的通道数，m是inSamples的通道数，width是inSamples和outSamples的宽度，height是inSamples和outSamples的高度。of是设于inSamples的周围的填充的尺寸。

此外，也可以进行由称为Depthwise Conv的以下的公式所示的处理。在此，nn＝0..n-1，xx＝0..width-1，yy＝0..height-1。

outSamples[nn][xx][yy]＝∑∑(k[nn][i][j]*inSamples[nn][xx+i-of][yy+j-of]+bias[nn])

∑分别表示针对i、j的总和。n是outSamples和inSamples的通道数，width是inSamples和outSampleS的宽度，height是inSamples和outSamples的高度。

此外，也可以使用称为Activate(激活)的非线性处理，例如ReLU。

ReLU(x)＝x＞＝0？x：0

此外，也可以使用以下的算式所示的leakyReLU。

leakyReLU(x)＝x＞＝0？x：a*x

在此，a为规定值，例如0.1、0.125。此外，也可以为了设为整数运算而将上述的所有的k(或i、j)、bias、a的值设为整数，在Conv之后进行右位移。

在ReLU中，对于小于0的值始终输出0，对于0以上的值保持输入值不变进行输出。另一方面，在leakyReLU中，对于小于0的值，以通过a设定的梯度进行线性处理。在ReLU中，针对小于0的值的梯度消失，因此，有时学习会难以进展。通过预先在leakyReLU中保留针对小于0的值的梯度，不易引起上述问题。此外，也可以使用上述leakyReLU(x)中的将a的值参数化来使用的PReLU。

图14是表示使用了色差参数的色差滤波部的图。

色差滤波部721具有色差NN滤波部722，接收色差参数和色差图像，生成色差输出图像。色差NN滤波部722具有输入层723、中间层724以及输出层725。输入层723接收色差图像和色差参数，基于色差参数，将色差图像映射至共同的颜色空间，并传递至中间层724。输出层725接收来自中间层724的输出和色差参数，将来自中间层724的输出映射至由色差参数表示的颜色空间，生成色差输出图像。由此，能与颜色空间无关地共用内部的网络，进行同样的处理。此外，输入色差参数的输入层723也可以是不具有被称为1x1 Conv的空间扩展，而仅通道间的积和、偏置项的相加以及激活。此外，输入色差参数的输出层725也可以是上述1x1 Conv。在上述的构成中，由于不使用3x3这样的空间核，因此在降低处理量的基础上，获得能对多个色差参数的图像进行优选的处理的效果。

〔应用例〕

上述运动图像编码装置10和运动图像解码装置30可以搭载于进行运动图像的发送、接收、记录、再现的各种装置而利用。需要说明的是，运动图像可以是通过摄像机等拍摄的自然运动图像，也可以是通过计算机等生成的人工运动图像(包括CG(ComputerGraphics：计算机动画)和GUI(Graphical User Interface：图形用户界面))。

本发明的实施方式并不限定于上述的实施方式，能在权利要求所示的范围内进行各种变更。即，将在权利要求所示的范围内经过适当变更的技术方案组合而得到的实施方式也包括在本发明的技术范围内。

产业上的可利用性

本发明的实施方式能优选地应用于对将图像数据编码而得到的编码数据进行解码的运动图像解码装置，以及生成将图像数据编码而得到的编码数据的运动图像编码装置。此外，能适当地应用于由运动图像编码装置生成并被运动图像解码装置参照的编码数据的数据结构。

Claims

1.一种运动图像解码装置，具备：参数解码部，从编码数据解码滤波参数；DF部，包括推导去块滤波强度bS的bS推导部，对解码图像应用去块滤波；NN滤波部，通过神经网络对所述解码图像应用滤波处理；以及图像合成部，所述运动图像解码装置的特征在于，

所述参数解码部以规定的块单位对表示NN滤波的应用程度的参数进行解码，

所述NN滤波部从所述解码图像输出第一图像，

所述DF部从所述解码图像输出第二图像，

所述图像合成部从所述第一图像、所述第二图像以及所述参数推导出输出图像。

2.根据权利要求1所述的运动图像解码装置，其特征在于，

所述参数是二值的标志，在取第一值的情况下使用所述第一图像，在取第二值的情况下使用所述第二图像来推导出输出图像。

3.根据权利要求1所述的运动图像解码装置，其特征在于，

所述参数是取三值以上的参数，通过所述第一图像与所述第二图像的加权平均来推导出输出图像。

4.根据权利要求1所述的运动图像解码装置，其特征在于，

所述规定的块单位是CTU单位。

5.一种运动图像编码装置，具备：参数编码部，生成滤波参数；DF部，包括推导去块滤波强度bS的bS推导部，进行去块滤波；NN滤波部，通过神经网络进行滤波处理；以及图像合成部，所述运动图像编码装置的特征在于，

所述参数编码部以规定的块单位生成表示NN滤波的应用程度的参数，

所述NN滤波部从所述解码图像输出第一图像，

所述DF部从所述解码图像输出第二图像，

所述图像合成部从所述第一图像、所述第二图像以及所述参数推导出第三图像。

6.根据权利要求5所述的运动图像编码装置，其特征在于，

所述参数是二值的标志，在取第一值的情况下使用所述第一图像，在取第二值的情况下使用所述第二图像来推导出第三图像。

7.根据权利要求5所述的运动图像编码装置，其特征在于，

所述参数是取三值以上的参数，通过所述第一图像与所述第二图像的加权平均来推导出所述第三图像。

8.根据权利要求5所述的运动图像编码装置，其特征在于，

所述规定的块单位是CTU单位。

9.一种运动图像解码装置，其特征在于，

具备：参数解码部，对与传递函数有关的亮度参数进行解码；以及NN滤波部，通过神经网络进行滤波处理，

所述NN滤波部具备对亮度图像进行滤波的亮度NN滤波部，

所述亮度NN滤波部基于所述亮度参数来切换滤波处理。

10.根据权利要求9所述的运动图像解码装置，其特征在于，

所述亮度NN滤波部仅基于所述亮度参数来切换滤波处理。

11.根据权利要求9所述的运动图像解码装置，其特征在于，

所述亮度参数包括三值以上，包括表示SDR、PQ、HLG的值。

12.一种运动图像解码装置，其特征在于，

具备：参数解码部，对与颜色空间有关的色差参数进行解码；以及NN滤波部，通过神经网络进行滤波处理，

所述NN滤波部具备对色差图像进行滤波的色差NN滤波部，

所述色差NN滤波部基于所述色差参数来切换滤波处理。

13.根据权利要求12所述的运动图像解码装置，其特征在于，

所述色差NN滤波部仅基于所述色差参数来切换滤波处理。