CN114025164A - 图像编码方法、图像解码方法、编码器以及解码器 - Google Patents
图像编码方法、图像解码方法、编码器以及解码器 Download PDFInfo
- Publication number
- CN114025164A CN114025164A CN202111162709.8A CN202111162709A CN114025164A CN 114025164 A CN114025164 A CN 114025164A CN 202111162709 A CN202111162709 A CN 202111162709A CN 114025164 A CN114025164 A CN 114025164A
- Authority
- CN
- China
- Prior art keywords
- image
- neural network
- reconstructed image
- filtering
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Neurology (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种图像编码方法、图像解码方法、编码器以及解码器,该图像编码方法包括:获取待编码图像的重建图像;将重建图像分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,以使预设神经网络对每一个网络输入进行滤波,得到滤波重建图像;获取每一个滤波重建图像与待编码图像的差异值;基于差异值大小,选择滤波重建图像对应的目标编码信息,并将目标编码信息编码到待编码图像的码流中。通过上述图像编码方法,本申请能够在神经网络滤波时加入编码信息,提高神经网络的泛化性,加强神经网络的重建质量。
Description
技术领域
本申请涉及视频编解码技术领域,特别是涉及一种图像编码方法、图像解码方法、编码器以及解码器。
背景技术
视频图像数据量比较大,通常需要对视频像素数据(RGB、YUV等)其进行压缩,压缩后的数据称之为视频码流,视频码流通过有线或者无线网络传输至用户端,再进行解码观看。整个视频编码流程包括块划分、预测、变换、量化、编码等过程,后续还可加入各种滤波过程让图像看起来更加自然。
然而,现有的利用神经网络在编解码过程中做滤波的方法中,神经网络的输入通常是当前重建图像,没有结合过多的编解码信息,对于编解码本身产生的信息利用地有限,导致图像滤波后的重建质量不能进一步提高。
发明内容
本申请提供一种图像编码方法、图像解码方法、编码器以及解码器。
为解决上述技术问题,本申请采用的一个技术方案是提供一种图像编码方法,所述图像编码方法包括:
获取待编码图像的重建图像;
将所述重建图像分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,以使所述预设神经网络对所述每一个网络输入进行滤波,得到滤波重建图像;
获取每一个滤波重建图像与所述待编码图像的差异值;
基于所述差异值大小,选择所述滤波重建图像对应的目标编码信息,并将所述目标编码信息编码到所述待编码图像的码流中。
其中,所述编码信息包括划分信息、预测信息、残差信息、量化信息中一种或多种的组合。
其中,所述将所述重建图像分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,以使所述预设神经网络对所述每一个网络输入进行滤波,得到滤波重建图像,包括:
将所述重建图像划分为若干重建子块;
将每一重建子块分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,得到所述预设神经网络输出的滤波重建子块;
将所有滤波重建子块进行组合,得到滤波重建图像;
其中,所述预设神经网络用于替换滤波网络中的传统滤波模块和/或增加到所述滤波网络中,所述传统滤波模块的功能包括去方块滤波、样点自适应补偿滤波、自适应环路滤波以及跨分量自适应环路滤波中的一种或多种。
其中,所述重建图像包括第一分量重建图像、第二分量重建图像以及第三分量重建图像;所述图像编码方法还包括:
将所述第一分量重建图像、所述第二分量重建图像以及所述第三分量重建图像同时输入所述预设神经网络;
获取经过所述预设神经网络滤波后的第一分量重建图像、第二分量重建图像以及第三分量重建图像,并组合成为滤波后的重建图像。
其中,所述重建图像包括第一分量重建图像、第二分量重建图像以及第三分量重建图像;所述图像编码方法还包括:
将所述第一分量重建图像,以及所述第二分量重建图像和所述第三分量重建图像中的一个或两个输入所述预设神经网络;
获取经过所述预设神经网络滤波后的第一分量重建图像。
其中,所述预设神经网络从输入端到输出端依次排列卷积层、激活层、注意力模块以及卷积层,所述预设神经网络还包括从输入端到输出端的残差连接;
其中,所述注意力模块包括通道域注意力模块和/或空间域注意力模块。
其中,所述预设神经网络从输入端到输出端依次排列卷积层、激活层、残差块以及卷积层,所述预设神经网络还包括从输入端到输出端的残差连接,以及作为网络分支插入所述激活层的输出以及后续卷积层的输出之间的注意力模块。
其中,所述预设神经网络从输入端到输出端依次排列多组密集连接模块,其中,所述密集连接模块包括多个卷积层,所述卷积块的输入连接自身的输出和/或其他卷积块的输出。
其中,所述图像编码方法,还包括:
基于编解码结果在码流中编码若干编解码标记,所述编解码标记包括神经网络工具开关句法、帧级开关句法、块级开关句法和/或重建像素值调整句法。
为解决上述技术问题,本申请采用的一个技术方案是提供一种图像解码方法,所述图像解码方法包括:
获取上述的码流及其编解码信息;
基于所述编解码信息中的编解码方式,对所述码流进行解码,得到解码重建图像;
将所述解码重建图像以及所述编码信息输入所述预设神经网络,以使所述预设神经网络基于所述编码信息对所述解码重建图像进行滤波,得到最终重建图像。
其中,所述图像解码方法,还包括:
获取所述码流中的编解码标记;
基于所述编解码标记判断是否采用所述预设神经网络进行滤波;
若是,将所述解码重建图像以及所述编解码信息输入所述预设神经网络。
为解决上述技术问题,本申请采用的一个技术方案是提供一种编码器,所述编码器包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如上述图像编码方法的步骤。
为解决上述技术问题,本申请采用的一个技术方案是提供一种解码器,所述解码器包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如上述图像编码方法的步骤。
为解决上述技术问题,本申请采用的一个技术方案是提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被执行时实现如上述图像编码方法和/或图像解码方法的步骤。
区别于现有技术,本申请的有益效果是:编码器获取待编码图像的重建图像;将重建图像分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,以使预设神经网络对每一个网络输入进行滤波,得到滤波重建图像;获取每一个滤波重建图像与待编码图像的差异值;基于差异值大小,选择滤波重建图像对应的目标编码信息,并将目标编码信息编码到待编码图像的码流中。通过上述图像编码方法,本申请能够在神经网络滤波时加入编码信息,提高神经网络的泛化性,加强神经网络的重建质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的基于注意力机制的神经网络第一实施例的框架示意图;
图2是本申请提供的基于注意力机制的神经网络第二实施例的框架示意图;
图3是本申请提供的基于注意力机制的神经网络第三实施例的框架示意图;
图4是本申请提供的通道域注意力模块的框架示意图;
图5是本申请提供的空间域注意力模块的框架示意图;
图6是本申请提供的通道域注意力模块和空间域注意力模块结合的框架示意图;
图7是本申请提供的基于注意力机制的神经网络第四实施例的框架示意图;
图8是本申请提供的注意力模块第一实施例的框架示意图;
图9是本申请提供的基于注意力机制的神经网络第五实施例的框架示意图;
图10是本申请提供的注意力模块第二实施例的框架示意图;
图11是本申请提供的基于注意力机制的神经网络第六实施例的框架示意图;
图12是本申请提供的注意力模块第三实施例的框架示意图;
图13是本申请提供的基于注意力机制的神经网络第七实施例的框架示意图;
图14是本申请提供的基于密集连接的神经网络第一实施例的框架示意图;
图15是本申请提供的基于密集连接的神经网络第二实施例的框架示意图;
图16是本申请提供的基于密集连接的神经网络第三实施例的框架示意图;
图17是本申请提供的基于密集连接的神经网络第四实施例的框架示意图;
图18是本申请提供的图像编码方法一实施例的流程示意图;
图19是本申请提供的神经网络的应用过程示意图;
图20是本申请提供的图像解码方法一实施例的流程示意图;
图21是本申请提供的编码器一实施例的结构示意图;
图22是本申请提供的解码器一实施例的结构示意图;
图23是本申请提供的计算机存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提出了一种用于图像滤波的卷积神经网络,以及该神经网络在编解码标准中的应用方法。具体地,本申请提供的神经网络可以用于替换编码器和/或解码器中的一个或多个传统滤波模块,也可以作为一个额外的滤波模块插入到滤波系统中,以结合传统滤波模块提高滤波系统的滤波效果。
传统滤波模型能够对重建图像进行环路滤波,即在整帧图像重建出来之后,对重建图像中的像素值进行调整的过程。环路滤波按前后流程排列:去方块滤波(DBF)、样点自适应补偿(SAO)、自适应环路滤波(ALF)、跨分量自适应环路滤波(CCALF)。
具体地,环路滤波中,最先进行去方块滤波,去方块滤波(DBF)技术主要是对分块编码过程中的块边界进行滤波以去除方块效应,大幅改善图像主观质量;然后进行样点自适应补偿(SAO),该技术是通过对像素分类并对每一类的像素加上特定的补偿值的方法,进一步提高图像质量,并能够解决颜色偏移,图像高频信息丢失等问题;然后进行自适应环路滤波(ALF),ALF技术是在编码端用一种菱形滤波器,并用维纳(Wiener Filtering,WF)滤波的方法获取滤波系数,对亮度和色度分量进行滤波,以减少图像失真。跨分量自适应环路滤波(CCALF)技术是利用亮度分量进行维纳滤波后作为调整值对ALF后的色度分量进行进一步调整。
因此,本申请提供的神经网络需要能够实现一种或多种上述环路滤波中的滤波功能。下面先对本申请提供的神经网络进行介绍:
本申请提出了一种基于注意力机制的用于环路滤波的神经网络,该神经网络包括如图1~图3中所示的一种或多种模块,包括注意力模块以及一个从输入端到输出端的残差连接。
其中,注意力模块在神经网络中的结合方式至少包括以下三种:
第一种,如图1所示,注意力模块结合残差块作为神经网络结构中的一个组件,将注意力模块生成的权重直接用于调整注意力模块的输入。具体地,残差块中包含若干卷积层、若干激活层以及一个从输入端到输出端的残差连接。例如,图1中的神经网络结构从输入端到输出端依次排列有卷积层、激活层、注意力模块以及卷积层。
第二种,如图2所示,将注意力模块直接设置在网络主干中,通过加入若干注意力模块,将注意力模块生成的权重直接用于调整注意力模块的输入。其中,网络主干中的多个注意力模块可以相同,也可以不同。例如,图2中的神经网络结构从输入端到输出端依次排列有卷积层、激活层、注意力模块、残差块、注意力模块以及卷积层。
第三种,如图3所示,将注意力模块作为神经网络的网络分支,注意力模块所得到的权重作用在注意力模块的输入经过网络主干若干层,包括卷积层以及激活层等后得到的特征图上。进一步地,神经网络可以设置多个网络分支,每个网络分支中的注意力模块可以相同,也可以不同。例如,图3中的神经网络结构从输入端到输出端依次排列有卷积层、激活层、残差块、卷积层、残差块、卷积层以及卷积层,其中,注意力模块的输入连接激活层的输入,注意力模块的输出连接第二个卷积层的输出。
下面继续介绍注意力模块的具体结构:
本申请提供的注意力模块可以分为三种:
(1)通道域注意力机制模块,如图4所示,特征图经过Pooling(池化),包括maxPooling(最大池化),average Pooling(平均池化)等操作、卷积操作和/或全连接操作等得到与通道数相同长度的权重特征向量,经过Sigmoid(激活)模块处理后将其权重值归一化到[0,1],得到的特征图作为注意力模块的输出。后续与每个通道的每个特征点对应相乘,对应方式为权重向量的第一个值与特征图的第一通道特征图所有值相乘得到第一通道输出,以此类推。
(2)空间域注意力机制模块,如图5所示,特征图经过Pooling(池化),包括maxPooling(最大池化),average Pooling(平均池化)等操作、卷积操作和/或全连接操作等得到与特征图分辨率大小相同的权重特征矩阵,经过Sigmoid模块处理后将其权重值归一化到[0,1],得到的特征图作为注意力模块的输出,后续与每个通道的每个特征点对应相乘,对应方式为权重矩阵的某一位置的权重值与特征图所有通道该位置的值相乘,分别得到所有通道该位置的输出,依次类推得到加权后的特征图。
(3)通道域注意力机制模块和空间域注意力机制模块两者相结合,具体有以下三种结合方式:
(31)特征图先经过通道域注意力机制模块,用其得到的权重加权后,经过空间域注意力机制模块,进行第二次加权。
(32)特征图先经过空间域注意力机制模块,用其得到的权重加权后,经过通道域注意力机制模块,进行第二次加权。
(33)如图6所示,特征图经过通道域注意力机制模块,得到通道域权重,同时经过空间域注意力机制模块,得到空间域权重,将通道域的权重与空间域权重相乘,即通道域的权重每个值与所有空间域权重相乘,得到与特征图每个点都对应的权重,该权重用于与特征图对应相乘。
例如,下面提供一个基于注意力机制的用于滤波的神经网络例子。
神经网路的整体结构如图7所示,包括一个从输入到输出的残差连接,在网络主干中,图像从输入先经过一个卷积层以及ReLU(Rectified Linear Unit,修正线性单元)激活接着经过几个注意力残差结构,最后再经过一个卷积层,通过残差连接做加法后得到输出。其中,注意力残差结构如图7中右边所示,网络主干包含一个卷积一个ReLU激活一个注意力模块,最后连接一个卷积层,整个注意力残差结构还包括一个从输入到输出的残差连接。
其中,图7中的注意力模块具体请继续参阅图8,特征图先经过通道域注意力机制模块,用其得到的权重加权后,经过空间域注意力机制模块,进行第二次加权。其中通道域注意力机制模块通过Max Pooling操作和Sigmoid操作得到权重向量,其中空间域注意力机制模块分别通过Max Pooling操作和Avg Pooling操作得到通道数为2的特征图张量后,经过卷积和Sigmoid得到权重。
下面提供又一个基于注意力机制的用于滤波的神经网络例子。
神经网络的整体结构如图9所示,包括一个从输入到输出的残差连接,在网络主干中,图像从输入经过若干卷积层和激活层接着一个注意力结构,重复经过几次这样的连接,最后接着一个卷积层后得到网络主干的输出,得到的网络主干输出再加上一个从输入到输出的残差连接得到网络输出。
其中,图9中的注意力结构具体请继续参阅图10,输入特征图经过通道域注意力机制模块,得到通道域的权重,同时,输入特征图经过空间域注意力机制模块,得到空间域的权重。将两个权重相乘得到与输入特征图相同大小的权重张量。最后将权重张量与输入特征图张量对应相乘得到注意力模块的输出。其中,通道域注意力机制模块通过Max Pooling操作和Sigmoid操作得到权重向量,其中空间域注意力机制模块分别通过Max Pooling操作和Avg Pooling操作得到通道数为2的特征图张量后,经过卷积和Sigmoid得到权重。
下面提供再一个基于注意力机制的用于滤波的神经网络例子。
神经网络的整体结构如图11所示,包括一个从输入到输出的残差连接,在网络主干中,接入两个不同的注意力结构分支。
其中,图11中的注意力结构具体请继续参阅图12,两个注意力结构分别为通道域注意力机制模块和空间域注意力机制模块。通过通道域注意力机制模块和空间域注意力机制模块得到的通道域的权重和空间域的权重。将两个权重张量分别与对应位置的特征图张量对应相乘,得到的注意力模块的输出特征接入到网络中继续接下来的步骤。其中,通道域注意力机制模块通过Max Pooling操作和Sigmoid操作得到权重向量,其中空间域注意力机制模块分别通过Max Pooling操作和Avg Pooling操作得到通道数为2的特征图张量后,经过卷积和Sigmoid得到权重。
下面提供再一个基于注意力机制的用于滤波的神经网络例子。
神经网络的整体结构如图13所示,包括一个从输入到输出的残差连接,在网络主干中,接入两个不同的注意力结构分支。具体地,在网络主干的输入端先接入一个道域注意力结构分支,然后接入空间域注意力结构分支,最后接入若干卷积层与和若干激活层。
本申请实施例,通过提出了基于注意力机制的用于环路滤波的神经网络,可在网络中不同位置加入注意力模块,可加入基于通道的和或基于空间的注意力模块,由网络不同通道和或图像不同位置重要性的不同添加不同的权重,增强网络滤波性能。
本申请还提出了一种基于密集连接的用于环路滤波的神经网络,该神经网络包括如图14~图16中所示的一种或多种模块以及一个从输入端到输出端的残差连接。
其中,密集连接在神经网络中的结合方式至少包括以下三种:
第一种,如图14所示,密集连接模块内的所有特征图输入输出连接到所有特征图的输入输出。
第二种,如图15所示,密集连接模块内的所有特征图的输入和输出连接到最后的输出上。
第三种,如图16所示,密集连接模块内的输入连接到所有的特征图的输入以及输出。
例如,下面提供一个基于密集连接块的神经网络例子。
如图17所示,图中右侧为神经网络的整体结构,神经网络由网络主干和一个从输入到输出的残差连接组成,神经网络的主干由卷积层、ReLU激活层和若干个密集连接模块DenseBlock组成。密集连接模块DenseBlock的结构如图中左侧所示,密集连接模块DenseBlock内的所有特征图的输入和输出连接到最后的输出上。
本申请实施例,通过提出了基于密集连接的用于环路滤波的神经网络,通过几种不同的密集连接更好地增强网络各层的学习能力,增强网络滤波性能。
本申请还提出了一种基于上述神经网络的图像编码方法,具体请参阅图18和图19,图18是本申请提供的图像编码方法一实施例的流程示意图,图19是本申请提供的神经网络的应用过程示意图。其中,本申请实施例的图像编码方法应用于一种编码器。
如图18所示,本实施例的图像编码方法具体包括以下步骤:
步骤S11:获取待编码图像的重建图像。
在本申请实施例中,如图19所示,上述实施例所示的神经网络可以作用于编码端。
首先,编码端对待编码图像采用预设的编码方式处理得到重建图像。其中,预设的编码方式包括但不限于:划分处理、预测处理、残差处理(变换处理)、量化处理等。在这个编码过程中,编码端基于预设的编码方式及其重建图像获取编码过程中产生的编码信息,例如划分信息、预测信息、残差信息以及量化信息等,用于后续的神经网络输入。
步骤S12:将重建图像分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,以使预设神经网络对每一个网络输入进行滤波,得到滤波重建图像。
在本申请实施例中,编码端将重建图像输入神经网络,并添加划分信息,预测信息、残差信息,量化信息等解码端可获取到的编码信息。其中,在编码过程中,滤波过程之前,以上信息均可获取到。
具体地,编码端可以将单独一种的编码信息结合重建图像输入神经网络,也可以将两种及两种以上的编码信息结合重建图像输入神经网络。
下面详细列出添加上述信息的方法:
(a)在神经网络输入中添加划分信息,即添加一个通道,其分辨率与待滤波图像,即重建图像相同,该通道每个点的值或为1或为0,当前点位置在划分边界时,该值取1反之取0,或者反过来。其中,划分边界包括编码单元划分、预测块划分和变换块划分的一种或多种。
(b)在神经网络输入中添加预测信息,即添加一个通道,其分辨率与待滤波图像,即重建图像相同,该通道每个点的值是该位置经过帧内预测、帧间预测,或其他预测过程得到的预测值。
(c)在神经网络输入中添加残差信息,即添加一个通道,其分辨率与待滤波图像,即重建图像相同,该通道每个点的值是经过变换、量化、反量化、反变换后得到的重建残差值。
(d)在神经网络输入中添加量化信息,即添加一个通道,其分辨率与待滤波图像,即重建图像相同,该通道每个点的值,可取该帧的sliceQP,或Q_step值,或在开启码率控制的情况下,取每个像素点对应图像块的QP(Quantizer Parameter,量化参数)值。
进一步地,由于重建图像一般都具有YUV三种颜色分量,通过网络配置,可以将神经网络设置为同时对三种颜色分量进行滤波,也可以分别对三种颜色分量进行滤波。具体地,本申请实施例对于不同的颜色分量,给出以下两种方法:
(a)至少2个分量一起输入,输出至少2个分量的滤波重建图像。
(b)至少2个分量一起输入,输出1个分量的滤波重建图像。
例如,对于具有YUV三个分量的编解码过程中,对Y分量单独训练一个模型,UV分量训练同一个模型。
Y分量的模型的输出为Y分量经神经网络滤波后的重建图,输入为:
(1)经过神经网络滤波前的Y分量重建图像;
(2)经过神经网络滤波前的U分量重建图像;
(3)经过神经网络滤波前的V分量重建图像;
(4)Y分量的划分信息产生的分辨率相同的特征图;
(5)Y分量的残差信息产生的分辨率相同的特征图;
(6)Y分量的量化信息中的每帧的sliceQP产生的分辨率相同的特征图。
U分量的模型的输出为U分量经神经网络滤波后的重建图,输入为:
(1)经过神经网络滤波前的Y分量重建图像;
(2)经过神经网络滤波前的U分量重建图像;
(4)U分量的划分信息产生的分辨率相同的特征图;
(5)U分量的残差信息产生的分辨率相同的特征图;
(6)U分量的量化信息中的每帧的sliceQP产生的分辨率相同的特征图。
V分量的模型的输出为V分量经神经网络滤波后的重建图,输入为:
(1)经过神经网络滤波前的Y分量重建图像;
(2)经过神经网络滤波前的V分量重建图像;
(3)V分量的划分信息产生的分辨率相同的特征图;
(4)V分量的残差信息产生的分辨率相同的特征图;
(5)V分量的量化信息中的每帧的sliceQP产生的分辨率相同的特征图。
进一步地,编码端还可以重建图像划分为若干重建子块;将每一重建子块分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,得到预设神经网络输出的滤波重建子块;将所有滤波重建子块进行组合,得到滤波重建图像。过程与上述内容一致,在此不再赘述。
步骤S13:获取每一个滤波重建图像与所述待编码图像的差异值。
在本申请实施例中,调整重建值的主要思想:将神经网络的输入分块,将每一块X输入到神经网络中滤波,得到神经网络滤波后的重建图像图像块Y,获取该重建块位置对应的原始图像块Y_org,获取合适的缩放因子scale,使得其在设定的度量D下,D((Y-X)·scale+X,Y_org)最接近0。
编解码端可采用帧级或块级的缩放因子。若某一图像增加帧级的缩放因子,则需要将残差图像乘以帧级缩放因子,再加上网络输入图像得到最终输出图像;若某一图像增加块级缩放因子,即每个块的缩放因子可以不同,此时则需要对每个残差图像块乘以各自的缩放因子,再加上网络输入图像得到最终输出图像。
编码端将不同编码信息或者不同编码信息组合结合重建图像输入神经网络,分别得到对应的滤波重建图像。然后,编码端计算每一个滤波重建图像与待编码图像的差异值,用差异值来表征神经网络添加编码信息后的滤波效果。其中,差异值可以由滤波重建图像与待编码图像的像素值差值计算得到。
步骤S14:基于差异值大小,选择滤波重建图像对应的目标编码信息,并将目标编码信息编码到待编码图像的码流中。
在本申请实施例中,编码端可以选择所有待编码图像与过滤重建图像之间的差异值中的最小值对应的编码信息作为目标编码信息,并将目标编码信息写入待编码图像的编码码流中,以供解码端按照该编码信息对编码码流进行解码,以及重建图像滤波。
进一步地,编码端在获取待编码图像的编码码流后,还需要在编码码流中配置相关的句法元素,具体的句法元素及其介绍如下:
神经网络工具开关句法:
神经网络应用时可以设置一个神经网络工具开关句法,表示当前序列的编解码是否采用神经网络滤波,如不使用则无需传输其他句法。
帧级、块级开关句法:
如果神经网络工具开关开启,神经网络应用时可以给每一帧设置一个开关句法,表示一帧是否采用神经网络滤波。
如果某一帧的神经网络滤波开关打开,神经网络应用时给每一个p编码块,包括编码块为最大编码单元的情况,提供一个开关,用于控制当前帧或当前编码块是否能使用该神经网络。也需要将该开关作为一个句法元素进行传输。
重建像素值调整句法:
如果神经网络工具开关开启,当前帧的神经网络滤波开关打开,需要传输用于重建像素值调整的句法。若某一图像增加帧级的缩放因子,则需要传输帧级别缩放因子句法;若某一图像增加块级缩放因子,即每个块的缩放因子可以不同,块级缩放因子需要作为句法元素传输。
在本申请实施例中,编码端获取待编码图像的重建图像;将重建图像分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,以使预设神经网络对每一个网络输入进行滤波,得到滤波重建图像;获取每一个滤波重建图像与待编码图像的差异值;基于差异值大小,选择滤波重建图像对应的目标编码信息,并将目标编码信息编码到待编码图像的码流中。通过上述图像编码方法,本申请能够在神经网络滤波时加入编码信息,提高神经网络的泛化性,加强神经网络的重建质量。
请继续参阅图20,图20是本申请提供的图像解码方法一实施例的流程示意图。在本申请实施例中,如图19所示,上述实施例所示的神经网络可以作用于解码端。
如图20所示,本实施例的图像解码方法具体包括以下步骤:
步骤S21:获取码流及其编码信息。
步骤S22:对码流进行解码,得到解码重建图像。
在本申请实施例中,解码器解码相关句法元素,得到神经网络滤波开关开启情况,确认神经网络滤波的范围。
步骤S23:将解码重建图像以及编码信息输入预设神经网络,以使预设神经网络基于编码信息对解码重建图像进行滤波,得到最终重建图像。
在本申请实施例中,解码器将解码重建图像以及编码信息构建神经网络的输入,进行滤波,以得到最终的重建图像。其中,编码信息是编码阶段中编码器通过比较不同的编码信息得到的目标编码信息,或者预设的一种最佳编码信息。
具体地,解码器将网络输入分块,对滤波状态开启的子块,输入到神经网络中滤波,得到网络滤波后的重建图像图像块,并重组得到最终的重建图像。
在本申请中,提出了在网络输入中结合更多的编解码中信息的方法,使得网络能更好地针对当前序列特点进行滤波,在网络的学习中也可以提高泛化性,进一步加强网络滤波后的重建质量;提出了在神经网络滤波后对其重建图像进行进一步调整的方法,包括了对重建值的调整以及对块是否使用神经网络滤波开关的确定,进一步的利用了编码器的自适应性,更好的提升重建图像质量。
为实现上述实施例的图像编码方法,本申请提出了一种编码器,具体请参阅图20,图20是本申请提供的编码器一实施例的结构示意图。
编码器300包括存储器31以及处理器32,其中,存储器31与处理器32耦接。
存储器31用于存储计算机程序,处理器32用于执行计算机程序以实现上述实施例的图像编码方法。
在本实施例中,处理器32还可以称为CPU(Central Processing Unit,中央处理单元)。处理器32可能是一种集成电路芯片,具有信号的处理能力。处理器32还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器32也可以是任何常规的处理器等。
为实现上述实施例的图像解码方法,本申请提出了一种解码器,具体请参阅图21,图21是本申请提供的解码器一实施例的结构示意图。
解码器400包括存储器41以及处理器42,其中,存储器41与处理器42耦接。
存储器41用于存储计算机程序,处理器42用于执行计算机程序以实现上述实施例的图像解码方法。
在本实施例中,处理器42还可以称为CPU(Central Processing Unit,中央处理单元)。处理器42可能是一种集成电路芯片,具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器42也可以是任何常规的处理器等。
本申请还提供一种计算机存储介质,请继续参阅图22,图22是本申请提供的计算机存储介质一实施例的结构示意图,该计算机存储介质600中存储有计算机程序61,该计算机程序61在被处理器执行时,用以实现上述实施例的图像编码方法和/或图像解码方法。
本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (14)
1.一种图像编码方法,其特征在于,所述图像编码方法包括:
获取待编码图像的重建图像;
将所述重建图像分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,以使所述预设神经网络对所述每一个网络输入进行滤波,得到滤波重建图像;
获取每一个滤波重建图像与所述待编码图像的差异值;
基于所述差异值大小,选择所述滤波重建图像对应的目标编码信息,并将所述目标编码信息编码到所述待编码图像的码流中。
2.根据权利要求1所述的图像编码方法,其特征在于,
所述编码信息包括划分信息、预测信息、残差信息、量化信息中一种或多种的组合。
3.根据权利要求1所述的图像编码方法,其特征在于,
所述将所述重建图像分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,以使所述预设神经网络对所述每一个网络输入进行滤波,得到滤波重建图像,包括:
将所述重建图像划分为若干重建子块;
将每一重建子块分别结合不同的编码信息作为不同的网络输入,分别输入到预设神经网络,得到所述预设神经网络输出的滤波重建子块;
将所有滤波重建子块进行组合,得到滤波重建图像;
其中,所述预设神经网络用于替换滤波网络中的传统滤波模块和/或增加到所述滤波网络中,所述传统滤波模块的功能包括去方块滤波、样点自适应补偿滤波、自适应环路滤波以及跨分量自适应环路滤波中的一种或多种。
4.根据权利要求1所述的图像编码方法,其特征在于,
所述重建图像包括第一分量重建图像、第二分量重建图像以及第三分量重建图像;所述图像编码方法还包括:
将所述第一分量重建图像、所述第二分量重建图像以及所述第三分量重建图像同时输入所述预设神经网络;
获取经过所述预设神经网络滤波后的第一分量重建图像、第二分量重建图像以及第三分量重建图像,并组合成为滤波后的重建图像。
5.根据权利要求1所述的图像编码方法,其特征在于,
所述重建图像包括第一分量重建图像、第二分量重建图像以及第三分量重建图像;所述图像编码方法还包括:
将所述第一分量重建图像,以及所述第二分量重建图像和所述第三分量重建图像中的一个或两个输入所述预设神经网络;
获取经过所述预设神经网络滤波后的第一分量重建图像。
6.根据权利要求1所述的图像编码方法,其特征在于,
所述预设神经网络从输入端到输出端依次排列卷积层、激活层、注意力模块以及卷积层,所述预设神经网络还包括从输入端到输出端的残差连接;
其中,所述注意力模块包括通道域注意力模块和/或空间域注意力模块。
7.根据权利要求1所述的图像编码方法,其特征在于,
所述预设神经网络从输入端到输出端依次排列卷积层、激活层、残差块以及卷积层,所述预设神经网络还包括从输入端到输出端的残差连接,以及作为网络分支插入所述激活层的输出以及后续卷积层的输出之间的注意力模块。
8.根据权利要求1所述的图像编码方法,其特征在于,
所述预设神经网络从输入端到输出端依次排列多组密集连接模块,其中,所述密集连接模块包括多个卷积层,所述卷积块的输入连接自身的输出和/或其他卷积块的输出。
9.根据权利要求1所述的图像编码方法,其特征在于,
所述图像编码方法,还包括:
基于编解码结果在码流中编码若干编解码标记,所述编解码标记包括神经网络工具开关句法、帧级开关句法、块级开关句法和/或重建像素值调整句法。
10.一种图像解码方法,其特征在于,所述图像解码方法包括:
获取权利要求1-9任意一项所述的码流及其编码信息;
对所述码流进行解码,得到解码重建图像;
将所述解码重建图像以及所述编码信息输入所述预设神经网络,以使所述预设神经网络基于所述编码信息对所述解码重建图像进行滤波,得到最终重建图像。
11.根据权利要求10所述的图像解码方法,其特征在于,
所述图像解码方法,还包括:
获取所述码流中的编解码标记;
基于所述编解码标记判断是否采用所述预设神经网络进行滤波;
若是,将所述解码重建图像以及所述编解码信息输入所述预设神经网络。
12.一种编码器,其特征在于,所述编码器包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如权利要求1~9中任一项所述图像编码方法的步骤。
13.一种解码器,其特征在于,所述解码器包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如权利要求10~11中任一项所述图像解码方法的步骤。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被执行时实现如权利要求1~8中任一项所述图像编码方法和/或10~11中任一项所述图像解码方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111162709.8A CN114025164A (zh) | 2021-09-30 | 2021-09-30 | 图像编码方法、图像解码方法、编码器以及解码器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111162709.8A CN114025164A (zh) | 2021-09-30 | 2021-09-30 | 图像编码方法、图像解码方法、编码器以及解码器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114025164A true CN114025164A (zh) | 2022-02-08 |
Family
ID=80055252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111162709.8A Pending CN114025164A (zh) | 2021-09-30 | 2021-09-30 | 图像编码方法、图像解码方法、编码器以及解码器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114025164A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023221599A1 (zh) * | 2022-05-18 | 2023-11-23 | 腾讯科技(深圳)有限公司 | 图像滤波方法、装置及设备 |
WO2023240618A1 (zh) * | 2022-06-17 | 2023-12-21 | Oppo广东移动通信有限公司 | 一种滤波方法、解码器、编码器及计算机可读存储介质 |
WO2024145745A1 (zh) * | 2023-01-03 | 2024-07-11 | Oppo广东移动通信有限公司 | 编解码方法、装置、编码设备、解码设备以及存储介质 |
WO2024145988A1 (en) * | 2023-01-03 | 2024-07-11 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Neural network-based in-loop filter |
WO2024145744A1 (zh) * | 2023-01-03 | 2024-07-11 | Oppo广东移动通信有限公司 | 编解码方法、装置、编码设备、解码设备以及存储介质 |
WO2024149367A1 (zh) * | 2023-01-13 | 2024-07-18 | 杭州海康威视数字技术股份有限公司 | 图像解码和编码方法、装置、设备及存储介质 |
WO2024178565A1 (zh) * | 2023-02-27 | 2024-09-06 | 上海交通大学 | 一种解码方法、解码器以及存储介质 |
-
2021
- 2021-09-30 CN CN202111162709.8A patent/CN114025164A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023221599A1 (zh) * | 2022-05-18 | 2023-11-23 | 腾讯科技(深圳)有限公司 | 图像滤波方法、装置及设备 |
WO2023240618A1 (zh) * | 2022-06-17 | 2023-12-21 | Oppo广东移动通信有限公司 | 一种滤波方法、解码器、编码器及计算机可读存储介质 |
WO2024145745A1 (zh) * | 2023-01-03 | 2024-07-11 | Oppo广东移动通信有限公司 | 编解码方法、装置、编码设备、解码设备以及存储介质 |
WO2024145988A1 (en) * | 2023-01-03 | 2024-07-11 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Neural network-based in-loop filter |
WO2024145744A1 (zh) * | 2023-01-03 | 2024-07-11 | Oppo广东移动通信有限公司 | 编解码方法、装置、编码设备、解码设备以及存储介质 |
WO2024149367A1 (zh) * | 2023-01-13 | 2024-07-18 | 杭州海康威视数字技术股份有限公司 | 图像解码和编码方法、装置、设备及存储介质 |
WO2024178565A1 (zh) * | 2023-02-27 | 2024-09-06 | 上海交通大学 | 一种解码方法、解码器以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114025164A (zh) | 图像编码方法、图像解码方法、编码器以及解码器 | |
US7136536B2 (en) | Adaptive filter | |
KR102165155B1 (ko) | 공간적으로 확장 가능한 비디오 코딩을 위한 적응적 보간 | |
RU2461977C2 (ru) | Сжатие и снятие сжатия изображения | |
JP7350082B2 (ja) | ループフィルタリング方法、装置およびコンピュータ記憶媒体 | |
CN113747179B (zh) | 环路滤波实现方法、装置及计算机存储介质 | |
CN112544081B (zh) | 环路滤波的方法与装置 | |
CN113497941A (zh) | 图像滤波方法、编码方法及相关设备 | |
WO2021203394A1 (zh) | 环路滤波的方法与装置 | |
JP2009503977A (ja) | 多次元デジタル信号のフィルタリング方法及び装置、並びに、関連する符号化/復号化方法及び装置 | |
CN113766248B (zh) | 环路滤波的方法与装置 | |
JP2022525235A (ja) | フィルタリング方法及び装置、コンピュータ記憶媒体 | |
Huang et al. | Adaptive deep reinforcement learning-based in-loop filter for VVC | |
EP3941057A1 (en) | Filtering method and device, encoder and computer storage medium | |
CN114830663A (zh) | 变换方法、编码器、解码器以及存储介质 | |
CN115552905A (zh) | 用于图像和视频编码的基于全局跳过连接的cnn滤波器 | |
CN116634157A (zh) | 图像编解码方法、编码器、解码器以及存储介质 | |
CN114463453A (zh) | 图像重建、编码解码方法、相关装置 | |
WO2022155923A1 (zh) | 编码方法、解码方法、编码器、解码器以及电子设备 | |
CN110063059A (zh) | 用于基于码流标志的视频编码的帧内锐化和/或去振铃滤波器 | |
Santamaria et al. | Overfitting multiplier parameters for content-adaptive post-filtering in video coding | |
US8989278B2 (en) | Method and device for coding a multi dimensional digital signal comprising original samples to form coded stream | |
US20210344924A1 (en) | Method for processing information, encoder and decoder | |
US20190320208A1 (en) | Data processing systems for encoding video data | |
WO2023193254A1 (zh) | 解码方法、编码方法、解码器以及编码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |