CN112911286A

CN112911286A - 一种分像素插值滤波器的设计方法

Info

Publication number: CN112911286A
Application number: CN202110133119.6A
Authority: CN
Inventors: 张秋阳; 黄晓峰; 殷海兵
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-06-04
Anticipated expiration: 2041-01-29
Also published as: CN112911286B

Abstract

本发明属于图像/视频压缩领域，涉及一种基于新型损失函数和可变形卷积的分像素插值滤波器的设计方法，包括：步骤1，在准备训练数据时，采用运动模糊的方式，对高分辨率图像进行降采样操作；步骤2，数据训练过程中，输入降采样后的图像，使用残差学习技术，经过神经网络得到新型损失函数；步骤3，使用新型损失函数训练带有可变形卷积层的神经网络，生成所需残差图像。本发明的新型损失函数既能反映失真同时也考虑了码率；可变形卷积可以更灵活地适应不同的视频图像，从而达到提升编码效果的目的。

Description

一种分像素插值滤波器的设计方法

技术领域

本发明属于图像/视频压缩领域，涉及一种基于新型损失函数和可变形卷积的分像素插值滤波器的设计方法。

背景技术

随着互联网的发展，整个网络环境中的图像，视频数据呈现爆炸性增长，为了节省传输带宽以及本地的存储成本，这要求互联网有更强的网络传输能力，即需要更高效的图像/视频压缩算法。在现有的视频编解码框架中，帧间预测起着减小时间冗余度的作用，而其中的分像素插值模块针对的是亚像素级运动的情况。在传统视频编码标准中，使用的是基于DCT设计的固定抽头滤波器，有计算简单的优势，但同时也有参考像素少，插值效果差的问题。

近年来，基于深度学习的分像素插值滤波器设计展现出巨大的潜力。神经网络对于复杂视频图像的插值相较于传统滤波器有着较明显的优势，即更大的感受野以及更多更精确的参数。通过大量样本的学习后，基于神经网络的滤波器可以得到更好的结果。

当前在基于深度学习的分像素插值滤波器设计这一领域，主要的研究方向有两个：一是更好的网络结构，传统卷积神经网络的卷积核是固定的方形，内部的参数也固定不变，无法适应多变的视频要素，不够灵活；二是更好的损失函数，在现有的技术中，均方差(MSE)函数被用作神经网络训练时的损失函数，MSE函数反映地是两张图像残差的绝对和，从而减小失真，但在视频编码算法的评判中，码率同样是非常重要的一部分，而影响码率的主要是残差的分布情况，MSE函数显然无法适用，当前大部分工作使用的MSE函数只能影响失真而不能影响码率，需要引进新的损失函数。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出一种基于新型损失函数和可变形卷积的分像素插值滤波器的设计方法，其具体技术方案如下。

一种分像素插值滤波器的设计方法，包括如下步骤：

步骤1，在准备训练数据时，采用运动模糊的方式，对高分辨率图像进行降采样操作；

步骤2，数据训练过程中，输入降采样后的图像，使用残差学习技术，经过神经网络得到新型损失函数；

步骤3，使用新型损失函数训练带有可变形卷积层的神经网络，生成所需残差图像。

进一步的，所述步骤1具体包括：通过不同的运动模糊核长度与核方向，对高分辨率图像加入运动模糊后进行降采样，表达式为：

B＝C(L，β)*X+N

其中B为最终的模糊图像，C为运动模糊核，L为模糊核的长度，β为模糊核的方向，X为原始图像，N为噪声。

进一步的，所述步骤2具体包括：

步骤2.1，经过神经网络产生的残差图像除了与原始输入图像相加并与目标图像作MSE之外，还单独输出到一个特殊的层中进行离散余弦变换操作以及量化操作：

output＝max(0，T(input)％Q)

其中T代表DCT，Q代表量化步长，output为经过神经网络产生的残差图像，input为原始输入图像；

步骤2.2，将残差图像转换为数值集中在左上方且其余位置均为0的矩阵，随后将该矩阵输入码率估计层中，所述码率估计层根据所述矩阵中的数值大小和数量估计出编码后码流的长度：

L_ij为量化后变换单元TU中的参数，N为变换单元TU的大小，N²为TU中的参数的数量，码流的长度作为最终loss函数的一部分，则最后的loss函数可表示为：

loss_总＝α·loss_MSE+β·loss_bitrate

其中α和β是调整两个loss比例关系的权重参数，loss_MSE代表均方差MSE损失函数，loss_bitrate＝length_bit代表码率损失函数。

进一步的，所述可变形卷积表示为：

y(p_x)＝∑W(p_x+p_y)·X(p_x+p_y+Δp_y)·Δm_y

其中p_x为卷积的位置，p_y为向相邻八个像素移动的向量，Δp_y为一个额外的移动向量，Δm_y为0到1之间的系数，Δp_y使得卷积核的每个点不固定于原本的位置从而改变卷积点的感受野，Δm_y控制每个像素点参与卷积的程度。

本发明的设计方法，新型损失函数既能反映失真同时也考虑了码率；可变形卷积可以更灵活地适应不同的视频图像，从而达到提升编码效果的目的。

附图说明

图1是本发明的整体框架示意图；

图2是本发明的运动模糊生成图像示例图；

图3是本发明的可变形网络结构示意图；

图4是本发明的3x3可变形卷积示例图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图对本发明作进一步详细说明。

如图1和图2所示，一种基于新型损失函数和可变形卷积的分像素插值滤波器的设计方法，在准备训练数据时，使用运动模糊的方法来替换传统的高斯模糊方法，具体的，在分像素插值滤波器设计的任务中，由于分像素位置有3个二分之一位和12个四分之一位，所以在训练时需要训练不同的模型来对应不同位置的插值，根据上述特殊性，在准备训练样本时需要准备15个不同位置的样本。传统的高斯模糊方法是对高分辨率图像进行高斯模糊再降采样，这样不够有效。本发明采用运动模糊的方式，通过不同的运动模糊核长度与核方向，对高分辨率图片加入运动模糊后进行降采样，该操作可表示为：

B＝C(L，β)*X+N

在训练阶段，由于视频编码过程中离散余弦变换的量化参数QP的不同会导致编码噪声不同，所以需要训练针对4个不同QP的模型，结合所述的15个分像素位置，总计需要训练60个模型。训练过程中使用了残差学习的方式，经由最后一个卷积层产生的残差图像除了与输出相加并与目标图像进行MSE计算外，还需单独输入一个特殊层进行变换量化操作，输出的频域图像再进行码率估计得到码率长度，二者加权求和后进行反向传播。

所述新型损失函数，既包括MSE损失函数，还包括基于离散余弦变换、量化以及编码码率估计的码率损失函数。

在训练阶段中，使用残差学习技术时，经过神经网络产生的残差图像除了与原始输入图像相加并与目标图像作MSE之外，还会单独输出到一个特殊的层中进行离散余弦变换操作以及量化操作：

output＝max(0，T(input)％Q)

其中T代表DCT，Q代表量化步长。在进行如上操作后，残差图像转换为数值集中在左上方且其余位置均为0的矩阵。随后将该矩阵输入一个专门的码率估计层中，该层会根据所述矩阵中的数值大小和数量估计出编码后码流的长度：

L_ij为量化后变换单元TU中的参数，N为变换单元TU的大小，N²为TU中的参数的数量，码流的长度将作为最终loss函数的一部分，如此一来就做到了码流和失真的双重优化，最大程度的提升BDrate的表现。最后的loss函数可表示为：

loss_总＝α·loss_MSE+β·loss_bitrate

其中loss_MSE代表MSE损失函数，loss_bitrate＝length_bit代表码率损失函数，α和β是调整两个loss函数比例关系的权重参数。

上述方法将单一MSE函数所考虑不到的码率也包含进了神经网络的训练阶段，经由这种函数训练的神经网络可以生成更加平滑同时MSE也更小的残差图像，从而达到降低BDrate的最终目的。

传统的卷积操作表示为：

y(p_x)＝∑W(p_x+p_y)·X(p_x+p_y)

其中p_x为卷积的位置，p_y为向相邻八个像素移动的向量。传统的卷积操作形状固定，参数固定。

如图3所示，带有可变形卷积层的新型神经网络结构，本发明的可变形卷积可表示为：

y(p_x)＝∑W(p_x+p_y)·X(p_x+p_y+Δp_y)·Δm_y

其中Δp_y为一个额外的移动向量，Δm_y为0到1之间的系数。Δp_y可以使卷积核的每个点不再固定于原本的位置从而改变卷积点的感受野，可以更加明确地参考到输入图上特征地形状；Δm_y则控制着每个像素点参与卷积的程度，通过Δm_y的变化可以更好地控制卷积操作的合理性甚至舍弃一些点使其不参与卷积，比如将其Δm_y置为0。

下表为本文所提出的可变形卷积网络的卷积核参数细节。Kernel Size代表卷积核的大小，padding代表填充0的行列数，stride代表卷积核移动的步长。

如图4所示是一个3x3可变形卷积的示例图，在原本的卷积层外，还有一个特殊的卷积层，该层可以通过运算计算出每个卷积点对应的Δp_y和Δm_y并将其存储在一个3K个通道的矩阵中，K的值即卷积核的大小，此处为9，随后这些值被送入可变形卷积层中进行可变形卷积运算。通过这种特殊的卷积方式，可以更灵活地适应各种输入图像。

如下为本发明的技术效果数据表：

BDrate	DINIF	CNNIF	GVNIF	InvIF	Ours
						ClassB	-0.6％	-2.1％	-3.3％	-3.4％	-3.6％
ClassC	-1.0％	-1.1％	-2.2％	-2.1％	-2.2％
						ClassD	-1.3％	-0.9％	-2.2％	-1.8％	-2.0％
ClassE	-0.9％	-1.5％	-2.2％	-2.6％	-2.9％
						ClassF	-0.6％	-0.8％	-0.9％	-1.6％	-1.8％
All	-0.9％	-1.3％	-2.2％	-2.3％	-2.5％

Claims

1.一种分像素插值滤波器的设计方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种分像素插值滤波器的设计方法，其特征在于，所述步骤1具体包括：通过不同的运动模糊核长度与核方向，对高分辨率图像加入运动模糊后进行降采样，表达式为：

B＝C(L，β)*X+N

3.如权利要求1所述的一种分像素插值滤波器的设计方法，其特征在于，所述步骤2具体包括：

output＝max(0，T(input)％Q)

loss_总＝α·loss_MSE+β·loss_bitrate

4.如权利要求1所述的一种分像素插值滤波器的设计方法，其特征在于，所述可变形卷积表示为：

y(p_x)＝∑W(p_x+p_y)·X(p_x+p_y+Δp_y)·Δm_y