CN114022809A

CN114022809A - 基于改进自编码网络的视频运动放大方法

Info

Publication number: CN114022809A
Application number: CN202111265525.4A
Authority: CN
Inventors: 但志平; 张骁; 李勃辉; 方帅领
Original assignee: China Three Gorges University CTGU
Current assignee: China Three Gorges University CTGU
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-08

Abstract

本发明涉及基于改进自编码网络的视频运动放大方法，利用改进自编码网络对视频中的细微变化进行放大，所述方法包括：对视频数据进行分解处理，采用分解的前后连续两帧图像作为编码器的输入；利用编码器提取连续两帧图像的形状特征，作为放大器的输入；利用放大器对两帧图像形状特征的像素位移差值进行放大，得到放大的形状特征；利用解码器对前帧图像的纹理特征进行上采样，并将纹理特征与放大的形状特征结合，得到放大帧并输出。本发明的方法实现了视频运动放大图像中形状、纹理特征的完美融合，减少了视频运动放大的亮度、色彩、纹理损失，使浅层特征信息得以保留。

Description

基于改进自编码网络的视频运动放大方法

技术领域

本发明属于图像处理领域，具体涉及一种基于改进自编码网络的视频运动放大方法。

背景技术

大部分研究往往都是针对人们肉眼很容易观察到的信息，而视频中一些重要的变化信息我们无法使用计算机进行处理。针对这一研究现状，麻省理工团队提出的一种被称为“运动显微镜”的视频运动放大技术，可以辅助获取这些重要信息。视频运动放大技术能够将视频中的细微变化放大到肉眼能够观察的幅度，如检测血液循环流动、微表情识别等。但随着视频放大倍数的不断增加，视频图像信息会存在过度模糊以及大量的噪声伪影，可能会导致运动物体轮廓消失，改变运动的真实性。

最早提出针对视频运动放大的研究技术是基于流体力学的方法，该方法对特征点的聚类跟踪来实现动作放大，存在的缺点是全程需要人为操作且计算复杂度较高。而后出现针对图像处理的欧拉放大方法，开创性的使用像素点的变化，对感兴趣的区域进行增强放大，为后视频图像放大上提供了方法和依据。

随着深度学习方法的研究逐渐深入，提出一种基于深度学习方法，该方法解决了传统手工设计滤波器的问题，但对于高放大倍数的视频仍然存在图像失真、伪影和轮廓变形等现象。尽管图像纹理特征在自编码网络中没有被放大，但依然存在局部色彩变化，图像亮度、对比度减弱等问题。同时，图像纹理特征与形状特征融合存在色彩缺失现象，严重时很可能造成棋盘效应。

发明内容

本发明的针对的技术问题是现有的基于深度学习的视频运动放大方法有图像失真、伪影和轮廓变形，图像纹理特征与形状特征融合存在色彩缺失甚至棋盘效应的现象。

本发明的目的是解决上述存在问题，提供一种基于改进自编码网络的视频运动放大方法，对自编码网络进行改进，增加可变形卷积和通道注意力机制，利用通道注意力机制的特性，对色彩、纹理变化不一致区域分配不同的权重信息，更好地将浅层的图像纹理特征与深层次的结构信息融合；采用可变形卷积提取图像中变化的形状特征，拓宽卷积视野，自适应调整卷积核的形状，融合更多的空间结构信息，提高网络的去噪能力，确保网络提取图像中更精确的动态变化特征信息；利用改进自编码网络对视频中的细微变化进行放大，尽可能减少亮度、色彩、纹理损失。

本发明的技术方案是基于改进自编码网络的视频运动放大方法，利用改进自编码网络对视频中的细微变化进行放大，所述改进自编码网络包括编码器、放大器和解码器，编码器采用通道注意力机制、可变形卷积提高自编码网络对图像纹理、形状特征的提取能力。改进自编码网络的编码器包括纹理特征提取单元和形状特征提取单元，纹理特征提取单元采用通道注意力机制，形状特征提取单元包括卷积层、可变形卷积和残差块。

所述视频运动放大方法包括以下步骤：

步骤1：对视频数据进行分解处理，采用分解的前后连续两帧图像作为编码器的输入；

步骤2：利用编码器提取连续两帧图像的形状特征，作为放大器的输入；

步骤3：利用放大器对两帧图像形状特征的像素位移差值进行放大，得到放大的形状特征；

步骤4：利用解码器对前帧图像的纹理特征进行上采样，并将纹理特征与放大的形状特征结合，得到放大帧并输出；

步骤4.1：利用解码器对编码器输出的前帧图像的纹理特征进行上采样，确保纹理特征和放大的形状特征尺寸相同；

步骤4.2：将上采样得到的纹理特征与放大的形状特征融合，得到放大帧。

优选地，改进自编码网络的解码器包括特征融合层、多个残差块、上采样层和通道注意力机制。

进一步地，步骤3包括以下子步骤：

步骤3.1：计算编码器提取的两帧图像I_A、I_B的形状特征F_SA、F_SB的差值，其中I_A表示连续两帧图像的第一帧图像，I_B表示第二帧图像，F_SA表示第一帧图像的形状特征，F_SB表示第二帧图像的形状特征；

步骤3.2：对形状特征的像素位移差值乘以放大因子α进行运动放大，得到放大的形状特征；

步骤3.3：将放大的形状特征与图像I_A的形状特征F_SA叠加，得到放大后的形状特征

式中G_m()表示整个视频运动放大的操作过程，该式表示的是非线性计算过程，目的是可以减少噪声的干扰，h()表示残差核函数，g()表示形状特征差异的卷积运算函数。

优选地，步骤4中，解码器对上采样得到的纹理特征与放大的形状特征融合后对其进行卷积操作，并将卷积后的特征图通过上采样到原始输入尺寸，并引入残差块减少上采样中的损失。

优选地，改进自编码网络的训练过程中，引入损失函数Loss确保改进自编码网络在训练过程中能准确地学习运动放大的具体细节，并在损失函数计算中添加干扰进行正则化，损失函数Loss的计算式如下

Loss＝L₁(I_M,I_M′)+λ(L₁(I_A,I_C)+L₁(I_B,I_M)+L₁(I_B,I_M′))

式中I_M表示改进自编码网络输出的放大帧图像，I_M′表示真实放大拍摄的图像，I_C表示在训练过程中加入了干扰噪声的图像，用来提高网络的抗干扰能力，优化网络性能。λ参数表示用于规范网络训练的权重信息，使网络训练效果更有利于表现形状变化的规律。L₁()表示L₁范数损失函数，L₁(I_M,I_M′)表示改进自编码网络输出的放大图像I_M与真实放大图像I_M′之间的损失，L₁(I_A,I_C)表示第一帧图像I_A与图像I_C的纹理损失，L₁(I_B,I_M)表示第二帧图像I_B与放大帧图像I_M的纹理损失，L₁(I_B,I_M′)表示第二帧图像I_B与真实放大拍摄的图像I_M′的运动损失。

相比现有技术，本发明的有益效果包括：

1)本发明的方法实现了视频运动放大图像中形状、纹理特征的完美融合，减少了视频运动放大的亮度、色彩、纹理损失，使浅层特征信息得以保留。

2)本发明的改进自编码网络模型扩展了神经网络的表征能力。改进自编码网络的通道注意力机制将不同层次特征融合，并自适应地从注意力模块中学习到不同的权重信息，同时会根据输出图像中变化的的特征信息动态调整权重。

3)本发明的改进自编码网络模型的可变形卷积自适应调整机制使浅层特征信息自适应地从上采样部分流向更高层次特征，更好地保持图像特征的有效性。传统的空间不变卷积核会导致图像纹理被破坏和过度噪声伪影，本发明改进自编码网络模型利用可变形卷积替代传统卷积方式，动态扩展了感受野，能够融合更多的空间结构信息，进一步提高去噪网络的性能。

4)本发明的改进自编码网络对训练数据的需求量更低，少量样本数据的数据集即可达到训练效果，进一步验证改进自编码网络的可行性。

5)本发明的改进自编码网络模型的泛化能力强，相比传统模型，该模型针对不同的测试视频序列均表现出较好的视频运动放大效果。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1为本发明实施例的改进自编码网络的结构示意图。

图2为本发明实施例的编码器的结构示意图。

图3为本发明实施例的解码器的结构示意图。

具体实施方式

如图1所示，实例的改进自编码网络包括编码器、放大器和解码器。编码器包括纹理特征提取单元和形状特征提取单元，纹理特征提取单元采用通道注意力机制，形状特征提取单元包括卷积层、可变形卷积和残差块，如图2所示。

如图3所示，改进自编码网络的解码器包括依次连接的特征融合层、9个残差块、上采样层、通道注意力单元和卷积层。

基于改进自编码网络的视频运动放大方法包括以下步骤：

步骤1：对视频数据进行分解处理，采用分解的前后连续两帧图像I_A、I_B作为编码器的输入，I_A表示连续两帧图像的第一帧图像，I_B表示第二帧图像。

步骤2：为确保编码器能够提取更准确的图像特征信息，在编码器内部将不同维度的特征信息分别用来表示图像的纹理特征F_T和形状特征F_S。并增加通道注意力模块提取纹理特征，利用通道注意力机制的特性针对色彩、纹理变化不一致区域，分配不同的权重信息，更好地将浅层的图像纹理特征F_T与深层次的结构信息融合。采用可变形卷积提取图像中变化的形状特征F_S，拓宽卷积视野，自适应调整卷积核的形状，融合更多的空间结构信息，提高网络的去噪能力，确保网络提取图像中更精确的动态变化特征信息。

可变形卷积在原始卷积的基础上为每个点增加一个偏移量Δb_n。为确保生成像素点与特征图中实际点对应，同时采用双线性插值方法，保证获取像素的准确性，双线性插值方法是对两个变量的插值的扩展，核心思想是分别水平方向和垂直方向分别进行一次线性插值。

通过编码器提取图像I_A的特征图

表示特征图的表示空间，C表示特征图的通道数，H、W分别代表特征图的高和宽。通道注意力机制能够对任意的输入信息构造运算单元，运算过程为：

其中F_tr表示对特征图卷积操作，U_A表示输出特征集合。

为确保网络能够增加有利信息的提取，对通道之间的依赖关系进行精确建模，首先考虑将输出特征U_A的全局空间信息压缩成一个通道描述器，即将特征图的形状从C×H×W变成C×1×1，并通过一个全局平均池化层来实现通道统计，用g_C表示，再通过两个卷积层和Sigmoid函数、Rule函数激活，计算式如下：

CA_c＝σ(Conv(δ(Conv(g_c))))

CA_C表示图像每个通道的权重信息，σ()表示Sigmoid函数，δ()表示Rule激活函数，最后将逐个元素输入F_A与通道CA_C的权重进行逐像素相乘，得到通过注意力机制提取后纹理特征信息F_TA。

步骤3：将像素的变化关系应用在放大器中，通过计算编码器提取出图像I_A、I_B的形状特征F_SA、F_SB的差值，通过对像素位移差值乘以放大因子α达到运动放大的效果，最后将放大后的差值叠加回F_SA，得到放大后的形状特征

式中G_m()为非线性函数，表示整个视频运动放大的操作过程，目的是可以减少噪声的干扰，h()表示残差核函数，g()表示对形状特征差异进行卷积运算的卷积函数。

步骤4：特征融合部分包括编码器输出的纹理特征部分和放大器输出的形状特征部分。在编码过程中对输入图像I_A、I_B分别提取形状特征F_SA、F_SB，在经过放大器操作后输出放大后叠加回原形状的

输入图像I_A在通过通道注意力操作后输出为提取的纹理特征信息F_TA，为确保融合时特征图尺寸一致，将F_TA进行上采样为

最后，在解码器内部将采样后的纹理特征

与放大后的形状特征

融合为

将融合后的特征图

通过残差和上采样操作将图像恢复至原始尺寸输出放大图像I_M。

本发明的改进自编码网络在迭代训练时，引入损失函数以确保网络在训练过程中能准确地学习运动放大的具体操作细节，并在损失函数计算中添加干扰进行正则化。训练数据集的数据包括原始两帧图像I_A和I_B、加入干扰噪声的训练集图像I_C以及真实放大拍摄的图像I_m′。本发明的损失函数以L1范数损失函数为基础，计算生成图像I_M与真实的放大图像I_m′之间损失，记为L₁(I_M,I_M′)，用L₁(I_A,I_C)表示图像I_C相对I_A的纹理损失，L₁(I_B,I_M)表示第二帧图像I_B与放大帧图像I_M的纹理损失，L₁(I_B,I_M′)表示第二帧图像I_B与真实放大拍摄的图像I_M′的运动损失。总的Loss函数如公式所示：

Loss＝L₁(I_M,I_M′)+λ(L₁(I_A,I_C)+L₁(I_B,I_M)+L₁(I_B,I_M′))

其中L₁()表示L1范数损失函数，λ为权重参数，用于表示训练中干扰项的权重信息，使网络训练效果更有利于表现形状变化的规律，实施例中λ设为0.1。

Claims

1.基于改进自编码网络的视频运动放大方法，其特征在于，利用改进自编码网络对视频中的细微变化进行放大，所述改进自编码网络包括编码器、放大器和解码器，编码器采用通道注意力机制、可变形卷积提高自编码网络对图像纹理、形状特征的提取能力，所述方法包括以下步骤：

步骤4.2：将上采样得到的纹理特征与放大的形状特征结合得到放大帧。

2.根据权利要求1所述的视频运动放大方法，其特征在于，改进自编码网络的编码器包括纹理特征提取单元和形状特征提取单元，纹理特征提取单元采用通道注意力机制，利用通道注意力机制的特性针对色彩、纹理变化不一致区域，分配不同的权重信息；形状特征提取单元包括卷积层、可变形卷积和残差块，形状特征提取单元采用可变形卷积提取图像中变化的形状特征，拓宽卷积视野，自适应调整卷积核的形状，提取图像中的动态变化特征信息。

3.根据权利要求2所述的视频运动放大方法，其特征在于，改进自编码网络的解码器包括特征融合层、多个残差块、上采样层和通道注意力机制。

4.根据权利要求3所述的视频运动放大方法，其特征在于，步骤3包括以下子步骤：

式中G_m()表示对整个视频运动放大的非线性计算函数，h()表示残差核函数，g()表示形状特征差异的卷积函数。

5.根据权利要求1所述的视频运动放大方法，其特征在于，步骤4中，解码器对上采样得到的纹理特征与放大的形状特征融合后对其进行卷积操作，并将卷积后的特征图通过上采样到原始输入尺寸，并引入残差块减少上采样中的损失。

6.根据权利要求1-5任意一项所述的视频运动放大方法，其特征在于，改进自编码网络的训练过程中，引入损失函数Loss确保改进自编码网络在训练过程中能准确地学习运动放大的具体细节，并在损失函数计算中添加干扰进行正则化，损失函数Loss的计算式如下

Loss＝L₁(I_M,I_M′)+λ(L₁(I_A,I_C)+L₁(I_B,I_M)+L₁(I_B,I_M′))

式中I_M表示改进自编码网络输出的放大帧图像，I_M′表示真实放大拍摄的图像，I_C表示加入了干扰噪声的训练图像，λ为权重参数；L₁()表示L₁范数损失函数，L₁(I_M,I_M′)表示改进自编码网络输出的放大图像I_M与真实放大图像I_M′之间的损失，L₁(I_A,I_C)表示第一帧图像I_A与图像I_C的纹理损失，L₁(I_B,I_M)表示第二帧图像I_B与放大帧图像I_M的纹理损失，L₁(I_B,I_M′)表示第二帧图像I_B与真实放大拍摄的图像I_M′的运动损失。