CN114339030B - 一种基于自适应可分离卷积的网络直播视频稳像方法 - Google Patents

一种基于自适应可分离卷积的网络直播视频稳像方法 Download PDF

Info

Publication number
CN114339030B
CN114339030B CN202111429346.XA CN202111429346A CN114339030B CN 114339030 B CN114339030 B CN 114339030B CN 202111429346 A CN202111429346 A CN 202111429346A CN 114339030 B CN114339030 B CN 114339030B
Authority
CN
China
Prior art keywords
conv
convolution
network
size
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111429346.XA
Other languages
English (en)
Other versions
CN114339030A (zh
Inventor
高宇麒
李嘉锋
张菁
卓力
李耀鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202111429346.XA priority Critical patent/CN114339030B/zh
Publication of CN114339030A publication Critical patent/CN114339030A/zh
Application granted granted Critical
Publication of CN114339030B publication Critical patent/CN114339030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Processing (AREA)

Abstract

本发明提供了一种基于自适应可分离卷积的网络直播视频稳像方法。该方法包括:建立视频帧样本库、网络模型搭建、网络训练、视频稳像。将所述得到的训练数据集输入视频稳像网络中,得到所述稳像模型输出的稳定视频帧;其中,所述稳像模型利用自适应可分离卷积和可变形卷积,将预测得到的卷积核应用在输入的两帧连续帧上,以生成稳定的中间帧。本发明通过直接生成中间帧的方法进行稳像,避免了对稳像后的视频帧进行裁剪,从而保持原始视频的分辨率。

Description

一种基于自适应可分离卷积的网络直播视频稳像方法
技术领域
本发明属于数字图像/视频信号处理领域,特别涉及一种基于自适应可分离卷积的网络直播视频稳像方法。
背景技术
近年来,随着直播行业的兴起,直播内容变得丰富多样。一些不稳定的外界直播环境会影响直播视频的质量。例如,许多主播是在运动状态下进行视频的拍摄。由于没有专业的手持稳像设备,所拍摄的视频会产生高频的抖动,并且在一些抖动幅度过大的区域会产生视频的模糊。这些因素会导致视频的质量严重退化,影响用户的主观观看体验。与此同时,抖动的视频会影响后续的视频检索、目标跟踪、主播行为分析等智能化分析处理。因此,对直播过程中所产生高频抖动视频进行稳像处理,对抖动视频的主观视觉质量提升以及后续应用与分析处理均具有重要意义。
过去的几年中,研究人员提出了多种数字视频稳定技术,这些方法通过后处理的方式来改善抖动视频的质量。传统的视频稳像方法主要通过2D方法以及3D方法来估计相机运动轨迹,并且合成一个新的平滑轨迹来移除视频中的高频运动。基于2D的视频稳定方法估计连续视频帧之间的单应性或仿射变换,并平滑这些变换,这些方法具有处理速度快、鲁棒性强等特点,但是不能很好地处理存在大视差的抖动视频。基于3D的视频稳像方法通过重建3D场景,寻求探索特征点在场景中的3D位置,同时计算相机在3D空间中的姿态,这些方法通常比2D方法能够更好地处理视差,可以产生更好的视觉效果。然而,基于3D的方法在运动结构方面存在鲁棒性和复杂性问题。上述两种传统视频稳像方法依赖视频帧中检测到的关键点,因此不适用于一些具有大范围遮挡的难以检测关键点的视频。并且难以处理存在复杂运动情况的视频,容易导致形变。另外,传统视频稳像方法在对抖动视频应用经过平滑的相机轨迹时,由于使用单应性变换,会导致稳像后的视频帧在边缘区域产生空白区域,需要对稳像后的视频帧进行裁剪。因此会造成视频内容的缺失,特别是当视频中存在大幅抖动的情况时。
近年来,深度学习方法在图像、视频恢复等计算机视觉领域获得了长足的发展,图像的处理性能也获得了很大的提升。其中,卷积神经网络(Convolutional NeuralNetwork,CNN)凭借其强大的学习与表达能力,被广泛的应用到视频增强、图像恢复等一些计算机视觉任务中。目前大多数采用深度学习的视频稳像方法都是将传统方法和深度学习方法相结合。首先使用传统方法估计相机的运动轨迹,然后使用深度学习网络来对相机轨迹进行平滑,消除视频中的高频抖动。相较于传统稳像方法,此类方法鲁棒性强,能够准确的平滑相机轨迹。但是,深度学习与传统方法相结合的方法,本质上只是借助神经网络预测平滑轨迹,其仍然需要使用单应性变换将平滑后的轨迹映射回原视频中。因此,与传统方法一样,结果会在边缘区域产生空白,需要对视频进行裁剪。目前,许多研究提出了使用基于深度学习的端到端的方法进行视频稳像。由于基于深度学习的方法受限于卷积核的感受野大小,不能覆盖任意幅度的运动。并且没有明确的估计相机的运动轨迹,稳像后的视频容易产生不可接受的形变。因此,一些方法将光流信息加入网络中,使得网络能够根据视频的运动信息,准确的平滑相机的运动轨迹。
与此同时,一些视频插帧方法被运用到了视频稳像任务中。通过预测连续两帧不稳定视频帧的中间帧,得到相机轨迹的中间位置,从而平滑相机轨迹。另外,自适应可分离卷积和可变形卷积被广泛运用到了视频插帧任务中。首先,自适应可分离卷积这种基于核预测的插帧方法能够联合执行运动估计与运动补偿,能够对光流网络预测的错误的运动轨迹进行修正;第二,自适应可分离卷积的卷积核可以使用可变形卷积,以能够考虑大的场景运动。
发明内容
本发明的目的在于利用卷积神经网络(CNN)和自适应可分离卷积技术,对网络直播视频中,由于拍摄相机的抖动,所产生的不稳定的视频进行稳像。通过后处理的方法,以生成视频帧中间帧的方法去除视频中相机的高频抖动,并提升由于快速抖动所产生的模糊区域的清晰度。
本发明采用以下技术方案进行实现:基于自适应可分离卷积的网络直播视频稳像方法,主要包括建立视频帧样本库、网络模型搭建、网络训练、视频稳像部分。整体流程图如图1所示。整体网络结构图如图2所示。
建立视频帧样本库:主要包括对训练集和测试集的构建。
网络模型搭建:主要包括调用训练好的PWC-Net(Pyramid,Warping,and Costvolume Networks)网络;设计中间帧特征提取网络,提取视频帧特征;和自适应可分离卷积网络的设计。
网络训练:主要包括训练策略使用以及获取损失函数。
视频稳像:视频稳像阶段,使用自适应可分离卷积网络,将抖动的视频,以图像帧的方式送入网络,其输出结果为生成的稳定视频帧。
所述的建立视频帧样本库,具体步骤如下:
本发明使用DeepStab数据集构建所使用的训练集和测试集。DeepStab数据集中包含61对稳定和不稳定的视频对。由于本发明使用自监督方法训练网络,因此只对其中61个不稳定的视频进行采样。首先,选取部分视频作为测试使用视频;选取剩下的视频作为训练使用视频。对训练使用的视频,每段视频随机选取关键帧,每帧关键帧周围选取连续的3帧视频帧组成帧元组作为训练集。对测试使用的视频,将每一帧保存为图像,生成测试集。
所述的网络模型搭建,具体步骤如下:
(1)调用预训练的光流预测网络PWC-Net
为了解决基于深度学习的端到端的深度神经网络,在插帧任务中不能准确的估计帧间的运动趋势,而导致的网络不能处理存在大视差视频的问题。本发明对输入网络的图像中添加了帧间的运动信息,该运动信息使用预训练的光流预测网络PWC-Net进行预测,预测两帧间的像素级别的光流表示。首先调用PWC-Net网络模型;之后加载训练好的网络权重;最后固定网络权重,使其在后续的网络训练中不进行梯度更新。该部分网络输入为需要获取帧间运动信息的两帧连续视频帧。
(2)帧间特征提取网络的设计
本发明采用的帧间特征提取网络由编码器、解码器与跳跃连接组成。网络整体结构图如图3所示。该部分网络输入为PWC-Net所提取的光流,与两帧视频帧在通道方向上的拼接。网络首先将输入送入编码器。编码器使用卷积层Conv_1进行特征融合。将融合后的特征图依次送入池化层Pool_1、卷积层Conv_2、池化层Pool_2、卷积层Conv_3、池化层Pool_3、卷积层Conv_4、池化层Pool_4、卷积层Conv_5、池化层Pool_5。将编码器输出的特征图送入解码器。在解码器中,首先将解码器的输出送入卷积层Conv_6并进行上采样。对上采样的输出,与解码器中Conv_5的输出相加,送入卷积层Conv_7并进行上采样。对上采样的输出,与解码器中Conv_4的输出相加,送入卷积层Conv_8并进行上采样。对上采样的输出,与解码器中Conv_3的输出相加,送入卷积层Conv_9并进行上采样。对上采样的输出,与解码器中Conv_2的输出相加,得到提取的帧间特征。帧间特征提取网络中每层的参数如表1所示。网络中所有卷积层激活函数使用PReLU(Parametric Rectified Linear Unit)激活函数;所有上采样使用两倍双线性插值;所有池化层使用平均池化。
(3)自适应可分离卷积网络的设计
为了实现基于核预测的自适应可分离卷积,首先需要对卷积中使用的卷积核的权重和可变形卷积的权重偏置进行预测。本发明采用的自适应可分离卷积网络由7路并行的卷积分支。网络整体结构如图4所示。该部分网络输入为帧间特征提取网络的输出。将网络输入依次送入卷积层Conv_1、上采样、卷积层Conv_2、Softmax激活,得到卷积核权重W1。将网络输入依次送入卷积层Conv_3、上采样、卷积层Conv_4,得到卷积核权重的水平方向的偏置α1。将网络输入依次送入卷积层Conv_5、上采样、卷积层Conv_6,得到卷积核权重的垂直方向的偏置β1。将网络输入依次送入卷积层Conv_7、上采样、卷积层Conv_8、Sigmoid激活,得到融合模板M。将网络输入依次送入卷积层Conv_9、上采样、卷积层Conv_10、Softmax激活,得到卷积核权重W2。将网络输入依次送入卷积层Conv_11、上采样、卷积层Conv_12,得到卷积核权重的水平方向的偏置α2。将网络输入依次送入卷积层Conv_13、上采样、卷积层Conv_14,得到卷积核权重的垂直方向的偏置β2。自适应可分离卷积网络中每层的参数如表2所示。网络中所有卷积层激活函数使用ReLU(Rectified Linear Unit)激活函数;所有上采样使用两倍双线性插值。
本发明所采用的自适应可分离卷积的卷积方式如图4所示。为了进一步扩大感受野,获取更多的像素运动信息,本发明采用了可变形卷积。可变形卷积和传统卷积工作方式示意图如图5所示,其将矩形的卷积核覆盖区域中的每一个权重位置都进行随机的偏移。通过使用网络预测的卷积核权重和卷积核权重偏置,对原始视频帧进行可变形卷积,生成预测的中间帧。
所述的网络训练,具体步骤如下:
(1)训练策略的使用
在原始DeepStab数据集中,对应的同一帧稳定和不稳定视频帧之间内容不重叠区域较大。为了能够使网络更好的预测抖动视频帧与生成的稳定视频帧之间缺失的内容信息。本发明使用自监督方式训练网络。自监督的方法需要从训练集中生成伪Ground-truth监督网络训练。本发明生成伪Ground-truth的方法为:在原始视频帧中随机选取一个区域,并随机选取一个方向,在该方向上偏移一段随机距离d,并保证该段距离大于0,小于1/8的选取区域大小,从而生成伪Ground-truth,用于后续损失的计算。
(2)损失函数获取
本发明使用上述过程生成的伪Ground-truth进行损失函数计算。为了使网络生成接近真实的中间帧,本发明使用的损失函数包含两个部分:L1损失函数和VGG感知损失函数。
所述的视频稳像,具体步骤如下:
本发明网络训练完成后,使用上述样本库中所构建的测试数据集进行视频稳像测试。将抖动的视频所提取的视频帧,逐帧送入网络。网络每次送入当前帧和下一帧。网络输出两帧的中间帧。由于网络无法预测视频的第一帧和最后一帧,因此将抖动视频的第一帧和最后一帧直接进行拷贝。网络运行完成后,生成稳定后的视频帧。
本发明特点:
本发明的目的在于通过基于自适应可分离卷积的视频插帧网络进行视频稳像。首先,网络预测卷积核权重和卷积核权重偏置,之后使用自适应可分离卷积生成两帧抖动的视频帧的中间帧,从而消除相机运动轨迹中的高频抖动。同时,使用PWC-Net光流预测网络来更准确的获取帧间运动信息。可以有效的提升网络性能,提高了网络的泛化能力,解决大视差、遮挡带来的问题。其次,本发明采用的插帧技术可以有效避免生成帧中内容的缺失问题,便于在实践中的应用。
附图说明
图1本发明整体流程图
图2网络整体结构图
图3帧间特征提取网络结构图
图4自适应可分离卷积
图5(a)和图5(b)分别为普通卷积与可变形卷积
具体实施方式
表1帧间特征提取网络中每层参数
表2自适应可分离卷积中每层参数
以下结合说明书附图,对本发明的实施实例加以详细说明:
一种基于自适应可分离卷积的网络直播视频稳像方法,整体流程图如图1所示,主要包括建立视频帧样本库、网络模型搭建、网络训练、视频稳像部分。网络整体结构图如图2所示,帧间特征提取网络结构图如图3所示,自适应可分离卷积如图4所示,可变形卷积如图5所示。对于抖动视频,随机选取连续的3帧视频帧组成帧元组,得到训练使用数据。利用训练使用数据对整个网络进行训练。在视频稳像阶段,网络输入抖动视频连续的视频帧,预测卷积核权重和卷积核权重的偏置。使用网络预测的卷积核权重和卷积核权重的偏置,对抖动视频帧进行可变形卷积,生成稳定的中间帧。
所述的建立视频帧样本库,具体步骤如下:
本发明使用的训练集和测试集中的原始高清视频是DeepStab数据集中的不稳定视频。DeepStab数据集中包含61对稳定和不稳定的视频对。视频场景为户外场景。其不稳定视频名称分别为1.avi到61.avi顺序编号。本发明根据数据集中场景背景的不同,选取2.avi、7.avi、16.avi、19.avi、25.avi、33.avi、37.avi、45.avi、51.avi、53.avi、60.avi,共11个视频作为测试使用视频。剩余50个视频作为训练使用视频。
对于测试使用视频,提取视频每一帧,并将相同视频中提取的视频帧保存为一类作为测试集。对于训练使用视频,每段视频随机选取100帧作为关键帧。提取关键帧、关键帧的前一帧和关键帧的后一帧,共三帧视频帧,按前后顺序组成帧元组作为训练集。因此训练集中共包含5000组帧元组,共包含15000张视频帧图像。
所述的网络模型搭建分为3个步骤,具体步骤如下:
(1)调用预训练的光流预测网络PWC-Net。
本发明使用PWC-Net光流预测网络预测两帧视频帧间的运动信息。首先调用PWC-Net网络模型;之后加载训练好的网络权重;最后固定网络权重,使其在后续的网络训练中不进行梯度更新。在网络训练时,使用两个相同的孪生PWC-Net网络。第一个PWC-Net网络输入为fi、fi-1,输出为F1;第二个PWC-Net网络输入为fi、fi+1,输出为F2。其中,fi表示训练集帧元组中的当前帧,fi-1表示当前帧的前一帧,fi+1表示当前帧的后一帧,F1表示fi-1到fi之间的像素级别的光流信息,F2表示fi+1到fi之间的像素级别的光流信息。PWC-Net输出的光流信息特征图大小全部为H×W×2,其中,H和W分别代表输入图像的高和宽,每一个像素点位置的运动信息使用二维的向量表示。
(2)帧间特征提取网络的设计
本发明所设计的帧间特征提取网络架构如图3所示,结构中每层参数如表1所示。该部分网络输入为训练集中选取的视频帧元组中的关键帧的前一帧fi-1(其大小为H×W×3)、关键帧的后一帧fi+1(其大小为H×W×3)、fi-1到fi之间的像素级别的光流信息F1(其大小为H×W×2)和fi+1到fi之间的像素级别的光流信息F2(其大小为H×W×2)的拼接。拼接后的特征图大小为H×W×10。对于拼接后的特征图,首先送入编码器;之后将编码器的输出送入解码器;最后将解码器的输出作为该部分网络所提取的帧间特征。
将编码器的输入,输入到Conv_1,在Conv_1中,先经过32个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为H×W×32大小的特征图。将Conv_1的输出,输入到Pool_1,在Pool_1中,经过步长为2的3×3大小的平均池化,得到大小为大小的特征图。将Pool_1的输出,输入到Conv_2,在Conv_2中,先经过64个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图。将Conv_2的输出,输入到Pool_2,在Pool_2中,经过步长为2的3×3大小的平均池化,得到大小为大小的特征图。将Pool_2的输出,输入到Conv_3,在Conv_3中,先经过128个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图。将Conv_3的输出,输入到Pool_3,在Pool_3中,经过步长为2的3×3大小的平均池化,得到大小为/>大小的特征图。将Pool_3的输出,输入到Conv_4,在Conv_4中,先经过256个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图。将Conv_4的输出,输入到Pool_4,在Pool_4中,经过步长为2的3×3大小的平均池化,得到大小为/>大小的特征图。将Pool_4的输出,输入到Conv_5,在Conv_5中,先经过512个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图。将Conv_5的输出,输入到Pool_5,在Pool_5中,经过步长为2的3×3大小的平均池化,得到大小为/>大小的特征图。将Pool_5的输出作为编码器的输出。
将解码器的输入,输入到Conv_6,在Conv_6中,先经过512个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图。对Conv_6的输出进行两倍双线性插值,得到大小为/>大小的特征图。将双线性插值的输出,与解码器中Conv_5的输出进行像素级别的相加之后,输入到Conv_7,在Conv_7中,先经过256个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图。对Conv_7的输出进行两倍双线新插值,得到大小为/>大小的特征图。将双线性插值的输出,与解码器中Conv_4的输出进行像素级别的相加之后,输入到Conv_8,在Conv_8中,先经过128个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图。对Conv_8的输出进行两倍双线新插值,得到大小为大小的特征图。将双线性插值的输出,与解码器中Conv_3的输出进行像素级别的相加之后,输入到Conv_9,在Conv_9中,先经过64个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图。对Conv_9的输出进行两倍双线新插值,得到大小为/>大小的特征图。将双线性插值的输出,与解码器中Conv_2的输出进行像素级别的相加,所得到的特征图作为解码器的输出。
(3)自适应可分离卷积网络的设计
本发明所设计的帧间特征提取网络架构如图4所示,结构中每层参数如表2所示。该部分网络输入为帧间特征提取网络得输出特征图,特征图的大小为该部分网络由7路并行的卷积分支组成。
将网络的输入特征图输入第1路分支,首先经过Conv_1,在Conv_1中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_1的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_2,在Conv_2中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的特征图;最后对Conv_2的输出进行Softmax激活。得到大小为H×W×25的卷积核权重W1
将网络的输入特征图输入第2路分支,首先经过Conv_3,在Conv_3中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_3的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_4,在Conv_4中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重横向偏置α1
将网络的输入特征图输入第3路分支,首先经过Conv_5,在Conv_5中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_5的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_6,在Conv_6中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重纵向偏置β1
将网络的输入特征图输入第4路分支,首先经过Conv_7,在Conv_7中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_7的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_8,在Conv_8中,经过1个步长为1的3×3大小的卷积核卷积,得到大小为H×W×1的特征图;最后对Conv_8的输出进行Sigmoid激活。得到大小为H×W×1的模板M。
将网络的输入特征图输入第5路分支,首先经过Conv_9,在Conv_9中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_9的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_10,在Conv_10中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的特征图;最后对Conv_10的输出进行Softmax激活。得到大小为×W×25的卷积核权重W2
将网络的输入特征图输入第6路分支,首先经过Conv_11,在Conv_11中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_11的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_12,在Conv_12中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重横向偏置α2
将网络的输入特征图输入第7路分支,首先经过Conv_13,在Conv_13中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_13的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_14,在Conv_14中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重纵向偏置β2
网络预测的卷积核权重W1、卷积核权重的水平方向的偏置α1和垂直方向的偏置β1,用于对fi+1帧进行卷积。网络预测的卷积核权重W2、卷积核权重的水平方向的偏置α2和垂直方向的偏置β2,用于对fi-1帧进行卷积。网络预测的模板M用于融合卷积后的图像,生成中间帧。
对于fi+1帧,对于图像上的每一个像素点,在卷积核权重W1、水平方向的偏置α1和垂直方向的偏置β1上都分别对应一个25维的向量。首先将权重W1中对应的25维向量重组成一个5×5大小的卷积核,对于每一个权重,在α1和β1中都对应一个水平位置和垂直位置的偏移。将经过偏移后的卷积核与该像素周围区域进行卷积。对图像每一个像素点及其周围区域进行卷积后,得到特征图Fi+1。同样,对于fi-1帧,使用W2、α2和β2进行相同的操作,得到特征图Fi-1。为了融合两幅特征图中的特征以生成中间帧fp,使用上述过程预测的模板M进行融合。上述自适应可分离卷积过程可由式1表示。
其中表示可变形卷积,γ(·)表示使用模板M进行融合,I表示大小与M相同的单位矩阵。
所述的网络训练为2个步骤,具体步骤如下:
(1)训练策略的使用
本发明利用基于DeepStab数据集建立的训练集训练上述搭建的网络。首先在训练集中随机选取视频帧元组。对于元组中的三帧视频帧随机选取位置、大小相同的区域,得到fi-1、fi、fi+1。对于fi,在原始视频帧中随机选取上下左右中的一个方向,在该方向上以选取区域为中心偏移一段随机距离d,并保证该段距离大于0,小于1/8的选取区域大小。对偏移后的区域在原始帧中进行裁剪,生成fpesudo。之后,将fi-1、fi、fi+1送入网络,网络预两帧的中间帧fp。最后,计算fp和fpesudo之间的损失,并更新梯度。
(2)损失函数获取
本发明使用上述过程生成的伪Ground-truth进行损失函数计算。为了使网络生成接近真实的中间帧,本发明使用的损失函数包含两个部分:L1损失函数和VGG感知损失函数。其中VGG感知损失函数使用ImageNet预训练的VGG19中Conv4_3层输出的特征图。损失函数可由式(2)表示。
Loss=||fp-fpesudo||1+||μ(fp)-μ(fpesudo)||1 (2)
其中μ(·)表示VGG19中Conv4_3层输出的特征图,||·||1表示计算L1范数。
所述的视频稳像,具体步骤如下:
本发明网络训练完成后,使用上述样本库中所构建的测试数据集进行视频稳像测试。将抖动的视频所提取的视频帧,逐帧送入网络。网络每次送入当前帧fi和下一帧fi+1。由于没有中间帧,在PWC-Net中,分别预测当前帧fi到下一帧fi+1之间的像素级别的光流信息,作为F1;和下一帧fi+1到当前帧fi之间的像素级别的光流信息,作为F2。在自适应可分离卷积阶段,使用W1、α1和β1对fi进行卷积;使用W2、α2和β2对fi+1进行卷积。由于网络无法预测第一帧和最后一帧,因此将抖动视频的第一帧和最后一帧直接进行拷贝。网络运行完成后,生成稳定后的视频帧。

Claims (1)

1.一种基于自适应可分离卷积的网络直播视频稳像方法,其特征在于:
建立视频帧样本库:包括对训练集和测试集的构建;
网络模型搭建:包括调用训练好的PWC-Net网络;设计中间帧特征提取网络,提取视频帧特征;和自适应可分离卷积网络的设计;
网络训练:包括训练策略使用以及获取损失函数;
视频稳像:视频稳像阶段,使用自适应可分离卷积网络,将抖动的视频,以图像帧的方式送入网络,其输出结果为生成的稳定视频帧;
所述的建立视频帧样本库,具体步骤如下:
使用DeepStab数据集构建所使用的训练集和测试集;
所述的网络模型搭建,具体步骤如下:
(1)调用预训练的光流预测网络PWC-Net
对输入网络的图像中添加了帧间的运动信息,该运动信息使用预训练的光流预测网络PWC-Net进行预测,预测两帧间的像素级别的光流表示;首先调用PWC-Net网络模型;之后加载训练好的网络权重;最后固定网络权重,使其在后续的网络训练中不进行梯度更新;该部分网络输入为需要获取帧间运动信息的两帧连续视频帧;
(2)帧间特征提取网络的设计
采用的帧间特征提取网络由编码器、解码器与跳跃连接组成;该部分网络输入为PWC-Net所提取的光流,与两帧视频帧在通道方向上的拼接;网络首先将输入送入编码器;编码器使用卷积层Conv_1进行特征融合;将融合后的特征图依次送入池化层Pool_1、卷积层Conv_2、池化层Pool_2、卷积层Conv_3、池化层Pool_3、卷积层Conv_4、池化层Pool_4、卷积层Conv_5、池化层Pool_5;将编码器输出的特征图送入解码器;在解码器中,首先将解码器的输出送入卷积层Conv_6并进行上采样;对上采样的输出,与解码器中Conv_5的输出相加,送入卷积层Conv_7并进行上采样;对上采样的输出,与解码器中Conv_4的输出相加,送入卷积层Conv_8并进行上采样;对上采样的输出,与解码器中Conv_3的输出相加,送入卷积层Conv_9并进行上采样;对上采样的输出,与解码器中Conv_2的输出相加,得到提取的帧间特征;网络中所有卷积层激活函数使用PReLU(Parametric Rectified Linear Unit)激活函数;所有上采样使用两倍双线性插值;所有池化层使用平均池化;
(3)自适应可分离卷积网络的设计
采用的自适应可分离卷积网络由7路并行的卷积分支;该部分网络输入为帧间特征提取网络的输出;将网络输入依次送入卷积层Conv_1、上采样、卷积层Conv_2、Softmax激活,得到卷积核权重W1;将网络输入依次送入卷积层Conv_3、上采样、卷积层Conv_4,得到卷积核权重的水平方向的偏置α1;将网络输入依次送入卷积层Conv_5、上采样、卷积层Conv_6,得到卷积核权重的垂直方向的偏置β1;将网络输入依次送入卷积层Conv_7、上采样、卷积层Conv_8、Sigmoid激活,得到融合模板M;将网络输入依次送入卷积层Conv_9、上采样、卷积层Conv_10、Softmax激活,得到卷积核权重W2;将网络输入依次送入卷积层Conv_11、上采样、卷积层Conv_12,得到卷积核权重的水平方向的偏置α2;将网络输入依次送入卷积层Conv_13、上采样、卷积层Conv_14,得到卷积核权重的垂直方向的偏置β2;网络中所有卷积层激活函数使用ReLU(Rectified Linear Unit)激活函数;所有上采样使用两倍双线性插值;
采用了可变形卷积,其将矩形的卷积核覆盖区域中的每一个权重位置都进行随机的偏移;通过使用网络预测的卷积核权重和卷积核权重偏置,对原始视频帧进行可变形卷积,生成预测的中间帧;
所述的网络训练,具体步骤如下:
(1)训练策略的使用
使用自监督方式训练网络;自监督的方法需要从训练集中生成伪Ground-truth监督网络训练;生成伪Ground-truth的方法为:在原始视频帧中随机选取一个区域,并随机选取一个方向,在该方向上偏移一段随机距离d,并保证该段距离大于0,小于1/8的选取区域大小,从而生成伪Ground-truth,用于后续损失的计算;
(2)损失函数获取
使用上述过程生成的伪Ground-truth进行损失函数计算;使用的损失函数包含两个部分:L1损失函数和VGG感知损失函数;
所述的视频稳像,具体步骤如下:
网络训练完成后,使用上述样本库中所构建的测试数据集进行视频稳像测试;将抖动的视频所提取的视频帧,逐帧送入网络;网络每次送入当前帧和下一帧;网络输出两帧的中间帧;由于网络无法预测视频的第一帧和最后一帧,因此将抖动视频的第一帧和最后一帧直接进行拷贝;网络运行完成后,生成稳定后的视频帧;
所述的网络模型搭建分为3个步骤,具体步骤如下:
(1)调用预训练的光流预测网络PWC-Net;
使用PWC-Net光流预测网络预测两帧视频帧间的运动信息;首先调用PWC-Net网络模型;之后加载训练好的网络权重;最后固定网络权重,使其在后续的网络训练中不进行梯度更新;在网络训练时,使用两个相同的孪生PWC-Net网络;第一个PWC-Net网络输入为fi、fi-1,输出为F1;第二个PWC-Net网络输入为fi、fi+1,输出为F2;其中,fi表示训练集帧元组中的当前帧,fi-1表示当前帧的前一帧,fi+1表示当前帧的后一帧,F1表示fi-1到fi之间的像素级别的光流信息,F2表示fi+1到fi之间的像素级别的光流信息;PWC-Net输出的光流信息特征图大小全部为H×W×2,其中,H和W分别代表输入图像的高和宽,每一个像素点位置的运动信息使用二维的向量表示;
(2)帧间特征提取网络的设计
所设计的帧间特征提取网络架构中每层参数如表1所示;该部分网络输入为训练集中选取的视频帧元组中的关键帧的前一帧fi-1,其大小为H×W×3;关键帧的后一帧fi+1,其大小为H×W×3、fi-1到fi之间的像素级别的光流信息F1,其大小为H×W×2;和fi+1到fi之间的像素级别的光流信息F2,其大小为H×W×2的拼接;拼接后的特征图大小为H×W×10;对于拼接后的特征图,首先送入编码器;之后将编码器的输出送入解码器;最后将解码器的输出作为该部分网络所提取的帧间特征;
将编码器的输入,输入到Conv_1,在Conv_1中,先经过32个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为H×W×32大小的特征图;将Conv_1的输出,输入到Pool_1,在Pool_1中,经过步长为2的3×3大小的平均池化,得到大小为大小的特征图;将Pool_1的输出,输入到Conv_2,在Conv_2中,先经过64个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图;将Conv_2的输出,输入到Pool_2,在Pool_2中,经过步长为2的3×3大小的平均池化,得到大小为大小的特征图;将Pool_2的输出,输入到Conv_3,在Conv_3中,先经过128个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图;将Conv_3的输出,输入到Pool_3,在Pool_3中,经过步长为2的3×3大小的平均池化,得到大小为/>大小的特征图;将Pool_3的输出,输入到Conv_4,在Conv_4中,先经过256个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图;将Conv_4的输出,输入到Pool_4,在Pool_4中,经过步长为2的3×3大小的平均池化,得到大小为/>大小的特征图;将Pool_4的输出,输入到Conv_5,在Conv_5中,先经过512个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图;将Conv_5的输出,输入到Pool_5,在Pool_5中,经过步长为2的3×3大小的平均池化,得到大小为/>大小的特征图;将Pool_5的输出作为编码器的输出;
将解码器的输入,输入到Conv_6,在Conv_6中,先经过512个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为大小的特征图;对Conv_6的输出进行两倍双线性插值,得到大小为/>大小的特征图;将双线性插值的输出,与解码器中Conv_5的输出进行像素级别的相加之后,输入到Conv_7,在Conv_7中,先经过256个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图;对Conv_7的输出进行两倍双线新插值,得到大小为/>大小的特征图;将双线性插值的输出,与解码器中Conv_4的输出进行像素级别的相加之后,输入到Conv_8,在Conv_8中,先经过128个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图;对Conv_8的输出进行两倍双线新插值,得到大小为大小的特征图;将双线性插值的输出,与解码器中Conv_3的输出进行像素级别的相加之后,输入到Conv_9,在Conv_9中,先经过64个步长为1的3×3大小的卷积核卷积,再经过PReLU激活模块,得到大小为/>大小的特征图;对Conv_9的输出进行两倍双线新插值,得到大小为/>大小的特征图;将双线性插值的输出,与解码器中Conv_2的输出进行像素级别的相加,所得到的特征图作为解码器的输出;
表1帧间特征提取网络中每层参数
表2自适应可分离卷积中每层参数
(3)自适应可分离卷积网络的设计
结构中每层参数如表2所示;该部分网络输入为帧间特征提取网络得输出特征图,特征图的大小为该部分网络由7路并行的卷积分支组成;
将网络的输入特征图输入第1路分支,首先经过Conv_1,在Conv_1中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_1的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_2,在Conv_2中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的特征图;最后对Conv_2的输出进行Softmax激活;得到大小为H×W×25的卷积核权重W1
将网络的输入特征图输入第2路分支,首先经过Conv_3,在Conv_3中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_3的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_4,在Conv_4中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重横向偏置α1
将网络的输入特征图输入第3路分支,首先经过Conv_5,在Conv_5中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_5的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_6,在Conv_6中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重纵向偏置β1
将网络的输入特征图输入第4路分支,首先经过Conv_7,在Conv_7中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_7的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_8,在Conv_8中,经过1个步长为1的3×3大小的卷积核卷积,得到大小为H×W×1的特征图;最后对Conv_8的输出进行Sigmoid激活;得到大小为H×W×1的模板M;
将网络的输入特征图输入第5路分支,首先经过Conv_9,在Conv_9中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_9的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_10,在Conv_10中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的特征图;最后对Conv_10的输出进行Softmax激活;得到大小为×W×25的卷积核权重W2
将网络的输入特征图输入第6路分支,首先经过Conv_11,在Conv_11中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_11的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_12,在Conv_12中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重横向偏置α2
将网络的输入特征图输入第7路分支,首先经过Conv_13,在Conv_13中,先经过64个步长为1的3×3大小的卷积核卷积,再经过ReLU激活模块,得到大小为的特征图;之后对Conv_13的输出进行两倍双线性插值,得到大小为H×W×64的特征图;将双线性插值的输出输入到Conv_14,在Conv_14中,经过25个步长为1的3×3大小的卷积核卷积,得到大小为H×W×25的卷积核权重纵向偏置β2
网络预测的卷积核权重W1、卷积核权重的水平方向的偏置α1和垂直方向的偏置β1,用于对fi+1帧进行卷积;网络预测的卷积核权重W2、卷积核权重的水平方向的偏置α2和垂直方向的偏置β2,用于对fi-1帧进行卷积;网络预测的模板M用于融合卷积后的图像,生成中间帧;
对于fi+1帧,对于图像上的每一个像素点,在卷积核权重W1、水平方向的偏置α1和垂直方向的偏置β1上都分别对应一个25维的向量;首先将权重W1中对应的25维向量重组成一个5×5大小的卷积核,对于每一个权重,在α1和β1中都对应一个水平位置和垂直位置的偏移;将经过偏移后的卷积核与该像素周围区域进行卷积;对图像每一个像素点及其周围区域进行卷积后,得到特征图Fi+1;同样,对于fi-1帧,使用W2、α2和β2进行相同的操作,得到特征图Fi-1;为了融合两幅特征图中的特征以生成中间帧fp,使用上述过程预测的模板M进行融合;上述自适应可分离卷积过程可由式1表示;
其中表示可变形卷积,γ(·)表示使用模板M进行融合,I表示大小与M相同的单位矩阵;
所述的网络训练为2个步骤,具体步骤如下:
(1)训练策略的使用
利用基于DeepStab数据集建立的训练集训练上述搭建的网络;首先在训练集中随机选取视频帧元组;对于元组中的三帧视频帧随机选取位置、大小相同的区域,得到fi-1、fi、fi+1;对于fi,在原始视频帧中随机选取上下左右中的一个方向,在该方向上以选取区域为中心偏移一段随机距离d,并保证该段距离大于0,小于1/8的选取区域大小;对偏移后的区域在原始帧中进行裁剪,生成fpesudo;之后,将fi-1、fi、fi+1送入网络,网络预两帧的中间帧fp;最后,计算fp和fpesudo之间的损失,并更新梯度;
(2)损失函数获取
使用上述过程生成的伪Ground-truth进行损失函数计算;为了使网络生成接近真实的中间帧,使用的损失函数包含两个部分:L1损失函数和VGG感知损失函数;其中VGG感知损失函数使用ImageNet预训练的VGG19中Conv4_3层输出的特征图;损失函数可由式(2)表示;
Loss=||fp-fpesudo||1+||μ(fp)-μ(fpesudo)||1 (2)
其中μ(·)表示VGG19中Conv4_3层输出的特征图,||·||1表示计算L1范数;
所述的视频稳像,具体步骤如下:
网络训练完成后,使用上述样本库中所构建的测试数据集进行视频稳像测试;将抖动的视频所提取的视频帧,逐帧送入网络;网络每次送入当前帧fi和下一帧fi+1;由于没有中间帧,在PWC-Net中,分别预测当前帧fi到下一帧fi+1之间的像素级别的光流信息,作为F1;和下一帧fi+1到当前帧fi之间的像素级别的光流信息,作为F2;在自适应可分离卷积阶段,使用W1、α1和β1对fi进行卷积;使用W2、α2和β2对fi+1进行卷积;由于网络无法预测第一帧和最后一帧,因此将抖动视频的第一帧和最后一帧直接进行拷贝;网络运行完成后,生成稳定后的视频帧。
CN202111429346.XA 2021-11-29 2021-11-29 一种基于自适应可分离卷积的网络直播视频稳像方法 Active CN114339030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111429346.XA CN114339030B (zh) 2021-11-29 2021-11-29 一种基于自适应可分离卷积的网络直播视频稳像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111429346.XA CN114339030B (zh) 2021-11-29 2021-11-29 一种基于自适应可分离卷积的网络直播视频稳像方法

Publications (2)

Publication Number Publication Date
CN114339030A CN114339030A (zh) 2022-04-12
CN114339030B true CN114339030B (zh) 2024-04-02

Family

ID=81047498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111429346.XA Active CN114339030B (zh) 2021-11-29 2021-11-29 一种基于自适应可分离卷积的网络直播视频稳像方法

Country Status (1)

Country Link
CN (1) CN114339030B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115002379B (zh) * 2022-04-25 2023-09-26 武汉大学 视频插帧方法、训练方法、装置、电子设备和存储介质
CN117315574B (zh) * 2023-09-20 2024-06-07 北京卓视智通科技有限责任公司 一种盲区轨迹补全的方法、系统、计算机设备和存储介质
CN117892258B (zh) * 2024-03-12 2024-06-07 沃德传动(天津)股份有限公司 基于数据融合的轴承迁移诊断方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900848A (zh) * 2018-06-12 2018-11-27 福建帝视信息科技有限公司 一种基于自适应可分离卷积的视频质量增强方法
CN109379550A (zh) * 2018-09-12 2019-02-22 上海交通大学 基于卷积神经网络的视频帧率上变换方法及系统
CN110809126A (zh) * 2019-10-28 2020-02-18 北京影谱科技股份有限公司 一种基于自适应可变形卷积的视频帧插值方法及系统
WO2021035807A1 (zh) * 2019-08-23 2021-03-04 深圳大学 一种融合光流信息和Siamese框架的目标跟踪方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900848A (zh) * 2018-06-12 2018-11-27 福建帝视信息科技有限公司 一种基于自适应可分离卷积的视频质量增强方法
CN109379550A (zh) * 2018-09-12 2019-02-22 上海交通大学 基于卷积神经网络的视频帧率上变换方法及系统
WO2021035807A1 (zh) * 2019-08-23 2021-03-04 深圳大学 一种融合光流信息和Siamese框架的目标跟踪方法及装置
CN110809126A (zh) * 2019-10-28 2020-02-18 北京影谱科技股份有限公司 一种基于自适应可变形卷积的视频帧插值方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的视频图像超分辨率重建方法;刘村;李元祥;周拥军;骆建华;;计算机应用研究(04);全文 *
基于改进SSD的水下目标检测算法研究;强伟;贺昱曜;郭玉锦;李宝奇;何灵蛟;;西北工业大学学报(04);全文 *

Also Published As

Publication number Publication date
CN114339030A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
Bao et al. Memc-net: Motion estimation and motion compensation driven neural network for video interpolation and enhancement
CN114339030B (zh) 一种基于自适应可分离卷积的网络直播视频稳像方法
JP6755395B2 (ja) 画像処理用のニューラルネットワークモデルのトレーニング方法、装置、及び記憶媒体
US20190213712A1 (en) Motion blur simulation
CN111028150B (zh) 一种快速时空残差注意力视频超分辨率重建方法
US7710498B2 (en) Image processing apparatus, image processing method and program
CN111784578A (zh) 图像处理、模型训练方法及装置、设备、存储介质
WO2016074639A1 (en) Methods and systems for multi-view high-speed motion capture
US20100067818A1 (en) System and method for high quality image and video upscaling
JPH10285602A (ja) 映像データをエンコードするための動的なスプライト
JP2009194896A (ja) 画像処理装置及び方法並びに撮像装置
Parihar et al. A comprehensive survey on video frame interpolation techniques
JP6202879B2 (ja) ローリングシャッタ歪み補正と映像安定化処理方法
Hu et al. Capturing small, fast-moving objects: Frame interpolation via recurrent motion enhancement
Paliwal et al. Deep slow motion video reconstruction with hybrid imaging system
CN112488922B (zh) 一种基于光流插值的超分辨率处理方法
Cheng et al. A dual camera system for high spatiotemporal resolution video acquisition
Han et al. Hybrid high dynamic range imaging fusing neuromorphic and conventional images
CN113902647B (zh) 一种基于双闭环网络的图像去模糊方法
Shimano et al. Video temporal super-resolution based on self-similarity
CN113724155A (zh) 用于自监督单目深度估计的自提升学习方法、装置及设备
Zhong et al. Bringing rolling shutter images alive with dual reversed distortion
CN115170402A (zh) 基于循环残差卷积和过度参数化卷积的帧插入方法及系统
Lin et al. Event-guided Frame Interpolation and Dynamic Range Expansion of Single Rolling Shutter Image
Shaw et al. Hdr reconstruction from bracketed exposures and events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant