CN117714875A

CN117714875A - 一种基于深度神经网络的端到端视频防抖方法

Info

Publication number: CN117714875A
Application number: CN202410167831.1A
Authority: CN
Inventors: 吴南海; 陈玉明; 翁渊彬; 田设金
Original assignee: Broad Vision Xiamen Technology Co ltd
Current assignee: Broad Vision Xiamen Technology Co ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-03-15
Anticipated expiration: 2044-02-06
Also published as: CN117714875B

Abstract

本申请提供了一种基于深度神经网络的端到端视频防抖方法。本申请的技术方案，从给定视频流中采集t时刻的视频帧I_t以及t‑1时刻的视频帧I_t‑1；将视频帧I_t和I_t‑1分别输入训练得到的视频防抖模型的第一子网络和第二子网络中，得到第一特征图和第二特征图；视频防抖模型的特征融合层将第一特征图和第二特征图拼接为融合特征图I；将I输入到视频防抖模型的第三子网络中得到运动特征向量V；V包括表示视频帧抖动程度的运动置信度和垂直移动距离、水平移动距离、旋转角度、缩放系数中至少两项运动特征值；根据运动特征向量对视频帧I_t进行变换得到去抖动视频帧。上述方案可实时稳定、高效快速地生成高质量的去抖动视频。

Description

一种基于深度神经网络的端到端视频防抖方法

技术领域

本申请涉及深度学习技术领域，特别涉及一种基于深度神经网络的端到端视频防抖方法。

背景技术

视频防抖是指在拍摄视频时，消除由于手持设备的抖动或运动引起的视频画面的晃动或模糊的技术。视频防抖可以提高视频的观看质量和美感，是视频处理领域的一个重要研究课题。

目前，视频防抖的方法主要有两类：基于光流的方法和基于特征识别的方法。基于光流的方法是通过计算相邻帧之间的像素运动，估计视频的运动参数，然后对视频进行补偿和裁剪，实现视频的稳定。基于特征识别的方法是通过提取视频中的特征点，匹配相邻帧之间的特征点，计算视频的运动矩阵，然后对视频进行变换和裁剪，实现视频的稳定。基于光流的方法可以处理复杂的运动场景，但是计算量大，生成效率低，且容易产生模糊和失真的现象。基于特征识别的方法可以快速生成稳定的视频，但是依赖于特征点的质量和数量，对于低纹理、高动态范围或者遮挡的场景，难以提取有效的特征点，导致视频的稳定性不足，且容易出现边缘黑框的问题。

因此，亟需一种技术方案可以克服现存方法中的黑框、模糊、失真等缺陷，实时稳定、高效快速地实现高质量的视频防抖。

发明内容

为了实现上述目的，本申请提供了一种基于深度神经网络的端到端视频防抖方法，能够克服现存方法中的黑框、模糊、失真等缺陷，实时稳定、高效快速地实现高质量的视频防抖。

第一方面，本申请提供了一种基于深度神经网络的端到端视频防抖方法，所述方法包括：

A、从给定视频流中采集t时刻的视频帧I_t以及t时刻前一时刻的视频帧I_t-1；

B1、将视频帧I_t输入到经过训练的视频防抖模型的第一子网络中，通过多轮卷积和池化，得到第一特征图；

B2、将视频帧I_t-1输入到所述视频防抖模型的第二子网络中，通过多轮卷积和池化，得到第二特征图；

C、通过所述视频防抖模型的特征融合层将所述第一特征图和所述第二特征图重叠拼接为融合特征图I；

D、将所述融合特征图I输入到所述视频防抖模型的第三子网络中，经过多轮卷积、池化和全连接处理后，输出运动特征向量V；

所述运动特征向量包括：运动置信度和多种运动特征值；所述运动置信度表示视频帧的抖动程度，所述多种运动特征值包括：垂直移动距离、水平移动距离、旋转角度、缩放系数中的至少两项；

E、在所述运动特征向量中的运动置信度小于或等于预设阈值的情况下，根据所述运动特征向量中的多种运动特征值对所述视频帧I_t进行垂直移动、水平移动、旋转、缩放中至少两项变换，得到去抖动视频帧。

在一种可能实施方式中，所述视频防抖模型的训练方法包括：

S1、获取N个视频帧，构造图像数据集，N为正整数；

S2、对初始运动向量中各个维度的向量值进行随机化，生成M个样本运动向量，所述初始运动向量包括：运动置信度和多种运动特征值，M为正整数；

其中，所述运动置信度表示视频帧的抖动程度，所述多种运动特征值包括垂直移动距离、水平移动距离、旋转角度、缩放系数中的至少两项；

S3、根据M个所述样本运动向量，分别对所述N个视频帧进行垂直移动、水平移动、旋转、缩放中至少两种变换，得到N×M个运动视频帧；

S4、将M个所述样本运动向量作为训练标签、将N个所述视频帧作为所述视频防抖模型中第一子网络的输入、N×M个运动视频帧作为所述视频防抖模型中第二子网络的输入，训练所述视频防抖模型。

在一种可能实施方式中，所述步骤S2包括：

S21、设定运动向量的初始化参数范围，所述初始化参数范围包括：垂直方向和水平方向的最大移动距离D、最大旋转角度A和最大缩放系数Z，D、A和Z为正数；

S22、用所述初始化参数范围对初始运动向量V进行初始化：V=（,/>,/>,/>,c）,-D</><D,-D</><D,-A</><A,1-Z</><1+Z；c是运动置信度，/>是垂直移动距离、/>是水平移动距离、/>是旋转角度、/>是缩放系数，c为0表示未发生运动；

S23、对所述初始运动向量V中的垂直移动距离、水平移动距离、旋转角度、缩放系数进行随机化，生成M个样本运动向量{v1,v2,...,vM}。

在一种可能实施方式中，N个视频帧为目标尺寸，所述步骤S3包括：

针对N个视频帧中第i个视频帧xi，根据M个样本运动向量中第j个样本运动向量中的垂直移动距离、水平移动距离、旋转角度、缩放系数，对视频帧xi进行垂直移动、水平移动、旋转、缩放，并将变换得到的运动视频帧xij剪裁为目标尺寸，其中，1i/>N，1/>j/>M。

在一种可能实施方式中，所述步骤S4包括：

S41、基于M个样本运动向量{v1,v2,...,vM}，构造包含N×M个训练标签的训练标签集LabelSet={label1,label2,...,labelN}，labeli={v1,v2,...,vM}；

S42、基于图像数据集Image中的N个视频帧{x1,x2,...,xn}和N×M个运动视频帧，构造输入数据集InputSet={Input1,Input2,...,InputN}，Inputi={ xi,xi1;xi,xi2;...;xi,xiM }；

S43、用所述训练标签集和输入数据集构成的训练数据集<InputSet，LabelSet>作为训练数据，将视频帧xi作为所述第一子网络的输入、运动视频帧xi1至xiM作为所述第二子网络的输入，训练所述视频防抖模型。

在一种可能实施方式中，所述视频帧的获取方式包括：从给定视频流中随机获取多个视频帧；从给定视频流中获取多对相邻视频帧；所述步骤S43包括：

用所述训练标签集和输入数据集构成的训练数据集<InputSet，LabelSet>作为第一轮训练数据，将视频帧xi作为所述第一子网络的输入、运动视频帧xi1至xiM作为所述第二子网络的输入，预训练所述视频防抖模型，得到预训练视频防抖模型；

基于从目标应用领域的视频流收集的训练数据集作为第二轮训练数据，调整所述预训练视频防抖模型的模型参数，得到针对目标应用领域的视频防抖模型。

在一种可能实施方式中，所述步骤D包括：

D1、将所述融合特征图I输入到所述视频防抖模型的第三子网络中，经过多轮卷积、池化和全连接处理后，输出运动特征向量V=（,/>,/>,/>,/>），/>是运动置信度，/>是垂直移动距离、/>是水平移动距离、/>是旋转角度、/>是缩放系数；

D2、保持运动置信度不变，对运动特征向量V中的运动特征值进行折半平滑，折半平滑后的运动特征向量表示为：（/>/2,/>/2,/>/2,/>/2,/>）。

在一种可能实施方式中，所述步骤E包括：

若运动置信度预设阈值/>，则接输出t时刻视频帧I_t；

若，则采用变换公式对所述视频帧I_t进行垂直移动、水平移动、旋转、缩放中至少两项变换，得到去抖动视频帧/>，变换公式表示为：

，/>是垂直移动距离、/>是水平移动距离、/>是旋转角度、/>是缩放系数。

在一种可能实施方式中，所述步骤A包括：

A1、从给定视频流中采集第一时刻的视频帧I_t以及第一时刻前一时刻的视频帧I_t-1；

A2、从将视频帧I_t和视频帧I_t-1分别划分为2S*S个网格，S为预设的正整数；

所述步骤E之后，所述方法还包括：

按照预设的裁剪区域，对所述去抖动视频帧中所述裁剪区域外的空白区域进行裁剪，并采用插值法将裁剪好的去抖动图像调整到预设的目标尺寸后输出；

所述裁剪区域用多个裁剪线表示，所述多个裁剪线中水平方向的裁剪线HB和HT满足：

且/>；

其中，RGB表示：三个图像通道；；

且/>；

所述多个裁剪线中竖直方向的裁剪线VL和VR满足：

且/>；

其中，x和y分别表示去抖动视频帧中像素点的横坐标和纵坐标。

在一种可能实施方式中，所述视频防抖模型的构建过程包括：

将第一时刻的视频帧作为第一子网络的输入，将第一时刻前一时刻的视频帧作为第二子网络的输入，所述第一子网络和所述第二子网络通过多轮卷积和池化提取运动特征；

将所述第一子网络输出的第一特征图以及所述第二子网络输出的第二特征图作为特征融合层的输入，所述特征融合层用于拼接所述第一特征图和所述第二特征图；

将所述特征融合层输出的融合特征图作为第三子网络的输入，所述第三子网络通过多轮卷积、池化与全连接层处理，输出运动特征向量。

第二方面，提供一种计算机可读存储介质，该存储介质中存储有至少一段程序，至少一段程序由处理器执行以实现如第一方面提供的视频防抖模型的构建方法、第二方面提供的视频防抖模型的训练方法或第三方面提供的视频防抖方法。

本申请的技术方案提供了一种基于深度神经网络的端到端视频防抖方法，本申请方法提供的视频防抖模型由多个深度神经网络的子网络构成，通过第一子网络和第二子网络分别处理前后时刻的是视频帧，再由特征融合层进行特征图拼接，经过第三子网络的卷积、池化及全连接处理后，回归输出多维运动特征向量。运动特征向量包括运动置信度以及多种运动特征值，可指导针对视频帧的去抖动处理。在进行视频防抖时，从给定视频流中采集t时刻的视频帧I_t以及t-1时刻的视频帧I_t-1，将视频帧I_t和I_t-1分别输入训练得到的视频防抖模型；根据模型预测得到的运动特征向量即可针对抖动情况进行精准处理，稳定输出t时刻的去抖动视频帧，实现端到端的抖动视频流稳定效果。

因此，本申请技术方案相比特征识别法防抖动具有更好的生成质量以及快速的生成效率，还可以避免光流法防抖动中出现的边缘黑框问题，从而能够实时稳定、高效快速地生成高质量的去抖动视频。

附图说明

图1是本申请实施例提供的一种基于深度神经网络的端到端视频防抖模型的架构图；

图2是本申请实施例提供的一种图像网格化的示意图；

图3是本申请实施例提供的一种第一子网络和第二子网络的结构图；

图4是本申请实施例提供的一种第三子网络的结构图；

图5是本申请实施例提供的一种基于深度神经网络的端到端视频防抖模型的训练方法流程图；

图6是本申请实施例提供的一种基于深度神经网络的端到端视频防抖方法流程图；

图7是本申请实施例提供的一种裁剪区域的示意图。

具体实施方式

为进一步说明各实施例，本申请提供有附图。这些附图为本申请揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本申请的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上。

现结合附图和具体实施方式对本申请进一步说明。

首先对本申请提供的视频防抖模型的构建方法进行介绍。

本申请实施例提供了一种基于深度神经网络的端到端视频防抖模型的构建方法，基于 “分而治之”的策略进行运动特征的提取，用多个子网络的模型架构来加快运动向量回归预测的速度。本申请实施例中的端到端（end-end）是指本申请实施例提供的视频防抖模型可以直接根据输入的视频帧（图像），输出去抖动视频帧（视频去抖动结果），而无需对视频帧进行预处理后或特征提取后再输入模型进行去抖动。端到端的学习方式可提供简洁的模型架构逻辑，减少工程复杂度。

图1是本申请实施例提供的一种基于深度神经网络的端到端视频防抖模型的架构图，参见图1，视频防抖模型包括第一子网络、第二子网络、第三子网络和特征融合层，前后时刻（t和t-1）对应的两路视频帧通过第一输入层和第二输入层分别输入第一子网络和第二子网络，第一子网络和第二子网络的输出通过特征融合层进行融合后输入第三子网络进行预测，第三子网络输出运动特征向量。

101、将第一时刻的视频帧作为第一子网络的输入，将第一时刻前一时刻的视频帧作为第二子网络的输入，第一子网络和第二子网络通过多轮卷积和池化提取运动特征。

本申请实施例中，视频帧是多通道图像（例如RGB三个通道）示例性地，视频帧的二维图像尺寸为W×H（像素宽度×像素高度），则视频帧的尺寸可以表示为W×H×C（像素宽度×像素高度×图像通道数），例如，视频帧尺寸“1920×1080×3”表示图像宽度为1920，图像高度为1080，图像通道数为3。

在一些可能实施方式中，在将视频帧输入模型之前，先对视频帧进行网格化。示例性地，视频帧的尺寸为W×H（像素宽度×像素高度），按照预设正整数S，将视频帧平均划分为2S×S个网格，每个网格的尺寸大小为W/2S×H/S。图2是本申请实施例提供的一种图像网格化的示意图，S为6，视频帧平均划分为12×6个网格。

通过网格化处理来预先划分图像区域，可支持后续的多维度运动特征的提取。

本申请实施例中，第一子网络和第二子网络的结构相同，下面以第一子网络为例进行说明：第一子网络是卷积神经网络，卷积神经网络内包括多个不同尺寸的卷积层及其对应的池化层和激活函数。

图3是本申请实施例提供的一种第一子网络和第二子网络的结构图。参见图3，第一输入层（t时刻视频帧）输入图像的大小为：1920×1080×3；第一子网络包括：依次连接的卷积层（Conv.Layer）1、池化层（Maxpool Layer）1、卷积层2、池化层2、卷积层3、池化层3。同理，第二输入层（t-1时刻视频帧）输入图像的大小为：1920×1080×3；第二子网络包括：依次连接的卷积层4、池化层4、卷积层5、池化层5、卷积层6、池化层6。

具体地，卷积层1的参数设置：3×3的卷积核，32个滤波器，步长为1，激活函数为ReLU。池化层1的参数设置：2×2的最大池化，步长为2。

卷积层2的参数设置：3×3的卷积核，64个滤波器，步长为1，激活函数为ReLU。池化层2的参数设置：2×2的最大池化，步长为2。

卷积层3的参数设置：3×3的卷积核，3个滤波器，步长为1，激活函数为ReLU。池化层3的参数设置：3×3的最大池化，步长为3。

卷积层4的参数设置：3×3的卷积核，32个滤波器，步长为1，激活函数为ReLU。池化层4的参数设置：2×2的最大池化，步长为2。

卷积层5的参数设置：3×3的卷积核，64个滤波器，步长为1，激活函数为ReLU。池化层5的参数设置：2×2的最大池化，步长为2。

卷积层6的参数设置：3×3的卷积核，3个滤波器，步长为1，激活函数为ReLU。池化层6的参数设置：3×3的最大池化，步长为3。

示例性地，输入模型的视频帧的图像尺寸为1920×1080×3，经过两个子网络处理后得到的第一特征图和第二特征图的尺寸为158×88×3。

102、将第一子网络输出的第一特征图以及第二子网络输出的第二特征图作为特征融合层的输入，特征融合层用于拼接第一特征图和第二特征图。

示例性地，经过两个子网络处理后得到的第一特征图和第二特征图的尺寸为158×88×3；特征融合层将第一特征图和第二特征图拼接融合，得到158×88×6的融合特征图。

103、将特征融合层输出的融合特征图作为第三子网络的输入，第三子网络通过多轮卷积、池化与全连接处理，输出多维运动特征向量V，多维运动特征向量从多种运动维度描述视频帧的抖动程度。

其中，多维运动特征向量包括：运动置信度和多种运动特征值；运动置信度表示视频帧的抖动程度，多种运动特征值包括：垂直移动距离、水平移动距离、旋转角度、缩放系数中的至少两项。

示例性地，运动特征向量表示为：V=（,/>,/>,/>,c）；c是运动置信度，/>是垂直移动距离、/>是水平移动距离、/>是旋转角度、/>是缩放系数。

示例性地，第三子网络包括依次连接到的多个卷积层、池化层和多个全连接层。图4是本申请实施例提供的一种第三子网络的结构图。参见图4，第三子网络包括：依次连接的卷积层7、池化层7、卷积层8、池化层8、卷积层9、池化层3、全连接层（Conn.Layer）1、全连接层2、全连接层3。具体地，卷积层7的参数设置：3×3的卷积核，64个滤波器，步长为1，激活函数为ReLU。池化层7的参数设置：2×2的最大池化，步长为2。

卷积层8的参数设置：3×3的卷积核，128个滤波器，步长为1，激活函数为ReLU。池化层8的参数设置：2×2的最大池化，步长为2。

卷积层9的参数设置：3×3的卷积核，256个滤波器，步长为1，激活函数为ReLU。池化层9的参数设置：3×3的最大池化，步长为3。

全连接层1的参数设置：12×6×32个神经元，激活函数为ReLU。全连接层2：12×6×5个神经元，激活函数为ReLU。全连接层3：1×5个神经元，激活函数为ReLU。

最后输出层的输出大小为：1×5。

通过上述过程，采用2个特征图提取网络（第一子网络和第二子网络）和1个回归预测网络（第三子网络），构建得到本申请提供的视频防抖模型（Video Stabilization Net ，VSN）。结合上述步骤101至103以及图1至图4，本申请提供的视频防抖模型的网络结构以及图像处理原理可简述为：大小为1920×1080×3的两路视频帧（t时刻和t-1时刻），分别输入到VSN的第一子网络和第二子网络中，经过卷积、池化、激活函数运算后，输出158×88×3的第一特征图和第二特征图，然后由VSN的特征融合层进行拼接融合得到158×88×6的融合特征图，融合特征图输入到第三子网络中，经过卷积、池化与两个全连接层后，输出12×6×5的特征图（含有72个5 维度运动特征向量），然后再进通过最后一个全连接层，在输出层得到1×5的运动特征向量。

本申请提供的技术方案相当于实现了一种端到端的视频防抖动神经网络的架构及模型训练方法，以及提供了一种基于该神经网络（视频防抖模型）实现稳定图像（去抖动图像）生成，以实现端到端的视频稳定效果。

下面基于上述对基于深度神经网络的端到端视频防抖模型的构建方法以及对视频防抖模型具体网络结构的介绍，对本申请实施例提供的基于深度神经网络的端到端视频防抖模型的训练方法进行详细说明。图5是本申请实施例提供的一种基于深度神经网络的端到端视频防抖模型的训练方法流程图，参见图5，该训练方法包括下述步骤S1至步骤S4。

S1、获取N个视频帧，构造图像数据集，N为正整数。

本申请实施例中，可以从给定视频流中随机获取视频帧，也可以从给定视频流中获取相邻的多对视频帧。N个视频帧构成的图像数据集表示为：Image={x1,x2,...,xN}。每个视频帧为预设的目标尺寸：W×H×C，例如，1920×1080×3。

上述对视频帧尺寸的介绍可参照前文步骤101中，在此不赘述。

S2、对初始运动向量中各个维度的向量值进行随机化，生成M个样本运动向量，初始运动向量包括：运动置信度和多种运动特征值，M为正整数。

本申请实施例中，步骤S2包括：

S21、设定运动向量的初始化参数范围。

其中，初始化参数范围包括：垂直方向和水平方向的最大移动距离D、最大旋转角度A和最大缩放系数Z，D、A和Z为正数。

本申请实施例中，针对W×H×C大小的视频帧进行运动参数的初始化。设定视频帧在x轴方向与在y轴方向上的的最大移动距离D>0，顺时针与逆时针最大旋转角度为A>0，最大缩放系数为Z>0。

S22、用初始化参数范围对初始运动向量V进行初始化。

初始化过程可表示为：V=（,/>,/>,/>,c），使-D</><D,-D</><D,-A</><A,1-Z</><1+Z；

其中，是垂直移动距离、/>是水平移动距离、/>是旋转角度、/>是缩放系数。

其中，c是运动置信度，c为0表示未发生运动，c不为0则表示视频帧发生运动。具体地，当,/>,/>,/>都为0时，表示图像静止，设置c=0；当/>,/>,/>,/>任一不为0时，表示发生运动，设置c=1。当然，针对/>,/>,/>,/>任一不为0的情况，还可以根据参数的实际数值来计算c的数值， c可以为0至1范围内的任意常数，例如，c=0.75，c=0.94。

S23、对初始运动向量V中的垂直移动距离、水平移动距离、旋转角度、缩放系数进行随机化，生成M个样本运动向量{v1,v2,...,vM}。

其中，运动置信度表示视频帧的抖动程度，多种运动特征值包括垂直移动距离、水平移动距离、旋转角度、缩放系数中的至少两项。

具体地，上述随机化生成过程中，首先对垂直移动距离、水平移动距离、旋转角度、缩放系数进行随机化生成，并根据随机化得到的垂直移动距离、水平移动距离、旋转角度、缩放系数，确定运动置信度的数值。

S3、根据M个样本运动向量，分别对N个视频帧进行垂直移动、水平移动、旋转、缩放中至少两种变换，得到N×M个运动视频帧。

在一种可能实施方式中，视频帧为目标尺寸（W×H×C），本步骤S3具体包括：

针对N个视频帧中第i个视频帧xi，根据M个样本运动向量中第j个样本运动向量中的垂直移动距离、水平移动距离/>、旋转角度/>、缩放系数/>，对视频帧xi进行垂直移动、水平移动、旋转、缩放，并将变换得到的运动视频帧xij剪裁为目标尺寸，其中，1/>i/>N，1j/>M。

具体地，按照样本运动向量中的，对视频帧xi进行垂直移动；按照样本运动向量中的/>,对视频帧xi进行水平移动；按照样本运动向量中的/>,对视频xi帧进行旋转；按照样本运动向量中的/>,对视频帧xi进行缩放。

其中，不同变换操作的执行顺序可按照预设顺序，也可以随机进行，本申请对此不作限定。

S4、将M个样本运动向量作为训练标签、将N个视频帧作为视频防抖模型中第一子网络的输入、N×M个运动视频帧作为视频防抖模型中第二子网络的输入，训练视频防抖模型。

本申请实施例中，步骤S4包括：

S41、基于M个样本运动向量{v1,v2,...,vM}，构造包含N×M个训练标签的训练标签集LabelSet={label1,label2,...,labelN}，labeli={v1,v2,...,vM}。

具体地，针对视频帧xi，用产生的M个样本运动向量作为训练标签，可表示为labeli={v1,v2,...,vM}，以此类推。

具体地，步骤S3中针对视频帧xi会生成M张运动视频帧，则将M个运动视频帧和镀银的视频帧xi组合，会产生M个组合图像作为输入，表示为Inputi={xi,xi1;xi,xi2;...;xi,xiM}。

S43、用所述训练标签集和输入数据集构成的训练数据集<InputSet，LabelSet>作为训练数据，将视频帧xi作为所述第一子网络的输入、运动视频帧xi1至xiM作为所述第二子网络的输入，训练所述视频防抖模型

在一种可能实施方式中，视频防抖模型的训练方法包括两轮训练过程，第一轮先进行预训练，然后针对目标应用领域的视频流进行第二轮训练。在这种示例下，本步骤S43包括：

用训练标签集和输入数据集构成的训练数据集<InputSet，LabelSet>作为第一轮训练数据，将视频帧xi作为第一子网络的输入、运动视频帧xi1至xiM作为第二子网络的输入，预训练视频防抖模型，得到预训练视频防抖模型；

基于从目标应用领域的视频流收集的训练数据集作为第二轮训练数据，调整预训练视频防抖模型的模型参数，得到针对目标应用领域的视频防抖模型。

其中，针对目标应用领域的视频流获取视频帧方式包括：从给定视频流中随机获取多个视频帧；从给定视频流中获取多对相邻视频帧。

本申请技术方案所提供的训练方法，可高效地训练得到视频防抖模型，基于多维运动特征向量来模拟多种视频抖动情况，从而在训练视频防抖模型时，引入对多种视频抖动情况的全面考量，因此，通过上述训练方法训练得到的视频防抖模型相比特征识别法防抖动具有更好的生成质量以及快速的生成效率，还可以避免光流法防抖动中出现的边缘黑框问题，从而能够实时稳定、高效快速地生成高质量的去抖动视频。

最后基于上述对视频防抖模型的构建方法的介绍、对视频防抖模型具体网络结构的介绍、对视频防抖模型的训练方法的介绍，对本申请实施例提供的基于深度神经网络的端到端视频防抖方法进行详细说明。图6是本申请实施例提供的一种基于深度神经网络的端到端视频防抖方法流程图，参见图6，该训练方法包括下述步骤A至步骤E。

A、从给定视频流中采集t时刻的视频帧I_t以及t时刻前一时刻的视频帧I_t-1。

本申请实施例中，步骤A包括：

A1、从给定视频流中采集第一时刻的视频帧I_t以及第一时刻前一时刻的视频帧I_t-1。

A2、从将视频帧I_t和视频帧I_t-1分别划分为2S*S个网格，S为预设的正整数。

具体地，从给定摄像头视频流中，采集t时刻与t-1时刻的3通道视频帧，分别记为I_t, I_t-1；按照预设的参数S，将视频帧I_t, I_t-1分别划分为2S×S个网格，例如，S为6，则网格数量为12×6。需要说明的是，当t=0时刻，I_t为视频流中的第1帧。

B、将视频帧It和It-1分别输入到训练得到的视频防抖模型的第一子网络和第二子网络中，通过多轮卷积和池化，得到第一特征图和第二特征图。

本申请实施例中，步骤B包括：

B1、将视频帧I_t输入到训练得到的视频防抖模型的第一子网络中，通过多轮卷积和池化，得到第一特征图。

B2、将视频帧I_t-1输入到训练得到的视频防抖模型的第二子网络中，通过多轮卷积和池化，得到第二特征图。

具体地，尺寸为1920×1080×3的两路视频帧I_t和I_t-1，分别输入到视频防抖模型的第一子网络和第二子网络中，经过卷积、池化、激活函数运算后，输出158×88×3的第一特征图和第二特征图。

本申请实施例中视频防抖模型的训练方法参见前述实施例，在此不赘述。

C、通过视频防抖模型的特征融合层将第一特征图和第二特征图重叠拼接为融合特征图I。

具体地，由视频防抖模型的特征融合层对第一特征图I1和第二特征图I2进行拼接融合，得到158×88×6的融合特征图。第一特征图和第二特征图重叠合并为158×88×6大小6通道的融合特征图I的过程表示为：I=I1©I2。符号©表示在C（图像通道）维度对特征图进行拼接。

D、将融合特征图I输入到视频防抖模型的第三子网络中，经过多轮卷积、池化和全连接处理后，输出运动特征向量V。

其中，运动特征向量包括：运动置信度和多种运动特征值；运动置信度表示视频帧的抖动程度，多种运动特征值包括：垂直移动距离、水平移动距离、旋转角度、缩放系数中的至少两项。

本申请实施例中，步骤D包括：

D1、将融合特征图I输入到视频防抖模型的第三子网络中，经过多轮卷积、池化和全连接处理后，输出运动特征向量V=（,/>,/>,/>,/>）。

其中，是运动置信度，/>是垂直移动距离、/>是水平移动距离、/>是旋转角度、/>是缩放系数。运动特征向量中各种参数的介绍参考前文，在此不赘述。

具体地，将融合特征图I输入到第三子网络中，经过卷积层、池化层、前两个全连接层后，输出2S×S×5的运动特征图。该运动特征图表示了2S×S个网格的图像运动特征，每个网格对应了一个5维度的运动特征向量，表示为Vi=（,/>,/>,/>,/>）。

进一步地，将2S×S×5的运动特征向量再输入到第三子网络中的最后一个全连接层，最后得到1×5的运动特征向量V。

通过对运动特征向量V进行折半平滑可降低运动特征向量的误差，提升视频去抖动的稳定性。

E、在运动特征向量中的运动置信度小于或等于预设阈值的情况下，根据运动特征向量中的多种运动特征值对视频帧I_t进行垂直移动、水平移动、旋转、缩放中至少两项变换，得到去抖动视频帧。

本申请实施例中，根据运动置信度进行判断t时刻视频帧是否需要通过变换来去抖动。本步骤E包括：若运动置信度预设阈值/>，则接输出t时刻视频帧I_t；

若，则采用变换公式对视频帧I_t进行垂直移动、水平移动、旋转、缩放中至少两项变换，得到去抖动视频帧/>。其中，预设阈值/>是0至1范围内的常数，例如，0.95。

上述变换公式表示为：

（1）

公司（1）中， I_t是t时刻的视频帧，是去抖动视频帧，/>是垂直移动距离、/>是水平移动距离、/>是旋转角度、/>是缩放系数。

在一种可能实施方式中，步骤E之后，本申请提供的视频防抖方法还包括：

F、按照预设的裁剪区域，对去抖动视频帧中的空白区域进行裁剪，并采用插值法将裁剪好的去抖动图像调整到预设的目标尺寸后输出。/>

在一种可能实施方式中，步骤F包括F1和F2。

步骤F1：步骤E得到的即为经过去抖动处理后的稳定图像，考虑到该视频帧存在空白的区域，通过裁剪可提升去抖动的效果。

示例性地，根据预先定义的四条裁剪线来对去抖动视频帧进行剪裁。图7是本申请实施例提供的一种裁剪区域的示意图。

具体地，参见图7，裁剪区域由多条裁剪线构成，裁剪线包括水平方向的两条裁剪线HT（裁剪区域上侧边界线）和HB（裁剪区域下侧边界线），竖直方向的两条裁剪线VL（裁剪区域左侧边界线）和VR（裁剪区域右侧边界线），如图3所示。水平线HB满足：

且/>；

其中，RGB为图像三通道，R表示Red通道，G表示Green通道，B表示Blue通道；，具体/>值由实验确定；

相应的，水平线HT满足：

且/>；

竖直线VL满足：

且/>；

竖直线VR满足：且/>。

其中，x和y分别表示去抖动视频帧中像素点的横坐标和纵坐标；

基于上述裁剪线，将去抖动视频帧中x<VL,x>VR,y<HB,y>HT的区域裁剪掉。

步骤F2：将步骤F1中裁剪后的去抖动图像采用插值法放大到目标尺寸后输出。目标尺寸格式为W×H×C，具体例如是1920×1080×3。

本申请技术方案所提供的基于深度神经网络的端到端视频防抖方法采用多维运动特征向量来分析多种视频抖动情况，引入对多种视频抖动情况的全面考量，相比特征识别法防抖动，本申请提供的视频防抖方法具有更好的生成质量以及快速的生成效率，还可以避免光流法防抖动中出现的边缘黑框问题，从而能够实时稳定、高效快速地生成高质量的去抖动视频。

本申请提供的基于深度神经网络的端到端视频防抖模型的构建方法、训练方法和基于深度神经网络的端到端视频防抖方法均可由计算设备执行。该计算设备可以为服务器、多个物理服务器构成的服务器集群或者分布式文件系统，又或者是提供云存储以及云服务、云数据库、云计算、云函数、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（content delivery network，CDN）、大数据和人工智能平台等基础云计算服务的云服务器集群，本申请对此不做限定。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例上述视频防抖模型的构建方法、训练方法或视频防抖方法中的全部或部分步骤。

所述计算机单元集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。

尽管结合优选实施方案具体展示和介绍了本申请，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本申请的精神和范围内，在形式上和细节上可以对本申请做出各种变化，均为本申请的保护范围。

Claims

1.一种基于深度神经网络的端到端视频防抖方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于深度神经网络的端到端视频防抖方法，其特征在于，所述视频防抖模型的训练方法包括：

S1、获取N个视频帧，构造图像数据集，N为正整数；

3.根据权利要求2所述的基于深度神经网络的端到端视频防抖方法，其特征在于，所述步骤S2包括：

S22、用所述初始化参数范围对初始运动向量V进行初始化：V=（,/>,/>,/>,c）,-D<<D,-D</><D,-A</><A,1-Z</><1+Z；c是运动置信度，/>是垂直移动距离、/>是水平移动距离、/>是旋转角度、/>是缩放系数，c为0表示未发生运动；

4.根据权利要求2所述的基于深度神经网络的端到端视频防抖方法，其特征在于，N个视频帧为目标尺寸，所述步骤S3包括：

5.根据权利要求4所述的基于深度神经网络的端到端视频防抖方法，其特征在于，所述步骤S4包括：

6.根据权利要求5所述的基于深度神经网络的端到端视频防抖方法，其特征在于，所述视频帧的获取方式包括：从给定视频流中随机获取多个视频帧；从给定视频流中获取多对相邻视频帧；所述步骤S43包括：

7.根据权利要求1所述的基于深度神经网络的端到端视频防抖方法，其特征在于，所述步骤D包括：

D1、将所述融合特征图I输入到所述视频防抖模型的第三子网络中，经过多轮卷积、池化和全连接处理后，输出运动特征向量V=（,/>,/>,/>,/>），/>是运动置信度， />是垂直移动距离、/>是水平移动距离、/>是旋转角度、/>是缩放系数；

8.根据权利要求1所述的基于深度神经网络的端到端视频防抖方法，其特征在于，所述步骤E包括：

若运动置信度预设阈值/>，则接输出t时刻视频帧I_t；

， />是垂直移动距离、/>是水平移动距离、/>是旋转角度、/>是缩放系数。

9.根据权利要求1所述的基于深度神经网络的端到端视频防抖方法，其特征在于，所述步骤A包括：

所述步骤E之后，所述方法还包括：

且/>；

其中，RGB表示：三个图像通道；；

且/>；

所述多个裁剪线中竖直方向的裁剪线VL和VR满足：

且/>；

10.根据权利要求1所述的基于深度神经网络的端到端视频防抖方法，其特征在于，所述视频防抖模型的构建过程包括：