CN109862208B

CN109862208B - 视频处理方法、装置、计算机存储介质以及终端设备

Info

Publication number: CN109862208B
Application number: CN201910210075.5A
Authority: CN
Inventors: 许翔宇; 李沐辰; 孙文秀
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2021-07-02
Anticipated expiration: 2039-03-19
Also published as: JP2021530770A; TWI714397B; SG11202108771RA; JP7086235B2; CN109862208A; WO2020186765A1; US20210327033A1; TW202037145A

Abstract

本发明实施例公开了一种视频处理方法、装置以及计算机存储介质，该方法包括：获取视频序列中待处理帧对应的卷积参数，其中，所述卷积参数包括可变形卷积核的采样点及所述采样点的权重；根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧。

Description

视频处理方法、装置、计算机存储介质以及终端设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种视频处理方法、装置以及计算机存储介质。

背景技术

在视频的采集、传输和接收过程中，通常会有各种噪声夹杂在其中，夹杂的噪声降低了视频的视觉质量。例如，在相机光圈较小以及低光场景下所得到的视频往往包含有噪声，但是带噪声的视频中也包含了大量的信息，视频中的噪声会使得这些信息具有不确定性，严重影响观看者的视觉感受。因此，视频的去噪具有重要的研究意义，已经成为计算机视觉的重要研究课题。

然而目前的解决方案仍然存在不足，尤其是当视频中连续的帧与帧之间存在运动或者相机自身存在抖动时，不仅无法将噪声去除干净，还容易导致视频中图像细节的损失或者图像边缘的模糊与重影。

发明内容

本发明的主要目的在于提出一种视频处理方法、装置以及计算机存储介质，可以有效地提取视频连续帧的信息并进行视频去噪，避免了视频中帧与帧之间运动所带来的图像模糊、细节损失与重影问题，同时提高了视频的成像质量。

为达到上述目的，本发明的技术方案是这样实现的：

第一方面，本发明实施例提供了一种视频处理方法，所述方法包括：

获取视频序列中待处理帧对应的卷积参数，其中，所述卷积参数包括可变形卷积核的采样点及所述采样点的权重；

根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧。

在上述方案中，在所述获取视频序列中待处理帧对应的卷积参数之前，所述方法还包括：

基于样本视频序列进行深度神经网络训练得到可变形卷积核。

在上述方案中，所述基于样本视频序列进行深度神经网络训练得到可变形卷积核，包括：

基于深度神经网络对所述样本视频序列中连续的多个视频帧分别进行坐标预测和权重预测，得到所述可变形卷积核的预测坐标和预测权重，其中，所述连续的多个视频帧包括样本参考帧及其至少一个相邻帧；

对所述可变形卷积核的预测坐标进行采样，得到所述可变形卷积核的采样点；

根据所述可变形卷积核的预测坐标和预测权重，得到所述可变形卷积核的采样点的权重；

将所述可变形卷积核的采样点及所述采样点的权重，作为所述卷积参数。

在上述方案中，所述对所述可变形卷积核的预测坐标进行采样，得到所述可变形卷积核的采样点，包括：

将所述可变形卷积核的预测坐标输入到预设采样模型中，获得所述可变形卷积核的采样点。

在上述方案中，在所述获得所述可变形卷积核的采样点之后，所述方法还包括：

获取所述样本参考帧及所述至少一个相邻帧中的像素点；

基于所述可变形卷积核的采样点，通过预设采样模型对所述像素点以及所述可变形卷积核的预测坐标进行采样计算，根据计算的结果确定所述采样点的采样值。

在上述方案中，所述根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧，包括：

将可变形卷积核的采样点及所述采样点的权重与所述待处理帧进行卷积处理，得到所述去噪后的视频帧。

在上述方案中，所述将可变形卷积核的采样点及所述采样点的权重与所述待处理帧进行卷积处理，得到所述去噪后的视频帧，包括：

针对所述待处理帧中的每个像素点，将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行卷积运算，得到每个像素点对应的去噪像素值；

根据每个像素点对应的去噪像素值，得到去噪后的视频帧。

在上述方案中，所述将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行卷积运算，得到每个像素点对应的去噪像素值，包括：

将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行加权求和计算；

根据计算的结果，获得每个像素点对应的去噪像素值。

第二方面，本发明实施例提供了一种视频处理装置，所述视频处理装置包括获取单元和去噪单元，其中，

所述获取单元，配置为获取视频序列中待处理帧对应的卷积参数，其中，所述卷积参数包括可变形卷积核的采样点及所述采样点的权重；

所述去噪单元，配置为根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧。

在上述方案中，所述视频处理装置还包括训练单元，配置为基于样本视频序列进行深度神经网络训练得到可变形卷积核。

在上述方案中，所述视频处理装置还包括预测单元和采样单元，其中，

所述预测单元，配置为基于深度神经网络对所述样本视频序列中连续的多个视频帧分别进行坐标预测和权重预测，得到所述可变形卷积核的预测坐标和预测权重，其中，所述连续的多个视频帧包括样本参考帧及其至少一个相邻帧；

所述采样单元，配置为对所述可变形卷积核的预测坐标进行采样，得到所述可变形卷积核的采样点；

所述获取单元，还配置为根据所述可变形卷积核的预测坐标和预测权重，得到所述可变形卷积核的采样点的权重；以及将所述可变形卷积核的采样点及所述采样点的权重，作为所述卷积参数。

在上述方案中，所述采样单元，具体配置为将所述可变形卷积核的预测坐标输入到预设采样模型中，获得所述可变形卷积核的采样点。

在上述方案中，所述获取单元，还配置为获取所述样本参考帧及所述至少一个相邻帧中的像素点；

所述采样单元，还配置为基于所述可变形卷积核的采样点，通过预设采样模型对所述像素点以及所述可变形卷积核的预测坐标进行采样计算，根据计算的结果确定所述采样点的采样值。

在上述方案中，所述去噪单元，具体配置为将可变形卷积核的采样点及所述采样点的权重与所述待处理帧进行卷积处理，得到所述去噪后的视频帧。

在上述方案中，所述视频处理装置还包括卷积单元，配置为针对所述待处理帧中的每个像素点，将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行卷积运算，得到每个像素点对应的去噪像素值；

所述去噪单元，具体配置为根据每个像素点对应的去噪像素值，得到去噪后的视频帧。

在上述方案中，所述卷积单元，具体配置为将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行加权求和计算；以及根据计算的结果，获得每个像素点对应的去噪像素值。

第三方面，本发明实施例提供了一种视频处理装置，所述视频处理装置包括：存储器和处理器；其中，

所述存储器，用于存储能够在所述处理器上运行的计算机程序；

所述处理器，用于在运行所述计算机程序时，执行如第一方面中任一项所述方法的步骤。

第四方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有视频处理程序，所述视频处理程序被至少一个处理器执行时实现如第一方面中任一项所述方法的步骤。

第五方面，本发明实施例提供了一种终端设备，其特征在于，所述终端设备至少包括如第二方面中任一项、或者如第三方面所述的视频处理装置。

本发明实施例所提供的一种视频处理方法、装置以及计算机存储介质，首先获取视频序列中待处理帧对应的卷积参数，其中，所述卷积参数包括可变形卷积核的采样点及所述采样点的权重；由于该卷积参数是通过提取视频连续帧的信息来得到的，能够有效避免视频中帧与帧之间运动所带来的图像模糊、细节损失与重影问题；再根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧；这样，由于采样点的权重可以根据采样点位置的不同而变化，从而能够使得视频去噪效果更佳，提高了视频的成像质量。

附图说明

图1为本发明实施例提供的一种视频处理方法的流程示意图；

图2为本发明实施例提供的一种深度卷积神经网络的结构示意图；

图3为本发明实施例提供的另一种视频处理方法的流程示意图；

图4为本发明实施例提供的又一种视频处理方法的流程示意图；

图5为本发明实施例提供的再一种视频处理方法的流程示意图；

图6为本发明实施例提供的一种视频处理方法的总体架构示意图；

图7为本发明实施例提供的再一种视频处理方法的流程示意图；

图8为本发明实施例提供的一种视频处理方法的详细架构示意图；

图9为本发明实施例提供的一种视频处理装置的组成结构示意图；

图10为本发明实施例提供的一种视频处理装置的具体硬件结构示意图；

图11为本发明实施例提供的一种终端设备的组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例提供了一种视频处理的方法，该方法应用于视频处理装置中，该装置可以设置在诸如智能手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(PersonalDigital Assistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、可穿戴设备、导航装置等移动式终端设备中，也可以设置在诸如数字TV、台式计算机等固定式终端设备中，本发明实施例不作具体限定。

参见图1，其示出了本发明实施例提供的一种视频处理方法的流程示意图，该方法可以包括：

S101：获取视频序列中待处理帧对应的卷积参数，其中，所述卷积参数包括可变形卷积核的采样点及所述采样点的权重；

需要说明的是，视频序列是通过摄像机、智能手机、平板电脑和许多其他终端设备进行采集而捕获到的。其中，小型摄像机和诸如智能手机、平板电脑等终端设备通常配置有较小尺寸的图像传感器和不太理想的光学器件，此时视频帧的去噪处理对于这些设备尤其重要。高端摄像机和摄录机等通常配置有更大尺寸的图像传感器和更好的光学器件，使用这些设备所捕获的视频帧在正常光照条件下具有不错的成像质量；然而在低光场景下所捕获的视频帧也往往包含有大量噪声，此时仍然需要进行视频帧的去噪处理。

这样，通过摄像机、智能手机、平板电脑和许多其他终端设备的采集，可以获取到视频序列。其中，该视频序列中包含有待进行去噪处理的待处理帧。通过对该视频序列中的连续帧(即连续的多个视频帧)进行深度神经网络训练，可以得到可变形卷积核；然后获取可变形卷积核的采样点以及采样点的权重，将其作为待处理帧的卷积参数。

在一些实施例中，深度卷积神经网络(Deep Convolutional Neural Networks，Deep CNN)是一类包含卷积运算且具有深度结构的前馈神经网络，是深度神经网络进行深度学习的代表算法之一。

参见图2，其示出了本发明实施例提供的一种深度卷积神经网络的结构示意图；如图2所示，该深度卷积神经网络的结构中包含有卷积层、池化层和双线性上采样层；其中，无填充颜色的层为卷积层，黑色填充的层为池化层，灰色填充的层为双线性上采样层；每一层对应的通道数(即，每一个卷积层中所包含的可变形卷积核数量)如表1所示。从表1中可以看出，前25层坐标预测网络(用V网络表示)和权重预测网络(用F网络表示)的通道数是相同的，表明了V网络和F网络可以共享前25层的特征信息，这样通过特征信息的共享可以减小网络的计算量。其中，F网络可以用于通过样本视频序列(即连续的多个视频帧)来获取可变形卷积核的预测权重，V网络可以用于通过样本视频序列(即连续的多个视频帧)来获取可变形卷积核的预测坐标，根据可变形卷积核的预测坐标，能够得到可变形卷积核的采样点；根据可变形卷积核的预测权重和可变形卷积核的预测坐标，能够得到可变形卷积核的采样点的权重，进而得到了卷积参数。

表1

S102：根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧。

需要说明的是，在获取到待处理帧对应的卷积参数之后，可以根据可变形卷积核的采样点以及采样点的权重与待处理帧进行卷积运算处理，卷积运算的结果即为去噪后的视频帧。

具体地，在一些实施例中，对于S102来说，所述根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧，该方法可以包括：

也就是说，针对待处理帧的去噪处理，可以是由可变形卷积核的采样点以及采样点的权重与待处理帧进行卷积处理得到的。例如，针对待处理帧中的每个像素点，可以是由每个像素点与可变形卷积核的采样点以及采样点的权重进行加权求和来得到每个像素点对应的去噪像素值，从而实现了对待处理帧的去噪处理。

在本发明实施例中，视频序列中包含有待进行去噪处理的待处理帧。通过获取视频序列中待处理帧对应的卷积参数，所述卷积参数包括可变形卷积核的采样点及所述采样点的权重；根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧；这样，由于该卷积参数是通过提取视频连续帧的信息来得到的，能够有效避免视频中帧与帧之间运动所带来的图像模糊、细节损失与重影问题；而且采样点的权重还可以根据采样点位置的不同而变化，从而能够使得视频去噪效果更佳，提高了视频的成像质量。

为了得到可变形卷积核，在一些实施例中，参见图3，其示出了本发明实施例提供的另一种视频处理方法的流程示意图。如图3所示，在所述获取视频序列中待处理帧对应的卷积参数之前，即S101之前，该方法还可以包括：

S201：基于样本视频序列进行深度神经网络训练得到可变形卷积核。

需要说明的是，从视频序列中选择连续的多个视频帧作为样本视频序列，其中，样本视频序列不仅包含有样本参考帧，还包含有与样本参考帧相邻的至少一个相邻帧。这里，至少一个相邻帧可以是该样本参考帧前向相邻的至少一个相邻帧，也可以是该样本参考帧后向相邻的至少一个相邻帧，还可以是该样本参考帧前向相邻以及后向相邻的多个相邻帧，本发明实施例不作具体限定。下面将以该样本参考帧前向相邻以及后向相邻的多个相邻帧作为样本视频序列为例进行描述，例如，假定样本参考帧为视频序列中的第0帧，与该样本参考帧相邻的至少一个相邻帧包括前向相邻的第-T帧、第-(T-1)帧、…、第-2帧、第-1帧和后向相邻的第1帧、第2帧、…、第(T-1)帧、第T帧，即该样本视频序列中总共有(2T+1)帧，且这些帧为连续帧。

在本发明实施例中，通过对样本视频序列进行深度神经网络训练可以得到可变形卷积核，而待处理帧中每个像素点可以与对应的可变形卷积核进行卷积运算处理，以实现对待处理帧进行去噪处理；与现有技术中的固定卷积核相比，本发明实施例采用可变形卷积核，可以使得待处理帧的视频处理达到更好的去噪效果。另外，由于本发明实施例是进行三维卷积运算，与其对应的可变形卷积核也是三维的；如无特别说明，本发明实施例中的可变形卷积核均是指三维可变形卷积核。

进一步地，针对可变形卷积核的采样点以及采样点的权重，可以通过深度神经网络对样本视频序列中连续的多个视频帧进行坐标预测和权重预测，首先获取到可变形卷积核的坐标预测和权重预测；再根据坐标预测和权重预测来进一步得到可变形卷积核的采样点以及采样点的权重。具体地，在一些实施例中，参见图4，其示出了本发明实施例提供的又一种视频处理方法的流程示意图。如图4所示，对于S201来说，所述基于样本视频序列进行深度神经网络训练得到可变形卷积核，该方法可以包括：

S201a：基于深度神经网络对所述样本视频序列中连续的多个视频帧分别进行坐标预测和权重预测，得到所述可变形卷积核的预测坐标和预测权重；

需要说明的是，连续的多个视频帧包括样本参考帧以及其至少一个相邻帧。如果至少一个相邻帧包括前向相邻的T帧和后向相邻的T帧，那么连续的多个视频帧总共为(2T+1)帧。通过深度神经网络对这连续的多个视频帧(比如总共(2T+1)帧)进行深度学习，根据学习结果建立坐标预测网络和权重预测网络；然后由坐标预测网络进行坐标预测，可以得到可变形卷积核的预测坐标，而由权重预测网络进行权重预测，可以得到可变形卷积核的预测权重。这里，待处理帧可以是样本视频序列中的样本参考帧，以对其进行视频去噪处理。

示例性地，假定样本视频序列中每一帧的宽度用W表示，高度用H表示，可以得到待处理帧所包含的像素点个数为H×W个。由于可变形卷积核是三维的，而且可变形卷积核的大小是由N个采样点组成，那么待处理帧中所能够获取到的可变形卷积核的预测坐标个数为H×W×N×3个，而待处理帧中所能够获取到的可变形卷积核的预测权重个数为H×W×N个。

S201b：对所述可变形卷积核的预测坐标进行采样，得到所述可变形卷积核的采样点；

需要说明的是，在获取到可变形卷积核的预测坐标和可变形卷积核的预测权重之后，可以对可变形卷积核的预测坐标进行采样，从而能够得到可变形卷积核的采样点。

具体地，可以通过预设采样模型对可变形卷积核的预测坐标进行采样处理。在一些实施例中，参见图5，其示出了本发明实施例提供的再一种视频处理方法的流程示意图。如图5所示，对于S201b来说，所述对所述可变形卷积核的预测坐标进行采样，得到所述可变形卷积核的采样点，该方法可以包括：

S201b-1：将所述可变形卷积核的预测坐标输入到预设采样模型中，获得所述可变形卷积核的采样点。

需要说明的是，预设采样模型表示预先设置的对可变形卷积核的预测坐标进行采样处理的模型。在本发明实施例中，预设采样模型可以是指三线性采样器，也可以是指其他采样模型，本发明实施例不作具体限定。

基于预设采样模型，在获得所述可变形卷积核的采样点之后，所述方法还可以包括：

S201b-2：获取所述样本参考帧及所述至少一个相邻帧中的像素点；

需要说明的是，如果样本参考帧及所述至少一个相邻帧总共有(2T+1)帧，且每一帧的宽度用W表示，高度用H表示，那么可以获取到的像素点个数为 H×W×(2T+1)个。

S201b-3：基于所述可变形卷积核的采样点，通过预设采样模型对所述像素点以及所述可变形卷积核的预测坐标进行采样计算，根据计算的结果确定所述采样点的采样值。

需要说明的是，基于预设采样模型，可以将所有的像素点以及可变形卷积核的预测坐标输入到预设采样模型中，而预设采样模型的输出就是可变形卷积核的采样点以及采样点的采样值。这样，如果得到采样点个数为H×W×N个，那么对应的采样值个数也为H×W×N个。

示例性地，以三线性采样器为例，三线性采样器不仅可以根据可变形卷积核的预测坐标确定出可变形卷积核的采样点，还可以确定出与采样点对应的采样值。其中，以样本视频序列中的(2T+1)帧为例，该(2T+1)帧是由样本参考帧、与样本参考帧前向相邻的T个相邻帧以及与样本参考帧后向相邻的T个相邻帧组成的；该(2T+1)帧中所包含的像素点个数为H×W×(2T+1)个，将这些H×W×(2T+1)个像素点所对应的像素值和H×W×N×3个预测坐标共同输入到三线性采样器进行采样计算；具体地，该三线性采样器的采样计算如式(1)所示，

其中，

表示像素点位置(y,x)处的第n个采样点的采样值，n为大于或等于1且小于或等于N的正整数，u_(y,x,n),v_(y,x,n),z_(y,x,n)分别表示像素点位置(y,x) 处的第n个采样点对应在三个维度(水平维度、垂直维度和时间维度)上的预测坐标，X(i,j,m)表示视频序列中第m帧像素点位置(i,j)处的像素值。

另外，对于可变形卷积核来说，可变形卷积核的预测坐标是变化的，它是在每个采样点的位置坐标(x_n,y_n,t_n)处都增加了一个相对的偏移变量。具体地， u_(y,x,n),v_(y,x,n),z_(y,x,n)可以分别用下式表示，

u_(y,x,n)＝x_n+V(y,x,n,1)

v_(y,x,n)＝y_n+V(y,x,n,2) (2)

z_(y,x,n)＝t_n+V(y,x,n,3)

其中，u_(y,x,n)表示像素点位置(y,x)处的第n个采样点对应在水平维度上的预测坐标，V(y,x,n,1)表示像素点位置(y,x)处的第n个采样点对应在水平维度上的偏移变量；v_(y,x,n)表示像素点位置(y,x)处的第n个采样点对应在垂直维度上的预测坐标，V(y,x,n,2)表示像素点位置(y,x)处的第n个采样点对应在垂直维度上的偏移变量；z_(y,x,n)表示像素点位置(y,x)处的第n个采样点对应在时间维度上的预测坐标，V(y,x,n,3)表示像素点位置(y,x)处的第n个采样点对应在时间维度上的偏移变量。

在本发明实施例中，一方面可以确定出可变形卷积核的采样点，另一方面还可以得到每个采样点的采样值；由于可变形卷积核的预测坐标是可变化的，说明了每个采样点的位置并不是固定不变的，也就是说，本发明实施例中的可变形卷积核并非是固定的卷积核，而是可变形的卷积核。与现有技术中的固定卷积核相比，本发明实施例采用可变形卷积核，可以使得待处理帧的视频处理达到更好的去噪效果。

S201c：根据所述可变形卷积核的预测坐标和预测权重，得到所述可变形卷积核的采样点的权重；

S201d：将所述可变形卷积核的采样点及所述采样点的权重，作为所述卷积参数。

需要说明的是，在得到可变形卷积核的采样点之后，还可以根据所获取到的可变形卷积核的预测坐标和可变形卷积核的预测权重，得到可变形卷积核的采样点的权重；从而也就获取到了待处理帧对应的卷积参数。需要注意的是，这里的预测坐标是指可变形卷积核的相对坐标值。

还需要说明的是，在本发明实施例中，假定样本视频序列中每一帧的宽度用W表示，高度用H表示，由于可变形卷积核是三维的，而且可变形卷积核的大小是有N个采样点组成，那么待处理帧中所能够获取到的可变形卷积核的预测坐标个数为H×W×N×3个，而待处理帧中所能够获取到的可变形卷积核的预测权重个数为H×W×N个；进一步地，可以得到可变形卷积核的采样点个数为H×W×N个，采样点的权重个数也为H×W×N个。

示例性地，仍以图2所示的深度卷积神经网络为例，假定每一个卷积层中所包含的可变形卷积核大小是相同的，比如可变形卷积核所包含的采样点个数为N个；通常来说，N可以取值为9，但是在实际应用中，还可以根据实际情况进行具体设定，本发明实施例不作具体限定。还需要注意的是，针对这N个采样点，在本发明实施例中，由于可变形卷积核的预测坐标是可变化的，说明了每个采样点的位置并不是固定不变的，根据V网络对每个采样点都会存在一个相对偏移量；进而表明了本发明实施例中的可变形卷积核并非是固定的卷积核，而是可变形的卷积核，使得本发明实施例可以适用于帧与帧之间具有较大运动的视频处理；另外，根据采样点的不同，结合F网络所得到的每个采样点的权重也是不同的；也就是说，本发明实施例不仅采用了可变形的卷积核，而且还采用了可变化的权重，与现有技术中的固定卷积核或者人为设置的权重相比，可以使得待处理帧的视频处理达到更好的去噪效果。

基于图2所示的深度卷积神经网络，该网络还可以采用编码器-解码器的设计结构；其中，在编码器的工作阶段，通过卷积神经网络可以进行4次下采样，而且每次下采样，对于输入的待处理帧H×W(H表示待处理帧的高度，W表示待处理帧的宽度)，则可以得到输出H/2×W/2的视频帧，它主要是用于对待处理帧进行特征图像的提取；在解码器的工作阶段，通过卷积神经网络可以进行4次上采样，而每次上采样，对于输入的待处理帧H×W(H表示待处理帧的高度，W表示待处理帧的宽度)，则可以得到输出2H×2W的视频帧，它主要是用于根据编码器提取的特征图像恢复出原尺寸大小的视频帧；这里，针对下采样或者上采样的次数，可以根据实际情况进行具体设定，本发明实施例不作具体限定。另外，从图2中还可以看出，部分卷积层的输出与输入之间具有连接关系，即跳跃连接(skip connection)；比如第6层和第22层之间具有跳跃连接关系，第9层和第19层之间具有跳跃连接关系，第12层和第16层之间具有跳跃连接关系；这样还可以使得解码器阶段能够综合利用低阶和高阶的特征，以使得待处理帧的视频去噪效果更佳。

参见图6，其示出了本发明实施例提供的一种视频处理方法的总体架构示意图；如图6所示，X表示输入端，用于输入样本视频序列；其中，样本视频序列是从视频序列中选取的，该样本视频序列是由5个连续帧(比如包括样本参考帧、与样本参考帧前向相邻的2个相邻帧以及与样本参考帧后向相邻的2 个相邻帧)组成；然后针对X输入的连续帧进行坐标预测和权重预测；针对坐标预测，可以建立坐标预测网络(用V网络表示)，通过V网络可以得到可变形卷积核的预测坐标；针对权重预测，可以建立权重预测网络(用F网络表示)，通过F网络可以得到可变形卷积核的预测权重；然后将X输入的连续帧和预测得到的可变形卷积核的预测坐标全部输入到预设采样模型中，通过预设采样模型输出可变形卷积核的采样点(用

表示)；根据可变形卷积核的采样点以及可变形卷积核的预测权重，可以得到可变形卷积核的采样点的权重；最后针对待处理帧中每个像素点，将每个像素点与可变形卷积核的采样点以及采样点的权重进行卷积运算，得到待处理帧中每个像素点对应的去噪像素值，输出的结果即为去噪后的视频帧(用Y表示)；通过视频序列中的连续帧信息，不仅实现了对待处理帧的去噪处理，而且由于可变形卷积核的采样点位置是变化的(即采用了可变形卷积核)，同时每个采样点的权重也是可变化的，从而还可以使得视频去噪的效果更佳。

在S101之后，可以获取到可变形卷积核的采样点及采样点的权重；这样，根据可变形卷积核的采样点及采样点的权重对待处理帧进行去噪处理，从而能够得到去噪后的视频帧。

具体地，去噪后的视频帧可以是由可变形卷积核的采样点及所述采样点的权重与所述待处理帧进行卷积处理得到的。在一些实施例中，参见图7，其示出了本发明实施例提供的再一种视频处理方法的流程示意图。如图7所示，所述将可变形卷积核的采样点及所述采样点的权重与所述待处理帧进行卷积处理，得到所述去噪后的视频帧，该方法可以包括：

S102a：针对所述待处理帧中的每个像素点，将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行卷积运算，得到每个像素点对应的去噪像素值；

需要说明的是，对于每个像素点对应的去噪像素值，可以是将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行加权求和计算得到的。具体地，在一些实施例中，S102a可以包括：

S102a-1：将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行加权求和计算；

S102a-2：根据计算的结果，获得每个像素点对应的去噪像素值。

需要说明的是，对于每个像素点对应的去噪像素值，可以是对每个像素点进行可变形卷积核的采样点以及采样点的权重值的加权求和计算所得到的。具体地，针对待处理帧中的每个像素点，与该像素点进行卷积运算的可变形卷积核包含有N个采样点，首先对每个采样点的采样值以及每个采样点的权重进行加权计算，然后再对这N个采样点进行求和运算，最终结果即为待处理帧中每个像素点所对应的去噪像素值；具体地，参见式(3)所示，

其中，Y(y,x)表示所述待处理帧中像素点位置(y,x)处的去噪像素值，

表示像素点位置(y,x)处的第n个采样点的采样值，F(y,x,n)表示像素点位置(y,x)处的第n个采样点的权重值，n＝1,2,...,N。

这样，利用上述的式(3)，经过计算可以得到所述待处理帧中每个像素点对应的去噪像素值。在本发明实施例中，每个采样点的位置并不是固定不变的，而且每个采样点的权重也是不同的；也就是说，本发明实施例的去噪处理，不仅采用了可变形的卷积核，而且还采用了可变化的权重；与现有技术中的固定卷积核或者人为设置的权重相比，可以使得待处理帧的视频处理达到更好的去噪效果。

S102b：根据每个像素点对应的去噪像素值，得到去噪后的视频帧。

需要说明的是，待处理帧中每个像素点可以与对应的可变形卷积核进行卷积运算处理，即，待处理帧中每个像素点可以与可变形卷积核的采样点及采样点的权重进行卷积运算处理，以得到每个像素点对应的去噪像素值；这样就实现了对待处理帧的去噪处理。

示例性地，假定预设采样模型为三线性采样器，图8示出了本发明实施例提供的一种视频处理方法的详细架构示意图。如图8所示，首先输入样本视频序列801，该样本视频序列801是由连续的多个视频帧(比如包括样本参考帧、与样本参考帧前向相邻的2个相邻帧以及与样本参考帧后向相邻的2个相邻帧) 组成；然后基于深度神经网络对输入的样本视频序列801进行坐标预测和权重预测，比如可以建立坐标预测网络802和权重预测网络803；这样，可以根据坐标预测网络802进行坐标预测，获取可变形卷积核的预测坐标804；可以根据权重预测网络803进行权重预测，获取可变形卷积核的预测权重805；将输入的样本视频序列801和可变形卷积核的预测坐标804共同输入到三线性采样器806中，由三线性采样器806进行采样处理，而三线性采样器806的输出为可变形卷积核的采样点807；然后将可变形卷积核的采样点807以及可变形卷积核的预测权重805与待处理帧进行卷积运算808，最终输出去噪后的视频帧 809。需要注意的是，在卷积运算808之前，还可以根据可变形卷积核的预测坐标804和可变形卷积核的预测权重805，得到可变形卷积核的采样点的权重；这样，对于卷积运算808来说，可以是对可变形卷积核的采样点以及采样点的权重与待处理帧进行卷积运算，以实现对待处理帧的去噪处理。

基于如图8所示的详细架构，通过深度神经网络对样本视频序列进行深度神经网络训练，可以得到可变形卷积核。另外，针对可变形卷积核的预测坐标和预测权重，由于预测坐标是变化的，说明了每个采样点的位置是变化的，进而说明了本发明实施例中的卷积核并非是固定的卷积核，而是可变形的卷积核，使得本发明实施例可以适用于帧与帧之间具有较大运动的视频处理；另外，根据采样点的不同，每个采样点的权重也是可以变化的；也就是说，本发明实施例不仅采用了可变形的卷积核，而且还采用了可变化的预测权重，可以使得待处理帧的视频处理达到更好的去噪效果。

在本发明实施例中，通过采用可变形卷积核，不仅避免了视频连续帧中帧与帧之间运动所带来的图像模糊、细节损失与重影问题，而且还可以自适应的基于像素级信息分配不同的采样点去追踪视频连续帧中同一位置的移动情况，且通过利用多帧信息能够更好地弥补单帧信息的不足，还可以使得本发明实施例的方法能够应用到视频修复场景中。另外，可变形卷积核还可以看作是一种时序光流的高效提取器，充分利用了视频连续帧中的多帧信息，还能够将本发明实施例的方法应用到其它依赖于像素级信息的视频处理场景中；除此之外，在硬件质量有限或者低光条件下，基于本发明实施例的方法也能够达到高质量视频成像的目的。

上述实施例提供了一种视频处理方法，通过获取视频序列中待处理帧对应的卷积参数，其中，所述卷积参数包括可变形卷积核的采样点及所述采样点的权重；根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧；这样，由于该卷积参数是通过提取视频连续帧的信息来得到的，能够有效避免视频中帧与帧之间运动所带来的图像模糊、细节损失与重影问题；而且采样点的权重还可以根据采样点位置的不同而变化，从而能够使得视频去噪效果更佳，提高了视频的成像质量。

基于前述实施例相同的发明构思，参见图9，其示出了本发明实施例提供的一种视频处理装置90的组成，所述视频处理装置90可以包括：获取单元901 和去噪单元902，其中，

所述获取单元901，配置为获取视频序列中待处理帧对应的卷积参数，其中，所述卷积参数包括可变形卷积核的采样点及所述采样点的权重；

所述去噪单元902，配置为根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧。

在上述方案中，参见图9，所述视频处理装置90还包括训练单元903，配置为基于样本视频序列进行深度神经网络训练得到可变形卷积核。

在上述方案中，参见图9，所述视频处理装置90还包括预测单元904和采样单元905，其中，

所述预测单元904，配置为基于深度神经网络对所述样本视频序列中连续的多个视频帧分别进行坐标预测和权重预测，得到所述可变形卷积核的预测坐标和预测权重，其中，所述连续的多个视频帧包括样本参考帧及其至少一个相邻帧；

所述采样单元905，配置为对所述可变形卷积核的预测坐标进行采样，得到所述可变形卷积核的采样点；

所述获取单元901，还配置为根据所述可变形卷积核的预测坐标和预测权重，得到所述可变形卷积核的采样点的权重；以及将所述可变形卷积核的采样点及所述采样点的权重，作为所述卷积参数。

在上述方案中，所述采样单元905，具体配置为将所述可变形卷积核的预测坐标输入到预设采样模型中，获得所述可变形卷积核的采样点。

在上述方案中，所述获取单元901，还配置为获取所述样本参考帧及所述至少一个相邻帧中的像素点；

所述采样单元905，还配置为基于所述可变形卷积核的采样点，通过预设采样模型对所述像素点以及所述可变形卷积核的预测坐标进行采样计算，根据计算的结果确定所述采样点的采样值。

在上述方案中，所述去噪单元902，具体配置为将可变形卷积核的采样点及所述采样点的权重与所述待处理帧进行卷积处理，得到所述去噪后的视频帧。

在上述方案中，参见图9，所述视频处理装置90还包括卷积单元906，配置为针对所述待处理帧中的每个像素点，将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行卷积运算，得到每个像素点对应的去噪像素值；

所述去噪单元902，具体配置为根据每个像素点对应的去噪像素值，得到去噪后的视频帧。

在上述方案中，所述卷积单元906，具体配置为将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行加权求和计算；以及根据计算的结果，获得每个像素点对应的去噪像素值。

可以理解地，在本实施例中，“单元”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是模块，还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

因此，本实施例提供了一种计算机存储介质，该计算机存储介质存储有视频处理程序，所述视频处理程序被至少一个处理器执行时实现前述实施例中所述方法的步骤。

基于上述视频处理装置90的组成以及计算机存储介质，参见图10，其示出了本发明实施例提供的视频处理装置90的具体硬件结构，可以包括：网络接口1001、存储器1002和处理器1003；各个组件通过总线系统1004耦合在一起。可理解，总线系统1004用于实现这些组件之间的连接通信。总线系统1004除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图10中将各种总线都标为总线系统1004。其中，网络接口1001，用于在与其他外部网元之间进行收发信息过程中，信号的接收和发送；

存储器1002，用于存储能够在处理器1003上运行的计算机程序；

处理器1003，用于在运行所述计算机程序时，执行：

可以理解，本发明实施例中的存储器1002可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM， DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleData Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本文描述的系统和方法的存储器1002 旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器1003可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1003中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1003可以是通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1002，处理器1003读取存储器1002中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本发明所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

可选地，作为另一个实施例，处理器1003还配置为在运行所述计算机程序时，执行前述实施例中所述方法的步骤。

参见图11，其示出了本发明实施例提供的一种终端设备110的组成结构示意图；其中，所述终端设备110至少包括如前述实施例中所涉及的任意一种视频处理装置90。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种视频处理方法，所述方法包括：

基于深度神经网络对样本视频序列中连续的多个视频帧进行坐标预测和权重预测，得到可变形卷积核的预测坐标和预测权重，其中，所述连续的多个视频帧包括样本参考帧及其至少一个相邻帧；

获取视频序列中待处理帧对应的卷积参数，其中，所述卷积参数包括所述可变形卷积核的采样点及所述采样点的权重；

2.根据权利要求1所述的方法，其特征在于，所述对所述可变形卷积核的预测坐标进行采样，得到所述可变形卷积核的采样点，包括：

3.根据权利要求2所述的方法，其特征在于，在所述获得所述可变形卷积核的采样点之后，所述方法还包括：

获取所述样本参考帧及所述至少一个相邻帧中的像素点；

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述可变形卷积核的采样点及所述采样点的权重对所述待处理帧进行去噪处理，得到去噪后的视频帧，包括：

5.根据权利要求4所述的方法，其特征在于，所述将可变形卷积核的采样点及所述采样点的权重与所述待处理帧进行卷积处理，得到所述去噪后的视频帧，包括：

根据每个像素点对应的去噪像素值，得到去噪后的视频帧。

6.根据权利要求5所述的方法，其特征在于，所述将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行卷积运算，得到每个像素点对应的去噪像素值，包括：

根据计算的结果，获得每个像素点对应的去噪像素值。

7.一种视频处理装置，所述视频处理装置包括预测单元，采样单元，训练单元，获取单元和去噪单元，其中，

所述预测单元，配置为基于深度神经网络对样本视频序列中连续的多个视频帧分别进行坐标预测和权重预测，得到可变形卷积核的预测坐标和预测权重，其中，所述连续的多个视频帧包括样本参考帧及其至少一个相邻帧；

所述获取单元，配置为根据所述可变形卷积核的预测坐标和预测权重，得到所述可变形卷积核的采样点的权重；

所述训练单元，配置为基于样本视频序列中的连续帧进行深度神经网络训练，得到可变形卷积核；

所述获取单元，还配置为获取视频序列中待处理帧对应的卷积参数，其中，所述卷积参数包括所述可变形卷积核的采样点及所述采样点的权重；

8.根据权利要求7所述的视频处理装置，其特征在于，所述采样单元，具体配置为将所述可变形卷积核的预测坐标输入到预设采样模型中，获得所述可变形卷积核的采样点。

9.根据权利要求8所述的视频处理装置，其特征在于，所述获取单元，还配置为获取所述样本参考帧及所述至少一个相邻帧中的像素点；

10.根据权利要求7至9任一项所述的视频处理装置，其特征在于，所述去噪单元，具体配置为将可变形卷积核的采样点及所述采样点的权重与所述待处理帧进行卷积处理，得到所述去噪后的视频帧。

11.根据权利要求10所述的视频处理装置，其特征在于，所述视频处理装置还包括卷积单元，配置为针对所述待处理帧中的每个像素点，将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行卷积运算，得到每个像素点对应的去噪像素值；

12.根据权利要求11所述的视频处理装置，其特征在于，所述卷积单元，具体配置为将每个像素点与所述可变形卷积核的采样点以及所述采样点的权重进行加权求和计算；以及根据计算的结果，获得每个像素点对应的去噪像素值。

13.一种视频处理装置，其特征在于，所述视频处理装置包括：存储器和处理器；其中，

所述处理器，用于在运行所述计算机程序时，执行如权利要求1至6任一项所述方法的步骤。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有视频处理程序，所述视频处理程序被至少一个处理器执行时实现如权利要求1至6任一项所述方法的步骤。

15.一种终端设备，其特征在于，所述终端设备至少包括如权利要求7至13任一项所述的视频处理装置。