CN110473147A

CN110473147A - 一种视频去模糊方法和装置

Info

Publication number: CN110473147A
Application number: CN201810438831.5A
Authority: CN
Inventors: 张凯皓; 罗文寒; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2019-11-19
Also published as: US11688043B2; US20200372618A1; EP3792869A1; WO2019214381A1; EP3792869A4

Abstract

本发明实施例公开了一种视频去模糊方法和装置，用于提高视频去模糊的效果。本发明实施例提供一种视频去模糊方法，包括：从视频片段中获取连续的N个图像帧，所述N为正整数，所述N个图像帧包括：待处理的模糊图像帧；使用生成对抗网络模型对所述N个图像帧进行三维3D卷积处理，得到所述模糊图像帧对应的时空信息，所述时空信息包括：所述模糊图像帧的空间特征信息，以及在所述N个图像帧中所述模糊图像帧与相邻图像帧之间的时间特征信息；使用所述模糊图像帧对应的时空信息，通过所述生成对抗网络模型对所述模糊图像帧进行去模糊处理，输出清晰图像帧。

Description

一种视频去模糊方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频去模糊方法和装置。

背景技术

当用户使用手机或者数码相机进行视频拍摄的时候，常常因为设备抖动以及拍摄物体的运动而导致模糊，因此用户有将拍摄的模糊视频变得更加清晰的现实需求。

目前提出基于深度学习方法完成视频图像的去模糊处理。现有技术中主要是将多帧图像一起送入卷积神经网络模型，使用2D卷积核来提取单帧图像中的空间信息，使用重构损失函数作为监督信息，来对模糊的视频进行去模糊处理。

在现有技术的视频去模糊方案中，由于使用的是2D卷积核，只能提取到单帧图像中的空间信息，无法提取视频内的图像之间的信息，使得现有技术中卷积神经网络模型利用空间信息的能力有限。同时因为仅仅使用基于像素的重构损失函数作为监督信息，因此去模糊之后的视频显得不够真实，降低了视频去模糊的效果。

发明内容

本发明实施例提供了一种视频去模糊方法和装置，用于提高视频去模糊的效果。

为解决上述技术问题，本发明实施例提供以下技术方案：

一方面，本发明实施例提供一种视频去模糊方法，包括：

从视频片段中获取连续的N个图像帧，所述N为正整数，所述N个图像帧包括：待处理的模糊图像帧；

使用生成对抗网络模型对所述N个图像帧进行三维3D卷积处理，得到所述模糊图像帧对应的时空信息，所述时空信息包括：所述模糊图像帧的空间特征信息，以及在所述N个图像帧中所述模糊图像帧与相邻图像帧之间的时间特征信息；

使用所述模糊图像帧对应的时空信息，通过所述生成对抗网络模型对所述模糊图像帧进行去模糊处理，输出清晰图像帧。

另一方面，本发明实施例还提供一种视频去模糊装置，包括：

获取模块，用于从视频片段中获取连续的N个图像帧，所述N为正整数，所述N个图像帧包括：待处理的模糊图像帧；

时空信息提取模块，用于使用生成对抗网络模型对所述N个图像帧进行三维3D卷积处理，得到所述模糊图像帧对应的时空信息，所述时空信息包括：所述模糊图像帧的空间特征信息，以及在所述N个图像帧中所述模糊图像帧与相邻图像帧之间的时间特征信息；

去模糊处理模块，用于使用所述模糊图像帧对应的时空信息，通过所述生成对抗网络模型对所述模糊图像帧进行去模糊处理，输出清晰图像帧。

在前述方面中，视频去模糊装置的组成模块还可以执行前述一方面以及各种可能的实现方式中所描述的步骤，详见前述对一方面以及各种可能的实现方式中的说明。

另一方面，本发明实施例提供一种视频去模糊装置，该视频去模糊装置包括：处理器、存储器；存储器用于存储指令；处理器用于执行存储器中的指令，使得视频去模糊装置执行如前述一方面中任一项的方法。

另一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

另一方面，本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，首先从视频片段中获取连续的N个图像帧，在N个图像帧中包括有待处理的模糊图像帧，然后使用生成对抗网络模型对N个图像帧进行3D卷积处理，得到模糊图像帧对应的时空信息，时空信息包括：模糊图像帧的空间特征信息，以及在N个图像帧中模糊图像帧与相邻图像帧之间的时间特征信息。最后使用模糊图像帧对应的时空信息，通过生成对抗网络模型对模糊图像帧进行去模糊处理，输出清晰图像帧。本发明实施例中由于生成对抗网络模型可以采用3D卷积操作，提取隐含在连续的图像帧之间的时空信息，因此使用模糊图像帧对应的时空信息，通过生成对抗网络模型完成了对模糊图像帧的去模糊处理，因此可以得到更加真实的清晰图像，提高了视频去模糊的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频去模糊方法的流程方框示意图；

图2为本发明实施例提供通过生成网络模型对模糊图像帧进行去模糊处理的过程示意图；

图3为本发明实施例提供的生成网络模型和对抗网络模型的训练过程示意图；

图4-a为本发明实施例提供的一种视频去模糊装置的组成结构示意图；

图4-b为本发明实施例提供的另一种视频去模糊装置的组成结构示意图；

图4-c为本发明实施例提供的一种时空信息提取模块的组成结构示意图；

图4-d为本发明实施例提供的一种模型训练模块的组成结构示意图；

图5为本发明实施例提供的视频去模糊方法应用于终端的组成结构示意图；

图6为本发明实施例提供的视频去模糊方法应用于服务器的组成结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明实施例主要提供一种基于深度学习的视频去模糊方法。本发明实施例通过深度神经网络可以完成对模糊视频的恢复，应用于对相机拍摄的视频进行去模糊处理，本发明实施例中还提供视频去模糊装置，该视频去模糊装置可以通过视频处理软件的方式部署在终端中，该视频去模糊装置也可以是存储视频的服务器。本发明实施例提供的视频去模糊方法中采用深度学习的方式来训练出生成对抗网络(Generative Adversarial Nets，GAN)模型，该生成对抗网络模型可以是通过卷积神经网络模型来实现。具体的，将每一帧图像的前后多帧图像一起送入生成对抗网络模型中，利用该生成对抗网络模型对多帧的视频进行特征提取和整合，使用生成对抗网络模型中的三维(three-dimensional，3D)卷积核进行3D卷积操作，提取隐含在连续图像帧之间的时空信息，利用全卷积操作对模糊图像帧进行等比例的清晰恢复，从而可以得到更加真实的清晰图像。本发明实施例采用的生成对抗网络模型能够有效的提取时空信息来对模糊图像帧进行处理，从而能够自动地对模糊视频进行恢复。

请参阅图1所示，本发明一个实施例提供的视频去模糊方法，可以包括如下步骤：

101、从视频片段中获取连续的N个图像帧，N为正整数，N个图像帧包括：待处理的模糊图像帧。

在本发明实施例中，视频片段可以是终端通过摄像头录制的一段视频，也可以是终端从网络上下载的一段视频，只要该视频片段中至少存在一帧的模糊图像，都可以通过本发明实施例提供的视频去模糊方法恢复出清晰图像。首先从该视频片段中获取连续的N个图像帧，N个图像帧中至少包括待处理的一个模糊图像帧，该模糊图像帧可以是因为拍摄设备抖动或者拍摄对象的运动而导致模糊。本发明实施例中首先获取到的连续N个图像帧可以存在待处理的一个模糊图像帧，例如该模糊图像帧可以是这连续N个图像帧的中间图像帧，例如N的取值可以为3，则该模糊图像帧可以是第2个图像帧，或者N的取值为5，则该模糊图像帧可以是第3个图像帧。N的取值为正整数，此处不做限定。

102、使用生成对抗网络模型对N个图像帧进行3D卷积处理，得到模糊图像帧对应的时空信息，时空信息包括：模糊图像帧的空间特征信息，以及在N个图像帧中模糊图像帧与相邻图像帧之间的时间特征信息。

在本发明实施例中，可以使用训练好的生成对抗网络模型来用于视频的去模糊处理，在获取到连续的N个图像帧之后，将连续的N个图像帧输入到生成对抗网络模型中，使用生成对抗网络模型中的3D卷积核进行3D卷积操作，提取隐含在连续图像帧之间的时空信息。其中，时空信息包括：模糊图像帧的空间特征信息，即空间特征信息隐藏在单帧的模糊图像中，时间特征信息是一个模糊图像帧与相邻图像帧之间的时间信息，例如通过3D卷积操作可以提取出一个模糊图像帧与该模糊图像帧之前的两个图像帧、与该模糊图像帧之后的两个图像帧的时间特征信息，本发明实施例中通过3D卷积核可以提取到时空信息，即时间特征信息和空间特征信息。因此可以有效的利用一段视频中的连续图像之间隐藏的特征信息，再结合训练好的生成对抗网络模型，可以提高对模糊图像帧的去模糊处理效果，详见后续实施例中对视频去模糊的说明。

103、使用模糊图像帧对应的时空信息，通过生成对抗网络模型对模糊图像帧进行去模糊处理，输出清晰图像帧。

在本发明实施例中，通过生成对抗网络模型中的3D卷积核进行3D卷积操作，提取到模糊图像帧对应的时空信息之后，可以使用模糊图像帧对应的时空信息作为图像特征，通过生成对抗网络模型进行预测输出，该生成对抗网络模型的输出结果即为对模糊图像帧进行去模糊后得到的清晰图像帧。由于本发明实施例中生成对抗网络模型采用的是3D卷积操作，因此可以提取到时间特征信息以及空间特征信息，这种特征信息可以用于预测出模糊图像帧对应的清晰图像帧。

本发明实施例中主要利用3D卷积核来处理连续的视频帧，这样可以更加有效的提取隐含在连续视频帧中的时空信息，同时使用生成对抗网络模型，可以更好的保证恢复的清晰视频更加真实。

接下来对本发明实施例中生成对抗网络模型的训练过程进行举例说明。具体的，本发明实施例提供的生成对抗网络模型，包括：生成网络模型和对抗网络模型。其中，本发明实施例中生成对抗网络模型至少包括两个网络模型，其中一个是生成网络模型，另一个是判别网络模型，通过生成网络模型和判别网络模型的互相博弈学习，从而通过生成对抗网络模型产生相当好的输出。

在本发明的一些实施例中，使用生成对抗网络模型对N个图像帧进行三维3D卷积处理之前，本发明实施例提供的视频去模糊方法还包括：

A1、从视频样本库中获取连续的N个样本图像帧以及用于判别的真实清晰图像帧，N个样本图像帧包括：用于训练的样本模糊图像帧，真实清晰图像帧与样本模糊图像帧相对应；

A2、使用生成网络模型中的3D卷积核从N个样本图像帧中提取出样本模糊图像帧对应的时空信息；

A3、使用样本模糊图像帧对应的时空信息，通过生成网络模型对样本模糊图像帧进行去模糊处理，输出样本清晰图像帧；

A4、根据样本清晰图像帧和真实清晰图像帧，对生成网络模型和判别网络模型进行交替训练。

其中，本发明实施例中可以设置视频样本库用于模型的训练与判别，例如采用一段连续的N个样本图像帧用于模型训练，这里的“样本图像帧”有别于步骤101中的图像帧，该样本图像帧是视频样本库中的样本图像，在N个样本图像帧包括一个样本模糊图像帧，为了判别生成网络模型的输出效果，还提供一个真实清晰图像帧，该真实清晰图像帧与样本模糊图像帧相对应，即真实清晰图像帧是样本模糊图像帧对应的真实的清晰图像帧。

接下来显示使用生成网络模型中的3D卷积核从N个样本图像帧中提取出样本模糊图像帧对应的时空信息，该时空信息可以包括：样本模糊图像帧的空间特征信息，以及在N个样本图像帧中样本模糊图像帧与相邻图像帧之间的时间特征信息，该生成网络模型可以是卷积神经网络模型。获取到样本模糊图像帧对应的时空信息之后，接下来使用样本模糊图像帧对应的时空信息，通过生成网络模型对样本模糊图像帧进行去模糊处理，后续实施例对生成网络模型的训练过程进行详细说明，通过生成网络模型的去模糊处理可以输出样本清晰图像帧。该样本清晰图像帧是生成网络模型对样本模糊图像帧进行去模糊后输出的结果。

在生成网络模型输出样本清晰图像帧之后，根据样本清晰图像帧和真实清晰图像帧，再使用判别网络模型来判别输出的样本清晰图像帧是模糊的或者清晰的，使用判别网络模型，引入对抗损失函数，从而对生成网络模型和判别网络模型进行交替的多次训练，从而可以更好的保证恢复的清晰视频更加真实。

进一步的，在本发明的一些实施例中，生成网络模型，包括：第一3D卷积核和第二3D卷积核。在这种实现场景下，步骤A1使用生成网络模型中的3D卷积核从N个样本图像帧中提取出样本模糊图像帧对应的时空信息，包括：

A11、使用第一3D卷积核对N个样本图像帧进行卷积处理，得到样本模糊图像帧对应的低级别时空特征；

A12、使用第二3D卷积核对低级别时空特征进行卷积处理，得到样本模糊图像帧对应的高级别时空特征；

A13、将样本模糊图像帧对应的高级别时空特征融合在一起，得到样本模糊图像帧对应的时空信息。

其中，生成网络模型中首先设置两个3D卷积层，在每个3D卷积层可以使用不同的3D卷积核，例如第一3D卷积核和第二3D卷积核具有不同的权重参数，首先使用第一3D卷积核对N个样本图像帧进行卷积处理，得到样本模糊图像帧对应的低级别时空特征，其中，低级别时空特征指不明显的特征信息，比如线条之类的特征。然后以低级别时空特征为输入条件，在下一个3D卷积层进行卷积处理，得到样本模糊图像帧对应的高级别时空特征，高级别时空特征指的是前后不同图像帧的特征信息。最后再通过这些高级别时空特征融合在一起，得到样本模糊图像帧对应的时空信息，该时空信息可以作为特征图用于生成网络模型的训练。举例说明如下，首先使用第一3D卷积核对5个样本图像帧进行卷积处理，得到3个不同维度的低级别时空特征，然后使用第二3D卷积核对低级别时空特征进行卷积处理，得到样本模糊图像帧对应的高级别时空特征，高级别时空特征融合在一起，得到样本模糊图像帧对应的时空信息，由于送入生成网络模型的是5帧图像，然后进行2次的3D卷积，此时就会输出一帧的特征图，即经过两次的3D卷积，时间序列的通道数由5变成1。

进一步的，在本发明的一些实施例中，生成网络模型，还包括：M个2D卷积核，M为正整数。步骤A3使用样本模糊图像帧对应的时空信息，通过生成网络模型对样本模糊图像帧进行去模糊处理，输出样本清晰图像帧包括：

A31、使用M个2D卷积核中的各个2D卷积核依次对样本模糊图像帧对应的时空信息进行卷积处理，经过M个2D卷积核中的最后一个2D卷积核进行卷积处理之后，得到样本清晰图像帧。

其中，本发明实施例中生成网路模型不仅具有两个3D卷积核，还可以有多个2D卷积核，通过多个2D卷积核依次对样本模糊图像帧对应的时空信息进行卷积处理，经过M个2D卷积核中的最后一个2D卷积核进行卷积处理之后，得到样本清晰图像帧。2D卷积核的详细实现过程可以参阅后续实施例中的说明。

在本发明的一些实施例中，M个2D卷积核中的奇数2D卷积核包括：卷积层、归一化层和激活函数，M个2D卷积核中的偶数2D卷积核包括：卷积层和激活函数。

其中，对于每个2D卷积核的实现方式，可以结合应用场景，其中，奇数2D卷积核指的是M个2D卷积核中的第1个2D卷积核、第3个2D卷积核等，奇数2D卷积核可以包括：卷积层、归一化层和激活函数(Rectified Linear Units，ReLu)。M个2D卷积核中的偶数2D卷积核指的是M个卷积核中的第2个2D卷积核、第4个2D卷积核等，偶数2D卷积核包括：卷积层和激活函数。对于归一化层和激活函数的详细计算过程，可以参阅卷积神经网络中的说明，此处不再赘述。

在本发明的一些实施例中，步骤A4根据样本清晰图像帧和真实清晰图像帧，对生成网络模型和判别网络模型进行交替训练，包括：

A41、根据样本清晰图像帧和真实清晰图像帧获取重构损失函数；

A42、通过重构损失函数训练生成网络模型；

A43、使用真实清晰图像帧和样本清晰图像帧训练判别网络模型，得到判别网络模型输出的对抗损失函数；

A44、通过对抗损失函数继续训练生成网络模型。

其中，为了得到更加真实的去模糊视频，在训练生成网络模型的时候，还可以引入判别网络模型，在训练的过程中，首先训练生成网络模型，将样本模糊图像帧送入生成网络模型中，得到生成的样本清晰图像帧，与真实清晰图像帧进行比较，得到重构损失函数，通过重构损失函数调整生成网络模型的权重参数。之后训练判别网络模型，将真实清晰视频与生成的样本清晰视频进行送入判别网络模型，得到对抗损失函数，通过对抗损失函数调整生成网络模型，使判别网络模型具有判断真实清晰图像与从模糊图像帧生成的清晰图像的能力，以此完成交替训练两个网络模型的结构。

进一步的，在本发明的一些实施例中，步骤A4根据样本清晰图像帧和真实清晰图像帧，对生成网络模型和判别网络模型进行交替训练，除了包括前述步骤A41至步骤A44之外，还可以包括如下步骤：

A45、通过对抗损失函数继续训练生成网络模型之后，通过生成网络模型重新获取重构损失函数，以及通过判别网络模型重新获取对抗损失函数；

A46、对重新获取的重构损失函数和重新获取的对抗损失函数进行加权融合，得到融合后的损失函数；

A47、通过融合后的损失函数继续训练生成网络模型。

其中，通过前述步骤A41至步骤A44训练生成网络模型和判别网络模型之后，基于初次训练后的两个网络模型，执行步骤A45至步骤A47，再训练生成网络模型的时候，使用两种损失函数一起调整生成网络模型的结构，使图像既可以在像素层面上与真实清晰图像相似，同时在整体上看起来更像是清晰的图像。两个损失函数之间可以通过一个权重参数来进行联合，该权重可以用于控制两种损失函数作用于反馈调节的作用大小。生成网络模型的作用是为了通过模糊的视频生成清晰的视频，而判别网络模型的作用是为了分辨送入的视频帧是真实的清晰图像还是生成的清晰图像。通过本发明实施例提供的对抗学习，判别网络模型的判别能力越来越强，同时，生成网络模型的生成视频也越来越真实。

通过以上实施例对本发明实施例的描述可知，首先从视频片段中获取连续的N个图像帧，在N个图像帧中包括有待处理的模糊图像帧，然后使用生成对抗网络模型对N个图像帧进行3D卷积处理，得到模糊图像帧对应的时空信息，时空信息包括：模糊图像帧的空间特征信息，以及在N个图像帧中模糊图像帧与相邻图像帧之间的时间特征信息。最后使用模糊图像帧对应的时空信息，通过生成对抗网络模型对模糊图像帧进行去模糊处理，输出清晰图像帧。本发明实施例中由于生成对抗网络模型可以采用3D卷积操作，提取隐含在连续的图像帧之间的时空信息，因此使用模糊图像帧对应的时空信息，通过生成对抗网络模型完成了对模糊图像帧的去模糊处理，因此可以得到更加真实的清晰图像，提高了视频去模糊的效果。

为便于更好的理解和实施本发明实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本发明实施例提供的视频去模糊方法可以提供视频去模糊服务。当手机或者数码相机进行视频拍摄的时候，因为设备抖动以及拍摄物体的运动而导致模糊，将本发明实施例提供的视频去模糊方法应用于手机和数码相机中，可以使拍摄的模糊视频变得更加清晰。此外，本发明实施例提供的视频去模糊方法可部署在后台服务器中，当用户上传一些自己拍摄的存在模糊的视频的时候，使用本发明实施例提供的视频去模糊方法，将用户的视频变得更加清晰。

本发明实施例提供的视频去模糊方法采用端到端的视频处理方法,包含对视频帧的预处理，提取视频帧的低级别时空信息，再提取视频帧的高级别时空信息，使用两种损失函数进行模型训练，最终使用得到的模型重构出清晰的视频。本方法的具体流程图见图1。

如图2所示，为本发明实施例提供通过生成网络模型对模糊图像帧进行去模糊处理的过程示意图。具体方案如下：对于长度为T秒的视频，选择相邻的5帧图像作为输入，前面两个卷积层使用3D卷积操作，提取相邻视频帧中存在的时空信息，当进行两次3D卷积操作之后，因为送入的是5帧，进行两次3D卷积操作之后，可以把特征更好的融合在一起，因此时间序列的通道数由5变成1，之后使用33个2D卷积核对图像进行特征提取和图像重构操作。通过前述的3D卷积操作，时间信息已经融合到空间信息里面即得到了时空信息，因此再使用2D卷积操作，每次卷积之后，使用归一化层以及ReLU激活函数对输出进行处理，从第3层到第32层，奇数层的卷积操作之后紧跟BN归一化层和ReLU激活函数，偶数层的卷积操作之后跟着BN归一化层，第33到34层卷积操作后再使用ReLU函数，在经过第35层的卷积操作之后，得到最后的清晰视频帧，整个操作使用全卷积操作，即全卷积是指没有使用全链接层，因为图像无需进行上采样和下采样操作。在训练的时候，本发明实施例中还可以引入对抗网络结构，本发明实施例使用了重构损失函数和对抗损失函数，生成网络会自适应调节，使图像变得清晰，因此得到的视频更加真实。

接下来对本发明实施例中3D卷积的计算过程进行举例说明，本方案中使用的视频去模糊操作的方案主要是基于卷积神经网络的方法，利用3D卷积可以提取时空特征的优势提取隐含在相邻视频中的时空信息，进而对模糊视频进行重构而得到清晰视频。3D卷积的操作为：

其中，是第i层的第j个特征层在位置(x,y,z)位置的时空特征值，(P_i,Q_j,R_r)是3D卷积核的尺寸，Q_j代表时间维度，σ(·)代表ReLU函数。整个卷积网络操作过程如图2所示。b是偏置函数，g是网络权重，v是送入的特征图里面的特征值，m是一共送入了几次图像。

如图3所示，为本发明实施例提供的生成网络模型和对抗网络模型的训练过程示意图。判别网络模型(简称为判别网络)和生成网络模型(简称为生成网络)在一起构成对抗网络。两者之间进行对抗。为了得到更加真实的去模糊视频，在训练图2所示的生成网络模型的时候，引入了对抗网络结构，将图2的网络结构作为生成器(即生成网络模型)，同时增加一个判别器(即判别网络模型)。在训练的过程中，首先训练生成网络，将模糊的视频帧送入生成网络中，得到生成的清晰视频帧，与真实的视频帧进行比较，得到重构损失函数(即图3中的损失函数1)，通过该损失调整生成网络的权重参数。之后训练判别网络，将真实的清晰视频与生成的清晰视频进行送入判别网络，得到对抗损失函数(即图3中的损失函数2)，通过对抗损失函数调整生成网络结构，使判别网络具有判断真实清晰图像与从模糊图像生成的清晰图像的能力。交替训练两个网络结构，在之后训练生成网络的时候，使用两种损失一起调整网络结构，使图像既可以在像素层面上与真实清晰图像相似，同时在整体上看起来更像是清晰的图像。两个损失函数之间通过一个权重参数来进行联合，该权重可以用于控制两种损失函数作用于反馈调节的作用大小。生成网络的作用是为了通过模糊的视频生成清晰的视频，而判别网络的作用是为了分辨送入的视频帧是真实的清晰图像还是生成的清晰视频帧。通过对抗学习，判别网络的判别能力越来越强，同时，生成网络的生成视频也越来越真实。

接下来对两种不同损失函数的加权融合进行举例说明，由于本发明实施例中使用两个网络，即生成网络和判别网络，所以本发明实施例使用了两个损失函数，即基于像素差值的损失(content loss)函数(即重构损失函数)以及对抗损失(adversarial loss)函数。

首先，基于像素差值的损失函数为：

其中，W和H代表视频帧的长和宽，是真实清晰视频帧在位置(x，y)位置上的像素值，G(I^blurry)_x,y是对应位置的生成视频帧的值。

对抗损失函数为：

L_adversarial＝log(1-D(G(I^blurry)))。

其中，G(I^blurry)是判别网络认为的生成的视频帧是真实视频的可能性，D表示判别网络。

两个损失函数通过如下的公式进行结合：

L＝L_content+a·L_adversarial。

其中，a代表两者的权重，在实验过程中，本发明实施例中可以将a设置成0.0002的时候，效果比较好。通过这个公式，生成网络可以进行参数调节，得到更好的生成网络。

本发明实施例提供的方法能够提高现有的视频去模糊能力，能够自动地对视频进行去模糊操作，可以用于手机或者数码相机等设备拍摄视频之后的后续处理，也可以用于网络后台服务器对用户上传的视频进行去模糊处理，从而得到更为清晰的视频。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图4-a所示，本发明实施例提供的一种视频去模糊装置400，可以包括：获取模块401、时空信息提取模块402、去模糊处理模块403，其中，

获取模块401，用于从视频片段中获取连续的N个图像帧，所述N为正整数，所述N个图像帧包括：待处理的模糊图像帧；

时空信息提取模块402，用于使用生成对抗网络模型对所述N个图像帧进行三维3D卷积处理，得到所述模糊图像帧对应的时空信息，所述时空信息包括：所述模糊图像帧的空间特征信息，以及在所述N个图像帧中所述模糊图像帧与相邻图像帧之间的时间特征信息；

去模糊处理模块403，用于使用所述模糊图像帧对应的时空信息，通过所述生成对抗网络模型对所述模糊图像帧进行去模糊处理，输出清晰图像帧。

在本申请的一些实施例中，所述生成对抗网络模型，包括：生成网络模型和对抗网络模型。如图4-b所示，所述视频去模糊装置400还包括：模型训练模块404，其中，

所述获取模块401，还用于从视频样本库中获取连续的N个样本图像帧以及用于判别的真实清晰图像帧，所述N个样本图像帧包括：用于训练的样本模糊图像帧，所述真实清晰图像帧与所述样本模糊图像帧相对应；

所述时空信息提取模块402，还用于使用所述生成网络模型中的3D卷积核从所述N个样本图像帧中提取出所述样本模糊图像帧对应的时空信息；

所述去模糊处理模块403，还用于使用所述样本模糊图像帧对应的时空信息，通过所述生成网络模型对所述样本模糊图像帧进行去模糊处理，输出样本清晰图像帧；

所述模型训练模块404，用于根据所述样本清晰图像帧和所述真实清晰图像帧，对所述生成网络模型和所述判别网络模型进行交替训练。

在本申请的一些实施例中，所述生成网络模型，包括：第一3D卷积核和第二3D卷积核。如图4-c所示，所述时空信息提取模块402，包括：

第一卷积单元4021，用于使用所述第一3D卷积核对所述N个样本图像帧进行卷积处理，得到所述样本模糊图像帧对应的低级别时空特征；

第二卷积单元4022，用于使用所述第二3D卷积核对所述低级别时空特征进行卷积处理，得到所述样本模糊图像帧对应的高级别时空特征；

时空特征融合单元4023，用于将所述样本模糊图像帧对应的高级别时空特征融合在一起，得到所述样本模糊图像帧对应的时空信息。

在本申请的一些实施例中，所述生成网络模型，还包括：M个2D卷积核，所述M为正整数。所述去模糊处理模块403，具体用于使用所述M个2D卷积核中的各个2D卷积核依次对所述样本模糊图像帧对应的时空信息进行卷积处理，经过所述M个2D卷积核中的最后一个2D卷积核进行卷积处理之后，得到所述样本清晰图像帧。

在本申请的一些实施例中，所述M个2D卷积核中的奇数2D卷积核包括：卷积层、归一化层和激活函数，所述M个2D卷积核中的偶数2D卷积核包括：卷积层和激活函数。

在本申请的一些实施例中，如图4-d所示，所述模型训练模块404，包括：

损失函数获取单元4041，用于根据所述样本清晰图像帧和所述真实清晰图像帧获取重构损失函数；

生成网络模型训练单元4042，用于通过所述重构损失函数训练所述生成网络模型；

判别网络模型训练单元4043，用于使用所述真实清晰图像帧和所述样本清晰图像帧训练所述判别网络模型，得到所述判别网络模型输出的对抗损失函数；

所述生成网络模型训练单元4042，还用于通过所述对抗损失函数继续训练所述生成网络模型。

进一步的，在本申请的一些实施例中，所述损失函数获取单元4041，还用于通过所述对抗损失函数继续训练所述生成网络模型之后，通过所述生成网络模型重新获取重构损失函数；

所述判别网络模型训练单元4043，还用于通过所述判别网络模型重新获取对抗损失函数；

所述损失函数获取单元4041，还用于对重新获取的重构损失函数和重新获取的对抗损失函数进行加权融合，得到融合后的损失函数；

所述生成网络模型训练单元4042，还用通过所述融合后的损失函数继续训练所述生成网络模型。

通过以上对本发明实施例的描述可知，首先从视频片段中获取连续的N个图像帧，在N个图像帧中包括有待处理的模糊图像帧，然后使用生成对抗网络模型对N个图像帧进行3D卷积处理，得到模糊图像帧对应的时空信息，时空信息包括：模糊图像帧的空间特征信息，以及在N个图像帧中模糊图像帧与相邻图像帧之间的时间特征信息。最后使用模糊图像帧对应的时空信息，通过生成对抗网络模型对模糊图像帧进行去模糊处理，输出清晰图像帧。本发明实施例中由于生成对抗网络模型可以采用3D卷积操作，提取隐含在连续的图像帧之间的时空信息，因此使用模糊图像帧对应的时空信息，通过生成对抗网络模型完成了对模糊图像帧的去模糊处理，因此可以得到更加真实的清晰图像，提高了视频去模糊的效果。

本发明实施例还提供了另一种终端，如图5所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point ofSales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图5示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图5中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出样本清晰图像帧；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器1080还具有控制执行以上由终端执行的视频去模糊方法流程。

图6是本发明实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的视频去模糊方法的步骤可以基于该图6所示的服务器结构。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频去模糊方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述生成对抗网络模型，包括：生成网络模型和对抗网络模型；

所述使用生成对抗网络模型对所述N个图像帧进行三维3D卷积处理之前，所述方法还包括：

从视频样本库中获取连续的N个样本图像帧以及用于判别的真实清晰图像帧，所述N个样本图像帧包括：用于训练的样本模糊图像帧，所述真实清晰图像帧与所述样本模糊图像帧相对应；

使用所述生成网络模型中的3D卷积核从所述N个样本图像帧中提取出所述样本模糊图像帧对应的时空信息；

使用所述样本模糊图像帧对应的时空信息，通过所述生成网络模型对所述样本模糊图像帧进行去模糊处理，输出样本清晰图像帧；

根据所述样本清晰图像帧和所述真实清晰图像帧，对所述生成网络模型和所述判别网络模型进行交替训练。

3.根据权利要求2所述的方法，其特征在于，所述生成网络模型，包括：第一3D卷积核和第二3D卷积核；

所述使用所述生成网络模型中的3D卷积核从所述N个样本图像帧中提取出所述样本模糊图像帧对应的时空信息，包括：

使用所述第一3D卷积核对所述N个样本图像帧进行卷积处理，得到所述样本模糊图像帧对应的低级别时空特征；

使用所述第二3D卷积核对所述低级别时空特征进行卷积处理，得到所述样本模糊图像帧对应的高级别时空特征；

将所述样本模糊图像帧对应的高级别时空特征融合在一起，得到所述样本模糊图像帧对应的时空信息。

4.根据权利要求2所述的方法，其特征在于，所述生成网络模型，还包括：M个2D卷积核，所述M为正整数；

所述使用所述样本模糊图像帧对应的时空信息，通过所述生成网络模型对所述样本模糊图像帧进行去模糊处理，输出样本清晰图像帧包括：

使用所述M个2D卷积核中的各个2D卷积核依次对所述样本模糊图像帧对应的时空信息进行卷积处理，经过所述M个2D卷积核中的最后一个2D卷积核进行卷积处理之后，得到所述样本清晰图像帧。

5.根据权利要求4所述的方法，其特征在于，所述M个2D卷积核中的奇数2D卷积核包括：卷积层、归一化层和激活函数，所述M个2D卷积核中的偶数2D卷积核包括：卷积层和激活函数。

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述根据所述样本清晰图像帧和所述真实清晰图像帧，对所述生成网络模型和所述判别网络模型进行交替训练，包括：

根据所述样本清晰图像帧和所述真实清晰图像帧获取重构损失函数；

通过所述重构损失函数训练所述生成网络模型；

使用所述真实清晰图像帧和所述样本清晰图像帧训练所述判别网络模型，得到所述判别网络模型输出的对抗损失函数；

通过所述对抗损失函数继续训练所述生成网络模型。

7.根据权利要求6所述的方法，其特征在于，所述根据所述样本清晰图像帧和所述真实清晰图像帧，对所述生成网络模型和所述判别网络模型进行交替训练，还包括：

所述通过所述对抗损失函数继续训练所述生成网络模型之后，通过所述生成网络模型重新获取重构损失函数，以及通过所述判别网络模型重新获取对抗损失函数；

对重新获取的重构损失函数和重新获取的对抗损失函数进行加权融合，得到融合后的损失函数；

通过所述融合后的损失函数继续训练所述生成网络模型。

8.一种视频去模糊装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述生成对抗网络模型，包括：生成网络模型和对抗网络模型；

所述视频去模糊装置还包括：模型训练模块，其中，

所述获取模块，还用于从视频样本库中获取连续的N个样本图像帧以及用于判别的真实清晰图像帧，所述N个样本图像帧包括：用于训练的样本模糊图像帧，所述真实清晰图像帧与所述样本模糊图像帧相对应；

所述时空信息提取模块，还用于使用所述生成网络模型中的3D卷积核从所述N个样本图像帧中提取出所述样本模糊图像帧对应的时空信息；

所述去模糊处理模块，还用于使用所述样本模糊图像帧对应的时空信息，通过所述生成网络模型对所述样本模糊图像帧进行去模糊处理，输出样本清晰图像帧；

所述模型训练模块，用于根据所述样本清晰图像帧和所述真实清晰图像帧，对所述生成网络模型和所述判别网络模型进行交替训练。

10.根据权利要求9所述的装置，其特征在于，所述生成网络模型，包括：第一3D卷积核和第二3D卷积核；

所述时空信息提取模块，包括：

第一卷积单元，用于使用所述第一3D卷积核对所述N个样本图像帧进行卷积处理，得到所述样本模糊图像帧对应的低级别时空特征；

第二卷积单元，用于使用所述第二3D卷积核对所述低级别时空特征进行卷积处理，得到所述样本模糊图像帧对应的高级别时空特征；

时空特征融合单元，用于将所述样本模糊图像帧对应的高级别时空特征融合在一起，得到所述样本模糊图像帧对应的时空信息。

11.根据权利要求9所述的装置，其特征在于，所述生成网络模型，还包括：M个2D卷积核，所述M为正整数；

所述去模糊处理模块，具体用于使用所述M个2D卷积核中的各个2D卷积核依次对所述样本模糊图像帧对应的时空信息进行卷积处理，经过所述M个2D卷积核中的最后一个2D卷积核进行卷积处理之后，得到所述样本清晰图像帧。

12.根据权利要求11所述的装置，其特征在于，所述M个2D卷积核中的奇数2D卷积核包括：卷积层、归一化层和激活函数，所述M个2D卷积核中的偶数2D卷积核包括：卷积层和激活函数。

13.根据权利要求9至12中任一项所述的装置，其特征在于，所述模型训练模块，包括：

损失函数获取单元，用于根据所述样本清晰图像帧和所述真实清晰图像帧获取重构损失函数；

生成网络模型训练单元，用于通过所述重构损失函数训练所述生成网络模型；

判别网络模型训练单元，用于使用所述真实清晰图像帧和所述样本清晰图像帧训练所述判别网络模型，得到所述判别网络模型输出的对抗损失函数；

所述生成网络模型训练单元，还用于通过所述对抗损失函数继续训练所述生成网络模型。

14.根据权利要求13所述的装置，其特征在于，

所述损失函数获取单元，还用于通过所述对抗损失函数继续训练所述生成网络模型之后，通过所述生成网络模型重新获取重构损失函数；

所述判别网络模型训练单元，还用于通过所述判别网络模型重新获取对抗损失函数；

所述损失函数获取单元，还用于对重新获取的重构损失函数和重新获取的对抗损失函数进行加权融合，得到融合后的损失函数；

所述生成网络模型训练单元，还用通过所述融合后的损失函数继续训练所述生成网络模型。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至7任意一项所述的方法。