CN114694209A

CN114694209A - 视频处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN114694209A
Application number: CN202210115943.3A
Authority: CN
Inventors: 宋旭军; 黄双龙; 杨智
Original assignee: Hunan Xindatong Information Technology Co ltd
Current assignee: Hunan Xindatong Information Technology Co ltd
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2022-07-01

Abstract

本发明涉及一种视频处理方法、装置、电子设备及计算机存储介质，该方法包括：获取待处理视频，对于待处理视频中每个图像对，提取每个图像对对应的相似性特征，每个图像对包括相邻两帧人脸图像；根据各人脸图像的时序，对各相似性特征进行特征提取，得到待处理视频对应的第一时序伪造特征；根据第一时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果。通过本发明的方法，从相似性特征的角度，通过第一时序伪造特征更加准确地反映出连续帧图像之间的时序伪造特征，从而使得基于第一时序伪造特征对待处理视频进行伪造识别后得到的识别结果更加准确。

Description

视频处理方法、装置、电子设备及计算机存储介质

技术领域

本发明涉及计算机领域，具体而言，本发明涉及一种视频处理方法、装置、电子设备及计算机存储介质。

背景技术

目前，随着视频合成技术的发展，网络中出现了很多对视频图像进行篡改的伪造视频。这些伪造视频中，图像被篡改但是视频依然保持着视觉真实性，通过人工很难区分是真实视频还是伪造视频，造成个人安全隐患。所以，迫切需要一种有效的伪造视频的识别方法。

发明内容

本发明所要解决的技术问题是提供一种视频处理方法、装置、电子设备及计算机存储介质，旨在解决如何提升伪造识别的识别准确性的问题。

第一方面，本发明解决上述技术问题的技术方案如下：一种视频处理方法，该方法包括：

获取待处理视频，上述待处理视频中包括连续帧的人脸图像；

对于待处理视频中每个图像对，提取每个图像对对应的相似性特征，每个图像对包括相邻两帧人脸图像；

根据各人脸图像的时序，对各相似性特征进行特征提取，得到待处理视频对应的第一时序伪造特征；

根据第一时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果。

本发明的有益效果是：在本发明的方案中，相邻两帧图像(人脸图像)的相似性特征对应的相似度越小，表明伪造的可能性越大，则基于各图像对对应的相似性特征可以反映出连续帧图像之间的时序伪造特征，然后根据各人脸图像的时序，对各相似性特征进行特征提取，以对各相似性特征进行进一步的学习，同时，从相似性特征的角度，通过第一时序伪造特征更加准确地反映出连续帧图像之间的时序伪造特征，从而使得基于第一时序伪造特征对待处理视频进行伪造识别后得到的识别结果更加准确。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，该方法还包括：

对于待处理视频中的每帧人脸图像，提取每帧人脸图像的纹理结构特征；

根据各人脸图像的时序，对各纹理结构特征进行特征提取，得到待处理视频对应的第二时序伪造特征；

根据第一时序伪造特征，对待处理视频进行伪造识别，得到识别结果，包括：

根据第一时序伪造特征和第二时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果。

采用上述进一步方案的有益效果是，对于伪造图像，图像中的人脸区域的纹理结构相较于真实图像会发生改变，通过纹理结构特征可以反映出图像的边缘、轮廓、纹理等信息，由此，在本发明的方案中，通过纹理结构特征可以反映出图像中的人脸是否被伪造，然后根据各人脸图像的时序，对各纹理结构特征进行特征提取，以对各纹理结构特征进行进一步的学习，同时，可以从纹理结构特征的角度，通过第二时序伪造特征更加准确地反映出连续帧图像之间的时序伪造特征，从而在对待处理视频进行伪造识别时，可通过两个不同的时序伪造特征进行识别，使得得到的识别结果更加准确。

进一步，上述根据各人脸图像的时序，对各相似性特征进行特征提取，得到待处理视频对应的第一时序伪造特征，包括：

对各个相似性特征进行特征提取，得到各个相似性特征对应的第一特征；

根据各人脸图像的时序，对各第一特征进行特征提取，得到待处理视频对应的第一时序伪造特征。

采用上述进一步方案的有益效果是，在确定第一时序伪造特征的过程中，可先对各个相似性特征进行特征提取，以对相似性特征进行进一步学习，使得相似性特征表达伪造特征的能力更强，从而使得基于各第一特征得到的第一时序伪造特征表达伪造特征的能力更强。

进一步，上述根据各人脸图像的时序，对各纹理结构特征进行特征提取，得到待处理视频对应的第二时序伪造特征，包括：

对各个纹理结构特征进行特征提取，得到各个纹理结构特征对应的第二特征；

根据各人脸图像的时序，对各第二特征进行特征提取，得到待处理视频对应的第二时序伪造特征。

采用上述进一步方案的有益效果是，在确定第二时序伪造特征的过程中，可先对各个纹理结构特征进行特征提取，以对纹理结构特征进行进一步学习，使得纹理结构特征表达伪造特征的能力更强，从而使得基于各第二特征得到的第二时序伪造特征表达伪造特征的能力更强。

进一步，上述对各个相似性特征进行特征提取，得到各个相似性特征对应的第一特征，以及对各个纹理结构特征进行特征提取，得到各个纹理结构特征对应的第二特征是通过卷积神经网络实现的；卷积神经网络包括至少一个卷积层。

采用上述进一步方案的有益效果是，卷积神经网络中包括至少一个卷积层，通过至少一个卷积层输出的是特征图序列，不是一维的特征向量，可以满足实际特征提取需求。

进一步，上述根据第一时序伪造特征和第二时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果，包括：

根据第一时序伪造特征，对待处理视频进行伪造识别，得到第一识别结果；

根据第二时序伪造特征，对待处理视频进行伪造识别，得到第二识别结果；

根据第一识别结果和第二识别结果，得到待处理视频的识别结果。

采用上述进一步方案的有益效果是，由于第一时序伪造特征是从相似性特征的角度，反映相邻帧图像之间的时序伪造特征的，第二时序伪造特征是从纹理结构特征的角度，反映相邻帧图像之间的时序伪造特征的，在对待处理视频进行伪造识别时，可基于第一时序伪造特征对待处理视频进行伪造识别，得到第一识别结果，基于第二时序伪造特征，对待处理视频进行伪造识别，得到第二识别结果，通过两个不同的识别结果从不同的角度反映待处理识别的识别结果，使得待处理视频的识别结果更加准确。

进一步，上述对于待处理视频中每个图像对，提取每个图像对对应的相似性特征之前，还包括：

识别出每帧人脸图像中的人脸区域；

对于每帧人脸图像，根据人脸图像中的人脸区域，对人脸图像进行裁剪，得到裁剪后的人脸图像，将每相邻两帧裁剪后的人脸图像作为一个图像对。

采用上述进一步方案的有益效果是，对每帧人脸图像进行裁剪，可以使得在之后处理的过程中，更加注重人脸区域，识别出更细节的伪造特征，同时还可减少背景的噪声信息对识别结果的影响，另外还可减少数据处理量。

第二方面，本发明为了解决上述技术问题还提供了一种视频处理装置，该装置包括：

视频获取模块，用于获取待处理视频，待处理视频中包括连续帧的人脸图像；

相似性特征提取模块，用于对于待处理视频中每个图像对，提取每个图像对对应的相似性特征，每个图像对包括相邻两帧人脸图像；

第一时序伪造特征提取模块，用于根据各人脸图像的时序，对各相似性特征进行特征提取，得到待处理视频对应的第一时序伪造特征；

识别模块，用于根据第一时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果。

第三方面，本发明为了解决上述技术问题还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序时实现本申请的视频处理方法。

第四方面，本发明为了解决上述技术问题还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本申请的视频处理方法。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍。

图1为本发明一个实施例提供的一种视频处理方法的流程示意图；

图2为本发明一个实施例提供的一种基于神经网络模型的视频处理方法的流程示意图；

图3为本发明一个实施例提供的一种视频处理装置的结构示意图；

图4为本发明一个实施例提供的一种电子设备的结构示意图。

具体实施方式

以下对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

下面以具体实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本发明实施例所提供的方案可以适用于任何需要识别视频是否为伪造视频的应用场景中。本发明实施例所提供的方案可以由任一电子设备执行，比如，可以是用户的终端设备，上述终端设备可以是任何可以安装应用，并可通过应用实现视频的伪造识别的终端设备，包括以下至少一项：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备。

本发明实施例提供了一种可能的实现方式，如图1所示，提供了一种视频处理方法的流程图，该方案可以由任一电子设备执行，例如，可以是终端设备，或者由终端设备和服务器共同执行。为描述方便，下面将以服务器作为执行主体为例对本发明实施例提供的方法进行说明，如图1中所示的流程图，该方法可以包括以下步骤：

步骤S110，获取待处理视频，待处理视频中包括连续帧的人脸图像；

步骤S120，对于待处理视频中每个图像对，提取每个图像对对应的相似性特征，每个图像对包括相邻两帧人脸图像；

步骤S130，根据各人脸图像的时序，对各相似性特征进行特征提取，得到待处理视频对应的第一时序伪造特征；

步骤S140，根据第一时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果。

通过本发明的方法，相邻两帧图像(人脸图像)的相似性特征对应的相似度越小，表明伪造的可能性越大，则基于各图像对对应的相似性特征可以反映出连续帧图像之间的时序伪造特征，然后根据各人脸图像的时序，对各相似性特征进行特征提取，以对各相似性特征进行进一步的学习，同时，从相似性特征的角度，通过第一时序伪造特征更加准确地反映出连续帧图像之间的时序伪造特征，从而使得基于第一时序伪造特征对待处理视频进行伪造识别后得到的识别结果更加准确。

下面结合以下具体的实施例，对本发明的方案进行进一步的说明，在该实施例中，视频处理方法可以包括以下步骤：

步骤S110，获取待处理视频，待处理视频中包括连续帧的人脸图像。

其中，待处理视频可以是通过视频采集设备获取的视频，可以是用户上传的视频，本发明中不限定待处理视频的数据来源和获取方式。待处理视频中的各帧图像中可以包括人脸图像和非人脸图像，本发明方案中后续只对其中的人脸图像进行处理，以识别人脸图像中的人脸是否存在伪造的情况。

如果待处理视频中包含人脸图像的帧数过多，为了减少数据处理量，可以选择其中设定帧数的人脸图像进行后续的处理，基于设定帧数的人脸图像的识别结果也可准确的确定出待处理视频的识别结果。

考虑到伪造特征主要集中的人脸区域，在对人脸图像处理之前，即在对于待处理视频中每个图像对，提取每个图像对对应的相似性特征之前，还包括：

识别出每帧人脸图像中的人脸区域；

利用裁切后的图像可以缩小数据处理范围，并且只关注到重要区域。在本发明的可选方案中，上述识别出每帧人脸图像中的人脸区域的一种可选方式为：

对于每帧人脸图像，使用Python Dlib库中的人脸检测算法或者opencv-CascadeClassifier(级联分类器)识别出该人脸图像中的68个关键特征点，再从68个关键特征点中确定出51个关键特征点，这51个关键特征点在人脸图像中对应的区域即为人脸区域。

在确定了人脸区域后，可根据该人脸区域生成一个包围框，基于该包围框对人脸图像进行裁剪，得到裁剪后的人脸图像。

为了尽可能保留伪造痕迹并适当结合人脸图像中的空间背景信息，还可将裁剪后的图像进行扩展，比如，沿图像的宽度和高度按照设定尺寸进行扩展。或者，可将上述包围框向外周扩大设定比例(比如，1.6倍)，基于扩大后的包围框对人脸图像进行裁剪。

由于人脸区域所占人脸图像的面积不同，在裁剪后，每帧裁剪后的图像的尺寸可能不同，则还可以将裁剪后的图像统一到设定尺寸，通常该设定尺寸大于裁剪后的图像中的最大尺寸，或者，扩展后的图像中的最大尺寸。作为一个示例，比如，设定尺寸为224×224。

在经过上述处理后，后文中提到的每帧人脸图像可以是上述统一到设定尺寸的图像。

裁剪后，统一设定尺寸的人脸图像可形成一个集合，可表征为{I₁,I₂,…,I_T}，其中，I_i人表征第i帧人脸图像，待处理视频中人脸图像的总数≥i≥1。

步骤S120，对于待处理视频中每个图像对，提取每个图像对对应的相似性特征，每个图像对包括相邻两帧人脸图像。

其中，对于每个图像对，通过相似性特征可以体现出该图像对中的两帧图像之间的相似程度，包括亮度相似度、对比度相似度和结构相似度，图像的结构相似度指的是通过人的视觉从图像中抽取出的结构信息之间的相似度，结构信息不受亮度和对比度的影响。

在本发明的可选方案中，可通过结构相似性(SSIM)算法提取每个图像对对应的相似性特征，因此，相似性特征也可称为结构相似性特征。

其中，结构相似性特征的计算公式如下：

其中，x和y分别表示两帧人脸图像，SSIM(x,y)为图像x和图像y对应的结构相似性特征，μ_x和μ_y分别表示图像x和图像y的均值，通过均值反映图像x和图像y之间的亮度相似度，σ_x和σ_y分别表示图像x和图像y的标准差，通过标准差反映图像x和图像y之间的对比度相似度，σ_xy表示图像x和图像y的协方差，通过协方差反映图像x和图像y之间的结构相似度。c₁、c₂为常数，用于避免分母为0带来的系统错误。

由于伪造人脸视频生成方法通常是通过对处每一帧图像进行单独理再逐帧连接起来得到的，在处理当前帧时并没有兼顾前面已经处理过的帧，因而在连续帧之间会存在细微的时序伪造痕迹,例如，人脸的面部表情不协调、出现视觉伪像、颜色扭曲、亮度变化不均匀等，这些缺陷难以用肉眼察觉到。因此，在本发明方案中，采用相邻两帧之间计算得到的结构相似性(SSIM)特征挖掘伪造视频中隐藏的肉眼不易察觉的时序动态缺陷。

对于真实人脸视频，连续前后两帧具有较大的相似度和相关性，运动目标(比如，头部动作、面部表情等)位置移动缓慢且有规律性；而经DeepFake生成的伪造视频，连续前后两帧的相似度会降低，且运动目标位置变化波动大、动作连贯性差。这一差异能够通过计算连续帧之间的SSIM特征来体现。

步骤S130，根据各人脸图像的时序，对各相似性特征进行特征提取，得到待处理视频对应的第一时序伪造特征。

其中，各人脸图像的时序指的是各帧人脸图像在待处理视频中的先后顺序，根据各人脸图像的时序对各相似性特征进行特征提取，指的是在对各相似性特征进行特征提取的过程中，考虑到了各人脸图像的时序，所得到的第一时序伪造特征不但可以反映更深层次的相似性特征，还可反映出各相似性特征之间的时序关系，通过时序关系可动态反映出帧间的伪造特征。

可选的，可通过长短时记忆(Long Short Term Memory,LSTM)网络，根据各人脸图像的时序，对各相似性特征进行特征提取，由于LSTM可有效的学习序列特征，因此，本发明方案通过LSTM可以学习到更加准确的伪造特征。

其中，LSTM网络可以通过以下公式表示：

f_t＝σ(W_fx_t+U_fh_t-1+b_f),

i_t＝σ(W_ix_t+U_ih_t-1+b_i),

o_t＝σ(W_ox_t+U_oh_t-1+b_o),

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_ux_t+U_ch_t-1+b_c),

h_t＝o_t⊙tanh(c_t)

式中，x表示输入序列(相似性特征)，i、f、o和c分别表示输入门、遗忘门、输出门和记忆单元,⊙表示两个矩阵对应元素相乘，σ表示Sigmoid激活函数,W、U和b是网络待学习的参数，h是隐藏层状态。将每一个LSTM单元设置了100个隐藏单元(隐藏单元决定了LSTM单元在每个时刻的输出维度)。对于时刻t下的LSTM单元，将当前时刻下的输入序列以及t-1时刻LSTM单元的隐藏层状态共同作为输入。也就是说，第一个相似性特征输入至LSTM后得到该第一个相似性特征对应的输出特征n1，将n1和第二个相似性特征输入至LSTM，得到第二个相似性特征对应的输出特征n2，当前时刻的输入至LSTM的特征包括当前时刻下的相似性特征和当前时刻之前时刻对应的输出特征。

在本发明的可选方案中，上述在根据各人脸图像的时序，对各相似性特征进行特征提取，得到待处理视频对应的第一时序伪造特征之前，还可对各相似性特征进行特征提取，以进一步学习相似性特征对应的伪造特征，则上述根据各人脸图像的时序，对各相似性特征进行特征提取，得到待处理视频对应的第一时序伪造特征，包括：

可选的，可通过卷积神经网络对各个相似性特征进行特征提取，得到各个相似性特征对应的第一特征。卷积神经网络是一种前馈神经网络，能够提取丰富的视觉表征。

需要说明的是，本发明方案中还可以采用其他神经网络对各个相似性特征进行特征提取，本发明方案中不做限定。

在本发明的可选方案中，卷积神经网络可以为VGG16网络，在本发明的可选方案中，该VGG16网络包括至少一个卷积层，不包括全连接层和池化层，这样可使得卷积神经网络输出的是特征序列，不是全连接层和池化层输出的一维特征向量。

VGG16网络将全连接层和最后一个池化层去掉，并在每个卷积层后添加一个批量标准化层(Batch Normalization，BN)。BN层能够加速模型收敛,并降低模型对初始化权重的敏感性。

其中，识别结果为伪造视频或真实视频，识别结果可通过一个二分类结果表征，比如，分别为S1和S2，S1表示为真实视频的概率，S2表示为伪造视频的概率，S1和S2之和为1。

其中，上述基于第一时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果可以通过第一识别模型实现，该第一识别模型可以基于LSTM训练得到，也可以基于其他网络模型训练得到。

在本发明的可选方案中，第一识别模型通过以下方式训练得到：

获取多个样本视频，多个样本视频包括真实视频和伪造视频，每个样本视频对应一个分类标注结果，对于每个样本视频，该分类标注结果表征了该样本视频为真实视频或伪造视频；

对于每个样本视频中的每个图像对，提取每个图像对对应的相似性特征，每个图像对包括相邻两帧人脸图像；

对于每个样本视频，根据该样本视频中各人脸图像的时序，对该样本视频对应的各相似性特征进行特征提取，得到样本视频对应的第一时序伪造特征；

通过执行以下训练步骤得到伪造人脸识别模型：

将各个样本视频对应的第一时序伪造特征输入至神经网络模型，得到每个样本视频的预测识别结果；

根据各样本视频的预测识别结果和分类标注结果，确定神经网络模型的损失值；

若损失值满足训练结束条件，将满足训练结束条件的神经网络模型作为第一识别模型，若损失值不满足训练结束条件，调整神经网络模型的模型参数，重复训练步骤，直至总损失值满足训练结束条件。

其中，神经网络模型的损失函数可以为Softmax函数，其中，Softmax函数可通过以下公式表示：

其中，f_i表示最后一层全连接层中每个节点的输出，i表示类别索引(i＝1代表真实人脸图像，i＝0代表虚假人脸图像)。

利用DeepFake生成的伪造视频在人脸区域表现出与真实人脸不同的特性，具体来说，伪造后的人脸区域与人脸图像的源背景融合时，需经过模糊和平滑处理，这会导致伪造后的人脸区域的纹理结构发生改变，内部边缘轮廓弱化。因此，在本发明的可选方案中，该方法还包括：

通过纹理结构特征可以反映出图像的边缘、轮廓、纹理等信息，由此，在本发明的方案中，通过纹理结构特征可以反映出图像中的人脸是否被伪造，然后根据各人脸图像的时序，对各纹理结构特征进行特征提取，以对各纹理结构特征进行进一步的学习，同时，可以从纹理结构特征的角度，通过第二时序伪造特征更加准确地反映出连续帧图像之间的时序伪造特征，从而在对待处理视频进行伪造识别时，可通过两个不同的时序伪造特征进行识别，使得得到的识别结果更加准确。

可选的，由于图像的梯度特征也可反映图像的边缘、轮廓、纹理等信息，由此，在本发明的方案中，纹理结构特征可以为梯度特征。

可选的，可通过Sobel算子计算每帧人脸图像的梯度特征G，具体过程可参见以下公式：

其中，I代表输入的人脸图像，G_x和G_y分别代表经水平及垂直边缘检测的图像灰度值。

经上式，包含T帧的待处理视频总共可以生成T个梯度特征，记为{G₁,G₂,…,G_T}。

在本发明的可选方案中，上述在根据各人脸图像的时序，对各纹理结构特征进行特征提取，得到待处理视频对应的第二时序伪造特征之前，还可对各纹理结构特征进行特征提取，以进一步学习纹理结构特征对应的伪造特征，则上述根据各人脸图像的时序，对各纹理结构特征进行特征提取，得到待处理视频对应的第二时序伪造特征，包括：

其中，可以通过卷积神经网络对各个纹理结构特征进行特征提取，得到各个纹理结构特征对应的第二特征。该卷积神经网络可以为前文提取第一特征所用的网络，也可以为其他神经网络，本发明方案中不做限定。

在本发明的可选方案中，上述根据各人脸图像的时序，对各第二特征进行特征提取，得到待处理视频对应的第二时序伪造特征可通过第二识别模型实现，该第二识别模型可以与第一识别模型是相同的模型，第二识别模型的训练方式与前文描述的第一识别模型的训练方式相同，在此不再赘述。

在本发明的可选方案中，上述根据第一时序伪造特征和第二时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果，可通过第三识别模型实现，该第三识别模型包括第一识别模型和第二识别模型，第一识别模型的损失函数和第二识别模型的损失函数可均采用二元交叉熵(Binary Cross Entropy)损失，第一识别模型或第二识别模型对应的损失函数可表示为：

其中，y_i表示样本视频i的真实类别标签(分类标注结果)，p_i表示神经网络模型预测该样本视频i为真实视频的概率，N为训练样本数量，即样本视频的数量。

最终，第三识别模型对应的总损失函数可参见以下公式：

L_total＝αL₂+βL₃

其中，L₂、L₃分别表示第一识别模型和第二识别模型各自的损失函数。α、β为权重参数，作为一个示例，α＝β＝1。

在本发明的可选方案中，上述根据第一时序伪造特征和第二时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果，包括：

根据前文描述可知，在仅基于第一时序伪造特征，对待处理视频进行伪造识别时，第一识别结果即为待处理视频的识别结果。待处理视频的识别结果可以通过二分类结果表征，第一识别结果和第二识别结果也可通过二分类结果表征，比如，第一识别结果为S1，S1＝{S1₁,S1₂}，S1₁表示待处理视频为真实视频的识别结果(比如，可以为概率值，还可以为得分)，S1₂表示待处理视频为视频处理结果(比如，可以为概率值，还可以为得分)，同理，第二识别结果为S2，S2＝{S2₁,S2₂}，S2₁表示待处理视频为真实视频的识别结果，S2₂表示待处理视频为视频处理结果。

在上述根据第一识别结果和第二识别结果，得到待处理视频的识别结果的过程中，可将第一识别结果中表示为真实视频的识别结果和第二识别结果中表示为真实视频的识别结果进行融合(比如，求均值)，得到第一结果，然后同样将第一识别结果中表示为视频处理结果和第二识别结果中表示为视频处理结果进行融合(比如，求均值)，得到第二结果，将第一结果和第二结果作为待处理视频的识别结果。

作为一个示例，比如，第一识别结果和第二识别结果均通过概率值表征，待处理视频的识别结果S可以通过以下公式表征：

其中，m表示待处理视频为真实视频的概率值，n表示待处理视频为伪造视频的概率值，当m大于n时，表示待处理视频为真实视频，当m小于n时，表示待处理视频为伪造视频，并且，m与n之和为1。

在根据第一识别结果和第二识别结果，得到待处理视频的识别结果时，可获取第一识别结果的第一权重，以及第二识别结果对应的第二权重，然后基于第一识别结果和第一权重，以及第二识别结果和第二权重，得到待处理视频的识别结果。作为一个示例，第一权重和第二权重可均为0.5。

为了更好的说明及理解本发明所提供的方法的原理，下面结合一个可选的具体实施例对本发明的方案进行说明。需要说明的是，该具体实施例中的各步骤的具体实现方式并不应当理解为对于本发明方案的限定，在本发明所提供的方案的原理的基础上，本领域技术人员能够想到的其他实现方式也应视为本发明的保护范围之内。

在本示例中，参见图2所示的视频处理方法的流程示意图，在该图2中，视频处理方法可以包括以下步骤：

步骤1，获取待处理视频(图2中的输入视频)，待处理视频中包括T帧连续帧的人脸图像。

步骤2，对于待处理视频进行单帧分解，分解出各帧人脸图像，对于每帧人脸图像，对该帧人脸图像进行人脸区域检测与裁切，对该帧人脸图像进行人脸区域检测与裁切的一种实现方式为：使用Python Dlib库中的人脸检测算法识别出该人脸图像中的68个关键特征点，再从68个关键特征点中确定出51个关键特征点，这51个关键特征点在人脸图像中对应的区域即为人脸区域。在确定了人脸区域后，可根据该人脸区域生成一个包围框，将上述包围框向外周扩大设定比例(比如，1.6倍)，基于扩大后的包围框对人脸图像进行裁剪，得到裁剪后的人脸图像，将裁剪后的图像统一到设定尺寸224×224，得到连续的T帧人脸图像。将每相邻两帧裁剪后的224×224的人脸图像作为一个图像对。

步骤3，对于每个图像对，通过结构相似性(SSIM)算法提取每个图像对对应的相似性特征(结构相似性特征)。具体可得到T-1个SSIM特征，表示为：{S₁,S₂,…,S_T-1}。(对应图2中所示的计算相邻两帧人脸图像之间的相似性)。

步骤4，分别将T-1个SSIM特征输入到卷积神经网络(图2中所示的VGG16网络)，对各个SSIM特征进行特征提取，得到T-1个第一特征，表示为{F₁,F₂,…,F_T-1}，其中，F_k(k∈[1,T-1])的维度大小为w×h×512，w和h由输入图像大小决定。比如，本方案将输入视频帧的大小统一调整为224×224×3,因此，F_k的维度大小为14×14×512。

步骤5，将T-1个第一特征使用全局平均池化(Global Average Pooling,GAP)层压缩特征图的空间维度,得到T-1个512维的特征向量序列{V₁,V₂,…,V_T-1},将T-1个512维的特征向量序列{V₁,V₂,…,V_T-1}输入至LSTM网络(第一识别模型)中提取时序特征，将最后一个LSTM单元的隐藏层状态(全连接层的输出)作为第一时序伪造特征；根据第一时序伪造特征得到第一识别结果S1＝{S1₁,S1₂}(对应图2中的预测值S1)。

步骤6，对于包含T帧的人脸图像的集合{I₁,I₂,…,I_T}，采用Sobel算子计算每帧人脸图像的梯度特征G(纹理结构特征)(对应图2中所示的提取每帧人脸图像的梯度特征)，得到T个梯度特征G，可表示为{G₁,G₂,…,G_T}。

步骤7，分别将T个梯度特征输入到卷积神经网络(对应图2中所示的VGG16网络)，对各个梯度特征进行特征提取，得到T个第二特征，表示为{H₁,H₂,…,H_T}，其中，H_k(k∈[1,T])的维度大小为14×14×512。

步骤8，将T个第二特征使用全局平均池化层(GAP)压缩特征图的空间维度,得到T个512维的特征向量序列{L₁,L₂,…,L_T}，再按照{L₁,L₂,…,L_T}中向量序列(各帧人脸图像的时序)逐次输入到LSTM网络中提取时序特征，将最后一个LSTM单元的隐藏层状态(全连接层的输出)作为第二时序伪造特征，根据第二时序伪造特征得到第二识别结果S2＝{S2₁,S2₂}(对应图2中所示的预测值S2)。

步骤9，对第一识别结果和第二识别结果进行融合，得到待处理视频的识别结果，识别结果为真实视频或伪造视频(对应图2中所示的真/假？)。

通过本发明的方案，利用视频连续帧之间提取的两种序列特征暴露伪造人脸视频的动态缺陷，具备准确区分和辨别伪造视频与真实视频的能力。

基于与图1中所示的方法相同的原理，本发明实施例还提供了一种视频处理装置20，如图3中所示，该视频处理装置20可以包括视频获取模块210、相似性特征提取模块220、第一时序伪造特征提取模块230和识别模块240，其中：

视频获取模块210，用于获取待处理视频，待处理视频中包括连续帧的人脸图像；

相似性特征提取模块220，用于对于待处理视频中每个图像对，提取每个图像对对应的相似性特征，每个图像对包括相邻两帧人脸图像；

第一时序伪造特征提取模块230，用于根据各人脸图像的时序，对各相似性特征进行特征提取，得到待处理视频对应的第一时序伪造特征；

识别模块240，用于根据第一时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果。

可选的，该装置还包括：

第二时序伪造特征提取模块，用于对于待处理视频中的每帧人脸图像，提取每帧人脸图像的纹理结构特征；根据各人脸图像的时序，对各纹理结构特征进行特征提取，得到待处理视频对应的第二时序伪造特征；

上述识别模块240在根据第一时序伪造特征，对待处理视频进行伪造识别，得到识别结果时，具体用于：

可选的，上述第一时序伪造特征提取模块230在根据各人脸图像的时序，对各相似性特征进行特征提取，得到待处理视频对应的第一时序伪造特征时，具体用于：

可选的，上述第二时序伪造特征提取模块在根据各人脸图像的时序，对各纹理结构特征进行特征提取，得到待处理视频对应的第二时序伪造特征时，具体用于：

可选的，上述对各个相似性特征进行特征提取，得到各个相似性特征对应的第一特征，以及对各个纹理结构特征进行特征提取，得到各个纹理结构特征对应的第二特征是通过卷积神经网络实现的；卷积神经网络包括至少一个卷积层。

可选的，上述识别模块240在根据第一时序伪造特征和第二时序伪造特征，对待处理视频进行伪造识别，得到待处理视频的识别结果时，具体用于：

可选的，上述相似性特征提取模块220在对于待处理视频中每个图像对，提取每个图像对对应的相似性特征之前，该装置还包括：

图像对确定模块，用于识别出每帧人脸图像中的人脸区域；对于每帧人脸图像，根据人脸图像中的人脸区域，对人脸图像进行裁剪，得到裁剪后的人脸图像，将每相邻两帧裁剪后的人脸图像作为一个图像对。

本发明实施例的视频处理装置可执行本发明实施例所提供的视频处理方法，其实现原理相类似，本发明各实施例中的视频处理装置中的各模块、单元所执行的动作是与本发明各实施例中的视频处理方法中的步骤相对应的，对于视频处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的视频处理方法中的描述，此处不再赘述。

其中，上述视频处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该视频处理装置为一个应用软件；该装置可以用于执行本发明实施例提供的方法中的相应步骤。

在一些实施例中，本发明实施例提供的视频处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的视频处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的视频处理装置可以采用软件方式实现，图3示出了存储在存储器中的视频处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，包括视频获取模块210、相似性特征提取模块220、第一时序伪造特征提取模块230和识别模块240，用于实现本发明实施例提供的视频处理方法。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定。

基于与本发明的实施例中所示的方法相同的原理，本发明的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本发明任一实施例所示的方法。

在一个可选实施例中提供了一种电子设备，如图4所示，图4所示的电子设备30包括：处理器310和存储器330。其中，处理器310和存储器330相连，如通过总线320相连。可选地，电子设备30还可以包括收发器340，收发器340可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器340不限于一个，该电子设备30的结构并不构成对本发明实施例的限定。

处理器310可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器310也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线320可包括一通路，在上述组件之间传送信息。总线320可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线320可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器330可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器330用于存储执行本发明方案的应用程序代码(计算机程序)，并由处理器310来控制执行。处理器310用于执行存储器330中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备也可以是终端设备，图4示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

根据本发明的另一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种实施例实现方式中提供的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应该理解的是，附图中的流程图和框图，图示了按照本发明各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视频处理方法，其特征在于，包括以下步骤：

获取待处理视频，所述待处理视频中包括连续帧的人脸图像；

对于所述待处理视频中每个图像对，提取每个所述图像对对应的相似性特征，每个所述图像对包括相邻两帧人脸图像；

根据各所述人脸图像的时序，对各所述相似性特征进行特征提取，得到所述待处理视频对应的第一时序伪造特征；

根据所述第一时序伪造特征，对所述待处理视频进行伪造识别，得到所述待处理视频的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对于所述待处理视频中的每帧人脸图像，提取每帧所述人脸图像的纹理结构特征；

根据各所述人脸图像的时序，对各所述纹理结构特征进行特征提取，得到所述待处理视频对应的第二时序伪造特征；

所述根据所述第一时序伪造特征，对所述待处理视频进行伪造识别，得到识别结果，包括：

根据所述第一时序伪造特征和所述第二时序伪造特征，对所述待处理视频进行伪造识别，得到所述待处理视频的识别结果。

3.根据权利要求1所述的方法，其特征在于，所述根据各所述人脸图像的时序，对各所述相似性特征进行特征提取，得到所述待处理视频对应的第一时序伪造特征，包括：

对各个所述相似性特征进行特征提取，得到各个所述相似性特征对应的第一特征；

根据各所述人脸图像的时序，对各所述第一特征进行特征提取，得到所述待处理视频对应的第一时序伪造特征。

4.根据权利要求2所述的方法，其特征在于，所述根据各所述人脸图像的时序，对各所述纹理结构特征进行特征提取，得到所述待处理视频对应的第二时序伪造特征，包括：

对各个所述纹理结构特征进行特征提取，得到各个所述纹理结构特征对应的第二特征；

根据各所述人脸图像的时序，对各所述第二特征进行特征提取，得到所述待处理视频对应的第二时序伪造特征。

5.根据权利要求3或4所述的方法，其特征在于，所述对各个所述相似性特征进行特征提取，得到各个所述相似性特征对应的第一特征，以及对各个所述纹理结构特征进行特征提取，得到各个所述纹理结构特征对应的第二特征是通过卷积神经网络实现的；

所述卷积神经网络包括至少一个卷积层。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述根据所述第一时序伪造特征和所述第二时序伪造特征，对所述待处理视频进行伪造识别，得到所述待处理视频的识别结果，包括：

根据所述第一时序伪造特征，对所述待处理视频进行伪造识别，得到第一识别结果；

根据所述第二时序伪造特征，对所述待处理视频进行伪造识别，得到第二识别结果；

根据所述第一识别结果和所述第二识别结果，得到所述待处理视频的识别结果。

7.根据权利要求1至4中任一项所述的方法，其特征在于，所述对于所述待处理视频中每个图像对，提取每个所述图像对对应的相似性特征之前，还包括：

识别出每帧所述人脸图像中的人脸区域；

对于每帧所述人脸图像，根据所述人脸图像中的人脸区域，对所述人脸图像进行裁剪，得到裁剪后的人脸图像，将每相邻两帧裁剪后的人脸图像作为一个图像对。

8.一种视频处理装置，其特征在于，包括：

视频获取模块，用于获取待处理视频，所述待处理视频中包括连续帧的人脸图像；

相似性特征提取模块，用于对于所述待处理视频中每个图像对，提取每个所述图像对对应的相似性特征，每个所述图像对包括相邻两帧人脸图像；

第一时序伪造特征提取模块，用于根据各所述人脸图像的时序，对各所述相似性特征进行特征提取，得到所述待处理视频对应的第一时序伪造特征；

识别模块，用于根据所述第一时序伪造特征，对所述待处理视频进行伪造识别，得到所述待处理视频的识别结果。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。