CN111476727A

CN111476727A - 一种面向换脸视频检测的视频运动增强方法

Info

Publication number: CN111476727A
Application number: CN202010222610.1A
Authority: CN
Inventors: 夏志华; 费建伟; 顾飞; 余佩鹏
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-31
Anticipated expiration: 2040-03-26
Also published as: CN111476727B

Abstract

本发明公开了一种面向换脸视频检测的视频运动增强方法，构建形态‑纹理特征编码模型、形态特征差异增强模型、增强形态特征与纹理特征融合重建模型；编码模型是权值共享的一对卷积神经网络，对视频中的相邻帧进行特征提取并通过双流卷积输出图像的纹理特征以及形态特征；增强模型接收编码模型输出的前后帧的形态特征并作差，利用一个放大因子乘以前后帧形态差异并叠加到前帧的形态特征中；重建模型接收编码模型输出的后帧纹理特征以及增强模型输出的增强形态特征，将两种特征叠加并利用一系列卷积层进行图像重建，得到以放大因子为倍数的运动增强帧。本发明充分挖掘了伪造人脸视频中残留的运动不一致性的瑕疵，能有效提高检测模型的的精度。

Description

一种面向换脸视频检测的视频运动增强方法

技术领域

本发明涉及模式识别技术领域，尤其涉及一种面向换脸视频检测的视频运动增强方法。

背景技术

目前，视频作为通信的重要内容，在人们的生活中起着重要的作用。同时，视频也能够作为法庭中的证据。然而近年来，由于深度学习等技术的发展，针对视频的伪造技术已经达人脸作为身份认证的重要信息，具有的先天的便利性与唯一性。然而随着人工智能技术的快速发展，使用深度学习模型伪造的人脸假视频在社交媒体上广泛传播。一些现有的手机应用如DeepfaceLab，Deep-FaceSwap和myFakeApp等为没有编程或图像处理基础的人提供了方便的换脸技术。不法分子可能利用假脸视频技术，制造虚假新闻，恶意视频，色情视频等，会严重损害了公众对大众传媒的信任度，扰乱社会治安，破坏国家安全。伪造人脸视频技术对社会的威胁已引起了学术界和工业界的广泛关注，国内外学者和机构均已展开有关检测伪造人脸视频的算法研究。目前所提出的检测方法既有基于传统手工特征，也有基于深度学习网络。但总体看来，现有伪造人脸检测技术仅处于初级阶段，各种算法通常在特定的数据库上具有良好效果，但泛化性能较差，跨库检测性能下降严重，而现有伪造算法多种多样，因此亟需解决假脸视频检测技术通用性不足的短板。尽管如今已经有大量的基于深度学习的伪造人脸检测研究方法被提出，但是还存在一些明显的缺陷与不足。主要存在以下几方面的问题：

(1)仅从图像层面进行考虑。大多数针对伪造人脸视频的检测算法将视频分解成独立的帧，在帧内进行伪造检测。这类方法只考虑了基于图像的伪造瑕疵，而伪造算法在生成人脸视频时，并没有引入时域信息，因此在时间尺度上残留了大量可以用来区分真假人脸的特征。然而大部分检测方法只关注了帧级别的篡改痕迹，而没有关注到时间域上的篡改痕迹。

(2)考虑的篡改特征比较单一。现有的基于特征的篡改方法均是从单一的角度进行检测，例如基于眨眼的方法，基于嘴型的方法，基于呼吸频率的方法与基于相机噪声的方法。其他基于图像瑕疵的方法大多直接利用深度学习模型，无法直观的提取真假人脸的差异，也难以结合其他方面的篡改特征。

发明内容

发明目的：针对以上问题，本发明提出一种面向换脸视频检测的视频运动增强方法，通过该方法可以增强视频中的面部运动幅度，暴露出伪造人脸与真实人脸在运动细节上的差异，为检测器提供高精度且可解释的特征。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种面向换脸视频检测的视频运动增强方法，包括如下步骤：

(1)构建运动增强模型，包括三个部分的卷积神经网络：编码模型、增强模型和重建模型；构建训练数据以及监督信息并训练模型，得到训练后的运动增强模型；

(2)将待运动增强的人脸视频进行逐帧分解，得到一系列帧序列，提取帧序列中的人脸图像并构造帧图像对(f_i,f_i+1)，f_i,f_i+1分别为第i,i+1帧人脸图像；

(3)将帧图像对(f_i,f_i+1)输入编码模型，编码模型分别对输入帧对中的帧图像提取特征，输出两帧图像的形态特征与纹理特征；

(4)将编码模型输出的两帧形态特征输入增强模型，增强模型对两个形态特征图直接求差，得到前后帧的形态特征差异，该形态差异乘以放大因子后与前一帧的形态特征相加，得到增强后的形态特征；

(5)将步骤(3)所得后一帧的纹理特征以及步骤(4)所得的增强形态特征输入重建模型，重建模型将这两种特征融合并重建得到预测的第i+1帧的运动增强帧。

进一步的，所述步骤(1)，构建运动增强模型，包括三个部分的卷积神经网络：编码模型、增强模型和重建模型；具体如下：

所述编码模型为权值共享的一对卷积神经网络，前后帧分别作为该对卷积神经网络的输入，分别经过一个7×7、3×3的卷积和三个残差模块后分成两个分支，每个分支都包含一个3×3卷积和两个残差模块，其中一支输出形态特征，另一支输出纹理特征，最终分别输出前后两帧图像的形态特征与纹理特征；

所述增强模型接收编码模型输出的两帧形态特征并作差，对形态差异经过一个3×3的卷积后乘以放大倍数，随后再利用一个3×3卷积和残差模块进行处理，将得到的特征与前帧的形态特征叠加得到增强形态特征；

所述重建模型接收编码模型输出的后帧的纹理特征并进行上采样，与增强形态特征叠加后经过9个残差模块、2个3×3卷积，通过7×7卷积复原到原始输入图像的尺寸；

上述三个模型中的每个卷积后都跟随着一个ReLU激活函数层；

由于这三个模型间的连接是可微的，因此在训练时可以端到端地利用反向传播以及随机梯度下降对网络参数进行更新。该运动增强模型可以实现将连续图像中的物体的运动幅度按照指定倍数进行放大。

进一步的，所述步骤(1)，构建运动增强模型的训练数据以及监督信息的方法如下：

(1.1)从背景图像数据集MS-COCO中随机选择n帧图像作为训练样本的背景图像；从前景物体数据集PASCAL-VOC中随机选取m个物体作为训练样本的前景物体；

(1.2)对所选的m个前景物体的尺寸以及角度作随机扰动；

(1.3)将一个前景物体随机粘贴在一帧背景图像上作为模型输入的前一帧，对该图像中的前景物体向任意角度进行随机距离的位移，得到的图像作为模型输入的后一帧；

(1.4)以与步骤(1.3)同样的角度重复前景物体的位移，但位移距离放大一定倍数，模拟运动增强的实际效果(groud-truth)，得到的实际运动增强图像作为模型输出的监督信息；

(1.5)为了使模型只学习噪声引起的变化，保持样本图像的背景不变，重复步骤(1.3)～(1.4)，直至所选的m个前景物体全部处理完成，得到m个训练样本以及监督信息；

(1.6)对所选择的n帧背景图像，重复步骤(1.3)～(1.5)，得到运动增强模型的训练数据以及监督信息。

进一步的，所述步骤(1.3)，确保运动增强模型学习到全局的运动特征，保持前景物体的位置不变，对样本图像的背景进行位移，得到的图像作为模型输入的后一帧；保持位移角度不变，放大背景的位移距离得到实际运动增强图像。

进一步的，所述步骤(1.3)，确保编码模型提取到的纹理特征对比度满足预期，将样本图像的背景进行高斯模糊滤波以降低图像背景与前景的边缘对比度；保持前景物体的位置不变，对样本图像的背景进行位移，得到的图像作为模型输入的后一帧；保持位移角度不变，放大背景的位移距离得到实际运动增强图像。

进一步的，高斯模糊滤波中使用的计算公式如下：

其中，G(u,v)表示高斯模糊滤波器中的元素值，u,v分别表示滤波器的宽与高，σ表示正态分布的标准差。

进一步的，所述步骤(2)，提取帧序列中的人脸图像，方法如下：

(2.1)对原始帧图像进行直方图均衡化和高斯滤波平滑预处理；

(2.2)对预处理后的图像进行颜色空间转换，用肤色模型检测图像中的皮肤像素；

(2.3)对检测到的肤色区域进行形态学处理；

(2.4)标定出图像中最大块的肤色区域，作为人脸的候选区域；

(2.5)定位出所检测到的人脸区域。

进一步的，所述步骤(2.2)，对预处理后的图像进行颜色空间转换，用肤色模型检测图像中的皮肤像素，方法如下：

首先利用以下公式对像素强度进行变换；

X＝(77/256)R+(150/256)G+(29/256)B

Cr＝(131/256)R-(110/256)G-(21/256)B+128

Cb＝-(44/256)R-(87/256)G+(131/256)B+128

其中，R,G,B分别表示图像像素在红色、绿色与蓝色通道的强度值，范围从0到255；变换后的颜色空间中，Y表示像素颜色的亮度成分，Cb表示蓝色色度分量，Cr表示红色色度分量；

肤色模型如下所示：

其中，M(i,j)表示二值人脸图像，i,j表示图像中像素的横坐标与纵坐标，Cb(i,j)与Cr(i,j)表示该像素的蓝色色度与红色色度值；根据该肤色模型将包含人脸的图像转变成一个二值图像，白色的区域即为肤色区域。

进一步的，所述步骤(2.5)，利用垂直积分投影方法对人脸候选区域进行判决，根据判决结果，将人脸图像区域裁剪出来。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

本发明公开的运动增强算法能够增强视频中的面部运动幅度，暴露出伪造人脸视频相比于真实视频中的运动不一致性，利于模型检测视频的真伪，为检测器提供高精度且可解释的特征。经过运动增强的视频序列能够有效提高检测模型的精度，并且对于不同伪造数据集以及不同伪造模型都具有较好的鲁棒性。

附图说明

图1是本发明的运动增强模型框架图；

图2是本发明的编码模型的结构图；

图3是本发明的增强模型的结构图；

图4是本发明的重建模型的结构图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种面向换脸视频检测的视频运动增强方法，工作框架如图1所示，具体实现包括如下步骤：

(1)构建运动增强模型，包括三个部分的卷积神经网络：编码模型、增强模型和重建模型；构建训练数据以及监督信息并训练模型，得到训练后的运动增强模型。

如图2所示，所述编码模型为权值共享的一对卷积神经网络，前后帧分别作为该对卷积神经网络的输入，分别经过一个7×7、3×3的卷积和三个残差模块后分成两个分支，每个分支都包含一个3×3卷积和两个残差模块，其中一支输出形态特征，另一支输出纹理特征，最终分别输出前后两帧图像的形态特征与纹理特征；

如图3所示，所述增强模型接收编码模型输出的两帧形态特征并作差，对形态差异经过一个3×3的卷积后乘以放大倍数，随后再利用一个3×3卷积和残差模块进行处理，将得到的特征与前帧的形态特征叠加得到增强形态特征；

如图4所示，所述重建模型接收编码模型输出的后帧的纹理特征并进行上采样，与增强形态特征叠加后经过9个残差模块、2个3×3卷积，最终通过7×7卷积复原到原始输入图像的尺寸；

上述三个模型中的每个卷积后都跟随着一个ReLU激活函数层；由于这三个模型间的连接是可微的，因此在训练模型时可以端到端地利用反向传播以及随机梯度下降对网络参数进行更新。该运动增强模型可以实现将连续图像中的物体的运动幅度按照指定倍数进行放大。

构建运动增强模型的训练数据以及监督信息的方法如下：

(1.1)从背景图像数据集MS-COCO中随机选择n帧图像作为训练样本的背景图像；从前景物体数据集PASCAL-VOC中随机选取m个物体作为训练样本的前景物体；本实施例中，m取值范围为[7,15]；

(1.2)对所选的m个前景物体的尺寸以及角度作随机扰动；

(1.4)以与步骤(1.3)同样的角度重复前景物体的位移，但位移距离放大一定倍数，，模拟运动增强的实际效果，得到的实际运动增强图像作为模型输出的监督信息；

本实施例中用来合成训练数据的数据源包括20000张MS-COCO数据集中的图像样本以及从PASCAL-VOC数据集中分割出来的7000个物体图像样本。COCO,CommonObjects inCOntext是微软团队提供的一个可以用来进行图像识别的数据集。整个数据集被分为如下三个部分：1)标志性对象图像；2)标志性场景图像；3)非标志性场景图像；共计91种分类。2014发布的数据中包含82783训练图像、40504张验证图像、40775张测试图像。在本实施例中选择了训练数据中标志性场景图像类别下的20000张图像作为人工合成的训练样本图像的背景。PASCAL-VOC数据集共分为20类，共计17125张图像，选择其中7000张实例分割样本，从图像中间物体剪切出来准备合成到背景图像上。在本实施例中，采用了TensorFlow架构，结合python语言进行编程实验，TensorFlow架构使用图描述计算过程，通过构建和运行图即可实现对数据的计算。

所述步骤(1.3)，还可以采用如下方法：确保运动增强模型学习到全局的运动特征，保持前景物体的位置不变，对样本图像的背景进行位移，得到的图像作为模型输入的后一帧；保持位移角度不变，放大背景的位移距离得到实际运动增强图像。

所述步骤(1.3)，还可以采用如下方法：确保编码模型提取到的纹理特征对比度满足预期，将样本图像的背景进行高斯模糊滤波以降低图像背景与前景的边缘对比度；保持前景物体的位置不变，对样本图像的背景进行位移，得到的图像作为模型输入的后一帧；保持位移角度不变，放大背景的位移距离得到实际运动增强图像。

高斯模糊滤波中使用的计算公式如下：

(2)将待运动增强的人脸视频进行逐帧分解，得到一系列帧序列，提取帧序列中的人脸图像并构造帧图像对(f_i,f_i+1)，f_i,f_i+1分别为第i,i+1帧人脸图像。

通常，在人脸视频中，人脸只占整幅图像的一部分区域，人脸视频伪造算法也仅仅对人脸区域进行伪造篡改，因此人脸以外的区域对于伪造视频检测任务就变成了一种冗余信息。同时，如果将整幅图像帧都输入到检测模型中，会极大的增加模型的计算消耗，冗余区域也会影响到模型对特征的提取，因此需要将帧序列中的人脸图像区域提取出来。

所述的提取帧序列中的人脸图像方法如下：

(2.1)对原始帧图像进行直方图均衡化和高斯滤波平滑预处理。

首先利用以下公式对像素强度进行变换；

Y＝(77/256)R+(150/256)G+(29/256)B

Cr＝(131/256)R-(110/256)G-(21/256)B+128

Cb＝-(44/256)R-(87/256)G+(131/256)B+128

肤色模型如下所示：

(2.3)对检测到的肤色区域进行形态学处理。

(2.4)标定出图像中最大块的肤色区域，作为人脸的候选区域。

(2.5)定位出所检测到的人脸区域。利用垂直积分投影方法对人脸候选区域进行判决，根据判决结果，将人脸图像区域裁剪出来。

本实施例在FaceForensic++数据集以及DeepFakes Detection Challenge(DFDC)数据集上进行了测试，分别将CNN-LSTM模型以及3DCNN模型作为基准分类器，测试该运动增强预处理的有效性，使用FaceForensic++数据集测试的平均结果如表1所示，使用DFDC数据集测试的平均结果如表2所示。从实验结果可以得出，经过运动增强的视频序列能够有效提高检测模型的精度，并且对于数据集以及模型都具有较好的鲁棒性。在一定程度上说明了运动增强能够暴露出伪造人脸视频相比于真实视频中的运动不一致性，利于模型检测视频的真伪。

表1

表2

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种面向换脸视频检测的视频运动增强方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种面向换脸视频检测的视频运动增强方法，其特征在于：所述步骤(1)，构建运动增强模型，包括三个部分的卷积神经网络：编码模型、增强模型和重建模型；具体如下：

上述三个模型中的每个卷积后都跟随着一个ReLU激活函数层；在训练运动增强模型时端到端地利用反向传播以及随机梯度下降对网络参数进行更新。

3.根据权利要求1所述的一种面向换脸视频检测的视频运动增强方法，其特征在于：所述步骤(1)，构建运动增强模型的训练数据以及监督信息的方法如下：

(1.2)对所选的m个前景物体的尺寸以及角度作随机扰动；

(1.4)以与步骤(1.3)同样的角度重复前景物体的位移，但位移距离放大一定倍数，模拟运动增强的实际效果，得到的实际运动增强图像作为模型输出的监督信息；

(1.5)保持样本图像的背景不变，重复步骤(1.3)～(1.4)，直至所选的m个前景物体全部处理完成，得到m个训练样本以及监督信息；

4.根据权利要求3所述的一种面向换脸视频检测的视频运动增强方法，其特征在于：所述步骤(1.3)，确保运动增强模型学习到全局的运动特征，保持前景物体的位置不变，对样本图像的背景进行位移，得到的图像作为模型输入的后一帧；保持位移角度不变，放大背景的位移距离得到实际运动增强图像。

5.根据权利要求3或4所述的一种面向换脸视频检测的视频运动增强方法，其特征在于：所述步骤(1.3)，确保编码模型提取到的纹理特征对比度满足预期，将样本图像的背景进行高斯模糊滤波以降低图像背景与前景的边缘对比度。

6.根据权利要求5所述的一种面向换脸视频检测的视频运动增强方法，其特征在于：高斯模糊滤波中使用的计算公式如下：

7.根据权利要求1所述的一种面向换脸视频检测的视频运动增强方法，其特征在于：所述步骤(2)，提取帧序列中的人脸图像，方法如下：

(2.3)对检测到的肤色区域进行形态学处理；

(2.5)定位出所检测到的人脸区域。

8.根据权利要求7所述的一种面向换脸视频检测的视频运动增强方法，其特征在于：所述步骤(2.2)，对预处理后的图像进行颜色空间转换，用肤色模型检测图像中的皮肤像素，方法如下：

首先利用以下公式对像素强度进行变换；

Y＝(77/256)R+(150/256)G+(29/256)B

Cr＝(131/256)R-(110/256)G-(21/256)B+128

Cb＝-(44/256)R-(87/256)G+(131/256)B+128

肤色模型如下所示：

9.根据权利要求7或8所述的一种面向换脸视频检测的视频运动增强方法，其特征在于：所述步骤(2.5)，利用垂直积分投影方法对人脸候选区域进行判决，根据判决结果裁剪人脸图像区域。