CN111914633B

CN111914633B - 基于人脸特征时域稳定性的换脸视频篡改检测方法及其应用

Info

Publication number: CN111914633B
Application number: CN202010574901.7A
Authority: CN
Inventors: 胡永健; 熊艺纯; 王宇飞; 李猛; 李纪成; 刘琲贝
Original assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Current assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2023-06-30
Anticipated expiration: 2040-06-22
Also published as: CN111914633A

Abstract

本发明公开了一种基于人脸特征时域稳定性的换脸视频篡改检测方法及其应用，该方法步骤包括：将待检测视频解码为帧序列并逐帧保存；检测各帧的人脸区域并提取人脸特征点的坐标值；根据特征点的位置和活跃度选择特定特征点，计算特定成对特征点的连线向量作为面部向量；计算相邻帧上对应面部向量在空间位置上的偏转角；将相邻两帧所有面部向量的偏转角度值作为特征值，并构造特征向量；将训练样本的特征向量输入支持向量机训练生成分类模型；训练后的分类模型对待检测视频帧进行分类，判断视频是否存在篡改。本发明利用人脸生物信号的固有特征进行检测，具有较好的检测效果，利用面部向量的时域特征来捕捉篡改视频的痕迹，具有良好的通用性。

Description

基于人脸特征时域稳定性的换脸视频篡改检测方法及其应用

技术领域

本发明涉及换脸视频篡改检测技术领域，具体涉及一种基于人脸特征时域稳定性的换脸视频篡改检测方法及其应用。

背景技术

随着计算能力的提升、数据的爆炸式增长，人工智能又迎来了新的发展浪潮，近年来利用深度网络生成换脸视频的技术成为一个热门话题，逼真的换脸效果导致检测难度越来越大，换脸视频的制作方式也越来越简便，这些换脸技术的滥用对社会造成了不良影响，恶意的篡改不仅导致个人肖像权受到侵犯，甚至给社会治安带来重大威胁，因此针对换脸视频篡改检测技术的研究具有十分重要的意义。

目前技术中有关检测换脸篡改问题时大多都只基于单帧图像进行检测，但由于换脸视频的篡改是逐帧进行换脸操作，单帧内的换脸效果已经达到很高的水平，往往给检测带来较大的难度，故只考虑单帧图像的篡改分析具有局限性，未考虑到图像帧在时域上的关联性导致检测效果不佳。另外现有技术中的换脸视频篡改检测技术流行使用深度神经网络进行检测，此类技术在库内进行测试准确率可高达90％以上，具有较好的检测效果，但多数算法泛化性能不足，跨库测试时准确率出现严重下降，且计算复杂度高，需要耗费大量时间。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于人脸特征时域稳定性的换脸视频篡改检测方法。

本发明的第二目的在提供一种基于人脸特征时域稳定性的换脸视频篡改检测系统。

本发明的第三目的在于提供一种存储介质。

本发明的第四目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

一种基于人脸特征时域稳定性的换脸视频篡改检测方法，包括下述步骤：

将待检测视频解码为帧序列并逐帧保存；

检测各帧的人脸区域并提取人脸特征点的坐标值；

比较各个特征点在时域上的变化程度计算特征点的活跃度，根据特征点的位置和活跃度选择特定特征点，计算特定成对特征点的连线向量作为面部向量；

计算相邻帧上对应面部向量在空间位置上的偏转角；

将相邻两帧所有面部向量的偏转角度值作为特征值，并构造特征向量；

将训练样本的特征向量输入支持向量机，训练并生成分类模型；

采用训练后的分类模型对待检测视频帧进行分类，逐帧判断视频是否存在篡改。

作为优选的技术方案，所述将待检测视频解码为帧序列并逐帧保存，具体步骤包括：

采用FFmpeg工具将视频进行解码，把视频解码成帧序列F₁,F₂,F₃,…,F_N，其中，N为单个视频的帧数，将每个视频的帧序列保存为独立文件夹并排序。

作为优选的技术方案，所述检测各帧的人脸区域并提取人脸特征点的坐标值，具体步骤包括：

遍历读取所有视频文件路径，通过关键点预测器对视频帧图像进行人脸的识别，提取出人脸特征点坐标值并写入文件中。

作为优选的技术方案，根据特征点的位置和活跃度选择特定特征点，计算特定成对特征点的连线向量作为面部向量，具体步骤包括：

将所述特定特征点划分为五官特征点集合A和轮廓特征点集合B；

将集合A与集合B的特征点两两连接求坐标的差值，将所有特征点P_a与所有特征点P_b进行有向连接，记录连线向量为：

其中，特征点P_a坐标为P_a(x_a,y_a)∈A，特征点P_b坐标为P_b(x_b,y_b)∈B。

作为优选的技术方案，计算相邻帧上对应面部向量在空间位置上的偏转角，具体步骤包括：

将F_i与F_i+1帧相应特征点面部向量

投影到同一平面，使用向量内积计算两个向量间的偏转角度/>

具体计算公式如下：

其中，

为F_i帧与F_i+1帧的偏转角，/>

和/>

分别为F_i帧和F_i+1帧上特征点P_a连接到特征点P_b的面部向量，/>

和/>

分别表示/>

和/>

的长度。

作为优选的技术方案，所述将相邻两帧所有面部向量的偏转角度值作为特征值，并构造特征向量，特征向量具体表示为：

其中，N为单个视频的帧数。

作为优选的技术方案，所述采用训练后的分类模型对待检测视频帧进行分类，逐帧判断视频是否存在篡改，具体步骤包括：

选取训练集与测试集，将训练集的特征向量输入支持向量机中进行训练，计算出相邻两帧的训练集特征向量θ_Train，采用缩放参数μ进行数据缩放、交叉验证，训练生成分类模型；

在测试集上计算出相邻两帧的测试集特征向量θ_Test，将测试集特征向量θ_Test输入支持向量机中，采用缩放参数μ进行数据缩放，训练后的分类模型对测试集进行检测及标签分类，最后输出二分类结果，逐帧判断视频是否存在篡改。

为了到达上述第二目的，本发明采用以下技术方案：

一种基于人脸特征时域稳定性的换脸视频篡改检测系统，包括：视频解码模块、人脸特征点提取模块、面部向量构建模块、偏转角计算模块、特征向量构建模块、分类模型训练模块和验证模块；

所述视频解码模块用于将待检测视频解码为帧序列并逐帧保存；

所述人脸特征点提取模块用于检测各帧的人脸区域并提取人脸特征点的坐标值；

所述面部向量构建模块用于比较各个特征点在时域上的变化程度计算特征点的活跃度，根据特征点的位置和活跃度选择特定特征点，计算特定成对特征点的连线向量作为面部向量；

所述偏转角计算模块用于计算相邻帧上对应面部向量在空间位置上的偏转角；

所述特征向量构建模块用于将相邻两帧所有面部向量的偏转角度值作为特征值，并构造特征向量；

所述分类模型训练模块用于将训练样本的特征向量输入支持向量机，训练并生成分类模型；

所述验证模块用于采用训练后的分类模型对待检测视频帧进行分类，逐帧判断视频是否存在篡改。

为了达到上述第三目的，本发明采用以下技术方案：

一种存储介质，存储有程序，所述程序被处理器执行时实现上述基于人脸特征时域稳定性的换脸视频篡改方法。

为了达到上述第四目的，本发明采用以下技术方案：

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述基于人脸特征时域稳定性的换脸视频篡改方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明将生物信号中的人脸五官与轮廓的相对位置固定性应用到换脸视频的篡改检测当中，结合时域信息，利用换脸视频在人脸替换时造成的不平滑现象来区分真假视频，为换脸视频的篡改检测提供了一种有效途径。

(2)本发明根据人脸各部分的活跃程度以及换脸篡改视频的缺陷，将人脸特征点区分为三大类，各类特征点在时域上变化的活跃程度可以用来描述真假视频的差异，引入面部向量构建了独有的描述人脸五官特征点与轮廓特征点相对位置的方法，面部向量在时域上的变化适用于换脸篡改检测的场景。

(3)本发明利用人脸生物信号的固有特征进行检测，具有较好的检测效果，良好的通用性，能有效区分真假脸视频帧，且具有较好的库内以及跨库测试结果，检测换脸视频基于前后两帧的一致性，可以对单独两帧图像来判断其真伪，不需要整段视频也可以参与训练与分类。

(4)本发明利用生物信号的固有特征进行检测，提升了检测效果，具有良好的通用性，该检测方法不涉及复杂运算，能在普通计算机上较为快速地完成，具有较好的实时性。

附图说明

图1为本实施例基于人脸特征时域稳定性的换脸视频篡改检测方法的数据预处理流程示意图；

图2为本实施例基于人脸特征时域稳定性的换脸视频篡改检测方法的训练测试阶段流程示意图；

图3为本实施例真假脸视频的人脸特征点标记图；

图4为本实施例部分特征点的活跃性测试图；

图5为本实施例人脸特征点根据活跃度分为三大类的示意图；

图6为本实施例计算前后帧对应特征点的面部向量偏转角的投影示意图；

图7为本实施例数据库随机选取样本的可视化分类结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1、图2所示，本实施例提供一种基于人脸特征时域稳定性的换脸视频篡改检测方法，利用换脸视频在换脸时存在的帧间不连续现象进行篡改检测。

真实视频在自然状态下是成像设备连续采集的，因而两帧之间时域相关性较高；但换脸视频是由单帧图像经过换脸后再编码生成，换脸视频相邻帧之间时域相关性相对较弱，利用真假脸在时域一致性的差异来进行篡改检测。人脸五官与轮廓的相对位置固定性为人特有的生物特征，利用人脸特征点的坐标来标记人脸五官与轮廓，人脸五官特征点与轮廓特征点的相对位置应保持固定。由于假脸是视频解码后对单帧人脸进行替换，每帧人脸在替换时候不会考虑前后帧的关联，从而会出现换脸视频中的人脸生物面部有跳跃等不平滑现象。因此，本实施例主要通过人脸特征在时域上的变化来衡量真假脸视频中人脸生物特征的连续性，从而区分真脸视频和换脸视频。

本实施例以人脸篡改检测数据库Celeb_DF与deepfakeDetection(DFD)为例，详细介绍基于人脸特征时域稳定性的换脸篡改检测方法的具体实施过程，具体包括下述步骤：

S1：将待检测视频解码为帧序列并逐帧保存；

在本实施例中，以数据库DFD中一对场景为talking_against_wall的真假视频为例，使用FFmpeg工具将视频进行解码，把视频解码成帧序列F₁,F₂,F₃,…,F_N，其中N为单个视频的帧数，将每个视频的帧序列保存为独立文件夹并排序，以防不同视频产生相互干扰；

S2：检测各帧的人脸区域并提取人脸特征点的坐标值；

在本实施例中，具体采用对文件夹遍历读取所有视频文件路径，采用DLib工具包读取分帧图像的人脸特征点，利用shape_predictor关键点预测器提取出人脸68个特征点P₁,P₂,P₃,…,P₆₈坐标，特征点标记了人脸的五官与轮廓的位置，将上述坐标保存在landmark文件中；

如图3所示，左图为真实人脸的特征点，右图为对应换脸视频人脸特征点；

S3：计算特定成对特征点的连线向量作为面部向量；

在本实施例中，具体步骤如下：

作为先验性实验的一部分，衡量人脸特征点在真脸视频与换脸视频中的活跃程度，通过比较各个特征点在时域上的变化程度来计算特征点的活跃度，如图4所示，以特征点25与29为例，表示了特征点在时间轴上真假脸不同的变化情况。计算出特征点25在真脸视频中的前后帧的坐标偏移量‖(x_i+1-x_i),(y_i+1-y_i)‖方差为0.45，假脸视频中为0.81；特征点29在真脸视频中的前后帧的坐标偏移量方差为0.35，假脸为1.71；真脸视频相较于假脸视频具有更小的变化。如图4所示，左边两个子图展示了特征点坐标在真脸视频上的变化，曲线较平缓表示该特征点在真脸视频中较稳定；右边两个子图展示了特征点坐标在换脸视频上的变化，起伏较大表示该特征点在换脸视频表现较为活跃。

由于人脸内部特征点的稳定部分为鼻梁与下眼皮等位置，此类特征点在真脸视频中表现较稳定，而在换脸视频制作过程中由于分帧又重新编码合成视频，会导致这些特征点出现跳跃等前后帧不连续的情况，可作为人脸五官特征点，人脸外轮廓的特征点被视为在人脸替换时可能未被影响的边缘特征点，人脸轮廓特征点具有较稳定的特性，可作为本实施例中的人脸轮廓特征点。

先将各个特征点在时域上的变化情况进行分析，结合生物特征中的人脸五官特征点与轮廓特征点相对位置的固定性，由日常经验区分出一部分稳定点与活跃点，通过实验对这些特征点进行再一次筛选，通过实验提取出各个特征点在时域上的坐标变化来衡量抖动情况，具体采用方法为计算各个特征点在前后帧坐标变化方差，来衡量其特征点的运动剧烈程度，再利用Feature_selection工具包对特征进行进一步筛选，使用variance_threshold，select_k_best，svc_select，tree_select函数对特征进行层次筛选。

通过上述步骤可将人脸特征点分为三类特征点集合，如图5所示，第一类特征点为菱形特征点，表示五官特征点，表现为，在真脸视频中比较连续稳定而在换脸视频可能会出现跳跃抖动等情况，集中于人脸内部较为稳定的点，如鼻梁、下眼皮等部分，用于区分真假脸视频的特征，记为五官特征点集合A＝{P₂₀,P₂₅,P₂₈,P₂₉,P₃₀,P₃₁,P₃₂,P₃₃,P₃₄,P₃₅,P₃₆,P₃₇,P₄₀,P₄₁,P₄₂,P₄₃,P₄₆,P₄₇,P₄₈}；

第二类特征点为三角形状特征点，表示轮廓特征点，集中于人脸两颊轮廓部分，被认为是假脸制作时可能未被替换的外脸轮廓部分，用于标定人脸固定不变轮廓点的位置，记为轮廓特征点集合B＝{P₂,P₃,P₄,P₅,P₁₃,P₁₄,P₁₅,P₁₆}；剩余第三类特征点为圆形特征点，表现为真脸及换脸视频中变化较一致，此类特征点作为特征区分的意义较小，故在本实施例中舍弃未用，记为舍弃特征点集合C。

读取步骤S1中保存的人脸特征点坐标landmark文件，将集合A与集合B的特征点两两连接求坐标的差值，将所有特征点P_a(x_a,y_a)∈A与所有特征点P_b(x_b,y_b)∈B进行有向连接，其中：

a∈{20,25,28,29,30,31,32,33,34,35,36,37,40,41,42,43,46,47,48}；

b∈{2,3,4,5,13,14,15,16}；

记录其面部向量

由于A集合有19个特征点，B集合有8个特征点，集合的元素两两相连求面部向量，共生成152维面部向量集

这些特征点的相连可以视为将人脸五官特征点与轮廓特征点相连，生成的特征用于衡量人脸五官特征点与轮廓特征点的相对位置，将向量保存成Facial Vector(后述简称为FV)变量。

FV所保存的特征点面部向量信息代表的是人脸五官特征点与轮廓特征点相对位置，如特征点P₃₄与特征点P₅的面部向量

代表了鼻尖到右脸颊轮廓上一点的向量。一帧图像的FV共包括了152个面部向量，这些值为衡量人脸五官特征点与轮廓特征点相对位置提供了有效依据。

S4：计算相邻帧上对应面部向量在空间位置上的偏转角；

具体步骤如下：

FV用于衡量一帧图像中人脸五官特征点与轮廓特征点信息，表示的是人脸生物特征的空间信息，由于脸部结构因人而异，该信息直接利用到真假脸区分中效果不佳，而该面部向量在时间轴上的变化可以反应出前后两帧的人脸特征变化。真脸视频中人脸五官特征点与轮廓特征点相对位置较为固定，而换脸视频中人脸五官的位置相对于外轮廓会有所跳跃，因此可利用时域上的五官特征点与轮廓特征点位置的相对变化区分真假脸视频。时域上的变化可以通过计算前后两帧的FV差值来衡量，将FV变量中对应特征点P_a,P_b(P_a∈A,P_b∈B)的面部向量投影到同一平面，通过向量内积计算两个面部向量的偏转角度值，使用该偏转角度的变化程度来衡量人脸特征在时域上的连续性，进而区分真假脸视频。如图6所示，图中为计算前后帧对应特征点的面部向量偏转角的投影示意图，F_i帧与F_i+1帧鼻子上一特征点P₂₉与轮廓一特征点P₁₆的面部向量为

将两个面部向量投影到同一平面，计算其向量的偏转角度值/>

具体计算公式如下：

F_i帧与F_i+1帧对应特征点P_a,P_b面部向量为

与/>

使用向量内积公式计算F_i与F_i+1帧相应面部向量的余弦值/>

具体计算公式如下：

其中，

为F_i帧与F_i+1帧的偏转角，/>

和/>

分别为F_i帧与F_i+1帧特征点P_a到特征点P_b的面部向量，/>

和/>

分别表示/>

和/>

的长度。

S5：将相邻两帧所有面部向量的偏转角度值作为特征值构造特征向量；

计算出上述的偏转角度

a,b取值个数分别为19和8，故偏转角度/>

共有19×8＝152个取值，F_i帧与F_i+1帧共计算出k＝152个面部向量的偏转角度值，构成152维特征向量/>

S6：训练阶段，将训练样本的特征向量输入支持向量机，训练并生成分类模型；

将训练样本的特征向量输入SVM中进行训练，在训练集上计算出相邻两帧的152维特征向量θ_Train，使用缩放参数μ将上述152维特征进行数据缩放，输入SVM中进行训练学习，选择较优的交叉验证参数生成训练模型Model，记录训练参数g、c；

S7：测试阶段，利用训练所得模型对待测视频帧进行分类，逐帧判断是否存在篡改；

利用训练所得模型对待测视频的特征进行检测，具体采用在测试集上计算出相邻两帧的152维特征向量θ_Test，使用上述训练时使用的数据缩放参数μ，保持测试集与训练集数据采用相同的缩放处理，采用上述生成的训练模型Model对测试集的数据进行测试与标签分类。

在本实施例中，将Celeb_DF与DFD数据库中所有视频通过上述预处理步骤，计算出前后两帧的152维特征向量θ_i。Celeb_DF数据库训练集样本数为92262(真脸样本36872/换脸样本55390)，测试集样本数为59735(20286/39449)。DFD数据库训练集样本数为189286(84770/104516)，测试集样本数为46713(20399/26314)。

将上述训练集特征输入SVM中进行训练、分类，得出算法在数据库上运行的准确率。具体如下：

1、使用scale数据包对上述数据库的训练集与测试集进行数据缩放，对于所有数据集进行的缩放使用相同的参数μ；

2、使用grid数据包对训练集的特征进行交叉验证，选择出较优的训练参数g、c用于后述的训练；

3、使用上述较优的训练参数g、c在训练集上进行训练，训练的结果为训练集模型文件Model；

使用上述的训练集模型文件Model，在测试集上进行预测分类，最后输出二分类结果，判定该帧是否经过篡改。

如图7所示，图中展示了正负样本的分类效果的可视化结果，使用DFD数据库测试集的随机样本共5087个(正样本2465/负样本2622)，图中的“○”为正样本的标记，表示真实视频的样本分布情况，“×”为负样本的标记，表示换脸视频的样本分布情况。图中所示正负样本可以较好的区分开，证明本实施例方法的有效性。

本实施例针对Celeb_DF与DFD数据库，如下表1所示，得到了库内测试结果。

表1库内实验结果

使用Celeb_DF数据库的训练集进行训练得到模型Model_{Cele_DF}，在DFD数据库的测试集上进行测试。以及使用DFD数据库的训练集训练得到模型Model_DFD，在Celeb_DF数据库的测试集进行测试，如下表2所示，得到了跨库测试结果。

表2跨库实验结果

由上述分析与实验结果可知，利用人脸面部特征时域稳定性可以有效地区分真假脸视频。

本实施例将视频中连续两帧人脸面部特征应用到换脸视频的篡改检测中，考虑了人脸特有的五官与轮廓相对位置固定的生物特征。将人脸特征点区分为三大类，各类特征点在时域上变化的活跃程度可以用来描述真假视频的差异。将人脸五官特征点与轮廓特征点进行有向连接，引入面部向量构建了独有的描述人脸五官与轮廓相对位置的方法。利用了换脸视频在分帧重新编码合成视频时造成的不平滑现象，通过计算前后两帧人脸面部向量的偏转角变化来判断视频的真假，为换脸视频的篡改检测提供了一种有效途径。

本实施例在数据库的库内与跨库测试中表现出了较好的性能，具有较好的通用性与稳定性。若要进一步提高其测试准确度，可以将单帧测试结果作为整段视频的参考依据，设定阈值来判断整段视频的真假。

本实施例针对人脸在相邻帧前后位置移动幅度较小、转头幅度不大的视频，在充分考虑视频帧时域信息的基础上，利用生物信号中人脸五官特征点与轮廓特征点相对位置的固定关系来判断视频是否发生篡改。为了描述人脸五官特征点与轮廓特征点的稳定程度，通过测试人脸特征点的活跃程度，选择了部分的人脸特征点作为篡改检测的依据，具体表现为某些人脸五官特征点在真脸中较稳定而假脸出现时域跳跃的情况，将这些五官特征点与相对固定的外脸轮廓特征点相连接形成面部向量，该面部向量可以用于描述人脸的五官特征点与轮廓特征点的相对距离，通过面部向量在时域上的变化情况来区分真脸与换脸视频。真脸视频由成像设备连续生成，人脸五官特征点与轮廓特征点的位置会保持相对固定且连续，而换脸视频是由多张假脸图像重新编码生成，单张换脸时并未考虑器官在时域上的连续性，五官特征点与轮廓特征点所构成的面部向量在真假脸视频上差异明显，可作为检测假脸的依据。将前后两帧的对应面部向量投影到同一平面上计算其向量偏转角，真脸相对于假脸具有更小更集中的偏转角度值。利用人脸生物信号固有特征进行检测，具有良好的检测效果，并具有较好的通用性。

本实施例还提供一种基于人脸特征时域稳定性的换脸视频篡改检测系统，包括：视频解码模块、人脸特征点提取模块、面部向量构建模块、偏转角计算模块、特征向量构建模块、分类模型训练模块和验证模块；

在本实施例中，视频解码模块用于将待检测视频解码为帧序列并逐帧保存；人脸特征点提取模块用于检测各帧的人脸区域并提取人脸特征点的坐标值；面部向量构建模块用于比较各个特征点在时域上的变化程度计算特征点的活跃度，根据特征点的位置和活跃度选择特定特征点，计算特定成对特征点的连线向量作为面部向量；偏转角计算模块用于计算相邻帧上对应面部向量在空间位置上的偏转角；特征向量构建模块用于将相邻两帧所有面部向量的偏转角度值作为特征值，并构造特征向量；分类模型训练模块用于将训练样本的特征向量输入支持向量机，训练并生成分类模型；验证模块用于采用训练后的分类模型对待检测视频帧进行分类，逐帧判断视频是否存在篡改。

本实施例还提供一种存储介质，存储介质可以是ROM、RAM、磁盘、光盘等储存介质，该存储介质存储有一个或多个程序，所述程序被处理器执行时，实现上述基于人脸特征时域稳定性的换脸视频篡改方法。

本实施例还提供一种计算设备，所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现上述基于人脸特征时域稳定性的换脸视频篡改方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。