CN111539272B

CN111539272B - 基于联合特征被动检测ai换脸视频的方法及系统

Info

Publication number: CN111539272B
Application number: CN202010279645.9A
Authority: CN
Inventors: 孙锬锋; 孟凡锐; 杜佳骏; 米中杰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2023-02-03
Anticipated expiration: 2040-04-10
Also published as: CN111539272A

Abstract

本发明提供了一种基于联合特征被动检测AI换脸视频的方法及系统，包括:对篡改视频解码数据做统计分析，找到全局性的可鉴定特征；将编码中不存在篡改痕迹的视频判定为未经篡改的视频，得到经过篡改的视频；对经过篡改的视频解帧得到连续多帧视频帧图像；检测识别每个视频帧中出现的人脸位置，并对人脸区域与小范围周边背景区域进行划分，形成人脸区域图片序列；提取序列中每张图片的纹理信息，获取帧内一致性信息；对帧内一致性特征序列进行序列分析，考察视频的帧间一致性特征；结合帧内一致性特征和帧间一致性特征，判断是否经过AI换脸的篡改。本发明能精确地检测出经过AI换脸篡改的视频，具有极大的应用价值。

Description

基于联合特征被动检测AI换脸视频的方法及系统

技术领域

本发明涉及视频处理与人工智能领域，具体地，涉及一种基于联合特征被动检测AI换脸视频的方法及系统，更为具体地，涉及一种智能被动检测AI换脸视频的方法。

背景技术

近年来，随着音视频自动编辑工具以及人工智能中对抗生成网络(GAN)技术的发展，数字媒体中人物的换脸技术已经从简单的人脸抠图PS，发展到高质量AI脸的自动生成。这一技术的飞速发展以及技术难度的不断降低，正在不断推动着数字影视作品的CG技术的革新。

而与此同时，这一新兴技术正像一把双刃剑，在带来新的商机的同时，也带来了AI对抗生成技术滥用的巨大风险，为新型篡改视频打开了新的大门。目前，该技术已经在全世界范围内发生了多起滥用事件。例如，通过生成AI换脸视频可以伪造一段针对特定人物(例如政治人物、娱乐明星等)的虚假视频，会造成个人隐私被侵害，社会舆论被误导，甚至导致国家政治冲突或军事冲突。这一风险目前正在日益加剧，作为抵抗新型篡改攻击的最后一道屏障——AI生成篡改视频被动检测技术，也必须不断地发展和更新。

针对上述问题，本发明提出了利用全局双压缩统计特征和局部的像素时空特征联合被动检测AI人脸的方法。可被用于新闻视频素材中人脸真实性检测和司法领域数字视频中人脸真实性鉴定等场景。与传统方法相比，本发明从全局双压缩统计特征和局部的像素时空特征两个角度对AI换脸视频进行检测，具有更高的准确率和鲁棒性。

经过对现有AI换脸视频检测技术的检索发现，中国专利公开号为CN 109558813A的专利记载了“一种基于脉搏信号的AI深度换脸视频取证方法”，公开日期为2019年4月2日。该技术基于脉搏信号，由于人体内传播的心血管脉搏波会周期性地引起血管壁伸展，使得含有大量血管的组织对光的吸收能力也同步波动，从而反映出有规律的脉搏信号。在人脸视频拍摄过程中，这些肉眼看不到的微小变化，却能被普通的摄像头所记录，而使用AI方法生成的伪造人脸会破坏这些有规律可循的微小变化。根据这个特性，本发明结合机器学习算法SVM训练得到的分类器，有效识别以深度学习为代表的逼真的人脸伪造视频中非正常人体应有的脉搏信号，从而得以实现视频取证的目的。该技术虽然也能检测AI换脸视频，但相比之下，脉搏信号在检测过程中相对微弱，不易检测出，在准确率方面有着一定限制。同时，该技术只考虑了局部特征，未对全局特征进行考察。与本发明在原理和性能方面不一致。

中国专利公开号为CN 110807396A的专利记载了“基于光照方向一致性的换脸视频篡改检测方法及系统”，公开日期为2020年2月18日。该技术基于AI换脸视频中，人脸区域和背景区域光照角度不一致的信息，进行视频分帧并选择检测区域；计算各帧图像检测区域对应的特征图像；将检测区域和特征图像进行分块，逐帧计算每个子区域图像的平均像素值和边缘信息百分比；选择各帧图像的目标区域；计算目标区域的二维光照方向；将目标区域图像对应的边缘信息百分比作为权重，对目标区域的二维光照方向进行加权计算得到各帧图像的二维光照方向；计算各帧图像二维光照方向的角度并构建光照角度集合；根据光照角度集合的标准差与设定判别门限的差值判断待测视频是否为换脸篡改视频。该技术也能有效地对AI换脸视频进行检测，但该技术只考虑了局部特征，未对全局特征进行考察。与本发明在原理和性能方面不一致。

中国专利公开号为CN 110826440A的专利记载了“一种基于眼动特征的换脸视频篡改检测方法及系统”，公开时间为2020年2月21日。该技术基于真实视频与换脸视频之间的眼动特征差异，检测待测视频中的人眼区域，并对眼部特征点进行定位，并预测眼球中心位置；计算待测视频各帧的视线方向向量，并计算视线变化率序列和视线转移方向序列；根据视线变化率序列计算单眼灵活度；根据视线变化率序列计算双眼视线变化率吻合度，根据视线转移方向序列计算双眼视线转移方向吻合度；根据单眼灵活度、视线变化率吻合度、视线转移方向吻合度判断视频是否经过换脸篡改。这种方式在视频清晰度较高的情况下能有效检测出AI换脸视频，但在视频经过压缩之后，无法有效检测出眼动特征。同时，该技术只考虑了局部特征，未对全局特征进行考察。与本发明在原理和性能方面不一致。

专利文献CN110929617A(申请号：201911115108.4)公开了一种换脸合成视频检测方法、装置、电子设备及存储介质，所述方法包括：针对待检测的视频中的每帧第一图像，将该第一图像输入预先训练完成的视频检测模型，基于所述视频检测模型，输出该第一图像的类别信息；根据每帧第一图像的类别信息确定所述待检测视频的类别信息；其中，所述类别信息包括换脸信息或非换脸信息。

专利文献CN110210393A(申请号：201910472084.1)公开了人脸图像的检测方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取包含人脸对象的图像帧；对图像帧进行人脸检测，定位出人脸区域；采用已训练的换脸检测模型对定位出的人脸区域中所包含的人脸对象是否为合成的伪造人脸进行检测。

现有技术存在精确度不够同时检测能力不足的缺陷，针对这一缺陷，本发明解决了通过联合两种特征：全局编码统计特征和局部像素时空特征对AI换脸视频进行检测，同时采取的算法所针对的篡改特征本身是AI换脸视频的根本性特征，因此本发明具有较强的检测能力和较强的鲁棒性，具有极大的应用价值。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于联合特征被动检测AI换脸视频的方法及系统。

根据本发明提供的一种基于联合特征被动检测AI换脸视频的方法，包括:

步骤M1：对原始视频解码数据做统计分析，提取视频特征，得到全局编码统计特征；

步骤M2：根据得到全局编码统计特征，将原始视频编码中不存在篡改痕迹的视频判定为未经篡改的视频，得到其余经过篡改的视频；

步骤M3：对经过篡改的视频解帧得到连续多帧视频帧图像；

步骤M4：检测连续多帧视频帧图像的每张图像中是否出现人脸，将未出现人脸的视频判定为非AI换脸视频，得到其余出现人脸的连续多帧视频帧图像；

步骤M5：对出现人脸的连续多帧视频帧进行人脸识别，获取人脸位置信息，对人脸区域与预设范围周边背景区域进行划分，形成人脸背景区域图片序列；

步骤M6：根据局部二值模式，提取人脸背景区域图片序列中每张包含的纹理信息，获取帧内一致性信息；

步骤M7：对人脸背景区域图片序列提取得到的帧内一致性特征序列进行序列分析，同时考察视频的帧内一致性特征和帧间一致性特征，得到局部像素时空特征；

步骤M8：根据全局编码统计特征和局部像素时空特征，判断视频是否经过AI换脸的篡改；

所述全局编码统计特征是根据双压缩检测判断视频是否经过换脸篡改之前，直接判断视频是否经过任何形式的篡改；

所述局部像素时空特征是将帧内一致性特征和帧间一致性特征统称为局部像素时空特征，能够有效地检测出AI换脸视频。

优选地，所述步骤M1包括：

步骤M1.1：对原始视频中P/B帧的原始数据和块内预测残差进行离散余弦变换，并对离散余弦变换得到的频率系数进行量化；

步骤M1.2：对量化后的频率系数中交流系数进行统计，得到全局编码统计特征。

优选地，所述步骤M2包括：根据支持向量机，对量化的交流系数的分布规律进行分类；当不存在双压缩特征的视频标定为未经篡改的视频，即非AI换脸视频；当存在双压缩特征的视频标定为经过篡改的视频。

优选地，所述步骤M5包括：

步骤M5.1：通过使用人脸识别工具对视频中的人脸进行检测，得到人脸位置信息；

步骤M5.2：以人脸区域中心为中心，人脸区域面积的预设倍为面积，截取人脸区域与预设范围周边背景区域；

步骤M5.3：对出现人脸的连续多帧视频帧图像的每张图像重复执行步骤M5.1至步骤M5.2，得到人脸背景区域图片序列。

优选地，所述步骤M7包括：

步骤M7.1：将人脸背景区域图片序列提取得到的帧内一致性特征序列重新排成一列，得到新的序列；

步骤M7.2：将得到的新序列输入至长短期记忆网络，得到输出判定值；

步骤M7.3：将得到的输出判定值与预设阈值相比较；当判定值小于阈值，则判定为未经AI换脸的视频；当判定值大于阈值的视频，则判定为经过AI换脸的视频；

所述预设阈值是指按照预设量视频得到的判定值，从判定值中选取一个预设阈值，使得预设量视频经过检测流程之后，得到的相应错误率最低。

根据本发明提供的一种基于联合特征被动检测AI换脸视频的系统，包括:

模块M1：对原始视频解码数据做统计分析，提取视频特征，得到全局编码统计特征；

模块M2：根据得到全局编码统计特征，将原始视频编码中不存在篡改痕迹的视频判定为未经篡改的视频，得到其余经过篡改的视频；

模块M3：对经过篡改的视频解帧得到连续多帧视频帧图像；

模块M4：检测连续多帧视频帧图像的每张图像中是否出现人脸，将未出现人脸的视频判定为非AI换脸视频，得到其余出现人脸的连续多帧视频帧图像；

模块M5：对出现人脸的连续多帧视频帧进行人脸识别，获取人脸位置信息，对人脸区域与预设范围周边背景区域进行划分，形成人脸背景区域图片序列；

模块M6：根据局部二值模式，提取人脸背景区域图片序列中每张包含的纹理信息，获取帧内一致性信息；

模块M7：对人脸背景区域图片序列提取得到的帧内一致性特征序列进行序列分析，同时考察视频的帧内一致性特征和帧间一致性特征，得到局部像素时空特征；

模块M8：根据全局编码统计特征和局部像素时空特征，判断视频是否经过AI换脸的篡改；

优选地，所述模块M1包括：

模块M1.1：对原始视频中P/B帧的原始数据和块内预测残差进行离散余弦变换，并对离散余弦变换得到的频率系数进行量化；

模块M1.2：对量化后的频率系数中交流系数进行统计，得到全局编码统计特征。

优选地，所述模块M2包括：根据支持向量机，对量化的交流系数的分布规律进行分类；当不存在双压缩特征的视频标定为未经篡改的视频，即非AI换脸视频；当存在双压缩特征的视频标定为经过篡改的视频。

优选地，所述模块M5包括：

模块M5.1：通过使用人脸识别工具对视频中的人脸进行检测，得到人脸位置信息；

模块M5.2：以人脸区域中心为中心，人脸区域面积的预设倍为面积，截取人脸区域与预设范围周边背景区域；

模块M5.3：对出现人脸的连续多帧视频帧图像的每张图像重复触发模块M5.1至模块M5.2执行，得到人脸背景区域图片序列。

优选地，所述模块M7包括：

模块M7.1：将人脸背景区域图片序列提取得到的帧内一致性特征序列重新排成一列，得到新的序列；

模块M7.2：将得到的新序列输入至长短期记忆网络，得到输出判定值；

模块M7.3：将得到的输出判定值与预设阈值相比较；当判定值小于阈值，则判定为未经AI换脸的视频；当判定值大于阈值的视频，则判定为经过AI换脸的视频；

与现有技术相比，本发明具有如下的有益效果：

1、由于使用对抗生成技术生成逼真人脸视频是新兴领域，传统的被动篡改检测方法面对的问题模型已经从“人工PS人脸模型”问题，改变为“AI人脸模型”痕迹检测问题。因此对于AI换脸视频的检测技术目前较少，这方面的研究人员正在不断增加，成果也在陆续发表。目前研究成果提出了一些假脸视频的传统检测方法，还主要集中在通过人脸真实表情来判断，如判别眨眼频率，或者将嘴唇动作与音频对比等等，检测能力相对比较落后。相比之下，本发明通过联合两种特征：全局编码统计特征和局部像素时空特征，对AI换脸视频进行检测，而不是仅采用某一种单一的特征进行检测，因此具有较强的检测能力和较强的鲁棒性，因此说本发明具有良好的技术先进性。本发明圆满完成了“AI换脸”视频被动检测系统算法研究，具有良好的技术先进性。

2、本发明所检测的针对对象为AI换脸视频，该类视频在许多场景下可能会导致不良影响，而本发明因为能够有效地对其进行检测，本发明成果可应用于司法电子证据取证需求、网络平台上传视频真实性鉴定自检需求、新闻媒体发布视频的真实性鉴定等领域，具有广泛的应用范围和良好的发展前景；

3、本发明所具备的精确有效的特点，其主要原因包含两点：1，通过联合两种特征对AI换脸视频进行检测，2，本发明所采取的算法所针对的篡改特征本身是AI换脸视频的根本性特征。本发明能精确有效地检测出经过“AI换脸”篡改的视频，具有极大的应用价值。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明基于联合特征被动检测AI换脸视频的方法实现的系统模型框架图；

图2为LBP-LSTM算法的模型框架图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

根据本发明提供的一种基于联合特征被动检测AI换脸视频的方法，包括:如图1所示，

步骤M3：对经过篡改的视频解帧得到连续多帧视频帧图像；

其原因在于，AI换脸工具需要检测并提取出视频中的人脸区域，因此视频中存在可以被检测到的人脸才有篡改的意义。本系统首先对输入视频中的人脸进行检测。如果输入视频中不含有任何人脸或者人脸的尺寸小于最低检测范围，那么将认为视频中不存在人脸，不需要对视频进行检测。

所述全局编码统计特征是根据双压缩检测判断视频是否经过换脸篡改之前，直接判断视频是否经过任何形式的篡改；换脸篡改是一种篡改的形式，如果视频没有经过任何形式的篡改，那么自然没有经过换脸篡改。经过得到全局编码统计特征能够有效过滤掉未经任何篡改的视频，减少工作量。

所述局部像素时空特征是将帧内一致性特征和帧间一致性特征统称为局部像素时空特征，能够有效地检测出AI换脸视频。由于AI换脸视频和普通视频，在帧内一致性和帧间一致性这两点上有较大的差异，因此通过这两种特征能够有效地检测出AI换脸视频。

具体地，所述步骤M1包括：

具体量化操作是指将频率系数除以量化矩阵的值之后取整。

频率系数分为直流分量和交流分量，交流分量即AC系数。

所述块内预测残差是指预测残差在计算时按照每一个不同的块进行计算的；块内是指宏块，通过将画面分成一个个大小不同的块来使不同位置实行不同的压缩策略；

具体地，所述步骤M2包括：根据支持向量机，对量化的交流系数的分布规律进行分类；当不存在双压缩特征的视频标定为未经篡改的视频，即非AI换脸视频；当存在双压缩特征的视频标定为经过篡改的视频。

对于视频中人物进行换脸，操作者必须先解码原始的视频，然后将人脸部分进行替换之后二次编码，因此AI换脸视频肯定经历过了双压缩。若一段视频在检测时认为是单次压缩，可以认为这段视频是原始视频，反之认为其可能被换脸，进行下一步的检测；

具体地，所述步骤M3包括：

步骤M3.1：用ffmpeg工具将经过篡改的视频解成图片帧；

步骤M3.2：用ffmpeg工具获取视频总帧数；

步骤M3.3：在总帧数范围内，随机选取连续的24张视频帧图像。

具体地，所述步骤M4包括：

步骤M4.1：使用face-recognition工具对视频中的人脸进行检测；

步骤M4.2：对连续的24张视频帧图像重复执行步骤M4.1；

步骤M4.3：将所有视频帧中均未出现人脸的视频标定为未出现人脸的视频。

具体地，所述步骤M5包括：

步骤M5.2：以人脸区域中心为中心，人脸区域面积的四倍为面积，截取人脸区域与小范围周边背景区域；

具体地，所述步骤M6包括：如图2所示，

步骤M6.1：使用局部二值模式(LBP)算子对人脸背景区域图片提取单张图片的帧内一致性特征；

步骤M6.2：对人脸背景区域图片序列中每张图片重复步骤6.2，得到帧内一致性特征序列。

具体地，所述步骤M7包括：

步骤M7.3：将得到的输出判定值与预设阈值相比较；当判定值小于阈值，则判定为未经AI换脸的视频；当判定值大于阈值的视频，则判定为经过AI换脸的视频。

根据判定值预设的阈值是指将大量视频按照上述步骤得到判定值，根据这些判定值选取一个恰当的阈值，使得预设量视频经过检测流程之后，得到的相应错误率最低。

其原因在于，AI换脸视频存在帧内的特征和帧间的特征，因此提取帧内的局部二值模式(LBP)特征，使用长短期记忆网络(LSTM)分析帧间序列特征，给出视频是AI换脸视频或是真实视频的概率，最后通过设定阈值，对视频是否经过换脸给出判定结果。

模块M3：对经过篡改的视频解帧得到连续多帧视频帧图像；

具体地，所述模块M1包括：

具体量化操作是指将频率系数除以量化矩阵的值之后取整。

频率系数分为直流分量和交流分量，交流分量即AC系数。

具体地，所述模块M2包括：根据支持向量机，对量化的交流系数的分布规律进行分类；当不存在双压缩特征的视频标定为未经篡改的视频，即非AI换脸视频；当存在双压缩特征的视频标定为经过篡改的视频。

具体地，所述模块M3包括：

模块M3.1：用ffmpeg工具将经过篡改的视频解成图片帧；

模块M3.2：用ffmpeg工具获取视频总帧数；

模块M3.3：在总帧数范围内，随机选取连续的24张视频帧图像。

具体地，所述模块M4包括：

模块M4.1：使用face-recognition工具对视频中的人脸进行检测；

模块M4.2：对连续的24张视频帧图像重复执行模块M4.1；

模块M4.3：将所有视频帧中均未出现人脸的视频标定为未出现人脸的视频。

具体地，所述模块M5包括：

模块M5.2：以人脸区域中心为中心，人脸区域面积的四倍为面积，截取人脸区域与小范围周边背景区域；

具体地，所述模块M6包括：

模块M6.1：使用局部二值模式(LBP)算子对人脸背景区域图片提取单张图片的帧内一致性特征；

模块M6.2：对人脸背景区域图片序列中每张图片重复模块6.2，得到帧内一致性特征序列。

具体地，所述模块M7包括：

模块M7.3：将得到的输出判定值与预设阈值相比较；当判定值小于阈值，则判定为未经AI换脸的视频；当判定值大于阈值的视频，则判定为经过AI换脸的视频。

实施例2

实施例2是实施例1的变化例。

本发明填补了利用全局双压缩统计特征和局部的像素时空特征联合以实现被动检测AI换脸视频的相关空白，可将上述发明步骤应用于司法电子证据取证需求、网络平台上传视频真实性鉴定自检需求、新闻媒体发布视频的真实性鉴定等领域，具有广泛的应用范围和良好的发展前景。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于联合特征被动检测AI换脸视频的方法，其特征在于，包括:

步骤M3：对经过篡改的视频解帧得到连续多帧视频帧图像；

2.根据权利要求1所述的基于联合特征被动检测AI换脸视频的方法，其特征在于，所述步骤M1包括：

3.根据权利要求1所述的基于联合特征被动检测AI换脸视频的方法，其特征在于，所述步骤M2包括：根据支持向量机，对量化的交流系数的分布规律进行分类；当不存在双压缩特征的视频标定为未经篡改的视频，即非AI换脸视频；当存在双压缩特征的视频标定为经过篡改的视频。

4.根据权利要求1所述的基于联合特征被动检测AI换脸视频的方法，其特征在于，所述步骤M5包括：

5.根据权利要求1所述的基于联合特征被动检测AI换脸视频的方法，其特征在于，所述步骤M7包括：

6.一种基于联合特征被动检测AI换脸视频的系统，其特征在于，包括:

模块M3：对经过篡改的视频解帧得到连续多帧视频帧图像；

7.根据权利要求6所述的基于联合特征被动检测AI换脸视频的系统，其特征在于，所述模块M1包括：

8.根据权利要求6所述的基于联合特征被动检测AI换脸视频的系统，其特征在于，所述模块M2包括：根据支持向量机，对量化的交流系数的分布规律进行分类；当不存在双压缩特征的视频标定为未经篡改的视频，即非AI换脸视频；当存在双压缩特征的视频标定为经过篡改的视频。

9.根据权利要求6所述的基于联合特征被动检测AI换脸视频的系统，其特征在于，所述模块M5包括：

10.根据权利要求6所述的基于联合特征被动检测AI换脸视频的系统，其特征在于，所述模块M7包括：