CN113255571B

CN113255571B - 抗jpeg压缩的伪造图像检测方法

Info

Publication number: CN113255571B
Application number: CN202110665199.XA
Authority: CN
Inventors: 董晶; 王伟; 彭勃; 王建文; 项伟; 樊红兴
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-11-30
Anticipated expiration: 2041-06-16
Also published as: CN113255571A

Abstract

本发明提供抗JPEG压缩的伪造图像检测方法，包括：截取原始图像中脸部区域，删除无用的背景信息，然后将所得到的人脸图像调整到固定的大小，得到人脸图像文本；将所述脸图像文本由RGB颜色空间分量转换到YCbCr颜色空间分量，得到YCbCr图像文本；将所述YCbCr图像文本分割成一系列8×8像素的块；将所述YCbCr图像文本中的每一个8×8像素的块的每个颜色空间通道的分量数据进行离散余弦变换，将YCbCr颜色空间分量转化为192个频率通道，将所述YCbCr图像文本经过DCT变换后转化为192个频率通道的数据；在192个频率通道的数据中挑选中低频的通道数据；将所述中低频的通道数据输入CNN网络进行图像检测。

Description

抗JPEG压缩的伪造图像检测方法

技术领域

本发明涉及图像检测领域，具体涉及抗JPEG压缩的伪造图像检测方法。

背景技术

随着伪造技术的不断发展，伪造检测的技术也得到了飞快的提升。从检测的角度划分，可以分为基于生理特征的检测，基于运动模式的检测，基于像素伪影的检测，基于频域的检测和基于GAN指纹的检测五大类。

1. 基于生理特征的检测

基于生理特征的检测主要是指从人的生理信息角度入手，因为伪造的视频虽然生成质量很高，但是缺失了人的生理信息。在早期的伪造视频中，缺少人眼闭眼的数据，Li Y等人根据这个线索，提出了根据人眼的眨眼频率来分辨视频的真伪，但是这种线索随着生成技术的提升而开始失效。Yang X等人发现在伪造视频合成时，将面部区域拼接到原始图像会从2D头像估计对应的3D姿态时引入误差，作者通过这个特征使用了SVM分类器进行分类。Ciftci U A等人发现可以通过检测因心跳在人脸部产生的颜色差异来区分真伪视频，依据的主要线索是心脏在跳动时，人脸的颜色会因为血液的流动而造成微弱的变化，但是伪造的视频没有这种状态。通过这个线索，获得了较好的检测性能。以上通过生理特征检测的手段只是在对已知的伪造方式检测有效，随着生成技术的不断发展，这种线索会很快的失效，并且适用情况比较受限，需要视频内人物不能有大范围的移动或者不能有明显的光线变化。

2. 基于运动模式的检测

基于运动模式的检测主要指的是根据面部上或者头部的运动模式来进行检测。Agarwal S等人发现一个人在讲话的时候面部或者头部会有相应的运动模式，但是伪造视频中的人物缺少这种运动模式。作者将头部，面部的运动编码成为特定的运动单元（AU），根据这些运动单元构成特征向量，之后用SVM进行区分。Amerini I等人提出了使用光流（Optical Flow）的方式来表征人面部和头部的细微运动，通过这种运动模式的不一致性，从而分辨出真伪，缺点是建模不够精细，有噪声，检测结果不是很理想。Wang G等人对视频中多个特定空间位置的时间运动进行建模，以提取出鲁棒的表示形式，称为Co-Motion模式，从而对真伪视频进行有效的划分。基于运动模式检测的方法是很具有探索价值的，如何有效的建模运动模式是本类方法的难点。

3. 基于像素伪影的检测

基于像素伪影的检测一般指的是人的面部和周围的环境具有不一致的分辨率或者扭曲，这种扭曲被称为像素伪影（Pixel Artifacts）。Li Y等人发现Deepfake算法在合成人脸图像时，会进行仿射变换操作，这种操作可能会引入伪影，这些伪影可以通过深度学习的方法来检测到。作者通过模拟仿射变换步骤来加大训练样本，从而达到了很好的效果。Matern F等人发现现有的伪造视频具有人为视觉特征，可以通过检测牙齿，眼睛等部分的伪影，从而可以简单的实现真伪分类。LiL等人发现现有的检测方法都主要检测的是人脸生成的痕迹。比如简单的拼接复制等，该工作提出图片在生成时会有统一的标记，这些标记是较为平均的，伪造图片因为融合了不同的图片，所以会引入噪声。作者提出了一种可泛化的检测伪造图片方式Face x-ray，从而达到了较好的检测性能。这些方法有一定的局限性，只有在两张图片在进行融合操作生成伪造图时才有效果。轩心升等人通过使用平滑滤波或者噪声的预处理步骤来破坏低层级不稳定的伪影，迫使网络学到稳定的伪影信息，实验取得了良好的效果。卞明运等人发现在使用卷积神经网络提取图片的特征信息时，池化和下采样的操作在提高网络感受野的时候会使特征图的分辨率得到下降，导致局部的特征信息丢失，针对这个情况，该工作提出尺度信息融合的人脸深度伪造检测方法。

4. 基于频域的检测

基于频域的检测主要是通过检测图片在频域上面的不一致信息来进行分辨。虽然现有的RGB颜色空间分量上的检测性能很好，但是视频在网上传播时，会被多次压缩，在低视频质量的数据进行检测比较困难。QianY等人引入了频域特征Frequency-AwareDecomposition（FAD）和Local Frequency Statistics（LFS）方法，之后使用了一个MixBlock的融合网络进行两个网络的融合，实现了基于频域的检测。尽管频域检测也能达到很好的效果，但是还缺少了相关的频率分析，针对这个问题，Frank J等人发现在频域上GAN会显示明显的伪影，作者通过分析不同的数据集，证明了这些伪影是由当前GAN架构中的上采样操作所引起的，表明通过GAN生成的图像在方式上存在结构性的根本问题。Liu H等人发现上采样将导致频域（尤其是相位频谱）发生明显变化。自然图像中相位频谱会保留大量的频率分量，这些频率分量可提供额外的信息并弥补振幅谱的损失。为此，作者提出了一种新颖的空间阶段浅学习（SPSL）的方法，该方法结合了空间图像和相位谱以捕获面部伪造的上采样伪像，以此进行面部伪造检测。

5. 基于GAN指纹的检测

基于GAN指纹的检测主要指的是GAN网络在生成图片时，会留下一些特有的线索，通过这种特有线索，从而能够轻松的分辨出真伪。McCloskey S等人通过分析GAN网络发现，GAN生成的图片在颜色处理上和真实摄像机拍摄的照片不同，然后设计了一个类似于VGG的网络进行分类，取得了较好的效果。Yu N等人发现GAN留下特殊的指纹（Fingerprint），通过这种线索可以很好的识别相同GAN生成的图像。Nataraj L等人提出了基于隐写分析和自然图像统计的检测系统，该方法基于像素共现矩阵和CNN的组合，并最终取得了良好的泛化效果。Neves J C等人提出了一种基于Xception的检测方法，可以有效的分辨出真伪，同时，还提出了一种基于Autoencoder的方法，该方法可以将GAN指纹消除，从而有效的减少GAN指纹。基于GAN指纹的检测具有很好的效果，但是在面对未知的GAN方法时，会失去效果，此外，在面对各种后处理的情况时，因为后处理操作会引入干扰的信息，使得基于GAN指纹的检测会降低许多精度。

公开号为CN108629319B的专利公开实施例提供了一种图像检测方法、图像检测系统、计算机设备及计算机可读存储介质，应用于移动应用技术领域，其中，图像检测方法包括：接收图像采集装置采集的人像图像；将人像图像输入神经网络模型中，神经网络模型包括目标分割模型和/或目标检测模型；当神经网络模型包括目标分割模型时，利用目标分割模型获取人像图像中的特定区域的属性信息；和/或当神经网络模型包括目标检测模型时，利用目标检测模型检测人像图像中是否存在目标对象；及判断人像图像是否满足预设标准。

公开号为CN109344709A的专利公开了一种人脸生成伪造图像的检测方法，步骤包括：根据训练图像集中所有训练图像的每个像素点的多个颜色通道，在每个像素点的位置进行采样，得到训练图像集的采样点集和其中每张训练图像的采样点集；对训练图像集的采样点集进行分布建模，并计算得到其参数；基于该参数，对每张训练图像的采样点集进行编码，构建其检测特征，将每幅训练图像的检测特征与其对应的训练图像标签进行模型训练，得到检测分类器；根据待检测图像的每个像素点的多个颜色通道，在每个像素点的位置进行采样，得到采样点集；基于上述参数，对待检测图像的采样点集进行编码，构建其检测特征，将待检测图像的检测特征输入到检测分类器，进行人脸生成伪造图像的检测。

随着深度伪造技术的不断进步，生成的图片质量越来越高，对深度伪造的检测带来了很大的挑战。传统的取证技术受限于人为设计特征的不完整性，面对这些复杂多变的深度伪造图片，很难做到较好的区分。

研究者已经提出了很多深度伪造检测方法，其中大部分是基于深度学习的方法。这些方法在测试样本与训练样本具有相近数据分布的情况下，能够有效地检测出深度伪造，但当待检测样本经过了某些后处理操作时，其检测性能会受到很大的影响。在各种不同的后处理方法中，图像压缩是最为常见的方法，它会严重影响检测的准确性。图像压缩的目的是减少存储空间，同时也能保持良好的图像质量。当前的深度伪造检测模型在面对JPEG压缩时会损失很多的性能，因此在检测过程中有效抵抗JPEG压缩带来的影响是一个非常重要的问题。

发明内容

有鉴于此，本发明提供一种抗JPEG压缩的伪造图像检测方法，所述方法包括：

S1：截取原始图像中脸部区域，删除无用的背景信息，然后将所得到的人脸图像调整到固定的大小，得到人脸图像文本；

S2：将所述人脸图像文本由RGB颜色空间分量转换到YCbCr颜色空间分量，得到YCbCr图像文本；

S3：将所述YCbCr图像文本分割成一系列8×8像素的块；

S4：将所述YCbCr图像文本中的每一个8×8像素的块的每个颜色空间分量通道的分量数据进行离散余弦变换，将YCbCr颜色空间分量转化为192个频率通道，将所述YCbCr图像文本经过DCT变换后转化为192个频率通道的数据；

S5：在192个频率通道的数据中挑选中低频的通道数据；

S6：将所述中低频的通道数据输入CNN网络进行图像检测。

优选的，所述挑选中低频的通道数据的方法为：采用注意力机制计算所述192个频率通道的权重，通过权重挑选所述中低频的通道数据。

优选的，所述采用注意力机制计算所述192个频率通道的权重的具体方法为：应用Squeeze-and-Excitation网络计算所述192个频率通道的权重，再通过权重挑选所述中低频的通道数据。

优选的，所述通过权重挑选所述中低频的通道数据的方法包括：权重大于通道选择阈值则选择所述权重对应通道数据，所述通道选择阈值的设置范围为大于等于0.4，小于等于0.5。

优选的，所述通过权重挑选所述中低频的通道数据的方法还包括：选择了6个固定的中低频通道，其中有4个中低频通道位于Y颜色空间分量，Cb颜色空间分量和Cr颜色空间分量中分别选择了一个最低频通道。

优选的，由Squeeze-and-Excitation网络计算出的权重的L1范数构成所述CNN网络和Squeeze-and-Excitation网络训练的损失函数的分量。

优选的，所述CNN网络的具体结构为：以ResNet-50作为主干网络，应用所述离散余弦变换的数据将ResNet-50的前三层替换；将ResNet-50网络的原残差模块中的两个3*3的卷积层替换为了两个1*1卷积层和一个3*3的卷积层。

优选的，由所述CNN网络得到的二分类损失作为所述CNN网络和Squeeze-and-Excitation网络训练的损失函数的分量。

优选的，所述CNN网络和Squeeze-and-Excitation网络训练的损失函数的具体形式为：

其中，

：损失函数；

：二分类损失；

λ：权重稀疏性参数，超参数；

：权重的L1范数，具体形式为，

；

：Squeeze-and-Excitation网络计算所述192个频率通道的权重；

N：频率通道总数为192。

优选的，所述权重稀疏性参数的取值范围为：0.000005≤λ≤0.0001。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

(1) 通过选择重要的中低频通道进行学习，可以更好地抵抗JPEG压缩；

(2) 利用注意力机制得出了不同类型伪造所留下的篡改痕迹位于不同频率通道的结论，提出的模型通过关注中低频信息可以获得更鲁棒的性能。

附图说明

图1（a）和图1（b）为本发明实施例提供的JPEG压缩处理流程和本发明提出的解决方案流程图；

图2为本发明实施例提供的抗JPEG压缩的伪造图像检测方法的结构图；

图3为本发明实施例提供的数据处理的总体框架图；

图4（a）、图4（b）为本发明实施例提供的频域学习框架图；

图5为本发明实施例提供的残差模块的基本框架图；

图6（a）、图6（b）、图6（c）为本发明实施例提供的权重稀疏性参数取不同值是的热度图；

图7（a）、图7（b）、图7（c）和图7（d）为本发明实施例提供的不同生成方法的热度图；

图8为本发明实施例提供的换脸和表情操控方法篡改痕迹示例图；

图9为本发明实施例提供的人脸属性编辑和全脸合成的篡改痕迹主要集中在中高频的示例图；

图10为DCT操作后的频率分布图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

JPEG是数字图像压缩中常用到的有损压缩方法，图像压缩的程度可以自由调整，能在存储空间大小和图像视觉质量之间进行权衡。JPEG可以在几乎不损失人类视觉效果的情况下，减少90%的磁盘空间占用。自1992年问世以来，JPEG一直是世界上应用最广泛的图像压缩标准。

为了抵抗JPEG压缩对检测模型性能的影响，从JPEG压缩的原理进行分析，JPEG压缩的流程如图1（a）所示，图像的颜色空间分量先由RGB转换为YCbCr，然后将图像分割成8*8像素的块，对于每个块，Y、Cb、Cr三个通道的数据都需要使用离散余弦变换方法（DCT）处理，对频率分量的振幅进行量化。最后，所有8*8像素块的数据都使用无损算法进一步压缩，这是Huffman编码的一种变体。在量化的过程中，JPEG压缩保留更多的中低频信号，丢弃更多的高频信息。由于JPEG压缩是在DCT频域进行的，压缩时不同频带的权重不同，因此从这些原理中得到启发，本申请直接从DCT域学习伪影特征，如图 1(b)所示，在JPEG压缩的量化操作之前，将得到的所有8*8像素块中同一频率的所有分量组合成同一通道，在这些通道中挑选较为低频的通道，将这一些通道直接送入CNN网络中进行学习。这样做的原因是JPEG压缩会保留低频信号，丢弃更多的高频信号，如果直接学习低频的信号，将会有效的抵抗JPEG压缩。

如图1（b）所示，本申请实施例提供的抗JPEG压缩的伪造图像检测方法，包括：

S1：如图3所示，截取原始图像中脸部区域，删除无用的背景信息，然后将所得到的人脸图像调整到固定的大小，得到人脸图像文本；

S2：因为在JPEG压缩的过程中，图片首先进行了颜色空间分量的转换，所以要将所述脸图像文本由RGB颜色空间分量转换到YCbCr颜色空间分量，得到YCbCr图像文本；如果不进行转换而直接经过后续的处理，会使得最终得到的数据和JPEG压缩后得到的数据分布不相似，而不能针对性的抵抗JPEG压缩，YCbCr颜色空间分量共有三个分量Y、Cb和Cr，其中Y分量代表的是像素亮度，Cb分量代表蓝色分量色度，Cr分量代表红色分量色度；

S3：将所述YCbCr图像文本分割成一系列8×8像素的块；

S4：将所述YCbCr图像文本中的每一个8×8像素的块的每个颜色空间通道的分量数据进行离散余弦变换，离散余弦变换与傅里叶变换是相似的，它产生了一种空间频谱，将YCbCr颜色空间分量转化为192个频率通道，将所述YCbCr图像文本经过DCT变换后转化为192个频率通道的数据；

例如：首先输入一张RGB图像，然后在脸部裁剪之后，将脸部区域的大小调整为448×448，当前图像维度为448×448×3；然后将图像转换为YCbCr颜色空间分量，并分割为8×8像素的块，对于每个块，Y、Cb、Cr数据进行DCT；接；然后，将二维的DCT系数中频率相同的数据分到一个通道中，组合成三维的DCT数据立方体；对于Y通道，当前维度448×448×1变为56×56×64。所以最终整个图像的维度变成了56×56×192；

S5：在192个频率通道的数据中挑选中低频的通道数据：采用注意力机制计算所述192个频率通道的权重，通过权重挑选所述中低频的通道数据；如图10所示，DCT操作后的频率分布图，左上角代表频率最低，右下角代表频率最高，在本文中低频的通道数据原则为，序号值小于32的视为中低频通道数据，图10所示可知，左上角序号只为0，右下角序号值为63。

所述采用注意力机制计算所述192个频率通道的权重的具体方法为：应用Squeeze-and-Excitation网络计算所述192个频率通道的权重，权重大于通道选择阈值则选择所述权重对应通道数据，所述道选择阈值的设置为0.4；

如图2所示，Squeeze-and-Excitation网络具体结构为：使用全局平均池化作为Squeeze操作，之后通过两个全连接层对通道之间的相关性建模，接着输出与输入通道数相同的权重值，即192个；

Squeeze-and-Excitation网络能够对各通道中的特征响应值进行自适应的调整，并建模通道之间的内部依赖关系；Squeeze-and-Excitation网络是通道注意力网络的一种，可以使得网络学习到相对重要的通道，比如说刚开始所有通道都有相同的权重，通过Squeeze-and-Excitation网络的分配，使得重要的通道被分配到更大的权重。Squeeze操作利用空间维度进行了特征的压缩，用实数来分别表示二维特征通道，因此这个实数含有全局感受野，最终输出的维度等于输入的通道数。这些实数表示了较为重要的特征通道分布，使输入附近的网络层也能够获得图片全局的信息。Excitation的操作和循环神经网络里的门（Gate）机制类似，通过w参数为特征通道生成对应的权重，w被用来建模通道之间的相关性。同时，SE模块在增加较少计算代价的情况下，能使得网络更快的收敛速度以及达到更好的效果；

由Squeeze-and-Excitation网络计算出的权重的L1范数构成所述CNN网络和Squeeze-and-Excitation网络训练的损失函数的分量；

S6：将所述中低频的通道数据输入CNN网络进行图像检测；

如图4（a）和图4（b）所示，所述CNN网络的具体结构为：以ResNet-50作为主干网络，应用所述离散余弦变换数据将ResNet-50的前三层即，RGB输入层、卷积层和最大池化层替换，其余部分的结构保持不变；

这样做的目的是使网络的输入维数与频域数据的维数相匹配，这样就可以直接使用现有的网络，而无需重新设计，同时也可以直接加载在ImageNet上的预训练模型；ResNet网络是当前深度学习领域中最为经典的一个网络，它的提出使更深层次的神经网络训练成为了一种可能；由于网络的每一层都会提取出不同的特征信息，而当网络层数变得更深的时候，网络的提取特征能力也会变得更强，提取出的不同层次信息组合也变得更多；但是之前的网络受限于梯度爆炸和梯度消失的因素，很难对深层次的网络进行训练，后来虽然通过数据初始化和正则化解决了梯度的问题，但是却引来了网络性能退化的问题，网络深度的不断加深反而使得错误率升高；从理论上来说，网络越深性能越好，但是随着网络的加深，训练难度越来越大，以至于最后引起性能退化问题；ResNet引入了残差的思想，残差元主要包括两部分，一部分是快捷连接，快捷连接是残差的基础；另一部分是恒等映射，恒等映射可以加深网络的深度，恒等映射主要由跳跃连接和激活函数构成；

如图5所示，为了减少运算的成本，将ResNet-50网络的原残差模块中的两个3*3的卷积层替换为了两个1*1卷积层和一个3*3的卷积层，替换后的模块运算成本更小；首先经过了1*1的卷积来减少通道数，中间的3*3卷积层做完卷积后输出通道等于输入通道，第三个卷积层做了通道的还原，这样的操作既能保持模型的精度又能减少较大的计算量；

从图4（a）、图4（b）可以看出，在数据处理部分，RGB图像从空间域转换到频率域，维度从448×448×3变为 56×56×192，这和当前修改后的网络输入56×56×N (N代表输入通道的数量)是一致的。只需要对网络的输入部分稍加修改即可在其他的网络架构上使用。

由所述CNN网络得到的二分类损失作为所述CNN网络和Squeeze-and-Excitation网络训练的损失函数的分量；

所述CNN网络和Squeeze-and-Excitation网络训练的损失函数的具体形式为：

其中，

：损失函数；

：二分类损失；

λ：权重稀疏性参数，超参数，取值为：λ=0.00002；

：权重的L1范数，具体形式为，

；

：Squeeze-and-Excitation网络计算所述192个频率通道的权重；

N：频率通道总数为192。

实施例

1 实验设置

Diverse Fake Face Dataset (DFFD)和FaceForensics ++ (FF++)作为本次实验的数据集。Diverse Fake Face Dataset数据集由多个公共可用的子数据集组成，这些子数据集由开源的代码生成。通过多种途径获得了不同分辨率和图像质量的真实图片及伪造图片。Faceforensics ++是一个由1000个原始视频序列组成的取证数据集，其中包含了五种人脸伪造方法，分别为：Deepfakes， Face2Face，FaceSwap，NeuralTextures和FaceShifter。这一些数据是从Youtube视频中选取，所有的视频都有着连续的，且没有被遮挡住的人脸，可以使生成模型能够成功生成伪造人脸。同时数据集内提供了人脸二进制掩码信息，因此数据集可以被用来做分类或者分割任务。

选用这两个数据集作为实验的数据，并按照伪造种类进行了重新的分类。其中：人脸属性编辑方法包括FaceAPP和StarGAN，全脸合成方法包括StyleGAN和PGGAN，换脸方法包括Deepfakes和FaceSwap，表情操控方法包括Face2Face和NeuralTextures。训练集、验证集和测试集的划分与DFFD和FF++官方划分一致，分别对每一种的生成方法进行实验。

ResNet-50作为实验的基准方法，对经过ImageNet预训练的模型进行微调，并将学习率设置为0.0002。使用Adam作为优化器，将训练的Epoch数设置为20。在每个Epoch中，本申请在验证集上以相同的间隔进行3次验证。当连续3次验证集的损失不再减少时，停止训练并保存当前模型。将该方法与当前性能较好的MesoNet和DSP-FWA进行了比较。MesoNet是由DAfchar等人提出，该作者认为压缩会把图像的低语义层级破坏掉，而现在很多深度学习的方法都过度的关注了低语义层级，在面对压缩的情况下表现不好，基于此，该团队提出了一个只有较少网络层的深度神经网络MesoNet。DSP-FWA在图像和特征级别上都采用了双重空间金字塔策略，以解决多尺度问题，从而达到了较好的检测水平。本申请使用相同的实验设置对MesoNet和DSP-FWA进行重新训练，作为对比实验。

实验的配置为Intel(R)Xeon(R)CPUE5-2650v4@2.20GHz，内存256GB，GPU为GeForce RTX 2080 Ti *10。软件配置为Red Hat 4.8.5-39、CUDA 10.0、Python 3.7.3。深度学习算法框架使用Pytorch 1.3.1。本实验基于Pytorch深度学习框架搭建。

2 实验结果分析

分别在这4种伪造类型（8种生成方法）进行了实验，首先使用DCT-Attention-Net网络为本发明提出的方法，对这8种生成方法进行了训练（Train）和验证（Validate），以此来选择合适的通道。之后使用DCT –Net为本发明提出的基于ResNet-50的改进网络，对挑选出的通道进行重新训练和验证，在测试集进行测试（Test）；

2.1 重要通道的可视化

表1超参数的选择

首先分析超参数对DCT通道权值稀疏性的影响。作者使用DCT-Attention模型进行了实验，对于超参数分别选择0、0.000005、0.00001、0.00002、0.00005和0.0001作为其值。以Face2Face为例，在由Face2Face生成的伪造图像和对应的真实图像组成的数据集上进行了实验。通过在验证集上进行实验，本申请为每个伪造方法选择合适的参数，从以下的候选值中选择最佳性能的超参数: 0、0.000005、0.00001、0.00002、0.00005和0.0001。具体实验结果见表1。从表中可以大致看出，随着超参数的不断增加，精度会先增加后降低，当超参数为0.00002时会得到最好的结果。同时可以发现，加入注意机制后，模型的准确率会得到提高，再加入L1正则化后，模型的准确率会进一步提高。本申请分析这一现象的原因是，随着超参数的逐渐增加，通道权值会变得稀疏，使得网络关注的通道更少。当关注过多的通道时，网络无法捕捉到关键信息，因此准确率较低。当关注的通道太少时，会丢失大量的信息，使网络准确性降低。然后，本申请在验证集上对网络进行评估，计算并输出每个通道的权值，然后将每个通道的权值归一化到[0-1]。接着使用热度图来可视化每个通道的权重，如图6（a）、图6（b）、图6（c）所示。在热度图中，左上角的信息为中低频分量，右下角的信息为高频分量。从图中可以看出，随着超参数的增加，权重较高的通道数量变少，这是因为L1范数会使权值稀疏，会去除一些相对不重要的信息，这与之前的分析是一致的。其他伪造种类的选择方法相同，全部伪造方法的热度图如图7（a）-图7（d）所示。从热度图可以看出，换脸（Deepfakes、FaceSwap）和表情操控（Face2Face、NeuralTextures）的伪造痕迹的视觉效果较为明显，这样的痕迹主要存在于中、低频率，而人脸属性编辑（FaceAPP、StarGAN）和全脸合成（StyleGAN、PGGAN）的痕迹主要在中、高频。

2.2 实验结果

为了验证JPEG压缩对模型检测能力的影响，对测试集的图像进行JPEG压缩处理，图像的压缩质量分别设置为85、75和65。所有模型都在数据集的训练集和验证集上分别进行训练和验证，训练集和验证集没有用到任何JPEG压缩。实验结果见表2-表5。“Raw”表示没有任何后处理的干净测试集，“J-*”表示图像质量为*的JPEG压缩测试集。基准网络基于ResNet-50，其中“RGB-ResN”和“YCbCr-ResN”分别使用RGB和YCbCr通道作为网络输入，这两个网络都是使用的ResNet-50。“DCT-Sel”使用“DCT-Attention-Net”在验证集上选择的重要通道，然后仅使用这些重要通道对训练集进行微调。本实施例还手工选择了6个固定的中低频通道，其中有4个中低频通道位于Y分量，Cb和Cr分量中分别选择了一个最低频通道，此种方法称为“DCT-6”。从实验结果表中可以看出，基准方法在原始的数据集表现较好，但它面对JPEG压缩时会损失较多的精度。在干净的（未经后处理）测试集上，本实施例的方法的性能略微弱于基准方法，但在面对JPEG压缩时，它比基准方法更为鲁棒。同时发现“DCT-6”方法在这四类深度伪造类型上表现都比较好，而“DCT-Sel”方法仅在换脸和表情操控的数据上表现较好。这可能是因为“DCT-Sel”模型关注的是这两类伪造方式中的中频和高频信息，但JPEG压缩后这些中高频信息被去除了。换脸和表情操控的伪造痕迹的视觉效果较为明显，这样的痕迹主要存在于中、低频率，而人脸属性编辑和全脸合成的痕迹主要在中、高频。

从实验结果可以看到，“DCT-Sel”在原始数据上表现最好，但随着JPEG压缩程度的增加，“DCT-6”仅使用6个通道在精度上超过了所有其他方法。原因是JPEG压缩越重，DCT系数通道受到的影响就越大，因此使用较少的中低频通道学习出来的模型可以表现得更好。本申请认为“DCT-192”在原始测试集中不理想的原因是过多的通道信息使模型受到一些无用信息的干扰。在较轻的JPEG压缩上，“DCT-Sel”方法在换脸和表情操控类型取得了最好的性能。可见，注意力机制有利于优化选择合适的DCT系数通道(低频和中频)，提高算法的检测精度。但它在人脸属性编辑和全脸合成方面不能有效地抵抗JPEG压缩，因为“DCT-Sel”是一种数据驱动的方法，对不同的数据，通道的选择是不同的，如果网络选择更多的中、高频通道，“DCT-Sel”不能有效抵抗JPEG压缩，因为网络关注到的重要信息在JPEG压缩时被丢弃了。作者提出的“DCT-6”方法是一种更通用的方法，因为它是在中低频通道上训练的，并且中低频通道受JPEG压缩的影响较小。尽管对原始数据的性能会有轻微的下降，但它可以有效地抵制JPEG压缩。本申请同时对这几种数据进行了人工的观察，如图8和图9，可以看到换脸和表情操控方法能明显的看出来伪影的存在，而人脸属性编辑和全脸生成则很难看出有伪造的痕迹。这也和本申请得到的实验结果一致，由于人脸属性编辑和全脸生成的方法篡改痕迹位较为明显，这些信息存在于中低频通道，注意力网络更关注这两种伪造方法的中低频通道。而对于人脸属性编辑和全脸合成这两种伪造类型，由于篡改痕迹位于中高频的区域，人眼几乎看不出伪造痕迹，注意力网络更多的关注在了中高频信息。在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。

表2全脸合成方法实验结果

表3面部属性编辑实验结果

表4换脸方法实验结果

表5表情操控方法实验结果

本发明提出的方法，通过选择重要的中低频通道进行学习，可以更好地抵抗JPEG压缩。本发明在DFFD和FaceForensics ++中对四种伪造类型进行了实验，利用注意力机制得出了不同类型伪造所留下的篡改痕迹位于不同频率通道的结论。提出的模型通过关注中低频信息可以获得更鲁棒的性能。通过这项工作，本发明证明了基于DCT的频域学习可以很好地应用于深度伪造检测。

在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.抗JPEG压缩的伪造图像检测方法，其特征在于，所述方法包括：

S3：将所述YCbCr图像文本分割成一系列8×8像素的块；

S4：将所述YCbCr图像文本中的每一个8×8像素的块的每个颜色空间通道的分量数据进行离散余弦变换，将YCbCr颜色空间分量转化为192个频率通道，将所述YCbCr图像文本经过离散余弦变换后转化为192个频率通道的数据；

S5：在192个频率通道的数据中挑选中低频的通道数据；

S6：将所述中低频的通道数据输入CNN网络进行图像检测；

所述挑选中低频的通道数据的方法为：采用注意力机制计算所述192个频率通道的权重，通过权重挑选所述中低频的通道数据；

所述采用注意力机制计算所述192个频率通道的权重的具体方法为：应用Squeeze-and-Excitation网络计算所述192个频率通道的权重，再通过权重挑选所述中低频的通道数据。

2.根据权利要求1所述的抗JPEG压缩的伪造图像检测方法，其特征在于，所述通过权重挑选所述中低频的通道数据的方法包括：权重大于通道选择阈值则选择所述权重对应的通道数据，所述通道选择阈值的设置范围为大于等于0.4，小于等于0.5。

3.根据权利要求1所述的抗JPEG压缩的伪造图像检测方法，其特征在于，所述通过权重挑选所述中低频的通道数据的方法包括：选择了6个固定的中低频通道，其中有4个中低频通道位于Y颜色空间分量，Cb颜色空间分量和Cr颜色空间分量中分别选择了一个最低频通道。

4.根据权利要求1所述的抗JPEG压缩的伪造图像检测方法，其特征在于，由Squeeze-and-Excitation网络计算出的权重的L1范数构成所述CNN网络和Squeeze-and-Excitation网络训练的损失函数的分量。

5.根据权利要求4所述的抗JPEG压缩的伪造图像检测方法，其特征在于，所述CNN网络的具体结构为：以ResNet-50作为主干网络，应用所述离散余弦变换将ResNet-50的前三层替换；将ResNet-50网络的原残差模块中的两个3*3的卷积层替换为了两个1*1卷积层和一个3*3的卷积层。

6.根据权利要求5所述的抗JPEG压缩的伪造图像检测方法，其特征在于，由所述CNN网络得到的二分类损失作为所述CNN网络和Squeeze-and-Excitation网络训练的损失函数的分量。

7.根据权利要求6所述的抗JPEG压缩的伪造图像检测方法，其特征在于，所述CNN网络和Squeeze-and-Excitation网络训练的损失函数的具体形式为：

其中，

：损失函数；

：二分类损失；

λ：权重稀疏性参数，超参数；

：权重的L1范数，具体形式为，

；

：Squeeze-and-Excitation网络计算出的所述192个频率通道的权重；

N：频率通道总数为192。

8.根据权利要求7所述的抗JPEG压缩的伪造图像检测方法，其特征在于，所述权重稀疏性参数的取值范围为：0.000005≤λ≤0.0001。