CN112818862A

CN112818862A - 基于多源线索与混合注意力的人脸篡改检测方法与系统

Info

Publication number: CN112818862A
Application number: CN202110141812.8A
Authority: CN
Inventors: 刘天亮; 魏子钧; 戴修斌
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-05-18
Anticipated expiration: 2041-02-02
Also published as: CN112818862B

Abstract

本发明公开了一种基于多源线索与混合注意力的人脸篡改检测方法与系统，该方法首先通过卷积神经网络、噪声滤波器以及高通滤波器提取多源线索特征，然后利用特征提取骨干网络进一步来提取图像特征；同时为了增加精度，在骨干网络中引入通道与空间的混合注意力机制。将骨干网络中高层级的特征图进行融合生成多尺度特征图，并在多尺度特征融合网络中利用深度超参数卷积神经网络弥补由于融合特征时压缩通道数导致的特征缺失以提升精度；最终将多尺度信息送入预测网络中，输出预测信息。本发明利用目标检测手段完成人脸篡改检测的任务，改善了高质量的篡改图像检测的精度问题。

Description

基于多源线索与混合注意力的人脸篡改检测方法与系统

技术领域

本发明涉及一种基于多源线索与混合注意力的人脸篡改检测方法与系统，属于计算机视觉的目标检测技术领域。

背景技术

图像篡改检测是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题。随着图像篡改手段的快速发展，许多方法对图像的修改已经达到了以假乱真的程度，为了避免被修改人脸的图像中虚假信息产生误导，鉴别通过数字化手段是否篡改了图像中的人脸日渐成为研究的焦点。但是鉴别图像中脸部信息是否被篡改的方法中，目前网络通常对脸部与周围背景信息的差异关注较少，而鉴别真伪主要特征往往集中于脸部与周围背景的差异，使鉴别任务所使用的计算量较大，模型对训练数据的利用率较低。如何设计模型使网络更容易学到利于鉴别真伪的特征，提高模型对数据的利用率，是一个很有挑战性的工作。

传统的图像篡改检测技术主要是通过对不同图像源中存在的差异进行分析建模，以获得更好的识别精度。但由于不同操作会在不同的统计模型下表现出不同程度的特征，对于一些细节信息的处理通常是基于某些特定统计模型进行分析。在实际应用的过程中，由于图像存在压缩，缩放等多种可能性操作，统计模型考虑的局限性会使实际的鉴别效果在许多复杂处理图像上表现较差。有效的融合多种模型下分析出的特征，可以提高鉴别任务的准确率，而多种特征如何有机的融合是工作的重点。

图像篡改检测技术发展过程中，利用神经网络的方法由于可以提取到光照，颜色误差等细微的特征，目前已经成为主流的方法。文献[M.Barni,L.Bondi,N.Bonettini,P.Bestagini,A.Costanzo,M.Maggini,B.Tondi,and S.Tubaro,“Aligned and non-aligned double JPEG detection using convolutional neural networks,”Journal ofVisual Communication and Image Representation,vol.49,pp.153–163,2017]充分利用了卷积神经网络的学习能力并结合了传统鉴伪的经验，提出了利用噪声残差特性与神经网络提取特征相融合的网络系统，可以鉴别出一些传统技术无法鉴别出的压缩图像。但是随着生成对抗网络GAN网络的快速发展，许多伪装图像由于使用新型的深度网络可以得到较高质量，慢慢的利用深度神经网络方式伪造的图像占据了很大的比重，所以需要同时对GAN网络生成的图像进行鉴伪。对于GAN图像研究中，在[F.Marra,D.Gragnaniello,D.Cozzolino,and L.Verdoliva,“Detection of GAN-generated fake images oversocial networks,”in 1st IEEE International Workshop on Fake MultiMedia,April2018]中第一次进行了对比分析，在论文中测试了几种CNN架构，对比其区分GAN图像和真实图像。研究发现单纯的一些CNN解决方案看起来非常有效，但是当训练和测试不匹配，或者使用典型的社交网络管道压缩数据时，性能会显著下降。针对数据问题，文献[A.Rossler,D.Cozzolino,L.Verdoliva,C.Riess,J.Thies,and M.Nieβner,“FaceForensics++:Learning to detect manipulated facial images,”in International Conference onComputer Vision(ICCV),2019.]提出了一个包含四大类修改方式的大数据量篡改视频数据集，并在该数据集上测试了目前主流网络，进一步验证CNN对GAN篡改图像具有较高的鉴别能力。

对于鉴别局部篡改图像，利用位置信息辅助真伪检测，存在着两种主要方式，一种是根据图像分割标注信息，利用语义分割任务网络实现功能，如文献[H.Nguyen,F.Fang,J.Yamagishi,and I.Echizen,“Multi-task learning for detecting and segmentingmanipulated facial images and videos,”in IEEE International Conference onBiometrics:Theory,Applications and Systems,2019.]提出了一种多任务网络模型，其利用卷积神经网络完成公共特征的提取，并通过反卷积网络完成mask图像的生成，同时该任务可以让模型更加关注于虚假篡改部位的特征，有利于鉴别任务的完成。另一种方式是，根据虚假部位的标注坐标信息，利用目标检测网络实现检测定位与分类任务，如文献[P.Zhou,X.Han,V.Morariu,and L.Davis,“Learning Rich Featuresfor ImageManipulation Detection,”in Proc.IEEE/CVF Conference on Computer Vision andPattern Recognition,2018]中利用Faster-RCNN对目标进行检测。但由于数据篡改手段越来越先进，基于检测的方法普遍对于新的场景表现的检测准确率往往不足，如何在新型方法中提高精度是工作的重点。

发明内容

发明目的：针对现有技术存在的问题，本发明目的在于提出一种基于多源线索与混合注意力的人脸篡改检测方法与系统，利用经过噪声滤波器，高通滤波器处理过的图像与原图像特征进行融合，同时考虑到宽度较宽的网络在鉴别任务中的出色表现，选取轻量级的MobileNeXt或MobileNetV2作为骨干网络。另外，引入通道与空间两个维度的混合注意力机制以及基于深度超参数化卷积神经网络的多尺度特征融合网络，优化特征提取以及特征利用，使检测算法能够在篡改图像检测中具有更好的效果。

技术方案：为了实现上述发明目的，本发明采用如下技术方案：

一种基于多源线索与混合注意力的人脸篡改检测方法，包括以下步骤：

(1)对真实人脸图像进行篡改并对篡改位置进行标注得到样本数据集；

(2)建立预处理特征融合网络，用于将图像通过卷积神经网络、噪声滤波器以及高通滤波器分别提取特征并基于通道维度进行串联，得到图像的多源融合特征；

(3)在步骤(2)建立的网络基础之上，将输出的多源融合特征送入特征提取骨干网络MobileNeXt或MobileNetV2来完成图像特征提取，并在MobileNeXt网络的沙漏模块或MobileNetV2网络的瓶颈模块中引入混合注意力机制，最后将骨干网络输出送入空间金字塔池化层进行池化；

(4)在步骤(3)建立的网络后加入一个多尺度特征融合网络，将提取的不同尺度特征送入多尺度特征融合网络进行融合，得到三组不同的融合特征；并利用深度超参数卷积神经网络弥补由于融合特征时压缩通道数导致的特征缺失；

(5)在步骤(4)建立的网络后加入预测网络，将多尺度特征融合网络得到的三组融合特征分别输送到对应的预测模块中，根据不同尺度的三组锚点分别对产生的特征图进行计算，实现目标检测；

(6)将标注好的样本数据集输入步骤(5)搭建好的网络模型中进行训练，利用反向求导更新网络模型参数，最小化损失函数值；其中损失函数为基于标定框坐标回归的完全交并比CIOU损失函数、基于交并比IOU的标定区域的置信度损失函数和真假二分类的交叉熵损失函数之和；

(7)利用训练好的网络模型对人脸图像进行检测，获取图像中的真伪信息。

作为优选，步骤(1)中对真实图像进行篡改的方法，包括：

(1.1)根据如下公式对真实图像和篡改图像进行融合：

其中，I_mix代表融合后的图像，I_real表示RGB真实图像，I_fake表示其对应的RGB篡改图像，factor代表融合因子，表示新融合的图像中有多少成分来自于被篡改的图像，

表示按照像素点进行相加，将融合后的图像放入篡改图像数据当中；

(1.2)将真实图像与其相对应的篡改图像做基于像素点的差值，可表示为：

I_mask＝I_realΘI_fake

其中，Θ表示按像素做减法并取其绝对值，I_mask表示对应的虚假位置mask标注图，将I_mask图中每一个通道像素进行二值处理：

p_i表示I_mask图的像素值，threshold代表阈值，将修改后的I_mask图作为标注进行存储；

(1.3)对篡改图像与其对应的mask标注数据进行对齐，缩放，并裁剪至同样大小，同时对真实图像也进行缩放，并裁剪至同样大小。

作为优选，步骤(1)中还包括对样本数据集进行数据增强，数据增强方法包括：对虚假人脸图像中的脸部进行定位，并从垂直方向或者水平方向遮挡半张脸；对虚假人脸图像中的五官进行标定，并随机选取虚假部位进行遮挡；在保证一些虚假特征不被遮挡的情况下，随机遮挡图像中一半的区域。

作为优选，步骤(2)中建立的预处理特征融合网络，包括：

SRM(Steganalysis Rich Model，丰富隐写模型)噪声滤波器层，利用三个SRM模板分别对输入图像的RGB三通道进行卷积，得到输出通道数为3的特征图；

高通滤波器层，对输入图像的RGB三通道上沿水平和垂直方向分别进行高通滤波，得到6通道特征图，表示基于水平和垂直方向的高通特征；

卷积层，对输入图像进行卷积，输出通道数为23的特征图；

以及特征融合层，将SRM滤波器层，高通滤波器层以及卷积层基于通道维度串联拼接后的通道数为32的特征图进行卷积，得到多源融合特征。

作为优选，所述步骤(3)中在MobileNeXt网络的沙漏模块或MobileNetV2网络的瓶颈模块中引入混合注意力机制具体为：

在沙漏模块的第三层与第四层之间，或瓶颈模块的第二层和第三层之间，新引入混合注意力机制模块，其主要由通道注意力和空间注意力模块组成，总的过程表示为：

其中，F代表特征图，M_c(F)表示将特征图输入得到的1维通道注意力图，

表示基于元素相乘，F′表示通道注意力模块输出特征图，M_s(F′)表示2维空间注意力机制图，F″表示空间注意力机制模块输出的特征图，对于M_c(F)表示为：

M_c(F)＝σ(W₁(W₀(F_cavg))+W₁(W₀(F_cmax)))

其中，输入特征图F的尺寸为C×H×W，C代表通道数，H代表高度，W代表宽度，F_cavg与F_cmax分别代表基于通道维度对特征图每一层进行平均池化与最大池化得到的新的特征向量，尺寸为C×1×1，W₁(W₀(·))表示多层感知机，其中W₀(·)中的权重尺寸为(C/r)×C，输出特征向量尺寸为C/r×1×1，其中r代表压缩率，W₁(·)中的权重尺寸为C×(C/r)，输出特征向量尺寸为C×1×1，σ(·)表示sigmod函数处理，最终M_c(F)特征图尺寸大小为C×1×1，空间注意力机制图M_s(F′)表示为：

M_s(F′)＝σ(conv_7×7([F′_savg；F′_smax]))

其中，输入特征图F′的尺寸为C×H×W，F′_savg与F′_smax分别代表在空间平面维度，对特征图的进行平均池化和最大池化得到的新的特征向量，尺寸为1×H×W，并将结果基于通道维度进行串联，生成尺寸为2×H×W的特征图，并将其送入7×7的卷积网络conv_7×7(·)当中进行融合生成单通道特征图，最终通过sigmod函数进行处理，得到1×H×W的特征图M_s(F′)。

作为优选，所述步骤(4)中的多尺度特征融合网络，其输入为MobileNeXt网络的第5个沙漏模块输出特征图、第12个沙漏模块输出特征图和空间金字塔池化层输出特征图的集合，或MobileNetV2网络的第6个瓶颈模块输出特征图、第14个瓶颈模块输出特征图和空间金字塔池化层输出特征图的集合，对不同尺度的特征图进行缩放与融合，多尺度特征融合网络中采用深度超参数化卷积对所有2D卷积进行替换，深度超参数化卷积表示为：

其中，O代表卷积后输出特征图，P代表参与卷积的输入，其尺寸大小为C’×H’×W’，C’代表通道数，H’代表高，W’代表宽，M₁表示深度卷积的卷积核，尺寸为C’×D_mul×K_W×K_H，其中D_mul表示深度扩展系数，其值大于或等于K_W×K_H，K_W×K_H表示卷积核大小，运算符

表示基于二维平面的深度卷积，得到中间特征图大小为C’×D_mul×H’×W’，M₂表示大小为C_out×D_mul×C’的卷积核，运算符*代表卷积，将中间特征图基于C’×D_mul维度进行融合，最终得到的特征图O，尺寸为C_out×H’×W’。

基于相同的发明构思，本发明提供的一种基于多源线索与混合注意力的人脸篡改检测系统，包括：

样本数据集处理模块，用于对真实人脸图像进行篡改并对篡改位置进行标注得到样本数据集；

图像预提取特征融合模块，用于将图像通过卷积神经网络、噪声滤波器以及高通滤波器分别提取特征并基于通道维度进行串联，得到图像的多源融合特征；

图像特征提取模块，用于将多源融合特征输入送入特征提取骨干网络来完成图像特征提取，并将骨干网络输出送入空间金字塔池化层进行池化，得到不同尺度的特征；其中MobileNeXt网络的沙漏模块或MobileNetV2网络的瓶颈模块中引入混合注意力机制；

多尺度特征融合模块，用于将提取的不同尺度特征送入多尺度特征融合网络中进行融合，得到三组不同的融合特征；多尺度特征融合网络中利用深度超参数卷积神经网络弥补由于融合特征时压缩通道数导致的特征缺失；

预测网络模块，用于将多尺度特征融合网络得到的三组融合特征分别输送到对应的预测模块中，根据不同尺度的三组锚点分别对产生的特征图进行计算，实现目标检测；

网络训练模块，用于将标注好的样本数据集输入搭建好的网络模型中进行训练，利用反向求导更新网络模型参数，最小化损失函数值；其中损失函数为基于标定框坐标回归的完全交并比CIOU损失函数、基于交并比IOU的标定区域的置信度损失函数和真假二分类的交叉熵损失函数之和；

以及，人脸篡改检测模块，用于利用训练好的网络模型对人脸图像进行检测，获取图像中的真伪信息。

基于相同的发明构思，本发明提供的一种基于多源线索与混合注意力的人脸篡改检测系统，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于多源线索与混合注意力的人脸篡改检测方法。

有益效果：与现有技术相比，本发明基于多源线索与混合注意力的人脸篡改检测方法，具有以下特点：

(1)在目标检测模型中将多种图像物理特征与原图像特征相融合，可以将滤波器提取篡改特征融入原图特征中，相比于单一图像信息输入目标检测网络，网络的输入信息更加丰富，且一些物理特征比原图信息更有利于网络判别篡改行为，提升网络鉴别性能。

(2)通过引入轻量级网络结构，可以有效减少模型参数，降低计算量。同时，采用较宽网络结构，保证模型在参数量减少同时，识别篡改行为精度有轻微提升。

(3)引入混合注意力机制，在每一个沙漏模块中动态调节空间与通道特征信息，同时，多尺度特征融合网络中采用深度超参数卷积替换原本卷积方式，进一步提升网络对篡改图像的判别效果。

附图说明

图1是本发明实施例的网络模型框图。

图2是本发明实施例中的网络模型训练示意图。

图3是本发明实施例中的网络模型检测示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进行详细说明：

如图1所示，本发明实施例公开一种基于多源线索与混合注意力的人脸篡改检测方法，使用Celeb-DFV2数据集生成的检测数据集，模型中利用噪声滤波器，高通滤波器以及卷积网络初步提取物理特征，像素特征并融合，再利用特征提取骨干网络MobileNeXt或MobileNetV2来提取特征信息，生成多尺度特征图，再利用基于通道拼接方式的多尺度特征融合网络，如路径聚合网络(Path Aggregation Network，PANet)或特征金字塔网络(Feature Pyramid Network，FPN)等进行融合，考虑到拼接时会先减少特征图通道数，会丢失一些特征信息，采用深度超参数卷积网络使得卷积本身对通道的学习参数变多，使通道数较多的特征图中有用的信息压缩到通道数较低的特征图中，最终利用预测卷积网络将多尺度融合后特征图的信息进行组合利用，生成以对应尺度以每一像素点为中心的预测结果，最终根据非极大值抑制(NMS)完成身份信息是否被篡改的判别。

具体地，本发明实施例公开的一种基于多源线索与混合注意力的人脸篡改检测方法，包括如下步骤：

步骤A，对目标数据集进行数据增强，融合真伪图像，降低篡改图像与真实图像的差距，使数据源更加复杂多变。同时利用像素点之间的差值，生成篡改位置的标注信息。具体包括：

步骤A1，对Celeb-DFV2中原视频数据集利用FFmpeg工具分解成一帧帧图像，并对产生的图像利用MTCNN工具进行人脸部检测，对于每段视频取32个置信度最高的图像作为新的数据集进行存储。

步骤A2，选取部分真假对应的图像或视频帧数据进行融合，对数据进行融合操作表示如下：

其中，I_mix代表融合后的图像，I_real表示RGB真实图像，I_fake表示其对应的RGB篡改图像，factor代表融合因子，表示新融合的图像中有多少成分来自于被篡改的图像，一般可以取0.25,0.5,0.75。

表示按照像素点进行相加。将融合后的图像放入篡改图像数据当中。融合后的图像作为篡改图像存入数据集当中。

步骤A3，生成修改位置信息图像，将真实图像与其相对应的篡改图像做基于像素点的差值，可表示为：

I_mask＝I_realΘI_fake (2)

其中，Θ表示按像素做减法并取其绝对值。I_mask表示对应的虚假位置mask标注图。将I_mask图中每一个通道像素进行二值处理：

p_i表示I_mask图的像素值，threshold代表阈值，当像素值低于阈值时，将像素值置为0，否则置为255，阈值主要体现真伪图像在像素级别的最小数值差距，不建议设置过大，一般在10以内即可。通过计算，图像会被转换为二值图，其中黑色部分为未修改区域，白色为修改区域。将修改后的mask图作为标注进行存储。

步骤A4，对篡改图像与其对应的mask标注数据进行对齐，缩放，并裁剪至同样大小。同时对真实图像也进行缩放，并裁剪至同样大小。本例中将图像裁剪至416×416后送入后面网络。

步骤B，对步骤A所得到的数据集进行划分，根据数据集官方提供建议[Y.Li,X.Yang,P.Sun,H.Qi,and S.Lyu,“Celeb-DF:A Large-Scale Challenging Dataset forDeepFake Forensics,”in Proc.IEEE/CVF Conference on Computer Vision andPattern Recognition,2020.]划分出测试集，约为整个数据集的10％，将剩余的数据集划分为训练集核验证集。训练集占总数据量的约70％，验证集占总数据量的约20％。

步骤C，对候选训练集图像根据其修改位置信息Mask标注进行数据检测框标注，再次进行数据增强；具体包括：

步骤C1，对于篡改图像，利用步骤A3得到的标注有篡改位置信息的mask图，标注出虚假位置的标注框坐标，并将类别设置为fake。对于真实未被修改的图像，使用dlib工具标注出人脸坐标信息，并标注为real。其中标注框坐标确定方法是：根据最大联通的白色区域得到标注坐标X_min，Y_min，X_max，Y_max，分别代表白色区域的左上角的坐标以及右下角的坐标。同时为了使标注效果更有利于检测任务，需要将标注框稍微放大一点。则实际标注框坐标为：

X′_min，Y′_min，X′_max，Y′_max分别代表实际标注信息的左上角的坐标以及右下角的坐标。X_SIZE与Y_SIZE分别代表实际数据在X与Y方向的最大取值，即图像的宽度与高度。

步骤C2，使用dlib工具对虚假人脸图像中的脸部进行定位，并从垂直方向或者水平方向遮挡半张脸。使用MTCNN网络对虚假人脸图像中的五官进行标定(眼睛，鼻子，以及嘴)，并随机选取虚假部位进行遮挡。在保证一些较为明显的虚假特征不被遮挡的情况下，随机遮挡图像中一半的区域。

步骤D，建立预处理特征融合网络，用于将图像通过卷积神经网络、噪声滤波器以及高通滤波器分别提取特征并基于通道维度进行串联，从而得到图像的多源融合特征。

该预处理特征融合网络包含卷积核大小为3×3的卷积神经网络，SRM噪声滤波器，以及高通滤波器。本步骤具体包括：

步骤D1，构建噪声域分析SRM滤波器层，其中滤波器的模板特征为：

利用三个模板分别对输入图像的RGB三通道进行步长为1的卷积，得到输出通道数为3的特征图。

步骤D2，构建高通滤波器层，其滤波器模板特征为：

[1 -3 3 -1] (6)

将对应滤波器在输入图像的RGB通道上沿水平和垂直方向分别进行应用。可以得到6通道特征图，表示基于水平和垂直方向的高通特征。

步骤D3，构建3×3卷积层，其输出特征层通道数为23层。将SRM滤波器层，高通滤波器层以及卷积层输出基于通道维度进行串联，组成输入为3通道，输出通道数为32的特征预处理层。

步骤D4，在步骤D3构建的预处理层之后，构建特征融合层，其结构为卷积核大小为3×3的卷积神经网络层。网络输入尺寸为416×416×32，输出特征图尺寸为416×416×32。

步骤E，在步骤D4之后构建特征提取的骨干网络，利用MobileNeXt网络作为骨干网络(本实施例以MobileNeXt为例，MobileNetV2类似)，该网络由多个沙漏模块组成，每个沙漏模块主体结构由四部分组成，第一层为基于二维平面的深度卷积层，该层是由M个尺寸大小为3×3×1的卷积核组成，其中M表示输入特征图的通道数目。卷积过程中，每一个卷积核分别与对应的特征图做卷积运算后得到一个通道的新特图，即基于卷积分组数为M的卷积方式，得到通道数为M的特征图。为了优化，在基于通道的深度卷积之后会加入BatchNormalization层，以及RELU6激活函数层组成的卷积模块。该模块主要目的是提取输入特征图的空间特征，而忽略通道间的特征。

第二层中使用了基于通道的卷积网络，对输入特征图进行1×1的卷积运算，输出特征图通道数为输入特征图通道数的1/t倍，t为扩展因子。此外，为了保证提取信息的充足。在实际应用过程中，该层的输出通道数不小于整个沙漏模块的输出通道数N的1/6。同时也引入Batch Normalization，对该层进行优化。

模块的第三层是基于通道维度的点卷积，其卷积核尺寸为1×1×M/t，卷积核的数量为N，输出的特征图的通道数则为N，目的是将输入特征图映射为输出整个模块输出特征图特征数。同时为了优化，加入Batch Normalization，并引入Relu6激活函数。

模块的第四层为步长为s，卷积核尺寸为3×3×1的深度卷积网络，同理其卷积分组为N。输出特征图的通道数也为N。同时，为了缓解梯度混淆的问题，将整个沙漏模块的输入与第四层输出构建短连接，从而有更多的信息可以梯度回传。

在沙漏模块的第三层与第四层之间，新引入混合注意力机制模块，其主要由通道注意力和空间注意力模块组成。总的过程可表示为：

表示基于元素相乘，F′表示通道注意力模块输出特征图，M_s(F′)表示2维空间注意力机制图，F″表示空间注意力机制模块输出的特征图。对于可表示为M_c(F)：

M_c(F)＝σ(W₁(W₀(F_cavg))+W₁(W₀(F_cmax))) (8)

其中，输入特征图F的尺寸为C×H×W，C代表通道数，H代表高度，W代表宽度。F_cavg与F_cmax分别代表基于通道维度，对特征图每一层进行平均池化与最大池化得到的新的特征向量，尺寸为C×1×1。W₁(W₀(·))表示多层感知机。其中W₀(·)中的权重尺寸为(C/r)×C，所以其输出特征向量尺寸为C/r×1×1，其中r代表压缩率，W₁(·)中的权重尺寸为C×(C/r)，所以其输出特征向量尺寸为C×1×1。σ(·)表示sigmod函数处理。最终M_c(F)特征图尺寸大小为C×1×1，表示基于通道维度，各通道所占动态的权重。空间注意力机制图可表示为：

M_s(F′)＝σ(conv_7×7([F′_savg；F′_smax])) (9)

其中，输入特征图F′的尺寸为C×H×W，F′_savg与F′_smax分别代表在通道维度，对特征图的进行平均池化与最大池化得到的新的特征向量，尺寸为1×H×W。并将结果基于通道维度进行串联，生成尺寸为2×H×W的特征图，并将其送入7×7的卷积网络conv_7×7当中进行融合生成单通道特征图，最终通过sigmod函数进行处理，得到1×H×W的特征图M_s(F′)。最终得到的输出特征图为F″为C×H×W，与原输入尺寸大小一致。

整体的特征提取网络会使用19个沙漏模块，并将最终的输出送入空间注意力机制模块。整个特征提取网络的输出可表示为：

X_net＝{X₅,X₁₂,X_pooling} (10)

X_net表示特征提取网络输出特征图，其由三组特征图构成：X₅表示第5个沙漏模块输出的特征图，特征图的长与宽大小为输入网络的图像的1/8；X₁₂表示第12个沙漏模块输出的特征图，特征图的长与宽大小为输入网络的图像的1/16；X_pooling表示空间金字塔池化层输出的特征图，特征图的长与宽大小为输入网络的图像的1/32；

步骤F，构建多尺度融合网络与预测网络，将不同层级，不同尺度的特征图进行融合，得到不同尺寸的融合多层次信息的特征图。并利用预测网络对特征图进行分析，得到基于每个栅格点的预测结果。具体包括：

步骤F1，利用PANet或FPN等多尺度融合网络对步骤E中输出的大(L)、中(M)、小(S)三种尺度的特征图进行融合，本实施例以PANet为例，原PANet中基于像素点相加的融合方式，修改为基于通道维度相串联。同时每次融合之前，参与融合的两种特征图需要将通道数修改为输出通道数的1/2，对原网络中融合前的卷积方式修改为深度超参数卷积神经网络完成对特征图通道数的压缩。其中的深度超参数化卷积表示为：

其中，O代表卷积后输出特征图，P代表参与卷积的输入，其尺寸大小为C’×H’×W’，C’代表通道数，H’代表高，W’代表宽，M₁表示深度卷积的卷积核，尺寸为C’×D_mul×K_W×K_H，其中D_mul表示深度扩展系数，其值大于或等于K_W×K_H(本例中取值为K_W×K_H)，K_W×K_H表示卷积核大小，运算符

步骤F2，利用多层卷积神经网络，对F1中得到的特征图进行处理，生成3×7通道的特征图，7通道分别代表基于当前格点的相对位置坐标，长与宽，目标置信度，真实概率，虚假概率。3表示基于每一个格点生成三种尺度的信息。

步骤G，将步骤C得到的训练集输入网络中，F2中的特征图分别为原输入图像的1/8，1/16，1/32。将特征图对应位置分别乘以8，16，32映射回原空间大小，计算交并比(IOU)值，并基于F2所得到的特征图计算损失函数，如图2所示，损失函数为：

Loss＝Loss_CIOU+Loss_conf+Loss_cls (12)

其中，Loss代表总的损失函数，主要由三部分构成，分别为：基于标定框坐标回归的完全交并比(CIOU)损失函数Loss_CIoU，基于IOU的标定区域的置信度损失函数Loss_conf和真假二分类的交叉熵损失函数Loss_cls。同时对于每一个循环的训练数据，利用验证数据集进行验证其训练效果，并根据其效果可以适当的调节学习率等超参数。最终，根据验证集选择一个效果最佳的权重作为整个网络训练出的最终权重。

步骤H，如图4所示，将步骤C得到的测试集送入步骤G训练得到的网络中，并将预测的置信度与对应预测的类别的概率相乘得到该框对应类别的分数值，然后通过非极大值抑制方法对步骤F2中产生的标注信息进行计算，将同类别框进行合并与丢弃，得到网络预测的框坐标及真伪信息，最终根据标注框对类别的分数值是否大于阈值用于测试最终的网络效果。

表1鉴别精度对比表

方法	AUC	准确率(ACC)
			DSP-FWA	0.537	-
Xception-c40	0.660	0.482
			Xception-c23	0.664	0.474
本发明方法	0.956	0.927

表1中展示了一些开源识别篡改图像方法与本发明方法在Celeb-DF数据集上鉴别精度比较，包括：DSP-FWA[Li,Y.,Lyu,S.:Exposing deepfake videos bydetecting facewarping artifacts.In CVPR 2019]，Xception[A.

D.Cozzolino,L.V erdoliva,C.Riess,J.Thies,and M.Nieβner,FaceForensics++:Learning to Detect ManipulatedFacialImages,In ICCV 2019.]。检测图像为Celeb-DF测试视频数据利用FFmpeg工具每10帧取1张图像所得，共有6985张真实图像和12704张虚假图像。通过比较本模型在篡改图像检测中，具有较高精度，证明网络可以有效鉴别具有高质量篡改技术的图像，体现了本模型在鉴别虚假图像的工作中具有一定优势。

基于相同的发明构思，本发明另一实施例提供的一种基于多源线索与混合注意力的人脸篡改检测系统，包括：

图像预提取特征融合模块，用于将图像通过卷积神经网络、噪声滤波器以及高通滤波器分别提取特征并基于通道维度进行串联，得到图像的多源融合特征。该模块将图像数据中的水平与垂直方向的高频信息，噪声域信息，浅层的像素级别信息进行融合，提高检测精度。

图像特征提取模块，用于将多源融合特征送入特征提取骨干网络MobileNeXt或MobileNetV2来实现图像特征的提取，并将骨干网络输出送入空间金字塔池化层进行池化，得到不同尺度的特征；在网络提取模块中，利用特征图中空间与通道维度所关注的图像信息不同，引入混合注意力机制，基于空间与通道维度生成自适应权重。并将基于这些权重的特征图进行融合，产生更加适应于任务的特征图。同时，基于不同深度的特征图提取到的信息层次不一致，将不同深度的特征图作为输出，使检测网络能考虑到不同层次的特征，提高检测精度。

多尺度特征融合模块，用于将提取的不同尺度特征送入多尺度特征融合网络进行融合，得到三组不同的融合特征。本模块利用上采样，下采样等方式将特征图缩放至同等大小进行串联并融合，并利用深度超参数卷积神经网络弥补由于融合特征时压缩通道数导致的大量主要特征缺失，使网络在融合特征的同时，也能提取到充足的特征。

预测网络模块，用于将多尺度特征融合得到的三组融合特征分别输送到对应的预测模块中，根据不同尺度的三组锚点分别对产生的特征图进行计算，实现目标检测。

网络训练模块，用于将标注好的样本数据集输入搭建好的网络模型中进行训练，利用反向求导更新网络模型参数，最小化损失函数值；

本领域技术人员可以理解，可以对实施例中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个系统中。可以把实施例中的模块组合成一个模块分成多个子模块。

基于相同的发明构思，本发明另一实施例提供的一种基于多源线索与混合注意力的人脸篡改检测系统，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的基于多源线索与混合注意力的人脸篡改检测方法。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于多源线索与混合注意力的人脸篡改检测方法，其特征在于，包括以下步骤：

(3)在步骤(2)建立的网络基础之上，将输出的多源融合特征送入特征提取骨干网络MobileNeXt或MobileNetV2来完成图像特征的提取，并在MobileNeXt网络的沙漏模块或MobileNetV2网络的瓶颈模块中引入混合注意力机制，最后将骨干网络输出送入空间金字塔池化层进行池化；

2.根据权利要求1所述的一种基于多源线索与混合注意力的人脸篡改检测方法，其特征在于，步骤(1)中对真实图像进行篡改的方法，包括：

(1.1)根据如下公式对真实图像和篡改图像进行融合：

I_mask＝I_realΘI_fake

3.根据权利要求1所述的基于多源线索与混合注意力的人脸篡改检测方法，其特征在于，步骤(1)中还包括对样本数据集进行数据增强，数据增强方法包括：对虚假人脸图像中的脸部进行定位，并从垂直方向或者水平方向遮挡半张脸；对虚假人脸图像中的五官进行标定，并随机选取虚假部位进行遮挡；在保证一些虚假特征不被遮挡的情况下，随机遮挡图像中一半的区域。

4.根据权利要求1所述的基于多源线索与混合注意力的人脸篡改检测方法，其特征在于，步骤(2)中建立的预处理特征融合网络，包括：

SRM噪声滤波器层，利用三个丰富隐写模型SRM模板分别对输入图像的RGB三通道进行卷积，得到输出通道数为3的特征图；

卷积层，对输入图像进行卷积，输出通道数为23的特征图；

5.根据权利要求1所述的基于多源线索与混合注意力的人脸篡改检测方法，其特征在于，所述步骤(3)中在MobileNeXt网络的沙漏模块或MobileNetV2网络的瓶颈模块引入混合注意力机制具体为：

在沙漏模块的第三层与第四层之间，或在瓶颈模块中的第二和第三层之间新引入混合注意力机制模块，其主要由通道注意力和空间注意力模块组成，总的过程表示为：

M_c(F)＝σ(W₁(W₀(F_cavg))+W₁(W₀(F_cmax)))

其中，输入特征图F的尺寸为C×H×W，C代表通道数，H代表高度，W代表宽度，F_cavg与F_cmax分别代表基于通道维度对特征图每一层进行平均池化与最大池化得到的新的特征向量，尺寸为C×1×1，W₁(W₀(·))表示多层感知机，其中W₀(·)中的权重尺寸为(C/r)×C，输出特征向量尺寸为C/r×1×1，其中f代表压缩率，W₁(·)中的权重尺寸为C×(C/r)，输出特征向量尺寸为C×1×1，σ(·)表示sigmod函数处理，最终M_c(F)特征图尺寸大小为C×1×1，空间注意力机制图M_s(F′)表示为：

M_s(F′)＝σ(conv_7×7([F′_savg；F′_smax]))

6.根据权利要求1所述的基于多源线索与混合注意力的人脸篡改检测方法，其特征在于，所述步骤(4)中的多尺度特征融合网络，其输入为MobileNeXt网络的第5个沙漏模块输出特征图、第12个沙漏模块输出特征图和空间金字塔池化层输出特征图的集合，或MobileNetV2网络的第6个瓶颈模块输出特征图、第14个瓶颈模块输出特征图和空间金字塔池化层输出特征图的集合，对不同尺度的特征图进行缩放与融合，多尺度特征融合网络中采用深度超参数化卷积对所有2D卷积进行替换，深度超参数化卷积表示为：

其中，O代表卷积后输出特征图，P代表参与卷积的输入，其尺寸大小为C’×H’×W’，C’代表通道数，H’代表高，W’代表宽，M₁表示深度卷积的卷积核，尺寸为C’×D_mul×K_W×K_H，其中D_mul表示深度扩展系数，其值大于或等于K_W×K_H，K_W×K_H表示卷积核大小，运算符。表示基于二维平面的深度卷积，得到中间特征图大小为C’×D_mul×H’×W’，M₂表示大小为C_out×D_mul×C’的卷积核，运算符*代表卷积，将中间特征图基于C’×D_mul维度进行融合，最终得到的特征图O，尺寸为C_out×H’×W’。

7.一种基于多源线索与混合注意力的人脸篡改检测系统，其特征在于，包括：

图像特征提取模块，用于将多源融合特征送入特征提取骨干网络MobileNeXt或MobileNetV2来实现图像特征的提取，并将骨干网络输出送入空间金字塔池化层进行池化，得到不同尺度的特征；其中MobileNeXt网络的沙漏模块或MobileNetV2网络的瓶颈模块中引入混合注意力机制；

多尺度特征融合模块，用于将提取的不同尺度特征送入多尺度特征融合网络进行多尺度特征融合，得到三组不同的融合特征；多尺度特征融合网络中利用深度超参数卷积神经网络弥补由于融合特征时压缩通道数导致的特征缺失；

8.一种基于多源线索与混合注意力的人脸篡改检测系统，其特征在于，包括至少一台计算机设备，所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现根据权利要求1-6任一项所述的基于多源线索与混合注意力的人脸篡改检测方法。