CN112949469A

CN112949469A - 针对人脸篡改图像特点分布的图像识别方法、系统及设备

Info

Publication number: CN112949469A
Application number: CN202110220731.7A
Authority: CN
Inventors: 董晶; 王伟; 彭勃; 张时润
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-11

Abstract

本发明属于图像识别领域，具体涉及了一种针对人脸篡改图像特点分布的图像识别方法、系统和设备，旨在解决现有的人脸篡改图像识别技术无法很好地处理人脸伪影以至于篡改图像识别准确率不足的问题。本发明包括：通过深度残差网络、空洞卷积网络和卷积层获取待检测图像的标准全局特征图像，基于标准全局特征图像通过Sigmoid激活函数生成空间注意力权重，并将空间注意力权重乘标准全局特征图像获得加权注意力特征图，由全局注意力特征图通过最大池化层、全连接层和非线性层得到真假脸的识别结果。本发明通过空洞卷积和注意力机制针对伪影的特征和伪造特征的分布特点进行检测，提高了篡改图像识别的准确性。

Description

针对人脸篡改图像特点分布的图像识别方法、系统及设备

技术领域

本发明属于图像识别领域，具体涉及了一种针对人脸篡改图像特点分布的图像识别方法、系统及设备。

背景技术

伴随着深度学习的快速发展，大量开源数据集的出现，深度伪造技术的门槛越来越低，使得越来越多的“假脸”图片通过网络传播，给网络空间信息安全带来了隐患。深度伪造技术的英文是Deepfake,是一种基于深度学习的人脸伪造技术，源自Deep Learning和Fake的组合，早在2017年，一名Reddit用户将名人的面孔用在色情视频人脸，迅速传遍媒体和网络，从此大量的深度伪造视频开始涌出，之后这一技术的算法也日趋成熟，生成的伪造人脸图像也达到了人眼难以辨别真伪的程度。

人脸深度篡改技术主要是基于生成对抗网络,生成对抗网络算法包含两部分神经网络：生成器和判别器。生成器基于一个数据库自动生成模拟该数据库中的数据的样本；判别器则用来评估生成器生成数据的真伪。两者在互相博弈学习中产生大规模且高精度的伪造样本输出。伪造图片产生的流程一般分为三步：先提取数据对人脸进行定位；然后通过训练数据对人脸进行转换；最后结合图片融合技术完成数据转换实现人脸图像拼接并合成伪造视频。人脸深度伪造检测本质上是二分类问题，深度卷积神经网络在图像分类任务上有显著的效果，当前的主流方法主要是通过深度学习数据驱动方式，深度卷积神经网络分类器拟合数据分布来学习到深度伪造图像的特征，比如用VGG16，inception_v3，Resnet50等模型。但是现有技术很少考虑到伪造特征的分布特点，人脸深度伪造检查首先将人脸进行定位裁剪，由于不同的图片人物肤色和拍摄背景光照的差异，在合成过程中会产生人脸伪影，这种伪影分布在人脸附近且比较分散，现有的方法无法针对伪影分布位置进行识别，导致篡改人脸图像的识别准确度不足。

因此，本发明提出一种符合人脸深度篡改图像特点的检测方法，来达到对深度篡改图像进行准确分类的目的。

发明内容

为了解决现有技术中的上述问题，即现有的人脸篡改图像识别技术无法很好地处理人脸伪影以至于篡改图像识别准确率不足的问题，本发明提供了一种针对人脸篡改图像特点分布的图像识别方法，所述方法包括：

步骤S100，获取待检测人脸图像；

步骤S200，基于所述待检测人脸图像，通过训练好的针对人脸篡改图像特点分布的图像识别模型，获得所述待检测人脸图像的真假脸识别结果；

其中，所述针对人脸篡改图像特点分布的图像识别模型基于卷积神经网络构建，包括深度残差网络、空洞卷积网络、第一卷积层、第二卷积层、最大池化层、第一层全连接层、第二层全连接层、第三层全连接层和非线性层，并给予训练图像以及设定的交叉熵损失函数，通过随机梯度下降法减小所述交叉熵损失函数，多次迭代获得针对人脸篡改图像特点分布的图像识别模型。

在一些优选的实施方式中，所述通过训练好的针对人脸篡改图像特点分布的图像识别模型，其方法为：

步骤A10，基于所述待检测人脸图像，通过所述深度残差网络获取高级语义特征M；

步骤A20，基于所述高级语义特征M，通过所述空洞卷积网络获取全局特征图像M′；

步骤A30，基于所述全局特征图像M′，通过第一卷积层获取标准全局特征图像

步骤A40，基于所述标准全局特征图像

通过Sigmoid激活函数生成空间注意力权重sa：

步骤A50，基于所述全局特征图像M′和所述空间注意力权重sa，通过乘积运算获得加权注意力特征图G：

步骤A60，基于所述加权注意力特征图G，顺次通过最大池化层、第一层全连接层、第二层全连接层、第三层全连接层和非线性层获得待检测人脸图像的真假脸识别结果S。

在一些优选的实施方式中，所述步骤A60具体步骤为：

步骤A61，基于所述加权注意力特征图G，通过最大池化层获取池化特征图像y：

y＝down(G)*w1+b1

其中，y表示池化特征图像，w1表示池化层权重，down(·)表示最大池化函数，b1表示第一偏置项；

步骤A62，基于所述池化特征图像y，通过所述第一层全连接层、第二层全连接层和第三层全连接层获得全连接特征图像F，其中每层的处理公式为：

F＝f(w2*y+b2)

其中，w2表示全连接层权重，f表示全连接函数，b2表示第二偏置项；

步骤A63，基于所述全连接特征图像F，通过非线性层的Sigmoid函数获得待检测图像的真假脸识别结果S，并通过BP算法和交叉熵损失函数采用最小批次的方式计算模型误差和更新模型权重；

所述真假脸识别结果S为：

其中，e表示自然对数的底数。

在一些优选的实施方式中，所述针对人脸篡改图像特点分布的图像识别模型，其训练方法为：

步骤B10，获取带标签的训练人脸图像作为待检测图像；

步骤B20，通过步骤A010-步骤A060的方法获取真假脸识别结果S；

步骤B30，基于所述真假脸识别结果S和标签计算交叉熵损失函数；

步骤B40，基于BP算法和所述交叉熵损失函数，通过随机梯度下降法更新模型参数；

步骤B50，重复步骤B10-步骤B50的方法直至模型收敛，获得训练好的针对人脸篡改图像特点分布的图像识别模型。

在一些优选的实施方式中，所述方法在步骤S100之前还包括图像预处理的方法，具体步骤为：通过视觉设备获取带有人脸的图像，基于所述带有人脸的图像，通过人脸定位裁剪的方法并进行归一化处理获得待检测人脸图像。

在一些优选的实施方式中，所述训练方法在步骤B10前还包括训练先练图像扩增的方法，具体步骤包括：

步骤B01，通过视觉设备获取带有人脸的真实人脸图像；

步骤B02，基于所述真实人脸图像，生成深度伪造图像并添加标签；

步骤B03，将所述真实人脸图像和深度伪造图像混合，并通过人脸定位裁剪获得初始训练人脸图像

步骤B04，基于所述初始待检测通过随机的水平翻转、平移变换或旋转变换的方法进行数据增幅并进行归一化处理获得训练人脸图像。

在一些优选的实施方式中，所述深度残差网络配置为Resnet34网络。

本发明的另一方面，提出了一种针对人脸篡改图像特点分布的图像识别系统，所述系统包括图像获取模块和图像识别模块；

所述图像获取模块，配置为获取待检测人脸图像；

所述图像识别模块，配置为基于所述待检测人脸图像，通过训练好的针对人脸篡改图像特点分布的图像识别模型，获得所述待检测人脸图像的真假脸识别结果；

其中，所述针对人脸篡改图像特点分布的图像识别模型基于卷积神经网络构建，包括深度残差网络、空洞卷积网络、第一卷积层、第二卷积层、最大池化层、第一层全连接层、第二层全连接层、第三层全连接层和非线性层，并给予训练图像以及设定的交叉熵损失函数，通过随机梯度下降法减小所述交叉熵损失函数，多次迭代获得的针对人脸篡改图像特点分布的图像识别模型。

本发明的第三方面，提出了一种电子设备，其特征在于，包括：至少一个处理器；以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的针对人脸篡改图像特点分布的图像识别方法。

本发明的第四方面，提出了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的针对人脸篡改图像特点分布的图像识别方法。

本发明的有益效果：

(1)本发明针对人脸篡改图像特点分布的图像识别方法通过深度残差网络提取出高级语义特征，并通过具有大感受野特性的空洞卷积网络捕获篡改图像的伪影并通过注意力机制提取关键特征信息以减弱背景信息干扰，提高了深度篡改人脸图像识别模型的对伪影的针对性，提高了篡改人脸图像检测的准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明实施例针对人脸篡改图像特点分布的图像识别方法的流程示意图；

图2是本发明实施例针对人脸篡改图像特点分布的图像识别模型的结构示意图；

图3是本发明实施例针对人脸篡改图像特点分布的图像识别方法模型训练和测试的流程示意图；

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种针对人脸篡改图像特点分布的图像识别方法，所述方法包括：

步骤S100，获取待检测人脸图像；

本发明在人脸定位裁剪之后，利用Resnet34卷积神经网络对待检测的图像提取初步的伪造特征，再经过空洞卷积提高模型的感受野来更好的捕获到比较人脸边缘比较分散的伪造痕迹，再由空间注意力模块进行权重的重加权来加强网络学的关键部位，利用空洞卷积结合注意力机制实现对伪造更有针对性的检测，来达到对深度篡改图像进行准确分类的目的。

为了更清晰地对本发明针对人脸篡改图像特点分布的图像识别方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的针对人脸篡改图像特点分布的图像识别方法，包括步骤S100-步骤S200，各步骤详细描述如下：

在本实施例中，还包括图像预处理的方法，具体步骤为：通过视觉设备获取带有人脸的图像，基于所述带有人脸的图像，通过人脸定位裁剪的方法并进行归一化处理获得待检测人脸图像。

步骤S100，获取待检测人脸图像；

其中，所述针对人脸篡改图像特点分布的图像识别模型基于卷积神经网络构建，如图2所示，包括深度残差网络、空洞卷积网络第一卷积层、第二卷积层、最大池化层、第一层全连接层维度为2048、第二层全连接层维度为1024、第三层全连接层和非线性层维度为512，并给予训练图像以及设定的交叉熵损失函数，通过随机梯度下降法减小所述交叉熵损失函数，多次迭代获得的针对人脸篡改图像特点分布的图像识别模型。

在本实施例中，深度残差网络配置为Resnet34网络。

在本实施例中，通过训练好的针对人脸篡改图像特点分布的图像识别模型，如图2和图3所示，其方法为：

步骤A10，基于所述待检测人脸图像，通过所述深度残差网络获取高级语义特征M；在本实施例中，深度残差网络的输出层修改为卷积核N×N的二维标准卷积层，以提高感受野并保留更多的高级语义特征，N为正整数，优选的可设置为5；

步骤A20，基于所述高级语义特征M，通过所述空洞卷积网络获取全局特征图像M’；在本实施例中，可通过多个预设的空洞率对高级语义特征进行Z×Z像素(pixels)的卷积操作，获得全局特征图像M’；全局特征图像M’为多尺度的特征图；

步骤A30，基于所述全局特征图像M’，通过第一卷积层获取标准全局特征图像

本步骤具体为将具有全局信息的特征图进行补零并进行连接，得到的标准全局特征图像

的维度大小为128×5×5；所述标准全局特征图像

如公式(1)所示：

步骤A40，基于所述标准全局特征图像

通过Sigmoid激活函数生成空间注意力权重sa如公式(2)所示，在训练模型时更新注意力权重sa，使图像空间域上的特征表达得到增强：

通过本步骤中的注意力机制结合空洞卷积，能够使识别模型更好的针对人脸篡改图像的特征分布情况；

步骤A50，基于所述全局特征图像M’和所述空间注意力权重sa，通过乘积运算获得加权注意力特征图G如公式(3)所示：

步骤A60，基于所述加权注意力特征图G，顺次通过最大池化层、第一层全连接层维度为2048、第二层全连接层维度为1024、第三层全连接层维度为512和非线性激活层获得待检测人脸图像的真假脸识别结果S。

在本实施例中，步骤A60具体步骤为：

步骤A61，基于所述加权注意力特征图G，通过最大池化层获取池化特征图像y如公式(4)所示：

y＝down(G)*w1+b1

(4)

步骤A62，基于所述池化特征图像y，通过所述第一层全连接层、第二层全连接层和第三层全连接层获得全连接特征图像F如公式(4)所示：

F＝f(w2*y+b2)

(4)

其中，w2表示全连接层权重，f表示全连接函数，b2表示第二偏置项；增加或减少全连接层的数量也可达到类似效果，本实施例示出的三层全连接层的结构仅为实验中优选的设置，在此不对全连接层的数量做具体的限定。

在本实施例中，第一层全连接层的输入维度为2048输出维度为1024，第二层全连接层的输入维度为1024输出维度为512，第三层全连接层的输入维度为512输出维度为2。通过全连接层，可以整合池化处理后的特征向量，得到完整的图像特征。

所述真假脸识别结果S如公式(5)所示：

其中，e表示自然对数的底数。

将全连接层输出接入到非线性层的Sigmoid函数中可以得到两个分数，然后选取两个输出概率值中的最大项，并与预先定义的标签对应，可以得到图像真假情况，作为检测结果；其中，Sigmoid函数的映射范围是(0，1)。

在本实施例中，所述针对人脸篡改图像特点分布的图像识别模型，其训练方法为：

在本实施例中，还包括训练先练图像扩增的方法，具体步骤包括：

步骤B01，通过视觉设备获取带有人脸的真实人脸图像；所述真实人脸图像也可以从其他视频中提取；

步骤B04，基于所述初始待检测通过随机的水平翻转、平移变换或旋转变换的方法进行数据增幅并进行归一化处理获得训练人脸图像。通过图像扩增的方法可以有效增加人脸图像的多样化程度。

步骤B10，获取带标签的训练人脸图像作为待检测图像；

步骤B20，通过步骤A010-步骤A060的方法获取真假脸识别结果S；

步骤B50，重复步骤B10-步骤B50的方法至损失函数小于预设的阈值或模型识别的准确率达到预设的阈值，获得训练好的针对人脸篡改图像特点分布的图像识别模型。每次迭代过程采用最小批次的方式计算网络误差和更新权重。本实施例采用SGD优化器在训练过程中进行优化训练模型，直到模型的损失下降到几乎不变，同时模型的训练准确度上升到几乎不变时停止训练，最终获得人脸检测模型。其中识别结构准确率计算方式如公式(6)所示：

其中：T_TP为真正例，即被正确分类成深度伪造图片的个数；

T_TN为真反例，即被正确分类成真实图片的个数；F_FP为假正例，即被错误分类成深度伪造图片的个数；F_FN为真反例，即被错误分类成真实图片的个数；

深度篡改人脸图像识别本质是二分类任务，采用交叉熵损失函数对模型进行约束和优化，所述交叉熵损失函数如公式(7)所示：

L＝-[q*log(p)+(1-q)*log(1-p)]

(7)

其中q代表样本的标签，真实人脸类别设置为1，伪造人脸设置为0，p代表真实样本预测概率，1-p为伪造样本预测概率。

本发明第二实施例的针对人脸篡改图像特点分布的图像识别系统，包括图像获取模块和图像识别模块；

所述图像获取模块，配置为获取待检测人脸图像；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的针对人脸篡改图像特点分布的图像识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种一种电子设备，其特征在于，包括：至少一个处理器；以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于注意力机制的人脸深度篡改图像识别方法。

本发明第四实施例的一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于注意力机制的人脸深度篡改图像识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种针对人脸篡改图像特点分布的图像识别方法，其特征在于，所述方法包括：

步骤S100，获取待检测人脸图像；

其中，所述针对人脸篡改图像特点分布的图像识别模型基于卷积神经网络构建，包括深度残差网络、空洞卷积网络、注意力机制、最大池化层、第一层2048维全连接层、第二层1024维全连接层、第三层512维全连接层和非线性层，并给予训练图像以及设定的交叉熵损失函数，通过随机梯度下降法减小所述交叉熵损失函数，多次迭代获得针对人脸篡改图像特点分布的图像识别模型。

2.根据权利要求1所述的针对人脸篡改图像特点分布的图像识别方法，其特征在于，所述通过训练好的针对人脸篡改图像特点分布的图像识别模型，其方法为：

步骤A20，基于所述高级语义特征M，通过所述空洞卷积网络获取全局特征图像M’；