CN114973364A

CN114973364A - 一种基于脸部区域注意力机制的深度图片鉴伪方法及系统

Info

Publication number: CN114973364A
Application number: CN202210562475.4A
Authority: CN
Inventors: 朱州
Original assignee: Beijing Yingshu Technology Co ltd
Current assignee: Beijing Yingshu Technology Co ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-08-30

Abstract

本发明公开了一种基于脸部区域注意力机制的深度图片鉴伪方法及系统，对获取的人脸区域图片进行分割，得到多个不同脸部分割区域图片；将分割后得到的不同脸部分割区域图片与分割前原人脸区域图片进行合并；将合并的图片输入至带有注意力模型的注意力机制UNet网络对脸部像素进行分类，并输出加权后的人脸区域特征图后输入至预先训练好的鉴伪分类神经网络模型中输出图片鉴伪分类结果。通过添加人脸分割信息和带有注意力模型的注意力机制UNet网络进行预处理，实现人为预先告知模型不同的人脸分割区域很有可能是需要关注的地方，为分类网络提供更多信息，让基于人脸图片的造假鉴伪有更优的准确率和鲁棒性。

Description

一种基于脸部区域注意力机制的深度图片鉴伪方法及系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于脸部区域注意力机制的深度图片鉴伪方法及系统。

背景技术

近年来随着深度学习技术的迅猛发展和硬件设备特别是图形计算单元(GPU)成本的不断降低，人工智能技术在各个领域上都进行了快速渗透与落地应用。在深度神经网络CNN的催生下，对抗生成网络GAN利用了高维度空间映射理论学习某类图片的信息分布，对于人脸图片来说，就可以将一个低维随机向量生成一张自然逼真的人脸图片，甚至能生成一段不存在的人物视频，令人难辨真伪。GAN技术从2014年Goodfellow提出以来就受到学术界与工业界的大量关注，从分辨率较低的DCGAN、CGAN，到风格迁移Pixel2Pixel、CycleGAN，再到高分辨率大模型BigGAN、StyleGAN，大数据训练下的大模型达到的效果已经堪比真实拍摄出的图片。在这种情况下，将该技术滥用到图片与视频生成造成的社会风险也是巨大的。

随着生成技术的发展，图片和视频鉴伪算法也逐渐获得了重视，目前的鉴伪算法可以大体分为两类，一种是基于真实图片拍摄硬件设备在图片上留下的痕迹检测，另一种是基于生成算法在图片上产生的不协调检测。第一类算法很大程度上依赖于拍摄设备的特点，包括相机成像时使用的降噪、压缩、CFA去雾算法的选择，而这些都与相机的品牌和型号有关，在训练模型时需要特定设备的图像来训练神经网络，而相机品牌和型号之多是无法完全穷举的，所以这类方法具有较大的局限性；第二类算法是基于生成算法得到的图像缺点，因为GAN网络是一种统计规律的学习，并不是不同分布空间中一一强对应关系，所以不论训练数据海量与否、模型参数量巨大与否，在生成图片的时候难免会有一些违和的噪点，虽然肉眼难以辨别，但对于同样是深度网络的算法来说，还是可以找到图片中不合理的像素分布。

发明内容

为此，本发明提供一种基于脸部区域注意力机制的深度图片鉴伪方法及系统，以实现对人脸造假图片的鉴伪方法具有更优的准确率和鲁棒性。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提出了一种基于脸部区域注意力机制的深度图片鉴伪方法，所述方法包括：

对待鉴别图片进行人脸检测，并将得到的人脸检测框按预设比例放大后剪裁出人脸区域图片；

对获取的人脸区域图片进行分割，得到多个不同脸部分割区域图片；

将分割后得到的不同脸部分割区域图片与分割前原人脸区域图片进行图像通道层合并；

将合并的图片输入至带有注意力模型的注意力机制UNet网络对脸部像素进行分类，并输出加权后的人脸区域特征图后输入至预先训练好的鉴伪分类神经网络模型中输出图片鉴伪分类结果。

进一步地，将得到的人脸检测框按预设比例放大后剪裁出人脸区域，具体包括：

将人脸检测框向外扩大50％得到新的人脸检测框后裁剪出人脸区域。

进一步地，对获取的人脸区域进行分割，得到多个不同脸部分割区域信息，具体包括：

分割区域包括：头发、左眉毛、右眉毛、左瞳孔、右瞳孔、鼻子、上嘴唇、下嘴唇、口腔、左耳朵、右耳朵、脸皮肤以及脖子区域；

每个区域都用一个H*W*1的数据块进行表示，属于该区域的像素值为1，不属于该区域的像素值为0，得到的13个部分组成了H*W*13的数据块，H是图片纵向的像素个数，W是横向的像素个数。

进一步地，将得到的不同脸部分割区域信息与原人脸区域图片进行通道层合并，具体包括：

将RGB三通道格式的原人脸图片H*W*3和对应脸部分割信息H*W*13在进行通道层合并，得到H*W*16的数据块。

进一步地，所述注意力机制UNet网络包括UNet网络模型和注意力模型，所述UNet网络模型总体分为四层下采样和对应的四层上采样，在每一个下采样和上采样后都进行两次卷积，所述注意力模型用于在每一次做完下采样和两次卷积后，都使用一个3×3卷积核输出与原输入人脸区域图片通道数一致的结果，然后对输出结果按像素进行Sigmod操作，使每个像素的值变为0到1之间的数值，即得到了一个代表每个像素应获关注程度的热图，使用得到的热图与原始输入人脸区域图片进行对应像素相乘，得到加权后的人脸区域特征图。

进一步地，所述鉴伪分类神经网络模型基于ResNext分类网络构建。

进一步地，所述图片鉴伪分类结果为真实或造假图片。

进一步地，所述方法还包括对鉴伪分类神经网络模型进行训练，具体为：

利用损失函数反向传播训练网络参数，每一轮训练迭代结束后，将验证集的人脸区域特征图输入到网络中进行预测，得到验证集的准确率，当训练集的损失函数收敛，并且验证集的准确率最高时，结束模型的训练，保存此时模型的参数作为最优参数。

根据本发明实施例的第二方面，提出了一种基于脸部区域注意力机制的深度图片鉴伪系统，所述系统包括：

人脸检测模块，用于对待鉴别图片进行人脸检测，并将得到的人脸检测框按预设比例放大后剪裁出人脸区域图片；

人脸分割模块，用于对获取的人脸区域图片进行分割，得到多个不同脸部分割区域图片；

图像合并模块，用于将分割后得到的不同脸部分割区域图片与分割前原人脸区域图片进行图像通道层合并；

鉴伪模块，用于将合并的图片输入至带有注意力模型的注意力机制UNet网络对脸部像素进行分类，并输出加权后的人脸区域特征图后输入至预先训练好的鉴伪分类神经网络模型中输出图片鉴伪分类结果。

本发明具有如下优点：

本发明提出的一种基于脸部区域注意力机制的深度图片鉴伪方法及系统，对待鉴别图片进行人脸检测，并将得到的人脸检测框按预设比例放大后剪裁出人脸区域图片；对获取的人脸区域图片进行分割，得到多个不同脸部分割区域图片；将分割后得到的不同脸部分割区域图片与分割前原人脸区域图片进行图像通道层合并；将合并的图片输入至带有注意力模型的注意力机制UNet网络对脸部像素进行分类，并输出加权后的人脸区域特征图后输入至预先训练好的鉴伪分类神经网络模型中输出图片鉴伪分类结果。通过添加人脸分割信息和带有注意力模型的注意力机制UNet网络进行预处理，实现人为预先告知模型不同的人脸分割区域很有可能是需要关注的地方，提升有效信息保留和提取效率，为分类网络提供更多信息。通过对基于生成图片分布违和检测的鉴伪方法做进一步改进，让基于人脸图片的造假鉴伪有更优的准确率和鲁棒性。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例1提供的一种基于脸部区域注意力机制的深度图片鉴伪方法的流程示意图；

图2为本发明实施例1提供的一种基于脸部区域注意力机制的深度图片鉴伪方法的处理过程示意图；

图3为本发明实施例1提供的一种基于脸部区域注意力机制的深度图片鉴伪方法中ResNext网络结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1和图2所示，本实施例提出了一种基于脸部区域注意力机制的深度图片鉴伪方法，所述方法包括：

S100、对待鉴别图片进行人脸检测，并将得到的人脸检测框按预设比例放大后剪裁出人脸区域图片。

先用现有的人脸检测器检测出图片中的人脸区域。人脸检测：对输入的图片进行人脸区域的检测，因为本方法只对人脸造假进行鉴伪，所以首先用现有的人脸检测器，包含但不限于dlib、mtcnn、retina等成熟的算法，本方法将多种检测器进行随机混合使用，可以避免检测器带来的数据不平衡风险。由于得到的检测框只包含五官部分，所以将得到的检测框四条边都往外扩大50％，裁剪出人脸区域。将得到的人脸进行检测框向外50％扩大，检测框表示如下所示：

原检测框：(x1,y1,x2,y2)，(x1,y1)为检测框左上角点的二维坐标，(x2,y2)为检测框右下角点的二维坐标；

扩大后检测框：

(x1-(x2-x1)*0.5,y1-(y2-y1)*0.5,x2+(x2-x1)*0.5,y2+(y2-y1)*0.5)。

得到的裁剪出图片为RGB三通道格式，该数据大小为H*W*3，H是图片纵向的像素个数，W是横向的像素个数，代表了图片的分辨率。

S200、对获取的人脸区域图片进行分割，得到多个不同脸部分割区域图片。

然后使用人脸分割器将人脸部分的五官进行分割。人脸分割：将裁剪得到的人脸部分进行分割，使用的是现有开源的人脸分割算法face parse，这是一个基于卷积神经网络进行的像素级分类模型，原网络的输出为20类不同区域，本方法只提取出人脸造假会涉及到的13个部分，即头发、左眉毛、右眉毛、左瞳孔、右瞳孔、鼻子、上嘴唇、下嘴唇、口腔、左耳朵、右耳朵、脸皮肤、脖子，每个部分都可以用一个H*W*1的数据块进行表示，属于该部分的像素值为1，不属于该部分的像素值为0，得到的13个部分组成了H*W*13的数据块。

S300、将分割后得到的不同脸部分割区域图片与分割前原人脸区域图片进行图像通道层合并。

将这些分割区域与原图片的彩色RGB三通道进行叠加。图像通道层合并：将原图片H*W*3和对应脸部分割信息H*W*13在最后一个通道层进行合并，得到H*W*16的数据块，与现有基于生成图像分类的鉴伪方法相比，本方法在此添加了人脸分割信息，赋予了不同脸部区域的注意力初始权重，为之后无监督注意力获取提供有效信息。

在模型训练的时候，初始权重对模型训练效率和结果会有很大的影响，如果初始权重与最终结果的分布接近，那么训练更容易收敛并且效果会更好，所以将分割结果作为UNet的输入，也就是对于注意力的初始引导是人脸分割的结果，也就是人为预先告知模型不同的分割区域很有可能是需要关注的地方；如果没有人脸分割的数据输入，这种情况下，模型开始训练的状态是全图都有一样的关注权重，加上使用了无监督的学习方式，这可能会导致模型学习过程中不收敛，或者注意力不在脸部区域导致学习跑偏的情况。

S400、将合并的图片输入至带有注意力模型的注意力机制UNet网络对脸部像素进行分类，并输出加权后的人脸区域特征图后输入至预先训练好的鉴伪分类神经网络模型中输出图片鉴伪分类结果。

用一个带有注意力模型的像素级U型深度网络UNet对叠加后的图片进行分析，得到的结果再进入一个ResNext结构的卷积神经网络，经过一系列卷积和池化层得到一个分类结果，该结果代表着输入的图片属于真实图片还是合成图片。

UNet像素级网络，这是一个在分割领域中广泛使用的网络结构，因其对图片的多感受野级联分类结构获得了较高的像素级分类准确率，它是一个U型对称网络结构，总体分为四层下采样，对应四层上采样，在每一个下采样和上采样后都进行两次卷积，并且每次上采样后都与对应的下采样层进行通道融合，以保证原信息不丢失。本实施例中，将H*W*16的数据块输入UNet网络，目的是对脸部像素进行分类，获得有可能是造假区域的注意力信息。

本实施例中，注意力机制UNet网络包括UNet网络模型和注意力模型，所述UNet网络模型总体分为四层下采样和对应的四层上采样，在每一个下采样和上采样后都进行两次卷积，所述注意力模型用于在每一次做完下采样和两次卷积后，都使用一个3×3卷积核输出与原输入人脸区域图片通道数一致的结果(均为三通道)，然后对输出结果按像素进行Sigmod操作，使每个像素的值变为0到1之间的数值，即得到了一个代表每个像素应获关注程度的热图，使用得到的热图与原始输入人脸区域图片进行对应像素相乘，得到加权后的人脸区域特征图H*W*3。

本实施例中使用合并图片输入UNet，相比原图输入，多了13个维度的人脸分割信息，这对于信息提取更有优势，且对于UNet网络结构，本身就擅长将图片有效信息映射到高维空间，再加上注意力机制，能提升有效信息保留和提取效率。

ResNext分类网络是一种广泛用于图片分类的卷积神经网络，这是一个基于经典ResNet的网络结构，该结构对于每个卷积块(block)进行了分组数调整，也就是说对于原来信息块维度为H*W*C的输入(此处C是通道数，正常rgb图片C＝3)，ResNext网络将维度C分为group＝32的32个H*W*(C/32)输入块，对每个输入块分为进行卷积操作，得到的32个结果再叠加为一个最终结果，这样的维度是不变的，该网络结构如图3所示(网络结构表中的“C＝32”中的C不是通道数，而是通道分组个数)。将原结构的最后一层池化改成输出为1的结构，将结果与真值进行损失计算，损失函数使用均方误差MSE表示，该计算方式如下所示：

用该损失函数反向传播训练网络参数，每一轮训练迭代结束后，将验证集的人脸区域特征图输入到网络中进行预测，得到验证集的准确率，当训练集的损失函数收敛，并且验证集的准确率最高时，结束模型的训练，保存此时模型的参数作为最优参数。

本实施例中ResNext分类网络的输入为加权后的特征图，如果直接用原图输入分类网络，由于原图是3通道自然照片，对于深度网络而言还需要进行特征处理，由于分类网络结构的限制很可能在处理过程中丢失信息。

实施例2

与上述实施例1相对应的，本实施例提出了一种基于脸部区域注意力机制的深度图片鉴伪系统，所述系统包括：

本发明实施例提供的一种基于脸部区域注意力机制的深度图片鉴伪系统中各部件所执行的功能均已在上述实施例1中做了详细介绍，因此这里不做过多赘述。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于脸部区域注意力机制的深度图片鉴伪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于脸部区域注意力机制的深度图片鉴伪方法，其特征在于，将得到的人脸检测框按预设比例放大后剪裁出人脸区域，具体包括：

3.根据权利要求1所述的一种基于脸部区域注意力机制的深度图片鉴伪方法，其特征在于，对获取的人脸区域进行分割，得到多个不同脸部分割区域信息，具体包括：

4.根据权利要求3所述的一种基于脸部区域注意力机制的深度图片鉴伪方法，其特征在于，将得到的不同脸部分割区域信息与原人脸区域图片进行通道层合并，具体包括：

5.根据权利要求1所述的一种基于脸部区域注意力机制的深度图片鉴伪方法，其特征在于，所述注意力机制UNet网络包括UNet网络模型和注意力模型，所述UNet网络模型总体分为四层下采样和对应的四层上采样，在每一个下采样和上采样后都进行两次卷积，所述注意力模型用于在每一次做完下采样和两次卷积后，都使用一个3×3卷积核输出与原输入人脸区域图片通道数一致的结果，然后对输出结果按像素进行Sigmod操作，使每个像素的值变为0到1之间的数值，即得到了一个代表每个像素应获关注程度的热图，使用得到的热图与原始输入人脸区域图片进行对应像素相乘，得到加权后的人脸区域特征图。

6.根据权利要求1所述的一种基于脸部区域注意力机制的深度图片鉴伪方法，其特征在于，所述鉴伪分类神经网络模型基于ResNext分类网络构建。

7.根据权利要求1所述的一种基于脸部区域注意力机制的深度图片鉴伪方法，其特征在于，所述图片鉴伪分类结果为真实或造假图片。

8.根据权利要求1所述的一种基于脸部区域注意力机制的深度图片鉴伪方法，其特征在于，所述方法还包括对鉴伪分类神经网络模型进行训练，具体为：

9.一种基于脸部区域注意力机制的深度图片鉴伪系统，其特征在于，所述系统包括：