CN116975828A

CN116975828A - 一种人脸融合攻击检测方法、装置、设备及存储介质

Info

Publication number: CN116975828A
Application number: CN202311012962.4A
Authority: CN
Inventors: 贾成昆; 刘永超; 李青源; 刘艳; 王呈泽; 冯翌轩
Original assignee: Hunan Institute of Traffic Engineering
Current assignee: Hunan Institute of Traffic Engineering
Priority date: 2023-08-13
Filing date: 2023-08-13
Publication date: 2023-10-31

Abstract

本申请提供一种人脸融合攻击检测方法、装置、设备及存储介质，该方法包括以下步骤：对选取的人脸图像进行预处理，得到预处理图像；对所述预处理图像进行误差水平分析，得到误差分析图像；提取误差分析图像中的深层特征和浅层特征；融合所述深层特征和所述浅层特征，得到融合后的特征；将所述融合后的特征输入全连接层，并经过softmax层进行分类，得到人脸融合攻击检测结果，所述人脸融合攻击检测结果用于判断所述人脸图像为真实人脸图像或融合人脸图像。本申请通过误差水平分析，可以有效地检测和区分融合人脸和真实人脸之间的差异，从而提高融合人脸检测的准确性；并且本申请涉及的检测方法复杂度较低，能够在实际应用中高效运行。

Description

一种人脸融合攻击检测方法、装置、设备及存储介质

技术领域

本申请涉及人脸融合攻击检测技术领域，尤其涉及一种人脸融合攻击检测方法、装置、设备及存储介质。

背景技术

人脸识别作为一种生物识别方式，是一种被普遍接受的身份验证手段。随着生物识别技术的发展，人脸生物识别系统在我们的日常生活中得到了广泛的应用。然而，最近的研究发现融合的人脸图像可能会对人脸识别系统造成损害，其破坏性已在商业人脸识别系统中验证。

在电子旅行证件的签发和验证过程中，人脸融合攻击更是带来了严峻挑战。在当前许多国家，护照申请过程中使用的面部图像是由申请人以模拟或数字形式提供的。在面部融合攻击中，被列入黑名单的人可以将自己的脸与其他被列入黑名单的人的脸进行融合，从而获得合法的通行证。这些融合的图像不仅可以通过人脸识别系统，还可以欺骗人类专家，包括训练有素的边境警卫。

目前的人脸融合攻击检测方法可以分为基于纹理、基于噪声、基于深度学习和基于混合特征的方法。基于纹理检测融合的方法虽然简单，但由于纹理特征只能反映物体表面的特性，无法获取更高层次的图像内容；基于噪声的方法可能在检测微妙的融合操作方面存在困难；基于深度学习的方法性能通常比基于纹理的方法好，但需要大量数据集支持，样本不足会影响精度；基于混合特征的方法通常会增加算法的复杂度。

因此，如何平衡人脸融合攻击检测方法的复杂度和检测性能，成为需要解决的问题。

在背景技术中公开的上述信息仅用于加强对本申请的背景的理解，因此其可能包含没有形成为本领域普通技术人员所知晓的现有技术的信息。

发明内容

本申请提供一种人脸融合攻击检测方法、装置、设备及存储介质，用以解决现有技术存在的问题。

第一方面，本申请提供一种人脸融合攻击检测方法，包括以下步骤：

S1、对选取的人脸图像进行预处理，得到预处理图像；

S2、对所述预处理图像进行误差水平分析，得到误差分析图像；

S3、提取误差分析图像中的深层特征和浅层特征；

S4、融合所述深层特征和所述浅层特征，得到融合后的特征；

S5、将所述融合后的特征输入全连接层，并经过softmax层进行分类，得到人脸融合攻击检测结果，所述人脸融合攻击检测结果用于判断所述人脸图像为真实人脸图像或融合人脸图像。

在一些实施例中，在S3中，利用高效选择核网络提取误差分析图像中的深层特征；所述高效选择核网络的训练过程包括：

S301、对选取的人脸图像进行预处理，得到预处理图像；

S302、对所述预处理图像进行误差水平分析，得到误差分析图像；

S303、将所述误差分析图像输入至待训练的高效选择核网络中，得到训练好的高效选择核网络。

在一些实施例中，所述高效选择核网络处理步骤包括：

A1、对输入的误差分析图像分别进行分组卷积、空洞卷积处理，生成对应的两个特征图；

A2、将两个所述特征图进行融合，得到融合特征图；

A3、将所述融合特征图映射至三个尺度，得到三个输出；

A4、将所述三个输出的大小调整为三个一维矢量，并进行组合，生成一维注意力图；

A5、将所述一维注意力图分别与两个所述特征图相乘，生成第一特征图和第二特征图；

A6、第一特征图和第二特征图分别经过空间注意力机制模块，生成第一注意力特征和第二注意力特征；

A7、将第一注意力特征和第二注意力特征分别与第一特征图和第二特征图相乘，得到第一特征和第二特征；

A8、将第一特征和第二特征相加，生成特征向量，所述特征向量用于提取误差分析图像中的深层特征。

在一些实施例中，所述浅层特征为：从误差分析图像中提取后，利用浅层特征增强模块增强后的浅层特征。

在一些实施例中，所述S1，包括：

S101、使用dlib标志点检测器检测人脸位置，并根据所述人脸位置裁剪得到人脸区域；

S102、将所述人脸区域归一化并裁剪至224×224像素大小，得到预处理图像。

在一些实施例中，所述S2，包括：

S201、获取所述预处理图像的多个不同颜色通道图像；

S202、分别提取所述颜色通道图像的误差分析图像。

在一些实施例中，所述颜色通道包括：H、S、V、Y、Cb、Cr六个颜色通道。

第二方面，本申请提供一种人脸融合攻击检测装置，包括：

预处理模块，用于对选取的人脸图像进行预处理，得到预处理图像；

误差分析模块，用于对所述预处理图像进行误差水平分析，得到误差分析图像；

特征提取模块，用于提取误差分析图像中的深层特征和浅层特征；

特征融合模块，用于融合所述深层特征和所述浅层特征，得到融合后的特征；

检测模块，用于将所述融合后的特征输入全连接层，并经过全连接层进行分类，得到人脸融合攻击检测结果，所述人脸融合攻击检测结果用于判断所述人脸图像为真实人脸图像或融合人脸图像。

第三方面，本申请还提供一种终端设备，包括：

存储器，用于存储计算机程序；

处理器，用于读取所述存储器中的计算机程序并执行所述的人脸融合攻击检测方法。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现所述的人脸融合攻击检测方法。

本申请提供的人脸融合攻击检测方法、装置、设备及存储介质，该方法包括以下步骤：S1、对选取的人脸图像进行预处理，得到预处理图像；S2、对所述预处理图像进行误差水平分析，得到误差分析图像；S3、提取误差分析图像中的深层特征和浅层特征；S4、融合所述深层特征和所述浅层特征，得到融合后的特征；S5、将所述融合后的特征输入全连接层，并经过softmax层进行分类，得到人脸融合攻击检测结果，所述人脸融合攻击检测结果用于判断所述人脸图像为真实人脸图像或融合人脸图像。

本申请通过误差水平分析，可以有效地检测和区分融合人脸和真实人脸之间的差异，从而提高融合人脸检测的准确性；并且本申请涉及的检测方法复杂度较低，能够在实际应用中高效运行。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请提供的人脸融合攻击检测方法的流程框图；

图2为本申请提供的人脸融合攻击检测方法中涉及的高效选择核网络的流程框图；

图3为本申请提供的人脸融合攻击检测方法中涉及的空间注意力机制模块的流程框图；

图4为本申请提供的人脸融合攻击检测方法中涉及的浅层特征增强模块的流程框图；

图5为本申请提供的人脸融合攻击检测方法中涉及的特征融合模块的流程框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本申请实施例中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件上，它可以直接在另一个元件上或者间接设置在另一个元件上；当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至另一个元件上。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“第一”、“第二”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”、“若干个”的含义是两个或两个以上，除非另有明确具体的限定。

须知，本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本申请可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本申请所能产生的功效及所能达成的目的下，均应仍落在本申请所揭示的技术内容得能涵盖的范围内。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请提供的人脸融合攻击检测方法的流程框图，图2为本申请提供的人脸融合攻击检测方法中涉及的高效选择核网络的流程框图，图3为本申请提供的人脸融合攻击检测方法中涉及的空间注意力机制模块的流程框图，图4为本申请提供的人脸融合攻击检测方法中涉及的浅层特征增强模块的流程框图，图5为本申请提供的人脸融合攻击检测方法中涉及的特征融合模块的流程框图，如图1至图5所示，本申请提供一种人脸融合攻击检测方法，包括以下步骤：

S1、对选取的人脸图像进行预处理，得到预处理图像；

在一些实施例中，所述S1，包括：

需要说明的是，在人脸融合攻击检测中，为了从图像中准确地提取特征，需要保留图像的最大中心区域，这个区域就是人脸区域。为了实现这一目的，在预处理阶段，使用dlib标志点检测器检测人脸位置，并根据人脸位置将人脸区域裁剪出来。随后，将人脸区域归一化并裁剪到224×224像素大小，以便后续特征提取使用。这样可以确保特征提取的准确性和鲁棒性。

在一些实施例中，所述S2，包括：

S201、获取所述预处理图像的多个不同颜色通道图像；

S202、分别提取所述颜色通道图像的误差分析图像。

具体地，在本申请实施例中，ELA(ErrorLevelAnalysis，误差水平分析)允许识别图像中处于不同压缩级别的区域。

需要说明的是，对于JPEG图像，整个图片应处于大致相同的错误级别，如果图像的某个部分的错误级别明显不同，则它可能表示经过数字修改。为了充分的获取面部图像的ELA信息，本申请针对H、S、V、Y、Cb、Cr六个颜色通道分别提取ELA图像，并将它们直接传递给深度学习框架，以便网络可以从误差分析图像中学习到重要的特征。

以H通道为例，创建ELA图像过程如下:将图像以略低的JPEG质量级别保存(eg:85)，将其读入，并计算出与原始图像之间的像素差。如果对人脸进行了融合，则融合操作所触及的区域应比图像其余部分具有更高的潜在错误。融合后的人脸的区域将显示更高的潜在错误级别。

通过使用ELA图像，能够更准确地捕捉到融合图像中人脸区域的细微变化，并通过传递这些ELA图像给深度学习框架，使网络能够学习到关键的特征信息。这种方法能够提高人脸融合攻击检测的准确性和可靠性。

S3、提取误差分析图像中的深层特征和浅层特征；

在一些实施例中，在S3中，利用ESKNet(Efficient Selective Kernel Network，高效选择核网络)提取误差分析图像中的深层特征；所述高效选择核网络的训练过程包括：

S301、对选取的人脸图像进行预处理，得到预处理图像；

需要说明的是，ESKNet是在基于SKNet模块的基础上进行改进和优化得到的网络架构，它能够自适应地调整感受野大小，以更好地捕捉图像中的细节和上下文信息，提高分类准确率。

以下是对SKNet模块的具体说明：

标准的卷积网络中，每层网络的神经元感受野大小都是固定的，而在神经学中，视觉神经元感受野大小是由刺激机制构建的，而在卷积网络中却很少考虑这个因素。而SKNet中SK自适应动态选择机制模块能够使神经元根据不同尺寸的输入信息动态调整其感受野的大小，主要通过Split，Fuse和Select三个步骤实现。这种自适应机制对于改善卷积网络的性能和鲁棒性非常有效。

Split:对于任意输入的特征图，首先通过一个3×3的分组卷积和3×3的空洞卷积生成两个特征图：U1和U2；

Fuse:为了使每一个分支都携带不同的信息流进入下一个神经元，通过元素求和将U1和U2进行融合，然后通过全局平均池化生成通道统计信息Sc，描述如下：

U＝U1+U2，

其中，F_gap表示全局平均池化处理，H、W分别表示特征图的长和宽，Uc表示输入的特征图。将输出的Sc通过简单的全连接层找到每一个通道占的比重大小Z：

Z＝δ(W×S_C+b),

其中，δ表示relu函数，W表示权重矩阵，b表示偏置向量。

Select：跨信道的软注意被用于自适应地选择不同的信息空间尺度，其由紧凑的特征信息引导。在通道上应用softmax操作：

其中，m_C表示m的第c元素，e表示常数，M_C表示M的第c行，q_C表示q的第c元素，Q_C表示Q的第c行，Z表示每一个通道占的比重大小。最终的特征图V是通过不同核上的注意权重获得的，描述如下：

Vc₁＝m_c×U1+q_c×U2，m_c+q_c＝1，

其中，V＝[V₁,V₂,...,V_C],V_C∈R^H×W。

以下是对ESKNet模块的具体说明：

在通道统计信息的计算公式中全局平均池化操作(GAP)通常用于通道注意力，以对空间信息进行全局编码。然而，该操作会将全局空间信息压缩到通道描述符中，难以保留位置、结构和纹理信息。这些信息对于在视觉任务中捕捉空间结构以及融合人脸检测至关重要。

为了解决上述问题，本申请提出了一种高效选择核模块。由于最大池化可以学习图像的边缘和纹理结构，为保留更多的纹理信息，这里同时使用平均池和最大池特征。然而全局平均池化(GAP)和全局最大池化操作(GMP)类似于结构正则化，虽然实现了结构正则化，但是将GAP和GMP应用于特征映射会过度强度正则化效果，而忽略了原始结构表示和特征信息，为了解决这个问题，本发明考虑使用金字塔结构来实现结构正则化的同时探索结构性信息。空间金字塔结构自适应地将输入特征自适应映射到三个尺度：4×4，2×2，1×1。其中4×4平均池化和最大池化捕捉了更多的特征表示和结构信息，1×1平均池化和最大池化是具有较强结构规则性的传统缺口，2×2平均池化和最大池化旨在平衡结构信息和结构正则化之间的关系。将三个输出的大小调整为三个一维矢量，并组合在一起以生成一维注意力图。使得保持特征表示的同时又能继承全局平均池化以及全局最大池化的优点。描述如下：

S(U_C1)，S(U_C2)，S(U_C3)＝R((A+M)(U_C,4)),R((A+M)(U_C,2)),R((A+M)(U_C,1))，

Sc＝C(S(U_C1),S(U_C2),S(U_C3))，

其中，S(U_C1)、S(U_C2)、S(U_C3)分别表示经过4×4、2×2、1×1平均池化和最大池化后的输出，R(.)表示将张量重新调整为向量操作，A表示自适应平均池化操作，M表示自适应最大池化操作，C(.)表示串联操作。

高效选择核网络训练的处理步骤如下：

首先，对六通道图像进行误差水平分析，提取得到误差分析图像。随后，将这些特征图作为输入，通过ESKNet进行深层特征提取。ESKNet由多个关键层组成，包括7×7卷积层、3×3最大池化层以及两个block1、两个block2、两个block3和两个block4，这些层有助于捕捉图像中的关键信息和上下文特征。

需要说明的是，block1包括：两个1×1卷积层，128个卷积核，ESK层，其中M＝2，G＝32，r＝16，1×1卷积层，256个卷积核；block2包括：两个1×1卷积层，256个卷积核，ESK层，其中M＝2，G＝32，r＝16，1×1卷积层，512个卷积核；block3包括：两个1×1卷积层，512个卷积核，ESK层，其中M＝2，G＝32，r＝16，1×1卷积层，1024个卷积核；block4包括：两个1×1卷积层，1024个卷积核，ESK层，其中M＝2，G＝32，r＝16，1×1卷积层，2048个卷积核。

为了防止浅层特征在深层中消失，并更好地聚合浅层特征与高层语义特征，本申请引入了浅层特征增强模块(SFEM)，用于增强经过3×3最大池化层后的浅层特征。同时，采用特征融合模块(FFM)来融合浅层特征和经过两个block4后的深层特征，进一步提高模型的检测性能。

接着，将经过特征融合模块融合后的特征传递到全连接层(FC)，并经过softmax层进行分类。在整个网络的训练过程中，采用了端到端的训练方式，使用随机梯度下降(SGD)优化算法，并采用交叉熵损失函数来训练模型。为了获得更好的性能，我们选择了一些超参数：批处理大小为16，动量设置为0.9，学习率设为0.001，并进行了20个epoch的训练。

参考图2所示，在一些实施例中，所述高效选择核网络处理步骤包括：

A2、将两个所述特征图进行融合，得到融合特征图；

A3、将所述融合特征图映射至三个尺度，得到三个输出；

需要说明的是，本申请使用特征的空间关系生成空间注意力图，旨在解决位置信息丢失问题。与通道注意不同，空间注意强调了对“何处”信息的重视。参考图3所示，具体实现是通过平均池化和最大池化操作生成有效的特征描述符，接着通过7×7卷积操作降其维为1个通道，即H×W×1，最后使用sigmoid函数生成空间注意力特征。将该特征和该模块的输入特征做乘法，得到最终生成的特征。在这里将上一步得到的Vc1和Vc2两个特征图分别经过空间注意力机制模块生成注意力特征MS(Vc1)和MS(Vc2)，再将该特征分别与Vc1和Vc2做乘法得到特征Uc1和Uc2，最后将Uc1与Uc2相加的得到最终生成的特征向量Uc。描述如下：

U_C＝U_C1+U_C2，

其中，σ表示sigmoid激活函数，f^7×7表示滤波器大小为7的卷积运算，AvgPool表示平均池化，MaxPool表示最大池化，s指空间注意力机制中的权重矩阵，Uc是最终的输出。

ESKNet网络结构如下：

表1 ESKNet-26网络结构

每个ESK单元由一个1x1的卷积，ESK卷积，及1x1卷积组成，原网络中所有具有较大尺寸的卷积核都替换为ESK卷积从而可以使网络选择合适的感受野大小。

在ESK单元中，存在三个重要参数：M用于决定路径的数量，即选择不同卷积核尺寸进行融合的数量；G用于控制每个路径的基数；r用于控制fuse操作中的参数数量。

网络结构如表1所示。它有四个阶段，每个阶段分别有两个ESK单元。通过在每个阶段改变ESK单元的数量，可以得到不同的架构。所提出的ESK卷积模块可以应用于其他轻量级网络，例如ShuffleNet、MobileNet。

本申请中用提出的ESKNet网络对误差分析图像进行特征提取和分类。将误差分析图像作为输入，在完全连接和softmax层后用交叉熵损失函数对ESKNet网络进行训练。

需要说明的是，由于浅层特征包含更多的位置信息和细节信息，而细节信息对人脸融合检测至关重要。本申请中的浅层特征增强模块用于对从浅层获得的纹理特征进行增强，防止浅层特征在深层中消失。

参考图1和4所示，该模块首先使用最大池化保留图像纹理信息，然后利用1x1，3x3的卷积使得网络学习到更多的非线性关系的同时，结合两层密集连接的卷积层和空洞卷积使网络捕获更多的特征信息，拓宽特征的感受野。在这里，将浅层特征增强模块插入7x7卷积核之后。

需要说明的是，为进一步提高模型的检测性能，本申请提出了特征融合模块来有效地聚合浅层特征与深层特征。浅层特征分辨率高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性低。而高层特征具有更强的语义信息，但是分辨率很低，对细节的感知能力较差。将两者高效融合可以进一步地提高模型的检测性能。

参考图5所示，本申请提出利用特征融合模块来有效地聚合这些特征。鉴于特征的不同层次，首先将增强后的低层次纹理特征和高层次语义特征连接起来。然后将连接的特征合并到一个特征向量中，并计算权重向量。该权重向量可以对特征重新加权，这相当于特征选择和组合。

具体实验数据如下：

一、数据集和评估标准

实验采用了两个标准数据集FEI_M、HNU，数据集的样本分布如下表2和表3所示。在实际应用中，融合图像的像素以及位置可能会按不同比例进行融合。因此，为了更好地模拟真实场景，在HNU的FaceMDB2和FaceMDB3数据集中采用了0.1-0.9的随机值作为像素和位置融合因子，在FaceMDB4数据集中则随机选取这两项因子。此外，为了解决表3中正负样本不均衡的问题，在这里将表3训练集以及验证集中的真实人脸通过上下翻转、左右翻转、亮度增强等六种方式对图像进行增强，增强后的数据集如表4所示。

为了评价该方案的有效性，将其实验结果与8种经典的方法进行了比较，并将结果分别记录在表5和表6中。在深度学习方法上面，考虑与ResNet18、ShuffleNet、MobileNet、SqueezeNet、PLFL和TSPR等6种方法进行对比。在非深度学习方法上面，考虑与BSIF和FS-SPN进行对比。通过与这些经典方法的比较，可以更好地评估本文提出的方法的优劣和适用性，以及其在实际应用中的表现。

此外，采用标准化的ISO度量指标:APCER、BPCER、ACER、ACC和EER对检测性能进行评价。其中APCER定义了被错误分类为真实图像的变形图像比例，BPCER定义了被错误分类为变形图像的真实图像比例，ACER定义为BPCER和APCER的平均值。此外，还提供了EER的结果，其中BPCER＝APCER。

表2 HNU数据集

表3FEI_M

表4FEIenhance_M

二、实验结果和分析

在单个数据集上评估了所提方案的性能，并将其与8种经典方法进行了比较。表5列出了提出的方法与其他方法的定量结果。

表5不同的方法在FEIenhance_M、HNU(MDB1)数据集上的性能比较

本申请的方法在FEIenhance_M和HNU(MDB1)数据集上的等错误率分别为0.03％和0.12％，表现出了卓越的性能。从表格中可以看出，深度学习方法在两个不同的数据集上表现普遍优于非深度学习方法。在深度学习方法中，PLFL的检测性能优于其他网络；而在非深度学习方法中，FS-SPN表现最佳。与8种不同的攻击检测技术相比，我们的方法表现出了优异的性能。表6显示了在不同的像素融合因子数据集上评估检测方案的性能。

表6不同的方法在HNU(FaceMDB2)、HNU(FaceMDB3)、HNU(FaceMDB4)数据集上的性能

本申请提出的方法在HNU(FaceMDB2)、HNU(FaceMDB3)和HNU(FaceMDB4)三个数据集上的等错误率分别为1.00％、1.21％和0.51％，表现出了优异的性能。与其他8种不同的检测技术相比，本申请的人脸融合攻击检测方法在这些数据集上具有出色的检测性能。

首先，本申请采用多颜色空间ELA技术，允许对图像在不同颜色空间中进行误差分析，通过在多颜色空间进行误差水平分析，能够更全面地突出真实人脸和融合人脸之间的微小差异，从而更好地学习关键特征，提高检测的准确性。其次，提出了ESKNet的高效选择核网络，ESKNet模块在集成结构信息与结构正则的同时解决了SK模块中全局平均池化操作带来位置信息和纹理信息丢失的问题，可以使神经元能够更好地根据不同尺寸的输入信息自适应的调整其感受野的大小，从而更好地捕捉不同尺度的图像特征。这样的自适应机制提高了网络的性能和鲁棒性，使其更适用于复杂的人脸融合检测场景。通过浅层特征增强模块和特征融合模块，在增加少量参数的情况下进一步提高检测性能。此外，该申请还具有较低的复杂度，能够在实际应用中高效运行。总体而言，该技术方案的引入有效地解决了融合人脸检测中存在的错误率高、鲁棒性差和系统复杂度高等问题，提升了人脸融合攻击检测的准确性和可靠性。

本申请还提供了一种人脸融合攻击检测装置，包括：

本申请还提供了一种终端设备，包括：

存储器，用于存储计算机程序；

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现所述的人脸融合攻击检测方法。

应该理解的是，虽然上述实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种人脸融合攻击检测方法，其特征在于，包括以下步骤：

S1、对选取的人脸图像进行预处理，得到预处理图像；

S3、提取误差分析图像中的深层特征和浅层特征；

2.根据权利要求1所述的人脸融合攻击检测方法，其特征在于，在S3中，利用高效选择核网络提取误差分析图像中的深层特征；所述高效选择核网络的训练过程包括：

S301、对选取的人脸图像进行预处理，得到预处理图像；

3.根据权利要求2所述的人脸融合攻击检测方法，其特征在于，所述高效选择核网络处理步骤包括：

A2、将两个所述特征图进行融合，得到融合特征图；

A3、将所述融合特征图映射至三个尺度，得到三个输出；

4.根据权利要求1或2所述的人脸融合攻击检测方法，其特征在于，所述浅层特征为：从误差分析图像中提取后，利用浅层特征增强模块增强后的浅层特征。

5.根据权利要求1所述的人脸融合攻击检测方法，其特征在于，所述S1，包括：

6.根据权利要求1所述的人脸融合攻击检测方法，其特征在于，所述S2，包括：

S201、获取所述预处理图像的多个不同颜色通道图像；

S202、分别提取所述颜色通道图像的误差分析图像。

7.根据权利要求6所述的人脸融合攻击检测方法，其特征在于，所述颜色通道包括：H、S、V、Y、Cb、Cr六个颜色通道。

8.一种人脸融合攻击检测装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于读取所述存储器中的计算机程序并执行如权利要求1-7任一项所述的人脸融合攻击检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的人脸融合攻击检测方法。