CN114913565B

CN114913565B - 人脸图像检测方法、模型训练方法、装置及存储介质

Info

Publication number: CN114913565B
Application number: CN202110116762.8A
Authority: CN
Inventors: 姚太平; 陈燊; 陈阳; 丁守鸿; 李季檩; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2023-11-17
Anticipated expiration: 2041-01-28
Also published as: US20230081645A1; WO2022161286A1; JP2023545565A; CN114913565A; JP7490141B2

Abstract

本申请关于一种人脸图像检测方法、模型训练方法、装置及存储介质，涉及人脸图像检测技术领域。所述方法包括：获取目标人脸图像；对目标人脸图像进行频域变换，获得目标人脸图像的频域图像；获取目标人脸图像对应的空域特征以及频域特征；对空域特征和频域特征进行融合，获得目标人脸图像的融合特征；基于目标人脸图像的融合特征，获取用于指示目标人脸图像是否为伪造人脸图像的检测结果。通过上述方法，使得在人脸图像检测过程中，综合考虑图像在空域和频域上的特征，同时将两者的特征信息进行融合来获取人脸图像的融合特征，使得获取到的目标人脸图像的融合特征更为准确，进而使得利用该融合特征获取的目标人脸图像检测结果更加准确。

Description

人脸图像检测方法、模型训练方法、装置及存储介质

技术领域

本申请涉及人脸图像检测技术领域，特别涉及人脸图像检测方法、模型训练方法、装置及存储介质。

背景技术

深度人脸伪造技术推动了娱乐与文化交流产业的新兴发展，但同时也给人脸安全带来巨大的潜在威胁，因此，需要对伪造图像进行检测。

在相关技术中，针对人脸的伪造图像检测技术为通过虚假内容的特定伪造痕迹进行判断，如眨眼模式、生物特征等；比如，通过对视频序列中的人眼区域进行提取，再结合神经网络对人眼序列进行建模，以区分是否为伪造人脸图像或视频。

然而，上述技术中的基于人脸伪造痕迹的人脸图像检测模型仅针对包含特定伪造痕迹的换脸视频具有良好的表现，泛化性较差，同时随着换脸技术的成熟，生成的伪造人脸逐渐具有了和真实人脸一致的生物模式，使得上述方法的检测准确性较低。

发明内容

本申请实施例提供了一种人脸图像检测方法、模型训练方法、装置及存储介质，可以提高对人脸图像的真伪检测的准确性，该技术方案如下：

一方面，提供了一种人脸图像检测方法，所述方法包括：

获取目标人脸图像；

对所述目标人脸图像进行频域变换，获得所述目标人脸图像的频域图像；

基于所述目标人脸图像进行特征提取，获得所述目标人脸图像的空域特征；

基于所述频域图像进行特征提取，获得所述目标人脸图像的频域特征；

对所述空域特征和所述频域特征进行融合，获得所述目标人脸图像的融合特征；

基于所述目标人脸图像的融合特征，获取所述目标人脸图像的检测结果，所述检测结果用于指示所述目标人脸图像是否为伪造人脸图像。

另一方面，提供了一种人脸图像检测模型训练方法，所述人脸图像检测模型包括：注意力融合网络、伪造人脸图像确定网络以及解码器，所述注意力融合网络用于基于人脸图像的空域特征以及频域特征，获取所述人脸图像的融合特征；所述方法包括：

获取图像样本集；所述图像样本集中包括至少两个人脸图像样本对，所述人脸图像样本对中包含人脸图像正样本和人脸图像负样本，各个人脸图像样本具有对应的人脸图像样本标签，所述人脸图像样本标签包括真实人脸标签和伪造人脸标签；

通过所述图像样本集，对所述人脸图像检测模型进行训练；

其中，所述人脸图像检测模型用于执行以下操作：获取目标人脸图像，对所述目标人脸图像进行频域变换，获得所述目标人脸图像的频域图像，基于所述目标人脸图像进行特征提取，获得所述目标人脸图像的空域特征，基于所述频域图像进行特征提取，获得所述目标人脸图像的频域特征，对所述空域特征和所述频域特征进行融合，获得所述目标人脸图像的融合特征，基于所述目标人脸图像的融合特征，获取所述目标人脸图像的检测结果，所述检测结果用于指示所述目标人脸图像是否为伪造人脸图像。

另一方面，提供了一种人脸图像检测装置，所述装置包括：

目标人脸图像获取模块，用于获取目标人脸图像；

频域图像获取模块，用于对所述目标人脸图像进行频域变换，获得所述目标人脸图像的频域图像；

空域特征提取模块，用于基于所述目标人脸图像进行特征提取，获得所述目标人脸图像的空域特征；

频域特征提取模块，用于基于所述频域图像进行特征提取，获得所述目标人脸图像的频域特征；

融合特征获取模块，用于对所述空域特征和所述频域特征进行融合，获得所述目标人脸图像的融合特征；

检测结果获取模块，用于基于所述目标人脸图像的融合特征，获取所述目标人脸图像的检测结果，所述检测结果用于指示所述目标人脸图像是否为伪造人脸图像。

在一种可能的实现方式中，所述融合特征获取模块，用于通过人脸图像检测模型的注意力融合网络，对所述空域特征和所述频域特征进行基于注意力机制的融合，获得所述目标人脸图像的所述融合特征；

其中，所述人脸图像检测模型是通过人脸图像样本以及所述人脸图像样本对应的人脸图像样本标签训练获得的。

在一种可能的实现方式中，所述融合特征获取模块，包括：

特征融合子模块，用于通过所述注意力融合网络，在n个层级上对所述空域特征和所述频域特征进行基于注意力机制的融合，获得所述n个层级对应的中间融合特征；n为正整数；

特征拼接子模块，用于对所述n个层级对应的所述中间融合特征进行拼接，获得所述目标图像的所述融合特征。

在一种可能的实现方式中，所述中间融合特征是基于融合空域特征和融合频域特征获得的；所述融合空域特征是对所述空域特征和所述频域特征进行基于注意力机制的融合后获得的空域上的特征，所述融合频域特征是对所述空域特征和所述频域特征进行基于注意力机制的融合后获得的频域上的特征；

所述特征融合子模块，包括：

融合特征获取单元，用于在第t个层级上，将第t-1个层级上的所述融合空域特征，以及所述第t-1个层级上的所述融合频域特征输入至所述注意力融合网络，获得所述第t个层级上的所述融合空域特征，以及所述第t个层级上的所述融合频域特征；

融合特征拼接单元，用于对所述第t个层级上的所述融合空域特征，以及所述第t个层级上的所述融合频域特征进行拼接，生成所述第t个层级对应的所述中间融合特征；

其中，所述第t个层级是所述n个层级中的任意一个；1≤t≤n，且t、n均为正整数。

在一种可能的实现方式中，所述融合特征获取单元，包括：

注意力图获取子单元，用于在第t个层级上，将所述第t-1个层级上的所述融合空域特征，所述第t-1个层级上的所述融合频域特征输入至所述注意力融合网络中的注意力提取子网络，获取所述注意力提取子网络输出的，所述第t个层级上的空域注意力图和所述第t个层级上的频域注意力图；所述空域注意力图用于指示所述融合空域特征的权重；所述频域注意力图用于指示所述融合频域特征的权重；

融合空域特征获取子单元，用于基于所述第t-1个层级上的所述融合空域特征以及所述第t个层级上的所述空域注意力图，生成所述第t个层级上的所述融合空域特征；

融合频域特征获取子单元，用于基于所述第t-1个层级上的所述融合频域特征以及所述第t个层级上的所述频域注意力图，生成所述第t个层级上的所述融合频域特征。

在一种可能的实现方式中，所述检测结果获取模块，包括：

相似性集合获取子模块，用于对所述目标人脸图像的所述融合特征进行局部区域相似性提取，获取所述目标人脸图像对应的局部区域相似性集合；

检测结果获取子模块，用于基于所述局部区域相似性集合，获取所述目标人脸图像的所述检测结果。

在一种可能的实现方式中，所述检测结果获取子模块，包括：

伪造概率获取单元，用于将所述局部区域相似性集合输入人脸图像检测模型的伪造人脸图像确定网络，获取所述伪造人脸图像确定网络输出的所述目标人脸图像对应的伪造人脸图像概率；

伪造人脸图像确定单元，用于基于所述伪造人脸图像概率确定所述目标人脸图像是否为伪造人脸图像；

在一种可能的实现方式中，所述装置还包括：

伪造人脸区域获取模块，用于响应于所述目标人脸图像为伪造人脸图像，基于所述目标人脸图像的所述融合特征，获取所述目标人脸图像对应的伪造人脸区域。

另一方面，提供了一种人脸图像检测模型训练装置，所述人脸图像检测模型包括：注意力融合网络、伪造人脸图像确定网络以及解码器，所述注意力融合网络用于基于人脸图像的空域特征以及频域特征，获取所述人脸图像的融合特征；所述装置包括：

图像样本集获取模块，用于获取图像样本集；所述图像样本集中包括至少两个人脸图像样本对，所述人脸图像样本对中包含人脸图像正样本和人脸图像负样本，各个人脸图像样本具有对应的人脸图像样本标签，所述人脸图像样本标签包括真实人脸标签和伪造人脸标签；

模型训练模块，用于通过所述图像样本集，对所述人脸图像检测模型进行训练；

在一种可能的实现方式中，所述模型训练模块，包括：

伪造人脸区域图像获取子模块，用于基于所述图像样本集中的至少两个所述人脸图像样本对，获取各个所述人脸图像样本对对应伪造人脸区域图像；

相似性集合获取子模块，用于获取各个所述伪造人脸区域图像的真实局部区域相似性集合；

模型训练子模块，用于基于各个所述人脸图像样本，以及各个所述人脸图像样本对应的训练标签，对人脸图像检测模型进行训练，所述训练标签包括所述人脸图像样本标签、所述伪造人脸区域图像以及所述伪造人脸区域图像的真实局部区域相似性集合。

在一种可能的实现方式中，所述模型训练子模块，包括：

预测结果获取单元，用于将各个所述人脸图像样本输入所述人脸图像检测模型，获得各个所述人脸图像样本对应的预测结果；所述预测结果包括预测人脸图像样本标签、预测伪造人脸区域图像以及预测局部区域相似性；

损失函数计算单元，用于基于各个所述人脸图像样本对应的所述训练标签，以及各个所述人脸图像样本对应的所述预测结果，计算损失函数；

模型参数更新单元，用于基于所述损失函数，对人脸图像检测模型进行参数更新。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述人脸图像检测方法。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述人脸图像检测模型训练方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现上述人脸图像检测方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现上述人脸图像检测模型训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的人脸图像检测方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的人脸图像检测模型训练方法。

本申请提供的技术方案可以包括以下有益效果：

通过获取目标人脸图像在空域和频域上的特征信息，并依据目标人脸图像在空域和频域上的特征信息获取目标人脸的融合特征，基于该融合特征对该目标人脸图像进行伪造人脸识别，使得在人脸图像检测过程中，综合考虑图像在空域和频域上的特征，同时将两者的特征信息进行融合来获取人脸图像的融合特征，使得获取到的目标人脸图像的融合特征更为准确，进而使得利用该融合特征获取的目标人脸图像检测结果更加准确。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了本申请一示例性实施例提供的人脸图像检测方法所使用的系统结构的示意图；

图2示出了本申请一示例性实施例提供的人脸图像检测方法的流程图；

图3是根据一示例性实施例示出的一种人脸图像检测模型训练以及人脸图像检测的框架图；

图4示出了本申请一示例性实施例示提供的人脸图像检测模型的训练方法的流程图；

图5示出了本申请一示例性实施例提供的人脸图像检测模型训练以及人脸图像检测方法的流程图；

图6示出了本申请一示例性实施例提供的人脸图像样本的示意图；

图7示出了本申请一示例性实施例提供的注意力提取子网络的工作示意图；

图8示出了本申请一示例性实施例提供的人脸图像检测过程的示意图；

图9示出了本申请一示例性实施例提供的人脸图像检测装置的方框图；

图10示出了本申请一示例性实施例提供的人脸图像检测模型训练装置的方框图；

图11示出了本申请一示例性实施例示出的计算机设备的结构框图；

图12示出了本申请一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供了一种人脸图像检测方法，可以实现互动视频观看者之间的互动操作，同时提高了互动控件设置的灵活性。为了便于理解，下面对本申请涉及的几个名词进行解释。

1)人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请所示的包含图像采集组件的显示设备主要涉及其中的计算机视觉技术以及机器学习/深度学习等方向。

2)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

3)空间域(Spatial Domain)

空间域，又称图像空间(Image Space)，是由图像像素组成的空间。在图像空间中以长度(距离)为自变量直接对像素值进行处理称为空间域处理。

4)频率域(Spatial Frequency Domain)

频率域，是指以频率(波数)为自变量描述图像的特征，可以将一幅预想的图像像素值在空间上的变化分解为具有不同振幅、空间频率和相位的简振函数的线性叠加，图像中各种频率成分的组成和分布称为空间频谱。这种对图像的频率特征进行分解、处理和分析称为频率与处理或波数域处理。

频率域处理主要用于与图像空间频率有关的处理中。如图像恢复、图像重建、辐射变换、边缘增强、图像锐化、图像平滑、噪声压制、频谱分析、纹理分析等处理和分析中。

本申请实施例中的空域表示空间域，频域表示频率域。

5)注意力机制(Attention Mechanism)

注意力机制，其本质是一种通过网络自主学习出的一组权重系数，并以“动态加权”的方式来强调用户感兴趣的区域，同时抑制不相关背景区域的机制。在计算机视觉领域中，注意力机制可以大致分为两大类：强注意力和软注意力。

注意力机制常被运用在RNN(Recurrent Neural Network，循环神经网络)上，带有注意力机制的RNN，在每次处理目标图像的部分像素时，都会根据当前状态的前一个状态所关注的，目标图像的部分像素去处理，而不是根据目标图像的全部像素，可以减少任务的处理复杂度。

图1示出了本申请一示例性实施例提供的人脸图像检测方法所使用的系统结构的示意图，如图1所示，该系统包括：服务器110以及终端120。

其中，上述服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

上述终端120为具有人脸图像检测功能的终端，比如，终端120可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、智能电视、智能车载设备、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

可选的，上述系统中包含一个或者多个服务器110，以及多个终端120。本申请实施例对于服务器110和终端120的个数不做限制。

终端以及服务器通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。本申请在此不做限制。

图2示出了本申请一示例性实施例提供的人脸图像检测方法的流程图，该方法由计算设备执行，该计算机设备可以实现为终端或服务器，该终端或服务器可以是图1所示的终端或服务器，如图2所示，该人脸图像检测方法包括以下步骤：

步骤210，获取目标人脸图像。

在一种可能的实现方式中，该目标人脸图像可以是包含人脸的静态图像，或者，也可以是包含人脸的动态图像；当该目标人脸图像是静态图像时，该目标人脸图图像可以是从视频中获取的包含人脸的视频帧图像，或者，也可以是通过终端的图像采集设备获取的人脸图像，或者，也可以是计算机设备本地存储的人脸图像等；当该目标人脸图像是动态图像时，该目标人脸图像可以是从视频中捕捉的包含连续人脸图像的动态图像，或者，也可以是计算机设备本地储存的包含人脸的动态图像等；本申请对目标人脸图像的获取方式以及类型不进行限制。

本申请所提供的方法可以对静态人脸图像中的人脸是否为伪造人脸进行检测，也可以实现对视频或者动态人脸图像中的人脸是否为伪造人脸进行检测。

在一种可能的实现方式中，目标人脸图像的数量可以是单张，或者，也可以是多张，比如，在确定视频中人脸的伪造概率时，为了提高对视频中的人脸是否为伪造人脸的检测的准确性，可以对视频中的视频帧进行多次采样，获得多张人脸图像，之后，基于对多张人脸图像的伪造人脸检测结果，获取该多张人脸图像对应的人脸视频是否为伪造人脸视频。

响应于人脸图像检测对象为人脸视频，对于输入的人脸视频，可以通过OpenCV对该人脸视频的视频帧进行等间隔采样，获取人脸视频中的多张人脸图像，其中，同一视频不同视频帧中的人脸图像可以是身份标识不同的人脸图像。

步骤220，对目标人脸图像进行频域变换，获得目标人脸图像的频域图像。

图像在空间域上表现为一个个的像素点，这些像素点相当于离散的的二维信号，因此在将空域转化为频域时，需要将离散的二维信号利用频域转化方法转化为二维坐标上的幅值变化。

步骤230，基于目标人脸图像进行特征提取，获得目标人脸图像的空域特征。

步骤240，基于频域图像进行特征提取，获得目标人脸图像的频域特征。

空域和频域为获取图像信息提供了不同的视角，在空域中，图像f(x，y)为定义在二维空间中的矩形区域上的离散函数，若将f(x，y)视为幅值变化的Erwin信号，则可通过频域转化方法在频域下对图像进行处理，从而获取到图像在频域中比较突出的特性。其中该频域转化方法可以包括傅里叶变换、离散余弦变换、沃尔什变换和小波变换等。

步骤250，对空域特征和频域特征进行融合，获得目标人脸图像的融合特征。

步骤260，基于目标人脸图像的融合特征，获取目标人脸图像的检测结果，该检测结果用于指示目标人脸图像是否为伪造人脸图像。

伪造人脸图像中的人脸是经过更换的人脸，比如，对五官中的全部或部分进行更换后的人脸，在本申请实施例中，伪造人脸图像是对伪造人脸图像对应的原始人脸图像中的人脸部分进行更换，而原始人脸图像中的背景保持不变后形成的人脸图像。伪造人脸图像可以表现为面部编辑，表情编辑等。

可选的，该伪造人脸图像可以是基于AI换脸技术生成的伪造人脸图像。

综上所述，本申请实施例提供的图像检测方法，通过获取目标人脸图像在空域和频域上的特征信息，并依据目标人脸图像在空域和频域上的特征信息获取目标人脸的融合特征，基于该融合特征对该目标人脸图像进行伪造人脸识别，使得在人脸图像检测过程中，综合考虑图像在空域和频域上的特征，同时将两者的特征信息进行融合来获取人脸图像的融合特征，使得获取到的目标人脸图像的融合特征更为准确，进而使得利用该融合特征获取的目标人脸图像检测结果更加准确。

在本申请实施例所述的方案中，基于同一人脸图像的空域特征和频域特征获取该人脸图像的融合特征，并基于该融合特征实现对人脸图像是否为伪造图像的判断，从而提高了对人脸图像的真伪进行检测的准确性。上述方案可以应用在例如人脸核身、司法验证、图片视频鉴真等场景。比如，上述方案的应用场景包括但不限于以下几种：

1、金融行业场景。

例如，在线上金融机构业务办理的场景中，当用户需要进行大额线上交易时，为实现对用户身份进行验证，需要对用户进行人脸图像或人脸视频的获取和实时检测，此时，若非法用户通过处理过后的人脸图像或人脸视频冒充合法用户进行虚假信息验证，则会给合法用户带来经济损失，此时，可以通过本申请所提供的人脸图像检测方法，获取用户进行身份验证的人脸图像或人脸视频中的一张或多张图像为目标人脸图像；对目标人脸图像进行频域变换，获得目标人脸图像的频域图像；基于目标人脸图像和频域图像分别提取目标人脸图像的空域特征和频域特征，之后，将该空域特征和频域特征进行融合，获得目标人脸图像的融合特征；基于该融合特征对目标人脸图像进行是否为伪造人脸图像的验证，以确定用户上传的人脸图像或者人脸视频的真实性，当检测结果指示该人脸图像或人脸视频中的人脸图像为真实人脸图像时，即确认该人脸图像或人脸视频为真实图像或真实视频时，再对该人脸图像或人脸视频中的用户身份进行身份验证，从而保障合法用户的经济安全。

2、信息登记场景。

随着网络应用的普及，信息登记不仅限于线下登记，也可以通过相关应用程序完成信息登记，在信息登记中，往往需要对信息登记的真实性进行验证，比如，需要进行信息登记的用户上传一张人脸图像，或者，上传包含指定动作的人脸视频，以完善用户登记信息，此时，可以通过本申请提供的人脸图像检测方法对用户上传的人脸图像或人脸视频中的人脸真实性进行验证，以保证线上信息登记的准确性。

3、网络交友场景。

网络线上交友已成为当前社交的重要手段，在网络交友时，通过人脸伪造技术对人脸图像或人脸视频进行替换增加了网络交友的趣味性，比如，可以通过Deepfaks等换脸技术实现换脸操作，但同时，也使得网络交友的真实性较低，为了在网络交友过程中，实现对网络线上好友的人脸图像，或者实时在线视频中的人脸图像的真实性的验证，可以通过本申请提供的人脸图像检测方法，对网络交友过程获取的人脸图像或实时在线视频中的人脸真实性进行检测，在确定当前人脸图像或人脸视频为伪造的人脸图像或人脸视频后，可以在人脸图像或人脸图像上显示伪造提示标识，比如，添加伪造人脸水印等，从而在保持网络线上交友趣味性的同时，反馈给用户真实的信息。

本申请涉及的方案包括人脸图像检测模型训练阶段和人脸图像检测阶段。图3是根据一示例性实施例示出的一种人脸图像检测模型训练以及人脸图像检测的框架图，如图3所示，在人脸图像检测模型训练阶段，人脸图像检测模型训练设备310通过预先设置好的训练样本(包括图像样本集以及训练标签，该训练标签包括各个人脸样本图像的图像样本标签、伪造人脸区域图像以及伪造人脸区域图像的真实局部区域相似性集合)，得到人脸图像检测模型。在人脸图像检测阶段，人脸图像检测设备320基于该人脸图像检测模型，对输入的目标人脸图像进行伪造人脸概率检测，判断目标人脸图像是否为伪造人脸图像。

其中，上述人脸图像检测模型训练设备310和人脸图像检测设备320可以是计算机设备，比如，该计算机设备可以是个人电脑、服务器等固定式计算机设备，或者，该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。

可选的，上述人脸图像检测模型训练设备310和人脸图像检测设备320可以是同一个设备，或者，人脸图像检测模型训练设备310和人脸图像检测设备320也可以是不同的设备。并且，当人脸图像检测模型训练设备310和人脸图像检测设备320是不同设备时，人脸图像检测模型训练设备310和人脸图像检测设备320可以是同一类型的设备，比如人脸图像检测模型训练设备310和人脸图像检测设备320可以都是服务器；或者人脸图像检测模型训练设备310和人脸图像检测设备320也可以是不同类型的设备，比如人脸图像检测设备320可以是个人电脑或者终端，而人脸图像检测模型训练设备310可以是服务器等。本申请实施例对人脸图像检测模型训练设备310和人脸图像检测设备320的具体类型不做限定。

图4示出了本申请一示例性实施例示提供的人脸图像检测模型的训练方法的流程图，该人脸图像检测模型包括：注意力融合网络、伪造人脸图像确定网络以及解码器，该注意力融合网络用于基于人脸图像的空域特征以及频域特征，获取所述人脸图像的融合特征；该方法可以由计算机设备执行，该计算机设备可以实现为终端或服务器，该终端或服务器可以是图1所示的终端或服务器，如图4所示，该人脸图像检测模型的训练方法包括以下步骤：

步骤410，获取图像样本集；该图像样本集中包括至少两个人脸图像样本对，该人脸图像样本对中包含人脸图像正样本和人脸图像负样本，各个人脸图像样本具有对应的人脸图像样本标签，该人脸图像样本标签包括真实人脸标签和伪造人脸标签。

或者，图像样本集中包括人脸图像正样本集和人脸图像负样本集，其中，人脸图像正样本集中的人脸图像样本表示真实人脸图像样本，人脸图像样本集中的人脸负图像样本表示伪造人脸图像样本；人脸图像正样本集中的真实人脸图像样本与人脸图像负样本集中的伪造人脸图像样本一一对应，人脸图像正样本集中的真实人脸像样本与人脸图像负样本集中对应的伪造人脸图像样本组成一组人脸图像样本对。

在一种可能的实现方式中，在获取人脸图像样本时，可以将视频中包含人脸的视频帧获取为人脸图样本，该过程实现为：获取人脸视频，该人脸视频是指视频中包含人脸图像的视频；对人脸视频进行采样处理，获得人脸视频帧，该人脸视频帧用以指示视频中包含人脸的视频帧；对该视频帧进行人脸检测，获取该视频帧中的人脸区域，基于该人脸区域获取人脸图像样本。

由于换脸视频数据集中大都存在类别不平衡的现象，即伪造视频的数量往往多于真实视频的数量，因此在获取人脸图像样本对应的人脸视频时，可以通过下采样的方式进行人脸视频的获取，即从每个真实视频对应的所有伪造视频中采样一个伪造视频，从而保证训练样本集中正负样本来源的平衡，即对于每个真实人脸视频，在进行图像样本采集时，只获取其对应的一个伪造人脸视频进行人脸图像负样本的采集。

在进行样本图像采集的过程中，可以按照真实人脸视频和伪造人脸视频的帧序，从每个视频包含的人脸图像视频帧中等间隔采样N帧，构成训练样本集中的人脸图像正样本集以及人脸图像负样本集。

在一种可能的实现方式中，通过0和1表示人脸图像样本标签，比如，0表示人脸图像样本标签为真实人脸标签，1表示人脸图像样本标签为伪造人脸标签。

步骤420，通过图像样本集，对人脸图像检测模型进行训练。

其中，该人脸图像检测模型用于执行以下操作：获取目标人脸图像，对目标人脸图像进行频域变换，获得目标人脸图像的频域图像，基于目标人脸图像进行特征提取，获得目标人脸图像的空域特征，基于频域图像进行特征提取，获得目标人脸图像的频域特征，对空域特征和频域特征进行融合，获得目标人脸图像的融合特征，基于目标人脸图像的融合特征，获取目标人脸图像的检测结果，该检测结果用于指示目标人脸图像是否为伪造人脸图像。

该伪造人脸图像确定网络用于确定该目标人脸图像是否为伪造人脸图像，该解码器用以生成目标人脸图像中的伪造人脸区域图像。

综上所述，本申请实施例提供的人脸图像检测模型训练方法，通过基于图像样本集获得包括注意力融合网络、伪造人脸图像确定网络以及解码器的人脸图像检测模型，使得在人脸图像检测的过程中，利用上述人脸图像检测模型综合考虑人脸图像在空域和频域上的特征，同时将两者的特征信息进行融合来获取人脸图像的融合特征，使得获取到的目标人脸图像的融合特征更为准确，进而使得利用该融合特征获取的目标人脸图像检测结果更加准确。

图5示出了本申请一示例性实施例提供的人脸图像检测模型训练以及人脸图像检测方法的流程图，该方法由计算机设备执行，该计算机设备可以实现为终端或服务器，该终端或服务器可以是图1所示的终端或服务器，如图5所示，该人脸图像检测模型训练以及人脸图像检测方法包括以下步骤：

步骤510，获取图像样本集；该图像样本集中包括至少两个人脸图像样本对，该人脸图像样本对中包含人脸图像正样本和人脸图像负样本，各个人脸图像样本具有对应的人脸图像样本标签，人脸图像样本标签包括真实人脸标签和伪造人脸标签。

步骤520，通过图像样本集，对人脸图像检测模型进行训练。

在一种可能的实现方式中，计算机设备可以基于mini-batch的方法从训练集中随机采样B张人脸图像样本以及对应的伪造人脸区域图像，该伪造人脸区域图像是基于人脸图像样本对获取的对应于各个人脸图像样本的伪造区域图像，该人脸图像样本可以包括人脸图像正样本和人脸图像负样本，并对采样获得的人脸图像样本以及对应的伪造人脸区域图像进行数据增强处理，比如，通过随机翻转、模糊处理、JPEG压缩等操作进行处理，基于处理后的人脸图像样本以及伪造人脸区域图像对人脸图像检测模型进行训练。

在对人脸图像检测模型进行训练的过程中，该方法还包括：

S521，基于图像样本集中的至少两个人脸图像样本对，获取各个人脸图像样本对对应伪造人脸区域图像。

在本申请实施例中，伪造人脸区域是指人脸图像正样本与人脸图像负样本中与真实人脸图像存在差异的区域，由于人脸图像正样本与真实人脸图像并无差异，因此人脸图像正样本对应的伪造人脸区域图像的像素值可以全部为0。在一种可能的实现方式中，对于人脸图像负样本对应的伪造人脸区域而言，人脸图像负样本对应的伪造人脸区域可以通过对应的人脸图像正样本与人脸图像负样本之间的像素差异进行获取。图6示出了本申请一示例性实施例提供的人脸图像样本的示意图，如图6所示，图6中的人脸图像610为人脸图像正样本，即真实人脸图像，人脸图像集620中的人脸图像为对应于人脸图像610的人脸图像负样本，基于人脸图像正样本与人脸图像负样本之间的像素差异获取伪造人脸区域，获得伪造人脸区域图像，即如图6的伪造人脸区域图像集630中所示的伪造人脸区域图像。其中，人脸图像样本中的真实部分，即人脸图像样本中与真实人脸图像相同的像素部分可以用0表示，人脸图像样本中的伪造部分，即人脸图像样本中与真实人脸图像样本中存在差异的像素部分可以用1表示。由于人脸图像正样本与真实人脸图像之间不存在差异，因此将人脸图像正样本对应的伪造人脸区域图像的像素值全设置为0，对应显示为图6中的伪造人脸区域图像631。

S522，获取各个伪造人脸区域图像的真实局部区域相似性集合。

上述过程可以实现为，对各个伪造人脸区域图像进行区域划分，获得各个伪造人脸区域图像对应的至少两个区域；

对每个伪造人脸区域图像而言，获取至少两个区域分别对应的伪造人脸面积占比；

基于各个区域分别对应的伪造人脸面积占比，计算各个区域与其他区域之间的欧式距离的集合，获取各个伪造人脸区域图像对应的真实局部区域相似性集合。

其中，对伪造人脸面积占比的计算可以实现为，获取各个区域中伪造像素的个数；将各个区域中伪造像素的个数占对应区域中总像素个数的占比，获取为各个区域对应的伪造人脸面积占比。

在一种可能的实现方式中，对人脸图像样本进行的区域划分可以是等间距划分，比如，将人脸图像样本划分为5x5个区域，之后利用各个区域中的伪造人脸面积占比计算各个区域与其他区域的欧式距离。

其中，各个区域与其他区域之间的欧式距离是指各个区域对应的伪造人脸面积占比与其他区域对应的伪造人脸面积占比之间的欧式距离，其计算公式为：

其中，d_ij表示欧式距离，p_i表示第i个区域对应的伪造人脸面积占比，p_j表示第j个区域对应的伪造人脸面积占比，比如第i个区域的伪造人脸面积占比为0.25，第j个区域的伪造人脸面积占比为0.5，那么第i个区域与第j个区域之间的欧式距离即为1/4。

其中，该真实局部区域相似性是基于各个区域与其他区域的欧式距离的计算获得矩阵，比如，该矩阵的第i行第j列的数值表示i个区域与第j个区域的相似度距离，其中，该真实局部区域相似性的计算公式为：

S_ij＝1-d_ij

其中，S_ij表示第i个区域与第j个区域之间的真实局部区域相似性。

S523，基于各个人脸图像样本，以及各个人脸图像样本对应的训练标签，对人脸图像检测模型进行训练，该训练标签包括人脸图像样本标签、伪造人脸区域图像以及伪造人脸区域图像的真实局部区域相似性集合。

在一种可能的实现方式中，上述过程实现为：将图像样本集中的各个人脸图像样本输入人脸图像检测模型，获得各个人脸图像样本对应的预测结果，该预测结果包括预测人脸图像样本标签、预测伪造人脸区域图像以及预测局部区域相似性；

基于各个人脸图像样本对应的训练标签，以及各个人脸图像样本对应的预测结果，计算损失函数；

基于该损失函数，对人脸图像检测模型进行参数更新。

由于需要使得人脸图像检测模型基于人脸图像样本的预测结果(即预测检测结果)与人脸图像样本对应的训练标签相同或相近，才可以保证人脸图像检测模型在应用时对目标人脸图像进行检测的准确性，因此需要在人脸图像检测模型的训练过程中进行多次训练，更新人脸图像检测模型中各个网络中的各个参数，直至人脸图像检测模型收敛。

在本申请实施例中，该损失函数包括用于分类的二值交叉熵损失用于解码器的分割损失和用于局部区域相似性学习的相似性损失基于三个损失的加权求和获得人脸图像检测模型的损失值，各个函数对应的公式如下：

其中，表示人脸图像检测模型的损失，y和分别表示人脸图像样本标签的真实值和预测值，s和分别表示局部区域相似性的真实值和预测值，M和分别表示局部区域相似性集合的真实值和与预测值，M_ij表示局部区域相似性集合第i行第j列的值，λ₁和λ₂为控制不同损失函数间的平衡系数。λ₁和λ₂的值可以根据模型训练的不同需求进行设置和调节，比如，在本申请实施例中λ₁和λ₂的值可以分别设置为10和0。

在一种可能的实现方式中，通过优化算法更新人脸图像检测模型中各个网络的参数，多次迭代优化结果，比如，该优化算法可以是Adam算法。可选的，在人脸图像检测模型的训练过程中，设置有验证集，根据验证集的准确率进行模型的选择和学习率的衰减，以防止人脸图像检测模型过拟合。

为了防止人脸图像检测模型基于人脸识别的结果直接对人脸图像的真伪进行判断，造成的对人脸图像真伪的误判断，在一种可能的实现方式中，在进行图像样本集构造时，可以设置不同人脸图像样本对对应的身份标识没有重合，以避免人脸图像检测模型在判断出当前人脸图像样本为身份标识为指定身份标识后，直接将人脸图像归类为真实人脸或伪造人脸的情况。比如，在模型训练过程中身份标识为A的人脸图像有多个，在进行模型训练时，由于人脸图像检测模型在上一次检测是判断身份标识为A的人脸图像1为真实人脸图像，在下一次输入身份标识为A的人脸图像2时，该人脸图像模型可能会直接将该人脸图像确定为是真实人脸图像。

步骤530，获取目标人脸图像。

该目标人脸图像可以是单张人脸图像，也可以是包含多张人脸图像的目标人脸视频，当目标人脸图像实现为目标人脸视频时，对目标人脸视频进行采样，获得视频帧图像，比如，利用OpenCV对视频帧等间隔采样，以获得目标人脸图像。其中，对目标人脸视频的采样帧数可以根据实际需求进行增加或减少，以获取不同数量的视频信息。在基于人脸视频获得至少两个视频帧图像后，基于人脸检测技术识别并裁剪该至少两个视频帧图像中的人脸区域，获得目标人脸图像，其中，该人脸检测技术可以包括MTCNN技术。

在一种可能的实现方式中，还可以将基于人脸检测技术识别并裁剪获得的人脸图像以人脸区域为中心进行扩大，将扩大后的人脸图像获取为目标人脸图像，例如，可以基于人脸检测技术识别并裁剪获得的人脸图像以人脸区域为中心扩大1.2倍，1.5倍或2倍后，获取为目标人脸图像，上述放大倍数仅为示意性的，本申请对此不进行限制。

步骤540，对目标人脸图像进行频域变换，获得目标人脸图像的频域图像。

在一种可能的实现方式中，可以通过离散余弦变换实现对目标人脸图像的频域变化，即首先通过离散余弦变换(Discrete Cosine Transform，DCT)将目标人脸图像转换到频域空间，并过滤图像的低频信息，从而放大目标人脸图像在高频下的伪造痕迹，接着通过逆离散余弦变换变换回易于卷积神经网络训练的频域图像。

或者，也可以通过离散傅里叶变换或者快速傅里叶变换等方法提取频域信息，获得目标人脸图像的频域图像，本申请对获取目标人脸图像的频域图像的方式不进行限制。

步骤550，基于目标人脸图像进行特征提取，获得目标人脸图像的空域特征。

在一种可能的实现方式中，通过将目标人脸图像输入到编码器中，通过编码器中的卷积层，对目标人脸图像进行特征提取，获得目标人脸图像对应的高分辨率特征；通过编码器中的池化层，对高分辨率特征进行下采样处理，获得目标人脸图图像的空域特征。

步骤560，基于频域图像进行特征提取，获得目标人脸图像的频域特征。

在一种可能的实现方式中，通过将目标人脸图像的频域图像输入到编码器中，通过编码器中的卷积层，对频域图像进行特征提取，获得目标人脸图像对应的高分辨率特征；通过编码器中的池化层，对高分辨率特征进行下采样处理，获得目标人脸图图像的频域特征。

步骤570，通过人脸图像检测模型的注意力融合网络，对空域特征和频域特征进行基于注意力机制的融合，获得目标人脸图像的融合特征。

其中，该人脸图像模型是通过人脸图像样本以及人脸图像样本对应的训练标签训练获得的，对人脸图像模型进行训练的过程可以参考步骤510和步骤520的相关说明，此处不再赘述，

计算机设备将目标人脸图像的空域特征和频域特征输入到人脸图像检测模型的注意力融合网络中，获得注意力融合网络输出的目标人脸图像的融合特征。其中，该注意力融合网络包括n个层级，n为正整数。在生成目标人脸图像的融合特征的过程中，上述过程包括：

通过注意力融合网络，在n个层级上对空域特征和频域特征进行基于注意力机制的融合，获得n个层级对应的中间融合特征；

对n个层级对应的中间融合特征进行拼接，获得目标图像的融合特征。

该中间融合特征是指空域特征和频域特征经过不同层级的子网络进行注意力融合处理之后，各个层级的子网络输出的目标图像的特征，即中间融合特征是基于融合空域特征和融合频域特征获得的；该融合空域特征是对空域特征和频域特征进行基于注意力机制的融合后获得的空域上的特征，该融合频域特征是对空域特征和频域特征进行基于注意力机制的融合后获得的频域上的特征。

对于n个层级中的第t个层级，在第t个层级上，将第t-1个层级上的融合空域特征，以及第t-1个层级上的融合频域特征输入至注意力融合网络，获得第t个层级上的融合空域特征，以及第t个层级上的融合频域特征；

对第t个层级上的融合空域特征，以及第t个层级上的融合频域特征进行拼接，生成第t个层级对应的中间融合特征；

其中，第t个层级是n个层级中的任意一个；1≤t≤n，且t、n均为正整数。

也就是说，对于第t个层级，其输入包括第t-1个层级上的融合空域特征，以及第t-1个层级上的融合频域特征，当t＝1时，其输入为基于目标人脸图像提取的空域特征以及基于目标图像对应的频域图像提取的频域特征。

图像拼接(Image Mosaic)是指通过对齐一系列空间重叠的图像，构成一个无缝的，高清晰的图像，图像拼接后的图像比单个图像具有更高的分辨率以及更大的视野，即图像拼接后的图像中包含更多的图像信息。通过对融合空间特征与融合频域特征进行拼接，以获取目标人脸图图像在空域和频域上的综合信息，即中间融合特征；通过对各个层级上的中间融合特征进行拼接，以获取目标人脸图像的融合特征。

在一种可能的实现方式中，该注意力融合网络中包含注意力提取子网络，用于基于输入的融合空域特征(空域特征)和融合频域特征(频域特征)获取空域流中对应的空域注意力图，以及频域流对应的频域注意力图，从而基于上一个层级上的融合空域特征，当前层级上的空域注意力图生成当前层级的融合空域特征，基于上一个层级上的融合频域特征以及当前层级的频域注意力图生成当前层级的融合频域特征。该过程实现为：

在第t个层级上，将第t-1个层级上的融合空域特征，第t-1个层级上的融合频域特征输入至注意力融合网络中的注意力提取子网络，获取注意力提取子网络输出的，第t个层级上的空域注意力图和第t个层级上的频域注意力图；该空域注意力图用于指示融合空域特征的权重；该频域注意力图用于指示融合频域特征的权重；

基于第t-1个层级上的融合空域特征以及第t个层级上的空域注意力图，生成第t个层级上的融合空域特征；

基于第t-1个层级上的融合频域特征以及第t个层级上的频域注意力图，生成第t个层级上的融合频域特征。

图7示出了本申请一示例性实施例提供的注意力提取子网络的工作示意图，如图7所示，该注意力提取子网络包括核大小为1x1的卷积层(Conv_1x1)、批量归一化层(BatchNormalization，BN)，线性整流函数(ReLU)，3x3的卷积层(Conv_3x3)以及Sigmoid函数；在对融合频域特征(频域特征)和融合空域特征(空域特征)进行融合处理时，可以特征图的形式对频域特征和空域特征进行表示，如图7所示，分别表示网络第t-1层上的空域特征的特征图和第t-1层上的频域特征的特征图，将拼接在一起后，获得第t-1层上的中间融合特征U^t-1，之后通过核大小为1x1的卷积层(Conv_1x1)、批量归一化层(Batch Normalization，BN)和线性整流函数(ReLU)对空域特征和频域特征进行融合，最后通过核大小为3x3的卷积层(Conv_3x3)和Sigmoid函数得到第t个层级上的空域流对应的注意力图和第t个层级上的频域流对应的注意力图，即空域注意力图和频域注意力图之后，基于第t-1个层级上的融合空域特征以及第t个层级上的空域注意力图，生成第t个层级上的融合空域特征，比如，通过第t个层级上的空域注意力图指示的第t个层级上的融合空域特征的权重，对第t-1个层级上的融合空域特征进行加权，获得第t个层级上的融合空域特征；相应的，基于第t-1个层级上的融合频域特征以及第t个层级上的频域注意力图，生成第t个层级上的融合频域特征，比如，通过第t个层级上的频域注意力图指示的第t个层级上的融合频域特征的权重，对第t-1个层级上的融合频域特征进行加权，获得第t个层级上的融合频域特征。

步骤580，对目标人脸图像的融合特征进行局部区域相似性提取，获取目标人脸图像对应的局部区域相似性集合。

该目标人脸图像的融合特征表现为融合特征图，因此，在本申请实施例中，对目标人脸图像的融合特征对应的融合特征图进行区域划分，获得融合特征图对应的至少两个区域；

获取至少两个区域的特征向量；

提取至少两个区域中各个区域的特征向量与其他区域的特征向量之间的余弦距离的集合；

将至少两个区域的余弦距离的集合，获取为目标人脸图像对应的局部区域相似性集合。

示意性的，假设输出融合特征图的尺寸为20*20*512(宽、高、通道数)，切分成5*5个4*4*512的局部区域，然后将各个区域中的4*4*512特征向量按行或者按列展开成一维向量，基于5*5个区域中对应的一维向量，计算各个区域之间的余弦距离；其中，对融合特征图进行的区域划分的区域个数与计算伪造人脸区域图像的真实局部区域相似性时对伪造人脸区域图像的区域划分的区域个数保持一致，也就是说，将伪造人脸区域图像划分为5*5个区域，在对融合特征图进行划分时，也划分为5*5个区域。

两个局部区域之间的局部区域相似性越大，表示局部区域中被伪造的可能性越小，两个局部区域之间的局部区域相似性越小，表示局部区域中被伪造的可能性越大。

在一种可能的实现方式中，在度量局部区域之间的局部区域相似形式，也可以采用马氏距离等度量方式来获取局部区域之间的局部区域相似性，本申请对获取局部区域相似性的获取方式不进行限制。

步骤590，基于局部区域相似性集合，获取目标人脸图像的检测结果。该检测结果用于指示目标人脸图像是否为伪造人脸图像。

在一种可能的实现方式中，将局部区域相似性集合输入人脸图像检测模型的伪造人脸图像确定网络，获取伪造人脸图像确定网络输出的目标人脸图像对应的伪造人脸图像概率；

基于伪造人脸图像概率确定目标人脸图像是否为伪造人脸图像；

其中，人脸图像检测模型是通过人脸图像样本以及人脸图像样本对应的人脸图像样本标签训练获得的。

伪造人脸图像概率表示目标人脸图像属于伪造人脸的可能性的大小，伪造人脸图像概率的值越大，表示目标人脸图像属于伪造人脸的可能性越大，伪造人脸图像概率的值越小，表示目标人脸图像属于伪造人脸的可能性越小。

在一种可能的实现方式中，计算机设备可以通过设置局部区域相似性阈值，基于各个区域的局部区域相似性，统计局部区域相似性大于该局部区域相似性阈值的局部区域的数量，基于大于该局部区域相似性阈值的局部区域的数量获取目标人脸图像的伪造人脸概率；其中，局部区域相似性阈值可以是人工调节的数值，或者，也可以是模型训练中进行参数调节后获得的数值。

在一种可能的实现方式中，在获取到目标人脸的伪造人脸图像概率之后，基于该伪造人脸图像概率输出目标人脸图像的检测结果，即该目标人脸图像为真实人脸图像，或者，为伪造人脸图像。

在一种可能的实现方式中，为了使得人脸图像检测的结果具有可解释性，响应于目标人脸图像为伪造人脸图像，基于目标人脸图像的融合特征，获取目标人脸图像对应的伪造人脸区域。

上述过程可以实现为，将目标人脸图像的融合特征输入到人脸检测模型的解码器中，获得解码器输出的目标人脸图像的伪造人脸区域图像。其中，该解码器可以由多个上采样层和核大小为3x3的卷积层构成。

当输入人脸图像检测模型的检测对象为人脸视频时，通过对基于人脸视频获取的至少两个人脸图像进行人脸图像检测，基于各个人脸图像的检测结果，输出该人脸视频的检测结果，比如，响应于至少两个人脸图像中，检测结果指示为伪造人脸图像的人脸图像的个数超过被检测的人脸图像总数的指定阈值，则确定该人脸视频为伪造人脸视频。

综上所述，本申请实施例提供的人脸图像检测模型训练和人脸图像检测方法，通过基于图像样本集获得包括意力融合网络、伪造人脸图像确定网络以及解码器的人脸图像检测模型，使得在人脸图像检测过程中，能够依据目标人脸图像在空域和频域上的特征信息获取目标人脸的融合特征，基于该融合特征对该目标人脸图像进行伪造人脸识别，使得在人脸图像检测过程中，综合考虑图像在空域和频域上的特征，同时将两者的特征信息进行融合来获取人脸图像的融合特征，使得获取到的目标人脸图像的融合特征更为准确，进而使得利用该融合特征获取的目标人脸图像检测结果更加准确。

以上述各个方法实施例所示的方案应用在网络交友场景为例，在网络交友场景中，用户在获取到好友发送的人脸图像后，可以基于本申请提供的人脸图像检测方法对该好友发送的人脸图像的真实性进行验证；图8示出了本申请一示例性实施例提供的人脸图像检测过程的示意图，如图8所示，用户在获取到的目标人脸图像810(即用户接收到的好友发送的人脸图像)后，将该目标人脸图像810输入到进行人脸图像检测的设备中(以下称为计算机设备)；计算机设备通过频域转化方法获取该目标人脸图像810的频域图像820，在图8中，该频域转化方法表现为通过离散余弦变换将输入人脸图像转换到频域空间，并过滤图像的低频信息，接着通过逆离散余弦变换变换回易于卷积神经网络训练的图像，即频域图像820，之后，计算机设备将目标人脸图像810的频域图像820输入到人脸图像检测模型830中，该人脸图像检测模型包括：注意力融合网络831、伪造人脸图像确定网络832以及解码器833，该人脸图像检测模型830首先基于输入的目标人脸图像810的频域图像820同步提取目标人脸图像的空域特征和频域特征，计算机设备将该目标人脸图像的空域特征和频域特征输入到注意力融合网络831中，基于注意力融合网络831中的注意力提取子网络834，在不同层级上实现对空域特征和频域特征的融合，获得目标人脸图像对应的融合特征835，通过对目标人脸图像对应的融合特征进行局部相似性计算，获得该目标人脸图像对应的局部相似性集合，将该局部区域相似性集合输入到伪造人脸图像确定网络832之后，获得伪造人脸图像确定网络832输出的目标人脸图像的检测结果，即确定目标人脸图像为真实人脸图像，或者，目标人脸图像为伪造人脸图像，从而向用户反馈好友发送的图片是否真实；为了使得目标人脸检测模型的检测结果具有可解释性，计算机设备将目标人脸图的融合特征835输入到解码器833中，获得解码器输出的目标人脸图像对应的伪造人脸区域图像836，并向用户反馈该伪造人脸区域图像，比如，在目标人脸图像上标注伪造区域等。

上述图8所示的方案仅以网络交友场景中的应用为例进行说明，除此之外，上述方案也可以应用于其它任意需要对人脸图像的真实性进行验证的场景。本申请对于上述方案的应用场景不做限定。

图9示出了本申请一示例性实施例提供的人脸图像检测装置的方框图，该人脸图像检测装置包括：

目标人脸图像获取模块910，用于获取目标人脸图像；

频域图像获取模块920，用于对所述目标人脸图像进行频域变换，获得所述目标人脸图像的频域图像；

空域特征提取模块930，用于基于所述目标人脸图像进行特征提取，获得所述目标人脸图像的空域特征；

频域特征提取模块940，用于基于所述频域图像进行特征提取，获得所述目标人脸图像的频域特征；

融合特征获取模块950，用于对所述空域特征和所述频域特征进行融合，获得所述目标人脸图像的融合特征；

检测结果获取模块960，用于基于所述目标人脸图像的融合特征，获取所述目标人脸图像的检测结果，所述检测结果用于指示所述目标人脸图像是否为伪造人脸图像。

在一种可能的实现方式中，所述融合特征获取模块950，用于通过人脸图像检测模型的注意力融合网络，对所述空域特征和所述频域特征进行基于注意力机制的融合，获得所述目标人脸图像的所述融合特征；

在一种可能的实现方式中，所述融合特征获取模块950，包括：

所述特征融合子模块，包括：

在一种可能的实现方式中，所述融合特征获取单元，包括：

在一种可能的实现方式中，所述检测结果获取模块960，包括：

在一种可能的实现方式中，所述装置还包括：

综上所述，本申请实施例提供的图像检测装置，通过获取目标人脸图像在空域和频域上的特征信息，并依据目标人脸图像在空域和频域上的特征信息获取目标人脸的融合特征，基于该融合特征对该目标人脸图像进行伪造人脸识别，使得在人脸图像检测过程中，综合考虑图像在空域和频域上的特征，同时将两者的特征信息进行融合来获取人脸图像的融合特征，使得获取到的目标人脸图像的融合特征更为准确，进而使得利用该融合特征获取的目标人脸图像检测结果更加准确。

图10示出了本申请一示例性实施例提供的人脸图像检测模型训练装置的方框图，所述人脸图像检测模型包括：注意力融合网络、伪造人脸图像确定网络以及解码器，所述注意力融合网络用于基于人脸图像的空域特征以及频域特征，获取所述人脸图像的融合特征；所述装置包括：

图像样本集获取模块1010，用于获取图像样本集；所述图像样本集中包括至少两个人脸图像样本对，所述人脸图像样本对中包含人脸图像正样本和人脸图像负样本，各个人脸图像样本具有对应的人脸图像样本标签，所述人脸图像样本标签包括真实人脸标签和伪造人脸标签；

模型训练模块1020，用于通过所述图像样本集，对所述人脸图像检测模型进行训练；

在一种可能的实现方式中，所述模型训练模块1020，包括：

在一种可能的实现方式中，所述模型训练子模块，包括：

综上所述，本申请实施例提供的人脸图像检测模型训练装置，通过基于图像样本集训练获得包括注意力融合网络、伪造人脸图像确定网络以及解码器的人脸图像检测模型，使得在人脸图像检测的过程中，利用上述人脸图像检测模型综合考虑人脸图像在空域和频域上的特征，同时将两者的特征信息进行融合来获取人脸图像的融合特征，使得获取到的目标人脸图像的融合特征更为准确，进而使得利用该融合特征获取的目标人脸图像检测结果更加准确。

图11示出了本申请一示例性实施例示出的计算机设备1100的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器(Random Access Memory，RAM)1102和只读存储器(Read-Only Memory，ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括用于存储操作系统1109、应用程序1110和其他程序模块1111的大容量存储设备1106。

所述大容量存储设备1106通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1106及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1106可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1106可以统称为存储器。

根据本公开的各种实施例，所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1107连接到网络1108，或者说，也可以使用网络接口单元1107来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，中央处理器1101通过执行该至少一条指令、至少一段程序、代码集或指令集来实现上述各个实施例所示的人脸图像检测方法中的全部或者部分步骤。

图12示出了本申请一个示例性实施例提供的计算机设备1200的结构框图。该计算机设备1200可以实现为上述的人脸图像检测设备和/或人脸图像检测模型训练设备，比如：智能手机、平板电脑、笔记本电脑或台式电脑。计算机设备1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、12核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的人脸图像质量评估方法。

在一些实施例中，计算机设备1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

在一些实施例中，计算机设备1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

本领域技术人员可以理解，图12中示出的结构并不构成对计算机设备1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一示例性实施例中，还提供了一种计算机可读存储介质，用于存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述人脸图像检测方法和/或人脸图像检测模型训练方法中的全部或部分步骤。例如，该计算机可读存储介质可以是只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact DiscRead-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2、图4或图5任一实施例所示方法的全部或部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种人脸图像检测方法，其特征在于，所述方法包括：

获取目标人脸图像；

通过人脸图像检测模型中包括n个层级的子网络的注意力融合网络，在所述n个层级上对所述空域特征和所述频域特征进行基于注意力机制的融合，获得所述n个层级对应的中间融合特征；n为正整数；所述人脸图像检测模型是通过人脸图像样本以及所述人脸图像样本对应的人脸图像样本标签训练获得的；所述n个层级对应的中间融合特征是指所述空域特征和所述频域特征经过不同层级的子网络进行注意力融合处理之后，由不同层级的子网络输出的所述目标人脸图像的特征；

对所述n个层级对应的所述中间融合特征进行拼接，获得所述目标人脸图像的融合特征；

2.根据权利要求1所述的方法，其特征在于，所述中间融合特征是基于融合空域特征和融合频域特征获得的；所述融合空域特征是对所述空域特征和所述频域特征进行基于注意力机制的融合后获得的空域上的特征，所述融合频域特征是对所述空域特征和所述频域特征进行基于注意力机制的融合后获得的频域上的特征；

所述通过人脸图像检测模型中包括n个层级的子网络的注意力融合网络，在所述n个层级上对所述空域特征和所述频域特征进行基于注意力机制的融合，获得所述n个层级对应的中间融合特征，包括：

在第t个层级上，将第t-1个层级上的所述融合空域特征，以及所述第t-1个层级上的所述融合频域特征输入至所述注意力融合网络，获得所述第t个层级上的所述融合空域特征，以及所述第t个层级上的所述融合频域特征；

对所述第t个层级上的所述融合空域特征，以及所述第t个层级上的所述融合频域特征进行拼接，生成所述第t个层级对应的所述中间融合特征；

3.根据权利要求2所述的方法，其特征在于，所述在第t个层级上，将第t-1个层级上的所述融合空域特征，以及所述第t-1个层级上的所述融合频域特征输入至所述注意力融合网络，获得所述第t个层级上的所述融合空域特征，以及所述第t个层级上的所述融合频域特征，包括：

在第t个层级上，将所述第t-1个层级上的所述融合空域特征，所述第t-1个层级上的所述融合频域特征输入至所述注意力融合网络中的注意力提取子网络，获取所述注意力提取子网络输出的，所述第t个层级上的空域注意力图和所述第t个层级上的频域注意力图；所述空域注意力图用于指示所述融合空域特征的权重；所述频域注意力图用于指示所述融合频域特征的权重；

基于所述第t-1个层级上的所述融合空域特征以及所述第t个层级上的所述空域注意力图，生成所述第t个层级上的所述融合空域特征；

基于所述第t-1个层级上的所述融合频域特征以及所述第t个层级上的所述频域注意力图，生成所述第t个层级上的所述融合频域特征。

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标人脸图像的融合特征，获取所述目标人脸图像的检测结果，包括：

对所述目标人脸图像的所述融合特征进行局部区域相似性提取，获取所述目标人脸图像对应的局部区域相似性集合；

基于所述局部区域相似性集合，获取所述目标人脸图像的所述检测结果。

5.根据权利要求4所述的方法，其特征在于，所述基于所述局部区域相似性集合，获取所述目标人脸图像的所述检测结果，包括：

将所述局部区域相似性集合输入人脸图像检测模型的伪造人脸图像确定网络，获取所述伪造人脸图像确定网络输出的所述目标人脸图像对应的伪造人脸图像概率；

基于所述伪造人脸图像概率确定所述目标人脸图像是否为伪造人脸图像；

6.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

响应于所述目标人脸图像为伪造人脸图像，基于所述目标人脸图像的所述融合特征，获取所述目标人脸图像对应的伪造人脸区域。

7.一种人脸图像检测模型训练方法，其特征在于，所述人脸图像检测模型包括：注意力融合网络、伪造人脸图像确定网络以及解码器，所述注意力融合网络用于基于人脸图像的空域特征以及频域特征，获取所述人脸图像的融合特征；所述方法包括：

通过所述图像样本集，对所述人脸图像检测模型进行训练；

其中，所述人脸图像检测模型用于执行以下操作：获取目标人脸图像，对所述目标人脸图像进行频域变换，获得所述目标人脸图像的频域图像，基于所述目标人脸图像进行特征提取，获得所述目标人脸图像的空域特征，基于所述频域图像进行特征提取，获得所述目标人脸图像的频域特征，通过包括n个层级的子网络的所述注意力融合网络，在所述n个层级上对所述空域特征和所述频域特征进行基于注意力机制的融合，获得所述n个层级对应的中间融合特征，n为正整数，所述n个层级对应的中间融合特征是指所述空域特征和所述频域特征经过不同层级的子网络进行注意力融合处理之后，由不同层级的子网络输出的所述目标人脸图像的特征，对所述n个层级对应的所述中间融合特征进行拼接，获得所述目标人脸图像的融合特征，基于所述目标人脸图像的融合特征，获取所述目标人脸图像的检测结果，所述检测结果用于指示所述目标人脸图像是否为伪造人脸图像。

8.根据权利要求7所述的方法，其特征在于，通过所述图像样本集，对所述人脸图像检测模型进行训练，包括：

基于所述图像样本集中的至少两个所述人脸图像样本对，获取各个所述人脸图像样本对对应伪造人脸区域图像；

获取各个所述伪造人脸区域图像的真实局部区域相似性集合；

基于各个所述人脸图像样本，以及各个所述人脸图像样本对应的训练标签，对人脸图像检测模型进行训练，所述训练标签包括所述人脸图像样本标签、所述伪造人脸区域图像以及所述伪造人脸区域图像的真实局部区域相似性集合。

9.根据权利要求8所述的方法，其特征在于，所述基于各个所述人脸图像样本，以及各个所述人脸图像样本对应的训练标签，对人脸图像检测模型进行训练，包括：

将各个所述人脸图像样本输入所述人脸图像检测模型，获得各个所述人脸图像样本对应的预测结果；所述预测结果包括预测人脸图像样本标签、预测伪造人脸区域图像以及预测局部区域相似性；

基于各个所述人脸图像样本对应的所述训练标签，以及各个所述人脸图像样本对应的所述预测结果，计算损失函数；

基于所述损失函数，对人脸图像检测模型进行参数更新。

10.一种人脸图像检测装置，其特征在于，所述装置包括：

目标人脸图像获取模块，用于获取目标人脸图像；

融合特征获取模块，用于通过人脸图像检测模型中包括n个层级的子网络的注意力融合网络，在所述n个层级上对所述空域特征和所述频域特征进行基于注意力机制的融合，获得所述n个层级对应的中间融合特征；n为正整数；所述人脸图像检测模型是通过人脸图像样本以及所述人脸图像样本对应的人脸图像样本标签训练获得的；所述n个层级对应的中间融合特征是指所述空域特征和所述频域特征经过不同层级的子网络进行注意力融合处理之后，由不同层级的子网络输出的所述目标人脸图像的特征；对所述n个层级对应的所述中间融合特征进行拼接，获得所述目标人脸图像的融合特征；

11.一种人脸图像检测模型训练装置，其特征在于，所述人脸图像检测模型包括：注意力融合网络、伪造人脸图像确定网络以及解码器，所述注意力融合网络用于基于人脸图像的空域特征以及频域特征，获取所述人脸图像的融合特征；所述装置包括：

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条指令、至少一条程序、代码集或指令集，所述至少一条指令、所述至少一条程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的人脸图像检测方法或者如权利要求7至9任一所述的人脸图像检测模型训练方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至6任一所述的人脸图像检测方法或者如权利要求7至9任一所述的人脸图像检测模型训练方法。