CN111461089A

CN111461089A - 一种人脸检测的方法、人脸检测模型的训练方法及装置

Info

Publication number: CN111461089A
Application number: CN202010554312.2A
Authority: CN
Inventors: 姚太平; 陈燊; 吴双; 孟嘉; 丁守鸿; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-07-28
Anticipated expiration: 2040-06-17
Also published as: CN111461089B

Abstract

本申请公开了一种用于保护用户隐私，且提升信息安全的人脸检测方法，可应用于人工智能领域，本申请包括：获取人脸图像序列；根据人脸图像序列获取噪声图像序列；通过人脸检测模型的第一特征提取网络获取人脸图像序列的人脸特征图序列；通过人脸检测模型的第二特征提取网络获取噪声图像序列的噪声特征图序列；基于人脸特征图序列以及噪声特征图序列，通过人脸检测模型的全连接层获取人脸图像所对应的分类概率值；根据分类概率值确定检测结果。本申请还提供了一种人脸检测模型的训练方法及装置。本申请通过同时关注人脸图像序列本身的语义信息以及噪声图像序列的噪声信息，能够有效地发掘伪造人脸所产生的伪影，提升人脸检测的准确度。

Description

一种人脸检测的方法、人脸检测模型的训练方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种人脸检测的方法、人脸检测模型的训练方法及装置。

背景技术

随着生成对抗网络等人工智能（Artificial Intelligence，AI）)技术的发展，深度人脸生成技术及其应用不断成熟，人们可以通过神经网络快速实现人脸生成、人脸编辑和人脸替换。人脸生成技术推动了娱乐与文化交流产业的新兴发展，但同时也给人脸安全带来巨大的潜在威胁。

目前，提供了基于人脸伪造痕迹的人脸检测模型，该人脸检测模型主要是对虚假内容的特定伪造痕迹进行判断。由于生成的换脸图像或视频中会存在不自然的眨眼现象，因此，人脸检测模型可提取图像或视频中的人眼区域，再对人眼区域进行建模，以区分是否为伪造人脸图像或视频。

然而，基于人脸伪造痕迹的人脸检测模型仅针对包含特定伪造痕迹的换脸视频具有良好表现，但缺乏泛化性。如果在人脸伪造算法中加入对眨眼人脸图像的训练，则生成的换脸图像或视频会更接近自然的眨眼现象，导致人脸检测模型的检测准确度较低。

发明内容

本申请实施例提供了一种人脸检测的方法、人脸检测模型的训练方法及装置，通过同时关注人脸图像序列本身的语义信息以及噪声图像序列的噪声信息，能够有效地发掘伪造人脸所产生的伪影，提升人脸检测的准确度。

有鉴于此，本申请一方面提供一种人脸检测的方法，包括：

获取人脸图像序列，其中，人脸图像序列包括连续的N帧人脸图像，N为大于或等于1的整数；

根据人脸图像序列获取噪声图像序列，其中，噪声图像序列包括连续的N帧噪声图像；

基于人脸图像序列，通过人脸检测模型所包括的第一特征提取网络获取人脸特征图序列，其中，人脸特征图序列包括N个人脸特征图；

基于噪声图像序列，通过人脸检测模型所包括的第二特征提取网络获取噪声特征图序列，其中，噪声特征图序列包括N个噪声特征图；

基于人脸特征图序列以及噪声特征图序列，通过人脸检测模型所包括的全连接层获取人脸图像所对应的分类概率值；

根据分类概率值确定人脸图像序列的检测结果。

本申请另一方面提供一种人脸检测模型的训练方法，包括：

获取人脸训练样本序列以及噪声训练样本序列，人脸训练样本序列包括连续的M帧人脸样本图像，噪声训练样本序列包括连续的M帧噪声样本图像，M为大于或等于1的整数；

基于人脸训练样本序列，通过待训练人脸检测模型所包括的第一特征提取网络获取人脸样本特征图序列，其中，人脸样本特征图序列包括M个人脸样本特征图；

基于噪声训练样本序列，通过待训练人脸检测模型所包括的第二特征提取网络获取噪声样本特征图序列，其中，噪声样本特征图序列包括M个噪声样本特征图；

基于人脸样本特征图序列以及噪声样本特征图序列，通过待训练人脸检测模型所包括的全连接层获取人脸训练样本序列所对应的分类概率值；

根据人脸训练样本序列所对应的标注信息以及分类概率值，对待训练人脸检测模型进行训练，直至达到模型收敛条件时，输出人脸检测模型，其中，人脸检测模型用于执行上述各方面的方法。

本申请另一方面提供一种人脸检测装置，包括：

获取模块，用于获取人脸图像序列，其中，人脸图像序列包括连续的N帧人脸图像，N为大于或等于1的整数；

获取模块，还用于根据人脸图像序列获取噪声图像序列，其中，噪声图像序列包括连续的N帧噪声图像；

获取模块，还用于基于人脸图像序列，通过人脸检测模型所包括的第一特征提取网络获取人脸特征图序列，其中，人脸特征图序列包括N个人脸特征图；

获取模块，还用于基于噪声图像序列，通过人脸检测模型所包括的第二特征提取网络获取噪声特征图序列，其中，噪声特征图序列包括N个噪声特征图；

获取模块，还用于基于人脸特征图序列以及噪声特征图序列，通过人脸检测模型所包括的全连接层获取人脸图像所对应的分类概率值；

确定模块，用于根据分类概率值确定人脸图像序列的检测结果。

在一种可能的设计中，本申请实施例的另一种实现方式为，

获取模块，具体用于基于人脸特征图序列，通过人脸检测模型所包括的第一空间注意力网络获取N个第一特征向量，其中，每个第一特征向量对应于一个人脸特征图；

基于噪声特征图序列，通过人脸检测模型所包括的第二空间注意力网络获取N个第二特征向量，其中，每个第二特征向量对应于一个噪声特征图；

对N个第一特征向量以及N个第二特征向量进行拼接处理，得到N个目标特征向量，其中，每个目标特征向量包括一个第一特征向量以及一个第二特征向量；

基于N个目标特征向量，通过人脸检测模型所包括的全连接层获取人脸图像序列所对应的分类概率值。

在一种可能的设计中，本申请实施例的另一种实现方式为，

获取模块，具体用于针对人脸特征图序列中的每帧人脸特征图，通过第一空间注意力网络所包括的最大池化层获取第一最大池化特征图，其中，第一空间注意力网络属于人脸检测模型；

针对人脸特征图序列中的每帧人脸特征图，通过第一空间注意力网络所包括的平均池化层获取第一平均池化特征图；

针对人脸特征图序列中的每帧人脸特征图，基于第一最大池化特征图以及第一平均池化特征图，通过第一空间注意力网络所包括的卷积层获取第一融合特征图；

针对人脸特征图序列中的每帧人脸特征图，基于第一融合特征图以及人脸特征图，通过第一空间注意力网络所包括的第一平均池化层获取第一特征向量；

在一种可能的设计中，本申请实施例的另一种实现方式为，

获取模块，具体用于针对噪声特征图序列中的每帧噪声特征图，通过第二空间注意力网络所包括的最大池化层获取第二最大池化特征图，其中，第二空间注意力网络属于人脸检测模型；

针对噪声特征图序列中的每帧噪声特征图，通过第二空间注意力网络所包括的平均池化层获取第二平均池化特征图；

针对噪声特征图序列中的每帧噪声特征图，基于第二最大池化特征图以及第二平均池化特征图，通过第二空间注意力网络所包括的卷积层获取第二融合特征图；

针对噪声特征图序列中的每帧噪声特征图，基于第二融合特征图以及噪声特征图，通过第二空间注意力网络所包括的第二平均池化层获取第二特征向量。

在一种可能的设计中，本申请实施例的另一种实现方式为，N为大于1的整数；

获取模块，具体用于基于N个目标特征向量，通过人脸检测模型所包括的时间注意力网络获取融合特征向量，其中，融合特征向量为根据N个目标特征向量以及N个时序权重确定的，每个目标特征向量对应于一个时序权重；

基于融合特征向量，通过人脸检测模型所包括的全连接层获取人脸图像序列所对应的分类概率值。

在一种可能的设计中，本申请实施例的另一种实现方式为，

获取模块，具体用于基于N个目标特征向量，通过时间注意力网络所包括的第一子网络获取N个第一子特征向量，其中，时间注意力网络属于人脸检测模型；

基于N个第一子特征向量，通过时间注意力网络所包括的第二子网络获取N个第二子特征向量；

根据N个第二子特征向量确定N个时序权重，其中，每个时序权重对应于一个目标特征向量；

根据N个目标特征向量以及N个时序权重，确定融合特征向量。

获取模块，具体用于基于人脸特征图序列，通过人脸检测模型所包括的第一平均池化层获取N个第一特征向量，其中，每个第一特征向量对应于一个人脸特征图；

基于噪声特征图序列，通过人脸检测模型所包括的第二平均池化层获取N个第二特征向量，其中，每个第二特征向量对应于一个噪声特征图；

基于N个目标特征向量，通过人脸检测模型所包括的时间注意力网络获取融合特征向量，其中，融合特征向量为根据N个目标特征向量以及N个时序权重确定的，每个目标特征向量对应于一个时序权重；

在一种可能的设计中，本申请实施例的另一种实现方式为，

获取模块，具体用于针对人脸图像序列中的每帧人脸图像，通过图像滤波模型获取第一噪声图、第二噪声图以及第三噪声图；

根据每帧人脸图像所对应的第一噪声图、第二噪声图以及第三噪声图，生成每帧人脸图像所对应的噪声图像。

本申请另一方面提供一种人脸检测模型训练装置，包括：

获取模块，用于获取人脸训练样本序列以及噪声训练样本序列，人脸训练样本序列包括连续的M帧人脸样本图像，噪声训练样本序列包括连续的M帧噪声样本图像，M为大于或等于1的整数；

获取模块，还用于基于人脸训练样本序列，通过待训练人脸检测模型所包括的第一特征提取网络获取人脸样本特征图序列，其中，人脸样本特征图序列包括M个人脸样本特征图；

获取模块，还用于基于噪声训练样本序列，通过待训练人脸检测模型所包括的第二特征提取网络获取噪声样本特征图序列，其中，噪声样本特征图序列包括M个噪声样本特征图；

获取模块，还用于基于人脸样本特征图序列以及噪声样本特征图序列，通过待训练人脸检测模型所包括的全连接层获取人脸训练样本序列所对应的分类概率值；

训练模块，用于根据人脸训练样本序列所对应的标注信息以及分类概率值，对待训练人脸检测模型进行训练，直至达到模型收敛条件时，输出人脸检测模型，其中，人脸检测模型用于执行上述各方面的方法。

在一种可能的设计中，本申请实施例的另一种实现方式为，

获取模块，具体用于基于人脸样本特征图序列，通过待训练人脸检测模型所包括的第一空间注意力网络获取M个第一特征向量，其中，每个第一特征向量对应于一个人脸样本特征图；

基于噪声样本特征图序列，通过待训练人脸检测模型所包括的第二空间注意力网络获取M个第二特征向量，其中，每个第二特征向量对应于一个噪声样本特征图；

对M个第一特征向量以及M个第二特征向量进行拼接处理，得到M个目标特征向量，其中，每个目标特征向量包括一个第一特征向量以及一个第二特征向量；

基于M个目标特征向量，通过待训练人脸检测模型所包括的全连接层获取人脸训练样本序列所对应的分类概率值。

在一种可能的设计中，本申请实施例的另一种实现方式为，M为大于1的整数；

获取模块，具体用于基于M个目标特征向量，通过待训练人脸检测模型所包括的时间注意力网络获取融合特征向量，其中，融合特征向量为根据M个目标特征向量以及M个时序权重确定的，每个目标特征向量对应于一个时序权重；

基于融合特征向量，通过人脸检测模型所包括的全连接层获取人脸训练样本序列所对应的分类概率值。

获取模块，具体用于基于人脸样本特征图序列，通过待训练人脸检测模型所包括的第一平均池化层获取M个第一特征向量，其中，每个第一特征向量对应于一个人脸样本特征图；

基于噪声样本特征图序列，通过待训练人脸检测模型所包括的第二平均池化层获取M个第二特征向量，其中，每个第二特征向量对应于一个噪声样本特征图；

基于M个目标特征向量，通过待训练人脸检测模型所包括的时间注意力网络获取融合特征向量，其中，融合特征向量为根据M个目标特征向量以及M个时序权重确定的，每个目标特征向量对应于一个时序权重；

基于融合特征向量，通过待训练人脸检测模型所包括的全连接层获取人脸样本特征图序列所对应的分类概率值。

本申请另一方面提供一种计算机设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种人脸检测的方法，首先获取人脸图像序列，然后根据人脸图像序列获取噪声图像序列，基于人脸图像序列，通过人脸检测模型所包括的第一特征提取网络获取人脸特征图序列，并且基于噪声图像序列，通过人脸检测模型所包括的第二特征提取网络获取噪声特征图序列，再基于人脸特征图序列以及噪声特征图序列，通过人脸检测模型所包括的全连接层获取人脸图像所对应的分类概率值，最后根据分类概率值确定人脸图像序列的检测结果。通过上述方式，由于人脸伪造的本质是，将伪造的人脸图像裁剪后融合到原始人脸图像对应的区域，因此，伪造的人脸图像在人脸五官和边缘区域会产生一些与原始图像不一致的噪声信息，基于此，同时关注人脸图像序列本身的语义信息以及噪声图像序列的噪声信息，能够有效地发掘伪造人脸所产生的伪影，提升人脸检测的准确度。

附图说明

图1为本申请实施例中人脸检测系统的一个环境示意图；

图2为本申请实施例中人脸检测交互流程的一个示意图；

图3为本申请实施例中人脸检测方法的一个实施例示意图；

图4为本申请实施例中人脸检测模型针对单帧人脸图像进行检测的一个示意图；

图5为本申请实施例中人脸检测模型针对多帧人脸图像进行检测的一个示意图；

图6为本申请实施例中人脸检测模型针对单帧人脸图像进行检测的另一个示意图；

图7为本申请实施例中人脸检测模型针对多帧人脸图像进行检测的另一个示意图；

图8为本申请实施例中人脸检测模型所包含的空间注意力网络的一个示意图；

图9为本申请实施例中人脸检测模型针对单帧人脸图像进行检测的另一个示意图；

图10为本申请实施例中人脸检测模型所包含的时间注意力网络的一个示意图；

图11为本申请实施例中人脸检测模型针对多帧人脸图像进行检测的另一个示意图；

图12为本申请实施例中基于图像滤波模型生成噪声图像的一个示意图；

图13为本申请实施例中人脸检测模型训练方法的一个实施例示意图；

图14为本申请实施例中人脸检测装置的一个实施例示意图；

图15为本申请实施例中人脸检测模型训练装置的一个实施例示意图；

图16为本申请实施例中计算机设备的一个结构示意图；

图17为本申请实施例中计算机设备的另一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的人脸检测方法可应用于对伪造人脸进行检测的场景，例如，用于人脸核身产品，司法验证工具，图片或视频的鉴真产品。为了提高人脸支付以及身份认证等多项业务的安全性，本申请提供的人脸检测方法有助于公安司法证据验伪，防范犯罪嫌疑人利用人脸伪造技术伪造证据。为了提升多媒体平台上传播媒体的公信力，防止对用户产生误导，本申请提供的人脸检测方法有助于平台进行图像或视频筛查，对检测出来的伪造图像和视频加上显著标记，如“该视频为合成视频”，确保视频内容的可信度，保证社会公信。可选地，本申请提供的人脸检测方法还可以应用于如下场景：

一、政务民生场景；

例如，用户打开养老金领取的公众号、小程序或者应用程序（application，APP），上传自己的照片至后台，后台调用本申请提供的人脸检测模型，对用户上传的照片进行验证，如果验证通过，则该用户可以预约办理与养老金领取相关的业务。

二、金融行业场景；

例如，用户需要进行远程开户或者大额转账等业务时，为了减少银行的人力投入，并提高用户的便利性，用户将实时拍摄的照片上传至后台，后台调用本申请提供的人脸检测模型，对用户上传的照片进行验证，如果验证通过，则该用户可以相应业务。

三、交通出行场景；

例如，在机场安检时，会出现乘客忘带身份证的情况，出现这类情况是，可在小程序内使用临时乘机证明的服务，后台调用本申请提供的人脸检测模型用户的真实性进行检测，并且验证该用户的实名注册信息，如果验证通过，即可生成一张临时乘机二维码，在登机时，扫描二维码即可完成登记。

应理解，本申请提供的人脸检测方法涉及基于AI（Artificial Intelligence，AI）的计算机视觉（Computer Vision，CV）技术，本申请提供的人脸检测模型训练方法涉及基于AI的机器学习（Machine Learning，ML）。

随着AI技术研究和进步，AI技术在多个领域展开研究和应用。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的AI系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别（Optical CharacterRecognition，OCR）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心，是使计算机具有智能的根本途径，其应用遍及AI的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为了便于理解，本申请提出了一种人脸检测的方法，该方法应用于图1所示的人脸检测系统，请参阅图1，图1为本申请实施例中人脸检测系统的一个环境示意图，如图所示，人脸检测系统包括终端设备以及服务器，其中，人脸检测模型通常部署于服务器，也可以部署于终端设备，下面将分别介绍部署在不同端的处理方式。

一、人脸检测模型部署在服务器侧；

由终端设备向服务器上传需要检测的人脸图像或视频，或由服务器直接调用数据库中需要检测的人脸图像或人脸视频，然后采用训练好的人脸检测模型对人脸图像或人脸视频进行验证，以得到检测结果。服务器可向终端设备反馈检测结果，也可以将检测结果保持在本地，供其他业务应用或处理。

二、人脸检测模型部署在终端设备侧；

由终端设备采集人脸图像或人脸视频，然后直接调用训练好的人脸检测模型对人脸图像或人脸视频进行验证，以得到检测结果。可以理解的是，该过程可以在终端设备处于离线的状态下执行，且为了提升终端设备的检测效率，还可以使用轻量级的人脸检测模型，或者采用网络压缩等技术降低人脸检测模型的计算量，使其可以在终端设备侧运行。

本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

应理解，本申请提供的人脸检测方法可以应用于基于云技术的云安全（CloudSecurity）领域。云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云安全是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念，通过网状的大量客户端对网络中软件行为的异常监测，获取互联网中木马、恶意程序的最新信息，并发送到服务端进行自动分析和处理，再把病毒和木马的解决方案分发到每一个客户端。

云安全主要研究方向包括：1、云计算安全，主要研究如何保障云自身及云上各种应用的安全，包括云计算机系统安全、用户数据的安全存储与隔离、用户接入认证、信息传输安全、网络攻击防护、合规审计等；2、安全基础设施的云化，主要研究如何采用云计算新建与整合安全基础设施资源，优化安全防护机制，包括通过云计算技术构建超大规模安全事件、信息采集与处理平台，实现对海量信息的采集与关联分析，提升全网安全事件把控能力及风险控制能力；3、云安全服务，主要研究各种基于云计算平台为用户提供的安全服务，如防病毒服务等。

为了便于理解本申请提供的技术方案，请参阅图2，图2为本申请实施例中人脸检测交互流程的一个示意图，如图所示，具体地：

在步骤S1中，用户可以使用终端设备拍摄人脸图像序列，或者直接从终端本地选择人脸图像序列进行上传，其中，人脸图像序列可以是一张人脸图像，也可以是一段人脸视频，本申请不做限定。

在步骤S2中，服务器接收到人脸图像序列之后，先对人脸图像序列进行滤波处理，得到对应的噪声图像序列，然后将人脸图像序列和噪声图像序列共同输入至人脸检测模型，由该人脸检测模型输出分类概率值。

在步骤S3中，服务器根据分类概率值确定人脸图像序列的检测结果，假设分类阈值为0.9，那么分类概率值大于或等于0.9的情况下，表示人脸图像序列中的人脸是伪造人脸的概率大于90%，由此认为，人脸图像序列的检测结果为“属于伪造人脸”。而分类概率值小于0.9的情况下，可以认为人脸图像序列的检测结果为“属于真实人脸”。

在步骤S4中，服务器向终端设备反馈检测结果。

在步骤S5中，终端设备展示检测结果，例如，在检测系统的界面上展示“属于伪造人脸”的检测结果，或者在界面上展示“属于真实人脸”的检测结果。

本申请实施例提供的方案涉及人工智能的计算机视觉技术以及机器学习等技术，下面将对本申请中人脸检测的方法进行介绍，请参阅图3，本申请实施例中人脸检测方法的一个实施例包括：

101、获取人脸图像序列，其中，人脸图像序列包括连续的N帧人脸图像，N为大于或等于1的整数；

本实施例中，人脸检测装置首先需要获取人脸图像序列，其中，这里的人脸图像序列可以是一帧人脸图像，也可以是由至少两帧连续的人脸图像构成的人脸视频。

具体地，人脸检测模型输入的人脸图像可以是已经过剪裁的人脸图像。首先获取待检测图像，然后利用人脸检测技术从待检测图像中识别出人脸区域，并以此人脸区域为中心扩大K倍，K可以是1.2或1.5，也可以是其他取值，此处不做限定。以扩展1.2倍为例，就是将人脸区域边框的长度和宽度均扩大1.2倍，从而得到人脸图像，其中，人脸图像包含了人脸以及人脸周边的部分背景区域。类似地，对于每帧待检测图像均可采用上述方式得到人脸图像，由此得到人脸图像序列。

本申请可以对视频帧等间隔采样，得到人脸图像序列，采样的帧数可以根据实际部署平台的运行速度进行选择，适当增加N的取值还可以使得人脸图像序列包含更多样的信息，有利于进一步提升检测的准确性。

需要说明的是，本申请使用的人脸检测技术包含但不仅限于多任务级联卷积网络（Multi-task Cascaded Convolutional Networks，MTCNN）、双分支人脸检测器（Dual ShotFace Detector，DSFD）、人脸点位检测网络（dlib）或者其他神经网络，此处不做限定。

需要说明的是，本申请使用的采样工具包含但不仅限于开源计算机视觉库（OpenSource Computer Vision Library，OpenCV）、快进动态图像专家组（Fast Forward MovingPicture Experts Group，FFmpeg）、视频蟒蛇（Movie Python，MoviePy）。

需要说明的是，本申请提供的人脸检测装置可以部署于服务器，也可以部署于终端设备，本申请不做限定。

102、根据人脸图像序列获取噪声图像序列，其中，噪声图像序列包括连续的N帧噪声图像；

本实施例中，人脸检测装置还可以对人脸图像序列中的每帧人脸图像进行滤波处理，由此得到对应的噪声图像，N帧噪声图像即可构成噪声图像序列，且噪声图像与人脸图像具有一一对应的关系，人脸图像更多关注的是图像本身的信息，比如红绿蓝（red greenblue，RGB）信息，而噪声图像更多关注的是非语义信息，基于图像像素之间存在的差异能够有效地提取出人脸伪造区域的噪声信息。

需要说明的是，本申请使用的滤波处理方法具体为富含隐写分析模型（Steganalysis Rich Model，SRM），还可以是其他的图像滤波模型，例如，基于盒式滤波算法、均值滤波算法、高斯滤波算法、中值滤波算法、双边滤波算法或者导向滤波算法等。

103、基于人脸图像序列，通过人脸检测模型所包括的第一特征提取网络获取人脸特征图序列，其中，人脸特征图序列包括N个人脸特征图；

本实施例中，人脸检测装置将人脸图像序列输入至训练好的人脸检测模型中，由人脸检测模型所包括的第一特征提取网络提取相应的人脸特征图序列，人脸特征图序列包括N个人脸特征图，且人脸特征图与人脸图像具有一一对应的关系。

104、基于噪声图像序列，通过人脸检测模型所包括的第二特征提取网络获取噪声特征图序列，其中，噪声特征图序列包括N个噪声特征图；

本实施例中，人脸检测装置将噪声图像序列输入至训练好的人脸检测模型中，由人脸检测模型所包括的第二特征提取网络提取相应的噪声特征图序列，噪声特征图序列包括N个噪声特征图，且噪声特征图与噪声图像具有一一对应的关系。

需要说明的是，本申请涉及的第一特征提取网络和第二特征提取网络具体可以是高效网络（Efficient Net），也可以根据需求设计和修改网络结构，此处不做限定。

105、基于人脸特征图序列以及噪声特征图序列，通过人脸检测模型所包括的全连接层获取人脸图像所对应的分类概率值；

本实施例中，人脸检测装置将人脸特征图序列输入至人脸检测模型中的平均池化层，由平均池化层输出人脸特征图序列对应的特征向量，类似地，人脸检测装置将噪声特征图序列输入至人脸检测模型中的平均池化层，由平均池化层输出噪声特征图序列对应的特征向量。具体地，一种实现方式为，直接将人脸特征图序列对应的特征向量与噪声特征图序列对应的特征向量进行拼接，得到拼接后的特征向量。通过特征拼接的方式融合了人脸图像的RGB特征和噪声图像的噪声特征。另一种实现方式为，可以利用双线性汇合（BilinearPooling）在特征图层面融合RGB特征和噪声特征。本申请以直接拼接两个特征向量为例进行介绍，然而这不应理解为对本申请的限定。

将拼接后的特征向量输入至人脸检测模型所包括的全连接（fully connected，FC）层，由FC层输出范围在（0,1）的分类概率值。

需要说明的是，本申请所描述的平均池化层具体可以是全局均值池化（GlobalAverage Pooling，GAP）层，也可以是自适应平均池化（Adaptive Average Pooling，AdaAvgPool）层，此处不做限定。

基于步骤101至步骤104的介绍，下面将结合图4和图5对人脸检测的方法进行进一步说明。请参阅图4，图4为本申请实施例中人脸检测模型针对单帧人脸图像进行检测的一个示意图，如图所示，具体地，首先对人脸图像进行滤波处理，得到噪声图像。然后分别将人脸图像输入至第一特征提取网络，将噪声图像输入至第二特征提取网络。由第一特征提取网络输出人脸特征图，由第二特征提取网络输出噪声特征图，再分别将人脸特征图输入至第一平均池化层，得到特征向量A，将噪声特征图输入至第二平均池化层，得到特征向量B。对特征向量A和特征向量B进行拼接，得到拼接后的特征向量C。最后将特征向量C输入至FC层，由FC层输出范围在（0,1）的分类概率值。

请参阅图5，图5为本申请实施例中人脸检测模型针对多帧人脸图像进行检测的一个示意图，如图所示，具体地，首先对每帧人脸图像进行滤波处理，得到N帧噪声图像。然后分别将N帧人脸图像输入至第一特征提取网络，将N帧噪声图像输入至第二特征提取网络。由第一特征提取网络输出N个人脸特征图，由第二特征提取网络输出N个噪声特征图，再将N个人脸特征图输入至第一平均池化层，分别得到N个特征向量A，将N噪声特征图输入至第二平均池化层，分别得到特征向量B。然后将每个特征向量A与对应的特征向量B进行拼接，得到拼接后的N个特征向量C。最后将N个特征向量C输入至FC层，由FC层输出范围在（0,1）的分类概率值。

106、根据分类概率值确定人脸图像序列的检测结果。

本实施例中，人脸检测装置根据分类概率值确定人脸图像序列的检测结果，分类概率值越大，表示人脸图像序列中的人脸是伪造人脸的概率也越大。

假设分类阈值为0.9，那么分类概率值大于或等于0.9的情况下，表示人脸图像序列中的人脸是伪造人脸的概率大于90%，由此认为，人脸图像序列的检测结果为“属于伪造人脸”。而分类概率值小于0.9的情况下，可以认为人脸图像序列的检测结果为“不属于伪造人脸”。

可以理解的是，分类阈值还可以根据实际情况进行设置，例如设置为0.5或者0.3等数值，此处不做限定。

本申请实施例中，提供了一种人脸检测的方法，通过上述方式，由于人脸伪造的本质是，将伪造的人脸图像裁剪后融合到原始人脸图像对应的区域，因此，伪造的人脸图像在人脸五官和边缘区域会产生一些与原始图像不一致的噪声信息，基于此，同时关注人脸图像序列本身的语义信息以及噪声图像序列的噪声信息，能够有效地发掘伪造人脸所产生的伪影，提升人脸检测的准确度。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的一个可选实施例中，基于人脸特征图序列以及噪声特征图序列，通过人脸检测模型所包括的全连接层获取人脸图像序列所对应的分类概率值，具体包括如下内容：

基于人脸特征图序列，通过人脸检测模型所包括的第一空间注意力网络获取N个第一特征向量，其中，每个第一特征向量对应于一个人脸特征图；

本实施例中，介绍了一种利用空间注意力网络提取图像特征的方法，在人脸检测模型中还可以设置两个空间注意力网络，分别用于提取人脸特征图以及噪声特征图在不同尺度上的关联信息，增加对不同区域的关注力度。下面将结合图6和图7对人脸检测的方法进行进一步说明。

请参阅图6，图6为本申请实施例中人脸检测模型针对单帧人脸图像进行检测的另一个示意图，如图所示，具体地，首先对人脸图像进行滤波处理，得到噪声图像。然后分别将人脸图像输入至第一特征提取网络，将噪声图像输入至第二特征提取网络。由第一特征提取网络输出人脸特征图，由第二特征提取网络输出噪声特征图，再分别将人脸特征图输入至第一空间注意力网络，得到第一特征向量，将噪声特征图输入至第二空间注意力网络，得到第二特征向量。对第一特征向量和第二特征向量进行拼接，得到拼接后的目标特征向量。最后将目标特征向量输入至FC层，由FC层输出范围在（0,1）的分类概率值。

请参阅图7，图7为本申请实施例中人脸检测模型针对多帧人脸图像进行检测的另一个示意图，如图所示，具体地，首先对每帧人脸图像进行滤波处理，得到N帧噪声图像。然后分别将N帧人脸图像输入至第一特征提取网络，将N帧噪声图像输入至第二特征提取网络。由第一特征提取网络输出N个人脸特征图，由第二特征提取网络输出N个噪声特征图，再将N个人脸特征图输入至第一空间注意力网络，分别得到N个第一特征向量，将N噪声特征图输入至第二空间注意力网络，分别得到N个第二特征向量。然后将每个第一特征向量与对应的第二特征向量进行拼接，得到拼接后的N个目标特征向量。最后将N个目标特征向量输入至FC层，由FC层输出范围在（0,1）的分类概率值。

其次，本申请实施例中，提供了一种利用空间注意力网络提取图像特征的方法，通过上述方式，考虑到人脸伪造技术往往只针对人脸区域进行操作，如果经过平均池化层之后可能会损失一部分伪造信息，因此，在网络不同尺度的特征图后引入一个空间注意力网络，通过像素邻域之间的卷积操作，可以得到人脸不同区域之间的关联，从而增强人脸检测模型对伪造区域的关注力度，提升人脸检测的准确性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的一个可选实施例中，基于人脸特征图序列，通过人脸检测模型所包括的第一空间注意力网络获取N个第一特征向量，具体包括如下内容：

针对人脸特征图序列中的每帧人脸特征图，通过第一空间注意力网络所包括的最大池化层获取第一最大池化特征图，其中，第一空间注意力网络属于人脸检测模型；

对应地，基于噪声特征图序列，通过人脸检测模型所包括的第二空间注意力网络获取N个第二特征向量，具体包括如下内容：

针对噪声特征图序列中的每帧噪声特征图，通过第二空间注意力网络所包括的最大池化层获取第二最大池化特征图，其中，第二空间注意力网络属于人脸检测模型；

本实施例中，介绍了一种空间注意力网络提取图像特征具体实现方式，空间注意力网络包括卷积层、批量归一化（Batch Normalization，BN）层、神经网络激活函数（如Sigmoid函数）和平均池化层（如GAP层或AdaAvgPool层），采用残差连接的方式融合原始的特征图以及注意力特征图的信息。其中，卷积层用于提取不同尺度的图像信息，BN层用于将每个神经元的输入归一化，具有加速网络收敛速度、提升训练稳定性的效果。Sigmoid函数用于将输出结果保持在（0,1）的范围。当AdaAvgPool层中的核大小为1时，等效于GAP层，相比于GAP层，AdaAvgPool层的应用更为灵活。

以人脸特征图序列中的一个人脸特征图为例进行说明，请参阅图8，图8为本申请实施例中人脸检测模型所包含的空间注意力网络的一个示意图，如图8中（A）图所示，将人脸特征图输入至第一空间注意力网络中的最大池化层，由此输出第一最大池化特征图，并且将该人脸特征图输入至第一空间注意力网络中的平均池化层，由此输出第一平均池化特征图，将第一最大池化特征图和第一平均池化特征图进行融合，从而得到第一融合特征图，可选地，可使用Sigmoid函数对第一融合特征图中的每个元素进行处理，由此得到第一注意力特征图。于是采用残差连接的方式，将人脸特征图和第一注意力特征图进行叠加，再将叠加后的结果输入至第一平均池化层，由第一平均池化层输出第一特征向量。可以理解的是，当N为大于或等于2时，则对每个人脸特征图均执行上述处理，以此得到N个第一特征向量。

以噪声特征图序列中的一个噪声特征图为例进行说明，如图8中（B）图所示，将噪声特征图输入至第二空间注意力网络中的最大池化层，由此输出第二最大池化特征图，并且将该噪声特征图输入至第二空间注意力网络中的平均池化层，由此输出第二平均池化特征图，将第二最大池化特征图和第二平均池化特征图进行融合，从而得到第二融合特征图，可选地，可使用Sigmoid函数对第一融合特征图中的每个元素进行处理，由此得到第二注意力特征图。于是采用残差连接的方式，将噪声特征图和第二注意力特征图进行叠加，再将叠加后的结果输入至第二平均池化层，由第二平均池化层输出第二特征向量。可以理解的是，当N为大于或等于2时，则对每个噪声特征图均执行上述处理，以此得到N个第二特征向量。

不难看出，第一空间注意力网络和第二空间注意力网络在网络结构上是相似的。图8中（A）图和（B）图所示的网络层可根据实际需求进行调整。

再次，本申请实施例中，提供了一种空间注意力网络提取图像特征具体实现方式，通过上述方式，利用空间注意力网络中设计了残差连接的形式，将原始的特征图和增加注意力后的特征图进行融合，不同层次间的层次信息的组合也会越多，进而增强人脸检测模型对不同尺度区域的关注力度。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的一个可选实施例中，N为大于1的整数；

基于N个目标特征向量，通过人脸检测模型所包括的全连接层获取人脸图像序列所对应的分类概率值，具体包括如下内容：

本实施例中，提供了一种利用空间注意力网络和时间注意力网络提取图像特征的方法，在人脸检测模型中不但可以设置两个空间注意力网络，还可以设置一个时间注意力网络，时间注意力网络利用时序注意力机制融合了视频帧之间的时序信息，有效得提高了对视频的鉴别精度。下面将结合图9对人脸检测的方法进行进一步说明。

为了便于说明，请参阅图9，图9为本申请实施例中人脸检测模型针对单帧人脸图像进行检测的另一个示意图，如图所示，具体地，首先对每帧人脸图像进行滤波处理，得到N帧噪声图像。然后分别将N帧人脸图像输入至第一特征提取网络，将N帧噪声图像输入至第二特征提取网络。由第一特征提取网络输出N个人脸特征图，由第二特征提取网络输出N个噪声特征图，再将N个人脸特征图输入至第一空间注意力网络，分别得到N个第一特征向量，将N噪声特征图输入至第二空间注意力网络，分别得到N个第二特征向量。然后将每个第一特征向量与对应的第二特征向量进行拼接，得到拼接后的N个目标特征向量。将N个目标特征向量输入至时间注意力网络，由时间注意力网络生成N个时序权重，再对每个时序权重与对应的目标特征向量进行加权融合，得到融合特征向量，最后将融合特征向量输入至FC层，由FC层输出范围在（0,1）的分类概率值。

再次，本申请实施例中，提供了一种利用空间注意力网络和时间注意力网络提取图像特征的方法，通过上述方式，考虑到大部分的伪造人脸出现在视频介质中，因此，对于视频时序信息进行建模尤为重要，基于此，采用时间注意力网络可根据视频帧信息自适应得到每一帧对应的时序权重，从而融合视频帧之间的时序信息，本申请在双流网络结果的基础上，增加空间注意力网络和时间注意力网络，能够有效提高了AI换脸视频上的准确率。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的一个可选实施例中，N为大于1的整数；基于N个目标特征向量，通过人脸检测模型所包括的时间注意力网络获取融合特征向量，具体包括如下内容：

基于N个目标特征向量，通过时间注意力网络所包括的第一子网络获取N个第一子特征向量，其中，时间注意力网络属于人脸检测模型；

本实施例中，介绍了一种时间注意力网络提取图像特征具体实现方式，时间注意力网络包括至少一个子网络、归一化指数（softmax）函数以及加和融合（Sum Fusion）模块，其中，Sum Fusion模块表示将原始特征和学习到的权重进行加权融合。本申请以两个子网络为例进行介绍，在实际应用中，可以根据情况设定子网络的数量，每个子网络包括一个FC层、一个BN层以及双曲正切（Tanh）函数，Tanh函数的输出在(-1,1)连续区间内，目的是可以将输出约束在这个范围内，以便softmax函数生成对应的时序权重。

为了便于说明，请参阅图10，图10为本申请实施例中人脸检测模型所包含的时间注意力网络的一个示意图，如图所示，将N个目标特征向量输入至第一子网络，由第一子网络对N个目标特征向量进行处理，由此输出N个第一子特征向量。将N个第一子特征向量输入至第二子网络，由第二子网络对N个第一子特征向量进行处理，由此输出N个第二子特征向量。采用softmax函数计算每个目标特征向量对应的时序权重，再将每个时序权重和对应的目标特征向量进行点乘再相加，得到整个视频唯一的特征表达，即得到融合特征向量。

进一步地，本申请实施例中，提供了一种时间注意力网络提取图像特征具体实现方式，通过上述方式，利用两个子网络可以有效地提取视频帧间的时序信息，经过实验发现，如果时间注意力网络仅采用一个子网络提取视频帧间的时序信息，会导致模型过度拟合，导致输出的结果准确度较低。如果采用两个以上的子网络，会导致训练的参数增加，但是对预测的准确度影响不大，因此，会造成人脸检测模型的性能降低。

基于人脸特征图序列以及噪声特征图序列，通过人脸检测模型所包括的全连接层获取人脸图像所对应的分类概率值，具体包括如下内容：

基于人脸特征图序列，通过人脸检测模型所包括的第一平均池化层获取N个第一特征向量，其中，每个第一特征向量对应于一个人脸特征图；

本实施例中，介绍了一种利时间注意力网络提取图像特征的方法，在人脸检测模型中可以设置一个时间注意力网络，时间注意力网络利用时序注意力机制融合了视频帧之间的时序信息，有效得提高了对视频的鉴别精度。下面将结合图11对人脸检测的方法进行进一步说明。

为了便于说明，请参阅图11，图11为本申请实施例中人脸检测模型针对多帧人脸图像进行检测的另一个示意图，如图所示，具体地，首先对每帧人脸图像进行滤波处理，得到N帧噪声图像。然后分别将N帧人脸图像输入至第一特征提取网络，将N帧噪声图像输入至第二特征提取网络。由第一特征提取网络输出N个人脸特征图，由第二特征提取网络输出N个噪声特征图，再将N个人脸特征图输入至第一平均池化层，分别得到N个第一特征向量，将N噪声特征图输入至第二平均池化层，分别得到N个第二特征向量。然后将每个第一特征向量与对应的第二特征向量进行拼接，得到拼接后的N个目标特征向量。将N个目标特征向量输入至时间注意力网络，由时间注意力网络生成N个时序权重，再对每个时序权重与对应的目标特征向量进行加权融合，得到融合特征向量，最后将融合特征向量输入至FC层，由FC层输出范围在（0,1）的分类概率值。

其次，本申请实施例中，提供了一种利时间注意力网络提取图像特征的方法，通过上述方式，考虑到大部分的伪造人脸出现在视频介质中，因此，对于视频时序信息进行建模尤为重要，基于此，采用时间注意力网络可根据视频帧信息自适应得到每一帧对应的时序权重，从而融合视频帧之间的时序信息，本申请在双流网络结果的基础上，增加时间注意力网络，能够有效提高了AI换脸视频上的准确率。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的一个可选实施例中，根据人脸图像序列获取噪声图像序列，具体包括如下内容：

针对人脸图像序列中的每帧人脸图像，通过图像滤波模型获取第一噪声图、第二噪声图以及第三噪声图；

本实施例中，介绍了一种基于SRM生成噪声图像的方法，针对每帧人脸图像，将其输入至图像滤波模型，例如SRM，由此输出噪声图像。为了便于理解，请参阅图12，图12为本申请实施例中基于图像滤波模型生成噪声图像的一个示意图，如图所示，SRM可以通过卷积操作实现，卷积层的输入通道和输出通道均为3，步长为1，卷积核大小为 5，具体参阅如图12所示，这三个矩阵是SRM卷积核，通过卷积操作可以建模每个像素和其相邻像素之间的残差关系，从而发掘出显著不同的伪造区域。这三个SRM核非0参数量分别为3、9和25，可以得到每个像素和不同大小邻域区间内像素的关系。卷积操作中会对中心元素进行一定比例的改变，如-4、-12和-2，那么1/4、1/12、和1/2这三个分母则是对其进行归一化，确保卷积前后每个相似的值不会产生较大的变化。

更进一步地，本申请实施例中，提供了一种基于SRM生成噪声图像的方法，通过上述方式，利用SRM提取的噪声信息可以发现真实和篡改区域之间的噪声变化，SRM收集基本的噪声特征，量化SRM输出的结果，并提取附件的共现特征作为最终特征，从而提升方案的可操作性。

结合上述介绍，下面将对本申请中人脸检测模型的训练方法进行介绍，请参阅图13，本申请实施例中人脸检测模型训练方法的一个实施例包括：

201、获取人脸训练样本序列以及噪声训练样本序列，人脸训练样本序列包括连续的M帧人脸样本图像，噪声训练样本序列包括连续的M帧噪声样本图像，M为大于或等于1的整数；

本实施例中，人脸检测模型训练装置首先需要获取人脸训练样本序列以及噪声训练样本序列，其中，这里的人脸训练样本序列可以是一帧人脸样本图像，也可以是由至少两帧连续的人脸样本图像构成的人脸视频。

为了增加样本多样性，还可以对人脸训练样本序列中的人脸样本图像进行随机翻转、质量压缩以及模糊处理等数据增强操作。

人脸检测模型训练装置还可以对人脸训练样本序列中的每帧人脸训练样本进行滤波处理，由此得到对应的噪声样本图像，M帧噪声样本图像即可构成噪声训练样本序列，且噪声样本图像与人脸样本图像具有一一对应的关系，人脸样本图像更多关注的是图像本身的信息，比如红绿蓝（red green blue，RGB）信息，而噪声样本图像更多关注的是非语义信息，基于图像像素之间存在的差异能够有效地提取出人脸伪造区域的噪声信息。

需要说明的是，人脸训练样本序列的采样方式以及预处理过程与步骤101类似，故此处不做赘述。

需要说明的是，本申请提供的人脸检测模型训练装置可以部署于服务器，也可以部署于终端设备，本申请不做限定。

202、基于人脸训练样本序列，通过待训练人脸检测模型所包括的第一特征提取网络获取人脸样本特征图序列，其中，人脸样本特征图序列包括M个人脸样本特征图；

本实施例中，人脸检测模型训练装置将人脸训练样本序列输入至待训练人脸检测模型中，由待训练人脸检测模型所包括的第一特征提取网络提取相应的人脸样本特征图序列，人脸样本特征图序列包括M个人脸样本特征图，且人脸样本特征图与人脸样本图像具有一一对应的关系。

203、基于噪声训练样本序列，通过待训练人脸检测模型所包括的第二特征提取网络获取噪声样本特征图序列，其中，噪声样本特征图序列包括M个噪声样本特征图；

本实施例中，人脸检测模型训练装置将噪声训练样本序列输入至待训练人脸检测模型中，由待训练人脸检测模型所包括的第二特征提取网络提取相应的噪声样本特征图序列，噪声样本特征图序列包括M个噪声样本特征图，且噪声样本特征图与人脸样本图像具有一一对应的关系。

204、基于人脸样本特征图序列以及噪声样本特征图序列，通过待训练人脸检测模型所包括的全连接层获取人脸训练样本序列所对应的分类概率值；

本实施例中，人脸检测模型训练装置将人脸样本特征图序列输入至待训练人脸检测模型中的平均池化层，由平均池化层输出人脸样本特征图序列对应的特征向量，类似地，人脸检测模型训练装置将噪声样本特征图序列输入至待训练人脸检测模型中的平均池化层，由平均池化层输出噪声样本特征图序列对应的特征向量。可以直接将人脸样本特征图序列对应的特征向量与噪声样本特征图序列对应的特征向量进行拼接，得到拼接后的特征向量。最后将拼接后的特征向量输入至待训练人脸检测模型所包括的FC层，由FC层输出范围在（0,1）的分类概率值，该分类概率值为预测概率。

205、根据人脸训练样本序列所对应的标注信息以及分类概率值，对待训练人脸检测模型进行训练，直至达到模型收敛条件时，输出人脸检测模型，其中，人脸检测模型用于执行如实施例中提供的人脸检测方法。

本实施例中，在模型训练之前，需要对人脸训练样本序列进行标注，若该人脸训练样本序列是采用人脸伪造生成的，则对应的标注信息为“1”，即表示该人脸训练样本序列为伪造视频。若该人脸训练样本序列是真实的视频，则对应的标注信息为“0”，即表示该人脸训练样本序列为真实视频。

人脸检测模型训练装置根据人脸训练样本序列所对应的标注信息以及分类概率值，采用损失函数计算分类损失，由Adam优化算法（adaptive optimization algorithm）更新待训练人脸检测模型的网络参数，多次迭代优化结果。训练过程中需要根据验证集的准确率进行模型的选择和学习率的衰减，防止模型过拟合。验证集和训练集构造时要确保人物身份没有重合。当达到模型收敛条件时，输出人脸检测模型。

本申请采用的损失函数可以为：

；

；

其中，L表示分类损失，N表示样本总数，

表示第i个人脸训练样本序列对应的分类损失，

是用于平衡正负样本数量的权重值（比如训练数据集中负样本的数量更多，则给予正样本更大的权重值，

表示第i个人脸训练样本序列的分类概率值，

表示第i个人脸训练样本序列的标注信息。

需要说明的是，可以采用一个损失函数对整个待训练人脸检测模型使用一个损失函数，也可以在待训练人脸检测模型中每一组网络特征后面增加一个分类层，利用多个损失函数来监督网络的学习。

本申请实施例中，提供了一种人脸检测模型的训练方法，通过上述方式，由于人脸伪造的本质是，将伪造的人脸图像裁剪后融合到原始人脸图像对应的区域，因此，伪造的人脸图像在人脸五官和边缘区域会产生一些与原始图像不一致的噪声信息，基于此，在模型训练的过程中，同时关注人脸图像序列本身的语义信息以及噪声图像序列的噪声信息，能够有效地发掘伪造人脸所产生的伪影，提升人脸检测的准确度。

可选地，在上述图13对应的实施例的基础上，本申请实施例提供的一个可选实施例中，基于人脸样本特征图序列以及噪声样本特征图序列，通过待训练人脸检测模型所包括的全连接层获取人脸训练样本序列所对应的分类概率值，具体包括如下内容：

基于人脸样本特征图序列，通过待训练人脸检测模型所包括的第一空间注意力网络获取M个第一特征向量，其中，每个第一特征向量对应于一个人脸样本特征图；

本实施例中，介绍了一种包括空间注意力网络的模型训练方法，即，在得到人脸样本特征图序列之后，将其输入至待训练人脸检测模型所包括的第一空间注意力网络，由此输出M个第一特征向量，类似地，在得到噪声样本特征图序列之后，将其输入至待训练人脸检测模型所包括的第二空间注意力网络，由此输出M个第二特征向量。于是，可以对M个第一特征向量以及M个第二特征向量进行拼接处理，得到M个目标特征向量，最后，将M个目标特征向量输入至待训练人脸检测模型所包括的FC层，由此得到人脸训练样本序列所对应的分类概率值。

其次，本申请实施例中，提供了一种包括空间注意力网络的模型训练方法，通过上述方式，考虑到人脸伪造技术往往只针对人脸区域进行操作，如果经过平均池化层之后可能会损失一部分伪造信息，因此，在网络不同尺度的特征图后引入一个空间注意力网络，通过像素邻域之间的卷积操作，可以得到人脸不同区域之间的关联，从而增强人脸检测模型对伪造区域的关注力度，提升人脸检测的准确性。

可选地，在上述图13对应的实施例的基础上，本申请实施例提供的一个可选实施例中，M为大于1的整数；

基于M个目标特征向量，通过待训练人脸检测模型所包括的全连接层获取人脸训练样本序列所对应的分类概率值，具体包括如下内容：

本实施例中，介绍一种包括空间注意力网络和时间注意力网络的模型训练方法，上述实施例已对获取M个目标特征向量的过程进行介绍，故此处不做赘述。基于此，将M个目标特征向量输入至待训练人脸检测模型所包括的时间注意力网络，由该时间注意力网络输出融合特征向量，由时间注意力网络生成M个时序权重，再对每个时序权重与对应的目标特征向量进行加权融合，得到融合特征向量，最后将融合特征向量输入至FC层，由FC层输出范围在（0,1）的分类概率值。

再次，本申请实施例中，提供了一种包括空间注意力网络和时间注意力网络的模型训练方法，采用注意力机制和双流网络进行伪造人脸的检测，可以精确利用伪造区域的信息，避免真实区域或背景因素带来的干扰，同时时序注意力机制融合了视频帧之间的时序信息，有效得提高了在视频媒体上的鉴别精度。本申请从人脸伪造的原理出发进行设计，没有局限于特定的换脸算法，是一个通用的伪造人脸检测方法，可以对人脸换脸、人脸编辑以及人脸生成等多种人脸伪造方式进行鉴别，具有跨领域泛化性能。

基于人脸样本特征图序列以及噪声样本特征图序列，通过待训练人脸检测模型所包括的全连接层获取人脸训练样本序列所对应的分类概率值，具体包括如下内容：

基于人脸样本特征图序列，通过待训练人脸检测模型所包括的第一平均池化层获取M个第一特征向量，其中，每个第一特征向量对应于一个人脸样本特征图；

本实施例中，介绍了一种包括时间注意力网络的模型训练方法，对于视频而言存在至少两帧人脸样本图像，因此，人脸样本图像之间存在一定的时序关系，可通过建模的方式确定时序权重。具体地，将人脸样本特征图序列输入至待训练人脸检测模型所包括的第一平均池化层，由此得到M个第一特征向量。类似地，将噪声样本特征图序列输入至待训练人脸检测模型所包括的第二平均池化层，由此得到M个第二特征向量。于是，对M个第一特征向量以及M个第二特征向量进行拼接处理，得到M个目标特征向量，每个目标特征向量包括第一特征向量及其对应的第二特征向量，且均指示相同的一帧人脸样本图像。将M个目标特征向量输入至待训练人脸检测模型所包括的时间注意力网络，由该时间注意力网络输出融合特征向量，由时间注意力网络生成M个时序权重，再对每个时序权重与对应的目标特征向量进行加权融合，得到融合特征向量，最后将融合特征向量输入至FC层，由FC层输出范围在（0,1）的分类概率值。

其次，本申请实施例中，提供了一种包括时间注意力网络的模型训练方法，通过上述方式，考虑到大部分的伪造人脸出现在视频介质中，因此，对于视频时序信息进行建模尤为重要，基于此，采用时间注意力网络可根据视频帧信息自适应得到每一帧对应的时序权重，从而融合视频帧之间的时序信息，本申请在双流网络结果的基础上，增加时间注意力网络，能够有效提高了AI换脸视频上的准确率。

下面对本申请中的人脸检测装置进行详细描述，请参阅图14，图14为本申请实施例中人脸检测装置的一个实施例示意图，人脸检测装置30包括：

获取模块301，用于获取人脸图像序列，其中，人脸图像序列包括连续的N帧人脸图像，N为大于或等于1的整数；

获取模块301，还用于根据人脸图像序列获取噪声图像序列，其中，噪声图像序列包括连续的N帧噪声图像；

获取模块301，还用于基于人脸图像序列，通过人脸检测模型所包括的第一特征提取网络获取人脸特征图序列，其中，人脸特征图序列包括N个人脸特征图；

获取模块301，还用于基于噪声图像序列，通过人脸检测模型所包括的第二特征提取网络获取噪声特征图序列，其中，噪声特征图序列包括N个噪声特征图；

获取模块301，还用于基于人脸特征图序列以及噪声特征图序列，通过人脸检测模型所包括的全连接层获取人脸图像所对应的分类概率值；

确定模块302，用于根据分类概率值确定人脸图像序列的检测结果。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的人脸检测装置30的另一实施例中，

获取模块301，具体用于基于人脸特征图序列，通过人脸检测模型所包括的第一空间注意力网络获取N个第一特征向量，其中，每个第一特征向量对应于一个人脸特征图；

获取模块301，具体用于针对人脸特征图序列中的每帧人脸特征图，通过第一空间注意力网络所包括的最大池化层获取第一最大池化特征图，其中，第一空间注意力网络属于人脸检测模型；

对应地，

获取模块301，具体用于针对噪声特征图序列中的每帧噪声特征图，通过第二空间注意力网络所包括的最大池化层获取第二最大池化特征图，其中，第二空间注意力网络属于人脸检测模型；

获取模块301，具体用于基于N个目标特征向量，通过人脸检测模型所包括的时间注意力网络获取融合特征向量，其中，融合特征向量为根据N个目标特征向量以及N个时序权重确定的，每个目标特征向量对应于一个时序权重；

获取模块301，具体用于基于N个目标特征向量，通过时间注意力网络所包括的第一子网络获取N个第一子特征向量，其中，时间注意力网络属于人脸检测模型；

获取模块301，具体用于基于人脸特征图序列，通过人脸检测模型所包括的第一平均池化层获取N个第一特征向量，其中，每个第一特征向量对应于一个人脸特征图；

获取模块301，具体用于针对人脸图像序列中的每帧人脸图像，通过图像滤波模型获取第一噪声图、第二噪声图以及第三噪声图；

下面对本申请中的人脸检测模型训练装置进行详细描述，请参阅图15，图15为本申请实施例中人脸检测模型训练装置的一个实施例示意图，人脸检测模型训练装置40包括：

获取模块401，用于获取人脸训练样本序列以及噪声训练样本序列，人脸训练样本序列包括连续的M帧人脸样本图像，噪声训练样本序列包括连续的M帧噪声样本图像，M为大于或等于1的整数；

获取模块401，还用于基于人脸训练样本序列，通过待训练人脸检测模型所包括的第一特征提取网络获取人脸样本特征图序列，其中，人脸样本特征图序列包括M个人脸样本特征图；

获取模块401，还用于基于噪声训练样本序列，通过待训练人脸检测模型所包括的第二特征提取网络获取噪声样本特征图序列，其中，噪声样本特征图序列包括M个噪声样本特征图；

获取模块401，还用于基于人脸样本特征图序列以及噪声样本特征图序列，通过待训练人脸检测模型所包括的全连接层获取人脸训练样本序列所对应的分类概率值；

训练模块402，用于根据人脸训练样本序列所对应的标注信息以及分类概率值，对待训练人脸检测模型进行训练，直至达到模型收敛条件时，输出人脸检测模型，其中，人脸检测模型用于执行上述各方面的方法。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的人脸检测模型训练装置40的另一实施例中，

获取模块401，具体用于基于人脸样本特征图序列，通过待训练人脸检测模型所包括的第一空间注意力网络获取M个第一特征向量，其中，每个第一特征向量对应于一个人脸样本特征图；

获取模块401，具体用于基于M个目标特征向量，通过待训练人脸检测模型所包括的时间注意力网络获取融合特征向量，其中，融合特征向量为根据M个目标特征向量以及M个时序权重确定的，每个目标特征向量对应于一个时序权重；

获取模块401，具体用于基于人脸样本特征图序列，通过待训练人脸检测模型所包括的第一平均池化层获取M个第一特征向量，其中，每个第一特征向量对应于一个人脸样本特征图；

本申请提供的计算机设备具体可以为服务器，请参阅图16，图16是本申请实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（central processing units，CPU）522（例如，一个或一个以上处理器）和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530（例如一个或一个以上海量存储设备）。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows Server^TM，Mac OS X^TM，Unix^TM, Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图16所示的服务器结构。

本申请提供的计算机设备具体还可以为终端设备，如图17所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理（Personal Digital Assistant，PDA）、销售终端设备（Point of Sales，POS）、车载电脑等任意终端设备，以终端设备为手机为例：

图17示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图17，手机包括：射频（Radio Frequency，RF）电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真（wireless fidelity，WiFi）模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图17中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图17对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low Noise Amplifier，LNA）、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（Global System ofMobile communication，GSM）、通用分组无线服务（General Packet Radio Service，GPRS）、码分多址（Code Division Multiple Access，CDMA）、宽带码分多址（Wideband CodeDivision Multiple Access, WCDMA）、长期演进（Long Term Evolution，LTE）、电子邮件、短消息服务（Short Messaging Service，SMS）等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器（Liquid CrystalDisplay，LCD）、有机发光二极管（Organic Light-Emitting Diode，OLED）等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图17中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一手机，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图17示出了WiFi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；可选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

手机还包括给各个部件供电的电源690（比如电池），可选的，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

上述实施例中由终端设备所执行的步骤可以基于该图17所示的终端设备结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种人脸检测的方法，其特征在于，包括：

获取人脸图像序列，其中，所述人脸图像序列包括连续的N帧人脸图像，所述N为大于或等于1的整数；

根据所述人脸图像序列获取噪声图像序列，其中，所述噪声图像序列包括连续的N帧噪声图像；

基于所述人脸图像序列，通过人脸检测模型所包括的第一特征提取网络获取人脸特征图序列，其中，所述人脸特征图序列包括N个人脸特征图；

基于所述噪声图像序列，通过所述人脸检测模型所包括的第二特征提取网络获取噪声特征图序列，其中，所述噪声特征图序列包括N个噪声特征图；

基于所述人脸特征图序列以及所述噪声特征图序列，通过所述人脸检测模型所包括的全连接层获取所述人脸图像所对应的分类概率值；

根据所述分类概率值确定所述人脸图像序列的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述人脸特征图序列以及所述噪声特征图序列，通过所述人脸检测模型所包括的全连接层获取所述人脸图像序列所对应的分类概率值，包括：

基于所述人脸特征图序列，通过所述人脸检测模型所包括的第一空间注意力网络获取N个第一特征向量，其中，每个第一特征向量对应于一个人脸特征图；

基于所述噪声特征图序列，通过所述人脸检测模型所包括的第二空间注意力网络获取N个第二特征向量，其中，每个第二特征向量对应于一个噪声特征图；

对所述N个第一特征向量以及所述N个第二特征向量进行拼接处理，得到N个目标特征向量，其中，每个目标特征向量包括一个第一特征向量以及一个第二特征向量；

基于所述N个目标特征向量，通过所述人脸检测模型所包括的所述全连接层获取所述人脸图像序列所对应的分类概率值。

3.根据权利要求2所述的方法，其特征在于，所述基于所述人脸特征图序列，通过所述人脸检测模型所包括的第一空间注意力网络获取N个第一特征向量，包括：

针对所述人脸特征图序列中的每帧人脸特征图，通过所述第一空间注意力网络所包括的最大池化层获取第一最大池化特征图，其中，所述第一空间注意力网络属于所述人脸检测模型；

针对所述人脸特征图序列中的每帧人脸特征图，通过所述第一空间注意力网络所包括的平均池化层获取第一平均池化特征图；

针对所述人脸特征图序列中的每帧人脸特征图，基于所述第一最大池化特征图以及所述第一平均池化特征图，通过所述第一空间注意力网络所包括的卷积层获取第一融合特征图；

针对所述人脸特征图序列中的每帧人脸特征图，基于所述第一融合特征图以及所述人脸特征图，通过所述第一空间注意力网络所包括的第一平均池化层获取第一特征向量。

4.根据权利要求2所述的方法，其特征在于，所述基于所述噪声特征图序列，通过所述人脸检测模型所包括的第二空间注意力网络获取N个第二特征向量，包括：

针对所述噪声特征图序列中的每帧噪声特征图，通过所述第二空间注意力网络所包括的最大池化层获取第二最大池化特征图，其中，所述第二空间注意力网络属于所述人脸检测模型；

针对所述噪声特征图序列中的每帧噪声特征图，通过所述第二空间注意力网络所包括的平均池化层获取第二平均池化特征图；

针对所述噪声特征图序列中的每帧噪声特征图，基于所述第二最大池化特征图以及所述第二平均池化特征图，通过所述第二空间注意力网络所包括的卷积层获取第二融合特征图；

针对所述噪声特征图序列中的每帧噪声特征图，基于所述第二融合特征图以及所述噪声特征图，通过所述第二空间注意力网络所包括的第二平均池化层获取第二特征向量。

5.根据权利要求2所述的方法，其特征在于，所述N为大于1的整数；

所述基于所述N个目标特征向量，通过所述人脸检测模型所包括的所述全连接层获取所述人脸图像序列所对应的分类概率值，包括：

基于所述N个目标特征向量，通过所述人脸检测模型所包括的时间注意力网络获取融合特征向量，其中，所述融合特征向量为根据所述N个目标特征向量以及N个时序权重确定的，每个目标特征向量对应于一个时序权重；

基于所述融合特征向量，通过所述人脸检测模型所包括的所述全连接层获取所述人脸图像序列所对应的分类概率值。

6.根据权利要求5所述的方法，其特征在于，所述基于所述N个目标特征向量，通过所述人脸检测模型所包括的时间注意力网络获取融合特征向量，包括：

基于所述N个目标特征向量，通过所述时间注意力网络所包括的第一子网络获取N个第一子特征向量，其中，所述时间注意力网络属于所述人脸检测模型；

基于所述N个第一子特征向量，通过所述时间注意力网络所包括的第二子网络获取N个第二子特征向量；

根据所述N个第二子特征向量确定N个时序权重，其中，每个时序权重对应于一个目标特征向量；

根据所述N个目标特征向量以及N个时序权重，确定所述融合特征向量。

7.根据权利要求1所述的方法，其特征在于，所述N为大于1的整数；

所述基于所述人脸特征图序列以及所述噪声特征图序列，通过所述人脸检测模型所包括的全连接层获取所述人脸图像所对应的分类概率值，包括：

基于所述人脸特征图序列，通过所述人脸检测模型所包括的第一平均池化层获取N个第一特征向量，其中，每个第一特征向量对应于一个人脸特征图；

基于所述噪声特征图序列，通过所述人脸检测模型所包括的第二平均池化层获取N个第二特征向量，其中，每个第二特征向量对应于一个噪声特征图；

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述根据所述人脸图像序列获取噪声图像序列，包括：

针对所述人脸图像序列中的每帧人脸图像，通过图像滤波模型获取第一噪声图、第二噪声图以及第三噪声图；

根据所述每帧人脸图像所对应的所述第一噪声图、所述第二噪声图以及所述第三噪声图，生成所述每帧人脸图像所对应的噪声图像。

9.一种人脸检测模型的训练方法，其特征在于，包括：

获取人脸训练样本序列以及噪声训练样本序列，所述人脸训练样本序列包括连续的M帧人脸样本图像，所述噪声训练样本序列包括连续的M帧噪声样本图像，所述M为大于或等于1的整数；

基于所述人脸训练样本序列，通过待训练人脸检测模型所包括的第一特征提取网络获取人脸样本特征图序列，其中，所述人脸样本特征图序列包括M个人脸样本特征图；

基于所述噪声训练样本序列，通过所述待训练人脸检测模型所包括的第二特征提取网络获取噪声样本特征图序列，其中，所述噪声样本特征图序列包括M个噪声样本特征图；

基于所述人脸样本特征图序列以及所述噪声样本特征图序列，通过所述待训练人脸检测模型所包括的全连接层获取所述人脸训练样本序列所对应的分类概率值；

根据所述人脸训练样本序列所对应的标注信息以及所述分类概率值，对所述待训练人脸检测模型进行训练，直至达到模型收敛条件时，输出人脸检测模型，其中，所述人脸检测模型用于执行如上述权利1至8中任一项所述的方法。

10.根据权利要求9所述的训练方法，其特征在于，所述基于所述人脸样本特征图序列以及所述噪声样本特征图序列，通过所述待训练人脸检测模型所包括的全连接层获取所述人脸训练样本序列所对应的分类概率值，包括：

基于所述人脸样本特征图序列，通过所述待训练人脸检测模型所包括的第一空间注意力网络获取M个第一特征向量，其中，每个第一特征向量对应于一个人脸样本特征图；

基于所述噪声样本特征图序列，通过所述待训练人脸检测模型所包括的第二空间注意力网络获取M个第二特征向量，其中，每个第二特征向量对应于一个噪声样本特征图；

对所述M个第一特征向量以及所述M个第二特征向量进行拼接处理，得到M个目标特征向量，其中，每个目标特征向量包括一个第一特征向量以及一个第二特征向量；

基于所述M个目标特征向量，通过所述待训练人脸检测模型所包括的所述全连接层获取所述人脸训练样本序列所对应的分类概率值。

11.根据权利要求10所述的训练方法，其特征在于，所述M为大于1的整数；

所述基于所述M个目标特征向量，通过所述待训练人脸检测模型所包括的所述全连接层获取所述人脸训练样本序列所对应的分类概率值，包括：

基于所述M个目标特征向量，通过所述待训练人脸检测模型所包括的时间注意力网络获取融合特征向量，其中，所述融合特征向量为根据所述M个目标特征向量以及M个时序权重确定的，每个目标特征向量对应于一个时序权重；

基于所述融合特征向量，通过所述人脸检测模型所包括的所述全连接层获取所述人脸训练样本序列所对应的分类概率值。

12.根据权利要求9所述的训练方法，其特征在于，所述M为大于1的整数；

所述基于所述人脸样本特征图序列以及所述噪声样本特征图序列，通过所述待训练人脸检测模型所包括的全连接层获取所述人脸训练样本序列所对应的分类概率值，包括：

基于所述人脸样本特征图序列，通过所述待训练人脸检测模型所包括的第一平均池化层获取M个第一特征向量，其中，每个第一特征向量对应于一个人脸样本特征图；

基于所述噪声样本特征图序列，通过所述待训练人脸检测模型所包括的第二平均池化层获取M个第二特征向量，其中，每个第二特征向量对应于一个噪声样本特征图；

基于所述融合特征向量，通过所述待训练人脸检测模型所包括的所述全连接层获取所述人脸样本特征图序列所对应的分类概率值。

13.一种人脸检测装置，其特征在于，包括：

获取模块，用于获取人脸图像序列，其中，所述人脸图像序列包括连续的N帧人脸图像，所述N为大于或等于1的整数；

所述获取模块，还用于根据所述人脸图像序列获取噪声图像序列，其中，所述噪声图像序列包括连续的N帧噪声图像；

所述获取模块，还用于基于所述人脸图像序列，通过人脸检测模型所包括的第一特征提取网络获取人脸特征图序列，其中，所述人脸特征图序列包括N个人脸特征图；

所述获取模块，还用于基于所述噪声图像序列，通过所述人脸检测模型所包括的第二特征提取网络获取噪声特征图序列，其中，所述噪声特征图序列包括N个噪声特征图；

所述获取模块，还用于基于所述人脸特征图序列以及所述噪声特征图序列，通过所述人脸检测模型所包括的全连接层获取所述人脸图像所对应的分类概率值；

确定模块，用于根据所述分类概率值确定所述人脸图像序列的检测结果。

14.一种人脸检测模型训练装置，其特征在于，包括：

获取模块，用于获取人脸训练样本序列以及噪声训练样本序列，所述人脸训练样本序列包括连续的M帧人脸样本图像，所述噪声训练样本序列包括连续的M帧噪声样本图像，所述M为大于或等于1的整数；

所述获取模块，还用于基于所述人脸训练样本序列，通过待训练人脸检测模型所包括的第一特征提取网络获取人脸样本特征图序列，其中，所述人脸样本特征图序列包括M个人脸样本特征图；

所述获取模块，还用于基于所述噪声训练样本序列，通过所述待训练人脸检测模型所包括的第二特征提取网络获取噪声样本特征图序列，其中，所述噪声样本特征图序列包括M个噪声样本特征图；

所述获取模块，还用于基于所述人脸样本特征图序列以及所述噪声样本特征图序列，通过所述待训练人脸检测模型所包括的全连接层获取所述人脸训练样本序列所对应的分类概率值；

训练模块，用于根据所述人脸训练样本序列所对应的标注信息以及所述分类概率值，对所述待训练人脸检测模型进行训练，直至达到模型收敛条件时，输出人脸检测模型，其中，所述人脸检测模型用于执行如上述权利1至8中任一项所述的方法。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至8中任一项所述的方法，或，执行权利要求9至12中任一项所述的方法。