CN111291739B

CN111291739B - 面部检测、图像检测神经网络训练方法、装置和设备

Info

Publication number: CN111291739B
Application number: CN202010385628.3A
Authority: CN
Inventors: 李剑; 张斌; 王亚彪; 彭瑾龙; 汪铖杰; 李季檩; 黄飞跃; 吴永坚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2020-09-18
Anticipated expiration: 2040-05-09
Also published as: US20220262162A1; CN111291739A; WO2021227726A1

Abstract

本申请涉及一种面部检测、图像检测神经网络训练方法、装置和设备。该面部检测方法包括：获取待检测图像；调用面部检测网络对待检测图像进行处理，获得面部检测网络中特征提取结构提取的原始特征图；原始特征图多于一个且分辨率各不相同；通过面部检测网络的特征增强结构对原始特征图进行处理，得到各原始特征图相应的增强特征图；其中，基于面部检测网络的检测目的和特征增强结构的处理对象，确定出的用于搜索特征增强结构的搜索空间；特征增强结构从搜索空间中搜索得到；通过面部检测网络的检测结构，根据增强特征图得到待检测图像的面部检测结果。本申请提供的方案可以提高面部检测的精度。

Description

面部检测、图像检测神经网络训练方法、装置和设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种面部检测、图像检测神经网络训练方法、装置和设备。

背景技术

随着人工智能的兴起和发展，神经网络的训练、以及采用训练好的神经网络进行数据处理越来越广泛。比如，训练面部检测网络以及使用训练好的面部检测网络对图像进行面部检测等。

目前在对面部检测网络进行训练时，可以获取包括面部的图像进行训练，使得面部检测网络学习到识别包括面部的图像的模型参数。然而，经常会存在模型对部分图像难以进行面部检测的情况，导致面部检测网络的检测准确度低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高检测准确度的面部检测、图像检测神经网络训练方法、装置、计算机设备和计算机可读存储介质。

一种面部检测方法，其特征在于，所述方法包括：

获取待检测图像；

调用面部检测网络对所述待检测图像进行处理，获得所述面部检测网络中特征提取结构提取的原始特征图；所述原始特征图多于一个且分辨率各不相同；

通过所述面部检测网络的特征增强结构对所述原始特征图进行处理，得到各所述原始特征图相应的增强特征图；其中，基于所述面部检测网络的检测目的和所述特征增强结构的处理对象，确定出的用于搜索所述特征增强结构的搜索空间；所述特征增强结构从所述搜索空间中搜索得到；

通过所述面部检测网络的检测结构，根据所述增强特征图得到所述待检测图像的面部检测结果。

一种面部检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测图像；

提取模块，用于调用面部检测网络对所述待检测图像进行处理，获得所述面部检测网络中特征提取结构提取的原始特征图；所述原始特征图多于一个且分辨率各不相同；

增强模块，用于通过所述面部检测网络的特征增强结构对所述原始特征图进行处理，得到各所述原始特征图相应的增强特征图；其中，基于所述面部检测网络的检测目的和所述特征增强结构的处理对象，确定出的用于搜索所述特征增强结构的搜索空间；所述特征增强结构从所述搜索空间中搜索得到；

检测模块，用于通过所述面部检测网络的检测结构，根据所述增强特征图得到所述待检测图像的面部检测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述面部检测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述面部检测方法的步骤。

上述面部检测方法、装置、计算机设备和存储介质，在获取到待检测图像后，即自动调用面部检测网络来对待检测图像进行处理，面部检测网络中特征提取结构从待检测图像中提取出原始特征图，面部检测网络的特征增强结构然后对原始特征图进行处理得到增强特征图，面部检测网络的检测结构再基于增强特征图得到待检测图像的面部检测结果。其中，原始特征图多于一个且分辨率各不相同，这样多尺度的原始特征图能够包括更丰富的图像信息，有助于提高后续面部检测的准确度；而且对原始特征图处理得到的增强特征图增强了特征的区分度和鲁棒性，进一步提高了面部检测的准确度。另外，特征增强结构是自动搜索得到的、且搜索所基于的搜索空间又是根据面部检测网络的检测目的和特征增强结构的处理对象共同确定，一方面避免了人工设计网络结构带来的巨大工作量，且性能优于人工设计的网络结构，同时又能很好地应用于面部检测网络中使得面部检测网络能够更好地进行面部检测，这样在提高检测准确度的同时也降低了人力成本。

一种图像检测神经网络训练方法，其特征在于，所述方法包括：

获取训练图像和面部检测网络；所述面部检测网络包括特征提取结构、特征增强结构和检测结构；其中，基于所述面部检测网络的检测目的和所述特征增强结构的处理对象，确定出的用于搜索所述特征增强结构的搜索空间；所述特征增强结构从所述搜索空间中搜索得到；

将所述训练图像输入所述面部检测网络，通过所述特征提取结构提取所述训练图像的原始特征图；所述原始特征图多于一个且分辨率各不相同；

将所述原始特征图直接输入所述检测结构，得到第一检测结果；

通过所述特征增强结构处理所述原始特征图，得到各所述原始特征图相应的增强特征图，并将所述增强特征图输入所述检测结构，得到第二检测结果；

根据所述第一检测结果、所述第二检测结果与训练标签，构建训练损失函数训练所述面部检测网络，直至满足训练停止条件时结束训练；

其中，在应用所述面部检测网络对待检测图像进行处理时，所述特征增强结构处理所在分支的输出为所述面部检测网络的输出。

一种图像检测神经网络训练装置，其特征在于，所述装置包括：

获取模块，用于获取训练图像和面部检测网络；所述面部检测网络包括特征提取结构、特征增强结构和检测结构；其中，基于所述面部检测网络的检测目的和所述特征增强结构的处理对象，确定出的用于搜索所述特征增强结构的搜索空间；所述特征增强结构从所述搜索空间中搜索得到；

提取模块，用于将所述训练图像输入所述面部检测网络，通过所述特征提取结构提取所述训练图像的原始特征图；所述原始特征图多于一个且分辨率各不相同；

第一检测模块，用于将所述原始特征图直接输入所述检测结构，得到第一检测结果；

第二检测模块，用于通过所述特征增强结构处理所述原始特征图，得到各所述原始特征图相应的增强特征图，并将所述增强特征图输入所述检测结构，得到第二检测结果；

训练模块，用于根据所述第一检测结果、所述第二检测结果与训练标签，构建训练损失函数训练所述面部检测网络，直至满足训练停止条件时结束训练；其中，在应用所述面部检测网络对待检测图像进行处理时，所述特征增强结构处理所在分支的输出为所述面部检测网络的输出。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述图像检测神经网络训练方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述图像检测神经网络训练方法的步骤。

上述图像检测神经网络训练方法、装置、计算机设备和存储介质，面部检测网络为双分支结构，在特征提取结构后分支，特征提取结构直接与检测结构连接作为一分支，特征提取结构通过特征增强模型进行处理后再与检测结构连接作为第二分支。在训练面部检测网络时，双分支协同训练，能通过第一分支辅助训练第二分支，提高训练效率和效果；在使用面部检测网络时，则忽略第一分支仅使用第二分支的输出，也不会增大网络计算量。而且，原始特征图多于一个且分辨率各不相同，这样多尺度的原始特征图能够包括更丰富的图像信息，有助于提高后续面部检测的准确度；对原始特征图处理得到的增强特征图增强了特征的判别性和鲁棒性，进一步提高了面部检测的准确度。另外，特征增强结构是自动搜索得到的、且搜索所基于的搜索空间又是根据面部检测网络的检测目的和特征增强结构的处理对象共同确定，一方面避免了人工设计网络结构带来的巨大工作量，且性能优于人工设计的网络结构，同时又能很好地应用于面部检测网络中使得面部检测网络能够更好地进行面部检测，这样在提高检测准确度的同时也降低了人力成本。

附图说明

图1为一个实施例中面部检测方法的应用环境图；

图2为一个实施例中面部检测方法的流程示意图；

图3为一个实施例中面部检测网络的结构示意图；

图4为一个实施例中特征金字塔结构的结构示意图；

图5为一个实施例中搜索语义预测结构的原理示意图；

图6为一个实施例中语义预测结构的结构示意图；

图7为一个实施例中神经网络训练方法的流程示意图；

图8为一个实施例中本申请的人脸检测方法与现有的人脸检测算法在WIDERFACE的三个测评子集的检测结果对比图；

图9为一个实施例中本申请的人脸检测方法与现有的人脸检测算法在FDDB数据集上ROC曲线对比图；

图10为一个在待检测图像中可视化人脸检测结果的示意图；

图11为一个实施例中面部检测装置的结构框图；

图12为一个实施例中图像检测神经网络训练装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉和机器学习等技术，具体通过如下实施例进行说明：

本申请提供的面部检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可将待检测图像上传至服务器104，服务器104在获取待检测图像后，调用面部检测网络对待检测图像进行处理，获得面部检测网络中特征提取结构提取的原始特征图，该原始特征图多于一个且分辨率各不相同；继续通过面部检测网络的特征增强结构对原始特征图进行处理，得到各原始特征图相应的增强特征图，再通过面部检测网络的检测结构，根据增强特征图得到待检测图像的面部检测结果。其中，基于面部检测网络的检测目的和特征增强结构的处理对象，确定出的用于搜索特征增强结构的搜索空间；特征增强结构则从该搜索空间中搜索得到。在一些实施例中，终端102或者服务器104也可单独用于执行面部检测方法。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一个实施例中，图像检测神经网络训练方法也可以应用于上述图1所示的应用环境。终端102或者服务器104也可单独用于执行图像检测神经网络训练方法。

在一个实施例中，如图2所示，提供了一种面部检测方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，获取待检测图像。

其中，待检测图像是待通过本申请提供的面部检测网络进行面部检测的图像。待处理图像中可以包括一个或者多于一个面部区域，也可以不包括面部区域。通过本申请提供的面部检测网络对待检测图像进行面部检测，即可检测出该待检测图像是否包括面部区域，以及包括的面部区域在图像中的具体位置。

具体地，终端可通过内置或者外部连接的图像采集装置采集图像，将采集的图像作为待检测图像上传至服务器；终端也可从互联网上获取图像，将获取的图像作为待检测图像上传至服务器；终端还可以接收其他计算机设备传递的图像，将接收到的图像作为待检测图像上传至服务器。这样，服务器即获取到待检测图像。当然，在另外的实施例中，服务器也可以在获取到终端上传的图像后，由服务器将该图像作为待检测图像。

步骤204，调用面部检测网络对待检测图像进行处理，获得面部检测网络中特征提取结构提取的原始特征图；原始特征图多于一个且分辨率各不相同。

其中，面部检测网络是经过训练后具有面部检测能力的机器学习算法模型。面部检测网络具体可采用神经网络模型实现。

面部包括自然人的人脸、动物的面部、以及虚拟角色的面部等。面部检测的场景比如在身份验证时对用户进行人脸检测，或者对浏览漫画时对漫画中的虚拟人物进行面部检测，或者拍照时对画面中的人物进行人脸检测等等。

面部检测网络可根据功能进行结构划分。特征提取结构是面部检测网络中用于实现从图像中提取图像特征的局部网络结构。

原始特征图是特征提取结构包括的网络层所输出的特征图（Feature Map），由于后续会对该特征图进行进一步操作，故将此时特征提取结构输出的特征图称为原始特征图，以跟后续处理得到的特征图相区别。

通常，在图像输入神经网络后，神经网络的网络层中运算算子对输入进行运算，得到特征图（Feature Map）作为运算结果。每层网络层则接收前一层网络层输出的运算结果，经过自身的运算，对下一层输出本层的运算结果。

具体地，服务器可事先根据样本训练好面部检测网络，在需要进行面部检测时，直接调用训练好的面部检测网络。其中，特征提取结构可以包括多于一层网络层，每层网络层输出一个特征图。那么，服务器可获取特征提取结构这多于一层网络层分别输出的特征图，从而获得多于一个原始特征图。当然，特征提取结构也可通过最后一层网络层输出多于一个特征图；这样，服务器可获取特征提取结构最后一层网络层输出的特征图，从而获得多于一个原始特征图。

在一个实施例中，面部检测网络可以采用机器学习领域通用的分类网络中分类层之前的网络结构，比如ResNet或VGG16等。当然，也可以自定义设计。

在一个实施例中，调用面部检测网络对待检测图像进行处理，获得面部检测网络中特征提取结构提取的原始特征图，包括：将待检测图像输入面部检测网络；获取面部检测网络的特征提取结构中多于一层网络层分别输出的特征图，得到待检测图像所对应的多于一个原始特征图。

具体地，服务器可将待检测图像输入面部检测网络，特征提取结构的每层网络层均输出一个特征图。服务器可获取各层网络层输出的特征图，得到待检测图像所对应的多于一个原始特征图。服务器也可根据需要选取部分网络层输出的特征图，得到待检测图像所对应的多于一个原始特征图。

举例说明，图3示出了一个实施例中面部检测网络的结构示意图。在本实施例中，特征提取结构（也可称为主干网络（Backbone））通过分类网络实现。参考图3可以看到出，主干网络包括6层网络层，待检测图像输入面部检测网络后，主干网络的每层网络层分别输出一个特征图，共6个不同尺度的特征图（即分辨率各不相同）。其中，对于“Cn/m”（如C2/4、C3/8、C4/16等）表示第n层网络层输出的特征图，且该特征图的分辨率为输入图像（即待检测图像）的1/m倍。比如，主干网络为ResNet，“Cn/m”具体为“C2/4”时，代表的是ResNet的第2个stage输出的特征图，且分辨率是输入图像（即待检测图像）的1/4（步长Stride=4）。这样，主干网络即输出6个不同尺寸的特征图。特征图的stride分别为（4，8，16，32，64，128）。

可以理解，神经网络结构中高层网络的感受野比较大，语义信息表征能力强，但是特征图的分辨率低，几何信息的表征能力弱（空间几何特征细节缺乏）；低层网络的感受野比较小，几何细节信息表征能力强，虽然分辨率高，但是语义信息表征能力弱。本申请实施例中，获取不同层的特征图作为后续面部检测的数据基础，可以使得后续面部检测时能够利用不同层的丰富全面的特征信息，从而可以提高面部检测的准确度和全面性。

步骤206，通过面部检测网络的特征增强结构对原始特征图进行处理，得到各原始特征图相应的增强特征图；其中，基于面部检测网络的检测目的和特征增强结构的处理对象，确定出的用于搜索特征增强结构的搜索空间；特征增强结构从搜索空间中搜索得到。

其中，特征增强结构（AutoFEM，Automatic Feature Enhance Module）是面部检测网络中用于实现加强特征的区分度和鲁棒性的网络结构。增强特征图相对于原始特征图，对图像特征的表达能力更强，且具有更多的语义信息。

在搜索的目标（特征增强结构）是神经网络结构时，搜索空间即神经网络搜索空间，是用来搜索特征增强结构的空间。从神经网络搜索空间搜索特征增强结构可以是确定神经网络搜索空间中节点数量、节点之间的连接关系以及连接关系对应的连接操作，从而得到一个确定的网络结构。其中，节点表示神经网络搜索空间中缓存数据的单元，或者表示神经网络搜索空间中的缓存数据本身。缓存数据比如，网络层输出的特征图。

由于搜索网络结构的神经网络搜索空间，可根据待搜索的网络结构的应用目的和处理对象确定。本申请实施例中，待搜索的网络结构应用于面部检测网络中，用于对多于一个分辨率各不相同的原始特征图的图像特征进行增强，则神经网络搜索空间可根据面部检测网络的检测目的、以及待搜索的网络结构的处理对象确定，具体可根据通用的应用于面部检测网络对多个图像的图像特征进行增强的网络结构改进得到。

具体地，服务器可将待检测图像所对应的多于一个原始特征图共同输入特征增强结构，特征增强结构对这些图像进行一系列运算，输出各个原始特征图各自对应的增强特征图。

在一个实施例中，面部检测网络用于对图像进行面部检测，且特征增强结构的作用对象为多于一个分辨率各不相同的原始特征图。为了得到精确的检测结果，可以对多尺度特征进行融合和语义信息的加强，继而基于面部检测网络的检测目的和特征增强结构的处理对象，分别确定出的用于搜索特征融合结构的搜索空间和用于搜索语义增强结构的搜索空间，将特征融合结构和语义增强结构级联得到特征增强结构。其中，特征融合结构具体可以为特征金字塔结构、且输入特征图的数量与输出特征图的数量相同；语义增强结构具体为语义预测结构、且包括多于一个子结构；每个子结构用于对特征金字塔结构的其中一个输出进行增强，即子结构的数量与特征金字塔结构输出特征图的数量相同。

这样，对原始特征图依次进行特征融合和语义增强，有助于后续的面部检测；而且在语义增强时，对每个特征金字塔结构的输出分别进行增强，相较于采用相同的模型对特征金字塔结构的各输出进行相同的处理，能够在检测多尺度人脸的时候体现差异性。

步骤208，通过面部检测网络的检测结构，根据增强特征图得到待检测图像的面部检测结果。

其中，检测结构是面部检测网络中用于实现根据特征进行面部检测的网络结构。面部检测结果包括检测出的面部区域在待处理图像中的图像位置。图像位置比如，图像坐标。面部检测结果还可以包括检测出的面部区域的置信度。检测出的面部区域的置信度，是指检测出的区域为面部区域的可信程度，通常可以用检测出的区域为面部区域的概率来表示，也可称为面部概率。

具体地，服务器将特征增强结构输出的多于一个增强特征图输入检测结构，检测结构对这些增强特征图进行一系列运算后，输出检测出的面部区域在待处理图像中的图像位置和相应的置信度。在面部检测时，通常是通过面部检测框框出检测为面部的图像区域，对于待检测图像中同一个真实的面部，可能会存在多个存在重叠区域面部检测框，即存在多个面部区域的图像位置，此时服务器可通过非极大值抑制NMS过滤冗余的面部检测框，保留置信度最高的面部检测框所框出的图像位置，得到检测出的面部区域。

上述面部检测方法，在获取到待检测图像后，即自动调用面部检测网络来对待检测图像进行处理，面部检测网络中特征提取结构从待检测图像中提取出原始特征图，面部检测网络的特征增强结构然后对原始特征图进行处理得到增强特征图，面部检测网络的检测结构再基于增强特征图得到待检测图像的面部检测结果。其中，原始特征图多于一个且分辨率各不相同，这样多尺度的原始特征图能够包括更丰富的图像信息，有助于提高后续面部检测的准确度；而且对原始特征图处理得到的增强特征图增强了特征的区分度和鲁棒性，进一步提高了面部检测的准确度。另外，特征增强结构是自动搜索得到的、且搜索所基于的搜索空间又是根据面部检测网络的检测目的和特征增强结构的处理对象共同确定，一方面避免了人工设计网络结构带来的巨大工作量，且性能优于人工设计的网络结构，同时又能很好地应用于面部检测网络中使得面部检测网络能够更好地进行面部检测，这样在提高检测准确度的同时也降低了人力成本。

在一个实施例中，特征增强结构包括特征金字塔结构和语义预测结构；特征金字塔结构和语义预测结构分别基于不同的神经网络搜索空间独立搜索得到。通过面部检测网络的特征增强结构对原始特征图进行处理，得到各原始特征图相应的增强特征图，包括：通过特征金字塔结构对原始特征图进行融合，得到各原始特征图各自对应的融合特征图；通过语义预测结构对融合特征图进行语义增强，得到各融合特征图各自对应的增强特征图。

其中，特征增强结构（AutoFEM）包括特征金字塔结构（AutoFEM-FPN，AutoFEM-Feature Pyramid Network）和语义预测结构（AutoFEM-CPM，AutoFEM-Context PredictionModule）。特征金字塔结构用于进行特征融合，语义预测结构则用于对融合后的结果进行增强。由于特征金字塔结构和语义预测结构分别实现不同的功能，可以分别通过自动神经网络架构搜索（Neural Architecture Search，NAS）基于不同的神经网络搜索空间单独搜索得到，再级联得到特征增强结构。

具体地，服务器可将待检测图像所对应的多于一个原始特征图共同输入特征金字塔结构，通过特征金字塔结构对这多于一个原始特征图进行融合，输出每个原始特征图各自对应的融合特征图。服务器再将多于一个融合特征图输入语义预测结构，通过语义预测结构对这多于一个融合特征图进行增强，输出每个融合特征图各自对应的增强特征图。

其中，特征金字塔结构应用于面部检测网络中，用于对多于一个原始特征图进行融合。目前机器学习领域，已经存在一些经典的特征金字塔网络结构。本申请在经典结构上进行改进，创造性地设计了一种超网络结构，从该超网络结构中搜索出本申请的特征金字塔结构（AutoFEM-FPN）。

在一种实施例中，特征金字塔结构的搜索过程包括以下步骤：根据面部检测网络的检测目的，确定搜索特征金字塔结构的第一神经网络搜索空间；第一神经网络搜索空间中包括多于一个节点；节点之间的连接方式包括自下而上连接、自上而下连接以及跳跃连接；构建搜索目标函数，并基于搜索目标函数在第一神经网络搜索空间中搜索确定各节点之间候选的连接操作的权重；在搜索结束时，保留节点之间权重最大的连接操作，得到特征金字塔结构。

具体地，开发人员可根据面部检测网络的检测目的，借鉴目前机器学习领域已经存在的能为实现该检测目的服务的经典结构，如经典的特征金字塔网络FPN、PAN和BiFPN等。在这些经典结构的基础上创造性地设计出第一神经网络搜索空间的超网络结构，以从第一神经网络搜索空间中搜索出本申请的特征金字塔结构（AutoFEM-FPN）。

这里实现从第一神经网络空间搜索出特征金字塔结构的目标是一个抽象的概念。具体实现该目标时，可以通过构建一个“目标搜索函数”来体现，这样搜索过程可以具体化为通过让目标搜索函数取得极大值或极小值来确定特征金字塔结构的具体结构和网络参数。

第一神经网络搜索空间的超网络结构中包括多于一个节点。超网络结构包括自上而下（top-down）结构（即节点之间的连接方式为自下而上连接）、自下而上（bottom-up）结构（即节点之间的连接方式为自上而下连接）和跳跃连接（skip-connect）结构（即节点之间的连接方式为跳跃连接）。

其中，节点表示神经网络搜索空间中缓存数据的单元，或者表示神经网络搜索空间中的缓存数据本身。缓存数据比如特征图。自下而上连接和自上而下连接这两种连接方式中的上下关系，依从原始特征图所提取自网络层的前后关系。比如，第一层网络层输出的原始特征图，在传递至与第二层网络层输出的原始特征图进行运算时，即为自下而上连接；第二层网络层输出的原始特征图，在传递至与第一层网络层输出的原始特征图进行运算时，即为自上而下连接。跳跃连接则表示输入节点与相应的输出节点相连接。

在第一神经网络搜索空间中搜索特征金字塔结构的过程，包括搜索确定节点之间自下而上连接、自上而下连接以及跳跃连接这些连接所对应的连接操作的过程。第一神经网络搜索空间中的候选的操作集中包括多种卷积参数不同的可分离卷积（SeparableConvolution）操作。可分离卷积操作可以包括两部分卷积过程，深度卷积（DepthwiseConvolution）过程和逐点卷积（Pointwise Convolution）过程。其中，空洞卷积（Dilated/Atrous Convolution）也可以用作可分离卷积。

举例说明，图4示出了一个实施例中特征金字塔结构的结构示意图。参考图4（a），该图示出了一个实施例中用于搜索特征金字塔结构的超网络结构的示意图。该图中，C2-C7为主干网络输出的6个尺度各不相同的原始特征图，P2-P7为输出的各原始特征图分别对应的融合特征图。超网络结构包括自上而下结构、自下而上结构和跳跃连接结构。这些连接结构所对应的候选的操作集为{

卷积，

可分离卷积，

可分离卷积，

空洞卷积，

空洞卷积，

空洞卷积}，其中，

卷积用来替代恒等操作。

进一步地，服务器可构建搜索目标函数，并基于搜索目标函数在第一神经网络搜索空间中搜索确定各节点之间候选的连接操作的权重；在搜索结束时，保留节点之间权重最大的连接操作，得到特征金字塔结构。其中，不同的连接操作的权重不同，权重的大小代表连接操作的重要程度。

服务器具体可通过基于梯度的搜索方式进行搜索，这时目标函数可以是损失函数，通过最小化损失函数进行梯度回传来优化结构的参数和操作的权重。

在一个具体的实施例中，特征金字塔结构中进行融合的通用公式为：

（1）

其中，

是指卷积操作，

是指双线性差值上采样操作，

是指maxpooling操作。

是

的top-down特征，也可以称为

的反馈特征图。

是

的bottom-up特征，也可以称为

的前馈特征图。

是指跳跃连接对应的连接操作，

是指自上而下连接对应的连接操作，

是指自下而上连接对应的连接操作。

是指跳跃连接对应的连接操作的权重，

是指自上而下连接对应的连接操作的权重，

是指自下而上连接对应的连接操作的权重。

服务器再通过梯度搜索的方式，计算超网络结构中每个边上的各个候选操作的概率，然后保留下概率最大的连接操作，确定式（1）中的

、

、

、

、

和

，从而得到本申请中特征金字塔结构，以及在金字塔中进行特征图融合的具体公式。继续参考图4，图4（b）为从图4（a）搜索得到的具体的特征金字塔结构，可以看到每一层原始特征图经过特定操作后会反馈至前一层进行特征图融合、也会前馈至后一层进行特征图融合，以及连接至本层融合节点（Fusion）进行特征图融合。

在本实施例中，通过自动搜索出能为实现本申请面部检测网络的检测目的服务的特征金字塔结构，避免了人工设计网络结构带来的巨大工作量，且性能优于人工设计的网络结构，在提高检测准确度的同时也降低了人力成本。

在一个实施例中，通过特征金字塔结构对原始特征图进行融合，得到各原始特征图各自对应的融合特征图，包括：将多于一个原始特征图共同输入特征金字塔结构；在特征金字塔结构中，将每个原始特征图、每个原始特征图的前馈特征图及每个原始特征图的反馈特征图融合，得到每个原始特征图的融合特征图；其中，每个原始特征图的前馈特征图根据每个原始特征图的上一层原始特征图得到，每个原始特征图的反馈特征图根据每个原始特征图的下一层原始特征图得到，原始特征图的顺序依从原始特征图提取自的网络层的顺序。

其中，前馈特征图是对上一层原始特征图进行特定卷积操作后得到的特征图。反馈特征图对下一层原始特征图进行特定卷积操作后得到特征图。不同的层得到前馈特征图或反馈特征图所进行的卷积操作可以相同也可以不同。

具体地，服务器可根据在前的实施例中搜索得到的特征金字塔结构，对多于一个原始特征图进行处理，得到各个原始特征图各自对应的融合特征图。其中，对多个特征图进行融合具体可以是对这多个特征图进行卷积运算。

举例说明，继续参考图4，对于第一层原始特征图C2，由于C2为首层原始特征图，则没有前馈特征图，C2的反馈特征图为对C3进行可分离卷积操作（sep_conv_

）后得到的结果。C2对应的融合特征图P2，即根据对C2进行卷积操作（conv_

）后得到的结果与C2的反馈特征图融合得到。对于第二层原始特征图C3，C3的前馈特征图为对C2进行可分离卷积操作（sep_conv_

）后得到的结果，C3的反馈特征图为对C4进行可分离卷积操作（sep_conv_

）后得到的结果。C3对应的融合特征图P3，即根据对C3进行卷积操作（conv_

）后得到的结果、C3的前馈特征图和C3的反馈特征图融合得到。对于第三层原始特征图C4，则C4的前馈特征图为对C3进行卷积操作（sep_conv_

）后得到的结果，C4的反馈特征图为对C5进行卷积操作（conv_

）后得到的结果。C4对应的融合特征图P4，即根据对C4进行卷积操作（conv_

）后得到的结果、C4的前馈特征图和C4的反馈特征图融合得到。对于第四层原始特征图C5，则C5的前馈特征图为对C4进行卷积操作（conv_

）后得到的结果，C5的反馈特征图为对C6进行可分离卷积操作（sep_conv_

）后得到的结果。C5对应的融合特征图P5，即根据对C5进行卷积操作（conv_

）后得到的结果、C5的前馈特征图和C5的反馈特征图融合得到。对于第五层原始特征图C6，则C6的前馈特征图为对C5进行卷积操作（sep_conv_

）后得到的结果，C6的反馈特征图为对C7进行可分离卷积操作（sep_conv_

）后得到的结果。C6对应的融合特征图P6，即根据对C6进行卷积操作（conv_

）后得到的结果、C6的前馈特征图和C6的反馈特征图融合得到。对于第六层原始特征图C7，由于C7为最后一层原始特征图，则没有反馈特征图，C7的前馈特征图为对C6进行卷积操作（sep_conv_

）后得到的结果。C7对应的融合特征图P7，即根据对C7进行卷积操作（conv_

）后得到的结果和C7的前馈特征图融合得到。

在本实施例中，特征金字塔结构通过自动神经网络搜索得到，结构参数量少且速度快，有效地提高了网络检测效率。而且，搜索得到的特征金字塔结构中采用了大量的深度可分离卷积，也能够加快网络检测效率。

在一个实施例中，语义预测结构包括与各融合特征图各自对应的子结构。语义预测结构的搜索过程包括：根据面部检测网络的检测目的，确定搜索语义预测结构的第二神经网络搜索空间；第二神经网络搜索空间包括多于一个节点及连接多于一个节点的有向的边，节点表示子结构中缓存数据的单元，边表示将边的起始节点缓存的数据经过连接操作处理后输入边的结束节点；构建搜索目标函数，并基于搜索目标函数同时在第二神经网络搜索空间中搜索语义预测结构的多于一个子结构；在搜索结束时，保留每个第二神经网络搜索空间中节点之间权重最大的连接操作，得到多于一个子结构。

其中，语义预测结构包括与各融合特征图各自对应的子结构，也就是说，每个融合特征图通过单独的一个子结构进行增强。不同分辨率的融合特征图分别采用不同的网络结构进行增强，可以在检测多尺度面部时体现出差异性。

具体地，开发人员可根据面部检测网络的检测目的，借鉴目前机器学习领域已经存在的能为实现面部检测网络的检测目的服务的经典结构，如经典的RFB、SSD中的FEM，或者RefineFace中的RFE等。在这些经典结构中不同大小卷积构成的多分支结构的基础上创造性地设计出第二神经网络搜索空间的超网络结构，以从第二神经网络搜索空间中搜索出本申请的语义预测结构（AutoFEM-CPM）。

其中，第二神经网络搜索空间的超网络结构包括多于一个节点及连接多于一个节点的有向的边，节点表示子结构中缓存数据的单元，边表示将边的起始节点缓存的数据经过连接操作处理后输入边的结束节点。

在第二神经网络搜索空间中搜索语义预测结构的过程，包括搜索确定节点的数量、连接这些节点的有向的边、以及这些边各自对应的连接操作的过程。连接操作所选自的操作集中包括多种卷积参数不同的可分离卷积（Separable Convolution）操作。可分离卷积操作可以包括两部分卷积过程，深度卷积（Depthwise Convolution）过程和逐点卷积（Pointwise Convolution）过程。其中，空洞卷积（Dilated/Atrous Convolution）也可以用作可分离卷积。

这里实现从第二神经网络空间搜索出语义预测结构的目标是一个抽象的概念。具体实现该目标时，可以通过构建一个“目标搜索函数”来体现，这样搜索过程可以具体化为通过让目标搜索函数取得极大值或极小值来确定特征金字塔结构的具体结构和网络参数。由于，特征金字塔结构和语义预测结构是级联后用于面部检测网络对特征图进行增强处理，可构建一个“目标搜索函数”来分别搜索特征金字塔结构和语义预测结构。

由于语义预测结构的各子结构相互独立，且分别作用于不同的融合特征图；那么服务器可以同时搜索语义预测结构的各个子结构。

在一个实施例中，构建搜索目标函数，并基于搜索目标函数同时在第二神经网络搜索空间中搜索语义预测结构的多于一个子结构，包括：构建搜索目标函数；在搜索过程的每次权重优化时，根据搜索目标损失函数，确定第二神经网络搜索空间中各节点之间各候选的连接操作的权重；在搜索过程的每次网络参数优化时，基于前一次权重优化确定权重，将节点间权重最大的连接操作保留形成的网络结构作为网络参数优化的网络结构，根据搜索目标损失函数优化网络结构的网络参数；交迭权重优化和网络参数优化，至满足搜索结束条件时结束搜索。

可以理解，在对图像进行面部检测时，图像中可能存在尺寸较小的面部区域，这些尺寸较小的面部区域通常需要大分辨率的特征图来检测，这样会造成严重的显存消耗。为了解决这一问题，本申请优化了语义预测结构的搜索过程，通过分步优化来降低显存的消耗。其中，分步优化包括权重优化和网络参数优化两步，且权重优化和网络参数优化交迭进行。

具体地，对于语义预测结构的每一个子结构的搜索，服务器可构建搜索目标函数，根据搜索目标损失函数，确定第二神经网络搜索空间中各节点之间各候选的连接操作的权重，即进行了一次迭代的权重优化。服务器再将节点间权重最大的连接操作保留形成的网络结构作为待进行网络参数优化的网络结构，根据搜索目标损失函数优化网络结构的网络参数，即进行了一次迭代的网络参数优化。服务器再交迭地进行权重优化和网络参数优化，至满足搜索结束条件时结束搜索。其中，服务器具体可通过基于梯度的搜索方式进行搜索，这时目标函数可以是损失函数，通过最小化损失函数进行梯度回传来优化结构的参数和操作的权重。

举例说明，图5示出了一个实施例中搜索语义预测结构的原理示意图。参考图5，服务器进行一次迭代的权重优化，确定第二神经网络搜索空间中各节点之间各候选的连接操作的权重如图5（a）所示；其中，各数值代表对应边的权重。服务器可将节点间权重最大的连接操作保留形成的网络结构作为待进行网络参数优化的网络结构如图5（b）所示。服务器再基于该网络结构进行网络参数优化，得到图如图5（c）所示的网络。也就是说，服务器通过权重优化决定结构，再基于当前的结构后优化结构的网络参数。

图6示出了一个实施例中语义预测结构的结构示意图。参考图6，该图为基于图5所示的搜索原理搜索得到的6个独立的AutoFEM-CPM子结构。每个子AutoFEM-CPM子结构对一个融合特征图（Pi）进行增强，输出相应的增强特征图（P`i）。其中，dil_conv表示空洞卷积，Sep_conv表示可分离卷积，conv表示标准卷积，nxm表示卷积核参数。

在一个具体的实施例中，在搜索AutoFEM-CPM的过程中，候选操作集为{1x1卷积，3x3可分离卷积，5x5可分离卷积，1x3卷积，3x1卷积，1x3卷积和3x1卷积的组合，1x5卷积，5x1卷积，1x5卷积和5x1卷积的组合， 3x3 r=2的空洞卷积，3x3 r=3的空洞卷积，5x5 r=2的空洞卷积}。候选操作采用了大量的深度可分离卷积，能够加快网络检测效率。

上述实施例中，通过自动搜索出能为实现本申请面部检测网络的检测目的服务的特征金字塔结构，避免了人工设计网络结构带来的巨大工作量，且性能优于人工设计的网络结构，在提高检测准确度的同时也降低了人力成本。另外，在优化网络参数时，仅考虑当前节点间权重最大的连接操作保留形成的网络结构，降低了显存的消耗。

在一个实施例中，语义预测结构包括与各融合特征图各自对应的子结构。通过语义预测结构对融合特征图进行语义增强，得到各融合特征图各自对应的增强特征图，包括：将各融合特征图分别输入各自对应的子结构；在每个子结构中，对于输入子结构的融合特征图进行处理，得到输入子结构的融合特征图所对应的增强特征图。

在一个实施例中，子结构包括多于一个节点以及连接多于一个节点的有向的边，节点表示子结构中缓存数据的单元，边表示将边的起始节点缓存的数据经过连接操作处理后输入至边的结束节点，多于一个节点包括输入节点、输出节点以及输入节点和输出节点之间的叶子节点。在每个子结构中，对于输入子结构的融合特征图进行处理，得到输入子结构的融合特征图所对应的增强特征图，包括：在每个子结构中，将输入节点中存储的融合特征图，经过子结构中各边对应的连接操作处理后输入至各边的结束节点；将仅为结束节点的叶子节点汇聚至输出节点，通过输出节点输出融合得到的增强特征图。

具体地，服务器可将各融合特征图分别输入各自对应的子结构。在每个子结构中，输入节点中存储的是待处理的融合特征图，或者输入节点即为待处理的特征融合图，按照子结构中各有向的边的方向，经过各边对应的连接操作处理后输入至各边的结束节点；将仅为结束节点的叶子节点汇聚至输出节点，通过输出节点输出融合得到的增强特征图。这里不再将所有叶子节点的输出均汇聚至输出节点，而仅仅将只是结束节点的叶子节点汇聚至输出节点，可以在保证检测精度的条件下降低计算量和内存成本。

举例说明，参考图6右下角的子结构，输入节点为融合特征图P2，分别经过空洞卷积操作（dil_conv_3x3）后输入节点1，经过空洞卷积操作（dil_conv_3x3）后输入节点3，经过空洞卷积操作（dil_conv_5x5）后输入节点4，经过卷积操作（conv_1x5 5x1）后输入节点5，以及经过卷积操作（conv_1x3 3x1）后输入节点6；节点1经过空洞卷积操作（dil_conv_3x3）输入节点2；将仅作为叶子节点的节点2、3、4、5、和6汇聚至输出节点融合后输出增强特征图P`2。其中，节点1不仅为输入节点的结束节点还是节点2的起始节点，故不汇入输出节点。

在本实施例中，语义预测结构通过自动神经网络搜索得到，结构参数量少且速度快，有效地提高了网络检测效率。而且，搜索得到的语义预测结构中采用了大量的深度可分离卷积，也能够加快网络检测效率。另外，语义预测结构中仅将仅为结束节点的叶子节点汇聚至输出节点，可以在保证检测精度的条件下降低了计算量和内存成本。

上述实施例中，通过特征金字塔结构和语义预测结构两部分来实现特征增强结构，通过特征金字塔结构高效地对多尺度特征进行融合，然后再通过语义预测结构对进行语义信息的加强，从而以合理的分类和回归增强所有特征。而且，特征金字塔结构和语义预测结构基于可微分神经网络架构搜索方法搜索出来，这样，面部检测网络的模型参数量少且速度快。

在一个实施例中，面部检测网络的训练过程包括以下步骤：根据面部检测网络的检测目的，确定搜索特征金字塔结构的第一神经网络搜索空间，及搜索语义预测结构的第二神经网络搜索空间；构建网络训练损失函数；根据网络训练损失函数，分别从第一神经网络搜索空间中搜索出特征金字塔结构，从第二神经网络搜索空间中搜索出语义预测结构；继续根据网络训练损失函数，联合训练面部检测网络的第一分支和第二分支；第一分支包括特征提取结构和检测结构；第二分支包括特征提取结构、特征金字塔结构、语义预测结构和检测结构；在应用面部检测网络时，第二分支的输出为面部检测网络的输出。

具体地，开发人员可根据面部检测网络的检测目的，借鉴目前机器学习领域已经存在的能为实现面部检测网络的检测目的服务的经典结构，确定搜索特征金字塔结构的第一神经网络搜索空间，及搜索语义预测结构的第二神经网络搜索空间，以及面部检测网络的组成结构。

面部检测网络可以利用两种特征图构成两个分支，从特征提取结构后分支，将原始特征图作为第一分支的检测对象，直接连接至检测结构。另外再将原始特征图输入特征增强结构进行处理，得到的增强特征图自作为第二分支的检测对象，连接至检测结构。举例说明，继续参考图3，待检测图像输入主干网络后，主干网络输出的六个原始特征图一方面直接输入检测结构（检测头Head）进行面部检测，得到第一面部检测结果；另一方面输入特征增强结构（AutoFEM）输出增强特征图输入检测结构（检测头Head）进行面部检测，得到第一面部检测结果。其中，两个分支共享检测结构（检测头Head），检测结构（检测头Head）通过卷积操作实现检测。

进一步地，开发人员可基于面部检测网络的组成结构以及面部检测网络的检测目的，设计面部检测网络的网络训练损失计算方式，服务器则按照该网络训练损失计算方式构建网络训练损失函数，根据网络训练损失函数，分别从第一神经网络搜索空间中搜索出特征金字塔结构，从第二神经网络搜索空间中搜索出语义预测结构。服务器再将特征金字塔结构与语义预测结构级联后加入面部检测网络，继续根据网络训练损失函数，联合训练面部检测网络的第一分支和第二分支。其中，联合训练面部检测网络的第一分支和第二分支时，特征金字塔结构与语义预测结构中各边的连接操作的权值会重新训练。

其中，网络训练损失计算方式具体为多种任务的损失叠加，包括回归损失和分类损失。回归损失具体可以是基于距离的回归损失（Distance-based Regression Loss），分类损失具体可以是基于边缘的分类损失（Margin-based Classification Loss）。第一分支对应一个多任务损失函数，第二分支对应一个多任务损失函数，第一分支和第二分支联合训练，则两个多任务损失函数加权求和，得到一个共同对应的总的多任务损失函数。

在一个实施例中，由于，特征金字塔结构和语义预测结构是级联后用于面部检测网络对特征图进行增强处理。那么，搜索特征金字塔结构的搜索目标函数，搜索语义预测结构的搜索目标函数，以及联合训练面部检测网络中第一分支和第二分支的多任务损失函数，可以设置为同一个函数。

上述实施例中，面部检测网络为双分支结构，在特征提取结构后分支，特征提取结构直接与检测结构连接作为一分支，特征提取结构通过特征增强模型进行处理后再与检测结构连接作为第二分支。在训练面部检测网络时，双分支协同训练，能通过第一分支辅助训练第二分支，提高训练效率和效果；在使用面部检测网络时，则忽略第一分支仅使用第二分支的输出，也不会增大网络计算量。而且，原始特征图多于一个且分辨率各不相同，这样多尺度的原始特征图能够包括更丰富的图像信息，有助于提高后续面部检测的准确度；对原始特征图处理得到的增强特征图增强了特征的判别性和鲁棒性，进一步提高了面部检测的准确度。另外，特征增强结构基于神经网络搜索空间搜索得到，避免了人工设计网络结构带来的巨大工作量，且性能优于人工设计的网络结构，在提高检测准确度的同时也降低了人力成本。

在一个实施例中，如图7所示，提供了一种图像检测神经网络训练方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤702，获取训练图像和面部检测网络；面部检测网络包括特征提取结构、特征增强结构和检测结构；其中，基于面部检测网络的检测目的和特征增强结构的处理对象，确定出的用于搜索特征增强结构的搜索空间；特征增强结构从搜索空间中搜索得到。

其中，训练图像是用作训练数据的图像样本，并对应存在训练标签。训练图像的训练标签具体可以是训练图像中面部区域（面部矩形框）真实的图像位置。面部检测网络包括的特征增强结构基于神经网络搜索空间搜索得到。训练面部检测网络时，特征增强结构中各连接操作在搜索完成时对应的权重被丢弃，在训练面部检测网络时重新进行训练。

步骤704，将训练图像输入面部检测网络，通过特征提取结构提取训练图像的原始特征图；原始特征图多于一个且分辨率各不相同。

步骤706，将原始特征图直接输入检测结构，得到第一检测结果。

步骤708，通过特征增强结构处理原始特征图，得到各原始特征图相应的增强特征图，并将增强特征图输入检测结构，得到第二检测结果。

步骤710，根据第一检测结果、第二检测结果与训练标签，构建训练损失函数训练面部检测网络，直至满足训练停止条件时结束训练；其中，在应用面部检测网络对待检测图像进行处理时，特征增强结构处理所在分支的输出为面部检测网络的输出。

其中，第一检测结果所在的检测分支用于辅助训练第二检测结果所在的分支。在实际应用面部检测网络对待检测图像进行处理时，第二分支的输出为面部检测网络的输出，并不会引入额外的计算代价。

继续参考图3，在训练面部检测网络时，第一分支输出的第一检测结果与训练标签，可构建第一分支的训练损失函数（First shot DRMC Loss），第二分支输出的第二检测结果与训练标签，可构建第二分支的训练损失函数（Second shot DRMC Loss），再通过权重平衡两个训练损失函数，得到总的训练损失函数。其中，训练损失函数具体可以是多任务损失函数，包括回归损失和分类损失。

上述图像检测神经网络训练方法，面部检测网络为双分支结构，在特征提取结构后分支，特征提取结构直接与检测结构连接作为一分支，特征提取结构通过特征增强模型进行处理后再与检测结构连接作为第二分支。在训练面部检测网络时，双分支协同训练，能通过第一分支辅助训练第二分支，提高训练效率和效果；在使用面部检测网络时，则忽略第一分支仅使用第二分支的输出，也不会增大网络计算量。而且，原始特征图多于一个且分辨率各不相同，这样多尺度的原始特征图能够包括更丰富的图像信息，有助于提高后续面部检测的准确度；对原始特征图处理得到的增强特征图增强了特征的判别性和鲁棒性，进一步提高了面部检测的准确度。另外，特征增强结构是自动搜索得到的、且搜索所基于的搜索空间又是根据面部检测网络的检测目的和特征增强结构的处理对象共同确定，一方面避免了人工设计网络结构带来的巨大工作量，且性能优于人工设计的网络结构，同时又能很好地应用于面部检测网络中使得面部检测网络能够更好地进行面部检测，这样在提高检测准确度的同时也降低了人力成本。

在一个实施例中，特征增强结构包括特征金字塔结构和语义预测结构。获取训练图像集和面部检测网络，包括：获取训练图像集；根据面部检测网络的检测目的，确定搜索特征金字塔结构的第一神经网络搜索空间，及搜索语义预测结构的第二神经网络搜索空间；从第一神经网络搜索空间中搜索出特征金字塔结构；从第二神经网络搜索空间中搜索出语义预测结构。通过特征增强结构处理原始特征图，得到各原始特征图相应的增强特征图，并将增强特征图输入检测结构，得到第二检测结果，包括：通过特征金字塔结构处理原始特征图，得到各原始特征图相应的融合特征图；通过语义预测结构处理融合特征图，得到各原始特征图相应的融合特征图；将增强特征图输入检测结构，得到第二检测结果。

具体地，特征金字塔结构和语义预测结构用于面部检测网络，那么训练面部检测网络的训练图像集，也可以用于从搜索空间中搜索特征金字塔结构和语义预测结构。训练图像集经过特征提取结构提取出特征图后，再用作搜索空间的输入以搜索特征金字塔结构和语义预测结构。具体搜索特征金字塔结构和语义预测结构的过程可参考前述实施例中的详细描述。

在一个实施例中，第一神经网络搜索空间中包括多于一个节点；节点之间的连接方式包括自下而上连接、自上而下连接以及跳跃连接。从第一神经网络搜索空间中搜索出特征金字塔结构，包括：构建搜索目标函数，并基于搜索目标函数在第一神经网络搜索空间中搜索确定各节点之间候选的连接操作的权重；在搜索结束时，保留节点之间权重最大的连接操作，得到特征金字塔结构。

在一个实施例中，第二神经网络搜索空间包括多于一个节点及连接多于一个节点的有向的边，节点表示第二神经网络搜索空间中缓存数据的单元，边表示将边的起始节点缓存的数据经过连接操作处理后输入边的结束节点。从第二神经网络搜索空间中搜索出语义预测结构，包括：构建搜索目标函数，并基于搜索目标函数同时在第二神经网络搜索空间中搜索语义预测结构的多于一个子结构；子结构的数量与融合特征图的数量相同；在搜索结束时，保留每个第二神经网络搜索空间中节点之间权重最大的连接操作，得到多于一个子结构。

可以理解，在确定搜索特征金字塔结构和语义预测结构的超网络结构时，可以借鉴于经典的FPN、SSD以及RefineFace。这些经典结构都是用于人脸检测的优秀结构，那么本申请的面部检测网络也可以非常好地适用于人脸检测的场景，以及从超网络结构中搜索特征金字塔结构和语义预测结构也是更适应于人脸检测的搜索方式。而且，人脸检测是人脸应用中最基础、也是最重要的一个过程，可服务于人脸识别以及人脸配准等，人脸检测在许多应用场景也应用广泛，比如商店、超市或者地铁等公共场所，教育领域以及安防领域等。本申请还提供一种人脸检测的应用场景，该应用场景应用上述的面部检测方法。具体地，该面部检测方法在该应用场景的应用如下：

步骤（1），获取待检测图像。

待检测图像比如，相机或者摄像头画面，照片，视频中的图像帧，漫画等。

步骤（2），将待检测图像输入人脸检测网络，得到人脸检测网络中分类主干网络结构提取的原始特征图；原始特征图多于一个且分辨率各不相同。

步骤（3），通过人脸检测网络中的特征金字塔结构对原始特征图进行融合，得到各原始特征图各自对应的融合特征图；其中，特征金字塔结构基于第一神经网络搜索空间搜索得到，第一神经网络搜索空间的超网络结构根据经典的特征金字塔结构改进得到，第一神经网络搜索空间的超网络结构中包括多于一个节点，节点之间的连接方式包括自下而上连接、自上而下连接以及跳跃连接。

步骤（4），通过语义预测结构的各个子结构分别对融合特征图进行语义增强，得到各融合特征图各自对应的增强特征图；其中，语义预测结构的各个子结构基于第二神经网络搜索空间搜索得到，第二神经网络搜索空间根据通用的包括不同大小卷积构成的多分支结构的网络结构改进得到，第二神经网络搜索空间包括多于一个节点以及连接多于一个节点的有向的边，节点表示第二神经网络搜索空间中缓存数据的单元，边表示将边的起始节点缓存的数据经过连接操作处理后输入至边的结束节点，多于一个节点包括输入节点、输出节点以及输入节点和输出节点之间的叶子节点。

步骤（5），通过人脸检测网络的检测结构对增强特征图进行卷积操作，得到从待检测图像的检测出的人脸坐标和人脸概率。

步骤（6），通过非极大值抑制过滤冗余的人脸框，对待检测图像中的每个人脸仅保留一个人脸概率最大的人脸坐标。

另外，本申请提供的面部检测方法在WIDERFACE和FDDB两个人脸检测数据集的榜单上超过了以往经典方法(State-Of-The-Art，SOTA)，取得第一名。

图8示出了本申请的人脸检测方法与现有的人脸检测算法在WIDERFACE的三个测评子集的检测结果对比图。纵坐标为精度（precision），横坐标为召回率（Recall），图中本申请对应的精度-召回率关系曲线为最外侧曲线，其他曲线为其他现有人脸检测方法对应的精度-召回率关系曲线，现有的人脸检测算法比如RefineFACE、AInnoFACE以及DFS等。在“Easy”测评子集，本申请的人脸检测精度可以达到0.971；在“Medium”测评子集，本申请的人脸检测精度可以达到0.965；在“Hard”测评子集，本申请的人脸检测精度可以达到0.922。

图9示出了本申请的人脸检测方法与现有的人脸检测算法在FDDB数据集上ROC曲线对比图。上图为不连续ROC曲线（Discontinuous ROC curves），下图为连续ROC曲线（Continuous ROC curves）。横坐标为假正例（False Positives），纵坐标为真阳率（TurePositives Rate），图中本申请对应的ROC曲线为最外侧曲线，其他曲线为其他现有人脸检测方法对应的ROC曲线。其中，在不连续ROC曲线上，本申请的真阳率可以达到0.9911；在连续ROC曲线上，本申请的真阳率可以达到08625。

举例说明，图10示出了一个在待检测图像中可视化面部检测结果的示意图。参考图10，该图示出了图像模式（Modality，比如红外图像）、面部神色（Expression，比如各种人脸姿态或表情）、面部遮挡（Occlusion，比如佩戴面具）以及人脸规模（Scale，比如大量人脸）四种变量场景下的面部检测结果图，可以看到每个人脸都被人脸检测框框出，即每个人脸都被检测出来。由此可见在各种尺度、姿态、表情、遮挡以及光照等因素的影响下，通过本申请实施例提供的面部检测方法依然能够准确地检测出待处理图像中的各个人脸。

应该理解的是，虽然上述实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种面部检测装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1101、提取模块1102、增强模块1103和检测模块1104，其中：

获取模块1101，用于获取待检测图像；

提取模块1102，用于调用面部检测网络对待检测图像进行处理，获得面部检测网络中特征提取结构提取的原始特征图；原始特征图多于一个且分辨率各不相同；

增强模块1103，用于通过面部检测网络的特征增强结构对原始特征图进行处理，得到各原始特征图相应的增强特征图；其中，基于面部检测网络的检测目的和特征增强结构的处理对象，确定出的用于搜索特征增强结构的搜索空间；特征增强结构从搜索空间中搜索得到；

检测模块1104，用于通过面部检测网络的检测结构，根据增强特征图得到待检测图像的面部检测结果。

在一个实施例中，特征增强结构包括特征金字塔结构和语义预测结构；基于面部检测网络的检测目的和特征增强结构的处理对象，分别确定出的用于搜索特征金字塔结构的搜索空间和用于搜索语义预测结构的搜索空间；特征金字塔结构用于对原始特征图进行融合得到相同数量的输出；语义预测结构包括多于一个子结构；每个子结构用于对特征金字塔结构的其中一个输出进行增强。

在一个实施例中，提取模块1102还用于将待检测图像输入面部检测网络；获取面部检测网络的特征提取结构中多于一层网络层分别输出的特征图，得到待检测图像所对应的多于一个原始特征图。

在一个实施例中，特征增强结构包括特征金字塔结构和语义预测结构；特征金字塔结构和语义预测结构分别基于不同的神经网络搜索空间独立搜索得到。增强模块1103还用于通过特征金字塔结构对原始特征图进行融合，得到各原始特征图各自对应的融合特征图；通过语义预测结构对融合特征图进行语义增强，得到各融合特征图各自对应的增强特征图。

在一个实施例中，增强模块1103还用于将多于一个原始特征图共同输入特征金字塔结构；在特征金字塔结构中，将每个原始特征图、每个原始特征图的前馈特征图及每个原始特征图的反馈特征图融合，得到每个原始特征图的融合特征图；其中，每个原始特征图的前馈特征图根据每个原始特征图的上一层原始特征图得到，每个原始特征图的反馈特征图根据每个原始特征图的下一层原始特征图得到，原始特征图的顺序依从原始特征图提取自的网络层的顺序。

在一个实施例中，面部检测装置还包括训练模块，用于根据面部检测网络的检测目的，确定搜索特征金字塔结构的第一神经网络搜索空间；第一神经网络搜索空间中包括多于一个节点；节点之间的连接方式包括自下而上连接、自上而下连接以及跳跃连接；构建搜索目标函数，并基于搜索目标函数在第一神经网络搜索空间中搜索确定各节点之间候选的连接操作的权重；在搜索结束时，保留节点之间权重最大的连接操作，得到特征金字塔结构。

在一个实施例中，语义预测结构包括与各融合特征图各自对应的子结构。增强模块1103还用于将各融合特征图分别输入各自对应的子结构；在每个子结构中，对于输入子结构的融合特征图进行处理，得到输入子结构的融合特征图所对应的增强特征图。

在一个实施例中，子结构包括多于一个节点以及连接多于一个节点的有向的边，节点表示子结构中缓存数据的单元，边表示将边的起始节点缓存的数据经过连接操作处理后输入至边的结束节点，多于一个节点包括输入节点、输出节点以及输入节点和输出节点之间的叶子节点。增强模块1103还用于在每个子结构中，将输入节点中存储的融合特征图，经过子结构中各边对应的连接操作处理后输入至各边的结束节点；将仅为结束节点的叶子节点汇聚至输出节点，通过输出节点输出融合得到的增强特征图。

在一个实施例中，语义预测结构包括与各融合特征图各自对应的子结构。训练模块还用于根据面部检测网络的检测目的，确定搜索语义预测结构的第二神经网络搜索空间；第二神经网络搜索空间包括多于一个节点及连接多于一个节点的有向的边，节点表示第二神经网络搜索空间中缓存数据的单元，边表示将边的起始节点缓存的数据经过连接操作处理后输入边的结束节点；构建搜索目标函数，并基于搜索目标函数同时在第二神经网络搜索空间中搜索语义预测结构的多于一个子结构；在搜索结束时，保留每个第二神经网络搜索空间中节点之间权重最大的连接操作，得到多于一个子结构。

在一个实施例中，训练模块还用于构建搜索目标函数；在搜索过程的每次权重优化时，根据搜索目标损失函数，确定第二神经网络搜索空间中各节点之间各候选的连接操作的权重；在搜索过程的每次网络参数优化时，基于前一次权重优化确定权重，将节点间权重最大的连接操作保留形成的网络结构作为网络参数优化的网络结构，根据搜索目标损失函数优化网络结构的网络参数；交迭权重优化和网络参数优化，至满足搜索结束条件时结束搜索。

在一个实施例中，连接操作包括可分离卷积操作。

在一个实施例中，训练模块还用于根据面部检测网络的检测目的，确定搜索特征金字塔结构的第一神经网络搜索空间，及搜索语义预测结构的第二神经网络搜索空间；构建网络训练损失函数；根据网络训练损失函数，分别从第一神经网络搜索空间中搜索出特征金字塔结构，从第二神经网络搜索空间中搜索出语义预测结构；继续根据网络训练损失函数，联合训练面部检测网络的第一分支和第二分支；第一分支包括特征提取结构和检测结构；第二分支包括特征提取结构、特征金字塔结构、语义预测结构和检测结构；在应用面部检测网络时，第二分支的输出为面部检测网络的输出。

上述面部检测装置，在获取到待检测图像后，即自动调用面部检测网络来对待检测图像进行处理，面部检测网络中特征提取结构从待检测图像中提取出原始特征图，面部检测网络的特征增强结构然后对原始特征图进行处理得到增强特征图，面部检测网络的检测结构再基于增强特征图得到待检测图像的面部检测结果。其中，原始特征图多于一个且分辨率各不相同，这样多尺度的原始特征图能够包括更丰富的图像信息，有助于提高后续面部检测的准确度；而且对原始特征图处理得到的增强特征图增强了特征的区分度和鲁棒性，进一步提高了面部检测的准确度。另外，特征增强结构是自动搜索得到的、且搜索所基于的搜索空间又是根据面部检测网络的检测目的和特征增强结构的处理对象共同确定，一方面避免了人工设计网络结构带来的巨大工作量，且性能优于人工设计的网络结构，同时又能很好地应用于面部检测网络中使得面部检测网络能够更好地进行面部检测，这样在提高检测准确度的同时也降低了人力成本。

关于面部检测装置的具体限定可以参见上文中对于面部检测方法的限定，在此不再赘述。上述面部检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图12所示，提供了一种图像检测神经网络训练装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1201、提取模块1202、第一检测模块1203、第二检测模块1204和训练模块1205，其中：

获取模块1201，用于获取训练图像和面部检测网络；面部检测网络包括特征提取结构、特征增强结构和检测结构；其中，基于面部检测网络的检测目的和特征增强结构的处理对象，确定出的用于搜索特征增强结构的搜索空间；特征增强结构从搜索空间中搜索得到；

提取模块1202，用于将训练图像输入面部检测网络，通过特征提取结构提取训练图像的原始特征图；原始特征图多于一个且分辨率各不相同；

第一检测模块1203，用于将原始特征图直接输入检测结构，得到第一检测结果；

第二检测模块1204，用于通过特征增强结构处理原始特征图，得到各原始特征图相应的增强特征图，并将增强特征图输入检测结构，得到第二检测结果；

训练模块1205，用于根据第一检测结果、第二检测结果与训练标签，构建训练损失函数训练面部检测网络，直至满足训练停止条件时结束训练；其中，在应用面部检测网络对待检测图像进行处理时，特征增强结构处理所在分支的输出为面部检测网络的输出。

在一个实施例中，特征增强结构包括特征金字塔结构和语义预测结构。获取模块1201还用于获取训练图像集；根据面部检测网络的检测目的，确定搜索特征金字塔结构的第一神经网络搜索空间，及搜索语义预测结构的第二神经网络搜索空间；从第一神经网络搜索空间中搜索出特征金字塔结构；从第二神经网络搜索空间中搜索出语义预测结构。第二检测模块1204还用于通过特征金字塔结构处理原始特征图，得到各原始特征图相应的融合特征图；通过语义预测结构处理融合特征图，得到各原始特征图相应的融合特征图；将增强特征图输入检测结构，得到第二检测结果。

在一个实施例中，第一神经网络搜索空间中包括多于一个节点；节点之间的连接方式包括自下而上连接、自上而下连接以及跳跃连接。获取模块1201还用于构建搜索目标函数，并基于搜索目标函数在第一神经网络搜索空间中搜索确定各节点之间候选的连接操作的权重；在搜索结束时，保留节点之间权重最大的连接操作，得到特征金字塔结构。

在一个实施例中，第二神经网络搜索空间包括多于一个节点及连接多于一个节点的有向的边，节点表示第二神经网络搜索空间中缓存数据的单元，边表示将边的起始节点缓存的数据经过连接操作处理后输入边的结束节点。获取模块1201还用于构建搜索目标函数，并基于搜索目标函数同时在第二神经网络搜索空间中搜索语义预测结构的多于一个子结构；子结构的数量与融合特征图的数量相同；在搜索结束时，保留每个第二神经网络搜索空间中节点之间权重最大的连接操作，得到多于一个子结构。

在一个实施例中，获取模块1201还用于构建搜索目标函数；在搜索过程的每次权重优化时，根据搜索目标损失函数，确定第二神经网络搜索空间中各节点之间各候选的连接操作的权重；在搜索过程的每次网络参数优化时，基于前一次权重优化确定权重，将节点间权重最大的连接操作保留形成的网络结构作为网络参数优化的网络结构，根据搜索目标损失函数优化网络结构的网络参数；交迭权重优化和网络参数优化，至满足搜索结束条件时结束搜索。

上述图像检测神经网络训练装置，面部检测网络为双分支结构，在特征提取结构后分支，特征提取结构直接与检测结构连接作为一分支，特征提取结构通过特征增强模型进行处理后再与检测结构连接作为第二分支。在训练面部检测网络时，双分支协同训练，能通过第一分支辅助训练第二分支，提高训练效率和效果；在使用面部检测网络时，则忽略第一分支仅使用第二分支的输出，也不会增大网络计算量。而且，原始特征图多于一个且分辨率各不相同，这样多尺度的原始特征图能够包括更丰富的图像信息，有助于提高后续面部检测的准确度；对原始特征图处理得到的增强特征图增强了特征的判别性和鲁棒性，进一步提高了面部检测的准确度。另外，特征增强结构是自动搜索得到的、且搜索所基于的搜索空间又是根据面部检测网络的检测目的和特征增强结构的处理对象共同确定，一方面避免了人工设计网络结构带来的巨大工作量，且性能优于人工设计的网络结构，同时又能很好地应用于面部检测网络中使得面部检测网络能够更好地进行面部检测，这样在提高检测准确度的同时也降低了人力成本。

关于图像检测神经网络训练装置的具体限定可以参见上文中对于图像检测神经网络训练方法的限定，在此不再赘述。上述图像检测神经网络训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储神经网络结构参数。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面部检测或者图像检测神经网络训练方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种面部检测方法，其特征在于，所述方法包括：

获取待检测图像；

通过所述面部检测网络的特征增强结构对所述原始特征图进行处理，得到各所述原始特征图相应的增强特征图；

通过所述面部检测网络的检测结构，根据所述增强特征图得到所述待检测图像的面部检测结果；

其中，所述特征增强结构包括特征融合结构和语义预测结构；所述特征融合结构从第一神经网络搜索空间中搜索得到；所述语义预测结构包括多于一个子结构；所述语义预测结构的搜索过程包括：

根据所述面部检测网络的检测目的，确定搜索所述语义预测结构的第二神经网络搜索空间；

构建第一搜索目标函数；

在搜索过程的每次权重优化时，根据所述第一搜索目标函数，确定所述第二神经网络搜索空间中各节点之间各候选的连接操作的权重；

在搜索过程的每次网络参数优化时，基于前一次权重优化确定权重，将节点间权重最大的连接操作保留形成的网络结构作为网络参数优化的网络结构，根据所述第一搜索目标函数优化所述网络结构的网络参数；

交迭所述权重优化和所述网络参数优化，至满足搜索结束条件时结束搜索；

在搜索结束时，保留每个第二神经网络搜索空间中节点之间权重最大的连接操作，得到所述多于一个子结构。

2.根据权利要求1所述的方法，其特征在于，所述特征融合结构为特征金字塔结构；所述特征金字塔结构用于对所述原始特征图进行融合得到相同数量的输出；所述语义预测结构包括的每个子结构分别用于对所述特征金字塔结构的其中一个输出进行增强。

3.根据权利要求1所述的方法，其特征在于，所述特征融合结构为特征金字塔结构；所述特征金字塔结构和所述语义预测结构分别基于不同的神经网络搜索空间独立搜索得到；

所述通过所述面部检测网络的特征增强结构对所述原始特征图进行处理，得到各所述原始特征图相应的增强特征图，包括：

通过所述特征金字塔结构对所述原始特征图进行融合，得到各所述原始特征图各自对应的融合特征图；

通过所述语义预测结构对所述融合特征图进行语义增强，得到各所述融合特征图各自对应的增强特征图。

4.根据权利要求3所述的方法，其特征在于，所述通过所述特征金字塔结构对所述原始特征图进行融合，得到各所述原始特征图各自对应的融合特征图，包括：

将多于一个所述原始特征图共同输入所述特征金字塔结构；

在所述特征金字塔结构中，将每个原始特征图、每个原始特征图的前馈特征图及每个原始特征图的反馈特征图融合，得到每个原始特征图的融合特征图；

其中，每个原始特征图的前馈特征图根据每个原始特征图的上一层原始特征图得到，每个原始特征图的反馈特征图根据每个原始特征图的下一层原始特征图得到，所述原始特征图的顺序依从所述原始特征图提取自的网络层的顺序。

5.根据权利要求2或3所述的方法，其特征在于，所述特征金字塔结构的搜索过程包括以下步骤：

根据所述面部检测网络的检测目的，确定搜索特征金字塔结构的第一神经网络搜索空间；所述第一神经网络搜索空间中包括多于一个节点；所述节点之间的连接方式包括自下而上连接、自上而下连接以及跳跃连接；

构建第二搜索目标函数，并基于所述第二搜索目标函数在所述第一神经网络搜索空间中搜索确定各所述节点之间候选的连接操作的权重；

在搜索结束时，保留节点之间权重最大的连接操作，得到特征金字塔结构。

6.根据权利要求3所述的方法，其特征在于，所述语义预测结构包括与各所述融合特征图各自对应的子结构；

所述通过所述语义预测结构对所述融合特征图进行语义增强，得到各所述融合特征图各自对应的增强特征图，包括：

将各所述融合特征图分别输入各自对应的子结构；

在每个所述子结构中，对于输入所述子结构的融合特征图进行处理，得到输入所述子结构的融合特征图所对应的增强特征图。

7.根据权利要求6所述的方法，其特征在于，所述子结构包括多于一个节点以及连接所述多于一个节点的有向的边，所述节点表示所述子结构中缓存数据的单元，所述边表示将所述边的起始节点缓存的数据经过连接操作处理后输入至所述边的结束节点，所述多于一个节点包括输入节点、输出节点以及所述输入节点和所述输出节点之间的叶子节点；

所述在每个所述子结构中，对于输入所述子结构的融合特征图进行处理，得到输入所述子结构的融合特征图所对应的增强特征图，包括：

在每个所述子结构中，将输入节点中存储的融合特征图，经过所述子结构中各边对应的连接操作处理后输入至各边的结束节点；

将仅为结束节点的叶子节点汇聚至所述输出节点，通过所述输出节点输出融合得到的增强特征图。

8.根据权利要求1所述的方法，其特征在于，所述第二神经网络搜索空间包括多于一个节点及连接所述多于一个节点的有向的边，所述节点表示所述第二神经网络搜索空间中缓存数据的单元，所述边表示将所述边的起始节点缓存的数据经过连接操作处理后输入所述边的结束节点。

9.根据权利要求2或3所述的方法，其特征在于，所述面部检测网络的训练过程包括以下步骤：

构建网络训练损失函数；

根据所述网络训练损失函数，联合训练所述面部检测网络的第一分支和第二分支；所述第一分支包括所述特征提取结构和所述检测结构；所述第二分支包括所述特征提取结构、所述特征金字塔结构、所述语义预测结构和所述检测结构；在应用所述面部检测网络时，所述第二分支的输出为所述面部检测网络的输出。

10.一种图像检测神经网络训练方法，其特征在于，所述方法包括：

获取训练图像和面部检测网络；所述面部检测网络包括特征提取结构、特征增强结构和检测结构；

其中，在应用所述面部检测网络对待检测图像进行处理时，所述特征增强结构处理所在分支的输出为所述面部检测网络的输出；所述特征增强结构包括特征融合结构和语义预测结构；所述特征融合结构从第一神经网络搜索空间中搜索得到；所述语义预测结构包括多于一个子结构；所述语义预测结构的搜索过程包括：

构建第一搜索目标函数；

11.一种面部检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测图像；

增强模块，用于通过所述面部检测网络的特征增强结构对所述原始特征图进行处理，得到各所述原始特征图相应的增强特征图；所述特征增强结构包括特征融合结构和语义预测结构；所述特征融合结构从第一神经网络搜索空间中搜索得到；所述语义预测结构包括多于一个子结构；

检测模块，用于通过所述面部检测网络的检测结构，根据所述增强特征图得到所述待检测图像的面部检测结果；

训练模块，用于根据所述面部检测网络的检测目的，确定搜索所述语义预测结构的第二神经网络搜索空间；构建第一搜索目标函数；在搜索过程的每次权重优化时，根据所述第一搜索目标函数，确定所述第二神经网络搜索空间中各节点之间各候选的连接操作的权重；在搜索过程的每次网络参数优化时，基于前一次权重优化确定权重，将节点间权重最大的连接操作保留形成的网络结构作为网络参数优化的网络结构，根据所述第一搜索目标函数优化所述网络结构的网络参数；交迭所述权重优化和所述网络参数优化，至满足搜索结束条件时结束搜索；在搜索结束时，保留每个第二神经网络搜索空间中节点之间权重最大的连接操作，得到所述多于一个子结构。

12.根据权利要求11所述的装置，其特征在于，所述特征融合结构为特征金字塔结构；所述特征金字塔结构用于对所述原始特征图进行融合得到相同数量的输出；所述语义预测结构包括的每个子结构分别用于对所述特征金字塔结构的其中一个输出进行增强。

13.根据权利要求11所述的装置，其特征在于，所述特征融合结构为特征金字塔结构；所述特征金字塔结构和所述语义预测结构分别基于不同的神经网络搜索空间独立搜索得到；

所述增强模块还用于通过所述特征金字塔结构对所述原始特征图进行融合，得到各所述原始特征图各自对应的融合特征图；通过所述语义预测结构对所述融合特征图进行语义增强，得到各所述融合特征图各自对应的增强特征图。

14.根据权利要求13所述的装置，其特征在于，所述增强模块还用于将多于一个所述原始特征图共同输入所述特征金字塔结构；在所述特征金字塔结构中，将每个原始特征图、每个原始特征图的前馈特征图及每个原始特征图的反馈特征图融合，得到每个原始特征图的融合特征图；其中，每个原始特征图的前馈特征图根据每个原始特征图的上一层原始特征图得到，每个原始特征图的反馈特征图根据每个原始特征图的下一层原始特征图得到，所述原始特征图的顺序依从所述原始特征图提取自的网络层的顺序。

15.根据权利要求12或13所述的装置，其特征在于，所述训练模块用于根据所述面部检测网络的检测目的，确定搜索特征金字塔结构的第一神经网络搜索空间；所述第一神经网络搜索空间中包括多于一个节点；所述节点之间的连接方式包括自下而上连接、自上而下连接以及跳跃连接；构建第二搜索目标函数，并基于所述第二搜索目标函数在所述第一神经网络搜索空间中搜索确定各所述节点之间候选的连接操作的权重；在搜索结束时，保留节点之间权重最大的连接操作，得到特征金字塔结构。

16.根据权利要求13所述的装置，其特征在于，所述语义预测结构包括与各所述融合特征图各自对应的子结构；

所述增强模块还用于将各所述融合特征图分别输入各自对应的子结构；在每个所述子结构中，对于输入所述子结构的融合特征图进行处理，得到输入所述子结构的融合特征图所对应的增强特征图。

17.根据权利要求16所述的装置，其特征在于，所述子结构包括多于一个节点以及连接所述多于一个节点的有向的边，所述节点表示所述子结构中缓存数据的单元，所述边表示将所述边的起始节点缓存的数据经过连接操作处理后输入至所述边的结束节点，所述多于一个节点包括输入节点、输出节点以及所述输入节点和所述输出节点之间的叶子节点；

所述增强模块还用于在每个所述子结构中，将输入节点中存储的融合特征图，经过所述子结构中各边对应的连接操作处理后输入至各边的结束节点；将仅为结束节点的叶子节点汇聚至所述输出节点，通过所述输出节点输出融合得到的增强特征图。

18.根据权利要求11所述的装置，其特征在于，所述第二神经网络搜索空间包括多于一个节点及连接所述多于一个节点的有向的边，所述节点表示所述第二神经网络搜索空间中缓存数据的单元，所述边表示将所述边的起始节点缓存的数据经过连接操作处理后输入所述边的结束节点。

19.根据权利要求12或13所述的装置，其特征在于，所述训练模块还用于构建网络训练损失函数；根据所述网络训练损失函数，联合训练所述面部检测网络的第一分支和第二分支；所述第一分支包括所述特征提取结构和所述检测结构；所述第二分支包括所述特征提取结构、所述特征金字塔结构、所述语义预测结构和所述检测结构；在应用所述面部检测网络时，所述第二分支的输出为所述面部检测网络的输出。

20.一种图像检测神经网络训练装置，其特征在于，所述装置包括：

获取模块，用于获取训练图像和面部检测网络；所述面部检测网络包括特征提取结构、特征增强结构和检测结构；所述特征增强结构包括特征融合结构和语义预测结构；所述特征融合结构从第一神经网络搜索空间中搜索得到；所述语义预测结构包括多于一个子结构；

训练模块，用于根据所述第一检测结果、所述第二检测结果与训练标签，构建训练损失函数训练所述面部检测网络，直至满足训练停止条件时结束训练；其中，在应用所述面部检测网络对待检测图像进行处理时，所述特征增强结构处理所在分支的输出为所述面部检测网络的输出；

所述训练模块还用于根据所述面部检测网络的检测目的，确定搜索所述语义预测结构的第二神经网络搜索空间；构建第一搜索目标函数；在搜索过程的每次权重优化时，根据所述第一搜索目标函数，确定所述第二神经网络搜索空间中各节点之间各候选的连接操作的权重；在搜索过程的每次网络参数优化时，基于前一次权重优化确定权重，将节点间权重最大的连接操作保留形成的网络结构作为网络参数优化的网络结构，根据所述第一搜索目标函数优化所述网络结构的网络参数；交迭所述权重优化和所述网络参数优化，至满足搜索结束条件时结束搜索；在搜索结束时，保留每个第二神经网络搜索空间中节点之间权重最大的连接操作，得到所述多于一个子结构。

21.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

22.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。