CN116935477A

CN116935477A - 一种基于联合注意力的多分支级联的人脸检测方法及装置

Info

Publication number: CN116935477A
Application number: CN202311178588.5A
Authority: CN
Inventors: 刘李漫; 张国梁; 韩逸飞; 田金山; 潘宁; 胡怀飞
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-10-24
Anticipated expiration: 2043-09-13
Also published as: CN116935477B

Abstract

本发明提出了一种基于联合注意力的多分支级联的人脸检测方法及装置，所述方法包括：提取待测图像的初始特征，其中，所述待测图像为原始图像经预处理获得；将所述初始特征输入多分支级联网络，以获取与所述多分支级联网络中深度相同的分支特征信息；将所述分支特征信息输入注意力模块，以获取与所述分支特征信息深度对应的通道特征信息；将多个所述通道特征信息输入特征金字塔网络，以形成与所述多分支级联网络深度对应的融合特征信息；将所述融合特征信息输入分类与回归网络，以获取人脸预测结果；基于所述人脸预测结果和损失函数，构建人脸检测模型，本发明有助于提升人脸检测的精度。

Description

一种基于联合注意力的多分支级联的人脸检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于联合注意力的多分支级联的人脸检测方法及装置。

背景技术

人脸检测作为目标检测的一个独立的分支，指的是通过计算机自动检测输入的图像和视频是否含有人脸以及对人脸位置进行定位的任务，在计算机视觉领域拥有着很高的研究价值。

公告号为CN114998969A的中国专利公开了一种用于人脸检测的方法和装置，该方法对于待处理的多个特征图，通过空间金字塔网络和路径增强网络，得到经过处理的多个特征图，基于经过处理的多个特征图，通过基于层级衰减的预测网络，得到相应的人脸预测结果。通过在现有的人脸检测方案的框架中结合融合空间金字塔结构的路径增强网络和基于层级衰减的预测网络层来对多个特征图进行处理，提高了人脸检测方案的检测精度和鲁棒性，但是上述方案无法优化对图像相应网络对人脸的注意力程度，更无法分化浅层分支和深层分支对不同规模人脸的检测能力，因此，提供一种基于联合注意力的多分支级联的人脸检测方法及装置，来提升人脸检测的精度，是非常有必要的。

发明内容

有鉴于此，本发明提出了一种基于联合注意力的多分支级联的人脸检测方法及装置，通过在多分支级联网络中结合注意力模块和分类与回归网络，使多分支级联网络中每个通道输出的特征均能与待测图像中的人脸区域关联并剔除无关区域，进而提升人脸检测的精度。

本发明提供了一种基于联合注意力的多分支级联的人脸检测方法，所述方法包括：

提取待测图像的初始特征，其中，所述待测图像为原始图像经预处理获得；

将所述初始特征输入多分支级联网络，以获取与所述多分支级联网络中深度相同的分支特征信息；

将所述分支特征信息输入注意力模块，以获取与所述分支特征信息深度对应的通道特征信息；

将多个所述通道特征信息输入特征金字塔网络，以形成与所述多分支级联网络深度对应的融合特征信息；

将所述融合特征信息输入分类与回归网络，以获取预测信息和损失函数，其中，所述分类与回归网络包括分类子网络、回归子网络以及平衡子网络；

基于所述预测信息和所述损失函数，构建人脸检测模型。

在以上技术方案的基础上，优选的，所述将所述初始特征输入多分支级联网络，以获取与所述多分支级联网络中深度相同的分支特征信息之前，还包括：

基于多个特征提取模块和与所述特征提取模块对应的残差模块，构建所述多分支级联网络，其中，所述多个所述特征提取模块均包括第一卷积块、第二卷积块以及第三卷积块。

在以上技术方案的基础上，优选的，所述构建所述多分支级联网络，具体包括：

将所述第一卷积块之前的特征向量与所述第三卷积块之后的特征向量进行求和运算，以获取残差模块；

在多个所述特征提取模块中对应设置预设数量的残差模块，以构建所述多分支级联网络。

更进一步优选的，所述将所述分支特征信息输入注意力模块，以获取与所述分支特征信息深度对应的通道特征信息，具体包括：

将所述分支特征信息输入所述注意力模块并对所述分支特征信息进行标准偏差运算，以获取第一通道描述符，其中，所述第一通道描述符与所述分支特征信息的通道一一对应表达；

基于sigmod函数对所述第一通道描述符进行归一化，以获取第二通道描述符和所述第二通道描述符对应的权重；

基于所述第二通道描述符对应的权重与所述第二通道描述符对应的通道进行加权运算，以获取通道特征信息，其中，所述第二通道描述符对应的通道与所述第一通道描述符对应的通道一致。

更进一步优选的，所述标准偏差运算具体为：

其中，表示输出的第c个所述第一通道描述符，/>表示在所述待测图像第i行、第j列、第c通道上的像素值，H表示所述待测图像的高度，W表示所述待测图像的宽度。

更进一步优选的，所述将多个所述通道特征信息输入特征金字塔网络，以形成与所述多分支级联网络深度对应的融合特征信息，具体包括：

将多个所述通道特征信息输入所述特征金字塔网络，以使多个所述通道特征信息由上至下依次相加，形成与所述特征金字塔网络深度对应的过渡特征信息；

基于二维卷积函数和LeakyRelu激活函数对所述过渡特征信息进行运算，以获取所述融合特征信息。

更进一步优选的，将所述融合特征信息输入分类与回归网络，以获取预测信息和损失函数，具体包括：

将所述融合特征信息分别输入所述分类子网络、所述回归子网络以及所述平衡子网络，以获取所述预测信息，其中，所述预测信息包括所述分类子网络输出的分类概率信息、所述回归子网络输出的检测框信息以及所述平衡子网络输出的预测概率信息；

根据所述分类概率信息、所述检测框信息以及所述预测概率信息构建损失函数，其中，所述损失函数包括分类损失函数、回归损失函数以及平衡损失函。

更进一步优选的，所述根据所述分类概率信息、所述检测框信息以及所述预测概率信息构建损失函数，具体包括：

构建所述分类损失函数，

构建所述回归损失函数，

构建所述平衡损失函数，

所述损失函数为，

其中，表示正样本的样本集合，/>表示负样本的样本集合，/>表示对应样本的样本总数，/>表示所述原始图像中预测出现的人脸概率，/>表示所述原始图像中是否包括人脸的标签值，FL表示Focal Loss损失函数，/>表示预测框和检测框中心点间距离的惩罚项，b表示预测框的中心点，/>表示检测框的中心点，/>表示检测框与预测框的中心点之间距离的平方，c表示包围检测框和预测框所需最小矩形的对角线长度，IoU表示检测框与预测框的交并比，BCE表示Binary cross-entropy Loss损失函数，/>表示DIoU的损失函数，/>表示第i个检测框检测到的检测框与预测框的交并比，，/>表示所述回归子网络网络中含有的预测样本/>与检测样本/>之间的交并比。

在本申请的第二方面提供了一种基于联合注意力的多分支级联的人脸检测装置，所述人脸检测装置包括初始特征提取模块、分支特征获取模块、通道特征获取模块、融合特征获取模块、分类与回归模块以及检测模型构建模块，其中，

所述初始特征提取模块用于提取待测图像的初始特征，其中，所述待测图像为原始图像经预处理获得；

所述分支特征获取模块用于将所述初始特征输入多分支级联网络，以获取与所述多分支级联网络中深度相同的分支特征信息；

所述通道特征获取模块用于将所述分支特征信息输入注意力模块，以获取与所述分支特征信息深度对应的通道特征信息；

所述融合特征获取模块用于将多个所述通道特征信息输入特征金字塔网络，以形成与所述多分支级联网络深度对应的融合特征信息；

所述分类与回归模块用于将所述融合特征信息输入分类与回归网络，以获取预测信息和损失函数，其中，所述分类与回归网络包括分类子网络、回归子网络以及平衡子网络；

所述检测模型构建模块用于基于所述预测信息和所述损失函数，构建人脸检测模型。

在本申请的第三方面提供了一种电子设备，包括处理器、存储器、用户接口及网络接口，所述存储器用于存储指令，所述用户接口和网络接口用于给其他设备通信，所述处理器用于执行所述存储器中存储的指令。

本发明提供的一种基于联合注意力的多分支级联的人脸检测方法及装置相对于现有技术具有以下有益效果：

（1）通过在多分支级联网络中结合注意力模块和分类与回归网络，使多分支级联网络中每个通道输出的特征均能与待测图像中的人脸区域关联并剔除无关区域，进而提升人脸检测的精度，同时在分类与回归网络中引入平衡子网络，将分开进行的分类与回归任务进行了联合，提升了模型定位的精度，进而提升了人脸检测模型的检测性能，在没有加大模型复杂度的同时提升了模型检测精度，拥有良好的泛化性以适应不同场景的人脸检测任务；

（2）通过设置多分支级联的网络架构融合了图像不同深度的语义信息，基于不同深度的图像上的anchor用来检测不同大小的目标，通过多分支级联网络架构在不加大计算单元消耗的同时提升了网络性能，同时多分支级联的网络的每一个分支通过了注意力模块，自动学习分支特征信息中关于人脸区域的相关信息，极大提升了人脸检测模型的性能与准确性；

（3）设置特征金字塔网络将注意力模块输出具有不同深度的通道特征信息进行信息融合，信息融合对浅层分支检测较大人脸的能力和深度分支检测较小人脸的能力进行结合，使得模型拥有同时检测不同大小规模人脸的能力，使得模型可以适应不同的使用场景，提升模型的泛化能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于联合注意力的多分支级联的人脸检测方法的流程图；

图2为本发明提供的基于联合注意力的多分支级联的人脸检测方法的整体架构图；

图3为本发明提供的人脸检测装置的结构示意图；

图4为本发明提供的电子设备的结构示意图。

附图标记说明：1、人脸检测装置；11、初始特征提取模块；12、分支特征获取模块；13、通道特征获取模块；14、融合特征获取模块；15、分类与回归模块；16、检测模型构建模块；2、电子设备；21、处理器；22、通信总线；23、用户接口；24、网络接口；25、存储器。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本申请实施例公开一种基于联合注意力的多分支级联的人脸检测方法，如图1所示，该方法的步骤包括S1-S6。

步骤S1，提取待测图像的初始特征，其中，待测图像为原始图像经预处理获得。

在本步骤中，需要将原始图像依次输入一个7×7卷积块和一个3×3最大池化后形成待测图像，再从待测图像中提取初始特征。

基于多个特征提取模块和与特征提取模块对应的残差模块，构建多分支级联网络，其中，多个特征提取模块均包括第一卷积块、第二卷积块以及第三卷积块。具体而言，将第一卷积块之前的特征向量与第三卷积块之后的特征向量进行求和运算，以获取残差模块，在多个特征提取模块中对应设置预设数量的残差模块，以构建多分支级联网络。

在一个示例中，多分支级联网络包括5个特征提取模块，5个特征提取模块最基本的构成均为1×1卷积块、3×3以卷积块以及1×1卷积块，残差模块通过将第一个1×1卷积块之前的特征加上最后一个1×1卷积块之后的特征形成，并且以上5个特征提取模块分别对应的残差模块数量为3、4、3、3、3个。

步骤S2，将初始特征输入多分支级联网络，以获取与多分支级联网络中深度相同的分支特征信息。

在本步骤中，请参阅图2，将初始特征输入多分支级联网络进行特征提取，选取多分支级联网络具有不同深度的特征提取模块来作为返回层，一共返回5层用以返回提取到的不同深度的分支特征信息/>，其中，分支特征信息/>、/>、/>、/>以及、由上至下依次对应5个特征提取模块。

步骤S3，将分支特征信息输入注意力模块，以获取与分支特征信息深度对应的通道特征信息。

在本实施例中，步骤S3还包括步骤S31~S33。

步骤S31，将分支特征信息输入注意力模块并对分支特征信息进行标准偏差运算，以获取第一通道描述符，其中，第一通道描述符与分支特征信息的通道一一对应表达。

在本步骤中，在将分支特征信息分别输入注意力模块后，通过标准偏差运算公式获取第一通道描述符，且由标准偏差运算公式计算得到的多个第一通道描述符均与分支特征信息的每个通道的信息对应。

标准偏差运算公式为：

其中，表示输出的第c个第一通道描述符，/>表示在待测图像第i行、第j列、第c通道上的像素值，H表示待测图像的高度，W表示待测图像的宽度。

步骤S32，基于sigmod函数对第一通道描述符进行归一化，以获取第二通道描述符和第二通道描述符对应的权重。

在本步骤中，需要对经过最大池化后的第一通道描述符进行一维卷积操作，并对卷积完成后的第一通道描述符进行挤压和转置操作，最后通过sigmod函数对第一通道描述符进行归一化，从而得到第二通道描述符，同时可以通过在每个第二通道描述符中的最后一个维度中添加一个预设维度，从而得到每个通道的权重，且每个通道对应的权重由于均经过归一化，故所有的权重值均在[0，1]内。

步骤S33，基于第二通道描述符对应的权重与第二通道描述符对应的通道进行加权运算，以获取通道特征信息，其中，第二通道描述符对应的通道与第一通道描述符对应的通道一致。

在本步骤中，将各个通道对应的权重值与分支特征信息中的通道对应相乘，以获取分支特征信息经加权后的通道特征信息。

通过设置多分支级联的网络架构融合了图像不同深度的语义信息，基于不同深度的图像上的anchor用来检测不同大小的目标，通过多分支级联网络架构在不加大计算单元消耗的同时提升了网络性能，同时多分支级联的网络的每一个分支通过了轻量注意力模块，自动学习分支特征信息中关于人脸区域的相关信息，极大提升了人脸检测模型的性能与准确性。

步骤S4，将多个通道特征信息输入特征金字塔网络，以形成与多分支级联网络深度对应的融合特征信息。

在一个示例中，将多个通道特征信息输入特征金字塔网络，以使多个通道特征信息相加（将深层特征图进行采样后与浅层特征图相加），形成与特征金字塔网络深度对应的过渡特征信息，并基于二维卷积函数和LeakyRelu激活函数对过渡特征信息进行运算，以获取融合特征信息，其中，二维卷积函数为3×3的二维卷积，LeakyRelu激活函数引入非线性输出融合特征信息，使得浅层特征同时也融合了深层特征，提升了表示能力。

可以理解的是，如图2所示的特征金字塔网络FPN通过自下而上、自上而下以及横向连接将多分支级联网络中5个特征提取模块进行融合。在多分支级联网络中自下而上的线路分别生成分支特征信息、/>、/>、/>以及/>，通过注意力模块的分支特征信息依次对应生成通道特征信息/>、/>、/>、/>以及/>。在特征金字塔网络自下而上的线路分别生成融合特征信息/>、/>、/>、/>以及/>，其中，/>、/>、/>以及/>为浅层特征，/>为深层特征，且直接进行输出，/>由/>和/>融合形成，/>由/>和/>融合形成。同样地，/>由/>和/>融合形成，/>由/>和/>融合形成，融合特征信息是为了让模型更好的检测大物体，得益于更大的感受野，这样的操作可以保证每一层都有合适的分辨率以及强语义特征，配合目标检测算法以及Focal Loss损失算法，从而提升物体的检测性能。同时自顶向下地处理特征图并通过横向连接的方式融合底层的具有较少语义信息的特征图和高层的具有丰富语义信息的特征图，同时没有牺牲特征信息的表达能力、速度和资源的消耗。

设置特征金字塔网络将注意力模块输出具有不同深度的通道特征信息进行信息融合，信息融合对浅层分支检测较大人脸的能力和深度分支检测较小人脸的能力进行结合，使得模型拥有同时检测不同大小规模人脸的能力，使得模型可以适应不同的使用场景，提升模型的泛化能力。

步骤S5，将融合特征信息输入分类与回归网络，以获取预测信息和损失函数，其中，分类与回归网络包括分类子网络、回归子网络以及平衡子网络。

在本实施例中，步骤S5还包括步骤S51~S52。

步骤S51，将融合特征信息分别输入分类子网络、回归子网络以及平衡子网络，以获取预测信息，其中，预测信息包括分类子网络输出的分类概率信息、回归子网络输出的检测框信息以及平衡子网络输出的预测概率信息。

在本步骤中，特征金字塔网络各分支输出的融合特征信息均输入至分类与回归网络，其中，分类与回归网络包括分类子网络和回归、回归子网络以及平衡子网络。

分类子网络包括四个3×3的卷积层，输入输出的通道数与原始图像的通道保持一致，融合特征信息通过所有卷积层之后得到1×C×H×W的初始分类结果，之后将初始分类结果通过单层输出层通道扩展为类别数anchor数，用于存放所有anchor的检测框的分类信息，得到分类信息/>。将分类信息/>输入Sigmoid模块进行非线性的映射得到处于[0，1]范围的分类概率信息/>。

回归子网络同样包括四个3×3的卷积层，输入输出的通道数与原始图像的通道保持一致，之后进入输出层，输出层输出的通道数为 num_anchors 4，其中，4表示每个锚框的回归预测维度（回归预测维度通常包括x，y，width，height），输出包含检测框信息/>，即包含了所有框的变换的位置信息。

平衡子网络可以视为在回归子网络的最后一层设计了与回归子网络并行的IOU预测头，IOU预测头仅仅由单个3×3的卷积层组成，融合特征信息经过IOU预测头后得到初始IOU预测信息，输出通道数为num_anchors，即每一个anchor包含一个预测分数，将预测信息/>输入Sigmoid模块进行非线性的映射得到[0，1]范围的IOU预测概率信息/>。

步骤S52，根据分类概率信息、检测框信息以及预测概率信息构建损失函数，其中，损失函数包括分类损失函数、回归损失函数以及平衡损失函数。

在本步骤中，依次构建分类损失函数、构建回归损失函数以及构建构建平衡损失函数，并将上述函数求和以获取损失函数。

构建分类损失函数，

构建回归损失函数，

构建平衡损失函数，

损失函数为，

其中，表示正样本的样本集合，/>表示负样本的样本集合，/>表示对应样本的样本总数，/>表示原始图像中预测出现的人脸概率，/>表示原始图像中是否包括人脸的标签值（或者表示原始图像中是否包含人脸的真实情况），FL表示Focal Loss损失函数，表示预测框和检测框中心点间距离的惩罚项，b表示预测框的中心点，/>表示检测框的中心点，/>表示检测框与预测框的中心点之间距离的平方，c表示包围检测框和预测框所需最小矩形的对角线长度，IoU表示检测框与预测框的交并比，BCE表示Binary cross-entropy Loss损失函数，/>表示DIoU的损失函数，/>表示第i个检测框检测到的检测框与预测框的交并比，/>，/>表示回归子网络网络中含有的预测样本与检测样本/>之间的交并比。

对于正样本，使用Focal Loss损失函数的计算方式如下：

对于负样本，使用Focal Loss损失函数的计算方式如下：

其中，表示人脸检测模型预测为正样本的概率，/>表示正样本的权重调节因子，/>表示焦点因子，/>可以根据实际需要进行设置，通常将/>设置地较小，以减少对负样本的损失权重。

在每个样本上计算正样本和负样本的Focal Loss损失函数，并将所有的FocalLoss损失函数进行求和，得到总体的Focal Loss损失函数。

其中，表示对所有正样本求和，/>表示对所有负样本求和。

步骤S6，基于预测信息和损失函数，构建人脸检测模型。

在本步骤中，完成人脸检测模型构建后，如需检测待测图像中的人脸则通过以下方法实现：

调整输入人脸检测模型中待测图片大小，以使待测图片满足人脸检测模型所需的尺寸大小，例如1280×1280×3。

将调整后的待测图片输入人脸检测模型，进行前向推理得到预测的结果。

对预测的结果进行分类与回归网络得到不同置信度和不同位置的检测框。

将分类子网络得到的分类概率信息乘以每个anchors得到的IOU预测概率信息，通过置信度函数/>得到最终的检测置信度，/>的值在[0，1]内，/>用以控制分类概率信息和IOU预测概率信息的权重，之后将用于在后续非极大值抑制NMS过程中将检测置信度低于一定的检测框剔除，从而提高模型的定位精度。

更换待测图片，重复上述步骤，直到全部待检测图片检测完毕。

基于上述方法，本申请实施例公开一种基于联合注意力的多分支级联的人脸检测装置，参考图3，人脸检测装置1包括初始特征提取模块11、分支特征获取模块12、通道特征获取模块13、融合特征获取模块14、分类与回归模块15以及检测模型构建模块16，其中，

初始特征提取模块11用于提取待测图像的初始特征，其中，待测图像为原始图像经预处理获得；

分支特征获取模块12用于将初始特征输入多分支级联网络，以获取与多分支级联网络中深度相同的分支特征信息；

通道特征获取模块13用于将分支特征信息输入注意力模块，以获取与分支特征信息深度对应的通道特征信息；

融合特征获取模块14用于将多个通道特征信息输入特征金字塔网络，以形成与多分支级联网络深度对应的融合特征信息；

分类与回归模块15用于将融合特征信息输入分类与回归网络，以获取预测信息和损失函数，其中，分类与回归网络包括分类子网络、回归子网络以及平衡子网络；

检测模型构建模块16用于基于预测信息和损失函数，构建人脸检测模型。

在一个示例中，基于多个特征提取模块和与特征提取模块对应的残差模块，构建多分支级联网络，其中，多个特征提取模块均包括第一卷积块、第二卷积块以及第三卷积块。

在一个示例中，将第一卷积块之前的特征向量与第三卷积块之后的特征向量进行求和运算，以获取残差模块，在多个特征提取模块中对应设置预设数量的残差模块，以构建多分支级联网络。

在一个示例中，通道特征获取模块13用于将分支特征信息输入注意力模块并对分支特征信息进行标准偏差运算，以获取第一通道描述符，其中，第一通道描述符与分支特征信息的通道一一对应表达；基于sigmod函数对第一通道描述符进行归一化，以获取第二通道描述符和第二通道描述符对应的权重；基于第二通道描述符对应的权重与第二通道描述符对应的通道进行加权运算，以获取通道特征信息，其中，第二通道描述符对应的通道与第一通道描述符对应的通道一致。

在一个示例中，标准偏差运算具体为：

在一个示例中，通道特征获取模块13用于将多个通道特征信息输入特征金字塔网络，以使多个通道特征信息由上至下依次相加，形成与特征金字塔网络深度对应的过渡特征信息，并基于二维卷积函数和LeakyRelu激活函数对过渡特征信息进行运算，以获取融合特征信息。

在一个示例中，分类与回归模块15用于将融合特征信息分别输入分类子网络、回归子网络以及平衡子网络，以获取预测信息，其中，预测信息包括分类子网络输出的分类概率信息、回归子网络输出的检测框信息以及平衡子网络输出的预测概率信息，并根据分类概率信息、检测框信息以及预测概率信息构建损失函数，其中，损失函数包括分类损失函数、回归损失函数以及平衡损失函。

在一个示例中，根据分类概率信息、检测框信息以及预测概率信息构建损失函数，具体包括：

构建分类损失函数，

构建回归损失函数，

构建平衡损失函数，

损失函数为，

其中，表示正样本的样本集合，/>表示负样本的样本集合，/>表示对应样本的样本总数，/>表示原始图像中预测出现的人脸概率，/>表示原始图像中是否包括人脸的标签值，FL表示Focal Loss损失函数，/>表示预测框和检测框中心点间距离的惩罚项，b表示预测框的中心点，/>表示检测框的中心点，/>表示检测框与预测框的中心点之间距离的平方，c表示包围检测框和预测框所需最小矩形的对角线长度，IoU表示检测框与预测框的交并比，BCE表示Binary cross-entropy Loss损失函数，/>表示DIoU的损失函数，/>表示第i个检测框检测到的检测框与预测框的交并比，/>，/>表示回归子网络网络中含有的预测样本/>与检测样本/>之间的交并比。

请参见图4，为本申请实施例提供了一种电子设备的结构示意图。如图4所示，电子设备2可以包括：至少一个处理器21，至少一个网络接口24，用户接口23，存储器25，至少一个通信总线22。

其中，通信总线22用于实现这些组件之间的连接通信。

其中，用户接口23可以包括显示屏（Display）、摄像头（Camera），可选用户接口23还可以包括标准的有线接口、无线接口。

其中，网络接口24可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。

其中，处理器21可以包括一个或者多个处理核心。处理器21利用各种接口和线路连接整个服务器内的各个部分，通过运行或执行存储在存储器25内的指令、程序、代码集或指令集，以及调用存储在存储器25内的数据，执行服务器的各种功能和处理数据。可选的，处理器21可以采用数字信号处理（DigitalSignalProcessing，DSP）、现场可编程门阵列（Field-ProgrammableGateArray，FPGA）、可编程逻辑阵列（ProgrammableLogicArray，PLA）中的至少一种硬件形式来实现。处理器21可集成中央处理器（CentralProcessingUnit，CPU）、图像处理器（GraphicsProcessingUnit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器21中，单独通过一块芯片进行实现。

其中，存储器25可以包括随机存储器（RandomAccessMemory，RAM），也可以包括只读存储器（Read-OnlyMemory）。可选的，该存储器25包括非瞬时性计算机可读介质（non-transitorycomputer-readablestoragemedium）。存储器25可用于存储指令、程序、代码、代码集或指令集。存储器25可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及的数据等。存储器25可选的还可以是至少一个位于远离前述处理器21的存储装置。如图4所示，作为一种计算机存储介质的存储器25中可以包括操作系统、网络通信模块、用户接口模块以及基于联合注意力的多分支级联的人脸检测方法的应用程序。

在图4所示的电子设备2中，用户接口23主要用于为用户提供输入的接口，获取用户输入的数据；而处理器21可以用于调用存储器25中存储基于联合注意力的多分支级联的人脸检测方法的应用程序，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个方法。

一种计算机可读存储介质，计算机可读存储介质存储有指令。当由一个或多个处理器执行时，使得计算机执行如实上述施例中一个或多个方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必需的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所披露的装置，可通过其他的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于联合注意力的多分支级联的人脸检测方法，其特征在于，所述方法包括：

基于所述预测信息和所述损失函数，构建人脸检测模型。

2.如权利要求1所述的方法，其特征在于，所述将所述初始特征输入多分支级联网络，以获取与所述多分支级联网络中深度相同的分支特征信息之前，还包括：

3.如权利要求2所述的方法，其特征在于，所述构建所述多分支级联网络，具体包括：

4.如权利要求1所述的方法，其特征在于，所述将所述分支特征信息输入注意力模块，以获取与所述分支特征信息深度对应的通道特征信息，具体包括：

5.如权利要求4所述的方法，其特征在于，所述标准偏差运算具体为：

；

6.如权利要求1所述的方法，其特征在于，所述将多个所述通道特征信息输入特征金字塔网络，以形成与所述多分支级联网络深度对应的融合特征信息，具体包括：

7.如权利要求1所述的方法，其特征在于，将所述融合特征信息输入分类与回归网络，以获取预测信息和损失函数，具体包括：

8.如权利要求7所述的方法，其特征在于，所述根据所述分类概率信息、所述检测框信息以及所述预测概率信息构建损失函数，具体包括：

构建所述分类损失函数，

；

构建所述回归损失函数，

；

构建所述平衡损失函数，

；

所述损失函数为，

；

其中，表示正样本的样本集合，/>表示负样本的样本集合，/>表示对应样本的样本总数，/>表示所述原始图像中预测出现的人脸概率，/>表示所述原始图像中是否包括人脸的标签值，FL表示Focal Loss损失函数，/>表示预测框和检测框中心点间距离的惩罚项，b表示预测框的中心点，/>表示检测框的中心点，/>表示检测框与预测框的中心点之间距离的平方，c表示包围检测框和预测框所需最小矩形的对角线长度，IoU表示检测框与预测框的交并比，BCE表示Binary cross-entropy Loss损失函数，/>表示DIoU的损失函数，/>表示第i个检测框检测到的检测框与预测框的交并比，/>，表示所述回归子网络网络中含有的预测样本/>与检测样本/>之间的交并比。

9.一种基于联合注意力的多分支级联的人脸检测装置，其特征在于，所述人脸检测装置(1)包括初始特征提取模块(11)、分支特征获取模块(12)、通道特征获取模块(13)、融合特征获取模块(14)、分类与回归模块(15)以及检测模型构建模块(16)，其中，

所述初始特征提取模块(11)用于提取待测图像的初始特征，其中，所述待测图像为原始图像经预处理获得；

所述分支特征获取模块(12)用于将所述初始特征输入多分支级联网络，以获取与所述多分支级联网络中深度相同的分支特征信息；

所述通道特征获取模块(13)用于将所述分支特征信息输入注意力模块，以获取与所述分支特征信息深度对应的通道特征信息；

所述融合特征获取模块(14)用于将多个所述通道特征信息输入特征金字塔网络，以形成与所述多分支级联网络深度对应的融合特征信息；

所述分类与回归模块(15)用于将所述融合特征信息输入分类与回归网络，以获取预测信息和损失函数，其中，所述分类与回归网络包括分类子网络、回归子网络以及平衡子网络；

所述检测模型构建模块(16)用于基于所述预测信息和所述损失函数，构建人脸检测模型。

10.一种电子设备，其特征在于，包括处理器(21)、存储器(25)、用户接口(23)及网络接口(24)，所述存储器(25)用于存储指令，所述用户接口(23)和网络接口(24)用于给其他设备通信，所述处理器(21)用于执行所述存储器(25)中存储的指令，以使所述电子设备(2)执行如权利要求1-8任意一项所述的方法。