CN112329702A

CN112329702A - 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质

Info

Publication number: CN112329702A
Application number: CN202011306982.9A
Authority: CN
Inventors: 张敏文; 周治尹
Original assignee: Shanghai Dianze Intelligent Technology Co ltd
Current assignee: Shanghai Dianze Intelligent Technology Co ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-05
Anticipated expiration: 2040-11-19
Also published as: WO2022105608A1; CN112329702B

Abstract

本申请提供一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质，该方法包括以下步骤：获取待检测图像；采用特征金字塔残差块提取待检测图像中的多尺度特征；采用互嵌入上采样模块进行特征融合；采用人脸检测模块预测人脸置信度和人脸的宽度、高度。在上述的实现过程中，本申请采用预测高斯分布的方法来预测图像中的人脸密度和检测图像中的人脸，避免使用候选框而带来的不稳定因素；采用一种特征金字塔残差块使用小的卷积核并且不增加网络的深度来增大神经元的感受野；实现不增加网络的深度和参数提高神经元的感受野，使得网络能够提取出更多的人脸信息。

Description

一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质

技术领域

本发明涉及图像信息处理技术，尤其涉及一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质。

背景技术

人脸检测在安防监控、人证比对、人机交互、社交等领域都有重要的应用价值。数码相机、智能手机等端上的设备已经大量使用人脸检测技术实现成像时对人脸的对焦、图集整理分类等功能，各种虚拟美颜相机也需要人脸检测技术定位人脸。

目前常见的人脸检测方法(FaceBoxes、MTCNN)需先设置人脸候选框，通过神经网络学习人脸候选框上偏移量来得到人脸在图像中的位置，而候选框的设置会直接影响人脸检测的精度；FaceBoxes模型具有很高的精度，但所包含的参数量较大；MTCNN(Multi-taskCascaded Convolutional Networks)模型参数量较少，但其特征表达能力一般，同时包含三个需要分开训练的神经网络，不容易训练；同时U型特征提取网络，特征融合时只是将高层特征扩展，未充分运用高层特征的纹理信息和低层特征的细节信息。

发明内容

为解决上述技术问题，本发明提出一种人脸检测方法，包括以下步骤：

步骤S1：获取待检测图像；

步骤S2：采用特征金字塔残差块提取待检测图像中的多尺度特征；

步骤S3：采用互嵌入上采样模块进行特征融合；

步骤S4：采用人脸检测模块预测人脸置信度和人脸的宽度、高度。

优选地，所述步骤S2包括：

步骤S2.1：使用3×3的卷积核与所述待检测图像进行卷积，将卷积后的图像送入到所述特征金字塔残差块中提取特征；

步骤S2.2：使用多个所述特征金字塔残差块组合成一个特征提取网络，提取所述步骤S2.1输出的特征图的特征；

步骤S2.3：使用多个所述特征金字塔残差块组合成一个特征提取网络，提取所述步骤S2.2输出的特征图的特征。

优选地，本申请提供的特征金字塔残差块包括：

采用1×1的卷积操作扩展特征图的通道数；将特征图在通道方向平均分成4组，第1组使用空洞大小为1的3×3卷积核卷积所述第1组的特征，第2组使用空洞大小为2的3×3卷积核卷积所述第2组的特征，第3组使用空洞大小为4的3×3卷积核卷积所述第3组的特征，第4组使用空洞大小为8的3×3卷积核卷积所述第4组的特征；将经卷积核卷积后的4组特征按顺序组合起来组成第一特征图，使用1×1的卷积将所述第一特征图进行特征融合形成第二特征图；将所述特征图和所述第二特征图相加起来。

其中，第1组、第2组、第3组、第4组的空洞卷积的感受野分别是3、5、9、17。

本申请通过特征金字塔残差块进行特征融合实现了不增加参数的情况下增大神经元的感受野。4组空洞卷积都是深度卷积，在特征图的通道方向，将原特征图分成单通道的特征图，再使用单通道的卷积核与单通道的特征图卷积，这样又可以减少网络模型的参数。特征金字塔残差块的4组卷积横向分布，不增加网络的深度和参数又提高了神经元的感受野，使得网络能够提取出更多的人脸信息。

优选地，所述步骤S3包括：

步骤S3.1：采用所述互嵌入上采样模块将所述步骤S2.2提取的特征与所述步骤S2.3提取的特征进行特征融合；

步骤S3.2：使用所述互嵌入上采样模块将所述步骤S3.1融合后的特征与所述步骤S2.1提取的特征进行特征融合。

具体地，本申请采用互嵌入上采样模块在高阶段特征图上，采用通道注意力模型得到每个通道的第一注意力系数，将第一注意力系数和低阶段的特征相乘，得到经过所述通道注意力模型融合的第一融合特征；

在低阶段特征图上，采用空间注意力模型得到特征图中每一个点的第二注意力系数，将第二注意力系数和经过上采样的所述高阶段特征图相乘，得到经过所述空间注意力模型融合的第二融合特征；将所述第一融合特征与所述第二融合特征相加，得到最终融合特征。

优选地，所述步骤S4包括：

步骤S4.1：使用一个3×3的卷积核卷积所述步骤S3.2融合后的特征；

步骤S4.2：使用两个1×1的卷积核分别预测人脸置信度和人脸的宽度。

具体地，待检测图像可以看成一个二维坐标系，图像的左上角看成坐标系的原点，那么图像中的人脸可以看作是一个二维的高斯分布。人脸的中心位置是高斯分布的中心点，其坐标值对应二维高斯分布的均值，人脸的宽度和高度对应二维高斯分布的方差。

优选地，本申请另一实施例披露了标签和损失函数进行网络训练过程，具体为：

中心点为

的人脸表示为：

为二维高斯分布

的均值，

为二维高斯分布的方差，分别对应人脸的宽度和高度。因此，一副包含

个人脸的图像对应的人脸分布可以表示为：

；

而该图像的标签可以表示为：

；

；

；

；

为预测人脸中心点的标签，

为预测人脸宽度和高度的标签；

损失函数可以表示为：

；

分别为网络的输出，即人脸置信度(归一化的高斯分布幅值)和人脸的宽度、高度(高斯分布的方差)，

为损失比例系数。

本申请实施例还提供了一种快速人脸密度预测和人脸检测装置，包括：

图像获取模块，用于获取待检测图像；

特征提取模块，用于采用特征金字塔残差块提取所述待检测图像中的多尺度特征；

特征融合模块，用于采用互嵌入上采样模块进行特征融合；

检测结果模块，用于采用人脸检测模块预测人脸置信度和人脸的宽度、高度。

本申请实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的机器可读指令，其特征在于，所述处理器执行所述机器可读指令时，执行如上面描述的方法。

本申请实施例还提供了一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器运行时执行如上面描述的方法。

通过上述技术方案，本发明的有益效果是：

本申请采用预测高斯分布的方法来预测图像中的人脸密度和检测图像中的人脸，避免使用候选框而带来的不稳定因素；采用一种特征金字塔残差块使用小的卷积核并且不增加网络的深度来在增大神经元的感受野；实现不增加网络的深度和参数提高神经元的感受野，使得网络能够提取出更多的人脸信息；采用互嵌入上采样模块进行特征融合，实现了高低层特征融合时，充分运用了高层特征的纹理信息和低层特征的细节信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的快速人脸密度预测和人脸检测方法的流程示意图；

图2为本申请实施例提供的人脸密度预测和人脸检测模型的结构框图；

图3本申请实施例提供的特征金字塔残差块的结构框图；

图4为本申请实施例提供的快速人脸密度预测和人脸检测装置的结构示意图；

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参见图1本申请实施例提供的快速人脸密度预测和人脸检测方法的流程示意图；一种快速人脸密度预测和人脸检测方法包括以下步骤：

步骤S1：获取待检测图像；

待检测图像，是指需要检测是否包括人脸的图像，具体例如：对人脸拍摄的彩色图像、黑白图像或者二值图像等。

上述步骤S1中的待检测图像的获得方式包括：使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄，获得待检测图像；获取预先存储的待检测图像，具体例如：从实时的视频流中或者从文件系统中的视频文件截取，获得待检测图像，或者从数据库中获取待检测图像，或者从移动存储设备中获取待检测图像；使用浏览器等软件获取互联网上的待检测图像，或者使用其它应用程序访问互联网获得待检测图像。

在本申请实施例中，请参见图2本申请实施例提供的人脸密度预测和人脸检测模型的结构框图，采用特征金字塔残差块提取待检测图像中的多尺度特征还包括以下步骤：

步骤S2.1：第一阶段，使用3×3的卷积核与待检测图像进行卷积，将卷积后的图像送入到特征金字塔残差块中提取特征；

步骤S2.2：第二阶段，使用多个特征金字塔残差块组合成一个特征提取网络，提取步骤S2.1输出的特征图的特征；

步骤S2.3：第三阶段，使用多个特征金字塔残差块组合成一个特征提取网络，提取步骤S2.2输出的特征图的特征。

具体地，特征金字塔残差块参见图4本申请实施例提供的特征金字塔残差块的结构框图；

采用1×1的卷积操作扩展特征图的通道数；将特征图在通道方向平均分成4组，第1组使用空洞大小为1的3×3卷积核卷积所述第1组的特征，第2组使用空洞大小为2的3×3卷积核卷积所述第2组的特征，第3组使用空洞大小为4的3×3卷积核卷积所述第3组的特征，第4组使用空洞大小为8的3×3卷积核卷积所述第4组的特征；将经卷积核卷积后的4组特征按顺序组合起来组成第一特征图，使用1×1的卷积将所述第一特征图进行特征融合形成第二特征图；特征图和所述第二特征图相加起来。

特征提取网络中，神经元要获得较大的感受野，要么使用较大的卷积核，要么加深网络的深度。这两种方法都会增加特征提取网络的参数量。本申请采用一种新的特征金字塔残差块，使用小的卷积核并且不增加网络的深度来在增大神经元的感受野。同时，横向扩展神经网络，使得网络能够提取出更多的人脸信息。

步骤S3：采用互嵌入上采样模块进行特征融合；

具体地，本申请实施例采用互嵌入上采样模块在高阶段特征图上，采用通道注意力模型得到每个通道的第一注意力系数，将第一注意力系数和低阶段的特征相乘，得到经过所述通道注意力模型融合的第一融合特征；

在低阶段特征图上，采用空间注意力模型得到特征图中每一个点的第二注意力系数，将第二注意力系数和经过上采样的所述高阶段特征图相乘，得到经过所述空间注意力模型融合的第二融合特征；

将所述第一融合特征与所述第二融合特征相加，得到最终融合特征。

通道注意力模型及空间注意力模型为本领域常见技术，主要聚焦于局部信息的机制，比如图像中的某一个图像区域。随着任务的变化，注意力区域往往会发生变化，本申请在此不赘述。

本申请采用互嵌入上采样模块进行特征融合，实现了高低层特征融合时，充分运用了高层特征的纹理信息和低层特征的细节信息。

步骤S4：采用人脸检测模型网络预测人脸置信度和人脸的宽度、高度。具体地，还包括以下步骤：

步骤S4.2：使用两个1×1的卷积核分别预测人脸置信度和人脸的宽度、高度。

使用边界框对人脸图像中的人脸区域进行标注，以及对所述人脸区域对应的分类和关键点进行标注获得的，关键点表征人脸区域中的关键特征点；可选地，可以在本方法的末端再接一个输出，用预测人脸中心点位置的方法来检测人脸的关键点。

待检测图像可以看成一个二维坐标系，图像的左上角看成坐标系的原点，那么图像中的人脸可以看作是一个二维的高斯分布。人脸的中心位置是高斯分布的中心点，其坐标值对应二维高斯分布的均值，人脸的宽度和高度对应二维高斯分布的方差。

本申请的另一实施例还提供了标签和损失函数进行网络训练过程，具体为：

中心点为

的人脸表示为：

为二维高斯分布

的均值，

个人脸的图像对应的人脸分布可以表示为：

；

而该图像的标签可以表示为：

；

；

；

；

为预测人脸中心点的标签，

为预测人脸宽度和高度的标签；

损失函数可以表示为：

；

为损失比例系数。

因此，本方法采用预测高斯分布的方法来预测图像中的人脸密度和检测图像中的人脸，避免使用候选框而带来的不稳定因素。

请参见图4示出的本申请实施例提供的快速人脸密度预测和人脸检测装置的结构示意图；本申请实施例提供了一种人脸密度预测和人脸检测装置300，包括：

图像获取模块310，用于获取待检测图像；

特征提取模块320，用于采用特征金字塔残差块提取所述待检测图像中的多尺度特征；

特征融合模块330，用于采用互嵌入上采样模块进行特征融合；

检测结果模块340，用于采用人脸检测模块预测人脸置信度和人脸的宽度、高度，获得人脸检测结果。

应理解的是，该装置与上述的快速人脸密度预测和人脸检测方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。

请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-Only Memory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。