CN109919013A

CN109919013A - 视频图像中基于深度学习的人脸检测方法及装置

Info

Publication number: CN109919013A
Application number: CN201910078392.6A
Authority: CN
Inventors: 舒剑军
Original assignee: Zhejiang Yingsuo Artificial Intelligence Technology Co Ltd
Current assignee: Zhejiang Yingsuo Artificial Intelligence Technology Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-06-21

Abstract

一种视频图像中基于深度学习的人脸检测方法。通过不断叠加1*3和1*1卷积核，搭建轻量级特征提取网络，得到初始特征图；在初始特征图上进行连续降采样，得到多尺度特征图；通过转置卷积将低层高分辨率特征图和高层低分辨率特征图进行特征融合，提升低层特征表达能力；在不同尺度的特征图上选取不同尺寸的预测框，通过回归得出预测框与真实值之间的偏差。引入轻量级特征提取网络能够减少计算消耗，有效减少计算量，加快运算速度，提高算法实时性；适用于实时性要求较高的视频图像处理；引入连续降采样操作和转置卷积可有效应对多尺度检测和小目标检测。本发明可广泛应用于商业、安防等众多领域，实现无人自动监管，有助于提高工作效率。

Description

视频图像中基于深度学习的人脸检测方法及装置

技术领域

本发明涉及计算机视觉领域，特别涉及一种视频图像中基于深度学习的人脸检测方法及装置。

背景技术

随着生物识别技术的全面高速发展，人脸检测逐渐成为一个热门的研究课题。根据图像来源的不同，人脸检测分为静态图像人脸检测和动态图像人脸检测。基于视频的人脸检测算法相较于静态图片的人脸检测来说具有很大的挑战，需要考虑环境变化和人脸角度变化不定等因素。传统人脸检测方法主要分为三类：基于几何特征的方法、基于代数特征的方法、基于模板匹配的方法。基于几何的特征提取方法对于质量较好的人脸图像有良好的检测效果，对某些或是质量较差的图像，人脸轮廓线的提取效果不太理想；基于代数特征的方法因有着相对较低的计算复杂度而引起广泛关注，但不足之处在于受表情变化、光照角度强度变化和视角变化等影响严重，而且鲁棒性较差；基于模板匹配的方法优点是容易实现，缺点是很难有效处理姿势和尺度变化问题。这些方法相对而言速度较快，但准确度较低同时适用范围窄，不能较好地应用于复杂环境。

人脸检测算法使得计算机能够从视频图像中自动进行人脸检测与定位。传统的人脸检测算法大多基于人工提取特征，如肤色模型以及AdaBoost算法等。肤色模型用于描述肤色在某个特定色度空间上的分布规律，肤色特征由肤色模型表示，利用肤色特征在一定程度上可将人脸从背景图像中分割出来。AdaBoost算法通过类Haar特征构造分类器，特征值通过积分图计算获得，利用输入的人脸和非人脸样本训练若干弱分类器，再将弱分类器级联成一个强分类器。上述方法计算量大，检测精度不高。

发明内容

本发明针对上述问题，提出了一种基于深度学习的人脸检测方法和装置，以解决视频图像中的人脸实时检测问题。通过不断叠加1*3和1*1卷积核，搭建轻量级特征提取网络，得到初始特征图；在初始特征图上进行连续降采样，得到多尺度特征图；通过转置卷积将低层高分辨率特征图和高层低分辨率特征图进行特征融合，提升低层特征表达能力；在不同尺度的特征图上选取不同尺寸的预测框，通过回归得出预测框与真实值之间的偏差。引入轻量级特征提取网络能够减少计算消耗，有效减少计算量，加快运算速度，提高算法实时性；适用于实时性要求较高的视频图像处理；引入连续降采样操作和转置卷积可有效应对多尺度检测和小目标检测。本发明可广泛应用于商业、安防等众多领域，实现无人监管，有助于提高工作效率。

为解决上述技术问题，根据本发明的一个方面，提供了一种视频图像中基于深度学习的人脸检测方法，包括以下步骤：

步骤一、获取视频图像；所述视频图像的获取，包括从视频文件获取或从摄像装置实时采集获取；

步骤二、通过不断叠加1*3和1*1卷积核搭建轻量级特征提取网络得到初始特征图；

步骤三、在所述初始特征图上进行连续降采样，得到多尺度特征图；

步骤四、通过转置卷积将低层高分辨率特征图和高层低分辨率特征图进行特征融合，提升低层特征表达能力；

步骤五、在所述多尺度特征图上选取不同尺寸的预测框，通过回归得出所述预测框与真实值之间的偏差；

其中，

在步骤一和步骤二之间还包括步骤S1，所述步骤S1将视频图像分解为分辨率为300×300的单帧图像作为卷积神经网络的输入；

所述通过不断叠加1*3和1*1卷积核搭建轻量级特征提取网络得到初始特征图包括：将所述视频图像输入所述卷积神经网络的多个通道，采用1*3卷积核分别对各个通道操作，最后从各个通道输出特征图，再由1*1卷积核对各个通道输出进行特征融合，通过迭代13次这种卷积结构，得到分辨率为38×38初始特征图。

优选地，所述多尺度特征图为六层不同尺度的特征图。

优选地，所述通过转置卷积将低层高分辨率特征图和高层低分辨率特征图进行特征融合，提升低层特征表达能力，包括：通过转置卷积使高级语义信息特征图与低级语义信息特征图分辨率相同，将两种特征图拼接成多通道特征图；利用多通道卷积对拼接而成的多通道特征图进行特征提取，实现特征融合。

优选地，所述在不同尺度的特征图上选取不同尺寸的预测框，通过回归得出预测框与真实值之间的偏差，包括：在融合后的多尺度特征图上，以每个像素点为中心构建多个预测框，然后使用卷积直接预测它到真实边界框的距离，通过回归的方式得到人脸的位置；最后通过非极大值抑制(NMS)方法删除冗余的检测框，得到最优结果。

优选地，转置卷积后特征图分辨率的计算公式如下：

O＝S×(L-1)+H-2×P

其中：O为转置卷积输出特征图分辨率；S为步长；L表示输入特征图分辨率；H表示卷积核尺寸；P表示边缘补充尺寸。通过上述操作能够将低分辨率高语义信息特征图与高分辨率低语义信息特征图融合，增加低层特征提取能力。

相较于传统方法，本发明的基于深度学习的人脸检测方法，对光照、姿势和复杂背景具有更好的鲁棒性，实时性好，可以得到更为精确的检测结果。

根据本发明的另一个方面，提供了一种视频图像中基于深度学习的人脸检测装置，包括：

视频图像获取装置，获取视频图像；所述视频图像的获取，包括从视频文件获取或从摄像装置实时采集获取；

初始特征提取装置，通过不断叠加1*3和1*1卷积核搭建轻量级特征提取网络得到初始特征图；

多尺度特征提取装置，在所述初始特征图上进行连续降采样，得到多尺度特征图；

特征融合装置，通过转置卷积将低层高分辨率特征图和高层低分辨率特征图进行特征融合，提升低层特征表达能力；

回归分析装置，在所述多尺度特征图上选取不同尺寸的预测框，通过回归得出所述预测框与真实值之间的偏差。

其中，

还包括视频图像分解装置，所述视频图像分解装置，将视频图像分解为分辨率为300×300的单帧图像作为卷积神经网络的输入；

所述初始特征提取装置，将所述视频图像输入所述卷积神经网络的多个通道，采用1*3卷积核分别对各个通道操作，最后从各个通道输出特征图，再由1*1卷积核对各个通道输出进行特征融合，通过迭代13次这种卷积结构，得到分辨率为38×38初始特征图。

优选地，所述多尺度特征图为六层不同尺度的特征图。

优选地，所述特征融合装置，通过转置卷积使高级语义信息特征图与低级语义信息特征图分辨率相同，将两种特征图拼接成多通道特征图；利用多通道卷积对拼接而成的多通道特征图进行特征提取，实现特征融合。

优选地，在融合后的多尺度特征图上，以每个像素点为中心构建多个预测框，然后使用卷积直接预测它到真实边界框的距离，通过回归的方式得到人脸的位置；最后通过非极大值抑制(NMS)方法删除冗余的检测框，得到最优结果。

优选地，转置卷积后特征图分辨率的计算公式如下：

O＝S×(L-1)+H-2×P

本发明具有如下优点：

1)本发明通过卷积分解的方式，构建轻量级特征提取网络，解决了网络结构参数冗余的问题，参数量大大减少，且精度下降程度低，适用性强；

2)本发明为加强检测器的小目标检测能力，通过转置卷积实现不同尺度下的特征融合，改进后的低层高分辨率特征图具备全局信息，并且特征提取能力得到提升，同时高层低分辨率特征图的拟合能力不变，不会产生过拟合问题。

3)本发明的人脸检测方法实时性高，且针对小目标检测的适用性好。

说明书附图

通过结合附图对本发明的实施例进行详细描述，本发明的上述和其它目的、特征、优点将更加清楚。

图1方法实施流程图

图2转置卷积特征融合过程示意图

具体实施方式

下面参照附图来描述本发明的实施方式。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。同时需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。

下面参照附图来描述本发明的实施方式。

深度学习方法，特别是卷积神经网络(Convolutional Neural Network，CNN)在计算机视觉中取得了显著的成功。与常规机器视觉方法相比，CNN网络具有良好的特征提取和表达能力，并在很多领域取得了卓越的成果。人脸检测所进行的工作是判断输入图像或视频中是否存在人脸并定位出人脸的位置。基于此，本发明构建了一个基于卷积神经网络的人脸检测器。

本发明提出的一种基于深度学习的人脸检测方法能够解决传统人脸检测算法计算量大、检测精度不高的问题。本发明使用卷积神经网络即CNN网络进行特征提取，与人工提取特征相比，所述卷积神经网络提取的人脸的特征更加多样化，检测速度更快。

引入轻量级特征提取网络能够减少计算消耗，有效减少计算量，加快运算速度，提高算法实时性；适用于实时性要求较高的视频图像处理；引入连续降采样操作和转置卷积可有效应对多尺度检测和小目标检测。

该方法使用CNN网络进行特征提取，与人工提取特征相比，卷积神经网络提取的人脸的特征更加多样化，检测速度更快。

本发明的一种视频图像中基于深度学习的人脸检测方法包括以下主要步骤：

步骤三、在初始特征图上进行连续降采样，得到多尺度特征图；

步骤五、在不同尺度的特征图上选取不同尺寸的预测框，通过回归得出预测框与真实值之间的偏差。

优选地，如图1所示，本发明的一种视频图像中基于深度学习的人脸检测方法详细步骤如下：

在步骤一和步骤二之间还包括步骤S1；所述步骤S1，将视频图像分解为分辨率为300×300的单帧图像作为卷积神经网络的输入；

所述通过不断叠加1*3和1*1卷积核搭建轻量级特征提取网络得到初始特征图包括：将所述将所述视频图像输入所述卷积神经网络的多个通道，采用1*3卷积核分别对各个通道操作，最后从各个通道输出特征图，再由1*1卷积核对各个通道输出进行特征融合，通过迭代13次这种卷积结构，得到分辨率为38×38初始特征图；

所述在初始特征图上进行连续降采样，得到多尺度特征图，包括：通过步骤二得到初始特征图，在初始特征图上进行连续降采样操作，形成多尺度特征图，所述多尺度特征图为六层不同尺度的特征图。

所述通过转置卷积将低层高分辨率特征图和高层低分辨率特征图进行特征融合，提升低层特征表达能力，包括：通过转置卷积使高级语义信息特征图与低级语义信息特征图分辨率相同，将两种特征图拼接成多通道特征图；利用多通道卷积对拼接而成的多通道特征图进行特征提取，实现特征融合；

所述在不同尺度的特征图上选取不同尺寸的预测框，通过回归得出预测框与真实值之间的偏差，包括：通过步骤四得到融合后的多尺度特征图，在多尺度特征图上，以每个像素点为中心构建多个预测框，然后使用卷积直接预测它到真实边界框的距离，通过回归的方式得到人脸的位置。最后通过非极大值抑制(NMS)方法删除冗余的检测框，得到最优结果。

优选地，在步骤S1中，首先将视频图像分解为单帧图像，并将图像分辨率调整为300×300，然后使用轻量级卷积神经网络提取初始特征图。

优选地，本发明定义了降采样操作和转置卷积，并且按照图2所示，进行多通道融合，转置卷积后特征图分辨率的计算公式，本发明定义如下：

O＝S×(L-1)+H-2×P

如图2所示，步骤四具体实现方式如下：通过转置卷积将低维特征映射成高维输入。将分辨率为75×75的高分辨低语义信息特征图添加进检测层，对38×38分辨率的特征图进行转置卷积操作，分辨率变为75×75，并与原75×75分辨率的特征图进行特征融合，生成分辨率为75×75的全新特征图，转置卷积核参数为：卷积核大小为2×2，步长为2。同理，对19×19分辨率的特征图进行转置卷积操作，分辨率变为38×38，并与原38×38分辨率的特征图进行特征融合，生成分辨率为38×38的全新特征图，转置卷积核参数为：卷积核大小为3×3，步长为2，扩充边缘为1；在此过程中，共做两次转置卷积操作，在降采样操作后，会生成六层不同尺度的特征图，经过转置卷积操作后，将会变为7层不同尺度的特征图。和传统方法相比，本发明的实现方法大大加强了对小目标的检测能力，低层特征图融合高层特征图后，具备全局信息，加强了特征提取能力，同时对高层特征图不产生影响，不会出现过拟合问题。

在步骤五中，在同一特征层上生成不同宽高比的预测框，以增强预测框对物体形状的鲁棒性，输入图像高为h，宽为w，那么大小为s∈(0，1]和比例为r＞0的预测框形状为：

确定中心位置即可确定一个预测框。使用IOU(Intersection over Union)参数判断预测框和真实框之间的距离，边界框指定了一块像素区域，可以看成像素点的集合，给定点集合A和B，计算公式如下：

在进行预测时，对同一目标会产生大量相似的预测边界框，需要使用非最大值抑制(NMS)消除相似的冗余预测框，保留置信度最高的预测框；得到最优检测结果。

至此，已经结合附图所示的优选实施方法描述了本发明的技术方案，但是，本领域技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种视频图像中基于深度学习的人脸检测方法，其特征在于，包括以下步骤：

步骤五、在所述多尺度特征图上选取不同尺寸的所述预测框，通过回归得出所述预测框与所述真实值之间的偏差；

其中，

2.根据权利要求1所述的视频图像中基于深度学习的人脸检测方法，其特征在于，

所述多尺度特征图为六层不同尺度的特征图。

3.根据权利要求1所述的视频图像中基于深度学习的人脸检测方法，其特征在于，

所述通过转置卷积将低层高分辨率特征图和高层低分辨率特征图进行特征融合，提升低层特征表达能力，包括：通过转置卷积使高级语义信息特征图与低级语义信息特征图分辨率相同，将两种特征图拼接成多通道特征图；利用多通道卷积对拼接而成的多通道特征图进行特征提取，实现特征融合。

4.根据权利要求3所述的视频图像中基于深度学习的人脸检测方法，其特征在于，

所述在不同尺度的特征图上选取不同尺寸的预测框，通过回归得出预测框与真实值之间的偏差，包括：在融合后的多尺度特征图上，以每个像素点为中心构建多个预测框，然后使用卷积直接预测它到真实边界框的距离，通过回归的方式得到人脸的位置；最后通过非极大值抑制(NMS)方法删除冗余的检测框，得到最优结果。

5.根据权利要求4所述的视频图像中基于深度学习的人脸检测方法，其特征在于，

转置卷积后特征图分辨率的计算公式如下：

O＝S×(L-1)+H-2×P

其中：O为转置卷积输出特征图分辨率；S为步长；L表示输入特征图分辨率；H表示卷积核尺寸；P表示边缘补充尺寸；通过上述操作能够将低分辨率高语义信息特征图与高分辨率低语义信息特征图融合，增加低层特征提取能力。

6.一种视频图像中基于深度学习的人脸检测装置，其特征在于，包括：

回归分析装置，在所述多尺度特征图上选取不同尺寸的预测框，通过回归得出所述预测框与真实值之间的偏差；

其中，

7.根据权利要求6所述的视频图像中基于深度学习的人脸检测装置，其特征在于，

所述多尺度特征图为六层不同尺度的特征图。

8.根据权利要求6所述的视频图像中基于深度学习的人脸检测装置，其特征在于，

所述特征融合装置，通过转置卷积使高级语义信息特征图与低级语义信息特征图分辨率相同，将两种特征图拼接成多通道特征图；利用多通道卷积对拼接而成的多通道特征图进行特征提取，实现特征融合。

9.根据权利要求8所述的视频图像中基于深度学习的人脸检测装置，其特征在于，

在融合后的多尺度特征图上，以每个像素点为中心构建多个预测框，然后使用卷积直接预测它到真实边界框的距离，通过回归的方式得到人脸的位置；最后通过非极大值抑制(NMS)方法删除冗余的检测框，得到最优结果。

10.根据权利要求9所述的视频图像中基于深度学习的人脸检测装置，其特征在于，

转置卷积后特征图分辨率的计算公式如下：

O＝S×(L-1)+H-2×P