CN112560557A

CN112560557A - 人数检测方法、人脸检测方法、装置及电子设备

Info

Publication number: CN112560557A
Application number: CN201910913735.6A
Authority: CN
Inventors: 廖辉; 王进
Original assignee: Rainbow Software Co ltd
Current assignee: Rainbow Software Co ltd; ArcSoft Corp Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-03-26

Abstract

本发明公开了一种人数检测方法、人脸检测方法、装置及电子设备。其中，该人数检测方法包括：通过摄像单元获取输入图像；通过经过训练的神经网络模型检测所述输入图像中的人头，标注人头框并获得所述人头框的位置信息；其中，所述神经网络模型包含区域模块和深度卷积；统计所述人头框的数量获取人数。本发明可以对具有摄像单元的特定空间内的人数进行精确统计，并且可以解决现有技术检测成本高且检测精度低的技术问题。

Description

人数检测方法、人脸检测方法、装置及电子设备

技术领域

本发明涉及计算机视觉技术，具体而言，涉及一种人数检测方法、人脸检测方法、装置及电子设备。

背景技术

随着城市的发展，高层垂直电梯数量与日俱增，对电梯内人流和人的状态的统计和监控，成为一个很广泛的需求。现有的一种人流统计方法，包括：通过热释电传感器检测人体远红外信号并将其转换为电信号输出；通过滤波放大电路对电信号进行滤波放大；通过微控制器计算热释电传感器的误差信号、误差信号的最大值和最小值、误差信号状态时间标志、误差信号状态。从而进一步通过微控制器计算垂直电梯内人数总变化，最后通过将电梯中原有人数与电梯轿厢内人数总变化相加得到当前电梯人数。但是该方法需要热释电传感器，硬件成本较高，并且受限于传感器的精度，检测精度很难有保证。

发明内容

本发明实施例提供了一种人数检测方法、人脸检测方法、装置及电子设备，以至少解决现有技术检测成本高且检测精度低的技术问题。

根据本发明实施例的一个方面，提供了一种人数检测方法，包括：通过摄像单元获取输入图像；通过经过训练的神经网络模型检测所述输入图像中的人头，标注人头框并获得所述人头框的位置信息；其中，所述神经网络模型包含区域模块和深度卷积；统计所述人头框的数量获取人数。

可选地，所述神经网络模型的主干网络为单级结构，包含2个卷积层，4个区域模块和1个检测模块；或者所述神经网络模型的主干网络为Mobilenet结构。

可选地，所述卷积层为3*3，步长为2的卷积核。

可选地，所述区域模块包括1*1卷积，3*3深度卷积。

可选地，根据所述区域模块的范围设置对应的锚框，使得每个特征点均有对应的两个锚框；其中，所述锚框的长宽比为1：1。

可选地，所述检测模块包括分类模块和回归模块；其中，所述分类模块采用Softmax损失函数，所述回归模块采用L2损失函数。

可选地，当某个特征点的所述锚框与标准真值不匹配时，仅使用所述分类模块；当某个特征点的所述锚框与所述标准真值匹配时，使用所述分类模块和所述回归模块。

可选地，使用随机梯度下降法(SGD)对所述神经网络模型进行训练。

可选地，对所述神经网络进行训练的输入图像包括正样本和负样本，正负样本的比例为1：3或者在没有正样本时，选择3个负样本。

可选地，所述人数检测方法还包括：在所述获取输入图像之后，对所述输入图像进行抠图操作，将经过抠图的图像输入至经过训练的神经网络中，用于检测所述输入图像中的人头，标注人头框并获得所述人头框的位置信息，将所述人头框的位置信息映射回所述输入图像，获得真实的人头框的位置信息。

可选地，当经过检测得到的部分人头框重合度大于预设阈值时，采用非极大值抑制对所述部分人头框进行抑制。

可选地，所述人数检测方法包括跟踪模块，所述跟踪模块采用KCF跟踪算法。

根据本发明实施例的另一方面，还提供了一种人脸检测方法，包括：使用上述任一项所述的人数检测方法检测人头并标注人头框；在所述人头框采用基于mtcnn模型的改进模型检测人脸。

可选地，所述基于mtcnn模型的改进模型仅使用r-net网络。

根据本发明实施例的另一方面，还提供了一种人数检测装置，包括：摄像单元，用于获取输入图像；检测单元，通过经过训练的神经网络检测所述输入图像中的人头，标注人头框并获得所述人头框的位置信息；其中，所述神经网络包含区域模块和深度卷积；统计模块，用于统计所述人头框的数量获取人数。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项人数检测方法。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及

存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项人数检测方法。

在本发明实施例中，通过执行以下步骤：通过摄像单元获取输入图像；通过经过训练的神经网络模型检测所述输入图像中的人头，标注人头框并获得所述人头框的位置信息；其中，所述神经网络包含区域模块和深度卷积；统计所述人头框的数量获取人数。本发明可以对具有摄像单元的特定空间内的人数进行精确统计，并且可以解决现有技术检测成本高且检测精度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的人数检测方法的流程图；

图2是根据本发明实施例的一种可选的人数检测装置的结构框图；

图3根据本发明实施例应用于电梯场景时一种可选的摄像单元的安装位置；

图4是根据本发明实施例的一种可选的神经网络模型的主干网络；

图5是根据本发明实施例的一种可选的区域模块的结构；

图6是基于本发明实施例提供的人数检测方法得到的检测结果；

图7是基于本发明实施例提供的人数检测方法和人脸检测方法得到的检测结果。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的顺序在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例可以应用于具有摄像单元的特定空间中，特定空间包括电梯、地铁、公交、超市、商场等。

下面说明本发明实施例的一种可选的人数检测方法的流程图。需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

参考图1，是根据本发明实施例的一种可选的人数检测方法的流程图。如图1所示，该人数检测方法包括如下步骤：

S10，通过摄像单元获取输入图像；

S12，通过经过训练的神经网络模型检测输入图像中的人头，标注人头框并获得人头框的位置信息；其中，所述神经网络模型包含区域模块和深度卷积；

S14，统计人头框的数量获取人数。

参考图2，是根据本发明实施例的一种可选的人数检测装置的结构框图。如图2所示，该人数检测装置包括：

摄像单元20，用于获取输入图像；

检测单元22，用于通过经过训练的神经网络模型检测输入图像中的人头，标注人头框并获得人头框的位置信息；其中，所述神经网络模型包含区域模块和深度卷积；

统计模块24，用于统计人头框的数量获取人数。

在本发明实施例中，通过上述人数检测方法或人数检测装置，可以在不需要特殊硬件的情况下，对具有摄像单元的特定空间内的人数进行精确统计。特定空间可以是，例如，电梯、地铁、公交、超市、商场等场所。

可选的，在本发明实施例中，摄像单元可以为独立的摄像头或集成在电子设备上的摄像头等，例如电梯、地铁、公交、超市、商场等场所中的监控探头，或者手机、平板电脑、台式电脑、导购机、跑步机等电子设备上自带的摄像头等。摄像单元类型可以为普通相机，例如，RGB相机、Mono相机、红外相机等。在本发明的一种实施例中，摄像单元为常见的RGB摄像头，所获取的输入图像满足1080*720即可，不需要其他高清摄像头，能够有效降低硬件成本。

参考图3，为本发明实施例应用于电梯场景时一种可选的摄像单元的安装位置。如图3所示，摄像单元安装在电梯按钮上方的位置，使得摄像单元能够拍摄到整个电梯的情况，实现对电梯视野全覆盖，有利于统计电梯中的人数；并且由于人群一般是面朝电梯门的，这种摄像单元的安装位置可以尽可能地拍摄到人脸。

可选的，在本发明实施例中，神经网络模型为单级(one-stage)结构，可以针对不同尺寸的物体使用不同的特征层来检测，使得检测物体的尺寸范围变大，此外，单级结构的神经网络的计算量较小，有利于性能的提升。

参考图4，是本发明实施例的一种可选的神经网络模型的主干网络。主要包括2个卷积层，4个区域模块(block)和1个检测模块。其中，2个卷积层都是3*3，步长(stride)为2的卷积核。将输入图像输入至神经网络模型后，通过2个卷积层将特征图(feature map)的大小迅速降低，从而有利于整个模型计算量的控制。参考图5，是本发明实施例的一种可选的区域模块的结构，主要包括1*1的卷积和3*3的深度(depthwise)卷积，这种结构能够保证检测效果的同时，大大减少神经网络的计算量，提高性能。神经网络模型的输入图像的像素点为256*256。最终整个网络的计算量为40M左右，无论是在PC端还是开发板上，都有很好的性能表现。

在本发明的另一种实施例中，神经网络模型的主干网络为Mobilenet结构，同样包含区域模块(block)和深度(depthwise)卷积，可以减少神经网络的计算量，无论是在PC端还是开发板上，都有很好的性能表现。但相对来说，采用图4所示的主干网络，具有更少的计算量和更优的性能。检测网络使用的SSD(single shot multibox detector)的框架，兼顾性能的同时，保证不同尺寸的人头都能被检测到。

在本发明实施例的一种应用场景中，当检测范围大概在16-128之间时，可以选择主干网络中的下采样16(即第二个区域模块)，下采样32(即第三个区域模块)，下采样64(即第四个区域模块)这3个特征层来检测，并将对应的锚框(anchor)分别设置为(16，24)，(32，48)，(64，128)，每一个特征点，都会有两个锚框与之对应，锚框的密度能够保证检测率，同时不会引入更多误检。例如，第一个特征层的锚框设置为(16，24)会比设置为(16)，具有更多的锚框，密度更高；同时标准真值(ground truth)为24左右的框能和24的锚框更好的匹配。根据统计，大部分人头坐标框的长宽比为1.2：1，因此，可以选择将锚框的长宽比设置为1：1。当锚框与标准真值(ground truth)的交并比满足设定值(例如，0.35)时，认为锚框与标准真值相匹配。

可选的，在本发明实施例中，检测模块包括分类模块和回归模块。其中，分类模块采用2分类Softmax损失函数，主要是为了判断对应的特征点是否是人头。回归模块采用L2损失函数，主要用于坐标的回归，得到人头框的准确位置信息，并通过(x,y,width,hight)4点标注的方式表示出来。在标注时，可以将颈部以上的人体区域都框出来，作为人头框，以使得不同角度的人头都能够被标注，包括只能看到后脑勺的人头，从而提高检测精度。在训练神经网络时，两种损失函数的权重相同，当某个特征点的锚框与标准的真值相匹配时，会使用分类的损失函数和回归的损失函数；否则，当该特征点的锚框与标准的真值不匹配时，仅使用分类的损失函数。

当然，上述分类模块和回归模块所采用的函数仅作为示例用于解释本发明的技术方案，本领域技术人员还可以采用其它合适的替代函数，例如，Softmax损失函数可以用sigmoid损失函数替代；L2损失函数可以用L1损失函数替代等。

为了提高神经网络模型鲁棒性，在训练神经网络模型时，采集了大量不同环境，不同光照的图像作为训练样本图像，同时也加入了不同的人物特征，例如戴帽子、戴墨镜等。另外，在训练过程中，可以通过采用随机扰动的方式，使得训练样本图像更丰富，得到的神经网络模型也更加鲁棒。

可选的，在本发明实施例中，在训练神经网络模型时，为了减少误检，还可以通过采集不包含人头的图像作为训练样本图像。对于每一张图像，正负样本可以采用固定1:3的比例，如果没有正样本，则可以选取3个负样本。

可选的，在本发明实施例中，可以使用随机梯度下降法(SGD)对所述神经网络模型进行迭代训练。

可选的，在本发明实施例中，在获取输入图像之后，可以对输入图像进行抠图操作，将经过抠图的图像输入至经过训练的神经网络模型中，用于检测输入图像中的人头，标注人头框并获得人头框的位置信息，再将人头框的位置信息映射回所述输入图像，获得真实的人头框的位置信息。同样，在对神经网络模型进行训练时，也可以对样本图像进行抠图操作。抠图的目的是能够能集中地关注人头易出现的区域，而不用考虑无效区域。

可选的，在本发明实施例中，当经过检测得到的部分人头框重合度大于预设阈值时，采用非极大值抑制对所述部分人头框进行抑制，以找到最佳人头框。

可选的，在本发明实施例中，为了进一步提升检测性能，还可以加入跟踪机制，跟踪模块主要使用KCF跟踪算法。

可选的，在本发明实施例中，通过将人头框的个数累加，即可得到电梯的总人数。参考图6，是采用本发明实施例得到的检测结果。如图6所示，图像中的方框为标注的人头框，左上角区域显示了总人数。从检测效果来看，不论电梯乘客是抬头，还是低头，或者是带帽，使用本发明实施例所提供的人数检测方法都能检测到人头。在电梯中人员密集的时候，即使存在人与人之间的遮挡，本发明实施例所提供的人数检测方法仍然能实现很好的人数统计效果。

在本发明的另一个实施例中，还提供了一种人脸检测方法，可以在检测到人头的基础上，对人头框区域进行特征分析，实现人脸检测，人脸识别，年龄分析，性别分析等操作，并将分析结果应用于不同场景，例如用于实现精准的广告投放。由于仅对人头框区域进行分析，能够大大减少计算量，节省计算资源。

在本发明的一个实施例中，人脸检测方法采用基于mtcnn模型的改进模型。传统mtcnn模型采用cascade方案，训练和检测都分为3个阶段。3个阶段网络的输入大小分别为24*24，48*48，48*48，命名为p-net，r-net，o-net。而本发明实施例采用的基于mtcnn模型的改进模型与传统mtcnn模型的不同之处在于：仅使用r-net网络。由于在人头检测阶段，已过滤了大部分非人脸区域，所以可以不使用p-net网络，且r-net网络效果优于o-net网络，因此只使用一个r-net网络可有效减少网络性能开销。

参考图7，为基于本发明实施例提供的人数检测方法和人脸检测方法得到的检测结果。从图7中可以看出，由于人脸识别，年龄分析，性别分析等操作很难处理大角度人脸，为了不增加网络的计算量，只检测相对于摄像头的正面照片，检测结果显示有5人可以检测到人脸，因此既标注了人头框又标注了人脸检测框。图7的左上角分别显示了人数和人脸数。从检测效果来看，不论电梯乘客是抬头，还是低头，或者是带帽，本发明实施例提供的方法都能精确地检测到人头和人脸。在电梯中人员密集的时候，即使存在人与人之间的遮挡，本发明实施例所公开的人数检测方法和人脸检测方法仍然能实现很好的人数统计效果。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的人数检测方法。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一项的人数检测方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人数检测方法，包括：

通过摄像单元获取输入图像；

通过经过训练的神经网络模型检测所述输入图像中的人头，标注人头框并获得所述人头框的位置信息；其中，所述神经网络模型包含区域模块和深度卷积；

统计所述人头框的数量获取人数。

2.根据权利要求1所述的人数检测方法，其特征在于，所述神经网络模型的主干网络为单级结构，包含2个卷积层，4个区域模块和1个检测模块；或者所述神经网络模型的主干网络为Mobilenet结构。

3.根据权利要求2所述的人数检测方法，其特征在于：所述卷积层为3*3，步长为2的卷积核。

4.根据权利要求2所述的人数检测方法，其特征在于，所述区域模块包括1*1卷积，3*3深度卷积。

5.根据权利要求2所述的人数检测方法，其特征在于，根据所述区域模块的范围设置对应的锚框，使得每个特征点均有对应的两个锚框；其中，所述锚框的长宽比为1：1。

6.根据权利要求5所述的人数检测方法，其特征在于，所述检测模块包括分类模块和回归模块；其中，所述分类模块采用Softmax损失函数，所述回归模块采用L2损失函数。

7.根据权利要求6所述的人数检测方法，其特征在于，当某个特征点的所述锚框与标准真值不匹配时，仅使用所述分类模块；当某个特征点的所述锚框与所述标准真值匹配时，使用所述分类模块和所述回归模块。

8.根据权利要求1所述的人数检测方法，其特征在于，使用随机梯度下降法(SGD)对所述神经网络模型进行训练。

9.根据权利要求1所述的人数检测方法，其特征在于，对所述神经网络进行训练的输入图像包括正样本和负样本，正负样本的比例为1：3或者在没有正样本时，选择3个负样本。

10.根据权利要求1所述的人数检测方法，其特征在于，所述人数检测方法还包括：在所述获取输入图像之后，对所述输入图像进行抠图操作，将经过抠图的图像输入至经过训练的神经网络中，用于检测所述输入图像中的人头，标注人头框并获得所述人头框的位置信息，将所述人头框的位置信息映射回所述输入图像，获得真实的人头框的位置信息。

11.根据权利要求1所述的人数检测方法，其特征在于，当经过检测得到的部分人头框重合度大于预设阈值时，采用非极大值抑制对所述部分人头框进行抑制。

12.根据权利要求1所述的人数检测方法，其特征在于，所述人数检测方法包括跟踪模块，所述跟踪模块采用KCF跟踪算法。

13.一种人脸检测方法，包括：

使用权利要求1-12中任一项所述的人数检测方法检测人头并标注人头框；

在所述人头框采用基于mtcnn模型的改进模型检测人脸。

14.根据权利要求1所述的人脸检测方法，其特征在于，所述基于mtcnn模型的改进模型仅使用r-net网络。

15.一种人数检测装置，包括：

摄像单元，用于获取输入图像；

检测单元，通过经过训练的神经网络检测所述输入图像中的人头，标注人头框并获得所述人头框的位置信息；其中，所述神经网络包含区域模块和深度卷积；

统计模块，用于统计所述人头框的数量获取人数。

16.根据权利要求1所述的人数检测装置，其特征在于，所述神经网络模型的主干网络为单级结构，包含2个卷积层，4个区域模块和1个检测模块；或者所述神经网络模型的主干网络为Mobilenet结构。

17.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至12中任意一项所述的人数检测方法。

18.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的人数检测方法。