CN112308045B

CN112308045B - 一种密集人群的检测方法、装置及电子设备

Info

Publication number: CN112308045B
Application number: CN202011378960.3A
Authority: CN
Inventors: 黄泽元
Original assignee: Shenzhen Jizhi Digital Technology Co Ltd
Current assignee: Shenzhen Jizhi Digital Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-11-24
Anticipated expiration: 2040-11-30
Also published as: CN112308045A

Abstract

本发明公开了一种密集人群的检测方法、装置及电子设备，包括：获取待检测图像；将所述待检测图像输入至人员检测模型人员检测模型，以获得与所述待检测图像中的人员相关联的检测框、质量分值和遮挡分值；以及基于所述检测框、所述质量分值以及所述遮挡分值，获得所述待检测图像的人员检测结果。由于本发明的人员检测模型为对图像特征进行学习，得到与所述待检测图像中的人员相匹配的检测框、质量分值和遮挡分值，利用所述检测框、质量分值和遮挡分值对人员进行检测的模型。使得本发明考虑了检测框在密集人群中的不确定性，有效利用了物体重叠信息进行建模，实现了提升密集人群中人员检测的精度。

Description

一种密集人群的检测方法、装置及电子设备

技术领域

本发明涉及信息处理技术领域，特别是涉及一种密集人群的检测方法、装置及电子设备。

背景技术

随着计算机技术的发展，越来越多的场景应用到了人员检测，其也作为了人脸识别、动作识别的基础。但是，对着应用场景的多样化，在密集人群中的人员检测的场景中，当采用传统的固定边框去识别人员位置时，会受遮挡或者重叠信息的影响，降低了检测精度。

发明内容

针对于上述问题，本发明提供一种密集人群的检测方法、装置及电子设备，实现了提升密集人群中人员检测的精度。

为了实现上述目的，本发明提供了如下技术方案：

一种密集人群的检测方法，包括：

获取待检测图像；

将所述待检测图像输入至人员检测模型，已获得与所述待检测图像中的人员相关联的检测框、质量分值和遮挡分值；以及；

基于所述检测框、所述质量分值以及所述遮挡分值，获得所述待检测图像的人员检测结果；

其中，所述人员检测模型为对图像特征进行学习，得到与所述待检测图像中的人员相匹配的检测框、质量分值和遮挡分值，利用所述检测框、质量分值和遮挡分值对人员进行检测的模型。

可选地，所述方法还包括：

获取多个训练样本，所述多个训练样本中的每个训练样本包括样本图像和所述样本图像对应的人员位置；

通过所述多个训练样本对初始神经网络模型的模型参数进行调整，得到所述人员检测模型。

可选地，所述通过所述多个训练样本对初始神经网络模型的模型参数进行调整，得到所述人员检测模型，包括：

获取训练样本中的样本图像中人员位置标注的实际检测框；

将所述训练样本中的样本图像及人员位置输入至初始神经网络模型；

通过所述初始神经网络模型对所述样本图像进行处理，得到与所述人员位置对应的预测检测框；

基于所述样本图像中的各个人员的预测检测框，确定检测框的边框信息；

基于所述预测检测框与对应的实际检测框，确定质量分值和遮挡分值；

根据所述边框信息、质量分值和遮挡分值，对所述初始神经网络模型进行损失计算，获得损失计算结果；

通过所述损失计算结果对所述初始神经网络模型的模型参数进行调整，得到所述人员检测模型。

可选地，所述边框信息包括遮挡程度参数，所述基于所述样本图像中的各个人员的预测检测框，确定检测框的边框信息，包括：

获取第一预测检测框的底边的第一长度；

确定与所述第一预测检测框相邻的第二预测检测框；

确定所述第一预测检测框的底边被所述第二预测检测框覆盖的第二长度；

基于所述第一长度和所述第二长度，计算得到所述遮挡程度参数。

可选地，所述方法还包括：

确定目标检测框，包括：

获取第三预测检测框以及与所述第三预测检测框最近的第四预测检测框；

基于所述第三预测检测框、所述第四预测检测框和预设的最近邻损失计算模式，确定所述第三预测检测框的目标检测框，其中，所述最近邻损失表征目标检测框与所述第四预测检测框的损失，所述最近邻损失计算模式为目标检测框与所述第四检测框的位置越近损失越大，位置越远损失越小。

可选地，所述方法还包括：

计算所述预测检测框与对应的实际检测框的交集和并集；

将所述交集与所述并集的比值确定为质量分值；

计算当前预测检测框以及和所述当前预测检测框的相邻预测检测框的重叠面积；

将所述重叠面积与所述当前预测检测框的面积的比值确定为遮挡分值。

可选地，所述方法还包括：

获取所述初始神经网络模型的分类值；

基于所述分类值和所述质量分值计算得到当前预测检测框的综合分值，使得通过所述综合分值实现对所述当前检测框的宽度的调整。

可选地，所述方法还包括：

通过所述遮挡分值对所述目标框进行非极大抑制，获得重叠阈值；

基于所述重叠阈值对所述初始神经网络模型的模型参数进行调整，得到所述人员检测模型。

一种密集人群的检测装置，包括：

获取单元，用于获取待检测图像；

检测单元，用于将所述待检测图像输入至人员检测模型，以获得与所述待检测图像中的人员相关联的检测框、质量分值和遮挡分值；以及

基于所述检测框、所述质量分值以及所述遮挡分值，获得所述待检测图像的人员检测结果。

一种电子设备，包括存储器和处理器：所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行如上中任一项所述的密集人群的检测方法。

相较于现有技术，本发明提供了一种密集人群的检测方法、装置及电子设备，包括：获取待检测图像；将所述待检测图像输入至人员检测模型，以获得与所述待检测图像中的人员相关联的检测框、质量分值和遮挡分值；以及基于所述检测框、所述质量分值以及所述遮挡分值，获得所述待检测图像的人员检测结果。由于本发明的人员检测模型为对图像特征进行学习，得到与所述待检测图像中的人员相匹配的检测框、质量分值和遮挡分值，利用所述检测框、质量分值和遮挡分值对人员进行检测的模型。使得本发明考虑了检测框在密集人群中的不确定性，有效利用了物体重叠信息进行建模，实现了提升密集人群中人员检测的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种密集人群的检测方法的流程示意图；

图2为本发明实施例提供一种密集人群的检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种密集人群的检测方法，参见图1，所述方法可以包括以下步骤：

S101、获取待检测图像。

例如，具体可以由进行密集人群检测设备通过其自身的摄像部件如摄像头对待检测对象进行拍摄或者图像扫描，来获得待检测图像；或者，也可以接收其他设备发送的待检测图像，即由其他设备对待检测对象进行图像采集后，将采集到的图像作为待检测图像提供给该密集人群检测设备。具体的，待检测图像是包括人员的图像，如考勤图像、办公区域图像、人流统计图像等。

S102、将待检测图像输入至人员检测模型，以获得与所述待检测图像中的人员相关联的检测框、质量分值和遮挡分值。

S103、基于所述检测框、所述质量分值以及所述遮挡分值，获得所述待检测图像的人员检测结果。

在本发明中，是通过预先人员检测模型对待检测图像进行检测的，得到的人员检测结果是指人员在该图像中的位置。人员检测模型为对图像特征进行学习，得到与待检测图像中的人员相匹配的检测框、质量分值和遮挡分值，利用检测框、质量分值和遮挡分值对人员进行检测的模型。

在本发明实施例中人员检测模型是通过多个训练样本对初始神经网络模型的模型参数进行调整获得的。所述多个训练样本中的每个训练样本包括样本图像和样本图像对应的人员位置，即在样本图像中标注了人员所在位置的图像框，使得初始神经网络模型对样本图像进行学习时能够学习到人员检测框的特征。

具体的，在本发明实施例中提供了一种生成人员检测模型的方法，可以包括以下步骤：

S201、获取训练样本中的样本图像中人员位置标注的实际检测框。

S202、将所述训练样本中的样本图像及人员位置输入至初始神经网络模型。

S203、通过所述初始神经网络模型对所述样本图像进行处理，得到与所述人员位置对应的预测检测框。

S204、基于所述样本图像中的各个人员的预测检测框，确定检测框的边框信息。

S205、基于所述预测检测框与对应的实际检测框，确定质量分值和遮挡分值。

S206、根据所述边框信息、质量分值和遮挡分值，对所述初始神经网络模型进行损失计算，获得损失计算结果。

S207、通过所述损失计算结果对所述初始神经网络模型的模型参数进行调整，得到所述人员检测模型。

在对人员检测模型进行训练时，需要对标注有实际检测框的样本进行学习，以使得训练完成的人员检测模型能够获得待检测图像中人员的检测框、质量分值和遮挡分值，其中检测框是人员检测模型基于待检测图像预测得到的。

在某些应用场景中，如在办公区人员彼此之间容易形成重叠与遮挡。在重叠区域处，一个人的边框是不明确的。而现有的、传统的检测方案需要回归一个明确的边框，在密集人群的应用场景中是不合理的。因此，在本发明中，若图像中人员的边框没有重叠时，可以采用通常的方法即通过回归明确的边框。需要说明的是，在本发明实施例中的边框是指图像中人员的检测框，也可以是人员检测结果的位置框。当边框与相邻边框有重叠的区域时，应当回归边框的分布。

例如，以残差网络(ResNet)和特征融合层(FPN)作为主干，得到特征图P1，然后经过4层卷积、批量归一化和激活函数操作，最后并行2条回归卷积，一条用来预测位置，一条预测这个位置的概率，这两条卷积的通道数都是4*k，k表示采样数，可以取16或24等。那么，这24个采样点表示该点的一种分布。如目标点x1值是32，可以回归出24个点如(29.8,30.1,30.2,30.5,31.2,31.4……)，每个点对应一个概率。可以设置一个波动范围Δ为2，那么目标就在28-34之间，呈正态分布。这样可以利用两种损失，一种是距离损失(1-p)*|x1-xp|，当距离超过Δ，损失就可以改为平方损失；另一种是概率损失-ptlog(pt)。上述参数值Δ，这个值应该根据实际情况发生变化。对应的边框信息包括遮挡程度参数，即参数值Δ。其中，基于样本图像中的各个人员的预测检测框，确定检测框的边框信息，包括：

获取第一预测检测框的底边的第一长度；

确定与所述第一预测检测框相邻的第二预测检测框；

举例说明，以检测框右下角的x坐标为例，如果边框底边长度为L1，底边被相邻框覆盖的长度为L2，那么Δ＝(L2/L1)*L1*0.025。也就是说，Δ和遮挡程度有关，遮挡程度越大，Δ越大，边框容错范围越大；反之遮挡程度越小，Δ越小。

对应的，在本发明的一种实施方式中，所述方法还包括：

确定目标检测框，包括：

针对密集人群重叠严重的场景，传统的检测方案容易出现中间框，因此，在本发明实施例中通过最近邻损失来解决这一问题。假设目标框(如第三预测检测框)为GT1，与目标框最近的框(如第四预测检测框)为GT2。经过上述回归得出预测的边框B，要要离GT1尽量近，要离GT2尽量远。因此，我们定义最近邻损失就是预测框B与最近邻GT2的损失，规定：B的位置离GT2越近，损失越大，越远，损失越小。可以设计为将最近邻损失定义为1/|B-GT2|。

在本发明实施例中，确定质量分值和遮挡分值的方法分别为：

计算所述预测检测框与对应的实际检测框的交集和并集；

将所述交集与所述并集的比值确定为质量分值；

即在本发明实施例的神经网络模型训练时，需要设计一个分支估计当前预测框的质量分值与遮挡分值，质量分支定义是：预测框与真实框的交集/预测框与真实框的并集，遮挡分值的定义是：相邻框重叠面积/本框面积。这个分支的设计，一方面能增强神经网络评估自身预测的能力，另一方面也能增强神经网络辨识当前框的主体及其被遮挡的区域。这个分支的设计是在残差网络和特征融合层之后，与边框回归平行，由4层卷积、批量归一化和激活函数计算构成，最后一层卷积，通道数为2，一个值是质量分值，一个值是遮挡分值。这两个值的损失都是与真实值之间的绝对值损失。

在本发明的另一种实施方式中，所述方法还包括：

获取所述初始神经网络模型的分类值；

在本发明实施例中，在模型的设计中，不单极大增益了模型的训练，还提供了使用上的灵活。由于边框预测是一个分部，因此可以根据场景的需要进行选择紧致框还是宽松框。可以使用分类分值与质量分值S1相乘，作为该框的综合分值。在做非极大抑制处理时，可以使用该综合分值进行排序筛选。可以有效地利用遮挡分值S2，自适应地改变非极大抑制的阈值。阈值公式定义为：S2+(0.5-S2)/2。这样就可以有效地克服非极大抑制算法一刀切的痛点。

即在本发明实施例中，可以通过所述遮挡分值对所述目标框进行非极大抑制，获得重叠阈值；基于所述重叠阈值对所述初始神经网络模型的模型参数进行调整，得到所述人员检测模型。

本发明提供了一种密集人群的检测方法，包括：获取待检测图像；将所述待检测图像输入至人员检测模型，以获得与所述待检测图像中的人员相关联的检测框、质量分值和遮挡分值；以及基于所述检测框、所述质量分值以及所述遮挡分值，获得所述待检测图像的人员检测结果。由于本发明的人员检测模型为对图像特征进行学习，得到与所述待检测图像中的人员相匹配的检测框、质量分值和遮挡分值，利用所述检测框、质量分值和遮挡分值对人员进行检测的模型。使得本发明考虑了检测框在密集人群中的不确定性，有效利用了物体重叠信息进行建模，实现了提升密集人群中人员检测的精度。

参见图2，在本发明实施例中还提供了一种密集人群的检测装置，包括：

获取单元10，用于获取待检测图像；

检测单元20，用于将所述待检测图像输入至人员检测模型，以获得与所述待检测图像中的人员相关联的检测框、质量分值和遮挡分值；以及

在上述实施例的基础上，所述装置还包括：

样本获取单元，用于获取多个训练样本，所述多个训练样本中的每个训练样本包括样本图像和所述样本图像对应的人员位置；

参数调整单元，用于通过所述多个训练样本对初始神经网络模型的模型参数进行调整，得到所述人员检测模型。

在上述实施例的基础上，所述参数调整单元包括：

第一获取子单元，用于获取训练样本中的样本图像中人员位置标注的实际检测框；

输入子单元，用于将所述训练样本中的样本图像及人员位置输入至初始神经网络模型；

处理子单元，用于通过所述初始神经网络模型对所述样本图像进行处理，得到与所述人员位置对应的预测检测框；

第一确定子单元，用于基于所述样本图像中的各个人员的预测检测框，确定检测框的边框信息；

第二确定子单元，用于基于所述预测检测框与对应的实际检测框，确定质量分值和遮挡分值；

第一计算子单元，用于根据所述边框信息、质量分值和遮挡分值，对所述初始神经网络模型进行损失计算，获得损失计算结果；

调整子单元，用于通过所述损失计算结果对所述初始神经网络模型的模型参数进行调整，得到所述人员检测模型。

在上述实施例的基础上，所述边框信息包括遮挡程度参数，所述第一确定子单元具体用于：

获取第一预测检测框的底边的第一长度；

确定与所述第一预测检测框相邻的第二预测检测框；

可选地，所述方法装置还包括：

确定单元，用于确定目标检测框，所述确定单元具体用于：

在上述实施例的基础上，所述装置还包括：

第二计算子单元，用于计算所述预测检测框与对应的实际检测框的交集和并集；

第三确定子单元，用于将所述交集与所述并集的比值确定为质量分值；

第三计算子单元，用于计算当前预测检测框以及和所述当前预测检测框的相邻预测检测框的重叠面积；

第四确定子单元，用于将所述重叠面积与所述当前预测检测框的面积的比值确定为遮挡分值。

在上述实施例的基础上，所述装置还包括：

第二获取子单元，用于获取所述初始神经网络模型的分类值；

第四计算子单元，用于基于所述分类值和所述质量分值计算得到当前预测检测框的综合分值，使得通过所述综合分值实现对所述当前检测框的宽度的调整。

可选地，所述装置还包括：

抑制处理单元，用于通过所述遮挡分值对所述目标框进行非极大抑制，获得重叠阈值；

参数调整单元，还用于基于所述重叠阈值对所述初始神经网络模型的模型参数进行调整，得到所述人员检测模型。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的一种密集人群的检测方法，以及该方法中包括的子步骤及相关步骤的处理过程。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

本发明实施例还提供了一种电子设备，包括存储器和处理器：所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行如上中任一项所述的密集人群的检测方法。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种密集人群的检测方法，其特征在于，包括：

获取待检测图像；

将所述待检测图像输入至人员检测模型，以获得与所述待检测图像中的人员相关联的检测框、质量分值和遮挡分值；以及

其中，生成人员检测模型的过程包括：获取多个训练样本，所述多个训练样本中的每个训练样本包括样本图像和所述样本图像对应的人员位置；获取训练样本中的样本图像中人员位置标注的实际检测框；将所述训练样本中的样本图像及人员位置输入至初始神经网络模型；通过所述初始神经网络模型对所述样本图像进行处理，得到与所述人员位置对应的预测检测框；基于所述样本图像中的各个人员的预测检测框，确定检测框的边框信息；计算所述预测检测框与对应的实际检测框的交集和并集；将所述交集与所述并集的比值确定为质量分值；计算当前预测检测框以及和所述当前预测检测框的相邻预测检测框的重叠面积；将所述重叠面积与所述当前预测检测框的面积的比值确定为遮挡分值；根据所述边框信息、质量分值和遮挡分值，对所述初始神经网络模型进行损失计算，获得损失计算结果；通过所述损失计算结果对所述初始神经网络模型的模型参数进行调整，得到所述人员检测模型；当所述边框信息包括遮挡程度参数，所述基于所述样本图像中的各个人员的预测检测框，确定检测框的边框信息，包括：获取第一预测检测框的底边的第一长度；确定与所述第一预测检测框相邻的第二预测检测框；确定所述第一预测检测框的底边被所述第二预测检测框覆盖的第二长度；基于所述第一长度和所述第二长度，计算得到所述遮挡程度参数。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定目标检测框，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述初始神经网络模型的分类值；

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.一种密集人群的检测装置，其特征在于，包括：

获取单元，用于获取待检测图像；

其中，所述检测单元中的人员检测模型的生成过程包括：获取多个训练样本，所述多个训练样本中的每个训练样本包括样本图像和所述样本图像对应的人员位置；获取训练样本中的样本图像中人员位置标注的实际检测框；将所述训练样本中的样本图像及人员位置输入至初始神经网络模型；通过所述初始神经网络模型对所述样本图像进行处理，得到与所述人员位置对应的预测检测框；基于所述样本图像中的各个人员的预测检测框，确定检测框的边框信息；计算所述预测检测框与对应的实际检测框的交集和并集；将所述交集与所述并集的比值确定为质量分值；计算当前预测检测框以及和所述当前预测检测框的相邻预测检测框的重叠面积；将所述重叠面积与所述当前预测检测框的面积的比值确定为遮挡分值；根据所述边框信息、质量分值和遮挡分值，对所述初始神经网络模型进行损失计算，获得损失计算结果；通过所述损失计算结果对所述初始神经网络模型的模型参数进行调整，得到所述人员检测模型；当所述边框信息包括遮挡程度参数，所述基于所述样本图像中的各个人员的预测检测框，确定检测框的边框信息，包括：获取第一预测检测框的底边的第一长度；确定与所述第一预测检测框相邻的第二预测检测框；确定所述第一预测检测框的底边被所述第二预测检测框覆盖的第二长度；基于所述第一长度和所述第二长度，计算得到所述遮挡程度参数。

6.一种电子设备，其特征在于，包括存储器和处理器：所述存储器存储有应用程序，所述处理器用于运行所述存储器内的应用程序，以执行权利要求1至4中任一项所述的密集人群的检测方法。