CN114170570A

CN114170570A - 一种适用于拥挤场景下的行人检测方法及系统

Info

Publication number: CN114170570A
Application number: CN202111515400.2A
Authority: CN
Inventors: 朱川; 刘丛强; 张华�
Original assignee: Broad Technology Jiangsu Co ltd
Current assignee: Broad Technology Jiangsu Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-11

Abstract

本发明公开了一种适用于拥挤场景下的行人检测方法，所述方法包括：获取拥挤场景下的待检测图像；将获取到的待检测图像输入预先训练的改进模型进行检测，得到行人预测框、实例分割图和每个行人的人体关键点数量；根据每个行人的人体关键点数量计算待检测图像的行人可见度，可见度小于预设阈值的图像存在行人间彼此遮挡的现象，根据实例分割图在待检测图像上构造掩膜；将构造了掩膜的待检测图像输入预先训练的改进模型进行检测，得到被遮挡行人的预测框；合并行人预测框和被遮挡行人的预测框，输出行人检测结果。本发明能够解决拥挤场景下行人特征提取困难以及NMS阈值设置困难的问题，有效降低了拥挤场景下行人检测的漏检率。

Description

一种适用于拥挤场景下的行人检测方法及系统

技术领域

本发明涉及一种适用于拥挤场景下的行人检测方法及系统，属于图像检测技术领域。

背景技术

行人检测是计算机视觉领域的一个经典问题，其特点是应用范围广泛如无人驾驶，机器人，智能监控，人体行为分析，弱视辅助技术等。传统的行人检测方法主要是应用HOG(Histogram of Oriented Gradient)提取行人特征再用SVM(Support VectorMachine)进行分类，但HOG只能从梯度或者纹理来描述行人特征，判别力较差，同时SVM也不适应规模越来越大的行人检测数据集。近年来，随着深度卷积神经网络的发展，行人检测的精度有了很大提高，但在拥挤场景下的行人检测仍存在困难。

拥挤场景下的行人检测主要有两个难点，一是行人之间的相似度高，而目前基于深度学习的目标检测模型注重提取整体特征，这样会导致模型很难区分高度重叠的行人。二是对预测框的后处理方式存在限制，如Faster R-CNN，YOLOv3，SSD等目标检测框架都是在特征图上进行采样从而生成密集的预测框，对于大量的预测框都是采用NMS(Non-Maximum Suppression)来进行筛选，但该方法在应用于拥挤行人场景下时NMS阈值的设置十分困难，NMS阈值过低会产生大量的漏检，NMS阈值设置过高又会产生大量的误检。

在实际应用中，群体行人形成拥挤的场景是十分常见的。因此，如何加强对拥挤行人的特征提取及改善NMS存在限制对拥挤场景下的行人检测具有重要意义，这也能为智能监控，无人驾驶等应用领域提供基础。

Zheng Ge等人在2020年的《IEEE International Conference on Multimediaand Expo》上发表的“Ps-rcnn:Detecting secondary human instances in a crowd viaprimary object suppression”先使用P-RCNN检测出较不拥挤的行人，并人工构造掩膜对这些行人进行覆盖，然后通过S-RCNN检测剩下的拥挤目标(P-RCNN和S-RCNN都以Faster-RCNN为基础结构)，通过构造掩膜迫使模型注意拥挤目标，但对所有检测图像都构造掩模会大幅提高检测时间。

Songtao Liu等人在2019年的《Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition》发表的“Adaptive nms:Refiningpedestrian detection in a crowd”中在检测网络中添加一个分支来预测每一个框的密度，用预测的密度代替NMS的阈值实现了NMS阈值的动态调整，但是密度预测本身仍存在困难以及密度是否能代表最佳NMS阈值设置仍存疑，而且预测框往往与真实框并不是完全匹配的，这会导致预测框之间的IOU(Intersection-over-Union)与预测密度不一致，从而影响预测结果。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种适用于拥挤场景下的行人检测方法及系统，能够解决拥挤场景下行人特征提取困难以及NMS阈值设置困难的问题，有效降低了拥挤场景下行人检测的漏检率。为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种适用于拥挤场景下的行人检测方法，所述方法包括：

获取拥挤场景下的待检测图像；

将获取到的待检测图像输入预先训练的改进模型进行检测，得到行人预测框、实例分割图和每个行人的人体关键点数量；

根据每个行人的人体关键点数量计算待检测图像的行人可见度，可见度小于预设阈值的图像存在行人间彼此遮挡的现象，根据实例分割图在待检测图像上构造掩膜；

将构造了掩膜的待检测图像输入预先训练的改进模型进行检测，得到被遮挡行人的预测框；

合并行人预测框和被遮挡行人的预测框，输出行人检测结果。

结合第一方面，进一步地，所述改进模型，通过以下步骤进行训练：

获取已标注的拥挤场景下行人数据集，根据行人数据集中的头部标注框信息和行人可见部位标注框信息构造伪实例分割标注；

将已标注的拥挤场景下的图像输入预先构建的改进模型，得到预测训练结果；

计算预测训练结果与伪实例分割标注之间的损失函数，利用反向传播算法计算梯度，更新预先构建的改进模型的参数；

当损失函数值不再继续下降时训练完成，得到预先训练的改进模型。

结合第一方面，进一步地，还包括：训练所述改进模型前，使用COCO人体关键点数据集对所述改进模型进行预训练，使得所述改进模型具备检测人体关键点的能力。

结合第一方面，进一步地，所述预先构建的改进模型包括：在Mask R-CNN模型中添加SFPN模块和MKFRCNN模块；

所述SFPN模块的用于得到待测图像的特征图和语义分割图；

所述MKFRCNN模块用于根据所述建议框，得到行人预测框和对应的实例分割图、每个行人的人体关键点。

结合第一方面，进一步地，所述MKFRCNN模块在训练改进模型时不输出每个行人的人体关键点。

结合第一方面，进一步地，所述损失函数为多任务损失函数，通过下式表示：

式(1)～(3)中，Loss多任务损失函数，由四部分构成；L_cls为预测框的分类损失，L_box为预测框的定位损失，L_mask为每个预测框的实例分割损失，L_seg为语义分割损失；i是建议框的索引；p_i是建议框对应的预测框为行人的预测概率，若建议框标记为正，p_i ^*为1，否则为0；t_i ^*是建议框相对于真实框的偏移量，t_i是建议框对应的预测框相对于真实框的偏移量，真实框指数据集中行人的位置标注框。

结合第一方面，进一步地，所述计算每个行人的可见度，通过下式进行计算：

式(4)中，N表示检测出来的行人数量；k_i表示某个行人检测出来的人体关键点数量；K表示用于训练人体关键点的数据集中对人体关键点的标注数量；a表示每个行人的可见度，检测结果为每个关键点的得分，若某关键点得分大于0则该关键点检测成功，不同用于训练人体关键点的数据集中对人体关键点的标注数量不同。

第二方面，本发明提供了一种适用于拥挤场景下的行人检测系统，包括：

获取模块：用于获取拥挤场景下的待检测图像；

第一预测模块：用于将获取到的待检测图像输入预先训练的改进模型进行检测，得到行人预测框、实例分割图和每个行人的人体关键点数量；

处理模块：用于根据每个行人的人体关键点数量计算待检测图像的行人可见度，可见度小于预设阈值的图像存在行人间彼此遮挡的现象，根据实例分割图在待检测图像上构造掩膜；

第二预测模块：将构造了掩膜的待检测图像输入预先训练的改进模型进行检测，得到被遮挡行人的预测框；

输出模块：用于合并行人预测框和被遮挡行人的预测框，输出行人检测结果。

第三方面，本发明提供了一种计算机设备，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述方法的步骤。

与现有技术相比，本发明实施例所提供的一种适用于拥挤场景下的行人检测方法及系统所达到的有益效果包括：

本发明获取拥挤场景下的待检测图像；将获取到的待检测图像输入预先训练的改进模型进行检测，得到行人预测框、实例分割图和每个行人的人体关键点数量；根据每个行人的人体关键点数量计算待检测图像的行人可见度，可见度小于预设阈值的图像存在行人间彼此遮挡的现象，根据实例分割图在待检测图像上构造掩膜；将构造了掩膜的待检测图像输入预先训练的改进模型进行检测，得到被遮挡行人的预测框；本发明构造掩膜后再次输入改进模型，绕过NMS存在的限制，能够检测出被遮挡的行人、以及由于不符合NMS阈值而被过滤掉的行人，显著降低在拥挤人群中检测的漏检率；本发明根据实例分割图对部分图像构造掩膜，与对所有图像构造掩膜相比，能够大幅降低检测时间；

合并行人预测框和被遮挡行人的预测框，输出行人检测结果；本发明加强对拥挤行人的特征提取，检测结果准确。

附图说明

图1是本发明实施例一提供的一种适用于拥挤场景下的行人检测方法的流程图；

图2是本发明实施例一提供的一种适用于拥挤场景下的行人检测方法中改进模型整体示意图；

图3是本发明实施例一提供的一种适用于拥挤场景下的行人检测方法的伪实例分割标注示意图；

图4是本发明实施例一提供的一种适用于拥挤场景下的行人检测方法的SFPN模块的示意图；

图5是本发明实施例一提供的一种适用于拥挤场景下的行人检测方法的MKFRCNN模块的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1，本发明实施例提供了一种适用于拥挤场景下的行人检测方法，包括：改进模型的训练和改进模型的应用。

改进模型的训练发生在改进模型的应用之前，作用是通过反向传播算法迭代训练改进模型，加强改进模型对拥挤场景下行人特征的提取能力。

改进模型的训练，包括：

具体步骤包括：

步骤1：获取已标注的拥挤场景下行人数据集，根据行人数据集中的头部标注框信息和行人可见部位标注框信息构造伪实例分割标注。

由于拥挤行人数据集中不存在人体关键点标注，为了使模型具备检测人体关键点的能力，先使用COCO人体关键点数据集对所述改进模型进行预训练使，使得所述改进模型具备检测人体关键点的能力。

已标注的拥挤场景下行人数据集可以为CrowdHuman数据集。

如图3所示为伪实例分割标注示意图，由于用于训练的行人数据集不存在像素级别的标注，而且像素级别标注成本大，所以通过结合行人的头部标注框信息和行人身体可见部位标注框信息构建伪实例分割标注，可以显著降低标注成本，并且也能提升模型对行人边缘特征的提取能力。

构造伪实例分割标注，包括：假设某行人的头部标注框的左上角坐标和长宽分别为(X₁,Y₁),(W₁,H₁)，行人身体可见部位标注框的左上角坐标和长宽分别为(X₂,Y₂),(W₂,H₂)。通过这四个坐标构建八个坐标用来构建的多边形即为伪实例分割标注，横纵坐标分别用P,Q表示，计算过程如下：

需要说明的是，在标注好伪实例分割图后，同样能得到伪语义分割图，区别在于分割部分的像素值不同，实例分割对每一个实例赋予不同的像素值，语义分割对属于某类别的目标赋予相同的像素值。

步骤2：将已标注的拥挤场景下的图像输入预先构建的改进模型，得到预测训练结果。

预先构建的改进模型包括：在Mask R-CNN模型中添加SFPN模块和MKFRCNN模块。

如图4所示为SFPN模块，用于提取行人特征得到待测图像的特征图和生成语义分割图。

SFPN的具体含义为添加了语义分割分支的特征金字塔网络，是对17年提出的FPN的扩展，由于FPN结构类似经典语义分割网络U-Net的编解码结构，故能方便的扩展语义分割分支。

如图4所示，图4中每条柱形图上方的数字为通道数。首先选取在ImageNet数据集上预训练过的ResNet50作为基础网络结构，将经过conv1 7×7卷积得到的特征图以及经过conv2,conv3.conv4,conv5每一层最后一组残差块输出的特征图提取出来，分别命名为C1,C2,C3,C4,C5，然后先对C5进行1×1卷积得到M5，将M5上采样(采用双线性插值法)成与C4相同的分辨率后加上经过1×1卷积的C4得到M4，依此类推得到M3，M2，然后将M5,M4,M3,M2都经过3×3的卷积得到P5,P4,P3,P2特征图，特征图用于在RPN(Region Proposal Network)阶段生成建议框。RPN为15年提出的区域建议网络，可以以端到端的形式生产建议框。而语义分割分支的建立从P2开始，先将P2经过上采样得到S1，接着将S1进行3×3卷积后再通过Relu激活函数得到与C1通道数相同的S2，引入Relu激活函数增加模型的非线性拟合能力并加快模型收敛，再将S2加上C1后通过1×1卷积进行特征聚合得到S3，最后通过Sigmoid函数得到概率分布图。这里并不先对C1进行1×1卷积将通道数扩展为256后加上S1，是因为该方法在反向传播计算梯度的过程中要占据更多显存，并且不能明显提高检测性能，本发明结构可以减少显存使用量节省计算资源。

如图5所示为MKFRCNN模块，用于根据所述建议框，得到行人预测框和对应的实例分割图、每个行人的人体关键点。

图5为MKFRCNN模块的结构示意图，总共有三个分支：Box,Mask,Keypoint，分别预测行人的位置、实例分割图和人体关键点，其中正方形图案内的数字表示分辨率和通道数如7×7×256表示特征图分辨率为7×7，通道数为256，矩形图案内的数字表示全连接层的节点数。箭头上的数字表示卷积核的大小和卷积次数，比如4×3×3表示进行4次3×3卷积，K表示要检测的人体关键点数量，由预训练的数据集标注决定。在训练时只开启Box和Mask分支，在测试时三个分支都要开启，但构造二值掩膜后需要关闭Mask和Keypoint分支以提高检测速度。

本发明对MKFRCNN的实例分割分支进行了改进，将实例分割分支中上采样方式由原本的转置卷积更改为先进行双线性插值，然后再通过卷积进行特征聚合，这是由于用于训练的伪实例分割标注的模式相对固定，采用转置卷积可能造成过拟合从而影响检测性能，通过双线性插值法更容易保留目标的空间结构。

步骤3：计算预测训练结果与伪实例分割标注之间的损失函数，利用反向传播算法计算梯度，更新预先构建的改进模型的参数。

损失函数由分类损失，边界框回归损失，实例分割损失和语义分割损失构成，其中分类损失，实例分割损失和语义分割损失都使用交叉熵损失函数，不同之处在于计算损失的对象分别为图片类别得分和像素类别得分。损失函数为多任务损失函数，通过下式表示：

式(2)～(4)中，Loss多任务损失函数，由四部分构成；L_cls为预测框的分类损失，L_box为预测框的定位损失，L_mask为每个预测框的实例分割损失，L_seg为语义分割损失；i是建议框的索引；p_i是建议框对应的预测框为行人的预测概率，若建议框标记为正，p_i ^*为1，否则为0；t_i ^*是建议框相对于真实框的偏移量，t_i是建议框对应的预测框相对于真实框的偏移量，真实框指数据集中行人的位置标注框。

步骤5：当损失函数值不再继续下降时训练完成，得到预先训练的改进模型。

如图1所示，改进模型的应用，包括：

获取拥挤场景下的待检测图像；

其中，计算每个行人的可见度，通过下式进行计算：

式(5)中，N表示检测出来的行人数量；k_i表示某个行人检测出来的人体关键点数量；K表示用于训练人体关键点的数据集中对人体关键点的标注数量；a表示每个行人的可见度，检测结果为每个关键点的得分，若某关键点得分大于0则该关键点检测成功，不同用于训练人体关键点的数据集中对人体关键点的标注数量不同。

本发明构造的SFPN,MKFRCNN模块有效加强了对拥挤行人的特征提取，并且根据人体关键点估计图像中行人身体可见度的规则筛选行人密度较高的图像，从而可以添加二值掩膜后再次输入检测网络检测出被遮挡或者由于不符合NMS阈值而被过滤掉的行人，显著降低在拥挤人群中检测的漏检率。

实施例二：

本发明实施例提供了一种适用于拥挤场景下的行人检测系统，包括：

获取模块：用于获取拥挤场景下的待检测图像；

实施例三：

本发明实施例提供了一种计算机设备，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

实施例四：

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种适用于拥挤场景下的行人检测方法，其特征在于，包括：

获取拥挤场景下的待检测图像；

2.根据权利要求1所述的适用于拥挤场景下的行人检测方法，其特征在于，所述改进模型，通过以下步骤进行训练：

3.根据权利要求2所述的适用于拥挤场景下的行人检测方法，其特征在于，还包括：训练所述改进模型前，使用COCO人体关键点数据集对所述改进模型进行预训练，使得所述改进模型具备检测人体关键点的能力。

4.根据权利要求2所述的适用于拥挤场景下的行人检测方法，其特征在于，所述预先构建的改进模型包括：在Mask R-CNN模型中添加SFPN模块和MKFRCNN模块；

所述SFPN模块的用于得到待测图像的特征图和语义分割图；

所述MKFRCNN模块用于根据建议框，得到行人预测框和对应的实例分割图、每个行人的人体关键点。

5.根据权利要求3所述的适用于拥挤场景下的行人检测方法，其特征在于，所述MKFRCNN模块在训练改进模型时不输出每个行人的人体关键点。

6.根据权利要求4所述的适用于拥挤场景下的行人检测方法，其特征在于，所述损失函数为多任务损失函数，通过下式表示：

7.根据权利要求1所述的适用于拥挤场景下的行人检测方法，其特征在于，所述计算每个行人的可见度，通过下式进行计算：

8.一种适用于拥挤场景下的行人检测系统，其特征在于，包括：

获取模块：用于获取拥挤场景下的待检测图像；

9.一种计算机设备，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行权利要求1～7任一项所述方法的步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～7任一项所述方法的步骤。