CN115527270A

CN115527270A - 一种密集人群环境中的特定行为识别方法

Info

Publication number: CN115527270A
Application number: CN202211233140.4A
Authority: CN
Inventors: 程世超; 张建海; 周俊哲; 刘华圣
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2022-12-27

Abstract

本发明公开了一种密集人群环境中的特定行为识别方法，包括如下步骤：S1、数据集获取，所述数据集包括行人检测数据集和行为识别数据集；S2、数据集预处理；S3、将预处理后的行人检测数据集中的图像输入至特征图金字塔网络提取出对应的特征，在通过区域生成网络生成候选区域以及该候选区域的类别信息；S4、使用极大值抑制算法去除重叠目标；S5、基于残差网络的分类识别网络进行特定行为目标的识别；S6、训练分类识别网络的网格参数；S7、通过步骤S6得到最优网格参数，并导入分类识别网络中，通过行为识别数据集进行测试。该方法对密集人群这一特殊环境，通过融合检测与识别任务的两阶段，实现密集人群环境中特定行为的检测识别任务。

Description

一种密集人群环境中的特定行为识别方法

技术领域

本发明涉及识别定位技术领域，具体指一种密集人群环境中的特定行为识别方法。

背景技术

随着人工智能技术不断成熟，行人、车辆等目标识别技术逐渐被应用到人们的生活中，比如人脸识别技术支撑的刷脸支付；车牌识别技术支撑的车辆进出登记。但是，由于生活场景丰富多样，通常需要在复杂人群中同时检测出多个目标，而单个目标识别技术不足以解决群发性的特定目标识别任务。因此，针对密集人群环境，提供特定群发行为检测与识别技术十分必要，也是人工智能技术改善人类生活的必经阶段。考虑到复杂环境中特定行为的多样性，解决方案需要针对具体问题进行设计，本专利以行人的交通安全为切入点，聚焦识别马路上“低头族”玩手机这一具体行为。

智能手机的普及和其功能的愈发丰富多彩，使得大众对手机的依赖越来越严重，于是马路上经常能看到许多“低头族”，由此引发的交通事故频繁发生，给交通安全带来了极大隐患。目前，对道路上的“低头族”现象缺乏法律约束，主要靠执勤交警劝导教育为主，工作量较大。为此，本专利提出了密集人群环境中“低头族”的自动识别技术，以减轻交警负担，提高工作效率，规范行人交通行为。

发明内容

本发明针对密集人群这一特殊环境，提出了一种密集人群环境中的特定行为识别方法，通过融合检测与识别任务的两阶段，实现密集人群环境中特定行为的检测识别任务。

为了解决上述技术问题，本发明的技术方案为：

一种密集人群环境中的特定行为识别方法，包括如下步骤：

S1、数据集获取，所述数据集包括行人检测数据集和行为识别数据集；

S2、数据集预处理

S2-1、在不丢失图像信息的前提下，将数据集尺寸统一化，使用ImageNet训练集抽样计算得到图像数据并进行归一化；

S2-2、对归一化后得到的图像中行人是否有某个特定行为进行标签标记，0为存在特定行为，1为不存在特定行为；

S3、将预处理后的行人检测数据集中的图像输入至特征图金字塔网络提取出对应的特征，再通过区域生成网络生成候选区域以及该候选区域的类别信息，对于生成候选区域使用多实例预测方法预测一个实例集；

S4、使用改进的极大值抑制算法去除重叠目标；

S5、基于残差网络的分类识别网络进行特定行为目标的识别

S6、训练分类识别网络的网格参数；

S7、通过步骤S6得到最优网格参数，并导入分类识别网络中，通过行为识别数据集进行测试。

作为优选，所述行人检测数据集使用针对拥挤场景的CrowdHuman数据集；所述行为识别数据集通过自行拍摄行人密集的交通场景得到。

作为优选，所述步骤S3中采用了RoI Align的特征图金字塔网络，通过特征图金字塔网络的高层特征进行上采样和低层特征进行自顶向下的连接，并每一层进行预测得到对应的特征。

作为优选，所述步骤S3中采用金字塔结构中的区域候选网络生成候选区域以及该候选区域的类别信息，方法为：首先生成锚点框(锚框)，判断每个锚框为包含物体的前景或者是背景并进行二分类，使用边界框回归对锚框进行微调，使得筛选出的锚框和真实框更加接近。

作为优选，所述步骤S3中，对于生成候选区域，使用带有参数K的检测函数预测一个实例集，表达式如下：

G(b_i)＝{g_j∈G|IOU(b_i,g_j)≥θ} (1)

其中b_i表示第i项候选区域proposal box，G(b_i)表示与b_i对应的一组真实实例集ground truth集合，G表示所有的ground truth boxes集合，K代表候选框中实例的最大个数，表示G(b_i)的最大基数，P(b_i)是一个预测实例集，c_i是类置信度标签，l_i是对应的位置，θ是给定的联合交集比率的阈值。

作为优选，所述步骤S4的具体方法为：通过步骤S3得到的多个候选区域中选择其中一个置信度最大的作为第一边界框，然后从剩余候选区域中选择一个作为第二边界框，如果两边界框来自同一个候选区域，则跳过抑制步骤，否则，通过极大值抑制算法计算两个边界框的联合交集比率的值，如果其值大于阈值，则将该第二边界框剔除，然后再依次对剩余候选区域重复上述操作，直到所有候选区域遍历完成，确定最终的候选区域。

作为优选，所述分类识别网络包括第一阶段检测网络和第二阶段分类网络，所述第一阶段检测网络使用三层全连接的卷积神经网络进行初步分类，将检测出概率大于0.1的目标则直接分到玩手机类别，概率小于0.1的目标设为待定；所述第二阶段分类网络使用三层两个神经元的ResNet-50框架网络对待定目标进行进一步分类。

作为优选，所述步骤S6中，所述第一阶段检测网络的θ_d参数的训练，使用推图距离函数EMD最小化预测集和P(b_i(θ_d))与b_i对应的ground truth实例集G(b_i)之间的距离，表达式如下：

其中，π代表一个特定排列(1、2、……K)，第k项为π_k，

是第k项π_k的真实实例ground truth box，L_cls(·)和L_reg(·)分别表示分类损失和框的回归损失，c_i是类置信度标签，l_i是对应的位置，R是Smooth L1损失函数。

作为优选，所述步骤S6中，所述第二阶段识别网络的θ_c和θ_R参数的训练，

使用交叉熵损失函数计算θ_c参数，表达式如下：

其中，y是网络的输出向量；

其中，x是网络的输出向量，class是真实标签。

本发明具有以下的特点和有益效果：

采用上述技术方案，在行人检测阶段，使用特征图金字塔网络(FPN)，区域生成网络(RPN)以及多实例预测方法进行预测，对于得到的的结果，使用改进的极大值抑制算法(Set-NMS)实现去除重叠框功能；在特目标识别阶段，使用三层全连接卷积神经网络进行是否玩手机初筛，未检测到手机的待定目标输入到ResNet-50框架网络进行细分。通过在一个自行制作的数据集进行实验证明了该方法能够精准识别特定行为，并且在精准率方面优于传统检测方法，进而在实际运用中能够得到广泛的应用，例如有助于减轻交警负担，提高工作效率，规范行人交通行为。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种密集人群环境中的特定行为识别方法实施例的框架流程图。

图2为本发明实施例中分类识别模型流程图。

图3为本发明实施例中Set-NMS算法流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图1、2、3，对本发明提供的密集人群环境中的特定群发行为识别方法(行人检测方法与行为识别方法)进行进一步详细说明。

一种密集人群环境中的特定行为识别方法，包括如下步骤：

具体的，本实施例中，所应用的场景中，特定行为具体指人群中低头看手机的行为。

S1、数据集获取：行人检测阶段中，行人检测数据集的获取，使用针对拥挤场景的CrowdHuman数据集；行为识别阶段，行为识别数据集的获取，本实施例中，将拍摄地点设置为杭州电子科技大学教学区学生活动中心、弗雷德广场、文泽广场等特定场景，使用iPhone10型号手机于上午9：00-11：00以及晚上20：00-22：00两个时间段对行人密集的交通场景进行拍摄，拍摄图像遵循处于密集人群环境、避免拍摄设备抖动、确保行人上半身出现于图像中的三个原则。最终拍摄419张图片用于数据集的制作，之后从图片中提取1418个行人用于后期行为识别阶段。

S2、数据集预处理：

S2-1、在不丢失图像信息的前提下，将上述图片数据集尺寸统一化，使用ImageNet训练集抽样计算得出的数据：mean＝[0.485,0.456,0.406]，std＝[0.229,0.224,0.225]其中mean代表均值，std代表方差；进行归一化，；

S2-2、对归一化后得到的图像中行人是否看手机的标签标记，0为玩手机，1为不玩手机。

S3、复杂场景中使用多实例预测方法进行行人检测：将预处理后的图像输入采用了RoI Align的特征图金字塔网络(FPN)提取出对应的特征fpn_fms，再通过区域生成网络(RPN)生成候选区域rpn_rois以及该候选区域的类别信息，对生成的候选区域使用多实例预测方法预测一个实例集：

G(b_i)＝{g_j∈G|IOU(b_i,g_j)≥θ} (1)

其中b_i表示第i项候选框proposal box，G(b_i)表示与b_i对应的一组真实实例集ground truth集合，G表示所有的ground truth boxes集合，K代表候选框中实例的最大个数，表示G(b_i)的最大基数，P(b_i)是一个预测实例集，c_i是类置信度标签，l_i是对应的位置。θ是给定的联合交集(IOU)比率的阈值，本实施例中阈值取0.01。

具体的，特征图金字塔网络(FPN)，通过高层特征进行上采样和低层特征进行自顶向下的连接，而且每一层都会进行预测；区域生成网络(RPN)，本质是基于滑窗的无类别obejct检测器，联合交集(IOU)比率指两个检测框重复的区域与两个区域并集的一个比值。

S4、目标重叠的解决：使用改进后的极大值抑制算法Set-NMS实现去除重叠目标功能。具体步骤为从上述过程产生的多个候选区域proposal box中选择置信度最大的第一边界框，然后从剩余候选区域中选择一个第二边界框，如果两框来自同一个候选框proposalbox，则跳过抑制步骤，否则，计算两框的IOU联合交集(Intersection over Union)比率的值，如果其值大于阈值，则将该边界框剔除，然后再依次对剩余候选区域重复上述操作，直到所有候选区域遍历完成，确定最终的候选区域proposal box。至此，行人检测阶段任务结束。

S5、基于残差网络的分类识别网络进行特定行为目标的识别

基于多实例预测方法进行是否玩手机的特定目标识别。使用速率较快但准确率较低的三层全连接的卷积神经网络进行初步分类，将检测出概率大于0.1的目标则直接分到玩手机类别，概率小于0.1的目标设为待定。对于待定的目标，使用速率较慢但准确率较高的分类识别网络进行进一步分类。(其中分类识别网络为全连接层修改为两个神经元的ResNet-50框架网络)

S6、训练分类识别网络的网格参数；

依据公式(3)训练行人检测网络的θ_d参数：

使用推图距离函数EMD最小化预测集和P(b_i(θ_d))与b_i对应的ground truth实例集G(b_i)之间的距离：

其中，π代表一个特定排列(1、2、……K)，第k项为π_k，

依据公式(7)训练分类识别网络的θ_c、θ_R参数：

使用如下的交叉熵损失函数计算θ_c：

其中，y是网络的输出向量；

使用如下的交叉熵损失函数计算θ_R：

其中，x是网络的输出向量，class是真实标签。

S7、最优参数下测试新样本：基于步骤S6，通过公式(3)训练得到行人检测网络参数θ_d，通过公式(7)、(8)训练得到行为识别参数为θ_c、θ_R，再使用这组参数执行步骤S3、S4、S5得到检测结果。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种密集人群环境中的特定行为识别方法，其特征在于，包括如下步骤：

S2、数据集预处理

S3、将预处理后的行人检测数据集中的图像输入至特征图金字塔网络提取出对应的特征，在通过区域生成网络生成候选区域以及该候选区域的类别信息；

S4、使用改进的极大值抑制算法去除重叠目标；

S5、基于残差网络的分类识别网络进行特定行为目标的识别

S6、训练分类识别网络的网格参数；

2.根据权利要求1所述的密集人群环境中的特定行为识别方法，其特征在于，所述行人检测数据集使用针对拥挤场景的CrowdHuman数据集；所述行为识别数据集通过自行拍摄行人密集的交通场景得到。

3.根据权利要求1所述的密集人群环境中的特定行为识别方法，其特征在于，所述步骤S3中采用了RoI Align的特征图金字塔网络，通过特征图金字塔网络的高层特征进行上采样和低层特征进行自顶向下的连接，并每一层进行预测得到对应的特征。

4.根据权利要求1所述的密集人群环境中的特定行为识别方法，其特征在于，所述步骤S3中采用了RPN区域生成网络生成候选区域以及该候选区域的类别信息，方法为：首先生成锚框，判断每个锚框为包含物体的前景或者是背景并进行二分类，使用边界框回归对锚框进行微调，使得筛选出的锚框和真实框更加接近。

5.根据权利要求4所述的密集人群环境中的特定行为识别方法，其特征在于，所述步骤S3中，对于生成候选区域，使用带有参数K的检测函数预测一个实例集，表达式如下：

G(b_i)＝{g_j∈G|IOU(b_i,g_j)≥θ} (1)

6.根据权利要求5所述的密集人群环境中的特定行为识别方法，其特征在于，所述步骤S4的具体方法为：通过步骤S3得到的多个候选区域中选择其中一个置信度最大的作为第一边界框，然后从剩余候选区域中选择一个作为第二边界框，如果两边界框来自同一个候选区域，则跳过抑制步骤，否则，通过极大值抑制算法计算两个边界框的联合交集比率的值，如果其值大于阈值，则将该第二边界框剔除，然后再依次对剩余候选区域重复上述操作，直到所有候选区域遍历完成，确定最终的候选区域。

7.根据权利要求1所述的密集人群环境中的特定行为识别方法，其特征在于，所述分类识别网络包括第一阶段检测网络和第二阶段分类网络，所述第一阶段检测网络使用三层全连接的卷积神经网络进行初步分类，将检测出概率大于0.1的目标则直接分到玩手机类别，概率小于0.1的目标设为待定；所述第二阶段分类网络使用三层两个神经元的ResNet-50框架网络对待定目标进行进一步分类。

8.根据权利要求7所述的密集人群环境中的特定行为识别方法，其特征在于，所述步骤S6中，所述第一阶段检测网络的θ_d参数的训练，使用推图距离函数EMD最小化预测集和P(b_i(θ_d))与b_i对应的ground truth实例集G(b_i)之间的距离，表达式如下：

其中，π代表一个特定排列(1、2、……K)，第k项为π_k，

9.根据权利要求7所述的密集人群环境中的特定行为识别方法，其特征在于，所述步骤S6中，所述第二阶段识别网络的θ_c和θ_R参数的训练，

使用交叉熵损失函数计算θ_c参数，表达式如下：

其中，y是网络的输出向量；

其中，x是网络的输出向量，class是真实标签。