CN115527270A - 一种密集人群环境中的特定行为识别方法 - Google Patents

一种密集人群环境中的特定行为识别方法 Download PDF

Info

Publication number
CN115527270A
CN115527270A CN202211233140.4A CN202211233140A CN115527270A CN 115527270 A CN115527270 A CN 115527270A CN 202211233140 A CN202211233140 A CN 202211233140A CN 115527270 A CN115527270 A CN 115527270A
Authority
CN
China
Prior art keywords
network
data set
classification
identification
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211233140.4A
Other languages
English (en)
Inventor
程世超
张建海
周俊哲
刘华圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211233140.4A priority Critical patent/CN115527270A/zh
Publication of CN115527270A publication Critical patent/CN115527270A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本发明公开了一种密集人群环境中的特定行为识别方法,包括如下步骤:S1、数据集获取,所述数据集包括行人检测数据集和行为识别数据集;S2、数据集预处理;S3、将预处理后的行人检测数据集中的图像输入至特征图金字塔网络提取出对应的特征,在通过区域生成网络生成候选区域以及该候选区域的类别信息;S4、使用极大值抑制算法去除重叠目标;S5、基于残差网络的分类识别网络进行特定行为目标的识别;S6、训练分类识别网络的网格参数;S7、通过步骤S6得到最优网格参数,并导入分类识别网络中,通过行为识别数据集进行测试。该方法对密集人群这一特殊环境,通过融合检测与识别任务的两阶段,实现密集人群环境中特定行为的检测识别任务。

Description

一种密集人群环境中的特定行为识别方法
技术领域
本发明涉及识别定位技术领域,具体指一种密集人群环境中的特定行为识别方法。
背景技术
随着人工智能技术不断成熟,行人、车辆等目标识别技术逐渐被应用到人们的生活中,比如人脸识别技术支撑的刷脸支付;车牌识别技术支撑的车辆进出登记。但是,由于生活场景丰富多样,通常需要在复杂人群中同时检测出多个目标,而单个目标识别技术不足以解决群发性的特定目标识别任务。因此,针对密集人群环境,提供特定群发行为检测与识别技术十分必要,也是人工智能技术改善人类生活的必经阶段。考虑到复杂环境中特定行为的多样性,解决方案需要针对具体问题进行设计,本专利以行人的交通安全为切入点,聚焦识别马路上“低头族”玩手机这一具体行为。
智能手机的普及和其功能的愈发丰富多彩,使得大众对手机的依赖越来越严重,于是马路上经常能看到许多“低头族”,由此引发的交通事故频繁发生,给交通安全带来了极大隐患。目前,对道路上的“低头族”现象缺乏法律约束,主要靠执勤交警劝导教育为主,工作量较大。为此,本专利提出了密集人群环境中“低头族”的自动识别技术,以减轻交警负担,提高工作效率,规范行人交通行为。
发明内容
本发明针对密集人群这一特殊环境,提出了一种密集人群环境中的特定行为识别方法,通过融合检测与识别任务的两阶段,实现密集人群环境中特定行为的检测识别任务。
为了解决上述技术问题,本发明的技术方案为:
一种密集人群环境中的特定行为识别方法,包括如下步骤:
S1、数据集获取,所述数据集包括行人检测数据集和行为识别数据集;
S2、数据集预处理
S2-1、在不丢失图像信息的前提下,将数据集尺寸统一化,使用ImageNet训练集抽样计算得到图像数据并进行归一化;
S2-2、对归一化后得到的图像中行人是否有某个特定行为进行标签标记,0为存在特定行为,1为不存在特定行为;
S3、将预处理后的行人检测数据集中的图像输入至特征图金字塔网络提取出对应的特征,再通过区域生成网络生成候选区域以及该候选区域的类别信息,对于生成候选区域使用多实例预测方法预测一个实例集;
S4、使用改进的极大值抑制算法去除重叠目标;
S5、基于残差网络的分类识别网络进行特定行为目标的识别
S6、训练分类识别网络的网格参数;
S7、通过步骤S6得到最优网格参数,并导入分类识别网络中,通过行为识别数据集进行测试。
作为优选,所述行人检测数据集使用针对拥挤场景的CrowdHuman数据集;所述行为识别数据集通过自行拍摄行人密集的交通场景得到。
作为优选,所述步骤S3中采用了RoI Align的特征图金字塔网络,通过特征图金字塔网络的高层特征进行上采样和低层特征进行自顶向下的连接,并每一层进行预测得到对应的特征。
作为优选,所述步骤S3中采用金字塔结构中的区域候选网络生成候选区域以及该候选区域的类别信息,方法为:首先生成锚点框(锚框),判断每个锚框为包含物体的前景或者是背景并进行二分类,使用边界框回归对锚框进行微调,使得筛选出的锚框和真实框更加接近。
作为优选,所述步骤S3中,对于生成候选区域,使用带有参数K的检测函数预测一个实例集,表达式如下:
G(bi)={gj∈G|IOU(bi,gj)≥θ} (1)
Figure BDA0003882373390000031
其中bi表示第i项候选区域proposal box,G(bi)表示与bi对应的一组真实实例集ground truth集合,G表示所有的ground truth boxes集合,K代表候选框中实例的最大个数,表示G(bi)的最大基数,P(bi)是一个预测实例集,ci是类置信度标签,li是对应的位置,θ是给定的联合交集比率的阈值。
作为优选,所述步骤S4的具体方法为:通过步骤S3得到的多个候选区域中选择其中一个置信度最大的作为第一边界框,然后从剩余候选区域中选择一个作为第二边界框,如果两边界框来自同一个候选区域,则跳过抑制步骤,否则,通过极大值抑制算法计算两个边界框的联合交集比率的值,如果其值大于阈值,则将该第二边界框剔除,然后再依次对剩余候选区域重复上述操作,直到所有候选区域遍历完成,确定最终的候选区域。
作为优选,所述分类识别网络包括第一阶段检测网络和第二阶段分类网络,所述第一阶段检测网络使用三层全连接的卷积神经网络进行初步分类,将检测出概率大于0.1的目标则直接分到玩手机类别,概率小于0.1的目标设为待定;所述第二阶段分类网络使用三层两个神经元的ResNet-50框架网络对待定目标进行进一步分类。
作为优选,所述步骤S6中,所述第一阶段检测网络的θd参数的训练,使用推图距离函数EMD最小化预测集和P(bid))与bi对应的ground truth实例集G(bi)之间的距离,表达式如下:
Figure BDA0003882373390000041
Figure BDA0003882373390000042
Figure BDA0003882373390000043
Figure BDA0003882373390000044
其中,π代表一个特定排列(1、2、……K),第k项为πk
Figure BDA0003882373390000045
是第k项πk的真实实例ground truth box,Lcls(·)和Lreg(·)分别表示分类损失和框的回归损失,ci是类置信度标签,li是对应的位置,R是Smooth L1损失函数。
作为优选,所述步骤S6中,所述第二阶段识别网络的θc和θR参数的训练,
使用交叉熵损失函数计算θc参数,表达式如下:
Figure BDA0003882373390000046
其中,y是网络的输出向量;
Figure BDA0003882373390000047
其中,x是网络的输出向量,class是真实标签。
本发明具有以下的特点和有益效果:
采用上述技术方案,在行人检测阶段,使用特征图金字塔网络(FPN),区域生成网络(RPN)以及多实例预测方法进行预测,对于得到的的结果,使用改进的极大值抑制算法(Set-NMS)实现去除重叠框功能;在特目标识别阶段,使用三层全连接卷积神经网络进行是否玩手机初筛,未检测到手机的待定目标输入到ResNet-50框架网络进行细分。通过在一个自行制作的数据集进行实验证明了该方法能够精准识别特定行为,并且在精准率方面优于传统检测方法,进而在实际运用中能够得到广泛的应用,例如有助于减轻交警负担,提高工作效率,规范行人交通行为。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种密集人群环境中的特定行为识别方法实施例的框架流程图。
图2为本发明实施例中分类识别模型流程图。
图3为本发明实施例中Set-NMS算法流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图1、2、3,对本发明提供的密集人群环境中的特定群发行为识别方法(行人检测方法与行为识别方法)进行进一步详细说明。
一种密集人群环境中的特定行为识别方法,包括如下步骤:
具体的,本实施例中,所应用的场景中,特定行为具体指人群中低头看手机的行为。
S1、数据集获取:行人检测阶段中,行人检测数据集的获取,使用针对拥挤场景的CrowdHuman数据集;行为识别阶段,行为识别数据集的获取,本实施例中,将拍摄地点设置为杭州电子科技大学教学区学生活动中心、弗雷德广场、文泽广场等特定场景,使用iPhone10型号手机于上午9:00-11:00以及晚上20:00-22:00两个时间段对行人密集的交通场景进行拍摄,拍摄图像遵循处于密集人群环境、避免拍摄设备抖动、确保行人上半身出现于图像中的三个原则。最终拍摄419张图片用于数据集的制作,之后从图片中提取1418个行人用于后期行为识别阶段。
S2、数据集预处理:
S2-1、在不丢失图像信息的前提下,将上述图片数据集尺寸统一化,使用ImageNet训练集抽样计算得出的数据:mean=[0.485,0.456,0.406],std=[0.229,0.224,0.225]其中mean代表均值,std代表方差;进行归一化,;
S2-2、对归一化后得到的图像中行人是否看手机的标签标记,0为玩手机,1为不玩手机。
S3、复杂场景中使用多实例预测方法进行行人检测:将预处理后的图像输入采用了RoI Align的特征图金字塔网络(FPN)提取出对应的特征fpn_fms,再通过区域生成网络(RPN)生成候选区域rpn_rois以及该候选区域的类别信息,对生成的候选区域使用多实例预测方法预测一个实例集:
G(bi)={gj∈G|IOU(bi,gj)≥θ} (1)
Figure BDA0003882373390000061
其中bi表示第i项候选框proposal box,G(bi)表示与bi对应的一组真实实例集ground truth集合,G表示所有的ground truth boxes集合,K代表候选框中实例的最大个数,表示G(bi)的最大基数,P(bi)是一个预测实例集,ci是类置信度标签,li是对应的位置。θ是给定的联合交集(IOU)比率的阈值,本实施例中阈值取0.01。
具体的,特征图金字塔网络(FPN),通过高层特征进行上采样和低层特征进行自顶向下的连接,而且每一层都会进行预测;区域生成网络(RPN),本质是基于滑窗的无类别obejct检测器,联合交集(IOU)比率指两个检测框重复的区域与两个区域并集的一个比值。
S4、目标重叠的解决:使用改进后的极大值抑制算法Set-NMS实现去除重叠目标功能。具体步骤为从上述过程产生的多个候选区域proposal box中选择置信度最大的第一边界框,然后从剩余候选区域中选择一个第二边界框,如果两框来自同一个候选框proposalbox,则跳过抑制步骤,否则,计算两框的IOU联合交集(Intersection over Union)比率的值,如果其值大于阈值,则将该边界框剔除,然后再依次对剩余候选区域重复上述操作,直到所有候选区域遍历完成,确定最终的候选区域proposal box。至此,行人检测阶段任务结束。
S5、基于残差网络的分类识别网络进行特定行为目标的识别
基于多实例预测方法进行是否玩手机的特定目标识别。使用速率较快但准确率较低的三层全连接的卷积神经网络进行初步分类,将检测出概率大于0.1的目标则直接分到玩手机类别,概率小于0.1的目标设为待定。对于待定的目标,使用速率较慢但准确率较高的分类识别网络进行进一步分类。(其中分类识别网络为全连接层修改为两个神经元的ResNet-50框架网络)
S6、训练分类识别网络的网格参数;
依据公式(3)训练行人检测网络的θd参数:
使用推图距离函数EMD最小化预测集和P(bid))与bi对应的ground truth实例集G(bi)之间的距离:
Figure BDA0003882373390000071
Figure BDA0003882373390000072
Figure BDA0003882373390000073
Figure BDA0003882373390000074
其中,π代表一个特定排列(1、2、……K),第k项为πk
Figure BDA0003882373390000075
是第k项πk的真实实例ground truth box,Lcls(·)和Lreg(·)分别表示分类损失和框的回归损失,ci是类置信度标签,li是对应的位置,R是Smooth L1损失函数。
依据公式(7)训练分类识别网络的θc、θR参数:
使用如下的交叉熵损失函数计算θc
Figure BDA0003882373390000081
其中,y是网络的输出向量;
使用如下的交叉熵损失函数计算θR
Figure BDA0003882373390000082
其中,x是网络的输出向量,class是真实标签。
S7、最优参数下测试新样本:基于步骤S6,通过公式(3)训练得到行人检测网络参数θd,通过公式(7)、(8)训练得到行为识别参数为θc、θR,再使用这组参数执行步骤S3、S4、S5得到检测结果。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式包括部件进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (9)

1.一种密集人群环境中的特定行为识别方法,其特征在于,包括如下步骤:
S1、数据集获取,所述数据集包括行人检测数据集和行为识别数据集;
S2、数据集预处理
S2-1、在不丢失图像信息的前提下,将数据集尺寸统一化,使用ImageNet训练集抽样计算得到图像数据并进行归一化;
S2-2、对归一化后得到的图像中行人是否有某个特定行为进行标签标记,0为存在特定行为,1为不存在特定行为;
S3、将预处理后的行人检测数据集中的图像输入至特征图金字塔网络提取出对应的特征,在通过区域生成网络生成候选区域以及该候选区域的类别信息;
S4、使用改进的极大值抑制算法去除重叠目标;
S5、基于残差网络的分类识别网络进行特定行为目标的识别
S6、训练分类识别网络的网格参数;
S7、通过步骤S6得到最优网格参数,并导入分类识别网络中,通过行为识别数据集进行测试。
2.根据权利要求1所述的密集人群环境中的特定行为识别方法,其特征在于,所述行人检测数据集使用针对拥挤场景的CrowdHuman数据集;所述行为识别数据集通过自行拍摄行人密集的交通场景得到。
3.根据权利要求1所述的密集人群环境中的特定行为识别方法,其特征在于,所述步骤S3中采用了RoI Align的特征图金字塔网络,通过特征图金字塔网络的高层特征进行上采样和低层特征进行自顶向下的连接,并每一层进行预测得到对应的特征。
4.根据权利要求1所述的密集人群环境中的特定行为识别方法,其特征在于,所述步骤S3中采用了RPN区域生成网络生成候选区域以及该候选区域的类别信息,方法为:首先生成锚框,判断每个锚框为包含物体的前景或者是背景并进行二分类,使用边界框回归对锚框进行微调,使得筛选出的锚框和真实框更加接近。
5.根据权利要求4所述的密集人群环境中的特定行为识别方法,其特征在于,所述步骤S3中,对于生成候选区域,使用带有参数K的检测函数预测一个实例集,表达式如下:
G(bi)={gj∈G|IOU(bi,gj)≥θ} (1)
Figure FDA0003882373380000021
其中bi表示第i项候选区域proposal box,G(bi)表示与bi对应的一组真实实例集ground truth集合,G表示所有的ground truth boxes集合,K代表候选框中实例的最大个数,表示G(bi)的最大基数,P(bi)是一个预测实例集,ci是类置信度标签,li是对应的位置,θ是给定的联合交集比率的阈值。
6.根据权利要求5所述的密集人群环境中的特定行为识别方法,其特征在于,所述步骤S4的具体方法为:通过步骤S3得到的多个候选区域中选择其中一个置信度最大的作为第一边界框,然后从剩余候选区域中选择一个作为第二边界框,如果两边界框来自同一个候选区域,则跳过抑制步骤,否则,通过极大值抑制算法计算两个边界框的联合交集比率的值,如果其值大于阈值,则将该第二边界框剔除,然后再依次对剩余候选区域重复上述操作,直到所有候选区域遍历完成,确定最终的候选区域。
7.根据权利要求1所述的密集人群环境中的特定行为识别方法,其特征在于,所述分类识别网络包括第一阶段检测网络和第二阶段分类网络,所述第一阶段检测网络使用三层全连接的卷积神经网络进行初步分类,将检测出概率大于0.1的目标则直接分到玩手机类别,概率小于0.1的目标设为待定;所述第二阶段分类网络使用三层两个神经元的ResNet-50框架网络对待定目标进行进一步分类。
8.根据权利要求7所述的密集人群环境中的特定行为识别方法,其特征在于,所述步骤S6中,所述第一阶段检测网络的θd参数的训练,使用推图距离函数EMD最小化预测集和P(bid))与bi对应的ground truth实例集G(bi)之间的距离,表达式如下:
Figure FDA0003882373380000031
Figure FDA0003882373380000032
Figure FDA0003882373380000033
Figure FDA0003882373380000034
其中,π代表一个特定排列(1、2、……K),第k项为πk
Figure FDA0003882373380000035
是第k项πk的真实实例ground truth box,Lcls(·)和Lreg(·)分别表示分类损失和框的回归损失,ci是类置信度标签,li是对应的位置,R是Smooth L1损失函数。
9.根据权利要求7所述的密集人群环境中的特定行为识别方法,其特征在于,所述步骤S6中,所述第二阶段识别网络的θc和θR参数的训练,
使用交叉熵损失函数计算θc参数,表达式如下:
Figure FDA0003882373380000036
其中,y是网络的输出向量;
Figure FDA0003882373380000037
其中,x是网络的输出向量,class是真实标签。
CN202211233140.4A 2022-10-10 2022-10-10 一种密集人群环境中的特定行为识别方法 Pending CN115527270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211233140.4A CN115527270A (zh) 2022-10-10 2022-10-10 一种密集人群环境中的特定行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211233140.4A CN115527270A (zh) 2022-10-10 2022-10-10 一种密集人群环境中的特定行为识别方法

Publications (1)

Publication Number Publication Date
CN115527270A true CN115527270A (zh) 2022-12-27

Family

ID=84702045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211233140.4A Pending CN115527270A (zh) 2022-10-10 2022-10-10 一种密集人群环境中的特定行为识别方法

Country Status (1)

Country Link
CN (1) CN115527270A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229376A (zh) * 2023-05-06 2023-06-06 山东易视智能科技有限公司 一种人群预警方法、计数系统、计算设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229376A (zh) * 2023-05-06 2023-06-06 山东易视智能科技有限公司 一种人群预警方法、计数系统、计算设备及存储介质
CN116229376B (zh) * 2023-05-06 2023-08-04 山东易视智能科技有限公司 一种人群预警方法、计数系统、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN110781838B (zh) 一种复杂场景下行人的多模态轨迹预测方法
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN112396027B (zh) 基于图卷积神经网络的车辆重识别方法
US7224852B2 (en) Video segmentation using statistical pixel modeling
CN113486726B (zh) 一种基于改进卷积神经网络的轨道交通障碍物检测方法
CN101023436B (zh) 交通标志检测方法
CN104239867B (zh) 车牌定位方法及系统
CN101989327B (zh) 图像分析装置及图像分析方法
CN105868700A (zh) 一种基于监控视频的车型识别与跟踪方法及系统
CN111598030A (zh) 一种航拍图像中车辆检测和分割的方法及系统
CN108875754B (zh) 一种基于多深度特征融合网络的车辆再识别方法
CN111079640B (zh) 一种基于自动扩增样本的车型识别方法及系统
Shujuan et al. Real-time vehicle detection using Haar-SURF mixed features and gentle AdaBoost classifier
CN104978567A (zh) 基于场景分类的车辆检测方法
CN111368660A (zh) 一种单阶段半监督图像人体目标检测方法
Wu et al. A new approach to video-based traffic surveillance using fuzzy hybrid information inference mechanism
CN111008574A (zh) 一种基于形体识别技术的重点人员轨迹分析方法
CN109840904B (zh) 一种高铁接触网大尺度差异零部件检测方法
CN113673749B (zh) 车辆行人地图轨迹预测方法及装置
CN115527270A (zh) 一种密集人群环境中的特定行为识别方法
CN114817991A (zh) 一种车联网图像脱敏方法和系统
Xia et al. Abnormal event detection method in surveillance video based on temporal CNN and sparse optical flow
CN114187581B (zh) 一种基于无监督学习的驾驶员分心细粒度检测方法
CN115019039A (zh) 一种结合自监督和全局信息增强的实例分割方法及系统
CN115630361A (zh) 一种基于注意力蒸馏的联邦学习后门防御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination