CN110532852B

CN110532852B - 基于深度学习的地铁站行人异常事件检测方法

Info

Publication number: CN110532852B
Application number: CN201910613134.3A
Authority: CN
Inventors: 张辉; 裴宇; 李树涛; 钟杭; 刘理; 邓广; 李玲
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2022-10-18
Anticipated expiration: 2039-07-09
Also published as: CN110532852A

Abstract

本发明公开了一种基于深度学习的地铁站行人异常事件检测方法，其采用深度学习中最先进的检测与追踪算法，可用于地铁站中行人异常的自动实时检测，描述行人的图片被制作成行人检测数据集并被送入到深度残差卷积神经网络中进行训练，获得行人检测模型，使用行人追踪算法Deepsort以检测结果作为输入，完成行人的追踪，通过对追踪结果进行进一步的处理，结合警戒线检测的结果，完成具体行人异常行为的检测与判断。本发明具有如下优点：检测精度高，速度达到15FPS，可以满足监控的实时性要求。

Description

基于深度学习的地铁站行人异常事件检测方法

【技术领域】

本发明涉及视频处理技术领域，尤其涉及一种基于深度学习的地铁站行人异常事件检测方法。

【背景技术】

地铁交通已经成为当今公共交通中极为重要的一种方式，在国民经济发展中扮演着极为重要的角色，目前各大城市都在积极大力发展建设地铁交通，在日常生活中，人们也会更多地选择地铁出行。相对于其他交通方式，地铁交通具备运量大，速度快，节省地面空间，环保节能等优点，但同时地铁运行也有其自身的特殊性，例如一些危险区域乘客不能靠近和闯入，闸机自动扶梯等区域一般为单向通行，而一旦乘客发生相关的异常行为时，工作人员若不能及时检测到并采取相应合适的措施，可能会对地铁行车及乘客安全造成重大破坏，因此对地铁站的行人的相关异常进行监控至关重要。传统的监控行人的异常行为的方法是采用人工观察监控视频的方式，此种方法虽然可以有效地检测出地铁客运站中的行人异常行为，但人工的注意力和精力始终是有限的，所以可能会导致出现行人异常行为的漏检或者发现不及时的情况，同时由于地铁站监控像头数量多，客流量大，会导致消耗大量的人力物力成本，因此针对地铁站中行人异常事件的自动检测方法具有重大意义。

【发明内容】

本发明的目的是为了公开一种基于深度学习的地铁站行人异常事件检测方法，其可解决传统人工检测监控的人力消耗大，非智能等技术问题。

为实现上述目的，本发明的技术方案为：

一种基于深度学习的地铁站行人异常事件检测方法，包括以下步骤：

步骤1、整合处理可见光的数据集VOC2007、VOC2012和红外场景数据集CVC09、CVC14四个数据集，获得包含22139张图片样本的行人检测数据集；

步骤2、对获得的行人检测数据集进行格式转换，将VOC2007、VOC2012两个数据集的XML格式的标注文件使用脚本VCO_LABELS.PY转化为TXT格式的标注文件，每个TXT文本中每一行为对应图片样本中的一个行人的相对位置；将CVC09、CVC14两个数据集的TXT格式的标注文件中的绝对位置转化为相对位置；

步骤3、利用脚本VCO_LABELS.PY生成两个包含图片样本路径的TXT文档，一个为训练集样本图片路径的文档，另一个为测试集样本图片路径的文档，分割比例为8：2；

步骤4、下载DARKNET，进行编译，修改配置文件，将检测类别数修改为1，输出滤波器数量修改为18，将训练和测试样本图片的路径修改为步骤3生成的TXT文档，修改检测类别名为person；

步骤5、设置训练参数，将学习率设置为0.0001，训练批次大小设置为64，迭代次数设置为50000，开始训练，生成行人检测模型；

步骤6、对行人检测模型进行评估，利用DARKNET自带的脚本对行人检测模型进行评估，得到召回率、检测精度以及平均精度三个指标，绘制PR曲线；

步骤7、使用训练生成的行人检测模型文件进行行人检测，将输入的监控视频拆分成帧，对每一帧进行行人检测，从而完成对监控视频的行人检测；

步骤8、完成行人追踪，使用适用于行人目标的追踪算法Deepsort完成地铁站中的行人追踪；

步骤9、进行警戒线位置的检测和定位，为入侵异常检测做准备；

步骤10、进行入侵异常检测，确定行人在图像中的位置，结合警戒线检测的结果，判断行人是否发生入侵异常；

步骤11、进行逆行异常检测，通过前后15帧同一行人构成的运动方向向量，计算其与预设绝对逆行方向向量间的角度差进行逆行异常判断；

步骤12、进行摔倒异常判断，通过计算前后3帧的行人质心位置Y坐标的相对变化量和行人检测框宽高比的相对变化量，判断行人是否发生摔倒异常；

步骤13、重复步骤7,8,10,11,12，直至整个输入视频处理结束。

作为本发明的一种改进，在步骤5中，所述行人检测模型是通过重新训练YOLOv3目标检测算法所获得，具体的，使用预训练过的权重模型载入YOLOv3深度学习神经网络中，之后将重新整合处理的行人检测数据集输入到YOLOv3深度学习神经网络中进行训练，获得基于YOLOv3的行人检测模型。

作为本发明的一种改进，使用可见光及红外场景两个数据集来进行行人检测模型的训练，可见光的数据集为VOC2007和VOC2012，红外场景的数据集为CVC09和CVC14。

作为本发明的一种改进，在步骤8中，具体包括如下步骤：

步骤8.1、对输入的当前帧的检测结果进行处理，包括删去置信度过低的检测框，并使用非极大值抑制算法删去重合较多的检测框；

步骤8.2、使用卡尔曼滤波器预测轨迹目标在当前帧的位置，即卡尔曼状态；

步骤8.3、联合上一帧所预测的卡尔曼状态和检测结果之间的运动和表观匹配信息度量，使用匈牙利算法进行匹配，得到匹配结果；

步骤8.3.1、计算预测的卡尔曼状态和当前帧检测框结果间的马氏距离；

步骤8.3.2、计算第i个轨迹的最近100个成功匹配的特征集与当前帧第j个检测结果的特征向量间的最小余弦距离，i和j均为大于0的自然数；

步骤8.3.3、结合运动度量的马氏距离与表观特征度量的最小余弦距离矩阵，使用匈牙利算法进行级联匹配；

步骤8.3.4、对当前帧未匹配上的检测框与未匹配上的轨迹计算IOU使用匈牙利算法进行再匹配，得到最终的匹配结果；

步骤8.4、匹配上的当前帧检测框与轨迹，完成行人目标的追踪，并进行卡尔曼滤波器参数和轨迹里存储的特征向量集参数的更新，未匹配上的检测框初始化独特的轨迹，超过三十帧未匹配上的轨迹将会被删除。

作为本发明的一种改进，在步骤9中，入侵异常是针对有警戒线警示的区域，进行警戒线位置的检测和定位具体包括如下步骤：

步骤9.1、需要进行入侵检测时，对输入监控视频选择警戒线没有行人遮挡的一帧图片作为警戒线检测的输入；

步骤9.2、对输入视频帧进行颜色提取，针对警戒线的橙色或黄色部分进行提取，首先将输入视频帧转化为HSV格式，通过图像处理库OPEN-CV构建一个HSV取值的掩模，其掩模范围为11＜H＜34,43＜S＜255,46＜V＜255，通过此掩模对输入视频帧进行处理，得到只剩下橙色和黄色的部分图像，其中，H，S，V分别为色相，饱和度，明度；

步骤9.3、对颜色提取的结果图像进行边缘检测，确定橙色或黄色部分的边缘，通过图像处理库OPEN-CV中的CANNY边缘检测算子对图像进行处理，得到二值化的边缘检测结果图像；

步骤9.4、对边缘检测结果图像进行霍夫变换，得到警戒线边缘的直线方程，直线方程是在以图像左上角作为原点建立的坐标系下的，使用OPEN-CV中的霍夫变换函数对边缘检测结果图像进行处理，在霍夫变换函数中对边缘直线的长度进行过滤，去掉长度过短的直线，留下警戒线的边缘直线方程。

作为本发明的一种改进，在步骤10中，通过行人立足点位置来确定行人在图像中的位置，立足点取行人检测框的底边中点。

作为本发明的一种改进，在步骤10中，入侵异常检测具体包括如下步骤：

步骤10.1、确定行人位置，针对入侵检测，在获取警戒线位置方程的结果下，确定行人位置，判断行人位置与警戒线位置的相对关系对行人的入侵异常进行判断，提取行人的立足点坐标来决定行人的位置，提取公式如下:

其中，(x₀,y₀)，(x_tl,y_tl)，W,H分别为行人立足点坐标，行人检测框左上角坐标，行人检测框的宽度和为行人检测框的高度；

步骤10.2、入侵异常判断，在获取行人位置以及警戒线位置后，判断行人与警戒线的相对位置，进行入侵异常判断，判断公式如下：

警戒线左上部分为禁入区域：

警戒线右下部分为禁入区域：

其中，(k₀,b₀)为警戒线位置直线方程的斜率与截距，λ为判断是否入侵的阈值，根据图像大小自动调整。

作为本发明的一种改进，在步骤11中，进行逆行异常检测具体包括如下步骤：

步骤11.1、划分逆行检测区域，针对输入视频中需要进行逆行检测的部分用OPEN-CV库中函数进行划分，逆行检测区域包括闸机通道口和自动扶梯；

步骤11.2、预设绝对逆行方向，对划分的逆行检测区域中预设一个绝对逆行向量(a,b)，绝对逆行方向为直线单向通道禁止通行的方向；

步骤11.3、获取行人运动方向，对每一帧的行人质心位置进行提取，提取公式如下：

其中，(x_质,y_质)分别为行人质心坐标；

对每一帧提取的行人质心坐标与前15帧的同一行人质心坐标进行相减，得到1秒内行人形成的运动方向向量；

步骤11.4、逆行异常判断，对每一个行人所提取获得的行人运动方向向量与预设的绝对逆行向量计算角度差，计算公式如下：

其中(x_i,y_i)，(a,b)为第i个的行人的运动方向向量和预设的绝对逆行向量，θ为角度差，则逆行判断公式如下：

若某一帧中某一行人被判断为可能逆行，则将阈值λ₃加1，若判断为未逆行，则将阈值λ₃减1，之后对阈值λ₃进行判断，若λ₃≥2，则判断此行人出现逆行异常。

作为本发明的一种改进，在步骤12中，摔倒异常检测具体包括如下步骤：

步骤12.1、行人质心坐标提取追踪，对每一帧行人质心坐标进行提取追踪，并将质心位置Y坐标与前三帧同一行人的质心位置Y坐标进行比较，得到质心位置的相对变化量Y_C，其比较公式如下所示：

(Y_T-Y_T-3)/H_T-3＝Y_C；

其中Y_T、Y_T-3、H_T-3、Y_C分别表示当前帧行人质心Y坐标、前三帧行人质心Y坐标、前三帧检测框高度和Y坐标相对变化量；

步骤12.2、行人宽高比提取追踪，对每一帧所有行人的宽高比进行提取追踪，行人宽高比R为行人检测框的宽度比高度，其计算公式如下所示：

R＝W/H

其中，W为行人检测框的宽度，H为行人检测框的高度；

在每一帧对所有行人的宽高比进行提取后与前三帧同一行人的宽高比进行比较，得到行人宽高比的相对变化量，其计算公式如下所示：

(R_T-R_T-3)/R_T-3＝R_C

其中R_T、R_T-3、R_C分别表示当前帧行人检测框宽高比，前三帧行人检测框宽高比，检测框宽高比相对变化量；

步骤12.3、摔倒坠轨判断，对步骤12.1和步骤12.2提取的质心位置Y坐标相对变化量以及宽高比相对变化量进行联合，判断行人是否发生摔倒坠轨异常，其判断公式如下所示：

if(Y_c≥0.2and R_C≥1)摔倒。

步骤13、重复步骤7,8,10,11,12，直至整个输入视频处理结束。

本发明的有益效果如下：

一、本发明采用了基于YOLO-v3的深度神经网络作为本发明的单帧图像检测，充分利用了深度学习处理批量数据的能力及深度学习的可靠性；

二、自动化程度高，整个地铁站行人异常检测过程基本是自动实现，可减少大量的人力消耗；

三、可移植性高，对一个新的地铁站，只需少量的调试工作，此发明便可良好运行工作；

四、即适用于可见光下的场景，又使用红外场景的异常检测监控；

五、具体异常的检测精度高，速度可以满足监控对实时性的要求。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明所述的基于深度学习的地铁站行人异常事件检测方法的流程图；

图2(a)～(b)为行人检测训练过程的可视化；

图3为所训练模型的PR曲线；

图4为可见光及红外场景的行人检测示例；

图5为Deepsort追踪算法基本步骤；

图6为红外场景下的不同时间的行人追踪结果示例；

图7(a)～(d)为警戒线检测过程；

图8为有入侵异常的行人入侵异常检测示例；

图9为逆行检测示例；

图10为摔倒异常检示例。

【具体实施方式】

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供一种基于深度学习的地铁站行人异常事件检测方法，包括以下步骤：

具体的，该四个数据集可从网络上下载得到，其中，VOC数据集为目标检测数据集，使用脚本提取包含行人目标的样本图片及其对应的标注文件。

步骤3、利用脚本VCO_LABELS.PY生成两个包含图片样本路径的TXT文档，一个为训练集样本图片路径的文档train.txt，另一个为测试集样本图片路径的文档test.txt，分割比例为8：2；

具体的，在利用脚本VCO_LABELS.PY之前，需要先将步骤1中的四个数据集的图片样本以及标注文件分别整合到两个文件夹中。

具体的，在UBUNTU系统下下载DARKNET，进行编译，生成可执行文件，进行测试，测试完成后，修改yolov3.cfg配置文件，将其中的检测类别数修改为1，YOLOv3将图片切割成N个grids，为每个grid预测三个候选框，针对每个候选框又分别预测边框置信度、各类别置信度、与边框坐标偏移，所以输出特征图的深度为3*(检测类别数+检测框的参数量+类别置信度)，在本发明的具体实施例中，检测类别数为1，所以输出特征图的数量为3*(1+4+1)＝18，所以需将网络三个通道的输出滤波器数量修改为18。修改VOC.data文件，将训练和测试样本图片的路径文件修改为步骤3生成的TXT文档，修改检测类别名为person。

具体的，所述行人检测模型是通过重新训练YOLOv3目标检测算法所获得，具体的，使用预训练过的权重模型载入YOLOv3深度学习神经网络中，之后将重新整合处理的行人检测数据集输入到YOLOv3深度学习神经网络中进行训练，获得基于YOLOv3的行人检测模型。

训练环境为操作系统Ubuntu18.04搭载GTX1080Ti*2，Intel(R)Core(TM)i7-7800XCPU@3.50GHZ 32GB内存。开始训练，总训练时长约为25小时。

参照图2(a)和(b)所示，使用可见光及红外场景两个数据集来进行行人检测模型的训练，可见光的数据集为VOC2007和VOC2012，红外场景的数据集为CVC09和CVC14。

步骤6、对行人检测模型进行评估，利用DARKNET自带的脚本对行人检测模型进行评估，得到召回率、检测精度以及平均精度三个指标，绘制PR曲线，具体参见图3所示，确定训练的模型可用；

步骤7、使用训练生成的行人检测模型文件进行行人检测，可参见图4所示，可将输入的监控视频拆分成帧，对每一帧进行行人检测，从而完成对监控视频的行人检测；

具体的，参见图5和图6所示，追踪算法采用适合于行人目标追踪的Deepsort，需将行人检测的结果作为输入，具体实现为将每一帧中行人检测得到的结果生成一个列表，列表里的为每一帧中所有行人检测框的位置坐标，具体为检测框左上角坐标，检测框宽度和高度，将此列表作为输入，使用卡尔曼滤波进行预测，得到当前帧中行人下一帧中的预测状态用于行人运动信息的匹配度量，卡尔曼滤波公式如下：

x_k＝Ax_k-1

P_k＝AP_k-1A^T+Q

其中x_k-1为目标上一帧的运动状态信息，x_k为预测的目标当前帧的运动状态信息，P_k-1、A、Q分别为目标卡尔曼滤波器的估计误差，状态转移矩阵，系统误差。

通过计算预测状态与检测结果的马氏距离矩阵作为运动信息的匹配度量，计算公式如下所示：

其中，d_j,y_i,S_i分别表示第j个检测框的位置，第i个预测框的位置，以及检测框与追踪框间的平均协方差矩阵，j和i为大于0的自然数。

另外，还需将每一帧中所有行人检测框内的图片块输入到Deepsort的行人重识别模型里，得到一个128维的特征向量用于行人表观信息的匹配用于行人表观信息匹配的度量。通过计算当前帧行人的表观特征向量与各个追踪里存储的100帧中匹配成功的特征向量的最小余弦距离作为表观信息匹配度量矩阵，计算公式如下所示：

其中，r_j,

分别为第j个检测结果的表观特征向量，与第i个轨迹里存储的第k个表观特征向量，以上的特征向量都进行了归一化，j、i和k均为大于0的自然数。

最终使用匈牙利算法运动和表观信息匹配度量联合矩阵进行指派，完成行人追踪。其中联合度量公式为：

c_i,j＝λd⁽¹⁾(i,j)+(1-λ)d⁽²⁾(i,j)

具体包括如下步骤：

步骤9、再参见图7(a)～(d)所示，进行警戒线位置的检测和定位，为入侵异常检测做准备；

具体的，本发明中的入侵异常检测针对于有警戒线警示的区域，为了提高发明的智能化和自动化程度，本发明自动检测定位警戒线的位置。进行警戒线位置的检测和定位具体包括如下步骤：

步骤9.2、警戒线一般为黄色或者橙色，国家标准也是如此针对此特征，对输入视频帧进行颜色提取，针对警戒线的橙色或黄色部分进行提取，首先将输入视频帧转化为HSV格式，通过图像处理库OPEN-CV构建一个HSV取值的掩模，其掩模范围为11＜H＜34,43＜S＜255,46＜V＜255，通过此掩模对输入视频帧进行处理，得到只剩下橙色和黄色的部分图像，其中，H，S，V分别为色相，饱和度，明度；

步骤9.4、对边缘检测结果图像进行霍夫变换，得到警戒线边缘的直线方程，直线方程是在以图像左上角作为原点建立的坐标系下的。使用OPEN-CV中的霍夫变换函数对边缘检测结果图像进行处理，为了排除图像中除警戒线以外的其他橙色或黄色部分的干扰，需要在霍夫变换函数中对边缘直线的长度进行过滤，去掉长度过短的直线，留下警戒线的边缘直线方程。

步骤10、请参见图8所示，进行入侵异常检测，确定行人在图像中的位置，结合警戒线检测的结果，判断行人是否发生入侵异常；

具体的，通过行人立足点位置来确定行人在图像中的位置，立足点取行人检测框的底边中点，相对于取质心坐标确定行人的位置，取立足点确定行人位置对于入侵检测来说效果更好。入侵异常检测具体包括如下步骤：

其中，(x₀,y₀)，(x_tl,y_tl)，W，H分别为行人立足点坐标，行人检测框左上角坐标，行人检测框的宽度和为行人检测框的高度；

警戒线左上部分为禁入区域：

警戒线右下部分为禁入区域：

步骤11、请参见图9所示，进行逆行异常检测，通过前后15帧同一行人构成的运动方向向量，计算其与预设绝对逆行方向向量间的角度差进行逆行异常判断；

具体的，对每一个行人所提取获得的行人运动方向向量与预设的绝对逆行向量计算角度差，计算公式如下：

其中(x_i,y_i)，(a,b)为第i个行人的直线轨迹向量和预设的绝对逆行向量，θ为角度差，则逆行判断公式如下：

进行逆行异常检测具体包括如下步骤：

步骤11.1、划分逆行检测区域，针对输入视频中需要进行逆行检测的部分用OPANCV库中函数进行划分，逆行检测区域包括闸机通道口和自动扶梯；

其中，(x_质,y_质)分别为行人质心坐标；

步骤12、请参见图10所示，进行摔倒异常判断，通过计算前后3帧的行人质心位置Y坐标的相对变化量和行人检测框宽高比的相对变化量，判断行人是否发生摔倒异常；

具体的，摔倒异常检测具体包括如下步骤：

(Y_T-Y_T-3)/H_T-3＝Y_C；

R＝W/H

其中，W为行人检测框的宽度，H为行人检测框的高度；

(R_T-R_T-3)/R_T-3＝R_C

if(Y_c≥0.2and R_C≥1)摔倒；

步骤13、重复步骤7,8,10,11,12，直至整个输入视频处理结束。

本发明的有益效果如下：

尽管本发明的实施方案已公开如上，但并不仅仅限于说明书和实施方案中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里所示出与描述的图例。

Claims

1.一种基于深度学习的地铁站行人异常事件检测方法，其特征在于，包括以下步骤：

步骤5、设置训练参数，将学习率设置为0.0001，训练批次大小设置为64，迭代次数设置为50000，开始训练，生成行人检测模型；其中所述行人检测模型是通过重新训练YOLOv3目标检测算法所获得，具体的，使用预训练过的权重模型载入YOLOv3深度学习神经网络中，之后将步骤3重新整合处理的行人检测数据集训练集样本，输入到YOLOv3深度学习神经网络中进行训练，获得基于YOLOv3的行人检测模型；

步骤8、完成行人追踪，使用适用于行人目标的追踪算法Deepsort完成地铁站中的行人追踪；具体包括如下步骤：

步骤8.3、联合上一帧所预测的卡尔曼状态和检测结果之间的运动和表观信息匹配信息度量，使用匈牙利算法进行匹配，得到匹配结果；

步骤8.3.4、对当前帧未匹配上的检测框与未匹配上的轨迹计算IOU，使用匈牙利算法进行再匹配，得到最终的匹配结果；

步骤8.4、匹配上的当前帧检测框与轨迹，完成行人目标的追踪，并进行卡尔曼滤波器参数和轨迹里存储的特征向量集参数的更新，未匹配上的检测框初始化独特的轨迹，超过三十帧未匹配上的轨迹将会被删除；

步骤9、进行警戒线位置的检测和定位，为入侵异常检测做准备；入侵异常是针对有警戒线警示的区域，进行警戒线位置的检测和定位具体包括如下步骤：

步骤9.4、对边缘检测结果图像进行霍夫变换，得到警戒线边缘的直线方程，直线方程是在以图像左上角作为原点建立的坐标系下的，使用OPEN-CV中的霍夫变换函数对边缘检测结果图像进行处理，在霍夫变换函数中对边缘直线的长度进行过滤，去掉长度过短的直线，留下警戒线的边缘直线方程；

步骤10、进行入侵异常检测，通过行人立足点位置来确定行人在图像中的位置，立足点取行人检测框的底边中点，结合警戒线检测的结果，判断行人是否发生入侵异常；

步骤13、重复步骤7,8,10,11,12，直至整个输入视频处理结束。

2.根据权利要求1所述的基于深度学习的地铁站行人异常事件检测方法，其特征在于，在步骤10中，入侵异常检测具体包括如下步骤：