CN111680613A

CN111680613A - 一种实时检测手扶电梯乘客摔倒行为的方法

Info

Publication number: CN111680613A
Application number: CN202010494415.4A
Authority: CN
Inventors: 唐俊; 张建军; 王年; 朱明�; 鲍文霞; 张艳
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-18
Anticipated expiration: 2040-06-03
Also published as: CN111680613B

Abstract

本发明公开了一种实时检测手扶电梯乘客摔倒行为的方法，该方法包括下述步骤，步骤一，采集乘客搭乘手扶电梯视频图像，并且处理视频图像，将视频中乘客摔倒和正常行为分别裁剪作为训练样本，得到训练集和测试集；包括本发明利用视频图像中多帧结合的方法，能够有效的得到时间方向信息。相比使用卷积神经网络提取时间方向的信息，具有简单高效的特点；本发明利用提取乘客的骨骼关键点信息作为基础样本，根据动态行为是连续性的特点，当出现人体部分被遮挡时，此时会出现部分骨骼关键点丢失，可根据前面提取相对应的骨骼关键点结合Neck的相对位置进行填充，减少因为骨骼关键点缺失导致误判和漏判的情况。

Description

一种实时检测手扶电梯乘客摔倒行为的方法

技术领域

本发明属于视频图像处理、人体姿态估计、深度学习以及手扶梯安全运行技术领域，具体是一种实时检测手扶电梯乘客摔倒行为的方法。

背景技术

随着城市的发展，大型商场、超市、车站及城市轨道交通等场所，对于手扶电梯的使用越来越多，可能出现的事故也越来越多。随之而来的手扶电梯的运行安全问题越来越受到重视。乘客在乘坐手扶梯时，在出现的事故中大多数是摔倒事件。在乘客摔倒时，于手扶电梯没有实时检测乘客摔倒的功能和预警措施，手扶电梯的状态依然会按照正常来运行，如果工作人员不能及时的发现以及应对事故的发生，可能会造成严重的后果。本发明使用视频监控作为数据源，能够实时的分析及判断视频中是否有乘客摔倒的事件发生。如果有摔倒事件发生，能够及时的检测到乘客摔倒事件的发生，并给手扶电梯发送响应信号让其迅速切换状态并通过报警提醒工作人员，从而避免事故发生时由于手扶电梯不能及时做出响应对乘客造成的更大的伤害。通过，这种方法能够尽可能的将事故对乘客造成的伤害降到最低。

随着深度学习的兴起，作为其技术核心的神经网络具有很强的学习能力。然而在行为识别领域，网络模型的结构非常的复杂。在训练一个识别人的行为网络模型时需要大量的样本进行学习，而且训练时需要消耗大量的计算资源。而且只能离线检测人的动态行为，不具有实时检测的特点。

为了解决现有方法不能实时检测视频图像中人的行为状态，本发明针对手扶电梯的场景下，提供了一种基于视频图像的实时检测手扶电梯乘客摔倒行为的检测方法，根据人体的骨骼关键点的变化判断人的动态行为，以人体骨骼关键点作为特征，能更好的关注人的行为，减少其他因素的干扰。提取人体动态行为骨骼关键点作为基础特征，并结合FsNet网络对其进行为识别分类。而且本发明的整体流程可以实现端到端的训练和检测，使用少量计算资源和少量样本就能够实现较好的效果，能够实时准确的检测到视频图像中发生的摔倒事件。

发明内容

本发明的目的在于提供一种实时检测手扶电梯乘客摔倒行为的方法。

本发明的目的可以通过以下技术方案实现：

一种实时检测手扶电梯乘客摔倒行为的方法，该方法包括下述步骤：

步骤一：采集乘客搭乘手扶电梯视频图像，并且处理视频图像，将视频中乘客摔倒和正常行为分别裁剪作为训练样本，得到训练集和测试集；

步骤二：利用OpenPose提取视频图像中乘客的人体骨骼关键点及预处理，具体为：

步骤2.1：提取t时刻图像帧中乘客骨骼关键点k是骨骼点的数量；使用OpenPose模型提取视频图像中乘客的骨骼关键点序列，记为

序列中包含18个骨骼关键点元素，其中每个关键点元素的内容格式为(x,y)，x和y分别表示x轴和y轴上的坐标值；

按照从前往后顺序分别为：

Nose,Neck,Rshoulder,Relbow,Rwrist,LShoulder,LElbow,LWrist,RHip,RKnee,Rankle,LHip,LKnee,LAnkle,Reye,LEye,Rear,Lear；

步骤2.2：对提取的

骨骼关键点进行筛选；将i＝1,15,16,17,18的骨骼关键点删除得到

其中k是剩余骨骼关键点的数量；

步骤2.3：对缺失的骨骼关键点进行填充得到z_t；

步骤2.4：对w_t骨骼关键点序列里面的数据进行归一化得到f_t；

步骤2.5：提取训练集中训练样本或者视频图像的骨骼关键点序列得到特征X_skeleton；

步骤2.6：将训练集中第N个训练样本提取的骨骼关键点特征用矩阵表示

其中n是第N个训练样本中的视频图像帧数，j是每帧提取到的骨骼关键的数量；

步骤三：对提取乘客的人体骨骼关键点序列进行特征提取和处理：

步骤3.1：当特征提取时设置g＝5帧为一个动态行为提取特征的基础样本，则

步骤3.2：从骨骼关键点提取骨骼关键点间的速度，则P_skeleton中的每个基础样本中的每个骨骼关键点提取到的速度表示为：

式中t表示帧间时间，v_x和v_y分别表示x方向和y方向上的速度变化；则P_skeleton中{f_n-4,f_n-3,f_n-2,f_n-1,f_n}的骨骼关键点的平均速度为：

则得到第N个视频图像中乘客骨骼关键点对应的平均速度向量为：

q表示第N视频图像中一共提取乘客骨骼关键点平均速度的数量；

步骤3.3：从提取的骨骼关键点

提取乘客的重心位置坐标，

其中，x_i和y_i分别是f_t ⁱ中的骨骼关键点坐标；因此，第N个视频图像中提取的乘客重心坐标可表示为：

步骤3.4、将预处理的骨骼关键点以及从骨骼关键点中得到的特征整合在一起；则第N个视频图像提取的样本数据记为：

步骤四：网络模型的搭建和训练，搭建网络模型FsNet；FsNet使用4层全连接层对提取到的特征进行学习，最后结合softmax作为激活函数，输出类别概率；具体为：

步骤4.1、重复步骤2和3提取所有训练集中的视频图像，得到所有训练样本S；

步骤4.2、使用PCA对S^N特征进行降维，在能够保存有效信息的同时能够减少特征中多出的冗余信息，得到S_p；

步骤4.3、将S_p特征送入到FsNet网络模型进行学习，使用交叉熵作为训练时的优化函数，具体为：

式中，m是一个batch的样本数量，l是样本的数量；FsNet前三层配合ReLU 对特征进行学习，最后一层输出2维的类别，并且使用softmax来输出各个类别的概率；其中ReLU函数模型为：

步骤4.4：保存训练模型；

步骤五：网络模型的验证和测试；

步骤5.1：将测试集中的视频图像样本按照步骤2和步骤3提取相应样本数据记为S'_p；

步骤5.2：将S'_p送入FsNet网络中进行识别，输出行为类别；

步骤5.3：将检测结果和真实结果进行对比，如果和真实结果一致则认为检测正确。

进一步地，步骤一中得到训练集和测试集的具体方法为：

步骤1.1：在手扶梯入口处斜上方设置网络摄像头；

步骤1.2：采集乘客乘坐手扶电梯的视频图像；

步骤1.3：根据视频图像片段中是否存在乘客摔倒行为事件进行裁剪，具体为将有乘客摔倒行为事件作为正样本，没有乘客摔倒事件作为负样本；

步骤1.4：并且分别在正样本中随机挑选占比X1的样本，和负样本随机挑选占比为X2的样本作为测试集，剩余的则作为训练集；X1和X2均为预设值。

进一步地，测试视频中也包括存在乘客摔倒和不存在乘客摔倒两类视频片段。

进一步地，步骤2.3中对缺失的骨骼关键点进行填充的具体方法为：

在w_t中可能会存在关键点缺失时，使用相邻帧提取的骨骼关键点进行补充；

当在t时刻提取的第i(i＝1...k)个骨骼关键点

缺失，则使用

骨骼关键点根据以下公式进行填充:

式中，x_t-1和y_t-1是t-1时刻提取得到

的骨骼关键点，

是t时刻提取得到

中Neck骨骼关键坐标；

结合t时刻之前帧的骨骼关键点信息，将

缺失的骨骼关键点补充完整。

进一步地，步骤2.4中归一化具体步骤为：

步骤2.4.1：获取视频输入的图像尺寸大小记为(w,h)；

步骤2.4.2：将w_t中的骨骼关键点的坐标值归一化到[0,1]之间，得到f_t；

f_t(x)＝w_t(x)/w

f_t(y)＝w_t(y)/h

式中，w_t(x)和w_t(y)分别表示w_t中骨骼关键点对应的x方向和y方向的骨骼关键点坐标；f_t(x)和f_t(y)分别表示归一化之后的骨骼关键点对应的x方向和y 方向坐标。

本发明的有益效果：

本发明利用视频图像中多帧结合的方法，能够有效的得到时间方向信息。相比使用卷积神经网络提取时间方向的信息，具有简单高效的特点；本发明利用提取乘客的骨骼关键点信息作为基础样本，根据动态行为是连续性的特点，当出现人体部分被遮挡时，此时会出现部分骨骼关键点丢失，可根据前面提取相对应的骨骼关键点结合Neck的相对位置进行填充，减少因为骨骼关键点缺失导致误判和漏判的情况；

本发明根据提取的骨骼关键点，从中提取到视频图像中乘客速度、重心作为特征，能够更好的提供乘客的行为状态信息，从而能够为网络模型判断乘客行为提供高效的信息；本发明搭建一个4层全连接层网络FsNet，并且在特征输入到网络层之前，使用PCA对特征进行降维处理，能够有效的减少特征中存在的冗余信息。FsNet能够有效的学习骨骼关键点提供的特征信息，和多层的卷积网络相比较，具有速度快的特点。

本发明能够实时的识别视频图像中乘客摔倒行为。具有高效、快速的识别的特点，有效的减少摔倒事故发生时造成的伤害。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1为本发明的整体框架流程图；

图2为提取人体骨骼关键点的位置分布图；

图3为本发明整体算法流程框架图；

图4为摄像头的安装位置示意图；

图5为本发明视频监控正常情况下的原图(a)和检测效果图(b)；

图6视频监控摔倒时的原图(a)和检测效果图(b)。

具体实施方式

如图1所示，一种实时检测手扶电梯乘客摔倒行为的方法，包括

步骤一：采集乘客搭乘手扶电梯视频图像，并且处理视频图像，将视频中乘客摔倒和正常行为分别裁剪作为训练样本；具体方式为：

使用普通网络摄像头，设置在手扶梯入口处斜上方；摄像头使用海康威视网络摄像头，型号为DS-2CD1021FD-IW1，视频分辨率为720*480，帧数为15fps；

采集乘客乘坐手扶电梯的视频图像；

根据视频图像片段中是否存在乘客摔倒行为事件进行裁剪；

有乘客摔倒行为事件作为正样本，没有乘客摔倒事件作为负样本；

并且分别在正、负样本中随机挑选一部分作为测试集，剩余的则作为训练集；采集到的数据集共有109段大小不等的视频图像，训练集中正样本和负样本分别有69段和20段，剩下的20段视频图像中正、负样本各10段作为测试视频，其中测试视频中也包括存在乘客摔倒和不存在乘客摔倒两类视频片段；

步骤2.1：提取t时刻图像帧中乘客骨骼关键点

k是骨骼点的数量；使用OpenPose模型提取视频图像中乘客的骨骼关键点序列，记为

按照从前往后顺序分别为：

Nose,Neck,Rshoulder,Relbow,Rwrist,LShoulder,LElbow,LWrist,RHip,RKnee,Rankle,LHip,LKnee,LAnkle,Reye,LEye,Rear,Lear，其中骨骼关键点对应位置请参考附图2；

步骤2.2：对提取的

其中k是剩余骨骼关键点的数量；

在判断乘客摔倒行为时，头部上的骨骼关键点相比较肢体部分能够提供的信息不足且不稳定，比如耳朵和眼睛的位置信息，不能很好的表达出乘客的肢体动作，可能会因为检测到头部上骨骼关键点位置是错误的导致模型判断人的动态行为也出现错误，为了避免这些骨骼点对模型的影响，本算法将头部上的五个关键点去除，不作为特征的一部分，去除的五个头部的关键点分别是左右耳、左右眼和鼻子；

步骤2.3：对缺失的骨骼关键点进行填充得到z_t；

在w_t中可能会存在关键点缺失的情况，因为乘客动态行为是连续的情况，所以可以使用相邻帧提取的骨骼关键点进行补充，以此减少因骨骼关键点的缺失，导致检测精度的下降的问题；如在t时刻提取的第i(i＝1...k)个骨骼关键点

缺失，则可以使用

骨骼关键点根据以下公式进行填充:

式中，x_t-1和y_t-1是t-1时刻提取得到

的骨骼关键点，

是t时刻提取得到

中Neck骨骼关键坐标；

结合t时刻之前帧的骨骼关键点信息，可以将

缺失的骨骼关键点补充完整。

步骤2.4：对w_t骨骼关键点序列里面的数据进行归一化得到f_t；归一化具体步骤为：

步骤2.4.1：获取视频输入的图像尺寸大小记为(w,h)；

f_t(x)＝w_t(x)/w

f_t(y)＝w_t(y)/h

式中，w_t(x)和w_t(y)分别表示w_t中骨骼关键点对应的x方向和y方向的骨骼关键点坐标；f_t(x)和f_t(y)分别表示归一化之后的骨骼关键点对应的x方向和 y方向坐标；

式中t表示帧间时间，v_x和v_y分别表示x方向和y方向上的速度变化；则 P_skeleton中{f_n-4,f_n-3,f_n-2,f_n-1,f_n}的骨骼关键点的平均速度为：

则得到第N个视频图像中乘客骨骼关键点对应的平均速度向量为

步骤3.3：从提取的骨骼关键点

提取乘客的重心位置坐标，

步骤四：网络模型的搭建和训练：

本发明使用的算法主要目的是能够实时检测视频图像中乘坐手扶电梯的乘客摔倒行为，最重要的特点是实时检测，现如今的深度学习网络模型对视频图像和图片的处理需要消耗的计算资源是巨大的，很难做到实时运行；而本发明使用人体骨骼关键点作为基础特征，则就不必要使用特别深的网络模型进行学习。因此，本发明自己搭建了一个网络模型，命名为FsNet。如图附图所示，FsNet 使用4层全连接层对提取到的特征进行学习，最后结合softmax作为激活函数，输出类别概率。通过FsNet不仅能够有效的学习特征，而且计算参数小，运行速度快；

步骤4.4：保存训练模型；

步骤5：网络模型的验证和测试；

步骤5.2：将S'_p送入FsNet网络中进行识别，输出行为类别。

整个检测手扶电梯乘客摔倒的方法，在对网络完成训练之后，在验证和测试阶段是可以实现实时进行检测。将测试集的视频文件，按照步骤2和步骤3 骨骼关键点预处理模块和特征提取模块会得到实时的特征S'_p，将S'_p送入到训练好的网络模型即可得到每个样本文件的检测结果，将检测结果和真实结果进行对比，如果和真实结果一致则认为检测正确。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。