CN111401144B

CN111401144B - 一种基于视频监控的手扶电梯乘客行为识别方法

Info

Publication number: CN111401144B
Application number: CN202010118905.4A
Authority: CN
Inventors: 杜启亮; 黄理广; 田联房
Original assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2023-04-07
Anticipated expiration: 2040-02-26
Also published as: CN111401144A

Abstract

本发明公开了一种基于视频监控的手扶电梯乘客行为识别方法，包括步骤：1)使用关键点提取方法对手扶电梯行为数据集进行骨架提取，并打上标签；2)将提取的骨架划分训练集和验证集；3)搭建合适的图卷积神经网络；4)使用数据集对图卷积神经网络进行训练，并保存最佳的网络模型；5)对手扶电梯场景的图像使用关键点提取方法进行人体关键点提取，并使用行人跟踪方法对行人进行跟踪，得到每个乘客在不同帧的骨架坐标及其置信度；6)将每一帧中的所有乘客的骨架坐标及其置信度输入到训练好的最佳模型中进行行为分类；7)对同一个乘客的行为序列，使用滑动窗统计的方法对其进行滤波，决策出最后的行为。本发明可有效实现对手扶电梯监控视频的行为识别。

Description

一种基于视频监控的手扶电梯乘客行为识别方法

技术领域

本发明涉及手扶电梯视频监控和行为识别的技术领域，尤其是指一种基于视频监控的手扶电梯乘客行为识别方法。

背景技术

手扶电梯通常安装在城市人流量密集的重要场合，给市民出行带来便利。但由于乘客搭乘手扶电梯时安全防范意识不够，导致手扶电梯上的安全事故层出不穷。因此，通过对手扶电梯的监控视频进行算法分析，从而自动检测出乘客搭乘手扶电梯时的异常行为对加强城市安全建设有重要意义。随着计算机的计算性能逐渐提高和算法研究的日益成熟，深度学习给人们的生活带来了巨大变化，其中包括视频监控领域。因此，用深度学习算法对手扶电梯监控视频进行实时有效的处理并对乘客的行为进行识别，可以乘客提供安全保障，有重要的研究和商业价值。

一般来说，行人的动作可以通过多种模式识别出来，如行人表情、深度信息、光流信息以及人体骨架等。这些模式的提取方法主要包含了传统方法和深度学习方法。传统方法主要通过人工提取特征，包括人体骨架建模，光流法等。人体骨架建模通过行人轮廓计算人体重心以及各枝干顶点，并将重心和顶点构成的矢量作为特征向量来判断异常行为，但只能用于简单环境中；光流法识别行为主要步骤是使用光流特征来提取运动信息从而来定位感兴趣区域，然后使用方向梯度以及光流直方图来提取出运动特征，最后使用机器学习方法来对行为进行分类，但光流提取过程计算量较大，导致不能实时处理。而深度学习方法普遍使用循环神经网络、卷积神经网络等，卷积神经网络一般用来提取行人的行为特征，然后最后对行人的行为特征进行分类，循环神经网络用于识别行为多考虑了时间维度上的信息，可以对序列进行分类，但是这些方法都没有利用人体骨架的拓扑结构，分类准确率往往不高。

综上所述，发明一种快速且鲁棒性高的手扶电梯乘客行为识别方法具有较高的科学研究和实际应用价值。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于视频监控的手扶电梯乘客行为识别方法，该方法将人体关键点作为行为识别的主要依据，将人体骨架坐标以及其置信度输入到训练好的图卷积神经网络进行行为分类，并对连续多帧的行为进行滑动窗统计，来大大提高异常行为检测的速度及适用性。

为实现上述目的，本发明所提供的技术方案为：一种基于视频监控的手扶电梯乘客行为识别方法，包括以下步骤：

1)使用关键点提取方法对手扶电梯行为数据集进行骨架提取，并打上标签；

2)将提取出来的骨架划分训练集和验证集，其中训练集用来训练网络模型，验证集用来进行模型择优；

3)搭建合适的图卷积神经网络，用于乘客行为分类；

4)使用数据集对图卷积神经网络进行训练，并保存最佳的网络模型；

5)对手扶电梯场景的图像使用关键点提取方法进行人体关键点提取，并使用已有的行人跟踪方法(如卡尔曼滤波、粒子滤波等)对行人进行跟踪，得到每个乘客在不同帧的骨架坐标及其置信度；

6)应用步骤4)保留的最佳模型来实现乘客行为分类，将每一帧中的所有乘客的骨架坐标及其置信度输入到训练好的最佳模型中进行分类；

7)对同一个乘客的行为序列，使用滑动窗统计的方法对其进行滤波，决策出最后的行为，实现对手扶电梯监控视频的行为识别。

在步骤1)中，手扶电梯行为数据集中将乘客搭乘手扶电梯时发生的行为划分为正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带7种行为，其它行为归为上述7类行为之中。

在步骤3)中，搭建合适的图卷积神经网络用于乘客行为分类，图卷积的定义基于普通卷积。定义如下：

首先定义普通卷积，设整数的集合为Z，输入特征图为f_in，f_in所在的二维整数平面空间为Z²；设采样点位置x是在特征图f_in上的点，即x∈Z²；设卷积核大小为K×K，K∈Z,设输入通道数为c,c∈Z；设h,w为卷积核窗口的偏移量，h,w∈Z h,w∈[1,K]；设s:Z²×Z²→Z²为采样函数，即s根据采样点x∈Z²以及偏移量(h,w)∈Z²，可以映射到卷积核窗口中的平面空间Z²的某个位置，从而实现采样功能；设w:Z²→R^c为权重函数，将偏移量(h,w)，(h,w)∈Z²映射到一个用于计算卷积的c维向量。基于上面的定义，位置x的传统卷积的输出f_out(x)可以写成下式：

图卷积操作的定义在上式基础之上，设人体关键点按照骨骼结构连接成一个空间图V；设特征图映射函数为

即对于V中任意一个节点v_i，

总能将节点映射到一个c维的实数R空间；设节点v_i的邻域为B(v_i)＝{v_j|d(v_j,v_i)≤1}，其中d(v_j,v_i)表示节点v_i与节点v_j的最短路径长度；设图卷积的采样函数为p:B(v_i)→V，p(v_i,v_j)＝v_j，即对于在节点v_i上的卷积时，采样函数p能定位到v_i的邻域节点，从而实现采样的功能；设权重函数为w:(v_i,v_j)→R^c，v_j∈B(v_i)，即对每个节点v_i以及其相邻的节点v_j，采样函数将其映射到一个c维的实数向量。由于邻域的节点数以及权重的顺序并不是固定的，为了将其固定，将邻域节点分为3个部分，即根节点、比根节点到人体重心近的节点、比根节点到人体重心近的节点，因此设r_i为节点i到人体重心的距离；设r_j为i的相邻节点j到人体重心的距离；设分类函数为l_i(v_j)，表示在对节点v_i进行卷积时，其相邻节点v_j所属的类别，具体定义如下：

其中，当r_j＝r_i时，将相邻节点v_j归为第0部分；当r_j＜r_i时，将相邻节点v_j归为第1部分；当r_j＞r_i时，将相邻节点v_j归为第2部分。

由于在对不同节点v_i进行卷积时，以上3个部分的每个部分所包含的邻域节点数是由骨架连接方式决定的，并不是固定不变的，因此需要对其进行归一化。设Z_i(v_j)＝|{v_k|l_i(v_k)＝l_i(v_j)}|为用来均衡不同部分邻域节点的权重。

基于上面的假设，对节点v_i进行图卷积后，输出的单个通道响应f_out(v_i)如下：

基于上面定义的图卷积操作，构建用于乘客行为识别的图卷积神经网络。

将乘客骨架坐标及其置信度使用人体骨骼连接成3通道的图，作为输入骨架，输入骨架在经过3次图卷积及Relu激活函数后，提取得到128个通道的深度图特征，然后对每个通道进行全局平均池化，再通过1×1卷积，将通道数降为7，最后通过Softmax层，回归正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带这7种乘客行为发生的概率。

在步骤4)中，将训练集随机抽取进行20000次迭代，每次迭代样本数为2000，使用Adam优化器，学习率为10^-3，正则化系数为10^-3，使用交叉熵损失函数。每迭代100次，对当前模型进行训练集上的准确率计算，若训练集准确率达到95％以上且比上一次保存模型的训练集准确率要高时，则保存当前模型。在训练结束后，将训练时保存的多个训练模型在验证集上进行验证，选择验证集上的最优模型作为最终模型；

为增大网络训练数据量及适用性，需要使用数据增强方法对原始输入关键点坐标进行数据增强，包括：

a、关键点坐标缩放

对输入关键点的坐标进行随机放大和缩小，以模拟距离摄像头不同距离的乘客；

b、关键点坐标镜像翻转

对输入关键点坐标及其置信度进行随机水平翻转，进一步增加样本；

c、关键点坐标添加噪声

为输入的关键点坐标添加随机噪声，增加模型的抗干扰能力；

为了加快训练速度，设置初始训练优化器为Adam、学习率为10^-3，当迭代次数超过总迭代次数的80％时，设置训练优化器为随机梯度下降法，学习率为10^-3，以更利于寻找最优点，训练完成标志为已达到设定的迭代次数或设置验证集实时检测模型训练情况，验证集准确率满足某个条件，训练完成后，将神经网络的结构和权重保存。

在步骤5)中，首先初始化算法所有参数，从摄像头获取图像，并用关键点提取方法对图像进行人体关键点提取，然后使用跟踪方法对手扶电梯上的乘客进行跟踪，得到每个乘客在不同帧的骨架坐标及其置信度，设人体关键点为14个三维元素的序列{P¹,P²,…,P¹⁴}，其中

为第k个关键点的横坐标，

为第k个关键点的纵坐标，

为第k个关键点的置信度。

在步骤6)中，应用步骤4)保留的最佳模型来实现乘客行为识别，对于t时刻，将检测出来的骨架坐标及其置信度作为图，输入到训练好的神经网络中，并选取响应最大的行为作为输出，设t时刻中第k个人的骨架在经过神经网络后决策出来的行为为B_t(k)；

在步骤7)中，对同一个乘客的行为序列，使用滑动窗统计的方法对其进行滤波，决策出最后的行为，其具体如下：

在实际应用中由于存在光照、遮挡这些干扰因素，个别帧骨架提取会存在噪声，导致行为分类错误，因此如果将B_t(k)作为最终决策的行为进行输出，识别率会降低，由于乘客在手扶电梯上的行为会持续一段时间，十余帧至百余帧，这段时间内，第k个乘客的行为决策结果B(k)中大部分为同一行为，但是有噪声，因此使用滑动窗统计的方法，能够减少由骨架噪声引起的分类错误，进行最终的乘客行为决策；对于k时刻的每一个检测骨架，在完成乘客跟踪之后，都能在历史骨架中找到其对应的骨架序列H_k，同时也能够得到其行为序列B(k)，最后使用滑动窗统计的方法，完成跟踪后的每个乘客的行为序列的最终行为决策；其中，预先设定滑动窗长度为T，对于序列长度|B(k)|≥T的所有乘客，行为决策为：取其最近T次即(t-T,t]区间的行为进行投票分析，有正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带这7种行为，设票数为d₁～d₇，其中d₁+…+d₇＝T，如果最大票数大于设定阈值T_thres，T_thres＜T，则判断发生了该行为。设在时刻t，第k个乘客的行为为action_t(k)；设取最大值函数为max(·)，即取括号里面的最大值；设argmax(·)为求最大值位置的函数。则在时刻t，第k个乘客的行为为action_t(k)，可以用下式表示：

滑动窗投票的方法通过牺牲一些检测时间来提高实际应用中行为分类的准确性，起到了低通滤波器的效果，能够滤除由个别帧中行为识别错误造成的高频噪声。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明利用了人体骨架的拓扑图结构作为神经网络的输入，比起传统的先验知识方法，动作识别的分类准确率更高。

2、本发明的神经网络比较简单，因此前向推理速度较快，可以对动作进行实时识别。

3、使用了滑动窗投票的方法对神经网络的结果进行平均过滤，滤除由个别帧中行为识别错误造成的高频噪声，进一步提高了算法的鲁棒性。

附图说明

图1为本发明方法的流程图。

图2为图卷积神经网络训练流程图。

图3为图卷积神经网络采样示意图。

图4为图卷积神经网络结构图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

如图1至图4所示，本实施例所提供的基于视频监控的手扶电梯乘客行为识别方法，其具体情况如下：

1)使用从上到下的关键点提取方法对手扶电梯乘客行为数据集进行关键点提取，即：首先使用目标检测的方法对手扶电梯乘客进行检测，然后再使用单人关键点提取方法对检测出来的乘客进行单人关键点提取。提取出来的关键点共有14个，包括头、颈、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝盖、右膝盖、左脚踝、右脚踝。人体骨架由关键点和相连骨骼组成，将人体骨架坐标、置信度及其行为标签作为数据集，其中数据集中将乘客搭乘手扶电梯时发生的行为标签划分为正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带7种行为，其它行为可以归为上述7类行为之中。

2)将行为骨架划分训练集和验证集，其中训练数据集包括5150个骨架，验证集为1966个骨架，大致比例为7：3，训练集中和验证集中各个行为之间的比例大致相同，即正常站立样本和各类异常样本的比例在训练集和验证集大致相同，且正常站立样本较多，这样可以保证验证集的结果尽量靠近现实情况，可以较好用来评估乘客行为分类模型。

3)搭建合适的图卷积神经网络(Graph Convolution Network，GCN)，用于乘客行为分类。下面首先介绍图卷积操作。

即对于V中任意一个节点v_i，

基于上面定义的图卷积操作，构建用于乘客行为识别的图卷积神经网络，网络结构如图4所示。

将乘客关键点坐标及其置信度使用人体骨骼连接成3通道的图，作为输入骨架。输入骨架在经过3次图卷积及Relu激活函数后，提取得到128个通道的深度图特征。然后对每个通道进行全局平均池化，再通过1×1卷积，将通道数降为7，最后通过Softmax层，回归7种乘客行为发生的概率。

4)将训练集随机抽取进行20000次迭代，每次迭代样本数为2000，使用Adam优化器，学习率为10^-3，正则化系数为10^-3，使用交叉熵损失函数。每迭代100次，对当前模型进行训练集上的准确率计算，若训练集准确率达到95％以上且比上一次保存模型的训练集准确率要高时，则保存当前模型。在训练结束后，将训练时保存的多个训练模型在验证集上进行验证，选择验证集上的最优模型作为最终模型。

a、关键点坐标缩放

对输入关键点的坐标进行随机放大和缩小，以模拟距离摄像头不同距离的乘客。

b、关键点坐标镜像翻转

对输入关键点坐标及其置信度进行随机水平翻转，进一步增加样本。

c、关键点坐标添加噪声

为输入为关键点坐标添加随机噪声，增加模型的抗干扰能力。

为了加快训练速度，当迭代次数超过总迭代次数的80％时，设置训练优化器为随机梯度下降法，学习率为10^-3，以更利于寻找最优点。训练完成标志为已达到设定的迭代次数或设置验证集实时检测模型训练情况，验证集准确率满足某个条件。训练完成后，将神经网络的结构和权重保存。

5)初始化算法所有参数，从摄像头获取图像，并用自上而下的关键点提取方法对图像进行人体关键点提取，即首先使用目标检测方法对摄像头采集到的图像进行行人检测，然后使用单人关键点提取方法对检测出来的行人进行关键点提取，得到行人的坐标以及置信度。然后使用平均骨架距离作为标准，并使用匈牙利匹配对相邻帧之间行人进行匹配，从而实现对手扶电梯上的乘客进行跟踪，得到每个乘客在不同帧的骨架坐标及其置信度。设检测出来的人体关键点为14个三维元素的序列{P¹,P²,…,P¹⁴}，其中

为第k个关键点的横坐标，

为第k个关键点的纵坐标，

为第k个关键点的置信度。

6)应用步骤4)保留的最佳模型来实现乘客行为识别。对于t时刻，将检测出来的人体骨架坐标及其置信度根据先验骨架知识连接成无向图，输入到上面的训练好的图神经网络中进行前向传播，并选取神经网络响应最大的行为作为单帧的乘客行为，设t时刻中第k个人的骨架在经过神经网络后决策出来的行为为B_t(k)。

7)对同一个乘客的行为序列，使用滑动窗统计的方法对其进行滤波，决策出最后的行为。在实际应用中由于存在光照、遮挡等干扰因素，个别帧骨架提取会存在噪声，导致行为分类错误，因此如果将B_t(k)作为最终决策的行为进行输出，识别率会大大降低。由于乘客在手扶电梯上的行为往往会持续一段时间(十余帧至百余帧不等，这段时间内，第k个乘客的行为决策结果B(k)中绝大部分为同一行为，但是有噪声)，因此使用滑动窗统计的方法，有效减少由骨架噪声引起的分类错误，进行最终的乘客行为决策。对于t时刻的每一个检测骨架，在完成乘客跟踪之后，都能在历史骨架中找到其对应的骨架序列H_k，同时也可以得到其行为序列B(k)。下文的滑动窗统计方法，则是对完成跟踪后的每个乘客的行为序列进行最终行为决策。

预先设定滑动窗长度为T，对于序列长度|B(k)|≥T的所有乘客，行为决策为：取其最近T次即(t-T,t]区间的行为进行投票分析，有正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带这7种行为，设票数为d₁～d₇，其中d₁+…+d₇＝T，如果最大票数大于设定阈值T_thres，T_thres＜T，则判断发生了该行为。设在时刻t，第k个乘客的行为为action_t(k)；设取最大值函数为max(·)，即取括号里面的最大值；设argmax(·)为求最大值位置的函数。则在时刻t，第k个乘客的行为为action_t(k)，可以用下式表示：

滑动窗投票的方法通过略微牺牲检测时间来大大提高实际应用中行为的分类的准确性，起到了低通滤波器的效果，可以滤除由个别帧中行为识别错误造成的高频噪声。对于T＝10，T_thres＝5时，取得最优效果。

经验证，图卷积神经网路在行为识别准确率达90％以上，而通过图卷积的分类结果进行滑动窗投票统计后，可以在稍微牺牲算法响应的同时，降低噪声干扰，最后的识别准确率得到进一步提升。这说明本发明方法对手扶电梯乘客的异常行为有良好的识别效果，在手扶电梯监控场景下上具有较强的稳定性，具有实际应用价值，值得推广。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于视频监控的手扶电梯乘客行为识别方法，其特征在于，包括以下步骤：

3)搭建合适的图卷积神经网络，用于乘客行为分类，其图卷积操作情况如下：

定义普通卷积，设整数的集合为Z，输入特征图为f_in，f_in所在的二维整数平面空间为Z²；设采样点位置x是在特征图f_in上的点，即x∈Z²；设卷积核大小为K×K，K∈Z,设输入通道数为c,c∈Z；设h,w为卷积核窗口的偏移量，h,w∈Zh,w∈[1,K]；设s:Z²×Z²→Z²为采样函数，即s根据采样点x∈Z²以及偏移量(h,w)∈Z²，能够映射到卷积核窗口中的平面空间Z²的某个位置，从而实现采样功能；设w:Z²→R^c为权重函数，将偏移量(h,w)，(h,w)∈Z²映射到一个用于计算卷积的c维向量，基于上面的定义，位置x的传统卷积的输出f_out(x)能够写成下式：

即对于V中任意一个节点v_i，

总能将节点映射到一个c维的实数R空间；设节点v_i的邻域为B(v_i)＝{v_j|d(v_j,v_i)≤1}，其中d(v_j,v_i)表示节点v_i与节点v_j的最短路径长度；设图卷积的采样函数为p:B(v_i)→V，p(v_i,v_j)＝v_j，即对于在节点v_i上的卷积时，采样函数p能定位到v_i的邻域节点，从而实现采样的功能；设权重函数为w:(v_i,v_j)→R^c，v_j∈B(v_i)，即对每个节点v_i以及其相邻的节点v_j，采样函数将其映射到一个c维的实数向量；由于邻域的节点数以及权重的顺序并不是固定的，为了将其固定，将邻域节点分为3个部分，即根节点、比根节点到人体重心近的节点、比根节点到人体重心近的节点，因此设r_i为节点i到人体重心的距离；设r_j为i的相邻节点j到人体重心的距离；设分类函数为l_i(v_j)，表示在对节点v_i进行卷积时，其相邻节点v_j所属的类别，具体定义如下：

其中，当r_j＝r_i时，将相邻节点v_j归为第0部分；当r_j＜r_i时，将相邻节点v_j归为第1部分；当r_j＞r_i时，将相邻节点v_j归为第2部分；

由于在对不同节点v_i进行卷积时，以上3个部分的每个部分所包含的邻域节点数是由骨架连接方式决定的，并不是固定不变的，因此需要对其进行归一化，设Z_i(v_j)＝|{v_k|l_i(v_k)＝l_i(v_j)}|为用来均衡不同部分邻域节点的权重；

基于上面定义的图卷积操作，构建用于乘客行为识别的图卷积神经网络；

将乘客骨架坐标及其置信度使用人体骨骼连接成3通道的图，作为输入骨架，输入骨架在经过3次图卷积及Relu激活函数后，提取得到128个通道的深度图特征，然后对每个通道进行全局平均池化，再通过1×1卷积，将通道数降为7，最后通过Softmax层，回归正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带这7种乘客行为发生的概率；

5)对手扶电梯场景的图像使用关键点提取方法进行人体关键点提取，并使用已有的行人跟踪方法对行人进行跟踪，得到每个乘客在不同帧的骨架坐标及其置信度；

6)应用步骤4)保留的最佳模型来实现乘客行为分类，将每一帧中的所有乘客的骨架及其置信度输入到训练好的最佳模型中进行分类；

2.根据权利要求1所述的一种基于视频监控的手扶电梯乘客行为识别方法，其特征在于：在步骤1)中，手扶电梯行为数据集中将乘客搭乘手扶电梯时发生的行为划分为正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带7种行为，其它行为归为上述7类行为之中。

3.根据权利要求1所述的一种基于视频监控的手扶电梯乘客行为识别方法，其特征在于，在步骤4)中，将训练集随机抽取进行20000次迭代，每次迭代样本数为2000，使用Adam优化器，学习率为10^-3，正则化系数为10^-3，使用交叉熵损失函数，每迭代100次，对当前模型进行训练集上的准确率计算，若训练集准确率达到95％以上且比上一次保存模型的训练集准确率要高时，则保存当前模型，在训练结束后，将训练时保存的多个训练模型在验证集上进行验证，选择验证集上的最优模型作为最终模型；

a、关键点坐标缩放

b、关键点坐标镜像翻转

c、关键点坐标添加噪声

4.根据权利要求1所述的一种基于视频监控的手扶电梯乘客行为识别方法，其特征在于，在步骤5)中，首先初始化算法所有参数，从摄像头获取图像，并用关键点提取方法对图像进行人体关键点提取，然后使用跟踪方法对手扶电梯上的乘客进行跟踪，得到每个乘客在不同帧的骨架坐标及其置信度，设人体关键点为14个三维元素的序列{P¹,P²,…,P¹⁴}，其中

为第k个关键点的横坐标，

为第k个关键点的纵坐标，

为第k个关键点的置信度。

5.根据权利要求1所述的一种基于视频监控的手扶电梯乘客行为识别方法，其特征在于，在步骤6)中，应用步骤4)保留的最佳模型来实现乘客行为识别，对于t时刻，将检测出来的骨架坐标及其置信度作为图，输入到训练好的神经网络中，并选取响应最大的行为作为输出，设t时刻中第k个人的骨架在经过神经网络后决策出来的行为为B_t(k)；

在实际应用中由于存在光照、遮挡这些干扰因素，个别帧骨架提取会存在噪声，导致行为分类错误，因此如果将B_t(k)作为最终决策的行为进行输出，识别率会降低，由于乘客在手扶电梯上的行为会持续一段时间，十余帧至百余帧，这段时间内，第k个乘客的行为决策结果B(k)中大部分为同一行为，但是有噪声，因此使用滑动窗统计的方法，能够减少由骨架噪声引起的分类错误，进行最终的乘客行为决策；对于k时刻的每一个检测骨架，在完成乘客跟踪之后，都能在历史骨架中找到其对应的骨架序列H_k，同时也能够得到其行为序列B(k)，最后使用滑动窗统计的方法，完成跟踪后的每个乘客的行为序列的最终行为决策；其中，预先设定滑动窗长度为T，对于序列长度|B(k)|≥T的所有乘客，行为决策为：取其最近T次即(t-T,t]区间的行为进行投票分析，有正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带这7种行为，设票数为d₁～d₇，其中d₁+…+d₇＝T，如果最大票数大于设定阈值T_thres，T_thres＜T，则判断发生了该行为；设在时刻t，第k个乘客的行为为action_t(k)；设取最大值函数为max(·)，即取括号里面的最大值；设argmax(·)为求最大值位置的函数，则在时刻t，第k个乘客的行为为action_t(k)，用下式表示：