CN111401144B - 一种基于视频监控的手扶电梯乘客行为识别方法 - Google Patents

一种基于视频监控的手扶电梯乘客行为识别方法 Download PDF

Info

Publication number
CN111401144B
CN111401144B CN202010118905.4A CN202010118905A CN111401144B CN 111401144 B CN111401144 B CN 111401144B CN 202010118905 A CN202010118905 A CN 202010118905A CN 111401144 B CN111401144 B CN 111401144B
Authority
CN
China
Prior art keywords
behavior
passenger
escalator
training
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010118905.4A
Other languages
English (en)
Other versions
CN111401144A (zh
Inventor
杜启亮
黄理广
田联房
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhuhai Institute of Modern Industrial Innovation of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202010118905.4A priority Critical patent/CN111401144B/zh
Publication of CN111401144A publication Critical patent/CN111401144A/zh
Application granted granted Critical
Publication of CN111401144B publication Critical patent/CN111401144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02BCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO BUILDINGS, e.g. HOUSING, HOUSE APPLIANCES OR RELATED END-USER APPLICATIONS
    • Y02B50/00Energy efficient technologies in elevators, escalators and moving walkways, e.g. energy saving or recuperation technologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Escalators And Moving Walkways (AREA)

Abstract

本发明公开了一种基于视频监控的手扶电梯乘客行为识别方法,包括步骤:1)使用关键点提取方法对手扶电梯行为数据集进行骨架提取,并打上标签;2)将提取的骨架划分训练集和验证集;3)搭建合适的图卷积神经网络;4)使用数据集对图卷积神经网络进行训练,并保存最佳的网络模型;5)对手扶电梯场景的图像使用关键点提取方法进行人体关键点提取,并使用行人跟踪方法对行人进行跟踪,得到每个乘客在不同帧的骨架坐标及其置信度;6)将每一帧中的所有乘客的骨架坐标及其置信度输入到训练好的最佳模型中进行行为分类;7)对同一个乘客的行为序列,使用滑动窗统计的方法对其进行滤波,决策出最后的行为。本发明可有效实现对手扶电梯监控视频的行为识别。

Description

一种基于视频监控的手扶电梯乘客行为识别方法
技术领域
本发明涉及手扶电梯视频监控和行为识别的技术领域,尤其是指一种基于视频监控的手扶电梯乘客行为识别方法。
背景技术
手扶电梯通常安装在城市人流量密集的重要场合,给市民出行带来便利。但由于乘客搭乘手扶电梯时安全防范意识不够,导致手扶电梯上的安全事故层出不穷。因此,通过对手扶电梯的监控视频进行算法分析,从而自动检测出乘客搭乘手扶电梯时的异常行为对加强城市安全建设有重要意义。随着计算机的计算性能逐渐提高和算法研究的日益成熟,深度学习给人们的生活带来了巨大变化,其中包括视频监控领域。因此,用深度学习算法对手扶电梯监控视频进行实时有效的处理并对乘客的行为进行识别,可以乘客提供安全保障,有重要的研究和商业价值。
一般来说,行人的动作可以通过多种模式识别出来,如行人表情、深度信息、光流信息以及人体骨架等。这些模式的提取方法主要包含了传统方法和深度学习方法。传统方法主要通过人工提取特征,包括人体骨架建模,光流法等。人体骨架建模通过行人轮廓计算人体重心以及各枝干顶点,并将重心和顶点构成的矢量作为特征向量来判断异常行为,但只能用于简单环境中;光流法识别行为主要步骤是使用光流特征来提取运动信息从而来定位感兴趣区域,然后使用方向梯度以及光流直方图来提取出运动特征,最后使用机器学习方法来对行为进行分类,但光流提取过程计算量较大,导致不能实时处理。而深度学习方法普遍使用循环神经网络、卷积神经网络等,卷积神经网络一般用来提取行人的行为特征,然后最后对行人的行为特征进行分类,循环神经网络用于识别行为多考虑了时间维度上的信息,可以对序列进行分类,但是这些方法都没有利用人体骨架的拓扑结构,分类准确率往往不高。
综上所述,发明一种快速且鲁棒性高的手扶电梯乘客行为识别方法具有较高的科学研究和实际应用价值。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于视频监控的手扶电梯乘客行为识别方法,该方法将人体关键点作为行为识别的主要依据,将人体骨架坐标以及其置信度输入到训练好的图卷积神经网络进行行为分类,并对连续多帧的行为进行滑动窗统计,来大大提高异常行为检测的速度及适用性。
为实现上述目的,本发明所提供的技术方案为:一种基于视频监控的手扶电梯乘客行为识别方法,包括以下步骤:
1)使用关键点提取方法对手扶电梯行为数据集进行骨架提取,并打上标签;
2)将提取出来的骨架划分训练集和验证集,其中训练集用来训练网络模型,验证集用来进行模型择优;
3)搭建合适的图卷积神经网络,用于乘客行为分类;
4)使用数据集对图卷积神经网络进行训练,并保存最佳的网络模型;
5)对手扶电梯场景的图像使用关键点提取方法进行人体关键点提取,并使用已有的行人跟踪方法(如卡尔曼滤波、粒子滤波等)对行人进行跟踪,得到每个乘客在不同帧的骨架坐标及其置信度;
6)应用步骤4)保留的最佳模型来实现乘客行为分类,将每一帧中的所有乘客的骨架坐标及其置信度输入到训练好的最佳模型中进行分类;
7)对同一个乘客的行为序列,使用滑动窗统计的方法对其进行滤波,决策出最后的行为,实现对手扶电梯监控视频的行为识别。
在步骤1)中,手扶电梯行为数据集中将乘客搭乘手扶电梯时发生的行为划分为正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带7种行为,其它行为归为上述7类行为之中。
在步骤3)中,搭建合适的图卷积神经网络用于乘客行为分类,图卷积的定义基于普通卷积。定义如下:
首先定义普通卷积,设整数的集合为Z,输入特征图为fin,fin所在的二维整数平面空间为Z2;设采样点位置x是在特征图fin上的点,即x∈Z2;设卷积核大小为K×K,K∈Z,设输入通道数为c,c∈Z;设h,w为卷积核窗口的偏移量,h,w∈Z h,w∈[1,K];设s:Z2×Z2→Z2为采样函数,即s根据采样点x∈Z2以及偏移量(h,w)∈Z2,可以映射到卷积核窗口中的平面空间Z2的某个位置,从而实现采样功能;设w:Z2→Rc为权重函数,将偏移量(h,w),(h,w)∈Z2映射到一个用于计算卷积的c维向量。基于上面的定义,位置x的传统卷积的输出fout(x)可以写成下式:
Figure BDA0002392336930000031
图卷积操作的定义在上式基础之上,设人体关键点按照骨骼结构连接成一个空间图V;设特征图映射函数为
Figure BDA0002392336930000032
即对于V中任意一个节点vi
Figure BDA0002392336930000033
总能将节点映射到一个c维的实数R空间;设节点vi的邻域为B(vi)={vj|d(vj,vi)≤1},其中d(vj,vi)表示节点vi与节点vj的最短路径长度;设图卷积的采样函数为p:B(vi)→V,p(vi,vj)=vj,即对于在节点vi上的卷积时,采样函数p能定位到vi的邻域节点,从而实现采样的功能;设权重函数为w:(vi,vj)→Rc,vj∈B(vi),即对每个节点vi以及其相邻的节点vj,采样函数将其映射到一个c维的实数向量。由于邻域的节点数以及权重的顺序并不是固定的,为了将其固定,将邻域节点分为3个部分,即根节点、比根节点到人体重心近的节点、比根节点到人体重心近的节点,因此设ri为节点i到人体重心的距离;设rj为i的相邻节点j到人体重心的距离;设分类函数为li(vj),表示在对节点vi进行卷积时,其相邻节点vj所属的类别,具体定义如下:
Figure BDA0002392336930000041
其中,当rj=ri时,将相邻节点vj归为第0部分;当rj<ri时,将相邻节点vj归为第1部分;当rj>ri时,将相邻节点vj归为第2部分。
由于在对不同节点vi进行卷积时,以上3个部分的每个部分所包含的邻域节点数是由骨架连接方式决定的,并不是固定不变的,因此需要对其进行归一化。设Zi(vj)=|{vk|li(vk)=li(vj)}|为用来均衡不同部分邻域节点的权重。
基于上面的假设,对节点vi进行图卷积后,输出的单个通道响应fout(vi)如下:
Figure BDA0002392336930000042
基于上面定义的图卷积操作,构建用于乘客行为识别的图卷积神经网络。
将乘客骨架坐标及其置信度使用人体骨骼连接成3通道的图,作为输入骨架,输入骨架在经过3次图卷积及Relu激活函数后,提取得到128个通道的深度图特征,然后对每个通道进行全局平均池化,再通过1×1卷积,将通道数降为7,最后通过Softmax层,回归正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带这7种乘客行为发生的概率。
在步骤4)中,将训练集随机抽取进行20000次迭代,每次迭代样本数为2000,使用Adam优化器,学习率为10-3,正则化系数为10-3,使用交叉熵损失函数。每迭代100次,对当前模型进行训练集上的准确率计算,若训练集准确率达到95%以上且比上一次保存模型的训练集准确率要高时,则保存当前模型。在训练结束后,将训练时保存的多个训练模型在验证集上进行验证,选择验证集上的最优模型作为最终模型;
为增大网络训练数据量及适用性,需要使用数据增强方法对原始输入关键点坐标进行数据增强,包括:
a、关键点坐标缩放
对输入关键点的坐标进行随机放大和缩小,以模拟距离摄像头不同距离的乘客;
b、关键点坐标镜像翻转
对输入关键点坐标及其置信度进行随机水平翻转,进一步增加样本;
c、关键点坐标添加噪声
为输入的关键点坐标添加随机噪声,增加模型的抗干扰能力;
为了加快训练速度,设置初始训练优化器为Adam、学习率为10-3,当迭代次数超过总迭代次数的80%时,设置训练优化器为随机梯度下降法,学习率为10-3,以更利于寻找最优点,训练完成标志为已达到设定的迭代次数或设置验证集实时检测模型训练情况,验证集准确率满足某个条件,训练完成后,将神经网络的结构和权重保存。
在步骤5)中,首先初始化算法所有参数,从摄像头获取图像,并用关键点提取方法对图像进行人体关键点提取,然后使用跟踪方法对手扶电梯上的乘客进行跟踪,得到每个乘客在不同帧的骨架坐标及其置信度,设人体关键点为14个三维元素的序列{P1,P2,…,P14},其中
Figure BDA0002392336930000051
Figure BDA0002392336930000052
为第k个关键点的横坐标,
Figure BDA0002392336930000053
为第k个关键点的纵坐标,
Figure BDA0002392336930000054
为第k个关键点的置信度。
在步骤6)中,应用步骤4)保留的最佳模型来实现乘客行为识别,对于t时刻,将检测出来的骨架坐标及其置信度作为图,输入到训练好的神经网络中,并选取响应最大的行为作为输出,设t时刻中第k个人的骨架在经过神经网络后决策出来的行为为Bt(k);
在步骤7)中,对同一个乘客的行为序列,使用滑动窗统计的方法对其进行滤波,决策出最后的行为,其具体如下:
在实际应用中由于存在光照、遮挡这些干扰因素,个别帧骨架提取会存在噪声,导致行为分类错误,因此如果将Bt(k)作为最终决策的行为进行输出,识别率会降低,由于乘客在手扶电梯上的行为会持续一段时间,十余帧至百余帧,这段时间内,第k个乘客的行为决策结果B(k)中大部分为同一行为,但是有噪声,因此使用滑动窗统计的方法,能够减少由骨架噪声引起的分类错误,进行最终的乘客行为决策;对于k时刻的每一个检测骨架,在完成乘客跟踪之后,都能在历史骨架中找到其对应的骨架序列Hk,同时也能够得到其行为序列B(k),最后使用滑动窗统计的方法,完成跟踪后的每个乘客的行为序列的最终行为决策;其中,预先设定滑动窗长度为T,对于序列长度|B(k)|≥T的所有乘客,行为决策为:取其最近T次即(t-T,t]区间的行为进行投票分析,有正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带这7种行为,设票数为d1~d7,其中d1+…+d7=T,如果最大票数大于设定阈值Tthres,Tthres<T,则判断发生了该行为。设在时刻t,第k个乘客的行为为actiont(k);设取最大值函数为max(·),即取括号里面的最大值;设argmax(·)为求最大值位置的函数。则在时刻t,第k个乘客的行为为actiont(k),可以用下式表示:
Figure BDA0002392336930000061
滑动窗投票的方法通过牺牲一些检测时间来提高实际应用中行为分类的准确性,起到了低通滤波器的效果,能够滤除由个别帧中行为识别错误造成的高频噪声。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明利用了人体骨架的拓扑图结构作为神经网络的输入,比起传统的先验知识方法,动作识别的分类准确率更高。
2、本发明的神经网络比较简单,因此前向推理速度较快,可以对动作进行实时识别。
3、使用了滑动窗投票的方法对神经网络的结果进行平均过滤,滤除由个别帧中行为识别错误造成的高频噪声,进一步提高了算法的鲁棒性。
附图说明
图1为本发明方法的流程图。
图2为图卷积神经网络训练流程图。
图3为图卷积神经网络采样示意图。
图4为图卷积神经网络结构图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1至图4所示,本实施例所提供的基于视频监控的手扶电梯乘客行为识别方法,其具体情况如下:
1)使用从上到下的关键点提取方法对手扶电梯乘客行为数据集进行关键点提取,即:首先使用目标检测的方法对手扶电梯乘客进行检测,然后再使用单人关键点提取方法对检测出来的乘客进行单人关键点提取。提取出来的关键点共有14个,包括头、颈、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝盖、右膝盖、左脚踝、右脚踝。人体骨架由关键点和相连骨骼组成,将人体骨架坐标、置信度及其行为标签作为数据集,其中数据集中将乘客搭乘手扶电梯时发生的行为标签划分为正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带7种行为,其它行为可以归为上述7类行为之中。
2)将行为骨架划分训练集和验证集,其中训练数据集包括5150个骨架,验证集为1966个骨架,大致比例为7:3,训练集中和验证集中各个行为之间的比例大致相同,即正常站立样本和各类异常样本的比例在训练集和验证集大致相同,且正常站立样本较多,这样可以保证验证集的结果尽量靠近现实情况,可以较好用来评估乘客行为分类模型。
3)搭建合适的图卷积神经网络(Graph Convolution Network,GCN),用于乘客行为分类。下面首先介绍图卷积操作。
首先定义普通卷积,设整数的集合为Z,输入特征图为fin,fin所在的二维整数平面空间为Z2;设采样点位置x是在特征图fin上的点,即x∈Z2;设卷积核大小为K×K,K∈Z,设输入通道数为c,c∈Z;设h,w为卷积核窗口的偏移量,h,w∈Z h,w∈[1,K];设s:Z2×Z2→Z2为采样函数,即s根据采样点x∈Z2以及偏移量(h,w)∈Z2,可以映射到卷积核窗口中的平面空间Z2的某个位置,从而实现采样功能;设w:Z2→Rc为权重函数,将偏移量(h,w),(h,w)∈Z2映射到一个用于计算卷积的c维向量。基于上面的定义,位置x的传统卷积的输出fout(x)可以写成下式:
Figure BDA0002392336930000081
图卷积操作的定义在上式基础之上,设人体关键点按照骨骼结构连接成一个空间图V;设特征图映射函数为
Figure BDA0002392336930000082
即对于V中任意一个节点vi
Figure BDA0002392336930000083
总能将节点映射到一个c维的实数R空间;设节点vi的邻域为B(vi)={vj|d(vj,vi)≤1},其中d(vj,vi)表示节点vi与节点vj的最短路径长度;设图卷积的采样函数为p:B(vi)→V,p(vi,vj)=vj,即对于在节点vi上的卷积时,采样函数p能定位到vi的邻域节点,从而实现采样的功能;设权重函数为w:(vi,vj)→Rc,vj∈B(vi),即对每个节点vi以及其相邻的节点vj,采样函数将其映射到一个c维的实数向量。由于邻域的节点数以及权重的顺序并不是固定的,为了将其固定,将邻域节点分为3个部分,即根节点、比根节点到人体重心近的节点、比根节点到人体重心近的节点,因此设ri为节点i到人体重心的距离;设rj为i的相邻节点j到人体重心的距离;设分类函数为li(vj),表示在对节点vi进行卷积时,其相邻节点vj所属的类别,具体定义如下:
Figure BDA0002392336930000091
其中,当rj=ri时,将相邻节点vj归为第0部分;当rj<ri时,将相邻节点vj归为第1部分;当rj>ri时,将相邻节点vj归为第2部分。
由于在对不同节点vi进行卷积时,以上3个部分的每个部分所包含的邻域节点数是由骨架连接方式决定的,并不是固定不变的,因此需要对其进行归一化。设Zi(vj)=|{vk|li(vk)=li(vj)}|为用来均衡不同部分邻域节点的权重。
基于上面的假设,对节点vi进行图卷积后,输出的单个通道响应fout(vi)如下:
Figure BDA0002392336930000092
基于上面定义的图卷积操作,构建用于乘客行为识别的图卷积神经网络,网络结构如图4所示。
将乘客关键点坐标及其置信度使用人体骨骼连接成3通道的图,作为输入骨架。输入骨架在经过3次图卷积及Relu激活函数后,提取得到128个通道的深度图特征。然后对每个通道进行全局平均池化,再通过1×1卷积,将通道数降为7,最后通过Softmax层,回归7种乘客行为发生的概率。
4)将训练集随机抽取进行20000次迭代,每次迭代样本数为2000,使用Adam优化器,学习率为10-3,正则化系数为10-3,使用交叉熵损失函数。每迭代100次,对当前模型进行训练集上的准确率计算,若训练集准确率达到95%以上且比上一次保存模型的训练集准确率要高时,则保存当前模型。在训练结束后,将训练时保存的多个训练模型在验证集上进行验证,选择验证集上的最优模型作为最终模型。
为增大网络训练数据量及适用性,需要使用数据增强方法对原始输入关键点坐标进行数据增强,包括:
a、关键点坐标缩放
对输入关键点的坐标进行随机放大和缩小,以模拟距离摄像头不同距离的乘客。
b、关键点坐标镜像翻转
对输入关键点坐标及其置信度进行随机水平翻转,进一步增加样本。
c、关键点坐标添加噪声
为输入为关键点坐标添加随机噪声,增加模型的抗干扰能力。
为了加快训练速度,当迭代次数超过总迭代次数的80%时,设置训练优化器为随机梯度下降法,学习率为10-3,以更利于寻找最优点。训练完成标志为已达到设定的迭代次数或设置验证集实时检测模型训练情况,验证集准确率满足某个条件。训练完成后,将神经网络的结构和权重保存。
5)初始化算法所有参数,从摄像头获取图像,并用自上而下的关键点提取方法对图像进行人体关键点提取,即首先使用目标检测方法对摄像头采集到的图像进行行人检测,然后使用单人关键点提取方法对检测出来的行人进行关键点提取,得到行人的坐标以及置信度。然后使用平均骨架距离作为标准,并使用匈牙利匹配对相邻帧之间行人进行匹配,从而实现对手扶电梯上的乘客进行跟踪,得到每个乘客在不同帧的骨架坐标及其置信度。设检测出来的人体关键点为14个三维元素的序列{P1,P2,…,P14},其中
Figure BDA0002392336930000111
Figure BDA0002392336930000112
为第k个关键点的横坐标,
Figure BDA0002392336930000113
为第k个关键点的纵坐标,
Figure BDA0002392336930000114
为第k个关键点的置信度。
6)应用步骤4)保留的最佳模型来实现乘客行为识别。对于t时刻,将检测出来的人体骨架坐标及其置信度根据先验骨架知识连接成无向图,输入到上面的训练好的图神经网络中进行前向传播,并选取神经网络响应最大的行为作为单帧的乘客行为,设t时刻中第k个人的骨架在经过神经网络后决策出来的行为为Bt(k)。
7)对同一个乘客的行为序列,使用滑动窗统计的方法对其进行滤波,决策出最后的行为。在实际应用中由于存在光照、遮挡等干扰因素,个别帧骨架提取会存在噪声,导致行为分类错误,因此如果将Bt(k)作为最终决策的行为进行输出,识别率会大大降低。由于乘客在手扶电梯上的行为往往会持续一段时间(十余帧至百余帧不等,这段时间内,第k个乘客的行为决策结果B(k)中绝大部分为同一行为,但是有噪声),因此使用滑动窗统计的方法,有效减少由骨架噪声引起的分类错误,进行最终的乘客行为决策。对于t时刻的每一个检测骨架,在完成乘客跟踪之后,都能在历史骨架中找到其对应的骨架序列Hk,同时也可以得到其行为序列B(k)。下文的滑动窗统计方法,则是对完成跟踪后的每个乘客的行为序列进行最终行为决策。
预先设定滑动窗长度为T,对于序列长度|B(k)|≥T的所有乘客,行为决策为:取其最近T次即(t-T,t]区间的行为进行投票分析,有正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带这7种行为,设票数为d1~d7,其中d1+…+d7=T,如果最大票数大于设定阈值Tthres,Tthres<T,则判断发生了该行为。设在时刻t,第k个乘客的行为为actiont(k);设取最大值函数为max(·),即取括号里面的最大值;设argmax(·)为求最大值位置的函数。则在时刻t,第k个乘客的行为为actiont(k),可以用下式表示:
Figure BDA0002392336930000121
滑动窗投票的方法通过略微牺牲检测时间来大大提高实际应用中行为的分类的准确性,起到了低通滤波器的效果,可以滤除由个别帧中行为识别错误造成的高频噪声。对于T=10,Tthres=5时,取得最优效果。
经验证,图卷积神经网路在行为识别准确率达90%以上,而通过图卷积的分类结果进行滑动窗投票统计后,可以在稍微牺牲算法响应的同时,降低噪声干扰,最后的识别准确率得到进一步提升。这说明本发明方法对手扶电梯乘客的异常行为有良好的识别效果,在手扶电梯监控场景下上具有较强的稳定性,具有实际应用价值,值得推广。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (5)

1.一种基于视频监控的手扶电梯乘客行为识别方法,其特征在于,包括以下步骤:
1)使用关键点提取方法对手扶电梯行为数据集进行骨架提取,并打上标签;
2)将提取出来的骨架划分训练集和验证集,其中训练集用来训练网络模型,验证集用来进行模型择优;
3)搭建合适的图卷积神经网络,用于乘客行为分类,其图卷积操作情况如下:
定义普通卷积,设整数的集合为Z,输入特征图为fin,fin所在的二维整数平面空间为Z2;设采样点位置x是在特征图fin上的点,即x∈Z2;设卷积核大小为K×K,K∈Z,设输入通道数为c,c∈Z;设h,w为卷积核窗口的偏移量,h,w∈Zh,w∈[1,K];设s:Z2×Z2→Z2为采样函数,即s根据采样点x∈Z2以及偏移量(h,w)∈Z2,能够映射到卷积核窗口中的平面空间Z2的某个位置,从而实现采样功能;设w:Z2→Rc为权重函数,将偏移量(h,w),(h,w)∈Z2映射到一个用于计算卷积的c维向量,基于上面的定义,位置x的传统卷积的输出fout(x)能够写成下式:
Figure FDA0004048161880000011
图卷积操作的定义在上式基础之上,设人体关键点按照骨骼结构连接成一个空间图V;设特征图映射函数为
Figure FDA0004048161880000012
即对于V中任意一个节点vi
Figure FDA0004048161880000013
总能将节点映射到一个c维的实数R空间;设节点vi的邻域为B(vi)={vj|d(vj,vi)≤1},其中d(vj,vi)表示节点vi与节点vj的最短路径长度;设图卷积的采样函数为p:B(vi)→V,p(vi,vj)=vj,即对于在节点vi上的卷积时,采样函数p能定位到vi的邻域节点,从而实现采样的功能;设权重函数为w:(vi,vj)→Rc,vj∈B(vi),即对每个节点vi以及其相邻的节点vj,采样函数将其映射到一个c维的实数向量;由于邻域的节点数以及权重的顺序并不是固定的,为了将其固定,将邻域节点分为3个部分,即根节点、比根节点到人体重心近的节点、比根节点到人体重心近的节点,因此设ri为节点i到人体重心的距离;设rj为i的相邻节点j到人体重心的距离;设分类函数为li(vj),表示在对节点vi进行卷积时,其相邻节点vj所属的类别,具体定义如下:
Figure FDA0004048161880000021
其中,当rj=ri时,将相邻节点vj归为第0部分;当rj<ri时,将相邻节点vj归为第1部分;当rj>ri时,将相邻节点vj归为第2部分;
由于在对不同节点vi进行卷积时,以上3个部分的每个部分所包含的邻域节点数是由骨架连接方式决定的,并不是固定不变的,因此需要对其进行归一化,设Zi(vj)=|{vk|li(vk)=li(vj)}|为用来均衡不同部分邻域节点的权重;
基于上面的假设,对节点vi进行图卷积后,输出的单个通道响应fout(vi)如下:
Figure FDA0004048161880000022
基于上面定义的图卷积操作,构建用于乘客行为识别的图卷积神经网络;
将乘客骨架坐标及其置信度使用人体骨骼连接成3通道的图,作为输入骨架,输入骨架在经过3次图卷积及Relu激活函数后,提取得到128个通道的深度图特征,然后对每个通道进行全局平均池化,再通过1×1卷积,将通道数降为7,最后通过Softmax层,回归正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带这7种乘客行为发生的概率;
4)使用数据集对图卷积神经网络进行训练,并保存最佳的网络模型;
5)对手扶电梯场景的图像使用关键点提取方法进行人体关键点提取,并使用已有的行人跟踪方法对行人进行跟踪,得到每个乘客在不同帧的骨架坐标及其置信度;
6)应用步骤4)保留的最佳模型来实现乘客行为分类,将每一帧中的所有乘客的骨架及其置信度输入到训练好的最佳模型中进行分类;
7)对同一个乘客的行为序列,使用滑动窗统计的方法对其进行滤波,决策出最后的行为,实现对手扶电梯监控视频的行为识别。
2.根据权利要求1所述的一种基于视频监控的手扶电梯乘客行为识别方法,其特征在于:在步骤1)中,手扶电梯行为数据集中将乘客搭乘手扶电梯时发生的行为划分为正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带7种行为,其它行为归为上述7类行为之中。
3.根据权利要求1所述的一种基于视频监控的手扶电梯乘客行为识别方法,其特征在于,在步骤4)中,将训练集随机抽取进行20000次迭代,每次迭代样本数为2000,使用Adam优化器,学习率为10-3,正则化系数为10-3,使用交叉熵损失函数,每迭代100次,对当前模型进行训练集上的准确率计算,若训练集准确率达到95%以上且比上一次保存模型的训练集准确率要高时,则保存当前模型,在训练结束后,将训练时保存的多个训练模型在验证集上进行验证,选择验证集上的最优模型作为最终模型;
为增大网络训练数据量及适用性,需要使用数据增强方法对原始输入关键点坐标进行数据增强,包括:
a、关键点坐标缩放
对输入关键点的坐标进行随机放大和缩小,以模拟距离摄像头不同距离的乘客;
b、关键点坐标镜像翻转
对输入关键点坐标及其置信度进行随机水平翻转,进一步增加样本;
c、关键点坐标添加噪声
为输入的关键点坐标添加随机噪声,增加模型的抗干扰能力;
为了加快训练速度,设置初始训练优化器为Adam、学习率为10-3,当迭代次数超过总迭代次数的80%时,设置训练优化器为随机梯度下降法,学习率为10-3,以更利于寻找最优点,训练完成标志为已达到设定的迭代次数或设置验证集实时检测模型训练情况,验证集准确率满足某个条件,训练完成后,将神经网络的结构和权重保存。
4.根据权利要求1所述的一种基于视频监控的手扶电梯乘客行为识别方法,其特征在于,在步骤5)中,首先初始化算法所有参数,从摄像头获取图像,并用关键点提取方法对图像进行人体关键点提取,然后使用跟踪方法对手扶电梯上的乘客进行跟踪,得到每个乘客在不同帧的骨架坐标及其置信度,设人体关键点为14个三维元素的序列{P1,P2,…,P14},其中
Figure FDA0004048161880000041
Figure FDA0004048161880000042
为第k个关键点的横坐标,
Figure FDA0004048161880000043
为第k个关键点的纵坐标,
Figure FDA0004048161880000044
为第k个关键点的置信度。
5.根据权利要求1所述的一种基于视频监控的手扶电梯乘客行为识别方法,其特征在于,在步骤6)中,应用步骤4)保留的最佳模型来实现乘客行为识别,对于t时刻,将检测出来的骨架坐标及其置信度作为图,输入到训练好的神经网络中,并选取响应最大的行为作为输出,设t时刻中第k个人的骨架在经过神经网络后决策出来的行为为Bt(k);
在步骤7)中,对同一个乘客的行为序列,使用滑动窗统计的方法对其进行滤波,决策出最后的行为,其具体如下:
在实际应用中由于存在光照、遮挡这些干扰因素,个别帧骨架提取会存在噪声,导致行为分类错误,因此如果将Bt(k)作为最终决策的行为进行输出,识别率会降低,由于乘客在手扶电梯上的行为会持续一段时间,十余帧至百余帧,这段时间内,第k个乘客的行为决策结果B(k)中大部分为同一行为,但是有噪声,因此使用滑动窗统计的方法,能够减少由骨架噪声引起的分类错误,进行最终的乘客行为决策;对于k时刻的每一个检测骨架,在完成乘客跟踪之后,都能在历史骨架中找到其对应的骨架序列Hk,同时也能够得到其行为序列B(k),最后使用滑动窗统计的方法,完成跟踪后的每个乘客的行为序列的最终行为决策;其中,预先设定滑动窗长度为T,对于序列长度|B(k)|≥T的所有乘客,行为决策为:取其最近T次即(t-T,t]区间的行为进行投票分析,有正常站立、向前摔倒、向后摔倒、攀爬扶手带、向手扶电梯外伸头、向手扶电梯外伸手、背靠扶手带这7种行为,设票数为d1~d7,其中d1+…+d7=T,如果最大票数大于设定阈值Tthres,Tthres<T,则判断发生了该行为;设在时刻t,第k个乘客的行为为actiont(k);设取最大值函数为max(·),即取括号里面的最大值;设argmax(·)为求最大值位置的函数,则在时刻t,第k个乘客的行为为actiont(k),用下式表示:
Figure FDA0004048161880000051
滑动窗投票的方法通过牺牲一些检测时间来提高实际应用中行为分类的准确性,起到了低通滤波器的效果,能够滤除由个别帧中行为识别错误造成的高频噪声。
CN202010118905.4A 2020-02-26 2020-02-26 一种基于视频监控的手扶电梯乘客行为识别方法 Active CN111401144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010118905.4A CN111401144B (zh) 2020-02-26 2020-02-26 一种基于视频监控的手扶电梯乘客行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010118905.4A CN111401144B (zh) 2020-02-26 2020-02-26 一种基于视频监控的手扶电梯乘客行为识别方法

Publications (2)

Publication Number Publication Date
CN111401144A CN111401144A (zh) 2020-07-10
CN111401144B true CN111401144B (zh) 2023-04-07

Family

ID=71435942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010118905.4A Active CN111401144B (zh) 2020-02-26 2020-02-26 一种基于视频监控的手扶电梯乘客行为识别方法

Country Status (1)

Country Link
CN (1) CN111401144B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881854A (zh) * 2020-07-31 2020-11-03 上海商汤临港智能科技有限公司 动作识别方法、装置、计算机设备及存储介质
CN112084867A (zh) * 2020-08-10 2020-12-15 国信智能系统(广东)有限公司 一种基于人体骨架点距离的行人定位跟踪方法
CN112200107A (zh) * 2020-10-16 2021-01-08 深圳市华付信息技术有限公司 一种发票文本检测方法
CN112381004B (zh) * 2020-11-17 2023-08-08 华南理工大学 一种基于骨架的双流自适应图卷积网络行为识别方法
CN113076683B (zh) * 2020-12-08 2023-08-08 国网辽宁省电力有限公司锦州供电公司 用于变电站行为监测的卷积神经网络模型的建模方法
CN112560649A (zh) * 2020-12-09 2021-03-26 广州云从鼎望科技有限公司 一种行为动作检测方法、系统、设备及介质
CN113111756B (zh) * 2021-04-02 2024-05-03 浙江工业大学 基于人体骨架关键点和长短期记忆人工神经网络的人体摔倒识别方法
CN113158888A (zh) * 2021-04-19 2021-07-23 广州咔隆安防科技有限公司 一种电梯异常视频识别方法
CN113269111B (zh) * 2021-06-03 2024-04-05 昆山杜克大学 一种基于视频监控的电梯异常行为检测方法及系统
CN114581843B (zh) * 2022-02-22 2024-04-26 华南理工大学 一种基于深度学习的扶梯乘客危险行为识别方法
CN116721390B (zh) * 2023-08-09 2023-10-27 克伦斯(天津)轨道交通技术有限公司 基于数据处理的地铁列车乘客状态确定方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460702A (zh) * 2018-09-14 2019-03-12 华南理工大学 基于人体骨架序列的乘客异常行为识别方法
CN109522793A (zh) * 2018-10-10 2019-03-26 华南理工大学 基于机器视觉的多人异常行为检测与识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460702A (zh) * 2018-09-14 2019-03-12 华南理工大学 基于人体骨架序列的乘客异常行为识别方法
CN109522793A (zh) * 2018-10-10 2019-03-26 华南理工大学 基于机器视觉的多人异常行为检测与识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于人体骨架序列的手扶电梯乘客异常行为识别;杜启亮 等;《华南理工大学学报(自然科学版)》;第47卷(第4期);第1-2页 *

Also Published As

Publication number Publication date
CN111401144A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401144B (zh) 一种基于视频监控的手扶电梯乘客行为识别方法
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN110348376B (zh) 一种基于神经网络的行人实时检测方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110555368B (zh) 基于三维卷积神经网络的跌倒行为识别方法
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
CN111460914B (zh) 一种基于全局和局部细粒度特征的行人重识别方法
Elmezain et al. Real-time capable system for hand gesture recognition using hidden markov models in stereo color image sequences
CN107273905B (zh) 一种结合运动信息的目标主动轮廓跟踪方法
CN111709300B (zh) 基于视频图像的人群计数方法
CN109902564B (zh) 一种基于结构相似性稀疏自编码网络的异常事件检测方法
CN108615226A (zh) 一种基于生成式对抗网络的图像去雾方法
CN111783576A (zh) 基于改进型YOLOv3网络和特征融合的行人重识别方法
CN109902565B (zh) 多特征融合的人体行为识别方法
CN110532850B (zh) 一种基于视频关节点和混合分类器的跌倒检测方法
CN110717863B (zh) 一种基于生成对抗网络的单图像去雪方法
CN113705583B (zh) 一种基于卷积神经网络模型的目标检测识别方法
CN112287906B (zh) 一种基于深度特征融合的模板匹配跟踪方法及系统
CN111723687A (zh) 基于神经网路的人体动作识别方法和装置
CN110880010A (zh) 基于卷积神经网络的视觉slam闭环检测算法
CN106845456A (zh) 一种视频监控系统中人体摔倒监测的方法
CN111539422A (zh) 基于Faster RCNN的飞行目标协同识别方法
CN111353385B (zh) 一种基于掩膜对齐与注意力机制的行人再识别方法和装置
CN110414430B (zh) 一种基于多比例融合的行人重识别方法及装置
CN114038011A (zh) 一种室内场景下人体异常行为的检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant