CN109284682A - 一种基于stt-lstm网络的手势识别方法及系统 - Google Patents

一种基于stt-lstm网络的手势识别方法及系统 Download PDF

Info

Publication number
CN109284682A
CN109284682A CN201810952141.1A CN201810952141A CN109284682A CN 109284682 A CN109284682 A CN 109284682A CN 201810952141 A CN201810952141 A CN 201810952141A CN 109284682 A CN109284682 A CN 109284682A
Authority
CN
China
Prior art keywords
lstm
stt
lstm network
artis
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810952141.1A
Other languages
English (en)
Other versions
CN109284682B (zh
Inventor
李晓飞
汪长江
吴聪
柴磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810952141.1A priority Critical patent/CN109284682B/zh
Publication of CN109284682A publication Critical patent/CN109284682A/zh
Application granted granted Critical
Publication of CN109284682B publication Critical patent/CN109284682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于STT‑LSTM网络的手势识别方法,构建STT‑LSTM网络模型,该模型含有两层STT‑LSTM网络;将RGB特征和光流特征分别传进第一层STT‑LSTM网络中,在第一层STT‑LSTM网络的训练过程中,进行初始化全局上下文信息,并将初始化的全局上下文信息传入到第二层STT‑LSTM网络,在第二层STT‑LSTM网络中不断的进行迭代更新,逐步完善上下文信息,将第二层STT‑LSTM网络最终输出的关节点进行重组,形成含手势动作信息的节点管道,并作为多分类器预测交警手势的分类标签。本发明方法可准确识别手势指挥动作,能够有效地保证交通的畅通与安全性,降低事故发生几率。

Description

一种基于STT-LSTM网络的手势识别方法及系统
技术领域
本发明涉及图像与视频分析技术领域,具体涉及一种基于STT-LSTM网络的手势识别方法及系统。
背景技术
随着我国汽车行业的迅速发展,交通拥堵和交通安全问题也随之而来。交通警察在交通行业的重要性也越来越大,其主要职责是维护交通秩序,处理交通事故,查纠道路交通违法行为,负责机动车的登记管理等。而交警手势就是交通警察保证交通运输的畅通与安全的一个重要工具。
在机动车行驶时经常会遇到如下问题:首先,接近60%的司机不能完全识别交警的指挥手势含义,造成交警指挥效率降低,行车安全无法保证;其次,在雨雪天气或夜间行车时,能见度低,交警手势难以识别;再有,交通管制路段车流量很大时由于车辆阻挡,交警手势指挥距离有限。
针对上述问题,继续研究一种辅助手段来对交警执法的手势指挥动作进行识别,并在车载或佩戴式显示屏上清晰显示出来。这样司机就可以获得明确的指挥信息,并及时做出反应,降低事故发生几率。
发明内容
本发明的目的在于克服现有技术中的不足,提出了一种基于STT-LSTM网络的手势识别方法及系统,准确识别手势指挥动作,能够有效地保证交通的畅通与安全性,降低事故发生几率。
为解决上述技术问题,本发明提供了一种基于STT-LSTM网络的手势识别方法,其特征是,包括以下步骤:
步骤S1,构建STT-LSTM网络模型,该模型含有两层STT-LSTM网络,每层STT-LSTM网络包含有两个LSTM网络和一个全连接层;
步骤S2,获取交警手势骨架视频,提取视频所有帧中关节点的RGB特征和光流特征;
步骤S3,将RGB特征和光流特征分别传进第一层STT-LSTM网络中的两个LSTM网络,分别训练两个LSTM网络并将其输出分别输入到全连接层进行融合,获得初始化聚焦包含交警动作信息的关节点和初始化全局上下文信息;
步骤S4,将初始化的聚焦包含交警动作信息的关节点和由全局上下文信息计算得出的信息门分别传入第二层STT-LSTM网络中两个LSTM网络,训练两个LSTM网络并将其输出输入全连接层进行融合,融合后获得的关节点和全局上下文信息循环输入第二层STT-LSTM网络,进行不断迭代,直至迭代结束;
步骤S5,将第二层STT-LSTM网络最终输出的关节点进行重组,形成含手势动作信息的节点管道,并作为多分类器预测交警手势的分类标签。
优选的,STT-LSTM网络模型构建步骤如下:
步骤S1-1,搭建第一层STT-LSTM网络,由两个LSTM网络和一个全连接层构成,两个LSTM网络中,其中一个称为S-LSTM,另一个称为T-LSTM;
步骤S1-2,搭建第二层STT-LSTM网络,由两个LSTM网络和一个全连接层构成,两个LSTM网络中,其中一个称为S-LSTM,另一个称为T-LSTM。
优选的,提取手势骨架视频的RGB特征和光流特征的过程如下所述:
步骤S2-1,在空间方向上,将交警手势骨架视频集中,同一帧图像中的关节点像链条一样线性排列,作为交警手势骨架视频的RGB特征;
步骤S2-2,在时间方向上,将交警手势骨架视频集中,不同帧中的相应位置处的关节点按线性排列的方式进行排列,作为交警手势骨架视频的光流特征。
优选的,步骤S3中,训练第一层STT-LSTM网络过程如下步骤所示:
步骤S3-1,RGB特征输入S-LSTM网络,光流特征输入T-LSTM网络;
步骤S3-2,根据S-LSTM网络的公式得到h(S) j,t=fj,t*hj-1,t+ij,t*uj,t,其中h(S) j,t为第t帧中第j个关节点的单元状态,hj-1,t为第t帧中第j-1个关节点的单元状态,fj,t为第t帧中第j个节点处的遗忘门,ij,t为第t帧中第j个关节点的RGB特征,uj,t为第t帧中第j个关节点的记忆,计算出S-LSTM输出特征的值为h(S) j,t(1≤j≤n),其中j表示RGB特征中第j个关节点,n为RGB特征中的关节点个数,t为时间,在这里表示为第t帧图像;
步骤S3-3,根据T-LSTM网络的公式h(T) j,t=fj,t*hj,t-1+ij,t*uj,t,其中其中h(T) j,t为第t帧中第j个关节点的单元状态,hj-1,t为第t帧中第j-1个关节点的单元状态,fj,t为第t帧中第j个节点处的遗忘门,ij,t为第t帧中第j个关节点的光流特征,uj,t为第t帧中第j个关节点的记忆,计算出T-LSTM输出特征的值为h(T) j,t(1≤t≤m),其中,j表示第t帧中第j个关节点,m为光流特征的个数,t表示为第t帧图像;
步骤S3-4,在全连接层将S-LSTM输出的特征h(S) j,t(1≤j≤n)和T-LSTM输出的特征h(T) j,t(1≤t≤m)在全连接层进行融合,得到初始化聚焦包含交警动作信息的关节点得到全局上下文信息的初始值为
优选的,步骤S4中,训练第一层STT-LSTM网络过程如下步骤所示:
步骤S4-1,第一层STT-LSTM网络中全连接层的输出hj,t作为第二层STT-LSTM网络中S-LSTM网络和T-LSTM网络的输入ij,t;即是下面迭代过程中表示的h(k) j,t
步骤S4-2.根据全局上下文信息的初始值计算得出第二层STT-LSTM网络的信息门r(k) j,t,信息门的计算公式为其中k指迭代次数,IF(k-1)为第k-1次迭代的上下文信息,h(k) j,t为第k次迭代第二层全连接层的输出值;是一个计算中间值,p,q是计算变量,第q帧中第p个节点的值。
步骤S4-3,根据第二层STT-LSTM网络的输入ij,t、第二层STT-LSTM网络的信息门r(k) j,t、第二层STT-LSTM网络中同一帧的前一个关节点的输出和第二层STT-LSTM网络中该关节点的前一个时刻节点的输出计算得出该关节点的输出h(k) j,t
步骤S4-4,迭代计算,将前一次迭代的第二层的全连接层的输出作为当前迭代的第二层的S-LSTM和T-LSTM的输入,在当前迭代的全连接层中将第二层S-LSTM第k次迭代输出的特征 和第二层中T-LSTM第k次迭代输出的特征并在全连接层进行融合,得到第k次迭代的关节点的输出h(k) j,t=(h(S) j,t+h(T) j,t)/2,得到全局上下文信息的第k次迭代后的值为
相应的,本发明还提供了一种基于STT-LSTM网络的手势识别系统,其特征是,包括:
模型构建模块,用于构建STT-LSTM网络模型,该模型含有两层STT-LSTM网络,每层STT-LSTM网络包含有两个LSTM网络和一个全连接层;
关节点特征提取模块,用于获取交警手势骨架视频,提取视频所有帧中关节点的RGB特征和光流特征;
初始化训练模块,用于将RGB特征和光流特征分别传进第一层STT-LSTM网络中的两个LSTM网络,分别训练两个LSTM网络并将其输出分别输入到全连接层进行融合,获得初始化聚焦包含交警动作信息的关节点和初始化全局上下文信息;
迭代训练模块,用于将初始化的聚焦包含交警动作信息的关节点和由全局上下文信息计算得出的信息门分别传入第二层STT-LSTM网络中两个LSTM网络,训练两个LSTM网络并将其输出输入全连接层进行融合,融合后获得的关节点和全局上下文信息循环输入第二层STT-LSTM网络,进行不断迭代,直至迭代结束;
手势特征提取模块,用于将第二层STT-LSTM网络最终输出的手势关节点进行重组,形成含手势动作信息的节点管道,并作为多分类器预测交警手势的分类标签。
与现有技术相比,本发明所达到的有益效果是:本发明手势识别方法,通过构建两层STT-LSTM网络,保留了原始LSTM的基本建模能力,同时提高了他的选择性注意能力,利用全局上下文信息来不断剔出与动作信息无关的节点,保留了包含动作信息的节点,最后由包含了动作信息的节点组成了一条条动作管道,作为多分类器进行分类的标签,该方法充分分析了交警手势动作中的时空相关性,提高了复杂背景下的交警手势动作识别的识别率和鲁棒性。
附图说明
图1是本发明方法的流程示意图。
图2是本发明方法的STT-LSTM网络模型图;
图3是本发明方法中含动作信息节点的管道示意图;
图4是本发明方法中含动作信息节点的管道3D示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
在本发明专利的描述中,需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,除了包含所列的那些要素,而且还可包含没有明确列出的其他要素。
在本发明实施例中,基于现实场景中的交警指挥的手势动作所构建的交警手势数据库,执行如下的交警手势识别方法,实现准确的识别交警指挥动作,进而能够有效地缓解交通压力,降低事故发生几率。
本发明的一种基于STT-LSTM网络的手势识别方法,参见图1所示,包括以下过程:
步骤S1,构建STT-LSTM网络模型,该模型含有两层STT-LSTM网络,每层STT-LSTM网络包含有两个LSTM网络和一个全连接层。
本发明中STT-LSTM(Spatial Temporal Tube Long Short-Term Memory)网络模型是通过现有的LSTM网络进行构建的自定义模型,STT-LSTM网络模型通过如下步骤进行构建:
步骤S1-1,搭建第一层STT-LSTM网络,由两个LSTM网络和一个全连接层构成,两个LSTM网络中,其中一个用于处理交警手势骨架视频的RGB特征,以下称为S-LSTM,另一个用于处理交警手势骨架视频的光流特征,以下称为T-LSTM;
步骤S1-2,搭建第二层STT-LSTM网络,由两个LSTM网络和一个全连接层构成,两个LSTM网络中,其中一个用于处理交警手势骨架视频的RGB特征,以下称为S-LSTM,另一个用于处理交警手势骨架视频的光流特征,以下称为T-LSTM。
步骤S2,获取交警手势骨架视频,提取交警手势骨架视频中所有帧的RGB特征和光流特征。
提取每个手势骨架视频的RGB特征和光流特征的过程如下所述:
步骤S2-1,通过Kinect深度摄像头拍摄交警手势动作视频,利用微软的SDK提取骨骼数据并用OpenCV处理显示,得到每帧含有20个关节点的交警手势骨架视频集,此关节点包含空间的二维坐标加上时间形成的三维坐标信息;
步骤S2-2,在空间方向上,将交警手势骨架视频集中,同一帧图像中的关节点像链条一样线性排列,参见图3所示,作为交警手势骨架视频的RGB特征(空间域特征);
步骤S2-3,在时间方向上,将交警手势骨架视频集中,不同帧中的相应位置处的关节点按线性排列的方式进行排列,参见图3和图4所示,作为交警手势骨架视频的光流特征(时间域特征)。
步骤S3,将RGB特征和光流特征分别传进第一层STT-LSTM网络中的两个LSTM网络,分别训练两个LSTM网络并将其输出分别输入到全连接层进行融合,获得初始化聚焦包含交警动作信息的关节点和初始化全局上下文信息。
在第一层STT-LSTM网络的训练过程中,进行初始化全局上下文信息,并将初始化的全局上下文信息传入到第二层STT-LSTM网络,在第二层STT-LSTM网络中不断的进行迭代更新,逐步完善上下文信息。
上述步骤S3中,参见图2所示,训练第一层STT-LSTM网络过程如下步骤所示:
步骤S3-1,RGB特征输入S-LSTM网络,光流特征输入T-LSTM网络;
第一层STT-LSTM网络中,S-LSTM的训练过程和T-LSTM的训练过程的单元状态为ct=it*ut+ft (s)*ct-1,其中it为当前节点的输入,ut为当前节点的记忆,ft为遗忘门,ct-1为前一次输入的单元状态。
步骤S3-2,根据S-LSTM网络的公式得到h(S) j,t=fj,t*hj-1,t+ij,t*uj,t,其中h(S) j,t为第t帧中第j个关节点的单元状态,hj-1,t为第t帧中第j-1个关节点的单元状态,fj,t为第t帧中第j个节点处的遗忘门,ij,t为第t帧中第j个关节点的RGB特征,uj,t为第t帧中第j个关节点的记忆,计算出S-LSTM输出特征的值为h(S) j,t(1≤j≤n),其中j表示RGB特征中第j个关节点,n为RGB特征中的关节点个数,t为时间,在这里表示为第t帧图像;
步骤S3-3,根据T-LSTM网络的公式h(T) j,t=fj,t*hj,t-1+ij,t*uj,t,其中其中h(T) j,t为第t帧中第j个关节点的单元状态,hj-1,t为第t帧中第j-1个关节点的单元状态,fj,t为第t帧中第j个节点处的遗忘门,ij,t为第t帧中第j个关节点的光流特征,uj,t为第t帧中第j个关节点的记忆,计算出T-LSTM输出特征的值为h(T) j,t(1≤t≤m),其中,j表示第t帧中第j个关节点,m为光流特征的个数,t表示为第t帧图像;
步骤S3-4,在全连接层将S-LSTM输出的特征h(S) j,t(1≤j≤n)和T-LSTM输出的特征h(T) j,t(1≤t≤m)在全连接层进行融合,得到初始化聚焦包含交警动作信息的关节点得到全局上下文信息的初始值为
步骤S4,将初始化的聚焦包含交警动作信息的关节点和由全局上下文信息计算得出的信息门分别传入第二层STT-LSTM网络中两个LSTM网络,训练两个LSTM网络并将其输出输入全连接层进行融合,融合后获得的关节点和全局上下文信息循环输入第二层STT-LSTM网络,进行不断迭代,直至迭代结束;
上述步骤S4中,参见图2所示,训练第二层STT-LSTM网络过程如下步骤所示:
步骤S4-1,第一层STT-LSTM网络中全连接层的输出hj,t作为第二层STT-LSTM网络中S-LSTM网络和T-LSTM网络的输入ij,t;即是下面迭代过程中表示的h(k) j,t
步骤S4-2.根据全局上下文信息的初始值计算得出第二层STT-LSTM网络的信息门r(k) j,t,信息门的计算公式为其中k指迭代次数,IF(k-1)为第k-1次迭代的上下文信息,h(k) j,t为第k次迭代第二层全连接层的输出值;是一个计算中间值,p,q是计算变量,第q帧中第p个节点的值。
由全局上下文信息得到的信息门,通过信息门概念的引入,剔除了包含无关信息的关节点,保留包含动作信息的关节点。在全局上下文信息的帮助下,有选择性地聚焦于骨架序列的每个框架的信息节点。
第二层STT-LSTM网络中,S-LSTM的训练过程和T-LSTM的训练过程的的单元状态为ct=it*ut+(1-rt (k))*ft (s)*ct-1,其中为第k次迭代后的全局上下文信息计算得到的信息门。若则表示这个新的输入对全局操作有更多的信息,那么网络就会导入该信息,如果网络就会阻塞这个新的输入。
步骤S4-3,根据第二层STT-LSTM网络的输入ij,t、第二层STT-LSTM网络的信息门r(k) j,t、第二层STT-LSTM网络中同一帧的前一个关节点的输出和第二层STT-LSTM网络中该关节点的前一个时刻节点的输出计算得出该关节点的输出h(k) j,t
步骤S4-4,迭代计算,将前一次迭代的第二层的全连接层的输出作为当前迭代的第二层的S-LSTM和T-LSTM的输入,在当前迭代的全连接层中将第二层S-LSTM第k次迭代输出的特征 和第二层中T-LSTM第k次迭代输出的特征并在全连接层进行融合,得到第k次迭代的关节点的输出h(k) j,t=(h(S) j,t+h(T) j,t)/2,得到全局上下文信息的第k次迭代后的值为迭代次数结束就会停止迭代,具体迭代次数依据实际需求确定,本实施例中进行5次迭代计算。
步骤S5,将第二层STT-LSTM网络最后一次迭代输出的关节点h(k) j,t按照关节点的三维信息进行重组,形成含交警动作信息的节点管道,如第j个关节点的管道h(k) j,1、h(k) j,2…h(k) j,t…h(k) j,m,并作为多分类器预测交警手势的分类标签。
本发明所设计一种基于STT-LSTM网络的手势识别方法,通过构建两层STT-LSTM网络,保留了原始LSTM的基本建模能力,同时提高了他的选择性注意能力,利用全局上下文信息来不断剔出与动作信息无关的节点,保留了包含动作信息的节点,最后由包含了动作信息的节点组成了一条动作管道,作为多分类器进行分类的标签,该方法充分分析了交警手势动作中的时空相关性,提高了复杂背景下的交警手势动作识别的识别率和鲁棒性,能够有效缓解交通压力,降低事故发生几率,保护交警安全。
相应的,与上述方法相同的发明构思,本发明还提供了一种基于STT-LSTM网络的手势识别系统,包括:
模型构建模块,用于构建STT-LSTM网络模型,该模型含有两层STT-LSTM网络,每层STT-LSTM网络包含有两个LSTM网络和一个全连接层;
关节点特征提取模块,用于获取交警手势骨架视频,提取视频所有帧中关节点的RGB特征和光流特征;
初始化训练模块,用于将RGB特征和光流特征分别传进第一层STT-LSTM网络中的两个LSTM网络,分别训练两个LSTM网络并将其输出分别输入到全连接层进行融合,获得初始化聚焦包含交警动作信息的关节点和初始化全局上下文信息;
迭代训练模块,用于将初始化的聚焦包含交警动作信息的关节点和由全局上下文信息计算得出的信息门分别传入第二层STT-LSTM网络中两个LSTM网络,训练两个LSTM网络并将其输出输入全连接层进行融合,融合后获得的关节点和全局上下文信息循环输入第二层STT-LSTM网络,进行不断迭代,直至迭代结束;
手势特征提取模块,用于将第二层STT-LSTM网络最终输出的手势关节点进行重组,形成含手势动作信息的节点管道,并作为多分类器预测交警手势的分类标签。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (6)

1.一种基于STT-LSTM网络的手势识别方法,其特征是,包括以下步骤:
步骤S1,构建STT-LSTM网络模型,该模型含有两层STT-LSTM网络,每层STT-LSTM网络包含有两个LSTM网络和一个全连接层;
步骤S2,获取交警手势骨架视频,提取视频所有帧中关节点的RGB特征和光流特征;
步骤S3,将RGB特征和光流特征分别传进第一层STT-LSTM网络中的两个LSTM网络,分别训练两个LSTM网络并将其输出分别输入到全连接层进行融合,获得初始化聚焦包含交警动作信息的关节点和初始化全局上下文信息;
步骤S4,将初始化的聚焦包含交警动作信息的关节点和由全局上下文信息计算得出的信息门分别传入第二层STT-LSTM网络中两个LSTM网络,训练两个LSTM网络并将其输出输入全连接层进行融合,融合后获得的关节点和全局上下文信息循环输入第二层STT-LSTM网络,进行不断迭代,直至迭代结束;
步骤S5,将第二层STT-LSTM网络最终输出的关节点进行重组,形成含手势动作信息的节点管道,并作为多分类器预测交警手势的分类标签。
2.根据权利要求1所述的一种基于STT-LSTM网络的手势识别方法,其特征是,STT-LSTM网络模型构建步骤如下:
步骤S1-1,搭建第一层STT-LSTM网络,由两个LSTM网络和一个全连接层构成,两个LSTM网络中,其中一个称为S-LSTM,另一个称为T-LSTM;
步骤S1-2,搭建第二层STT-LSTM网络,由两个LSTM网络和一个全连接层构成,两个LSTM网络中,其中一个称为S-LSTM,另一个称为T-LSTM。
3.根据权利要求1所述的一种基于STT-LSTM网络的手势识别方法,其特征是,提取手势骨架视频的RGB特征和光流特征的过程如下所述:
步骤S2-1,在空间方向上,将交警手势骨架视频集中,同一帧图像中的关节点像链条一样线性排列,作为交警手势骨架视频的RGB特征;
步骤S2-2,在时间方向上,将交警手势骨架视频集中,不同帧中的相应位置处的关节点按线性排列的方式进行排列,作为交警手势骨架视频的光流特征。
4.根据权利要求2所述的一种基于STT-LSTM网络的手势识别方法,其特征是,步骤S3中,训练第一层STT-LSTM网络过程如下步骤所示:
步骤S3-1,RGB特征输入S-LSTM网络,光流特征输入T-LSTM网络;
步骤S3-2,根据S-LSTM网络的公式得到h(S) j,t=fj,t*hj-1,t+ij,t*uj,t,其中h(S) j,t为第t帧中第j个关节点的单元状态,hj-1,t为第t帧中第j-1个关节点的单元状态,fj,t为第t帧中第j个节点处的遗忘门,ij,t为第t帧中第j个关节点的RGB特征,uj,t为第t帧中第j个关节点的记忆,计算出S-LSTM输出特征的值为h(S) j,t(1≤j≤n),其中j表示RGB特征中第j个关节点,n为RGB特征中的关节点个数,t为时间,在这里表示为第t帧图像;
步骤S3-3,根据T-LSTM网络的公式h(T) j,t=fj,t*hj,t-1+ij,t*uj,t,其中其中h(T) j,t为第t帧中第j个关节点的单元状态,hj-1,t为第t帧中第j-1个关节点的单元状态,fj,t为第t帧中第j个节点处的遗忘门,ij,t为第t帧中第j个关节点的光流特征,uj,t为第t帧中第j个关节点的记忆,计算出T-LSTM输出特征的值为h(T) j,t(1≤t≤m),其中,j表示第t帧中第j个关节点,m为光流特征的个数,t表示为第t帧图像;
步骤S3-4,在全连接层将S-LSTM输出的特征h(S) j,t(1≤j≤n)和T-LSTM输出的特征h(T) j,t(1≤t≤m)在全连接层进行融合,得到初始化聚焦包含交警动作信息的关节点得到全局上下文信息的初始值为
5.根据权利要求4所述的一种基于STT-LSTM网络的手势识别方法,其特征是,步骤S4中,训练第一层STT-LSTM网络过程如下步骤所示:
步骤S4-1,第一层STT-LSTM网络中全连接层的输出hj,t作为第二层STT-LSTM网络中S-LSTM网络和T-LSTM网络的输入ij,t;即是下面迭代过程中表示的h(k) j,t
步骤S4-2.根据全局上下文信息的初始值计算得出第二层STT-LSTM网络的信息门r(k) j,t,信息门的计算公式为其中k指迭代次数,IF(k-1)为第k-1次迭代的上下文信息,h(k) j,t为第k次迭代第二层全连接层的输出值;是一个计算中间值,p,q是计算变量,第q帧中第p个节点的值。
步骤S4-3,根据第二层STT-LSTM网络的输入ij,t、第二层STT-LSTM网络的信息门r(k) j,t、第二层STT-LSTM网络中同一帧的前一个关节点的输出和第二层STT-LSTM网络中该关节点的前一个时刻节点的输出计算得出该关节点的输出h(k) j,t
步骤S4-4,迭代计算,将前一次迭代的第二层的全连接层的输出作为当前迭代的第二层的S-LSTM和T-LSTM的输入,在当前迭代的全连接层中将第二层S-LSTM第k次迭代输出的特征 和第二层中T-LSTM第k次迭代输出的特征并在全连接层进行融合,得到第k次迭代的关节点的输出h(k) j,t=(h(S) j,t+h(T) j,t)/2,得到全局上下文信息的第k次迭代后的值为
6.一种基于STT-LSTM网络的手势识别系统,其特征是,包括:
模型构建模块,用于构建STT-LSTM网络模型,该模型含有两层STT-LSTM网络,每层STT-LSTM网络包含有两个LSTM网络和一个全连接层;
关节点特征提取模块,用于获取交警手势骨架视频,提取视频所有帧中关节点的RGB特征和光流特征;
初始化训练模块,用于将RGB特征和光流特征分别传进第一层STT-LSTM网络中的两个LSTM网络,分别训练两个LSTM网络并将其输出分别输入到全连接层进行融合,获得初始化聚焦包含交警动作信息的关节点和初始化全局上下文信息;
迭代训练模块,用于将初始化的聚焦包含交警动作信息的关节点和由全局上下文信息计算得出的信息门分别传入第二层STT-LSTM网络中两个LSTM网络,训练两个LSTM网络并将其输出输入全连接层进行融合,融合后获得的关节点和全局上下文信息循环输入第二层STT-LSTM网络,进行不断迭代,直至迭代结束;
手势特征提取模块,用于将第二层STT-LSTM网络最终输出的手势关节点进行重组,形成含手势动作信息的节点管道,并作为多分类器预测交警手势的分类标签。
CN201810952141.1A 2018-08-21 2018-08-21 一种基于stt-lstm网络的手势识别方法及系统 Active CN109284682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810952141.1A CN109284682B (zh) 2018-08-21 2018-08-21 一种基于stt-lstm网络的手势识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810952141.1A CN109284682B (zh) 2018-08-21 2018-08-21 一种基于stt-lstm网络的手势识别方法及系统

Publications (2)

Publication Number Publication Date
CN109284682A true CN109284682A (zh) 2019-01-29
CN109284682B CN109284682B (zh) 2022-06-17

Family

ID=65182834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810952141.1A Active CN109284682B (zh) 2018-08-21 2018-08-21 一种基于stt-lstm网络的手势识别方法及系统

Country Status (1)

Country Link
CN (1) CN109284682B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919107A (zh) * 2019-03-11 2019-06-21 青岛科技大学 一种基于深度学习的交警手势识别方法及无人车
CN110287844A (zh) * 2019-06-19 2019-09-27 北京工业大学 基于卷积姿势机和长短时记忆网络的交警手势识别方法
CN110348321A (zh) * 2019-06-18 2019-10-18 杭州电子科技大学 基于骨骼时空特征及长短时记忆网络的人体动作识别方法
CN110569823A (zh) * 2019-09-18 2019-12-13 西安工业大学 一种基于rnn的手语识别与骨架生成方法
CN111310583A (zh) * 2020-01-19 2020-06-19 中国科学院重庆绿色智能技术研究院 一种基于改进的长短期记忆网络的车辆异常行为识别方法
CN111476162A (zh) * 2020-04-07 2020-07-31 广东工业大学 一种操作命令生成方法、装置及电子设备和存储介质
CN113743247A (zh) * 2021-08-16 2021-12-03 电子科技大学 基于Reders模型的手势识别方法
CN115547453A (zh) * 2022-10-09 2022-12-30 中山市人民医院 一种引流装置在线监测方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106934352A (zh) * 2017-02-28 2017-07-07 华南理工大学 一种基于双路分形网络和lstm的视频描述方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107679522A (zh) * 2017-10-31 2018-02-09 内江师范学院 基于多流lstm的动作识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106934352A (zh) * 2017-02-28 2017-07-07 华南理工大学 一种基于双路分形网络和lstm的视频描述方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107679522A (zh) * 2017-10-31 2018-02-09 内江师范学院 基于多流lstm的动作识别方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919107A (zh) * 2019-03-11 2019-06-21 青岛科技大学 一种基于深度学习的交警手势识别方法及无人车
CN109919107B (zh) * 2019-03-11 2023-03-24 青岛科技大学 一种基于深度学习的交警手势识别方法及无人车
CN110348321A (zh) * 2019-06-18 2019-10-18 杭州电子科技大学 基于骨骼时空特征及长短时记忆网络的人体动作识别方法
CN110287844A (zh) * 2019-06-19 2019-09-27 北京工业大学 基于卷积姿势机和长短时记忆网络的交警手势识别方法
CN110287844B (zh) * 2019-06-19 2021-07-23 北京工业大学 基于卷积姿势机和长短时记忆网络的交警手势识别方法
CN110569823A (zh) * 2019-09-18 2019-12-13 西安工业大学 一种基于rnn的手语识别与骨架生成方法
CN111310583A (zh) * 2020-01-19 2020-06-19 中国科学院重庆绿色智能技术研究院 一种基于改进的长短期记忆网络的车辆异常行为识别方法
CN111310583B (zh) * 2020-01-19 2023-02-10 中国科学院重庆绿色智能技术研究院 一种基于改进的长短期记忆网络的车辆异常行为识别方法
CN111476162A (zh) * 2020-04-07 2020-07-31 广东工业大学 一种操作命令生成方法、装置及电子设备和存储介质
CN113743247A (zh) * 2021-08-16 2021-12-03 电子科技大学 基于Reders模型的手势识别方法
CN115547453A (zh) * 2022-10-09 2022-12-30 中山市人民医院 一种引流装置在线监测方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN109284682B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN109284682A (zh) 一种基于stt-lstm网络的手势识别方法及系统
Chen et al. Vehicle trajectory prediction based on intention-aware non-autoregressive transformer with multi-attention learning for Internet of Vehicles
Varshneya et al. Human trajectory prediction using spatially aware deep attention models
US10901416B2 (en) Scene creation system for autonomous vehicles and methods thereof
Mahjourian et al. Occupancy flow fields for motion forecasting in autonomous driving
Tran et al. Online maneuver recognition and multimodal trajectory prediction for intersection assistance using non-parametric regression
Kim et al. On-road object detection using deep neural network
Zhao et al. TrajGAT: A map-embedded graph attention network for real-time vehicle trajectory imputation of roadside perception
Rasouli et al. Multi-modal hybrid architecture for pedestrian action prediction
Sharma et al. Pedestrian intention prediction for autonomous vehicles: A comprehensive survey
CN103235944A (zh) 人群流分割及人群流异常行为识别方法
Wang et al. Multi-information-based convolutional neural network with attention mechanism for pedestrian trajectory prediction
CN113269133A (zh) 一种基于深度学习的无人机视角视频语义分割方法
Minoura et al. Crowd density forecasting by modeling patch-based dynamics
Chai et al. CrowdGAN: Identity-free interactive crowd video generation and beyond
Yang et al. Predicting polarization beyond semantics for wearable robotics
Zhou et al. CSR: cascade conditional variational auto encoder with socially-aware regression for pedestrian trajectory prediction
Xu et al. MVHGN: Multi-view adaptive hierarchical spatial graph convolution network based trajectory prediction for heterogeneous traffic-agents
Valero et al. Adaptation and calibration of a social force based model to study interactions between electric scooters and pedestrians
Dimas et al. Obstacle detection based on generative adversarial networks and fuzzy sets for computer-assisted navigation
Pujara et al. Deepsort: real time & multi-object detection and tracking with YOLO and TensorFlow
KR102265016B1 (ko) 바이크 라이더용 안전 의복 패턴을 생성하는 방법 및 장치
Zernetsch et al. Cyclist Trajectory Forecasts by Incorporation of Multi-View Video Information
Palli-Thazha et al. Trajectory Prediction of Traffic Agents: Incorporating context into machine learning approaches
CN114120076A (zh) 基于步态运动估计的跨视角视频步态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant