CN109284682A

CN109284682A - 一种基于stt-lstm网络的手势识别方法及系统

Info

Publication number: CN109284682A
Application number: CN201810952141.1A
Authority: CN
Inventors: 李晓飞; 汪长江; 吴聪; 柴磊
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2019-01-29
Anticipated expiration: 2038-08-21
Also published as: CN109284682B

Abstract

本发明公开了一种基于STT‑LSTM网络的手势识别方法，构建STT‑LSTM网络模型，该模型含有两层STT‑LSTM网络；将RGB特征和光流特征分别传进第一层STT‑LSTM网络中，在第一层STT‑LSTM网络的训练过程中，进行初始化全局上下文信息，并将初始化的全局上下文信息传入到第二层STT‑LSTM网络，在第二层STT‑LSTM网络中不断的进行迭代更新，逐步完善上下文信息，将第二层STT‑LSTM网络最终输出的关节点进行重组，形成含手势动作信息的节点管道，并作为多分类器预测交警手势的分类标签。本发明方法可准确识别手势指挥动作，能够有效地保证交通的畅通与安全性，降低事故发生几率。

Description

一种基于STT-LSTM网络的手势识别方法及系统

技术领域

本发明涉及图像与视频分析技术领域，具体涉及一种基于STT-LSTM网络的手势识别方法及系统。

背景技术

随着我国汽车行业的迅速发展，交通拥堵和交通安全问题也随之而来。交通警察在交通行业的重要性也越来越大，其主要职责是维护交通秩序，处理交通事故，查纠道路交通违法行为，负责机动车的登记管理等。而交警手势就是交通警察保证交通运输的畅通与安全的一个重要工具。

在机动车行驶时经常会遇到如下问题：首先，接近60％的司机不能完全识别交警的指挥手势含义，造成交警指挥效率降低，行车安全无法保证；其次，在雨雪天气或夜间行车时，能见度低，交警手势难以识别；再有，交通管制路段车流量很大时由于车辆阻挡，交警手势指挥距离有限。

针对上述问题，继续研究一种辅助手段来对交警执法的手势指挥动作进行识别，并在车载或佩戴式显示屏上清晰显示出来。这样司机就可以获得明确的指挥信息，并及时做出反应，降低事故发生几率。

发明内容

本发明的目的在于克服现有技术中的不足，提出了一种基于STT-LSTM网络的手势识别方法及系统，准确识别手势指挥动作，能够有效地保证交通的畅通与安全性，降低事故发生几率。

为解决上述技术问题，本发明提供了一种基于STT-LSTM网络的手势识别方法，其特征是，包括以下步骤：

步骤S1，构建STT-LSTM网络模型，该模型含有两层STT-LSTM网络，每层STT-LSTM网络包含有两个LSTM网络和一个全连接层；

步骤S2，获取交警手势骨架视频，提取视频所有帧中关节点的RGB特征和光流特征；

步骤S3，将RGB特征和光流特征分别传进第一层STT-LSTM网络中的两个LSTM网络，分别训练两个LSTM网络并将其输出分别输入到全连接层进行融合，获得初始化聚焦包含交警动作信息的关节点和初始化全局上下文信息；

步骤S4，将初始化的聚焦包含交警动作信息的关节点和由全局上下文信息计算得出的信息门分别传入第二层STT-LSTM网络中两个LSTM网络，训练两个LSTM网络并将其输出输入全连接层进行融合，融合后获得的关节点和全局上下文信息循环输入第二层STT-LSTM网络，进行不断迭代，直至迭代结束；

步骤S5，将第二层STT-LSTM网络最终输出的关节点进行重组，形成含手势动作信息的节点管道，并作为多分类器预测交警手势的分类标签。

优选的，STT-LSTM网络模型构建步骤如下：

步骤S1-1，搭建第一层STT-LSTM网络，由两个LSTM网络和一个全连接层构成，两个LSTM网络中，其中一个称为S-LSTM，另一个称为T-LSTM；

步骤S1-2，搭建第二层STT-LSTM网络，由两个LSTM网络和一个全连接层构成，两个LSTM网络中，其中一个称为S-LSTM，另一个称为T-LSTM。

优选的，提取手势骨架视频的RGB特征和光流特征的过程如下所述：

步骤S2-1，在空间方向上，将交警手势骨架视频集中，同一帧图像中的关节点像链条一样线性排列，作为交警手势骨架视频的RGB特征；

步骤S2-2，在时间方向上，将交警手势骨架视频集中，不同帧中的相应位置处的关节点按线性排列的方式进行排列，作为交警手势骨架视频的光流特征。

优选的，步骤S3中，训练第一层STT-LSTM网络过程如下步骤所示：

步骤S3-1，RGB特征输入S-LSTM网络，光流特征输入T-LSTM网络；

步骤S3-2，根据S-LSTM网络的公式得到h^(S) _j,t＝f_j,t*h_j-1,t+i_j,t*u_j,t，其中h^(S) _j,t为第t帧中第j个关节点的单元状态，h_j-1,t为第t帧中第j-1个关节点的单元状态，f_j,t为第t帧中第j个节点处的遗忘门，i_j,t为第t帧中第j个关节点的RGB特征，u_j,t为第t帧中第j个关节点的记忆，计算出S-LSTM输出特征的值为h^(S) _j,t(1≤j≤n)，其中j表示RGB特征中第j个关节点，n为RGB特征中的关节点个数，t为时间，在这里表示为第t帧图像；

步骤S3-3，根据T-LSTM网络的公式h^(T) _j,t＝f_j,t*h_j,t-1+i_j,t*u_j,t，其中其中h^(T) _j,t为第t帧中第j个关节点的单元状态，h_j-1,t为第t帧中第j-1个关节点的单元状态，f_j,t为第t帧中第j个节点处的遗忘门，i_j,t为第t帧中第j个关节点的光流特征，u_j,t为第t帧中第j个关节点的记忆，计算出T-LSTM输出特征的值为h^(T) _j,t(1≤t≤m)，其中，j表示第t帧中第j个关节点，m为光流特征的个数，t表示为第t帧图像；

步骤S3-4，在全连接层将S-LSTM输出的特征h^(S) _j,t(1≤j≤n)和T-LSTM输出的特征h^(T) _j,t(1≤t≤m)在全连接层进行融合，得到初始化聚焦包含交警动作信息的关节点得到全局上下文信息的初始值为

优选的，步骤S4中，训练第一层STT-LSTM网络过程如下步骤所示：

步骤S4-1，第一层STT-LSTM网络中全连接层的输出h_j,t作为第二层STT-LSTM网络中S-LSTM网络和T-LSTM网络的输入i_j,t；即是下面迭代过程中表示的h^(k) _j,t，

步骤S4-2.根据全局上下文信息的初始值计算得出第二层STT-LSTM网络的信息门r^(k) _j,t，信息门的计算公式为其中k指迭代次数，IF^(k-1)为第k-1次迭代的上下文信息，h^(k) _j,t为第k次迭代第二层全连接层的输出值；是一个计算中间值，p,q是计算变量，第q帧中第p个节点的值。

步骤S4-3，根据第二层STT-LSTM网络的输入i_j,t、第二层STT-LSTM网络的信息门r^(k) _j,t、第二层STT-LSTM网络中同一帧的前一个关节点的输出和第二层STT-LSTM网络中该关节点的前一个时刻节点的输出计算得出该关节点的输出h^(k) _j,t；

步骤S4-4，迭代计算，将前一次迭代的第二层的全连接层的输出作为当前迭代的第二层的S-LSTM和T-LSTM的输入，在当前迭代的全连接层中将第二层S-LSTM第k次迭代输出的特征和第二层中T-LSTM第k次迭代输出的特征并在全连接层进行融合，得到第k次迭代的关节点的输出h^(k) _j,t＝(h^(S) _j,t+h^(T) _j,t)/2，得到全局上下文信息的第k次迭代后的值为

相应的，本发明还提供了一种基于STT-LSTM网络的手势识别系统，其特征是，包括：

模型构建模块，用于构建STT-LSTM网络模型，该模型含有两层STT-LSTM网络，每层STT-LSTM网络包含有两个LSTM网络和一个全连接层；

关节点特征提取模块，用于获取交警手势骨架视频，提取视频所有帧中关节点的RGB特征和光流特征；

初始化训练模块，用于将RGB特征和光流特征分别传进第一层STT-LSTM网络中的两个LSTM网络，分别训练两个LSTM网络并将其输出分别输入到全连接层进行融合，获得初始化聚焦包含交警动作信息的关节点和初始化全局上下文信息；

迭代训练模块，用于将初始化的聚焦包含交警动作信息的关节点和由全局上下文信息计算得出的信息门分别传入第二层STT-LSTM网络中两个LSTM网络，训练两个LSTM网络并将其输出输入全连接层进行融合，融合后获得的关节点和全局上下文信息循环输入第二层STT-LSTM网络，进行不断迭代，直至迭代结束；

手势特征提取模块，用于将第二层STT-LSTM网络最终输出的手势关节点进行重组，形成含手势动作信息的节点管道，并作为多分类器预测交警手势的分类标签。

与现有技术相比，本发明所达到的有益效果是：本发明手势识别方法，通过构建两层STT-LSTM网络，保留了原始LSTM的基本建模能力，同时提高了他的选择性注意能力，利用全局上下文信息来不断剔出与动作信息无关的节点，保留了包含动作信息的节点，最后由包含了动作信息的节点组成了一条条动作管道，作为多分类器进行分类的标签，该方法充分分析了交警手势动作中的时空相关性，提高了复杂背景下的交警手势动作识别的识别率和鲁棒性。

附图说明

图1是本发明方法的流程示意图。

图2是本发明方法的STT-LSTM网络模型图；

图3是本发明方法中含动作信息节点的管道示意图；

图4是本发明方法中含动作信息节点的管道3D示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

在本发明专利的描述中，需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。

在本发明实施例中，基于现实场景中的交警指挥的手势动作所构建的交警手势数据库，执行如下的交警手势识别方法，实现准确的识别交警指挥动作，进而能够有效地缓解交通压力，降低事故发生几率。

本发明的一种基于STT-LSTM网络的手势识别方法，参见图1所示，包括以下过程：

步骤S1，构建STT-LSTM网络模型，该模型含有两层STT-LSTM网络，每层STT-LSTM网络包含有两个LSTM网络和一个全连接层。

本发明中STT-LSTM(Spatial Temporal Tube Long Short-Term Memory)网络模型是通过现有的LSTM网络进行构建的自定义模型，STT-LSTM网络模型通过如下步骤进行构建：

步骤S1-1，搭建第一层STT-LSTM网络，由两个LSTM网络和一个全连接层构成，两个LSTM网络中，其中一个用于处理交警手势骨架视频的RGB特征，以下称为S-LSTM，另一个用于处理交警手势骨架视频的光流特征，以下称为T-LSTM；

步骤S1-2，搭建第二层STT-LSTM网络，由两个LSTM网络和一个全连接层构成，两个LSTM网络中，其中一个用于处理交警手势骨架视频的RGB特征，以下称为S-LSTM，另一个用于处理交警手势骨架视频的光流特征，以下称为T-LSTM。

步骤S2，获取交警手势骨架视频，提取交警手势骨架视频中所有帧的RGB特征和光流特征。

提取每个手势骨架视频的RGB特征和光流特征的过程如下所述：

步骤S2-1，通过Kinect深度摄像头拍摄交警手势动作视频，利用微软的SDK提取骨骼数据并用OpenCV处理显示，得到每帧含有20个关节点的交警手势骨架视频集，此关节点包含空间的二维坐标加上时间形成的三维坐标信息；

步骤S2-2，在空间方向上，将交警手势骨架视频集中，同一帧图像中的关节点像链条一样线性排列，参见图3所示，作为交警手势骨架视频的RGB特征(空间域特征)；

步骤S2-3，在时间方向上，将交警手势骨架视频集中，不同帧中的相应位置处的关节点按线性排列的方式进行排列，参见图3和图4所示，作为交警手势骨架视频的光流特征(时间域特征)。

步骤S3，将RGB特征和光流特征分别传进第一层STT-LSTM网络中的两个LSTM网络，分别训练两个LSTM网络并将其输出分别输入到全连接层进行融合，获得初始化聚焦包含交警动作信息的关节点和初始化全局上下文信息。

在第一层STT-LSTM网络的训练过程中，进行初始化全局上下文信息，并将初始化的全局上下文信息传入到第二层STT-LSTM网络，在第二层STT-LSTM网络中不断的进行迭代更新，逐步完善上下文信息。

上述步骤S3中，参见图2所示，训练第一层STT-LSTM网络过程如下步骤所示：

步骤S3-1，RGB特征输入S-LSTM网络，光流特征输入T-LSTM网络；

第一层STT-LSTM网络中，S-LSTM的训练过程和T-LSTM的训练过程的单元状态为c_t＝i_t*u_t+f_t ^(s)*c_t-1，其中i_t为当前节点的输入，u_t为当前节点的记忆，f_t为遗忘门，c_t-1为前一次输入的单元状态。

上述步骤S4中，参见图2所示，训练第二层STT-LSTM网络过程如下步骤所示：

由全局上下文信息得到的信息门，通过信息门概念的引入，剔除了包含无关信息的关节点，保留包含动作信息的关节点。在全局上下文信息的帮助下，有选择性地聚焦于骨架序列的每个框架的信息节点。

第二层STT-LSTM网络中，S-LSTM的训练过程和T-LSTM的训练过程的的单元状态为c_t＝i_t*u_t+(1-r_t ^(k))^*f_t ^(s)*c_t-1，其中为第k次迭代后的全局上下文信息计算得到的信息门。若则表示这个新的输入对全局操作有更多的信息，那么网络就会导入该信息，如果网络就会阻塞这个新的输入。

步骤S4-4，迭代计算，将前一次迭代的第二层的全连接层的输出作为当前迭代的第二层的S-LSTM和T-LSTM的输入，在当前迭代的全连接层中将第二层S-LSTM第k次迭代输出的特征和第二层中T-LSTM第k次迭代输出的特征并在全连接层进行融合，得到第k次迭代的关节点的输出h^(k) _j,t＝(h^(S) _j,t+h^(T) _j,t)/2，得到全局上下文信息的第k次迭代后的值为迭代次数结束就会停止迭代，具体迭代次数依据实际需求确定，本实施例中进行5次迭代计算。

步骤S5，将第二层STT-LSTM网络最后一次迭代输出的关节点h^(k) _j,t按照关节点的三维信息进行重组，形成含交警动作信息的节点管道，如第j个关节点的管道h^(k) _j,1、h^(k) _j,2…h^(k) _j,t…h^(k) _j,m，并作为多分类器预测交警手势的分类标签。

本发明所设计一种基于STT-LSTM网络的手势识别方法，通过构建两层STT-LSTM网络，保留了原始LSTM的基本建模能力，同时提高了他的选择性注意能力，利用全局上下文信息来不断剔出与动作信息无关的节点，保留了包含动作信息的节点，最后由包含了动作信息的节点组成了一条动作管道，作为多分类器进行分类的标签，该方法充分分析了交警手势动作中的时空相关性，提高了复杂背景下的交警手势动作识别的识别率和鲁棒性，能够有效缓解交通压力，降低事故发生几率，保护交警安全。

相应的，与上述方法相同的发明构思，本发明还提供了一种基于STT-LSTM网络的手势识别系统，包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于STT-LSTM网络的手势识别方法，其特征是，包括以下步骤：

2.根据权利要求1所述的一种基于STT-LSTM网络的手势识别方法，其特征是，STT-LSTM网络模型构建步骤如下：

3.根据权利要求1所述的一种基于STT-LSTM网络的手势识别方法，其特征是，提取手势骨架视频的RGB特征和光流特征的过程如下所述：

4.根据权利要求2所述的一种基于STT-LSTM网络的手势识别方法，其特征是，步骤S3中，训练第一层STT-LSTM网络过程如下步骤所示：

步骤S3-1，RGB特征输入S-LSTM网络，光流特征输入T-LSTM网络；

5.根据权利要求4所述的一种基于STT-LSTM网络的手势识别方法，其特征是，步骤S4中，训练第一层STT-LSTM网络过程如下步骤所示：

6.一种基于STT-LSTM网络的手势识别系统，其特征是，包括：