CN110287844B

CN110287844B - 基于卷积姿势机和长短时记忆网络的交警手势识别方法

Info

Publication number: CN110287844B
Application number: CN201910529956.3A
Authority: CN
Inventors: 何坚; 祖天奇; 张丞; 余立
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2021-07-23
Anticipated expiration: 2039-06-19
Also published as: CN110287844A

Abstract

基于卷积姿势机和长短时记忆的交警手势识别方法属于电子信息领域。本发明在分析交警手势的关节铰接特征基础上，建立基于关节点和骨架的交警手势模型；应用CPM提取交警手势的关键节点，并在此基础上提取交警手势骨架的相对长度及其与重力加速度的夹角作为交警手势的空间上下文特征；将CPM与LSTM结合提取交警手势的空间和时序特征，并构造了CTPGR；创建交警手势视频库，并对CTPGR进行训练和验证；实验证明CTPGR可以快速准确的识别交警手势，系统的准确率达到95.09％，并对光线、背景和交警手势位置变化具有较强的抗干扰能力。

Description

基于卷积姿势机和长短时记忆网络的交警手势识别方法

技术领域

本发明属于电子信息领域，是一种基于计算机视觉、可应用于自动驾驶的交警手势识别技术。

背景技术

交警手势识别是无人驾驶的重要组成部分。目前，实现交警手势识别主要有两种方法：基于可穿戴传感器的方法和基于计算机视觉的识别方法。虽然基于可穿戴设备交警手势识别具有较高识别率，但是其会增加交警负担，实施和维护成本较高，难以推广应用。而基于计算机视觉的方法易于实现，但其识别准确率易受背景、光照或交警手势运动变化等因素影响。近年来深度学习算法在图像识别、自然语言处理等领域应用取得优异效果，为交警手势识别提供了新的实现方法。

针对基于计算机视觉的交警手势识别中存在的问题，本文引入基于深度学习的卷积姿势机(Convolutional Pose Machines，CPM)和长短时记忆 (Long Short TimeMemory,LSTM)进行交警手势命令识别。

发明内容

本文针对基于计算机视觉的交警手势识别技术易受光照、背景和手势动态变化影响等问题，结合CPM和LSTM构造交警手势识别机(Chinese Traffic Police GestureRecognizer,CTPGR)提取交警手势的时空特征，实现交警手势的快速准确识别。本发明涉及如下4点：

(1)在分析交警手势的关节铰接特征基础上，建立基于关节点和骨架的交警手势模型；

(2)应用CPM提取交警手势的关键节点，并在此基础上提取交警手势骨架的相对长度及其与重力加速度的夹角作为交警手势的空间上下文特征；

(3)将CPM与LSTM结合提取交警手势的空间和时序特征，并构造了CTPGR；

(4)创建时长约2小时的交警手势视频库，并对CTPGR进行训练和验证；实验证明CTPGR可以快速准确的识别交警手势，系统的准确率达到95.09％，并对光线、背景和交警手势位置变化具有较强的抗干扰能力。本发明核心算法：

(1)基于关节点和骨架的交警手势建模

通过分析中国公安部2007制定的“新版交通手势信号”，可知交警手势均由连贯的头部转动、双臂摆动并结合手势组成，是典型的关节铰接型姿态。交警的铰链式姿势可抽象为14个部件，如图1(a)所示。图1(b)描述了这些部件的坐标，其集合为Y。Y由头部关键节点Y_head、上身关键节点 Y_upper、下身关键节点Y_lower三个集合构成，即

依据人体骨骼及相互间的依赖关系，Y中相邻关键节点间存在连接依赖关系，这些连接依赖关系如图1(c)所示。交警手势所含关键节点间的连接关系集合表示为S。s为其中的一条关键节点连接(即s∈S)，其起始关键节点和终止关键节点分别为Y_m和Y_n，则

表示了交警手势所含的一条骨架矢量。与关键节点分类方法类似，S由头部骨架S_head、上身骨架 S_upper和下身骨架S_lower 3部分构成。即：

(2)基于CPM的交警手势关键节点提取技术

由于CPM能够直接从图像数据中计算学习观察对象及其空间上下文特征。因此发明引入并扩展CPM，建立交警手势关键节点提取网络(Police Key-point ExtractingNetwork,PKEN)。

设

为包含交警手势的图像上所有位置坐标(u，v)的集合，

为二维实数集。在图像中交警手势每个部件的位置用Y_k表示，

交警手势总共包含14个部件，因此Y_k∈{Y₁，...，Y₁₄}。PKEN由一系列多类预测器g_t(·)组成，它们被训练用来预测同一图像在不同感受野下每个部件的位置。具体而言，g_t(·)是一个分类器，下标t∈{1，...，T}表示分类的阶段，每个阶段的感受野不同。g_t(·)预测该感受野下图像中点

属于部件Y_k的置信度，用

表示置信度值。这些g_t(·)具有相同目标函数值(即真实的置信度)。当t＞1时，g_t(·)是从图像位置

提取的特征值

和每个关键节点Y_k在t-1时刻置信度的预测值的拼接函数。即：

其中，

为提取器ψ(·)在位置

提取的图像特征值。即：

在PKEN中，除第一阶段外，后续每个阶段的分类器相比上一阶段会获得更大的感受野，因而能够获得Y_k附近更多的上下文信息，这样不同阶段的分类器拼接在一起，可以输出更加精确的结果。

在分类器的第一阶段(即t＝1时)，使用

表示图像位置

上的特征值，则分类器产生的值如下：

其中，

表示图像中坐标点

属于部件k的置信度。在t(t＞1) 阶段，若别用w和h表示输入图像的宽和高，输入图像中所有坐标点(u，v) 属于关键节点k的置信度值可表示为

即：

由于交警手势包含14个关键节点，因此图像中交警手势所含所有关键节点的置信度集合表示为

通过上述步骤，可以为交警手势所含的每个部件产生置信度图。经过 T个阶段，置信度最高的位置即为关键节点位置。即：

由此建立出PKEN。

(3)交警手势空间上下文特征提取：

通过公式(4)～(7)的计算可以确定交警手势中的每个关键节点的位置。依据交警手势中骨架间的铰接依赖关系，可以通过相邻关键节点计算求得交警手势中骨架及其长度。设φ₁(·)为将部件位置转换为骨架矢量的函数。即，

φ₁(Y_m，Y_n)→s，s∈S (7)

本发明使用骨架矢量提取了交警手势所包含的2种空间上下文特征F₁、F₂。其中，F₁为骨架的相对可见长度；F₂为骨架与重力方向的夹角，它们共同构成了交警手势的空间上下文特征集合F。即F＝F₁∪F₂。

由于交警的头部长度为固定值，其不会随着身体的转动和摄像头距离的变化而改变。因此，本发明以交警头部长度为参考点，引入函数φ₂(·)表示交警手势中所含骨架的相对可见长度的向量拼接。即，

其中，S_head是代表头顶至脖子中心的头部骨架矢量，‖·‖表示矢量模，即头部骨架的长度。

表示向量拼接。该公式以S_head为参考，计算每个骨架相对于头部骨架的可见长度。

由于重力加速度的方向始终垂直于地面，为了描述交警手势中每个骨架相对于地面的方向，为此本发明引入了骨架与重力加速度的夹角。并使用φ₃(·)表示每个骨架与重力方向夹角的向量拼接。即

为保持特征值的连续性，本发明采用骨架与重力加速度方向的三角函数值来描述骨架的角度特征。公式(10)中，d表示一个单位矢量，方向与重力方向相同。

计算了每个骨架矢量与重力方向夹角的cos值，

计算其sin值。最终，由φ₄(·)将上述两个特征拼接组合成为交警手势特征F：

(4)交警手势的时序特征提取：

由于动态交警手势由一组具有时间先后顺序的图像序列组成。因此本发明引入LSTM网络将交警手势中的空间特征与时间顺序相关联。LSTM 依据公式(12)保存记忆内容。

其中，h_τ为输出的时间特征，e_τ用于记忆保存，并作为下一个循环神经网络的输入。在保存记忆的同时，LSTM也依据公式(13)计算输出向量h_τ。

其中，σ为sigmoid函数，tanh为hyperbolic tangent函数。

表示向量拼接，·表示矩阵乘法，*表示点乘。τ代表当前时间。F^τ表示在时间τ时的交警手势上下文空间特征。W和β表示采用梯度下降法对LSTM神经网络训练得到的全连接层的权重和偏置。

最后，h_τ通过全连接层按照公式(14)计算每类交警手势的预测概率，并按照公式(15)将预测概率最大的手势作为预测手势。

公式(14)中，函数s(·)表示softmax，

表示当前手势属于每个手势类的概率。o^d表示出现非8种交警指挥手势的概率。

公式(15)中，

表示最终的手势分类输出。δ表示动作置信度阈值(通过实验证明δ取值0.9时，本算法的准确率最好)，只有在网络对当前分类的确信度超过δ时，才将其作为输出。

发明效果

通过构建CTPGR，可以克服复杂场景、背景图像、光照、多变的交警姿势等干扰，准确识别交警手势。识别率可达到95.09％。本发明为汽车自动驾驶等领域提供技术方案。

(1)CTPGR：改进算法：基于现有两项技术结合后改良：将CPM与 LSTM结合提取交警手势的空间和时序特征，由此构造CTPGR。

附图说明

图1(a)为交警手势；

图1(b)为交警手势对应关节；

图1(c)为交警手势对应骨架。

图1(d)为交警手势对应骨架长度。

图1(e)为交警手势对应骨架与重力夹角。

图2为其网络架构；

图3为本文所用LSTM网络的架构。

具体实施方式

本发明具体实施分为3步：

1)人体关键节点网络PKEN训练。

2)交警手势空间特征训练。

3)LSTM时序特征训练。

1)第一阶段

本发明采用CPM提取关节位置。CPM输出15个热点图。其中，14 个热点图对应人体相应的部件，另外1个为背景热点图。为了支持手势实时识别，本发明裁剪了CPM深度，构造了包含3个阶段的交警关键节点提取网络PKEN，图2所示为其网络架构。

图2中，C代表卷积层，P代表最大池化层，L代表Loss损失函数输出，F代表卷积核数量，S代表步长，K为卷积核大小。PKEN的前 10层网络与VGG-19的前10层网络相同。从C₁至C₁₂的卷积网络实现了特征提取函数ψ(·)，即输出了图像中每个位置的特征值x_z。由于其中包含了3个池化层，x_z的图像长、宽仅为原图像的八分之一。C₁₃至C₁₇层的卷积网络实现了第一阶段的分类器g₁(·)，它以x_z为输入，输出了交警手势中每个关键节点的置信度集合b₁。C₁₈至C₂₄层的卷积网络实现了第二阶段的分类器g₂(·)，它以x_z和b₁为输入，输出了新感受野下交警手势中每个关键节点的置信度集合b₂。最后，第C₁₈至C₂₄层的卷积网络实现了第三阶段的分类器g₃(·)，它以x_z和b₂为输入，输出了新感受野下交警手势中每个关键节点的置信度集合b₃。

PKEN一共包含了3个代价函数，分别是L₁、L₂和L₃。它们分别是 b₁、b₂和b₃与真实的置信度之间的欧几里得距离。PKEN产生的系统总误差可按照公式(16)计算出。

公式中，

是交警手势中第j个关键节点的真实置信度。z是置信度图中的每一个像素。

本发明采用AI Challenger公开的人体关键节点数据集作为训练样本来训练PKEN网络。训练中，本发明将AI Challenger数据集中标注的关键节点数据通过二维高斯函数转换为PKEN中对应关键节点的真实置信度值。在PKEN网络训练中，batch值为15；梯度下降采用了Adam优化器。其学习率为0.0008、每20000步的指数衰减率为0.8。在PKEN网络训练50个epochs后，后续训练中系统准确率不再变化，所以本发明PKEN 的训练在50个epochs后停止。PKEN训练的第三阶段输出关节点置信度图，在此基础上，借鉴PAF(Part AffinityFields)思想，可以建立PKEN 关节点间的关联关系。

2)第二阶段

本发明通过4名志愿者按照中国交通交警手势规范录制了8种交警指挥手势，这8中手势之外的姿势统一归类为“待机”姿势。每位志愿者针对9种姿势分别录制了50组视频。视频按照1024*768，15fps标准高清录制。这些录制的视频分别作为交警手势骨架特征和LSTM网络训练及测试的样本。在实际生活中，驾驶员并不是在交警手势开始的瞬间就进行手势类型判断，而是观察一段时间，等交警手势即将稳定时才开始做判断。因此本发明在交警手势识别训练中也对交警手势做了750毫秒时延。即从定位交警开始做手势起，750毫秒后才开始对视频中的交警手势做类别标记。

本发明第二阶段采用第一阶段训练生成的PKEN网络从交警手势库中提取交警手势的关键节点及关节点间关联关系，通过公式(9)和(10)，计算出交警手势骨架的相对长度及其与重力加速度间的夹角，即生成在τ时刻的交警手势空间上下文特征F_τ。同时，交警手势库中相应时刻标记的交警手势类型被用作真实的手势类型。

3)第三阶段

LSTM网络被用来提取动态交警手势的时间序列特征。图3所示为本文所用LSTM网络的架构。在图3中，e_τ-1,h_τ-1和F_τ是LSTM网络的输入。其中，F_τ是在τ时刻交警手势中各骨架的相对长度及其与重力加速度角的特征值。此外，在τ为1时刻，系统随机产生一个初值e₀和h₀。e_τ, 和h_τ是网络的输出，并作为τ>1时LSTM网络的输入。其中的“Dense”表示全连接层；P表示逐点运算。

本发明采用Xavier对网络中的神经元进行初始化设置，训练中交警手势特征被随机切分成长度为90秒的小片视频，128个小片视频组装起来构成一个batch。采用crossentropy函数进行网络损失计算，在Loss中增加了dropout层以减少训练过程中出现过拟合问题。并采用截断反向传播算法避免训练中的梯度消失问题。LSTM的学习率是0.0004，梯度下降算法也采用了Adam优化器。累计训练50,000步后，后续训练系统的手势识别准确率不再提高，因此本发明在训练50,000步后停止。

4)第4阶段

上述3步训练完成后，PKEN、交警手势空间特征提取器和LSTM网络依次连接构成了交警手势识别机CTPGR。CTPGR以包含交警手势的视频作为输入，其输出为识别出的交警手势类别。

Claims

1.基于卷积姿势机和长短时记忆的交警手势识别方法，其特征在于包括：

(1)基于关节点和骨架的交警手势建模

通过分析交警手势均由连贯的头部转动、双臂摆动并结合手势组成，是典型的关节铰接型姿态；交警的铰链式姿势抽象为14个部件，这些部件的坐标，其集合为Y；Y由头部关键节点Y_head、上身关键节点Y_upper、下身关键节点Y_lower三个集合构成，即

依据人体骨骼及相互间的依赖关系，Y中相邻关键节点间存在连接依赖关系；交警手势所含关键节点间的连接关系集合表示为S；s为其中的一条关键节点连接，即s∈S；其起始关键节点和终止关键节点分别为Y_m和Y_n，则

表示了交警手势所含的一条骨架矢量；

S由头部骨架S_head、上身骨架S_upper和下身骨架S_lower3部分构成；即：

(2)基于卷积姿势机(Conventional Pose Machine,CPM)的交警手势关键节点提取技术

设

为包含交警手势的图像上所有位置坐标(u,v)的集合，

为二维实数集；在图像中交警手势每个部件的位置用Y_k表示，

交警手势总共包含14个部件，因此Y_k∈{Y₁,…,Y₁₄}；交警手势关键节点提取网络(Police Key-point ExtractingNetwork,PKEN)由一系列多类预测器g_t(·)组成，它们被训练用来预测同一图像在不同感受野下每个部件的位置；具体而言，g_t(·)是一个分类器，下标t∈{1,…,T}表示分类的阶段，每个阶段的感受野不同；g_t(·)预测该感受野下图像中点z属于部件Y_k的置信度，用b表示置信度值；这些g_t(·)具有相同目标函数值即真实的置信度；当t>1时，g_t(·)是从图像位置z提取的特征值x_z和每个关键节点Y_k在t-1时刻置信度的预测值的拼接函数；即：