CN112712061A

CN112712061A - 适用于多方向交警指挥手势的识别方法、系统及存储介质

Info

Publication number: CN112712061A
Application number: CN202110061311.9A
Authority: CN
Inventors: 杨蒙蒙; 杨殿阁; 王思佳; 江昆; 付峥; 陈俊杰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-04-27
Anticipated expiration: 2041-01-18
Also published as: CN112712061B

Abstract

本发明涉及一种适用于多方向交警指挥手势的识别方法、系统及存储介质，其包括：根据原始信息获取目标交警关节点的热图和像素坐标；基于关节点热图构造两类姿态特征，分别为上半身关节点空间特征和全身关节点共现性特征；根据两类姿态特征，基于预先建立的基于长短时记忆网络的两阶段学习框架实现身体朝向识别和交警指挥手势的识别，获得指挥方法和手势类别。本发明能同时识别出指挥方向和手势含义，具有较高的识别准确率。

Description

适用于多方向交警指挥手势的识别方法、系统及存储介质

技术领域

本发明涉及一种自动驾驶环境感知领域，特别是关于一种适用于多方向交警指挥手势的识别方法、系统及存储介质。

背景技术

交通拥堵在世界范围内普遍存在，尤其在遇到突发事件时，往往伴随交通堵塞的发生，大大降低了通行效率，不利于节能、安全与舒适。交警的干预和指挥是疏通交通的直接有效方式之一，中国交通法规中规定的八种指挥手势可满足日常交通引导的需求，正确理解指挥手势是对每一位机动车驾驶员的基本要求，随着智能交通、自动驾驶技术的蓬勃发展，对交通指挥手势的识别也已经列入了智能交通产业的相关标准。

针对手势识别问题，一般采用基于可穿戴式设备的方法或基于视觉传感器的方法。可穿戴式设备虽能精准捕捉手势动作，但额外增加了系统复杂程度，提高了使用成本，且灵活性不足，难以大范围推广使用；而前视相机目前已在汽车上广泛安装，也是未来实现自动驾驶的必需传感器之一，在计算机视觉领域手势识别技术日趋成熟的当前，视觉方案是实现交警指挥手势识别的主流途径。

人体骨架是常用于手势识别的一类信息，对于连续动作表征的手势，一般提取人体关节点的位置并构造空间和时序上的特征，再进行手势分类。由于交警指挥手势的定义明确，不同手势之间差异显著，加上车载计算资源的限制、应用场景复杂性等约束，采用人体关节点在图像上的二维位置即可实现较为快速准确的指挥手势识别。

现有研究主要聚焦于面向自车的手势识别，一般需要先判断自车是否为指挥对象，再识别指挥手势的含义。然而，对于自动驾驶汽车，当交警对其他方向的车辆进行指挥时，如自车能正确理解其指挥含义，将使自车对周围环境的认知更完整，从而有利于自车的决策和规划，因此对多方向的指挥手势识别也是必要的，但当前尚无基于二维关节点信息实现的多方向交警指挥手势识别方法。

发明内容

针对上述问题，本发明的目的是提供一种适用于多方向交警指挥手势的识别方法、系统及存储介质，能同时识别出指挥方向和手势含义，具有较高的识别准确率。

为实现上述目的，本发明采取以下技术方案：一种适用于多方向交警指挥手势的识别方法，其包括：步骤1)、根据原始信息获取目标交警关节点的热图和像素坐标；步骤2)、基于关节点热图构造两类姿态特征，分别为上半身关节点空间特征和全身关节点共现性特征；步骤3)、根据两类姿态特征，基于预先建立的基于长短时记忆网络的两阶段学习框架实现身体朝向识别和交警指挥手势的识别，获得指挥方法和手势类别。

进一步，所述步骤1)中，原始信息是指以车载相机采集到的连续图像或视频。

进一步，所述步骤1)中，关节点像素坐标获取方法为：采用YOLOv3网络检测出图像中的交警位置，然后采用Deep SORT实现跟踪，当图像序列或视频中存在交警时，采用AlphaPose估计其关节点像素坐标。

进一步，所述步骤2)中，上半身关节点空间特征构造具体为构造上半身关节点对之间的长度特征和角度特征：基于关节点对向量分别计算长度特征和角度特征，其中角度特征用关节点对向量与重力方向夹角的余弦值和正弦值表征，两类特征构成空间特征集。

进一步，所述步骤2)中，全身关节点共现性特征包括多个任意两个关节点之间的共现性特征值；任意两个关节点之间的共现性特征值定义为：以两个关节点估计位置为中心的局部热图所构成的热值矩阵的点积；若两个关节点均可见，则该特征值大；若两个关节点均受遮挡，则该特征值小。

进一步，所述步骤3)中，在基于长短时记忆网络的两阶段学习框架中，第一阶段先实现身体朝向检测，并将身体朝向特征进一步用于第二阶段学习中，实现交警指挥手势的分类。

进一步，所述基于长短时记忆网络的两阶段学习框架中，采用LSTM作为基本单元；对于上半身关节点空间特征，采用1个LSTM单元，对于全身关节点共现性特征，采用三个LSTM单元串联。

进一步，所述身体朝向识别和交警指挥手势的识别方法为：在第一阶段中，将两支LSTM网络输出的特征串联，输入全卷积层，输出五维数组，数组中最大值对应的维度即为所识别出的方向类别；在第二阶段中，采用两支LSTM网络输出的串联特征，并将第一阶段中的五维数组作为方向特征也串联到空间特征中，输入全卷积层，输出九维数组，数组中最大值对应的维度即为所识别出的手势类别。

一种适用于多方向交警指挥手势的识别系统，其包括：关节点热图及像素坐标获取模块、姿态特征构造模块和识别模块；所述关节点热图及像素坐标获取模块根据原始信息获取目标交警关节点的热图和像素坐标；所述姿态特征构造模块基于关节点热图构造两类姿态特征，分别为上半身关节点空间特征和全身关节点共现性特征；所述识别模块根据两类姿态特征，基于预先建立的基于长短时记忆网络的两阶段学习框架实现身体朝向识别和交警指挥手势的识别，获得指挥方法和手势类别。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

本发明由于采取以上技术方案，其具有以下优点：本发明仅依赖视觉传感器，使用二维人体关节点坐标信息，实现了对交警指挥方向和手势的识别，有利于自动驾驶汽车或驾驶员对当前环境下的交通状态形成更全面的认知，为决策和规划提供了更丰富的信息，在不另外增加设备成本的前提下有效提升了车辆环境感知的水平。

附图说明

图1是本发明实施例中的方法整体流程示意图。

图2是本发明实施例中采用的人体关节点模型及关节点对连接示意图。

图3是本发明实施例中采用的交警身体朝向分类示意图。

图4是本发明实施例中的网络架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种适用于多方向交警指挥手势的识别方法，包括以下步骤：

步骤1)、根据原始信息获取目标交警关节点的热图和像素坐标。

其中，原始信息是指以车载相机采集到的连续图像或视频；

热图和像素坐标的获取方法为：通过目标检测、跟踪及二维人体姿态估计等方法获取目标交警关节点在图像中的热图和像素坐标。本发明不涉及具体实现关节点估计的方法，因此对其不作限制。

具体的，在本实施例中，采用YOLOv3网络检测出图像中的交警位置，即获取目标边界框的左上角像素坐标和框的宽度和高度；然后采用Deep SORT实现跟踪，即为连续帧图像中的同一目标分配唯一ID，以确保后续的关节点估计和手势识别始终是针对同一目标进行的。当图像序列或视频中存在交警时，采用AlphaPose估计其关节点像素坐标。由于交通指挥手势具有通用性，非交警的普通人也可做出同样手势，若实际应用场景中允许系统不区分交警和普通人，只要求识别出交通指挥手势，则在目标检测步骤中，只需对人进行检测即可。

如图2所示，本发明中用于构造特征的人体关节点包括0-鼻、1-左肩、2-右肩、3-左肘、4-右肘、5-左腕、6-右腕、7-左胯、8-右胯、9-左膝、10-右膝、11-左踝、12-右踝。

步骤2)、基于关节点热图构造两类姿态特征，分别为上半身关节点空间特征和全身关节点共现性特征。

具体构造方法包括：

步骤2.1)、构造上半身关节点空间特征。

考虑到交警指挥手势的表达仅与手臂动作和身体朝向相关，因此只使用上半身关节点0-6构造空间特征，具体为构造上半身关节点对之间的长度特征和角度特征。

如图2所示，对关节点定义连接关系：1-3、3-5、2-4、4-6、1-2、1-5、2-6、0-5、0-6、5-6，共形成10组关节点对，以向量形式表达，对向量方向不作规定，但在计算空间特征过程中不应再改变向量方向。基于关节点对向量分别计算长度特征和角度特征，其中角度特征用关节点对向量与重力方向夹角的余弦值和正弦值表征，两类特征构成空间特征集F。

式中，C是定义的关节点对的集合，

为关节点对c中的第i个点的像素坐标，sgn(·)是符号函数，u₀是重力方向的单位向量；考虑到关节点对长度会随目标距相机的距离变化，且因为人体身形差异，长度也会不同，因此引入长度标准化，将鼻部X₀到左右肩中点X₁₇的距离a作为标准化分母，X₁₇的位置由左右肩坐标X₁、X₂计算得到：X₁₇＝(X₁+X₂)/2，当鼻、左肩、右肩中的任意一点坐标未能获取，直接令a＝1。当关节点对中任一关节点坐标未能估计得到，直接令该关节点对的三个特征向量为0。根据以上定义，F是一个30维向量。

2.2)构造全身关节点共现性特征。

相较于只面向自车的交警手势识别，多方向手势识别需解决的关键问题是如何判断交警的指挥方向，在本实施例中引入关节点共现性特征来表征交警的朝向。

该关节点共现性特征的构造采用估计关节点的热图，由关节点估计网络输出。每个关节点对应一幅热图，热图上每个像素对应的值表示相应关节点落在该位置上的概率大小。一般来说，可见的关节点的热图极大值比受遮挡的关节点的热图极大值大，而当交警朝向变化、手势变化时，其全身关节点的可见性也会有变化，因此热图本身隐含了朝向特征。

全身关节点共现性特征包括多个任意两个关节点之间的共现性特征值；任意两个关节点之间的共现性特征值定义为：以两个关节点估计位置为中心的局部热图所构成的热值矩阵的点积。若两个关节点均可见，则该特征值大；若两个关节点均受遮挡，则该特征值小。具体计算式如下：

式中，c_ij表示第i个关节点与第j个关节点的共现性特征，

分别是以第i,j个关节点估计位置为中心的n×n局部热图上的p位置处的热值。对17个关节点两两计算共现性特征，共获得289个特征值，将其写成一个289维向量。

步骤3)、根据两类姿态特征，基于预先建立的基于长短时记忆网络的两阶段学习框架实现身体朝向识别和交警指挥手势的识别，获得指挥方法和手势类别；

在基于长短时记忆网络的两阶段学习框架中，第一阶段先实现身体朝向检测，并将身体朝向特征进一步用于第二阶段学习中，实现交警指挥手势的分类。在本实施例中，仅对身体朝向分为向前、向左、向后、向右四类，如图3所示，考虑到可能出现图像中不存在目标的情况，因此另设第五类为“无”。

本实施例的网络两阶学习框架示意图如图4所示。步骤2)中定义的特征均为单帧图像中的空间特征，为提取连续图像中的时序特征，在本实施例中，采用长短时记忆网络(Long short-term memory，LSTM)作为基本单元，组成网络框架。对于上半身关节点空间特征，采用1个LSTM单元，其隐单元数为32；对于全身关节点共现性特征，采用三个LSTM单元串联，每个LSTM的隐单元数为256。

具体识别过程为：在第一阶段中，将两支LSTM网络输出的特征串联，输入全卷积层，输出五维数组，数组中最大值对应的维度即为所识别出的方向类别。在第二阶段中，仍使用两支LSTM网络输出的串联特征，并将第一阶段中的五维数组作为方向特征也串联到空间特征中，输入全卷积层，输出九维数组，数组中最大值对应的维度即为所识别出的手势类别(第九类为“无意义”动作)。

综合两阶段输出结果，可获得目标交警的身体朝向和指挥手势，进而可推断出交警的指挥方向。

上述步骤3)中，对基于长短时记忆网络的两阶段学习框架模型进行训练及验证，具体包括以下步骤：

步骤3.1)、数据集采集与标注。采集交警面向多方向进行指挥手势的视频，在本实施例中采集4个方向的视频，各个方向的手势数量应差不多。对视频逐帧标注交警的身体朝向类别和手势类别，分别用数字0-4和数字0-9表示。将数据集划分为训练集、验证集和测试集，注意每个子集中各个方向和各类手势的样本量应较为均匀。

步骤3.2)、训练模型。设b为时间步长，将连续b帧的空间特征向量输入模型，输入形状为[训练样本数N，时间步长b，特征维数d_i](i∈{1,2}为网络分支序号)，输出b帧分类结果，具体采用softmax后的交叉熵损失函数，优化器选用Adam Optimizer，分别充分训练两个阶段的模型。在第二阶段手势识别网络的训练中，为增强输出结果的稳定性，采用延迟标签策略，即将真值标签滞后一定帧数，在本实施例中滞后的帧数设为7。

步骤3.3)模型验证。测试时，输入时间步长可根据实际需求设置，可以不等于训练时的输入时间步长b。输出结果是逐帧的交警身体朝向和手势分类结果。在本实施例中，对于网络输出结果采用最大投票机制，即综合考虑当前帧输出结果和前序输出的k帧结果，将序列中最多出现的方向或手势类别作为当前帧的最终输出，以此提升结果的稳定性。

本发明还提供一种适用于多方向交警指挥手势的识别系统，其包括：关节点热图及像素坐标获取模块、姿态特征构造模块和识别模块；

关节点热图及像素坐标获取模块根据原始信息获取目标交警关节点的热图和像素坐标；

姿态特征构造模块基于关节点热图构造两类姿态特征，分别为上半身关节点空间特征和全身关节点共现性特征；

识别模块根据两类姿态特征，基于预先建立的基于长短时记忆网络的两阶段学习框架实现身体朝向识别和交警指挥手势的识别，获得指挥方法和手势类别。

本发明还提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行上述方法中的任一方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种适用于多方向交警指挥手势的识别方法，其特征在于，包括：

步骤1)、根据原始信息获取目标交警关节点的热图和像素坐标；

步骤2)、基于关节点热图构造两类姿态特征，分别为上半身关节点空间特征和全身关节点共现性特征；

步骤3)、根据两类姿态特征，基于预先建立的基于长短时记忆网络的两阶段学习框架实现身体朝向识别和交警指挥手势的识别，获得指挥方法和手势类别。

2.如权利要求1所述识别方法，其特征在于，所述步骤1)中，原始信息是指以车载相机采集到的连续图像或视频。

3.如权利要求1所述识别方法，其特征在于，所述步骤1)中，关节点像素坐标获取方法为：采用YOLOv3网络检测出图像中的交警位置，然后采用Deep SORT实现跟踪，当图像序列或视频中存在交警时，采用AlphaPose估计其关节点像素坐标。

4.如权利要求1所述识别方法，其特征在于，所述步骤2)中，上半身关节点空间特征构造具体为构造上半身关节点对之间的长度特征和角度特征：基于关节点对向量分别计算长度特征和角度特征，其中角度特征用关节点对向量与重力方向夹角的余弦值和正弦值表征，两类特征构成空间特征集。

5.如权利要求1所述识别方法，其特征在于，所述步骤2)中，全身关节点共现性特征包括多个任意两个关节点之间的共现性特征值；任意两个关节点之间的共现性特征值定义为：以两个关节点估计位置为中心的局部热图所构成的热值矩阵的点积；若两个关节点均可见，则该特征值大；若两个关节点均受遮挡，则该特征值小。

6.如权利要求1所述识别方法，其特征在于，所述步骤3)中，在基于长短时记忆网络的两阶段学习框架中，第一阶段先实现身体朝向检测，并将身体朝向特征进一步用于第二阶段学习中，实现交警指挥手势的分类。

7.如权利要求6所述识别方法，其特征在于，所述基于长短时记忆网络的两阶段学习框架中，采用LSTM作为基本单元；对于上半身关节点空间特征，采用1个LSTM单元，对于全身关节点共现性特征，采用三个LSTM单元串联。

8.如权利要求7所述识别方法，其特征在于，所述身体朝向识别和交警指挥手势的识别方法为：在第一阶段中，将两支LSTM网络输出的特征串联，输入全卷积层，输出五维数组，数组中最大值对应的维度即为所识别出的方向类别；在第二阶段中，采用两支LSTM网络输出的串联特征，并将第一阶段中的五维数组作为方向特征也串联到空间特征中，输入全卷积层，输出九维数组，数组中最大值对应的维度即为所识别出的手势类别。

9.一种适用于多方向交警指挥手势的识别系统，其特征在于，包括：关节点热图及像素坐标获取模块、姿态特征构造模块和识别模块；

所述关节点热图及像素坐标获取模块根据原始信息获取目标交警关节点的热图和像素坐标；

所述姿态特征构造模块基于关节点热图构造两类姿态特征，分别为上半身关节点空间特征和全身关节点共现性特征；

所述识别模块根据两类姿态特征，基于预先建立的基于长短时记忆网络的两阶段学习框架实现身体朝向识别和交警指挥手势的识别，获得指挥方法和手势类别。

10.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至8所述方法中的任一方法。