CN111860274B

CN111860274B - 基于头部朝向与上半身骨架特征的交警指挥手势识别方法

Info

Publication number: CN111860274B
Application number: CN202010673722.9A
Authority: CN
Inventors: 江昆; 杨殿阁; 王思佳; 杨蒙蒙; 黄晋; 付峥
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2023-04-07
Anticipated expiration: 2040-07-14
Also published as: CN111860274A

Abstract

本发明涉及一种基于头部朝向与上半身骨架特征的交警指挥手势识别方法，其包括以下步骤：车载相机采集得到视频或原始图像序列后，进行交警检测、姿态估计与跟踪，确定目标交警的上半身关节点在图像中的像素坐标；估计交警头部朝向，通过交警头部朝向判断交警的指挥对象是否为自车；交警指挥手势识别，包括提取上半身骨架空间特征、提取上半身骨架时序特征和手势分类。本发明具有较高的识别准确率，能保证识别的稳定性；在节省计算资源的同时还能避免自车非交警识别对象时对手势的误判。

Description

基于头部朝向与上半身骨架特征的交警指挥手势识别方法

技术领域

本发明涉及一种自动驾驶领域，特别是关于一种基于头部朝向与上半身骨架特征的交警指挥手势识别方法。

背景技术

机动车驾驶员必须能够正确识别交警的八种指挥手势，同样地，自动驾驶汽车上路也必须能够准确理解交警的指挥意图，这样才能在需要交警介入协调的特殊情况下，遵照交警指挥手势正确行驶，保证道路交通安全顺畅。交警手势识别技术需应用于广泛的交通场景中，基于可穿戴式传感设备的行为识别方法虽然准确性较好，但使用条件局限性较强，难以在自动驾驶领域推广；而与此同时，视觉传感器在智能汽车上的安装逐渐普及，计算机视觉领域的研究日益成熟，基于视觉的手势识别方法在自动驾驶领域具有更大的应用潜力。

当前基于人体骨架信息的手势或动作识别研究非常普遍，人体骨架既保留了人体动作表征，又避免了与动作表征关联较小的外观信息的影响，能够很好地对手势或动作进行建模。基于人体骨架的手势识别一般分为时空特征提取与特征分类两个步骤。针对空间特征提取，一些基于三维骨架信息的动作识别方法中提出了一系列以关节点空间关系描述为核心的特征构建方法，例如以关节点向量的长度、角度等作为特征；针对时序特征提取，通常可采用相邻帧关节点的位置变化来描述，使用循环神经网络通过学习提取时序特征也是常用方法；近几年兴起的图神经网络也是可用于人体骨架时空特征提取的有效方法。针对特征分类，一般可采用支持向量机、随机森林、神经网络等方法。

现有的基于人体骨架的手势识别方法在相关数据集上可获得较高的准确率，也可达到实时运行的要求，但对实际交通场景下应用的考虑尚有不足。一方面，由于人流、车流来往复杂，图像中交警被部分遮挡的现象时常发生，为保证手势识别的稳定性，应考虑减少对手势表征作用较小的特征的依赖。另一方面，实际交通中，车载相机拍摄到的交警可能正在指挥其他方向的车辆，自车并非交警的指挥对象，由于训练时所用的数据通常只有交警面向相机进行指挥的情形，因此现有方法直接应用于实际交通中往往会有许多错判结果。

发明内容

针对上述问题，本发明的目的是提供一种基于头部朝向与上半身骨架特征的交警指挥手势识别方法，其具有较高的识别准确率，能保证识别的稳定性；在节省计算资源的同时还能避免自车非交警识别对象时对手势的误判。

为实现上述目的，本发明采取以下技术方案：一种基于头部朝向与上半身骨架特征的交警指挥手势识别方法，其包括以下步骤：1)车载相机采集得到视频或原始图像序列后，进行交警检测、姿态估计与跟踪，确定目标交警的上半身关节点在图像中的像素坐标；2)估计交警头部朝向，通过交警头部朝向判断交警的指挥对象是否为自车；3)交警指挥手势识别，包括提取上半身骨架空间特征、提取上半身骨架时序特征和手势分类。

进一步，所述步骤1)中，采用YOLOv3检测出图像中的交警和行人，获取包围每个交警或行人个体的边界框的左上角坐标及框的宽度和高度；然后采用AlphaPose对交警目标进行关节点估计，即获取交警关节点的像素坐标，若图像中有多个交警，则利用AlphaPose中的姿态跟踪技术进行跟踪，为每个交警分配唯一ID。

进一步，所述步骤1)中，采用的特征关节点包括0-鼻、1-左肩、2-右肩、3-左肘、4-右肘、5-左腕、6-右腕和7-肩膀中点共8个。

进一步，所述步骤2)中，具体估计方法包括以下步骤：

2.1)根据已经获取的0-鼻和7-肩膀中点的坐标估计交警头部边界框：设头部边界框为正方形，以鼻为正方形中心，两倍鼻至肩膀中点的距离2a为正方形边长；

2.2)交警头部朝向估计：采用Deep Orientation朝向估计方法，将RGB图像、深度图像或两者同时作为输入，使用改进的Biternion Net作为网络结构，输出是上半身朝向角度的二元数，即角度的余弦值和正弦值；通过将训练数据替换为行人头部边界框图像，网络输出改为行人头部朝向角度的二元数，重新训练网络；将交警头部边界框图像输入训练好的网络模型，最终得到交警头部朝向角度；

2.3)筛选出面向自车进行指挥的交警。

进一步，所述步骤2.3)中，筛选规则为：头部朝向角度估计为0°～45°以及315°～360°之间的交警，认为是正在面向自车进行指挥。

进一步，所述步骤3)中，具体识别方法包括以下步骤：

3.1)提取人体上半身骨架的空间特征：采用互有连接关系的关节点之间的长度和角度特征构成特征向量，用于区分不同手势；

3.2)构造循环网络模型提取上半身骨架时序特征并进行手势分类。

进一步，所述步骤3.1)中，具体包括以下步骤：

3.1.1)关节点对连接关系定义：特征长度和特征角度是针对关节点连线而言，关节点之间的连接关系共有3种，构成10组关节点对，以向量形式表达，分别为：相邻点—左肩-左肘，左肘-左腕，右肩-右肘，右肘-右腕，左肩-右肩；上肢首尾点—左肩-左腕，右肩-右腕；上半身骨架模型末端点—鼻-左腕，鼻-右腕，左腕-右腕；

3.1.2)长度特征定义：共定义了10组关节点对，相应产生10段长度，对长度进行标准化处理，以鼻到肩膀中点的距离a作为标准化的分母，设长度特征为F₁：

a＝‖X₀-X₇‖

式中，C表示所有关节点对连接关系的集合，

为具有连接关系c的一组关节点对中的第i个点在图像中的像素坐标，，i＝1,2，序号1表示关节点对向量的起点，2表示终点，当两个关节点中任意一个未被检测出来，直接令其长度为0；X₀为交警鼻部的像素坐标，X₇为交警左肩和右肩像素坐标的中点，当鼻、左肩、右肩任一关节点未被检测出来，直接令a＝1；

3.1.3)角度特征定义：将关节点对向量与重力方向夹角的余弦值和正弦值作为角度特征，设重力方向的单位向量为u₀,则角度特征向量F₂为：

如果任一关节点未被检测出来，直接令角度特征为[0,0]。

进一步，所述步骤3.2)中，设t时刻的空间特征向量为

将t至t+b-1时刻共b帧空间特征向量输入手势分类模型，模型输出每一时刻的手势分类结果。

进一步，所述手势分类模型的建立方法包括以下步骤：

3.2.1)采集交警手势视频，建立数据集；

3.2.2)计算交警关节点空间特征向量：对每帧图像中的交警计算其空间特征向量；

3.2.3)构建网络模型：采用长短时记忆网络LSTM，网络输入的形状为[训练样本数N，时间步长b，特征维数d]，输出每一时刻每种手势的概率，概率最高的手势即为分类结果；

3.2.4)训练及验证：在训练过程中引入验证集，验证集中的交警与训练集中的交警不重复，训练过程中，每隔一预先设定周期，在验证集上测试模型性能；

3.2.5)分类结果后处理：采用基于投票机制的后处理方法对结果进行处理。

进一步，所述步骤3.2.5)中，采用双重投票机制：

第一重投票针对模型输出结果，融合最接近输出时刻的多帧分类结果：

{F^t-b′+1,…,F^t}→Mo{O^t-j+1,…,O^t}

式中，左侧为输入模型的关节点空间特征向量集合，共b′帧；右侧Mo表示求取该序列的众数，Oⁱ表示第i时刻的手势分类结果，j表示参与投票的帧数；

第二重投票综合考虑当前帧分类结果和已输出的过去帧的分类结果，通过头部朝向估计判断的“无意义”手势，需要一起进行第二重投票：

Mo{Mo{O^t-2j+2,…,O^t-j+1},…,Mo{O^t-j+1,…,O^t}}→G^t

式中，右侧的G^t表示t时刻的最终分类结果。

本发明由于采取以上技术方案，其具有以下优点：1、本发明仅使用人体上半身的关节点构造特征，通过较少的关节点仍可获得较高的识别准确率，尤其是在交警下半身受到频繁遮挡时，仍能保证识别的稳定性。2、本发明能够适应实际交通场景的应用情形，仅在自车作为交警指挥对象时进行手势识别，在节省计算资源的同时还能避免自车非交警识别对象时对手势的误判。

附图说明

图1是本发明的整体流程示意图。

图2是本发明实施例中采用的交警人体关节点示意图。

图3是本发明中交警头部估计边界框的示意图。

图4是本发明实施例中采用的交警头部朝向角度示意图。

图5是本发明中互有连接关系的关节点对向量示意图。

图6是本发明中手势分类模型建立的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种基于头部朝向与上半身骨架特征的交警指挥手势识别方法，包括以下步骤：

1)车载相机采集得到视频或原始图像序列后，进行交警检测、姿态估计与跟踪，确定目标交警的上半身关节点在图像中的像素坐标，由于本发明不涉及具体实现关节点估计的方法，因此对其不作限制。

由于交通场景图像中通常有多人同时存在，必须将每一帧中属于目标交警的关节点关联起来，即给图像序列中的每个人分配唯一ID，才能为识别交警手势提供正确的、连续的关节点特征信息，因此在本实施例中，首先采用YOLOv3检测出图像中的交警和行人，即获取包围每个交警或行人个体的边界框的左上角坐标及框的宽度和高度；然后采用AlphaPose对交警目标进行关节点估计，即获取交警关节点的像素坐标，若图像中有多个交警，则利用AlphaPose中的姿态跟踪技术进行跟踪，为每个交警分配唯一ID。

本发明中使用的特征关节点包括0-鼻、1-左肩、2-右肩、3-左肘、4-右肘、5-左腕、6-右腕、7-肩膀中点共8个，如图2中的黑色实心点所示，其中肩膀中点通过左右肩坐标计算得到。

2)估计交警头部朝向，通过交警头部朝向判断交警的指挥对象是否为自车。

2.1)交警头部边界框估计。

根据已经获取的0-鼻和7-肩膀中点的坐标估计交警头部边界框：设头部边界框为正方形，以鼻为正方形中心，两倍鼻至肩膀中点的距离2a为正方形边长，如图2所示。

将估计得到的头部边界框内的图像裁剪出来，作为头部朝向估计的输入。

2.2)交警头部朝向估计。本发明不涉及具体实现交警头部朝向估计的方法，因此对其不作限制。本实施例中采用Deep Orientation朝向估计方法，该方法原本用于人体上半身朝向估计，可将RGB图像、深度图像或两者同时作为输入，使用改进的Biternion Net作为网络结构，输出是上半身朝向角度的二元数，即角度的余弦值和正弦值。通过将训练数据替换为行人头部边界框图像，固定输入尺寸为48×48，网络输出改为行人头部朝向角度的二元数，重新训练网络。将交警头部边界框图像输入训练好的网络模型，最终得到交警头部朝向角度。考虑到人体头部朝向变化的连续性，进一步采用卡尔曼滤波方法对头部朝向进行跟踪作为后处理。

2.3)筛选出面向自车进行指挥的交警。交警头部朝向的角度定义如图3所示，筛选规则为：头部朝向角度估计为0°～45°以及315°～360°之间的交警(如图4所示)，认为是正在面向自车进行指挥。若判断该交警不在指挥自车，则判定该时刻t的交警手势O^t为“无意义”。需注意的是，O^t是中间结果，最终输出的识别结果在步骤3.2.5)中说明。

3)交警指挥手势识别，包括提取上半身骨架空间特征、提取上半身骨架时序特征和手势分类。

具体识别方法包括以下步骤：

3.1)提取人体上半身骨架的空间特征。交警指挥手势主要通过上肢动作和身体转向表达，本发明采用互有连接关系的关节点之间的长度和角度特征构成特征向量，用于区分不同手势。

3.1.1)关节点对连接关系定义。特征长度和特征角度是针对关节点连线而言的，本发明中关节点之间的连接关系共有3种，构成10组关节点对，以向量形式表达，分别为：相邻点—左肩-左肘，左肘-左腕，右肩-右肘，右肘-右腕，左肩-右肩；上肢首尾点—左肩-左腕，右肩-右腕；上半身骨架模型末端点—鼻-左腕，鼻-右腕，左腕-右腕，如图5所示。

3.1.2)长度特征定义。本发明中共定义了10组关节点对，相应产生10段长度。为避免不同个体之间身形差异、距相机距离远近对手势识别带来的影响，因此对长度进行标准化处理，以鼻到肩膀中点的距离a(图5中的黑色虚线)作为标准化的分母，由于对于交警指挥场景该距离一般较为稳定，随指挥动作或视角变化较小，因此用该距离作为标准化的分母是合适的。设长度特征为F₁：

a＝‖X₀-X₇‖ (2)

式中，C表示所有关节点对连接关系的集合，

为具有连接关系c的一组关节点对中的第i个点在图像中的像素坐标，序号1表示关节点对向量的起点，2表示终点，当两个关节点中任意一个未被检测出来，直接令其长度为0；X₀为交警鼻部的像素坐标，X₇为交警左肩和右肩像素坐标的中点，当鼻、左肩、右肩任一关节点未被检测出来，直接令a＝1。根据以上定义，F₁是一个10维向量。

3.1.3)角度特征定义。将关节点对向量与重力方向夹角的余弦值和正弦值作为角度特征。设重力方向的单位向量为u₀,则角度特征向量F₂可写为：

同样地，如果计算式(3)时任一关节点未被检测出来，直接令角度特征为[0,0]。根据以上定义，F₂是一个20维向量。

由于在步骤3.1)中定义了交警在单帧图像中的关节点空间特征，为了更准确地对手势动作进行分类，需考虑连续多帧的关节点空间特征之间的联系，即时序特征。

设t时刻的空间特征向量为

将t至t+b-1时刻共b帧空间特征向量输入手势分类模型，模型输出每一时刻的手势分类结果。考虑到实际应用时，分类结果是逐帧输出，因此应用该模型时，仅保留t+b-1时刻的手势分类结果作为输出结果。如图6所示，手势分类模型的建立方法包括以下步骤：

3.2.1)采集交警手势视频，建立数据集。

根据实际需要，可采集不同情形下的交警手势视频，逐帧标注手势类别，并将数据集划分为训练集、验证集和测试集，一般可采用3:1:1的划分比例，注意每个子集中各类手势样本量应较为均匀。也可直接使用公开的数据集进行训练和测试。

3.2.2)计算交警关节点空间特征向量。

根据步骤1)、2)，可对每帧图像中的交警计算其空间特征向量。

3.2.3)构建网络模型。手势分类可通过循环神经网络模型实现，在本实施例中采用长短时记忆网络LSTM，网络输入的形状为[训练样本数N，时间步长b，特征维数d]，输出每一时刻每种手势的概率，概率最高的手势即为分类结果。

本实施例中采用一个标准LSTM层和一个全连接层组成分类模型，LSTM层的隐藏单元数设为32，全连接层输出维数设为9(对应8种指挥手势和其它“无意义”动作)，采用softmax后的交叉熵损失函数，优化器选用Adam Optimizer。

3.2.4)训练及验证。在本实施例中，为了确保训练得到的模型有较好的泛化性，在训练过程中引入验证集，验证集中的交警与训练集中的交警不重复。训练过程中，每隔一预先设定周期，在验证集上测试模型性能，间隔周期数不作限制。当验证集上损失不再下降或变化缓慢，即可停止训练，认为此时的模型已经训练充分。

3.2.5)分类结果后处理。实际应用时，受硬件条件限制，每帧手势分类所使用的空间特征帧数有限，且每帧分类结果依次输出，为提高输出的稳定性，采用基于投票机制的后处理方法对结果进行处理。本发明采用双重投票机制。第一重投票针对模型输出结果，由于模型会输出所有输入帧每一帧的输出结果，因此可融合最接近输出时刻的多帧分类结果，如式(4)：

{F^t-b′+1,…,F^t}→Mo{O^t-j+1,…,O^t} (4)

式(4)左侧为输入模型的关节点空间特征向量集合，共b′帧，注意应用时的b′与模型训练时的b可以不相等；右侧Mo表示求取该序列的众数，Oⁱ表示第i时刻的手势分类结果，j表示参与投票的帧数。第二重投票综合考虑当前帧分类结果和已输出的过去帧的分类结果，在步骤2)中通过头部朝向估计判断的“无意义”手势，需要一起进行第二重投票，如式(5)：

Mo{Mo{O^t-2j+2,…,O^t-j+1},…,Mo{O^t-j+1,…,O^t}}→G^t (5)

式(5)右侧的G^t即表示t时刻的最终分类结果。

综上，本发明提供的基于头部朝向与上半身骨架特征的交警手势识别方法以车载相机采集的连续图像或视频作为信息源，首先通过交警检测、二维人体姿态估计、姿态跟踪等技术确定目标交警及其上半身关节点在图像中的坐标；根据其鼻部和肩膀中点位置粗略划定交警头部边界框，进一步估计其头部朝向，判断自车是否是交警的指挥对象，若是则提取交警上半身骨架的空间特征向量，并利用长短时记忆网络构建手势分类模型，实现交警指挥手势的识别。

上述各实施例仅用于说明本发明，各个步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种基于头部朝向与上半身骨架特征的交警指挥手势识别方法，其特征在于包括以下步骤：

1)车载相机采集得到视频或原始图像序列后，进行交警检测、姿态估计与跟踪，确定目标交警的上半身关节点在图像中的像素坐标；

2)估计交警头部朝向，通过交警头部朝向判断交警的指挥对象是否为自车；

3)交警指挥手势识别，包括提取上半身骨架空间特征、提取上半身骨架时序特征和手势分类；

所述步骤1)中，采用YOLOv3检测出图像中的交警和行人，获取包围每个交警或行人个体的边界框的左上角坐标及框的宽度和高度；然后采用AlphaPose对交警目标进行关节点估计，即获取交警关节点的像素坐标，若图像中有多个交警，则利用AlphaPose中的姿态跟踪技术进行跟踪，为每个交警分配唯一ID；

所述步骤1)中，采用的特征关节点包括0-鼻、1-左肩、2-右肩、3-左肘、4-右肘、5-左腕、6-右腕和7-肩膀中点共8个；

所述步骤2)中，具体估计方法包括以下步骤：

2.3)筛选出面向自车进行指挥的交警；

所述步骤3)中，具体识别方法包括以下步骤：

2.如权利要求1所述交警指挥手势识别方法，其特征在于，所述步骤2.3)中，筛选规则为：头部朝向角度估计为0°～45°以及315°～360°之间的交警，认为是正在面向自车进行指挥。

3.如权利要求1所述交警指挥手势识别方法，其特征在于，所述步骤3.1)中，具体包括以下步骤：

a＝‖X₀-X₇‖

式中，C表示所有关节点对连接关系的集合，

为具有连接关系c的一组关节点对中的第i个点在图像中的像素坐标，i＝1,2，序号1表示关节点对向量的起点，2表示终点，当两个关节点中任意一个未被检测出来，直接令其长度为0；X₀为交警鼻部的像素坐标，X₇为交警左肩和右肩像素坐标的中点，当鼻、左肩、右肩任一关节点未被检测出来，直接令a＝1；

如果任一关节点未被检测出来，直接令角度特征为[0,0]。

4.如权利要求3所述交警指挥手势识别方法，其特征在于，所述步骤3.2)中，设t时刻的空间特征向量为

5.如权利要求4所述交警指挥手势识别方法，其特征在于，所述手势分类模型的建立方法包括以下步骤：

3.2.1)采集交警手势视频，建立数据集；

6.如权利要求5所述交警指挥手势识别方法，其特征在于，所述步骤3.2.5)中，采用双重投票机制：

{F^t-b′+1,…,F^t}→Mo{O^t-j+1,…,O^t}

Mo{Mo{O^t-2j+2,…,O^t-j+1},…,Mo{O^t-j+1,…,O^t}}→G^t

式中，右侧的G^t表示t时刻的最终分类结果。