CN111401188B

CN111401188B - 一种基于人体关键点特征的交警手势识别方法

Info

Publication number: CN111401188B
Application number: CN202010161666.0A
Authority: CN
Inventors: 江昆; 杨殿阁; 王思佳; 杨蒙蒙
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2023-10-31
Anticipated expiration: 2040-03-10
Also published as: CN111401188A

Abstract

本发明涉及一种基于人体关键点特征的交警手势识别方法，其包括以下步骤：获取车载相机采集的原始图像中的交警边界框和关键点坐标；构造关键点特征向量；识别交警手势：采用事先训练好的手势识别模型，输入当前时刻及其之前连续多帧的关键点特征向量，输出当前时刻的手势识别结果。本发明能避免大量真实交通场景交警指挥图像的采集需求，同时利用深度学习方法取得较高的识别准确率。

Description

一种基于人体关键点特征的交警手势识别方法

技术领域

本发明涉及一种手势识别方法，特别是关于一种基于计算机视觉、应用于自动驾驶领域的基于人体关键点特征的交警手势识别方法。

背景技术

交警手势识别是自动驾驶环境感知与认知中的必要任务之一。随着交通指示灯的普及，日常生活中交警指挥车辆行为的现象越来越少，但驾照考试中仍要求驾驶人能够识别八种交警手势，在查车、特殊路段通行等交警介入的情形下，车辆必须服从交警指挥。在自动驾驶逐渐落地过程中，道路上自动驾驶汽车与普通汽车混杂是必经阶段，因此自动驾驶汽车应当具备识别交警手势的能力，以应对有交警介入的特殊情况，保证道路通行安全畅通。

应用于自动驾驶的交警手势识别一般采用基于视觉的方法，通过对车载相机拍摄到的车辆前方图像进行处理，提取图像中的交警特征并对其动作进行识别，从而理解交警指挥含义。然而，基于视觉的算法的识别效果往往容易受到背景、光照等条件影响，拥挤、混杂的交通场景也会加大手势识别的难度。近几年深度学习蓬勃发展，应用于目标检测、姿态估计等视觉领域内的热点问题，取得了更优异的效果，但深度学习往往需要大量数据，目前真实交通场景中交警指挥并不常见，若想要直接使用含交警的交通场景图像用于训练，数据采集将会成为巨大的挑战。

发明内容

针对上述问题，本发明的目的是提供一种基于人体关键点特征的交警手势识别方法，其能避免大量真实交通场景交警指挥图像的采集需求，同时利用深度学习方法取得较高的识别准确率。

为实现上述目的，本发明采取以下技术方案：一种基于人体关键点特征的交警手势识别方法，其包括以下步骤：1)获取车载相机采集的原始图像中的交警边界框和关键点坐标；2)构造关键点特征向量；3)识别交警手势：采用事先训练好的手势识别模型，输入当前时刻及其之前连续多帧图像的关键点特征向量，输出当前时刻的手势识别结果。

进一步，所述步骤1)中，关键点包括左肩、右肩、左肘、右肘、左腕、右腕、左胯和右胯共8个人体关节点。

进一步，所述步骤2)中，特征向量X的具体构造方法包括以下步骤：2.1)身体朝向特征向量X_躯干由4个特征分量x₁,x₂,x₃,x₄构成；x₁,x₂为表征躯干宽度的特征分量，x₃,x₄为表征躯干角度的特征分量，分别定义为左右肩连线与水平方向夹角的正切值和左右胯连线与水平方向夹角的正切值；2.2)左臂动作特征向量X_左臂由4个特征分量x₅,x₆,x₇,x₈构成；x₅,x₆分别是左大臂和左小臂的长度特征，x₇,x₈分别表征左大臂和左小臂抬起的角度，定义为其与竖直向下方向的夹角的余弦值；2.3)右臂动作特征向量X_右臂由4个特征分量x₉,x₁₀,x₁₁,x₁₂构成；x₉,x₁₀分别是右大臂和右小臂的长度特征，x₁₁,x₁₂分别表征右大臂和右小臂抬起的角度，定义为其与竖直向下方向的夹角的余弦值。

进一步，所述4个特征分量x₁,x₂,x₃,x₄分别为：

式中，x_左肩＝(x_左肩,y_左肩),x_右肩＝(x_右肩,y_右肩),x_左胯＝(x_左胯,y_左胯),x_右胯＝(x_右胯,y_右胯)分别为图像中交警左肩、右肩、左胯、右胯的像素坐标；d_r为参考长度，设为两侧肩与胯之间长度的平均值，通过参考长度d_r对特征分量x₁,x₂进行标准化处理。

进一步，所述4个特征分量x₅,x₆,x₇,x₈分别为：

式中，x_左肘＝(x_左肘,y_左肘),x_左腕＝(x_左腕,y_左腕)分别为图像中交警左肘、左腕的像素坐标；通过参考长度d_r对特征分量x₅,x₆进行标准化处理。

进一步，所述4个特征分量x₉,x₁₀,x₁₁,x₁₂分别为：

式中，x_右肘＝(x_右肘,y_右肘),x_右腕＝(x_右腕,y_右腕)分别为图像中交警右肘、右腕的像素坐标；通过参考长度d_r对特征分量x₉,x₁₀进行标准化处理。

进一步，所述步骤3)中，手势识别模型的建立方法包括以下步骤：3.1)采集交警手势视频，建立数据集；3.2)将数据集划分训练集、验证集和测试集；3.3)计算交警的关键点特征向量：通过步骤1)的交警和关键点检测，以及步骤2)的关键点特征向量，可计算出每一帧图像中交警的关键点特征向量；3.4)构造手势识别网络并训练：由一个LSTM层、一个Dense层、一个激活层构成手势识别模型，LSTM层的隐藏单元数设为32，Dense层的输出维数设为9，激活函数采用Softmax，损失函数采用多分类的对数损失，优化算法采用RMSprop；充分训练后得到手势识别模型；3.5)利用测试集评估手势识别模型效果：在测试集上进行定量测试，评价指标采用Edit Distance作为准确率。

进一步，所述步骤3.1)中，采用由专人身着交警制服扮演交警指挥、在车辆静止状态下用车载相机进行拍摄；需采集的手势包括8类指挥手势，以及不含指挥意图的干扰手势，作为第9类“其他”；同时，还要从不同视角进行视频采集，模拟车辆在道路的不同位置看到交警的情形，若交警正在对其他方向的来车进行指挥，自车不受其手势指挥，则认为该手势属于“其他”类；从视频中提取图像帧，为每一帧标注手势类别。

进一步，所述步骤3.4)中，手势识别通过长短时记忆网络LSTM实现，在Keras框架下构造标准LSTM模型，输入形状为[训练样本数N，时间步长a，特征维数dim]，输出t时刻9类手势可能的概率，概率最高的手势即为识别结果。

进一步，所述步骤3.5)中，将当前帧交警关键点特征向量与之前连续a-1帧的关键点特征向量共同输入手势识别模型，输出当前帧交警手势相对于9类手势的概率，概率最高的手势即为识别结果；若在测试集上的准确率低于预设值，则继续调整识别网络的结构和参数配置，以获得更高的模型识别准确率。

本发明由于采取以上技术方案，其具有以下优点：1、本发明提取人体关键点后构造特征用于模型训练中，而非直接使用含交警的图像，因而可通过在非交通场景下人为扮演交警指挥即可获取大规模、多视角数据，避免了实车道路采集大量交警图像较为困难的限制。2、本发明采用基于长短时记忆网络LSTM的算法，利用连续多帧信息，学习交警关键点特征的时序特征，相较于传统的图像识别方法，或仅依靠关键帧手势识别指挥动作的方法，更加稳定可靠。

综上，由于本发明将人体关键点特征作为手势识别的输入，避免了大量真实交通场景交警指挥图像的采集需求，同时利用深度学习方法取得较高的识别准确率。

附图说明

图1是本发明中的交警手势识别流程图；

图2是本发明实施例中采用的交警样本边界框和关键点示意图；

图3是本发明中关键点特征向量中各分量指代含义的示意图；

图4是本发明中手势识别模型的建立流程图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明提供一种基于人体关键点特征的交警手势识别方法，该方法包括以下步骤：

1)获取车载相机采集的原始图像中的交警边界框和关键点坐标。

对车载相机采集的原始图像进行交警检测和关键点检测，获得交警边界框和关键点坐标；其中，关键点包括左肩、右肩、左肘、右肘、左腕、右腕、左胯和右胯共8个人体关节点。

本发明不涉及实现交警检测和关键点检测的方法，因此对其实现方法不作限制，凡现有技术中公开的检测方法均可采用。

在本实施例中，首先采用YOLOv3模型检测出图像中的所有行人，输出每个行人的边界框的左上角A坐标和边界框的宽度w、高度h，右下角B的坐标可由A的坐标和w、h计算得到，如图2所示。根据交通部颁布的《交通警察道路执勤执法工作规范》，规定交警在道路上执勤执法时应配备反光背心，因此可对每个行人边界框内进行背心颜色特征和反光特征的筛选，符合颜色和反光特征的行人将被认为是交警，不符合特征的行人将不再进行后续步骤。筛选出交警后，以其边界框长边为基准，将短边向两端增长至长边长度，若此时已超过原始图像范围，则可用0值进行补足，将边界框扩展为正方形，并将边长放大为原来的120％，边界框中心位置不变，以确保该交警完全在边界框以内且不变形。将处理后的交警边界框图像部分裁剪出来，形成新的交警样本图像，对其应用AlphaPose姿态估计模型。该模型遵循MSCOCO数据集中人体关键点的定义，输出17个关键点的坐标，如图2所示，编号1-17分别对应鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左踝、右踝，第18个点为左肩、右肩的中点。

2)构造关键点特征向量。

通过对8种交警手势序列的分析可知，不同手势的主要区别在于交警的身体朝向和左右臂动作，因此用于手势识别的特征向量主要由表征身体朝向和左右臂动作的特征分量构成，如图3所示，是人体关键点模型上各特征分量指代部分的简要示意图。特征向量X的具体构造方法如下：

2.1)身体朝向特征向量X_躯干由4个特征分量x₁,x₂,x₃,x₄构成：

X_躯干＝[x₁,x₂,x₃,x₄] (1)

式中，x_左肩＝(x_左肩,y_左肩),x_右肩＝(x_右肩,y_右肩),x_左胯＝(x_左胯,y_左胯),x_右胯＝(x_右胯,y_右胯)分别为图像中交警左肩、右肩、左胯、右胯的像素坐标；d_r为参考长度，设为两侧肩与胯之间长度的平均值。x₁,x₂为表征躯干宽度的特征分量，通过参考长度d_r进行标准化处理，避免识别效果受到交警样本图像尺寸大小的影响，正负号用于区分左肩(胯)、右肩(胯)在图像上的相对左右位置；x₃,x₄为表征躯干角度的特征分量，分别定义为左右肩连线与水平方向夹角的正切值和左右胯连线与水平方向夹角的正切值，为避免分母为0，令分母加一小量10^-5。

2.2)左臂动作特征向量X_左臂由4个特征分量x₅,x₆,x₇,x₈构成：

X_左臂＝[x₅,x₆,x₇,x₈] (7)

式中，x_左肘＝(x_左肘,y_左肘),x_左腕＝(x_左腕,y_左腕)分别为图像中交警左肘、左腕的像素坐标，其它变量的含义与已在身体朝向特征向量X_躯干中定义的变量含义一致；x₅,x₆分别是左大臂和左小臂的长度特征，也通过参考长度d_r进行标准化处理，正负号用于表明相应关键点在图上的相对左右位置；x₇,x₈分别表征左大臂和左小臂抬起的角度，定义为其与竖直向下方向的夹角的余弦值，为避免分母为0，令分母加一小量10^-5。

2.3)与左臂动作特征向量X_左臂类似，右臂动作特征向量X_右臂由4个特征分量x₉,x₁₀,x₁₁,x₁₂构成：

X_右臂＝[x₉,x₁₀,x₁₁,x₁₂] (12)

式中，x_右肘＝(x_右肘,y_右肘),x_右腕＝(x_右腕,y_右腕)分别为图像中交警右肘、右腕的像素坐标，其它变量的含义与已在身体朝向特征向量X_躯干中定义的变量含义一致；x₉,x₁₀分别是右大臂和右小臂的长度特征，也通过参考长度d_r进行标准化处理，正负号用于表明相应关键点在图上的相对左右位置；x₁₁,x₁₂分别表征右大臂和右小臂抬起的角度，定义为其与竖直向下方向的夹角的余弦值，为避免分母为0，令分母加一小量10^-5。

3)识别交警手势。

采用事先训练好的手势识别模型，输入当前时刻及其之前连续多帧图像的关键点特征向量，设t时刻的12维特征向量共输入a帧图像的特征向量(即时间步长为a)，则共有12a维关键点特征向量，模型输出当前时刻的手势识别结果。

如图4所示，手势识别模型的建立过程具体如下：

3.1)采集交警手势视频，建立数据集。

由于用于识别手势的特征是通过人体关键点坐标计算得到的，交警的检测是基于已检测到的图像中“人”的边界框进一步分类得到的，与原始图像无关，尤其是与图像中人四周的环境无关，同时考虑到实车采集道路上交警指挥的视频较为困难，因此采用由专人身着交警制服扮演交警指挥、在车辆静止状态下用车载相机进行拍摄的方案。

需采集的手势不仅包括8类指挥手势，还包括不含指挥意图的干扰手势，作为第9类“其他”。同时，还要从不同视角进行视频采集，模拟车辆在道路的不同位置看到交警的情形，若交警正在对其他方向的来车进行指挥，自车不受其手势指挥，则认为该手势属于“其他”类。

从视频中提取图像帧，为每一帧标注手势类别。在本实施例中，只需确定每次交警手势的开始帧和结束帧，中间所有帧均对应该手势，此外的均为“其他”。

3.2)将数据集划分训练集、验证集和测试集。

可采用3:1:1的划分比例，注意每个子集中各类手势样本量应较为均匀。

3.3)计算交警的关键点特征向量：通过步骤1)的交警和关键点检测，以及步骤2)的关键点特征向量，可计算出每一帧图像中交警的关键点特征向量。

3.4)构造手势识别网络并训练。

手势识别通过长短时记忆网络LSTM实现，本实施例中在Keras框架下构造标准LSTM模型，输入形状为[训练样本数N，时间步长a，特征维数dim]，输出t时刻9类手势可能的概率，概率最高的手势即为识别结果。

由一个LSTM层、一个Dense层、一个激活层构成手势识别模型，LSTM层的隐藏单元数设为32，Dense层的输出维数设为9，激活函数采用Softmax，损失函数采用多分类的对数损失，优化算法采用RMSprop。充分训练后得到手势识别模型。

3.5)利用测试集评估手势识别模型效果。为了更好地评估手势识别模型的效果，在测试集上进行定量测试，评价指标采用Edit Distance作为准确率。

将当前帧交警关键点特征向量与之前连续a-1帧(a为时间步长)的关键点特征向量共同输入手势识别模型，输出当前帧交警手势相对于9类手势的概率，概率最高的手势即为识别结果。若在测试集上的准确率低于预设值，则继续调整识别网络的结构和参数配置，以获得更高的模型识别准确率。

上述各实施例仅用于说明本发明，各个步骤都是可以有所变化的，在本发明技术方案的基础上，凡根据本发明原理对个别步骤进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种基于人体关键点特征的交警手势识别方法，其特征在于包括以下步骤：

1)获取车载相机采集的原始图像中的交警边界框和关键点坐标；

2)构造关键点特征向量；

3)识别交警手势：采用事先训练好的手势识别模型，输入当前时刻及其之前连续多帧图像的关键点特征向量，输出当前时刻的手势识别结果；

所述步骤1)中，关键点包括左肩、右肩、左肘、右肘、左腕、右腕、左胯和右胯共8个人体关节点；

所述步骤2)中，特征向量X的具体构造方法包括以下步骤：

2.1)身体朝向特征向量X_躯干由4个特征分量x₁，x₂，x₃，x₄构成；x₁，x₂为表征躯干宽度的特征分量，x₃，x₄为表征躯干角度的特征分量，分别定义为左右肩连线与水平方向夹角的正切值和左右胯连线与水平方向夹角的正切值；

2.2)左臂动作特征向量X_左臂由4个特征分量x₅，x₆，x₇，x₈构成；x₅，x₆分别是左大臂和左小臂的长度特征，x₇，x₈分别表征左大臂和左小臂抬起的角度，定义为其与竖直向下方向的夹角的余弦值；

2.3)右臂动作特征向量X_右臂由4个特征分量x₉，x₁₀，x₁₁，x₁₂构成；x₉，x₁₀分别是右大臂和右小臂的长度特征，x₁₁，x₁₂分别表征右大臂和右小臂抬起的角度，定义为其与竖直向下方向的夹角的余弦值；

所述4个特征分量x₁，x₂，x₃，x₄分别为：

式中，x_左肩＝(x_左肩，y_左肩)，x_右肩＝(x_右肩，y_右肩)，x_左胯＝(x_左胯，y_左胯)，x_右胯＝(x_右胯，y_右胯)分别为图像中交警左肩、右肩、左胯、右胯的像素坐标；d_r为参考长度，设为两侧肩与胯之间长度的平均值，通过参考长度d_r对特征分量x₁，x₂进行标准化处理；

所述4个特征分量x₅，x₆，x₇，x₈分别为：

式中，x_左肘＝(x_左肘，y_左肘)，x_左腕＝(x_左腕，y_左腕)分别为图像中交警左肘、左腕的像素坐标；通过参考长度d_r对特征分量x₅，x₆进行标准化处理；

所述4个特征分量x₉，x₁₀，x₁₁，x₁₂分别为：

式中，x_右肘＝(x_右肘，y_右肘)，x_右腕＝(x_右腕，y_右腕)分别为图像中交警右肘、右腕的像素坐标；通过参考长度d_r对特征分量x₉，x₁₀进行标准化处理；

所述步骤3)中，手势识别模型的建立方法包括以下步骤：

3.1)采集交警手势视频，建立数据集；

3.2)将数据集划分训练集、验证集和测试集；

3.3)计算交警的关键点特征向量：通过步骤1)的交警和关键点检测，以及步骤2)的关键点特征向量，可计算出每一帧图像中交警的关键点特征向量；

3.4)构造手势识别网络并训练：由一个LSTM层、一个Dense层、一个激活层构成手势识别模型，LSTM层的隐藏单元数设为32，Dense层的输出维数设为9，激活函数采用Softmax，损失函数采用多分类的对数损失，优化算法采用RMSprop；充分训练后得到手势识别模型；

3.5)利用测试集评估手势识别模型效果：在测试集上进行定量测试，评价指标采用Edit Distance作为准确率；

所述步骤3.1)中，采用由专人身着交警制服扮演交警指挥、在车辆静止状态下用车载相机进行拍摄；需采集的手势包括8类指挥手势，以及不含指挥意图的干扰手势，作为第9类“其他”；同时，还要从不同视角进行视频采集，模拟车辆在道路的不同位置看到交警的情形，若交警正在对其他方向的来车进行指挥，自车不受其手势指挥，则认为该手势属于“其他”类；从视频中提取图像帧，为每一帧标注手势类别。

2.如权利要求1所述交警手势识别方法，其特征在于：所述步骤3.4)中，手势识别通过长短时记忆网络LSTM实现，在Keras框架下构造标准LSTM模型，输入形状为[训练样本数N，时间步长a，特征维数dim]，输出t时刻9类手势可能的概率，概率最高的手势即为识别结果。

3.如权利要求1所述交警手势识别方法，其特征在于：所述步骤3.5)中，将当前帧交警关键点特征向量与之前连续a-1帧的关键点特征向量共同输入手势识别模型，输出当前帧交警手势相对于9类手势的概率，概率最高的手势即为识别结果；若在测试集上的准确率低于预设值，则继续调整识别网络的结构和参数配置，以获得更高的模型识别准确率。