CN113537123B

CN113537123B - 手势识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN113537123B
Application number: CN202110859166.9A
Authority: CN
Inventors: 廖林
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2023-04-07
Anticipated expiration: 2041-07-28
Also published as: CN113537123A

Abstract

本申请提供一种手势识别方法、装置、电子设备及可读存储介质，该手势识别方法包括：获取待识别对象的图像数据；利用预先训练的深度学习检测模型，对所述待识别对象的图像数据进行目标检测，确定手掌区域；利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果。该方法可以。

Description

手势识别方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机视觉和人机交互领域，尤其涉及一种手势识别方法、装置、电子设备及可读存储介质。

背景技术

随着人工智能的发展和国家对于下一代人工智能的号召，智能车辆已经成为世界车辆工程领域研究的热点和汽车工业增长的新动力。智能不仅体现在自动泊车、自动驾驶等全自动领域，也体现在智能交互、智能控制等方面，需要将汽车打造成另一个舒适、便捷、智能的港湾。

手势识别是智能车辆实现智能交互、智能控制的关键技术之一，如何准确实现手势识别称为一个亟待解决的技术问题。

发明内容

有鉴于此，本申请提供一种手势识别方法、装置、电子设备及可读存储介质。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种手势识别方法，包括：

获取待识别对象的图像数据；

利用预先训练的深度学习检测模型，对所述待识别对象的图像数据进行目标检测，确定手掌区域；

利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果；其中，所述深度学习分类模型在训练过程中，依据类别关联损失函数进行反馈优化，从第S轮训练开始，对于任一训练样本，在利用所述深度学习分类模型得到的预测结果与该训练样本的标注不一致的情况下，该预测结果与标注相似度越高，依据所述类别关联损失函数得到的损失值越大，S为自然数。

根据本申请实施例的第二方面，提供一种手势识别装置，包括：

获取单元，用于获取待识别对象的图像数据；

目标检测单元，用于利用预先训练的深度学习检测模型，对所述待识别对象的图像数据进行目标检测，确定手掌区域；

手势识别单元，用于利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果；其中，所述深度学习分类模型在训练过程中，依据类别关联损失函数进行反馈优化，从第S轮训练开始，对于任一训练样本，在利用所述深度学习分类模型得到的预测结果与该训练样本的标注不一致的情况下，该预测结果与标注相似度越高，依据所述类别关联损失函数得到的损失值越大，S为自然数。

根据本申请实施例的第三方面，提供一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现上述手势识别方法。

根据本申请实施例的第四方面，提供一种机器可读存储介质，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现上述手势识别方法。

本申请提供的技术方案至少可以带来以下有益效果：

通过获取待识别对象的图像数据，利用深度学习的方式检测图像中的手掌区域，提高了光照等条件不同的情况下的图像数据的手掌区域检测的准确性，提高了手掌区域检测的鲁棒性；此外，利用深度学习的方式对手掌区域进行手势分类，得到手势分类结果，用于进行手势识别的深度学习分类模型在训练时，利用类别关联损失函数动态调整学习的损失权重，提高分类模型对相似手势的区分能力，进而，提高了手势识别的准确性。

附图说明

图1是本申请示例性实施例示出的一种手势识别方法的流程示意图；

图2是本申请示例性实施例示出的一种安装在方向盘下方的摄像头采集的图像的示意图；

图3是本申请示例性实施例示出的一种手势识别流程的示意图；

图4是本申请示例性实施例示出的几种常见手势的示意图；

图5是本申请示例性实施例示出的两种相似手势的示意图；

图6是本申请示例性实施例示出的一种特征移位的示意图；

图7是本申请示例性实施例示出的一种手势类别有限状态机的示意图；

图8是本申请示例性实施例示出的一种手势遮挡示意图；

图9是本申请示例性实施例示出的一种方向盘区域轮廓标定的示意图；

图10是本申请示例性实施例示出的一种方向盘分割模型输出结果的示意图；

图11是本申请示例性实施例示出的一种手势识别装置的结构示意图；

图12是本申请示例性实施例示出的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，并使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

请参见图1，为本申请实施例提供的一种手势识别方法的流程示意图，如图1所示，该手势识别方法可以包括以下步骤：

步骤S100、获取待识别对象的图像数据。

示例性的，待识别对象可以包括任意场景下需要进行手势识别的人员。

示例性的，可以通过图像采集设备，如摄像头，获取待识别对象的图像数据。

步骤S110、利用预先训练的深度学习检测模型，对待识别对象的图像数据进行目标检测，确定手掌区域。

本申请实施例中，为了提高手势识别的准确性，当获取到待识别对象的图像数据时，可以先确定图像中的手掌区域。

本申请实施例中，可以利用深度学习方法确定图像中的手掌区域。

对于步骤S100中获取到的待识别对象的图像数据，可以利用预先训练的深度学习检测模型，对待识别对象的图像进行目标检测，确定手掌区域。

示例性的，上述深度学习检测模型可以包括但不限于YOLO深度学习检测模型或Faster R-CNN深度学习检测模型等。

示例性的，在进行手掌区域检测时，可以采取整图检测方式进行，以便排除区域抠图造成的超出抠图区域报警失效的问题，有效降低漏检率。

步骤S120、利用预先训练的深度学习分类模型，对手掌区域进行分类，得到手势识别结果；其中，该深度学习分类模型在训练过程中，依据类别关联损失函数进行反馈优化，从第S轮训练开始，对于任一训练样本，在利用该深度学习分类模型得到的预测结果与该训练样本的标注不一致的情况下，该预测结果与标注相似度越高，依据该类别关联损失函数得到的损失值越大，S为自然数。

本申请实施例中，可以利用深度学习方法进行手势识别。

当按照上述方式得到待识别对象的图像数据中的手掌区域时，可以利用预先训练的深度学习分类模型对手掌区域进行分类，得到手势识别结果。

示例性的，上述深度学习分类模型可以包括但不限于AlaxNet深度学习分类模型、VGG深度学习分类模型或Resnet深度学习分类模型。

本申请实施例中，考虑到实际场景会存在一些相似手势在图片的语义信息上十分接近，模型分类时，容易产生混淆，导致手势识别错误。

例如，点赞手势(即握拳竖起大拇指)与竖起一根食指的手势就比较相似，利用分类模型对这两个手势进行分类时，容易出现手势识别错误。

为了提高相似手势识别的准确率，在本申请实施例中，当进行深度学习分类模型时，可以引入一个用于对相似手势识别错误进行惩罚的损失(loss)函数(可以称为类别关联损失函数)，通过该类别关联损失函数来动态调整学习的loss权重，提高分类模型对相似手势的区分能力。

示例性的，在深度学习分类模型的训练过程中，可以依据该类别关联损失函数进行反馈优化，从第S轮(即第S个epoch)训练开始，对于任一训练样本，在利用该深度学习分类模型得到的预测结果与该训练样本的标注不一致的情况下，该预测结果与标注相似度越高，依据该类别关联损失函数得到的损失值越大。

其中，一个epoch是指一个完整的数据集通过了深度学习分类模型一次并且返回了一次，即所有训练样本在深度学习分类模型中都进行了一次正向传播和一次反向传播，也即一个epoch就是将所有训练样本训练一次的过程。

示例性的，预测结果与标注的相似度，可以通过预测结果与训练样本的标注不一致的情况下，预测结果的置信度来表征。

在预测结果与训练样本的标注不一致的情况下，预测结果的置信度越高，预测结果与训练样本的标注的相似度越高。

可见，在图1所示方法流程中，通过获取待识别对象的图像数据，利用深度学习的方式检测图像中的手掌区域，提高了光照等条件不同的情况下的图像数据的手掌区域检测的准确性，提高了手掌区域检测的鲁棒性；此外，利用深度学习的方式对手掌区域进行手势分类，得到手势分类结果，用于进行手势识别的深度学习分类模型在训练时，利用类别关联损失函数动态调整学习的损失权重，提高分类模型对相似手势的区分能力，进而，提高了手势识别的准确性。

在一些实施例中，S＞1，且在训练样本的预测结果与该训练样本的标注不一致的情况下，随着训练轮数的增加，依据类别关联损失函数得到的损失值分段递增。

示例性的，为了避免深度学习分类模型训练过程中出现局部极值，影响算法性能的稳定性，S可以大于1，即在前(S-1)轮训练过程中，不引入类别关联损失函数，而从第S(S＞1)轮训练起，引入类比关联损失函数。

示例性的，在对深度学习分类模型进行训练时，可以先在不引入类别关联损失函数的情况下，对深度学习分类模型进行训练(即使用原始损失函数进行反馈)，当在训练过程中，损失函数曲线随着训练轮数的增加(即epoch的增大)，趋近于一条水平直线，即训练过程中，随着训练轮数的增加，深度学习分类模型的损失值的大小的变化幅度处于预设取值范围内时，可以开始引入类别关联损失函数。

其中，原始损失函数可以为分类模型常用的损失函数。

S的取值可以为依据原始损失函数对深度学习分类模型进行训练时，使损失值的大小的变化幅度处于预设取值范围内时的训练轮数。

例如，假设在依据原始损失函数对深度学习分类模型进行训练的过程中，当连续M(M为大于1的正整数)轮的训练损失值中相邻损失值的差值(以较大值减去较小值为例)小于预设阈值时，可以将当前的训练轮数(即epoch的值)确定为S。

示例性的，在本申请实施例中，S的取值可以为30～50。

优选地，为了提高训练效率，S＝30。

示例性的，为了进一步提高深度学习分类模型的相似手势的区分能力，在引入类别关联损失函数的情况下，在训练样本的预测结果与该训练样本的标注不一致的情况下，随着训练轮数的增加，依据该类别关联损失函数得到的损失值分段递增。

例如，类别关联损失函数可以如下：

其中，cls_gt，cls_pred分别表示图片的真实类别标签和模型预测类别标签，函数G(，)为手势类别关联函数，相同手势的关联函数值为0，不同手势根据相似程度进行定义，函数值在0～0.1之间，手势越相似，关联函数值越高。epoch为训练轮数(即训练集完整训练的次数)，

表示向下取整函数，start表示类别关联损失函数生效的epoch，Loss为分类模型常用损失函数。

通过类别关联损失函数，前start个epoch(即上述前S-1轮)的损失函数没有变化，模型正常训练。第start+1个epoch起，类别关联损失函数开始生效，随着训练轮数的增加，分类为相似手势的图片损失会指数增加，模型对于相似手势的区分能力得到显著提升。

本申请实施例中，考虑到实际场景中的手势通常会包括静态手势和动态手势，例如，静态手势包括“OK”手势、点赞手势等；动态手势包括挥手手势、摇手指手势等。

而静态手势和动态手势在识别时存在较为明显的差异，例如，静态手势通过单张图片即可识别，而动态手势需要通过多帧图片进行识别。

相应地，为了提高手势识别的准确性，可以分别训练用于进行静态手势识别的深度学习检测模型(本文中称为静态手势分类模型)和用于进行动态手势识别的深度学习检测模型(本文中称为动态手势分类模型)。

在一些实施例中，深度学习检测模型包括静态手势分类模型和动态手势分类模型；

步骤S120中，利用预先训练的深度学习分类模型，对手掌区域进行分类，得到手势识别结果，可以包括：

对于当前帧图像，利用预先训练的静态手势分类模型，对该帧图像的手掌区域进行静态手势识别，得到静态手势识别结果。

本申请实施例提供的手势识别方案还可以包括：

依据所述当前帧图像以及当前帧图像的历史帧图像，利用预先训练的动态手势分类模型，进行动态手势识别，得到动态手势识别结果；

依据静态手势识别结果和动态手势识别结果，确定最终的手势识别结果。

示例性的，为了提高手势识别的准确性，对于任一帧待识别图像的图像数据，当利用预先训练的静态手势分类模型，按照上述实施例中描述的方式，得到了该图像的手势识别结果(本文中称为静态手势识别结果)，还可以进一步依据当前帧图像以及当前帧图像的历史帧图像，利用预先训练的动态手势分类模型，进行动态手势识别，得到对应的手势识别结果(本文中称为动态手势识别结果)，并依据静态手势识别结果和动态手势识别结果，确定最终的手势识别结果。

例如，假设在某个场景中，手掌张开的静态手势(即手掌张开且不挥动)对应执行操作A，手掌张开挥手的动态手势对应执行操作B，则在某一帧图像的静态手势识别结果为手掌张开的静态手势的情况下，还需要进一步依据动态手势识别结果确定当前对应的执行操作为执行操作A或执行操作B。

在一个示例中，上述动态手势分类模型的训练流程可以包括：

利用动态手势分类模型，得到N1帧训练样本的卷积层特征；其中，N1为大于1的自然数；

对N1帧训练样本的卷积层特征进行特征移位，得到N1帧训练样本的融合特征；

依据N1帧训练样本的融合特征对动态手势分类模型进行训练。

示例性的，为了提高动态手势分类模型对动作的感知能力，在进行动态手势分类模型的训练时，可以对用于动态手势识别的N1帧训练样本进行特征移位操作，实现多帧训练样本的特征融合，使分类模型感知到时序信息，进而提高动作感知能力。

示例性的，可以利用动态手势分类模型，得到N1帧训练样本的卷积层特征，并对N1帧训练样本额的卷积层特征进行特征移位，得到该N1帧训练样本的融合特征。

例如，可以将动态手势分类模型得到的N1帧训练样本的最后一层卷积特征保存下来，通过不同帧的特征移位操作，进行时序信息建模，提高分类模型的动作感知能力。

可以利用按照上述方式得到的融合额特征，对动态手势分类模型进行训练，提高分类模型的动作感知能力。

在一个示例中，动态手势分类模型的训练流程包括：

将包括N2帧的视频段划分为K部分，得到K个子视频段；N2＞K，N2与K均为大于2的自然数；

依次从K个子视频段中选取一帧视频图像，得到K帧训练样本；

依据K帧训练样本对动态手势分类模型进行训练。

示例性的，为了解决动态手势识别过程中的长时间依赖问题，可以采用分段随机选择的方式进行训练帧的选取，增加模型的长时间建模能力。

示例性的，对于一段包括N2帧的视频段，可以将该视频段划分为K部分，并依次从该K个子视频段中选取一帧视频图像，得到K帧训练样本，依据该K帧训练样本对动态手势分类模型进行训练。

需要说明的是，在本申请实施例中，上述特征移位处理以及训练帧的分段选取处理可以组合使用，通过移位操作提高模型的短时间建模能力，提升对快速动作的识别效果；通过分段随机选取的方式提高模型的长时间建模能力，提升对低速动作的识别效果。

在一个示例中，上述依据静态手势识别结果和动态手势识别结果，确定最终的手势识别结果，可以包括：

当静态手势识别结果与动态手势识别结果一致时，将静态手势识别结果确定为最终的手势识别结果；

当静态手势识别结果与动态手势识别结果不一致时，依据预设手势关系状态机，确定静态手势识别结果与动态手势识别结果之间是否允许转换；预设手势关系状态机用于指示静态手势识别结果与动态手势结果之间是否允许转换；

若允许转换，则将动态手势识别结果确定为最终的手势识别结果；

若不允许转换，则确定最终的手势识别结果待定。

示例性的，考虑到某一帧图像的静态手势识别结果，在结合该帧图像的历史帧图像进行动态手势识别时，可能会被确定为其它手势。

例如，仍以上述手掌张开为例，当单帧图像识别结果为手掌张开(但不挥动)时，依据该单帧图像以及其历史帧图像进行动态识别的结果可能为手掌张开并挥动(即挥手手势)。

即特定的静态手势和特定的动作手势之间是存在转换关系的。例如，上述手掌张开(但不挥动)手势，在结合多帧图像的识别结果的情况下，实际上最终可能会被确定为挥手手势。

因此，可以预先依据系统支持的手势之间的转换关系，建立手势关系状态机，该手势关系状态机可以用于指示静态手势识别结果与动态手势识别额结果之间是否允许转换。

当按照上述方式确定了静态手势识别结果和动态手势识别结果时，可以确定静态手势识别结果与动态手势识别结果是否一致。

当静态手势识别结果与动态手势识别结果一致时，将静态手势识别结果确定为最终的手势识别结果。

例如，静态手势识别结果和动态手势识别结果均为手掌张开(但不挥动)时，则将该静态手势识别结果确定为最终的手势识别结果。

当静态手势识别结果与动态手势识别结果不一致时，可以依据预设手势关系状态机确定该静态手势识别结果与动态手势识别结果之间是否允许转换。

若允许转换，例如，静态手势识别结果为手掌张开(但不挥动)，动态手势识别结果为挥手手势，则可以将动态手势识别结果确定为最终的手势识别结果。

若不允许转换，例如，静态手势识别结果为“OK”手势，动态手势识别结果为挥手手势，则静态手势识别结果和/或动态手势识别结果可能存在错误，此时，可以确定最终的手势识别结果为待定，以避免手势识别错误，导致执行错误的操作。

在一些实施例中，步骤S120中，利用预先训练的深度学习分类模型，对手掌区域进行分类，得到手势识别结果，可以包括：

依据当前帧图像的手势识别结果，确定以当前时间为结束时间的预设时间段内，手势识别结果与当前帧图像的手势识别结果一致，且置信度超过第二预设置信度阈值的图像帧占比；

当占比超过预设比例阈值时，确定需要输出当前帧图像的手势识别结果；

当占比未超过预设比例阈值时，确定不需要输出当前帧图像的手势识别结果。

示例性的，为降低个别帧误报产生的误报问题，需要对一段时间内的手势识别结果进行统计学分析。

示例性的，可以依据单帧图像数据的手势识别结果的置信度，统计一段时间内，如以当前时间为结束时间的预设时间段(如3s)内，手势识别结果与当前帧图像的手势识别结果一致，且置信度超过预设置信度阈值(可以称为第一预设置信度阈值，如50％)的图像帧占比(假设为α)，若α大于预设比例阈值(假设为δ)，则认为该手势已经发生需要输出，此时，可以确定需要输出当前帧图像的手势识别结果。

例如，帧率为15的视频，2s内一共30帧，假设置信度阈值为50％，预设比例阈值为75％，则需要置信度大于50％的图片数量超过15*2*75％＝22.5帧才能输出手势。

示例性的，当上述图像帧占比未超过预设比例阈值，即α≤δ时，可以确定不需要输出当前帧图像的手势识别结果。

本申请实施例中，以车辆驾驶场景中对车辆驾驶员的手势识别为例，即上述待识别对象为车辆驾驶员。

考虑到在车辆驾驶场景中，图像采集设备部署在车辆驾驶员视线范围内会容易让车辆驾驶员产生抵触情绪，影响用户体验。

相应地，在一些实施例中，用于获取车辆驾驶员的图像数据的图像采集设备，如摄像头，可以部署于车辆方向盘下方。

考虑到在图像采集设备部署于方向盘下方的情况下，图像采集设备采集到的车辆驾驶员的图像数据中，手掌区域可能会与方向盘区域存在交集，从而，影响手势识别的准确率。

相应地，在一个示例中，本申请实施例提供的手势识别方法还可以包括：

对于当前帧图像，利用预先训练的方向盘分割模型，对当前帧图像进行方向盘分割，得到当前图像帧中方向盘区域；

依据当前帧图像中方向盘区域，以及手掌区域，确定当前帧图像中方向盘区域与手掌区域之间是否存在交集；

若当前帧图像中方向盘区域与手掌区域之间存在交集，则确定当前帧图像的手势识别结果不可信。

示例性的，为了提高手势识别的可靠性，对于图像采集设备部署于车辆方向盘下方的场景，在获取到待识别对象(即车辆驾驶员)的图像数据时，对于当前帧图像，可以利用预先训练的方向盘分割模型，对当前帧图像进行方向盘分割，得到当前帧图像中的方向盘区域，其具体实现可以在下文中结合具体实例进行说明。

示例性的，可以依据当前帧图像中的方向盘以及手掌区域，确定当前帧图像中方向盘区域与手掌区域之间是否存在交集，并在当前帧图像中方向盘区域与手掌区域之间存在交集的情况下，确定当前帧图像的手势识别结果不可信。

在一个示例中，若当前帧图像中方向盘区域与手掌区域之间存在交集，则在确定当前帧图像的手势识别结果不可信之前，还可以包括：

确定当前帧图像的手势识别结果的置信度是否超过第二预设置信度阈值；

若当前帧图像的手势识别结果的置信度超过第二预设置信度阈值，则确定当前帧图像中方向盘区域是否穿过所述当前帧图像中的手掌区域；若穿过，则确定执行确定当前帧图像的手势识别结果不可信的操作；若未穿过，则确定当前帧图像的手势识别结果可信；

若当前帧图像的手势识别结果的置信度未超过第二预设置信度阈值，则确定执行确定当前帧图像的手势识别结果不可信的操作。

示例性的，考虑到当方向盘区域与手掌区域存在交集，且方向盘区域影响了手势识别时，按照上述方式得到的手势识别结果的置信度通常不会太高。

此外，考虑到方向盘区域与手掌区域存在交集也存在多种不同情况，例如，可以包括方向盘区域穿过手掌区域或方向盘区域未穿过手掌区域等，不同情况的交集对手势识别结果的影响不同。

相应地，在确定当前帧图像中方向盘区域与手掌区域存在交集的情况下，可以确定当前帧图像的手势识别结果的置信度是否超过预设置信度阈值(可以称为第二预设置信度阈值，如60％)。

若当前帧图像的手势识别结果的置信度超过第二预设置信度阈值，则还可以确定当前帧图像中方向盘区域是否穿过当前帧图像中的手掌区域，若穿过，则确定当前帧图像的手势识别结果不可信；若未穿过，则确定当前帧图像的手势识别结果可信。

若当前帧图像的手势识别结果的置信度未超过第二预设置信度阈值时，可以确定当前帧图像的手势识别结果不可信。

本申请实施例中，当按照上述方式确定了待识别对象的手势识别结果时，还可以依据识别到的手势进行交互。

举例来说，以车辆驾驶场景为例，可以依据识别到的手势和车辆当前状态进行人车交互。例如，识别到车辆驾驶员存在抽烟行为时，语音提示是否需要打开窗户通风，若此时识别到OK手势，则自动打开窗户通风；车内正在播放音乐时，若识别到点赞手势，则可以将当前播放的歌曲自动进行收藏。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，下面结合具体场景对本申请实施例提供的技术方案进行说明。

在该实施例中，以车辆驾驶场景为例，待识别对象为车辆驾驶员，图像采集设备为车载摄像头，该摄像头安装在方向盘下方，其采集的图像可以如图2所示。

需要说明的是，车载摄像头安装在方向盘下方仅仅是本申请实施例的车辆驾驶场景中的一种具体示例，而并不是对本申请保护范围的限定，例如，车载摄像头可以安装于车辆前方中控台、仪表盘或A柱等区域。

考虑到摄像头隐藏在方向盘下方时，方向盘会挡住部分图片区域，而且正常驾驶时手握在方向盘上的场景和部分常规手势相似度较高，需要特殊处理。

如图3所示，在该实施例中，手势识别流程可以包括以下步骤：获取车载摄像头视频流、目标检测、手势识别、方向盘区域分割以及手势输出。

下面分别对各流程步骤进行说明。

一、获取车载摄像头视频流

示例性的，车载摄像头可以安装于方向盘下方，以提高用户体验。

示例性的，车载视频输入模块可以根据日夜光线对车载摄像头的工作模式进行切换。例如，在光照强度低于一定的阈值的情况下，自动切换为红外模式，打开红外补光灯，车载摄像头所采集的画面也相应的从RGB彩色图像切换为红外摄像机下的灰度图像。

车载视频输入模块可以将视频每隔一定帧数的图像信息送入下面的模块进行检测加识别。

二、目标检测

目标检测模块可以通过深度学习检测模型(包括但不限于YOLO，Faster R-CNN等深度学习检测模型)，对图片目标进行检测，主要检测驾驶员的手掌区域。

目标检测模块的主要功能为确定手掌区域，通过整图检测的方式可以有效排除区域抠图造成的超出抠图区域报警失效的问题，有效降低漏检。

三、手势识别

目标检测模块确定了手掌区域，手势识别模块可以进一步对手掌区域进行分类。

3.1、静态手势识别：将手掌区域图像送入深度学习分类模型(包括但不限于AlaxNet、VGG、Resnet等深度学习分类模型)，确定手掌区域的手势识别结果以及置信度。

示例性的，在实际应用中，根据需要识别手势的类别数量(即系统支持的手势的类别数量)，深度学习分类模型的输出结果会随之变动。

示例性的，最常见的手势可以包括：拒绝手势、OK手势、点赞手势等，其示意图可以如图4所示。

示例性的，考虑到部分相似手势在图片的语义信息上十分接近，例如，图5所示的点赞手势和竖起一根食指的手势，利用深度学习分类模型进行手势识别时，容易产生混淆，导致识别准确率不理想。

为了提高深度学习分类模型对相似手势的区分能力，在深度学习分类模型的训练过程中，可以引入类别关联损失函数(类别关联loss)，来动态调整学习的loss权重，提高模型对相似手势的区分能力。

例如，类别关联loss的定义可以如下：

3.2、动态手势识别：静态手势通过单张图片即可识别，但是动态手势需要动过多帧的图片序列进行识别。

在一个示例中，可以将动态手势分类模型的最后一层卷积层特征保存下来后，通过不同帧的特征移位操作，进行时序信息建模，提高模型对动作的感知能力。

如图6所示，通过将第t帧的部分特征移动到t+1帧，可以让多帧特征进行融合，实现时序信息的融合，使模型能够学习到动作信息的变化，感知到时序信息，提高动作感知能力。

示例性的，第t帧部分特征移动到t+1帧后，会通过补0来实现对齐；最后一帧移出的部分特征可以丢弃。

示例性的，移动的特征可以为1/8的通道的特征。

例如，假设通道数为c，则可以对c*1/8的通道的特征进行特征移动。

通过上述移位操作，可以将邻近帧的特征进行融合，但是其无法解决长时间依赖的问题。

在一个示例中，采用分段随机选择的方式进行训练帧选取，增加模型的长时间建模能力。

例如，假设一段视频包括N2帧，训练时每次输入K帧图片，则将整段视频分为K部分，第i部分包括(i-1)*N2/K帧到i*N2/K帧。

训练输入为V＝{S₁，S₂，...，S_K}。

其中，S_i＝{F_(i-1)*N2/K，F_(i-1)*N2/K+1，...，F_i*N2/K}，每次训练从这K个子视频段中随机选取一帧，合并后进行训练。

通过移位操作可以提高模型的短时间建模能力，提升对快速动作的识别效果；通过分段随机选取的方式可以提高模型的长时间建模能力，提升对低速动作的识别效果。

需要说明的是，在按照上述方式完成模型训练后，在实际应用过程中，可以按照上述方式，采用分段随机选取视频帧的方式进行手势分类，或者，考虑到通常情况下，车载视频输入模块输入到目标检测模型中的视频流通常是经过抽帧处理后的视频流，即对于车载摄像头获取到的视频流，车载视频输入模块会进行抽帧处理后，输入到目标检测模块，因此，利用训练好的模型进行动态手势识别时，可以不需要再次进行分段随机选取视频帧。

3.3、手势关系建模：静态手势和动态手势存在一定的关联关系，其状态转换存在一定的顺序，因此可以建立手势类别有限状态机(即上述预设手势关系状态机)来限制状态转换。

例如，挥手和五指张开的拒绝手势的手势类别有限状态机可以参见图7。如图7所示，挥手手势不可从无拒绝手势状态直接达到，即多帧图像的动态手势识别结果为挥手手势的前提为存在单帧图像识别的静态手势为拒绝手势。

通过手势关系建模，实现手势转换的动态逻辑，优化手势报警准确性。

四、方向盘区域分割

当车辆驾驶员的手掌靠近方向盘区域时，手势识别结果的可信度会下降，甚至可能失效。

例如，如图8所示，点赞手势的大拇指靠近方向盘时，当大拇指遮挡过多时，可能导致该手势无法识别，甚至误识别成其他手势。

因此，需要对手掌区域和方向盘区域的位置关系进行确定，被方向盘遮挡的手势无法正常识别，识别的结果也可能不可靠。

如图9所示，图像中方向盘内外圈类似椭圆，在进行方向盘分割时，可以分别确定方向盘内圈上五个点和外圈上的五个点，并通过公式计算出椭圆方程。

因此，在标定时，对于方向盘的内圈和外圈，可以分别标定轮廓上五个点，以计算出方向盘轮廓，从而降低标注复杂度。

其中，如图9所示，对于内圈(或外圈)，该五个点可以包括轮廓的最高点、两侧的边缘点、经过图像下边界中点的斜率分别为45°和135°的直线与内圈(或外圈)的交点。

需要说明的是，由于实际场景中，安全盘外部通常会有保护套遮挡，此时，选择边缘点需要根据经验预估位置，对方向盘进行轮廓标定时，也可以不限于使用边缘点，也可以是非边缘点，例如，如图9所示的方向盘内圈的选点，边缘点可以使用图像中方向盘内圈与保护套的最外侧的交点。

最终方向盘分割模型输出结果可以如图10所示，分割结果存在大量噪声，因此，需要通过形态学腐蚀和膨胀操作去重方向盘区域的噪声，然后通过最大连通域分析，获取中间的方向盘区域，最后通过最小二乘法，拟合内外圈椭圆，获取内外圈方向盘方程。

示例性的，得到方向盘内外圈椭圆方程后，可以通过目标检测模块的手掌区域和方向盘区域的关系来进行过滤。

若手掌框和方向盘区域有交集，则可以认为该手势失效，手势分类结果不可信。

示例性的，还可以依据手势分类模型效果，合理控制方向盘过滤逻辑。

例如，分类模型效果好，即手势识别结果的置信度高，则可以过滤手掌区域被方向盘区域穿过的场景下的手势识别结果，对于手掌区域与方向盘区域存在交集，但是手掌区域未被方向盘区域穿过的场景下的手势识别结果，可以不进行过滤；分类模型效果不好，即手势识别结果的置信度低，可以过滤手掌区域和方向盘区域存在交集的场景下的手势识别结果。

五、手势输出

为降低个别帧误报产生的误报问题，可以对一段时间内的手势识别结果进行统计学分析。

需要说明的是，按照上述方式得到了手势识别结果时，还可以结合方向盘分割模块的方向盘内外圈椭圆方程和目标检测模块的手掌目标框坐标，进一步校验手势目标框的位置，过滤不可信的手势框，其实现可以参见“方向盘区域分割”部分的相关描述。

在该实施例中，按照上述方式得到了驾驶员的手势识别结果时，还可以依据驾驶员的手势识别结果确定驾驶员当前的行为，如打电话、抽烟等行为。

在该实施例中，还可以将手势识别结果以及行为识别结果输入到交互模块，交互模块可以依据手势识别结果以及行为识别结果，结合车辆当前状态，进行人车交互。

例如，当确定驾驶员存在抽烟行为时，语音提示是否需要打开窗户通风，若识别到OK手势，则可以自动打开窗户通风；车内正在播放音乐时，若识别到点赞手势，则可以将当前播放的歌曲自动进行收藏。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图11，为本申请实施例提供的一种手势识别装置的结构示意图，如图11所示，该手势识别装置可以包括：

获取单元1110，用于获取待识别对象的图像数据；

目标检测单元1120，用于利用预先训练的深度学习检测模型，对所述待识别对象的图像数据进行目标检测，确定手掌区域；

手势识别单元1130，用于利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果；其中，所述深度学习分类模型在训练过程中，依据类别关联损失函数进行反馈优化，从第S轮训练开始，对于任一训练样本，在利用所述深度学习分类模型得到的预测结果与该训练样本的标注不一致的情况下，该预测结果与标注相似度越高，依据所述类别关联损失函数得到的损失值越大，S为自然数。

在一些实施例中，S＞1，且在训练样本的预测结果与该训练样本的标注不一致的情况下，随着训练轮数的增加，依据所述类别关联损失函数得到的损失值分段递增。

在一些实施例中，所述深度学习检测模型包括静态手势分类模型和动态手势分类模型；

所述手势识别单元1130利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果，包括：

对于当前帧图像，利用所述预先训练的静态手势分类模型，对该帧图像的手掌区域进行静态手势识别，得到静态手势识别结果；

所述手势识别单元，还用于依据所述当前帧图像以及所述当前帧图像的历史帧图像，利用所述预先训练的动态手势分类模型，进行动态手势识别，得到动态手势识别结果；依据所述静态手势识别结果和动态手势识别结果，确定最终的手势识别结果。

在一些实施例中，所述动态手势分类模型的训练流程包括：

利用所述动态手势分类模型，得到N1帧训练样本的卷积层特征；其中，N1为大于1的自然数；

对所述N1帧训练样本的卷积层特征进行特征移位，得到所述N1帧训练样本的融合特征；

依据所述N1帧训练样本的融合特征对所述动态手势分类模型进行训练。

在一些实施例中，所述动态手势分类模型的训练流程包括：

依次从所述K个子视频段中选取一帧视频图像，得到K帧训练样本；

依据所述K帧训练样本对所述动态手势分类模型进行训练。

在一些实施例中，所述手势识别单元1130依据所述静态手势识别结果和动态手势识别结果，确定最终的手势识别结果，包括：

当所述静态手势识别结果与所述动态手势识别结果一致时，将所述静态手势识别结果确定为最终的手势识别结果；

当所述静态手势识别结果与所述动态手势识别结果不一致时，依据预设手势关系状态机，确定所述静态手势识别结果与所述动态手势识别结果之间是否允许转换；所述预设手势关系状态机用于指示静态手势识别结果与动态手势结果之间是否允许转换；

若允许转换，则将所述动态手势识别结果确定为最终的手势识别结果；

若不允许转换，则确定最终的手势识别结果待定。

在一些实施例中，所述手势识别单元1130利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果，包括：

依据当前帧图像的手势识别结果，确定以当前时间为结束时间的预设时间段内，手势识别结果与所述当前帧图像的手势识别结果一致，且置信度超过第一预设置信度阈值的图像帧占比；

当所述占比超过预设比例阈值时，确定需要输出所述当前帧图像的手势识别结果；

当所述占比未超过所述预设比例阈值时，确定不需要输出所述当前帧图像的手势识别结果。

在一些实施例中，所述待识别对象为车辆驾驶员，用于获取所述待识别对象的图像数据的图像采集设备部署于车辆方向盘下方；

所述手势识别单元1130，还用于对于当前帧图像，利用预先训练的方向盘分割模型，对所述当前帧图像进行方向盘分割，得到所述当前图像帧中方向盘区域；

依据所述当前帧图像中方向盘区域，以及手掌区域，确定所述当前帧图像中方向盘区域与手掌区域之间是否存在交集；

若所述当前帧图像中方向盘区域与手掌区域之间存在交集，则确定所述当前帧图像的手势识别结果不可信。

在一些实施例中，若所述当前帧图像中方向盘区域与手掌区域之间存在交集，则所述手势识别单元1130在确定所述当前帧图像的手势识别结果不可信之前，还包括：

确定所述当前帧图像的手势识别结果的置信度是否超过预设置信度阈值；

若所述当前帧图像的手势识别结果的置信度超过预设置信度阈值，则确定所述当前帧图像中方向盘区域是否穿过所述当前帧图像中的手掌区域；若穿过，则确定执行所述确定所述当前帧图像的手势识别结果不可信的操作；若未穿过，则确定所述当前帧图像的手势识别结果可信；

若所述当前帧图像的手势识别结果的置信度未超过第二预设置信度阈值，则确定执行所述确定所述当前帧图像的手势识别结果不可信的操作。

请参见图12，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器1201、存储有机器可执行指令的存储器1202。处理器1201与存储器1202可经由系统总线1203通信。并且，通过读取并执行存储器1202中与编码控制逻辑对应的机器可执行指令，处理器1201可执行上文描述的手势识别方法。

本文中提到的存储器1202可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(RadomAccess Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

在一些实施例中，还提供了一种机器可读存储介质，如图12中的存储器1202，该机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现上文描述的手势识别方法。例如，所述机器可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种手势识别方法，其特征在于，包括：

获取待识别对象的图像数据；

利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果；其中，所述深度学习分类模型在训练过程中，依据类别关联损失函数进行反馈优化，从第S轮训练开始，对于任一训练样本，在利用所述深度学习分类模型得到的预测结果与该训练样本的标注不一致的情况下，该预测结果与标注相似度越高，依据所述类别关联损失函数得到的损失值越大，S为自然数，其中，所述类别关联损失函数用于确定所述深度学习分类模型对相似手势区分能力；

所述类别关联损失函数公式如下：

其中，cls_gt，cls_pred分别表示图像数据的真实类别标签和所述深度学习分类模型预测类别标签，函数G(，)为手势类别关联函数，相同手势的关联函数值为0，不同手势根据相似程度进行定义，函数值在0～0.1之间，手势越相似，关联函数值越高，epoch为训练轮数，即训练集完整训练的次数，

表示向下取整函数，start表示类别关联损失函数生效的epoch，L_loss为所述深度学习分类模型的损失函数。

2.根据权利要求1所述的方法，其特征在于，S＞1，且在训练样本的预测结果与该训练样本的标注不一致的情况下，随着训练轮数的增加，依据所述类别关联损失函数得到的损失值分段递增。

3.根据权利要求1所述的方法，其特征在于，所述深度学习检测模型包括静态手势分类模型和动态手势分类模型；

所述利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果，包括：

所述方法还包括：

依据所述当前帧图像以及所述当前帧图像的历史帧图像，利用所述预先训练的动态手势分类模型，进行动态手势识别，得到动态手势识别结果；

依据所述静态手势识别结果和动态手势识别结果，确定最终的手势识别结果。

4.根据权利要求3所述的方法，其特征在于，所述动态手势分类模型的训练流程包括：

针对所述N1帧训练样本中的首帧训练样本，将该首帧训练样本中的指定位置处的卷积层特征删除，并在所述首帧训练样本中的指定位置处做补0处理，得到首帧训练样本的融合特征；针对所述N1帧训练样本中的非首帧训练样本，利用所述N1帧训练样本中第t帧中的所述指定位置处的卷积层特征替换掉第t+1帧中的指定位置处的卷积层特征，得到各非首帧训练样本的融合特征；

依据所述首帧训练样本的融合特征以及所述各非首帧训练样本的融合特征对所述动态手势分类模型进行训练。

5.根据权利要求3所述的方法，其特征在于，所述动态手势分类模型的训练流程包括：

依据所述K帧训练样本对所述动态手势分类模型进行训练。

6.根据权利要求3所述的方法，其特征在于，所述依据所述静态手势识别结果和动态手势识别结果，确定最终的手势识别结果，包括：

若不允许转换，则确定最终的手势识别结果待定。

7.根据权利要求1所述的方法，其特征在于，所述利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述待识别对象为车辆驾驶员，用于获取所述待识别对象的图像数据的图像采集设备部署于车辆方向盘下方；

所述方法还包括：

对于当前帧图像，利用预先训练的方向盘分割模型，对所述当前帧图像进行方向盘分割，得到所述当前图像帧中方向盘区域；

9.根据权利要求8所述的方法，其特征在于，若所述当前帧图像中方向盘区域与手掌区域之间存在交集，则在确定所述当前帧图像的手势识别结果不可信之前，还包括：

10.一种手势识别装置，其特征在于，包括：

获取单元，用于获取待识别对象的图像数据；

手势识别单元，用于利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果；其中，所述深度学习分类模型在训练过程中，依据类别关联损失函数进行反馈优化，从第S轮训练开始，对于任一训练样本，在利用所述深度学习分类模型得到的预测结果与该训练样本的标注不一致的情况下，该预测结果与标注相似度越高，依据所述类别关联损失函数得到的损失值越大，S为自然数，其中，所述类别关联损失函数用于确定所述深度学习分类模型对相似手势区分能力；

所述类别关联损失函数公式如下：

11.根据权利要求10所述的装置，其特征在于，S＞1，且在训练样本的预测结果与该训练样本的标注不一致的情况下，随着训练轮数的增加，依据所述类别关联损失函数得到的损失值分段递增；

和/或，

所述深度学习检测模型包括静态手势分类模型和动态手势分类模型；

所述手势识别单元利用预先训练的深度学习分类模型，对所述手掌区域进行分类，得到手势识别结果，包括：

所述手势识别单元，还用于依据所述当前帧图像以及所述当前帧图像的历史帧图像，利用所述预先训练的动态手势分类模型，进行动态手势识别，得到动态手势识别结果；依据所述静态手势识别结果和动态手势识别结果，确定最终的手势识别结果；

其中，所述动态手势分类模型的训练流程包括：

依据所述首帧训练样本的融合特征以及所述各非首帧训练样本的融合特征对所述动态手势分类模型进行训练；

其中，所述动态手势分类模型的训练流程包括：

依据所述K帧训练样本对所述动态手势分类模型进行训练；

其中，所述手势识别单元依据所述静态手势识别结果和动态手势识别结果，确定最终的手势识别结果，包括：

若不允许转换，则确定最终的手势识别结果待定；

和/或，

当所述占比未超过所述预设比例阈值时，确定不需要输出所述当前帧图像的手势识别结果；

和/或，

所述待识别对象为车辆驾驶员，用于获取所述待识别对象的图像数据的图像采集设备部署于车辆方向盘下方；

所述手势识别单元，还用于对于当前帧图像，利用预先训练的方向盘分割模型，对所述当前帧图像进行方向盘分割，得到所述当前图像帧中方向盘区域；

若所述当前帧图像中方向盘区域与手掌区域之间存在交集，则确定所述当前帧图像的手势识别结果不可信；

其中，若所述当前帧图像中方向盘区域与手掌区域之间存在交集，则所述手势识别单元在确定所述当前帧图像的手势识别结果不可信之前，还包括：

12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器用于执行机器可执行指令，以实现如权利要求1-9任一项所述的方法。

13.一种机器可读存储介质，其特征在于，所述机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现如权利要求1-9任一项所述的方法。