CN111428639A

CN111428639A - 手势识别模型的训练方法、手势识别方法及装置

Info

Publication number: CN111428639A
Application number: CN202010211278.9A
Authority: CN
Inventors: 贾红红; 王镜茹
Original assignee: BOE Technology Group Co Ltd
Current assignee: BOE Technology Group Co Ltd
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-17
Also published as: WO2021190046A1

Abstract

本公开提供一种手势识别模型的训练方法、手势识别方法及装置，该手势识别模型的训练方法包括：获取训练集，所述训练集包括多张手势样本图像，所述多张手势样本图像中包含多种类别的手势；获取融合模型，所述融合模型中包括多个手势识别模型；获取每个所述手势识别模型对多张所述手势样本图像在每种所述类别的预测分数；根据所述预测分数，从多个待训练的权重组合中确定出所述融合模型的目标权重组合，其中，所述多个待训练的权重组合中的每个中包括每个所述手势识别模型分别对应的权重。本公开可以提升手势识别模型的识别准确率。

Description

手势识别模型的训练方法、手势识别方法及装置

技术领域

本公开实施例涉及手势识别技术领域，尤其涉及一种手势识别模型的训练方法、手势识别方法及装置。

背景技术

手势识别过程中对手势进行分类时，使用单一的手势识别模型对识别准确率的提升有限，而多模型融合已成为提升手势识别准确率的一种有效手段。

发明内容

本公开实施例提供一种手势识别方法、手势识别模组和显示装置，用于提升手势识别模型的识别准确率。

为了解决上述技术问题，本公开是这样实现的：

第一方面，本公开实施例提供了一种手势识别模型的训练方法，包括：

获取训练集，所述训练集包括多张手势样本图像，所述多张手势样本图像中包含多种类别的手势；

获取融合模型，所述融合模型中包括多个手势识别模型；

获取每个所述手势识别模型对多张所述手势样本图像在每种所述类别的预测分数；

根据所述预测分数，从多个待训练的权重组合中确定出所述融合模型的目标权重组合，其中，所述多个待训练的权重组合中的每个中包括每个所述手势识别模型分别对应的权重。

可选的，所述根据所述预测分数，从多个待训练的权重组合中确定出所述融合模型的目标权重组合包括：

根据所述预测分数计算所述多个待训练的权重组合分别对应的所述融合模型的识别准确率；

确定出识别准确率超过预设阈值的所述待训练的权重组合作为所述目标权重组合。

可选的，所述根据所述预测分数计算所述多个待训练的权重组合分别对应的所述融合模型的识别准确率包括：

针对每个所述手势样本图像，执行以下操作：

针对每种所述类别，将每个所述手势识别模型预测的预测分数乘以所述手势识别模型对应的权重，得到加权后的预测分数；并将所有所述手势识别模型对应的加权后的预测分数相加，得到所述手势样本图像在每种所述类别的融合预测分数；

将所述融合预测分数最大的所述类别，作为识别出的手势的类别；

将所述识别出的手势的类别与预先标注的手势的类别进行比较，确定识别是否正确；

根据多个所述手势样本图像识别是否正确，确定所述待训练的权重组合对应的所述融合模型的识别准确率。

可选的，所述获取多个所述手势识别模型对多张所述手势样本图像在每种所述类别的预测分数包括：

将所述预测分数进行归一化处理，得到归一化后的预测分数。

第二方面，本公开实施例提供了一种手势识别方法，包括：

获取融合模型中的每个手势识别模型对待识别的手势图像在每种类别的预测分数，所述融合模型中包括多个手势识别模型；

获取所述融合模型的目标权重组合，所述目标权重组合中包括每个所述手势识别模型对应的权重；

针对每种所述类别，将每个所述手势识别模型预测的预测分数乘以所述手势识别模型对应的权重，得到加权后的预测分数，并将所有所述手势识别模型的加权后的预测分数相加，得到每种所述类别的融合预测分数；

获取所述融合预测分数最大的所述类别，作为所述待识别的手势图像中的手势的类别；

其中，所述目标权重组合由上述手势识别模型的训练方法训练得到。

第三方面，本公开实施例提供了一种手势识别模型的训练模组，包括：

第一获取模块，用于获取训练集，所述训练集包括多张手势样本图像，所述多张手势样本图像中包含多种类别的手势；

第二获取模块，用于获取融合模型，所述融合模型中包括多个手势识别模型；

第三获取模块，用于获取每个所述手势识别模型对多张所述手势样本图像在每种所述类别的预测分数；

训练模块，用于根据所述预测分数，从多个待训练的权重组合中确定出所述融合模型的目标权重组合，其中，所述待训练的权重组合中的每个中包括每个所述手势识别模型对应的权重。

可选的，所述训练模块包括：

计算子模块，用于根据所述预测分数计算所述多个待训练的权重组合分别对应的所述融合模型的识别准确率；

确定子模块，用于确定出识别准确率超过预设阈值的所述待训练的权重组合作为所述目标权重组合。

可选的，所述计算子模块包括：

第一执行单元，用于针对每个所述手势样本图像，执行以下操作：

第二执行单元，用于根据多个所述手势样本图像识别是否正确，确定所述待训练的权重组合对应的所述融合模型的识别准确率。

可选的，所述第三获取模块包括：

归一化处理子模块，用于将所述预测分数进行归一化处理，得到归一化后的预测分数。

第四方面，本公开实施例提供了一种手势识别模组，包括：

第一获取模块，用于获取融合模型中的每个手势识别模型对待识别的手势图像在每种类别的预测分数，所述融合模型中包括多个手势识别模型；

第二获取模块，用于获取所述融合模型的目标权重组合，所述目标权重组合中包括每个所述手势识别模型对应的权重；

处理模块，用于针对每种所述类别，将每个所述手势识别模型预测的预测分数乘以所述手势识别模型对应的权重，得到加权后的预测分数，并将所有所述手势识别模型的加权后的预测分数相加，得到每种所述类别的融合预测分数；

第三获取模块，用于获取融合预测分数最大的所述类别，作为所述待识别的手势图像中的手势的类别；

第五方面，本公开实施例提供了一种手势识别模型的训练模组，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述手势识别模型的训练方法的步骤。

第六方面，本公开实施例提供了手势识别模组，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述手势识别方法的步骤。

第七方面，本公开实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述手势识别模型的训练方法的步骤，或者，所述计算机程序被处理器执行时实现上述手势识别方法的步骤。

在本公开实施例中，通过训练集对融合模型中多个手势识别模型的权重进行训练，可以准确且自适应的学习得到各个手势识别模型的权重，在进行手势识别时，无需人工手动设置权重，并且可以有效提升融合模型的手势识别的准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本公开的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本公开一实施例的手势识别模型的训练方法的流程示意图；

图2为本公开另一实施例的手势识别模型的训练方法的流程示意图；

图3为本公开又一实施例的手势识别模型的训练方法的流程示意图；

图4为本公开一实施例的手势识别方法示意图；

图5为本公开一实施例的手势识别模型的训练模组的结构示意图；

图6为本公开一实施例的手势识别模组的结构示意图；

图7为本公开另一实施例的手势识别模型的训练模组的结构示意图；

图8为本公开另一实施例的手势识别模组的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

多模型融合即对多个模型的预测结果通过某种方式进行融合，用融合后的结果作为最终的识别分类结果，常用的融合方法有：投票法、平均法、最大值法等。对于不同模型的分类性能差异较小的情况下，即对于大多数样本每个模型基本可以正确分类，只在较少的样本上各个模型有差异，在这种情况下，使用投票法、平均法或者最大值法都不利于进一步提升最终的识别准确率。

为了解决现有的手势识别模型的识别准确率不高的问题，请参考图1，本公开实施例提供一种手势识别模型的训练方法，包括：

步骤11：获取训练集，所述训练集包括多张手势样本图像，所述多张手势样本图像中包含多种类别的手势；

手势的类别例如包括拳头、OK、比心、作揖、作别、祈祷、点赞等。可选地，所述多张手势样本图像中包含所有希望识别的手势的类别。

每一所述手势样本图像均预先标注有其包含的手势的类别的信息，以用于验证后续训练的权重组合对应的识别准确率。

可选的，每个所述手势样本图像包含一个类别的手势，以使得训练过程更简单。

可选地，所述训练集中包括的手势样本图像的个数超过预设阈值，例如超过100张，大量样本数据使得训练结果更准确。

步骤12：获取融合模型，所述融合模型中包括多个手势识别模型；

所述多个手势识别模型为不同的模型，例如采用不同的手势识别算法的模型。举例来说，所述多个手势识别模型可以包括以下至少之一：基于CPnet(通用深度网络)的手势识别模型、基于LSTM(长短时记忆神经网络)的手势识别模型、基于模板匹配法的手势识别模型等。

步骤13：获取每个所述手势识别模型对多张所述手势样本图像在每种所述类别的预测分数；

多张所述手势样本图像为所述训练集中的多张手势样本图像中的部分或全部。

可选的，获取每个所述手势识别模型对每张所述手势样本图像在每种所述类别的预测分数。所述预测分数为一个数值，可以是小数、正数或负数等。

举例来说，假设融合模型中具有p个手势识别模型，分别为M₁，M₂，…，M_p，训练集中包括N张手势样本图像，所述N张手势样本图像中包含c种类别的手势，每个所述手势识别模型对每张手势样本图像进行手势识别之后，可以得到c个预测分数[S₁，S₂，…，S_c]，其中，针对一张手势样本图像，一个所述类别对应一个预测分数。

对于一手势识别模型M_i，对训练集中的所有手势样本图像的预测结果X_i如下：

其中，上述矩阵中的第一行数据为手势识别模型M_i对训练集中的第一张手势样本图像在每种类别的预测分数，第N行数据手势识别模型M_i对训练集中的第N张手势样本图像在每种类别的预测分数，依此类推。S₁₁为第一张手势样本图像在第一种类别的预测分数，S_1c为第一张手势样本图像在第c种类别的预测分数，依此类推。

步骤14：根据所述预测分数从多个待训练的权重组合中确定出所述融合模型的目标权重组合，其中，所述多个待训练的权重组合中的每个中包括每个所述手势识别模型对应的权重。

本公开实施例中，所述多个待训练的权重组合是指参与训练的多个权重组合。

每个待训练的权重组合中包括：每个所述手势识别模型对应的权重，举例来说，融合模型中具有4个手势识别模型，分别为M₁、M₂、M₃、M₄，初始生成的待训练的权重组合为(w₁、w₂、w₃、w₄)，其中，w₁为M₁对应的权重，w₂为M₂对应的权重，w₃为M₃对应的权重，w₄为M₄对应的权重，对待训练的权重组合进行训练，并根据训练结果调整待训练的权重组合中的一个或多个权重，得到一个新的待训练的权重组合，例如为(w₁’、w₂、w₃’、w₄)，并继续对调整后的待训练的权重组合进行训练，以此类推，最终得到符合训练要求的目标权重组合(w_s1、w_s2、w_s3、w_s4)，其中，w_s1为M₁对应的目标权重，w_s2为M₂对应的目标权重，w_s3为M₃对应的目标权重，w_s4为M₄对应的目标权重。

本公开实施例中，通过训练集对融合模型中多个手势识别模型的权重进行训练，可以准确且自适应的学习得到各个手势识别模型的权重，在进行手势识别时，无需人工手动设置权重，并且可以有效提升融合模型的手势识别的准确率。

本公开实施例中，可选的，所述获取多个所述手势识别模型对多张所述手势样本图像在每种所述类别的预测分数包括：将所述预测分数进行归一化处理，得到归一化后的预测分数。即把多个手势识别模型对所有手势样本图像的预测结果归一化到统一范围内，例如[0,1]，以方便计算。本公开实施例中，可以采用多种归一化处理方法对预测分数进行归一化处理，例如(0,1)标准化、Z-score标准化、Sigmoid函数等。

请参考图2，本公开实施例中，可选的，上述步骤14中，所述根据所述预测分数从待训练的权重组合中确定出所述融合模型的目标权重组合包括：

步骤21：根据所述预测分数计算所述多个待训练的权重组合分贝对应的所述融合模型的识别准确率；

步骤22：确定出识别准确率超过预设阈值的所述待训练的权重组合作为所述目标权重组合。

所述预设阈值为98％或99％等，根据需要设定。

本公开实施例中，可选的，预先生成一待训练的权重组合，然后，根据所述预测分数计算所述待训练的权重组合对应的所述融合模型的识别准确率，若所述识别准确率低于预设阈值，则对所述待训练的权重组合进行调整，得到新的待训练的权重组合，然后继续根据所述预测分数计算新的所述待训练的权重组合对应的所述融合模型的识别准确率，依次类推，直至确定出识别准确率超过预设阈值的所述待训练的权重组合作为所述目标权重组合。

本公开实施例中，将识别准确率超过预设阈值的权重组合作为目标权重组合，可以有效提升融合模型的手势识别的准确率。

请参考图3，本公开实施例中，可选的，上述步骤21中，所述根据所述预测分数计算所述多个待训练的权重组合分别对应的所述融合模型的识别准确率包括：

步骤31：针对每个所述手势样本图像，执行以下操作：

步骤311：针对每种所述类别，将每个所述手势识别模型预测的预测分数乘以所述手势识别模型对应的权重，得到加权后的预测分数；

例如，假设训练集中包括100张手势样本图像，该100张手势样本图像中包含24种类别的手势，融合模型中包括4个手势识别模型。

假设一个待训练的权重组合为(w₁，w₂，w₃，w₄)。

假设对于手势样本图像1：

将手势识别模型1在类别1预测的预测分数S₁₁₁乘以手势识别模型1对应的权重w₁，即S₁₁₁×w₁；

将手势识别模型1在类别2预测的预测分数S₁₁₂乘以手势识别模型1对应的权重w₁，得到加权后的预测分数，即S₁₁₂×w₁；

……

将手势识别模型1在类别24预测的预测分数S₁₁₂₄乘以手势识别模型1对应的权重w₁，得到加权后的预测分数，即S₁₁₂₄×w₁。

步骤312：针对每种所述类别，将所有所述手势识别模型对应的加权后的预测分数相加，得到所述手势样本图像在每种所述类别的融合预测分数；

假设对于手势样本图像1：

针对类别1，将手势识别模型1-4对应的加权后的预测分数相加，得到融合预测分数，即S₁₁₁×w₁+S₂₁₁×w₁+S₃₁₁×w₁+S₄₁₁×w₁。

以此类推，针对类别2-24，将手势识别模型1-4对应的加权后的预测分数相加，得到对应的融合预测分数。

步骤313：将融合预测分数最大的所述类别，作为识别出的手势的类别；

假设对于手势样本图像1，类别6对应的融合预测分数最大，则将类别6作为识别出的类别。

步骤314：将识别出的手势的类别与预先标注的手势的类别进行比较，确定识别是否正确；

假设对于手势样本图像1，预先标注的手势的类别为类别6，则识别准确。假设预先标注的手势的类别为类别8，则认为识别错误。

步骤32：根据多个所述手势样本图像识别是否正确，确定所述待训练的权重组合对应的所述融合模型的识别准确率。

可选的，根据所有所述手势样本图像识别是否正确，确定所述待训练的权重组合对应的所述融合模型的识别准确率。

假设采用权重组合(w₁，w₂，w₃，w₄)，100张手势样本图像中，有85张手势样本图像识别正确，则可以确定该权重组合(w₁，w₂，w₃，w₄)的识别准确率为85％。

最后，根据上述步骤22，确定出识别准确率超过预设阈值的所述待训练的权重组合作为所述目标权重组合。

本公开的上述实施例中，可以采用神经网络算法，根据所述预测分数对待训练的权重组合进行训练。通过神经网络算法可以准确且自适应的学习得到各个手势识别模型的权重，确定出各个手势识别模型的权重的最优解。在通过神经网络算法对权重组合进行训练时，可以首先随机生成一初始权重组合，然后对该初始权重组合进行训练调整，以学习到最优的权重组合，当然，初始权重组合也可以是根据经验设定，以更快解决最优解。当然，本公开也不排除采用其他算法进行训练。

请参考图4，本公开实施例还提供一种手势识别方法，包括：

步骤41：获取融合模型中的每个手势识别模型对待识别的手势图像在每种类别的预测分数，所述融合模型中包括多个手势识别模型；

步骤42：获取所述融合模型的目标权重组合，所述目标权重组合中包括每个所述手势识别模型对应的权重；

步骤43：针对每种所述类别，将每个所述手势识别模型预测的预测分数乘以所述手势识别模型对应的权重，得到加权后的预测分数，并将所有所述手势识别模型的加权后的预测分数相加，得到每种所述类别的融合预测分数；

步骤44：获取所述融合预测分数最大的所述类别，作为所述待识别的手势图像中的手势的类别；

举例来说，假设融合模型中具有p个手势识别模型，分别为M₁，M₂，…，M_p，融合模型能够识别的手势的类别为c种。

融合模型对应的目标权重组合为(w₁，w₂，…，w_p)。

对于每个手势识别模型M_i(i＝1，2，…，p)，对待识别的手势图像在每种类别的预测分数为[S_i,1，S_i,2，…，S_i,c]。

针对每个类别j(j＝1，2，…，c)，将手势识别模型预测M_i的预测分数S_i,j乘以手势识别模型M_i对应的权重w_i，得到加权后的预测分数S_i,j×w_i，并将所有所述手势识别模型的加权后的预测分数相加，得到融合预测分数：S_1,j×w₁+S_2,j×w₂+…+S_p,j×w_p。

最后，将所有类别对应的融合预测分数进行比较，得到融合预测分数最大的所述类别，作为所述手势图像中的手势的类别。

本公开实施例种，将融合模型中各个手势识别模型在不同类别上的预测结果进行融合，并且各个手势识别模型对应的权重由准确且自适应的学习得到，从而无需人工手动设置权重，并且可以有效提升融合模型的手势识别的准确率。

请参考图5，本公开还提供一种手势识别模型的训练模组50，包括：

第一获取模块51，用于获取训练集，所述训练集包括多张手势样本图像，所述多张手势样本图像中包含多种类别的手势；

第二获取模块52，用于获取融合模型，所述融合模型中包括多个手势识别模型；

第三获取模块53，用于获取每个所述手势识别模型对多张所述手势样本图像在每种所述类别的预测分数；

训练模块54，用于根据所述预测分数，从多个待训练的权重组合中确定出所述融合模型的目标权重组合，其中，所述多个待训练的权重组合中的每个中包括每个所述手势识别模型对应的权重。

可选的，所述训练模块54包括：

可选的，所述计算子模块包括：

可选的，所述第三获取模块53包括：

请参考图6，本公开还提供一种手势识别模组，包括：

第一获取模块61，用于获取融合模型中的每个手势识别模型对待识别的手势图像在每种类别的预测分数，所述融合模型中包括多个手势识别模型；

第二获取模块62，用于获取所述融合模型的目标权重组合，所述目标权重组合中包括每个所述手势识别模型对应的权重；

处理模块63，用于针对每种所述类别，将每个所述手势识别模型预测的预测分数乘以所述手势识别模型对应的权重，得到加权后的预测分数，并将所有所述手势识别模型的加权后的预测分数相加，得到每种所述类别的融合预测分数；

第三获取模块64，用于获取融合预测分数最大的所述类别，作为所述待识别的手势图像中的手势的类别；

其中，所述目标权重组合由上述实施例中的手势识别模型的训练方法训练得到。

本公开还提供一种显示装置，包括上述手势识别模组。

请参考图7，本公开实施例还提供一种手势识别模型的训练模组70，包括处理器71，存储器72，存储在存储器72上并可在所述处理器71上运行的计算机程序，该计算机程序被处理器71执行时实现上述手势识别模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

请参考图8，本公开实施例还提供一种手势识别模组80，包括处理器81，存储器82，存储在存储器82上并可在所述处理器81上运行的计算机程序，该计算机程序被处理器81执行时实现上述手势识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述手势识别模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述手势识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

上面结合附图对本公开的实施例进行了描述，但是本公开并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本公开的启示下，在不脱离本公开宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本公开的保护之内。

Claims

1.一种手势识别模型的训练方法，其特征在于，包括：

获取融合模型，所述融合模型中包括多个手势识别模型；

2.如权利要求1所述的方法，其特征在于，所述根据所述预测分数，从多个待训练的权重组合中确定出所述融合模型的目标权重组合包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述预测分数计算所述多个待训练的权重组合分别对应的所述融合模型的识别准确率包括：

针对每个所述手势样本图像，执行以下操作：

4.如权利要求1所述的方法，其特征在于，所述获取多个所述手势识别模型对多张所述手势样本图像在每种所述类别的预测分数包括：

5.一种手势识别方法，其特征在于，包括：

其中，所述目标权重组合由权利要求1-4任一项所述的方法训练得到。

6.一种手势识别模型的训练模组，其特征在于，包括：

训练模块，用于根据所述预测分数，从多个待训练的权重组合中确定出所述融合模型的目标权重组合，其中，所述多个待训练的权重组合中的每个中包括每个所述手势识别模型分别对应的权重。

7.如权利要求6所述的模组，其特征在于，所述训练模块包括：

8.如权利要求7所述的模组，其特征在于，所述计算子模块包括：

9.如权利要求6所述的模组，其特征在于，所述第三获取模块包括：

10.一种手势识别模组，其特征在于，包括：

11.一种手势识别模型的训练模组，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的手势识别模型的训练方法的步骤。

12.一种手势识别模组，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求5所述的手势识别方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的手势识别模型的训练方法的步骤，或者，所述计算机程序被处理器执行时实现如权利要求5所述的手势识别方法的步骤。