CN116311385A

CN116311385A - 手势识别芯片及其手势识别方法

Info

Publication number: CN116311385A
Application number: CN202310562968.2A
Authority: CN
Inventors: 柯武生; 王汉波
Original assignee: Shandong Ruixin Semiconductor Technology Co ltd
Current assignee: SHENZHEN INDREAMCHIP ELECTRONIC TECHNOLOGY CO LTD
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-06-23
Anticipated expiration: 2043-05-18
Also published as: CN116311385B

Abstract

本申请提出一种手势识别芯片及其手势识别方法，若检测到手势图像，利用关键点网络模型依次输出所述手势图像中的手部关键点坐标，所述手部关键点坐标的输出顺序为手掌关键点、拇指关键点、食指关键点、中指关键点、无名指关键点、小指关键点；根据所述手部关键点坐标将手部关键点连成手势关键线；基于所述手势关键线，通过对比所述手势关键线与预设手势的手势关键线中各个关键点的自由度和位置，判断所述手势图像中的手势是否与所述预设手势相匹配；若是，输出所述手势图像所属的手势类别。提高了手势识别准确性。

Description

手势识别芯片及其手势识别方法

技术领域

本申请涉及图像技术领域，特别是涉及一种手势识别芯片及其手势识别方法。

背景技术

手势识别技术广泛用于人机交互领域，例如手势控制电视、手势控制手机界面等，手势识别需要软件和算法配合来实现。

目前的手势识别软件方法中，常用的方式是将采集的手势图像与预设手势图像对比，通过对比相应关键点在图像中位置的相似度来判定匹配度，当同样一个手势在空间中以不同角度出现时，各个关键点位置变化较大，位置相似度较低，就会存在误判的情况。例如握拳手势，手背朝上是握拳，朝下依旧是握拳，但是各关键点的位置差异是比较大的，这种情况采用位置的相似度来判定匹配度不太适用。

发明内容

本申请实施例提供一种手势识别芯片及其手势识别方法，可以提高手势识别准确性。

第一方面，提出一种手势识别芯片的手势识别方法，包括：

获取拍摄装置采集的手部图像；

检测手部图像中是否存在手势图像；

若检测到手势图像，利用关键点网络模型依次输出手势图像中的手部关键点坐标，手部关键点坐标的输出顺序为手掌关键点、拇指关键点、食指关键点、中指关键点、无名指关键点、小指关键点；

根据手部关键点坐标将手部关键点连成手势关键线；

基于手势关键线，通过对比手势关键线与预设手势的手势关键线中各个关键点的自由度和位置，判断手势图像中的手势是否与预设手势相匹配；

若是，输出手势图像所属的手势类别。

在一些实施例中，利用关键点网络模型依次输出手势图像中的手部关键点坐标的步骤中，拇指、食指、中指、无名指、小指的关键点均为骨骼关键点，输出的拇指关键点坐标、食指关键点坐标、中指关键点坐标、无名指关键点坐标、小指关键点坐标数量相同。

在一些实施例中，根据手部关键点坐标将手部关键点连成手势关键线的步骤包括，分别将手掌关键点对应的坐标点与拇指关键点对应的坐标点、食指关键点对应的坐标点、中指关键点对应的坐标点、无名指关键点对应的坐标点、小指关键点对应的坐标点连接，形成拇指关键线、食指关键线、中指关键线、无名指关键线、小指关键线。

在一些实施例中，关键点网络模型包括点云转换网络结构、特征提取网络结构、一维转换网络结构、连接网络层、融合网络结构以及手部回归网络结构；

若检测到手势图像，利用关键点网络模型依次输出手势图像中的手部关键点坐标的步骤包括：

若检测到手势图像，通过点云转换网络结构将手势图像转换为点云手势数据，并对点云手势数据进行均匀抽样，得到N种不同密集程度的点云手势数据，N大于等于2；

通过特征提取网络结构将N种不同密集程度的点云手势数据转换为统一数量的数据，统一数量等于最密集的点云手势数据的数量；

再分别通过一维转换网络结构将各个点云手势数据转换为一维数据，并通过连接网络层连接组成N维数据并进行特征降维；

利用融合网络结构将特征降维后的N维数据融合回一维数据并再次进行特征降维；

通过手部回归网络结构对融合降维后的数据进行手部特征点回归以进行手部关节定位，输出手部关节坐标作为手部关键点坐标。

在一些实施例中，基于手势关键线，通过对比所述手势关键线与预设手势的手势关键线中各个关键点的自由度和位置，判断手势图像中的手势是否与预设手势相匹配；

获取手势样本，手势样本包括预设手势；

对预设手势中的各类手势分别标注相应类别的手势标签，对不属于预设手势的手势样本标注非手势标签；

利用关键点网络模型输出手势样本中各个手势的手部关键点坐标，从而得到手势样本中各个手势的手势关键线；

获取手势匹配模型，将手势样本中各个手势的手势关键线数据输入到手势匹配模型，对手势匹配模型进行训练，直到手势匹配模型收敛；

将获取的手部图像的手势关键线数据输入到手势匹配模型，输出与之相匹配的预设手势的手势标签。

在一些实施例中，将手势样本中各个手势的手势关键线数据输入到手势匹配模型，对手势匹配模型进行训练，直到手势匹配模型收敛的步骤中，获取手势样本中各个手势的手势关键线的各关键点的自由度和坐标，作为手势样本中各个手势的手势关键线的特征，在训练过程中扩大不同手势标签的手势关键线的特征之间的距离，减少相同手势标签的手势关键线的特征之间的距离，从而不断调整手势匹配模型的参数，直到训练误差小于预设值时结束训练，判定手势匹配模型收敛。

在一些实施例中，任意两个手势样本的手势关键线特征之间的距离采用如下公式进行计算：

i和j分别表示第i个和第j个手势样本的手势关键线，

表示任意两个手势样本的手势关键线之间的距离，Q _in表示第i个手势样本的第n个关键点的自由度，Q _jn表示第j个手势样本的第n个关键点的自由度，D _in表示第i个手势样本的第n个关键点归一化后的坐标，D _jn表示第j个手势样本的第n个关键点归一化后的坐标，k表示关键点数量，e和g是分配的权重。

在一些实施例中，e大于g，e和g之和等于1。

在一些实施例中，手势匹配模型训练过程采用的损失函数为：

其中，

表示一对相同手势标签手势样本的手势关键线特征值的距离，

表示一对不同手势标签手势样本的手势关键线特征值的距离，/>

表示第i个手势样本的手势关键线训练时输出的预测值与标记值的距离，/>

为用于提高训练精度的系数，h为数量级调节参数。

在一些实施例中，手势识别芯片包括存储单元和处理单元；存储单元用于存储计算机程序，处理单元在运行计算机程序时执行如上任一实施例中方法中的步骤。

本申请的手势识别芯片及其手势识别方法，通过对比采集手势图像的手势关键线与预设手势的手势关键线中各个关键点的自由度和位置，来判断所述手势图像中的手势是否与所述预设手势相匹配，提高了手势识别准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，而非全部实施例。

图1为一个实施例中手势识别芯片的结构示意图；

图2为一个实施例中手势识别芯片的手势识别方法的流程示意图；

图3为一个实施例中一个实施例中的手部图像示意图；

图4为一个实施例中标记的手掌关键点和各个手指关键点的示意图；

图5为一个实施例中关键点网络模型坐标输出示意图；

图6为一个实施例中的关键点网络模型的结构示意图；

图7为一个具体实施例中的关键点坐标的输出流程示意图；

图8为一个实施例中手势关键线的示意图；

图9为一个具体实施例中步骤210的流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如背景技术所述，目前的手势识别软件方法中，常用的方式是将采集的手势图像与预设手势图像对比，通过对比相应关键点在图像中位置的相似度来判定匹配度，当同样一个手势在空间中以不同角度出现时，各个关键点位置变化较大，位置相似度较低，就会存在误判的情况。例如握拳手势，手背朝上是握拳，朝下依旧是握拳，但是各关键点的位置差异是比较大的，这种情况采用位置的相似度来判定匹配度不太适用。

基于此，本申请提出一种手势识别芯片及其手势识别方法，可以提高半导体芯片表面缺陷的检测概率。

如图1所示，本申请的手势识别芯片包括处理单元120和存储单元110，处理单元120和存储单元110连接，存储单元110存储有计算机程序，计算机程序可被处理单元120所执行，以用于实现如下任一实施例中的手势识别芯片的手势识别方法。

处理单元可以为本领域常用的处理器，例如中央处理器等。

本申请所使用的存储单元可包括非易失性和/或易失性存储单元。非易失性存储单元可包括只读存储单元、可编程ROM、电可编程ROM、电可擦除可编程ROM或闪存。易失性存储单元可包括随机存取存储单元。

请参阅图2，其为本申请一个实施例中的手势识别芯片的手势识别方法的流程图，该实施例中的手势识别芯片的手势识别方法包括如下步骤：

步骤202，获取拍摄装置采集的手部图像。

步骤204，检测手部图像中是否存在手势图像。

若检测到手势图像则执行步骤206。

步骤206，利用关键点网络模型依次输出手势图像中的手部关键点坐标，关键点坐标输出顺序为手部基点、拇指关键点、食指关键点、中指关键点、无名指关键点、小指关键点。

步骤208，根据手部关键点坐标将手部关键点连成手势关键线。

步骤210，基于手势关键线，通过对比手势关键线与预设手势的手势关键线中各个关键点的自由度和位置，判断手势图像中的手势是否与预设手势相匹配。

若是，则执行步骤212。

步骤212，输出手势图像所属的手势类别。

本实施例通过对比采集手势图像的手势关键线与预设手势的手势关键线中各个关键点的自由度和位置，来判断所述手势图像中的手势是否与所述预设手势相匹配，提高了手势识别准确性。

以下对上述实施例的具体实施方式进行说明。

关于步骤202，拍摄装置可以为本领域常用的拍照器件。

关于步骤204，若检测到手部图像中存在手势图像，则提取出手势图像，如图3所示为一个具体实施例中的手部图像示意图，图3中被框选区域为手势区域。

关于步骤206，利用关键点网络模型依次输出手势图像中的手部关键点坐标的步骤中，拇指、食指、中指、无名指、小指的关键点均为骨骼关键点，输出的拇指关键点坐标、食指关键点坐标、中指关键点坐标、无名指关键点坐标、小指关键点坐标数量相同，可方便计算，例如均选取4个。如图4所示，为一个实施例中标记的手掌关键点和各个手指关键点的示意图。同理，本申请提到的手势关键线指手势骨骼线。另外，按照顺序输出各根手指关键点的坐标，不易出错。

若手部图像中存在手势，如图5所示，利用关键点网络模型先输出手掌关键点的坐标，再依次输出拇指、食指、中指、无名指、小指的4个关键点坐标。若未检测到手势图像则返回步骤202。

关于步骤206中提到的关键点网络模型，在一个实施例中，如图6所示，关键点网络模型包括点云转换网络结构702、特征提取网络结构704、一维转换网络结构706、连接网络层708、融合网络结构710以及手部回归网络结构712。

如图7所示，若检测到手势图像，利用关键点网络模型依次输出手势图像中的手部关键点坐标，可具体包括以下步骤：

步骤802，若检测到手势图像，通过点云转换网络结构702将手势图像转换为点云手势数据，并对点云手势数据进行均匀抽样，得到N种不同密集程度的点云手势数据，N大于等于2，例如得到3种不同密集程度的点云手势数据，分别包括1024、512、256个点的数据。

步骤804，通过特征提取网络结构704将N种不同密集程度的点云手势数据转换为统一数量的数据，统一数量等于最密集的点云手势数据的数量。例如将1024、512、256个点的手势数据均转换为统一的1024个点的数据。该转换方式可以是插值。

步骤806，再分别通过一维转换网络结构706将各个点云手势数据转换为一维数据，并通过连接网络层708连接组成N维数据并进行特征降维。

步骤808，利用融合网络结构710将特征降维后的N维数据融合回一维数据并再次进行特征降维。

步骤810，通过手部回归网络结构712对融合降维后的数据进行手部特征点回归以进行手部关节定位，输出手部关节点的坐标作为手部关键点坐标。

可以理解，关键点网络模型也可以采用其他网络结构，不仅限于上述实施例的结构，本实施例的关键点网络模型通过将N种不同密集程度的点云手势数据转换为统一数量的数据，提高了手势数据准确性，另外，后续转为N维数据并进行特征降维后也有助于提取到比较精确的特征，从而有助于提高关键点坐标的准确性。

关于步骤208，根据手部关键点坐标将手部关键点连成手势关键线的步骤包括，将手掌关键点对应的坐标点分别与拇指关键点对应的坐标点、食指关键点对应的坐标点、中指关键点对应的坐标点、无名指关键点对应的坐标点、小指关键点对应的坐标点连接，形成拇指关键线、食指关键线、中指关键线、无名指关键线、小指关键线。如图8所示为一个实施例中的手势关键线的示意图。

关于步骤210，如图9所示，在一些具体实施方式中，包括以下步骤：

步骤902，获取手势样本，手势样本包括预设手势；

步骤904，对预设手势中的各类手势分别标注相应类别的手势标签，对不属于预设手势的手势样本标注非手势标签；

步骤906，利用关键点网络模型输出手势样本中各个手势的手部关键点坐标，从而得到手势样本中各个手势的手势关键线；

步骤908，获取手势匹配模型，将手势样本中各个手势的手势关键线数据输入到手势匹配模型，对手势匹配模型进行训练，直到手势匹配模型收敛；具体地，在训练之前，获取手势样本中各个手势的手势关键线的各关键点的自由度和坐标，作为手势样本中各个手势的手势关键线的特征，在训练过程中扩大不同手势标签的手势关键线的特征之间的距离，减少相同手势标签的手势关键线的特征之间的距离，从而不断调整手势匹配模型的参数，直到训练误差小于预设值时结束训练，判定手势匹配模型收敛。

步骤910，将获取的手部图像的手势关键线数据输入到手势匹配模型，输出与之相匹配的预设手势的手势标签。

本实施例，手势关键线的特征之间的距离引入各关键点的自由度和坐标，提高了手势匹配模型的训练精度，后续手势识别也是利用该手势匹配模型，识别时同样会考虑各关键点的自由度和坐标，显然也提高了手势识别的准确性。

i和j分别表示第i个和第j个手势样本的手势关键线，

表示任意两个手势样本的手势关键线之间的距离，Q _in表示第i个手势样本的第n个关键点的自由度，Q _jn表示第j个手势样本的第n个关键点的自由度，D _in表示第i个手势样本的第n个关键点归一化后的坐标，D _jn表示第j个手势样本的第n个关键点归一化后的坐标，k表示关键点数量，例如k等于21。e和g是分配的权重。

具体实现时，与仅利用关键点位置来对比手势之间的相似度相比，仅利用自由度会更准确些，因此在训练之前可设置e大于g，e和g之和等于1，即令自由度权重大于坐标的权重，可以提高训练速度。训练结束后可确定e和g的最终值。

需要说明的是，手势识别技术领域关键点的自由度指关键点可活动的角度，取值为-π~π。

其中，

为用于提高训练精度的系数。h为数量级调节参数，用于使/>

项与其他项数量级一致，方便计算。

关于上述损失函数，相同手势标签手势样本的手势关键线特征值的距离越大越好，故而取正值，不同手势标签手势样本的手势关键线特征值的距离以及第i个手势样本的手势关键线训练时输出的预测值与标记值的距离越小越好，故而取负值。上述损失函数引入了预测值与标记值的距离作为损失项，提高了训练精度，降低训练误差，有助于提高手势匹配模型输出结果的准确性。标记值和预测值可以采用数值表示，不同的表面缺陷采用不同的数值，例如点赞手势用数值1来表示，OK手势用数值2表示等等，不再赘述。

步骤210中，将采集手部图像的手势关键线数据输入到训练好的手势匹配模型，通过对比该手势关键线与预设手势的手势关键线中各个关键点的自由度和位置之间的距离，距离越小匹配度越高，可将距离最小的预设手势作为与之相匹配的手势，然后将该预设手势的手势标签输出。该识别过程的步骤与训练过程类似，不再赘述。

需要说明的是，同理前述距离公式，计算手部图像与预设手势的手势关键线之间的距离时，采用的公式如下，

i和m分别表示第i个预设手势和采集手势图像的手势关键线，

表示第i个预设手势和采集手势图像的手势关键线的特征之间的距离，Q _in表示第i个预设手势的第n个关键点的自由度，Q _mn表示采集手势图像的手势关键线的第n个关键点的自由度，D _in表示第i个手势样本的第n个关键点归一化后的坐标，D _mn表示采集手势图像的手势关键线的第n个关键点归一化后的坐标，k表示关键点数量，例如k等于21。e1和g1指手势匹配模型训练完成后分别给前述系数e和系数g分配的值。

步骤212，输出手势图像所属的手势类别。

手势类别可以用数值表示。

需要说明的是，本申请采集的手势图像以及用于训练的手势样本图像均经过预处理，图片大小一致。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种手势识别芯片的手势识别方法，其特征在于，包括：

获取拍摄装置采集的手部图像；

检测所述手部图像中是否存在手势图像；

若检测到手势图像，利用关键点网络模型依次输出所述手势图像中的手部关键点坐标，所述手部关键点坐标的输出顺序为手掌关键点、拇指关键点、食指关键点、中指关键点、无名指关键点、小指关键点；

根据所述手部关键点坐标将手部关键点连成手势关键线；

基于所述手势关键线，通过对比所述手势关键线与预设手势的手势关键线中各个关键点的自由度和位置，判断所述手势图像中的手势是否与所述预设手势相匹配；

若是，输出所述手势图像所属的手势类别。

2.根据权利要求1所述的方法，其特征在于，所述利用关键点网络模型依次输出所述手势图像中的手部关键点坐标的步骤中，拇指、食指、中指、无名指、小指的关键点均为骨骼关键点，输出的拇指关键点坐标、食指关键点坐标、中指关键点坐标、无名指关键点坐标、小指关键点坐标数量相同。

3.根据权利要求2所述的方法，其特征在于，根据所述手部关键点坐标将手部关键点连成手势关键线的步骤包括，分别将手掌关键点对应的坐标点与拇指关键点对应的坐标点、食指关键点对应的坐标点、中指关键点对应的坐标点、无名指关键点对应的坐标点、小指关键点对应的坐标点连接，形成拇指关键线、食指关键线、中指关键线、无名指关键线、小指关键线。

4.根据权利要求3所述的方法，其特征在于，所述关键点网络模型包括点云转换网络结构、特征提取网络结构、一维转换网络结构、连接网络层、融合网络结构以及手部回归网络结构；

若检测到手势图像，利用关键点网络模型依次输出所述手势图像中的手部关键点坐标的步骤包括：

若检测到手势图像，通过所述点云转换网络结构将手势图像转换为点云手势数据，并对点云手势数据进行均匀抽样，得到N种不同密集程度的点云手势数据，N大于等于2；

通过所述特征提取网络结构将所述N种不同密集程度的点云手势数据转换为统一数量的数据，所述统一数量等于最密集的点云手势数据的数量；

再分别通过所述一维转换网络结构将各个点云手势数据转换为一维数据，并通过所述连接网络层连接组成N维数据并进行特征降维；

利用所述融合网络结构将特征降维后的N维数据融合回一维数据并再次进行特征降维；

通过所述手部回归网络结构对融合降维后的数据进行手部特征点回归以进行手部关节定位，输出手部关节坐标作为手部关键点坐标。

5.根据权利要求4所述的方法，其特征在于，基于所述手势关键线，通过对比所述手势关键线与预设手势的手势关键线中各个关键点的自由度和位置，判断所述手势图像中的手势是否与所述预设手势相匹配的步骤包括：

获取手势样本，所述手势样本包括所述预设手势；

对所述预设手势中的各类手势分别标注相应类别的手势标签，对不属于所述预设手势的手势样本标注非手势标签；

利用所述关键点网络模型输出所述手势样本中各个手势的手部关键点坐标，从而得到所述手势样本中各个手势的手势关键线；

获取手势匹配模型，将所述手势样本中各个手势的手势关键线数据输入到所述手势匹配模型，对所述手势匹配模型进行训练，直到所述手势匹配模型收敛；

将获取的所述手部图像的手势关键线数据输入到所述手势匹配模型，输出与之相匹配的预设手势的手势标签。

6.根据权利要求5所述的方法，其特征在于，

所述将所述手势样本中各个手势的手势关键线数据输入到所述手势匹配模型，对所述手势匹配模型进行训练，直到所述手势匹配模型收敛的步骤中，获取所述手势样本中各个手势的手势关键线的各关键点的自由度和坐标，作为所述手势样本中各个手势的手势关键线的特征，在训练过程中扩大不同手势标签的手势关键线的特征之间的距离，减少相同手势标签的手势关键线的特征之间的距离，从而不断调整所述手势匹配模型的参数，直到训练误差小于预设值时结束训练，判定所述手势匹配模型收敛。

7.根据权利要求6所述的方法，其特征在于，任意两个手势样本的手势关键线特征之间的距离采用如下公式进行计算：

i和j分别表示第i个和第j个手势样本的手势关键线，

8.根据权利要求7所述的方法，其特征在于，e大于g，e和g之和等于1。

9.根据权利要求7或8所述的方法，其特征在于，所述手势匹配模型训练过程采用的损失函数为：

其中，

表示一对相同手势标签手势样本的手势关键线特征值的距离，/>

为用于提高训练精度的系数，h为数量级调节参数。

10.一种手势识别芯片，其特征在于，包括存储单元和处理单元；所述存储单元用于存储计算机程序，所述处理单元在运行所述计算机程序时执行如权利要求1-9任一项所述方法中的步骤。