CN115797976B

CN115797976B - 一种低分辨率的实时手势识别方法

Info

Publication number: CN115797976B
Application number: CN202310039359.9A
Authority: CN
Inventors: 李观喜; 张磊; 苏鹏
Original assignee: Guangzhou Ziweiyun Technology Co ltd
Current assignee: Guangzhou Ziweiyun Technology Co ltd
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2023-05-30
Anticipated expiration: 2043-01-12
Also published as: CN115797976A

Abstract

本发明公开了一种低分辨率的实时手势识别方法，添加特征融合模块对高分辨率教师模型和低分辨率教师模型进行特征融合,使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配，本发明为面向于移动端、嵌入式设备的一种低分辨率的实时手势识别方法。通过将两个模型特征图对齐的方式，解决高分辨率模型和低分辨率模型之间的特征图不匹配的问题，训练一个高精度的多分辨率模型，以高精度的多分辨率模型作为教师模型，低分辨率模型作为学生模型，结合知识蒸馏的方法，使用教师模型对学生模型进行特征指导，实现学生模型与教师模型的性能一致，并结合轻量级主干网络，对模型进一步的加速。

Description

一种低分辨率的实时手势识别方法

技术领域

本发明涉及计算机人机交互技术领域，尤其涉及一种低分辨率的实时手势识别方法。

背景技术

手势识别技术作为人机交互的重要组成部分，在手语翻译、体感游戏等领域有着广阔的应用前景。随着人机交互技术的快速发展，人们对于沉浸交互式的体验需求也越发的变大，手势识别技术作为交互式技术中最重要的技术。尤其目前所处的大背景下，虚拟现实目前作为一种非常有前途的技术，可以应用于教育和娱乐。结合手势检测技术，手部2D/3D骨骼关键点识别，可以进一步获得人与虚拟现实世界的关系，增强交互体验。

在实际的落地产品中，为了更好的开阔市场，手势检测技术往往需要部署在计算资源有限的嵌入式设备中到达实时、精准的效果。

因此在实际运用过程会对手势识别的推理速度要求高，而且手部在实际拍摄过程中往往是一种小目标对象，因此也要求的小目标对象检测精度有一定的要求。为了提高检测的精度，使用输入高分辨率图形对模型预测的准确度会有很大的提高，但是这种方法需要巨大的运算量，更不用说要在嵌入式设备中实现实时的效果。降低输入模型的分辨率也可以大大提高模型的推理速度并嵌入式中实现实时的效果，但是降低输入模型的分辨率会导致模型的性能会出现大幅度的下降，尤其手势检测的检测对象手，在实际的摄像机拍照的图像中相对于行人是一种小目标对象，对于低分辨率输入的模型的检测效果将会下降。

发明内容

现有的压缩模型的方法，如剪枝、量化、知识蒸馏等对于模型推理速度的优化都有明显的提升效果，本发明使用知识蒸馏的方式提升低分辨率模型的性能，本发明将高分辨率模型作为教师模型，低分辨率模型作为学生模型，通过知识蒸馏的方式，提高低学生模型的性能达到与教师模型的性能一致，这种方法可使手势识别模型既实现推理速度快，又能使模型的性能和精度达到高分辨率模型的性能和精度，并能很好的检测出作为小目标对象的手。

但是高分辨率模型对低分辨率模型进行知识蒸馏，由于输入的分辨率不同，模型的颈部网络会存在特征层尺度不匹配的问题，一般方法对高分辨率模型的输出特征层进行降采样，但是这会破坏高分辨模型预测的特征，因此不能很好的反映学生模型所学的东西，因此本发明进一步通过多尺度融合模块，使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配。对于知识蒸馏的方法，学生模型的性能能达到多好得到效果，与教师模型有直接关系，因此配合本发明设定的训练策略，可以训练并获得一个高精度的多分辨率教师模型，该模型含有高分辨率的特征信息，并用于对低分率学生模型进行知识蒸馏，提高低分率学生模型的性能。

基于上述的问题，本发明主要面向于移动端、嵌入式设备的一种低分辨率的实时手势识别方法。通过将两个模型特征图对齐的方式，解决高分辨率模型和低分辨率模型之间的特征图不匹配的问题，训练一个高精度的多分辨率模型，以高精度的多分辨率模型作为教师模型，低分辨率模型作为学生模型，结合知识蒸馏的方法，使用教师模型对学生模型进行特征指导，实现学生模型与教师模型的性能一致，并结合轻量级主干网络，对模型进一步的加速。

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种低分辨率的实时手势识别方法，所述识别方法包括如下步骤：

步骤1，采用的MobileNetV3_Large作为轻量级骨干模型实时提取待识别的手势特征，使用多组深度可分离卷积组成，加速推理速度的同时提取准确的特征；

步骤2，通过知识蒸馏方法使高分辨率模型作为教师模型能指导作为学生模型的低分率模型，通过预设的策略使得教师模型将知识传输给学生模型，其中，所述的高分辨率模型和低分率模型具体为采用两种基本分辨率

和

，其中

其中k为任意偶数值；

步骤3，添加特征融合模块ABF对高分辨率教师模型和低分辨率教师模型进行特征融合, 使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配，以此加速实时手势识别的速度。

在本发明的一个实施例中，根据下采样[2,4,8,16,32]的倍数获得5个Stage特征模块，使用SPPF模块，通过不同池化核大小的最大池化进行特征提取，扩大网络的感受野，通过一个卷积层Conv作为输入，再通过三个5x5的最大池化层（MaxPool2D）并与输入进行拼接(Concat)。

在本发明的一个实施例中，所述颈部网络采用FPN与PAN组合，在主干网络中获得3个有效特征层并被用于继续提取特征，使用PAN模块可以对特征进行上采样实现特征融合还可以对特征再次进行下采样，还会对特征再次进行下采样实现特征融合，使模型获取更加丰富的特征信息。检测网络由四个检测层组成，检测层（Head）输出一个向量，该向量具有目标对象的类别概率、对象得分和对象边界框的位置。

在本发明的一个实施例中，颈部网络输出的特征图经过检测网络进行对象的分类和边界框的回归，对于输入图像的分辨率为（H,W）的训练损失定义如下：

其中

为分类损失，

为物体置信度损失，

为预测框与标定框的误差损失。

在本发明的一个实施例中，所述通过预设的策略使得教师模型将知识传输给学生模型进一步包括：在颈部网络结构中，第n+1阶段的特征层大小比第n阶段的特征层大m倍，并且高分辨率模型比低分辨率大模型的分辨率大m倍，其高分辨率模型的第n阶段的特征层大小与低分辨模型的第n-1阶段的特征层大小一致，由于相差一个阶段的特征图提供了两个输入分辨率之间的特征尺度是一致的，使得高分辨率模型与低分辨率大模型的特征层尺寸匹配。

在本发明的一个实施例中，选择640x640作为高分辨率模型，320x320作为低分辨率模型，轻量级神经网络由于进行了2、4、8、16、32倍数的5次下采样，高分辨率模型（640x640）将获得

（320x320）、

（160x160）、

（80x80）、

（40x40）、

（20x20）5个特征层，通过颈部网络可获得特征层

。低分辨率模型（320x320）将获得

（320x320）、

（160x160）、

（80x80）、

（40x40）、

（20x20）5个特征层，通过颈部网络可获得特征层

其中

与

特征层共享相同的空间尺度，

与

特征层共享相同的空间尺度，两组特征图再进行知识蒸馏的损失计算，通过对齐高分辨率模型的特征层与低分辨率模型的特征层的方式，其对齐方式的训练损失如下：

在本发明的一个实施例中，所述特征融合模块ABF输入为两个大小一致的特征图

和

，对两个特征图进行拼接（Concat），通过一个1x1卷积核的卷积层（Conv1），提取综合空间注意力特征图，通过Sigmoid归一化计算加权分数，通过切分（Split）获得两条分支的权重值与

和

分别乘以其对应得权重并相加，最后通过一个3x3卷积核的卷积层（Conv2），将获得一个新的特征图

，获新的特征图将输入到检测层进行处理。

在本发明的一个实施例中，新特征图

的损失

公式如下：

其中，

为损失函数的权重值，其中

为损失函数的权重值，

表示融合后的特征图，

的计算方式与

一致。

在本发明的一个实施例中，教师模型的损失函数定义如下：

。

在本发明的一个实施例中，通过多尺度融合模块的处理可以得到一个高精度的多分辨率教师模型，教师模型可以将其多分辨率特征信息提取到对学生模型上,教师模型输出4个特征图，同样学生模型输出4个特征图，使用损失函数作为两个特征图之间的损失函数，蒸馏损失如下所示：

其中，T和S分别是教师模型和学生模型，

为教师模型的第i个的特征图,

为学生模型的第i个的特征图，r代表损失函数的权重系数；

由于使用知识蒸馏方式后，对学生模型进行知识蒸馏的损失和原始检测模型损失的合并，其公式如下：

其中，r代表损失函数的权重系数。

因此，本发明主要面向于移动端、嵌入式设备的一种低分辨率的实时手势识别方法。通过将两个模型特征图对齐的方式，解决高分辨率模型和低分辨率模型之间的特征图不匹配的问题，训练一个高精度的多分辨率模型，以高精度的多分辨率模型作为教师模型，低分辨率模型作为学生模型，结合知识蒸馏的方法，使用教师模型对学生模型进行特征指导，实现学生模型与教师模型的性能一致，并结合轻量级主干网络，对模型进一步的加速。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明低分辨率的实时手势识别方法中的检测网络的网络结构图。

图2是本发明的一种低分辨率的实时手势识别方法的轻量级神经网络算法模块结构图。

图3是本发明的通过颈部网络获得特征层并且两组特征图再进行知识蒸馏的损失计算的结构图。

图4是本发明的一种低分辨率的实时手势识别方法的ABF模块结构图。

图5是本发明的一种低分辨率的实时手势识别方法的流程图。

具体实施方式

下面介绍本发明设计的实现方式：

参照说明书附图1-5所示，本发明的架构基于yolov5进行修改，添加轻量级神经网络算法模块，并构建一个知识蒸馏的基本结构用于提升低分辨率模型的性能。本发明的训练策略分为两个阶段，第一个阶段通过多尺度融合模块，训练出一个高精度的多分辨率教师模型，第二阶段使用训练好的多分辨率教师引导低分辨率学生模型学习特征信息，以此提高低分辨率学生模型的性能。为了提高教师模型的精度和加快模型的推理速度，本发明采用以MobileNetV3_Large作为轻量级主干网络。

一、检测模型的基本架构

轻量级神经网络算法模块，采用的MobileNetV3_Large作为轻量级骨干模型提取特征，使用多组深度可分离卷积组成，加速推理速度的同事提取准确的特征。根据下采样[2,4,8,16,32]的倍数获得5个Stage特征模块，使用SPPF模块，通过不同池化核大小的最大池化进行特征提取，扩大网络的感受野，其结构如图2所示,通过一个卷积层Conv作为输入，根据结构如图2通过三个5x5的最大池化层（MaxPool2D）并与输入进行拼接(Concat)。

颈部网络采用FPN与PAN组合，在主干网络中获得3个有效特征层并被用于继续提取特征，使用PAN模块可以对特征进行上采样实现特征融合还可以对特征再次进行下采样，还会对特征再次进行下采样实现特征融合，使模型获取更加丰富的特征信息。检测网络由四个检测层组成，检测层（Head）输出一个向量，该向量具有目标对象的类别概率、对象得分和对象边界框的位置。其网络的结构图如下图1所示。

颈部网络输出的特征图经过检测网络进行对象的分类和边界框的回归，对于输入图像的分辨率为（H,W）的训练损失定义如下公式1：

其中

为分类损失，

为物体置信度损失，

为预测框与标定框的误差损失。

二、知识蒸馏的基本结构

本发明开始的目的是通过知识蒸馏方法使高分辨率模型作为教师模型能指导作为学生模型的低分率模型，但是高分辨率模型与低分辨率模型存在特征层尺度不匹配的问题，一般方法对高分辨率模型的输出特征层进行降采样，但是这会破坏高分辨模型预测的特征，因此不能很好的反映学生模型所学的东西。

在颈部网络结构中特征金字塔中相邻特征层的尺寸相差两倍，在高分辨率也是的低分辨率两倍的情况下，采用适当的策略将有利于不同阶段的特征层对齐。本发明采用两种基本分辨率

和

，其中

，其中k为任意偶数值。在本次的训练教师的过程中，本发明选择640x640作为高分辨率模型，320x320作为低分辨率模型，k为2。在颈部网络结构中，第n+1阶段的特征层大小比第n阶段的特征层大两倍，并且高分辨率模型比低分辨率大模型的分辨率大两倍，其高分辨率模型的第n阶段的特征层大小与低分辨模型的第n-1阶段的特征层大小一致，由于相差一个阶段的特征图提供了两个输入分辨率之间的特征尺度是一致的，并使高分辨率模型与低分辨率大模型的特征层尺寸匹配，这种策略将有利于教师模型将知识传输给学生模型。轻量级神经网络由于进行了2、4、8、16、32倍数的5次下采样，高分辨率模型（640x640）将获得

（320x320）、

（160x160）、

（80x80）、

（40x40）、

（20x20）5个特征层，通过颈部网络可获得特征层

。低分辨率模型（320x320）将获得

（320x320）、

（160x160）、

（80x80）、

（40x40）、

（20x20）5个特征层，通过颈部网络可获得特征层

。其中

与

特征层共享相同的空间尺度，

与

特征层共享相同的空间尺度，以此类推，两组特征图再进行知识蒸馏的损失计算，其结构如图3所示。通过对齐高分辨率模型的特征层与低分辨率模型的特征层的方式，其对齐方式的训练损失公式2如下：

公式2

三、多尺度融合模块

知识蒸馏的过程中一个好的教师模型是十分重要的，尽管可以直接训练一个单高分辨率的教师模型来指导学生模型，但是教师模型并无法学习到其他分辨率的特征，可能会导致学习得特征对于低分辨率学生模型不兼容，因此需要添加多尺度训练策略，但是多尺度训练是在模型的权重上改进了教师模型，并没有明确地将多尺度信息融入到输入图形的特征中，因此需要对高分辨率教师模型和低分辨率教师模型进行特征融合，可以基于上文提到的知识蒸馏的结构，添加特征融合模块ABF，可以获得的一个好的教师模型。ABF模块其结构如图4所示，输入为两个大小一致的特征图

和

，对两个特征图进行拼接（Concat），通过一个1x1卷积核的卷积层（Conv1），提取综合空间注意力特征图，通过 Sigmoid归一化计算加权分数，通过切分（Split）获得两条分支的权重值与

和

，获新的特征图将输入到检测层进行处理。新特征图

的损失

公式3定义如下：

公式3

其中

为损失函数的权重值，

表示融合后的特征图，

的计算方式与

一致，因此教师模型的损失函数公式4定义如下：

公式4

四、知识蒸馏的损失函数

通过多尺度融合模块的处理，本发明可以得到一个高精度的多分辨率教师模型，教师模型可以将其多分辨率特征信息提取到对学生模型上,教师模型将会输出4个特征图，同样学生模型也将会输出4个特征图，使用损失函数作为两个特征图之间的损失函数，蒸馏损失的公式5如下。

公式5

其中T和S分别是教师模型和学生模型，

为教师模型的第i个的特征图,

为学生模型的第i个的特征图，r代表损失函数的权重系数。

由于使用知识蒸馏方式后，对学生模型进行知识蒸馏的损失和原始检测模型损失的合并，其公式6如下

公式6

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种低分辨率的实时手势识别方法，其特征在于，所述识别方法包括如下步骤：

，其中

，其中k为任意偶数值，并且所述通过预设的策略使得教师模型将知识传输给学生模型进一步包括：在颈部网络结构中，第n+1阶段的特征层大小比第n阶段的特征层大m倍，并且高分辨率模型比低分辨率大模型的分辨率大m倍，其高分辨率模型的第n阶段的特征层大小与低分辨模型的第n-1阶段的特征层大小一致，由于相差一个阶段的特征图提供了两个输入分辨率之间的特征尺度是一致的，使得高分辨率模型与低分辨率大模型的特征层尺寸匹配，并且选择640x640作为高分辨率模型，320x320作为低分辨率模型，轻量级神经网络由于进行了2、4、8、16、32倍数的5次下采样，所述高分辨率模型将获得

、/>

、/>

、/>

、/>

5个特征层，其中，/>

-/>

对应的分辨率分别为320x320、160x160、80x80、40x40、20x20，通过颈部网络可获得特征层

，所述低分辨率模型将获得/>

、/>

、/>

、/>

、/>

5个特征层，其中，/>

-/>

对应的分辨率分别为320x320、160x160、80x80、40x40、20x20，通过颈部网络可获得特征层/>

，其中/>

与/>

特征层共享相同的空间尺度，/>

与/>

特征层共享相同的空间尺度，两组特征图再进行知识蒸馏的损失计算，通过对齐高分辨率模型的特征层与低分辨率模型的特征层的方式，其对齐方式的训练损失如下：/>

；

步骤3，添加特征融合模块ABF对高分辨率教师模型和低分辨率教师模型进行特征融合, 使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配，以此加速实时手势识别的速度，其中，所述颈部网络采用FPN与PAN组合，在主干网络中获得3个有效特征层并被用于继续提取特征，使用PAN模块对特征进行上采样实现特征融合并对特征再次进行下采样，通过对特征再次进行下采样实现特征融合，使模型获取更加丰富的特征信息，检测网络由四个检测层组成，检测层输出一个向量，该向量具有目标对象的类别概率、对象得分和对象边界框的位置；颈部网络输出的特征图经过检测网络进行对象的分类和边界框的回归，对于输入图像的分辨率为（H,W）的训练损失定义如下：