CN115797976B - 一种低分辨率的实时手势识别方法 - Google Patents

一种低分辨率的实时手势识别方法 Download PDF

Info

Publication number
CN115797976B
CN115797976B CN202310039359.9A CN202310039359A CN115797976B CN 115797976 B CN115797976 B CN 115797976B CN 202310039359 A CN202310039359 A CN 202310039359A CN 115797976 B CN115797976 B CN 115797976B
Authority
CN
China
Prior art keywords
model
resolution
feature
low
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310039359.9A
Other languages
English (en)
Other versions
CN115797976A (zh
Inventor
李观喜
张磊
苏鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ziweiyun Technology Co ltd
Original Assignee
Guangzhou Ziweiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ziweiyun Technology Co ltd filed Critical Guangzhou Ziweiyun Technology Co ltd
Priority to CN202310039359.9A priority Critical patent/CN115797976B/zh
Publication of CN115797976A publication Critical patent/CN115797976A/zh
Application granted granted Critical
Publication of CN115797976B publication Critical patent/CN115797976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种低分辨率的实时手势识别方法,添加特征融合模块对高分辨率教师模型和低分辨率教师模型进行特征融合,使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配,本发明为面向于移动端、嵌入式设备的一种低分辨率的实时手势识别方法。通过将两个模型特征图对齐的方式,解决高分辨率模型和低分辨率模型之间的特征图不匹配的问题,训练一个高精度的多分辨率模型,以高精度的多分辨率模型作为教师模型,低分辨率模型作为学生模型,结合知识蒸馏的方法,使用教师模型对学生模型进行特征指导,实现学生模型与教师模型的性能一致,并结合轻量级主干网络,对模型进一步的加速。

Description

一种低分辨率的实时手势识别方法
技术领域
本发明涉及计算机人机交互技术领域,尤其涉及一种低分辨率的实时手势识别方法。
背景技术
手势识别技术作为人机交互的重要组成部分,在手语翻译、体感游戏等领域有着广阔的应用前景。随着人机交互技术的快速发展,人们对于沉浸交互式的体验需求也越发的变大,手势识别技术作为交互式技术中最重要的技术。尤其目前所处的大背景下,虚拟现实目前作为一种非常有前途的技术,可以应用于教育和娱乐。结合手势检测技术,手部2D/3D骨骼关键点识别,可以进一步获得人与虚拟现实世界的关系,增强交互体验。
在实际的落地产品中,为了更好的开阔市场,手势检测技术往往需要部署在计算资源有限的嵌入式设备中到达实时、精准的效果。
因此在实际运用过程会对手势识别的推理速度要求高,而且手部在实际拍摄过程中往往是一种小目标对象,因此也要求的小目标对象检测精度有一定的要求。为了提高检测的精度,使用输入高分辨率图形对模型预测的准确度会有很大的提高,但是这种方法需要巨大的运算量,更不用说要在嵌入式设备中实现实时的效果。降低输入模型的分辨率也可以大大提高模型的推理速度并嵌入式中实现实时的效果,但是降低输入模型的分辨率会导致模型的性能会出现大幅度的下降,尤其手势检测的检测对象手,在实际的摄像机拍照的图像中相对于行人是一种小目标对象,对于低分辨率输入的模型的检测效果将会下降。
发明内容
现有的压缩模型的方法,如剪枝、量化、知识蒸馏等对于模型推理速度的优化都有明显的提升效果,本发明使用知识蒸馏的方式提升低分辨率模型的性能,本发明将高分辨率模型作为教师模型,低分辨率模型作为学生模型,通过知识蒸馏的方式,提高低学生模型的性能达到与教师模型的性能一致,这种方法可使手势识别模型既实现推理速度快,又能使模型的性能和精度达到高分辨率模型的性能和精度,并能很好的检测出作为小目标对象的手。
但是高分辨率模型对低分辨率模型进行知识蒸馏,由于输入的分辨率不同,模型的颈部网络会存在特征层尺度不匹配的问题,一般方法对高分辨率模型的输出特征层进行降采样,但是这会破坏高分辨模型预测的特征,因此不能很好的反映学生模型所学的东西,因此本发明进一步通过多尺度融合模块,使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配。对于知识蒸馏的方法,学生模型的性能能达到多好得到效果,与教师模型有直接关系,因此配合本发明设定的训练策略,可以训练并获得一个高精度的多分辨率教师模型,该模型含有高分辨率的特征信息,并用于对低分率学生模型进行知识蒸馏,提高低分率学生模型的性能。
基于上述的问题,本发明主要面向于移动端、嵌入式设备的一种低分辨率的实时手势识别方法。通过将两个模型特征图对齐的方式,解决高分辨率模型和低分辨率模型之间的特征图不匹配的问题,训练一个高精度的多分辨率模型,以高精度的多分辨率模型作为教师模型,低分辨率模型作为学生模型,结合知识蒸馏的方法,使用教师模型对学生模型进行特征指导,实现学生模型与教师模型的性能一致,并结合轻量级主干网络,对模型进一步的加速。
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种低分辨率的实时手势识别方法,所述识别方法包括如下步骤:
步骤1,采用的MobileNetV3_Large作为轻量级骨干模型实时提取待识别的手势特征,使用多组深度可分离卷积组成,加速推理速度的同时提取准确的特征;
步骤2,通过知识蒸馏方法使高分辨率模型作为教师模型能指导作为学生模型的 低分率模型,通过预设的策略使得教师模型将知识传输给学生模型,其中,所述的高分辨率 模型和低分率模型具体为采用两种基本分辨率
Figure SMS_1
Figure SMS_2
,其中
Figure SMS_3
其中k为任意偶数值;
步骤3,添加特征融合模块ABF对高分辨率教师模型和低分辨率教师模型进行特征融合, 使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配,以此加速实时手势识别的速度。
在本发明的一个实施例中,根据下采样[2,4,8,16,32]的倍数获得5个Stage特征模块,使用SPPF模块,通过不同池化核大小的最大池化进行特征提取,扩大网络的感受野,通过一个卷积层Conv作为输入,再通过三个5x5的最大池化层(MaxPool2D)并与输入进行拼接(Concat)。
在本发明的一个实施例中,所述颈部网络采用FPN与PAN组合,在主干网络中获得3个有效特征层并被用于继续提取特征,使用PAN模块可以对特征进行上采样实现特征融合还可以对特征再次进行下采样,还会对特征再次进行下采样实现特征融合,使模型获取更加丰富的特征信息。检测网络由四个检测层组成,检测层(Head)输出一个向量,该向量具有目标对象的类别概率、对象得分和对象边界框的位置。
在本发明的一个实施例中,颈部网络输出的特征图经过检测网络进行对象的分类 和边界框的回归,对于输入图像的分辨率为(H,W)的训练损失定义如下:
Figure SMS_4
其中
Figure SMS_5
为分类损失,
Figure SMS_6
为物体置信度损失,
Figure SMS_7
为预测框与标定框的误 差损失。
在本发明的一个实施例中,所述通过预设的策略使得教师模型将知识传输给学生模型进一步包括:在颈部网络结构中,第n+1阶段的特征层大小比第n阶段的特征层大m倍,并且高分辨率模型比低分辨率大模型的分辨率大m倍,其高分辨率模型的第n阶段的特征层大小与低分辨模型的第n-1阶段的特征层大小一致,由于相差一个阶段的特征图提供了两个输入分辨率之间的特征尺度是一致的,使得高分辨率模型与低分辨率大模型的特征层尺寸匹配。
在本发明的一个实施例中,选择640x640作为高分辨率模型,320x320作为低分辨 率模型,轻量级神经网络由于进行了2、4、8、16、32倍数的5次下采样,高分辨率模型 (640x640)将获得
Figure SMS_16
(320x320)、
Figure SMS_11
(160x160)、
Figure SMS_18
(80x80)、
Figure SMS_15
(40x40)、
Figure SMS_23
(20x20)5个特征层,通过颈部网络可获得特征层
Figure SMS_14
。低分辨率模型 (320x320)将获得
Figure SMS_22
(320x320)、
Figure SMS_10
(160x160)、
Figure SMS_20
(80x80)、
Figure SMS_8
(40x40)、
Figure SMS_17
(20x20)5个特征层,通过颈部网络可获得特征层
Figure SMS_9
其中
Figure SMS_19
Figure SMS_13
特征 层共享相同的空间尺度,
Figure SMS_21
Figure SMS_12
特征层共享相同的空间尺度,两组特征图再进行知识蒸 馏的损失计算,通过对齐高分辨率模型的特征层与低分辨率模型的特征层的方式,其对齐 方式的训练损失如下:
Figure SMS_24
在本发明的一个实施例中,所述特征融合模块ABF输入为两个大小一致的特征图
Figure SMS_25
Figure SMS_26
,对两个特征图进行拼接(Concat),通过一个1x1卷积核的卷积层(Conv1),提取 综合空间注意力特征图,通过Sigmoid归一化计算加权分数,通过切分(Split)获得两条分 支的权重值与
Figure SMS_27
Figure SMS_28
分别乘以其对应得权重并相加,最后通过一个3x3卷积核的卷积 层(Conv2),将获得一个新的特征图
Figure SMS_29
,获新的特征图将输入到检测层进行处理。
在本发明的一个实施例中,新特征图
Figure SMS_30
的损失
Figure SMS_31
公式如下:
Figure SMS_32
其中,
Figure SMS_33
为损失函数的权重值,其中
Figure SMS_34
为损失函数的权重值,
Figure SMS_35
表示融合后的特征图,
Figure SMS_36
的计算方式与
Figure SMS_37
一致。
在本发明的一个实施例中,教师模型的损失函数定义如下:
Figure SMS_38
在本发明的一个实施例中,通过多尺度融合模块的处理可以得到一个高精度的多 分辨率教师模型,教师模型可以将其多分辨率特征信息提取到对学生模型上,教师模型输 出4个特征图,同样学生模型输出4个特征图,使用损失函数作为两个特征图之间的损失函 数,蒸馏损失如下所示:
Figure SMS_39
其中,T和S分别是教师模型和学生模型,
Figure SMS_40
为教师模型的第i个的特征图,
Figure SMS_41
为学生模型的第i个的特征图,r代表损失函数的权重系数;
由于使用知识蒸馏方式后,对学生模型进行知识蒸馏的损失和原始检测模型损失 的合并,其公式如下:
Figure SMS_42
其中,r代表损失函数的权重系数。
因此,本发明主要面向于移动端、嵌入式设备的一种低分辨率的实时手势识别方法。通过将两个模型特征图对齐的方式,解决高分辨率模型和低分辨率模型之间的特征图不匹配的问题,训练一个高精度的多分辨率模型,以高精度的多分辨率模型作为教师模型,低分辨率模型作为学生模型,结合知识蒸馏的方法,使用教师模型对学生模型进行特征指导,实现学生模型与教师模型的性能一致,并结合轻量级主干网络,对模型进一步的加速。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1是本发明低分辨率的实时手势识别方法中的检测网络的网络结构图。
图2是本发明的一种低分辨率的实时手势识别方法的轻量级神经网络算法模块结构图。
图3是本发明的通过颈部网络获得特征层并且两组特征图再进行知识蒸馏的损失计算的结构图。
图4是本发明的一种低分辨率的实时手势识别方法的ABF模块结构图。
图5是本发明的一种低分辨率的实时手势识别方法的流程图。
具体实施方式
下面介绍本发明设计的实现方式:
参照说明书附图1-5所示,本发明的架构基于yolov5进行修改,添加轻量级神经网络算法模块,并构建一个知识蒸馏的基本结构用于提升低分辨率模型的性能。本发明的训练策略分为两个阶段,第一个阶段通过多尺度融合模块,训练出一个高精度的多分辨率教师模型,第二阶段使用训练好的多分辨率教师引导低分辨率学生模型学习特征信息,以此提高低分辨率学生模型的性能。为了提高教师模型的精度和加快模型的推理速度,本发明采用以MobileNetV3_Large作为轻量级主干网络。
一、检测模型的基本架构
轻量级神经网络算法模块,采用的MobileNetV3_Large作为轻量级骨干模型提取特征,使用多组深度可分离卷积组成,加速推理速度的同事提取准确的特征。根据下采样[2,4,8,16,32]的倍数获得5个Stage特征模块,使用SPPF模块,通过不同池化核大小的最大池化进行特征提取,扩大网络的感受野,其结构如图2所示,通过一个卷积层Conv作为输入,根据结构如图2通过三个5x5的最大池化层(MaxPool2D)并与输入进行拼接(Concat)。
颈部网络采用FPN与PAN组合,在主干网络中获得3个有效特征层并被用于继续提取特征,使用PAN模块可以对特征进行上采样实现特征融合还可以对特征再次进行下采样,还会对特征再次进行下采样实现特征融合,使模型获取更加丰富的特征信息。检测网络由四个检测层组成,检测层(Head)输出一个向量,该向量具有目标对象的类别概率、对象得分和对象边界框的位置。其网络的结构图如下图1所示。
颈部网络输出的特征图经过检测网络进行对象的分类和边界框的回归,对于输入图像的分辨率为(H,W)的训练损失定义如下公式1:
Figure SMS_43
其中
Figure SMS_44
为分类损失,
Figure SMS_45
为物体置信度损失,
Figure SMS_46
为预测框与标定框的误 差损失。
二、知识蒸馏的基本结构
本发明开始的目的是通过知识蒸馏方法使高分辨率模型作为教师模型能指导作为学生模型的低分率模型,但是高分辨率模型与低分辨率模型存在特征层尺度不匹配的问题,一般方法对高分辨率模型的输出特征层进行降采样,但是这会破坏高分辨模型预测的特征,因此不能很好的反映学生模型所学的东西。
在颈部网络结构中特征金字塔中相邻特征层的尺寸相差两倍,在高分辨率也是的 低分辨率两倍的情况下,采用适当的策略将有利于不同阶段的特征层对齐。本发明采用两 种基本分辨率
Figure SMS_56
Figure SMS_55
,其中
Figure SMS_64
,其中k为任 意偶数值。在本次的训练教师的过程中,本发明选择640x640作为高分辨率模型,320x320作 为低分辨率模型,k为2。在颈部网络结构中,第n+1阶段的特征层大小比第n阶段的特征层大 两倍,并且高分辨率模型比低分辨率大模型的分辨率大两倍,其高分辨率模型的第n阶段的 特征层大小与低分辨模型的第n-1阶段的特征层大小一致,由于相差一个阶段的特征图提 供了两个输入分辨率之间的特征尺度是一致的,并使高分辨率模型与低分辨率大模型的特 征层尺寸匹配,这种策略将有利于教师模型将知识传输给学生模型。轻量级神经网络由于 进行了2、4、8、16、32倍数的5次下采样,高分辨率模型(640x640)将获得
Figure SMS_49
(320x320)、
Figure SMS_57
(160x160)、
Figure SMS_50
(80x80)、
Figure SMS_63
(40x40)、
Figure SMS_51
(20x20)5个特征层,通过颈部网络可 获得特征层
Figure SMS_58
。低分辨率模型(320x320)将获得
Figure SMS_47
(320x320)、
Figure SMS_59
(160x160)、
Figure SMS_52
(80x80)、
Figure SMS_61
(40x40)、
Figure SMS_53
(20x20)5个特征层,通过颈部网络可 获得特征层
Figure SMS_65
。其中
Figure SMS_54
Figure SMS_62
特征层共享相同的空间尺度,
Figure SMS_48
Figure SMS_60
特征层共享相同的空间尺度,以此类推,两组特征图再进行知识蒸馏的损失计算,其结 构如图3所示。通过对齐高分辨率模型的特征层与低分辨率模型的特征层的方式,其对齐方 式的训练损失公式2如下:
Figure SMS_66
公式2
三、多尺度融合模块
知识蒸馏的过程中一个好的教师模型是十分重要的,尽管可以直接训练一个单高 分辨率的教师模型来指导学生模型,但是教师模型并无法学习到其他分辨率的特征,可能 会导致学习得特征对于低分辨率学生模型不兼容,因此需要添加多尺度训练策略,但是多 尺度训练是在模型的权重上改进了教师模型,并没有明确地将多尺度信息融入到输入图形 的特征中,因此需要对高分辨率教师模型和低分辨率教师模型进行特征融合,可以基于上 文提到的知识蒸馏的结构,添加特征融合模块ABF,可以获得的一个好的教师模型。ABF模块 其结构如图4所示,输入为两个大小一致的特征图
Figure SMS_67
Figure SMS_68
,对两个特征图进行拼接 (Concat),通过一个1x1卷积核的卷积层(Conv1),提取综合空间注意力特征图,通过 Sigmoid归一化计算加权分数,通过切分(Split)获得两条分支的权重值与
Figure SMS_69
Figure SMS_70
分别 乘以其对应得权重并相加,最后通过一个3x3卷积核的卷积层(Conv2),将获得一个新的特 征图
Figure SMS_71
,获新的特征图将输入到检测层进行处理。新特征图
Figure SMS_72
的损失
Figure SMS_73
公式3定义如 下:
Figure SMS_74
公式3
其中
Figure SMS_75
为损失函数的权重值,
Figure SMS_76
表示融合后的特征 图,
Figure SMS_77
的计算方式与
Figure SMS_78
一致,因此教师模型的损失函数公式4定义如下:
Figure SMS_79
公式4
四、知识蒸馏的损失函数
通过多尺度融合模块的处理,本发明可以得到一个高精度的多分辨率教师模型,教师模型可以将其多分辨率特征信息提取到对学生模型上,教师模型将会输出4个特征图,同样学生模型也将会输出4个特征图,使用损失函数作为两个特征图之间的损失函数,蒸馏损失的公式5如下。
Figure SMS_80
公式5
其中T和S分别是教师模型和学生模型,
Figure SMS_81
为教师模型的第i个的特征图,
Figure SMS_82
为学生模型的第i个的特征图,r代表损失函数的权重系数。
由于使用知识蒸馏方式后,对学生模型进行知识蒸馏的损失和原始检测模型损失的合并,其公式6如下
Figure SMS_83
公式6
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种低分辨率的实时手势识别方法,其特征在于,所述识别方法包括如下步骤:
步骤1,采用的MobileNetV3_Large作为轻量级骨干模型实时提取待识别的手势特征,使用多组深度可分离卷积组成,加速推理速度的同时提取准确的特征;
步骤2,通过知识蒸馏方法使高分辨率模型作为教师模型能指导作为学生模型的低分率模型,通过预设的策略使得教师模型将知识传输给学生模型,其中,所述的高分辨率模型和低分率模型具体为采用两种基本分辨率
Figure QLYQS_9
,其中
Figure QLYQS_6
,其中k为任意偶数值,并且所述通过预设的策略使得教师模型将知识传输给学生模型进一步包括:在颈部网络结构中,第n+1阶段的特征层大小比第n阶段的特征层大m倍,并且高分辨率模型比低分辨率大模型的分辨率大m倍,其高分辨率模型的第n阶段的特征层大小与低分辨模型的第n-1阶段的特征层大小一致,由于相差一个阶段的特征图提供了两个输入分辨率之间的特征尺度是一致的,使得高分辨率模型与低分辨率大模型的特征层尺寸匹配,并且选择640x640作为高分辨率模型,320x320作为低分辨率模型,轻量级神经网络由于进行了2、4、8、16、32倍数的5次下采样,所述高分辨率模型将获得
Figure QLYQS_16
、/>
Figure QLYQS_8
、/>
Figure QLYQS_15
、/>
Figure QLYQS_4
、/>
Figure QLYQS_21
5个特征层,其中,/>
Figure QLYQS_5
-/>
Figure QLYQS_17
对应的分辨率分别为320x320、160x160、80x80、40x40、20x20,通过颈部网络可获得特征层
Figure QLYQS_2
,所述低分辨率模型将获得/>
Figure QLYQS_13
、/>
Figure QLYQS_7
、/>
Figure QLYQS_19
、/>
Figure QLYQS_3
、/>
Figure QLYQS_22
5个特征层,其中,/>
Figure QLYQS_12
-/>
Figure QLYQS_23
对应的分辨率分别为320x320、160x160、80x80、40x40、20x20,通过颈部网络可获得特征层/>
Figure QLYQS_11
,其中/>
Figure QLYQS_20
与/>
Figure QLYQS_1
特征层共享相同的空间尺度,/>
Figure QLYQS_18
与/>
Figure QLYQS_10
特征层共享相同的空间尺度,两组特征图再进行知识蒸馏的损失计算,通过对齐高分辨率模型的特征层与低分辨率模型的特征层的方式,其对齐方式的训练损失如下:/>
Figure QLYQS_14
步骤3,添加特征融合模块ABF对高分辨率教师模型和低分辨率教师模型进行特征融合, 使高分辨教师模型的颈部网络内的特征层尺度与低分辨率教师模型的颈部网络内的特征层尺度匹配,以此加速实时手势识别的速度,其中,所述颈部网络采用FPN与PAN组合,在主干网络中获得3个有效特征层并被用于继续提取特征,使用PAN模块对特征进行上采样实现特征融合并对特征再次进行下采样,通过对特征再次进行下采样实现特征融合,使模型获取更加丰富的特征信息,检测网络由四个检测层组成,检测层输出一个向量,该向量具有目标对象的类别概率、对象得分和对象边界框的位置;颈部网络输出的特征图经过检测网络进行对象的分类和边界框的回归,对于输入图像的分辨率为(H,W)的训练损失定义如下:
Figure QLYQS_24
其中/>
Figure QLYQS_25
为分类损失,/>
Figure QLYQS_26
为物体置信度损失,/>
Figure QLYQS_27
为预测框与标定框的误差损失。
2.如权利要求1所述的一种低分辨率的实时手势识别方法,其特征在于,所述特征融合模块ABF输入为两个大小一致的特征图
Figure QLYQS_28
和/>
Figure QLYQS_29
,对两个特征图进行拼接,通过一个1x1卷积核的卷积层,提取综合空间注意力特征图,通过Sigmoid归一化计算加权分数,通过切分获得两条分支的权重值与/>
Figure QLYQS_30
和/>
Figure QLYQS_31
分别乘以其对应得权重并相加,最后通过一个3x3卷积核的卷积层,将获得一个新的特征图/>
Figure QLYQS_32
,获新的特征图将输入到检测层进行处理。
3.如权利要求2所述的一种低分辨率的实时手势识别方法,其特征在于,新特征图
Figure QLYQS_34
的损失/>
Figure QLYQS_36
公式如下:/>
Figure QLYQS_38
其中,/>
Figure QLYQS_35
为损失函数的权重值,其中/>
Figure QLYQS_37
为损失函数的权重值,/>
Figure QLYQS_39
表示融合后的特征图,
Figure QLYQS_40
的计算方式与/>
Figure QLYQS_33
一致。
4.如权利要求3所述的一种低分辨率的实时手势识别方法,其特征在于,教师模型的损失函数定义如下:
Figure QLYQS_41
5.如权利要求4所述的一种低分辨率的实时手势识别方法,其特征在于,通过多尺度融合模块的处理得到一个高精度的多分辨率教师模型,教师模型将其多分辨率特征信息提取到对学生模型上,教师模型输出4个特征图,同样学生模型输出4个特征图,使用损失函数作为两个特征图之间的损失函数,蒸馏损失如下所示:
Figure QLYQS_42
其中,T和S分别是教师模型和学生模型,/>
Figure QLYQS_43
为教师模型的第i个的特征图, />
Figure QLYQS_44
为学生模型的第i个的特征图,r代表损失函数的权重系数;由于使用知识蒸馏方式后,对学生模型进行知识蒸馏的损失和原始检测模型损失的合并,其公式如下:
Figure QLYQS_45
其中,r代表损失函数的权重系数。/>
CN202310039359.9A 2023-01-12 2023-01-12 一种低分辨率的实时手势识别方法 Active CN115797976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310039359.9A CN115797976B (zh) 2023-01-12 2023-01-12 一种低分辨率的实时手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310039359.9A CN115797976B (zh) 2023-01-12 2023-01-12 一种低分辨率的实时手势识别方法

Publications (2)

Publication Number Publication Date
CN115797976A CN115797976A (zh) 2023-03-14
CN115797976B true CN115797976B (zh) 2023-05-30

Family

ID=85428957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310039359.9A Active CN115797976B (zh) 2023-01-12 2023-01-12 一种低分辨率的实时手势识别方法

Country Status (1)

Country Link
CN (1) CN115797976B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240580A (zh) * 2021-04-09 2021-08-10 暨南大学 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN111160533B (zh) * 2019-12-31 2023-04-18 中山大学 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN111767711B (zh) * 2020-09-02 2020-12-08 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
CN114970640B (zh) * 2022-06-21 2023-10-27 徐州工程学院 一种基于知识蒸馏的手势识别方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240580A (zh) * 2021-04-09 2021-08-10 暨南大学 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法

Also Published As

Publication number Publication date
CN115797976A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
Haloi Traffic sign classification using deep inception based convolutional networks
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN109886225A (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN111695457B (zh) 一种基于弱监督机制的人体姿态估计方法
CN113159232A (zh) 一种三维目标分类、分割方法
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN112085120B (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN114529982A (zh) 基于流式注意力的轻量级人体姿态估计方法及系统
Zhai et al. Group-split attention network for crowd counting
CN115512096A (zh) 基于CNN与Transformer的低分辨率图像分类方法及系统
CN113095251B (zh) 一种人体姿态估计方法及系统
CN112329830B (zh) 一种基于卷积神经网络和迁移学习的无源定位轨迹数据识别方法及系统
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN113902753A (zh) 基于双通道和自注意力机制的图像语义分割方法及系统
CN113762331A (zh) 关系型自蒸馏方法、装置和系统及存储介质
CN115797976B (zh) 一种低分辨率的实时手势识别方法
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN117011932A (zh) 一种奔跑行为检测方法、电子设备及存储介质
CN115171052B (zh) 基于高分辨率上下文网络的拥挤人群姿态估计方法
Thakar et al. Sign Language to Text Conversion in Real Time using Transfer Learning
CN115205839A (zh) 基于yolov5的自然场景文本检测与识别方法
Zhang et al. An advanced pyramid network technology for optical character recognition
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
CN116863260A (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant