CN113449610A - 一种基于知识蒸馏和注意力机制的手势识别方法和系统 - Google Patents

一种基于知识蒸馏和注意力机制的手势识别方法和系统 Download PDF

Info

Publication number
CN113449610A
CN113449610A CN202110647508.0A CN202110647508A CN113449610A CN 113449610 A CN113449610 A CN 113449610A CN 202110647508 A CN202110647508 A CN 202110647508A CN 113449610 A CN113449610 A CN 113449610A
Authority
CN
China
Prior art keywords
gesture
network
data set
model
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110647508.0A
Other languages
English (en)
Inventor
郭翔
谢衍涛
宋娜
王鼎
陈继
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Gexiang Technology Co ltd
Original Assignee
Hangzhou Gexiang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Gexiang Technology Co ltd filed Critical Hangzhou Gexiang Technology Co ltd
Priority to CN202110647508.0A priority Critical patent/CN113449610A/zh
Publication of CN113449610A publication Critical patent/CN113449610A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请涉及一种基于知识蒸馏和注意力机制的手势识别方法和系统,其中,该方法包括:获取手势图片数据集,将数据集输入三级网络的教师模型中,通过教师模型对手势图片数据集进行手势识别,输出得到手势分类结果;接着,通过人工标注数据集、计算机自动生成的随机数据集、未标记图片的教师网络的手势分类结果对二级网络的学生模型进行带知识蒸馏的训练,得到训练好的二级网络学生模型;最后,获取手势图片数据集,将数据集输入训练好的二级网络的学生模型中,通过训练好的学生模型识别手势,输出得到手势分类结果。通过本申请,提高了手势识别精度和速度,并实现了模型的移动端部署。

Description

一种基于知识蒸馏和注意力机制的手势识别方法和系统
技术领域
本申请涉及计算机领域,特别是涉及一种基于知识蒸馏和注意力机制的手势识别方法和系统。
背景技术
手势识别通常采用传统机器学习方法例如SVM等,直接对手势图片进行分类,然而,由于识别手势种类偏少,需要从头进行模型的训练来扩展手势种类。为了方便手势种类扩展,可先进行手部关键点检测、再对手部关键点进行手势识别,然而,深度神经网络构造的手部关键点检测模型往往体积很大不利于移动端部署和快速推断,需要对模型进行压缩;此外,在对手部完成关键点检测之后进行手势识别时,由于关键点包含细节信息过多会限制手势分类的精度提升。因此,为了提高手势识别的精度,一般分成三个步骤:手掌检测、手部关键点检测和基于关键点的手势分类,然而,该方法也存在明显不足:1、网络结构复杂,训练难度高;2、网络体积较大,占用存储空间大且推断速度慢,不利于在移动端部署,应用场景限制;3、直接在手掌检测后进行图片分类手势识别,精度太低,且不利于可识别手势种类扩展。除此之外,随着知识蒸馏技术的出现,也出现了采用知识蒸馏实现手势识别估计的方法,然而现有的基于知识蒸馏的手势识别网络,只是将教师网络的手势识别知识迁移到学生网络中,而学生网络往往不够强力造成识别效率下降过多,识别准确率不高。
目前针对相关技术中存在的手势识别准确率低、推断速度慢和应用场景受限的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于知识蒸馏和注意力机制的手势识别方法和系统,以至少解决相关技术中存在的手势识别准确率低、推断速度慢和应用场景受限,不利于在移动端部署的问题。
第一方面,本申请实施例提供了一种基于知识蒸馏和注意力机制的手势识别方法,所述方法包括:
获取手势图片数据集,将所述数据集输入三级网络的教师模型中,通过所述教师模型对所述手势图片数据集进行手势识别,输出得到手势分类结果,其中,所述教师网络包括手掌检测网络、手关键点检测网络和手势分类网络;
通过人工标注数据集、计算机自动生成的随机数据集、未标记图片的所述教师网络的手势分类结果对二级网络的学生模型进行带知识蒸馏的训练,得到训练好的二级网络学生模型;
获取所述手势图片数据集,将所述数据集输入所述训练好的二级网络的学生模型中,通过所述训练好的学生模型识别手势,输出得到手势分类结果,其中,所述学生模型包括改进的yolo-v5目标检测网络和融合注意力机制的深度残差网络。
在其中一些实施例中,所述对二级网络的学生模型进行带知识蒸馏的训练包括:
将所述教师模型分类结果和所述学生模型分类结果的互相关度huber loss添加到训练所述学生模型的SGD损失函数中,进行相关性知识蒸馏。
在其中一些实施例中,所述通过所述教师模型对所述手势图片数据集进行手势识别,输出得到手势分类结果包括:
通过第一级的所述手掌检测网络识别手掌并标记手掌的旋转角度,得到全手切图,并将所述全手切图输入第二级网络和第三级网络;
通过第二级的所述手关键点检测网络对全手正向图片的关键点进行检测识别,输出所述关键点的2D坐标、左右手判定和手掌是否存在的二值判定,并根据拓扑关系连接所述手关键点,计算全部手关节的角度,将所述角度输入第三级网络;
通过第三级的所述手势分类网络对所述全手切图和所述手关节角度进行处理,识别手势,输出得到手势分类结果。
在其中一些实施例中,所述通过所述训练好的学生模型识别手势,输出得到手势分类结果包括:
通过第一级的所述改进的yolo-v5目标检测网络对所述手势图片进行特征提取,输出手部位置框、左右手判定以及手掌是否存在的二值判定;
在判断手掌存在的情况下,对所述位置框进行切图和增强处理,输入第二级的所述融合注意力机制的深度残差网络中进行特征提取,并降维输出,识别手势,得到手势分类结果。
在其中一些实施例中,在获取手势图片数据集之前,所述方法包括:
采集不同光照条件和不同背景下的手势图片,并通过三维软件按规则生成随机的手势图片,其中,所述手势图片包括不同的手掌占比;
对所述手势图片进行预处理,缩放到固定尺寸并进行人工标注,其中,所述人工标注包括通过SSD回归框标注手掌位置、标注掌根点和中指根点,依据预定义的拓扑图,标注手部其他关节点,并标注手势种类。
在其中一些实施例中,在将所述数据集输入三级网络的教师模型中之前,所述方法包括:
对所述教师模型进行分级训练,通过所述人工标定的数据集和所述计算机自动生成的随机数据集分别训练所述三级网络,并对所述教师模型进行整体训练,精调训练结果。
在其中一些实施例中,在得到训练好的二级网络学生模型之后,以及进行分类推断之前,所述方法包括:
将所述训练好的二级网络学生模型进行剪枝和量化压缩,并部署到移动端进行手势识别的分类推断。
第二方面,本申请实施例提供了一种基于知识蒸馏和注意力机制的手势识别系统,所述系统包括:
教师模型模块,用于获取手势图片数据集,将所述数据集输入三级网络的教师模型中,通过所述教师模型对所述手势图片数据集进行手势识别,输出得到手势分类结果,其中,所述教师网络包括手掌检测网络、手关键点检测网络和手势分类网络;
训练模块,用于通过人工标注数据集、计算机自动生成的随机数据集、未标记图片的所述教师网络的手势分类结果对二级网络的学生模型进行带知识蒸馏的训练,得到训练好的二级网络学生模型;
学生模型模块,用于获取所述手势图片数据集,将所述数据集输入所述训练好的二级网络的学生模型中,通过所述训练好的学生模型识别手势,输出得到手势分类结果,其中,所述学生模型包括改进的yolo-v5目标检测网络和融合注意力机制的深度残差网络。
第三方面,本申请实施例提供了一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于知识蒸馏和注意力机制的手势识别方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于知识蒸馏和注意力机制的手势识别方法。
相比于相关技术,本申请实施例提供的基于知识蒸馏和注意力机制的手势识别方法,获取手势图片数据集,将数据集输入三级网络的教师模型中,通过教师模型对手势图片数据集进行手势识别,输出得到手势分类结果,其中,教师网络包括手掌检测网络、手关键点检测网络和手势分类网络;接着,通过人工标注数据集、计算机自动生成的随机数据集、未标记图片的教师网络的手势分类结果对二级网络的学生模型进行带知识蒸馏的训练,得到训练好的二级网络学生模型;最后,获取手势图片数据集,将数据集输入训练好的二级网络的学生模型中,通过训练好的学生模型识别手势,输出得到手势分类结果,其中,学生模型包括改进的yolo-v5目标检测网络和融合注意力机制的深度残差网络。
本申请通过构建较强的三级深度神经网络教师模型,对手势进行精确识别,得到未标记图片的教师网络的手势分类结果数据集,扩充了数据集,能更好的训练学生模型的手势识别网络,接着通过知识蒸馏对学生模型进行训练,缩小网络体积,优化网络推断速度,实现了网络模型的移动端部署,此外,本申请对二级学生模型进行了优化,在残差网络中加入了注意力机制,有效提升了推算速度、精度,提高了网络的鲁棒性。解决了相关技术中存在的手势识别准确率低、推断速度慢和应用场景受限,不利于在移动端部署的问题,提高了手势识别精度和速度,并实现了模型的移动端部署。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于知识蒸馏和注意力机制的手势识别方法的应用环境示意图;
图2是根据本申请实施例的基于知识蒸馏和注意力机制的手势识别方法的流程图;
图3是根据本申请实施例的教师网络结构示意图;
图4是根据本申请实施例的学生模型训练流程示意图;
图5是根据本申请实施例的学生网络结构示意图;
图6是根据本申请实施例的教师模型训练流程示意图;
图7是根据本申请实施例的基于知识蒸馏和注意力机制的手势识别系统的结构框图;
图8是根据本申请实施例的电子设备的内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请提供的基于知识蒸馏和注意力机制的手势识别方法,可以应用于如图1所示的应用环境中,图1是根据本申请实施例的基于知识蒸馏和注意力机制的手势识别方法的应用环境示意图,如图1所示。其中,终端设备11与服务器10通过网络进行通信。服务器10获取手势图片数据集,将数据集输入三级网络的教师模型中,通过教师模型对手势图片数据集进行手势识别,输出得到手势分类结果,其中,教师网络包括手掌检测网络、手关键点检测网络和手势分类网络;接着,通过人工标注数据集、计算机自动生成的随机数据集、未标记图片的教师网络的手势分类结果对二级网络的学生模型进行带知识蒸馏的训练,得到训练好的二级网络学生模型;最后,获取手势图片数据集,将数据集输入训练好的二级网络的学生模型中,通过训练好的学生模型识别手势,输出得到手势分类结果,并显示于终端设备11上,其中,学生模型包括改进的yolo-v5目标检测网络和融合注意力机制的深度残差网络。需要说明的是,终端设备11可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器10可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本实施例提供了一种基于知识蒸馏和注意力机制的手势识别方法,图2是根据本申请实施例的基于知识蒸馏和注意力机制的手势识别方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取手势图片数据集,将数据集输入三级网络的教师模型中,通过教师模型对手势图片数据集进行手势识别,输出得到手势分类结果,其中,教师网络包括手掌检测网络、手关键点检测网络和手势分类网络;
图3是根据本申请实施例的教师网络结构示意图,如图3所示,通过教师模型对手势进行识别的具体步骤如下:
S1,通过教师模型中第一级手掌检测网络识别手掌并标记手掌的旋转角度,其中,骨干网络使用FPN网络,通过该网络能推断获得手掌区域最大回归框,旋转该回归框使之与手掌角度对齐并扩展回归框到包含全手切图,得到的全手切图输入教师模型的第二级网络和第三级网络;
S2,通过教师模型中第一级手关键点检测网络实现对全手正向图片的关键点检测识别,其中,骨干网络使用深度可分离卷积结构进行特征提取,输出得到关键点的2D坐标、左右手判定和手掌是否存在的二值判定,并根据拓扑关系连接手关键点,计算全部手关节的角度,将得到的角度输入教师模型的第三级网络中;
S3,通过教师模型中第三级手势分类网络识别手势,其中,骨干网络采用两个分支的Resnet网络,分别处理全手切图和手关节角度,最后使用全连接层融合,输出预定的手势识别one-hot编码、左右手判定以及手掌是否存在的二值判定,得到手势分类结果。
本实施例中,通过三级网络的教师模型分别实现了手掌检测和旋转角度标定、手关键点检测和骨架绘制、手势分类;手掌检测网络专注识别手掌和角度旋转,忽略手指对于检测的干扰,且多级FPN可以适配不同图像占比;关键点检测使用深度可分离卷积结构提取特征,效果更好,训练效率更高;手势识别使用手关节角度和图片两种方法的融合,互相约束提升手势识别的鲁棒性;
步骤S202,通过人工标注数据集、计算机自动生成的随机数据集、未标记图片的教师网络的手势分类结果对二级网络的学生模型进行带知识蒸馏的训练,得到训练好的二级网络学生模型;
优选的,对二级网络的学生模型进行带知识蒸馏的训练包括:将教师模型分类结果和学生模型分类结果的互相关度huber loss添加到训练学生模型的SGD损失函数中,进行相关性知识蒸馏。具体地,互相关度的计算是针对同一批次数据样本,先计算教师网络和学生网络的欧式距离相关性和三元组角度相关性,接着通过两类相关性计算huber loss,并将之添加到训练学生网络的SGD损失函数中,互相关度公式如下式1所示:
Figure BDA0003106960430000071
其中,XN为从一批次样本中任意选择N个元素组成的子集的集合,lδ为经典的huberloss,φD为欧拉距离,φA为i,j,k三点夹角,超参数α,β一般设为25,50。
需要说明的是,本实施例中除了采用同一批次数据定义的教师和学生互相关度进行相关性知识蒸馏外,还可以选择采用基于特征或者基于响应的损失函数进行蒸馏,相比较而言,采用互相关度可以更快的收敛,且保留更多暗知识,提升蒸馏效果。
具体地,本实施例中对学生模型的第一级进行带知识蒸馏的训练,混合使用人工标注数据集、计算机自动生成随机数据集和未标记图片的教师网络输出结果集,然后冻结学生模型的第一级参数,对学生模型的第二级也进行带知识蒸馏的训练,混合使用人工标注数据集、计算机自动生成随机数据集和未标记图片的教师网络输出结果集。图4是根据本申请实施例的学生模型训练流程示意图,如图4所示,上面部分表示:通过左侧的虚线将人工标记数据集输入学生网络,通过损失函数SGD训练学生网络,同时,利用人工标记数据集分别得到教师网络分类结果和学生分类结果后,计算两者的互相关度huber loss,并通过右侧虚线添加到损失函数SGD中,对相关性知识进行蒸馏,最后,通过两个函数合成的总损失函数来训练学生网络。同理,图4下面部分表示:通过扩展得到的大量未经标记的数据集,例如,计算机自动生成的随机数据集和未标记图片的教师网络的手势分类结果数据集,在经过上面初步训练的基础上进行相同的训练,进一步提升学生网络的精确度,需要说明的是,由于大量未标记数据是没有真实标签的,因此,不能直接采用未标记数据对学生网络进行训练,需要通过教师网络对学生网络进行训练。
本实施例中将未标记图片的教师网络的手势分类结果数据集作为一部分数据来训练学生模型,是由于公开的手势数据集不足且人工标记数据集的成本高,因此,为更好的训练学生手势识别网络,这里使用了教师网络的推断结果扩充数据集。进一步地,由于学生网络规矩较小收敛较慢,利用已训练的教师网络进行相关性知识蒸馏,可以加速学生网络训练,提升学生网络训练的效率和精度,此外,通过知识蒸馏能缩小学生网络体积,优化网络推断速度,实现移动端部署。;
步骤S203,获取手势图片数据集,将数据集输入训练好的二级网络的学生模型中,通过训练好的学生模型识别手势,输出得到手势分类结果,其中,学生模型包括改进的yolo-v5目标检测网络和融合注意力机制的深度残差网络。
图5是根据本申请实施例的学生网络结构示意图,如图5所示,通过训练好的学生模型识别手势的具体步骤如下:
S1,学生模型第一级网络目的是实现手部目标检测,通过改进的yolo-v5目标检测网络对手势图片进行特征提取,其中,骨干网络改用mobilenet-v3,同时增加通道注意力模块和空间注意力模块提高检测网络的鲁棒性,输出手部位置框、左右手判定以及手掌是否存在的二值判定。需要说明的是,第一级的手掌检测网络,可以采用其他类型的目标检测网络,例如mobilenet的检测结构,注意力机制也可以选择是否添加,本实施例中通过添加注意力机制可以提升检测效果;
S2,在判断手掌存在的情况下,对位置框进行切图和增强处理,输入第二级深度残差网络中提取特征并进行降维输出,识别手势,得到手势分类结果。其中,在第二级深度残差网络中增加了通道注意力和空间注意力模块,使深度残差网络模型聚焦到对手势分类有用的特征上,避免无关特征高干扰提高准确率。需要说明的是,第二级的手势识别网络,也可以不采用深度残差网络结构,还可以选择使用注意力机制模块,本实施例中添加注意力机制是为了提升效果,采用残差结构是为了提升训练速度和训练精度。
本实施例中,学生网络第一级将yolo原有的主干网络从darknet改为mobilenet-v3网络结构,能适应移动端环境,提升网络推断速度,此外,增加注意力机制模块能提升网络鲁棒性;学生网络第二级采用融合注意力机制的深度残差网络可以提升推断速度和精度,实现高精度的手势识别。
通过上述步骤S201至步骤S203,本申请实施例构建了较强的三级深度神经网络教室模型,对手势进行精确识别,得到未标记图片的教师网络的手势分类结果数据集,扩充数据集,接着通过人工标注数据和大量未标记数据对学生模型进行带知识蒸馏的训练,得到训练好的学生模型,并部署到移动端,最后,通过融合注意力机制的深度残差二级学生网络对数据集进行手势识别,得到分类结果。解决了相关技术中存在的手势识别准确率低、推断速度慢和应用场景受限,不利于在移动端部署的问题,提高了手势识别精度和速度,并实现了移动端的部署。
在其中一些实施例中,在获取手势图片数据集之前,采集不同光照条件和不同背景下的手势图片,并通过三维软件按规则生成随机的手势图片,其中,手势图片包括不同的手掌占比;接着,对手势图片进行预处理,缩放到固定尺寸并进行人工标注,其中,人工标注包括通过SSD回归框标注手掌位置、标注掌根点和中指根点,以及依据预定义的拓扑图,标注手部其他19个关节点,并标注手势种类。本实施例中之所以要建立数据集,是因为没有足够的开源手掌识别、手部关键点和手势联合的图像数据集,因此,为了提高模型的精度和准确度,本实施例采集了大量的手势图片数据集,分别有计算机自动生成的随机数据集和人工标注数据集,这些数据集能够为后期训练网络模型提供大量可靠的数据源。
在其中一些实施例中,在将数据集输入三级网络的教师模型中之前,对教师模型进行分级训练,通过人工标定的数据集和计算机自动生成的随机数据集分别训练三级网络,并对教师模型进行整体训练,精调训练结果。
优选的,本实施例中,首先对教师模型进行分级训练,使用人工标定的数据集和计算机自动生成的随机数据集对三级网络依次分别训练,然后对教师模型进行整体网络训练,最后精调训练结果,以达到更好的分类结果。提高教师模型的分类准确率。图6是根据本申请实施例的教师模型训练流程示意图,如图6所示,使用人工标记过的数据集训练教师模型,其中,虚线的标签监督是指进行有监督的机器学习。
在其中一些实施例中,在得到训练好的二级网络学生模型之后,以及进行分类推断之前,将训练好的二级网络学生模型进行剪枝和量化压缩,并部署到移动端进行手势识别的分类推断。实现了在移动端,例如智能手机或具备计算功能的相机中,对手势进行识别的目的。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种基于知识蒸馏和注意力机制的手势识别系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本申请实施例的基于知识蒸馏和注意力机制的手势识别系统的结构框图,如图7所示,该系统包括教师模型模块71、训练模块72和学生模型模块73:
教师模型模块71,用于获取手势图片数据集,将数据集输入三级网络的教师模型中,通过教师模型对手势图片数据集进行手势识别,输出得到手势分类结果,其中,教师网络包括手掌检测网络、手关键点检测网络和手势分类网络;训练模块72,用于通过人工标注数据集、计算机自动生成的随机数据集、未标记图片的教师网络的手势分类结果对二级网络的学生模型进行带知识蒸馏的训练,得到训练好的二级网络学生模型;学生模型模块73,用于获取手势图片数据集,将数据集输入训练好的二级网络的学生模型中,通过训练好的学生模型识别手势,输出得到手势分类结果,其中,学生模型包括改进的yolo-v5目标检测网络和融合注意力机制的深度残差网络。
通过上述系统,本申请实施例教师模型模块71构建了较强的三级深度神经网络教室模型,对手势进行精确识别,得到未标记图片的教师网络的手势分类结果数据集,扩充数据集,接着训练模块72通过人工标注数据和大量未标记数据对学生模型进行带知识蒸馏的训练,得到训练好的学生模型,并部署到移动端,最后,学生模型模块73通过融合注意力机制的深度残差二级学生网络对数据集进行手势识别,得到分类结果。解决了相关技术中存在的手势识别准确率低、推断速度慢和应用场景受限,不利于在移动端部署的问题,提高了手势识别精度和速度,并实现了移动端的部署。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
此外,需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
另外,结合上述实施例中的基于知识蒸馏和注意力机制的手势识别方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于知识蒸馏和注意力机制的手势识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识蒸馏和注意力机制的手势识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图8是根据本申请实施例的电子设备的内部结构示意图,如图8所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图8所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种基于知识蒸馏和注意力机制的手势识别方法,数据库用于存储数据。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于知识蒸馏和注意力机制的手势识别方法,其特征在于,所述方法包括:
获取手势图片数据集,将所述数据集输入三级网络的教师模型中,通过所述教师模型对所述手势图片数据集进行手势识别,输出得到手势分类结果,其中,所述教师网络包括手掌检测网络、手关键点检测网络和手势分类网络;
通过人工标注数据集、计算机自动生成的随机数据集、未标记图片的所述教师网络的手势分类结果对二级网络的学生模型进行带知识蒸馏的训练,得到训练好的二级网络学生模型;
获取所述手势图片数据集,将所述数据集输入所述训练好的二级网络的学生模型中,通过所述训练好的学生模型识别手势,输出得到手势分类结果,其中,所述学生模型包括改进的yolo-v5目标检测网络和融合注意力机制的深度残差网络。
2.根据权利要求1所述的方法,其特征在于,所述对二级网络的学生模型进行带知识蒸馏的训练包括:
将所述教师模型分类结果和所述学生模型分类结果的互相关度huber loss添加到训练所述学生模型的SGD损失函数中,进行相关性知识蒸馏。
3.根据权利要求1所述的方法,其特征在于,所述通过所述教师模型对所述手势图片数据集进行手势识别,输出得到手势分类结果包括:
通过第一级的所述手掌检测网络识别手掌并标记手掌的旋转角度,得到全手切图,并将所述全手切图输入第二级网络和第三级网络;
通过第二级的所述手关键点检测网络对全手正向图片的关键点进行检测识别,输出所述关键点的2D坐标、左右手判定和手掌是否存在的二值判定,并根据拓扑关系连接所述手关键点,计算全部手关节的角度,将所述角度输入第三级网络;
通过第三级的所述手势分类网络对所述全手切图和所述手关节角度进行处理,识别手势,输出得到手势分类结果。
4.根据权利要求1所述的方法,其特征在于,所述通过所述训练好的学生模型识别手势,输出得到手势分类结果包括:
通过第一级的所述改进的yolo-v5目标检测网络对所述手势图片进行特征提取,输出手部位置框、左右手判定以及手掌是否存在的二值判定;
在判断手掌存在的情况下,对所述位置框进行切图和增强处理,输入第二级的所述融合注意力机制的深度残差网络中进行特征提取,并降维输出,识别手势,得到手势分类结果。
5.根据权利要求1所述的方法,其特征在于,在获取手势图片数据集之前,所述方法包括:
采集不同光照条件和不同背景下的手势图片,并通过三维软件按规则生成随机的手势图片,其中,所述手势图片包括不同的手掌占比;
对所述手势图片进行预处理,缩放到固定尺寸并进行人工标注,其中,所述人工标注包括通过SSD回归框标注手掌位置、标注掌根点和中指根点,依据预定义的拓扑图,标注手部其他关节点,并标注手势种类。
6.根据权利要求5所述的方法,其特征在于,在将所述数据集输入三级网络的教师模型中之前,所述方法包括:
对所述教师模型进行分级训练,通过所述人工标定的数据集和所述计算机自动生成的随机数据集分别训练所述三级网络,并对所述教师模型进行整体训练,精调训练结果。
7.根据权利要求1所述的方法,其特征在于,在得到训练好的二级网络学生模型之后,以及进行分类推断之前,所述方法包括:
将所述训练好的二级网络学生模型进行剪枝和量化压缩,并部署到移动端进行手势识别的分类推断。
8.一种基于知识蒸馏和注意力机制的手势识别系统,其特征在于,所述系统包括:
教师模型模块,用于获取手势图片数据集,将所述数据集输入三级网络的教师模型中,通过所述教师模型对所述手势图片数据集进行手势识别,输出得到手势分类结果,其中,所述教师网络包括手掌检测网络、手关键点检测网络和手势分类网络;
训练模块,用于通过人工标注数据集、计算机自动生成的随机数据集、未标记图片的所述教师网络的手势分类结果对二级网络的学生模型进行带知识蒸馏的训练,得到训练好的二级网络学生模型;
学生模型模块,用于获取所述手势图片数据集,将所述数据集输入所述训练好的二级网络的学生模型中,通过所述训练好的学生模型识别手势,输出得到手势分类结果,其中,所述学生模型包括改进的yolo-v5目标检测网络和融合注意力机制的深度残差网络。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的基于知识蒸馏和注意力机制的手势识别方法。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的基于知识蒸馏和注意力机制的手势识别方法。
CN202110647508.0A 2021-06-08 2021-06-08 一种基于知识蒸馏和注意力机制的手势识别方法和系统 Pending CN113449610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110647508.0A CN113449610A (zh) 2021-06-08 2021-06-08 一种基于知识蒸馏和注意力机制的手势识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110647508.0A CN113449610A (zh) 2021-06-08 2021-06-08 一种基于知识蒸馏和注意力机制的手势识别方法和系统

Publications (1)

Publication Number Publication Date
CN113449610A true CN113449610A (zh) 2021-09-28

Family

ID=77811204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110647508.0A Pending CN113449610A (zh) 2021-06-08 2021-06-08 一种基于知识蒸馏和注意力机制的手势识别方法和系统

Country Status (1)

Country Link
CN (1) CN113449610A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642532A (zh) * 2021-10-13 2021-11-12 广州虎牙信息科技有限公司 视频分类模型处理方法、装置及数据处理设备
CN113919444A (zh) * 2021-11-10 2022-01-11 北京市商汤科技开发有限公司 目标检测网络的训练方法、目标检测方法及装置
CN114611757A (zh) * 2022-02-11 2022-06-10 国网湖北省电力有限公司超高压公司 基于遗传算法与改进深度残差网络的电力系统短期负荷预测方法
CN114970640A (zh) * 2022-06-21 2022-08-30 徐州工程学院 一种基于知识蒸馏的手势识别方法及系统
CN115774851A (zh) * 2023-02-10 2023-03-10 四川大学 基于分级知识蒸馏的曲轴内部缺陷检测方法及其检测系统
CN115909225A (zh) * 2022-10-21 2023-04-04 武汉科技大学 一种基于在线学习的OL-YoloV5船舶检测方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366188A (zh) * 2013-07-08 2013-10-23 中科创达软件股份有限公司 一种基于拳头检测作为辅助信息的手势跟踪方法
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN109087303A (zh) * 2018-08-15 2018-12-25 中山大学 基于迁移学习提升语义分割模型效果的框架
CN109299657A (zh) * 2018-08-14 2019-02-01 清华大学 基于语义注意力保留机制的群体行为识别方法及装置
CN111027403A (zh) * 2019-11-15 2020-04-17 深圳市瑞立视多媒体科技有限公司 手势估计方法、装置、设备及计算机可读存储介质
CN111126573A (zh) * 2019-12-27 2020-05-08 深圳力维智联技术有限公司 基于个体学习的模型蒸馏改进方法、设备及存储介质
CN111414837A (zh) * 2020-03-16 2020-07-14 苏州交驰人工智能研究院有限公司 手势识别方法、装置、计算机设备及存储介质
US20200241646A1 (en) * 2019-01-25 2020-07-30 Tata Consultancy Services Limited On-device classification of fingertip motion patterns into gestures in real-time
CN111553387A (zh) * 2020-04-03 2020-08-18 上海物联网有限公司 一种基于Yolov3的人员目标检测方法
CN111553479A (zh) * 2020-05-13 2020-08-18 鼎富智能科技有限公司 一种模型蒸馏方法、文本检索方法及装置
CN111986187A (zh) * 2020-08-26 2020-11-24 华中科技大学 基于改进Tiny-YOLOv3网络的航天电子焊点缺陷检测方法
CN112215112A (zh) * 2020-09-30 2021-01-12 幻境虚拟现实(广州)智能科技研究院有限公司 一种可用于手部动作识别的神经网络模型的生成方法和系统
CN112487981A (zh) * 2020-11-30 2021-03-12 哈尔滨工程大学 基于双路分割的ma-yolo动态手势快速识别方法
CN112668506A (zh) * 2020-12-31 2021-04-16 咪咕动漫有限公司 一种手势跟踪方法、设备及计算机可读存储介质
CN112699958A (zh) * 2021-01-11 2021-04-23 重庆邮电大学 一种基于剪枝和知识蒸馏的目标检测模型压缩与加速方法
CN112749512A (zh) * 2021-01-18 2021-05-04 杭州易现先进科技有限公司 手势估计优化的方法、系统和电子装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366188A (zh) * 2013-07-08 2013-10-23 中科创达软件股份有限公司 一种基于拳头检测作为辅助信息的手势跟踪方法
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN109299657A (zh) * 2018-08-14 2019-02-01 清华大学 基于语义注意力保留机制的群体行为识别方法及装置
CN109087303A (zh) * 2018-08-15 2018-12-25 中山大学 基于迁移学习提升语义分割模型效果的框架
US20200241646A1 (en) * 2019-01-25 2020-07-30 Tata Consultancy Services Limited On-device classification of fingertip motion patterns into gestures in real-time
CN111027403A (zh) * 2019-11-15 2020-04-17 深圳市瑞立视多媒体科技有限公司 手势估计方法、装置、设备及计算机可读存储介质
CN111126573A (zh) * 2019-12-27 2020-05-08 深圳力维智联技术有限公司 基于个体学习的模型蒸馏改进方法、设备及存储介质
CN111414837A (zh) * 2020-03-16 2020-07-14 苏州交驰人工智能研究院有限公司 手势识别方法、装置、计算机设备及存储介质
CN111553387A (zh) * 2020-04-03 2020-08-18 上海物联网有限公司 一种基于Yolov3的人员目标检测方法
CN111553479A (zh) * 2020-05-13 2020-08-18 鼎富智能科技有限公司 一种模型蒸馏方法、文本检索方法及装置
CN111986187A (zh) * 2020-08-26 2020-11-24 华中科技大学 基于改进Tiny-YOLOv3网络的航天电子焊点缺陷检测方法
CN112215112A (zh) * 2020-09-30 2021-01-12 幻境虚拟现实(广州)智能科技研究院有限公司 一种可用于手部动作识别的神经网络模型的生成方法和系统
CN112487981A (zh) * 2020-11-30 2021-03-12 哈尔滨工程大学 基于双路分割的ma-yolo动态手势快速识别方法
CN112668506A (zh) * 2020-12-31 2021-04-16 咪咕动漫有限公司 一种手势跟踪方法、设备及计算机可读存储介质
CN112699958A (zh) * 2021-01-11 2021-04-23 重庆邮电大学 一种基于剪枝和知识蒸馏的目标检测模型压缩与加速方法
CN112749512A (zh) * 2021-01-18 2021-05-04 杭州易现先进科技有限公司 手势估计优化的方法、系统和电子装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
NIKHIL JADHAV ET AL.: "Hand Gesture Recognition using YOLOv5", 《INTERNATIONAL RESEARCH JOURNAL OF ENGINEERING AND TECHNOLOGY》 *
WONPYO PARK ET AL.: "Relational Knowledge Distillation", 《HTTPS://ARXIV.ORG/ABS/1904.05068》 *
Y. SHU ET AL.: "Mini neural network based on knowledge distillation for dynamic gesture recognition in real scenes", 《2021 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS AND COMPUTER ENGINEERING》 *
何敏雅: "基于Zynq平台的水下目标识别关键技术研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *
吴之昊: "面向电力设备锈蚀区域检测的目标识别算法研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *
杨贞: "《图像特征处理技术及应用》", 31 August 2020, 科学技术文献出版社 *
熊卫华 等: "基于Attention-YOLOv3的锈蚀区域检测与识别", 《计算机技术与发展》 *
陈彬: "特殊场景下图像分类算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642532A (zh) * 2021-10-13 2021-11-12 广州虎牙信息科技有限公司 视频分类模型处理方法、装置及数据处理设备
CN113919444A (zh) * 2021-11-10 2022-01-11 北京市商汤科技开发有限公司 目标检测网络的训练方法、目标检测方法及装置
CN114611757A (zh) * 2022-02-11 2022-06-10 国网湖北省电力有限公司超高压公司 基于遗传算法与改进深度残差网络的电力系统短期负荷预测方法
CN114970640A (zh) * 2022-06-21 2022-08-30 徐州工程学院 一种基于知识蒸馏的手势识别方法及系统
CN114970640B (zh) * 2022-06-21 2023-10-27 徐州工程学院 一种基于知识蒸馏的手势识别方法及系统
CN115909225A (zh) * 2022-10-21 2023-04-04 武汉科技大学 一种基于在线学习的OL-YoloV5船舶检测方法
CN115774851A (zh) * 2023-02-10 2023-03-10 四川大学 基于分级知识蒸馏的曲轴内部缺陷检测方法及其检测系统

Similar Documents

Publication Publication Date Title
CN113449610A (zh) 一种基于知识蒸馏和注意力机制的手势识别方法和系统
CN109740534B (zh) 图像处理方法、装置及处理设备
CN110135406B (zh) 图像识别方法、装置、计算机设备和存储介质
CN109522393A (zh) 智能问答方法、装置、计算机设备和存储介质
CN110321537B (zh) 一种文案生成方法和装置
CN108875487B (zh) 行人重识别网络的训练及基于其的行人重识别
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
US20170116521A1 (en) Tag processing method and device
CN111738251A (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN109961068A (zh) 图像识别、训练、搜索方法和装置及设备、介质
CN111179419A (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN112733767B (zh) 一种人体关键点检测方法、装置、存储介质及终端设备
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN111160288A (zh) 手势关键点检测方法、装置、计算机设备和存储介质
Yue et al. Action recognition based on RGB and skeleton data sets: A survey
CN110750523A (zh) 数据标注方法、系统、计算机设备和存储介质
CN109800319A (zh) 图像处理方法、装置、计算机设备和存储介质
CN114358203A (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN113192175A (zh) 模型训练方法、装置、计算机设备和可读存储介质
CN115223239A (zh) 一种手势识别方法、系统、计算机设备以及可读存储介质
CN111507219A (zh) 一种动作识别方法、装置及电子设备和存储介质
WO2024088269A1 (zh) 文字识别方法、装置、电子设备及介质
WO2024012289A1 (zh) 视频生成方法、装置、电子设备及介质
CN112749723A (zh) 样本标注方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210928