CN117612247A - 一种基于知识蒸馏的动静态手势识别方法 - Google Patents
一种基于知识蒸馏的动静态手势识别方法 Download PDFInfo
- Publication number
- CN117612247A CN117612247A CN202311453607.0A CN202311453607A CN117612247A CN 117612247 A CN117612247 A CN 117612247A CN 202311453607 A CN202311453607 A CN 202311453607A CN 117612247 A CN117612247 A CN 117612247A
- Authority
- CN
- China
- Prior art keywords
- gesture
- dynamic
- representing
- network
- dynamic gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003068 static effect Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 230000003287 optical effect Effects 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 9
- 239000000835 fiber Substances 0.000 claims description 6
- 238000004821 distillation Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000007634 remodeling Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract 1
- 230000007812 deficiency Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 17
- 238000013135 deep learning Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241000135164 Timea Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004540 process dynamic Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于知识蒸馏的动静态手势识别方法,涉及图像识别技术领域,该方法通过对动态手势进行关键帧提取、通过三维卷积网络和二维卷积网络分别对动态手势和静态手势特征进行提取,最后,通过以教师网络和学生网络组成的知识蒸馏学习框架进行蒸馏学习。本发明利用关键帧的提取,能够有效克服关键帧间的距离大、关键信息严重不足、提取精度差等问题,从而提升识别的准确性与稳定性;利用分别对动态手势与静态手势的特征提取,确保动、静态手势的相同维度,避免出现不匹配、提取精度差以及计算量庞大等问题;通过教师网络与学生网络知识蒸馏学习框架的构建,实现轻量级的同时、完成训练模型的指导与校正,实现不断优化。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及一种基于知识蒸馏的动静态手势识别方法。
背景技术
手势识别技术一直是人工智能领域的重要研究方向,其旨在从图像或视频中提取人的手部特征来理解人的身体运动或“手势”,然后将每个样本进行归类或标记为特定的标签。随着人工智能和深度学习的发展,手势识别技术在智能家居、汽车交互、虚拟现实等领域有着广泛的应用前景。
现有的手势识别方法主要分为动态手势识别和静态手势识别。其中,动态手势识别的方法主要有基于手工提取特征的方法和基于深度学习神经网络的方法:基于手工特征提取的动态手势识别方法包括利用HOG描述符、LBP描述符等描述子对动态手势进行逐帧特征提取,再对提取到的手势特征序列进行直接对比或二次处理、得到表征动作时空信息的特征,最后利用分类器对特征进行分类输出;然而,上述方法均受动态手势的背景影响大,且需要人为提取手势图像特征、耗时长;基于深度学习神经网络的动态手势识别方法包括循环神经网络(Recurrent Neural Network,RNN)、长短期记忆递归神经网络(Long Short-Term Memory,LSTM)及三维卷积神经网络(3DCNNS)等,其中,循环神经网络和长短期记忆递归神经网络通过将动态手势处理为序列数据,同时对动态手势的时空特征进行编码,从而学习动态手势长短期的时空关系,三维卷积神经网络通过在二维卷积核的基础上引入时间维度,从而可以同时提取动态手势的空间特征和时间特征。与基于手工提取特征的方法相比,基于深度学习神经网络的方法能够直接从动态手势数据中学习手势特征,避免了人工提取特征的过程,然而,现有的深度学习神经网络结构过于复杂、识别的实时性低,且网络参数量庞大、需要占用较多内存以及较大计算量的设备,严重制约深度学习神经网络在手势识别中的应用。同时,由于动态手势数据采取视频方式进行保存,手势采集时没有开始与结束标志,导致动态手势视频数据存在部分冗余帧和静止帧,且同一个手势动作的多段数据包含的特征信息有所不同,因而手势采集数据更为庞大,易出现采集的特征信息不完全、手势识别不准确、误差大等问题。
静态手势识别的方法也主要有基于手工提取特征的方法和基于深度学习神经网络的方法:基于手工提取特征静态手势识别方法包括SIFT(Scale-invariant featuretransform)和SURF(Speeded up robust features)等,这些方法均是针对某一系列特定的静态手势而设计,不一定适用于其它的手势系统、适用性差,且手工特征选取的过程非常依赖领域内专家自身的经验,人为影响因素高、不确定性大,局限性较高;基于深度学习神经网络的静态手势识别方法不受特定手势和经验的影响,能够提取到更深层的信息。但与动态手势识别方法一致,随着网络不断加深,基于深度学习神经网络的静态手势识别方法的参数量愈加庞大,加之特征的感受野明显不足,会丢失一些层级的手势特征,致使网络不同层级的特征信息无法被复用。
综上所述,现有基于深度学习神经网络用于动态手势识别与静态手势识别均存在计算量庞大、耗时长、易丢失采集的数据特征、手势识别误差大、受环境影响因素大、稳定性差等问题。
发明内容
针对以上现有技术存在的问题,本发明的目的在于提供一种基于知识蒸馏的动静态手势识别方法,该方法通过对动态手势进行关键帧提取、关键帧引用注意力机制进行动态手势预处理,利用三维卷积网络和二维卷积网络分别对动态手势和静态手势特征进行提取,然后经过LSTM与注意力机制学习全局时空,并通过联合教师网络和学生网络使用蒸馏学习生成轻量化网络对动静态手势进行训练与识别,从而有效解决上述现有技术中应用基于深度学习神经网络对动态手势与静态手势识别存在的问题。
本发明的目的通过以下技术方案实现:
一种基于知识蒸馏的动静态手势识别方法,包括:
步骤A、动态手势关键帧提取:首先利用原始动态手势生成光流视频,并将原始动态手势与其生成的光流视频的每一帧图像作为一个小块,分别计算每段视频图像的注意力分数;然后,将获得的注意力分数进行相加操作,并分别对比每段图像中的注意力分数,将注意力分数较小所对应的动态手势图像去除、保留余下动态手势,获得动态手势关键帧、并将其作为输入;
步骤B、动态手势与静态手势特征提取:针对动态手势与静态手势不同特点,分别采用三维卷积网络与二维卷积网络对动态手势与静态手势进行特征提取;
步骤C、动态手势与静态手势训练识别:采用特征提取模型MGLSTM作为教师网络、采用轻量化模型Mobilenet作为学生网络,通过知识蒸馏学习框架分别对步骤B中的动态手势特征与静态手势特征进行蒸馏学习,利用不断优化的教师网络目标函数实现更多动态手势特征与静态手势特征的学习、并对学生网络目标函数指导优化。
基于上述方案的进一步优化,所述步骤A具体为:
步骤A1、首先,获取每个动态手势的原始数据Li(i=1,2,…,n)、并将其生成对应的光流视频Ii,然后将原始数据Li与光流视频Ii转换为连续帧图像;
步骤A2、对步骤A1中原始数据Li与光流视频Ii转换后的连续帧图像进行划分、将其每帧划分为k个patch;
步骤A3、对动态手势的原始数据Li与光流视频Ii中每一个patch,采用卷积层生成特征向量的方式提取每帧图像的抽象特征:
f(patchi)=Conv(patchi);
式中:f(patchi)表示特征向量;patchi表示原始数据Li或光流视频Ii中第i个patch;Conv(patchi)表示对第i个patch进行卷积;
步骤A4、将步骤A3中生成的特征向量应用到全连接层,获取每个patch的查询值与键值:
Qi=FCq(f(patchi));
Ki=FCk(f(patchi));
式中:Qi表示查询值;Ki表示键值;FCq表示获得的每个patch查询值的全连接层;FCk表示获得的每个patch键值的全连接层;
步骤A5、分别通过查询值与键值计算原始数据Li或光流视频Ii每个patch的注意力得分,具体为:
式中:表示原始数据Li的注意力得分;/>表示光流视频Ii的注意力得分;/>表示动态手势原始数据中第i个patch的查询值;/>表示动态手势原始数据中第i个patch的键值;/>表示动态手势光流视频中第i个patch的查询值;/>表示动态手势光流视频中第i个patch的键值;
步骤A6、分别对每帧动态手势原始数据Li与光流视频Ii的k个patch进行注意力得分的计算,然后分别对每帧动态手势原始数据Li的注意力得分、光流视频Ii的注意力得分进行求和与求均值;之后,将每帧动态手势原始数据Li与其对应的光流视频Li的注意力得分进行相加、获得该帧对应的最终注意力分数Si;将最终注意力分数Si与前述获得的注意力分数均值相比较,并将最终注意力分数Si低于注意力分数均值最小值的对应帧去除,保留余下的帧作为动态手势关键帧进行输出。
基于上述方案的进一步优化,所述步骤A2中,若连续帧中一个帧的尺寸为H·W·C(其中,H表示高度、W表示宽度、C表示通道数),将该帧划分为sqrt(m)·sqrt(m)个patch,每个patch的尺寸为:
基于上述方案的进一步优化,所述步骤B具体为:
步骤B1、针对动态手势:分别利用三维卷积层提取原始动态手势关键帧与手势光流视频关键帧的初步特征,具体为:
式中:FLi表示原始动态手势关键帧LGi的初步特征;表示手势光流视频关键帧IGi的初步特征;3Dconv(LGi)表示对原始动态手势关键帧LGi进行三维卷积提取;3Dconv(IGi)表示对手势光流视频关键帧IGi进行三维卷积提取;
并利用初步特征与初步特征/>分别获得对应的手势特征值/>和/>
步骤B2、针对静态手势:首先,采用数据增强方式对静态手势图像进行数据增强、获得输入图像I1;然后,将输入图像I1进行二维卷积层提取、得到输入特征FI:
FI=2DConv(Il);
式中:2DConv(Il)表示对输入图像进行二维卷积提取;
步骤B3、通过特征重塑将输入特征FI重塑为序列特征,进而使其与经过三维卷积提取的初步特征(即初步特征与初步特征/>)匹配,具体为:
Fflattened=reshape[FI,(H·W,D)];
式中:H、W分别表示输入特征FI的高度与宽度,D表示输入特征FI的通道数;Fflattened表示输入特征FI重塑后的序列特征;
并通过序列特征Fflattened获得静态手势特征值Vflattened;
步骤B4、建立BiLSTM结构,通过初步特征初步特征/>及序列特征Fflattened通过BiLSTM结构分别获得动态手势原始数据特征/>动态手势光流视频特征/>以及静态手势特征Hl。
基于上述方案的进一步优化,所述步骤B2中数据增强方式包括旋转、裁剪、噪声处理等一系列手段组合。
基于上述方案的进一步优化,所述步骤B4中BiLSTM结构由两组LSTM层组成:一组用于前向处理,一组用于后向处理;其中,LSTM结构包括遗忘门、输入门和输出门;
遗忘门具体为:
ft=σ(Wf·[ht-1,xt]+bf);
式中:σ表示sigmoid激活函数;Wf、bf表示遗忘门中可学习的网络参数;ht-1表示前(t-1)时刻的隐层状态;xt表示模型在第t时刻的输入;
输入门具体为:
it=σ(WF·[ht·l,xt]+bi);
式中:WF、bi、Wc、bc表示输入门中可学习的网络参数;Ct表示第t时刻的单元状态;
输出门具体为:
式中:Wo、bo表示输出门中可学习的网络参数。
为了进一步体现动态手势原始数据特征动态手势光流视频特征/>以及静态手势特征Hl中的重要特征,基于上述方案的进一步优化,所述步骤B4中,获得动态手势原始数据特征/>动态手势光流视频特征/>以及静态手势特征Hl后,首先将动态手势原始数据特征/>动态手势光流视频特征/>及静态手势特征Hl转换为各自的查询值Q、键值K以及手势特征值V(即/>及Vflattened);
然后分别计算查询值Q与对应键值K之间的注意力得分scores:
scores=Q·KT;
注意力得分用于衡量查询值Q与键值K之间的匹配程度;
之后,通过softmax函数对注意力得分进行归一化处理,得到注意力权重:
最后,通过注意力权重对手势特征值V进行加权求和,同时完成加权后输出特征与时空特征之间的加权融合,进而完成对各个手势特征的加权处理;具体为:
Fout=scoresattention·V+TG;
式中:TG表示时空特征。
基于上述方案的进一步优化,所述步骤C具体为:为了兼顾大模型的计算量和小模型的轻量实时特点,将特征提取模型MGLSTM作为教师网络,用轻量化模型Mobilenet作为学生网络;
针对动态手势:将步骤B提取的动态手势原始数据集和动态手势光流视频,输入到特征提取模型中得到动态手势教师网络,通过训练以下第一目标函数进行动态手势教师网络优化:
式中:表示第i个动态手势属于第m个类的概率;/>表示教师生成的软标签;WS表示学生网络的权值;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
同时采用Mobilenet对动态手势原始数据集和动态手势光流视频的特征进行提取,通过不断训练以下第二目标函数优化学生网络:
式中:表示学生网络生成的第i个动态手势视频属于m类的概率;/>表示硬标签信息;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
再通过对第一目标函数与第二目标函数进行加权,实现教师网络更好的指导学生网络进行学习,具体为:
式中:W表示学生网络的权重;α1、β1分别表示教师网络与学生网络的相对权重,且α1+β1=1;T表示缩放因子,用于调整教师网络与学生网络的软目标之间的相似性;
针对静态手势:将静态手势图像输入到特征提取模型中得到静态手势的教师网络,通过训练以下第三目标函数进行动态手势教师网络优化:
式中:表示第i个动态手势属于第m个类的概率;/>表示教师生成的软标签;WS表示学生网络的权值;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
同时采用Mobilenet对静态手势图像的特征进行提取,通过不断训练以下第四目标函数优化学生网络:
式中:表示学生网络生成的第i个动态手势视频属于m类的概率;/>表示硬标签信息;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
再通过对第三目标函数与第四目标函数进行加权,实现教师网络更好的指导学生网络进行学习,具体为:
式中:W表示学生网络的权重;α2、β2分别表示教师网络与学生网络的相对权重,且α2+β2=1;T表示缩放因子,用于调整教师网络与学生网络的软目标之间的相似性。
本发明具有如下技术效果:
本申请方法首先对动态手势进行关键帧提取,利用原始动态手势数据集生成光流动态手势数据,然后对两种动态手势数据进行注意力加权得分,删除掉两种动态手势中得分低的帧数据,获得得分高的帧数据作为后续网络输入的关键帧数据,从而有效剔除动态手势中的冗余帧与静态帧等,一是有效缩减计算量、提升计算效率,二是避免冗余帧对识别结果的干扰;之后,采用旋转、剪裁和噪声处理等一系列的数据增强方法,获得静态手势的初步输入数据。然后通过三种类型数据分别输入到对应特征提取模型中,由特征提取模型对数据特征进行提取,利用分类提取确保特征提取的准确性、避免环境因素干扰,同时分类提取能够有效节省时间、提升识别效率。最后,为了使网络更加轻量化,提出一种知识蒸馏学习框架,通过教师网络的学习,不断优化目标函数,达到对学生网络的指导,进一步提升识别的效率与准确性。
附图说明
图1为本发明实施例中动态手势关键帧提取的结构示意图。
图2为本发明实施例中动静态手势特征提取示意图。
图3为本发明实施例中知识蒸馏的学习框架示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。
实施例1:
参照图1~图3所示:一种基于知识蒸馏的动静态手势识别方法,包括:
步骤A、动态手势关键帧提取:首先利用原始动态手势生成光流视频,并将原始动态手势与其生成的光流视频的每一帧图像作为一个小块,分别计算每段视频图像的注意力分数;然后,将获得的注意力分数进行相加操作,并分别对比每段图像中的注意力分数,将注意力分数较小所对应的动态手势图像去除、保留余下动态手势,获得动态手势关键帧、并将其作为输入;具体为:
步骤A1、首先,获取每个动态手势的原始数据Li(i=1,2,…,n)、并将其生成对应的光流视频Ii,然后将原始数据Li与光流视频Ii转换为连续帧图像;
步骤A2、对步骤A1中原始数据Li与光流视频Ii转换后的连续帧图像进行划分、将其每帧划分为k个patch;例如:若连续帧中一个帧的尺寸为H·W·C(其中,H表示高度、W表示宽度、C表示通道数),将该帧划分为sqrt(m)·sqrt(m)个patch,每个patch的尺寸为:
步骤A3、对动态手势的原始数据Li与光流视频Ii中每一个patch,采用卷积层生成特征向量的方式提取每帧图像的抽象特征:
f(patchi)=Conv(patchi);
式中:f(patchi)表示特征向量;patchi表示原始数据Li或光流视频Ii中第i个patch;Conv(patchi)表示对第i个patch进行卷积;
步骤A4、将步骤A3中生成的特征向量应用到全连接层,获取每个patch的查询值与键值:
Qi=FCq(f(patchi));
Ki=FCk(f(patchi));
式中:Qi表示查询值;Ki表示键值;FCq表示获得的每个patch查询值的全连接层;FCk表示获得的每个patch键值的全连接层;
步骤A5、分别通过查询值与键值计算原始数据Li或光流视频Ii每个patch的注意力得分,具体为:
式中:表示原始数据Li的注意力得分;/>表示光流视频Ii的注意力得分;/>表示动态手势原始数据中第i个patch的查询值;/>表示动态手势原始数据中第i个patch的键值;/>表示动态手势光流视频中第i个patch的查询值;/>表示动态手势光流视频中第i个patch的键值;
步骤A6、分别对每帧动态手势原始数据Li与光流视频Ii的k个patch进行注意力得分的计算,然后分别对每帧动态手势原始数据Li的注意力得分、光流视频Ii的注意力得分进行求和与求均值;之后,将每帧动态手势原始数据Li与其对应的光流视频Li的注意力得分进行相加、获得该帧对应的最终注意力分数Si;将最终注意力分数Si与前述获得的注意力分数均值相比较,并将最终注意力分数Si低于注意力分数均值最小值的对应帧去除,保留余下的帧作为动态手势关键帧进行输出。
步骤B、动态手势与静态手势特征提取:针对动态手势与静态手势的不同特点,分别采用三维卷积网络与二维卷积网络对动态手势与静态手势进行特征提取;具体为:
步骤B1、针对动态手势:分别利用三维卷积层提取原始动态手势关键帧与手势光流视频关键帧的初步特征,具体为:
式中:表示原始动态手势关键帧LGi的初步特征;/>表示手势光流视频关键帧IGi的初步特征;3Dconv(LGi)表示对原始动态手势关键帧LGi进行三维卷积提取;3Dconv(IGi)表示对手势光流视频关键帧IGi进行三维卷积提取;
并利用初步特征与初步特征/>分别获得对应的手势特征值/>和/>
步骤B2、针对静态手势:首先,采用包括旋转、裁剪、噪声处理等一系列手段组合的数据增强方式(需要说明的是:旋转、裁剪、噪声处理等手段均采用本领域常规手段,本实施例中不做过多限定)对静态手势图像进行数据增强、获得输入图像I1;然后,将输入图像I1进行二维卷积层提取、得到输入特征FI:
FI=2DConv(Il);
式中:2DConv(Il)表示对输入图像进行二维卷积提取;
步骤B3、通过特征重塑将输入特征FI重塑为序列特征,进而使其与经过三维卷积提取的初步特征(即初步特征与初步特征/>)匹配,具体为:
Fflattened=reshape[FI,(H·W,D)];
式中:H、W分别表示输入特征FI的高度与宽度,D表示输入特征FI的通道数;Fflattened表示输入特征FI重塑后的序列特征;
并通过序列特征Fflattened获得静态手势特征值Vflattened;
步骤B4、建立BiLSTM结构,通过初步特征初步特征/>及序列特征Fflattened通过BiLSTM结构分别获得动态手势原始数据特征/>动态手势光流视频特征/>以及静态手势特征Hl。其中,BiLSTM结构由两组LSTM层组成:一组用于前向处理,一组用于后向处理;其中,LSTM结构包括遗忘门、输入门和输出门;
遗忘门具体为:
ft=σ(Wf·[ht-1,xt]+bf);
式中:σ表示sigmoid激活函数;Wf、bf表示遗忘门中可学习的网络参数;ht-1表示前(t-1)时刻时的隐层状态;xt表示模型在第t时刻的输入;
输入门具体为:
it=σ(WF·[ht·l,xt]+bi);
式中:WF、bi、Wc、bc表示输入门中可学习的网络参数;Ct表示第t时刻的单元状态;
输出门具体为:
式中:Wo、bo表示输出门中可学习的网络参数。
步骤C、动态手势与静态手势训练识别:采用特征提取模型MGLSTM作为教师网络、采用轻量化模型Mobilenet作为学生网络,通过知识蒸馏学习框架分别对步骤B中的动态手势特征与静态手势特征进行蒸馏学习,利用不断优化的教师网络目标函数完成更多动态手势特征与静态手势特征学习、以及对学生网络目标函数指导优化;具体为:
为了兼顾大模型的计算量和小模型的轻量实时特点,将特征提取模型MGLSTM作为教师网络,用轻量化模型Mobilenet作为学生网络;
针对动态手势:将步骤B提取的动态手势原始数据集和动态手势光流视频输入到特征提取模型中得到动态手势教师网络,通过训练以下第一目标函数进行动态手势教师网络优化:
式中:表示第i个动态手势属于第m个类的概率;/>表示教师生成的软标签;WS表示学生网络的权值;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
同时采用Mobilenet对动态手势原始数据集和动态手势光流视频的特征进行提取,通过不断训练以下第二目标函数优化学生网络:
式中:表示学生网络生成的第i个动态手势视频属于m类的概率;/>表示硬标签信息;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
再通过对第一目标函数与第二目标函数进行加权,实现教师网络更好的指导学生网络进行学习,具体为:
式中:W表示学生网络的权重;α1、β1分别表示教师网络与学生网络的相对权重,且α1+β1=1;T表示缩放因子,用于调整教师网络与学生网络的软目标之间的相似性;
针对静态手势:将静态手势图像输入到特征提取模型中得到静态手势的教师网络,通过训练以下第三目标函数进行动态手势教师网络优化:
式中:表示第i个动态手势属于第m个类的概率;/>表示教师生成的软标签;WS表示学生网络的权值;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
同时采用Mobilenet对静态手势图像的特征进行提取,通过不断训练以下第四目标函数优化学生网络:
式中:表示学生网络生成的第i个动态手势视频属于m类的概率;/>表示硬标签信息;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
再通过对第三目标函数与第四目标函数进行加权,实现教师网络更好的指导学生网络进行学习,具体为:
式中:W表示学生网络的权重;α2、β2分别表示教师网络与学生网络的相对权重,且α2+β2=1;T表示缩放因子,用于调整教师网络与学生网络的软目标之间的相似性。
实施例2:
作为对本申请方案的进一步优化,在实施例1方案的基础上,为了进一步体现动态手势原始数据特征动态手势光流视频特征/>以及静态手势特征Hl中的重要特征,上述实施例1方案的步骤B4中,获得动态手势原始数据特征/>动态手势光流视频特征/>以及静态手势特征Hl后,首先将动态手势原始数据特征/>动态手势光流视频特征/>及静态手势特征Hl转换为各自的查询值Q、键值K以及手势特征值V(即/>及Vflattened);
然后分别计算查询值Q与对应键值K之间的注意力得分scores:
scores=Q·KT;
注意力得分用于衡量查询值Q与键值K之间的匹配程度;
之后,通过softmax函数对注意力得分进行归一化处理,得到注意力权重:
最后,通过注意力权重对手势特征值V进行加权求和,同时完成加权后输出特征与时空特征之间的加权融合,进而完成对各个手势特征的加权处理;具体为:
Fout=scoresattention·V+TG;
式中:TG表示时空特征。
Claims (6)
1.一种基于知识蒸馏的动静态手势识别方法,其特征在于:包括:
步骤A、动态手势关键帧提取:首先利用原始动态手势生成光流视频,并将原始动态手势与其生成的光流视频的每一帧图像作为一个小块,分别计算每段视频图像的注意力分数;然后,将获得的注意力分数进行相加操作,并分别对比每段图像中的注意力分数,将注意力分数较小所对应的动态手势图像去除、保留余下动态手势,获得动态手势关键帧、并将其作为输入;
步骤B、动态手势与静态手势特征提取:针对动态手势与静态手势不同特点,分别采用三维卷积网络与二维卷积网络对动态手势与静态手势进行特征提取;
步骤C、动态手势与静态手势训练识别:采用特征提取模型MGLSTM作为教师网络、采用轻量化模型Mobilenet作为学生网络,通过知识蒸馏学习框架分别对步骤B中的动态手势特征与静态手势特征进行蒸馏学习,利用不断优化的教师网络目标函数,完成更多动态手势特征与静态手势特征学习、以及对学生网络目标函数指导优化。
2.根据权利要求1所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤A具体为:
步骤A1、首先,获取每个动态手势的原始数据Li(i=1,2,…,n)、并将其生成对应的光流视频Ii,然后将原始数据Li与光流视频Ii转换为连续帧图像;
步骤A2、对步骤A1中原始数据Li与光流视频Ii转换后的连续帧图像进行划分、将其每帧划分为k个patch;
步骤A3、对动态手势的原始数据Li与光流视频Ii中每一个patch,采用卷积层生成特征向量的方式提取每帧图像的抽象特征:
f(patchi)=Conv(patchi);
式中:f(patchi)表示特征向量;patchi表示原始数据Li或光流视频Ii中第i个patch;Conv(patchi)表示对第i个patch进行卷积;
步骤A4、将步骤A3中生成的特征向量应用到全连接层,获取每个patch的查询值与键值:
Qi=FCq(f(patchi));
Ki=FCk(f(patchi));
式中:Qi表示查询值;Ki表示键值;FCq表示获得的每个patch查询值的全连接层;FCk表示获得的每个patch键值的全连接层;
步骤A5、分别通过查询值与键值计算原始数据Li或光流视频Ii每个patch的注意力得分,具体为:
式中:表示原始数据Li的注意力得分;/>表示光流视频Ii的注意力得分;/>表示动态手势原始数据中第i个patch的查询值;/>表示动态手势原始数据中第i个patch的键值;/>表示动态手势光流视频中第i个patch的查询值;/>表示动态手势光流视频中第i个patch的键值;
步骤A6、分别对每帧动态手势原始数据Li与光流视频Ii的k个patch进行注意力得分的计算,然后分别对每帧动态手势原始数据Li的注意力得分、光流视频Ii的注意力得分进行求和与求均值;之后,将每帧动态手势原始数据Li与其对应的光流视频Li的注意力得分进行相加、获得该帧对应的最终注意力分数Si;将最终注意力分数Si与前述获得的注意力分数均值相比较,并将最终注意力分数Si低于注意力分数均值最小值的对应帧去除,保留余下的帧作为动态手势关键帧进行输出。
3.根据权利要求1或2所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤A2中,若连续帧中一个帧的尺寸为H·W·C,将该帧划分为sqrt(m)·sqrt(m)个patch,每个patch的尺寸为:
4.根据权利要求1或2所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤B具体为:
步骤B1、针对动态手势:分别利用三维卷积层提取原始动态手势关键帧与手势光流视频关键帧的初步特征,具体为:
式中:表示原始动态手势关键帧LGi的初步特征;/>表示手势光流视频关键帧IGi的初步特征;3Dconv(LGi)表示对原始动态手势关键帧LGi进行三维卷积提取;3Dconv(IGi)表示对手势光流视频关键帧IGi进行三维卷积提取;
并利用初步特征与初步特征/>分别获得对应的手势特征值/>和/>
步骤B2、针对静态手势:首先,采用数据增强方式对静态手势图像进行数据增强、获得输入图像I1;然后,将输入图像I1进行二维卷积层提取、得到输入特征FI:
FI=2DConv(Il);
式中:2DConv(Il)表示对输入图像进行二维卷积提取;
步骤B3、通过特征重塑将输入特征FI重塑为序列特征,进而使其与经过三维卷积提取的初步特征匹配,具体为:
Fflattened=reshape[FI,(H·W,D)];
式中:H、W分别表示输入特征FI的高度与宽度,D表示输入特征FI的通道数;Fflattened表示输入特征FI重塑后的序列特征;
并通过序列特征Fflattened获得静态手势特征值Vflattened;
步骤B4、建立BiLSTM结构,通过初步特征初步特征/>及序列特征Fflattened通过BiLSTM结构分别获得动态手势原始数据特征/>动态手势光流视频特征/>以及静态手势特征Hl。
5.根据权利要求4所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤B4中BiLSTM结构由两组LSTM层组成:一组用于前向处理,一组用于后向处理;其中,LSTM结构包括遗忘门、输入门和输出门;
遗忘门具体为:
ft=σ(Wf·[ht-1,xt]+bf);
式中:σ表示sigmoid激活函数;Wf、bf表示遗忘门中可学习的网络参数;ht-1表示前(t-1)时刻时的隐层状态;xt表示模型在第t时刻的输入;
输入门具体为:
it=σ(WF·[ht·l,xt]+bi);
式中:WF、bi、Wc、bc表示输入门中可学习的网络参数;Ct表示第t时刻的单元状态;
输出门具体为:
式中:Wo、bo表示输出门中可学习的网络参数。
6.根据权利要求1或5所述的一种基于知识蒸馏的动静态手势识别方法,其特征在于:所述步骤C具体为:为了兼顾大模型的计算量和小模型的轻量实时特点,将特征提取模型MGLSTM作为教师网络,用轻量化模型Mobilenet作为学生网络;
针对动态手势:将步骤B提取的动态手势原始数据集和动态手势光流视频,输入到特征提取模型中得到动态手势教师网络,通过训练以下第一目标函数进行动态手势教师网络优化:
式中:表示第i个动态手势属于第m个类的概率;/>表示教师生成的软标签;WS表示学生网络的权值;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
同时采用Mobilenet对动态手势原始数据集和动态手势光流视频的特征进行提取,通过不断训练以下第二目标函数优化学生网络:
式中:表示学生网络生成的第i个动态手势视频属于m类的概率;/>表示硬标签信息;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
再通过对第一目标函数与第二目标函数进行加权,实现教师网络更好的指导学生网络进行学习,具体为:
式中:W表示学生网络的权重;α1、β1分别表示教师网络与学生网络的相对权重,且α1+β1=1;T表示缩放因子,用于调整教师网络与学生网络的软目标之间的相似性;
针对静态手势:将静态手势图像输入到特征提取模型中得到静态手势的教师网络,通过训练以下第三目标函数进行动态手势教师网络优化:
式中:表示第i个动态手势属于第m个类的概率;/>表示教师生成的软标签;WS表示学生网络的权值;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
同时采用Mobilenet对静态手势图像的特征进行提取,通过不断训练以下第四目标函数优化学生网络:
式中:表示学生网络生成的第i个动态手势视频属于m类的概率;/>表示硬标签信息;N表示动态手势训练视频的个数;M表示训练总的动态手势个数;
再通过对第三目标函数与第四目标函数进行加权,实现教师网络更好的指导学生网络进行学习,具体为:
式中:W表示学生网络的权重;α2、β2分别表示教师网络与学生网络的相对权重,且α2+β2=1;T表示缩放因子,用于调整教师网络与学生网络的软目标之间的相似性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311453607.0A CN117612247A (zh) | 2023-11-03 | 2023-11-03 | 一种基于知识蒸馏的动静态手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311453607.0A CN117612247A (zh) | 2023-11-03 | 2023-11-03 | 一种基于知识蒸馏的动静态手势识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117612247A true CN117612247A (zh) | 2024-02-27 |
Family
ID=89943348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311453607.0A Pending CN117612247A (zh) | 2023-11-03 | 2023-11-03 | 一种基于知识蒸馏的动静态手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612247A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578023A (zh) * | 2017-09-13 | 2018-01-12 | 华中师范大学 | 人机交互手势识别方法、装置及系统 |
CN113705511A (zh) * | 2021-09-02 | 2021-11-26 | 广州市奥威亚电子科技有限公司 | 手势识别方法及装置 |
US20220067274A1 (en) * | 2020-09-02 | 2022-03-03 | Zhejiang Lab | Compression method and platform of pre-training language model based on knowledge distillation |
CN114360067A (zh) * | 2022-01-12 | 2022-04-15 | 武汉科技大学 | 一种基于深度学习的动态手势识别方法 |
CN116189277A (zh) * | 2022-12-01 | 2023-05-30 | 哲库科技(上海)有限公司 | 训练方法和装置、手势识别方法、电子设备及存储介质 |
CN116524593A (zh) * | 2023-04-23 | 2023-08-01 | 北京建筑大学 | 一种动态手势识别方法、系统、设备及介质 |
-
2023
- 2023-11-03 CN CN202311453607.0A patent/CN117612247A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578023A (zh) * | 2017-09-13 | 2018-01-12 | 华中师范大学 | 人机交互手势识别方法、装置及系统 |
US20220067274A1 (en) * | 2020-09-02 | 2022-03-03 | Zhejiang Lab | Compression method and platform of pre-training language model based on knowledge distillation |
CN113705511A (zh) * | 2021-09-02 | 2021-11-26 | 广州市奥威亚电子科技有限公司 | 手势识别方法及装置 |
CN114360067A (zh) * | 2022-01-12 | 2022-04-15 | 武汉科技大学 | 一种基于深度学习的动态手势识别方法 |
CN116189277A (zh) * | 2022-12-01 | 2023-05-30 | 哲库科技(上海)有限公司 | 训练方法和装置、手势识别方法、电子设备及存储介质 |
CN116524593A (zh) * | 2023-04-23 | 2023-08-01 | 北京建筑大学 | 一种动态手势识别方法、系统、设备及介质 |
Non-Patent Citations (2)
Title |
---|
彭理仁;王进;林旭军;陆国栋;: "一种基于深度图像的静态手势神经网络识别方法", 自动化与仪器仪表, no. 01, 25 January 2020 (2020-01-25) * |
杨艳芳;刘蓉;刘明;鲁甜;: "基于深度卷积长短时记忆网络的加速度手势识别", 电子测量技术, no. 21, 8 November 2019 (2019-11-08) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122809B (zh) | 基于图像自编码的神经网络特征学习方法 | |
CN108829677B (zh) | 一种基于多模态注意力的图像标题自动生成方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
Shen et al. | Generative adversarial learning towards fast weakly supervised detection | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN112307995B (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN113255602A (zh) | 基于多模态数据的动态手势识别方法 | |
CN114842547A (zh) | 基于手势动作生成与识别的手语教学方法、装置及系统 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN116524593A (zh) | 一种动态手势识别方法、系统、设备及介质 | |
CN114511901B (zh) | 一种年龄分类辅助的跨年龄人脸识别算法 | |
Zhao et al. | Cbph-net: A small object detector for behavior recognition in classroom scenarios | |
Zheng et al. | Attention assessment based on multi‐view classroom behaviour recognition | |
Sun et al. | Detection and recognition of text traffic signs above the road | |
Zhu et al. | Unpaired image captioning by image-level weakly-supervised visual concept recognition | |
CN116363712B (zh) | 一种基于模态信息度评估策略的掌纹掌静脉识别方法 | |
CN114944002B (zh) | 文本描述辅助的姿势感知的人脸表情识别方法 | |
Liu et al. | Multi-digit recognition with convolutional neural network and long short-term memory | |
CN112488116B (zh) | 基于多模态嵌入的场景理解语义生成方法 | |
CN117612247A (zh) | 一种基于知识蒸馏的动静态手势识别方法 | |
CN115329821A (zh) | 一种基于配对编码网络和对比学习的舰船噪声识别方法 | |
CN112784800B (zh) | 一种基于神经网络和形状约束的人脸关键点检测方法 | |
CN112132059B (zh) | 一种基于深度条件随机场的行人重识别方法和系统 | |
Shi et al. | Temporal attentive network for action recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |