CN113378641A - 基于深度神经网络和注意力机制的手势识别方法 - Google Patents
基于深度神经网络和注意力机制的手势识别方法 Download PDFInfo
- Publication number
- CN113378641A CN113378641A CN202110518115.XA CN202110518115A CN113378641A CN 113378641 A CN113378641 A CN 113378641A CN 202110518115 A CN202110518115 A CN 202110518115A CN 113378641 A CN113378641 A CN 113378641A
- Authority
- CN
- China
- Prior art keywords
- gesture
- hand
- double
- frame
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 8
- 230000007246 mechanism Effects 0.000 title claims abstract description 7
- 230000000694 effects Effects 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims abstract description 5
- 230000003287 optical effect Effects 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 230000033001 locomotion Effects 0.000 claims description 9
- 238000006073 displacement reaction Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 8
- 239000000284 extract Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 230000009977 dual effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 101100194606 Mus musculus Rfxank gene Proteins 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
基于深度神经网络和注意力机制的手势识别方法属于电子信息领域。首先,本发明设计在双流算法中引入ECA有效通道注意力增强双流算法对手势关键帧的关注度,并利用双流算法中的空间卷积网络和时间卷积网络分别提取动态手势中的空间和时序特征;其次,通过ECA在空间流中选取最高关注度的手势帧,利用单发多框检测器技术提取相应手部姿态特征;最后,将手部姿态特征与双流中提取的人体姿态特征、手势时序特征融合后分类识别手势。本方法在Chalearn2013多模态手势数据集上进行了验证,准确率为66.23%,相比之前在该数据集上仅使用RGB信息进行双流识别的方法获得了更好的手势识别效果。
Description
技术领域
本发明属于电子信息领域,是一种基于深度神经网络和注意力机制的手势识别方法,通过该方法可将普通摄像头拍摄到的手势视频数据归类为对应文本含义。
背景技术
手势是人际交往的重要组成部分,也是一种重要的人机交互(Human ComputerInteraction,HCI)方式。通过检测人体手势可以帮助机器更好的理解人体指令,进而完成相应辅助任务。例如,在智能家居环境中就可以通过手势动作控制空调的开关、切换电视屏道;智能驾驶过程中也可以通过手势动作控制汽车内部的一些功能,进而让驾驶员把更多注意力集中于道路本身、降低交通事故的发生。
目前手势识别方法的研究多通过深度传感器或特殊体感设备完成。例如,可以通过数据手套和电极腕带捕获人体手势的运动数据,然后再将该数据传输到计算机的手势识别系统获取对应的手势分类。该类方法虽然具有更好的精准性和稳定性,却需要昂贵的设备;另外,对特定设备的依赖也导致了手势交互环境的限制,因此该类方法只能适用于特殊场景,并不能满足大多数场景下的手势识别任务需求。
基于普通摄像机的视觉手势识别方法具有适用性广、成本较低等优点,并且在许多公共空间也配有监控摄像机,交互环境更多,因此该类方法具有更好的通用性。近年来,深度神经网络的一些方法在计算机视觉领域的几个问题上取得了最优效果。其中,双流算法(Two Stream)在几个标准动作数据集和手势数据集上获得了较好的识别效果,但是该方法仍旧需要较高的计算力支持并且对相似手势的辨别仍旧尚存不足。
注意力机制能够增强深度神经网络对关键信息的学习,弥补双流算法对相似手势识别不足的问题。因此,本发明考虑对双流算法进行改进,建立一种较为通用的基于深度神经网络和注意力机制的手势识别模型。
发明内容
为了解决传统手势识别方法所需设备昂贵、交互场景受限、计算量大的问题,本发明考虑结合有效通道注意力算法(Efficient Channel Attention,ECA)和单阶段目标检测算法(Single Shot MultiBox Detector,SSD)改进双流算法,进而建立一种较为通用的基于视觉的手势识别模型。另外,通过网络传输协议把移动端或其它客户端拍摄到的手势视频数据发送给配有该模型的远程服务器即可获取对应的手势分类。
本发明的主要内容包括如下三个方面:
(1)建立了一种较为通用的动态手势识别模型。首先,设计利用ECA注意力为双流算法的输入数据(手势帧集合和光流帧集合)赋予不同的初始权重;其次,选用SSD目标检测技术从权重最高的手势帧中提取手部姿态特征;最后,将手部姿态特征与双流算法提取的人体姿态特征、手势时序特征融合,进而分类不同手势;
(2)对手势识别算法的时效性做出改进。改进双流算法的光流提取技术和特征提取网络架构,进而提升整体的手势识别速度;
(3)对比分析不同特征融合策略的手势识别效果。通过实验证明三维卷积和三维池化的特征融合方式具有更好的手势识别效果。
发明效果
本发明的效果可以应用于一般的手势识别场景。例如,可以在一些特定的服务器环境中搭建该手势识别模型并且为普通用户提供离线使用该功能的移动端软件,这样就可以在一些社交场景中帮助普通用户理解聋哑人士的简单手势动作含义。
发明难点
本发明主要有如下两个难点:
(1)如何对识别算法的时效性做出改进。一个手势视频的识别速度应该满足实时性的要求并且在用户的正常接受范围之内。本发明使用的双流算法需要较高的计算力支持、手势识别速度较慢。因此,难点一在于如何提高该方法的特征提取速度,进而保证整体手势识别方法的时效性。
(2)如何对多种手势特征进行有效融合。本发明设计利用SSD从手势关键帧中提取手部姿态特征用来增强双流算法对相似手势的识别效果。因此,难点二在于如何有效地融合SSD和双流算法提取的各类手势特征,进而保证整体手势识别的准确率。
附图说明
图1为本发明设计方法的整体架构图。
图2为本发明设计方法的整体流程图。
图3为本发明使用双流算法的结构示意图。
图4为ECA注意力模块的结构示意图。
图5为本发明设计的特征融合结构示意图。
图6为SSD目标检测算法的结构示意图。
本发明核心算法
动态手势表达过程中的空间特征主要包括:人体姿态特征、手部姿态特征,而时序特征可利用相邻视频帧之间的光流位移场向量表示。因此,本发明首先设计利用双流算法从手势帧和光流帧集合中提取人体姿态特征、手势时序特征;其次,设计利用ECA为手势帧和光流帧赋予初始权重;最后,设计利用SSD从初始权重最高的手势帧中提取手部姿态特征(增强双流算法对相似手势的识别效果)。
本方法的整体架构和算法流程分别如图1、图2所示,以下将依次介绍该方法中涉及到的核心算法。
(1)利用双流算法提取动态手势的人体姿态特征、手势时序特征
a)人体姿态特征提取
本方法使用的双流算法架构如图3所示。对于一个输入宽为w、高为h的手势视频,首先按照该视频的开始时间和结束时间从中平均选取T帧手势图Xτ,X2τ…XTτ,将其堆叠作为双流算法中空间卷积网络的输入,用来提取动态手势的人体姿态特征G。其中,Xτ,X2τ…XTτ表示选取的手势帧集合,下标τ表示每选取两帧手势图之间相隔的帧数。
原有双流算法中的空间卷积网络使用开源的VGG16实现,由于最新提出的MobileNet V3特征提取网络具有更好的特征检测效果,因此本发明改用开源的MobileNetV3实现(实现细节参见具体实施步骤一)。
b)手势时序特征提取
手势的浅层时序特征可利用相邻视频帧之间的光流位移场向量表示。原有双流算法使用TVL1技术提取光流,为了提高手势的识别速度,本发明改用开源的DenseFlow方法提取光流。
为了从光流数据中获取更深层次的手势运动变化规律,本发明参考原有双流算法设计:针对选取手势帧集合Xτ,X2τ…XTτ中的每一帧,将其左右邻域内的光流图叠加,并将叠加后的光流图作为双流算法时间卷积网络(使用开源的MobileNet V3特征提取网络实现)的输入,用来提取动态手势的时序特征S。其中,每个手势帧获取光流的左右视频帧邻域数本发明设置为5,实现细节参见具体实施步骤一。
(2)利用ECA注意力为手势帧和光流帧集合赋予初始权重
原有的双流算法使用均匀分布为手势帧和光流帧生成随机的初始权重。动态手势的表达是一个时序过程,注重手势表达过程中易于区分的关键性姿态更能增强手势的识别效果。因此,本发明设计在双流算法的数据输入层后面引入开源的ECA注意力模块为手势帧和光流帧集合赋予初始权重,进而提升手势关键帧(具有标志性人体姿态和手部姿态的视频帧)的学习。
ECA模块的结构如图4所示:该方法首先使用全局平局池化操作将每个通道的特征图映射为单一变量;然后再使用大小为1×1、填充幅度为k-1的一维卷积操作求取变量间的线性映射关系(本发明设置k为5);最后再使用Sigmoid激活函数得到每个特征图通道的初始权重,如式(1)所示:
其中,C表示需要加权的特征图通道集合,ci表示C中的第i层特征图通道,函数GAP(·)表示全局平均池化操作,li表示特征图通道ci全局平均池化后的单一变量,表示第i个变量1×1卷积内的第j个变量(αj表示该变量的系数),σ表示Sigmoid激活函数,wi表示特征图通道ci对应的初始权重。
至此,识别动态手势关键帧的注意力模块已建立。将输入双流算法中的手势帧与光流帧集合在通道维度上进行堆叠,则每个手势帧和光流帧都可以看作一个特征图通道;然后再将手势帧集合和光流帧集合分别代入到公式(1)中的C,则可求对应通道的初始权重,进而增强手势关键帧的学习。
(3)利用SSD从初始权重最高的手势帧中提取手部姿态特征
由于手势表达过程中一些特定的手部形态可以帮助区分不同手势,因此本发明设计利用开源的SSD目标检测技术从初始权重最高的手势帧中提取手部姿态特征O,用来增强双流算法对相似手势的识别效果(SSD的实现方法参见具体实施步骤二)。
这里只从关键帧中提取手部姿态特征的考虑是:手势表达的初始阶段和结束阶段包含信息不多,如果对每一帧的手势都提取手部姿态特征,作用性不强也增加计算复杂度,因此本发明设计只提取关键帧中的手部姿态特征。
其中,手部姿态特征O共包含Oleft、Oright两部分,分别表示关键帧中左右手预测为不同手部姿态类型的置信度集合。例如,表示左手属于第i类手部姿态的置信度,Oleft、Oright中置信度最高的即为对应的左右手类别。在此基础上,将左右手姿态特征O与双流算法中提取的人体姿态特征G和手势时序特征S融合即可构成最终的手势时空上下文特征F。
(4)特征融合及手势分类
双流算法提取的人体姿态特征G和手势时序特征S具有像素级的对应关系。以刷牙和梳头两个动作为例,如果一只手在某个空间位置周期性地移动,那么时间卷积网络就能识别其运动轨迹,而空间卷积网络就可以识别其形态(牙齿或毛发),将其组合就可以辨别动作。因此,本发明首先在通道维度上堆叠特征G、S用来满足特征图层的像素级对应关系;然后使用三维卷积(三维卷积核大小设置为3*3*3)和三维池化(池化大小设置为2*2*2,最大池化)进一步融合特征G、S;最后设计在全连接层拼接手部姿态特征O,如式(2)所示:
具体实施方式
本发明的具体实施分为以下四步:
1)数据加载及双流算法实现
2)SSD手部姿态检测网络实现
3)在公开数据集进行整体训练
4)实验结果分析
(1)数据加载及双流网络实现
本方法设置从手势视频数据中平均选取3个视频帧作为双流算法空间卷积网络的输入,然后又分别从这3个视频帧左右各5个邻域帧中提取光流数据作为双流算法时间卷积网络的输入。另外,为加强手势识别方法的泛化性,本方法对手势帧进行随机剪裁,每个手势帧都需要预先剪裁到512×512的分辨率大小。
原有双流算法的空间卷积网络和时间卷积网络均采用开源的VGG16特征提取网络实现。由于最新提出的MobileNet V3特征提取网络具有更高的时效性和特征提取速度,因此本发明改用开源的MobileNet V3实现双流算法,另外光流提取技术也改用DenseFlow方法实现。
目前也已有开源的DenseFlow方法实现,并且可以作为一种工具直接在服务器环境中利用OpenCV计算机视觉库进行编译安装。
(2)SSD手部姿态检测网络训练
本方法使用SSD从手势关键帧中提取手部姿态特征。具体实施分为以下三个小步骤:
a)设置多个尺度的特征图层
原有SSD目标检测算法的基础网络架构使用VGG16实现,为加快手势的识别速度,本发明改用MobileNet V3方法实现,如图6所示。另外,本发明参考原有SSD算法设计,在MobileNet V3后面拼接了4个不同尺度的特征图层,作用是可以从视频图片中检测出具有不同规模大小的用户手部姿态。
b)设置多个默认候选框,预测每个候选框中的手部姿态类型
为有效的标中手部区域,本发明参考原有的SSD算法,在拼接的4个不同尺度特征图层的每个单元处都设置了5个默认候选框,然后使用多个卷积过滤器预测每个候选框中的手部姿态类型。
具体来说,若一个特征图层的大小为m×n×c(m表示特征图层的宽,n表示特征图层的高,c表示特征图层的通道数),那么当前特征图层共包含m×n×5个候选框。其中,每一个候选框都需要预测距离手部中心坐标的偏移量(利用候选框左上角、右下角两个顶点坐标表示,一共需要计算四个偏移量)以及手部姿态类型。因此,可以利用m×n×5×(phand+4)个卷积过滤器预测当前特征图层中每一个候选框的预测结果。其中,phand表示手部姿态类型个数。(本发明设置该卷积过滤器的大小为3×3×c)。
c)利用非极大值抑制算法得到最终的手部姿态类型
本发明参考原有SSD算法思想,使用非极大值抑制算法(Non-MaximumSuppression,NMS)设置重叠度(Intersection over Union,IOU)阈值用来过滤识别效果不好的手部检测框,进而得到最终的手部姿态类型检测结果(本方法设置重叠度阈值为0.5)。
(3)在公开数据集进行整体训练
本发明选择公开的Chalearn2013意大利手势数据集进行训练。该数据集使用Kinect传感器以每秒20帧的速度记录了27个用户在不同背景下的手势词汇表达,其中共包含20个手势分类,每个手势的时长在50帧左右,并提供RGB、RGB-D、骨架、用户轮廓多种模态信息。另外,该数据集共计13858个视频样本,其中训练集7754个、验证集3362个、测试集2742个。本发明仅使用该数据集的RGB模态数据与其它仅使用RGB信息的动态手势识别方法进行对比。
(4)实验结果分析
本发明参考Chalearn2013意大利手势数据集规定,使用编辑距离(LevenshteinDistance)作为实验效果的评价标准。其中,耦合隐式马尔科夫算法(coupled hiddenMarkov model,CHMM)仅使用RGB视频信息在该数据集上获得了之前的最佳手势识别效果,实验准确率为60.07%。本发明的实验准确率为66.23%,相较之前的算法有了有效改进,并且比原有的双流算法提升了1.66%的识别准确率。
另外,在处理器为Intel Xeon ES、显卡为NVIDIA Titan X的服务器环境中,SSD目标检测算法识别关键帧中的手部姿态特征约耗时50ms,相邻两帧之间的光流计算约耗时11ms,识别一个手势的总体延迟时间在200ms以内,因此本方法可基本满足手势识别的实时性需求。
Claims (1)
1.基于深度神经网络和注意力机制的手势识别方法,其特征在于:
(1)利用双流算法提取动态手势的人体姿态特征、手势时序特征
a)人体姿态特征提取
对于一个输入宽为w、高为h的手势视频,首先按照该视频的开始时间和结束时间从中平均选取T帧手势图Xτ,X2τ…XTτ,将其堆叠作为双流算法中空间卷积网络的输入,用来提取动态手势的人体姿态特征G;其中,Xτ,X2τ…XTτ表示选取的手势帧集合,下标τ表示每选取两帧手势图之间相隔的帧数;
双流算法中的空间卷积网络用开源的MobileNet V3实现;
b)手势时序特征提取
手势的浅层时序特征可利用相邻视频帧之间的光流位移场向量表示;用开源的DenseFlow方法提取光流;
为了从光流数据中获取更深层次的手势运动变化规律,针对选取手势帧集合Xτ,X2τ…XTτ中的每一帧,将其左右邻域内的光流图叠加,并将叠加后的光流图作为双流算法时间卷积网络的输入用来提取动态手势的时序特征S,使用开源的MobileNet V3特征提取网络实现;其中,每个手势帧获取光流的左右视频帧邻域数设置为5;
(2)利用ECA注意力为手势帧和光流帧集合赋予初始权重
在双流算法的数据输入层后面引入开源的ECA注意力模块为手势帧和光流帧集合赋予初始权重,进而提升手势关键帧的学习;
ECA模块的结构使用全局平局池化操作将每个通道的特征图映射为单一变量;然后再使用大小为1×1、填充幅度为k-1的一维卷积操作求取变量间的线性映射关系,k为5;最后再使用Sigmoid激活函数得到每个特征图通道的初始权重,如式(1)所示:
其中,C表示需要加权的特征图通道集合,ci表示C中的第i层特征图通道,函数GAP(·)表示全局平均池化操作,li表示特征图通道ci全局平均池化后的单一变量,表示第i个变量1×1卷积内的第j个变量,αj表示该变量的系数,σ表示Sigmoid激活函数,wi表示特征图通道ci对应的初始权重;
至此,识别动态手势关键帧的注意力模块已建立;将输入双流算法中的手势帧与光流帧集合在通道维度上进行堆叠,则每个手势帧和光流帧都可以看作一个特征图通道;然后再将手势帧集合和光流帧集合分别代入到公式(1)中的C,则可求对应通道的初始权重,进而增强手势关键帧的学习;
(3)利用SSD从初始权重最高的手势帧中提取手部姿态特征
利用开源的SSD目标检测技术从初始权重最高的手势帧中提取手部姿态特征O,用来增强双流算法对相似手势的识别效果;
其中,手部姿态特征O共包含Oleft、Oright两部分,分别表示关键帧中左右手预测为不同手部姿态类型的置信度集合;表示左手属于第i类手部姿态的置信度,Oleft、Oright中置信度最高的即为对应的左右手类别;在此基础上,将左右手姿态特征O与双流算法中提取的人体姿态特征G和手势时序特征S融合即可构成最终的手势时空上下文特征F;
(4)特征融合及手势分类
双流算法提取的人体姿态特征G和手势时序特征S具有像素级的对应关系;首先在通道维度上堆叠特征G、S用来满足特征图层的像素级对应关系;然后使用三维卷积,三维卷积核大小设置为3*3*3,和三维池化,池化大小设置为2*2*2,最大池化;进一步融合特征G、S;最后设计在全连接层拼接手部姿态特征O,如式(2)所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518115.XA CN113378641B (zh) | 2021-05-12 | 2021-05-12 | 基于深度神经网络和注意力机制的手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518115.XA CN113378641B (zh) | 2021-05-12 | 2021-05-12 | 基于深度神经网络和注意力机制的手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378641A true CN113378641A (zh) | 2021-09-10 |
CN113378641B CN113378641B (zh) | 2024-04-09 |
Family
ID=77572614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110518115.XA Active CN113378641B (zh) | 2021-05-12 | 2021-05-12 | 基于深度神经网络和注意力机制的手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378641B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461078A (zh) * | 2022-04-12 | 2022-05-10 | 北京航空航天大学 | 一种基于人工智能的人机交互方法 |
CN114937285A (zh) * | 2022-05-25 | 2022-08-23 | 兰州大学 | 动态手势识别方法、装置、设备及存储介质 |
CN116682070A (zh) * | 2023-08-03 | 2023-09-01 | 武汉工程大学 | 复杂场景下危险气体泄漏红外视频检测方法及系统 |
CN117523669A (zh) * | 2023-11-17 | 2024-02-06 | 中国科学院自动化研究所 | 手势识别方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190107894A1 (en) * | 2017-10-07 | 2019-04-11 | Tata Consultancy Services Limited | System and method for deep learning based hand gesture recognition in first person view |
CN109886225A (zh) * | 2019-02-27 | 2019-06-14 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN110287844A (zh) * | 2019-06-19 | 2019-09-27 | 北京工业大学 | 基于卷积姿势机和长短时记忆网络的交警手势识别方法 |
CN111461037A (zh) * | 2020-04-07 | 2020-07-28 | 电子科技大学 | 一种基于fmcw雷达的端到端手势识别方法 |
CN112183198A (zh) * | 2020-08-21 | 2021-01-05 | 北京工业大学 | 肢体骨架和头手部件轮廓融合的手势识别方法 |
CN112329525A (zh) * | 2020-09-27 | 2021-02-05 | 中国科学院软件研究所 | 一种基于时空图卷积神经网络的手势识别方法和装置 |
-
2021
- 2021-05-12 CN CN202110518115.XA patent/CN113378641B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190107894A1 (en) * | 2017-10-07 | 2019-04-11 | Tata Consultancy Services Limited | System and method for deep learning based hand gesture recognition in first person view |
CN109886225A (zh) * | 2019-02-27 | 2019-06-14 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN110287844A (zh) * | 2019-06-19 | 2019-09-27 | 北京工业大学 | 基于卷积姿势机和长短时记忆网络的交警手势识别方法 |
CN111461037A (zh) * | 2020-04-07 | 2020-07-28 | 电子科技大学 | 一种基于fmcw雷达的端到端手势识别方法 |
CN112183198A (zh) * | 2020-08-21 | 2021-01-05 | 北京工业大学 | 肢体骨架和头手部件轮廓融合的手势识别方法 |
CN112329525A (zh) * | 2020-09-27 | 2021-02-05 | 中国科学院软件研究所 | 一种基于时空图卷积神经网络的手势识别方法和装置 |
Non-Patent Citations (3)
Title |
---|
包兆华;高瑜翔;夏朝禹;郭春妮;: "基于神经网络的静态手势识别算法实现", 成都信息工程大学学报, no. 06, 15 December 2019 (2019-12-15) * |
张聪聪;何宁;: "基于关键帧的双流卷积网络的人体动作识别方法", 南京信息工程大学学报(自然科学版), no. 06, 28 November 2019 (2019-11-28) * |
高明柯;赵卓;逄涛;王天保;邹一波;黄晨;李德旭;: "基于注意力机制和特征融合的手势识别方法", 计算机应用与软件, no. 06, 12 June 2020 (2020-06-12) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461078A (zh) * | 2022-04-12 | 2022-05-10 | 北京航空航天大学 | 一种基于人工智能的人机交互方法 |
CN114937285A (zh) * | 2022-05-25 | 2022-08-23 | 兰州大学 | 动态手势识别方法、装置、设备及存储介质 |
CN114937285B (zh) * | 2022-05-25 | 2023-04-07 | 兰州大学 | 动态手势识别方法、装置、设备及存储介质 |
CN116682070A (zh) * | 2023-08-03 | 2023-09-01 | 武汉工程大学 | 复杂场景下危险气体泄漏红外视频检测方法及系统 |
CN116682070B (zh) * | 2023-08-03 | 2024-05-28 | 武汉工程大学 | 复杂场景下危险气体泄漏红外视频检测方法及系统 |
CN117523669A (zh) * | 2023-11-17 | 2024-02-06 | 中国科学院自动化研究所 | 手势识别方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113378641B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378641B (zh) | 基于深度神经网络和注意力机制的手势识别方法 | |
CN108388882B (zh) | 基于全局-局部rgb-d多模态的手势识别方法 | |
US12093465B2 (en) | Methods and systems for hand gesture-based control of a device | |
JP4938861B2 (ja) | 複雑適応2D−to−3Dビデオシーケンス変換 | |
CN108345892B (zh) | 一种立体图像显著性的检测方法、装置、设备及存储介质 | |
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
JP2023517383A (ja) | マルチユーザ環境でハンドジェスチャを用いて装置を制御する方法及びシステム | |
CN111860274B (zh) | 基于头部朝向与上半身骨架特征的交警指挥手势识别方法 | |
CN110959160A (zh) | 一种手势识别方法、装置及设备 | |
CN110853073A (zh) | 确定关注点的方法、装置、设备、系统及信息处理方法 | |
KR102441171B1 (ko) | 다시점 얼굴 영상 기반 사용자 모니터링 장치 및 방법 | |
CN108510520B (zh) | 一种图像处理方法、装置及ar设备 | |
WO2024060558A1 (zh) | 可行域预测方法、装置、系统和存储介质 | |
US11861900B2 (en) | Multi-view visual data damage detection | |
CN111444488A (zh) | 一种基于动态手势的身份认证方法 | |
WO2023168957A1 (zh) | 姿态确定方法、装置、电子设备、存储介质及程序 | |
CN113343950A (zh) | 一种基于多特征融合的视频行为识别方法 | |
CN110942037A (zh) | 一种用于视频分析中的动作识别方法 | |
US12001613B2 (en) | Methods and systems for hand gesture-based control of a device | |
CN111274946B (zh) | 一种人脸识别方法和系统及设备 | |
CN111062311B (zh) | 一种基于深度级可分离卷积网络的行人手势识别与交互方法 | |
KR101189043B1 (ko) | 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기 | |
WO2013145874A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN113221824B (zh) | 基于个体模型生成的人体姿态识别方法 | |
US11941171B1 (en) | Eye gaze tracking method, apparatus and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |