CN114360067A - 一种基于深度学习的动态手势识别方法 - Google Patents

一种基于深度学习的动态手势识别方法 Download PDF

Info

Publication number
CN114360067A
CN114360067A CN202210031076.5A CN202210031076A CN114360067A CN 114360067 A CN114360067 A CN 114360067A CN 202210031076 A CN202210031076 A CN 202210031076A CN 114360067 A CN114360067 A CN 114360067A
Authority
CN
China
Prior art keywords
dimensional
video
image
layer
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210031076.5A
Other languages
English (en)
Inventor
李公法
吴雄
江都
陶波
孙瑛
孔建益
蒋国璋
童锡良
徐曼曼
云俊童
刘颖
刘鑫
赵国军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Science and Engineering WUSE
Original Assignee
Wuhan University of Science and Engineering WUSE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Science and Engineering WUSE filed Critical Wuhan University of Science and Engineering WUSE
Priority to CN202210031076.5A priority Critical patent/CN114360067A/zh
Publication of CN114360067A publication Critical patent/CN114360067A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于利用深度学习方法进行动态手势识别领域,本文提出了一种基于三维卷积神经网络的算法进行动态手势识别。现有基于深度学习的动态手势识别方法中,因为需要对视频空间信息和时序信息进行提取,网络输入信息量较大,导致其参数和计算量都十分庞大,网络结构复杂,实时性不高。本发明针对手势识别模型训练前人工提取特征繁琐和提取特征不够精细的问题,提出了利用关键帧提取特征的方式,提高了特征提取的效率和精度。针对现有基于图像处理的手势识别技术受外界环境影响大和稳定性欠佳等问题,设计三维卷积网络融合了图像的时空信息,减小了信息输入的损失,具有更好的稳定性和实时性。

Description

一种基于深度学习的动态手势识别方法
技术领域
本发明属于利用深度学习方法进行动态手势识别领域,涉及本文提出了一种基于三维卷积神经网络的算法进行动态手势识别。
背景技术
手势又分为静态手势和动态手势,静态手势识别只是对一幅图片中的手型做出分类,例如对“OK”这种手势进行分类,在学习特征时只关注手势的空间特征。动态手势识别则是对图像序列组成的手势进行识别,在特征提取时不但要提取空间特征,更要提取时间特征。相较于静态手势识别,动态手势更贴近人的表达习惯、有更丰富的信息表达、更具有现实意义。目前,研究人员已经提出了多种动态手势识别的算法,有动态手势特征提取算法如MEI算法,HOG算法和HOF算法,也有分类算法如隐马尔科夫模型等。而随着深度学习技术的发展,也有很多视频分类算法如C三维,双流卷积网络和LSTM等被应用于动态手势识别,并得到了较高的识别率。在现有基于深度学习的动态手势识别方法中,因为需要对视频空间信息和时序信息进行提取,网络输入信息量较大,导致其参数和计算量都十分庞大,网络结构复杂,实时性不高。如果能对网络输入进行优化筛选,并对改进现有的特征提取方法,就可以实现动态手势识别效果的提高。
发明内容
本发明要解决的问题是:现有基于图像处理的手势识别技术存在不足,如受外界环境影响大、人工提取手势特征繁琐、提取特征不够精细及稳定性欠佳等。因此,本发明利用卷积神经网络实现手势视频定位分类,并结合动态手势特点,提出了一种三维卷积神经网络的动态手势识别方法。
本发明的技术方案为:首先对于动态手势数据进行采集与预处理,数据分为训练数据与测试数据;在获得了数据之后进行实验测试环境的搭建,分为硬件与软件的搭建,所有的实验都是在windows10系统下进行的,其中显卡为NVIDIA GTX3060Ti 8G,所运行软件环境配置为:python3.6,pytorch-1.3.0+torchvision-0.5.0,opencv-python-4.5.0等其他辅助Python库;其次进行神经网络的结构设计;然后把经过标记的训练数据放入此网络结构中进行学习;最后输入测试数据样本进行测试,得出最后的动态识别精度;包括如下步骤
步骤1:动态手势样本采集,采用EgoGesture手势数据集中50个动态手势视频片段进行实验。EgoGesture手势数据集包含50个不同主题的2,081个RGB-D视频,24,161个手势样本和2,953,224帧。每个视频样本都由Intel RealSense SR300相机拍摄,数据格式为RDB-D,每帧视频以640×480像素的分辨率和30fps录制。其中有33种静态和50种动态手势,为满足本方法训练测试要求,需要对数据进行动作区域切分提取操作,将每个动作依据发生时间区间和类别进行提取,获得50*300*2个包含深度和彩色的动态手势片段。对于双模态的数据库样本,分别随机将其中60%作为训练集,20%作为验证集,20%作为测试集。
步骤2:图像预处理,输入采用的是16帧长度的视频,对数据进行预处理,使得数据长度符合神经网络的输入要求。
步骤3:搭建实验平台;
步骤4:三维卷积神经网络设计。
步骤5:模型训练。将50类动态手势的训练集和测试集输入模型进行训练,使用带动量的小批量随机梯度下降算法对三维卷积神经网络进行优化,其中训练步数为101步,批量大小为16,初始学习率为0.01,学习率衰减因子为每3000次迭代衰减0.1,在训练模型时,每隔20步对模型进行一次验证调整,保证模型的准确率和泛化性。
步骤6:实验与结果。将50种动态手势的验证集按模型正向传播方法进行准确度测试,得到各类动态手势识别精度
进一步地,步骤2具体为:首先利用RGB-D图像对手势区域进行分割提取,获得去除背景的手部图像,然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算,然后对帧差大小进行排序,完成关键帧提取。在帧差值计算中,以帧间差分标准差Ln为关键帧的评价标准。预设关键帧的数量K,计算第n帧图像灰度值变化的标准差。设输入视频序列的连续帧图像分别为fn,fn+1,图像上像素点为(x,y),该点在两帧图像上所对应灰度值分别为fn(x,y),fn+1(x,y),根据公式1计算帧间距离,
Figure BDA0003466467760000021
表示第n张图像第i个像素点的灰度值。然后,计算帧差的最大值和最小值,并根据公式2计算出中间值mid(L)。然后移除所有val≤mid(L)的局部极值,剩余极值点数量为m。最后,对提取到m个极值点进行排序,并选择前K个m所对应的视频帧作为关键帧。如果一个视频中总极值点数量m≤K时,保持m个视频帧,并对最后一个视频帧进行复制填充。
Figure BDA0003466467760000031
mid(L)=(max(L)+min(L))/2 (2)
进一步地,步骤3中所有的实验都是在windows10系统下进行的,其中显卡为NVIDIA GTX3060Ti 8G,所运行软件环境配置为:python3.6,pytorch-1.3.0+torchvision-0.5.0,opencv-python-4.5.0等其他辅助Python库。
进一步地,步骤4中在三维卷积神经网络中加入了相邻帧时间维度信息的卷积操作,三维卷积的计算公式分别下所示。
Figure BDA0003466467760000032
式中:
Figure BDA0003466467760000033
为第i层第j个特征图在位置(x,y)上的输出;m代表参与卷积的特征图;Pi和Qi分别表示三维卷积核的长度和宽度;Ti为三维卷积核在时间维度上的长度;
Figure BDA0003466467760000034
为当前层卷积核(p,q,t)位置的权值;bij为第i层,第j个卷积核输出特征的偏差;relu表示激活函数。
使用RGB图像和Depth图像的数据联合输入,设计了一种基于注意力机制的三维卷积神经网络(CBAM-C三维)的动态手势识别算法。本方法提出的CBAM-C三维算法是在传统C三维网络结构进行优化。在卷积层(三维Conv)中添加BN层和Relu层,卷积层的数字代表卷积核的个数,全连接层和最大池化层后衔接CBAM网络对特征进行优化。通过这种融合网络既可以减少输入信息的传输损失,又能够自动学习得到图像中包含重要的时空信息,然后根据信息的重要程度对特征进行筛选,从而实现特征权重的自适应校准,通过添加CBAM注意力机制,可以帮助网络更好的学习到图像的重要通道特征和空间位置。
设计卷积神经网络共8层,先用2个卷积层对视频进行一次卷积操作,然后合并输入下一个卷积层,合并之后在经过三个卷积层和三个全连接层,最后输入Softmax层进行分类识别,网络结构如图3。在前两个卷积层中,卷积核的大小为3×3×3,只有一个卷积核,采用三维最大池化方法,池化窗口大小为2×2×2;第三,四,五层卷积核大小为3×3×2,有两个卷积核,采用三维最大池化方法,池化窗口大小为2×2×2;经过三个全连接层,最后将结果输入Softmax层。
与现有技术相比,本发明具备以下有益效果:
本发明利用关键帧提取特征的方式,避免了人工提取特征繁琐和提取特征不够精细的问题。本发明的网络融合了图像的时空信息,减小了信息输入的损失。本发明对手势识别具有更好的稳定性。
附图说明
图1为本发明方法流程图
图2为动态手势关键帧提取流程图
图3为三维卷积神经网络结构图
图4为50类动态手势识别结果混淆矩阵
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施方式为,首先对动态手势数据集进行采集与预处理,将数据分为训练数据与测试数据;然后把训练数据放入基于注意力机制的三维卷积神经网络结构进行学习;最后输入测试数据样本进行测试,得出最后的动态手势识别精度。本发明方法流程图如图1所示,具体过程如下:
步骤1:动态手势样本采集,本方法采用EgoGesture手势数据集中50个动态手势视频片段进行实验。EgoGesture数据特点是一段视频包含一个人间隔完成多个手势动作,并有表格描述该段视频中动作出现时间帧和动作类别。EgoGesture手势数据集包含50个不同主题的2,081个RGB-D视频,24,161个手势样本和2,953,224帧。每个视频样本都由IntelRealSense SR300相机拍摄,数据格式为RDB-D,每帧视频以640×480像素的分辨率和30fps录制。其中有33种静态和50种动态手势,为满足本方法训练测试要求,需要对数据进行动作区域切分提取操作,将每个动作依据发生时间区间和类别进行提取,获得50*300*2个包含深度和彩色的动态手势片段。对于双模态的数据库样本,分别随机将其中60%作为训练集,20%作为验证集,20%作为测试集。
步骤2:图像预处理,本发明输入采用的是16帧长度的视频,需要对数据进行预处理,使得数据长度符合神经网络的输入要求。本方法对传统帧差法进行优化,实现准确的关键帧图像提取,具体流程如图2所示。首先利用RGB-D图像对手势区域进行分割提取,获得去除背景的手部图像,然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算,然后对帧差大小进行排序,完成关键帧提取。在帧差值计算中,以帧间差分标准差Ln为关键帧的评价标准。例如预设关键帧的数量K,计算第n帧图像灰度值变化的标准差。如设输入视频序列的连续帧图像分别为fn,fn+1,图像上像素点为(x,y),该点在两帧图像上所对应灰度值分别为fn(x,y),fn+1(x,y),根据公式1计算帧间距离,
Figure BDA0003466467760000051
表示第n张图像第i个像素点的灰度值。然后,计算帧差的最大值和最小值,并根据公式2计算出中间值mid(L)。然后移除所有val≤mid(L)的局部极值,剩余极值点数量为m。最后,对提取到m个极值点进行排序,并选择前K个m所对应的视频帧作为关键帧。如果一个视频中总极值点数量m≤K时,保持m个视频帧,并对最后一个视频帧进行复制填充。
Figure BDA0003466467760000052
mid(L)=(max(L)+min(L))/2 (2)
步骤3:搭建实验平台,所有的实验都是在windows10系统下进行的。其中显卡为NVIDIA GTX3060Ti 8G,所运行软件环境配置为:python3.6,pytorch-1.3.0+torchvision-0.5.0,opencv-python-4.5.0等其他辅助Python库。
步骤4:三维卷积神经网络设计。三维卷积神经网络(三维-CNN)是为了弥补CNN在处理图像时域关系较强场景下的不足而提出的,与二维卷积神经网络不同的是三维-CNN使用三维的卷积核,在二维卷积核的基础上增加了时间维度上的计算,可以同时提取序列图像中的图像特征以及时域特征。原始的图像序列或者视频经过三维卷积后生成特征立方体(2D卷积生成特征图),特征立方体再依次经过后续的三维卷积层提取时空特征生成新的特征立方体。三维卷积神经网络中加入了相邻帧时间维度信息的卷积操作,三维卷积的计算公式分别下所示。
Figure BDA0003466467760000053
式中:
Figure BDA0003466467760000061
为第i层第j个特征图在位置(x,y)上的输出;m代表参与卷积的特征图;Pi和Qi分别表示三维卷积核的长度和宽度;Ti为三维卷积核在时间维度上的长度;
Figure BDA0003466467760000062
为当前层卷积核(p,q,t)位置的权值;bij为第i层,第j个卷积核输出特征的偏差;relu表示激活函数。
本文使用RGB图像和Depth图像的数据联合输入,设计了一种基于注意力机制的三维卷积神经网络(CBAM-C三维)的动态手势识别算法。本方法提出的CBAM-C三维算法是在传统C三维网络结构进行优化。在卷积层(三维Conv)中添加BN层和Relu层,卷积层的数字代表卷积核的个数,全连接层和最大池化层后衔接CBAM网络对特征进行优化。通过这种融合网络既可以减少输入信息的传输损失,又能够自动学习得到图像中包含重要的时空信息,然后根据信息的重要程度对特征进行筛选,从而实现特征权重的自适应校准,通过添加CBAM注意力机制,可以帮助网络更好的学习到图像的重要通道特征和空间位置。
本方法设计卷积神经网络共8层,先用2个卷积层对视频进行一次卷积操作,然后合并输入下一个卷积层,合并之后在经过三个卷积层和三个全连接层,最后输入Softmax层进行分类识别,网络结构如图3。在前两个卷积层中,卷积核的大小为3×3×3,只有一个卷积核,采用三维最大池化方法,池化窗口大小为2×2×2;第三,四,五层卷积核大小为3×3×2,有两个卷积核,采用三维最大池化方法,池化窗口大小为2×2×2;经过三个全连接层,最后将结果输入Softmax层。
步骤5:模型训练。将50类动态手势的训练集和测试集输入模型进行训练,本方法使用了带动量的小批量随机梯度下降算法对三维卷积神经网络进行优化,其中训练步数为101步,批量大小为16,初始学习率为0.01,学习率衰减因子为每3000次迭代衰减0.1,在训练模型时,每隔20步对模型进行一次验证调整,保证模型的准确率和泛化性。
步骤6:实验与结果。将50种动态手势的验证集按模型正向传播方法进行准确度测试,得到各类动态手势识别精度,具体识别结果如图4所示。图中纵坐标为50种手势的标签,横坐标为预测的50种标签,格子的深浅表示对应预测标签的置信度。以图的每一行作为基准,可以看出每个手势与其对应的预测标签匹配度最高。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种三维卷积神经网络的动态手势识别方法,其特征在于,所述方法包括如下步骤:
步骤1:动态手势样本采集,采用EgoGesture手势数据集中50个动态手势视频片段进行实验;EgoGesture手势数据集包含50个不同主题的2,081个RGB-D视频,24,161个手势样本和2,953,224帧;每个视频样本都由Intel RealSense SR300相机拍摄,数据格式为RDB-D,每帧视频以640×480像素的分辨率和30fps录制;其中有33种静态和50种动态手势,为满足本方法训练测试要求,需要对数据进行动作区域切分提取操作,将每个动作依据发生时间区间和类别进行提取,获得50*300*2个包含深度和彩色的动态手势片段;对于双模态的数据库样本,分别随机将其中60%作为训练集,20%作为验证集,20%作为测试集;
步骤2:图像预处理,输入采用的是16帧长度的视频,对数据进行预处理,使得数据长度符合神经网络的输入要求;
步骤3:搭建实验平台;
步骤4:三维卷积神经网络设计;
步骤5:模型训练;将50类动态手势的训练集和测试集输入模型进行训练,使用带动量的小批量随机梯度下降算法对三维卷积神经网络进行优化,其中训练步数为101步,批量大小为16,初始学习率为0.01,学习率衰减因子为每3000次迭代衰减0.1,在训练模型时,每隔20步对模型进行一次验证调整,保证模型的准确率和泛化性;
步骤6:实验与结果;将50种动态手势的验证集按模型正向传播方法进行准确度测试,得到各类动态手势识别精度。
2.如权利要求1所述的一种三维卷积神经网络的动态手势识别方法,其特征在于,步骤2具体为:首先利用RGB-D图像对手势区域进行分割提取,获得去除背景的手部图像,然后利用相邻图像像素标准差算法对图像序列中相邻图像帧差进行计算,然后对帧差大小进行排序,完成关键帧提取;在帧差值计算中,以帧间差分标准差Ln为关键帧的评价标准;预设关键帧的数量K,计算第n帧图像灰度值变化的标准差;设输入视频序列的连续帧图像分别为fn,fn+1,图像上像素点为(x,y),该点在两帧图像上所对应灰度值分别为fn(x,y),fn+1(x,y),根据公式1计算帧间距离,
Figure FDA0003466467750000011
表示第n张图像第i个像素点的灰度值;然后,计算帧差的最大值和最小值,并根据公式2计算出中间值mid(L);然后移除所有val≤mid(L)的局部极值,剩余极值点数量为m;最后,对提取到m个极值点进行排序,并选择前K个m所对应的视频帧作为关键帧;如果一个视频中总极值点数量m≤K时,保持m个视频帧,并对最后一个视频帧进行复制填充;
Figure FDA0003466467750000021
mid(L)=(max(L)+min(L))/2 (2)。
3.如权利要求1所述的一种三维卷积神经网络的动态手势识别方法,其特征在于,步骤3中所有的实验都是在windows10系统下进行的,其中显卡为NVIDIA GTX3060Ti 8G,所运行软件环境配置为:python3.6,pytorch-1.3.0+torchvision-0.5.0,opencv-python-4.5.0等其他辅助Python库。
4.如权利要求1所述的一种三维卷积神经网络的动态手势识别方法,其特征在于,步骤4中在三维卷积神经网络中加入了相邻帧时间维度信息的卷积操作,三维卷积的计算公式分别下所示;
Figure FDA0003466467750000022
式中:
Figure FDA0003466467750000023
为第i层第j个特征图在位置(x,y)上的输出;m代表参与卷积的特征图;Pi和Qi分别表示三维卷积核的长度和宽度;Ti为三维卷积核在时间维度上的长度;
Figure FDA0003466467750000024
为当前层卷积核(p,q,t)位置的权值;bij为第i层,第j个卷积核输出特征的偏差;relu表示激活函数;
使用RGB图像和Depth图像的数据联合输入,设计了一种基于注意力机制的三维卷积神经网络CBAM-C三维的动态手势识别算法;在卷积层中添加BN层和Relu层,卷积层的数字代表卷积核的个数,全连接层和最大池化层后衔接CBAM网络对特征进行优化;通过这种融合网络既可以减少输入信息的传输损失,又能够自动学习得到图像中包含重要的时空信息,然后根据信息的重要程度对特征进行筛选,从而实现特征权重的自适应校准,通过添加CBAM注意力机制,可以帮助网络更好的学习到图像的重要通道特征和空间位置;
设计卷积神经网络共8层,先用2个卷积层对视频进行一次卷积操作,然后合并输入下一个卷积层,合并之后在经过三个卷积层和三个全连接层,最后输入Softmax层进行分类识别,网络结构如图3;在前两个卷积层中,卷积核的大小为3×3×3,只有一个卷积核,采用三维最大池化方法,池化窗口大小为2×2×2;第三,四,五层卷积核大小为3×3×2,有两个卷积核,采用三维最大池化方法,池化窗口大小为2×2×2;经过三个全连接层,最后将结果输入Softmax层。
CN202210031076.5A 2022-01-12 2022-01-12 一种基于深度学习的动态手势识别方法 Pending CN114360067A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210031076.5A CN114360067A (zh) 2022-01-12 2022-01-12 一种基于深度学习的动态手势识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210031076.5A CN114360067A (zh) 2022-01-12 2022-01-12 一种基于深度学习的动态手势识别方法

Publications (1)

Publication Number Publication Date
CN114360067A true CN114360067A (zh) 2022-04-15

Family

ID=81108785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210031076.5A Pending CN114360067A (zh) 2022-01-12 2022-01-12 一种基于深度学习的动态手势识别方法

Country Status (1)

Country Link
CN (1) CN114360067A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223239A (zh) * 2022-06-23 2022-10-21 山东科技大学 一种手势识别方法、系统、计算机设备以及可读存储介质
CN115578683A (zh) * 2022-12-08 2023-01-06 中国海洋大学 一种动态手势识别模型的搭建方法及动态手势识别方法
CN117351557A (zh) * 2023-08-17 2024-01-05 中国矿业大学 一种深度学习的车载手势识别方法
CN117373121A (zh) * 2023-10-16 2024-01-09 北京中科睿途科技有限公司 智能座舱环境下的手势交互方法及相关设备
CN117612247A (zh) * 2023-11-03 2024-02-27 重庆利龙中宝智能技术有限公司 一种基于知识蒸馏的动静态手势识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIU YUTING等: "Dynamic Gesture Recognition Algorithm Based on 3D Convolutional Neural Network", COMPUTATIONAL INTELLIGENCE AND NEUROSCIENCE, 17 August 2021 (2021-08-17), pages 1 - 13 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223239A (zh) * 2022-06-23 2022-10-21 山东科技大学 一种手势识别方法、系统、计算机设备以及可读存储介质
CN115223239B (zh) * 2022-06-23 2024-05-07 山东科技大学 一种手势识别方法、系统、计算机设备以及可读存储介质
CN115578683A (zh) * 2022-12-08 2023-01-06 中国海洋大学 一种动态手势识别模型的搭建方法及动态手势识别方法
CN115578683B (zh) * 2022-12-08 2023-04-28 中国海洋大学 一种动态手势识别模型的搭建方法及动态手势识别方法
CN117351557A (zh) * 2023-08-17 2024-01-05 中国矿业大学 一种深度学习的车载手势识别方法
CN117373121A (zh) * 2023-10-16 2024-01-09 北京中科睿途科技有限公司 智能座舱环境下的手势交互方法及相关设备
CN117612247A (zh) * 2023-11-03 2024-02-27 重庆利龙中宝智能技术有限公司 一种基于知识蒸馏的动静态手势识别方法

Similar Documents

Publication Publication Date Title
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN107273800B (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN110399850B (zh) 一种基于深度神经网络的连续手语识别方法
CN111968150B (zh) 一种基于全卷积神经网络的弱监督视频目标分割方法
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN113269054B (zh) 一种基于时空2d卷积神经网络的航拍视频分析方法
CN111523421B (zh) 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN113297936B (zh) 一种基于局部图卷积网络的排球群体行为识别方法
CN111539351B (zh) 一种多任务级联的人脸选帧比对方法
CN113205002B (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN113297956A (zh) 一种基于视觉的手势识别方法及系统
CN115439884A (zh) 一种基于双分支自注意力网络的行人属性识别方法
CN114187506A (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法
CN117292324A (zh) 一种人群密度估计方法及系统
CN116993760A (zh) 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型
CN115439926A (zh) 一种基于关键区域和场景深度的小样本异常行为识别方法
CN112200093B (zh) 一种基于不确定性估计的行人再识别方法
CN114445875A (zh) 基于深度学习的身份识别与人脸比对系统及训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination