CN111091045B - 一种基于时空注意力机制的手语识别方法 - Google Patents

一种基于时空注意力机制的手语识别方法 Download PDF

Info

Publication number
CN111091045B
CN111091045B CN201911023322.7A CN201911023322A CN111091045B CN 111091045 B CN111091045 B CN 111091045B CN 201911023322 A CN201911023322 A CN 201911023322A CN 111091045 B CN111091045 B CN 111091045B
Authority
CN
China
Prior art keywords
sign language
attention
time
convolution
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911023322.7A
Other languages
English (en)
Other versions
CN111091045A (zh
Inventor
罗元
李丹
张毅
汪杰
陈顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201911023322.7A priority Critical patent/CN111091045B/zh
Publication of CN111091045A publication Critical patent/CN111091045A/zh
Application granted granted Critical
Publication of CN111091045B publication Critical patent/CN111091045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空注意力机制的手语识别方法,首先将手语视频采样为具有统一长度的连续手语序列作为模型的输入。然后将视频帧序列输入到由3D残差块构成的空间注意力网络中,使得网络能够自动关注空间中的显著区域。随后将提取的卷积特征经过ConvLSTM卷积长短时记忆网络解析后提取出长时间的序列特征,同时分配不同视频帧的时间注意力权重生成视频的特征表示。最后,生成的特征表示经过Softmax分类器,以向量的形式输出分类类别。本发明能够降低冗余信息对识别的干扰,提高识别准确率。

Description

一种基于时空注意力机制的手语识别方法
技术领域
本发明属于图像处理与模式识别领域,特别是一种基于时空注意力机制的手语识别方法。
背景技术
手语识别的目的是将手语翻译成文本或者语音进行输出,达到聋人与正常人、聋人与聋人交流的目的。手语中包含了图片信息和运动信息,因此如何有效地提取手语中的时空特征是手语识别的研究重点。
传统的手语识别框架包括四个部分:预处理,手势检测,特征提取,分类。其中,特征提取和分类是关键的两个部分。因此研究人员着重设计复杂的人工特征,同时利用传统机器学习方法分类。但是这些工作依赖于有效的人工特征和选择的机器学习方法,耗费大量的时间,并且光照变化、个体差异等因素对人工特征的提取影响较大。
深度学习在图像分类、物体检测和语义分割等任务上取得了大幅度超出手工特征的性能,因此也成为了手语识别研究方法的热点。基于深度学习网络的动态手语识别系统,不仅可以实现从输入到输出的端到端手语词分类,还可以达到更优秀的识别性能。深度学习网络一般可以代替传统手势检测+手势跟踪+特征提取模块的功能,不仅省去了人工设计手势特征等一系列繁琐的步骤,网络结构设计合理甚至还可以提取到比人工特征更有效的手势特征,从而提高手语识别系统的识别率。在动态手势识别中,最常采用的神经网络模型为卷积神经网络CNN和循环神经网络RNN。然而,一般的基于CNN-RNN的网络在空间特征提取的有效性上有所欠缺,并且不能突出时间上的差异性,因而提取的时空特征包含了许多冗余信息,时空关联性不强。
发明内容
针对现有技术的不足,提出了一种基于时空注意力机制的手语识别方法,通过在残差3D卷积神经网络引入空间注意力、在卷积LSTM中引入时间注意力,使得网络能够自动专注空间中的显著区域,为手语视频帧自动分配权重,从而提高手语识别准确率。
为了实现上述目的,本发明采用的技术方案是:一种基于时空注意力机制的手语识别方法,包括以下步骤:
S1数据预处理,对手语视频进行采样,并对采样后的图片进行图像尺度归一化处理。
S2构建残差3D CNN卷积神经网络,提取输入视频的短期的时空特征,在残差3D卷积神经网络中引入空间注意力模块。
S3构建卷积LSTM长短时记忆网络,将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征,在卷积长短时记忆网络中引入时间注意力模块,生成视频帧的时间注意力权重,结合不同视频帧的时间注意力生成视频的特征表示。
S4经过Softmax分类器,输出手语分类类别。
进一步,所述数据预处理包括将每一个手语视频采样为32帧;帧数大于32的视频,将多余的帧数平均分配到首尾两端进行删除,保留中间的关键帧;而对于帧数小于32的视频为了保证数据的时序性,则重复最后一帧。
进一步,所述残差3D卷积神经网络中具有4个残差块;每个残差块包含六层3D卷积层,一层下采样层和一层上采样层,前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。
更进一步,所述下采样层采用最大值池化,所述上采样层采用双线性插值。卷积核大小均为3×3×3和1×1×1的卷积;网络中每一层卷积之后都是BN层和ReLU激活函数;BN层使每一层神经网络的输入都保持相同的数据分布,使得训练速度加快,同时可以将训练数据打乱,具有更快速的收敛特性;使用ReLU激活函数可以增强网络稀疏性,防止过拟合。
进一步,所述空间注意力模块为:
S21:输入的特征图x首先经过两层3D卷积网络得到特征图Hx:Hx=x*Wh
其中,*表示三维卷积操作,Wh是一个3维张量,表示待学习的权重参数;
S22:Hx分别通过掩膜分支和残差分支被变换到两个不同的特征空间Fx和Gx;掩膜分支主要通过下采样和上采样处理使高低维度的特征更好地组合在一起,残差分支的目的是提取更深层次的时空特征;对两个特征空间进行组合变换,再经过归一化处理生成空间注意力图αx
Figure BDA0002247901840000021
其中,
Figure BDA0002247901840000022
为哈达玛积,也就是逐元素相乘,σ表示Softmax激活函数,Fx和Gx分别是掩膜分支和残差分支的输出。
S23:注意力层输出为
Figure BDA0002247901840000023
为了更好地利用前层的信息,最终的输出为:Ox=x+Sx
所述两个分支其中一个需要经过下采样和上采样处理,另一个经过四层3D卷积处理。
进一步,步骤S3所述卷积长短时记忆网络为:
令空间注意力网络的输出特征为{x1,x2,...,xt,...},则每个卷积长短时记忆单元按照如下方式更新参数:
it=σ(wxi*xt+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bf)
ot=σ(wxo*xt+who*ht-1+bo)
Figure BDA0002247901840000031
Figure BDA0002247901840000032
其中,it,ot,ft分别表示步长t时的输入门、输出门、遗忘门的向量;xt是数据的输入;ct为存储细胞状态;ht表示t时刻卷积长短时记忆单元的输出;w,b分别表示相应的系数矩阵和偏置向量;*表示卷积计算,
Figure BDA0002247901840000033
代表哈达玛积。
进一步,所述引入时间注意力模块的步骤包括:
S31:计算在每个时间步长t时的时间注意力权重β={β12,...,βt,...},如下公式计算:
βt=ReLU(Wg*ht)
其中,ht是一个3维张量,表示在时间步长t时的隐藏状态;Wg表示尺寸为1×1的卷积核;使用的ReLU激活函数定义为max(0,x);
S32:βt通过Softmax函数得到归一化的权重:
Figure BDA0002247901840000034
其中,T表示序列的长度。
S33:为了获得视频级的分类结果c,计算所有时间步长内的隐藏状态和时间注意力的权重和:
Figure BDA0002247901840000035
在基于时间注意力的卷积LSTM网络的最后一层增加softmax分类器,以向量的形式输出手语分类类别。
进一步地,在模型训练及测试过程中根据损失函数,动量随机梯度下降算法更新网络。损失函数如下式所示:
Figure BDA0002247901840000036
其中,第一项为交叉熵函数,y=(y1,y2,...,yc)表示手语的真实类别,
Figure BDA0002247901840000041
表示预测的向量;wj表示网络参数的设置,λ1是权值衰减;λ2是正则化系数。
由于采用了上述技术方案,本发明具有如下的优点:
本发明提出一种基于残差3D卷积网络和卷积LSTM网络的手语识别方法,能够有效地提取手语视频的空间和时间特征。
在残差3D卷积网络中引入空间注意力机制,自动关注空间中的显著区域,减少背景和噪声的干扰;在卷积LSTM网络中引入时间注意力机制,对视频帧序列学习和分配权重,还能保留空间关系。时空注意力的引入能够有效提高手语识别准确率。
本发明在训练过程中对时空注意力网络进行联合学习,充分利用时空特征进行协调互补,整个网络是端到端的可学习的模型。
附图说明
图1为本发明方法流程图;
图2为本发明网络总体架构图;
图3为设计的残差3D卷积块;
图4为残差3DCNN中引入的空间注意力模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,一种基于时空注意力机制的手语识别方法,其包括以下步骤:
S1,数据预处理。将每一个手语视频采样为32帧;帧数大于32的视频,将多余的帧数平均分配到首尾两端进行删除,保留中间的关键帧;而对于帧数小于32的视频为了保证数据的时序性,则重复最后一帧。并对采样后的图片进行图像尺度归一化,统一剪切为112×112像素。
S2,构建时空注意力网络,如图2所示。在这个模型中,空间注意力网络能够自动定位视频帧中重要的区域,时间注意力网络自动选择关键帧。
空间注意力网络由残差3D卷积块和空间注意力模块组成。
其中,残差3DCNN中有4个残差块;每个残差块如图3所示,包含六层3D卷积层,一层下采样层和一层上采样层,前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。卷积核大小均为3×3×3和1×1×1的卷积;下采样单元采用最大值池化,上采样单元采用双线性插值;网络中每一层卷积之后都是BN层和ReLU激活函数;BN层使每一层神经网络的输入都保持相同的数据分布,使得训练速度加快,同时可以将训练数据打乱,具有更快速的收敛特性;使用ReLU激活函数可以增强网络稀疏性,防止过拟合。
在残差3DCNN中引入的空间注意力模块如图4所示。输入的特征图x首先经过两层三维卷积网络得到特征图:
Hx=x*Wh
其中,*表示三维卷积操作,Wh是一个3维张量,表示待学习的权重参数。
然后,Hx分别通过两个分支被变换到了两个不同的特征空间Fx和Gx。上边的分支主要通过下采样和上采样处理使高低维度的特征更好地组合在一起。下边分支的目的是提取更深层次的时空特征。对两个分支进行组合变换,再经过归一化处理生成空间注意力图αx
Figure BDA0002247901840000051
其中,
Figure BDA0002247901840000052
为哈达玛积,也就是逐元素相乘。σ表示Softmax激活函数。Fx和Gx分别是掩膜分支和残差分支的输出。
结合前两个公式得到注意力层输出为
Figure BDA0002247901840000053
为了更好地利用前层的信息,最终的输出为:Ox=x+Sx
时间注意力网络由两层卷积LSTM构成,将短期的时空特征经过卷积LSTM解析后提取出长时间的时空特征。
设空间注意力网络的输出特征为{x1,x2,...,xt,...},则每个ConvLSTM单元按照如下方式更新参数:
it=σ(wxi*xt+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bf)
ot=σ(wxo*xt+who*ht-1+bo)
Figure BDA0002247901840000054
Figure BDA0002247901840000055
其中,it,ot,ft分别表示步长t时的输入门、输出门、遗忘门的向量;xt是数据的输入;ct为存储细胞状态;ht表示t时刻ConvLSTM单元的输出。w,b系数矩阵和偏置向量。*表示卷积计算,
Figure BDA0002247901840000056
代表哈达玛积。
在卷积LSTM引入时间注意力机制,计算在每个时间步长t时的时间注意力权重β={β12,...,βt,...},如下公式计算:
βt=ReLU(Wg*ht)
其中,ht是一个3维张量,表示在时间步长t时的隐藏状态;Wg表示尺寸为1×1的卷积核;使用的ReLU激活函数定义为max(0,x);特别地,ht保留着空间位置信息;ConvLSTM中的注意力机制不仅关注关键帧,而且能关注空间中的关键区域;
βt通过Softmax函数得到归一化的权重:
Figure BDA0002247901840000061
其中,T表示序列的长度。
为了获得视频级的分类结果c,计算所有时间步长内的隐藏状态和时间注意力的权重和。
Figure BDA0002247901840000062
在基于时间注意力的卷积LSTM网络的最后一层增加softmax分类器,以向量的形式输出手语分类类别。
S3,模型训练及测试过程。本发明将样本分为训练集和测试集,并且两个集合互斥。模型损失函数如下式所示:
Figure BDA0002247901840000063
其中,第一项为交叉熵函数,y=(y1,y2,...,yc)表示手语的真实类别,
Figure BDA0002247901840000064
表示预测的向量;wj表示网络参数的设置,λ1是权值衰减;λ2是正则化系数,限制时间注意力的增加。
模型的训练采用动量随机梯度下降方法,以0.001作为初始的学习速率,每经过9000次迭代后乘以0.9,batch size设置为2;λ1和λ2分别设为0.00005和0.001。

Claims (9)

1.一种基于时空注意力机制的手语识别方法,其特征在于,包括以下步骤:
S1数据预处理,对手语视频进行采样,并对采样后的图片进行图像尺度归一化处理;
S2构建残差3D卷积神经网络,提取输入视频的短期的时空特征,在残差3D卷积神经网络中引入空间注意力模块;所述空间注意力模块为:
S21:输入的特征图x首先经过两层3D卷积网络得到特征图Hx:Hx=x*Wh
其中,*表示三维卷积操作,Wh是一个3维张量,表示待学习的权重参数;
S22:Hx分别通过掩膜分支和残差分支被变换到两个不同的特征空间Fx和Gx;掩膜分支通过下采样和上采样处理使高低维度的特征更好地组合在一起,残差分支的目的是提取更深层次的时空特征;对两个特征空间进行组合变换,再经过归一化处理生成空间注意力图αx
Figure FDA0003686871120000011
其中,
Figure FDA0003686871120000012
为哈达玛积,也就是逐元素相乘,σ表示Softmax激活函数,Fx和Gx分别是掩膜分支和残差分支的输出;
S23:注意力层输出为
Figure FDA0003686871120000013
为了更好地利用前层的信息,最终的输出为:Ox=x+Sx
S3构建卷积长短时记忆网络,将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征,在卷积长短时记忆网络中引入时间注意力模块,生成视频帧的时间注意力权重,结合不同视频帧的时间注意力生成视频的特征表示;
S4经过Softmax分类器,输出手语分类类别。
2.根据权利要求1所述一种基于时空注意力机制的手语识别方法,其特征在于:所述数据预处理包括将每一个手语视频采样为32帧;帧数大于32的视频,将多余的帧数平均分配到首尾两端进行删除,保留中间的关键帧;而对于帧数小于32的视频为了保证数据的时序性,则重复最后一帧。
3.根据权利要求1所述一种基于时空注意力机制的手语识别方法,其特征在于:所述残差3D卷积神经网络中具有4个残差块;每个残差块包含六层3D卷积层,一层下采样层和一层上采样层,前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。
4.根据权利要求3所述一种基于时空注意力机制的手语识别方法,其特征在于:所述下采样层采用最大值池化,所述上采样层采用双线性插值。
5.根据权利要求1所述一种基于时空注意力机制的手语识别方法,其特征在于:所述两个分支其中掩膜分支需要经过下采样和上采样处理,残差分支经过四层3D卷积处理。
6.根据权利要求1所述一种基于时空注意力机制的手语识别方法,其特征在于:步骤S3所述卷积长短时记忆网络为:
令空间注意力网络的输出特征为{x1,x2,...,xt,...},则每个卷积长短时记忆单元按照如下方式更新参数:
it=σ(wxi*xt+whi*ht-1+bi)
ft=σ(wxf*xt+whf*ht-1+bf)
ot=σ(wxo*xt+who*ht-1+bo)
Figure FDA0003686871120000021
Figure FDA0003686871120000022
其中,it,ot,ft分别表示步长t时的输入门、输出门、遗忘门的向量;xt是数据的输入;ct为存储细胞状态;ht表示t时刻卷积长短时记忆单元的输出;w,b分别表示相应的系数矩阵和偏置向量;*表示卷积计算,
Figure FDA0003686871120000025
代表哈达玛积。
7.根据权利要求1所述一种基于时空注意力机制的手语识别方法,其特征在于:所述引入时间注意力模块的步骤包括:
S31:计算在每个时间步长t时的时间注意力权重β={β12,...,βt,...},如下公式计算:
βt=ReLU(Wg*ht)
其中,ht是一个3维张量,表示在时间步长t时的隐藏状态;Wg表示尺寸为1×1的卷积核;使用的ReLU激活函数定义为max(0,x);
S32:βt通过Softmax函数得到归一化的权重:
Figure FDA0003686871120000023
其中,T表示序列的长度;
S33:为了获得视频级的分类结果c,计算所有时间步长内的隐藏状态和时间注意力的权重和:
Figure FDA0003686871120000024
8.根据权利要求1-7任一项所述一种基于时空注意力机制的手语识别方法,其特征在于:还包括模型训练及测试过程,其中根据损失函数,动量随机梯度下降算法更新网络。
9.根据权利要求8所述一种基于时空注意力机制的手语识别方法,其特征在于:
所述损失函数如下式所示:
Figure FDA0003686871120000031
其中,第一项为交叉熵函数,y=(y1,y2,...,yc)表示手语的真实类别,
Figure FDA0003686871120000032
表示预测的向量;wj表示网络参数的设置,λ1是权值衰减;λ2是正则化系数。
CN201911023322.7A 2019-10-25 2019-10-25 一种基于时空注意力机制的手语识别方法 Active CN111091045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911023322.7A CN111091045B (zh) 2019-10-25 2019-10-25 一种基于时空注意力机制的手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911023322.7A CN111091045B (zh) 2019-10-25 2019-10-25 一种基于时空注意力机制的手语识别方法

Publications (2)

Publication Number Publication Date
CN111091045A CN111091045A (zh) 2020-05-01
CN111091045B true CN111091045B (zh) 2022-08-23

Family

ID=70393577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911023322.7A Active CN111091045B (zh) 2019-10-25 2019-10-25 一种基于时空注意力机制的手语识别方法

Country Status (1)

Country Link
CN (1) CN111091045B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797683A (zh) * 2020-05-21 2020-10-20 台州学院 一种基于深度残差注意力网络的视频表情识别方法
CN111797777B (zh) * 2020-07-07 2023-10-17 南京大学 基于时空语义特征的手语识别系统及方法
CN111860408B (zh) * 2020-07-29 2023-08-08 山东大学 一种基于记忆组的采样方法、系统及电子设备
CN111967522B (zh) * 2020-08-19 2022-02-25 南京图格医疗科技有限公司 一种基于漏斗卷积结构的图像序列分类方法
CN112149504B (zh) * 2020-08-21 2024-03-26 浙江理工大学 混合卷积的残差网络与注意力结合的动作视频识别方法
CN111986188A (zh) * 2020-08-27 2020-11-24 深圳市智源空间创新科技有限公司 基于Resnet与LSTM的胶囊机器人排水管网缺陷识别方法
CN112131972B (zh) * 2020-09-07 2022-07-12 重庆邮电大学 一种基于注意力机制使用WiFi数据进行人体行为识别的方法
CN112183826B (zh) * 2020-09-15 2023-08-01 湖北大学 基于深度级联生成对抗网络的建筑能耗预测方法及相关产品
CN112257911B (zh) * 2020-10-13 2024-03-26 杭州电子科技大学 基于并行时空注意力机制的tcn多元时间序列预测方法
CN112464831B (zh) * 2020-12-01 2021-07-30 马上消费金融股份有限公司 视频分类方法、视频分类模型的训练方法及相关设备
CN112507898B (zh) * 2020-12-14 2022-07-01 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN112668694A (zh) * 2020-12-21 2021-04-16 山东大学 一种基于深度学习的区域流量预测方法
CN112783327B (zh) * 2021-01-29 2022-08-30 中国科学院计算技术研究所 基于表面肌电信号进行手势识别的方法及系统
CN112949460B (zh) * 2021-02-26 2024-02-13 陕西理工大学 一种基于视频的人体行为网络模型及识别方法
CN112687390B (zh) * 2021-03-12 2021-06-18 中国科学院自动化研究所 基于混合网络和lp范数池化的抑郁状态检测方法及装置
CN112906673A (zh) * 2021-04-09 2021-06-04 河北工业大学 一种基于注意力机制的下肢运动意图预测方法
CN113326739B (zh) * 2021-05-07 2022-08-09 山东大学 基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质
CN113343821B (zh) * 2021-05-31 2022-08-30 合肥工业大学 一种基于时空注意力网络和输入优化的非接触式心率测量方法
CN113609922B (zh) * 2021-07-13 2022-05-13 中国矿业大学 基于模态匹配的连续手语语句识别方法
CN114037930B (zh) * 2021-10-18 2022-07-12 苏州大学 基于时空增强网络的视频动作识别方法
CN113705546A (zh) * 2021-10-28 2021-11-26 武汉楚精灵医疗科技有限公司 干扰类别识别模型训练方法、识别方法、装置及电子设备
CN114299436A (zh) * 2021-12-30 2022-04-08 东北农业大学 融合时空双注意力机制的群养生猪争斗行为识别方法
CN114979801A (zh) * 2022-05-10 2022-08-30 上海大学 基于双向卷积长短期记忆网络的动态视频摘要算法及系统
CN115546897A (zh) * 2022-10-19 2022-12-30 维沃移动通信有限公司 手语识别方法、装置、电子设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN109063615A (zh) * 2018-07-20 2018-12-21 中国科学技术大学 一种手语识别方法及系统
CN109344701A (zh) * 2018-08-23 2019-02-15 武汉嫦娥医学抗衰机器人股份有限公司 一种基于Kinect的动态手势识别方法
CN109754015A (zh) * 2019-01-02 2019-05-14 京东方科技集团股份有限公司 用于画作多标签识别的神经网络及相关方法、介质和设备
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
CN110110602A (zh) * 2019-04-09 2019-08-09 南昌大学 一种基于三维残差神经网络和视频序列的动态手语识别方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110163181A (zh) * 2019-05-29 2019-08-23 中国科学技术大学 手语识别方法及装置
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
CN109063615A (zh) * 2018-07-20 2018-12-21 中国科学技术大学 一种手语识别方法及系统
CN109344701A (zh) * 2018-08-23 2019-02-15 武汉嫦娥医学抗衰机器人股份有限公司 一种基于Kinect的动态手势识别方法
CN109754015A (zh) * 2019-01-02 2019-05-14 京东方科技集团股份有限公司 用于画作多标签识别的神经网络及相关方法、介质和设备
CN110110602A (zh) * 2019-04-09 2019-08-09 南昌大学 一种基于三维残差神经网络和视频序列的动态手语识别方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110163181A (zh) * 2019-05-29 2019-08-23 中国科学技术大学 手语识别方法及装置
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110334718A (zh) * 2019-07-09 2019-10-15 方玉明 一种基于长短期记忆的二维视频显著性检测方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
Attention in convolutional LSTM for gesture recognition;Liang Zhang等;《2nd Conference on Neural Information Processing Systems (NIPS)》;20181231;第1-10页 *
Attention-Based 3D-CNNs for Large-Vocabulary Sign Language Recognition;Jie Huang等;《IEEE Transactions on Circuits and Systems for Video Technology》;20180917;第29卷(第9期);第1-10页 *
Dynamic Sign Language Recognition Based on Video Sequence With BLSTM-3D Residual Networks;YANQIU LIAO等;《IEEE Access》;20190314;第7卷;第38048-38052页 *
Gesture and Sign Language Recognition with Temporal Residual Networks;Lionel Pigou等;《Proceedings of the IEEE International Conference on Computer Vision (ICCV)》;20171231;第3086-3093页 *
Interpretable Spatio-temporal Attention for Video Action Recognition;Lili Meng等;《arXiv:1810.04511v2》;20190603;摘要、第1-4页 *
Multimodal gesture recognition using 3-D convolution and convolutional LSTM;GUANGMING ZHU等;《IEEE Access》;20170317;第5卷;第4517-4524页 *
基于深度学习的中国手语翻译;袁甜甜等;《电视技术》;20190125;第43卷(第2期);第52-55页 *
基于深度学习的手语识别关键技术研究;李云伟;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20190915(第09期);第I138-658页 *
基于神经网络的中国手语词手势检测与手语识别方法研究;王瑾薇;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20190815(第08期);第I138-611页 *

Also Published As

Publication number Publication date
CN111091045A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN111091045B (zh) 一种基于时空注意力机制的手语识别方法
JP7379787B2 (ja) フィーチャーピラミッドを融合した敵対的生成ネットワークによる画像ヘイズ除去方法
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN109493303B (zh) 一种基于生成对抗网络的图像去雾方法
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN111767979A (zh) 神经网络的训练方法、图像处理方法、图像处理装置
CN110222213B (zh) 一种基于异构张量分解的图像分类方法
CN110059587A (zh) 基于时空注意力的人体行为识别方法
CN109614874B (zh) 一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统
AU2018101313A4 (en) Image recognition of dangerous tools based on deep learning
CN112818764B (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN112307714A (zh) 一种基于双阶段深度网络的文字风格迁移方法
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
JP2022534890A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN111986132A (zh) 一种基于DLatLRR与VGG·Net的红外与可见光图像融合方法
Lei et al. Tghop: an explainable, efficient, and lightweight method for texture generation
Cao et al. Hyperspectral imagery classification based on compressed convolutional neural network
CN115393231A (zh) 一种缺陷图像的生成方法、装置、电子设备和存储介质
Zhang et al. Fchp: Exploring the discriminative feature and feature correlation of feature maps for hierarchical dnn pruning and compression
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN112950505B (zh) 一种基于生成对抗网络的图像处理方法、系统和介质
Shariff et al. Artificial (or) fake human face generator using generative adversarial network (gan) machine learning model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant