CN113297955B - 一种基于多模态分层级信息融合的手语词识别方法 - Google Patents

一种基于多模态分层级信息融合的手语词识别方法 Download PDF

Info

Publication number
CN113297955B
CN113297955B CN202110559367.7A CN202110559367A CN113297955B CN 113297955 B CN113297955 B CN 113297955B CN 202110559367 A CN202110559367 A CN 202110559367A CN 113297955 B CN113297955 B CN 113297955B
Authority
CN
China
Prior art keywords
sign language
network
time
layer
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110559367.7A
Other languages
English (en)
Other versions
CN113297955A (zh
Inventor
王军
吕智成
申政文
李玉莲
潘在宇
鹿姝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202110559367.7A priority Critical patent/CN113297955B/zh
Publication of CN113297955A publication Critical patent/CN113297955A/zh
Application granted granted Critical
Publication of CN113297955B publication Critical patent/CN113297955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态分层级信息融合的手语词识别方法,该方法包括:以彩色视频、深度视频和骨骼节点视频三种模态的关键帧序列作为网络输入,构建一个双流I3D网络提取彩色视频和深度视频特征,通过特征拼接融合双模态语义特征,再使用LSTM构建长期时空特征,使用SoftMax进行分类评分;同时使用DST‑GCN网络提取骨骼节点视频的时空特征,再使用SoftMax进行分类评分;最终通过决策级融合方式将两个SoftMax层的预测分数进行融合,得到手语词识别结果。本发明所提出的基于多模态分层级信息融合的手语词识别方法,通过构建分层级融合策略,充分利用了多模态数据互补信息;通过构建DST‑GCN网络,增强了时空图卷积网络时间特征提取能力,进而提高了手语词识别的准确率。

Description

一种基于多模态分层级信息融合的手语词识别方法
技术领域
本发明属于手语识别技术领域,具体指代一种基于多模态分层级信息融合的手语词识别方法。
背景技术
根据数据显示,我国的聋哑人数量已经超过2080万,约占我国人口总数的1.69%,此外还有大量患有听力障碍的人口。对于他们而言,手语就是他们沟通的媒介,然而只有少数人掌握了手语并能与之交流,这使得聋哑人士在生活中有着许多沟通障碍。
目前主要的解决方法有:基于人工进行翻译和让使用手语者手部佩戴特定设备进行翻译。但是人工翻译需要大量的人力成本,只能在正式场合使用,普通人无法承担;佩戴设备的方式又会给手语者带来设备负担,而设备的限制又会影响正常的手语交流。
随着人工智能的快速普及,人机交互的便捷性大大提升。深度学习在计算机视觉上的应用使得计算机可以完成一些特定的工作。
发明内容
本发明的目的在于提供一种基于多模态分层级信息融合的手语词识别方法,以提高手语识别的准确率,能够利用多种模态信息,准确地识别所做的手语词汇,从而提升目前的手语识别性能,为广大聋哑人士的交流带来便利。
实现本发明目的的技术解决方案为:一种基于多模态分层级信息融合的手语词识别方法,步骤如下:
步骤S1,使用Kinect V2深度摄像机同时采集彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据,构建多模态中文日常手语词数据集,包括训练集和测试集两部分;
步骤S2,对三种模态的视频数据集分别进行关键帧提取,并均匀采样至相同的帧数,作为后续识别网络的输入;
步骤S3,使用I3D网络分别提取彩色视频数据和深度视频数据的短期时空特征,将两种模态数据特征进行拼接,得到融合特征,并将其输入LSTM网络得到长期时空特征,再输入到SoftMax层得到第一分类评分。
步骤S4,使用DST-GCN网络提取骨骼节点视频数据的时空特征,经过全连接层输入到SoftMax层得到第二分类评分;
步骤S5,将第一分类评分和第二分类评分进行融合,得到最终的手语词识别结果;
进一步地,步骤S2中将视频逐帧统一中心裁剪为网络输入尺寸图的大小,使用CNN网络对关键帧进行提取。得到关键帧的定位之后,将关键帧逐帧统一中心裁剪为网络输入尺寸图的大小,然后将图片数据归一化处理。
进一步地,步骤S3中色彩、深度视频特征提取方法为使用一个双流I3D特征提取网络,I3D网络的核心部分是多个结构相同的Inception扩张模块,包括三维卷积层,批归一化层和ReLu激活函数层。在Inception扩张模块之间还有最大池化层对特征进行降采样以提高计算速度。用两个I3D特征提取网络分别对彩色视频关键帧和深度视频关键帧进行特征提取,关键帧数据分别经过I3D网络处理过后会得到各自对应的特征图,将两种模态信息提取到的特征图进行特征级融合的方式即拼接处理,本质上就是将特征图进行串联,拼接后的特征可以表示为:
Figure BDA0003078349680000021
其中,ft为t时刻拼接后的特征图,
Figure BDA0003078349680000022
为t时刻彩色流I3D网络的输出特征图,
Figure BDA0003078349680000023
为t时刻深度流I3D网络的输出特征图。在到融合后的特征之后,将其输入到LSTM网络中进行时序建模,以达到将这两种模态的特征映射到相同的表征空间中的目的。
将包含T张视频帧的融合特征序列输入到LSTM网络中,计算出每帧对应的最后一个隐藏层状态来作为这段视频帧所代表的高层时序特征ht,可表示为:
ht=f(Uft+Wht-1+b)
其中,W和U为权重值,b为偏置,f表示抽象函数,LSTM中每个神经元的W、U、b都是共享的,且输出层神经元的数量为手语数据集中手语词类别数量,最终输出高层时序特征H=(h1,h2,…,hT)。再输入到SoftMax层得到第一分类评分,假设类别标y∈{1,2,…,A},对于输入的特征ht,SoftMax对其预测的属于类别c的条件概率为:
Figure BDA0003078349680000031
其中
Figure BDA0003078349680000032
为第c类的权重值。
进一步地,步骤S4中使用采集到的上半身N个骨骼点的空间坐标构建出一个无向人体骨骼节点图G=(V,E),其中为V表示节点,E表示连接骨骼节点的边集,在手语演示中,演示者仅通过上肢运动表达语义,可忽略下半身(在手语数据中也仅采集上半身骨骼节点数据)。因此,将骨骼节点图划分为上身中心躯干与两条手臂三个局部身体部位,其中每个子图中的节点表示为:
Figure BDA0003078349680000033
QO={qo|o=1,2,3}表示三个局部身体部位的重心,rtj∈qo。qoi表示从根节点到局部重心的距离,每帧内骨骼节点连接用ES={rtirtj|(i,j)∈H}表示。root表示根节点,centripetal表示向心节点,centrifugal表示离心节点。将骨骼节点视频的关键帧序列输入网络,通过批归一化层和卷积层学习点特征和图特征,将骨骼节点图的点特征与图特征共同输入到DST-GCN单元中进行时空特征提取。为了加强DST-GCN对时间关系的学习能力,本发明设置一个用于图特征提取的图卷积层(GCN)和两个用于学习时序关系的时间卷积层(TCN)作为DST-GCN的基本单元,并且GCN位于两个TCN中间,充分从不同层级加强骨骼节点图序列的时间表征。最后通过全局平均池化层输出每个骨骼节点图序列的特征向量,通过SoftMax层得到第二类别评分。
进一步地,步骤S5对I3D-LSTM网络和DST-GCN网络输出的第一分类评分和第二分类评分使用最大值融合进行决策融合。假设双流I3D-LSTM网络输出的结果对于种类1预测的概率为p1,种类2预测的概率为p2,种类N预测的概率为p′n;DST-GCN网络输出的结果对种类1预测的概率为p′1,种类2预测的概率为p′2,种类N预测的概率为p′n,则最终融合分数为:
Pi=max(pi,p′i),i∈[1,N]
本发明与现有技术相比,其显著优点在于:本发明基于多模态分层级信息融合,首先在特征层对彩色视频数据和深度视频数据进行融合,再在决策层将彩色和深度视频数据融合后的决策与骨骼节点视频数据的决策进行融合,充分利用了多模态数据的互补信息。本发明能够准确地识别手语词,从而改进现有的手语识别方法。
附图说明
图1为本发明基于多模态分层级信息融合的手语词识别方法流程图。
图2为本发明I3D网络结构图。
图3为本发明LSTM网络结构图。
图4为本发明DST-GCN网络结构图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
随着人工智能的快速普及,人机交互的便捷性大大提升。深度学习在计算机视觉上的应用使得计算机可以完成一些特定的工作。由此我们想到可以基于视觉的方式对手语词进行识别,本发明仅使用几种模态的视觉信息,可以快速准确的识别大量手语词汇,搭配后续的手语语句识别和自然语言处理等模块可以构建一套完整的手语识别体系,为聋哑人士的交流带来便利。
结合图1~图4,本发明所述的一种基于多模态分层级信息融合的手语词识别方法,步骤如下:
步骤S1,使用Kinect V2深度摄像机同时采集彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据,构建多模态中文日常手语词数据集,所述多模态中文日常手语词数据集包括训练集和测试集,训练集和测试集中均包括彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据三种模态的视频数据。
步骤S2,对三种模态的视频数据集分别进行关键帧提取,并均匀采样至相同的帧数,作为双流I3D网络和DST-GCN网络的输入。
进一步地,步骤S2中将视频逐帧统一中心裁剪为网络输入尺寸图的大小,使用CNN网络对关键帧进行提取。得到关键帧的定位之后,将关键帧逐帧统一中心裁剪为网络输入尺寸图的大小,然后将图片数据归一化处理。
步骤S3,使用I3D网络分别提取彩色视频数据和深度视频数据的短期时空特征,将两种模态数据的短期时空特征进行拼接,得到融合特征,并将其输入LSTM网络得到长期时空特征,再输入到SoftMax层得到第一分类评分,具体如下:
步骤S2中提取的关键帧的图像序列经过I3D网络中的卷积层、最大池化层和全局池化层处理后,得到一个具有固定通道的特征图,选取I3D的全局平均池化层的输出特征作为对应视频帧的特征图,将彩色流I3D网络和深度流I3D网络对应时刻的特征图进行拼接,表示为:
Figure BDA0003078349680000051
其中,ftt为t时刻拼接后的特征图,
Figure BDA0003078349680000052
为t时刻彩色流I3D网络的输出特征图,
Figure BDA0003078349680000053
为t时刻深度流I3D网络的输出特征图;
通过这种方式对两种模态的特征信息进行拼接处理,得到融合特征,再将得到融合特征输入到LSTM网络中构建长期时空特征,将这两种模态的特征映射到相同的表征空间,增强了特征的表征能力,通过SoftMax层得到第一分类评分。
步骤S4,使用DST-GCN网络提取骨骼节点视频数据的时空特征,经过全连接层输入到SoftMax层得到第二分类评分,具体如下:
使用Kinect V2采集人体骨骼节点视频,得到上半身N个骨骼点的空间坐标,进而构建出一个无向人体骨骼节点图G=(V,E),其中为V表示节点,E表示连接骨骼节点的边集,在手语演示中,演示者仅通过上肢运动表达语义,可忽略下半身(在手语数据中也仅采集上半身骨骼节点数据),将骨骼节点图划分为上身中心躯干与两条手臂三个局部身体部位,其中每个子图中的节点表示为:
Figure BDA0003078349680000054
QO={qo|o=1,2,3}表示三个局部身体部位的重心,rtj∈qo,rtj表示第t帧中的第j个关节点,第qoi表示从根节点到局部重心的距离;每帧内骨骼节点连接用ES={rtirtj|(i,j)∈H}表示,root表示根节点,centripetal表示向心节点,centrifugal表示离心节点,i和j表示节点的索引序号;
将骨骼节点视频的关键帧序列输入网络,通过批归一化层和卷积层学习点特征和图特征,将骨骼节点图的点特征与图特征共同输入到DST-GCN网络中进行时空特征提取;为了加强DST-GCN对时间关系的学习能力,设置一个用于图特征提取的图卷积层GCN和两个用于学习时序关系的时间卷积层TCN作为DST-GCN的基本单元,并且GCN位于两个TCN中间,充分从不同层级加强骨骼节点图序列的时间表征;
最后通过全局平均池化层输出每个骨骼节点图序列的特征向量,通过SoftMax层得到第二分类评分。
步骤S5,将第一分类评分和第二分类评分进行融合,得到最终的手语词识别结果。
由于骨骼节点视频数据的特征提取方法不同于彩色和深度视频数据,难以在特征层进行融合。故先将彩色和深度视频数据在特征层融合,然后与骨骼节点视频数据在决策层进行融合,即将双流I3D-LSTM和DST-GCN网络的分类评分分数进行融合,得到最终的手语词识别结果,从而能够在不降低网络性能的前提下进一步提高手语词识别的准确率。故将第一分类评分分数和第二分类评分分数进行决策级融合,对于每个种类均取两个分类分数中得分最高的分数作为分类分数,得到最终的手语词识别结果。
实施例1
结合图1所示,本发明是一种新型的基于多模态分层级信息融合的手语词识别方法,步骤如下:
步骤S1:使用Kinect V2深度摄像机同时采集常用的60种手语词的彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据,构建多模态中文日常手语词数据集。其中彩色视频图像分辨率为1920*1080,深度视频图像分辨率为512*424,骨骼节点视频图像分辨率为1920*1080。
步骤S2:使用CNN网络提取采集视频序列中的关键帧,得到关键帧后将T帧关键帧数据统一中心裁剪为网络输入尺寸图N*N大小(N=224),然后将图片数据归一化处理。
步骤S3:将经过预处理的T帧彩色视频关键帧数据和T帧深度视频关键帧分别逐帧输入到双流I3D特征提取网络,网络具体结构如图2所示。经过22层三维卷积层处理,分别得到一个具有1024通道的1*1*1特征图。然后使用特征级融合的方式,将两个特征图进行拼接处理,完成拼接后得到一个2048通道的1*1*1特征图。将双流I3D网络输出的特征序列完成拼接后输入到LSTM网络中,网络具体结构如图3所示。经过网络计算,最终输出为对应每个类别的得分。因为预先设定的手语词类别为60个,所以最终的输出结果就是一个1*60的二维向量,每一列对应每一个预设的手语词类别得分,得到第一分类评分。
步骤S4:将采集的人体骨骼节点视频构建出一个无向人体骨骼节点图,将15个骨骼节点分为上身中心躯干与两条手臂3个子图,然后将视频帧序列输入DST-GCN网络,经过批归一化层对其进行规范化处理,使输入数据的大小在不同骨骼点上保持一致。然后使用一个大小为1x1和nx3的卷积层Conv1与Conv2,其中Conv1用于从骨骼节点的坐标中学习点特征,Conv2学习图特征,同时将BN层的输出与其融合,输入到多个ST-GCN单元,具体网络结构参照图4所示。共设置9个ST-GCN单元,前三个单元输出通道数为64,中间三个单元为128,最后三个单元为256,在每个单元上都应用残差机制,并在第3、6、9个单元上以0.5的随机概率对特征进行Dropout,在第4、7个单元中最后一个时间卷积层的步幅设置为2,起到池化作用。经过网络计算后,最终得到对应60个手语词类别的1*60的二维特征向量,得到第二分类评分。
步骤S5:将第一分类评分和第二分类评分进行融合。使用最大值融合的方式,将彩色、深度视频特征提取网络的1*60得分向量和骨骼特征提取网络的1*60得分向量进行最大值融合计算,选取两个得分向量中得分最高的的手语词作预测结果为最终的输出结果。

Claims (1)

1.一种基于多模态分层级信息融合的手语词识别方法,其特征在于,按如下步骤进行:
步骤S1,使用Kinect V2深度摄像机同时采集彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据,构建多模态中文日常手语词数据集,所述多模态中文日常手语词数据集包括训练集和测试集,训练集和测试集中均包括彩色手语视频数据、深度手语视频数据以及骨骼节点手语视频数据三种模态的视频数据,转入步骤S2;
步骤S2,对三种模态的视频数据集分别进行关键帧提取,并均匀采样至相同的帧数,作为双流I3D网络和DST-GCN网络的输入,同时转入步骤S3和步骤S4;
步骤S3,使用I3D网络分别提取彩色视频数据和深度视频数据的短期时空特征,将两种模态数据的短期时空特征进行拼接,得到融合特征,并将其输入LSTM网络得到长期时空特征,将长期时空特征输入到SoftMax层得到第一分类评分,具体如下:
步骤S2中提取的关键帧的图像序列经过I3D网络中的卷积层、最大池化层和全局池化层处理后,得到一个具有固定通道的特征图,选取I3D的全局平均池化层的输出特征作为对应视频帧的特征图,将彩色流I3D网络和深度流I3D网络对应时刻的特征图进行拼接,表示为:
Figure FDA0003462934170000011
其中,ft为t时刻拼接后的特征图,
Figure FDA0003462934170000012
为t时刻彩色流I3D网络的输出特征图,
Figure FDA0003462934170000013
为t时刻深度流I3D网络的输出特征图;
将包含T张视频帧的融合特征序列输入到LSTM网络中,计算出每帧对应的最后一个隐藏层状态来作为这段视频帧所代表的高层时序特征ht,表示为:
ht=f(Uft+Wht-1+b)
其中,W和U为权重值,b为偏置,f表示抽象函数,LSTM中每个神经元的W、U、b都是共享的,且输出层神经元的数量为手语数据集中手语词类别数量,最终输出高层时序特征H=(h1,h2,…,hT);再输入到SoftMax层得到第一分类评分,假设类别标y∈{1,2,…,A},对于输入的特征ht,SoftMax对其预测的属于类别c的条件概率为:
Figure FDA0003462934170000021
其中
Figure FDA0003462934170000022
为第c类的权重值;
通过这种方式对两种模态的特征信息进行拼接处理,得到融合特征,再将得到融合特征输入到LSTM网络中构建长期时空特征,将这两种模态的特征映射到相同的表征空间,增强了特征的表征能力,通过SoftMax层得到第一分类评分;
转入步骤S5;
步骤S4,使用DST-GCN网络提取骨骼节点视频数据的时空特征,经过全连接层输入到SoftMax层得到第二分类评分,具体如下:
使用Kinect V2采集人体骨骼节点视频,得到上半身N个骨骼点的空间坐标,进而构建出一个无向人体骨骼节点图G=(V,E),其中为V表示节点,E表示连接骨骼节点的边集,在手语演示中,演示者仅通过上肢运动表达语义,将骨骼节点图划分为上身中心躯干与两条手臂三个局部身体部位,其中每个子图中的节点表示为:
Figure FDA0003462934170000023
QO={qo|o=1,2,3}表示三个局部身体部位的重心,rtj∈qo,rtj表示第t帧中的第j个关节点,第qoi表示从根节点到局部重心的距离;每帧内骨骼节点连接用ES={rtirtj|(i,j)∈H}表示,root表示根节点,centripetal表示向心节点,centrifugal表示离心节点,i和j表示节点的索引序号;
将骨骼节点视频的关键帧序列输入网络,通过批归一化层和卷积层学习点特征和图特征,将骨骼节点图的点特征与图特征共同输入到DST-GCN网络中进行时空特征提取;为了加强DST-GCN对时间关系的学习能力,设置一个用于图特征提取的图卷积层GCN和两个用于学习时序关系的时间卷积层TCN作为DST-GCN的基本单元,并且GCN位于两个TCN中间,充分从不同层级加强骨骼节点图序列的时间表征;
最后通过全局平均池化层输出每个骨骼节点图序列的特征向量,通过SoftMax层得到第二分类评分;
转入步骤S5;
步骤S5,将第一分类评分和第二分类评分进行融合,得到最终的手语词识别结果
具体如下:将第一分类评分分数和第二分类评分分数进行决策级融合,对于每个种类均取两个分类分数中得分最高的分数作为分类分数,得到最终的手语词识别结果;
假设双流I3D-LSTM网络输出的结果对于种类1预测的概率为p1,种类2预测的概率为p2,种类N预测的概率为p′n;DST-GCN网络输出的结果对种类1预测的概率为p′1,种类2预测的概率为p′2,种类N预测的概率为p′n,则最终融合分数为:
Pi=max(pi,p′i),i∈[1,N]。
CN202110559367.7A 2021-05-21 2021-05-21 一种基于多模态分层级信息融合的手语词识别方法 Active CN113297955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110559367.7A CN113297955B (zh) 2021-05-21 2021-05-21 一种基于多模态分层级信息融合的手语词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110559367.7A CN113297955B (zh) 2021-05-21 2021-05-21 一种基于多模态分层级信息融合的手语词识别方法

Publications (2)

Publication Number Publication Date
CN113297955A CN113297955A (zh) 2021-08-24
CN113297955B true CN113297955B (zh) 2022-03-18

Family

ID=77323776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110559367.7A Active CN113297955B (zh) 2021-05-21 2021-05-21 一种基于多模态分层级信息融合的手语词识别方法

Country Status (1)

Country Link
CN (1) CN113297955B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761239A (zh) * 2021-09-08 2021-12-07 武汉工程大学 基于海量地理位置信息的索引库建立及检索方法
CN113989927B (zh) * 2021-10-27 2024-04-26 东北大学 一种基于骨骼数据的视频群体暴力行为识别方法及系统
CN115331154B (zh) * 2022-10-12 2023-01-24 成都西交智汇大数据科技有限公司 一种实验步骤评分方法、装置、设备及可读存储介质
CN115862150B (zh) * 2023-01-06 2023-05-23 吉林大学 一种基于三维人体蒙皮的潜水员动作识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统
CN111339837A (zh) * 2020-02-08 2020-06-26 河北工业大学 一种连续手语识别方法
CN111444488A (zh) * 2020-03-16 2020-07-24 安徽清新互联信息科技有限公司 一种基于动态手势的身份认证方法
CN112507898A (zh) * 2020-12-14 2021-03-16 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691743B2 (en) * 2014-08-05 2020-06-23 Sri International Multi-dimensional realization of visual content of an image collection
WO2015127394A1 (en) * 2014-02-23 2015-08-27 Northeastern University System for beauty, cosmetic, and fashion analysis
US10061389B2 (en) * 2014-06-03 2018-08-28 Beijing TransBorder Information Technology Co., Ltd. Gesture recognition system and gesture recognition method
US9619024B2 (en) * 2014-06-24 2017-04-11 Beijing TransBorder Information Technology Co., Ltd. Virtual input device and virtual input method
US11269891B2 (en) * 2014-08-21 2022-03-08 Affectomatics Ltd. Crowd-based scores for experiences from measurements of affective response
US11232466B2 (en) * 2015-01-29 2022-01-25 Affectomatics Ltd. Recommendation for experiences based on measurements of affective response that are backed by assurances
CN106821308A (zh) * 2016-11-15 2017-06-13 深圳大学 一种骨骼肌刺激下收缩活动评估的方法和装置
CN108388882B (zh) * 2018-03-16 2021-09-21 中山大学 基于全局-局部rgb-d多模态的手势识别方法
EP3550515A1 (en) * 2018-04-05 2019-10-09 Siemens Healthcare GmbH Cross-modality image synthesis
CN109460734B (zh) * 2018-11-08 2020-07-31 山东大学 基于层次动态深度投影差值图像表示的视频行为识别方法及系统
CN110554774B (zh) * 2019-07-22 2022-11-04 济南大学 一种面向ar的导航式交互范式系统
CN110705463A (zh) * 2019-09-29 2020-01-17 山东大学 基于多模态双流3d网络的视频人体行为识别方法及系统
CN110838116B (zh) * 2019-11-14 2023-01-03 上海联影医疗科技股份有限公司 医学图像采集方法、装置、设备和计算机可读存储介质
CN111274921B (zh) * 2019-11-27 2023-04-21 北京邮电大学 一种利用姿态掩模进行人体行为识别的方法
CN111666845B (zh) * 2020-05-26 2022-09-06 南京邮电大学 基于关键帧采样的小样本深度学习多模态手语识别方法
CN112379779B (zh) * 2020-11-30 2022-08-05 华南理工大学 一种基于迁移学习的动态手势识别虚拟交互系统
CN112507947A (zh) * 2020-12-18 2021-03-16 宜通世纪物联网研究院(广州)有限公司 基于多模态融合的手势识别方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统
CN111339837A (zh) * 2020-02-08 2020-06-26 河北工业大学 一种连续手语识别方法
CN111444488A (zh) * 2020-03-16 2020-07-24 安徽清新互联信息科技有限公司 一种基于动态手势的身份认证方法
CN112507898A (zh) * 2020-12-14 2021-03-16 重庆邮电大学 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法

Also Published As

Publication number Publication date
CN113297955A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113297955B (zh) 一种基于多模态分层级信息融合的手语词识别方法
JP7164252B2 (ja) 画像処理方法、装置、電子機器及びコンピュータプログラム
He Research of a sign language translation system based on deep learning
CN112906604B (zh) 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统
CN109815826A (zh) 人脸属性模型的生成方法及装置
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN112949622B (zh) 融合文本与图像的双模态性格分类方法及装置
CN111461063B (zh) 一种基于图卷积和胶囊神经网络的行为识别方法
CN111723779B (zh) 一种基于深度学习的中文手语识别系统
CN111582342B (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN110288513A (zh) 用于改变人脸属性的方法、装置、设备和存储介质
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN110110724A (zh) 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
Rwelli et al. Gesture based Arabic sign language recognition for impaired people based on convolution neural network
CN112200110A (zh) 一种基于深度干扰分离学习的人脸表情识别方法
CN108537109A (zh) 基于OpenPose的单目相机手语识别方法
Al-Obodi et al. A Saudi Sign Language recognition system based on convolutional neural networks
Lipi et al. Static-gesture word recognition in Bangla sign language using convolutional neural network
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Rajan et al. Gesture recognition of RGB-D and RGB static images using ensemble-based CNN architecture
Mullick et al. Learning deep and compact models for gesture recognition
CN112052795A (zh) 一种基于多尺度时空特征聚合的视频行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant