CN113792607B - 基于Transformer的神经网络手语分类识别方法 - Google Patents
基于Transformer的神经网络手语分类识别方法 Download PDFInfo
- Publication number
- CN113792607B CN113792607B CN202110954999.3A CN202110954999A CN113792607B CN 113792607 B CN113792607 B CN 113792607B CN 202110954999 A CN202110954999 A CN 202110954999A CN 113792607 B CN113792607 B CN 113792607B
- Authority
- CN
- China
- Prior art keywords
- sign language
- neural network
- module
- layer
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000003062 neural network model Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 210000004247 hand Anatomy 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 210000000707 wrist Anatomy 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 210000005036 nerve Anatomy 0.000 claims 2
- 206010011878 Deafness Diseases 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明属于手语识别技术领域,特别涉及一种基于Transformer的神经网络手语分类识别方法,其特征在于,包含以下具体步骤:1)手语采集模块,用于收集人体所做出手语动作的RGB视频;2)数据处理模块,由数据预处理和网络模型两部分组成,对孤立手语的识别分类,所述数据预处理模块对身体特征点和帧数一起提取;对提取结束的包含时空特点的关节点特征数据传入transformer神经网络模型进行处理;3)输出模块,由网络预测的前五个中选取分数最高的输入到文本中进行显示。本发明可以做到实时和无需佩戴以及使用特殊设备即可实现生成手语文本,可以更好地适应日常聋哑人士的使用。
Description
技术领域
本发明属于手语识别技术领域,特别涉及一种基于Transformer的神经网络手语分类识别方法。
背景技术
在中国聋哑人数占残疾人口约为三分之一,其中手语是其主要沟通工具。手语与语言的差别则主要在于语音这个问题上和聋哑人是否以手势进行思维。虽然大部分聋哑人可以用手语互相交流,但是由于很少有正常人学习过手语。因此,正常人很难通过手语与聋哑人交流。为解决不会手语的正常人与聋哑人交流,更好的为聋哑人提供服务,使用基于Transformer架构对大量数据进行学习,把手语视频动作翻译成为单独的孤立单词并显示成文本是一个可行的技术方向。
我们的每一个服务应用,都是一个数据转换。数据在这些Transformer之间进行流动和转换。流动的过程就是Pipeline形成的过程。现实生活中,我们要解决很多问题,对这些问题,我们用DataFrame对数据表示( Data Represention )。它是各个Transformer之间交换数据的表示和规范。
申请号为202010967634.X的中国发明公开了一种基于Transformer模型的多语种地名汉译方法,其语种范围涵盖英语、法语和德语:基于英语、法语和德语地名词根与对应中文地名词根翻译语料训练和微调得到的Transformer模型,输入待汉译地名词根的字符向量,获取最终词根汉译结果。可见,Transformer模型可通过数据库的建立和数据训练解决很多人类生活中的很多问题,但是适用于聋哑人士的手语识别,使其与正常人更容易交流的工具目前还未见报道。
发明内容
本发明的目的是提供了一种基于Transformer的神经网络手语分类识别方法,克服现有技术的不足,根据聋哑人士的社会和日常需求,能够使手语演示者无需佩戴特殊装备去进行实时识别孤立手语,并能够支持中科院手语数据集的最多2000类大规模的数据训练,并且采用了最新的transformer模型,在识别速度和准确率上对比也有提高。
为实现上述目的,本发明是采用以下技术方案实现的:
基于Transformer的神经网络手语分类识别方法,其特征在于,包含以下具体步骤:
1)手语采集模块,用于收集人体所做出手语动作的RGB视频;
2)数据处理模块,由数据预处理和网络模型两部分组成,对孤立手语的识别分类,所述数据预处理模块对身体特征点和帧数一起提取;对所述网络模型包含时空特点的transformer神经网络模型处理;
3)输出模块,由网络预测的前五个中选取分数最高的输入到文本中进行显示。
所述数据预处理是把RGB图像大小调整384×384的图像,然后利用mmpose预训练完的HRnet模型进行身体特征点的提取,从每个视频60帧中对人体全身133个关节特征点中提取33个关键点作为模型的输入,其中包括鼻子上的1个标志点、嘴巴上的4个标志点、肩上的2个标志点、肘部的2个标志点、手腕上的2个标志点和手上的22个标志点。
所述transformer神经网络模型处理时,首先将时空特征的五维向量60×33×24×24×3整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理,并进行小批量的归一化处理;然后加入一个droppath隐藏层防止过拟合,并使用了Mish激活函数:把droppath层的输出传入到embedding层进行嵌入处理,保证维度一致;在embedding输出的结果传入到transformer的神经网络中进行分类预测。
所述手语动作作为时空特点的数据T×S×H×W×C,其中T是帧数的时间向量,S是关节点特征的空间向量,H和W是对应图像的高和宽,C是图像的通道数,在分割成相同大小的batch之后采用max-pooling进行24×24的下采样处理,其中采用max-pooling进行24×24的下采样处理。
所述transformer神经网络模型的内部流程是:1)使用深度残差网络进行特征提
取,使用K×K大小的卷积核,并使用K大小的步长;2)把预处理生成的人体关节点特征图分
割成的24×24大小的batch的三维向量384×384×3处理成24×24×768,之后转换成二维
向量576×768其中包含的数据为手语对应的btach的序列以及对应的向量长度;3)把与
对应序列相加完成的二维向量传入transformer模块中,先进行标准化处理,并进行残差分
支;4)然后进行Multi-head Self-Attention进行(q,k,v)参数进行多头自适应处理,其中q
矩阵输出的q向量和k矩阵输出的k向量做点积相似度计算得到一个注意分数,n个q和 k向
量进行了一共次的点积相似度计算得到的注意分数矩阵,对这个矩阵中的每一
行分别做softmax归一化处理之后得到最终的格式的注意分数矩阵,然后和v矩阵输
出的v向量构成的矩阵进行矩阵相乘,实现加权求和的向量;5)把向量传入droppath层中防
止过拟合,之后与残差分支进行相加组成一个残差网络形成一个小的循环模块;6)然后进
行标准化处理在进行一次标准化处理,把标准化后的向量传入MLP模块中。
所述transformer神经网络模型植入在MLP模块中,首先进行一次全连接,把向量传入GELU之中把向量的维度增加4倍,进行一次droppath处理;然后进行一次全连接处理,把维度长度恢复,在droppath层之后输出;在droppath层输出的之后,后与残差分支进行相加组成一个残差网络形成一个小的循环模块;数据循环L次,其中L是可以自己定义的;
所述标准化处理是通过传入特征提取层把对应的标签维度提取出来,然后输入到MLP Head层中进行预测,再由输出模块生成对应前五个中选取分数最高的输入到文本中进行显示。
与现有技术相比,本发明的有益效果是:1)不需要手语人员配备特殊的手语装备以及使用特殊设备录制,通过采集模块对手语演示者采集RGB视频图像,能够实时识别孤立手语,操作方便,可以更好地适应日常聋哑人士的使用。2)基于Transformer架构对大量数据进行学习,与当前主流的其他网络手段相比,本发明可以降低占用的计算资源,并能够支持中科院手语数据集的最多2000类大规模的数据训练,同时获得优异的效果,在识别速度和准确率上明显实现了提高。
附图说明
图1是本发明实施例的总体框架图;
图2是本发明实施例中的数据处理流程图;
图3是本发明实施例中的Transformer解码器的内部框架图;
图4是本发明实施例中的MLP Block内部框架图;
图5是本发明实施例中的孤立手语“茶”的手语演示者照片;
图6是本发明实施例中的孤立手语“杯子”的手语演示者照片;
图7是本发明实施例中的孤立手语“星期一”的手语演示者照片。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
见图1-图5,是本发明基于Transformer的神经网络手语分类识别方法实施例的总体框架图,结构包含:1)手语采集模块,用于收集人体所做出手语动作的RGB视频;手语采集模块为了达到实时检测标准我们使用了默认25fps/s的摄像头与之对应的每60fps/s进行一次处理,因为在大量的实验过程中,发现孤立手语数据集的帧数在50-200帧左右,为了后期的时间处理的方便,取与数据处理模块处理相同的帧数进行输入,因为设定200帧其速度下降太大以及携带噪音太多,而50帧所包含的数据不足。
2)数据处理模块由数据预处理和网络模型两部分组成,对孤立手语的识别分类,数据预处理模块对身体特征点和帧数一起提取,数据预处理是把RGB图像大小调整384×384的图像,以方便之后利用mmpose预训练完的HRnet模型进行身体特征点的提取。然后利用mmpose预训练完的HRnet模型进行身体特征点的提取,从每个视频60帧中对人体全身133个关节特征点中提取33个关键点作为模型的输入,其中包括鼻子上的1个标志点、嘴巴上的4个标志点、肩上的2个标志点、肘部的2个标志点、手腕上的2个标志点和手上的22个标志点。对网络模型包含时空特点的transformer神经网络模型处理,transformer神经网络模型处理时,首先将时空特征的五维向量60×33×24×24×3整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理,并进行小批量的归一化处理;然后加入一个droppath隐藏层防止过拟合,并使用了Mish激活函数:把droppath层的输出传入到embedding层进行嵌入处理,保证维度一致;在embedding输出的结果传入到transformer的神经网络中进行分类预测。数据处理模块中包含了数据预处理部分,max-pooling下采样处理部分,需要注意在max-pooling使用的不是三维卷积,而是二维卷积,对预处理的数据进行分离处理,这样做的好处可以减少参数加快收敛其性能也没受到太大影响,以及transformer模块。
3)输出模块,由网络预测的前五个中选取分数最高的输入到文本中进行显示。
由于手语动作是作为时空特点的数据T×S×H×W×C,其中T是帧数的时间向量,S是关节点特征的空间向量,H和W是对应图像的高和宽,C是图像的通道数;
其中采用max-pooling进行24×24的下采样处理,其二维卷积的公式;
F(x ,y )表示卷积结果,和代表图像中的像素坐标, c代表图像的通道,、分别表示图像长度、宽度的偏移量,b代表偏置;
首先将时空特征的五维向量60×33×24×24×3整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理,并进行小批量的归一化处理;
然后加入一个droppath隐藏层防止过拟合,并使用了Mish激活函数:
为了保证维度一致,把droppath层的输出传入到embedding层进行嵌入处理,这里不用考虑关节点特征的邻近关系,在传入transformer之前会对每个batch进行编号;
在embedding输出的结果传入到transformer的神经网络中进行分类预测;
其中的transformer神经网络模型的内部流程并使用深度残差网络,其中残差函
数:。其中是残差的输入,为残差的输出,之后进行特征提取,使
用K×K大小的卷积核,并使用K大小的步长;
传入把三维向量384×384×3处理成16×16×1728,之后转换成二维向量其中包
含的数据为手语对应的文本含义的序列以及对应的向量长度,函数表达为;
其中为batch对应的标签与16×16的相加,为向量的维度;
传入transformer模块中,先进行标准化处理,并进行残差分支;
之后进行Multi-head Self-Attention进行多头自适应处理,公式为:
其中分别代表去计算和代表信息提取;
其中通过权重与处理完的向量相乘等到的:
同理和也是如此得到的;
每一个都是由去表示的:
其中中的是的向量长度;
传入droppath层中防止过拟合,之后与之前进行相加组成一个残差网络形成一个小的循环模块,函数为:
然后进行标准化处理在进行一次标准化处理并展开一个残差分支,传入MLP模
块中;根据优选transformer模型中,在MLP模块之中;
首先进行一次全连接;把向量传入GELU之中把向量的维度增加4倍到256×6912;
进行一次droppath处理,然后进行一次全连接处理;通过全连接层之后把向量恢复到256×
1728,之后在droppath层之后输出;与之前的残差分支相加:
传出transformer模块,在transformer模块中的数据会循环L次,其中L是可以定义的,默认为12次;再进行标准化处理,传入特征提取层把对应的标签维度提取出来,然后输入到MLP Head层中进行预测;其特征再生成对应前五个中选取分数最高的输入到文本中进行显示;
准确度是训练集和验证集,微调后准确度包含了测试集,top-1和top-5为最高准确率和准确率前5的手语预测,部分手语结果展示见表1。
表1
项目 | 36类(top5) | 100类(top5) | 36类(top1) | 100类(top1) |
准确度 | 65.05% | 70.00% | 36.05% | 53.50% |
微调后准确度 | 74.65% | 86.00% | 46.00% | 64.50% |
由此可见,把手语输出显示成本文,可以加强普通人与听力障碍人士的沟通能力。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.基于Transformer的神经网络手语分类识别方法,其特征在于,包含以下具体步骤:
1)手语采集模块,用于收集人体所做出手语动作的RGB视频;
2)数据处理模块,由数据预处理和网络模型两部分组成,对孤立手语的识别分类,所述数据预处理对身体特征点和帧数一起提取;对提取结束的包含时空特点的关节点特征数据传入transformer神经网络模型进行处理;
3)输出模块,由网络预测的前五个中选取分数最高的输入到文本中进行显示;
所述数据预处理是把RGB图像大小调整384×384的图像,然后利用mmpose预训练完的HRnet模型进行身体特征点的提取,从每个视频60帧中对人体全身133个关节特征点中提取33个关键点作为模型的输入,其中包括鼻子上的1个标志点、嘴巴上的4个标志点、肩上的2个标志点、肘部的2个标志点、手腕上的2个标志点和手上的22个标志点;
所述手语动作作为时空特点的数据T×S×H×W×C,其中T是帧数的时间向量,S是关节点特征的空间向量,H和W是对应图像的高和宽,C是图像的通道数,在分割成相同大小的batch之后采用max-pooling进行24×24的下采样处理;
所述transformer神经网络模型处理时,首先将时空特征的五维向量60×33×24×24×3中的33与24相乘整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理,并进行小批量的归一化处理;然后加入一个droppath隐藏层防止过拟合,并使用了Mish激活函数:把droppath层的输出传入到embedding层进行嵌入处理,保证维度一致;在embedding输出的结果传入到transformer的神经网络中进行分类预测。
2.根据权利要求1所述的基于Transformer的神经网络手语分类识别方法,其特征在于,所述transformer神经网络模型的内部流程是:1)使用深度残差网络进行特征提取,使用K×K大小的卷积核,并使用K大小的步长;2)把预处理生成的人体关节点特征图三维向量384×384×3分割成的24×24大小的batch,处理成24×24×768中的24与24相乘并通过嵌入层转换成二维向量576×768为手语对应的btach的编号以及对应的向量长度Ai相加;3)把转换后的二维向量传入transformer模块中,先进行标准化处理,并进行残差分支;4)然后进行Multi-head Self-Attention进行(q,k,v)参数进行多头自适应处理,其中q矩阵输出的q向量和k矩阵输出的k向量做点积相似度计算得到一个注意分数,n个q和k向量进行了一共n*n次的点积相似度计算得到n*n的注意分数矩阵,对这个矩阵中的每一行分别做softmax归一化处理之后得到最终的n*n格式的注意分数矩阵,然后和v矩阵输出的v向量构成的矩阵进行矩阵相乘,实现加权求和的向量;5)把加权求和的向量传入droppath层中防止过拟合,之后与残差分支进行相加组成一个残差网络形成一个小的循环模块;6)然后进行标准化处理,把标准化后的向量传入MLP模块中。
3.根据权利要求1所述的基于Transformer的神经网络手语分类识别方法,其特征在于,所述transformer神经网络模型植入在MLP模块中,首先进行一次全连接,把向量传入GELU之中把向量的维度增加4倍,进行一次droppath处理;然后进行一次全连接处理,把维度长度恢复,在droppath层之后输出;在droppath层输出的之后,后与残差分支进行相加组成一个残差网络形成一个小的循环模块;数据循环次数L是可以定义的。
4.根据权利要求3所述的基于Transformer的神经网络手语分类识别方法,其特征在于,所述数据循环次数L为12次。
5.根据权利要求2所述的基于Transformer的神经网络手语分类识别方法,其特征在于,所述标准化处理是通过传入特征提取层把对应的标签维度提取出来,然后输入到MLPHead层中进行预测,再由输出模块生成对应前五个中选取分数最高的输入到文本中进行显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110954999.3A CN113792607B (zh) | 2021-08-19 | 2021-08-19 | 基于Transformer的神经网络手语分类识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110954999.3A CN113792607B (zh) | 2021-08-19 | 2021-08-19 | 基于Transformer的神经网络手语分类识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792607A CN113792607A (zh) | 2021-12-14 |
CN113792607B true CN113792607B (zh) | 2024-01-05 |
Family
ID=79181853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110954999.3A Active CN113792607B (zh) | 2021-08-19 | 2021-08-19 | 基于Transformer的神经网络手语分类识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792607B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581959A (zh) * | 2022-05-09 | 2022-06-03 | 南京安元科技有限公司 | 基于服装款式特征提取的工服穿戴检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016176574A1 (en) * | 2015-04-30 | 2016-11-03 | Google Inc. | Wide-field radar-based gesture recognition |
CN110399850A (zh) * | 2019-07-30 | 2019-11-01 | 西安工业大学 | 一种基于深度神经网络的连续手语识别方法 |
CN110633688A (zh) * | 2019-09-23 | 2019-12-31 | 中国科学技术大学 | 翻译模型的训练方法及装置和手语视频翻译方法及装置 |
CN111259860A (zh) * | 2020-02-17 | 2020-06-09 | 合肥工业大学 | 基于数据自驱动的多阶特征动态融合手语翻译方法 |
CN111489394A (zh) * | 2020-03-16 | 2020-08-04 | 华南理工大学 | 物体姿态估计模型训练方法、系统、装置及介质 |
CN111723779A (zh) * | 2020-07-20 | 2020-09-29 | 浙江大学 | 一种基于深度学习的中文手语识别系统 |
CN113033458A (zh) * | 2021-04-09 | 2021-06-25 | 京东数字科技控股股份有限公司 | 动作识别方法和装置 |
US11074711B1 (en) * | 2018-06-15 | 2021-07-27 | Bertec Corporation | System for estimating a pose of one or more persons in a scene |
CN113239834A (zh) * | 2021-05-20 | 2021-08-10 | 中国科学技术大学 | 一种可预训练手模型感知表征的手语识别系统 |
-
2021
- 2021-08-19 CN CN202110954999.3A patent/CN113792607B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016176574A1 (en) * | 2015-04-30 | 2016-11-03 | Google Inc. | Wide-field radar-based gesture recognition |
US11074711B1 (en) * | 2018-06-15 | 2021-07-27 | Bertec Corporation | System for estimating a pose of one or more persons in a scene |
CN110399850A (zh) * | 2019-07-30 | 2019-11-01 | 西安工业大学 | 一种基于深度神经网络的连续手语识别方法 |
CN110633688A (zh) * | 2019-09-23 | 2019-12-31 | 中国科学技术大学 | 翻译模型的训练方法及装置和手语视频翻译方法及装置 |
CN111259860A (zh) * | 2020-02-17 | 2020-06-09 | 合肥工业大学 | 基于数据自驱动的多阶特征动态融合手语翻译方法 |
CN111489394A (zh) * | 2020-03-16 | 2020-08-04 | 华南理工大学 | 物体姿态估计模型训练方法、系统、装置及介质 |
CN111723779A (zh) * | 2020-07-20 | 2020-09-29 | 浙江大学 | 一种基于深度学习的中文手语识别系统 |
CN113033458A (zh) * | 2021-04-09 | 2021-06-25 | 京东数字科技控股股份有限公司 | 动作识别方法和装置 |
CN113239834A (zh) * | 2021-05-20 | 2021-08-10 | 中国科学技术大学 | 一种可预训练手模型感知表征的手语识别系统 |
Non-Patent Citations (4)
Title |
---|
Sign Language Recognition with Transformer Networks;Mathieu De Coster等;《Proceedings of the Twelfth Language Resources and Evaluation Conference》;6018-6024 * |
VIBE: Video Inference for Human Body Pose and Shape Estimation;Muhammed Kocabas等;《arXiv:1912.05656v3》;1-12 * |
基于深度学习的视频-文本跨模态搜索;赵瑞;《中国优秀硕士学位论文全文数据库_信息科技辑》;I138-1006 * |
基于深度学习的连续手语视频翻译的研究;裴现坤;《中国优秀硕士学位论文全文数据库_哲学与人文科学辑》;F085-1372 * |
Also Published As
Publication number | Publication date |
---|---|
CN113792607A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
Kishore et al. | A video based Indian sign language recognition system (INSLR) using wavelet transform and fuzzy logic | |
CN104409075B (zh) | 语音识别方法和系统 | |
CN107368831A (zh) | 一种自然场景图像中的英文文字和数字识别方法 | |
CN107491729B (zh) | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 | |
CN110633624B (zh) | 一种基于多特征融合的机器视觉人体异常行为识别方法 | |
CN110647820B (zh) | 基于特征空间超分辨映射的低分辨率人脸识别方法 | |
CN111108508B (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
CN111797811B (zh) | 一种基于图像理解的盲人导航系统 | |
CN113792607B (zh) | 基于Transformer的神经网络手语分类识别方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN113159002B (zh) | 一种基于自注意力权重辅助模块的人脸表情识别方法 | |
CN114708617A (zh) | 行人重识别方法、装置及电子设备 | |
Rahim et al. | Dynamic hand gesture based sign word recognition using convolutional neural network with feature fusion | |
CN112016592B (zh) | 基于交叉领域类别感知的领域适应语义分割方法及装置 | |
Minu | A extensive survey on sign language recognition methods | |
CN109522865A (zh) | 一种基于深度神经网络的特征加权融合人脸识别方法 | |
CN108537855B (zh) | 一种草图一致的陶瓷花纸图案生成方法及装置 | |
CN110738985A (zh) | 基于语音信号的跨模态生物特征识别方法及系统 | |
Thakar et al. | Sign Language to Text Conversion in Real Time using Transfer Learning | |
CN108960275A (zh) | 一种基于深度玻尔兹曼机的图像识别方法及系统 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
CN112348007B (zh) | 一种基于神经网络的光学字符识别方法 | |
CN114429659A (zh) | 一种基于自注意力的卒中患者表情识别方法及系统 | |
Katti et al. | Character and Word Level Gesture Recognition of Indian Sign Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |