CN113792607A - 基于Transformer的神经网络手语分类识别方法 - Google Patents

基于Transformer的神经网络手语分类识别方法 Download PDF

Info

Publication number
CN113792607A
CN113792607A CN202110954999.3A CN202110954999A CN113792607A CN 113792607 A CN113792607 A CN 113792607A CN 202110954999 A CN202110954999 A CN 202110954999A CN 113792607 A CN113792607 A CN 113792607A
Authority
CN
China
Prior art keywords
sign language
neural network
transform
processing
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110954999.3A
Other languages
English (en)
Other versions
CN113792607B (zh
Inventor
樊松
才翱博
赵多加
曲胜乐
程万胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Liaoning USTL
Original Assignee
University of Science and Technology Liaoning USTL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Liaoning USTL filed Critical University of Science and Technology Liaoning USTL
Priority to CN202110954999.3A priority Critical patent/CN113792607B/zh
Publication of CN113792607A publication Critical patent/CN113792607A/zh
Application granted granted Critical
Publication of CN113792607B publication Critical patent/CN113792607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明属于手语识别技术领域,特别涉及一种基于Transformer的神经网络手语分类识别方法,其特征在于,包含以下具体步骤:1)手语采集模块,用于收集人体所做出手语动作的RGB视频;2)数据处理模块,由数据预处理和网络模型两部分组成,对孤立手语的识别分类,所述数据预处理模块对身体特征点和帧数一起提取;对提取结束的包含时空特点的关节点特征数据传入transformer神经网络模型进行处理;3)输出模块,由网络预测的前五个中选取分数最高的输入到文本中进行显示。本发明可以做到实时和无需佩戴以及使用特殊设备即可实现生成手语文本,可以更好地适应日常聋哑人士的使用。

Description

基于Transformer的神经网络手语分类识别方法
技术领域
本发明属于手语识别技术领域,特别涉及一种基于Transformer的神经网络手语分类识别方法。
背景技术
在中国聋哑人数占残疾人口约为三分之一,其中手语是其主要沟通工具。手语与语言的差别则主要在于语音这个问题上和聋哑人是否以手势进行思维。虽然大部分聋哑人可以用手语互相交流,但是由于很少有正常人学习过手语。因此,正常人很难通过手语与聋哑人交流。为解决不会手语的正常人与聋哑人交流,更好的为聋哑人提供服务,使用基于Transformer架构对大量数据进行学习,把手语视频动作翻译成为单独的孤立单词并显示成文本是一个可行的技术方向。
我们的每一个服务应用,都是一个数据转换。数据在这些Transformer之间进行流动和转换。流动的过程就是Pipeline形成的过程。现实生活中,我们要解决很多问题,对这些问题,我们用DataFrame对数据表示( Data Represention )。它是各个Transformer之间交换数据的表示和规范。
申请号为202010967634.X的中国发明公开了一种基于Transformer模型的多语种地名汉译方法,其语种范围涵盖英语、法语和德语:基于英语、法语和德语地名词根与对应中文地名词根翻译语料训练和微调得到的Transformer模型,输入待汉译地名词根的字符向量,获取最终词根汉译结果。可见,Transformer模型可通过数据库的建立和数据训练解决很多人类生活中的很多问题,但是适用于聋哑人士的手语识别,使其与正常人更容易交流的工具目前还未见报道。
发明内容
本发明的目的是提供了一种基于Transformer的神经网络手语分类识别方法,克服现有技术的不足,根据聋哑人士的社会和日常需求,能够使手语演示者无需佩戴特殊装备去进行实时识别孤立手语,并能够支持中科院手语数据集的最多2000类大规模的数据训练,并且采用了最新的transformer模型,在识别速度和准确率上对比也有提高。
为实现上述目的,本发明是采用以下技术方案实现的:
基于Transformer的神经网络手语分类识别方法,其特征在于,包含以下具体步骤:
1)手语采集模块,用于收集人体所做出手语动作的RGB视频;
2)数据处理模块,由数据预处理和网络模型两部分组成,对孤立手语的识别分类,所述数据预处理模块对身体特征点和帧数一起提取;对所述网络模型包含时空特点的transformer神经网络模型处理;
3)输出模块,由网络预测的前五个中选取分数最高的输入到文本中进行显示。
所述数据预处理是把RGB图像大小调整384×384的图像,然后利用mmpose预训练完的HRnet模型进行身体特征点的提取,从每个视频60帧中对人体全身133个关节特征点中提取33个关键点作为模型的输入,其中包括鼻子上的1个标志点、嘴巴上的4个标志点、肩上的2个标志点、肘部的2个标志点、手腕上的2个标志点和手上的22个标志点。
所述transformer神经网络模型处理时,首先将时空特征的五维向量60×33×24×24×3整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理,并进行小批量的归一化处理;然后加入一个droppath隐藏层防止过拟合,并使用了Mish激活函数:把droppath层的输出传入到embedding层进行嵌入处理,保证维度一致;在embedding输出的结果传入到transformer的神经网络中进行分类预测。
所述手语动作作为时空特点的数据T×S×H×W×C,其中T是帧数的时间向量,S是关节点特征的空间向量,H和W是对应图像的高和宽,C是图像的通道数,在分割成相同大小的batch之后采用max-pooling进行24×24的下采样处理,其中采用max-pooling进行24×24的下采样处理。
所述transformer神经网络模型的内部流程是:1)使用深度残差网络进行特征提 取,使用K×K大小的卷积核,并使用K大小的步长;2)把预处理生成的人体关节点特征图分 割成的24×24大小的batch的三维向量384×384×3处理成24×24×768,之后转换成二维 向量576×768其中包含的数据为手语对应的btach的序列以及对应的向量长度
Figure 612514DEST_PATH_IMAGE001
;3)把与 对应序列相加完成的二维向量传入transformer模块中,先进行标准化处理,并进行残差分 支;4)然后进行Multi-head Self-Attention进行(q,k,v)参数进行多头自适应处理,其中q 矩阵输出的q向量和k矩阵输出的k向量做点积相似度计算得到一个注意分数,n个q和 k向 量进行了一共
Figure 848323DEST_PATH_IMAGE002
次的点积相似度计算得到
Figure 124583DEST_PATH_IMAGE002
的注意分数矩阵,对这个矩阵中的每一 行分别做softmax归一化处理之后得到最终的
Figure 420436DEST_PATH_IMAGE002
格式的注意分数矩阵,然后和v矩阵输 出的v向量构成的矩阵进行矩阵相乘,实现加权求和的向量;5)把向量传入droppath层中防 止过拟合,之后与残差分支进行相加组成一个残差网络形成一个小的循环模块;6)然后进 行标准化处理在进行一次标准化处理,把标准化后的向量传入MLP模块中。
所述transformer神经网络模型植入在MLP模块中,首先进行一次全连接,把向量传入GELU之中把向量的维度增加4倍,进行一次droppath处理;然后进行一次全连接处理,把维度长度恢复,在droppath层之后输出;在droppath层输出的之后,后与残差分支进行相加组成一个残差网络形成一个小的循环模块;数据循环L次,其中L是可以自己定义的;
所述标准化处理是通过传入特征提取层把对应的标签维度提取出来,然后输入到MLP Head层中进行预测,再由输出模块生成对应前五个中选取分数最高的输入到文本中进行显示。
与现有技术相比,本发明的有益效果是:1)不需要手语人员配备特殊的手语装备以及使用特殊设备录制,通过采集模块对手语演示者采集RGB视频图像,能够实时识别孤立手语,操作方便,可以更好地适应日常聋哑人士的使用。2)基于Transformer架构对大量数据进行学习,与当前主流的其他网络手段相比,本发明可以降低占用的计算资源,并能够支持中科院手语数据集的最多2000类大规模的数据训练,同时获得优异的效果,在识别速度和准确率上明显实现了提高。
附图说明
图1是本发明实施例的总体框架图;
图2是本发明实施例中的数据处理流程图;
图3是本发明实施例中的Transformer解码器的内部框架图;
图4是本发明实施例中的MLP Block内部框架图;
图5是本发明实施例中的孤立手语“茶”的手语演示者照片;
图6是本发明实施例中的孤立手语“杯子”的手语演示者照片;
图7是本发明实施例中的孤立手语“星期一”的手语演示者照片。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
见图1-图5,是本发明基于Transformer的神经网络手语分类识别方法实施例的总体框架图,结构包含:1)手语采集模块,用于收集人体所做出手语动作的RGB视频;手语采集模块为了达到实时检测标准我们使用了默认25fps/s的摄像头与之对应的每60fps/s进行一次处理,因为在大量的实验过程中,发现孤立手语数据集的帧数在50-200帧左右,为了后期的时间处理的方便,取与数据处理模块处理相同的帧数进行输入,因为设定200帧其速度下降太大以及携带噪音太多,而50帧所包含的数据不足。
2)数据处理模块由数据预处理和网络模型两部分组成,对孤立手语的识别分类,数据预处理模块对身体特征点和帧数一起提取,数据预处理是把RGB图像大小调整384×384的图像,以方便之后利用mmpose预训练完的HRnet模型进行身体特征点的提取。然后利用mmpose预训练完的HRnet模型进行身体特征点的提取,从每个视频60帧中对人体全身133个关节特征点中提取33个关键点作为模型的输入,其中包括鼻子上的1个标志点、嘴巴上的4个标志点、肩上的2个标志点、肘部的2个标志点、手腕上的2个标志点和手上的22个标志点。对网络模型包含时空特点的transformer神经网络模型处理,transformer神经网络模型处理时,首先将时空特征的五维向量60×33×24×24×3整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理,并进行小批量的归一化处理;然后加入一个droppath隐藏层防止过拟合,并使用了Mish激活函数:把droppath层的输出传入到embedding层进行嵌入处理,保证维度一致;在embedding输出的结果传入到transformer的神经网络中进行分类预测。数据处理模块中包含了数据预处理部分,max-pooling下采样处理部分,需要注意在max-pooling使用的不是三维卷积,而是二维卷积,对预处理的数据进行分离处理,这样做的好处可以减少参数加快收敛其性能也没受到太大影响,以及transformer模块。
3)输出模块,由网络预测的前五个中选取分数最高的输入到文本中进行显示。
由于手语动作是作为时空特点的数据T×S×H×W×C,其中T是帧数的时间向量,S是关节点特征的空间向量,H和W是对应图像的高和宽,C是图像的通道数;
其中采用max-pooling进行24×24的下采样处理,其二维卷积的公式;
Figure 782147DEST_PATH_IMAGE003
F(x ,y )表示卷积结果,
Figure 821647DEST_PATH_IMAGE004
Figure 749152DEST_PATH_IMAGE005
代表图像中的像素坐标, c代表图像的通道,
Figure 153588DEST_PATH_IMAGE006
Figure 64912DEST_PATH_IMAGE007
分别表示图像长度、宽度的偏移量,b代表偏置;
首先将时空特征的五维向量60×33×24×24×3整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理,并进行小批量的归一化处理;
然后加入一个droppath隐藏层防止过拟合,并使用了Mish激活函数:
Figure 580207DEST_PATH_IMAGE008
为了保证维度一致,把droppath层的输出传入到embedding层进行嵌入处理,这里不用考虑关节点特征的邻近关系,在传入transformer之前会对每个batch进行编号;
在embedding输出的结果传入到transformer的神经网络中进行分类预测;
其中的transformer神经网络模型的内部流程并使用深度残差网络,其中残差函 数:
Figure 621938DEST_PATH_IMAGE009
。其中
Figure 259593DEST_PATH_IMAGE010
是残差的输入,
Figure 595897DEST_PATH_IMAGE011
为残差的输出,之后进行特征提取,使 用K×K大小的卷积核,并使用K大小的步长;
传入把三维向量384×384×3处理成16×16×1728,之后转换成二维向量其中包 含的数据为手语对应的文本含义的序列以及对应的向量长度
Figure 711620DEST_PATH_IMAGE012
,函数表达为;
Figure 879296DEST_PATH_IMAGE013
其中
Figure 625535DEST_PATH_IMAGE014
为batch对应的标签与16×16的相加,
Figure 980293DEST_PATH_IMAGE012
为向量的维度;
传入transformer模块中,先进行标准化处理,并进行残差分支
Figure 165287DEST_PATH_IMAGE015
之后进行Multi-head Self-Attention进行多头自适应处理,公式为:
Figure 125153DEST_PATH_IMAGE016
其中
Figure 104610DEST_PATH_IMAGE017
分别代表去计算
Figure 415506DEST_PATH_IMAGE018
Figure 138611DEST_PATH_IMAGE019
代表信息提取;
其中
Figure 952983DEST_PATH_IMAGE020
通过权重
Figure 103342DEST_PATH_IMAGE021
与处理完的向量
Figure 698271DEST_PATH_IMAGE012
相乘等到的:
Figure 162751DEST_PATH_IMAGE022
Figure 628367DEST_PATH_IMAGE023
Figure 215206DEST_PATH_IMAGE024
同理
Figure 235115DEST_PATH_IMAGE025
Figure 40303DEST_PATH_IMAGE019
也是如此得到的;
每一个
Figure 94847DEST_PATH_IMAGE026
都是由
Figure 852587DEST_PATH_IMAGE027
去表示的:
Figure 94213DEST_PATH_IMAGE028
其中
Figure 697232DEST_PATH_IMAGE029
中的
Figure 668599DEST_PATH_IMAGE030
Figure 269345DEST_PATH_IMAGE031
的向量长度;
传入droppath层中防止过拟合,之后与之前进行相加组成一个残差网络形成一个小的循环模块,函数为:
Figure 326163DEST_PATH_IMAGE032
然后进行标准化处理在进行一次标准化处理并展开一个残差分支
Figure 670556DEST_PATH_IMAGE033
,传入MLP模 块中;根据优选transformer模型中,在MLP模块之中;
首先进行一次全连接;把向量传入GELU之中把向量的维度增加4倍到256×6912; 进行一次droppath处理,然后进行一次全连接处理;通过全连接层之后把向量恢复到256× 1728,之后在droppath层之后输出;与之前的残差分支
Figure 496430DEST_PATH_IMAGE033
相加:
Figure 268077DEST_PATH_IMAGE034
传出transformer模块,在transformer模块中的数据会循环L次,其中L是可以定义的,默认为12次;再进行标准化处理,传入特征提取层把对应的标签维度提取出来,然后输入到MLP Head层中进行预测;其特征再生成对应前五个中选取分数最高的输入到文本中进行显示;
准确度是训练集和验证集,微调后准确度包含了测试集,top-1和top-5为最高准确率和准确率前5的手语预测,部分手语结果展示见表1。
表1
项目 36类(top5) 100类(top5) 36类(top1) 100类(top1)
准确度 65.05% 70.00% 36.05% 53.50%
微调后准确度 74.65% 86.00% 46.00% 64.50%
由此可见,把手语输出显示成本文,可以加强普通人与听力障碍人士的沟通能力。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.基于Transformer的神经网络手语分类识别方法,其特征在于,包含以下具体步骤:
1)手语采集模块,用于收集人体所做出手语动作的RGB视频;
2)数据处理模块,由数据预处理和网络模型两部分组成,对孤立手语的识别分类,所述数据预处理模块对身体特征点和帧数一起提取;对提取结束的包含时空特点的关节点特征数据传入transformer神经网络模型进行处理;
3)输出模块,由网络预测的前五个中选取分数最高的输入到文本中进行显示。
2.根据权利要求1所述的基于Transformer的神经网络手语分类识别方法,其特征在于,所述数据预处理是把RGB图像大小调整384×384的图像,然后利用mmpose预训练完的HRnet模型进行身体特征点的提取,从每个视频60帧中对人体全身133个关节特征点中提取33个关键点作为模型的输入,其中包括鼻子上的1个标志点、嘴巴上的4个标志点、肩上的2个标志点、肘部的2个标志点、手腕上的2个标志点和手上的22个标志点。
3.根据权利要求1所述的基于Transformer的神经网络手语分类识别方法,其特征在于,所述手语动作作为时空特点的数据T×S×H×W×C,其中T是帧数的时间向量,S是关节点特征的空间向量,H和W是对应图像的高和宽,C是图像的通道数,在分割成相同大小的batch之后采用max-pooling进行24×24的下采样处理。
4.根据权利要求1所述的基于Transformer的神经网络手语分类识别方法,其特征在于,所述transformer神经网络模型处理时,首先将时空特征的五维向量60×33×24×24×3中的33与24相乘整合成60×792×24×3之后按照给定的1×1卷积核大小进行时间处理,并进行小批量的归一化处理;然后加入一个droppath隐藏层防止过拟合,并使用了Mish激活函数:把droppath层的输出传入到embedding层进行嵌入处理,保证维度一致;在embedding输出的结果传入到transformer的神经网络中进行分类预测。
5.根据权利要求1所述的基于Transformer的神经网络手语分类识别方法,其特征在 于,所述transformer神经网络模型的内部流程是:1)使用深度残差网络进行特征提取,使 用K×K大小的卷积核,并使用K大小的步长;2)把预处理生成的人体关节点特征图三维向量 384×384×3分割成的24×24大小的batch, 处理成24×24×768中的24与24相乘并通过嵌 入层转换成二维向量576×768为手语对应的btach的编号以及对应的向量长度
Figure 666888DEST_PATH_IMAGE001
相加;3) 把转换后的二维向量传入transformer模块中,先进行标准化处理,并进行残差分支;4)然 后进行Multi-head Self-Attention进行(q,k,v)参数进行多头自适应处理,其中q矩阵输 出的q向量和k矩阵输出的k向量做点积相似度计算得到一个注意分数,n个q和 k向量进行 了一共
Figure 577075DEST_PATH_IMAGE002
次的点积相似度计算得到
Figure 767885DEST_PATH_IMAGE002
的注意分数矩阵,对这个矩阵中的每一行分别 做softmax归一化处理之后得到最终的
Figure 54510DEST_PATH_IMAGE002
格式的注意分数矩阵,然后和v矩阵输出的v向 量构成的矩阵进行矩阵相乘,实现加权求和的向量;5)把加权求和的向量传入droppath层 中防止过拟合,之后与残差分支进行相加组成一个残差网络形成一个小的循环模块;6)然 后进行标准化处理,把标准化后的向量传入MLP模块中。
6.根据权利要求1所述的基于Transformer的神经网络手语分类识别方法,其特征在于,所述transformer神经网络模型植入在MLP模块中,首先进行一次全连接,把向量传入GELU之中把向量的维度增加4倍,进行一次droppath处理;然后进行一次全连接处理,把维度长度恢复,在droppath层之后输出;在droppath层输出的之后,后与残差分支进行相加组成一个残差网络形成一个小的循环模块;数据循环次数L是可以定义的。
7.根据权利要求6所述的基于Transformer的神经网络手语分类识别方法,其特征在于,所述数据循环次数L为12次。
8.根据权利要求5所述的基于Transformer的神经网络手语分类识别方法,其特征在于,所述标准化处理是通过传入特征提取层把对应的标签维度提取出来,然后输入到MLPHead层中进行预测,再由输出模块生成对应前五个中选取分数最高的输入到文本中进行显示。
CN202110954999.3A 2021-08-19 2021-08-19 基于Transformer的神经网络手语分类识别方法 Active CN113792607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954999.3A CN113792607B (zh) 2021-08-19 2021-08-19 基于Transformer的神经网络手语分类识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954999.3A CN113792607B (zh) 2021-08-19 2021-08-19 基于Transformer的神经网络手语分类识别方法

Publications (2)

Publication Number Publication Date
CN113792607A true CN113792607A (zh) 2021-12-14
CN113792607B CN113792607B (zh) 2024-01-05

Family

ID=79181853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954999.3A Active CN113792607B (zh) 2021-08-19 2021-08-19 基于Transformer的神经网络手语分类识别方法

Country Status (1)

Country Link
CN (1) CN113792607B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581959A (zh) * 2022-05-09 2022-06-03 南京安元科技有限公司 基于服装款式特征提取的工服穿戴检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016176574A1 (en) * 2015-04-30 2016-11-03 Google Inc. Wide-field radar-based gesture recognition
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN110633688A (zh) * 2019-09-23 2019-12-31 中国科学技术大学 翻译模型的训练方法及装置和手语视频翻译方法及装置
CN111259860A (zh) * 2020-02-17 2020-06-09 合肥工业大学 基于数据自驱动的多阶特征动态融合手语翻译方法
CN111489394A (zh) * 2020-03-16 2020-08-04 华南理工大学 物体姿态估计模型训练方法、系统、装置及介质
CN111723779A (zh) * 2020-07-20 2020-09-29 浙江大学 一种基于深度学习的中文手语识别系统
CN113033458A (zh) * 2021-04-09 2021-06-25 京东数字科技控股股份有限公司 动作识别方法和装置
US11074711B1 (en) * 2018-06-15 2021-07-27 Bertec Corporation System for estimating a pose of one or more persons in a scene
CN113239834A (zh) * 2021-05-20 2021-08-10 中国科学技术大学 一种可预训练手模型感知表征的手语识别系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016176574A1 (en) * 2015-04-30 2016-11-03 Google Inc. Wide-field radar-based gesture recognition
US11074711B1 (en) * 2018-06-15 2021-07-27 Bertec Corporation System for estimating a pose of one or more persons in a scene
CN110399850A (zh) * 2019-07-30 2019-11-01 西安工业大学 一种基于深度神经网络的连续手语识别方法
CN110633688A (zh) * 2019-09-23 2019-12-31 中国科学技术大学 翻译模型的训练方法及装置和手语视频翻译方法及装置
CN111259860A (zh) * 2020-02-17 2020-06-09 合肥工业大学 基于数据自驱动的多阶特征动态融合手语翻译方法
CN111489394A (zh) * 2020-03-16 2020-08-04 华南理工大学 物体姿态估计模型训练方法、系统、装置及介质
CN111723779A (zh) * 2020-07-20 2020-09-29 浙江大学 一种基于深度学习的中文手语识别系统
CN113033458A (zh) * 2021-04-09 2021-06-25 京东数字科技控股股份有限公司 动作识别方法和装置
CN113239834A (zh) * 2021-05-20 2021-08-10 中国科学技术大学 一种可预训练手模型感知表征的手语识别系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MATHIEU DE COSTER等: "Sign Language Recognition with Transformer Networks", 《PROCEEDINGS OF THE TWELFTH LANGUAGE RESOURCES AND EVALUATION CONFERENCE》, pages 6018 - 6024 *
MUHAMMED KOCABAS等: "VIBE: Video Inference for Human Body Pose and Shape Estimation", 《ARXIV:1912.05656V3》, pages 1 - 12 *
裴现坤: "基于深度学习的连续手语视频翻译的研究", 《中国优秀硕士学位论文全文数据库_哲学与人文科学辑》, pages 085 - 1372 *
赵瑞: "基于深度学习的视频-文本跨模态搜索", 《中国优秀硕士学位论文全文数据库_信息科技辑》, pages 138 - 1006 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114581959A (zh) * 2022-05-09 2022-06-03 南京安元科技有限公司 基于服装款式特征提取的工服穿戴检测方法

Also Published As

Publication number Publication date
CN113792607B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN107368831B (zh) 一种自然场景图像中的英文文字和数字识别方法
Sharma et al. Vision-based sign language recognition system: A Comprehensive Review
CN111797811B (zh) 一种基于图像理解的盲人导航系统
Sabeenian et al. Sign language recognition using deep learning and computer vision
Maruyama et al. Word-level sign language recognition with multi-stream neural networks focusing on local regions
Talukder et al. Real-time bangla sign language detection with sentence and speech generation
CN112101096A (zh) 一种基于语音和微表情的多模态融合的自杀情绪感知方法
CN114550057A (zh) 一种基于多模态表示学习的视频情绪识别方法
Khetani et al. A Study on Different Sign Language Recognition Techniques
CN112257513A (zh) 一种手语视频翻译模型的训练方法、翻译方法及系统
Paul et al. A modern approach for sign language interpretation using convolutional neural network
Tasmere et al. Real time hand gesture recognition in depth image using cnn
CN113792607A (zh) 基于Transformer的神经网络手语分类识别方法
Zhou et al. Applying (3+ 2+ 1) D residual neural network with frame selection for Hong Kong sign language recognition
Lipi et al. Static-gesture word recognition in Bangla sign language using convolutional neural network
Youme et al. Generalization of bangla sign language recognition using angular loss functions
Minu A extensive survey on sign language recognition methods
Perera et al. Sri lankan sign language to sinhala text using convolutional neural network combined with scale invariant feature transform (sift)
CN110738985A (zh) 基于语音信号的跨模态生物特征识别方法及系统
CN114429659A (zh) 一种基于自注意力的卒中患者表情识别方法及系统
Thakar et al. Sign Language to Text Conversion in Real Time using Transfer Learning
CN115223214A (zh) 合成嘴型人脸的识别方法、模型获取方法、装置和设备
Kim et al. Study on hand gesture recognition with CNN-based deep learning
Olabanji et al. Development of A Computer Aided Real-Time Interpretation System for Indigenous Sign Language in Nigeria Using Convolutional Neural Network
Tazalli et al. Computer vision-based Bengali sign language to text generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant