CN114115531B - 一种基于注意力机制的端到端手语识别方法 - Google Patents

一种基于注意力机制的端到端手语识别方法 Download PDF

Info

Publication number
CN114115531B
CN114115531B CN202111330301.7A CN202111330301A CN114115531B CN 114115531 B CN114115531 B CN 114115531B CN 202111330301 A CN202111330301 A CN 202111330301A CN 114115531 B CN114115531 B CN 114115531B
Authority
CN
China
Prior art keywords
sign language
signal
signals
semg
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111330301.7A
Other languages
English (en)
Other versions
CN114115531A (zh
Inventor
王青山
任丹丹
张江涛
王�琦
赵雅晨
郑志文
周密
王天然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Assistive Devices And Technology Centre For Persons With Disabilities
Hefei University of Technology
Original Assignee
China Assistive Devices And Technology Centre For Persons With Disabilities
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Assistive Devices And Technology Centre For Persons With Disabilities, Hefei University of Technology filed Critical China Assistive Devices And Technology Centre For Persons With Disabilities
Priority to CN202111330301.7A priority Critical patent/CN114115531B/zh
Publication of CN114115531A publication Critical patent/CN114115531A/zh
Application granted granted Critical
Publication of CN114115531B publication Critical patent/CN114115531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/015Input arrangements based on nervous system activity detection, e.g. brain waves [EEG] detection, electromyograms [EMG] detection, electrodermal response detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Dermatology (AREA)
  • Neurology (AREA)
  • Neurosurgery (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的端到端手语识别方法,其中主要利用可穿戴传感器臂环来收集听障人士在与健全人交流时产生的手语信号,然后对采集到的手语信号进行低通滤波去除臂环本身带来的高频噪声,对滤波后的手语信号利用sEMG信号维度差值来扩充特征维度并减少臂环佩戴位置偏差带来的影响、利用IMU信号欧拉角转换来表达手臂运动特征,最后,本发明设计基于注意力的端到端模型来对手语传感器信号进行整句识别,从而解决听障人士与健全人交流的障碍。

Description

一种基于注意力机制的端到端手语识别方法
技术领域
本发明涉及动作语言智能识别方法领域,具体是一种基于注意力机制的端到端手语识别方法。
背景技术
近年来,消费电子数据捕捉传感器与通讯电子集成在一起加速了消费电子的发展和扩展,几乎涵盖了日常生活的所有方面,同时,使用可穿戴传感器设备助力听障人士交流也受到高度重视。使用可穿戴传感器对听障人士日常手语进行识别。现有的手势识别的研究主要分为三大块:基于视频、基于射频和基于传感器。
基于视频的方法依赖于摄像头等视觉设备,该方法会引起用户的隐私问题,同时容易受到背景等杂物的影响,存在手臂被遮挡等情况,有侵入性较强的问题。基于射频信号的方法往往使用现有的Wi-Fi设备和雷达设备,设备发出信号传到人体,通过接收人体反射回来的信号来采集手语信息,该方法的数据粒度粗,不够精确,而且对环境条件要求很高,往往只能识别动作幅度大且简单的手势。
发明内容
本发明的目的是提供一种基于注意力机制的端到端手语识别方法,旨在解决现有情况下听障人士与健全人交流难以有效识别的问题。
为了达到上述目的,本发明所采用的技术方案为:
一种基于注意力机制的端到端手语识别方法,包括以下步骤:
步骤1、获取手语者进行每句手语时对应的手语信号,所述手语信号包括手语者进行手语语句时手臂产生的sEMG信号和IMU信号;
步骤2、对步骤1采集得到的sEMG信号和IMU信号分别进行滤波处理;
步骤3、对步骤2滤波后的信号分别进行特征提取,得到sEMG信号维度的差值、IMU信号的欧拉角转换,其中sEMG信号维度的差值表达手指变换特征,IMU信号的欧拉角转换表达手臂运动特征;
步骤4、采用基于注意力机制的端到端神经网络模型,将步骤3提取得到的特征以及对应的手语信号的词标签,分别输入至所述基于注意力机制的端到端神经网络模型进行训练,得到手语识别模型;
步骤5、利用步骤4得到的手语识别模型处理重新获取的手语信号,进而对包含预定个数手语词组成的手语语句进行识别。
本发明通过利用具备IMU信号传感器和sEMG信号传感器的了穿戴传感器臂环来收集受试者日常交流手语对话的手语信号,手环佩戴在受试者的右手,对采集到的手语信号首先利用低通滤波器去除由于设备本身原因产生的高频噪声,在特征提取阶段,本发明对滤波后的手语信号利用sEMG信号维度差值来扩充特征维度并减少臂环佩戴位置偏差带来的影响、利用IMU信号欧拉角转换来表达手臂运动特征,将提取的手语信号特征值和对应的真实标签一起输入预设的基于注意力机制的端到端手语识别网络进行训练,最后,得到训练好的模型,从而解决听障人士与健全人交流障碍。
附图说明
图1是本发明实施例提供的一种基于注意力机制的端到端手语识别方法的流程示意图。
图2是本发明实施例提供的一种基于注意力机制的端到端手语识别方法的示意性概述框图。
图3是本发明实施例提供的一种基于注意力机制的端到端手语识别方法的基于注意力的端到端模型示意图。
图4是本发明实施例提供的一种基于注意力机制的端到端手语识别方法的特征融合结构图。
图5是本发明实施例提供的一种基于注意力机制的端到端手语识别方法的编码层结构图。
图6是本发明实施例提供的一种基于注意力机制的端到端手语识别方法的注意力层结构图。
图7是本发明实施例提供的一种基于注意力机制的端到端手语识别方法的解码层结构图。
图8是本发明实施例提供的一种基于注意力机制的端到端手语识别方法的受试者在测试的状态图。
图9是本发明实施例提供的一种基于注意力机制的端到端手语识别方法中手语词在国家语委现代汉语语料库中词频图。
图10是本发明实施例提供的一种基于注意力机制的端到端手语识别方法的实验结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例方法的示意流程图。如图1所示,该手语词的识别方法包括步骤S101~S105。
步骤S101:让多个受试者佩戴臂环,做日常交流手语对话,通过臂环采集每句手语对应的手语信号。通过蓝牙将收集的IMU信号和sEMG信号传送给电脑。
步骤S102:对手语信号进行滤波处理。
具体地,对步骤(1)中所采集的手语传感器信号进行低通滤波处理,以去除信号中因设备存在的高频噪声。低通滤波器在频域定义如下:
Figure BDA0003348548930000031
其中,n表示巴特沃斯滤波器的级数,ω为采集的传感器信号,ωc是截至频率,本发明中,臂环以Fs=200Hz的速度采集手语数据,在手语进行过程中,手部动作的运动频率不会超过f=20Hz,因此设置巴特沃斯滤波器的截止频率ωc为:
Figure BDA0003348548930000041
步骤S103:对滤波后的信号提取特征值包括:提取sEMG信号维度的差值和IMU信号的欧拉角转换。
具体地,本发明将通过所述可穿戴臂环采集的sEMG信号的每两个维度进行差值并提取每个维度的能量信号,来描述手指的运动;将对采集的IMU信号转化为对应的欧拉角,来描述手臂的运动过程。
接下来介绍本发明对所述sEMG信号每两个维度差值的计算方法,设sEMG数据中第i维信号Si=(s1,i,s2,i,…,sT,i)和第j维信号Sj=(s1,j,s2,j,…,sT,j)(1≤i<j≤8)的差值。
其中,T表示每条语句sEMG信号的采样个数,这里取值为3200,sk,i(1≤k≤T)表示第i维信号的第k个采样值,差值Diffi,j表达式如下:
Diffi,j=Si-Sj
然后介绍本发明对所述IMU信号转欧拉角的计算方法,设IMU数据中的四元数(高阶虚数)为Q,具体表示如下:
Q=q0+q1i+q2j+q3k
四元数Q转化为欧拉角的具体公式如下:
Figure BDA0003348548930000042
其中,α表示章动角,β表示进动角,γ表示自动角,q0表示四元数的实部,q1、q2和q3分别表示虚部i、j和k的系数。
步骤S104:搭建基于注意力机制的端到端模型神经网络,并将所述特征值和对应的手语标签输入至预设神经网络,通过训练得到手语识别模型。
具体地,如图3所示,为基于注意力机制的端到端深度学习网络的整体框架。
首先,本发明将提取的手语传感器信号特征作为模型输入送入到特征融合网络,用以融合IMU信号和sEMG信号,如图4所示,融合网络由CNN和LSTM为基础组成,CNN提取模型输入的空间特征,LSTM提取模型输入的时间特征,将sEMG信号特征和IMU信号特征按照网络学习的权重进行融合,具体表示如下:
M=w1I+w2S,
其中,w1和w2分别是IMU信号和sEMG信号对应的权重,由网络训练得出,I为IMU信号的特征,S为sEMG信号对应的特征。
然后,将融合好的特征送入到以LSTM为基础的编码层,如图5所示,编码层由LSTM为基础组成。
接着,编码层的输出送入注意力层,注意力层提取编码特征的上下文特征,如图6所示,注意力层由CNN为基础组成。
最后,将编码层和注意力层(提供上下文信息)的输出同时送到解码层,如图7所示,解码层由词嵌入层和LSTM组成,最后输出预测结果。
注意力机制的端到端手语识别模型的优化函数为:
Figure BDA0003348548930000051
其中,y为手语对应的真实标签,
Figure BDA0003348548930000052
为模型的预测标签,θ为所述模型的权重参数,α为损失权重,
Figure BDA0003348548930000053
为交叉熵损失函数,
Figure BDA0003348548930000054
为对比损失函数。
所述交叉熵损失函数
Figure BDA0003348548930000055
的表达式为:
Figure BDA0003348548930000056
真实手语标签y使用对应位置手语词标签表示为:
y=(x1,x2,…,xN),
其中,N为手语对应的标签长度,xi为第i个位置上对应的手语词标签,p(xi)为第i个位置上真实手语词标签,q(xi)为第i个位置上模型预测为当前手语词标签的概率。
所述对比损失函数
Figure BDA0003348548930000061
的表达式为:
Figure BDA0003348548930000062
其中,B为预测标签总数,Z为标签类别个数,
Figure BDA0003348548930000063
表示预测标签
Figure BDA0003348548930000064
属于第u类,
Figure BDA0003348548930000065
表示预测标签
Figure BDA0003348548930000066
属于第u类,
Figure BDA0003348548930000067
表示预测标签
Figure BDA0003348548930000068
属于第m类。
在所述基于注意力机制的端到端手语识别模型训练之前,需要将所述可穿戴传感器臂环采集到受试者日常手语交流的手语信号数据进行清理,包括:对手语标签进行错误纠正,即纠正在收集过程中认为打错的标签;去除掉受环境干扰影响较大数据。随后,按照6:2:2的方式将数据集分成训练集、验证集和测试集。将训练数据送入的预设的基于注意力机制的端到端手语识别模型,按照本发明所设定的训练次数,对模型进行训练,最终得到训练好的模型。最后,将测试集送到训练好的手语识别模型,根据所述语句正确率方法计算模型的正确率,具体的表示如下:
Figure BDA0003348548930000069
其中,N为手语对应的标签长度,D为删除手语词个数,S为替换手语词个数,I为插入手语词个数。
步骤S105:通过所述手语识别模型对所述手语进行识别,进而对包含预定个数手语词组成的手语语句进行识别。
具体的,本发明通过可穿戴传感器臂环收集受试者日常交流手语对话产生的手语信号,臂环戴在受试者的右手,通过低通滤波将因传感器本身产生的高频噪声去除,然后,提取IMU信号和sEMG信号的特征并送入预设的基于注意力的端到端手语识别模型进行训练,从而解决听障人士与健全人交流的障碍。
本实施例有健全人(7人)和特教中心的老师(4人)、听障人士(14人),年龄在16岁到40岁之间。在实验开始前对健全学生进行手语培训,以及臂环的使用方法和佩戴方式。在实验过程中,受试者将臂环戴在右手上,手臂放松自然下垂,并在测试机前做手语,如图8所示。
根据前文所述,本实施例采集到受试者日常交流下723条手语语句对应的手语信号,共计1176个手语词。将这些数据按照所述切分方式分成训练集、验证集和测试集,然后将手语数据进行低通滤波,提取特征后送至预设的基于注意力机制的端到端手语识别网络中进行训练。本实验使用来自合肥特教中心另外8名听障学生的日常交流对话作为测试样本,使用所述的语句正确率来说明识别效果,图9展示本发明中1176个手语词在国家语委现代汉语语料库中的词频,红色横线表示常用汉语词的词频,可以看出本发明中的所选词为日常交流的常用词,实验测试结果如图10所示,横轴为8名受试听障学生编号,纵轴为每个人的测试准确率,可以看到平均准确率在85%以上,说明本方法的可行性。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (1)

1.一种基于注意力机制的端到端手语识别方法,其特征在于,包括以下步骤:
步骤1、获取手语者进行每句手语时对应的手语信号,所述手语信号包括手语者进行手语语句时手臂产生的sEMG信号和IMU信号;
步骤2、对步骤1采集得到的sEMG信号和IMU信号分别进行滤波处理;
步骤3、对步骤2滤波后的信号分别进行特征提取,得到sEMG信号维度的差值、IMU信号的欧拉角转换,其中sEMG信号维度的差值表达手指变换特征,IMU信号的欧拉角转换表达手臂运动特征;
步骤4、采用基于注意力机制的端到端神经网络模型,将步骤3提取得到的特征以及对应的手语信号的词标签,分别输入至所述基于注意力机制的端到端神经网络模型进行训练,得到手语识别模型;
步骤5、利用步骤4得到的手语识别模型处理重新获取的手语信号,进而对包含预定个数手语词组成的手语语句进行识别;
步骤1中,采用可穿戴传感器采集获取手语者进行手语时手臂产生的手语信号,所述可穿戴传感器包括sEMG传感器和IMU传感器;
步骤2中进行低通滤波处理,所使用的低通滤波器Hn(ω)的表达式为:
Figure FDA0003806701470000011
其中,n表示低通滤波器的级数,ω为采集的传感器信号,ωc为截断频率;
步骤3中,从sEMG信号提取得到的特征值包括第i维sEMG信号Si=(s1,i,s2,i,…,sT,i)和第j维sEMG信号Sj=(s1,j,s2,j,…,sT,j)的差值Diffi,j,Diffi,j的表达式如下:
Diffi,j=Si-Sj
其中,T表示每条手语语句sEMG信号的采样个数,这里取值为3200,1≤i<j≤8,Diffi,j为sEMG信号维度的差值;
步骤3中,从sEMG信号提取得到的特征值还包括sEMG信号常用特征值,所述sEMG信号常用特征值包括手语信号数据的过零率、过均值率、最大值、最小值、标准差、偏度和峰度;
步骤3中,从IMU信号提取得到的特征值包括IMU信号中的四元数Q=q0+q1i+q2j+q3k转化为对应的欧拉角,转换表达式如下:
Figure FDA0003806701470000021
其中,α表示章动角,β表示进动角,γ表示自动角,q0表示四元数的实部,q1、q2和q3分别表示虚部i、j和k的系数;
步骤4中,基于注意力机制的端到端神经网络模型包括特征融合层、编码层、注意力层和解码层,其中:
所述特征融合层由CNN和LSTM为基础组成,CNN提取空间特征,LSTM提取时间特征,最后将sEMG信号和IMU信号按照对应权重进行融合并输出到编码层,所述权重由网络层训练得出,融合表达式如下:
M=w1I+w2S,
其中,w1和w2分别是IMU信号和sEMG信号对应的权重,由网络训练得出,I为步骤3中提取的IMU信号的特征,S为步骤3中提取的sEMG信号对应的特征;
所述编码层和解码层均由LSTM为基础组成,解码层是比编码层多一层标签的嵌入网络;所述注意力层由CNN为基础组成,用以提取上下文信息;
所述基于注意力机制的端到端神经网络模型的优化函数为:
Figure FDA0003806701470000022
其中,y为手语对应的真实标签,
Figure FDA0003806701470000023
为模型的预测标签,θ为所述模型的权重参数,α为损失权重,
Figure FDA0003806701470000024
为交叉熵损失函数,
Figure FDA0003806701470000025
为对比损失函数;
所述基于注意力机制的端到端神经网络模型中,采用的交叉熵损失函数表达式如下:
Figure FDA0003806701470000031
真实手语标签y使用对应位置手语词标签表示为:
y=(x1,x2,…,xN)
其中,N为手语对应的标签长度,xi为第i个位置上对应的手语词标签,p(xi)为第i个位置上真实手语词标签,q(xi)为第i个位置上模型预测为当前手语词标签的概率;
所述基于注意力机制的端到端神经网络模型中,采用的对比损失函数
Figure FDA0003806701470000032
的表达式为:
Figure FDA0003806701470000033
其中,B为预测标签总数,Z为标签类别个数,
Figure FDA0003806701470000034
表示预测标签
Figure FDA0003806701470000035
属于第u类,
Figure FDA0003806701470000036
表示预测标签
Figure FDA0003806701470000037
属于第u类,
Figure FDA0003806701470000038
表示预测标签
Figure FDA0003806701470000039
属于第m类;
步骤4中进行训练时,使用所述基于注意力机制的端到端神经网络模型对所述手语信号的特征值和所述手语信号对应的标签进行训练,使用特征数据的预设百分比作为训练数据,剩下的特征数据作为测试数据,训练之前进行评估设定,依照预设训练次数对所述基于注意力机制的端到端神经网络模型进行训练,最终得到训练好的模型作为所述手语识别模型;
所述评估设定时,在训练之前对输入的训练数据进行标注和清理,包括:对手语标签进行错误纠正,即纠正在收集过程中认为打错的标签;清理数据集当中受环境干扰影响较大的数据;设定手语预测准确率指标;
所述手语预测评估准确率指标定义如下:
Figure FDA00038067014700000310
其中,N为手语对应的标签长度,D为删除手语词个数,S为替换手语词个数,I为插入手语词个数。
CN202111330301.7A 2021-11-11 2021-11-11 一种基于注意力机制的端到端手语识别方法 Active CN114115531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111330301.7A CN114115531B (zh) 2021-11-11 2021-11-11 一种基于注意力机制的端到端手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111330301.7A CN114115531B (zh) 2021-11-11 2021-11-11 一种基于注意力机制的端到端手语识别方法

Publications (2)

Publication Number Publication Date
CN114115531A CN114115531A (zh) 2022-03-01
CN114115531B true CN114115531B (zh) 2022-09-30

Family

ID=80378302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111330301.7A Active CN114115531B (zh) 2021-11-11 2021-11-11 一种基于注意力机制的端到端手语识别方法

Country Status (1)

Country Link
CN (1) CN114115531B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975573A (zh) * 2024-03-29 2024-05-03 华南理工大学 基于CNN-Transformer混合模型的手语翻译方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537024A (zh) * 2021-07-08 2021-10-22 天津理工大学 多层时序注意力融合机制的弱监督神经网络手语识别方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738122B2 (en) * 2009-08-21 2014-05-27 The Chinese University Of Hong Kong Systems and methods for reproducing body motions via networks
CN104134060B (zh) * 2014-08-03 2018-01-05 上海威璞电子科技有限公司 基于肌电信号和运动传感器的手语翻译和显示发声系统
US9612661B2 (en) * 2015-01-02 2017-04-04 Wearable Devices Ltd. Closed loop feedback interface for wearable devices
US9720515B2 (en) * 2015-01-02 2017-08-01 Wearable Devices Ltd. Method and apparatus for a gesture controlled interface for wearable devices
CN105326501B (zh) * 2015-12-10 2021-02-12 宁波工程学院 基于多通道sEMG的肌肉状态评估方法
WO2017131318A1 (ko) * 2016-01-27 2017-08-03 연세대학교 원주산학협력단 수화 인식 시스템 및 방법
CN106890038A (zh) * 2017-03-21 2017-06-27 上海师范大学 基于myo臂环的假肢手控制系统及其控制方法
KR101930942B1 (ko) * 2017-08-30 2018-12-19 연세대학교 원주산학협력단 수화 인식 시스템 및 방법
US11493993B2 (en) * 2019-09-04 2022-11-08 Meta Platforms Technologies, Llc Systems, methods, and interfaces for performing inputs based on neuromuscular control
CN109766559B (zh) * 2019-01-11 2023-09-05 沈阳舞指科技有限公司 一种手语识别翻译系统及其识别方法
CN109846487B (zh) * 2019-02-26 2021-12-31 浙江理工大学 基于MIMU/sEMG融合的大腿运动姿态测量方法和装置
CN111046731B (zh) * 2019-11-11 2023-07-25 中国科学院计算技术研究所 基于表面肌电信号进行手势识别的迁移学习方法和识别方法
CN111913575B (zh) * 2020-07-24 2021-06-11 合肥工业大学 一种手语词的识别方法
CN111914724B (zh) * 2020-07-27 2023-10-27 合肥工业大学 基于滑动窗口分割的连续中国手语识别方法及其系统
CN112603758A (zh) * 2020-12-21 2021-04-06 上海交通大学宁波人工智能研究院 一种基于sEMG与IMU信息融合的手势识别方法
CN113609923B (zh) * 2021-07-13 2022-05-13 中国矿业大学 基于注意力的连续手语语句识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537024A (zh) * 2021-07-08 2021-10-22 天津理工大学 多层时序注意力融合机制的弱监督神经网络手语识别方法

Also Published As

Publication number Publication date
CN114115531A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
CN108227903B (zh) 一种虚拟现实语言交互系统与方法
CN111103976B (zh) 手势识别方法、装置及电子设备
CN110286774B (zh) 一种基于手腕运动传感器的手语识别方法
Batnasan et al. ArSL21L: Arabic sign language letter dataset benchmarking and an educational avatar for metaverse applications
CN113158727A (zh) 一种基于视频和语音信息的双模态融合情绪识别方法
CN111091044B (zh) 一种面向网约车的车内危险场景识别方法
Shinde et al. Real time two way communication approach for hearing impaired and dumb person based on image processing
CN114115531B (zh) 一种基于注意力机制的端到端手语识别方法
CN108510988A (zh) 一种用于聋哑人的语言识别系统及方法
Ariesta et al. Sentence level Indonesian sign language recognition using 3D convolutional neural network and bidirectional recurrent neural network
CN111723779A (zh) 一种基于深度学习的中文手语识别系统
CN111860117A (zh) 一种基于深度学习的人体行为识别方法
CN111913575B (zh) 一种手语词的识别方法
Varsha et al. Indian sign language gesture recognition using deep convolutional neural network
Punsara et al. IoT Based Sign Language Recognition System
CN111914724B (zh) 基于滑动窗口分割的连续中国手语识别方法及其系统
CN110413106B (zh) 一种基于语音和手势的增强现实输入方法及系统
Sridevi et al. Sign Language recognition for Speech and Hearing Impaired by Image processing in matlab
Rafiq et al. Real-time vision-based bangla sign language detection using convolutional neural network
CN110738985A (zh) 基于语音信号的跨模态生物特征识别方法及系统
CN109389994A (zh) 用于智能交通系统的声源识别方法及装置
CN112906498A (zh) 手语动作的识别方法及装置
CN115223214A (zh) 合成嘴型人脸的识别方法、模型获取方法、装置和设备
Vanjikumaran et al. An automated vision based recognition system for Sri Lankan Tamil sign language finger spelling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant