CN111354246A - 一种用于帮助聋哑人交流的系统及方法 - Google Patents
一种用于帮助聋哑人交流的系统及方法 Download PDFInfo
- Publication number
- CN111354246A CN111354246A CN202010044813.6A CN202010044813A CN111354246A CN 111354246 A CN111354246 A CN 111354246A CN 202010044813 A CN202010044813 A CN 202010044813A CN 111354246 A CN111354246 A CN 111354246A
- Authority
- CN
- China
- Prior art keywords
- text
- deaf
- mute
- communication
- sign language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
一种用于聋哑人交流的系统,包括云计算机和智能终端,所述云计算机中存储着众多训练完成的神经网络模型,还有文本语音转换框架,并且承担着交流过程中的复杂计算;所述智能终端由处理器、摄像头、麦克风、语音模块、通信模块、显示屏组成,工作模式包括聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式。以及提供一种用于聋哑人交流的方法。本发明以智能终端设备为载体,基于深度学习技术,实现健全人与聋哑人、聋哑人与聋哑人之间互相交流。
Description
技术领域
本发明涉及人工智能领域,使用机器解析技术,将健全人的语音信息解析为手语或是将聋哑人的手语解析为语音,以及将使用不同手语的聋哑人的手语解析为相应的使用者的手语,从而帮助以上两种情况的人之间的无障碍交流。
背景技术
聋哑人就是通常所说的出生后或处于幼儿时期便有严重耳聋,不能听到周围事物发出的声音,或因耳聋而重新丧失说话能力者。
聋哑人在与(听、说功能正常的)健全人交流的时候存在听、说障碍,所以手语成为他们接收或传达信息的重要方式之一,但是因其独特性只有极少数健全人掌握手语,当聋哑人利用手语与外界进行交流的时候就会有一定的局限性。而且世界上的不同国家及地区会有不同的手语标准,所以这样会造成聋哑人与聋哑人之间无法正常交流。
目前用于解决聋哑人与外界交流的问题,主要还是由聋哑人佩戴相关的专业设备,比如基于数据手套的手语识别方法需要手语使用者佩戴相应的电子手套,利用传感器等跟踪手指关节等信息进行分析,识别准确率不高,而且这种手套的佩戴方式复杂,并不能很好地推广到所有的聋哑人群中。
发明内容
针对现有技术的不足,本发明提供了一种用于聋哑人交流的系统及方法,以智能终端设备为载体,基于深度学习技术,实现健全人与聋哑人、聋哑人与聋哑人之间互相交流。
为了实现上述目的,本发明提供如下的技术方案:
一种用于聋哑人交流的系统,包括云计算机和智能终端,所述云计算机中存储着众多训练完成的神经网络模型,还有文本语音转换框架,并且承担着交流过程中的复杂计算;
所述智能终端由处理器、摄像头、麦克风、语音模块、通信模块、显示屏组成,所述处理器连接摄像头、麦克风和显示屏,所述摄像头用于采集聋哑人的手语视频,所述麦克风用于采集健全人的语音,所述语音模块用于播放手语识别的结果,所述通信模块用于将智能终端采集的视频或语音上传至云计算机以及接收云计算机发送回智能终端的文本、语音和动画,所述显示屏用于手语动画的播放及文本的显示,还用于提示用户选择工作模式,所述工作模式包括聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式。
一种用于聋哑人交流的方法,采用所述的聋哑人交流系统,所述方法适用于聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式,又可以将其细分为A、B、C三种交流模式,模式A为聋哑人与健全人交流,聋哑人作为表述者,健全人作为倾听者;模式B为聋哑人与健全人交流,健全人作为表述者,聋哑人作为倾听者;模式C为聋哑人与聋哑人交流,聋哑人作为表述者,聋哑人作为倾听者;
所述模式A的步骤如下:
A-1智能终端的摄像头捕获到聋哑人手语视频,通过通信模块将视频数据上传至云计算机;
A-2对步骤A-1中所述手语视频数据进行预处理得到特征数据;
A-3把步骤A-2中得到的特征数据输入手语识别模型得到手语的文本表示,称为源文本;
A-4利用文本解析模型将源文本解析为目标文本,源文本为表述者所使用的语言文本,目标文本为倾听者所使用的语言文本,将目标文本发送至智能终端,并将其在显示屏上展示给健全人;
A-5健全人选择是否播放语音,选择是则执行下一步骤,选择否则不执行下一步骤;
A-6利用文本语音转换框架将目标文本转换为目标语音,将目标语音发送给智能终端,语音模块播放手语对应的语音。
所述模式B的步骤如下:
B-1利用智能终端的麦克风采集表述者的语音数据,将语音数据上传至云计算机;
B-2根据语音数据利用语音识别模型得到语音的文本表示,称为源文本;
B-3利用文本解析模型将源文本解析为目标文本,源文本为表述者所使用的语言文本,目标文本为倾听者所使用的语言文本,将目标文本发送至智能终端,并将其在显示屏上展示给聋哑人;
B-4聋哑人选择是否展示手语动画,选择是则执行下一步骤,选择否则不执行下一步骤;
B-5关键点驱动动画生成,将动画在显示屏展示给聋哑人。
所述模式C的步骤如下:
C-1智能终端的摄像头捕获到聋哑人表述者手语视频,通过通信模块将视频数据上传至云计算机;
C-2对步骤C-1中所述手语视频数据进行预处理得到特征数据;
C-3把步骤C-2中得到的特征数据输入手语识别模型得到手语的文本表示,称为源文本;
C-4利用文本解析模型将源文本解析为目标文本,源文本为表述者所使用的语言文本,目标文本为倾听者所使用的语言文本,将目标文本发送至智能终端,并将其在显示屏上展示给聋哑人倾听者;
C-5聋哑人倾听者选择是否展示手语动画,选择是则执行下一步骤,选择否则不执行下一步骤;
C-6关键点驱动动画生成,将动画在显示屏展示给聋哑人倾听者。
进一步,所述步骤A-2和C-2中,数据预处理指利用OpenPose开源框架获取手语视频的关键点数据。
优选的,所述OpenPose是基于深度学习的姿势估计开源框架,将采集的视频数据输入到OpenPose框架中,从视频的每一帧图像获得130个关键点信息,每个关键点包括X轴坐标和Y轴坐标以及置信度的三维特征数据,然后进行数据预处理,抽取出关于手臂、肩膀、手相关的52个关键点,得到最终的特征数据。
再进一步,所述步骤A-3和C-3中,将步骤A-2和C-2中得到的坐标关键点数据输入RNN循环神经网络中进行手语识别,这里所使用的序列神经网络是基于三个叠加的LSTM(Long Short-Term Memory Network,长短期记忆网络)实现,一个基本的LSTM结构由一个cell单元和三个门组成,三个门分别为输入门i、输出门o和遗忘门g,基本LSTM的前向计算如下式所示:
ft=σg(Wfxt+Ufht-1+bf)
it=σg(Wixt+Uiht-1+bi)
ot=σg(Woxt+Uoht-1+bo)
ct=ft ct-1+itσc(Wcxt+Ucht-1+bc)
ht=otσg(ct)
其中,运算定义为Hadamard乘积,t代表时间步。c0和h0值为0。xt∈Rd为LSTM的输入向量,ft∈Rh为遗忘门激活向量,it∈Rh为输入门的激活向量,ot∈Rh为输出门的激活向量,ht∈Rh为隐状态向量,也是LSTM的输出变量。ct∈Rh为cell状态向量,W∈Rh×d,U∈Rh×h和b∈Rh分别为权重参数和偏置向量参数。d和h分别为输入特征的数量和隐藏单元的数量,σg为Sigmoid函数,如下式所示:
σc和σh为双曲正切函数,如下式所示:
其中,x为函数输入,e为自然对底数;
将得到的特征数据输入到序列神经网络,序列神经网络由三个LSTM堆叠组成,其中输入为从两个cell数量为128的LSTM层开始,然后输入一个cell数量为64的LSTM层,最后接上一个全连接层,输出层使用softmax函数;
Softmax函数σ(z)如下式所示:
其中,z为一K维向量,e为自然对底数,输出层输出关键点序列的类别预测概率,利用argmax函数把类别预测向量转换为预测文本,从而生成了手语的文本表示。
更进一步,所述步骤A-4和C-4中,为了实现将源文本解析为目标文本,采用Seq2Seq(Sequence to Sequence,序列到序列)模型结构,使用经典的RNN Encoder-Decoder模型,其中采用LSTM作为RNN cell,将输入序列X进行编码得到向量C,然后对C进行解码得到输出序列Y;
其中,X、Y均由各自的单词序列组成:
其中计算公式为:
Encoder部分:
Decoder部分:
h<0>=tanh(V′c)
h<t>=f(h<t-1>,y<t-1>,c),t=1,…,Tx
P(y<t>|y<t-1>,y<t-2>,…,y<1>,c)=g(h<t>,y<t-1>,c)
其中,h<t>是输出LSTM中的隐藏层,c代表语义向量,y<t-1>代表上个时刻的输出,g函数表示softmax函数用来得到概率分布结果。
所述步骤B-2中所使用模型结构为cFSMN-CTC(Compact Feed-forwardSequential Memory Network-Connectionist Temporal Classification,简洁前馈性序列记忆网络-联结时序分类器),其中包括序列模块cFSMN和解译模块CTC;
序列模块cFSMN是基于FSMN网络结构组成的,而FSMN结构与普通的前馈神经网络类似同样拥有输入层、隐藏层、输出层,与之不同的是引入了Memory Block(记忆块),Memory Block的公式如下:
而Memory Block中存储了N个的“过去记忆”,该“过去记忆”会与当前层的特征一起前向传入下一层,Memory Block也通过引入部分延时来存储“未来的记忆”来更好地理解句子的意思,此时公式为:
对于cFSMN是通过在FSMN网络的隐层后添加一个低维度的线性投影层,并且将记忆模块添加在这些线性投影层上。
cFSMN记忆模块的公式表达为:
序列模块接受来自步骤B-1的语音序列,并预测特征序列中每一帧的标签分布;解译模块是基于CTC来实现的,解译是将序列模块输出的每帧类别预测转换为标签文字序列的过程,在网络训练阶段,CTC被当作损失函数使用,避免了训练数据的额外对齐处理,以实现端到端的训练;
CTC损失函数L如下式所示:
L(S)=-lnΠ(x,z)∈S p(z|x)=-∑(x,z)∈S ln(z|x)
其中,p(z|x)代表给定输入x,输出序列z的概率,S为训练集;
在使用阶段,CTC将直接输出文本序列的识别结果,识别出的文字被送至步骤B-3。
所述步骤B-3与步骤A-4中文本解析的方法是一样的,但是两个模型是不一样的,因此需要训练多个模型,这样会造成两个问题,第一会增加训练模型的成本,第二会增加云计算机的存储压力,为了解决上述两个问题,提出了“中间语”这个概念。
“中间语”起到了两种不同语言之间的桥梁关系,当有N种语言文本需要互译的时候,先将一种语言解析为中间语,再将中间语解析为另一种语言,这样N种语言互译只需要训练2N个模型,大大减少训练模型的成本;由于英语作为世界上使用国家最多的语言,本发明中选定英语作为中间语。
所述步骤B-5和C-6中,接受步骤B-3和C-4输入的自然语言文本句子,分割成一个个基本词,每个手语词的运动数据由若干个关键帧数据组成,将基本词与其对应的2D骨骼关键点坐标相匹配,然后利用关键点驱动骨骼动画的生成,并在显示屏上同时显示骨骼动画和语言文本。
本发明的有益效果为:采用本发明中的一种帮助聋哑人交流的系统及方法,能够解决聋哑人与健全人以及聋哑人与聋哑人的交流障碍,可以更好地帮助聋哑人融入社会;本发明以智能终端(智能手机、平板电脑等)为载体,将运算量大的计算工作放在了云端,大大地降低了系统的实际使用功耗。
附图说明
图1是交流模式A的流程示意图。
图2是交流模式B的流程示意图。
图3是交流模式C的流程示意图。
图4是手语识别模型结构示意图。
图5是Encoder-Decoder的结构示意图。
图6是FSMN网络结构示意图。
图7是cFSMN网络结构示意图。
图8是骨骼动画的关键帧图片。
具体实施方式
下面结合附图对本发明做进一步的说明。
参照图1~图8,一种用于聋哑人交流的系统,包括云计算机和智能终端,所述云计算机中存储着众多训练完成的神经网络模型,还有文本语音转换框架,并且承担着交流过程中的复杂计算;
所述智能终端由处理器、摄像头、麦克风、语音模块、通信模块、显示屏组成,所述处理器连接摄像头、麦克风和显示屏,所述摄像头用于采集聋哑人的手语视频,所述麦克风用于采集健全人的语音,所述语音模块用于播放手语识别的结果,所述通信模块用于将智能终端采集的视频或语音上传至云计算机以及接收云计算机发送回智能终端的文本、语音和动画,所述显示屏用于手语动画的播放及文本的显示,还用于提示用户选择工作模式,所述工作模式包括聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式。
一种用于聋哑人交流的方法,采用所述的聋哑人交流系统,所述方法适用于聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式,又可以将其细分为A、B、C三种交流模式,模式A为聋哑人与健全人交流,聋哑人作为表述者,健全人作为倾听者;模式B为聋哑人与健全人交流,健全人作为表述者,聋哑人作为倾听者;模式C为聋哑人与聋哑人交流,聋哑人作为表述者,聋哑人作为倾听者;
所述模式A的步骤如下:
A-1智能终端的摄像头捕获到聋哑人手语视频,通过通信模块将视频数据上传至云计算机;
A-2对步骤A-1中所述手语视频数据进行预处理得到特征数据;
A-3把步骤A-2中得到的特征数据输入手语识别模型得到手语的文本表示,称为源文本;
A-4利用文本解析模型将源文本解析为目标文本,源文本为表述者所使用的语言文本,目标文本为倾听者所使用的语言文本,将目标文本发送至智能终端,并将其在显示屏上展示给健全人;
A-5健全人选择是否播放语音,选择是则执行下一步骤,选择否则不执行下一步骤;
A-6利用文本语音转换框架将目标文本转换为目标语音,将目标语音发送给智能终端,语音模块播放手语对应的语音。
所述模式B的步骤如下:
B-1利用智能终端的麦克风采集表述者的语音数据,将语音数据上传至云计算机;
B-2根据语音数据利用语音识别模型得到语音的文本表示,称为源文本;
B-3利用文本解析模型将源文本解析为目标文本,源文本为表述者所使用的语言文本,目标文本为倾听者所使用的语言文本,将目标文本发送至智能终端,并将其在显示屏上展示给聋哑人;
B-4聋哑人选择是否展示手语动画,选择是则执行下一步骤,选择否则不执行下一步骤;
B-5关键点驱动动画生成,将动画在显示屏展示给聋哑人。
所述模式C的步骤如下:
C-1智能终端的摄像头捕获到聋哑人表述者手语视频,通过通信模块将视频数据上传至云计算机;
C-2对步骤C-1中所述手语视频数据进行预处理得到特征数据;
C-3把步骤C-2中得到的特征数据输入手语识别模型得到手语的文本表示,称为源文本;
C-4利用文本解析模型将源文本解析为目标文本,源文本为表述者所使用的语言文本,目标文本为倾听者所使用的语言文本,将目标文本发送至智能终端,并将其在显示屏上展示给聋哑人倾听者;
C-5聋哑人倾听者选择是否展示手语动画,选择是则执行下一步骤,选择否则不执行下一步骤;
C-6关键点驱动动画生成,将动画在显示屏展示给聋哑人倾听者。
进一步,所述步骤A-2和C-2中,数据预处理指利用OpenPose开源框架获取手语视频的关键点数据。
优选的,所述OpenPose是基于深度学习的姿势估计开源框架,将采集的视频数据输入到OpenPose框架中,从视频的每一帧图像获得130个关键点信息,每个关键点包括X轴坐标和Y轴坐标以及置信度的三维特征数据,然后进行数据预处理,抽取出关于手臂、肩膀、手相关的52个关键点,得到最终的特征数据。
再进一步,所述步骤A-3和C-3中,将步骤A-2和C-2中得到的坐标关键点数据输入RNN循环神经网络中进行手语识别,这里所使用的序列神经网络是基于三个叠加的LSTM(Long Short-Term Memory Network,长短期记忆网络)实现,一个基本的LSTM结构由一个cell单元和三个门组成,三个门分别为输入门i、输出门o和遗忘门g,基本LSTM的前向计算如下式所示:
ft=σg(Wfxt+Ufht-1+bf)
it=σg(Wixt+Uiht-1+bi)
ot=σg(Woxt+Uoht-1+bo)
ct=ft ct-1+itσc(Wcxt+Ucht-1+bc)
ht=otσg(ct)
其中,运算定义为Hadamard乘积,t代表时间步。c0和h0值为0。xt∈Rd为LSTM的输入向量,ft∈Rh为遗忘门激活向量,it∈Rh为输入门的激活向量,ot∈Rh为输出门的激活向量,ht∈Rh为隐状态向量,也是LSTM的输出变量。ct∈Rh为cell状态向量,W∈Rh×d,U∈Rh×h和b∈Rh分别为权重参数和偏置向量参数。d和h分别为输入特征的数量和隐藏单元的数量,σg为Sigmoid函数,如下式所示:
σc和σh为双曲正切函数,如下式所示:
其中,x为函数输入,e为自然对底数;
将得到的特征数据输入到序列神经网络,序列神经网络由三个LSTM堆叠组成,其中输入为从两个cell数量为128的LSTM层开始,然后输入一个cell数量为64的LSTM层,最后接上一个全连接层,输出层使用softmax函数;
Softmax函数σ(z)如下式所示:
其中,z为一K维向量,e为自然对底数,输出层输出关键点序列的类别预测概率,利用argmax函数把类别预测向量转换为预测文本,从而生成了手语的文本表示。
更进一步,所述步骤A-4和C-4中,为了实现将源文本解析为目标文本,采用Seq2Seq(Sequence to Sequence,序列到序列)模型结构,使用经典的RNN Encoder-Decoder模型,其中采用LSTM作为RNN cell,将输入序列X进行编码得到向量C,然后对C进行解码得到输出序列Y;
其中,X、Y均由各自的单词序列组成:
其中计算公式为:
Encoder部分:
Decoder部分:
h<0>=tanh(V′c)
h<t>=f(h<t-1>,y<t-1>,c),t=1,...,Tx
P(y<t>|y<t-1>,y<t-2>,...,y<1>,c)=g(h<t>,y<t-1>,c)
其中,h<t>是输出LSTM中的隐藏层,c代表语义向量,y<t-1>代表上个时刻的输出,g函数表示softmax函数用来得到概率分布结果。
所述步骤B-2中所使用模型结构为cFSMN-CTC(Compact Feed-forwardSequential Memory Network-Connectionist Temporal Classification,简洁前馈性序列记忆网络-联结时序分类器),其中包括序列模块cFSMN和解译模块CTC;
序列模块cFSMN是基于FSMN网络结构组成的,而FSMN结构与普通的前馈神经网络类似同样拥有输入层、隐藏层、输出层,与之不同的是引入了Memory Block(记忆块),Memory Block的公式如下:
而Memory Block中存储了N个的“过去记忆”,该“过去记忆”会与当前层的特征一起前向传入下一层,Memory Block也通过引入部分延时来存储“未来的记忆”来更好地理解句子的意思,此时公式为:
对于cFSMN是通过在FSMN网络的隐层后添加一个低维度的线性投影层,并且将记忆模块添加在这些线性投影层上。
cFSMN记忆模块的公式表达为:
序列模块接受来自步骤B-1的语音序列,并预测特征序列中每一帧的标签分布;解译模块是基于CTC来实现的,解译是将序列模块输出的每帧类别预测转换为标签文字序列的过程,在网络训练阶段,CTC被当作损失函数使用,避免了训练数据的额外对齐处理,以实现端到端的训练;
CTC损失函数l如下式所示:
L(S)=-lnΠ(x,z)∈S p(z|x)=-∑(x,z)∈S ln(z|x)
其中,p(z|x)代表给定输入x,输出序列z的概率,S为训练集;
在使用阶段,CTC将直接输出文本序列的识别结果,识别出的文字被送至步骤B-3。
所述步骤B-3与步骤A-4中文本解析的方法是一样的,但是两个模型是不一样的,因此需要训练多个模型,这样会造成两个问题,第一会增加训练模型的成本,第二会增加云计算机的存储压力,为了解决上述两个问题,提出了“中间语”这个概念。
“中间语”起到了两种不同语言之间的桥梁关系,当有N种语言文本需要互译的时候,先将一种语言解析为中间语,再将中间语解析为另一种语言,这样N种语言互译只需要训练2N个模型,大大减少训练模型的成本;由于英语作为世界上使用国家最多的语言,本发明中选定英语作为中间语。
所述步骤B-5和C-6中,接受步骤B-3和C-4输入的自然语言文本句子,分割成一个个基本词,每个手语词的运动数据由若干个关键帧数据组成,将基本词与其对应的2D骨骼关键点坐标相匹配,然后利用关键点驱动骨骼动画的生成,并在显示屏上同时显示骨骼动画和语言文本。
Claims (9)
1.一种用于聋哑人交流的系统,其特征在于,包括云计算机和智能终端,所述云计算机中存储着众多训练完成的神经网络模型,还有文本语音转换框架,并且承担着交流过程中的复杂计算;
所述智能终端由处理器、摄像头、麦克风、语音模块、通信模块、显示屏组成,所述处理器连接摄像头、麦克风和显示屏,所述摄像头用于采集聋哑人的手语视频,所述麦克风用于采集健全人的语音,所述语音模块用于播放手语识别的结果,所述通信模块用于将智能终端采集的视频或语音上传至云计算机以及接收云计算机发送回智能终端的文本、语音和动画,所述显示屏用于手语动画的播放及文本的显示,还用于提示用户选择工作模式,所述工作模式包括聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式。
2.一种如权利要求1所述的用于聋哑人交流的系统实现的方法,其特征在于,采用所述的聋哑人交流系统,所述方法适用于聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式,又可以将其细分为A、B、C三种交流模式,模式A为聋哑人与健全人交流,聋哑人作为表述者,健全人作为倾听者;模式B为聋哑人与健全人交流,健全人作为表述者,聋哑人作为倾听者;模式C为聋哑人与聋哑人交流,聋哑人作为表述者,聋哑人作为倾听者;
所述模式A的步骤如下:
A-1智能终端的摄像头捕获到聋哑人手语视频,通过通信模块将视频数据上传至云计算机;
A-2对步骤A-1中所述手语视频数据进行预处理得到特征数据;
A-3把步骤A-2中得到的特征数据输入手语识别模型得到手语的文本表示,称为源文本;
A-4利用文本解析模型将源文本解析为目标文本,源文本为表述者所使用的语言文本,目标文本为倾听者所使用的语言文本,将目标文本发送至智能终端,并将其在显示屏上展示给健全人;
A-5健全人选择是否播放语音,选择是则执行下一步骤,选择否则不执行下一步骤;
A-6利用文本语音转换框架将目标文本转换为目标语音,将目标语音发送给智能终端,语音模块播放手语对应的语音;
所述模式B的步骤如下:
B-1利用智能终端的高清麦克风采集表述者的语音数据,将语音数据上传至云计算机;
B-2根据语音数据利用语音识别模型得到语音的文本表示,称为源文本;
B-3利用文本解析模型将源文本解析为目标文本,源文本为表述者所使用的语言文本,目标文本为倾听者所使用的语言文本,将目标文本发送至智能终端,并将其在显示屏上展示给聋哑人;
B-4聋哑人选择是否展示手语动画,选择是则执行下一步骤,选择否则不执行下一步骤;
B-5关键点驱动动画生成,将动画在显示屏展示给聋哑人;
所述模式C的步骤如下:
C-1智能终端的摄像头捕获到聋哑人表述者手语视频,通过通信模块将视频数据上传至云计算机;
C-2对步骤C-1中所述手语视频数据进行预处理得到特征数据;
C-3把步骤C-2中得到的特征数据输入手语识别模型得到手语的文本表示,称为源文本;
C-4利用文本解析模型将源文本解析为目标文本,源文本为表述者所使用的语言文本,目标文本为倾听者所使用的语言文本,将目标文本发送至智能终端,并将其在显示屏上展示给聋哑人倾听者;
C-5聋哑人倾听者选择是否展示手语动画,选择是则执行下一步骤,选择否则不执行下一步骤;
C-6关键点驱动动画生成,将动画在显示屏展示给聋哑人倾听者。
3.如权利要求2所述的方法,其特征在于,所述步骤A-2和C-2中,数据预处理指利用OpenPose开源框架获取手语视频的关键点数据。
4.如权利要求3所述的方法,其特征在于,所述OpenPose是基于深度学习的姿势估计开源框架,将采集的视频数据输入到OpenPose框架中,从视频的每一帧图像获得130个关键点信息,每个关键点包括X轴坐标和Y轴坐标以及置信度的三维特征数据,然后进行数据预处理,抽取出关于手臂、肩膀、手相关的52个关键点,得到最终的特征数据。
5.如权利要求2~4之一所述的方法,其特征在于,所述步骤A-3和C-3中,将步骤A-2和C-2中得到的坐标关键点数据输入RNN循环神经网络中进行手语识别,这里所使用的序列神经网络是基于三个叠加的LSTM实现,一个基本的LSTM结构由一个cell和三个门组成,三个门分别为输入门i、输出门o和遗忘门g,基本LSTM的前向计算如下式所示:
ft=σg(Wfxt+Ufht-1+bf)
it=σg(Wixt+Uiht-1+bi)
ot=σg(Woxt+Uoht-1+bo)
ct=ft ct-1+it σc(Wcxt+Ucht-1+bc)
ht=ot σg(ct)
其中,运算定义为Hadamard乘积,t代表时间步,c0和h0值为0,xt∈Rd为LSTM的输入向量,ft∈Rh为遗忘门激活向量,it∈Rh为输入门的激活向量,ot∈Rh为输出门的激活向量,ht∈Rh为隐状态向量,也是LSTM的输出变量,ct∈Rh为cell状态向量,W∈Rh×d,U∈Rh×h和b∈Rh分别为权重参数和偏置向量参数,d和h分别为输入特征的数量和隐藏单元的数量,σg为Sigmoid函数,如下式所示:
σc和σh为双曲正切函数,如下式所示:
其中,x为函数输入,e为自然对底数;
将得到的特征数据输入到序列神经网络,序列神经网络由三个LSTM堆叠组成,其中输入为从两个cell数量为128的LSTM层开始,然后输入一个cell数量为64的LSTM层,最后接上一个全连接层,输出层使用softmax函数;
Softmax函数σ(z)如下式所示:
其中,z为一K维向量,e为自然对底数,输出层输出关键点序列的类别预测概率,利用argmax函数把类别预测向量转换为预测文本,从而生成了手语的文本表不。
6.如权利要求2~4之一所述的方法,其特征在于,所述步骤A-4和C-4中,为了实现将源文本解析为目标文本,采用Seq2Seq模型结构,使用经典的RNNEncoder-Decoder模型,其中采用LSTM作为RNN cell,将输入序列X进行编码得到向量C,然后对C进行解码得到输出序列Y;
其中,X、Y均由各自的单词序列组成:
其中计算公式为:
Encoder部分:
Decoder部分:
h<0>=tanh(V'c)
h<t>=f(h<t-1>,y<t-1>,c),t=1,...,Tx
P(y<t>|y<t-1>,y<t-2>,...,y<1>,c)=g(h<t>,y<t-1>,c)
其中,h<t>是输出LSTM中的隐藏层,c代表语义向量,y<t-1>代表上个时刻的输出,g函数表示softmax函数用来得到概率分布结果。
7.如权利要求2~4之一所述的方法,其特征在于,所述步骤B-2中所使用模型结构为cFSMN-CTC,其中包括序列模块cFSMN和解译模块CTC;
序列模块cFSMN是基于FSMN网络结构组成的,而FSMN结构与普通的前馈神经网络类似同样拥有输入层、隐藏层、输出层,与之不同的是引入了Memory Block(记忆块),MemoryBlock的公式如下:
而Memory Block中存储了N个的“过去记忆”,该“过去记忆”会与当前层的特征一起前向传入下一层,Memory Block也通过引入部分延时来存储“未来的记忆”来更好地理解句子的意思,此时公式为:
对于cFSMN是通过在FSMN网络的隐层后添加一个低维度的线性投影层,并且将记忆模块添加在这些线性投影层上,
cFSMN记忆模块的公式表达为:
序列模块接受来自步骤B-1的语音序列,并预测特征序列中每一帧的标签分布;解译模块是基于CTC来实现的,解译是将序列模块输出的每帧类别预测转换为标签文字序列的过程,在网络训练阶段,CTC被当作损失函数使用,避免了训练数据的额外对齐处理,以实现端到端的训练;
CTC损失函数L如下式所示:
L(S)=-lnΠ(x,z)∈Sp(z|x)=-∑(x,z)∈Sln(z|x)
其中,p(z|x)代表给定输入x,输出序列z的概率,S为训练集;
在使用阶段,CTC将直接输出文本序列的识别结果,识别出的文字被送至步骤B-3。
8.如权利要求2~4之一所述的方法,其特征在于,所述步骤B-3与步骤A-4中,选定英语作为中间语。
9.如权利要求2~4之一所述的方法,其特征在于,所述步骤B-5和C-6中,接受步骤B-3和C-4输入的自然语言文本句子,分割成一个个基本词,每个手语词的运动数据由若干个关键帧数据组成,将基本词与其对应的2D骨骼关键点坐标相匹配,然后利用关键点驱动骨骼动画的生成,并在显示屏上同时显示骨骼动画和语言文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010044813.6A CN111354246A (zh) | 2020-01-16 | 2020-01-16 | 一种用于帮助聋哑人交流的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010044813.6A CN111354246A (zh) | 2020-01-16 | 2020-01-16 | 一种用于帮助聋哑人交流的系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111354246A true CN111354246A (zh) | 2020-06-30 |
Family
ID=71193996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010044813.6A Pending CN111354246A (zh) | 2020-01-16 | 2020-01-16 | 一种用于帮助聋哑人交流的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111354246A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256827A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种手语翻译方法、装置、计算机设备及存储介质 |
CN113158736A (zh) * | 2021-01-21 | 2021-07-23 | 景德镇学院 | 一种基于深度学习的手势识别辅助交流系统 |
CN113487942A (zh) * | 2021-06-25 | 2021-10-08 | 深圳市妇幼保健院 | 一种聋哑人口腔治疗过程中的交流方法及相关设备 |
CN114882443A (zh) * | 2022-05-31 | 2022-08-09 | 江苏濠汉信息技术有限公司 | 应用于电缆附件施工的边缘计算系统 |
CN115223428A (zh) * | 2021-04-20 | 2022-10-21 | 美光科技公司 | 转换手语 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1770843A (zh) * | 2005-09-20 | 2006-05-10 | 乐金电子(沈阳)有限公司 | 为语言障碍人员提供数据转换和传输的装置及其方法 |
CN101527092A (zh) * | 2009-04-08 | 2009-09-09 | 西安理工大学 | 特定会话场景下的计算机辅助手语交流方法 |
CN101539994A (zh) * | 2009-04-16 | 2009-09-23 | 西安交通大学 | 一种手语语音互译系统及手语语音互译方法 |
CN105956529A (zh) * | 2016-04-25 | 2016-09-21 | 福州大学 | 一种基于lstm型rnn的中国手语识别方法 |
CN205722520U (zh) * | 2016-03-30 | 2016-11-23 | 张琪 | 一种便携式手语翻译机 |
CN108537109A (zh) * | 2018-02-13 | 2018-09-14 | 东南大学 | 基于OpenPose的单目相机手语识别方法 |
CN109214347A (zh) * | 2018-09-19 | 2019-01-15 | 北京因时机器人科技有限公司 | 一种跨语种的手语翻译方法、装置和移动设备 |
CN109670073A (zh) * | 2018-12-20 | 2019-04-23 | 科大讯飞股份有限公司 | 一种信息转换方法及装置、交互辅助系统 |
US10289903B1 (en) * | 2018-02-12 | 2019-05-14 | Avodah Labs, Inc. | Visual sign language translation training device and method |
CN109920309A (zh) * | 2019-01-16 | 2019-06-21 | 深圳壹账通智能科技有限公司 | 手语转换方法、装置、存储介质和终端 |
CN110569823A (zh) * | 2019-09-18 | 2019-12-13 | 西安工业大学 | 一种基于rnn的手语识别与骨架生成方法 |
-
2020
- 2020-01-16 CN CN202010044813.6A patent/CN111354246A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1770843A (zh) * | 2005-09-20 | 2006-05-10 | 乐金电子(沈阳)有限公司 | 为语言障碍人员提供数据转换和传输的装置及其方法 |
CN101527092A (zh) * | 2009-04-08 | 2009-09-09 | 西安理工大学 | 特定会话场景下的计算机辅助手语交流方法 |
CN101539994A (zh) * | 2009-04-16 | 2009-09-23 | 西安交通大学 | 一种手语语音互译系统及手语语音互译方法 |
CN205722520U (zh) * | 2016-03-30 | 2016-11-23 | 张琪 | 一种便携式手语翻译机 |
CN105956529A (zh) * | 2016-04-25 | 2016-09-21 | 福州大学 | 一种基于lstm型rnn的中国手语识别方法 |
US10289903B1 (en) * | 2018-02-12 | 2019-05-14 | Avodah Labs, Inc. | Visual sign language translation training device and method |
CN108537109A (zh) * | 2018-02-13 | 2018-09-14 | 东南大学 | 基于OpenPose的单目相机手语识别方法 |
CN109214347A (zh) * | 2018-09-19 | 2019-01-15 | 北京因时机器人科技有限公司 | 一种跨语种的手语翻译方法、装置和移动设备 |
CN109670073A (zh) * | 2018-12-20 | 2019-04-23 | 科大讯飞股份有限公司 | 一种信息转换方法及装置、交互辅助系统 |
CN109920309A (zh) * | 2019-01-16 | 2019-06-21 | 深圳壹账通智能科技有限公司 | 手语转换方法、装置、存储介质和终端 |
CN110569823A (zh) * | 2019-09-18 | 2019-12-13 | 西安工业大学 | 一种基于rnn的手语识别与骨架生成方法 |
Non-Patent Citations (3)
Title |
---|
佚名: "《FSMN及其变种cFSMN DFSMN pyramidal-FSMN》", 《HTTPS://BLOG.CSDN.NET/QQ_26778411/ARTICLE/DETAILS/89682447》 * |
佚名: "《RNN Encoder-Decoder翻译》", 《HTTPS://BLOG.CSDN.NET/QQ_28385535/ARTICLE/DETAILS/84870939》 * |
刘建平: "《LSTM模型与前向反向传播算法-刘建平Pinard-博客园》", 《HTTPS://ZZK.CNBLOGS.COM/S/BLOGPOST?W=LSTM》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256827A (zh) * | 2020-10-20 | 2021-01-22 | 平安科技(深圳)有限公司 | 一种手语翻译方法、装置、计算机设备及存储介质 |
CN113158736A (zh) * | 2021-01-21 | 2021-07-23 | 景德镇学院 | 一种基于深度学习的手势识别辅助交流系统 |
CN115223428A (zh) * | 2021-04-20 | 2022-10-21 | 美光科技公司 | 转换手语 |
CN113487942A (zh) * | 2021-06-25 | 2021-10-08 | 深圳市妇幼保健院 | 一种聋哑人口腔治疗过程中的交流方法及相关设备 |
CN114882443A (zh) * | 2022-05-31 | 2022-08-09 | 江苏濠汉信息技术有限公司 | 应用于电缆附件施工的边缘计算系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107979764B (zh) | 基于语义分割和多层注意力框架的视频字幕生成方法 | |
CN111354246A (zh) | 一种用于帮助聋哑人交流的系统及方法 | |
Hong et al. | Real-time speech-driven face animation with expressions using neural networks | |
CN113378806B (zh) | 一种融合情感编码的音频驱动人脸动画生成方法及系统 | |
KR102167760B1 (ko) | 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템 | |
KR102098734B1 (ko) | 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말 | |
CN101187990A (zh) | 一种会话机器人系统 | |
CN113835522A (zh) | 手语视频生成、翻译、客服方法、设备和可读介质 | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
CN113838174B (zh) | 一种音频驱动人脸动画生成方法、装置、设备与介质 | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN111797811B (zh) | 一种基于图像理解的盲人导航系统 | |
Kanvinde et al. | Bidirectional sign language translation | |
Sonawane et al. | Speech to Indian sign language (ISL) translation system | |
CN114724224A (zh) | 一种用于医疗护理机器人的多模态情感识别方法 | |
Dissanayake et al. | Utalk: Sri Lankan sign language converter mobile app using image processing and machine learning | |
Rastgoo et al. | A survey on recent advances in Sign Language Production | |
CN111079661B (zh) | 手语识别系统 | |
KR100730573B1 (ko) | 수화 인식과 수화 발생을 구현한 양방향 수화 전화 시스템 | |
Petkar et al. | Real Time Sign Language Recognition System for Hearing and Speech Impaired People | |
Mohith et al. | Visual world to an audible experience: visual assistance for the blind and visually impaired | |
Ganpatye et al. | Motion Based Indian Sign Language Recognition using Deep Learning | |
CN113609923A (zh) | 基于注意力的连续手语语句识别方法 | |
KR102370993B1 (ko) | 신경망 기반의 실시간 수어 통역 및 대화를 지원하는 인공지능 시스템 | |
Sams et al. | SignBD-Word: Video-Based Bangla Word-Level Sign Language and Pose Translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200630 |