CN111354246A

CN111354246A - 一种用于帮助聋哑人交流的系统及方法

Info

Publication number: CN111354246A
Application number: CN202010044813.6A
Authority: CN
Inventors: 方路平; 刘学; 李心怡; 潘�清; 陆飞
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-30

Abstract

一种用于聋哑人交流的系统，包括云计算机和智能终端，所述云计算机中存储着众多训练完成的神经网络模型，还有文本语音转换框架，并且承担着交流过程中的复杂计算；所述智能终端由处理器、摄像头、麦克风、语音模块、通信模块、显示屏组成，工作模式包括聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式。以及提供一种用于聋哑人交流的方法。本发明以智能终端设备为载体，基于深度学习技术，实现健全人与聋哑人、聋哑人与聋哑人之间互相交流。

Description

一种用于帮助聋哑人交流的系统及方法

技术领域

本发明涉及人工智能领域，使用机器解析技术，将健全人的语音信息解析为手语或是将聋哑人的手语解析为语音，以及将使用不同手语的聋哑人的手语解析为相应的使用者的手语，从而帮助以上两种情况的人之间的无障碍交流。

背景技术

聋哑人就是通常所说的出生后或处于幼儿时期便有严重耳聋，不能听到周围事物发出的声音，或因耳聋而重新丧失说话能力者。

聋哑人在与(听、说功能正常的)健全人交流的时候存在听、说障碍，所以手语成为他们接收或传达信息的重要方式之一，但是因其独特性只有极少数健全人掌握手语，当聋哑人利用手语与外界进行交流的时候就会有一定的局限性。而且世界上的不同国家及地区会有不同的手语标准，所以这样会造成聋哑人与聋哑人之间无法正常交流。

目前用于解决聋哑人与外界交流的问题，主要还是由聋哑人佩戴相关的专业设备，比如基于数据手套的手语识别方法需要手语使用者佩戴相应的电子手套，利用传感器等跟踪手指关节等信息进行分析，识别准确率不高，而且这种手套的佩戴方式复杂，并不能很好地推广到所有的聋哑人群中。

发明内容

针对现有技术的不足，本发明提供了一种用于聋哑人交流的系统及方法，以智能终端设备为载体，基于深度学习技术，实现健全人与聋哑人、聋哑人与聋哑人之间互相交流。

为了实现上述目的，本发明提供如下的技术方案：

一种用于聋哑人交流的系统，包括云计算机和智能终端，所述云计算机中存储着众多训练完成的神经网络模型，还有文本语音转换框架，并且承担着交流过程中的复杂计算；

所述智能终端由处理器、摄像头、麦克风、语音模块、通信模块、显示屏组成，所述处理器连接摄像头、麦克风和显示屏，所述摄像头用于采集聋哑人的手语视频，所述麦克风用于采集健全人的语音，所述语音模块用于播放手语识别的结果，所述通信模块用于将智能终端采集的视频或语音上传至云计算机以及接收云计算机发送回智能终端的文本、语音和动画，所述显示屏用于手语动画的播放及文本的显示，还用于提示用户选择工作模式，所述工作模式包括聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式。

一种用于聋哑人交流的方法，采用所述的聋哑人交流系统，所述方法适用于聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式，又可以将其细分为A、B、C三种交流模式，模式A为聋哑人与健全人交流，聋哑人作为表述者，健全人作为倾听者；模式B为聋哑人与健全人交流，健全人作为表述者，聋哑人作为倾听者；模式C为聋哑人与聋哑人交流，聋哑人作为表述者，聋哑人作为倾听者；

所述模式A的步骤如下：

A-1智能终端的摄像头捕获到聋哑人手语视频，通过通信模块将视频数据上传至云计算机；

A-2对步骤A-1中所述手语视频数据进行预处理得到特征数据；

A-3把步骤A-2中得到的特征数据输入手语识别模型得到手语的文本表示，称为源文本；

A-4利用文本解析模型将源文本解析为目标文本，源文本为表述者所使用的语言文本，目标文本为倾听者所使用的语言文本，将目标文本发送至智能终端，并将其在显示屏上展示给健全人；

A-5健全人选择是否播放语音，选择是则执行下一步骤，选择否则不执行下一步骤；

A-6利用文本语音转换框架将目标文本转换为目标语音，将目标语音发送给智能终端，语音模块播放手语对应的语音。

所述模式B的步骤如下：

B-1利用智能终端的麦克风采集表述者的语音数据，将语音数据上传至云计算机；

B-2根据语音数据利用语音识别模型得到语音的文本表示，称为源文本；

B-3利用文本解析模型将源文本解析为目标文本，源文本为表述者所使用的语言文本，目标文本为倾听者所使用的语言文本，将目标文本发送至智能终端，并将其在显示屏上展示给聋哑人；

B-4聋哑人选择是否展示手语动画，选择是则执行下一步骤，选择否则不执行下一步骤；

B-5关键点驱动动画生成，将动画在显示屏展示给聋哑人。

所述模式C的步骤如下：

C-1智能终端的摄像头捕获到聋哑人表述者手语视频，通过通信模块将视频数据上传至云计算机；

C-2对步骤C-1中所述手语视频数据进行预处理得到特征数据；

C-3把步骤C-2中得到的特征数据输入手语识别模型得到手语的文本表示，称为源文本；

C-4利用文本解析模型将源文本解析为目标文本，源文本为表述者所使用的语言文本，目标文本为倾听者所使用的语言文本，将目标文本发送至智能终端，并将其在显示屏上展示给聋哑人倾听者；

C-5聋哑人倾听者选择是否展示手语动画，选择是则执行下一步骤，选择否则不执行下一步骤；

C-6关键点驱动动画生成，将动画在显示屏展示给聋哑人倾听者。

进一步，所述步骤A-2和C-2中，数据预处理指利用OpenPose开源框架获取手语视频的关键点数据。

优选的，所述OpenPose是基于深度学习的姿势估计开源框架，将采集的视频数据输入到OpenPose框架中，从视频的每一帧图像获得130个关键点信息，每个关键点包括X轴坐标和Y轴坐标以及置信度的三维特征数据，然后进行数据预处理，抽取出关于手臂、肩膀、手相关的52个关键点，得到最终的特征数据。

再进一步，所述步骤A-3和C-3中，将步骤A-2和C-2中得到的坐标关键点数据输入RNN循环神经网络中进行手语识别，这里所使用的序列神经网络是基于三个叠加的LSTM(Long Short-Term Memory Network，长短期记忆网络)实现，一个基本的LSTM结构由一个cell单元和三个门组成，三个门分别为输入门i、输出门o和遗忘门g，基本LSTM的前向计算如下式所示：

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o)

c_t＝f_t c_t-1+i_tσ_c(W_cx_t+U_ch_t-1+b_c)

h_t＝o_tσ_g(c_t)

其中，运算定义为Hadamard乘积，t代表时间步。c₀和h₀值为0。x_t∈R^d为LSTM的输入向量，f_t∈R^h为遗忘门激活向量，i_t∈R^h为输入门的激活向量，o_t∈R^h为输出门的激活向量，h_t∈R^h为隐状态向量，也是LSTM的输出变量。c_t∈R^h为cell状态向量，W∈R^h×d，U∈R^h×h和b∈R^h分别为权重参数和偏置向量参数。d和h分别为输入特征的数量和隐藏单元的数量，σ_g为Sigmoid函数，如下式所示：

σ_c和σ_h为双曲正切函数，如下式所示：

其中，x为函数输入，e为自然对底数；

将得到的特征数据输入到序列神经网络，序列神经网络由三个LSTM堆叠组成，其中输入为从两个cell数量为128的LSTM层开始，然后输入一个cell数量为64的LSTM层，最后接上一个全连接层，输出层使用softmax函数；

Softmax函数σ(z)如下式所示：

其中，z为一K维向量，e为自然对底数，输出层输出关键点序列的类别预测概率，利用argmax函数把类别预测向量转换为预测文本，从而生成了手语的文本表示。

更进一步，所述步骤A-4和C-4中，为了实现将源文本解析为目标文本，采用Seq2Seq(Sequence to Sequence，序列到序列)模型结构，使用经典的RNN Encoder-Decoder模型，其中采用LSTM作为RNN cell，将输入序列X进行编码得到向量C，然后对C进行解码得到输出序列Y；

其中，X、Y均由各自的单词序列组成：

Encoder:用RNN来构成，每个time-step向Encoder中输入一个词的向量x^<t>，输出为h^<t>，直到句子的最后一个单词

被输入，得到的输出为句向量

Decoder:也用RNN来构成，用来根据之前Encoder得到的句向量

和前一时刻的结果h^<t-1>来得到y^<t>，依此类推直到得到结尾输出结束标识符<EOS>；

其中计算公式为：

Encoder部分：

Decoder部分：

h^<0>＝tanh(V′c)

h^<t>＝f(h^<t-1>,y^<t-1>,c),t＝1,…,T_x

P(y^<t>|y^<t-1>,y^<t-2>,…,y^<1>,c)＝g(h^<t>,y^<t-1>,c)

其中，h^<t>是输出LSTM中的隐藏层，c代表语义向量，y^<t-1>代表上个时刻的输出，g函数表示softmax函数用来得到概率分布结果。

所述步骤B-2中所使用模型结构为cFSMN-CTC(Compact Feed-forwardSequential Memory Network-Connectionist Temporal Classification,简洁前馈性序列记忆网络-联结时序分类器)，其中包括序列模块cFSMN和解译模块CTC；

序列模块cFSMN是基于FSMN网络结构组成的，而FSMN结构与普通的前馈神经网络类似同样拥有输入层、隐藏层、输出层，与之不同的是引入了Memory Block(记忆块)，Memory Block的公式如下：

其中，

为t-i时刻的l层的特征，

为对应的时不变系数；

而Memory Block中存储了N个

的“过去记忆”，该“过去记忆”

会与当前层的特征

一起前向传入下一层，Memory Block也通过引入部分延时来存储“未来的记忆”来更好地理解句子的意思，此时公式为：

其中，N₁被称为回溯顺序，表示回顾过去的历史条目的数量，N₂被称为前向顺序，表示对未来的前向窗口的大小，

为t+j时刻l层的特征，

为对应的时不变系数；

然后将记忆模块作为输入传递到下一个隐藏层

其中，W^l和b^l分别表示的是l层的权重矩阵和偏置向量，而

代表的是MemoryBlock和下一层之间的权重矩阵，f(·)函数是非线性激活函数sigmoid函数；

对于cFSMN是通过在FSMN网络的隐层后添加一个低维度的线性投影层，并且将记忆模块添加在这些线性投影层上。

cFSMN记忆模块的公式表达为：

其中，

表示第l个投影层的线性输出；

序列模块接受来自步骤B-1的语音序列，并预测特征序列中每一帧的标签分布；解译模块是基于CTC来实现的，解译是将序列模块输出的每帧类别预测转换为标签文字序列的过程，在网络训练阶段，CTC被当作损失函数使用，避免了训练数据的额外对齐处理，以实现端到端的训练；

CTC损失函数L如下式所示：

L(S)＝-lnΠ_(x，z)∈S p(z|x)＝-∑_(x，z)∈S ln(z|x)

其中，p(z|x)代表给定输入x，输出序列z的概率，S为训练集；

在使用阶段，CTC将直接输出文本序列的识别结果，识别出的文字被送至步骤B-3。

所述步骤B-3与步骤A-4中文本解析的方法是一样的，但是两个模型是不一样的，因此需要训练多个模型，这样会造成两个问题，第一会增加训练模型的成本，第二会增加云计算机的存储压力，为了解决上述两个问题，提出了“中间语”这个概念。

“中间语”起到了两种不同语言之间的桥梁关系，当有N种语言文本需要互译的时候，先将一种语言解析为中间语，再将中间语解析为另一种语言，这样N种语言互译只需要训练2N个模型，大大减少训练模型的成本；由于英语作为世界上使用国家最多的语言，本发明中选定英语作为中间语。

所述步骤B-5和C-6中，接受步骤B-3和C-4输入的自然语言文本句子，分割成一个个基本词，每个手语词的运动数据由若干个关键帧数据组成，将基本词与其对应的2D骨骼关键点坐标相匹配，然后利用关键点驱动骨骼动画的生成，并在显示屏上同时显示骨骼动画和语言文本。

本发明的有益效果为：采用本发明中的一种帮助聋哑人交流的系统及方法，能够解决聋哑人与健全人以及聋哑人与聋哑人的交流障碍，可以更好地帮助聋哑人融入社会；本发明以智能终端(智能手机、平板电脑等)为载体，将运算量大的计算工作放在了云端，大大地降低了系统的实际使用功耗。

附图说明

图1是交流模式A的流程示意图。

图2是交流模式B的流程示意图。

图3是交流模式C的流程示意图。

图4是手语识别模型结构示意图。

图5是Encoder-Decoder的结构示意图。

图6是FSMN网络结构示意图。

图7是cFSMN网络结构示意图。

图8是骨骼动画的关键帧图片。

具体实施方式

下面结合附图对本发明做进一步的说明。

参照图1～图8，一种用于聋哑人交流的系统，包括云计算机和智能终端，所述云计算机中存储着众多训练完成的神经网络模型，还有文本语音转换框架，并且承担着交流过程中的复杂计算；

所述模式A的步骤如下：

A-2对步骤A-1中所述手语视频数据进行预处理得到特征数据；

所述模式B的步骤如下：

B-5关键点驱动动画生成，将动画在显示屏展示给聋哑人。

所述模式C的步骤如下：

C-2对步骤C-1中所述手语视频数据进行预处理得到特征数据；

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o)

c_t＝f_t c_t-1+i_tσ_c(W_cx_t+U_ch_t-1+b_c)

h_t＝o_tσ_g(c_t)

σ_c和σ_h为双曲正切函数，如下式所示：

其中，x为函数输入，e为自然对底数；

Softmax函数σ(z)如下式所示：

其中，X、Y均由各自的单词序列组成：

被输入，得到的输出为句向量

Decoder:也用RNN来构成，用来根据之前Encoder得到的句向量

其中计算公式为：

Encoder部分：

Decoder部分：

h^<0>＝tanh(V′c)

h^<t>＝f(h^<t-1>，y^<t-1>，c)，t＝1，...，T_x

P(y^<t>|y^<t-1>，y^<t-2>，...，y^<1>，c)＝g(h^<t>，y^<t-1>，c)

所述步骤B-2中所使用模型结构为cFSMN-CTC(Compact Feed-forwardSequential Memory Network-Connectionist Temporal Classification，简洁前馈性序列记忆网络-联结时序分类器)，其中包括序列模块cFSMN和解译模块CTC；

其中，

为t-i时刻的l层的特征，

为对应的时不变系数；

而Memory Block中存储了N个

的“过去记忆”，该“过去记忆”

会与当前层的特征

为t+j时刻l层的特征，

为对应的时不变系数；

然后将记忆模块作为输入传递到下一个隐藏层

其中，W^l和b^l分别表示的是l层的权重矩阵和偏置向量，而

cFSMN记忆模块的公式表达为：

其中，

表示第l个投影层的线性输出；

CTC损失函数l如下式所示：

L(S)＝-lnΠ_(x，z)∈S p(z|x)＝-∑_(x，z)∈S ln(z|x)

其中，p(z|x)代表给定输入x，输出序列z的概率，S为训练集；

Claims

1.一种用于聋哑人交流的系统，其特征在于，包括云计算机和智能终端，所述云计算机中存储着众多训练完成的神经网络模型，还有文本语音转换框架，并且承担着交流过程中的复杂计算；

2.一种如权利要求1所述的用于聋哑人交流的系统实现的方法，其特征在于，采用所述的聋哑人交流系统，所述方法适用于聋哑人与健全人交流、使用不同种类手语的聋哑人与聋哑人交流两种交流模式，又可以将其细分为A、B、C三种交流模式，模式A为聋哑人与健全人交流，聋哑人作为表述者，健全人作为倾听者；模式B为聋哑人与健全人交流，健全人作为表述者，聋哑人作为倾听者；模式C为聋哑人与聋哑人交流，聋哑人作为表述者，聋哑人作为倾听者；

所述模式A的步骤如下：

A-2对步骤A-1中所述手语视频数据进行预处理得到特征数据；

A-6利用文本语音转换框架将目标文本转换为目标语音，将目标语音发送给智能终端，语音模块播放手语对应的语音；

所述模式B的步骤如下：

B-1利用智能终端的高清麦克风采集表述者的语音数据，将语音数据上传至云计算机；

B-5关键点驱动动画生成，将动画在显示屏展示给聋哑人；

所述模式C的步骤如下：

C-2对步骤C-1中所述手语视频数据进行预处理得到特征数据；

3.如权利要求2所述的方法，其特征在于，所述步骤A-2和C-2中，数据预处理指利用OpenPose开源框架获取手语视频的关键点数据。

4.如权利要求3所述的方法，其特征在于，所述OpenPose是基于深度学习的姿势估计开源框架，将采集的视频数据输入到OpenPose框架中，从视频的每一帧图像获得130个关键点信息，每个关键点包括X轴坐标和Y轴坐标以及置信度的三维特征数据，然后进行数据预处理，抽取出关于手臂、肩膀、手相关的52个关键点，得到最终的特征数据。

5.如权利要求2～4之一所述的方法，其特征在于，所述步骤A-3和C-3中，将步骤A-2和C-2中得到的坐标关键点数据输入RNN循环神经网络中进行手语识别，这里所使用的序列神经网络是基于三个叠加的LSTM实现，一个基本的LSTM结构由一个cell和三个门组成，三个门分别为输入门i、输出门o和遗忘门g，基本LSTM的前向计算如下式所示：

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o)

c_t＝f_t c_t-1+i_t σ_c(W_cx_t+U_ch_t-1+b_c)

h_t＝o_t σ_g(c_t)

其中，运算定义为Hadamard乘积，t代表时间步，c₀和h₀值为0，x_t∈R^d为LSTM的输入向量，f_t∈R^h为遗忘门激活向量，i_t∈R^h为输入门的激活向量，o_t∈R^h为输出门的激活向量，h_t∈R^h为隐状态向量，也是LSTM的输出变量，c_t∈R^h为cell状态向量，W∈R^h×d，U∈R^h×h和b∈R^h分别为权重参数和偏置向量参数，d和h分别为输入特征的数量和隐藏单元的数量，σ_g为Sigmoid函数，如下式所示：

σ_c和σ_h为双曲正切函数，如下式所示：

其中，x为函数输入，e为自然对底数；

Softmax函数σ(z)如下式所示：

其中，z为一K维向量，e为自然对底数，输出层输出关键点序列的类别预测概率，利用argmax函数把类别预测向量转换为预测文本，从而生成了手语的文本表不。

6.如权利要求2～4之一所述的方法，其特征在于，所述步骤A-4和C-4中，为了实现将源文本解析为目标文本，采用Seq2Seq模型结构，使用经典的RNNEncoder-Decoder模型，其中采用LSTM作为RNN cell，将输入序列X进行编码得到向量C，然后对C进行解码得到输出序列Y；

其中，X、Y均由各自的单词序列组成：

Encoder：用RNN来构成，每个time-step向Encoder中输入一个词的向量x^<t>，输出为h^<t>，直到句子的最后一个单词

被输入，得到的输出为句向量

Decoder：也用RNN来构成，用来根据之前Encoder得到的句向量

其中计算公式为：

Encoder部分：

Decoder部分：

h^<0>＝tanh(V＇c)

h^<t>＝f(h^<t-1>，y^<t-1>，c)，t＝1，...，T_x

P(y^<t>|y^<t-1>，y^<t-2>，...，y^<1>，c)＝g(h^<t>，y^<t-1>，c)

7.如权利要求2～4之一所述的方法，其特征在于，所述步骤B-2中所使用模型结构为cFSMN-CTC，其中包括序列模块cFSMN和解译模块CTC；

序列模块cFSMN是基于FSMN网络结构组成的，而FSMN结构与普通的前馈神经网络类似同样拥有输入层、隐藏层、输出层，与之不同的是引入了Memory Block(记忆块)，MemoryBlock的公式如下：

其中，

为t-i时刻的l层的特征，

为对应的时不变系数；

而Memory Block中存储了N个

的“过去记忆”，该“过去记忆”

会与当前层的特征

为t+j时刻l层的特征，

为对应的时不变系数；

然后将记忆模块作为输入传递到下一个隐藏层

其中，W^l和b^l分别表示的是l层的权重矩阵和偏置向量，而

代表的是Memory Block和下一层之间的权重矩阵，f(·)函数是非线性激活函数sigmoid函数；

对于cFSMN是通过在FSMN网络的隐层后添加一个低维度的线性投影层，并且将记忆模块添加在这些线性投影层上，

cFSMN记忆模块的公式表达为：

其中，

表示第l个投影层的线性输出；

CTC损失函数L如下式所示：

L(S)＝-lnΠ_(x,z)∈Sp(z|x)＝-∑_(x,z)∈Sln(z|x)

其中，p(z|x)代表给定输入x，输出序列z的概率，S为训练集；

8.如权利要求2～4之一所述的方法，其特征在于，所述步骤B-3与步骤A-4中，选定英语作为中间语。

9.如权利要求2～4之一所述的方法，其特征在于，所述步骤B-5和C-6中，接受步骤B-3和C-4输入的自然语言文本句子，分割成一个个基本词，每个手语词的运动数据由若干个关键帧数据组成，将基本词与其对应的2D骨骼关键点坐标相匹配，然后利用关键点驱动骨骼动画的生成，并在显示屏上同时显示骨骼动画和语言文本。