CN114822541A

CN114822541A - 一种基于回译的无声语音识别方法和系统

Info

Publication number: CN114822541A
Application number: CN202210442791.8A
Authority: CN
Inventors: 印二威; 张敬; 曹议丹; 张亚坤; 艾勇保; 王凯; 张皓洋; 闫野
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-07-29
Anticipated expiration: 2042-04-25
Also published as: CN114822541B

Abstract

本发明公开了一种基于回译的无声语音识别方法和系统，方法包括：采集无声说话状态下的无声表面肌电信号；将无声表面肌电信号进行预处理和特征提取，得到无声肌电特征；将无声肌电特征送入SAEM模型得到对应的有声肌电特征；将对应的有声肌电特征送入到语音转换模型得到对应的音频特征；使用语音合成模型将对应的音频特征转化为生成的音频信号，使用语音识别模型将生成的音频信号转为文本。本发明所设计的一种基于回译的无声语音识别方法和系统，利用编码器‑解码器网络进行无声肌电信号和有声肌电信号间的转换，并且有创新性地将机器翻译中回译的方法迁移到肌电信号上，从而利用非平行数据提升无声语音识别效果，最终提升无声语音识别效果。

Description

一种基于回译的无声语音识别方法和系统

技术领域

本发明属于语音识别领域，特别涉及一种基于回译的无声语音识别方法和系统。

背景技术

语言是人类最直接最简单的交流方式，目前语音识别发展非常迅速，已经有了非常多落地场景并被投入使用，随着深度学习及相关计算资源的迅猛发展，语音识别领域也焕发出蓬勃生机。

但是由于在实际生活场景中存在着广泛而普遍的噪声，使得语音识别效果大打折扣。而且公众场景下信息传递的保密性也是语音识别存在的问题。在实际场景中，某些不能发出声音的特殊场合，还有做过喉部切除手术的患者，无声语音有非常重要的实用价值。

唇语识别和表面肌电信号的语音识别都为无声语音识别做出了贡献。人类的发音是依靠唇部和喉部肌肉运动结合发音器官产生的，通过肌电采集装置可以记录说话时肌肉收缩的生物电信号，这为基于表面肌电信号的无声语音识别提供了可能。目前的无声语音识别技术一般通过对固定指令集建立分类模型实现。但在广泛的真实场景中，将无声语音转换为有声语音更符合习惯。而对音频恢复而言，当前的工作多侧重于从有声语音期间记录的肌电信号恢复音频，而非从无声语音生成音频。实验表明，这种直接将在有声语音上训练得到的肌电信号转音频信号模型，迁移到无声语音肌电信号的方法效果不佳。这种直接迁移的方法忽略了两种说话模式之间的差异，无声肌电信号中有些肌肉受到限制，产生的动作电位较小。同时，语言是富于变化且多种多样的，单纯依赖于分类的方法不能有效解决问题。

现有肌电数据集大都采集的是被试发声状态下的面部喉部肌电信号，较为缺乏无声情况下的肌电数据。在采集时，由于无声表面肌电信号无法根据采集人员到的发声判断是否存在漏词或说错的情况，无声表面肌电信号的采集质量无法有效保证，数据采集成本高。

发明内容

本发明提出了一种基于回译的无声语音识别方法，包括：

采集无声说话状态下的无声表面肌电信号；

将无声表面肌电信号进行预处理和特征提取，得到无声肌电特征；

将无声肌电特征送入SAEM模型得到对应的有声肌电特征；

将对应的有声肌电特征送入到语音转换模型得到对应的音频特征；

使用语音合成模型将对应的音频特征转化为生成的音频信号，使用语音识别模型将生成的音频信号转为文本。

进一步地，所述SAEM模型，通过如下方式训练获得：

采集无声说话状态下的无声表面肌电信号及对应的信息，采集有声说话状态下的有声表面肌电信号和对应的音频信号；

对采集的无声表面肌电信号、有声表面肌电信号进行预处理和特征提取，得到无声肌电特征、有声肌电特征；

将提取的无声肌电特征和有声肌电特征送入编码器-解码器网络中，训练SAEM模型和ASEM模型；

使用回译的方法优化SAEM模型。

进一步地，所述编码器-解码器网络为一个Seq2Seq网络，网络以Conformer为编码器、自回归循环网络为解码器；

编码器由多个Conformer模块组成，Conformer模块由前馈神经网络子模块、多头注意力子模块，卷积子模块三个子模块组成，每个子模块之间使用残差连接；

所述前馈神经网络子模块，包括一个LayerNorm层，一个线性层，一个Swish激活函数和Dropout，计算方式如式(9)所示：

其中，x_i表示第i个维度输入；

所述多头注意力子模块，包括一个LayerNorm，一个相对位置编码，一个Dropout和一个自注意力机制，计算方式如式(10)所示：

其中，x_i表示第i个维度输入；

所述卷积子模块，包括一个LayerNorm，两个point-wise卷积，一个线性门单元，一个Depth-wise卷积、一个BatchNorm和一个Dropout，计算方式如式(11)所示：

其中，x_i表示第i个维度输入；

整个Conformer块的计算方式如式(12)所示：

其中，x是解码器的输入序列，x＝{x₁,x₂,…,x_i,…x_N}，x_i表示第i维信号特征输入，FFN()表示前馈神经网络子模块，MHSA()表示多头自注意力子模块，Conv()表示卷积子模块，y_i表示第i维Conformer块的计算结果,；

解码器是一个自回归循环神经网络，由一层Pre-net网络、两层LSTM、Attention层、线性层和sigmoid组成，其计算方式如式(13)所示：

其中，x是解码器的输入序列，x＝{x₁,x₂,…,x_i,…x_N}，

x'都是中间变量，context是上下文向量，初始时被初始化为0；h是循环神经网络的隐藏向量；c是循环神经网络的记忆单元向量；s是编码器的输出，s＝{s₁,s₂,…,s_i,…s_M}，frame是解码器预测的信号特征，stop_token是解码的终止条件，在进行预测时，当stop_token大于某一阈值时，就终止预测；

Pre-net是双层全连接网络，每层由256个隐藏ReLU单元组成，表示为式(14)所示：

Prenet(x)＝ReLU(ReLU(xW_A+b_A)W_B+b_B) (14)

其中，W_A是x的权重系数，b_A是xW_A的偏移量，W_B是ReLUxW_A+b_A)的权重系数，b_B是ReLU(ReLU(xW_A+b_A)W_B的偏移量，ReLU(·)是激活函数，x是输入序列。

进一步地，所述将提取的无声肌电特征和有声肌电特征送入编码器-解码器网络中，训练生成SAEM模型和ASEM模型，包括：

输入进入编码器网络和输入进入解码器网络；

所述输入进入编码器网络包括：

输入进入Confromer模块；

在Conformer模块中，输入通过前馈神经网络子模块并乘以0.5进行缩放，加上原始输入，作为多头注意力子模块的输入；

然后经过多头注意力子模块后，与输入相加，作为卷积子模块输入；

再通过卷积子模块提取特征信息，与卷积子模块的输入相加，作为另一个前馈神经网络子模块的输入；

最后输入经过前馈神经网络子模块，与输入相加，对结果进行归一化后，获得编码器网络的输出；

输入进入解码器网络包括：

解码器网络的输入和编码器网络的输出一起进入解码器网络进行解码；

首先解码器网络的输入进入Pre-net网络；

Pre-net的输出和注意力上下文向量拼接在一起，送入第一层LSTM网络；第一层LSTM的隐藏层结果和编码器网络的输出一起送入Attention层得到注意力上下文向量，将第一层LSTM的隐藏层结果和注意力上下文向量再次拼接在一起，送入第二次LSTM网络，得到第二层LSTM网络的隐藏层向量，将隐藏层向量与注意力上下文向量拼接，通过线性层得到输出，每一帧输出通过sigmoid层得到终止值；

当输入为无声肌电特征，输出为有声肌电特征时，编码器-解码器网络用于训练无声肌电到有声肌电转换的SAEM模型；

当输入为有声肌电特征，输出为无声肌电特征时，编码器-解码器网络用于训练有声肌电到无声肌电转换的ASEM模型。

进一步地，所述使用回译的方法优化SAEM模型包括：

将有声肌电特征aEmg输入ASEM模型中生成无声肌电特征sEmg'，将伪无声肌电特征sEmg'——aEmg作为伪平行语料，和原来的平行语料sEmg——aEmg一起作为训练数据，训练SAEM；使用MSELOSS作为损失优化函数；

MSELOSS如下式(15)所示：

其中，y_i是真实结果，

是模型预测结果，N是样本数目。

进一步地，所述语音转换模型，通过如下方式训练获得：

建立转换网络，将提取的有声肌电特征及音频特征送入转换网络训练得到语音转换模型；

所述转换网络由Transformer编码器后接一个Linear层组成；

其中，编码器由多个编码块组成，每个编码块由多头注意力和前向神经网络两个子模块构成，对每个子模块的输出结果进行dropout并与输入一起进行标准化，并作为下一子模块的输入；每个子模块之间使用残差连接，子模块输入设置为相同维度；

前向神经网络为全连接前馈网络，使用两个线性变换，激活函数为ReLU；

多头注意力层使用点积注意力，输入为Query、Key、Value向量，维度分别为d_k、d_k、d_v，Query、Key、Value是输入经过不同线性变换的结果；在计算时，分别计算Query和不同Key的点积，将点积结果除以

并使用softmax函数计算Key对应权重；使用矩阵进行并行计算，编码块的计算如式(16)所示：

其中，Q、K、V为Query、Key、Value向量组成的矩阵,d_k是k的维度，Concat是拼接操作，head_i是多头注意力中不同的头，Attention_output是多头注意力模块残差连接后的输出，为中间计算结果，output是最终输出。W^O是多头注意力线性变换的权重；

转换网络使用Transformer编码器对输入进行特征提取，后接一个Linear层对提取的高维特征降维至MFCC特征维度，完成转换；

所述有声肌电特征和音频特征，使用如下方式获得：

采集有声说话状态下的有声表面肌电信号和对应的音频信号；

对采集的有声表面肌电信号和音频信号进行预处理和特征提取，得到有声肌电特征和音频特征。

进一步地，所述进行预处理和特征提取，包括：

对采集的表面肌电信号进行滤波和工频噪声降噪；

采用移动平均法对滤波降噪后的面部肌电信号进行活动段检测，分割出有效面部肌电信号段；

提取出有效面部肌电信号段的时域特征；

提取音频信号梅尔频率倒谱系数特征；

所述提取音频信号梅尔频率倒谱系数特征包括：

对采集的音频信号进行预加重、分帧、加窗；

对每一个短时分析窗，通过快速傅里叶变换得到对应的变换后频谱；

将变换后频谱通过Mel滤波器组得到Mel频谱；

对Mel频谱进行离散余弦变换得到MFCC系数；

使用MFCC系数计算MFCC动态特征。

本发明还提出一种基于回译的无声语音识别系统，所述系统包括：

采集模块，用于采集无声说话状态下的无声表面肌电信号；

处理模块，用于将无声表面肌电信号进行预处理和特征提取，得到无声肌电特征；

无声转有声模块，用于将无声肌电特征送入SAEM模型得到对应的有声肌电特征；

有声转音频模块，用于将对应的有声肌电特征送入到语音转换模型得到对应的音频特征；

音特转音号模块，用于使用语音识别模型将对应的音频特征转化为生成的音频信号，

音频转文本模块，用于使用语音识别模型将生成的音频信号转为文本。

进一步地，所述SAEM模型，通过如下方式训练获得：

使用回译的方法优化SAEM模型。

进一步地，所述使用回译的方法优化SAEM模型包括：

MSELOSS如下式(15)所示：

其中，y_i是真实结果，

是模型预测结果，N是样本数目。

本发明所设计的一种基于回译的无声语音识别方法和系统，在模型训练方面做了改进，提出了一种利用编码器-解码器网络进行无声肌电信号和有声肌电信号间的转换，并且有创新性地将机器翻译中回译的方法迁移到肌电信号上，从而利用非平行数据提升无声语音识别效果，最终提升无声语音识别效果。

附图说明

图1示出了本发明实施例中一种基于回译的无声语音识别方法的流程示意图；

图2示出了本发明实施例中一种基于回译的无声语音识别系统的结构示意图；

图3示出了本发明实施例中一种基于回译的无声语音识别方法中平行语料回译方法的示意图；

图4示出了本发明实施例中一种基于回译的无声语音识别方法中非平行语料回译方法的示意图；

图5示出了本发明实施例中一种基于回译的无声语音识别方法中编码器-解码器网络结构示意图；

图6示出了本发明实施例中一种基于回译的无声语音识别方法中编码器-解码器网络中Conformer模块网络结构示意图；

图7示出了本发明实施例中一种基于回译的无声语音识别方法中转换模型的示意图；

图8示出了本发明实施例中一种基于回译的无声语音识别方法中转换模型的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明设计一种基于回译的无声语音识别方法，如图1所示，包括：

S1：采集无声说话状态下的无声表面肌电信号及对应的信息，采集有声说话状态下的有声表面肌电信号和对应的音频信号。

表面肌电信号作为生物电信号，记录了肌肉运动信息，是肌肉中各个运动单元动作电位在时间和空间上的叠加。当人无声说话状态或有声说话状态时，脸部肌肉均会产生相应的表面肌电信号：无声表面肌电信号或有声表面肌电信号。

采集无声表面肌电信号时，同时采集相同文本对应的有声表面肌电信号，用做平行语料。

可以使用SEMG(表面肌电信号)采集装置采集相应的表面肌电信号。在采集有声表面肌电信号时，同时进行采集对应的音频信号。

可以使用但不限于以下方式采集无声说话状态下的无声表面肌电信号及对应的信息：给出具体文字内容，其内容与有声说话时内容相同，当被采集人无声说话时，采集其无声表面肌电信号。

在模型建立时，需要同时采集无声说话状态下的无声表面肌电信号及对应的信息，采集有声说话状态下的有声表面肌电信号和对应的音频信号。在进行无声语音识别时，仅需要采集无声说话状态下的无声表面肌电信号。

S2：对采集的表面肌电信号和音频信号进行预处理和特征提取。

采集的面部肌电信号包括无声表面肌电信号及有声表面肌电信号。采集的面部肌电信号和音频信号进行预处理和特征提取后，分别获得无声肌电特征、有声肌电特征和音频特征。

S21：对采集的表面肌电信号进行滤波和工频噪声降噪。

面部肌电信号采集过程中电极和皮肤表面形成偏移，采集过程中电极线移动、皮肤表面形变等产生移动伪迹噪声，主要分布在低频段，会对无声语音识别造成影响。面部肌电信号的有效信息范围在30～500Hz，本发明采用高通滤波进行滤波，包括对无声表面肌电信号及有声表面肌电信号进行滤波。

工频噪声是由交流电的工频干扰引起的，工频噪声的去除使用50Hz的无限冲激响应陷波器，同时使用100Hz，150Hz，200Hz，250Hz和350Hz的凹陷滤波器进行相应倍频的滤波。

滤波和降噪后，获得滤波降噪后的面部肌电信号。无声肌电特征和有声肌电特征对应生成滤波降噪后的无声肌电信号和滤波降噪后的有声肌电信号。滤波降噪后的面部肌电信号包括滤波降噪后的无声肌电信号和滤波降噪后的有声肌电信号。

S22：采用移动平均法对滤波降噪后的面部肌电信号进行活动段检测，分割出有效面部肌电信号段。

目前活动段检测的方法主要有三种，分别是移动平均法、短时傅里叶变换法、基于熵的理论方法。本发明使用移动平均法对滤波降噪后的面部肌电信号进行活动段检测。

对所有通道的面部肌电信号绝对值求和再求其平均值，利用移动窗口，取一些连续时间段内面部肌电信号，求其局部绝对平均值，若其后点的均值都超过一定阈值，那么这就是动作开始点，反之，若其后若干点均值都小于阈值，则被认为是动作终止。通过这种方式，分割出有效面部肌电信号段，从而排除无效段的噪声干扰。

滤波降噪后的无声肌电信号和滤波降噪后的有声肌电信号分割出有效无声肌电信号段和有效有声肌电信号段，有效面部肌电信号段包括有效无声肌电信号段和有效有声肌电信号段。

S23：提取出有效面部肌电信号段的时域特征。

时域特征包括高频成分、低频成分的平均值和均方值，信号的过零率。过零率(zero-crossingrate，ZCR)是指在每帧中信号过零点的次数，即信号从负数变成正数，或信号从正转负。

可以使用但是不限于三角滤波器将每个通道的信号分成高频和低频成分，再分别求高频成分、低频成分的平均值、均方及信号的过零率。

有效面部肌电信号段提取出时域特征后，得到有效面部肌电信号段时域特征。有效面部肌电信号段时域特征包括有效无声肌电信号段时域特征和有效有声肌电信号段时域特征。

S24：提取音频信号梅尔频率倒谱系数动态特征。

梅尔频率倒谱系数(MFCC)是一种在语音识别和语音生成领域被广泛使用的特征。

提取音频信号梅尔频率倒谱系数动态特征包括：

S241：对采集的音频信号进行预加重、分帧、加窗。

预加重是为了降低口唇辐射的影响，提高音频信号信噪比，使用差分方程实现预加重，如式(1)所示：

y(n)＝x(n)-α*x(n-1) (1)

其中，n为音频信号的采样点，x(n)为采样点n所对应的音频信号，α为滤波器系数，y(n)为预加重后的音频信号。

由于在信号处理中只能处理平稳，而音频信号在非常短的时间范围内可以认为是平稳信号，因此需要将语音分成小段，即使用分帧处理加重后的音频信号。以200个采样点为一帧长度，以50采样点为相邻帧移动的距离，不足一帧时补零。

加窗是为了解决信号非周期截断造成的频谱拖尾现象泄露问题，使得信号更为连续。本发明可以使用多种加窗方式进行加窗，对已经分帧的音频信号进行加窗，如汉明窗、汉宁窗、矩形窗等。加窗后生成若干短时分析窗。

S242：对每一个短时分析窗，通过快速傅里叶变换得到对应的变换后频谱。

使用快速傅里叶变换(FFT，fastFouriertransform)对每一个短时分析窗进行变换，得到对应的频谱。为满足FFT“分治”策略，需要对帧长进行补零，使补零后长度为2的幂次方。

使用式(2)得到对应的变换后频谱：

其中，Y(k)为语音信号经FFT变换后频谱，y(n)为输入的语音信号，N为傅里叶变换的点数，j表示复数。

S243：将变换后频谱通过Mel滤波器组得到Mel频谱。

人耳所听到的频率与声音频率并不成线性正比关系，使用Mel频率更符合人耳听觉特性。因此需将实际频率尺度转换为Mel频率尺度，如式(3)所示：

其中，f为原频谱，Mel(f)为转换后的Mel频谱。

在Mel频率域上确定最低频率Mel_low、最高频率Mel_high和Mel滤波器个数L。

将每一个三角滤波器中心频率c(l)在Mel频率上等间隔分配。设o(l)、c(l)、h(l)分别为第l个三角形滤波器的最低频率(即Mel_low)、中心频率、最高频率(即Mel_high)，则：

c(l)＝h(l-1)＝o(l+1) (4)

每个三角形滤波器W_l(k)如式(5)所示：

其中，W_l(k)为三角滤波器的频率响应，k为频率。

使用三角滤波器对变换后频谱进行滤波，每一个三角滤波器输出的对数能量为对应的Mel频谱，如式(6)所示：

其中，L为Mel滤波器个数。

S244：对Mel频谱进行离散余弦变换得到MFCC系数。

对Mel频谱进行离散余弦变换(DCT)得到MFCC系数，如式(7)所示：

L是三角滤波器个数，Q是MFCC系数阶数，通常取12-16。

S245：使用MFCC系数计算MFCC动态特征。

MFCC系数仅体现了当前帧的语音特性，是MFCC的静态特征，为了使特征体现时序连续性，可对静态特征进行差分，得到静态特征的一阶差分，如式(8)所示：

d(t)是第t个一阶差分值，C(t)是第t个倒谱系数值，Q是倒谱系数的最大阶数，K是一阶差分的时间差，一般可取1或取2。

静态特征的二阶差分则将上式结果再次代入进行计算即可。

最后，再将静态特征和一阶差分、二阶差分值合并起来得到MFCC动态特征。

MFCC动态特征即提取音频信号梅尔频率倒谱系数特征后得到音频特征。

S23与S24不分先后顺序，可以同时进行，也可以任意顺序进行。

S3：将提取的无声肌电特征和有声肌电特征送入编码器-解码器网络中，训练生成SAEM模型和ASEM模型。

本发明的编码器-解码器网络为一个Seq2Seq网络，网络以Conformer为编码器、自回归循环网络为解码器，如图5所示。

编码器由多个Conformer模块组成，如图6所示，Conformer模块由前馈神经网络子模块(Feed Forward Module)、多头注意力子模块(Multi-head self-attention Module)、卷积子模块(Convolution Module)三个子模块组成，每个子模块之间使用残差连接。

所述前馈神经网络子模块，包括一个LayerNorm层，一个线性层，一个Swish激活函数和Dropout，前馈神经网络子模块计算方式记为y₁＝FFN(x)，如式(9)所示：

其中，x_I表示第i个维度输入,

x'_i、x″_i、x″′_i都是中间变量；其中Swish()激活函数如下所示：

f(x)＝x·sigmoid(x)

x是变量，sigmoid函数为

所述多头注意力子模块，包括一个LayerNorm，一个相对位置编码，一个Dropout和一个自注意力机制，多头注意力子模块计算方式记为y₂＝MHSA(x)，如式(10)所示：

其中，x_i表示第i个维度输入,

x'_i、x″_i都是中间变量。

所述卷积子模块，包括一个LayerNorm，两个point-wise卷积，一个线性门单元(GatedLinearUnit)，一个Depth-wise卷积，一个BatchNorm和一个Dropout，卷积子模块计算方式记为y₃＝Conv(x)，如式(11)所示：

其中，x_i表示第i个维度输入,

x'_i、x″_i、x″′_i都是中间变量。

整个Conformer块的计算方式如式(12)所示：

其中，x是解码器的输入序列，x＝{x₁,x₂,…,x_i,…x_N}，x_i表示第i维信号特征输入，FFN()表示前馈神经网络子模块，MHSA()表示多头自注意力子模块，Conv()表示卷积子模块，y_i表示第i维Conformer块的计算结果,

x'_i1、x″_i1都是中间变量。

解码器是一个自回归循环神经网络，根据编码器的输出序列和解码器的输入序列预测输出，每次预测一帧。解码器由一层Pre-net网络、两层LSTM、Attention层、线性层和sigmoid组成，其计算方式如式(13)所示：

其中，x是解码器的输入序列，x＝{x₁,x₂,…,x_i,…x_N}，

x'都是中间变量，context是上下文向量，初始时被初始化为0；h是循环神经网络的隐藏向量；c是循环神经网络的记忆单元向量；s是编码器的输出，s＝{s₁,s₂,…,s_i,…s_M}，frame是解码器预测的信号特征，stop_token是解码的终止条件，在进行预测时，当stop_token大于某一阈值时，就终止预测。

其中，Pre-net是双层全连接网络，每层由256个隐藏ReLU单元组成，可以表示为式(14)所示：

Prenet(x)＝ReLU(ReLU(xW_A+b_A)W_B+b_B) (14)

其中，W_A是x的权重系数，bx是xW_A的偏移量，W_B是ReLU(xW_A+b_A)的权重系数，b_B是ReLU(ReLU(xW_A+b_A)W_B的偏移量，ReLU(·)是激活函数，x是输入序列。Pre-net对于模型学习注意力是非常有用的。

在编码器-解码器网络，输入进入编码器网络：输入进入Confromer模块，在conformer模块中输入通过前馈神经网络子模块并乘以0.5进行缩放，加上原始输入，作为多头注意力子模块的输入；然后经过多头注意力子模块后与输入相加作为卷积子模块输入；再通过卷积子模块提取特征信息，与卷积模块的输入相加，作为另一个前馈神经网络子模块的输入；最后输入经过前馈神经网络子模块与输入相加，对结果进行归一化为编码器网络的输出；解码器网络的输入和编码器网络的输出一起进入解码器网络进行解码，首先解码器的输入经过双层全连接网络(Pre-net)，Pre-net的输出和注意力上下文向量拼接在一起(注意力上下文向量被初始化为零，经过一步计算后被更新)，送入第一层LSTM网络，第一层LSTM的隐藏层结果和编码器网络的输出一起送入Attention层，得到注意力上下文向量，将第一层LSTM的隐藏层结果和注意力上下文向量再次拼接在一起，送入第二次LSTM网络，得到第二层LSTM网络的隐藏层向量，将隐藏层与注意力上下文向量拼接，通过线性层得到输出，每一帧输出通过sigmoid层得到终止值。

当输入为无声肌电特征，输出为有声肌电特征时，这个Seq2Seq网络用于训练无声肌电到有声肌电转换的SAEM模型。当输入为有声肌电特征，输出为无声肌电特征时，这个Seq2Seq网络用于训练有声肌电到无声肌电转换的ASEM模型。

S4：使用回译的方法优化SAEM模型。

本发明使用回译(Back Translation)的方法，提高无声肌电转有声肌电效果，用于优化SAEM模型，如图3、图4所示。

语料，即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。平行语料，指收录了具有同一含义的不同表示的语料，以机器翻译为例，即两种语言文本的语料，两种语言的文本互为译文。由于无声肌电——有声肌电的平行语料数据集较少，采集无声肌电信号难度较高，本发明采用回译的方法充分利用非平行语料——有声肌电，提升识别效果。

回译是机器翻译中常见的数据增强方法，用于解决训练时“源语言——目标语言”样本对数据不足的问题。在机器翻译领域中的具体做法是将目标语言y翻译为源语言x'，该翻译通过模型推理实现，将翻译得到的“伪源语言x'——y”作为平行语料和原来的平行语料一起，训练源语言到目标语言的机器翻译模型。一般是通过将数翻译为另一种语言再译回源语言。

本发明使用这种数据增强的方法，将该方法用于优化SAEM模型。

在S3中，已经分别得到了无声肌电转有声肌电模型SAEM和有声肌电转无声肌电模型ASEM。对于较为丰富的非平行有声肌电语料，使用回译的方法，将有声肌电特征aEmg输入ASEM模型中生成无声肌电特征sEmg'，将伪无声肌电特征sEmg'——aEmg作为伪平行语料，和原来的平行语料sEmg——aEmg一起作为训练数据，训练SAEM，理想情况下，生成的新有声肌电特征aEmg'应该与原肌电特征aEmg有相同的分布，可以用MSE LOSS作为损失优化函数，亦或其他衡量数据分布的损失函数。

MSE LOSS如下式(15)所示：

其中，y_i是真实结果，

是模型预测结果，N是样本数目。

本发明在模型训练时只优化SAEM模型。

当SAEM模型训练好后，将无声肌电特征送入SAEM模型，得到对应的有声肌电特征。

S5：建立一个有声肌电特征到音频特征的语音转换模型，并使用语音转换模型对对应的有声肌电特征进行转换。

本发明还通过训练，得到语音转换模型，用于将有声肌电特征转为音频特征。

本发明先建立转化网络，在建立网络时，可选择双向LSTM网络、双向GRU网络、Transformer Encoder(Transformer的编码器)等。以下以Transformer的编码器作为转换网络结构为例进行说明。

转换网络由Transformer编码器后接一个Linear层组成，如图7所示，其中，编码器由多个编码块组成，每个编码块由多头注意力(multi-head self-attention mechanism)和前向神经网络(fully connected feed-forward network)两个子模块构成，对每个子模块的输出结果进行dropout并与输入残差连接后进行标准化，并作为下一子模块的输入。子模块输入设置为相同维度。通过子模块之间使用残差连接和标准化，提升模型准确性，加速模型收敛。前向神经网络为全连接前馈网络，使用两个线性变换，激活函数为ReLU。其中多头注意力使用点积注意力，输入为Query、Key、Value向量，维度分别为d_k、d_k、d_v，Query、Key、Value是输入经过不同线性变换的结果。在计算时，分别计算Query和不同Key的点积，将点积结果除以

并使用softmax函数计算Key对应权重。将Q、K、V分为h个部分，每个部分关注不同的内容，Q_i,K_i,V_i就是Q、K、V的第i部分。每个Q_i,K_i,V_i计算的注意力结果head_i称为一个头。编码块如图8所示，其计算如式(16)所示：

其中，Q、K、V为Query、Key、Value向量组成的矩阵,d_k是k的维度，Concat是拼接操作，head_i是多头注意力中不同的头，Attention_output是多头注意力模块残差连接后的输出，为中间计算结果，output是最终输出。W^O是多头注意力线性变换的权重。

转换网络首先使用Transformer编码器对输入进行特征提取，后接一个Linear层对提取的高维特征降维至MFCC特征维度，完成转换。将提取的有声肌电特征及音频特征送入转换网络中，其中，有声肌电特征为输入，音频特征为输出，辅助使用音频的对应文本对齐信息对预测结果进行限制，损失函数使用MSE LOSS或其他损失函数，如DTW对齐距离等。通过训练，得到语音转换模型。

生成语音转换模型后，将对应的有声肌电特征转为对应的音频特征。

S6：建立一个音频特征到语音信号的语音合成模型，使用语音合成模型将对应的音频特征转换为生成的音频信号，使用现有语音识别模型将生成的音频信号转为文本。

本发明采用常用的声码器模型Wavenet建立语音合成模型。将音频特征及对应的音频信号，送入Wavenet模型中进行训练，生成语音合成模型。

使用语音合成模型将对应的音频特征转换为生成的音频信号，再使用现有语音识别模型将生成的音频信号转为文本。语音识别模型可以有多种选择，如科大讯飞、云知声、腾讯等语音识别系统等。

本发明实施例提供了一种基于回译的无声语音识别的系统，如图2所示，

所述系统包括：

采集模块，用于采集无声说话状态下的无声表面肌电信号；

音特转音号模块，用于使用语音合成模型将对应的音频特征转化为生成的音频信号，

所述SAEM模型，通过如下方式训练获得：

使用回译的方法优化SAEM模型。

所述使用回译的方法优化SAEM模型包括：

将有声肌电特征aEmg输入ASEM模型中生成无声肌电特征sEmg'，将伪无声肌电特征sEmg'——aEmg作为伪平行语料，和原来的平行语料sEmg——aEmg一起作为训练数据，训练SAEM；使用MSE LOSS作为损失优化函数；

MSE LOSS如下式(15)所示：

其中，y_i是真实结果，

是模型预测结果，N是样本数目。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于回译的无声语音识别方法，其特征在于，所述无声语音识别方法包括：

采集无声说话状态下的无声表面肌电信号；

将无声肌电特征送入SAEM模型得到对应的有声肌电特征；

2.根据权利要求1所述的一种基于回译的无声语音识别方法，其特征在于，

所述SAEM模型，通过如下方式训练获得：

使用回译的方法优化SAEM模型。

3.根据权利要求2所述的一种基于回译的无声语音识别方法，其特征在于，

所述编码器-解码器网络为一个Seq2Seq网络，网络以Conformer为编码器、自回归循环网络为解码器；

其中，x_i表示第i个维度输入；

其中，x_i表示第i个维度输入；

其中，x_i表示第i个维度输入；

整个Conformer块的计算方式如式(12)所示：

其中，x是解码器的输入序列，x＝{x₁,x₂,…,x_i,…x_N}，x_i表示第i维信号特征输入，FFN()表示前馈神经网络子模块，MHSA()表示多头自注意力子模块，Conv()表示卷积子模块，y_i表示第i维Conformer块的计算结果；

其中，x是解码器的输入序列，x＝{x₁,x₂,…,x_i,…x_N}，

Prenet(x)＝ReLU(ReLU(xW_A+b_A)W_B+b_B) (14)

其中，W_A是x的权重系数，b_A是xW_A的偏移量，W_B是ReLU(xW_A+b_A)的权重系数，b_B是ReLU(ReLU(xW_A+b_A)W_B的偏移量，ReLU(·)是激活函数，x是输入序列。

4.根据权利要求3所述的一种基于回译的无声语音识别方法，其特征在于，

所述将提取的无声肌电特征和有声肌电特征送入编码器-解码器网络中，训练生成SAEM模型和ASEM模型，包括：

输入进入编码器网络和输入进入解码器网络；

所述输入进入编码器网络包括：

输入进入Confromer模块；

输入进入解码器网络包括：

首先解码器网络的输入进入Pre-net网络；

5.根据权利要求4所述的一种基于回译的无声语音识别方法，其特征在于，

所述使用回译的方法优化SAEM模型包括：

MSE LOSS如下式(15)所示：

其中，y_i是真实结果，

是模型预测结果，N是样本数目。

6.根据权利要求5所述的一种基于回译的无声语音识别方法，其特征在于，

所述语音转换模型，通过如下方式训练获得：

所述转换网络由Transformer编码器后接一个Linear层组成；

其中，Q、K、V为Query、Key、Value向量组成的矩阵,d_k是k的维度，Concat是拼接操作，head_i是多头注意力中不同的头，Attention_output是多头注意力模块残差连接后的输出，为中间计算结果，output是最终输出，W^O是多头注意力线性变换的权重；

所述有声肌电特征和音频特征，使用如下方式获得：

7.根据权利要求6所述的一种基于回译的无声语音识别方法，其特征在于，

所述进行预处理和特征提取，包括：

对采集的表面肌电信号进行滤波和工频噪声降噪；

提取出有效面部肌电信号段的时域特征；

提取音频信号梅尔频率倒谱系数特征；

所述提取音频信号梅尔频率倒谱系数特征包括：

对采集的音频信号进行预加重、分帧、加窗；

将变换后频谱通过Mel滤波器组得到Mel频谱；

对Mel频谱进行离散余弦变换得到MFCC系数；

使用MFCC系数计算MFCC动态特征。

8.一种基于回译的无声语音识别系统，其特征在于，

所述系统包括：

采集模块，用于采集无声说话状态下的无声表面肌电信号；

9.根据权利要求8所述的一种基于回译的无声语音识别系统，其特征在于，

所述SAEM模型，通过如下方式训练获得：

使用回译的方法优化SAEM模型。

10.根据权利要求9所述的一种基于回译的无声语音识别系统，其特征在于，

所述使用回译的方法优化SAEM模型包括：

MSE LOSS如下式(15)所示：

其中，y_i是真实结果，

是模型预测结果，N是样本数目。