CN114822542B

CN114822542B - 一种不同人分类辅助的无声语音识别方法和系统

Info

Publication number: CN114822542B
Application number: CN202210441272.XA
Authority: CN
Inventors: 张亚坤; 谢良; 蔡慧慧; 印二威; 王凯; 张敬; 罗治国; 张皓洋; 闫野
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2024-05-14
Anticipated expiration: 2042-04-25
Also published as: CN114822542A

Abstract

本发明公开了一种不同人分类辅助的无声语音识别方法和系统，方法包括获取无声说话状态下的面部肌电信号，对面部肌电信号进行预处理并提取肌电特征；将肌电特征送到无声语音识别模型中进行识别，得到识别出的指令信息；将识别出的指令传输到设备上，进行显示或相应设备的操控。本发明提出了一种利用双流网络结构进行不同人分类辅助不同指令分类的无声语音识别模型，该模型将不同人的肌电信号差异信息作为肌电信号不同指令信息的辅助信息，与不同指令信息进行特征融合，从而降低模型训练的难度，提高模型对不同人肌电信号的鲁棒性和肌电信号指令识别的性能，通过这种辅助信息的融合，能够获得更高的识别准确率。

Description

一种不同人分类辅助的无声语音识别方法和系统

技术领域

本发明属于语音识别领域，特别涉及一种不同人分类辅助的无声语音识别方法和系统。

背景技术

语言交流是最自然、最有效的交流方式，但是周围环境嘈杂的噪声十分影响语音识别的准确率，在公共场合中隐私信息的传递也是语音交流的一个问题。由于语音识别的迅速发展，无声语音识别的研究也逐渐展开，不依赖声学的语音识别技术在各个领域都有广泛的应用价值。目前唇语识别的发展为无声语音的识别做出了突出的贡献。而基于面部肌电信号的无声语音识别也逐渐成为了研究热点，面部的肌肉组织可以有效控制唇部执行各种复杂的功能，比如说话、咀嚼和各种面部表情等，通过肌电采集装置可以记录说话时肌肉收缩的生物电信号，为基于面部肌电信号的无声语音识别提供了可能。现有的无声语音识别技术一般通过扩大数据集或寻找更优的识别模型来提高无声语音识别的准确率，但是肌电信号具有较低的鲁棒性和泛化能力，对模型训练的质量有很大影响，同时增加了数据采集的工作量和也增大了模型训练的难度。

在使用无声的方式说话时，不同人的面部肌电信号之间的差异是很大的。同一条指令由不同的人说出来，其肌电信号的频率及信号包络会有很大的差别，同一条指令即便是由同一个人说，在不同的时间段，其信号也各不相同。直接使用不同人的面部肌电信号通过一个神经网络训练肌电信号指令的分类不但增加了模型训练的难度，而且不利于识别结果准确率的提高。

发明内容

本发明提出了一种不同人分类辅助的无声语音识别方法，包括：

获取无声说话状态下的面部肌电信号，对面部肌电信号进行预处理并提取肌电特征；

将肌电特征送到无声语音识别模型中进行识别，得到识别出的指令信息；

将识别出的指令传输到设备上，进行显示或相应设备的操控。

进一步地，所述对面部肌电信号进行预处理并提取肌电特征包括：

对采集到的面部肌电信号进行工频噪声和基线漂移误差的滤波降噪；

采用基于信息熵的方法对滤波后的面部肌电信号进行肌电信号起始端点和终止端点的检测，分割出有效肌电信号段；

提取出有效肌电信号段的梅尔频率倒谱系数特征；

所述提取出有效肌电信号段的梅尔频率倒谱系数特征，包括：

对有效肌电信号段进行预加重、分帧和加窗操作；

对每一个短时分析窗，通过FFT得到对应的频谱；

将所述频谱通过Mel滤波器组得到Mel频谱；

将Mel频谱取对数并经过余弦变换得到MFCC特征。

进一步地，所述无声语音识别模型使用如下方式建立：

获取若干面部肌电信号及对应的词语，对所述面部肌电信号进行预处理并提取肌电特征；将提取的肌电特征及对应的词语送入双流网络结构中进行特征学习。

进一步地，所述双流网络结构，包括深度神经网络和LSTM网络并列的网络结构，深度神经网络和LSTM网络之间使用特征交互模块进行信息交互，所述特征交互模块为残差卷积神经网络；深度神经网络和LSTM网络输出部分与特征融合层连接，特征融合层与分类预测层的输入层连接，所述分类预测层为全连接神经网络。

进一步地，所述深度神经网络用于不同人特征的学习；

其输入数据为不同人的相同无声语音指令对应的肌电特征，输出数据为其学习到的相同无声语音指令中不同人的特征；

所述LSTM用于不同指令特征的学习；

其输入数据为同一个人的肌电特征，输出数据为对应的不同的无声语音指令；

包括：

将肌电信号所对应的不同指令特征x_t作为网络的输入特征输入到遗忘门中，通过一个sigmoid激活函数对输入特征x_t进行处理；如式(9)所示；

f_t＝sigmoid(W_f1x_t+W_f2h_t-1)+b_f (9)

其中，W_f为LSTM网络模型的权重参数，W_f1为输入特征x_t对应的权重，W_f2为上一层的输出h_t-1对应的权重；b_f为LSTM网络模型遗忘门的偏置参数；

将肌电信号所对应的不同指令特征x_t作为网络的输入特征输入到输入门中，输入门包含两个部分，第一部分使用sigmoid激活函数处理输入特征x_t，输出为i_t；第二部分使用tanh激活函数处理输入特征x_t，输出为i'_i，输入门的输出结果如式(10)所示：

C_t＝C_t-1*f_t+i_t*i'_i (10)

其中，C_t-1是上一个LSTM网络输入门的输出，f_t是遗忘门的输出，i_t和i'_i分别为输入门的中间值；

将肌电信号所对应的不同指令特征x_t作为网络的输入特征输入到输出门中；输出门首先对x_t使用sigmoid激活函数得到o_t，再与输入门的输出值相结合，如式(11)所示：

h_t＝o_t*tanh(C_t) (11)

其中，C_t是输入门的输出值，tanh是激活函数，h_t是LSTM网络最终的输出结果；

所述残差卷积神经网络用于深度神经网络与LSTM之间信息的交互；

所述特征融合层用于融合深度神经网络和LSTM训练后得到的特征；

所述全连接神经网络用于对学习的特征进行分类。

进一步地，所述残差卷积神经网络用于深度神经网络与LSTM之间信息的交互包括：

对于不同指令特征的交互：将不同人特征和不同指令特征进行级联，作为输入送入残差卷积神经网络中，训练出的交互特征再与不同指令特征相加，送入LSTM网络中进行新一轮的学习；

对于不同人特征的交互：将不同指令特征和不同人特征进行级联，作为输入送入残差卷积神经网络中，训练出的交互特征再与不同人特征相加，送入深度神经网络中进行新一轮的学习。

进一步地，所述残差卷积神经网络包括三个残差卷积块；

第一个残差块包含两层大小为3*3*64的卷积，连接32维的输入，卷积层均用于特征提取，两个卷积层级联的输出特征和输入特征相加后，再经过Relu函数激活，得到64维输出；

第二个残差块包括两层大小为3*3*128的卷积，连接64维的输入，卷积层均用于特征提取，两个卷积层级联的输出特征和输入特征相加后，再经过Relu函数激活，得到128维的输出；

第三个残差块包括两层大小为3*3*256的卷积，连接128维的输入，卷积层均用于特征提取，两个卷积层级联的输出特征和输入特征相加后，再经过Relu函数激活，得到256维的输出。

进一步地，所述残差卷积块分成直接映射部分和残差部分；

一个残差块表示为：

x_l+1＝h(x_l)+F(x_l,W_l)

其中h(x_l)为上一层的直接映射，F(x_l,W_l)为上一层的残差部分。

本发明还提出了一种不同人分类辅助的无声语音识别系统，包括：

获取模块，用于获取无声说话状态下的面部肌电信号；

预处理及提取模块，用于对面部肌电信号进行预处理并提取肌电特征；

识别模块，用于将肌电特征送到无声语音识别模型中进行识别，得到识别出的指令信息；

传送模块，用于将识别出的指令传输到设备上，进行显示或相应设备的操控。

进一步地，所述系统还包括模型建立模块；

模型建立模块使用如下方式建立无声语音识别模型：

本发明设计了一种不同人分类辅助的无声语音识别方法和系统，提出了一种利用双流网络结构进行不同人分类辅助不同指令分类的无声语音识别模型。该模型将不同人的肌电信号差异信息作为肌电信号不同指令信息的辅助信息，与不同指令信息进行特征融合，从而降低模型训练的难度，提高模型对不同人肌电信号的鲁棒性和肌电信号指令识别的性能，通过这种辅助信息的融合，能够获得更高的识别准确率。

附图说明

图1示出了本发明实施例中一种无声语音识别方法的流程示意图；

图2示出了本发明实施例中一种无声语音识别系统结构的示意图；

图3示出了本发明实施例中一种无声语音识别系统面部肌电信号采集位置的示意图；

图4示出了本发明实施例中一种无声语音识别方法中双流网络结构示意图；

图5示出了本发明实施例中一种无声语音识别方法中不同指令分类的神经网络示意图；

图6示出了本发明实施例中一种无声语音识别方法中特征交互模块的网络示意图；

图7示出了本发明实施例中一种无声语音识别方法中残差卷积网络的其中一个残差块的网络示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例研究了在无声说话状态下不同人面部肌电信号之间的差异，提出了以多任务辅助学习为框架的双流网络结构模型，将由于说话方式不同而产生的差异作为有用信息，将不同人的分类特征融入不同指令的分类特征中，从而提高整个识别模型的鲁棒性和泛化能力，提高肌电信号不同指令信息的识别准确率，同时降低了不同指令识别模型的复杂度。

本发明设计一种不同人分类辅助的无声语音识别方法，如图1所示。本发明中建立模型或最终的识别，均需要通过肌电采集设备获取面部肌电数据并进行数据预处理和肌电特征提取。

通过肌电采集设备获取面部肌电数据并进行数据预处理和肌电特征提取方法如下。

S101：获取无声说话状态下的面部肌电信号。

如图3所示，图3为4通道的肌电信号电极采集示意图，分别采集了面部提上唇肌、口轮匝肌、降下唇肌、颧肌的面部肌电信号。肌电信号作为生物电信号的一种，是产生肌肉动力的电信号根源，它是肌肉中各个运动单元动作电位在时间和空间上的叠加，很大程度上反映了神经和肌肉的运动状态。可以使用但不限于SEMG(表面肌电信号)采集装置对面部肌电信号进行采集，使用采样电极紧贴不同人脸部相应肌肉，当被采集人无声说话时，采集其面部肌电信号。当建立模型时，采集面部肌电信号同时采集对应的词语。本发明中，词语包括词和简单的句子，如词“吃饭”，简单句子“我饿了”。

S102：对面部肌电信号进行预处理并提取肌电特征。

对采集到的面部肌电信号进行预处理和特征提取，目的是降低特征维度的同时去除冗余特征。

第一步：对采集到的面部肌电信号进行工频噪声和基线漂移误差的滤波降噪。

本发明使用带通滤波法去除面部肌电信号中的基线漂移。由于记录信号和参考电极之间的电位差会引入低频率的噪声从而使信号产生漂移偏离基线，而且每个通道的基线漂移独立于其他通道，会对模型识别信号中的特征识别产生负面影响，因此在一个可行的实施方案中，可以采用10-400Hz的四阶巴特沃斯带通滤波器进行滤波。

本发明使用采用凹陷滤波法去除工频干扰和其倍频噪声。工频噪声是由交流电的工频干扰引起的，工频噪声的去除可以使用50Hz的无限冲激响应陷波器，同时使用150Hz和250Hz的凹陷滤波器进行相应倍频的滤波。

滤波降噪后，生成滤波后的面部肌电信号。

第二步：采用基于信息熵的方法对滤波后的面部肌电信号进行肌电信号起始端点和终止端点的检测，分割出有效肌电信号段，从而排除无效段的噪声干扰。

针对肌电信号，假设信源发出有限个符号s₁,s₂,…,s_n，它们组成的输出序列前后符号之间相互统计独立，p₁,p₂,…,p_n分别为n个符号出现的概率，则信源的熵定义如式(1)所示：

基于信息熵的端点检测，首先对一段肌电信号进行分帧、加窗；其次计算熵值，可以根据经验取值设置熵值门限。如果熵值大于熵值门限值，则存入信号向量m中，然后从向量中寻找连续的两帧或者两帧以上满足m(i+1)-m(i)>1，则认为m(i+1)为信号的开始，m(i)为信号的结束，重复此过程直至信号结束，选出有效肌电信号段。

第三步：提取出有效肌电信号段的梅尔频率倒谱系数(MFCC)特征。

MFCC是一种在语音识别和说话人识别中广泛使用的特征，模仿了人类的听觉感知状态，就像一个滤波器组，它只关注某些特定的频率分量，无视不想感知的频率信息。因为面部肌电信号具有与语音信号相似的特性，因此可以提取MFCC特征来分析指令信息。

提取MFCC特征的过程：

(1)先对有效肌电信号段进行预加重、分帧和加窗操作。

预加重过程的作用是平衡高频通常比低频幅度更小导致的频谱不平衡问题，加强高频信息，使用式(2)进行预加重：

y(n)＝x(n)-α*x(n-1) (2)

其中，n为肌电信号的采样点，x(n)为采样点n所对应的肌电信号，α为滤波器系数，y(n)为预加重后的肌电信号。

将信息从时域转化为频域的过程中，采用分帧操作来防止时域信息的丢失，分帧是将原始肌电信号分成大小固定的肌电信号，使用式(3)进行分帧：

N＝y(n)*t (3)

其中，N为帧总数，t为帧长。

在分帧操作之后，对每一帧信号使用窗函数进行加窗操作，可以使用但不限于汉明窗(Hamming窗)，使用式(4)进行加窗：

其中，w(n)为肌电信号加窗处理后的窗函数，n为肌电信号的采样点，α为不同汉明窗的系数，N为帧数。

加窗后生成若干短时分析窗。

(2)对每一个短时分析窗，通过FFT(快速傅里叶变换，fast Fourier transform)得到对应的频谱。使用式(5)得到对应的频谱。

其中，X(k)为肌电信号的频域信号，F_N表示傅里叶变换的点数。

(3)将对应的频谱通过Mel滤波器组得到Mel频谱，采用的Mel滤波器为三角滤波器，Mel滤波器的个数可以根据要求制定，三角滤波器的频率响应定义如式(6)所示：

其中，m为不同三角滤波器的序号，f(m)为不同的三角滤波器，H_m(k)为三角滤波器的频率响应。

(4)对经过Mel滤波器组滤波后的信号数据(即Mel频谱)取对数，计算对数能量如式(7)所示：

其中，X(k)为肌电信号的频域信号，H_m(k)为三角滤波器的频率响应。

经过离散余弦变换即得到MFCC系数特征，如式(8)所示。

其中，s(m)为信号数据的对数能量，M是三角滤波器的个数，n是MFCC系数的阶数。

MFCC特征即为所提取的肌电特征。

本发明用以下方式建立模型。

S103：获取若干面部肌电信号及对应的词语，并对所述面部肌电信号进行预处理并提取肌电特征；将提取的肌电特征及对应的词语送入双流网络结构中进行特征学习，最后生成无声语音识别模型。

预先获得若干无声说话状态下的面部肌电信号及对应的词语，包括同一个人的若干无声说话状态下的面部肌电信号，如A用户的，对于词语a、b、c等无声说话状态下对应的面部肌电信号；包括不同人的，若干对于相同词语的无声说话状态下的面部肌电信号，如A、B、C等用户，对于相同词语a无声说话状态下对应的面部肌电信号。对这些面部肌电信号进行预处理并提取对应的肌电特征。无声说话状态下的词语，即无声语音指令。

无声说话状态下的面部肌电信号及对应的语言可以通过信息采集方式获取，如对于A用户，限定词语a，无声说话时采集其对应的面部肌电信号，同样能够得到其他词语对应的面部肌电信号。

在本发明实施例中建立了一个双流网络结构，如图4所示。所述双流网络包括两个并列的不相同的神经网络，两个的神经网络分别代表着不同的分类学习任务，在两个神经网络学习的过程中建立特征交互模块，用于在两个任务之间交换信息，互相学习，从而增强自身的特征。

本发明实施例所使用的双流网络结构，包括两个并列的神经网络，深度神经网络和LSTM(长短期记忆)网络，深度神经网络可以使用CNN(卷积神经网络)、RNN(循环神经网络)、GAN(生成式对抗网络)等。本文的深度神经网络以CNN示例性说明。CNN和LSTM网络之间使用特征交互模块进行信息交互，特征交互模块为残差卷积；用于在两个任务之间交换信息，互相学习，从而增强自身的特征。CNN和LSTM网络输出部分与特征融合层连接，通过特征融合层融合后的特征与分类预测层(即不同指令分类器)输入层连接，分类预测层为全连接神经网络(DNN)。

在本发明实施例深度神经网络和LSTM网络的两个学习任务中，其中主任务是不同指令特征的学习，采用LSTM网络进行特征的训练。不同指令特征指同一个人，其不同的无声语音指令对应着不同的肌电特征，目的是对无声语音指令的识别。其输入数据为同一个人的肌电特征，输出数据为对应的不同的无声语音指令。

辅任务是不同人特征的学习，采用深度神经网络进行特征的训练。不同人特征指不同的人，其相同的无声语音指令对应着不同的肌电特征，目的是找出人与人无声说话时肌电的区别，学习一个具有多人肌电信号差异的特征。其输入数据为不同人的相同无声语音指令对应的肌电特征，输出数据为其学习到的相同无声语音指令中不同人的特征。

特征融合层为事件检测提供额外的有效信息，从而实现容忍不同人差异的肌电信号指令识别系统。

在本发明实施例中，所述的肌电信号不同指令特征的分类任务由LSTM网络构成，其网络结构如图5所示，LSTM是长短期记忆网络，是一种用于处理序列数据的神经网络。LSTM是解决循环神经网络RNN结构中存在的“梯度消失”问题而提出的，是一种特殊的循环神经网络，同时，LSTM在设计上明确的避免了长期依赖的问题。

在LSTM中，第一阶段是遗忘门，遗忘层决定哪些信息需要被遗忘。下一阶段是输入门，输入门确定哪些新信息能够被存储。最后一个阶段是输出门，输出门确定输出什么值。

不同指令特征在LSTM网络中的学习过程：

首先，将肌电信号所对应的不同指令特征x_t作为网络的输入特征输入到遗忘门中，如式(9)所示。式(9)中，通过一个sigmoid激活函数对输入特征x_t进行处理。W_f为LSTM网络模型的权重参数，W_f1为输入特征x_t对应的权重，W_f2为上一层的输出h_t-1对应的权重，W_f1和W_f2的初始值是通过一组输入信号与对应的输出之间的关系计算出来的，随着数据的不断增加和神经网络的迭代更新，训练出最终的权重值；b_f为LSTM网络模型遗忘门的偏置参数，可通过在训练模式时得到其具体值。

f_t＝sigmoid(W_f1x_t+W_f2h_t-1)+b_f (9)

其次，将肌电信号所对应的不同指令特征x_t作为网络的输入特征输入到输入门中。输入门包含两个部分，第一部分使用sigmoid激活函数处理输入特征x_t，输出为i_t，第二部分使用tanh激活函数处理输入特征x_t，输出为i'_i，输入门的输出结果如式(10)所示，其中C_t-1是上一个LSTM网络输入门的输出，f_t是遗忘门的输出，i_t和i'_i分别为输入门的中间值。

C_t＝C_t-1*f_t+i_t*i'_i (10)

最后，将肌电信号所对应的不同指令特征x_t作为网络的输入特征输入到输出门中。输出门首先对x_t使用sigmoid激活函数得到o_t，再与输入门的输出值相结合，如式(11)所示，C_t是输入门的输出值，tanh是激活函数，h_t是LSTM网络最终的输出结果。

h_t＝o_t*tanh(C_t) (11)

多个LSTM网络串联可以学习更多的特征信息，h_t就是LSTM网络学习后的结果。

在本发明实施例中，所述的在特征学习的过程中引入特征交互模块，以不同人特征交互网络结构为例，具体的结构如图6所示。特征交互模块采用残差卷积神经网络的方法进行两个不同任务间信息的交互，从不同人分类神经网络中学习到的某些特征将增强不同指令分类信息，相反，从不同指令分类神经网络中学习到的某些特征将增强不同人分类信息。通过互相学习，在两个不同的分类任务之间交换信息，从而增强自身任务的辨别能力。残差卷积神经网络交换信息如式(12)所示。

F_Pout＝F_P+Resnet(h_t,F_P) (12)

F_Wout＝h_t+Resnet(F_P,h_t)

其中，F_P是深度神经网络学习后的特征，h_t是LSTM网络学习后的特征，F_Pout是特征交互后的不同人特征，F_Wout是特征交互后不同指令特征。对于不同指令特征的交互，首先将不同人特征和不同指令特征进行级联，作为输入送入残差卷积网络中，训练出的交互特征再与不同指令特征相加，送入LSTM网络中进行新一轮的学习。

对于不同人特征的交互，首先将不同指令特征和不同人特征进行级联，作为输入送入残差卷积神经网络中，训练出的交互特征再与不同人特征相加，送入深度神经网络中进行新一轮的学习。通过特征的交互学习，充分学习了不同信号之间的差异性，提升分类识别的准确率。

所述的残差卷积神经网络通过使用残差卷积块，既利用卷积结构进行了空间特征的学习，又在卷积网络基础上叠加了恒等映射层，允许原始输入信息直接传输到后面的层中，解决了深层网络难以训练的问题。卷积残差块分成直接映射部分和残差部分。一个卷积残差块可以表示如式(13)所示：

x_l+1＝h(x_l)+F(x_l,W_l) (13)

其中h(x_l)是直接映射，F(x_l,W_l)是残差部分，一般由两个或者三个卷积操作构成。

具体的，所述残差卷积神经网络包括3个残差卷积块，以不同人分支的特征交互为例：

将经过深层神经网络训练后的不同人特征和不同指令特征进行级联，送入第一个残差块中，如图7所示，第一个残差块包含两层大小为3*3*64的卷积，连接32维的输入，卷积层均用于特征提取，两个卷积层级联的输出特征和输入特征相加后，再经过Relu函数激活，得到64维输出；

将得到的特征与原始的不同人特征进行相加，作为输入送入深度神经网络中进行新一轮的学习。

本发明的实施例中，使用特征融合的方法融合两个网络训练后得到的不同人特征和不同指令特征。融合后，送入分类预测层进行分类，分类预测层使用全连接神经网络进行分类。

信号的不同特征体现了信号在不同维度上的信息量，进行特征融合能更有效的组合与无声语音相关的多元信息。将不同人的特征信息与不同指令特征信息的二维特征数据根据实际效果调整不同的权重再进行组合，得到最终输入分类预测层中的融合特征，能加快训练或识别数据，节约计算资源。

示例性的，定义不同人的特征信息权重为QR，不同指令特征信息权重为QZ，QR和QZ根据经验值获得，可以预先设置，则如式(14)所示：

融合特征＝不同人的特征信息*QR+不同指令特征信息*QZ (14)

本发明的实施例中，整个模型包括并联的深度神经网络、LSTM网络和分类预测层，其中深度神经网络和LSTM网络是得到特征，分类预测层是根据特征进行分类。

在本实施例中，分类预测层由全连接神经网络构成。内部的神经网络分为一层输入层和一层输出层。输入层不进行计算，仅传递信息，输出层由多个sigmoid单元组成，负责计算并输出相应的标签信息。将融合特征输入到全连接神经网络中，通过网络的传输与训练便可得到不同无声语音指令的识别结果。

在本发明实施例中，将肌电特征映射到高维空间以学习深度特征。将不同人，其相同的无声语音指令对应着不同的肌电特征通过输入层输入到深度神经网络中，输出为其对应的不同人分类特征。将同一个人，其不同指令的肌电特征通过输入层输入到LSTM中，输出为其对应的不同指令分类特征。两种不同的特征经过残差卷积网络进行交互，再通过特征融合层和分类预测层，最终得到完整的无声语音识别模型。

S104：获取实时面部肌电信号，将实时肌电特征输入到无声语音识别模型中进行分类识别，将识别出来的指令传输到设备上进行显示或者进行相应设备的操控。

在本实施例中，在实时监测环节，实时地采集一组肌电信号数据。首先经过降噪滤波和端点检测，其次，提取出肌电信号中梅尔频率倒谱系数特征，最后送入训练好的无声语音识别模型中，识别出无声语音的指令信息。

识别出的指令信息通过蓝牙传输或者无线传输的方式，将识别出来的无声语音信息传输到PC平台进行实时的显示，或者传输到某些养老助残的智能设备中进行控制。

示例性的，用户A在面部贴上4通道的电极片，采用无声的方式说出一个已经训练过的单词，此时在PC平台的接收界面会显示出该词语，例如“我饿了”“我生病了”等。

本发明实施例提供了一种不同人分类辅助的无声语音识别的系统，如图2所示，包括：

获取模块，用于获取无声说话状态下的面部肌电信号；

所述系统还包括模型建立模块；

模型建立模块使用如下方式建立无声语音识别模型：

本发明所设计的一种不同人分类辅助的无声语音识别方法，提出了一种利用双流网络结构进行不同人分类辅助不同指令分类的无声语音识别模型。该模型将不同人的肌电信号差异信息作为肌电信号不同指令信息的辅助信息，与不同指令信息进行特征融合，从而降低模型训练的难度，提高模型对不同人肌电信号的鲁棒性和肌电信号指令识别的性能，通过这种辅助信息的融合，能够获得更高的识别准确率。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种不同人分类辅助的无声语音识别方法，其特征在于，所述无声语音识别方法包括：

将识别出的指令传输到设备上，进行显示或相应设备的操控；

所述对面部肌电信号进行预处理并提取肌电特征包括：

提取出有效肌电信号段的梅尔频率倒谱系数特征；

对有效肌电信号段进行预加重、分帧和加窗操作；

对每一个短时分析窗，通过FFT得到对应的频谱；

将对应的频谱通过Mel滤波器组得到Mel频谱；

将Mel频谱取对数并经过余弦变换得到MFCC特征；

所述无声语音识别模型使用如下方式建立：

获取若干面部肌电信号及对应的词语，对所述面部肌电信号进行预处理并提取肌电特征；将提取的肌电特征及对应的词语送入双流网络结构中进行特征学习；

所述双流网络结构，包括深度神经网络和LSTM网络并列的网络结构，深度神经网络和LSTM网络之间使用特征交互模块进行信息交互，所述特征交互模块为残差卷积神经网络；深度神经网络和LSTM网络输出部分与特征融合层连接，特征融合层与分类预测层的输入层连接，所述分类预测层为全连接神经网络；

所述深度神经网络用于不同人特征的学习；

所述LSTM用于不同指令特征的学习；

包括：

f_t＝sigmoid(W_f1x_t+W_f2h_t-1)+b_f (9)

C_t＝C_t-1*f_t+i_t*i'_i (10)

h_t＝o_t*tanh(C_t) (11)

所述全连接神经网络用于对学习的特征进行分类；

所述残差卷积神经网络用于深度神经网络与LSTM之间信息的交互包括：

2.根据权利要求1所述的一种不同人分类辅助的无声语音识别方法，其特征在于，

所述残差卷积神经网络包括三个残差卷积块；

3.根据权利要求2所述的一种不同人分类辅助的无声语音识别方法，其特征在于，

所述残差卷积块分成直接映射部分和残差部分；

一个卷积残差块如式(13)所示：

x_l+1＝h(x_l)+F(x_l,W_l) (13)

4.一种不同人分类辅助的无声语音识别系统，其特征在于，所述系统包括：

获取模块，用于获取无声说话状态下的面部肌电信号；

传送模块，用于将识别出的指令传输到设备上，进行显示或相应设备的操控；

所述系统还包括模型建立模块；

模型建立模块使用如下方式建立无声语音识别模型：

所述对面部肌电信号进行预处理并提取肌电特征包括：

提取出有效肌电信号段的梅尔频率倒谱系数特征；

对有效肌电信号段进行预加重、分帧和加窗操作；

对每一个短时分析窗，通过FFT得到对应的频谱；

将对应的频谱通过Mel滤波器组得到Mel频谱；

将Mel频谱取对数并经过余弦变换得到MFCC特征；

所述深度神经网络用于不同人特征的学习；

所述LSTM用于不同指令特征的学习；

包括：

f_t＝sigmoid(W_f1x_t+W_f2h_t-1)+b_f (9)

C_t＝C_t-1*f_t+i_t*i'_i (10)

h_t＝o_t*tanh(C_t) (11)

所述全连接神经网络用于对学习的特征进行分类；