CN111723717A

CN111723717A - 一种无声语音识别方法及系统

Info

Publication number: CN111723717A
Application number: CN202010529322.0A
Authority: CN
Inventors: 赵涛; 陶文源; 闫野; 印二威; 马权智; 刘璇恒; 谢良
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-09-29

Abstract

本发明公开了一种无声语音识别方法及系统，方法包括：采集说话时的面部肌电信号数据和声带振动信号数据；对采集到的两种数据分别进行预处理，经过特征提取及融合后，使用深度学习依次进行训练和识别；将识别出的命令结果发送至接收设备或被操控设备。系统包括：数据采集模块、信号处理模块和通讯交互模块。本发明相对于基于单一信号的无声语音识别方法，它融合了两种用于无声语音识别技术中的特征信号，包括面部肌电信号和声带振动信号，因此能够获得更高的识别准确率。

Description

一种无声语音识别方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种无声语音识别方法及系统。

背景技术

语音识别技术的快速发展为人机交互提供了一个非常有吸引力的模式，目前常用的自动语音识别(Automatic Speech Recognition,ASR)系统都是通过识别声学信号的方式，比如以麦克风作为语音传感器，接收通过空气传导的声音信号，因此当在背景噪声很大的环境下使用时，系统识别的准备率将明显下降，或者在没有声音传播物理介质的环境中将无法使用，比如在外太空的真空环境中等。

由于ASR的这些技术限制场景等问题，无声语音识别系统将能有效克服上述局限性，在诸多领域具有广阔的应用前景。

发明内容

本发明针对目前流行的自动语音识别技术存在的一些局限性，和一些特定场景下的信息沟通或人机交互，提供了一种无声语音识别方法及系统，详见下文描述：

一种无声语音识别方法，所述方法包括：

采集说话时的面部肌电信号数据和声带振动信号数据；

对采集到的两种数据分别进行预处理，经过特征提取及融合后，使用深度学习依次进行训练和识别；

将识别出的命令结果发送至接收设备或被操控设备。

其中，所述对采集到的两种数据分别进行预处理具体为：

将采集到的面部肌电信号使用陷波器去除工频干扰，然后使用带通滤波器进行滤波降噪，对喉部送话器采集到的声带振动信号进行去基线后，使用低通滤波器进行降噪，再分别提取有效活动段的数据；

采用TKE算子，对于一段已经滤波降噪后的一维数据计算公式如下，

Ψ[x(n)]＝x²(n)-x(n+1)x(n-1)

再根据设定好的阈值从数据Ψ[x(n)]中找到信号活动段的起始位置对原数据x(n)进行活动段提取；

分别进行归一化处理后得到高信噪比的面部表面肌电信号预处理数据，和声带振动信号的预处理数据。

进一步地，所述特征提取及融合具体为：

将面部肌电信号数据进行特征提取后的5种特征数据通过对齐时间帧的方式组合成二维特征，声带振动信号的特征数据以相同的方式进行组合；

对这两种信号组合后的二维特征数据根据实际效果调整不同的权重再进行组合，作为神经网络算法进行训练或识别的最终数据，通过特征融合加快训练或识别数据。

一种无声语音识别系统，所述系统包括：数据采集模块、信号处理模块和通讯交互模块，

所述数据采集模块包含两种信息采集单元：面部肌电信号采集单元、声带振动信号采集单元，在无声方式说话时分别同步采集面部肌肉运动产生的电信号数据和声带运动时的振动信号数据；

所述信号处理模块包括：预处理单元、特征提取单元以及识别单元；

其中，预处理单元用于处理数据采集模块接收到的面部肌电信号数据，声带振动信号数据，分别对这两种数据信号进行预处理，特征提取，采用机器学习算法或深度学习方法对融合后的特征数据进行无声语音识别并将结果发送至通讯交互模块。

其中，所述声带振动信号采集单元监测用户是否开始交流，若开始，则各信息采集单元进行相应数据采集；否则，处于待机状态。

进一步地，所述系统还包括：

检测通信环境是否正常，若正常，则将识别到的指令信息发送至通讯交互模块，完成通信交流及外部设备控制；否则，用户重复所说内容。

本发明提供的技术方案的有益效果是：

1、本发明相对于基于单一信号的无声语音识别方法，它融合了两种用于无声语音识别技术中的特征信号，包括面部肌电信号和声带振动信号，因此能够获得更高的识别准确率；

2、本发明的应用领域和应用前景广阔，特别是在军事指令的安全传递及日常交流的隐私保护等方面具有重要意义。

附图说明

图1为一种无声语音识别方法的流程图；

图2为一种无声语音识别系统的结构示意图；

图3为一种无声语音识别系统的面部肌电信号和声带振动信号采集示意图；

图4为一种无声语音识别系统的训练和识别示意图；

图5为一种无声语音识别系统的使用流程和步骤示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

基于不依靠声学信号的无声语音识别方法与相比依赖声学信号传播的自动语音识别在应用场景上有多种优势，如在医疗领域中可以帮助发音障碍患者进行交流；用于火灾、化学物质灾害等救灾现场的通讯；日常生活中人们有很多场合需要保持静音或保护隐私时的通讯；需要在军事指挥作战中或人对机器发出的保密指令等类似场景。

人在无声说话时，首先面部肌肉的运动对应着不同的神经电活动，将引导电极以紧贴的方式放置在口腔周围的面部和喉部的皮肤表面上，对检测到的这些表面肌电信号进行分析与解码，从而识别出话者所说的内容。其次，将喉部送话器紧贴着使用者的喉部，使用者说话时的喉部的声带振动会引起喉部送话器中的碳膜发生形变，使其电阻发送变化而使其两端的电压发生变化，从而将人说话时声带的振动信号转换为电信号，而空气中传导的声波信号无法使喉部送话器中的碳膜发生形变，因此具有很强的抗环境噪声干扰的能力。通过结合肌电传感器采集到的表面肌电信号和喉部送话器采集到的声带振动信号将能够在很大程度上提高无声语音识别的准确率。

实施例1

一种无声语音识别方法，参见图1，该方法包括以下步骤：

101：采集说话时的面部肌电信号数据和声带振动信号数据；

102：对采集到的两种数据分别进行预处理，经过特征提取及融合后，使用深度学习依次进行训练和识别；

103：将识别出的命令结果发送至接收设备或被操控设备。

实施例2

一种无声语音识别系统，参见图2，该系统主要包括：数据采集模块、信号处理模块和通讯交互模块。

其中，数据采集模块包含两种信息采集单元：面部肌电信号采集单元、声带振动信号采集单元，在无声方式说话时分别同步采集面部肌肉运动产生的电信号数据和声带运动时的振动信号数据。

进一步地，信号处理模块包括：预处理单元、特征提取单元以及识别单元。

其中，预处理单元用于处理数据采集模块接收到的面部肌电信号数据，声带振动信号数据。分别对这两种数据信号进行预处理，特征提取，特征融合后，采用机器学习算法或深度学习方法对融合后的特征数据进行无声语音识别并将结果发送至通讯交互模块。

其中，上述信号的预处理包括：去基线处理、滤波、降噪、活动段提取、数据归一化等。为本领域技术人员所公知，本发明实施例对此不做赘述。

上述的特征提取单元用于提取梅尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCCs)，绝对值均值(Mean absolute value,MAV)，过零点数(Zerocrossing,ZC)，斜率改变次数(Slope sign change,SSC)，平均频率(Mean frequency,MNF)等，均为本领域技术人员所公知，本发明实施例对此不做赘述。

进一步地，机器学习算法包括：线性判别分析(Linear Discriminant Analysis，LDA)和支持向量机(Support Vector Machine,SVM)等。

深度学习方法包括：卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆神经网络(Long Short-Term Memory,LSTM)等。

具体实现时，上述的识别单元采用机器学习中的LDA或SVM算法或深度学习中的CNN或LSTM神经网络算法对融合后的特征数据进行训练得到训练好的模型；

还包括利用训练好的模型识别说出的命令或无声语音，并将识别结果发送到通讯交互模块。

通讯交互模块，用于将无声语音识别出的内容发送至与其相连接的接收设备或被操控的设备。

实施例3

下面结合图3-图5对实施例2中的方案进行进一步地介绍，详见下文描述：

如图3所示，为该系统的数据采集设备示意图，包括：肌电传感器和喉部送话器，由于人在说话时面部肌肉的运动对应着不同的神经电活动，以表面电极为引导电极，放置在口腔周围的面部皮肤上，通过与活动肌肉所在区域的皮肤表面紧密接触的方式，测量肌肉电活动在检测电极处的综合电位而得到面部肌电信号，采样率为1000Hz，采集到的原始肌电信号为4通道的一维信号。通过紧贴在喉部的喉部送话器，使用者说话时的喉部的声带振动会引起喉部送话器中的碳膜发生形变，使其电阻发送变化而使其两端的电压发生变化，从而将说话时声带的振动信号转换为电信号而采集，采样率为8kHz，量化精度为16位，得到单通道的一维振动信号数据。

如图4所示，预处理阶段，将采集到的面部肌电信号使用50Hz的ChebyshevⅠ型IIR陷波器去除工频干扰，然后使用10-400Hz的ButterworthⅠ型IIR带通滤波器进行滤波降噪，对喉部送话器采集到的声带振动信号进行去基线后，使用2kHz的低通滤波器进行降噪，再分别提取有效活动段的数据，采用的是TKE(Teager–Kaiser energy)算子方法，对于一段已经滤波降噪后的一维数据x(n)，其计算公式如下，

Ψ[x(n)]＝x²(n)-x(n+1)x(n-1)

再根据设定好的阈值从数据Ψ[x(n)]中找到信号活动段的起始位置对原数据x(n)进行活动段提取。最后分别进行归一化处理后得到高信噪比的面部表面肌电信号预处理数据，和声带振动信号的预处理数据。

特征提取阶段，对预处理后的两种信号数据分别进行特征提取，包括MAV，ZC，SSC，MNF，MFCC特征。

MAV特征如下面公式所示，

其中，N为一帧信号的长度，x(i)为该帧中第i时刻的信号大小。

ZC特征如下面公式所示，

其中

th为为了降低静态噪声对零点穿越次数的影响引入的附加判断阈值。

SSC特征如下面公式所示，

MNF特征如下面公式所示，

其中，P_i是第i个数据的能量谱密度值，f_i是第i个数据的频率值。

MFCC特征参数的提取过程主要包括对信号进行预加重和分帧；对于每一帧计算其周期功率谱；应用Mel三角带通滤波器组滤波；计算每个滤波器组输出的对数能量值；对每帧的对数能量应用离散余弦变换并保留第2-13共12个系数得到包含静态特征信息的MFCC特征参数。为了得到信号的动态特征信息，最后再对MFCC特征参数计算其一阶和二阶差分，结合该静态特征信息和动态特征信息组成的MFCCs特征参数能有效提高系统的识别性能。

特征融合阶段，信号的不同特征体现了信号在不同维度上的信息量，进行特征融合能更有效的利用信号种与无声语音相关的信息。首先将面部肌电信号数据进行特征提取后的5种特征数据通过对齐时间帧的方式组合成二维特征，声带振动信号的特征数据以相同的方式进行组合，最后对这两种信号组合后的二维特征数据根据实际效果调整不同的权重再进行组合，作为神经网络算法进行训练或识别的最终数据，通过特征融合能加快训练或识别数据，节约计算资源。

训练和识别阶段可以采用深度学习中的CNN或LSTM神经网络算法，以LSTM为例，LSTM长短期记忆网络，是一种时间递归网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM是解决循环神经网络RNN结构中存在的“梯度消失”问题而提出的，是一种特殊的循环神经网络。同时，LSTM在设计上明确的避免了长期依赖的问题。LSTM精心设计的“门”结构(输入门、遗忘门和输出门)是一种让信息选择式通过的方法，包括一个sigmoid神经网络层和一个pointwise乘法操作。它具有消除或者增加信息到cell state的能力，使得LSTM能够记住长期的信息。具体过程如下：

在LSTM中，第一阶段是遗忘门，遗忘层决定哪些信息需要从cell state中被遗忘。下一阶段是输入门，输入门确定哪些新信息能够被存放到cell state中。最后一个阶段是输出门，输出门确定输出什么值。

(1)遗忘门：遗忘门是以上一层的输出h_t-1和本层要输入的序列数据x_t作为输入，通过一个激活函数sigmoid，得到输出为f_t。f_t的输出取值在[0,1]区间，表示上一层细胞状态被遗忘的概率，1是“完全保留”，0是“完全舍弃”，式中W_f为LSTM网络模型遗忘门的权重参数，b_f为LSTM网络模型遗忘门的偏置参数，通过在训练模式时得到其具体值。

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (5)

(2)输入门：输入门包含两个部分，第一部分使用sigmoid激活函数，输出为i_t，第二部分使用tanh激活函数，输出为

式中W_i为LSTM网络模型输入门的权重参数，b_i为LSTM网络模型输入门的偏置参数，通过在训练模式时得到其具体值。

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (6)

到目前为止，f_t是遗忘门的输出，控制着上一层cell state中C_t-1被遗忘的程度，

为输入门的两个输出乘法运算，表示有多少新信息被保留。基于此，我们就可以把新信息更新为这一层的cell state中C_t值。

(3)输出门：输出门用来控制该层的cell state有多少被过滤。首先使用sigmoid激活函数得到一个[0,1]区间取值的o_t，接着将C_t通过tanh激活函数处理后与o_t相乘，即是本层的输出h_t，式中W_o为LSTM网络模型输出门的权重参数，b_o为LSTM网络模型输出门的偏置参数，通过在训练模式时得到其具体值。

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (9)

h_t＝o_t*tanh(C_t) (10)

其中，LSTM中前向传播(forward propagation)就是依次按照时间的顺序计算一次，反向传播(back propagation)就是从最后一个时间将累积的残差传递回来。公式中，w_ij表示从神经元i到j的连接权重；神经元的输入用a表示，输出用b表示；

为损失函数值，δ为反向传播误差值，∈为误差值更新的中间参数；上标t表示t时刻的值；下标l，

和ω分别表示输入门，遗忘门和输出门；下标c表示cell state，从cell state到输入门，遗忘门和输出门的peep hole权重分别记做w_cl，

和w_cω；s_c表示cell state中c的状态；控制门的激活函数用f表示，g、h分别表示cell state的输入、输出激活函数；I表示输入层的神经元个数，K是输出层的神经元个数，H是隐含层中cell state的个数。

前向传播的计算：

输入门：

遗忘门：

cells：

输出门：

cell outputs：

误差反向传播更新：

cell outputs：

输出门：

states：

cells：

遗忘门：

输入门：

实施例4

下面结合图5对本发明的一种无声语音识别系统的工作流程进行说明，详见下文描述：

1、使用者穿戴设备，开启设备开关。无声语音识别系统检测各个模块是否正常开启，各模块(模块对应的设备)之间的通信是否正常；

2、若设备不能正常运行，则提示使用者进行相应模块的检查；

3、数据采集模块中的声带振动信号采集单元监测用户是否开始交流，若开始，则数据采集模块中的各信息采集单元进行相应数据采集；若未开始，则系统处于待机状态；

4、将采集得到的数据输入至信号处理模块中的预处理单元、特征提取单元以及识别单元进行处理和识别，识别用户指令；

5、检测通信环境是否正常，若正常，则将识别到的指令信息(命令或无声语音信息)发送至通讯交互模块，完成通信交流及外部设备控制；若异常，则提示通信异常，用户重复所说内容；

6、通信完成后，检测通信环境是否关闭，若没有，则进入待机状态。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。