CN115132191A

CN115132191A - 基于机器学习的抗噪声语音识别方法及系统

Info

Publication number: CN115132191A
Application number: CN202210759713.0A
Authority: CN
Inventors: 陈贞翔; 郑维亮; 李阳; 姜晓庆
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-30
Anticipated expiration: 2042-06-30
Also published as: CN115132191B

Abstract

本发明属于语音识别技术领域，提供了一种基于机器学习的抗噪声语音识别方法及系统，在获取发声者喉部或者音响上的语音数据的基础上，对获取的语音数据进行傅里叶滤波、端点检测和语音预加重等预处理后，依据得到的特征数据，以及预设的机器学习模型，得到抗噪声语音识别结果，在解决开放式麦克风进行语音识别存在安全隐患问题的基础上，通过傅里叶滤波、端点检测和语音预加重等预处理，完成语音识别任务；最终实现了几乎不受环境和其他人说话噪声干扰的、安全的识别语音内容的功能。

Description

基于机器学习的抗噪声语音识别方法及系统

技术领域

本发明属于语音识别技术领域，尤其涉及一种基于机器学习的抗噪声语音识别方法及系统。

背景技术

通过开放式麦克风进行的语音处理存在严重的安全隐患。一方面，语音也是一种很容易收集的生物信号，这为它的安全带来很大隐患。因为语音在开放的环境中会向各个方向传播，容易被录音或窃听。攻击者会通过重放、语音合成和语音转换攻击说话人识别系统。比较典型的是，攻击者记录了用户的声音，然后在语音识别过程中进行重放攻击，那么语音识别系统很容易被欺骗。另一方面，基于噪声和机器学习的语音识别对抗式攻击已经开始发展起来。根据最近的研究结果，欺骗机器学习从而导致模型给出错误的预测结果是有可能的。

针对开放式麦克风的语音识别存在严重的安全隐患现象，基于喉部麦克风的语音识别等应用开始发展起来。然而，喉部麦克风与开放式麦克风间存在声学不匹配现象，导致喉部麦克风数据频率范围不完全适合于语音识别、喉部麦克风的非线性频率响应使其数据不完全适合语音识别，以及喉部麦克风的数据特点使其不完全适合于双门限端点检测算法的处理。

发明内容

本发明为了解决上述问题，提出了一种基于机器学习的抗噪声语音识别方法及系统，将柔性传感器作为喉部麦克风使用来获取喉部声音数据，并通过创新的、具有针对性的数据预处理方法和机器学习方法，完成语音识别任务；最终实现了几乎不受环境和其他人说话噪声干扰的、安全的识别语音内容的功能。

为了实现上述目的，本发明是通过如下的技术方案来实现：

第一方面，本发明提供了一种基于机器学习的抗噪声语音识别方法，包括：

获取发声者喉部或者音响上的语音数据；

对获取的语音数据进行傅里叶滤波、端点检测和语音预加重，得到预处理后的语音数据；

对预处理后的语音数据进行特征提取，得到语音数据的特征数据；

依据得到的特征数据，以及预设的机器学习模型，得到抗噪声语音识别结果。

进一步的，采用柔性压力传感器采集发声者喉部或者音响上的语音数据。

进一步的，通过傅里叶变换将语音数据的时域图转变为频域图，将频率范围以外的频带的系数归零，再将处理过后的频域图转变为时域图。

进一步的，通过傅里叶变换转将语音数据的时域图转变为频谱图，把每个频率的强度除以采集得到的柔性压力传感器每个频率响应强度。

进一步的，端点检测算法首先找到语音数据波形的能量最高点，然后以能量最高点为中心逐步向波形的两端扩展；比较能量最高点左右波形段的能量大小，将能量较大的波形段纳入有效波形段，直至有效波形段的长度达到设定好的长度。

进一步的，对预处理后的语音数据进行梅尔倒频谱系数特征、梅尔倒频谱系数的一阶导数和梅尔倒频谱系数的二阶导数的特征提取。

进一步的，机器学习模型通过神经网络训练得到，神经网络结构包括输入层、1024个单元的隐藏层、参数为0.01的dropout层、128个单元的隐藏层、16个单元的隐藏层和8个单元的输出层。

第二方面，本发明还提供了一种基于机器学习的抗噪声语音识别系统，包括：

数据采集模块，被配置为：获取发声者喉部或者音响上的语音数据；

预处理模块，被配置为：对获取的语音数据进行傅里叶滤波、端点检测和语音预加重，得到预处理后的语音数据；

特征提取模块，被配置为：对预处理后的语音数据进行特征提取，得到语音数据的特征数据；

识别模块，被配置为：依据得到的特征数据，以及预设的机器学习模型，得到抗噪声语音识别结果；其中，机器学习模型通过神经网络训练得到。

第三方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现了第一方面所述的基于机器学习的抗噪声语音识别方法的步骤。

第四方面，本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了第一方面所述的基于机器学习的抗噪声语音识别方法的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明中，在获取发声者喉部或者音响上的语音数据的基础上，对获取的语音数据进行傅里叶滤波、端点检测和语音预加重等预处理后，依据得到的特征数据，以及预设的机器学习模型，得到抗噪声语音识别结果，在解决开放式麦克风进行语音识别存在安全隐患问题的基础上，通过傅里叶滤波、端点检测和语音预加重等预处理，完成语音识别任务；最终实现了几乎不受环境和其他人说话噪声干扰的、安全的识别语音内容的功能；

2、本发明中通过傅里叶变换将数据的时域图转变称为频域图，再将50至400Hz以外的频带的系数归零，然后通过傅里叶逆变换，将处理过后的频域图转变为时域图，实现50至400Hz的带通滤波，最终减缓声学不匹配现象；

3、本发明将采集得到的柔性压力传感器数据时域图，通过傅里叶变换转变为频谱图，再把每个频率的强度除以采集得到的柔性压力传感器每个频率响应强度，使其柔性压力传感器数据的频谱图对每个频段的响应强度曲线趋于平坦；

4、本发明针对柔性压力传感器的大部分能量比较集中的特点，采用端点检测算法，首先找到数据波形的能量最高点，然后以最高点为中心，逐步向波形的两端扩展；比较左右波形段的能量大小，将能量较大的波形段纳入有效波形段，直至有效波形段的长度达到设定好的长度。

附图说明

构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解，本实施例的示意性实施例及其说明用于解释本实施例，并不构成对本实施例的不当限定。

图1为本发明实施例1的流程图；

图2为本发明实施例1的原始波形；

图3为本发明实施例1的滤波并预加重后的波形；

图4为本发明实施例1的端点检测后的波形。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

基于机器学习的语音识别任务是，在训练阶段用户读一段特定的语音，同时声学传感器将每段语音采集并输入机器学习模型处理成特征矢量，并把这些特征矢量作为模板存入模板库。接着用户输入一段语音，机器学习模型会把这段语音处理成特征矢量，并与模板库中的每个模板比较，将与其相似度最高的结果输出。在过去30多年间，人们提出了大量的抗噪声语音识别方法，其中许多方法对研究或商业应用产生了重大影响。抗噪声语音识别的蓬勃发展充分说明了噪声对于语音识别的影响和抗噪声的语音识别研究方法的必要性。

在现实中，通过开放式麦克风进行的语音处理存在严重的安全隐患。一方面，语音也是一种很容易收集的生物信号，这为它的安全带来很大隐患。因为语音在开放的环境中会向各个方向传播，容易被录音或窃听。攻击者会通过重放、语音合成和语音转换攻击说话人识别系统。比较典型的是，攻击者记录了用户的声音，然后在语音识别过程中进行重放攻击，那么语音识别系统很容易被欺骗。另一方面，基于噪声和机器学习的语音识别对抗式攻击已经开始发展起来。根据最近的研究结果，欺骗机器学习从而导致模型给出错误的预测结果是有可能的。N Carlini等人的研究工作表明，在自动语音识别过程中，他们只需要增加一点噪声，就能够将任何音频波形100％转换成任何目标转录。Xuejing Yuan等人将命令语音作为噪声整合到歌曲中，可以在没有人注意到的情况下同时播放。Zhuohang Li等人通过在原始音频中添加了一种不明显的噪音，可以欺骗说话人识别系统做出错误的预测，甚至可以将样本识别为任何目标说话人。因此，基于开放式麦克风的语音识别存在严重的安全隐患。

针对这一现象，基于喉部麦克风的语音识别等应用就开始发展起来了。Suzuki T等人首先阐述了喉部麦克风与开放式麦克风间存在的声学不匹配现象，然后利用大量的开放式麦克风语音数据训练模型，再利用少量的喉部麦克风和开放式麦克风的并行数据，通过Hinton等人提出的知识蒸馏的方式将知识提取到喉部麦克风的声学模型，最终实现了基于喉部麦克风数据的语音识别字符错误率相对降低8％。然而，这种声学不匹配现象也可以通过预处理来进行缓解。

正如背景技术中记载的，喉部麦克风数据频率范围不完全适合于语音识别、喉部麦克风的非线性频率响应使其数据不完全适合语音识别，以及喉部麦克风的数据特点使其不完全适合于双门限端点检测算法的处理。

实施例1：

从语音识别中的噪声干扰问题和基于开放式麦克风的语音识别存在安全隐患的问题出发，针对喉部麦克风与开放式麦克风间存在的声学不匹配现象影响其语音识别任务的准确率问题，本实施例提供了一种基于机器学习的抗噪声语音识别方法，主要是涉及一个基于柔性压力传感器和机器学习方法的抗噪声语音识别方法，重点在于数据的预处理方法上；包括：

获取发声者喉部或者音响上的语音数据；可以利用柔性传感器进行喉部或者音响上的语音数据的采集；

对预处理后的语音数据进行特征提取，得到语音数据的梅尔倒频谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)特征数据；

依据得到的特征数据，以及预设的机器学习模型，得到抗噪声语音识别结果；其中，机器学习模型通过神经网络训练得到。

本实施例将柔性传感器作为喉部麦克风使用，设计并完成基于柔性传感器的语音数据采集实验，并通过创新的、具有针对性的数据预处理方法和机器学习方法，完成了语音识别任务，最终实现了几乎不受环境和其他人说话噪声干扰的、安全的识别语音内容的功能。

首先，是数据采集，数据集可以来自于模仿谷歌Speech Commands数据集的内容；谷歌Speech Commands数据集是一个公开的、供于研究语音识别的数据集，包括了不同的人在相对安静环境下说不同单词的录音，每条录音均限制在一秒左右，每个单词共有2200条录音左右。本实施例的数据集内容是在室内约50dB的噪声环境下，通过将贴片状的柔性压力传感器贴附在音响上，同时播放上述的这些录音，以1400点/秒左右的采样速率，通过抗干扰导线和放大滤波电路采集得到的八个单词共16000条左右的电压波形数据。这些电压波形数据将通过后面数模转换模块的和串口传输模块，并最终存储在计算机上。为了提高模型的泛化能力，通过变调和变速等语音数据增广方法扩充了四倍数据，所以总数据量为80000条左右的电压波形数据。

其次，是关键的数据预处理。主要分成傅里叶滤波、频率预加重和端点检测。

人类发音有四个步骤：产音，振动，共鸣和改扩发音。产音是由于肺呼气气流移动而产生，振动是喉声带振动而产生基本音，共鸣是喉以上的咽、口腔和鼻腔扩大声音，改扩发音是舌、齿、唇和腭改造扩大的基本音，而成为可辨识的声音。由于人体类似于低通滤波器，且接触式采集得到的语音数据属于喉声带振动，所以其频率范围(约为50至400Hz)不同于人类语音频率范围(约50至700Hz)。如果不通过特定频率范围的滤波，将使得柔性压力传感器采集得到的语音数据存在大量的干扰信息，从而影响机器学习模型的识别准确度。因此，本实施例针对该问题，创新性的提出了在使用柔性压力传感器数据进行机器学习模型训练前，通过傅里叶变换将数据的时域图转变成为频域图，再将50至400Hz以外的频带的系数归零，然后通过傅里叶逆变换，将处理过后的频域图转变为时域图，实现50至400Hz的带通滤波，最终减缓声学不匹配现象。

柔性压力传感器具有非线性的频率响应曲线，这是它不同于开放式麦克风的平坦频率曲线的地方。本实施例使用的这款柔性压力传感器也不例外。非线性的频率响应曲线将给不同频段的柔性压力传感器数据带来不同的权重，从而导致数据出现偏差，最终影响机器学习模型的识别准确度。为了给柔性压力传感器采集得到的语音数据恢复到平坦的频率响应曲线，采集了本实施例中所采用的柔性压力传感器在50-400Hz频率范围内的频率响应强度，并将它用于柔性压力传感器数据的语音预加重环节。具体而言，就是将采集得到的柔性压力传感器数据时域图，通过傅里叶变换转变为频谱图，再把每个频率f的强度P(f)除以采集得到的柔性压力传感器每个频率f响应强度Q(f)，使其柔性压力传感器数据的频谱图中每个频率f的响应强度T(f)形成的曲线趋于平坦。如公式(1)所示。最终本发明有针对地、创新性地减少了数据的偏差，使数据更加接近无噪声环境下的开放式麦克风采集得到的语音数据、更加适合于基于机器学习的语音识别任务。

T(f)＝P(f)/Q(f) (1)

传统的双门限端点检测算法为了滤除噪声，会设置两个能量阈值和一个短时过零率阈值作为滤除噪声的上下限，最后在时间轴上获得有效的语音波形段。而基于柔性压力传感器采集得到的语音数据并不存在明显噪声，因此，大部分的能量会集中于有效的语音段上。这使得它不同于传统的语音数据，使用传统的双门限端点检测算法将无法很好地截取有效的语音波形段。本实施例针对该问题，设计了一种改进的端点检测方法。针对柔性压力传感器的大部分能量比较集中的特点，本实施例中设计的端点检测算法会首先找到数据波形的能量最高点，通常它属于语音的有效段。然后以最高点为中心，该算法会逐步向波形的两端扩展。具体而言，就是比较左右波形段的能量大小，将能量较大的波形段纳入有效波形段，直至有效波形段的长度达到设定好的长度，例如原波形的60％。其中，如图2所示，其中的原始波形通过上述的傅里叶滤波滤除特定频率范围外的频段，并根据公式(1)对各个频段进行频率预加重后，得到如图3所示中的干净且频率响应曲线平坦的语音波形。然后将这一语音波形进行所述的端点检测，得到如图4所示中的几乎没有安静片段的语音波形。本发明针对柔性压力传感器的数据特点，创新性的改进了端点检测方法，减缓了声学不匹配现象，使其适用于基于柔性压力传感器数据的语音识别。

然后，是特征提取。梅尔频率倒谱系数是基于声音频率的非线性梅尔刻度(melscale)的对数能量频谱的线性变换的系数。梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统，因此它常常应用于语音识别模型的训练中。本实施例将预处理的得到的数据进行特征提取，采用的特征包括24维的梅尔倒频谱系数及其一阶和二阶导数。为了更好地进行机器学习模型训练，对这些数据进行了正态化处理。这些特征足够用于充分表征语音的静态和动态特征。为验证实验方案的可行性，设计了验证实验进行八个单词的语音识别。

最后，是模型训练。将上述处理得到的数据投入到深度神经网络中进行训练。具体的，本实施例中采用的神经网络结构包括输入层、1024个单元的隐藏层、参数为0.01的dropout层、128个单元的隐藏层、16个单元的隐藏层和8个单元的输出层。激活函数采用ReLU和softmax。损失函数是交叉验证损失函数。训练优化器是Adadelta。性能评估指标是识别准确率。批量大小是64。迭代次数为100000次，训练时间为45个小时左右。训练集与测试集的划分比例是9：1。最后得到的实验结果是，在上述自建数据集上得到训练准确率99.07％，并在未投入到训练的测试集上得到测试准确率99.92％。这表示本实施例很好地完成了基于柔性压力传感器和机器学习方法的八个单词的语音识别，且不受噪声干扰。另外，在相同的实验设置下，没有经过本实施例设计的数据预处理方法进行的实验，得到的训练准确率在52.68％左右波动。这说明本实施例中的预处理方法在很大程度上加速了基于柔性传感器和机器学习方法的语音识别模型的训练，从而说明了这一方法在一定程度上缓解了柔性传感器数据与开放式麦克风数据之间的声学不匹配现象。这意味着不受环境和其他人说话噪声干扰的、安全的语音识别是可以实现的且很有前景的。可以通过柔性传感器采集相关的数据集并按照本实施例中的数据预处理方法，实现基于柔性压力传感器数据的智能语音识别应用。

本实施例在柔性压力传感器接触式采集语音的数据集的基础上，创新性的提出有针对性的数据预处理方法，再通过机器学习方法，完成了分类八个单词的语音识别，得到99.92％的预测准确率；本实施例很好地完成了不受环境和其他人说话噪声干扰的语音识别，本实施例中的数据预处理方法在一定程度上缓解了柔性传感器数据与开放式麦克风数据之间的声学不匹配现象；由于不受噪声干扰，本实施例在一定程度上解决了语音识别准确率受到噪声干扰而下降的问题，以及基于开放式麦克风的语音识别可能受到语音攻击的问题。

实施例2：

本实施例提供了一种基于机器学习的抗噪声语音识别系统，可以通过柔性压力传感器接触式地采集声音振动，再利用硬件电路进行滤波、数模转换并传输到计算机端。接着，进行一系列创新性的、具有针对性的柔性压力传感器压电波形处理方法处理过后，再通过语音数据的特征提取方法提取语音特征。最后输入到机器学习模型中进行训练并测试。为了支撑本实施例中的方法，硬件部分可以包括基于柔性压力传感器的接触式语音采集模块、基于单片机的数据传输模块、利用机器学习进行的数据处理模块和数据存储模块。本实施例中所使用的的柔性压力传感器可以是TE Tecnology公司生产的高灵敏度PVDF压电薄膜振动传感器，型号为LDT0-028K。它的尺寸大小为25mm*13.5mm，工作温度为0～85℃。当它受到外力作用偏离中轴线时，会产生应变因而产生压电效应。

语音采集模块包括压电式柔性声音传感器、抗电磁干扰导线和放大滤波电路。将贴片状的压电式柔性压力传感器贴附在说话人的喉部或者音响上，随着发音引起的振动带动柔性压力传感器振动，其引起的压电效应将语音信息以电信号的形式并通过放大滤波电路的处理后传输到单片机。柔性压力传感器之所以可以用于测量语音振动，是由于柔性可拉伸的特点，它可以与相对不规则的人体皮肤很好共形并贴合。然后，通过柔性压力传感器相对于传统压力传感器的高灵敏度和快速响应的特点，它可以采集微弱且高频的人体信号，例如声带振动。并且，由于其无机薄膜材料和微结构的特点，柔性压力传感器通常较为轻薄且重复性好，适合于制备可穿戴设备并用于人机交互。由于柔性压力传感器可以利用摩擦发电层进行自供电和低功耗的特点，它有着较强的续航能力，而且符合环保节能的发展趋势。本实施例中，柔性压力传感器可以采用一种超薄的(<5um)、在语音频率范围内具有5.5V Pa^-1的卓越灵敏度的、振动响应的柔性压力传感器，该柔性压力传感器接触式的测量方式很好地还原了语音波形，即保持了相同的声音波形和频谱。

数据传输模块是一种基于单片机的串口传输模块，包括数模转换模块和串口传输模块等；它不仅要控制数据采集的频率和方式等，最重要的是接收采集到的信息通过数模转换模块处理为数字信号数据，具体是电压波形的数字信号数据。数据传输模块通过串口传输模块传输到计算机进行机器学习。计算机将接收得到的数据进行基于语音变调变速的数据增广、傅里叶滤波、端点检测和语音预加重等一系列预处理。预处理完成后的数据将进行梅尔倒频谱系数特征、梅尔倒频谱系数的一阶导数和梅尔倒频谱系数的二阶导数的特征提取。

最后在设计好的机器学习模型上进行训练并测试。测试方法是，再次输入电压波形数据预处理并提取特征，然后通过训练好的模型判断语音内容并计算预测准确率。

所述系统的工作方法与实施例1的基于机器学习的抗噪声语音识别方法相同，这里不再赘述。

实施例3：

本实施例提供了一种基于机器学习的抗噪声语音识别系统，包括：

实施例4：

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现了实施例1所述的基于机器学习的抗噪声语音识别方法的步骤。

实施例5：

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现了实施例1所述的基于机器学习的抗噪声语音识别方法的步骤。

以上所述仅为本实施例的优选实施例而已，并不用于限制本实施例，对于本领域的技术人员来说，本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本实施例的保护范围之内。

Claims

1.一种基于机器学习的抗噪声语音识别方法，其特征在于，包括：

获取发声者喉部或者音响上的语音数据；

2.如权利要求1所述的一种基于机器学习的抗噪声语音识别方法，其特征在于，采用柔性压力传感器采集发声者喉部或者音响上的语音数据。

3.如权利要求2所述的一种基于机器学习的抗噪声语音识别方法，其特征在于，通过傅里叶变换将语音数据的时域图转变为频域图，将频率范围以外的频带的系数归零，再将处理过后的频域图转变为时域图。

4.如权利要求2所述的一种基于机器学习的抗噪声语音识别方法，其特征在于，通过傅里叶变换转将语音数据的时域图转变为频谱图，把每个频率的强度除以采集得到的柔性压力传感器每个频率响应强度。

5.如权利要求2所述的一种基于机器学习的抗噪声语音识别方法，其特征在于，端点检测算法首先找到语音数据波形的能量最高点，然后以能量最高点为中心逐步向波形的两端扩展；比较能量最高点左右波形段的能量大小，将能量较大的波形段纳入有效波形段，直至有效波形段的长度达到设定好的长度。

6.如权利要求1所述的一种基于机器学习的抗噪声语音识别方法，其特征在于，对预处理后的语音数据进行梅尔倒频谱系数特征、梅尔倒频谱系数的一阶导数和梅尔倒频谱系数的二阶导数的特征提取。

7.如权利要求1所述的一种基于机器学习的抗噪声语音识别方法，其特征在于，机器学习模型通过神经网络训练得到，神经网络结构包括输入层、1024个单元的隐藏层、参数为0.01的dropout层、128个单元的隐藏层、16个单元的隐藏层和8个单元的输出层。

8.一种基于机器学习的抗噪声语音识别系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现了如权利要求1-7任一项所述的基于机器学习的抗噪声语音识别方法的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现了如权利要求1-7任一项所述的基于机器学习的抗噪声语音识别方法的步骤。