CN110930983A

CN110930983A - 用于语音信号的小波特征提取方法、系统和存储介质

Info

Publication number: CN110930983A
Application number: CN201911085001.XA
Authority: CN
Inventors: 曹忠; 黄业广; 赵文静
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-03-27

Abstract

本发明公开了一种用于语音信号的小波特征提取方法、系统和存储介质，所述方法包括以下步骤：对获取的原始语音信号进行小波处理，得到原始语音信号的小波系数；将小波系数按照第一预设规则进行排列；计算排列后的小波系数的方差；对小波系数的方差进行归一化处理；将归一化后的小波系数的方差按照第二预设规则进行排列；将排列后的小波系数的方差转换为灰度图像，得到原始语音信号的小波特征。本发明通过对原始语音信号采用小波处理，并对小波系数的方差进行归一化处理，以降低噪声对特征提取过程的影响，从而提高对非平稳语音信号和重叠语音信号的特征提取过程中的抗噪能力。本发明可广泛应用于语音识别技术领域。

Description

用于语音信号的小波特征提取方法、系统和存储介质

技术领域

本发明涉及语音识别技术领域，尤其是一种用于语音信号的小波特征提取方法、系统和存储介质。

背景技术

语音识别系统在不同环境下会受到不同程度的影响，例如在较安静的实验室环境下识别准确率较高，但在较嘈杂马路环境下识别准确率却比较低。在不同的噪声环境下，语音识别系统会出现不同的识别效果，所以提高语音识别系统的抗噪能力是提高语音识别系统识别率和鲁棒性的关键。

在现有技术书中，主要通过两个方面来提高语音识别系统的抗噪能力，第一方面是改进语音的特征提取方法，比如PLP和MFCC特征提取方法都从特征提取过程中抑制了噪声对语音识别系统的负面影响，第二方面是改进语音的识别方法，通过改善识别模型对噪声的自适应能力，来抑制噪声对语音识别系统的负面影响。

在现有的特征提取方法中，例如PLP和MFCC等处理过程中，其都是用平稳信号的处理方法进行滤波去噪以及特征提取，其中，对语音进行分帧处理的操作，利用了语音的短时平稳特性，然而，这类的处理方法存在一定的局限性：对于突变噪声并不能达到较好的抑制效果，且处理过程中使用了一维域的傅里叶变换，由于语音信号是非平稳信号，对于这种非平稳信号，傅里叶变换并不能达到较好的效果，且当噪声频谱和语音信号频谱重叠太多时，傅里叶变换不能把噪声去除，对于一些更加复杂的环境，这些特征提取方法就更加无能为力。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种用于语音信号的小波特征提取方法、系统和存储介质，其能对非平稳语音信号和重叠语音信号进行有效去噪。

本发明实施例的第一方面提供了：

一种用于语音信号的小波特征提取方法，其包括以下步骤：

对获取的原始语音信号进行小波处理，得到原始语音信号的小波系数；

将小波系数按照第一预设规则进行排列；

计算排列后的小波系数的方差；

对小波系数的方差进行归一化处理；

将归一化后的小波系数的方差按照第二预设规则进行排列；

将排列后的小波系数的方差转换为灰度图像，得到原始语音信号的小波特征。

进一步地，所述对获取的原始语音信号进行小波处理，得到原始语音信号的小波系数，其具体包括：

对获取的原始语音信号进行小波时频分析，提取原始语音信号的小波系数；

对小波系数进行降噪处理，得到降噪后的原始语音信号的小波系数。

进一步地，所述对获取的原始语音信号进行小波时频分析，提取原始语音信号的小波系数，其具体包括：

对获取的原始语音信号进行一维多尺度小波分解，得到小波分解向量；

根据小波分解向量提取原始语音信号的小波系数。

进一步地，所述对小波系数进行降噪处理，得到降噪后的原始语音信号的小波系数，其具体为：

采用固定阈值法对小波系数进行降噪处理，得到降噪后的原始语音信号的小波系数。

进一步地，所述将小波系数按照第一预设规则进行排列，其具体为：

按照第一方向为频率变化、第二方向为时间变化的排列规则将小波系数排列成倒三角的形状。

进一步地，所述计算排列后的小波系数的方差，其具体为：

采用滑动方差计算方法计算排列后的小波系数的方差；

所述滑动方差计算方法，其具体为：

在处理高频的小波系数时所采用的框和滑动距离相较于在处理低频的小波系数时所采用的框和滑动距离更长。

进一步地，所述将归一化后的小波系数的方差按照第二预设规则进行排列，其具体为：

将归一化后的小波系数的方差进行方阵排列。

进一步地，所述将排列后的小波系数的方差转换为灰度图像，其具体包括：

将排列后的小波系数的方差的方阵数值转换为像素值；

根据转换后的像素值生成灰度图像。

本发明实施例的第二方面提供了：

一种用于语音信号的小波特征提取系统，其包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行所述的用于语音信号的小波特征提取方法。

本发明实施例的第三方面提供了：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现所述的用于语音信号的小波特征提取方法。

本发明的有益效果是：本发明通过对原始语音信号进行小波处理后，对得到的小波系数进行排列，然后计算排列后的小波系数的方差，并对小波系数的方差进行归一化处理，接着对归一化后的小波系数的方差进行排列，将排列后的小波系数的方差转换为灰度图像，以得到原始语音信号的小波特征，本发明通过对原始语音信号采用小波处理，并对小波系数的方差进行归一化处理，以降低噪声对特征提取过程的影响，从而提高对非平稳语音信号和重叠语音信号的特征提取过程中的抗噪能力。

附图说明

图1为本发明一种具体实施例的用于语音信号的小波特征提取方法的流程图；

图2为本发明一种具体实施例中的小波时频分析示意图；

图3为本发明一种具体实施例中的小波系数的倒三角的排列示意图；

图4为本发明一种具体实施例中的小波系数滑动方差计算示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1，本发明实施例提供了一种用于语音信号的小波特征提取方法，本实施例应用于语音处理器，所述语音处理器分别与语音生成装置和语音识别装置连接。

本实施例包括步骤S101-S106：

S101、对获取的原始语音信号进行小波处理，得到原始语音信号的小波系数；本步骤中的小波处理包括小波时频分析和小波阈值降噪。

S102、将小波系数按照第一预设规则进行排列；在一些具体的实施例中，本步骤可以按照竖直方向为频率变化，水平方向为时间变化的预设规则将小波系数排列成倒三角的形状。

S103、计算排列后的小波系数的方差；在实际应用过程中，有小波变换的特性，在高频率的位置具有高时间分辨率，导致高频系数比低频系数多，且小波变换后的数据量较大，因此，需要构建较庞大的神经网络用于识别，这样的特征用于识别时需要耗费较多的资源且不好识别，所以，本步骤通过滑动方差的方法来计算小波系数的方差。滑动方差的方法能在压缩小波系数的数据量的同时，保证了语音的小波特征不受影响。

S104、对小波系数的方差进行归一化处理；本步骤具体是通过对计算后的小波系数的方差进行最大最小标准化处理，使特征在神经网络识别系统中能被更好的识别。假设处理的方差矩阵中的原始方差系数为x，矩阵中最大的系数为x_max，矩阵中最小的系数为x_min，处理后的方差系数为Y，则最大最小标准化处理的公式(a1)为：

Y＝(x-x_min)/(x_max-x_min) (a1)

本步骤通过将小波系数的方差进行归一化处理，便于后续步骤的处理过程。

S105、将归一化后的小波系数的方差按照第二预设规则进行排列；在一些具体实施例中，本步骤具体可以将归一化后的小波系数的方差排列成方形矩阵。

S106、将排列后的小波系数的方差转换为灰度图像，得到原始语音信号的小波特征。本步骤是将方形矩阵中的转换为像素值后，再根据像素值生成灰度图像，从而得到原始语音信号的小波特征。

本实施例通过利用小波处理的特性，提高对非平稳语音信号和重叠语音信号的特征提取过程中的抗噪能力。

作为优选的实施方式，所述对获取的原始语音信号进行小波处理，得到原始语音信号的小波系数，其具体包括：

本实施例通过先对始语音信号进行小波时频分析，得到小波系数的高频系数和低频系数，然后再分别对小波系数的高频系数和低频系数进行降噪处理，从而去除原始语音信号中携带的噪声，提高后续步骤中对原始语音信号的特征提取正确率。

作为优选的实施方式，所述对获取的原始语音信号进行小波时频分析，提取原始语音信号的小波系数，其具体包括：

本步骤的分解过程采用公式(a2)：

根据小波分解向量提取原始语音信号的小波系数。本步骤的采用公式(a3)提取低频系数，采用公式(a4)提取高频系数，其公式具体如下：

d_j(k)＝<f(t),ψ_j,k(t)>＝∫f(t)ψ_j,k(t)dt (a4)

本实施中，f(t)为原始语音信号，c_j0(k)为原始语音信号小波时频分析后得到的低频系数，d_j(k)为原始语音信号小波时频分析后得到的高频系数，

为一维小波分解时的尺度函数，ψ_j,k(t)为一维小波分解时的小波函数。

在一个具体的实施例中，对原始语音信号进行时频分析时的示意图如图2所示，对原始语音信号X进行第一层分解时，得到一层小波分解向量cA1和cD1，对一层小波分解向量cA1进行第二次分解时，得到二层小波分解向量cA2和cD2，继续对二层小波分解向量cA2第三层分解，得到三层小波分解向量cA3和cD3，然后基于上述三层分解后，可以得到总的小波解向量cA3、cD3、cD2和cD1，最后根据小波解向量cA3、cD3、cD2和cD1提取得到原始语音信号的小波系数c₃(k)、d₃(k)、d₂(k)和d₁(k)。

本实施通过对原始语音信号进行时频分解之后，分别得到高频系数和低频系数，从而便于后续步骤中分别对不同的系数进行处理，提高特征提取的准确性。

作为优选的实施方式，所述对小波系数进行降噪处理，得到降噪后的原始语音信号的小波系数，其具体为：

在一些具体实施例中，假设固定阈值算法的阈值为λ，阈值λ通过公式(a5)计算得到：

N为小波系数长度，σ为噪声参数，其中，噪声参数σ通过公式(a6)计算得到：

ω为一组小波系数c₃(k)、d₃(k)、d₂(k)和d₁(k)，MAD为小波系数的绝对值的中值，其中，阈值的处理方法为软阈值法，并通过公式(a7)对小波系数进行降噪处理：

其中，M为处理后的小波系数，n为原始小波系数。

本实施例通过对小波系数进行降噪，从而降低噪声对语音信号的特征提取过程的影响。

作为优选的实施方式，所述将小波系数按照第一预设规则进行排列，其具体为：

按照第一方向为频率变化、第二方向为时间变化的排列规则将小波系数排列成倒三角的形状。在一些具体的实施例中，按照竖直方向为频率变化、水平方向为时间变化的排列规则将小波系数排列成倒三角的形状。如图3所示，将小波系数c₃(k)、d₃(k)、d₂(k)和d₁(k)按照竖直方向为频率变化、水平方向为时间变化的排列规则将小波系数排列成倒三角的形状。

作为优选的实施方式，所述计算排列后的小波系数的方差，其具体为：

采用滑动方差计算方法计算排列后的小波系数的方差；

所述滑动方差计算方法，其具体为：

由于小波变换的特性，在高频率的地方是具有高时间分辨率，导致高频系数比低频系数多，且小波变换后的数据量较大，因此，需要构建较庞大的神经网络用于识别，但是，变化幅度比较大的特征用于识别时还是需要耗费较多的资源且不好识别，所以，通过滑动方差的方法来计算小波系数的方差。滑动方差的方法能压缩小波系数的数据量的同时，保证了语音的小波特征不受影响。滑动方差的方法是通过将一维小波系数分为一些短段来进行处理，每一个短段为一帧，然后，计算其每一帧的方差，在分帧的时候，使每个帧相互重叠一部分，以保证平滑过渡。通过方差来表示小波系数的变化特征，进而表示原语音信号的小波特征。具体是通过对高频系数取较大的滑动窗口，对低频系数取较小的滑动窗口，同时使用合适的移动距离，使得计算出来的小波系数的方差基数相等，通过实验表明，方差基数等于112时，能在最大压缩小波系数的数据量的情况下，保证小波系数的特征不受影响。其处理过程如图4所示，将所有的小波系数a、b、c、d、e、f、g、h、i、j、k、l、m、n、o、p、q、r、s、t···分成一些短段α、β···，然后分别计算这些短段的方差值，得到c₃(k)、d₃(k)、d₂(k)和d₁(k)的方差。

本实施例采用滑动方差的计算方式，极大缩小数据量的同时，保持原始语音信号的特征不变，从而减少语音系统识别中的压力。

作为优选的实施方式，所述将归一化后的小波系数的方差按照第二预设规则进行排列，其具体为：

将归一化后的小波系数的方差进行方阵排列。由于归一化后的矩阵不是一个长宽等长的二维矩阵，不便于神经网络的识别过程，因此，将归一化后的系数矩阵转换为一个方阵，使得原始语音信号的小波特征在神经网络中能被更好的识别。

作为优选的实施方式，所述将排列后的小波系数的方差转换为灰度图像，其具体包括：

将排列后的小波系数的方差的方阵数值转换为像素值；

根据转换后的像素值生成灰度图像。

由于一般的识别系统采用深度卷积神经网络，因此，为了在识别过程中达到较好的识别效果，需要将转换后的方阵中0到1的值映射到0到255，然后再保存为灰度图片，最后得到的图片即为本发明的小波特征提取方法最后的提取特征。

将本实施例的小波特征提取方法与常用特征提取方法的效果进行对比：

利用本发明所述的小波特征提取方法在自制的语音集上提取语音特征，同时使用PLP特征提取方法和MFCC特征提取方法在自制语音集提取语音特征，利用三个语音特征集，分别在相同条件下采用卷积神经网络对语音特征进行声纹和语义的识别，然后对自制的语音集加入不同程度的白噪声，再利用上述的三种特征提取方法进行特征提取，在相同条件下再次采用卷积神经网络对语音特征进行声纹和语义的识别。

自制的语音集上有五个人的语音，即有五种声纹，每个人有五种命令，即有五种语义，利用卷积神经网路对每条语音的声纹和语义进行识别，这里采用识别准确率来评估语音识别性能，识别准确率的计算公式(a8)如下：

在无噪声的纯净语音情况下，三种特征提取方法在卷积神经网络的识别准确率如表1所示：

表1

噪声环境	小波特征	PLP特征	MFCC特征
				无噪声	84.00％	95.67％	96.13％

通过表1可知，在无噪声的纯净语音情况下，PLP特征和MFCC特征比本发明的小波特征有更好的性能，在卷积神经网络中的识别准确率更高。

在不同程度的白噪声的环境下，三种特征提取方法在卷积神经网络的识别准确率如表2所示：

表2

从表2可知，随着信噪比的降低，PLP特征、MFCC特征和小波特征三种特征提取方法的性能都在下降，但小波特征提取方法的性能下降要远小于PLP特征和MFCC特征提取方法。因此，在低信噪比环境下，小波特征提取方法相比较其他两种特征提取方法有更好的抗噪能力。

本发明实施例还提供了一种与图1方法相对应的用于语音信号的小波特征提取系统，其包括：

至少一个存储器，用于存储程序；

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

此外，本发明实施例还提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现所述的用于语音信号的小波特征提取方法。

综上所述，本发明通过对原始语音信号进行小波处理后，对得到的小波系数进行排列，然后计算排列后的小波系数的方差，并对小波系数的方差进行归一化处理，最后对归一化后的小波系数的方差进行排列，将排列后的小波系数的方差转换为灰度图像，以得到原始语音信号的小波特征，本发明通过对原始语音信号采用小波处理，并对小波系数的方差进行归一化处理，以降低噪声对特征提取过程的影响，从而提高对非平稳语音信号和重叠语音信号的特征提取过程中的抗噪能力。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种用于语音信号的小波特征提取方法，其特征在于：包括以下步骤：

将小波系数按照第一预设规则进行排列；

计算排列后的小波系数的方差；

对小波系数的方差进行归一化处理；

将归一化后的小波系数的方差按照第二预设规则进行排列；

2.根据权利要求1所述的一种用于语音信号的小波特征提取方法，其特征在于：所述对获取的原始语音信号进行小波处理，得到原始语音信号的小波系数，其具体包括：

3.根据权利要求2所述的一种用于语音信号的小波特征提取方法，其特征在于：所述对获取的原始语音信号进行小波时频分析，提取原始语音信号的小波系数，其具体包括：

根据小波分解向量提取原始语音信号的小波系数。

4.根据权利要求2所述的一种用于语音信号的小波特征提取方法，其特征在于：所述对小波系数进行降噪处理，得到降噪后的原始语音信号的小波系数，其具体为：

5.根据权利要求1所述的一种用于语音信号的小波特征提取方法，其特征在于：所述将小波系数按照第一预设规则进行排列，其具体为：

6.根据权利要求1所述的一种用于语音信号的小波特征提取方法，其特征在于：所述计算排列后的小波系数的方差，其具体为：

采用滑动方差计算方法计算排列后的小波系数的方差；

所述滑动方差计算方法，其具体为：

7.根据权利要求1所述的一种用于语音信号的小波特征提取方法，其特征在于：所述将归一化后的小波系数的方差按照第二预设规则进行排列，其具体为：

将归一化后的小波系数的方差进行方阵排列。

8.根据权利要求7所述的一种用于语音信号的小波特征提取方法，其特征在于：所述将排列后的小波系数的方差转换为灰度图像，其具体包括：

将排列后的小波系数的方差的方阵数值转换为像素值；

根据转换后的像素值生成灰度图像。

9.一种用于语音信号的小波特征提取系统，其特征在于：包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于加载所述程序以执行如权利要求1-8任一项所述的用于语音信号的小波特征提取方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如权利要求1-8任一项所述的用于语音信号的小波特征提取方法。