CN112863517B

CN112863517B - 基于感知谱收敛率的语音识别方法

Info

Publication number: CN112863517B
Application number: CN202110071190.6A
Authority: CN
Inventors: 陶智; 周长伟; 吴迪; 伍远博; 范子琦
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2023-01-06
Anticipated expiration: 2041-01-19
Also published as: CN112863517A

Abstract

本发明公开了一种基于感知谱收敛率的语音识别方法，包括以下步骤：对语音信号进行多频带划分，得到分频带语音信号；通过对分频带语音信号分帧、作傅里叶变换、计算频谱图的峰值之和和动态范围并进行非线性压缩得到语音信号的感知谱收敛率；将感知谱收敛率分为训练集和测试集，使用训练集训练分类器得到训练完成的分类器，将测试集输入训练完成的分类器进行语音识别。本发明通过多频带划分使语音信号具有听觉感知特性，通过直接对语音信号提取感知谱收敛率，保证实时性的同时克服了提取特征时依赖基音周期、无法度量高维混沌特性的问题，能够更加准确地表征语音信号的非线性特性，提高语音识别的准确率。

Description

基于感知谱收敛率的语音识别方法

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于感知谱收敛率的语音识别方法。

背景技术

随着人工智能与大数据的快速发展，语音识别技术取得显著的进步，逐步进入家电、医疗、汽车电子等各个领域。

语音的识别过程主要包括特征提取和分类器识别，而提取的语音的特征决定了分类器识别的上限。常用的特征参数主要有基频抖动(Jitter)、振幅微扰(Shimmer)、梅尔频率倒谱系数(MFCC)、最大李雅普诺夫指数、关联维和熵值特征等。基频抖动是指相邻周期间声波基频的变化率，反映声带振动周期间频率的差异，振幅微扰则是描述信号的峰峰值幅度的变化，都体现出声带振动的不规律性，进而表征不同语音间的差异(详见文献“LovatoA,Barillari M R,Giacomelli L,et al.Predicting the outcome ofunilateral vocal fold paralysis:a multivariate discriminating model includinggrade ofdysphonia,jitter,shimmer,and voice handicap index-10[J].Annals ofOtology,Rhinology&Laryngology,2019,128(5):447-452.”)。最大李雅普诺夫指数表示相空间相邻轨迹的平均指数发散率的数值特征，最大李雅普诺夫指数和关联维都是基于相空间重构的非线性特征，表示语音信号的混沌程度。熵值特征则是测量信号混乱度的非线性动力学参数，常见来度量语音信号不确定性的熵有样本熵、排列熵和小波熵等(详见文献“Travieso C M,Alonso J B,Orozco-Arroyave J R,et al.Detection ofdifferentvoice diseases based on the nonlinear characterization of speech signals[J].Expert Systems withApplications,2017,82:184-195.”)。

但是，基频抖动、振幅微扰特征的提取依赖于语音的基音周期提取，而对于非周期性、不规律的语音信号，提取其基音周期显然是不现实，并且无法准确提取。最大李雅普诺夫指数、关联维以及熵值特征仅能表征语音信号的低维混沌特性，并且计算复杂，较难应用到实际场景。

发明内容

本发明要解决的技术问题是提供一种采用特征参数感知谱收敛率来进行语音识别，不依赖于语音基音周期提取、降低计算复杂度的，并且同结合人耳听觉感知特性，增强语音的可懂度的基于感知谱收敛率的语音识别方法。

为解决上述技术问题，本发明提供了一种基于感知谱收敛率的语音识别方法，包括以下步骤：

对语音信号进行多频带划分，得到分频带的语音信号；

对分频带语音信号分帧，对每一频带的每一帧语音信号作傅里叶变换，计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围，结合频谱图的峰值之和和频谱图的动态范围进行非线性压缩得到语音信号的感知谱收敛率；

将感知谱收敛率分为训练集和测试集，使用训练集训练分类器得到训练完成的分类器，将测试集输入训练完成的分类器进行语音识别。

进一步地，所述对语音信号进行多频带划分，具体为使用Gammatone滤波器对语音信号进行多频带划分，得到多个频带的语音信号。

进一步地，所述使用Gammatone滤波器对语音信号进行多频带划分时，Gammatone滤波器采用等效矩形带宽的过滤方法，Gammatone滤波器的时域表达形式为：

g_i(t)＝at^(n-1)e^-2πBt cos(2πf_it+φ)u(t)，

其中t为时间变量，n为滤波器阶数，用于模拟人耳基底膜的滤波特性；Ф为滤波器初始相位，f_i为第i通道滤波器的中心频率，a为Gammatone滤波器的幅度，B为与等效矩形带宽有关的参数。

进一步地，所述第i通道滤波器的中心频率f_i为：

其中C为与品质因子和带宽有关的参数，f_l和f_h是滤波器的最低和最高频率，K为滤波器的个数；

所述与等效矩形带宽有关的参数B的计算公式为B＝b₁·ERB(f_i)，其中等效矩形带宽ERB(f_i)的计算公式为ERB(f_i)＝24.7+0.108f_i，b₁为等效矩形带宽增益。

进一步地，所述对分频带语音信号分帧的方法为采用汉明窗对对分频带语音信号进行分帧，分帧公式为x_i(n)＝X(n)·g_i(n)→y_ij(n),j＝1,2,3…m，其中X(n)为原始语音信号，x_i(n)为第i个频率通道的语音信号，y_ij(n)为第i个频率通道的第j帧的语音信号。

进一步地，所述傅里叶变换公式为

其中S_i为第i个频率通道的功率谱，ω(n-k)为汉明窗函数，k为语音序列每个采样点的索引。

进一步地，所述第i个频率通道的功率谱S_i的计算公式为

其中C₁₁...C_mn为所有帧功率谱的幅度值。

进一步地，所述计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围中，频谱图的峰值之和E_maxi的计算公式为

其中C(j,k)为第j帧语音信号功率谱的第k个幅度值。

进一步地，所述计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围中，频谱图的动态范围为频谱图的峰值与谷值之差，频谱图的动态范围ΔE_i的计算公式为

进一步地，所述结合频谱图的峰值之和和动态范围进行非线性压缩得到语音信号的感知谱收敛率，感知谱收敛率GTSL的计算公式为：

本发明的有益效果：

(1)本发明通过对语音信号进行多频带划分，使语音信号在表现语音特性时更细致，具有听觉感知特性，可以提高语音识别的准确率。

(2)本发明提出的特征参数感知谱收敛率，无需提取语音的基音周期，克服了传统非线性特征无法度量语音的高维混沌特性的问题，能够更加准确地表征语音信号的非线性特性，提高语音识别的准确率。

(3)本发明直接对输入的语音信号进行处理，计算简单、实时性高、反应速度快、抗干扰能力强，能满足实际应用场景的需求。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1是本发明的流程图。

图2是本发明中感知谱收敛率提取过程的示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

在本发明的描述中，需要理解的是，术语“包括”意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备，没有限定于已列出的步骤或单元而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明技术名词说明：

1、最大李雅普诺夫指数和关联维

最大李雅普诺夫指数和关联维(largest Lyapunov exponent and correlationdimension，LLE&D2)是语音识别的一种特征参数，提取步骤为：

(1)对于给定的语音信号，先选定较小的嵌入维数m₀，重构相空间；

(2)计算关联维C(r)

其中

表示两相点之间的距离，θ(u)是Heaviside函数，

C(r)是一个累积分的函数，表示相空间中吸引子上两点之间距离小于r的概率。

(3)以初始相点x₀为基点，在点集中选取一个与x₀最近的点x₁作为端点，构成初始向量，x₀,x₁间欧氏距离可记为L(t₀)。时间步长或演化时间k，初始向量沿轨线向前演化得到一新向量，其相应点与端点间欧氏距离可记为L(t₁)，在相应时段内系统线度指数增长率记为：

(4)如此继续，直至所有相点，然后取各指数增长率的平均值为最大李雅普诺夫指数估计值：

2.梅尔频率倒谱系数

梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)，比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统，非线性表示可以在多个领域中使声音信号有更好的表示。梅尔频率倒谱系数的提取步骤为：

(1)将信号S(n)预加重后采用汉明窗进行加窗分帧，得到每帧信号x_n(m)，然后通过短时傅里叶变换得到其频谱X_n(k)，随后求取频谱的平方，即能量谱P_n(k)；

P_n(k)＝|X_n(k)|²

(2)用M个Mel带通滤波器对P_n(k)进行滤波，由于每一个频带中分量的作用在人耳中是叠加的，因此将每个滤波器频带内的能量进行叠加；

其中，H_m(k)为Mel滤波器频域形式，S_n(m)是每个滤波器频带输出。

(3)将每个滤波器输出取对数功率谱并进行反离散余弦变换，得到L个MFCC系数；

(4)将得到的MFCC系数作为第n帧的特征参数，反映了语音信号的静态特征，如果加上人耳更为敏感的一阶差分系数，将得到更好的效果。一阶差分的计算公式如下：

其中L取2，表示当前帧前后各2帧的线性组合，反映了语音的动态特征。

参照图1本发明语音识别过程的流程图所示，本发明一种基于感知谱收敛率的语音识别方法的实施例，包括以下步骤：

步骤1：对语音信号进行多频带划分，得到分频带语音信号；多频带划分使语音信号在表现语音特性时更细致，同时具有听觉感知特性。

使用Gammatone滤波器对语音信号进行多频带划分，得到多个频率通道的语音信号。Gammatone滤波器为听觉仿生滤波器，可以使语音信号在表现语音特性时更细致，同时具有听觉感知特性。所述使用Gammatone滤波器对语音信号进行多频带划分时，Gammatone滤波器采用等效矩形带宽的过滤方法，Gammatone滤波器的时域表达形式为：

g_i(t)＝at^(n-1)e^-2πBtcos(2πf_it+φ)u(t)，

其中n为滤波器阶数，用于模拟人耳基底膜的滤波特性；Ф为滤波器初始相位，f_i为第i通道滤波器的中心频率，B是与等效矩形带宽有关的参数，a为Gammatone滤波器的幅度。实施例中n取值4，Ф取值0，a取值1。

所述第i通道滤波器的中心频率f_i为：

其中C为与品质因子和带宽有关的参数，f_l和f_h是滤波器的最低和最高频率，K为滤波器的个数；本实施例中C取值228.82，K取值24，使用24个频率通道的Gammatone滤波器对语音信号进行多频带划分后得到24频带的语音信号。

所述与等效矩形带宽有关的参数B的计算公式为B＝b₁·ERB(f_i)，其中等效矩形带宽ERB(f_i)的计算公式为ERB(f_i)＝24.7+0.108f_i。b₁为等效矩形带宽增益，即Gammatone滤波器的带宽B是等效矩形带宽的b₁倍。本实施例中b₁取值1.019。

步骤2：参照图2本发明中感知谱收敛率特征参数提取过程的示意图所示，感知谱收敛率特征参数提取包括对分频带语音信号分帧，对每一频带的每一帧语音信号作傅里叶变换，计算傅里叶变换后所有帧的频谱图的峰值之和和动态范围，通过非线性压缩得到语音信号的感知谱收敛率。

步骤2-1：采用汉明窗对每一个频带的分频带语音信号进行分帧，分帧公式为x_i(n)＝X(n)·g_i(n)→y_ij(n),j＝1,2,3…m，其中X(n)为原始语音信号，x_i(n)为第i个频率通道的语音信号，y_ij(n)为第i个频率通道的第j帧的语音信号。本实施例中帧长为0.024s，帧移为0.012s。

步骤2-2：对每一频带的每一帧语音信号作傅里叶变换，傅里叶变换公式为

其中S_i为第i个频率通道的功率谱，ω(n-k)为汉明窗函数；k为语音序列每个采样点的索引，为一个变量。所述第i个频率通道的功率谱S_i的计算公式为

其中C₁₁...C_mn为所有帧功率谱的幅度值。C₁₁…C_mn通过短时傅里叶变换以及功率谱定义得出，不同语音信号的得出值不同

步骤2-3：计算傅里叶变换后每一频带所有帧频谱图的峰值之和，峰值之和E_maxi的计算公式为

其中C(j,k)为第j帧语音信号功率谱的第k个幅度值。

步骤2-4：计算傅里叶变换后每一频带所有帧频谱图的动态范围，即频谱图的峰值与谷值之差，动态范围ΔE_i的计算公式为

步骤2-5：结合帧频谱图的峰值之和和动态范围进行非线性压缩，得到感知谱收敛率。根据步骤2-3和步骤2-4中的频谱图的动态范围和峰值之和计算感知谱收敛率，计算公式为

步骤3：将感知谱收敛率分为训练集和测试集，使用训练集训练分类器得到训练完成的分类器，将测试集输入训练完成的分类器进行语音识别，得到语音识别结果。

为了进一步说明本发明的有益效果，本实施例中在多层感知器(MLP)、支持向量机(SVM)、随机森林(RF)三种分类器的情况下，分别使用本发明方法、最大李雅普诺夫指数和关联维(LLE&D2)、梅尔频率倒谱系数(MFCCs)对语音信号进行分类识别。从准确率和消耗时间两方面将本发明方法与最大李雅普诺夫指数和关联维、梅尔频率倒谱系数进行对比，具体实验结果如表1所示：

表1实验结果表

由表1可以看出，在多层感知器、支持向量机、随机森林三类分类器中，本发明方法的准确率均达到了99.64％及以上，准确率相较于最大李雅普诺夫指数和关联维、梅尔频率倒谱系数都有明显提高。同时，使用本发明方法进行语音识别时，时间消耗相较于最大李雅普诺夫指数和关联维、梅尔频率倒谱系数有明显减少，最少仅为0.01s。最大李雅普诺夫指数和关联维仅能表征语音信号的低维混沌特性并且计算复杂，通过将本发明与最大李雅普诺夫指数和关联维比较，可以看出本发明通过不依赖于语音基音周期提取、降低计算复杂度从而在提高语音识别的准确性和实时性上效果显著。梅尔频率倒谱系数在语音识别领域应用广泛且表现效果较好，通过将本发明与梅尔频率倒谱系数比较，可以看出本发明在提高语音识别的准确性和实时性的同时，相较于传统的方法性能又得到了进一步提高。由此可见，本发明提出的方法提高了分类器的准确性和实时性，进一步说明了本发明的有益效果。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种基于感知谱收敛率的语音识别方法，其特征在于，包括以下步骤：

对语音信号进行多频带划分，得到分频带的语音信号；

对分频带语音信号分帧，对每一频带的每一帧语音信号作傅里叶变换，计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围，所述频谱图的动态范围为频谱图的峰值与谷值之差；结合频谱图的峰值之和和频谱图的动态范围进行非线性压缩得到语音信号的感知谱收敛率，所述感知谱收敛率GTSL的计算公式为：

2.根据权利要求1所述的基于感知谱收敛率的语音识别方法，其特征在于：所述对语音信号进行多频带划分，具体为使用Gammatone滤波器对语音信号进行多频带划分，得到多个频带的语音信号。

3.根据权利要求2所述的基于感知谱收敛率的语音识别方法，其特征在于：所述使用Gammatone滤波器对语音信号进行多频带划分时，Gammatone滤波器采用等效矩形带宽的过滤方法，Gammatone滤波器的时域表达形式为：

g_i(t)＝at^(n-1)e^-2πBtcos(2πf_it+φ)u(t)，

其中t为时间变量，Ф为滤波器初始相位，f_i为第i通道滤波器的中心频率，a为Gammatone滤波器的幅度，B为与等效矩形带宽有关的参数；n为滤波器阶数，用于模拟人耳基底膜的滤波特性。

4.根据权利要求3所述的基于感知谱收敛率的语音识别方法，其特征在于：所述第i通道滤波器的中心频率f_i为：

5.根据权利要求1所述的基于感知谱收敛率的语音识别方法，其特征在于：所述对分频带语音信号分帧的方法为采用汉明窗对对分频带语音信号进行分帧，分帧公式为x_i(n)＝X(n)·g_i(n)→y_ij(n),j＝1,2,3…m，其中X(n)为原始语音信号，x_i(n)为第i个频率通道的语音信号，y_ij(n)为第i个频率通道的第j帧的语音信号。

6.根据权利要求1所述的基于感知谱收敛率的语音识别方法，其特征在于：所述傅里叶变换的公式为

7.根据权利要求6所述的基于感知谱收敛率的语音识别方法，其特征在于：所述第i个频率通道的功率谱S_i的计算公式为

其中C₁₁...C_mn为所有帧功率谱的幅度值。

8.根据权利要求1所述的基于感知谱收敛率的语音识别方法，其特征在于：所述计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围中，频谱图的峰值之和E_maxi的计算公式为

其中C(j,k)为第j帧语音信号功率谱的第k个幅度值。

9.根据权利要求1所述的基于感知谱收敛率的语音识别方法，其特征在于：所述计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围中，频谱图的动态范围ΔE_i的计算公式为

其中C(j,k)为第j帧语音信号功率谱的第k个幅度值。