CN111210845B

CN111210845B - 一种基于改进自相关特征的病理语音检测装置

Info

Publication number: CN111210845B
Application number: CN201911332887.3A
Authority: CN
Inventors: 薛珮芸; 王颇; 白静; 冯晓静
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-06-21
Anticipated expiration: 2039-12-20
Also published as: CN111210845A

Abstract

本发明涉及病理语音检测技术领域。一种基于改进自相关特征的病理语音检测装置，包括话筒、计算机、显示屏和音箱，通过话筒收集语音作为输入数据，输入数据在计算机内进行处理然后通过显示屏和音箱输出分类结果和分类准确率。相比于传统的梅尔倒谱系数、韵律、共振峰等特征，本发明提出的改进自相关特征能较好地对语音的非线性特性进行分析，并且可以表示出不同频段的语音特性，比传统特征具有更好的检测效果。

Description

一种基于改进自相关特征的病理语音检测装置

技术领域

本发明涉及病理语音检测技术领域。

背景技术

随着生活节奏的加快，人们社会活动的增多，语音障碍疾病越来越常见。通过调查显示，有超过百分之三十的人出现过嘶哑等发音障碍问题。尤其在需要经常用嗓的职业，比如教师、律师、拍卖师等，他们职业迫使他们说话声音比其他人大的多，过度用嗓导致他们的声音出现嘶哑。患有语音障碍的人在日常生活的语音交流中存在很多困难，给他们生活工作学习均带来了很多不便。因而语音障碍问题越来越受到人们的重视，已经成为了全球性健康问题。

语音信号处理技术提供了一种非入侵性的方法，通过提取语音的特征，然后结合模式识别方法自动完成对语音障碍的评估，该方法能够在临床中辅助医生检测问诊者是否出现声带病变，有助于医生进一步对患者进行诊治。从语音的产生原理来看，嗓音的产生主要通过声带的振动，如果声带出现病变就会影响自身振动的频率、振幅，出现异常发音。传统的病理语音检测技术通过提取嗓音信号的美尔频率倒谱系数(Mel-Frequency CepstralCoefficients,MFCC)、线性预测倒谱系数、基频、共振峰、频率微扰及振幅微扰等声学特征，结合高斯混合模型、支持向量机、随机森林等机器学习的方法可以对嗓音客观地进行评价。然而这些病理语音检测方法提取的声学特征将语音作为线性信号进行分析，忽略了语音的非线性特性；并且嗓音信号的产生过程复杂，不同的嗓音疾病可能存在于不同的频段，在整段语音信号上进行时频分析的方法存在局限性。

发明内容

解决的问题：如何提供一种能够提高病理语音检测准确率的病理语音检测装置。

本发明所采用的技术方案：一种基于改进自相关特征的病理语音检测装置，包括话筒、计算机、显示屏和音箱，通过话筒收集语音作为输入数据，输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率

步骤一、对输入的语音信号进行预处理，即进行加窗、分帧；

步骤二、按顺序对每一帧语音信号进行经验模态分解，得到一组固有模态函数；

步骤三、计算每一个固有模态函数分量的自相关函数，提取语音的改进的自相关特征；

步骤四、对步骤二中每一个固有模态函数分量进行快速傅里叶变换之后进行频率合成，然后通过梅尔滤波器组得到改进的梅尔倒谱系数；

步骤五、对步骤三提取的改进自相关特征和步骤四得到的改进梅尔倒谱系数进行串联拼接得到融合特征，然后提取所有训练集语音样本的融合特征构成特征矩阵，对每一个语音样本的特征最前面加标签，正常语音样本融合特征的标签为train_normal，病理语音样本融合特征的标签为train_pathology；

步骤六、使用步骤五中加标签的训练集特征矩阵训练Adaboost分类模型，然后将话筒收集语音同样按上述步骤处理测试样本集，给得到的测试样本集特征矩阵加标签，正常语音样本标签为test_noraml，病理语音样本标签为test_pathology，将加标签后的测试集与训练完的Adaboost模型进行匹配，得到最终的分类结果和分类准确率，通过显示屏和音箱输出分类结果和分类准确率。

步骤一中，加窗、分帧的具体过程如下：

1.1对输入数据s(n)采用汉明窗w(n)进行加窗。

n表示语音信号的采样点序列，N表示帧长。

1.2让语音信号s(n)乘以窗函数w(n)，形成加窗语音信号x(n)。

x(n)＝s(n)*w(n)

1.3对加窗后的语音信号x(n)进行分帧处理，则语音信号x(n)表示为x_i(t)，其中i为帧序号，t为帧同步的时间序号，帧长N为256，帧移为128。

步骤二中，经验模态分解的具体步骤如下：

经验模态分解(Empirical mode decomposition,EMD)是一种能够自适应的信号分解方法，能很好地处理非线性、非平稳信号，它将原语音信号分解为不同频率的固有模态函数(Intrinsic Mode Function，IMF)，每个固有模态函数分量都有较强的自适应性，并且能够准确反映语音信号的局部特征以及非平稳性。

2.1对每帧语音信号x_i(t)求出所有极大值点和极小值点，用三次样条函数拟合所有极大值点形成上包络线e₊(t)，拟合所有极小值点形成下包络线e_-(t)，如下所示。

F(a)表示三次样条函数，F₁(a)表示拟合第一个极值点a₁和第二个极值点a₂的分段函数，F₂(a)表示拟合第二个极值点a₂和第三个极值点a₃的分段函数，F_c-1(a)表示拟合第c-1个极值点a_c-1和第c个极值点a_c的分段函数，a表示函数参数；

其中，样条相互连接，F_b-1(a)＝F_b(a),b＝1,2,…,c-1；

两次连续求导，F′_b-1(a)＝F′_b(a)以及F″_b-1(a)＝F_b″(a),b＝1,2,…,c-1；

F_b(a)表示三次样条函数的任意一个分段函数，F_b-1(a)表示F_b(a)的前一个分段函数；F_b′(a)表示三次样条函数任意一个分段函数的一阶导数，F_b-1′(a)表示F_b(a)前一个分段函数的一阶导数；F_b″(a)表示三次样条函数任意一个分段函数二阶导数，F″_b-1(a)表示F_b″(a)前一个分段函数的二阶导数，c表示极值点个数，b表示第b个极值点。

2.2求出上包络线和下包络线的均值m1(t)

m₁(t)＝(e₊(t)+e_-(t))/2；

2.3计算每帧语音信号x_i(t)与m₁(t)的差值h₁(t)。

h₁(t)＝x_i(t)-m₁(t)

如果h₁(t)满足固有模态函数的定义，则它就是此语音信号的第一个固有模态函数分量，否则就以h₁(t)为待处理信号，重复步骤2.1和步骤2.2，再判断h_1,1(t)＝x_i(t)-m_1,1(t)是否满足固有模态函数的定义，如不满足，重复k次，直到h_1,k(t)＝x(t)-m_1,k(t)满足固有模态函数的筛选停止原则：

SD表示标准偏差系数，取0.2到0.3之间，记c₁＝h_1,k，t为帧同步的时间序号，T指语音序列的长度；

2.4使用语音信号x_i(t)减去第一个分量c₁(t)，得到新的语音信号

重复上述步骤，分别得到第2,…,3,l个固有模态函数分量c₂(t),c₃(t)...c_l(t)

步骤3中，改进自相关特征提取过程如下：

自相关函数用于衡量信号自身时间波形的相似性。利用自相关函数提供的信息可以估计出声带的不规则特性，研究发现，声带病变的语音波动周期少，周期内的波动幅度较大,并且声带病变的类型不一样，所在的病变部位不同，并且不同频率范围的特性存在差异。因此

3.1计算步骤二中每一个固有模态函数分量的自相关函数：

R_i(m)表示第i帧的自相关函数，x_i(t)表示固有模态函数分量的第i帧语音信号，m表示延时量，t为帧同步的时间序号，N表示帧长。

3.2将每一个固有模态函数分量的自相关函数的最大值、最小值、最大值和最小值的差值、平均值作为改进自相关特征。

自相关函数的最大值max{R_i(m)}

自相关函数的最小值min{R_i(m)}

自相关函数的最大值和最小值差值max{R_i(m)}-min{R_i(m)}

自相关函数平均值

I表示总帧数，i表示第i帧，m表示延时量。

步骤4中，改进梅尔倒谱系数的提取过程如下：

4.1对每一个固有模态函数分量c_l(t)进行快速傅里叶变换。

c_l(t)表示第l个固有模态函数分量，C_l(z)表示快速傅里叶变换后的固有模态分量，z表示固有模态函数分量的第z个采样点，Z表示固有模态函数分量的采样点总数，e表示一个数，j是复数，l表示固有模态函数分量总个数。

4.2对得到的频谱取模的平方得到能量谱E_l(z)。

E_l(z)＝|C_l(z)|²

E_l(z)表示能量谱，C_l(z)表示快速傅里叶变换后的固有模态分量，z表示固有模态函数分量的第z个采样点，l表示固有模态函数分量总个数。

4.3进行能量谱频率合成。

S(z)表示能量谱合成的结果，E_l(z)表示能量谱，l表示固有模态函数分量的总个数，z表示固有模态函数分量的第z个采样点。

4.4通过梅尔滤波器组，输出S'(z)。

S'(z)＝ln(S(z)H_m(z)),0≤m≤M

S'(z)表示梅尔滤波器的输出，H_m(z)表示梅尔滤波器组，m表示第m阶滤波器，M表示滤波器阶数，取24，z表示固有模态函数分量的第z个采样点。

4.5取反离散余弦变换,得到改进的梅尔倒谱系数。

C(ω)表示梅尔倒谱系数，S'(z)表示梅尔滤波器的输出，L表示梅尔倒谱系数的阶数，取12，m表示第m阶滤波器，M表示滤波器阶数，取24，ω表示第ω阶特征，z表示固有模态函数分量的第z个采样点。

步骤5中，改进自相关特征和改进梅尔倒谱系数串联拼接构成融合特征，最终的融合特征的特征集合表示为：

表示第1个固有模态函数分量的自相关特征向量，

表示第2个固有模态函数分量的自相关特征向量，

表示第l个固有模态分量的自相关特征向量，l取8，

表示第1阶改进梅尔倒谱系数的统计参数构成的向量，

表示第2阶改进梅尔倒谱系数的统计参数构成的向量，

表示第L阶改进梅尔倒谱系数的统计参数构成的向量，L取12，Fu表示融合特征。

本发明提出一种基于改进自相关特征的病理语音检测装置，具有如下增益效果：

1、相比于传统的梅尔倒谱系数、韵律、共振峰等特征，本发明提出的改进自相关特征能较好地对语音的非线性特性进行分析，并且可以表示出不同频段的语音特性，比传统特征具有更好的检测效果。

2、对分解后的信号提取自相关特征和梅尔倒谱系数，并构成融合特征，实验结果表明融合特征对单一语音特征具有较好的优化作用，进一步提高了检测效果。

附图

图1一种基于自相关特征的病理语音检测装置的结构示意图；

图2改进自相关特征提取流程图；

图3正常语音的自相关函数；

图4声带息肉语音的自相关函数；

图5声带麻痹语音的自相关函数；

图6声带囊肿语音的自相关函数。

具体实施方式：

以下结合实施实例和附图，对本发明方案进一步说明。

如图1所示，一种基于自相关特征的病理语音检测装置，包括话筒、计算机、显示屏和音箱，通过话筒收集语音作为输入数据，输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率，

在实施实例中，采用萨尔州大学语音研究所负责录制的SVD(Saarbrucken VoiceDatab ase,SVD)病理语音数据库，实验语料为单元音a。研究表明，单元音a比其他的音具有更高的识别率，国内外研究大都使用a进行实验。经过筛选后，正常语音样本266个，病理语音样本259个，其中包括声带麻痹样本208个，声带息肉样本45个，声带囊肿样本6个。

计算机内程序处理如下

步骤1：对输入的语音数据进行加窗、分帧。

1.11.1对输入数据s(n)采用汉明窗w(n)进行加窗。

n表示语音信号的采样点序列，N表示帧长。

1.2让语音信号s(n)乘以窗函数w(n)，形成加窗语音信号x(n)。

x(n)＝s(n)*w(n)

步骤2：按顺序对每一帧语音信号进行经验模态分解，得到一组固有模态函数。

F(a)表示三次样条函数，F₁(a)表示拟合第一个极值点a₁和第二个极值点a₂的分段函数，F₂(a)表示拟合第二个极值点a₂和第三个极值点a₃的分段函数，F_c-1(a)表示拟合第c-1个极值点a_c-1和第c个极值点a_c的分段函数，a表示函数参数。

其中，样条相互连接，F_b-1(a)＝F_b(a),b＝1,2,…,c-1；

2.2求出上包络线和下包络线的均值m1(t)

m₁(t)＝(e₊(t)+e_-(t))/2；

2.3计算每帧语音信号x_i(t)与m₁(t)的差值h₁(t)。

h₁(t)＝x_i(t)-m₁(t)

步骤3：计算每一阶固有模态函数的自相关函数，提取改进自相关特征。提取改进自相关特征的示意图如图2所示。

自相关函数用于衡量信号自身时间波形的相似性。利用自相关函数提供的信息可以估计出声带的不规则特性，研究发现，声带病变语音的波动周期少，周期内的波动幅度较大,并且声带病变的类型不一样，所在的病变部位不同，并且不同频率范围的特性存在差异。四种语音的自相关函数如图3、图4、图5、图6所示。

3.1计算步骤二中每一个固有模态函数分量的自相关函数：

自相关函数的最大值max{R_i(m)}

自相关函数的最小值min{R_i(m)}

自相关函数的最大值和最小值差值max{R_i(m)}-min{R_i(m)}

自相关函数平均值

I表示总帧数，i表示第i帧，m表示延时量。

步骤4：将步骤2中每一个固有模态函数分量进行离散傅里叶变换之后进行频率合成，然后通过梅尔滤波器组得到改进梅尔倒谱系数。

4.1对每一个固有模态函数分量c_l(t)进行快速傅里叶变换。

4.2对得到的频谱取模的平方得到能量谱E_l(z)。

E_l(z)＝|C_l(z)|²

4.3进行能量谱频率合成。

4.4通过梅尔滤波器组，输出S'(z)。

S'(z)＝ln(S(z)H_m(z)),0≤m≤M

4.5取反离散余弦变换,得到改进的梅尔倒谱系数。

步骤5、对步骤3提取的改进自相关特征和步骤4得到的改进梅尔倒谱系数进行串联拼接得到融合特征，然后提取所有训练集语音样本的融合特征构成特征矩阵，对每一个语音样本的特征最前面加标签，正常语音样本融合特征的标签为train_normal，病理语音样本融合特征的标签为train_pathology；改进自相关特征和改进梅尔倒谱系数串联拼接构成融合特征，最终的融合特征特征集合表示为：

表示第1个固有模态函数分量的自相关特征向量，

表示第2个固有模态函数分量的自相关特征向量，

表示第l个固有模态分量的自相关特征向量，l取8。

表示第1阶改进梅尔倒谱系数的统计参数构成的向量，

表示第2阶改进梅尔倒谱系数的统计参数构成的向量，

表示第L阶改进梅尔倒谱系数的统计参数构成的向量，L取12。Fu表示融合特征。

步骤6、使用步骤5中加标签的训练集特征矩阵训练Adaboost分类模型，然后将话筒收集语音同样按上述步骤处理测试样本集，给得到的测试样本集特征矩阵加标签，正常语音样本标签为test_noraml，病理语音样本标签为test_pathology，将加标签后的测试集与训练完的Adaboost模型进行匹配，得到最终的分类结果和分类准确率，通过显示屏和音箱输出分类结果和分类准确率。

表1病理语音检测结果

特征	改进梅尔倒谱系数	改进自相关特征	融合特征
				识别率/％	87.7	89.24	92.55

对于病理语音的检测，即对正常语音和病理语音进行分类。实验通过matlab完成特征提取和分类。Adaboost参数设置为：弱分类器的个数n_estimators为200，学习率learning_rate为0.7。最终的识别结果如表1所示。改进自相关特征与改进梅尔倒谱系数融合后达到最佳识别效果，病理语音检测准确率为92.55％。

Claims

1.一种基于改进自相关特征的病理语音检测装置，其特征在于：包括话筒、计算机、显示屏和音箱，通过话筒收集语音作为输入数据，输入数据在计算机内进行如下处理然后通过显示屏和音箱输出分类结果和分类准确率

步骤三、计算每一个固有模态函数分量的自相关函数，提取语音的改进的自相关特征，具体步骤如下：

自相关函数用于衡量信号自身时间波形的相似性，利用自相关函数提供的信息可以估计出声带的不规则特性，研究发现，声带病变的语音波动周期少，周期内的波动幅度较大,并且声带病变的类型不一样，所在的病变部位不同，并且不同频率范围的特性存在差异，因此3.1计算步骤二中每一个固有模态函数分量的自相关函数：

R_i(m)表示第i帧的固有模态函数分量自相关函数，x_i(t)表示第i帧语音信号的固有模态函数分量，m表示延时量，t为帧同步的时间序号，N表示帧长；

3.2将每一个固有模态函数分量的自相关函数的最大值、最小值、最大值和最小值的差值、平均值作为改进自相关特征；

自相关函数的最大值max{R_i(m)}

自相关函数的最小值min{R_i(m)}

自相关函数的最大值和最小值差值max{R_i(m)}-min{R_i(m)}

自相关函数平均值

I表示总帧数，i表示第i帧，m表示延时量；

步骤六、使用步骤五中加标签的训练集特征矩阵训练Adaboost分类模型，然后将话筒收集语音同样按上述步骤一到步骤五处理测试样本集，给得到的测试样本集特征矩阵加标签，正常语音样本标签为test_noraml，病理语音样本标签为test_pathology，将加标签后的测试集与训练完的Adaboost模型进行匹配，得到最终的分类结果和分类准确率，通过显示屏和音箱输出分类结果和分类准确率。

2.根据权利要求1所述的一种基于改进自相关特征的病理语音检测装置，其特征在于：步骤一中，加窗、分帧的具体过程如下：

1.1对输入数据s(n)采用汉明窗w(n)进行加窗；

n表示语音信号的采样点序列，N表示帧长；

1.2让语音信号s(n)乘以窗函数w(n)，形成加窗语音信号x(n)

x(n)＝s(n)*w(n)

3.根据权利要求1所述的一种基于改进自相关特征的病理语音检测装置，其特征在于：步骤二中，经验模态分解的具体步骤如下：

经验模态分解Empirical mode decomposition,EMD是一种能够自适应的信号分解方法，能很好地处理非线性、非平稳信号，它将原语音信号分解为不同频率的固有模态函数(Intrinsic Mode Function，IMF)，每个固有模态函数分量都有较强的自适应性，并且能够准确反映语音信号的局部特征以及非平稳性；

2.1对每帧语音信号x_i(t)求出所有极大值点和极小值点，用三次样条函数拟合所有极大值点形成上包络线e₊(t)，拟合所有极小值点形成下包络线e_-(t)，如下所示：

其中，样条相互连接，F_b-1(a)＝F_b(a),b＝1,2,…,c-1；

两次连续求导，F′_b-1(a)＝F_b′(a)以及F″_b-1(a)＝F_b″(a),b＝1,2,…,c-1；

F_b(a)表示三次样条函数的任意一个分段函数，F_b-1(a)表示F_b(a)的前一个分段函数；F_b′(a)表示三次样条函数任意一个分段函数的一阶导数，F_b-1′(a)表示F_b(a)前一个分段函数的一阶导数；F_b″(a)表示三次样条函数任意一个分段函数二阶导数，F″_b-1(a)表示F_b″(a)前一个分段函数的二阶导数，c表示极值点个数，b表示第b个极值点；

2.2求出上包络线和下包络线的均值m1(t)

m₁(t)＝(e₊(t)+e_-(t))/2；

2.3计算每帧语音信号x_i(t)与m₁(t)的差值h₁(t)；

h₁(t)＝x_i(t)-m₁(t)