CN108198576A

CN108198576A - 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法

Info

Publication number: CN108198576A
Application number: CN201810140213.2A
Authority: CN
Inventors: 李艳雄; 张聿晗; 李先苦
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-02-11
Filing date: 2018-02-11
Publication date: 2018-06-22

Abstract

本发明公开了一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法，包括以下步骤：从阿尔茨海默症患者和正常人的语音样本中提取声学特征，包括基频、能量、谐噪比、共振峰、声门波、线性预测系数、常Q倒谱系数，并将上述特征拼接成一个特征矩阵；采用非负矩阵分解算法对上述特征矩阵进行分解，得到降维后的特征矩阵；将上述降维后的特征矩阵作为输入，训练支持向量机分类器；将测试语音样本的降维后的特征矩阵输入训练好的支持向量机分类器，判决测试语音是正常人语音还是阿尔茨海默症患者语音。本发明采用非负矩阵分解对高维输入声学特征进行降维变换处理，降维后的特征矩阵具有更好的区分性，在阿尔茨海默症初筛中可以获得更加优异的效果。

Description

一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法

技术领域

本发明涉及音频信号处理和机器学习技术领域，具体涉及一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法。

背景技术

阿尔茨海默症是一种起病隐匿的进行性发展的神经系统退行性疾病。由于大脑皮层及皮层下语言网络结构及其联络纤维广泛受损，导致阿尔茨海默症患者出现言语障碍，并有其特殊的模式及演变过程，涉及口语表达、复述、理解、命名、阅读及书写等各个方面。阿尔茨海默症的言语障碍与痴呆严重程度呈正相关，影响正常的言语交流。

随着阿尔茨海默症病情的恶化，患者言语功能康复训练所需的时间和金钱成本也将提高。因此，及早发现患者是否出现言语功能障碍问题对于患者的康复有着重要意义。目前，国内对于言语功能障碍的评估方法主要有描记法、音标法、标准化测验法等，需要专业人员进行主观评估。我国在该领域的专业人员不足，相当一部分言语功能障碍患者得不到及时治疗。此外，主观评估方法偏差大，不同专家的诊断评估结果可能差异较大。现有的仪器评测方法，例如光纤维腭咽喉内镜检查、电视荧光放射照相术检查、喉动态描记法、舌压力传感器等。虽然评价比较客观，但是上述仪器比较昂贵，且一些诊断方法具有入侵性，给患者带来不适，阿尔茨海默症患者不乐意配合诊断。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法。该方法利用非负矩阵分解算法对高维语音特征矩阵进行降维处理，得到变换后的低维基矩阵，再采用支持向量机分类器进行判决，从而判断测试语音是正常人语音或者阿尔茨海默症患者语音。

本发明的目的可以通过采取如下技术方案达到：

一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法，包括如下步骤：

S1、提取声学特征：对语音样本进行预处理，接着提取基频、能量、谐噪比、共振峰、声门波、线性预测系数、常Q倒谱系数等声学特征，并对各个特征取绝对值，得到相应的特征矩阵V＝[基频，能量，谐噪比，共振峰，声门波，线性预测系数，常Q倒谱系数]；

S2、语音特征非负矩阵分解：将语音样本的特征矩阵V作为输入，采用非负矩阵分解算法对特征矩阵V进行降维分解，得到降维后的基矩阵W和系数矩阵H，使得V＝W×H；

S3、训练支持向量机分类器：将训练语音样本的基矩阵W作为输入，采用径向基函数作为核函数，分别训练代表正常人语音和阿尔茨海默症患者语音的支持向量机分类器；

S4、阿尔茨海默症判决：将步骤S1和步骤S2提取的测试语音样本的基矩阵W输入训练好的支持向量机分类器，判断输入语音是正常人语音还是阿尔茨海默症患者语音，得到阿尔茨海默症初筛结果。

进一步地，所述的步骤S1中提取声学特征包括以下步骤：

S1.1、预加重：利用数字滤波器对输入语音进行滤波，该滤波器的传递函数为：

H(z)＝1-kz^-1，

其中k的取值为0.96；

S1.2、分帧：将预加重后的语音数据按帧长L切分成帧，帧移为S；

S1.3、加窗：汉明窗作为窗函数，并与各帧语音相乘实现加窗处理，加窗后的第t帧语音表示为y_t'(n)，其中窗函数ω(n)：

S1.4、利用自相关法提取各语音帧的基频F₀，过程如下：

S1.4.1、对语音帧y_t'(n)进行中心削波，得到y_t(n)：

其中C_L为中心削波系数，取值为语音帧最大幅度的0.67倍；

S1.4.2、计算y_t(n)的自相关函数：

其中N是每帧语音的采样点数；

S1.4.3、检测R_y(i)的峰值点，并根据峰值点集合PV计算平均基音周期：

其中I是峰值点的个数，T₀是基频F₀的倒数；

S1.5、计算各帧的能量，第t帧的帧能量E_t为：

S1.6、提取各帧语音的谐噪比HNR；

S1.7、采用求根法计算第t帧语音共振峰频率F_i(t)，假设为第一个根，3dB带宽为B_i(t)，通过i次迭代得到：

其中，T_s为采样周期；

S1.8、采用逆滤波法计算声门波，设声道模型为全极点模型：

其中β_k是系数，M为极点个数，唇辐射模型采用一阶微分器：

L(z)＝1-μz^-1，

其中μ取0.98，则第t帧语音的声门波：

其中Y_t(z)为加窗后每个语音帧y_t'(n)的Z变换；

S1.9、提取线性预测系数，过程如下：

S1.9.1、计算中心削波后的第t帧语音y_t(n)的自相关函数R_y(j)：

线性预测器用下式表示：

其中，p为线性预测系数的阶数，a_i为线性预测系数；

S1.9.2、采用Levinson-Dubin法求解上述线性方程组：

当i＝0时，有

在第i次递归运算时，有

递归求解上述公式，可解得p阶线性预测系数1≤j≤p；

S1.10、提取常Q倒谱系数CQCC；

S1.11、对每个语音帧重复步骤S1.4到S1.10，将依次得到的语音帧的声学特征取绝对值，并按帧的顺序拼接成为特征矩阵V。

进一步地，所述的步骤S1.6、提取各帧语音的谐噪比HNR过程如下：

S1.6.1、计算y_t(n)的自相关函数：

其中N是每帧语音的采样点数；

S1.6.2、设R_H(i)与R_N(i)分别表示语音的谐波相关性和噪声相关性。由于谐波与噪声互不相关，且噪声没有相关性，故可得：

当i＝0时，R_n(0)＝R_H(0)+R_N(0)；

当i＝T₀时，R_n(T₀)＝R_H(T₀)＝R_H(0)；

即可得到谐噪比为：

进一步地，所述的步骤S1.10、提取常Q倒谱系数CQCC过程如下：

S1.10.1、对第t帧语音x_t(n)做短时傅里叶变换，得到相应的线性谱：

其中，W(n)为窗函数；

S1.10.2、采用汉明窗作为窗函数：

则上述语音帧线性谱可表示为：

其中，f_s为采样频率，f_k为中心频率，Q为品质因数，N为窗长；

S1.10.3、将上述语音帧的线性谱转换为对数谱：

S1.10.4对频率进行归一化重新采样：

其中，f₁是最小的中心频率，d为常数；

S1.10.5、将重采样后的对数谱进行离散余弦变换，得到第t个语音帧的CQCC：

进一步地，所述的步骤S2中采用基于欧氏距离的非负矩阵分解算法对语音特征非负矩阵进行分解，过程如下：

S2.1、随机初始化非负的基矩阵W和系数矩阵H；

S2.2、特征矩阵非负分解的目标函数定义为：

其中，V∈R^m×n是步骤S1中得到的基本声学特征矩阵，W∈R^m×k和H∈R^k×n则是其降维矩阵，k称为特征维数，且(m+n)×k<<m×n；

S2.3、利用梯度下降法，得加法迭代规则如下：

其中，W_ik表示W中第i行第k列的元素，H_kj表示H中第k行第j列的元素，μ_ik和η_kj为迭代算子，且有：

S2.4、将上述加法迭代规则变为乘法迭代规则，令：

固定W^(a)，计算H^(a+1)，再利用H^(a+1)计算出下一个W^(a+1)，如此循环即可得：

S2.5、归一化W：

S2.6、不断迭代更新得到新的基矩阵W和系数矩阵H，与设定的迭代终止条件阈值比较，如果符合条件就停止迭代，并输出分解后的基矩阵W和系数矩阵H；否则返回到步骤S2.3，继续迭代运算。

进一步地，所述的步骤S3、训练支持向量机分类器具体包括以下步骤：

S3.1、将经由步骤S2得到的基矩阵W作为输入特征矩阵X：

{(x₁,y₁),...(x_i,y_i)}∈(X,Y)

其中，x_i∈X为特征矢量，y_i∈Y{-1,1}为类标签；

S3.2、采用径向基函数作为支持向量机的核函数κ(·)，即：

其中，σ＝1.98；

S3.3、引入核函数后，优化问题为：

s.t.0≤α_i≤C,i＝1,...,l

其中，α为拉格朗日乘子，C为惩罚因子，采用序列最小优化算法求得最优解

S3.4、从α^*中选取一个分量满足其中，σ为样本方差；

S3.5、构造决策函数：

f(x)即为训练完毕的支持向量机分类器。

进一步地，所述的步骤S4、阿尔茨海默症判决的过程如下：对测试语音样本依次进行步骤S1、S2的处理，得到测试语音降维后的基矩阵W，并输入训练好的支持向量机分类器，根据输出结果进行判决：输出为1则测试语音为正常人语音；输出为-1，则测试语音为阿尔茨海默症患者语音。

本发明相对于现有技术具有如下的优点及效果：

1、本发明采用非负矩阵分解的方法变换得到测试语音各种声学特征的降维变换特征，相较于常规的声学特征能够更加有效地刻画正常人语音与阿尔茨海默症患者语音的特性差异，在阿尔茨海默症初筛中可以获得更加有效的结果。

2、本发明方法可以在一定程度上减轻国内医疗机构的就诊压力，为患者提供一种更乐于接受的阿尔茨海默症初筛方法。

附图说明

图1是本发明公开的基于语音特征非负矩阵分解的阿尔茨海默症初筛方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

图1是本发明公开的基于语音特征非负矩阵分解的阿尔茨海默症初筛方法的一个实施例的流程图，具体步骤操作如下：

详细步骤如下：

H(z)＝1-kz^-1，

其中k的取值为0.96；

S1.4、利用自相关法提取各语音帧的基频F₀，详细方法如下：

S1.4.1、对语音帧y_t'(n)进行中心削波，得到y_t(n)：

其中C_L为中心削波系数，取值为语音帧最大幅度的0.67倍；

S1.4.2、计算y_t(n)的自相关函数：

其中N是每帧语音的采样点数；

其中I是峰值点的个数，T₀是基频F₀的倒数；

S1.5、计算各帧的能量，第t帧的帧能量E_t为：

S1.6、提取各帧语音的谐噪比HNR，详细方法如下：

S1.6.1、计算y_t(n)的自相关函数：

其中N是每帧语音的采样点数；

当i＝0时，R_n(0)＝R_H(0)+R_N(0)；

当i＝T₀时，R_n(T₀)＝R_H(T₀)＝R_H(0)；

即可得到谐噪比为：

S1.7、采用求根法计算第t帧语音共振峰频率F_i(t)，假设为第一个根，3dB带宽为B_i(t)，可通过i次迭代得到：

其中，T_s为采样周期；

S1.8、采用逆滤波法计算声门波，设声道模型为全极点模型：

L(z)＝1-μz^-1，

其中μ一般取0.98，则第t帧语音的声门波：

其中Y_t(z)为加窗后每个语音帧y_t'(n)的Z变换；

S1.9、提取线性预测系数，详细方法如下：

S1.9.1、计算中心削波后的第t帧语音y_t(n)的自相关函数R_y(j)：

线性预测器可用下式表示：

其中，p为线性预测系数的阶数，a_i为线性预测系数；

S1.9.2、采用Levinson-Dubin法求解上述线性方程组：

当i＝0时，有

在第i次递归运算时，有

递归求解上述公式，可解得p阶线性预测系数1≤j≤p；

S1.10、提取常Q倒谱系数CQCC，详细做法如下：

其中，W(n)为窗函数；

S1.10.2、采用汉明窗作为窗函数：

则上述语音帧线性谱可表示为：

S1.10.3、将上述语音帧的线性谱转换为对数谱：

S1.10.4对频率进行归一化重新采样：

其中，f₁是最小的中心频率，d为常数；

S2、语音特征非负矩阵分解：将语音样本的特征矩阵V作为输入，采用非负矩阵分解算法对特征矩阵V进行降维分解，得到降维后的基矩阵W和系数矩阵H，使得V＝W×H；详细步骤如下：

采用基于欧氏距离的非负矩阵分解算法对语音特征非负矩阵进行分解，详细做法如下：

S2.1、随机初始化非负的基矩阵W和系数矩阵H。

S2.2、特征矩阵非负分解的目标函数定义为：

S2.3、利用梯度下降法，可得加法迭代规则如下：

S2.4、将上述加法迭代规则变为乘法迭代规则，令：

S2.5、归一化W：

S3、训练支持向量机分类器：将训练语音样本的基矩阵W作为输入，采用径向基函数作为核函数，分别训练代表正常人语音和阿尔茨海默症患者语音的支持向量机分类器；详细步骤如下：

S3.1、将经由步骤S2得到的基矩阵W作为输入特征矩阵X：

{(x₁,y₁),...(x_i,y_i)}∈(X,Y)

其中，x_i∈X为特征矢量，y_i∈Y{-1,1}为类标签；

S3.2、采用径向基函数作为支持向量机的核函数κ(·)，即：

其中，σ＝1.98；

S3.3、引入核函数后，优化问题为：

s.t.0≤α_i≤C,i＝1,...,l

其中，α为拉格朗日乘子，C为惩罚因子，可以采用序列最小优化算法求得最优解

S3.4、从α^*中选取一个分量满足其中，σ为样本方差；

S3.5、构造决策函数：

f(x)即为训练完毕的支持向量机分类器。

S4、阿尔茨海默症判决：对测试语音样本依次进行步骤S1、S2的处理，得到测试语音降维后的基矩阵W，并输入训练好的支持向量机分类器，根据输出结果进行判决：输出为1则测试语音为正常人语音；输出为-1，则测试语音为阿尔茨海默症患者语音。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法，其特征在于，所述的步骤S1中提取声学特征包括以下步骤：

H(z)＝1-kz^-1，

其中k的取值为0.96；

S1.3、加窗：汉明窗作为窗函数，并与各帧语音相乘实现加窗处理，加窗后的第t帧语音表示为y′_t(n)，其中窗函数ω(n)：

S1.4、利用自相关法提取各语音帧的基频F₀，过程如下：

S1.4.1、对语音帧y′_t(n)进行中心削波，得到y_t(n)：

其中C_L为中心削波系数，取值为语音帧最大幅度的0.67倍；

S1.4.2、计算y_t(n)的自相关函数：

其中N是每帧语音的采样点数；

其中I是峰值点的个数，T₀是基频F₀的倒数；

S1.5、计算各帧的能量，第t帧的帧能量E_t为：

S1.6、提取各帧语音的谐噪比HNR；

其中，T_s为采样周期；

S1.8、采用逆滤波法计算声门波，设声道模型为全极点模型：

L(z)＝1-μz^-1，

其中μ取0.98，则第t帧语音的声门波：

其中Y_t(z)为加窗后每个语音帧y′_t(n)的Z变换；

S1.9、提取线性预测系数，过程如下：

S1.9.1、计算中心削波后的第t帧语音y_t(n)的自相关函数R_y(j)：

线性预测器用下式表示：

其中，p为线性预测系数的阶数，a_i为线性预测系数；

S1.9.2、采用Levinson-Dubin法求解上述线性方程组：

当i＝0时，有

在第i次递归运算时，有

递归求解上述公式，可解得p阶线性预测系数

S1.10、提取常Q倒谱系数CQCC；

3.根据权利要求2所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法，其特征在于，所述的步骤S1.6、提取各帧语音的谐噪比HNR过程如下：

S1.6.1、计算y_t(n)的自相关函数：

其中N是每帧语音的采样点数；

当i＝0时，R_n(0)＝R_H(0)+R_N(0)；

当i＝T₀时，R_n(T₀)＝R_H(T₀)＝R_H(0)；

即可得到谐噪比为：

4.根据权利要求2所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法，其特征在于，所述的步骤S1.10、提取常Q倒谱系数CQCC过程如下：

其中，W(n)为窗函数；

S1.10.2、采用汉明窗作为窗函数：

则上述语音帧线性谱可表示为：

S1.10.3、将上述语音帧的线性谱转换为对数谱：

S1.10.4对频率进行归一化重新采样：

其中，f₁是最小的中心频率，d为常数；

5.根据权利要求1所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法，其特征在于，所述的步骤S2中采用基于欧氏距离的非负矩阵分解算法对语音特征非负矩阵进行分解，过程如下：

S2.1、随机初始化非负的基矩阵W和系数矩阵H；

S2.2、特征矩阵非负分解的目标函数定义为：

S2.3、利用梯度下降法，得加法迭代规则如下：

S2.4、将上述加法迭代规则变为乘法迭代规则，令：

S2.5、归一化W：

6.根据权利要求1所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法，其特征在于，所述的步骤S3、训练支持向量机分类器具体包括以下步骤：

S3.1、将经由步骤S2得到的基矩阵W作为输入特征矩阵X：

{(x₁,y₁),...(x_i,y_i)}∈(X,Y)

其中，x_i∈X为特征矢量，y_i∈Y{-1,1}为类标签；

S3.2、采用径向基函数作为支持向量机的核函数κ(·)，即：

其中，σ＝1.98；

S3.3、引入核函数后，优化问题为：

s.t.0≤α_i≤C,i＝1,...,l

S3.4、从α^*中选取一个分量满足其中，σ为样本方差；

S3.5、构造决策函数：

f(x)即为训练完毕的支持向量机分类器。

7.根据权利要求1所述的一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法，其特征在于，所述的步骤S4、阿尔茨海默症判决的过程如下：对测试语音样本依次进行步骤S1、S2的处理，得到测试语音降维后的基矩阵W，并输入训练好的支持向量机分类器，根据输出结果进行判决：输出为1则测试语音为正常人语音；输出为-1，则测试语音为阿尔茨海默症患者语音。