CN109285551B

CN109285551B - 基于wmfcc和dnn的帕金森患者声纹识别方法

Info

Publication number: CN109285551B
Application number: CN201811083605.6A
Authority: CN
Inventors: 张颖; 徐志京
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2023-05-12
Anticipated expiration: 2038-09-18
Also published as: CN109285551A

Abstract

本发明提出了一种利用WMFCC提取人们的声纹特征、DNN识别并分类的方法,用于区分帕金森患者和健康人。WMFCC通过计算患者声纹中倒谱系数的加权和系数，解决高阶倒谱系数小、特征分量对音频的表征能力差等问题。DNN训练并分类识别有效地提高系统精度，使用MBGD优化算法降低损失函数的计算量进而提高系统训练速度。利用PD(帕金森)database中样本训练并测试分类，提高了判别帕金森患者的准确率，为帕金森患者早期快速辅助诊断提供了良好的解决方案。

Description

基于WMFCC和DNN的帕金森患者声纹识别方法

技术领域：

本发明涉及帕金森患者与健康人的声纹特征提取和判别分类，具体地说，是一种基于WMFCC和DNN的帕金森患者声纹识别方法,为PD患者早期快速辅助诊断提供了良好的解决方案。

背景技术：

帕金森病(PD)是仅次于阿尔茨海默病的第二种常见神经系统疾病。声音障碍被认为是最早的疾病征兆之一。早期阶段，声音存在的细微异常对听者来说是不可察觉的，但可将记录的语音信号进行声学分析来客观评估。现有的PD检测是利用PET-CT显像设备检测多巴胺能神经元是否减少，但其价格高且有辐射性等原因使患者接受度较低。20世纪90年代，各种浅层机器学习模型相继被提出，其中支持向量机(SVM)最为突出。2015年Benba等人提出了梅尔倒谱系数(MFCC)和SVM用于PD患者的声纹分析来区分PD患者和健康人。2016年Benba等人进一步研究了SVM的多层感知器(MLP)核函数与其他核函数的对比情况，但利用MFCC提取特征存在高阶倒谱系数非常小等问题，核函数分类器计算量大、训练时间长，且判别准确性也有待提高。SVM等多数分类为浅层结构算法，局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限，而深度学习可通过学习一种深层非线性网络结构实现复杂函数逼近，并展现强大的从少数样本集中学习数据集本质特征的能力。本专利利用加权梅尔倒谱系数(Weighted-MFCC，WMFCC)提取声纹特征从而增强敏感分量，运用深度学习中深度神经网络(DNN)的多层神经网络识别分类，提高判别PD患者的准确性。

发明内容：

1、采用WMFCC(加权MFCC)来提取声纹特征，解决高阶倒谱系数非常小的问题，突出MFCC参数的敏感量。

原理：语音特征参数的提取在声纹识别中是至关重要的。目前声纹识别领域中，提取特征最常用的为MFCC。语音信号是缓慢变化的，当它在短时间内被感知时，一般在10-30ms的时间间隔语音信号被认为是稳定的。因此应通过短时谱分析来计算，并使用Mel尺度来估计人耳的频率感知，是以1000Hz对应于1000Mel的方式计算的。

本研究使用时间的语音质量、频谱和倒谱域以便制定更客观的评估来检测语音障碍。这些测量包括声带振动的基频、绝对的声压级、抖动、微光和调和。基于PD患者的发音特点，提取其中的特征参数进行分析。然而特征参数包含的各个分量对语音样本的声纹特征表征能力存在差异，传统的MFCC方法提取的声纹特征高阶倒谱系数小、特征分量对音频的表征能力差，为了增强辨识的敏感分量，本研究通过计算多维语料的熵值，分析各维特征参数对声纹表征的贡献度，采用熵值加权法提取声纹特征，从而提高系统的辨识精度。

2、在帕金森诊断领域应用DNN来训练并分类，利用小批量梯度下降算法来优化DNN。

目前，众多学者未利用深度学习领域的方法来判别PD患者的患病情况，本研究提出利用DNN来训练并分类PD database中的样本集，并且为了解决梯度下降算法和随机梯度下降算法的不足，故选取了一种新的融合算法——小批量梯度下降(MBGD)算法，即在更新每一参数时都只计算小部分训练样本的损失函数。其小部分样本本文称为一个batch。一则，利用矩阵运算，在一个batch上优化神经网络的参数与单个样本相比速度相当。二则，每次使用小部分样本能够较大程度地减小收敛所需的迭代次数，在减小收敛的同时，得到的结果会更接近梯度下降算法的精确度。

附图说明：

图1是本发明基于WMFCC和DNN的帕金森患者声纹识别方法的实现PD患者和健康人分类的系统流程图。

图2是本发明基于WMFCC和DNN的帕金森患者声纹识别方法的WMFCC提取流程图。

图3是本发明基于WMFCC和DNN的帕金森患者声纹识别方法的MBGD优化算法的流程图。

具体实施方式：

步骤一：WMFCC声纹特征提取

语音特征参数的提取在声纹识别中是至关重要的。目前声纹识别领域中，提取特征最常用的为MFCC。语音信号是缓慢变化的，当它在短时间内被感知时，一般在10-30ms的时间间隔语音信号被认为是稳定的。因此应通过短时谱分析来计算，并使用Mel尺度来估计人耳的频率感知，是以1000Hz对应于1000Mel的方式计算的。

本技术使用时间的语音质量、频谱和倒谱域以便制定更客观的评估来检测语音障碍。这些测量包括声带振动的基频、绝对的声压级、抖动、微光和调和。基于PD患者的发音特点，提取其中的特征参数进行分析。然而特征参数包含的各个分量对语音样本的声纹特征表征能力存在差异，传统的MFCC方法提取的声纹特征高阶倒谱系数小、特征分量对音频的表征能力差，为了增强辨识的敏感分量，则通过计算多维语料的熵值，分析各维特征参数对声纹表征的贡献度，采用熵值加权法提取声纹特征，从而提高系统的辨识精度。

具体提取流程如下：

步骤11：预加重、分帧：为了消除发声过程中嘴唇和声带造成的效应，补偿语音信号受发音系统所压抑的高频部分并能突显高频的共振峰。所以将一阶差分方程应用到语音样本中来提高高频的幅值。实则是将语音信号通过一个高通滤波器：

H(z)＝1-kz^-1

式中k是预加重系数，应在0＜k≤1范围，通常取0.97。

分帧步骤中，语音信号被划分为N个样本帧。为避免相邻两帧变化过大，因此使两相邻帧之间存在一段重叠区域，该重叠区域包含了M个取样点，其中M＜N。

步骤12：加窗：加汉明窗的目的是减少信号的不连续性，使两端光滑，足以连接到开始。

假设分帧后的信号为是s(n)，n为帧的大小。其中{s_n,n＝1,...,N}。s'_n形式如下：

步骤13：快速傅立叶变换(Fast Fourier Transform，FFT)：利用FFT将N个样本从时域转换为频域。使用FFT是因为它为一类快速算法，可实现离散傅立叶变换(DFT)。DFT是在N个样本集上定义的，设语音信号的DFT为：

式中s_k为输入的语音信号，N表示傅立叶变换的点数。

步骤14：滤波器组分析：频域存在若干冗余信号，滤波器组可对频域的幅值进行精简。人耳对声音的感知并不是线性的，用log这种非线性关系更好描述，则Mel频率与语音信号的关系：

其中Mel(f)表示梅尔频率，单位为mel，f为语音信号频率，单位为Hz。

步骤15：离散余弦变换(DCT)：该步进行反傅立叶变换，通过低通滤波器获得最后的低频信号，通过DCT对数滤波器组的振幅(m_j)计算：

其中N是滤波器组信道的个数。

步骤16：加权：倒谱系数和系数的主要优点为彼此不相关，但高阶倒谱系数非常小，呈现的敏感分量不明显进而降低了提取有效特征的识别率和后续的分类识别率。故在MFCC的基础上使用了熵值法提高特征分量对声纹特征的表征能力，该方法计算简便且考虑了特征分量间的相互影响。熵值法是一种适合相互独立的变量之间计算权重的客观赋权方法，是根据计算分量的信息熵决定分量的权重。熵的值越大，则代表携带的信息越少，分量的权重也越小，反之结论仍然成立。因此，它是改变这些倒谱系数至关重要的一步。是通过以下方程实现：在PD database语音样本的声纹特征中，MFCC＝(M₁,M₂,M₃,...,M_i,...,M_N)，其中M_i＝(mel_i(1),...,mel_i(j),...,mel_i(D))为声纹特征的第i帧的特征向量，D为特征参数维数，N为语音样本的帧数，mel_i(j)为声纹特征第i帧的第j个特征向量值。

首先，将特征矩阵标准化：

定义熵，其中

得到的特征分量的熵权：

最后将MFCC各个分量的权重加权后，得到的新参数：

wM_i＝(w₁·mel_i(1),...,w_D·mel_i(D))

以一个语音样本为例，提取PD患者前20梅尔频率倒谱系数对应的特征值后利用熵值法加权方法计算其特征分量的权重。

在获得的每个语音样本中提取WMFCC的多倒谱系数，提取的系数范围为1～20。(第1个倒谱系数由于幅度变化太大失去参考意义)继续以这种方式获得最佳分类准确性所需要的系数最佳值。接着，利用计算所有帧的平均值来得到每个人声纹的方式提取对应的声纹。

对比可直观的得出WMFCC解决了高阶倒谱系数非常小的问题，在加权平均后也突出了MFCC参数的敏感量，且高阶倒谱系数的变化会影响后续有效特征的识别率。

步骤二：DNN深度神经网络设计，包括输入层、隐藏层和输出层。把输入层写作0层，把输出层写作L层。不同于浅层网络，DNN可以有多个隐层，当前隐藏层的输出为下一个隐藏层或者输出层的输入。运用反向传播(BP)算法给每层的参数求梯度。其中激活函数为修正线性单元(ReLU)，其优点为：网络可以自行引入稀疏性的同时，也大大地提升了训练速度。

步骤21：DNN预训练的参数预训练算法

具体过程如下：若输入为连续特征，训练一个高斯-伯努利分布的RBM，若输入为二项分布特征，训练一个伯努利-伯努利分布的RBM。而后将隐藏层的输出作为下一层伯努利-伯努利分布RBM的输入数据，余下各层以此类推。该过程不需要标签信息，是无监督的训练过程。在预训练之后进行有监督的训练，根据本研究的任务和应用要求，在顶层添加训练数据的标签和评判标准的输出，并采用反向传播算法来调整网络的参数。

步骤22：反向传播算法

在运用反向传播进行参数训练时，通过一组训练样本(xⁱ,yⁱ),1≤i≤N来训练得到DNN的模型参数，其中xⁱ为第i个样本的特征向量，yⁱ为对应的标签。

输入x：为输入层设置对应的激活值。

前向传播：对每一层计算下式：

计算输出层误差e^L：误差向量为：

误差反向传播：定义第l层节点的误差为：

e^l＝diag(f_l′(z^l))·(W^l+1)^T·e^l+1

输出：各层的权重矩阵和偏置分别由下式计算得出。

步骤23：小批量梯度下降优化算法

MBGD算法是在全部样本里随机抽取m个样本，而m是训练总样本。其中m个样本为：X₁,X₂,...,X_i,...,X_m。ω,b分别为网络中权值和偏置的集合，Y_i和A_i分别为第i个样本输入下的期望输出和实际输出。||·||为范数运算，均方误差为：

其中

由梯度得

利用m个样本数据估计出整体梯度，m越大时估计越准确。此时更新公式为：

其中η为一个正数，取值区间为[0,1]，η称为学习率。

经过多次试验最终确定每次抽取2个样本作为一个batch来计算损失函数，并更新参数。60次后，完成整个语音样本集的训练，称之一轮(epoch)。由于每次更新用到多个样本来计算损失函数，所以使得损失函数的计算和参数的更新更具代表性，损失函数的下降也更稳定，收敛速度更迅速，同时运用小批量计算也降低了计算量。

步骤三：采用k-fold交叉验证法用来衡量搭建模型的预测性能，使用训练好的模型在新数据上有极好的表现。

其中k-fold交叉验证为：初始采样分割成k份子样本，取一份单独的子样本作为验证模型的数据，训练则用剩余的k-1份样本。此过程重复k次，每份子样本验证一次，最后将得到的k次结果取平均来评估模型的性能。当k＝n(即n为样本总量)时称为留一法，每次训练时的测试集只需单个样本，总共进行n次训练和预测。使用该方法选取的训练样本，仅比总数据集减少一份样本，故最接近原始样本的分布。继续使用同一医生收集的28例PD患者的独立测试集进行测试。进而跟Benba等人研究的不同内核的SVM的方法进行对比，即径向基(RBF)，线性(Linear)，多项式(POL)和MLP的SVM分类器。为测试这几种分类器在鉴别PD患者和健康人中的成功率，故计算其准确性、敏感性和特异性。另外进一步计算显示二元分类质量的马休斯相关系数(MCC)和概率过剩(PE)两个评判指标。

Claims

1.一种基于WMFCC和DNN的帕金森患者声纹识别方法，其特征在于包括以下步骤：

步骤一：WMFCC声纹特征提取

具体步骤如下：

步骤11：预加重、分帧：将语音信号通过一个高通滤波器：H(z)＝1-kz^-1，其中z代表语音信号，k是预加重系数，应在0＜k≤1范围，通常取0.97；

分帧步骤中，语音信号被划分为N个样本帧；为避免相邻两帧变化过大，因此使两相邻帧之间存在一段重叠区域，该重叠区域包含了M个取样点，其中M＜N；

步骤12：加窗：设分帧后的信号为s(n)，n为帧的大小，{s_n,n＝1,...,N}；s'_n形式为：

步骤13：FFT：利用FFT将P个样本从时域转换为频域；使用FFT实现DFT；设语音信号的DFT为：

s_k为输入的语音信号，Q表示傅立叶变换的点数，j为虚数单位，k为系数，n为帧的大小；

步骤14：滤波器组分析：Mel频率与语音信号的关系：

Mel(f)表示梅尔频率，f为语音信号频率；

步骤15：DCT：通过DCT对数滤波器组的振幅m_j计算：

R是滤波器组信道的个数，j为虚数单位；

步骤16：加权：PD database的声纹特征，MFCC＝(M₁,M₂,M₃,...,M_i,...,M_S)，M_i＝(mel_i(1),...,mel_i(u),...,mel_i(D))为声纹特征的第i帧的特征向量，D为特征参数维数，S为语音样本的帧数，mel_i(u)为声纹特征第i帧的第u个特征向量值；

首先，将特征矩阵标准化：

定义熵

其中

特征分量的熵权：

将MFCC各个分量的权重加权后，新参数：wM_i＝(w₁·mel_i(1),...,w_D·mel_i(D))，其中，i为声纹特征的第几帧，u为第几个特征向量值，k为系数；

接着，提取PD患者前20梅尔频率倒谱系数，其中系数范围为1～20，对应的特征值后利用熵值法加权方法计算其特征分量的权重；

最后，用计算所有帧的平均值来得到每个人声纹的方式提取对应的声纹；

步骤二：步骤21：DNN预训练的参数预训练算法：

具体过程如下：若输入为连续特征，训练一个高斯-伯努利分布的RBM，若输入为二项分布特征，训练一个伯努利-伯努利分布的RBM；而后将隐藏层的输出作为下一层伯努利-伯努利分布RBM的输入数据，余下各层以此类推；该过程不需要标签信息，是无监督的训练过程；在预训练之后进行有监督的训练，在顶层添加训练数据的标签和评判标准的输出，并采用反向传播算法来调整网络的参数；

步骤22：反向传播算法：

通过一组训练样本(x^w,y^w),1≤w≤T来训练得到DNN的模型参数，其中x^w为第w个样本的特征向量，y^w为对应的标签，T为样本总数；

输入x：为输入层设置对应的激活值；

前向传播：对每一层网络计算z^l＝W^lv^l-1+b^l和v^l＝f(z^l)，其中z为步骤11的语音信号，z^l和v^1-l代表前向传播的每层网络、b^l和W^l代表前向传播的语音变量参数；

计算输出层误差e^L：误差向量为：

误差反向传播：定义第l层节点的误差为：e^l＝diag(f_l′(z^l))·(W^l+1)^T·e^l+1；

输出：各层的权重矩阵和偏置由

和

计算得出，其中k′为系数，n为帧的大小，x(0)、

x(k)、x(n-k)、

代表当帧数大小不一致时的输出信号；

步骤23：小批量梯度下降优化算法：

首先，MBGD算法是在全部样本里随机抽取m个样本，其中m是训练总样本；其中m个样本为：X₁,X₂,...,X_x,...,X_m；ω,b分别为网络中权值和偏置的集合，Y_x和A_x分别为第x个样本输入下的期望输出和实际输出；||·||为范数运算，均方误差为：

由梯度得▽C：

接着，由m个样本数据估计出整体梯度，m越大时估计越准确；此时更新公式为：

其中η为一个正数，取值区间为[0,1]，η称为学习率，i为声纹特征帧；最后，每次抽取2个样本作为一个batch来计算损失函数，并更新参数；60次后，完成整个语音样本集的训练；

步骤三：采用k-fold交叉验证法用来衡量搭建模型的预测性能：

初始采样分割成k份子样本，取一份单独的子样本作为验证模型的数据，训练则用剩余的k-1份样本；此过程重复k次，每份子样本验证一次，取k＝n，最后将得到的n次结果取平均来评估模型的性能；继续使用同一医生收集的28例PD患者的独立测试集进行测试；为测试鉴别PD患者和健康人中的成功率，计算其包括准确性、敏感性和特异性的评判指标。