CN111584069A

CN111584069A - 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统

Info

Publication number: CN111584069A
Application number: CN202010376825.9A
Authority: CN
Inventors: 李勇明; 林远; 王伯初; 洪叶; 王品; 郝石磊; 张兴勇; 莫妮娜; 雷艳
Original assignee: Chengdu Lantu Network Technology Co ltd
Current assignee: Chengdu Lantu Network Technology Co ltd
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-08-25
Anticipated expiration: 2040-05-07
Also published as: CN111584069B

Abstract

本发明公开一种基于语音深‑浅特征堆栈稀疏自动编码的精神病识别系统，包括：语音采集模块、处理器和结果输出模块，处理器中配置有特征提取模块、编码器模块、特征混合模块和分类判别器；语音采集模块获取受试者按预定任务朗读所形成的语音样本数据；特征提取模块提取语音样本数据中的浅层特征；编码器模块进行嵌入式深‑浅特征堆栈稀疏自动编并生成深层特征；特征混合模块用于融合浅层特征和深层特征；分类判别器对融合后的特征进行分类判别，得出判定结果。其效果是：通过改进的混合特征嵌入堆叠式自动编码器提取的深层特征与原始特征相结合，提高了学习质量，缓解了小样本问题，系统鲁棒性好，可靠性强，准确率高。

Description

基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统

技术领域

本发明涉及智慧医疗技术，具体地说，是一种基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统。

背景技术

精神疾病又称精神病，指在各种生物学、心理学以及社会环境因素影响下，大脑功能失调，导致认知、情感、意志和行为等精神活动出现不同程度障碍为临床表现的疾病，多起病于青壮年。大部分患者在疾病过程中会出现认知功能的损害。精神疾病患者病程一般有间歇性，呈反复发作、加重或恶化，部分患者最终出现精神衰退和精神残疾。

研究表明，精神病患者大都伴有言语异常，语音障碍更是发生在精神病人早期的症状之一。随着病情加深，语音的韵律、清晰度、流畅性的问题逐渐出现。现在随着计算机技术、声学分析技术的日趋成熟，精神病患者发音特点也慢慢被人重视，基于语音病理特征利用机器学习技术进行精神病的无痛无损伤的客观辅助诊断成为了当前一大研究热点。

相较医疗图像、脑电信号等几种常用的精神疾病诊断方法而言，基于语音的精神疾病诊断方法操作过程更为简单便捷，非接触式，诊断的价格代价更小，无副作用。这种诊断方法逐渐得到人们关注。

但是现有的语音识别技术通常还存在一些不足，首先是语音特征提取方式都较为单一，忽略了数据之间的非线性复杂关系；大多只是在对原始特征和深层特征的判别结果进行了决策级别的融合，没有很好的进行特征级别的深浅层次融合；没有深度实现特征降维，以降低识别模型复杂度，提高泛化能力，所以不能很好的识别精神疾病语音异常。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，该系统将原始特征嵌入到每个编码器的编码输出中，用微弱的分辨能力代替隐藏的表示，然后将这些混合特征融合到更高隐藏层的更抽象的特征表示中，用于最终的分类判别，从而实现了将原始特征融入到深度网络结构和训练中，保留特征有用信息，提高了输出的深度特征与原始特征的互补性，提高了系统的鲁棒性。

为达到上述目的，本发明所采用的具体技术方案如下：

一种基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，其关键在于包括：语音采集模块、处理器和结果输出模块，所述处理器中配置有特征提取模块、编码器模块、特征混合模块和分类判别器；

所述语音采集模块用于获取受试者按预定任务朗读所形成的语音样本数据；

所述特征提取模块用于提取所述语音样本数据中的浅层特征；

所述编码器模块用于进行嵌入式深-浅特征堆栈稀疏自动编并生成深层特征；

所述特征混合模块用于融合所述特征提取模块提取的浅层特征和所述编码器模块生成的深层特征；

所述分类判别器用于对所述特征混合模块融合后的特征进行分类判别，得出受试者是否属于精神病的判定结果；

所述结果输出模块用于输出所述分类判别器的判定结果。

可选地，所述预定任务中包括了多段待采集的语音样本，每段待采集的语音样本是由预定的元音字母、预定的汉字、预定的词语和预定的短语随机组合而成，在所述处理器上还连接有引导提示模块，所述引导提示模块通过语音或文字的方式引导受试者按预定任务朗读。

可选地，所述特征提取模块采用声学分析软件对每段语音样本提取一组基于线性和时频的特征作为所述浅层特征，包括但不限于频率变化特征或/和脉冲变化特征或/和振幅变化特征或/和语音变化特征或/和基频变化特征或/和谐波特征。

可选地，所述编码器模块包括堆栈式设置的多层编码单元，相邻两层编码单元之间设置有合并稀疏单元；所述浅层特征作为原始特征送入第一层编码单元进行编码，编码后的特征与原始特征再送入合并稀疏单元进行合并和稀疏表示，经过合并稀疏单元合并和稀疏表示后再筛选出最优特征子集送入下一层编码单元；经过多层迭代，最后一层编码单元的输出作为所述深层特征，堆栈编码器的层数可选，可根据具体情况进行最优设置或优化。

可选地，所述编码器模块的载体包括但不限于：台式电脑、笔记本电脑、服务器、掌上终端、手机、专业嵌入式系统、DSP、FPGA(Field Programmable Gate Array，现场可编程门阵列)等。

可选地，所述特征混合模块通过L1或L2正则化方法选择浅层特征和深层特征中的部分特征作为最优特征集送入所述分类判别器中进行分类判别。

可选地，所述分类判别器采用基于加权局部保持鉴别投影和SVM的分类判别模型。

可选地，所述分类判别器采用基于bagging和SVM的集成分类判别模型。

本发明的显著效果是：

本发明提出的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，通过改进的混合特征嵌入堆叠式自动编码器提取的深层特征与原始特征相结合，挖掘了原始数据之间的复杂非线性关系，提高了深度特征与原始特征互补性，降低了特征维度，提高了分类稳定性，缓解了小样本问题，系统鲁棒性好，可靠性强，准确率高。

附图说明

图1是本发明的系统架构图；

图2是图1中编码器模块的原理框图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

如图1所示，本实施例提供一种基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，包括：引导提示模块、语音采集模块、处理器和结果输出模块；

本实施例中，引导提示模块采用计算机屏幕文本显示的方式进行引导提示，提示的文本包括13个朗读任务，每一个朗读任务中包括元音(a,e,i,o,u)、汉字(喵，圆，光，巧，酸)、词语(椅子、妈妈、萝卜、豆腐、石头、什么、花儿)和短句(门前大桥下…)等元素随机组合而成。

语音采集模块用于获取受试者按预定任务朗读所形成的语音样本数据，本实施例中采用麦克风记录受试者的语音，麦克风采样率设置为96kHz，增益30dB，并放置在距受试者嘴巴附近(通常10cm左右)处，数据建议以.wav形式进行保存，也可以以压缩格式保存。

所述处理器中配置有特征提取模块、编码器模块、特征混合模块和分类判别器；

所述特征提取模块用于提取所述语音样本数据中的浅层特征；本实施例中使用了Praat声学分析软件，考虑到该研究领域的先前工作，从每个语音样本中提取了26个基于线性和时频的特征，如表1所示：

表1音频特征表

所述编码器模块用于进行嵌入式深-浅特征堆栈稀疏自动编并生成深层特征；如图2所示，所述编码器模块包括堆栈式设置的多层编码单元，相邻两层编码单元之间设置有合并稀疏单元；所述浅层特征作为原始特征送入第一层编码单元进行编码，编码后的特征与原始特征再送入合并稀疏单元进行合并和稀疏表示，经过合并稀疏单元合并和稀疏表示后再筛选出最优特征子集送入下一层编码单元；经过多层迭代，最后一层编码单元的输出作为所述深层特征。

在本环节中，编码单元实际是一种人工神经网络，结构上分为三层：输入层、隐藏层和输出层，由编码器和解码器两部分组成，它是一种无监督学习算法，利用反向传播技术，通过最小化输出数据和输入数据之间的重建误差来学习输入数据的新表示。考虑到一个数据样本，编码器将其转换为具有可调数量的神经单元的隐藏表示，并通过非线性激活而衰减。该过程被表述为：

其中W₁是权重矩阵，b₁代表偏差向量，σ(·)表示激活函数，通常使用逻辑回归函数：

在解码器部分，确定性表示g(·)

将隐含层映射回去以重构输入空间x'，如下所示：

其中W₂和b₂分别代表权重矩阵和偏差向量。编码器自训练的目的是找出一组参数θ＝{W₁,W₂,b₁,b₂}使输入数据和输出数据之间的重建损失最小，从而挖掘出输入数据的重要表示结构。目标函数定义为：

其中λ是权重衰减项的正则化系数，添加该系数是为了防止过拟合。

而所谓的合并稀疏单元，其实质是对编码单元输出的特征与原始特征进行合并，并进行稀疏表示，过滤编码得到的低质特征，从而获得混合特征集的最优子集。同时原始特征的引入，避免了在网络加深时丢失原始初始信息，将原始数据样本定义为X，将编码单元编码后的特征定义为H，则合并稀疏单元可以定义为：

其中：

表示原始特征与隐藏层特征的级联，L表示稀疏运算，G是由0和1组成的稀疏矩阵。考虑到特征的离散性在一定程度上解释了其样本识别能力，稀疏运算的目标函数定义为：

其中：tr()表示计算矩阵的迹，d是隐藏单元的数目。对(5)式中协方差矩阵的对角线元素进行排序，选择第d个最大值作为阈值t，G的元素可以定义为：

其中D_ij是协方差矩阵的对角线元素。通过稀疏矩阵，离散度低的特征将为零，因此这些特征将不会被送到后续层进一步编码。

在编码单元之间引入，合并稀疏单元后，第k层(k>1)编码单元将重定义为：

其中

是第k层编码单元的隐层输出，W_k1和b_k1分别是第k层编码单元的权矩阵和偏差向量。解码器函数：

其中，

是输入的重构,W_k2和b_k2分别是是解码器的权值矩阵和偏差向量。此外，将稀疏准则应用于隐层，以发现输入数据中的潜在结构。为了实现稀疏表示，引入Kullback-Leibler(KL)散度作为无监督目标，用相对熵来度量第j个隐层单元的平均激活值和目标平均激活值之间的差异。通过设置一个小的稀疏参数，隐藏单元的平均输出大部分为零，从而实现稀疏表示。第k层编码单元的训练目标函数可以重新定义如下：

其中β为稀疏约束的惩罚系数，d^(k)是第k个隐藏层单元的数目。用式(9)进行训练的过程称为预训练，将预训练得到的编码单元隐藏层级联形成一个堆栈自编码器，其初始参数由预训练确定。最终的目标是获得具有更好类别表达能力的特征，因此我们进一步以有监督的方式优化整个网络。为了实现这一点，在堆栈自编码器的顶部连接一个分类层作为输出层，分类层选用softmax，利用基于梯度下降的反向传播微调堆栈网络。由于预训练的特点，网络微调可以降低陷入局部最优的风险。

本系统学习的非线性变换可以看作是一种很好的特征学习，它不仅利用了深度网络能够学习数据之间潜在关系的特点，而且通过在深度网络中引入原始特征，提高了深度特征与原始特征的互补性，有利于后续深度特征与原始特征的融合。整个网络训练完成后，对于每个原始特征向量x_i＝{x_i1,x_i2,···,x_in}，在各隐藏层中都可以得到一个新的特征向量。一般来说，网络层数越大，输入数据中固有的模式就越复杂或抽象。基于此，我们将最后一个隐藏层的输出，即分类层的输入，作为深度特征向量，记为x′_i＝{x′_i1,x′_i2,···,x′_iq}。然后，通过级联x_i和x′_i构造增强的特征向量：

混合特征集具有更丰富的类别信息，然而，按公式(10)简单的合并会导致高维问题，可能出现维数灾难。另一方面，考虑到深度特征是从原始数据中学习到的，我们认为这些特征是不独立的，并且两种特征之间存在着一些冗余信息。因此，有必要开发一种新的算法来有效地处理候选特征集并提取最有用的信息。为此我们设计了基于L1正则的特征选择算法。

L1正则化使用惩罚项来控制参数的绝对值之和最小化，从而给出稀疏特征向量。对于新的数据集，其中

表示具有混合特征的第i个样本，y_i为相应的标签。考虑到以平方误差为损失函数的最简单回归模型，优化目标函数可定义为：

为了防止陷入过拟合，引入L1正则化来缓解此问题：

其中N为样本数，

为第i个样本的第p个特征，w_p为第p个特征的回归系数。κ是稀疏控制参数，其值越大模型越稀疏。通过求解L1正则化，只有与w_p的非零分量对应的特征才能选择到最终的特征子集。

经过上述过程后，系统能够得到一个充分融合浅层特征和深层特征的最佳特征子集，所述分类判别器用于对所述特征混合模块融合后的特征进行分类判别，得出受试者是否属于精神病的判定结果，最后通过结果输出模块可以输出分类判别器的判定结果。

为了提高判别模型的泛化性和可靠性，作为一种实施方式，所述分类判别器采用基于加权局部保持鉴别投影和SVM的分类判别模型。采用了集成学习方法构建融合机制，具体来说，假设样本和特征的采样率分别为δ₁和δ₂，且采样次数为K，从而得到K个样本子集。然后对每一个子集应用加权保局部判别投影(w_LPPD)。w_LPPD得到的K个样本子集分别作为K个分类器的训练样本，采用支持向量机作为基分类器，测试样本的分类结果将由加权投票机制决定。

这里所述的加权局部保持鉴别投影是一种新的有效的特征约简方法，它考虑了样本中的离群点，去除了一些远离类中心的样本。首先，引入随机子空间采样；其次，基于所提出的目标函数建立保留局部性的判别投影；最后，集成多空间映射矩阵构造最终映射矩阵。假设k_mc表示第c类样本的采样数，则采样后的总样本数为

中心最近邻的类间局部散布矩阵S_LB和类中心最近邻的类内局部散布矩阵S_LW定义如下：

其中，局部样本数

和

r_b和r_w是采样率系数，N和N_c分别是总样本数和第c类样本数。

是采样样本的中心，

是采样后第c类样本的类中心，N_lc是局部空间中第c类样本数。

是局部的第c类样本中心。此外，局部保留正则化项如下所示：

其中L＝D-A是拉普拉斯矩阵，

是对角矩阵，A是亲和矩阵，可通过以下方式计算：

利用式(13-15)，w-LPPD可以公式化为：

其中γ表示正则化系数，α为常数。从目标函数可以看出，W-LPPD的目标是最小化局部类内散布矩阵的迹，最大化类间散布矩阵，同时保留样本的局部性。

通过引入拉格朗日乘子，目标函数式(17)最终可以写成：

L(W,λ)＝Tr(W^TS_LWW)-λ(W^TS_LBW-γW^TXLX^TW-αI) (18)

进行求导，得到最优解。

显然，通过式(19)，投影矩阵可以很容易地通过广义特征值分解得到。向量W_k＝(w₁,w₂,...,w_k)由W的前k个特征向量组成，通过W_k将原始数据投影到一个低维空间中实现降维。如前所述，我们在随机子空间上应用LPPD，得到P个投影矩阵

通过加权得到最终的映射矩阵

其数学表达式如下：

其中α_i是权重系数，可以通过网格搜索来确定。

通过w_LPPD，我们可以进一步将L1正则化选择的深浅特征子集映射到另一个低维特征空间，在该空间中，不同类别的样本之间距离会更远，而同一类别样本之间的距离会更近。因此，用这种方法得到的特征具有更有效的类别表示和判别能力。

进一步地，所述分类判别器采用基于bagging和SVM的集成分类判别模型。

在SVM基础上融入bagging思想提升分类器模型的正确率和稳定性。本算法的核心是：给定一个训练集，对训练集进行k轮bootstrap抽样形成k个训练特征子集，然后对K个训练特征子集分别进行SVM建模分析产生K个弱分类器，最后把形成的多个弱分类器通过加权投票机制集成为一个强分类器。每个弱分类器的权重可按下面公式计算：

其中

代表训练集的数目。假设数据集一共有C类样本，对于第i个样本x_i(标签为y_i)，C_ik为第k个分类器对该样本的预测结果。样本x_i属于第c类的概率可以表示为：

通过以下公式确定由集成模型最终的预测结果：

为了验证本系统的性能，申请人选择了232名被试者，其中130位精神疾病患者来自重庆第三军医大学附属西南医院，102位健康人由招募而来的重庆大学同学和成都某公司员工组成。所有被试者均经过经验丰富的心理专家和精神科医生依照《简明国际神经精神访谈》(the MINI International Neuropsychiatric Interview,MINI)和《心理障碍诊断与统计手册》(Diagnostic and Statistical Manual of Mental Disorders,DSM-IV)进行诊断筛查。

在所有受试者中，抑郁症患者年龄在18～63岁；健康人年龄为20～36岁，从性别角度来看，抑郁症患者中，男性为58人，女性为72人；健康人中，男性共62人，女性共40人。所有被试者不存在物质滥用、物质依赖、人格障碍等其他精神疾病，无严重的躯体疾病或自杀行为，且均为小学以上文化水平。

实验1：

为了验证本发明所用系统所学习到的高级特征可以看作是隐藏在数据中的具有鉴别信息的潜在表示，我们设计了只使用深度特征、只使用传统特征进行对照实验。把232个样本(包括130精神病患者和102个正常人)按照7：3分为训练集和测试集，使用SVM作为分类器，来进行精神病的识别。结果如下：

从结果看出，直接把传统特征和深度特征合并，并没有提高正确率，这是因为简单的合并造成了特征的冗余，因为深度特征就是由原始特征而来。

实验2：

为了验证低层特征和高层特征的结合会导致高维和高冗余，同时说明我们的方法可以缓解这些问题，我们建立了无需处理的合并特征、L1正则化的合并特征以及加权集成后的实验对比。

从结果可以看出，使用L1正则化之后，分类正确率得到了明显的提高，可以证明我们提出的特征融合方法是有效的。同时通过加权集成融合，算法提高了泛化性，准确率也得到了提升。

实验3：

将本发明所提出的系统与传统的典型数据处理方法进行了比较，如特征选择算法：Lasso、p_value；特征提取算法：PCA、LDA。采用支持向量机作为分类器对上述方法进行评价。分类结果如下：

可见，与传统的特征选择算法相比可以看出，在精神病分类识别上，本系统是优于通用的特征选择算法和特征提取算法的，本发明可以显著提高精神病识别的分类准确率。

综上可以看出，本发明提出的系统中采用了一种新的集成深浅特征融合机制，通过改进的混合特征嵌入堆叠式自动编码器提取的深层特征与原始特征相结合，缓解了小样本问题，设计了基于L1正则化的特征选择和基于特征提取的集成融合机制，解决了高维问题，提高了可靠性，最后通过构建基于w_LPPD和SVM的集成分类模型，提高了精神病分类的准确率。

最后需要说明的是，上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，其特征在于包括：语音采集模块、处理器和结果输出模块，所述处理器中配置有特征提取模块、编码器模块、特征混合模块和分类判别器；

所述结果输出模块用于输出所述分类判别器的判定结果。

2.根据权利要求1所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，其特征在于：所述预定任务中包括了多段待采集的语音样本，每段待采集的语音样本是由预定的元音字母、预定的汉字、预定的词语和预定的短语随机组合而成，在所述处理器上还连接有引导提示模块，所述引导提示模块通过语音或文字的方式引导受试者按预定任务朗读。

3.根据权利要求1或2所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，其特征在于：所述特征提取模块采用声学分析软件对每段语音样本提取一组基于线性和时频的特征作为所述浅层特征，包括但不限于频率变化特征或/和脉冲变化特征或/和振幅变化特征或/和语音变化特征或/和基频变化特征或/和谐波特征。

4.根据权利要求3所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，其特征在于：所述编码器模块包括堆栈式设置的多层编码单元，相邻两层编码单元之间设置有合并稀疏单元；所述浅层特征作为原始特征送入第一层编码单元进行编码，编码后的特征与原始特征再送入合并稀疏单元进行合并和稀疏表示，经过合并稀疏单元合并和稀疏表示后再筛选出最优特征子集送入下一层编码单元；经过多层迭代，最后一层编码单元的输出作为所述深层特征。

5.根据权利要求4所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，其特征在于：所述编码器模块的载体包括但不限于：台式电脑、笔记本电脑、服务器、掌上终端、手机、专业嵌入式系统、DSP、FPGA。

6.根据权利要求1或4所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，其特征在于：所述特征混合模块通过L1或L2正则化方法选择浅层特征和深层特征中的部分特征作为最优特征集送入所述分类判别器中进行分类判别。

7.根据权利要求1所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，其特征在于：所述分类判别器采用基于加权局部保持鉴别投影和SVM的分类判别模型。

8.根据权利要求1或7所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统，其特征在于：所述分类判别器采用基于bagging和SVM的集成分类判别模型。