CN111584069A - 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统 - Google Patents
基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统 Download PDFInfo
- Publication number
- CN111584069A CN111584069A CN202010376825.9A CN202010376825A CN111584069A CN 111584069 A CN111584069 A CN 111584069A CN 202010376825 A CN202010376825 A CN 202010376825A CN 111584069 A CN111584069 A CN 111584069A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- deep
- module
- shallow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000028017 Psychotic disease Diseases 0.000 title claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 20
- 238000012549 training Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 11
- 208000020016 psychiatric disease Diseases 0.000 description 10
- 230000003340 mental effect Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 6
- 101100021633 Arabidopsis thaliana LPPD gene Proteins 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000011117 substance-related disease Diseases 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 235000011293 Brassica napus Nutrition 0.000 description 1
- 240000008100 Brassica rapa Species 0.000 description 1
- 235000000540 Brassica rapa subsp rapa Nutrition 0.000 description 1
- 206010010144 Completed suicide Diseases 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 235000013527 bean curd Nutrition 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000003920 cognitive function Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 208000022821 personality disease Diseases 0.000 description 1
- 208000024335 physical disease Diseases 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 201000009032 substance abuse Diseases 0.000 description 1
- 231100000736 substance abuse Toxicity 0.000 description 1
- 201000006152 substance dependence Diseases 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于语音深‑浅特征堆栈稀疏自动编码的精神病识别系统,包括:语音采集模块、处理器和结果输出模块,处理器中配置有特征提取模块、编码器模块、特征混合模块和分类判别器;语音采集模块获取受试者按预定任务朗读所形成的语音样本数据;特征提取模块提取语音样本数据中的浅层特征;编码器模块进行嵌入式深‑浅特征堆栈稀疏自动编并生成深层特征;特征混合模块用于融合浅层特征和深层特征;分类判别器对融合后的特征进行分类判别,得出判定结果。其效果是:通过改进的混合特征嵌入堆叠式自动编码器提取的深层特征与原始特征相结合,提高了学习质量,缓解了小样本问题,系统鲁棒性好,可靠性强,准确率高。
Description
技术领域
本发明涉及智慧医疗技术,具体地说,是一种基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统。
背景技术
精神疾病又称精神病,指在各种生物学、心理学以及社会环境因素影响下,大脑功能失调,导致认知、情感、意志和行为等精神活动出现不同程度障碍为临床表现的疾病,多起病于青壮年。大部分患者在疾病过程中会出现认知功能的损害。精神疾病患者病程一般有间歇性,呈反复发作、加重或恶化,部分患者最终出现精神衰退和精神残疾。
研究表明,精神病患者大都伴有言语异常,语音障碍更是发生在精神病人早期的症状之一。随着病情加深,语音的韵律、清晰度、流畅性的问题逐渐出现。现在随着计算机技术、声学分析技术的日趋成熟,精神病患者发音特点也慢慢被人重视,基于语音病理特征利用机器学习技术进行精神病的无痛无损伤的客观辅助诊断成为了当前一大研究热点。
相较医疗图像、脑电信号等几种常用的精神疾病诊断方法而言,基于语音的精神疾病诊断方法操作过程更为简单便捷,非接触式,诊断的价格代价更小,无副作用。这种诊断方法逐渐得到人们关注。
但是现有的语音识别技术通常还存在一些不足,首先是语音特征提取方式都较为单一,忽略了数据之间的非线性复杂关系;大多只是在对原始特征和深层特征的判别结果进行了决策级别的融合,没有很好的进行特征级别的深浅层次融合;没有深度实现特征降维,以降低识别模型复杂度,提高泛化能力,所以不能很好的识别精神疾病语音异常。
发明内容
针对现有技术的不足,本发明的目的是提供一种基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,该系统将原始特征嵌入到每个编码器的编码输出中,用微弱的分辨能力代替隐藏的表示,然后将这些混合特征融合到更高隐藏层的更抽象的特征表示中,用于最终的分类判别,从而实现了将原始特征融入到深度网络结构和训练中,保留特征有用信息,提高了输出的深度特征与原始特征的互补性,提高了系统的鲁棒性。
为达到上述目的,本发明所采用的具体技术方案如下:
一种基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,其关键在于包括:语音采集模块、处理器和结果输出模块,所述处理器中配置有特征提取模块、编码器模块、特征混合模块和分类判别器;
所述语音采集模块用于获取受试者按预定任务朗读所形成的语音样本数据;
所述特征提取模块用于提取所述语音样本数据中的浅层特征;
所述编码器模块用于进行嵌入式深-浅特征堆栈稀疏自动编并生成深层特征;
所述特征混合模块用于融合所述特征提取模块提取的浅层特征和所述编码器模块生成的深层特征;
所述分类判别器用于对所述特征混合模块融合后的特征进行分类判别,得出受试者是否属于精神病的判定结果;
所述结果输出模块用于输出所述分类判别器的判定结果。
可选地,所述预定任务中包括了多段待采集的语音样本,每段待采集的语音样本是由预定的元音字母、预定的汉字、预定的词语和预定的短语随机组合而成,在所述处理器上还连接有引导提示模块,所述引导提示模块通过语音或文字的方式引导受试者按预定任务朗读。
可选地,所述特征提取模块采用声学分析软件对每段语音样本提取一组基于线性和时频的特征作为所述浅层特征,包括但不限于频率变化特征或/和脉冲变化特征或/和振幅变化特征或/和语音变化特征或/和基频变化特征或/和谐波特征。
可选地,所述编码器模块包括堆栈式设置的多层编码单元,相邻两层编码单元之间设置有合并稀疏单元;所述浅层特征作为原始特征送入第一层编码单元进行编码,编码后的特征与原始特征再送入合并稀疏单元进行合并和稀疏表示,经过合并稀疏单元合并和稀疏表示后再筛选出最优特征子集送入下一层编码单元;经过多层迭代,最后一层编码单元的输出作为所述深层特征,堆栈编码器的层数可选,可根据具体情况进行最优设置或优化。
可选地,所述编码器模块的载体包括但不限于:台式电脑、笔记本电脑、服务器、掌上终端、手机、专业嵌入式系统、DSP、FPGA(Field Programmable Gate Array,现场可编程门阵列)等。
可选地,所述特征混合模块通过L1或L2正则化方法选择浅层特征和深层特征中的部分特征作为最优特征集送入所述分类判别器中进行分类判别。
可选地,所述分类判别器采用基于加权局部保持鉴别投影和SVM的分类判别模型。
可选地,所述分类判别器采用基于bagging和SVM的集成分类判别模型。
本发明的显著效果是:
本发明提出的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,通过改进的混合特征嵌入堆叠式自动编码器提取的深层特征与原始特征相结合,挖掘了原始数据之间的复杂非线性关系,提高了深度特征与原始特征互补性,降低了特征维度,提高了分类稳定性,缓解了小样本问题,系统鲁棒性好,可靠性强,准确率高。
附图说明
图1是本发明的系统架构图;
图2是图1中编码器模块的原理框图。
具体实施方式
下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
如图1所示,本实施例提供一种基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,包括:引导提示模块、语音采集模块、处理器和结果输出模块;
本实施例中,引导提示模块采用计算机屏幕文本显示的方式进行引导提示,提示的文本包括13个朗读任务,每一个朗读任务中包括元音(a,e,i,o,u)、汉字(喵,圆,光,巧,酸)、词语(椅子、妈妈、萝卜、豆腐、石头、什么、花儿)和短句(门前大桥下…)等元素随机组合而成。
语音采集模块用于获取受试者按预定任务朗读所形成的语音样本数据,本实施例中采用麦克风记录受试者的语音,麦克风采样率设置为96kHz,增益30dB,并放置在距受试者嘴巴附近(通常10cm左右)处,数据建议以.wav形式进行保存,也可以以压缩格式保存。
所述处理器中配置有特征提取模块、编码器模块、特征混合模块和分类判别器;
所述特征提取模块用于提取所述语音样本数据中的浅层特征;本实施例中使用了Praat声学分析软件,考虑到该研究领域的先前工作,从每个语音样本中提取了26个基于线性和时频的特征,如表1所示:
表1音频特征表
所述编码器模块用于进行嵌入式深-浅特征堆栈稀疏自动编并生成深层特征;如图2所示,所述编码器模块包括堆栈式设置的多层编码单元,相邻两层编码单元之间设置有合并稀疏单元;所述浅层特征作为原始特征送入第一层编码单元进行编码,编码后的特征与原始特征再送入合并稀疏单元进行合并和稀疏表示,经过合并稀疏单元合并和稀疏表示后再筛选出最优特征子集送入下一层编码单元;经过多层迭代,最后一层编码单元的输出作为所述深层特征。
在本环节中,编码单元实际是一种人工神经网络,结构上分为三层:输入层、隐藏层和输出层,由编码器和解码器两部分组成,它是一种无监督学习算法,利用反向传播技术,通过最小化输出数据和输入数据之间的重建误差来学习输入数据的新表示。考虑到一个数据样本,编码器将其转换为具有可调数量的神经单元的隐藏表示,并通过非线性激活而衰减。该过程被表述为:
将隐含层映射回去以重构输入空间x',如下所示:
其中W2和b2分别代表权重矩阵和偏差向量。编码器自训练的目的是找出一组参数θ={W1,W2,b1,b2}使输入数据和输出数据之间的重建损失最小,从而挖掘出输入数据的重要表示结构。目标函数定义为:
其中λ是权重衰减项的正则化系数,添加该系数是为了防止过拟合。
而所谓的合并稀疏单元,其实质是对编码单元输出的特征与原始特征进行合并,并进行稀疏表示,过滤编码得到的低质特征,从而获得混合特征集的最优子集。同时原始特征的引入,避免了在网络加深时丢失原始初始信息,将原始数据样本定义为X,将编码单元编码后的特征定义为H,则合并稀疏单元可以定义为:
其中:tr()表示计算矩阵的迹,d是隐藏单元的数目。对(5)式中协方差矩阵的对角线元素进行排序,选择第d个最大值作为阈值t,G的元素可以定义为:
其中Dij是协方差矩阵的对角线元素。通过稀疏矩阵,离散度低的特征将为零,因此这些特征将不会被送到后续层进一步编码。
在编码单元之间引入,合并稀疏单元后,第k层(k>1)编码单元将重定义为:
其中,是输入的重构,Wk2和bk2分别是是解码器的权值矩阵和偏差向量。此外,将稀疏准则应用于隐层,以发现输入数据中的潜在结构。为了实现稀疏表示,引入Kullback-Leibler(KL)散度作为无监督目标,用相对熵来度量第j个隐层单元的平均激活值和目标平均激活值之间的差异。通过设置一个小的稀疏参数,隐藏单元的平均输出大部分为零,从而实现稀疏表示。第k层编码单元的训练目标函数可以重新定义如下:
其中β为稀疏约束的惩罚系数,d(k)是第k个隐藏层单元的数目。用式(9)进行训练的过程称为预训练,将预训练得到的编码单元隐藏层级联形成一个堆栈自编码器,其初始参数由预训练确定。最终的目标是获得具有更好类别表达能力的特征,因此我们进一步以有监督的方式优化整个网络。为了实现这一点,在堆栈自编码器的顶部连接一个分类层作为输出层,分类层选用softmax,利用基于梯度下降的反向传播微调堆栈网络。由于预训练的特点,网络微调可以降低陷入局部最优的风险。
本系统学习的非线性变换可以看作是一种很好的特征学习,它不仅利用了深度网络能够学习数据之间潜在关系的特点,而且通过在深度网络中引入原始特征,提高了深度特征与原始特征的互补性,有利于后续深度特征与原始特征的融合。整个网络训练完成后,对于每个原始特征向量xi={xi1,xi2,···,xin},在各隐藏层中都可以得到一个新的特征向量。一般来说,网络层数越大,输入数据中固有的模式就越复杂或抽象。基于此,我们将最后一个隐藏层的输出,即分类层的输入,作为深度特征向量,记为x′i={x′i1,x′i2,···,x′iq}。然后,通过级联xi和x′i构造增强的特征向量:
所述特征混合模块用于融合所述特征提取模块提取的浅层特征和所述编码器模块生成的深层特征;
混合特征集具有更丰富的类别信息,然而,按公式(10)简单的合并会导致高维问题,可能出现维数灾难。另一方面,考虑到深度特征是从原始数据中学习到的,我们认为这些特征是不独立的,并且两种特征之间存在着一些冗余信息。因此,有必要开发一种新的算法来有效地处理候选特征集并提取最有用的信息。为此我们设计了基于L1正则的特征选择算法。
L1正则化使用惩罚项来控制参数的绝对值之和最小化,从而给出稀疏特征向量。对于新的数据集,其中表示具有混合特征的第i个样本,yi为相应的标签。考虑到以平方误差为损失函数的最简单回归模型,优化目标函数可定义为:
为了防止陷入过拟合,引入L1正则化来缓解此问题:
经过上述过程后,系统能够得到一个充分融合浅层特征和深层特征的最佳特征子集,所述分类判别器用于对所述特征混合模块融合后的特征进行分类判别,得出受试者是否属于精神病的判定结果,最后通过结果输出模块可以输出分类判别器的判定结果。
为了提高判别模型的泛化性和可靠性,作为一种实施方式,所述分类判别器采用基于加权局部保持鉴别投影和SVM的分类判别模型。采用了集成学习方法构建融合机制,具体来说,假设样本和特征的采样率分别为δ1和δ2,且采样次数为K,从而得到K个样本子集。然后对每一个子集应用加权保局部判别投影(w_LPPD)。w_LPPD得到的K个样本子集分别作为K个分类器的训练样本,采用支持向量机作为基分类器,测试样本的分类结果将由加权投票机制决定。
这里所述的加权局部保持鉴别投影是一种新的有效的特征约简方法,它考虑了样本中的离群点,去除了一些远离类中心的样本。首先,引入随机子空间采样;其次,基于所提出的目标函数建立保留局部性的判别投影;最后,集成多空间映射矩阵构造最终映射矩阵。假设kmc表示第c类样本的采样数,则采样后的总样本数为中心最近邻的类间局部散布矩阵SLB和类中心最近邻的类内局部散布矩阵SLW定义如下:
其中,局部样本数和rb和rw是采样率系数,N和Nc分别是总样本数和第c类样本数。是采样样本的中心,是采样后第c类样本的类中心,Nlc是局部空间中第c类样本数。是局部的第c类样本中心。此外,局部保留正则化项如下所示:
利用式(13-15),w-LPPD可以公式化为:
其中γ表示正则化系数,α为常数。从目标函数可以看出,W-LPPD的目标是最小化局部类内散布矩阵的迹,最大化类间散布矩阵,同时保留样本的局部性。
通过引入拉格朗日乘子,目标函数式(17)最终可以写成:
L(W,λ)=Tr(WTSLWW)-λ(WTSLBW-γWTXLXTW-αI) (18)
进行求导,得到最优解。
显然,通过式(19),投影矩阵可以很容易地通过广义特征值分解得到。向量Wk=(w1,w2,...,wk)由W的前k个特征向量组成,通过Wk将原始数据投影到一个低维空间中实现降维。如前所述,我们在随机子空间上应用LPPD,得到P个投影矩阵通过加权得到最终的映射矩阵其数学表达式如下:
其中αi是权重系数,可以通过网格搜索来确定。
通过w_LPPD,我们可以进一步将L1正则化选择的深浅特征子集映射到另一个低维特征空间,在该空间中,不同类别的样本之间距离会更远,而同一类别样本之间的距离会更近。因此,用这种方法得到的特征具有更有效的类别表示和判别能力。
进一步地,所述分类判别器采用基于bagging和SVM的集成分类判别模型。
在SVM基础上融入bagging思想提升分类器模型的正确率和稳定性。本算法的核心是:给定一个训练集,对训练集进行k轮bootstrap抽样形成k个训练特征子集,然后对K个训练特征子集分别进行SVM建模分析产生K个弱分类器,最后把形成的多个弱分类器通过加权投票机制集成为一个强分类器。每个弱分类器的权重可按下面公式计算:
通过以下公式确定由集成模型最终的预测结果:
为了验证本系统的性能,申请人选择了232名被试者,其中130位精神疾病患者来自重庆第三军医大学附属西南医院,102位健康人由招募而来的重庆大学同学和成都某公司员工组成。所有被试者均经过经验丰富的心理专家和精神科医生依照《简明国际神经精神访谈》(the MINI International Neuropsychiatric Interview,MINI)和《心理障碍诊断与统计手册》(Diagnostic and Statistical Manual of Mental Disorders,DSM-IV)进行诊断筛查。
在所有受试者中,抑郁症患者年龄在18~63岁;健康人年龄为20~36岁,从性别角度来看,抑郁症患者中,男性为58人,女性为72人;健康人中,男性共62人,女性共40人。所有被试者不存在物质滥用、物质依赖、人格障碍等其他精神疾病,无严重的躯体疾病或自杀行为,且均为小学以上文化水平。
实验1:
为了验证本发明所用系统所学习到的高级特征可以看作是隐藏在数据中的具有鉴别信息的潜在表示,我们设计了只使用深度特征、只使用传统特征进行对照实验。把232个样本(包括130精神病患者和102个正常人)按照7:3分为训练集和测试集,使用SVM作为分类器,来进行精神病的识别。结果如下:
从结果看出,直接把传统特征和深度特征合并,并没有提高正确率,这是因为简单的合并造成了特征的冗余,因为深度特征就是由原始特征而来。
实验2:
为了验证低层特征和高层特征的结合会导致高维和高冗余,同时说明我们的方法可以缓解这些问题,我们建立了无需处理的合并特征、L1正则化的合并特征以及加权集成后的实验对比。
从结果可以看出,使用L1正则化之后,分类正确率得到了明显的提高,可以证明我们提出的特征融合方法是有效的。同时通过加权集成融合,算法提高了泛化性,准确率也得到了提升。
实验3:
将本发明所提出的系统与传统的典型数据处理方法进行了比较,如特征选择算法:Lasso、p_value;特征提取算法:PCA、LDA。采用支持向量机作为分类器对上述方法进行评价。分类结果如下:
可见,与传统的特征选择算法相比可以看出,在精神病分类识别上,本系统是优于通用的特征选择算法和特征提取算法的,本发明可以显著提高精神病识别的分类准确率。
综上可以看出,本发明提出的系统中采用了一种新的集成深浅特征融合机制,通过改进的混合特征嵌入堆叠式自动编码器提取的深层特征与原始特征相结合,缓解了小样本问题,设计了基于L1正则化的特征选择和基于特征提取的集成融合机制,解决了高维问题,提高了可靠性,最后通过构建基于w_LPPD和SVM的集成分类模型,提高了精神病分类的准确率。
最后需要说明的是,上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (8)
1.一种基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,其特征在于包括:语音采集模块、处理器和结果输出模块,所述处理器中配置有特征提取模块、编码器模块、特征混合模块和分类判别器;
所述语音采集模块用于获取受试者按预定任务朗读所形成的语音样本数据;
所述特征提取模块用于提取所述语音样本数据中的浅层特征;
所述编码器模块用于进行嵌入式深-浅特征堆栈稀疏自动编并生成深层特征;
所述特征混合模块用于融合所述特征提取模块提取的浅层特征和所述编码器模块生成的深层特征;
所述分类判别器用于对所述特征混合模块融合后的特征进行分类判别,得出受试者是否属于精神病的判定结果;
所述结果输出模块用于输出所述分类判别器的判定结果。
2.根据权利要求1所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,其特征在于:所述预定任务中包括了多段待采集的语音样本,每段待采集的语音样本是由预定的元音字母、预定的汉字、预定的词语和预定的短语随机组合而成,在所述处理器上还连接有引导提示模块,所述引导提示模块通过语音或文字的方式引导受试者按预定任务朗读。
3.根据权利要求1或2所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,其特征在于:所述特征提取模块采用声学分析软件对每段语音样本提取一组基于线性和时频的特征作为所述浅层特征,包括但不限于频率变化特征或/和脉冲变化特征或/和振幅变化特征或/和语音变化特征或/和基频变化特征或/和谐波特征。
4.根据权利要求3所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,其特征在于:所述编码器模块包括堆栈式设置的多层编码单元,相邻两层编码单元之间设置有合并稀疏单元;所述浅层特征作为原始特征送入第一层编码单元进行编码,编码后的特征与原始特征再送入合并稀疏单元进行合并和稀疏表示,经过合并稀疏单元合并和稀疏表示后再筛选出最优特征子集送入下一层编码单元;经过多层迭代,最后一层编码单元的输出作为所述深层特征。
5.根据权利要求4所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,其特征在于:所述编码器模块的载体包括但不限于:台式电脑、笔记本电脑、服务器、掌上终端、手机、专业嵌入式系统、DSP、FPGA。
6.根据权利要求1或4所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,其特征在于:所述特征混合模块通过L1或L2正则化方法选择浅层特征和深层特征中的部分特征作为最优特征集送入所述分类判别器中进行分类判别。
7.根据权利要求1所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,其特征在于:所述分类判别器采用基于加权局部保持鉴别投影和SVM的分类判别模型。
8.根据权利要求1或7所述的基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统,其特征在于:所述分类判别器采用基于bagging和SVM的集成分类判别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010376825.9A CN111584069B (zh) | 2020-05-07 | 2020-05-07 | 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010376825.9A CN111584069B (zh) | 2020-05-07 | 2020-05-07 | 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111584069A true CN111584069A (zh) | 2020-08-25 |
CN111584069B CN111584069B (zh) | 2023-04-18 |
Family
ID=72126252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010376825.9A Active CN111584069B (zh) | 2020-05-07 | 2020-05-07 | 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111584069B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113049035A (zh) * | 2021-03-12 | 2021-06-29 | 辽宁工程技术大学 | 一种基于物联网的变压器状态监测系统 |
CN113855065A (zh) * | 2021-09-28 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于浅层学习和深度学习融合的心音识别方法及相关装置 |
CN114496221A (zh) * | 2022-01-17 | 2022-05-13 | 天津大学 | 基于闭环语音链和深度学习的抑郁症自动诊断系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103594084A (zh) * | 2013-10-23 | 2014-02-19 | 江苏大学 | 联合惩罚稀疏表示字典学习的语音情感识别方法及系统 |
US20150073306A1 (en) * | 2012-03-29 | 2015-03-12 | The University Of Queensland | Method and apparatus for processing patient sounds |
CN105448291A (zh) * | 2015-12-02 | 2016-03-30 | 南京邮电大学 | 基于语音的帕金森症检测方法及检测系统 |
CN107729393A (zh) * | 2017-09-20 | 2018-02-23 | 齐鲁工业大学 | 基于混合自动编码器深度学习的文本分类方法及系统 |
US20180214061A1 (en) * | 2014-08-22 | 2018-08-02 | Sri International | Systems for speech-based assessment of a patient's state-of-mind |
CN108511071A (zh) * | 2018-04-18 | 2018-09-07 | 广东惠禾科技发展有限公司 | 心理健康评估方法及装置 |
US20180268733A1 (en) * | 2017-03-15 | 2018-09-20 | International Business Machines Corporation | System and method to teach and evaluate image grading performance using prior learned expert knowledge base |
CN109199379A (zh) * | 2018-10-23 | 2019-01-15 | 上海乐相科技有限公司 | 一种精神卫生状态检测装置、方法及系统 |
US20190066713A1 (en) * | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN110838364A (zh) * | 2019-10-30 | 2020-02-25 | 浙江工业大学 | 一种基于深度学习混合模型的克罗恩病预测方法及装置 |
CN111079690A (zh) * | 2019-12-27 | 2020-04-28 | 华中科技大学 | 基于堆栈稀疏自动编码网络的主轴和工件振动预测方法 |
-
2020
- 2020-05-07 CN CN202010376825.9A patent/CN111584069B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150073306A1 (en) * | 2012-03-29 | 2015-03-12 | The University Of Queensland | Method and apparatus for processing patient sounds |
CN103594084A (zh) * | 2013-10-23 | 2014-02-19 | 江苏大学 | 联合惩罚稀疏表示字典学习的语音情感识别方法及系统 |
US20180214061A1 (en) * | 2014-08-22 | 2018-08-02 | Sri International | Systems for speech-based assessment of a patient's state-of-mind |
CN105448291A (zh) * | 2015-12-02 | 2016-03-30 | 南京邮电大学 | 基于语音的帕金森症检测方法及检测系统 |
US20190066713A1 (en) * | 2016-06-14 | 2019-02-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
US20180268733A1 (en) * | 2017-03-15 | 2018-09-20 | International Business Machines Corporation | System and method to teach and evaluate image grading performance using prior learned expert knowledge base |
CN107729393A (zh) * | 2017-09-20 | 2018-02-23 | 齐鲁工业大学 | 基于混合自动编码器深度学习的文本分类方法及系统 |
CN108511071A (zh) * | 2018-04-18 | 2018-09-07 | 广东惠禾科技发展有限公司 | 心理健康评估方法及装置 |
CN109199379A (zh) * | 2018-10-23 | 2019-01-15 | 上海乐相科技有限公司 | 一种精神卫生状态检测装置、方法及系统 |
CN110838364A (zh) * | 2019-10-30 | 2020-02-25 | 浙江工业大学 | 一种基于深度学习混合模型的克罗恩病预测方法及装置 |
CN111079690A (zh) * | 2019-12-27 | 2020-04-28 | 华中科技大学 | 基于堆栈稀疏自动编码网络的主轴和工件振动预测方法 |
Non-Patent Citations (3)
Title |
---|
HAMEED, MA: "Child literacy and psychotic experiences in early adolescence: Findings from the ALSPAC study" * |
尹虹毅;: "基于深度学习的精神分裂症脑电分析" * |
林远: "基于混合特征堆栈稀疏自编码器的精神病语音识别方法" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113049035A (zh) * | 2021-03-12 | 2021-06-29 | 辽宁工程技术大学 | 一种基于物联网的变压器状态监测系统 |
CN113049035B (zh) * | 2021-03-12 | 2022-05-27 | 辽宁工程技术大学 | 一种基于物联网的变压器状态监测系统 |
CN113855065A (zh) * | 2021-09-28 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于浅层学习和深度学习融合的心音识别方法及相关装置 |
CN113855065B (zh) * | 2021-09-28 | 2023-09-22 | 平安科技(深圳)有限公司 | 基于浅层学习和深度学习融合的心音识别方法及相关装置 |
CN114496221A (zh) * | 2022-01-17 | 2022-05-13 | 天津大学 | 基于闭环语音链和深度学习的抑郁症自动诊断系统 |
CN114496221B (zh) * | 2022-01-17 | 2024-05-14 | 天津大学 | 基于闭环语音链和深度学习的抑郁症自动诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111584069B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111584069B (zh) | 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统 | |
CN106878677B (zh) | 基于多传感器的学生课堂掌握程度评估系统和方法 | |
CN111210846B (zh) | 基于集成流形降维的帕金森语音识别系统 | |
Kocsor et al. | Kernel-based feature extraction with a speech technology application | |
Lai | Contrastive predictive coding based feature for automatic speaker verification | |
CN103854645A (zh) | 一种基于说话人惩罚的独立于说话人语音情感识别方法 | |
CN112800998A (zh) | 融合注意力机制和dmcca的多模态情感识别方法及系统 | |
Sheikh et al. | Introducing ECAPA-TDNN and Wav2Vec2. 0 embeddings to stuttering detection | |
CN115936944B (zh) | 一种基于人工智能的虚拟教学管理方法及装置 | |
Liu et al. | Speech personality recognition based on annotation classification using log-likelihood distance and extraction of essential audio features | |
Lu et al. | Speech depression recognition based on attentional residual network | |
Ma et al. | Cost-sensitive two-stage depression prediction using dynamic visual clues | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
Mohaghegh et al. | Identifying Parkinson’s disease using multimodal approach and deep learning | |
Sheikh et al. | Advancing stuttering detection via data augmentation, class-balanced loss and multi-contextual deep learning | |
Jantvik et al. | A self-organized artificial neural network architecture for sensory integration with applications to letter-phoneme integration | |
Aloshban et al. | Detecting depression in less than 10 seconds: Impact of speaking time on depression detection sensitivity | |
Schafer et al. | Noise-robust speech recognition through auditory feature detection and spike sequence decoding | |
Zhu et al. | Emotion Recognition of College Students Based on Audio and Video Image. | |
CN115101077A (zh) | 一种声纹检测模型训练方法及声纹识别方法 | |
Coath et al. | Multiple views of the response of an ensemble of spectro-temporal features support concurrent classification of utterance, prosody, sex and speaker identity | |
Hanifa et al. | Comparative Analysis on Different Cepstral Features for Speaker Identification Recognition | |
Chandler et al. | An explainable machine learning model of cognitive decline derived from speech | |
Man-Wai | Feature selection and nuisance attribute projection for speech emotion recognition | |
Selamat et al. | Arabic script web documents language identification using decision tree-ARTMAP model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |