CN114496221B

CN114496221B - 基于闭环语音链和深度学习的抑郁症自动诊断系统

Info

Publication number: CN114496221B
Application number: CN202210048445.1A
Authority: CN
Inventors: 明东; 杜铭浩; 刘爽; 柯余峰; 张文荃; 陈龙
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2024-05-14
Anticipated expiration: 2042-01-17
Also published as: CN114496221A

Abstract

本发明公开了一种基于闭环语音链和深度学习的抑郁症自动诊断系统，包括：语音链特征提取模块用于对片段语音提取语音链特征，建立声道、耳道模型，根据耳道模型提取预设维度梅尔倒谱系数特征以及根据声道模型提取另一预设维度线性预测系数特征；片段内特征提取模块用于建立一维卷积神经网络对各语音片段的MFCC特征和LPC特征提取抑郁相关特征，每个语音片段所对应的MFCC特征和LPC特征经提取后分别输出多维度抑郁症特征；特征级融合模块用于对每个片段对应的多维度抑郁症特征进行融合，对每名被试对应的所有片段特征进行融合；片段间特征提取及分类输出模块用于建立长短期记忆网络提取片段间的抑郁特征并实现抑郁症和非抑郁症的分类输出。

Description

基于闭环语音链和深度学习的抑郁症自动诊断系统

技术领域

本发明涉及语音处理和深度学习领域，尤其涉及一种基于闭环语音链和深度学习的抑郁症自动诊断系统。

背景技术

抑郁症(Major Depressive Disorder)是一种典型且普遍的心理疾病，全球患者高达3.22亿^[1]，中国患者超过9500万。抑郁症患者会呈现出消极低沉、思维迟缓、意志活动减退的症状，甚至产生自残自杀的想法。早发现早治疗是应对抑郁症的科学有效方法。然而，目前我国精神科医师数量不足4.5万人，整体识别率不足30％，因此找到一种有效的抑郁症自动诊断方法对于当前临床诊断能力的提升具有意义。

目前临床上多采用主观报告法并结合家族病史对抑郁症进行诊断，该方法受主观因素影响因此准确率较低。而最近出现的基于脑电、心率等生理信号的抑郁症诊断法，要求被试穿戴相关仪器、完成复杂任务，成本高过程繁琐，并不适用于抑郁症早期的大规模诊断。

语音信号包含丰富的语义、心境和情感内容，与抑郁状态密切相关，采集过程简单无接触，不会侵犯患者隐私，可作为抑郁症的诊断依据。而目前抑郁症语音诊断方法仅是从语音感知的过程提取特征，忽略了语音生成的过程，因此导致抑郁特征的提取并不充分，识别正确率有待进一步提高。

发明内容

本发明提供了一种基于闭环语音链和深度学习的抑郁症自动诊断系统，该系统首先完成原始语音信号的预处理，构建耳道和声道模型分别模拟语音链中人感知语音和生成语音的过程，并提取模型参数作为语音链特征，之后融合深度学习技术在语音链特征基础上搭建模型进一步提取抑郁相关特征并完成诊断，具有灵敏度高、无偏差、文本无关的优势，详见下文描述：

一种基于闭环语音链和深度学习的抑郁症自动诊断系统，所述系统将语音信号处理中的语音链特征提取应用于抑郁症相关特征的提取、并融合深度学习搭建诊断系统，所述系统包括：

语音预处理模块，用于对输入的原始语音信号进行预处理；

语音链特征提取模块，用于对片段语音提取语音链特征，建立声道、耳道模型，根据耳道模型提取预设维度梅尔倒谱系数特征以及根据声道模型提取另一预设维度线性预测系数特征；

片段内特征提取模块，用于建立一维卷积神经网络对各语音片段的MFCC特征和LPC特征提取抑郁相关特征，每个语音片段所对应的MFCC特征和LPC特征经提取后分别输出多维度抑郁症特征；

特征级融合模块，用于对每个片段对应的多维度抑郁症特征进行融合，对每名被试对应的所有片段特征进行融合；

片段间特征提取及分类输出模块，用于建立长短期记忆网络提取片段间的抑郁特征并实现抑郁症和非抑郁症的分类输出。

其中，所述片段内特征提取模块基于深度学习技术建立一维卷积神经网络提取其中的抑郁信息，

采用一维卷积层对全频段进行卷积提取频域信息，采用最大池化层整合提取信息，采用批归一化和随机失活操作，并采用全连接层提取特征并进行降维；

训练过程中加上单元数为2的全连接层作为输出层调整网络权重，损失函数选择交叉熵函数，采用学习率动态调整策略。

进一步地，所述特征级融合模块将各片段对应的16维度抑郁特征拼接成32维度，按照语音预处理模块中所记录的原始片段顺序对所有片段特征进行融合，融合结果作为下一阶段的输入。

其中，所述片段间特征提取及分类输出模块采用1层LSTM网络提取抑郁信息，采用2个全连接层进行降维并完成抑郁症和非抑郁症的诊断。

进一步地，所述片段间特征提取及分类输出模块在训练过程中选择交叉熵函数作为损失函数，采用学习率动态调整策略。

本发明提供的技术方案的有益效果是：

1、本发明考虑了抑郁相关的闭环语音链信息提取，提供了一种基于语音信号的抑郁症自动诊断系统；本系统使用对原始语音先分段再融合的方式，先后提取了语音片段内以及语音片段间的抑郁特征，对于短暂且前后关联度高的抑郁症语音特征的捕捉具有高灵敏度，进一步提升了诊断的准确性；

2、本系统基于深度学习技术搭建了1D-CNN模型和LSTM模型，可通过自学习的方式调整其权重系数，能够提取到更为全面的特征，保证模型的拟合性；

3、本系统的诊断依据是患者语音由于生理性变化所带来的本质改变，不受文本、语言和说话习惯的限制，拓宽了使用场景，适用于抑郁症早期的大规模诊断；

4、实验表明，与目前普遍的抑郁症诊断系统相比，本系统在特征提取过程中考虑到了抑郁症患者的声道变化，能很好解决抑郁相关特征提取不充分的问题，提升抑郁症语音诊断的准确性和鲁棒性。

附图说明

图1为基于闭环语音链和深度学习的抑郁症自动诊断系统的结构示意图；

图2为基于闭环语音链和深度学习的抑郁症自动诊断系统总体实现的网络示意图；

图3语音链示意图；

图4为梅尔倒谱系数特征提取流程图；

图5为神经网络结构图；

图6为“原始语音预处理以及特征提取示例”的示意图；

其中，(a)为原始语音信号；(b)为去除静音、访谈者声音的语音信号；(c)为语音分段；(d)为提取的语音链特征。

图7为在两种数据集上测试的混淆矩阵的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

有研究表明，抑郁症患者的声道已经发生了生理性变化，说明患者的语音生成过程同样包含抑郁相关信息，这点在之前的研究中被忽略。而语音链是从语音感知和语音生成的过程完整解释了声音传递信息的过程^[2]，其中，语音感知是指模拟听者耳道特性提取声音信号的幅度频率信息的过程，语音生成是指模拟说话者的声道特性对声源信号进行加工的过程，因此基于语音链提取两个过程的特征可以实现信息互补，在提取特征时避免了信息的丢失，并且保证了只关注于被试语音本质的特征而非语音的文本内容。抑郁信息多体现在动态、细节的特征变化中，而深度学习技术可以自适应调节模型权重提取抑郁信息，相比于传统机器学习模型，其展现出灵敏度高、鲁棒性强的优势。因此将语音链特征和深度学习技术融合可以有效提升抑郁症自动诊断方法的识别效果。

本发明实施例首次将语音信号处理中的语音链特征提取技术应用于抑郁症相关特征的提取、并融合深度学习技术搭建诊断系统，为抑郁症的临床诊断提供客观参考依据。该系统基于闭环语音链提取语音感知和语音生成过程中的语音特征，并融合了具有自适应能力的深度学习技术调整其权重系数，依次提取语音片段内的以及语音片段间的抑郁特征，继而实现抑郁症的诊断。

一种基于闭环语音链和深度学习的抑郁症自动诊断系统，该系统包括：语音预处理模块、语音链特征提取模块、片段内特征提取模块、特征级融合模块和片段间特征提取及分类输出模块，具体结构如图1所示。

语音预处理模块，用于对输入的原始语音信号进行预处理，包括：移除静音部分、移除面试官的声音、将每名被试的整个语音分割成相同时长的片段并记录片段的顺序。

语音链特征提取模块，用于对片段语音提取语音链特征，首先是建立声道、耳道模型，根据耳道模型提取39维度梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征以及根据声道模型提取40维度线性预测系数(Linear PredictionCoefficient，LPC)特征。

片段内特征提取模块，包括：建立一维卷积神经网络(One DimensionalConvolutional Neural Network，1D-CNN)对各语音片段的MFCC特征和LPC特征提取抑郁相关特征，每个语音片段所对应的MFCC特征和LPC特征经过此模块提取后分别会输出多维度抑郁症特征。

特征级融合模块，用于对每个片段对应的两个多维度抑郁症特征进行融合，对每名被试对应的所有片段特征进行融合，融合结果作为下个模块的输入。

片段间特征提取及分类输出模块，包括：建立长短期记忆网络(Long Short-TermMemory，LSTM)提取片段间的抑郁特征并实现抑郁症和非抑郁症的分类输出。

综上所述，本发明实施例通过提取抑郁相关特征并完成诊断，具有灵敏度高、无偏差、文本无关的优势。

实施例2

本发明实施例所采用的实现方案是：对输入语音信号进行预处理；从语音链的角度分别构建声道模型和耳道模型对语音片段进行语音链特征提取；建立神经网络模型在特征基础上提取各语音片段内的抑郁相关特征；对每名被试所有片段特征进行特征级融合；建立神经网络提取语音片段间的抑郁相关特征并完成诊断。下面结合本发明系统总体实现的网络示意图(图2)，详细说明系统的总体实现流程：

1)语音预处理模块

临床上采集到的被试语音信号的干扰成分主要有停顿或思考带来的静音部分、访谈者或他人的混杂声音，同时，不同被试语音时长并不一致。本系统使用语音预处理模块对输入的语音原始信号进行预处理，包括去除静音和面试官说话部分、按照单位时长进行分段并记录各段的顺序。语音预处理模块使用语音端点检测技术(Voice ActivityDetection，VAD)检测到每名被试整段原始语音当中的语音出现和语音消失时刻，并判断各时刻间的说话人身份，对检测到的静音部分以及不属于被试声音的片段去除，并将剩余部分按照时序拼接完整。对于拼接后不同时长的语音，语音预处理模块使用pyAudioAnalysis工具按照将语音按照单位时长进行分段，把每名被试语音无重叠分割成若干片段并记录顺序。

2)语音链特征提取模块

语音链特征提取模块首先从语音感知和语音生成过程构建耳道和声道模型，以此提取梅尔倒谱系数(MFCC)和线性预测系数(LPC)特征作为该段语音的语音链特征。图3展现了语音链的示意图，语音传递信息包括语音生成和语音感知的过程，上侧语音生成过程是从语言层面产生含义并编码文字，在经过生理层面进行发声和声道的加工，最后通过外界的声学层面传递到听者的耳朵，之后是感知过程通过耳道生理层面感知幅度和频率特征，经过生理传导到语言层面提取文字和内涵。语音感知和语音生成的两个过程完整描述了被试声音从产生到被判断的全过程，形成闭环。语音链特征提取模块通过梅尔倒谱系数特征描述耳道感知被试声音的幅频特点，线性预测编码特征描述被试发出声音的声道变化。

2.1)梅尔倒谱系数特征

本发明实施例按照图4流程提取39维度梅尔倒谱系数特征。首先将语音信号经过高通滤波器进行预加重，目的是提升高频部分，消除发声过程中声带和嘴唇的效应，补偿语音信号受到发音系统所抑制的高频部分。

其中，高频滤波器的系统函数为：

按照25ms长度以及10ms步长进行分帧，并使用汉明窗增加帧端点间的连续性。分帧后的信号为S(n)，加窗后的信号为S′(n)＝S(n)·w(n)，其中：

对加窗后的每帧语音信号进行快速傅里叶变换得到频谱的能量分布。将能量谱通过一组Mel尺度的三角形滤波器组，本发明实施例设置滤波器数量为24个。其中涉及Mel频率与Hz频率的转化关系为：

计算每个滤波器组输出的对数能量，并经离散余弦变换得到13阶MFCC特征，其中第n阶参数C(n)：

这里s(m)为滤波器组中第m个滤波器所求得的对数能量。对于求得13阶MFCC特征，本发明实施例计算其一阶差分和二阶差分并且融合得到39维度MFCC特征。

2.2)线性预测编码特征

本发明实施例同样采用25ms长度以及10ms步长进行分帧，并对每帧加上汉明窗函数，之后提取线性预测编码特征。将发声系统看作是简单的声源发出激励信号经过复杂声道处理的过程。本发明实施例利用一个20阶的时变全极点滤波器建立声道模型，生成语音信号s(n)可表示为：

其中，P是滤波器的阶数，本发明实施例取20，a_p是滤波器的系数，e(n)为预测误差，通过最小化真实信号与预测信号之间的均方误差E[e²(n)]，即可得到滤波器系数的解a_p,(p＝1,2,…,20)。

本发明实施例通过计算滤波器系数a_p的一阶差分得到其动态参数，并将二者融合得到40维度LPC特征。

3)片段内抑郁特征提取

对各片段的MFCC和LPC特征，本系统中的片段内抑郁特征提取模块基于深度学习技术建立一维卷积神经网络(1D-CNN)提取其中的抑郁信息，图5A为1D-CNN网络结构。其中，采用一维卷积层对全频段进行卷积提取频域信息，采用最大池化层整合提取信息，采用Batch批归一化和随机失活操作防止过拟合，并采用全连接层进一步提取特征并进行降维。在训练过程中加上单元数为2的全连接层作为输出层来调整网络权重，损失函数选择交叉熵函数，采用学习率动态调整策略。在实际应用过程中对于输入的MFCC特征和LPC特征分别保留16维度的全连接输出作为下一流程的输入。

4)特征级融合模块

本系统使用特征级融合模块实现对每名被试所提取的所有抑郁特征进行融合。首先对上一流程中所得到的各片段对应的16维度抑郁特征拼接成32维度，之后按照语音预处理模块中所记录的原始片段顺序对所有片段特征进行融合，融合结果作为下一阶段的输入。

5)片段间抑郁特征提取及分类输出

本系统中的片段间抑郁特征提取及分类输出建立长短期记忆网络(LSTM)提取片段间的抑郁信息并完成分类。图5B为LSTM网络结构。本片段间抑郁特征提取及分类输出模块首先采用1层LSTM网络提取抑郁信息，之后采用2个全连接层进行降维并完成抑郁症和非抑郁症的诊断。在训练过程中同样选择交叉熵函数作为损失函数，采用学习率动态调整策略。最后采用单元数为2的全连接层作为输出层对被试做出抑郁或非抑郁的判断。

综上所述，本发明实施例设计的系统能很好解决抑郁相关特征提取不充分的问题，可进一步提升抑郁症语音诊断的准确性和鲁棒性。

实施例3

本发明实施例基于抑郁症语音公开数据集DAIC-WOZ和MODMA的基础上对不同语言、不同范式下采集的被试语音进行抑郁症诊断。图6展现了原始语音经过语音预处理以及提取语音链特征的过程。本发明实施例按照DAIC-WOZ和MODMA数据集的原始划分方式进行训练和测试，并使用混淆矩阵、准确率Accuracy、F1分数作评价指标对结果进行量化。其中F1分数由精确率Precision、召回率Recall，其计算公式为：

其中，TP为混淆矩阵中真正例数，FP为假正例数，TN为真负例数，FN为假负例数。图7展现了这两种数据集下测试结果的混淆矩阵，其中ND为非抑郁症，D为抑郁症。可以得出，本发明实施例在DAIC-WOZ数据集上测试结果的准确率为77.1％、精确率为66.7％、召回率为66.7％、F1平均分为0.746，在MODMA数据集上测试结果的准确率为85.7％、精确率为79.2％、召回率为90.5％、F1平均分为0.856。

为进一步说明本系统的优势，表1对比了在相同的数据集下的现有代表性研究识别结果。可见，现有研究仅从语音感知的角度提取语音特征，存在信息的丢失导致识别效果欠佳。而本系统所测试结果的F1平均分有了明显提升，说明本系统从语音生成和语音感知的过程中提取的闭环语音链特征包含了更完整的抑郁信息，并且融合深度学习技术可以取得优异的识别效果。此外，本系统在语音不同、范式不同的数据集上均表现出较好的识别性能，说明本系统具有文本无关性，即通过被试语音的本质特征进行识别，而非说话的内容，这一特性符合抑郁症语音识别的应用要求，同时证明本系统所用语音链特征的有效性。

因此，本系统首次通过提取被试语音的语音链特征，融合深度学习技术建立神经网络模型实现了准确、灵敏度高以及文本无关的抑郁症自动诊断。该系统有望应用于抑郁症临床诊断、抑郁症早期大规模筛查等应用场景，增加当前诊断能力，降低诊断成本，具有可观的社会和经济效益。

需要说明的是，本系统所描述的上述各个模块的执行本体可以是可穿戴设备、离线计算机设备、远程服务器设备等硬件实体，本发明实施例对此不作限制。

表1“本系统与现有研究的测试结果比较”

本发明实施例的主旨是提出一种抑郁症语音诊断的新系统，通过构建声道和耳道模型提取语音链特征，并运用深度学习技术建立神经网络提取语音片段内以及语音片段间的抑郁信息，继而准确地实现抑郁症诊断。该系统可有效提高抑郁症语音诊断模型的准确性和鲁棒性，可获得可观的社会效益和经济效益。最佳实施方案拟采用专利转让、技术合作或产品开发。

参考文献

[1]ORGANIZATION W H.Depression and other common mental disorders:global health estimates[R]:World Health Organization,2017.

[2]DENES P B,DENES P,PINSON E.The speech chain[M].Macmillan,1993.

[3]VALSTAR M,GRATCH J,SCHULLER B,et al.Avec 2016:Depression,mood,andemotion recognition workshop and challenge；proceedings of the Proceedings ofthe 6th international workshop on audio/visual emotion challenge,F,2016[C].

[4]MA X,YANG H,CHEN Q,et al.Depaudionet:An efficient deep model foraudio based depression classification；proceedings of the Proceedings of the6th international workshop on audio/visual emotion challenge,F,2016[C].

[5]HUANG Z,EPPS J,JOACHIM D.Exploiting vocal tract coordination usingdilated CNNs for depression detection in naturalistic environments；proceedings of the ICASSP 2020-2020 IEEE International Conference onAcoustics,Speech and Signal Processing(ICASSP),F,2020[C].IEEE.

[6]REJAIBI E,KOMATY A,MERIAUDEAU F,et al.MFCC-based Recurrent NeuralNetwork for automatic clinical depression recognition and assessment fromspeech[J].Biomedical Signal Processing and Control,2022,71:103107.

[7]OTHMANI A,KADOCH D,BENTOUNES K,et al.Towards robust deep neuralnetworks for affect and depression recognition from speech；proceedings of theInternational Conference on Pattern Recognition,F,2021[C].Springer.

[8]CHEN X,PAN Z.A Convenient and Low-Cost Model of DepressionScreening and Early Warning Based on Voice Data Using for Public MentalHealth[J].International Journal of Environmental Research and Public Health,2021,18(12):6441.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于闭环语音链和深度学习的抑郁症自动诊断系统，其特征在于，所述系统基于闭环语音链提取语音感知和语音生成过程中的语音特征，并融合了具有自适应能力的深度学习技术调整其权重系数，依次提取语音片段内的以及语音片段间的抑郁特征，继而实现抑郁症的诊断，系统包括：

语音预处理模块，用于对输入的原始语音信号进行预处理；

语音链特征提取模块，用于对片段语音提取语音链特征，建立声道、耳道模型，根据耳道模型提取39维度梅尔倒谱系数特征以及根据声道模型提取40维度线性预测系数特征；

片段间特征提取及分类输出模块，用于建立长短期记忆网络提取片段间的抑郁特征并实现抑郁症和非抑郁症的分类输出；

其中，所述片段内特征提取模块基于深度学习技术建立一维卷积神经网络提取其中的抑郁信息，采用一维卷积层对全频段进行卷积提取频域信息，采用最大池化层整合提取信息，采用批归一化和随机失活操作，并采用全连接层提取特征并进行降维；训练过程中加上单元数为2的全连接层作为输出层调整网络权重，损失函数选择交叉熵函数，采用学习率动态调整策略，对于输入的MFCC特征和LPC特征分别保留16维度的全连接输出作为下一流程的输入；

所述特征级融合模块将各片段对应的16维度抑郁特征拼接成32维度，按照语音预处理模块中所记录的原始片段顺序对所有片段特征进行融合，融合结果作为下一阶段的输入；

所述片段间特征提取及分类输出模块采用1层LSTM网络提取抑郁信息，采用2个全连接层进行降维并完成抑郁症和非抑郁症的诊断，在训练过程中同样选择交叉熵函数作为损失函数，采用学习率动态调整策略，采用单元数为2的全连接层作为输出层对被试做出抑郁或非抑郁的判断；

其中，提取39维度梅尔倒谱系数特征，将语音信号经过高通滤波器进行预加重，提升高频部分，消除发声过程中声带和嘴唇的效应，补偿语音信号受到发音系统所抑制的高频部分；

其中，高频滤波器的系统函数为：

按照25ms长度以及10ms步长进行分帧，并使用汉明窗增加帧端点间的连续性，分帧后的信号为S(n)，加窗后的信号为S′(n)＝S(n)·w(n)，其中：

对加窗后的每帧语音信号进行快速傅里叶变换得到频谱的能量分布，将能量谱通过一组Mel尺度的三角形滤波器组，设置滤波器数量为24个，其中涉及Mel频率与Hz频率的转化关系为：

这里s(m)为滤波器组中第m个滤波器所求得的对数能量，对于求得13阶MFCC特征，计算其一阶差分和二阶差分并且融合得到39维度MFCC特征；

其中，利用一个20阶的时变全极点滤波器建立声道模型，生成语音信号s(n)表示为：

其中，P是滤波器的阶数，a_p是滤波器的系数，e(n)为预测误差，通过最小化真实信号与预测信号之间的均方误差E[e²(n)]，得到滤波器系数的解a_p’通过计算滤波器系数a_p的一阶差分得到其动态参数，并将二者融合得到40维度LPC特征。