CN112164459A

CN112164459A - 一种抑郁症状的信息评估方法

Info

Publication number: CN112164459A
Application number: CN202010972386.8A
Authority: CN
Inventors: 沈莹; 林琳; 程诗丹; 张�林; 赵生捷
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-01-01

Abstract

本发明公开了一种抑郁症状的信息评估方法，分析来访者与心理医生的面谈内容，并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合，对来访者对应的抑郁症相关心理量表评分，提高在不限制面谈内容的情况下评估的准确度。本发明能够为心理医生提供客观的抑郁症辅助评估方法以及快速、有效和经济的抑郁症状自我评估。

Description

一种抑郁症状的信息评估方法

技术领域

本发明属于信息分析处理领域，涉及多模态融合技术，尤其是通过语音与文本融合可用于抑郁症状评估的方法。

背景技术

抑郁症是一种全球性的精神疾病，其主要特征包括情绪体验、交流和自我调节的中断。世界上有2.64亿人患有抑郁症。在最糟糕的情况下，抑郁可能导致自残甚至自杀。根据世界卫生组织(WHO)的报告，每年约有80万人因重度抑郁症而死亡。有研究表明，在抑郁症的早期发展进行干预对阻止抑郁症进一步发展至关重要。然而，在某些情况下，对抑郁症的早期干预可能很困难。

首先，传统的抑郁症治疗方法，如心理治疗或药物治疗疗程较长，费用昂贵，且治疗效果不一定理想，上述因素会使得经济情况窘迫的病人不愿就医。其次，心理医生通常根据临床访谈、评分量表和自我评估来评估抑郁症的严重程度。然而，由于担心诊断结果会给带来歧视或其他负面后果，患者有时会故意向心理医生隐瞒自己的真实情况。负面后果包括对抑郁症患者的偏见、成见和歧视行为，这是阻止抑郁症患者向专业医生寻求帮助的主要因素。因此。基于上述两点，心理学家甚至无法正确评估抑郁症的严重程度，更不用说采取有效的干预措施了。有鉴于此，一个高效的抑郁症自动检测系统就成为一种必要，它可以帮助潜在的患者私下评估自己的病情，并提高他们对向心理医生寻求帮助的意愿。此外，当病人有意误导时，一个有效的抑郁症自动检测系统也能够在诊断过程中为心理学家提供客观的检测手段，提供辅助参考。

综上所述，抑郁症的早期干预可以通过向专业心理医生和真正的病人提供客观的抑郁检测系统来实现。研究结果表明，抑郁症对非语言行为和语言行为都有影响，包括面部表情、声调、语法、语义等。在这些理论和研究的推动下，抑郁症自动检测系统倾向于模拟临床诊断，分析患者的语言表现、面部表情和声音特征。目前，抑郁症的自动检测方法通常利用多源信息，如音频、视频和面谈的文字译本。

抑郁症自动检测过程包括两个步骤。第一步，收集来访者说话的音频或视频，这些来访者会回答心理医生精心设计的问题。文本内容也会从这些音频和视频中提取出来，以提高诊断的准确性。第二步，根据采集到的语音特征、回答内容等信息，利用算法自动分析和评估抑郁程度。

虽然研究人员在提高抑郁症检测准确率方面取得了一些进展，但在实践中仍存在很大的困难。首先，由于隐私问题，临床面谈的视频可能无法获取。其次，患者可能会无意识或有意地错误地报告自己的精神状态，从而误导诊断。第三，如何从不同源数据提取和融合具有代表性的特征需要进一步的研究。因此，抑郁症的自动检测对该领域的研究者来说仍然是一项具有挑战性的任务。

发明内容

本发明的目的在于提供一种抑郁症状的信息评估方法，通过客观和定量的衡量方法对来访者对应的抑郁症相关心理量表评分。。

为达到上述目的，本发明的解决方案是：

一种抑郁症状的信息评估方法，分析来访者与心理医生的面谈内容，并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合，对来访者对应的抑郁症相关心理量表评分，提高在不限制面谈内容的情况下评估的准确度。

进一步，包括以下步骤：

(1)从来访者面谈的音频中提取梅尔频谱特征，作为语音特征；使用ELMo将来访者面谈的文字译本转换为句子嵌入，作为文本特征；

(2)使用一维卷积神经网络(1D-CNN)将语音特征转换为语音嵌入x_audio；一维卷积神经网络的权重为ω_audio；

(3)使用带注意力层的双向长短时记忆网络(BiLSTM with an Attention Layer)将文本特征转换为文本嵌入x_text；该网络的权重为ω_text；

(4)将语音嵌入和文本嵌入连接后输入两层全连接网络得到最终的二分类标签(是否抑郁症)或回归结果(抑郁量表分数)，该融合网络使用的损失函数为：

其中x_m为语音嵌入或文本嵌入；ω_m为网络权重；y为二分类标签；在二分类情况下，l为交叉熵；在回归情况下，l为Huber损失函数。

对于本发明，共需要训练3个神经网络。第一个神经网络为一维卷积神经网络，第二个神经网络为带注意力层的双向长短时记忆网络，第三个神经网络为两层全连接网络，其作用为融合语音嵌入x_audio和文本嵌入x_text，并输出最终的检测结果。第三个神经网络，融合了一维卷积神经网络和带注意力层的双向长短时记忆网络；在训练第三个神经网络时，前两个网络的参数被冻结，不在后向传播中改变，唯一改变的参数只有两层全连接网络的参数。

所述步骤(1)中，从来访者面谈的音频中提取梅尔频谱特征，作为语音特征，包括以下步骤：(1-1)

将来访者面谈音频在去除静音后切割成长度为15s的音频片段，使用80个梅尔滤波器将其转换为梅尔频谱；若去除静音后的音频片段不足15s，则用0.0001填补剩余音频片段后再将其转换为梅尔频谱；每个来访者的面谈音频会被转换成一个梅尔频谱图。梅尔频谱图是通过将短时傅里叶变换幅度系数与相应的梅尔滤波器相乘计算得到，可以被认为是声谱图的非线性变换。其保持了声音的高层次细节，同时也提供了具有较好识别能力的低水平描述子。频谱图和梅尔频谱图的关系为：

所述步骤(1)中，使用ELMo将来访者面谈的文字译本转换为句子嵌入，作为文本特征，包括以下步骤：(1-2)

将文字译本中对属于同一个问题的回答连接成一个长句，将其编码成ELMo三层嵌入的平均值；ELMo对上下文中单词的不同类型的句法和语义信息进行编码；每个问题的回答长句会转换成一个句向量；每个来访者对于不同的10个问题的回答会被转换成句向量矩阵，该矩阵行数为10。

所述步骤(2)中，使用一维卷积神经网络(1D-CNN)将语音特征转换为语音嵌入x_text，一维卷积神经网络由两个卷积层和两个池化层构成；在检测来访者是否患有抑郁症时，两个卷积层的卷积核大小为(1,7)，步长为1；在检测来访者的抑郁心理量表分数时，两个卷积层的卷积核大小为(1,7)，第一个卷积层的步长为1，第二个卷积层的步长为2。

所述步骤(3)中，使用带注意力层的双向长短时记忆网络(BiLSTM with anAttention Layer) 将文本特征转换为文本嵌入x_text，双向长短时记忆网络隐藏层数为2，隐藏层维数为128，随机丢弃神经元概率为0.5。

所述步骤(3)中，使用带注意力层的双向长短时记忆网络(BiLSTM with anAttention Layer) 将文本特征转换为文本嵌入x_text，其注意力层定义为：

c_t＝w·tanh(o_t)

y_h＝c·o^h

其中，X为来访者的句向量矩阵；H是双向长短时记忆网络(BiLSTM)的隐藏状态；

和

分别是BiLSTM的前向输出和后向输出；O的大小为时间步*隐藏层维数；o_t为O的第t个时间步；w为隐藏状态H的权重；c_t为加权上下文c处于时间t的值；o^h为O的第h维；y_h为输出的第h维；该输出即为生成的文本嵌入。

所述步骤(4)中，将语音嵌入和文本嵌入连接，连接方式为：

a＝BiLSTM(x_text)

b＝CNN_1D(x_audio)

x_fuse＝[a₁，a₂，a₃，…，b₁，b₂，b₃…]

所述步骤(4)中，融合网络使用的损失函数为：

由于采用上述方案，本发明的有益效果是：

抑郁症的自动检测对支持临床医生的诊断和自我抑郁诊断具有重要的现实意义。然而，现有的方法都有其缺点，如需要额外的专业知识或不够准确。本发明提出了一种新的抑郁症检测方法，它分析了临床面谈的音频和文字译本，对抑郁症进行诊断。该方法对临床面谈中心理医生所问问题无限制，具有较强泛化性能，且检测结果稳定准确。

具体分析如下：多数抑郁症检测算法设计或选择一组能够更好地揭示患者的病情的问题 (如与睡眠质量、创伤后应激障碍等相关的问题)，这些问题与心理学家的专业知识密切相关，而这些专业知识并不容易获得。如果在临床面谈中没有提及任何一个选定的问题/主题，这些算法将不适用，因为它们无法构建完整的特征集。对于不选定问题/注意的抑郁症检测算法，其性能无法与选定主题/问题的算法相比，即检测结果不够准确。本发明使用的一维卷积神经网络与二维卷积神经网络相比，更适合用于抑郁症检测问题中梅尔频谱图的处理。对于频率的一维卷积使得模型能够捕获短期时间相关性的声音特性。BiLSTM模型不仅可以从过去的时间步中学习，还可以从未来的时间步中学习；BiLSTM还采用了一个注意力层来获取哪一个词在抑郁检测问题中贡献最大。此外，多模态的信息输入会补足单模态中信息不足的部分，即多模态能够提供更多信息。实验证明，本发明中语音信息与文本信息的融合提升了抑郁症评估的性能。

附图说明

图1为本发明基于语音特征与文本特征融合的抑郁症检测算法的工作流程示意图。

具体实施方式

以下结合附图所示实施例对本发明作进一步的说明。

针对目前抑郁症检测算法需要额外的专业知识或不够准确的缺点，本发明分析来访者与心理医生的面谈内容，并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合，预测结果包括来访者是否患有抑郁症以及其对应的抑郁症相关心理量表评分。本算法能够为心理医生提供客观的抑郁症辅助评估方法以及快速、有效和经济的抑郁症自我评估。其具体工作流程如图1所示：

(1-1)将来访者面谈音频在去除静音后切割成长度为15s的音频片段，使用80个梅尔滤波器将其转换为梅尔频谱；若去除静音后的音频片段不足15s，则用0.0001填补剩余音频片段后再将其转换为梅尔频谱；每个来访者的面谈音频会被转换成一个梅尔频谱图。梅尔频谱图是通过将短时傅里叶变换幅度系数与相应的梅尔滤波器相乘计算得到，可以被认为是声谱图的非线性变换。其保持了声音的高层次细节，同时也提供了具有较好识别能力的低水平描述子。频谱图和梅尔频谱图的关系为：

(1-2)将文字译本中对属于同一个问题的回答连接成一个长句，将其编码成ELMo三层嵌入的平均值；ELMo对上下文中单词的不同类型的句法和语义信息进行编码；每个问题的回答长句会转换成一个句向量；每个来访者对于不同的10个问题的回答会被转换成句向量矩阵，该矩阵行数为10。

(2)使用一维卷积神经网络(1D-CNN)将语音特征转换为语音嵌入x_audio；

一维卷积神经网络由两个卷积层和两个池化层构成；在检测来访者是否患有抑郁症时，两个卷积层的卷积核大小为(1,7)，步长为1；在检测来访者的抑郁心理量表分数时，两个卷积层的卷积核大小为(1,7)，第一个卷积层的步长为1，第二个卷积层的步长为2。

(3)将使用带注意力层的双向长短时记忆网络(BiLSTM with an AttentionLayer)将文本特征转换为文本嵌入x_text；

双向长短时记忆网络隐藏层数为2，隐藏层维数为128，随机丢弃神经元概率为0.5；其注意力层定义为：

c_t＝w·tanh(o_t)

y_h＝c·o^h

和

分别是BiLSTM的前向输出和后向输出；O的大小为 timestep(时间步)×hidden_dim(隐藏层维度)；o_t为O的第t个时间步；w为隐藏状态H 的权重；c_t为加权上下文c处于时间t的值；o^h为O的第h维；y_h为输出的第h维；该输出即为生成的文本嵌入。

(4)将将语音嵌入和文本嵌入连接后输入两层全连接网络得到最终的二分类标签(是否抑郁症)或回归结果(抑郁量表分数)：

语音嵌入和文本嵌入连接方式为：

a＝BiLSTM(x_text)

b＝CNN_1D(x_audio)

x_fuse＝[a₁，a₂，a₃，…，b₁，b₂，b₃…]

融合网络使用的损失函数为：

其中x_m为语音嵌入或文本嵌入；ω_m为网络权重；y为二分类标签；在二分类情况下，l为- 交叉熵：

在回归情况下，l为Huber损失函数：

该两层全连接网络为特征融合网络，其作用为融合语音嵌入x_audio和文本嵌入x_text，并输出最终的检测结果。该全连接网络包含了一维卷积神经网络和带注意力层的双向长短时记忆网络；在训练该网络时，1D-CNN和BiLSTM的参数被冻结，不在后向传播中改变，唯一改变的参数只有两层全连接网络的参数。

以下结合具体实验数据对本发明所示的基于语音特征与文本特征融合的抑郁症检测方法进一步说明。

实验条件与评分标准：

本发明所使用数据库是两个公开的抑郁症数据集，也是唯二的公开抑郁症数据。第一个数据集(DAIC)中包含142名志愿者与虚拟人物Ellie对话的音频、视频与文字译本，其中35名志愿者的PHQ8心理量表分数表明其有抑郁倾向。第二个数据集(AViD)中包含84名志愿者回答问题或朗诵诗歌的音频和视频，该数据集标签为84名志愿者的BDI-II心理量表分数。

在本发明中，抑郁症检测的准确率是关键指标。对于检测抑郁症的存在与否(二分类)，本发明采用以下评价指标：

对于检测抑郁相关心理量表分数(回归)，本发明采用以下评价指标：

实验结果：

表1中的数据为本发明与其他方法在DAIC数据集上的性能进行的比较。由于不同的抑郁症检测方法采用了不同的特征类型，本发明将1D-CNN模型与其他六种只接受音频特征的抑郁症检测方法进行了比较。同样，本发明将提出的BiLSTM模型与六种只接受文本特征的抑郁症检测方法进行了比较。最后，本发明将融合网络与其他两种同时接受音频和文本特征的融合方法进行了性能比较。从表1可以看出，对于只使用一种模态特征的方法，基于文本特征的检测方法在抑郁症分类任务和抑郁严重程度评估任务中的性能都优于基于音频特征的方法。与仅采用音频特征的方法相比，所提出的1D-CNN模型的F1分数为0.81，MAE为4.25。输入为文本特征的带注意层BiLSTM模型的F1值为0.83，MAE值为3.88。与其他只采用文本特征的检测方法相比，本发明提出的BiLSTM模型取得了第三好的性能，仅比最优方法的 F1分数差0.04，MAE/RMSE值差0.58/0.98。本发明所提出的多模态融合方法在分类和回归任务(F1值为0.85，MAE为3.75)中均取得了较好的结果，这也表明了信息量越大，预测效果越好。与其他两种融合方法相比，本发明的融合特征方法在F1成绩上仅差0.02，达到了次优。然而，本发明的方法在召回指标上的得分最高，为0.92，远远高于其他方法。这表明，本发明提出的抑郁症检测方法可以找到更多的抑郁症患者并且具有相对较高的准确性。

表1.本发明提出方法与其他方法在DAIC数据集上实验结果

表2中的数据为本发明与AViD数据集的基线结果进行的比较。从表2中可以看出，与AViD测试集的基线性能相比，本发明提出的方法显著提高了评估精度，MAE和RMSE分别为9.30和11.55。需要注意的是，AViD数据集中使用的语言是德语，而DAIC-数据集中的语言是英语。这充分说明，在语言障碍的情况下，本发明提出的基于梅尔频谱图特征的1D-CNN 模型在抑郁症筛查领域具有良好的泛化能力。

表2.本发明提出方法在AViD数据集上试验结果与其基线结果

需要说明的是，本发明虽然与抑郁症有关，但本发明本质上是一种信息处理方法，文中所提及的“检测”也不同于“诊断”，只是一种便于本领域技术人员理解的表述方式。

上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种抑郁症状的信息评估方法，其特征在于：分析来访者与心理医生的面谈内容，并从面谈音频和文字译本中语音特征与文字嵌入特征进行融合，对来访者对应的抑郁症相关心理量表评分，提高在不限制面谈内容的情况下评估的准确度。

2.根据权利要求1所述的抑郁症状的信息评估方法，其特征在于，包括以下步骤：

(2)使用一维卷积神经网络将语音特征转换为语音嵌入x_audio；一维卷积神经网络的权重为ω_audio；

(3)使用带注意力层的双向长短时记忆网络将文本特征转换为文本嵌入x_text；该网络的权重为ω_text；

(4)将语音嵌入和文本嵌入连接后输入两层全连接网络得到最终的二分类标签或回归结果，该融合网络使用的损失函数为：

3.根据权利要求2所述的抑郁症状的信息评估方法，其特征在于：所述步骤(1)中，从来访者面谈的音频中提取梅尔频谱特征，作为语音特征，包括以下步骤：(1-1)

将来访者面谈音频在去除静音后切割成长度为15s的音频片段，使用80个梅尔滤波器将其转换为梅尔频谱；若去除静音后的音频片段不足15s，则用0.0001填补剩余音频片段后再将其转换为梅尔频谱；每个来访者的面谈音频会被转换成一个梅尔频谱图。

4.根据权利要求2所述的抑郁症状的信息评估方法，其特征在于：所述步骤(1)中，使用ELMo将来访者面谈的文字译本转换为句子嵌入，作为文本特征，包括以下步骤：(1-2)将文字译本中对属于同一个问题的回答连接成一个长句，将其编码成ELMo三层嵌入的平均值；每个问题的回答长句会转换成一个句向量；每个来访者对于不同的10个问题的回答会被转换成句向量矩阵，该矩阵行数为10。

5.根据权利要求2所述的抑郁症状的信息评估方法，其特征在于：所述步骤(2)中，使用一维卷积神经网络将语音特征转换为语音嵌入x_text，一维卷积神经网络由两个卷积层和两个池化层构成；在检测来访者是否患有抑郁症时，两个卷积层的卷积核大小为(1,7)，步长为1；在检测来访者的抑郁心理量表分数时，两个卷积层的卷积核大小为(1,7)，第一个卷积层的步长为1，第二个卷积层的步长为2。

6.根据权利要求2所述的抑郁症状的信息评估方法，其特征在于：所述步骤(2)中，使用带注意力层的双向长短时记忆网络将文本特征转换为文本嵌入x_text。

7.根据权利要求6所述的抑郁症状的信息评估方法，其特征在于：所述双向长短时记忆网络隐藏层数为2，隐藏层维数为128，随机丢弃神经元概率为0.5。

8.根据权利要求2所述的抑郁症状的信息评估方法，其特征在于：所述步骤(2)中，使用带注意力层的双向长短时记忆网络将文本特征转换为文本嵌入x_text，其注意力层定义为：