CN110728997B

CN110728997B - 一种基于情景感知的多模态抑郁症检测系统

Info

Publication number: CN110728997B
Application number: CN201911198356.XA
Authority: CN
Inventors: 苏荣锋; 王岚; 燕楠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-03-22
Anticipated expiration: 2039-11-29
Also published as: CN110728997A; WO2021104099A1

Abstract

本发明提供一种基于情景感知的多模态抑郁症检测方法和系统。该方法包括：构建训练样本集，所述训练样本集包括话题信息、语谱图和对应的文本信息；使用卷积神经网络，结合多任务学习，对所述训练样本集的语谱图进行声学特征提取，获得具备情景感知的声学特征；利用所述训练样本集，使用Transformer模型对词嵌入进行处理，提取具备情景感知的文本特征；对于所述情景感知的声学特征建立进行抑郁症检测的声学通道子系统，对于所述情景感知的文本特征建立进行抑郁症检测的文本通道子系统；对所述声学通道子系统和所述文本通道子系统的输出进行融合，获得抑郁症分类信息。本发明能够提高抑郁症检测的准确性。

Description

一种基于情景感知的多模态抑郁症检测系统

技术领域

本发明涉及抑郁症检测技术领域，尤其涉及一种基于情景感知的多模态抑郁症检测方法和系统。

背景技术

在与抑郁症相关的特征提取方面，早期的基于语音的抑郁症相关研究主要集中于时域特征，例如停顿时间、录音时间、对问题的反馈时间、语速等。后来，人们发现单一的特征无法涵盖具有足够辨识度的信息去辅助临床诊断。随着对语音信号的深入研究，大量其余语音信号特征被构造出来。研究者尝试了各种语音特征组合，希望可以构建出检测抑郁症患者的分类模型。这些特征有音高(pitch)、能量(energy)、语速(speaking rate)、共振峰(formant)、梅尔倒谱系数(MFCC)等特征。文本是另外一种“隐藏”在语音信号中的与抑郁症相关的信息，它较容易从语音信号中获得。研究表明，抑郁患者使用消极情感词和愤怒词明显较正常人多。而人们常常使用词频统计作为文本特征表示。这种特征属于底层(low-level)的文本特征，最近人们更偏向于使用高层次(high-level)的文本特征来描述抑郁状态，也就是所谓的词嵌入(word embedding)特征，获取词嵌入特征的常用网络结构有skip-gram或者CBOW(continuous bag-of-words)等。

在有限抑郁症语音文本数据条件下进行抑郁症检测方面，鉴于抑郁症患者的语音文本数据很难进行大规模采集，因此可用于研究抑郁症的语音数据库一般规模较小。目前研究者一般只能采用较为简单的分类模型进行抑郁症检测。传统的基于语音的抑郁症检测方法有：支撑向量机(Support Vector Machine，SVM)、决策树、混合高斯模型(GaussianMixture Model， GMM)等。深度学习是机器学习的一个新的领域，它通过使用多层的非线性转换进行组合，对数据进行高层次抽象建模。利用深度学习算法，能够使得原始数据更加容易的适应各种方向的学习训练。例如，利用CNN 和LSTM组合成一个新的深层网络，然后对语音信号提取声学特征，并用于抑郁症的检测。又如，通过对医生与抑郁症患者的对话进行语义分析，如停留词提取(filled pause extraction)、主成分分析(Principal ComponentsAnalysis，PCA)、白化变换(whitening transform)等技术，从中得到一些文本特征并结合一个线性支撑向量回归器(Support Vector Regressor，SVR) 分类器进行抑郁症分类。再如，首先使用独立的LSTM层分别对声学通道和文本通道进行处理，然后再把其中的输入特征输入到全连接层中，最后进行抑郁症类别输出。现有技术所使用的声学特征是一些人工定义的279 维特征，而文本特征是使用Doc2Vec工具提取得到的100维词嵌入向量。

在现有技术中，通常采取基于生化试剂和基于脑电的检测手段，而在基于语音、文本或图像的技术方案中，多以语音数据为依托，在特征提取及分类的基础上进行抑郁症检测。简言之，现有技术主要存在以下几方面的问题：训练数据量方面，现有的基于语音、文本或图像的多模态抑郁症检测系统大部分由有限抑郁症数据训练得到，因此性能低下；特征提取方面，现有特征提取方法缺少话题情景相关的言语信息，在抑郁症检测领域表现力不足，限制了最终抑郁症检测系统的性能；抑郁症分类建模方面，现有技术没有考虑语音、文本特征与抑郁症诊断的长时间依赖关系；多模态融合方面，现有技术简单地把不同模态或通道下所得到的子系统输出串联在一起，最终进行决策，忽略了各个模态或通道之间的轻重关系，因此性能受到限制。

发明内容

本发明的目的在于克服上述现有技术的缺陷，提供一种基于情景感知的多模态抑郁症检测方法和系统。

根据本发明的第一方面，提供一种基于情景感知的多模态抑郁症检测方法。该方法包括以下步骤：

步骤S1：构建训练样本集，所述训练样本集包括话题信息、语谱图和对应的文本信息；

步骤S2：使用卷积神经网络，结合多任务学习，对所述训练样本集的语谱图进行声学特征提取，获得具备情景感知的声学特征；

步骤S3：利用所述训练样本集，使用Transformer模型对词嵌入进行处理，提取具备情景感知的文本特征；

步骤S4：对于所述情景感知的声学特征建立进行抑郁症检测的声学通道子系统，对于所述情景感知的文本特征建立进行抑郁症检测的文本通道子系统；

步骤S5：对所述声学通道子系统和所述文本通道子系统的输出进行融合，获得抑郁症分类信息。

在一个实施例中，根据以下步骤获得所述情景感知的声学特征：

构建卷积神经网络，该卷积神经网络包括输入层、多个卷积层、多个全连接层、输出层、以及位于最后一层全连接层和输出层之间的瓶颈层，该瓶颈层相对于卷积层和全连接层具有较少的节点；

将所述训练样本集中的语谱图输入到卷积神经网络，输出层包含抑郁症分类任务和话题的标签任务；

从卷积神经网络的瓶颈层提取得到所述情景感知的声学特征。

在一个实施例中，根据以下步骤提取所述情景感知的文本特征：

构建Transformer模型，以词嵌入加上话题标识作为Transformer模型的输入，该Transformer模型包括多个含有自注意力的编码器和解码器以及位于最后一层的softmax层；

利用已有的文本语料，使用无监督训练方法预训练Transformer模型参数，然后采用迁移学习，在采集得到的抑郁症文本数据进行自适应训练；

在训练完成之后，将softmax层去除，以Transformer模型的输出作为所述情景感知的文本特征。

在一个实施例中，步骤S5包括：

采用强化学习机制，调整所述声学通道子系统的权重和所述文本通道子系统的权重，使得最终抑郁症分类预测结果和反馈信息之间的差异最小化；

融合所述声学通道子系统和所述文本通道子系统的输出，获得抑郁症的分类打分。

在一个实施例中，所述抑郁症的分类打分表示为：

其中，权重w_i＝[λ₁,λ₂,…,λ_c]，c为抑郁症的分类个数。

在一个实施例中，所述声学通道子系统和所述文本通道子系统基于 BLSTM网络建立，所述声学通道子系统的网络输入为连续多帧的感知线性预测系数和所述情景感知的声学特征，输出为抑郁症分类标签，所述文本通道子系统的网络输入是文本信息，输出为抑郁症分类标签。

在一个实施例中，所述训练样本集中的话题信息包括基于医生与抑郁症患者交谈的内容所划分的多种类型标识。

根据本发明的第二方面，提供一种基于情景感知的多模态抑郁症检测系统。该系统包括：

训练样本构建单元：用于构建训练样本集，所述训练样本集包括话题信息、语谱图和对应的文本信息；

声学特征提取单元：用于使用卷积神经网络，结合多任务学习，对所述训练样本集的语谱图进行声学特征提取，获得具备情景感知的声学特征；

文本特征提取单元：用于利用所述训练样本集，使用Transformer模型对词嵌入进行处理，提取具备情景感知的文本特征；

分类子系统建立单元：用于对于所述情景感知的声学特征建立进行抑郁症检测的声学通道子系统，对于所述情景感知的文本特征建立进行抑郁症检测的文本通道子系统；

分类融合单元：用于对所述声学通道子系统和所述文本通道子系统的输出进行融合，获得抑郁症分类信息。

与现有技术相比，本发明的优点在于：利用数据增强的方法，根据医生与抑郁症患者自由交谈内容中的话题信息，扩展抑郁症语音文本训练数据，并利用该数据进行模型训练；获取与抑郁症检测相关的言语信息，包括获取与说话人无关、与抑郁症高度相关、具备情景感知的声学特征，以及获取与抑郁症高度相关、具备情景感知的文本特征；考虑医生与抑郁症患者自由交谈内容中的话题情景信息，在声学通道和文本通道建立抑郁症检测子系统；使用强化学习方法，得到多系统融合框架，以实现鲁棒的多模态抑郁症自动检测。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1是根据本发明一个实施例的基于情景感知的多模态抑郁症检测方法的总体框架图；

图2是根据本发明一个实施例的基于情景感知的多模态抑郁症检测方法的流程图；

图3是基于话题的数据增强示意；

图4是基于CNN和多任务学习的声学特征提取过程的示意图；

图5是基于多头自注意力机制的文本特征提取过程的示意图；

图6是强化学习示意图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

在本文示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

为进一步理解本发明，首先参见图1所示，总体技术方案包括：首先采用基于话题的数据增强方法，得到更多的与话题相关的抑郁症语音文本数据；然后使用CNN网络，结合多任务学习方法，对语谱图进行情景感知的声学特征提取，使用Transformer对词嵌入进行处理，得到情景感知的文本特征；接着，分别使用情景感知的声学特征和情景感知的文本特征，利用BLSTM(双向长短时记忆网络)模型进行抑郁症检测子系统建立；最后使用强化学习的方法，对每个子系统的输出进行融合决策，得到最终的抑郁症分类。

具体地，参见图2所示，本发明实施例的基于情景感知的多模态抑郁症检测方法包括以下步骤：

步骤S210，获得具有情景感知的训练样本集。

训练样本集可基于原有的训练集进行扩充，使其包含情景感知信息，原有数据集通常仅包括语音和文本的对应关系。

具体地，首先，对已有的训练集中每一对语音文本数据进行话题标注。例如，将医生与抑郁症患者交谈的内容分成7个话题：是否有兴趣、睡觉是否安稳、是否感到沮丧、是否感到失败、自我评价、是否曾经诊断为抑郁症、父母是否曾经患有抑郁症。

接下来，将原有训练集进行扩充：

对于训练集中属于每一个被试的语音和文本，计算其中唯一的话题数目；如果该数字大于等于m，则把其作为数据增强的备选被试，其中m为限定的最小话题数目；

对于每一个备选被试，随机选取n个属于该被试的语音文本数据对，作为一个新的组合；

对于每一个新的组合，把其中的语音文本数据对的顺序进行随机打乱，然后作为新的训练样本，参见图3所示。

通过上述方式可以得到一些新的训练样本，将其与原来的训练样本拼接在一起即可扩展原有数据集，构建为新的训练样本集。

在此步骤中，通过定义医生与抑郁症患者交谈的多个话题内容，并通过随机组合的方法扩展原有训练数据集，能够获得更丰富的具有情景感知的训练样本集，其中包括话题信息、语谱图、文本信息以及对应的分类标签等，从而提高了后续训练的精度。

步骤S220，基于CNN和多任务学习提取具有情景感知的声学特征。

传统方法中，使用的声学特征(如语速、音高、停顿时长等)均是基于特定领域的人类知识的所设计。由于这些传统特征在抑郁症领域表现力不足，而影响了最终检测的结果的准确性。从生物学上分析，人类的视觉感知是从低层局面感知到高层全局感知，而卷积神经网络(Convolutional Neural Network，CNN)恰恰模拟了这个过程。在CNN网络中，经过局部权重共享和一系列的非线性变换后，去掉原有的视觉信息中一些冗余和混淆的信息，仅保留每个局部区域最具区分度的信息。也就是说，经CNN 得到的特征只包含不同说话人的“共性”描述，个体信息均被抛弃。

为了使得最终获得的特征包含不同层面的信息，本发明结合多任务学习与CNN网络进行分类网络训练。参见图4所示，CNN网络的输入为每一个训练样本的语谱图，而该CNN网络包含有若干卷积层以及若干全连接层。在卷积层中，使用例如最大池化技术进行降采样。在最后一层全连接层与输出层之间，本发明实施例插入了一个瓶颈层，它只含有较少的节点，例如取值为39。CNN网络的输出层含有两个任务，第一个任务是抑郁症的分类，例如，分类为轻微、严重、中等、正常等多个类别，第二个任务是不同话题的标签(或称话题标识)。

需要注意的是，在本发明实施例中，将从CNN网络的瓶颈层提取得到情景感知的声学特征，并且将其与传统声学特征拼接在一起进行后续分类网络训练。

在此步骤中，利用CNN神经网络以及多任务学习的方法，其中第一个任务是抑郁症的分类，而第二个任务是不同话题的标签，由网络瓶颈层得到的输出作为具有话题情景感知特性的声学特征。

步骤S230，基于多头自注意力机制提取情景感知的文本特征。

传统方法使用词嵌入来描述一段文本，然而该特征难以从语义角度理解句子意义，尤其在某些与抑郁症相关的话题上，严重缺乏与之相关的语义情感表征。自注意力机制模仿了生物观察行为的内部过程，擅长捕捉数据或特征的内部相关性。

在本发明实施例中，采用基于多头自注意力机制的Transformer模型，来对句子中的语义进行分析，从而提取情景感知的文本特征。参见图5所示，Transformer模型的输入是传统的词嵌入加上话题的ID(标识)，其主体结构由多个含有自注意力的编码器和解码器组成，也就是所谓的多头机制。由于Transformer模型允许各个数据单元之间直接连接，因此能让模型考虑到不同位置的注意力信息，更好地捕获长期依赖关系。另外，为了使得Transformer模型得到充分训练，在本发明实施例中，首先利用大规模文本语料(如微博、维基百科等)，使用无监督训练方法预训练 Transformer模型参数；然后再采用迁移学习的方法，在采集得到的抑郁症文本数据进行自适应训练。在训练完毕后，将图5中最后一层softmax层去除，然后将该输出作为文本特征，即提取的情景感知的文本特征，该特征将用于后续的抑郁症检测模型训练。

在此步骤中，结合词嵌入和话题情景信息作为输入，利用Transformer 模型能够提取得到鲁棒的文本特征。

步骤S240，对于情景感知的声学特征和情景感知的文本特征分布建立进行抑郁症检测的子系统。

由于抑郁症的诊断往往不是由某一时刻的一帧或者一句话决定的，而是由长时间的多句话的信息综合决定，即所谓的长时依赖关系。为了对这种长时依赖关系进行捕捉，本发明实施例采用基于BLSTM的方法进行抑郁症分类子网络(或称子系统)的建立。BLSTM可以缓存当前的输入，并用该当前输入参与上一次和下一次的计算，以隐式地将时间信息包含到模型，从而实现对长时间的依赖关系进行建模。本发明实施例采用的BLSTM网络共有3层BLSTM层，其中每层含有128个节点。对于声学通道，其对应的网络输入为连续11帧PLP(感知线性预测系数)以及情景感知的声学特征，输出为抑郁症分类标签；对于文本通道，其对应的网络输入为一个训练样本的情景感知的文本特征，输出为抑郁症分类标签。

在此步骤中，利用BLSTM网络进行抑郁症分类模型的建立，以捕捉声学特征或文本特征与抑郁症诊断的长时依赖关系。

步骤S250，利用强化学习，对各抑郁症检测的子系统的输出进行融合，得到最终的抑郁症分类。

针对多模态系统信息融合的策略，本发明实施例采用强化学习机制，通过调整各个子系统的权重，使得组合系统的最终抑郁症预测结果以及反馈信息之间的差异最小化。抑郁症的最终打分表示为：

其中，权重w_i＝[λ₁,λ₂,…,λ_c]，c为抑郁症的分类个数，S_i对应子系统。而强化学习在t时刻的决策得分函数L_t定义为：

L_t＝W(A_t-1)D-C (2)

其中A_t-1表示在t-1时刻的反馈，D表示开发集中真实和预测结果的差异，W表示所有子系统的权重{w_i}，C表示在开发集上的全局准确率。因此，需要对所有时刻的L_t求和并令其最大化，所得到的W^*就是最终的子系统的权重，将其表示为：

W^*＝arg max_W∑_tL_t (3)

在本发明实时例中，强化学习可采用隐马尔可夫模型或其它模型。

在此步骤中，采用强化学习的方法，自动调整声学通道的子系统评分与文本通道的子系统评分的权重，使其有机融合在一起进行最终抑郁症分类。

应理解的是，尽管本文以训练过程进行介绍，但在实际应用中，利用训练好的网络模型，可以针对新的数据(包括话题、语音、文本等)采用与训练类似的过程来进行抑郁症的分类预测。此外，除了BLSTM之外，也可采用其他包含时间信息的模型。

相应地，本发明还提供一种基于情景感知的多模态抑郁症检测系统。用于实现上述方法的一个方面或多个方面。例如该系统包括：训练样本构建单元，用于构建训练样本集，所述训练样本集包括话题信息、语谱图和对应的文本信息；声学特征提取单元，用于使用卷积神经网络，结合多任务学习，对所述训练样本集的语谱图进行声学特征提取，获得具备情景感知的声学特征；文本特征提取单元：用于利用所述训练样本集，使用 Transformer模型对词嵌入进行处理，提取具备情景感知的文本特征；分类子系统建立单元：用于对于所述情景感知的声学特征建立进行抑郁症检测的声学通道子系统，对于所述情景感知的文本特征建立进行抑郁症检测的文本通道子系统；分类融合单元：用于对所述声学通道子系统和所述文本通道子系统的输出进行融合，获得抑郁症分类信息。

综上，本发明结合声学通道和文本通道得到的信息，实现高精度的多模态抑郁症检测，主要技术内容包括：利用话题相关的数据增强技术：在有限抑郁症语音文本数据基础上，利用医生与抑郁症患者自由交谈内容中的话题信息，扩展抑郁症语音文本训练数据；鲁棒的抑郁症相关特征的分析与提取：结合迁移学习和基于多头自注意力机制，提取具备话题情景感知特性，以及显示抑郁症患者特性的声学特征描述和文本特征描述，以提高检测系统的精度；基于BLSTM的抑郁症分类模型：利用BLSTM网络的强大时序建模能力，捕捉声学信息和文本信息与抑郁症诊断的长时依赖关系；多模态融合框架：利用强化学习的方法，实现在声学通道和文本通道下的抑郁症检测子系统的融合。

与现有技术相比，本发明具有以下优势：

1)、现有的抑郁症检测方法只使用有限的抑郁症语音文本数据，与其相比，本发明使用基于话题的数据增强方法扩展原有训练数据集；

2)、现有技术大部分使用缺少话题情景感知的特征，与其相比，本发明使用CNN神经网络以及多任务学习的方法提取得到具备话题情景感知特性的声学特征，以及使用Transformer模型提取具备话题情景感知特性的文本特征，是深层的特征描述，能提升抑郁症检测的鲁棒性；

3)、现有的抑郁症检测建模技术没有考虑语音、文本特征与抑郁症诊断的长时间依赖关系，与其相比，本发明利用BLSTM网络捕捉声学特征或文本特征与抑郁症诊断的长时依赖关系，性能更好；

4)、现有的多模态抑郁症检测技术简单地把不同子系统输出串联在一起进行决策，与其相比，本发明采用强化学习的方法，自动调整不同通道下的子系统评分权重，并进行最终分类决策，性能更好。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于情景感知的多模态抑郁症检测系统，包括：

声学特征提取单元：用于使用卷积神经网络，结合多任务学习，对所述训练样本集的语谱图进行声学特征提取，获得具备情景感知的声学特征，其中卷积神经网络的输出层包含两个任务，第一个任务是抑郁症的分类，第二个任务是不同话题的标签；

分类融合单元：用于对所述声学通道子系统和所述文本通道子系统的输出进行融合，获得抑郁症分类信息；

其中，所述分类融合单元用于执行以下步骤：

2.根据权利要求1所述的系统，其特征在于，所述声学特征提取单元根据以下步骤获得所述情景感知的声学特征：

3.根据权利要求1所述的系统，其特征在于，所述文本特征提取单元根据以下步骤提取所述情景感知的文本特征：

4.根据权利要求1所述的系统，其特征在于，所述抑郁症的分类打分表示为：

其中，权重w_i＝[λ₁,λ₂,…,λ_c]，c为抑郁症的分类个数。

5.根据权利要求1所述的系统，其特征在于，所述声学通道子系统和所述文本通道子系统基于BLSTM网络建立，所述声学通道子系统的网络输入为连续多帧的感知线性预测系数和所述情景感知的声学特征，输出为抑郁症分类标签，所述文本通道子系统的网络输入是文本信息，输出为抑郁症分类标签。

6.根据权利要求1所述的系统，其特征在于，所述训练样本集中的话题信息包括基于医生与抑郁症患者交谈的内容所划分的多种类型标识。

7.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现以下步骤：

步骤S2：使用卷积神经网络，结合多任务学习，对所述训练样本集的语谱图进行声学特征提取，获得具备情景感知的声学特征，其中卷积神经网络的输出层包含两个任务，第一个任务是抑郁症的分类，第二个任务是不同话题的标签；

步骤S5：对所述声学通道子系统和所述文本通道子系统的输出进行融合，获得抑郁症分类信息；

其中，步骤S5包括：

8.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

其中，步骤S5包括：