CN112818892A

CN112818892A - 基于时间卷积神经网络的多模态抑郁症检测方法及系统

Info

Publication number: CN112818892A
Application number: CN202110184432.2A
Authority: CN
Inventors: 杨忠丽; 李明定; 张光华; 武海荣
Original assignee: Hangzhou Yidian Intelligent Technology Co ltd
Current assignee: Hangzhou Yidian Intelligent Technology Co ltd
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-05-18
Anticipated expiration: 2041-02-10
Also published as: CN112818892B

Abstract

本发明提供一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。其检测方法具体包括：构建训练样本集，其包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息；对训练样本集进行3D面部表情特征提取，获得具备情境感知的3D面部表情特征向量；结合梅尔倒谱系数，用于对所述训练样本集的音频信号进行声学特征提取，获得具备情境感知的语音向量特征；使用Transformer模型，对训练样本集词嵌入进行处理，获得具备情境感知的文本特征；对3D面部表情特征、语音向量特征和文本特征进行融合，获得用于进行抑郁症分类的信息；将用于进行抑郁症分类的信息带入时间卷积神经网络，获得抑郁症分类信息。本发明能够提高了抑郁症检测的准确性。

Description

基于时间卷积神经网络的多模态抑郁症检测方法及系统

技术领域

本发明属于大数据技术领域，具体涉及一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。

背景技术

世界上每年因为抑郁症而自杀的患者有近80万人，与其他身体疾病相比，精神障碍更难发现。早期的临床实践中，医生通过在个人访谈中通过诊断抑郁症状的严重程度来确定患者是否患有抑郁症。后来，科研人员通过对语音信号的时域特征，例如停顿时间、录音时间、对问题的反馈时间、语速等进行定量分析，帮助医生对抑郁症患者进行辅助诊断。但是，人们发现单一的特征对辅助临床诊断的辨识度较低。近年来，随着语音检测技术的深入发展，研究者尝试选取特定的语音特征，例如音高(pitch)、能量(energy)、语速(speaking rate)、共振峰(formant)、梅尔倒谱系数(MFCC)等，将其组合，构建出检测抑郁症的分类模型。文本信息是另外一种与抑郁症相关的及其重要的信息。研究表明，抑郁症患者使用消极情感词和愤怒词明显较正常人多，因此人们通常对词频统计作为文本特征表示。在临床实验中，大部分抑郁症患者会将消极或烦躁的情绪通过面部表情的方式展现出来。因此，研究人员将面部特征也作为一种模态融合至抑郁症检测中。

在现有技术中，通常采用基于生化试剂和基于脑电的检测手段，而在基于语音、文本或图像的技术方案中，多以语音数据为依托，在临床面试过程中，患者可能口吃且经常在单词之间停顿，导致音频、视频记录比非抑郁症患者更长。简言之，现有技术主要存在以下几方面的问题：训练数据量方面，现有的基于语音、文本或图像的多模态抑郁症检测系统大部分由有限抑郁症数据训练得到，因此性能低下；特征提取方面，现有特征提取方法缺少受试者在回答不同问题时的面部表情特征，在抑郁症检测领域表现力不足，限制了最终抑郁症检测系统的性能；抑郁症分类建模方面，现有技术没有考虑语音、文本特征与抑郁症诊断的长时间依赖关系；多模态融合方面，不同模态数据之间的特征分布差异大，现有技术简单地把不同模态或通道下所得的子系统输出串联在一起，由于模态之间的特征差异导致特征融合过程中易出现信息损失，因此性能收到限制；在模型选择方面，传统方法多用基于递归神经网络的抑郁症检测方法，对音频、视频的长度进行了限制。

发明内容

本发明的目的是基于上述技术现状，提供一种基于时间卷积神经网络的多模态抑郁症检测方法及系统。

一种基于时间卷积神经网络的多模态抑郁症检测方法，包括如下步骤：

步骤1：构建训练样本集，所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息；

步骤2：对所述训练样本集的3D面部表情进行面部表情特征提取，获得具备情境感知的3D面部表情特征向量；

步骤3：使用音频信号分帧加窗算法，结合短时傅里叶变换，绘制所述训练样本集的音频信号的语谱图；再使用三角滤波器，结合梅尔倒谱系数(MFCC)，对所述训练样本集的语谱图进行特征增强，获得具备情景感知的语音向量特征；

步骤4：使用Transformer模型，对所述训练样本集的患者测试文本进行句子级嵌入处理，获得具备情景感知的文本特征；

步骤5：使用图卷积神经网络(GCN)，对所述3D面部表情特征向量、所述语音向量特征和所述文本特征进行融合，获得用于进行抑郁症分类的信息；

步骤6：将所述用于进行抑郁症分类的信息带入时间卷积神经网络，获得抑郁症分类信息。

进一步，所述步骤3获得具备情景感知的语音向量特征的具体过程为：

(1)将采集到的音频信号经过预加重滤波、分帧加汉宁窗及分帧补零后，对每帧信号进行傅里叶变换得到频谱，并对语音信号的频谱取模平方得到功率谱；

(2)再将频谱及功率谱的纵坐标频率转换为梅尔频率，应用40个在转换后的梅尔谱上均匀分布且每两个滤波器间有50％重叠部分的三角滤波器，计算转换后的频谱及功率谱在这40个滤波器的梅尔频率分布，随后将梅尔频率通过以下公式转换成实际频率：

(3)对三角窗滤波器组的输出求对数，得到对数能量梅尔谱；

(4)对对数能量梅尔谱进行离散余弦变换(DCT)变换，取前13维输出，得到语音向量特征。

进一步，所述步骤4获得具备情景感知的文本特征的具体过程为：

构建Transformer模型，以词嵌入作为Transformer模型的输入，该Transformer模型包括多个含有自注意力的编码器和解码器以及位于最后一层的softmax层；

利用已有的文本语料，使用无监督训练方法与训练Transformer模型参数，然后采用迁移学习，在采集得到的抑郁症文本数据进行自适应训练；

在训练完成后，将softmax层去除，以Transformer模型的输出作为所述情景感知的文本特征。

进一步，所述步骤5具体包括：

每个患者样本的多模态特征表示为：

其中，

为时序t下的第i种模态的特征，T代表时序总长度，N^m代表模态特征的总数目；

该特征序列的多模态时序图结构表示为A，特征融合网络利用图卷积神经网络，每个特征在第k次迭代表示如下：

其中，D是A的对角矩阵，W^(k+1)是本次迭代过程中可训练的网络参数，

是非线性激活函数；

由上述图卷积神经网络，最终输出模态无关性的融合特征表示为X^K，K代表图卷积总层数。

进一步，所述步骤6具体包括：采用迁移学习机制，调整所述3D面部表情特征、声学通道特征和文本通道特征的权重，带入时间卷积神经网络中，使得最终抑郁症分类预测结果和反馈信息之间的差异最小化；融合所述时间卷积神经网络的输出，获得抑郁症的分类结果。

进一步，所述声学通道特征、所述文本通道特征和所述3D面部表情特征基于TCN网络建立，网络的输入为经特征融合后，声学特征的语音向量、文本特征的文本编码和经3D面部扫描的3D面部表情向量，输出为抑郁症分类标签。

进一步，所述TCN网络包括输入层、带因果卷积(Causal Convolutions)的一维全卷积神经网络层(1-D FCN)、全连接层和输出层。

进一步，采用基于KL散度约束的迁移学习方法引入抑郁症检测公开数据集作为源域进行知识迁移，并构建如下损失函数：

L_KL＝∑[q(X_s)logq(X_s)]p(X_t)logp(X_t)

其中，X_s和X_t分别代表源域和目标域数据样本，

代表由本方法对于源域数据预测得到的概率分布；

使用迁移学习机制，得到带预训练权重的TCN网络模型；

将融合后的时序特征信号X^K作为输入，送入TCN网络中，经全连接层输出获得每个样本不同患病程度的概率分布p(X)。

一种基于时间卷积神经网络的多模态抑郁症检测系统，该系统包括：

训练样本的构建单元：用于构建训练样本集，所述训练样本集包含抑郁症和非抑郁症患者的音频、3D面部表情和对应的文本信息；

面部表情特征提取单元：用于对所述训练样本集进行3D面部表情特征提取，获得具备情境感知的3D面部表情特征向量；

声学特征提取单元：结合梅尔倒谱系数，用于对所述训练样本集的音频信号进行声学特征提取，获得具备情境感知的语音向量特征；

文本特征提取单元：用于利用所述训练样本集，使用Transformer模型对词嵌入进行处理，获得具备情境感知的文本特征；

特征融合单元：用于对所述3D面部表情特征、所述语音向量特征和所述文本特征进行融合，获得用于抑郁症检测分类的训练数据集；

分类预测单元：用于对所述抑郁症检测分类的训练数据集建立识别抑郁症患病程度的检测系统。

与现有技术相比，本发明的有益效果如下：

利用3D面部表情特征扫描的方法，根据医生与患者自由交谈时，获取患者对回答不同问题时面部表情的变化，扩展抑郁症训练数据，并利用该数据进行模型训练。利用数据增强的方法，根据医生与抑郁症患者自由交谈内容中的语音、语调信息，利用梅尔倒谱系数，增强抑郁症声学特征训练数据，获取与抑郁症检测相关的言语信息，包括获取与说话人无关、与抑郁症高度相关、具备情境感知的声学特征，以及获取与抑郁症高度相关、具备情境感知的文本特征。使用模态融合方法，考虑医生与抑郁症患者交谈时的面部表情、语音语调及文本信息三种模态信息进行模态特征融合，以实现全方位特征融合学习。

本发明设计了一个基于多模态融合网络，对样本的多模态特征构建多模态时序图结构进行图卷积神经网络，挖掘不同模态特征在不同时序之间的相互关联，减小不同模态特征之间的差异，使融合后的特征具备模态无关性；引入了时序卷积网络，对具备模态关联信息的多模态融合特征，结合已有的时序信息，输入至时序卷积网络，其主要利用了扩展卷积和1*1卷积，可以提取更丰富的时序信息，由此得到患者的多模态数据的特征表示，输出给分类器进行患者抑郁症诊断；

通常，源领域和目标领域数据分布存在内在偏移，需对迁移模型通过大量调整，才能进行有效的迁移学习。本发明采用基于KL散度的迁移学习训练策略，利用网络公开的数据集作为源域，为本发明所需的目标数据进行知识迁移。首先将源域和目标域数据输入到基于多模态特征融合的时序卷积网络中得到个样本对不同抑郁症级别的预测概率，然后利用KL散度约束将数据预测的概率分布向目标数据的概率分布进行迁移，可使源领域与目标领域最大程度的保持内部一致性，优化迁移学习的性能，提高患者抑郁分级准确性。

附图说明

图1为基于时间卷积神经网络的多模态抑郁症检测方法示意图；

图2为多模态特征融合网络示意图；

图3为基于时间卷积神经网络的融合特征提取过程的示意图。

具体实施方式

下面结合具体实施例对本发明作进一步详细描述。这些实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于以下实施例。

如图1所示为一种基于时间卷积神经网络的多模态抑郁症检测方法示意图，其具体包括如下步骤：

步骤5：如图2所示，使用图卷积神经网络(GCN)，对所述3D面部表情特征向量、所述语音向量特征和所述文本特征进行融合，获得用于进行抑郁症分类的信息；

步骤6：将所述用于进行抑郁症分类的信息带入时间卷积神经网络，时序卷积神经网络结构如图3所示，获得抑郁症分类信息。

在步骤3中，获得具备情景感知的语音向量特征的具体过程为：

(3)对三角窗滤波器组的输出求对数，得到对数能量梅尔谱；

在步骤4中，获得具备情景感知的文本特征的具体过程为：

具体地，步骤5包括：

每个患者样本的多模态特征表示为：

其中，

是非线性激活函数；

具体地，步骤6包括：采用迁移学习机制，调整所述3D面部表情特征、声学通道特征和文本通道特征的权重，带入时间卷积神经网络中，使得最终抑郁症分类预测结果和反馈信息之间的差异最小化；融合所述时间卷积神经网络的输出，获得抑郁症的分类结果。

所述声学通道特征、所述文本通道特征和所述3D面部表情特征基于TCN网络建立，网络的输入为经特征融合后，声学特征的语音向量、文本特征的文本编码和经3D面部扫描的3D面部表情向量，输出为抑郁症分类标签。

所述TCN网络包括输入层、带因果卷积(Causal Convolutions)的一维全卷积神经网络层(1-D FCN)、全连接层和输出层。

本实施例中采用基于KL散度约束的迁移学习方法引入抑郁症检测公开数据集作为源域进行知识迁移，并构建如下损失函数：

L_KL＝∑[q(X_s)logq(X_s)]p(X_t)logp(X_t)

其中，X_s和X_t分别代表源域和目标域数据样本，

代表由本方法对于源域数据预测得到的概率分布；

使用迁移学习机制，得到带预训练权重的TCN网络模型；

本实施例还提供了一种基于时间卷积神经网络的多模态抑郁症检测系统，该系统包括：

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示用于提供参考与说明，并非用来对本发明加以限制。