CN116130089B

CN116130089B - 基于超图神经网络的多模态抑郁症检测系统、装置及介质

Info

Publication number: CN116130089B
Application number: CN202310086005.XA
Authority: CN
Inventors: 李小龙; 曹偲禹; 魏建好; 董莉; 黄华
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2023-02-02
Filing date: 2023-02-02
Publication date: 2024-01-02
Anticipated expiration: 2043-02-02
Also published as: CN116130089A

Abstract

本发明公开的一种基于超图神经网络的多模态抑郁症检测系统、装置及介质，该系统包括：关系特征矩阵获取单元，配置为对文本，视频和音频数据分别使用欧式距离，得到各个模态各自的关系特征矩阵；句子级嵌入特征获取单元，配置为将文本，视频和音频数据和所述各个模态各自的关系特征矩阵分别输入神经网络，得到各个模态的句子级嵌入特征；超边关系矩阵构建单元，配置为根据欧几里得距离选择所述各个模态的句子级嵌入特征的近邻关系，构建超边关系矩阵；网络训练单元，配置为将句子嵌入特征和超边关系矩阵输入超图神经网络中，训练神经网络；预测单元，配置为根据训练好的神经网络实现抑郁症的预测。本发明可以提高抑郁症检测的可解释性和通用性。

Description

基于超图神经网络的多模态抑郁症检测系统、装置及介质

技术领域

本发明属于智能计算机技术领域，尤其涉及一种基于超图神经网络的多模态抑郁症检测系统、装置及介质。

背景技术

抑郁症是现代社会最常见的精神疾病，其主要临床特征是持续的情绪低落、悲伤和对事物不感兴趣。随着人工智能的快速发展，基于深度学习的模型在早期抑郁症检测中显示出巨大的潜力。抑郁症患者的症状反映在他们的语言文本、言语、面部表情和其他人类行为中。根据数据来源，这些深度学习模型可以分为单模态和多模态。

近年来，基于单模态的抑郁症诊断模型通常利用深度学习方法来提取抑郁症的特征。Shen等人提出了一种具有特征自适应变换和组合策略的深度神经网络模型，实现了从Twitter数据到微博数据的域转移。Daros等人利用静态图片中面部外观的面部线索来辨别目标个体的心理健康状况。Huang等人提出了声学语音数据中声学和标志性单词的系统框架。它利用声学标志事件的两个特征来检测抑郁症。针对视频数据上的抑郁症检测问题，Carneiro de Melo等人提出了一种最大化和差异化网络。在网络中，最大化块捕捉平滑的面部变化，而差分块编码突然的面部变化。

与单模态学习相比，多模态学习实现了极大的性能改进，因为实际的人类感知是建立在多模态上的。多模态深度学习模型可以集成来自不同模态的各个方面的信息，以实现良好的分类性能。Mao等人利用音频数据和文本数据来预测抑郁症患者的严重程度。该模型主要利用双向长短记忆网络(Bi-LSTM)和时间分布卷积神经网络(TCNN)来提取两个模态数据的时空特征。基于三模态数据库DAIC-WOZ，包括抑郁症患者的音频、面部关键点的3D视频和文本，Haque等人提出了一种因果卷积神经网络，以将多模态数据汇总到单个嵌入中。Zheng等人构建了一个多模态知识图。在构建的图中，每个个体的单个模态数据表示一个顶点。然后，他们利用具有多模态知识的图形注意力网络来检测抑郁障碍。

发明内容

为解决上述技术问题，本申请的实例提供了一种基于超图神经网络的多模态抑郁症检测系统、装置及介质，以提高抑郁症检测的可解释性和通用性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本发明的第一方面，提供一种基于超图神经网络的多模态抑郁症检测系统，所述系统包括：

关系特征矩阵获取单元，配置为对文本，视频和音频数据分别使用欧式距离，得到各个模态各自的关系特征矩阵；

句子级嵌入特征获取单元，配置为将文本，视频和音频数据和所述各个模态各自的关系特征矩阵分别输入TCN神经网络，以得到各个模态的句子级嵌入特征；

超边关系矩阵构建单元，配置为根据欧几里得距离选择所述各个模态的句子级嵌入特征的近邻关系，构建超边关系矩阵；

网络训练单元，配置为将句子嵌入特征和超边关系矩阵输入超图神经网络中，训练神经网络；

预测单元，配置为根据训练好的神经网络实现抑郁症的预测。

进一步地，所述关系特征矩阵获取单元被进一步配置为分别将文本，音频和视频数据输入进时间卷积网络中，使用欧式距离分别构建G^a,G^v，G^t关系矩阵。

进一步地，所述句子级嵌入特征获取单元被进一步配置为：将文本，视频和音频数据和所述各个模态各自的关系特征矩阵分别输入时间卷积网络中，以得到各个模态的句子级嵌入特征；

所述时间卷积网络包括10层因果卷积网络，每层因果卷积网络有128个隐藏节点，内核大小为5，最后一层是全连接层，其输入特征数为128，输出特征数为2，Dropout设置为0.5，使用Adam优化器进行优化，并使用二进制交叉熵作为损失函数。

进一步地，所述网络训练单元被进一步配置为：

将句子嵌入特征和超边关系矩阵输入超图神经网络中，并通过如下公式进行迭代训练：

其中，X(^l+1)为下一层节点特征表示，σ为激活函数，为节点的度，H为超边关系矩阵，W为权重参数，/>为超边的度，H^T为超边关系矩阵的转置，X(^l)为当前层节点的特征表示，Θ(^l)为可学习的权重参数。

根据本发明的第二方面，提供一种基于超图神经网络的多模态抑郁症检测装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如下步骤：

对文本，视频和音频数据分别使用欧式距离，得到各个模态各自的关系特征矩阵；

将文本，视频和音频数据和所述各个模态各自的关系特征矩阵分别输入TCN神经网络，以得到各个模态的句子级嵌入特征；

根据欧几里得距离选择所述各个模态的句子级嵌入特征的近邻关系，构建超边关系矩阵；

将句子嵌入特征和超边关系矩阵输入超图神经网络中，训练神经网络；

根据训练好的神经网络实现抑郁症的预测。

根据本发明的第三方面，提供一种可读存储介质，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如下步骤：

根据训练好的神经网络实现抑郁症的预测。。

有益效果：

本发明公开的一种基于超图神经网络的多模态抑郁症检测系统，利用时间卷积神经网络学习各个模态的句子嵌入特征，结合总体的特征充分考虑每个抑郁症患者之间细微的相似性，并结合超图神经网络，捕获抑郁症患者间的拓扑结构，使得多模态特征充分融合。在整个检测过程中，充分结合各个部分的特点，与人类的感知密切相关。

附图说明

图1为本发明一种基于超图神经网络的多模态抑郁症检测系统的结构图；

图2为本发明实例中一种基于超图神经网络的多模态抑郁症检测系统的整体运行流程图；

图3为本发明实例中示出的时间卷积网络结构图；

图4为本发明实例中示出的管因果卷积网络结构；

图5为本发明实例中示出的超边构建示意图。

具体实施方式

下面将结合附图和实例对本发明加以详细说明。同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实例仅旨在便于对本发明的理解，而对其不起任何限定作用。

图1为本实例的基于超图神经网络的多模态抑郁症检测系统的结构图；本发明实施例提供一种基于超图神经网络的多模态抑郁症检测系统，该系统100包括：

关系特征矩阵获取单元101，配置为对文本，视频和音频数据分别使用欧式距离，得到各个模态各自的关系特征矩阵。

需要说明的是，文本，视频和音频数据是在抑郁症数据集中所采集到的数据，该类数据可以通过诊断性访谈的视频和音频中采集得到。

句子级嵌入特征获取单元102，配置为将文本，视频和音频数据和所述各个模态各自的关系特征矩阵分别输入TCN神经网络，以得到各个模态的句子级嵌入特征。

超边关系矩阵构建单元103，配置为根据欧几里得距离选择所述各个模态的句子级嵌入特征的近邻关系，构建超边关系矩阵。

网络训练单元104，配置为将句子嵌入特征和超边关系矩阵输入超图神经网络中，训练神经网络。

预测单元105，配置为根据训练好的神经网络实现抑郁症的预测。

需要注意，预测单元105是基于网络训练单元104训练好的神经网络，基于诊断性访谈的视频和音频中获取到相应患者的文本，视频和音频数据，通过训练好的神经网络模型来实现预测。

为了提高抑郁症检测的可解释性和通用性，本发明提出了一种抑郁症检测的多模态超图神经网络框架，即TecHyn。TecHyn可用于抑郁症诊断的多模式数据收集。在该检测系统中，本发明整合了抑郁症数据集的音频、视频和文本数据。利用由正则神经网络和完全连接的神经网络组成的时间卷积网络(TCN)来提取单个模型数据中的时空特征。请注意，诊断性访谈的视频和音频数据序列非常长。直接在这些数据上使用TCN将导致高计算开销和灾难性遗忘。考虑到视频和音频信号的连续性，可以在从分段视频和音频数据中提取的视频特征和音频特征上添加了平均池化层作为TCN的输入，以显著降低其计算复杂性。此外，本发明在TecHyn上提出了一种训练方案，其中超边缘编码每个模态中节点的相似性。本发明通过将具有最接近欧几里德距离的节点链接到超图的超边。据已有的现有技术文献显示，这是将超图神经网络应用于多模态抑郁症检测的首次尝试。

在一个具体的实例中，本发明以充分结合多模态数据为目的，提出一种基于超图神经网络的多模态抑郁症检测系统。该系统的工作原理如下：首先，利用时间卷积神经网络提取各个模态的句子嵌入特征。其次，根据句子嵌入特征的欧式空间关系，构建超边结构。然后将句子嵌入特征和超边结构输入进超图神经网络中，迭代训练。最终得到能够准确预测抑郁症患者的模型。其整体模型框架如图2所示。

具体说来，关系特征矩阵获取单元中，对于整个数据集，分别将文本，音频和视频数据输入进时间卷积网络中。首先对于整个音频数据视频数据和文本数据/>根据抑郁症患者在每句话上细微的相似关系，使用欧式距离分别构建G^a,G^v，G^t关系矩阵。

然后，句子级嵌入特征获取单元将各自的原始特征和关系矩阵分别输入进时间卷积网络中并将其进行初步结合。具体过程如图3所示。其中时间卷积神经网络由10层因果卷积网络，每层128个隐藏节点，内核大小为5，最后一层是全连接层，其输入特征数为128，输出特征数为2。Dropout设置为0.5，使用Adam优化器进行优化，并使用二进制交叉熵作为损失函数。因果卷积结构如图4所示。

超边关系矩阵构建单元在得到句子嵌入特征后根据欧式空间距离构建超边结构，如图5所示。最终网络训练单元结合超边关系矩阵和句子嵌入输入超图神经网络中并进行训练以及预测单元实现最后的抑郁症检测。超图神经网络训练的迭代公式如下：

综上所述，本发明首次结合超图神经网络进行抑郁症的检测。使用超边构建的思想，构建了各个模态的各自的关系矩阵，并结合原始特征一并输入进时间卷积神经网络中训练，在整个检测过程中，充分结合各个部分的特点，与人类的感知密切相关。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于超图神经网络的多模态抑郁症检测系统，其特征在于，所述系统包括：

预测单元，配置为根据训练好的神经网络实现抑郁症的预测；

所述句子级嵌入特征获取单元被进一步配置为：将文本，视频和音频数据和所述各个模态各自的关系特征矩阵分别输入时间卷积网络中，以得到各个模态的句子级嵌入特征；

所述网络训练单元被进一步配置为：

其中，X^(l+1)为下一层节点特征表示，σ为激活函数，为节点的度，H为超边关系矩阵，W为权重参数，/>为超边的度，H^T为超边关系矩阵的转置，X^(l)为当前层节点的特征表示，Θ^(l)为可学习的权重参数。

2.根据权利要求1所述的系统，其特征在于，所述关系特征矩阵获取单元被进一步配置为分别将文本，音频和视频数据输入进时间卷积网络中，使用欧式距离分别构建G^a,G^v，G^t关系矩阵。

3.根据权利要求1所述的系统，其特征在于，

4.一种基于超图神经网络的多模态抑郁症检测装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如下步骤：

将文本，视频和音频数据和所述各个模态各自的关系特征矩阵分别输入时间卷积网络中，以得到各个模态的句子级嵌入特征；

其中，X^(l+1)为下一层节点特征表示，σ为激活函数，为节点的度，H为超边关系矩阵，W为权重参数，/>为超边的度，H^T为超边关系矩阵的转置，X^(l)为当前层节点的特征表示，Θ^(l)为可学习的权重参数；

根据训练好的神经网络实现抑郁症的预测。

5.一种可读存储介质，其特征在于，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如下步骤：

根据训练好的神经网络实现抑郁症的预测。