CN114462554B

CN114462554B - 一种基于多模态宽度学习的潜在抑郁评估系统

Info

Publication number: CN114462554B
Application number: CN202210381225.0A
Authority: CN
Inventors: 蔡明宸
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-07-05
Anticipated expiration: 2042-04-13
Also published as: CN114462554A

Abstract

本发明提供了一种基于多模态宽度学习的潜在抑郁评估系统，包括信号采集模块、预处理模块、编码器、解码器、特征层融合模块和宽度学习系统；信号采集模块用于采集生理信号数据；编码器用于特征提取；解码器用于数据重构；特征层融合模块用于特征向量聚合；宽度学习系统用于进行计算，得出抑郁风险等级的评估结果；在各个解码器与编码器之间通过自编码器重构损失函数进行关联；各个编码器输出通过特征关联性损失函数进行关联。该系统可对个体抑郁风险等级进行评估，提高抑郁症检测与诊断的便捷程度，提升诊断效率；综合采用多模态生理信号数据，通过特征关联性损失函数将不同模态的特征向量进行关联，可全面、客观地对潜在抑郁风险进行评估。

Description

一种基于多模态宽度学习的潜在抑郁评估系统

技术领域

本发明涉及抑郁症诊断技术领域，更具体地说，涉及一种基于多模态宽度学习的潜在抑郁评估系统。

背景技术

抑郁症是一类严重影响患者身心健康以及正常生活的精神类疾病。然而，医疗体系中专业的精神科医生占比低、难以在人群中进行一定规模下的抑郁症患者筛查等原因，不仅会增加人群中潜在抑郁患者的精神压力，甚至会让患者对自身病情一无所知，导致病情的加重。其中，“潜在抑郁患者”的定义为：相对于已经确诊的抑郁症患者而言，指人群中已经患有抑郁症，或是受到外界环境刺激使得抑郁情绪严重导致患有抑郁症，但由于其自身并不知病情等原因而尚未被确诊的个体。

现有技术主要通过对个体录制的音视频进行分析，提取视听信号中能描述个体信息的情感特征，将多段特征聚合为整体进行分析，根据分析结果对抑郁水平进行检测。现有技术方案的不足其一是没有考虑个体的多模态生理信号特征，而是限于对视听信号的分析，特征种类过少，导致对个体特征刻画得不全面，对抑郁水平的检测并不准确，误差较大；其二是没有考虑多模态特征数据之间的内在联系，仅将各段特征进行简单的拼接，而对特征数据的直接拼接导致检测的准确率不高；其三是现有技术或系统的空间复杂度和计算复杂度过高，导致所需计算资源门槛高，不利于推广应用。

发明内容

为克服现有技术中的缺点与不足，本发明的目的在于提供一种基于多模态宽度学习的潜在抑郁评估系统；该系统可对个体抑郁风险等级进行评估，可提高抑郁症检测与诊断的便捷程度，减轻筛查抑郁症患者的工作量，及时反映患者病情，作为医院的有益辅助，提升诊断的效率；综合采用多模态生理信号数据，通过特征关联性损失函数将不同模态的情感特征向量进行关联，可全面、客观地对潜在抑郁风险进行评估；为了衡量单模态数据的重构效果，构造自编码器重构损失函数，保证根据单模态数据提取出的特征向量具有更强的表示性。

为了达到上述目的，本发明通过下述技术方案予以实现：一种基于多模态宽度学习的潜在抑郁评估系统，包括：

信号采集模块，用于采集被试者的生理信号数据，从生理信号数据中独立提取出作为抑郁症评估依据的n个模态数据，将n个模态数据划分为图像信号数据和序列信号数据两个类别；

预处理模块，用于对各个模态数据分别进行预处理；

编码器，用于对预处理后的各个模态数据分别进行特征提取得到单模态情感特征向量；

解码器，用于分别根据各个单模态情感特征向量进行数据重构；

特征层融合模块，用于各个单模态情感特征向量聚合成多模态特征向量层Z；

以及宽度学习系统，用于将多模态特征向量层Z和增强节点层H合并后构成特征层输入A=[Z|H]，对特征层输入A进行计算，得到分类输出，从而得出抑郁风险等级的评估结果；

在各个解码器与编码器之间通过自编码器重构损失函数S _rec进行关联，自编码器重构损失函数S _rec为：

其中，x _i表示第i（i=1,2，...，n）模态数据的真实值；x' _i表示第i个模态数据经过编码器提取特征、之后输入解码器进行特征重构后得到的重构值；E[]表示对所有模态数据真实值与重构值之间的均方误差求期望；

各个编码器输出的单模态情感特征向量通过特征关联性损失函数S _corr进行关联，特征关联性损失函数S _corr为：

其中，x _i、x _j分别表示第i、j（i≠j；i=1,2，...，n；j=1,2，...，n）个模态数据的真实值；f _i、f _j分别表示第i、j个编码器；f _i ^T表示第i个编码器的转置；tr()表示成对内积计算；cov()表示方差无偏估计；

所述自编码器重构损失函数S _rec和特征关联性损失函数S _corr通过多模态特征提取损失函数S _total进行优化求解，所述多模态特征提取损失函数S _total为：

S _total= argmin(αS _corr+βS _rec)

其中，α，β分别为衡量自编码器重构损失函数S _rec和特征关联性损失函数S _corr相对重要程度的权重值；argmin()表示括号中式子达到最小值时自编码器重构损失函数S _rec和特征关联性损失函数S _corr的取值。

优选地，所述编码器包括用于对图像信号数据进行编码的图像信号编码器，以及用于对序列信号数据进行编码的序列信号编码器；

所述图像信号编码器的网络结构包括：若干组依次连接的卷积神经网络层一，以及连接在最后一组卷积神经网络层一之后的扁平化层和全连接层一；

所述序列信号编码器的网络结构包括：若干组依次连接的卷积神经网络层二，以及连接在最后一组卷积神经网络层二之后的长短期记忆网络层、随机失活层和全连接层二。

优选地，所述解码器结构与编码器结构相反。

优选地，各个卷积神经网络层一和卷积神经网络层二均是由依次连接的卷积层、批归一化层和最大池化层组成；

所述卷积层为：

C = σ _c(W ₃ ·(σ _c(W ₂ ·(σ _c(W ₁ ·xc+b ₁))+ b ₂))+ b ₃)

其中，xc表示卷积层的输入向量；W ₁、W ₂、W ₃分别表示卷积层中第1、2、3个卷积核值；b ₁、b ₂、b ₃分别表示卷积层中第1、2、3个偏置值，σ _c表示激活函数，C表示输出向量；

所述批归一化层为：

其中，q表示批归一化层输入向量的总数，C _k表示第k(k=0,1,2,...,q)个输入向量，μ _β表示输入向量的平均值，δ _β ²表示输入向量的方差，C' _k表示第k个经过归一化后的向量，ε表示无穷小量。

优选地，所述序列信号编码器中，长短期记忆网络层为：

I _t= σ(W _rI xm _t + b _rI + W _hI h _t-1 +b _hI)

F _t= σ(W _rF xm _t + b _rF + W _hF h _t-1 +b _hF)

o _t= σ(W _ro xm _t + b _ro + W _ho h _t-1 +b _ho)

g _t= tanh(W _rg xm _t + b _rg + W _hg h _t-1 +b _hg)

c _t= F _t *c _{t -1} + I _t * g _t

h _t= o _t * tanh(c _t)

其中，I _t表示输入门；F _t表示遗忘门；o _t表示输出门；g _t表示当前时刻输入的单元状态；xm _t表示长短期记忆网络层的输入向量；h _t表示当前时刻长短期记忆网络层输出值；h _t-1表示上一时刻的长短期记忆网络层输出值；c _t表示当前时刻的单元状态；c _t-1表示上一时刻的单元状态；W _rI 、W _hI 、W _rF 、W _hF 、W _ro 、W _ho 、W _rg 、W _hg分别表示权重矩阵；b _rI 、b _hI 、b _rF 、b _hF 、b _ro 、b _ho 、 b _rg 、b _hg分别表示偏置量；σ表示激活函数。

优选地，所述宽度学习系统中，得到分类输出的方法是：

O = W _BLS ·A

其中，O为分类输出结果；W _BLS为已训练完毕的权重矩阵。

优选地，所述权重矩阵W _BLS的求解过程如下：

在初始训练时，A _train表示训练数据的特征层输入，且训练数据的真实分类结果矩阵O _train已知，则计算权重矩阵的方法为：

W _BLS=A _train ^-1 ·O _train

运用岭回归进行权重矩阵的优化计算：

其中，λ表示对权重矩阵W _BLS的约束系数；argmin _WBLS表示冒号后的式子取最小值时，对应权重矩阵W _BLS的取值；

求解得：

W _BLS=(λI +A _train ·A _train ^T)^-1 A _train ^T ·O _train

其中，A _train ^T表示特征层输入矩阵A _train的转置矩阵；I表示单位矩阵；

当λ趋近于0时，求解权重矩阵W _BLS的问题则转换为普通的求解最小二乘法问题，则：

。

优选地，所述图像信号数据包括面部表情数据和手势变化数据中的任一种或两种；序列信号数据包括语音数据和心率数据中的任一种或两种。

与现有技术相比，本发明具有如下优点与有益效果：

1、本发明综合采用多模态生理信号数据，不限于仅对视听信号进行分析；同时还考虑了各模态特征向量之间的内在联系，通过特征关联性损失函数将不同模态的特征向量进行关联，相较于现有技术，能更加全面、客观地对潜在抑郁风险进行评估；

2、本发明将深度学习与宽度学习进行良好结合，不仅能够利用深度表征模型模型到具有可解释性、可重构的共性情感特征空间；也能够在横向特征空间中利用宽度学习系统，融合高维情感语义特征，并提高潜在抑郁评估的效率，利于推广应用；

3、本发明可对个体抑郁风险等级进行评估，可提高抑郁症检测与诊断的便捷程度，减轻筛查抑郁症患者的工作量，及时反映患者病情，作为医院的有益辅助，提升诊断的效率。

附图说明

图1是本发明基于多模态宽度学习的潜在抑郁评估系统的结构示意图；

图2是本发明基于多模态宽度学习的潜在抑郁评估系统的工作流程图；

图3是本发明基于多模态宽度学习的潜在抑郁评估系统中的图像信号编码器的结构示意图；

图4是本发明基于多模态宽度学习的潜在抑郁评估系统中的序列信号编码器的结构示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细的描述。

实施例

本实施例一种基于多模态宽度学习的潜在抑郁评估系统，其结构如图1所示，工作流程如图2所示；系统包括：

预处理模块，用于对各个模态数据分别进行预处理；

以及宽度学习系统，用于将多模态特征向量层Z和增强节点层H合并后构成特征层输入A=[Z|H]，对特征层输入A进行计算，得到分类输出，从而得出抑郁风险等级的评估结果。

具体地说，图像信号数据包括面部表情数据和手势变化数据中的任一种或两种；序列信号数据包括语音数据和心率数据中的任一种或两种。例如，通过对被试者录制视频采集到被试者的生理信号数据；提取面部表情视频文件及语音音频文件，并进行预处理，得到图像信号数据和序列信号数据。

编码器包括用于对图像信号数据进行编码的图像信号编码器，以及用于对序列信号数据进行编码的序列信号编码器。

如图3所示，图像信号编码器的网络结构包括：若干组依次连接的卷积神经网络层一，以及连接在最后一组卷积神经网络层一之后的扁平化层和全连接层一。卷积神经网络层一是由依次连接的卷积层、批归一化层和最大池化层组成。

例如，图像信号编码器包括4个3×3的卷积神经网络层一和1个具有256个线性整流函数单元的全连接层一。每个卷积神经网络层一的结构为：32、64、64个卷积核构成卷积层，1个批归一化层和1个2×2的最大池化层。最后一个卷积神经网络层一的输出被扁平化后，输入至全连接层一。全连接层一输出的数据即为图像信号数据的情感特征。

卷积层为：

批归一化层为：

其中，q表示批归一化层输入向量的总数，C _k表示第k(k=0,1,2,...,q)个输入向量，μ _β表示输入向量的平均值，δ _β ²表示输入向量的方差，C' _k表示第k个经过归一化后的向量，ε表示无穷小量以避免分母为零。批归一化可以有效缓解梯度消失地问题，使网络学习变得更加稳定。

激活函数可使用线性整流函数单元：

RELU（R）=max（0，R）；

其中，R表示激活函数的输入向量。

如图4所示，序列信号编码器的网络结构包括：若干组依次连接的卷积神经网络层二，以及连接在最后一组卷积神经网络层二之后的长短期记忆网络层、随机失活层和全连接层二。卷积神经网络层二结构是由依次连接的卷积层、批归一化层和最大池化层组成。

例如，序列信号编码器包括3个卷积神经网络层二、1个具有256个单元的长短期记忆网络层和1个具有512个线性整流函数单元的全连接层二。每个卷积神经网络层二的结构为：64、128、256个卷积核构成卷积层，1个批归一化层和1个最大池化层。三层卷积核的大小分别为8、6、6，相应的最大池化大小分别设置为10、5、3。在长短期记忆网络层之后，增加随机失活层防止过拟合现象的产生；本发明中设置随机失活的概率为0.4。全连接层二输出即为序列信号数据的情感特征。

长短期记忆网络层为：

I _t= σ(W _rI xm _t + b _rI + W _hI h _t-1 +b _hI)

F _t= σ(W _rF xm _t + b _rF + W _hF h _t-1 +b _hF)

o _t= σ(W _ro xm _t + b _ro + W _ho h _t-1 +b _ho)

g _t= tanh(W _rg xm _t + b _rg + W _hg h _t-1 +b _hg)

c _t= F _t *c _{t -1} + I _t * g _t

h _t= o _t * tanh(c _t)

其中，I _t表示输入门；F _t表示遗忘门；o _t表示输出门；g _t表示当前时刻输入的单元状态；xm _t表示长短期记忆网络层的输入向量；h _t表示当前时刻长短期记忆网络层输出值；h _t-1表示上一时刻的长短期记忆网络层输出值；c _t表示当前时刻的单元状态；c _t-1表示上一时刻的单元状态；W _rI 、W _hI 、W _rF 、W _hF 、W _ro 、W _ho 、W _rg 、W _hg分别表示权重矩阵；b _rI 、b _hI 、b _rF 、b _hF 、b _ro 、b _ho 、 b _rg 、b _hg分别表示偏置量；σ表示激活函数。长短期记忆网络层中有3个门控开关函数，其中I _t是输入门，决定了当前时刻网络的输入特征xm _t到单元状态c _t的保存量；F _t是遗忘门，决定了上一时刻的单元状态c _t-1到当前时刻单元状态c _t中的保留量；o _t是输出门，控制当前时刻单元状态c _t到长短期记忆网络的当前输出值h _t的输出量。

解码器结构与编码器结构相反，但所有网络层次相同。唯一不同的地方是卷积神经网络层中，最大池化层更改为上采样层，层大小保持不变。

为了保证提取出的高维语义空间特征在维度较多时能稳定地进行特征层融合，且保证提取出的不同模态的特征之间存在较强的关联性，本发明对不同模态间的数据特征进行衡量，构造特征关联性损失函数S _corr，学习不同模态数据的高度非线性特征之间的关联性。

具体地说，各个编码器输出的单模态情感特征向量通过特征关联性损失函数S _corr进行关联，特征关联性损失函数S _corr为：

其中，x _i、x _j分别表示第i、j（i≠j；i=1,2，...，n；j=1,2，...，n）个模态数据的真实值；f _i、f _j分别表示第i、j个编码器；f _i ^T表示第i个编码器的转置；tr()表示成对内积计算；cov()表示方差无偏估计。

由于仅考虑不同模态间特征的关联性，而忽略单一模态特征本身蕴含的信息，将对最终评估的准确率产生影响，且为了保证根据单一模态数据提取出的特征具有较强的可靠性，本发明对单一模态数据的重构效果进行衡量。

具体地说，在各个解码器与编码器之间通过自编码器重构损失函数S _rec进行关联，自编码器重构损失函数S _rec为：

其中，x _i表示第i（i=1,2，...，n）模态数据的真实值；x' _i表示第i个模态数据经过编码器提取特征、之后输入解码器进行特征重构后得到的重构值；E[]表示对所有模态数据真实值与重构值之间的均方误差求期望。

S _total= argmin(αS _corr+βS _rec)

宽度学习系统中，得到分类输出的方法是：

O = W _BLS ·A

其中，O为分类输出结果；W _BLS为已训练完毕的权重矩阵。

权重矩阵W _BLS的求解过程如下：

W _BLS=A _train ^-1 ·O _train

运用岭回归进行权重矩阵的优化计算：

求解得：

W _BLS=(λI +A _train ·A _train ^T)^-1 A _train ^T ·O _train

本发明设计并提出一种潜在抑郁评估系统，并创新地提出多模态宽度学习算法，通过对多模态生理信号中个体的多种生理信号规律分别进行分析，再将所有特征向量进行特征层融合后，使用宽度学习系统对个体抑郁风险等级进行评估，可提高抑郁症检测与诊断的便捷程度，减轻筛查抑郁症患者的工作量，及时反映患者病情，提升诊断的效率。

下面以一个具体例子进行说明。

首先，信号采集模块采集被试者的生理信号数据：

提供给被试者一段带有情感的文本，被试者根据文本中描述的情景进行反应和互动，将这一过程录制下来作为原始视频；

从原始视频中独立提取出语音音频文件及面部表情视频文件；对所属音视频文件进行数据预处理：将视频分成1秒时长的片段，通过裁剪等方式调整每个片段关键帧的尺寸；将音频分割成1秒时长的音段，调整每个音段的频率；

将原始视频归类成图像信号数据与序列信号数据，此处图像信号数据为每一秒钟的关键帧，以png文件格式保存；序列信号数据为每一秒钟的音频，以wav文件格式保存；将面部表情关键帧通过重新调整尺寸的方式，调整至视觉模块设置的输入尺寸大小；将语音音频根据音频的频率编码成one-hot向量；图像信号数据与序列信号数据均预处理完毕。

然后，图像信号数据输入到图像信号编码器，序列信号数据输入到序列信号编码器进行特征提取得到单模态情感特征向量；之后通过解码器进行数据重构。

之后，对单一模态数据重构效果的衡量，构造自编码器重构损失函数S _rec；将面部表情情感特征与语音情感特征进行特征层融合，并构造特征关联性损失函数S _corr ；根据上述两个损失函数构造多模态特征提取损失函数S _total，并进行优化求解，得到目标函数的最小损失值。

将从图像信号编码器和序列信号编码器中得到的单模态情感特征向量聚合成多模态特征向量层Z =[Z ₁| Z ₂]，同时随机初始化生成增强节点层H，二者合并后构成特征层输入A=[Z|H]。在横向特征空间中利用宽度学习系统对特征层输入A进行计算，得到分类输出，从而得出抑郁风险等级的评估结果。

从高到底共设置5个抑郁风险等级：等级

为正常、等级

为存在轻度抑郁情绪、等级

为抑郁情绪明显、等级

为具有重度抑郁情绪、等级

为抑郁情绪严重；将输出至系统用户可视化界面上。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于多模态宽度学习的潜在抑郁评估系统，其特征在于：包括：

预处理模块，用于对各个模态数据分别进行预处理；

S _total= argmin(αS _corr+βS _rec)

2.根据权利要求1所述的基于多模态宽度学习的潜在抑郁评估系统，其特征在于：所述编码器包括用于对图像信号数据进行编码的图像信号编码器，以及用于对序列信号数据进行编码的序列信号编码器；

3.根据权利要求2所述的基于多模态宽度学习的潜在抑郁评估系统，其特征在于：所述解码器结构与编码器结构相反。

4.根据权利要求2所述的基于多模态宽度学习的潜在抑郁评估系统，其特征在于：各个卷积神经网络层一和卷积神经网络层二均是由依次连接的卷积层、批归一化层和最大池化层组成；

所述卷积层为：

所述批归一化层为：

5.根据权利要求2所述的基于多模态宽度学习的潜在抑郁评估系统，其特征在于：所述序列信号编码器中，长短期记忆网络层为：

I _t= σ(W _rI xm _t + b _rI + W _hI h _t-1 +b _hI)

F _t= σ(W _rF xm _t + b _rF + W _hF h _t-1 +b _hF)

o _t= σ(W _ro xm _t + b _ro + W _ho h _t-1 +b _ho)

g _t= tanh(W _rg xm _t + b _rg + W _hg h _t-1 +b _hg)

c _t= F _t *c _{t -1} + I _t * g _t

h _t= o _t * tanh(c _t)

其中，I _t表示输入门；F _t表示遗忘门；o _t表示输出门；g _t表示当前时刻输入的单元状态；xm _t表示长短期记忆网络层的输入向量；h _t表示当前时刻长短期记忆网络层输出值；h _t-1表示上一时刻的长短期记忆网络层输出值；c _t表示当前时刻的单元状态；c _t-1表示上一时刻的单元状态；W _rI 、W _hI 、W _rF 、W _hF 、W _ro 、W _ho 、W _rg 、W _hg分别表示权重矩阵；b _rI 、b _hI 、b _rF 、b _hF 、b _ro 、b _ho 、b _rg 、b _hg分别表示偏置量；σ表示激活函数。

6.根据权利要求1所述的基于多模态宽度学习的潜在抑郁评估系统，其特征在于：所述宽度学习系统中，得到分类输出的方法是：

O = W _BLS ·A

其中，O为分类输出结果；W _BLS为已训练完毕的权重矩阵。

7.根据权利要求6所述的基于多模态宽度学习的潜在抑郁评估系统，其特征在于：所述权重矩阵W _BLS的求解过程如下：

W _BLS=A _train ^-1 ·O _train

运用岭回归进行权重矩阵的优化计算：

求解得：

W _BLS=(λI +A _train ·A _train ^T)^-1 A _train ^T ·O _train

。

8.根据权利要求1所述的基于多模态宽度学习的潜在抑郁评估系统，其特征在于：所述图像信号数据包括面部表情数据和手势变化数据中的任一种或两种；序列信号数据包括语音数据和心率数据中的任一种或两种。