CN116467672A

CN116467672A - 基于脑电-语音双模态决策融合的抑郁症识别系统

Info

Publication number: CN116467672A
Application number: CN202310319507.2A
Authority: CN
Inventors: 陈万忠; 龚琳琳
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-21

Abstract

一种基于脑电‑语音双模态决策融合的抑郁症识别方法，属于数字信号处理技术领域。本发明的目的是采用胶囊图神经网络和Transformer网络结合的D‑S证据理论决策融合策略，旨在于提高检测设备对抑郁症人群识别分类客观性和精准性的基于脑电‑语音双模态决策融合的抑郁症识别系统。本发明的步骤是：采集脑电及语音信号、数据预处理、脑电及语音的特征提取、构建及训练胶囊图神经网络和Transformer网络、测试集的抑郁症分类识别。本发明克服仅依据单一模态导致的个体差异影响大、抑郁症分类辨识度低的问题，有效挖掘和融合了脑电及语音信息中包含的抑郁因素，提高了抑郁症分类识别准确率。

Description

基于脑电-语音双模态决策融合的抑郁症识别系统

技术领域

本发明属于数字信号处理技术领域。

背景技术

抑郁症是一种常见的精神障碍类疾病，表现为持续沮丧和失去兴趣等，极大地影响了患者的生命健康甚至是生命安全。目前，最为普遍的抑郁症临床诊断方法是专业医生通过抑郁量表（如汉密顿抑郁量表HAMD）问诊评估。然而，这样的诊断方法首先需要医生接受过专业且良好的培训，其次，得到的评估结果也带有一定的主观性，可能导致漏诊或误诊。因此，为了能够及时干预和有效防治抑郁症症状，采取客观可靠的抑郁症诊断技术尤为重要。

近年来，许多研究人员致力于研发客观的抑郁症辅助检测技术。个体的脑电信号及语音信号被认为是评估抑郁症的可靠依据。已有研究表明，一些抑郁症患者的不同大脑皮层区域以及不同节律的脑电活动发生了变化，且脑网络在空间结构和半球对称性方面存在异常。此外，有学者根据抑郁症患者表达意愿降低、沟通时语速慢、语调单调及内容单一等综合表现，研究了语音中潜在的抑郁因素。由此，现有方法常通过分析脑电或者语音信息，构建机器学习或深度学习模型以实现对抑郁症的分类识别。然而，由于对抑郁症的神经机理仍不清晰，以及不同患者在脑电活动及语音变化上的表现并不统一，使用单一模态得到的抑郁症识别结果可能会因受到个体差异的影响而不精准。因此，如何利用现有可采集的、多模态的可靠信息，实现更为精准的、泛化性能更高的设备对抑郁症识别是目前需要重点考虑的问题。

发明内容

本发明的目的是采用胶囊图神经网络和Transformer网络结合的D-S证据理论决策融合策略，旨在于提高检测设备对抑郁症人群识别分类客观性和精准性的基于脑电-语音双模态决策融合的抑郁症识别系统。

构建及训练胶囊图神经网络和Transformer网络：

S1、对于脑电特征，采用胶囊图神经网络处理，其包括：图结构输入、图卷积层、初始胶囊生成层、注意力机制、图胶囊生成层、分类胶囊生成层、脑电mass函数输出：

a、图结构输入：功率谱熵特征被构造为图结构/>，其中/>为由N个脑电导联组成的节点集，/>为邻接矩阵，/>为节点特征；各节点间的特征相关系数得到皮尔逊相关矩阵：

（1）

其中，表示/>中第/>和第/>个节点特征/>的相关系数；

比较和阈值/>的大小，将相关矩阵转换为由元素0和1构成的邻接矩阵/>，即

（2）

b、图卷积层：根据图结构输入，采用层图卷积层学习更高质量的节点嵌入，每层图卷积层公式为

（3）

其中，表示第/>层图卷积层第/>个节点的节点特征，并有/>，；/>表示第/>层图卷积层中第/>个节点到第/>层中第/>个节点的特征变换权重，构成矩阵/>；

表示激活函数，具体为/>函数，以增强特征的非线性表达能力，其公式为

（4）；

c、初始胶囊生成层：重组及堆叠每层图卷积层的输出生成初级胶囊；将每层图卷积层的输出/>重组为/>的三维矩阵，其中/>表示节点个数，/>表示为各节点建立的胶囊个数，/>表示每个胶囊的维数，且/>；沿着/>维度堆叠各三维矩阵，得到初级胶囊/>，其中/>；初级胶囊/>可以看作是由/>组节点胶囊组成，每组节点胶囊为/>，其中/>表示第/>个节点的第/>个胶囊，/>；

d、注意力机制：对各组节点胶囊进行重新校准，过程如下：

（5）

其中，是由/>平铺获得的，即/>，/>表示全连接层，其输入神经元数目为/>，输出神经元数目为/>，每个胶囊的注意力系数由全连接层输出/>的归一化值获得，使用此注意力系数来重新校准各组节点胶囊，得到/>；

e、图胶囊生成层：将注意力校准后的初级胶囊经过动态路由过程（循环/>次）生成图胶囊/>，其中/>表示图胶囊的个数，/>表示各个图胶囊的维数；

f、分类胶囊生成层：将图胶囊经过动态路由过程（循环/>次）生成分类胶囊；其中/>表示分类胶囊的个数，/>表示各个分类胶囊的维数；

g、脑电mass函数输出：计算分类胶囊中每个胶囊的模长，对应每种类别的识别概率；模型根据输入特征判别其为每一类的概率，得到/>和/>，进一步得到脑电基本概率分配mass函数/>，即

（6）

S2、对于语音特征，采用Transformer网络处理，其包括：Fbank特征输入、轻量级多头自注意模块、多层感知机前馈模块、分类层、语音mass函数输出：

a、Fbank特征输入：将Fbank特征作为Transformer网络的输入，/>；

b、轻量级多头自注意模块：输入特征首先经过批归一化BN操作，得到/>，注意力头的数量设置为/>，将/>划分为/>组：查询矩阵/>、键矩阵/>、值矩阵/>，即每组/>的矩阵大小均变换为/>，采用平均池化操作对/>和/>的维度进行减维，因此，每组/>和的维度变为/>，其中s为步长，分别用/>和/>表示，将每组的/>和/>经过乘积缩放、柔性最大值计算、dropout策略得到每个头的注意力系数矩阵，将此系数矩阵与/>进行乘积，得到经过每个注意力头的输出：

（7）

其中；接着，将所有头的注意力输出/>拼接，用符号||表示，并馈入线性层；最后进行残差操作：

（8）；

c、多层感知机前馈模块：模块的输入为；模块由两层二维卷积层构成，其输入端首先经过批归一化BN操作，在两层二维卷积层间使用/>激活函数：

（9）

（10）

（11）

（12）

其中，表示第一层卷积层的偏差，/>表示第一层卷积层的可学习权重矩阵，/>和/>分别表示/>的维数大小，/>表示输出通道数，/>表示第二层卷积层的偏差，/>表示第二层卷积层的可学习权重矩阵，/>和/>分别表示/>的维数大小，/>表示输出通道数；最后对输出/>进行残差操作，即

（13）

继续重复过程b和c，以作为过程b的输入，直到共进行/>次后完成计算；

d、分类层：由一层全连接层和softmax层构成，分类器的输出分别表示为和/>；

e、语音mass函数输出：分类器输出/>和/>组成语音mass函数/>，具体为

（14）

S3、D-S证据理论决策层融合：

设定分类全域为，根据步骤S1和步骤S2分别得到脑电特征和语音特征两种证据的基本概率分配mass函数/>和/>，计算全域的概率分配/>，其中每种状态概率分配为：

（15）

（16）

其中，为证据之间的冲突系数，/>；最后，比较/>和，将最大概率的假设判定为真，并且此最大概率对应的状态设置为最终的决策结果；

S4、模型的整体损失函数：

在模型的训练过程中，使用三种损失函数更新模型中的参数，即边际损失、交叉熵损失/>、分类损失/>；

基于胶囊图神经网络的边际损失：

（17）

其中，当预测结果为类时 />，否则/>，/>表示第/>个分类胶囊的模长，/>表示边际系数；

基于Transformer网络的交叉熵损失：

（18）

其中，表示分类标签，当预测结果为真时/>，否则/>；/>表示预测为真的概率；

D-S决策融合的分类损失：

（19）

其中，为预测类别，/>为真实类别；

模型的训练目标是使损失函数最小化，即

（20）

其中，和/>为比例系数，/>为训练更新后模型的最优参数集合。

发明克服了仅依据单一模态导致的个体差异影响大、抑郁症分类辨识度低的问题，有效融合了脑电和语音双模态信息，采用容错性和抗干扰性更好的D-S证据理论决策融合算法，减少了个体差异对抑郁症识别的影响，实现了更加精准的抑郁症识别方法。此外，本发明采用了胶囊图神经网络，考虑了脑电信号中常被忽略的空间信息，以胶囊（向量）形式学习到更优的图嵌入；设计了Transformer网络，以更轻量级的架构关注了语音的时间全局上下文语义联系，两个模型的有效结合丰富了现有关于脑电信号和语音信号的分析算法。

附图说明

图1为本发明的整体流程框图；

图2为本发明的胶囊图神经网络分层图；

图3为本发明的Transformer网络分层图；

图4为本发明的Transformer网络中的轻量级多头自注意模块；

图5为本发明的Transformer网络中的多层感知机前馈模块。

具体实施方式

以下结合附图对本发明做详细的描述构建过程：

步骤1：采集在特定实验任务下的脑电及语音信号；

受试者（抑郁症患者或正常受试者）参与两项实验任务并采集信号：1）在闭眼静息任务下采集脑电信号；2）在专家访谈、材料朗读及描述任务下录制语音信号。

受试者处于安静、光线和温度适宜、无复杂电磁干扰的实验环境中，以较为舒适的坐姿开始实验。采集脑电信号的过程为：待受试者处于平稳放松的状态后，使用脑电采集帽采集受试者的5分钟闭眼静息态脑电信号；采集语音信号的过程为：使用麦克风录制受试者的语音信号，记录内容包括专家访谈回复、短文朗读和图片描述的语音。

步骤2：数据预处理；

对于脑电信号：对脑电信号进行1000Hz采样，并降采样到250Hz。选用1-80Hz的数字带通滤波器，并使用50Hz陷波滤波器去除工频干扰。使用ICA方法去除眼电伪迹，并手动去除由无效电极引起或被其他任务无关的信号明显干扰的部分。

对于语音信号：对语音信号进行44.1kHz采样，使用预加重（预加重系数为0.98）补偿语音信号中的高频损失。将语音信号进行25ms分帧，帧位移为10ms。采用汉明窗作用于每帧信号以减少频谱泄漏。采用端点检测去除语音信号中的静音片段。

数据预处理是对于原始脑电信号，分别采取降采样、带通滤波、50Hz工频干扰陷波滤除、ICA去除伪迹操作；对于原始语音信号，分别采取采样、预加重、分帧、加窗、端点检测操作。

步骤3：脑电及语音信号的特征提取；

脑电及语音的特征提取是对于预处理后的脑电信号，提取每1秒时间切片在六种脑电节律上的功率谱熵特征，构建脑电特征集；对于预处理后的语音信号，提取每9秒时间切片的Fbank特征，构建语音特征集。

对于脑电信号：提取每1秒时间切片脑电信号在delta (1-3Hz)，theta (4-8Hz)，alpha (8-13Hz)，beta (13-30Hz)，低gamma (30-50Hz)，高gamma (50-80Hz)节律上的功率谱熵特征，其中N表示脑电采集导联数，/>表示脑电节律数。

对于语音信号：提取每9秒时间切片语音信号的Fbank特征，其中M表示梅尔滤波器的个数，T表示时间切片的分帧数。

首先，根据各节律频带范围采用带通滤波器进行滤波，以1秒为时间窗对脑电信号进行快速傅里叶变换，计算公式为：

（21）

其中，表示滤波后的每一秒脑电信号，其由E个点构成，/>为快速傅里叶变换后的脑电频域信号。

接下来，功率谱可以计算得到

（22）。

最后，计算每1秒信号在各节律频带上的功率谱熵特征，计算公式为

（23）。

由此，脑电特征为每1秒时间切片的功率谱熵特征，其中N表示脑电采集导联数，/>表示脑电节律数。

对于语音信号：提取每9秒时间切片语音信号的Fbank特征。首先，对时间切片内的每帧信号进行快速傅里叶变换，即

（24）

其中，表示预处理后的每帧语音信号，由S个点构成，/>为快速傅里叶变换后的语音频域信号。

接下来，将线性频谱映射到基于听觉感知的梅尔非线性频谱中，并转换到倒谱上。频率与梅尔频率的相互转换公式分别为

（25）

其中，m表示语音信号的梅尔频率，单位为Mels，表示语音信号的频率，单位为Hz。

最后，选取M个梅尔尺度三角形滤波器（梅尔滤波器组），作用于每帧语音信号的频域能量并进行对数运算，得到的对数频谱即为Fbank特征，其计算式为

（26）

其中，表示梅尔滤波器组的第m个传递函数，其表达式为

（27）。

由此，语音特征为每9秒时间切片的Fbank特征，其中M表示梅尔滤波器的个数，T表示时间切片的分帧数。

步骤4：构建及训练胶囊图神经网络和Transformer网络：首先，对于步骤3获得的脑电特征集和语音特征集，分别将两种特征集平均划分10份，依次取其中1份作为测试集，其余9份为训练集，进行十折交叉验证。其次，构建以胶囊图神经网络和Transformer网络结合的混合模型，并使用训练集作为混合模型的输入。其中，以脑电特征的训练集作为胶囊图神经网络的输入，以语音特征的训练集作为Transformer网络的输入。训练开始时，设置模型中所需的超参数，并随机配置胶囊图神经网络和Transformer中的权重及偏差参数的初始值。每一次迭代训练后，胶囊图神经网络输出对脑电特征的抑郁症识别结果，并组成脑电mass函数M₁，Transformer网络输出对语音特征的抑郁症识别结果，并组成语音mass函数M₂，使用D-S决策融合算法根据M₁和M₂做出最终的抑郁症分类决策。混合模型的损失函数包括：边际损失，交叉熵损失，分类损失。在模型的训练过程中，使用Adam优化器用于优化模型，混合模型中的权重及偏差参数不断迭代更新，直至整体损失函数收敛，能够输出理想的抑郁症识别结果。

模型训练策略采用十折交叉验证，即分别将脑电功率谱熵特征和Fbank特征平均划分为10份，依次选择脑电特征中和语音特征中的1份组成测试集，其余9份组成训练集。在模型的十次训练过程中，所有超参数保持一致。

步骤4.1：对于脑电特征，采用胶囊图神经网络处理，其包括：图结构输入、图卷积层、初始胶囊生成层、注意力机制、图胶囊生成层、分类胶囊生成层、脑电mass函数M₁输出。

a、图结构输入：功率谱熵特征被构造为图结构/>，其中/>为由N个脑电导联组成的节点集，/>为邻接矩阵，/>为节点特征。首先，计算各节点间的相关系数值得到皮尔逊相关矩阵，各元素计算公式为

（1）

其中，表示/>中第/>和第/>个节点特征/>的相关系数。

（2）。

（3）

其中，表示第/>层图卷积层第/>个节点的节点特征，并有/>，；/>表示第/>层图卷积层中第/>个节点到第/>层中第/>个节点的特征变换权重，构成矩阵/>。

（4）。

c、初始胶囊生成层：重组及堆叠每层图卷积层的输出生成初级胶囊；具体地，将每层图卷积层的输出/>重组为/>的三维矩阵，其中/>表示节点个数，/>表示为各节点建立的胶囊个数，/>表示每个胶囊的维数，且/>；沿着/>维度堆叠各三维矩阵，得到初级胶囊/>，其中/>；初级胶囊/>可以看作是由/>组节点胶囊组成，每组节点胶囊为/>，其中/>表示第/>个节点的第/>个胶囊，/>。

d、注意力机制：用于对各组节点胶囊进行重新校准。其计算过程如下：

（5）

其中，是由/>平铺获得的，即/>，/>表示全连接层，其输入神经元数目为/>，输出神经元数目为/>，每个胶囊的注意力系数由全连接层输出/>的归一化值获得，进一步地，使用此注意力系数来重新校准各组节点胶囊，得到/>。

e、图胶囊生成层：将注意力校准后的初级胶囊经过动态路由过程（循环/>次）生成图胶囊/>，其中/>表示图胶囊的个数，/>表示各个图胶囊的维数。

f、分类胶囊生成层：将图胶囊经过动态路由过程（循环/>次）生成分类胶囊；其中/>表示分类胶囊的个数，/>表示各个分类胶囊的维数。

g、脑电mass函数输出：计算分类胶囊中每个胶囊的模长（2-范数），对应不同类别的识别概率；分类任务为两类（K=2）：正常受试者（标签为0），抑郁症患者（标签为1）。模型根据输入特征判别其为每一类的概率，得到/>和/>，进一步得到脑电基本概率分配mass函数/>，即

（6）。

步骤4.2：对于语音特征，采用Transformer网络处理，其包括：Fbank特征输入、轻量级多头自注意模块、多层感知机前馈模块、分类层、语音mass函数输出。

a、Fbank特征输入：将Fbank特征作为Transformer网络的输入，/>。

b、轻量级多头自注意模块：输入特征首先经过批归一化（BN）操作，得到/>。注意力头的数量设置为/>。将/>划分为/>组矩阵，每组表示为 />(查询矩阵)、/> (键矩阵)、/>(值矩阵)，且/>，即每组/>的向量大小均变换为/>。为了节省计算资源，采用平均池化（步长为s）操作对/>和/>的维度进行减维，因此，每组/>和/>的维度变为，分别以/>和/>表示。接下来，将每组的/>和/>经过乘积缩放、柔性最大值计算、dropout策略得到每个头的注意力系数矩阵，将此系数矩阵与/>进行乘积，得到经过每个注意力头的输出，计算公式表示为：

（7）

其中。

接着，将所有头的注意力输出拼接，用符号||表示，并馈入线性层；最后进行残差操作：

（8）。

c、多层感知机前馈模块：模块的输入为；模块由两层二维卷积层构成，其输入端首先经过批归一化（BN）操作，在两层二维卷积层间使用/>激活函数，此过程的计算公式为：

（9）

（10）

（11）

（12）

其中，表示第一层卷积层的偏差，/>表示第一层卷积层的可学习权重矩阵，/>和/>分别表示的/>维数大小，/>表示输出通道数，/>表示第二层卷积层的偏差，/>表示第二层卷积层的可学习权重矩阵，/>和/>分别表示/>的维数大小，/>表示输出通道数。

最后对输出进行残差操作，即

（13）。

接下来，继续重复过程b和c，以作为过程b的输入，直到共进行/>次后完成计算。

d、分类层：由一层全连接层和softmax层构成，分类任务为两类：正常受试者（标签为0），抑郁症患者（标签为1），分类器的输出分别表示为和/>。

（14）。

步骤4.3：D-S证据理论决策层融合：

设定分类全域为，根据步骤4.1和步骤4.2分别得到脑电特征和语音特征两种证据的基本概率分配mass函数/>和/>，计算全域的概率分配/>，其中每种状态概率分配的计算式为：

（15）

（16）

其中，为证据之间的冲突系数，/>；最后，比较/>和，将最大概率的假设判定为真，并且此最大概率对应的状态设置为最终的决策结果。

步骤4.4：模型的整体损失函数：

在模型的训练过程中，使用三种损失函数更新模型中的参数，即边际损失、交叉熵损失/>、分类损失/>。

基于胶囊图神经网络的边际损失：

（17）

其中，当预测结果为类时 />，否则/>，/>表示第/>个分类胶囊的模长（2-范数），/>表示边际系数。

基于Transformer网络的交叉熵损失：

（18）

其中，表示分类标签，当预测结果为真时/>，否则/>；/>表示预测为真的概率。

D-S决策融合的分类损失：

（19）

其中，为预测类别，/>为真实类别。

模型的训练目标是使损失函数最小化，即

（20）

将脑电及语音特征的测试集分别输入到训练后的胶囊图神经网络和Transformer混合模型中，得到胶囊图神经网络输出的脑电mass函数M₁，以及Transformer网络输出的语音mass函数M₂。接着，根据M₁和M₂，采用D-S证据理论决策融合算法，得出综合考虑脑电及语音信息的最终抑郁症分类结果。

以下对本发明做实际验证：

参阅图1，图1为本发明的整体流程框图。首先，采集受试者在完成任务1（闭眼静息态）的脑电信号，以及完成任务2（专家访谈、材料朗读及描述）的语音信号；其次，对采集的脑电信号及语音信号分别进行预处理操作，以获得更为纯净的脑电及语音信号；然后，对预处理后的脑电信号提取功率谱熵特征，对预处理后的语音信号提取Fbank特征；接着，将脑电特征训练集作为胶囊图神经网络的输入，将语音特征训练集作为Transformer网络的输入，胶囊图神经网络输出基于脑电特征的抑郁症识别概率，并组成脑电mass函数M₁，Transformer网络输出基于语音特征的抑郁症识别概率，并组成语音mass函数M₂，使用D-S证据理论对M₁和M₂进行融合，在训练过程中，模型的整体损失函数为：边际损失、交叉熵损失/>和分类损失/>，通过训练减小模型的损失函数直至收敛；最后，将脑电特征和语音特征的测试集输入到训练好的模型中，D-S证据理论用于对脑电mass函数M₁和语音mass函数M₂输出进行融合，得到最终的抑郁症识别概率，比较“正常”及“抑郁”状态的预测概率大小，将更大概率值对应的假设判定为真，得到最终的抑郁症识别结果。

参阅图2，图2为本发明的胶囊图神经网络分层图。胶囊图神经网络以脑电功率谱熵特征作为输入，其包括以下结构：图结构输入、图卷积层、初级胶囊生成层、注意力机制、图胶囊生成层、分类胶囊生成层，脑电mass函数M₁。

每层的分层细节为：

首先，对脑电信号进行1秒切片，得到的信号矩阵图大小为，其中128表示采集通道，250表示采样点数。提取每1秒切片在脑电节律上的功率谱熵特征/>，得到的特征矩阵的大小为/>，其中6表示6个节律频带，即delta (1-3Hz)，theta (4-8Hz)，alpha (8-13Hz)，beta (13-30Hz)，低gamma (30-50Hz)，高gamma (50-80Hz)。

a.图结构输入层：提取的功率谱熵特征为，将其转化为图结构/>，其中节点集/>为/>个脑电导联，邻接矩阵/>的大小为/>。

b.图卷积层：由3层图卷积网络构成，其输入为，经过图卷积操作得到每一层输出为/>，其中/>。

c. 初级胶囊生成层：对于图卷积层的每一层输出进行重组，得到三维矩阵/>，其中/>。沿着/>的第二维度将所有/>进行堆叠得到初级胶囊/>，初级胶囊/>可以看作是由128组节点胶囊组成，每组节点胶囊为/>，其中/>表示第/>个节点的第/>个胶囊，/>，/>，/>。

d. 注意力机制：将每组进行平铺，得到/>，使用全连接层对/>计算，其中全连接层的输入神经元数为54，输出神经元数为9。每个胶囊的注意力系数由全连接层输出的归一化值得到，使用此注意力系数来重新校准各组节点胶囊，最终得到注意力校准后的初级胶囊/>。

e. 图胶囊生成层：将注意力校准后的初级胶囊（/>）经过动态路由过程（循环2次）生成图胶囊/>，/>。其中16表示图胶囊的个数，6表示各图胶囊的维数。

f. 分类胶囊生成层：将图胶囊经过动态路由过程（循环2次）生成分类胶囊/>，。其中2表示分类胶囊的个数，6表示各分类胶囊的维数。

g. 脑电mass函数：分类任务为两类（K=2），正常受试者（标签为0），抑郁症患者（标签为1）。使用2-范数计算分类胶囊中每个胶囊的模长，得到/>和/>，作为不同类别的识别概率，因此，脑电mass函数/>可表示为

胶囊图神经网络中所采用的超参数设置总结如表（1）所示：

表1

。/>

参阅图3，图3为本发明的Transformer网络分层图。Transformer网络以语音Fbank特征作为输入，其包括以下部分：Fbank特征输入、轻量级多头自注意模块、多层感知机前馈模块、分类层、语音mass函数。

每层的细节为：

a. Fbank特征输入层：对于预处理后的语音信号，截取9秒时间切片并提取Fbank特征。语音信号的采样频率为44.1kHz，分帧长度为25ms，帧位移为10ms，梅尔尺度的三角形滤波器的个数为26，因此所提取的Fbank特征的大小为。

b. 轻量级多头自注意模块：参阅图4，图4为本发明的Transformer网络中的轻量级多头自注意模块。输入特征首先经过批归一化操作，得到/>。注意力头的个数设置为8。将输入特征/>定义为8组/>，每组/>的向量大小均变换为/>，/>。为了节省计算资源，采用平均池化（步长为4）操作对/>和/>的维度进行减维，因此，每组/>和/>的维度变为/>，分别以/>和/>表示。接下来，将每组的/>和/>经过乘积缩放（变为/>）、柔性最大值计算（变为）、dropout策略（变为/>）得到每个头的注意力系数矩阵，将此系数矩阵与/>进行乘积（变为/>），得到经过每个注意力头的输出。最后，将所有注意力头拼接及转置（变为），并经过线性层后进行整体的残差计算，得到最终输出（变为/>）。

c. 多层感知机前馈模块：参阅图5，图5为本发明的Transformer网络中的多层感知机前馈模块，分别经过批归一化操作、两层卷积核为的二维卷积，其中激活函数为Mish函数。最后，将卷积层的输出进行残差计算得到最终输出/>（/>）。

接下来，继续重复过程b和c，以作为过程b的输入，直到共进行3次后完成计算。

d. 分类层：由一层全连接层和softmax层构成。分类任务为两类：正常受试者（标签为0），抑郁症患者（标签为1）。分类器的输出分别表示为和/>。

e. 语音mass函数输出：分类器输出/>和/>作为语音mass函数/>，具体为

Transformer中采用的超参数设置总结如表（2）所示：

表2

。

模型的训练过程：将脑电特征及语音特征的训练集作为整体模型的输入，以优化模型中胶囊图神经网络和Transformer网络的各参数，模型的优化策略使用Adam算法，所采用的损失函数包括边际损失、交叉熵损失和分类损失。模型的训练策略使用十折交叉验证法。

整体模型采用的训练优化策略如表（3）所示：

表3

。

模型的测试过程：当模型训练优化好后，冻结模型中的参数，将脑电及语音特征的测试集作为模型的输入，胶囊图神经网络和Transformer网络分别输出对正常受试者和抑郁症患者的识别概率，D-S证据理论策略用于将脑电及语音两方面信息的决策融合，以输出最终的抑郁症识别概率。

Claims

1.一种基于脑电-语音双模态决策融合的抑郁症识别系统，其特征在于：构建及训练胶囊图神经网络和Transformer网络：

（1）

其中，表示/>中第/>和第/>个节点特征/>的相关系数；

（2）；

（3）

其中，表示第/>层图卷积层第/>个节点的节点特征，并有/>，；/>表示第/>层图卷积层中第/>个节点到第/>层中第/>个节点的特征变换权重，构成矩阵/>；/>表示激活函数，具体为/>函数，以增强特征的非线性表达能力，其公式为

（4）；

c、初始胶囊生成层：重组及堆叠每层图卷积层的输出生成初级胶囊；将每层图卷积层的输出/>重组为的三维矩阵/>，其中/>表示节点个数，/>表示为各节点建立的胶囊个数，/>表示每个胶囊的维数，且/>；沿着/>维度堆叠各三维矩阵，得到初级胶囊，其中/>；初级胶囊/>可以看作是由/>组节点胶囊组成，每组节点胶囊为，其中/>表示第/>个节点的第/>个胶囊，/>；

d、注意力机制：对各组节点胶囊进行重新校准，过程如下：

（5）

f、分类胶囊生成层：将图胶囊经过动态路由过程（循环/>次）生成分类胶囊/>；其中/>表示分类胶囊的个数，/>表示各个分类胶囊的维数；

（6）

a、Fbank特征输入：将Fbank特征作为Transformer网络的输入，/>；

b、轻量级多头自注意模块：输入特征首先经过批归一化BN操作，得到/>，注意力头的数量设置为/>，将/>划分为/>组：查询矩阵/>、键矩阵/>、值矩阵/>，即每组/>的矩阵大小均变换为/>，采用平均池化操作对/>和/>的维度进行减维，因此，每组/>和/>的维度变为/>，其中s为步长，分别用/>和/>表示，将每组的/>和/>经过乘积缩放、柔性最大值计算、dropout策略得到每个头的注意力系数矩阵，将此系数矩阵与/>进行乘积，得到经过每个注意力头的输出：

（7）

（8）；

（9）

（10）

（11）

（12）

其中，表示第一层卷积层的偏差，/>表示第一层卷积层的可学习权重矩阵，/>和/>分别表示/>的维数大小，/>表示输出通道数，/>表示第二层卷积层的偏差，/>表示第二层卷积层的可学习权重矩阵，/>和/>分别表示/>的维数大小，/>表示输出通道数；最后对输出进行残差操作，即

（13）

（14）；

S3、D-S证据理论决策层融合：

（15）

（16）

其中，为证据之间的冲突系数，/>；最后，比较/>和/>，将最大概率的假设判定为真，并且此最大概率对应的状态设置为最终的决策结果；

S4、模型的整体损失函数：

基于胶囊图神经网络的边际损失：

（17）

基于Transformer网络的交叉熵损失：

（18）

D-S决策融合的分类损失：

（19）

其中，为预测类别，/>为真实类别；

模型的训练目标是使损失函数最小化，即

（20）