CN115862684A

CN115862684A - 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法

Info

Publication number: CN115862684A
Application number: CN202210914054.3A
Authority: CN
Inventors: 杨长春; 王彭; 曹苗苗; 张力维; 孟天霜
Original assignee: Changzhou University
Current assignee: Changzhou University
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2023-03-28

Abstract

本发明公开了一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法。首先本发明首先将一维的原始音频信号预处理后获得二维的梅尔谱图；其次本发明提出通过并行的卷积神经网络和时序神经网络同步从音频信号提取特征，对可能患有情感性精神疾病的人群进行抑郁状态检测的算法，卷积神经网络从音频信号中提取声音韵律特征，时序神经网络从音频信号中提取语义特征，通过搭建可学习的加权自注意力模块，充分融合两种通道的特征以提高对抑郁状态检测的准确率；然后本发明通过利用加权的交叉熵损失函数使网络更加专注于学习音频中抑郁症的特征表示，抑制干扰噪声对于网络学习能力的影响，从而进行准确的抑郁状态预测。

Description

一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法

技术领域

本发明属于计算机自然语言处理领域，具体涉及情感分析领域，特别涉及一种使用基于音频的双模式融合型神经网络对抑郁状态评估检测的方法。

背景技术

抑郁症是一种情感性精神疾病，在常见精神健康症状搜索热度的走势上高居首位。全世界每年有5％的成年人患有抑郁症，尤其在年轻人中发病率最高。相关研究预计，到2030年将成为全世界致残的第二大诱因。一方面，独立个体对抑郁症认知的浅薄、隐私的保护、心理的障碍以及时间财力的限制，影响了抑郁症的预防、诊断和治疗；另一方面，人力资源的匮乏、收集信息的耗时、症状的多样以及对大量临床培训的需求等原因，造成了沉重的医疗负担。出于以上两个方面的分析，基于机器学习技术的自动抑郁症识别呈现出了广阔的应用前景。

抑郁症的数据来源比较广泛，行为学数据是其重要来源之一，如表情、声音、步态等。语音作为最重要的行为线索之一，因其在测量方面具备低廉性、间接性、隐蔽性以及远程性等特征，在自动抑郁症识别领域引人注目。抑郁症患者在认知功能、生理、情感状态等方面都会发生显著变化。语音作为一个敏感的输出系统，对于这些变化均会产生联动性。很多研究也已经证实语音与抑郁症的重要联系。与抑郁症相关的语音特征主要包括韵律特征(语速、音调、音量、基频、能量参数)、频谱特征(共振峰、梅尔倒谱系数MFCCs)、声源(声门脉冲形状、基频)、声门特征等。关于声学特征与抑郁症之间的关联已经有了很多研究与证实。

机器学习在识别与预防国民精神健康方面发挥着越来越大的作用，将其应用于心理健康领域已经成为必然的发展趋势。视听情感挑战大赛自2011年创办以来，相关抑郁症的数据已经有了一定的积累。通过机器学习技术学习抑郁症数据的特征，进而对抑郁症进行识别与检测，达到辅助诊断的目的。近年来，抑郁症识别从数据的来源及分析、算法的选择与改进等多个方面进行了研究。基于行为学数据的抑郁症识别已经有了很多研究进展，其中基于语音的抑郁症识别也有了很多研究成果。

而提取具有代表性和判别性的声学特征是在基于音频上进行抑郁症识别的关键。随着深度学习算法的兴起，已有大量研究采用各种神经网络进行抑郁症识别。针对音频中与抑郁相关的声学特征表示以及时间线索等问题，有一种类分类模型，结合卷积神经网络CNN和长短时记忆网络LSTM进行音频数据的表示；也有双向长短时记忆网络(BiLSTM)和时间分布卷积神经网络(TCNN)的结合进行抑郁症严重程度检测。不难看出，采用网络的串行结构，将音频的声学特征与长短时时间变化特征融合提取，从而进行抑郁症识别的方法已经成为主流。基于上述讨论，本发明提出了一种基于音频的融合型神经网络进行抑郁状态检测的方法。

发明内容

本发明目的在于解决上述现有技术的问题，提出一种基于音频的融合型神经网络进行抑郁状态检测的方法。

本发明的技术方案为：

一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法，包括以下步骤：

1)：基于音频信号的数据预处理：对音频信号除噪、读取等处理后，利用短时傅里叶变化对获取的音频信号进行时频域分析，从一维的时域信号转变为随时间变换的声谱图，得到梅尔倒谱系数MFCC图。

2)：基于并行的卷积神经网络和时序神经网络提取音频韵律和语义特征：一个对声谱图提取声音韵律特征的深度卷积神经网络模式；一个利用NetVLAD将声谱图映射为一维张量，再对一维张量提取声音语义特征的门循环网络(GRU)模式。

3)：基于可学习的加权自注意力特征融合与检测：将深度卷积神经网络模式和NetVLAD与GRU构成的时序网络模式合并成一个统一的体系结构，添加一个自注意力模块后可以输出一个二进制标签，从而进行抑郁症状态检测。

进一步，所述步骤1)具体包括：

(1)：音频信号的预处理

本发明提出的音频信号预处理是采用将一维的时域信号通过短时傅里叶变换转为梅尔倒谱系数MFCC，MFCC是在语音识别中广泛使用的特征。声音信号是一维的时域信号，利用短时傅里叶变化对声音信号进行时频域分析，得到随时间变换的声谱图。人耳对不同频率的声波有不同的听觉敏感度，1khz以下，人类的感知能力与频率成线性关系；1khz以上，人类的感知能力与频率成对数关系。梅尔标度描述了人耳频率的非线性特征，与频率的关系如下所示:

式中：m表示梅尔频率，f表示频率。频率较低的声音在人耳内传递的距离大于频率较高的声音，因此从低频倒高频之间由密到疏设置一组带通滤波器，对输入信号进行滤波。将声谱图经过梅尔标度滤波器组，变成梅尔频谱。最后对梅尔频谱进行倒谱分析，得到MFCC系数。频谱图由包络和频谱细节两部分组成，倒谱分析是为了将频谱图分解为两部分，从而得到频谱图的包络和频谱细节。人类产生的声音会经过声道的形状过滤，获得声道的形状就能准确地表示其产生的音素。声道的形状通过语音短时功率谱的包络显示出来，提取MFCC特征就能准确的表示包络。所学习的音频是长短不一的时序信号，经过预处理后获得(sample×3×128×256)的梅尔谱图。

(2)：3折交叉验证

交叉验证是在机器学习建立模型和验证模型参数时常用的方法，由于用于抑郁症检测数据集数量较少，样本同样较少，因此采用三折交叉验证的方式训练和验证模型。在将音频信号转为梅尔谱图后，为了平衡正负样本数量，对数据集内抑郁样本进行重采样，主要方式是将抑郁样本内的梅尔谱图顺序进行排列组合，每个样本是3×128×256的张量，有3张梅尔谱图，共有3！＝6个排列方式，因此每个抑郁样本可以增强6倍。但是总体样本总数仍为小样本数据集，因此采用三折交叉验证，具体方式是取原始样本随机划分为三份，每次取其中一份作为验证集，剩余两份为训练集，其中正负样本分布也遵循三比一划分，从而降低模型的过拟合现象，提高模型的泛化能力

进一步，所述步骤2)具体为：

(1)：时序神经网络模式

NetVLAD是使用卷积神经网络进行图像检索的方法，是VLAD算法的一种改进。NetVLAD将N个D维的特征描述子转换为K个D维的全局特征图V。通过下式获得VLAD(Vectorof Locally Aggregated Descriptors)方法下的全局特征图V，其中k∈K，j∈D：

式3-1中：x_i表示为第i个局部图像特征，c_K表示K个聚类中心，x_i和c_K都是D维向量，a_k(x_i)表示特征描述符x_i到c_K的关系，是一个符号函数，当且仅当x_i属于聚类中心c_k时，a_k(x_i)＝1，否则a_k(x_i)＝0，x_i(j)-c_K(j)表示特征向量到每个聚类中心的残差。由于式中包含符号函数，为了将VLAD变为可训练的函数，需将其变成可微计算，因此将a_k(x_i)平滑化后得到

式3-2中：w_k＝2αc_K，b_k＝-α||c_K||²，T为转置符，k′∈k。将/>

代入到式3-1中获得NetVLAD方法的全局特征图V_Net：

将N×D的特征描述子作为输入，经过一个1×1×D×K的卷积核和softmax操作后得到一个N×K的权重结果。N×D的特征描述子输入VLAD core经过聚类得到K×D的聚类中心向量，根据N×K的权重结果分配特征描述子到聚类中心的残差所占的权重，按照聚类中心进行加权求和，最终得到K×D的全局特征表示。本发明通过MFCC提取音频特征后将特征描述子输入NetVLAD网络，进行特征聚合，将聚集起来的局部描述子构造成一个向量，用该向量作为音频全局特征表示。

门控循环单元GRU是长短时记忆网络LSTM的一种变体，即用门控机制控制输入、记忆等信息，在当前时间步做出预测。相比于LSTM，GRU参数较少，计算复杂度较低。

GRU由两个门组成：重置门和更新门。重置门控制当前时刻对前一时刻信息状态的依赖。更新门控制前一时刻和当前时刻的信息需要被传递的程度。因此GRU能够有效的保留顺序数据的长期和短期依赖关系，适用于本发明的音频识别任务。本发明从NetVLAD提取音频的全局特征表示后作为GRU的输入，提取音频的语义信息。假设输入量为X＝{x1，x2，…，xn}，GRU网络中各变量的公式如下所示：

z_t＝σ(W_zxx_t+W_zh_t-1+b_z) (3-3)

r_t＝σ(W_rtx_t+W_rhh_t-1+b_r) (3-4)

/>

式中：x_t表示当前时刻的输入；W_zx、W_rt、W_rh、W_z、

为学习权重矩阵；h_t-1和h_t分别表示前一时刻和当前时刻的隐藏层状态；z_t和r_t分别表示更新门和重置门；/>

表示当前时刻新的记忆；σ为sigmoid()函数；tanh()为双曲正切激活函数；b_z、b_r、/>

分别为重置门、更新门和新记忆中的偏差项。

(2)：卷积神经网络模式

MobileNet-V2是一个基于深度可分离卷积的轻量级卷积神经网络，是在V1上的改进。该网络能够在保持大致精度的情况下，大幅降低参数量和计算量。

MobileNet-V2网络包含深度可分离卷积结构，该结构能够在保持精度的同时大幅降低参数量和计算量。深度可分离卷积将标准卷积拆分为两个分卷积：深度卷积和逐点卷积。深度卷积对每个输入通道应用单通道的轻量级滤波器，逐点卷积计算输入通道的线性组合构建新的特征。

设使用深度可分离卷积网络的输入特征为(D_F，D_F，M)，采用的标准卷积为(D_K，D_K，M，N)，输出特征为(D_G，D_G，N)。输入的通道数为M，输出的通道数为N。对应的计算量为：D_K×D_K×M×N×D_F×D_F。将标准卷积拆分为深度卷积和逐点卷积：深度卷积为(D_K，D_K，1，M)，输出为(D_G，D_G，M)；逐点卷积为(1,1，M，N)，输出为(D_G，D_G，N)。深度卷积和逐点卷积计算量为：D_K×D_K×M×D_F×D_F+M×N×D_F×D_F。计算量减少了：

残差结构的过程为从压缩到扩张，使用1×1卷积进行降维，通过3×3卷积提取特征，最后使用1×1卷积实现升维。倒残差结构的过程则和残差结构相反，使用1×1卷积进行升维，通过3×3DW卷积进行提取特征，最后使用1×1卷积实现降维。MobileNet-V2网络的倒置残差包括两种，当步长stride＝1时，经过升维降维过程后，使用shortcut将输入特征矩阵和输出特征矩阵相加；当步长stride＝2时，直接输出特征矩阵。

对于线性层，残差网络采用Relu激活函数，而倒残差网络选用了线性激活函数Relu6。Relu激活函数对低维造成损失较大，而倒残差输出低维的特征向量，使用线性激活函数Relu6从而避免信息的损失。本文采用MobileNet-V2网络，利用倒残差和线性层的设置，能够提取音频的高维度信息。MobileNet-V2网络包括两层倒残差结构，t为扩展因子，c为输出通道数，n为重复次数，s为步长。

进一步，所述步骤3)具体包括：

(1)：两种模式融合与自注意力

在处理向量序列时，向量之间不是独立的，不同向量之间的相关性不同，需建立非局部的依赖关系，因此用到自注意力机制。自注意力机制是注意力机制的改进，减少了对外部信息的依赖，注重数据或特征内部的相关性。相关性越高，给予的重视程度就越高。自注意力机制的核心是捕捉向量之间的相关性。

设输入序列为Y，W_q、W_k、W_v是三个可训练的参数矩阵，W_k为K的维度大小。输入矩阵Y分别与W_q、W_k、W_v相乘，生成向量q、向量k、向量v。q与k^T生成相似度矩阵，对相似度矩阵的每个元素除以

再进行softmax。经过softmax归一化后，得到权重矩阵。具体公式如下：

q＝YW^q (4-1)

k＝YW^k (4-2)

v＝YW^v (4-3)

将权重矩阵与V相乘后得到输出向量序列H。最后提取的音频特征经过时序特征模式和卷积特征模式后，将得到的结果进行水平拼接，传递到自注意力机制，得到表示音频不同特征重要性的权重矩阵，获得更加显著的特征输出。

本发明通过学习音频特征，对抑郁症的有无进行分类。模型预测的结果只有两种情况，预测得到的概率分别为p和1-p。使用加权交叉熵损失函数，L定义如下：

L＝∑_{m＝{rnn,cnn}}l_ce(x_m,ω_m,y) (4-5)

式中：y表示样本的标签，有抑郁症为1，无抑郁症为0，p表示样本预测为有抑郁症的概率，m是采用的模态通道，l_ce是定义的交叉熵损失函数，x_m是双通道拼接的音频特征向量，ω_m是自注意力网络中相对x_m学习到的权重。

本发明的有益效果：

(1)利用深度卷积神经网络和时序神经网络从不同的角度对音频信号提取音频特征并进行抑郁状态的检测；

(2)针对小样本不平衡数据集的抑郁症样本构建多尺度任务双模式融合网络提高了抑郁状态检测的准确率；

(3)提出了基于深度神经网络的双模式卷积-时序并行的网络框架，采用三折交叉验证的训练策略，使得每一个样本数据都既被用作训练数据，也被用作测试数据，可以有效的避免过拟合以及欠拟合状态的发生，提高模型的泛化能力和检测的准确率；

(4)将通过两种不同方式从音频特征内提取到的语义特征和韵律特征拼接后，输送到自注意力模块相融合，构建融合网络检测抑郁状态。

附图说明

图1是本发明基于音频的双模式神经网络对抑郁状态检测方法的系统流程图

图2是本发明中提出的时序神经网络结构示意图

图3是本发明中提出的卷积神经网络结构示意图

图4是本发明中提出的自注意力融合结构示意图

具体实施方式

下面将结合附图对本发明作进一步的说明，但本发明的保护范围并不限于此。

图1给出了基于音频的双模式融合型神经网络的抑郁状态检测的方法的系统流程图：

本发明提出一种基于音频的双模式融合神经网络的抑郁状态检测方法，考虑到声音中的韵律、声门、声源等特征与抑郁症状的关联愈发紧密和重要，所以使用深度卷积神经网络来提取声音中的韵律等特征。考虑到声音的语义特征对抑郁状态的判别也有着至关重要的地位，故本发明采用长短时记忆网络LSTM的变体GRU网络来提取声音中的语义特征，再将两种特征融合后输出二进制标签。

本发明的具体操作步骤：

图2给出了时序神经网络结构示意图

1)将一维的声音信号经过短时傅里叶变化等预处理操作后，得到(3，128，256)的音频梅尔谱图，由NetVLAD从梅尔谱图上提取图像特征后，门循环网络GRU网络从图像特征中获得语义特征

本发明提出的时序神经网络包含NetVLAD模块和一个预训练的GRU网络模块，主要有2层网络层数。NetVLAD模块主要用于对预处理后获得的梅尔谱图提取关键点信息，将这些关键点信息输出为3×768的张量。GRU模块中先采用LayerNorm归一化方法，然后送入2层LSTM网络层的GRU模块，输入的特征向量就是由NetVLAD得到的(3，768)张量，经过GRU的两层网络后输出为(1，256)的特征向量。为了避免过拟合，在GRU模块中每层网络之后增加一个Dropout层。

图3给出了卷积神经网络结构示意图

2)经过预处理后获得梅尔谱图，并行输入到卷积神经网络中，利用卷积网络对音频提取其韵律特征，用于对抑郁状态的检测

卷积神经网络主要由3块网络构成。第一块网络通过一个步长为1的1×1卷积，将输入的特征投影降维为1×W×H大小，通过输入一个步长为2的卷积后，缩小特征尺寸，增大特征维度后输入到第2个块网络。第2个块网络及第3个块网络是使用的“倒置残差”结构，即将输入的特征先使用1×1卷积进行升维后，通过3×3卷积提取特征，最后再使用1×1卷积实现降维。卷积神经网络中，第一个块网络中卷积核、批归一化和ReLU6线性激活函数封装为一个convBNActivation模块，第二个块和第三个块是相同的将一个convBNActivation模块、1×1卷积核和批归一化封装为一个InvertedResidual模块。块网络的倒置残差包括两种结构，当步长是1时，经过升维降维过程后，使用shortcut将输入特征矩阵和输出特征矩阵相加；当步长为2时，直接输出特征矩阵。对于线性层，倒置残差块采用了线性激活函数ReLU6。Relu激活函数对低维造成损失较大，而倒置残差输出低维的特征向量，使用线性激活函数Relu6从而避免信息的损失。因此卷积神经网络模式利用倒残差和线性层的设置，能够提取音频的高维度信息。

卷积核采用的是深度可分离卷积，在保持大致精度的情况下，大幅度降低参数量和计算量。深度可分离卷积将标准卷积拆分为两个分卷积：深度卷积和逐点卷积。深度卷积对每个输入通道应用单通道的轻量级滤波器，逐点卷积计算输入通道的线性组合构建新的特征。每层的卷积核对输入的特征每个通道分别执行深度卷积，然后通过逐点卷积(1×1卷积核)将输出通道混合，这相当于将空间特征学习和通道特征学习分开，在梅尔谱图中，韵律特征与输入中的空间位置高度相关，且不同通道之间相对独立，因此使用深度可分离卷积可以提取所需要的声音韵律特征。并且深度可分离卷积需要的参数要少很多，计算量也更小，因此可以得到更小更快的模型。因为它是一种执行卷积更高效的方法，结合公共抑郁数据集本身的数据规模较少，使用深度可分离卷积可以使用更少的数据学到更好的表示，得到性能更好的模型。

训练阶段，对于并行输入到卷积模式和时序模式的梅尔谱图，采用随机采样策略，避免由于样本相似性过大导致模型泛化能力差，测试阶段以相同的操作随机采样；

图4给出了自注意力融合结构示意图

3)对原始数据及其对应的预处理操作和双通道网络进行音频特征编码，并根据双通道数据的编码重构结果进行抑郁状态检测；拼接从时序通道中获得的语义特征和从卷积通道中获得的语义特征；利用自注意力模块将两个通道获得的特征进行充分融合；利用加权交叉熵损失函数使网络关注抑郁特征，抑制噪声的影响。

将原始音频数据经过预处理为梅尔谱图后输入到网络，并行通过卷积神经网络和时序神经网络进行特征提取，得到不同模式的音频特征。

将所获得的音频韵律特征和音频语义特征在第一维度上拼接得到1×512的特征向量，在输入到自注意力模块和全连接层后获得一组二进制标签。

通过自注意力模块后的输出为(1，512)。本发明中采用3个全连接层(FC)，即FC1(512个神经元)，FC2(512个神经元)和FC3(2个神经元)前2个FC层后紧接着ReLU激活层，FC3之后连接sofrmax激活层，表示输入音频的抑郁状态。估计抑郁状态与其真实值之间的损失，记为l。

提出一种加权交叉熵损失函数，使网络更加专注于学习音频中抑郁症的特征表示，抑制干扰噪声对于网络学习能力的影响。加权交叉熵损失函数定义如下：

L＝∑_{m＝{rnn,cnn}}l_ce(x_m,ω_m,y) (14)

以上所述对本发明进行了简单说明，并不受上述工作范围限值，只要采取本发明思路和工作方法进行简单修改运用到其他设备，或在不改变本发明主要构思原理下做出改进和润饰等行为，均在本发明的保护范围之内。

Claims

1.一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法，其特征在于：

1)：基于音频信号的数据预处理；

2)：基于并行的卷积神经网络和时序神经网络提取音频韵律和语义特征；

3)：基于可学习的加权自注意力特征融合与检测。

2.根据权利要求1所述的一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法，其特征在于，所述步骤1)中，具体步骤包括：

(1)：音频信号的预处理

将一维的时域信号通过短时傅里叶变换转为梅尔倒谱系数MFCC；声音信号是一维的时域信号，利用短时傅里叶变化对声音信号进行时频域分析，得到随时间变换的声谱图；梅尔标度描述了人耳频率的非线性特征，与频率的关系如下所示:

式(2-1)中：m表示梅尔频率，f表示频率；

从低频到高频之间由密到疏设置一组带通滤波器，对输入信号进行滤波；将声谱图经过梅尔标度滤波器组，变成梅尔频谱；最后对梅尔频谱进行倒谱分析，得到MFCC系数；频谱图由包络和频谱细节两部分组成，倒谱分析是为了将频谱图分解为两部分，从而得到频谱图的包络和频谱细节；人类产生的声音会经过声道的形状过滤，获得声道的形状就能准确地表示其产生的音素；声道的形状通过语音短时功率谱的包络显示出来，提取MFCC特征就能准确的表示包络；所学习的音频是长短不一的时序信号，经过预处理后获得(sample×3×128×256)的梅尔谱图；

(2)：三折交叉验证

在将音频信号转为梅尔谱图后，对数据集内抑郁样本进行重采样，方式是将抑郁样本内的梅尔谱图顺序进行排列组合，每个样本是3×128×256的张量，有3张梅尔谱图，共有3！个排列方式，因此每个抑郁样本可以增强6倍；但是总体样本总数仍为小样本数据集，因此采用三折交叉验证，具体方式是取原始样本随机划分为三份，每次取其中一份作为验证集，剩余两份为训练集，其中正负样本分布也遵循三比一划分，从而降低模型的过拟合现象，提高模型的泛化能力。

3.根据权利要求1所述的一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法，其特征在于，所述步骤2)中，具体步骤包括：

(1)时序神经网络模式

NetVLAD将N个D维的特征描述子转换为K个D维的全局特征图V；通过下式获得VLAD方法下的全局特征图V，其中k∈K，j∈D：

式3-1中：x_i表示为第i个局部图像特征，c_K表示K个聚类中心，x_i和c_K都是D维向量，a_k(x_i)表示特征描述符x_i到c_K的关系，是一个符号函数，当且仅当x_i属于聚类中心c_k时，a_k(x_i)＝1，否则a_k(x_i)＝0，x_i(j)-c_K(j)表示特征向量到每个聚类中心的残差；由于式中包含符号函数，为了将VLAD变为可训练的函数，需将其变成可微计算，因此将a_k(x_i)平滑化后得到

式3-2中：w_k＝2αc_K，b_k＝-α||c_K||²，T为转置符，k′∈k；将/>

代入到式3-1中获得NetVLAD方法的全局特征图V_Net：

将N×D的特征描述子作为输入，经过一个1×1×D×K的卷积核和softmax操作后得到一个N×K的权重结果；N×D的特征描述子输入VLAD core经过聚类得到K×D的聚类中心向量，根据N×K的权重结果分配特征描述子到聚类中心的残差所占的权重，按照聚类中心进行加权求和，最终得到K×D的全局特征表示；通过MFCC提取音频特征后将特征描述子输入NetVLAD网络，进行特征聚合，将聚集起来的局部描述子构造成一个向量，用该向量作为音频全局特征表示；

门控循环单元GRU是用门控机制控制输入、记忆信息，在当前时间步做出预测；；

GRU由两个门组成：重置门和更新门；重置门控制当前时刻对前一时刻信息状态的依赖；更新门控制前一时刻和当前时刻的信息需要被传递的程度；从NetVLAD提取音频的全局特征表示后作为GRU的输入，提取音频的语义信息；设输入量为X＝{x1，x2，…，xn}，GRU网络中各变量的公式如下所示：

z_t＝σ(W_zxx_t+W_zh_t-1+b_z) (3-3)

r_t＝σ(W_rtx_t+W_rhh_t-1+b_r) (3-4)

式中：x_t表示当前时刻的输入；W_zx、W_rt、W_rh、W_z、

分别为重置门、更新门和新记忆中的偏差项；

(2)卷积神经网络模式

MobileNet-V2网络包含深度可分离卷积结构；深度可分离卷积将标准卷积拆分为两个分卷积：深度卷积和逐点卷积；深度卷积对每个输入通道应用单通道的轻量级滤波器，逐点卷积计算输入通道的线性组合构建新的特征；

设使用深度可分离卷积网络的输入特征为(D_F，D_F，M)，采用的标准卷积为(D_K，D_K，M，N)，输出特征为(D_G，D_G，N)；输入的通道数为M，输出的通道数为N；对应的计算量为：D_K×D_K×M×N×D_F×D_F；将标准卷积拆分为深度卷积和逐点卷积：深度卷积为(D_K，D_K，1，M)，输出为(D_G，D_G，M)；逐点卷积为(1,1，M，N)，输出为(D_G，D_G，N)；深度卷积和逐点卷积计算量为：D_K×D_K×M×D_F×D_F+M×N×D_F×D_F；计算量减少了：

残差结构的过程为从压缩到扩张，使用1×1卷积进行降维，通过3×3卷积提取特征，最后使用1×1卷积实现升维；倒残差结构的过程则和残差结构相反，使用1×1卷积进行升维，通过3×3DW卷积进行提取特征，最后使用1×1卷积实现降维；MobileNet-V2网络的倒置残差包括两种：当步长为1时，经过升维降维过程后，使用shortcut将输入特征矩阵和输出特征矩阵相加；当步长为2时，直接输出特征矩阵；

对于线性层，残差网络采用Relu激活函数，而倒残差网络选用线性激活函数Relu6；本方法MobileNet-V2网络包括两层倒残差结构，t为扩展因子，c为输出通道数，n为重复次数，s为步长。

4.根据权利要求1所述的一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法，其特征在于，所述步骤3)中，具体步骤包括：

(1)两种模式融合与自注意力

设输入序列为Y，W_q、W_k、W_v是三个可训练的参数矩阵，W_k为K的维度大小；输入矩阵Y分别与W_q、W_k、W_v相乘，生成向量q、向量k、向量v；q与k^T生成相似度矩阵，对相似度矩阵的每个元素除以

再进行softmax；经过softmax归一化后，得到权重矩阵；具体公式如下：

q＝YW^q (4-1)

k＝YW^k (4-2)

v＝YW^v (4-3)

将权重矩阵与V相乘后得到输出向量序列H；最后提取的音频特征经过时序特征模式和卷积特征模式后，将得到的结果进行水平拼接，传递到自注意力机制，得到表示音频不同特征重要性的权重矩阵，获得更加显著的特征输出；

通过学习音频特征，对抑郁症的有无进行分类；模型预测的结果只有两种情况，预测得到的概率分别为p和1-p；使用加权交叉熵损失函数，L定义如下：

L＝∑_{m＝{rnn,cnn}}l_ce(x_m,ω_m,y) (4-5)