CN115171878A

CN115171878A - 基于BiGRU和BiLSTM的抑郁症检测方法

Info

Publication number: CN115171878A
Application number: CN202210759072.9A
Authority: CN
Inventors: 徐慧; 尹必才; 赵晨薇; 王惠荣; 吴一凡
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-10-11

Abstract

本发明涉及抑郁症检测技术领域，尤其涉及基于BiGRU和BiLSTM的抑郁症检测方法。包括以下步骤:步骤S1、构建训练样本集，所述训练样本集包含抑郁症和非抑郁症患者的音频和对应的文本信息，按照9:1的比例划分训练集和测试集；步骤S2、采用vggish网络模型进行音频特征提取并训练，提取梅尔语谱图特征，获得具备情景感知的语音向量特征；步骤S3、进行文本特征提取并训练，对所述训练样本集的患者测试文本进行句子级嵌入处理，获得文本特征；步骤S4、使用双向门循环单元BiGRU和双向长短期记忆网络BiLSTM模型，对所述语音向量特征和所述文本特征进行融合，从而进行抑郁症的分析判断；步骤S5、使用测试集对改进的模型进行测试，完成检测。

Description

基于BiGRU和BiLSTM的抑郁症检测方法

技术领域

本发明涉及抑郁症检测技术领域，尤其涉及基于BiGRU和BiLSTM的抑郁症检测方法。

背景技术

抑郁症是当前世界范围内最常见的精神疾病之一，与日常生活中的焦虑抑郁等情绪波动不同，病理性抑郁症往往伴有长时间的情绪低落、思维迟缓、反应迟钝、丧失对生活的兴趣或乐趣、精力缺乏、记忆力下降、睡眠紊乱、食欲暴进或减退、体重下降等症状，且难以自我调节。严重时导致患者无法正常工作，甚至会导致死亡。而当前抑郁症的确诊更多的依仗于医生的主观判断以及患者的自主配合，这样的方式具有较强的误诊性。

传统的基于音频的抑郁症检测方法是选取相关特征，然后选择机器学习方法用于研究特征与抑郁症之间的关系，常用的方法有高斯混合模型、偏最小二乘以及支持向量回归。这种方法的主要优点是可以在不需要大量数据的情况下对模型进行训练。缺点是很难判断特征的质量，可能会丢失一些关键特征，从而降低识别的准确性。

发明内容

本发明针对现有技术中存在的技术问题，提出了基于BiGRU和BiLSTM的抑郁症检测方法，从而提升抑郁症病患的检测识别精度。

本发明采取的技术方案如下：基于BiGRU和BiLSTM的抑郁症检测方法，包括以下步骤:

步骤S1、构建训练样本集，所述训练样本集包含抑郁症和非抑郁症患者的音频和对应的文本信息，按照9:1的比例划分训练集和测试集；

步骤S2、采用vggish网络模型进行音频特征提取并训练，提取梅尔语谱图特征，获得具备情景感知的语音向量特征；

步骤S3、进行文本特征提取并训练，对所述训练样本集的患者测试文本进行句子级嵌入处理，获得文本特征；

步骤S4、使用双向门循环单元BiGRU和双向长短期记忆网络BiLSTM模型，对所述语音向量特征和所述文本特征进行融合，从而进行抑郁症的分析判断；

步骤S5、使用测试集对改进的模型进行测试，完成检测。

进一步的作为本发明的优选技术方案，在步骤S1中，对采集到的音频数据进行预处理，所述预处理包括删除长时间的静音片段，并且进行背景噪音的降低。

进一步的作为本发明的优选技术方案，所述步骤S2的具体步骤为：

步骤S21、预加重，增加声音高频部分的能量，具体的表达式为：

m(h)＝x(h)-αm(h-1)

式中，x(h)表示h时刻的语音的采样值，m(h-1)即为上一时刻的采样值，α值为预加重系数；

步骤S22、分帧，预加重信号过后将原信号按照时间划分为一块块的，一块即为一帧，接着便是将得到的结果按照时间顺序拼接起来；

步骤S23、加窗，所谓加窗即是增加帧左右侧的连续性，加窗使用边缘平滑降到0的汉明窗，汉明窗表达式如下：

式中，L表示为窗的长度包含有L个采样点，窗由3个参数来描述：窗长，偏移以及形状；每一个加窗的声音信号叫做一帧，每一帧的毫秒数叫做帧长，相邻两帧左边界或右边界的距离叫帧移；

步骤S24、快速傅里叶变换，将信号从时域映射到频域，假设加窗后的采样点个数是n，FFT的定义如下：

其中，m[i]其中的i表示窗函数，通常使用汉明窗，m[i]是输入的语音信号，m_a[k]表示对应的频域信号，k表示傅里叶变换的帧长度，n是傅里叶变换的点数；

步骤S25、对每个滤波器产生的输出频谱能量取对数后便可得到系数，计算每个滤波器组输出的对数能量为：

其中，m_a(i)表示傅里叶变换之后得到的频域信号，h_b(i)表示相对应的三角滤波器的频率响应；三角滤波器的频率响应定义为：

其中，0≤b≤M，M表示的是过滤器的数量，其中f(b)的表达公式为：

其中，f_l表示滤波器频域中的最低频率，f_h表示最高频率，N是傅里叶变换的长度，

f_s表示采样频率，f_mel表示mel频率，f_mel和f之间的转换公式为：

并且，

为f_mel的逆函数，表达式为：

其中，b为实际频率；

步骤S26、在vggish模型获取音频特征之后，将特征向量按照时间序列传输到BiGRU网络中进行再训练，BiGRU是双向门控循环单元，连接向同一个输出层。GRU是LSTM的变种，相比于LSTM，GRU模型中只有两个门，重置门和更新门；

在GRU中，更新门控制从之前的隐藏状态到当前状态的信息量，表达式为：

其中，

表示当前t输出状态，h^t-1表示t-1时刻的隐藏状态，w_iz表示输入和更新门之间的权重，f()函数就是sigmoid函数；

重置门表示将当前信息与之前的信息相结合，计算公式为：

其中，w_ir表示输入和重置门之间的权重；

在BiGRU的梯度下降中，存储前一层信息的函数梯度表达式为：

其中，

表示存储前一层信息的单元，h^t表示时间t的输出值。

进一步的作为本发明的优选技术方案，所述步骤S3的具体步骤为：

步骤S31、构建BiLSTM模型，并且添加注意力机制；该BiLSTM模型包括五个部分：输入层、Embedding层、BiLSTM层、注意力机制层和输出层；

步骤S32、在输入层和Embedding层中输入文本，接着获得词的分布式表示；

步骤S33、在BiLSTM层中，将词向量依次送入正向LSTM和反向LSTM中，用于获取上下文信息；

步骤S34、在注意力机制层，用于得到句子级别的向量表示。对上述产生的结果使用attention加权，令h_i表示有BiLSTM层产生的包含单词w_i上下文信息的隐藏向量，通过全连接层将h_i转换为u_i，表达式为：

u_i＝tanh(Wh_i+b)

计算u_i与上下文向量u_w的相似度并通过softmax转换为概率分布：

其中，α_i是每个单词句子的重要程度，因此使用α_i作为全局对于h_i加权求和得到表达句子的向量，u_w表示单词对句子的贡献度多少，其中，u_w是随机初始化并通过训练获得的；

步骤S35、输出层，输出最后的结果。

进一步的作为本发明的优选技术方案，所述步骤S4的具体步骤为：

步骤S41、在vggish模型获取音频特征之后，将特征向量按照时间序列传输到BiGRU网络中进行再训练，将获取到的文本特征馈送到BiLSTM模型中训练；

步骤S42、将BiGRU模型和BiLSTM模型融合起来，将两个模型的全连接层通过一定的权重比例连接起来，形成一个新的特征向量，然后将结果传递给全连接层，其中BiGRU和BiLSTM的全连接层大小均设置为256：

其中，∈表示损失函数，m表示调用的类型，包括文本和语音类型，l()表示交叉熵损失函数，x_a表示关于a的向量表示，w_a表示全连接层有关于a的权重，最后的q表示真实值

在该模型中使用swish激活函数来替代传统的ReLU函数，该函数具有平滑、无上界以及非单调的特点，其表达式如下：

f(x)＝xθ(βx)

其中，β表示该激活函数中的一个参数，可以设定其为常量，也可以是一个可训练的参数，θ(x)就是sigmoid函数，具体表达式如下所示：

步骤S43、输出层输出最终结果，采用softmax分类器来进行处理，softmax的计算如下：

S＝softmax(w_i*x_i+b)

其中，softmax(m)即为激活函数表达式，m_i表示输入向量，k表示类的数量，S为最终结果，w_i为权重，x_i表示融合之后的特征作为输入，b为偏置。

进一步的作为本发明的优选技术方案，在步骤S5中，将步骤S4训练好的权重文件加载到改进的BiGRU和BiLSTM模型中，将测试集输入模型进行抑郁症检测，对得到的音频以及文本特征进行步骤S4中的多模态融合，最后进行Softmax分类，从而进行最终结果的输出。

本发明所述的基于BiGRU和BiLSTM的抑郁症检测方法，采用以上技术方案与现有技术相比，具有以下技术效果：

本发明基于文本和音频的多模态特征融合，能更好的进行抑郁症患者的识别，避免了单模态特征无法包含所需全部抑郁症相关信息的问题。本发明采用的多模态的特征融合能够实现特征互补，增加预测的准确性。本发明采用的vggish可以更好地处理音频数据，BiGRU可以更好地处理时间序列数据，将两者结合可以提高模型泛化能力，还能防止过拟合。本发明采用的BiGRU是由两个方向相反的两个GRU网络组成，能够使当前时刻输出与前一时刻和后一时刻的状态都能够产生联系。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的Vggish-BiGRU模型图；

图3为本发明BiGRU模型图。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

如图1所示，基于BiGRU和BiLSTM的抑郁症检测方法，包括以下步骤：步骤S1、构建训练样本集，所述训练样本集包含抑郁症和非抑郁症患者的音频和对应的文本信息，按照9∶1的比例划分训练集和测试集；步骤S2、采用vggish网络模型进行音频特征提取并训练，提取梅尔语谱图特征，获得具备情景感知的语音向量特征；步骤S3、进行文本特征提取并训练，对所述训练样本集的患者测试文本进行句子级嵌入处理，获得文本特征；步骤S4、使用双向门循环单元BiGRU和双向长短期记忆网络BiLSTM模型，对所述语音向量特征和所述文本特征进行融合，从而进行抑郁症的分析判断；步骤S5、使用测试集对改进的模型进行测试，完成检测。

在步骤S1中，对采集到的音频数据进行预处理，所述预处理包括删除长时间的静音片段，并且进行背景噪音的降低。

步骤S2的具体步骤为：步骤S21、预加重，增加声音高频部分的能量，具体的表达式为：

m(h)＝x(h)-αm(h-1)

式中，x(h)表示h时刻的语音的采样值，m(h-1)即为上一时刻的采样值，α值为预加重系数；取值通常介于0.9-1.0之间，取值为0.97；

式中，L表示为窗的长度包含有L个采样点，窗由3个参数来描述：窗长，偏移以及形状；每一个加窗的声音信号叫做一帧，每一帧的毫秒数叫做帧长，相邻两帧左边界或右边界的距离叫帧移；时间是25ms，重叠15ms；

步骤S24、快速傅里叶变换，FFT的输入是一帧帧加窗后的信号m[i]…m[n]，输出则是包含N个频带的复数m[k]，表示原始信号中某一频率成分的幅度和相位；将信号从时域映射到频域，假设加窗后的采样点个数是n，FFT的定义如下：

其中，f_l表示滤波器频域中的最低频率，J_h表示最高频率，N是傅里叶变换的长度，

并且，

为f_mel的逆函数，表达式为：

其中，b为实际频率；

步骤S26、在vggish模型获取音频特征之后，将特征向量按照时间序列传输到BiGRU网络中进行再训练，BiGRU是双向门控循环单元，连接向同一个输出层。GRU是LSTM的变种，相比于LSTM，GRU模型中只有两个门，重置门和更新门；vggish-Bigru模型如图2所示；

其中，

重置门表示将当前信息与之前的信息相结合，计算公式为：

其中，w_ir表示输入和重置门之间的权重；

其中，

表示存储前一层信息的单元，h^t表示时间t的输出值。

步骤S3的具体步骤为：

u_i＝tanh(Wh_i+b)

步骤S35、输出层，输出最后的结果。

如图3所示，步骤S4的具体步骤为：步骤S41、在vggish模型获取音频特征之后，将特征向量按照时间序列传输到BiGRU网络中进行再训练，将获取到的文本特征馈送到BiLSTM模型中训练；

f(x)＝xθ(βx)

S＝softmax(w_i*x_i+b)

在步骤S5中，将步骤S4训练好的权重文件加载到改进的BiGRU和BiLSTM模型中，将测试集输入模型进行抑郁症检测，对得到的音频以及文本特征进行步骤S4中的多模态融合，最后进行Softmax分类，从而进行最终结果的输出。

分别单独测试音频、文本以及混合特征模型，评判标准包括：F1 Score、Recall和Precion，测试结果如表1所示：

表1测试结果

以上所述的具体实施方案，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，所应理解的是，以上所述仅为本发明的具体实施方案而已，并非用以限定本发明的范围，任何本领域的技术人员，在不脱离本发明的构思和原则的前提下所做出的等同变化与修改，均应属于本发明保护的范围。

Claims

1.基于BiGRU和BiLSTM的抑郁症检测方法，其特征在于，包括以下步骤:

步骤S5、使用测试集对改进的模型进行测试，完成检测。

2.根据权利要求1所述的基于BiGRU和BiLSTM的抑郁症检测方法，其特征在于，在步骤S1中，对采集到的音频数据进行预处理，所述预处理包括删除长时间的静音片段，并且进行背景噪音的降低。

3.根据权利要求1所述的基于BiGRU和BiLSTM的抑郁症检测方法，其特征在于，所述步骤S2的具体步骤为：

m(h)＝x(h)-αm(h-1)

其中，f_l表示滤波器频域中的最低频率，f_h表示最高频率，N是傅里叶变换的长度，f_s表示采样频率，f_mel表示mel频率，f_mel和f之间的转换公式为：

并且，

为f_mel的逆函数，表达式为：

其中，b为实际频率；

其中，

重置门表示将当前信息与之前的信息相结合，计算公式为：

其中，w_ir表示输入和重置门之间的权重；

其中，

表示存储前一层信息的单元，h^t表示时间t的输出值。

4.根据权利要求1所述的基于BiGRU和BiLSTM的抑郁症检测方法，其特征在于，所述步骤S3的具体步骤为：

步骤S34、在注意力机制层，用于得到句子级别的向量表示。对上述产生的结果使用attention加权，令h_i表示有BiLSTM层产生的包含单词w_i上下文信息的隐藏向量，通过全连接层将h_i转换为u_i,表达式为：

u_i＝tanh(Wh_i+b)

步骤S35、输出层，输出最后的结果。

5.根据权利要求1所述的基于BiGRU和BiLSTM的抑郁症检测方法，其特征在于，所述步骤S4的具体步骤为：

其中，∈表示损失函数，m表示调用的类型，包括文本和语音类型，l()表示交叉熵损失函数，x_a表示关于a的向量表示,w_a表示全连接层有关于a的权重，最后的q表示真实值

f(x)＝xθ(βx)

S＝softmax(w_i*x_i+b)

其中,softmax(m)即为激活函数表达式，m_i表示输入向量，k表示类的数量，S为最终结果，w_i为权重，x_i表示融合之后的特征作为输入，b为偏置。

6.根据权利要求1所述的基于BiGRU和BiLSTM的抑郁症检测方法，其特征在于，在步骤S5中，将步骤S4训练好的权重文件加载到改进的BiGRU和BiLSTM模型中，将测试集输入模型进行抑郁症检测，对得到的音频以及文本特征进行步骤S4中的多模态融合，最后进行Softmax分类,从而进行最终结果的输出。