CN115171878A - 基于BiGRU和BiLSTM的抑郁症检测方法 - Google Patents

基于BiGRU和BiLSTM的抑郁症检测方法 Download PDF

Info

Publication number
CN115171878A
CN115171878A CN202210759072.9A CN202210759072A CN115171878A CN 115171878 A CN115171878 A CN 115171878A CN 202210759072 A CN202210759072 A CN 202210759072A CN 115171878 A CN115171878 A CN 115171878A
Authority
CN
China
Prior art keywords
representing
bilstm
bigru
layer
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210759072.9A
Other languages
English (en)
Inventor
徐慧
尹必才
赵晨薇
王惠荣
吴一凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202210759072.9A priority Critical patent/CN115171878A/zh
Publication of CN115171878A publication Critical patent/CN115171878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及抑郁症检测技术领域,尤其涉及基于BiGRU和BiLSTM的抑郁症检测方法。包括以下步骤:步骤S1、构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频和对应的文本信息,按照9:1的比例划分训练集和测试集;步骤S2、采用vggish网络模型进行音频特征提取并训练,提取梅尔语谱图特征,获得具备情景感知的语音向量特征;步骤S3、进行文本特征提取并训练,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得文本特征;步骤S4、使用双向门循环单元BiGRU和双向长短期记忆网络BiLSTM模型,对所述语音向量特征和所述文本特征进行融合,从而进行抑郁症的分析判断;步骤S5、使用测试集对改进的模型进行测试,完成检测。

Description

基于BiGRU和BiLSTM的抑郁症检测方法
技术领域
本发明涉及抑郁症检测技术领域,尤其涉及基于BiGRU和BiLSTM的抑郁症检测方法。
背景技术
抑郁症是当前世界范围内最常见的精神疾病之一,与日常生活中的焦虑抑郁等情绪波动不同,病理性抑郁症往往伴有长时间的情绪低落、思维迟缓、反应迟钝、丧失对生活的兴趣或乐趣、精力缺乏、记忆力下降、睡眠紊乱、食欲暴进或减退、体重下降等症状,且难以自我调节。严重时导致患者无法正常工作,甚至会导致死亡。而当前抑郁症的确诊更多的依仗于医生的主观判断以及患者的自主配合,这样的方式具有较强的误诊性。
传统的基于音频的抑郁症检测方法是选取相关特征,然后选择机器学习方法用于研究特征与抑郁症之间的关系,常用的方法有高斯混合模型、偏最小二乘以及支持向量回归。这种方法的主要优点是可以在不需要大量数据的情况下对模型进行训练。缺点是很难判断特征的质量,可能会丢失一些关键特征,从而降低识别的准确性。
发明内容
本发明针对现有技术中存在的技术问题,提出了基于BiGRU和BiLSTM的抑郁症检测方法,从而提升抑郁症病患的检测识别精度。
本发明采取的技术方案如下:基于BiGRU和BiLSTM的抑郁症检测方法,包括以下步骤:
步骤S1、构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频和对应的文本信息,按照9:1的比例划分训练集和测试集;
步骤S2、采用vggish网络模型进行音频特征提取并训练,提取梅尔语谱图特征,获得具备情景感知的语音向量特征;
步骤S3、进行文本特征提取并训练,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得文本特征;
步骤S4、使用双向门循环单元BiGRU和双向长短期记忆网络BiLSTM模型,对所述语音向量特征和所述文本特征进行融合,从而进行抑郁症的分析判断;
步骤S5、使用测试集对改进的模型进行测试,完成检测。
进一步的作为本发明的优选技术方案,在步骤S1中,对采集到的音频数据进行预处理,所述预处理包括删除长时间的静音片段,并且进行背景噪音的降低。
进一步的作为本发明的优选技术方案,所述步骤S2的具体步骤为:
步骤S21、预加重,增加声音高频部分的能量,具体的表达式为:
m(h)=x(h)-αm(h-1)
式中,x(h)表示h时刻的语音的采样值,m(h-1)即为上一时刻的采样值,α值为预加重系数;
步骤S22、分帧,预加重信号过后将原信号按照时间划分为一块块的,一块即为一帧,接着便是将得到的结果按照时间顺序拼接起来;
步骤S23、加窗,所谓加窗即是增加帧左右侧的连续性,加窗使用边缘平滑降到0的汉明窗,汉明窗表达式如下:
Figure BDA0003720480560000021
式中,L表示为窗的长度包含有L个采样点,窗由3个参数来描述:窗长,偏移以及形状;每一个加窗的声音信号叫做一帧,每一帧的毫秒数叫做帧长,相邻两帧左边界或右边界的距离叫帧移;
步骤S24、快速傅里叶变换,将信号从时域映射到频域,假设加窗后的采样点个数是n,FFT的定义如下:
Figure BDA0003720480560000022
其中,m[i]其中的i表示窗函数,通常使用汉明窗,m[i]是输入的语音信号,ma[k]表示对应的频域信号,k表示傅里叶变换的帧长度,n是傅里叶变换的点数;
步骤S25、对每个滤波器产生的输出频谱能量取对数后便可得到系数,计算每个滤波器组输出的对数能量为:
Figure BDA0003720480560000023
其中,ma(i)表示傅里叶变换之后得到的频域信号,hb(i)表示相对应的三角滤波器的频率响应;三角滤波器的频率响应定义为:
Figure BDA0003720480560000031
其中,0≤b≤M,M表示的是过滤器的数量,其中f(b)的表达公式为:
Figure BDA0003720480560000032
其中,fl表示滤波器频域中的最低频率,fh表示最高频率,N是傅里叶变换的长度,
fs表示采样频率,fmel表示mel频率,fmel和f之间的转换公式为:
Figure BDA0003720480560000033
并且,
Figure BDA0003720480560000034
为fmel的逆函数,表达式为:
Figure BDA0003720480560000035
其中,b为实际频率;
步骤S26、在vggish模型获取音频特征之后,将特征向量按照时间序列传输到BiGRU网络中进行再训练,BiGRU是双向门控循环单元,连接向同一个输出层。GRU是LSTM的变种,相比于LSTM,GRU模型中只有两个门,重置门和更新门;
在GRU中,更新门控制从之前的隐藏状态到当前状态的信息量,表达式为:
Figure BDA0003720480560000036
其中,
Figure BDA0003720480560000037
表示当前t输出状态,ht-1表示t-1时刻的隐藏状态,wiz表示输入和更新门之间的权重,f()函数就是sigmoid函数;
重置门表示将当前信息与之前的信息相结合,计算公式为:
Figure BDA0003720480560000038
其中,wir表示输入和重置门之间的权重;
在BiGRU的梯度下降中,存储前一层信息的函数梯度表达式为:
Figure BDA0003720480560000039
其中,
Figure BDA00037204805600000310
表示存储前一层信息的单元,ht表示时间t的输出值。
进一步的作为本发明的优选技术方案,所述步骤S3的具体步骤为:
步骤S31、构建BiLSTM模型,并且添加注意力机制;该BiLSTM模型包括五个部分:输入层、Embedding层、BiLSTM层、注意力机制层和输出层;
步骤S32、在输入层和Embedding层中输入文本,接着获得词的分布式表示;
步骤S33、在BiLSTM层中,将词向量依次送入正向LSTM和反向LSTM中,用于获取上下文信息;
步骤S34、在注意力机制层,用于得到句子级别的向量表示。对上述产生的结果使用attention加权,令hi表示有BiLSTM层产生的包含单词wi上下文信息的隐藏向量,通过全连接层将hi转换为ui,表达式为:
ui=tanh(Whi+b)
计算ui与上下文向量uw的相似度并通过softmax转换为概率分布:
Figure BDA0003720480560000041
其中,αi是每个单词句子的重要程度,因此使用αi作为全局对于hi加权求和得到表达句子的向量,uw表示单词对句子的贡献度多少,其中,uw是随机初始化并通过训练获得的;
步骤S35、输出层,输出最后的结果。
进一步的作为本发明的优选技术方案,所述步骤S4的具体步骤为:
步骤S41、在vggish模型获取音频特征之后,将特征向量按照时间序列传输到BiGRU网络中进行再训练,将获取到的文本特征馈送到BiLSTM模型中训练;
步骤S42、将BiGRU模型和BiLSTM模型融合起来,将两个模型的全连接层通过一定的权重比例连接起来,形成一个新的特征向量,然后将结果传递给全连接层,其中BiGRU和BiLSTM的全连接层大小均设置为256:
Figure BDA0003720480560000042
Figure BDA0003720480560000043
其中,∈表示损失函数,m表示调用的类型,包括文本和语音类型,l()表示交叉熵损失函数,xa表示关于a的向量表示,wa表示全连接层有关于a的权重,最后的q表示真实值
在该模型中使用swish激活函数来替代传统的ReLU函数,该函数具有平滑、无上界以及非单调的特点,其表达式如下:
f(x)=xθ(βx)
其中,β表示该激活函数中的一个参数,可以设定其为常量,也可以是一个可训练的参数,θ(x)就是sigmoid函数,具体表达式如下所示:
Figure BDA0003720480560000051
步骤S43、输出层输出最终结果,采用softmax分类器来进行处理,softmax的计算如下:
Figure BDA0003720480560000052
S=softmax(wi*xi+b)
其中,softmax(m)即为激活函数表达式,mi表示输入向量,k表示类的数量,S为最终结果,wi为权重,xi表示融合之后的特征作为输入,b为偏置。
进一步的作为本发明的优选技术方案,在步骤S5中,将步骤S4训练好的权重文件加载到改进的BiGRU和BiLSTM模型中,将测试集输入模型进行抑郁症检测,对得到的音频以及文本特征进行步骤S4中的多模态融合,最后进行Softmax分类,从而进行最终结果的输出。
本发明所述的基于BiGRU和BiLSTM的抑郁症检测方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明基于文本和音频的多模态特征融合,能更好的进行抑郁症患者的识别,避免了单模态特征无法包含所需全部抑郁症相关信息的问题。本发明采用的多模态的特征融合能够实现特征互补,增加预测的准确性。本发明采用的vggish可以更好地处理音频数据,BiGRU可以更好地处理时间序列数据,将两者结合可以提高模型泛化能力,还能防止过拟合。本发明采用的BiGRU是由两个方向相反的两个GRU网络组成,能够使当前时刻输出与前一时刻和后一时刻的状态都能够产生联系。
附图说明
图1为本发明的方法流程示意图;
图2为本发明的Vggish-BiGRU模型图;
图3为本发明BiGRU模型图。
具体实施方式
下面结合附图对本发明做进一步的详细说明。
如图1所示,基于BiGRU和BiLSTM的抑郁症检测方法,包括以下步骤:步骤S1、构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频和对应的文本信息,按照9∶1的比例划分训练集和测试集;步骤S2、采用vggish网络模型进行音频特征提取并训练,提取梅尔语谱图特征,获得具备情景感知的语音向量特征;步骤S3、进行文本特征提取并训练,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得文本特征;步骤S4、使用双向门循环单元BiGRU和双向长短期记忆网络BiLSTM模型,对所述语音向量特征和所述文本特征进行融合,从而进行抑郁症的分析判断;步骤S5、使用测试集对改进的模型进行测试,完成检测。
在步骤S1中,对采集到的音频数据进行预处理,所述预处理包括删除长时间的静音片段,并且进行背景噪音的降低。
步骤S2的具体步骤为:步骤S21、预加重,增加声音高频部分的能量,具体的表达式为:
m(h)=x(h)-αm(h-1)
式中,x(h)表示h时刻的语音的采样值,m(h-1)即为上一时刻的采样值,α值为预加重系数;取值通常介于0.9-1.0之间,取值为0.97;
步骤S22、分帧,预加重信号过后将原信号按照时间划分为一块块的,一块即为一帧,接着便是将得到的结果按照时间顺序拼接起来;
步骤S23、加窗,所谓加窗即是增加帧左右侧的连续性,加窗使用边缘平滑降到0的汉明窗,汉明窗表达式如下:
Figure BDA0003720480560000061
式中,L表示为窗的长度包含有L个采样点,窗由3个参数来描述:窗长,偏移以及形状;每一个加窗的声音信号叫做一帧,每一帧的毫秒数叫做帧长,相邻两帧左边界或右边界的距离叫帧移;时间是25ms,重叠15ms;
步骤S24、快速傅里叶变换,FFT的输入是一帧帧加窗后的信号m[i]…m[n],输出则是包含N个频带的复数m[k],表示原始信号中某一频率成分的幅度和相位;将信号从时域映射到频域,假设加窗后的采样点个数是n,FFT的定义如下:
Figure BDA0003720480560000062
其中,m[i]其中的i表示窗函数,通常使用汉明窗,m[i]是输入的语音信号,ma[k]表示对应的频域信号,k表示傅里叶变换的帧长度,n是傅里叶变换的点数;
步骤S25、对每个滤波器产生的输出频谱能量取对数后便可得到系数,计算每个滤波器组输出的对数能量为:
Figure BDA0003720480560000071
其中,ma(i)表示傅里叶变换之后得到的频域信号,hb(i)表示相对应的三角滤波器的频率响应;三角滤波器的频率响应定义为:
Figure BDA0003720480560000072
其中,0≤b≤M,M表示的是过滤器的数量,其中f(b)的表达公式为:
Figure BDA0003720480560000073
其中,fl表示滤波器频域中的最低频率,Jh表示最高频率,N是傅里叶变换的长度,
fs表示采样频率,fmel表示mel频率,fmel和f之间的转换公式为:
Figure BDA0003720480560000074
并且,
Figure BDA0003720480560000075
为fmel的逆函数,表达式为:
Figure BDA0003720480560000076
其中,b为实际频率;
步骤S26、在vggish模型获取音频特征之后,将特征向量按照时间序列传输到BiGRU网络中进行再训练,BiGRU是双向门控循环单元,连接向同一个输出层。GRU是LSTM的变种,相比于LSTM,GRU模型中只有两个门,重置门和更新门;vggish-Bigru模型如图2所示;
在GRU中,更新门控制从之前的隐藏状态到当前状态的信息量,表达式为:
Figure BDA0003720480560000077
其中,
Figure BDA0003720480560000078
表示当前t输出状态,ht-1表示t-1时刻的隐藏状态,wiz表示输入和更新门之间的权重,f()函数就是sigmoid函数;
重置门表示将当前信息与之前的信息相结合,计算公式为:
Figure BDA0003720480560000081
其中,wir表示输入和重置门之间的权重;
在BiGRU的梯度下降中,存储前一层信息的函数梯度表达式为:
Figure BDA0003720480560000082
其中,
Figure BDA0003720480560000083
表示存储前一层信息的单元,ht表示时间t的输出值。
步骤S3的具体步骤为:
步骤S31、构建BiLSTM模型,并且添加注意力机制;该BiLSTM模型包括五个部分:输入层、Embedding层、BiLSTM层、注意力机制层和输出层;
步骤S32、在输入层和Embedding层中输入文本,接着获得词的分布式表示;
步骤S33、在BiLSTM层中,将词向量依次送入正向LSTM和反向LSTM中,用于获取上下文信息;
步骤S34、在注意力机制层,用于得到句子级别的向量表示。对上述产生的结果使用attention加权,令hi表示有BiLSTM层产生的包含单词wi上下文信息的隐藏向量,通过全连接层将hi转换为ui,表达式为:
ui=tanh(Whi+b)
计算ui与上下文向量uw的相似度并通过softmax转换为概率分布:
Figure BDA0003720480560000084
其中,αi是每个单词句子的重要程度,因此使用αi作为全局对于hi加权求和得到表达句子的向量,uw表示单词对句子的贡献度多少,其中,uw是随机初始化并通过训练获得的;
步骤S35、输出层,输出最后的结果。
如图3所示,步骤S4的具体步骤为:步骤S41、在vggish模型获取音频特征之后,将特征向量按照时间序列传输到BiGRU网络中进行再训练,将获取到的文本特征馈送到BiLSTM模型中训练;
步骤S42、将BiGRU模型和BiLSTM模型融合起来,将两个模型的全连接层通过一定的权重比例连接起来,形成一个新的特征向量,然后将结果传递给全连接层,其中BiGRU和BiLSTM的全连接层大小均设置为256:
Figure BDA0003720480560000091
Figure BDA0003720480560000092
其中,∈表示损失函数,m表示调用的类型,包括文本和语音类型,l()表示交叉熵损失函数,xa表示关于a的向量表示,wa表示全连接层有关于a的权重,最后的q表示真实值
在该模型中使用swish激活函数来替代传统的ReLU函数,该函数具有平滑、无上界以及非单调的特点,其表达式如下:
f(x)=xθ(βx)
其中,β表示该激活函数中的一个参数,可以设定其为常量,也可以是一个可训练的参数,θ(x)就是sigmoid函数,具体表达式如下所示:
Figure BDA0003720480560000093
步骤S43、输出层输出最终结果,采用softmax分类器来进行处理,softmax的计算如下:
Figure BDA0003720480560000094
S=softmax(wi*xi+b)
其中,softmax(m)即为激活函数表达式,mi表示输入向量,k表示类的数量,S为最终结果,wi为权重,xi表示融合之后的特征作为输入,b为偏置。
在步骤S5中,将步骤S4训练好的权重文件加载到改进的BiGRU和BiLSTM模型中,将测试集输入模型进行抑郁症检测,对得到的音频以及文本特征进行步骤S4中的多模态融合,最后进行Softmax分类,从而进行最终结果的输出。
分别单独测试音频、文本以及混合特征模型,评判标准包括:F1 Score、Recall和Precion,测试结果如表1所示:
表1测试结果
Figure BDA0003720480560000095
Figure BDA0003720480560000101
本发明基于文本和音频的多模态特征融合,能更好的进行抑郁症患者的识别,避免了单模态特征无法包含所需全部抑郁症相关信息的问题。本发明采用的多模态的特征融合能够实现特征互补,增加预测的准确性。本发明采用的vggish可以更好地处理音频数据,BiGRU可以更好地处理时间序列数据,将两者结合可以提高模型泛化能力,还能防止过拟合。本发明采用的BiGRU是由两个方向相反的两个GRU网络组成,能够使当前时刻输出与前一时刻和后一时刻的状态都能够产生联系。
以上所述的具体实施方案,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,所应理解的是,以上所述仅为本发明的具体实施方案而已,并非用以限定本发明的范围,任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所做出的等同变化与修改,均应属于本发明保护的范围。

Claims (6)

1.基于BiGRU和BiLSTM的抑郁症检测方法,其特征在于,包括以下步骤:
步骤S1、构建训练样本集,所述训练样本集包含抑郁症和非抑郁症患者的音频和对应的文本信息,按照9:1的比例划分训练集和测试集;
步骤S2、采用vggish网络模型进行音频特征提取并训练,提取梅尔语谱图特征,获得具备情景感知的语音向量特征;
步骤S3、进行文本特征提取并训练,对所述训练样本集的患者测试文本进行句子级嵌入处理,获得文本特征;
步骤S4、使用双向门循环单元BiGRU和双向长短期记忆网络BiLSTM模型,对所述语音向量特征和所述文本特征进行融合,从而进行抑郁症的分析判断;
步骤S5、使用测试集对改进的模型进行测试,完成检测。
2.根据权利要求1所述的基于BiGRU和BiLSTM的抑郁症检测方法,其特征在于,在步骤S1中,对采集到的音频数据进行预处理,所述预处理包括删除长时间的静音片段,并且进行背景噪音的降低。
3.根据权利要求1所述的基于BiGRU和BiLSTM的抑郁症检测方法,其特征在于,所述步骤S2的具体步骤为:
步骤S21、预加重,增加声音高频部分的能量,具体的表达式为:
m(h)=x(h)-αm(h-1)
式中,x(h)表示h时刻的语音的采样值,m(h-1)即为上一时刻的采样值,α值为预加重系数;
步骤S22、分帧,预加重信号过后将原信号按照时间划分为一块块的,一块即为一帧,接着便是将得到的结果按照时间顺序拼接起来;
步骤S23、加窗,所谓加窗即是增加帧左右侧的连续性,加窗使用边缘平滑降到0的汉明窗,汉明窗表达式如下:
Figure FDA0003720480550000011
式中,L表示为窗的长度包含有L个采样点,窗由3个参数来描述:窗长,偏移以及形状;每一个加窗的声音信号叫做一帧,每一帧的毫秒数叫做帧长,相邻两帧左边界或右边界的距离叫帧移;
步骤S24、快速傅里叶变换,将信号从时域映射到频域,假设加窗后的采样点个数是n,FFT的定义如下:
Figure FDA0003720480550000021
其中,m[i]其中的i表示窗函数,通常使用汉明窗,m[i]是输入的语音信号,ma[k]表示对应的频域信号,k表示傅里叶变换的帧长度,n是傅里叶变换的点数;
步骤S25、对每个滤波器产生的输出频谱能量取对数后便可得到系数,计算每个滤波器组输出的对数能量为:
Figure FDA0003720480550000022
其中,ma(i)表示傅里叶变换之后得到的频域信号,hb(i)表示相对应的三角滤波器的频率响应;三角滤波器的频率响应定义为:
Figure FDA0003720480550000023
其中,0≤b≤M,M表示的是过滤器的数量,其中f(b)的表达公式为:
Figure FDA0003720480550000024
其中,fl表示滤波器频域中的最低频率,fh表示最高频率,N是傅里叶变换的长度,fs表示采样频率,fmel表示mel频率,fmel和f之间的转换公式为:
Figure FDA0003720480550000025
并且,
Figure FDA0003720480550000026
为fmel的逆函数,表达式为:
Figure FDA0003720480550000027
其中,b为实际频率;
步骤S26、在vggish模型获取音频特征之后,将特征向量按照时间序列传输到BiGRU网络中进行再训练,BiGRU是双向门控循环单元,连接向同一个输出层。GRU是LSTM的变种,相比于LSTM,GRU模型中只有两个门,重置门和更新门;
在GRU中,更新门控制从之前的隐藏状态到当前状态的信息量,表达式为:
Figure FDA0003720480550000028
其中,
Figure FDA0003720480550000031
表示当前t输出状态,ht-1表示t-1时刻的隐藏状态,wiz表示输入和更新门之间的权重,f()函数就是sigmoid函数;
重置门表示将当前信息与之前的信息相结合,计算公式为:
Figure FDA0003720480550000032
其中,wir表示输入和重置门之间的权重;
在BiGRU的梯度下降中,存储前一层信息的函数梯度表达式为:
Figure FDA0003720480550000033
其中,
Figure FDA0003720480550000034
表示存储前一层信息的单元,ht表示时间t的输出值。
4.根据权利要求1所述的基于BiGRU和BiLSTM的抑郁症检测方法,其特征在于,所述步骤S3的具体步骤为:
步骤S31、构建BiLSTM模型,并且添加注意力机制;该BiLSTM模型包括五个部分:输入层、Embedding层、BiLSTM层、注意力机制层和输出层;
步骤S32、在输入层和Embedding层中输入文本,接着获得词的分布式表示;
步骤S33、在BiLSTM层中,将词向量依次送入正向LSTM和反向LSTM中,用于获取上下文信息;
步骤S34、在注意力机制层,用于得到句子级别的向量表示。对上述产生的结果使用attention加权,令hi表示有BiLSTM层产生的包含单词wi上下文信息的隐藏向量,通过全连接层将hi转换为ui,表达式为:
ui=tanh(Whi+b)
计算ui与上下文向量uw的相似度并通过softmax转换为概率分布:
Figure FDA0003720480550000035
其中,αi是每个单词句子的重要程度,因此使用αi作为全局对于hi加权求和得到表达句子的向量,uw表示单词对句子的贡献度多少,其中,uw是随机初始化并通过训练获得的;
步骤S35、输出层,输出最后的结果。
5.根据权利要求1所述的基于BiGRU和BiLSTM的抑郁症检测方法,其特征在于,所述步骤S4的具体步骤为:
步骤S41、在vggish模型获取音频特征之后,将特征向量按照时间序列传输到BiGRU网络中进行再训练,将获取到的文本特征馈送到BiLSTM模型中训练;
步骤S42、将BiGRU模型和BiLSTM模型融合起来,将两个模型的全连接层通过一定的权重比例连接起来,形成一个新的特征向量,然后将结果传递给全连接层,其中BiGRU和BiLSTM的全连接层大小均设置为256:
Figure FDA0003720480550000041
Figure FDA0003720480550000042
其中,∈表示损失函数,m表示调用的类型,包括文本和语音类型,l()表示交叉熵损失函数,xa表示关于a的向量表示,wa表示全连接层有关于a的权重,最后的q表示真实值
在该模型中使用swish激活函数来替代传统的ReLU函数,该函数具有平滑、无上界以及非单调的特点,其表达式如下:
f(x)=xθ(βx)
其中,β表示该激活函数中的一个参数,可以设定其为常量,也可以是一个可训练的参数,θ(x)就是sigmoid函数,具体表达式如下所示:
Figure FDA0003720480550000043
步骤S43、输出层输出最终结果,采用softmax分类器来进行处理,softmax的计算如下:
Figure FDA0003720480550000044
S=softmax(wi*xi+b)
其中,softmax(m)即为激活函数表达式,mi表示输入向量,k表示类的数量,S为最终结果,wi为权重,xi表示融合之后的特征作为输入,b为偏置。
6.根据权利要求1所述的基于BiGRU和BiLSTM的抑郁症检测方法,其特征在于,在步骤S5中,将步骤S4训练好的权重文件加载到改进的BiGRU和BiLSTM模型中,将测试集输入模型进行抑郁症检测,对得到的音频以及文本特征进行步骤S4中的多模态融合,最后进行Softmax分类,从而进行最终结果的输出。
CN202210759072.9A 2022-06-29 2022-06-29 基于BiGRU和BiLSTM的抑郁症检测方法 Pending CN115171878A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210759072.9A CN115171878A (zh) 2022-06-29 2022-06-29 基于BiGRU和BiLSTM的抑郁症检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210759072.9A CN115171878A (zh) 2022-06-29 2022-06-29 基于BiGRU和BiLSTM的抑郁症检测方法

Publications (1)

Publication Number Publication Date
CN115171878A true CN115171878A (zh) 2022-10-11

Family

ID=83490179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210759072.9A Pending CN115171878A (zh) 2022-06-29 2022-06-29 基于BiGRU和BiLSTM的抑郁症检测方法

Country Status (1)

Country Link
CN (1) CN115171878A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115831352A (zh) * 2022-12-05 2023-03-21 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法
CN115831352B (zh) * 2022-12-05 2023-08-08 湖南工商大学 一种基于动态纹理特征和时间分片权重网络的检测方法

Similar Documents

Publication Publication Date Title
Mehrish et al. A review of deep learning techniques for speech processing
Bhatti et al. A neural network approach for human emotion recognition in speech
CN111312245B (zh) 一种语音应答方法、装置和存储介质
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN115862684A (zh) 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
KR20190135853A (ko) 텍스트- 다중 음성 변환 방법 및 시스템
Trinh et al. Pathological speech classification using a convolutional neural network
Cheng et al. DNN-based speech enhancement with self-attention on feature dimension
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Tan et al. Digit recognition using neural networks
CN115171878A (zh) 基于BiGRU和BiLSTM的抑郁症检测方法
Nedjah et al. Automatic speech recognition of Portuguese phonemes using neural networks ensemble
Selvan et al. Emotion detection on phone calls during emergency using ensemble model with hyper parameter tuning
CN112329819A (zh) 基于多网络融合的水下目标识别方法
Yang Design of service robot based on user emotion recognition and environmental monitoring
Dhar et al. A system to predict emotion from Bengali speech
Rao Accent classification from an emotional speech in clean and noisy environments
Jain et al. Investigation Using MLP-SVM-PCA Classifiers on Speech Emotion Recognition
Kilimci et al. Evaluating raw waveforms with deep learning frameworks for speech emotion recognition
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
Shome et al. Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
Djeffal et al. Noise-Robust Speech Recognition: A Comparative Analysis of LSTM and CNN Approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination