CN113571050A

CN113571050A - 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法

Info

Publication number: CN113571050A
Application number: CN202110855540.8A
Authority: CN
Inventors: 赵张; 王守岩; 汪静莹; 刘伟
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2021-10-29

Abstract

本发明提供一种基于Attention与Bi‑LSTM的语音抑郁状态识别方法，使用融合注意力机制与双向LSTM的神经网络模型来对采集切分得到的语音信号片段进行分类，由于该神经网络中融合了双向LSTM网络，因此能够对语音信号中的时序特征进行提取，并且双向LSTM网络融合前向后向的信息，能够提取得到更为全面的特征，不仅如此，由于该神经网络中还融合了注意力机制，能通过自学习的方式调整其权重系数，重点观察语音的部分片段，因此能很好地解决因语音信号特征分布的稀疏性造成的问题。上述的两种方法相结合能进一步提高抑郁筛查的准确性和稳定性。

Description

一种基于Attention与Bi-LSTM的语音抑郁状态识别方法

技术领域

本发明属于语音信号处理的技术领域，具体涉及一种基于Attention与Bi-LSTM的语音抑郁状态识别方法。

背景技术

现行的抑郁症临床诊断方法是医生根据患者的主观描述，结合患者填写的量表结果，依靠个人经验进行评估。这种方式需要患者准确地描述自身情况，医生具备丰富的临床经验，对医患的要求都非常高。此外，整个过程耗时较长，诊断流程效率低下。因此一种客观、准确、方便、快捷的自动化抑郁识别方法能够提升临床诊断效率，让患者及时了解自身精神健康状态。目前针对抑郁识别并没有明确的标记物，语音作为表情外情绪的一种重要的外部表现，加之其使用限制少、设备成本低、无接触、采集方式无创且便捷等独特的优势，成为针对抑郁识别最受期待的数据。

目前为止，研究人员为提升识别精度主要从特征设计和模型改进两个角度出发。特征设计层面主要在于使用不同领域的语音特征如声学特征、频域特征，并比较不同特征组合的分类结果，但这些特征有自身的领域背景并非针对抑郁设计，不能充分挖掘出语音中与抑郁相关的信息。模型改进层面除了使用机器学习算法，还引入常见的卷积神经网络，但卷积的方式忽略了语音信号作为时间序列与时间相关的信息。此外，语音信号的特征分布具有稀疏性，大量的信息集中于部分片段，目前对语音的各个部分给予相同的权重，计算成本高且提取的噪音信息还会对分类结果造成干扰。

发明内容

本发明是为解决上述问题而进行的，目的在于提供一种基于Attention与Bi-LSTM的语音抑郁状态识别方法。

本发明采用了如下技术方案：本发明提供了一种基于Attention与Bi-LSTM的语音抑郁状态识别方法，其特征在于，包括：步骤S1，使用录音设备采集被试的语音，得到语音信号；步骤S2，对语音信号进行预处理；步骤S3，将语音信号切分为多个语音信号片段并分别映射到时频域，得到语音信号片段的时频域映射；步骤S4，建立融合注意力机制与双向LSTM的神经网络模型，将多个语音信号片段的时频域映射输入神经网络模型，以语音信号所属的被试是否抑郁作为训练标签，得到对应的多个分类结果；步骤S5，对于多个分类结果，以投票法的方式选择类别更多的标签作为语音信号的最终分类结果，其中，神经网络模型由依次连接的卷积层、双向LSTM层、注意力层、全连接层以及Softmax层组成，卷积层的输入为语音信号片段的时频域映射；卷积层用于提取语音信号片段的空间特征；双向LSTM层用于提取语音信号片段的时序特征；注意力层用于衡量各个语音信号片段的重要性，给予不同的权重，得到加权后的目标特征；全连接层用于将目标特征进行分布式特征表示；Softmax层用于基于目标特征的分布式特征表示对语音信号片段进行分类。

本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法，还可以具有这样的技术特征，其中，双向LSTM层由作为前向LSTM层的LSTM单元以及作为后向LSTM层的LSTM单元构成，前向LSTM层的LSTM单元用于接收原始顺序的输入信号，后向LSTM层的LSTM单元用于接收反向顺序的输入信号。

本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法，还可以具有这样的技术特征，其中，LSTM单元具有输入门，遗忘门，输出门以及细胞状态，细胞状态用于存储信息；输入门用于向细胞状态中添加信息，输入门的值根据以下公式来得到：

i_t＝δ(W_ix_t+U_ih_t-₁+b_i)

遗忘门用于从细胞状态中移除信息，遗忘门的值根据以下公式来得到：

f_t＝δ(W_fx_t+U_fh_t-1+b_f)

输出门用于输出细胞状态中的信息，输出门的值根据以下公式来得到：

o_t＝δ(W_ox_t+U_oh_t-1+b_o)

式中，x_t为当前输入，h_t为隐藏层的输入，h_t-1为上一状态的输出，W_i、W_f、W_o为对应的权重系数矩阵，b_i、b_f、b_o为对应的偏置项，δ为sigmoid函数。

本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法，还可以具有这样的技术特征，其中，双向LSTM层的输出h_t根据以下公式来得到：

h_t＝o_ttanh(c_t)

式中，

为细胞状态候选值，c_t为当前时刻状态值，W_c、U_c为对应的权重系数矩阵，b_c为偏置项，tanh为激活函数。

本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法，还可以具有这样的技术特征，其中，注意力层的输出根据以下公式来得到：

u_t＝tanh(W_ωh_t+b_ω)

式中，u_t为h_t通过多层感知机映射得到的隐式表达，u_ω为整个语音段矢量，α_t为权重系数，W_ω为权重系数矩阵，b_ω为偏置项，s为语音矢量，即目标特征。

本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法，还可以具有这样的技术特征，其中，语音信号片段的时长为2秒。

本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法，还可以具有这样的技术特征，其中，步骤S3中，通过短时傅里叶变换来将语音信号片段映射到时频域。

本发明提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法，还可以具有这样的技术特征，其中，预处理包括对语音信号进行噪音片段的移除、静音片段的移除、高通滤波以及降采样。

发明作用与效果

根据本发明的基于Attention与Bi-LSTM的语音抑郁状态识别方法，设计了一种融合注意力机制与双向LSTM的神经网络模型，使用该神经网络模型对采集切分得到的语音片段进行分类，由于该神经网络中融合了双向长短时记忆网络(即双向LSTM网络)，因此能够对语音信号中的时序特征进行提取，并且双向长短时记忆网络融合前向后向的信息，能够提取得到更为全面的特征，从而解决了现有技术中，常见的卷积神经网络卷积的方式忽略了语音信号的时序特征这一技术问题。

不仅如此，由于该神经网络中还融合了注意力机制(即Attention)，能通过自学习的方式调整其权重系数，重点观察语音中的部分片段，因此能很好地解决因语音信号特征分布的稀疏性造成的技术问题，例如计算成本高、提取的噪音信息对分类结果造成干扰等。上述的两种方法相结合能进一步提高抑郁筛查的准确性和稳定性。

附图说明

图1是本发明实施例中融合注意力机制与双向LSTM的神经网络模型的结构示意图；

图2是本发明实施例中注意力机制的结构示意图；

图3是本发明实施例的端到端的语音抑郁状态识别方法流程图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的融合注意力机制与双向长短时记忆网络的语音抑郁状态识别方法作具体阐述。

<实施例>

图1是本发明实施例的融合注意力机制与双向LSTM的神经网络模型结构示意图。

如图1所示，本发明实施例的融合注意力机制与双向LSTM的神经网络模型由依次连接的卷积层、双向LSTM层、注意力层、全连接层以及Softmax层组成。

卷积层的输入为语音信号片段在时频域上的二维矩阵；双向LSTM层用于提取语音信号片段的时序特征；注意力层用于衡量各个语音信号片段的重要性，并给予不同的权重，得到加权后的目标特征；全连接层用于将目标特征进行分布式特征表示；Softmax层基于目标特征的分布式特征表示，对语音信号片段进行分类。

其中，LSTM网络通过门结构来对细胞状态增加或删除信息，由输入门i_t、遗忘门f_t、输出门O_t三个门函数和细胞状态组成。

LSTM网络层的输出通过以下步骤以及公式来得到：

步骤1，决定要丢弃的信息，该决定通过遗忘门完成，读取当前输入x_t，隐藏层的输入为h_t，上一状态的输出为h_t-1，计算输入门、遗忘门、输出门的值：

i_t＝δ(W_ix_t+U_ih_t-1+b_i)

f_t＝δ(W_fx_t+U_fh_t-1+b_f)

o_t＝δ(W_ox_t+U_oh_t-1+b_o)

步骤2，确定细胞状态中的信息，即细胞状态候选值

步骤3，据上一时态和当前候选值计算当前时刻状态值：

步骤4，LSTM的最终输出为输出门状态与前一状态的相乘，并加入激活函数tanh：

h_t＝o_ttanh(c_t)

图2是本发明实施例中注意力机制的结构示意图。

如图2所示，注意力机制是一系列权重参数，对于一段语音并不是从头到尾每个部分都给予同样的关注度，而是通过自学习的方式调整权重系数，重点观察语音的部分片段。

本实施例中，通过多层感知机将双向LSTM的输出h_t映射为隐式表达u_t，然后用u_t与整个语音段矢量u_ω的相似性来衡量各个片段的重要性。再通过一个Softmax函数得到标准化后的权重系数α_t，最后语音矢量s经过h_t加权求和得到。语音矢量s可以被视为一段语音的高维特征表示，类似于自然语音处理任务中对一段query经过循环神经网络提取到的特征。u_ω是通过训练学习得到的最终参数，初始时是随机的矢量。注意力层的输出通过以下公式来得到：

u_t＝tanh(W_ωh_t+b_ω)；

如图3所示，基于Attention与Bi-LSTM的语音抑郁状态识别方法包括以下步骤：

步骤S1，设计问题，让被试根据屏幕上显示的问题进行回答，使用录音设备采集被试完整的说话过程，并将其记录为wav文件，该文件即为采集到的语音信号。

步骤S2，对采集到的语音信号进行预处理，人工筛查排除明显的噪音片段，如咳嗽、东西掉落的声音等，并对语音信号进行高通滤波、降采样、静音片段检测和移除。

本实施例中，采用截止频率为137.8Hz的二阶巴特沃斯滤波器进行高通滤波，降低低频噪音对人声有效信息的干扰；使用工具包librosa将语音信号统一采样到16000hz；使用工具包Pyaudioanalysis进行有声片段和静音片段的检测，并去除非语音的无声片段。

步骤S3，将采集到的语音信号切分为单位时长2秒的若干个语音信号片段，通过短时傅里叶变换分别将其映射到时频域，得到对应的多个语音信号片段的时频域映射。

其中，短时傅里叶变换的参数设置如下：窗长0.1s，滑动步长0.05s，选用hamming窗，NFFT＝1024。

步骤S4，建立融合注意力机制与双向LSTM的神经网络模型，将多个语音信号片段的时频域映射输入该神经网络模型，以该语音所属被试是否抑郁作为训练标签进行训练，得到和多个切分得到的语音信号片段所对应的多个分类结果。

本实施例中，神经网络的输入维度为39×513，卷积层的维度是256×1，步长为4，Dropout层的激活概率是0.5，LSTM的cell个数设为64个，双向LSTM的输出维度是10×128，注意力机制中W_ω维度为10×128，s维度为1×128，全连接层的向量维度是128，最后以Softmax为激活函数。

批处理大小(batch size)为512，交叉熵(cross entropy)为损失函数，优化器为Adam，训练次数为200次，初始学习率为0.0001，学习率会随着迭代步数的增加而衰减，每经过50次训练学习率×0.5。

步骤S5，对步骤S4得到的对应于多个语音信号片段的多个分类结果，以投票法的方式选择类别更多的标签作为该段语音的最终分类结果。

本发明实施例还提供了以下三种语音抑郁状态分类结果的评价指标，Accuracy、F1分数以及AUC值。这三种评价指标的具体定义如下：

F1分数是召回率和精确率的调和平均值，取值范围[0，1]。

AUC值为受试者工作特征曲线(receiver operating characteristic curve，ROC)与坐标轴围成的面积，ROC曲线的横坐标是

纵坐标是

曲线处于y＝x上方，取值范围[0.5,1]。

其中，TP，FP，FN，TN的定义如表1所示。

表1语音抑郁状态分类结果混淆矩阵

	抑郁被试的音频	正常被试的音频
			判断属于抑郁被试的音频	True Positive(TP)	False Positive(FP)
判断属于正常被试的音频	False Negative(FN)	True Negative(TN)

上述三种评价指标的值都与分类性能正相关，值越大代表分类的结果越好。

如上所述，通过基于Attention与Bi-LSTM的语音抑郁状态识别方法，将采集到的语音经处理后送入本发明设计的融合注意力机制与双向LSTM的神经网络模型进行训练，得到分类结果，并得到该分类结果的评价。

实施例作用与效果

根据本实施例提供的基于Attention与Bi-LSTM的语音抑郁状态识别方法，设计了一种融合注意力机制与双向LSTM的神经网络模型，使用该神经网络模型对采集切分得到的语音片段进行分类，由于该神经网络模型中融合了双向LSTM网络，因此能够对语音信号中的时序特征进行提取，并且双向LSTM网络融合前向后向的信息，能够提取得到更为全面的特征，从而解决了现有技术中，常见的卷积神经网络卷积的方式忽略了语音信号的时序特征这一技术问题。

不仅如此，由于该神经网络中还融合了注意力机制，能通过自学习的方式调整其权重系数，重点观察语音的部分片段，因此能很好地解决因语音信号特征分布的稀疏性造成的技术问题，例如计算成本高、提取的噪音信息对分类结果造成干扰等。上述的两种方法相结合能进一步提高抑郁筛查的准确性和稳定性。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于Attention与Bi-LSTM的语音抑郁状态识别方法，用于识别语音抑郁状态，其特征在于，包括：

步骤S1，使用录音设备采集被试的语音，得到语音信号；

步骤S2，对所述语音信号进行预处理；

步骤S3，将所述语音信号切分为多个语音信号片段并分别映射到时频域，得到多个所述语音信号片段的时频域映射；

步骤S4，建立融合注意力机制与双向LSTM的神经网络模型，将多个所述语音信号片段的时频域映射输入所述神经网络模型，以所述语音信号所属的所述被试是否抑郁作为训练标签进行训练，得到对应的多个分类结果；

步骤S5，对于所述多个分类结果，以投票法的方式选择类别更多的所述训练标签作为所述语音信号的最终分类结果，

其中，所述神经网络模型由依次连接的卷积层、双向LSTM层、注意力层、全连接层以及Softmax层组成，

所述卷积层用于提取所述语音信号片段的空间特征，所述卷积层的输入为所述语音信号片段的时频域映射，

所述双向LSTM层用于提取所述语音信号片段的时序特征，

所述注意力层用于衡量各个所述语音信号片段的重要性，给予不同的权重，得到加权后的目标特征，

所述全连接层用于将所述目标特征进行分布式特征表示，

所述Softmax层用于基于所述目标特征的分布式特征表示对所述语音信号片段进行分类。

2.根据权利要求1所述的语音抑郁状态识别方法，其特征在于：

其中，所述双向LSTM层由作为前向LSTM层的多个LSTM单元以及作为后向LSTM层的多个所述LSTM单元构成，

所述前向LSTM层的多个所述LSTM单元用于接收原始顺序的所述输入信号，

所述后向LSTM层的多个所述LSTM单元用于接收反向顺序的所述输入信号。

3.根据权利要求2所述的语音抑郁状态识别方法，其特征在于：

其中，所述LSTM单元具有输入门，遗忘门，输出门以及细胞状态，

所述输入门用于向所述细胞状态中添加信息，所述输入门的值根据以下公式来得到：

i_t＝δ(W_ix_t+U_ih_t-1+b_i)

所述遗忘门用于从所述细胞状态中移除信息，所述遗忘门的值根据以下公式来得到：

f_t＝δ(W_fx_t+U_fh_t-1+b_f)

所述输出门用于输出所述细胞状态的信息，所述输出门的值根据以下公式来得到：

o_t＝δ(W_ox_t+U_oh_t-1+b_o)

4.根据权利要求3所述的语音抑郁状态识别方法，其特征在于：

其中，所述双向LSTM层的输出h_t根据以下公式来得到：

h_t＝o_ttanh(c_t)

式中，

为所述细胞状态候选值，c_t为当前时刻状态值，W_c、U_c为对应的权重系数矩阵，b_c为偏置项，tanh为激活函数。

5.根据权利要求4所述的语音抑郁状态识别方法，其特征在于：

其中，所述注意力层的输出根据以下公式来得到：

式中，u_t为h_t通过多层感知机映射得到的隐式表达，u_ω为整个语音段矢量，α_t为权重系数，W_ω为权重系数矩阵，b_ω为偏置项，s为语音矢量，即所述目标特征。

6.根据权利要求1所述的语音抑郁状态识别方法，其特征在于：

其中，所述语音信号片段的时长为2秒。

7.根据权利要求1所述的语音抑郁状态识别方法，其特征在于：

其中，所述步骤S3中，通过短时傅里叶变换来将所述语音信号片段映射到所述时频域。

8.根据权利要求1所述的语音抑郁状态识别方法，其特征在于：

其中，所述预处理包括对所述语音信号进行噪音片段的移除、静音片段的移除、高通滤波以及降采样。