CN116570284A

CN116570284A - 一种基于语音表征的抑郁症识别方法、系统

Info

Publication number: CN116570284A
Application number: CN202310475932.0A
Authority: CN
Inventors: 何亮; 牛怡扬
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-08-11
Also published as: CN116965819A

Abstract

本发明提出一种基于语音表征的抑郁症识别方法和系统，通过将一种语音表征识别技术应用于抑郁症患者的诊断与治疗，其中先获取受试者的语音信号及抑郁程度评分，然后对原始语音信号进行预处理，接着基于WavLM模型提取表征抑郁状态的语音特征并建立语音特征集，然后将语音特征集分为训练集、验证集和测试集，训练集基于ResNet和LSTM模型进行语音特征分类，接着使用验证集对所述模型不断进行检验和优化，然后使用测试集对优化模型泛化能力进行评估，最后选出最终优化模型并进行诊断应用，以得出抑郁症程度诊断结果。此方法和系统为抑郁症的识别、程度诊断和治疗等提供技术支持，大大减少抑郁症患者的疾病评估成本。

Description

一种基于语音表征的抑郁症识别方法、系统

技术领域

本发明涉及语音识别、机器学习技术领域，具体涉及一种基于语音表征的抑郁症识别方法、系统。

背景技术

抑郁症是一种全球性的心理障碍，据世界卫生组织(WHO)估计，有超过3.5亿人患有此病。传统的抑郁症诊断通常基于患者的症状和生理指标进行分析和诊断，缺乏客观性和准确性。随着人工智能和语音识别技术的发展，基于语音信号的抑郁症识别技术成为研究热点。国内外的研究表明，语音特征可以有效识别抑郁症，如共振峰、功率谱密度、基频和基频微扰等。多个研究也发现，语音特征与抑郁症状的严重程度相关，语音特征可以作为区分抑郁症患者和健康人群的客观生物学依据。

近年来，研究利用大规模无监督数据进行训练的预训练模型有着非常好的泛化性，只需在小规模标注数据上进行微调，就可以在相应任务上有所提高。虽然之前预训练模型在语音处理领域已经取得了一些进展，但其只在语音识别任务上进行了验证。为此，微软亚洲研究院提出的通用语音预训练模型(WavLM)，不仅在SUPERB所有13项语音任务测评中超过先前所有模型，排名第一，而且在其它4个不同的语音经典测评数据集上都取得了很好效果。因此，我们可以自然而然地想到基于WavLM模型提取语音特征。而针对与语音识别分类方法实现过程复杂、识别率低等问题,有研究提出了一种基于ResNet和LSTM相结合的语音识别分类方法，实验结果表明,将语音识别分类任务等错误率降低至1.196％。因此，我们可以自然而然地想到基于ResNet和LSTM模型进行语音特征分类。

综上，基于语音信号的抑郁症识别技术具有很大的潜力，可提供客观、准确的抑郁症诊断方法，为临床医生和抑郁症患者提供更好的治疗和帮助。

发明内容

本发明的目的是提供一种基于语音表征的抑郁症识别方法和系统，从而实现抑郁症的识别和程度判断。

为了达到上述目的，本发明一方面提供一种基于语音表征的抑郁症识别方法，包括以下步骤：

1)将受试者分为健康组和确诊组，分别获取受试者的语音信号及抑郁程度评分，所述抑郁程度评分根据汉密尔顿抑郁量表设定；

2)对语音信号进行预处理，进行预加重、分帧、加窗、傅里叶变换处理后，将原始语音信号转换为频域表示，便于后续表征抑郁状态的语音特征提取和语音特征集的构建；

3)从经过预处理的语音信号中，基于通用语音预训练模型(WavLM)提取表征抑郁状态的语音特征，构建语音特征集；

4)将语音特征集分为训练集、验证集和测试集，训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络(ResNet)模型以基于所述语音特征识别并分类抑郁症患者和健康受试者；使用验证集对所述模型进行检验和优化，以建立优化模型；使用测试集对优化模型泛化能力进行评估；最后选出最终优化模型，在新的数据上进行应用，以得出抑郁症程度诊断结果。

进一步的，在语音信号预处理过程中，包括以下步骤：

1)对原始语音信号进行预加重处理，进行高通滤波，以增强高频分量，减少低频分量，提高信噪比。

2)在预加重处理之后，将语音信号进行分帧处理，将信号分成帧，以便于对每一帧进行独立处理。

3)在分帧处理之后，将语音信号的每一帧进行汉明窗加窗处理，减少信号边缘的过渡效应，避免频谱泄漏。

4)在加窗处理之后，对分帧加窗后的各帧信号进行快速傅里叶变换，得到各帧的幅度和相位谱，由此将时域信号转换为频域信号。

5)在傅里叶变换之后，将每个帧的频域信号组合成一个矩阵，即得到原始语音信号的频域表示。

进一步的在语音特征提取的过程中，所述的基于通用语音预训练模型(WavLM)提取表征抑郁状态的语音特征，构建语音特征集。

进一步的在语音特征分类的过程中，包括：训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络模型(ResNet)以基于所述语音特征识别并分类抑郁症患者和健康受试者；使用验证集对所述模型进行检验和优化，以建立优化模型；使用测试集对优化模型泛化能力进行评估。

进一步的，本方法根据汉密尔顿抑郁量表设定受试者的标签，汉密尔顿抑郁量表总分超过24分为严重抑郁，超过17分为轻到中度抑郁，小于7分则没有抑郁症状。

另一方面，本发明还提供了一种基于语音表征的抑郁症识别系统，包括以下模块：

用户界面：用以方便用户进行操作和交互，能够快速地完成任务的图形界面。

语音采集模块，用以获取受试者的语音信号并传输给语音预处理模块和语音特征提取模块。

语音预处理模块，用以对语音信号进行预处理，便于后续表征抑郁状态的语音特征提取。

语音特征提取模块，用以基于WavLM模型提取表征抑郁状态的语音特征。

特征分类处理模块，用以基于ResNet模型分类所述语音特征识别抑郁症患者和健康受试者。

诊断结果反馈模块，用以反馈最终的诊断结果给用户。

相对于现有技术，本发明的特点及有益效果在于：

本发明提供一种基于语音表征的抑郁症识别方法和系统，创新性地将基于WavLM模型提取表征抑郁状态以及基于ResNet和LSTM模型语音特征分类的一种语音表征识别技术应用于抑郁症患者的诊断与治疗，实现在日常生活中采集患者的语音信息，进而分析判断抑郁症状程度，为抑郁症的识别、程度诊断和治疗等提供技术支持，大大减少抑郁症患者的疾病评估成本，并且能让患者在日常生活、家庭护理环境中获得准确的症状程度诊断，以尽可能减少抑郁症带来的负面后果，有利于抑郁症患者的治疗与康复。

附图说明

图1是本发明一种基于语音表征的抑郁症识别方法的流程图。

图2是本发明一种基于语音表征的抑郁症识别方法系统的框架图。

图3是本发明一种基于语音表征的抑郁症识别方法系统的详细流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明的一种基于语音表征的抑郁症识别方法的流程图。参照图1所示，本发明的一种基于语音表征的抑郁症识别方法包括以下步骤：

Step1获取受试者的语音信号及抑郁程度评分。

Step2对原始语音信号进行预处理。

Step3基于WavLM模型提取表征抑郁状态的语音特征。

Step4训练集基于ResNet和LSTM模型语音特征分类。

Step5使用验证集对所述模型进行检验和优化。

Step6使用测试集对优化模型进行性能评估。

Step7选出最优化模型并应用诊断。

在Step1一个实施例中，语音采集设备可以为音频采集设备，也可为具有音频采集功能的电子设备，如手机，平板电脑等；而抑郁程度评分一般根据汉密尔顿抑郁量表设定，也可以根据实际情况替换成其他量表，如蒙特利尔认知评估量表，自评抑郁量表等。

在Step2中，对原始语音信号进行预处理，具体包括以下步骤：

1)预加重：

就将原始语音信号通过一个高通滤波器，以增强高频分量，减少低频分量，提高信噪比：

y(t)＝x(t)-αx(t-1)

其中滤波器系数(α)的值通常取为0.95或0.97。

2)分帧：

在预加重之后，我们需要将信号分成短时帧。因此在大多数情况下，语音信号是非平稳的，对整个信号进行傅里叶变换是没有意义的，因为我们会随着时间的推移丢失信号的频率轮廓。语音信号是短时平稳信号。因此我们在短时帧上进行傅里叶变换，通过连接相邻帧来获得信号频率轮廓的良好近似。

将语音信号分成多个帧，每个帧的长度为N个采样点，相邻帧之间重叠部分为L个采样点。

3)加窗：

将信号分割成帧后，我们再对每个帧乘以一个窗函数，如Hamming窗口。以增加帧左端和右端的连续性，来抵消FFT假设(数据是无限的)，并减少频谱泄漏。汉明窗的形式如下：

其中0≤n≤N-1,N是窗口长度，a＝0.46。

则我们加窗处理后的信号在时域上的表示为：

其中，y(n)表示经预加重后第n个采样点的值，w(n)为汉明窗，L为重叠长度。

4)傅里叶变换：

由于信号在时域上的变换通常很难看出信号的特性，通常对它做快速傅里叶变换(FFT)转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。

接下来对分帧加窗后的各帧信号进行N点FFT来计算频谱，也称为短时傅立叶变换(STFT)：

其中N通常为256或512，NFFT＝512。

则我们对加窗处理后时域信号表达式进行傅里叶变换，得到语音信号在频域上的表示为：

其中，k表示第k个帧，w表示角频率，Y(k,ω)表示第k个帧在角频率为w处的频域值。

将上式转换为复数形式，得到：

Y(k,ω)＝A(k,ω)+jB(k,ω)

其中，A(k,ω)和B(k,ω)分别表示第k个帧在角频率为ω处的实部和虚部。

5)频域信号组合：

将傅里叶变换后的每个帧频域信号组合成一个矩阵，即得到原始语音信号的频域表示。

最终，我们将傅里叶变换后所有帧的频域表示组合成一个矩阵Y：

Y＝[Y(1,ω),Y(2,ω),...,Y(K,ω)]

其中，K为帧数。

由此得到原始语音信号的频域表示。

在Step3中，从经过预处理的语音信号中，基于WavLM模型提取表征抑郁状态的语音特征，构建语音特征集。根据模型预训练目标的不同，我们选择判别式的自监督预训练方法通过对比学习或者预测离散化索引(id)的方式对模型进行预训练。

具体的，在语音特征提取过程中，包括以下步骤：

1)卷积神经网络编码器：

WavLM模型中的CNN encoder包含7层，每层都由一个时域卷积层、一个层归一化层和一个GELU激活函数层组成，以上三种层在卷积编码器中被重复使用7次，以提取出更加抽象的时间特征，并将这些特征传递到后续的Transformer模型中。通过利用时域卷积层、层规范化层和GELU激活函数层，卷积编码器能够为后续的模型提供相关的特征，并有效地提高语音识别和语音生成的性能。

1.1)时域卷积层：

时域卷积层用来从语音信号中提取局部时域信息。每个时域卷积层由多个卷积核组成，每个卷积核可以提取出一种具有局部时域特征的语音片段，例如高频部分或低频部分。时域卷积层的输出为经过卷积核滤波后的时域信号。

1.2)层规范化层：

在进行卷积操作后，输出的特征会受到“特征偏移”(feature shift)的影响。在这种情况下，我们需要对特征进行规范化(Normalization)，以避免特征的偏移对后续网络层的影响。层规范化层的作用就是对每个特征图进行归一化操作，使其均值为0，方差为1。

1.3)GELU激活函数层：

激活函数用来引入非线性特征，增加模型的表达能力。GELU激活函数是一种近似于高斯误差线性单元的激活函数，用来优化模型的性能。GELU激活函数层的作用是将规范化后的特征图进行激活，以便后续的特征学习和优化。

2)采用门控相对位置偏置的变压器结构：

2.1)多头注意力机制：将输入序列分成多个头，分别进行自注意力计算，从而可以捕捉不同位置之间的关系。

2.2)相对位置编码：为了更好地捕捉位置信息，引入了相对位置编码，将位置信息作为额外的输入特征来处理。

2.3)门控机制：引入门控机制，通过门控网络来动态地调整注意力权重，从而更好地处理长序列输入。

2.4)相对位置偏置：通过引入相对位置偏置，可以更好地处理不同位置之间的关系，从而提高模型的泛化能力。

3)预训练中联合学习掩蔽语音预测和去噪：

3.1)数据预处理：

使用Step2中原始语音信号经过预处理后的频域信号。

3.2)模型构建：

模型采用Transformer结构，包括编码器和解码器两个部分。编码器将输入的语音频域信号转换为隐藏表示，解码器将隐藏表示转换为输出的语音信号，其中，编码器和解码器均由多层自注意力机制和全连接层组成。

3.3)模型训练：

模型训练使用联合学习的方法，同时训练掩蔽语音预测和去噪两个任务。具体而言，模型的输入为带噪语音的频域表示Y，输出为掩蔽语音的频域表示M和去噪后的频域表示Z。模型采用LSTM神经网络结构，可以处理变长序列数据。模型的目标是最小化预测输出和真实标签之间的交叉熵损失函数。

掩蔽语音预测的损失函数为：

其中，N表示训练样本的数量，F表示频域表示的维度，y_ij表示第i个样本在第j个频率上的真实遮蔽掩码，表示模型预测的遮蔽掩码。

去噪的损失函数为：

其中，Z_ij表示第i个样本在第j个频率上的真实去噪后的频域表示，表示模型预测的去噪后的频域表示。

3.4)预测

对于新的语音信号，将其分成多个帧，并对每个帧进行短时傅里叶变换，得到频域表示。然后，将频域表示输入到训练好的模型中，得到掩蔽语音和去噪后的频域表示。最后，将两个频域表示合并并进行逆短时傅里叶变换，得到增强后的语音信号。

掩蔽语音预测的具体实现方法是通过预测每个频率上的遮蔽掩码来实现的。假设原始语音信号的频域表示为X，掩蔽语音的频域表示为M，则它们之间的关系可以表示为：

M＝|X|⊙Γ

其中，|X|表示原始语音信号频域表示的幅度谱，Γ表示遮蔽掩码，⊙表示逐元素相乘。

Γ的值在0到1之间，表示对应频率上的信号是否被遮蔽，0表示被遮蔽，1表示不被遮蔽。

模型的目标是预测出正确的遮蔽掩码，以得到准确的掩蔽语音表示。

去噪的具体实现方法是通过预测噪声的频域表示，然后将带噪语音的频域表示减去噪声频域表示，得到去噪后的频域表示。假设带噪语音的频域表示为Y，噪声的频域表示为N，则去噪后的频域表示为：

Z＝Y-N

其中，N的预测方法和Γ的预测方法类似，都是通过模型预测出对应频率上的噪声掩码。

模型的目标是预测出正确的噪声掩码，以得到准确的噪声表示。

总体，首先对语音的MFCC特征进行了k-means聚类来将连续信号转换成离散标签，并将离散标签当作目标进行建模，从而得到每个文本序列的概率分布，然后使用这些概率分布作为语音特征，构建语音特征集。

在Step4中，本方法将语音特征集分为训练集、验证集和测试集，训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络模型(ResNet)与长短期记忆递归神经网络模型(LSTM)以基于所述语音特征识别并分类抑郁症患者和健康受试者；

具体的，在语音特征识别分类过程中，还包括：设计ResNet模型，包括输入层、多个残差块和输出层。让神经网络某些层跳过下一层神经元的连接，隔层相连，弱化每层之间的强联系,通过在深度神经网络中加入残差单元使得训练深度比以前更加高效其中，每个残差块包括两个或多个卷积层和一个跳跃连接，用于解决梯度消失问题。模型的输出层可以是全连接层或者softmax层，接着建立一个LSTM模型，后将此输出作为LSTM模型的输入，用于序列建模任务来识别并分类抑郁症患者和健康受试者。

在Step5中，使用验证集对所述模型进行检验和优化，以建立优化模型。

在Step6中，使用测试集对优化模型泛化能力等进行评估，并为后选择最优化模型提供依据。

图2是本发明一种基于语音表征的抑郁症识别方法系统的框架图。参照图2所示，本发明一种基于语音表征的抑郁症识别方法系统，包括以下几个模块：

语音采集模块：用以获取受试者的语音信号并传输给语音预处理模块和语音特征提取模块。

语音预处理模块：用以对语音信号进行预处理，便于后续表征抑郁状态的语音特征提取。

语音特征提取模块：用以基于WavLM模型提取表征抑郁状态的语音特征。

特征分类处理模块：用以基于ResNet和LSTM模型分类所述语音特征识别抑郁症患者和健康受试者。

诊断结果反馈模块：用以反馈最终的诊断结果给用户。

本发明所述方法和系统可通过本领域普通技术人员编程实现，本领域普通技术人员可以理解为，上述的WavLM、ResNet和LSTM等模型可以通过程序来完成的，所述的程序可以存储于一种计算机可读存储介质中。

以上所述的仅为本发明的一个具体实施例而已，显然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.本发明提出的一种基于语音表征的抑郁症识别方法，其特征在于，包括以下步骤：

1）将受试者分为健康组和确诊组，分别获取受试者的语音信号及抑郁程度评分，所述抑郁程度评分根据汉密尔顿抑郁量表设定；

2）对语音信号进行预处理，进行预加重、分帧、加窗、傅里叶变换等处理后，将原始语音信号转换为频域表示，便于后续表征抑郁状态的语音特征提取和语音特征集的构建；

从经过预处理的语音信号中，基于通用语音预训练模型（WavLM）提取表征抑郁状态的语音特征，构建语音特征集；

3）将语音特征集分为训练集、验证集和测试集，训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络（ResNet）模型以基于所述语音特征识别并分类抑郁症患者和健康受试者；使用验证集对所述模型进行检验和优化，以建立优化模型；使用测试集对优化模型泛化能力进行评估，最后选出最终优化模型并进行诊断应用，以得出抑郁症程度诊断结果。

2.根据权利要求1所述的一种基于语音表征的抑郁症识别方法，其特征在于，在语音信号预处理过程中，包括以下步骤：

1）对原始语音信号进行预加重处理，进行高通滤波，以增强高频分量，减少低频分量，提高信噪比；

2）在预加重处理之后，将语音信号进行分帧处理，将信号分成帧，以便于对每一帧进行独立处理；

3）在分帧处理之后，将语音信号的每一帧进行汉明窗加窗处理，减少信号边缘的过渡效应，避免频谱泄漏；

4）在加窗处理之后，对分帧加窗后的各帧信号进行快速傅里叶变换，得到各帧的幅度和相位谱，由此将时域信号转换为频域信号；

5）在傅里叶变换之后，将每个帧的频域信号组合成一个矩阵，即得到原始语音信号的频域表示。

3.根据权利要求1所述的一种基于语音表征的抑郁症识别方法，其特征在于，在语音特征提取的过程中，包括：基于通用语音预训练模型（WavLM）提取表征抑郁状态的语音特征，构建语音特征集，具体包括：

1）卷积神经网络编码器：

2）采用门控相对位置偏置的变压器结构；

3）预训练中联合学习掩蔽语音预测和去噪。

4.根据权利要求1所述的一种基于语音表征的抑郁症识别方法，其特征在于，在语音特征分类的过程中，包括：训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络模型（ResNet）与长短期记忆递归神经网络模型（LSTM）以基于所述语音特征识别并分类抑郁症患者和健康受试者。使用验证集对所述模型进行检验和优化，以建立优化模型。使用测试集对优化模型泛化性能进行评估，最后选出最终优化模型并进行诊断应用，以得出抑郁症程度诊断结果。

5.根据权利要求1所述的基于语音表征的抑郁症识别方法，其特征在于，根据汉密尔顿抑郁量表设定受试者的标签，汉密尔顿抑郁量表总分超过24分为严重抑郁，超过17分为轻到中度抑郁，小于7分则没有抑郁症状。

6.一种基于语音表征的抑郁症识别系统，其特征在于，包括以下几个模块：

1）用户界面：用以方便用户进行操作和交互，能够快速地完成任务的图形界面；

2）语音采集模块：用以获取受试者的语音信号并传输给语音预处理模块和语音特征提取模块；

3）语音预处理模块：用以对语音信号进行预处理，便于后续表征抑郁状态的语音特征提取；

4）语音特征提取模块：用以基于WavLM模型提取表征抑郁状态的语音特征；

5）特征分类处理模块：用以基于ResNet和LSTM模型分类所述语音特征识别抑郁症患者和健康受试者；

6）诊断结果反馈模块：用以反馈最终的诊断结果给用户。

7.根据权利要求6所述的基于语音表征的抑郁症识别系统，其进一步包括语音预处理处理模块，对原始语音数据进行预加重、分帧、加窗、傅里叶变换处理，便于后续表征抑郁状态的语音特征提取和语音特征集的构建。

8.根据权利要求6所述的基于语音表征的抑郁症识别系统，其进一步包括语音特征提取模块，基于通用语音预训练模型（WavLM）提取表征抑郁状态的语音特征，使得语音预训练模型的有效性从语音识别任务延伸到了非内容识别的语音任务，更高准确、高效地构建语音特征集。

9.根据权利要求6所述的基于语音表征的抑郁症识别系统，其进一步包括特征分类处理模块，训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络模型（ResNet）与长短期记忆递归神经网络模型（LSTM）以基于所述语音特征识别并分类抑郁症患者和健康受试者；使用验证集对所述模型进行检验和优化，以建立优化模型；使用测试集对优化模型泛化性能进行评估，最后选出最终优化模型并进行诊断应用。

10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。