CN116965819A

CN116965819A - 基于语音表征的抑郁症识别方法和系统

Info

Publication number: CN116965819A
Application number: CN202311097326.6A
Authority: CN
Inventors: 牛怡扬; 何亮
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2023-04-28
Filing date: 2023-08-28
Publication date: 2023-10-31
Also published as: CN116570284A

Abstract

本发明涉及一种基于语音表征的抑郁症识别方法和系统，获取受试者的语音信号及抑郁程度评分；对受试者的语音信号进行预处理；构建语音特征集；将语音特征集分为训练集、验证集和测试集；训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络模型与长短期记忆递归神经网络模型以基于所述语音特征识别并分类抑郁症患者和健康受试者；使用验证集对所述模型进行检验和优化；使用测试集对优化模型进行性能评估。本发明基于语音表征的抑郁症识别方法和系统，将基于WavLM模型提取表征抑郁状态以及基于ResNet和LSTM模型语音特征应用于抑郁症患者的识别，降低抑郁症患者的疾病评估成本，识别方式简单且准确，有利于抑郁症患者的治疗与康复。

Description

基于语音表征的抑郁症识别方法和系统

技术领域

本发明涉及生物特征提取、模式识别技术领域，具体的说，是涉及一种基于语音表征的抑郁症识别方法和系统。

背景技术

申请号为CN202011466471.3的中国专利提供了一种语音及文本转录的抑郁症辅助诊断方法、系统及介质,利用预设的标准化问题对应的语音问题与目标用户进行交互，确定对应的问诊信息；基于所述问诊信息通过预设算法进行预测；根据预测结果判定所述目标用户为抑郁症患者，实现辅助识别可能存在的抑郁症患者，减轻医疗工作人员的工作量，提高抑郁症诊断效率。

实际使用中依然存在弊端：用户采用语音和文本的形式答复虚拟医生的问题时，通过语音转文本软件将目标用户的语音答复信息转换为文本信息，然后将转换的文本信息和用户输入的其他问题的文本信息一并转换为文本嵌入向量，基于得到的文本嵌入向量，采用深度神经网络模型对文本嵌入向量进行建模，获得预测结果，对比文件对抑郁症识别的抑郁症患者的疾病评估成本高，识别方式复杂，准确度低。

发明内容

针对上述现有技术中的不足，本发明提供一种在日常生活中采集患者的语音信息，进而分析判断抑郁症状程度，降低抑郁症患者的疾病评估成本的基于语音表征的抑郁症识别方法和系统。

本发明所采取的技术方案是：

一种基于语音表征的抑郁症识别方法，包括以下步骤：

步骤s100，获取受试者的语音信号及抑郁程度评分；

步骤s101，对受试者的语音信号进行预处理；

步骤s102，预处理的语音信号基于WavLM模型提取表征抑郁状态的语音特征，构建语音特征集；

步骤s103，将语音特征集分为训练集、验证集和测试集；训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络模型(ResNet)与长短期记忆递归神经网络模型(LSTM)以基于所述语音特征识别并分类抑郁症患者和健康受试者；

步骤s104，使用验证集对所述模型进行检验和优化；

步骤s105，使用测试集对优化模型进行性能评估；

步骤s106，确定最优化模型。

优选的，所述步骤s101，对受试者的语音信号进行预处理，包括以下步骤：

步骤s201，对原始语音信号进行预加重处理，进行高通滤波；

步骤s202，在预加重处理之后，将语音信号进行分帧处理，将信号分成帧；

步骤s203，在分帧处理之后，将语音信号的每一帧进行汉明窗加窗处理，减少信号边缘的过渡效应；

步骤s204，在加窗处理之后，对分帧加窗后的各帧信号进行快速傅里叶变换，得到各帧的幅度和相位谱，由此将时域信号转换为频域信号；

步骤s205，在傅里叶变换之后，进行频域信号组合，将每个帧的频域信号组合成一个矩阵，即得到原始语音信号的频域表示。

优选的，所述预加重，将受试者的语音信号通过一个高通滤波器，以增强高频分量，减少低频分量，提高信噪比，得到经过预加重操作后的输出语音信号的样本值y(t)；

y(t)＝x(t)-αx(t-1)

其中x(t)表示输入信号的样本值，x(t-1)表示输入信号的前一个样本值，滤波器系数(α)的值通常取为0.95或0.97；

在预加重之后，需要将信号分成短时帧，因此在大多数情况下，语音信号是非平稳的，对整个信号进行傅里叶变换是没有意义的，因为随着时间的推移丢失信号的频率轮廓，语音信号是短时平稳信号，因此在短时帧上进行傅里叶变换，通过连接相邻帧来获得信号频率轮廓的良好近似；

所述分帧，将语音信号分成多个帧，每个帧的长度为N个采样点，相邻帧之间重叠部分为L个采样点；

所述加窗，将信号分割成帧后，我们再对每个帧乘以一个窗函数，如Hamming窗口，以增加帧左端和右端的连续性，来抵消FFT假设(数据是无限的)，并减少频谱泄漏，汉明窗的函数形式W(n,a)如下：

其中N是窗口长度，a＝0.46，n表示窗口中的样本索引，取值范围为0≤n≤N-1；

加窗处理后的信号在时域上的函数y(t)表示为：

其中，y(n)表示经预加重后第n个采样点的值，w(n-tL)为汉明窗函数，L为重叠长度，t表示第t帧；

由于信号在时域上的变换通常很难看出信号的特性，通常对它做快速傅里叶变换(FFT)转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。

所述傅里叶变换，对分帧加窗后的各帧信号进行N点FFT来计算频谱，也称为短时傅立叶变换(STFT)，经过短时傅里叶变换后第i帧的频域表示的复数值S_i(k)表示为：

其中，s_i(n)表示第i帧的时域信号y(n)与汉明窗函数w(n-tL)的乘积，即s_i(n)＝y(n)×w(n-tL)，e^-j2πin/N表示旋转子，k表示频率索引，n表示时域样本索引，N表示信号长度，通常为256或512；

对加窗处理后时域信号表达式进行傅里叶变换，得到语音信号在频域上的函数Y(k,ω)表示为：

其中，k表示第k个帧，ω表示角频率，Y(k,ω)表示第k个帧在角频率为ω处的频域值，y(n)表示时域信号，w(n-tL)表示汉明窗函数，e^-jωn表示旋转子，N表示信号长度，通常为256或512；

将上式转换为复数形式，得到：Y(k,ω)＝A(k,ω)+jB(k,ω)；

其中，A(k,ω)和B(k,ω)分别表示第k个帧在角频率为ω处实部和虚部；

所述频域信号组合，将傅里叶变换后的每个帧频域信号组合成一个矩阵，即得到原始语音信号的频域表示；

将傅里叶变换后所有帧的频域表示组合成一个矩阵Y：

Y＝[Y(1,ω),Y(2,ω),...,Y(K,ω)]

其中，k为帧数，Y(k,ω)表示第k个帧在角频率为ω处的频域值；

由此得到原始语音信号的频域表示。

优选的，从经过预处理的语音信号中，基于WavLM模型提取表征抑郁状态的语音特征，构建语音特征集包括如下步骤；

根据模型预训练目标的不同，选择判别式的自监督预训练方法通过对比学习或者预测离散化索引(id)的方式对模型进行预训练；

步骤S401、卷积神经网络编码器提取出抽象的时间特征；

步骤S402、预训练中联合学习掩蔽语音预测和去噪。

优选的，卷积神经网络编码器提取出抽象的时间特征包括：

WavLM模型中的CNN encoder包含7层，每层都由一个时域卷积层、一个层归一化层和一个GELU激活函数层组成，以上三种层在卷积编码器中被重复使用7次，以提取出更加抽象的时间特征，并将这些特征传递到后续的Transformer模型中；

通过利用时域卷积层、层规范化层和GELU激活函数层，卷积编码器能够为后续的模型提供相关的特征；并有效地提高语音识别和语音生成的性能。

优选的，预训练中联合学习掩蔽语音预测和去噪包括如下步骤：

步骤S601、调用预处理数据；

使用步骤S101中原始语音信号经过预处理后的频域信号；

步骤S602、模型构建；

模型采用Transformer结构，包括编码器和解码器两个部分；编码器将输入的语音频域信号转换为隐藏表示，解码器将隐藏表示转换为输出的语音信号，其中，编码器和解码器均由多层自注意力机制和全连接层组成；

步骤S603、模型训练；

模型训练使用联合学习的方法，同时训练掩蔽语音预测和去噪两个任务；

模型的输入为带噪语音的频域表示Y，输出为掩蔽语音的频域表示M和去噪后的频域表示Z；

模型采用LSTM神经网络结构，可以处理变长序列数据；

模型的目标是最小化预测输出和真实标签之间的交叉熵损失函数；

掩蔽语音预测的损失函数L_mask的计算公式为：

其中，N表示训练样本的数量，F表示频域表示的维度，y_ij表示第i个样本在第j个频率上的真实遮蔽掩码，表示模型预测的遮蔽掩码；

去噪的损失函数L_denoise的计算公式为：

其中，N表示训练样本的数量，F表示频域表示的维度，Z_ij表示第i个样本在第j个频率上的真实去噪后的频域表示，表示模型预测的去噪后的频域表示；

步骤S604、预测；

对于新的语音信号，将其分成多个帧，并对每个帧进行短时傅里叶变换，得到频域表示；

然后，将频域表示输入到训练好的模型中，得到掩蔽语音和去噪后的频域表示；

最后，将两个频域表示合并并进行逆短时傅里叶变换，得到增强后的语音信号；

掩蔽语音预测的具体实现方法是通过预测每个频率上的遮蔽掩码来实现的；

假设原始语音信号的频域表示为X，掩蔽语音的频域表示为M，则它们之间的关系可以表示为：

M＝|X|⊙Γ

其中，|X|表示原始语音信号频域表示的幅度谱，Γ表示遮蔽掩码，⊙表示逐元素相乘；Γ的值在0到1之间，表示对应频率上的信号是否被遮蔽，0表示被遮蔽，1表示不被遮蔽；

模型的目标是预测出正确的遮蔽掩码，以得到准确的掩蔽语音表示；

去噪的具体实现方法是通过预测噪声的频域表示，然后将带噪语音的频域表示减去噪声频域表示，得到去噪后的频域表示；

假设带噪语音的频域表示为Y，噪声的频域表示为N，则去噪后的频域Z表示为：

Z＝Y-N

其中，N的预测方法和Γ的预测方法类似，都是通过模型预测出对应频率上的噪声掩码；

模型的目标是预测出正确的噪声掩码，以得到准确的噪声表示；

对语音的MFCC特征进行了k-means聚类来将连续信号转换成离散标签，并将离散标签当作目标进行建模，从而得到每个文本序列的概率分布，然后使用这些概率分布作为语音特征，构建语音特征集。

优选的，语音特征集包括：训练集、验证集和测试集，训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络模型(ResNet)与长短期记忆递归神经网络模型(LSTM)以基于所述语音特征识别并分类抑郁症患者和健康受试者；

在语音特征识别分类过程中，还包括：设计ResNet模型，包括输入层、多个残差块和输出层；

让神经网络某些层跳过下一层神经元的连接，隔层相连，弱化每层之间的强联系，通过在深度神经网络中加入残差单元使得训练深度比以前更加高效其中，每个残差块包括两个或多个卷积层和一个跳跃连接；用于解决梯度消失问题；

模型的输出层是全连接层或者softmax层，接着建立一个LSTM模型，后将此输出作为LSTM模型的输入，用于序列建模任务来识别并分类抑郁症患者和健康受试者。

一种基于语音表征的抑郁症识别系统，包括：

用户界面，用以方便用户进行操作和交互，能够快速地完成任务的图形界面；

语音采集模块，用以获取受试者的语音信号并传输给语音预处理模块和语音特征提取模块；

语音预处理模块，用以对语音信号进行预处理，便于后续表征抑郁状态的语音特征提取；

语音特征提取模块，用以基于WavLM模型提取表征抑郁状态的语音特征；

特征分类处理模块，用以基于ResNet和LSTM模型分类所述语音特征识别抑郁症患者和健康受试者；

检测结果反馈模块，用以反馈最终的诊断结果给用户；

特征分类处理模块，训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络模型(ResNet)与长短期记忆递归神经网络模型(LSTM)以基于所述语音特征识别并分类抑郁症患者和健康受试者；使用验证集对所述模型进行检验和优化，以建立优化模型；使用测试集对优化模型泛化性能进行评估，最后选出最终优化模型并进行检测应用。

语音预处理处理模块，对原始语音数据进行预加重、分帧、加窗、傅里叶变换处理，便于后续表征抑郁状态的语音特征提取和语音特征集的构建；

语音特征提取模块，基于通用语音预训练模型(WavLM)提取表征抑郁状态的语音特征，使得语音预训练模型的有效性从语音识别任务延伸到了非内容识别的语音任务，更高准确、高效地构建语音特征集。

专用于抑郁症识别的数据集，其中包含大量的抑郁症和非抑郁症语音数据，以供训练模型、验证模型和测试模型使用。

语音采集模块，采用麦克风或智能家居设备等无线通信技术将录制成.wav或.mp3文件，以方便试验者的采集。

本发明相对现有技术的有益效果：

本发明基于语音表征的抑郁症识别方法和系统，将基于WavLM模型提取表征抑郁状态以及基于ResNet和LSTM模型语音特征分类的一种语音表征识别技术应用于抑郁症患者的诊断与治疗，实现在日常生活中采集患者的语音信息，进而分析判断抑郁症状程度，为抑郁症的识别、程度检测和治疗等提供技术支持，大大减少抑郁症患者的疾病评估成本，并且能让患者在日常生活、家庭护理环境中获得准确的症状程度诊断，以尽可能减少抑郁症带来的负面后果，有利于抑郁症患者的治疗与康复。

附图说明

图1是基于语音表征的抑郁症识别方法的流程示意图；

图2是基于语音表征的抑郁症识别系统的结构示意图；

具体实施方式

以下参照附图及实施例对本发明进行详细的说明：

附图1可知，一种基于语音表征的抑郁症识别方法，包括以下步骤：

步骤s100，获取受试者的语音信号及抑郁程度评分；

步骤s101，对受试者的语音信号进行预处理；

步骤s104，使用验证集对所述模型进行检验和优化；

步骤s105，使用测试集对优化模型进行性能评估；

步骤s106，确定最优化模型。

步骤s201，对原始语音信号进行预加重处理，进行高通滤波；

y(t)＝x(t)-αx(t-1)

加窗处理后的信号在时域上的函数y(t)表示为：

将上式转换为复数形式，得到：Y(k,ω)＝A(k,ω)+jB(k,ω)；

将傅里叶变换后所有帧的频域表示组合成一个矩阵Y：

Y＝[Y(1,ω),Y(2,ω),...,Y(k,ω)]

由此得到原始语音信号的频域表示。

步骤S401、卷积神经网络编码器提取出抽象的时间特征；

步骤S402、预训练中联合学习掩蔽语音预测和去噪。

优选的，卷积神经网络编码器提取出抽象的时间特征包括：

时域卷积层；

时域卷积层用来从语音信号中提取局部时域信息；每个时域卷积层由多个卷积核组成，每个卷积核可以提取出一种具有局部时域特征的语音片段，例如高频部分或低频部分。时域卷积层的输出为经过卷积核滤波后的时域信号；

层规范化层；

在进行卷积操作后，输出的特征会受到“特征偏移”(feature shift)的影响；

对特征进行规范化(Normalization)，以避免特征的偏移对后续网络层的影响；

层规范化层的作用就是对每个特征图进行归一化操作，使其均值为0，方差为1；

GELU激活函数层；

激活函数用来引入非线性特征，增加模型的表达能力；

GELU激活函数是一种近似于高斯误差线性单元的激活函数，用来优化模型的性能；

GELU激活函数层的作用是将规范化后的特征图进行激活，以便后续的特征学习和优化。

步骤S601、调用预处理数据；

使用步骤S101中原始语音信号经过预处理后的频域信号；

步骤S602、模型构建；

步骤S603、模型训练；

模型采用LSTM神经网络结构，可以处理变长序列数据；

掩蔽语音预测的损失函数L_mask的计算公式为：

去噪的损失函数L_denoise的计算公式为：

步骤S604、预测；

M＝|X|⊙Γ

Z＝Y-N

附图2可知，一种基于语音表征的抑郁症识别系统，包括：

检测结果反馈模块，用以反馈最终的诊断结果给用户；

本发明相对现有技术的有益效果：

以上所述，仅是本发明的较佳实施例而已，并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明的技术方案范围内。

Claims

1.一种基于语音表征的抑郁症识别方法，其特征在于,包括以下步骤：

步骤s100，获取受试者的语音信号及抑郁程度评分；

步骤s101，对受试者的语音信号进行预处理；

步骤s103，将语音特征集分为训练集、验证集和测试集；训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络模型与长短期记忆递归神经网络模型以基于所述语音特征识别并分类抑郁症患者和健康受试者；

步骤s104，使用验证集对所述模型进行检验和优化；

步骤s105，使用测试集对优化模型进行性能评估；

步骤s106，确定最优化模型。

2.根据权利要求1所述基于语音表征的抑郁症识别方法，其特征在于：所述步骤s101，对受试者的语音信号进行预处理，包括以下步骤：

步骤s201，对原始语音信号进行预加重处理，进行高通滤波；

3.根据权利要求2所述基于语音表征的抑郁症识别方法和系统，其特征在于：

所述预加重，将受试者的语音信号通过一个高通滤波器，得到经过预加重操作后的输出语音信号的样本值y(t)；

y(t)＝x(t)-αx(t-1)

所述加窗，将信号分割成帧后，我们再对每个帧乘以一个窗函数，以增加帧左端和右端的连续性，来抵消FFT假设，并减少频谱泄漏，汉明窗的函数形式W(n,a)如下：

加窗处理后的信号在时域上的函数y(t)表示为：

所述傅里叶变换，对分帧加窗后的各帧信号进行N点FFT来计算频谱，也称为短时傅立叶变换，经过短时傅里叶变换后第i帧的频域表示的复数值S_i(k)表示为：

其中，k表示第k个帧，w表示角频率，Y(k,ω)表示第k个帧在角频率为w处的频域值，y(n)表示时域信号，w(n-tL)表示汉明窗函数，e_- ^jωn表示旋转子，N表示信号长度，通常为256或512；

将上式转换为复数形式，得到：Y(k,ω)＝A(k,ω)+jB(k,ω)；

其中，A(k,ω)和B(k,ω)分别表示第k个帧在角频率为ω处的实部和虚部；

将傅里叶变换后所有帧的频域表示组合成一个矩阵Y：

Y＝[Y(1,ω),Y(2,ω),...,Y(k,ω)]

由此得到原始语音信号的频域表示。

4.根据权利要求1所述基于语音表征的抑郁症识别方法，其特征在于：

从经过预处理的语音信号中，基于WavLM模型提取表征抑郁状态的语音特征，构建语音特征集包括如下步骤；

步骤S401、卷积神经网络编码器提取出抽象的时间特征；

步骤S402、预训练中联合学习掩蔽语音预测和去噪。

5.根据权利要求4所述基于语音表征的抑郁症识别方法，其特征在于：卷积神经网络编码器提取出抽象的时间特征包括：

6.根据权利要求1所述基于语音表征的抑郁症识别方法，其特征在于：预训练中联合学习掩蔽语音预测和去噪包括如下步骤：

步骤S601、调用预处理数据；

使用步骤S101中原始语音信号经过预处理后的频域信号；

步骤S602、模型构建；

步骤S603、模型训练；

模型采用LSTM神经网络结构，可以处理变长序列数据；

掩蔽语音预测的损失函数L_mask的计算公式为：

去噪的损失函数L_denoise的计算公式为：

步骤S604、预测；

M＝|X|⊙Γ

其中，|X|表示原始语音信号频域表示的幅度谱，Γ表示遮蔽掩码，⊙表⊙示逐元素相乘；Γ的值在0到1之间，表示对应频率上的信号是否被遮蔽，0表示被遮蔽，1表示不被遮蔽；

Z＝Y-N

7.根据权利要求1所述基于语音表征的抑郁症识别方法，其特征在于：

语音特征集包括：训练集、验证集和测试集，训练集训练采用基于深度的监督学习下的机器学习方法，建立残差神经网络模型(ResNet)与长短期记忆递归神经网络模型(LSTM)以基于所述语音特征识别并分类抑郁症患者和健康受试者；

8.一种基于语音表征的抑郁症识别系统，其特征在于，包括：

检测结果反馈模块，用以反馈最终的诊断结果给用户；