CN116978408B

CN116978408B - 基于语音预训练模型的抑郁症检测方法及系统

Info

Publication number: CN116978408B
Application number: CN202311097288.4A
Authority: CN
Inventors: 叶子豪; 何亮
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2023-04-26
Filing date: 2023-08-28
Publication date: 2024-04-30
Anticipated expiration: 2043-08-28
Also published as: CN116564356A; CN116978408A

Abstract

本发明涉及一种基于语音预训练模型的抑郁症检测方法及系统，包括建立语音数据库；用于语音特征有效性分析、分类器训练优化的相关数据；进行语音预处理；包括预加重、加窗以及快速傅里叶变化；基于预训练模型的语音特征提取；对表征抑郁程度的语音特征进行提取；基于机器学习进行分类；得到的模型测试语音信号，并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。本发明基于语音预训练模型的抑郁症检测方法及系统，基于语音预训练模型的语音特征提取、时延神经网络与门控循环单元算法等机器学习技术，通过寻找语音特征与抑郁症之间的关系，通过语音读取的方式客观评估被试人员是否患有抑郁症；提高了抑郁症识别的准确率和精度。

Description

基于语音预训练模型的抑郁症检测方法及系统

技术领域

本发明涉及生物特征提取、模式识别技术领域，具体的说，是涉及一种基于语音预训练模型的抑郁症检测方法及系统。

背景技术

根据世界卫生组织(World Health Organization,WHO)调查显示，全世界约有10亿人存在着精神障碍类困扰。

我国抑郁症诊断通常依靠医患交流及临床观察，面临着专科医师严重缺乏、初步筛查保健医生水平不一的困境，受限于当地医疗水平以及医生专业技能水平。而语音是人的生理状态的综合反映，随着语音信号分析处理技术的高速发展，基频、共振峰特征、线性预测系数、梅尔倒谱系数等语音特征参数可作为一个评估抑郁症相对客观并且可量化的指标，同时具有着容易采集及成本低的特点。因此，可以通过对用户语音特征的分析，为抑郁症的临床诊断提供一种基于用户实际表现的客观参考。

申请号为CN202011466471.3的中国专利提供了一种语音及文本转录的抑郁症辅助诊断方法、系统及介质,利用预设的标准化问题对应的语音问题与目标用户进行交互，确定对应的问诊信息；基于所述问诊信息通过预设算法进行预测；根据预测结果判定所述目标用户为抑郁症患者，实现辅助识别可能存在的抑郁症患者，减轻医疗工作人员的工作量，提高抑郁症诊断效率。

实际使用中依然存在弊端：用户采用语音和文本的形式答复虚拟医生的问题时，通过语音转文本软件将目标用户的语音答复信息转换为文本信息，然后将转换的文本信息和用户输入的其他问题的文本信息一并转换为文本嵌入向量，基于得到的文本嵌入向量，采用深度神经网络模型对文本嵌入向量进行建模，获得预测结果，对比文件对抑郁症识别的准确率和精度不够。

发明内容

针对上述现有技术中的不足，本发明提供一种提高抑郁症识别的准确率和精度的基于语音预训练模型的抑郁症检测方法及系统。

本发明所采取的技术方案是：

一种基于语音预训练模型的抑郁症检测方法，包括：

建立语音数据库；用于语音特征有效性分析、分类器训练优化的相关数据；

进行语音预处理；包括预加重、加窗以及快速傅里叶变化；用于提高语音质量，使得所需处理的信号更加平滑；

基于预训练模型的语音特征提取；基于语音预训练模型实现，例如使用HuBERT、Wav2Vec 2.0、WavLM等预训练模型实现，包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模，从而实现对预处理后的语音中预训练模型高层次表征的提取；

基于机器学习进行分类；利用时延神经网络与门控制单元算法对训练集进行学习，并使用交叉熵损失函数来度量模型预测结果与真实标签的差距，通过反向传播算法更新网络参数进行训练及优化，得到的模型测试语音信号，并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。

优选的，进行语音预处理，具体包括：

所述预加重，是对语音信号进行预加重；

所述加窗，将语音信号划分为一个个大小为N的帧；使用汉明窗对每一帧进行加窗；使用重叠-添加法将加窗后的帧重叠后相加，得到处理后的语音信号；

所述快速傅里叶变换，是将信号从时域映射到频域。

优选的，基于预训练模型的语音特征提取，基于语音预训练模型实现，例如使用HuBERT、Wav2Vec 2.0、WavLM等预训练模型实现，具体包括：

帧级特征提取，对MFCC、Fbank等特征进行提取；

频谱特征编码，将特征提取后的序列输入至卷积神经网络中，学习局部时序信息，捕获语音信号的局部特征；

预训练特征，将卷积神经网络的输出序列输入至Transformer Encoder中，利用自注意力机制对序列进行编码，学习全局时序信息，捕获语音信号的全局特征；引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力；得到编码后的语音特征表示形式。

优选的，基于机器学习的分类，具体包括：

建立时延神经网络，使用时间延迟神经网络对特征向量序列进行处理，其在时间维度上进行卷积操作；可以有效地捕捉时间序列数据的特征。即通过卷积和非线性激活函数操作对输入的特征序列进行处理。

建立门循环单元模型，使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类；门循环单元模型对输入序列进行建模并维护一个内部状态；以便于对序列信息进行编码和解码，更好地捕捉序列的长期依赖性。

训练及优化模型，首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距；通过反向传播算法更新网络参数，通过网络输入数据并计算每一层的加权和，并将其馈送到激活函数中；

计算误差，计算输出误差在各个层上的梯度，最后，通过更新参数的方式使误差降低；

抑郁症的检测，使用训练好的模型对新的语音特征向量序列进行预测，并输出被试人是否患有抑郁症。

优选的，语音数据库在本系统的计算机中运行，用MySQL进行实现；

包含的数据有：语音文件的语音特征、受试人的抑郁状态(即人工诊断标签)、分类标签，该数据库中只保存经过专业医师检测的被试数据。

一种基于语音预训练模型的抑郁症检测系统，包括：

语音数据库模块，用于语音特征有效性分析、分类器训练优化的相关数据；

语音预处理模块，用于对语音数据库中的语音数据进行预处理，便于后续表征抑郁程度或情感特征的语音特征提取；

基于预训练模型的语音特征提取模块，基于例如HuBERT、Wav2Vec2.0、WavLM等语音预训练模型实现，对能够表征被试人抑郁程度或情感特征的提取；

分类评估模块，利用时延神经网络与门控制单元算法对训练集进行学习，并使用交叉熵损失函数来度量模型预测结果与真实标签的差距，通过反向传播算法更新网络参数进行训练及优化，得到的模型测试语音信号，并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。

本发明相对现有技术的有益效果：

本发明基于语音预训练模型的抑郁症检测方法及系统，基于语音预训练模型的语音特征提取、时延神经网络与门控循环单元算法等机器学习技术，通过寻找语音特征与抑郁症之间的关系，从而仅以通过语音读取的方式客观评估被试人员是否患有抑郁症。

本发明基于语音预训练模型的抑郁症检测方法及系统，通过例如HuBERT、Wav2Vec2.0、WavLM等语音预训练模型对语音信号进行有效的预处理，提取出丰富的语音特征；与传统的基于梅尔倒谱系数的特征提取方法相比，语音预训练模型可以更好地保留语音信号中的上下文信息，从而提高了特征表达的质量；预训练模型可以学习到跨多种语言和语境的通用语义特征，使得模型具备较好的泛化能力，可适应不同的语音输入和场景；语音预训练模型可以利用大规模未标记的语音数据进行训练，无需昂贵的人工标注，使得训练过程更高效，并且可以处理标注数据稀缺的问题。

本发明基于语音预训练模型的抑郁症检测方法及系统，时延神经网络和门循环单元模型在序列建模方面具有优异的性能。时延神经网络将多个时间步上的特征向量拼接起来，产生新的特征表示，并利用前馈神经网络进行映射，以进一步提高特征表达的准确性；门循环单元模型通过递归方式学习序列数据之间的依赖关系，从而更好地捕捉语音信号中存在的情感状态，提高了抑郁症识别的精度。

本发明基于语音预训练模型的抑郁症检测方法及系统，时延神经网络和门循环单元模型充分发挥两者的优势，提高整个系统的性能，时延神经网络生成新的特征表示，为序列建模提供更加丰富的输入，而门循环单元模型则可以更好地捕捉这些特征之间的动态变化，提高了抑郁症识别的准确率。

附图说明

图1是本发明基于语音预训练模型的抑郁症检测方法控制流程图；

图2是本发明基于语音预训练模型的抑郁症检测方法的语音预处理控制流程图；

图3是本发明基于语音预训练模型的抑郁症检测方法的基于预训练模型的语音特征提取控制流程图；

图4是本发明基于语音预训练模型的抑郁症检测方法的基于机器学习进行分类控制流程图；

图5是基于语音预训练模型的抑郁症检测系统的结构示意图。

具体实施方式

以下参照附图及实施例对本发明进行详细的说明：

附1-5可知，一种基于语音预训练模型的抑郁症检测方法，包括：

步骤S100、建立语音数据库；用于语音特征有效性分析、分类器训练优化的相关数据；

步骤S101、进行语音预处理，包括预加重、加窗以及快速傅里叶变化等，用于提高语音质量，使得所需处理的信号更加平滑；

步骤S102、基于预训练模型的语音特征提取，语音特征提取基于语音预训练模型实现，例如使用HuBERT、Wav2Vec 2.0、WavLM等预训练模型实现,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模，从而实现对预处理后的语音中预训练模型高层次表征的提取。

步骤S103、基于机器学习进行分类，利用时延神经网络与门控制单元算法对训练集进行学习，并使用交叉熵损失函数来度量模型预测结果与真实标签的差距，通过反向传播算法更新网络参数进行训练及优化，得到的模型测试语音信号，并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。

进一步对于所述步骤S101，具体的说，包括以下步骤：

步骤S201，预加重，对语音信号进行预加重

将语音信号s[n]通过预加重滤波器H(z)，得到预加重后的语音信号s′[n]：

s′[n]＝s[n]-αs[n-1]

其中，n表示语音信号帧中的样本索引，s′[n]表示预加重后的语音信号，s[n]表示语音信号，s[n-1]表示s[n]的前一帧语音信号。

步骤S202，加窗，将语音信号划分为一个个大小为N的帧。使用汉明窗对每一帧进行窗函数公式如下：

其中，W[n]是第n个采样所对应的窗函数系数，N是窗口大小。

将窗函数与语音信号帧逐个对应相乘。

s_w[n]＝s[n]×W[n]

其中，s_w[n]是加窗后的语音信号帧，s[n]是原始语音信号帧，W[n]是第n个采样所对应的窗函数系数，N是窗口大小。

最后，使用重叠-添加法将加窗后的帧重叠后相加，得到处理后的语音信号。

步骤S203，快速傅里叶变换，将信号从时域映射到频域，假设加窗后的采样点个数是n，快速傅里叶变换的定义如下：

其中，m[i]其中的i表示窗函数，通常使用汉明窗，m[i]是输入的语音信号，m_a[k]表示对应的频域信号，k表示傅里叶变换的帧长度，n是傅里叶变换的点数，j为虚数单位。

对于所述步骤S102，具体的说，包括以下步骤：

步骤S301，帧级特征提取，对MFCC、Fbank等特征进行提取。

步骤S302，频谱特征编码，将特征提取后的序列输入至卷积神经网络中，学习局部时序信息，捕获语音信号的局部特征。

步骤S303，预训练特征，将卷积神经网络的输出序列输入至Transformer Encoder中，利用自注意力机制对序列进行编码，学习全局时序信息，捕获语音信号的全局特征。同时，引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力。

步骤S304，得到编码后的语音特征表示形式。

进一步对于所述步骤S103，具体的说，包括以下步骤：

步骤S401，建立时延神经网络，使用时间延迟神经网络对特征向量序列进行处理，其在时间维度上进行卷积操作，可以有效地捕捉时间序列数据的特征。即通过卷积和非线性激活函数操作对输入的特征序列进行处理。其数学公式为：

其中，y(n)为经过卷积和非线性激活函数处理后输出的结果，x(n-Δ_k)表示输入的时间延迟为Δ_k的特征向量，w_k和c分别为卷积核权重和偏置项。

步骤S402，建立门循环单元模型：为了进一步提高对抑郁症的识别能力，可以使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类。门循环单元模型对输入序列进行建模并维护一个内部状态，以便于对序列信息进行编码和解码，更好地捕捉序列的长期依赖性。其数学公式为：

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

其中，z_t表示第t个时间步更新门，x_t表示第t个时间步的输入特征，h_t表示第t个时间步的隐藏状态，σ表示Logistic门函数，W，U，b为可学习的神经网络权重参数，r_t表示第t个时间步重置门，表示第t个时间步的候选隐藏状态，°表示向量的哈达玛积。

步骤S403，训练及优化模型：首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距，其计算公式为：

其中N表示样本的数量，K表示分类的数量，y_ik表示模型对第i个样本分类为k的预测输出，为真实标签。

其次，通过反向传播算法更新网络参数，通过网络输入数据并计算每一层的加权和，并将其馈送到激活函数中。接着计算误差，其计算公式如下：

其中，n为样本数量，y_i为真实值，为预测值。

随后，计算输出误差在各个层上的梯度，最后，通过更新参数的方式使误差降低。根据梯度下降法则更新每个单元格的权重w和偏置b，一般公式如下：

其中，α代表学习率。w_old与b_old分别代表更新前的权重和偏置，w_new与b_new分别代表更新后的权重和偏置，j为计算得出的误差。

步骤S404，抑郁症的检测：使用训练好的模型对新的语音特征向量序列进行预测，并输出被试人是否患有抑郁症。

一种基于语音预训练模型的抑郁症检测方法及系统，包括：

分类评估模块，利用时延神经网络与门控制单元算法对训练集进行学习，并使用交叉熵损失函数来度量模型预测结果与真实标签的差距，通过反向传播算法更新网络参数进行训练及优化，得到的模型测试语音信号，并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。

以上所述，仅是本发明的较佳实施例而已，并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明的技术方案范围内。

Claims

1.一种基于语音预训练模型的抑郁症检测系统，其特征在于包括：

基于预训练模型的语音特征提取模块，对能够表征被试人抑郁程度或情感特征的提取；

分类评估模块，利用时延神经网络与门控制单元算法对训练集进行学习，并使用交叉熵损失函数来度量模型预测结果与真实标签的差距，通过反向传播算法更新网络参数进行训练及优化，得到的模型测试语音信号，并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据，还包括：

进行语音预处理；包括预加重、加窗以及快速傅里叶变化；

基于预训练模型的语音特征提取；基于语音预训练模型提取语音特征，包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模，从而实现对预处理后的语音中预训练模型高层次表征的提取；

2.根据权利要求1所述一种基于语音预训练模型的抑郁症检测系统，其特征在于：

语音数据库用MySQL进行实现；

包含的数据有：语音文件的语音特征、受试人的抑郁状态、分类标签，该数据库中只保存经过专业医师检测的被试数据。

3.根据权利要求2所述一种基于语音预训练模型的抑郁症检测系统，其特征在于：

所述进行语音预处理，具体包括：

所述预加重，是对语音信号进行预加重；

快速傅里叶变换，是将信号从时域映射到频域。

4.根据权利要求3所述基于语音预训练模型的抑郁症检测系统，其特征在于：

基于预训练模型的语音特征提取，基于语音预训练模型实现，具体包括：

帧级特征提取，对MFCC、Fbank特征进行提取；

预训练特征，将卷积神经网络的输出序列输入至Transformer Encoder中，利用自注意力机制对序列进行编码，学习全局时序信息，捕获语音信号的全局特征；得到编码后的语音特征表示形式。

5.根据权利要求1所述一种基于语音预训练模型的抑郁症检测系统，其特征在于：

基于机器学习的分类，具体包括：

建立时延神经网络，使用时间延迟神经网络对特征向量序列进行处理，其在时间维度上进行卷积操作；

建立门循环单元模型，使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类；

门循环单元模型对输入序列进行建模并维护一个内部状态；