CN116564356A

CN116564356A - 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统

Info

Publication number: CN116564356A
Application number: CN202310463492.7A
Authority: CN
Inventors: 何亮; 叶子豪
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-08-08
Also published as: CN116978408A; CN116978408B

Abstract

本发明提出一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统,其特征在于，（1）建立语音数据库，包括语音信号以及对应的抑郁症状态；（2）进行语音预处理，包括预加重、加窗及快速傅里叶变化等,使所需处理信号更加平滑；（3）语音特征提取，基于HuBERT模型进行实现,包括MFCC等特征提取以及Transformer编码结构对特征序列进行建模，从而实现对预处理后的语音中高层次表征的提取；（4）基于机器学习的分类，利用时延神经网络与门控循环单元算法对训练集进行学习，使用交叉熵损失函数度量模型预测结果与真实标签差距，通过反向传播算法更新网络参数进行训练及优化,输出抑郁症状态。

Description

一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统

技术领域

本发明涉及人工智能辅助诊疗技术以及机器学习领域，特别是涉及一种基于语音特征与机器学习的抑郁症自动监测方法。

背景技术

根据世界卫生组织(World Health Organization,WHO)调查显示，全世界约有10亿人存在着精神障碍类困扰，受全球新型冠状病毒的影响，全球抑郁症患者激增五千三百万，同时重度抑郁症患者及焦虑症患者分别增加了28％和26％，新型冠状病毒大流行给抑郁症的诊疗带来了巨大的挑战，同时抑郁症发病群体正在趋向年轻化趋势。

我国抑郁症诊断通常依靠医患交流及临床观察，面临着专科医师严重缺乏、初步筛查保健医生水平不一的困境，受限于当地医疗水平以及医生专业技能水平。而语音是人的生理状态的综合反映，随着语音信号分析处理技术的高速发展，基频、共振峰特征、线性预测系数、梅尔倒谱系数等语音特征参数可作为一个评估抑郁症相对客观并且可量化的指标，同时具有着容易采集及成本低的特点。因此，可以通过对用户语音特征的分析，为抑郁症的临床诊断提供一种基于用户实际表现的客观参考。

发明内容

本发明提供一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法，基于语音预训练模型、特征提取、时延神经网络与门控循环单元等机器学习技术，通过寻找语音特征与抑郁症之间的关系，从而仅以通过语音读取的方式客观评估被试人员是否患有抑郁症的目的。

本发明公开了一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法，所述包括如下步骤：

1)建立语音数据库，语音数据库模块在本系统的计算机中运行，用MySQL进行实现，其包含的数据有：语音文件的语音特征、受试人的抑郁状态(即人工诊断标签)、分类标签，该数据库中只保存经过专业医师诊断的被试数据。

2)进行语音预处理，包括预加重、加窗以及快速傅里叶变化等，用于提高语音质量，使得所需处理的信号更加平滑。

3)语音特征提取，特征提取基于HuBERT模型进行实现,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模，从而实现对预处理后的语音中高层次表征的提取。

4)基于机器学习进行分类，利用时延神经网络与门控制单元算法对训练集进行学习，并使用交叉熵损失函数来度量模型预测结果与真实标签的差距，通过反向传播算法更新网络参数进行训练及优化，得到的模型测试语音信号，并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。

进一步，所述建立语音数据库，具体包括：

(1)用于语音特征有效性分析、分类器训练优化的相关数据；

(2)所述语音数据库模块运行在本系统的计算机上，用MySQL实现；

(3)包含的数据为：语音文件的语音特征、受试人的抑郁状态(即人工诊断标签)、分类标签，该数据库中只保存经过专业医师诊断的被试数据。

进一步，所述进行语音预处理，具体包括：

1)预加重：对语音信号进行预加重；

2)加窗：将语音信号划分为一个个大小为N的帧。使用汉明窗对每一帧进行加窗。使用重叠-添加法将加窗后的帧重叠后相加，得到处理后的语音信号；

3)快速傅里叶变换，将信号从时域映射到频域。

进一步，所述语音特征提取，基于HuBERT模型实现，具体包括：

1)帧级特征提取：对MFCC、Fbank等特征进行提取；

2)频谱特征编码：将特征提取后的序列输入至卷积神经网络中，学习局部时序信息，捕获语音信号的局部特征；

3)预训练特征：将卷积神经网络的输出序列输入至Transformer Encoder中，利用自注意力机制对序列进行编码，学习全局时序信息，捕获语音信号的全局特征。同时，引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力；

4)得到编码后的语音特征表示形式。

进一步，所述基于机器学习进行分类，具体包括：

1)建立时延神经网络：使用时间延迟神经网络对特征向量序列进行处理，其在时间维度上进行卷积操作，可以有效地捕捉时间序列数据的特征。即通过卷积和非线性激活函数操作对输入的特征序列进行处理；

2)建立门循环单元模型：使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类。门循环单元模型对输入序列进行建模并维护一个内部状态，以便于对序列信息进行编码和解码，更好地捕捉序列的长期依赖性；

3)训练及优化模型：首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距，其次，通过反向传播算法更新网络参数，通过网络输入数据并计算每一层的加权和，并将其馈送到激活函数中。接着进行计算误差，随后，计算输出误差在各个层上的梯度，最后，通过更新参数的方式使误差降低；

4)抑郁症的诊断：使用训练好的模型对新的语音特征向量序列进行预测，并输出被试人是否患有抑郁症。

另一方面，本发明还提供了一种基于时延神经网络与门控循环单元算法的抑郁症诊断的系统，其包括：

(1)语音数据库模块，用于语音特征有效性分析、分类器训练优化的相关数据；

(2)语音预处理模块，用于对语音数据库中的语音数据进行预处理，便于后续表征抑郁程度或情感特征的语音特征提取；

(3)特征提取模块，基于HuBERT模型，对能够表征被试人抑郁程度或情感特征的提取；

(4)分类评估模块，利用时延神经网络与门控制单元算法对训练集进行学习，并使用交叉熵损失函数来度量模型预测结果与真实标签的差距，通过反向传播算法更新网络参数进行训练及优化，得到的模型测试语音信号，并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。

相对于现有技术，本发明有以下优点：

1)HuBERT模型可以对语音信号进行有效的预处理，提取出丰富的语音特征。与传统的基于梅尔倒谱系数的特征提取方法相比，HuBERT模型可以更好地保留语音信号中的上下文信息，从而提高了特征表达的质量；

2)时延神经网络和门循环单元模型在序列建模方面具有优异的性能。时延神经网络可以将多个时间步上的特征向量拼接起来，产生新的特征表示，并利用前馈神经网络进行映射，以进一步提高特征表达的准确性。门循环单元模型可以通过递归方式学习序列数据之间的依赖关系，从而更好地捕捉语音信号中存在的情感状态，提高了抑郁症识别的精度；

3)共同使用时延神经网络和门循环单元模型可以充分发挥两者的优势，提高整个系统的性能。时延神经网络可以生成新的特征表示，为序列建模提供更加丰富的输入，而门循环单元模型则可以更好地捕捉这些特征之间的动态变化，提高了抑郁症识别的准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1是基于时延神经网络与门控循环单元算法的抑郁症诊断方法的结构框图。

图2是基于时延神经网络与门控循环单元算法的抑郁症诊断系统的流程图。

具体实施方式

为了使本发明的上述功能、流程、技术方案以及有点更加明显，下面通过参考附图描述的实施例所涉及到的技术逐一详细介绍。图1表示出了基于时延神经网络与门控循环单元算法的抑郁症诊断方法的结构框图。如图1所示，该方法包括了如下步骤：

S1、进行语音预处理，包括预加重、加窗以及快速傅里叶变化等，用于提高语音质量，使得所需处理的信号更加平滑；

S2、语音特征提取，特征提取基于HuBERT模型进行实现,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模，从而实现对预处理后的语音中预训练模型高层次表征的提取；

S3、基于机器学习进行分类，利用时延神经网络与门控制单元算法对训练集进行学习，并使用交叉熵损失函数来度量模型预测结果与真实标签的差距，通过反向传播算法更新网络参数进行训练及优化，得到的模型测试语音信号，并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。

进一步对于所述步骤S1，具体的说，包括以下步骤：

S1.1：预加重：对语音信号进行预加重。

将语音信号s[n]通过预加重滤波器H(z)，得到预加重后的语音信号s′[n]：

s′[n]＝s[n]-αs[n-1]

这里的s[n-1]表示s[n]的前一帧语音信号。

S1.2：加窗：将语音信号划分为一个个大小为N的帧。使用汉明窗对每一帧进行窗函数公式如下：

式中W[n]是第n个采样所对应的窗函数系数。将窗函数与语音信号帧逐个对应相乘。

s_w[n]＝s[n]×W[n]

最后，使用重叠-添加法将加窗后的帧重叠后相加，得到处理后的语音信号。

S1.3：快速傅里叶变换，将信号从时域映射到频域，假设加窗后的采样点个数是n，快速傅里叶变换的定义如下：

其中，m[i]其中的i表示窗函数，通常使用汉明窗，m[i]是输入的语音信号，m_a[k]表示对应的频域信号，k表示傅里叶变换的帧长度，n是傅里叶变换的点数。

对于所述步骤S2，具体的说，包括以下步骤：

S2.1:帧级特征提取：对MFCC、Fbank等特征进行提取。

S2.2:频谱特征编码：将特征提取后的序列输入至卷积神经网络中，学习局部时序信息，捕获语音信号的局部特征。

S2.3:预训练特征：将卷积神经网络的输出序列输入至Transformer Encoder中，利用自注意力机制对序列进行编码，学习全局时序信息，捕获语音信号的全局特征。同时，引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力。

S2.4:得到编码后的语音特征表示形式。

进一步对于所述步骤S3，具体的说，包括以下步骤：

S3.1：建立时延神经网络：使用时间延迟神经网络对特征向量序列进行处理，其在时间维度上进行卷积操作，可以有效地捕捉时间序列数据的特征。即通过卷积和非线性激活函数操作对输入的特征序列进行处理。其数学公式为：

其中，y(n)为经过卷积和非线性激活函数处理后输出的结果，x(n-Δ_k)表示输入的时间延迟为Δ_k的特征向量，w_k和c分别为卷积核权重和偏置项。

S3.2：建立门循环单元模型：为了进一步提高对抑郁症的识别能力，可以使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类。门循环单元模型对输入序列进行建模并维护一个内部状态，以便于对序列信息进行编码和解码，更好地捕捉序列的长期依赖性。其数学公式为：

其中，x_t表示第t个时间步的输入特征，h_t表示第t个时间步的隐藏状态，σ表示Logistic门函数，表示向量的哈达玛积，W，b为神经网络参数。

S3.3：训练及优化模型：首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距，其计算公式为：

其中N表示样本的数量，K表示分类的数量，y_ik表示模型对第i个样本分类为k的预测输出，为真实标签。

其次，通过反向传播算法更新网络参数，通过网络输入数据并计算每一层的加权和，并将其馈送到激活函数中。接着计算误差，其计算公式如下：

其中，n为样本数量，y_i为真实值，为预测值。

随后，计算输出误差在各个层上的梯度，最后，通过更新参数的方式使误差降低。根据梯度下降法则更新每个单元格的权重W和偏置c，一般公式如下：

其中，α代表学习率。

S3.4：抑郁症的诊断：使用训练好的模型对新的语音特征向量序列进行预测，并输出被试人是否患有抑郁症。

图2表示出了基于时延神经网络与门控循环单元算法的抑郁症诊断系统的流程图。如图2所示，该系统包括了如下模块：

值得注意的是，以上所述的仅为本发明的一个具体实施例而已，显然不能以此来限定本发明之权利范围，凡是在本发明的实质精神范围之内的，对本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法，其特征包含如下步骤：

（1）建立语音数据库；

（2）进行语音预处理；

（3）语音特征提取；

（4）基于机器学习进行分类。

2.根据权利1所述的一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法，其特征在于建立语音数据库，具体包括：

（1）用于语音特征有效性分析、分类器训练优化的相关数据；

（2）所述语音数据库模块运行在本系统的计算机上，用MySQL实现；

（3）包含的数据为：语音文件的语音特征、受试人的抑郁状态（即人工诊断标签）、分类标签，该数据库中只保存经过专业医师诊断的被试数据。

3.根据权利要求1所述的一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法，其特征在于进行语音预处理，具体包括：

（1）预加重：对语音信号进行预加重；

（2）加窗：将语音信号划分为一个个大小为N的帧，使用汉明窗对每一帧进行加窗。使用重叠-添加法将加窗后的帧重叠后相加，得到处理后的语音信号；

（3）快速傅里叶变换，将信号从时域映射到频域。

4.根据权利要求1所述的一种基于时延神经网络和门控循环单元算法的抑郁症诊断方法，其特征在于语音特征提取，基于HuBERT模型实现，具体包括：

（1）帧级特征提取：对MFCC、Fbank等特征进行提取；

（2）频谱特征编码：将特征提取后的序列输入至卷积神经网络中，学习局部时序信息，捕获语音信号的局部特征；

（3）预训练特征：将卷积神经网络的输出序列输入至Transformer Encoder中，利用自注意力机制对序列进行编码，学习全局时序信息，捕获语音信号的全局特征，同时，引入时域门卷积神经网络（MCNN）来增加时间维度的特征表示能力；

（4）得到编码后的语音特征表示形式。

5.根据权利要求1所述的一种基于时延神经网络和门控循环单元算法的抑郁症诊断方法，其特征在于基于机器学习的分类，具体包括：

（1）建立时延神经网络：使用时间延迟神经网络对特征向量序列进行处理，其在时间维度上进行卷积操作，可以有效地捕捉时间序列数据的特征，即通过卷积和非线性激活函数操作对输入的特征序列进行处理；

（2）建立门循环单元模型：使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类，门循环单元模型对输入序列进行建模并维护一个内部状态，以便于对序列信息进行编码和解码，更好地捕捉序列的长期依赖性；

（3）训练及优化模型：首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距，其次，通过反向传播算法更新网络参数，通过网络输入数据并计算每一层的加权和，并将其馈送到激活函数中，接着进行计算误差，随后，计算输出误差在各个层上的梯度，最后，通过更新参数的方式使误差降低；

（4）抑郁症的诊断：使用训练好的模型对新的语音特征向量序列进行预测，并输出被试人是否患有抑郁症。

6.一种基于时延神经网络与门控循环单元算法的抑郁症诊断系统，其特征在于，系统组成包括：

（1）语音数据库模块，用于语音特征有效性分析、分类器训练优化的相关数据；

（2）语音预处理模块，用于对语音数据库中的语音数据进行预处理，便于后续表征抑郁程度或情感特征的语音特征提取；

（3）特征提取模块，基于HuBERT模型实现，对能够表征被试人抑郁程度或情感特征的提取；

（4）分类评估模块，利用时延神经网络与门控制单元算法对训练集进行学习，并使用交叉熵损失函数来度量模型预测结果与真实标签的差距，通过反向传播算法更新网络参数进行训练及优化，得到的模型测试语音信号，并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。