CN112006697A

CN112006697A - 一种基于语音信号的梯度提升决策树抑郁症识别方法

Info

Publication number: CN112006697A
Application number: CN202010490441.XA
Authority: CN
Inventors: 刘蔚; 黄永明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2020-12-01
Anticipated expiration: 2040-06-02
Also published as: CN112006697B

Abstract

本发明涉及一种基于语音信号的梯度提升决策树抑郁症识别方法，包括以下步骤：获取接受采访者的语音数据以及对应的PHQ‑8抑郁症筛查量表得分，将语音信号与PHQ‑8值相对应，并选取训练样本集合进行训练，测试样本集；提取语音信号中表征情感和抑郁的韵律学特征、基于谱的相关特征和音质特征；采用梯度提升决策树的机器学习方法在训练集上进行学习，以PHQ‑8得分为输出结果作为判定抑郁症程度的依据。本发明采用梯度提升决策树作为学习方法，提高了预测的PHQ‑8值的准确性以及训练的时效性，以PHQ‑8抑郁症筛查量表的PHQ‑8值为输出结果，PHQ‑8值得分介于0‑24之间，得分高于10分低于20为抑郁，得分高于20可认为为严重抑郁。具有更高的准确性和客观性。

Description

一种基于语音信号的梯度提升决策树抑郁症识别方法

技术领域

本发明涉及情感计算中的抑郁识别领域，具体涉及基于语音信号的梯度提升决策树抑郁症识别方法。

背景技术

近年来，在人工智能和机器人技术的发展下，传统的人机交互模式已经不能满足需求，新型的人机交互需要情感的交流，因此，情感识别成为了人机交互技术发展的关键，也成为了学界热点的研究课题。情感识别是涉及多学科的研究课题，通过使计算机理解并识别人类情感，进而预测和理解人类的行为趋势和心理状态，从而实现高效和谐的人机情感交互。

抑郁是一种情绪低落和对活动的厌恶的精神状态，会影响一个人的思想，行为，感觉和幸福感。目前，抑郁症在世界范围内非常普遍，已然成为当今社会上最为普遍的心理疾病之一，尤其是给个人，家庭和社会造成负担和压力。2018 年世界卫生组织(WHO)公布，全球抑郁症患者以达3.5亿人。抑郁症不同于日常生活中短暂情绪反应和情绪波动，患者会受其较大影响，在工作中以及在学校和家中表现不佳。最严重时，抑郁症可引致自杀。每年自杀死亡人数估计高达 100万人。

现有的抑郁症诊断方法主要依靠心理医生的主观判断和一些量表的辅助诊断。这些量表一般主观性较大。很多抑郁症患者会隐藏内心的真实想法从而使得这些量表并往往不能客观地反映患者真实情况。由于缺乏客观方法进行诊断，需要心理医生对患者进行交谈面诊，在交谈中针对患者的言语、动作以及情感利用自身所学知识进行诊断，此类方法效率较低且需要医师具有优秀的职业技能，因此，准确诊断抑郁症需要医生具有专业的知识和丰富的经验，这在发展中以及不发达国家与地区实现困难较大。近年来，通过一些不易隐藏的生理行为指标如表情、眼动、姿态、语音等进行抑郁症的检测和评估成为了当今的主流，可靠的抑郁症检测工具将会有效地帮助抑郁症诊断。因此，需要一种较为可靠的方法来进行抑郁程度诊断。

发明内容

本发明的目的是提供一种基于语音信号的梯度提升决策树抑郁症识别方法，从而实现抑郁症程度的诊断，为此，本发明采用以下技术方案：

一种基于语音信号的梯度提升决策树抑郁症识别方法，所述方法包括以下步骤：

S1、获取语音信号以及对应的PHQ-8值，将其一一对应对应，并选取训练样本集合测试样本集；

S2、对语音信号进行语音预处理，保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

S3、在经过处理后的语音数据中提取表征抑郁和情感的韵律学特征、基于谱的相关特征和音质特征；

S4、基于梯度决策提升树的机器学习方法预测对训练集进行学习，并利用最后训练得到的模型测试语音信号，输出其对应的PHQ-8值作为抑郁程度的依据。

进一步地，所述步骤S2对语音信号进行语音预处理的具体步骤为：

S2.1：对语音信号离散化，使用一阶高通滤波器进行预加重，一阶高通滤波器的表达式如下：

H(z)＝1-αz^-1,0.9<α<1.0

S2.2：对信号进行分帧，帧长为30ms，帧移为10ms；

S2.3：选择汉明窗函数，其计算公式如下：

进一步地，所述步骤S3提取表征抑郁的语音特征具体步骤为：

S3.1:基频特征提取,基音周期(Pitch)是声带振动频率的倒数,提取基音频率，基音周期是声带开启和闭合一次说用的时长，基音频率是其倒数，当信号序列为x(n)时，它的傅里叶变换为

X(ω)＝FFT[x(n)]

则序列

称

为倒频谱，简称为倒谱，这里FFT和FFT^-1分别为傅里叶变换和傅里

叶反变换，

的实际单位是时间s；

语音x(n)是由声门脉冲激励u(n)经声道响应v(n)滤波而得，即

x(n)＝u(n)*v(n)

则这三个量的倒谱有

在倒频谱中，声门脉冲激励和声道响应是相对分离的，因此从

中可以分离恢复出声门脉冲激励，从而得到基音周期；

S3.2:提取短时能量，短时能量是指一帧语音的能量，设语音信号为x(n)、加窗函数ω(n)分帧处理后的第i帧语音信号为y_i(n),则y_i(n)满足：

y_i(n)＝ω(n)*x((i-1)*inc+n)，1≤n≤L，1≤i≤fn

ω(n)为窗函数；y_i(n)是一帧的数值；inc为帧移长度；fn为分帧后的总帧数，则第i帧的语音信号的短时能量为

S3.3:提取短时平均过零率，它表示一帧语音中信号的波形穿过零电平的次数，对于离散信号来说，相邻数据改变一次符号就算做一次过零，设语音信号为 x(n)，分帧后第i帧语音信号为y_i(n),短时平均过零率为

S3.4:提取Mel频率倒谱系数(MFCC)，MFCC系数较好地模拟了人耳听觉系统感知信号的能力，具有鲁棒性强、识别率高的特点，广泛应用于语音处理系统中，提取过程如下：

1)音频信号经过预加重、分帧、分窗得到预处理后的语音信号x(n)

2)对预处理后的信号进行DFT得到离散谱X(k)，变换公式为：

3)将DFT变换后的语音信息输入到Mel滤波器组，取对数后得到对数频谱

4)将S(m)经过离散余弦变换DCT得到倒频谱域，得到MFCC为

进一步地，步骤S4基于梯度决策提升树的机器学习方法为：

假设训练集样本T＝{(x₁,y₁),(x₂,y₂),…,(x_m,y_m)},最大迭代次数为T，损失函数L，输出是强学习器f(x),；

S4.1:初始化决策提升树，c的均值为所有样本PHQ-8的均值；

选取均方差作为损失函数

L(y,f(x))＝(y-f(x))²

S4.2:对于迭代次数t＝1,2,3,…,T,有：对于样本i＝1,2,3,…,m,计算负梯度；

利用(x_i,r_ti)i＝1,2,3,…,m拟合出一颗CART回归树，得到第t棵回归树，其对应的叶子节点区域为R_tj,j＝1,2,3,…,J,其中J为树t的叶子节点数。对于叶子区域j＝1,2,3,…,J,计算最佳的拟合值

更新决策树

S4.3:得到最终决策树f(x)的表达式，输出PHQ-8值

相对于现有技术，本发明的有益效果如下：

1)该技术方案本基于语音信号的梯度提升决策树抑郁症识别方法基于标准数据库取得了更为准确和高效的识别效果，基于DAIC-WOZ数据集，较传统的回归算法，均方误差(MSE)降低了14％，PHQ-8值预测准确率得到提升；

2)该方案考虑抑郁水平具有较大的主观性，采取输出PHQ-8量表得分形式作为输出，不需要进行参数假设而且便于理解，提高了抑郁检测结果的客观性和准确性。

3)基于语音信号的梯度提升决策树抑郁症识别方法对于高维数据，计算量相对较小，节约内存，计算速度快。

附图说明

图1为本发明的识别方法总体流程示意图。

图2为本发明步骤S3.4的流程示意图。

具体实施方式

下面结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1：参见图1-图2，一种基于语音信号的梯度提升决策树抑郁症识别方法，所述方法包括以下步骤：

S4、基于梯度决策提升树的机器学习方法预测对训练集进行学习，并利用最后训练得到的模型测试语音信号，输出其对应的PHQ-8值作为抑郁程度的依据；

所述步骤S2对语音信号进行语音预处理的具体步骤为：

H(z)＝1-αz^-1,0.9<α<1.0

S2.2：对信号进行分帧，帧长为30ms，帧移为10ms；

S2.3：选择汉明窗函数，其计算公式如下：

所述步骤S3提取表征抑郁的语音特征具体步骤为：

X(ω)＝FFT[x(n)]

则序列

称

为倒频谱，简称为倒谱，这里FFT和FFT^-1分别为傅里叶变换和傅里叶反变换，

的实际单位是时间s。

语音x(n)是由声门脉冲激励u(n)经声道响应v(n)滤波而得，即

x(n)＝u(n)*v(n)

则这三个量的倒谱有

中可以分离恢复出声门脉冲激励，从而得到基音周期；

y_i(n)＝ω(n)*x((i-1)*inc+n)，1≤n≤L，1≤i≤fn

S3.3:提取短时平均过零率，它表示一帧语音中信号的波形穿过零电平的次数。对于离散信号来说，相邻数据改变一次符号就算做一次过零，设语音信号为 x(n)，分帧后第i帧语音信号为y_i(n),短时平均过零率为

S3.4:提取Mel频率倒谱系数(MFCC)，MFCC系数较好地模拟了人耳听觉系统感知信号的能力，具有鲁棒性强、识别率高的特点，广泛应用于语音处理系统中。

2)对预处理后的信号进行DFT得到离散谱X(k)，变换公式为：

3)将DFT变换后的语音信息输入到Mel滤波器组，取对数后得到对数频谱为

4)将S(m)经过离散余弦变换DCT得到倒频谱域，得到MFCC为

步骤S4基于梯度决策提升树的机器学习方法为：

假设训练集样本T＝{(x,y1),(x,y2),(x,y3),(x,y4),…(x,ym)},最大迭代次数为 T，损失函数L，输出是强学习器f(x),。

S4.1:初始化决策提升树，c的均值为所有样本PHQ-8的均值。

选取均方差作为损失函数

L(y,f(x))＝(y-f(x))²

S4.2:对于迭代次数t＝1,2,3,…,T,有：对于样本i＝1,2,3,…,m,计算负梯度

更新决策树

S4.3:得到最终决策树f(x)的表达式，输出PHQ-8值

应用实施例：参见图1-图2，本实例以DAIC-WOZ数据集为素材，仿真平台是Python3.7。

如图1所示，本发明基于语音信号的梯度提升决策树抑郁程度识别方法主要包括以下步骤：

S1、获取语音信号数据，与其相对应的PHQ-8值相对应，并选取总样本的 80％作为训练样本，20％作为测试样本集。PHQ-8值得分介于0-24之间，得分高于10分低于20为抑郁，得分高于20可认为为严重抑郁。

需要说明的是上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述技术方案的基础上做出的等同替换或者替代，均属于本发明的保护范围。

Claims

1.一种基于语音信号的梯度提升决策树抑郁程度识别方法，其特征在于，所述方法包括如下步骤：

S1、从抑郁数据集中获取语音信号样本以及对应样本标签的PHQ-8值，将其一一对应，并抽取一部分样本集合作为测试样本集，另一部分作为训练集；

S2、对语音信号进行语音预处理，保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量；

2.根据权利要求1所述的一种基于语音信号的梯度提升决策树抑郁程度识别方法，其特征在于，所述步骤S2对语音信号进行语音预处理的具体步骤为：

H(z)＝1-αz^-1,0.9<α<1.0

S2.2：对信号进行分帧，帧长为30ms，帧移为10ms；

S2.3：选择汉明窗函数，其计算公式如下：

3.根据权利要求1所述的一种基于语音信号的梯度提升决策树抑郁程度识别方法，其特征在于，所述步骤S3提取表征抑郁的语音特征具体步骤为：

X(ω)＝FFT[x(n)]

则序列

称

的实际单位是时间s；

语音x(n)是由声门脉冲激励u(n)经声道响应v(n)滤波而得，即

x(n)＝u(n)*v(n)

则这三个量的倒谱有

中可以分离恢复出声门脉冲激励，从而得到基音周期；

y_i(n)＝ω(n)*x((i-1)*inc+n)，1≤n≤L，1≤i≤fn

S3.3:提取短时平均过零率，它表示一帧语音中信号的波形穿过零电平的次数，对于离散信号来说，相邻数据改变一次符号就算做一次过零，设语音信号为x(n)，分帧后第i帧语音信号为y_i(n),短时平均过零率为

S3.4:提取Mel频率倒谱系数(MFCC)，MFCC系数较好地模拟了人耳听觉系统感知信号的能力。

4.根据权利要求1所述的一种基于语音信号的梯度提升决策树抑郁程度识别方法，其特征在于，步骤S4基于梯度决策提升树的机器学习方法为：

假设训练集样本T＝{(x₁,y₁),(x₂,y₂),…,(x_m,y_m)},最大迭代次数为T，损失函数L，输出是强学习器f(x),c表示回归树叶子的最佳拟合值；

S4.1:初始化决策提升树，c的均值为所有样本PHQ-8的均值；

选取均方差作为损失函数

L(y,f(x))＝(y-f(x))²

更新决策树

S4.3:得到最终决策树f(x)的表达式，输出PHQ-8值

5.根据权利要求1所述的一种基于语音信号的梯度提升决策树抑郁程度识别方法，其特征在于，

S3.4:提取Mel频率倒谱系数(MFCC)，MFCC系数较好地模拟了人耳听觉系统感知信号的能力，提取过程具体如下：

2)对预处理后的信号进行DFT得到离散谱X(k)，变换公式为：

4)将S(m)经过离散余弦变换DCT得到倒频谱域，得到MFCC为