CN112006697A - 一种基于语音信号的梯度提升决策树抑郁症识别方法 - Google Patents

一种基于语音信号的梯度提升决策树抑郁症识别方法 Download PDF

Info

Publication number
CN112006697A
CN112006697A CN202010490441.XA CN202010490441A CN112006697A CN 112006697 A CN112006697 A CN 112006697A CN 202010490441 A CN202010490441 A CN 202010490441A CN 112006697 A CN112006697 A CN 112006697A
Authority
CN
China
Prior art keywords
voice
depression
signal
phq
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010490441.XA
Other languages
English (en)
Other versions
CN112006697B (zh
Inventor
刘蔚
黄永明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010490441.XA priority Critical patent/CN112006697B/zh
Publication of CN112006697A publication Critical patent/CN112006697A/zh
Application granted granted Critical
Publication of CN112006697B publication Critical patent/CN112006697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Psychology (AREA)
  • Epidemiology (AREA)
  • Social Psychology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Educational Technology (AREA)
  • Developmental Disabilities (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种基于语音信号的梯度提升决策树抑郁症识别方法,包括以下步骤:获取接受采访者的语音数据以及对应的PHQ‑8抑郁症筛查量表得分,将语音信号与PHQ‑8值相对应,并选取训练样本集合进行训练,测试样本集;提取语音信号中表征情感和抑郁的韵律学特征、基于谱的相关特征和音质特征;采用梯度提升决策树的机器学习方法在训练集上进行学习,以PHQ‑8得分为输出结果作为判定抑郁症程度的依据。本发明采用梯度提升决策树作为学习方法,提高了预测的PHQ‑8值的准确性以及训练的时效性,以PHQ‑8抑郁症筛查量表的PHQ‑8值为输出结果,PHQ‑8值得分介于0‑24之间,得分高于10分低于20为抑郁,得分高于20可认为为严重抑郁。具有更高的准确性和客观性。

Description

一种基于语音信号的梯度提升决策树抑郁症识别方法
技术领域
本发明涉及情感计算中的抑郁识别领域,具体涉及基于语音信号的梯度提升决策树抑郁症识别方法。
背景技术
近年来,在人工智能和机器人技术的发展下,传统的人机交互模式已经不能满足需求,新型的人机交互需要情感的交流,因此,情感识别成为了人机交互技术发展的关键,也成为了学界热点的研究课题。情感识别是涉及多学科的研究课题,通过使计算机理解并识别人类情感,进而预测和理解人类的行为趋势和心理状态,从而实现高效和谐的人机情感交互。
抑郁是一种情绪低落和对活动的厌恶的精神状态,会影响一个人的思想,行为,感觉和幸福感。目前,抑郁症在世界范围内非常普遍,已然成为当今社会上最为普遍的心理疾病之一,尤其是给个人,家庭和社会造成负担和压力。2018 年世界卫生组织(WHO)公布,全球抑郁症患者以达3.5亿人。抑郁症不同于日常生活中短暂情绪反应和情绪波动,患者会受其较大影响,在工作中以及在学校和家中表现不佳。最严重时,抑郁症可引致自杀。每年自杀死亡人数估计高达 100万人。
现有的抑郁症诊断方法主要依靠心理医生的主观判断和一些量表的辅助诊断。这些量表一般主观性较大。很多抑郁症患者会隐藏内心的真实想法从而使得这些量表并往往不能客观地反映患者真实情况。由于缺乏客观方法进行诊断,需要心理医生对患者进行交谈面诊,在交谈中针对患者的言语、动作以及情感利用自身所学知识进行诊断,此类方法效率较低且需要医师具有优秀的职业技能,因此,准确诊断抑郁症需要医生具有专业的知识和丰富的经验,这在发展中以及不发达国家与地区实现困难较大。近年来,通过一些不易隐藏的生理行为指标如表情、眼动、姿态、语音等进行抑郁症的检测和评估成为了当今的主流,可靠的抑郁症检测工具将会有效地帮助抑郁症诊断。因此,需要一种较为可靠的方法来进行抑郁程度诊断。
发明内容
本发明的目的是提供一种基于语音信号的梯度提升决策树抑郁症识别方法,从而实现抑郁症程度的诊断,为此,本发明采用以下技术方案:
一种基于语音信号的梯度提升决策树抑郁症识别方法,所述方法包括以下步骤:
S1、获取语音信号以及对应的PHQ-8值,将其一一对应对应,并选取训练样本集合测试样本集;
S2、对语音信号进行语音预处理,保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。
S3、在经过处理后的语音数据中提取表征抑郁和情感的韵律学特征、基于谱的相关特征和音质特征;
S4、基于梯度决策提升树的机器学习方法预测对训练集进行学习,并利用最后训练得到的模型测试语音信号,输出其对应的PHQ-8值作为抑郁程度的依据。
进一步地,所述步骤S2对语音信号进行语音预处理的具体步骤为:
S2.1:对语音信号离散化,使用一阶高通滤波器进行预加重,一阶高通滤波器的表达式如下:
H(z)=1-αz-1,0.9<α<1.0
S2.2:对信号进行分帧,帧长为30ms,帧移为10ms;
S2.3:选择汉明窗函数,其计算公式如下:
Figure RE-GDA0002714127630000021
进一步地,所述步骤S3提取表征抑郁的语音特征具体步骤为:
S3.1:基频特征提取,基音周期(Pitch)是声带振动频率的倒数,提取基音频率,基音周期是声带开启和闭合一次说用的时长,基音频率是其倒数,当信号序列为x(n)时,它的傅里叶变换为
X(ω)=FFT[x(n)]
则序列
Figure RE-GDA0002714127630000022
Figure RE-GDA0002714127630000023
为倒频谱,简称为倒谱,这里FFT和FFT-1分别为傅里叶变换和傅里
叶反变换,
Figure RE-GDA0002714127630000031
的实际单位是时间s;
语音x(n)是由声门脉冲激励u(n)经声道响应v(n)滤波而得,即
x(n)=u(n)*v(n)
则这三个量的倒谱有
Figure RE-GDA0002714127630000032
在倒频谱中,声门脉冲激励和声道响应是相对分离的,因此从
Figure RE-GDA0002714127630000033
中可以分离恢复出声门脉冲激励,从而得到基音周期;
S3.2:提取短时能量,短时能量是指一帧语音的能量,设语音信号为x(n)、加窗函数ω(n)分帧处理后的第i帧语音信号为yi(n),则yi(n)满足:
yi(n)=ω(n)*x((i-1)*inc+n),1≤n≤L,1≤i≤fn
ω(n)为窗函数;yi(n)是一帧的数值;inc为帧移长度;fn为分帧后的总帧数,则第i帧的语音信号的短时能量为
Figure RE-GDA0002714127630000034
S3.3:提取短时平均过零率,它表示一帧语音中信号的波形穿过零电平的次数,对于离散信号来说,相邻数据改变一次符号就算做一次过零,设语音信号为 x(n),分帧后第i帧语音信号为yi(n),短时平均过零率为
Figure RE-GDA0002714127630000035
S3.4:提取Mel频率倒谱系数(MFCC),MFCC系数较好地模拟了人耳听觉系统感知信号的能力,具有鲁棒性强、识别率高的特点,广泛应用于语音处理系统中,提取过程如下:
1)音频信号经过预加重、分帧、分窗得到预处理后的语音信号x(n)
2)对预处理后的信号进行DFT得到离散谱X(k),变换公式为:
Figure RE-GDA0002714127630000036
3)将DFT变换后的语音信息输入到Mel滤波器组,取对数后得到对数频谱
Figure RE-GDA0002714127630000037
4)将S(m)经过离散余弦变换DCT得到倒频谱域,得到MFCC为
Figure RE-GDA0002714127630000041
进一步地,步骤S4基于梯度决策提升树的机器学习方法为:
假设训练集样本T={(x1,y1),(x2,y2),…,(xm,ym)},最大迭代次数为T,损失函数L,输出是强学习器f(x),;
S4.1:初始化决策提升树,c的均值为所有样本PHQ-8的均值;
Figure RE-GDA0002714127630000042
选取均方差作为损失函数
L(y,f(x))=(y-f(x))2
S4.2:对于迭代次数t=1,2,3,…,T,有:对于样本i=1,2,3,…,m,计算负梯度;
Figure RE-GDA0002714127630000043
利用(xi,rti)i=1,2,3,…,m拟合出一颗CART回归树,得到第t棵回归树,其对应的叶子节点区域为Rtj,j=1,2,3,…,J,其中J为树t的叶子节点数。对于叶子区域j=1,2,3,…,J,计算最佳的拟合值
Figure RE-GDA0002714127630000044
更新决策树
Figure RE-GDA0002714127630000045
S4.3:得到最终决策树f(x)的表达式,输出PHQ-8值
Figure RE-GDA0002714127630000046
相对于现有技术,本发明的有益效果如下:
1)该技术方案本基于语音信号的梯度提升决策树抑郁症识别方法基于标准数据库取得了更为准确和高效的识别效果,基于DAIC-WOZ数据集,较传统的回归算法,均方误差(MSE)降低了14%,PHQ-8值预测准确率得到提升;
2)该方案考虑抑郁水平具有较大的主观性,采取输出PHQ-8量表得分形式作为输出,不需要进行参数假设而且便于理解,提高了抑郁检测结果的客观性和准确性。
3)基于语音信号的梯度提升决策树抑郁症识别方法对于高维数据,计算量相对较小,节约内存,计算速度快。
附图说明
图1为本发明的识别方法总体流程示意图。
图2为本发明步骤S3.4的流程示意图。
具体实施方式
下面结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1:参见图1-图2,一种基于语音信号的梯度提升决策树抑郁症识别方法,所述方法包括以下步骤:
S1、获取语音信号以及对应的PHQ-8值,将其一一对应对应,并选取训练样本集合测试样本集;
S2、对语音信号进行语音预处理,保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。
S3、在经过处理后的语音数据中提取表征抑郁和情感的韵律学特征、基于谱的相关特征和音质特征;
S4、基于梯度决策提升树的机器学习方法预测对训练集进行学习,并利用最后训练得到的模型测试语音信号,输出其对应的PHQ-8值作为抑郁程度的依据;
所述步骤S2对语音信号进行语音预处理的具体步骤为:
S2.1:对语音信号离散化,使用一阶高通滤波器进行预加重,一阶高通滤波器的表达式如下:
H(z)=1-αz-1,0.9<α<1.0
S2.2:对信号进行分帧,帧长为30ms,帧移为10ms;
S2.3:选择汉明窗函数,其计算公式如下:
Figure RE-GDA0002714127630000061
所述步骤S3提取表征抑郁的语音特征具体步骤为:
S3.1:基频特征提取,基音周期(Pitch)是声带振动频率的倒数,提取基音频率,基音周期是声带开启和闭合一次说用的时长,基音频率是其倒数,当信号序列为x(n)时,它的傅里叶变换为
X(ω)=FFT[x(n)]
则序列
Figure RE-GDA0002714127630000062
Figure RE-GDA0002714127630000063
为倒频谱,简称为倒谱,这里FFT和FFT-1分别为傅里叶变换和傅里叶反变换,
Figure RE-GDA0002714127630000064
的实际单位是时间s。
语音x(n)是由声门脉冲激励u(n)经声道响应v(n)滤波而得,即
x(n)=u(n)*v(n)
则这三个量的倒谱有
Figure RE-GDA0002714127630000065
在倒频谱中,声门脉冲激励和声道响应是相对分离的,因此从
Figure RE-GDA0002714127630000066
中可以分离恢复出声门脉冲激励,从而得到基音周期;
S3.2:提取短时能量,短时能量是指一帧语音的能量,设语音信号为x(n)、加窗函数ω(n)分帧处理后的第i帧语音信号为yi(n),则yi(n)满足:
yi(n)=ω(n)*x((i-1)*inc+n),1≤n≤L,1≤i≤fn
ω(n)为窗函数;yi(n)是一帧的数值;inc为帧移长度;fn为分帧后的总帧数,则第i帧的语音信号的短时能量为
Figure RE-GDA0002714127630000067
S3.3:提取短时平均过零率,它表示一帧语音中信号的波形穿过零电平的次数。对于离散信号来说,相邻数据改变一次符号就算做一次过零,设语音信号为 x(n),分帧后第i帧语音信号为yi(n),短时平均过零率为
Figure RE-GDA0002714127630000071
S3.4:提取Mel频率倒谱系数(MFCC),MFCC系数较好地模拟了人耳听觉系统感知信号的能力,具有鲁棒性强、识别率高的特点,广泛应用于语音处理系统中。
1)音频信号经过预加重、分帧、分窗得到预处理后的语音信号x(n)
2)对预处理后的信号进行DFT得到离散谱X(k),变换公式为:
Figure RE-GDA0002714127630000072
3)将DFT变换后的语音信息输入到Mel滤波器组,取对数后得到对数频谱为
Figure RE-GDA0002714127630000073
4)将S(m)经过离散余弦变换DCT得到倒频谱域,得到MFCC为
Figure RE-GDA0002714127630000074
步骤S4基于梯度决策提升树的机器学习方法为:
假设训练集样本T={(x,y1),(x,y2),(x,y3),(x,y4),…(x,ym)},最大迭代次数为 T,损失函数L,输出是强学习器f(x),。
S4.1:初始化决策提升树,c的均值为所有样本PHQ-8的均值。
Figure RE-GDA0002714127630000075
选取均方差作为损失函数
L(y,f(x))=(y-f(x))2
S4.2:对于迭代次数t=1,2,3,…,T,有:对于样本i=1,2,3,…,m,计算负梯度
Figure RE-GDA0002714127630000076
利用(xi,rti)i=1,2,3,…,m拟合出一颗CART回归树,得到第t棵回归树,其对应的叶子节点区域为Rtj,j=1,2,3,…,J,其中J为树t的叶子节点数。对于叶子区域j=1,2,3,…,J,计算最佳的拟合值
Figure RE-GDA0002714127630000081
更新决策树
Figure RE-GDA0002714127630000082
S4.3:得到最终决策树f(x)的表达式,输出PHQ-8值
Figure RE-GDA0002714127630000083
应用实施例:参见图1-图2,本实例以DAIC-WOZ数据集为素材,仿真平台是Python3.7。
如图1所示,本发明基于语音信号的梯度提升决策树抑郁程度识别方法主要包括以下步骤:
S1、获取语音信号数据,与其相对应的PHQ-8值相对应,并选取总样本的 80%作为训练样本,20%作为测试样本集。PHQ-8值得分介于0-24之间,得分高于10分低于20为抑郁,得分高于20可认为为严重抑郁。
S2、对语音信号进行语音预处理,保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。
S3、在经过处理后的语音数据中提取表征抑郁和情感的韵律学特征、基于谱的相关特征和音质特征;
S4、基于梯度决策提升树的机器学习方法预测对训练集进行学习,并利用最后训练得到的模型测试语音信号,输出其对应的PHQ-8值作为抑郁程度的依据。
需要说明的是上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的基础上做出的等同替换或者替代,均属于本发明的保护范围。

Claims (5)

1.一种基于语音信号的梯度提升决策树抑郁程度识别方法,其特征在于,所述方法包括如下步骤:
S1、从抑郁数据集中获取语音信号样本以及对应样本标签的PHQ-8值,将其一一对应,并抽取一部分样本集合作为测试样本集,另一部分作为训练集;
S2、对语音信号进行语音预处理,保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量;
S3、在经过处理后的语音数据中提取表征抑郁和情感的韵律学特征、基于谱的相关特征和音质特征;
S4、基于梯度决策提升树的机器学习方法预测对训练集进行学习,并利用最后训练得到的模型测试语音信号,输出其对应的PHQ-8值作为抑郁程度的依据。
2.根据权利要求1所述的一种基于语音信号的梯度提升决策树抑郁程度识别方法,其特征在于,所述步骤S2对语音信号进行语音预处理的具体步骤为:
S2.1:对语音信号离散化,使用一阶高通滤波器进行预加重,一阶高通滤波器的表达式如下:
H(z)=1-αz-1,0.9<α<1.0
S2.2:对信号进行分帧,帧长为30ms,帧移为10ms;
S2.3:选择汉明窗函数,其计算公式如下:
Figure FDA0002520877320000011
3.根据权利要求1所述的一种基于语音信号的梯度提升决策树抑郁程度识别方法,其特征在于,所述步骤S3提取表征抑郁的语音特征具体步骤为:
S3.1:基频特征提取,基音周期(Pitch)是声带振动频率的倒数,提取基音频率,基音周期是声带开启和闭合一次说用的时长,基音频率是其倒数,当信号序列为x(n)时,它的傅里叶变换为
X(ω)=FFT[x(n)]
则序列
Figure FDA0002520877320000012
Figure FDA0002520877320000021
为倒频谱,简称为倒谱,这里FFT和FFT-1分别为傅里叶变换和傅里叶反变换,
Figure FDA0002520877320000022
的实际单位是时间s;
语音x(n)是由声门脉冲激励u(n)经声道响应v(n)滤波而得,即
x(n)=u(n)*v(n)
则这三个量的倒谱有
Figure FDA0002520877320000023
在倒频谱中,声门脉冲激励和声道响应是相对分离的,因此从
Figure FDA0002520877320000024
中可以分离恢复出声门脉冲激励,从而得到基音周期;
S3.2:提取短时能量,短时能量是指一帧语音的能量,设语音信号为x(n)、加窗函数ω(n)分帧处理后的第i帧语音信号为yi(n),则yi(n)满足:
yi(n)=ω(n)*x((i-1)*inc+n),1≤n≤L,1≤i≤fn
ω(n)为窗函数;yi(n)是一帧的数值;inc为帧移长度;fn为分帧后的总帧数,则第i帧的语音信号的短时能量为
Figure FDA0002520877320000025
S3.3:提取短时平均过零率,它表示一帧语音中信号的波形穿过零电平的次数,对于离散信号来说,相邻数据改变一次符号就算做一次过零,设语音信号为x(n),分帧后第i帧语音信号为yi(n),短时平均过零率为
Figure FDA0002520877320000026
S3.4:提取Mel频率倒谱系数(MFCC),MFCC系数较好地模拟了人耳听觉系统感知信号的能力。
4.根据权利要求1所述的一种基于语音信号的梯度提升决策树抑郁程度识别方法,其特征在于,步骤S4基于梯度决策提升树的机器学习方法为:
假设训练集样本T={(x1,y1),(x2,y2),…,(xm,ym)},最大迭代次数为T,损失函数L,输出是强学习器f(x),c表示回归树叶子的最佳拟合值;
S4.1:初始化决策提升树,c的均值为所有样本PHQ-8的均值;
Figure FDA0002520877320000031
选取均方差作为损失函数
L(y,f(x))=(y-f(x))2
S4.2:对于迭代次数t=1,2,3,…,T,有:对于样本i=1,2,3,…,m,计算负梯度;
Figure FDA0002520877320000032
利用(xi,rti)i=1,2,3,…,m拟合出一颗CART回归树,得到第t棵回归树,其对应的叶子节点区域为Rtj,j=1,2,3,…,J,其中J为树t的叶子节点数。对于叶子区域j=1,2,3,…,J,计算最佳的拟合值
Figure FDA0002520877320000033
更新决策树
Figure FDA0002520877320000034
S4.3:得到最终决策树f(x)的表达式,输出PHQ-8值
Figure FDA0002520877320000035
5.根据权利要求1所述的一种基于语音信号的梯度提升决策树抑郁程度识别方法,其特征在于,
S3.4:提取Mel频率倒谱系数(MFCC),MFCC系数较好地模拟了人耳听觉系统感知信号的能力,提取过程具体如下:
1)音频信号经过预加重、分帧、分窗得到预处理后的语音信号x(n)
2)对预处理后的信号进行DFT得到离散谱X(k),变换公式为:
Figure FDA0002520877320000036
3)将DFT变换后的语音信息输入到Mel滤波器组,取对数后得到对数频谱
Figure FDA0002520877320000041
4)将S(m)经过离散余弦变换DCT得到倒频谱域,得到MFCC为
Figure FDA0002520877320000042
CN202010490441.XA 2020-06-02 2020-06-02 一种基于语音信号的梯度提升决策树抑郁程度识别系统 Active CN112006697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010490441.XA CN112006697B (zh) 2020-06-02 2020-06-02 一种基于语音信号的梯度提升决策树抑郁程度识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010490441.XA CN112006697B (zh) 2020-06-02 2020-06-02 一种基于语音信号的梯度提升决策树抑郁程度识别系统

Publications (2)

Publication Number Publication Date
CN112006697A true CN112006697A (zh) 2020-12-01
CN112006697B CN112006697B (zh) 2022-11-01

Family

ID=73506323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010490441.XA Active CN112006697B (zh) 2020-06-02 2020-06-02 一种基于语音信号的梯度提升决策树抑郁程度识别系统

Country Status (1)

Country Link
CN (1) CN112006697B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908435A (zh) * 2021-01-28 2021-06-04 南京脑科医院 一种抑郁症认知行为训练系统和语音数据处理方法
CN112927722A (zh) * 2021-01-25 2021-06-08 中国科学院心理研究所 基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统
CN113012720A (zh) * 2021-02-10 2021-06-22 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法
CN113180623A (zh) * 2021-06-01 2021-07-30 山东大学 无袖式血压测量方法、系统、设备及存储介质
CN113633287A (zh) * 2021-07-08 2021-11-12 上海市精神卫生中心(上海市心理咨询培训中心) 一种基于语音分析的抑郁症识别方法、系统和设备
CN114200260A (zh) * 2021-11-26 2022-03-18 山东泰开成套电器有限公司 一种基于音频的开关柜局部放电检测方法
CN114299925A (zh) * 2021-12-31 2022-04-08 江苏省省级机关医院 一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统
CN115620706A (zh) * 2022-11-07 2023-01-17 之江实验室 一种模型训练方法、装置、设备及存储介质
WO2023084254A1 (en) * 2021-11-15 2023-05-19 Limbic Limited Diagnosic method and system
CN118098289A (zh) * 2024-04-26 2024-05-28 中南民族大学 一种结合精准模型与轻量级模型的抑郁症识别方法及系统

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737629A (zh) * 2011-11-11 2012-10-17 东南大学 一种嵌入式语音情感识别方法及装置
US20130090927A1 (en) * 2011-08-02 2013-04-11 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
US20130166291A1 (en) * 2010-07-06 2013-06-27 Rmit University Emotional and/or psychiatric state detection
US20150112232A1 (en) * 2013-10-20 2015-04-23 Massachusetts Institute Of Technology Using correlation structure of speech dynamics to detect neurological changes
CN106725532A (zh) * 2016-12-13 2017-05-31 兰州大学 基于语音特征与机器学习的抑郁症自动评估系统和方法
CN107657964A (zh) * 2017-08-15 2018-02-02 西北大学 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
US20180214061A1 (en) * 2014-08-22 2018-08-02 Sri International Systems for speech-based assessment of a patient's state-of-mind
CN109256144A (zh) * 2018-11-20 2019-01-22 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
CN109300046A (zh) * 2018-08-01 2019-02-01 平安科技(深圳)有限公司 电子装置、基于路况因子的车险查勘调度方法及存储介质
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110222827A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 基于文本的抑郁判定网络模型的训练方法
CN110245802A (zh) * 2019-06-20 2019-09-17 杭州安脉盛智能技术有限公司 基于改进梯度提升决策树的卷烟空头率预测方法及系统
CN110265063A (zh) * 2019-07-22 2019-09-20 东南大学 一种基于固定时长语音情感识别序列分析的测谎方法
CN110516696A (zh) * 2019-07-12 2019-11-29 东南大学 一种基于语音和表情的自适应权重双模态融合情感识别方法
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN110837921A (zh) * 2019-10-29 2020-02-25 西安建筑科技大学 基于梯度提升决策树混合模型的房地产价格预测研究方法
CN111192659A (zh) * 2019-12-31 2020-05-22 苏州思必驰信息科技有限公司 用于抑郁检测的预训练方法和抑郁检测方法及装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130166291A1 (en) * 2010-07-06 2013-06-27 Rmit University Emotional and/or psychiatric state detection
US20130090927A1 (en) * 2011-08-02 2013-04-11 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
CN102737629A (zh) * 2011-11-11 2012-10-17 东南大学 一种嵌入式语音情感识别方法及装置
US20150112232A1 (en) * 2013-10-20 2015-04-23 Massachusetts Institute Of Technology Using correlation structure of speech dynamics to detect neurological changes
US20180214061A1 (en) * 2014-08-22 2018-08-02 Sri International Systems for speech-based assessment of a patient's state-of-mind
CN106725532A (zh) * 2016-12-13 2017-05-31 兰州大学 基于语音特征与机器学习的抑郁症自动评估系统和方法
CN107657964A (zh) * 2017-08-15 2018-02-02 西北大学 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
CN108154888A (zh) * 2017-12-26 2018-06-12 四川沐迪圣科技有限公司 一种基于语音特征的可穿戴设备监测心理健康方法
CN109300046A (zh) * 2018-08-01 2019-02-01 平安科技(深圳)有限公司 电子装置、基于路况因子的车险查勘调度方法及存储介质
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN109256144A (zh) * 2018-11-20 2019-01-22 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
CN110222827A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 基于文本的抑郁判定网络模型的训练方法
CN110245802A (zh) * 2019-06-20 2019-09-17 杭州安脉盛智能技术有限公司 基于改进梯度提升决策树的卷烟空头率预测方法及系统
CN110516696A (zh) * 2019-07-12 2019-11-29 东南大学 一种基于语音和表情的自适应权重双模态融合情感识别方法
CN110265063A (zh) * 2019-07-22 2019-09-20 东南大学 一种基于固定时长语音情感识别序列分析的测谎方法
CN110837921A (zh) * 2019-10-29 2020-02-25 西安建筑科技大学 基于梯度提升决策树混合模型的房地产价格预测研究方法
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111192659A (zh) * 2019-12-31 2020-05-22 苏州思必驰信息科技有限公司 用于抑郁检测的预训练方法和抑郁检测方法及装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927722A (zh) * 2021-01-25 2021-06-08 中国科学院心理研究所 基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统
CN112927722B (zh) * 2021-01-25 2022-11-25 中国科学院心理研究所 基于个体语音分析的抑郁感知系统建立方法及其抑郁感知系统
CN112908435A (zh) * 2021-01-28 2021-06-04 南京脑科医院 一种抑郁症认知行为训练系统和语音数据处理方法
CN112908435B (zh) * 2021-01-28 2024-05-31 南京脑科医院 一种抑郁症认知行为训练系统和语音数据处理方法
CN113012720A (zh) * 2021-02-10 2021-06-22 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法
CN113012720B (zh) * 2021-02-10 2023-06-16 杭州医典智能科技有限公司 谱减法降噪下多语音特征融合的抑郁症检测方法
CN113180623A (zh) * 2021-06-01 2021-07-30 山东大学 无袖式血压测量方法、系统、设备及存储介质
CN113633287A (zh) * 2021-07-08 2021-11-12 上海市精神卫生中心(上海市心理咨询培训中心) 一种基于语音分析的抑郁症识别方法、系统和设备
WO2023084254A1 (en) * 2021-11-15 2023-05-19 Limbic Limited Diagnosic method and system
CN114200260A (zh) * 2021-11-26 2022-03-18 山东泰开成套电器有限公司 一种基于音频的开关柜局部放电检测方法
CN114299925A (zh) * 2021-12-31 2022-04-08 江苏省省级机关医院 一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统
CN115620706A (zh) * 2022-11-07 2023-01-17 之江实验室 一种模型训练方法、装置、设备及存储介质
CN118098289A (zh) * 2024-04-26 2024-05-28 中南民族大学 一种结合精准模型与轻量级模型的抑郁症识别方法及系统

Also Published As

Publication number Publication date
CN112006697B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN112006697B (zh) 一种基于语音信号的梯度提升决策树抑郁程度识别系统
CN110516696B (zh) 一种基于语音和表情的自适应权重双模态融合情感识别方法
Cernak et al. Characterisation of voice quality of Parkinson’s disease using differential phonological posterior features
Benba et al. Discriminating between patients with Parkinson’s and neurological diseases using cepstral analysis
CN103996155A (zh) 智能交互及心理慰藉机器人服务系统
CN110827857B (zh) 基于谱特征和elm的语音情感识别方法
Rendón et al. Automatic detection of hypernasality in children
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
Caponetti et al. Biologically inspired emotion recognition from speech
CN110265063B (zh) 一种基于固定时长语音情感识别序列分析的测谎方法
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
CN113111151A (zh) 一种基于智能语音问答的跨模态抑郁症检测方法
WO2023139559A1 (en) Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation
Alshehri et al. Detection and Diagnosis of Learning Disabilities in Children of Saudi Arabia with Artificial Intelligence
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
CN108766462B (zh) 一种基于梅尔频谱一阶导数的语音信号特征学习方法
Liu et al. AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning
CN114842878A (zh) 一种基于神经网络的语音情感识别方法
Nisar et al. Speech recognition-based automated visual acuity testing with adaptive mel filter bank
Tripathi et al. CNN based Parkinson's Disease Assessment using Empirical Mode Decomposition.
RU2559689C2 (ru) Способ определения риска развития заболеваний индивида по его голосу и аппаратно-программный комплекс для реализации способа
Huang et al. A review of automated intelligibility assessment for dysarthric speakers
CN116013371A (zh) 一种神经退行性疾病监测方法、系统、装置及存储介质
CN114299925A (zh) 一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统
Ding et al. Automatic recognition of student emotions based on deep neural network and its application in depression detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant