CN113012720A - 谱减法降噪下多语音特征融合的抑郁症检测方法 - Google Patents

谱减法降噪下多语音特征融合的抑郁症检测方法 Download PDF

Info

Publication number
CN113012720A
CN113012720A CN202110184566.4A CN202110184566A CN113012720A CN 113012720 A CN113012720 A CN 113012720A CN 202110184566 A CN202110184566 A CN 202110184566A CN 113012720 A CN113012720 A CN 113012720A
Authority
CN
China
Prior art keywords
voice
depression
spectral subtraction
time
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110184566.4A
Other languages
English (en)
Other versions
CN113012720B (zh
Inventor
李明定
张光华
杨忠丽
武海荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yidian Intelligent Technology Co ltd
Original Assignee
Hangzhou Yidian Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yidian Intelligent Technology Co ltd filed Critical Hangzhou Yidian Intelligent Technology Co ltd
Priority to CN202110184566.4A priority Critical patent/CN113012720B/zh
Publication of CN113012720A publication Critical patent/CN113012720A/zh
Application granted granted Critical
Publication of CN113012720B publication Critical patent/CN113012720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明提供一种谱减法降噪下多语音特征融合的抑郁症检测方法。首先从语音样本文件中分离出被试者的语音信息,分割较长的语音数据,同时获取对应的PHQ‑8抑郁症筛查量表得分。其次,利用改进的谱减法进行语音增强,消除环境噪声对语音的影响,对增强后的语音采用短时傅里叶变换得到频谱图,同时,提取每个片段的MFCC及共振峰特征,进行音频差分归一化处理获取局部非个性化的抑郁特征。将三种特征融合输入到改进的时间卷积神经网络(Temporal Convolutional Network,TCN)模型中完成分类和回归任务,以F1得分和均方误差为评价指标,来判断多种语音特征融合的抑郁症检测方法的准确性,实验结果证明本发明所提出的方法可以作为检测抑郁症是否存在的低成本且高效的方法。

Description

谱减法降噪下多语音特征融合的抑郁症检测方法
技术领域
本发明属于语音识别下的抑郁症检测领域,具体涉及一种谱减法降噪下多语音特征融合的抑郁症检测方法。
背景技术
抑郁症是目前世界上最常见的精神疾病,已经成为全球范围内严重的公共卫生和社会问题,极大地损害了人类的身心健康,降低了人们的生活质量,给社会和个人造成了巨大的经济损失。现阶段,抑郁症主要是由专业医师在量表和问卷调查的基础上,结合自身经验对病人情况进行诊断。这种诊断模式严重依赖于医生的专业水平、病人的配合程度和病人对量表问题的理解程度,且费时费力,误诊率较高。随着深度学习的发展,越来越多的学者利用说话人的语音声学特征结合神经网络训练自动识别抑郁症,识别患者的精神状态。目前,自动郁抑症检测的方法可以分为两类:传统的机器学习方法和深度学习方法。传统机器学习方法选择梅尔频率倒谱系数(MFCCs)、能量、过零率、共振峰特征、光谱特征等。提取特征后再采用诸如高斯混合模型(GMM)、支持向量回归(SVR)等机器学习方法识别抑郁症。这种方法可以在不需要大量数据的情况下对模型进行训练,但可能会丢失一些关键特征,从而降低识别的准确性。而深度学习在提取高层语义特征上具有明显的优势,学者们设计CNN,LSTM等网络来自动提取语音中和抑郁症相关的更深层次特征,取得了一定的研究进展。这些方法提取音频的MFCCs特征、频谱图等特征输入到神经网络中,自动提取与抑郁症相关的深层次特征,最后进行决策分类。但是,并非所有的语音片段都包含与抑郁症相关的特征,比如静音和片段。这些语音片段不包含与抑郁症相关的特征,但是在训练过程中,将分类标签和整句的标签都设为抑郁症标签,降低了分类的准确率。因此,改进现有的抑郁症检测方法势在必行。
发明内容
本发明的目的是基于上述技术现状,提供一种谱减法降噪下多语音特征融合的抑郁症检测方法。
一种谱减法降噪下多语音特征融合的抑郁症检测方法,其为利用抑郁症患者区别于正常人群的多种语音特征,构建多种语音特征融合的抑郁症检测方法,包括如下步骤:
步骤1:从抑郁数据集中获取语音信号样本以及对应样本标签的PHQ-8值,将其一一对应,并抽取一部分样本集合作为测试集,另一部分样本集合作为训练集;
步骤2:对语音信号进行分段处理,分离出被试者、虚拟采访者以及静默部分的语音部分,并去除后两项的语音部分,保留被试者的语音部分;
步骤3:对被试者的语音信号进行预处理,滤除噪声,增强语音信号;
步骤4:在步骤3增强的语音信号中提取MFCC特征、共振峰特征以及频谱图;
步骤5:将步骤4提取得到的MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习,得到训练模型;将测试集输入训练模型,输出其对应的PHQ-8值,并识别抑郁程度。
进一步,所述步骤2采用pyAudioAnalysis模块对语音信号进行分段处理。
进一步,所述步骤3通过谱减法进行语音增强,具体步骤为:
(1)对抑郁者语音信号加汉明窗消去直流分量,带噪声语音信号y(n)表示为:
y(n)=p(n)+d(n),0≤n≤N-1
其中p(n)为纯净信号,d(n)为噪声信号;
(2)将y(n)变换为频域表示:
Yw(ω)=Sw(ω)+Dw(ω)
其中,Yw(ω),Sw(ω),Dw(ω)分别为y(n),s(n),d(n)的傅里叶变换,Dw(ω)的傅里叶系数为Nk,因此,
|Yk|2=|Sk|2+|Nk|2+Sk·Nk *+Sk *·Nk
其中,*表示复共轭,假定噪声与s(n)为不相关的,即互谱的统计均值为0,因此,
E[|Yk|2]=E[|Sk|2]+E[|Nk|2]
(3)采用发语音前的无声部分,通过多帧平均来估计噪声,如下:
|Yk|2=|Sk|2+λ(K)
其中,λ(K)为静默部分时|Nk|2的统计平均值,即
Figure BDA0002942508280000031
(4)由第三步可得原始语音的估计值为:
Figure BDA0002942508280000032
(5)引入谱减功率修正系数m和谱减噪声系数
Figure BDA0002942508280000033
对抑郁症语音进行增强,改进的谱减算法如下:
Figure BDA0002942508280000034
进一步,所述步骤4中提取MFCC特征的具体步骤为:
(1)预加重,通过一个高通滤波器来增强语音信号中的高频部分,并保持在低频到高频的整个频段中,能够使用同样的信噪比求频谱,选取的高通滤波器传递函数为:
s(n)=x(n)-a*x(n-1)
其中,x(n)为n时刻的采样频率,x(n-1)为上一时刻的采样频率,a为预加重系数,取值介于0.9-1.0之间,通常取a=0.97;
(2)加窗,使用汉明窗进行加窗处理,此处采样率为16kHz,窗长25ms(400个采样点),窗间隔10ms(160个采样点),假设分帧后的信号为S(n),n=0,1,2…,N-1,其中N为帧的大小,进行加窗的处理则为:
Figure BDA0002942508280000041
0=n=N-1
(3)离散傅立叶变换(DFT),得到频谱上的能量分布,DFT的定义如下:
Figure BDA0002942508280000042
0=k=N-1
采用DFT长度N=512,结果值保留前257个系数。
(4)使用梅尔刻度滤波器组过滤,对于快速傅里叶变换(FFT)得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到该滤波器对应频段的能量值;
(5)对每个滤波器产生的输出频谱能量取对数后便可得到系数Sm,再利用DCT将Sm转换到时域,便就得到MFCC系数c(m):
Figure BDA0002942508280000043
m=1,2,…M
Figure BDA0002942508280000044
1≤m≤M
其中,X(k)、H(k)分别是时域信号,将频域拆分为两部分时域信号,分别为X(k)、H(k)。
进一步,所述步骤4中提取共振峰的具体步骤为:
(1)对语音信号进行加窗分帧,计算浊音基音周期(1:NN)点;
(2)取倒谱的前1:NN点,加NN点汉明窗,对语音信号进行快速傅里叶变换(FFT)及对数运算;
(3)将对数谱平滑处理,然后对峰值定位。
进一步,所述步骤4利用短时傅里叶变换获得频谱图,在傅立叶变换中,使用时间窗口函数g(t-u)与源信号分f(t)的相乘,实现在u附近的加窗口和平移,然后进行傅立叶变换,短时傅立叶变换如下:
Gf(ε,u)=∫f(t)g(t-u)ejεtdt
t表示时间,ε为角频率,u为前u时间段内,t-u为从u时刻到t时刻,j为系数。
进一步,所述步骤5将MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习,具体步骤如下:
(1)特征输入,将MFCC特征、共振峰特征、频谱图输入到改进的TCN模型中,改进的TCN模型在Temporal-Block中添加了一个裁剪层(chomp),保证网络每一层的特征长度相等;
(2)模型训练,语音数据的输入通道为513,训练时使用Adam优化器,训练20个epoch,dropout为0.05,batch size为64,初始学习率为2e-2,通过二元交叉熵损失和均方误差(MSE)回归更新参数;
(3)抑郁症判别,输出PHQ-8得分,用此得分进行分类和回归,判别被试者是否患抑郁症,若得分大于18,则分类为抑郁者,否则为正常人;通过PHQ-8得分和患者问卷调查结果对比,计算MSE,评估该模型的可信度。
本发明的有益效果如下:
(1)本专利采用改进的谱减法,在语音增强上达到了良好的效果,很好地分离出抑郁症相关的特征,静音和片段。相比之前的卷积神经网路,在DAIC-WOZ数据集上,均方误差(MSE)降低了18%,PHQ-8值预测准确率得到提升;
(2)多特征融合的抑郁症患者语音识别,更具有说服力,所选特征容易提取,计算量较小,节约内存,计算速度快。
附图说明
图1为抑郁症检测流程图;
图2为抑郁类语音增强实现框图法流程图;
图3为MFCC特征提取过程;
图4为共振峰提取框图;
图5为改进的TCN模型图;
图6为空洞卷积模块图;
图7为改进的残差模块图。
具体实施方式
下面结合具体实施例对本发明作进一步详细描述。这些实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于以下实施例。
实施例
如图1所示,其为本发明实施例提供的抑郁症检测流程图,具体包括以下步骤:
S101、语音采集,本实施例从一个语音抑郁症识别比赛的数据库DAIC-WOZ中采集语音样本文件,随机将107名患者的语音数据作为训练集,35名患者的语音数据作为测试集。所述采集语音样本文件的过程是通过虚拟机器人Ellie以访谈方式对被试者进行提问,并记录语音对话。
S102、语音分离,采用pyAudioAnalysis模块将语音样本文件中被试者、虚拟采访者以及静默部分的语音实现分段处理,并去除后两项的语音部分,保留被试者的语音部分。
S103、语音增强,如图2所示,利用改进的谱减法
Figure BDA0002942508280000071
进行语音增强,具体包括如下步骤:
(1)将带噪声的语音加汉明窗进行平滑处理,德奥短时相位谱,带噪声语音信号y(n)表示为:
y(n)=p(n)+d(n),0≤n≤N-1
其中p(n)为纯净信号,d(n)为噪声信号。
(2)计算静默部分时|Nk|2的统计平均值λ(K):
Figure BDA0002942508280000072
(3)将带噪声的语音进行傅里叶变换,将y(n)变换为频域表示:
Yw(ω)=Sw(ω)+Dw(ω)
其中,Yw(ω),Sw(ω),Dw(ω)分别为y(n),s(n),d(n)的傅里叶变换,Dw(ω)的傅里叶系数为Nk,因此,
|Yk|2=|Sk|2+|Nk|2+Sk·Nk *+Sk *·Nk
其中,*表示复共轭,假定噪声与s(n)为不相关的,即互谱的统计均值为0,因此,
E[|Yk|2]=E[|Sk|2]+E[|Nk|2]
采用发语音前的无声部分,通过多帧平均来估计噪声,如下:
|Yk|2=|Sk|2+λ(K)
(4)带噪声的语音傅里叶变换后的值与噪声功率谱λ(K)求差值,若差值大于0,则与短时相位谱在频谱中合成语音,否则由实验确定一个大于0的常数,合成语音,最后进行短时逆傅里叶变换,获得增强后的语音,差值的计算如下:
Figure BDA0002942508280000081
(5)引入谱减功率修正系数m和谱减噪声系数
Figure BDA0002942508280000082
对抑郁症语音进行增强,改进的谱减算法如下:
Figure BDA0002942508280000083
S104、提取MFCC特征,共振峰特征以及频谱图;
所述MFCC特征的提取过程如图3所示,具体步骤如下:
(1)将连续语音进行预加重,本实施例选取的高通滤波器传递函数为:
s(n)=x(n)-a*x(n-1)
其中,x(n)为n时刻的采样频率,x(n-1)为上一时刻的采样频率,a为预加重系数,取值介于0.9-1.0之间,通常取a=0.97;
(2)进行分帧,本实施例中所使用的采样率为16kHz,窗长25ms(400个采样点),窗间隔为10ms(160个采样点)。
(3)加窗,使用汉明窗进行加窗处理,此处采样率为16kHz,窗长25ms(400个采样点),窗间隔10ms(160个采样点),分帧后的信号为S(n),N为帧的大小,进行加窗的处理规则为:
Figure BDA0002942508280000084
0=n=N-1
(4)离散傅立叶变换(DFT)
Figure BDA0002942508280000085
0=k=N-1
采用DFT长度N=512,结果值保留前257个系数。
(5)使用梅尔刻度滤波器组过滤,对于快速傅里叶变换(FFT)得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到该滤波器对应频段的能量值。
(6)对每个滤波器产生的输出频谱能量取对数后便可得到系数Sm
(7)利用DCT将Sm转换到时域,便就得到MFCC系数c(m)。
Figure BDA0002942508280000091
Figure BDA0002942508280000092
其中,X(k)、Hm(k)分别是时域信号,将频域拆分为两部分时域信号,分别为X(k)、Hm(k)。
所述共振峰的提取过程如图4所示,具体步骤如下:
(1)对语音信号进行加窗分帧,计算浊音基音周期(1:NN)点;
(2)取倒谱的前1:NN点,加NN点汉明窗,对语音信号进行快速傅里叶变换(FFT)及对数运算;
(3)将对数谱平滑处理,然后对峰值定位。
所述频谱图通过短时傅里叶变换获得,在傅立叶变换中,使用时间窗口函数g(t-u)与源信号分f(t)的相乘,实现在u附近的加窗口和平移,然后进行傅立叶变换。短时傅立叶变换如下:
Gf(ε,u)=∫f(t)g(t-u)ejεtdt
t表示时间,ε为角频率,u为前u时间段内,t-u为从u时刻到t时刻,j为系数.
S105、将MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习,具体步骤如下:
(1)特征输入,将MFCC特征、共振峰特征、频谱图输入到改进的TCN模型中。图5为改进的TCN模型图,其主要包括空洞卷积模块与残差模块。在改进的TCN模型中,所使用的空洞卷积模块如图6所示,卷积核大小为3,d为空洞卷积的扩张率,每层计算卷积时相隔d-1个位置进行,从下往上padding依次分别为2、4、8。改进的TCN模型中的残差模块如图7所示,残差块中Temporal-Block中添加了一个裁剪层(chomp),保证网络每一层的特征长度相等。TCN网络取每个输出通道的最后一个值进行拼接作为最后的特征,在此处连接一个过渡模块(transition)将特征进一步处理,transition模块将池化层改用卷积核大小核为3的conv1d和BatchNorm1d层替换,该模块利用一维卷积对特征进行处理的同时可减少通道数量,从而有效降低最后的特征维度,而BatchNorm1d层具有抑制过拟合的能力。
(2)模型训练,语音数据的输入通道为513,训练时使用Adam优化器,训练20个epoch,dropout为0.05,batch size为64,初始学习率为2e-2,通过二元交叉熵损失和均方误差(MSE)回归更新参数;
(3)抑郁症判别,输出PHQ-8得分,用此得分进行分类和回归,判别被试者是否患抑郁症,若得分大于18,则分类为抑郁者,否则为正常人;通过PHQ-8得分和患者问卷调查结果对比,计算MSE,评估该模型的可信度。
通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示用于提供参考与说明,并非用来对本发明加以限制。

Claims (7)

1.谱减法降噪下多语音特征融合的抑郁症检测方法,其特征在于,利用抑郁症患者区别于正常人群的多种语音特征,构建多种语音特征融合的抑郁症检测方法,所述方法包括如下步骤:
步骤1:从抑郁数据集中获取语音信号样本以及对应样本标签的PHQ-8值,将其一一对应,并抽取一部分样本集合作为测试集,另一部分样本集合作为训练集;
步骤2:对语音信号进行分段处理,分离出被试者、虚拟采访者以及静默部分的语音部分,并去除后两项的语音部分,保留被试者的语音部分;
步骤3:对被试者的语音信号进行预处理,滤除噪声,增强语音信号;
步骤4:在步骤3增强的语音数据中提取MFCC特征、共振峰特征以及频谱图;
步骤5:将步骤4提取得到的MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习,得到训练模型;将测试集输入训练模型,输出其对应的PHQ-8值,并识别抑郁程度。
2.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法,所述步骤2采用pyAudioAnalysis模块对语音信号进行分段处理。
3.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法,所述步骤3通过谱减法进行语音增强,具体步骤为:
(1)对抑郁者语音信号加汉明窗消去直流分量,带噪声语音信号y(n)表示为:
y(n)=p(n)+d(n),0≤n≤N-1
其中p(n)为纯净信号,d(n)为噪声信号;
(2)将y(n)变换为频域表示:
Yw(ω)=Sw(ω)+Dw(ω)
其中,Yw(ω),Sw(ω),Dw(ω)分别为y(n),s(n),d(n)的傅里叶变换,Dw(ω)的傅里叶系数为Nk,因此,
|Yk|2=|Sk|2+|Nk|2+Sk·Nk *+Sk *·Nk
其中,*表示复共轭,假定噪声与s(n)为不相关的,即互谱的统计均值为0,因此,
E[|Yk|2]=E[|Sk|2]+E[|Nk|2]
(3)采用发语音前的无声部分,通过多帧平均来估计噪声,如下:
|Yk|2=|Sk|2+λ(K)
其中,λ(K)为静默部分时|Nk|2的统计平均值,即
Figure FDA0002942508270000021
(4)由第三步可得原始语音的估计值为:
Figure FDA0002942508270000022
(5)引入谱减功率修正系数m和谱减噪声系数
Figure FDA0002942508270000023
对抑郁症语音进行增强,改进的谱减算法如下:
Figure FDA0002942508270000024
4.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法,所述步骤4中提取MFCC特征的具体步骤为:
(1)预加重,通过一个高通滤波器来增强语音信号中的高频部分,并保持在低频到高频的整个频段中,能够使用同样的信噪比求频谱,选取的高通滤波器传递函数为:
s(n)=x(n)-a*x(n-1)
其中,x(n)为n时刻的采样频率,x(n-1)为上一时刻的采样频率,a为预加重系数,取值介于0.9-1.0之间,通常取a=0.97;
(2)加窗,使用汉明窗进行加窗处理,此处采样率为16kHz,窗长25ms(400个采样点),窗间隔10ms(160个采样点),假设分帧后的信号为S(n),n=0,1,2…,N-1,其中N为帧的大小,进行加窗的处理则为:
Figure FDA0002942508270000031
(3)离散傅立叶变换(DFT),得到频谱上的能量分布,DFT的定义如下:
Figure FDA0002942508270000032
采用DFT长度N=512,结果值保留前257个系数;
(4)使用梅尔刻度滤波器组过滤,对于快速傅里叶变换(FFT)得到的幅度谱,分别跟每一个滤波器进行频率相乘累加,得到该滤波器对应频段的能量值;
(5)对每个滤波器产生的输出频谱能量取对数后便可得到系数Sm,再利用DCT将Sm转换到时域,便就得到MFCC系数c(m):
Figure FDA0002942508270000033
Figure FDA0002942508270000034
其中,X(k)、Hm(k)分别是时域信号,将频域拆分为两部分时域信号,分别为X(k)、Hm(k)。
5.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法,所述步骤4中提取共振峰的具体步骤为:
(1)对语音信号进行加窗分帧,计算浊音基音周期(1:NN)点;
(2)取倒谱的前1:NN点,加NN点汉明窗,对语音信号进行快速傅里叶变换(FFT)及对数运算;
(3)将对数谱平滑处理,然后对峰值定位。
6.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法,所述步骤4利用短时傅里叶变换获得频谱图,在傅立叶变换中,使用时间窗口函数g(t-u)与源信号分f(t)的相乘,实现在u附近的加窗口和平移,然后进行傅立叶变换,短时傅立叶变换如下:
Gf(ε,u)=∫f(t)g(t-u)ejεtdt
t表示时间,ε为角频率,u为前u时间段内,t-u为从u时刻到t时刻,j为系数。
7.根据权利要求1所述的谱减法降噪下多语音特征融合的抑郁症检测方法,所述步骤5将MFCC特征、共振峰特征、频谱图融合输入改进的TCN模型中对训练集进行学习,具体步骤如下:
(1)特征输入,将MFCC特征、共振峰特征、频谱图输入到改进的TCN模型中,改进的TCN模型在Temporal-Block中添加了一个裁剪层(chomp),保证网络每一层的特征长度相等;
(2)模型训练,语音数据的输入通道为513,训练时使用Adam优化器,训练20个epoch,dropout为0.05,batch size为64,初始学习率为2e-2,通过二元交叉熵损失和均方误差(MSE)回归更新参数;
(3)抑郁症判别,输出PHQ-8得分,用此得分进行分类和回归,判别被试者是否患抑郁症,若得分大于18,则分类为抑郁者,否则为正常人;通过PHQ-8得分和患者问卷调查结果对比,计算MSE,评估该模型的可信度。
CN202110184566.4A 2021-02-10 2021-02-10 谱减法降噪下多语音特征融合的抑郁症检测方法 Active CN113012720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110184566.4A CN113012720B (zh) 2021-02-10 2021-02-10 谱减法降噪下多语音特征融合的抑郁症检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110184566.4A CN113012720B (zh) 2021-02-10 2021-02-10 谱减法降噪下多语音特征融合的抑郁症检测方法

Publications (2)

Publication Number Publication Date
CN113012720A true CN113012720A (zh) 2021-06-22
CN113012720B CN113012720B (zh) 2023-06-16

Family

ID=76402320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110184566.4A Active CN113012720B (zh) 2021-02-10 2021-02-10 谱减法降噪下多语音特征融合的抑郁症检测方法

Country Status (1)

Country Link
CN (1) CN113012720B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113633287A (zh) * 2021-07-08 2021-11-12 上海市精神卫生中心(上海市心理咨询培训中心) 一种基于语音分析的抑郁症识别方法、系统和设备
CN114219005A (zh) * 2021-11-17 2022-03-22 太原理工大学 一种基于高阶谱语音特征的抑郁症分类方法
CN114496221A (zh) * 2022-01-17 2022-05-13 天津大学 基于闭环语音链和深度学习的抑郁症自动诊断系统
CN115346561A (zh) * 2022-08-15 2022-11-15 南京脑科医院 基于语音特征的抑郁情绪评估预测方法及系统
CN115657118A (zh) * 2022-09-01 2023-01-31 中国人民解放军63983部队 基于深度学习的声震信号数据识别方法及系统
CN117636908A (zh) * 2024-01-26 2024-03-01 长春黄金设计院有限公司 数字化矿山生产管控系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106725532A (zh) * 2016-12-13 2017-05-31 兰州大学 基于语音特征与机器学习的抑郁症自动评估系统和方法
GB201717469D0 (en) * 2017-10-24 2017-12-06 Cambridge Cognition Ltd System and method for assessing physiological state
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110123343A (zh) * 2019-04-19 2019-08-16 西北师范大学 基于语音分析的抑郁症检测设备
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111192659A (zh) * 2019-12-31 2020-05-22 苏州思必驰信息科技有限公司 用于抑郁检测的预训练方法和抑郁检测方法及装置
CN111329494A (zh) * 2020-02-28 2020-06-26 首都医科大学 基于语音关键词检索和语音情绪识别的抑郁症检测方法
CN112006697A (zh) * 2020-06-02 2020-12-01 东南大学 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN112164459A (zh) * 2020-09-16 2021-01-01 同济大学 一种抑郁症状的信息评估方法
CN112349297A (zh) * 2020-11-10 2021-02-09 西安工程大学 一种基于麦克风阵列的抑郁症检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106725532A (zh) * 2016-12-13 2017-05-31 兰州大学 基于语音特征与机器学习的抑郁症自动评估系统和方法
GB201717469D0 (en) * 2017-10-24 2017-12-06 Cambridge Cognition Ltd System and method for assessing physiological state
CN109599129A (zh) * 2018-11-13 2019-04-09 杭州电子科技大学 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110123343A (zh) * 2019-04-19 2019-08-16 西北师范大学 基于语音分析的抑郁症检测设备
CN110728997A (zh) * 2019-11-29 2020-01-24 中国科学院深圳先进技术研究院 一种基于情景感知的多模态抑郁症检测方法和系统
CN111192659A (zh) * 2019-12-31 2020-05-22 苏州思必驰信息科技有限公司 用于抑郁检测的预训练方法和抑郁检测方法及装置
CN111329494A (zh) * 2020-02-28 2020-06-26 首都医科大学 基于语音关键词检索和语音情绪识别的抑郁症检测方法
CN112006697A (zh) * 2020-06-02 2020-12-01 东南大学 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN112164459A (zh) * 2020-09-16 2021-01-01 同济大学 一种抑郁症状的信息评估方法
CN112349297A (zh) * 2020-11-10 2021-02-09 西安工程大学 一种基于麦克风阵列的抑郁症检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EMNA REJAIBI等: "MFCC-based Recurrent Neural Network for Automatic Clinical Depression Recognition and Assessment from Speech", 《ARXIV》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113633287A (zh) * 2021-07-08 2021-11-12 上海市精神卫生中心(上海市心理咨询培训中心) 一种基于语音分析的抑郁症识别方法、系统和设备
CN114219005A (zh) * 2021-11-17 2022-03-22 太原理工大学 一种基于高阶谱语音特征的抑郁症分类方法
CN114219005B (zh) * 2021-11-17 2023-04-18 太原理工大学 一种基于高阶谱语音特征的抑郁症分类方法
CN114496221A (zh) * 2022-01-17 2022-05-13 天津大学 基于闭环语音链和深度学习的抑郁症自动诊断系统
CN115346561A (zh) * 2022-08-15 2022-11-15 南京脑科医院 基于语音特征的抑郁情绪评估预测方法及系统
CN115346561B (zh) * 2022-08-15 2023-11-24 南京医科大学附属脑科医院 基于语音特征的抑郁情绪评估预测方法及系统
CN115657118A (zh) * 2022-09-01 2023-01-31 中国人民解放军63983部队 基于深度学习的声震信号数据识别方法及系统
CN115657118B (zh) * 2022-09-01 2023-11-10 中国人民解放军63983部队 基于深度学习的声震信号数据识别方法及系统
CN117636908A (zh) * 2024-01-26 2024-03-01 长春黄金设计院有限公司 数字化矿山生产管控系统
CN117636908B (zh) * 2024-01-26 2024-03-26 长春黄金设计院有限公司 数字化矿山生产管控系统

Also Published As

Publication number Publication date
CN113012720B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
CN109599129B (zh) 基于注意力机制和卷积神经网络的语音抑郁症识别系统
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN112818892B (zh) 基于时间卷积神经网络的多模态抑郁症检测方法及系统
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN111798874A (zh) 一种语音情绪识别方法及系统
CN111329494B (zh) 抑郁症参考数据的获取方法及装置
Yang et al. Feature augmenting networks for improving depression severity estimation from speech signals
CN105825852A (zh) 一种英语口语朗读考试评分方法
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN111951824A (zh) 一种基于声音判别抑郁症的检测方法
CN112006697A (zh) 一种基于语音信号的梯度提升决策树抑郁症识别方法
CN112820279A (zh) 基于语音上下文动态特征的帕金森病检测方法
CN113111151A (zh) 一种基于智能语音问答的跨模态抑郁症检测方法
CN115346561B (zh) 基于语音特征的抑郁情绪评估预测方法及系统
CN108682432B (zh) 语音情感识别装置
CN113674767A (zh) 一种基于多模态融合的抑郁状态识别方法
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN101419800A (zh) 基于频谱平移的情感说话人识别方法
CN112464022A (zh) 一种个性化音乐播放方法、系统和计算机可读存储介质
CN116965819A (zh) 基于语音表征的抑郁症识别方法和系统
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
Chandrashekar et al. Region based prediction and score combination for automatic intelligibility assessment of dysarthric speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant