CN116486840A - 一种基于自然语音的抑郁症自动评估系统 - Google Patents
一种基于自然语音的抑郁症自动评估系统 Download PDFInfo
- Publication number
- CN116486840A CN116486840A CN202310591366.XA CN202310591366A CN116486840A CN 116486840 A CN116486840 A CN 116486840A CN 202310591366 A CN202310591366 A CN 202310591366A CN 116486840 A CN116486840 A CN 116486840A
- Authority
- CN
- China
- Prior art keywords
- layer
- unit
- audio data
- depression
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000008451 emotion Effects 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 51
- 230000004913 activation Effects 0.000 claims description 30
- 238000005070 sampling Methods 0.000 claims description 25
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 210000002569 neuron Anatomy 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 abstract description 7
- 238000003745 diagnosis Methods 0.000 abstract description 5
- 208000020401 Depressive disease Diseases 0.000 abstract description 4
- 238000003759 clinical diagnosis Methods 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010003591 Ataxia Diseases 0.000 description 1
- 206010012374 Depressed mood Diseases 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Public Health (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Biophysics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Evolutionary Computation (AREA)
- Educational Technology (AREA)
- Epidemiology (AREA)
- Developmental Disabilities (AREA)
- Psychology (AREA)
- Social Psychology (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于自然语音的抑郁症自动评估系统,属于计算机辅助医疗诊断技术领域。包括:语音获取模块,获取音频数据信息;处理模块,与语音获取模块连接,将音频数据信息进行处理,得到有效的频域信号;特征提取模块,与处理模块连接,提取有效的频域信号中的情绪特征信息,并对不同情绪特征信息进行标注,得到对应的情绪特征信息标签结果;绘制模块,与特征提取模块连接,基于绘制情绪波动曲线图;输出模块,与处理模块连接,基于情绪波动曲线图得到评估结果并输出显示。本发明通过后台模型分析大量的用户数据得出用户抑郁监测结论,评估抑郁状态,能够有效降低成本,输出更准确的评估结果,为抑郁症的临床诊断提供客观参考。
Description
技术领域
本发明涉及计算机辅助医疗诊断技术领域,更具体的说是涉及一种基于自然语音的抑郁症自动评估系统。
背景技术
抑郁症是一种常见的精神障碍,其三个主要症状是持续的情绪低落、兴趣减退和精力不足。首先,传统的抑郁症评估大多是靠专业人员,其主观意识强烈,评估缺少客观的测量方法和工具,主要依靠家属供史、患者自述以及临床量表等主观评估方法,再加上患者隐藏真实病情的原因,可能会导致评估效率低甚至评估结果无效。其次评估过程耗时、昂贵,对于有经济困难的人来说,评估费用可能是一个沉重的负担。
随着语音信号分析与处理技术的发展,通过深度学习模型整合多模态特征对于抑郁症评估尤其有前途,但是,现有深度学习模型较多,结构较为复杂,如支持向量机(svm)、潜在狄利克雷分配(lda)、K最近邻算法(knn)、反射系数因子(rf)、线性高斯(lg)以及卷积神经网络(cnn),且自然语言的音频特征复杂,传统的深度学习模型无法满足基于自然语音的抑郁症自动评估。同时,在广泛应用中,线上抑郁评估的方式通常是采用用户回答问题的方式进行检测,并没有直接采用机器学习的后台对用户的语音数据进行采集和分析。
因此,如何提供一种基于自然语音的抑郁症自动评估系统是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于自然语音的抑郁症自动评估系统,用以解决上述现有技术中存在的技术问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于自然语音的抑郁症自动评估系统,包括:
语音获取模块,获取音频数据信息;
处理模块,与所述语音获取模块连接,将所述音频数据信息进行处理,得到有效的频域信号;
特征提取模块,与所述处理模块连接,提取有效的频域信号中的情绪特征信息,并对不同情绪特征信息进行标注,得到对应的情绪特征信息标签结果;
绘制模块,与所述特征提取模块连接,基于绘制情绪波动曲线图;
输出模块,与所述处理模块连接,基于情绪波动曲线图得到评估结果并输出显示。
优选的,所述处理模块包括:
预处理单元,通过高通滤波器将音频数据信息进行预处理,得到预处理后的音频数据信息;
分帧单元,将预处理后的音频数据信息进行分帧处理;
加窗单元,使用汉明窗函数对单位帧的音频数据信息进行加窗处理;
变换单元,使用快速傅里叶变换将音频数据信息的音频信号变换为频域信号;
滤波单元,通过三角带通滤波器组对频域信号进行滤波,并计算滤波器组的对数能量,得到有效的频域信号。
优选的,所述预处理单元,通过高通滤波器将音频数据信息进行预处理,得到预处理后的音频数据信息,公式如下:
H(Z)=1-μz-1;
式中,Z为预加重系数,μ为预加重系数。
优选的,所述加窗单元,使用汉明窗函数对单位帧的音频数据信息进行加窗处理,公式如下:
W(n)=0.54-0.46cos(2πn/N-1);
式中,W(1)表示窗口函数的值,n表示当前的采样点数,N表示采样点的总数;
S'(n)=S(n)×W(n);
式中,S(n)表示当前采样位置的值,S'(n)表示加窗之后的值。
优选的,所述变换单元,使用快速傅里叶变换将音频数据信息的音频信号变换为频域信号,具体公式为:
式中,Xa(n)为输出的频域信号。
优选的,所述滤波单元,通过三角带通滤波器组对频域信号进行滤波,并计算滤波器组的对数能量,得到有效的频域信号,具体公式为:
计算三角滤波器的频率响应:
式中,f为频率,n为当前的采样点数,其中,n为当前的采样点数;
计算对数能量:
式中,N为采样点总数,n为当前的采样点数,k无实际意义,起累加作用。
优选的,所述特征提取模块包括:
计算单元,基于有效的频域信号计算梅尔倒谱系数;
获取单元,获取音频信号的样本数据集,并将样本数据集划分为训练数据集及测试数据集;
特征提取单元,构建卷积神经网络模型,并根据所述训练数据集对所述卷积神经网络模型进行训练,得到优化后的卷积神经网络模型,将梅尔倒谱系数作为优化后的卷积神经网络模型的输入,输出不同情绪特征信息;
标注单元,与所述特征提取单元连接,基于测试数据集对不同情绪特征信息进行标注,得到对应的情绪特征信息标签结果。
优选的,所述计算单元,计算梅尔倒谱系数,包括:经离散余弦变换得到梅尔倒谱系数,公式如下:
式中,M是三角滤波器个数,n为当前采样点数,s(n)为对数能量。
优选的,所述卷积神经网络模型的结构包括一次连接的一维卷积层,第一二维卷积层、第二二维卷积层以及全连接层;
其中,第一层为所述一维卷积层,包括:64个5*1卷积核,步长为1,进行批处理,使每一层神经网络的输入保持相同分布,dropout比率是0.2,2*2最大值池化,步长为1,激活函数选用Relu;
第二层为所述第一二维卷积层,包括:32个3*3卷积核,步长为1,进行批处理,使每一层神经网络的输入保持相同分布,dropout比率是0.2,2*2最大值池化,步长为1,激活函数选用Relu;
第三层:2维卷积,包括:32个3*3卷积核,步长为1,进行批处理,使每一层神经网络的输入保持相同分布,2*2最大值池化,dropout比率是0.2,步长为2,激活函数选用Relu;
第四层:全连接层,包括:1024个神经元,dropout比率0.2,激活函数选用Relu。
优选的,标注单元包括:标签分类器及域分类器;
其中,所述标签分类器包括:
第一层:全连接层,256个神经元,dropout比率0.2,激活函数选用Relu;
第二层:全连接层,64个神经元,dropout比率0.2,激活函数选用Relu;
第三层:输出层,2个神经元,激活函数为Softmax;
所述域分类器包括:
第一层:全连接层,64个神经元,dropout比率0.2,激活函数选用Relu;
第二层:全连接层,64个神经元,dropout比率0.2,激活函数选用Relu;
第三层:输出层,2个神经元,激活函数为Softmax。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于自然语音的抑郁症自动评估系统,通过后台模型分析大量的用户数据得出用户抑郁监测结论,评估抑郁状态,能够有效降低成本,输出更准确的评估结果,为抑郁症的临床诊断提供客观参考。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的系统结构示意图;
图2为本发明的三角形滤波器组示意图;
图3为本发明的卷积神经网络模型结构示意图;
图4为本发明的卷积神经网络模型损失函数曲线图;
图5为本发明的网站的制作流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见附图1所示,本发明实施例公开了一种基于自然语音的抑郁症自动评估系统,包括:
语音获取模块,获取音频数据信息;
处理模块,与语音获取模块连接,将音频数据信息进行处理,得到有效的频域信号;
特征提取模块,与处理模块连接,提取有效的频域信号中的情绪特征信息,并对不同情绪特征信息进行标注,得到对应的情绪特征信息标签结果;
绘制模块,与特征提取模块连接,基于绘制情绪波动曲线图;
输出模块,与处理模块连接,基于情绪波动曲线图得到评估结果并输出显示。
具体的,在声音处理领域中,梅尔频率倒谱(Mel-Frequency spectrum)是基于声音频率的非线性梅尔刻度(Mel scale)的对数能量频谱的线性变换。人的听觉是一个非线性的系统,对不同频率的声音具有不同灵敏度,梅尔倒谱系数与频率成非线性的关系同样不依赖于音频信号的性质,在语音分析中,应用梅尔倒谱系数为特征。
具体的,梅尔倒谱系数与频率的关系及计算公式如下:
Mel(f)=125ln(1+/700);
其中,f为频率。
具体的,梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)。
在一个具体实施例中,处理模块包括:
预处理单元,通过高通滤波器将音频数据信息进行预处理,得到预处理后的音频数据信息;
分帧单元,将预处理后的音频数据信息进行分帧处理;
加窗单元,使用汉明窗函数对单位帧的音频数据信息进行加窗处理;
变换单元,使用快速傅里叶变换将音频数据信息的音频信号变换为频域信号;
滤波单元,通过三角带通滤波器组对频域信号进行滤波,并计算滤波器组的对数能量,得到有效的频域信号。
在一个具体实施例中,预处理单元,通过高通滤波器将音频数据信息进行预处理,得到预处理后的音频数据信息,具体公式如下:
H(Z)=1-μz-1;
式中,Z为预加重系数,μ为预加重系数,这里μ值取0.98。
通过上述技术方案,提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。
在一个具体实施例中,分帧单元,将预处理后的音频数据信息进行分帧处理。
具体的,分帧过程为:先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/3。通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。
在一个具有实施例中,加窗单元,使用汉明窗函数对单位帧的音频数据信息进行加窗处理,具体公式如下:
W(n)=0.54-0.46cos(2πn/N-1);
式中,W(1)表示窗口函数的值,n表示采样点的位置,N表示采祥点的总数;
S'(n)=S(n)×W(n);
式中,S(n)表示当前采样位置的值,S'(n)表示加窗之后的值。
具体的,汉明窗函数(Hamming Window)是一种常用的数字信号处理技术,它可以改善信号的频谱,减少相关性,改善信号的频率响应,并且可以在滤波器设计中使用。汉明窗函数是一种窗口函数,它可以用来对连续信号进行分段处理。它可以将连续信号分成很多小段,并在每一段上应用一个窗口函数,以实现信号的滤波处理。窗口函数可以控制信号的局部特性,有效抑制信号的幅度和相位变化,并减少信号之间的相关性。
通过上述技术方案,可以有效地抑制信号的频谱泄漏,改善信号的频率响应,减少信号的相关性,从而提高信号处理的精度。
在一个具体实施例中,变换单元,使用快速傅里叶变换将音频数据信息的音频信号变换为频域信号;
具体的,由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。设语音信号的DFT为:
式中,Xa(n)为输出的频域信号。
在一个具体实施例中,滤波单元,通过三角带通滤波器组进行滤波,并计算滤波器组的对数能量,得到有效的频域信号:
具体的,参见附图2所示,将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(k),a通常取22-26,各f(k)之间的间隔随着a值的减小而缩小,随着a值的增大而增宽。
中心频率的计算公式为:
a是Mel尺度上的频率,N为能量谱的长度
三角滤波器的频率响应定义为:
式中,f为频率,n为当前的采样点数,其中,
n为当前的采样点数;
具体的,三角带通滤波器有两个主要目的为:对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。(因此一段语音的音调或音高,是不会呈现在MFCC参数内,换句话说,以MFCC为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响)此外,还可以降低运算量。
计算对数能量:
式中,N为采样点总数,n为当前的采样点数,k无实际意义,起累加作用。
此外,一帧的音量(即能量),也是语音的重要特征,而且非常容易计算。因此,通常再加上一帧的对数能量(定义:一帧内信号的平方和,再取以10为底的对数值,再乘以10)使得每一帧基本的语音特征就多了一维,包括一个对数能量和剩下的倒频谱参数。
具体的,若要加入其它语音特征以测试识别率,也可以在此阶段加入,这些常用的其它语音特征包含音高、过零率以及共振峰等。
在一个具体实施例中,特征提取模块包括:
计算单元,基于有效的频域信号计算梅尔倒谱系数;
获取单元,获取音频信号的样本数据集,并将样本数据集划分为训练数据集及测试数据集;
特征提取单元,构建卷积神经网络模型,并根据,训练数据集对,卷积神经网络模型进行训练,得到优化后的卷积神经网络模型,将梅尔倒谱系数作为优化后的卷积神经网络模型的输入,输出不同情绪特征信息;
标注单元,与,特征提取单元连接,基于测试数据集对不同情绪特征信息进行标注,得到对应的情绪特征信息标签结果。
在一个具体实施例中,计算单元,计算梅尔倒谱系数,包括:经离散余弦变换得到梅尔倒谱系数,公式如下:
式中,M是三角滤波器个数,n为当前采样点数,s(m)为对数能量。
在一个具体实施例中,计算单元还包括:对有效的频域信号的动态差分参数的提取,具体公式为:
具体的,提取动态差分参数是计算梅尔倒谱系数的一个步骤,标准的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特征的差分谱来描述。实验证明:把动、静态特征结合起来才能有效提高系统的识别性能。
参见附图3所示,在一个具体实施例中,卷积神经网络(特征提取部分)的结构包括:
第一层:一维卷积,64个5*1卷积核,步长为1,然后进行批处理batchnorm,dropout比率是0.2,2*2最大值池化maxpooling,步长为1,激活函数选用Relu;
第二层:2维卷积,32个3*3卷积核,步长为1,然后进行批处理batchnorm,dropout比率是0.2,2*2最大值池化maxpooling,步长为1,激活函数选用Relu;
第三层:2维卷积,32个3*3卷积核,步长为1,然后进行批处理batchnorm,2*2最大值池化maxpooling,dropout比率是0.2,步长为2,激活函数选用Relu;
第四层:全连接层,1024个神经元,dropout比率0.2,激活函数选用Relu;
在一个具体实施例中,标注单元包括:
标签分类器部分:
第一层:全连接层,256个神经元,dropout比率0.2,激活函数选用Relu;
第二层:全连接层,64个神经元,dropout比率0.2,激活函数选用Relu;
第三层:输出层,2个神经元,激活函数为Softmax;
域分类器部分:
第一层:全连接层,64个神经元,dropout比率0.2,激活函数选用Relu;
第二层:全连接层,64个神经元,dropout比率0.2,激活函数选用Relu;
第三层:输出层,2个神经元,激活函数为Softmax;
具体的,抑郁症数据集非常稀缺,目前很少有公开可用的抑郁症监测数据集,其中大部分都属于国外数据集,本实施例选用的是国内同济大学发布的中文抑郁症数据集,语料库是由同济大学招募的162个学生志愿者的访谈中提取的音频数据和转录本。在该语料库中所有志愿者均签署知情同意书,并保证所提供信息的准确性。每个志愿者被要求回答三个随机选择的问题并完成一份抑郁自评量表。本实施例使用的同济大学的公开中文数据集,上面对音频数据已经做好了标签处理,准确性和科学性已经得到了认可。
其中已有用户数据和对应的标签是训练集,需要测试的新用户数据是测试集。正常和抑郁的待分类标签为,正常标0,抑郁标1;域标签为,训练集所有数据域标签为3,测试集所有数据域标签为4。
具体的,该标签信息结果为一个0到1区间的数值(例如0.3、0.7),在本实施例中,将大于0.5的数值认定是健康的,返回健康的标签,小于0.5是数值是抑郁的,返回抑郁的标签,再将这些数值以时间为周期(两周),生成情绪波动曲线图返回,也就是此情绪波动曲线图。
通过上述技术方案,由于不同用户的发声习惯,说话内容有区别,这会导致应用训练集中的样本训练好的模型,在测试数据中性能下降,因此,本发明设计的卷积神经网络的结构不仅有标签预测部分,要求把用户的数据分类越准越好;而且要求在域分类器中,将测试集和训练集分类越不准越好。这样就表明,特征提取的部分提取的特征不仅能很好的区分抑郁和健康,而且将训练集和测试集的数据很好的融合在一起,将不同用户间的差异减小。
实施例2
新兴深度学习技术的启发,通过深度学习模型整合多模态特征对于情绪检测尤其有前途。本实施例采用了六个机器学习模型做对照实验,分别为支持向量机(svm)、潜在狄利克雷分配(lda)、K最近邻算法(knn)、反射系数因子(rf)、线性高斯(lg)以及本申请提供的卷积神经网络(cnn)来评估低落情绪或抑郁倾向计算,以选择与低落情绪严重程度密切相关的音频特征。分别预测低落情绪导致的问题的存在,监测情绪是否叫低落或是否有潜在抑郁风险。
六种模型混淆矩阵比以及六种模型实验结果,其中六种模型实验结果对比结果如表1所示:
表1六种模型实验结果对比结果
由实验结果对比图表可知,本申请所提供的卷积神经网络(cnn)对音频数据的预测效果最好,故采用卷积神经网络作为服务器中使用的模型。
本申请提供的卷积神经网络模型损失函数参见附图4所示,其中损失函数将通过比较模型的预测输出和自身预测输出来确定模型的性能,进而进行模型优化。
实施例3
本发明提供的一种基于自然语音的抑郁症自动评估系统依托于自行研发的一个能够获取用户语音数据并发送至后台服务器使用机器学习模型进行数据处理的网站(小程序已开发测试版本),通过后台模型分析大量的用户数据得出用户抑郁监测结论,评估抑郁状态,从而增加用户咨询心理医生的意愿同时给予医生患者一定时间内的情绪分析数据支持,在抑郁症诊断中对医生和心理学家提供很大帮助。本系统主要分为:网站的制作、服务器模型的建立。
具体的,网站的制作流程参见附图5所示,网站使用前后端分离的架构,将其分别服务器在阿里云服务器的83和5000端口上。前端(客户端)部分采用HTML+CSS+JS编写,使用Bootstrap软件进行排版,首页在内容上介绍了抑郁症简介以及基本表现、积极乐观的引导语以及捐赠数据的标识。用户上传数据页面用JS完成了生成音频文件的功能,可以在手机和电脑端无需下载任何软件即可上传音频文件。
在一个具体实施例中,后端(服务器端)采用python编写,使用了flask框架,使用的包有os,Flask,render_template,request,joblib,librosa,pandas,numpy。数据文件传输采用http协议。可以实现音频数据的特征提取、发送数据、通过机器学习模型对数据进行预测处理的功能。
具体的,当用户访问一个URL,浏览器便生成对应的HTTP请求,经由互联网发送到对应的Web服务器。Web服务器接收请求,通过WSGI将HTTP格式的请求数据转换成Flask程序能够使用的Python数据。在程序中,Flask根据请求的URL执行对应的视图函数,获取返回值生成响应。响应依次经过WSGI转换生成HTTP响应,再经由Web服务器传递,最终被发出请求的客户端接收。浏览器渲染响应中包含的HTML和CSS代码,并执行JavaScript代码,最终把解析后的页面呈现在用户浏览器的窗口中。
在一个具体实施例中,服务器采用阿里云服务器,具体的部署为:(1)购买服务器:登录阿里云官网点击注册阿里云账号点击实例进行选购。使用的服务器配置为双核cpu,2内存(Gib),20%平均基准CPU计算性能,操作系统为Windows Server 2019。(2)域名:进入阿里云官网,点击“域名”,搜索域名进行购买。本实施例所用域名为https://nblg.xyz/。(3)备案:进入阿里云官网点击“控制台”进入备案后开始提交资料备案资料最快当天可提交管局审核。(4)域名解析:域名已经备案完成后进入阿里云官网->进入控制台->点击左侧弹出栏中域名->点击解析添加->进行解析。(5)添加安全策略(安全组):登录阿里云->进入控制台->进入云服务器ECS->进入网络与安全-安全组->点击"配置规则"->点击"手动添加"。(6)搭建环境并上传项目:本项目使用pycharm软件进行编程,在pycharm官网下载最新版本(本服务器使用windows版本)上传项目可以通过运维与监控中的发送命令/文件(云助手)完成将项目上传成功后可使用pycharm打开,并检查环境,经过测试过运行项目。
在一个具体实施例中,还包括微信小程序部署:
进入微信小程序官网后新用户进行注册(老用户可微信扫描直接登录),补充填写小程序信息与类目,添加开发者后下载开发者工具进行代码的开发和上传,配置服务器(由于本实施例之前配置过阿里云服务器无需二次配置)。提交代码后提交审核,审核通过后可发布。
本发明通过制作一个具有获取用户语音数据并发送至后台服务器的网站,通过后台模型分析大量的用户数据得出用户抑郁监测结论,评估抑郁状态,从而增加用户咨询心理学家的意愿,在抑郁症诊断中对医生和心理学家提供很大帮助。目前尚未任何可以通过语音判断抑郁的网站软件出现,本发明提供的一种基于自然语音的抑郁症自动评估系统,通过机器学习模型大量的数据集训练,对用户的抑郁判断已具有较高的诊断率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于自然语音的抑郁症自动评估系统,其特征在于,包括:
语音获取模块,获取音频数据信息;
处理模块,与所述语音获取模块连接,将所述音频数据信息进行处理,得到有效的频域信号;
特征提取模块,与所述处理模块连接,提取有效的频域信号中的情绪特征信息,并对不同情绪特征信息进行标注,得到对应的情绪特征信息标签结果;
绘制模块,与所述特征提取模块连接,基于绘制情绪波动曲线图;
输出模块,与所述处理模块连接,基于情绪波动曲线图得到评估结果并输出显示。
2.根据权利要求1所述的一种基于自然语音的抑郁症自动评估系统,其特征在于,所述处理模块包括:
预处理单元,通过高通滤波器将音频数据信息进行预处理,得到预处理后的音频数据信息;
分帧单元,将预处理后的音频数据信息进行分帧处理;
加窗单元,使用汉明窗函数对单位帧的音频数据信息进行加窗处理;
变换单元,使用快速傅里叶变换将音频数据信息的音频信号变换为频域信号;
滤波单元,通过三角带通滤波器组对频域信号进行滤波,并计算滤波器组的对数能量,得到有效的频域信号。
3.根据权利要求2所述的一种基于自然语音的抑郁症自动评估系统,其特征在于,所述预处理单元,通过高通滤波器将音频数据信息进行预处理,得到预处理后的音频数据信息,公式如下:
H(Z)=1-μz-1;
式中,Z为预加重系数,μ为预加重系数。
4.根据权利要求2所述的一种基于自然语音的抑郁症自动评估系统,其特征在于,所述加窗单元,使用汉明窗函数对单位帧的音频数据信息进行加窗处理,公式如下:
W(n)=0.54-0.46cos(2πn/N-1);
式中,W(1)表示窗口函数的值,n表示当前的采样点数,N表示采祥点的总数;
S′(n)=S(n)×W(n);
式中,S(n)表示当前采样位置的值,S′(n)表示加窗之后的值。
5.根据权利要求2所述的一种基于自然语音的抑郁症自动评估系统,其特征在于,所述变换单元,使用快速傅里叶变换将音频数据信息的音频信号变换为频域信号,具体公式为:
式中,Xa(n)为输出的频域信号。
6.根据权利要求2所述的一种基于自然语音的抑郁症自动评估系统,其特征在于,所述滤波单元,通过三角带通滤波器组对频域信号进行滤波,并计算滤波器组的对数能量,得到有效的频域信号,具体公式为:
计算三角滤波器的频率响应:
式中,f为频率,n为当前的采样点数,其中,n为当前的采样点数;
计算对数能量:
式中,N为采样点总数,n为当前的采样点数,k无实际意义,起累加作用。
7.根据权利要求1所述的一种基于自然语音的抑郁症自动评估系统,其特征在于,所述特征提取模块包括:
计算单元,基于有效的频域信号计算梅尔倒谱系数;
获取单元,获取音频信号的样本数据集,并将样本数据集划分为训练数据集及测试数据集;
特征提取单元,构建卷积神经网络模型,并根据所述训练数据集对所述卷积神经网络模型进行训练,得到优化后的卷积神经网络模型,将梅尔倒谱系数作为优化后的卷积神经网络模型的输入,输出不同情绪特征信息;
标注单元,与所述特征提取单元连接,基于测试数据集对不同情绪特征信息进行标注,得到对应的情绪特征信息标签结果。
8.根据权利要求7所述的一种基于自然语音的抑郁症自动评估系统,其特征在于,所述计算单元,计算梅尔倒谱系数,包括:经离散余弦变换得到梅尔倒谱系数,公式如下:
式中,M是三角滤波器个数,n为当前采样点数,s(n)为对数能量。
9.根据权利要求7所述的一种基于自然语音的抑郁症自动评估系统,其特征在于,所述卷积神经网络模型的结构包括一次连接的一维卷积层,第一二维卷积层、第二二维卷积层以及全连接层;
其中,第一层为所述一维卷积层,包括:64个5*1卷积核,步长为1,进行批处理,使每一层神经网络的输入保持相同分布,dropout比率是0.2,2*2最大值池化,步长为1,激活函数选用Relu;
第二层为所述第一二维卷积层,包括:32个3*3卷积核,步长为1,进行批处理,使每一层神经网络的输入保持相同分布,dropout比率是0.2,2*2最大值池化,步长为1,激活函数选用Relu;
第三层:2维卷积,包括:32个3*3卷积核,步长为1,进行批处理,使每一层神经网络的输入保持相同分布,2*2最大值池化,dropout比率是0.2,步长为2,激活函数选用Relu;
第四层:全连接层,包括:1024个神经元,dropout比率0.2,激活函数选用Relu。
10.根据权利要求7所述的一种基于自然语音的抑郁症自动评估系统,其特征在于,标注单元包括:标签分类器及域分类器;
其中,所述标签分类器包括:
第一层:全连接层,256个神经元,dropout比率0.2,激活函数选用Relu;
第二层:全连接层,64个神经元,dropout比率0.2,激活函数选用Relu;
第三层:输出层,2个神经元,激活函数为Softmax;
所述域分类器包括:
第一层:全连接层,64个神经元,dropout比率0.2,激活函数选用Relu;
第二层:全连接层,64个神经元,dropout比率0.2,激活函数选用Relu;
第三层:输出层,2个神经元,激活函数为Softmax。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310591366.XA CN116486840A (zh) | 2023-05-23 | 2023-05-23 | 一种基于自然语音的抑郁症自动评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310591366.XA CN116486840A (zh) | 2023-05-23 | 2023-05-23 | 一种基于自然语音的抑郁症自动评估系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486840A true CN116486840A (zh) | 2023-07-25 |
Family
ID=87221532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310591366.XA Pending CN116486840A (zh) | 2023-05-23 | 2023-05-23 | 一种基于自然语音的抑郁症自动评估系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486840A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116687410A (zh) * | 2023-08-03 | 2023-09-05 | 中日友好医院(中日友好临床医学研究所) | 一种慢性病患者的述情障碍评估方法和系统 |
-
2023
- 2023-05-23 CN CN202310591366.XA patent/CN116486840A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116687410A (zh) * | 2023-08-03 | 2023-09-05 | 中日友好医院(中日友好临床医学研究所) | 一种慢性病患者的述情障碍评估方法和系统 |
CN116687410B (zh) * | 2023-08-03 | 2023-11-14 | 中日友好医院(中日友好临床医学研究所) | 一种慢性病患者的述情障碍评估方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3839942A1 (en) | Quality inspection method, apparatus, device and computer storage medium for insurance recording | |
Kuresan et al. | Fusion of WPT and MFCC feature extraction in Parkinson’s disease diagnosis | |
Tsalera et al. | Monitoring, profiling and classification of urban environmental noise using sound characteristics and the KNN algorithm | |
Kumar et al. | A deep learning approaches and fastai text classification to predict 25 medical diseases from medical speech utterances, transcription and intent | |
Kashyap et al. | Quantitative assessment of speech in cerebellar ataxia using magnitude and phase based cepstrum | |
CN116486840A (zh) | 一种基于自然语音的抑郁症自动评估系统 | |
Chen et al. | Exploring racial and gender disparities in voice biometrics | |
Nayak et al. | Machine learning approach for detecting covid-19 from speech signal using mel frequency magnitude coefficient | |
Sharma et al. | Audio texture and age-wise analysis of disordered speech in children having specific language impairment | |
Kapoor et al. | Fusing traditionally extracted features with deep learned features from the speech spectrogram for anger and stress detection using convolution neural network | |
Bhattacharjee et al. | VoiceLens: A multi-view multi-class disease classification model through daily-life speech data | |
Selvan et al. | Emotion detection on phone calls during emergency using ensemble model with hyper parameter tuning | |
CN116965819A (zh) | 基于语音表征的抑郁症识别方法和系统 | |
Firmino et al. | Heart failure recognition using human voice analysis and artificial intelligence | |
Benba et al. | Detecting multiple system atrophy, Parkinson and other neurological disorders using voice analysis | |
Subramanian et al. | An effective speech emotion recognition Model for multi-regional languages using threshold-based feature selection algorithm | |
Upadhya et al. | Multitaper perceptual linear prediction features of voice samples to discriminate healthy persons from early stage Parkinson diseased persons | |
Xu et al. | Attention-Based Acoustic Feature Fusion Network for Depression Detection | |
Teixeira et al. | F0, LPC, and MFCC analysis for emotion recognition based on speech | |
Sharanyaa et al. | Optimized Deep Learning for the Classification of Parkinson's Disease Based on Voice Features | |
Lad et al. | Total variability factor analysis for dysphonia detection | |
Zheng et al. | Research on speech emotional feature extraction based on multidimensional feature fusion | |
Radha et al. | Variable STFT Layered CNN Model for Automated Dysarthria Detection and Severity Assessment Using Raw Speech | |
Gulhane et al. | Stress analysis using speech signal | |
Alimuradov et al. | Increasing detection efficiency of psycho-emotional disorders based on adaptive decomposition and cepstral analysis of speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |