CN116564356A - 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统 - Google Patents
一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统 Download PDFInfo
- Publication number
- CN116564356A CN116564356A CN202310463492.7A CN202310463492A CN116564356A CN 116564356 A CN116564356 A CN 116564356A CN 202310463492 A CN202310463492 A CN 202310463492A CN 116564356 A CN116564356 A CN 116564356A
- Authority
- CN
- China
- Prior art keywords
- voice
- neural network
- depression
- time delay
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 38
- 238000003745 diagnosis Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 24
- 208000020401 Depressive disease Diseases 0.000 title claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000008451 emotion Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 241000711573 Coronaviridae Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000024714 major depressive disease Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Psychiatry (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Pathology (AREA)
- Educational Technology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Social Psychology (AREA)
- Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Evolutionary Computation (AREA)
- Developmental Disabilities (AREA)
- Child & Adolescent Psychology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统,其特征在于,(1)建立语音数据库,包括语音信号以及对应的抑郁症状态;(2)进行语音预处理,包括预加重、加窗及快速傅里叶变化等,使所需处理信号更加平滑;(3)语音特征提取,基于HuBERT模型进行实现,包括MFCC等特征提取以及Transformer编码结构对特征序列进行建模,从而实现对预处理后的语音中高层次表征的提取;(4)基于机器学习的分类,利用时延神经网络与门控循环单元算法对训练集进行学习,使用交叉熵损失函数度量模型预测结果与真实标签差距,通过反向传播算法更新网络参数进行训练及优化,输出抑郁症状态。
Description
技术领域
本发明涉及人工智能辅助诊疗技术以及机器学习领域,特别是涉及一种基于语音特征与机器学习的抑郁症自动监测方法。
背景技术
根据世界卫生组织(World Health Organization,WHO)调查显示,全世界约有10亿人存在着精神障碍类困扰,受全球新型冠状病毒的影响,全球抑郁症患者激增五千三百万,同时重度抑郁症患者及焦虑症患者分别增加了28%和26%,新型冠状病毒大流行给抑郁症的诊疗带来了巨大的挑战,同时抑郁症发病群体正在趋向年轻化趋势。
我国抑郁症诊断通常依靠医患交流及临床观察,面临着专科医师严重缺乏、初步筛查保健医生水平不一的困境,受限于当地医疗水平以及医生专业技能水平。而语音是人的生理状态的综合反映,随着语音信号分析处理技术的高速发展,基频、共振峰特征、线性预测系数、梅尔倒谱系数等语音特征参数可作为一个评估抑郁症相对客观并且可量化的指标,同时具有着容易采集及成本低的特点。因此,可以通过对用户语音特征的分析,为抑郁症的临床诊断提供一种基于用户实际表现的客观参考。
发明内容
本发明提供一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法,基于语音预训练模型、特征提取、时延神经网络与门控循环单元等机器学习技术,通过寻找语音特征与抑郁症之间的关系,从而仅以通过语音读取的方式客观评估被试人员是否患有抑郁症的目的。
本发明公开了一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法,所述包括如下步骤:
1)建立语音数据库,语音数据库模块在本系统的计算机中运行,用MySQL进行实现,其包含的数据有:语音文件的语音特征、受试人的抑郁状态(即人工诊断标签)、分类标签,该数据库中只保存经过专业医师诊断的被试数据。
2)进行语音预处理,包括预加重、加窗以及快速傅里叶变化等,用于提高语音质量,使得所需处理的信号更加平滑。
3)语音特征提取,特征提取基于HuBERT模型进行实现,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模,从而实现对预处理后的语音中高层次表征的提取。
4)基于机器学习进行分类,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。
进一步,所述建立语音数据库,具体包括:
(1)用于语音特征有效性分析、分类器训练优化的相关数据;
(2)所述语音数据库模块运行在本系统的计算机上,用MySQL实现;
(3)包含的数据为:语音文件的语音特征、受试人的抑郁状态(即人工诊断标签)、分类标签,该数据库中只保存经过专业医师诊断的被试数据。
进一步,所述进行语音预处理,具体包括:
1)预加重:对语音信号进行预加重;
2)加窗:将语音信号划分为一个个大小为N的帧。使用汉明窗对每一帧进行加窗。使用重叠-添加法将加窗后的帧重叠后相加,得到处理后的语音信号;
3)快速傅里叶变换,将信号从时域映射到频域。
进一步,所述语音特征提取,基于HuBERT模型实现,具体包括:
1)帧级特征提取:对MFCC、Fbank等特征进行提取;
2)频谱特征编码:将特征提取后的序列输入至卷积神经网络中,学习局部时序信息,捕获语音信号的局部特征;
3)预训练特征:将卷积神经网络的输出序列输入至Transformer Encoder中,利用自注意力机制对序列进行编码,学习全局时序信息,捕获语音信号的全局特征。同时,引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力;
4)得到编码后的语音特征表示形式。
进一步,所述基于机器学习进行分类,具体包括:
1)建立时延神经网络:使用时间延迟神经网络对特征向量序列进行处理,其在时间维度上进行卷积操作,可以有效地捕捉时间序列数据的特征。即通过卷积和非线性激活函数操作对输入的特征序列进行处理;
2)建立门循环单元模型:使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类。门循环单元模型对输入序列进行建模并维护一个内部状态,以便于对序列信息进行编码和解码,更好地捕捉序列的长期依赖性;
3)训练及优化模型:首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距,其次,通过反向传播算法更新网络参数,通过网络输入数据并计算每一层的加权和,并将其馈送到激活函数中。接着进行计算误差,随后,计算输出误差在各个层上的梯度,最后,通过更新参数的方式使误差降低;
4)抑郁症的诊断:使用训练好的模型对新的语音特征向量序列进行预测,并输出被试人是否患有抑郁症。
另一方面,本发明还提供了一种基于时延神经网络与门控循环单元算法的抑郁症诊断的系统,其包括:
(1)语音数据库模块,用于语音特征有效性分析、分类器训练优化的相关数据;
(2)语音预处理模块,用于对语音数据库中的语音数据进行预处理,便于后续表征抑郁程度或情感特征的语音特征提取;
(3)特征提取模块,基于HuBERT模型,对能够表征被试人抑郁程度或情感特征的提取;
(4)分类评估模块,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。
相对于现有技术,本发明有以下优点:
1)HuBERT模型可以对语音信号进行有效的预处理,提取出丰富的语音特征。与传统的基于梅尔倒谱系数的特征提取方法相比,HuBERT模型可以更好地保留语音信号中的上下文信息,从而提高了特征表达的质量;
2)时延神经网络和门循环单元模型在序列建模方面具有优异的性能。时延神经网络可以将多个时间步上的特征向量拼接起来,产生新的特征表示,并利用前馈神经网络进行映射,以进一步提高特征表达的准确性。门循环单元模型可以通过递归方式学习序列数据之间的依赖关系,从而更好地捕捉语音信号中存在的情感状态,提高了抑郁症识别的精度;
3)共同使用时延神经网络和门循环单元模型可以充分发挥两者的优势,提高整个系统的性能。时延神经网络可以生成新的特征表示,为序列建模提供更加丰富的输入,而门循环单元模型则可以更好地捕捉这些特征之间的动态变化,提高了抑郁症识别的准确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1是基于时延神经网络与门控循环单元算法的抑郁症诊断方法的结构框图。
图2是基于时延神经网络与门控循环单元算法的抑郁症诊断系统的流程图。
具体实施方式
为了使本发明的上述功能、流程、技术方案以及有点更加明显,下面通过参考附图描述的实施例所涉及到的技术逐一详细介绍。图1表示出了基于时延神经网络与门控循环单元算法的抑郁症诊断方法的结构框图。如图1所示,该方法包括了如下步骤:
S1、进行语音预处理,包括预加重、加窗以及快速傅里叶变化等,用于提高语音质量,使得所需处理的信号更加平滑;
S2、语音特征提取,特征提取基于HuBERT模型进行实现,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模,从而实现对预处理后的语音中预训练模型高层次表征的提取;
S3、基于机器学习进行分类,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。
进一步对于所述步骤S1,具体的说,包括以下步骤:
S1.1:预加重:对语音信号进行预加重。
将语音信号s[n]通过预加重滤波器H(z),得到预加重后的语音信号s′[n]:
s′[n]=s[n]-αs[n-1]
这里的s[n-1]表示s[n]的前一帧语音信号。
S1.2:加窗:将语音信号划分为一个个大小为N的帧。使用汉明窗对每一帧进行窗函数公式如下:
式中W[n]是第n个采样所对应的窗函数系数。将窗函数与语音信号帧逐个对应相乘。
sw[n]=s[n]×W[n]
最后,使用重叠-添加法将加窗后的帧重叠后相加,得到处理后的语音信号。
S1.3:快速傅里叶变换,将信号从时域映射到频域,假设加窗后的采样点个数是n,快速傅里叶变换的定义如下:
其中,m[i]其中的i表示窗函数,通常使用汉明窗,m[i]是输入的语音信号,ma[k]表示对应的频域信号,k表示傅里叶变换的帧长度,n是傅里叶变换的点数。
对于所述步骤S2,具体的说,包括以下步骤:
S2.1:帧级特征提取:对MFCC、Fbank等特征进行提取。
S2.2:频谱特征编码:将特征提取后的序列输入至卷积神经网络中,学习局部时序信息,捕获语音信号的局部特征。
S2.3:预训练特征:将卷积神经网络的输出序列输入至Transformer Encoder中,利用自注意力机制对序列进行编码,学习全局时序信息,捕获语音信号的全局特征。同时,引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力。
S2.4:得到编码后的语音特征表示形式。
进一步对于所述步骤S3,具体的说,包括以下步骤:
S3.1:建立时延神经网络:使用时间延迟神经网络对特征向量序列进行处理,其在时间维度上进行卷积操作,可以有效地捕捉时间序列数据的特征。即通过卷积和非线性激活函数操作对输入的特征序列进行处理。其数学公式为:
其中,y(n)为经过卷积和非线性激活函数处理后输出的结果,x(n-Δk)表示输入的时间延迟为Δk的特征向量,wk和c分别为卷积核权重和偏置项。
S3.2:建立门循环单元模型:为了进一步提高对抑郁症的识别能力,可以使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类。门循环单元模型对输入序列进行建模并维护一个内部状态,以便于对序列信息进行编码和解码,更好地捕捉序列的长期依赖性。其数学公式为:
其中,xt表示第t个时间步的输入特征,ht表示第t个时间步的隐藏状态,σ表示Logistic门函数,表示向量的哈达玛积,W,b为神经网络参数。
S3.3:训练及优化模型:首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距,其计算公式为:
其中N表示样本的数量,K表示分类的数量,yik表示模型对第i个样本分类为k的预测输出,为真实标签。
其次,通过反向传播算法更新网络参数,通过网络输入数据并计算每一层的加权和,并将其馈送到激活函数中。接着计算误差,其计算公式如下:
其中,n为样本数量,yi为真实值,为预测值。
随后,计算输出误差在各个层上的梯度,最后,通过更新参数的方式使误差降低。根据梯度下降法则更新每个单元格的权重W和偏置c,一般公式如下:
其中,α代表学习率。
S3.4:抑郁症的诊断:使用训练好的模型对新的语音特征向量序列进行预测,并输出被试人是否患有抑郁症。
图2表示出了基于时延神经网络与门控循环单元算法的抑郁症诊断系统的流程图。如图2所示,该系统包括了如下模块:
(1)语音数据库模块,用于语音特征有效性分析、分类器训练优化的相关数据;
(2)语音预处理模块,用于对语音数据库中的语音数据进行预处理,便于后续表征抑郁程度或情感特征的语音特征提取;
(3)特征提取模块,基于HuBERT模型,对能够表征被试人抑郁程度或情感特征的提取;
(4)分类评估模块,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。
值得注意的是,以上所述的仅为本发明的一个具体实施例而已,显然不能以此来限定本发明之权利范围,凡是在本发明的实质精神范围之内的,对本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (6)
1.一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法,其特征包含如下步骤:
(1)建立语音数据库;
(2)进行语音预处理;
(3)语音特征提取;
(4)基于机器学习进行分类。
2.根据权利1所述的一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法,其特征在于建立语音数据库,具体包括:
(1)用于语音特征有效性分析、分类器训练优化的相关数据;
(2)所述语音数据库模块运行在本系统的计算机上,用MySQL实现;
(3)包含的数据为:语音文件的语音特征、受试人的抑郁状态(即人工诊断标签)、分类标签,该数据库中只保存经过专业医师诊断的被试数据。
3.根据权利要求1所述的一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法,其特征在于进行语音预处理,具体包括:
(1)预加重:对语音信号进行预加重;
(2)加窗:将语音信号划分为一个个大小为N的帧,使用汉明窗对每一帧进行加窗。使用重叠-添加法将加窗后的帧重叠后相加,得到处理后的语音信号;
(3)快速傅里叶变换,将信号从时域映射到频域。
4.根据权利要求1所述的一种基于时延神经网络和门控循环单元算法的抑郁症诊断方法,其特征在于语音特征提取,基于HuBERT模型实现,具体包括:
(1)帧级特征提取:对MFCC、Fbank等特征进行提取;
(2)频谱特征编码:将特征提取后的序列输入至卷积神经网络中,学习局部时序信息,捕获语音信号的局部特征;
(3)预训练特征:将卷积神经网络的输出序列输入至Transformer Encoder中,利用自注意力机制对序列进行编码,学习全局时序信息,捕获语音信号的全局特征,同时,引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力;
(4)得到编码后的语音特征表示形式。
5.根据权利要求1所述的一种基于时延神经网络和门控循环单元算法的抑郁症诊断方法,其特征在于基于机器学习的分类,具体包括:
(1)建立时延神经网络:使用时间延迟神经网络对特征向量序列进行处理,其在时间维度上进行卷积操作,可以有效地捕捉时间序列数据的特征,即通过卷积和非线性激活函数操作对输入的特征序列进行处理;
(2)建立门循环单元模型:使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类,门循环单元模型对输入序列进行建模并维护一个内部状态,以便于对序列信息进行编码和解码,更好地捕捉序列的长期依赖性;
(3)训练及优化模型:首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距,其次,通过反向传播算法更新网络参数,通过网络输入数据并计算每一层的加权和,并将其馈送到激活函数中,接着进行计算误差,随后,计算输出误差在各个层上的梯度,最后,通过更新参数的方式使误差降低;
(4)抑郁症的诊断:使用训练好的模型对新的语音特征向量序列进行预测,并输出被试人是否患有抑郁症。
6.一种基于时延神经网络与门控循环单元算法的抑郁症诊断系统,其特征在于,系统组成包括:
(1)语音数据库模块,用于语音特征有效性分析、分类器训练优化的相关数据;
(2)语音预处理模块,用于对语音数据库中的语音数据进行预处理,便于后续表征抑郁程度或情感特征的语音特征提取;
(3)特征提取模块,基于HuBERT模型实现,对能够表征被试人抑郁程度或情感特征的提取;
(4)分类评估模块,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310463492.7A CN116564356A (zh) | 2023-04-26 | 2023-04-26 | 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统 |
CN202311097288.4A CN116978408B (zh) | 2023-04-26 | 2023-08-28 | 基于语音预训练模型的抑郁症检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310463492.7A CN116564356A (zh) | 2023-04-26 | 2023-04-26 | 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116564356A true CN116564356A (zh) | 2023-08-08 |
Family
ID=87499308
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310463492.7A Withdrawn CN116564356A (zh) | 2023-04-26 | 2023-04-26 | 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统 |
CN202311097288.4A Active CN116978408B (zh) | 2023-04-26 | 2023-08-28 | 基于语音预训练模型的抑郁症检测方法及系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311097288.4A Active CN116978408B (zh) | 2023-04-26 | 2023-08-28 | 基于语音预训练模型的抑郁症检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN116564356A (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11504038B2 (en) * | 2016-02-12 | 2022-11-22 | Newton Howard | Early detection of neurodegenerative disease |
US20190385711A1 (en) * | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
CA3169998A1 (en) * | 2020-02-03 | 2021-08-12 | Strong Force TX Portfolio 2018, LLC | Artificial intelligence selection and configuration |
CN111951824A (zh) * | 2020-08-14 | 2020-11-17 | 苏州国岭技研智能科技有限公司 | 一种基于声音判别抑郁症的检测方法 |
US20220093121A1 (en) * | 2020-09-23 | 2022-03-24 | Sruthi Kotlo | Detecting Depression Using Machine Learning Models on Human Speech Samples |
KR102562377B1 (ko) * | 2020-12-29 | 2023-08-01 | 성균관대학교산학협력단 | 우울증 진단 정보를 제공하기 위한 인공지능 연합학습 방법 및 시스템 |
CN112818892B (zh) * | 2021-02-10 | 2023-04-07 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
CN114842957B (zh) * | 2022-03-28 | 2023-04-07 | 暨南大学 | 一种基于情绪识别的老年痴呆症辅助诊断系统及其方法 |
CN115116475B (zh) * | 2022-06-13 | 2024-02-02 | 北京邮电大学 | 一种基于时延神经网络的语音抑郁症自动检测方法和装置 |
-
2023
- 2023-04-26 CN CN202310463492.7A patent/CN116564356A/zh not_active Withdrawn
- 2023-08-28 CN CN202311097288.4A patent/CN116978408B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN116978408A (zh) | 2023-10-31 |
CN116978408B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guzhov et al. | Esresnet: Environmental sound classification based on visual domain models | |
CN112006697B (zh) | 一种基于语音信号的梯度提升决策树抑郁程度识别系统 | |
CN102339606B (zh) | 一种抑郁情绪电话自动语音识别筛查系统 | |
CN112488235A (zh) | 一种基于深度学习的电梯时序数据的异常诊断方法 | |
Wang et al. | Recognition of audio depression based on convolutional neural network and generative antagonism network model | |
CN109192221A (zh) | 一种基于聚类的使用语音判断帕金森严重程度检测方法 | |
CN112732910A (zh) | 跨任务文本情绪状态评估方法、系统、装置及介质 | |
CN114373452A (zh) | 基于深度学习的嗓音异常识别和评价的方法及系统 | |
CN114141366B (zh) | 基于语音多任务学习的脑卒中康复评估辅助分析方法 | |
Kapoor et al. | Fusing traditionally extracted features with deep learned features from the speech spectrogram for anger and stress detection using convolution neural network | |
Liu et al. | Audio and video bimodal emotion recognition in social networks based on improved alexnet network and attention mechanism | |
CN113380418A (zh) | 一种通过对话文本分析识别抑郁症的系统 | |
CN116450848B (zh) | 一种基于事理图谱的计算思维水平评估方法、装置及介质 | |
Deepa et al. | Speech technology in healthcare | |
CN107578785A (zh) | 基于Gamma分布分析的音乐连续情感特征分析评价方法 | |
CN116570284A (zh) | 一种基于语音表征的抑郁症识别方法、系统 | |
CN116564356A (zh) | 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统 | |
CN115171878A (zh) | 基于BiGRU和BiLSTM的抑郁症检测方法 | |
Radha et al. | Variable STFT Layered CNN Model for Automated Dysarthria Detection and Severity Assessment Using Raw Speech | |
CN114299925A (zh) | 一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统 | |
CN110111810B (zh) | 基于卷积神经网络的语音人格预测方法 | |
Wang et al. | AudioFormer: Channel Audio Encoder Based on Multi-granularity Features | |
CN112259126B (zh) | 一种自闭症语音特征辅助识别机器人及方法 | |
CN118098289B (zh) | 一种结合精准模型与轻量级模型的抑郁症识别方法及系统 | |
CN117059283B (zh) | 一种基于肺结核预警的语音数据库分类和处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230808 |