CN116978408A - 基于语音预训练模型的抑郁症检测方法及系统 - Google Patents
基于语音预训练模型的抑郁症检测方法及系统 Download PDFInfo
- Publication number
- CN116978408A CN116978408A CN202311097288.4A CN202311097288A CN116978408A CN 116978408 A CN116978408 A CN 116978408A CN 202311097288 A CN202311097288 A CN 202311097288A CN 116978408 A CN116978408 A CN 116978408A
- Authority
- CN
- China
- Prior art keywords
- voice
- depression
- model
- training
- training model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 84
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000008451 emotion Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 208000020401 Depressive disease Diseases 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Psychiatry (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Pathology (AREA)
- Educational Technology (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Social Psychology (AREA)
- Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Evolutionary Computation (AREA)
- Developmental Disabilities (AREA)
- Child & Adolescent Psychology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于语音预训练模型的抑郁症检测方法及系统,包括建立语音数据库;用于语音特征有效性分析、分类器训练优化的相关数据;进行语音预处理;包括预加重、加窗以及快速傅里叶变化;基于预训练模型的语音特征提取;对表征抑郁程度的语音特征进行提取;基于机器学习进行分类;得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。本发明基于语音预训练模型的抑郁症检测方法及系统,基于语音预训练模型的语音特征提取、时延神经网络与门控循环单元算法等机器学习技术,通过寻找语音特征与抑郁症之间的关系,通过语音读取的方式客观评估被试人员是否患有抑郁症;提高了抑郁症识别的准确率和精度。
Description
技术领域
本发明涉及生物特征提取、模式识别技术领域,具体的说,是涉及一种基于语音预训练模型的抑郁症检测方法及系统。
背景技术
根据世界卫生组织(World Health Organization,WHO)调查显示,全世界约有10亿人存在着精神障碍类困扰。
我国抑郁症诊断通常依靠医患交流及临床观察,面临着专科医师严重缺乏、初步筛查保健医生水平不一的困境,受限于当地医疗水平以及医生专业技能水平。而语音是人的生理状态的综合反映,随着语音信号分析处理技术的高速发展,基频、共振峰特征、线性预测系数、梅尔倒谱系数等语音特征参数可作为一个评估抑郁症相对客观并且可量化的指标,同时具有着容易采集及成本低的特点。因此,可以通过对用户语音特征的分析,为抑郁症的临床诊断提供一种基于用户实际表现的客观参考。
申请号为CN202011466471.3的中国专利提供了一种语音及文本转录的抑郁症辅助诊断方法、系统及介质,利用预设的标准化问题对应的语音问题与目标用户进行交互,确定对应的问诊信息;基于所述问诊信息通过预设算法进行预测;根据预测结果判定所述目标用户为抑郁症患者,实现辅助识别可能存在的抑郁症患者,减轻医疗工作人员的工作量,提高抑郁症诊断效率。
实际使用中依然存在弊端:用户采用语音和文本的形式答复虚拟医生的问题时,通过语音转文本软件将目标用户的语音答复信息转换为文本信息,然后将转换的文本信息和用户输入的其他问题的文本信息一并转换为文本嵌入向量,基于得到的文本嵌入向量,采用深度神经网络模型对文本嵌入向量进行建模,获得预测结果,对比文件对抑郁症识别的准确率和精度不够。
发明内容
针对上述现有技术中的不足,本发明提供一种提高抑郁症识别的准确率和精度的基于语音预训练模型的抑郁症检测方法及系统。
本发明所采取的技术方案是:
一种基于语音预训练模型的抑郁症检测方法,包括:
建立语音数据库;用于语音特征有效性分析、分类器训练优化的相关数据;
进行语音预处理;包括预加重、加窗以及快速傅里叶变化;用于提高语音质量,使得所需处理的信号更加平滑;
基于预训练模型的语音特征提取;基于语音预训练模型实现,例如使用HuBERT、Wav2Vec 2.0、WavLM等预训练模型实现,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模,从而实现对预处理后的语音中预训练模型高层次表征的提取;
基于机器学习进行分类;利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。
优选的,进行语音预处理,具体包括:
所述预加重,是对语音信号进行预加重;
所述加窗,将语音信号划分为一个个大小为N的帧;使用汉明窗对每一帧进行加窗;使用重叠-添加法将加窗后的帧重叠后相加,得到处理后的语音信号;
所述快速傅里叶变换,是将信号从时域映射到频域。
优选的,基于预训练模型的语音特征提取,基于语音预训练模型实现,例如使用HuBERT、Wav2Vec 2.0、WavLM等预训练模型实现,具体包括:
帧级特征提取,对MFCC、Fbank等特征进行提取;
频谱特征编码,将特征提取后的序列输入至卷积神经网络中,学习局部时序信息,捕获语音信号的局部特征;
预训练特征,将卷积神经网络的输出序列输入至Transformer Encoder中,利用自注意力机制对序列进行编码,学习全局时序信息,捕获语音信号的全局特征;引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力;得到编码后的语音特征表示形式。
优选的,基于机器学习的分类,具体包括:
建立时延神经网络,使用时间延迟神经网络对特征向量序列进行处理,其在时间维度上进行卷积操作;可以有效地捕捉时间序列数据的特征。即通过卷积和非线性激活函数操作对输入的特征序列进行处理。
建立门循环单元模型,使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类;门循环单元模型对输入序列进行建模并维护一个内部状态;以便于对序列信息进行编码和解码,更好地捕捉序列的长期依赖性。
训练及优化模型,首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距;通过反向传播算法更新网络参数,通过网络输入数据并计算每一层的加权和,并将其馈送到激活函数中;
计算误差,计算输出误差在各个层上的梯度,最后,通过更新参数的方式使误差降低;
抑郁症的检测,使用训练好的模型对新的语音特征向量序列进行预测,并输出被试人是否患有抑郁症。
优选的,语音数据库在本系统的计算机中运行,用MySQL进行实现;
包含的数据有:语音文件的语音特征、受试人的抑郁状态(即人工诊断标签)、分类标签,该数据库中只保存经过专业医师检测的被试数据。
一种基于语音预训练模型的抑郁症检测系统,包括:
语音数据库模块,用于语音特征有效性分析、分类器训练优化的相关数据;
语音预处理模块,用于对语音数据库中的语音数据进行预处理,便于后续表征抑郁程度或情感特征的语音特征提取;
基于预训练模型的语音特征提取模块,基于例如HuBERT、Wav2Vec2.0、WavLM等语音预训练模型实现,对能够表征被试人抑郁程度或情感特征的提取;
分类评估模块,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。
本发明相对现有技术的有益效果:
本发明基于语音预训练模型的抑郁症检测方法及系统,基于语音预训练模型的语音特征提取、时延神经网络与门控循环单元算法等机器学习技术,通过寻找语音特征与抑郁症之间的关系,从而仅以通过语音读取的方式客观评估被试人员是否患有抑郁症。
本发明基于语音预训练模型的抑郁症检测方法及系统,通过例如HuBERT、Wav2Vec2.0、WavLM等语音预训练模型对语音信号进行有效的预处理,提取出丰富的语音特征;与传统的基于梅尔倒谱系数的特征提取方法相比,语音预训练模型可以更好地保留语音信号中的上下文信息,从而提高了特征表达的质量;预训练模型可以学习到跨多种语言和语境的通用语义特征,使得模型具备较好的泛化能力,可适应不同的语音输入和场景;语音预训练模型可以利用大规模未标记的语音数据进行训练,无需昂贵的人工标注,使得训练过程更高效,并且可以处理标注数据稀缺的问题。
本发明基于语音预训练模型的抑郁症检测方法及系统,时延神经网络和门循环单元模型在序列建模方面具有优异的性能。时延神经网络将多个时间步上的特征向量拼接起来,产生新的特征表示,并利用前馈神经网络进行映射,以进一步提高特征表达的准确性;门循环单元模型通过递归方式学习序列数据之间的依赖关系,从而更好地捕捉语音信号中存在的情感状态,提高了抑郁症识别的精度。
本发明基于语音预训练模型的抑郁症检测方法及系统,时延神经网络和门循环单元模型充分发挥两者的优势,提高整个系统的性能,时延神经网络生成新的特征表示,为序列建模提供更加丰富的输入,而门循环单元模型则可以更好地捕捉这些特征之间的动态变化,提高了抑郁症识别的准确率。
附图说明
图1是本发明基于语音预训练模型的抑郁症检测方法控制流程图;
图2是本发明基于语音预训练模型的抑郁症检测方法的语音预处理控制流程图;
图3是本发明基于语音预训练模型的抑郁症检测方法的基于预训练模型的语音特征提取控制流程图;
图4是本发明基于语音预训练模型的抑郁症检测方法的基于机器学习进行分类控制流程图;
图5是基于语音预训练模型的抑郁症检测系统的结构示意图。
具体实施方式
以下参照附图及实施例对本发明进行详细的说明:
附1-5可知,一种基于语音预训练模型的抑郁症检测方法,包括:
步骤S100、建立语音数据库;用于语音特征有效性分析、分类器训练优化的相关数据;
步骤S101、进行语音预处理,包括预加重、加窗以及快速傅里叶变化等,用于提高语音质量,使得所需处理的信号更加平滑;
步骤S102、基于预训练模型的语音特征提取,语音特征提取基于语音预训练模型实现,例如使用HuBERT、Wav2Vec 2.0、WavLM等预训练模型实现,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模,从而实现对预处理后的语音中预训练模型高层次表征的提取。
步骤S103、基于机器学习进行分类,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。
进一步对于所述步骤S101,具体的说,包括以下步骤:
步骤S201,预加重,对语音信号进行预加重
将语音信号s[n]通过预加重滤波器H(z),得到预加重后的语音信号s′[n]:
s′[n]=s[n]-αs[n-1]
其中,n表示语音信号帧中的样本索引,s′[n]表示预加重后的语音信号,s[n]表示语音信号,s[n-1]表示s[n]的前一帧语音信号。
步骤S202,加窗,将语音信号划分为一个个大小为N的帧。使用汉明窗对每一帧进行窗函数公式如下:
其中,W[n]是第n个采样所对应的窗函数系数,N是窗口大小。
将窗函数与语音信号帧逐个对应相乘。
sw[n]=s[n]×W[n]
其中,sw[n]是加窗后的语音信号帧,s[n]是原始语音信号帧,W[n]是第n个采样所对应的窗函数系数,N是窗口大小。
最后,使用重叠-添加法将加窗后的帧重叠后相加,得到处理后的语音信号。
步骤S203,快速傅里叶变换,将信号从时域映射到频域,假设加窗后的采样点个数是n,快速傅里叶变换的定义如下:
其中,m[i]其中的i表示窗函数,通常使用汉明窗,m[i]是输入的语音信号,ma[k]表示对应的频域信号,k表示傅里叶变换的帧长度,n是傅里叶变换的点数,j为虚数单位。
对于所述步骤S102,具体的说,包括以下步骤:
步骤S301,帧级特征提取,对MFCC、Fbank等特征进行提取。
步骤S302,频谱特征编码,将特征提取后的序列输入至卷积神经网络中,学习局部时序信息,捕获语音信号的局部特征。
步骤S303,预训练特征,将卷积神经网络的输出序列输入至Transformer Encoder中,利用自注意力机制对序列进行编码,学习全局时序信息,捕获语音信号的全局特征。同时,引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力。
步骤S304,得到编码后的语音特征表示形式。
进一步对于所述步骤S103,具体的说,包括以下步骤:
步骤S401,建立时延神经网络,使用时间延迟神经网络对特征向量序列进行处理,其在时间维度上进行卷积操作,可以有效地捕捉时间序列数据的特征。即通过卷积和非线性激活函数操作对输入的特征序列进行处理。其数学公式为:
其中,y(n)为经过卷积和非线性激活函数处理后输出的结果,x(n-Δk)表示输入的时间延迟为Δk的特征向量,wk和c分别为卷积核权重和偏置项。
步骤S402,建立门循环单元模型:为了进一步提高对抑郁症的识别能力,可以使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类。门循环单元模型对输入序列进行建模并维护一个内部状态,以便于对序列信息进行编码和解码,更好地捕捉序列的长期依赖性。其数学公式为:
zt=σ(Wzxt+Uzht-1+bz)
rt=σ(Wrxt+Urht-1+br)
其中,zt表示第t个时间步更新门,xt表示第t个时间步的输入特征,ht表示第t个时间步的隐藏状态,σ表示Logistic门函数,W,U,b为可学习的神经网络权重参数,rt表示第t个时间步重置门,表示第t个时间步的候选隐藏状态,°表示向量的哈达玛积。
步骤S403,训练及优化模型:首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距,其计算公式为:
其中N表示样本的数量,K表示分类的数量,yik表示模型对第i个样本分类为k的预测输出,为真实标签。
其次,通过反向传播算法更新网络参数,通过网络输入数据并计算每一层的加权和,并将其馈送到激活函数中。接着计算误差,其计算公式如下:
其中,n为样本数量,yi为真实值,为预测值。
随后,计算输出误差在各个层上的梯度,最后,通过更新参数的方式使误差降低。根据梯度下降法则更新每个单元格的权重w和偏置b,一般公式如下:
其中,α代表学习率。wold与bold分别代表更新前的权重和偏置,wnew与bnew分别代表更新后的权重和偏置,j为计算得出的误差。
步骤S404,抑郁症的检测:使用训练好的模型对新的语音特征向量序列进行预测,并输出被试人是否患有抑郁症。
一种基于语音预训练模型的抑郁症检测方法及系统,包括:
语音数据库模块,用于语音特征有效性分析、分类器训练优化的相关数据;
语音预处理模块,用于对语音数据库中的语音数据进行预处理,便于后续表征抑郁程度或情感特征的语音特征提取;
基于预训练模型的语音特征提取模块,基于例如HuBERT、Wav2Vec2.0、WavLM等语音预训练模型实现,对能够表征被试人抑郁程度或情感特征的提取;
分类评估模块,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。
本发明基于语音预训练模型的抑郁症检测方法及系统,基于语音预训练模型的语音特征提取、时延神经网络与门控循环单元算法等机器学习技术,通过寻找语音特征与抑郁症之间的关系,从而仅以通过语音读取的方式客观评估被试人员是否患有抑郁症。
本发明基于语音预训练模型的抑郁症检测方法及系统,通过例如HuBERT、Wav2Vec2.0、WavLM等语音预训练模型对语音信号进行有效的预处理,提取出丰富的语音特征;与传统的基于梅尔倒谱系数的特征提取方法相比,语音预训练模型可以更好地保留语音信号中的上下文信息,从而提高了特征表达的质量;预训练模型可以学习到跨多种语言和语境的通用语义特征,使得模型具备较好的泛化能力,可适应不同的语音输入和场景;语音预训练模型可以利用大规模未标记的语音数据进行训练,无需昂贵的人工标注,使得训练过程更高效,并且可以处理标注数据稀缺的问题。
本发明基于语音预训练模型的抑郁症检测方法及系统,时延神经网络和门循环单元模型在序列建模方面具有优异的性能。时延神经网络将多个时间步上的特征向量拼接起来,产生新的特征表示,并利用前馈神经网络进行映射,以进一步提高特征表达的准确性;门循环单元模型通过递归方式学习序列数据之间的依赖关系,从而更好地捕捉语音信号中存在的情感状态,提高了抑郁症识别的精度。
本发明基于语音预训练模型的抑郁症检测方法及系统,时延神经网络和门循环单元模型充分发挥两者的优势,提高整个系统的性能,时延神经网络生成新的特征表示,为序列建模提供更加丰富的输入,而门循环单元模型则可以更好地捕捉这些特征之间的动态变化,提高了抑郁症识别的准确率。
以上所述,仅是本发明的较佳实施例而已,并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明的技术方案范围内。
Claims (6)
1.一种基于语音预训练模型的抑郁症检测方法,其特征在于,包括:
建立语音数据库;用于语音特征有效性分析、分类器训练优化的相关数据;
进行语音预处理;包括预加重、加窗以及快速傅里叶变化;
基于预训练模型的语音特征提取;基于语音预训练模型提取语音特征,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模,从而实现对预处理后的语音中预训练模型高层次表征的提取;
基于机器学习进行分类;利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。
2.根据权利要求1所述基于语音预训练模型的抑郁症检测方法,其特征在于:
语音数据库用MySQL进行实现;
包含的数据有:语音文件的语音特征、受试人的抑郁状态、分类标签,该数据库中只保存经过专业医师检测的被试数据。
3.根据权利要求1所述基于语音预训练模型的抑郁症检测方法,其特征在于:
所述进行语音预处理,具体包括:
所述预加重,是对语音信号进行预加重;
所述加窗,将语音信号划分为一个个大小为N的帧;使用汉明窗对每一帧进行加窗;使用重叠-添加法将加窗后的帧重叠后相加,得到处理后的语音信号;
所述快速傅里叶变换,是将信号从时域映射到频域。
4.根据权利要求1所述基于语音预训练模型的抑郁症检测方法,其特征在于:
基于预训练模型的语音特征提取,基于语音预训练模型实现,具体包括:
帧级特征提取,对MFCC、Fbank等特征进行提取;
频谱特征编码,将特征提取后的序列输入至卷积神经网络中,学习局部时序信息,捕获语音信号的局部特征;
预训练特征,将卷积神经网络的输出序列输入至Transformer Encoder中,利用自注意力机制对序列进行编码,学习全局时序信息,捕获语音信号的全局特征;得到编码后的语音特征表示形式。
5.根据权利要求1所述基于语音预训练模型的抑郁症检测方法,其特征在于:
基于机器学习的分类,具体包括:
建立时延神经网络,使用时间延迟神经网络对特征向量序列进行处理,其在时间维度上进行卷积操作;
建立门循环单元模型,使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类;
门循环单元模型对输入序列进行建模并维护一个内部状态;
训练及优化模型,首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距;通过反向传播算法更新网络参数,通过网络输入数据并计算每一层的加权和,并将其馈送到激活函数中;
计算误差,计算输出误差在各个层上的梯度,最后,通过更新参数的方式使误差降低;
抑郁症的检测,使用训练好的模型对新的语音特征向量序列进行预测,并输出被试人是否患有抑郁症。
6.一种基于语音预训练模型的抑郁症检测系统,其特征在于包括:
语音数据库模块,用于语音特征有效性分析、分类器训练优化的相关数据;
语音预处理模块,用于对语音数据库中的语音数据进行预处理,便于后续表征抑郁程度或情感特征的语音特征提取;
基于预训练模型的语音特征提取模块,对能够表征被试人抑郁程度或情感特征的提取;
分类评估模块,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310463492.7A CN116564356A (zh) | 2023-04-26 | 2023-04-26 | 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统 |
CN2023104634927 | 2023-04-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116978408A true CN116978408A (zh) | 2023-10-31 |
CN116978408B CN116978408B (zh) | 2024-04-30 |
Family
ID=87499308
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310463492.7A Withdrawn CN116564356A (zh) | 2023-04-26 | 2023-04-26 | 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统 |
CN202311097288.4A Active CN116978408B (zh) | 2023-04-26 | 2023-08-28 | 基于语音预训练模型的抑郁症检测方法及系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310463492.7A Withdrawn CN116564356A (zh) | 2023-04-26 | 2023-04-26 | 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN116564356A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877527A (zh) * | 2024-02-21 | 2024-04-12 | 国能宁夏供热有限公司 | 一种基于通信设备的语音质量分析技术及分析方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190385711A1 (en) * | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
US20200037942A1 (en) * | 2016-02-12 | 2020-02-06 | Newton Howard | Early detection of neurodegenerative disease |
CN111951824A (zh) * | 2020-08-14 | 2020-11-17 | 苏州国岭技研智能科技有限公司 | 一种基于声音判别抑郁症的检测方法 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
CA3169998A1 (en) * | 2020-02-03 | 2021-08-12 | Strong Force TX Portfolio 2018, LLC | Artificial intelligence selection and configuration |
US20220093121A1 (en) * | 2020-09-23 | 2022-03-24 | Sruthi Kotlo | Detecting Depression Using Machine Learning Models on Human Speech Samples |
KR20220094967A (ko) * | 2020-12-29 | 2022-07-06 | 성균관대학교산학협력단 | 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템 |
CN114842957A (zh) * | 2022-03-28 | 2022-08-02 | 暨南大学 | 一种基于情绪识别的老年痴呆症辅助诊断系统及其方法 |
CN115116475A (zh) * | 2022-06-13 | 2022-09-27 | 北京邮电大学 | 一种基于时延神经网络的语音抑郁症自动检测方法和装置 |
-
2023
- 2023-04-26 CN CN202310463492.7A patent/CN116564356A/zh not_active Withdrawn
- 2023-08-28 CN CN202311097288.4A patent/CN116978408B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200037942A1 (en) * | 2016-02-12 | 2020-02-06 | Newton Howard | Early detection of neurodegenerative disease |
US20190385711A1 (en) * | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
CA3169998A1 (en) * | 2020-02-03 | 2021-08-12 | Strong Force TX Portfolio 2018, LLC | Artificial intelligence selection and configuration |
CN111951824A (zh) * | 2020-08-14 | 2020-11-17 | 苏州国岭技研智能科技有限公司 | 一种基于声音判别抑郁症的检测方法 |
US20220093121A1 (en) * | 2020-09-23 | 2022-03-24 | Sruthi Kotlo | Detecting Depression Using Machine Learning Models on Human Speech Samples |
KR20220094967A (ko) * | 2020-12-29 | 2022-07-06 | 성균관대학교산학협력단 | 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템 |
CN112818892A (zh) * | 2021-02-10 | 2021-05-18 | 杭州医典智能科技有限公司 | 基于时间卷积神经网络的多模态抑郁症检测方法及系统 |
CN114842957A (zh) * | 2022-03-28 | 2022-08-02 | 暨南大学 | 一种基于情绪识别的老年痴呆症辅助诊断系统及其方法 |
CN115116475A (zh) * | 2022-06-13 | 2022-09-27 | 北京邮电大学 | 一种基于时延神经网络的语音抑郁症自动检测方法和装置 |
Non-Patent Citations (2)
Title |
---|
杨秀岩;韩丽;翟丽红;图娅;: "神经网络方法在抑郁症早期筛查中应用的可行性", 中国民康医学, no. 07, 10 April 2018 (2018-04-10) * |
潘玮;汪静莹;刘天俐;刘晓倩;刘明明;胡斌;朱廷劭;: "基于语音的抑郁症识别", 科学通报, no. 20, 20 July 2018 (2018-07-20) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117877527A (zh) * | 2024-02-21 | 2024-04-12 | 国能宁夏供热有限公司 | 一种基于通信设备的语音质量分析技术及分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116978408B (zh) | 2024-04-30 |
CN116564356A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516696B (zh) | 一种基于语音和表情的自适应权重双模态融合情感识别方法 | |
CN107871496B (zh) | 语音识别方法和装置 | |
CN116978408B (zh) | 基于语音预训练模型的抑郁症检测方法及系统 | |
AI-Atroshi et al. | RETRACTED ARTICLE: Automated speech based evaluation of mild cognitive impairment and Alzheimer’s disease detection using with deep belief network model | |
CN114373452A (zh) | 基于深度学习的嗓音异常识别和评价的方法及系统 | |
CN113297383A (zh) | 基于知识蒸馏的语音情感分类方法 | |
Wang et al. | A research on HMM based speech recognition in spoken English | |
Kapoor et al. | Fusing traditionally extracted features with deep learned features from the speech spectrogram for anger and stress detection using convolution neural network | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
Esposito et al. | Covid-19 detection using audio spectral features and machine learning | |
Musaev et al. | Automatic recognition of Uzbek speech based on integrated neural networks | |
Deepa et al. | Speech technology in healthcare | |
CN118035411A (zh) | 客服语音质检方法、装置、设备及存储介质 | |
CN116450848B (zh) | 一种基于事理图谱的计算思维水平评估方法、装置及介质 | |
CN111341346A (zh) | 融合深度语言生成模型的语言表达能力评价方法和系统 | |
CN116189671A (zh) | 一种用于语言教学的数据挖掘方法及系统 | |
CN115171878A (zh) | 基于BiGRU和BiLSTM的抑郁症检测方法 | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
CN110111810B (zh) | 基于卷积神经网络的语音人格预测方法 | |
CN118098289B (zh) | 一种结合精准模型与轻量级模型的抑郁症识别方法及系统 | |
CN118094413B (zh) | 专利价值评估模型的训练方法和专利数据的评估方法 | |
CN112259126B (zh) | 一种自闭症语音特征辅助识别机器人及方法 | |
CN117059283B (zh) | 一种基于肺结核预警的语音数据库分类和处理系统 | |
CN118334760B (zh) | 一种基于惯性信号和声学信号的多模态活动识别方法 | |
Paramitha et al. | Performance Comparison of Deep Learning Algorithm for Speech Emotion Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |