CN116978408B - 基于语音预训练模型的抑郁症检测方法及系统 - Google Patents

基于语音预训练模型的抑郁症检测方法及系统 Download PDF

Info

Publication number
CN116978408B
CN116978408B CN202311097288.4A CN202311097288A CN116978408B CN 116978408 B CN116978408 B CN 116978408B CN 202311097288 A CN202311097288 A CN 202311097288A CN 116978408 B CN116978408 B CN 116978408B
Authority
CN
China
Prior art keywords
voice
depression
model
training
training model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311097288.4A
Other languages
English (en)
Other versions
CN116978408A (zh
Inventor
叶子豪
何亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Publication of CN116978408A publication Critical patent/CN116978408A/zh
Application granted granted Critical
Publication of CN116978408B publication Critical patent/CN116978408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Pathology (AREA)
  • Educational Technology (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Social Psychology (AREA)
  • Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Evolutionary Computation (AREA)
  • Developmental Disabilities (AREA)
  • Child & Adolescent Psychology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于语音预训练模型的抑郁症检测方法及系统,包括建立语音数据库;用于语音特征有效性分析、分类器训练优化的相关数据;进行语音预处理;包括预加重、加窗以及快速傅里叶变化;基于预训练模型的语音特征提取;对表征抑郁程度的语音特征进行提取;基于机器学习进行分类;得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。本发明基于语音预训练模型的抑郁症检测方法及系统,基于语音预训练模型的语音特征提取、时延神经网络与门控循环单元算法等机器学习技术,通过寻找语音特征与抑郁症之间的关系,通过语音读取的方式客观评估被试人员是否患有抑郁症;提高了抑郁症识别的准确率和精度。

Description

基于语音预训练模型的抑郁症检测方法及系统
技术领域
本发明涉及生物特征提取、模式识别技术领域,具体的说,是涉及一种基于语音预训练模型的抑郁症检测方法及系统。
背景技术
根据世界卫生组织(World Health Organization,WHO)调查显示,全世界约有10亿人存在着精神障碍类困扰。
我国抑郁症诊断通常依靠医患交流及临床观察,面临着专科医师严重缺乏、初步筛查保健医生水平不一的困境,受限于当地医疗水平以及医生专业技能水平。而语音是人的生理状态的综合反映,随着语音信号分析处理技术的高速发展,基频、共振峰特征、线性预测系数、梅尔倒谱系数等语音特征参数可作为一个评估抑郁症相对客观并且可量化的指标,同时具有着容易采集及成本低的特点。因此,可以通过对用户语音特征的分析,为抑郁症的临床诊断提供一种基于用户实际表现的客观参考。
申请号为CN202011466471.3的中国专利提供了一种语音及文本转录的抑郁症辅助诊断方法、系统及介质,利用预设的标准化问题对应的语音问题与目标用户进行交互,确定对应的问诊信息;基于所述问诊信息通过预设算法进行预测;根据预测结果判定所述目标用户为抑郁症患者,实现辅助识别可能存在的抑郁症患者,减轻医疗工作人员的工作量,提高抑郁症诊断效率。
实际使用中依然存在弊端:用户采用语音和文本的形式答复虚拟医生的问题时,通过语音转文本软件将目标用户的语音答复信息转换为文本信息,然后将转换的文本信息和用户输入的其他问题的文本信息一并转换为文本嵌入向量,基于得到的文本嵌入向量,采用深度神经网络模型对文本嵌入向量进行建模,获得预测结果,对比文件对抑郁症识别的准确率和精度不够。
发明内容
针对上述现有技术中的不足,本发明提供一种提高抑郁症识别的准确率和精度的基于语音预训练模型的抑郁症检测方法及系统。
本发明所采取的技术方案是:
一种基于语音预训练模型的抑郁症检测方法,包括:
建立语音数据库;用于语音特征有效性分析、分类器训练优化的相关数据;
进行语音预处理;包括预加重、加窗以及快速傅里叶变化;用于提高语音质量,使得所需处理的信号更加平滑;
基于预训练模型的语音特征提取;基于语音预训练模型实现,例如使用HuBERT、Wav2Vec 2.0、WavLM等预训练模型实现,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模,从而实现对预处理后的语音中预训练模型高层次表征的提取;
基于机器学习进行分类;利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。
优选的,进行语音预处理,具体包括:
所述预加重,是对语音信号进行预加重;
所述加窗,将语音信号划分为一个个大小为N的帧;使用汉明窗对每一帧进行加窗;使用重叠-添加法将加窗后的帧重叠后相加,得到处理后的语音信号;
所述快速傅里叶变换,是将信号从时域映射到频域。
优选的,基于预训练模型的语音特征提取,基于语音预训练模型实现,例如使用HuBERT、Wav2Vec 2.0、WavLM等预训练模型实现,具体包括:
帧级特征提取,对MFCC、Fbank等特征进行提取;
频谱特征编码,将特征提取后的序列输入至卷积神经网络中,学习局部时序信息,捕获语音信号的局部特征;
预训练特征,将卷积神经网络的输出序列输入至Transformer Encoder中,利用自注意力机制对序列进行编码,学习全局时序信息,捕获语音信号的全局特征;引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力;得到编码后的语音特征表示形式。
优选的,基于机器学习的分类,具体包括:
建立时延神经网络,使用时间延迟神经网络对特征向量序列进行处理,其在时间维度上进行卷积操作;可以有效地捕捉时间序列数据的特征。即通过卷积和非线性激活函数操作对输入的特征序列进行处理。
建立门循环单元模型,使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类;门循环单元模型对输入序列进行建模并维护一个内部状态;以便于对序列信息进行编码和解码,更好地捕捉序列的长期依赖性。
训练及优化模型,首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距;通过反向传播算法更新网络参数,通过网络输入数据并计算每一层的加权和,并将其馈送到激活函数中;
计算误差,计算输出误差在各个层上的梯度,最后,通过更新参数的方式使误差降低;
抑郁症的检测,使用训练好的模型对新的语音特征向量序列进行预测,并输出被试人是否患有抑郁症。
优选的,语音数据库在本系统的计算机中运行,用MySQL进行实现;
包含的数据有:语音文件的语音特征、受试人的抑郁状态(即人工诊断标签)、分类标签,该数据库中只保存经过专业医师检测的被试数据。
一种基于语音预训练模型的抑郁症检测系统,包括:
语音数据库模块,用于语音特征有效性分析、分类器训练优化的相关数据;
语音预处理模块,用于对语音数据库中的语音数据进行预处理,便于后续表征抑郁程度或情感特征的语音特征提取;
基于预训练模型的语音特征提取模块,基于例如HuBERT、Wav2Vec2.0、WavLM等语音预训练模型实现,对能够表征被试人抑郁程度或情感特征的提取;
分类评估模块,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。
本发明相对现有技术的有益效果:
本发明基于语音预训练模型的抑郁症检测方法及系统,基于语音预训练模型的语音特征提取、时延神经网络与门控循环单元算法等机器学习技术,通过寻找语音特征与抑郁症之间的关系,从而仅以通过语音读取的方式客观评估被试人员是否患有抑郁症。
本发明基于语音预训练模型的抑郁症检测方法及系统,通过例如HuBERT、Wav2Vec2.0、WavLM等语音预训练模型对语音信号进行有效的预处理,提取出丰富的语音特征;与传统的基于梅尔倒谱系数的特征提取方法相比,语音预训练模型可以更好地保留语音信号中的上下文信息,从而提高了特征表达的质量;预训练模型可以学习到跨多种语言和语境的通用语义特征,使得模型具备较好的泛化能力,可适应不同的语音输入和场景;语音预训练模型可以利用大规模未标记的语音数据进行训练,无需昂贵的人工标注,使得训练过程更高效,并且可以处理标注数据稀缺的问题。
本发明基于语音预训练模型的抑郁症检测方法及系统,时延神经网络和门循环单元模型在序列建模方面具有优异的性能。时延神经网络将多个时间步上的特征向量拼接起来,产生新的特征表示,并利用前馈神经网络进行映射,以进一步提高特征表达的准确性;门循环单元模型通过递归方式学习序列数据之间的依赖关系,从而更好地捕捉语音信号中存在的情感状态,提高了抑郁症识别的精度。
本发明基于语音预训练模型的抑郁症检测方法及系统,时延神经网络和门循环单元模型充分发挥两者的优势,提高整个系统的性能,时延神经网络生成新的特征表示,为序列建模提供更加丰富的输入,而门循环单元模型则可以更好地捕捉这些特征之间的动态变化,提高了抑郁症识别的准确率。
附图说明
图1是本发明基于语音预训练模型的抑郁症检测方法控制流程图;
图2是本发明基于语音预训练模型的抑郁症检测方法的语音预处理控制流程图;
图3是本发明基于语音预训练模型的抑郁症检测方法的基于预训练模型的语音特征提取控制流程图;
图4是本发明基于语音预训练模型的抑郁症检测方法的基于机器学习进行分类控制流程图;
图5是基于语音预训练模型的抑郁症检测系统的结构示意图。
具体实施方式
以下参照附图及实施例对本发明进行详细的说明:
附1-5可知,一种基于语音预训练模型的抑郁症检测方法,包括:
步骤S100、建立语音数据库;用于语音特征有效性分析、分类器训练优化的相关数据;
步骤S101、进行语音预处理,包括预加重、加窗以及快速傅里叶变化等,用于提高语音质量,使得所需处理的信号更加平滑;
步骤S102、基于预训练模型的语音特征提取,语音特征提取基于语音预训练模型实现,例如使用HuBERT、Wav2Vec 2.0、WavLM等预训练模型实现,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模,从而实现对预处理后的语音中预训练模型高层次表征的提取。
步骤S103、基于机器学习进行分类,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。
进一步对于所述步骤S101,具体的说,包括以下步骤:
步骤S201,预加重,对语音信号进行预加重
将语音信号s[n]通过预加重滤波器H(z),得到预加重后的语音信号s′[n]:
s′[n]=s[n]-αs[n-1]
其中,n表示语音信号帧中的样本索引,s′[n]表示预加重后的语音信号,s[n]表示语音信号,s[n-1]表示s[n]的前一帧语音信号。
步骤S202,加窗,将语音信号划分为一个个大小为N的帧。使用汉明窗对每一帧进行窗函数公式如下:
其中,W[n]是第n个采样所对应的窗函数系数,N是窗口大小。
将窗函数与语音信号帧逐个对应相乘。
sw[n]=s[n]×W[n]
其中,sw[n]是加窗后的语音信号帧,s[n]是原始语音信号帧,W[n]是第n个采样所对应的窗函数系数,N是窗口大小。
最后,使用重叠-添加法将加窗后的帧重叠后相加,得到处理后的语音信号。
步骤S203,快速傅里叶变换,将信号从时域映射到频域,假设加窗后的采样点个数是n,快速傅里叶变换的定义如下:
其中,m[i]其中的i表示窗函数,通常使用汉明窗,m[i]是输入的语音信号,ma[k]表示对应的频域信号,k表示傅里叶变换的帧长度,n是傅里叶变换的点数,j为虚数单位。
对于所述步骤S102,具体的说,包括以下步骤:
步骤S301,帧级特征提取,对MFCC、Fbank等特征进行提取。
步骤S302,频谱特征编码,将特征提取后的序列输入至卷积神经网络中,学习局部时序信息,捕获语音信号的局部特征。
步骤S303,预训练特征,将卷积神经网络的输出序列输入至Transformer Encoder中,利用自注意力机制对序列进行编码,学习全局时序信息,捕获语音信号的全局特征。同时,引入时域门卷积神经网络(MCNN)来增加时间维度的特征表示能力。
步骤S304,得到编码后的语音特征表示形式。
进一步对于所述步骤S103,具体的说,包括以下步骤:
步骤S401,建立时延神经网络,使用时间延迟神经网络对特征向量序列进行处理,其在时间维度上进行卷积操作,可以有效地捕捉时间序列数据的特征。即通过卷积和非线性激活函数操作对输入的特征序列进行处理。其数学公式为:
其中,y(n)为经过卷积和非线性激活函数处理后输出的结果,x(n-Δk)表示输入的时间延迟为Δk的特征向量,wk和c分别为卷积核权重和偏置项。
步骤S402,建立门循环单元模型:为了进一步提高对抑郁症的识别能力,可以使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类。门循环单元模型对输入序列进行建模并维护一个内部状态,以便于对序列信息进行编码和解码,更好地捕捉序列的长期依赖性。其数学公式为:
zt=σ(Wzxt+Uzht-1+bz)
rt=σ(Wrxt+Urht-1+br)
其中,zt表示第t个时间步更新门,xt表示第t个时间步的输入特征,ht表示第t个时间步的隐藏状态,σ表示Logistic门函数,W,U,b为可学习的神经网络权重参数,rt表示第t个时间步重置门,表示第t个时间步的候选隐藏状态,°表示向量的哈达玛积。
步骤S403,训练及优化模型:首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距,其计算公式为:
其中N表示样本的数量,K表示分类的数量,yik表示模型对第i个样本分类为k的预测输出,为真实标签。
其次,通过反向传播算法更新网络参数,通过网络输入数据并计算每一层的加权和,并将其馈送到激活函数中。接着计算误差,其计算公式如下:
其中,n为样本数量,yi为真实值,为预测值。
随后,计算输出误差在各个层上的梯度,最后,通过更新参数的方式使误差降低。根据梯度下降法则更新每个单元格的权重w和偏置b,一般公式如下:
其中,α代表学习率。wold与bold分别代表更新前的权重和偏置,wnew与bnew分别代表更新后的权重和偏置,j为计算得出的误差。
步骤S404,抑郁症的检测:使用训练好的模型对新的语音特征向量序列进行预测,并输出被试人是否患有抑郁症。
一种基于语音预训练模型的抑郁症检测方法及系统,包括:
语音数据库模块,用于语音特征有效性分析、分类器训练优化的相关数据;
语音预处理模块,用于对语音数据库中的语音数据进行预处理,便于后续表征抑郁程度或情感特征的语音特征提取;
基于预训练模型的语音特征提取模块,基于例如HuBERT、Wav2Vec2.0、WavLM等语音预训练模型实现,对能够表征被试人抑郁程度或情感特征的提取;
分类评估模块,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁筛查依据。
本发明基于语音预训练模型的抑郁症检测方法及系统,基于语音预训练模型的语音特征提取、时延神经网络与门控循环单元算法等机器学习技术,通过寻找语音特征与抑郁症之间的关系,从而仅以通过语音读取的方式客观评估被试人员是否患有抑郁症。
本发明基于语音预训练模型的抑郁症检测方法及系统,通过例如HuBERT、Wav2Vec2.0、WavLM等语音预训练模型对语音信号进行有效的预处理,提取出丰富的语音特征;与传统的基于梅尔倒谱系数的特征提取方法相比,语音预训练模型可以更好地保留语音信号中的上下文信息,从而提高了特征表达的质量;预训练模型可以学习到跨多种语言和语境的通用语义特征,使得模型具备较好的泛化能力,可适应不同的语音输入和场景;语音预训练模型可以利用大规模未标记的语音数据进行训练,无需昂贵的人工标注,使得训练过程更高效,并且可以处理标注数据稀缺的问题。
本发明基于语音预训练模型的抑郁症检测方法及系统,时延神经网络和门循环单元模型在序列建模方面具有优异的性能。时延神经网络将多个时间步上的特征向量拼接起来,产生新的特征表示,并利用前馈神经网络进行映射,以进一步提高特征表达的准确性;门循环单元模型通过递归方式学习序列数据之间的依赖关系,从而更好地捕捉语音信号中存在的情感状态,提高了抑郁症识别的精度。
本发明基于语音预训练模型的抑郁症检测方法及系统,时延神经网络和门循环单元模型充分发挥两者的优势,提高整个系统的性能,时延神经网络生成新的特征表示,为序列建模提供更加丰富的输入,而门循环单元模型则可以更好地捕捉这些特征之间的动态变化,提高了抑郁症识别的准确率。
以上所述,仅是本发明的较佳实施例而已,并非对本发明的结构作任何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明的技术方案范围内。

Claims (5)

1.一种基于语音预训练模型的抑郁症检测系统,其特征在于包括:
语音数据库模块,用于语音特征有效性分析、分类器训练优化的相关数据;
语音预处理模块,用于对语音数据库中的语音数据进行预处理,便于后续表征抑郁程度或情感特征的语音特征提取;
基于预训练模型的语音特征提取模块,对能够表征被试人抑郁程度或情感特征的提取;
分类评估模块,利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据,还包括:
建立语音数据库;用于语音特征有效性分析、分类器训练优化的相关数据;
进行语音预处理;包括预加重、加窗以及快速傅里叶变化;
基于预训练模型的语音特征提取;基于语音预训练模型提取语音特征,包括MFCC与Fbank特征提取以及Transformer编码结构对特征序列进行建模,从而实现对预处理后的语音中预训练模型高层次表征的提取;
基于机器学习进行分类;利用时延神经网络与门控制单元算法对训练集进行学习,并使用交叉熵损失函数来度量模型预测结果与真实标签的差距,通过反向传播算法更新网络参数进行训练及优化,得到的模型测试语音信号,并输出其对应的抑郁症状态作为判断被试者的抑郁检测依据。
2.根据权利要求1所述一种基于语音预训练模型的抑郁症检测系统,其特征在于:
语音数据库用MySQL进行实现;
包含的数据有:语音文件的语音特征、受试人的抑郁状态、分类标签,该数据库中只保存经过专业医师检测的被试数据。
3.根据权利要求2所述一种基于语音预训练模型的抑郁症检测系统,其特征在于:
所述进行语音预处理,具体包括:
所述预加重,是对语音信号进行预加重;
所述加窗,将语音信号划分为一个个大小为N的帧;使用汉明窗对每一帧进行加窗;使用重叠-添加法将加窗后的帧重叠后相加,得到处理后的语音信号;
快速傅里叶变换,是将信号从时域映射到频域。
4.根据权利要求3所述基于语音预训练模型的抑郁症检测系统,其特征在于:
基于预训练模型的语音特征提取,基于语音预训练模型实现,具体包括:
帧级特征提取,对MFCC、Fbank特征进行提取;
频谱特征编码,将特征提取后的序列输入至卷积神经网络中,学习局部时序信息,捕获语音信号的局部特征;
预训练特征,将卷积神经网络的输出序列输入至Transformer Encoder中,利用自注意力机制对序列进行编码,学习全局时序信息,捕获语音信号的全局特征;得到编码后的语音特征表示形式。
5.根据权利要求1所述一种基于语音预训练模型的抑郁症检测系统,其特征在于:
基于机器学习的分类,具体包括:
建立时延神经网络,使用时间延迟神经网络对特征向量序列进行处理,其在时间维度上进行卷积操作;
建立门循环单元模型,使用门循环单元模型对经过时延神经网络处理得到的特征向量序列进行分类;
门循环单元模型对输入序列进行建模并维护一个内部状态;
训练及优化模型,首先使用交叉熵损失函数来度量模型预测结果与真实标签的差距;通过反向传播算法更新网络参数,通过网络输入数据并计算每一层的加权和,并将其馈送到激活函数中;
计算误差,计算输出误差在各个层上的梯度,最后,通过更新参数的方式使误差降低;
抑郁症的检测,使用训练好的模型对新的语音特征向量序列进行预测,并输出被试人是否患有抑郁症。
CN202311097288.4A 2023-04-26 2023-08-28 基于语音预训练模型的抑郁症检测方法及系统 Active CN116978408B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2023104634927 2023-04-26
CN202310463492.7A CN116564356A (zh) 2023-04-26 2023-04-26 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统

Publications (2)

Publication Number Publication Date
CN116978408A CN116978408A (zh) 2023-10-31
CN116978408B true CN116978408B (zh) 2024-04-30

Family

ID=87499308

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310463492.7A Withdrawn CN116564356A (zh) 2023-04-26 2023-04-26 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统
CN202311097288.4A Active CN116978408B (zh) 2023-04-26 2023-08-28 基于语音预训练模型的抑郁症检测方法及系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310463492.7A Withdrawn CN116564356A (zh) 2023-04-26 2023-04-26 一种基于时延神经网络与门控循环单元算法的抑郁症诊断方法与系统

Country Status (1)

Country Link
CN (2) CN116564356A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951824A (zh) * 2020-08-14 2020-11-17 苏州国岭技研智能科技有限公司 一种基于声音判别抑郁症的检测方法
CN112818892A (zh) * 2021-02-10 2021-05-18 杭州医典智能科技有限公司 基于时间卷积神经网络的多模态抑郁症检测方法及系统
CA3169998A1 (en) * 2020-02-03 2021-08-12 Strong Force TX Portfolio 2018, LLC Artificial intelligence selection and configuration
KR20220094967A (ko) * 2020-12-29 2022-07-06 성균관대학교산학협력단 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
CN114842957A (zh) * 2022-03-28 2022-08-02 暨南大学 一种基于情绪识别的老年痴呆症辅助诊断系统及其方法
CN115116475A (zh) * 2022-06-13 2022-09-27 北京邮电大学 一种基于时延神经网络的语音抑郁症自动检测方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11504038B2 (en) * 2016-02-12 2022-11-22 Newton Howard Early detection of neurodegenerative disease
US20190385711A1 (en) * 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
US20220093121A1 (en) * 2020-09-23 2022-03-24 Sruthi Kotlo Detecting Depression Using Machine Learning Models on Human Speech Samples

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3169998A1 (en) * 2020-02-03 2021-08-12 Strong Force TX Portfolio 2018, LLC Artificial intelligence selection and configuration
CN111951824A (zh) * 2020-08-14 2020-11-17 苏州国岭技研智能科技有限公司 一种基于声音判别抑郁症的检测方法
KR20220094967A (ko) * 2020-12-29 2022-07-06 성균관대학교산학협력단 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템
CN112818892A (zh) * 2021-02-10 2021-05-18 杭州医典智能科技有限公司 基于时间卷积神经网络的多模态抑郁症检测方法及系统
CN114842957A (zh) * 2022-03-28 2022-08-02 暨南大学 一种基于情绪识别的老年痴呆症辅助诊断系统及其方法
CN115116475A (zh) * 2022-06-13 2022-09-27 北京邮电大学 一种基于时延神经网络的语音抑郁症自动检测方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于语音的抑郁症识别;潘玮;汪静莹;刘天俐;刘晓倩;刘明明;胡斌;朱廷劭;;科学通报;20180720(第20期);全文 *
神经网络方法在抑郁症早期筛查中应用的可行性;杨秀岩;韩丽;翟丽红;图娅;;中国民康医学;20180410(第07期);全文 *

Also Published As

Publication number Publication date
CN116564356A (zh) 2023-08-08
CN116978408A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
Mehrish et al. A review of deep learning techniques for speech processing
CN110516696B (zh) 一种基于语音和表情的自适应权重双模态融合情感识别方法
CN107871496B (zh) 语音识别方法和装置
Kangas On the analysis of pattern sequences by self-organizing maps
CN110287337A (zh) 基于深度学习和知识图谱获取医学同义词的系统及方法
CN101645271A (zh) 发音质量评估系统中的置信度快速求取方法
CN111046670A (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
AI-Atroshi et al. RETRACTED ARTICLE: Automated speech based evaluation of mild cognitive impairment and Alzheimer’s disease detection using with deep belief network model
CN114373452A (zh) 基于深度学习的嗓音异常识别和评价的方法及系统
CN113297383A (zh) 基于知识蒸馏的语音情感分类方法
CN115457982A (zh) 情感预测模型的预训练优化方法、装置、设备及介质
Esposito et al. Covid-19 detection using audio spectral features and machine learning
Kapoor et al. Fusing traditionally extracted features with deep learned features from the speech spectrogram for anger and stress detection using convolution neural network
Liu et al. AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning
CN116450848B (zh) 一种基于事理图谱的计算思维水平评估方法、装置及介质
CN113380418A (zh) 一种通过对话文本分析识别抑郁症的系统
CN116189671B (zh) 一种用于语言教学的数据挖掘方法及系统
CN116978408B (zh) 基于语音预训练模型的抑郁症检测方法及系统
CN116570284A (zh) 一种基于语音表征的抑郁症识别方法、系统
CN115171878A (zh) 基于BiGRU和BiLSTM的抑郁症检测方法
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
CN118098289B (zh) 一种结合精准模型与轻量级模型的抑郁症识别方法及系统
CN112259126B (zh) 一种自闭症语音特征辅助识别机器人及方法
CN117059283B (zh) 一种基于肺结核预警的语音数据库分类和处理系统
CN117635381B (zh) 一种基于人机对话的计算思维品质评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant