CN117373492B - 一种基于深度学习的精神分裂症语音检测方法及系统 - Google Patents

一种基于深度学习的精神分裂症语音检测方法及系统 Download PDF

Info

Publication number
CN117373492B
CN117373492B CN202311680752.2A CN202311680752A CN117373492B CN 117373492 B CN117373492 B CN 117373492B CN 202311680752 A CN202311680752 A CN 202311680752A CN 117373492 B CN117373492 B CN 117373492B
Authority
CN
China
Prior art keywords
voice
schizophrenia
vector
voice detection
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311680752.2A
Other languages
English (en)
Other versions
CN117373492A (zh
Inventor
赵玉丽
梁伟业
杨敬铭
范宁
赵文暄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huilongguan Hospital (beijing Psychological Crisis Research And Intervention Center)
Original Assignee
Beijing Huilongguan Hospital (beijing Psychological Crisis Research And Intervention Center)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huilongguan Hospital (beijing Psychological Crisis Research And Intervention Center) filed Critical Beijing Huilongguan Hospital (beijing Psychological Crisis Research And Intervention Center)
Priority to CN202311680752.2A priority Critical patent/CN117373492B/zh
Publication of CN117373492A publication Critical patent/CN117373492A/zh
Application granted granted Critical
Publication of CN117373492B publication Critical patent/CN117373492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Theoretical Computer Science (AREA)
  • Veterinary Medicine (AREA)
  • Surgery (AREA)
  • Mathematical Physics (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Software Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Educational Technology (AREA)
  • Developmental Disabilities (AREA)
  • Social Psychology (AREA)
  • Psychology (AREA)
  • Epidemiology (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

本发明公开了一种基于深度学习的精神分裂症语音检测方法及系统,涉及个人健康风险评估技术领域,所述方法包括:获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取语音样本的声学特征参数集,声学特征参数集包括音质情感变化特征;构建声学特征参数集的语音向量,根据语音向量训练多尺度多头精神分裂症语音检测模型,其中,语音向量包括音节、音素、音位以及语素单元的隐含状态序列;利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出受检者的人群类别。本发明集成希尔伯特黄变换和倒谱内插方法提取声学特征,利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测。

Description

一种基于深度学习的精神分裂症语音检测方法及系统
技术领域
本发明涉及个人健康风险评估技术领域,具体涉及一种基于深度学习的精神分裂症语音检测方法及系统。
背景技术
精神分裂症是一种慢性神经退化性障碍,具有复发率高、致残率高等特点,常伴随患者终生,严重损害了患者的生活质量和社会认知,其主要临床表现包含幻听、妄想、言语(思维)紊乱、行为异常、阴性症状(如语言贫乏、情感淡漠等)。若能在精神症状发作的早期采取合理有效的自动检测手段,及时加以干预治疗,将有助于改善患者的病况。
目前精神分裂症的临床诊断和监测评估的方法主要有以下几种方式:一是脑影像学方法,通过功能核磁共振(Functional Nuclear Magnetic Resonance,fMRI)诊断脑实质及脑功能的改变,但仪器操作复杂,检测费用高昂,且缺乏客观的生物学标记;二是脑电信号方法,但α波、β波均无特异性,对诊断的价值有限;三是视频分析方法,相比于正常人,精神分裂症患者具有更少的身体运动和更呆滞的面部表情,可以通过分析提取受试者的表情动作特征实现自动检测,但目前的研究瓶颈在于缺乏统一的实验范式,尚处于起步阶段,未达到临床辅助诊断水平;四是基因组学方法,但在基因测序捕捉时仍存在假阳性和假阴性的问题。
研究表明精神分裂症的阴性症状与语音情感表达密切相关,随着大数据、人工智能、语音信号处理算法的飞速发展,将语音情感特征应用于精神分裂症的研究,将为临床诊断精神分裂症提供全新的检测方法。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述全部或至少一部分问题的基于深度学习的精神分裂症语音检测方法及系统。
根据本发明的一个方面,提供了一种基于深度学习的精神分裂症语音检测方法,包括:
获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;
构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;
利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别;
所述集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集包括:
在所述语音向量中加入均值与方差具有相同分布的不同噪声,合成目标语音信号;
计算模态函数中各个IMF分量对应的边际谱的频带能熵比的比值,筛选出包含共振峰的IMF分量,以重构所述语音向量;
利用倒谱内插方法提取多个所述共振峰的声学特征参数集,其中,所述声学特征参数集包括各个共振峰频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度。
更进一步地,对所述多尺度多头精神分裂症语音检测模型的优化函数进行范数优化,所述范数的具体公式为:
其中,…/>为向量参数。
更进一步地,所述优化函数采用RMSProp算法,根据学习率和修正矩阵偏差更新所述RMSProp算法的参数变化量,所述参数变化量更新的具体公式为:
其中,为参数变量量,/>为学习率,/>为超参数,/>为一阶修正偏差,/>为二阶修正偏差。
更进一步地,所述一阶修正偏差的具体公式为:
其中,为一阶系数,s为一阶矩估计,t为时间步长;
所述二阶修正偏差的具体公式为:
其中,为二阶系数,/>为二阶矩估计。
更进一步地,所述多尺度多头精神分裂症语音检测模型的损失函数为:
其中,k为第k个词,K为词的个数,为语音向量中词的序号,/>为序列模型解码器第k个词的概率,/>为前一个词的序号,/>为上下文信息,x为上下文向量特征。
更进一步地,所述多尺度多头精神分裂症语音检测模型中各个卷积网络模块包括一维卷积、门控单元激活和随机失活操作;
所述一维卷积运算的具体公式为:
其中,s(t)为卷积运算结果,u,v为自变量为t的函数,a是累加变量;
所述门控单元激活的具体公式为:
其中,K为当前网络层的输入,F、G为卷积核,为激活函数,b、c为偏置参数。
更进一步地,所述方法还包括:
将所述认知测试语音样本划分为长度为3秒的片段,分别提取所述片段的基因频率、响度、频谱通量、能量以及尖锐度。
更进一步地,在所述根据所述语音向量训练多尺度多头精神分裂症语音检测模型之前,所述方法还包括:
对所述语音向量进行归一化,使用的归一化函数具体为:
其中,、/>分别为语音向量列/>中的最小值及最大值,/>为归一化后的各元素的值。
根据本发明的另一方面,提供了一种基于深度学习的精神分裂症语音检测系统,包括:
语音获取模块,用于获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;
模型训练模块,用于构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;
分类检测模块,用于利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别。
根据本发明提供的方案,获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别。本发明集成希尔伯特黄变换和倒谱内插方法提取声学特征,利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,为临床诊断精神分裂症提供全新的检测方法。
本发明的技术效果:
(1)通过集成希尔伯特黄变换和倒谱内插方法所提取的声学特征,尤其是针对非稳态与非线性信号,在频域各频率分量的幅度保持不变,不仅去除了干扰噪音,使得声学特征更加突出。
(2)改进多尺度多头精神分裂症语音检测模型的一维卷积运算,有效地缓解模型的过拟合问题,起到正则化的作用,可以和L1正则化、L2正则化和最大范数约束等方法互为补充。
(3)对语音向量进行归一化处理,消除了奇异样本数据导致的不良影响。
(4)对多尺度多头精神分裂症语音检测模型的优化函数进行范数优化,使得到的解更为平滑。
(5)根据学习率和修正矩阵偏差更新RMSProp算法的参数变化量,使得模型的收敛速度更快,可以避免学习率过大或过小的问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域谱通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例的基于深度学习的精神分裂症语音检测方法的流程示意图;
图2示出了本发明实施例的基于深度学习的精神分裂症语音检测系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例的基于深度学习的精神分裂症语音检测方法的流程示意图。本方法集成希尔伯特黄变换和倒谱内插方法提取声学特征,利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测。具体地,包括以下步骤:
步骤S101,获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征。
本实施例中,受试者包括精神分裂症患者以及正常人,精神分裂症患者包括首发、高危、超高危人群,正常人为正常对照组。受试者自由朗读标准化文本,该标准化文本中包含有音节中的所有元音,通过录音设备对受试者朗读的语音进行采集得到语音样本。由于精神分裂症患者和正常人的元音信号存在共振峰频率分布和波动范围的差异和时变特征,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集。希尔伯特变换的物理意义是把信号的所有频率分量的相位推迟90度,因此又叫90°移相器,所以原始信号与它的希尔伯特黄变换构成正交副,希尔伯特黄变换将欲分析数据分解为本质模态函数(intrinsic mode functions, IMF),这样的分解流程称为经验模态分解(Empirical ModeDecomposition, EMD)的方法。然后将IMF作希尔伯特转换(Hilbert Transform),正确地获得资料的瞬时频率,与其他数学转换运算(如傅立叶变换)不同,此方法处理对象针对非稳态与非线性信号。倒谱内插方法的原理为:信号经过功率谱运算并滤波后,成为加权的正弦信号的形式,再经过求对数和功率谱变换,就得到了表示直扩信号存在的脉冲输出,此脉冲的位置表示了该正弦信号的频率,由此可得到PN码周期。如果输入信号不是扩频信号,假设为一正弦信号,则其第一个功率谱变换为一脉冲,经滤波后进入第二次功率谱变换,其输出为幅度很低的三角波输出,因而检测不到其存在。
更进一步地,所述集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集进一步包括:
在所述语音向量中加入均值与方差具有相同分布的不同噪声,合成目标语音信号。例如,在原始的语音向量中加入均值为0、方差为预定值的具有相同分布属性的不同高斯白噪声,合成目标语音信号。
计算模态函数中各个IMF分量对应的边际谱的频带能熵比的比值,筛选出包含共振峰的IMF分量,以重构所述语音向量。
利用倒谱内插方法提取多个所述共振峰的声学特征参数集,其中,所述声学特征参数集包括各个共振峰频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度。例如,提取前m个共振峰的多个共振峰特征参数,对每个共振峰,对于每个共振峰,提取其频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度。该m个共振峰特征参数组成该语音向量的声学特征参数集。
更进一步地,将所述认知测试语音样本划分为长度为3秒的片段,分别提取所述片段的基因频率、响度、频谱通量、能量以及尖锐度。
例如,将认知测试语音样本的长段音频将切分为长度为3秒的片段,分别从时域、频域等角度提取包括基因频率、响度、频谱通量、能量、尖锐度、均方根能量等特征值。
步骤S102,构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列。
音节一般是由单个元音音素和辅音音素组合而成的语音单位,有时候单个元音音素也可自成音节。音节具有较为明显的感知界限。比如一个汉字对应一个音节,一个假名也对应一个音节。音素是最基本的,最小的语音单位。适用于全体人类语言,并非针对单一特定的语言。(可以认为不同语言的会共享一部分相同的语素)。音位从某种意义上来说是相对于音素更为狭义的概念。音位基于特定的语言,是具有区别意义功能的最小语音单位。(单词或句子的含义的区分,往往会依赖单一的音位的区别),比如在南方一些方言中,前鼻音不分,比如in 和ing。它们表示两个不同的音素,但是在方言中,交流时并不通过in和ing来进行意义的区分,所以这两个韵母是同一个音位。语素是指语言中最小的音义结合体,也就是说一个语言单位必须同时满足三个条件——“最小、有音、有义”才能被称作语素,尤其是“最小”和“有义”。
更进一步地,在所述根据所述语音向量训练多尺度多头精神分裂症语音检测模型之前,对所述语音向量进行归一化,使用的归一化函数具体为:
其中,、/>分别为语音向量列/>中的最小值及最大值,/>为归一化后的各元素的值。
由于不同评价指标往往具有不同的量纲和量纲单位,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,使得预处理的数据被限定在一定的范围内(比如[0,1]或者[-1,1]),从而消除奇异样本数据导致的不良影响。
更进一步地,所述多尺度多头精神分裂症语音检测模型的损失函数为:
其中,k为第k个词,K为词的个数,为语音向量中词的序号,/>为序列模型解码器第k个词的概率,/>为前一个词的序号,/>为上下文信息,x为上下文向量特征。
更进一步地,所述多尺度多头精神分裂症语音检测模型中各个卷积网络模块包括一维卷积、门控单元激活和随机失活操作;
计算所述一维卷积的具体公式为:
其中,s(t)为卷积运算结果,u,v为自变量为t的函数,a是累加变量;
所述门控单元激活的具体公式为:
其中,K为当前网络层的输入,F、G为卷积核,为激活函数,b、c为偏置参数。
例如,卷积神经网络模型包括10个卷积块,每个卷积块均包含3个操作,分别为一维卷积、门控单元激活和随机失活操作。其中,随机失活操作可有效地缓解模型的过拟合问题,起到正则化的作用,可以和L1正则化、L2正则化和最大范数约束等方法互为补充。
更进一步地,对所述多尺度多头精神分裂症语音检测模型的优化函数进行范数优化,所述范数的具体公式为:
其中,…/>为向量参数。对多尺度多头精神分裂症语音检测模型的优化函数进行范数优化,使得到的解更为平滑。
更进一步地,所述优化函数采用RMSProp算法,根据学习率和修正矩阵偏差更新所述RMSProp算法的参数变化量,所述参数变化量更新的具体公式为:
其中,为参数变量量,/>为学习率,/>为超参数,/>为一阶修正偏差,/>为二阶修正偏差。
RMSProp算法能够自动调整学习率,使得模型的收敛速度更快,可以避免学习率过大或过小的问题,能够更好地解决学习率调整问题。但在处理稀疏特征时需要调整如学习率等超参数,需要工程师具备一定的调试经验。本实施例中,根据学习率和修正矩阵偏差更新RMSProp算法的参数变化量,可以防止出现分母为0的情况。
更进一步地,所述一阶修正偏差的具体公式为:
其中,为一阶系数,s为一阶矩估计,t为时间步长;
所述二阶修正偏差的具体公式为:
其中,为二阶系数,/>为二阶矩估计。
步骤S103,利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别。
利用多尺度多头精神分裂症语音检测模型,对精神分裂症首发、高危、超高危和正常对照组四类人群进行分类检测。
根据本发明提供的方案,获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别。本发明集成希尔伯特黄变换和倒谱内插方法提取声学特征,利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,为临床诊断精神分裂症提供全新的检测方法。

Claims (7)

1.一种基于深度学习的精神分裂症语音检测方法,其特征在于,包括:
获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;
构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;
利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别;
所述集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集包括:
在所述语音向量中加入均值与方差具有相同分布的不同噪声,合成目标语音信号;
计算模态函数中各个IMF分量对应的边际谱的频带能熵比的比值,筛选出包含共振峰的IMF分量,以重构所述语音向量;
利用倒谱内插方法提取多个所述共振峰的声学特征参数集,其中,所述声学特征参数集包括各个共振峰频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度;
所述多尺度多头精神分裂症语音检测模型的损失函数为:
其中,k为第k个词,K为词的个数,为语音向量中词的序号,/>为序列模型解码器第k个词的概率,/>为前一个词的序号,/>为上下文信息,x为上下文向量特征;
所述多尺度多头精神分裂症语音检测模型中各个卷积网络模块包括一维卷积、门控单元激活和随机失活操作;
计算所述一维卷积的具体公式为:
其中,s(t)为卷积运算结果,u,v为自变量为t的函数,a是累加变量;
所述门控单元激活的具体公式为:
其中,K为当前网络层的输入,F、G为卷积核,为激活函数,b、c为偏置参数。
2.根据权利要求1所述的基于深度学习的精神分裂症语音检测方法,其特征在于,对所述多尺度多头精神分裂症语音检测模型的优化函数进行范数优化,所述范数的具体公式为:
其中,…/>为向量参数。
3.根据权利要求2所述的基于深度学习的精神分裂症语音检测方法,其特征在于,所述优化函数采用RMSProp算法,根据学习率和修正矩阵偏差更新所述RMSProp算法的参数变化量,所述参数变化量更新的具体公式为:
其中,为参数变量,/>为学习率,/>为超参数,/>为一阶修正偏差,/>为二阶修正偏差。
4.根据权利要求3所述的基于深度学习的精神分裂症语音检测方法,其特征在于,所述一阶修正偏差的具体公式为:
其中,为一阶系数,s为一阶矩估计,t为时间步长;
所述二阶修正偏差的具体公式为:
其中,为二阶系数,/>为二阶矩估计。
5.根据权利要求1所述的基于深度学习的精神分裂症语音检测方法,其特征在于,所述方法还包括:
将所述认知测试语音样本划分为长度为3秒的片段,分别提取所述片段的基音频率、响度、频谱通量、能量以及尖锐度。
6.根据权利要求5所述的基于深度学习的精神分裂症语音检测方法,其特征在于,在所述根据所述语音向量训练多尺度多头精神分裂症语音检测模型之前,所述方法还包括:
对所述语音向量进行归一化,使用的归一化函数具体为:
其中,、/>分别为语音向量列/>中的最小值及最大值,/>为归一化后的各元素的值。
7.一种基于深度学习的精神分裂症语音检测系统,该系统基于如权利要求1-6任一项所述的基于深度学习的精神分裂症语音检测方法,其特征在于,包括:
语音获取模块,用于获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;
模型训练模块,用于构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;
分类检测模块,用于利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别。
CN202311680752.2A 2023-12-08 2023-12-08 一种基于深度学习的精神分裂症语音检测方法及系统 Active CN117373492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311680752.2A CN117373492B (zh) 2023-12-08 2023-12-08 一种基于深度学习的精神分裂症语音检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311680752.2A CN117373492B (zh) 2023-12-08 2023-12-08 一种基于深度学习的精神分裂症语音检测方法及系统

Publications (2)

Publication Number Publication Date
CN117373492A CN117373492A (zh) 2024-01-09
CN117373492B true CN117373492B (zh) 2024-02-23

Family

ID=89395088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311680752.2A Active CN117373492B (zh) 2023-12-08 2023-12-08 一种基于深度学习的精神分裂症语音检测方法及系统

Country Status (1)

Country Link
CN (1) CN117373492B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114400025A (zh) * 2022-01-27 2022-04-26 复旦大学 基于ehht和ci的精神分裂症语音自动检测方法及系统
CN115376533A (zh) * 2022-08-16 2022-11-22 杭州电子科技大学 一种用于个性化语音生成的语音转换方法
CN115410157A (zh) * 2022-09-02 2022-11-29 东华理工大学 一种物料输送巷道异物视觉检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2010357179A1 (en) * 2010-07-06 2013-02-14 Rmit University Emotional and/or psychiatric state detection
US20210233660A1 (en) * 2018-07-13 2021-07-29 Life Science Institute, Inc. Estimateence system, estimateence program and estimateence method for psychiatric/neurological diseases
US20210353218A1 (en) * 2020-05-16 2021-11-18 Insurance Services Office, Inc. Machine Learning Systems and Methods for Multiscale Alzheimer's Dementia Recognition Through Spontaneous Speech

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114400025A (zh) * 2022-01-27 2022-04-26 复旦大学 基于ehht和ci的精神分裂症语音自动检测方法及系统
CN115376533A (zh) * 2022-08-16 2022-11-22 杭州电子科技大学 一种用于个性化语音生成的语音转换方法
CN115410157A (zh) * 2022-09-02 2022-11-29 东华理工大学 一种物料输送巷道异物视觉检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Assessing Schizophrenia Patients Through Linguistic and Acoustic Features Using Deep Learning Techniques;Yan-Jia Huang 等;《IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING》;第30卷;第947-956页 *
结合EHHT和CI的精神分裂症语音自动检测算法;田维维 等;《计算机科学》;第47卷(第6A期);第187-195页 *

Also Published As

Publication number Publication date
CN117373492A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN107657964B (zh) 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器
Shama et al. Study of harmonics-to-noise ratio and critical-band energy spectrum of speech as acoustic indicators of laryngeal and voice pathology
Fonseca et al. Wavelet time-frequency analysis and least squares support vector machines for the identification of voice disorders
Sáenz-Lechón et al. Automatic assessment of voice quality according to the GRBAS scale
Fook et al. Comparison of speech parameterization techniques for the classification of speech disfluencies
Deperlioglu Heart sound classification with signal instant energy and stacked autoencoder network
Cheng et al. Automated sleep apnea detection in snoring signal using long short-term memory neural networks
Reggiannini et al. A flexible analysis tool for the quantitative acoustic assessment of infant cry
Abeyratne et al. Mixed-phase modeling in snore sound analysis
Kaushik et al. SLINet: Dysphasia detection in children using deep neural network
Amato et al. Speech impairment in Parkinson’s disease: acoustic analysis of unvoiced consonants in Italian native speakers
Fonseca et al. Discrete wavelet transform and support vector machine applied to pathological voice signals identification
Pazhanirajan et al. EEG signal classification using linear predictive cepstral coefficient features
Nishikawa et al. Machine learning model for discrimination of mild dementia patients using acoustic features
Fonseca et al. Normal versus pathological voice signals
CN117373492B (zh) 一种基于深度学习的精神分裂症语音检测方法及系统
Zayrit et al. Daubechies Wavelet Cepstral Coefficients for Parkinson's Disease Detection
Sengupta et al. Optimization of cepstral features for robust lung sound classification
Coro et al. A self-training automatic infant-cry detector
Chakhtouna et al. Speaker and gender dependencies in within/cross linguistic Speech Emotion Recognition
Boualoulou et al. CNN and LSTM for the classification of parkinson's disease based on the GTCC and MFCC
CN114400025A (zh) 基于ehht和ci的精神分裂症语音自动检测方法及系统
Vaishnavi et al. Neonatal cry signal prediction and classification via dense convolution neural network
Gidaye et al. Unified wavelet-based framework for evaluation of voice impairment
Fernandes et al. Voice pathologies: The most comum features and classification tools

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant