CN117373492B - 一种基于深度学习的精神分裂症语音检测方法及系统 - Google Patents
一种基于深度学习的精神分裂症语音检测方法及系统 Download PDFInfo
- Publication number
- CN117373492B CN117373492B CN202311680752.2A CN202311680752A CN117373492B CN 117373492 B CN117373492 B CN 117373492B CN 202311680752 A CN202311680752 A CN 202311680752A CN 117373492 B CN117373492 B CN 117373492B
- Authority
- CN
- China
- Prior art keywords
- voice
- schizophrenia
- vector
- voice detection
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000000980 schizophrenia Diseases 0.000 title claims abstract description 83
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000019771 cognition Effects 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 230000008451 emotion Effects 0.000 claims abstract description 10
- 230000008859 change Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 27
- 238000012937 correction Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000009849 deactivation Effects 0.000 claims description 4
- 230000004907 flux Effects 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000036541 health Effects 0.000 abstract description 2
- 238000012502 risk assessment Methods 0.000 abstract description 2
- 238000003759 clinical diagnosis Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000698 schizophrenic effect Effects 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 206010002942 Apathy Diseases 0.000 description 1
- 208000011597 CGF1 Diseases 0.000 description 1
- 206010012239 Delusion Diseases 0.000 description 1
- 206010019070 Hallucination, auditory Diseases 0.000 description 1
- 208000004547 Hallucinations Diseases 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 230000020411 cell activation Effects 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 231100000868 delusion Toxicity 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002599 functional magnetic resonance imaging Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 208000015122 neurodegenerative disease Diseases 0.000 description 1
- 238000002610 neuroimaging Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000004039 social cognition Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Psychiatry (AREA)
- Theoretical Computer Science (AREA)
- Veterinary Medicine (AREA)
- Surgery (AREA)
- Mathematical Physics (AREA)
- Pathology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Animal Behavior & Ethology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Child & Adolescent Psychology (AREA)
- Software Systems (AREA)
- Hospice & Palliative Care (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Educational Technology (AREA)
- Developmental Disabilities (AREA)
- Social Psychology (AREA)
- Psychology (AREA)
- Epidemiology (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
本发明公开了一种基于深度学习的精神分裂症语音检测方法及系统,涉及个人健康风险评估技术领域,所述方法包括:获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取语音样本的声学特征参数集,声学特征参数集包括音质情感变化特征;构建声学特征参数集的语音向量,根据语音向量训练多尺度多头精神分裂症语音检测模型,其中,语音向量包括音节、音素、音位以及语素单元的隐含状态序列;利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出受检者的人群类别。本发明集成希尔伯特黄变换和倒谱内插方法提取声学特征,利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测。
Description
技术领域
本发明涉及个人健康风险评估技术领域,具体涉及一种基于深度学习的精神分裂症语音检测方法及系统。
背景技术
精神分裂症是一种慢性神经退化性障碍,具有复发率高、致残率高等特点,常伴随患者终生,严重损害了患者的生活质量和社会认知,其主要临床表现包含幻听、妄想、言语(思维)紊乱、行为异常、阴性症状(如语言贫乏、情感淡漠等)。若能在精神症状发作的早期采取合理有效的自动检测手段,及时加以干预治疗,将有助于改善患者的病况。
目前精神分裂症的临床诊断和监测评估的方法主要有以下几种方式:一是脑影像学方法,通过功能核磁共振(Functional Nuclear Magnetic Resonance,fMRI)诊断脑实质及脑功能的改变,但仪器操作复杂,检测费用高昂,且缺乏客观的生物学标记;二是脑电信号方法,但α波、β波均无特异性,对诊断的价值有限;三是视频分析方法,相比于正常人,精神分裂症患者具有更少的身体运动和更呆滞的面部表情,可以通过分析提取受试者的表情动作特征实现自动检测,但目前的研究瓶颈在于缺乏统一的实验范式,尚处于起步阶段,未达到临床辅助诊断水平;四是基因组学方法,但在基因测序捕捉时仍存在假阳性和假阴性的问题。
研究表明精神分裂症的阴性症状与语音情感表达密切相关,随着大数据、人工智能、语音信号处理算法的飞速发展,将语音情感特征应用于精神分裂症的研究,将为临床诊断精神分裂症提供全新的检测方法。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述全部或至少一部分问题的基于深度学习的精神分裂症语音检测方法及系统。
根据本发明的一个方面,提供了一种基于深度学习的精神分裂症语音检测方法,包括:
获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;
构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;
利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别;
所述集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集包括:
在所述语音向量中加入均值与方差具有相同分布的不同噪声,合成目标语音信号;
计算模态函数中各个IMF分量对应的边际谱的频带能熵比的比值,筛选出包含共振峰的IMF分量,以重构所述语音向量;
利用倒谱内插方法提取多个所述共振峰的声学特征参数集,其中,所述声学特征参数集包括各个共振峰频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度。
更进一步地,对所述多尺度多头精神分裂症语音检测模型的优化函数进行范数优化,所述范数的具体公式为:
其中,…/>为向量参数。
更进一步地,所述优化函数采用RMSProp算法,根据学习率和修正矩阵偏差更新所述RMSProp算法的参数变化量,所述参数变化量更新的具体公式为:
其中,为参数变量量,/>为学习率,/>为超参数,/>为一阶修正偏差,/>为二阶修正偏差。
更进一步地,所述一阶修正偏差的具体公式为:
其中,为一阶系数,s为一阶矩估计,t为时间步长;
所述二阶修正偏差的具体公式为:
其中,为二阶系数,/>为二阶矩估计。
更进一步地,所述多尺度多头精神分裂症语音检测模型的损失函数为:
其中,k为第k个词,K为词的个数,为语音向量中词的序号,/>为序列模型解码器第k个词的概率,/>为前一个词的序号,/>为上下文信息,x为上下文向量特征。
更进一步地,所述多尺度多头精神分裂症语音检测模型中各个卷积网络模块包括一维卷积、门控单元激活和随机失活操作;
所述一维卷积运算的具体公式为:
其中,s(t)为卷积运算结果,u,v为自变量为t的函数,a是累加变量;
所述门控单元激活的具体公式为:
其中,K为当前网络层的输入,F、G为卷积核,为激活函数,b、c为偏置参数。
更进一步地,所述方法还包括:
将所述认知测试语音样本划分为长度为3秒的片段,分别提取所述片段的基因频率、响度、频谱通量、能量以及尖锐度。
更进一步地,在所述根据所述语音向量训练多尺度多头精神分裂症语音检测模型之前,所述方法还包括:
对所述语音向量进行归一化,使用的归一化函数具体为:
其中,、/>分别为语音向量列/>中的最小值及最大值,/>为归一化后的各元素的值。
根据本发明的另一方面,提供了一种基于深度学习的精神分裂症语音检测系统,包括:
语音获取模块,用于获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;
模型训练模块,用于构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;
分类检测模块,用于利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别。
根据本发明提供的方案,获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别。本发明集成希尔伯特黄变换和倒谱内插方法提取声学特征,利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,为临床诊断精神分裂症提供全新的检测方法。
本发明的技术效果:
(1)通过集成希尔伯特黄变换和倒谱内插方法所提取的声学特征,尤其是针对非稳态与非线性信号,在频域各频率分量的幅度保持不变,不仅去除了干扰噪音,使得声学特征更加突出。
(2)改进多尺度多头精神分裂症语音检测模型的一维卷积运算,有效地缓解模型的过拟合问题,起到正则化的作用,可以和L1正则化、L2正则化和最大范数约束等方法互为补充。
(3)对语音向量进行归一化处理,消除了奇异样本数据导致的不良影响。
(4)对多尺度多头精神分裂症语音检测模型的优化函数进行范数优化,使得到的解更为平滑。
(5)根据学习率和修正矩阵偏差更新RMSProp算法的参数变化量,使得模型的收敛速度更快,可以避免学习率过大或过小的问题。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域谱通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例的基于深度学习的精神分裂症语音检测方法的流程示意图;
图2示出了本发明实施例的基于深度学习的精神分裂症语音检测系统的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例的基于深度学习的精神分裂症语音检测方法的流程示意图。本方法集成希尔伯特黄变换和倒谱内插方法提取声学特征,利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测。具体地,包括以下步骤:
步骤S101,获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征。
本实施例中,受试者包括精神分裂症患者以及正常人,精神分裂症患者包括首发、高危、超高危人群,正常人为正常对照组。受试者自由朗读标准化文本,该标准化文本中包含有音节中的所有元音,通过录音设备对受试者朗读的语音进行采集得到语音样本。由于精神分裂症患者和正常人的元音信号存在共振峰频率分布和波动范围的差异和时变特征,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集。希尔伯特变换的物理意义是把信号的所有频率分量的相位推迟90度,因此又叫90°移相器,所以原始信号与它的希尔伯特黄变换构成正交副,希尔伯特黄变换将欲分析数据分解为本质模态函数(intrinsic mode functions, IMF),这样的分解流程称为经验模态分解(Empirical ModeDecomposition, EMD)的方法。然后将IMF作希尔伯特转换(Hilbert Transform),正确地获得资料的瞬时频率,与其他数学转换运算(如傅立叶变换)不同,此方法处理对象针对非稳态与非线性信号。倒谱内插方法的原理为:信号经过功率谱运算并滤波后,成为加权的正弦信号的形式,再经过求对数和功率谱变换,就得到了表示直扩信号存在的脉冲输出,此脉冲的位置表示了该正弦信号的频率,由此可得到PN码周期。如果输入信号不是扩频信号,假设为一正弦信号,则其第一个功率谱变换为一脉冲,经滤波后进入第二次功率谱变换,其输出为幅度很低的三角波输出,因而检测不到其存在。
更进一步地,所述集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集进一步包括:
在所述语音向量中加入均值与方差具有相同分布的不同噪声,合成目标语音信号。例如,在原始的语音向量中加入均值为0、方差为预定值的具有相同分布属性的不同高斯白噪声,合成目标语音信号。
计算模态函数中各个IMF分量对应的边际谱的频带能熵比的比值,筛选出包含共振峰的IMF分量,以重构所述语音向量。
利用倒谱内插方法提取多个所述共振峰的声学特征参数集,其中,所述声学特征参数集包括各个共振峰频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度。例如,提取前m个共振峰的多个共振峰特征参数,对每个共振峰,对于每个共振峰,提取其频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度。该m个共振峰特征参数组成该语音向量的声学特征参数集。
更进一步地,将所述认知测试语音样本划分为长度为3秒的片段,分别提取所述片段的基因频率、响度、频谱通量、能量以及尖锐度。
例如,将认知测试语音样本的长段音频将切分为长度为3秒的片段,分别从时域、频域等角度提取包括基因频率、响度、频谱通量、能量、尖锐度、均方根能量等特征值。
步骤S102,构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列。
音节一般是由单个元音音素和辅音音素组合而成的语音单位,有时候单个元音音素也可自成音节。音节具有较为明显的感知界限。比如一个汉字对应一个音节,一个假名也对应一个音节。音素是最基本的,最小的语音单位。适用于全体人类语言,并非针对单一特定的语言。(可以认为不同语言的会共享一部分相同的语素)。音位从某种意义上来说是相对于音素更为狭义的概念。音位基于特定的语言,是具有区别意义功能的最小语音单位。(单词或句子的含义的区分,往往会依赖单一的音位的区别),比如在南方一些方言中,前鼻音不分,比如in 和ing。它们表示两个不同的音素,但是在方言中,交流时并不通过in和ing来进行意义的区分,所以这两个韵母是同一个音位。语素是指语言中最小的音义结合体,也就是说一个语言单位必须同时满足三个条件——“最小、有音、有义”才能被称作语素,尤其是“最小”和“有义”。
更进一步地,在所述根据所述语音向量训练多尺度多头精神分裂症语音检测模型之前,对所述语音向量进行归一化,使用的归一化函数具体为:
其中,、/>分别为语音向量列/>中的最小值及最大值,/>为归一化后的各元素的值。
由于不同评价指标往往具有不同的量纲和量纲单位,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,使得预处理的数据被限定在一定的范围内(比如[0,1]或者[-1,1]),从而消除奇异样本数据导致的不良影响。
更进一步地,所述多尺度多头精神分裂症语音检测模型的损失函数为:
其中,k为第k个词,K为词的个数,为语音向量中词的序号,/>为序列模型解码器第k个词的概率,/>为前一个词的序号,/>为上下文信息,x为上下文向量特征。
更进一步地,所述多尺度多头精神分裂症语音检测模型中各个卷积网络模块包括一维卷积、门控单元激活和随机失活操作;
计算所述一维卷积的具体公式为:
其中,s(t)为卷积运算结果,u,v为自变量为t的函数,a是累加变量;
所述门控单元激活的具体公式为:
其中,K为当前网络层的输入,F、G为卷积核,为激活函数,b、c为偏置参数。
例如,卷积神经网络模型包括10个卷积块,每个卷积块均包含3个操作,分别为一维卷积、门控单元激活和随机失活操作。其中,随机失活操作可有效地缓解模型的过拟合问题,起到正则化的作用,可以和L1正则化、L2正则化和最大范数约束等方法互为补充。
更进一步地,对所述多尺度多头精神分裂症语音检测模型的优化函数进行范数优化,所述范数的具体公式为:
其中,…/>为向量参数。对多尺度多头精神分裂症语音检测模型的优化函数进行范数优化,使得到的解更为平滑。
更进一步地,所述优化函数采用RMSProp算法,根据学习率和修正矩阵偏差更新所述RMSProp算法的参数变化量,所述参数变化量更新的具体公式为:
其中,为参数变量量,/>为学习率,/>为超参数,/>为一阶修正偏差,/>为二阶修正偏差。
RMSProp算法能够自动调整学习率,使得模型的收敛速度更快,可以避免学习率过大或过小的问题,能够更好地解决学习率调整问题。但在处理稀疏特征时需要调整如学习率等超参数,需要工程师具备一定的调试经验。本实施例中,根据学习率和修正矩阵偏差更新RMSProp算法的参数变化量,可以防止出现分母为0的情况。
更进一步地,所述一阶修正偏差的具体公式为:
其中,为一阶系数,s为一阶矩估计,t为时间步长;
所述二阶修正偏差的具体公式为:
其中,为二阶系数,/>为二阶矩估计。
步骤S103,利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别。
利用多尺度多头精神分裂症语音检测模型,对精神分裂症首发、高危、超高危和正常对照组四类人群进行分类检测。
根据本发明提供的方案,获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别。本发明集成希尔伯特黄变换和倒谱内插方法提取声学特征,利用多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,为临床诊断精神分裂症提供全新的检测方法。
Claims (7)
1.一种基于深度学习的精神分裂症语音检测方法,其特征在于,包括:
获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;
构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;
利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别;
所述集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集包括:
在所述语音向量中加入均值与方差具有相同分布的不同噪声,合成目标语音信号;
计算模态函数中各个IMF分量对应的边际谱的频带能熵比的比值,筛选出包含共振峰的IMF分量,以重构所述语音向量;
利用倒谱内插方法提取多个所述共振峰的声学特征参数集,其中,所述声学特征参数集包括各个共振峰频率、带宽、幅值对应的峰值数、均值、方差、中位数、众数、极差、偏度以及峭度;
所述多尺度多头精神分裂症语音检测模型的损失函数为:
;
其中,k为第k个词,K为词的个数,为语音向量中词的序号,/>为序列模型解码器第k个词的概率,/>为前一个词的序号,/>为上下文信息,x为上下文向量特征;
所述多尺度多头精神分裂症语音检测模型中各个卷积网络模块包括一维卷积、门控单元激活和随机失活操作;
计算所述一维卷积的具体公式为:
;
其中,s(t)为卷积运算结果,u,v为自变量为t的函数,a是累加变量;
所述门控单元激活的具体公式为:
;
其中,K为当前网络层的输入,F、G为卷积核,为激活函数,b、c为偏置参数。
2.根据权利要求1所述的基于深度学习的精神分裂症语音检测方法,其特征在于,对所述多尺度多头精神分裂症语音检测模型的优化函数进行范数优化,所述范数的具体公式为:
;
其中,…/>为向量参数。
3.根据权利要求2所述的基于深度学习的精神分裂症语音检测方法,其特征在于,所述优化函数采用RMSProp算法,根据学习率和修正矩阵偏差更新所述RMSProp算法的参数变化量,所述参数变化量更新的具体公式为:
;
其中,为参数变量,/>为学习率,/>为超参数,/>为一阶修正偏差,/>为二阶修正偏差。
4.根据权利要求3所述的基于深度学习的精神分裂症语音检测方法,其特征在于,所述一阶修正偏差的具体公式为:
;
其中,为一阶系数,s为一阶矩估计,t为时间步长;
所述二阶修正偏差的具体公式为:
;
其中,为二阶系数,/>为二阶矩估计。
5.根据权利要求1所述的基于深度学习的精神分裂症语音检测方法,其特征在于,所述方法还包括:
将所述认知测试语音样本划分为长度为3秒的片段,分别提取所述片段的基音频率、响度、频谱通量、能量以及尖锐度。
6.根据权利要求5所述的基于深度学习的精神分裂症语音检测方法,其特征在于,在所述根据所述语音向量训练多尺度多头精神分裂症语音检测模型之前,所述方法还包括:
对所述语音向量进行归一化,使用的归一化函数具体为:
;
其中,、/>分别为语音向量列/>中的最小值及最大值,/>为归一化后的各元素的值。
7.一种基于深度学习的精神分裂症语音检测系统,该系统基于如权利要求1-6任一项所述的基于深度学习的精神分裂症语音检测方法,其特征在于,包括:
语音获取模块,用于获取受试者人群的认知测试语音样本,集成希尔伯特黄变换和倒谱内插方法提取所述语音样本的声学特征参数集,其中,所述受试者人群包括精神分裂症首发、高危、超高危和正常对照组四类人群,所述声学特征参数集包括音质情感变化特征;
模型训练模块,用于构建所述声学特征参数集的语音向量,根据所述语音向量训练多尺度多头精神分裂症语音检测模型,其中,所述语音向量包括音节、音素、音位以及语素单元的隐含状态序列;
分类检测模块,用于利用所述多尺度多头精神分裂症语音检测模型对受检者的语音进行自动分类检测,输出所述受检者的人群类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311680752.2A CN117373492B (zh) | 2023-12-08 | 2023-12-08 | 一种基于深度学习的精神分裂症语音检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311680752.2A CN117373492B (zh) | 2023-12-08 | 2023-12-08 | 一种基于深度学习的精神分裂症语音检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117373492A CN117373492A (zh) | 2024-01-09 |
CN117373492B true CN117373492B (zh) | 2024-02-23 |
Family
ID=89395088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311680752.2A Active CN117373492B (zh) | 2023-12-08 | 2023-12-08 | 一种基于深度学习的精神分裂症语音检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373492B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114400025A (zh) * | 2022-01-27 | 2022-04-26 | 复旦大学 | 基于ehht和ci的精神分裂症语音自动检测方法及系统 |
CN115376533A (zh) * | 2022-08-16 | 2022-11-22 | 杭州电子科技大学 | 一种用于个性化语音生成的语音转换方法 |
CN115410157A (zh) * | 2022-09-02 | 2022-11-29 | 东华理工大学 | 一种物料输送巷道异物视觉检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2010357179A1 (en) * | 2010-07-06 | 2013-02-14 | Rmit University | Emotional and/or psychiatric state detection |
US20210233660A1 (en) * | 2018-07-13 | 2021-07-29 | Life Science Institute, Inc. | Estimateence system, estimateence program and estimateence method for psychiatric/neurological diseases |
US20210353218A1 (en) * | 2020-05-16 | 2021-11-18 | Insurance Services Office, Inc. | Machine Learning Systems and Methods for Multiscale Alzheimer's Dementia Recognition Through Spontaneous Speech |
-
2023
- 2023-12-08 CN CN202311680752.2A patent/CN117373492B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114400025A (zh) * | 2022-01-27 | 2022-04-26 | 复旦大学 | 基于ehht和ci的精神分裂症语音自动检测方法及系统 |
CN115376533A (zh) * | 2022-08-16 | 2022-11-22 | 杭州电子科技大学 | 一种用于个性化语音生成的语音转换方法 |
CN115410157A (zh) * | 2022-09-02 | 2022-11-29 | 东华理工大学 | 一种物料输送巷道异物视觉检测方法 |
Non-Patent Citations (2)
Title |
---|
Assessing Schizophrenia Patients Through Linguistic and Acoustic Features Using Deep Learning Techniques;Yan-Jia Huang 等;《IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING》;第30卷;第947-956页 * |
结合EHHT和CI的精神分裂症语音自动检测算法;田维维 等;《计算机科学》;第47卷(第6A期);第187-195页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117373492A (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657964B (zh) | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 | |
Shama et al. | Study of harmonics-to-noise ratio and critical-band energy spectrum of speech as acoustic indicators of laryngeal and voice pathology | |
Fonseca et al. | Wavelet time-frequency analysis and least squares support vector machines for the identification of voice disorders | |
Sáenz-Lechón et al. | Automatic assessment of voice quality according to the GRBAS scale | |
Fook et al. | Comparison of speech parameterization techniques for the classification of speech disfluencies | |
Deperlioglu | Heart sound classification with signal instant energy and stacked autoencoder network | |
Cheng et al. | Automated sleep apnea detection in snoring signal using long short-term memory neural networks | |
Reggiannini et al. | A flexible analysis tool for the quantitative acoustic assessment of infant cry | |
Abeyratne et al. | Mixed-phase modeling in snore sound analysis | |
Kaushik et al. | SLINet: Dysphasia detection in children using deep neural network | |
Amato et al. | Speech impairment in Parkinson’s disease: acoustic analysis of unvoiced consonants in Italian native speakers | |
Fonseca et al. | Discrete wavelet transform and support vector machine applied to pathological voice signals identification | |
Pazhanirajan et al. | EEG signal classification using linear predictive cepstral coefficient features | |
Nishikawa et al. | Machine learning model for discrimination of mild dementia patients using acoustic features | |
Fonseca et al. | Normal versus pathological voice signals | |
CN117373492B (zh) | 一种基于深度学习的精神分裂症语音检测方法及系统 | |
Zayrit et al. | Daubechies Wavelet Cepstral Coefficients for Parkinson's Disease Detection | |
Sengupta et al. | Optimization of cepstral features for robust lung sound classification | |
Coro et al. | A self-training automatic infant-cry detector | |
Chakhtouna et al. | Speaker and gender dependencies in within/cross linguistic Speech Emotion Recognition | |
Boualoulou et al. | CNN and LSTM for the classification of parkinson's disease based on the GTCC and MFCC | |
CN114400025A (zh) | 基于ehht和ci的精神分裂症语音自动检测方法及系统 | |
Vaishnavi et al. | Neonatal cry signal prediction and classification via dense convolution neural network | |
Gidaye et al. | Unified wavelet-based framework for evaluation of voice impairment | |
Fernandes et al. | Voice pathologies: The most comum features and classification tools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |