CN109559761A - 一种基于深度语音特征的脑卒中风险预测方法 - Google Patents
一种基于深度语音特征的脑卒中风险预测方法 Download PDFInfo
- Publication number
- CN109559761A CN109559761A CN201811571779.7A CN201811571779A CN109559761A CN 109559761 A CN109559761 A CN 109559761A CN 201811571779 A CN201811571779 A CN 201811571779A CN 109559761 A CN109559761 A CN 109559761A
- Authority
- CN
- China
- Prior art keywords
- depth
- risk
- characteristic parameter
- cerebral apoplexy
- phonetic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000006011 Stroke Diseases 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 28
- 206010008190 Cerebrovascular accident Diseases 0.000 claims abstract description 52
- 230000002490 cerebral effect Effects 0.000 claims abstract description 46
- 238000013135 deep learning Methods 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 239000008280 blood Substances 0.000 description 7
- 210000004369 blood Anatomy 0.000 description 7
- 208000026106 cerebrovascular disease Diseases 0.000 description 7
- 239000011248 coating agent Substances 0.000 description 6
- 238000000576 coating method Methods 0.000 description 6
- 230000036541 health Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 206010008111 Cerebral haemorrhage Diseases 0.000 description 3
- 230000001154 acute effect Effects 0.000 description 3
- 206010008118 cerebral infarction Diseases 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 2
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 239000010839 body fluid Substances 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 235000012000 cholesterol Nutrition 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 230000000004 hemodynamic effect Effects 0.000 description 2
- 230000009545 invasion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000004243 sweat Anatomy 0.000 description 2
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 101800004637 Communis Proteins 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 230000008455 cerebrovascular function Effects 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 230000002008 hemorrhagic effect Effects 0.000 description 1
- 230000000302 ischemic effect Effects 0.000 description 1
- 231100000518 lethal Toxicity 0.000 description 1
- 230000001665 lethal effect Effects 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000003716 rejuvenation Effects 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度语音特征的脑卒中风险预测方法,将语音处理与深学习技术应用到脑卒中检测过程中,采集人们的特定语音片段进行特定语音预处理后,用深度学习技术提取语音片段的深度特征信息,挖掘出高风险人群与普通人群语音的深层区别,从而构建出语音识别模型,对脑卒中患病风险进行评估与预测。本发明具有脑卒中预测准确率高、预测脑卒中的信息容易获取、预测代价非常小、方便快捷等优点。
Description
技术领域
本发明涉及信号处理、语音识别、人工智能的技术领域,尤其涉及到一种基于深度语音特征的脑卒中风险预测方法。
背景技术
“脑卒中”(cerebral stroke)又称“中风”、“脑血管意外”(cerebralvascularaccident,CVA),是一种急性脑血管疾病,包括缺血性脑卒中和出血性脑卒中,是我国成年人群致死、致残的首位病因,具有发病率高、致残率高、死亡率高和复发率高的特点。《2018中国卫生健康统计提要》数据显示,2017年我国居民因脑血管病死亡的比例在农村人群为23.18%、城市人群为20.52%,这意味着每5位死亡者中就至少有1人死于脑卒中,且脑卒中后存活者中70%留有不同程度的残疾,给家庭及社会造成沉重的负担。
过去30年里,我国脑卒中发病率持续增长,随着社会老龄化和城市化进程的不断加快,居民不健康生活方式流行,脑卒中危险因素普遍暴露,脑卒中发病率急剧攀升,我国脑卒中的疾病负担有爆发式增长的态势,并呈现出低收入群体中快速增长、性别和地域差异明显以及年轻化趋势。根据《中国卫生和计划生育统计年鉴》和《2018中国卫生健康统计提要》,2017年,我国城市居民脑卒中死亡率为126.48/10万,农村脑卒中死亡率为157.00/10万,据此测算,全国每年死于脑卒中的患者达196万。
由于经济社会的发展、人口老龄化程度的加重、疾病模式的转变,以及医疗新技术的广泛应用,导致患者对高级别医疗机构需求的增加,这些发展变化情况促使了我国脑出血与脑梗死的出院人数及人均医药费用均呈增长态势,尤其是脑梗死住院患者人数呈爆发式增长。到2016年,我国脑出血、脑梗死患者的出院总人数约360万余人,相比2010年分别增长48.6%、147.0%;住院人均费用分别为17787.0、9387.0元,相比2010年分别增长61.4%、31.4%。
目前,针对脑卒中的治疗手段有限,而且疗效也不太理想,预防是最好的治疗措施。因此,脑卒中发病风险的有效预测能及早干预以防止病情发生或减缓发病,这能减少人们生活负担和由此带来的社会压力。
上海长江科技发展有限公司陈继智等人在“基于人工智能的脑卒中筛查方法及系统”的专利(申请号:CN201810136208.4)提及,利用胆固醇高低,抽烟与否,高血压与否,冠心病与否,心肌梗死等指标进行早期预测;马立伟等人申请的“智能脑卒中风险监控系统”专利(申请号:CN201710139971.8)是用年龄,性别,血压,身高,体重,体质指数,血常规和血生化数据指标进行早期预测。昂朗生物科技(上海)有限公司殷卫海,吴丹红等人在“一种基于体液中酪氨酸水平作为检测脑卒中发病风险以及脑卒中发病的生物标志物的检测方法及其应用”的专利(申请号:CN201610411494.1)通过检测脑卒中发病或者高危人群的体液外泌体,如尿液,汗液,唾液等中酪氨酸的含量,从而预测和检测脑卒中的发病。上海神州高特医疗设备有限公司郭杨经申请的“脑卒中早期预警与脑血管健康管理系统”专利(申请号:CN2017100117 74.8)采用超声多普勒探头和压力传感器无创伤检测颈总动脉处的血流速度和压力脉搏波波形,通过血液动力学的分析模型,计算得到反映脑血管功能状态的血液动力学指标来预测脑卒中的发病风险。这四个专利涉及的脑卒中预测指标信息大都都需要昂贵的医疗设备来获得,需要耗费相当多的人力物力财力,同时有些指标信息需要相当长的时间才能采集出来,很有可能在等待结果信息的时候脑卒中就已经发生了。
重庆楠桦生物科技有限公司李丽申请的“驾驶人急性脑卒中风险预测方法”专利(申请号:CN201711500331.1)通过将将使人的瞳孔变化信息、驾驶人手掌汗液变化信息和驾驶人呼吸状态变化信息综合处理,向驾驶人提供是否具有急性脑卒中的风险。这个专利涉及的方法很容易受天气状况以及汽车内部环境的影响,得出的结果会很不稳定,非常容易出现误判的情况。
综上所述,现有技术在信息采集过程中,不仅耗费大量人力、物力和财力,而且会耽误很多的时间;由于很多时候脑卒中发病前兆时间比较短,同时这些指标信息的采集需要相当长的时间,很有可能在等待结果信息的时候脑卒中就已经发生了。同时现有技术的脑卒中预测准确率并不是很理想。为解决这一技术问题,本发明将语音处理与深学习技术应用到脑卒中检测过程中,采集人们的特定语音片段进行特定语音预处理后,用深度学习技术提取语音片段的深度特征信息,挖掘出高风险人群与普通人群语音的深层区别,从而构建出语音识别模型,方便快捷地对脑卒中患病风险进行评估与预测。
发明内容
本发明的目的在于克服现有技术的不足,提出一种基于深度语音特征的脑卒中风险预测方法。由于脑卒中发生前,会伴有暂时性吐字不清或讲话不灵的症状,因此可以通过获取脑卒中高风险人群的一段特定的语音,然后通过语音处理技术提取MFCC(Mel-scaleFrequency Cepstral Coefficients)语音信息作为深度学习模型的输入;通过深度卷积神经网络(CNN)对MFCC特征进行深度语音特征提取,结合逻辑回归算法构建语音识别模型进行脑卒中患病风险检测。
具体的技术方案包括以下步骤:
S1:使用录音设备录取一段用户的语音,获取用户的语音数据;
S2:提取语音特征参数MFCC;
S3:提取深度语音特征;
S4:将深度语音特征参数输入到机器学习中的逻辑回归分类模型中,获取脑卒中预测风险;
S5:通过脑卒中预测风险概率划分脑卒中风险等级,用报告的形式通知用户在相应风险等级下采取相应的应对措施。:
进一步地,所述MFCC为在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,其与实际频率的关系用下式表示:
进一步地,所述步骤S2提取语音特征参数MFCC的具体步骤如下:
S2-1:预加重处理:
将语音信号通过一个高通滤波器:H(z)=1-u/z,式中的值介于0.9-1.0之间;
S2-2:分帧:
将N个采样点集合成一个观测单位,称为帧;两相邻帧之间存在一段重叠区域,此重叠区域包含M个取样点,M的值为N的1/2或1/3;
S2-3:加窗:
将每一帧乘以汉明窗,以增加帧左端和右端的连续性;
假设分帧后的信号为S(n),n=0,1,…,N-1,N为帧的大小,那么乘上汉明窗后H(n)=S(n)*W(n),W(n)形式如下:
W(n,a)=(1-a)-a*cos[2πn/N-1],0<=n<=N-1;
不同的参数a值产生不同的汉明窗;
S2-4:快速傅里叶变换:
对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;
S2-5:三角带通滤波器:
将能量谱通过一组Mel尺度的三角形滤波器组;三角形滤波器组有M个滤波器,M取22-26;
S2-6:对数能量:
S2-7:离散余弦变换:
将对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数;L阶指MFCC系数阶数,取12-16;M为三角滤波器个数。
进一步地,所述步骤S3提取深度语音特征具体为:将MFCC语音特征参数通过深度学习中的卷积神经网络提取深度语音特征参数;卷积神经网络利用不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力。
进一步地,所述步骤S4脑卒中预测的具体步骤如下:
S4-1:将深度语音特征参数的异常值和缺失值用中值代替,同时将深度语音特征参数按比例划分训练集和测试集;
S4-2:将深度语音特征参数通过主成分分析、LASSO回归进行特征降维;
S4-3:使用训练集特征参数建立逻辑回归模型;
S4-4:把测试集特征参数输入逻辑回归模型中测试模型的预测能力;
S4-5:把深度语音特征参数输入到逻辑回归模型中,获得脑卒中风险概率。
其中,Mel(f)表示Mel频率,f表示实际频率。
与现有技术相比,本方案原理和优点如下:
1、引入深度学习中的卷积神经网络和传统机器学习中的逻辑回归。相比于MFCC语音特征参数,卷积神经网络可以使用不同的卷积核对MFCC语音信息进行深度语音特征提取,这样的深度语音特征能够更加全面地表征语音地特性。同时,将深度特征输入到逻辑回归模型能够快速地获得更高的脑卒中预测准确率。
2、本方案通过提取语音中的特征参数作为脑卒中预测信息,而传统的脑卒中预测信息主要采用血压、血脂、血糖、肥胖程度,胆固醇,高血压冠心病以及其他检查报告等信息,与传统的脑卒中预测信息相比,语音信息更加容易获取,只需使用录音设备(手机,个人电脑,平板电脑等)即可快速获取,同时,语音信息的获取代价非常小,可以节省许多资源,因为传统的脑卒中预测信息大都需要使用昂贵的医疗设备获取。
3、与传统的脑卒中预测方式相比,本方案提供的方法更简单有效快捷,可有力推动脑卒中自查和普查,以更快发现潜在脑卒中患者,更早提醒和更早更有效地治疗,因为潜在脑卒中患者完全可以随时随地录取一段特定语音马上获得脑卒中风险概率。
附图说明
图1为本发明一种基于深度语音特征的脑卒中风险预测方法的工作流程图;
图2为本发明一种基于深度语音特征的脑卒中风险预测方法中提取语音特征参数MFCC的工作流程图;
图3为本发明一种基于深度语音特征的脑卒中风险预测方法中脑卒中预测的工作流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1所示,本实施例所述的一种基于深度语音特征的脑卒中风险预测方法,包括以下步骤:
S1:使用录音设备(智能手机、平板电脑等)录取一段用户的语音,获取用户的语音数据。
S2:提取语音特征参数MFCC:
获取用户的语音数据后,从语音数据中提取语音特征参数MFCC,MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,更符合人耳的听觉特征,其与实际频率的关系可用下式近似表示:
Mel(f)=2595*lg(1+f/700)
其中,Mel(f)表示Mel频率,f表示实际频率。
如图2所示,提取语音特征参数MFCC的具体步骤如下:
S2-1:预加重处理:
预加重处理其实是将语音信号通过一个高通滤波器:H(z)=1-u/z,式中的值取0.97。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。
S2-2:分帧:
先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,涵盖的时间约为20~30ms左右。为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含M个取样点,M的值为N的1/2或1/3。
S2-3:加窗:
将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n=0,1,…,N-1,N为帧的大小,那么乘上汉明窗后H(n)=S(n)*W(n),W(n)形式如下:
W(n,a)=(1-a)-a*cos[2πn/N-1],0<=n<=N-1
不同的a值会产生不同的汉明窗,一般情况下a取0.46。
S2-4:快速傅里叶变换:
由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。
S2-5:三角带通滤波器步骤:
将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,M取22-26。
S2-6:对数能量:
S2-7:离散余弦变换(DCT):
将上述的对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数,取12-16。M为三角滤波器个数。
S3:提取深度语音特征:
将MFCC语音特征参数通过深度学习中的卷积神经网络(CNN)提取深度语音特征参数。卷积神经网络可以利用不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力,使得脑卒中风险预测更加准确。
深度语音特征提取的具体步骤包括:
(1)输入层,将提取的MFCC特征参数从此层输入;
(2)一维卷积层+ReLU激活层;
(3)一维卷积层+ReLU激活层+dropout层+最大池化层;
(4)一维卷积层+ReLU激活层+一维卷积层+ReLU激活层;
(5)一维卷积层+ReLU激活层+dropout层;
(6)一维卷积层+ReLU激活层+flatten层;
(7)输出层,获得深度语音特征参数。
S4:将深度语音特征参数输入到机器学习中的逻辑回归分类模型中,获取脑卒中预测风险;如图3所示,具体步骤如下:
S4-1:将深度语音特征参数的异常值和缺失值用中值代替,同时将深度语音特征参数按比例划分训练集和测试集;
S4-2:将深度语音特征参数通过主成分分析、LASSO(Least absolute shrinkageand selection operator)回归进行特征降维;
S4-3:使用训练集特征参数建立逻辑回归模型;
S4-4:把测试集特征参数输入逻辑回归模型中测试模型的预测能力;
S4-5:把深度语音特征参数输入到逻辑回归模型中,获得脑卒中风险概率。
S5:通过脑卒中预测风险概率划分脑卒中风险等级,用报告的形式通知用户在相应风险等级下采取相应的应对措施。
本实施例将语音处理与深学习技术应用到脑卒中检测过程中,采集人们的特定语音片段进行特定语音预处理后,用深度学习技术提取语音片段的深度特征信息,挖掘出高风险人群与普通人群语音的深层区别,从而构建出语音识别模型,对脑卒中患病风险进行评估与预测。本实施例具有脑卒中预测准确率高、预测脑卒中的信息容易获取、预测代价非常小、方便快捷等优点。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (5)
1.一种基于深度语音特征的脑卒中风险预测方法,其特征在于,包括以下步骤:
S1:使用录音设备录取一段用户的语音,获取用户的语音数据;
S2:提取语音特征参数MFCC;
S3:提取深度语音特征;
S4:将深度语音特征参数输入到机器学习中的逻辑回归分类模型中,获取脑卒中预测风险;
S5:通过脑卒中预测风险概率划分脑卒中风险等级,用报告的形式通知用户在相应风险等级下采取相应的应对措施。
2.根据权利要求1所述的一种基于深度语音特征的脑卒中风险预测方法,其特征在于,所述MFCC为在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,其与实际频率的关系用下式表示:
Mel(f)=2595*lg(1+f/700)
其中,Mel(f)表示Mel频率,f表示实际频率。
3.根据权利要求1所述的一种基于深度语音特征的脑卒中风险预测方法,其特征在于,所述步骤S2提取语音特征参数MFCC的具体步骤如下:
S2-1:预加重处理:
将语音信号通过一个高通滤波器:H(z)=1-u/z,式中的值介于0.9-1.0之间;
S2-2:分帧:
将N个采样点集合成一个观测单位,称为帧;两相邻帧之间存在一段重叠区域,此重叠区域包含M个取样点,M的值为N的1/2或1/3;
S2-3:加窗:
将每一帧乘以汉明窗,以增加帧左端和右端的连续性;
假设分帧后的信号为S(n),n=0,1,…,N-1,N为帧的大小,那么乘上汉明窗后H(n)=S(n)*W(n),W(n)形式如下:
W(n,a)=(1-a)-a*cos[2πn/N-1],0<=n<=N-1;
不同的参数a值产生不同的汉明窗;
S2-4:快速傅里叶变换:
对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;
S2-5:三角带通滤波器:
将能量谱通过一组Mel尺度的三角形滤波器组;三角形滤波器组有M个滤波器,M取22-26;
S2-6:对数能量:
S2-7:离散余弦变换:
将对数能量带入离散余弦变换,求出L阶的Mel-scale Cepstrum参数;L阶指MFCC系数阶数,取12-16;M为三角滤波器个数。
4.根据权利要求1所述的一种基于深度语音特征的脑卒中风险预测方法,其特征在于,所述步骤S3提取深度语音特征具体为:将MFCC语音特征参数通过深度学习中的卷积神经网络提取深度语音特征参数;卷积神经网络利用不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力。
5.根据权利要求1所述的一种基于深度语音特征的脑卒中风险预测方法,其特征在于,所述步骤S4脑卒中预测的具体步骤如下:
S4-1:将深度语音特征参数的异常值和缺失值用中值代替,同时将深度语音特征参数按比例划分训练集和测试集;
S4-2:将深度语音特征参数通过主成分分析、LASSO回归进行特征降维;
S4-3:使用训练集特征参数建立逻辑回归模型;
S4-4:把测试集特征参数输入逻辑回归模型中测试模型的预测能力;
S4-5:把深度语音特征参数输入到逻辑回归模型中,获得脑卒中风险概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811571779.7A CN109559761A (zh) | 2018-12-21 | 2018-12-21 | 一种基于深度语音特征的脑卒中风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811571779.7A CN109559761A (zh) | 2018-12-21 | 2018-12-21 | 一种基于深度语音特征的脑卒中风险预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109559761A true CN109559761A (zh) | 2019-04-02 |
Family
ID=65870613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811571779.7A Pending CN109559761A (zh) | 2018-12-21 | 2018-12-21 | 一种基于深度语音特征的脑卒中风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109559761A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415824A (zh) * | 2019-07-30 | 2019-11-05 | 广东工业大学 | 脑卒中风的患病风险评估装置和设备 |
CN110600053A (zh) * | 2019-07-30 | 2019-12-20 | 广东工业大学 | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 |
CN110751553A (zh) * | 2019-10-24 | 2020-02-04 | 深圳前海微众银行股份有限公司 | 潜在风险对象的识别方法、装置、终端设备及存储介质 |
CN111028863A (zh) * | 2019-12-20 | 2020-04-17 | 广州科慧健远医疗科技有限公司 | 一种基于神经网络诊断卒中后构音障碍声调错误的方法及其诊断装置 |
CN112101413A (zh) * | 2020-08-12 | 2020-12-18 | 海南大学 | 面向脑卒中风险预测的智能系统 |
CN113180647A (zh) * | 2021-06-07 | 2021-07-30 | 郑州大学 | 一种ai肢体功能康复预干涉的行为采集系统及方法 |
CN118315069A (zh) * | 2024-06-05 | 2024-07-09 | 吉林大学 | 住院患者脑卒中高危人群预警系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895087A (zh) * | 2016-03-24 | 2016-08-24 | 海信集团有限公司 | 一种语音识别方法及装置 |
CN106504064A (zh) * | 2016-10-25 | 2017-03-15 | 清华大学 | 基于深度卷积神经网络的服装分类与搭配推荐方法及系统 |
CN106653020A (zh) * | 2016-12-13 | 2017-05-10 | 中山大学 | 一种基于深度学习的智慧视听设备多业务控制方法及系统 |
CN106941005A (zh) * | 2017-02-24 | 2017-07-11 | 华南理工大学 | 一种基于语音声学特征的声带异常检测方法 |
CN107516110A (zh) * | 2017-08-22 | 2017-12-26 | 华南理工大学 | 一种基于集成卷积编码的医疗问答语义聚类方法 |
KR101894722B1 (ko) * | 2018-03-12 | 2018-10-04 | 미디어젠(주) | 언어 장애 발생 진단을 이용한 건강 이상 예측시스템 및 예측방법 |
CN108920639A (zh) * | 2018-07-02 | 2018-11-30 | 北京百度网讯科技有限公司 | 基于语音交互的上下文获取方法及设备 |
-
2018
- 2018-12-21 CN CN201811571779.7A patent/CN109559761A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895087A (zh) * | 2016-03-24 | 2016-08-24 | 海信集团有限公司 | 一种语音识别方法及装置 |
CN106504064A (zh) * | 2016-10-25 | 2017-03-15 | 清华大学 | 基于深度卷积神经网络的服装分类与搭配推荐方法及系统 |
CN106653020A (zh) * | 2016-12-13 | 2017-05-10 | 中山大学 | 一种基于深度学习的智慧视听设备多业务控制方法及系统 |
CN106941005A (zh) * | 2017-02-24 | 2017-07-11 | 华南理工大学 | 一种基于语音声学特征的声带异常检测方法 |
CN107516110A (zh) * | 2017-08-22 | 2017-12-26 | 华南理工大学 | 一种基于集成卷积编码的医疗问答语义聚类方法 |
KR101894722B1 (ko) * | 2018-03-12 | 2018-10-04 | 미디어젠(주) | 언어 장애 발생 진단을 이용한 건강 이상 예측시스템 및 예측방법 |
CN108920639A (zh) * | 2018-07-02 | 2018-11-30 | 北京百度网讯科技有限公司 | 基于语音交互的上下文获取方法及设备 |
Non-Patent Citations (4)
Title |
---|
朱宇等: "嵌入式语音识别系统特征参数提取研究", 《计算机技术与发展》 * |
朱宇等: "嵌入式语音识别系统特征参数提取研究", 《计算机技术与发展》, vol. 21, no. 07, 10 July 2011 (2011-07-10), pages 246 - 249 * |
谢文宾: "基于语音特征学习的说话人确认与帕金森诊断", 《中国优秀硕士学位论文全文数据库(电子期刊) 医药卫生科技辑》 * |
谢文宾: "基于语音特征学习的说话人确认与帕金森诊断", 《中国优秀硕士学位论文全文数据库(电子期刊) 医药卫生科技辑》, 15 March 2017 (2017-03-15), pages 070 - 97 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415824A (zh) * | 2019-07-30 | 2019-11-05 | 广东工业大学 | 脑卒中风的患病风险评估装置和设备 |
CN110600053A (zh) * | 2019-07-30 | 2019-12-20 | 广东工业大学 | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 |
CN110751553A (zh) * | 2019-10-24 | 2020-02-04 | 深圳前海微众银行股份有限公司 | 潜在风险对象的识别方法、装置、终端设备及存储介质 |
CN111028863A (zh) * | 2019-12-20 | 2020-04-17 | 广州科慧健远医疗科技有限公司 | 一种基于神经网络诊断卒中后构音障碍声调错误的方法及其诊断装置 |
CN112101413A (zh) * | 2020-08-12 | 2020-12-18 | 海南大学 | 面向脑卒中风险预测的智能系统 |
CN113180647A (zh) * | 2021-06-07 | 2021-07-30 | 郑州大学 | 一种ai肢体功能康复预干涉的行为采集系统及方法 |
CN113180647B (zh) * | 2021-06-07 | 2024-02-02 | 郑州大学 | 一种ai肢体功能康复预干涉的行为采集系统及方法 |
CN118315069A (zh) * | 2024-06-05 | 2024-07-09 | 吉林大学 | 住院患者脑卒中高危人群预警系统及方法 |
CN118315069B (zh) * | 2024-06-05 | 2024-08-23 | 吉林大学 | 住院患者脑卒中高危人群预警系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109559761A (zh) | 一种基于深度语音特征的脑卒中风险预测方法 | |
Kui et al. | Heart sound classification based on log Mel-frequency spectral coefficients features and convolutional neural networks | |
CN111461176B (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
CN110600053A (zh) | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 | |
CN111048071B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
CN109044396A (zh) | 一种基于双向长短时记忆神经网络的智能心音识别方法 | |
Jabbari et al. | Modeling of heart systolic murmurs based on multivariate matching pursuit for diagnosis of valvular disorders | |
CN109448758A (zh) | 语音韵律异常评估方法、装置、计算机设备和存储介质 | |
Dufour et al. | First automatic passive acoustic tool for monitoring two species of procellarides (Pterodroma baraui and Puffinus bailloni) on Reunion Island, Indian Ocean | |
CN110070888A (zh) | 一种基于卷积神经网络的帕金森语音识别方法 | |
Liu et al. | Bowel sound detection based on MFCC feature and LSTM neural network | |
Cheng et al. | Design and application of a laconic heart sound neural network | |
CN104473660A (zh) | 一种基于子带能量包络自相关特征的异常心音识别方法 | |
Roy et al. | RDLINet: A novel lightweight inception network for respiratory disease classification using lung sounds | |
CN110415824B (zh) | 脑卒中风的患病风险评估装置和设备 | |
Huang et al. | Recognition of parkinson's disease based on residual neural network and voice diagnosis | |
Xie et al. | A voice disease detection method based on MFCCs and shallow CNN | |
Majda-Zdancewicz et al. | Deep learning vs feature engineering in the assessment of voice signals for diagnosis in Parkinson’s disease | |
CN115486865A (zh) | 一种基于卷积循环神经网络的心音分类方法 | |
CN115089139A (zh) | 结合生物特征识别的个性化生理参数测量方法 | |
CN113974607B (zh) | 一种基于脉冲神经网络的睡眠鼾声检测系统 | |
Morshed et al. | Automated heart valve disorder detection based on PDF modeling of formant variation pattern in PCG signal | |
Selvakumari et al. | A voice activity detector using SVM and Naïve Bayes classification algorithm | |
Tiwari et al. | Heartbeat sound classification using Mel-frequency cepstral coefficients and deep convolutional neural network | |
CN116975693A (zh) | 一种基于深度学习和异质集成策略的心音检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190402 |