CN110600053A - 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 - Google Patents
一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 Download PDFInfo
- Publication number
- CN110600053A CN110600053A CN201910697111.5A CN201910697111A CN110600053A CN 110600053 A CN110600053 A CN 110600053A CN 201910697111 A CN201910697111 A CN 201910697111A CN 110600053 A CN110600053 A CN 110600053A
- Authority
- CN
- China
- Prior art keywords
- resnet
- dysarthria
- lstm
- voice
- mfcc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000006011 Stroke Diseases 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 28
- 206010013887 Dysarthria Diseases 0.000 title claims abstract description 23
- 206010008190 Cerebrovascular accident Diseases 0.000 claims abstract description 10
- 230000002490 cerebral effect Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000003062 neural network model Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 8
- 238000011282 treatment Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000015556 catabolic process Effects 0.000 claims description 4
- 238000006731 degradation reaction Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000013058 risk prediction model Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000036772 blood pressure Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 208000016988 Hemorrhagic Stroke Diseases 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 208000026106 cerebrovascular disease Diseases 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 208000020658 intracerebral hemorrhage Diseases 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 208000032382 Ischaemic stroke Diseases 0.000 description 1
- 206010039424 Salivary hypersecretion Diseases 0.000 description 1
- 208000020764 Sensation disease Diseases 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 201000007201 aphasia Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 208000010877 cognitive disease Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 208000035474 group of disease Diseases 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011369 optimal treatment Methods 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 208000026451 salivation Diseases 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 230000000451 tissue damage Effects 0.000 description 1
- 231100000827 tissue damage Toxicity 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法,首先通过录音设备采集语音信息,然后对语音信息进行预处理,提取语音特征参数MFCC;随后构建ResNet和LSTM神经网络模型对MFCC特征参数进行训练,提取语音信号的深度特征信息;最终将待测试的MFCC特征参数输入到训练完成的模型中,对脑卒中构音障碍患病风险进行预测。本发明具有方便快捷、节约成本、预测准确率高等优点。
Description
技术领域
本发明涉及深度学习的技术领域,尤其涉及到一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法。
背景技术
“脑卒中”(cerebral stroke)又称“中风”,是一种急性脑血管疾病,是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一组疾病。患者会出现无法正常说话,表达时含糊不清的失语症状,严重者还会不由自主的流涎。调查显示,脑卒中已经成为影响中老年人健康的最大威胁之一,脑卒中会遗留有不同程度的肢体功能障碍、感觉障碍、言语障碍、认知障碍等,也是中国成年人残疾的首要原因。经过调查显示,其中言语障碍能够到达35%以上的占比,给患者的生活和治疗带来了巨大困难。
目前,针对脑卒中的治疗手段有限,而且疗效也不太理想,所以应加强对全民普及脑卒中危险因素及先兆症状的教育,才能真正防治脑卒中。现有的脑卒中风预测系统,是利用评估软件根据采集的生理数据评估脑卒中和构音障碍等疾病风险指标,然后进行数据处理和结果预测,例如:
在外文专利RU2669895C1中,MARTSEVICH SERGEJ YUREVICH等人提出了一种检测脑血管意外患者偶发脑卒中的危险因素的方法,可用于预测小缺血性脑卒中、缺血性脑卒中、小出血性脑卒中、出血性脑卒中患者反复发生脑卒中(CS)的风险。该方法选择药物治疗后病人的门诊监测阶段,执行一个随着时间记录的疾病存在测试,并进行额外的临床诊断检查;其中包括心电图和日常霍尔特监测心电图,还需进行每日监测血压(BPM)和自我监测血压(BPSM)测试,通过检查收集各种身体素质数值相关的最重要因素组合,例如血脂血压、脑部区域图像等数据,采用聚类方法综合各项参数预测患病几率。该方法提供了一种准确的风险评估体系,需要采集大量数据完成疾病检测。
在专利文献CN108670199A中,暨南大学提出了一种构音障碍元音评估模板及评估方法,提供一种构音障碍元音评估模板,通过元音共振峰直观评估是否存在构音障碍,使构音障碍康复评估更加智能化和客观化,使康复训练更加个性化和精准化。评估方法为将需要评估的受试者,通过计算机提取出的多种元音共振峰值逐一描记在评估底板的坐标上,然后插入构音障碍元音模板,通过观察患者多种元音的共振峰坐标点是否在相应元音椭圆范围内,评估是否出现构音障碍,并判断构音障碍的元音异常类型,通过离散程度,间接推断哪些元音出现障碍程度更明显。
在专利文献CN109559761A中,提出了一种基于深度语音特征的脑卒中风险预测方法,该方法通过采集脑卒中高风险人群的一段特定的语音,然后通过语音处理软件提取语音信息中的MFCC(Mel-scaleFrequency Cepstral Coefficients)特征,将MFCC语音特征参数通过深度学习中的卷积神经网络(CNN)提取深度语音特征参数。卷积神经网络可以利用不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力,并且结合全连接层的逻辑回归算法完成病人与患者的分类。最后将用于测试的MFCC特征参数输入到训练完成的逻辑回归分类模型中,获取脑卒中风险概率。
但现有的该些技术在脑卒中风险预测过程中,需要长时间采集相关信息,必须拥有大量的病例数据,而且系统预测周期过长,不能达到高效率的标准。使用传统卷积神经网络作为脑卒中风险预测的模型,不能够保证准确率达到标准。以上问题可能会延误最佳治疗时机,风险预测存在不确定性。
发明内容
本发明的目的在于克服现有技术的不足,提供一种方便快捷、节约成本、预测准确率高的基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法。
为实现上述目的,本发明所提供的技术方案为:
一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法,首先通过录音设备采集语音信息,然后对语音信息进行预处理,提取语音特征参数MFCC;随后构建ResNet和LSTM神经网络模型对MFCC特征参数进行训练,提取语音信号的深度特征信息,构建分类器完成患者和正常人群的分类,得到风险预测模型;最终将待测试的MFCC特征参数输入到训练完成的模型中,对脑卒中构音障碍患病风险进行预测。
进一步地,所述采集语音信息具体为:
选择安静的治疗室,使用录音设备收集特定的语音信息,收集到的语音信息中包括脑卒中风患者和正常人的,保持每一类包含的人数相同,然后将语音数据按比例划分为训练集、测试集和验证集。
进一步地,所述提取语音特征参数MFCC的具体过程如下:
1)对语音信息进行预处理;
2)对各帧信号进行快速傅里叶变换得到各帧的频谱;
3)将能量谱通过一组Mel尺度的三角形滤波器组;
4)计算每个滤波器组输出的对数能量,每一帧的对数能量加上一帧的对数能量,使得每一帧基本的语音特征多一维,包括一个对数能量和剩下的倒频谱参数;每个滤波器的对数能量计算公式如下:
其中,Hm(k)为三角滤波器的频率响应定义,xa(k)为快速傅里叶变换得到的频谱,m为Mel滤波器组中滤波器的编号,M表示滤波器个数,N为分帧时候的采样点个数,即将N个采样点合成一个观测单位,称为帧;
5)将对数能量带入离散余弦变换,求出L阶的参数,公式如下:
其中,L阶指MFCC系数阶数,M表示三角滤波器个数。
进一步地,所述对语音信息进行预处理的具体步骤如下:
预加重:通过高通滤波器减少信息的流失,增加语音的高频分辨率;
分帧;将N个采样点集合成一个观测单位,称为帧;让两相邻帧之间有一段重叠区域,此重叠区域包含M个取样点,M的值为N的1/2或1/4;
加窗;将每一帧乘以汉明窗。
进一步地,所述构建ResNet和LSTM神经网络模型对MFCC特征参数进行训练的具体步骤如下:
首先通过ResNet网络对MFCC特征参数进行训练,在ResNet直接使用stride=2的卷积做下采样,并且用Global Average Pool层替换全连接层,解决深度网络退化问题;利用Resnet网络不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力,一步一步提取和分析语音信息中的特征;
经过在ResNet网络处理后,继续添加LSTM层,以将LSTM最后一个时刻的输出作为特征向量的表示,以及综合考虑每个时刻的的输出,将它们合并为一个向量,再使用全连接层与激活函数softmax输出概率分布;训练完成后继续调整参数,重复实验,最终得到分类器用于预测脑卒中风。
与现有技术相比,本方案原理及优点如下:
与专利RU2669895C1相比,本方案引入人工神经网络分类器这一模型。相比传统的聚类和医学常用统计算法,拥有不同层次卷积核的ResNet网络学习能力更强,能够发掘出语音信息的深度特征,配合LSTM网络(长短期记忆网络)在时间序列上对MFCC特征参数进一步处理,使得实验结果更加准确。另外,本方案实验数据获取方便,仅需要录制特定的语音片段就可以作为判断的依据,相比RU2669895C1文献提出的方法,不必收集大量其他数据比如血压血脂等进行综合考量,大大提高了效率,节约了成本,不耽误患者的治疗时机。
与专利CN108670199A相比,本方案引入人工神经网络分类器这一模型。相比通过元音共振峰直观评估是否存在构音障碍,神经网络可以使用不同层次的卷积核对语音特征参数进行深度语音特征提取,同时,在卷积层之后添加LSTM网络层,进一步在时间序列上对语音特征参数进行处理,生成的一维特征通过全连接层的逻辑回归算法完成风险预测,在深度学习与特征提取日益成熟的今天,本方案能够获得更高的脑卒中构音障碍预测准确率,同时结果更加具有客观性,MFCC语音特征参数包含语音信息的对数能量,通过Mel滤波器组尽量模仿人耳所能接收到的信息,相比共振峰,MFCC特征作为模型输入有着更加客观具体的优点。
与专利CN109480780A相比,本方案的模型采用更加复杂的ResNet+LSTM网络作为分类器,相比使用传统CNN模型完成脑卒中预测,ResNet残差网络深度网络的退化问题,使得网络模型更加实用,有效地避免了随着网络加深,准确率下降的问题;LSTM是一种特殊的RNN,用于处理语音信号这一种和时间序列相关的特征参数更加准确,有着更好的识别效果。因此ResNet+LSTM网络作为分类器能够进一步提高风险预测的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法的工作流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
如图1所示,本实施例所述的一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法,包括以下步骤:
S1.语音信息采集:
选择安静的治疗室,使用录音设备收集特定的语音信息,收集到的语音信息中包括脑卒中风患者和正常人的,保持每一类包含的人数相同。将语音数据按比例划分训练集、测试集用于后续构建分类器和后续训练。
S2.MFCC语音特征系数提取,主要分为以下步骤;
2.1.对语音信息进行预处理,这一步骤包含以下工作;
预加重:预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。使信号通过一个高通滤波器,目的是提升高频部分,使信号变的平坦,从而减少信息的流失,增加语音的高频分辨率。
分帧;将N个采样点集合成一个观测单位,称为帧:通常情况下每一帧涵盖的时间约为20~30ms左右,为了避免相邻两帧的变化过大,因此会让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,通常M的值约为N的1/2或1/4。
加窗;加窗这一步骤是为了减少帧起始和结束的地方信号的不连续性问题,同时加窗之后,原本没有周期性的语音信号呈现出周期函数的部分特征。完成方法是将每一帧乘以汉明窗。
2.2.快速傅里叶变换(FFT);
因为信号在时域上的变换通常很难看出信号的特性,所以通过这一过程将它转换为频域上的能量分布来观察,分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。快速傅里叶变换公式如下所示;
式中,x(n)为输入的语音信号,N表示傅里叶变换的点数,N可以取512或1024,对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱。
2.3.Mel滤波器组;
将能量谱通过一组Mel尺度的三角形滤波器组,此步骤是为了对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。这里一般有20-40个(取26个)三角形滤波器。
2.4.对数能量;
此步骤计算每个滤波器组输出的对数能量,每一帧的对数能量加上一帧的对数能量(定义:一帧内信号的平方和,再取以10为底的对数值,再乘以10)使得每一帧基本的语音特征就多了一维,包括一个对数能量和剩下的倒频谱参数。每个滤波器的对数能量计算公式如下:
其中Hm(k)为三角滤波器的频率响应定义,xa(k)为快速傅里叶变换得到的频谱,m为Mel滤波器组中滤波器的编号,M表示滤波器个数,N为分帧时候的采样点个数,即将N个采样点合成一个观测单位,称为帧;
2.5离散余弦变换(DCT)
此步骤为离散余弦变换(DCT),最终得到MFCC系数,将上述的对数能量带入离散余弦变换,求出L阶的参数,公式如下所示:
其中,L阶指MFCC系数阶数,通常取12-16,M表示三角滤波器个数。
S3.训练风险预测模型;
基于深度学习技术,训练人工神经网络来建立分类模型,利用之前划分完成的训练集中的MFCC语音特征系数作为神经网络的输入,利用验证集评估模型效果,防止出现过拟合,最终完成训练。本实施例的模型分为两个部分;
Resnet网络;
首先通过Resnet50网络对MFCC特征参数进行训练,进一步提取语音信息的深度特征,ResNet网络是参考了VGG19网络,在其基础上进行了修改,并通过短路机制加入了残差单元,主要体现在ResNet直接使用stride=2的卷积做下采样,并且用global averagepool层替换了全连接层,目的是为了解决深度网络退化问题。Resnet50网络拥有的不同层次的深度卷积核,可以利用不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力,一步一步提取和分析语音信息中的特征。
LSTM网络;
经过在ResNet50网络处理后,继续添加LSTM层,LSTM是一个序列到序列的模型,LSTM层的输出是由记忆和当前时刻的输入决定的,以将LSTM最后一个时刻的输出作为特征向量的表示,也可以综合考虑每个时刻的的输出,将它们合并为一个向量,本实施例的模型中需要被分类的MFCC特征表示为一个特征向量(dense vector),再使用全连接层(dense)与激活函数softmax输出概率分布。训练完成后继续调整参数,重复实验使得脑卒中风险预测更加准确,最终得到分类器用于预测脑卒中风。
S4.测试结果进行风险预测;
用上述方法提取测试集语音的MFCC特征参数,将其输入已经训练完成的模型中测试模型的预测能力,利用ResNet+LSTM模型提取测试集的深度语音特征,最终获得脑卒中风险概率。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (5)
1.一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法,其特征在于,首先通过录音设备采集语音信息,然后对语音信息进行预处理,提取语音特征参数MFCC;随后构建ResNet和LSTM神经网络模型对MFCC特征参数进行训练,提取语音信号的深度特征信息,构建分类器完成患者和正常人群的分类,得到风险预测模型;最终将待测试的MFCC特征参数输入到训练完成的模型中,对脑卒中构音障碍患病风险进行预测。
2.根据权利要求1所述的一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法,其特征在于,所述采集语音信息具体为:
选择安静的治疗室,使用录音设备收集特定的语音信息,收集到的语音信息中包括脑卒中风患者和正常人的,保持每一类包含的人数相同,然后将语音数据按比例划分为训练集、测试集和验证集。
3.根据权利要求1所述的一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法,其特征在于,所述提取语音特征参数MFCC的具体过程如下:
1)对语音信息进行预处理;
2)对各帧信号进行快速傅里叶变换得到各帧的频谱;
3)将能量谱通过一组Mel尺度的三角形滤波器组;
4)计算每个滤波器组输出的对数能量,每一帧的对数能量加上一帧的对数能量,使得每一帧基本的语音特征多一维,包括一个对数能量和剩下的倒频谱参数;每个滤波器的对数能量计算公式如下:
其中,Hm(k)为三角滤波器的频率响应定义,xa(k)为快速傅里叶变换得到的频谱,m为Mel滤波器组中滤波器的编号,M表示滤波器个数,N为分帧时候的采样点个数,即将N个采样点合成一个观测单位,称为帧;
5)将对数能量带入离散余弦变换,求出L阶的参数,公式如下:
其中,L阶指MFCC系数阶数,M表示三角滤波器个数。
4.根据权利要求3所述的一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法,其特征在于,所述对语音信息进行预处理的具体步骤如下:
预加重:通过高通滤波器减少信息的流失,增加语音的高频分辨率;
分帧;将N个采样点集合成一个观测单位,称为帧;让两相邻帧之间有一段重叠区域,此重叠区域包含M个取样点,M的值为N的1/2或1/4;
加窗;将每一帧乘以汉明窗。
5.根据权利要求1所述的一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法,其特征在于,所述构建ResNet和LSTM神经网络模型对MFCC特征参数进行训练的具体步骤如下:
首先通过ResNet网络对MFCC特征参数进行训练,在ResNet直接使用stride=2的卷积做下采样,并且用Global Average Pool层替换全连接层,解决深度网络退化问题;利用Resnet网络不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力,一步一步提取和分析语音信息中的特征;
经过在ResNet网络处理后,继续添加LSTM层,以将LSTM最后一个时刻的输出作为特征向量的表示,以及综合考虑每个时刻的的输出,将它们合并为一个向量,再使用全连接层与激活函数softmax输出概率分布;训练完成后继续调整参数,重复实验,最终得到分类器用于预测脑卒中风。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910697111.5A CN110600053A (zh) | 2019-07-30 | 2019-07-30 | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910697111.5A CN110600053A (zh) | 2019-07-30 | 2019-07-30 | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110600053A true CN110600053A (zh) | 2019-12-20 |
Family
ID=68853079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910697111.5A Pending CN110600053A (zh) | 2019-07-30 | 2019-07-30 | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110600053A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112150209A (zh) * | 2020-06-19 | 2020-12-29 | 南京理工大学 | 一种基于聚类中心的cnn-lstm时序预测模型的构建方法 |
CN113160967A (zh) * | 2021-03-12 | 2021-07-23 | 中国科学院计算技术研究所 | 用于识别注意力缺陷多动障碍亚型的方法及系统 |
CN113488027A (zh) * | 2021-09-08 | 2021-10-08 | 中国科学院自动化研究所 | 一种层级分类的生成音频溯源方法及存储介质、计算机设备 |
CN113744759A (zh) * | 2021-09-17 | 2021-12-03 | 广州酷狗计算机科技有限公司 | 音色模板定制方法及其装置、设备、介质、产品 |
CN113963718A (zh) * | 2021-10-26 | 2022-01-21 | 合肥工业大学 | 一种基于深度学习的语音会话分割方法 |
CN114512239A (zh) * | 2022-02-25 | 2022-05-17 | 国家康复辅具研究中心 | 基于迁移学习的脑卒中风险预测方法及系统 |
CN115089112A (zh) * | 2022-05-06 | 2022-09-23 | 清华大学 | 卒中后认知障碍风险评估模型建立方法、装置及电子设备 |
CN115998295A (zh) * | 2023-03-24 | 2023-04-25 | 广东工业大学 | 一种结合远近红外光的血脂估测方法、系统及装置 |
KR20230108842A (ko) | 2022-01-12 | 2023-07-19 | 사회복지법인 삼성생명공익재단 | 딥러닝 모델을 이용하여 음성으로 구음 장애를 분류하는 방법 및 분석장치 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
CN108597501A (zh) * | 2018-04-26 | 2018-09-28 | 深圳市唯特视科技有限公司 | 一种基于残差网络和双向门控循环单元的视听语音模型 |
CN109559761A (zh) * | 2018-12-21 | 2019-04-02 | 广东工业大学 | 一种基于深度语音特征的脑卒中风险预测方法 |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN109844868A (zh) * | 2016-08-18 | 2019-06-04 | 谷歌有限责任公司 | 使用机器学习模型处理眼底图像 |
CN109859772A (zh) * | 2019-03-22 | 2019-06-07 | 平安科技(深圳)有限公司 | 情绪识别方法、装置及计算机可读存储介质 |
-
2019
- 2019-07-30 CN CN201910697111.5A patent/CN110600053A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109844868A (zh) * | 2016-08-18 | 2019-06-04 | 谷歌有限责任公司 | 使用机器学习模型处理眼底图像 |
CN107180628A (zh) * | 2017-05-19 | 2017-09-19 | 百度在线网络技术(北京)有限公司 | 建立声学特征提取模型的方法、提取声学特征的方法、装置 |
CN108597501A (zh) * | 2018-04-26 | 2018-09-28 | 深圳市唯特视科技有限公司 | 一种基于残差网络和双向门控循环单元的视听语音模型 |
CN109559761A (zh) * | 2018-12-21 | 2019-04-02 | 广东工业大学 | 一种基于深度语音特征的脑卒中风险预测方法 |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN109859772A (zh) * | 2019-03-22 | 2019-06-07 | 平安科技(深圳)有限公司 | 情绪识别方法、装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
LU HUANG等: ""An improved residual LSTM architecture for acoustic modeling"", 《2017 2ND INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATION SYSTEMS (ICCCS)》 * |
YU ZHANG等: ""VERY DEEP CONVOLUTIONAL NETWORKS FOR END-TO-END SPEECH RECOGNITION"", 《ARXIV:1610.03022V1 [CS.CL]》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112150209A (zh) * | 2020-06-19 | 2020-12-29 | 南京理工大学 | 一种基于聚类中心的cnn-lstm时序预测模型的构建方法 |
CN112150209B (zh) * | 2020-06-19 | 2022-10-18 | 南京理工大学 | 一种基于聚类中心的cnn-lstm时序预测模型的构建方法 |
CN113160967A (zh) * | 2021-03-12 | 2021-07-23 | 中国科学院计算技术研究所 | 用于识别注意力缺陷多动障碍亚型的方法及系统 |
CN113488027A (zh) * | 2021-09-08 | 2021-10-08 | 中国科学院自动化研究所 | 一种层级分类的生成音频溯源方法及存储介质、计算机设备 |
CN113744759A (zh) * | 2021-09-17 | 2021-12-03 | 广州酷狗计算机科技有限公司 | 音色模板定制方法及其装置、设备、介质、产品 |
CN113744759B (zh) * | 2021-09-17 | 2023-09-22 | 广州酷狗计算机科技有限公司 | 音色模板定制方法及其装置、设备、介质、产品 |
CN113963718A (zh) * | 2021-10-26 | 2022-01-21 | 合肥工业大学 | 一种基于深度学习的语音会话分割方法 |
CN113963718B (zh) * | 2021-10-26 | 2024-04-16 | 合肥工业大学 | 一种基于深度学习的语音会话分割方法 |
KR20230108842A (ko) | 2022-01-12 | 2023-07-19 | 사회복지법인 삼성생명공익재단 | 딥러닝 모델을 이용하여 음성으로 구음 장애를 분류하는 방법 및 분석장치 |
KR20240051090A (ko) | 2022-01-12 | 2024-04-19 | 사회복지법인 삼성생명공익재단 | 딥러닝 모델을 이용하여 음성으로 구음 장애를 분류하는 방법 및 분석장치 |
CN114512239A (zh) * | 2022-02-25 | 2022-05-17 | 国家康复辅具研究中心 | 基于迁移学习的脑卒中风险预测方法及系统 |
CN115089112A (zh) * | 2022-05-06 | 2022-09-23 | 清华大学 | 卒中后认知障碍风险评估模型建立方法、装置及电子设备 |
CN115089112B (zh) * | 2022-05-06 | 2024-04-30 | 清华大学 | 卒中后认知障碍风险评估模型建立方法、装置及电子设备 |
CN115998295A (zh) * | 2023-03-24 | 2023-04-25 | 广东工业大学 | 一种结合远近红外光的血脂估测方法、系统及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600053A (zh) | 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法 | |
CN109044396B (zh) | 一种基于双向长短时记忆神经网络的智能心音识别方法 | |
CN111685774B (zh) | 基于概率集成回归模型的osahs诊断方法 | |
CN110415824B (zh) | 脑卒中风的患病风险评估装置和设备 | |
Zakaria et al. | Three resnet deep learning architectures applied in pulmonary pathologies classification | |
CN110942784A (zh) | 基于支持向量机的鼾声分类系统 | |
CN114305484A (zh) | 基于深度学习的心脏病心音智能分类方法、装置和介质 | |
CN115346561B (zh) | 基于语音特征的抑郁情绪评估预测方法及系统 | |
CN113674767A (zh) | 一种基于多模态融合的抑郁状态识别方法 | |
Banerjee et al. | Multi-class heart sounds classification using 2D-convolutional neural network | |
Maity et al. | Transfer learning based heart valve disease classification from Phonocardiogram signal | |
Zeng et al. | Automatic detection of heart valve disorders using Teager–Kaiser energy operator, rational-dilation wavelet transform and convolutional neural networks with PCG signals | |
CN113974607B (zh) | 一种基于脉冲神经网络的睡眠鼾声检测系统 | |
CN115089139A (zh) | 结合生物特征识别的个性化生理参数测量方法 | |
CN111370120A (zh) | 一种基于心音信号的心脏舒张功能障碍的检测方法 | |
CN113440107A (zh) | 基于语音信号分析的阿尔茨海默症状诊断设备 | |
CN116570284A (zh) | 一种基于语音表征的抑郁症识别方法、系统 | |
Sengupta et al. | Optimization of cepstral features for robust lung sound classification | |
Khanmohammadi et al. | Fetal gender identification using machine and deep learning algorithms on phonocardiogram signals | |
Nikolaev et al. | Structural architectural solutions for an intelligence system of cardiological screening of diabetes patients | |
Dhavala et al. | An MFCC features-driven subject-independent convolution neural network for detection of chronic and non-chronic pulmonary diseases | |
Shi et al. | Lung Sound Recognition Method Based on Multi-Resolution Interleaved Net and Time-Frequency Feature Enhancement | |
CN114496221B (zh) | 基于闭环语音链和深度学习的抑郁症自动诊断系统 | |
Li et al. | Enhancing ADHD Detection Using Diva Interview-Based Audio Signals and A Two-Stream Network | |
Chen et al. | A Novel Deep Learning Neural Network System for Imbalanced Heart Sounds Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191220 |
|
RJ01 | Rejection of invention patent application after publication |