CN110600053A

CN110600053A - 一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法

Info

Publication number: CN110600053A
Application number: CN201910697111.5A
Authority: CN
Inventors: 叶武剑; 李琪; 刘怡俊; 牟志伟; 李学易
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-12-20

Abstract

本发明公开了一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法，首先通过录音设备采集语音信息，然后对语音信息进行预处理，提取语音特征参数MFCC；随后构建ResNet和LSTM神经网络模型对MFCC特征参数进行训练，提取语音信号的深度特征信息；最终将待测试的MFCC特征参数输入到训练完成的模型中，对脑卒中构音障碍患病风险进行预测。本发明具有方便快捷、节约成本、预测准确率高等优点。

Description

一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法

技术领域

本发明涉及深度学习的技术领域，尤其涉及到一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法。

背景技术

“脑卒中”(cerebral stroke)又称“中风”，是一种急性脑血管疾病，是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一组疾病。患者会出现无法正常说话，表达时含糊不清的失语症状，严重者还会不由自主的流涎。调查显示，脑卒中已经成为影响中老年人健康的最大威胁之一，脑卒中会遗留有不同程度的肢体功能障碍、感觉障碍、言语障碍、认知障碍等，也是中国成年人残疾的首要原因。经过调查显示，其中言语障碍能够到达35％以上的占比，给患者的生活和治疗带来了巨大困难。

目前，针对脑卒中的治疗手段有限，而且疗效也不太理想，所以应加强对全民普及脑卒中危险因素及先兆症状的教育，才能真正防治脑卒中。现有的脑卒中风预测系统，是利用评估软件根据采集的生理数据评估脑卒中和构音障碍等疾病风险指标，然后进行数据处理和结果预测，例如：

在外文专利RU2669895C1中，MARTSEVICH SERGEJ YUREVICH等人提出了一种检测脑血管意外患者偶发脑卒中的危险因素的方法，可用于预测小缺血性脑卒中、缺血性脑卒中、小出血性脑卒中、出血性脑卒中患者反复发生脑卒中(CS)的风险。该方法选择药物治疗后病人的门诊监测阶段,执行一个随着时间记录的疾病存在测试,并进行额外的临床诊断检查；其中包括心电图和日常霍尔特监测心电图,还需进行每日监测血压(BPM)和自我监测血压(BPSM)测试，通过检查收集各种身体素质数值相关的最重要因素组合，例如血脂血压、脑部区域图像等数据，采用聚类方法综合各项参数预测患病几率。该方法提供了一种准确的风险评估体系，需要采集大量数据完成疾病检测。

在专利文献CN108670199A中，暨南大学提出了一种构音障碍元音评估模板及评估方法，提供一种构音障碍元音评估模板，通过元音共振峰直观评估是否存在构音障碍，使构音障碍康复评估更加智能化和客观化，使康复训练更加个性化和精准化。评估方法为将需要评估的受试者，通过计算机提取出的多种元音共振峰值逐一描记在评估底板的坐标上，然后插入构音障碍元音模板，通过观察患者多种元音的共振峰坐标点是否在相应元音椭圆范围内，评估是否出现构音障碍，并判断构音障碍的元音异常类型，通过离散程度，间接推断哪些元音出现障碍程度更明显。

在专利文献CN109559761A中，提出了一种基于深度语音特征的脑卒中风险预测方法，该方法通过采集脑卒中高风险人群的一段特定的语音，然后通过语音处理软件提取语音信息中的MFCC(Mel-scaleFrequency Cepstral Coefficients)特征，将MFCC语音特征参数通过深度学习中的卷积神经网络(CNN)提取深度语音特征参数。卷积神经网络可以利用不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力，并且结合全连接层的逻辑回归算法完成病人与患者的分类。最后将用于测试的MFCC特征参数输入到训练完成的逻辑回归分类模型中，获取脑卒中风险概率。

但现有的该些技术在脑卒中风险预测过程中，需要长时间采集相关信息，必须拥有大量的病例数据，而且系统预测周期过长，不能达到高效率的标准。使用传统卷积神经网络作为脑卒中风险预测的模型，不能够保证准确率达到标准。以上问题可能会延误最佳治疗时机，风险预测存在不确定性。

发明内容

本发明的目的在于克服现有技术的不足，提供一种方便快捷、节约成本、预测准确率高的基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法。

为实现上述目的，本发明所提供的技术方案为：

一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法，首先通过录音设备采集语音信息，然后对语音信息进行预处理，提取语音特征参数MFCC；随后构建ResNet和LSTM神经网络模型对MFCC特征参数进行训练，提取语音信号的深度特征信息，构建分类器完成患者和正常人群的分类，得到风险预测模型；最终将待测试的MFCC特征参数输入到训练完成的模型中，对脑卒中构音障碍患病风险进行预测。

进一步地，所述采集语音信息具体为：

选择安静的治疗室，使用录音设备收集特定的语音信息，收集到的语音信息中包括脑卒中风患者和正常人的，保持每一类包含的人数相同，然后将语音数据按比例划分为训练集、测试集和验证集。

进一步地，所述提取语音特征参数MFCC的具体过程如下：

1)对语音信息进行预处理；

2)对各帧信号进行快速傅里叶变换得到各帧的频谱；

3)将能量谱通过一组Mel尺度的三角形滤波器组；

4)计算每个滤波器组输出的对数能量，每一帧的对数能量加上一帧的对数能量，使得每一帧基本的语音特征多一维，包括一个对数能量和剩下的倒频谱参数；每个滤波器的对数能量计算公式如下：

其中，H_m(k)为三角滤波器的频率响应定义，x_a(k)为快速傅里叶变换得到的频谱，m为Mel滤波器组中滤波器的编号，M表示滤波器个数，N为分帧时候的采样点个数，即将N个采样点合成一个观测单位，称为帧；

5)将对数能量带入离散余弦变换，求出L阶的参数，公式如下：

其中，L阶指MFCC系数阶数，M表示三角滤波器个数。

进一步地，所述对语音信息进行预处理的具体步骤如下：

预加重：通过高通滤波器减少信息的流失，增加语音的高频分辨率；

分帧；将N个采样点集合成一个观测单位，称为帧；让两相邻帧之间有一段重叠区域，此重叠区域包含M个取样点，M的值为N的1/2或1/4；

加窗；将每一帧乘以汉明窗。

进一步地，所述构建ResNet和LSTM神经网络模型对MFCC特征参数进行训练的具体步骤如下：

首先通过ResNet网络对MFCC特征参数进行训练，在ResNet直接使用stride＝2的卷积做下采样，并且用Global Average Pool层替换全连接层，解决深度网络退化问题；利用Resnet网络不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力，一步一步提取和分析语音信息中的特征；

经过在ResNet网络处理后，继续添加LSTM层,以将LSTM最后一个时刻的输出作为特征向量的表示，以及综合考虑每个时刻的的输出，将它们合并为一个向量，再使用全连接层与激活函数softmax输出概率分布；训练完成后继续调整参数，重复实验，最终得到分类器用于预测脑卒中风。

与现有技术相比，本方案原理及优点如下：

与专利RU2669895C1相比，本方案引入人工神经网络分类器这一模型。相比传统的聚类和医学常用统计算法，拥有不同层次卷积核的ResNet网络学习能力更强，能够发掘出语音信息的深度特征，配合LSTM网络(长短期记忆网络)在时间序列上对MFCC特征参数进一步处理，使得实验结果更加准确。另外，本方案实验数据获取方便，仅需要录制特定的语音片段就可以作为判断的依据，相比RU2669895C1文献提出的方法，不必收集大量其他数据比如血压血脂等进行综合考量，大大提高了效率，节约了成本，不耽误患者的治疗时机。

与专利CN108670199A相比，本方案引入人工神经网络分类器这一模型。相比通过元音共振峰直观评估是否存在构音障碍，神经网络可以使用不同层次的卷积核对语音特征参数进行深度语音特征提取，同时，在卷积层之后添加LSTM网络层，进一步在时间序列上对语音特征参数进行处理，生成的一维特征通过全连接层的逻辑回归算法完成风险预测，在深度学习与特征提取日益成熟的今天，本方案能够获得更高的脑卒中构音障碍预测准确率，同时结果更加具有客观性，MFCC语音特征参数包含语音信息的对数能量，通过Mel滤波器组尽量模仿人耳所能接收到的信息，相比共振峰，MFCC特征作为模型输入有着更加客观具体的优点。

与专利CN109480780A相比，本方案的模型采用更加复杂的ResNet+LSTM网络作为分类器，相比使用传统CNN模型完成脑卒中预测，ResNet残差网络深度网络的退化问题，使得网络模型更加实用，有效地避免了随着网络加深，准确率下降的问题；LSTM是一种特殊的RNN，用于处理语音信号这一种和时间序列相关的特征参数更加准确，有着更好的识别效果。因此ResNet+LSTM网络作为分类器能够进一步提高风险预测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法的工作流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

如图1所示，本实施例所述的一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法，包括以下步骤：

S1.语音信息采集：

选择安静的治疗室，使用录音设备收集特定的语音信息，收集到的语音信息中包括脑卒中风患者和正常人的，保持每一类包含的人数相同。将语音数据按比例划分训练集、测试集用于后续构建分类器和后续训练。

S2.MFCC语音特征系数提取，主要分为以下步骤；

2.1.对语音信息进行预处理，这一步骤包含以下工作；

预加重：预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。使信号通过一个高通滤波器，目的是提升高频部分，使信号变的平坦，从而减少信息的流失，增加语音的高频分辨率。

分帧；将N个采样点集合成一个观测单位，称为帧：通常情况下每一帧涵盖的时间约为20～30ms左右，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/4。

加窗；加窗这一步骤是为了减少帧起始和结束的地方信号的不连续性问题，同时加窗之后，原本没有周期性的语音信号呈现出周期函数的部分特征。完成方法是将每一帧乘以汉明窗。

2.2.快速傅里叶变换(FFT)；

因为信号在时域上的变换通常很难看出信号的特性，所以通过这一过程将它转换为频域上的能量分布来观察，分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。快速傅里叶变换公式如下所示；

式中，x(n)为输入的语音信号，N表示傅里叶变换的点数，N可以取512或1024，对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的功率谱。

2.3.Mel滤波器组；

将能量谱通过一组Mel尺度的三角形滤波器组，此步骤是为了对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰。这里一般有20-40个(取26个)三角形滤波器。

2.4.对数能量；

此步骤计算每个滤波器组输出的对数能量，每一帧的对数能量加上一帧的对数能量(定义：一帧内信号的平方和，再取以10为底的对数值，再乘以10)使得每一帧基本的语音特征就多了一维，包括一个对数能量和剩下的倒频谱参数。每个滤波器的对数能量计算公式如下：

其中H_m(k)为三角滤波器的频率响应定义，x_a(k)为快速傅里叶变换得到的频谱，m为Mel滤波器组中滤波器的编号，M表示滤波器个数，N为分帧时候的采样点个数，即将N个采样点合成一个观测单位，称为帧；

2.5离散余弦变换(DCT)

此步骤为离散余弦变换(DCT)，最终得到MFCC系数，将上述的对数能量带入离散余弦变换，求出L阶的参数，公式如下所示：

其中，L阶指MFCC系数阶数，通常取12-16，M表示三角滤波器个数。

S3.训练风险预测模型；

基于深度学习技术，训练人工神经网络来建立分类模型，利用之前划分完成的训练集中的MFCC语音特征系数作为神经网络的输入，利用验证集评估模型效果，防止出现过拟合，最终完成训练。本实施例的模型分为两个部分；

Resnet网络；

首先通过Resnet50网络对MFCC特征参数进行训练，进一步提取语音信息的深度特征，ResNet网络是参考了VGG19网络，在其基础上进行了修改，并通过短路机制加入了残差单元，主要体现在ResNet直接使用stride＝2的卷积做下采样，并且用global averagepool层替换了全连接层，目的是为了解决深度网络退化问题。Resnet50网络拥有的不同层次的深度卷积核，可以利用不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力，一步一步提取和分析语音信息中的特征。

LSTM网络；

经过在ResNet50网络处理后，继续添加LSTM层,LSTM是一个序列到序列的模型,LSTM层的输出是由记忆和当前时刻的输入决定的，以将LSTM最后一个时刻的输出作为特征向量的表示，也可以综合考虑每个时刻的的输出，将它们合并为一个向量，本实施例的模型中需要被分类的MFCC特征表示为一个特征向量(dense vector)，再使用全连接层(dense)与激活函数softmax输出概率分布。训练完成后继续调整参数，重复实验使得脑卒中风险预测更加准确，最终得到分类器用于预测脑卒中风。

S4.测试结果进行风险预测；

用上述方法提取测试集语音的MFCC特征参数，将其输入已经训练完成的模型中测试模型的预测能力，利用ResNet+LSTM模型提取测试集的深度语音特征，最终获得脑卒中风险概率。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法，其特征在于，首先通过录音设备采集语音信息，然后对语音信息进行预处理，提取语音特征参数MFCC；随后构建ResNet和LSTM神经网络模型对MFCC特征参数进行训练，提取语音信号的深度特征信息，构建分类器完成患者和正常人群的分类，得到风险预测模型；最终将待测试的MFCC特征参数输入到训练完成的模型中，对脑卒中构音障碍患病风险进行预测。

2.根据权利要求1所述的一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法，其特征在于，所述采集语音信息具体为：

3.根据权利要求1所述的一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法，其特征在于，所述提取语音特征参数MFCC的具体过程如下：

1)对语音信息进行预处理；

2)对各帧信号进行快速傅里叶变换得到各帧的频谱；

3)将能量谱通过一组Mel尺度的三角形滤波器组；

其中，L阶指MFCC系数阶数，M表示三角滤波器个数。

4.根据权利要求3所述的一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法，其特征在于，所述对语音信息进行预处理的具体步骤如下：

加窗；将每一帧乘以汉明窗。

5.根据权利要求1所述的一种基于ResNet与LSTM网络的脑卒中构音障碍风险预测方法，其特征在于，所述构建ResNet和LSTM神经网络模型对MFCC特征参数进行训练的具体步骤如下：