CN109559761A

CN109559761A - 一种基于深度语音特征的脑卒中风险预测方法

Info

Publication number: CN109559761A
Application number: CN201811571779.7A
Authority: CN
Inventors: 陈鸥宇; 刘怡俊; 叶武剑; 牟志伟; 李琪
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-04-02

Abstract

本发明公开了一种基于深度语音特征的脑卒中风险预测方法，将语音处理与深学习技术应用到脑卒中检测过程中，采集人们的特定语音片段进行特定语音预处理后，用深度学习技术提取语音片段的深度特征信息，挖掘出高风险人群与普通人群语音的深层区别，从而构建出语音识别模型,对脑卒中患病风险进行评估与预测。本发明具有脑卒中预测准确率高、预测脑卒中的信息容易获取、预测代价非常小、方便快捷等优点。

Description

一种基于深度语音特征的脑卒中风险预测方法

技术领域

本发明涉及信号处理、语音识别、人工智能的技术领域，尤其涉及到一种基于深度语音特征的脑卒中风险预测方法。

背景技术

“脑卒中”(cerebral stroke)又称“中风”、“脑血管意外”(cerebralvascularaccident，CVA)，是一种急性脑血管疾病，包括缺血性脑卒中和出血性脑卒中，是我国成年人群致死、致残的首位病因，具有发病率高、致残率高、死亡率高和复发率高的特点。《2018中国卫生健康统计提要》数据显示，2017年我国居民因脑血管病死亡的比例在农村人群为23.18％、城市人群为20.52％，这意味着每5位死亡者中就至少有1人死于脑卒中，且脑卒中后存活者中70％留有不同程度的残疾，给家庭及社会造成沉重的负担。

过去30年里，我国脑卒中发病率持续增长，随着社会老龄化和城市化进程的不断加快，居民不健康生活方式流行，脑卒中危险因素普遍暴露，脑卒中发病率急剧攀升，我国脑卒中的疾病负担有爆发式增长的态势，并呈现出低收入群体中快速增长、性别和地域差异明显以及年轻化趋势。根据《中国卫生和计划生育统计年鉴》和《2018中国卫生健康统计提要》，2017年，我国城市居民脑卒中死亡率为126.48/10万，农村脑卒中死亡率为157.00/10万，据此测算，全国每年死于脑卒中的患者达196万。

由于经济社会的发展、人口老龄化程度的加重、疾病模式的转变，以及医疗新技术的广泛应用，导致患者对高级别医疗机构需求的增加，这些发展变化情况促使了我国脑出血与脑梗死的出院人数及人均医药费用均呈增长态势，尤其是脑梗死住院患者人数呈爆发式增长。到2016年，我国脑出血、脑梗死患者的出院总人数约360万余人，相比2010年分别增长48.6％、147.0％；住院人均费用分别为17787.0、9387.0元，相比2010年分别增长61.4％、31.4％。

目前，针对脑卒中的治疗手段有限，而且疗效也不太理想，预防是最好的治疗措施。因此，脑卒中发病风险的有效预测能及早干预以防止病情发生或减缓发病，这能减少人们生活负担和由此带来的社会压力。

上海长江科技发展有限公司陈继智等人在“基于人工智能的脑卒中筛查方法及系统”的专利(申请号：CN201810136208.4)提及，利用胆固醇高低，抽烟与否，高血压与否，冠心病与否，心肌梗死等指标进行早期预测；马立伟等人申请的“智能脑卒中风险监控系统”专利(申请号：CN201710139971.8)是用年龄，性别，血压，身高，体重，体质指数，血常规和血生化数据指标进行早期预测。昂朗生物科技(上海)有限公司殷卫海,吴丹红等人在“一种基于体液中酪氨酸水平作为检测脑卒中发病风险以及脑卒中发病的生物标志物的检测方法及其应用”的专利(申请号：CN201610411494.1)通过检测脑卒中发病或者高危人群的体液外泌体，如尿液，汗液，唾液等中酪氨酸的含量，从而预测和检测脑卒中的发病。上海神州高特医疗设备有限公司郭杨经申请的“脑卒中早期预警与脑血管健康管理系统”专利(申请号:CN2017100117 74.8)采用超声多普勒探头和压力传感器无创伤检测颈总动脉处的血流速度和压力脉搏波波形，通过血液动力学的分析模型，计算得到反映脑血管功能状态的血液动力学指标来预测脑卒中的发病风险。这四个专利涉及的脑卒中预测指标信息大都都需要昂贵的医疗设备来获得，需要耗费相当多的人力物力财力，同时有些指标信息需要相当长的时间才能采集出来，很有可能在等待结果信息的时候脑卒中就已经发生了。

重庆楠桦生物科技有限公司李丽申请的“驾驶人急性脑卒中风险预测方法”专利(申请号：CN201711500331.1)通过将将使人的瞳孔变化信息、驾驶人手掌汗液变化信息和驾驶人呼吸状态变化信息综合处理，向驾驶人提供是否具有急性脑卒中的风险。这个专利涉及的方法很容易受天气状况以及汽车内部环境的影响，得出的结果会很不稳定，非常容易出现误判的情况。

综上所述，现有技术在信息采集过程中，不仅耗费大量人力、物力和财力，而且会耽误很多的时间；由于很多时候脑卒中发病前兆时间比较短，同时这些指标信息的采集需要相当长的时间，很有可能在等待结果信息的时候脑卒中就已经发生了。同时现有技术的脑卒中预测准确率并不是很理想。为解决这一技术问题，本发明将语音处理与深学习技术应用到脑卒中检测过程中，采集人们的特定语音片段进行特定语音预处理后，用深度学习技术提取语音片段的深度特征信息，挖掘出高风险人群与普通人群语音的深层区别，从而构建出语音识别模型,方便快捷地对脑卒中患病风险进行评估与预测。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于深度语音特征的脑卒中风险预测方法。由于脑卒中发生前，会伴有暂时性吐字不清或讲话不灵的症状，因此可以通过获取脑卒中高风险人群的一段特定的语音，然后通过语音处理技术提取MFCC(Mel-scaleFrequency Cepstral Coefficients)语音信息作为深度学习模型的输入；通过深度卷积神经网络(CNN)对MFCC特征进行深度语音特征提取，结合逻辑回归算法构建语音识别模型进行脑卒中患病风险检测。

具体的技术方案包括以下步骤：

S1：使用录音设备录取一段用户的语音，获取用户的语音数据；

S2：提取语音特征参数MFCC；

S3：提取深度语音特征；

S4：将深度语音特征参数输入到机器学习中的逻辑回归分类模型中，获取脑卒中预测风险；

S5：通过脑卒中预测风险概率划分脑卒中风险等级，用报告的形式通知用户在相应风险等级下采取相应的应对措施。：

进一步地，所述MFCC为在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，其与实际频率的关系用下式表示：

进一步地，所述步骤S2提取语音特征参数MFCC的具体步骤如下：

S2-1：预加重处理：

将语音信号通过一个高通滤波器：H(z)＝1-u/z，式中的值介于0.9-1.0之间；

S2-2：分帧：

将N个采样点集合成一个观测单位，称为帧；两相邻帧之间存在一段重叠区域，此重叠区域包含M个取样点，M的值为N的1/2或1/3；

S2-3：加窗：

将每一帧乘以汉明窗，以增加帧左端和右端的连续性；

假设分帧后的信号为S(n),n＝0，1,…,N-1，N为帧的大小，那么乘上汉明窗后H(n)＝S(n)*W(n),W(n)形式如下：

W(n，a)＝(1-a)-a*cos[2πn/N-1],0<＝n<＝N-1；

不同的参数a值产生不同的汉明窗；

S2-4：快速傅里叶变换：

对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的功率谱；

S2-5：三角带通滤波器：

将能量谱通过一组Mel尺度的三角形滤波器组；三角形滤波器组有M个滤波器，M取22-26；

S2-6：对数能量：

S2-7：离散余弦变换：

将对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数；L阶指MFCC系数阶数，取12-16；M为三角滤波器个数。

进一步地，所述步骤S3提取深度语音特征具体为：将MFCC语音特征参数通过深度学习中的卷积神经网络提取深度语音特征参数；卷积神经网络利用不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力。

进一步地，所述步骤S4脑卒中预测的具体步骤如下：

S4-1：将深度语音特征参数的异常值和缺失值用中值代替，同时将深度语音特征参数按比例划分训练集和测试集；

S4-2：将深度语音特征参数通过主成分分析、LASSO回归进行特征降维；

S4-3：使用训练集特征参数建立逻辑回归模型；

S4-4：把测试集特征参数输入逻辑回归模型中测试模型的预测能力；

S4-5：把深度语音特征参数输入到逻辑回归模型中，获得脑卒中风险概率。

其中，Mel(f)表示Mel频率，f表示实际频率。

与现有技术相比，本方案原理和优点如下：

1、引入深度学习中的卷积神经网络和传统机器学习中的逻辑回归。相比于MFCC语音特征参数，卷积神经网络可以使用不同的卷积核对MFCC语音信息进行深度语音特征提取，这样的深度语音特征能够更加全面地表征语音地特性。同时，将深度特征输入到逻辑回归模型能够快速地获得更高的脑卒中预测准确率。

2、本方案通过提取语音中的特征参数作为脑卒中预测信息，而传统的脑卒中预测信息主要采用血压、血脂、血糖、肥胖程度，胆固醇，高血压冠心病以及其他检查报告等信息，与传统的脑卒中预测信息相比，语音信息更加容易获取，只需使用录音设备(手机，个人电脑，平板电脑等)即可快速获取，同时，语音信息的获取代价非常小，可以节省许多资源，因为传统的脑卒中预测信息大都需要使用昂贵的医疗设备获取。

3、与传统的脑卒中预测方式相比，本方案提供的方法更简单有效快捷，可有力推动脑卒中自查和普查，以更快发现潜在脑卒中患者，更早提醒和更早更有效地治疗，因为潜在脑卒中患者完全可以随时随地录取一段特定语音马上获得脑卒中风险概率。

附图说明

图1为本发明一种基于深度语音特征的脑卒中风险预测方法的工作流程图；

图2为本发明一种基于深度语音特征的脑卒中风险预测方法中提取语音特征参数MFCC的工作流程图；

图3为本发明一种基于深度语音特征的脑卒中风险预测方法中脑卒中预测的工作流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

如图1所示，本实施例所述的一种基于深度语音特征的脑卒中风险预测方法，包括以下步骤：

S1：使用录音设备(智能手机、平板电脑等)录取一段用户的语音，获取用户的语音数据。

S2：提取语音特征参数MFCC：

获取用户的语音数据后，从语音数据中提取语音特征参数MFCC，MFCC是在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，更符合人耳的听觉特征，其与实际频率的关系可用下式近似表示：

Mel(f)＝2595*lg(1+f/700)

其中，Mel(f)表示Mel频率，f表示实际频率。

如图2所示，提取语音特征参数MFCC的具体步骤如下：

S2-1：预加重处理：

预加重处理其实是将语音信号通过一个高通滤波器：H(z)＝1-u/z，式中的值取0.97。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。

S2-2：分帧：

先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含M个取样点，M的值为N的1/2或1/3。

S2-3：加窗：

将每一帧乘以汉明窗，以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n＝0，1,…，N-1，N为帧的大小，那么乘上汉明窗后H(n)＝S(n)*W(n)，W(n)形式如下：

W(n，a)＝(1-a)-a*cos[2πn/N-1]，0<＝n<＝N-1

不同的a值会产生不同的汉明窗，一般情况下a取0.46。

S2-4：快速傅里叶变换：

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

S2-5：三角带通滤波器步骤：

将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，采用的滤波器为三角滤波器，M取22-26。

S2-6：对数能量：

S2-7：离散余弦变换(DCT)：

将上述的对数能量带入离散余弦变换，求出L阶的Mel-scale Cepstrum参数。L阶指MFCC系数阶数，取12-16。M为三角滤波器个数。

S3：提取深度语音特征：

将MFCC语音特征参数通过深度学习中的卷积神经网络(CNN)提取深度语音特征参数。卷积神经网络可以利用不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力，使得脑卒中风险预测更加准确。

深度语音特征提取的具体步骤包括：

(1)输入层，将提取的MFCC特征参数从此层输入；

(2)一维卷积层+ReLU激活层；

(3)一维卷积层+ReLU激活层+dropout层+最大池化层；

(4)一维卷积层+ReLU激活层+一维卷积层+ReLU激活层；

(5)一维卷积层+ReLU激活层+dropout层；

(6)一维卷积层+ReLU激活层+flatten层；

(7)输出层，获得深度语音特征参数。

S4：将深度语音特征参数输入到机器学习中的逻辑回归分类模型中，获取脑卒中预测风险；如图3所示，具体步骤如下：

S4-2：将深度语音特征参数通过主成分分析、LASSO(Least absolute shrinkageand selection operator)回归进行特征降维；

S4-3：使用训练集特征参数建立逻辑回归模型；

S5：通过脑卒中预测风险概率划分脑卒中风险等级，用报告的形式通知用户在相应风险等级下采取相应的应对措施。

本实施例将语音处理与深学习技术应用到脑卒中检测过程中，采集人们的特定语音片段进行特定语音预处理后，用深度学习技术提取语音片段的深度特征信息，挖掘出高风险人群与普通人群语音的深层区别，从而构建出语音识别模型,对脑卒中患病风险进行评估与预测。本实施例具有脑卒中预测准确率高、预测脑卒中的信息容易获取、预测代价非常小、方便快捷等优点。

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于深度语音特征的脑卒中风险预测方法，其特征在于，包括以下步骤：

S2：提取语音特征参数MFCC；

S3：提取深度语音特征；

2.根据权利要求1所述的一种基于深度语音特征的脑卒中风险预测方法，其特征在于，所述MFCC为在Mel标度频率域提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，其与实际频率的关系用下式表示：

Mel(f)＝2595*lg(1+f/700)

其中，Mel(f)表示Mel频率，f表示实际频率。

3.根据权利要求1所述的一种基于深度语音特征的脑卒中风险预测方法，其特征在于，所述步骤S2提取语音特征参数MFCC的具体步骤如下：

S2-1：预加重处理：

S2-2：分帧：

S2-3：加窗：

将每一帧乘以汉明窗，以增加帧左端和右端的连续性；

假设分帧后的信号为S(n),n＝0,1,…,N-1,N为帧的大小，那么乘上汉明窗后H(n)＝S(n)*W(n),W(n)形式如下：

W(n,a)＝(1-a)-a*cos[2πn/N-1],0<＝n<＝N-1；

不同的参数a值产生不同的汉明窗；

S2-4：快速傅里叶变换：

S2-5：三角带通滤波器：

S2-6：对数能量：

S2-7：离散余弦变换：

4.根据权利要求1所述的一种基于深度语音特征的脑卒中风险预测方法，其特征在于，所述步骤S3提取深度语音特征具体为：将MFCC语音特征参数通过深度学习中的卷积神经网络提取深度语音特征参数；卷积神经网络利用不同的卷积核、池化层和最后输出的特征参数的大小控制整体模型的拟合能力。

5.根据权利要求1所述的一种基于深度语音特征的脑卒中风险预测方法，其特征在于，所述步骤S4脑卒中预测的具体步骤如下：

S4-3：使用训练集特征参数建立逻辑回归模型；