CN110070888A

CN110070888A - 一种基于卷积神经网络的帕金森语音识别方法

Info

Publication number: CN110070888A
Application number: CN201910377225.1A
Authority: CN
Inventors: 张艳晖; 石涵宇
Original assignee: Yibao Medical Science And Technology (shanghai) Co Ltd
Current assignee: Yibao Medical Science And Technology (shanghai) Co Ltd
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-07-30

Abstract

本发明为一种基于卷积神经网络的帕金森语音识别方法，包括语音型号的采集：在安静的环境中，由使用者发元音，录入一定时长的声音；语音的预处理：将采样得到的语音片段统一采样到频率fs，并且去除语音片段中无声音部分，每段语音片段取同一时长ts；训练模型：采用一维神经网络对语音片段进行训练，建立算法模型，得到精确率和召回率都符合要求的模型；采用模型进行预测：把需要预测的语音片段输入到模型中，得到模型预测的UPDRS评分。本发明建立可以接受原始声音数据的算法模型，不需要人为提取声音特征。利用卷积神经网络对声音进行分析，使用梯度下降法自动更新算法参数，充分利用卷积网络的空间不变性，使算法更具有鲁棒性。

Description

一种基于卷积神经网络的帕金森语音识别方法

技术领域

本发明涉及一种语音识别方法，特别是涉及一种基于卷积神经网络的帕金森语音识别方法。

背景技术

帕金森是一种非常严重的疾病，病情难以逆转。所以早期发现疾病并对其进行控制是非常重要的。目前，帕金森病的诊断主要依靠病史、临床症状及体征进行判断。帕金森的诊断对医院设备配备及医生水平要求相对较高。这就导致发现疾病时，都处于疾病的中晚期，对患者的生存质量造成了比较大的影响。

传统的机器学习方法可以通过提取语音的多种系数进而对语音进行分析。但是这种方法有两个很重要的缺点。第一是人工难以确定其具体需要提取的参数。目前主流的参数提取包括声音的基频，振幅微扰，频率微扰，信噪比特征，倒谱系数以及一些非线性特征。这些特征均试图反映声音的特征，并不能表征声音的全貌，因此增加了分类方法的检测难度。第二是这些特征均不够稳定。同一个人发出的声音提取的系数可能相差非常大，这使得算法模型的稳定性很差。此外，外界干扰噪声也会对算法造成很大的影响，所以难以用于实际。

发明内容

本发明的目的就是提供一种基于卷积神经网络的帕金森语音识别方法，能完全解决上述现有技术的不足之处。

本发明的目的通过下述技术方案来实现：

一种基于卷积神经网络的帕金森语音识别方法，包括如下方法：

1）.语音型号的采集：在安静的环境中，由使用者发元音，录入一定时长的声音；

2）.语音的预处理：将采样得到的语音片段统一采样到频率fs，并且去除语音片段中无声音部分，每段语音片段取同一时长ts；

3）.训练模型：采用一维神经网络对语音片段进行训练，建立算法模型，得到精确率和召回率都符合要求的模型；

4）.采用模型进行预测：把需要预测的语音片段输入到模型中，得到模型预测的UPDRS评分。

进一步，方法3）中通过不断调整网络的超参数，来得到符合要求的模型。

进一步，方法4）中的一维神经网络为输入频率为fs，时长为ts的一维向量。

进一步，一维神经网络的构件包括一维卷积层、池化层以及全连接层。

与现有技术相比，本发明的有益效果在于：本发明不需要人为计算提取语音参数，可以通过神经网络的优势，由网络根据数据自行对语音特征进行分析，并得到最终的模型。这样的模型相比与传统的机器学习，大大减小了人工工作量，充分利用了数据本身的特点，鲁棒性更强，算法稳定性更好。同时，在数据增强时，可以增加背景噪声，以此来降低背景噪音对模型的干扰，使得模型在由噪声的情况下也可以运行良好。由于现在手机等移动设备的普及以及硬件的升级，使得在移动端也可以很方便地部署神经网络，可以将模型部署在手机端，方便数据采集以及人们使用。

附图说明

图1是基于帕金森语音建立算法模型的流程图；

图2是由算法模型预测输入语音结果的流程图；

图3是模型训练流程图。

具体实施方式

下面结合具体实施例和附图对本发明作进一步的说明。

如图1至图3所示，本发明创造涉及深度学习，人工智能，语音诊断分析，具体的说，是基于神经网络对语音进行分类并且判定严重程度的一种检测方法。本发明所要解决的主要技术问题是传统机器学习需要对语音提取相关参数，参数不能反映语音全貌，导致建立的算法模型鲁棒性不强，难以用于实际的问题。为了解决上述问题，本发明提出一种采用一维神经网络的方法，对是否患有帕金森疾病及其严重程度进行诊断的方法。主要包括建立可以接受原始声音数据的算法模型，不需要人为提取声音特征；利用卷积神经网络对声音进行分析，使用梯度下降法自动更新算法参数，充分利用卷积网络的空间不变性，使算法更具有鲁棒性。

方法具体包括以下步骤：

1.语音型号的采集

考虑到存在语种不同，有无方言，有无口音以及发音习惯的因素，本发明采用元音的输入方式，减小样本受干扰因素。对于建立模型时的训练样本，需要录入样本是否患有帕金森及帕金森评分。采样需要在相对安静的环境中进行。由使用者发元音，录入一定时长的声音。

2.语音的预处理

将采样得到的语音片段统一采样到频率fs，并且去除语音片段中无声音部分。每段语音片段取同一时长ts。

3.一维卷积神经网络模型的构造

根据数据的采样频率和时长，根据预处理处理得到等长度输入数据，长度48000的一维向量，经过5次一维卷积层操作，每次卷积的卷积核大小均为64，步长为16，数量为256，后面紧跟ReLu激活函数，卷积后紧跟着两层带有Dropout的全连接层，全连接层输出512个神经元，Dropout的概率为0.2，采用ReLu激活函数，最后采用Sigmoid输出两个类别，输出1表示阳性，0表示阴性。

4.模型训练

将采集到的数据分为训练集和测试集，其中训练集样本数量占80%，测试集样本数量占20%。采用一维神经网络对语音片段进行训练，建立算法模型。不断调整网络的超参数，得到精确率和召回率都符合要求的模型，训练结束。

其中超参数包括卷积中卷积层层数，卷积核大小，激活函数选择等。例如，在训练时发现无论迭代多少次，训练集的准确率都无法到达100%，表示此时模型表达能力不够，则可以添加卷积层，以此增加模型的表达能力（此处公开的模型能够满足在迭代足够多次时训练集准确率能达到100%，但是随着数据集样本量的增加，可能需要增加卷积层）。微调卷积核和步长可以提高网络的准确率，经过训练发现卷积核为64步长为16时准确率较高。

精确率和召回率的计算：

例如，此时采用算法对100个人是否有帕金森进行预测，得到结果如下表所示。

精确率(precision)的公式是P = True positive /( True positive + Falsepositive),它计算的是所有"患有帕金森的样本数"占所有"实际被检索预测患有帕金森"的比例。召回率(recall)的公式是R = True positive /( True positive + Falsenegative),它计算的是所有"患有帕金森的样本数"占所有"应该检索到的患有帕金森"的比例。在医学领域中，漏诊的后果比误诊的后果更为严重，所以在训练模型中需要在保证准确率的情况下提高召回率，最终模型训练结果是精确率为90%，召回率为97%。

其中，一维神经网络的输入为频率为fs，时长为ts的一维向量。神经网络的主要构件包括神经网络的基本构件，如一维卷积层，池化层以及全连接层。最终输出为一个具体实数，该实数为模型对实验者语音的UPDRS估计。如果实验者为正常人，真实值的UPDRS为0。模型的损失为预测值与真实值的欧拉距离。训练优化器采用随机梯度下降或其衍生算法，最小化模型的损失值。此处采用Adam算法。

4.采用模型进行预测

把需要预测的语音片段输入到模型中，得到模型预测的UPDRS评分。

本发明不需要人为计算提取语音参数，可以通过神经网络的优势，由网络根据数据自行对语音特征进行分析，并得到最终的模型。这样的模型相比与传统的机器学习，大大减小了人工工作量，充分利用了数据本身的特点，鲁棒性更强，算法稳定性更好。同时，在数据增强时，可以增加背景噪声，以此来降低背景噪音对模型的干扰，使得模型在由噪声的情况下也可以运行良好。由于现在手机等移动设备的普及以及硬件的升级，使得在移动端也可以很方便地部署神经网络，可以将模型部署在手机端，方便数据采集以及人们使用。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的帕金森语音识别方法，其特征在于,包括如下方法：

2.根据权利要求1所述的基于卷积神经网络的帕金森语音识别方法，其特征在于，方法3）中通过不断调整网络的超参数，来得到符合要求的模型。

3.根据权利要求2所述的基于卷积神经网络的帕金森语音识别方法，其特征在于，方法4）中的一维神经网络为输入频率为fs，时长为ts的一维向量。

4.根据权利要求3所述的基于卷积神经网络的帕金森语音识别方法，其特征在于，一维神经网络的构件包括一维卷积层、池化层以及全连接层。