CN111028863B

CN111028863B - 一种基于神经网络诊断卒中后构音障碍声调错误的方法及其诊断装置

Info

Publication number: CN111028863B
Application number: CN201911325841.9A
Authority: CN
Inventors: 牟志伟; 吴思仪; 陈亮; 江晨银
Original assignee: Guangzhou Kehui Jianyuan Medical Technology Co ltd
Current assignee: Guangzhou Kehui Jianyuan Medical Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2023-12-26
Anticipated expiration: 2039-12-20
Also published as: CN111028863A

Abstract

本发明涉及一种基于神经网络诊断卒中后构音障碍声调错误的方法及其诊断装置，是一种基于声学指标的构音障碍客观评估新技术。本发明通过采集以普通话为母语的脑卒中后构音障碍患者与同年龄段的正常成年人的单音节词声调数据，分为训练组和测试组。通过训练组进入人工神经网络训练，获得诊断模型；测试组测试自动识别声调的正确率；调参至诊断准确率大于90%。本发明的方法是通过人工智能对声调进行评估，能够达到客观、高效的目的，减少不同机构和不同治疗师评估的差异性，并对康复训练的实施具有一定的指导性意义。

Description

一种基于神经网络诊断卒中后构音障碍声调错误的方法及其诊断装置

技术领域

本发明涉及医疗诊断技术领域，是一种基于声学指标的构音障碍客观评估新技术与使用方法，具体地说是一种基于神经网络诊断卒中后构音障碍声调错误的方法及其诊断装置。

背景技术

《中国脑卒中防治报告 2018》概要表明脑卒中是我国成年人致死、致残的首位病因，具有发病率高、致残率高、死亡率高和复发率高的特点。2016 年全球疾病负担（GBD）数据显示，脑卒中是造成我国寿命年损失（YLL）的第一位病因。《2018中国卫生健康统计提要》数据显示，2017年脑血管病占我国居民疾病死亡比例在农村人群为 23.18%、城市人群为20.52%，这意味着每5位死亡者中就至少有1人死于脑卒中。据推测，2030年我国脑血管病事件发生率将比2010 年升高约50%，我国脑卒中发病率处于持续上升阶段。根据国家卒中流行病学调查（NESS-China），2013年我国居民脑卒中发病率为345.1/10万，年龄标准化发病率为 246.8/10万。GBD数据显示，2016年我国缺血性脑卒中发病率为 276.75/10万、出血性脑卒中发病率为126.34/10万。根据文献报道，脑卒中患者中构音障碍的发生率为30%～40%。帕金森病患者中有69.6%的患者的言语清晰度低于正常组，构音障碍发病率在多发性硬化患者中高达51%。脑血管病的发生率极高，且年轻化趋势明显，脑卒中后构音障碍的发生率也很高，因此对于脑血管病的后遗症的诊断、评估、治疗的研究也尤为重要，以改善及提高脑卒中人群的生活质量，为脑卒中后人群的诊断及预后提供更完善的研究。

目前国内构音障碍的声调评估主要采用主观方式进行，客观评估的研究并不多见，这是由于构音障碍客观评估的研究缺乏能真正实现客观的评价方法和评价体系。与其他类型的言语障碍客观评估一样，客观评估构音能力需要具备客观评价参数和软硬件设备。基于语音特性系统的客观评估符合构音障碍评估与康复应用的实际需求，目前国外已有各种声学研究，特别是对英语、法语、德语、瑞典语和日语的元音或辅音产生缺陷的构音障碍研究。国内也有对粤语为母语的脑性瘫痪患者的声学研究。但很少有人研究汉语中构音障碍的声调。汉语是世界上使用人数最多的一门语言，我国是脑血管疾病的大国，因此基于人工智能及声学技术对脑卒中后构音障碍患者的汉语声调进行研究已经成为迫切需要。。

发明内容

本发明主要目的在于克服目前主观评估方法的缺点与不足，在声学指标检验的基础上为脑卒中后构音障碍患者提供一种客观的评估方法，解放人力以及减少由于人力以及技术水平的不同造成的误差，为构音障碍的诊断、治疗、评估以及预后提供更加客观的理论依据。

本发明的诊断方法采用以下技术方案：

一种基于神经网络诊断卒中后构音障碍声调错误的方法，包括语音采集，包括如下步骤：

S1.采集以普通话为母语的脑卒中后构音障碍患者与同年龄段的正常成年人的单音节词声调数据，对语音数据进行预处理，提取F0频率曲线，并分为训练组和测试组；

S2.构建用于声调分类的前馈反向传播神经网络；

S3.将步骤一的语音数据库中训练组提取的F0频率数据作为输入，对步骤二构建的前馈反向传播神经网络进行训练校正，获得神经网络训练分类模型；

S4.将步骤一的语音数据库中测试组提取的F0频率数据作为输入，对步骤三的神经网络训练分类模型进行测试，测试其自动识别声调的正确率，调参使其识别准确率大于90%，获得确切的神经网络训练分类模型；

S5.将疑似脑卒中后构音障碍患者的单音节词声调数据输入步骤四获得的神经网络训练分类模型进行音调判别，得到判别结果。

其中，步骤一具体包括如下步骤：

S1.1、选取《中国构音障碍语音评估系统词表》为测试词表；

S1.2、采取录音级的录音设备对所有被试者进行录音；

S1.3、进行单个元音的剪切，使用WAV格式保存并建立语音数据库，留待下一步分析提取共振峰时使用；

S1.4、基于自相关函数法提取语音数据库中所有声调的F0频率曲线；

S1.5、通过随机分组将提取的F0频率曲线分为训练组和测试组；

S1.6、将训练组提取的F0频率曲线平均分成8段，提取每段中点处的F0频率值。

前馈反向传播神经网络的构建，包括如下步骤：

S2.1、在MATLAB2013软件工具箱中调用newff函数，Net = newff（PR，[S1S2...SN]，{TF1 TF2...TFN}，BTF，BLF，PF）；

S2.2、设定newff第一个变量PR为基频的范围，每组的最大值和最小值构成R×2维矩阵；

S2.3、设定newff第二个变量Si为隐含层和输出层神经元的数目，S1表示第1层的向量长度，S2表示第2层的向量长度，SN代表第N层向量长度；

S2.4、设定newff第三个变量TFI为1到第N层的传递函数，为tansig函数；

S2.5、设定newff第四个变量BTF为反向传播网络训练函数，为trainlm函数；

S2.6、设定newff第五个变量BLF代表权值/阀值的反向传播学习函数，为learngdm函数；

S2.7、设定newff第六个变量PF代表神经网络性能函数，为mse函数。

神经网络训练分类模型的获得，包括以下步骤：

S3.1、选取语音数据库中训练组的F0频率数据作为训练用样本，并对F0进行已知标记；

S3.2、通过MATLAB2013工具箱对前馈反向传播神经网络进行训练，MATLAB2013工具箱的训练命令是net = train(net，P1，tP1)，train是训练命令，P1是要训练的F0频率值，tP1是已知声调标记。网络训练过程是神经网络自行参数条件，最终以最小差异值逼近标记，获得神经网络训练分类模型。

神经网络训练分类模型的测试、校正，包括以下步骤：

S4.1、选取语音数据库中测试组F0频率数据作为样本；

S4.2、MATLAB神经网络的测试命令是 output = sim（net，P），P是需要测试的未知基频，output是最后的判断结果；

S4.3、测试自动识别声调的正确率；如果正确率小于90%，对传递函数、反向传播网络训练函数、神经网络性能函数进行调参，直至诊断正确率大于90%。

同时本发明还公开了应用上述诊断方法的诊断装置。包括语音处理模块、前馈反向传播神经网络模块、神经网络训练分类模块，其中：

语音处理模块，采集以普通话为母语的脑卒中后构音障碍患者与同年龄段的正常成年人的单音节词声调数据，对语音数据进行预处理，提取F0频率曲线，并分为训练组和测试组；

前馈反向传播神经网络模块，将语音处理模块中的F0频率数据作为输入，进行训练校正，获得神经网络训练分类模块；

神经网络训练分类模块，将语音处理模块中的F0频率数据作为输入，进行测试校正，测试其自动识别声调的正确率，调整前馈反向传播神经网络模块的参数使神经网络训练分类模块识别准确率大于90%，获得确切的神经网络训练分类模块；将疑似脑卒中后构音障碍患者的单音节词声调数据输入神经网络训练分类模块进行音调判别，得到判别结果。

本发明基于人工智能的方法对声调进行客观、高效的评估，为脑卒中后构音障碍被试者诊断、评估、治疗计划及评定疗效提供帮助。使其能够尽早恢复正常的言语交流能力。

本发明与现有技术相比，具有如下优点：

1.本发明为一种基于声学、语音学、计算机科学指标检验的构音障碍客观评估方法，采取收集、提取、分析被试者汉语声调的客观声学特征，在基于人工智能的基础上对脑卒中后构音障碍患者进行客观的评估，评判被试者是否存在构音障碍，达到客观、高效的目的。对康复训练的实施具有一定的指导性意义。

2.本发明为国内外汉语人群提供了一种客观的构音障碍评估方法，相对于现有的构音障碍评估方法而言，减少了由于技术人员的技术水平、主观判断、地域差异等主观因素导致的评估误差，同时操作简单，耗时少，约5分钟/人，因此患者配合程度高，减少由于患者不配合以及当时情绪状态等因素造成的一系列误差。

3.本发明消耗少，重复测量度高，存储方便，语音材料存储可随时提取分析比较，可使被试者治疗前后分析比较可视化以及直观化，同时可平行比较多个不同被试者的语音情况。

4.本发明是基于人工智能的基础上研发的一种客观的构音障碍评估方法，与时代的技术水平紧密结合，研发创新出一种适合当代人群的客观评估方法，应用于现代技术，紧随时代的发展趋势。

附图说明

图1是本发明诊断方法的流程示意图。

具体实施方式

如图1所示，本发明实施例的诊断方法具体包括如下步骤：

S1.采集以普通话为母语的脑卒中后构音障碍患者与同年龄段的正常成年人的单音节词声调数据，对语音数据进行预处理后建立语音数据库100，提取F0频率曲线101，并分为训练组和测试组，本实施例中，训练组为正常人和患者各250人，测试组为正常人和患者各50人，共600人。

S2.构建用于声调分类的前馈反向传播神经网络102；

S3.将步骤一的语音数据库中训练组提取的F0频率数据作为输入，对步骤二构建的前馈反向传播神经网络102进行训练校正，获得神经网络训练分类模型103；

S4.将步骤一的语音数据库100中测试组提取的F0频率数据作为输入，对步骤三的神经网络训练分类模型103进行测试，测试其自动识别声调的正确率，调参使其识别准确率大于90%，获得确切的神经网络训练分类模型103；

S5.将疑似脑卒中后构音障碍患者的单音节词声调数据输入步骤四获得的神经网络训练分类模型进行音调判别104，得到判别结果105。

本实施例S1中语音数据预处理及F0频率曲线提取，具体包括如下步骤：

S1.1、词表选取：被试者（600人）语音提取样本采取的《中国构音障碍语音评估系统词表》是由暨南大学、俄亥俄州大学、阿肯色中央大学联合制作，由包含4个声调的/a,ba, bi, du, bo, ge, yu/7组共28个单音节词，共16800个目标音组成。其中，《中国构音障碍语音评估系统词表》如下表所示：

S1.2、录音：采取的Sony Zoom H4nPro便携式数码录音机进行录音，采样率为44100 Hz，采用精度为16 bit，双声道。对所有被试者进行录音，被试者取端坐位，笔者手拿专业录音机，使被试者口唇距录音机约10cm，录音之前，专业技术人员对被试者进行演示说明，开始录音后让被试者读取《中国构音障碍语音评估系统词表》中共28个目标音，语速自然平稳、音量适中，将词表重复录2次。

S1.3、语音提取存档：语音采集提取软件 Cool Edit Pro2.1 是 1990 年美国Adobe Systems 公司研发的一款录音和音频处理软件，该软件功能强大、齐全，本发明采用其软件的剪切功能，在录音后使用此软件进行单个元音的剪切，并使用WAV格式保存存档建立语音数据库100，以便于下一步分析提取共振峰时使用。

S1.4、提取基频F0：基于自相关函数法（autocorrelation function）提取语音数据库中所有声调的F0频率曲线。F0频率曲线的提取频率为8 ms，帧大小为24 ms，提取的上下边界分别为50 Hz和500 Hz。对于偶尔出现的错误手动纠正。曲线不连续予以补齐，首尾两端异常频率线删除。

S1.5、通过随机分组将提取的F0频率曲线分为训练组（正常人和患者各250人）和测试组（正常人和患者各50人）。

S1.6将训练组提取的基频曲线设计平均分成8段，每段中点处的F0频率值作为输入数据。

前馈反向传播神经网络（MLP）的构建，具体包括如下步骤：

S2.1、在MATLAB2013软件工具箱中调用newff函数，Net = newff（PR，[S1S2...SN]，{TF1 TF2...TFN}，BTF，BLF，PF）。

S2.2、设定newff第一个变量PR为输入特征的范围，此处为基频的范围。每组的最大值和最小值构成8行2列矩阵。

S2.3、设定newff第二个变量Si为隐含层和输出层神经元的数目。S1表示第1层的向量长度（神经元个数），S2表示第2层的向量长度，SN代表第N层向量长度。

S2.4、第三个变量TFI为1到第N层的传递函数，默认函数为tansig（反正切）函数。BTF代表训练函数，默认函数为trainlm函数；BLF代表权值/阀值的反向传播学习函数，默认函数为learngdm函数；PF代表神经网络性能函数，默认函数为mse函数。每一次输入1个声调频率曲线的8个片断的中点值，隐含层神经元设定为7个，输出代表4个声调的神经元。输出神经元从左到右分别对应1-4声调。

步骤S3中训练神经网络训练分类模型包括以下步骤：

S3.1、选取训练组（正常人和患者各250人）的F0频率数据（每个声调有8个片断的中点值数据，共112000个），作为训练用样本。并对F0频率数据进行已知标记。

S3.2、通过MATLAB2013工具箱对前馈反向传播神经网络（MLP）进行训练。MATLAB2013工具箱的训练命令是net = train(net，P1，tP1),上面的 train是训练命令，P1是要训练的F0频率值，即每行最大值和最小值组成的8×2矩阵，tP1是已知声调标记。网络训练过程是神经网络自行参数条件，最终以最小差异值逼近标记。获得神经网络训练分类器模型。

步骤S4中测试神经网络训练分类器模型具体包括以下步骤：

S4.1、选取测试组（正常人和患者各50人）F0频率数据（每个声调有8个片断的中点值数据，共22400个）作为样本，输入训练后获得神经网络训练分类器模型。

S4.2、MATLAB神经网络的测试命令是 output = sim（net，P）。上面的P是需要测试的未知基频，output是最后的判断结果。

S4.3、测试自动识别声调的正确率；调整前馈反向传播神经网络的传递函数、反向传播网络训练函数、神经网络性能函数，直至诊断准确率大于90%。

S5、将疑似脑卒中后构音障碍患者的单音节词声调数据输入获得的确切的神经网络训练分类模型进行音调判别，得到判别结果。

包含本实施例的诊断方法的诊断装置包括语音处理模块、前馈反向传播神经网络模块、神经网络训练分类模块，其中：

本发明通过采集300名以普通话为母语的脑卒中后构音障碍患者（PSD）与300名年龄相似的正常成年人（NA）的单音节词声调数据（共计16800个音频，28个单音节词×600个说话者)，分为训练组（正常人和患者各250人）和测试组（正常人和患者各50人）。通过训练组进入人工神经网络（artificial neural network ANN)训练，获得诊断模型；测试组测试自动识别声调的正确率；调参至诊断准确率大于90%。该方法是通过人工智能对声调进行评估，能够达到客观、高效的目的，减少不同机构和不同治疗师评估的差异性，并对康复训练的实施具有一定的指导性意义。

本发明训练组和测试组人数不限于前述实施例的人数，一般而言，人数越多，采集得到的语音数据库100越大，其可参考度越高，代表性越强。故此，在条件允许的情况下，可以增加训练组和测试组人数。

Claims

1.一种基于神经网络诊断卒中后构音障碍声调错误的方法，包括语音采集，其特征在于：包括如下步骤：

S2. MATLAB2013调用newff函数构建用于声调分类的前馈反向传播神经网络；

S5.将疑似脑卒中后构音障碍患者的单音节词声调数据输入步骤四获得的神经网络训练分类模型进行音调判别，得到判别结果；

其中，S1包括以下步骤：

S1.1、选取《中国构音障碍语音评估系统词表》为测试词表；

S1.2、采取录音级的录音设备对所有被试者进行录音；

2.根据权利要求1所述的一种基于神经网络诊断卒中后构音障碍声调错误的方法，其特征在于：前馈反向传播神经网络的构建，包括如下步骤：

S2.1、在MATLAB2013软件工具箱中调用newff函数，net = newff（PR，[S1 S2...SN]，{TF1 TF2...TFN}，BTF，BLF，PF）；

S2.3、设定newff第二个变量Si为隐含层和输出层神经元的数目，S1表示第1层的向量长度，S2表示第2层的向量长度，SN代表第N层向量长度，i的取值范围为1至N；

S2.4、设定newff第三个变量TFI为1到第N层的传递函数，为tansig函数，I的取值范围为1-N；

3.根据权利要求2所述的一种基于神经网络诊断卒中后构音障碍声调错误的方法，其特征在于：神经网络训练分类模型的获得，包括以下步骤：

S3.2、通过MATLAB2013工具箱对前馈反向传播神经网络进行训练，MATLAB2013工具箱的训练命令是net = train(net，P1，tP1),train是训练命令，P1是要训练的F0频率值，tP1是已知声调标记；网络训练过程是神经网络自行参数条件，最终以最小差异值逼近标记，获得神经网络训练分类模型。

4.根据权利要求2所述的一种基于神经网络诊断卒中后构音障碍声调错误的方法，其特征在于：神经网络训练分类模型的测试、校正，包括以下步骤：

S4.1、选取语音数据库中测试组F0频率数据作为样本；

S4.3、测试自动识别声调的正确率；如果正确率小于90%，对传递函数、反向传播网络训练函数、神经网络性能函数进行调参，直至诊断正确率大于90%，获得确切的神经网络训练分类模型。

5.应用权利要求1至4任一所述的一种基于神经网络诊断卒中后构音障碍声调错误的方法的诊断装置，包括语音处理模块、前馈反向传播神经网络模块、神经网络训练分类模块，其中：