CN114373484A

CN114373484A - 语音驱动的帕金森病多症状特征参数的小样本学习方法

Info

Publication number: CN114373484A
Application number: CN202210280063.1A
Authority: CN
Inventors: 季薇; 符宇辰; 李云
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-04-19

Abstract

本发明是一种语音驱动的帕金森病多症状特征参数的小样本学习方法，实现了在小规模数据集下对帕金森病患者的语音分析，将语音的初阶特征输入卷积神经网络，将得到的高阶特征进行组合，得到原型向量，再通过比较距离的方法计算原型和待测语音的差异性，并预测出待测样本在每一种症状下的概率，然后使用深度学习中的交叉熵损失函数和Adam优化器训练模型，使得原型向量接近于患者具有症状的真实分布，并将最终得到的原型向量作为关键性特征，实现帕金森病患者多种症状的同时预测分析。

Description

语音驱动的帕金森病多症状特征参数的小样本学习方法

技术领域

本发明属于深度学习领域在医学方面的应用，涉及一种语音驱动的帕金森病多症状特征参数的小样本学习方法及系统。

背景技术

帕金森病是一种常见的慢性神经性退化疾病，其症状包括运动症状和非运动症状。而根据运动障碍的不同，又可将患者分为震颤主导型(TD)和姿势/步态障碍型(PIGD)。运动症状包括震颤，冻结步态，吞咽困难，异动，开关期等。震颤主要表现为患者四肢或全身持续性或间歇性地颤抖，多见于震颤主导型；冻结步态主要表现为患者行走时步幅降低或突然中止，起步困难，迈腿受阻，难以行走，多见于姿势/步态障碍型；吞咽困难主要表现为患者在饮食过程中吞咽延迟、误吸、呛咳等，任何患者都有可能具有吞咽苦难的症状，甚至是患者的唯一症状；异动症状主要表现为患者作舞蹈样、手足徐动或简单重复的不自主运动，可累及头面部、四肢和躯干；开关期主要表现为患者运动症状接近消失，日常活动接近正常，并在未用药的情况下在短时间内重新出现运动障碍，一段时间后又自然缓解，一日当中可重复交替出现多次。异动症和开关期症状仅见于服用左旋多巴药物的患者，此类患者往往处于疾病的中晚期。帕金森病患者往往具有上述症状的一种或多种，大部分具有上述症状的患者的饮食起居需要借助他人照顾，严重影响患者的生活质量。

已有的研究表明，帕金森病的运动障碍和语音障碍之间存在病理联系。语音损伤可能是帕金森病最早期的症状之一，其症状主要表现为讲话缓慢、声音嘶哑、音量低和发音震颤等。语音障碍是由于患者的喉部病变，声带控制能力下降，以及唇齿舌等器官的不规律运动引起的。人的语音主要通过肺部产生气流，经过声带振动和唇齿舌的规律运动产生，而人体各个器官之间的合作由神经元统一协调控制。帕金森病患者由于体内多巴胺的缺失，导致部分神经元退化损失，进而无法控制器官准确发音，使得帕金森病患者均有不同程度的语音障碍。随着病情的发展，患者的运动症状随之体现，语音障碍也会恶化，因此可以利用语音信号对帕金森病患者进行症状分析。

利用语音信号分析帕金森病的病情时首先要对语音的质量进行评估，以判断语音中是否包含过多的噪声以至于影响分析结果，患者录制语音一般采用普通智能手机，录制环境一般为住宅或者医院，这样的环境无法保证每条数据的语音质量，导致能达到质量评估标准的语音数据很少，这造成训练模型的数据样本数量较少。

另外，同一患者在不同时期的健康状况和身体状态不同，受到疾病恶化、服药与否、开期关期等因素的影响，因此来自同一患者的语音数据并不能简单归为一类，数据集具有异质性，这导致了数据集类别数多，而同类数据的数量少的情况。

发明内容

为了解决上述问题，本发明提供了一种一种基于小样本学习的帕金森病多症状关键特征参数的获取方法，将语音数据集划分为多个任务集合，对语音信号提取初阶特征后，将其输入卷积神经网络，得到高阶特征，再计算其原型特征，通过原型特征和查询特征的对比学习训练神经网络，使得卷积神经网络提取的高阶特征接近帕金森病患者运动症状的真实分布，实现帕金森病患者多种运动症状的关键特征参数的提取，以帮助评估病情并制定个性化的治疗方案。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种语音驱动的帕金森病多症状特征参数的小样本学习方法，多症状为吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状，所述语音分析方法包括如下步骤：

步骤1：采集帕金森病患者参与多语音任务的语音数据，并对所述语音数据进行多标签标注；

步骤2：对步骤1中采集的帕金森患者的语音数据进行预处理，然后提取梅尔频率特征，得到能够表征语音数据的特征向量，并构造多任务数据集，具体为：具体包括如下步骤：

步骤2-1：将步骤1中采集的帕金森患者的语音转换为频谱图后通过梅尔滤波器组得到语音的梅尔频谱特征；

步骤2-2：对于数据集

中的

个样本语音的梅尔频谱特征，根据语音来源的患者症状定义标签信息

，组成样本对

，其中

代表第

个样本

，

为第

个样本的标签，是一个长度为5的one-hot向量，向量中的0代表受试者没有该标签所代表的症状，反之为1；将整个数据集划分为多个任务集合，在每个任务集合中，对于标签

，从

中无放回采样

个正样本，其中

，即每一个样本的标签

都等于1，构成标签k的正支撑集

，再采样

个负样本，即每一个样本的标签

都等于0，构成标签k的负支撑集

，然后再从数据集

中随机采样1个样本

作为查询样本，每个任务集合需包含所有的5个标签的正负支撑集，即

，因此每个任务集合中包含

条数据。

步骤3：语音数据的梅尔频率特征向量输入Resnet34卷积神经网络得到每一种标签的正类高层表征向量和负类高层表征向量，具体过程包括如下步骤：

步骤3-1：初始化Resnet34卷积神经网络参数：采用在AudioSet音频数据集上预训练好的模型参数作为初始化参数，AudioSet音频数据集具有600多个音频类别，远超此处所需的类别数，可以让模型预先学习到数据的普遍特征，加快训练速度；

步骤3-2：设Resnet34为函数

，将每一个任务集中的正支撑集

当中的样本输入网络得到标签k下的正特征集

，即

，负支撑集

输入网络得到标签k下的负特征集

，即

，查询样本x_i输入网络得到查询特征

。

步骤4：由步骤3的高层表征向量计算得到每一个标签的原型向量，并计算支持集原型和查询集原型之间的距离，将距离通过softmax后得到样本具有每一种标签的概率。

具体包括如下步骤：

步骤4-1：将正特征集中所有的C个向量相加求平均得到正原型向量，即：

同样地，可以得到负原型向量

；

步骤4-2：分别计算标签k下查询样本的特征

与

和

的欧氏距离：

；

步骤4-3：通过softmax函数计算查询样本

是每一种标签

, k=(1,2,3,4,5)正样本的概率

：

。

步骤5：定义损失函数并训练模型，具体包括如下步骤：

步骤5-1：采用交叉熵损失函数计算模型预测结果和查询样本之间的损失值：

其中T为数据集

中包含的任务集合数量，

为符号函数，代表观测样本

是否具有标签

的真实值，

代表观测样本

属于类别k的预测概率；

步骤5-2：训练模型时，batch size为可以调整的超参数，设batch size为

，即代表一个batch中包含B个任务集合，利用Adam优化器进行随机梯度下降，每训练一个batch更新一次模型参数，基于训练数据迭代更新Resnet34卷积神经网络的参数。

步骤6：得到训练好的模型，输入新的语音样本，输出预测的5种标签值，辅助医生做出吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状下的评估。

本发明还提供了一种基于小样本学习的帕金森病多症状关键特征参数的语音分析系统，该系统包括：

1）语音信号采集模块；用于执行步骤一：采集帕金森病患者的语音数据，以及帕金森病患者吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状的特征信息；

2）语音信号预处理模块；用于执行步骤二：对语音数据进行预处理，包括去除环境噪声，去除静音片段，然后提起梅尔频谱特征，并将数据集划分为多个任务集合；

3）语音特征提取模块；用于执行步骤三：利用Resnet34卷积神经网络提取语音的高层表征向量，并计算原型向量；

4）距离度量模块；用于执行步骤四：计算原型样本和查询样本之间的欧氏距离，并通过softmax函数计算查询样本的标签概率；

5）原型网络模型训练模块；用于执行步骤五：采用交叉熵损失函数和Adam优化器训练原型网络模型；

6）语音分析模块，用于执行步骤六：将待测语音输入训练好的模型，得到待测者吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状的关键特征指标。

本发明的有益效果是：本发明通过小样本学习中的原型网络模型能够从有限的样本中学习到与当前分类任务相关的有用特征信息，甄别出语音信号当中与帕金森病亚型有关的特征，排除其他干扰信息，更好地表征帕金森病特定亚型，从而根据语音信号实现由多种运动症状抽象成的多标签分类任务；同时在遇到未知的类别样本时，模型也具有一定的鲁棒性，可以实现对新任务集合的分类预测，具有可迁移性；因此可以利用深度学习领域的原型网络技术模型进行帕金森病的多种运动症状的同时分析。

附图说明

图1是本发明流程示意图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1所示，本发明是一种语音驱动的帕金森病多症状特征参数的小样本学习方法，多症状为吞咽困难症状、冻结步态症状、震颤症状、异动症状和开关期症状，所述语音分析方法包括如下步骤：

步骤一：采集帕金森病患者参与多语音任务的语音数据，并对所述语音数据进行多标签标注。

步骤二：对步骤1中采集的帕金森患者的语音数据进行预处理，然后提取梅尔频率特征，得到能够表征语音数据的特征向量，并构造多任务数据集，具体为：

步骤2-2：对于数据集

中的

，组成样本对

，其中

代表第

个样本

，

为第

个样本的标签，是一个长度为5的one-hot向量，向量中的0代表受试者没有该标签所代表的症状，反之为1；

步骤2-3：将整个数据集划分为多个任务集合，在每个任务集合中，对于标签

，从

中无放回采样

个正样本，其中

，即每一个样本的标签

都等于1，构成标签k的正支撑集

，再采样

个负样本，即每一个样本的标签

都等于0，构成标签k的负支撑集

；

步骤2-4：然后再从数据集

中随机采样1个样本

，因此每个任务集合中包含

条数据。

步骤三：代表语音数据的梅尔频谱特征向量为二维张量，第一维为1代表通道数为1，即单声道语音，第二维为24000，代表采样点数，与语音时长有关。提取高层向量的模型为Resnet34卷积神经网络，原因是Resnet网络在图像分类领域取得了良好的表现，而语音数据的梅尔频谱特征向量的结构等价于由灰度图像提取得到的特征。提取得到的高层特征也为二维张量，第一维为1，代表是否具有标签

，第二维为512，代表特征值，与网络结构有关。具体为：

步骤3-1：初始化Resnet34卷积神经网络参数：采用在AudioSet音频数据集上预训练好的模型参数作为初始化参数；AudioSet音频数据集具有600多个音频类别，远超此处所需的类别数，可以让模型预先学习到数据的普遍特征，加快训练速度；

步骤3-2：设Resnet34为函数

，将每一个任务集中的正支撑集

当中的样本输入网络得到标签k下的正特征集

，即

；

步骤3-3：负支撑集

输入网络得到标签k下的负特征集

，即

；

步骤3-4：查询样本x_i输入网络得到查询特征

。

步骤4：由步骤3的高层表征向量计算得到每一个标签的原型向量，并计算支持集原型和查询集原型之间的距离，将距离通过softmax后得到样本具有每一种标签的概率，具体为：

同样地，可以得到负原型向量

；

步骤4-2：分别计算标签k下查询样本的特征

与

和

的欧氏距离：

；

步骤4-3：通过softmax函数计算查询样本

是每一种标签

, k=(1,2,3,4,5)正样本的概率

：

。

步骤5：定义损失函数并训练模型，具体包括如下步骤：

其中T为数据集

中包含的任务集合数量，

为符号函数，代表观测样本

是否具有标签

的真实值，

代表观测样本

属于类别k的预测概率；

，即代表一个batch中包含B个任务集合；

步骤5-3：利用Adam优化器进行随机梯度下降，每训练一个batch更新一次模型参数，基于训练数据迭代更新Resnet34卷积神经网络的参数。

采用以下实验验证本发明：

步骤一、采集帕金森病患者参与多语音任务（元音/a/，重复音节/pa-ka-la/，固定短句）的语音数据，并对上述语音数据进行多标签标注（是否具有震颤、冻结步态、吞咽困难、异动、开关期的症状），本实验选用本发明所采集到的帕金森病患者的语音数据集作为研究对象。该数据集共包含66位帕金森病确诊患者，其中包括40位男性和26位女性。采集的语音语言均为普通话，患者的年龄由55岁至87岁不等，平均年龄为69岁。每个患者都采集了多条语音数据，包括持续元音/a/，重复音节/pa-ka-la/和阅读固定短句，总共包含405条语音数据，即

。每一条语音数据对应一个长度为5的标签信息，代表5种帕金森病症状的信息，1代表具有该症状，0代表未出现该症状。

步骤二、对语音信号进行预处理，包括去噪增强，剪辑掉静音片段等。并对语音信号提取梅尔频率特征，采样率选择16000Hz，FFT点数选择1024，梅尔滤波器个数选择128。并构建多任务数据集。

将数据集划分为多个任务集合：在每个任务集合中，选择

的大小为1，即每个任务集合中支持集的大小为10，每个症状都有1条正样本和1条负样本，并且不同症状的样本不重复，查询样本和支持集中的样本也不能重复。不同任务集合中的样本可以重复，但是样本重复率不能大于50%，训练集和测试集中的样本也不能重复。最终得到375个训练任务集合125个测试任务集。

步骤三、将语音的梅尔频率特征输入卷积神经网络，得到数据的高阶特征表示。选择Resnet34作为embedding model，在输入之前需要对模型进行初始化参数，使用Resnet34在AudioSet数据集上预训练之后的模型参数来初始化。其次需要修改Resnet34的输入通道数和输出类别数，分别修改为1和32。

步骤四、计算同一任务集中正支持集的原型向量和负支持集的原型向量，并计算原型向量和查询样本之间的欧氏距离，再通过softtmax函数得到查询样本在每一个标签下的预测概率。

步骤五、选择交叉熵损失函数和Adam优化器训练模型。

步骤六、给出语音分析结果：将待测语音输入模型，得到待测者关于5种症状的关键特征参数。

与传统的帕金森病评估方法相比，本发明利用语音信号来检测帕金森病更加经济且高效，语音检测有着非侵入式、方便、快捷等优点。至于发音方式，可以使用持续元音/a/，连续重复音节/pa-ka-la/和阅读固定的短句。元音/a/能够体现声带持续振动的能力以及喉部肌肉的健康状况；重复音节能够衡量唇齿舌等器官运动的规律性以及下颌关节的咬合能力；阅读固定的句子则能够帮助综合评估所有的发声组件和发音的可理解性。通过语音信号来分析帕金森病的多种运动症状时需要通过信号处理算法对待测语音进行分析，提取出能够表征帕金森病运动症状病理特征的语音特征信息。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。