CN113284512B

CN113284512B - 一种基于深度稀疏迁移学习的帕金森语音分类方法

Info

Publication number: CN113284512B
Application number: CN202110568802.2A
Authority: CN
Inventors: 张小恒; 李勇明; 刘书君
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-05-27
Anticipated expiration: 2041-05-25
Also published as: CN113284512A

Abstract

本发明涉及帕金森语音数据集分类技术领域，具体公开了一种基于深度稀疏迁移学习的帕金森语音分类方法，该方法首先采用基于中间集的稀疏迁移学习方法对帕金森公共语音数据集生成最优卷积核(步骤S1)，进一步采用聚类方法聚类生成帕金森目标数据集A的深度样本空间(步骤S2)，进一步采用卷积稀疏编码基于最优卷积核组

生成深度样本空间dA的深度特征映射空间(步骤S3)，进一步将深度特征映射空间dE向量化扩展为dG并划分为训练集和测试集(步骤S4)。本发明迁移适用于帕金森目标数据集A的最优结构表达并挖掘其复杂结构信息(步骤S1～S4)，从而提高最终的分类准确率，LOSO交叉验证下准确率高达99.5％，优于目前的最优方法(准确率97.5％)。

Description

一种基于深度稀疏迁移学习的帕金森语音分类方法

技术领域

本发明涉及帕金森语音数据集分类技术领域，尤其涉及一种基于深度稀疏迁移学习的帕金森语音分类方法。

背景技术

帕金森症是退行性神经疾病，具有长周期、起病隐匿不可逆等特点，早期诊断和长期监控是提升评估效果和监控管理的主要手段。近年来，语音技术能无创获取构音障碍信息，成为了研究的热点，也涌现了大量基于语音的分类诊断方法。这些方法大都是直接针对当前帕金森语音数据集进行建模分类，没有考虑帕金森语音样本集普遍存在小样本的特点，因此分类准确率及泛化性能难以进一步提高。迁移学习相关方法可以有效解决小样本问题，也有研究证实其在疾病诊断中的有效性，且目前应用于疾病诊断的迁移学习方法都只涉及从源域到目标域的一阶段迁移，且源域到目标域的相似度较低会影响正迁移的效果。此外，当前所有相关发明分类算法都仅仅考虑了原始样本，没有考虑样本之间的结构关系。

发明内容

本发明提供一种基于深度稀疏迁移学习的帕金森语音分类方法，解决的技术问题在于：如何从帕金森公共语音数据集中提取最优结构表达，并将其迁移到帕金森语音目标集中从而更有利于分类；如何挖掘帕金森语音目标集的复杂结构信息，从而更有利于小样本数据集分类。

为解决以上技术问题，本发明提供一种基于深度稀疏迁移学习的帕金森语音分类方法，包括步骤：

S1：对帕金森公共语音数据集基于中间集的稀疏迁移学习方法生成最优卷积核组

S2：对帕金森目标数据集A采用聚类方法生成对应的深度样本空间dA＝[dA₀,dA₁,…,dA_N]，其中dA₀表示第0层的数据集即原始目标集A，dA₁至dA_N表示第1层至第N层的数据集；

S3：基于最优卷积核组

对深度样本空间dA进行卷积稀疏编码，并生成对应的深度特征映射空间dE＝[dE₀,dE₁,…,dE_N]，dE₀至dE_N表示第0层至第N层的特征映射；

S4：将深度特征映射空间dE向量化扩展为dG，并按不同受试者编号将dG划分为第一训练集dG_train和第一测试集dG_test；

S5：在第一训练集dG_train上计算对应特征的权重向量

并根据权重大小筛选第一训练集dG_train和第一测试集dG_test的特征，留下Q个最大权重所对应的特征构建第二训练集

与第二测试集

S6：采用第二训练集

训练分类模型，并预测得到第二测试集

第0层至第N层的预测标签向量L₀,L₁,…,L_N，其中第n层的标签向量L_n＝[L_n1,L_n2,…,L_nM]，即编号1至M的受试者在该层对应的分类标签分别为L_n1至L_nM；

S7：对同一编号受试者进行投票操作，得到其二分类结果。

进一步地，所述步骤S1具体包括步骤：

S11：提取帕金森公共语音数据集S的多类型特征形成源域特征集

S12：基于源域特征集

利用卷积稀疏编码算法，随机初始化由K个卷积核组成的卷积核组

并重复训练得到R组卷积核

S13：构建中间特征集

并基于已训练好的R组卷积核中不同组

对中间特征集

进行卷积稀疏编码得到特征映射集B′，并计算得到R个不同的分类准确率，最后选择最高准确率对应的卷积核组作为最优卷积核组

进一步地，所述步骤S11具体包括步骤：

S111：对帕金森公共语音数据集

提取不同类型的特征，构建初始特征集

其中，L为帕金森公共语音数据集中语音段的个数，

为编号为l的语音段；特征列向量

ξ_f(·)为第f个特征提取函数，F为特征类型总数；

S112：以同一组的特征向量组成一个矩阵作为一个特征样本，对初始特征集Y中的特征向量进行分组，从而构造由G个特征样本组成的源域特征集

其中，第g个特征样本

是H₀×F分块矩阵，

表示L除以G再取整，为一个特征样本包含的特征向量数。

进一步地，所述步骤S12中，卷积稀疏编码算法的目标式为：

其中，e_g,_k是H₀×F特征映射矩阵，与对应的卷积核d_k进行卷积运算逼近

符号*表示二维卷积运算，η是大于0的正则化因子。

进一步地，所述步骤S13中：

构建中间特征集

具体为：

S131：选取语音障碍相关数据集V作为中间集，采用与步骤S11完全相同的步骤，提取其中语音段的多类型特征组成特征向量，并构建中间特征集

其中，

表示中间特征集

中第b个特征样本，B表示对应特征样本的数量；

基于已训练好的R组卷积核中不同组

对中间特征集

进行卷积稀疏编码得到特征映射集B′，具体包括步骤：

S132：将步骤S12中卷积稀疏编码算法的目标式中的输入样本

替换为

构建目标式：

S133：根据步骤S132中的目标式，使用已训练好的卷积核组

进行训练，以优化特征映射e_b,k；

S134：训练完成，对每个样本

可得到K个映射

选取第K′个映射作为其编码，从而构建所有样本映射的特征映射集

由于卷积核有R组，因此得到R个特征映射集

进一步地，所述步骤S2具体为：

基于帕金森目标数据集A由编号1至M受试者数据组成，即

其中每个受试者数据

都由H₀个语音样本组成，即

对帕金森目标数据集A中每个受试者数据

进行k-means聚类，即指定不同的聚类样本数H_n将

聚类为

作为1至N层的数据，得到深度样本空间

其中第n层深度样本空间

进一步地，所述步骤S3采用与S13中对中间特征集

进行卷积稀疏编码得到特征映射集B′相同的步骤，基于最优卷积核组

对深度样本空间dA进行卷积稀疏编码，对每一深度样本

映射得到对应的深度特征映射

得到深度特征映射空间

进一步地，步骤S4具体包括步骤：

S41：将每个受试者的数据在第n层空间的映射即H_n×F块矩阵

向量化扩展为长度为H_n·F的一维向量

从而将深度特征映射空间

向量化扩展为

S42：将dG划分为第一训练集dG_train和第一测试集dG_test即dG＝{dG_train,dG_test}，其中第一训练集dG_train包含N+1层样本空间{dG_train(0),dG_train(1),…,dG_train(N)}，每层样本空间有M₁名受试者，第一测试集dG_test包含N+1层样本空间{dG_test(0),dG_test(1),…,dG_test(N)}，每层样本空间有M₂＝M-M₁名受试者，具体表达如下：

进一步地，步骤S5具体包括步骤：

S51：使用relief算法计算

中特征列向量

所对应的权重向量

计算的过程为：

令特征列向量

中第j个特征列向量

根据下式计算

的权重值：

其中，M_c(γ_n,ij)是γ_n,ij的C个同类邻域样本中的一个，H_c(γ_n,ij)是γ_n,ij的C个异类邻域样本中的一个；

S52：根据权重大小筛选第一训练集dG_train和第一测试集dG_test的特征，其中

分别留下Q个最大权重所对应的特征构建第二训练集

与第二测试集

第0至N层筛选的特征数分别为Q(0)，Q(1)，…，Q(N)，其中第n层筛选权重值最大的前Q(n)个特征表示为：

且index(n)是权重w_n,i所对应特征向量的列标记。

进一步地，所述步骤S7具体为：

将属于帕金森和不属于帕金森的预测标签分别用数值1和数值0表示，根据编号为m的受试者的来自N+1层的N+1个预测标签L_0m,L_1m,…,L_Nm计算该受试者的投票预测标签

并根据

计算编号M₁+1至M受试者的测试分类准确率，其中符号⊙为同或运算符，

为编号为m的受试者的固有标签。

本发明提供的一种基于深度稀疏迁移学习的帕金森语音分类方法，首先采用基于中间集的稀疏迁移学习方法对帕金森公共语音数据集生成最优卷积核(步骤S1)，进一步采用聚类方法聚类生成帕金森目标数据集A的深度样本空间(步骤S2)，进一步采用卷积稀疏编码基于最优卷积核组

生成深度样本空间dA的深度特征映射空间(步骤S3)，进一步将深度特征映射空间dE向量化扩展为dG并划分为训练集和测试集(步骤S4)，进一步基于权重大小筛选构建新的训练集和测试集(步骤S5)，进一步采用新的训练集训练以及采用新的测试集进行预测得到预测标签序列(步骤S6)，最后对标签序列进行投票得到每个受试者的分类结果，最后根据分类结果计算分类准确率(步骤S7)。

与现有技术方案相比较，本发明具有以下优点：

1)基于中间集筛选出公共语音源域数据集(帕金森公共语音数据集)中的最优结构表达信息(最优卷积核组

)，并将其结构信息迁移到帕金森目标数据集A，对目标集进行更精准表达，从而有效改善帕金森语音识别中存在的小样本学习问题；

2)构建帕金森语音深度样本空间，挖掘帕金森语音目标集的复杂结构信息，从而更有利于分类；

3)迁移适用于帕金森目标数据集A的最优结构表达并挖掘其复杂结构信息，从而提高最终的分类准确率。

附图说明

图1是本发明实施例提供的一种基于深度稀疏迁移学习的帕金森语音分类方法的第一流程图；

图2是本发明实施例提供的一种基于深度稀疏迁移学习的帕金森语音分类方法的第二流程图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

为提高对帕金森目标数据集A的分类准确率，本发明实施例提供一种基于深度稀疏迁移学习的帕金森语音分类方法，如图1和图2所示，包括步骤：

S3：基于最优卷积核组

S5：在第一训练集dG_train上计算对应特征的权重向量

与第二测试集

S6：采用第二训练集

训练分类模型，并预测得到第二测试集

S7：对同一编号受试者进行投票操作，得到其二分类结果。

对于步骤S1，其具体包括步骤：

S12：基于源域特征集

并重复训练得到R组卷积核

S13：构建中间特征集

并基于已训练好的R组卷积核中不同组

对中间特征集

进行卷积稀疏编码得到特征映射集B′，并都采用LOSO交叉验证计算R个不同特征映射集的分类准确率，最后选择最高准确率对应的卷积核组作为最优卷积核组

对于步骤S11，本例采用TIMIT公共语音集作为该帕金森公共语音数据集，其具有语音段数量L＝6300，特征总数F＝26，提取的特征依次如表1所示。

表1提取的具体特征

由于上述特征的提取函数已在开源工具Praat中实现，可利用Praat从原始语音段中直接提取上述信息。

更具体的，步骤S11具体包括步骤：

S111：对帕金森公共语音数据集

提取不同类型的特征，构建初始特征集

其中，L为帕金森公共语音数据集中语音段的个数，

为编号为l的语音段；特征列向量

ξ_f(·)为第f个特征提取函数，F为特征类型总数；

其中，第g个特征样本

是H₀×F分块矩阵，

表示L除以G再取整，为一个特征样本包含的特征向量数。

本例语音段生成的特征向量按13个特征向量分为一组，即H₀＝13，特征集总的样本数G＝484。

对于步骤S12，其进行卷积稀疏编码算法的目标式为：

其中，e_g,k是H₀×F特征映射矩阵，与对应的卷积核d_k进行卷积运算逼近

符号*表示二维卷积运算，η是大于0的正则化因子。本例H₀＝13，F＝26，G＝484，η＝1，卷积核数K可取2至8之间任一整数，训练的卷积核组数R＝10。卷积核训练方法可采用已公开的交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)求解。本实施例具体采用GitHub平台上开源的快速卷积稀疏编码法求解。

对于步骤S13，其构建中间特征集

具体为：

其中，

表示中间特征集

中第b个特征样本，B表示对应特征样本的数量。

其基于已训练好的R组卷积核中不同组

对中间特征集

进行卷积稀疏编码得到特征映射集B′，具体包括步骤：

S132：将步骤S12中卷积稀疏编码算法的目标式中的输入样本

替换为

构建目标式：

S133：根据步骤S132中的目标式，使用已训练好的卷积核组

进行训练，以优化特征映射e_b,k；

S134：训练完成，对每个样本

可得到K个映射

由于卷积核有R组，因此得到R个特征映射集

步骤S131的中间集来自于德国萨尔布吕肯大学语音数据库(SVD)，将SVD中复发性麻痹症数据集的201个患者数据和SVD中任意选取的201个正常人数据共同构建中间集，其中每个受试者依次朗读10个数字‘1’,‘2’,‘3’,‘4’,‘5’,‘6’,‘7’,‘8’,‘9’,‘10’,及元音‘a’，‘o’，‘u’，即提供13个语音段。对语音段提取多类型特征构建特征集，特征集样本总数B＝402，样本尺寸参数H₀＝13，F＝26。步骤S134选取的特征映射序数K′可取1至K之间任一整数。

对于步骤S2，该步骤具体为：

基于帕金森目标数据集A由编号1至M受试者数据组成，即

其中每个受试者数据

都由H₀个语音样本组成，即

对帕金森目标数据集A中每个受试者数据

进行k-means聚类，即指定不同的聚类样本数H_n将

聚类为

作为1至N层的数据，得到深度样本空间

其中第n层深度样本空间

帕金森目标数据集A来源于UCI公共帕金森语音特征数据集，由学者Sakar创建，受试者总数M＝40，其中20名患者，20名正常人，每名受试者提供26个语音段，为与中间集的语音段保持统一故选取其中10个数字‘1’,‘2’,‘3’,‘4’,‘5’,‘6’,‘7’,‘8’,‘9’,‘10’,及元音‘a’，‘o’，‘u’对应的13个语音段构建目标集。深度样本空间层数N＝12，在样本空间n＝0～12中，将每名受试者的13个语音段样本分别聚类为H_n个样本，H_n＝13-n,1≤n≤12。

具体的，步骤S3采用与S13中对中间特征集

对深度样本空间dA进行卷积稀疏编码，对每一深度样本

映射得到对应的深度特征映射

得到深度特征映射空间

对于步骤S4，该步骤具体包括步骤：

S41：将每个受试者的数据在第n层空间的映射即H_n×F块矩阵

向量化扩展为长度为H_n·F的一维向量

从而将深度特征映射空间

向量化扩展为

步骤S4中可采用hold-out交叉验证或LOSO交叉验证，当采用hold-out交叉验证时，第一训练集的受试者数量M₁＝20，第一测试集的受试者数量M₂＝20；当采用LOSO M₁＝39，M₂＝1。

对于步骤S5，其具体包括步骤：

S51：使用relief算法计算

中特征列向量

所对应的权重向量

计算的过程为：

令特征列向量

中第j个特征列向量

根据下式计算

的权重值：

分别留下Q个最大权重所对应的特征构建第二训练集

与第二测试集

且index(n)是权重w_n,i所对应特征向量的列标记。

步骤S5中relief算法的最近邻数C＝5，第0层至12层筛选的最优特征数取值1≤Q(n)≤26(13-n)，其中n为层数。

对于步骤S6，分类模型采用线性SVM分类器。

对于步骤S7，其具体为：

并可根据

为编号为m的受试者的固有标签。则LOSO交叉验证下的准确率

下面对本实施例分类方法的分类效果进行验证。

中间集1由陆军军医大学第一附属医院的患者提供，数据包含了未接受治疗的36名帕金森患者，其中16名女性(年龄的均值±标准差mean±std:57.9±9.0)，20名男性(mean±std:60.8±10.6)(患病时间的均值和标准差分别是7.38年和3.58年)。54名已接受治疗的PD患者，其中27名女性(mean±std:59.7±8.1)，27名男性(mean±std:63.2±10.8))(患病时间的均值和标准差分别是6.82年和3.50年)。中间集2和中间集3来源于SVD病理语音库，中间集2由其中复发性麻痹症患者语音集和正常人语音构成，中间集3由其中声带息肉患者语音集和正常人语音构成。

表2不同深度样本空间层数的性能比较(中间集1)(LOSO)

表3不同深度样本空间层数的性能比较(中间集2)(LOSO)

表4不同深度样本空间层数的性能比较(中间集3)(LOSO)

表2、3及4为分别基于中间集1、中间集2、中间集3，均在LOSO交叉验证下，在不同深度样本空间层数下的性能比较，随着深度样本空间总层数(N₁)的增加，准确率逐渐增加，但并不是层数越大准确率越大，如表2中，N₁＝7达到最大值99.5％，表3中，N₁＝11达到最大值98.75％，表4中，N₁＝12达到最大值99.5％。本发明准确率高达99.5％，优于目前的最优方法(准确率97.5％)。

综上，本发明实施例提供的一种基于深度稀疏迁移学习的帕金森语音分类方法，首先采用基于中间集的稀疏迁移学习方法对帕金森公共语音数据集生成最优卷积核(步骤S1)，进一步采用聚类方法聚类生成帕金森目标数据集A的深度样本空间(步骤S2)，进一步采用卷积稀疏编码基于最优卷积核组

与现有技术方案相比较，本发明实施例具有以下优点：

3)迁移适用于帕金森目标数据集A的最优结构表达并挖掘其复杂结构信息，从而提高最终的分类准确率，LOSO交叉验证下准确率高达99.5％，优于目前的最优方法(准确率97.5％)。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。