CN111354338A

CN111354338A - 基于pso卷积核优化稀疏迁移学习的帕金森语音识别系统

Info

Publication number: CN111354338A
Application number: CN202010119313.4A
Authority: CN
Inventors: 李勇明; 张小恒; 王品; 李新科; 贾云健; 颜芳; 黄智勇
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-06-30
Anticipated expiration: 2040-02-26
Also published as: CN111354338B

Abstract

本发明公开一种基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，包括：数据采集模块、公共数据库、目标数据库和分类识别器；系统将公共语音数据集的语音特征进行卷积稀疏学习，得到相应的卷积核；然后利用目标数据库中的一部分目标数据集进行卷积稀疏编码及样本和特征并行优选；通过PSO算法得到最优卷积核；然后基于最优卷积核，利用目标数据库中的另一部分目标数据集进行卷积稀疏编码及样本和特征并行优选；从而得到系统最优卷积核及最佳样本和特征；最后数据采集模块采集待测对象的语音数据基于最优卷积核进行卷积稀疏编码，提取编码后的最佳样本和特征，由分类识别器得出测试结果。本系统分类准确率高，样本需求量少，实施方便。

Description

基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统

技术领域

本发明涉及智慧医疗技术，具体地说，是一种基于PSO(粒子群优化算法)卷积核优化稀疏迁移学习的帕金森语音识别系统。

背景技术

帕金森病(PD)是一种多发于中老年的渐进性中枢神经系统变性疾病，在帕金森病患者中，有50％～80％的病例起病隐袭，早期难以察觉而常被忽视，检测语言障碍将有助于实现高准确性的帕金森病早期诊断，目前，PD语音特征参数提取的主要类型有基音周期，振幅微扰，基频微扰、谐波信噪比及基频标准差等多种类型。特征选择变换的方法有PCA，LDA，串行搜索法、基于进化计算法等。分类器的方法主要有支持向量机、K最近邻网络、随机森林和决策树等，深度学习方法包括DBN，DNN，自动编码器等等，还有模糊理论也作为一种辅助方法。

上述研究均基于当前语音数据采用机器学习算法实现PD分类，取得了较大进展。但是，这些方法大都直接基于当前语音数据集本身进行。目前这些PD语音公共数据集规模较小，难以采用深度学习方法进行处理，样本和特征的同时优选将有利于在小样本量情况下获得高质量的样本和特征，提高分类准确性。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，能够快速准确的实现帕金森语音识别。

为达到上述目的，本发明所采用的具体技术方案如下：

一种基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，其关键在于包括：数据采集模块、公共数据库、目标数据库和分类识别器；

所述公共数据库用于存储公共语音数据集；

所述目标数据库用于存储代表帕金森语音数据的目标数据集；

所述分类识别器采用人工智能模型；

所述数据采集模块采集待测对象的语音数据，对该语音数据提取语音特征并基于最优卷积核进行卷积稀疏编码，然后选择编码后的最佳样本和特征输入所述分类识别器得出测试结果；

所述最优卷积核以及最佳样本和特征由以下步骤确定：

S1：初始化PSO算法相关参数并随机初始化卷积核粒子群；

S2：将每一代卷积核粒子群中各个粒子作为原始卷积核对所述公共数据库中的公共语音数据集的语音特征进行卷积稀疏学习，得到各自对应的卷积核终值；

S3：基于各个卷积核终值，利用所述目标数据库中的一部分目标数据集作为训练集进行卷积稀疏编码及并行样本和特征优选；得出分类准确率高的样本和特征并确定其对应的各个粒子的适应度函数值；

S4：基于各个粒子的适应度函数值更新卷积核粒子群，循环执行步骤S2和步骤S3直至得到所述最优卷积核；

S5：基于所述最优卷积核，利用所述目标数据库中的另一部分目标数据集作为验证集和测试集进行卷积稀疏编码及并行样本和特征优选；得到所述最优卷积核对应的最佳样本和特征。

可选地，所述公共数据库中的公共语音数据集通过加载不同类型不同信噪比的噪声来扩展数据样本。

可选地，所述目标数据库中每个测试对象的语音样本包括26个，具体为下表所示：

样本序列	样本描述
		第1个	持续元音aaa
第2个	持续元音ooo
		第3个	持续元音uuu
第4个～第13个	数字1～10
		第14个～第17个	预设的短句
第18个～第26个	预设的单词

且所述数据采集模块也按照上述样本形式采集待测对象的语音数据。

可选地，步骤S1随机初始化卷积核粒子群时，设定卷积核尺度为8*8，并视为1*64维向量，每一维的取值范围为[-1,+1]，种群大小为20，粒子初始速度为0.01，最大速度为1，最大迭代次数为60。

可选地，步骤S2中，所述公共数据库中的公共语音数据集的语音特征进行卷积稀疏学习时，主循环次数，特征图循环次数及卷积核训练次数分别为100，10和10。

可选地，将步骤S3中训练集的测试准确率作为各个粒子的适应度函数值，并按照下式更新粒子的移动速度和位置：

其中：

是粒子i在第k次迭代中第d维的速度；

是粒子i在第k次迭代中第d维的位置；w_inertia是惯性权重，且c₁和c₂是学习因子，Chi 为退化因子；

和

是介于0～1之间的随机数；

是粒子 i在第d维的个体极值点的位置；

是整个种群在第d维的全局极值点的位置。

可选地，所述分类识别器采用SVM模型。

本发明的显著效果是：

本发明提出了一种基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，结合了卷积稀疏迁移学习和样本特征并行优选，在稀疏卷积学习方面，该方法更有利于表达PD语音特征的有效结构信息；在并行优选方面，样本与特征的关联性同时被考虑。样本特征并行优选考虑到了样本和语音特征间的关系，从而有助于获取高质量的特征。

附图说明

图1是本发明的系统架构图；

图2是本发明的系统流程图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

本实施例提供一种基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，数据采集模块、公共数据库、目标数据库和分类识别器；

所述公共数据库用于存储公共语音数据集；本实施例中采用 TIMIT公共数据集，并将其作为源数据集，通过加载不同类型不同信噪比的噪声来扩展数据样本。

具体地，设扩展后数据集

其中

是公共数据集中的原始语音信号，

为不同类型噪声信号，SNR_j表示不同的信噪比，φ(·)为加噪及信噪比调节函数。

所述目标数据库用于存储表达帕金森语音数据的目标数据集；

本实施例将Sakar数据集，MaxLittle数据集和西南医院自建的数据集共同作为目标数据集，并分为PartA和PartB两部分，Sakar数据集由Sakar等人建立并从加州大学欧文分校(UCI)机器学习数据库网站获取。主要选取名为“Trainning_Data”的数据集，其中包含M＝40 名受试者，M₁＝20名健康受试者，M₂＝20患者受试者，每一个测试对象包含了H₀＝26个语音样本，具体样本参考表1，每一个语音样本设置N＝26个特征，具体为下表所示：

MaxLittle集是由MaxLittle等人在2008年创建的。

所述分类识别器采用人工智能模型，本实施例选择SVM模型；

具体实施时，每一次测试对象的测试数据还可以保存至所述目标数据库中从而扩大目标数据集的样本数量，系统还可以定期或不定期的利用所述公共数据库和最新的目标数据库来重新进行训练，得到当前状态下系统的最佳样本和特征以及最优卷积核。

如图1和图2所示，具体实施时，所述最优卷积核以及最佳样本和特征由以下步骤确定：

S1：初始化PSO算法相关参数并随机初始化卷积核粒子群；设定卷积核尺度为8*8，并视为1*64维向量，每一维的取值范围为 [-1,+1]，种群大小为20，粒子初始速度为0.01，最大速度为1，最大迭代次数为60；

本实施例通过对扩展后数据集进行特征提取将形成特征库：

作为源领域数据集，其中

采用现有的特征提取方法可以提取语音信号N个不同特征，特征样本总数为L，

为二维H₀×N块矩阵，且

为稀疏字典学习训练样本，

为卷积核稀疏学习训练样本。

在卷积稀疏编码(CSC)中，给定M个训练样本

通过以下最小化目标函数学习卷积核组

其中

为H₀×N块矩阵，e_m,k为H₀×N特征图矩阵，通过与相对应的卷积核d_k卷积逼近x_m，符号*表示二维卷积符号且η是大于零的正则化因子，解决以上优化问题的方法都是基本经典框架交替方向乘子法(ADMM)。

上式可重新表达为：

其中，

D＝[D₁ D₂ … D_K]为[d₁ d₂ … d_K]所对应的向量化卷积运算符，

为向量化特征图。

基于上述表达时，通过固定卷积核可以学习特征图，通过固定特征图可以学习卷积核，本例中设置主循环次数，特征图循环次数及卷积核训练次数分别为100，10和10。

S3：基于各个卷积核终值，利用PartA中的目标数据集作为训练集进行卷积稀疏编码及并行样本和特征优选；得出分类准确率高的样本和特征并确定其对应的各个粒子的适应度函数值；

S5：基于所述最优卷积核，利用PartB中的目标数据集作为验证集和测试集进行卷积稀疏编码及并行样本和特征优选；得到所述最优卷积核对应的最佳样本和特征。

针对目标数据集而言，在进行样本和特征优选时，定义目标数据集：

其中向量

标签向量

分块矩阵

样本总数为H，每个样本的特征数(向量分量数)为N，全体样本划分为M 个受试者(subject)，即每个受试者包含的样本数为：H₀＝H/M；

特征扩展，并构造：

其中传统稀疏卷积稀疏编码的特征扩展是将特征矩阵

重整为行向量，归一化 G得G′，并分割

为训练集

与测试集T_m。

基于Relief算法，计算归一化向量

的权重

特征

的权重表达如下.

M(γ_ij)是γ_ij的邻居集合，集合包含R个样本，H(γ_ij)是γ_ij的邻居集合,也包含R个样本，M_r(γ_ij)∈M(γ_ij),H_r(γ_ij)∈H(γ_ij)，通过重排

w₁≥w₂≥…≥w_Q,特征集

通过权重重构如下：

其中Q维向量

和

通过

的 Q个最大的权重来选择,

index是权重w_i对应的特征列向量的列下标。

在进行PSO卷积核优化时，将步骤S3中训练集的测试准确率作为各个粒子的适应度函数值，并按照下式更新粒子的移动速度和位置：

其中：

是粒子i在第k次迭代中第d维的速度；

和

是介于0～1之间的随机数；

是粒子 i在第d维的个体极值点的位置；

是整个种群在第d维的全局极值点的位置。

本系统将目标集分成两部分PartA和PartB，基于不同的卷积核对PartA实施卷积稀疏迁移学习及样本和特征的并行优选会得到不同的准确率，选取准确率高的卷积核然后再基于优选后的核对PartB实施卷积稀疏迁移学习及样本和特征并行优选，最终得出最优卷积核及对应的最佳样本和特征，从而提高系统分类准确率。

通过上述过程将系统的分类准确率提升后，可以直接将其用于对待测患者进行帕金森语音识别，通过所述数据采集模块按照上述样本的形式采集待测对象的语音数据，提取相关的语音特征后，通过最佳的卷积核进行卷积稀疏编码，然后选择编码后的最佳样本和特征，送入所述分类识别器中，根据分类识别器的输出结果确定待测对象是否属于帕金森病患者。与现有技术相比，本系统的分类准确率更高，而且实施起来工程复杂度不高，可有效减少对训练样本的需求。

最后需要说明的是，上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，其特征在于包括：数据采集模块、公共数据库、目标数据库和分类识别器；

所述公共数据库用于存储公共语音数据集；

所述分类识别器采用人工智能模型；

所述最优卷积核以及最佳样本和特征由以下步骤确定：

S1：初始化PSO算法相关参数并随机初始化卷积核粒子群；

2.根据权利要求1所述的基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，其特征在于：所述公共数据库中的公共语音数据集通过加载不同类型不同信噪比的噪声来扩展数据样本。

3.根据权利要求1所述的基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，其特征在于：所述目标数据库中每个测试对象的语音样本包括26个，具体为下表所示：

样本序列样本描述第1个持续元音aaa 第2个持续元音ooo 第3个持续元音uuu 第4个～第13个数字1～10 第14个～第17个预设的短句第18个～第26个预设的单词

4.根据权利要求1-3任一所述的基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，其特征在于：步骤S1随机初始化卷积核粒子群时，设定卷积核尺度为8*8，并视为1*64维向量，每一维的取值范围为[-1,+1]，种群大小为20，粒子初始速度为0.01，最大速度为1，最大迭代次数为60。

5.根据权利要求4所述的基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，其特征在于：步骤S2中，所述公共数据库中的公共语音数据集的语音特征进行卷积稀疏学习时，主循环次数，特征图循环次数及卷积核训练次数分别为100，10和10。

6.根据权利要求4所述的基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，其特征在于：将步骤S3中训练集的测试准确率作为各个粒子的适应度函数值，并按照下式更新粒子的移动速度和位置：

i＝1,2,3…,M；其中：

是粒子i在第k次迭代中第d维的速度；

是粒子i在第k次迭代中第d维的位置；w_inertia是惯性权重，且c₁和c₂是学习因子，Chi为退化因子；

和

是介于0～1之间的随机数；

是粒子i在第d维的个体极值点的位置；

是整个种群在第d维的全局极值点的位置。

7.根据权利要求1所述的基于PSO卷积核优化稀疏迁移学习的帕金森语音识别系统，其特征在于：所述分类识别器采用SVM模型。