CN116312484B

CN116312484B - 跨语言域不变声学特征提取方法和系统

Info

Publication number: CN116312484B
Application number: CN202310558163.0A
Authority: CN
Inventors: 季薇; 王传瑜; 李云
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-09-08
Anticipated expiration: 2043-05-18
Also published as: CN116312484A

Abstract

本发明提供了一种跨语言域不变声学特征提取方法和系统，所述方法主要包括以下步骤：语音信号采集；对语音数据进行预处理；训练编码块与多层前馈神经网络级联的特征提取器，提取高级语义表达并将语音特征解纠缠为两个向量；训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”；进行模型的损失计算，并更新模型的网络参数；通过模型中的特征提取器，即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征。相较于现有技术，本发明在面对时序数据时能够捕获更加长的时序依赖关系，帮助基于语音的跨域冻结步态分析模型实现更好的性能，使得获取到的域不变病理声学特征的域不变特性得到更好地保证。

Description

跨语言域不变声学特征提取方法和系统

技术领域

本发明涉及一种跨语言域不变声学特征提取方法和系统，属于深度学习技术领域。

背景技术

受限于帕金森病患者语音样本的稀缺性和高昂的数据标注成本，基于语音的冻结步态声学分析发展缓慢。这是因为：语音样本的质量极易受采集环境和患者的配合程度等因素影响，同时数据的标签需要专业医生才能标注。截至目前，国内外已有少量公开的帕金森病语音数据集，这些数据集分别来自不同母语的受试者，采集方式亦存在差异，且单个数据集均存在数据容量不够大的问题。如果能够整合多个数据集进行模型的训练，这将能够极大地改善数据量不足的问题。

但传统的基于语音的声学分析技术对数据进行了一个基本假设：训练和测试数据来源于同一数据分布，表现为训练集和测试集在统计学上具有相似的统计概率分布，比如同属于步态冻结患者的语音在基频、jitter、shimmer等声学特征在数值上具有相似的分布范围。当使用来自不同国家的帕金森病患者语音数据集时，由于受试者母语发音特点的差异，将导致受试者语音提取的声学特征在统计概率分布上存在一定的差异，其数值的分布范围会受母语发音习惯的影响而改变。如果只是简单地将不同数据集的数据混合一起进行训练，必将为模型带来更多的混淆因素，使得模型的分析能力下降。传统的基于语音的声学分析方法无法有效地解决跨语言的分类识别问题，也无法将研究成果推广到分布在更广阔地域的患者使用。

有鉴于此，确有必要提出一种跨语言域不变声学特征提取方法和系统，以解决上述问题。

发明内容

本发明的目的在于提供一种跨语言域不变声学特征提取方法和系统，能够解决跨语言的冻结步态声学分析问题。

为实现上述目的，本发明提供了一种跨语言域不变声学特征提取方法，主要包括以下步骤：

步骤1、语音信号采集：采集母语不同的受试者参与语音采集任务的语音，以及记录受试者是否有冻结步态症状；

步骤2、对语音数据进行预处理，提取Fbank特征，根据受试者是否存在冻结步态症状进行分类标签标注，同时还将根据数据来源于“源域”或“目标域”进行域标签标注；

步骤3、训练一个Transformer编码块与多层前馈神经网络级联的特征提取器，将步骤2的样本特征向量/>输入该特征提取器/>，提取高级语义表达并将语音特征/>解纠缠为两个向量，其中，/>为网络参数；

步骤4、训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”，同时还将训练两个分类器用于预测输入的特征向量的症状标签；

步骤5、根据步骤4所获得的输出，进行模型的损失计算，并更新模型的网络参数；

步骤6、根据步骤5训练完成的模型，通过模型中的特征提取器，即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征。

作为本发明的进一步改进，步骤1中，对语音信号采集的具体过程为：采集不同母语的受试者的语音，包括持续元音或重复音节，同时记录受试者是否有冻结步态症状，收集受试者使用“语言1”的语音数据，并整理为源域数据库；整理母语为“语言2”的语音数据并记为目标域数据库。

作为本发明的进一步改进，步骤2中，对语音数据进行去噪增强预处理，然后对语音信号提取Fbank特征，根据受试者是否存在冻结步态症状进行分类标签标注，同时还将根据数据来源于“源域”或“目标域”进行域标签标注，具体过程为：

步骤21、对源域数据库中的原始语音数据进行预处理，并提取Fbank特征，其中，第个样本的Fbank特征记为/>，记其分类标签为/> ，存在冻结步态时，标签用one-hot向量[1,0]表示，否则为[0,1]，记其域标签为/> ，用one-hot向量[1,0]标识样本来自源域，组成源域样本对/>，其中,s代表该数据来源于源域；

步骤22、对目标域数据库中的原始语音数据进行预处理，并提取Fbank特征，其中，第个样本的Fbank特征记为/>，记其分类标签为/> ，存在冻结步态时，标签用one-hot向量[1,0]表示，否则为[0,1]，记其域标签为/> ，用one-hot向量[0,1]标识样本来自目标域，组成目标域样本对/>，其中，t代表该数据来源于目标域。

作为本发明的进一步改进，步骤3中，训练一个基于Transformer编码块与多层前馈神经网络级联的特征提取器，其中，/>为网络参数，对原始的Fbank特征/>进行解纠缠获得一个蕴含病理信息的域不变声学特征向量/>和一个包含域信息的特征向量/>，具体过程为：

步骤31、将步骤2所述的特征向量输入至由Transformer编码块与多层前馈神经网络级联的特征提取器，该特征提取器/>的输出为两个同样长度的向量，其中一个向量为对特征向量解纠缠后获得的包含语音病理信息的高级表征向量/>,另外一个为对特征向量解纠缠后获得的包含域信息的高级表征向量/>。

作为本发明的进一步改进，步骤4中，训练两个域鉴别器用于判断输入鉴别器的特征向量来自于“源域”或“目标域”，同时还将训练两个分类器用于预测输入的特征向量的症状标签，具体过程为：

步骤41、将步骤3所述的特征向量输入分类器/>，其中/>为网络参数，获取第/>个样本的症状标签/>，将特征向量/>和其通过分类器/>获得的标签/>进行叉乘，再将结果输入域鉴别器/>进行识别，获得其域标签/>，其中，/>为网络参数；

步骤42、将步骤3所述的特征向量输入域鉴别器，其中，/>为网络参数，获取第/>个样本的域标签，将特征向量/>和其通过域鉴别器/>获得的标签/>进行叉乘，再将结果输入分类器/>识别其症状标签，获得结果，其中，/>为网络参数。

作为本发明的进一步改进，步骤5中，根据步骤4所获得的输出，进行模型的损失计算，并更新模型的网络参数，具体过程为：

步骤51、对于病理信息特征向量，其通过分类器/>，和领域鉴别器/>的对抗学习，融合病理信息并排除域信息，为了排除域信息，我们将通过最小化分类器/>的损失，同时最大化域鉴别器/>的损失，因此我们将有如下所示的目标函数：

，

其中，为分类器/>的损失函数，/>为域鉴别器/>的损失函数；

步骤52、对于域特征向量与病理信息特征向量/>不同的是，其通过分类器/>，和域鉴别器/>的对抗学习，融合域信息并排除病理特征信息，为了排除病理信息，我们将通过最小化域鉴别器/>的损失，同时最大化分类器/>的损失，因此，我们将有如下所示的目标函数：/>，

其中，为分类器/>的损失函数，/>为域鉴别器/>的损失函数；

步骤53、对于病理信息特征向量，为进一步确保其排除了域信息并与域特征向量/>不同，我们通过对每个域数据提取的病理信息特征向量/>和领域特征向量/>在子空间上实施正交约束来定义差分损失，将差分损失最小化以促进信息的解纠缠，记矩阵/>为由源域数据提取的病理信息特征向量作为行组成的矩阵，矩阵/>为由源域数据提取的域信息特征向量作为行组成的矩阵，矩阵/>为由目标域数据提取的病理特征向量作为行组成的矩阵，/>为由目标域数据提取的域信息特征向量作为行组成的矩阵，其目标函数计算方式为：

，

其中，表示矩阵转置；

步骤54、模型的总体优化目标函数为：，模型将根据这个总体优化目标函数采用SGD优化方法。

作为本发明的进一步改进，还包括进行模型的优化与参数的迭代：

，

固定特征提取器的参数、分类器/>的参数/>、域鉴别器/>的参数/>，并最大化如下损失函数：

。

作为本发明的进一步改进，步骤6中，根据步骤5训练完成的模型，通过模型中的特征提取器，即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征，具体过程为：根据步骤5所述方法训练好的模型，固定特征提取器/>输出特征向量这一支路的模型参数，通过这个训练好的特征提取器/>即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征，获得最终的输出结果为一个跨语言分析声学特征/>。

为实现上述目的，本发明还提供了一种跨语言域不变声学特征提取系统，应用如上所述的跨语言域不变声学特征提取方法。

作为本发明的进一步改进，所述跨语言域不变声学特征提取系统包括：语音数据预处理模块、特征解纠缠学习模块、条件对抗迁移学习模块、模型训练与参数优化模块和冻结步态声学特征提取模块。

本发明的有益效果是：本发明在面对时序数据时能够捕获更加长的时序依赖关系，帮助基于语音的跨域冻结步态分析模型实现更好的性能，使得获取到的域不变病理声学特征的域不变特性得到更好地保证。

附图说明

图1是本发明跨语言域不变声学特征提取方法的流程示意图。

图2是本发明跨语言域不变声学特征提取方法的跨语言分析模型训练阶段框架图。

图3是本发明跨语言域不变声学特征提取方法的冻结步态跨语言声学分析特征提取模型框架图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

另外，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

如图1至图3所示，本发明是一种基于特征解纠缠和条件对抗网络模型的跨语言域不变声学特征提取方法和系统，主要包括以下步骤：

步骤1、语音信号采集：采集不同母语的受试者的语音（包括持续元音、重复音节等），同时记录受试者是否有冻结步态症状。这里，以包含两种不同语言的语音数据集为例，收集其中使用“语言1”的语音数据，并整理为源域数据库；整理母语为“语言2”的语音数据并记为目标域数据库；

步骤2、对步骤1所述的语音信号提取Fbank特征，根据受试者是否存在冻结步态症状进行分类标签标注，同时还将根据数据来源于“源域”或“目标域”进行域标签标注；具体步骤如下：

步骤21、将源域数据库的每一条原始语音数据进行25ms帧长10ms的偏移量分帧提取40维的Fbank特征序列记为，记其分类标签为/>(存在冻结步态时，标签用one-hot向量[1,0]表示，否则为[0,1])，记其域标签为/> (用one-hot向量[1,0]标识样本来自源域)，组成源域样本对/>。其中/>代表该数据来源于源域，/>为样本数量；

步骤22、将目标域数据库中有冻结步态症状信息的每一条原始语音数据进行25ms帧长10ms的偏移量分帧提取40维的Fbank特征序列记为，记其分类标签为 (存在冻结步态时，标签用one-hot向量[1,0]表示，否则为[0,1])，记其域标签为/>(用one-hot向量[0,1]标识样本来自目标域)，组成目标域样本对/>。其中代表该数据来源于目标域，/>为样本数量；

步骤3、训练一个基于Transformer编码块与两层含有32个神经元前馈神经网络级联的特征提取器，将步骤2所述的样本特征向量/>输入该特征提取器，其中，/>为网络参数，提取高级语义表达并将语音特征/>进行解纠缠为两个向量：具体步骤为：

步骤31、将步骤2所述的特征向量输入至由Transformer编码块与多层前馈神经网络级联的特征提取器，该特征提取器/>的输出为两个同样长度的向量，其中一个向量为对特征向量/>解纠缠获得的包含病理症状信息的16维高级抽象表征向量/>,另外一个为对特征向量解纠缠获得的包含域信息的16维高级抽象表征向量/>；

步骤4、训练两个域鉴别器用于鉴别输入鉴别器的特征向量来自于源域还是目标域，同时还将训练两个分类器用于分类输入的特征向量的症状标签：具体步骤为：

步骤41、将步骤3所述的特征向量输入分类器/>，其中/>为网络参数，获取第/>个样本的症状标签/>，将特征向量/>和其通过分类器/>获得的标签/>进行叉乘，再将结果输入域鉴别器/>进行识别，其中/>为网络参数，获得其域标签/>；

步骤42、将步骤3所述的特征向量输入域鉴别器，其中/>为网络参数，获取第/>个样本的域标签，将特征向量/>和其通过域鉴别器/>获得的标签/>进行叉乘，再将结果输入分类器/>识别其症状标签，其中/>为网络参数，获得结果/>：

步骤5、根据步骤4所获得的输出，进行模型的损失计算，并更新模型的网络参数，其具体步骤为：

步骤51、对于病理信息特征向量，其通过分类器/>，和域鉴别器/>的对抗学习，融合病理信息并排除域信息。为了排除域信息，我们将通过最小化分类器/>的损失同时最大化域鉴别器/>的损失，因此我们将有如下所示的目标函数：

，

其中，为分类器/>的损失函数将采用交叉熵损失函数，其形式为：

，

其中，C代表类别数量，为符号函数，如果样本i的真实类别等于c，则/>取1，反之为0；/>为分类器将样本i预测为类别c的概率。域鉴别器/>也将采用上述损失函数。

步骤52、对于域特征向量与病理信息特征向量/>不同的是，其通过分类器/>，和域鉴别器/>的对抗学习，融合域信息并排除病理特征信息。为了排除病理信息，我们将通过最小化域鉴别器/>的损失同时最大化分类器/>的损失，因此我们将有如下所示的目标函数：

，

其中为分类器/>的损失函数，/>为域鉴别器/>的损失函数，其皆为交叉熵损失函数；

步骤53、对于病理信息特征向量，为进一步确保其排除了域信息并与域特征向量/>不同。我们通过对每个域数据提取的病理信息特征向量/>和领域特征向量/>在子空间上实施正交约束来定义差分损失，将差分损失最小化以促进信息的解纠缠。记矩阵/>为由源域数据提取的病理信息特征向量作为行组成的矩阵，矩阵/>为由源域数据提取的域信息特征向量作为行组成的矩阵，矩阵/>为由目标域数据提取的病理特征向量作为行组成的矩阵，/>为由目标域数据提取的域信息特征向量作为行组成的矩阵，其目标函数计算方式为：

，

其中，表示矩阵转置。

步骤54、模型的总体优化目标函数为：，模型将根据这个总体优化目标函数采用随机梯度下降法（Stochastic gradient descent，SGD）优化方法，以如下所示方式进行模型的优化与参数的迭代：

，

步骤6、根据步骤5所述方法训练好的模型，固定特征提取器输出特征向量这一支路的模型参数，通过这个训练好的特征提取器/>即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征/>。

本发明还提供了一种跨语言域不变声学特征提取系统，所述跨语言域不变声学特征提取系统包括：

语音数据预处理模块：用于执行步骤1和2，对获得的多个跨语言的冻结步态语音数据库的原始语音数据提取Fbank特征，并完成样本的症状标签和域标签标注工作，制作用于模型学习的源域数据集和目标域数据集；

特征解纠缠学习模块：用于执行步骤3，通过基于Transformer编码块的特征提取器对原始的Fbank特征进行解纠缠获得一个蕴含病理信息的域不变声学特征向量，一个包含域信息的特征向量；

条件对抗迁移学习模块：用于执行步骤4，对所述的病理信息特征向量进行条件对抗迁移学习获取域不变声学病理信息，对所述的域特征向量进行条件对抗迁移学习获取域信息；

模型训练与参数优化模块：用于执行步骤5，使用随机梯度下降法（Stochasticgradient descent，SGD）优化方法交替迭代模型的总体目标函数，并更新模型的网路参数；

冻结步态声学特征提取模块：用于执行步骤6，根据步骤5所述方法训练好的模型，固定特征提取器输出特征向量/>这一支路的模型参数，通过这个训练好的特征提取器/>即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征，获得最终的输出结果为一个跨语言分析声学特征/>。

综上所述，使用保留了更多语音原始信息的Fbank特征，并将其作为高级特征学习器的输入；基于Transformer编码块的特征提取器在面对时序数据时能够捕获更加长的时序依赖关系。通过显式地解纠缠域信息和域不变的病理信息，从复杂的信息中分离出具备跨域迁移的病理语音信息表征，帮助基于语音的跨域冻结步态分析模型实现更好的性能。通过条件对抗学习的方式，进一步的使得源域与目标域在公共特征空间上的条件分布差异得到更好的消除，使得获取到的域不变病理声学特征的域不变特性得到更好地保证。通过引入两个向量间的正交约束，进一步解纠缠了两种信息的关联。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种跨语言域不变声学特征提取方法，其特征在于，主要包括以下步骤：

步骤2、对语音数据进行预处理，提取Fbank特征，根据受试者是否存在冻结步态症状进行分类标签标注，同时根据语音数据来源的语言不同，将“语言1”和“语言2”作为“源域”和“目标域”进行域标签标注；

步骤3、训练一个Transformer编码块与多层前馈神经网络级联的特征提取器，将样本特征向量/>输入该特征提取器/>，提取高级语义表达并将所述样本特征向量/>解纠缠获得一个蕴含病理信息的域不变声学特征向量/>和一个包含域信息的特征向量/>，其中，/>为网络参数；

步骤4、将步骤3所述的域不变声学特征向量输入分类器/>，其中为网络参数，获取第/>个样本的症状标签/>，将域不变声学特征向量和其通过分类器/>获得的症状标签/>进行叉乘，再将结果输入域鉴别器进行识别，获得其域标签/>，其中，/>为网络参数；将步骤3所述的包含域信息的特征向量/>输入域鉴别器，其中，/>为网络参数，获取第/>个样本的域标签，将特征向量/>和其通过域鉴别器/>获得的域标签/>进行叉乘，再将结果输入分类器/>识别其症状标签，获得结果，其中，/>为网络参数；

步骤6、根据步骤5方法训练好的模型，固定特征提取器输出特征向量/>这一支路的模型参数，通过这个训练好的特征提取器/>即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征/>。

2.根据权利要求1所述的跨语言域不变声学特征提取方法，其特征在于，步骤1中，对语音信号采集的具体过程为：采集不同母语的受试者的语音，包括持续元音或重复音节，同时记录受试者是否有冻结步态症状，收集受试者使用“语言1”的语音数据，并整理为源域数据库；整理母语为“语言2”的语音数据并记为目标域数据库。

3.根据权利要求2所述的跨语言域不变声学特征提取方法，其特征在于，步骤2中，对语音数据进行去噪增强预处理，然后对语音信号提取Fbank特征，根据受试者是否存在冻结步态症状进行分类标签标注，同时还将根据数据来源于“源域”或“目标域”进行域标签标注，具体过程为：

步骤21、对源域数据库中的原始语音数据进行预处理，并提取Fbank特征，其中，第个样本的Fbank特征记为/>，记其分类标签为/> ，存在冻结步态时，标签用one-hot向量[1,0]表示，否则为[0,1]，记其域标签为/> ，用one-hot向量[1,0]标识样本来自源域，组成源域样本对/>，其中, s代表该数据来源于源域；

步骤22、对目标域数据库中的原始语音数据进行预处理，并提取Fbank特征，其中，第个样本的Fbank特征记为/>，记其分类标签为/>，存在冻结步态时，标签用one-hot向量[1,0]表示，否则为[0,1]，记其域标签为/> ，用one-hot向量[0,1]标识样本来自目标域，组成目标域样本对/>，其中，t代表该数据来源于目标域。

4.根据权利要求3所述的跨语言域不变声学特征提取方法，其特征在于，步骤3中，训练一个基于Transformer编码块与多层前馈神经网络级联的特征提取器，其中，/>为网络参数，对原始的Fbank特征向量进行解纠缠获得一个蕴含病理信息的域不变声学特征向量/>和一个包含域信息的特征向量，具体过程为：

步骤31、将步骤2所述的样本特征向量输入至由Transformer编码块与多层前馈神经网络级联的特征提取器/>，该特征提取器/>的输出为两个同样长度的向量，其中一个向量为对特征向量解纠缠后获得的蕴含病理信息的域不变声学特征向量/>,另外一个为对特征向量解纠缠后获得的包含域信息的高级表征向量/>。

5.根据权利要求1所述的跨语言域不变声学特征提取方法，其特征在于，步骤5中，根据步骤4所获得的输出，进行模型的损失计算，并更新模型的网络参数，具体过程为：

，

其中，为分类器/>的损失函数，/>为域鉴别器/>的损失函数；

步骤52、对于域特征向量与病理信息特征向量/>不同的是，其通过分类器/>，和域鉴别器/>的对抗学习，融合域信息并排除病理特征信息，为了排除病理信息，我们将通过最小化域鉴别器/>的损失，同时最大化分类器/>的损失，因此，我们将有如下所示的目标函数：

，

其中，为分类器/>的损失函数，/>为域鉴别器/>的损失函数；

，

其中，表示矩阵转置；

6.根据权利要求5所述的跨语言域不变声学特征提取方法，其特征在于，还包括进行模型的优化与参数的迭代：

，

。

7.根据权利要求5所述的跨语言域不变声学特征提取方法，其特征在于，步骤6中，根据步骤5训练完成的模型，通过模型中的特征提取器，即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征，具体过程为：根据步骤5所述方法训练好的模型，固定特征提取器/>输出特征向量/>这一支路的模型参数，通过这个训练好的特征提取器/>即可对输入的语音样本提取一个可用于冻结步态跨语言声学分析的域不变声学特征，获得最终的输出结果为一个跨语言分析声学特征/>。

8.一种跨语言域不变声学特征提取系统，其特征在于：应用如权利要求1-7中任一项所述的跨语言域不变声学特征提取方法。

9.根据权利要求8所述的跨语言域不变声学特征提取系统，其特征在于，所述跨语言域不变声学特征提取系统包括：语音数据预处理模块、特征解纠缠学习模块、条件对抗迁移学习模块、模型训练与参数优化模块和冻结步态声学特征提取模块。