CN114997266A

CN114997266A - 一种面向语音识别的特征迁移学习方法及系统

Info

Publication number: CN114997266A
Application number: CN202210427775.1A
Authority: CN
Inventors: 张晓俊; 章溢华; 钱金阳; 许宜申; 陶智
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-09-02
Anticipated expiration: 2042-04-22
Also published as: CN114997266B

Abstract

本发明公开了一种面向语音识别的特征迁移学习方法及系统，包括以下步骤：获取制作为训练集和测试集；计算训练集和测试集的特征边缘分布差异和特征间条件分布差异；建立特征分布差异目标，求解一个映射矩阵，使得训练集和测试集映射到同一子空间上的特征分布差异尽可能小；其中，特征分布差异目标以最小化训练集和测试集的特征边缘分布差异和特征间条件分布差异为基础，将类内距、类间距和图嵌入矩阵作为正则项，使得映射后不同类别的样本的中心投影点之间的距离尽可能地大，同一类别的样本投影后距离应尽可能地小，且保持邻域间样本的相似关系作为分布差异约束。本发明有效减少各种不确定因素对语音信号的干扰，从而提升语音识别率。

Description

一种面向语音识别的特征迁移学习方法及系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种面向语音识别的特征迁移学习方法及系统。

背景技术

语音的识别过程主要包括特征提取和利用分类器进行识别两个步骤。在特征提取方面，常用的特征参数主要包含线性预测倒谱系数LPCC、Mel倒谱 MFCC、基频F0、能量、Fourier倒谱以及相应的动态特征参数等。同时由于环境差异、噪声、说话人等多种不确定因素造成的特征差异，往往会影响特征的在分类中的性能表现。

为了消除特征差异，通常采用机器学习及特征筛选的方法，但语音识别率效果低，容易被噪声等因素影响，进一步地，现有识别系统采用迁移学习方法来消除特征差异，但其往往只考虑了数据集之间的边缘分布和条件分布，忽略了伪标签的不稳定性和标签的保留性，造成最终识别率不够准确可靠。

发明内容

本发明的目的是提供一种面向语音识别的特征迁移学习方法及系统，有效减少各种不确定因素对语音信号的干扰，从而提升语音识别率。

为了解决上述技术问题，本发明提供了一种面向语音识别的特征迁移学习方法，包括以下步骤：

S1、获取语音信号数据，并将其分别制作为训练集和测试集，其中，训练集中的语音信号数据具有表示语音类别的标签；

S2、利用最大均值差异计算训练集和测试集的特征边缘分布差异；

S3、通过训练集训练一组分类器，将测试集输入该分类器获得测试集的伪标签，利用伪标签计算训练集与测试集的特征间条件分布差异；

S4、建立特征分布差异目标，求解一个映射矩阵，使得训练集和测试集映射到同一子空间上的特征分布差异尽可能小；

其中，所述特征分布差异目标包括：以最小化训练集和测试集的特征边缘分布差异和特征间条件分布差异为基础，将类内距、类间距和图嵌入矩阵作为正则项，使得训练集和测试集映射后不同类别的样本的中心投影点之间的距离尽可能地大，同一类别的样本投影后距离应尽可能地小，且保持邻域间样本的相似关系作为分布差异约束。

作为本发明的进一步改进，所述步骤S2具体表示为：

其中，M₀为边缘分布差异后的MMD矩阵，n_s、n_t分别表示训练集与测试集包含的语音数目，A为映射矩阵。

作为本发明的进一步改进，将训练集和测试集的特征边缘分布差异和特征间条件分布差异结合：

其中，c表示语音样本的类别，

分别表示训练集与测试集中同属第c 类的语音样本数目；

为计算条件分布差异后得到的MMD矩阵。

作为本发明的进一步改进，以训练集和测试集的特征边缘分布差异和特征间条件分布差异的结合为基础，建立特征分布差异的目标函数：

其中，

为正则项。

作为本发明的进一步改进，计算类内距与类间距，使映射后的特征具有最大可分性，更新优化目标函数：

其中，Sw表示类内距，Sb表示类间距。

作为本发明的进一步改进，计算类内距与类间距，包括以下步骤：

a、测试集为D_s＝{(x₁,y₁),(x₂,y₂),...(x_m,y_m)}，其中，x_i是一个n维的特征向量 y_i∈{0,1,...,c}；N_c为测试集中第c类样本的个数；μ_c与∑_c分别为第c类样本的均值与协方差矩阵，则：

b、类内据与类间距的表示分别如下：

c、不同类别的中心投影点为A^Tμ_c，不同类别的样本的中心投影点之间的距离要尽可能地大，即

转化为迹的形式mintr(A^T(S_w-S_b)A)。

作为本发明的进一步改进，利用训练集的标签以及测试集的伪标签构造图嵌入矩阵，更新优化目标函数：

s.t.A^TXHX^TA＝I

其中，μ为图嵌入矩阵正则化参数，L＝D-W,D为对角线矩阵，W为权重矩阵，对角线元素为W各列元素之和，A即为最终求得的映射矩阵，H是中心矩阵，I是单位矩阵，A^TXHX^TA＝I用于保持变换前后数据的方差不变。

作为本发明的进一步改进，构造图嵌入矩阵具体包括步骤：

利用欧氏距离寻找每个样本点的k个近邻点，k＜n，n为样本点数；

计算样本点和近邻点之间的径向基核函数：

其中，u_ij是近邻点x_i、x_j的核函数k(x_i,x_j)的函数值，Φ(x_i)、Φ(x_j)分别是样本点x_i、x_j的高维空间映射值，||x_i-x_j||²是样本点x_i、x_j的欧氏距离，σ为函数的宽度参数；

构造类内与类间相似矩阵，并得到最终的权重矩阵：

。

作为本发明的进一步改进，基于目标函数，求解

的特征分解，并选择前p个特征向量构成映射矩阵A。

一种面向语音识别的特征迁移学习系统，采用如上所述的一种面向语音识别的特征迁移学习方法进行语音识别。

本发明的有益效果：本发明主要针对降低环境差异等多种因素对特征分布的干扰进行研究，运用最大均值差异(MMD)量化环境、说话人等不确定因素造成的特征差异，通过训练一组分类器，获得测试集的伪标签，以此计算特征间的条件分布差异，随后采用类内距与类间距保证最大可分性，图嵌入(GE)保留标签的结构特性，最终找到一个映射策略，使得映射后的语音信号特征差异最小，该方法提出的结合类内据、类间距以及图嵌入矩阵的迁移子空间学习法可以有效减轻各种不确定因素对语音信号的干扰，从而提升识别率；

针对伪标签的不稳定性提出图嵌入方法作为正则项度量特征间差异，图嵌入方法将每个样本向量都看作是一个顶点，通过计算点与点之间的距离，为邻近点赋予较高权值，而非邻近的点赋予较低权值，最终通过求得一个相似矩阵来描述数据的几何特性，结合数据的几何特性可以在映射过程中最大地保留标签结构性。

附图说明

图1是本发明方法流程示意图；

图2是本发明实施例应用语音系统示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

参考图1，本发明提供了一种面向语音识别的特征迁移学习方法，包括以下步骤：

本发明针对现有的语音识别方法中，同一说话人的语音受环境差异、说话人状态等不确定因素的影响造成的识别率下降问题，本发明提供一种应用于语音识别的新迁移子空间(JSTL)学习方法，该方法提出的结合类内据、类间距以及图嵌入矩阵的迁移子空间学习法可以有效减轻各种不确定因素对语音信号的干扰，从而提升识别率。该方法首先提取同一说话人在不同场景、状态下的语音信号特征，同时运用最大均值差异(MMD)量化环境、说话人等不确定因素造成的特征差异。通过训练一组分类器，获得测试集的伪标签，以此计算特征间的条件分布差异。采用类内距与类间距保证最大可分性，图嵌入(GE)保留标签的结构特性。最终找到一个映射策略，使得映射后的语音信号特征差异最小。

具体方法包括：

一、运用最大均值差异(MMD)量化环境、说话人等不确定因素造成的特征差异，首先通过最大均值差异量化环境、说话人等不确定因素造成的特征差异。将特征映射到一个高维希尔伯特核空间(RKHS)，在此空间中计算求得映射后不同特征间的均值之差。差距越小，说明分布越相似；反之，则说明分布差异性越大。具体步骤为：

(1)利用最大均值差异(MMD)计算训练集与测试集样本的特征边缘分布差异：

其中，M为MMD矩阵，n_s、n_t分别代表了训练集与测试集包含的语音数目。

该步骤旨在寻找一个变化A,使得经过变化后的训练集与测试集的边缘分布距离尽可能地小，即P(A^TX_s)与P(A^TX_t)的距离要尽可能的小；

(2)计算训练集与测试集样本的特征间条件分布差异：为了减少特征差异，即P(y_s|A^TX_s)与P(y_t|A^TX_t)的距离要尽可能的小。(1)中提到的边缘分布差异计算的是训练集与特征集的整体距离；条件分布差异计算的则是训练集中第c类的语音与测试集中对应类别的语音的距离。然而在实际的机器学习过程中，只能获得训练集的标签。缺少测试集的标签是无法计算对应类别的距离。因此通过训练集数据训练一组分类器作用于测试集上，获得测试集的伪标签，以此计算特征间的条件分布差异。将条件分布差异与边缘分布差异结合后得到：

其中，c代表了语音样本的类别。

分别代表了训练集与测试集中同属第c类的语音样本数目。

M₀为计算边缘分布差异后得到的 MMD矩阵，

为计算条件分布差异后得到的MMD矩阵(分别计算训练集中第c类的语音与测试集中第c类语音的距离，共得到c个MMD矩阵，累加即为总的MMD矩阵)。

要求特征分布差异最小，目标函数为：

其中

为正则项，防止模型过拟合。

二、以类内据与类间距作为正则项，保证特征最大可分性：

为了映射后使获得的的特征保持最大可分性，即投影后同一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。类内据与类间距被用作正则项。假设两个类别的中心点为μ₀，μ₁，投影分别为 w^Tμ₀，w^Tμ₁。要让不同类别的数据的类别中心之间的距离尽可能的大，即是要最大化

同一种类别数据的投影点尽可能的接近，也就是要同类样本投影点的协方差w^T∑₀w和w^T∑₁w尽可能的小，即最小化w^T∑₀w+w^T∑₁w。最终优化目标为

具体步骤为：

(1)假定测试集为D_s＝{(x₁,y₁),(x₂,y₂),...(x_m,y_m)}，其中x_i是一个n维的特征向量y_i∈{0,1,...,c}。N_c为测试集中第c类样本的个数。μ_c与∑_c分别为第c类样本的均值与协方差矩阵，可以被表示为

(2)假定不同类别的中心投影点为A^Tμ_c，不同类别的样本的中心投影点之间的距离要尽可能地大，即最大化类间距矩阵。同一类别的样本投影后距离应尽可能地小，即最小化类内据矩阵。

类内据与类间距的表示分别如下：

(3)希望不同类别的数据的类别中心之间的距离尽可能的大，同时同一种类别数据的投影点尽可能的接近即

转化为迹的形式mintr(A^T(S_w-S_b)A)。

(4)特征分布差异函数更新为：

其中，λ为类内据与类间距的正则化参数。

三、正则项图嵌入矩阵：

图嵌入相似矩阵可以通过保持邻域间样本的相似关系而作为分布差异约束，用于衡量域之间的差异性以及标签的结构特性。图嵌入方法将每个样本向量都看作是一个顶点，通过计算点与点之间的距离，为邻近点赋予较高权值，而非邻近的点赋予较低权值，最终通过求得一个相似矩阵来描述数据的几何特性，具体步骤为：

(1)利用欧氏距离寻找每个样本点的k(k＜n,n为样本点数)个近邻点；

计算样本点和近邻点之间的径向基核函数：

(2)构造类内与类间相似矩阵，并得到最终的权重矩阵

(3)特征分布差异函数更新为：

s.t.A^TXHX^TA＝I

其中，μ为图嵌入矩阵正则化参数，L＝D-W,D为对角线矩阵，对角线元素为W各列元素之和，A即为最终求得的映射矩阵；H是中心矩阵，I是单位矩阵，A^TXHX^TA＝I用于保持变换前后数据的方差不变。

最终，求解

的特征分解，并选择前p个特征向量构成映射矩阵A，通过映射矩阵A分别将训练集与测试集的数据映射到同一个子空间中，以此来减少训练集与数据集原本的特征分布差异。

上述过程在具体运用中，具体进行：

(1)通过最大均值差异量化环境、说话人等不确定因素造成的特征差异：

(2)计算类内据与类间距，使映射后的特征具有最大可分性，更新优化目标函数：

(3)获得测试集的伪标签，并更新MMD矩阵；

(4)迭代，直至收敛；

(5)利用训练集的标签以及测试集的伪标签构造图嵌入矩阵，更新优化目

标函数：

s.t.A^TXHX^TA＝I

(6)更新MMD矩阵以及图嵌入矩阵；

(7)迭代，直至收敛；

(8)求解

的特征分解，并选择前p个特征向量构成映射矩阵A；

(9)通过映射矩阵A分别将训练集与测试集的数据映射到同一个子空间中，以此来减少训练集与数据集原本的特征分布差异。

实施例

如图2所示，本实施例将上述方法应用到语音识别系统中，即通过映射矩阵将数据集和测试集映射到同一子空间的特征输入分类器分类。

本实施例以美国马萨诸塞州眼耳医院(MEEI)数据库,萨尔布吕肯语音数据库(SVD)以及阿斯图里亚斯普林西比大学医院数据库(HUPA)为实验数据集。每次选取两组，一组作为训练集，一组作为测试集，共有以下六组实验设置。

M-S

M-H

S-M

S-H

H-M

H-S

训练集

MEEI

SVD

HUPA

测试集

SVD

HUPA

MEEI

HUPA

MEEI

SVD

识别结果：

数据集	NN	PCA	TCA	JDA	GFK	DSTL	JSTL
								M-S	40.10	35.28	48.48	46.70	38.07	45.18	52.03
M-H	42.71	38.44	51.26	54.02	41.21	51.51	65.83
								S-M	42.57	35.64	45.05	45.05	48.02	50.00	52.97
S-H	52.51	51.51	46.23	45.48	54.77	48.49	65.08
								H-M	43.56	43.07	44.06	42.57	44.06	47.37	62.38
H-S	58.88	53.55	58.12	62.17	57.61	58.12	64.72

其中，NN与PCA为传统的机器学习方法。TCA、JDA、GFK、DSTL均为迁移学习方法。但是TCA仅考虑到了边缘距离分布；JDA则是在TCA的基础上进一步考虑到了条件距离分布；GFK选择将训练集与测试集的数据映射到同一个流形空间来减少训练集与测试集之间的特征分布差异。DSTL则是在考虑边缘距离分布的情况下结合了数据对齐的方法。

从上表中看出，所提出的迁移子空间学习方法(在考虑边缘分布与条件分布的基础上，采用类内距与类间距保证最大可分性以及图嵌入(GE)保留标签的结构特性)优于传统的机器学习方法以及迁移学习方法。

通过的JSTL方法消除特征差异后，语音识别率在所有测试方案中均取得了最高识别率。相较于传统的机器学习以及特征筛选方法，JSTL通过最大均值差异量化、消除特征分布差异，从而获得更高的识别率。对比其它迁移学习方法，图嵌入矩阵被用于度量特征差异以及保持标签结构特性进一步提高了JSTL 的识别率。由此可知，本发明提出的特征提高了系统的识别率和可靠性，且实时性高。

本发明还提供一种面向语音识别的特征迁移学习系统，采用如上所述的一种面向语音识别的特征迁移学习方法进行语音识别。针对降低环境差异等多种因素对特征分布的干扰进行研究。运用最大均值差异(MMD)量化环境、说话人等不确定因素造成的特征差异。通过训练一组分类器，获得测试集的伪标签，以此计算特征间的条件分布差异。随后采用类内距与类间距保证最大可分性，图嵌入(GE)保留标签的结构特性，最终找到一个映射策略，使得映射后的语音信号特征差异最小。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。