CN114997266A - 一种面向语音识别的特征迁移学习方法及系统 - Google Patents

一种面向语音识别的特征迁移学习方法及系统 Download PDF

Info

Publication number
CN114997266A
CN114997266A CN202210427775.1A CN202210427775A CN114997266A CN 114997266 A CN114997266 A CN 114997266A CN 202210427775 A CN202210427775 A CN 202210427775A CN 114997266 A CN114997266 A CN 114997266A
Authority
CN
China
Prior art keywords
class
feature
distribution difference
matrix
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210427775.1A
Other languages
English (en)
Other versions
CN114997266B (zh
Inventor
张晓俊
章溢华
钱金阳
许宜申
陶智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210427775.1A priority Critical patent/CN114997266B/zh
Publication of CN114997266A publication Critical patent/CN114997266A/zh
Application granted granted Critical
Publication of CN114997266B publication Critical patent/CN114997266B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向语音识别的特征迁移学习方法及系统,包括以下步骤:获取制作为训练集和测试集;计算训练集和测试集的特征边缘分布差异和特征间条件分布差异;建立特征分布差异目标,求解一个映射矩阵,使得训练集和测试集映射到同一子空间上的特征分布差异尽可能小;其中,特征分布差异目标以最小化训练集和测试集的特征边缘分布差异和特征间条件分布差异为基础,将类内距、类间距和图嵌入矩阵作为正则项,使得映射后不同类别的样本的中心投影点之间的距离尽可能地大,同一类别的样本投影后距离应尽可能地小,且保持邻域间样本的相似关系作为分布差异约束。本发明有效减少各种不确定因素对语音信号的干扰,从而提升语音识别率。

Description

一种面向语音识别的特征迁移学习方法及系统
技术领域
本发明涉及语音识别技术领域,具体涉及一种面向语音识别的特征迁移学 习方法及系统。
背景技术
语音的识别过程主要包括特征提取和利用分类器进行识别两个步骤。在特 征提取方面,常用的特征参数主要包含线性预测倒谱系数LPCC、Mel倒谱 MFCC、基频F0、能量、Fourier倒谱以及相应的动态特征参数等。同时由于环 境差异、噪声、说话人等多种不确定因素造成的特征差异,往往会影响特征的 在分类中的性能表现。
为了消除特征差异,通常采用机器学习及特征筛选的方法,但语音识别率 效果低,容易被噪声等因素影响,进一步地,现有识别系统采用迁移学习方法 来消除特征差异,但其往往只考虑了数据集之间的边缘分布和条件分布,忽略 了伪标签的不稳定性和标签的保留性,造成最终识别率不够准确可靠。
发明内容
本发明的目的是提供一种面向语音识别的特征迁移学习方法及系统,有效 减少各种不确定因素对语音信号的干扰,从而提升语音识别率。
为了解决上述技术问题,本发明提供了一种面向语音识别的特征迁移学习 方法,包括以下步骤:
S1、获取语音信号数据,并将其分别制作为训练集和测试集,其中,训练 集中的语音信号数据具有表示语音类别的标签;
S2、利用最大均值差异计算训练集和测试集的特征边缘分布差异;
S3、通过训练集训练一组分类器,将测试集输入该分类器获得测试集的伪 标签,利用伪标签计算训练集与测试集的特征间条件分布差异;
S4、建立特征分布差异目标,求解一个映射矩阵,使得训练集和测试集映 射到同一子空间上的特征分布差异尽可能小;
其中,所述特征分布差异目标包括:以最小化训练集和测试集的特征边缘 分布差异和特征间条件分布差异为基础,将类内距、类间距和图嵌入矩阵作为 正则项,使得训练集和测试集映射后不同类别的样本的中心投影点之间的距离 尽可能地大,同一类别的样本投影后距离应尽可能地小,且保持邻域间样本的 相似关系作为分布差异约束。
作为本发明的进一步改进,所述步骤S2具体表示为:
Figure BDA0003610394370000021
其中,M0为边缘分布差异后的MMD矩阵,ns、nt分别表示训练集与测试 集包含的语音数目,A为映射矩阵。
作为本发明的进一步改进,将训练集和测试集的特征边缘分布差异和特征 间条件分布差异结合:
Figure BDA0003610394370000031
其中,c表示语音样本的类别,
Figure BDA0003610394370000032
分别表示训练集与测试集中同属第c 类的语音样本数目;
Figure BDA0003610394370000033
Figure BDA0003610394370000034
为计算条件分布差异后得到的MMD矩 阵。
作为本发明的进一步改进,以训练集和测试集的特征边缘分布差异和特征 间条件分布差异的结合为基础,建立特征分布差异的目标函数:
Figure BDA0003610394370000035
其中,
Figure BDA0003610394370000036
为正则项。
作为本发明的进一步改进,计算类内距与类间距,使映射后的特征具有最 大可分性,更新优化目标函数:
Figure BDA0003610394370000037
其中,Sw表示类内距,Sb表示类间距。
作为本发明的进一步改进,计算类内距与类间距,包括以下步骤:
a、测试集为Ds={(x1,y1),(x2,y2),...(xm,ym)},其中,xi是一个n维的特征向量 yi∈{0,1,...,c};Nc为测试集中第c类样本的个数;μc与∑c分别为第c类样本的均 值与协方差矩阵,则:
Figure BDA0003610394370000041
Figure BDA0003610394370000042
b、类内据与类间距的表示分别如下:
Figure BDA0003610394370000043
Figure BDA0003610394370000044
c、不同类别的中心投影点为ATμc,不同类别的样本的中心投影点之间的距 离要尽可能地大,即
Figure BDA0003610394370000045
转化为迹的形式mintr(AT(Sw-Sb)A)。
作为本发明的进一步改进,利用训练集的标签以及测试集的伪标签构造图 嵌入矩阵,更新优化目标函数:
Figure BDA0003610394370000046
s.t.ATXHXTA=I
其中,μ为图嵌入矩阵正则化参数,L=D-W,D为对角线矩阵,W为权重 矩阵,对角线元素为W各列元素之和,A即为最终求得的映射矩阵,H是中心 矩阵,I是单位矩阵,ATXHXTA=I用于保持变换前后数据的方差不变。
作为本发明的进一步改进,构造图嵌入矩阵具体包括步骤:
利用欧氏距离寻找每个样本点的k个近邻点,k<n,n为样本点数;
计算样本点和近邻点之间的径向基核函数:
Figure BDA0003610394370000047
其中,uij是近邻点xi、xj的核函数k(xi,xj)的函数值,Φ(xi)、Φ(xj)分别是样本 点xi、xj的高维空间映射值,||xi-xj||2是样本点xi、xj的欧氏距离,σ为函数的宽度 参数;
构造类内与类间相似矩阵,并得到最终的权重矩阵:
Figure BDA0003610394370000051
Figure BDA0003610394370000052
Figure BDA0003610394370000053
Figure RE-GDA0003781285430000054
Figure BDA0003610394370000055
作为本发明的进一步改进,基于目标函数,求解
Figure BDA0003610394370000056
的特征分解,并选择前p个特征向量 构成映射矩阵A。
一种面向语音识别的特征迁移学习系统,采用如上所述的一种面向语音识 别的特征迁移学习方法进行语音识别。
本发明的有益效果:本发明主要针对降低环境差异等多种因素对特征分布 的干扰进行研究,运用最大均值差异(MMD)量化环境、说话人等不确定因素 造成的特征差异,通过训练一组分类器,获得测试集的伪标签,以此计算特征 间的条件分布差异,随后采用类内距与类间距保证最大可分性,图嵌入(GE)保 留标签的结构特性,最终找到一个映射策略,使得映射后的语音信号特征差异 最小,该方法提出的结合类内据、类间距以及图嵌入矩阵的迁移子空间学习法 可以有效减轻各种不确定因素对语音信号的干扰,从而提升识别率;
针对伪标签的不稳定性提出图嵌入方法作为正则项度量特征间差异,图嵌 入方法将每个样本向量都看作是一个顶点,通过计算点与点之间的距离,为邻 近点赋予较高权值,而非邻近的点赋予较低权值,最终通过求得一个相似矩阵 来描述数据的几何特性,结合数据的几何特性可以在映射过程中最大地保留标 签结构性。
附图说明
图1是本发明方法流程示意图;
图2是本发明实施例应用语音系统示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人 员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
参考图1,本发明提供了一种面向语音识别的特征迁移学习方法,包括以 下步骤:
S1、获取语音信号数据,并将其分别制作为训练集和测试集,其中,训练 集中的语音信号数据具有表示语音类别的标签;
S2、利用最大均值差异计算训练集和测试集的特征边缘分布差异;
S3、通过训练集训练一组分类器,将测试集输入该分类器获得测试集的伪 标签,利用伪标签计算训练集与测试集的特征间条件分布差异;
S4、建立特征分布差异目标,求解一个映射矩阵,使得训练集和测试集映 射到同一子空间上的特征分布差异尽可能小;
其中,所述特征分布差异目标包括:以最小化训练集和测试集的特征边缘 分布差异和特征间条件分布差异为基础,将类内距、类间距和图嵌入矩阵作为 正则项,使得训练集和测试集映射后不同类别的样本的中心投影点之间的距离 尽可能地大,同一类别的样本投影后距离应尽可能地小,且保持邻域间样本的 相似关系作为分布差异约束。
本发明针对现有的语音识别方法中,同一说话人的语音受环境差异、说话 人状态等不确定因素的影响造成的识别率下降问题,本发明提供一种应用于语 音识别的新迁移子空间(JSTL)学习方法,该方法提出的结合类内据、类间距 以及图嵌入矩阵的迁移子空间学习法可以有效减轻各种不确定因素对语音信号 的干扰,从而提升识别率。该方法首先提取同一说话人在不同场景、状态下的 语音信号特征,同时运用最大均值差异(MMD)量化环境、说话人等不确定因 素造成的特征差异。通过训练一组分类器,获得测试集的伪标签,以此计算特 征间的条件分布差异。采用类内距与类间距保证最大可分性,图嵌入(GE)保留标签的结构特性。最终找到一个映射策略,使得映射后的语音信号特征差异最 小。
具体方法包括:
一、运用最大均值差异(MMD)量化环境、说话人等不确定因素造成的特 征差异,首先通过最大均值差异量化环境、说话人等不确定因素造成的特征差 异。将特征映射到一个高维希尔伯特核空间(RKHS),在此空间中计算求得 映射后不同特征间的均值之差。差距越小,说明分布越相似;反之,则说明分 布差异性越大。具体步骤为:
(1)利用最大均值差异(MMD)计算训练集与测试集样本的特征边缘分 布差异:
Figure BDA0003610394370000084
其中,M为MMD矩阵,ns、nt分别代表了训练集与测试集包含的语音数 目。
该步骤旨在寻找一个变化A,使得经过变化后的训练集与测试集的边缘分布 距离尽可能地小,即P(ATXs)与P(ATXt)的距离要尽可能的小;
(2)计算训练集与测试集样本的特征间条件分布差异:为了减少特征差异, 即P(ys|ATXs)与P(yt|ATXt)的距离要尽可能的小。(1)中提到的边缘分布差异计算 的是训练集与特征集的整体距离;条件分布差异计算的则是训练集中第c类的 语音与测试集中对应类别的语音的距离。然而在实际的机器学习过程中,只能 获得训练集的标签。缺少测试集的标签是无法计算对应类别的距离。因此通过 训练集数据训练一组分类器作用于测试集上,获得测试集的伪标签,以此计算 特征间的条件分布差异。将条件分布差异与边缘分布差异结合后得到:
Figure BDA0003610394370000081
Figure BDA0003610394370000082
其中,c代表了语音样本的类别。
Figure BDA0003610394370000083
分别代表了训练集与测试集中同 属第c类的语音样本数目。
Figure BDA0003610394370000091
M0为计算边缘分布差异后得到的 MMD矩阵,
Figure BDA0003610394370000092
为计算条件分布差异后得到的MMD矩阵(分别计算训练集 中第c类的语音与测试集中第c类语音的距离,共得到c个MMD矩阵,累加 即为总的MMD矩阵)。
要求特征分布差异最小,目标函数为:
Figure BDA0003610394370000093
其中
Figure BDA0003610394370000094
为正则项,防止模型过拟合。
二、以类内据与类间距作为正则项,保证特征最大可分性:
为了映射后使获得的的特征保持最大可分性,即投影后同一种类别数据的 投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。 类内据与类间距被用作正则项。假设两个类别的中心点为μ0,μ1,投影分别为 wTμ0,wTμ1。要让不同类别的数据的类别中心之间的距离尽可能的大,即是要 最大化
Figure BDA0003610394370000095
同一种类别数据的投影点尽可能的接近,也就是要同类样 本投影点的协方差wT0w和wT1w尽可能的小,即最小化wT0w+wT1w。最 终优化目标为
Figure BDA0003610394370000096
具体步骤为:
(1)假定测试集为Ds={(x1,y1),(x2,y2),...(xm,ym)},其中xi是一个n维的特征 向量yi∈{0,1,...,c}。Nc为测试集中第c类样本的个数。μc与∑c分别为第c类样本 的均值与协方差矩阵,可以被表示为
Figure BDA0003610394370000097
Figure BDA0003610394370000098
(2)假定不同类别的中心投影点为ATμc,不同类别的样本的中心投影点之 间的距离要尽可能地大,即最大化类间距矩阵。同一类别的样本投影后距离应 尽可能地小,即最小化类内据矩阵。
类内据与类间距的表示分别如下:
Figure BDA0003610394370000101
Figure BDA0003610394370000102
(3)希望不同类别的数据的类别中心之间的距离尽可能的大,同时同一种 类别数据的投影点尽可能的接近即
Figure BDA0003610394370000103
转化为迹的形式mintr(AT(Sw-Sb)A)。
(4)特征分布差异函数更新为:
Figure BDA0003610394370000104
其中,λ为类内据与类间距的正则化参数。
三、正则项图嵌入矩阵:
图嵌入相似矩阵可以通过保持邻域间样本的相似关系而作为分布差异约 束,用于衡量域之间的差异性以及标签的结构特性。图嵌入方法将每个样本向 量都看作是一个顶点,通过计算点与点之间的距离,为邻近点赋予较高权值, 而非邻近的点赋予较低权值,最终通过求得一个相似矩阵来描述数据的几何特 性,具体步骤为:
(1)利用欧氏距离寻找每个样本点的k(k<n,n为样本点数)个近邻点;
计算样本点和近邻点之间的径向基核函数:
Figure BDA0003610394370000105
其中,uij是近邻点xi、xj的核函数k(xi,xj)的函数值,Φ(xi)、Φ(xj)分别是样本 点xi、xj的高维空间映射值,||xi-xj||2是样本点xi、xj的欧氏距离,σ为函数的宽度 参数;
(2)构造类内与类间相似矩阵,并得到最终的权重矩阵
Figure BDA0003610394370000111
Figure RE-GDA0003781285430000112
Figure BDA0003610394370000113
Figure RE-GDA0003781285430000114
Figure BDA0003610394370000115
(3)特征分布差异函数更新为:
Figure BDA0003610394370000116
s.t.ATXHXTA=I
其中,μ为图嵌入矩阵正则化参数,L=D-W,D为对角线矩阵,对角线元 素为W各列元素之和,A即为最终求得的映射矩阵;H是中心矩阵,I是单位矩 阵,ATXHXTA=I用于保持变换前后数据的方差不变。
最终,求解
Figure BDA0003610394370000117
的特征分解,并选择前p个特征向量构成映射矩阵A,通过映射矩阵A分别将训练集与测试集的 数据映射到同一个子空间中,以此来减少训练集与数据集原本的特征分布差异。
上述过程在具体运用中,具体进行:
(1)通过最大均值差异量化环境、说话人等不确定因素造成的特征差异:
Figure BDA0003610394370000121
(2)计算类内据与类间距,使映射后的特征具有最大可分性,更新优化目 标函数:
Figure BDA0003610394370000122
(3)获得测试集的伪标签,并更新MMD矩阵;
(4)迭代,直至收敛;
(5)利用训练集的标签以及测试集的伪标签构造图嵌入矩阵,更新优化目
标函数:
Figure BDA0003610394370000123
s.t.ATXHXTA=I
(6)更新MMD矩阵以及图嵌入矩阵;
(7)迭代,直至收敛;
(8)求解
Figure BDA0003610394370000124
的特征分解,并选择前p个特征向量构成映射矩阵A;
(9)通过映射矩阵A分别将训练集与测试集的数据映射到同一个子空间 中,以此来减少训练集与数据集原本的特征分布差异。
实施例
如图2所示,本实施例将上述方法应用到语音识别系统中,即通过映射矩 阵将数据集和测试集映射到同一子空间的特征输入分类器分类。
本实施例以美国马萨诸塞州眼耳医院(MEEI)数据库,萨尔布吕肯语音数 据库(SVD)以及阿斯图里亚斯普林西比大学医院数据库(HUPA)为实验数据 集。每次选取两组,一组作为训练集,一组作为测试集,共有以下六组实验设 置。
M-S M-H S-M S-H H-M H-S
训练集 MEEI MEEI SVD SVD HUPA HUPA
测试集 SVD HUPA MEEI HUPA MEEI SVD
识别结果:
数据集 NN PCA TCA JDA GFK DSTL JSTL
M-S 40.10 35.28 48.48 46.70 38.07 45.18 52.03
M-H 42.71 38.44 51.26 54.02 41.21 51.51 65.83
S-M 42.57 35.64 45.05 45.05 48.02 50.00 52.97
S-H 52.51 51.51 46.23 45.48 54.77 48.49 65.08
H-M 43.56 43.07 44.06 42.57 44.06 47.37 62.38
H-S 58.88 53.55 58.12 62.17 57.61 58.12 64.72
其中,NN与PCA为传统的机器学习方法。TCA、JDA、GFK、DSTL均 为迁移学习方法。但是TCA仅考虑到了边缘距离分布;JDA则是在TCA的基 础上进一步考虑到了条件距离分布;GFK选择将训练集与测试集的数据映射到 同一个流形空间来减少训练集与测试集之间的特征分布差异。DSTL则是在考 虑边缘距离分布的情况下结合了数据对齐的方法。
从上表中看出,所提出的迁移子空间学习方法(在考虑边缘分布与条件分 布的基础上,采用类内距与类间距保证最大可分性以及图嵌入(GE)保留标签的 结构特性)优于传统的机器学习方法以及迁移学习方法。
通过的JSTL方法消除特征差异后,语音识别率在所有测试方案中均取得 了最高识别率。相较于传统的机器学习以及特征筛选方法,JSTL通过最大均值 差异量化、消除特征分布差异,从而获得更高的识别率。对比其它迁移学习方 法,图嵌入矩阵被用于度量特征差异以及保持标签结构特性进一步提高了JSTL 的识别率。由此可知,本发明提出的特征提高了系统的识别率和可靠性,且实 时性高。
本发明还提供一种面向语音识别的特征迁移学习系统,采用如上所述的一 种面向语音识别的特征迁移学习方法进行语音识别。针对降低环境差异等多种 因素对特征分布的干扰进行研究。运用最大均值差异(MMD)量化环境、说话 人等不确定因素造成的特征差异。通过训练一组分类器,获得测试集的伪标签, 以此计算特征间的条件分布差异。随后采用类内距与类间距保证最大可分性, 图嵌入(GE)保留标签的结构特性,最终找到一个映射策略,使得映射后的语音 信号特征差异最小。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的 保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或 变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种面向语音识别的特征迁移学习方法,其特征在于:包括以下步骤:
S1、获取语音信号数据,并将其分别制作为训练集和测试集,其中,训练集中的语音信号数据具有表示语音类别的标签;
S2、利用最大均值差异计算训练集和测试集的特征边缘分布差异;
S3、通过训练集训练一组分类器,将测试集输入该分类器获得测试集的伪标签,利用伪标签计算训练集与测试集的特征间条件分布差异;
S4、建立特征分布差异目标,求解一个映射矩阵,使得训练集和测试集映射到同一子空间上的特征分布差异尽可能小;
其中,所述特征分布差异目标包括:以最小化训练集和测试集的特征边缘分布差异和特征间条件分布差异为基础,将类内距、类间距和图嵌入矩阵作为正则项,使得训练集和测试集映射后不同类别的样本的中心投影点之间的距离尽可能地大,同一类别的样本投影后距离应尽可能地小,且保持邻域间样本的相似关系作为分布差异约束。
2.如权利要求1所述的一种面向语音识别的特征迁移学习方法,其特征在于:所述步骤S2具体表示为:
Figure FDA0003610394360000011
其中,M0为边缘分布差异后的MMD矩阵,ns、nt分别表示训练集与测试集包含的语音数目,A为映射矩阵。
3.如权利要求2所述的一种面向语音识别的特征迁移学习方法,其特征在于:将训练集和测试集的特征边缘分布差异和特征间条件分布差异结合:
Figure FDA0003610394360000021
其中,c表示语音样本的类别,
Figure FDA0003610394360000022
分别表示训练集与测试集中同属第c类的语音样本数目;
Figure FDA0003610394360000023
Figure FDA0003610394360000024
为计算条件分布差异后得到的MMD矩阵。
4.如权利要求3所述的一种面向语音识别的特征迁移学习方法,其特征在于:以训练集和测试集的特征边缘分布差异和特征间条件分布差异的结合为基础,建立特征分布差异的目标函数:
Figure FDA0003610394360000025
其中,
Figure FDA0003610394360000026
为正则项。
5.如权利要求4所述的一种面向语音识别的特征迁移学习方法,其特征在于:计算类内距与类间距,使映射后的特征具有最大可分性,更新优化目标函数:
Figure FDA0003610394360000027
其中,Sw表示类内距,Sb表示类间距。
6.如权利要求5所述的一种面向语音识别的特征迁移学习方法,其特征在于:计算类内距与类间距,包括以下步骤:
a、测试集为Ds={(x1,y1),(x2,y2),...(xm,ym)},其中,xi是一个n维的特征向量yi∈{0,1,...,c};Nc为测试集中第c类样本的个数;μc与∑c分别为第c类样本的均值与协方差矩阵,则:
Figure FDA0003610394360000031
Figure FDA0003610394360000032
b、类内据与类间距的表示分别如下:
Figure FDA0003610394360000033
Figure FDA0003610394360000034
c、不同类别的中心投影点为ATμc,不同类别的样本的中心投影点之间的距离要尽可能地大,即
Figure FDA0003610394360000035
转化为迹的形式min tr(AT(Sw-Sb)A)。
7.如权利要求5所述的一种面向语音识别的特征迁移学习方法,其特征在于:利用训练集的标签以及测试集的伪标签构造图嵌入矩阵,更新优化目标函数:
Figure FDA0003610394360000036
s.t.ATXHXTA=I
其中,μ为图嵌入矩阵正则化参数,L=D-W,D为对角线矩阵,W为权重矩阵,对角线元素为W各列元素之和,A即为最终求得的映射矩阵,H是中心矩阵,I是单位矩阵,ATXHXTA=I用于保持变换前后数据的方差不变。
8.如权利要求7所述的一种面向语音识别的特征迁移学习方法,其特征在于:构造图嵌入矩阵具体包括步骤:
利用欧氏距离寻找每个样本点的k个近邻点,k<n,n为样本点数;
计算样本点和近邻点之间的径向基核函数:
Figure RE-FDA0003781285420000041
其中,uij是近邻点xi、xj的核函数k(xi,xj)的函数值,Φ(xi)、Φ(xj)分别是样本点xi、xj的高维空间映射值,||xi-xj|2是样本点xi、xj的欧氏距离,σ为函数的宽度参数;
构造类内与类间相似矩阵,并得到最终的权重矩阵:
Figure RE-FDA0003781285420000042
Figure RE-FDA0003781285420000043
Figure RE-FDA0003781285420000044
Figure RE-FDA0003781285420000045
Figure RE-FDA0003781285420000051
9.如权利要求7所述的一种面向语音识别的特征迁移学习方法,其特征在于:基于目标函数,求解
Figure FDA0003610394360000051
的特征分解,并选择前p个特征向量构成映射矩阵A。
10.一种面向语音识别的特征迁移学习系统,其特征在于:采用如权利要求1-9中任一项所述的一种面向语音识别的特征迁移学习方法进行语音识别。
CN202210427775.1A 2022-04-22 2022-04-22 一种面向语音识别的特征迁移学习方法及系统 Active CN114997266B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210427775.1A CN114997266B (zh) 2022-04-22 2022-04-22 一种面向语音识别的特征迁移学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210427775.1A CN114997266B (zh) 2022-04-22 2022-04-22 一种面向语音识别的特征迁移学习方法及系统

Publications (2)

Publication Number Publication Date
CN114997266A true CN114997266A (zh) 2022-09-02
CN114997266B CN114997266B (zh) 2023-07-11

Family

ID=83024603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210427775.1A Active CN114997266B (zh) 2022-04-22 2022-04-22 一种面向语音识别的特征迁移学习方法及系统

Country Status (1)

Country Link
CN (1) CN114997266B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705063A (zh) * 2023-08-07 2023-09-05 北京中电慧声科技有限公司 一种基于流形测度的多模型融合的语音鉴伪识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150117766A1 (en) * 2013-10-29 2015-04-30 Raytheon Bbn Technologies Corp. Class discriminative feature transformation
WO2017166933A1 (zh) * 2016-03-30 2017-10-05 深圳大学 一种基于核机器学习的非负矩阵分解人脸识别方法及系统
CN109840518A (zh) * 2018-09-07 2019-06-04 电子科技大学 一种结合分类与域适应的视觉追踪方法
CN111444859A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种无监督跨域人脸表情识别方法
WO2022011754A1 (zh) * 2020-07-16 2022-01-20 苏州大学 一种基于自适应流形嵌入动态分布对齐的故障诊断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150117766A1 (en) * 2013-10-29 2015-04-30 Raytheon Bbn Technologies Corp. Class discriminative feature transformation
WO2017166933A1 (zh) * 2016-03-30 2017-10-05 深圳大学 一种基于核机器学习的非负矩阵分解人脸识别方法及系统
CN109840518A (zh) * 2018-09-07 2019-06-04 电子科技大学 一种结合分类与域适应的视觉追踪方法
CN111444859A (zh) * 2020-03-30 2020-07-24 哈尔滨工程大学 一种无监督跨域人脸表情识别方法
WO2022011754A1 (zh) * 2020-07-16 2022-01-20 苏州大学 一种基于自适应流形嵌入动态分布对齐的故障诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李萍;倪志伟;朱旭辉;宋娟;: "联合类间及域间分布适配的迁移学习方法", 模式识别与人工智能, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116705063A (zh) * 2023-08-07 2023-09-05 北京中电慧声科技有限公司 一种基于流形测度的多模型融合的语音鉴伪识别方法
CN116705063B (zh) * 2023-08-07 2023-10-20 北京中电慧声科技有限公司 一种基于流形测度的多模型融合的语音鉴伪识别方法

Also Published As

Publication number Publication date
CN114997266B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Tamura et al. Audio-visual speech recognition using deep bottleneck features and high-performance lipreading
WO2019237517A1 (zh) 说话人聚类方法、装置、计算机设备及存储介质
CN111914708B (zh) 迁移半监督宽度学习的脑电信号分类方法
US20040260550A1 (en) Audio processing system and method for classifying speakers in audio data
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
US20220208198A1 (en) Combined learning method and apparatus using deepening neural network based feature enhancement and modified loss function for speaker recognition robust to noisy environments
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN106845528A (zh) 一种基于K‑means与深度学习的图像分类算法
CN106601258A (zh) 基于改进的lsda算法进行信道补偿的说话人识别方法
JP6620882B2 (ja) ドメイン適応を用いたパターン認識装置、方法およびプログラム
CN111353373A (zh) 一种相关对齐域适应故障诊断方法
CN111161744A (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN108877947B (zh) 基于迭代均值聚类的深度样本学习方法
CN109840518B (zh) 一种结合分类与域适应的视觉追踪方法
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN111611909A (zh) 多子空间域自适应人脸识别方法
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
CN114997266B (zh) 一种面向语音识别的特征迁移学习方法及系统
CN115344693A (zh) 一种基于传统算法和神经网络算法融合的聚类方法
CN110085236A (zh) 一种基于自适应语音帧加权的说话人识别方法
CN117854104A (zh) 一种基于特征对齐的无监督行人重识别方法
CN117746084A (zh) 一种基于注意力残差和对比学习的无监督域适应行人重识别方法
CN116912567A (zh) 一种基于伪标签半监督学习的图像分类方法
Barakbah et al. A new approach for image segmentation using Pillar-Kmeans algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant