CN106601235A - 一种半监督多任务特征选择的语音识别方法 - Google Patents

一种半监督多任务特征选择的语音识别方法 Download PDF

Info

Publication number
CN106601235A
CN106601235A CN201611095564.3A CN201611095564A CN106601235A CN 106601235 A CN106601235 A CN 106601235A CN 201611095564 A CN201611095564 A CN 201611095564A CN 106601235 A CN106601235 A CN 106601235A
Authority
CN
China
Prior art keywords
prime
task
matrix
learning
objective function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201611095564.3A
Other languages
English (en)
Inventor
王晓栋
曾志强
严菲
洪朝群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University of Technology
Original Assignee
Xiamen University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University of Technology filed Critical Xiamen University of Technology
Priority to CN201611095564.3A priority Critical patent/CN106601235A/zh
Publication of CN106601235A publication Critical patent/CN106601235A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种半监督多任务特征选择的语音识别方法,包括如下步骤:(1)获取T个相似的语音识别学习任务,每个学习任务t中包含一个数据集其中,dt为特征个数,ct为数据集Xt的分类数,nt是第t个学习任务中样本数;(2)为每个学习任务建立基于全局线性约束的特征选择模型;(3)在步骤(2)的基础上构建多个学习任务联合特征选择模型,得到目标函数;(4)利用迭代优化算法求解步骤(3)中的目标函数。此种语音识别方法可有效提高语音识别的准确度,同时可有效抑制数据集中噪声的干扰。

Description

一种半监督多任务特征选择的语音识别方法
技术领域
本发明属于机器学习技术领域,特别涉及一种半监督多任务特征选择的语音识别方法。
背景技术
在多媒体技术和互联网技术高速发展的今天,高维数据在多种领域呈现爆发式的增长,如模式识别、计算机视觉和多媒体数据分析等领域,而且处理这些高维数据需要消耗大量的时间。此外,在各类机器学习任务中,如分类、聚类等,高维数据的存在也使得特征选择变得更加复杂因难。最新研究表明,如果能预先对数据的特征进行筛选,选择其最重要的特征子集,机器学习的效率将得到有效的提高。
随着高维数据的快速增长,使得标记训练集所需要消耗的人力成本急剧增加。一般地,在特征选择领域,当已标记的训练数据集样本较少时,有两种可选的解决方案:半监督特征选择算法和多任务特征选择算法。然而现有的半监督特征选择算法为了取得全局或局部可区分信息,一般需要为训练数据集建立拉普拉斯(Laplacian)矩阵。在已标记数据少的情况下,这种方法较为有效,但训练集的数量较大时,该类方法需要消耗较大的时间和空间,影响了该类方法的应用。多任务特征选择是另一种解决少量标签样本问题的方法。给定多个学习任务,多任务特征选择方法认为各个学习任务间具有相关性,并获取这些共享信息来提高不同学习任务准确性。然而,现有多任务特征选择方法是监督的,无法有效提取不同任务间未标记数据间的相关性。
发明内容
本发明的目的,在于提供一种半监督多任务特征选择的语音识别方法,其可有效提高语音识别的准确度,同时可有效抑制数据集中噪声的干扰。
为了达成上述目的,本发明的解决方案是:
一种半监督多任务特征选择的语音识别方法,包括如下步骤:
(1)获取T个相似的语音识别学习任务,每个学习任务t中包含一个数据集其中,dt为特征个数,ct为数据集Xt的分类数,nt是第t个学习任务中样本数;
(2)为每个学习任务建立基于全局线性约束的特征选择模型;
(3)在步骤(2)的基础上构建多个学习任务联合特征选择模型,得到目标函数;
(4)利用迭代优化算法求解步骤(3)中的目标函数。
上述步骤(2)中,建立基于全局线性约束的特征选择模型如下:
其中,为第t个学习任务特征选择矩阵,Wt'表示Wt的转置矩阵;为第t个任务的标签矩阵,其中mt表示已标记样本数;的第j个元素,如果属于第j个类,则否则 为元素全为1的向量,为基准参数;为任务t的训练权重;为任务t的预测标签矩阵,初始时,α为惩罚因子,的2范数,||Wt||2,1为Wt的l2,1范数。
上述步骤(3)中,目标函数如下:
其中,W={W1,…,WT}为联合特征矩阵,||W||*为W的迹范数,β为惩罚因子。
上述步骤(4)中,对目标函数进行优化的过程如下:
首先将目标函数转换为如下形式:
其中,St是每个元素值的对角矩阵,Dt定义如下:
取转换后的目标函数相对于bt的导数,并令求导结果为0,得到:
取转化后目标函数对Wt的导数,并令求导结果为0,得到:
其中,
在获取Wt和bt后,再根据线性约束更新Ft,即更新规则如下:
上述步骤(4)中,采用如下方法进行迭代优化:
1≤t≤T,代表第t个学习任务的标签矩阵,r代表迭代次数;
步骤1:令r=0,并随机初始化每一个学习任务的特征选择矩阵
步骤2:计算
步骤3:更新
步骤4:更新
步骤5:更新并根据以下公式校正Ft
步骤6:更新t=t+1;
步骤7:针对于每一个任务t<T,重复步骤2-步骤6;
步骤8:
步骤9:更新r=r+1;
步骤10:重复执行步骤2-步骤9,直到算法收敛,输出每一个学习任务的Wt和bt
采用上述方案后,本发明有效利用数据集中的已标记数据和未标记数据信息,且在提取未标记数据信息时无需要构建拉普拉斯(Laplacian)矩阵,从而能够有效节约计算机资源。在每个任务学习过程中,利用l2,1范数约束特征选择矩阵,从而对数据集中的噪声有较高的抗干扰性。最后,本发明还能有效提取多个学习任务之间的共享信息,利用所提取的共享信息约束每个学习任务,从而提高特征选择的准确性和扩展性。
本发明使得语音识别方法能够通过高效地利用多个学习任务中已标记数据、未标记数据、以及多个学习任务之间共享信息提高语音识别的准确度;同时,该方法还可有效抑制数据集中噪声的干扰,最终为机器学习、计算机视觉相关应用提供有效的支持。
附图说明
图1是本发明的原理示意图;
图2是本发明的流程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
如图1和图2所示,本发明提供一种半监督多任务特征选择的语音识别方法,包括如下步骤:
(1)获取T个相似的语音识别学习任务,每个学习任务t中包含一个数据集其中,dt为特征个数,ct为数据集Xt的分类数,nt是第t个学习任务中样本数;
(2)为每个学习任务建立基于全局线性约束的特征选择模型:
其中,为第t个学习任务特征选择矩阵,Wt'表示Wt的转置矩阵,下同;为第t个任务的标签矩阵,其中mt表示已标记样本数;的第j个元素,如果属于第j个类,则否则 为元素全为1的向量,为基准参数;为任务t的训练权重;为任务t的预测标签矩阵,初始时,α为惩罚因子,的2范数,||Wt||2,1为Wt的l2,1范数。
(3)在步骤(2)的基础上构建多个学习任务联合特征选择模型,目标函数如下:
其中,W={W1,…,WT}为联合特征矩阵,||W||*为W的迹范数,β为惩罚因子。
可以看出,目标函数中的联合特征选择模型具备几个特点:1)该模型能够在全局线性约束基础上充分利用已标记数据和未标记数据之间的信息;2)对于每一个学习任务,通过l2,1范数约束,使得每个学习任务中的特征选择矩阵按行稀疏,有利于筛选出最具代表性的特征属性,且对数据中的噪声具备较高的抗干扰性;3)利用迹范数约束多个学习任务的联合特征选择矩阵,使得该矩阵呈现低秩性,有利于提取多个学习任务间有共享信息。
(4)求解目标函数
由于所述目标函数涉及组稀疏的l2,1约束,是非凸的,采用以下步骤对其进行优化:
首先将目标函数转换为如下形式:
其中,St是每个元素值的对角矩阵,Dt定义如下:
取转换后的目标函数相对于bt的导数,并令求导结果为0,可得:
取转化后目标函数对Wt的导数,并令求导结果为0,可得:
其中,
在获取Wt和bt后,再根据线性约束更新Ft,即更新规则如下:
(5)模型迭代优化方法。
基于以上求解过程,采用以下步骤对模型进行迭代优化:
代表第t个学习任务的标签矩阵,r代表迭代次数。
步骤1:令r=0,并随机初始化每一个学习任务的特征选择矩阵
步骤2:计算
步骤3:更新
步骤4:更新
步骤5:更新并根据以下公式校正Ft
步骤6:更新t=t+1;
步骤7:针对于每一个任务t<T,重复步骤2-步骤6;
步骤8:
步骤9:更新r=r+1;
步骤10:重复执行步骤2-步骤9,直到算法收敛,输出每一个学习任务的Wt和bt
为了验证本发明实施例所提供半监督多任务特征选择的语音识别方法,针对开源数据库Isolet进行验证分析,该数据库是将150个演讲者划分为5组,每个演讲者分别对26个英文字母发音两次,因此对于每个演讲者可采集到52个语音样本,共7797个样本,每个样本包含617个特征。本案例中,将Isolet划分为5个独立的识别任务,并和4个主流的方法进行效果的比较,分别是三个单任务方法:FISHER SCORE,Feature Selection via Jointl2,1-Norm Minimization(FSNM),Convex Semi-supervised multi-label FeatureSelection(CSFS)和一个多任务方法:Feature Selection with Shared Informationamong multiple tasks(FSSI)。
表1多种算法在Isolet数据集上性能比较(±标准方差)
表1为多种算法在Isolet数据集上性能比较结果,从表1的结果可以看出本发明提供的方法有着明显的优点,除在任务2中10%分组中略微差于CSFS外,在每个学习任务上数据集的效果均优于其他方法,从而证明了本发明所提供方法的有效性。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.一种半监督多任务特征选择的语音识别方法,其特征在于包括如下步骤:
(1)获取T个相似的语音识别学习任务,每个学习任务t中包含一个数据集其中,dt为特征个数,ct为数据集Xt的分类数,nt是第t个学习任务中样本数;
(2)为每个学习任务建立基于全局线性约束的特征选择模型;
(3)在步骤(2)的基础上构建多个学习任务联合特征选择模型,得到目标函数;
(4)利用迭代优化算法求解步骤(3)中的目标函数。
2.如权利要求1所述的一种基于局部信息和组稀疏约束的半监督人脸识别方法,其特征在于:所述步骤(2)中,建立基于全局线性约束的特征选择模型如下:
m i n W t , b t , F t l = Y t , 0 &le; f t i &le; 1 &Sigma; t = 1 T ( &Sigma; i = 1 n t s t i | | W t &prime; x t i + b t - f t i | | 2 2 + &alpha; | | W t | | 2 , 1 )
其中,为第t个学习任务特征选择矩阵,Wt'表示Wt的转置矩阵;为第t个任务的标签矩阵,其中mt表示已标记样本数;的第j个元素,如果属于第j个类,则否则 为元素全为1的向量,为基准参数;为任务t的训练权重;为任务t的预测标签矩阵,初始时,α为惩罚因子,的2范数,||Wt||2,1为Wt的l2,1范数。
3.如权利要求1所述的一种基于局部信息和组稀疏约束的半监督人脸识别方法,其特征在于:所述步骤(3)中,目标函数如下:
m i n W t , b t , F t l = Y t , 0 &le; f t i &le; 1 &Sigma; t = 1 T ( &Sigma; i = 1 n t s t i | | W t &prime; x t &prime; + b t - f t i | | 2 2 + &alpha; | | W t | | 2 , 1 ) + &beta; | | W | | *
其中,W={W1,…,WT}为联合特征矩阵,||W||*为W的迹范数,β为惩罚因子。
4.如权利要求1所述的一种基于局部信息和组稀疏约束的半监督人脸识别方法,其特征在于:所述步骤(4)中,对目标函数进行优化的过程如下:
首先将目标函数转换为如下形式:
m i n W t , b t , F t l = Y t , 0 &le; f t i &le; 1 &lsqb; &Sigma; t = 1 T ( T r ( ( X t &prime; W t + 1 t b t &prime; - F t ) &prime; S t ( X t &prime; W t + 1 t b t &prime; - F ) ) + &alpha; T r ( W t &prime; D t W t ) ) &rsqb; + &lsqb; &beta; 2 T r ( W &prime; ( WW &prime; ) 1 2 W ) &rsqb;
其中,St是每个元素值的对角矩阵,Dt定义如下:
D t = 1 2 | | w t 1 | | 2 ... 1 2 | | w t d t | | 2
取转换后的目标函数相对于bt的导数,并令求导结果为0,得到:
b t = 1 n t F t &prime; S t 1 t - 1 n t W t &prime; X t S t 1 t
取转化后目标函数对Wt的导数,并令求导结果为0,得到:
W t = ( X t H t S t H t X t &prime; + &alpha;D t + &beta; D ~ ) - 1 X t H t S t H t F t
其中,
在获取Wt和bt后,再根据线性约束更新Ft,即更新规则如下:
F ~ t i j = 0 i f F ~ t i j < 0 F ~ t i j i f 0 &le; F ~ t i j &le; 1 1 i f F ~ t i j > 1 .
5.如权利要求1所述的一种基于局部信息和组稀疏约束的半监督人脸识别方法,其特征在于:所述步骤(4)中,采用如下方法进行迭代优化:
1≤t≤T,代表第t个学习任务的标签矩阵,r代表迭代次数;
步骤1:令r=0,并随机初始化每一个学习任务的特征选择矩阵
步骤2:计算
步骤3:更新
步骤4:更新
步骤5:更新并根据以下公式校正Ft
F ~ t i j = 0 i f F ~ t i j < 0 F ~ t i j i f 0 &le; F ~ t i j &le; 1 1 i f F ~ t i j > 1
步骤6:更新t=t+1;
步骤7:针对于每一个任务t<T,重复步骤2-步骤6;
步骤8:
步骤9:更新r=r+1;
步骤10:重复执行步骤2-步骤9,直到算法收敛,输出每一个学习任务的Wt和bt
CN201611095564.3A 2016-12-02 2016-12-02 一种半监督多任务特征选择的语音识别方法 Withdrawn CN106601235A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611095564.3A CN106601235A (zh) 2016-12-02 2016-12-02 一种半监督多任务特征选择的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611095564.3A CN106601235A (zh) 2016-12-02 2016-12-02 一种半监督多任务特征选择的语音识别方法

Publications (1)

Publication Number Publication Date
CN106601235A true CN106601235A (zh) 2017-04-26

Family

ID=58596934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611095564.3A Withdrawn CN106601235A (zh) 2016-12-02 2016-12-02 一种半监督多任务特征选择的语音识别方法

Country Status (1)

Country Link
CN (1) CN106601235A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993311A (zh) * 2017-11-15 2018-05-04 常州大学 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法
CN109063743A (zh) * 2018-07-06 2018-12-21 云南大学 基于半监督多任务学习的医疗数据分类模型的构建方法
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法
CN111062484A (zh) * 2019-11-19 2020-04-24 中科鼎富(北京)科技发展有限公司 基于多任务学习的数据集选取方法及装置
CN111292722A (zh) * 2019-12-13 2020-06-16 中国科学院深圳先进技术研究院 异步联合架构的模型训练方法、终端、服务器及存储装置
CN112215290A (zh) * 2020-10-16 2021-01-12 苏州大学 基于Fisher得分的Q学习辅助数据分析方法及系统
CN113782000A (zh) * 2021-09-29 2021-12-10 北京中科智加科技有限公司 一种基于多任务的语种识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975978A (zh) * 2016-04-22 2016-09-28 南京师范大学 一种结合标记相关性的半监督多标记特征选择及分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975978A (zh) * 2016-04-22 2016-09-28 南京师范大学 一种结合标记相关性的半监督多标记特征选择及分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAO-DONG WANG等: ""Semi-supervised feature selection with exploiting shared information among multiple tasks"", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993311A (zh) * 2017-11-15 2018-05-04 常州大学 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法
CN109063743A (zh) * 2018-07-06 2018-12-21 云南大学 基于半监督多任务学习的医疗数据分类模型的构建方法
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法
CN111062484A (zh) * 2019-11-19 2020-04-24 中科鼎富(北京)科技发展有限公司 基于多任务学习的数据集选取方法及装置
CN111062484B (zh) * 2019-11-19 2023-06-09 鼎富智能科技有限公司 基于多任务学习的数据集选取方法及装置
CN111292722A (zh) * 2019-12-13 2020-06-16 中国科学院深圳先进技术研究院 异步联合架构的模型训练方法、终端、服务器及存储装置
CN111292722B (zh) * 2019-12-13 2023-08-15 中国科学院深圳先进技术研究院 异步联合架构的模型训练方法、终端、服务器及存储装置
CN112215290A (zh) * 2020-10-16 2021-01-12 苏州大学 基于Fisher得分的Q学习辅助数据分析方法及系统
CN112215290B (zh) * 2020-10-16 2024-04-09 苏州大学 基于Fisher得分的Q学习辅助数据分析方法及系统
CN113782000A (zh) * 2021-09-29 2021-12-10 北京中科智加科技有限公司 一种基于多任务的语种识别方法

Similar Documents

Publication Publication Date Title
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法
CN112132179A (zh) 基于少量标注样本的增量学习方法及系统
US8977579B2 (en) Latent factor dependency structure determination
CN110653824B (zh) 基于概率模型的机器人离散型轨迹的表征与泛化方法
Valera et al. Automatic discovery of the statistical types of variables in a dataset
CN102915448B (zh) 一种基于AdaBoost的三维模型自动分类方法
CN109815331A (zh) 文本情感分类模型的构建方法、装置和计算机设备
CN104035996A (zh) 基于Deep Learning的领域概念抽取方法
CN103473308B (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
CN103971136A (zh) 一种面向大规模数据的并行结构化支持向量机分类方法
Zare et al. Detection of community structures in networks with nodal features based on generative probabilistic approach
CN111753995A (zh) 一种基于梯度提升树的局部可解释方法
CN104318271A (zh) 一种基于适应性编码和几何平滑汇合的图像分类方法
Le et al. Task affinity with maximum bipartite matching in few-shot learning
CN105913353A (zh) 一种基于K-means聚类多权重自适应的学生学习行为分析方法
Honda et al. PCA-guided k-means clustering with incomplete data
CN104376120A (zh) 一种信息检索方法及系统
WO2021059527A1 (ja) 学習装置、学習方法、及び、記録媒体
WO2016090625A1 (en) Scalable web data extraction
Calderhead et al. Sparse approximate manifolds for differential geometric mcmc
Li et al. More correlations better performance: Fully associative networks for multi-label image classification
Czarnowski et al. A new cluster-based instance selection algorithm
CN109829168A (zh) 一种情感分析方法、装置、电子设备及存储介质
CN103605813A (zh) 一种域适应学习的最优核组合选择方法
CN110084303B (zh) 一种基于cnn与rf的老年人平衡能力特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170426

WW01 Invention patent application withdrawn after publication