CN106601235A - 一种半监督多任务特征选择的语音识别方法 - Google Patents
一种半监督多任务特征选择的语音识别方法 Download PDFInfo
- Publication number
- CN106601235A CN106601235A CN201611095564.3A CN201611095564A CN106601235A CN 106601235 A CN106601235 A CN 106601235A CN 201611095564 A CN201611095564 A CN 201611095564A CN 106601235 A CN106601235 A CN 106601235A
- Authority
- CN
- China
- Prior art keywords
- prime
- task
- matrix
- learning
- objective function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种半监督多任务特征选择的语音识别方法,包括如下步骤:(1)获取T个相似的语音识别学习任务,每个学习任务t中包含一个数据集其中,dt为特征个数,ct为数据集Xt的分类数,nt是第t个学习任务中样本数;(2)为每个学习任务建立基于全局线性约束的特征选择模型;(3)在步骤(2)的基础上构建多个学习任务联合特征选择模型,得到目标函数;(4)利用迭代优化算法求解步骤(3)中的目标函数。此种语音识别方法可有效提高语音识别的准确度,同时可有效抑制数据集中噪声的干扰。
Description
技术领域
本发明属于机器学习技术领域,特别涉及一种半监督多任务特征选择的语音识别方法。
背景技术
在多媒体技术和互联网技术高速发展的今天,高维数据在多种领域呈现爆发式的增长,如模式识别、计算机视觉和多媒体数据分析等领域,而且处理这些高维数据需要消耗大量的时间。此外,在各类机器学习任务中,如分类、聚类等,高维数据的存在也使得特征选择变得更加复杂因难。最新研究表明,如果能预先对数据的特征进行筛选,选择其最重要的特征子集,机器学习的效率将得到有效的提高。
随着高维数据的快速增长,使得标记训练集所需要消耗的人力成本急剧增加。一般地,在特征选择领域,当已标记的训练数据集样本较少时,有两种可选的解决方案:半监督特征选择算法和多任务特征选择算法。然而现有的半监督特征选择算法为了取得全局或局部可区分信息,一般需要为训练数据集建立拉普拉斯(Laplacian)矩阵。在已标记数据少的情况下,这种方法较为有效,但训练集的数量较大时,该类方法需要消耗较大的时间和空间,影响了该类方法的应用。多任务特征选择是另一种解决少量标签样本问题的方法。给定多个学习任务,多任务特征选择方法认为各个学习任务间具有相关性,并获取这些共享信息来提高不同学习任务准确性。然而,现有多任务特征选择方法是监督的,无法有效提取不同任务间未标记数据间的相关性。
发明内容
本发明的目的,在于提供一种半监督多任务特征选择的语音识别方法,其可有效提高语音识别的准确度,同时可有效抑制数据集中噪声的干扰。
为了达成上述目的,本发明的解决方案是:
一种半监督多任务特征选择的语音识别方法,包括如下步骤:
(1)获取T个相似的语音识别学习任务,每个学习任务t中包含一个数据集其中,dt为特征个数,ct为数据集Xt的分类数,nt是第t个学习任务中样本数;
(2)为每个学习任务建立基于全局线性约束的特征选择模型;
(3)在步骤(2)的基础上构建多个学习任务联合特征选择模型,得到目标函数;
(4)利用迭代优化算法求解步骤(3)中的目标函数。
上述步骤(2)中,建立基于全局线性约束的特征选择模型如下:
其中,为第t个学习任务特征选择矩阵,Wt'表示Wt的转置矩阵;为第t个任务的标签矩阵,其中mt表示已标记样本数;为的第j个元素,如果属于第j个类,则否则 为元素全为1的向量,为基准参数;为任务t的训练权重;为任务t的预测标签矩阵,初始时,且α为惩罚因子,为的2范数,||Wt||2,1为Wt的l2,1范数。
上述步骤(3)中,目标函数如下:
其中,W={W1,…,WT}为联合特征矩阵,||W||*为W的迹范数,β为惩罚因子。
上述步骤(4)中,对目标函数进行优化的过程如下:
首先将目标函数转换为如下形式:
其中,St是每个元素值的对角矩阵,Dt定义如下:
取转换后的目标函数相对于bt的导数,并令求导结果为0,得到:
取转化后目标函数对Wt的导数,并令求导结果为0,得到:
其中,
在获取Wt和bt后,再根据线性约束更新Ft,即更新规则如下:
上述步骤(4)中,采用如下方法进行迭代优化:
令1≤t≤T,代表第t个学习任务的标签矩阵,r代表迭代次数;
步骤1:令r=0,并随机初始化每一个学习任务的特征选择矩阵
步骤2:计算
步骤3:更新
步骤4:更新
步骤5:更新并根据以下公式校正Ft:
步骤6:更新t=t+1;
步骤7:针对于每一个任务t<T,重复步骤2-步骤6;
步骤8:
步骤9:更新r=r+1;
步骤10:重复执行步骤2-步骤9,直到算法收敛,输出每一个学习任务的Wt和bt。
采用上述方案后,本发明有效利用数据集中的已标记数据和未标记数据信息,且在提取未标记数据信息时无需要构建拉普拉斯(Laplacian)矩阵,从而能够有效节约计算机资源。在每个任务学习过程中,利用l2,1范数约束特征选择矩阵,从而对数据集中的噪声有较高的抗干扰性。最后,本发明还能有效提取多个学习任务之间的共享信息,利用所提取的共享信息约束每个学习任务,从而提高特征选择的准确性和扩展性。
本发明使得语音识别方法能够通过高效地利用多个学习任务中已标记数据、未标记数据、以及多个学习任务之间共享信息提高语音识别的准确度;同时,该方法还可有效抑制数据集中噪声的干扰,最终为机器学习、计算机视觉相关应用提供有效的支持。
附图说明
图1是本发明的原理示意图;
图2是本发明的流程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
如图1和图2所示,本发明提供一种半监督多任务特征选择的语音识别方法,包括如下步骤:
(1)获取T个相似的语音识别学习任务,每个学习任务t中包含一个数据集其中,dt为特征个数,ct为数据集Xt的分类数,nt是第t个学习任务中样本数;
(2)为每个学习任务建立基于全局线性约束的特征选择模型:
其中,为第t个学习任务特征选择矩阵,Wt'表示Wt的转置矩阵,下同;为第t个任务的标签矩阵,其中mt表示已标记样本数;为的第j个元素,如果属于第j个类,则否则 为元素全为1的向量,为基准参数;为任务t的训练权重;为任务t的预测标签矩阵,初始时,且α为惩罚因子,为的2范数,||Wt||2,1为Wt的l2,1范数。
(3)在步骤(2)的基础上构建多个学习任务联合特征选择模型,目标函数如下:
其中,W={W1,…,WT}为联合特征矩阵,||W||*为W的迹范数,β为惩罚因子。
可以看出,目标函数中的联合特征选择模型具备几个特点:1)该模型能够在全局线性约束基础上充分利用已标记数据和未标记数据之间的信息;2)对于每一个学习任务,通过l2,1范数约束,使得每个学习任务中的特征选择矩阵按行稀疏,有利于筛选出最具代表性的特征属性,且对数据中的噪声具备较高的抗干扰性;3)利用迹范数约束多个学习任务的联合特征选择矩阵,使得该矩阵呈现低秩性,有利于提取多个学习任务间有共享信息。
(4)求解目标函数
由于所述目标函数涉及组稀疏的l2,1约束,是非凸的,采用以下步骤对其进行优化:
首先将目标函数转换为如下形式:
其中,St是每个元素值的对角矩阵,Dt定义如下:
取转换后的目标函数相对于bt的导数,并令求导结果为0,可得:
取转化后目标函数对Wt的导数,并令求导结果为0,可得:
其中,
在获取Wt和bt后,再根据线性约束更新Ft,即更新规则如下:
(5)模型迭代优化方法。
基于以上求解过程,采用以下步骤对模型进行迭代优化:
令代表第t个学习任务的标签矩阵,r代表迭代次数。
步骤1:令r=0,并随机初始化每一个学习任务的特征选择矩阵
步骤2:计算
步骤3:更新
步骤4:更新
步骤5:更新并根据以下公式校正Ft:
步骤6:更新t=t+1;
步骤7:针对于每一个任务t<T,重复步骤2-步骤6;
步骤8:
步骤9:更新r=r+1;
步骤10:重复执行步骤2-步骤9,直到算法收敛,输出每一个学习任务的Wt和bt。
为了验证本发明实施例所提供半监督多任务特征选择的语音识别方法,针对开源数据库Isolet进行验证分析,该数据库是将150个演讲者划分为5组,每个演讲者分别对26个英文字母发音两次,因此对于每个演讲者可采集到52个语音样本,共7797个样本,每个样本包含617个特征。本案例中,将Isolet划分为5个独立的识别任务,并和4个主流的方法进行效果的比较,分别是三个单任务方法:FISHER SCORE,Feature Selection via Jointl2,1-Norm Minimization(FSNM),Convex Semi-supervised multi-label FeatureSelection(CSFS)和一个多任务方法:Feature Selection with Shared Informationamong multiple tasks(FSSI)。
表1多种算法在Isolet数据集上性能比较(±标准方差)
表1为多种算法在Isolet数据集上性能比较结果,从表1的结果可以看出本发明提供的方法有着明显的优点,除在任务2中10%分组中略微差于CSFS外,在每个学习任务上数据集的效果均优于其他方法,从而证明了本发明所提供方法的有效性。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (5)
1.一种半监督多任务特征选择的语音识别方法,其特征在于包括如下步骤:
(1)获取T个相似的语音识别学习任务,每个学习任务t中包含一个数据集其中,dt为特征个数,ct为数据集Xt的分类数,nt是第t个学习任务中样本数;
(2)为每个学习任务建立基于全局线性约束的特征选择模型;
(3)在步骤(2)的基础上构建多个学习任务联合特征选择模型,得到目标函数;
(4)利用迭代优化算法求解步骤(3)中的目标函数。
2.如权利要求1所述的一种基于局部信息和组稀疏约束的半监督人脸识别方法,其特征在于:所述步骤(2)中,建立基于全局线性约束的特征选择模型如下:
其中,为第t个学习任务特征选择矩阵,Wt'表示Wt的转置矩阵;为第t个任务的标签矩阵,其中mt表示已标记样本数;为的第j个元素,如果属于第j个类,则否则 为元素全为1的向量,为基准参数;为任务t的训练权重;为任务t的预测标签矩阵,初始时,且α为惩罚因子,为的2范数,||Wt||2,1为Wt的l2,1范数。
3.如权利要求1所述的一种基于局部信息和组稀疏约束的半监督人脸识别方法,其特征在于:所述步骤(3)中,目标函数如下:
其中,W={W1,…,WT}为联合特征矩阵,||W||*为W的迹范数,β为惩罚因子。
4.如权利要求1所述的一种基于局部信息和组稀疏约束的半监督人脸识别方法,其特征在于:所述步骤(4)中,对目标函数进行优化的过程如下:
首先将目标函数转换为如下形式:
其中,St是每个元素值的对角矩阵,Dt定义如下:
取转换后的目标函数相对于bt的导数,并令求导结果为0,得到:
取转化后目标函数对Wt的导数,并令求导结果为0,得到:
其中,
在获取Wt和bt后,再根据线性约束更新Ft,即更新规则如下:
5.如权利要求1所述的一种基于局部信息和组稀疏约束的半监督人脸识别方法,其特征在于:所述步骤(4)中,采用如下方法进行迭代优化:
令1≤t≤T,代表第t个学习任务的标签矩阵,r代表迭代次数;
步骤1:令r=0,并随机初始化每一个学习任务的特征选择矩阵
步骤2:计算
步骤3:更新
步骤4:更新
步骤5:更新并根据以下公式校正Ft:
步骤6:更新t=t+1;
步骤7:针对于每一个任务t<T,重复步骤2-步骤6;
步骤8:
步骤9:更新r=r+1;
步骤10:重复执行步骤2-步骤9,直到算法收敛,输出每一个学习任务的Wt和bt。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611095564.3A CN106601235A (zh) | 2016-12-02 | 2016-12-02 | 一种半监督多任务特征选择的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611095564.3A CN106601235A (zh) | 2016-12-02 | 2016-12-02 | 一种半监督多任务特征选择的语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106601235A true CN106601235A (zh) | 2017-04-26 |
Family
ID=58596934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611095564.3A Withdrawn CN106601235A (zh) | 2016-12-02 | 2016-12-02 | 一种半监督多任务特征选择的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106601235A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993311A (zh) * | 2017-11-15 | 2018-05-04 | 常州大学 | 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法 |
CN109063743A (zh) * | 2018-07-06 | 2018-12-21 | 云南大学 | 基于半监督多任务学习的医疗数据分类模型的构建方法 |
CN109523994A (zh) * | 2018-11-13 | 2019-03-26 | 四川大学 | 一种基于胶囊神经网络的多任务语音分类方法 |
CN111062484A (zh) * | 2019-11-19 | 2020-04-24 | 中科鼎富(北京)科技发展有限公司 | 基于多任务学习的数据集选取方法及装置 |
CN111292722A (zh) * | 2019-12-13 | 2020-06-16 | 中国科学院深圳先进技术研究院 | 异步联合架构的模型训练方法、终端、服务器及存储装置 |
CN112215290A (zh) * | 2020-10-16 | 2021-01-12 | 苏州大学 | 基于Fisher得分的Q学习辅助数据分析方法及系统 |
CN113782000A (zh) * | 2021-09-29 | 2021-12-10 | 北京中科智加科技有限公司 | 一种基于多任务的语种识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975978A (zh) * | 2016-04-22 | 2016-09-28 | 南京师范大学 | 一种结合标记相关性的半监督多标记特征选择及分类方法 |
-
2016
- 2016-12-02 CN CN201611095564.3A patent/CN106601235A/zh not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975978A (zh) * | 2016-04-22 | 2016-09-28 | 南京师范大学 | 一种结合标记相关性的半监督多标记特征选择及分类方法 |
Non-Patent Citations (1)
Title |
---|
XIAO-DONG WANG等: ""Semi-supervised feature selection with exploiting shared information among multiple tasks"", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993311A (zh) * | 2017-11-15 | 2018-05-04 | 常州大学 | 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法 |
CN109063743A (zh) * | 2018-07-06 | 2018-12-21 | 云南大学 | 基于半监督多任务学习的医疗数据分类模型的构建方法 |
CN109523994A (zh) * | 2018-11-13 | 2019-03-26 | 四川大学 | 一种基于胶囊神经网络的多任务语音分类方法 |
CN111062484A (zh) * | 2019-11-19 | 2020-04-24 | 中科鼎富(北京)科技发展有限公司 | 基于多任务学习的数据集选取方法及装置 |
CN111062484B (zh) * | 2019-11-19 | 2023-06-09 | 鼎富智能科技有限公司 | 基于多任务学习的数据集选取方法及装置 |
CN111292722A (zh) * | 2019-12-13 | 2020-06-16 | 中国科学院深圳先进技术研究院 | 异步联合架构的模型训练方法、终端、服务器及存储装置 |
CN111292722B (zh) * | 2019-12-13 | 2023-08-15 | 中国科学院深圳先进技术研究院 | 异步联合架构的模型训练方法、终端、服务器及存储装置 |
CN112215290A (zh) * | 2020-10-16 | 2021-01-12 | 苏州大学 | 基于Fisher得分的Q学习辅助数据分析方法及系统 |
CN112215290B (zh) * | 2020-10-16 | 2024-04-09 | 苏州大学 | 基于Fisher得分的Q学习辅助数据分析方法及系统 |
CN113782000A (zh) * | 2021-09-29 | 2021-12-10 | 北京中科智加科技有限公司 | 一种基于多任务的语种识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106601235A (zh) | 一种半监督多任务特征选择的语音识别方法 | |
CN112132179A (zh) | 基于少量标注样本的增量学习方法及系统 | |
US8977579B2 (en) | Latent factor dependency structure determination | |
CN110653824B (zh) | 基于概率模型的机器人离散型轨迹的表征与泛化方法 | |
Valera et al. | Automatic discovery of the statistical types of variables in a dataset | |
CN102915448B (zh) | 一种基于AdaBoost的三维模型自动分类方法 | |
CN109815331A (zh) | 文本情感分类模型的构建方法、装置和计算机设备 | |
CN104035996A (zh) | 基于Deep Learning的领域概念抽取方法 | |
CN103473308B (zh) | 基于最大间隔张量学习的高维多媒体数据分类方法 | |
CN103971136A (zh) | 一种面向大规模数据的并行结构化支持向量机分类方法 | |
Zare et al. | Detection of community structures in networks with nodal features based on generative probabilistic approach | |
CN111753995A (zh) | 一种基于梯度提升树的局部可解释方法 | |
CN104318271A (zh) | 一种基于适应性编码和几何平滑汇合的图像分类方法 | |
Le et al. | Task affinity with maximum bipartite matching in few-shot learning | |
CN105913353A (zh) | 一种基于K-means聚类多权重自适应的学生学习行为分析方法 | |
Honda et al. | PCA-guided k-means clustering with incomplete data | |
CN104376120A (zh) | 一种信息检索方法及系统 | |
WO2021059527A1 (ja) | 学習装置、学習方法、及び、記録媒体 | |
WO2016090625A1 (en) | Scalable web data extraction | |
Calderhead et al. | Sparse approximate manifolds for differential geometric mcmc | |
Li et al. | More correlations better performance: Fully associative networks for multi-label image classification | |
Czarnowski et al. | A new cluster-based instance selection algorithm | |
CN109829168A (zh) | 一种情感分析方法、装置、电子设备及存储介质 | |
CN103605813A (zh) | 一种域适应学习的最优核组合选择方法 | |
CN110084303B (zh) | 一种基于cnn与rf的老年人平衡能力特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170426 |
|
WW01 | Invention patent application withdrawn after publication |