CN107316049A - 一种基于半监督自训练的迁移学习分类方法 - Google Patents

一种基于半监督自训练的迁移学习分类方法 Download PDF

Info

Publication number
CN107316049A
CN107316049A CN201710312005.1A CN201710312005A CN107316049A CN 107316049 A CN107316049 A CN 107316049A CN 201710312005 A CN201710312005 A CN 201710312005A CN 107316049 A CN107316049 A CN 107316049A
Authority
CN
China
Prior art keywords
label
target
data collection
label data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710312005.1A
Other languages
English (en)
Inventor
林程
顾正晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710312005.1A priority Critical patent/CN107316049A/zh
Publication of CN107316049A publication Critical patent/CN107316049A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Abstract

本发明公开了一种基于半监督自训练的迁移学习分类方法,该方法是利用大量非目标有标签数据实现减少训练时间和资源,包括对目标有标签数据集训练初始分类器,对目标无标签数据集进行预分类;结合目标有标签数据集和多个辅助有标签数据集,采用自训练学习算法进行迭代训练。得到扩大的目标有标签数据集;对扩大的目标有标签数据集训练分类器,对目标无标签数据集分类,得到最终分类标签。本发明提高在少量训练数据情况下的分类精确度,减少训练时间,避免资源的浪费。

Description

一种基于半监督自训练的迁移学习分类方法
技术领域
本发明涉及机器学习的技术领域,尤其是指一种基于半监督自训练的迁移学习分类方法。
背景技术
在传统的机器学习中,为保证训练得到的分类模型具有准确性和高可靠性,都有两个基本假设:(1)学习的训练样本与新的测试样本满足独立同分布条件;(2)必须有足够可利用的训练样本才能学习一个好的分类模型。但在实际应用中由于训练数据过期或不同分布等情况都会导致假设不成立,限制了传统机器学习方法的使用,然而获得大量有标签样本费时费力。迁移学习运用从源领域学习的知识,对不同但相关的目标领域学习问题进行求解,解决目标领域中仅有有标签训练样本数据甚至没有的学习问题。
传统的机器学习方法分为监督学习和无监督学习。半监督学习是监督学习与无监督学习相结合的一种学习方法,是模式识别和机器学习领域研究的重点问题。它主要考虑如何利用有标签样本和大量无标签样本进行训练和分类的问题。半监督学习较有监督学习的最大区别就是它利用无标签样本和有标签样本共同训练分类器。自训练学习也是机器学习的一种的算法,首先利用有标签数据集训练出初始分类器,使用该分类器对一些无标签数据进行标记,将可信度最高的一些标签新示例放入到有标签数据集中,再在新的有标签数据集上进行下一次训练直到满足截止条件为止。
目前,还没有在自训练过程中利用辅助训练数据计算和判断无标签数据分类标签的置信度问题,例如中国专利(一种基于半监督聚类的迁移学习方法,公开号:CN201210464867)。该发明通过聚类方法计算目标数据所在簇中各类标签数据所占总数据比例来分类。中国专利(一种基于半监督的迁移学习分类方法,公开号:CN201610651405)。该发明利用多任务学习算法对目标数据的无标签数据和辅助数据集的特征分类器进行迁移迭代训练,得到目标分类器。以上所述发明,都没有从自训练学习的角度去考虑目标无标签样本及其分类标签的置信度问题。将迁移学习和自训练学习相结合的分类方法,能够综合两者的优势,更好的提高分类精确度,以实现减少训练资源。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供了一种基于半监督自训练的迁移学习分类方法,利用大量非目标有标签数据实现减少训练时间和资源,提高分类精确度。
为实现上述目的,本发明所提供的技术方案为:一种基于半监督自训练的迁移学习分类方法,包括以下步骤:
1)对目标有标签数据集进行训练得到初始分类器;
2)用初始分类器对目标无标签数据集的实例进行预测和分配标签,得到预分类标签;
3)结合目标有标签数据集和多个辅助有标签数据集,采用自训练学习算法对目标无标签数据集进行预测分类,并计算无标签数据集中每个实例的辅助分类标签置信度大小;
4)根据置信度大小对正确分类的无标签数据集实例按照降序进行排序,取置信度排在前面的N个实例及其辅助分类标签,加入到当前目标有标签数据集中,其中N=1,2,3,4…;
5)多次迭代,逐渐扩大目标有标签数据集规模;
6)对于多次迭代后新的目标有标签数据集再次训练分类器,对目标无标签数据进行分类,得到最终分类标签。
在步骤1)中,训练过程如下:
1.1)对需要训练分类器的数据集做滤波、去噪声等预处理操作;
1.2)利用主成分分析法等特征提取方法对预处理后的数据集提取特征,将原本难以分类的训练数据变换到易于分类的数据空间;
1.3)利用支撑向量机算法等分类算法,根据变换后的训练数据及其已知的标签学习一个能准确分类的界线,即训练后的分类器。
在步骤3)中,所述采用自训练学习算法对目标无标签数据集进行预测分类,包括以下步骤:
3.1)对于多个辅助有标签数据集,目标有标签数据集分别和其中一个辅助有标签数据集组成新的有标签训练集,分别训练得到多个辅助分类器;
3.2)多个辅助分类器分别对目标无标签数据集进行预测分类,得到多个辅助预测结果和辅助分类标签;
3.3)根据目标无标签数据集每个实例的多个辅助预测结果,计算其分类标签的置信度;
3.4)将目标无标签数据集每个实例的多个辅助分类标签与预分类标签比较,分类标签相同的目标无标签实例判断为正确分类的实例,并将辅助分类标签赋予其作为标签。
在步骤5)中,多次迭代步骤3)和步骤4),每次迭代会从目标无标签数据集中选取置信度排在前面的N个实例及其辅助分类标签加入当前的目标有标签数据集,多次迭代后得到新的目标有标签数据集,扩大了初始目标有标签数据集的规模。
本发明与现有技术相比,具有如下优点与有益效果:
1、改进机器学习领域中的传统分类方法,可以进行跨领域知识迁移。
2、在自训练过程中迁移非目标无标签数据的知识,结合目标有标签数据计算和判断目标无标签数据预测分类结果的置信度,提高在少量训练数据情况下的分类精确度,减少训练时间,避免资源的浪费。
3、本发明方法可以用于多种相似领域分类问题,如网页分类、文本分类、甚至本文到图片分类等。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本实施例所提供的基于半监督自训练的迁移学习方法,可以应用在脑机接口方面(在脑机接口系统中,脑电信号的非平稳性导致同一受试者不同环节或者多个受试者之间的信号统计分布不相同,限制了大量训练数据的可复用性。而当目标有标签数据集比较小,不足以训练一个好的分类器时,以不同但相似分布的有标签数据集作为辅助数据集,在自训练学习的过程中,将辅助数据集的分类方法、技术,迁移到目标领域,扩大目标有标签数据集的规模,从而为目标无标签数据集进行分类),包括以下步骤:
1)对目标有标签数据集进行训练得到初始分类器,其中训练过程如下:
1.1)对需要训练分类器的数据集做滤波、去噪声等预处理操作;
1.2)利用主成分分析法等特征提取方法对预处理后的数据集提取特征,将原本难以分类的训练数据变换到易于分类的数据空间;
1.3)利用支撑向量机算法等分类算法,根据变换后的训练数据及其已知的标签学习一个能准确分类的界线,即训练后的分类器。
2)用初始分类器对目标无标签数据集的实例进行预测和分配标签,得到预分类标签;
3)结合目标有标签数据集和多个辅助有标签数据集,采用自训练学习算法对目标无标签数据集进行预测分类,并计算无标签数据集中每个实例的辅助分类标签置信度大小;其中采用自训练学习算法对目标无标签数据集进行预测分类,包括以下步骤:
3.1)对于多个辅助有标签数据集,目标有标签数据集分别和其中一个辅助有标签数据集组成新的有标签训练集,分别训练得到多个辅助分类器;
3.2)多个辅助分类器分别对目标无标签数据集进行预测分类,得到多个辅助预测结果和辅助分类标签;
3.3)根据目标无标签数据集每个实例的多个辅助预测结果,计算其分类标签的置信度;
3.4)将目标无标签数据集每个实例的多个辅助分类标签与预分类标签比较,分类标签相同的目标无标签实例判断为正确分类的实例,并将辅助分类标签赋予其作为标签。
4)根据置信度大小对正确分类的无标签数据集实例按照降序进行排序,取置信度排在前面的N个实例及其辅助分类标签,加入到当前目标有标签数据集中,其中N=1,2,3,4…(通常取N为5)。
5)多次迭代,逐渐扩大目标有标签数据集规模,具体如下:
多次迭代步骤3)和步骤4),每次迭代会从目标无标签数据集中选取置信度排在前面的N个实例及其辅助分类标签加入当前的目标有标签数据集,多次迭代后得到新的目标有标签数据集,扩大了初始目标有标签数据集的规模。
6)对于多次迭代后新的目标有标签数据集再次训练分类器,对目标无标签数据进行分类,得到最终分类标签。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.一种基于半监督自训练的迁移学习分类方法,其特征在于,包括以下步骤:
1)对目标有标签数据集进行训练得到初始分类器;
2)用初始分类器对目标无标签数据集的实例进行预测和分配标签,得到预分类标签;
3)结合目标有标签数据集和多个辅助有标签数据集,采用自训练学习算法对目标无标签数据集进行预测分类,并计算无标签数据集中每个实例的辅助分类标签置信度大小;
4)根据置信度大小对正确分类的无标签数据集实例按照降序进行排序,取置信度排在前面的N个实例及其辅助分类标签,加入到当前目标有标签数据集中,其中N=1,2,3,4…;
5)多次迭代,逐渐扩大目标有标签数据集规模;
6)对于多次迭代后新的目标有标签数据集再次训练分类器,对目标无标签数据进行分类,得到最终分类标签。
2.根据权利要求1所述的一种基于半监督自训练的迁移学习分类方法,其特征在于:在步骤1)中,训练过程如下:
1.1)对需要训练分类器的数据集做滤波、去噪声这些预处理操作;
1.2)利用主成分分析法对预处理后的数据集提取特征,将原本难以分类的训练数据变换到易于分类的数据空间;
1.3)利用支撑向量机算法,根据变换后的训练数据及其已知的标签学习一个能准确分类的界线,即训练后的分类器。
3.根据权利要求1所述的一种基于半监督自训练的迁移学习分类方法,其特征在于:在步骤3)中,所述采用自训练学习算法对目标无标签数据集进行预测分类,包括以下步骤:
3.1)对于多个辅助有标签数据集,目标有标签数据集分别和其中一个辅助有标签数据集组成新的有标签训练集,分别训练得到多个辅助分类器;
3.2)多个辅助分类器分别对目标无标签数据集进行预测分类,得到多个辅助预测结果和辅助分类标签;
3.3)根据目标无标签数据集每个实例的多个辅助预测结果,计算其分类标签的置信度;
3.4)将目标无标签数据集每个实例的多个辅助分类标签与预分类标签比较,分类标签相同的目标无标签实例判断为正确分类的实例,并将辅助分类标签赋予其作为标签。
4.根据权利要求1所述的一种基于半监督自训练的迁移学习分类方法,其特征在于:在步骤5)中,多次迭代步骤3)和步骤4),每次迭代会从目标无标签数据集中选取置信度排在前面的N个实例及其辅助分类标签加入当前的目标有标签数据集,多次迭代后得到新的目标有标签数据集,扩大了初始目标有标签数据集的规模。
CN201710312005.1A 2017-05-05 2017-05-05 一种基于半监督自训练的迁移学习分类方法 Pending CN107316049A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710312005.1A CN107316049A (zh) 2017-05-05 2017-05-05 一种基于半监督自训练的迁移学习分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710312005.1A CN107316049A (zh) 2017-05-05 2017-05-05 一种基于半监督自训练的迁移学习分类方法

Publications (1)

Publication Number Publication Date
CN107316049A true CN107316049A (zh) 2017-11-03

Family

ID=60184818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710312005.1A Pending CN107316049A (zh) 2017-05-05 2017-05-05 一种基于半监督自训练的迁移学习分类方法

Country Status (1)

Country Link
CN (1) CN107316049A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704862A (zh) * 2017-11-06 2018-02-16 深圳市唯特视科技有限公司 一种基于语义实例分割算法的视频对象分割方法
CN107958263A (zh) * 2017-11-13 2018-04-24 浙江工业大学 一种半监督的图像分类器训练方法
CN108416382A (zh) * 2018-03-01 2018-08-17 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN108460134A (zh) * 2018-03-06 2018-08-28 云南大学 基于多源域集成迁移学习的文本主题分类模型及分类方法
CN109272023A (zh) * 2018-08-27 2019-01-25 中国科学院计算技术研究所 一种物联网迁移学习方法和系统
CN109460914A (zh) * 2018-11-05 2019-03-12 云南大学 基于半监督的纠错学习的桥梁健康等级确定方法
CN109657697A (zh) * 2018-11-16 2019-04-19 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN109754000A (zh) * 2018-12-21 2019-05-14 昆明理工大学 一种基于依赖度的半监督多标签分类方法
CN109903053A (zh) * 2019-03-01 2019-06-18 成都新希望金融信息有限公司 一种基于传感器数据进行行为识别的反欺诈方法
CN110109543A (zh) * 2019-04-30 2019-08-09 福州大学 基于被试迁移的c-VEP识别方法
CN110135185A (zh) * 2018-02-08 2019-08-16 苹果公司 使用生成式对抗网络进行私有化的机器学习
CN110472576A (zh) * 2019-08-15 2019-11-19 西安邮电大学 一种实现移动人体行为识别的方法及装置
CN110851783A (zh) * 2019-11-12 2020-02-28 华中科技大学 一种用于脑机接口校准的异构标签空间迁移学习方法
CN110972499A (zh) * 2018-07-07 2020-04-07 初之光信息科技(新加坡)有限公司 神经网络的标注系统
CN112288004A (zh) * 2020-10-28 2021-01-29 香港中文大学(深圳) 一种无需一致性约束的半监督方法及移动终端
CN112528030A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种用于文本分类的半监督学习方法和系统
CN112784905A (zh) * 2021-01-26 2021-05-11 北京嘀嘀无限科技发展有限公司 数据样本扩充的方法、装置和电子设备
CN113205163A (zh) * 2021-07-07 2021-08-03 数据堂(北京)科技股份有限公司 数据标注方法及装置
CN113393932A (zh) * 2021-07-06 2021-09-14 重庆大学 一种帕金森病语音样本段多类型重构变换方法
CN114998330A (zh) * 2022-07-28 2022-09-02 季华实验室 无监督的晶圆缺陷检测方法、装置、设备及存储介质
CN115879535A (zh) * 2023-02-10 2023-03-31 北京百度网讯科技有限公司 一种自动驾驶感知模型的训练方法、装置、设备和介质
US11710035B2 (en) 2018-09-28 2023-07-25 Apple Inc. Distributed labeling for supervised learning
WO2023245523A1 (zh) * 2022-06-22 2023-12-28 极纳人工智能有限公司 用于生成训练数据的方法以及装置

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704862A (zh) * 2017-11-06 2018-02-16 深圳市唯特视科技有限公司 一种基于语义实例分割算法的视频对象分割方法
CN107958263A (zh) * 2017-11-13 2018-04-24 浙江工业大学 一种半监督的图像分类器训练方法
CN110135185B (zh) * 2018-02-08 2023-12-22 苹果公司 使用生成式对抗网络进行私有化的机器学习
CN110135185A (zh) * 2018-02-08 2019-08-16 苹果公司 使用生成式对抗网络进行私有化的机器学习
CN108416382A (zh) * 2018-03-01 2018-08-17 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN108416382B (zh) * 2018-03-01 2022-04-19 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN108460134A (zh) * 2018-03-06 2018-08-28 云南大学 基于多源域集成迁移学习的文本主题分类模型及分类方法
CN110972499A (zh) * 2018-07-07 2020-04-07 初之光信息科技(新加坡)有限公司 神经网络的标注系统
CN109272023A (zh) * 2018-08-27 2019-01-25 中国科学院计算技术研究所 一种物联网迁移学习方法和系统
CN109272023B (zh) * 2018-08-27 2021-04-27 中国科学院计算技术研究所 一种物联网迁移学习方法和系统
US11710035B2 (en) 2018-09-28 2023-07-25 Apple Inc. Distributed labeling for supervised learning
CN109460914A (zh) * 2018-11-05 2019-03-12 云南大学 基于半监督的纠错学习的桥梁健康等级确定方法
CN109657697A (zh) * 2018-11-16 2019-04-19 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN109657697B (zh) * 2018-11-16 2023-01-06 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN109754000A (zh) * 2018-12-21 2019-05-14 昆明理工大学 一种基于依赖度的半监督多标签分类方法
CN109903053A (zh) * 2019-03-01 2019-06-18 成都新希望金融信息有限公司 一种基于传感器数据进行行为识别的反欺诈方法
CN110109543A (zh) * 2019-04-30 2019-08-09 福州大学 基于被试迁移的c-VEP识别方法
CN110109543B (zh) * 2019-04-30 2021-08-31 福州大学 基于被试迁移的c-VEP识别方法
CN110472576A (zh) * 2019-08-15 2019-11-19 西安邮电大学 一种实现移动人体行为识别的方法及装置
CN110851783A (zh) * 2019-11-12 2020-02-28 华中科技大学 一种用于脑机接口校准的异构标签空间迁移学习方法
CN112288004A (zh) * 2020-10-28 2021-01-29 香港中文大学(深圳) 一种无需一致性约束的半监督方法及移动终端
CN112784905A (zh) * 2021-01-26 2021-05-11 北京嘀嘀无限科技发展有限公司 数据样本扩充的方法、装置和电子设备
CN112528030A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种用于文本分类的半监督学习方法和系统
CN113393932A (zh) * 2021-07-06 2021-09-14 重庆大学 一种帕金森病语音样本段多类型重构变换方法
CN113393932B (zh) * 2021-07-06 2022-11-25 重庆大学 一种帕金森病语音样本段多类型重构变换方法
CN113205163B (zh) * 2021-07-07 2021-11-19 数据堂(北京)科技股份有限公司 数据标注方法及装置
CN113205163A (zh) * 2021-07-07 2021-08-03 数据堂(北京)科技股份有限公司 数据标注方法及装置
WO2023245523A1 (zh) * 2022-06-22 2023-12-28 极纳人工智能有限公司 用于生成训练数据的方法以及装置
CN114998330A (zh) * 2022-07-28 2022-09-02 季华实验室 无监督的晶圆缺陷检测方法、装置、设备及存储介质
CN115879535A (zh) * 2023-02-10 2023-03-31 北京百度网讯科技有限公司 一种自动驾驶感知模型的训练方法、装置、设备和介质
CN115879535B (zh) * 2023-02-10 2023-05-23 北京百度网讯科技有限公司 一种自动驾驶感知模型的训练方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN107316049A (zh) 一种基于半监督自训练的迁移学习分类方法
CN105389583A (zh) 图像分类器的生成方法、图像分类方法和装置
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN109741332A (zh) 一种人机协同的图像分割与标注方法
CN110263166A (zh) 基于深度学习的舆情文本分类方法
CN102156885B (zh) 基于级联式码本生成的图像分类方法
CN104866524A (zh) 一种商品图像精细分类方法
CN101964063B (zh) 一种改进的AdaBoost分类器构造方法
CN105678297A (zh) 一种基于标签转移及lstm模型的人像语义分析的方法及系统
CN106156805A (zh) 一种样本标签缺失数据的分类器训练方法
CN103020122A (zh) 一种基于半监督聚类的迁移学习方法
CN104992165A (zh) 基于极限学习机的交通标志识别方法
CN101937510B (zh) 基于类Haar和AdaBoost分类器的快速增量学习方法
CN108664474A (zh) 一种基于深度学习的简历解析方法
CN106127197A (zh) 一种基于显著标签排序的图像显著性目标检测方法
CN107885849A (zh) 一种基于文本分类的情绪指数分析系统
CN103942561B (zh) 一种基于主动学习的图像标注方法
CN105631477A (zh) 基于极限学习机和自适应提升的交通标志识别方法
CN109598292A (zh) 一种不同辅助样本正负比例的迁移学习方法
CN104951791A (zh) 数据分类方法和装置
CN107066548B (zh) 一种双维度分类提取网页链接的方法
CN106980876A (zh) 一种基于鉴别性样本属性学习的零样本图像识别方法
CN101251896A (zh) 一种基于多分类器的物体检测系统及方法
CN107292348A (zh) 一种Bagging_BSJ短文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171103