CN109598292A - 一种不同辅助样本正负比例的迁移学习方法 - Google Patents

一种不同辅助样本正负比例的迁移学习方法 Download PDF

Info

Publication number
CN109598292A
CN109598292A CN201811403924.0A CN201811403924A CN109598292A CN 109598292 A CN109598292 A CN 109598292A CN 201811403924 A CN201811403924 A CN 201811403924A CN 109598292 A CN109598292 A CN 109598292A
Authority
CN
China
Prior art keywords
transfer learning
positive
sample
aid
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811403924.0A
Other languages
English (en)
Inventor
李远清
汤佳易
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201811403924.0A priority Critical patent/CN109598292A/zh
Publication of CN109598292A publication Critical patent/CN109598292A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种不同辅助样本正负比例的迁移学习方法,包括步骤:1)将目标训练集分为K份,采用K折交叉验证,得到原始分类准确率;2)从辅助样本集中随机抽取不同正负样本比例的辅助样本子集;3)将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习,并采用K折交叉验证,得到迁移学习分类准确率;4)求得各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度;5)对于每种比例,多次迭代,求出其迁移学习平均提升程度,并以此为目标训练集选择最好的正负样本比例的辅助样本子集,从而进行迁移学习并对目标测试集进行预测。本发明为一种新的评价标准用于评价迁移学习给目标训练集带来的准确率的提升程度。

Description

一种不同辅助样本正负比例的迁移学习方法
技术领域
本发明涉及机器学习的技术领域,尤其是指一种不同辅助样本正负比例的迁移学习方法。
背景技术
在传统的机器学习中,为保证训练得到的分类模型具有准确性和高可靠性,都有两个基本假设:1、训练数据和未来要处理的数据都处在相同的特征空间,并且有着相同的分布规律;2、必须有足够可利用的训练样本才能学习一个好的分类模型。但是,在现实世界的很多应用中,这个假设很可能是不成立的。比如,我们经常面临需要在一个领域内完成一项分类任务,却只在另一个领域中有足够的训练数据的情况。两者的数据可能有着不同的特征空间或者遵从不同的数据分布规律。在这种情况下,进行一次成功的知识迁移能极大的提升学习效果,从而避免大量繁重的数据标记的劳动。迁移学习运用从源领域学习的知识,对不同但相关的目标领域学习问题进行求解,解决目标领域中仅有有标签训练样本数据甚至没有的学习问题。
迁移学习又被分为归纳迁移学习(Inductive Transfer Learning),直推式迁移学习(Transductive Transfer Learning),无监督迁移学习(unsupervised transferlearning)。其中,归纳迁移学习是指目标任务与原任务不同,目标域和源域可能相同也可能不同。直推式迁移学习是指原任务和目标任务相同的,目标域和源域可能相同也可能不同。无监督迁移学习是指原任务和目标任务不相同,且目标域数据以及源域数据都没有标签。
目前,还没有一种在迁移学习的时候,通过一种评价标准来选择不同的辅助样本正负比例的方法。例如中国专利(非平衡样本分类的集成迁移学习方法,公开号CN201110452050)。该发明通过在初始化时,将目标样本的正负样本赋予不同权重,保证占比总样本比例小但信息量大的样本初始权重大,以此进行训练和分类。中国专利(一种基于迁移学习的绝对不平衡文本分类方法,公开号CN 201710675091)。该发明采用改进的Tradaboost算法,对于不同领域不同类别的样本采取不同的权重更新方式;最终分类结果由所有节点的分类器加权投票得出。以上所述发明,都没有从辅助样本的不同正负比例上考虑,不同的目标训练样本集需要的辅助样本的正负比例是不同的。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了一种不同辅助样本正负比例的迁移学习方法,为一种新的评价标准用于评价迁移学习给目标训练集带来的准确率的提升程度,并根据迁移学习带来的准确率的提升程度为目标训练集选择最好的正负样本比例的辅助样本子集,从而进行迁移学习并对目标测试集进行预测。
为实现上述目的,本发明所提供的技术方案为:一种不同辅助样本正负比例的迁移学习方法,包括以下步骤:
1)将目标训练集分为K份,采用K折交叉验证,得到原始分类准确率;
2)从辅助样本集中随机抽取不同正负样本比例的辅助样本子集;
3)将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习,并采用K折交叉验证,得到迁移学习分类准确率;
4)求得各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度;
5)对于每种比例,多次迭代,求出其迁移学习平均提升程度,并以此为目标训练集选择最好的正负样本比例的辅助样本子集,从而进行迁移学习并对目标测试集进行预测。
在步骤1)中,训练过程如下:
1.1)对需要训练分类器的数据集做滤波、去噪声这些预处理操作;
1.2)利用主成分分析法等特征提取方法对预处理后的数据集特征提取,将原本难以分类的训练数据变换到易于分类的数据空间;
1.3)将目标训练集分为正负样本均衡的K份,其中一份作为测试集,其余作为训练集,在训练集上利用支持向量机算法训练分类器,在测试集上预测,再将整个过程重复K次,得到原始分类准确率。
在步骤2)中,从辅助样本集中随机抽取不同正负样本比例的辅助样本子集,是指在抽取的辅助样本总数相同的情况下,有放回的抽取多种正负样本比例的辅助样本子集。
在步骤3)中,将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习,并采用K折交叉验证,得到迁移学习分类准确率,包括如下步骤:
3.1)将目标训练集分为正负样本均衡的K份,其中一份作为测试集,其余作为训练集;
3.2)对于每种正负样本比例的辅助样本子集,将其与训练集合并,在合并集上利用支持向量机算法训练分类器,在测试集上预测;
3.3)将整个过程重复K次,即迁移学习下的K折交叉验证,得到迁移学习分类准确率。
在步骤4)中,各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度,是指对于每一种正负样本比例的辅助样本子集,用其迁移学习分类准确率,减去原始分类准确率,就得到了迁移学习带来的提升程度。
在步骤5)中,多次迭代步骤2)、步骤3)和步骤4),求出在多次试验中,每种正负样本比例的辅助样本子集的迁移学习平均提升程度,并根据迁移学习平均提升程度为目标训练集选择最好的正负样本比例的辅助样本子集,从而进行迁移学习并对目标测试集进行预测。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明提出了一种新的评价标准用于评价迁移学习给目标训练集带来的提升程度。
2、本发明通过在辅助样本集和目标训练集之间进行迁移学习并协同进行交叉验证,突破了传统迁移学习需要先判断辅助样本与目标样本相似度的缺点。
3、本发明可以有效的判断出辅助样本对于目标样本是否带来了负迁移的不良影响。
4、本发明通过评判不同正负样本比例的辅助样本集给目标训练集带来的分类准确率的提升程度,选择最优的正负样本比例的辅助样本集,构建出对目标测试集有着最好分类效果的分类器。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明使用的迁移学习提升程度的计算流程图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1和图2所示,本实施例所提供的不同辅助样本正负比例的迁移学习方法,可以应用在脑机接口方面(脑机接口系统中,脑电信号的非平稳性导致同一受试者不同环节或者多个受试者之间的信号统计分布不相同,限制了大量训练数据的可复用性。而当目标有标签数据集比较小,不足以训练一个好的分类器时,以不同但相似分布的有标签数据集作为辅助数据集,在自训练学习的过程中,将辅助数据集的分类方法、技术,迁移到目标领域,扩大目标有标签数据集的规模,从而为目标无标签数据集进行分类),包括以下步骤:
1)将目标训练集分为K份,采用K折交叉验证,得到原始分类准确率;
1.1)对需要训练分类器的数据集做滤波、去噪声这些预处理操作;
1.2)利用主成分分析法等特征提取方法对预处理后的数据集特征提取,将原本难以分类的训练数据变换到易于分类的数据空间;
1.3)将目标训练集分为正负样本均衡的K份,其中一份作为测试集,其余作为训练集,在训练集上利用支持向量机算法训练分类器,在测试集上预测,再将整个过程重复K次,得到原始分类准确率。
2)从辅助样本集中随机抽取不同正负样本比例的辅助样本子集,其中,所述从辅助样本集中随机抽取不同正负样本比例的辅助样本子集,是指在抽取的辅助样本总数相同的情况下,有放回的抽取多种正负样本比例的辅助样本子集。
3)将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习,并采用K折交叉验证,得到迁移学习分类准确率,包括如下步骤:
3.1)将目标训练集分为正负样本均衡的K份,其中一份作为测试集,其余作为训练集;
3.2)对于每种正负样本比例的辅助样本子集,将其与训练集合并,在合并集上利用支持向量机算法训练分类器,在测试集上预测;
3.3)将整个过程重复K次,即迁移学习下的K折交叉验证,得到迁移学习分类准确率。
4)求得各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度;其中,各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度,是指对于每一种正负样本比例的辅助样本子集,用其迁移学习分类准确率,减去原始分类准确率,就得到了迁移学习带来的提升程度。如图2所示,Pold指的是原始分类准确率,Pnew指的是迁移学习分类准确率,最终的迁移学习带来的提升程度:P=Pnew-Pold
5)对于每种比例,多次迭代步骤2)、步骤3)和步骤4),求出其迁移学习平均提升程度,并以此为目标训练集选择最好的正负样本比例的辅助样本子集,从而进行迁移学习并对目标测试集进行预测。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (6)

1.一种不同辅助样本正负比例的迁移学习方法,其特征在于,包括以下步骤:
1)将目标训练集分为K份,采用K折交叉验证,得到原始分类准确率;
2)从辅助样本集中随机抽取不同正负样本比例的辅助样本子集;
3)将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习,并采用K折交叉验证,得到迁移学习分类准确率;
4)求得各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度;
5)对于每种比例,多次迭代,求出其迁移学习平均提升程度,并以此为目标训练集选择最好的正负样本比例的辅助样本子集,从而进行迁移学习并对目标测试集进行预测。
2.根据权利要求1所述的一种不同辅助样本正负比例的迁移学习方法,其特征在于,在步骤1)中,训练过程如下:
1.1)对需要训练分类器的数据集做滤波、去噪声这些预处理操作;
1.2)利用特征提取方法对预处理后的数据集特征提取,将原本难以分类的训练数据变换到易于分类的数据空间;
1.3)将目标训练集分为正负样本均衡的K份,其中一份作为测试集,其余作为训练集,在训练集上利用支持向量机算法训练分类器,在测试集上预测,再将整个过程重复K次,得到原始分类准确率。
3.根据权利要求1所述的一种不同辅助样本正负比例的迁移学习方法,其特征在于:在步骤2)中,从辅助样本集中随机抽取不同正负样本比例的辅助样本子集,是指在抽取的辅助样本总数相同的情况下,有放回的抽取多种正负样本比例的辅助样本子集。
4.根据权利要求1所述的一种不同辅助样本正负比例的迁移学习方法,其特征在于:在步骤3)中,将不同正负样本比例的辅助样本子集和目标训练集合并进行迁移学习,并采用K折交叉验证,得到迁移学习分类准确率,包括如下步骤:
3.1)将目标训练集分为正负样本均衡的K份,其中一份作为测试集,其余作为训练集;
3.2)对于每种正负样本比例的辅助样本子集,将其与训练集合并,在合并集上利用支持向量机算法训练分类器,在测试集上预测;
3.3)将整个过程重复K次,即迁移学习下的K折交叉验证,得到迁移学习分类准确率。
5.根据权利要求1所述的一种不同辅助样本正负比例的迁移学习方法,其特征在于:在步骤4)中,各类正负样本比例的辅助样本子集给目标训练集带来的准确率的提升程度,是指对于每一种正负样本比例的辅助样本子集,用其迁移学习分类准确率,减去原始分类准确率,就得到了迁移学习带来的提升程度。
6.根据权利要求1所述的一种不同辅助样本正负比例的迁移学习方法,其特征在于:在步骤5)中,多次迭代步骤2)、步骤3)和步骤4),求出在多次试验中,每种正负样本比例的辅助样本子集的迁移学习平均提升程度,并根据迁移学习平均提升程度为目标训练集选择最好的正负样本比例的辅助样本子集,从而进行迁移学习并对目标测试集进行预测。
CN201811403924.0A 2018-11-23 2018-11-23 一种不同辅助样本正负比例的迁移学习方法 Pending CN109598292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811403924.0A CN109598292A (zh) 2018-11-23 2018-11-23 一种不同辅助样本正负比例的迁移学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811403924.0A CN109598292A (zh) 2018-11-23 2018-11-23 一种不同辅助样本正负比例的迁移学习方法

Publications (1)

Publication Number Publication Date
CN109598292A true CN109598292A (zh) 2019-04-09

Family

ID=65958896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811403924.0A Pending CN109598292A (zh) 2018-11-23 2018-11-23 一种不同辅助样本正负比例的迁移学习方法

Country Status (1)

Country Link
CN (1) CN109598292A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109543A (zh) * 2019-04-30 2019-08-09 福州大学 基于被试迁移的c-VEP识别方法
CN110728328A (zh) * 2019-10-22 2020-01-24 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN110851783A (zh) * 2019-11-12 2020-02-28 华中科技大学 一种用于脑机接口校准的异构标签空间迁移学习方法
CN111160733A (zh) * 2019-12-16 2020-05-15 北京淇瑀信息科技有限公司 一种基于有偏样本的风险控制方法、装置及电子设备
CN111723661A (zh) * 2020-05-18 2020-09-29 华南理工大学 一种基于流形嵌入分布对齐的脑机接口迁移学习方法
CN112819023A (zh) * 2020-06-11 2021-05-18 腾讯科技(深圳)有限公司 样本集的获取方法、装置、计算机设备和存储介质
JP2021111261A (ja) * 2020-01-15 2021-08-02 日本電気株式会社 モデル生成装置、モデル生成方法、及び、記録媒体
CN117150232A (zh) * 2023-10-27 2023-12-01 南京邮电大学 一种大模型非时序训练数据质量评价方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110109543B (zh) * 2019-04-30 2021-08-31 福州大学 基于被试迁移的c-VEP识别方法
CN110109543A (zh) * 2019-04-30 2019-08-09 福州大学 基于被试迁移的c-VEP识别方法
CN110728328A (zh) * 2019-10-22 2020-01-24 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN110728328B (zh) * 2019-10-22 2022-03-01 支付宝(杭州)信息技术有限公司 分类模型的训练方法和装置
CN110851783A (zh) * 2019-11-12 2020-02-28 华中科技大学 一种用于脑机接口校准的异构标签空间迁移学习方法
CN111160733A (zh) * 2019-12-16 2020-05-15 北京淇瑀信息科技有限公司 一种基于有偏样本的风险控制方法、装置及电子设备
CN111160733B (zh) * 2019-12-16 2024-03-29 北京淇瑀信息科技有限公司 一种基于有偏样本的风险控制方法、装置及电子设备
JP2021111261A (ja) * 2020-01-15 2021-08-02 日本電気株式会社 モデル生成装置、モデル生成方法、及び、記録媒体
JP7472496B2 (ja) 2020-01-15 2024-04-23 日本電気株式会社 モデル生成装置、モデル生成方法、及び、記録媒体
CN111723661B (zh) * 2020-05-18 2023-06-16 广州光达创新科技有限公司 一种基于流形嵌入分布对齐的脑机接口迁移学习方法
CN111723661A (zh) * 2020-05-18 2020-09-29 华南理工大学 一种基于流形嵌入分布对齐的脑机接口迁移学习方法
CN112819023A (zh) * 2020-06-11 2021-05-18 腾讯科技(深圳)有限公司 样本集的获取方法、装置、计算机设备和存储介质
CN112819023B (zh) * 2020-06-11 2024-02-02 腾讯科技(深圳)有限公司 样本集的获取方法、装置、计算机设备和存储介质
CN117150232A (zh) * 2023-10-27 2023-12-01 南京邮电大学 一种大模型非时序训练数据质量评价方法
CN117150232B (zh) * 2023-10-27 2024-02-06 南京邮电大学 一种大模型非时序训练数据质量评价方法

Similar Documents

Publication Publication Date Title
CN109598292A (zh) 一种不同辅助样本正负比例的迁移学习方法
US20220335609A1 (en) System and method of classification of biological particles
CN108765412B (zh) 一种带钢表面缺陷分类方法
Jambhekar Red blood cells classification using image processing
CN108416774A (zh) 一种基于细粒度神经网络的织物种类识别方法
CN105389583A (zh) 图像分类器的生成方法、图像分类方法和装置
CN110929624B (zh) 一种基于正交损失函数的多任务分类网络的构建方法
CN105825233B (zh) 一种基于在线学习随机蕨分类器的行人检测方法
Bhattacharjee et al. Detection of Acute Lymphoblastic Leukemia using watershed transformation technique
CN110738247A (zh) 一种基于选择性稀疏采样的细粒度图像分类方法
CN112132014B (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
CN103177266A (zh) 储藏物害虫智能识别系统
CN110659682A (zh) 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法
CN109086772A (zh) 一种扭曲粘连字符图片验证码的识别方法及系统
CN109544468A (zh) 一种图像数据扩增方法
CN109656808A (zh) 一种基于混合式主动学习策略的软件缺陷预测方法
CN114022446A (zh) 一种基于改进YOLOv3的皮革瑕疵检测方法及系统
Kayasandik et al. Automated sorting of neuronal trees in fluorescent images of neuronal networks using NeuroTreeTracer
CN103279944A (zh) 一种基于生物地理优化的图像分割方法
CN109214467B (zh) 考虑分类器输出敏感度的变电作业人员着装鲁棒识别方法
CN112200862B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN105469099A (zh) 基于稀疏表示分类的路面裂缝检测和识别方法
CN110569727B (zh) 用于运动想象分类的结合类内距和类间距的迁移学习方法
CN114359300B (zh) 一种图像分割模型的优化方法、装置、系统及存储介质
CN111259974B (zh) 一种小样本柔性ic基板的表面缺陷定位和分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190409

RJ01 Rejection of invention patent application after publication