CN109934248A - 一种针对迁移学习的多模型随机生成与动态自适应组合方法 - Google Patents

一种针对迁移学习的多模型随机生成与动态自适应组合方法 Download PDF

Info

Publication number
CN109934248A
CN109934248A CN201811512535.1A CN201811512535A CN109934248A CN 109934248 A CN109934248 A CN 109934248A CN 201811512535 A CN201811512535 A CN 201811512535A CN 109934248 A CN109934248 A CN 109934248A
Authority
CN
China
Prior art keywords
sample
model
random
adapting
dynamic self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811512535.1A
Other languages
English (en)
Other versions
CN109934248B (zh
Inventor
洪佳明
刘少鹏
贾西平
张倩
柏柯嘉
印鉴
刘冶
周莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou He Da Da Data Technology Co Ltd
Guangzhou University Of Chinese Medicine (guangzhou Institute Of Traditional Chinese Medicine)
Guangdong Polytechnic Normal University
Original Assignee
Guangzhou He Da Da Data Technology Co Ltd
Guangzhou University Of Chinese Medicine (guangzhou Institute Of Traditional Chinese Medicine)
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou He Da Da Data Technology Co Ltd, Guangzhou University Of Chinese Medicine (guangzhou Institute Of Traditional Chinese Medicine), Guangdong Polytechnic Normal University filed Critical Guangzhou He Da Da Data Technology Co Ltd
Priority to CN201811512535.1A priority Critical patent/CN109934248B/zh
Publication of CN109934248A publication Critical patent/CN109934248A/zh
Application granted granted Critical
Publication of CN109934248B publication Critical patent/CN109934248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对迁移学习的多模型随机生成与动态自适应组合方法,提出通过随机特征选择来动态构建多候选模型,通过组合多候选模型的方法来避免数据重采样、特征空间映射的上述局限性,并进一步提出动态自适应模型组合的具体方法,将这些有效途径进行有机的融合,从而构造出一种创新性的有效迁移学习分类算法,既能在模型训练过程中对源领域样本数据进行较充分的使用,又能在目标领域识别任务中充分考虑样本的具体特点,防止模型过度偏向与目标领域无关的方面,达到了比现有模型更优的分类精度与效果。本方法能应用于文本挖掘、Web挖掘、无线传感器网络分析等多种具体场景,对可归结为分类问题的各类实际应用问题,都具有重要的积极意义。

Description

一种针对迁移学习的多模型随机生成与动态自适应组合方法
技术领域
本发明涉及数据分析与机器学习领域,更具体地,涉及一种针对迁移学习的多模型随机生成与动态自适应组合方法。
背景技术
近年来,随着计算机技术的发展进步和各类数据的积累应用,数据挖掘与机器学习技术在日常生活中发挥着越来越重要的作用,其应用范围囊括从科学研究与分析到电子商务等诸多不同的方面。在各种领域应用中,迁移学习作为新兴的技术方向,越来越凸显其重要性。在传统数据挖掘与机器学习研究中,通常假设训练数据与测试数据服从相同的底层分布,并且,在目标领域中存在大量的有标记数据样本以供训练之用。然而,以上的假设在很多应用领域中不一定能够得到满足。特别地,当面对一个新的数据领域时,一般不存在大量的有标记数据样本以供使用,而通过人工方式获取更多的有标记数据,通常代价是比较昂贵的。与此同时,在与目标领域相关的其他领域中,可能已经存在大量的有用数据,其中可能包含了与当前学习任务相关的有用知识。这些现象启发了迁移学习的研究。作为近年来提出的新的研究方向,迁移学习的主要研究目标是,利用大量存在于其他领域中的辅助数据样本,从中发现能够重用的有用知识,将其应用到目标领域的训练过程中,以此达到提高训练效率、降低学习代价的目的。近年来,迁移学习受到越来越多研究者与应用者的关注,并在包括文本挖掘、Web挖掘、无线传感器网络等诸多领域中获得了很好的应用成果。
通常,在迁移学习研究中,需要考虑两个重要问题:第一,如何根据源领域与目标领域的相关性,从源领域的大量数据中获得对目标领域有用的模型;第二,由于源领域与目标领域存在差异,如何动态自适应地确定新获得的模型是否对某个特定目标领域样本是有用的,从而避免相关性不大的模型对知识迁移过程的影响。
针对以上问题,已有的解决途径主要是通过样本重采样、特征空间映射等方式,通过评估不同源领域样本的重要性差异,或在新特征表示下拉近分布距离的方式,来达到知识迁移目的。但由于样本重采样需要根据数量本就不足的目标领域有标记样本(labeleddata)来确定权重,因而存在置信度不足、可靠性不够的缺点;另一方面,由于目标领域样本中有标记样本的不足,故而其样本标签联合分布的估计也存在困难,故而特征空间映射方法也存在一定的局限性。
综上,如何充分考虑迁移学习情景下两个领域既相关又存在差异等特点,构建更为有效的迁移学习方法以用于数据分析与智能预测建模,进一步提升分类准确率,是目前亟待解决的问题。
发明内容
本发明为克服上述现有技术所述的至少一种缺陷(不足),提供一种。
为解决上述技术问题,本发明的技术方案如下:
一种针对迁移学习的多模型随机生成与动态自适应组合方法,包括以下步骤:
S1:基于随机特征组合的样本集重构与多模型生成;采用无放回随机采样方式,对样本特征集进行无放回的采样,得到原特征集的一个特征子集,以此子集对源领域样本集进行重构,在新的特征表示下训练模型,由此得到一个候选模型,并以上过程重复多次,得到多个候选源领域模型;
具体而言,针对目标领域与源领域共享的特征集F,记集合大小为|F|,,设定权重衰减指数t与递减权重指标r,记第k次采样概率分别为i=1,2,...,|F|;
以迭代方式进行如下训练过程:在第k次训练时,若第i个特征被选中,则令否则在采用所得特征子集下重构源领域样本作为训练集,记为Sk,利用Sk训练得到候选模型Lk,记Lk在有标记目标领域样本集上的分类正确率为acck,再令对以上所得进行归一化,以使所得即为下一轮采用的概率值,仍记为
以此类推,以迭代方式进行上述过程,分别构建出候选模型L1,L2,...,LNum,其中Num为设定的候选模型个数;
S2:基于动态自适应多模型组合进行目标模型构建;
在基于动态自适应多模型组合进行目标模型构建阶段,针对上轮所得候选模型L1,L2,...,LNum,记目标领域当前的有标记样本集为Tl,记其待分类的无标记样本集为Tu,记适合领域的核函数为K;
对样本x∈Tu,考虑如何计算候选模型Li在其上的权重,考察其在已知目标领域有标记样本上的分类情况,同时将核函数纳入考虑以融合样本间关系信息,采用如下方式更新权重:计算完毕后,再对所有wi做归一化处理,处理后的值仍记为wi
综上可得,对样本x∈Tu,最终的分类决策模型为L(x)=∑iwiLi(x)。
优选的是,步骤S1中的随机采用过程对特征采用的概率设置采取非等概率方式进行。
优选的是,所述步骤S1中针对目标领域与源领域共享的特征集F的初次采用时可采用等概率形式或用户自行根据先验知识设定采样概率。
与现有技术相比,本发明技术方案的有益效果是:
相对于现有的迁移学习技术,本发明能够有效融合不同途径的思想,特别是在随机特征组合的基础上,通过引入基于差异性、基于分类精度的特征选择概率提升与消减策略,从而获得源领域的多模型构建方法,并应用动态自适应策略对其进行组合构建最终模型,从而能够在一定程度上避免现有方法过度依赖重要性采样、领域间分布估计带来的局限性。
在效果上,由于本发明不要求假设较强的重要性采样估计,也不要求对数据样本质量要求较高的分布估计,故而能适用于更多数据质量要求不高的迁移学习应用情景。同时,由于方法本身具有的自动特征选择概率增减功能,也能使得构建的候选模型集具有较好的多样性与领域适应度。此外,采用非固定权重的自适应组合模型策略,也能够较大程度地降低模型差异带来的性能下降问题。因此,本发明多种数据集上的实验测试结构,均能达到或者超过当前很多主流迁移学习分类模型的分类精度。
综上,本发明能够有效充分考虑类别不平衡医学数据存在复杂、高维、多义等特点,融合数据下采样、随机特征集生成、梯度提升组合等多个途径来设计完整有效的算法,其分类准确率明显优于现有技术。
附图说明
图1为针对迁移学习的多模型随机生成与动态自适应组合方法第一阶段的框架图;
图2为针对迁移学习的多模型随机生成与动态自适应组合方法第二阶段的实施过程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
在本发明的描述中,需要理解的是,术语“”等指示的方位或者位置关系为基于附图所示的方位或者位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含所指示的技术特征的数量。由此,限定的“第一”、“第二”的特征可以明示或隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接连接,可以说两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明的具体含义。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种针对迁移学习的多模型随机生成与动态自适应组合方法,请参考图1、图2,由基于随机特征组合的样本集重构与多模型生成,基于动态自适应多模型组合进行目标模型构建2个阶段构成。
S1:基于随机特征组合的样本集重构与多模型生成;
基于随机特征组合的样本集重构利用无放回随机采样方式,对样本特征集进行无放回的采样,得到原特征集的一个特征子集,以此子集对源领域样本集进行重构,在新的特征表示下训练模型,由此得到一个候选模型。以上过程重复多次,可得到多个候选源领域模型。为保证候选模型的多样性,在后续的随机采用过程中对特征采用的概率设置采取非等概率方式进行。
具体而言,针对目标领域与源领域共享的特征集F,记集合大小为|F|,初次采用时,可采取等概率形式,也可由用户自行根据先验知识设定采样概率,设定权重衰减指数t与递减权重指标r。记第k次采样概率分别为i=1,2,...,|F|。
以迭代方式进行如下训练过程:在第k次训练时,若第i个特征被选中,则令否则在采用所得特征子集下重构源领域样本作为训练集,记为Sk,利用Sk训练得到候选模型Lk,记Lk在有标记目标领域样本集上的分类正确率为acck,再令对以上所得进行归一化,以使所得即为下一轮采用的概率值,仍记为
以此类推,以迭代方式进行上述过程,分别构建出候选模型L1,L2,...,LNum,其中Num为设定的候选模型个数。
S2:基于动态自适应多模型组合进行目标模型构建;
在基于动态自适应多模型组合进行目标模型构建阶段,针对上轮所得候选模型L1,L2,...,LNum,记目标领域当前的有标记样本集为Tl,记其待分类的无标记样本集为Tu,记适合领域的核函数为K。
对样本x∈Tu,考虑如何计算候选模型Li在其上的权重。考察其在已知目标领域有标记样本上的分类情况,同时将核函数纳入考虑以融合样本间关系信息,采用如下方式更新权重:计算完毕后,再对所有wi做归一化处理,处理后的值仍记为wi
据此,对样本x∈Tu,最终的分类决策模型为L(x)=∑iwiLi(x)。可以看到,所构建的模型具有相当的灵活性,能够自适应地对具体的样本x采取不同的加权权重值,从而能够根据样本x自身的特点,对候选模型进行灵活组合。
实施例2
给定从公开领域收集到的已经标注好的新闻文档数据,将之作为源领域样本集,对新收集的部分文本做分类模型,便于对大量待处理分别进行归类处理。将现有的标注文档集作为源领域,将目标数据集所在领域称为目标领域,使用本方法,可从相关的大量新闻文档数据中获取大量有用知识,用于分类当前处理的新数据。具体来说,采用合适的技术(如文本信息提取)等预处理技术对各数据样本进行预处理,作为已训练好的迁移学习分类预测模型的输入,经过运算输出分类概率,判定是否为某一类别,具体流程如图2所示。
1)读取新收集的文档集,其中包含少量人工标注过的样本;
2)利用文本信息提取等预处理方法,读取样本关键特征;
3)所得特征值、指标值组成适合模型输入的向量;
4)采用归一化等方法对向量进行规范化处理;
5)将预处理后的样本向量,作为已训练好的迁移学习分类预测模型的输入;
6)模型输出分类值或分类概率值,以此判定新样本是否为某一种类别。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (3)

1.一种针对迁移学习的多模型随机生成与动态自适应组合方法,其特征在于,包括以下步骤:
S1:基于随机特征组合的样本集重构与多模型生成;采用无放回随机采样方式,对样本特征集进行无放回的采样,得到原特征集的一个特征子集,以此子集对源领域样本集进行重构,在新的特征表示下训练模型,由此得到一个候选模型,并以上过程重复多次,得到多个候选源领域模型;
具体而言,针对目标领域与源领域共享的特征集F,记集合大小为|F|,,设定权重衰减指数t与递减权重指标r,记第k次采样概率分别为i=1,2,…,|F|;
以迭代方式进行如下训练过程:在第k次训练时,若第i个特征被选中,则令否则在采用所得特征子集下重构源领域样本作为训练集,记为Sk,利用Sk训练得到候选模型Lk,记Lk在有标记目标领域样本集上的分类正确率为acck,再令对以上所得进行归一化,以使所得即为下一轮采用的概率值,仍记为
以此类推,以迭代方式进行上述过程,分别构建出候选模型L1,L2,...,LNum,其中Num为设定的候选模型个数;
S2:基于动态自适应多模型组合进行目标模型构建;
在基于动态自适应多模型组合进行目标模型构建阶段,针对上轮所得候选模型L1,L2,...,LNum,记目标领域当前的有标记样本集为Tl,记其待分类的无标记样本集为Tu,记适合领域的核函数为K;
对样本x∈Tu,考虑如何计算候选模型Li在其上的权重,考察其在已知目标领域有标记样本上的分类情况,同时将核函数纳入考虑以融合样本间关系信息,采用如下方式更新权重:计算完毕后,再对所有wi做归一化处理,处理后的值仍记为wi
综上可得,对样本x∈Tu,最终的分类决策模型为L(x)=∑iwiLi(x)。
2.根据权利要求1所述的一种针对迁移学习的多模型随机生成与动态自适应组合方法,其特征在于,步骤S1中的随机采用过程对特征采用的概率设置采取非等概率方式进行。
3.根据权利要求1所述的一种针对迁移学习的多模型随机生成与动态自适应组合方法,其特征在于,所述步骤S1中针对目标领域与源领域共享的特征集F的初次采用时可采用等概率形式或用户自行根据先验知识设定采样概率。
CN201811512535.1A 2018-12-11 2018-12-11 一种针对迁移学习的多模型随机生成与动态自适应组合方法 Active CN109934248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811512535.1A CN109934248B (zh) 2018-12-11 2018-12-11 一种针对迁移学习的多模型随机生成与动态自适应组合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811512535.1A CN109934248B (zh) 2018-12-11 2018-12-11 一种针对迁移学习的多模型随机生成与动态自适应组合方法

Publications (2)

Publication Number Publication Date
CN109934248A true CN109934248A (zh) 2019-06-25
CN109934248B CN109934248B (zh) 2023-05-19

Family

ID=66984738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811512535.1A Active CN109934248B (zh) 2018-12-11 2018-12-11 一种针对迁移学习的多模型随机生成与动态自适应组合方法

Country Status (1)

Country Link
CN (1) CN109934248B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457274A (zh) * 2019-08-14 2019-11-15 北京思图场景数据科技服务有限公司 一种基于迁移学习的数据文件处理方法、装置、设备以及计算机存储介质
CN111260133A (zh) * 2020-01-16 2020-06-09 支付宝(杭州)信息技术有限公司 用于监测研发质量的质量监测模型的优化方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218405A (zh) * 2013-03-20 2013-07-24 西安电子科技大学 基于维数约简的集成迁移文本分类方法
CN103761311A (zh) * 2014-01-23 2014-04-30 中国矿业大学 基于多源领域实例迁移的情感分类方法
CN106815643A (zh) * 2017-01-18 2017-06-09 中北大学 基于随机森林迁移学习的红外光谱模型传递方法
CN108681585A (zh) * 2018-05-14 2018-10-19 浙江工业大学 一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法
CN108846444A (zh) * 2018-06-23 2018-11-20 重庆大学 面向多源数据挖掘的多阶段深度迁移学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218405A (zh) * 2013-03-20 2013-07-24 西安电子科技大学 基于维数约简的集成迁移文本分类方法
CN103761311A (zh) * 2014-01-23 2014-04-30 中国矿业大学 基于多源领域实例迁移的情感分类方法
CN106815643A (zh) * 2017-01-18 2017-06-09 中北大学 基于随机森林迁移学习的红外光谱模型传递方法
CN108681585A (zh) * 2018-05-14 2018-10-19 浙江工业大学 一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法
CN108846444A (zh) * 2018-06-23 2018-11-20 重庆大学 面向多源数据挖掘的多阶段深度迁移学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张倩 等: "一种面向多源领域的实例迁移学习", 《自动化学报》 *
洪佳明 等: "一种结合半监督Boosting方法的迁移学习算法", 《小型微型计算机系统》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457274A (zh) * 2019-08-14 2019-11-15 北京思图场景数据科技服务有限公司 一种基于迁移学习的数据文件处理方法、装置、设备以及计算机存储介质
CN111260133A (zh) * 2020-01-16 2020-06-09 支付宝(杭州)信息技术有限公司 用于监测研发质量的质量监测模型的优化方法及装置

Also Published As

Publication number Publication date
CN109934248B (zh) 2023-05-19

Similar Documents

Publication Publication Date Title
CN109523018B (zh) 一种基于深度迁移学习的图片分类方法
Marceau The scale issue in the social and natural sciences
Ambrish et al. Logistic regression technique for prediction of cardiovascular disease
CN110163234A (zh) 一种模型训练方法、装置和存储介质
CN108647614A (zh) 心电图心拍分类识别方法及系统
CN107563444A (zh) 一种零样本图像分类方法及系统
CN113724228B (zh) 舌色苔色识别方法、装置、计算机设备及存储介质
CN112085059B (zh) 一种基于改进正余弦优化算法的乳腺癌图像特征选择方法
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
CN113299346B (zh) 分类模型训练和分类方法、装置、计算机设备和存储介质
CN110210625A (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
CN104903753B (zh) 自动匹配群体新成员与类似成员的系统及程序产品
CN110188763A (zh) 一种基于改进图模型的图像显著性检测方法
CN115358285B (zh) 待勘测区块关键地质参数的选取方法、装置、及设备
Gouveia et al. A full ARMA model for counts with bounded support and its application to rainy-days time series
CN110264454A (zh) 基于多隐藏层条件随机场的宫颈癌组织病理图像诊断方法
CN109934248A (zh) 一种针对迁移学习的多模型随机生成与动态自适应组合方法
CN110265085A (zh) 一种蛋白质相互作用位点识别方法
CN109871891A (zh) 一种物体识别方法、装置和存储介质
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN102178511A (zh) 疾病预防提示系统及其实现方法
Mukherjee et al. Biological control of Parkinsonia aculeata: Using species distribution models to refine agent surveys and releases
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN114511759A (zh) 一种皮肤状态图像的类别识别和特征确定方法及系统
CN116863327B (zh) 一种基于双域分类器协同对抗的跨域小样本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant