CN109934248B

CN109934248B - 一种针对迁移学习的多模型随机生成与动态自适应组合方法

Info

Publication number: CN109934248B
Application number: CN201811512535.1A
Authority: CN
Inventors: 洪佳明; 刘少鹏; 贾西平; 张倩; 柏柯嘉; 印鉴; 刘冶; 周莹
Original assignee: Guangzhou Heyan Big Data Technology Co ltd; Guangzhou University of Traditional Chinese Medicine; Guangdong Polytechnic Normal University
Current assignee: Guangzhou Heyan Big Data Technology Co ltd; Guangzhou University of Traditional Chinese Medicine; Guangdong Polytechnic Normal University
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2023-05-19
Anticipated expiration: 2038-12-11
Also published as: CN109934248A

Abstract

本发明公开了一种针对迁移学习的多模型随机生成与动态自适应组合方法，提出通过随机特征选择来动态构建多候选模型，通过组合多候选模型的方法来避免数据重采样、特征空间映射的上述局限性，并进一步提出动态自适应模型组合的具体方法，将这些有效途径进行有机的融合，从而构造出一种创新性的有效迁移学习分类算法，既能在模型训练过程中对源领域样本数据进行较充分的使用，又能在目标领域识别任务中充分考虑样本的具体特点，防止模型过度偏向与目标领域无关的方面，达到了比现有模型更优的分类精度与效果。本方法能应用于文本挖掘、Web挖掘、无线传感器网络分析等多种具体场景，对可归结为分类问题的各类实际应用问题，都具有重要的积极意义。

Description

一种针对迁移学习的多模型随机生成与动态自适应组合方法

技术领域

本发明涉及数据分析与机器学习领域，更具体地，涉及一种针对迁移学习的多模型随机生成与动态自适应组合方法。

背景技术

近年来，随着计算机技术的发展进步和各类数据的积累应用，数据挖掘与机器学习技术在日常生活中发挥着越来越重要的作用，其应用范围囊括从科学研究与分析到电子商务等诸多不同的方面。在各种领域应用中，迁移学习作为新兴的技术方向，越来越凸显其重要性。在传统数据挖掘与机器学习研究中，通常假设训练数据与测试数据服从相同的底层分布，并且，在目标领域中存在大量的有标记数据样本以供训练之用。然而，以上的假设在很多应用领域中不一定能够得到满足。特别地，当面对一个新的数据领域时，一般不存在大量的有标记数据样本以供使用，而通过人工方式获取更多的有标记数据，通常代价是比较昂贵的。与此同时，在与目标领域相关的其他领域中，可能已经存在大量的有用数据，其中可能包含了与当前学习任务相关的有用知识。这些现象启发了迁移学习的研究。作为近年来提出的新的研究方向，迁移学习的主要研究目标是，利用大量存在于其他领域中的辅助数据样本，从中发现能够重用的有用知识，将其应用到目标领域的训练过程中，以此达到提高训练效率、降低学习代价的目的。近年来，迁移学习受到越来越多研究者与应用者的关注，并在包括文本挖掘、Web挖掘、无线传感器网络等诸多领域中获得了很好的应用成果。

通常，在迁移学习研究中，需要考虑两个重要问题：第一，如何根据源领域与目标领域的相关性，从源领域的大量数据中获得对目标领域有用的模型；第二，由于源领域与目标领域存在差异，如何动态自适应地确定新获得的模型是否对某个特定目标领域样本是有用的，从而避免相关性不大的模型对知识迁移过程的影响。

针对以上问题，已有的解决途径主要是通过样本重采样、特征空间映射等方式，通过评估不同源领域样本的重要性差异，或在新特征表示下拉近分布距离的方式，来达到知识迁移目的。但由于样本重采样需要根据数量本就不足的目标领域有标记样本(labeleddata)来确定权重，因而存在置信度不足、可靠性不够的缺点；另一方面，由于目标领域样本中有标记样本的不足，故而其样本标签联合分布的估计也存在困难，故而特征空间映射方法也存在一定的局限性。

综上，如何充分考虑迁移学习情景下两个领域既相关又存在差异等特点，构建更为有效的迁移学习方法以用于数据分析与智能预测建模，进一步提升分类准确率，是目前亟待解决的问题。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种。

为解决上述技术问题，本发明的技术方案如下：

一种针对迁移学习的多模型随机生成与动态自适应组合方法，包括以下步骤：

S1：基于随机特征组合的样本集重构与多模型生成；采用无放回随机采样方式，对样本特征集进行无放回的采样，得到原特征集的一个特征子集，以此子集对源领域样本集进行重构，在新的特征表示下训练模型，由此得到一个候选模型，并以上过程重复多次，得到多个候选源领域模型；

具体而言，针对目标领域与源领域共享的特征集F，记集合大小为|F|，，设定权重衰减指数t与递减权重指标r，记第k次采样概率分别为

i＝1，2，...，|F|；

以迭代方式进行如下训练过程：在第k次训练时，若第i个特征被选中，则令

否则/>

在采用所得特征子集下重构源领域样本作为训练集，记为S^k，利用S^k训练得到候选模型L^k，记L^k在有标记目标领域样本集上的分类正确率为acc_k，再令/>

对以上所得/>

进行归一化，以使/>

所得即为下一轮采用的概率值，仍记为/>

以此类推，以迭代方式进行上述过程，分别构建出候选模型L¹，L²，...，L^Num，其中Num为设定的候选模型个数；

S2：基于动态自适应多模型组合进行目标模型构建；

在基于动态自适应多模型组合进行目标模型构建阶段，针对上轮所得候选模型L¹，L²，...，L^Num，记目标领域当前的有标记样本集为T^l，记其待分类的无标记样本集为T^u，记适合领域的核函数为K；

对样本x∈T^u，考虑如何计算候选模型Lⁱ在其上的权重，考察其在已知目标领域有标记样本上的分类情况，同时将核函数纳入考虑以融合样本间关系信息，采用如下方式更新权重：

计算完毕后，再对所有wⁱ做归一化处理，处理后的值仍记为wⁱ；

综上可得，对样本x∈T^u，最终的分类决策模型为L(x)＝∑_iwⁱLⁱ(x)。

优选的是，步骤S1中的随机采用过程对特征采用的概率设置采取非等概率方式进行。

优选的是，所述步骤S1中针对目标领域与源领域共享的特征集F的初次采用时可采用等概率形式或用户自行根据先验知识设定采样概率。

与现有技术相比，本发明技术方案的有益效果是：

相对于现有的迁移学习技术，本发明能够有效融合不同途径的思想，特别是在随机特征组合的基础上，通过引入基于差异性、基于分类精度的特征选择概率提升与消减策略，从而获得源领域的多模型构建方法，并应用动态自适应策略对其进行组合构建最终模型，从而能够在一定程度上避免现有方法过度依赖重要性采样、领域间分布估计带来的局限性。

在效果上，由于本发明不要求假设较强的重要性采样估计，也不要求对数据样本质量要求较高的分布估计，故而能适用于更多数据质量要求不高的迁移学习应用情景。同时，由于方法本身具有的自动特征选择概率增减功能，也能使得构建的候选模型集具有较好的多样性与领域适应度。此外，采用非固定权重的自适应组合模型策略，也能够较大程度地降低模型差异带来的性能下降问题。因此，本发明多种数据集上的实验测试结构，均能达到或者超过当前很多主流迁移学习分类模型的分类精度。

综上，本发明能够有效充分考虑类别不平衡医学数据存在复杂、高维、多义等特点，融合数据下采样、随机特征集生成、梯度提升组合等多个途径来设计完整有效的算法，其分类准确率明显优于现有技术。

附图说明

图1为针对迁移学习的多模型随机生成与动态自适应组合方法第一阶段的框架图；

图2为针对迁移学习的多模型随机生成与动态自适应组合方法第二阶段的实施过程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

在本发明的描述中，需要理解的是，术语“”等指示的方位或者位置关系为基于附图所示的方位或者位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含所指示的技术特征的数量。由此，限定的“第一”、“第二”的特征可以明示或隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以是通过中间媒介间接连接，可以说两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明的具体含义。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种针对迁移学习的多模型随机生成与动态自适应组合方法，请参考图1、图2，由基于随机特征组合的样本集重构与多模型生成，基于动态自适应多模型组合进行目标模型构建2个阶段构成。

S1：基于随机特征组合的样本集重构与多模型生成；

基于随机特征组合的样本集重构利用无放回随机采样方式，对样本特征集进行无放回的采样，得到原特征集的一个特征子集，以此子集对源领域样本集进行重构，在新的特征表示下训练模型，由此得到一个候选模型。以上过程重复多次，可得到多个候选源领域模型。为保证候选模型的多样性，在后续的随机采用过程中对特征采用的概率设置采取非等概率方式进行。

具体而言，针对目标领域与源领域共享的特征集F，记集合大小为|F|，初次采用时，可采取等概率形式，也可由用户自行根据先验知识设定采样概率，设定权重衰减指数t与递减权重指标r。记第k次采样概率分别为

i＝1，2，...，|F|。

否则/>

对以上所得/>

进行归一化，以使/>

所得即为下一轮采用的概率值，仍记为/>

以此类推，以迭代方式进行上述过程，分别构建出候选模型L¹，L²，...，L^Num，其中Num为设定的候选模型个数。

S2：基于动态自适应多模型组合进行目标模型构建；

在基于动态自适应多模型组合进行目标模型构建阶段，针对上轮所得候选模型L¹，L²，...，L^Num，记目标领域当前的有标记样本集为T^l，记其待分类的无标记样本集为T^u，记适合领域的核函数为K。

对样本x∈T^u，考虑如何计算候选模型Lⁱ在其上的权重。考察其在已知目标领域有标记样本上的分类情况，同时将核函数纳入考虑以融合样本间关系信息，采用如下方式更新权重：

计算完毕后，再对所有wⁱ做归一化处理，处理后的值仍记为wⁱ。

据此，对样本x∈T^u，最终的分类决策模型为L(x)＝∑_iwⁱLⁱ(x)。可以看到，所构建的模型具有相当的灵活性，能够自适应地对具体的样本x采取不同的加权权重值，从而能够根据样本x自身的特点，对候选模型进行灵活组合。

实施例2

给定从公开领域收集到的已经标注好的新闻文档数据，将之作为源领域样本集，对新收集的部分文本做分类模型，便于对大量待处理分别进行归类处理。将现有的标注文档集作为源领域，将目标数据集所在领域称为目标领域，使用本方法，可从相关的大量新闻文档数据中获取大量有用知识，用于分类当前处理的新数据。具体来说，采用合适的技术(如文本信息提取)等预处理技术对各数据样本进行预处理，作为已训练好的迁移学习分类预测模型的输入，经过运算输出分类概率，判定是否为某一类别，具体流程如图2所示。

1)读取新收集的文档集，其中包含少量人工标注过的样本；

2)利用文本信息提取等预处理方法，读取样本关键特征；

3)所得特征值、指标值组成适合模型输入的向量；

4)采用归一化等方法对向量进行规范化处理；

5)将预处理后的样本向量，作为已训练好的迁移学习分类预测模型的输入；

6)模型输出分类值或分类概率值，以此判定新样本是否为某一种类别。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种针对迁移学习的多模型随机生成与动态自适应组合方法，其特征在于，包括以下步骤：

S1：基于随机特征组合的样本集重构与多模型生成；采用无放回随机采样方式，对样本特征集进行无放回的采样，得到原特征集的一个特征子集，以此子集对源领域样本集进行重构，在新的特征表示下训练模型，由此得到一个候选模型，并以上过程重复多次，得到多个候选源领域模型；给定从公开领域收集到的已经标注好的新闻文档数据，将之作为源领域样本集，对新收集的部分文本做分类模型，便于对大量待处理分别进行归类处理，将现有的标注文档集作为源领域，将目标数据集所在领域称为目标领域；

具体而言，针对目标领域与源领域共享的特征集F，记集合大小为|F|，设定权重衰减指数t与递减权重指标r，记第k次采样概率分别为