CN108710948A

CN108710948A - 一种基于聚类均衡和权重矩阵优化的迁移学习方法

Info

Publication number: CN108710948A
Application number: CN201810378299.2A
Authority: CN
Inventors: 易长安; 朱珍; 黄营; 胡明; 邓波
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-10-26
Anticipated expiration: 2038-04-25
Also published as: CN108710948B

Abstract

本发明公开了一种基于聚类均衡和权重矩阵优化的迁移学习方法，包括定义源域样本集和目标域样本集；对源域样本集以及目标域样本集样本的标签重新赋值；对源域样本集和目标域样本集中样本进行降维；对源域样本集中样本进行基于特征的无监督聚类分析；对每个聚类进行均衡处理；为每个聚类学习度量矩阵；根据聚类及度量矩阵，生成权重矩阵；对权重矩阵优化；利用权重矩阵预测目标域样本集中样本的标签。本发明通过无监督的聚类分析方法将源域样本集分为多个不同的聚类，使每个聚类具有相似的属性；同时基于各个聚类生成权重矩阵，并对其进行优化，更符合目标域样本集的实际情况，利用该权重矩阵对目标域样本集的标签进行预测，准确度更高。

Description

一种基于聚类均衡和权重矩阵优化的迁移学习方法

技术领域

本发明涉及智能识别技术领域，更具体地说涉及一种迁移学习方法。

背景技术

所述的迁移学习，对于人类来说，就是类似于举一反三的意思，利用已有的知识来学习新的知识，解决新的问题；而在机器学习来说，迁移学习在通俗意义上来讲就是能让现有的模型算法稍加调整即可应用于一个相似的领域和功能的一项技术。

现有的迁移学习主要包括三种类型，基于特征的迁移学习、基于实例的迁移学习以及基于度量的迁移学习。其中，基于特征的迁移学习和基于实例的迁移学习是使用欧氏距离来衡量样本之间的距离，而欧氏距离不能够反应出样本的不同维度之间的关联。基于度量的迁移学习方法虽然考虑了样本的不同维度之间的关联，但这种学习方法和前两种类型一样，样本的类型完全取决于标签的种类，从而忽视了样本特征的本质属性，也就是忽略了不同标签的样本特征之间也可能存在的某些关联。

发明内容

针对上述问题，本发明考虑了样本特征所隐含的本质属性，也就是考虑了不同标签的样本特征之间也可能存在的某种关联，提供一种基于聚类均衡和权重矩阵优化的迁移学习方法，能够将源域知识更好地迁移到目标域。

本发明解决其技术问题的解决方案是：

一种基于聚类均衡和权重矩阵优化的迁移学习方法，包括以下步骤：

步骤A.定义源域样本集D_S以及目标域样本集D_T，所述目标域样本集D_T分为两部分，分别为样本贴有标签的第一样本集D_TL以及样本没有贴标签的第二样本集D_TU，所述第二样本集D_TU的样本数量远大于第一样本集D_TL的数量；

步骤B.对所述源域样本集D_S以及目标域样本集D_T中样本的标签进行重新赋值；

步骤C.对所述源域样本集D_S以及目标域样本集D_T中的样本进行降维操作；

步骤D.对所述源域样本集D_S中的样本进行基于特征的无监督聚类分析，生成若干个聚类；

步骤E.对每个所述聚类进行均衡处理；

步骤F.为每个所述聚类学习一个度量矩阵G；

步骤G.根据所述聚类及其度量矩阵G，以及第一样本集D_TL，学习权重矩阵W的初始值；

步骤H.根据所述第一样本集D_TL，对所述权重矩阵W进行优化；

步骤I.利用所述权重矩阵W预测第二样本集D_TU的样本的标签。

作为上述技术方案的进一步改进，所述步骤C中利用主成分分析法对所述源域样本集D_S以及目标域样本集D_T中的样本进行降维操作。除此以外还可以采用特征选择法进行降维操作。

作为上述技术方案的进一步改进，所述步骤F包括以下步骤：

步骤F1.针对每个所述聚类，将聚类中的样本顺序随机化；

步骤F2.设置收敛条件，将度量矩阵G初始化为单位矩阵；

步骤F3.设置求解度量矩阵G的目标函数，记为公式1；

其中G₀表示单位矩阵，x_i和x_j是聚类中的样本，S表示x_i和x_j同类，D表示x_i和x_j是不同类，所述α和β分别代表第一阈值和第二阈值；

步骤F4.求解所述度量矩阵G的目标函数，直到符合收敛条件。

作为上述技术方案的进一步改进，所述步骤G具体包括以下步骤：

步骤G1.为每个聚类学习出一个基分类器Model_i，其中i表示第i个聚类；

步骤G2.设置所述基分类器Model_i的训练函数，所述训练函数如公式2所示；

Model_i＝BaseLearner(C_i,Q_i,G_i) 公式2

其中C_i为第i个聚类，G_i为第i个聚类的度量矩阵，Q_i表示的是第一样本集D_TL中与第i个聚类最近的样本集合；

步骤G3.基于基分类器Model_i的训练函数，利用度量矩阵G_i，对聚类C_i和集合Q_i进行特征变换，并对特征进行归一化处理，完成对基分类器Model_i的训练；

步骤G4.利用函数BaseLearnerPred(C_i,G_j,Model_j)，求解所有(C_i，G_j)对第一样本集D_TL中样本的预测标签，其中1≤i,j≤n，n为聚类的数量，各个(C_i，G_j)的预测准确率形成权重矩阵W的初始值W₀。

作为上述技术方案的进一步改进，所述步骤H具体包括以下步骤：

步骤H1.根据所述权重矩阵W的初始值W₀，计算第一样本集合D_TL中样本的预测标签；

步骤H2.设置损失函数和正则项，所述损失函数如公式3所示；

norm(L_pred*w_t-L_real) 公式3

其中w_t是度量矩阵W第t列的值，是步骤H中需要优化的值，L_pred是经过权重矩阵W₀计算得到的预测标签，L_real是真实标签，所述正则项如公式4所示；

norm(w_t-b) 公式4

其中b是权重矩阵W₀第t列的值；

步骤H3.利用第一样本集合D_TL中样本，通过公式5求得w_t的最优值；

minimize(lamda*norm(w_t-b)+norm(L_pred*w_t-L_real)) 公式5

其中lamda表示平衡因子。

本发明的有益效果是：本发明通过基于特征的无监督聚类分析方法将源域样本集D_S分为多个不同的聚类，使每个聚类具有相似的属性；同时基于各个聚类生成权重矩阵，并对其进行优化，更符合目标域样本集的实际情况，利用该权重矩阵对目标域样本集的第二样本集D_TU的样本标签进行预测，预测效果更好。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单说明。显然，所描述的附图只是本发明的一部分实施例，而不是全部实施例，本领域的技术人员在不付出创造性劳动的前提下，还可以根据这些附图获得其他设计方案和附图。

图1是本发明的方法流程示意图。

具体实施方式

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。

参照图1，本发明创造公开了一种基于聚类均衡和权重矩阵优化的迁移学习方法，该迁移学习方法可应用于智能机器人场景识别、药品识别以及智能监控等领域。

步骤B.对所述源域样本集D_S以及目标域样本集D_T中的样本标签进行重新赋值；

步骤E.对每个所述聚类进行均衡处理；

步骤F.为每个所述聚类学习一个度量矩阵G；

步骤H.根据所述第一样本集D_TL，对所述权重矩阵W进行优化；

步骤I.利用所述权重矩阵W预测第二样本集D_TU的样本的标签。

具体地，本发明通过基于特征的无监督聚类分析方法将源域样本集D_S分为多个不同的聚类，使每个聚类的样本特征之间具有某种关联；同时基于各个聚类生成权重矩阵，并对其进行优化，更符合目标域样本集的实际情况，利用该权重矩阵对目标域样本集中未知标签的样本的标签进行预测，预测效果更好。

以下对所述迁移学习方法中的各个步骤进行详细说明。

步骤A中，首先定义源域样本集D_S以及目标域样本集D_T，其中所述目标域样本集D_T分为两部分，分别为样本贴有标签的第一样本集D_TL以及样本没有贴标签的第二样本集D_TU，所述第二样本集D_TU的样本数量远大于第一样本集D_TL的数量，其中通常第一样本集D_TL数量是目标域样本集D_T数量的百分之五。实际应用中，本方法所述源域样本集D_S以及目标域样本集D_T中的样本是服从不同的数据分布，但是第一样本集D_TL和第二样本集D_TU中样本是服从相同的数据分布，因此当得到第一样本集D_TL的预测模型，即可用该预测模型预测第二样本集D_TU中的样本。简单的说，本方法是利用源域样本集D_S和第一样本集D_TL生成初始的预测模型，并用第一样本集D_TL对预测模型进行优化，利用优化之后的预测模型对第二样本集D_TU中样本进行预测。

步骤B中，对所述源域样本集D_S以及目标域样本集D_T中的样本标签进行重新赋值，本步骤中重新赋值前，若两个样本的标签是相同的，则重新赋值后这两个样本的标签依旧相同。重新赋值之后的标签是从1到n的整数值。本发明中对各个样本标签重新赋值，目的在于便于在后续步骤中学习、使用具有多分类功能的基分类器。

步骤C中，需要对所述源域样本集D_S以及目标域样本集D_T中的样本进行降维操作，本发明具体实施例中，具体是利用主成分分析法或者特征选择法对所述源域样本集D_S以及目标域样本集D_T中的样本进行降维操作，通过以上两种降维函数，可将样本数据从几万维，甚至数百万维降低到几十维，同时保留样本的主要特性。

步骤D中，对所述源域样本集D_S中的样本进行基于特征的无监督聚类分析，生成若干个聚类，其中，所生成聚类的数量可视实际情况而定。

步骤E中，对每个所述聚类进行均衡处理。本发明具体实施例中，所述步骤E的具体操作如下：在某个聚类中，假设标签k对应的样本数量最多，记为S_k，对于任意的其他标签y，该聚类中标签为y的样本数量为S_y，该源域样本集D_S中标签为y的样本数量为d_y，从源域样本集D_S中随机抽取min{(S_k-S_y),d_y}个标签为y的样本，添加到当前聚类中。进行均衡处理后，同一聚类中的某些样本可能会重复出现，进行均衡处理的目的在于防止某个标签的样本数量过少。

步骤F中，为每个聚类学习一个度量矩阵G，其中本发明具体实施例中，步骤F具体包括以下步骤：

步骤F1.针对每个所述聚类，将聚类中的样本顺序随机化，使得在后续步骤中被选中的样本更具有随机性；

步骤F2.设置收敛条件，将度量矩阵G初始化为单位矩阵，本实施例中，所述收敛条件可以有两种，第一是以迭代次数超过某个阀值作为收敛条件，第二是以度量矩阵的变化幅度小于某个阀值作为收敛条件。本发明实施例优先采用的是以度量矩阵的变化幅度小于某个阀值作为收敛条件；

步骤F3.设置求解度量矩阵G的目标函数，记为公式1；

其中G₀表示单位矩阵，x_i和x_j是聚类中的样本，S表示x_i和x_j同类，D表示x_i和x_j是不同类，所述α和β分别代表第一阈值和第二阈值；其中所述度量矩阵的作用是将样本从一个空间转换到另一个空间，在新的空间里，任意两个样本之间的距离都用马氏距离表示，如果两个样本之间的距离小于第一阀值，那么它们就是相似的，如果它们之间的距离大于第二阀值，那么它们就是不相似的，本实施例利用如下公式表示马氏距离，本发明具体实施例中设置第一阈值和第二阈值的过程如下，从某个聚类中，随机选择若干个样本对，将它们之间的距离按从小到大的顺序排列，前5％对应的距离值就是第一阈值，前95％对应的距离值就是第二阈值(通常选取5％、95％为临界点)。例如，如果这100个(假设为100个)距离值都不重复，并且从1到100均匀分布，那么第一阈值为5，第二阈值为95；

步骤F4.求解所述度量矩阵G的目标函数，直到符合收敛条件，获得度量矩阵G。通过公式1，若经过降维后样本维度是50，则求得的度量矩阵G是50*50的矩阵。

步骤G中，根据所述聚类及其度量矩阵G，以及第一样本集D_TL，生成权重矩阵W并学习权重矩阵W的初始值，本发明具体实施例中，步骤G具体包括以下步骤：

步骤G2.设置所述基分类器Model_i的训练函数如公式2所示；

Model_i＝BaseLearner(C_i,Q_i,G_i) 公式2

其中C_i为第i个聚类，G_i为第i个聚类的度量矩阵，Q_i表示第一样本集D_TL中与聚类i的距离最近的样本集合；其中集合Q_i通过以下方法求得，首先计算每个聚类的聚类中心，针对第一样本集D_TL，计算第一样本集D_TL每个样本到各个聚类中心的欧氏距离，如果某个样本离聚类C_i最近，则将其存入集合Q_i中，集合Q_i的内容最初为空；

步骤G中，各个聚类C_i以及所有度量矩阵G_j之间形成表1所示关系。

表1

其中表1中，W₁₁、W₁₂……W_nn组成权重矩阵W。

步骤H中，需要对所述权重矩阵W进行优化，目的在于使第一样本集D_TL中样本的预测标签与真实标签差异最小，本发明具体实施例中，步骤H具体包括以下步骤：

步骤H2.设置损失函数和正则项，所述损失函数如公式3所示；

norm(L_pred*w_t-L_real) 公式3

norm(w_t-b) 公式4

其中b是权重矩阵W₀第t列的值；

minimize(lamda*norm(w_t-b)+norm(L_pred*w_t-L_real)) 公式5

其中lamda表示平衡因子。

步骤I中，用所述权重矩阵W预测第二样本集D_TU中样本的标签。具体地，在步骤H中，利用第一样本集D_TL对权重矩阵进行优化，而由于第一样本集D_TL和第二样本集D_TU样本数据分布一致，因此优化后的权重矩阵同样适用于预测第二样本集D_TU样本的标签。所述第二样本集D_TU的每个样本必然和某一个聚类的距离最近。此处以聚类C_i为例子进行说明，假设第一样本集D_TL里与聚类C_i最近的样本集为R_i，首先采用函数BaseLearnerPred预测样本集R_i的标签，假设(C_i,G_j)对样本R_i的预测标签为pred(R_i)，那么对于同一个聚类C_i，样本集R_i中的每个样本都可以通过如下公式进行预测，pred(R_i)＝pred(R_i)+W(C_i,G_j)，接着，样本集R_i里的每个样本都使用max函数(以MATLAB软件为例)求解使得pred(R_i)取得最大值的标签序号，最终得到相应的预测值Final(R_i)，即Final(R_i)＝max(pred(R_i))。因为之前进行了重赋值操作，所以现在最后只需将预测值还原为真实值即可。

以上对本发明的较佳实施方式进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变型或替换，这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于聚类均衡和权重矩阵优化的迁移学习方法，其特征在于，包括以下步骤：

步骤E.对每个所述聚类进行均衡处理；

步骤F.为每个所述聚类学习一个度量矩阵G；

步骤H.根据所述第一样本集D_TL，对所述权重矩阵W进行优化；

步骤I.利用所述权重矩阵W预测第二样本集D_TU样本的标签。

2.根据权利要求1所述的一种基于聚类均衡和权重矩阵优化的迁移学习方法，其特征在于：所述步骤C中利用主成分分析法对所述源域样本集D_S以及目标域样本集D_T中的样本进行降维操作。

3.根据权利要求2所述的一种基于聚类均衡和权重矩阵优化的迁移学习方法，其特征在于，所述步骤F包括以下步骤：

步骤F1.针对每个所述聚类，将聚类中的样本顺序随机化；

步骤F2.设置收敛条件，将度量矩阵G初始化为单位矩阵；

步骤F3.设置求解度量矩阵G的目标函数，记为公式1；

步骤F4.求解所述度量矩阵G的目标函数，直到符合收敛条件。

4.根据权利要求3所述的一种基于聚类均衡和权重矩阵优化的迁移学习方法，其特征在于，所述步骤G包括以下步骤：

Model_i＝BaseLearner(C_i,Q_i,G_i) 公式2

5.根据权利要求4所述的一种基于聚类均衡和权重矩阵优化的迁移学习方法，其特征在于，所述步骤H包括以下步骤：

步骤H2.设置损失函数和正则项，所述损失函数如公式3所示；

norm(L_pred*w_t-L_real) 公式3

norm(w_t-b) 公式4

其中b是权重矩阵W₀第t列的值；

minimize(lamda*norm(w_t-b)+norm(L_pred*w_t-L_real)) 公式5

其中lamda表示平衡因子。