CN103761311B

CN103761311B - 基于多源领域实例迁移的情感分类方法

Info

Publication number: CN103761311B
Application number: CN201410032866.0A
Authority: CN
Inventors: 张倩; 李海港; 张勇
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2014-01-23
Filing date: 2014-01-23
Publication date: 2016-11-02
Anticipated expiration: 2034-01-23
Also published as: CN103761311A

Abstract

本发明涉及一种基于多源领域实例迁移的情感分类方法,针对TrAdaBoost算法在迁移学习中可能出现的迁移效率降低的现象，引入多源学习，通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点，使得迁移学习更加稳定且有效，给目标样本分配较多的初始权重，来缓解权重不匹配的问题，并且在每一步对数据进行重新采样来改善引用不平衡的现象；针对TrAdaBoost算法中出现的源领域权重过早收敛现象，加入了动态因子，改善权重熵由源样本向目标样本转移的问题。本发明可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快，共同帮助学习目标任务，达到对所有源领域知识的充分利用。

Description

基于多源领域实例迁移的情感分类方法

技术领域

本发明涉及一种基于多源领域实例迁移的情感分类方法。

背景技术

迁移学习根据不同任务间的相似性，将源领域数据向目标领域迁移，实现对已有知识的利用，使传统的从零开始学习变成可积累的学习，并且提高了学习效率，其最大的特点就是利用相关领域的知识来帮助完成目标领域的学习任务。源领域和目标领域中相关知识的表达方式有很多，可分为样本实例、特征映射、模型参数和关联规则，针对不同的知识表达方式选择恰当的迁移学习方法是保障目标领域学习的前提。

对于知识表达为样本实例的研究，重在对源领域中的数据进行加权选择，然后将胜出部分数据用于目标任务的学习过程中。其基本思想是，尽管辅助训练样本和源领域中的训练样本会有些不同，但是辅助训练样本中应该还是会存在一部分比较适合用来训练一个有效的分类模型的样本。假设源领域中存在一部分实例是可以被重新利用的，这些实例可以帮助目标任务的学习。通常，重新利用这一部分实例的方法是对实例权重进行重新加权，权重大的实例对新任务的学习影响相对较大，从而有效促进新任务的学习。

其中最典型的算法当属2007年的会议“24th International Conference onMachine Learning”上发表的文章《Boosting for transfer learning》中提到的TrAdaBoost，该算法利用Boosting技术建立一种自动调整权重的机制。在每一次迭代中，针对源数据和目标数据分别进行不同的权重调整机制：(1)如果一个源样本被错误分类，就降低这个样本的权重。这样，在下一次迭代中，该样本对分类模型的影响就会降低。经过若干轮迭代之后，源数据中与目标数据相似度偏低的数据就会拥有相对更高的权重，而那些与目标数据相似的数据权重将会降低。(2)如果一个目标样本被错误分类，则增加这个样本的权重，用来强调这个样本，使得该样本在下一次迭代中被错分的概率减小。此外，TrAdaBoost方法被扩展为许多迁移学习方法，例如2009年的会议“IEEE InternationalConference on Data Mining Workshops”上发表的文章《Set-based boosting forinstance-level transfer》一文中提到的TransferBoost方法，在可以得到多个源任务的情况下采用推进方法，它可以提升所有源样本矢量，这些样本均来自具有正迁移性的任务中。TransferBoost对计算每个源任务的整体迁移，作为仅含目标的任务和加入源任务的目标任务之间误差的不同。2010年的会议“International Workshop on Handling ConceptDrift in Adaptive Information Systems”上发表的文章《Cost-sensitive boostingfor concept drift》中提到的概念漂移，利用AdaCost，则固定代价成为源矢量更新的一部分。利用可能性估计作为测量源分布和目标分布相关性的方法，这个代价能预先计算得到。另外，中国专利说明书CN201110452050.X公开的非平衡样本分类的集成迁移学习方法，利用已有旧数据的分类规律找出近似分布的新数据的分类规律，尤其是针对分类不平衡数据的分类问题提供了新的方法，保证了分类中数量少的负样本在分类训练中的作用。

TrAdaBoost是第一种使用Boosting作为归纳迁移学习器的迁移学习方法，应用非常广泛。但它也有一些缺点，例如权重不匹配，当源样本的规模比目标样本的规模大得多时，则需要经过多次迭代，才能使目标样本的总体权重接近于源样本的总体权重；引用不平衡，TrAdaBoost方法有时得出的最终分类器总是对所有的样本给出同一个预测标记，这实质上是由于没有平衡不同等级之间的权重造成的；源领域权重的下降速度过快，这是TrAdaBoost方法最严重的问题，在TrAdaBoost方法重新确定权重的策略中，源样本和目标样本的权重的差异性逐渐增加，并且在随后的迭代中，即使源样本变得对目标领域学习有利，其权重也没有办法恢复。TransferBoost方法假设源训练数据来自不同的源领域，在每次迭代中，选择与目标领域最相关的源领域训练弱分类器，最后得到强分类器。这种方法可以保证迁移的知识与目标任务最相关，但它却忽略了其他源任务对目标任务学习的影响。概念漂移方法中，由于这种更新源权重的方法利用了TrAdaBoost的更新机制，它也同样产生了一个冲突，和目标任务不相关的源任务会引起负迁移，它的样本权重会以固定的或者动态变化的比率在TrAdaBoost更新机制中变得越来越少，即使TrAdaBoost只增加错误分类样本的权重，这个更新机制也同时增加这些相同的权重。

发明内容

本发明的目的是提供一种基于多源领域实例迁移的情感分类方法，针对TrAdaBoost算法在迁移学习中可能出现的迁移效率降低的现象，引入多源学习，通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点，使得迁移学习更加稳定且有效，给目标样本分配较多的初始权重，来缓解权重不匹配的问题，并且在每一步对数据进行重新采样来改善引用不平衡的现象；针对TrAdaBoost算法中出现的源领域权重过早收敛现象，加入了动态因子，改善权重熵由源样本向目标样本转移的问题。本发明可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快，共同帮助学习目标任务，达到对所有源领域知识的充分利用。

本发明是通过以下技术方案实现的：一种基于多源领域实例迁移的情感分类方法，包括以下步骤：

步骤1)，引入多源学习，通过从不同的源领域中迁移样本或是结合多个源领域的特点，使得迁移学习更加稳定且有效，给目标样本分配较多的初始权重，缓解权重不匹配的问题，并且在每一步对数据进行重新采样改善引用不平衡的现象；

步骤1.1)，初始化权矢量其中为第k个源领域训练样本的权重矢量，为目标领域训练样本的权重矢量；

步骤1.2)，从第一次迭代开始，计算源领域训练样本总权重，设其中为全部源领域训练样本个数，为第k个源领域训练集包含样本数量；

步骤1.3)，清空候选弱分类器集合，将权矢量归一化；

步骤2)，调用基分类器在每一个训练集训练得到一个弱分类器，将所有弱分类器组成弱分类器集，分别计算每个弱分类器在目标训练集上的误差，根据测试误差对每个弱分类器加相应的权重，由于正确率高的分类器对应的源领域包含对目标任务有用的信息多，对目标任务的学习帮助大，所以误差大的分类器设置权重小，误差小的分类器设置权重大；

步骤2.1)，调用基分类器在每一个源训练集训练得到一个弱分类器

步骤2.2)，计算弱分类器在目标领域D_b上的误差，其计算公式为其中，表示候选弱分类器分类错误，表示对N个源领域求和；

步骤2.3)，根据弱分类器在目标领域D_b上的误差大小更新弱分类器的权重，其计算公式为循环往复，直到遍历N个源领域；

步骤3)，将加权后的弱分类器集成得到当前第t次迭代的候选分类器然后计算候选分类器在目标训练集和不同源领域训练集上的误差，并加入动态因子C_t，更新源领域样本的权重，对于分类正确的源领域样本权重不变，分类错误的源样本权重减小，减小分类错误样本的权重表示此样本对目标任务的学习没有帮助，降低此样本对目标学习的影响；

步骤3.1)，得到第t次迭代的候选分类器其计算公式为

步骤3.2)，计算候选分类器在目标领域D_b上的误差率其计算公式为

步骤3.3)，计算分类器的权重其计算公式为其中的大小为越小，则目标分类误差越小，表明与目标领域的相关度越高，将多次迭代的基分类器组合成目标分类器，源领域中的有用知识就会逐渐迁移到目标领域中；

步骤3.4)，计算出动态因子C_t的值，其计算公式为

步骤3.5)，更新源样本权矢量和目标样本权矢量；

步骤4)，经迭代达到最大次数M次后输出最终强分类器如果没有达到最大迭代次数则重新从矢量归一化开始。

本发明中源样本权矢量的更新使用加权多数算法WMA，通过迭代降低错误分类源样本的权重来调整源数据集的权重，并保存正确分类源样本的当前权重值。

所述步骤3.3)中为了满足的值必须小于0.5，但是，为了避免算法停止，当其值超过0.5时，设置

所述步骤3.4)中动态因子C_t的计算公式的推导方法为：首先令A是第t+1步迭代正确分类目标权重的总和，B是第t+1步迭代错误分类目标权重的总和，其表达式如下：

则算法源权重的值更新为：

ω_{a_{k}}^{t + 1} = \frac{ω_{a_{k}}^{t}}{n_{a} \cdot ω_{a_{k}}^{t} + A + B} = \frac{ω_{a_{k}}^{t}}{n_{a} \cdot ω_{a_{k}}^{t} + 2 \cdot n_{b} \cdot ω_{b}^{t} (1 - ϵ_{b}^{t})}

在每个WMA迭代中引入动态因子，由于有等式有公式：

ω_{a_{k}}^{t} = \frac{C_{t} \cdot ω_{a_{k}}^{t}}{C_{t} \cdot n_{a} \cdot ω_{a_{k}}^{t} + 2 \cdot n_{b} \cdot ω_{b}^{t} (1 - ϵ_{b}^{t})}

进而可以计算出动态因子的值：

C_{t} = \frac{2 \cdot n_{b} \cdot ω_{b}^{t} (1 - ϵ_{b}^{t})}{1 - n_{a} \cdot ω_{a_{k}}^{t}} = \frac{2 \cdot n_{b} \cdot ω_{b}^{t} (1 - ϵ_{b}^{t})}{n_{b} \cdot ω_{b}^{t}} = 2 (1 - ϵ_{b}^{t})

所述步骤3.5)中更新源样本权矢量的计算方法为其中源样本权重更新的收敛率由β_a和动态因子C_t计算得到，对于分类正确的源领域样本权重不变，分类错误的样本权重减小，减小分类错误样本的权重表示此样本对目标任务的学习没有帮助，降低此样本对目标学习的影响；更新目标样本权矢量的计算方法为其中i∈D_b，目标样本的权重更新利用的值计算，只需要知道目标误差率的值即可，在每个迁移学习模型中，源样本分布都是相关的，目标样本可以从合并的相关源样本中获得知识。

本发明的有益效果是：一种基于多源领域实例迁移的情感分类方法，针对TrAdaBoost算法在迁移学习中可能出现的迁移效率降低的现象，引入多源学习，通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点，使得迁移学习更加稳定且有效，给目标样本分配较多的初始权重，来缓解权重不匹配的问题，并且在每一步对数据进行重新采样来改善引用不平衡的现象；针对TrAdaBoost算法中出现的源领域权重过早收敛现象，加入了动态因子，改善权重熵由源样本向目标样本转移的问题。本发明可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快，共同帮助学习目标任务，达到对所有源领域知识的充分利用。

附图说明

附图1是一种基于多源领域实例迁移的情感分类方法的流程图。

附图2是图2目标领域是B的分类性能。

附图3目标领域是D的分类性能。

附图4目标领域是E的分类性能。

附图5目标领域是K的分类性能。

附图6不同算法的时间代价比较。

下面结合附图及实施例对本发明作进一步说明。

具体实施方式

结合附图1可以看出，一种基于多源领域实例迁移的情感分类方法，包括以下步骤：

步骤1.3)，清空候选弱分类器集合，将权矢量归一化；

步骤3.1)，得到第t次迭代的候选分类器其计算公式为

步骤3.3)，计算分类器的权重其计算公式为其中的大小为越小，则目标分类误差越小，表明与目标领域的相关度越高，将多次迭代的基分类器组合成目标分类器，源领域中的有用知识就会逐渐迁移到目标领域中，为了满足的值必须小于0.5，但是，为了避免算法停止，当其值超过0.5时，设置

步骤3.4)，计算出动态因子C_t的值，其计算公式为动态因子C_t的计算公式的推导方法为：首先令A是第t+1步迭代正确分类目标权重的总和，B是第t+1步迭代错误分类目标权重的总和，其表达式如下：

则算法源权重的值更新为：

ω_{a_{k}}^{t + 1} = \frac{ω_{a_{k}}^{t}}{n_{a} \cdot ω_{a_{k}}^{t} + A + B} = \frac{ω_{a_{k}}^{t}}{n_{a} \cdot ω_{a_{k}}^{t} + 2 \cdot n_{b} \cdot ω_{b}^{t} (1 - ϵ_{b}^{t})}

在每个WMA迭代中引入动态因子，由于有等式有公式：

ω_{a_{k}}^{t} = \frac{C_{t} \cdot ω_{a_{k}}^{t}}{C_{t} \cdot n_{a} \cdot ω_{a_{k}}^{t} + 2 \cdot n_{b} \cdot ω_{b}^{t} (1 - ϵ_{b}^{t})}

进而可以计算出动态因子的值：

C_{t} = \frac{2 \cdot n_{b} \cdot ω_{b}^{t} (1 - ϵ_{b}^{t})}{1 - n_{a} \cdot ω_{a_{k}}^{t}} = \frac{2 \cdot n_{b} \cdot ω_{b}^{t} (1 - ϵ_{b}^{t})}{n_{b} \cdot ω_{b}^{t}} = 2 (1 - ϵ_{b}^{t})

步骤3.5)，更新源样本权矢量和目标样本权矢量，更新源样本权矢量的计算方法为其中源样本权重更新的收敛率由β_a和动态因子C_t计算得到，对于分类正确的源领域样本权重不变，分类错误的样本权重减小，减小分类错误样本的权重表示此样本对目标任务的学习没有帮助，降低此样本对目标学习的影响；更新目标样本权矢量的计算方法为其中i∈D_b，目标样本的权重更新利用的值计算，只需要知道目标误差率的值即可，在每个迁移学习模型中，源样本分布都是相关的，目标样本可以从合并的相关源样本中获得知识；

本发明的效果可以通过以下对情感偏好数据集分类进一步说明：

1.实验设置

选择情感偏好数据集中每个情感偏好文件都与用户在亚马逊网站上产品的评价有关，这个情感数据包含Books，DVD，Electronics，Kitchen这4个物品的评价。每个领域的正面评价和负面评价各有1000条，在实验中，每个标记数据集被分为1600个训练样本和400个测试样本，考虑不同数量的源领域来完成迁移学习。分别用B，D，E，K来表示4个领域，在第1种设置中，从3个源领域迁移到余下一个目标领域，这样可以获得4种可能的组成{B,D,E→K},{B,D,K→E},{B,E,K→D},{D,E,K→B}。在第2种设置中，考虑两个源领域情况，如果目标领域是K，则源领域的组成有3种可能性，即{B,D},{B,E}和{D,E}。因此，在有两个源领域的情况下，对于4个种类的多源迁移问题就有4种子任务。最后1种设置，从一个源领域迁移到其他3个目标领域。

2.结果与分析

图2-5描述了本发明所述的基于多源领域实例迁移的情感分类方法，即MSDTrA算法在4种多源迁移学习的实验结果，分别考虑不同的目标领域。MSDTrA是个迭代算法，弱分类器在每一步都起作用。总体而言，迁移学习的精确度在迭代初始就有显著提高，如果有充足的特征可以利用，分类精确度提高较慢并趋于稳定。从实验结果中可以看出，经过若干次迭代之后，几种迁移的精确度相当，并且趋于稳定。因此，为了达到快速实验的目的，在迭代1000步的时候终止算法。

既然MSDTrA算法考虑了多个源领域，可以得到更多的显著特征，进而可以将分类器用于一个新的领域中未知的样本。需要注意的是，MSDTrA算法中，含有3个源领域的迁移效果比两个源领域的迁移效果更好。如果有更多的源领域可以利用，MSDTrA算法可以利用更多的有用信息，得到的分类器在目标领域将会产生更好的分类效果。然而，分类精确度不仅仅取决于源领域的数量，同时也取决于源领域和目标领域的分布相似程度。例如，图2中，虽然D+E→B采用了较多的源领域，但它的分类精确度依旧不及K→B。因此，可以得知，MSDTrA算法的迁移性能取决于两个因素：源领域的数量以及源领域和目标领域之间的相似度。

表1～3分别列出了3种学习算法在4个不同的源领域迁移学习的分类性能比较，采用方法是：MSDTrA，SL和SCL。

表1从单个源领域迁移学习的领域适应精确度(％)

表2从两个源领域迁移学习的领域适应精确度(％)

表3从三个源领域迁移学习的领域适应精确度(％)

表1～3分别给出了单源、双源和三源迁移学习的实验结果，精确度最高的值用黑体字标出，可以看出，表1中最好的分类性能几乎都是SCL算法中产生的，而表2和表3中，几乎都是MSDTrA算法中产生。结果表明，在多源迁移学习问题中，MSDTrA算法可以得到性能更优的分类器。并且，随着源领域数量的增加，MSDTrA算法在交叉领域的精确度有所提高。然而，当源领域的数量从1增加到2时，分类性能的提高更显著，其后再增加源领域个数，效果并不明显。

结合附图6可以看出，由于多个源领域共同参与目标任务的学习，算法的时间复杂度要大于单源领域算法。假设训练一个分类器的复杂度为C_h，更新一个训练样本的复杂度为C_w，则MSDTrA算法的时间复杂度可以近似为C_hO(NM)+C_wO(n_aM)。

由结果可以看出，MSDTrA算法的迁移性能取决于两个因素：源领域的数量以及源领域和目标领域之间的相似度。与SCL和CL方法相比，MSDTrA由于加入多个源领域，算法的计算代价略有增加，但是算法在分类精度上有很大提高并且具有稳定性。

该实例是在以本发明技术方案为前提下进行实施的，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于上述实施例。

Claims

1.一种基于多源领域实例迁移的情感分类方法，其特征是，包括以下步骤：

步骤1.1)，初始化权矢量其中为第k个源领域训练样本的权矢量，为目标领域训练样本的权矢量；

步骤1.3)，清空候选弱分类器集合，将权矢量归一化；

步骤2.2)，计算弱分类器在目标领域D_b上的误差，其计算公式为

其中，表示候选弱分类器分类错误，表示对N个源领域求和；

步骤3.1)，得到第t次迭代的候选分类器其计算公式为

步骤3.4)，计算出动态因子C_t的值，其计算公式为

步骤3.5)，更新源样本权矢量和目标样本权矢量；

步骤4)，经迭代达到最大次数M次后输出最终强分类器

如果没有达到最大迭代次数则重新从矢量归一化开始。

2.根据权利要求1所述一种基于多源领域实例迁移的情感分类方法，其特征是，所述源样本权矢量的更新使用加权多数算法WMA，通过迭代降低错误分类源样本的权重来调整源数据集的权重，并保存正确分类源样本的当前权重值。

3.根据权利要求1所述一种基于多源领域实例迁移的情感分类方法，其特征是，所述步骤3.3)中为了满足的值必须小于0.5，但是为了避免算法停止，当其值超过0.5时，设置

4.根据权利要求1所述一种基于多源领域实例迁移的情感分类方法，其特征是，所述步骤3.4)中动态因子C_t的计算公式的推导方法为：首先令A是第t+1步迭代正确分类目标权重的总和，B是第t+1步迭代错误分类目标权重的总和，其表达式如下：

则算法源权重的值更新为：

在每个WMA迭代中引入动态因子，由于有等式有公式：

进而可以计算出动态因子的值：

。

5.根据权利要求1所述一种基于多源领域实例迁移的情感分类方法，其特征是，所述步骤3.5)中更新源样本权矢量的计算方法为其中源样本权重更新的收敛率由β_a和动态因子C_t计算得到，对于分类正确的源领域样本权重不变，分类错误的样本权重减小，减小分类错误样本的权重表示此样本对目标任务的学习没有帮助，降低此样本对目标学习的影响；更新目标样本权矢量的计算方法为其中i∈D_b，目标样本的权重更新利用的值计算，只需要知道目标误差率的值即可，在每个迁移学习模型中，源样本分布都是相关的，目标样本可以从合并的相关源样本中获得知识。