CN103761311B - 基于多源领域实例迁移的情感分类方法 - Google Patents

基于多源领域实例迁移的情感分类方法 Download PDF

Info

Publication number
CN103761311B
CN103761311B CN201410032866.0A CN201410032866A CN103761311B CN 103761311 B CN103761311 B CN 103761311B CN 201410032866 A CN201410032866 A CN 201410032866A CN 103761311 B CN103761311 B CN 103761311B
Authority
CN
China
Prior art keywords
sample
source
weight
target
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410032866.0A
Other languages
English (en)
Other versions
CN103761311A (zh
Inventor
张倩
李海港
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201410032866.0A priority Critical patent/CN103761311B/zh
Publication of CN103761311A publication Critical patent/CN103761311A/zh
Application granted granted Critical
Publication of CN103761311B publication Critical patent/CN103761311B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于多源领域实例迁移的情感分类方法,针对TrAdaBoost算法在迁移学习中可能出现的迁移效率降低的现象,引入多源学习,通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,来缓解权重不匹配的问题,并且在每一步对数据进行重新采样来改善引用不平衡的现象;针对TrAdaBoost算法中出现的源领域权重过早收敛现象,加入了动态因子,改善权重熵由源样本向目标样本转移的问题。本发明可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快,共同帮助学习目标任务,达到对所有源领域知识的充分利用。

Description

基于多源领域实例迁移的情感分类方法
技术领域
本发明涉及一种基于多源领域实例迁移的情感分类方法。
背景技术
迁移学习根据不同任务间的相似性,将源领域数据向目标领域迁移,实现对已有知识的利用,使传统的从零开始学习变成可积累的学习,并且提高了学习效率,其最大的特点就是利用相关领域的知识来帮助完成目标领域的学习任务。源领域和目标领域中相关知识的表达方式有很多,可分为样本实例、特征映射、模型参数和关联规则,针对不同的知识表达方式选择恰当的迁移学习方法是保障目标领域学习的前提。
对于知识表达为样本实例的研究,重在对源领域中的数据进行加权选择,然后将胜出部分数据用于目标任务的学习过程中。其基本思想是,尽管辅助训练样本和源领域中的训练样本会有些不同,但是辅助训练样本中应该还是会存在一部分比较适合用来训练一个有效的分类模型的样本。假设源领域中存在一部分实例是可以被重新利用的,这些实例可以帮助目标任务的学习。通常,重新利用这一部分实例的方法是对实例权重进行重新加权,权重大的实例对新任务的学习影响相对较大,从而有效促进新任务的学习。
其中最典型的算法当属2007年的会议“24th International Conference onMachine Learning”上发表的文章《Boosting for transfer learning》中提到的TrAdaBoost,该算法利用Boosting技术建立一种自动调整权重的机制。在每一次迭代中,针对源数据和目标数据分别进行不同的权重调整机制:(1)如果一个源样本被错误分类,就降低这个样本的权重。这样,在下一次迭代中,该样本对分类模型的影响就会降低。经过若干轮迭代之后,源数据中与目标数据相似度偏低的数据就会拥有相对更高的权重,而那些与目标数据相似的数据权重将会降低。(2)如果一个目标样本被错误分类,则增加这个样本的权重,用来强调这个样本,使得该样本在下一次迭代中被错分的概率减小。此外,TrAdaBoost方法被扩展为许多迁移学习方法,例如2009年的会议“IEEE InternationalConference on Data Mining Workshops”上发表的文章《Set-based boosting forinstance-level transfer》一文中提到的TransferBoost方法,在可以得到多个源任务的情况下采用推进方法,它可以提升所有源样本矢量,这些样本均来自具有正迁移性的任务中。TransferBoost对计算每个源任务的整体迁移,作为仅含目标的任务和加入源任务的目标任务之间误差的不同。2010年的会议“International Workshop on Handling ConceptDrift in Adaptive Information Systems”上发表的文章《Cost-sensitive boostingfor concept drift》中提到的概念漂移,利用AdaCost,则固定代价成为源矢量更新的一部分。利用可能性估计作为测量源分布和目标分布相关性的方法,这个代价能预先计算得到。另外,中国专利说明书CN201110452050.X公开的非平衡样本分类的集成迁移学习方法,利用已有旧数据的分类规律找出近似分布的新数据的分类规律,尤其是针对分类不平衡数据的分类问题提供了新的方法,保证了分类中数量少的负样本在分类训练中的作用。
TrAdaBoost是第一种使用Boosting作为归纳迁移学习器的迁移学习方法,应用非常广泛。但它也有一些缺点,例如权重不匹配,当源样本的规模比目标样本的规模大得多时,则需要经过多次迭代,才能使目标样本的总体权重接近于源样本的总体权重;引用不平衡,TrAdaBoost方法有时得出的最终分类器总是对所有的样本给出同一个预测标记,这实质上是由于没有平衡不同等级之间的权重造成的;源领域权重的下降速度过快,这是TrAdaBoost方法最严重的问题,在TrAdaBoost方法重新确定权重的策略中,源样本和目标样本的权重的差异性逐渐增加,并且在随后的迭代中,即使源样本变得对目标领域学习有利,其权重也没有办法恢复。TransferBoost方法假设源训练数据来自不同的源领域,在每次迭代中,选择与目标领域最相关的源领域训练弱分类器,最后得到强分类器。这种方法可以保证迁移的知识与目标任务最相关,但它却忽略了其他源任务对目标任务学习的影响。概念漂移方法中,由于这种更新源权重的方法利用了TrAdaBoost的更新机制,它也同样产生了一个冲突,和目标任务不相关的源任务会引起负迁移,它的样本权重会以固定的或者动态变化的比率在TrAdaBoost更新机制中变得越来越少,即使TrAdaBoost只增加错误分类样本的权重,这个更新机制也同时增加这些相同的权重。
发明内容
本发明的目的是提供一种基于多源领域实例迁移的情感分类方法,针对TrAdaBoost算法在迁移学习中可能出现的迁移效率降低的现象,引入多源学习,通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,来缓解权重不匹配的问题,并且在每一步对数据进行重新采样来改善引用不平衡的现象;针对TrAdaBoost算法中出现的源领域权重过早收敛现象,加入了动态因子,改善权重熵由源样本向目标样本转移的问题。本发明可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快,共同帮助学习目标任务,达到对所有源领域知识的充分利用。
本发明是通过以下技术方案实现的:一种基于多源领域实例迁移的情感分类方法,包括以下步骤:
步骤1),引入多源学习,通过从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,缓解权重不匹配的问题,并且在每一步对数据进行重新采样改善引用不平衡的现象;
步骤1.1),初始化权矢量其中为第k个源领域训练样本的权重矢量,为目标领域训练样本的权重矢量;
步骤1.2),从第一次迭代开始,计算源领域训练样本总权重,设其中为全部源领域训练样本个数,为第k个源领域训练集包含样本数量;
步骤1.3),清空候选弱分类器集合,将权矢量归一化;
步骤2),调用基分类器在每一个训练集训练得到一个弱分类器,将所有弱分类器组成弱分类器集,分别计算每个弱分类器在目标训练集上的误差,根据测试误差对每个弱分类器加相应的权重,由于正确率高的分类器对应的源领域包含对目标任务有用的信息多,对目标任务的学习帮助大,所以误差大的分类器设置权重小,误差小的分类器设置权重大;
步骤2.1),调用基分类器在每一个源训练集训练得到一个弱分类器
步骤2.2),计算弱分类器在目标领域Db上的误差,其计算公式为其中,表示候选弱分类器分类错误,表示对N个源领域求和;
步骤2.3),根据弱分类器在目标领域Db上的误差大小更新弱分类器的权重,其计算公式为循环往复,直到遍历N个源领域;
步骤3),将加权后的弱分类器集成得到当前第t次迭代的候选分类器然后计算候选分类器在目标训练集和不同源领域训练集上的误差,并加入动态因子Ct,更新源领域样本的权重,对于分类正确的源领域样本权重不变,分类错误的源样本权重减小,减小分类错误样本的权重表示此样本对目标任务的学习没有帮助,降低此样本对目标学习的影响;
步骤3.1),得到第t次迭代的候选分类器其计算公式为
步骤3.2),计算候选分类器在目标领域Db上的误差率其计算公式为
步骤3.3),计算分类器的权重其计算公式为其中的大小为 越小,则目标分类误差越小,表明与目标领域的相关度越高,将多次迭代的基分类器组合成目标分类器,源领域中的有用知识就会逐渐迁移到目标领域中;
步骤3.4),计算出动态因子Ct的值,其计算公式为
步骤3.5),更新源样本权矢量和目标样本权矢量;
步骤4),经迭代达到最大次数M次后输出最终强分类器如果没有达到最大迭代次数则重新从矢量归一化开始。
本发明中源样本权矢量的更新使用加权多数算法WMA,通过迭代降低错误分类源样本的权重来调整源数据集的权重,并保存正确分类源样本的当前权重值。
所述步骤3.3)中为了满足 的值必须小于0.5,但是,为了避免算法停止,当其值超过0.5时,设置
所述步骤3.4)中动态因子Ct的计算公式的推导方法为:首先令A是第t+1步迭代正确分类目标权重的总和,B是第t+1步迭代错误分类目标权重的总和,其表达式如下:
则算法源权重的值更新为:
ω a k t + 1 = ω a k t n a · ω a k t + A + B = ω a k t n a · ω a k t + 2 · n b · ω b t ( 1 - ϵ b t )
在每个WMA迭代中引入动态因子,由于有等式有公式:
ω a k t = C t · ω a k t C t · n a · ω a k t + 2 · n b · ω b t ( 1 - ϵ b t )
进而可以计算出动态因子的值:
C t = 2 · n b · ω b t ( 1 - ϵ b t ) 1 - n a · ω a k t = 2 · n b · ω b t ( 1 - ϵ b t ) n b · ω b t = 2 ( 1 - ϵ b t )
所述步骤3.5)中更新源样本权矢量的计算方法为其中源样本权重更新的收敛率由βa和动态因子Ct计算得到,对于分类正确的源领域样本权重不变,分类错误的样本权重减小,减小分类错误样本的权重表示此样本对目标任务的学习没有帮助,降低此样本对目标学习的影响;更新目标样本权矢量的计算方法为其中i∈Db,目标样本的权重更新利用的值计算,只需要知道目标误差率的值即可,在每个迁移学习模型中,源样本分布都是相关的,目标样本可以从合并的相关源样本中获得知识。
本发明的有益效果是:一种基于多源领域实例迁移的情感分类方法,针对TrAdaBoost算法在迁移学习中可能出现的迁移效率降低的现象,引入多源学习,通过尝试从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,来缓解权重不匹配的问题,并且在每一步对数据进行重新采样来改善引用不平衡的现象;针对TrAdaBoost算法中出现的源领域权重过早收敛现象,加入了动态因子,改善权重熵由源样本向目标样本转移的问题。本发明可以使得与目标领域相关性不大的源领域样本的权重不至于收敛过快,共同帮助学习目标任务,达到对所有源领域知识的充分利用。
附图说明
附图1是一种基于多源领域实例迁移的情感分类方法的流程图。
附图2是图2目标领域是B的分类性能。
附图3目标领域是D的分类性能。
附图4目标领域是E的分类性能。
附图5目标领域是K的分类性能。
附图6不同算法的时间代价比较。
下面结合附图及实施例对本发明作进一步说明。
具体实施方式
结合附图1可以看出,一种基于多源领域实例迁移的情感分类方法,包括以下步骤:
步骤1),引入多源学习,通过从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,缓解权重不匹配的问题,并且在每一步对数据进行重新采样改善引用不平衡的现象;
步骤1.1),初始化权矢量其中为第k个源领域训练样本的权重矢量,为目标领域训练样本的权重矢量;
步骤1.2),从第一次迭代开始,计算源领域训练样本总权重,设其中为全部源领域训练样本个数,为第k个源领域训练集包含样本数量;
步骤1.3),清空候选弱分类器集合,将权矢量归一化;
步骤2),调用基分类器在每一个训练集训练得到一个弱分类器,将所有弱分类器组成弱分类器集,分别计算每个弱分类器在目标训练集上的误差,根据测试误差对每个弱分类器加相应的权重,由于正确率高的分类器对应的源领域包含对目标任务有用的信息多,对目标任务的学习帮助大,所以误差大的分类器设置权重小,误差小的分类器设置权重大;
步骤2.1),调用基分类器在每一个源训练集训练得到一个弱分类器
步骤2.2),计算弱分类器在目标领域Db上的误差,其计算公式为其中,表示候选弱分类器分类错误,表示对N个源领域求和;
步骤2.3),根据弱分类器在目标领域Db上的误差大小更新弱分类器的权重,其计算公式为循环往复,直到遍历N个源领域;
步骤3),将加权后的弱分类器集成得到当前第t次迭代的候选分类器然后计算候选分类器在目标训练集和不同源领域训练集上的误差,并加入动态因子Ct,更新源领域样本的权重,对于分类正确的源领域样本权重不变,分类错误的源样本权重减小,减小分类错误样本的权重表示此样本对目标任务的学习没有帮助,降低此样本对目标学习的影响;
步骤3.1),得到第t次迭代的候选分类器其计算公式为
步骤3.2),计算候选分类器在目标领域Db上的误差率其计算公式为
步骤3.3),计算分类器的权重其计算公式为其中的大小为 越小,则目标分类误差越小,表明与目标领域的相关度越高,将多次迭代的基分类器组合成目标分类器,源领域中的有用知识就会逐渐迁移到目标领域中,为了满足 的值必须小于0.5,但是,为了避免算法停止,当其值超过0.5时,设置
步骤3.4),计算出动态因子Ct的值,其计算公式为动态因子Ct的计算公式的推导方法为:首先令A是第t+1步迭代正确分类目标权重的总和,B是第t+1步迭代错误分类目标权重的总和,其表达式如下:
则算法源权重的值更新为:
ω a k t + 1 = ω a k t n a · ω a k t + A + B = ω a k t n a · ω a k t + 2 · n b · ω b t ( 1 - ϵ b t )
在每个WMA迭代中引入动态因子,由于有等式有公式:
ω a k t = C t · ω a k t C t · n a · ω a k t + 2 · n b · ω b t ( 1 - ϵ b t )
进而可以计算出动态因子的值:
C t = 2 · n b · ω b t ( 1 - ϵ b t ) 1 - n a · ω a k t = 2 · n b · ω b t ( 1 - ϵ b t ) n b · ω b t = 2 ( 1 - ϵ b t )
步骤3.5),更新源样本权矢量和目标样本权矢量,更新源样本权矢量的计算方法为其中源样本权重更新的收敛率由βa和动态因子Ct计算得到,对于分类正确的源领域样本权重不变,分类错误的样本权重减小,减小分类错误样本的权重表示此样本对目标任务的学习没有帮助,降低此样本对目标学习的影响;更新目标样本权矢量的计算方法为其中i∈Db,目标样本的权重更新利用的值计算,只需要知道目标误差率的值即可,在每个迁移学习模型中,源样本分布都是相关的,目标样本可以从合并的相关源样本中获得知识;
步骤4),经迭代达到最大次数M次后输出最终强分类器如果没有达到最大迭代次数则重新从矢量归一化开始。
本发明的效果可以通过以下对情感偏好数据集分类进一步说明:
1.实验设置
选择情感偏好数据集中每个情感偏好文件都与用户在亚马逊网站上产品的评价有关,这个情感数据包含Books,DVD,Electronics,Kitchen这4个物品的评价。每个领域的正面评价和负面评价各有1000条,在实验中,每个标记数据集被分为1600个训练样本和400个测试样本,考虑不同数量的源领域来完成迁移学习。分别用B,D,E,K来表示4个领域,在第1种设置中,从3个源领域迁移到余下一个目标领域,这样可以获得4种可能的组成{B,D,E→K},{B,D,K→E},{B,E,K→D},{D,E,K→B}。在第2种设置中,考虑两个源领域情况,如果目标领域是K,则源领域的组成有3种可能性,即{B,D},{B,E}和{D,E}。因此,在有两个源领域的情况下,对于4个种类的多源迁移问题就有4种子任务。最后1种设置,从一个源领域迁移到其他3个目标领域。
2.结果与分析
图2-5描述了本发明所述的基于多源领域实例迁移的情感分类方法,即MSDTrA算法在4种多源迁移学习的实验结果,分别考虑不同的目标领域。MSDTrA是个迭代算法,弱分类器在每一步都起作用。总体而言,迁移学习的精确度在迭代初始就有显著提高,如果有充足的特征可以利用,分类精确度提高较慢并趋于稳定。从实验结果中可以看出,经过若干次迭代之后,几种迁移的精确度相当,并且趋于稳定。因此,为了达到快速实验的目的,在迭代1000步的时候终止算法。
既然MSDTrA算法考虑了多个源领域,可以得到更多的显著特征,进而可以将分类器用于一个新的领域中未知的样本。需要注意的是,MSDTrA算法中,含有3个源领域的迁移效果比两个源领域的迁移效果更好。如果有更多的源领域可以利用,MSDTrA算法可以利用更多的有用信息,得到的分类器在目标领域将会产生更好的分类效果。然而,分类精确度不仅仅取决于源领域的数量,同时也取决于源领域和目标领域的分布相似程度。例如,图2中,虽然D+E→B采用了较多的源领域,但它的分类精确度依旧不及K→B。因此,可以得知,MSDTrA算法的迁移性能取决于两个因素:源领域的数量以及源领域和目标领域之间的相似度。
表1~3分别列出了3种学习算法在4个不同的源领域迁移学习的分类性能比较,采用方法是:MSDTrA,SL和SCL。
表1从单个源领域迁移学习的领域适应精确度(%)
表2从两个源领域迁移学习的领域适应精确度(%)
表3从三个源领域迁移学习的领域适应精确度(%)
表1~3分别给出了单源、双源和三源迁移学习的实验结果,精确度最高的值用黑体字标出,可以看出,表1中最好的分类性能几乎都是SCL算法中产生的,而表2和表3中,几乎都是MSDTrA算法中产生。结果表明,在多源迁移学习问题中,MSDTrA算法可以得到性能更优的分类器。并且,随着源领域数量的增加,MSDTrA算法在交叉领域的精确度有所提高。然而,当源领域的数量从1增加到2时,分类性能的提高更显著,其后再增加源领域个数,效果并不明显。
结合附图6可以看出,由于多个源领域共同参与目标任务的学习,算法的时间复杂度要大于单源领域算法。假设训练一个分类器的复杂度为Ch,更新一个训练样本的复杂度为Cw,则MSDTrA算法的时间复杂度可以近似为ChO(NM)+CwO(naM)。
由结果可以看出,MSDTrA算法的迁移性能取决于两个因素:源领域的数量以及源领域和目标领域之间的相似度。与SCL和CL方法相比,MSDTrA由于加入多个源领域,算法的计算代价略有增加,但是算法在分类精度上有很大提高并且具有稳定性。
该实例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于上述实施例。

Claims (5)

1.一种基于多源领域实例迁移的情感分类方法,其特征是,包括以下步骤:
步骤1),引入多源学习,通过从不同的源领域中迁移样本或是结合多个源领域的特点,使得迁移学习更加稳定且有效,给目标样本分配较多的初始权重,缓解权重不匹配的问题,并且在每一步对数据进行重新采样改善引用不平衡的现象;
步骤1.1),初始化权矢量其中为第k个源领域训练样本的权矢量,为目标领域训练样本的权矢量;
步骤1.2),从第一次迭代开始,计算源领域训练样本总权重,设其中为全部源领域训练样本个数,为第k个源领域训练集包含样本数量;
步骤1.3),清空候选弱分类器集合,将权矢量归一化;
步骤2),调用基分类器在每一个训练集训练得到一个弱分类器,将所有弱分类器组成弱分类器集,分别计算每个弱分类器在目标训练集上的误差,根据测试误差对每个弱分类器加相应的权重,由于正确率高的分类器对应的源领域包含对目标任务有用的信息多,对目标任务的学习帮助大,所以误差大的分类器设置权重小,误差小的分类器设置权重大;
步骤2.1),调用基分类器在每一个源训练集训练得到一个弱分类器
步骤2.2),计算弱分类器在目标领域Db上的误差,其计算公式为
其中,表示候选弱分类器分类错误,表示对N个源领域求和;
步骤2.3),根据弱分类器在目标领域Db上的误差大小更新弱分类器的权重,其计算公式为循环往复,直到遍历N个源领域;
步骤3),将加权后的弱分类器集成得到当前第t次迭代的候选分类器然后计算候选分类器在目标训练集和不同源领域训练集上的误差,并加入动态因子Ct,更新源领域样本的权重,对于分类正确的源领域样本权重不变,分类错误的源样本权重减小,减小分类错误样本的权重表示此样本对目标任务的学习没有帮助,降低此样本对目标学习的影响;
步骤3.1),得到第t次迭代的候选分类器其计算公式为
步骤3.2),计算候选分类器在目标领域Db上的误差率其计算公式为
步骤3.3),计算分类器的权重其计算公式为其中的大小为 越小,则目标分类误差越小,表明与目标领域的相关度越高,将多次迭代的基分类器组合成目标分类器,源领域中的有用知识就会逐渐迁移到目标领域中;
步骤3.4),计算出动态因子Ct的值,其计算公式为
步骤3.5),更新源样本权矢量和目标样本权矢量;
步骤4),经迭代达到最大次数M次后输出最终强分类器
如果没有达到最大迭代次数则重新从矢量归一化开始。
2.根据权利要求1所述一种基于多源领域实例迁移的情感分类方法,其特征是,所述源样本权矢量的更新使用加权多数算法WMA,通过迭代降低错误分类源样本的权重来调整源数据集的权重,并保存正确分类源样本的当前权重值。
3.根据权利要求1所述一种基于多源领域实例迁移的情感分类方法,其特征是,所述步骤3.3)中为了满足 的值必须小于0.5,但是为了避免算法停止,当其值超过0.5时,设置
4.根据权利要求1所述一种基于多源领域实例迁移的情感分类方法,其特征是,所述步骤3.4)中动态因子Ct的计算公式的推导方法为:首先令A是第t+1步迭代正确分类目标权重的总和,B是第t+1步迭代错误分类目标权重的总和,其表达式如下:
则算法源权重的值更新为:
在每个WMA迭代中引入动态因子,由于有等式有公式:
进而可以计算出动态因子的值:
5.根据权利要求1所述一种基于多源领域实例迁移的情感分类方法,其特征是,所述步骤3.5)中更新源样本权矢量的计算方法为其中 源样本权重更新的收敛率由βa和动态因子Ct计算得到,对于分类正确的源领域样本权重不变,分类错误的样本权重减小,减小分类错误样本的权重表示此样本对目标任务的学习没有帮助,降低此样本对目标学习的影响;更新目标样本权矢量的计算方法为其中i∈Db,目标样本的权重更新利用的值计算,只需要知道目标误差率的值即可,在每个迁移学习模型中,源样本分布都是相关的,目标样本可以从合并的相关源样本中获得知识。
CN201410032866.0A 2014-01-23 2014-01-23 基于多源领域实例迁移的情感分类方法 Expired - Fee Related CN103761311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410032866.0A CN103761311B (zh) 2014-01-23 2014-01-23 基于多源领域实例迁移的情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410032866.0A CN103761311B (zh) 2014-01-23 2014-01-23 基于多源领域实例迁移的情感分类方法

Publications (2)

Publication Number Publication Date
CN103761311A CN103761311A (zh) 2014-04-30
CN103761311B true CN103761311B (zh) 2016-11-02

Family

ID=50528548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410032866.0A Expired - Fee Related CN103761311B (zh) 2014-01-23 2014-01-23 基于多源领域实例迁移的情感分类方法

Country Status (1)

Country Link
CN (1) CN103761311B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095277B (zh) * 2014-05-13 2019-12-03 中国科学院自动化研究所 跨领域观点数据的分类方法和装置
CN104361396A (zh) * 2014-12-01 2015-02-18 中国矿业大学 基于马尔可夫逻辑网的关联规则迁移学习方法
CN104462409B (zh) * 2014-12-12 2017-08-25 重庆理工大学 基于AdaBoost的跨语言情感资源数据识别方法
CN106603546B (zh) * 2016-12-22 2020-07-28 北京邮电大学 物联网入侵监测方法及装置
CN106934462A (zh) * 2017-02-09 2017-07-07 华南理工大学 基于迁移的对抗性环境下的防御毒化攻击的学习方法
CN106971200A (zh) * 2017-03-13 2017-07-21 天津大学 一种基于自适应迁移学习的图像记忆度预测方法
CN107644057B (zh) * 2017-08-09 2020-03-03 天津大学 一种基于迁移学习的绝对不平衡文本分类方法
CN108664589B (zh) * 2018-05-08 2022-03-15 苏州大学 基于领域自适应的文本信息提取方法、装置、系统及介质
CN108958474A (zh) * 2018-05-29 2018-12-07 西北工业大学 一种基于误差权重的动作识别多传感信息融合方法
CN109726738A (zh) * 2018-11-30 2019-05-07 济南大学 基于迁移学习与属性熵加权模糊聚类的数据分类方法
CN109934248B (zh) * 2018-12-11 2023-05-19 广州中医药大学(广州中医药研究院) 一种针对迁移学习的多模型随机生成与动态自适应组合方法
CN110009038B (zh) * 2019-04-04 2022-02-22 北京百度网讯科技有限公司 筛查模型的训练方法、装置及存储介质
CN110378872A (zh) * 2019-06-10 2019-10-25 河海大学 一种面向裂缝图像检测的多源自适应平衡迁移学习方法
CN110674849B (zh) * 2019-09-02 2021-06-18 昆明理工大学 基于多源域集成迁移的跨领域情感分类方法
CN110990384B (zh) * 2019-11-04 2023-08-22 武汉中卫慧通科技有限公司 一种大数据平台bi分析方法
CN111610768B (zh) * 2020-06-10 2021-03-19 中国矿业大学 基于相似度多源域迁移学习策略的间歇过程质量预测方法
CN113610176A (zh) * 2021-08-16 2021-11-05 上海冰鉴信息科技有限公司 跨场景迁移分类模型形成方法、装置及可读存储介质
CN116257623B (zh) * 2022-09-07 2023-11-28 中债金科信息技术有限公司 文本情感分类模型训练方法、文本情感分类方法及设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Decision-Theoretic Generalization of On-Line learning and an Application to Boosting;Yoav Freund,Robert E.Schapire;《Journal of Computer and System Sciences》;19971231;第55卷(第1期);119-139 *
Boosting for tranfer learning with multiple sources;Yi Yao,Gianfranco Doretto;《Computer Vision and Pattern Recognition,2010 IEEE Conference on》;20100618;第2010年卷;1855-1862 *
Boosting for transfer Learning;Wenyuan Dai,Qiang Yang,Gui-Rong Xue,Yong Yu;《Proceedings of the 24th International Conference on Maching Learning》;20071231;第2007年卷;193-200 *
Set-Based Boosting for Instance-level Transfer;Eric Eaton,Marie desJardins;《Proceedings of the 2009 IEEE International Conference on Data Mining Workshops》;20091231;第2009年卷;422-428 *
强化学习中的迁移:方法和进展;王皓,高阳,陈兴国;《电子学报》;20081231;第36卷(第12A期);39-43 *

Also Published As

Publication number Publication date
CN103761311A (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
CN103761311B (zh) 基于多源领域实例迁移的情感分类方法
CN109816092B (zh) 深度神经网络训练方法、装置、电子设备及存储介质
Li et al. Universal representation learning from multiple domains for few-shot classification
CN103886330B (zh) 基于半监督svm集成学习的分类方法
Socarrás et al. Adapting pedestrian detection from synthetic to far infrared images
CN108090510A (zh) 一种基于间隔优化的集成学习方法及装置
CN107122352A (zh) 一种基于k‑means、word2vec的抽取关键词的方法
CN105005565B (zh) 现场鞋底痕迹花纹图像检索方法
CN104794455B (zh) 一种东巴象形文字识别方法
CN105740404A (zh) 标签关联方法及装置
CN104809476B (zh) 一种基于分解的多目标进化模糊规则分类方法
CN102054170B (zh) 基于极小化上界误差的视觉跟踪方法
CN103745233B (zh) 基于空间信息迁移的高光谱图像分类方法
CN106257488B (zh) 一种基于邻域特征空间鉴别分析的雷达目标识别方法
CN106909972A (zh) 一种传感器数据校准模型的学习方法
CN106980876A (zh) 一种基于鉴别性样本属性学习的零样本图像识别方法
CN106649662A (zh) 一种领域词典的构建方法
CN109299263A (zh) 文本分类方法、电子设备及计算机程序产品
CN110110035A (zh) 数据处理方法和装置以及计算机可读存储介质
CN109272056A (zh) 基于伪负样本的数据平衡方法及提高数据分类性能的方法
CN111160538B (zh) 一种损失函数中margin参数值的更新方法和系统
CN113191359B (zh) 基于支持与查询样本的小样本目标检测方法与系统
CN107169520A (zh) 一种大数据缺失属性补全方法
CN109409231A (zh) 基于自适应隐马尔可夫的多特征融合手语识别方法
CN108268458B (zh) 一种基于knn算法的半结构化数据分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161102

Termination date: 20180123

CF01 Termination of patent right due to non-payment of annual fee