CN108460134A - 基于多源域集成迁移学习的文本主题分类模型及分类方法 - Google Patents

基于多源域集成迁移学习的文本主题分类模型及分类方法 Download PDF

Info

Publication number
CN108460134A
CN108460134A CN201810181122.3A CN201810181122A CN108460134A CN 108460134 A CN108460134 A CN 108460134A CN 201810181122 A CN201810181122 A CN 201810181122A CN 108460134 A CN108460134 A CN 108460134A
Authority
CN
China
Prior art keywords
data
source domain
graders
label
softmax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810181122.3A
Other languages
English (en)
Inventor
杨云
李燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201810181122.3A priority Critical patent/CN108460134A/zh
Publication of CN108460134A publication Critical patent/CN108460134A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于多源域集成迁移学习的文本主题分类模型,由目标域数据模块、加标签模块、多源域标签判定的集成学习模块和正确数据模块组成。基于多源域集成迁移学习的文本主题分类模型的分类方法,首先对无类标数据用加标签模块进行分类;随后对带有标签的数据进行判定,选出三个分类器都分类正确的数据将其加入到目标域数据模块,将三个分类器都进行分类得到不同类型文本主题的带有伪标签的数据,选用一种类型的文本主题作为目标域数据,其他类型的文本主题作为源域数据加入到目标域数据中,并用Softmax分类器测试正确率。有效的避免了单源域迁移带来的负迁移现象,数据的组成来自于目标域的各个方面,能够更好的满足了数据的平衡。

Description

基于多源域集成迁移学习的文本主题分类模型及分类方法
技术领域
本发明属于多源域学习技术领域,涉及一种基于多源域集成迁移学习的文本主题分类模型及分类方法。
背景技术
多源域迁移学习是机器学习的一个非常活跃的应用研究方向,其目的就是在目标域和多个源域中找到相关性强的数据,将多源域中相关性强的这些数据迁移到目标域中帮助目标域样本数据训练出一个“好”的分类器,而不同源域的数据样本和目标域的数据样本具有不同的相似性,从而,多源域的迁移会导致负迁移现象的产生。根据得到的其他相关领域的有标记的数据,可以找到相关领域和研究领域也就是目标领域的某方面的相关性。把已有的分类结果,那些带有伪标签的数据运用到未知的领域中去。例如:对音乐歌曲的分类评价,分析这些评价中的一些喜欢和厌恶,将其运用到对读物的喜欢和厌恶,即使对读物的分类没有收集整理,也能够将对音乐的分类标准迁移到读物领域中去,避免了花费巨大的代价对一个新领域重新分配资源去搜集去标记;对报纸杂志上的文章描述主题的分类,文章主题有不同的分类,可以对于已经有的分类进行整理,借鉴与此,可以推出新的分类类型等。
由于此项研究领域具有较高的理论研究与实际应用价值,国内外许多研究者提出了较多针对多源域迁移学习的分类技术,大致包含两个方面的工作:对源域数据进行预测标签和判断迁移能力的强弱。首先,要对几个相关源域的无类标数据进行预测,如何标记出更多与真实情况接近的数据样本;其次,在多个源域中做集成分析,找出更适合做实例样本迁移的数据。
尽管研究人员在此研究领域上已经取得了一些成果,但由于迁移学习的复杂性,现有迁移学习模型具有以下缺点:(1)目标域数据过少,需要找到原域数据进行实例迁移,而能够对目标域数据进行辅助的源域数据比较单一,容易造成数据分布与目标域数据分布不相同,从而造成负迁移现象;(2)对于源域的数据样本要求比较高,需要带有标签,但实际问题上,更多的源域数据是没有标签的;(3)继续发展目标域数据,标记目标域中无类标数据需要大量的人工和专家知识,需要耗费大量的资源,而且所标记的数据类标的正确与否无法判断;(4)加入目标域的源域带伪类标数据正确率无法判断,用目标域的数据太少不足以训练出一个好的分类器,而带有伪类标的数据也是通过这一个分类效果不好的分类器添加的,效果比较差,如果要是能够训练出多个分类器,其中一个给无类标源域数据加上伪类标,利用集成学习的思想,然后用其他的分类器做测试,判断带有伪类标的正确性,选出分类器分类正确的带有伪类标的源域数据,认为是迁移能力较强的数据,加入到目标域中,进行迁移,以得到更好的分类效果;(5)利用数据不充分,大部分的迁移学习都是利用单个源域进行迁移,此种方式并不理想,数据分布的不同容易造成负迁移现象,即不但没有帮助目标域数据训练出“好”的分类器,反而影响了分类器的分类效果,大部分的迁移学习采用了赋予权重的大小来改变实例对于迁移学习的影响,在这种情况下,实验会出现超重现象,导致过度拟合。总的来说,现有的迁移学习模型,迁移不当会出现负迁移的状态,而且没有帮助目标域数据训练出一个分类效果好的分类器,还抑制了分类器的正常分类,使得现有的迁移学习并不成熟。
所以部分研究人员尝试引入多源域迁移学习,用以进一步提高加入目标域数据的源域数据的正确率。集成学习的目的就是通过集成多个互补的分类器的分类正确率以得到一些高可靠性的带有伪类标的源域数据,旨在筛选出更加接近目标域且带有伪类标的数据,比单个分类器给源域无类标数据加上一个无法判断标签的正确与否的伪类标的效果要好。
发明内容
为实现上述目的,本发明提供一种基于多源域集成迁移学习的文本主题分类模型及分类方法,解决了现有技术中迁移不当会出现负迁移的状态,不但没有帮助目标域数据训练出一个分类效果好的分类器,还抑制了分类器的正常分类存在的问题。
本发明所采用的技术方案是,基于多源域集成迁移学习的文本主题分类模型,由目标域数据模块、加标签模块、多源域标签判定的集成学习模块和正确数据模块组成;
所述目标域数据模块用于将带标签的样本数据和未带标签的样本数据加入到训练模型的行列,带标签的样本数据用来训练Softmax分类器,未带标签的目标域样本数据加入到训练模型的行列以训练好的Softmax分类器;
所述加标签模块用带标签的样本数据训练出来的Softmax分类器对来自源域的无标签样本数据进行预测标记。
所述多源域标签判定的集成学习模块用NN分类器和CNN分类器对带有伪标签的源域数据和Softmax分类器预测的数据做一个判断,选出三个分类器都分类正确的数据,将其分类为正确的数据样本;
所述正确数据模块用于每次训练分类器,让每次用在模型训练上的数据都在递增,使未带类标的数据加上的伪类标越来越接近真实情况。
本发明所采用的另一种技术方案是,基于多源域集成迁移学习的文本主题分类模型的分类方法,具体按照以下步骤进行:
步骤一、选定目标域数据模块中的带标签的数据,训练出Softmax分类器,Softmax分类器对来自源域的无标签样本数据进行预测标记;
步骤二、NN分类器和CNN分类器对带有伪标签的源域数据和Softmax分类器预测的数据进行判定;选出三个分类器都分类正确的数据,将其分类为正确的数据样本,将其加入到目标域数据中去,把每一轮筛选得到的迁移能力强的数据加入到目标域数据模块中去,参与到下一次的模型训练中去,让每次用在模型训练上的数据都在递增,使未带类标的数据加上的伪类标越来越接近真实情况;
步骤三、将三个分类器都进行分类得到不同类型文本主题的带有伪标签的数据,选用一种类型的文本主题作为目标域数据,其他类型的文本主题作为源域数据加入到目标域数据中,并用Softmax分类器测试正确率。
进一步的,所述步骤三加入的源域数据为剩余不同类型的单一文本主题数据或剩余几种不同类型文本主题数据的任意组合。
本发明与一般的多源域迁移学习相比,具有以下有益效果:(1)基于多源域集成迁移学习具有更高的精确度;(2)基于多源域集成迁移学习能够迁移多方面的知识;(3)基于多源域集成迁移学习能够对嘈杂的复杂环境进行变化采样,具有较强的抗干扰能力,通过多个源域的实例迁移来避免负迁移现象的产生;(4)通过使用多个源域的数据,来帮助目标域的数据获得更多更相近的有标记数据;(5)通过引入新研发的集成学习技术,使得添加到目标域数据中的带有伪类标的数据与目标域数据有更强的相关性;(6)用户不需要去花费很大的代价去标记目标域数据,在相关性强的领域中找到合适的带有伪类标数据,将其迁移,使得目标域有类标数据变多,训练出一个好的分类器。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于多源域集成迁移学习的文本主题分类模型图;
图2是具有隐含层的神经网络图;
图3是20newsgroup数据集的正确率。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于多源域集成迁移学习的文本主题分类模型,由目标域数据模块、加标签模块、多源域标签判定的集成学习模块和正确数据模块组成,如图1所示;
目标域数据模块:用于将带标签的样本数据和未带标签的样本数据加入到训练模型的行列,带标签的样本数据用来训练Softmax分类器,未带标签的目标域样本数据加入到训练模型的行列以训练好的Softmax分类器;
加标签模块:用带标签的样本数据训练出来的Softmax分类器对来自源域的无标签样本数据进行预测标记;
多源域标签判定的集成学习模块:用NN分类器和CNN分类器对带有伪标签的源域数据和Softmax分类器预测的数据做一个判断,选出三个分类器都分类正确的数据,将其分类为正确的数据样本;
正确数据模块:用于每次训练分类器,让每次用在模型训练上的数据都在递增,使未带类标的数据加上的伪类标越来越接近真实情况。
目标域数据模块由带标签的样本数据和未带标签的样本数据组成,在保证目标域数据充分利用的前提下,源域样本数据的情况分为两种:一种是能够直接使用的带标签的样本数据,另一种是没有带标签的样本数据,未带标签的样本数据其数据分布和目标域数据分布是非常接近的乃至完全相同的;实际情况中,常遇到的是第二种情况,没有标签的源域数据。运用半监督的思想,利用有类标数据学习得到的模型去预测无类标数据的标签。用Softmax分类器对多个源域的无类标数据样本进行预测,用Softmax分类器预测的标签暂且认为是正确的标签,从而避免由于源域数据样本的错误标签引起的负迁移现象。
用Softmax分类器进行预测的数据和带有伪标签的源域数据是最接近真实情况的,用NN分类器和CNN分类器进行集成测试,选出三个分类器分类均正确的样本数据,将其加入到正确数据模块中去。
一种基于多源域集成迁移学习的文本主题分类模型的分类方法应用一种基于多源域集成迁移学习的文本主题分类模型,具体按照以下步骤进行:
步骤一、选定目标域数据模块中的带标签的数据,训练出Softmax分类器,Softmax分类器对来自源域的无标签样本数据进行预测标记即加标签,Softmax分类器被用于逻辑回归多分类,每个独立的Softmax分类器是解决二分类问题,当Softmax分类器数量增加,解决的是不同的二分类问题的时候,就变成了多分类问题。需要将有标签数据的实数向量z映射为中间量,然后还需要将中间量映射到概率域,继而使用交叉熵损失(cross-entropyloss);
输入的实数向量z映射为中间量,然后将中间量映射到概率域,Softmax分类器是从Softmax函数中得来的,Softmax函数是一个归一化的指数函数,以保证指数域的和为1,Softmax函数的输入值是一个实数向量z,然后在指数域进行归一化映射,所得结果为概率,Softmax函数的输出数据值是0到1之间。Softmax函数的结果,绝对值的大小表征属于输入数据实数向量z的概率。Softmax函数的本质就是将一个多维的任意实数向量映射成另一个多维的实数向量,其中向量中的每个元素取值都介于(0,1)之间,该取值即为映射后的向量取值。
而Softmax函数把一个k维的任意实数向量z(z1,z2,z3,z4….zk)映射成另一个k维的实数向量b(b1,b2,b3,b4….bk),其中向量b中的每个元素取值即概率都介于(0,1)之间,在分类中,k维即代表k个类别,向量b即为训练集中的k个类标,然后根据bj的大小来进行多分类的任务,算出每一类别中的数值大小,数值大的就属于该类别,Softmax函数如式(1)所示:
bj为第j个类标的概率值,zj为第j个实数向量即第j个样本数据,j=1,2,3……k。
Softmax分类器使用交叉熵作为损失函数,用以避免训练过程太慢,进而得到通过Softmax分类器对源域的无标签样本数据进行预测标记的样本,交叉熵损失函数如式(2)所示:
J(θ)为交叉熵损失函数,θ为Softmax分类器参数,zj表示第j个样本数据,bj为第j个类标的概率值,hθ(zj)为第j个预测类标的概率值,j=1,2,3……k。
步骤二、NN分类器和CNN分类器对带有伪标签的源域数据和Softmax分类器预测的数据进行判定:用Softmax分类器给源域数据加上的伪类标筛选出迁移能力强的数据模块后,使用集成学习的思想,对带有伪标签的源域数据进行筛选判定。用Softmax分类器给源域数据加上伪类标后,再用少量带标签的目标域数据训练得到的其余两个分类器:NN分类器和CNN分类器,选出三个分类器分类均正确的样本数据,将其加入到目标域数据中去。图1描述的是对于多源域集成迁移学习的文本主题分类模型图,运用迭代的思想,把每一轮筛选得到的迁移能力强的数据加入到目标域数据模块中去,参与到下一次的模型训练中去,让每次用在模型训练上的数据都在递增,使未带类标的数据加上的伪类标越来越接近真实情况。
神经网络NN的每个运算神经元是由目标域中带标签的数据和Softmax分类器所加的伪类标数据x1,x2,x3及截距+1的值组成的,神经元的输入-输出映射关系是一个逻辑回归(logistic regression)。
多个单一的神经元连接在一起组成了神经网络,如图2。图2中,x1,x2,x3及截距+1的值为神经网络NN的输入值,标上“+1”的圆圈被称为偏置神经元,输入层最下面和隐含层最下面的都是偏置神经元。神经网络最左边的一层Layer1叫做输入层,最右的一层Layer3叫做输出层(本例中,输出层只有一个神经元),中间所有神经元组成的一层Layer2叫做隐含层,在训练样本集中不能观测到它们的值。由图2可看出,神经网络NN中有3个输入神经元(偏置神经元不计在内),3个隐含神经元及1个输出神经元,实际应用中单层的输入层输入神经元不仅限于3个,单层的输出层输出神经元也不仅限于1个,隐含层能够拓展到多个。
神经网络NN网络的层数用l来表示,本发明中l=3,将第1层输入层记为Layer1,第2层隐含层记为Layer2,第3层输出层记为Layer3,其中是第l层第j个神经元与第l+1层第i个神经元之间的连接权重,没有其他神经元连向偏置神经元(即偏置神经元没有输入),偏置神经元b1 (1)、b2 (1)、b3 (1)总是输出+1,其对应的公式如下:
其中,a1 (2)为隐含层第1个神经元的输出值,a2 (2)为隐含层第2个神经元的输出值,a3 (2)为隐含层第3个神经元的输出值,b1 (1)为隐含层第1个偏置神经元,b2 (1)为隐含层第2个偏置神经元,b3 (1)为隐含层第3个偏置神经元,hW,b(x)为对不同标签的数据进行判定的结果。
通过训练从目标域数据选出直接使用的带标签的样本数据而得到的卷积神经网络CNN是一个多层的神经网络,其基本运算单元包括:卷积运算、池化运算、全连接运算和识别运算。卷积神经网络CNN是一种前馈神经网络,它的人工神经元能够响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。它包括卷积层(convolutional layer)和池化层(pooling layer)。卷积神经网络CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征,一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。
选择NN与CNN分类器,是因为神经元和神经元通过权重连接,把具体的实际问题抽象成计算机可以处理的数字,将这些数字通过所对应的函数进行运算。训练好神经网络NN即调整好权重和超参数,调整到与所要做的实验数据相匹配,然后让调好超参数的神经网络NN去识别一个输入,一个输入经过神经网络NN后,就会被映射到一个输出。CNN分类器与NN分类器的工作原理基本一致,运用现有的CNN分类器对数据进行预测标记,从而进一步的筛选出与真实值更接近的带有伪类标的样本数据。
NN分类器,CNN分类器和Softmax分类器都是神经网络基础分类器,训练得到模型的原理很相似,对于预测出的伪标签,通过简单的投票机制,不考虑分类器权重影响,就是简单的统计通过不同分类器得到的预测类标是否一致,分类一致的那一类别就认为是与现实情况最接近的类别,并采集样本。
步骤三、将三个分类器都进行分类得到不同类型文本主题的带有伪标签的数据,选用一种类型的文本主题作为目标域数据,其他类型的文本主题作为源域数据加入到目标域数据中,加入的源域数据为剩余不同类型的单一文本主题数据或剩余几种不同类型文本主题数据的任意组合,并用Softmax分类器测试正确率。
实施例1
步骤一、将三个分类器都进行分类得到不同类型文本主题的带有伪标签的数据,以目标域为C时,源域S、R、T的数据运用NN分类器、CNN分类器和Softmax分类器三个分类器进行分类;
步骤二、使用100%为C目标域的数据采用Softmax分类器做实验,记录正确率;1%的C目标域数据采用Softmax做实验,记录正确率;1%的C目标域数据采用NN分类器做实验,记录正确率;1%的C目标域数据采用CNN分类器做实验,记录正确率;用1%的C数据和加入其中的源域S的数据采用Softmax分类器做实验,记录正确率;用1%的C数据和加入其中的源域R的数据采用Softmax分类器做实验,记录正确率;用1%的C数据和加入其中的源域T的数据采用Softmax分类器做实验,记录正确率;用1%的C数据和加入其中的源域S、R的数据采用Softmax分类器做实验,记录正确率;用1%的C数据和加入其中的源域R、T的数据采用Softmax分类器做实验,记录正确率;用1%的C数据和加入其中的源域S、T的数据采用Softmax分类器做实验,记录正确率;用1%的C数据和加入其中的源域S、R、T的数据采用Softmax分类器做实验,记录正确率;结果如表1和图3-a所示。
实施例2
步骤一、将三个分类器都进行分类得到不同类型文本主题的带有伪标签的数据,以目标域为S时,源域C、R、T的数据运用NN分类器、CNN分类器和Softmax分类器三个分类器进行分类;
步骤二、使用100%为S目标域的数据采用Softmax分类器做实验,记录正确率;1%的S目标域数据采用Softmax做实验,记录正确率;1%的S目标域数据采用NN分类器做实验,记录正确率;1%的S目标域数据采用CNN分类器做实验,记录正确率;用1%的S数据和加入其中的源域C的数据采用Softmax分类器做实验,记录正确率;用1%的S数据和加入其中的源域R的数据采用Softmax分类器做实验,记录正确率;用1%的S数据和加入其中的源域T的数据采用Softmax分类器做实验,记录正确率;用1%的S数据和加入其中的源域C、R的数据采用Softmax分类器做实验,记录正确率;用1%的S数据和加入其中的源域R、T的数据采用Softmax分类器做实验,记录正确率;用1%的S数据和加入其中的源域C、T的数据采用Softmax分类器做实验,记录正确率;用1%的S数据和加入其中的源域C、R、T的数据采用Softmax分类器做实验,记录正确率;结果如表2和图3-b所示。
实施例3
步骤一、将三个分类器都进行分类得到不同类型文本主题的带有伪标签的数据,以目标域为R时,源域C、S、T的数据运用NN分类器、CNN分类器和Softmax分类器三个分类器进行分类;
步骤二、使用100%为R目标域的数据采用Softmax分类器做实验,记录正确率;1%的R目标域数据采用Softmax做实验,记录正确率;1%的R目标域数据采用NN分类器做实验,记录正确率;1%的R目标域数据采用CNN分类器做实验,记录正确率;用1%的R数据和加入其中的源域C的数据采用Softmax分类器做实验,记录正确率;用1%的R数据和加入其中的源域S的数据采用Softmax分类器做实验,记录正确率;用1%的R数据和加入其中的源域T的数据采用Softmax分类器做实验,记录正确率;用1%的R数据和加入其中的源域C、S的数据采用Softmax分类器做实验,记录正确率;用1%的R数据和加入其中的源域S、T的数据采用Softmax分类器做实验,记录正确率;用1%的R数据和加入其中的源域C、T的数据采用Softmax分类器做实验,记录正确率;用1%的R数据和加入其中的源域C、S、T的数据采用Softmax分类器做实验,记录正确率;结果如表3和图3-c所示。
实施例4
步骤一、将三个分类器都进行分类得到不同类型文本主题的带有伪标签的数据,以目标域为T时,源域C、S、R的数据运用NN分类器、CNN分类器和Softmax分类器三个分类器进行分类;
步骤二、使用100%为T目标域的数据采用Softmax分类器做实验,记录正确率;1%的T目标域数据采用Softmax做实验,记录正确率;1%的T目标域数据采用NN分类器做实验,记录正确率;1%的T目标域数据采用CNN分类器做实验,记录正确率;用1%的T数据和加入其中的源域C的数据采用Softmax分类器做实验,记录正确率;用1%的T数据和加入其中的源域S的数据采用Softmax分类器做实验,记录正确率;用1%的T数据和加入其中的源域R的数据采用Softmax分类器做实验,记录正确率;用1%的T数据和加入其中的源域C、S的数据采用Softmax分类器做实验,记录正确率;用1%的T数据和加入其中的源域S、R的数据采用Softmax分类器做实验,记录正确率;用1%的T数据和加入其中的源域C、R的数据采用Softmax分类器做实验,记录正确率;用1%的T数据和加入其中的源域C、S、R的数据采用Softmax分类器做实验,记录正确率;结果如表3和图3-c所示。
在实际的文本主题分类数据集上,应用一种基于多源域集成迁移学习的文本主题分类模型方法,分别以20newsgroup数据集的不同类型文本主题作为目标域数据,将所有的目标域数据,随机选取1%的量作为目标域带有标签的数据,探究了分别向目标域的数据中添加单源域数据样本、双源域数据样本和三源域数据样本的正确率,给目标域数据加入的单源域数据样本和给目标域数据加入双源域的数据和给目标域数据加入三源域的数据均是通过三个分类器进行筛选得到的,通过加入不同的源域来分析迁移效果的好坏。
当目标域为R时,所有的目标域数据即100%R,采用Softmax分类器进行实验,随机选取1%R的量(16条)作为目标域带有标签的数据,分别采用Softmax分类器、NN分类器、CNN分类器进行正确率的测量实验。再分别将单源域、双源域和三源域的数据进行迁移后,再对正确率进行实验测量。经过分类测试,当不进行迁移时,数据量少不足以训练出一个好的分类模型,由图3可看出1%R(Softmax)、1%R(NN)、1%R(CNN)的正确率均不高;迁移单个源域迁移能力强的数据时,分类正确率低于直接用极少量目标域数据训练出来的分类器的分类结果,如图3中的1%R与1%R+T的分类结果,表明单源域迁移容易产生负迁移现象。将带有1600条伪数据的C源域数据和带有1600条伪数据的S源域数据加入到目标域R中去,如图3-c中,用1%的R数据和加入其中的源域C、S的数据,采用Softmax分类器做实验正确率很明显得到了改善。两个源域数据样本的加入,使得这些被判定为迁移能力强的数据更加接近目标域数据,加入的数据是平衡的,最终得到的分类器有个好的分类效果。继续将三个源域的数据样本加入目标域中,得到更高的正确率,得出的正确率和利用100%的目标域数据训练得到的分类器的正确率不相上下,有的甚至超过了100%目标域数据训练出来的分类器的正确率。为了避免实验数据的偶然性,将各个源域的数据轮流做了目标域数据,得到的结果更加的权威。分类器分类结果的正确率如图3所示。大部分的单一源域进行迁移,效果比不进行迁移的结果要高,但也存在着低的情况,这说明,可能出现了负迁移现象,而多个源域进行迁移,很明显,分类正确率比不进行迁移的分类正确率都要高。多源域迁移学习,不但解决了量的问题,也有效避免了迁移学习常出现的负迁移现象。
表1目标域为C
表2目标域为S
表3目标域为R
表4目标域为T
本发明通过对多源域无标记数据进行加标签,让迁移的实例范围进行了扩充,不必花费大量的人工和专家知识对目标域数据进行预测标签,也有效的避免了单源域迁移带来的负迁移现象,数据的组成来自于目标域的各个方面,能够更好的满足了数据的平衡,保证了这些具有强迁移能力的实例在数据分布上与目标域数据是相似乃至相同。每个源域之间具有较强的互补性,可以全面地捕捉目标域数据的特点,最大程度上还原了目标域实例的数据分布,并具有较好的鲁棒性。与现有迁移学习相比,本发明通过对多源域无标记数据进行加标签,运用了半监督学习的思想,利用有类标数据训练出一个分类模型,用训练出的模型给源域的无标签数据加上伪标签。既能够让学习不再从“零”开始,也能让源域的数据在没有那么“好”的情况下得到高效率的使用。
本发明基于多源域集成学习的文本主题类型及方法,改进了现有的通过改变权重来确定是否能够加入到目标域中去的这一做法。改变权重,会出现超重现象,导致过度拟合的情况。利用集成学习的思想,对带有伪标签的数据进行多次测试,每次的测试,选择出三个分类器都分类正确的数据。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (3)

1.基于多源域集成迁移学习的文本主题分类模型,其特征在于,由目标域数据模块、加标签模块、多源域标签判定的集成学习模块和正确数据模块组成;
所述目标域数据模块用于将带标签的样本数据和未带标签的样本数据加入到训练模型的行列,带标签的样本数据用来训练Softmax分类器,未带标签的目标域样本数据加入到训练模型的行列以训练好的Softmax分类器;
所述加标签模块用带标签的样本数据训练出来的Softmax分类器对来自源域的无标签样本数据进行预测标记。
所述多源域标签判定的集成学习模块用NN分类器和CNN分类器对带有伪标签的源域数据和Softmax分类器预测的数据做一个判断,选出三个分类器都分类正确的数据,将其分类为正确的数据样本;
所述正确数据模块用于每次训练分类器,让每次用在模型训练上的数据都在递增,使未带类标的数据加上的伪类标越来越接近真实情况。
2.一种如权利要求1所述的基于多源域集成迁移学习的文本主题分类模型的分类方法,其特征在于,具体按照以下步骤进行:
步骤一、选定目标域数据模块中的带标签的数据,训练出Softmax分类器,Softmax分类器对来自源域的无标签样本数据进行预测标记;
步骤二、NN分类器和CNN分类器对带有伪标签的源域数据和Softmax分类器预测的数据进行判定;选出三个分类器都分类正确的数据,将其分类为正确的数据样本,将其加入到目标域数据中去,把每一轮筛选得到的迁移能力强的数据加入到目标域数据模块中去,参与到下一次的模型训练中去,让每次用在模型训练上的数据都在递增,使未带类标的数据加上的伪类标越来越接近真实情况;
步骤三、将三个分类器都进行分类得到不同类型文本主题的带有伪标签的数据,选用一种类型的文本主题作为目标域数据,其他类型的文本主题作为源域数据加入到目标域数据中,并用Softmax分类器测试正确率。
3.根据权利要求2所述的基于多源域集成迁移学习的文本主题分类模型的分类方法,其特征在于,所述步骤三加入的源域数据为剩余不同类型的单一文本主题数据或剩余几种不同类型文本主题数据的任意组合。
CN201810181122.3A 2018-03-06 2018-03-06 基于多源域集成迁移学习的文本主题分类模型及分类方法 Pending CN108460134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810181122.3A CN108460134A (zh) 2018-03-06 2018-03-06 基于多源域集成迁移学习的文本主题分类模型及分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810181122.3A CN108460134A (zh) 2018-03-06 2018-03-06 基于多源域集成迁移学习的文本主题分类模型及分类方法

Publications (1)

Publication Number Publication Date
CN108460134A true CN108460134A (zh) 2018-08-28

Family

ID=63217631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810181122.3A Pending CN108460134A (zh) 2018-03-06 2018-03-06 基于多源域集成迁移学习的文本主题分类模型及分类方法

Country Status (1)

Country Link
CN (1) CN108460134A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376229A (zh) * 2018-12-04 2019-02-22 国网江西省电力有限公司信息通信分公司 一种基于卷积神经网络的点击诱饵检测方法
CN109919934A (zh) * 2019-03-11 2019-06-21 重庆邮电大学 一种基于多源域深度迁移学习的液晶面板缺陷检测方法
CN110188829A (zh) * 2019-05-31 2019-08-30 北京市商汤科技开发有限公司 神经网络的训练方法、目标识别的方法及相关产品
CN110555060A (zh) * 2019-09-09 2019-12-10 山东省计算中心(国家超级计算济南中心) 基于成对样本匹配的迁移学习方法
CN110647904A (zh) * 2019-08-01 2020-01-03 中国科学院信息工程研究所 一种基于无标记数据迁移的跨模态检索方法及系统
CN110674849A (zh) * 2019-09-02 2020-01-10 昆明理工大学 基于多源域集成迁移的跨领域情感分类方法
CN110705591A (zh) * 2019-03-09 2020-01-17 华南理工大学 一种基于最优子空间学习的异构迁移学习方法
CN111027416A (zh) * 2019-11-21 2020-04-17 电子科技大学 一种基于商用WiFi的位置自适应动作识别方法
CN111626376A (zh) * 2020-06-08 2020-09-04 北京邮电大学 一种基于判别联合概率的域适配方法及系统
CN111626381A (zh) * 2020-07-27 2020-09-04 北京淇瑀信息科技有限公司 一种基于对抗迁移的用户识别方法、装置及电子设备
CN111949796A (zh) * 2020-08-24 2020-11-17 云知声智能科技股份有限公司 一种资源受限语种语音合成前端文本分析方法及系统
CN112257862A (zh) * 2020-09-30 2021-01-22 重庆大学 一种基于关系网络标记样本扩充的半监督辨识方法
CN112465152A (zh) * 2020-12-03 2021-03-09 中国科学院大学宁波华美医院 一种适用于情绪脑-机接口的在线迁移学习方法
CN113313679A (zh) * 2021-05-21 2021-08-27 浙江大学 基于多源域深度迁移多光源集成的轴承表面缺陷检测方法
CN113642756A (zh) * 2021-05-27 2021-11-12 复旦大学 基于深度学习技术的减刑刑期预测方法
US11645514B2 (en) 2019-08-02 2023-05-09 International Business Machines Corporation Out-of-domain encoder training

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120259801A1 (en) * 2011-04-06 2012-10-11 Microsoft Corporation Transfer of learning for query classification
CN106295697A (zh) * 2016-08-10 2017-01-04 广东工业大学 一种基于半监督的迁移学习分类方法
CN106599922A (zh) * 2016-12-16 2017-04-26 中国科学院计算技术研究所 用于大规模数据标定的迁移学习方法及系统
CN107316049A (zh) * 2017-05-05 2017-11-03 华南理工大学 一种基于半监督自训练的迁移学习分类方法
CN107704926A (zh) * 2017-11-23 2018-02-16 清华大学 一种大数据跨领域分析的深度迁移学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120259801A1 (en) * 2011-04-06 2012-10-11 Microsoft Corporation Transfer of learning for query classification
CN106295697A (zh) * 2016-08-10 2017-01-04 广东工业大学 一种基于半监督的迁移学习分类方法
CN106599922A (zh) * 2016-12-16 2017-04-26 中国科学院计算技术研究所 用于大规模数据标定的迁移学习方法及系统
CN107316049A (zh) * 2017-05-05 2017-11-03 华南理工大学 一种基于半监督自训练的迁移学习分类方法
CN107704926A (zh) * 2017-11-23 2018-02-16 清华大学 一种大数据跨领域分析的深度迁移学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘婷婷: "选择性集成迁移算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376229A (zh) * 2018-12-04 2019-02-22 国网江西省电力有限公司信息通信分公司 一种基于卷积神经网络的点击诱饵检测方法
CN110705591A (zh) * 2019-03-09 2020-01-17 华南理工大学 一种基于最优子空间学习的异构迁移学习方法
CN109919934B (zh) * 2019-03-11 2021-01-29 重庆邮电大学 一种基于多源域深度迁移学习的液晶面板缺陷检测方法
CN109919934A (zh) * 2019-03-11 2019-06-21 重庆邮电大学 一种基于多源域深度迁移学习的液晶面板缺陷检测方法
CN110188829A (zh) * 2019-05-31 2019-08-30 北京市商汤科技开发有限公司 神经网络的训练方法、目标识别的方法及相关产品
CN110647904A (zh) * 2019-08-01 2020-01-03 中国科学院信息工程研究所 一种基于无标记数据迁移的跨模态检索方法及系统
CN110647904B (zh) * 2019-08-01 2022-09-23 中国科学院信息工程研究所 一种基于无标记数据迁移的跨模态检索方法及系统
US11645514B2 (en) 2019-08-02 2023-05-09 International Business Machines Corporation Out-of-domain encoder training
CN110674849A (zh) * 2019-09-02 2020-01-10 昆明理工大学 基于多源域集成迁移的跨领域情感分类方法
CN110555060A (zh) * 2019-09-09 2019-12-10 山东省计算中心(国家超级计算济南中心) 基于成对样本匹配的迁移学习方法
CN110555060B (zh) * 2019-09-09 2023-05-02 山东省计算中心(国家超级计算济南中心) 基于成对样本匹配的迁移学习方法
CN111027416A (zh) * 2019-11-21 2020-04-17 电子科技大学 一种基于商用WiFi的位置自适应动作识别方法
CN111027416B (zh) * 2019-11-21 2022-03-15 电子科技大学 一种基于商用WiFi的位置自适应动作识别方法
CN111626376A (zh) * 2020-06-08 2020-09-04 北京邮电大学 一种基于判别联合概率的域适配方法及系统
CN111626381A (zh) * 2020-07-27 2020-09-04 北京淇瑀信息科技有限公司 一种基于对抗迁移的用户识别方法、装置及电子设备
CN111949796A (zh) * 2020-08-24 2020-11-17 云知声智能科技股份有限公司 一种资源受限语种语音合成前端文本分析方法及系统
CN111949796B (zh) * 2020-08-24 2023-10-20 云知声智能科技股份有限公司 一种资源受限语种语音合成前端文本分析方法及系统
CN112257862B (zh) * 2020-09-30 2023-12-05 重庆大学 一种基于关系网络标记样本扩充的半监督辨识方法
CN112257862A (zh) * 2020-09-30 2021-01-22 重庆大学 一种基于关系网络标记样本扩充的半监督辨识方法
CN112465152B (zh) * 2020-12-03 2022-11-29 中国科学院大学宁波华美医院 一种适用于情绪脑-机接口的在线迁移学习方法
CN112465152A (zh) * 2020-12-03 2021-03-09 中国科学院大学宁波华美医院 一种适用于情绪脑-机接口的在线迁移学习方法
CN113313679A (zh) * 2021-05-21 2021-08-27 浙江大学 基于多源域深度迁移多光源集成的轴承表面缺陷检测方法
CN113642756A (zh) * 2021-05-27 2021-11-12 复旦大学 基于深度学习技术的减刑刑期预测方法
CN113642756B (zh) * 2021-05-27 2023-11-24 复旦大学 基于深度学习技术的减刑刑期预测方法

Similar Documents

Publication Publication Date Title
CN108460134A (zh) 基于多源域集成迁移学习的文本主题分类模型及分类方法
Chen et al. An information granulation based data mining approach for classifying imbalanced data
Tan et al. Predicting grassland community changes with an artificial neural network model
CN108228716A (zh) 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法
CN106067094A (zh) 一种动态评估方法及系统
CN115438732A (zh) 面向冷启动用户基于分类偏好迁移的跨域推荐方法
Shang et al. A hybrid method for traffic incident detection using random forest-recursive feature elimination and long short-term memory network with Bayesian optimization algorithm
CN109919236A (zh) 一种基于标签相关性的bp神经网络多标签分类方法
CN109002927A (zh) 基于递归神经网络的油田勘探储量预测方法
Patni et al. Air quality prediction using artificial neural networks
Wang et al. Design of the Sports Training Decision Support System Based on the Improved Association Rule, the Apriori Algorithm.
Ruan et al. Effective learning model of user classification based on ensemble learning algorithms
CN115757103A (zh) 基于树结构的神经网络测试用例生成方法
Dong et al. [Retracted] Application of Data Mining Technology in Public Welfare Sports Education in the Era of Artificial Intelligence
CN116304941A (zh) 一种基于多模型组合的海洋数据质量控制方法及装置
Palanichamy et al. Machine learning methods to predict particulate matter PM 2.5
CN109886288A (zh) 一种用于电力变压器的状态评价方法及装置
Kumarasiri et al. Rainfall forecasting: an artificial neural network approach
Song et al. A study on performance evaluation model of individual knowledge-sharing
Ma et al. A study on sentiment analysis for smart tourism
CN113987704A (zh) 基于自动多微分学习深度网络的航空发动机寿命预测方法
Guo et al. Combining imbalance learning strategy and multiclassifier estimator for bug report classification
Yuan et al. Early Detecting the At-risk Students in Online Courses Based on Their Behavior Sequences
Sandbhor et al. Effect of training sample and network characteristics in neural network-based real property value prediction
CN108647292A (zh) 基于神经网络算法的企业特性分类计算方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180828