CN110119448B - 基于双重自动编码器的半监督跨领域文本分类方法 - Google Patents

基于双重自动编码器的半监督跨领域文本分类方法 Download PDF

Info

Publication number
CN110119448B
CN110119448B CN201910378359.5A CN201910378359A CN110119448B CN 110119448 B CN110119448 B CN 110119448B CN 201910378359 A CN201910378359 A CN 201910378359A CN 110119448 B CN110119448 B CN 110119448B
Authority
CN
China
Prior art keywords
text data
data set
matrix
formula
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910378359.5A
Other languages
English (en)
Other versions
CN110119448A (zh
Inventor
张玉红
杨帅
胡学钢
李培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910378359.5A priority Critical patent/CN110119448B/zh
Publication of CN110119448A publication Critical patent/CN110119448A/zh
Application granted granted Critical
Publication of CN110119448B publication Critical patent/CN110119448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Abstract

本发明公开了一种基于双重自动编码器的半监督跨领域文本分类方法,其步骤包括:采用双重自动编码器同时获取源领域文本数据集合和目标领域文本数据集合之间的全局和局部特征表示用于跨领域文本分类任务;第一重自动编码器为基于自适应分布的边缘降噪自动编码器,它主要用来学习源领域和目标领域文本数据集合的全局特征表示;第二重自动编码器为基于多类别的边缘降噪自动编码器,它以更细粒度方式学习源领域和目标领域文本数据集合的局部特征表示。本发明能更好地挖掘源领域文本数据集合和目标领域文本数据集合中特征之间的潜在关系,从而进一步提高文本分类的正确性。

Description

基于双重自动编码器的半监督跨领域文本分类方法
技术领域
本发明涉及机器学习领域,具体的说是一种基于双重自动编码器的半监督跨领域分类方法,并对文本数据信息进行分类,更具体地说是利用某个领域的文本数据信息对另一个具有不同数据分布的文本数据信息进行分类。
背景技术
近年来,随着信息化、网络化快速发展,人们的生活与工作也越来越依赖网络信息;现如今,网络信息几乎涉及了人类生活的全部领域;然而,网络技术的发展,网络数据也在逐年增长;一些具有重要价值的信息一般都隐藏在这些数据中,如何对这些海量数据进行高效、准确的分类,使之更好地服务于人们的日常生活与工作日益重要;例如:在京东、淘宝等购物平台,商家可以通过分析消费者评论信息,有针对地进行产品改进或升级,从而提高产品质量;对消费者而言,商品的评论信息在一定程度上左右了消费者的购买意愿,消费者偏向购买口碑较好的商品;一些个性化新闻推荐网站,后台技术人员通过对用户的阅览记录进行分析,对用户的喜好进行分类,然后根据用户的兴趣,给不同用户推荐不同领域的文章;鉴于此,文本分类等相关领域的研究具有极其重要的价值和意义;
现如今,不仅人类社会生活中数据的类型越来越多样化,而且对海量数据进行标记需要大量的人力和财力,传统的机器学习方法因而面临着艰难的挑战;传统机器学习方法通常基于两个基本假设:不仅训练数据和测试数据独立并且服从同一数据分布,而且需要大量的标记样本用于训练分类模型;然而,由于网络中数据受用户,时间等多因素的影响,其数据分布在不断发生变化,因此,较难收集到满足同一分布的充足的有效训练数据,从而传统的文本分类方法面临巨大的挑战;为了解决这个问题,国内外学者提出了大量跨领域文本学习算法;
深度学习在自然处理领域研究成果显著,多种神经网络模型被用于文本分类,如卷积神经网络(CNN)、循环神经网络(RNN)、对抗神经网络(GAN)以及自动编码器(AE);其中,降噪自动编码器通过堆叠多层能获取高层、鲁棒的特征表示,在跨领域文本分类任务上取得令人满意的分类正确率,然而其计算成本很高且缺乏对高维特征的可扩展性;目前,已有的降噪自动编码器多为无监督模型,在训练分类器时容易产生过拟合问题;此外,基于自动编码器的跨领域文本分类方法一般是基于自动编码器学习同时适用于源领域和目标领域深层特征表示,而忽略领域内的一些固有信息对跨领域文本分类的影响;已有的自动编码器模型不具有普适性,从而限制了在应用中的使用;
综上,现有技术中基于降噪自动编码器的跨领域文本分类面临着以下的挑战:
一是降噪编码器一般多为无监督模型,利用源领域中文本数据训练分类器时,没有利用源领域中文本数据的标签信息,容易产生过拟合问题;
二是已有的降噪自动编码器一般仅仅使用一种自动编码器模型学习可迁移的特征表示用于跨领域文本分类,通常一种自动编码器仅可以学习源领域和目标领域中文本数据的一种数据特征表示,不能从多个角度(全局、局部)学习丰富的数据表示用于跨领域文本分类;
发明内容
本发明是为避免上述现有技术所存在的不足,提供一种基于双重自动编码器的半监督跨领域文本分类方法,以期能获取源领域中文本数据和目标领域中文本数据的更丰富的特征表示,从而能进一步提高跨领域文本分类的准确率。
本发明为实现发明目的采用如下技术方案:
本发明一种基于双重自动编码器的半监督跨领域文本分类方法的特点是按如下步骤进行:
步骤1:初始化
步骤1.1:获取源领域的文本数据集合
Figure GDA0002667148240000021
及其样本标签集合
Figure GDA0002667148240000022
其中,si为所述源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为所述第i个文本数据si的标签,且
Figure GDA0002667148240000023
cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;
步骤1.2:获取目标领域的文本数据集合
Figure GDA0002667148240000024
tj为所述目标领域的文本数据集合DT中第j个文本数据,j=1,2,…,nt,nt为目标领域的文本数据集合DT中的文本数据个数;
步骤1.3:基于所述源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用所述源领域的分类器对所述目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合
Figure GDA0002667148240000025
yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且
Figure GDA0002667148240000026
步骤1.4:将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt
步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为所述源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;
步骤2:利用基于自适应分布的边缘降噪自动编码方法对所述合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:
步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax
步骤2.2:将所述合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;
步骤2.3:以噪音干扰系数p对所述第L层的输入hL-1进行随机损坏,得到损坏数据
Figure GDA0002667148240000031
Figure GDA0002667148240000032
步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):
Figure GDA0002667148240000033
式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,
Figure GDA0002667148240000034
是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,
Figure GDA0002667148240000035
是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;
Figure GDA0002667148240000036
式(2)中,tr(·)为矩阵的迹,(·)T为矩阵(·)的转置,
Figure GDA0002667148240000037
为第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的图拉普拉斯算子,并有:
Figure GDA0002667148240000041
式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示所述合并集合X中第α个文本数据和第δ个文本数据;
Figure GDA0002667148240000042
式(4)中,
Figure GDA0002667148240000043
为第L层的样本标签属于第d个类别cd的源领域的文本数据集合DSd和目标领域的文本数据集合DTd的图拉普拉斯算子,并有:
Figure GDA0002667148240000044
式(5)中,(·)ηκ表示矩阵的第η行第κ列元素,xη和xκ分别表示所述合并集合X中第η个文本数据和第κ个文本数据;
Figure GDA0002667148240000045
为DSd中文本数据的个数,
Figure GDA0002667148240000046
为DTd中文本数据的个数;
步骤2.5:利用最小二乘法对所述重构误差Θ(WL)进行求解,得到
Figure GDA0002667148240000047
其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,
Figure GDA0002667148240000048
为所述合并集合X的第L层的输入hL-1的共现矩阵,且
Figure GDA0002667148240000051
QL
Figure GDA0002667148240000052
以噪音干扰系数p进行损坏后的矩阵,并由式(6)得到,
Figure GDA0002667148240000053
为所述合并集合X的第L层的输入hL-1的边缘和条件联合分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(7)得到;
Figure GDA0002667148240000054
Figure GDA0002667148240000055
式(6)中,(·)mu表示矩阵的第m行第u列元素;
式(7)中,(·)μν表示矩阵的第μ行第ν列元素;
Figure GDA0002667148240000056
为所述合并集合X的第L层的输入hL-1的边缘分布和条件分布联合的共现矩阵,且
Figure GDA0002667148240000057
步骤2.6:获得第L层的输出特征空间hL=tanh(hL-1WL),其中,tanh()为双曲正切函数;
步骤2.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示
Figure GDA0002667148240000058
否则,返回步骤2.3顺序执行;
步骤3:利用基于多类别的边缘降噪自动编码方法学习对第d个类别cd的数据集Ed进行Lmax层堆叠学习,获得源领域的文本数据集合DS和和目标领域的文本数据集合DT的局部特征表示:
步骤3.1:初始化L=1;
步骤3.2:将第d个类别cd的数据集Ed的第L层的输入记为
Figure GDA0002667148240000059
当L=1时,
Figure GDA00026671482400000510
步骤3.3:以噪音干扰系数p对所述第L层的输入
Figure GDA00026671482400000511
进行随机损坏,得到第L层的损坏数据
Figure GDA00026671482400000512
Figure GDA00026671482400000513
步骤3.4:利用式(8)表征第d个类别cd的数据集Ed的第L层的重构误差
Figure GDA00026671482400000514
Figure GDA0002667148240000061
式(8)中,
Figure GDA0002667148240000062
是第d个类别cd的数据集Ed的边缘分布,并利用式(9)得到;
Figure GDA0002667148240000063
式(9)中,
Figure GDA0002667148240000064
为第L层数据集Ed的图拉普拉斯算子,并有:
Figure GDA0002667148240000065
式(10)中,
Figure GDA0002667148240000066
表示矩阵的第π行第
Figure GDA0002667148240000067
列元素,xπ
Figure GDA0002667148240000068
分别表示所述合并集合X中第π个文本数据和第
Figure GDA0002667148240000069
个文本数据;
步骤3.5:利用最小二乘法对所述重构误差
Figure GDA00026671482400000610
进行求解,得到
Figure GDA00026671482400000611
其中,Id为第d个类别cd的单位矩阵,
Figure GDA00026671482400000612
为所述第d个类别cd的数据集Ed的第L层的输入
Figure GDA00026671482400000613
的共现矩阵,且
Figure GDA00026671482400000614
Figure GDA00026671482400000615
Figure GDA00026671482400000616
以噪音干扰系数p进行损坏后的矩阵,并由式(11)得到,
Figure GDA00026671482400000617
为所述第d个类别cd的数据集Ed的第L层的输入
Figure GDA00026671482400000618
边缘分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(12)得到;
Figure GDA00026671482400000619
Figure GDA00026671482400000620
式(11)中,(·)θρ表示矩阵的第θ行第ρ列元素;
式(12)中,(·)υψ表示矩阵的第υ行第ψ列元素;
Figure GDA0002667148240000071
为所述第d个类别cd的数据集Ed的第L层的输入
Figure GDA0002667148240000072
边缘分布的共现矩阵,且
Figure GDA0002667148240000073
步骤3.6:获得所述第d个类别cd的数据集Ed第L层的输出特征空间
Figure GDA0002667148240000074
从而获取标签类别分别属于
Figure GDA0002667148240000075
的数据集的第L层的输出特征空间
Figure GDA0002667148240000076
步骤3.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的局部特征表示
Figure GDA0002667148240000077
否则,返回步骤3.3顺序执行;
步骤4:获取双重特征表示并构建分类器:
步骤4.1:将所述源领域和目标领域文本数据的全局特征表示Hglobal和局部特征表示Hlocal进行合并,形成双重特征表示H=[Hglobal;Hlocal];
将所述双重特征表示H划分为源领域的文本数据集合DS的特征表示HDS和目标领域的文本数据集合DT的特征表示HDT
步骤4.2:基于所述源领域的文本数据集合DS的特征表示HDS利用支持向量机进行训练,得到源领域的特征表示的分类器;利用所述源领域的特征表示的分类器对所述目标领域的文本数据集合DT的特征表示HDT进行分类,得到目标领域的文本数据的新伪标签集合Y′T
步骤4.3:判断||YT-Y′T||2≤1是否成立,若成立,则所得到的新伪标签集合Y′T即为所述目标领域的文本数据的分类结果;否则,将Y′T赋值给YT后,返回步骤1.3顺序执行。
与已有技术相比,本发明有益效果体现在:
1、本发明有效减少了训练分类器时出现过拟合的风险,同时提高了跨领域文本分类的正确性;本发明充分利用了源领域中文本数据的标签信息,并利用步骤1.3获取目标领域中文本数据的伪标签信息,然后利用这两个领域中的文本数据的标签信息最小化了领域间的文本数据分布差异,从而避免了训练分类器时出现过拟合问题又进一步提高了跨领域文本分类的分类精度;
2、本发明充分挖掘了源领域中文本数据和目标领域中文本数据的特征之间的潜在关系,从而提高了跨领域文本分类的分类性能;本发明在步骤2对源领域和目标领域中文本数据的全局特征表示进行了学习,同时挖掘了具有同一类别中文本数据间的信息,具体实施过程如步骤3所示,从而获得了更多的特征信息,有利于跨领域文本分类;
3、本发明采用两种类型的堆叠自动编码器学习源领域中文本数据和目标领域中文本数据的深层特征表示,获取了更高质量的特征表示,提高了跨领域文本分类的准确率;而且,本发明使用的两种类型的堆叠自动编码器运行速度更快,具有较高的实用价值;
4、本发明面向实际应用领域,如:用户在社交网络发表对不同事件看法的分类,可用于政府部门及时发现并掌握舆论走向;购物网站根据用户对某一商品的评论对另一种商品进行分析、分类,可为商家、消费者提供预测、预警工作,为商家的销售、服务质量调整策略提供建议以及为消费者的购物行为进行推荐,具有非常好的实用性;
附图说明
图1是本发明流程图。
具体实施方式
参见图1,本实施例中,一种基于双重自动编码器的半监督跨领域文本分类方法是按如下步骤进行:
步骤1:初始化
步骤1.1:获取源领域的文本数据集合
Figure GDA0002667148240000081
及其样本标签集合
Figure GDA0002667148240000082
其中,si为源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为第i个文本数据si的标签,且
Figure GDA0002667148240000083
cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;
步骤1.2:获取目标领域的文本数据集合
Figure GDA0002667148240000084
tj为目标领域的文本数据集合DT中第j个文本数据,j=1,2,…,nt,nt为目标领域的文本数据集合DT中的文本数据个数;
在学习特征表示时,需要利用源领域中文本数据的标签信息来获取更高质量的特征表示。具体实施时,同时也需要目标领域中文本数据的标签信息,由于源领域中文本数据标签已知而目标领域中文本数据的标签是未知,需要利用支持向量机在源领域文本数据上训练分类器并对目标领域中文本数据进行分类;具体实施过程如步骤1.3所示;
步骤1.3:基于源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用源领域的分类器对目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合
Figure GDA0002667148240000091
yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且
Figure GDA0002667148240000092
步骤1.4:将源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt
步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;
步骤2:利用基于自适应分布的边缘降噪自动编码方法对合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:
在学习两个领域中文本数据的全局特征表示时,直接将源领域数据集合DS和目标领域数据集合DT中的样本数据放在一起训练,充分挖掘两个领域间所有特征之间的潜在关系。为了进一步获取高质量的全局特征表示,利用了源领域文本数据的标签信息和目标领域文本数据的伪标签信息来最小化领域间的边缘分布和条件分布。具体实施时,在目标函数中添加了边缘分布和条件分布这两个约束项来学习映射矩阵。
步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax
步骤2.2:将合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;
步骤2.3:以噪音干扰系数p对第L层的输入hL-1进行随机损坏,得到损坏数据
Figure GDA0002667148240000093
Figure GDA0002667148240000094
步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):
Figure GDA0002667148240000101
式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,
Figure GDA0002667148240000102
是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,
Figure GDA0002667148240000103
是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;
Figure GDA0002667148240000104
式(2)中,tr(·)为矩阵的迹,(·)T为矩阵(·)的转置,
Figure GDA0002667148240000105
为第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的图拉普拉斯算子,并有:
Figure GDA0002667148240000106
式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示合并集合X中第α个文本数据和第δ个文本数据;
Figure GDA0002667148240000107
式(4)中,
Figure GDA0002667148240000108
为第L层的样本标签属于第d个类别cd的源领域的文本数据集合DSd和目标领域的文本数据集合DTd的图拉普拉斯算子,并有:
Figure GDA0002667148240000111
式(5)中,(·)ηκ表示矩阵的第η行第κ列元素,xη和xκ分别表示合并集合X中第η个文本数据和第κ个文本数据;
Figure GDA0002667148240000112
为DSd中文本数据的个数,
Figure GDA0002667148240000113
为DTd中文本数据的个数;
步骤2.5:利用最小二乘法对重构误差Θ(WL)进行求解,得到
Figure GDA0002667148240000114
其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,
Figure GDA0002667148240000115
为合并集合X的第L层的输入hL-1的共现矩阵,且
Figure GDA0002667148240000116
QL
Figure GDA0002667148240000117
以噪音干扰系数p进行损坏后的矩阵,并由式(6)得到,
Figure GDA0002667148240000118
为合并集合X的第L层的输入hL-1的边缘和条件联合分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(7)得到;
Figure GDA0002667148240000119
Figure GDA00026671482400001110
式(6)中,(·)mu表示矩阵的第m行第u列元素;
式(7)中,(·)μν表示矩阵的第μ行第ν列元素;
Figure GDA00026671482400001111
为合并集合X的第L层的输入hL-1的边缘分布和条件分布联合的共现矩阵,且
Figure GDA00026671482400001112
步骤2.6:获得第L层的输出特征空间hL=tanh(hL-1WL),其中,tanh()为双曲正切函数;
步骤2.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示
Figure GDA0002667148240000121
否则,返回步骤2.3顺序执行;
步骤3:利用基于多类别的边缘降噪自动编码方法学习对第d个类别cd的数据集Ed进行Lmax层堆叠学习,获得源领域的文本数据集合DS和和目标领域的文本数据集合DT的局部特征表示:
在学习局部特征表示时,利用源领域中文本数据的标签信息和目标领域中文本数据的伪标签信息,将属于同一类别的源领域中样本和目标领域中样本单独放在一起训练,以减少其它类别的数据对这个类别的影响。同时在学习局部特征表示时,在目标函数中添加了最大均值差异(MMD)约束项来进一步减小源领域和目标领域中文本数据的分布差异。
步骤3.1:初始化L=1;
步骤3.2:将数据集Ed的第L层的输入记为
Figure GDA0002667148240000122
当L=1时,
Figure GDA0002667148240000123
步骤3.3:以噪音干扰系数p对第L层的输入
Figure GDA0002667148240000124
进行随机损坏,得到第L层的损坏数据
Figure GDA0002667148240000125
Figure GDA0002667148240000126
步骤3.4:利用式(8)表征第d个类别cd的数据集Ed的第L层的重构误差
Figure GDA0002667148240000127
Figure GDA0002667148240000128
式(8)中,
Figure GDA0002667148240000129
是第d个类别cd的数据集Ed的边缘分布,并利用式(9)得到;
Figure GDA00026671482400001210
式(9)中,
Figure GDA00026671482400001211
为第L层数据集Ed的图拉普拉斯算子,并有:
Figure GDA00026671482400001212
式(10)中,
Figure GDA0002667148240000131
表示矩阵的第π行第
Figure GDA0002667148240000132
列元素,xπ
Figure GDA0002667148240000133
分别表示合并集合X中第π个文本数据和第
Figure GDA0002667148240000134
个文本数据;
步骤3.5:利用最小二乘法对重构误差
Figure GDA0002667148240000135
进行求解,得到
Figure GDA0002667148240000136
其中,Id为单位矩阵,
Figure GDA0002667148240000137
为第d个类别cd的数据集Ed的第L层的输入
Figure GDA0002667148240000138
的共现矩阵,且
Figure GDA0002667148240000139
Figure GDA00026671482400001310
Figure GDA00026671482400001311
以噪音干扰系数p进行损坏后的矩阵,并由式(11)得到,
Figure GDA00026671482400001312
为第d个类别cd的数据集Ed的第L层的输入
Figure GDA00026671482400001313
边缘分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(12)得到;
Figure GDA00026671482400001314
Figure GDA00026671482400001315
式(11)中,(·)θρ表示矩阵的第θ行第ρ列元素;
式(12)中,(·)υψ表示矩阵的第υ行第ψ列元素;
Figure GDA00026671482400001316
为第d个类别cd的数据集Ed的第L层的输入
Figure GDA00026671482400001317
边缘分布的共现矩阵,且
Figure GDA00026671482400001318
步骤3.6:获得第d个类别cd的数据集Ed第L层的输出特征空间
Figure GDA00026671482400001319
从而获取标签类别分别属于
Figure GDA00026671482400001320
的数据集的第L层的输出特征空间
Figure GDA00026671482400001321
步骤3.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的局部特征表示
Figure GDA00026671482400001322
否则,返回步骤3.3顺序执行;
步骤4:获取双重特征表示并构建分类器:
步骤4.1:将源领域和目标领域文本数据的全局特征表示Hglobal和局部特征表示Hlocal进行合并,形成双重特征表示H=[Hglobal;Hlocal];
将双重特征表示H划分为源领域的文本数据集合DS的特征表示HDS和目标领域的文本数据集合DT的特征表示HDT
步骤4.2:基于源领域的文本数据集合DS的特征表示HDS利用支持向量机进行训练,得到源领域的特征表示的分类器;利用源领域的特征表示的分类器对目标领域的文本数据集合DT的特征表示HDT进行分类,得到目标领域的文本数据的新伪标签集合Y′T
步骤4.3:判断||YT-Y′T||2≤1是否成立,若成立,则所得到的新伪标签集合Y′T即为目标领域的文本数据的分类结果;否则,将Y′T赋值给YT后,返回步骤1.3顺序执行;
本发明使用两种不同类型的自动编码器用于学习源领域中文本数据和目标领域中文本数据的全局特征表示和局部特征表示,并引入源领域中文本数据的标签信息来优化特征表示,以此来进一步缩小源领域和目标领域中文本数据的分布差异,能更好的捕捉源领域和目标领域中文本数据中特征之间的关系,从而能够提高文本分类的正确性。

Claims (1)

1.一种基于双重自动编码器的半监督跨领域文本分类方法,其特征是按如下步骤进行:
步骤1:初始化
步骤1.1:获取源领域的文本数据集合
Figure FDA0002667148230000011
及其样本标签集合
Figure FDA0002667148230000012
其中,si为所述源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为所述第i个文本数据si的标签,且
Figure FDA0002667148230000013
cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;
步骤1.2:获取目标领域的文本数据集合
Figure FDA0002667148230000014
tj为所述目标领域的文本数据集合DT中第j个文本数据,j=1,2,…,nt,nt为目标领域的文本数据集合DT中的文本数据个数;
步骤1.3:基于所述源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用所述源领域的分类器对所述目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合
Figure FDA0002667148230000015
yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且
Figure FDA0002667148230000016
步骤1.4:将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt
步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为所述源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;
步骤2:利用基于自适应分布的边缘降噪自动编码方法对所述合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:
步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax
步骤2.2:将所述合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;
步骤2.3:以噪音干扰系数p对所述第L层的输入hL-1进行随机损坏,得到损坏数据
Figure FDA0002667148230000021
Figure FDA0002667148230000022
步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):
Figure FDA0002667148230000023
式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,
Figure FDA0002667148230000024
是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,
Figure FDA0002667148230000025
是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;
Figure FDA0002667148230000026
式(2)中,tr(·)为矩阵的迹,(·)T为矩阵(·)的转置,
Figure FDA0002667148230000027
为第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的图拉普拉斯算子,并有:
Figure FDA0002667148230000028
式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示所述合并集合X中第α个文本数据和第δ个文本数据;
Figure FDA0002667148230000029
式(4)中,
Figure FDA00026671482300000210
为第L层的样本标签属于第d个类别cd的源领域的文本数据集合DSd和目标领域的文本数据集合DTd的图拉普拉斯算子,并有:
Figure FDA0002667148230000031
式(5)中,(·)ηκ表示矩阵的第η行第κ列元素,xη和xκ分别表示所述合并集合X中第η个文本数据和第κ个文本数据;
Figure FDA0002667148230000032
为DSd中文本数据的个数,
Figure FDA0002667148230000033
为DTd中文本数据的个数;
步骤2.5:利用最小二乘法对所述重构误差Θ(WL)进行求解,得到
Figure FDA0002667148230000034
其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,
Figure FDA0002667148230000035
为所述合并集合X的第L层的输入hL-1的共现矩阵,且
Figure FDA0002667148230000036
QL
Figure FDA0002667148230000037
以噪音干扰系数p进行损坏后的矩阵,并由式(6)得到,
Figure FDA0002667148230000038
为所述合并集合X的第L层的输入hL-1的边缘和条件联合分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(7)得到;
Figure FDA0002667148230000039
Figure FDA00026671482300000310
式(6)中,(·)mu表示矩阵的第m行第u列元素;
式(7)中,(·)μν表示矩阵的第μ行第ν列元素;
Figure FDA00026671482300000311
为所述合并集合X的第L层的输入hL-1的边缘分布和条件分布联合的共现矩阵,且
Figure FDA00026671482300000312
步骤2.6:获得第L层的输出特征空间hL=tanh(hL-1WL),其中,tanh()为双曲正切函数;
步骤2.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示Hglobal={h0;h1;···;hL;···;hLmax};否则,返回步骤2.3顺序执行;
步骤3:利用基于多类别的边缘降噪自动编码方法学习对第d个类别cd的数据集Ed进行Lmax层堆叠学习,获得源领域的文本数据集合DS和和目标领域的文本数据集合DT的局部特征表示:
步骤3.1:初始化L=1;
步骤3.2:将第d个类别cd的数据集Ed的第L层的输入记为
Figure FDA0002667148230000041
当L=1时,
Figure FDA0002667148230000042
步骤3.3:以噪音干扰系数p对所述第L层的输入
Figure FDA0002667148230000043
进行随机损坏,得到第L层的损坏数据
Figure FDA0002667148230000044
Figure FDA0002667148230000045
步骤3.4:利用式(8)表征第d个类别cd的数据集Ed的第L层的重构误差
Figure FDA0002667148230000046
Figure FDA0002667148230000047
式(8)中,
Figure FDA0002667148230000048
是第d个类别cd的数据集Ed的边缘分布,并利用式(9)得到;
Figure FDA0002667148230000049
式(9)中,
Figure FDA00026671482300000410
为第L层数据集Ed的图拉普拉斯算子,并有:
Figure FDA00026671482300000411
式(10)中,
Figure FDA00026671482300000412
表示矩阵的第π行第
Figure FDA00026671482300000413
列元素,xπ
Figure FDA00026671482300000416
分别表示所述合并集合X中第π个文本数据和第
Figure FDA00026671482300000414
个文本数据;
步骤3.5:利用最小二乘法对所述重构误差
Figure FDA00026671482300000415
进行求解,得到
Figure FDA0002667148230000051
其中,Id为第d个类别cd的单位矩阵,
Figure FDA0002667148230000052
为所述第d个类别cd的数据集Ed的第L层的输入
Figure FDA0002667148230000053
的共现矩阵,且
Figure FDA0002667148230000054
Figure FDA0002667148230000055
Figure FDA0002667148230000056
以噪音干扰系数p进行损坏后的矩阵,并由式(11)得到,
Figure FDA0002667148230000057
为所述第d个类别cd的数据集Ed的第L层的输入
Figure FDA0002667148230000058
边缘分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(12)得到;
Figure FDA0002667148230000059
Figure FDA00026671482300000510
式(11)中,(·)θρ表示矩阵的第θ行第ρ列元素;
式(12)中,(·)υψ表示矩阵的第υ行第ψ列元素;
Figure FDA00026671482300000511
为所述第d个类别cd的数据集Ed的第L层的输入
Figure FDA00026671482300000512
边缘分布的共现矩阵,且
Figure FDA00026671482300000513
步骤3.6:获得所述第d个类别cd的数据集Ed第L层的输出特征空间
Figure FDA00026671482300000514
从而获取标签类别分别属于
Figure FDA00026671482300000515
的数据集的第L层的输出特征空间
Figure FDA00026671482300000516
步骤3.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的局部特征表示Hlocal={z0;z1;···;zL;···;zLmax};否则,返回步骤3.3顺序执行;
步骤4:获取双重特征表示并构建分类器:
步骤4.1:将所述源领域和目标领域文本数据的全局特征表示Hglobal和局部特征表示Hlocal进行合并,形成双重特征表示H=[Hglobal;Hlocal];
将所述双重特征表示H划分为源领域的文本数据集合DS的特征表示HDS和目标领域的文本数据集合DT的特征表示HDT
步骤4.2:基于所述源领域的文本数据集合DS的特征表示HDS利用支持向量机进行训练,得到源领域的特征表示的分类器;利用所述源领域的特征表示的分类器对所述目标领域的文本数据集合DT的特征表示HDT进行分类,得到目标领域的文本数据的新伪标签集合YT′;
步骤4.3:判断||YT-YT′||2≤1是否成立,若成立,则所得到的新伪标签集合YT′即为所述目标领域的文本数据的分类结果;否则,将YT′赋值给YT后,返回步骤1.3顺序执行。
CN201910378359.5A 2019-05-08 2019-05-08 基于双重自动编码器的半监督跨领域文本分类方法 Active CN110119448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910378359.5A CN110119448B (zh) 2019-05-08 2019-05-08 基于双重自动编码器的半监督跨领域文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910378359.5A CN110119448B (zh) 2019-05-08 2019-05-08 基于双重自动编码器的半监督跨领域文本分类方法

Publications (2)

Publication Number Publication Date
CN110119448A CN110119448A (zh) 2019-08-13
CN110119448B true CN110119448B (zh) 2020-11-06

Family

ID=67521890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910378359.5A Active CN110119448B (zh) 2019-05-08 2019-05-08 基于双重自动编码器的半监督跨领域文本分类方法

Country Status (1)

Country Link
CN (1) CN110119448B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825874A (zh) * 2019-10-29 2020-02-21 北京明略软件系统有限公司 一种中文文本分类方法和装置及计算机可读存储介质
CN111897964B (zh) * 2020-08-12 2023-10-17 腾讯科技(深圳)有限公司 文本分类模型训练方法、装置、设备及存储介质
CN113590761B (zh) * 2021-08-13 2022-03-25 网易有道信息技术(北京)有限公司 文本处理模型的训练方法、文本处理方法及相关设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2555192B (en) * 2016-08-02 2021-11-24 Invincea Inc Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space
CN107145836B (zh) * 2017-04-13 2020-04-07 西安电子科技大学 基于栈式边界辨别自编码器的高光谱图像分类方法
CN108520535B (zh) * 2018-03-26 2022-02-15 天津大学 基于深度恢复信息的物体分类方法
CN108846128B (zh) * 2018-06-30 2021-09-14 合肥工业大学 一种基于自适应噪音降噪编码器的跨领域文本分类方法
CN109308485B (zh) * 2018-08-02 2022-11-29 中国矿业大学 一种基于字典域适应的迁移稀疏编码图像分类方法
CN109492765A (zh) * 2018-11-01 2019-03-19 浙江工业大学 一种基于迁移模型的图像增量学习方法

Also Published As

Publication number Publication date
CN110119448A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
US9965717B2 (en) Learning image representation by distilling from multi-task networks
CN108376267B (zh) 一种基于类别转移的零样本分类方法
CN110321926B (zh) 一种基于深度残差修正网络的迁移方法及系统
CN107832663B (zh) 一种基于量子理论的多模态情感分析方法
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN109492229B (zh) 一种跨领域情感分类方法和相关装置
CN110119448B (zh) 基于双重自动编码器的半监督跨领域文本分类方法
CN108334638B (zh) 基于长短期记忆神经网络与兴趣迁移的项目评分预测方法
CN111881671B (zh) 一种属性词提取方法
US11599927B1 (en) Artificial intelligence system using deep neural networks for pairwise character-level text analysis and recommendations
CN112069320B (zh) 一种基于跨度的细粒度情感分析方法
CN112487199A (zh) 一种基于用户购买行为的用户特征预测方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
CN103942214B (zh) 基于多模态矩阵填充的自然图像分类方法及装置
CN110442736B (zh) 一种基于二次判别分析的语义增强子空间跨媒体检索方法
CN113360659B (zh) 一种基于半监督学习的跨领域情感分类方法及系统
CN115309860A (zh) 基于伪孪生网络的虚假新闻检测方法
Thompson et al. finFindR: Computer-assisted recognition and identification of bottlenose dolphin photos in r
CN111079011A (zh) 一种基于深度学习的信息推荐方法
CN102945372A (zh) 基于多标签约束支持向量机的分类方法
US20220156519A1 (en) Methods and systems for efficient batch active learning of a deep neural network
CN109800424A (zh) 一种基于改进矩阵分解与跨通道卷积神经网络的推荐方法
CN113689234A (zh) 一种基于深度学习的平台相关的广告点击率预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant