CN108846128B - 一种基于自适应噪音降噪编码器的跨领域文本分类方法 - Google Patents

一种基于自适应噪音降噪编码器的跨领域文本分类方法 Download PDF

Info

Publication number
CN108846128B
CN108846128B CN201810702735.7A CN201810702735A CN108846128B CN 108846128 B CN108846128 B CN 108846128B CN 201810702735 A CN201810702735 A CN 201810702735A CN 108846128 B CN108846128 B CN 108846128B
Authority
CN
China
Prior art keywords
feature
data set
domain data
samples
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810702735.7A
Other languages
English (en)
Other versions
CN108846128A (zh
Inventor
张玉红
杨帅
李玉玲
李培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201810702735.7A priority Critical patent/CN108846128B/zh
Publication of CN108846128A publication Critical patent/CN108846128A/zh
Application granted granted Critical
Publication of CN108846128B publication Critical patent/CN108846128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种基于自适应噪音降噪编码器的跨领域文本分类方法,其特征是:采用适用于跨领域任务的特征选择方法,过滤在源领域数据集合和目标领域数据集合中的样本中出现频率较低和无意义的特征词,并跟据源领域集合和目标领域集合中的样本之间的分布差异自适应地计算出较优噪音干扰系数,利用较优噪音干扰系数对特征空间进行干扰,采用堆叠边缘降噪编码器方法构建新的特征空间并构建分类器。本发明能更好地挖掘领域间潜在特征之间的关系,减小领域差异,从而能够提高分类的正确性。

Description

一种基于自适应噪音降噪编码器的跨领域文本分类方法
技术领域
本发明涉及一种基于自适应噪音降噪编码器的跨领域文本分类方法,并对网络文本数据信息进行分类,更具体的说是针对不同领域、不同数据分布的网络文本数据信息进行跨领域分类。
背景技术
近年来,随着博客、微信、微博等网络社交平台的迅速兴起,互联网上产生了大量的文本信息,这些海量的数据中往往蕴含着巨大的潜在商业价值,例如,商家通过分析消费者评论信息,可以有针对地进行产品改进或升级,从而满足消费者需求,提高市场竞争力;对消费者而言,商品的评论信息在一定程度上左右了消费者的购买意愿,即口碑好的商品更会受到消费者的青睐。鉴于此,文本分类等相关领域的研究具有极其重要的价值和意义。
然而,由于网络中数据受用户,时间等多因素的影响,其数据分布在不断发生变化,因此,较难收集到满足同一分布的充足的有效训练数据,从而给传统的分类方法带来了挑战。例如在网络评论中,对于新电子产品评论往往较少,难以进行有效的分类,而某些具有充足训练样本的领域,其他的如书籍,电影或者旧的电子产品,其数据分布又与新领域不同,直接利用这些领域的分类器难以取得理想的效果。随着信息的高速发展,每天都会涌现新的领域。从而使得文本分类问题变得更加复杂,也使得传统的数据挖掘算法和已有的机器学习方法面临严峻的挑战。
深度学习在自然处理领域研究成果显著,多种神经网络模型被用于文本分类,如卷积神经网络(CNNs),循环神经网络(RNNs)。其中,边缘降噪自动编码器通过堆叠多层能获取中间潜在特征,从而更好地用于分类任务,然而其计算成本很高且缺乏对高维特征的可扩展性。此外,其分类精度受限于噪音干扰系数的设定。现有的方法多通过人为指定或在数据集上反复训练得到一个经验值,不具有普适性,从而限制了在应用中的使用。
综上,现有技术中基于边缘降噪自动编码器的跨领域文本分类面临着以下的挑战:
一是文本数据具有高维、稀疏的特点。跨领域分类任务需要同时处理多个不同领域的特征,使得特征空间进一步加大,更进一步加剧了文本数据的高维、稀疏性,从而使得有意义特征的选择变得困难,给学习一个公共的特征空间用于跨领域分类带来了挑战。
二是尽管边缘降噪编码器在跨领域分类任务中能学习一个较为强健的特征空间,然而,其学习结果对噪音系数敏感。如何针对不同的领域和不同的跨领域任务制定合理的噪音系数计算方法也是跨领域分类中边缘降噪编码器的另一挑战问题。
发明内容
本发明是为避免上述现有技术所存在的不足,提供一种基于自适应噪音降噪编码器的跨领域文本分类方法,以期在合理的特征空间基础上,自适应地计算出较优的噪音干扰系数,以挖掘领域间特征的潜在关系,从而获得公共的潜在特征空间,进而提高跨领域文本分类的正确性。
本发明为实现发明目的采用如下技术方案:
本发明基于自适应噪音降噪编码器的跨领域文本分类方法的特点是按如下步骤进行:
步骤1:统计源领域和目标领域的特征词及其出现频率
分别获取目标领域数据集合DT,以及带有标签信息的源领域数据集合DS,
Figure BDA0001714839860000021
ti为目标领域数据集合DT中的第i个样本,
Figure BDA0001714839860000022
nt为目标领域数据集合DT中的样本个数,
Figure BDA0001714839860000023
表示所述目标领域数据集合DT中第i个样本ti中的第a个特征词,a=1,2,…,nwt,nwt为目标领域数据集合DT中样本的特征词个数;
sj为源领域数据集合DS中的第j个样本,
Figure BDA0001714839860000024
ns为源领域数据集合DS中的样本个数,
Figure BDA0001714839860000025
表示所述源领域数据集合DS中第j个样本sj中的第b个特征词,b=1,2,…,nws,nws为源领域数据集合DT中样本的特征词个数;yj为源领域数据集合DS中第j个样本sj的标签,且
Figure BDA0001714839860000026
cd表示所述源领域数据集合DS中样本的第d个类别,d=1,2,…,nc,nc表示所述源领域数据集合DS中样本类别个数;
对所述源领域数据集合DS和目标领域数据集合DT中样本的特征词作并集操作,得到特征空间Z,
Figure BDA0001714839860000027
ze为特征空间Z中的第e个特征词,e=1,2,…,ne,ne为特征空间Z中特征词个数;
统计所述特征空间Z中每个特征词在所述源领域数据集合DS和目标领域数据集合DT样本中出现的频率,分别记为Fs和Ft
Figure BDA0001714839860000028
Figure BDA0001714839860000029
分别表示所述特征空间中的第e个特征词ze在所述源领域数据集合DS和目标领域数据集合DT样本中出现的频率;
步骤2:过滤低频率和无意义的特征词
从所述特征空间Z中选取在所述源领域数据集合DS和目标领域数据集合DT样本中出现次数都大于设定次数α的特征词,组成候选特征集CW,
Figure BDA00017148398600000210
wg为候选特征集CW中第g个特征词,g=1,2,…,ncw,ncw为候选特征集CW中的特征词个数。
由式(1)计算获得候选特征集CW中每个特征词wg的强化权重似然比WLLU(wg,cd);
由式(2)计算获得每个特征词wg的频率综合指标r(wg,cd);
Figure BDA0001714839860000031
Figure BDA0001714839860000032
Figure BDA0001714839860000033
Figure BDA0001714839860000034
分别表示候选特征集CW中特征词wg在类别yg=cd和yg≠cd条件下出现的概率,yg为特征词wg所属类别;
Figure BDA0001714839860000035
Figure BDA0001714839860000036
分别表示所述候选特征集CW中的第g个特征词wg在所述源领域数据集合DS和目标领域数据集合DT样本中出现的频率;
对所述候选特征集CW中所有特征词根据频率综合指标r(wg,cd)进行降序排序,选取前若干个特征词构成共享特征词集IW,
Figure BDA0001714839860000037
vk为共享特征集IW中第k个特征词,k=1,2,…,niw,niw为共享特征集IW中的特征词个数,以所述共享特征词集IW作为参与领域适应任务的特征空间;
步骤3:自适应地计算较优噪音干扰系数
将所述共享特征集IW中第k个特征词vk的中间特征映射空间记为
Figure BDA0001714839860000038
Figure BDA0001714839860000039
Figure BDA00017148398600000310
Figure BDA00017148398600000311
分别表示所述共享特征集IW中第k个特征词vk在所述源领域数据集合DS和目标领域数据集合DT样本中出现的频率;
利用式(3)计算获得所述共享特征集IW中每个特征vk到中间特征映射空间
Figure BDA00017148398600000312
的KL距离KLD,利用式(4)计算获得较优噪音干扰系数noises:
Figure BDA00017148398600000313
Figure BDA00017148398600000314
步骤4:获取新的特征空间并构建分类器
将所述源领域数据集合DS和目标领域数据集合DT中的样本进行合并,得到合并集合X,
Figure BDA00017148398600000315
以X为初始输入,利用堆叠L层边缘降噪自动编码方法学习获得新的特征空间;
步骤5:基于所获得的新的特征空间,通过对源领域数据集合DS中样本进行训练获得分类器,利用所获得的分类器对目标领域数据集合DT中的样本进行分类预测。
本发明基于自适应噪音降噪编码器的跨领域文本分类方法的特点也在于:所述利用堆叠L层边缘降噪自动编码方法学习获得新的特征空间是按如下过程进行:
将第l层的输入记为hl-1,l=1,2,…,L,h0=X,以噪音干扰系数noises对所述第l层的输入hl-1进行随机损坏,得到损坏数据
Figure BDA0001714839860000041
Figure BDA0001714839860000042
重构误差L(Ul)由式(5)所表征:
Figure BDA0001714839860000043
式(5)中的λ为常数,Ul的最优解为:Ul=Pl(Ql)-1,其中
Figure BDA0001714839860000044
Figure BDA0001714839860000045
Ql的表达式如式(6),式6中()mu表示矩阵的第m行第u列元素。
Figure BDA0001714839860000046
由此获得第l层的输出特征空间hl=tanh(Ulhl-1),tanh()为双曲正切函数;
按同样的方法堆叠L层,得到最终特征空间H,H={h0,h1,…,hL},hlayer为所述最终特征空间H第layer层特征表示,layer=0,1,…,L;基于所述最终特征空间H对所述源领域数据集合DS和目标领域数据集合DT中的样本进行特征表示;分别得到这两个领域中样本新的特征表示形式DS'和DT',
Figure BDA0001714839860000047
为源领域数据集合DS中样本的第layer层特征表示,
Figure BDA0001714839860000048
为目标领域数据集合DT中样本的第layer层特征表示;
基于所述源领域数据集合DS中样本新的特征表示形式DS'训练分类器,再对目标领域数据集合DT中基于新的特征表示形式DT'中的样本进行分类预测。
与已有技术相比,本发明有益效果体现在:
1、为了减小特征空间的高维、稀疏性,使特征空间更有利于进一步的特征学习,本发明提出了适用于跨领域任务的特征选择指标,即:强化权重比指标,用于对原始特征空间进行筛选,过滤对跨领域任务无用的特征,从而有效减小了特征空间的维度,降低稀疏性。
2、为了捕获更加强健的、具有目标领域适应性的文本特征空间,本发明根据领域之间的差异自适应地计算一个较优的噪音系数,有利于学习更高质量潜在特征空间,该噪音系数根据数据分布计算,不需要人为参与。
3、本发明采用边缘化降噪方法,使用线性去噪器作为基础构建模型,对特征进行边缘化损坏处理。相比已有技术中的SDA方法,本发明不需要通过随机梯度下降的方法或者其它优化算法来学习超参数,很大程度上减小了训练时间,而且适应于高维特征空间,克服了深度学习方法中训练模型计算成本高的问题。
4、本发明面向实际应用领域,如:用户在社交网络发表对事件看法的情感分类,可用于政府部门及时发现并掌握舆论走向;对网上购物用户对商品评论的情感倾向,可为商家、消费者提供预测、预警工作,为商家的销售、服务质量调整策略提供建议以及为消费者的购物行为进行推荐,具有非常好的实用性。
附图说明
图1是本发明流程图;
具体实施方式
参见图1,本实施例中基于自适应噪音降噪编码器的跨领域文本分类方法是按如下步骤进行:
步骤1:统计源领域和目标领域的特征词及其出现频率
分别获取目标领域数据集合DT,以及带有标签信息的源领域数据集合DS,
Figure BDA0001714839860000051
ti为目标领域数据集合DT中的第i个样本,
Figure BDA0001714839860000057
nt为目标领域数据集合DT中的样本个数,
Figure BDA0001714839860000053
表示目标领域数据集合DT中第i个样本ti中的第a个特征词,a=1,2,…,nwt,nwt为目标领域数据集合DT中样本的特征词个数。
sj为源领域数据集合DS中的第j个样本,
Figure BDA0001714839860000054
ns为源领域数据集合DS中的样本个数,wb j表示源领域数据集合DS中第j个样本sj中的第b个特征词,b=1,2,…,nws,nws为源领域数据集合DT中样本的特征词个数;yj为源领域数据集合DS中第j个样本sj的标签,且
Figure BDA0001714839860000055
cd表示源领域数据集合DS中样本的第d个类别,d=1,2,…,nc,nc表示源领域数据集合DS中样本类别个数。
对源领域数据集合DS和目标领域数据集合DT中样本的特征词作并集操作,得到特征空间Z,
Figure BDA0001714839860000056
ze为特征空间Z中的第e个特征词,e=1,2,…,ne,ne为特征空间Z中特征词个数。
统计特征空间Z中每个特征词在源领域数据集合DS和目标领域数据集合DT样本中出现的频率,分别记为Fs和Ft
Figure BDA0001714839860000061
Figure BDA0001714839860000062
分别表示特征空间中的第e个特征词ze在源领域数据集合DS和目标领域数据集合DT样本中出现的频率。
步骤2:过滤低频率和无意义的特征词
共享特征词是领域适应效果的关键。共享特征词的选取须具有两个条件:共享特征词在源领域数据集合DS和目标领域数据集合DT样本中有较高的极性,并且在两个领域样本中出现频率相对较高。因此,选择在源领域数据集合DS和目标领域数据集合DT样本中出现频率高且极性强的特征作为共享特征。
从特征空间Z中选取在源领域数据集合DS和目标领域数据集合DT样本中出现次数都大于设定次数α的特征词,组成候选特征集CW,
Figure BDA0001714839860000063
wg为候选特征集CW中第g个特征词,g=1,2,…,ncw,ncw为候选特征集CW中的特征词个数。
由式(1)计算获得候选特征集CW中每个特征词wg的强化权重似然比WLLU(wg,cd);
由式(2)计算获得每个特征词wg的频率综合指标r(wg,cd);
Figure BDA0001714839860000064
Figure BDA0001714839860000065
Figure BDA0001714839860000066
Figure BDA0001714839860000067
分别表示候选特征集CW中特征词wg在类别yg=cd和yg≠cd条件下出现的概率,yg为特征词wg所属类别;
Figure BDA0001714839860000068
Figure BDA0001714839860000069
分别表示候选特征集CW中的第g个特征词wg在源领域数据集合DS和目标领域数据集合DT样本中出现的频率。
对候选特征集CW中所有特征词根据频率综合指标r(wg,cd)进行降序排序,选取前若干个特征词构成共享特征词集IW,
Figure BDA00017148398600000610
vk为共享特征集IW中第k个特征词,k=1,2,…,niw,niw为共享特征集IW中的特征词个数,以共享特征词集IW作为参与领域适应任务的特征空间。
WLLU(·)是在已有WLLR的基础上进行改进的,为了更能突出特征wg对分类的影响程度,用
Figure BDA00017148398600000611
替换了原WLLR计算公式中的
Figure BDA00017148398600000612
使得重要的特征其WLLU(·)取值更大,从而有利于对特征的筛选。同时,r(·)指标在WLLU(·)基础上增加了
Figure BDA00017148398600000613
用于度量特征wg对目标领域集合DT的依赖性。若
Figure BDA0001714839860000071
则表示特征wg对目标领域集合DT的依赖性较强,反之则较弱。因此,依据r(·)指标降序排序,可以过滤掉在源领域集合DS样本中较为重要,但在目标领域集合DT样本中较少出现或不重要的特征词被选为共享特征参与领域适应任务。
步骤3:自适应地计算较优噪音干扰系数
将共享特征集IW中第k个特征词vk的中间特征映射空间记为
Figure BDA0001714839860000072
Figure BDA0001714839860000073
Figure BDA0001714839860000074
Figure BDA0001714839860000075
分别表示共享特征集IW中第k个特征词vk在源领域数据集合DS和目标领域数据集合DT样本中出现的频率。
利用式(3)计算获得共享特征集IW中每个特征vk到中间特征映射空间
Figure BDA0001714839860000076
的KL距离KLD,利用式(4)计算获得较优噪音干扰系数noises:
Figure BDA0001714839860000077
Figure BDA0001714839860000078
步骤4:获取新的特征空间并构建分类器
将源领域数据集合DS和目标领域数据集合DT中的样本进行合并,得到合并集合X,
Figure BDA0001714839860000079
以X为初始输入,利用堆叠L层边缘降噪自动编码方法学习获得新的特征空间。
步骤5:基于所获得的新的特征空间,通过对源领域数据集合DS中样本进行训练获得分类器,利用所获得的分类器对目标领域数据集合DT中的样本进行分类预测。
具体实施中,利用堆叠L层边缘降噪自动编码方法学习获得新的特征空间是按如下过程进行:
将第l层的输入记为hl-1,l=1,2,…,L,h0=X,以噪音干扰系数noises对第l层的输入hl-1进行随机损坏,得到损坏数据
Figure BDA00017148398600000710
Figure BDA00017148398600000711
重构误差L(Ul)由式(5)所表征:
Figure BDA00017148398600000712
式(5)中的λ为常数,Ul的最优解为:Ul=Pl(Ql)-1,其中
Figure BDA00017148398600000713
Figure BDA0001714839860000081
Ql的表达式如式(6),式(6)中()mu表示矩阵的第m行第u列元素。
Figure BDA0001714839860000082
由此获得第l层的输出特征空间hl=tanh(Ulhl-1),tanh()为双曲正切函数;
按同样的方法堆叠L层,得到最终特征空间H,H={h0,h1,…,hL},hlayer为最终特征空间H第layer层特征表示,layer=0,1,…,L;基于最终特征空间H对源领域数据集合DS和目标领域数据集合DT中的样本进行特征表示;分别得到这两个领域中样本新的特征表示形式DS'和DT',
Figure BDA0001714839860000083
为源领域数据集合DS中样本的第layer层特征表示,
Figure BDA0001714839860000084
为目标领域数据集合DT中样本的第layer层特征表示;基于源领域数据集合DS中样本新的特征表示形式DS'训练分类器,再对目标领域数据集合DT中基于新的特征表示形式DT'中的样本进行分类预测。
本发明给出了适用于跨领域的评判指标,用于过滤无意义特征,并根据源领域和目标领域之间的差异自适应地计算领域间的较优噪音干扰系数,能更好的挖掘领域间潜在特征之间的关系,减小领域差异,从而能够提高分类的正确性。

Claims (1)

1.一种基于自适应噪音降噪编码器的跨领域文本分类方法,其特征是按如下步骤进行:
步骤1:统计源领域和目标领域的特征词及其出现频率
分别获取目标领域数据集合DT,以及带有标签信息的源领域数据集合DS,
Figure FDA0003108768600000011
ti为目标领域数据集合DT中的第i个样本,
Figure FDA0003108768600000012
nt为目标领域数据集合DT中的样本个数,
Figure FDA0003108768600000013
表示所述目标领域数据集合DT中第i个样本ti中的第a个特征词,a=1,2,…,nwt,nwt为目标领域数据集合DT中样本的特征词个数;
sj为源领域数据集合DS中的第j个样本,
Figure FDA0003108768600000014
ns为源领域数据集合DS中的样本个数,
Figure FDA0003108768600000015
表示所述源领域数据集合DS中第j个样本sj中的第b个特征词,b=1,2,…,nws,nws为源领域数据集合DT中样本的特征词个数;yj为源领域数据集合DS中第j个样本sj的标签,且
Figure FDA0003108768600000016
cd表示所述源领域数据集合DS中样本的第d个类别,d=1,2,…,nc,nc表示所述源领域数据集合DS中样本类别个数;
对所述源领域数据集合DS和目标领域数据集合DT中样本的特征词作并集操作,得到特征空间Z,
Figure FDA0003108768600000017
ze为特征空间Z中的第e个特征词,e=1,2,…,ne,ne为特征空间Z中特征词个数;
统计所述特征空间Z中每个特征词在所述源领域数据集合DS和目标领域数据集合DT样本中出现的频率,分别记为Fs和Ft
Figure FDA0003108768600000018
Figure FDA0003108768600000019
Figure FDA00031087686000000110
分别表示所述特征空间中的第e个特征词ze在所述源领域数据集合DS和目标领域数据集合DT样本中出现的频率;
步骤2:过滤低频率和无意义的特征词
从所述特征空间Z中选取在所述源领域数据集合DS和目标领域数据集合DT样本中出现次数都大于设定次数α的特征词,组成候选特征集CW,
Figure FDA00031087686000000111
wg为候选特征集CW中第g个特征词,g=1,2,…,ncw,ncw为候选特征集CW中的特征词个数;
由式(1)计算获得候选特征集CW中每个特征词wg的强化权重似然比WLLU(wg,cd);
由式(2)计算获得每个特征词wg的频率综合指标r(wg,cd);
Figure FDA00031087686000000112
Figure FDA0003108768600000021
Figure FDA0003108768600000022
Figure FDA0003108768600000023
分别表示候选特征集CW中特征词wg在类别yg=cd和yg≠cd条件下出现的概率,yg为特征词wg所属类别;
Figure FDA0003108768600000024
Figure FDA0003108768600000025
分别表示所述候选特征集CW中的第g个特征词wg在所述源领域数据集合DS和目标领域数据集合DT样本中出现的频率;
对所述候选特征集CW中所有特征词根据频率综合指标r(wg,cd)进行降序排序,选取前若干个特征词构成共享特征词集IW,
Figure FDA0003108768600000026
vk为共享特征集IW中第k个特征词,k=1,2,…,niw,niw为共享特征集IW中的特征词个数,以所述共享特征词集IW作为参与领域适应任务的特征空间;
步骤3:自适应地计算较优噪音干扰系数
将所述共享特征集IW中第k个特征词vk的中间特征映射空间记为
Figure FDA0003108768600000027
Figure FDA0003108768600000028
Figure FDA0003108768600000029
Figure FDA00031087686000000210
分别表示所述共享特征集IW中第k个特征词vk在所述源领域数据集合DS和目标领域数据集合DT样本中出现的频率;
利用式(3)计算获得所述共享特征集IW中每个特征vk到中间特征映射空间
Figure FDA00031087686000000211
的KL距离KLD,利用式(4)计算获得较优噪音干扰系数noises:
Figure FDA00031087686000000212
Figure FDA00031087686000000213
步骤4:获取新的特征空间并构建分类器
将所述源领域数据集合DS和目标领域数据集合DT中的样本进行合并,得到合并集合X,
Figure FDA00031087686000000214
以X为初始输入,按如下过程利用堆叠L层边缘降噪自动编码方法学习获得新的特征空间:
将第l层的输入记为hl-1,l=1,2,…,L,h0=X,以噪音干扰系数noises对所述第l层的输入hl-1进行随机损坏,得到损坏数据
Figure FDA00031087686000000215
Figure FDA00031087686000000216
重构误差L(Ul)由式(5)所表征:
Figure FDA0003108768600000031
式(5)中的λ为常数,Ul的最优解为:Ul=Pl(Ql)-1,其中
Figure FDA0003108768600000032
Figure FDA0003108768600000033
Ql的表达式如式(6),式6中()mu表示矩阵的第m行第u列元素;
Figure FDA0003108768600000034
由此获得第l层的输出特征空间hl=tanh(Ulhl-1),tanh()为双曲正切函数;
按同样的方法堆叠L层,得到最终特征空间H,H={h0,h1,…,hL},hlayer为所述最终特征空间H第layer层特征表示,layer=0,1,…,L;基于所述最终特征空间H对所述源领域数据集合DS和目标领域数据集合DT中的样本进行特征表示;分别得到这两个领域中样本新的特征表示形式DS'和DT',
Figure FDA0003108768600000035
Figure FDA0003108768600000036
为源领域数据集合DS中样本的第layer层特征表示,
Figure FDA0003108768600000037
Figure FDA0003108768600000038
为目标领域数据集合DT中样本的第layer层特征表示;
基于所述源领域数据集合DS中样本新的特征表示形式DS'训练分类器,再对目标领域数据集合DT中基于新的特征表示形式DT’中的样本进行分类预测;
步骤5:基于所获得的新的特征空间,通过对源领域数据集合DS中样本进行训练获得分类器,利用所获得的分类器对目标领域数据集合DT中的样本进行分类预测。
CN201810702735.7A 2018-06-30 2018-06-30 一种基于自适应噪音降噪编码器的跨领域文本分类方法 Active CN108846128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810702735.7A CN108846128B (zh) 2018-06-30 2018-06-30 一种基于自适应噪音降噪编码器的跨领域文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810702735.7A CN108846128B (zh) 2018-06-30 2018-06-30 一种基于自适应噪音降噪编码器的跨领域文本分类方法

Publications (2)

Publication Number Publication Date
CN108846128A CN108846128A (zh) 2018-11-20
CN108846128B true CN108846128B (zh) 2021-09-14

Family

ID=64200987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810702735.7A Active CN108846128B (zh) 2018-06-30 2018-06-30 一种基于自适应噪音降噪编码器的跨领域文本分类方法

Country Status (1)

Country Link
CN (1) CN108846128B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783644A (zh) * 2019-01-18 2019-05-21 福州大学 一种基于文本表示学习的跨领域情感分类系统及方法
CN110119448B (zh) * 2019-05-08 2020-11-06 合肥工业大学 基于双重自动编码器的半监督跨领域文本分类方法
CN110659744B (zh) * 2019-09-26 2021-06-04 支付宝(杭州)信息技术有限公司 训练事件预测模型、评估操作事件的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法
CN107092644A (zh) * 2017-03-07 2017-08-25 重庆邮电大学 一种基于MPI和Adaboost.MH的中文文本分类方法
CN107679031A (zh) * 2017-09-04 2018-02-09 昆明理工大学 基于堆叠降噪自编码机的广告博文识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100186091A1 (en) * 2008-05-13 2010-07-22 James Luke Turner Methods to dynamically establish overall national security or sensitivity classification for information contained in electronic documents; to provide control for electronic document/information access and cross domain document movement; to establish virtual security perimeters within or among computer networks for electronic documents/information; to enforce physical security perimeters for electronic documents between or among networks by means of a perimeter breach alert system
US9069798B2 (en) * 2012-05-24 2015-06-30 Mitsubishi Electric Research Laboratories, Inc. Method of text classification using discriminative topic transformation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN105740424A (zh) * 2016-01-29 2016-07-06 湖南大学 一种基于 Spark 平台的高效率文本分类方法
CN107092644A (zh) * 2017-03-07 2017-08-25 重庆邮电大学 一种基于MPI和Adaboost.MH的中文文本分类方法
CN107679031A (zh) * 2017-09-04 2018-02-09 昆明理工大学 基于堆叠降噪自编码机的广告博文识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于多桥映射的跨领域文本分类方法;杨奇奇等;《计算机应用研究》;20170818;全文 *
用于域适应的多边缘降噪自动编码器;杨帅等;《计算机科学与探索》;20180524;全文 *

Also Published As

Publication number Publication date
CN108846128A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
Potdar et al. A comparative study of categorical variable encoding techniques for neural network classifiers
Tanwar et al. Dimensionality reduction using PCA and SVD in big data: A comparative case study
CN111199343A (zh) 一种多模型融合的烟草市场监管异常数据挖掘方法
CN108846128B (zh) 一种基于自适应噪音降噪编码器的跨领域文本分类方法
CN111461225B (zh) 客户聚类系统及其方法
Kan et al. Dynamic network monitoring and control of in situ image profiles from ultraprecision machining and biomanufacturing processes
CN111582538A (zh) 一种基于图神经网络的社群价值预测方法及系统
US20210397956A1 (en) Activity level measurement using deep learning and machine learning
Radhakrishnan et al. Application of data mining in marketing
US11144938B2 (en) Method and system for predictive modeling of consumer profiles
Aghaie et al. Using bayesian networks for bankruptcy prediction: Empirical evidence from iranian companies
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
Gauraha Stability feature selection using cluster representative lasso
Singh et al. Dimensionality Reduction for Classification and Clustering
Wagenmans Machine learning in bankruptcy prediction
CN103942421A (zh) 基于噪声扰动的测试数据预测方法
CN114529063A (zh) 一种基于机器学习的金融领域数据预测方法、设备及介质
Yakubovskyi et al. Combined neural network model for real estate market range value estimation
CN113159419A (zh) 一种群体特征画像分析方法、装置、设备及可读存储介质
Van Dam Predicting Employee Attrition
Sarlo et al. Lumpy and intermittent retail demand forecasts with score-driven models
Mazza-Anthony et al. Learning Gaussian Graphical Models With Ordered Weighted $\ell _1 $ Regularization
Kottou et al. Bilateral trade flow prediction models enhanced by wavelet and machine learning algorithms
Carrega et al. Data Streams for Unsupervised Analysis of Company Data
Osman Volkan et al. Applying Data Mining Techniques to Analyze Different Generation Customers’ Preferences for Buying Gold Necklaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant