CN110119448B - 基于双重自动编码器的半监督跨领域文本分类方法 - Google Patents
基于双重自动编码器的半监督跨领域文本分类方法 Download PDFInfo
- Publication number
- CN110119448B CN110119448B CN201910378359.5A CN201910378359A CN110119448B CN 110119448 B CN110119448 B CN 110119448B CN 201910378359 A CN201910378359 A CN 201910378359A CN 110119448 B CN110119448 B CN 110119448B
- Authority
- CN
- China
- Prior art keywords
- text data
- data set
- matrix
- formula
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Abstract
本发明公开了一种基于双重自动编码器的半监督跨领域文本分类方法,其步骤包括:采用双重自动编码器同时获取源领域文本数据集合和目标领域文本数据集合之间的全局和局部特征表示用于跨领域文本分类任务;第一重自动编码器为基于自适应分布的边缘降噪自动编码器,它主要用来学习源领域和目标领域文本数据集合的全局特征表示;第二重自动编码器为基于多类别的边缘降噪自动编码器,它以更细粒度方式学习源领域和目标领域文本数据集合的局部特征表示。本发明能更好地挖掘源领域文本数据集合和目标领域文本数据集合中特征之间的潜在关系,从而进一步提高文本分类的正确性。
Description
技术领域
本发明涉及机器学习领域,具体的说是一种基于双重自动编码器的半监督跨领域分类方法,并对文本数据信息进行分类,更具体地说是利用某个领域的文本数据信息对另一个具有不同数据分布的文本数据信息进行分类。
背景技术
近年来,随着信息化、网络化快速发展,人们的生活与工作也越来越依赖网络信息;现如今,网络信息几乎涉及了人类生活的全部领域;然而,网络技术的发展,网络数据也在逐年增长;一些具有重要价值的信息一般都隐藏在这些数据中,如何对这些海量数据进行高效、准确的分类,使之更好地服务于人们的日常生活与工作日益重要;例如:在京东、淘宝等购物平台,商家可以通过分析消费者评论信息,有针对地进行产品改进或升级,从而提高产品质量;对消费者而言,商品的评论信息在一定程度上左右了消费者的购买意愿,消费者偏向购买口碑较好的商品;一些个性化新闻推荐网站,后台技术人员通过对用户的阅览记录进行分析,对用户的喜好进行分类,然后根据用户的兴趣,给不同用户推荐不同领域的文章;鉴于此,文本分类等相关领域的研究具有极其重要的价值和意义;
现如今,不仅人类社会生活中数据的类型越来越多样化,而且对海量数据进行标记需要大量的人力和财力,传统的机器学习方法因而面临着艰难的挑战;传统机器学习方法通常基于两个基本假设:不仅训练数据和测试数据独立并且服从同一数据分布,而且需要大量的标记样本用于训练分类模型;然而,由于网络中数据受用户,时间等多因素的影响,其数据分布在不断发生变化,因此,较难收集到满足同一分布的充足的有效训练数据,从而传统的文本分类方法面临巨大的挑战;为了解决这个问题,国内外学者提出了大量跨领域文本学习算法;
深度学习在自然处理领域研究成果显著,多种神经网络模型被用于文本分类,如卷积神经网络(CNN)、循环神经网络(RNN)、对抗神经网络(GAN)以及自动编码器(AE);其中,降噪自动编码器通过堆叠多层能获取高层、鲁棒的特征表示,在跨领域文本分类任务上取得令人满意的分类正确率,然而其计算成本很高且缺乏对高维特征的可扩展性;目前,已有的降噪自动编码器多为无监督模型,在训练分类器时容易产生过拟合问题;此外,基于自动编码器的跨领域文本分类方法一般是基于自动编码器学习同时适用于源领域和目标领域深层特征表示,而忽略领域内的一些固有信息对跨领域文本分类的影响;已有的自动编码器模型不具有普适性,从而限制了在应用中的使用;
综上,现有技术中基于降噪自动编码器的跨领域文本分类面临着以下的挑战:
一是降噪编码器一般多为无监督模型,利用源领域中文本数据训练分类器时,没有利用源领域中文本数据的标签信息,容易产生过拟合问题;
二是已有的降噪自动编码器一般仅仅使用一种自动编码器模型学习可迁移的特征表示用于跨领域文本分类,通常一种自动编码器仅可以学习源领域和目标领域中文本数据的一种数据特征表示,不能从多个角度(全局、局部)学习丰富的数据表示用于跨领域文本分类;
发明内容
本发明是为避免上述现有技术所存在的不足,提供一种基于双重自动编码器的半监督跨领域文本分类方法,以期能获取源领域中文本数据和目标领域中文本数据的更丰富的特征表示,从而能进一步提高跨领域文本分类的准确率。
本发明为实现发明目的采用如下技术方案:
本发明一种基于双重自动编码器的半监督跨领域文本分类方法的特点是按如下步骤进行:
步骤1:初始化
步骤1.1:获取源领域的文本数据集合及其样本标签集合其中,si为所述源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为所述第i个文本数据si的标签,且cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;
步骤1.3:基于所述源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用所述源领域的分类器对所述目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且
步骤1.4:将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt;
步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为所述源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;
步骤2:利用基于自适应分布的边缘降噪自动编码方法对所述合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:
步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax;
步骤2.2:将所述合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;
步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):
式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;
式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示所述合并集合X中第α个文本数据和第δ个文本数据;
步骤2.5:利用最小二乘法对所述重构误差Θ(WL)进行求解,得到其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,为所述合并集合X的第L层的输入hL-1的共现矩阵,且QL为以噪音干扰系数p进行损坏后的矩阵,并由式(6)得到,为所述合并集合X的第L层的输入hL-1的边缘和条件联合分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(7)得到;
式(6)中,(·)mu表示矩阵的第m行第u列元素;
步骤2.6:获得第L层的输出特征空间hL=tanh(hL-1WL),其中,tanh()为双曲正切函数;
步骤3:利用基于多类别的边缘降噪自动编码方法学习对第d个类别cd的数据集Ed进行Lmax层堆叠学习,获得源领域的文本数据集合DS和和目标领域的文本数据集合DT的局部特征表示:
步骤3.1:初始化L=1;
步骤3.5:利用最小二乘法对所述重构误差进行求解,得到其中,Id为第d个类别cd的单位矩阵,为所述第d个类别cd的数据集Ed的第L层的输入的共现矩阵,且 为以噪音干扰系数p进行损坏后的矩阵,并由式(11)得到,为所述第d个类别cd的数据集Ed的第L层的输入边缘分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(12)得到;
式(11)中,(·)θρ表示矩阵的第θ行第ρ列元素;
步骤4:获取双重特征表示并构建分类器:
步骤4.1:将所述源领域和目标领域文本数据的全局特征表示Hglobal和局部特征表示Hlocal进行合并,形成双重特征表示H=[Hglobal;Hlocal];
将所述双重特征表示H划分为源领域的文本数据集合DS的特征表示HDS和目标领域的文本数据集合DT的特征表示HDT;
步骤4.2:基于所述源领域的文本数据集合DS的特征表示HDS利用支持向量机进行训练,得到源领域的特征表示的分类器;利用所述源领域的特征表示的分类器对所述目标领域的文本数据集合DT的特征表示HDT进行分类,得到目标领域的文本数据的新伪标签集合Y′T;
步骤4.3:判断||YT-Y′T||2≤1是否成立,若成立,则所得到的新伪标签集合Y′T即为所述目标领域的文本数据的分类结果;否则,将Y′T赋值给YT后,返回步骤1.3顺序执行。
与已有技术相比,本发明有益效果体现在:
1、本发明有效减少了训练分类器时出现过拟合的风险,同时提高了跨领域文本分类的正确性;本发明充分利用了源领域中文本数据的标签信息,并利用步骤1.3获取目标领域中文本数据的伪标签信息,然后利用这两个领域中的文本数据的标签信息最小化了领域间的文本数据分布差异,从而避免了训练分类器时出现过拟合问题又进一步提高了跨领域文本分类的分类精度;
2、本发明充分挖掘了源领域中文本数据和目标领域中文本数据的特征之间的潜在关系,从而提高了跨领域文本分类的分类性能;本发明在步骤2对源领域和目标领域中文本数据的全局特征表示进行了学习,同时挖掘了具有同一类别中文本数据间的信息,具体实施过程如步骤3所示,从而获得了更多的特征信息,有利于跨领域文本分类;
3、本发明采用两种类型的堆叠自动编码器学习源领域中文本数据和目标领域中文本数据的深层特征表示,获取了更高质量的特征表示,提高了跨领域文本分类的准确率;而且,本发明使用的两种类型的堆叠自动编码器运行速度更快,具有较高的实用价值;
4、本发明面向实际应用领域,如:用户在社交网络发表对不同事件看法的分类,可用于政府部门及时发现并掌握舆论走向;购物网站根据用户对某一商品的评论对另一种商品进行分析、分类,可为商家、消费者提供预测、预警工作,为商家的销售、服务质量调整策略提供建议以及为消费者的购物行为进行推荐,具有非常好的实用性;
附图说明
图1是本发明流程图。
具体实施方式
参见图1,本实施例中,一种基于双重自动编码器的半监督跨领域文本分类方法是按如下步骤进行:
步骤1:初始化
步骤1.1:获取源领域的文本数据集合及其样本标签集合其中,si为源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为第i个文本数据si的标签,且cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;
在学习特征表示时,需要利用源领域中文本数据的标签信息来获取更高质量的特征表示。具体实施时,同时也需要目标领域中文本数据的标签信息,由于源领域中文本数据标签已知而目标领域中文本数据的标签是未知,需要利用支持向量机在源领域文本数据上训练分类器并对目标领域中文本数据进行分类;具体实施过程如步骤1.3所示;
步骤1.3:基于源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用源领域的分类器对目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且
步骤1.4:将源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt;
步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;
步骤2:利用基于自适应分布的边缘降噪自动编码方法对合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:
在学习两个领域中文本数据的全局特征表示时,直接将源领域数据集合DS和目标领域数据集合DT中的样本数据放在一起训练,充分挖掘两个领域间所有特征之间的潜在关系。为了进一步获取高质量的全局特征表示,利用了源领域文本数据的标签信息和目标领域文本数据的伪标签信息来最小化领域间的边缘分布和条件分布。具体实施时,在目标函数中添加了边缘分布和条件分布这两个约束项来学习映射矩阵。
步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax;
步骤2.2:将合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;
步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):
式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;
式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示合并集合X中第α个文本数据和第δ个文本数据;
步骤2.5:利用最小二乘法对重构误差Θ(WL)进行求解,得到其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,为合并集合X的第L层的输入hL-1的共现矩阵,且QL为以噪音干扰系数p进行损坏后的矩阵,并由式(6)得到,为合并集合X的第L层的输入hL-1的边缘和条件联合分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(7)得到;
式(6)中,(·)mu表示矩阵的第m行第u列元素;
步骤2.6:获得第L层的输出特征空间hL=tanh(hL-1WL),其中,tanh()为双曲正切函数;
步骤3:利用基于多类别的边缘降噪自动编码方法学习对第d个类别cd的数据集Ed进行Lmax层堆叠学习,获得源领域的文本数据集合DS和和目标领域的文本数据集合DT的局部特征表示:
在学习局部特征表示时,利用源领域中文本数据的标签信息和目标领域中文本数据的伪标签信息,将属于同一类别的源领域中样本和目标领域中样本单独放在一起训练,以减少其它类别的数据对这个类别的影响。同时在学习局部特征表示时,在目标函数中添加了最大均值差异(MMD)约束项来进一步减小源领域和目标领域中文本数据的分布差异。
步骤3.1:初始化L=1;
步骤3.5:利用最小二乘法对重构误差进行求解,得到其中,Id为单位矩阵,为第d个类别cd的数据集Ed的第L层的输入的共现矩阵,且 为以噪音干扰系数p进行损坏后的矩阵,并由式(11)得到,为第d个类别cd的数据集Ed的第L层的输入边缘分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(12)得到;
式(11)中,(·)θρ表示矩阵的第θ行第ρ列元素;
步骤4:获取双重特征表示并构建分类器:
步骤4.1:将源领域和目标领域文本数据的全局特征表示Hglobal和局部特征表示Hlocal进行合并,形成双重特征表示H=[Hglobal;Hlocal];
将双重特征表示H划分为源领域的文本数据集合DS的特征表示HDS和目标领域的文本数据集合DT的特征表示HDT;
步骤4.2:基于源领域的文本数据集合DS的特征表示HDS利用支持向量机进行训练,得到源领域的特征表示的分类器;利用源领域的特征表示的分类器对目标领域的文本数据集合DT的特征表示HDT进行分类,得到目标领域的文本数据的新伪标签集合Y′T;
步骤4.3:判断||YT-Y′T||2≤1是否成立,若成立,则所得到的新伪标签集合Y′T即为目标领域的文本数据的分类结果;否则,将Y′T赋值给YT后,返回步骤1.3顺序执行;
本发明使用两种不同类型的自动编码器用于学习源领域中文本数据和目标领域中文本数据的全局特征表示和局部特征表示,并引入源领域中文本数据的标签信息来优化特征表示,以此来进一步缩小源领域和目标领域中文本数据的分布差异,能更好的捕捉源领域和目标领域中文本数据中特征之间的关系,从而能够提高文本分类的正确性。
Claims (1)
1.一种基于双重自动编码器的半监督跨领域文本分类方法,其特征是按如下步骤进行:
步骤1:初始化
步骤1.1:获取源领域的文本数据集合及其样本标签集合其中,si为所述源领域的文本数据集合DS中第i个文本数据,i=1,2,…,ns,ns为源领域文本数据集合DS中的文本数据个数;yi为所述第i个文本数据si的标签,且cd表示第d个类别;d=1,2,…,nc,nc表示类别个数;
步骤1.3:基于所述源领域的文本数据集合DS利用支持向量机进行训练,得到源领域的分类器;利用所述源领域的分类器对所述目标领域的文本数据集合DT进行分类,得到目标领域的文本数据的伪标签集合yj为目标领域的文本数据集合DT中第j个文本数据tj的伪标签,且
步骤1.4:将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中所有文本数据进行合并,得到合并集合X,X=[x1,x2,…,xa,…,xA],xa为合并集合X中第a个文本数据,a=1,2,…,A,且A=ns+nt;
步骤1.5:根据源领域的文本数据的样本标签集合YS和目标领域的文本数据的伪标签集合YT,将所述源领域的文本数据集合DS和目标领域的文本数据集合DT中的属于同一类别的文本数据划分为一类,从而得到包含nc个类的数据集,其中第d个类别cd的数据集,记为Ed=[DSd,DTd];DSd为所述源领域的文本数据集合DS中,样本标签属于第d个类别cd的所有文本数据;DTd为目标领域的文本数据集合DT中,伪标签属于第d个类别cd的所有文本数据;
步骤2:利用基于自适应分布的边缘降噪自动编码方法对所述合并集合X进行Lmax层堆叠学习,获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示:
步骤2.1:定义当前堆叠学习的层数为L;并初始化L=1;定义最大堆叠学习的层数为Lmax;
步骤2.2:将所述合并集合X的第L层的输入记为hL-1,当L=1,令hL-1=X;
步骤2.4:利用式(1)表征第L层的重构误差Θ(WL):
式(1)中,λ,β为常数,||·||2表示矩阵的Frobenius范数的平方,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的边缘分布,并利用式(2)得到,是第L层的源领域的文本数据集合DS和目标领域的文本数据集合DT的条件分布,并利用式(4)得到;
式(3)中,(·)αδ表示矩阵的第α行第δ列元素;xα和xδ分别表示所述合并集合X中第α个文本数据和第δ个文本数据;
步骤2.5:利用最小二乘法对所述重构误差Θ(WL)进行求解,得到其中,(·)-1为矩阵(·)的逆,Ig为单位矩阵,为所述合并集合X的第L层的输入hL-1的共现矩阵,且QL为以噪音干扰系数p进行损坏后的矩阵,并由式(6)得到,为所述合并集合X的第L层的输入hL-1的边缘和条件联合分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(7)得到;
式(6)中,(·)mu表示矩阵的第m行第u列元素;
步骤2.6:获得第L层的输出特征空间hL=tanh(hL-1WL),其中,tanh()为双曲正切函数;
步骤2.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的全局特征表示Hglobal={h0;h1;···;hL;···;hLmax};否则,返回步骤2.3顺序执行;
步骤3:利用基于多类别的边缘降噪自动编码方法学习对第d个类别cd的数据集Ed进行Lmax层堆叠学习,获得源领域的文本数据集合DS和和目标领域的文本数据集合DT的局部特征表示:
步骤3.1:初始化L=1;
步骤3.5:利用最小二乘法对所述重构误差进行求解,得到其中,Id为第d个类别cd的单位矩阵,为所述第d个类别cd的数据集Ed的第L层的输入的共现矩阵,且 为以噪音干扰系数p进行损坏后的矩阵,并由式(11)得到,为所述第d个类别cd的数据集Ed的第L层的输入边缘分布的共现矩阵以噪音干扰系数p进行损坏后的矩阵,并由式(12)得到;
式(11)中,(·)θρ表示矩阵的第θ行第ρ列元素;
步骤3.7:将L+1赋值给L,并判断L>Lmax是否成立,若成立,则表示得到获得源领域的文本数据集合DS和目标领域的文本数据集合DT的局部特征表示Hlocal={z0;z1;···;zL;···;zLmax};否则,返回步骤3.3顺序执行;
步骤4:获取双重特征表示并构建分类器:
步骤4.1:将所述源领域和目标领域文本数据的全局特征表示Hglobal和局部特征表示Hlocal进行合并,形成双重特征表示H=[Hglobal;Hlocal];
将所述双重特征表示H划分为源领域的文本数据集合DS的特征表示HDS和目标领域的文本数据集合DT的特征表示HDT;
步骤4.2:基于所述源领域的文本数据集合DS的特征表示HDS利用支持向量机进行训练,得到源领域的特征表示的分类器;利用所述源领域的特征表示的分类器对所述目标领域的文本数据集合DT的特征表示HDT进行分类,得到目标领域的文本数据的新伪标签集合YT′;
步骤4.3:判断||YT-YT′||2≤1是否成立,若成立,则所得到的新伪标签集合YT′即为所述目标领域的文本数据的分类结果;否则,将YT′赋值给YT后,返回步骤1.3顺序执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910378359.5A CN110119448B (zh) | 2019-05-08 | 2019-05-08 | 基于双重自动编码器的半监督跨领域文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910378359.5A CN110119448B (zh) | 2019-05-08 | 2019-05-08 | 基于双重自动编码器的半监督跨领域文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110119448A CN110119448A (zh) | 2019-08-13 |
CN110119448B true CN110119448B (zh) | 2020-11-06 |
Family
ID=67521890
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910378359.5A Active CN110119448B (zh) | 2019-05-08 | 2019-05-08 | 基于双重自动编码器的半监督跨领域文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110119448B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825874A (zh) * | 2019-10-29 | 2020-02-21 | 北京明略软件系统有限公司 | 一种中文文本分类方法和装置及计算机可读存储介质 |
CN111897964B (zh) * | 2020-08-12 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 文本分类模型训练方法、装置、设备及存储介质 |
CN113590761B (zh) * | 2021-08-13 | 2022-03-25 | 网易有道信息技术(北京)有限公司 | 文本处理模型的训练方法、文本处理方法及相关设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2555192B (en) * | 2016-08-02 | 2021-11-24 | Invincea Inc | Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space |
CN107145836B (zh) * | 2017-04-13 | 2020-04-07 | 西安电子科技大学 | 基于栈式边界辨别自编码器的高光谱图像分类方法 |
CN108520535B (zh) * | 2018-03-26 | 2022-02-15 | 天津大学 | 基于深度恢复信息的物体分类方法 |
CN108846128B (zh) * | 2018-06-30 | 2021-09-14 | 合肥工业大学 | 一种基于自适应噪音降噪编码器的跨领域文本分类方法 |
CN109308485B (zh) * | 2018-08-02 | 2022-11-29 | 中国矿业大学 | 一种基于字典域适应的迁移稀疏编码图像分类方法 |
CN109492765A (zh) * | 2018-11-01 | 2019-03-19 | 浙江工业大学 | 一种基于迁移模型的图像增量学习方法 |
-
2019
- 2019-05-08 CN CN201910378359.5A patent/CN110119448B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110119448A (zh) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107608956B (zh) | 一种基于cnn-grnn的读者情绪分布预测算法 | |
US9965717B2 (en) | Learning image representation by distilling from multi-task networks | |
CN108376267B (zh) | 一种基于类别转移的零样本分类方法 | |
CN110321926B (zh) | 一种基于深度残差修正网络的迁移方法及系统 | |
CN107832663B (zh) | 一种基于量子理论的多模态情感分析方法 | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN109492229B (zh) | 一种跨领域情感分类方法和相关装置 | |
CN110119448B (zh) | 基于双重自动编码器的半监督跨领域文本分类方法 | |
CN108334638B (zh) | 基于长短期记忆神经网络与兴趣迁移的项目评分预测方法 | |
CN111881671B (zh) | 一种属性词提取方法 | |
US11599927B1 (en) | Artificial intelligence system using deep neural networks for pairwise character-level text analysis and recommendations | |
CN112069320B (zh) | 一种基于跨度的细粒度情感分析方法 | |
CN112487199A (zh) | 一种基于用户购买行为的用户特征预测方法 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
CN103942214B (zh) | 基于多模态矩阵填充的自然图像分类方法及装置 | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
CN113360659B (zh) | 一种基于半监督学习的跨领域情感分类方法及系统 | |
CN115309860A (zh) | 基于伪孪生网络的虚假新闻检测方法 | |
Thompson et al. | finFindR: Computer-assisted recognition and identification of bottlenose dolphin photos in r | |
CN111079011A (zh) | 一种基于深度学习的信息推荐方法 | |
CN102945372A (zh) | 基于多标签约束支持向量机的分类方法 | |
US20220156519A1 (en) | Methods and systems for efficient batch active learning of a deep neural network | |
CN109800424A (zh) | 一种基于改进矩阵分解与跨通道卷积神经网络的推荐方法 | |
CN113689234A (zh) | 一种基于深度学习的平台相关的广告点击率预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |