CN109783645A - 一种基于变分自编码的文本分类方法 - Google Patents

一种基于变分自编码的文本分类方法 Download PDF

Info

Publication number
CN109783645A
CN109783645A CN201910062185.1A CN201910062185A CN109783645A CN 109783645 A CN109783645 A CN 109783645A CN 201910062185 A CN201910062185 A CN 201910062185A CN 109783645 A CN109783645 A CN 109783645A
Authority
CN
China
Prior art keywords
variation
text
data
vector
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910062185.1A
Other languages
English (en)
Inventor
刘耿耿
谢麟
连鸿飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910062185.1A priority Critical patent/CN109783645A/zh
Publication of CN109783645A publication Critical patent/CN109783645A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于变分自编码的文本分类方法,首先,将非结构化的文本数据转化为结构化的向量表示,从而使得文本数据能够被计算机所处理;其次,对得到的文本向量,使用变分自编码器来对其进行降维;最后,通过十则交叉验证来对分类器进行训练,得到最后的分类精度。本发明利用变分自编码器来对文本数据进行降维,而后再对降维的数据进行分类,能够有效的提升文本分类精度。

Description

一种基于变分自编码的文本分类方法
技术领域
本发明涉及深度学习技术领域,特别是一种基于变分自编码的文本分类方法。
背景技术
随着信息技术的发展,互联网中存在着文本、声音、图片、视频等各种类型的数据,其中文本数据占据了互联网数据的一半以上。因此,如何从不断增长的庞大数据中快速而准确的找到需要的信息是现在的研究热点。文本分类技术是其中一种有效的解决方案,该技术能够得出给定的文本(句子、文档等)的标签或标签集合。然而文本都是半结构化或者结构化的数据,这不仅会影响分类算法的运行效率,而且会从文档中提取不准确的信息,最终导致分类性能不佳。因此,对文本向量进行降维进而提取到低维的特征向量是提高文本分类准确率的关键因素。
降维是文本分类过程中最重要的步骤之一。它主要是将数据从高维降低到一个远小于的维数。降维技术不仅可以降低文本分类的时间复杂度和空间复杂度,去除无关特征或噪声特征,而且可以更好地数据对数据进行解释。降维技术可以分为线性降维和非线性降维两大类。在线性降维中,主成分分析方法(Principle Component Analysis,简称PCA)和线性判别分析(Linear Discriminant Analysis,简称LDA)是两大主要的方法。PCA对原始数据进行线性变换,新生成的数据是原始数据的线性组合。LDA则是对数据进行投影,它使得投影后的数据在相同类别上距离更近而不同类别上的数据距离更远。显然,PCA是属于无监督学习,LDA则是有监督学习。
非线性降维可分为保留局部特征和保留全局特征。保留局部特征的降维方法也有很多种,有基于重建权值的方法以及基于领接图等方法。局部线性嵌入(Locally LinearEmbedding,简称LLE)关注于降维时保持样本局部的线性特征,它通过重建权值来放弃所有样本全局最优的降维,保证了局部最优来降维。拉普拉斯特征映射(Laplacian Eigenmaps,简称LE)看问题的角度和LLE有些相似,也是用局部的角度去构建数据之间的关系。它的直观思想是希望相互间有关系的点(在领接图中相连的点)在降维后的空间中尽可能的靠近。LE可以反映出数据内在的流形结构。在保持全局特征的方法中,有多维尺度变换(Multidimensional Scaling,简称MDS)、等距特征映射(Isometric feature mapping,简称Isomap)、神经网络等降维方法。其中,MDS和Isomap在降维后均保持样本间距离不变。
多层神经网络比浅层神经网络具有更好的特征学习能力,最著名的深度学习模型包括受限玻尔兹曼机(Restricted Boltzmann Machine,简称RBM)和自动编码器(Auto-Encoder,简称AE)。RBM是一种随机神经网络模型,只包括可见层和隐藏层,和普通前馈神经网络一样,同层神经元之间无连接,相邻层神经元之间全连接,其中隐藏层通常看作特征提取层。AE主要包括编码阶段和解码阶段,且结构是对称的,即如果有多个隐层时,编码阶段的隐层数量与解码阶段相同。解码器能够重构出经过编码器编码后的数据。所以训练得到的自编码器,提取编码器得到的隐层数据就可以作为一种降维。自编码器在这几年得到了快速的发展,通过增加了对隐含层的约束,使隐含层表达与输入层不同,如果此时模型还能重构输入数据,说明隐含层数据足以表示输入数据,进而发展出了各种各样的基于自编码器的改进模型。而隐含层数据相当于自动从模型中学习到的有效特征。变分自编码(Variational Auto-Encoder,简称VAE)由Kingma在2014年提出的一种基于自编码器的改进模型(D.P.Kingma and M.Welling,“Auto-encoding variational bayes,”inConference Proceedings:Papers Accepted To the International Conference onLearning Representations,2014.),它是一种生成模型。变分自编码器利用一组数据对模型进行训练,然后单独的解码器就可以自动生成与训练数据类似的输出。由于隐层可以自动生成生成与训练数据类似的输出,所以其隐层也可以认为是一种数据的降维方式。
发明内容
有鉴于此,本发明的目的是提出一种基于变分自编码的文本分类方法,利用变分自编码器来对文本数据进行降维,而后再对降维的数据进行分类,能够有效的提升文本分类精度。
本发明采用以下方案实现:一种基于变分自编码的文本分类方法,首先,将非结构化的文本数据转化为结构化的向量表示,从而使得文本数据能够被计算机所处理,能够得到维数远小于最先得到的文本向量;其次,对得到的文本向量,使用变分自编码器来对其进行降维;最后,通过十则交叉验证来对分类器进行训练,得到最后的分类精度。
进一步地,所述将非结构化的文本数据转化为结构化的向量表示具体为:采用词频-逆文本频率(TermFrequency-Inverse Document Frequency,简称TF-IDF)将非结构化的文本数据转化为结构化的向量表示。
进一步地,所述将非结构化的文本数据转化为结构化的向量表示具体包括以下步骤:
步骤S11:在一个给定的文件中,计算词频(Term Frequency,简称TF);其中TF指的是某一个给定的词语在该文件中出现的频率;
步骤S12:计算反文档频率IDF(Inverse Document Frequency,简称IDF),IDF是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到;
步骤S13:采用下式计算词语i在文档j中的TF-IDF值:
(TF-IDF)i,j=TFi,j×IDFi
式中,TFi,j表示词i在文档j中的出现频率,IDFi,j表示词语i的反文档频率。
其中,词频的计算采用下式:
式中,TFi,j表示词j在文档i中的出现频率,ni,j表示词j在文档i中出现的次数。
其中,反文档频率IDF的计算采用下式:
式中,IDFi表示词语i的反文档频率;|D|表示预料库中的文件总数;|{j∶i∈dj}|表示出现词语i的文档总数,+1则是为了防止没有出现时分母为0的情况。
进一步地,所述对得到的文本向量,使用变分自编码器来对其进行降维具体为:引入变分自编码器,将所有得到的文本向量输入到变分自编码器网络中进行训练,训练得到编码器网络后,再将文本向量输入到编码器网络中得到隐藏层的输出,并将其作为降维后的文本特征。
进一步地,所述通分类器采用K近邻算法(K-Nearest Neighbor,简称K-NN)。K-NN算法就是将离测试点x最近距离的K个点中类别总数最多的类别作为测试点x的标签输出。
进一步地,所述通过十则交叉验证来对分类器进行训练,得到最后的分类精度具体为:将数据均分成10份,每次选取数据中的1份作为测试集,其余9份作为训练集,如此循环10次取平均值得到最后的分类精度。
进一步地,采用下式计算所述分类精度ACC:
式中,P为正样本数量;N为负样本数量;TP为正确分类为正样本数量;TN为正确分类负样本数量;在多分类问题中,P+N表示为测试集样本总数,TP+TN表示为最后被正确分类的测试集样本总数。
与现有技术相比,本发明有以下有益效果:本发明采用了变分自编码进行降维,在数据样本比较少的情况上相较于其他方法有十分大的提升。同时,相比于PCA,LDA等传统特征提取方法,本方法能更好的提取文本特征,从而使得分类结果更加准确。
附图说明
图1为本发明实施例的流程示意图。
图2为本发明实施例的自编码器模型。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于变分自编码的文本分类方法,首先,将非结构化的文本数据转化为结构化的向量表示,从而使得文本数据能够被计算机所处理,能够得到维数远小于最先得到的文本向量;其次,对得到的文本向量,使用变分自编码器来对其进行降维;最后,通过十则交叉验证来对分类器进行训练,得到最后的分类精度。
在本实施例中,所述将非结构化的文本数据转化为结构化的向量表示具体为:采用词频-逆文本频率(Term Frequency-Inverse Document Frequency,简称TF-IDF)将非结构化的文本数据转化为结构化的向量表示。
在本实施例中,所述将非结构化的文本数据转化为结构化的向量表示具体包括以下步骤:
步骤S11:在一个给定的文件中,计算词频TF;其中词频(term frequency,简称TF)指的是某一个给定的词语在该文件中出现的频率;
步骤S12:计算反文档频率IDF(Inverse Document Frequency,简称IDF),IDF是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到;
步骤S13:采用下式计算词语i在文档j中的TF-IDF值:
(TF-IDF)i,j=TFi,j×IDFi
式中,TFi,j表示词i在文档j中的出现频率,IDFi,j表示词语i的反文档频率。
其中,词频的计算采用下式:
式中,TFi,j表示词j在文档i中的出现频率,ni,j表示词j在文档i中出现的次数。
其中,反文档频率IDF的计算采用下式:
式中,IDFi表示词语i的反文档频率;|D|表示预料库中的文件总数;|{j∶i∈dj}|表示出现词语i的文档总数,+1则是为了防止没有出现时分母为0的情况。
在本实施例中,所述对得到的文本向量,使用变分自编码器来对其进行降维具体为:引入变分自编码器,将所有得到的文本向量输入到变分自编码器网络中进行训练,训练得到编码器网络后,再将文本向量输入到编码器网络中得到隐藏层的输出,并将其作为降维后的文本特征。
在本实施例中,所述通分类器采用K近邻算法(K-Nearest Neighbor,简称K-NN)。K-NN算法就是将离测试点x最近距离的K个点中类别总数最多的类别作为测试点x的标签输出。
在本实施例中,所述通过十则交叉验证来对分类器进行训练,得到最后的分类精度具体为:将数据均分成10份,每次选取数据中的1份作为测试集,其余9份作为训练集,如此循环10次取平均值得到最后的分类精度。
在本实施例中,采用下式计算所述分类精度ACC:
式中,P为正样本数量;N为负样本数量;TP为正确分类为正样本数量;TN为正确分类负样本数量;在多分类问题中,P+N表示为测试集样本总数,TP+TN表示为最后被正确分类的测试集样本总数。
较佳的,本实施例对实验中将要用到的数据集DBWorld、Basehock做个简要介绍。
DBWorld数据集中包括了64封邮件,见文献(X.Zhou,H.Yue,and G.Li,“Textcategorization based on clustering feature selection,”Procedia ComputerScience,vol.31,no.31,pp.398–405,2014.),针对这64封电子邮件的文本数据,数据集作者采用二进制词袋表示生成文本特征向量,包含了3721个特征向量。
Basehock是一个二进制文本数据集,每一行代表一个文本向量。数据集中包含了1993个数据,每个数据中有4862个特征向量。
较佳的,本实施例采用变分自编码器对文本向量进行降维的具体方案为:
变分自编码器对隐层作了限制,如图2所示,它假定了隐层从属于一个正态分布,它的所有隐变量z都是从这个正态分布中采样得来的。并通过这些采样得到的隐变量能够重构出初始数据x。假设有一组函数pθ(x|z)用于由z产生x,每个函数由θ唯一确定。变分自编码器的目标就是通过优化θ,使得在采样为的前提下,最大化x最后产生的概率p(x)。根据贝叶斯公式,p(x)可表示为:
p(x)=∫pθ(x|z)pθ(z)dz
变分自编码器为了采样得到pθ(z),则引入了编码器网络pθ(z|x)。显然,由于真实的pθ(z|x)分布是很难得到的,变分自编码器引入了分布来逼近,要使得两个分布相似,则通过KL散度(Kullback-Leibler divergence,简称KL散度)来得到,公式如下:
可得到:
由于非负,可以得到变分自编码的损失函数为:
的第一项为正则化项,第二项为重构误差。
其中,由于pθ(z)服从高斯分布N(O;I),服从高斯分布N(μ;σ2),可得正则化项:
J为z的维数。
采用蒙卡罗特评估来求解重构误差(L取值为1):
使用重参化技巧,对z进行重参化。令z=μ+ε·σ,其中ε~p(ε),p(ε)=N(O,I)。重参化将对z的采样转变成了对的采样,将对z的求导转化为对μ和σ的求导,从而可得:
变分自编码器通过使用python中的TensorFlow来进行实现,如图2构建了一个完整的变分自编码器网络结构,输入数据为文本向量对输入层和输出层的神经元个数设置均为m(m为xi的维数)。隐层前两层视为编码器网络,隐层后两层视为解码器网络,中间层则是隐变量z。隐变量z的神经元个数设置为100(意思为将文本向量维数降低到100维)。变分自编码器的损失函数为:
设定学习速率为γ,训练次数为T,minibatch为M。而后采用随机梯度下降法来训练得到最后的VAE模型。最后,本实施例再将数据X输入训练好的VAE模型中,提取出其隐层z的输出作为X的低维特征表示。
特别的,表1为本实施例采用了VAE降维的文本分类精度与其他降维方法的文本分类精度比较,其中Baseline为不经降维直接分类所得到的分类精度。
表1
由上表可知,采用了变分自编码进行降维,在数据样本比较少的情况上相较于其他方法有十分大的提升。基于变分自编码的文本分类算法,在小样本情况下能够得到最好的效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (7)

1.一种基于变分自编码的文本分类方法,其特征在于:首先,将非结构化的文本数据转化为结构化的向量表示,从而使得文本数据能够被计算机所处理;其次,对得到的文本向量,使用变分自编码器来对其进行降维;最后,通过十则交叉验证来对分类器进行训练,得到最后的分类精度。
2.根据权利要求1所述的一种基于变分自编码的文本分类方法,其特征在于:所述将非结构化的文本数据转化为结构化的向量表示具体为:采用词频-逆文本频率TF-IDF将非结构化的文本数据转化为结构化的向量表示。
3.根据权利要求2所述的一种基于变分自编码的文本分类方法,其特征在于:所述将非结构化的文本数据转化为结构化的向量表示具体包括以下步骤:
步骤S11:在一个给定的文件中,计算词频TF;
步骤S12:计算反文档频率IDF;
步骤S13:采用下式计算词语i在文档j中的TF-IDF值:
(TF-IDF)i,j=TFi,j×IDFi
式中,TFi,j表示词i在文档j中的出现频率,IDFi,j表示词语i的反文档频率。
4.根据权利要求1所述的一种基于变分自编码的文本分类方法,其特征在于:所述对得到的文本向量,使用变分自编码器来对其进行降维具体为:引入变分自编码器,将所有得到的文本向量输入到变分自编码器网络中进行训练,训练得到编码器网络后,再将文本向量输入到编码器网络中得到隐藏层的输出,并将其作为降维后的文本特征。
5.根据权利要求1所述的一种基于变分自编码的文本分类方法,其特征在于:所述通分类器采用K近邻算法。
6.根据权利要求1所述的一种基于变分自编码的文本分类方法,其特征在于:所述通过十则交叉验证来对分类器进行训练,得到最后的分类精度具体为:将数据均分成10份,每次选取数据中的1份作为测试集,其余9份作为训练集,如此循环10次取平均值得到最后的分类精度。
7.根据权利要求6所述的一种基于变分自编码的文本分类方法,其特征在于:采用下式计算所述分类精度ACC:
式中,P为正样本数量;N为负样本数量;TP为正确分类为正样本数量;TN为正确分类负样本数量;在多分类问题中,P+N表示为测试集样本总数,TP+TN表示为最后被正确分类的测试集样本总数。
CN201910062185.1A 2019-01-23 2019-01-23 一种基于变分自编码的文本分类方法 Pending CN109783645A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910062185.1A CN109783645A (zh) 2019-01-23 2019-01-23 一种基于变分自编码的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910062185.1A CN109783645A (zh) 2019-01-23 2019-01-23 一种基于变分自编码的文本分类方法

Publications (1)

Publication Number Publication Date
CN109783645A true CN109783645A (zh) 2019-05-21

Family

ID=66502048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910062185.1A Pending CN109783645A (zh) 2019-01-23 2019-01-23 一种基于变分自编码的文本分类方法

Country Status (1)

Country Link
CN (1) CN109783645A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401558A (zh) * 2020-06-05 2020-07-10 腾讯科技(深圳)有限公司 数据处理模型训练方法、数据处理方法、装置、电子设备
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN112270107A (zh) * 2020-11-13 2021-01-26 南京航空航天大学 复杂系统仿真实验设计方法及系统
CN112528016A (zh) * 2020-11-19 2021-03-19 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法
CN114022442A (zh) * 2021-11-03 2022-02-08 武汉智目智能技术合伙企业(有限合伙) 一种基于无监督学习的织物疵点检测算法
CN114036947A (zh) * 2021-12-09 2022-02-11 广东工业大学 一种半监督学习的小样本文本分类方法和系统
CN114138942A (zh) * 2021-12-09 2022-03-04 南京审计大学 基于文本情感倾向的违规检测方法
CN115553786A (zh) * 2022-09-30 2023-01-03 哈尔滨理工大学 一种基于无监督领域自适应的心梗定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268262A1 (en) * 2017-03-15 2018-09-20 Fuji Xerox Co., Ltd. Information processing device and non-transitory computer readable medium
CN109145288A (zh) * 2018-07-11 2019-01-04 西安电子科技大学 基于变分自编码模型的文本深度特征提取方法
CN109189919A (zh) * 2018-07-27 2019-01-11 广州市香港科大霍英东研究院 文本多视角情感分类的方法、系统、终端及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268262A1 (en) * 2017-03-15 2018-09-20 Fuji Xerox Co., Ltd. Information processing device and non-transitory computer readable medium
CN109145288A (zh) * 2018-07-11 2019-01-04 西安电子科技大学 基于变分自编码模型的文本深度特征提取方法
CN109189919A (zh) * 2018-07-27 2019-01-11 广州市香港科大霍英东研究院 文本多视角情感分类的方法、系统、终端及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
王玮: "基于VAE-DBN双模型的智能文本分类方法", 《计算机与现代化》 *
苏剑林: "变分自编码器(一):原来是这么一回事", 《HTTPS://KEXUE.FM/ARCHIVES/5253》 *
贾隆嘉: "文本分类中特征加权算法和文本表示策略研究", 《中国博士学位论文全文数据库 信息科技辑》 *
黄锦池: "深度学习(五十一)变分贝叶斯自编码器(上)", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/25429082》 *
黄锦池: "深度学习(五十二)变分贝叶斯自编码器(下)", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/25429486》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111581962B (zh) * 2020-05-14 2023-02-21 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN111401558A (zh) * 2020-06-05 2020-07-10 腾讯科技(深圳)有限公司 数据处理模型训练方法、数据处理方法、装置、电子设备
CN112270107A (zh) * 2020-11-13 2021-01-26 南京航空航天大学 复杂系统仿真实验设计方法及系统
CN112528016A (zh) * 2020-11-19 2021-03-19 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法
CN112528016B (zh) * 2020-11-19 2024-05-07 重庆兆光科技股份有限公司 一种基于低维球面投影的文本分类方法
CN114022442A (zh) * 2021-11-03 2022-02-08 武汉智目智能技术合伙企业(有限合伙) 一种基于无监督学习的织物疵点检测算法
CN114036947A (zh) * 2021-12-09 2022-02-11 广东工业大学 一种半监督学习的小样本文本分类方法和系统
CN114138942A (zh) * 2021-12-09 2022-03-04 南京审计大学 基于文本情感倾向的违规检测方法
CN114036947B (zh) * 2021-12-09 2023-11-14 广东工业大学 一种半监督学习的小样本文本分类方法和系统
CN115553786A (zh) * 2022-09-30 2023-01-03 哈尔滨理工大学 一种基于无监督领域自适应的心梗定位方法
CN115553786B (zh) * 2022-09-30 2024-05-28 哈尔滨理工大学 一种基于无监督领域自适应的心梗定位方法

Similar Documents

Publication Publication Date Title
CN109783645A (zh) 一种基于变分自编码的文本分类方法
Gao et al. Deep label distribution learning with label ambiguity
Ebrahimi Kahou et al. Recurrent neural networks for emotion recognition in video
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
Yin et al. ICDAR 2013 Chinese handwriting recognition competition
CN111274398B (zh) 一种方面级用户产品评论情感分析方法及系统
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN112732916B (zh) 一种基于bert的多特征融合模糊文本分类系统
CN111984791B (zh) 一种基于注意力机制的长文分类方法
Islam et al. A review on video classification with methods, findings, performance, challenges, limitations and future work
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
Aziguli et al. A robust text classifier based on denoising deep neural network in the analysis of big data
Kenyon-Dean et al. Clustering-oriented representation learning with attractive-repulsive loss
Jotheeswaran et al. Feature selection using random forest method for sentiment analysis
CN111813939A (zh) 一种基于表征增强与融合的文本分类方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Hu et al. Multimodal tree decoder for table of contents extraction in document images
CN110674293B (zh) 一种基于语义迁移的文本分类方法
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用
Wang et al. Multi-view deep metric learning for volumetric image recognition
CN115033689A (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
Sevim et al. Document image classification with vision transformers
Venugopal et al. Online writer identification system using adaptive sparse representation framework
Bennour Clonal selection classification algorithm applied to arabic writer identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521