CN108664633A - 一种利用多样化文本特征进行文本分类的方法 - Google Patents
一种利用多样化文本特征进行文本分类的方法 Download PDFInfo
- Publication number
- CN108664633A CN108664633A CN201810460235.7A CN201810460235A CN108664633A CN 108664633 A CN108664633 A CN 108664633A CN 201810460235 A CN201810460235 A CN 201810460235A CN 108664633 A CN108664633 A CN 108664633A
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- sample
- cluster
- text representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 137
- 239000011159 matrix material Substances 0.000 claims description 14
- 239000013604 expression vector Substances 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 241000208340 Araliaceae Species 0.000 claims description 8
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 8
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 8
- 235000008434 ginseng Nutrition 0.000 claims description 8
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000002940 Newton-Raphson method Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 8
- 238000012549 training Methods 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 22
- 238000012360 testing method Methods 0.000 description 20
- 238000010801 machine learning Methods 0.000 description 9
- 230000009467 reduction Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 241001269238 Data Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000448472 Gramma Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种利用多样化文本特征进行文本分类的方法,包括以下步骤:使用多维度文本表示算法,生成多组不同的文本特征表示,即纵向生成多维度文本特征表示;使用多种不同的文本表示算法,生成多组不同的文本特征表示,即横向生成多维度文本特征表示;将每个样本不同的特征表示向量进行组合,作为样本新的特征向量,进而得到数据集新的特征表示。将本发明对现有的文本表示算法进行了改进,提出了利用更多的维度较低且差异较大的文本表示来挖掘文本不同的内部结构,增强文本表示的能力,可以在极大程度上降低文本特征维度的同时,提升文本分类等任务的效果。
Description
技术领域
本发明属于文本表示领域,尤其涉及一种利用多样化文本特征进行文本分类的方法。
背景技术
近年来,随着计算机技术与互联网的迅猛发展,人类进入信息时代,海量的数据,尤其是各类文本数据,蕴含着重要的信息与巨大的价值。对这些文本数据进行合理的整理归纳,有利于更好的利用这些大规模的文本数据。文本分类则是一种非常有效的方法。
文本分类一直是机器学习与人工智能领域一个非常重要的基础研究方向,同时也在产业界中有着广泛的应用。文本分类的效果在极大程度上取决于文本特征表示的质量。人类可以阅读的纯文本,对于机器学习算法而言是无法直接识别并利用的,需要转换成算法可以识别的实数向量或矩阵的形式。文本特征表示就是将纯文本转换成实数向量或矩阵的过程,即将语言进行数字化转换。文本特征表示主要分为两大类:一类是词级别的文本特征表示,即将词表示成词向量的形式,进而应用于文本分类等任务。该方法一般认为可以获取到词的语义信息,通过将词的语义信息添加到文本分类中来提升文本分类的效果;另一类是文档级别的文本特征表示,即将每个样本表示成固定长度的实数向量。相较于词级别的文本表示一般应用基于神经网络的分类,文档级别的文本表示应用更加广泛,既可以使用传统的基于统计的机器学习分类器,也可以应用神经网络分类器进行分类。
文本数据中普遍存在着多种内部结构。例如,一个由计算机领域论文构成的数据集,其中一种内部结构是论文涉及的研究方向,包括机器学习、数据结构、数据库等方向;另一种内部结构则是论文所涉及到的编程语言,包括Java、C++、Python等编程语言。使用单一的文本特征表示,无法很好的挖掘到数据集中的多种内部结构,并对这些内部结构进行特征表示。
在机器学习领域,多聚类算法是常见的用于挖掘数据多种内部结构的方法。多聚类算法生成多组差异较大、质量较好的聚类结果,以此来挖掘数据内部的多种结构。
如果能够将多聚类的思想应用到文本特征表示中,挖掘文本的多种内部结构,并强化每种内部结构的表示,则可以提高文本表示的质量,进而对文本分类等任务带来更有效的帮助。
发明内容
发明目的:本发明所解决的问题是针对现有技术的不足,提供一种能够挖掘文本多种内部结构,生成多样化的文本表示,以增强文本表示能力的方法。为了解决上述技术问题,本发明提供了如下技术方案:一种利用多样化文本特征进行文本分类的方法,进而提升文本分类等任务效果的方法。所述方法包含纵向多维度文本表示与横向多维度文本表示两种获取多样化文本特征表示的方法。所述方法包括如下步骤:
步骤1,纵向生成多维度文本特征表示:使用多维度文本表示算法,生成多组不同的文本特征表示,多维度文本表示算法可以为数据集中的每一个样本生成多个差异较大的特征向量;
步骤2,横向生成多维度文本特征表示:使用文本表示算法,生成多组不同的文本特征表示,文本表示算法包含且不仅限于多维度文本表示算法;
步骤3,将不同的文本特征表示进行组合,作为新的文本特征表示;
步骤4,通过新的文本特征表示对待分类样本进行分类。
步骤1中,采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示,或者采用潜层狄利克雷分布(Latent Dirichlet Allocation,LDA)(Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].J Machine Learning ResearchArchive,2003,3:993-1022.)的衍生算法Alter LDA算法生成多组不同的文本特征表示。
步骤1中,采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示,具体包括如下步骤:
步骤A-1,使用词袋模型+TF-IDF权重(https://en.wikipedia.org/wiki/Tf-idf)将数据集X转换成特征矩阵,聚类个数T=1,下文中所述样本均为数据集X中的样本;
步骤A-2,使用k-Means聚类算法(Hartigan J A.A K-Means ClusteringAlgorithm[J].Appl Stat,1979,28(1):100-108.)对数据集X进行聚类,得到数据的划分结果C1;
步骤A-3,根据C1计算每个簇的均值向量αi,0≤i≤k1,k1为预设的参数,即超参,表示聚类中簇的个数,簇为聚类结果中被划分到一个类别中的相似样本的集合,均值向量的计算公式为:
其中,表示第T组聚类的第i个簇,表示第T组聚类第i个簇中元素的个数,xj表示数据集X中第j个样本;
步骤A-4,计算每个样本到C1中每个均值向量的余弦距离,得到第一组文本特征表示,样本的特征向量的维度为k1;
步骤A-5,将T更新为T+1,随机对数据集X进行划分,得到划分结果CT;
步骤A-6,根据根据CT计算每个簇的均值向量βj,0≤j≤kT,kT为簇的个数;
步骤A-7,根据公式(1)对新生成的聚类结果中每个簇的表示向量vj进行更新:
νj=(I-ξjMU(I+ξjΛ)-1UTMT)βj (1)
其中,vj为表示向量,ξj为中间参数,计算公式为:
表示第k1个簇的均值向量,UΛUT=MMT,U是由矩阵MMT的特征向量构成的矩阵,Λ是由MMT的特征值构成的对角矩阵,I为单位矩阵,λ是模型输入的超参,是实数类型,可以根据实际任务人工设定,nij表示既在第一个聚类结果的第i个簇中、又在第二个聚类结果的第j个簇中的样本数量,簇的表示向量用于计算样本的特征向量;
步骤A-8,将每一个样本划分给距离其最近的表示向量对应的簇,更新CT;
步骤A-9,重复步骤A-5到步骤A-8直到收敛;
步骤A-10,α=α∪ν,α为保存的每组聚类结果中簇的表示向量,ν为根据步骤A-5至A-9所述方法新生成的一组聚类中的簇表示向量,k1=||α||,计算每个样本到CT中每个均值向量的余弦距离,得到新一组文本特征表示,样本的特征向量的维度为k2;
步骤A-11,重复步骤A-5到步骤A-10直到T>m,得到m组文本特征表示,m为期望得到的文本特征表示的数量,可根据具体使用场景预先设定。
步骤1中,还可以使用潜层狄利克雷分布(Latent Dirichlet Allocation,LDA)的衍生算法Alter LDA算法生成多组不同的文本特征表示,具体包括如下步骤:
步骤B-1,利用潜层狄利克雷分布(Latent Dirichlet Allocation,LDA)算法,根据数据集X得到词的主题分布β(1),文档的主题分布作为第一组文本的特征表示,设置文本特征个数T=1;
步骤B-2,根据变分EM算法,采用与LDA算法中相同的E步骤进行计算,求得变分参数φ与γ,更新文档主题分布(Blei D M,Ng A Y,Jordan M I.Latent dirichletallocation[J].J Machine Learning Research Archive,2003,3:993-1022.);
步骤B-3,利用牛顿-拉夫逊方法,更新模型参数α(https://en.wikipedia.org/wiki/Newton%27s_method);
步骤B-4,利用公式(2)更新模型参数β:
其中,βij为在第i个主题下,词典中第j个词的概率,词典是数据集X中所有词构成的列表,每个词只在词典中出现一次,词在词典中的顺序与词在数据集X中第一次出现的顺序相同;λi是预设的权重,d是对文档的计数,M为数据集X中文档的数量,Nd为第d篇文档中词的个数,φdni为第d篇文档中第n个词属于第i个主题的概率,是一个布尔变量,当第d篇文档中第n个词是词典中第j个词时,否则 表示第t个主题结构中,第k个主题下第j个词的概率;
步骤B-5,重复步骤B-2到步骤B-4直到收敛,得到第T+1个词的主题βT+1,得到第T组文档主题分布,每个文档的主题分布可以作为该文档的特征向量;
步骤B-6,将T更新为T+1,重复步骤B-2到步骤B-5,直到T>n,得到n组不同的词的文本特征表示,n为期望得到的文本特征表示的数量,可根据具体使用场景预先设定。
步骤2中,将改进的Decorrelated k-Means算法和潜层狄利克雷分布(LatentDirichlet Allocation,LDA)的衍生算法Alter LDA算法进行组合生成多组不同的文本特征表示,或者使用其他文本表示算法(如Doc2Vec模型(Le Q V,Mikolov T.DistributedRepresentations of Sentences and Documents[J].2014,4:II-1188.)、潜层语义分析模型(Latent Semantic Analysis)(Miller F P,Vandome A F,Mcbrewster J.Latentsemantic analysis[M]//Artifical Intelligence and Soft Computing.SpringerBerlin Heidelberg,2010:683–692.)、概率潜层语义分析模型(Probabilistic LatentSemantic Analysis)[6])生成文本特征表示进行组合作为样本新的特征表示,组合的方式为将样本的多个特征向量进行拼接,得到新的特征向量,向量拼接方法为:假设向量A=[a1,a2,...,am],向量B=[b1,b2,...,bn],将向量A和向量B进行拼接,其中m和n分别为向量A的长度和向量B的长度,ai(1≤i≤m)为向量A第i个位置的分量,bj(1≤j≤n)为向量第i个位置的分量,将向量A和向量B进行拼接,得到向量C,则向量C=[a1,a2,...,am,b1,b2,...,bn];
或者使用其他文本表示算法(如Doc2Vec模型(Le Q V,Mikolov T.DistributedRepresentations of Sentences and Documents[J].2014,4:II-1188.)、潜层语义分析模型(Latent Semantic Analysis)(Miller F P,Vandome A F,Mcbrewster J.Latentsemantic analysis[M]//Artifical Intelligence and Soft Computing.SpringerBerlin Heidelberg,2010:683–692.)、概率潜层语义分析模型(Probabilistic LatentSemantic Analysis)(Hofmann T.Probabilistic latent semantic analysis[J].Proc.UAI,1999,1999,41(6):289-296.))生成文本特征表示进行组合作为样本新的特征表示;
步骤3中,将每个样本的纵向多维度文本特征表示对应的样本特征向量采用步骤2中所述的方法进行拼接得到新的样本特征向量。
步骤3中,还可以将每个样本由改进的Decorrelated k-Means算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第一个特征向量,将样本由LDA的衍生算法Alter LDA算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第二个特征向量,将每个样本由前述方法得到的两个特征向量进行拼接,为每个样本得到新的特征向量。
步骤3中,还可以将每个样本的横向多维度文本特征表示对应的文本特征向量进行拼接,即将样本由不同文本特征表示算法生成的特征向量进行拼接,得到新的样本特征向量,向量拼接方法为:假设向量A=[a1,a2,...,am],向量B=[b1,b2,...,bn],将向量A和向量B进行拼接,得到向量C,则向量C=[a1,a2,...,am,b1,b2,...,bn]。
步骤4包括:新的文本特征表示将每一个样本表示成一个新的固定长度的特征向量,在进行文本分类时,首先将训练集的每一个样本使用本发明提出的方法转化成固定长度的特征向量,连同训练集中样本的标签一起作为分类器的输入训练分类器,然后将待分类数据集的每一个样本使用本发明提出的方法转化成与训练集样本特征向量相同长度的特征向量,然后作为分类器的输入对待分类样本进行分类。
纵向生成的多维度文本特征表示和横向生成的多维度文本特征表示,能够挖掘文本内的多种内部结构,并使用较低维度的特征向量强化这些内部结构的特征表示,从而在降低特征维度的同时提升文本表示的质量。
有益效果:本发明使用多样化的文本特征表示,挖掘文本的多种内部结构,能强化对文本多种内部结构的特征表示,进而增强文本表示的能力,在降低文本特征表示维度的同时提升文本分类的任务的效果。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是本发明在生成文本表示时的流程图。
图2是本发明实施例1的测试结果。
图3是本发明实施例2的测试结果。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本发明方法包括如下步骤:
步骤1,纵向生成多维度文本特征表示:使用多维度文本表示算法,生成多组不同的文本特征表示;
步骤2,横向生成多维度文本特征表示:使用文本表示算法,生成多组不同的文本特征表示;
步骤3,将不同的文本特征表示进行组合,作为新的文本特征表示;
步骤4,通过新的文本特征表示对待分类样本进行分类。
步骤1中,采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示,或者采用潜层狄利克雷分布(Latent Dirichlet Allocation,LDA)(Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].J Machine Learning ResearchArchive,2003,3:993-1022.)的衍生算法Alter LDA算法生成多组不同的文本特征表示。
步骤1中,采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示,具体包括如下步骤:
步骤A-1,使用词袋模型+TF-IDF权重(https://en.wikipedia.org/wiki/Tf-idf)将数据集X转换成特征矩阵,聚类个数T=1,下文中所述样本均为数据集X中的样本;
步骤A-2,使用k-Means聚类算法(Hartigan J A.A K-Means ClusteringAlgorithm[J].Appl Stat,1979,28(1):100-108.)对数据集X进行聚类,得到数据的划分结果C1;
步骤A-3,根据C1计算每个簇的均值向量αi,0≤i≤k1,k1为预设的参数,即超参,表示聚类中簇的个数,簇为聚类结果中被划分到一个类别中的相似样本的集合;
步骤A-4,计算每个样本到C1中每个均值向量的余弦距离,得到第一组文本特征表示,样本的特征向量的维度为k1;
步骤A-5,将T更新为T+1,随机对数据集X进行划分,得到划分结果CT;
步骤A-6,根据根据CT计算每个簇的均值向量βj,0≤j≤kT,kT为簇的个数;
步骤A-7,根据公式(1)对新生成的聚类结果中每个簇的表示向量vj进行更新:
νj=(I-ξjMU(I+ξjΛ)-1UTMT)βj (1)
其中,vj为表示向量,ξj为中间参数,计算公式为:
表示第k1个簇的均值向量,UΛUT=MMT,U是由矩阵MMT的特征向量构成的矩阵,Λ是由MMT的特征值构成的对角矩阵,I为单位矩阵,λ是模型输入的超参,是实数类型,可以根据实际任务人工设定,nij表示既在第一个聚类结果的第i个簇中、又在第二个聚类结果的第j个簇中的样本数量,簇的表示向量用于计算样本的特征向量;
步骤A-8,将每一个样本划分给距离其最近的表示向量对应的簇,更新CT;
步骤A-9,重复步骤A-5到步骤A-8直到收敛;
步骤A-10,α=α∪ν,α为保存的每组聚类结果中簇的表示向量,ν为根据步骤A-5至A-9所述方法新生成的一组聚类中的簇表示向量,k1=||α||,计算每个样本到CT中每个均值向量的余弦距离,得到新一组文本特征表示,样本的特征向量的维度为k2;
步骤A-11,重复步骤A-5到步骤A-10直到T>m,得到m组文本特征表示,m为期望得到的文本特征表示的数量,可根据具体使用场景预先设定。
步骤1中,还可以使用潜层狄利克雷分布(Latent Dirichlet Allocation,LDA)的衍生算法Alter LDA算法生成多组不同的文本特征表示,具体包括如下步骤:
步骤B-1,利用潜层狄利克雷分布(Latent Dirichlet Allocation,LDA)算法,根据数据集X得到词的主题分布β(1),文档的主题分布作为第一组文本的特征表示,设置文本特征个数T=1;
步骤B-2,根据变分EM算法,采用与LDA算法中相同的E步骤进行计算,求得变分参数φ与γ,更新文档主题分布(Blei D M,Ng A Y,Jordan M I.Latent dirichletallocation[J].J Machine Learning Research Archive,2003,3:993-1022.);
步骤B-3,利用牛顿-拉夫逊方法,更新模型参数α(https://en.wikipedia.org/wiki/Newton%27s_method);
步骤B-4,利用公式(2)更新模型参数β:
其中,βij为在第i个主题下,词典中第j个词的概率,词典是数据集X中所有词构成的列表,每个词只在词典中出现一次,词在词典中的顺序与词在数据集X中第一次出现的顺序相同;λi是预设的权重,d是对文档的计数,M为数据集X中文档的数量,Nd为第d篇文档中词的个数,φdni为第d篇文档中第n个词属于第i个主题的概率,是一个布尔变量,当第d篇文档中第n个词是词典中第j个词时,否则 表示第t个主题结构中,第k个主题下第j个词的概率;
步骤B-5,重复步骤B-2到步骤B-4直到收敛,得到第T+1个词的主题βT+1,得到第T组文档主题分布,每个文档的主题分布可以作为该文档的特征向量;
步骤B-6,将T更新为T+1,重复步骤B-2到步骤B-5,直到T>n,得到n组不同的词的文本特征表示,n为期望得到的文本特征表示的数量,可根据具体使用场景预先设定。
步骤2中,将改进的Decorrelated k-Means算法和潜层狄利克雷分布(LatentDirichlet Allocation,LDA)的衍生算法Alter LDA算法进行组合生成多组不同的文本特征表示,或者使用其他文本表示算法(如Doc2Vec模型(Le Q V,Mikolov T.DistributedRepresentations of Sentences and Documents[J].2014,4:II-1188.)、潜层语义分析模型(Latent Semantic Analysis)(Miller F P,Vandome A F,Mcbrewster J.Latentsemantic analysis[M]//Artifical Intelligence and Soft Computing.SpringerBerlin Heidelberg,2010:683–692.)、概率潜层语义分析模型(Probabilistic LatentSemantic Analysis)[6])生成文本特征表示进行组合作为样本新的特征表示,组合的方式为将样本的多个特征向量进行拼接,得到新的特征向量,向量拼接方法为:假设向量A=[a1,a2,...,am],向量B=[b1,b2,...,bn],将向量A和向量B进行拼接,其中m和n分别为向量A的长度和向量B的长度,ai(1≤i≤m)为向量A第i个位置的分量,bj(1≤j≤n)为向量第i个位置的分量,将向量A和向量B进行拼接,得到向量C,则向量C=[a1,a2,...,am,b1,b2,...,bn];
或者使用其他文本表示算法(如Doc2Vec模型(Le Q V,Mikolov T.DistributedRepresentations of Sentences and Documents[J].2014,4:II-1188.)、潜层语义分析模型(Latent Semantic Analysis)(Miller F P,Vandome A F,Mcbrewster J.Latentsemantic analysis[M]//Artifical Intelligence and Soft Computing.SpringerBerlin Heidelberg,2010:683–692.)、概率潜层语义分析模型(Probabilistic LatentSemantic Analysis)(Hofmann T.Probabilistic latent semantic analysis[J].Proc.UAI,1999,1999,41(6):289-296.))生成文本特征表示进行组合作为样本新的特征表示;
步骤3中,将每个样本的纵向多维度文本特征表示对应的样本特征向量采用步骤2中所述的方法进行拼接得到新的样本特征向量。
步骤3中,还可以将每个样本由改进的Decorrelated k-Means算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第一个特征向量,将样本由LDA的衍生算法Alter LDA算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第二个特征向量,将每个样本由前述方法得到的两个特征向量进行拼接,为每个样本得到新的特征向量。
步骤3中,还可以将每个样本的横向多维度文本特征表示对应的文本特征向量进行拼接,即将样本由不同文本特征表示算法生成的特征向量进行拼接,得到新的样本特征向量,向量拼接方法为:假设向量A=[a1,a2,...,am],向量B=[b1,b2,...,bn],将向量A和向量B进行拼接,得到向量C,则向量C=[a1,a2,...,am,b1,b2,...,bn]。
步骤4包括:新的文本特征表示将每一个样本表示成一个新的固定长度的特征向量,在进行文本分类时,首先将训练集的每一个样本使用本发明提出的方法转化成固定长度的特征向量,连同训练集中样本的标签一起作为分类器的输入训练分类器,然后将待分类数据集的每一个样本使用本发明提出的方法转化成与训练集样本特征向量相同长度的特征向量,然后作为分类器的输入对待分类样本进行分类。
实施例1
本实施例以WebKB数据集(http://www.webkb.org/)为实验数据集,利用改进的Dec.k-Means算法生成多维度的文本表示,生成十组特征表示,每组特征50维,如图1所示为本发明在生成文本表示时的流程图。运用过程如下所示:
1、以WebKB数据集作为输入,数据集的详细信息如表1所示:
表1
训练集样本数 | 测试集样本数 | 词典大小 |
2803 | 1396 | 7773 |
2、使用改进的Dec.k-Means对训练集和测试集生成m=10组特征表示,每组特征表示中,特征向量的维度为k1=k2=...=k10=50,具体步骤如下:
(1)使用词袋模型+TF-IDF权重将训练集和测试集分别转换成特征矩阵X_train和X_test,T=1;
(2)使用k-Means聚类算法对训练集X_train进行聚类,得到数据的划分结果C1;
(3)根据C1计算每个簇的均值向量αi(0≤i≤k1),k1为簇的个数;
(4)计算训练集X_train和测试集X_test中每个样本到C1中每个均值向量的余弦距离,得到第一组文本特征表示,特征向量的维度为k1;
(5)T=T+1,随机对训练集X_train进行划分,得到划分结果CT;
(6)根据根据CT计算每个簇的均值向量βj(0≤j≤kT),kT为簇的个数;
(7)根据公式(1)对新生成的聚类结果的表示向量进行更新:
νj=(I-ξjMU(I+ξjΛ)-1UTMT)βj (1)
其中,vj为表示向量,UΛUT=MMT;
(8)将训练集中每一个样本划分给距离其最近的表示向量对应的簇,更新CT;
(9)重复步骤(5)到步骤(8)直到收敛;
(10)α=α∪ν,k1=||α||,计算训练集X_train和测试集X_test中每个样本到CT中每个均值向量的余弦距离,得到新一组文本特征表示,特征向量的维度为kT;
(11)重复步骤(5)到步骤(10)m-1次,得到m组文本特征表示。
4、将训练集和测试集中每个样本的十个不同特征向量拼接,得到样本新的特征表示向量。
5、为检测纵向多维度文本特征表示对文本分类任务的影响,在每拼接一组特征向量后,使用训练集训练LinearSVC分类器(https://en.wikipedia.org/wiki/Support_vector_machine),并对测试集进行分类,测试正确率,其结果如图2所示;
6、使用TF-IDF权重计算生成训练集与测试集的特征表示,并使用特征值分解SVD降维至500维,将降维后的特征向量与上述特征向量拼接,训练LinearSVC分类器并测试分类效果,结果如表2所示:
表2
特征表示算 | TF-IDF | LDA | CBOW | Skip Gramma | Our model |
正确率 | 95.56% | 85.53% | 76.30% | 90.70% | 96.20% |
如结果所示,利用改进的Decorrelated k-Means生成的纵向多维度文本特征表示能不断提升文本分类的正确率,在组合横向多维度文本特征表示后,文本分类的正确率明显优于baseline。同时样本新的特征向量维度为1000维,相较于词袋模型+TF-IDF权重的特征表示方法降维接近90%。
实施例2
本实施例以AG's corpus of news articles数据集,简称AGNews数据集(http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html)为实验数据集,利用改进的Alter LDA算法生成多维度的文本表示,生成十组特征表示,每组特征50维,运用过程如下所示:
1、以AG News数据集作为输入,数据集的详细信息如表3所示:
表3
训练集样本数 | 测试集样本数 | 词典大小 |
160000 | 40000 | 34098 |
2、使用Alter LDA对训练集和测试集生成m=10组特征表示,每组特征表示中,特征向量的维度为k1=k2=...=k10=50,具体步骤如下:
(1)利用潜层狄利克雷分布(Latent Dirichlet Allocation,LDA)算法,得到词的主题分布β(1),文档的主题分布作为第一组文本的特征表示,设置T=1
(2)根据变分EM算法,采用与LDA中相同的E步骤进行计算,求得变分参数φ与γ,更新文档主题分布;
(3)利用牛顿-拉夫逊方法,更新模型参数α;
(4)利用公式(2)更新模型参数β
(5)重复步骤(2)到步骤(4)直到收敛,得到第T+1个词的主题βT+1,得到第T个文档主题分布,即第T组文本特征表示;
(6)T=T+1,重复步骤(2)到步骤(5),直到T>n,得到n组不同的词的文本特征表示。
3、将每个样本的十个不同特征向量拼接,每拼接一组特征向量,使用训练集训练LinearSVC分类器,并对测试集进行分类,测试正确率,其结果如图3所示;
4、使用TF-IDF权重计算生成训练集与测试集的特征表示,并使用特征值分解SVD降维至500维,将降维后的特征向量与上述特征向量拼接,,训练LinearSVC分类器(https://en.wikipedia.org/wiki/Support_vector_machine)并测试分类效果,结果如表4所示:
表4
特征表示算 | TF-IDF | LDA | CBOW | Skip Gramma | Our model |
正确率 | 87.21% | 74.87% | 67.55% | 81.37% | 88.68% |
如结果所示,利用Alter生成的纵向多维度文本特征表示能不断提升文本分类的正确率,在组合横向多维度文本特征表示后,文本分类的正确率明显优于baseline。同时样本新的特征向量维度为1000维,相较于词袋模型+TF-IDF权重的特征表示方法降维超过97%。
本发明提供了一种利用多样化文本特征进行文本分类的方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (8)
1.一种利用多样化文本特征进行文本分类的方法,其特征在于,包括如下步骤:
步骤1,纵向生成多维度文本特征表示:使用多维度文本表示算法,生成多组不同的文本特征表示;
步骤2,横向生成多维度文本特征表示:使用文本表示算法,生成多组不同的文本特征表示;
步骤3,将不同的文本特征表示进行组合,作为新的文本特征表示;
步骤4,通过新的文本特征表示对待分类样本进行分类。
2.根据权利要求1所述的方法,其特征在于,步骤1中,采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示,或者采用潜层狄利克雷分布LDA的衍生算法Alter LDA算法生成多组不同的文本特征表示。
3.根据权利要求2所述的方法,其特征在于,步骤1中,采用改进的Decorrelated k-Means算法生成多组不同的文本特征表示,具体包括如下步骤:
步骤A-1,使用词袋模型+TF-IDF权重将数据集X转换成特征矩阵,聚类个数T=1;
步骤A-2,使用k-Means聚类算法对数据集X进行聚类,得到数据的划分结果C1;
步骤A-3,根据C1计算每个簇的均值向量αi,0≤i≤k1,k1为预设的参数,即超参,表示聚类中簇的个数,簇为聚类结果中被划分到一个类别中的相似样本的集合,均值向量的计算公式为:
其中,表示第T组聚类的第i个簇,表示第T组聚类第i个簇中元素的个数,xj表示数据集X中第j个样本;
步骤A-4,计算每个样本到C1中每个均值向量的余弦距离,得到第一组文本特征表示,样本的特征向量的维度为k1;
步骤A-5,将T更新为T+1,随机对数据集X进行划分,得到划分结果CT;
步骤A-6,根据根据CT计算每个簇的均值向量βj,0≤j≤kT,kT为簇的个数;
步骤A-7,根据公式(1)对新生成的聚类结果中每个簇的表示向量vj进行更新:
νj=(I-ξjMU(I+ξjΛ)-1UTMT)βj (1)
其中,vj为表示向量,ξj为中间参数,计算公式为:
表示第k1个簇的均值向量,UΛUT=MMT,U是由矩阵MMT的特征向量构成的矩阵,Λ是由MMT的特征值构成的对角矩阵,I为单位矩阵,λ是模型输入的超参,是实数类型;nij表示既在第一个聚类结果的第i个簇中、又在第二个聚类结果的第j个簇中的样本数量,簇的表示向量用于计算样本的特征向量;
步骤A-8,将每一个样本划分给距离其最近的表示向量对应的簇,更新CT;
步骤A-9,重复步骤A-5到步骤A-8直到收敛;
步骤A-10,α=α∪ν,α为保存的每组聚类结果中簇的表示向量,ν为根据步骤A-5至A-9所述方法新生成的一组聚类中的簇表示向量,k1=||α||,计算每个样本到CT中每个均值向量的余弦距离,得到新一组文本特征表示,样本的特征向量的维度为k2;
步骤A-11,重复步骤A-5到步骤A-10直到T>m,得到m组文本特征表示,m为期望得到的文本特征表示的数量。
4.根据权利要求2所述的方法,其特征在于,步骤1中,使用潜层狄利克雷分布的衍生算法Alter LDA算法生成多组不同的文本特征表示,具体包括如下步骤:
步骤B-1,利用潜层狄利克雷分布算法,根据数据集X得到词的主题分布β(1),文档的主题分布作为第一组文本的特征表示,设置文本特征个数T=1;
步骤B-2,根据变分EM算法,求得变分参数φ与γ,更新文档主题分布;
步骤B-3,利用牛顿-拉夫逊方法,更新模型参数α;
步骤B-4,利用公式(2)更新模型参数β:
其中,βij为在第i个主题下,词典中第j个词的概率,词典是数据集X中所有词构成的列表,每个词只在词典中出现一次,词在词典中的顺序与词在数据集X中第一次出现的顺序相同;λi是预设的权重,d是对文档的计数,M为数据集X中文档的数量,Nd为第d篇文档中词的个数,φdni为第d篇文档中第n个词属于第i个主题的概率,是一个布尔变量,当第d篇文档中第n个词是词典中第j个词时,否则 表示第t个主题结构中,第k个主题下第j个词的概率;
步骤B-5,重复步骤B-2到步骤B-4直到收敛,得到第T+1个词的主题βT+1,得到第T组文档主题分布,每个文档的主题分布作为该文档的特征向量;
步骤B-6,将T更新为T+1,重复步骤B-2到步骤B-5,直到T>n,得到n组不同的词的文本特征表示,n为期望得到的文本特征表示的数量。
5.根据权利要求3或4所述的方法,其特征在于,步骤2中,将改进的Decorrelatedk-Means算法和潜层狄利克雷分布LDA的衍生算法Alter LDA算法进行组合生成多组不同的文本特征表示,组合的方式为将样本的多个特征向量进行拼接,得到新的特征向量,向量拼接方法为:假设向量A=[a1,a2,...,am],向量B=[b1,b2,...,bn],其中m和n分别为向量A的长度和向量B的长度,ai(1≤i≤m)为向量A第i个位置的分量,bj(1≤j≤n)为向量第i个位置的分量,将向量A和向量B进行拼接,得到向量C,则向量C=[a1,a2,...,am,b1,b2,...,bn]。
6.根据权利要求5所述的方法,其特征在于,步骤3中,将每个样本的纵向多维度文本特征表示对应的样本特征向量采用步骤2中所述的方法进行拼接得到新的样本特征向量。
7.根据权利要求5所述的方法,其特征在于,步骤3中,将每个样本由改进的Decorrelated k-Means算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第一个特征向量,将样本由LDA的衍生算法Alter LDA算法生成的多个特征向量采用步骤2中所述的方法进行拼接得到每个样本的第二个特征向量,将每个样本由前述方法得到的两个特征向量进行拼接,为每个样本得到新的特征向量。
8.根据权利要求5所述的方法,其特征在于,步骤3中,将每个样本的横向多维度文本特征表示对应的样本特征向量进行拼接,即将样本由不同文本特征表示算法生成的样本特征向量进行拼接,得到新的样本特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810460235.7A CN108664633B (zh) | 2018-05-15 | 2018-05-15 | 一种利用多样化文本特征进行文本分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810460235.7A CN108664633B (zh) | 2018-05-15 | 2018-05-15 | 一种利用多样化文本特征进行文本分类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108664633A true CN108664633A (zh) | 2018-10-16 |
CN108664633B CN108664633B (zh) | 2020-12-04 |
Family
ID=63779560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810460235.7A Active CN108664633B (zh) | 2018-05-15 | 2018-05-15 | 一种利用多样化文本特征进行文本分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108664633B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471980A (zh) * | 2018-12-20 | 2019-03-15 | 厦门笨鸟电子商务有限公司 | 一种基于文本匹配的搜索推荐相关度计算方法 |
CN109582796A (zh) * | 2018-12-05 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 企业舆情事件网络的生成方法、装置、设备及存储介质 |
CN110516068A (zh) * | 2019-08-23 | 2019-11-29 | 贵州大学 | 一种基于度量学习的多维度文本聚类方法 |
CN111538836A (zh) * | 2020-04-22 | 2020-08-14 | 哈尔滨工业大学(威海) | 一种识别文本类广告中金融广告的方法 |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN112966104A (zh) * | 2021-03-04 | 2021-06-15 | 网易(杭州)网络有限公司 | 文本聚类方法、装置、处理设备及存储介质 |
CN109960799B (zh) * | 2019-03-12 | 2021-07-27 | 中南大学 | 一种面向短文本的优化分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079072A (zh) * | 2007-06-22 | 2007-11-28 | 中国科学院研究生院 | 一种文本聚类元学习方法及装置 |
US8254699B1 (en) * | 2009-02-02 | 2012-08-28 | Google Inc. | Automatic large scale video object recognition |
US20140156567A1 (en) * | 2012-12-04 | 2014-06-05 | Msc Intellectual Properties B.V. | System and method for automatic document classification in ediscovery, compliance and legacy information clean-up |
CN104572892A (zh) * | 2014-12-24 | 2015-04-29 | 中国科学院自动化研究所 | 一种基于循环卷积网络的文本分类方法 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
-
2018
- 2018-05-15 CN CN201810460235.7A patent/CN108664633B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079072A (zh) * | 2007-06-22 | 2007-11-28 | 中国科学院研究生院 | 一种文本聚类元学习方法及装置 |
US8254699B1 (en) * | 2009-02-02 | 2012-08-28 | Google Inc. | Automatic large scale video object recognition |
US20140156567A1 (en) * | 2012-12-04 | 2014-06-05 | Msc Intellectual Properties B.V. | System and method for automatic document classification in ediscovery, compliance and legacy information clean-up |
CN104572892A (zh) * | 2014-12-24 | 2015-04-29 | 中国科学院自动化研究所 | 一种基于循环卷积网络的文本分类方法 |
CN107423337A (zh) * | 2017-04-27 | 2017-12-01 | 天津大学 | 基于lda融合模型和多层聚类的新闻话题检测方法 |
Non-Patent Citations (3)
Title |
---|
孙志滨: "LDA模型的研究及其在推荐系统中的应用", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
王丹丹等: "基于宏特征融合的文本分类", 《中文信息学报》 * |
陶惠等: "基于向量空间的文档聚类算法分析", 《电脑知识与技术》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582796A (zh) * | 2018-12-05 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 企业舆情事件网络的生成方法、装置、设备及存储介质 |
CN109471980A (zh) * | 2018-12-20 | 2019-03-15 | 厦门笨鸟电子商务有限公司 | 一种基于文本匹配的搜索推荐相关度计算方法 |
CN109960799B (zh) * | 2019-03-12 | 2021-07-27 | 中南大学 | 一种面向短文本的优化分类方法 |
CN110516068A (zh) * | 2019-08-23 | 2019-11-29 | 贵州大学 | 一种基于度量学习的多维度文本聚类方法 |
CN110516068B (zh) * | 2019-08-23 | 2023-05-26 | 贵州大学 | 一种基于度量学习的多维度文本聚类方法 |
CN111538836A (zh) * | 2020-04-22 | 2020-08-14 | 哈尔滨工业大学(威海) | 一种识别文本类广告中金融广告的方法 |
CN111538836B (zh) * | 2020-04-22 | 2024-02-02 | 哈尔滨工业大学(威海) | 一种识别文本类广告中金融广告的方法 |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN112966104A (zh) * | 2021-03-04 | 2021-06-15 | 网易(杭州)网络有限公司 | 文本聚类方法、装置、处理设备及存储介质 |
CN112966104B (zh) * | 2021-03-04 | 2022-07-12 | 网易(杭州)网络有限公司 | 文本聚类方法、装置、处理设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108664633B (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108664633A (zh) | 一种利用多样化文本特征进行文本分类的方法 | |
CN106815369B (zh) | 一种基于Xgboost分类算法的文本分类方法 | |
CN104573046B (zh) | 一种基于词向量的评论分析方法及系统 | |
CN102521656B (zh) | 非平衡样本分类的集成迁移学习方法 | |
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN103810264A (zh) | 基于特征选择的网页文本分类方法 | |
CN111859983B (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
CN103886330A (zh) | 基于半监督svm集成学习的分类方法 | |
CN106294733B (zh) | 基于文本分析的网页检测方法 | |
CN113326378B (zh) | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 | |
CN110825850B (zh) | 一种自然语言主题分类方法及装置 | |
CN109299464B (zh) | 基于网络链接和文档内容的主题嵌入、文档表示方法 | |
CN113220865B (zh) | 一种文本相似词汇检索方法、系统、介质及电子设备 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN103020167A (zh) | 一种计算机中文文本分类方法 | |
CN101882136A (zh) | 文本情感倾向性分析方法 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
Bhutada et al. | Semantic latent dirichlet allocation for automatic topic extraction | |
CN116467443A (zh) | 基于主题识别的网络舆情文本分类方法 | |
CN110781297A (zh) | 基于层次判别树的多标签科研论文的分类方法 | |
Bakhtiari et al. | Online learning for two novel latent topic models | |
Tegegnie et al. | A comparative study of flat and hierarchical classification for amharic news text using svm | |
CN106294295B (zh) | 基于词频的文章相似度识别方法 | |
Banu et al. | A study of feature selection approaches for classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |