CN110147810B - 基于类感知特征选择框架的文本分类方法和系统 - Google Patents
基于类感知特征选择框架的文本分类方法和系统 Download PDFInfo
- Publication number
- CN110147810B CN110147810B CN201910255365.1A CN201910255365A CN110147810B CN 110147810 B CN110147810 B CN 110147810B CN 201910255365 A CN201910255365 A CN 201910255365A CN 110147810 B CN110147810 B CN 110147810B
- Authority
- CN
- China
- Prior art keywords
- category
- feature
- class
- text
- clusters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000008447 perception Effects 0.000 title claims description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000758 substrate Substances 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012562 intraclass correlation Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 15
- 238000012360 testing method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 241000288113 Gallirallus australis Species 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本分类方法。所述方法包括对多个类别簇进行预处理,得到特征词集合,分别计算各特征词与各类别簇之间的类相关度分值和类区分度分值,分别将各特征词分配给具有相应最高类相关度分值的类别簇,对各类别簇内的词语进行重新排序,从各类别簇中选取特征子集,对总特征集合内的各特征子集进行重新排序,从而得到最终特征集合,以及将向量表示后的待分类文本输入到分类器中,输出分类结果等步骤。本发明方法中分类器所处理的数据同时包含了不同类别簇各自的性质以及特征词的类内相关程度和类间区分程度等信息,克服了现有技术的片面性,能够达到更优的文本分类效果。本发明广泛应用于文本分类技术领域。
Description
技术领域
本发明涉及文本分类技术领域,尤其是一种基于类感知特征选择框架的文本分类方法和系统。
背景技术
文本分类技术被广泛应用于信息检索、文本挖掘、舆情分析、垃圾邮件识别等实际应用场景中。大部分文本分类技术都是基于分类器实现的,用以训练分类器的训练集包含有多达数十万个的特征词,因此特征抽取是文本分类技术当中的重要环节。
特征抽取的目的是抽取出更能够识别簇类别能力的特征词,现有的特征抽取方法多从全局角度抽取能最佳识别簇类别能力的特征词。以信息增益为例,它的原理是计算每个特征词的信息增益值,信息增益值越大,说明该特征词更倾斜于某一个类别簇,即该词的类区分能力更高。全局特征抽取方法充分考虑到全局类区分能力,因此表现出良好的性能。然而,这种方法对不平衡数据集的区分效果并不好。这是因为,当数据集的类别个数较多且为不平衡数据时,传统特征抽取方法由于只考虑了全局类区分度最高的特征,导致对某些小样本类别簇抽取的特征稀疏,从而导致对小样本簇的分类正确率降低。同时,现有的文本分类方法所依赖的特征抽取方法只考虑特征词的类倾斜度而没有考虑特征词的类间区分能力,这种片面性使得现有文本分类方法的分类准确性受到限制。
发明内容
为了解决上述技术问题,本发明的目在于提供一种文本分类方法及系统。
一方面,本发明实施例包括一种文本分类方法,包括以下步骤:
对多个类别簇进行预处理,得到特征词集合;所述类别簇包含多个同类别的词语,所述多个类别簇用于组成训练集,所述训练集用于对分类器进行训练;
分别计算特征词集合中的各特征词与各类别簇之间的类相关度分值和类区分度分值;
分别将特征词集合中的各特征词分配给具有相应最高类相关度分值的类别簇;
根据各类别簇与分配到的特征词之间的类区分度分值,分别对各类别簇内的词语进行重新排序;
从经过重新排序的各类别簇中分别选取特征子集;选取到的全部所述特征子集用于组成总特征集合;
根据各特征子集与各自相应的特征词之间的类相关度分值,对所述总特征集合内的各特征子集进行重新排序,从而得到最终特征集合;
将所述最终特征集合中的元素作为基底,对待分类文本进行向量表示;
将向量表示后的待分类文本输入到分类器中,输出分类结果。
进一步地,所述分类器为SVM分类器、朴素贝叶斯分类器、K最近邻分类器或决策树分类器。
进一步地,所述类相关度分值的计算公式为:
进一步地,所述类区分度分值的计算公式为:
进一步地,所述从经过重新排序的各类别簇中分别选取特征子集这一步骤,所用的公式为:
进一步地,所述Fj的大小与N(Cj)成正比例关系。
另一方面,本发明实施例还包括一种文本分类系统,包括:
预处理模块,用于对多个类别簇进行预处理,得到特征词集合;所述类别簇包含多个同类别的词语,所述多个类别簇用于组成训练集,所述训练集用于对分类器进行训练;
分值计算模块,用于分别计算特征词集合中的各特征词与各类别簇之间的类相关度分值和类区分度分值;
特征词分配模块,用于分别将特征词集合中的各特征词分配给具有相应最高类相关度分值的类别簇;
第一重排序模块,用于根据各类别簇与分配到的特征词之间的类区分度分值,分别对各类别簇内的词语进行重新排序;
特征子集选取模块,用于从经过重新排序的各类别簇中分别选取特征子集;选取到的全部所述特征子集用于组成总特征集合;
第二重排序模块,用于根据各特征子集与各自相应的特征词之间的类相关度分值,对所述总特征集合内的各特征子集进行重新排序,从而得到最终特征集合;
向量表示模块,用于将所述最终特征集合中的元素作为基底,对待分类文本进行向量表示;
分类器模块,用于将向量表示后的待分类文本输入到分类器中,输出分类结果。
本发明的有益效果是:通过将各特征词分配给相应的类别簇,实现类感知功能;根据类区分度分值进行的排序和根据类相关度分值进行的排序,所得到的最终特征集合既考虑了不同类别簇各自的性质,也考虑了特征词的类内相关程度和类间区分程度。由于输入到分类器的数据是将待分类文本根据最终特征集合进行向量表示后的结果,分类器所处理的数据同时包含了不同类别簇各自的性质以及特征词的类内相关程度和类间区分程度等信息,克服了现有技术的片面性,能够达到更优的文本分类效果,尤其适用于不平衡数据集的分类效果。
附图说明
图1为本发明文本分类方法的实施例流程图。
具体实施方式
本实施例包括一种文本分类方法,参照图1,所述方法包括以下步骤:
S1.对多个类别簇进行预处理,得到特征词集合;所述类别簇包含多个同类别的词语,所述多个类别簇用于组成训练集,所述训练集用于对分类器进行训练;
S2.分别计算特征词集合中的各特征词与各类别簇之间的类相关度分值和类区分度分值;
S3.分别将特征词集合中的各特征词分配给具有相应最高类相关度分值的类别簇;
S4.根据各类别簇与分配到的特征词之间的类区分度分值,分别对各类别簇内的词语进行重新排序;
S5.从经过重新排序的各类别簇中分别选取特征子集;选取到的全部所述特征子集用于组成总特征集合;
S6.根据各特征子集与各自相应的特征词之间的类相关度分值,对所述总特征集合内的各特征子集进行重新排序,从而得到最终特征集合;
S7.将所述最终特征集合中的元素作为基底,对待分类文本进行向量表示;
S8.将向量表示后的待分类文本输入到分类器中,输出分类结果。
本发明方法中,所用的分类器可以是SVM分类器、朴素贝叶斯分类器、K最近邻分类器或决策树分类器中的任一种,优选地使用SVM分类器作为本发明方法中的分类器。本发明方法所用的经过训练集的训练,本发明方法不对分类器本身的分类过程以及训练过程进行改进。本实施例中,所用的训练集包含多个类别簇,每个类别簇中包含多个同类别的词语或文本。对每个类别簇进行分词和去停用词等预处理,可以得到多个分别与每个类别簇对应的特征词集合。
本实施例中,将训练集记为C={C1,C2,...,Cm},即训练集是由C1,C2,...,Cm等m个类别簇组成的。本实施例中要对由d1,d2,...,dn等n个待分类文档组成的待分类文档集合进行分类。
通过步骤S1,对训练集C={C1,C2,...,Cm}中的各类别簇进行预处理,得到由多个特征词t1,t2,...,tn组成的特征词集合T={t1,t2,...,tn}。
在步骤S2中,通过以下公式计算特征词集合中的各特征词与各类别簇之间的类相关度分值:
式中,score1(ti,Cj)为特征词ti与类别簇Cj之间的类相关度分值,i和j为标号,m为类别簇的总数,n为待分类文本的总数。式中,correlation(·)是相关度函数,具体可以是协方差等函数。
在步骤S2中,通过以下公式计算特征词集合中的各特征词与各类别簇之间的类相关度分值:
在步骤S3中,将特征词集合中的各特征词分配给具有相应最高类相关度分值的类别簇。本实施例中,针对特征词ti和各类别簇计算一系列类相关度分值:score1(ti,C1),score1(ti,C2),……,score1(ti,Cm),其中若最大值为score1(ti,C5),则将ti分配给C5。
在步骤S4中,对各类别簇内的词语进行重新排序,具体方式可以是:针对各类别簇内的各个词语,参照步骤S2中的公式计算类区分度分值;对于某个类别簇,按照该类别簇内原有词语以及分配到的特征词的类区分度分值从大到小或从小到大的方式进行重新排序。
步骤S5中,从经过重新排序的各类别簇中分别选取部分或全部词语作为特征子集,即针对一个类别簇选取一个对应的特征子集。本实施例中,从类别簇Cj选出的特征子集记为Fj,它由多个类相关特征tj1,tj2,...,tjl组成,这些类相关特征tj1,tj2,...,tjl具有步骤S4所确定的顺序,每个类相关特征的标号jl表示从类别簇Cj所选取的词语。其中标号l满足 式中,N(Cj)为类别簇Cj的大小,N为训练集的大小,即训练集包含有N个词语,m为类别簇的总数,即一共有m个类别簇,d为文本向量的维度。
进一步作为优选的实施方式,所述Fj的大小与N(Cj)成正比例关系,即在步骤S5中,从类别簇Cj选出的特征子集Fj所包含的词语数量与类别簇Cj所包含的词语数量成正比例关系。总体来说,一个类别簇所包含的词语数量越多,从这个类别簇所选出的特征子集就越大。
本实施例中的步骤S1-S8的原理在于:通过步骤S3将各特征词分配给相应的类别簇,实现类感知功能;通过步骤S4中根据类区分度分值进行的排序和步骤S6中根据类相关度分值进行的排序,所得到的最终特征集合既考虑了不同类别簇各自的性质,也考虑了特征词的类内相关程度和类间区分程度。由于输入到分类器的数据是将待分类文本根据最终特征集合进行向量表示后的结果,分类器所处理的数据同时包含了不同类别簇各自的性质以及特征词的类内相关程度和类间区分程度等信息,克服了现有技术的片面性,能够达到更优的文本分类效果。
本实施例还包括一种文本分类系统,包括:
预处理模块,用于对多个类别簇进行预处理,得到特征词集合;所述类别簇包含多个同类别的词语,所述多个类别簇用于组成训练集,所述训练集用于对分类器进行训练;
分值计算模块,用于分别计算特征词集合中的各特征词与各类别簇之间的类相关度分值和类区分度分值;
特征词分配模块,用于分别将特征词集合中的各特征词分配给具有相应最高类相关度分值的类别簇;
第一重排序模块,用于根据各类别簇与分配到的特征词之间的类区分度分值,分别对各类别簇内的词语进行重新排序;
特征子集选取模块,用于从经过重新排序的各类别簇中分别选取特征子集;选取到的全部所述特征子集用于组成总特征集合;
第二重排序模块,用于根据各特征子集与各自相应的特征词之间的类相关度分值,对所述总特征集合内的各特征子集进行重新排序,从而得到最终特征集合;
向量表示模块,用于将所述最终特征集合中的元素作为基底,对待分类文本进行向量表示;
分类器模块,用于将向量表示后的待分类文本输入到分类器中,输出分类结果。
所述各模块可以是具有相应功能的硬件模块,也可以是计算中运行的具有相应功能的软件模块。
以下提供一个更为具体的实施例,该实施例使用本发明的方法、系统实现,从而通过定量的数据来展示本发明的有益效果。
为了测试所提出的基于类感知特征选择框架的文本分类算法,分别选取了经典中文文本数据集和英文文本数据集进行测试,并分别使用支持向量机、朴素贝叶斯、K最近邻和决策树分类器对本发明提出的类感知特征选择框架CAFSS以及两个经典优秀的传统特征抽取方法信息增益(IG)和卡方统计(CHI)进行比较。
支持向量机分类器采用的是LibSVM库方法(A Library for Support VectorMachines)的weka接口。贝叶斯分类器分为基于伯努利模型的朴素贝叶斯分类器和基于多项式模型的多项式朴素贝叶斯分类器,K最近邻分类器采用的是weka包中的IBk分类器,在K最近邻分类器中,所有测试数据K值均取10。决策树分类器采用的是weka包中的J48分类器。
本实施例中所有文本数据均采用向量空间模型表示,每个文本的向量权重采用TFIDF特征权重来计算,TFIDF的权重计算方法为:
其中N表示训练集中总的文档个数,tf(ti,dj)表示特征ti在文档dj中的词频,df(ti)表示训练集中包含特征ti的文档个数,数据集的所有权重进行了规范化处理。分类结果采用标准分类精度、分类召回率以及分类F1度量值来对结果进行评价,计算公式如下所示:
本实施例分别选取搜狐研发中心提供的搜狗中文文本分类数据集和复旦中文文本分类数据集进行测试。其中搜狗数据集分别由IT、体育、健康、军事、招聘、教育、文化、旅游、财经等9个类别的文本组成,且每个类别均包含了1990个文本,本实施例中随机对数据集抽取90%作为训练集,10%作为测试集,训练集文本总数为16,119,训练集中平均文档长度为252个单词,特征词个数为155,345。复旦大学中文文本分类数据集则包含了Art、Education、Philosophy、History等共20个类别的文本组成,本实施例中按照原始数据集给定的1∶1得到训练集和测试集,其中训练集文档个数为9804,训练集中平均文档长度为559个单词,特征词个数为335,664个。为了测试多类别数据集和少类别数据集的差异,本实施例还抽取了IT、军事和财经三个子集作为搜狗少类别数据集进行测试对比,同时还抽取了复旦大学20个类别中的Art、History、Space、Computer、Environment、Agriculture、Economy、Politics、sports大小为466~1600之间的9个大类组成复旦9个大类数据集作为对比试验,本实施例中所有结果均为文本向量取100维时的结果。
表1为不同特征抽取算法在两个中文搜狗数据集上的不同分类结果对比。从本实施例结果可以看出,本实施例所提出的基于类感知特征选择框架的文本分类方法无论在9个类别还是3个类别搜狗文本数据集上,均获得比传统优秀特征抽取方法较好的分类性能。本实施例的模拟结果中,信息增益特征抽取方法和卡方统计特征抽取方法在不同的分类方法下结果有优有劣,例如在搜狗9个类别数据集中,信息增益方法在SVM分类方法、NaiveBayesMultinomial和NaiveBayes上表现优于卡法统计方法,而卡方统计方法在KNN、C4.5分类方法上优于信息增益方法。但是,本实施例所提出的类感知特征选择方法则在搜狗两个数据集的五个分类方法上均表现出最优的分类性能,这一结果表明,本实施例提出的两步特征提取方法能比传统的方法选取更好的分类特征。
表1
表2为不同特征抽取策略在复旦文本数据集上的分类结果对比。从本实施例结果可以看出,本实施例所提出的类感知特征抽取框架的文本分类方法在复旦20个类别文本数据集上所获得的分类结果提升明显。例如在SVM分类方法上,本实施例方法比传统IG方法和CHI方法的分类F1度量值分别提高5.243和2.957个百分点。在NaiveBayesMultimormal分类方法上,CAFSS方法比IG和CHI方法的分类F1度量值分别提高8.387和4.868个百分点,在复旦9个大类数据集上,SVM分类结果在CAFSS方法上比IG和CHI方法上分类F1度量值分别提高6.35和3.76个百分点,NaiveBayesMultinomial分类结果在TSFS方法上比IG和CHI方法上分类F1度量值分别提高10.382和7.095个百分点,这一结果再一次证明本实施例方法的合理性。
表2
本实施例依据传统文本特征选择方法存在的问题,提出了一种新的类感知特征选择框架。在多类别数据集或不平衡数据集中,由于每个类别具有很大的差异:如有大类别(即该类别的样本个数很多)和小类别(即该类别的样本个数很少)的差异;有些类别中的文本特征词显著,并具有较少的噪音文本,而有些类别中的噪音文本多,并且特征词稀疏等。基于此,本实施例提出一种基于类感知特征选择框架的文本分类方法。将本发明方法应用在中文文本分类数据集上的结果表明,本发明所提出的方法比优秀传统特征抽取方法具有对数据集适应性更强,并在不平衡数据集和多类别数据集上取得更优的分类性能。
以上是对本发明的较佳实施进行了具体说明,但对本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (7)
1.一种基于类感知特征选择框架的文本分类方法,其特征在于,包括以下步骤:
对多个类别簇进行预处理,得到特征词集合;所述类别簇包含多个同类别的词语,所述多个类别簇用于组成训练集,所述训练集用于对分类器进行训练;
分别计算特征词集合中的各特征词与各类别簇之间的类相关度分值和类区分度分值;
分别将特征词集合中的各特征词分配给具有相应最高类相关度分值的类别簇;
根据各类别簇与分配到的特征词之间的类区分度分值,分别对各类别簇内的词语进行重新排序;
从经过重新排序的各类别簇中分别选取特征子集;选取到的全部所述特征子集用于组成总特征集合;
根据各特征子集与各自相应的特征词之间的类相关度分值,对所述总特征集合内的各特征子集进行重新排序,从而得到最终特征集合;
将所述最终特征集合中的元素作为基底,对待分类文本进行向量表示;
将向量表示后的待分类文本输入到分类器中,输出分类结果。
2.根据权利要求1所述的文本分类方法,其特征在于,所述分类器为SVM分类器、朴素贝叶斯分类器、K最近邻分类器或决策树分类器。
6.根据权利要求5所述的文本分类方法,其特征在于,所述Fj的大小与N(Cj)成正比例关系。
7.一种基于类感知特征选择框架的文本分类系统,其特征在于,包括:
预处理模块,用于对多个类别簇进行预处理,得到特征词集合;所述类别簇包含多个同类别的词语,所述多个类别簇用于组成训练集,所述训练集用于对分类器进行训练;
分值计算模块,用于分别计算特征词集合中的各特征词与各类别簇之间的类相关度分值和类区分度分值;
特征词分配模块,用于分别将特征词集合中的各特征词分配给具有相应最高类相关度分值的类别簇;
第一重排序模块,用于根据各类别簇与分配到的特征词之间的类区分度分值,分别对各类别簇内的词语进行重新排序;
特征子集选取模块,用于从经过重新排序的各类别簇中分别选取特征子集;选取到的全部所述特征子集用于组成总特征集合;
第二重排序模块,用于根据各特征子集与各自相应的特征词之间的类相关度分值,对所述总特征集合内的各特征子集进行重新排序,从而得到最终特征集合;
向量表示模块,用于将所述最终特征集合中的元素作为基底,对待分类文本进行向量表示;
分类器模块,用于将向量表示后的待分类文本输入到分类器中,输出分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910255365.1A CN110147810B (zh) | 2019-04-01 | 2019-04-01 | 基于类感知特征选择框架的文本分类方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910255365.1A CN110147810B (zh) | 2019-04-01 | 2019-04-01 | 基于类感知特征选择框架的文本分类方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110147810A CN110147810A (zh) | 2019-08-20 |
CN110147810B true CN110147810B (zh) | 2020-05-19 |
Family
ID=67589342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910255365.1A Active CN110147810B (zh) | 2019-04-01 | 2019-04-01 | 基于类感知特征选择框架的文本分类方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110147810B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720781B2 (en) * | 2003-01-29 | 2010-05-18 | Hewlett-Packard Development Company, L.P. | Feature selection method and apparatus |
CN106570178A (zh) * | 2016-11-10 | 2017-04-19 | 重庆邮电大学 | 一种基于图聚类的高维文本数据特征选择方法 |
-
2019
- 2019-04-01 CN CN201910255365.1A patent/CN110147810B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720781B2 (en) * | 2003-01-29 | 2010-05-18 | Hewlett-Packard Development Company, L.P. | Feature selection method and apparatus |
CN106570178A (zh) * | 2016-11-10 | 2017-04-19 | 重庆邮电大学 | 一种基于图聚类的高维文本数据特征选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110147810A (zh) | 2019-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210224286A1 (en) | Search result processing method and apparatus, and storage medium | |
Li et al. | Using discriminant analysis for multi-class classification: an experimental investigation | |
WO2022126810A1 (zh) | 文本聚类方法 | |
AU2013365452B2 (en) | Document classification device and program | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN109522544A (zh) | 基于卡方检验的句向量计算方法、文本分类方法及系统 | |
CN101477563A (zh) | 一种短文本聚类的方法、系统及其数据处理装置 | |
CN110795564A (zh) | 一种缺少负例的文本分类方法 | |
CN112579783B (zh) | 基于拉普拉斯图谱的短文本聚类方法 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
CN111144106A (zh) | 一种不平衡数据集下的两阶段文本特征选择方法 | |
Sabbah et al. | Hybrid support vector machine based feature selection method for text classification. | |
CN109376235A (zh) | 基于文档层词频重排序的特征选择方法 | |
CN110968693A (zh) | 基于集成学习的多标签文本分类计算方法 | |
Jivani | The novel k nearest neighbor algorithm | |
CN106844596A (zh) | 一种基于改进的svm中文文本分类方法 | |
Baena-García et al. | TF-SIDF: Term frequency, sketched inverse document frequency | |
Zhou et al. | Feature selection based on term frequency reordering of document level | |
CN115510331B (zh) | 一种基于闲置量聚合的共享资源匹配方法 | |
CN105760471B (zh) | 基于组合凸线性感知器的两类文本分类方法 | |
CN110147810B (zh) | 基于类感知特征选择框架的文本分类方法和系统 | |
Akyol | Clustering hotels and analyzing the importance of their features by machine learning techniques | |
Peleja et al. | Text Categorization: A comparison of classifiers, feature selection metrics and document representation | |
CN106021929A (zh) | 基于子类问题分类能力度量的Filter特征选取方法 | |
Tesic et al. | Data modeling strategies for imbalanced learning in visual search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |