CN100533441C - 基于概率主题词的两级组合文本分类方法 - Google Patents
基于概率主题词的两级组合文本分类方法 Download PDFInfo
- Publication number
- CN100533441C CN100533441C CNB2006100117472A CN200610011747A CN100533441C CN 100533441 C CN100533441 C CN 100533441C CN B2006100117472 A CNB2006100117472 A CN B2006100117472A CN 200610011747 A CN200610011747 A CN 200610011747A CN 100533441 C CN100533441 C CN 100533441C
- Authority
- CN
- China
- Prior art keywords
- classification
- text
- probability
- subject
- probability subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims description 28
- 238000012706 support-vector machine Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 239000000463 material Substances 0.000 description 13
- 238000012549 training Methods 0.000 description 8
- 235000015170 shellfish Nutrition 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013398 bayesian method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理及模式识别领域,公开基于概率主题词的两级组合文本分类方法,一级分类:基于朴素贝叶斯分类方法,利用概率主题词特征和拒绝条件判断对测试文本分类;二级分类:再基于信息增益特征提取方法提取出特征词对被第一级拒绝分类的测试文本进行分类。本发明分级组合方法对文本进行分类,融和不同分类器的特点能够非常快的在一级分类中对很多文本进行正确分类,大大提高文本分类系统效率,为文本分类系统实用化提供很好的处理方式;考虑文本特点提出概率主题词,在适当的拒绝条件下,概率主题词以很高的正确率完成大量文本分类任务。实验证明本发明两级组合与传统单一分类相比,能够大大减少时间消耗并能提高系统分类正确率。
Description
技术领域
本发明涉及模式识别和自然语言处理技术领域,是一种基于概率主题词的串行组合文本分类方法。
背景技术
文本分类(Text Categorization)是多种自然语言处理技术的综合应用之一,实现对文本的计算机自动分类能够更好的帮助我们去组织和利用目前的浩瀚文本信息。同时,文本分类方法涉及到模式识别中的很多基本问题,例如分类器设计问题,高维特征问题等等。因此,文本分类技术的研究具有重要的实用价值和理论意义。
衡量文本分类方法的好坏一般要考虑到两个因素。一个是分类结果的正确率,往往也是最主要的因素。另一个是利用这种方法实现的系统的效率,即系统完成分类任务所需要的时间消耗,这方面的要求主要是网上实时系统的需要。以往的研究中,多种分类方法已经应用到文本分类任务中,例如K近邻方法,支持向量机方法,贝页斯方法等等。值得注意的是,文本分类问题中的特征数非常庞大,在应用这些分类方法之前,一般都要有特征提取的过程。由于文本分类中的高维特征空间及各个分类器本身的缺陷,单一的分类器很难能够在正确率和效率两方面都有明显的优势,进而这些分类方法很难在实际应用中发挥作用。
发明内容
为了解决现有技术单一的分类器很难在正确率和效率两方面都有明显的优势的缺陷,本发明的目的在于弥补单一分类器的不足,提出组合的分类方法,实现一种基于概率主题词的两级组合文本分类方法。
本发明提供基于概率主题词的两级组合文本分类方法,基本思想是基于分级的组合分类方法的。在这种组合的方法里,我们把两个分类器应用到分类的不同阶段,本发明的分类步骤如下:
第一阶段文本分类步骤:首先提取概率主题词,基于朴素贝叶斯分类方法,利用概率主题词(PTW)特征对测试文本分类,通过两个拒绝条件判断测试文本的分类器是否属于朴素贝叶斯分类;
第二阶段文本分类步骤:对于被第一级文本分类方法拒绝分类的文本,基于信息增益特征词的提取方法提取出特征词,再利用提取出的特征词以及朴素贝叶斯、支持向量机或者K近邻分类方法对被拒绝的测试文本进行第二次文本分类。。
所述第一阶段文本分类的判断拒绝条件步骤:判断一篇文本是否可以用第一个分类方法分类,采用两个拒绝条件:利用计算文本属于各个类别的后验概率值的大小;利用计算提取出来的概率主题词的数目大小。
本发明的有益效果:本发明从研究文本中的主题词作用和规律入手,在语料库学习方法中,本发明定义统计意义的主题词,通过统计方法在语料库中提取统计主题词;利用这些统计主题词对文本进行分类。利用拒绝条件,对那些拒绝的文本进行第二次分类。第二级分类将利用更多的特征及不同的分类器。本发明采用“两级组合”的思想来进行文本的分类,与单一分类方法不同,在本发明方法中,充分考虑到了主题词在文本分类过程中的重要作用。并且用一种合理的方式将两个阶段的分类方法结合起来,从而又充分利用了两个分类方法各自的优点,使得应用本发明方法的分类系统能够获得更好的分类效果。另外,第一个阶段的分类方法所用的概率主题词数目非常有限,但能够分类的文本数目却很多,因此,本发明的组合分类方法实现的系统在正确率及效率方面整个系统的效率相对单一分类方法的系统有了很大的提高。
本发明的方法在两个不一样的测试语料中在效率和正确率两方面,与现有的单一分类方法相比较都具有较大的优势。
附图说明
通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中:
图1是本发明的基于概率主题词的两级组合文本分类系统框架图
图2是本发明第一级分类器在两个语料库训练文本中的正确率和召回率的示意图
图3是采用本发明宏平均F1值评测标准的实验结果
具体实施方式
下面结合附图对本发明作具体说明。应该指出,所描述的施例仅仅视为说明的目的,而不是对本发明的限制。
根据本发明,提出的基于概率主题词的两级组合文本分类方法,在人工进行分类的时候,人们如果判断一个文本属于哪一类,往往只是观察文本中某些关键的词就可以得到正确的判断。这些关键的词一般被叫做主题词,很多分类词典中就是包括了这些主题词。然而,给出一个严格的关于主题词的形式定义是不可能的。在语料库学习方法中,可以定义一种统计意义上的主题词,命名为“概率主题词”(Probabilistic TopicWord,PTW)。然后通过统计的方法在语料库中提取这种词。然后先利用这些“统计主题词”对文本进行分类。利用适当的拒绝条件,对那些拒绝的文本即不能用这种方法的进行分类的文本进行第二次分类。第二级分类将利用更多的特征及不同的分类器。也就是说,本发明实现了一种两级的组合方式分类方法。
下面参考附图来描述根据本发明的优选实施例。
图1是本发明的基于概率主题词的两级组合文本分类方法框架图,它的系统主要由四部分构成:
第一级的概率主题词特征提取;第一级的贝叶斯分类器;第二级的信息增益特征词提取;第二级的分类器。第二级的分类器可以选择贝叶斯分类器、K近邻分类器、支持向量机分类器等中的任一分类器。
具体步骤为:
提取概率主题词步骤1:从测试文本训练语料中抽取概率主题词(PTW);
分类步骤2:利用概率主题词和朴素贝叶斯分类方法进行第一级分类提取特征词。
拒绝条件步骤3:如果第一级分类结果被拒绝条件拒绝,则进行下面的步骤4,否则,接受分类结果。接受文本应该具有下面两个特征,首先它属于具有最大后验概率的类别的概率值大于某个阈值;其次该文本中提取出来的概率主题词要达到一定数目。
信息增益特征词提取步骤4:利用信息增益特征提取方法提取训练语料库中的信息增益特征词(IG)。这些信息增益特征词的数目一般要远远多于上面提取出来的概率主题词。
获取分类步骤5:基于拒绝条件步骤3,对那些被拒绝分类的文本利用信息增益特征词进行第二级分类,得到第二级分类结果。
本发明基于概率主题词的两级组合文本分类方法,可以分为第一级分类过程和第二级分类过程两部分,具体步骤如下:
第一级分类步骤包括:
a)提取概率主题词;
b)以概率主题词为特征,利用朴素贝叶斯分类器对文本进行分类;
c)确定两个拒绝条件;
d)通过拒绝条件判断此文本是否可以用第一阶段里面的分类器进行分类;
第二级分类步骤包括:
aa)提取信息增益特征词;
bb)利用一种分类方法对被拒绝的文本进行分类;
所述第一级分类过程中步骤a)中利用词属于每个类别中的后验概率提取主题词;
所述第一级分类过程中步骤b)中通过这些概率主题词特征计算文本的后验概率,概率值最大的类别为分类的可能结果;
所述第一级分类过程中步骤c)中两个拒绝规则是通过分析文本属于每个类别的后验概率及概率主题词的数目决定的;
所述第一级分类过程中步骤d)中如果判断结果为可以分类,整个分类过程结束;如果判断结果为拒绝分类则进行第二级分类过程;
所述第二级分类过程中步骤aa)利用传统的特征提取方法,例如信息增益或者文本频率,提取特征词;
所述第二级分类过程中步骤bb)这个阶段的分类器可以是基于朴素贝叶斯、支持向量机或者K近邻方法的分类器。实际应用中,我们可以选择其中的任一个分类器;
根据本发明,基于概率主题词的的两级组合文本分类方法,系统的实现可以按照上述的装置依次顺序连接。
下面详细说明本发明方法所涉及的各个细节问题。
1.概率主题词的定义和提取
本发明仅仅利用少部分的概率主题词就可以对文本进行正确的分类。首先,我们给出概率主题词的定义。
定义:如果一个词t的类别后验概率满足条件p(ci|t)>θ,θ∈(0.5,1)时,我们称这个词为置信度为θ的概率主题词。
给出了定义后,通过这个定义提取概率主题词,即通过统计训练语料得到每个词的类别后验概率值。在实现的系统中,θ取值为0.6。词t的类别后验概率可由下面两个公式计算得到:
其中,tf(tjk)为词t在属于类ci的文本Dk中的频率,di是训练语料中类别ci中的所有文本数目。|V|是训练语料词典V中的词数目。
2.第一级文本分类方法—朴素贝叶斯分类方法
本发明的基本思想是利用特征项和分类的联合概率来估计给定文本的分类概率。纯粹贝叶斯假设文本是基于词的unigram模型,即文本中词的出现依赖于文本类别,但不依赖于其他词及文本的长度,也就是说,词与词之间是独立的。
本发明采用文本采用TF向量表示法,即文本向量的分量为相应的单词在该文本中出现的频度,则文本Doc属于ci类的概率为:
其中P(ci)为一个文本属于ci类的概率,P(tj|ci)是对在ci类文本中特征tj出现的条件概率的拉普拉斯概率估计,TF(tj,ci)是ci类文本中特征tj出现的频度,|V|为单词词典集的大小,等于文本表示中所包含的不同特征的总数目,TF(tj,Doc)是在文本Doc中特征tj出现的频度。
3.两个拒绝条件
本发明判断一个文本是否能够用第一级的分类方法进行分类需要相应的拒绝条件,本发明给出两个不同的拒绝条件:
第一个是判断由上面贝叶斯分类方法计算出来的文本的后验概率是否大于某个阈值。
第二个是判断从被分类文本中提取出来的概率主题词的数目是否满足一定的条件。
所述第一个拒绝条件:如果文本属于具有最大后验概率的类别的概率值小于某个阈值,则拒绝分类。阈值的大小由调节参数uThreshold决定,此参数可以通过训练语料得到比较合适的值。
所述第二个拒绝条件:如果文本中提取出来的概率主题词的数目满足下面的不等式时,则拒绝分类。不等式中的参数μi和σi可由训练语料得到:
|nT-nD·μi|>nD·2σi
下面详细说明一下这两个拒绝条件:
拒绝条件在多级组合分类方法中起着关键的作用:
第一个拒绝条件是一个很明显的条件,可以应用到所有基于概率的分类方法上面。通过调节参数uThreshold的值,可以使得系统的拒绝率达到任何想要的值。
第二个拒绝条件是我们针对概率主题词这一特殊特征设计的特殊拒绝条件。本发明假设待测试文本(该文本属于ci类)所包含的所有词nD与实际包括的概率主题词nT满足某种线性关系,即nT=ki×nD。通过观测语料不难发现,ki值满足正态分布。于是nT也是一个满足正态分布的变量。通过训练语料,我们不难获得ki分布的两个参数均值μi和方差值σi。于是,第二个拒绝条件的含义就比较明显了,它要求提取出的待测文本中概率主题词的数目不能偏离实际包括的概率主题词数目太多。
利用上面两个条件,第一级分类方法在训练语料库中所取得的测试结果,如图2所示。
4.第二级特征提取
如果待测文本被第一级的分类方法拒绝后,本发明需要提取另外的词作为第二级里面分类方法的特征。通过比较研究,信息增益提取方法能够在中文文本分类中取得比较不错的效果,所以在第二阶段的特征词提取中应用特征增益提取方法。
依据某特征项ti为整个分类所能提供的信息量,即不考虑任何特征的熵和考虑该特征后的熵的差值,来衡量该特征项的重要度。
其中P(cj)表示cj类文本在语料中出现的概率,P(ti)表示语料中包含词条ti的文本的概率,P(cj|ti)表示文本包含词条ti时属于cj类的条件概率,表示语料中不包含词条ti的文本的概率,表示文本不包含词条ti时属于cj的条件概率,M表示类别数。
5.第二级文本分类方法
第二级的分类方法可以选择任意一种以前应用到文本分类上面的分类方法。在实现的系统中,分别应用朴素贝叶斯(NB)、K近邻(KNN)及支持向量机(SVM)分类方法,作为本发明第二级里面的分类方法的实施例:
a.朴素贝叶斯分类方法已经在上面介绍。
b.K近邻(KNN)是著名的模式识别统计学方法,是比较好文本分类算法之一,其算法大概思想是:给定一个测试文本,系统在训练集中查找离它最近的K个邻居,并根据这些邻居的分类来给测试文本的候选分类评分。把邻居文本和测试文本的相似度作为邻居文本所在分类的权重,如果这K个邻居中的部分文本属于同一个分类,则K近邻(KNN)分类中的每个邻居的权重求和作为该候选类别和测试文本的相似度。通过对所有候选分类评分的排序,然后给出一个阈值,就可以判定测试文本的分类。
c.支持向量机(SVM)是在统计理论基础上发展起来的一种新的通用学习方法,它在结构风险最小化原理的近似实现,因为它同时是最小化经验风险和VC维的界。在文本分类任务中,这种分类方法得到了很大的应用,相关的研究工作非常多。
6.实验结果
为了将本文的两级组合分类方法和传统的单一分类方法相比较,我们使用一定的训练和测试语料分别对这两种分类方法进行训练和测试。为了验证这种组合方法的有效性,使用了两个不同的语料库。第一个语料库为人民日报新闻语料,总文本数目在3千篇左右。在这个语料库中,所有文本一共被分为经济、政治、电脑、体育、教育和法律六大类。另一个是从Internet收集的网页内容语料,这个语料库的规模较大,总文本数目在3万篇左右。在这个语料库中,所有文本一共被分为体育、科学、新闻、健康、金融和娱乐六大类。
图2所示,本发明实施例第一级分类器在两个语料库训练文本中的正确率和召回率示意图中:
Y轴代表:训练语料的正确率和回召率;
X轴代表:调节参数的值(uThreshold);
PdCorp代表:人民日报新闻语料;
IntCorp代表:Internet收集的网页内容语料;
-*-代表:PdCorp的正确率;
×代表:PdCorp的召回率;
-+-代表:IntCorp的正确率;
○代表:IntCorp的召回率。
图2中表示第一级分类器在两个语料库训练文本中的正确率和召回率。在这个分类过程中,采用的特征为概率主题词。概率主题词在人民日报新闻语料和Internet收集的网页内容语料的数目分别为789和6,753。语料提取出来概率主题词的数目相对于两个语料库中的词汇量还是要小很多。在应用两个拒绝条件后,仅仅利用一小部分的概率主题词就能获得这么高的正确率和召回率,足以说明我们的方法在效率方面有很大的优势。
如图3所示,采用本发明方法系统宏平均F1值评测标准的实验结果,我们采用宏平均值MroF1标准对我们的方法性能进行评估以及同单一分类方法的比较。
KNN代表:仅利用K近邻分类方法实现的单一分类器,所用的特征就是用传统的信息增益特征提取方法提取的词特征;
NB(PTW)+KNN代表:两级分类器,第一级用的是朴素贝页斯分类器,第二级用的是K近邻分类器。其中第一级分类所用的特征就是我们定义的概率主题词(PTW),第二级所用的特征是传统的信息增益特征提取方法提取的词特征;
NB代表:仅利用朴素贝页斯分类方法实现的单一分类器,所用的特征就是用传统的信息增益特征提取方法提取的词特征;
NB(PTW)+NB代表:两级分类器,第一级用的是朴素贝页斯分类器,第二级用的也是朴素贝页斯分类器。其中第一级分类所用的特征就是我们定义的概率主题词(PTW),第二级所用的特征是传统的信息增益特征提取方法提取的词特征;
SVM代表:仅利用支持向量机分类方法实现的单一分类器,所用的特征就是用传统的信息增益特征提取方法提取的词特征;
NB(PTW)+SVM代表:两级分类器,第一级用的是朴素贝页斯分类器,第二级用的是支持向量机分类器。其中第一级分类所用的特征就是我们定义的概率主题词(PTW),第二级所用的特征是传统的信息增益特征提取方法提取的词特征;
从图3所示的对比数据,可以看出,在两个不同的语料库中的实验数据表明:本发明的两级组合分类方法的正确率都高于相应的单一分类方法。此外,由于第一级里面所用的概率主题词(PTW)特征占所有语料库词表的一小部分,加上朴素贝叶斯方法相对于其他分类方法效率要高很多,所以系统的整体效率也有很大的提高。
上面描述是用于实现本发明及其实施例,各个步骤均为示例,本领域普通技术人员可以根据实际情况确定要使用的实际步骤,而且各个步骤有多种实现方法,均应属于本发明的范围之内。因此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。
Claims (8)
1、一种基于概率主题词的两级组合文本分类方法,其特征在于,所述方法包括:
第一级文本分类:首先提取概率主题词,基于朴素贝叶斯分类方法,利用概率主题词特征对测试文本分类,通过两个拒绝条件判断测试文本的分类器是否属于朴素贝叶斯分类;
第二级文本分类:对于被第一级文本分类方法拒绝分类的文本,基于信息增益特征词的提取方法提取出特征词,再利用提取出的特征词以及朴素贝叶斯、支持向量机或者K近邻分类方法对被拒绝的测试文本进行第二次文本分类。
2、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第一级文本分类的判断拒绝条件是:判断一篇文本是否可以用第一级文本分类方法分类,采用两个拒绝条件:利用计算文本属于各个类别的后验概率值的大小;利用计算提取出来的概率主题词的数目大小。
3、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,所述提取概率主题词是利用词属于每个类别中的后验概率提取主题词。
4、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,通过概率主题词特征计算文本的后验概率,概率值最大的类别为分类的可能结果。
5、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,所述两个拒绝条件是通过分析文本属于每个类别的后验概率及概率主题词的数目决定的。
6、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于:所述拒绝条件判断,如果判断结果为可以分类,整个分类过程结束;如果判断结果为拒绝分类则进行第二级分类过程。
7、根据权利要求1所述基于概率主题词的两级组合文本分类方法,其特征在于,所述第二级文本分类的分类器是基于朴素贝叶斯、支持向量机或者K近邻方法的分类器,可以选择其中的任一个分类器。
8、根据权利要求2所述基于概率主题词的两级组合文本分类方法,其特征在于,所述拒绝条件是:
第一个是判断由贝叶斯分类方法计算出来的文本的后验概率是否大于某个阈值;如果文本属于具有最大后验概率的类别的概率值小于某个阈值,则拒绝分类;
第二个是判断从被分类文本中提取出来的概率主题词的数目是否满足一定的条件;如果文本中提取出来的概率主题词的数目满足给定的不等式|nT-nD·μi|>nD·2σi时,则拒绝分类;其中:nD是文本所包含的所有词;所有词nD与概率主题词nT满足线性关系nT=ki×nD,ki值满足正态分布;nT是一个满足正态分布的变量;通过训练语料,获得ki分布的两个参数均值μi和方差值σi。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100117472A CN100533441C (zh) | 2006-04-19 | 2006-04-19 | 基于概率主题词的两级组合文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100117472A CN100533441C (zh) | 2006-04-19 | 2006-04-19 | 基于概率主题词的两级组合文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101059796A CN101059796A (zh) | 2007-10-24 |
CN100533441C true CN100533441C (zh) | 2009-08-26 |
Family
ID=38865902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100117472A Expired - Fee Related CN100533441C (zh) | 2006-04-19 | 2006-04-19 | 基于概率主题词的两级组合文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100533441C (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101345796B (zh) * | 2008-08-19 | 2012-04-25 | 烽火通信科技股份有限公司 | 基于户线测试模块的软交换户线智能测试系统及其方法 |
CN101587493B (zh) * | 2009-06-29 | 2012-07-04 | 中国科学技术大学 | 文本分类方法 |
JP2011150450A (ja) * | 2010-01-20 | 2011-08-04 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
CN102033964B (zh) * | 2011-01-13 | 2012-05-09 | 北京邮电大学 | 基于块划分及位置权重的文本分类方法 |
CN102609422A (zh) * | 2011-01-25 | 2012-07-25 | 阿里巴巴集团控股有限公司 | 类目错放识别方法和装置 |
CN103136266A (zh) * | 2011-12-01 | 2013-06-05 | 中兴通讯股份有限公司 | 邮件分类的方法及装置 |
CN103324628B (zh) * | 2012-03-21 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 一种针对发布文本的行业分类方法和系统 |
US10552459B2 (en) | 2013-10-31 | 2020-02-04 | Micro Focus Llc | Classifying a document using patterns |
CN104142968A (zh) * | 2013-11-19 | 2014-11-12 | 东南大学 | 一种基于solr技术的分布式搜索方法及系统 |
CN105183831A (zh) * | 2015-08-31 | 2015-12-23 | 上海德唐数据科技有限公司 | 一种针对不同学科题目文本分类的方法 |
US10452710B2 (en) * | 2015-09-30 | 2019-10-22 | Microsoft Technology Licensing, Llc | Selecting content items based on received term using topic model |
CN106874291A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 文本分类的处理方法及装置 |
SG11201805746YA (en) * | 2016-04-05 | 2018-08-30 | Thomson Reuters Global Resources Unlimited Co | Self-service classification system |
CN107797982B (zh) * | 2016-08-31 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 用于识别文本类型的方法、装置和设备 |
CN107798033B (zh) * | 2017-03-01 | 2021-07-02 | 中南大学 | 一种公安领域案件文本的分类方法 |
CN108628873B (zh) * | 2017-03-17 | 2022-09-27 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置和设备 |
CN108228687A (zh) * | 2017-06-20 | 2018-06-29 | 上海吉贝克信息技术有限公司 | 大数据知识挖掘及精准跟踪方法与系统 |
CN110019654A (zh) * | 2017-07-20 | 2019-07-16 | 南方电网传媒有限公司 | 一种不平衡网络文本分类优化系统 |
CN107632974B (zh) * | 2017-08-08 | 2021-04-13 | 北京微瑞思创信息科技股份有限公司 | 适用于多领域的中文分析平台 |
CN110019776B (zh) * | 2017-09-05 | 2023-04-28 | 腾讯科技(北京)有限公司 | 文章分类方法及装置、存储介质 |
CN107785014A (zh) * | 2017-10-23 | 2018-03-09 | 上海百芝龙网络科技有限公司 | 一种家庭场景语义理解方法 |
CN108763203B (zh) * | 2018-05-18 | 2022-11-11 | 大连民族大学 | 影评情感分析中使用特征词集将影评以特征向量表示的方法 |
CN108920694B (zh) * | 2018-07-13 | 2020-08-28 | 鼎富智能科技有限公司 | 一种短文本多标签分类方法及装置 |
CN109344233B (zh) * | 2018-08-28 | 2022-07-19 | 昆明理工大学 | 一种中文人名识别方法 |
CN109344402B (zh) * | 2018-09-20 | 2023-08-04 | 中国科学技术信息研究所 | 一种新术语自动发现识别方法 |
CN110009056B (zh) * | 2019-04-15 | 2021-07-30 | 秒针信息技术有限公司 | 一种社交账号的分类方法及分类装置 |
CN111626067B (zh) * | 2020-06-01 | 2022-04-19 | 北京世纪好未来教育科技有限公司 | 语言类型判别方法、装置、设备及存储介质 |
CN113221705B (zh) * | 2021-04-30 | 2024-01-09 | 平安科技(深圳)有限公司 | 电子文献的自动分类方法、装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6182058B1 (en) * | 1997-02-28 | 2001-01-30 | Silicon Graphics, Inc. | Bayes rule based and decision tree hybrid classifier |
US6694303B1 (en) * | 2000-01-19 | 2004-02-17 | International Business Machines Corporation | Method and system for building a Naive Bayes classifier from privacy-preserving data |
CN1719436A (zh) * | 2004-07-09 | 2006-01-11 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
CN1809830A (zh) * | 2003-06-20 | 2006-07-26 | 新加坡科技研究局 | 从大量文档集合中进行术语提取的方法和平台 |
-
2006
- 2006-04-19 CN CNB2006100117472A patent/CN100533441C/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6182058B1 (en) * | 1997-02-28 | 2001-01-30 | Silicon Graphics, Inc. | Bayes rule based and decision tree hybrid classifier |
US6694303B1 (en) * | 2000-01-19 | 2004-02-17 | International Business Machines Corporation | Method and system for building a Naive Bayes classifier from privacy-preserving data |
CN1809830A (zh) * | 2003-06-20 | 2006-07-26 | 新加坡科技研究局 | 从大量文档集合中进行术语提取的方法和平台 |
CN1719436A (zh) * | 2004-07-09 | 2006-01-11 | 中国科学院自动化研究所 | 一种新的面向文本分类的特征向量权重的方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于Stacking算法的组合分类器及其应用于中文组块分析. 李珩,朱靖波,姚天顺.计算机研究与发展. 2005 * |
文本分类中多分类器的综合机制. 邹金风,林鸿飞,杨志毫.计算机工程与应用. 2005 * |
Also Published As
Publication number | Publication date |
---|---|
CN101059796A (zh) | 2007-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100533441C (zh) | 基于概率主题词的两级组合文本分类方法 | |
CN109101477B (zh) | 一种企业领域分类及企业关键词筛选方法 | |
CN107609121A (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN109960799A (zh) | 一种面向短文本的优化分类方法 | |
CN107239529A (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
CN105320960A (zh) | 一种基于投票的跨语言主客观情感分类方法 | |
CN103886108B (zh) | 一种不均衡文本集的特征选择和权重计算方法 | |
CN109885675B (zh) | 基于改进lda的文本子话题发现方法 | |
CN101604322A (zh) | 一种决策级文本自动分类融合方法 | |
CN101876987A (zh) | 一种面向类间交叠的两类文本分类方法 | |
CN108170666A (zh) | 一种基于tf-idf关键词提取的改进方法 | |
Deniz et al. | Effects of various preprocessing techniques to Turkish text categorization using n-gram features | |
CN107526841A (zh) | 一种基于Web的藏文文本自动摘要生成方法 | |
CN109522544A (zh) | 基于卡方检验的句向量计算方法、文本分类方法及系统 | |
CN108153899B (zh) | 一种智能化文本分类方法 | |
Espinosa et al. | Bots and Gender Profiling using Character Bigrams. | |
CN113626604B (zh) | 基于最大间隔准则的网页文本分类系统 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
Kudari et al. | Fake news detection using passive aggressive and TF-IDF vectorizer | |
Duwairi | A Distance-based Classifier for Arabic Text Categorization. | |
CN105354184A (zh) | 一种使用优化的向量空间模型实现文档自动分类的方法 | |
Dewi et al. | Feature expansion using word2vec for hate speech detection on Indonesian twitter with classification using SVM and random forest | |
CN108804422B (zh) | 一种科技论文文本建模方法 | |
CN101576876B (zh) | 一种自动拆分英文复合词组的系统和方法 | |
CN103207893A (zh) | 基于向量组映射的两类文本的分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C53 | Correction of patent for invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Zong Chengqing Inventor after: Li Shoushan Inventor before: Zong Chengshan Inventor before: Li Shoushan |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: ZONG CHENGSHAN LI SHOUSHAN TO: ZONG CHENGQING LI SHOUSHAN |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090826 Termination date: 20170419 |
|
CF01 | Termination of patent right due to non-payment of annual fee |