CN105224689A - 一种东巴文献分类方法 - Google Patents

一种东巴文献分类方法 Download PDF

Info

Publication number
CN105224689A
CN105224689A CN201510726507.XA CN201510726507A CN105224689A CN 105224689 A CN105224689 A CN 105224689A CN 201510726507 A CN201510726507 A CN 201510726507A CN 105224689 A CN105224689 A CN 105224689A
Authority
CN
China
Prior art keywords
document
dongba
text
lexical item
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510726507.XA
Other languages
English (en)
Inventor
李宁
吕学强
陈玉敬
董志安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201510726507.XA priority Critical patent/CN105224689A/zh
Publication of CN105224689A publication Critical patent/CN105224689A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种东巴文献分类方法,包括以下步骤:步骤1)划分训练集与测试集;步骤2)文本预处理;步骤3)特征选择;步骤4)利用文献特征进行二次降维得到东巴文献分类的特征;步骤5)特征加权;步骤6)用向量空间模型来表示训练集和测试集的文档,得到其向量空间模型表示形式;步骤7)根据分类规则对测试集进行分类得到分类结果。本发明提出的东巴文献分类方法,设计科学合理,工作效率高,利用GMI特征选择算法选择出文本特征,然后结合文献特征进行二次降维得到东巴文献的分类特征,最后利用支持向量机分类器对东巴文献进行训练和测试,平均正确率和召回率都很高,为东巴文献分类提供了一个非常有效的方法。

Description

一种东巴文献分类方法
技术领域
本发明属于文本分类技术领域,具体涉及一种东巴文献分类方法。
背景技术
纳西族是中国56个民族之一,千年以来由纳西族传承下来的文化,又叫东巴文化。东巴文化是中国乃至全世界珍贵的文化遗产,成为世人关注的文化。目前,这一世界文化遗产引起了很多研究者的兴趣,研究成果逐年增加。为了方便人们的检索和使用,最初采用人工分类的方式对东巴文献进行整理。但是,人工分类的方法存在很多的不足,一方面需要投入大量的人力、物力和精力;二是分类结果存在不确定性和不一致性,这种人工分类的做法取决于个人能力和经验,对于同一篇文献,不同人的分类结果可能截然不同。即使是同一个人在不同时间的多次分类结果也有可能不同。
东巴文献不同于一般的文本,它具有普通文本的一般特性又拥有期刊文献的特殊性,经过文本预处理,得到文本集合的词项序列,然而词项序列的维数高达几万维,甚至十万维;如果用词项序列作为文本特征,会造成维数灾难,严重影响分类的效率,并且维数过高会参杂大量的冗余信息影响分类的效果;特征选择就是用来排除大量对分类没有作用的词项。在现有技术中,互信息方法(MI)因为计算复杂度小成为重要的特征选择算法之一。传统的互信息(MI)方法的计算公式为:其中,p(wi,cj)表示含有词项wi并且属于类别cj的文本概率,p(wi)表示含有词项wi的文本概率,p(cj)表示文本属于类别cj的概率。词项wi在m个类的整体互信息量表示为 M I ( w i ) = p ( c j ) Σ j = 1 m M I ( w i , c j ) .
然而,现有技术中常用的传统的互信息(MI)方法有如下不足:传统的互信息方法仅仅考虑了文档频率而没有考虑词频;传统的互信息方法使用每个类别上的互信息量的期望值作为评估函数,体现的是一种平均选择能力,传统的互信息方法选择的是一种平均能力,然而特征选择是选择出该类的特征来区别于其他类别,所以传统的互信息方法选择不能很好地满足实际要求。
目前,文本分类已有不少成果,然而东巴文献还没有进行分类研究,东巴文献分类方法领域还存在较大的技术空白,这是当前亟待解决的问题。
发明内容
针对上述背景技术中存在的问题,本发明的目的在于提供一种可解决上述技术问题的东巴文献分类方法。
为了实现上述发明目的,本发明采用的技术方案如下:
一种东巴文献分类方法,包括以下步骤:
步骤1)划分训练集与测试集:将需要进行分类的东巴文献按照n:1的比例随机划分为训练集和测试集,其中n为正整数;
步骤2)文本预处理:对所述训练集和所述测试集进行文本预处理;
步骤3)特征选择:利用GMI特征选择算法对所述训练集进行特征选择,采用所述GMI特征选择算法进行一次降维得到文本特征;
步骤4)利用文献特征进行二次降维得到东巴文献分类的特征;
步骤5)特征加权:采用TF-IDF算法来计算词项对文本的贡献程度,对所述训练集和所述测试集进行特征加权操作;
步骤6)文档表示:用向量空间模型来表示所述训练集和所述测试集的文档,得到所述训练集和所述测试集的向量空间模型表示形式;
步骤7)采用支持向量机算法对用向量空间模型表示的训练集进行训练得到一个分类规则,根据所述分类规则对测试集进行分类得到分类结果。
进一步地,所述步骤1)中的n为3或4或5;
进一步地,所述步骤2)具体为:抽取每篇东巴文献文章中的关键词构建专有名词的词典,然后使用ICTCLAS分词工具外加专有名词的词典对文本数据进行中文分词;过滤停用词和干扰词,所述停用词是指副词、连接词和语气助词。
进一步地,所述GMI特征选择算法的数学表达式为:
G M I ( w i , c j ) = ∂ β γ M I ( w i , c j ) ,
其中:wi表示词项,cj表示类别;
表示词项频度因子,其数学表达式为其中,TFij是第j个词项在第i个文本中出现的频数,n为该东巴文献类的文本总数,v表示该东巴文献类所有词项的个数;
β表示分散度因子,其数学表达式为:其中,rij是第j个词项在第i个文本中是否出现的量,n为该东巴文献类文本总数;
γ表示集中度因子,其数学表达式为
其中,df(w,cj)表示在类别cj中包含词项w的文本数,m表示总共的类别数;
G M I ( w i ) = m a x j = 1 ... m G M I ( w i , c j ) - s max j = 1 ... m G M I ( w i , c j ) 作为全局评估函数,其中GMI(wi)表示词项wi的整体互信息量,表示词项wi在所有类别中互信息值最大的量,表示词项wi在所有类别中互信息值次大的量。
进一步地,所述步骤4)中,通过文本预处理把标题切分为词项集合S1,把摘要切分为词项集合S2,取所述词项集合S1与所述词项集合S2的交集得到所述文献特征;所述文献特征与通过步骤3)得到的所述文本特征进行二次降维得到东巴文献分类的特征。
进一步地,所述TF-IDF算法的计算公式为其中,wij表示词项i对第j篇文章的权重系数,tfij表示词项i在第j篇文章中出现的频数,n表示文本总数量,ni表示包含词项i文本总数。
进一步地,所述步骤6)具体为:通过所述向量空间模型将每一个文本转换成一组向量,进而将文本数据转换成计算机可以处理的数据,其中,将所述文本表示为:d={t1,,…tn}1≤i≤n,对每一个词项ti,按照所述步骤5)中的所述TF-IDF算法得到权重wi,所述文本向量表示为:d={(t1,w1),(t2,w2),(t3,w3),…(tn,wn)}。
本发明提出的东巴文献分类方法,设计科学合理,工作效率高,提出了GMI特征选择算法,充分考虑了词频、集中度和分散度等因素改进了传统的互信息方法,并采用了最大值与次大值之差作为全局评估函数,利用GMI特征选择算法选择出文本特征,然后结合文献特征进行二次降维得到东巴文献的分类特征,最后利用支持向量机(SVM)分类器对东巴文献进行训练和测试,平均正确率和召回率都很高,为东巴文献分类提供了一个非常有效的方法,可以很好地满足实际应用的需要。
附图说明
图1为本发明提出的东巴文献分类方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种东巴文献分类方法,包括步骤1)至步骤7)七个步骤,如下:
步骤1)划分训练集与测试集:将需要进行分类的东巴文献按照n:1的比例随机划分为训练集和测试集,其中n为正整数,n可以为3或4或5,此处取n=4;
步骤2)文本预处理:对所述训练集和所述测试集进行文本预处理,具体地,抽取每篇东巴文献文章中的关键词构建专有名词的词典,然后使用ICTCLAS分词工具外加专有名词的词典对文本数据进行中文分词;过滤停用词和干扰词,所述停用词是指副词、连接词和语气助词;
步骤3)特征选择:利用GMI特征选择算法对所述训练集进行特征选择,采用所述GMI特征选择算法进行一次降维得到文本特征;
本发明通过考虑频度、集中度和分散度等因素,提出了GMI特征选择算法,改进了传统的互信息公式,本发明GMI特征选择算法的数学表达式为:
G M I ( w i , c j ) = ∂ β γ M I ( w i , c j ) ,
其中:wi表示词项;cj表示类别;GMI(wi,cj)的数学表达式为 G M I ( w i , c j ) = ∂ β γ M I ( w i , c j ) , 其中,
为传统的互信息(MI)方法的计算公式,其中,p(wi,cj)表示含有词项wi并且属于类别cj的文本概率,p(wi)表示含有词项wi的文本概率,p(cj)表示文本属于类别cj的概率。词项wi在m个类的整体互信息量表示为 M I ( w i ) = p ( c j ) Σ j = 1 m M I ( w i , c j ) ;
∂ 表示词项频度因子,指的是在某一个类别中词项在该类中出现的次数与这个类中所有词项出现次数和的比值,其数学表达式为:其中,TFij是第j个词项在第i个文本中出现的频数,n为该类的文本总数,v表示该类所有的词项的个数;
β表示分散度因子,指的是在某一个类别中包含某个词项的文本数与该类文本总数的比值,公式为:其中,rij是第j个词项在第i个文本中是否出现(如果出现,值为1,否则,值为0),n为该类文本总数。
γ表示集中度因子,如果词项集中分布在某个类别中,在其他类别中出现比较少,则该词项与这个类别有很强的关联程度,本发明使用集中度因子γ来衡量这个关联程度,γ的数学表达式为:
γ = d f ( w , c j ) Σ j = 1 m d f ( w , c j ) - d f ( w , c j ) + 0.1 ,
其中,df(w,cj)表示在类别cj中包含词项w的文本数,m表示总共的类别;某个词项集中出现在一个类别中,则出现在其他类别的文本总数就比较少,比值就会比较大,如果该词项仅仅只在一个类中出现,则词项具有很强的分类能力,γ是该词项出现文本次数的10倍,恰好表示了比较强的分类能力;每个词项在每个类别中都要通过公式计算一次互信息值,则会得到m个互信息值。本发明采用 G M I ( w i ) = m a x j = 1 ... m G M I ( w i , c j ) - s max j = 1 ... m G M I ( w i , c j ) 作为全局评估函数,利用最大值与最小值的差作为评估函数值,其中,GMI(wi)表示词项wi的整体互信息量;表示词项wi在所有类别中互信息值最大的量,而表示词项wi在所有类别中互信息值次大的量。
GMI特征选择算法利用最大值与最小值的差作为评估函数值。使用最大值与次大值之差来表示一个词项的信息量,如果差值越大,则该词项越能够表示取得最大值的那个类别。
本发明提出的GMI特征选择算法在互信息公式和全局评估函数两个方向上改进了传统互信息方法的性能,针对传统互信息方法的不足,加入了频度、集中度和分散度等因素改进了传统的互信息公式,引入了词项频度因子分散度因子以及关联程度某个词项集中出现在一个类别中,则出现在其他类别的文本总数就比较少,比值就会比较大,如果该词项仅仅只在一个类中出现,则词项具有很强的分类能力,γ是该词项出现文本次数的10倍,恰好表示了比较强的分类能力。
步骤4)利用文献特征进行二次降维得到东巴文献分类的特征;
东巴文献属于期刊文献,不同于一般的文本。文献的标题,对文献有着直接说明的作用,比如标题为“运用命题产生法探寻东巴文的性质”明显表示文章描述东巴文的相关信息,标题对于文献类别的判定具有很重要的作用。文献的摘要是文章内容的高度总结,概括了文章的主要内容;本发明选择标题和摘要的信息作为文献特征;具体地,通过文本预处理把标题切分为词项集合S1,把摘要切分为词项集合S2。取词项集合S1与词项集合S2的交集得到所述文献特征。通过文本特征选择得到维数较高的文本特征,通过分析东巴文献的特点,利用文献特征与文本特征取交集对文本特征进行二次降维得到东巴文献分类的特征;
步骤5)特征加权:采用TF-IDF算法来计算词项对文本的贡献程度,对所述训练集和所述测试集进行特征加权操作;
TF是指在一篇文章中某个词项出现的频数。IDF是指逆向文件频率,是由总文件数与含有特定词项的文件数之比取对数得到。本发明使用支持向量机(SVM)算法进行分类,需要对特征进行加权来衡量特征对文本的重要程度。TF-IDF是一种比较通用的加权计算技术,广泛应用于文本分类领域。本发明采用TF-IDF算法来计算词项对文本的贡献程度。TF是指在一篇文章中某个词项出现的频数。IDF是指逆向文件频率,是由总文件数与含有特定词项的文件数之比取对数得到。
所述TF-IDF算法的计算公式为其中,wij表示词项i对第j篇文章的权重系数,tfij表示词项i在第j篇文章中出现的频数,n表示文本总数量,ni表示包含词项i文本总数。
步骤6)文档表示:用向量空间模型(VSM)来表示所述训练集和所述测试集的文档,得到所述训练集和所述测试集的向量空间模型表示形式;具体地:利用向量空间模型将每一个文本转换成一组向量,进而将文本数据转换成计算机可以处理的数据,将所述文本表示为:d={t1,,…tn}1≤i≤n,对于每一个词项ti,都会按照公式(3.8)的计算规则得到一个权重wi,所述文本表示为:d={(t1,w1),(t2,w2),(t3,w3),…(tn,wn)};
步骤7)采用支持向量机(SVM)算法对用向量空间模型表示的训练集进行训练得到一个分类规则,根据分类规则对测试集进行分类得到分类结果。
本发明提出的东巴文献分类方法,设计科学合理,工作效率高,提出了GMI特征选择算法,充分考虑了词频、集中度和分散度等因素改进了传统的互信息方法,并采用了最大值与次大值之差作为全局评估函数,利用GMI特征选择算法选择出文本特征,然后结合文献特征进行二次降维得到东巴文献的分类特征,最后利用支持向量机(SVM)分类器对东巴文献进行训练和测试,平均正确率和召回率都很高,为东巴文献分类提供了一个非常有效的方法,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种东巴文献分类方法,其特征在于,包括以下步骤:
步骤1)划分训练集与测试集:将需要进行分类的东巴文献按照n:1的比例随机划分为训练集和测试集,其中n为正整数;
步骤2)文本预处理:对所述训练集和所述测试集进行文本预处理;
步骤3)特征选择:利用GMI特征选择算法对所述训练集进行特征选择,采用所述GMI特征选择算法进行一次降维得到文本特征;
步骤4)利用文献特征进行二次降维得到东巴文献分类的特征;
步骤5)特征加权:采用TF-IDF算法来计算词项对文本的贡献程度,对所述训练集和所述测试集进行特征加权操作;
步骤6)文档表示:用向量空间模型来表示所述训练集和所述测试集的文档,得到所述训练集和所述测试集的向量空间模型表示形式;
步骤7)采用支持向量机算法对用向量空间模型表示的训练集进行训练得到一个分类规则,根据所述分类规则对测试集进行分类得到分类结果。
2.根据权利要求1所述的东巴文献分类方法,其特征在于,所述步骤1)中的n为3或4或5。
3.根据权利要求1所述的东巴文献分类方法,其特征在于,所述步骤2)具体为:
抽取每篇东巴文献文章中的关键词构建专有名词的词典;
使用ICTCLAS分词工具外加专有名词的词典对文本数据进行中文分词;
过滤停用词和干扰词,其中,所述停用词是指副词、连接词和语气助词。
4.根据权利要求1所述的东巴文献分类方法,其特征在于,所述GMI特征选择算法的数学表达式为: G M I ( w i , c j ) = ∂ β γ M I ( w i , c j ) ,
其中,
wi表示词项,cj表示类别;
表示词项频度因子,其数学表达式为其中,TFij表示第j个词项在第i个文本中出现的频数,n为东巴文献类的文本总数,v表示东巴文献类所有词项的个数;
β表示分散度因子,其数学表达式为其中,rij表示第j个词项在第i个文本中出现的量,n为该东巴文献类文本总数;
γ表示集中度因子,其数学表达式为其中,df(w,cj)表示在类别cj中包含词项w的文本数,m表示总共的类别数;
G M I ( w i ) = m a x j = 1 ... m G M I ( w i , c j ) - s max j = 1 ... m G M I ( w i , c j ) 作为全局评估函数,其中,GMI(wi)表示词项wi的整体互信息量,表示词项wi在所有类别中互信息值最大的量,表示词项wi在所有类别中互信息值次大的量。
5.根据权利要求1所述的东巴文献分类方法,其特征在于,所述步骤4)具体为:
通过文本预处理把标题切分为词项集合S1,把摘要切分为词项集合S2,取所述词项集合S1与所述词项集合S2的交集得到所述文献特征;
所述文献特征与通过步骤3)得到的所述文本特征进行二次降维得到东巴文献分类的特征。
6.根据权利要求1所述的东巴文献分类方法,其特征在于,所述TF-IDF算法的计算公式为 w ij = tf ij × log ( n n i + 0.5 ) Σ i ∈ j ( tf ij × log ( n n i + 0.5 ) ) 2 , 其中,
wij表示词项i对第j篇文章的权重系数,tfij表示词项i在第j篇文章中出现的频数,n表示文本总数量,ni表示包含词项i文本总数。
7.根据权利要求6所述的东巴文献分类方法,其特征在于,所述步骤6)通过所述向量空间模型将每一个文本转换成一组向量,进而将文本数据转换成计算机可以处理的数据,其中,将所述文本表示为d={t1,,…tn}1≤i≤n,对每一个词项ti按照所述步骤5)中的所述TF-IDF算法得到权重wi,所述文本向量表示为d={(t1,w1),(t2,w2),(t3,w3),…(tn,wn)}。
CN201510726507.XA 2015-10-30 2015-10-30 一种东巴文献分类方法 Pending CN105224689A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510726507.XA CN105224689A (zh) 2015-10-30 2015-10-30 一种东巴文献分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510726507.XA CN105224689A (zh) 2015-10-30 2015-10-30 一种东巴文献分类方法

Publications (1)

Publication Number Publication Date
CN105224689A true CN105224689A (zh) 2016-01-06

Family

ID=54993657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510726507.XA Pending CN105224689A (zh) 2015-10-30 2015-10-30 一种东巴文献分类方法

Country Status (1)

Country Link
CN (1) CN105224689A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021354A (zh) * 2016-05-10 2016-10-12 北京信息科技大学 一种东巴经典古籍数字化释读库的建立方法
CN108052556A (zh) * 2017-11-29 2018-05-18 成都东方盛行电子有限责任公司 一种基于大数据的分类方法
CN112364629A (zh) * 2020-11-27 2021-02-12 苏州大学 基于去冗余互信息特征选择的文本分类系统及方法
CN113360658A (zh) * 2021-07-14 2021-09-07 福建亿榕信息技术有限公司 一种用于审计业务的文本自动分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
KR20130097475A (ko) * 2012-02-24 2013-09-03 가천의과학대학교 산학협력단 의료 프로세스 모델링 및 검증 방법
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104794455A (zh) * 2015-05-04 2015-07-22 北京信息科技大学 一种东巴象形文字识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法
KR20130097475A (ko) * 2012-02-24 2013-09-03 가천의과학대학교 산학협력단 의료 프로세스 모델링 및 검증 방법
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法
CN103116637A (zh) * 2013-02-08 2013-05-22 无锡南理工科技发展有限公司 一种面向中文Web评论的文本情感分类方法
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104794455A (zh) * 2015-05-04 2015-07-22 北京信息科技大学 一种东巴象形文字识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
于飞 等: "基于支持向量机的文本分类技术", 《无线互联科技》 *
张玉芳 等: "文本分类中的特征降维方法研究", 《计算机应用研究》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021354A (zh) * 2016-05-10 2016-10-12 北京信息科技大学 一种东巴经典古籍数字化释读库的建立方法
WO2017193472A1 (zh) * 2016-05-10 2017-11-16 北京信息科技大学 一种东巴经典古籍数字化释读库的建立方法
US10380065B2 (en) 2016-05-10 2019-08-13 Beijing Information Science & Technology University Method for establishing a digitized interpretation base of dongba classic ancient books
CN108052556A (zh) * 2017-11-29 2018-05-18 成都东方盛行电子有限责任公司 一种基于大数据的分类方法
CN112364629A (zh) * 2020-11-27 2021-02-12 苏州大学 基于去冗余互信息特征选择的文本分类系统及方法
CN113360658A (zh) * 2021-07-14 2021-09-07 福建亿榕信息技术有限公司 一种用于审计业务的文本自动分类方法

Similar Documents

Publication Publication Date Title
CN102622373B (zh) 一种基于tf*idf算法的统计学文本分类系统及方法
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN104391835B (zh) 文本中特征词选择方法及装置
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN102332012B (zh) 基于类别之间相关性学习的中文文本分类方法
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN101819601B (zh) 学术文献自动分类的方法
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN100353361C (zh) 一种新的面向文本分类的特征向量权重的方法及装置
CN104750844A (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN108763484A (zh) 一种基于lda主题模型的法条推荐方法
CN105760493A (zh) 一种电力营销服务热点95598工单自动分类方法
CN104239512B (zh) 一种文本推荐方法
CN103177024A (zh) 一种话题信息展现方法和装置
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN104346459B (zh) 一种基于术语频率和卡方统计的文本分类特征选择方法
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN104298715B (zh) 一种基于tf‑idf的多索引结果合并排序方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN105224689A (zh) 一种东巴文献分类方法
CN105260437A (zh) 文本分类特征选择方法及其在生物医药文本分类中的应用
CN110288495A (zh) 案件诉讼时效智能审查方法及装置
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160106

RJ01 Rejection of invention patent application after publication