CN103995876A - 一种基于卡方统计和smo算法的文本分类方法 - Google Patents

一种基于卡方统计和smo算法的文本分类方法 Download PDF

Info

Publication number
CN103995876A
CN103995876A CN201410225565.XA CN201410225565A CN103995876A CN 103995876 A CN103995876 A CN 103995876A CN 201410225565 A CN201410225565 A CN 201410225565A CN 103995876 A CN103995876 A CN 103995876A
Authority
CN
China
Prior art keywords
text
training
test
word
proper vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410225565.XA
Other languages
English (en)
Inventor
武星
裴孟齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201410225565.XA priority Critical patent/CN103995876A/zh
Publication of CN103995876A publication Critical patent/CN103995876A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种基于卡方统计量和SMO算法的文本分类方法:其步骤:首先对训练文本进行分词、去除停用词、预处理操作,再以卡方统计量为标准遴选出设定数量单词作为特征词;然后,分别计算上述训练文本和测试文本的特征权重值;将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型;将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果。该方法能够克服将所有词作为特征导致文本分类的特征多、噪声多的缺陷,并能提高文本的分类精度和效率。

Description

一种基于卡方统计和SMO算法的文本分类方法
技术领域
本发明涉及自然语言计算机自动处理技术领域,特别涉及一种基于卡方统计和SMO算法的文本分类方法。
背景技术
近年来,随着互联网技术的飞速发展和普及,网络上的电子资源信息急剧增加,面对如此大量的数据信息,如何有效地组织和管理这些海量信息,并从中快速、准确地获得自己所需要的、真正感兴趣的信息已成为当前的一大难题。在网络信息中,大多数以文本的形式来保存,因而文本数据的挖掘具有很高的潜在价值。文本分类技术作为一种典型的文本挖掘技术,能够组织和处理大量文本信息,有助于信息检索与分析,方便用户快速、准确地定位所需要的信息。
文本分类是指计算机对文本集按照一定的分类体系或标准进行自动分类标记(中国专利文献名称为“基于修正的K近邻文本分类方法”,专利号为201010601777.5),文本自动分类研究始于20世纪50年代末,美国IBM公司的H.P.Luhn在这一领域进行了开创性的研究。20世纪60年代至80年代末,文本分类系统以知识工程的方法为主,知识工程技术即根据领域专家对给定文本集合的分类经验,人工提取出一组逻辑规则,作为计算机文本分类的依据,然后分析这些系统的技术特点和性能,即利用专家规则来进行分类;到了90年代以后,统计方法和机器学习的方法被引入到文本自动分类中,取代了知识工程的方法,其中,机器学习算法,该方法中提取有效的特征向量,得到一个好的学习效果,因此提取有效的特征向量以及避免噪音特征的干扰是提高机器支持向量机学习效果的重要途径。卡耐基梅隆大学Yiming Yang 1997年于ICML会议上发表的《A Comparative Study on Feature Selection in Text Categorization》报道基于向量空间模型的支持向量机方法效果最好。有效的特征向量的建立最常用的方法是TF-IDF(TF:Term Frequency,IDF:Inverse Document Frequency)方法。  传统的向量空间模型在文本分类中已经得到比较多的应用,特征向量通过向量空间模型(Vector Space Model,VSM)表示,该模型表示文本文件的代数模型,模型的向量中,每一维都相当于是一个独立的词组。如果独立的词组出现在了文档中,则该向量中的值为非零。SMO算法(Sequential minimal optimization,缩写为SMO)由Microsoft Research的John C. Platt在1998年提出。为节省存储空间和提高搜索效率,在自然语言计算机自动处理文本之前或之后,会自动过滤掉停用词,为防止停用词与安全口令发生混淆,将停用词形成一个停用词表。但是,并没有一个统一的停用词表能够适用于所有的自然语言处理工具。对于一个给定的目的,任何一类的词语都可以被选作停用词。通常意义上,停用词大致分为两类:
一类是人类语言中包含的功能词,功能词极其普遍,与其他词相比,功能词没有什么实际含义,比如'the'、'is'、'at'、'which'、'on',对于搜索引擎来说,当所要搜索的短语包含功能词,例如'The Who'、'The The'或'Take The'复合名词,该复合名词中包含停用词,使用就会发生混淆。
另一类词包括词汇词,比如词汇词'want',这些词汇应用十分广泛,对这些词的搜索引擎无法得到精确的搜索结果,难以缩小文本的搜索范围,降低词汇的搜索效率,通常会把上述诸如此类的词汇移去,提高搜索效率。        
综上所述,目前机器学习方法,在的提取学习特征时,常常将所有词作为特征,其特征多,且包含很多噪音,导致文本分类的效果较差。,通常,采用的最近邻分类方法(KNN)对文本进行分类,该分类方法对特征多、含很多噪音所有分类样本分类时,所有用时间较长,分类效率不高。
发明内容
本发明的主要目的在于针对已有技术存在的不足,提供一种基于卡方统计和SMO算法的文本分类方法,该方法能够克服将所有词作为特征导致文本分类的特征多、噪声多的缺陷,并能提高文本的分类精度和效率。
为达到上述目的,本发明的构思如下:首先对训练文本进行分词、去除停用词、预处理操作,再以卡方统计量为标准遴选出设定数量单词作为特征词;然后 ,分别计算上述训练文本和测试文本的特征权重值;将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型;将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果。
根据上述发明构思,本发明采用下述技术方案:
一种基于卡方统计和SMO算法的文本分类方法,其步骤如下:
(1),收集互联网文本,将文本分为训练文本和测试文本:从互联网收集文本,对每条文本进行类别标签,将已进行类别标签的文本为训练文本,将已进行类别标签的文本为待分类的文本,待分类的文本作为测试文本;
(2),对训练文本进行预处理,得到训练文本词汇表:对训练文本进行分词、去除停用词、过滤文本乱码,得到训练文本词汇表;
(3),计算各个单词对应的训练文本词汇表卡方统计量,得到训练文本特征词表:计算训练文本词汇表中的每个单词关于各类别的卡方统计量,取该单词在各个类别中最大的卡方统计量作为该单词的权重,然后,将各个单词按照其权重由大到小的顺序排列,选取其中一定数量的权重最大的单词,由权重最大所对应的单词构成训练文本特征词表;
(4),分别计算上述训练文本和测试文本的特征权重值:分别计算上述训练文本和测试文本中各个单词的TF-IDF特征权重值,将各个单词及各个存在于特征词表中的单词的TF-IDF特征权重值组成训练文本的特征向量和测试文本的特征向量,由各个训练文本的特征向量组成训练文本特征向量表,由各个测试文本的特征向量共同组成测试文本特征向量表;
(5),将特征向量表转换为文档向量模型:将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型, 
所述的文档向量模型表示训练文本特征向量写入文件作为训练文件,
所述的文档向量模型表示测试文本特征向量写入文件作为测试文件;
(6),加载训练文件分类器,对测试文件进行分类: 加载上述训练文件训练SMO分类器,再加上述载测试文件,将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果。
上述步骤(3)所述的计算各个单词对应的训练文本词汇表卡方统计量,其计算式为:
                  (1)
公式(1)中,t表示文本单词,c表示文本类别,表示文本单词t关于文本类别c的卡方统计量,A表示包含文本单词t且属于文本类别c的文档频数,B为包含文本单词t但是不属于文本类别c的文档频数,C表示属于文本类别c但是不包含文本单词t的文档频数,N表示文本语料中文档总数,D是既不属于文本类别c也不包含文本单词t的文档频数。
上述步骤(4)所述的计算上述训练文本和测试文本的特征权重值,其计算式为:
                               (2)
公式(2)中,表示中的文本特征词表的特征权重,表示中出现的频度,表示在所有训练文本中出现的频度最大值;表示训练集中出现的文档数,N是训练集中总的文档数,即中的特征权重等于中的总频率乘以整个文档集里的倒排文档频率的对数。
上述步骤(5)所述的将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型,其转换表达式为:
                                      (3)
公式(3)中,表示中归一化后的权值,中的特征权值。
本发明的一种基于卡方统计和SMO算法的文本分类方法与现有技术相比较具的优点如下:
该方法由于分别计算各个单词对应的训练文本词汇表卡方统计量卡方统计量、训练文本的特征权重值和测试文本的特征权重值:加载上述训练文件训练SMO分类器,对测试文本的特征向量进行分类,因此,该方法能够克服将所有词作为特征导致文本分类的特征多、噪声多的缺陷,并能提高文本的分类精度和效率。
附图说明
图1为本发明的一种基于卡方统计和SMO算法的文本分类方法的流程图。
图2为图1中步骤(2)中所述的流程图。
图3为图1中步骤(3)中所述的流程图。
图4为图1中步骤(4)中所述的流程图。
具体实施方式
下面结合附图及具体实例对本发明作进一步的描述。
如图1所示,本发明的一种基于卡方统计和SMO算法的文本分类方法,具体步骤如下:
 (1),收集互联网文本,将文本分为训练文本和测试文本:从互联网收集文本,对每条文本进行类别标签,将已进行类别标签的文本为训练文本,将已进行类别标签的文本为待分类的文本,待分类的文本作为测试文本;
(2),对训练文本进行预处理,得到训练文本词汇表,如图2所示,步骤如下:
a), 打开训练文档,对每条训练文本分词;
b), 对于训练文本每一个单词,判断其是否为汉字、字母、数字,如果是,则继续预处理过程,否则过滤掉该单词;
c), 通过停用词表过滤掉训练文本中的停用词,提取有意义的实词;
d, 得到训练文本词汇表;
(3),计算各个单词对应的训练文本词汇表卡方统计量,得到训练文本特征词表,如图3所示,步骤如下:
a), 遍历训练文本词汇表中的所有单词,对于各个单词,计算其在各个类别文章中的出现次数和未出现次数;
b), 遍历训练文本词汇表中的所有单词,对于各个单词,根据步骤b)的结果计算该单词关于各个类别的卡方统计量;
c), 取该单词在各个类别中最大的卡方统计量作为该单词的权重,如有“体育”和“财经”两个类别的训练文本,其中某单词关于“体育”类别的卡方统计量为1300,关于“财经”类别的卡方统计量为1000,则该单词权重为1300;
d), 将各个单词按照其对应的权重由大到小的顺序排列;
e), 选取其中一定数量的权重最大的单词,如前1000个权重最大的单词;
f), 由这些权重最大的单词构成训练文本特征词表。
所述的计算各个单词对应的训练文本词汇表卡方统计量,其计算式为:
                  (1)
公式(1)中,t表示文本单词,c表示文本类别,表示文本单词t关于文本类别c的卡方统计量,A表示包含文本单词t且属于文本类别c的文档频数,B为包含文本单词t但是不属于文本类别c的文档频数,C表示属于文本类别c但是不包含文本单词t的文档频数,N表示文本语料中文档总数,D是既不属于文本类别c也不包含文本单词t的文档频数;
(4),分别计算上述训练文本和测试文本的特征权重值,如图3所示,步骤如下:
a), 对训练文本和测试文本预处理;
b), 将训练文本和测试文本的各个单词与训练文本特征词表作匹配,如果该单词存在于特征词表中,则继续计算其TF-IDF特征权重值,否则置其特征权重值为0;
c), 将各个单词及各个单词的TF-IDF特征权重值组成训练文本的特征向量和测试文本的特征向量;
d), 由各个训练文本的特征向量组成训练文本特征向量表,由各个测试文本的特征向量组成测试文本特征向量表。
所述的计算上述训练文本和测试文本的特征权重值,其计算式为:
                                 (2)
公式(2)中, 表示   中的文本特征词表的特征权重,表示  在  中出现的频度,  表示  在所有训练文本中出现的频度最大值; 表示训练集中出现 的文档数,N是训练集中总的文档数,即 在 中的特征权重 等于 在 中的总频率乘以整个文档集里 的倒排文档频率的对数;
(5),将特征向量表转换为文档向量模型:将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型,
所述的文档向量模型表示训练文本特征向量写入文件作为训练文件,
所述的文档向量模型表示测试文本特征向量写入文件作为测试文件,
所述的将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型,其转换表达式为:
                                        (3)
公式(3)中,表示 在 中归一化后的权值, 为 在 中的特征权值;
(6),加载训练文件分类器,对测试文件进行分类: 加载上述训练文件训练SMO分类器,再加上述载测试文件,将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果。

Claims (4)

1.一种基于卡方统计量和SMO算法的文本分类方法,其特征在于,
首先对训练文本进行分词、去除停用词、预处理操作,再以卡方统计量为标准遴选出设定数量单词作为特征词;然后 ,分别计算上述训练文本和测试文本的特征权重值;将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型;将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果,其具体步骤如下:
(1),收集互联网文本,将文本分为训练文本和测试文本:从互联网收集文本,对每条文本进行类别标签,将已进行类别标签的文本为训练文本,将已进行类别标签的文本为待分类的文本,待分类的文本作为测试文本;
(2),对训练文本进行预处理,得到训练文本词汇表:对训练文本进行分词、去除停用词、过滤文本乱码,得到训练文本词汇表;
(3),计算各个单词对应的训练文本词汇表卡方统计量,得到训练文本特征词表:计算训练文本词汇表中的每个单词关于各类别的卡方统计量,取该单词在各个类别中最大的卡方统计量作为该单词的权重,然后,将各个单词按照其权重由大到小的顺序排列,选取其中一定数量的权重最大的单词,由权重最大所对应的单词构成训练文本特征词表;
(4),分别计算上述训练文本和测试文本的特征权重值:分别计算上述训练文本和测试文本中各个单词的TF-IDF特征权重值,将各个单词及各个存在于特征词表中的单词的TF-IDF特征权重值组成训练文本的特征向量和测试文本的特征向量,由各个训练文本的特征向量组成训练文本特征向量表,由各个测试文本的特征向量共同组成测试文本特征向量表;
(5),将特征向量表转换为文档向量模型:将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型,所述的文档向量模型表示训练文本特征向量写入文件作为训练文件,所述的文档向量模型表示测试文本特征向量写入文件作为测试文件;
(6),加载训练文件分类器,对测试文件进行分类: 加载上述训练文件训练SMO分类器,再加上述载测试文件,将训练后的分类器对测试文本的特征向量进行分类,得到每条测试文本的分类结果。
2.根据权利要求1所述的一种基于卡方统计和SMO算法的文本分类方法,其特征在于,上述步骤(3)所述的计算各个单词对应的训练文本词汇表卡方统计量,其计算式为:
                  (1)
公式(1)中,t表示文本单词,c表示文本类别,表示文本单词t关于文本类别c的卡方统计量,A表示包含文本单词t且属于文本类别c的文档频数,B为包含文本单词t但是不属于文本类别c的文档频数,C表示属于文本类别c但是不包含文本单词t的文档频数,N表示文本语料中文档总数,D是既不属于文本类别c也不包含文本单词t的文档频数。
3.根据权利要求2所述的一种基于卡方统计和SMO算法的文本分类方法,其特征在于,上述步骤(4)所述的计算上述训练文本和测试文本的特征权重值,其计算式为:
                               (2)
公式(2)中,表示中的文本特征词表的特征权重,表示中出现的频度,表示在所有训练文本中出现的频度最大值;表示训练集中出现的文档数,N是训练集中总的文档数,即中的特征权重等于中的总频率乘以整个文档集里的倒排文档频率的对数。
4.根据权利要求3所述的一种基于卡方统计和SMO算法的文本分类方法,其特征在于,上述步骤(5)所述的将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型,其转换表达式为:
                                      (3)
公式(3)中,表示中归一化后的权值,中的特征权值。
CN201410225565.XA 2014-05-26 2014-05-26 一种基于卡方统计和smo算法的文本分类方法 Pending CN103995876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410225565.XA CN103995876A (zh) 2014-05-26 2014-05-26 一种基于卡方统计和smo算法的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410225565.XA CN103995876A (zh) 2014-05-26 2014-05-26 一种基于卡方统计和smo算法的文本分类方法

Publications (1)

Publication Number Publication Date
CN103995876A true CN103995876A (zh) 2014-08-20

Family

ID=51310041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410225565.XA Pending CN103995876A (zh) 2014-05-26 2014-05-26 一种基于卡方统计和smo算法的文本分类方法

Country Status (1)

Country Link
CN (1) CN103995876A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361037A (zh) * 2014-10-29 2015-02-18 国家计算机网络与信息安全管理中心 微博分类方法及装置
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN105068996A (zh) * 2015-09-21 2015-11-18 哈尔滨工业大学 一种中文分词增量学习方法
CN105183831A (zh) * 2015-08-31 2015-12-23 上海德唐数据科技有限公司 一种针对不同学科题目文本分类的方法
CN106445907A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 一种领域词典的生成方法及装置
CN106445906A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 领域词典中中长词词组的生成方法及装置
CN106503153A (zh) * 2016-10-21 2017-03-15 江苏理工学院 一种计算机文本分类体系、系统及其文本分类方法
CN106570076A (zh) * 2016-10-11 2017-04-19 深圳大学 一种计算机文本分类系统
CN107291723A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN107577794A (zh) * 2017-09-19 2018-01-12 北京神州泰岳软件股份有限公司 一种新闻分类方法及装置
CN107908649A (zh) * 2017-10-11 2018-04-13 北京智慧星光信息技术有限公司 一种文本分类的控制方法
CN109190001A (zh) * 2018-09-19 2019-01-11 广东电网有限责任公司 办公文件管理方法
CN109376244A (zh) * 2018-10-25 2019-02-22 山东省通信管理局 一种基于特征分类的诈骗网站识别方法
CN109471942A (zh) * 2018-11-07 2019-03-15 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109658173A (zh) * 2018-05-04 2019-04-19 美味不用等(上海)信息科技股份有限公司 一种餐饮服务订制方法和系统
CN109684462A (zh) * 2018-12-30 2019-04-26 广西财经学院 基于权值比较和卡方分析的文本词间关联规则挖掘方法
CN110019782A (zh) * 2017-09-26 2019-07-16 北京京东尚科信息技术有限公司 用于输出文本类别的方法和装置
CN110175331A (zh) * 2019-05-29 2019-08-27 三角兽(北京)科技有限公司 专业术语的识别方法、装置、电子设备及可读存储介质
CN110688481A (zh) * 2019-09-02 2020-01-14 贵州航天计量测试技术研究所 一种基于卡方统计量和idf的文本分类特征选取方法
CN111159410A (zh) * 2019-12-31 2020-05-15 广州广电运通信息科技有限公司 一种文本情感分类方法、系统、装置及存储介质
CN111199170A (zh) * 2018-11-16 2020-05-26 长鑫存储技术有限公司 配方文件识别方法及装置、电子设备、存储介质
US11562145B2 (en) * 2018-02-01 2023-01-24 Tencent Technology (Shenzhen) Company Limited Text classification method, computer device, and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
CN102930063A (zh) * 2012-12-05 2013-02-13 电子科技大学 一种基于特征项选择与权重计算的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄瑜青: "基于支持向量机的文本自动分类器的研究与应用", 《中国优秀硕士学位论文全文数据库,信息科技辑》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361037B (zh) * 2014-10-29 2017-12-19 国家计算机网络与信息安全管理中心 微博分类方法及装置
CN104361037A (zh) * 2014-10-29 2015-02-18 国家计算机网络与信息安全管理中心 微博分类方法及装置
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN106445906A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 领域词典中中长词词组的生成方法及装置
CN106445907A (zh) * 2015-08-06 2017-02-22 北京国双科技有限公司 一种领域词典的生成方法及装置
CN105183831A (zh) * 2015-08-31 2015-12-23 上海德唐数据科技有限公司 一种针对不同学科题目文本分类的方法
CN105068996B (zh) * 2015-09-21 2017-11-17 哈尔滨工业大学 一种中文分词增量学习方法
CN105068996A (zh) * 2015-09-21 2015-11-18 哈尔滨工业大学 一种中文分词增量学习方法
CN107291723B (zh) * 2016-03-30 2021-04-30 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN107291723A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN106570076A (zh) * 2016-10-11 2017-04-19 深圳大学 一种计算机文本分类系统
CN106503153A (zh) * 2016-10-21 2017-03-15 江苏理工学院 一种计算机文本分类体系、系统及其文本分类方法
CN106503153B (zh) * 2016-10-21 2019-05-10 江苏理工学院 一种计算机文本分类体系
CN107577794A (zh) * 2017-09-19 2018-01-12 北京神州泰岳软件股份有限公司 一种新闻分类方法及装置
CN107577794B (zh) * 2017-09-19 2019-07-05 北京神州泰岳软件股份有限公司 一种新闻分类方法及装置
CN110019782A (zh) * 2017-09-26 2019-07-16 北京京东尚科信息技术有限公司 用于输出文本类别的方法和装置
CN107908649A (zh) * 2017-10-11 2018-04-13 北京智慧星光信息技术有限公司 一种文本分类的控制方法
CN107908649B (zh) * 2017-10-11 2020-07-28 北京智慧星光信息技术有限公司 一种文本分类的控制方法
US11562145B2 (en) * 2018-02-01 2023-01-24 Tencent Technology (Shenzhen) Company Limited Text classification method, computer device, and storage medium
CN109658173A (zh) * 2018-05-04 2019-04-19 美味不用等(上海)信息科技股份有限公司 一种餐饮服务订制方法和系统
CN109190001A (zh) * 2018-09-19 2019-01-11 广东电网有限责任公司 办公文件管理方法
CN109376244A (zh) * 2018-10-25 2019-02-22 山东省通信管理局 一种基于特征分类的诈骗网站识别方法
CN109471942B (zh) * 2018-11-07 2021-09-07 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN109471942A (zh) * 2018-11-07 2019-03-15 合肥工业大学 基于证据推理规则的中文评论情感分类方法及装置
CN111199170A (zh) * 2018-11-16 2020-05-26 长鑫存储技术有限公司 配方文件识别方法及装置、电子设备、存储介质
CN111199170B (zh) * 2018-11-16 2022-04-01 长鑫存储技术有限公司 配方文件识别方法及装置、电子设备、存储介质
CN109684462A (zh) * 2018-12-30 2019-04-26 广西财经学院 基于权值比较和卡方分析的文本词间关联规则挖掘方法
CN109684462B (zh) * 2018-12-30 2022-12-06 广西财经学院 基于权值比较和卡方分析的文本词间关联规则挖掘方法
CN110175331A (zh) * 2019-05-29 2019-08-27 三角兽(北京)科技有限公司 专业术语的识别方法、装置、电子设备及可读存储介质
CN110688481A (zh) * 2019-09-02 2020-01-14 贵州航天计量测试技术研究所 一种基于卡方统计量和idf的文本分类特征选取方法
CN111159410A (zh) * 2019-12-31 2020-05-15 广州广电运通信息科技有限公司 一种文本情感分类方法、系统、装置及存储介质

Similar Documents

Publication Publication Date Title
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN109101477B (zh) 一种企业领域分类及企业关键词筛选方法
CN106095996B (zh) 用于文本分类的方法
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
US20180357302A1 (en) Method and device for processing a topic
CN104391835A (zh) 文本中特征词选择方法及装置
BaygIn Classification of text documents based on Naive Bayes using N-Gram features
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN104850617A (zh) 短文本处理方法及装置
CN110287321A (zh) 一种基于改进特征选择的电力文本分类方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
Shetty et al. Auto text summarization with categorization and sentiment analysis
Ikram et al. Arabic text classification in the legal domain
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN109902173B (zh) 一种中文文本分类方法
CN104866606A (zh) 一种MapReduce并行化大数据文本分类方法
Yang et al. Research on Chinese text classification based on Word2vec
CN107908649B (zh) 一种文本分类的控制方法
CN113626604A (zh) 基于最大间隔准则的网页文本分类系统
CN111310467B (zh) 一种在长文本中结合语义推断的主题提取方法及系统
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140820

WD01 Invention patent application deemed withdrawn after publication