CN109902173B - 一种中文文本分类方法 - Google Patents

一种中文文本分类方法 Download PDF

Info

Publication number
CN109902173B
CN109902173B CN201910100095.7A CN201910100095A CN109902173B CN 109902173 B CN109902173 B CN 109902173B CN 201910100095 A CN201910100095 A CN 201910100095A CN 109902173 B CN109902173 B CN 109902173B
Authority
CN
China
Prior art keywords
text
category
class
item
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910100095.7A
Other languages
English (en)
Other versions
CN109902173A (zh
Inventor
陈卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Huizhong Technology Co.,Ltd.
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202011019598.0A priority Critical patent/CN112256865B/zh
Priority to CN201910100095.7A priority patent/CN109902173B/zh
Publication of CN109902173A publication Critical patent/CN109902173A/zh
Application granted granted Critical
Publication of CN109902173B publication Critical patent/CN109902173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数;本发明提供了建模更合理、分类准确率提高、召回率提高,整体精准快捷的一种中文文本分类方法。

Description

一种中文文本分类方法
技术领域
本发明涉及文本分类领域,更具体的说,它涉及一种中文文本分类方法。
背景技术
近年来,化工事故频繁发生,8·12天津滨海新区瑞海国际物流中心危险品仓库发生火灾爆炸事故、11·22山东青岛输油管道泄露爆炸事件等化工事故的发生,带来的不仅是巨大的经济损失,同时也伴随着人员伤亡、环境污染,一些重大的化工事故容易造成人员恐慌,对社会有重大的影响。若能利用某种技术快速准确定位出与化工事故相关报道,为研究化工事故成因、跟踪报道、预防化工事故发生等提供了便利。因此,需要一种可以有效率地管理这些信息的技术,将大量的文本信息自动分类,选择出人们需要的特定领域信息文本。文本分类技术可以分析处理大量文本数据,人工干预大大减少,并且能高效准确定位出特定信息文本,是处理各类文本的有效方式。
信息技术的发展日益迅猛,互联网技术逐渐成熟,随之产生的数据量呈爆炸性增长,而这些数据大多是半结构化和非结构化的,并且以文本形式呈现。若采用人工方式将一篇文本划分到某个分类中,虽然分类结果准确,但是耗费的人力物力极其巨大,无法快速适应互联网时代信息的极速增加以及社会发展的需求,实现十分困难。实际上,根据特定的需求,人们往往只关心文本信息的某一个领域,快速提取出指定的文本信息对互联网技术的发展具有举足轻重的作用。
我国最早关于文本分类的报告是80年代初,就职于南京工业大学的侯汉清教授首次对其进行了系统性地阐述。随后,多位学者对文本分类方法不断改进,随之我国在文本分类领域的研究取得较大进展。李晓黎、史忠值等人通过将概念推理网引入文本分类,文本分类的准确率和召回率得到较大提升。姜远、周志华等在2006年提出在分类时将词频作为影响因素,复旦大学的李荣陆在构建文本分类器时采用基于最大熵模型的分类方法,黄菁菁等采用独立语种对文本分类进行了广泛扩展。但整体上,仍没有极高的精准分类的方法。如何快速精确地定位是近几年来信息发展的一个重要研究范畴。
发明内容
本发明为文本分类的高效提供了可能,其建模更合理、分类准确率提高、召回率提高,整体精准快捷的一种中文文本分类方法。
本发明的技术方案如下:
一种中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数,具体处理步骤如下:
101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;
其中,统计采用特征项t与类别Ci的相互关联性进行排序统计,具体包括四种统计:属于类别Ci且包含特征项t的文本数集A,不属于类别Ci但包含特征项t的文本数集B,属于类别Ci但不包含特征项t的文本数集C,不属于类别Ci且不包含特征项t的文本数集D;Ci表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;
训练集中含有特征项t的文本总数集是A+B,不含有特征项t的文本总数集是C+D,类别Ci的文本数集是A+C,其他类别的文本数集是B+D,训练集文本总数集是N,且N=A+B+C+D,特征项t的概率表示为
Figure GDA0002618293920000031
由此可得,特征项t与类别Ci的关联性值为:
Figure GDA0002618293920000032
若特征项t与类别Ci相互独立,AD-CB=0,有X2(t,ci)=0;如果X2(t,ci)的值越大,就表明特征项t与类别Ci相互关系程度越大;AD表示根据特征项t正确判定文档属于Ci类的量化值,CB表示根据特征项t错误判定文档属于Ci类的量化值;
在统计排序时以其平均值作为比较,其平均值为如下公式:
Figure GDA0002618293920000033
统计排序以平均值从大到小进行排序,训练集的文本类别集合C从中从大到小选取一定数量的特征项;
102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,具体公式如下:
Figure GDA0002618293920000034
其中,P(Ci|Dj)表示训练集的文本Dj属于某一类别Ci的概率,文档Dj可以用一组该文档的分词{x1,x2,…,xn}表示,即Dj={x1,x2,…,xn}由于固定的特征词在文本集中出现的次数是常数,所以公式(3)中分母P(x1,x2,…,xn)是常量,因此只需获得公式(3)中分子P(Ci)P(x1,x2,…,xn|Ci)的值,就能判定不同j值时,不同P(Ci|Dj)值间的大小关系;因此公式(3)则最终可表示为:
Figure GDA0002618293920000035
其中,xj为文档Dj中的一个分词特征项,n为n个特征项;当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件;用Bxt代表测试文档含有文本特征项t,则得到如下公式:
Figure GDA0002618293920000041
在属于类Ci的情况下xj发生的概率用P(xj|Ci)表示,若特征项出现在测试文本中,则只需得到P(xj|Ci),否则需得到1-P(xj|Ci);
条件概率1-P(xj|Ci)的公式为:
Figure GDA0002618293920000042
在训练集中,若类别Ci中的所有文本都不含有特征项xj,则nij是0,从而P(xj|Ci)的值是0,故需要采用加入平滑因子的方法,得如下公式:
Figure GDA0002618293920000043
103)测试与评价步骤:评估分类器的准确率、召回率、F1值、宏平均,调整训练集的文本类别集合C。
进一步的,文本标记处理为用正则表达式去除文中的中文符号、数字和英文,去除中文符号的正则表达式可表示为:[^\\u4e00-\\u9fa5\\w],去除数字和英文的正则表达式为:[a-zA-Z\\d],并用空格代替。
进一步的,采用MMSEG4J分词工具包进行分词;停用词为文本中出现多次并且与文本内容无关的词,将停用词整理到停用词表中,并在分词结束后将其删除。
进一步的,准确率,也称查准率,获取测试集中有多少文本的分类结果是正确的,体现分类器分类的准确程度,记为P,具体公式如下:
Figure GDA0002618293920000044
属于类别Ci且包含特征项t的文本数集A,即正确分类到Ci类的文本数;不属于类别Ci但包含特征项t的文本数集B,A+B即实际分类到Ci类的文本总数;
召回率,也称查全率,获取测试集中在类别Ci中的文本,可以被正确分类到类别Ci所占有的比重,展现出分类器分类的完备性,记为R,具体公式如下:
Figure GDA0002618293920000051
属于类别Ci但不包含特征项t的文本数集C,A+C即所有应归为Ci类的文本;
F1值,也称综合分类率,是准确率P和召回率R的综合评估指标,具体公式如下:
Figure GDA0002618293920000052
宏平均是对分类器的整体分类效果的评价,准确率和召回率的算术平均数就是宏平均,具体公式如下:
Figure GDA0002618293920000053
Figure GDA0002618293920000054
其中,MacAvg_Precision表示准确率的宏平均,MacAvg_Recall表示召回率的宏平均,|C|表示训练集中包含的文本类别数,Pi表示类别Ci的准确率,Ri表示类别Ci的召回率。
本发明相比现有技术优点在于:本发明通过文本训练集,建立特征项,通过准确率、召回率、F1值、宏平均等指标进行评估,从而训练调整选择的特征项。本发明通过特征项与类别的关联性值,进行关系程度量化值的获取和排序,以选择合适的特征项作为分类标准,从而提高准确率、召回率和精准度。本发明方案为文本分类的高效提供了可能,其分类准确率高、召回率高,整体精准快捷。
附图说明
图1为本发明的整体模型图;
图2为本发明的文本分类映射模型图;
图3为本发明的训练集中的原始文本;
图4为本发明图3进行文本标记处理后的文本;
图5为本发明图4分词处理后的文本;
图6为本发明图5去除停用词处理后的文本。
具体实施方式
下面结合附图和具体实施方式对本发明进一步说明。
如图1至图6所示,一种中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数,具体包括如下步骤:
101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词。将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C。具体如下:
如图3所示,为训练集中的原始文本,训练集的文本中含有不包含文本信息的特殊字符、数字等,其对文本的分类没有帮助,属于噪声数据需要文本标记处理,用正则表达式去除中文符号、数字和英文。去除中文符号的正则表达式可表示为:[^\\u4e00-\\u9fa5\\w],去除数字和英文的正则表达式为:[a-zA-Z\\d]。得到如图所示的处理后文本。为了避免去除这些符号后对中文分词的影响,将这些符号以空格代替。
中文文本中除了标点符号,没有明显的分隔符标记,因此采用MMSEG4J分词工具包进行分词,将中文文本信息划分为一个个词,这是处理中文文本信息的关键步骤。即得到如图5所示的分词处理后的文本。
文本中出现多次并且与文本内容无关的词称为停用词,如“的”、“啊”,“但是”等虚词、无实际意义的实词、连词、语气助词、介词、代词等,这些词几乎出现在每篇文本中,可以将这些词整理到一个停用词表中,在中文分词结束后将这些词删除,得到的文本是文本预处理结束后的文本信息。其中停用词表可以直接来源于百度停用词表。即得到如图6所示的去除停用词处理后的文本。
其中,统计采用特征项t与类别Ci的相互关联性进行排序统计,具体包括四种统计:属于类别Ci且包含特征项t的文本数集A,不属于类别Ci但包含特征项t的文本数集B,属于类别Ci但不包含特征项t的文本数集C,不属于类别Ci且不包含特征项t的文本数集D;Ci表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;
以训练集文本总数N=806,A+B=394,在化工事故新闻报道类别中,A=383,B=11,C=108,D=304,p(化工)=0.609;在非化工事故新闻报道类别中,A=11,B=383,C=304,D=108,p(非化工)=0.391为案例。
训练集中含有特征项t的文本总数集是A+B,不含有特征项t的文本总数集是C+D,类别Ci的文本数集是A+C,其他类别的文本数集是B+D,训练集文本总数集是N,且N=A+B+C+D,特征项t的概率表示为
Figure GDA0002618293920000071
由此可得,特征项t与类别Ci的关联性值为:
Figure GDA0002618293920000072
若特征项t与类别Ci相互独立,AD-CB=0,有X2(t,ci)=0;如果X2(t,ci)的值越大,就表明特征项t与类别Ci相互关系程度越大;AD表示根据特征项t正确判定文档属于Ci类的量化值,CB表示根据特征项t错误判定文档属于Ci类的量化值;
在统计排序时以其平均值作为比较,其平均值为如下公式:
Figure GDA0002618293920000073
n为类别Ci的个数,p(ci)为在训练集的文本类别集合C中占有的概率。统计排序以平均值从大到小进行排序,训练集的文本类别集合C从中,从大到小选取一定数量的特征项。即将得出的每个特征项t的结果
Figure GDA0002618293920000081
按照选择排序算法从大到小排列,如果要选取特征词个数为50时,只需选择从大到小排列的前50个特征词即可。其中会出现,第50个与第51个计算的结果相同,此时就需要对结果进行评测,并进行相应的调整调换,而且即使结果不同,其最后评测也可能出现排在后面的高于排在前50个特征词的。因此需要根据评测调整。具体如下:
Figure GDA0002618293920000082
Figure GDA0002618293920000083
Figure GDA0002618293920000084
由公式(2-10)至公式(2-12)可知,“消防”的
Figure GDA0002618293920000085
(消防)为426.37。其他关键词亦如此,从而可得到数据进行排列,选取需要数量的特征词作为训练集的的文本类别集合的特征项。
102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,即以一篇新闻报道文本经过此步骤处理后选择特征词个数300个时为例,文本预处理后共有128个词,采用统计处理后,一篇文章就剩37个特征词,大大降低了处理量,提高处理精准度。具体公式如下:
Figure GDA0002618293920000086
其中,P(Ci|Dj)表示训练集的文本Dj属于某一类别Ci的概率,文档Dj可以用一组该文档的分词{x1,x2,…,xn}表示,即Dj={x1,x2,…,xn}由于固定的特征词在文本集中出现的次数是常数,所以公式(3)中分母P(x1,x2,…,xn)是常量,因此只需获得公式(3)中分子P(Ci)P(x1,x2,…,xn|Ci)的值,就能判定不同j值时,不同P(Ci|Dj)值间的大小关系。
因此公式(3)则最终可表示为:
Figure GDA0002618293920000091
其中,xj为文档Dj中的一个分词特征项,n为n个特征项;当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件。
以案例为例可知:P(Ci)为先验概率,
Figure GDA0002618293920000092
为所有特征项在类Ci中条件概率的乘积,只需计算C(化工)和C(非化工)的值,并比较大小,若C(化工)>C(非化工),则可得出测试新闻报道文本属于化工事故新闻报道类别;否则,为非化工事故新闻类别中。
类别Ci的先验概率可表示为:
Figure GDA0002618293920000093
用Bxt代表测试文档含有文本特征项t,则得到如下公式:
Figure GDA0002618293920000094
在属于类Ci的情况下xj发生的概率用P(xj|Ci)表示,若特征项出现在测试文本中,则只需得到P(xj|Ci),否则需得到1-P(xj|Ci);
条件概率1-P(xj|Ci)的公式为:
Figure GDA0002618293920000095
在训练集中,若类别Ci中的所有文本都不含有特征项xj,则nij是0,从而P(xj|Ci)的值是0,故需要采用加入平滑因子的方法,得如下公式:
Figure GDA0002618293920000096
以训练集文本总数N=806,A+B=394,在化工事故新闻报道类别中,A=383,B=11,C=108,D=304,p(化工)=0.609;在非化工事故新闻报道类别中,A=11,B=383,C=304,D=108,p(非化工)=0.391为例。以训练集文本数806篇,化工事故新闻报道类491篇,非化工事故新闻报道类315篇为例,在化工事故新闻报道类别中,P(化工)=491/806=0.609;在化工事故新闻报道类别中,P(非化工)=315/806=0.391。以图3的新闻报道为例,文本处理后的词如图5所示,ti为图5中的所有词,
Figure GDA0002618293920000101
所以该测试新闻报道文本属于化工事故新闻报道。
103)测试与评价步骤:运用测试集文本测试文本分类器的分类性能,评估其准确率、召回率、综合分类率、宏平均,并进行改进。
其中准确率,也称查准率,获取测试集中有多少文本的分类结果是正确的,体现分类器分类的准确程度,记为P,具体公式如下:
Figure GDA0002618293920000102
属于类别Ci且包含特征项t的文本数集A,即正确分类到Ci类的文本数;不属于类别Ci但包含特征项t的文本数集B,A+B即实际分类到Ci类的文本总数;
召回率,也称查全率,获取测试集中在类别Ci中的文本,可以被正确分类到类别Ci所占有的比重,展现出分类器分类的完备性,记为R,具体公式如下:
Figure GDA0002618293920000103
属于类别Ci但不包含特征项t的文本数集C,A+C即所有应归为Ci类的文本;F1值,也称综合分类率,是准确率P和召回率R的综合评估指标,具体公式如下:
Figure GDA0002618293920000104
宏平均是对分类器的整体分类效果的评价,准确率和召回率的算术平均数就是宏平均,具体公式如下:
Figure GDA0002618293920000111
Figure GDA0002618293920000112
其中,MacAvg_Precision表示准确率的宏平均,MacAvg_Recall表示召回率的宏平均,|C|表示训练集中包含的文本类别数,Pi表示类别Ci的准确率,Ri表示类别Ci的召回率。
以化工训练集文本为例,常用信息增益的方法与本统计方法进行比较的实验数据如下:
分类正确文本数 分类错误文本数 正确率
使用本统计选词方法 196 9 95.5%
未使用任何选词方法 134 66 67%
表1是否使用统计选词差异比较
Figure GDA0002618293920000113
表2化工事故类别测试
Figure GDA0002618293920000114
表3非化工事故类别测试
由上表可知,使用统计方法的分类准确率明显高于未使用统计方法的准确率。对于化工事故类别,本统计方法和信息增益特征选择方法选取特征词的个数大小几乎对该类别的分类准确率无影响,而本统计方法准确率更高均可达到98%以上,信息增益特征选择方法处理后略低。对于非化工事故类别,本统计方法和信息增益特征选择方法在特征词个数为300、500、1000时,分类准确率均较高,本统计方法更是均可达到89%以上,而信息增益特征则体现出特征词的影响,虽然均可达到70%以上,但特征词影响较大,特征词个数越多,准确率才越高。
其中查看训练集的文本,可以发现化工事故类别的文本大部分都会涉及“泄露、火灾、爆炸、中毒”等情况的发生,因此化工事故类别的分类准确率较高;而非化工事故类别的文本包含IT、军事、教育、体育、财经等领域的新闻信息,设计领域较为广泛。非化工事故的测试集分类错误的文本大多是消防演练、化工事故总结等,与化工事故的特征及其相似,导致在分类时将其划分到化工事故类别。
104)调整步骤:根据步骤103)的测评结果,调整选择的特征项,进行再次测试评估,直到达到最佳效果。其中上述统计表的对比数据为未进行调整特征词的处理结果。调整后的处理结果数据更高。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。

Claims (4)

1.一种中文文本分类方法,其特征在于,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,L,dm},其中C={c1,c2,L,cn},m为文本数,n为文本类别数,具体处理步骤如下:
101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;
其中,统计采用特征项t与类别Ci的相互关联性进行排序统计,具体包括四种统计:属于类别Ci且包含特征项t的文本数集A,不属于类别Ci但包含特征项t的文本数集B,属于类别Ci但不包含特征项t的文本数集C,不属于类别Ci且不包含特征项t的文本数集D;Ci表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;
训练集中含有特征项t的文本总数集是A+B,不含有特征项t的文本总数集是C+D,类别Ci的文本数集是A+C,其他类别的文本数集是B+D,训练集文本总数集是N,且N=A+B+C+D,特征项t的概率表示为
Figure FDA0002604193510000011
由此可得,特征项t与类别Ci的关联性值为:
Figure FDA0002604193510000012
若特征项t与类别Ci相互独立,AD-CB=0,有X2(t,ci)=0;如果X2(t,ci)的值越大,就表明特征项t与类别Ci相互关系程度越大;AD表示根据特征项t正确判定文档属于Ci类的量化值,CB表示根据特征项t错误判定文档属于Ci类的量化值;
在统计排序时以其平均值作为比较,其平均值为如下公式:
Figure FDA0002604193510000013
统计排序以平均值从大到小进行排序,从训练集的文本类别集合C中,从大到小选取一定数量的特征项;
102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,具体公式如下:
Figure FDA0002604193510000021
其中,P(Ci|Dj)表示训练集的文本Dj属于某一类别Ci的概率,文档Dj用一组该文档的分词*x1,x2,…,xn}表示,即Dj=*x1,x2,…,xn},由于固定的特征词在文本集中出现的次数是常数,所以公式(3)中分母P(x1,x2,L,xn)是常量,因此只需获得公式(3)中分子P(Ci)P(x1,x2,…,xn|Ci)的值,就能判定不同j值时,不同P(Ci|Dj)值间的大小关系;因此公式(3)则最终可表示为:
Figure FDA0002604193510000022
其中,xj为文档Dj中的一个分词特征项,n为n个特征项;当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件,即在同样的条件下重复地、相互独立地进行的一种随机事件;用Bxt代表测试文档含有文本特征项t,则得到如下公式:
Figure FDA0002604193510000023
在属于类Ci的情况下xj发生的概率用P(xj|Ci)表示,若特征项出现在测试文本中,则只需得到P(xj|Ci),否则需得到1-P(xj|Ci);
条件概率1-P(xj|Ci)的公式为:
Figure FDA0002604193510000024
在训练集中,若类别Ci中的所有文本都不含有特征项xj,则nij是0,从而P(xj|Ci)的值是0,故需要采用加入平滑因子的方法,得如下公式:
Figure FDA0002604193510000025
103)测试与评价步骤:评估分类器的准确率、召回率、F1值、宏平均,调整训练集的文本类别集合C;
104)调整步骤:根据步骤103)的测评结果,调整选择的特征项,进行再次测试评估,直到达到预设效果。
2.根据权利要求1所述的一种中文文本分类方法,其特征在于:文本标记处理为用正则表达式去除文中的中文符号、数字和英文,去除中文符号的正则表达式可表示为:[^\\u4e00-\\u9fa5\\w],去除数字和英文的正则表达式为:[a-zA-Z\\d],并用空格代替。
3.根据权利要求1所述的一种中文文本分类方法,其特征在于:采用MMSEG4J分词工具包进行分词;停用词为文本中出现多次并且与文本内容无关的词,将停用词整理到停用词表中,并在分词结束后将其删除。
4.根据权利要求1所述的一种中文文本分类方法,其特征在于:
准确率,也称查准率,获取测试集中有多少文本的分类结果是正确的,体现分类器分类的准确程度,记为P,具体公式如下:
Figure FDA0002604193510000031
属于类别Ci且包含特征项t的文本数集A,即正确分类到Ci类的文本数;不属于类别Ci但包含特征项t的文本数集B,A+B即实际分类到Ci类的文本总数;
召回率,也称查全率,获取测试集中在类别Ci中的文本,可以被正确分类到类别Ci所占有的比重,展现出分类器分类的完备性,记为R,具体公式如下:
Figure FDA0002604193510000032
属于类别Ci但不包含特征项t的文本数集C,A+C即所有应归为Ci类的文本;
F1值,也称综合分类率,是准确率P和召回率R的综合评估指标,具体公式如下:
Figure FDA0002604193510000033
宏平均是对分类器的整体分类效果的评价,准确率和召回率的算术平均数就是宏平均,具体公式如下:
Figure FDA0002604193510000041
Figure FDA0002604193510000042
其中,MacAvg_Precision表示准确率的宏平均,MacAvg_Recall表示召回率的宏平均,|C|表示训练集中包含的文本类别数,Pi表示类别Ci的准确率,Ri表示类别Ci的召回率。
CN201910100095.7A 2019-01-31 2019-01-31 一种中文文本分类方法 Active CN109902173B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011019598.0A CN112256865B (zh) 2019-01-31 2019-01-31 一种基于分类器的中文文本分类方法
CN201910100095.7A CN109902173B (zh) 2019-01-31 2019-01-31 一种中文文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910100095.7A CN109902173B (zh) 2019-01-31 2019-01-31 一种中文文本分类方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202011019598.0A Division CN112256865B (zh) 2019-01-31 2019-01-31 一种基于分类器的中文文本分类方法

Publications (2)

Publication Number Publication Date
CN109902173A CN109902173A (zh) 2019-06-18
CN109902173B true CN109902173B (zh) 2020-10-27

Family

ID=66944611

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202011019598.0A Active CN112256865B (zh) 2019-01-31 2019-01-31 一种基于分类器的中文文本分类方法
CN201910100095.7A Active CN109902173B (zh) 2019-01-31 2019-01-31 一种中文文本分类方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202011019598.0A Active CN112256865B (zh) 2019-01-31 2019-01-31 一种基于分类器的中文文本分类方法

Country Status (1)

Country Link
CN (2) CN112256865B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798853A (zh) * 2020-03-27 2020-10-20 北京京东尚科信息技术有限公司 语音识别的方法、装置、设备和计算机可读介质
CN112084308A (zh) * 2020-09-16 2020-12-15 中国信息通信研究院 用于文本类型数据识别的方法、系统及存储介质
CN112215002A (zh) * 2020-11-02 2021-01-12 浙江大学 一种基于改进朴素贝叶斯的电力系统文本数据分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063399A (zh) * 2013-03-22 2014-09-24 杭州金弩信息技术有限公司 一种自动识别文本所承载的情感概率的方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4713870B2 (ja) * 2004-10-13 2011-06-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 文書分類装置、方法、プログラム
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
CN101819601B (zh) * 2010-05-11 2012-02-08 同方知网(北京)技术有限公司 学术文献自动分类的方法
CN105183831A (zh) * 2015-08-31 2015-12-23 上海德唐数据科技有限公司 一种针对不同学科题目文本分类的方法
CN105512311B (zh) * 2015-12-14 2019-02-26 北京工业大学 一种基于卡方统计的自适应特征选择方法
CN108509471A (zh) * 2017-05-19 2018-09-07 苏州纯青智能科技有限公司 一种中文文本分类方法
CN109165294B (zh) * 2018-08-21 2021-09-24 安徽讯飞智能科技有限公司 一种基于贝叶斯分类的短文本分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063399A (zh) * 2013-03-22 2014-09-24 杭州金弩信息技术有限公司 一种自动识别文本所承载的情感概率的方法及系统

Also Published As

Publication number Publication date
CN109902173A (zh) 2019-06-18
CN112256865A (zh) 2021-01-22
CN112256865B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN107066599B (zh) 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN109101477B (zh) 一种企业领域分类及企业关键词筛选方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
US8380714B2 (en) Method, computer system, and computer program for searching document data using search keyword
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN107992633A (zh) 基于关键词特征的电子文档自动分类方法及系统
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN109902173B (zh) 一种中文文本分类方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN107291723A (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN108197175B (zh) 技术监督数据的处理方法和装置、存储介质、处理器
CN103514183A (zh) 基于交互式文档聚类的信息检索方法及系统
CN107145516B (zh) 一种文本聚类方法及系统
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN111709439B (zh) 基于词频偏差率因子的特征选择方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN111831824A (zh) 一种舆情正负面分类方法
CN110781679A (zh) 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN111144106A (zh) 一种不平衡数据集下的两阶段文本特征选择方法
CN106503153A (zh) 一种计算机文本分类体系、系统及其文本分类方法
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
Jaman et al. Sentiment analysis of customers on utilizing online motorcycle taxi service at twitter with the support vector machine
JP2006146802A (ja) テキストマイニング装置およびテキストマイニング方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220613

Address after: Room 203-17, block C, Pangu maker space, No. 100, Huoju Road, high tech Zone, Qingdao, Shandong 266111

Patentee after: Shandong Huizhong Technology Co.,Ltd.

Address before: 266061 Songling Road, Laoshan District, Qingdao, Shandong Province, No. 99

Patentee before: QINGDAO University OF SCIENCE AND TECHNOLOGY

TR01 Transfer of patent right