CN109902173A - 一种中文文本分类方法 - Google Patents
一种中文文本分类方法 Download PDFInfo
- Publication number
- CN109902173A CN109902173A CN201910100095.7A CN201910100095A CN109902173A CN 109902173 A CN109902173 A CN 109902173A CN 201910100095 A CN201910100095 A CN 201910100095A CN 109902173 A CN109902173 A CN 109902173A
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- characteristic item
- manifold
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000012360 testing method Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 8
- 239000012141 concentrate Substances 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 30
- 238000003889 chemical engineering Methods 0.000 description 24
- 239000000126 substance Substances 0.000 description 23
- 238000007619 statistical method Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005272 metallurgy Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数;本发明提供了建模更合理、分类准确率提高、召回率提高,整体精准快捷的一种中文文本分类方法。
Description
技术领域
本发明涉及文本分类领域,更具体的说,它涉及一种中文文本分类方法。
背景技术
近年来,化工技术发展越来越受到广泛关注,化工废气处理技术,化工医药技术、化工新能源研发,越来越多的先进前沿技术流传于各个媒体网站。其就业方向有化工、炼油、冶金、能源、轻工、医药、环保等多种对社会有重大的影响的岗位。若能利用某种技术快速准确定位出与化工技术、化工就业相关报道,为研究化工行业目前的发展状况、化工的就业需求等提供了便利,有助于各大院校调整相应人才的培养和更前沿的研究方向的把握。因此,需要一种可以有效率地管理这些信息的技术,将大量的文本信息自动分类,选择出人们需要的特定领域信息文本。文本分类技术可以分析处理大量文本数据,人工干预大大减少,并且能高效准确定位出特定信息文本,是处理各类文本的有效方式。
信息技术的发展日益迅猛,互联网技术逐渐成熟,随之产生的数据量呈爆炸性增长,而这些数据大多是半结构化和非结构化的,并且以文本形式呈现。若采用人工方式将一篇文本划分到某个分类中,虽然分类结果准确,但是耗费的人力物力极其巨大,无法快速适应互联网时代信息的极速增加以及社会发展的需求,实现十分困难。实际上,根据特定的需求,人们往往只关心文本信息的某一个领域,快速提取出指定的文本信息对互联网技术的发展具有举足轻重的作用。
我国最早关于文本分类的报告是80年代初,就职于南京工业大学的侯汉清教授首次对其进行了系统性地阐述。随后,多位学者对文本分类方法不断改进,随之我国在文本分类领域的研究取得较大进展。李晓黎、史忠值等人通过将概念推理网引入文本分类,文本分类的准确率和召回率得到较大提升。姜远、周志华等在2006年提出在分类时将词频作为影响因素,复旦大学的李荣陆在构建文本分类器时采用基于最大熵模型的分类方法,黄菁菁等采用独立语种对文本分类进行了广泛扩展。但整体上,仍没有极高的精准分类的方法。如何快速精确地定位是近几年来信息发展的一个重要研究范畴。
发明内容
本发明为文本分类的高效提供了可能,其建模更合理、分类准确率提高、召回率提高,整体精准快捷的一种中文文本分类方法。
本发明的技术方案如下:
一种中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中 D={d1,d2,,dm},其中C={c1,c2,,cn},m为文本数,n为文本类别数,具体处理步骤如下:
101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;
其中,统计采用特征项t与类别Ci的相互关联性进行排序统计,具体包括四种统计:属于类别Ci且包含特征项t的文本数集A,不属于类别Ci但包含特征项 t的文本数集B,属于类别Ci但不包含特征项t的文本数集C,不属于类别Ci且不包含特征项t的文本数集D;Ci表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;
训练集中含有特征项t的文本总数集是A+B,不含有特征项t的文本总数集是C+D,类别Ci的文本数集是A+C,其他类别的文本数集是B+D,训练集文本总数集是N,且N=A+B+C+D,特征项t的概率表示为
由此可得,特征项t与类别Ci的关联性值为:
若特征项t与类别Ci相互独立,AD-CB=0,有X2(t,ci)=0;如果X2(t,ci)的值越大,就表明特征项t与类别Ci相互关系程度越大;AD表示根据特征项t正确判定文档属于Ci类的量化值,CB表示根据特征项t错误判定文档属于Ci类的量化值;
在统计排序时以其平均值作为比较,其平均值为如下公式:
统计排序以平均值从大到小进行排序,训练集的文本类别集合C从中从大到小选取一定数量的特征项;
102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,具体公式如下:
其中,P(Ci|Dj)表示训练集的文本Dj属于某一类别Ci的概率,文档Dj可以用一组该文档的分词{x1,x2,…,xn}表示,即Dj={x1,x2,…,xn}由于固定的特征词在文本集中出现的次数是常数,所以公式(3)中分母P(x1,x2,,xn)是常量,因此只需获得公式(3)中分子P(Ci)P(x1,x2,…,xn|Ci)的值,就能判定不同j值时,不同P(Ci|Dj) 值间的大小关系;因此公式(3)则最终可表示为:
其中,xj为文档Dj中的一个分词特征项,n为n个特征项;当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件;用Bxt代表测试文档含有文本特征项t,则得到如下公式:
在属于类Ci的情况下xj发生的概率用P(xj|Ci)表示,若特征项出现在测试文本中,则只需得到P(xj|Ci),否则需得到1-P(xj|Ci);
条件概率1-P(xj|Ci)的公式为:
在训练集中,若类别Ci中的所有文本都不含有特征项xj,则nij是0,从而 P(xj|Ci)的值是0,故需要采用加入平滑因子的方法,得如下公式:
103)测试与评价步骤:评估分类器的准确率、召回率、F1值、宏平均,调整训练集的文本类别集合C。
进一步的,文本标记处理为用正则表达式去除文中的中文符号、数字和英文,去除中文符号的正则表达式可表示为:[^\\u4e00-\\u9fa5\\w],去除数字和英文的正则表达式为:[a-zA-Z\\d],并用空格代替。
进一步的,采用MMSEG4J分词工具包进行分词;停用词为文本中出现多次并且与文本内容无关的词,将停用词整理到停用词表中,并在分词结束后将其删除。
进一步的,准确率,也称查准率,获取测试集中有多少文本的分类结果是正确的,体现分类器分类的准确程度,记为P,具体公式如下:
属于类别Ci且包含特征项t的文本数集A,即正确分类到Ci类的文本数;不属于类别Ci但包含特征项t的文本数集B,A+B即实际分类到Ci类的文本总数;
召回率,也称查全率,获取测试集中在类别Ci中的文本,可以被正确分类到类别Ci所占有的比重,展现出分类器分类的完备性,记为R,具体公式如下:
属于类别Ci但不包含特征项t的文本数集C,A+C即所有应归为Ci类的文本;
F1值,也称综合分类率,是准确率P和召回率R的综合评估指标,具体公式如下:
宏平均是对分类器的整体分类效果的评价,准确率和召回率的算术平均数就是宏平均,具体公式如下:
其中,MacAvg_Precision表示准确率的宏平均,MacAvg_Recall表示召回率的宏平均,|C|表示训练集中包含的文本类别数,Pi表示类别Ci的准确率,Ri表示类别Ci的召回率。
本发明相比现有技术优点在于:本发明通过文本训练集,建立特征项,通过准确率、召回率、F1值、宏平均等指标进行评估,从而训练调整选择的特征项。本发明通过特征项与类别的关联性值,进行关系程度量化值的获取和排序,以选择合适的特征项作为分类标准,从而提高准确率、召回率和精准度。本发明方案为文本分类的高效提供了可能,其分类准确率高、召回率高,整体精准快捷。
附图说明
图1为本发明的整体模型图;
图2为本发明的文本分类映射模型图;
图3为本发明的训练集中的原始文本;
图4为本发明图3进行文本标记处理后的文本;
图5为本发明图4分词处理后的文本;
图6为本发明图5去除停用词处理后的文本。
具体实施方式
下面结合附图和具体实施方式对本发明进一步说明。
如图1至图6所示,一种中文文本分类方法,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,,dm},其中C={c1,c2,,cn},m为文本数,n为文本类别数,具体包括如下步骤:
101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词。将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C。具体如下:
如图3所示,为训练集中的原始文本,训练集的文本中含有不包含文本信息的特殊字符、数字等,其对文本的分类没有帮助,属于噪声数据需要文本标记处理,用正则表达式去除中文符号、数字和英文。去除中文符号的正则表达式可表示为:[^\\u4e00-\\u9fa5\\w],去除数字和英文的正则表达式为: [a-zA-Z\\d]。得到如图所示的处理后文本。为了避免去除这些符号后对中文分词的影响,将这些符号以空格代替。
中文文本中除了标点符号,没有明显的分隔符标记,因此采用MMSEG4J分词工具包进行分词,将中文文本信息划分为一个个词,这是处理中文文本信息的关键步骤。即得到如图5所示的分词处理后的文本。
文本中出现多次并且与文本内容无关的词称为停用词,如“的”、“啊”,“但是”等虚词、无实际意义的实词、连词、语气助词、介词、代词等,这些词几乎出现在每篇文本中,可以将这些词整理到一个停用词表中,在中文分词结束后将这些词删除,得到的文本是文本预处理结束后的文本信息。其中停用词表可以直接来源于百度停用词表。即得到如图6所示的去除停用词处理后的文本。
其中,统计采用特征项t与类别Ci的相互关联性进行排序统计,具体包括四种统计:属于类别Ci且包含特征项t的文本数集A,不属于类别Ci但包含特征项 t的文本数集B,属于类别Ci但不包含特征项t的文本数集C,不属于类别Ci且不包含特征项t的文本数集D;Ci表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;
以训练集文本总数N=806,A+B=394,在化工前沿技术类别中,A=383, B=11,C=108,D=304,p(化工)=0.609;在非化工前沿技术类别中,A=11,B=383, C=304,D=108,p(非化工)=0.391为案例。
训练集中含有特征项t的文本总数集是A+B,不含有特征项t的文本总数集是C+D,类别Ci的文本数集是A+C,其他类别的文本数集是B+D,训练集文本总数集是N,且N=A+B+C+D,特征项t的概率表示为
由此可得,特征项t与类别Ci的关联性值为:
若特征项t与类别Ci相互独立,AD-CB=0,有X2(t,ci)=0;如果X2(t,ci)的值越大,就表明特征项t与类别Ci相互关系程度越大;AD表示根据特征项t正确判定文档属于Ci类的量化值,CB表示根据特征项t错误判定文档属于Ci类的量化值;
在统计排序时以其平均值作为比较,其平均值为如下公式:
n为类别Ci的个数,p(ci)为在训练集的文本类别集合C中占有的概率。统计排序以平均值从大到小进行排序,训练集的文本类别集合C从中,从大到小选取一定数量的特征项。即将得出的每个特征项t的结果按照选择排序算法从大到小排列,如果要选取特征词个数为50时,只需选择从大到小排列的前50个特征词即可。其中会出现,第50个与第51个计算的结果相同,此时就需要对结果进行评测,并进行相应的调整调换,而且即使结果不同,其最后评测也可能出现排在后面的高于排在前50个特征词的。因此需要根据评测调整。具体如下:
由公式(2-10)至公式(2-12)可知,“精馏”的为426.37。其他关键词亦如此,从而可得到数据进行排列,选取需要数量的特征词作为训练集的的文本类别集合的特征项。
102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,即以一篇化工前沿技术报道文本经过此步骤处理后选择特征词个数300个时为例,文本预处理后共有128个词,采用统计处理后,一篇文章就剩37个特征词,大大降低了处理量,提高处理精准度。具体公式如下:
其中,P(Ci|Dj)表示训练集的文本Dj属于某一类别Ci的概率,文档Dj可以用一组该文档的分词{x1,x2,…,xn}表示,即Dj={x1,x2,…,xn}由于固定的特征词在文本集中出现的次数是常数,所以公式(3)中分母P(x1,x2,,xn)是常量,因此只需获得公式(3)中分子P(Ci)P(x1,x2,…,xn|Ci)的值,就能判定不同j值时,不同P(Ci|Dj) 值间的大小关系。
因此公式(3)则最终可表示为:
其中,xj为文档Dj中的一个分词特征项,n为n个特征项;当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件。
以案例为例可知:P(Ci)为先验概率,为所有特征项在类Ci中条件概率的乘积,只需计算C(化工)和C(非化工)的值,并比较大小,若C(化工)> C(非化工),则可得出测试化工前沿技术报道文本属于化工前沿技术类别;否则,为非化工前沿技术类别中。
类别Ci的先验概率可表示为:
用Bxt代表测试文档含有文本特征项t,则得到如下公式:
在属于类Ci的情况下xj发生的概率用P(xj|Ci)表示,若特征项出现在测试文本中,则只需得到P(xj|Ci),否则需得到1-P(xj|Ci);
条件概率1-P(xj|Ci)的公式为:
在训练集中,若类别Ci中的所有文本都不含有特征项xj,则nij是0,从而 P(xj|Ci)的值是0,故需要采用加入平滑因子的方法,得如下公式:
以训练集文本总数N=806,A+B=394,在化工前沿技术类别中,A=383,B=11,C=108,D=304,p(化工)=0.609;在非化工前沿技术类别中,A=11,B=383,C=304, D=108,p(非化工)=0.391为例。以训练集文本数806篇,化工前沿技术类491篇,非化工前沿技术类315篇为例,在化工前沿技术类别中,P(化工)=491/806=0.609;在化工前沿技术类别中,P(非化工)=315/806=0.391。以图3的化工前沿技术报道为例,文本处理后的词如图5所示,ti为图5中的所有词, 所以该测试化工前沿技术报道文本属于化工前沿技术。
103)测试与评价步骤:运用测试集文本测试文本分类器的分类性能,评估其准确率、召回率、综合分类率、宏平均,并进行改进。
其中准确率,也称查准率,获取测试集中有多少文本的分类结果是正确的,体现分类器分类的准确程度,记为P,具体公式如下:
属于类别Ci且包含特征项t的文本数集A,即正确分类到Ci类的文本数;不属于类别Ci但包含特征项t的文本数集B,A+B即实际分类到Ci类的文本总数;
召回率,也称查全率,获取测试集中在类别Ci中的文本,可以被正确分类到类别Ci所占有的比重,展现出分类器分类的完备性,记为R,具体公式如下:
属于类别Ci但不包含特征项t的文本数集C,A+C即所有应归为Ci类的文本;
F1值,也称综合分类率,是准确率P和召回率R的综合评估指标,具体公式如下:
宏平均是对分类器的整体分类效果的评价,准确率和召回率的算术平均数就是宏平均,具体公式如下:
其中,MacAvg_Precision表示准确率的宏平均,MacAvg_Recall表示召回率的宏平均,|C|表示训练集中包含的文本类别数,Pi表示类别Ci的准确率,Ri表示类别Ci的召回率。
以化工训练集文本为例,常用信息增益的方法与本统计方法进行比较的实验数据如下:
分类正确文本数 | 分类错误文本数 | 正确率 | |
使用本统计选词方法 | 196 | 9 | 95.5% |
未使用任何选词方法 | 134 | 66 | 67% |
表1是否使用统计选词差异比较
表2化工前沿技术类别测试
表3非化工前沿技术类别测试
由上表可知,使用统计方法的分类准确率明显高于未使用统计方法的准确率。对于化工事故类别,本统计方法和信息增益特征选择方法选取特征词的个数大小几乎对该类别的分类准确率无影响,而本统计方法准确率更高均可达到98%以上,信息增益特征选择方法处理后略低。对于非化工前沿技术类别,本统计方法和信息增益特征选择方法在特征词个数为300、500、1000时,分类准确率均较高,本统计方法更是均可达到89%以上,而信息增益特征则体现出特征词的影响,虽然均可达到70%以上,但特征词影响较大,特征词个数越多,准确率才越高。
其中查看训练集的文本,可以发现化工前沿技术类别的文本大部分都会涉及“化工、精馏、萃取、液膜”等情况的发生,因此化工前沿技术类别的分类准确率较高;而非化工前沿技术类别的文本包含IT、军事、教育、体育、财经等领域的新闻信息,设计领域较为广泛。非化工前沿技术的测试集分类错误的文本大多是加工化工厂设备、化工厂操作制度说明等,与化工前沿技术的特征及其相似,导致在分类时将其划分到化工前沿技术类别。
104)调整步骤:根据步骤103)的测评结果,调整选择的特征项,进行再次测试评估,直到达到最佳效果。其中上述统计表的对比数据为未进行调整特征词的处理结果。调整后的处理结果数据更高。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
Claims (4)
1.一种中文文本分类方法,其特征在于,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数,具体处理步骤如下:
101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;
其中,统计采用特征项t与类别Ci的相互关联性进行排序统计,具体包括四种统计:属于类别Ci且包含特征项t的文本数集A,不属于类别Ci但包含特征项t的文本数集B,属于类别Ci但不包含特征项t的文本数集C,不属于类别Ci且不包含特征项t的文本数集D;Ci表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;
训练集中含有特征项t的文本总数集是A+B,不含有特征项t的文本总数集是C+D,类别Ci的文本数集是A+C,其他类别的文本数集是B+D,训练集文本总数集是N,且N=A+B+C+D,特征项t的概率表示为
由此可得,特征项t与类别Ci的关联性值为:
若特征项t与类别Ci相互独立,AD-CB=0,有X2(t,ci)=0;如果X2(t,ci)的值越大,就表明特征项t与类别Ci相互关系程度越大;AD表示根据特征项t正确判定文档属于Ci类的量化值,CB表示根据特征项t错误判定文档属于Ci类的量化值;
在统计排序时以其平均值作为比较,其平均值为如下公式:
统计排序以平均值从大到小进行排序,训练集的文本类别集合C从中,从大到小选取一定数量的特征项;
102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,具体公式如下:
其中,P(Ci|Dj)表示训练集的文本Dj属于某一类别Ci的概率,文档Dj用一组该文档的分词{x1,x2,…,xn}表示,即Dj={x1,x2,…,xn}由于固定的特征词在文本集中出现的次数是常数,所以公式(3)中分母P(x1,x2,…,xn)是常量,因此只需获得公式(3)中分子P(Ci)P(x1,x2,…,xn|Ci)的值,就能判定不同j值时,不同P(Ci|Dj)值间的大小关系;因此公式(3)则最终可表示为:
其中,xj为文档Dj中的一个分词特征项,n为n个特征项;当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件;用Bxt代表测试文档含有文本特征项t,则得到如下公式:
在属于类Ci的情况下xj发生的概率用P(xj|Ci)表示,若特征项出现在测试文本中,则只需得到P(xj|Ci),否则需得到1-P(xj|Ci);
条件概率1-P(xj|Ci)的公式为:
在训练集中,若类别Ci中的所有文本都不含有特征项xj,则nij是0,从而P(xj|Ci)的值是0,故需要采用加入平滑因子的方法,得如下公式:
103)测试与评价步骤:评估分类器的准确率、召回率、F1值、宏平均,调整训练集的文本类别集合C;
104)调整步骤:根据步骤103)的测评结果,调整选择的特征项,进行再次测试评估,直到达到预设效果。
2.根据权利要求1所述的一种中文文本分类方法,其特征在于:文本标记处理为用正则表达式去除文中的中文符号、数字和英文,去除中文符号的正则表达式可表示为:[^\\u4e00-\\u9fa5\\w],去除数字和英文的正则表达式为:[a-zA-Z\\d],并用空格代替。
3.根据权利要求1所述的一种中文文本分类方法,其特征在于:采用MMSEG4J分词工具包进行分词;停用词为文本中出现多次并且与文本内容无关的词,将停用词整理到停用词表中,并在分词结束后将其删除。
4.根据权利要求1所述的一种中文文本分类方法,其特征在于:
准确率,也称查准率,获取测试集中有多少文本的分类结果是正确的,体现分类器分类的准确程度,记为P,具体公式如下:
属于类别Ci且包含特征项t的文本数集A,即正确分类到Ci类的文本数;不属于类别Ci但包含特征项t的文本数集B,A+B即实际分类到Ci类的文本总数;
召回率,也称查全率,获取测试集中在类别Ci中的文本,可以被正确分类到类别Ci所占有的比重,展现出分类器分类的完备性,记为R,具体公式如下:
属于类别Ci但不包含特征项t的文本数集C,A+C即所有应归为Ci类的文本;
F1值,也称综合分类率,是准确率P和召回率R的综合评估指标,具体公式如下:
宏平均是对分类器的整体分类效果的评价,准确率和召回率的算术平均数就是宏平均,具体公式如下:
其中,MacAvg_Precision表示准确率的宏平均,MacAvg_Recall表示召回率的宏平均,|C|表示训练集中包含的文本类别数,Pi表示类别Ci的准确率,Ri表示类别Ci的召回率。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011019598.0A CN112256865B (zh) | 2019-01-31 | 2019-01-31 | 一种基于分类器的中文文本分类方法 |
CN201910100095.7A CN109902173B (zh) | 2019-01-31 | 2019-01-31 | 一种中文文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910100095.7A CN109902173B (zh) | 2019-01-31 | 2019-01-31 | 一种中文文本分类方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011019598.0A Division CN112256865B (zh) | 2019-01-31 | 2019-01-31 | 一种基于分类器的中文文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902173A true CN109902173A (zh) | 2019-06-18 |
CN109902173B CN109902173B (zh) | 2020-10-27 |
Family
ID=66944611
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011019598.0A Active CN112256865B (zh) | 2019-01-31 | 2019-01-31 | 一种基于分类器的中文文本分类方法 |
CN201910100095.7A Active CN109902173B (zh) | 2019-01-31 | 2019-01-31 | 一种中文文本分类方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011019598.0A Active CN112256865B (zh) | 2019-01-31 | 2019-01-31 | 一种基于分类器的中文文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN112256865B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798853A (zh) * | 2020-03-27 | 2020-10-20 | 北京京东尚科信息技术有限公司 | 语音识别的方法、装置、设备和计算机可读介质 |
CN112084308A (zh) * | 2020-09-16 | 2020-12-15 | 中国信息通信研究院 | 用于文本类型数据识别的方法、系统及存储介质 |
CN112215002A (zh) * | 2020-11-02 | 2021-01-12 | 浙江大学 | 一种基于改进朴素贝叶斯的电力系统文本数据分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060112040A1 (en) * | 2004-10-13 | 2006-05-25 | Hewlett-Packard Development Company, L.P. | Device, method, and program for document classification |
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN101819601A (zh) * | 2010-05-11 | 2010-09-01 | 同方知网(北京)技术有限公司 | 学术文献自动分类的方法 |
CN104063399A (zh) * | 2013-03-22 | 2014-09-24 | 杭州金弩信息技术有限公司 | 一种自动识别文本所承载的情感概率的方法及系统 |
CN105183831A (zh) * | 2015-08-31 | 2015-12-23 | 上海德唐数据科技有限公司 | 一种针对不同学科题目文本分类的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512311B (zh) * | 2015-12-14 | 2019-02-26 | 北京工业大学 | 一种基于卡方统计的自适应特征选择方法 |
CN108509471A (zh) * | 2017-05-19 | 2018-09-07 | 苏州纯青智能科技有限公司 | 一种中文文本分类方法 |
CN109165294B (zh) * | 2018-08-21 | 2021-09-24 | 安徽讯飞智能科技有限公司 | 一种基于贝叶斯分类的短文本分类方法 |
-
2019
- 2019-01-31 CN CN202011019598.0A patent/CN112256865B/zh active Active
- 2019-01-31 CN CN201910100095.7A patent/CN109902173B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060112040A1 (en) * | 2004-10-13 | 2006-05-25 | Hewlett-Packard Development Company, L.P. | Device, method, and program for document classification |
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN101819601A (zh) * | 2010-05-11 | 2010-09-01 | 同方知网(北京)技术有限公司 | 学术文献自动分类的方法 |
CN104063399A (zh) * | 2013-03-22 | 2014-09-24 | 杭州金弩信息技术有限公司 | 一种自动识别文本所承载的情感概率的方法及系统 |
CN105183831A (zh) * | 2015-08-31 | 2015-12-23 | 上海德唐数据科技有限公司 | 一种针对不同学科题目文本分类的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798853A (zh) * | 2020-03-27 | 2020-10-20 | 北京京东尚科信息技术有限公司 | 语音识别的方法、装置、设备和计算机可读介质 |
CN112084308A (zh) * | 2020-09-16 | 2020-12-15 | 中国信息通信研究院 | 用于文本类型数据识别的方法、系统及存储介质 |
CN112215002A (zh) * | 2020-11-02 | 2021-01-12 | 浙江大学 | 一种基于改进朴素贝叶斯的电力系统文本数据分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112256865B (zh) | 2023-03-21 |
CN109902173B (zh) | 2020-10-27 |
CN112256865A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN109189901B (zh) | 一种智能客服系统中自动发现新分类以及对应语料的方法 | |
CN112581006B (zh) | 筛选舆情信息及监测企业主体风险等级的舆情系统及方法 | |
CN104281653B (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN104392006B (zh) | 一种事件查询处理方法及装置 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN113837531A (zh) | 一种基于网络评论的产品质量问题发现及风险评估方法 | |
CN109710947A (zh) | 电力专业词库生成方法及装置 | |
CN105760524B (zh) | 一种科学新闻标题的多层次多分类方法 | |
CN109902173A (zh) | 一种中文文本分类方法 | |
CN107194617B (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN109086355B (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
CN104216979B (zh) | 中文工艺专利自动分类系统及利用该系统进行专利分类的方法 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN108470022A (zh) | 一种基于运维管理的智能工单质检方法 | |
CN110990676A (zh) | 一种社交媒体热点主题提取方法与系统 | |
CN109614484A (zh) | 一种基于分类效用的文本聚类方法及其系统 | |
CN111026870A (zh) | 一种综合文本分类和图像识别的ict系统故障分析方法 | |
CN113239691A (zh) | 一种基于主题模型的相似诉求工单筛选方法和装置 | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及系统 | |
CN106503153A (zh) | 一种计算机文本分类体系、系统及其文本分类方法 | |
CN103268346A (zh) | 半监督分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220613 Address after: Room 203-17, block C, Pangu maker space, No. 100, Huoju Road, high tech Zone, Qingdao, Shandong 266111 Patentee after: Shandong Huizhong Technology Co.,Ltd. Address before: 266061 Songling Road, Laoshan District, Qingdao, Shandong Province, No. 99 Patentee before: QINGDAO University OF SCIENCE AND TECHNOLOGY |
|
TR01 | Transfer of patent right |