CN109902173A

CN109902173A - 一种中文文本分类方法

Info

Publication number: CN109902173A
Application number: CN201910100095.7A
Authority: CN
Inventors: 陈卓
Original assignee: Qingdao University of Science and Technology
Current assignee: Shandong Huizhong Technology Co ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-06-18
Anticipated expiration: 2039-01-31
Also published as: CN112256865B; CN109902173B; CN112256865A

Abstract

本发明公开了一种中文文本分类方法，包括测试集文本D和训练集的文本类别集合C，将测试集文本D通过文本分类方法映射到训练集的文本类别集合C；其中D＝{d₁,d₂,…,d_m}，其中C＝{c₁,c₂,…,c_n}，m为文本数，n为文本类别数；本发明提供了建模更合理、分类准确率提高、召回率提高，整体精准快捷的一种中文文本分类方法。

Description

一种中文文本分类方法

技术领域

本发明涉及文本分类领域，更具体的说，它涉及一种中文文本分类方法。

背景技术

近年来，化工技术发展越来越受到广泛关注，化工废气处理技术，化工医药技术、化工新能源研发，越来越多的先进前沿技术流传于各个媒体网站。其就业方向有化工、炼油、冶金、能源、轻工、医药、环保等多种对社会有重大的影响的岗位。若能利用某种技术快速准确定位出与化工技术、化工就业相关报道，为研究化工行业目前的发展状况、化工的就业需求等提供了便利，有助于各大院校调整相应人才的培养和更前沿的研究方向的把握。因此，需要一种可以有效率地管理这些信息的技术，将大量的文本信息自动分类，选择出人们需要的特定领域信息文本。文本分类技术可以分析处理大量文本数据，人工干预大大减少，并且能高效准确定位出特定信息文本，是处理各类文本的有效方式。

信息技术的发展日益迅猛，互联网技术逐渐成熟，随之产生的数据量呈爆炸性增长，而这些数据大多是半结构化和非结构化的，并且以文本形式呈现。若采用人工方式将一篇文本划分到某个分类中，虽然分类结果准确，但是耗费的人力物力极其巨大，无法快速适应互联网时代信息的极速增加以及社会发展的需求，实现十分困难。实际上，根据特定的需求，人们往往只关心文本信息的某一个领域，快速提取出指定的文本信息对互联网技术的发展具有举足轻重的作用。

我国最早关于文本分类的报告是80年代初，就职于南京工业大学的侯汉清教授首次对其进行了系统性地阐述。随后，多位学者对文本分类方法不断改进，随之我国在文本分类领域的研究取得较大进展。李晓黎、史忠值等人通过将概念推理网引入文本分类，文本分类的准确率和召回率得到较大提升。姜远、周志华等在2006年提出在分类时将词频作为影响因素，复旦大学的李荣陆在构建文本分类器时采用基于最大熵模型的分类方法，黄菁菁等采用独立语种对文本分类进行了广泛扩展。但整体上，仍没有极高的精准分类的方法。如何快速精确地定位是近几年来信息发展的一个重要研究范畴。

发明内容

本发明为文本分类的高效提供了可能，其建模更合理、分类准确率提高、召回率提高，整体精准快捷的一种中文文本分类方法。

本发明的技术方案如下：

一种中文文本分类方法，包括测试集文本D和训练集的文本类别集合C，将测试集文本D通过文本分类方法映射到训练集的文本类别集合C；其中 D＝{d₁,d₂,,d_m}，其中C＝{c₁,c₂,,c_n}，m为文本数，n为文本类别数，具体处理步骤如下：

101)文本预处理步骤：将训练集的文本进行文本标记处理、分词、去除停用词，将处理后的文本通过统计做特征选择，进行特征降维得到训练集的文本类别集合C；

其中，统计采用特征项t与类别C_i的相互关联性进行排序统计，具体包括四种统计：属于类别C_i且包含特征项t的文本数集A，不属于类别C_i但包含特征项 t的文本数集B，属于类别C_i但不包含特征项t的文本数集C，不属于类别C_i且不包含特征项t的文本数集D；C_i表示分词后去除相近分词的文本类别集合中的其中一个类别，i为类别标识，其小于等于分词后的分词数量；特征项t为具体的分词；

训练集中含有特征项t的文本总数集是A+B，不含有特征项t的文本总数集是C+D，类别C_i的文本数集是A+C，其他类别的文本数集是B+D，训练集文本总数集是N，且N＝A+B+C+D，特征项t的概率表示为

由此可得，特征项t与类别C_i的关联性值为：

若特征项t与类别C_i相互独立，AD-CB＝0，有X²(t,c_i)＝0；如果X²(t,c_i)的值越大，就表明特征项t与类别C_i相互关系程度越大；AD表示根据特征项t正确判定文档属于C_i类的量化值，CB表示根据特征项t错误判定文档属于C_i类的量化值；

在统计排序时以其平均值作为比较，其平均值为如下公式：

统计排序以平均值从大到小进行排序，训练集的文本类别集合C从中从大到小选取一定数量的特征项；

102)分类器步骤：将步骤101)处理后的数据由文本分类器处理，具体公式如下：

其中，P(C_i|D_j)表示训练集的文本D_j属于某一类别C_i的概率，文档D_j可以用一组该文档的分词{x₁,x₂,…,x_n}表示，即D_j＝{x₁,x₂,…,x_n}由于固定的特征词在文本集中出现的次数是常数，所以公式(3)中分母P(x₁,x₂,,x_n)是常量，因此只需获得公式(3)中分子P(C_i)P(x₁,x₂,…,x_n|C_i)的值，就能判定不同j值时，不同P(C_i|D_j) 值间的大小关系；因此公式(3)则最终可表示为：

其中，x_j为文档D_j中的一个分词特征项，n为n个特征项；当某一特征项出现在该文本中，就置权重为1，若未出现就置权重为0，测试文本作为事件，并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件；用B_xt代表测试文档含有文本特征项t，则得到如下公式：

在属于类C_i的情况下x_j发生的概率用P(x_j|C_i)表示，若特征项出现在测试文本中，则只需得到P(x_j|C_i)，否则需得到1-P(x_j|C_i)；

条件概率1-P(x_j|C_i)的公式为：

在训练集中，若类别C_i中的所有文本都不含有特征项x_j，则n_ij是0，从而 P(x_j|C_i)的值是0，故需要采用加入平滑因子的方法，得如下公式：

103)测试与评价步骤：评估分类器的准确率、召回率、F1值、宏平均，调整训练集的文本类别集合C。

进一步的，文本标记处理为用正则表达式去除文中的中文符号、数字和英文，去除中文符号的正则表达式可表示为：[^\\u4e00-\\u9fa5\\w]，去除数字和英文的正则表达式为：[a-zA-Z\\d]，并用空格代替。

进一步的，采用MMSEG4J分词工具包进行分词；停用词为文本中出现多次并且与文本内容无关的词，将停用词整理到停用词表中，并在分词结束后将其删除。

进一步的，准确率，也称查准率，获取测试集中有多少文本的分类结果是正确的，体现分类器分类的准确程度，记为P，具体公式如下：

属于类别C_i且包含特征项t的文本数集A，即正确分类到C_i类的文本数；不属于类别C_i但包含特征项t的文本数集B，A+B即实际分类到C_i类的文本总数；

召回率，也称查全率，获取测试集中在类别C_i中的文本，可以被正确分类到类别C_i所占有的比重，展现出分类器分类的完备性，记为R，具体公式如下：

属于类别C_i但不包含特征项t的文本数集C，A+C即所有应归为C_i类的文本；

F1值，也称综合分类率，是准确率P和召回率R的综合评估指标，具体公式如下：

宏平均是对分类器的整体分类效果的评价，准确率和召回率的算术平均数就是宏平均，具体公式如下：

其中，MacAvg_Precision表示准确率的宏平均，MacAvg_Recall表示召回率的宏平均，|C|表示训练集中包含的文本类别数，P_i表示类别C_i的准确率，R_i表示类别C_i的召回率。

本发明相比现有技术优点在于：本发明通过文本训练集，建立特征项，通过准确率、召回率、F1值、宏平均等指标进行评估，从而训练调整选择的特征项。本发明通过特征项与类别的关联性值，进行关系程度量化值的获取和排序，以选择合适的特征项作为分类标准，从而提高准确率、召回率和精准度。本发明方案为文本分类的高效提供了可能，其分类准确率高、召回率高，整体精准快捷。

附图说明

图1为本发明的整体模型图；

图2为本发明的文本分类映射模型图；

图3为本发明的训练集中的原始文本；

图4为本发明图3进行文本标记处理后的文本；

图5为本发明图4分词处理后的文本；

图6为本发明图5去除停用词处理后的文本。

具体实施方式

下面结合附图和具体实施方式对本发明进一步说明。

如图1至图6所示，一种中文文本分类方法，包括测试集文本D和训练集的文本类别集合C，将测试集文本D通过文本分类方法映射到训练集的文本类别集合C；其中D＝{d₁,d₂,,d_m}，其中C＝{c₁,c₂,,c_n}，m为文本数，n为文本类别数，具体包括如下步骤：

101)文本预处理步骤：将训练集的文本进行文本标记处理、分词、去除停用词。将处理后的文本通过统计做特征选择，进行特征降维得到训练集的文本类别集合C。具体如下：

如图3所示，为训练集中的原始文本，训练集的文本中含有不包含文本信息的特殊字符、数字等，其对文本的分类没有帮助，属于噪声数据需要文本标记处理，用正则表达式去除中文符号、数字和英文。去除中文符号的正则表达式可表示为：[^\\u4e00-\\u9fa5\\w]，去除数字和英文的正则表达式为： [a-zA-Z\\d]。得到如图所示的处理后文本。为了避免去除这些符号后对中文分词的影响，将这些符号以空格代替。

中文文本中除了标点符号，没有明显的分隔符标记，因此采用MMSEG4J分词工具包进行分词，将中文文本信息划分为一个个词，这是处理中文文本信息的关键步骤。即得到如图5所示的分词处理后的文本。

文本中出现多次并且与文本内容无关的词称为停用词，如“的”、“啊”，“但是”等虚词、无实际意义的实词、连词、语气助词、介词、代词等，这些词几乎出现在每篇文本中，可以将这些词整理到一个停用词表中，在中文分词结束后将这些词删除，得到的文本是文本预处理结束后的文本信息。其中停用词表可以直接来源于百度停用词表。即得到如图6所示的去除停用词处理后的文本。

以训练集文本总数N＝806，A+B＝394，在化工前沿技术类别中，A＝383， B＝11，C＝108，D＝304，p(化工)＝0.609；在非化工前沿技术类别中，A＝11，B＝383， C＝304，D＝108，p(非化工)＝0.391为案例。

由此可得，特征项t与类别C_i的关联性值为：

在统计排序时以其平均值作为比较，其平均值为如下公式：

n为类别C_i的个数，p(c_i)为在训练集的文本类别集合C中占有的概率。统计排序以平均值从大到小进行排序，训练集的文本类别集合C从中，从大到小选取一定数量的特征项。即将得出的每个特征项t的结果按照选择排序算法从大到小排列，如果要选取特征词个数为50时，只需选择从大到小排列的前50个特征词即可。其中会出现，第50个与第51个计算的结果相同，此时就需要对结果进行评测，并进行相应的调整调换，而且即使结果不同，其最后评测也可能出现排在后面的高于排在前50个特征词的。因此需要根据评测调整。具体如下：

由公式(2-10)至公式(2-12)可知，“精馏”的为426.37。其他关键词亦如此，从而可得到数据进行排列，选取需要数量的特征词作为训练集的的文本类别集合的特征项。

102)分类器步骤：将步骤101)处理后的数据由文本分类器处理，即以一篇化工前沿技术报道文本经过此步骤处理后选择特征词个数300个时为例，文本预处理后共有128个词，采用统计处理后，一篇文章就剩37个特征词，大大降低了处理量，提高处理精准度。具体公式如下：

其中，P(C_i|D_j)表示训练集的文本D_j属于某一类别C_i的概率，文档D_j可以用一组该文档的分词{x₁,x₂,…,x_n}表示，即D_j＝{x₁,x₂,…,x_n}由于固定的特征词在文本集中出现的次数是常数，所以公式(3)中分母P(x₁,x₂,,x_n)是常量，因此只需获得公式(3)中分子P(C_i)P(x₁,x₂,…,x_n|C_i)的值，就能判定不同j值时，不同P(C_i|D_j) 值间的大小关系。

因此公式(3)则最终可表示为：

其中，x_j为文档D_j中的一个分词特征项，n为n个特征项；当某一特征项出现在该文本中，就置权重为1，若未出现就置权重为0，测试文本作为事件，并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件。

以案例为例可知：P(C_i)为先验概率，为所有特征项在类C_i中条件概率的乘积，只需计算C(化工)和C(非化工)的值，并比较大小，若C(化工)> C(非化工)，则可得出测试化工前沿技术报道文本属于化工前沿技术类别；否则，为非化工前沿技术类别中。

类别C_i的先验概率可表示为：

用B_xt代表测试文档含有文本特征项t，则得到如下公式：

条件概率1-P(x_j|C_i)的公式为：

以训练集文本总数N＝806，A+B＝394，在化工前沿技术类别中，A＝383，B＝11，C＝108，D＝304，p(化工)＝0.609；在非化工前沿技术类别中，A＝11，B＝383，C＝304， D＝108，p(非化工)＝0.391为例。以训练集文本数806篇，化工前沿技术类491篇，非化工前沿技术类315篇为例，在化工前沿技术类别中，P(化工)＝491/806＝0.609；在化工前沿技术类别中，P(非化工)＝315/806＝0.391。以图3的化工前沿技术报道为例，文本处理后的词如图5所示，t_i为图5中的所有词，所以该测试化工前沿技术报道文本属于化工前沿技术。

103)测试与评价步骤：运用测试集文本测试文本分类器的分类性能，评估其准确率、召回率、综合分类率、宏平均，并进行改进。

其中准确率，也称查准率，获取测试集中有多少文本的分类结果是正确的，体现分类器分类的准确程度，记为P，具体公式如下：

以化工训练集文本为例，常用信息增益的方法与本统计方法进行比较的实验数据如下：

	分类正确文本数	分类错误文本数	正确率
				使用本统计选词方法	196	9	95.5％
未使用任何选词方法	134	66	67％

表1是否使用统计选词差异比较

表2化工前沿技术类别测试

表3非化工前沿技术类别测试

由上表可知，使用统计方法的分类准确率明显高于未使用统计方法的准确率。对于化工事故类别，本统计方法和信息增益特征选择方法选取特征词的个数大小几乎对该类别的分类准确率无影响，而本统计方法准确率更高均可达到98％以上，信息增益特征选择方法处理后略低。对于非化工前沿技术类别，本统计方法和信息增益特征选择方法在特征词个数为300、500、1000时，分类准确率均较高，本统计方法更是均可达到89％以上，而信息增益特征则体现出特征词的影响，虽然均可达到70％以上，但特征词影响较大，特征词个数越多，准确率才越高。

其中查看训练集的文本，可以发现化工前沿技术类别的文本大部分都会涉及“化工、精馏、萃取、液膜”等情况的发生，因此化工前沿技术类别的分类准确率较高；而非化工前沿技术类别的文本包含IT、军事、教育、体育、财经等领域的新闻信息，设计领域较为广泛。非化工前沿技术的测试集分类错误的文本大多是加工化工厂设备、化工厂操作制度说明等，与化工前沿技术的特征及其相似，导致在分类时将其划分到化工前沿技术类别。

104)调整步骤：根据步骤103)的测评结果，调整选择的特征项，进行再次测试评估，直到达到最佳效果。其中上述统计表的对比数据为未进行调整特征词的处理结果。调整后的处理结果数据更高。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种中文文本分类方法，其特征在于，包括测试集文本D和训练集的文本类别集合C，将测试集文本D通过文本分类方法映射到训练集的文本类别集合C；其中D＝{d₁,d₂,…,d_m}，其中C＝{c₁,c₂,…,c_n}，m为文本数，n为文本类别数，具体处理步骤如下：

其中，统计采用特征项t与类别C_i的相互关联性进行排序统计，具体包括四种统计：属于类别C_i且包含特征项t的文本数集A，不属于类别C_i但包含特征项t的文本数集B，属于类别C_i但不包含特征项t的文本数集C，不属于类别C_i且不包含特征项t的文本数集D；C_i表示分词后去除相近分词的文本类别集合中的其中一个类别，i为类别标识，其小于等于分词后的分词数量；特征项t为具体的分词；

由此可得，特征项t与类别C_i的关联性值为：

在统计排序时以其平均值作为比较，其平均值为如下公式：

统计排序以平均值从大到小进行排序，训练集的文本类别集合C从中，从大到小选取一定数量的特征项；

其中，P(C_i|D_j)表示训练集的文本D_j属于某一类别C_i的概率，文档D_j用一组该文档的分词{x₁,x₂,…,x_n}表示，即D_j＝{x₁,x₂,…,x_n}由于固定的特征词在文本集中出现的次数是常数，所以公式(3)中分母P(x₁,x₂,…,x_n)是常量，因此只需获得公式(3)中分子P(C_i)P(x_1,x₂,…,x_n|C_i)的值，就能判定不同j值时，不同P(C_i|D_j)值间的大小关系；因此公式(3)则最终可表示为：

条件概率1-P(x_j|C_i)的公式为：

在训练集中，若类别C_i中的所有文本都不含有特征项x_j，则n_ij是0，从而P(x_j|C_i)的值是0，故需要采用加入平滑因子的方法，得如下公式：

103)测试与评价步骤：评估分类器的准确率、召回率、F1值、宏平均，调整训练集的文本类别集合C；

104)调整步骤：根据步骤103)的测评结果，调整选择的特征项，进行再次测试评估，直到达到预设效果。

2.根据权利要求1所述的一种中文文本分类方法，其特征在于：文本标记处理为用正则表达式去除文中的中文符号、数字和英文，去除中文符号的正则表达式可表示为：[^\\u4e00-\\u9fa5\\w]，去除数字和英文的正则表达式为：[a-zA-Z\\d]，并用空格代替。

3.根据权利要求1所述的一种中文文本分类方法，其特征在于：采用MMSEG4J分词工具包进行分词；停用词为文本中出现多次并且与文本内容无关的词，将停用词整理到停用词表中，并在分词结束后将其删除。

4.根据权利要求1所述的一种中文文本分类方法，其特征在于：

准确率，也称查准率，获取测试集中有多少文本的分类结果是正确的，体现分类器分类的准确程度，记为P，具体公式如下：