CN106570076A

CN106570076A - 一种计算机文本分类系统

Info

Publication number: CN106570076A
Application number: CN201610905152.5A
Authority: CN
Inventors: 何正娣
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2017-04-19

Abstract

本发明公开了一种计算机文本分类系统，包括文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块。本发明以信息论为基础，对分类的过程进一步细化，明确了分类系统中各个模决的功能，确保分类的效率以及分类处理率，加入了效果完善模块，提高分类处理的正确率。

Description

一种计算机文本分类系统

技术领域

本发明涉及一种人工智能领域，涉及一种文本分类系统。

背景技术

文本分类作为信息过滤、信息检索、文本数据库、数字化图书馆和邮件分类等领域的技术基础，有着广泛的应用前景。网络的发展与普及，大大方便了我们获取信息。然而大量信息给人们对信息的处理带来的很多困难，无法快速地得到所需的信息，同时还会带来一些反面信息。信息过滤技术可以用来解决这些问题，信息过滤的本质是一个分类问题，既可以用来将用户反感的信息滤掉，也可以用来将用户感兴趣的信息过滤出来。现有的文本分类系统处理的效率过低，分类的效果不佳，错误率过高。

本发明的主要目的是提供一种高效率、分类处理率高、正确率高的文本分类系统。

发明内容

有鉴于此，本发明要解决的技术问题是提供一种文本检索分类特征选择方法，用于解决上述提出的无法解决的问题。

为达到上述技术方案的效果，本发明的技术方案为：一种计算机文本分类系统，包括文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块；

文本预处理模块主要对文本进行预处理，首先对输入的文本利用分词软件将文本断开，将标点符号、空格去除，分割成词语集合，接着对词语集合进行进一步的处理，将无意义的词语去除，形成精简词语集合；

文本特征提取模块的主要根据是特征选择方法，首先从精简词语集合中产生出特征词语子集，产生特征词语子集的过程是不停搜索的过程，搜索的算法采用分支限界搜索算法，然后用基于遗传算法的评价函数对产生的特征词语子集进行评价，得到评价值，并将评价值与停止的阈值进行比较，若评价值比停止的阈值大则停止搜索，否则就继续搜索，经过评价能过滤产生新的特征词语子集，利用互信息法计算特征词语出现的频率，综合特征词语出现的频率，得到特征词语与频率之间的映射表；

文本训练处理模块对特征词语与频率之间的映射表进行处理，随机选取其他文本，计算逆文档指数，将逆文档指数作为输入，依靠训练分类器计算特征词语的权重值，从而得到词语权重矩阵；

分类处理模块根据所述词语权重矩阵，利用SVM分类算法设置分类的类别区间，将词语进行分类，得到词语分类向量集合，一个类别的词语属于词语分类向量集合中的同一个向量；

文本种类标记模块用于对所述词语分类向量集合进行标记，建立词语的类别标记表，词语的类别标记表中用特殊的符号值作为词语类别的标记值，将标记值加入词语分类向量集合得到标记过的词语分类向量集合；

效果完善模块对标记过的词语分类向量集合进行错误统计，统计的过程为一个随机样本抽取过程，根据词语的分布律进行排序，排序在前30％的区域为重点抽取的区域，对抽取的样本的分类效果进行测试，利用冗余参数进行调整，若调整的频率过高，说明分类的效果不够好，重回文本特征提取模块，对阈值进行修改重新进行特征提取直到将调整的频率降到安全的范围内。

附图说明

图1为一种文本分类系统的结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明的保护范围之内。具体方法如下：

实施例一：文本分类常用的方法为特征选择。这类特征具有较强的类别区分能力，会集中出现在某一类或某几类中。因此，当一些词语出现在文本中时，能具有很大把握确定这些文本是属于哪一类或哪几类。不同的特征对文本的类别有不同的表达能力，显然特征选择就是要选择出对文本的类别有较强表达能力的特征。这种能力称之为文本类别区分度，也即是特征区分类别的能力。

特征的文本类别区分度就是特征中包含类别信息量的大小。包含的文本类别信息量大，其文本类别区分度就大；反之，其文本类别区分度就小。直观上说，是通过一个特征在文档中出现与否，来判定该文档的类别属性的能力。具体地，如果一个特征在文档中出现与否对判定该文档的类别没有丝毫影响，那么该特征对文本分类没有意义，那么该特征的区分类别能力很小，特征选择对其的评价值应该是很小的。

特征的文本类别区分度越大，特征携带的类别信息量就越多，那么是否某个特征有大的类别区分度就是对分类很有用的特征。例如一个特征词只出现在医药类别中，其类别区分度达到最大。然而，该特征为稀有词，极少出现在文本中。如果把这类词语选择为特征，那么该特征在其它文本中根本不出现，即所有文本的特征向量在该维度上均为零。这也就导致了文本分类中经常遇到的矩阵稀疏的问题，从而产生过拟合现象，这种现象产生的原因为过分依赖于训练集。因此，进行文本的特征选择时，应该尽量选择高频词，即考虑特征的一般性，这称之为特征的泛化能力。显然地，文本类别区分度大的且泛化能力强的特征是对分类最为有用的特征，而区分度小、泛化能力弱的特征则是最无用的特征。类别区分度大而泛化能力弱的特征在高维的时比较有用，因为有足够的特征来避免数据稀疏问题以保证召回率，而有更好的区分性的特征有助于提高分类的准确率。类别区分度小且泛化能力强的特征在低维的时候比较有用，因为在数据稀疏的情况下，虽然特征区分类别的能力不强。

实施例二：寻找冗余参数值，能优化其文本分类效果。对于整个文本分类系统，该算法考虑不同的冗余参数值，用训练集估计每个冗余参数值的分类效果指标。通过使用交叉验证，得到评价指标的均值和方差的估计值，并在两个系统统计显著性。最佳的冗余参数值就是相对于在A＝0(即信息增益特征选择)时得到最高的统计显著性。对于每一个冗余参数，使用训练集对文本分类系统进行交叉验证。将训练集随机地平均分成若干份，选择一份用做验证测试集，其余用做验证训练集。用验证训练集对特征选择和分类算法组成的系统进行训练，再用验证测试集得到文本分类效果，计算评价指标。按照比例将验证集切分成训练集和测试集循环进行重复实验。例如：做四路交叉验证，将训练集平分成四份。第一次，验证训练集使用1，2和3标号子集，第4标号子集作为验证测试集，下一次实验，使用1，2和4标号作为训练集，第3标号作为测试集。

针对不同的冗余参数值，对实验效果指标的均值和方差进行检验。从本文的实验来看，使用四路交叉验证已经足够。使用更多的交叉验证并不能明显增强效，更多的交叉验证虽然能对均值和方差有更好的估计，但同时也增加了训练时间的消耗。考虑两个冗余参数，分别对其进行交叉验证，各自得到一组效果指标数据。定义显著统计检验为使用一个冗余参数比使用另一个冗余参数有更好的效果。算法从初始值开始，测试不同的冗余参数直到发现一个最佳值。当某个冗余参数值的统计显著最高时，则认为它是一个最佳值。

从信息理论的角度定义了特征选择的过程就是从候选特征集中选择出与类别标签的互信息最大的特征子集的过程。在此基础上，比较了四种互信息特征选择方法的近似算法。由于除信息增益外，所有文本分类算法都需要冗余参数，因此需要一种包装式搜索冗余参数最佳值的算法。从比较结果来看，对于使用冗余参数使用固定值0.4，在各种情况下均有不同程度的提高，在某些情况下改善较为明显。由此也进一步证实了冗余参数与选取的特征数和使用的分类算法是相关的。

实施例三：根据以前的文本分类算法评价实验，以Rochcio、KNN和SVM特点最为突出，其中KNN、SvM方法的分类正确率较高，Rochcio方法的时间复杂度和空间复杂度最低，因此本文主要对这三种方法进行了分析、比较。

Rochcio分类器是基于向量空间模型和最小距离的方法，其最大特色是具有良好的反馈功能，能够根据其公式对分类的向量空间进行修正。此方法最早由Hull在1994年提出，从那以后，Rochcio方法就被广泛应用起来。Roeehio公式为：

其中W′_jc：类C中心向量的权重，β为训练样本中正例的个数，γ为训练样本中反例个数。

向量距离度量公式为：

Rochcio方法原理简单，计算迅速。计算步骤是：将文本表示为向量空间中的高维向量，按照训练集中正.例的向量赋予正权值，反例的向量赋予负权值，相加平均以计算每一类别的中心。对于属于测试集的文本，计算它到每一个类别中心的相似度，将此文本归类于与其相似度最大的类别。由其计算过程可见，如果对那些类间距离比较大而类内距离比较小的类别分布情况，Rochcio分类器能达到较好的分类精度，而对于那些达不到这种“良好分布”的类别分布情况，Rochcio分类器方法效果比较差。但由于其计算简单、迅速，所以这种方法经常被用于对分类时间要求较高的应用之中，并成为和其他分类方法比较的标准。此分类器的一般实现步骤以及评价过程可以表示如下：

类中心计算式为：

其中，n_i是第L_i类中文本的数目，而D_ij是类别L_i的第j个文本向量。在确定文本的类别后，系统在文本库的限定范围内找到相关的文本推荐给用户。系统使用降维后的特征向量空间进行文本表达，使用TFDIF进行特征项加权。为了减小索引和匹配计算量，使用TFDIF值最高的20维特征项表示文档D：

D＝[z1，TFIDF(z1)，Z2，TFIDF(z2)，…，Z20，TFID)F(z20)]

文本分类任务可以看作是在表中填写{0，1}，横坐标是一系列的类别，而纵坐标是一些文档，每篇文档与每个类别都对应有一个数字，O代表此文档不属于此类别，而1代表此文档属于此类别。为了减少实验中的不确定环节，还需要对此分类过程进行更加精确的说明。

自动文本分类有两种典型的测试方法，一种是训练一测试方法，第二种是k分交叉评价方法。训练一测试方法是经典的评价方法，它将初始样本集合T分成训练集合和测试集合两部分，使用训练集合进行特征选择和分类器训练，使用测试集合对分类器进行测试。而k分交叉评价方法将初始样本集合分成k份{1T，TZ，...，Tk}，进行k次测试，最后取它们的平均值作为最终结果。

Ttria＝T-T_i，Ttes＝T_i，i＝1，2，...，k

k分交叉评价方法常用于初始样本集合很小的情况，目的是充分利用初始样本进行训练。最严格也最精确的交叉评价方法是L00法，假设有m个样本，每次使用一个样本作为测试样本，其余的样本都作为训练样本，最后将m次测试的平均值作为最终结果。

上述实施例对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，能实现同样功能的产品属于等同替换和改进，均包含在本发明的保护范围之内。

本发明的有益效果是：本发明以信息论为基础，对分类的过程进一步细化，明确了计算机文本分类系统中各个模块的功能，确保分类的效率以及分类处理率，加入了效果完善模块，提高分类处理的正确率。

Claims

1.一种计算机文本分类系统，其特征在于，包括文本预处理模块、文本特征提取模块、文本训练处理模块、分类处理模块、文本种类标记模块以及效果完善模块；

计算机中的计算部分首先对所述文本预处理模块主要对输入的文本进行预处理，首先对所述输入的文本利用分词软件将文本断开，将标点符号、空格去除，分割成词语集合，接着对所述词语集合进行进一步的处理，将无意义的词语去除，形成精简词语集合；

所述文本特征提取模块的主要根据是特征选择方法，首先从所述精简词语集合中产生出特征词语子集，产生所述特征词语子集的过程是不停搜索的过程，搜索的算法采用分支限界搜索算法，然后用基于遗传算法的评价函数对产生的所述特征词语子集进行评价，得到评价值，并将所述评价值与停止的阈值进行比较，若所述评价值比所述停止的阈值大则停止搜索，否则就继续搜索，经过评价能过滤产生新的特征词语子集，所述新的特征词语子集由特征词语组成，利用互信息法计算所述特征词语出现的频率，综合所述特征词语出现的频率，得到所述特征词语与所述特征词语出现的频率之间的映射表；

所述文本训练处理模块对所述特征词语与所述特征词语出现的频率之间的映射表进行处理，随机选取其他文本，计算逆文本频率指数，将计算后的逆文本频率指数作为输入，依靠训练分类器计算所述特征词语的权重值，从而得到词语权重矩阵；

所述分类处理模块根据所述词语权重矩阵，利用SVM分类算法设置分类的类别区间，将所述精简词语集合中的词语进行分类，得到词语分类向量集合，一个类别的词语属于所述词语分类向量集合中的同一个向量；

所述文本种类标记模块用于对所述词语分类向量集合进行标记，建立词语的类别标记表，所述词语的类别标记表中用特殊的符号值作为词语类别的标记值，将所述词语类别的标记值加入词语分类向量集合得到标记过的词语分类向量集合；

所述效果完善模块对所述标记过的词语分类向量集合进行错误统计，统计的过程为一个随机的样本抽取过程，首先将所述标记过的词语分类向量集合中的标记过的词语分类向量提取，并根据词语的分布律进行排序，排序在前30％的区域为重点抽取的区域，对抽取的样本的分类效果进行测试，并且利用冗余参数进行调整，若调整的频率过高，说明分类的效果不够好，重新回到所述文本特征提取模块，对所述阈值进行修改重新进行特征提取直到将所述调整的频率降到安全的范围内。