CN106021578B

CN106021578B - 一种基于聚类和隶属度融合的改进型文本分类算法

Info

Publication number: CN106021578B
Application number: CN201610380813.7A
Authority: CN
Inventors: 徐小龙; 彭玉霞
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Shenzhen Shang Mi Network Technology Co., Ltd.
Priority date: 2016-06-01
Filing date: 2016-06-01
Publication date: 2019-07-23
Anticipated expiration: 2036-06-01
Also published as: CN106021578A

Abstract

本发明公开了一种基于聚类和隶属度融合的改进型文本分类算法，该算法将待分类文本和训练文本集中的训练文本用向量空间表示，通过聚类算法将各个类别中的训练文本聚类，并合并同一个簇内的训练文本，形成新的文本向量，利用新的文本向量与待分类文本向量进行计算，从而得到待分类文本与各个类别的相似度以及待分类文本隶属各个类别的程度，将两者相加，最大值对应的类别即为待分类文本的类别。聚类算法在不裁剪原始样本数量的基础上减少文本分类算法执行的时间复杂度，隶属度改进了待分类文本的分类判定方式，考虑训练文本密度对分类判定的影响，提高文本分类的准确率，本发明有效解决了文本分类的算法时间复杂度和分类准确率问题。

Description

一种基于聚类和隶属度融合的改进型文本分类算法

技术领域

本发明涉及一种适用于类域的交叉或重叠较多的文本分类算法，具体涉及一种基于聚类和隶属度融合的改进型文本分类算法，属于文本分类技术领域。

背景技术

随着文本数据信息的指数增长，文本分类技术在现代信息处理领域得到广泛发展，涉及的领域包括垃圾邮件过滤、新闻分类、电子商务、网络舆情监控等。文本分类方法根据其内容所包含的知识、特点、模式将自然语言描述的文本进行特征提取，表示成机器可识别的语言，并为文本建立描述模型。目前的文本描述模型主要包括布尔逻辑模型(BooleanModel)、向量空间模型(Vector Space Model，VSM)、概率模型(Probabilistic Model)、概念模型(Conceptual Model)等。通过各种文本分类算法，可根据文本特征自动划分文档所属类别。

目前的文本分类算法有朴素贝叶斯(Native Bayes)、K邻近算法(K NearestNeighbor，KNN)、支持向量机(Support Vector Machine，SVM)、人工神经网络(ArtificialNeural Network，ANN)等。其中大多数方法采用向量空间模型(VSM)将文本向量化为向量空间的点，采用向量夹角距离，向量内积或者欧几里得几何距离判定文本相似度。

朴素贝叶斯是基于统计的文本分类方法，对文本数据和数值数据的分类效果较好，但是只有在各个属性之间相互独立的条件成立时才能实现较高准确度分类，否则准确度可能较低；支持向量机是基于统计的机器学习方法，准确率高，对高维数据和稀疏数据不敏感，且能很好获得文本的内在特征，但是对于非线性问题，核函数选择很困难；人工神经网络是基于连接的方法，模拟人脑神经系统的组织特点构成信息处理系统，具有很强的鲁棒性和容错性，适应性好，运行速度快，但是算法复杂度高，构造复杂，规模庞大；KNN算法是基于统计的分类方法和经典的统计模式识别方法，在向量空间模型下有最好的分类效果，思路简单，容易实现，但是在计算相似度时特征向量维数高，影响计算时间且各维权值和维数密度影响分类精度。

近年来许多学者提出对文本分类算法的诸多改进，一般是针对训练文本集的规模进行缩减以降低文本分类算法的时间复杂度。例如利用基于密度的样本裁剪方法以降低文本分类的计算量；利用基于隐含语义的改进算法使得词与文档的语义关系加强，向量空间大幅度缩减，提高文本分类的准确率；选择样本基准点，根据样本距离建立索引表以缩小查找范围，提高分类速度；使用基于特征词缩减的文本分类改进方法提高分类效率和性能。这些改进的文本分类算法直接降低样本维数以减少计算量或者减少样本数量，从而提高分类效率。特征维数的减少或样本裁剪过多都会引起分类的准确率严重下降。

此外，对于文本分类算法本身，在进行分类时训练样本分布密度的影响，单纯利用个训练样本的相似度相加或者计算待分类文本与每个类别中心向量的相似度并不足以大幅度减少分类判定时造成的误差。目前，还没有在训练集样本数量以及样本分布密度方面综合考虑的文本分类算法。

发明内容

本发明所要解决的技术问题是：提供一种基于聚类和隶属度融合的改进型文本分类算法，将聚类算法和文本隶属度相结合，从而改进了文本分类算法的时间复杂度和准确率。

本发明为解决上述技术问题采用以下技术方案：

一种基于聚类和隶属度融合的改进型文本分类算法，包括如下步骤：

步骤1，获取多个类别的训练文本，组成训练文本集；对待分类文本以及训练文本集中各训练文本进行分词，并对词进行预处理，预处理后提取文本特征词组成多维度空间向量，将待分类文本以及训练文本集中各训练文本用向量表示；

步骤2，在步骤1的基础上，利用聚类算法对每个类别中的训练文本向量进行聚类，设定每个类别聚类形成的簇的数目相同；

步骤3，将每个类别中同一个簇内的所有训练文本向量进行合并，得到新的文本向量，从而每个类别中新的文本向量的个数与步骤2设定的簇的数目相同；

步骤4，计算待分类文本向量与步骤3得到的新的文本向量的相似度，并按相似度由大到小进行排序，选出相似度最大的前M个新的文本向量；将前M个新的文本向量中属于同一类别的文本向量的相似度相加，各个类别相加后的结果除以对应类别中新的文本向量的总个数，得到待分类文本与对应类别的相似度；

步骤5，计算步骤3合并后每个类别的中心向量，以及每个类别中新的文本向量到中心向量的平均距离；计算待分类文本向量与每个类别的中心向量的距离，用上述平均距离除以该距离，得到待分类文本隶属各个类别的程度；

步骤6，将步骤4得到的待分类文本与对应类别的相似度与步骤5得到的待分类文本隶属各个类别的程度相加，选出最大值，该最大值对应的类别即为待分类文本的类别。

作为本发明的一种优选方案，步骤1所述预处理包括停用词过滤、非法字符过滤、稀有词处理和近义词处理。

作为本发明的一种优选方案，步骤1所述提取文本特征词的方法为CHI概率统计法。

作为本发明的一种优选方案，步骤2所述每个类别聚类形成的簇数满足以下条件：该簇数小于训练文本数最少的类别中训练文本的个数，且该簇数大于M。

作为本发明的一种优选方案，步骤4所述相似度sim的计算公式为：

其中，O＝(x₁,x₂,…,x_n)表示待分类文本向量，T＝(y₁,y₂,…,y_n)表示新的文本向量，n表示维数，d(O,T)表示O与T的欧氏距离。

作为本发明的一种优选方案，步骤5所述中心向量S和平均距离Dis的计算公式为：

其中，d_tj表示类别C_j的第t个新的文本向量，p表示每个类别中新的文本向量的个数。

作为本发明的一种优选方案，步骤5所述待分类文本向量与每个类别的中心向量的距离的计算公式为：

其中，O＝(x₁,x₂,…,x_n)表示待分类文本向量，S_j＝(z₁,z₂,…,z_n)表示类别C_j的中心向量，n表示维数。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、计算待分类文本与每个训练集文本的相似度时，时间复杂度与训练集中的文本数成正比。当训练集过大时，文本分类算法执行速度将大幅度下降，失去实用性。但是，采取直接删减样本数或大量降低特征维数的方法以减少文本分类算法的计算量会严重影响分类的准确率。本发明采用聚类算法将相似度较高的文本归为同一簇中，并确保同一簇中文本相似度高而不同的簇之间文本相似度低，该方法有效减少原始样本的个数，可以提高算法执行效率，缩减时间复杂度，削弱了待分类文本的分类判定受到单个训练样本的影响。

2、本发明中对于每个类别中相似文本聚成的簇的改进并不是裁剪文本，而是将文本进行串接合并，这样可以最大限度保证原始样本不发生大幅度改变，削弱了待分类文本的分类判定受到单个训练样本的影响，从而在降低计算量的基础上不影响分类的准确率。

3、本发明中隶属度是对文本分类算法原理进行改进，训练文本分布的密度会对待分类文本的判定造成误差，训练文本密度越大，待分类文本与之计算的相似度之和也越大，导致本该属于其他类别的待分类文本属于该类别，产生误判。隶属度添加了类别平均距离与待分类文本到中心向量的距离的比值，该比值反应待分类文本属于某类别的程度，比值越大，说明待分类文本隶属该类别的程度越深，就越可能属于该类别。因此本发明的隶属度能提高分类准确率。

附图说明

图1是本发明基于聚类和隶属度融合的改进型文本分类算法的流程图。

图2是使用聚类算法将同一类别中的文档形成新的文本向量的过程图。

图3是类别中心向量图。

图4是训练文本密度对待分类文本的影响图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明要解决的问题是减少文本分类算法执行的时间复杂度，提高待分类文本被划分类别的准确度。现有的提高分类速度的改进算法是直接裁剪原始样本数或者降低特征维数，而且这些算法并没有考虑待分类文本进行分类判定时的误差，即隶属度的深浅问题，因此分类准确率会严重下降。本发明提供一种基于聚类和隶属度融合的改进型文本分类方法，将聚类和隶属度进行结合，聚类算法在不裁剪原始样本数量的基础上减少文本分类算法执行的时间复杂度，隶属度改进了待分类文本的分类判定方式，考虑训练文本密度对分类判定的影响，提高文本分类的准确率。这两种方法充分考虑了样本规模与分类速度成负相关性，与分类准确率成正相关性的情况，并考虑样本密度。因此无论在算法的时间效率还是在准确率上都取得更好的效果。

如图1所示，为本发明基于聚类和隶属度融合的改进型文本分类算法的流程图。在算法执行时，聚类各个类别中的样本，并将形成的簇中的样本进行简单连接形成新的文本向量，以缩减原始样本的个数提高执行效率并削弱待分类文本的分类判定受到单个训练样本的影响；在分类判定过程中不仅计算文本相似度，还考虑训练文本密度对隶属度深浅的影响，从而提高算法的准确率。

本发明首先是将训练文本进行分词，再进行预处理并将训练文本用空间向量表示，同样的方法处理待分类文本。之后用聚类算法降低原始样本规模，再计算待分类文本与可能所属类别的隶属度，结合隶属度与文本相似度进行判定分类。本发明使用的聚类算法不仅对原始样本的特征无太大影响而且在此基础之上缩减了训练集规模，削弱了待分类文本的分类判定受到单个训练样本的影响。训练文本的分布情况对待分类文本的分类判定造成一定偏差，隶属度是待分类文本属于某一类别的程度，计算隶属度可在一定程度上缩小误差，使分类准确率挺高。本发明算法的具体流程为：

1、将训练文本集进行分词，并进行预处理：停用词过滤、非法字符过滤、稀有词处理、近义词处理；预处理后提取训练文本集中的特征词汇组成相应的多维度空间，每个训练文本用空间向量表示。

首先将文本进行分词，分词预处理后提取文本特征词，目前主要有7种方法：互信息、信息增益、期望交叉熵、几率比、文本证据权、词频法以及CHI概率统计。实验表明CHI性能较好，充分考虑了提取的特征词对文本的贡献，可采用CHI进行特征词提取；最后利用提取的特征词构造空间向量表示文本。待分类文本以相同的方式处理。

2、使用聚类算法将每个类别中相似度较高的文本归为同一簇，规定每个类别中的所有样本聚类成p个簇。处理步骤如下：

Step1.对于训练样本集中的每个类别，选择p个文本向量作为初始的簇中心向量；

Step2.在每个类别中计算剩余文本向量与Step1中选择簇中心向量的文本相似度，并归类到相似度最高的簇中形成聚类；

Step3.计算每个簇中包含的文本的平均相似度，计算结果作为新的簇中心向量；

Step4.将每个类中的所有训练文本按照新的簇中心向量重新聚类；

Step5.重复Step4，直到聚类结果不再改变。

假设某一类别中有N个训练文本，则p≤N。通常情况下p的理想数值介于M和训练文本数最少的类别中的文本数之间，M是与待分类文本相似度最高的训练文本的个数。

3、将同一个簇内的所有文本进行合并，形成中心文本，即新的文本向量，从而每个类别的样本数减少到p份，如图2所示。

同一簇内的文本向量具有较大的相似度，因此有绝大部分的维度是重合的，这使得簇内向量空间出现冗余现象。可以通过简单的文本合并将多余重复的维度去掉，即相同或意义相近的特征词只保留一份，进而将同一簇内所有样本合并成一个新的文本向量空间。该方法在减少样本数的同时最大限度保证有效特征词数目不变，从而对分类判定的准确率影响降到最小。这样，同一簇内的文本数量降低到p，总体看来原始训练文本集规模大幅度缩减，但总体特征与裁剪文本相比变化很小。因此聚类算法在缩小训练文本集规模的同时对文本分类算法进行分类判定时的影响很小。

4、计算待分类文本向量与所有新的文本向量的相似度，按照计算结果的大小顺序对相应的训练文本进行排序，选出相似度最大的M个新的文本向量，并根据M个新的文本向量所属类别确定可能划分的所有类别。

计算文本相似度的方法通常有向量内积、夹角余弦、欧式距离。本发明采用欧式距离计算文本之间的相似度。设待分类文本的空间向量表示成O＝(x₁,x₂,…,x_n)，新的文本向量的空间向量表示成T＝(y₁,y₂,…,y_n)，O与T的欧氏距离为：

用式(1)的倒数代表待分类文本与新的文本向量的相似度，即：

式(2)按计算结果由大到小排列，根据结果最大的前M个新的文本向量确定待分类文本可能隶属的类别。

5、对于M个新的文本向量，将属于相同类别的新的文本向量的相似度相加，计算结果比上该类文本对应类别中的所有新的文本向量的个数，即p，得到待分类文本与对应类别的相似度。

根据式(2)计算结果计算待分类文本与类别的相似度。设待分类文本O的M个邻近训练文本中，属于类别C_j的新的文本向量有g个，则O与C_j的相似度为：

6、计算每个类别的中心向量和该类别各个文本到中心向量的平均距离，类别中心向量如图3所示。

中心向量求法：设C_j是训练文本集中的一个类别，d_tj是类别C_j的一个新的文本向量，则类别C_j的中心向量S_j为：

同一类别中各个文本向量到对应中心向量的平均距离反应该类别中文本的分布情况，设平均距离为Dis(d_j,S_j)，其中，d_j是C_j中以S_j为中心向量的文本向量，Dis(d_j,S_j)求法：

7、计算待分类文本到步骤6中求出的所有类别的中心向量的距离，用上述步骤6中计算的类别平均距离比上该距离。

待分类文本O的空间向量表示为O＝(x₁,x₂,…,x_n)，类别C_j的中心向量S_j表示为S_j＝(z₁,z₂,…,z_n)，O与S_j的距离：

各类文本到中心向量的平均距离比上O到S_j的距离：

该结果表明了待分类文本对类别的隶属度，值越大，表明隶属度越深，就越可能属于该类。如图4所示，因为多边形的密度大，五星本该隶属三角形，但被判定为多边形。隶属度添加了类别平均距离与待分类文本到中心向量的距离的比值，该比值反应待分类文本属于某类别的程度，比值越大，说明待分类文本隶属该类别的程度越深，就越可能属于该类别。因此，隶属度提高了分类准确率。

8、将式(3)和式(7)对应类别的计算结果相加，选出最大值，最大值对应的类别即为待分类文本的类别。

最终的比较结果是待分类文本与类别相似度加上平均距离与其到中心向量的距离进行比较：

φ＝simclass(O,C_j)+Q(O,S_j) (8)

待分类文本的类别是φ值最大者对应的类别。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于聚类和隶属度融合的改进型文本分类算法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤1所述预处理包括停用词过滤、非法字符过滤、稀有词处理和近义词处理。

3.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤1所述提取文本特征词的方法为CHI概率统计法。

4.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤2所述每个类别聚类形成的簇数满足以下条件：该簇数小于训练文本数最少的类别中训练文本的个数，且该簇数大于M。

5.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤4所述相似度sim的计算公式为：

6.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤5所述中心向量S和平均距离Dis的计算公式为：

7.根据权利要求1所述基于聚类和隶属度融合的改进型文本分类算法，其特征在于，步骤5所述待分类文本向量与每个类别的中心向量的距离的计算公式为：