CN103345528A

CN103345528A - 一种基于关联分析和knn的文本分类方法

Info

Publication number: CN103345528A
Application number: CN2013103120180A
Authority: CN
Inventors: 成卫青; 范恒亮; 杨庚; 黄卫东; 梁胜
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2013-07-24
Filing date: 2013-07-24
Publication date: 2013-10-09
Anticipated expiration: 2033-07-24
Also published as: CN103345528B

Abstract

本发明提供一种基于关联分析和KNN的文本分类方法，用于解决基于传统KNN的文本分类方法存在的效率和准确率有待进一步提高的问题；本发明是一种策略性方法考虑到被测文档与近邻文档向量的特征属性会重合较多，本发明提出一种基于关联分析和KNN的文本分类方法该方法基于对各个类别文本进行关联分析的结果，快速确定未知类别文本合适的近邻数k，并在已知类别的文本中选取k个近邻，进而根据近邻类别确定未知文本的类别，改进了基于传统KNN的文本分类方法k值难以确定及时间复杂度高的不足，提高了文本分类的效率和准确率。

Description

一种基于关联分析和KNN的文本分类方法

技术领域

本发明涉及文本挖掘技术领域，特别涉及一种基于关联分析和KNN的文本分类方法。

背景技术

随着计算机技术的发展以及网络的普及，网络文本的数量在急剧增长，以前人工方法筛选文本进行分类的方法已经不适合了，迫切地需要一种快速高效的收集资料并整理所需信息的技术，这样就产生了文本分类技术。文本分类是指在给定分类体系下，根据文本的内容将其分到相应预定义类别中的过程。文本分类过程实际上是对文本的模式特征进行识别，其中的关键技术包括文本预处理、特征提取、分类模型等。

目前比较常用的文本分类算法有：朴素贝叶斯、支持向量机、神经网络、决策数、k-最近邻（K-Nearest Neighbor）等方法。其中，基于经典KNN的文本分类方法简单有效，是分类效果最好的方法之一，但也有一些明显的缺点：第一，确定待分类文本的类别时，需要计算其与训练样本集合中全部样本的相似度，之后从中选出与其相似度最高的前k个样本，一般情况，文本分类时的训练样本常常规模很大，由于在成千上万训练样本上计算与待分类文本的相似度，随着训练样本数目的增加，分类性能就会很快下降。第二，它是一种懒惰的文本分类学习方法，在对测试样本分类时计算量大，消耗的时间较多，随着训练样本规模的增加，分类耗时急剧上升，造成分类时间是非线性的；第三，在选取待分类文本的近邻数目k时，没有一种较好的广泛适应的方法，k的选取对待分类文本的类别判定起到很重要的作用，k取得过大或过小都会降低文本分类的准确性。

基于传统KNN方法的文本分类主要包括如下过程：

(1)文本的预处理，主要包括分词、去除停用词等；

(2)特征选择，即从经预处理得到的数量仍然较大的特征词中进行筛选，选取对分类较重要的特征词。特征词选取可以分为全局选取（不分类别，将所有的词权重进行排序，选取前若干个，如1000个）和基于各个类别的选取（一般每个类别选取同样数量的特征词，如每个类别选取100个）两种。特征选择主要方法有：互信息、交叉熵、信息增益、χ2统计方法、文本证据权等；

(3)扫描并统计每一篇训练文本在所有特征空间中的向量，采用TF-IDF的方法确定向量中每一维的权重；

(4)对于一篇待分类的文本，也称测试文本，提取特征词并计算文本向量的各维权重，之后计算该文本与每一篇训练文本的相似度，一般采用余弦距离的方法：

sim (d_{i,} d_{j}) = \frac{Σ_{k = 1}^{M} w_{ik} * w_{jk}}{\sqrt{(Σ_{k = 1}^{M} {w_{ik}}^{2}) * (Σ_{k = 1}^{M} {w_{jk}}^{2})}} - - - (1)

其中w_ik为文本向量d_i的第k维属性权重，M是文本特征向量的维度；

(5)将所有文本相似度按降序排列，选出与测试文本最相邻的k个训练文本；

(6)基于测试文本与其k个近邻的相似度，以及k个近邻的类别，计算测试文本属于每一个类别的权重：

μ_{j} (X) = Σ_{i = 1}^{k} μ_{j} (X_{i}) sim (X, X_{i}) - - - (2)

其中，μ_j(X_i)∈{0,1}含义为文本X_i是否属于C_j；sim(X,X_i)表示测试文本X与训练文本X_i的相似度。决策方法为：如果μ_l(X)=maxμ_j(X)，则决策X∈C_l，即类别权重最大的作为测试文本的所属类别。

发明内容

本发明目的在于提供一种基于关联分析和KNN的文本分类方法，用于解决基于传统KNN的文本分类存在的效率和准确率有待进一步提高的问题。

本发明解决其技术问题所采用的技术方案是：本发明是一种策略性方法。考虑到通常情况下，基于KNN的文本分类为了获取与待分类文本的k个最近邻，一般必须将待分类文本与训练集中的每个文本进行相似度计算，之后通过排序获得待分类文本的k个最近邻，这样会严重影响方法的执行速度。本发明针对基于经典KNN的文本分类方法的不足，提出利用关联分析对基于KNN的文本分类方法进行改进，能够降低方法的时间复杂度和提高分类的准确性。

方法流程：

本发明提出一种基于关联分析和KNN的文本分类方法，包括两大步骤（1）基于关联分析提取频繁特征词集合及其关联的训练文本；（2）利用关联分析结果，确定待分类文本的初始近邻并确定最终的近邻数K，再利用KNN进行文本分类，如图1和图2所示，具体步骤包括：

步骤I.基于关联分析提取频繁特征词集合及其关联的训练文本

步骤(1)设文本类别总数为m，类别为c₁,c₂,...,c_m，对训练集中的文本进行预处理，利用χ²统计方法，对训练集中各类别文本分别选取一定数量，记为N_f，的特征词（例如每个类别取50个特征）；

步骤(2)扫描所有训练文本，将每个文本表示为由所有类别的特征词构成的m·N_f维文本向量，利用TF-IDF和基于χ²统计方法的特征评价函数计算特征权重，将权重设为：TF-IDF*特征评价值；

步骤(3)提取每个类别的频繁特征集及其关联的文本；本步仅考虑每个训练文本所属类别的特征，其余的暂且忽略；对每个类别分别处理，包括如下步骤：

步骤(31)将该类别的每个文本看作是单个事务，将其包含的本类别的特征词看作是事务的数据项，设置最小支持度，利用Apriori算法得到该文本类别满足最小支持度阈值的所有项集，即所有频繁项集；

步骤(32)对每一个频繁项集保存其关联的训练文本，包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本；

步骤II.利用关联分析结果，确定待分类文本的初始近邻并确定最终的近邻数K，再利用KNN进行文本分类

步骤(1)对于待分类文本，先进行预处理，再利用已提取出的各类别的特征词表示该文本，得到m·N_f维文本向量，再利用TF-IDF和基于χ²统计方法的特征评价函数计算特征权重，将权重设为：TF-IDF*特征评价值；

步骤(2)对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列，选取排列在前3的类别，记为c_x,c_y,c_z，及特征；

步骤(3)根据步骤(2)获取的待分类文本的文本向量中属于前3个类别的特征词，分别在其对应的类别中查找最大频繁项集，并获取相关联的训练文本，这些训练文本都作为待分类文本的初始近邻；设相关联的训练文本集合分别为I_x，I_y，I_z，文本数目分别为n_x，n_y，n_z，设定k=min(2.5*n_x,n_x+n_y+n_z)；

步骤(4)计算待分类文本与每个初始近邻文本的余弦相似度；

步骤(5)将相似度降序排列，选取前k个训练文本，统计属于3个类别的文档数目，分类别累加相似度，进而得到待分类文本与每个类别近邻文本相似度的平均值，平均值最大的类别判定为待分类文本的类别。

本发明有益效果：

本发明将关联分析用于基于KNN的文本分类，解决了基于传统KNN的文本分类存在的近邻数量k难以确定以及查找近邻时间复杂度高的问题，提高了文本分类的效率和准确率。

附图说明

图1基于关联分析提取频繁特征词集合及其关联的训练文本的流程图

图2基于关联分析结果的KNN文本分类流程图

具体实施方式

为了方便描述，我们假定有如下应用实例：从网络上搜集新闻并分类保存供数据分析用。确定文档的类别可以应用本发明提出的基于关联分析和KNN的文本分类方法。

本发明的具体实施方案为：

（1）利用网络爬虫或相关网络信息抓取工具从互联网上抓取一定数目的各个领域有代表性的文章作为文本分类系统的训练样本集。

（2）对这些文本进行预处理，分词后去掉停用词，得到特征词，统计词的频度和反文档频率，并根据χ2特征评价方法分别计算出一个特征词相对于每个类别的权重并求和得到特征评价值。将每个特征词的最终权重设为：TF-IDF*特征评价值。对训练集中文本按类别分别选取一定数量（记为N_f）特征词。利用所有这些特征词将每篇文章表示为文本向量的形式。

（3）利用本发明提出的关联分析方法对每个类别进行关联分析，得到每个类别的频繁特征集及其与之相关联的文本的集合：将一个类别的每个文本看作是单个事务，将其包含的本类别的特征词看作是事务的数据项，设置最小支持度，利用Apriori算法得到该文本类别满足最小支持度阈值的所有项集，即所有频繁项集；对每一个频繁项集保存其关联的训练文本，包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本；

（4）对于一个待分类文本，利用所有类别全部的特征词对其进行特征词扫描，并将每一维的特征权重设为TF-IDF*特征评价值，从而得到待分类文本的文本向量。

（5）对待分类文本的文本向量中属于各个类别的特征词的权重分别求和，并按降序排列，选取前3个类别（记为c_x,c_y,c_z），获取待分类文本的文本向量中属于这3个类别的特征词，分别在其相对应的类别中查找最大频繁项集，从而得到与该项集关联的训练文本（设相关联的训练文本集合分别为I_x，I_y，I_z，文本数目分别为n_x，n_y，n_z），得到的这些文本都被作为待分类文本的初始近邻；设定最终近邻数值k=min(2.5*n_x,n_x+n_y+n_z)；

（6）计算待分类文本与每个初始近邻文本的余弦相似度；

（7）将相似度按降序排列，选取前k个训练文本，分别统计属于这3个类别的文本数目，分类别累加相似度，进而得到待分类文本与每个类别近邻文本相似度的平均值，平均值较大的类别判定为待分类文本的类别。

Claims

1.一种基于关联分析和KNN的文本分类方法，其特征在于，包含如下步骤：

步骤(1)设文本类别总数为m，类别为c₁,c₂,...,c_m，对训练集中的文本进行预处理，利用χ²统计方法，对训练集中各类别文本分别选取一定数量，记为N_f，的特征词；

步骤(4)计算待分类文本与每个初始近邻文本的余弦相似度；