CN104063472B

CN104063472B - 一种优化训练样本集的knn文本分类方法

Info

Publication number: CN104063472B
Application number: CN201410305607.0A
Authority: CN
Inventors: 屈鸿; 谌语; 绍领; 解修蕊; 黄利伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2014-06-30
Filing date: 2014-06-30
Publication date: 2017-02-15
Anticipated expiration: 2034-06-30
Also published as: CN104063472A

Abstract

本发明公开了一种优化训练样本集的KNN文本分类方法，属于文本挖掘，自然语言处理等领域，解决传统KNN文本分类方法的效率和准确率低的问题。本发明在于对训练用文本数据和待分类文本数据进行文本预处理；将预处理后的训练用文本数据和待分类文本数据分别进行文本表示；对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取；对提取的训练用文本数据特征进行分类训练，使用经过优化样本集的KNN算法进行训练分类，构造文本分类器；将文本分类器作用于特征提取后的待分类文本数据，得到待分类文本数据的分类结果。本发明能够更好的应用于文本信息挖掘系统。

Description

一种优化训练样本集的KNN文本分类方法

技术领域

一种优化训练样本集的KNN文本分类方法，基于裁剪优化训练集的K最近邻结点算法对文本进行分类，属于文本挖掘，自然语言处理等领域。

背景技术

随着互联网络上大量信息不断的涌现出来，给信息的查询以及检索带来了很大的不便，而人们对获得信息的快捷性以及信息的简洁性的需求与日俱增。面对这个问题，文本分类技术就被提出了出来。它能够对海量信息进行有序整理组织，能够在隐藏的、未知的大量文本信息中帮助用户发现有用的、潜在的知识。

文本分类技术的出现立即获得了人们广泛的关注，同时也成为了研究的热点。文本分类是指在给定分类体系下，根据文本内容自动确定文本类别的过程。20世纪90年代以前，占主导地位的文本分类方法一直是基于知识工程的分类方法，即由专业人员手工进行分类。分类非常费时，效率过低。90年代以来，众多的统计方法和机器学习方法应用于自动文本分类。

爆炸式增长的文本信息给文本分类的精度与速度提出了新的标准和挑战。随着分类技术在各个领域的广泛应用，毫无疑问，对文本分类技术研究的重要意义越来越明确的显现。

国外对于文本自动分类的研究开展较早，20世纪50年代末，H.P.Luhn对文本自动分类进行了开创性的研究，将词频统计思想应用于文本自动分类。1960年，Maro发表了关于自动分类的第一篇论文，随后，K.Spark、G.Salton、R.M.Needham、M.E.Lesk以及K.S.Jones等学者在这一领域进行了很成功的研究，到目前为止，国外基本经历了以下四个文本分类的主要阶段，分别为：

第一阶段(1958-1964)：针对文本自动分类的可行性研究；

第二阶段(1965-1974)：文本自动分类的实验阶段；

第三阶段(1975-1998)：文本自动分类的实际应用阶段；

第四阶段(1990至今)：因特网文本自动分类研究阶段。

目前比较主要的文本分类方法有以下三个类别：基于规则的文本分类方法，基于统计的文本分类方法，以及基于连接的文本分类方法。

常见的基于规则的分类方法有决策树、关联规则等；基于统计的分类方法有朴素贝叶斯、KNN方法等；基于连接的分类方法有神经网络等。

对于每一个文档与其类别的二元组<d_i,c_i>∈D×C，判断其结果，如果结果为1，这表示文档d_i属于类别c_i；如果结果为0，则表示文档d_i不属于类别c_i。其中，d_i代指文档集合D中的一个文档，C＝{c₁,c₂,...,c_n}是预先定义好的类别集合。文本分类的目的就是找出将文本进行分类的函数Φ:D×C→{1,0}，这个函数就是文本分类器。

在文本分类的特征提取阶段，传统的互信息MI特征提取方法虽然有着对类别和特征之间的连接性能够增强的特点，但是对低频词的处理效果并不好，在处理单个特征的时候容易陷入局部最优。

在文本分类的分类阶段，传统KNN分类算法的基本思想是：先计算待分类样本与已知类别的训练样本之间的距离或相似度，找到距离或相似度与待分类样本数据最近的K个邻居；再根据这些邻居所属的类别来判断待分类样本数据的类别。如果待分类样本数据的K个邻居都属于一个类别，那么待分类样本也属于这个类别。

KNN是空间向量模型中最好的算法之一，KNN算法最大的优点在于简单，不需要训练学习，但是KNN一种惰性的分类方法，只有需要分类时才建立分类器，需要将样本集中的每个样本都要遍历一次，计算量大(比如要建立一个文本分类器，若有上万个类别，即使每个类别只有30个训练样本数据，要判断出一个新的待分类样本的类别，也需要至少做30万次的比较)，并且KNN易受样本空间密度的影响，分类效率较低。

发明内容

本发明针对现有技术的不足之处提供一种优化训练样本集的KNN文本分类方法，解决传统KNN文本分类方法的效率和准确率低的问题，并且在特征提取步骤将互信息值引入到遗传算法之中，能够结合两种提取方法的优点，使得特征提取结果更为可靠，使整个文本分类能够更好的应用于文本信息挖掘系统。

为了解决上述技术问题，本发明采用如下技术方案：

一种优化训练样本集的KNN文本分类方法，其特征在于，如下步骤：

(1)对训练用文本数据和待分类文本数据进行文本预处理；

(2)将预处理后的训练用文本数据和待分类文本数据分别进行文本表示；

(3)对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取；

(4)对提取的训练用文本数据特征进行分类训练，使用经过优化样本集的KNN算法进行训练分类，构造文本分类器；

(5)将文本分类器作用于特征提取后的待分类文本数据，得到待分类文本数据的分类结果。

作为优选，所述步骤(2)中，文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示，具体步骤如下：

(21)使用TF_IDF法分别计算训练用文本数据和待分类文本数据中每个特征词的权重，计算公式为：

其中，tf_ij表示的是第i个文本特征词在文本(训练用文本数据或待分类文本数据)d_j中出现的频率数目，N是文档(训练用文本数据或待分类文本数据)的总数目，N_i是指文档(训练用文本数据或待分类文本数据)集合中出现第i个文本特征词的文本数目，n为文本特征抽取时所选用的文本特征词数目，k为求和公式起点到终点的取值，从1开始计算到n，tf_kj表示的是第k个文本特征词在文本d_j中出现的频率数目；

(22)将计算出的训练用文本数据和待分类文本数据特征词权值分别表示为向量，具体表示为，

v(d_i)＝(w₁(d_i),w₂(d_i),...,w_n(d_i))，

其中，n表示文本特征提取所用的文本特征词数目,w_j(d_i)表示第j个文本特征词在文档(训练用文本数据或待分类文本数据)d_i中的权值，j为1到n的任意值；

(23)计算训练用文本数据特征的平均互信息值MI_avg(w)，计算公式为：

其中，P(w∧c_i)表示训练样本集中既属于特征词w又属于类别c_i的概率，P(w)表示包含特征词w在训练用文本数据中出现的概率，P(c_i)表示训练用文本数据中属于类别c_i的文本数据的概率,MI(w,c_i)表示单个类别下的互信息值，MI_avg(w)为平均互信息值；

(24)将训练用文本数据的特征平均互信息值加入到步骤(22)训练用文本数据向量表示的最后一维度，具体表示为，

v(d_i)＝(w₁(d_i),w₂(d_i),...,w_n(d_i),MI_n+1(d_i))，

其中，n表示文本特征提取所用的特征词数目，w_j(d_i)表示第j个文本特征词在文档d_i中的权值，MI_n+1(d_i)表示特征的平均互信息值，j为1到n的任意值。

作为优选，所述步骤(3)中，对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取，具体步骤如下：

(31)采用浮点数编码方式分别对文本表示的训练用文本数据和待分类文本数据进行染色体编码；

(32)将编码后的训练用文本数据和待分类文本数据的文本特征词进行初始化，包括设置迭代次数，随机生成部分个体作为初始种群；

(33)计算初始种群中的每一条染色体的适应度；

(34)判断染色体适应度是否稳定或者是否已经达到遗传算法迭代的最终次数，如果是，则输出最优解，否则，执行步骤(35)；

(35)使用比例法进行选择，将选择算子作用于种群；

(36)使用单点交叉和多点交叉相结合的方式，将交叉算子作用于种群；

(37)随机从未选中过的特征词权值中选择一个特征词权值，替换每条染色体中特征词权值最小的值，并将变异算子作用于种群，生成新一代的种群，并转到步骤(33)。

作为优选，所述步骤(35)中，比例法的公式为：

其中，Fit(s_i)为每一条染色体s_i的适应度，P(s_i)为最终s_i被选择的概率，j为从j＝1开始直到n，n为遗传算法染色体总数。

作为优选，所述步骤(4)中，使用经过优化样本集的KNN算法进行训练分类的步骤如下：

(41)对训练用文本数据进行裁剪，得到裁剪样本文本数据训练集；

(42)采用余弦定理计算待分类文本数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度；

(43)选取与待分类文本数据之间相似度最高的K个已知类别样本文本数据；

(44)根据K个已知类别样本文本数据判断待分类文本数据的类别。

作为优选，所述步骤(42)中，相似度的计算公式为：

其中，Sim(d_i,d_j)表示文本d_i和d_j之间的相似程度，n表示文本的特征词数目，w_ki和w_kj分别表示文本d_i和d_j的第k个特征词的权值，Sim(d_i,d_j)值越大表示两个文本之间的相似度越高，反之，两个文本之间的区别越大。

作为优选，所述步骤(41)中，得到裁剪样本文本数据训练集的步骤如下：

(411)将训练用文本数据分为类内样本文本数据和边界样本文本数据；

(412)裁剪类内样本文本数据；

(413)裁剪边界样本文本数据。

作为优选，所述步骤(412)中，类内样本文本数据裁剪的步骤如下：

(4121)计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量距离类中心向量最远的向量和训练用文本数据中的每一个已知类别样本文本数据的平均密度

(4122)计算出每次的增量n为初始设置同类别下文本数据分割增量区间个数；

(4123)如果计算类间增量小区域内的训练用文本数据中的每一个已知类别样本文本数据下增量内的样本文本数据的平均密度ρ_i和标准密度其中Ψ是代表一个初始设置裁剪样本空间比例值的参数，当离类中心越近时取值越大；

(4124)判断是否成立，成立则裁剪小区域内邻域最多的样本，并转到步骤(4125)，否则计算下一个增量空间并转到步骤(4123)；

(4125)依次遍历完所有增量空间。

作为优选，所述步骤(413)中，边界样本裁剪文本数据的步骤如下：

(4131)计算出所有边界样本文本数据ε邻域范围的平均样本个数AVG；

(4132)计算单个边界样本文本数据的邻域内样本个数|N_ε(X)|，如果|N_ε(X)|>AVG，则对边界样本文本数据进行裁剪并转到步骤(4133)，否则直接转到步骤(4133)；

(4133)依次遍历完所有边界样本文本数据。

与现有技术相比，本发明的优点在于：

一、利用遗传算法进行文本特征提取，展示了算法的全局优化能力，不容易陷入局部最优解，是传统的特征提取算法不易做到的。

二、在训练文本进行向量空间模型表示的时候，在传统的特征向量的最后一维加入了特征的平均互信息值，能够为后续特征提取结果增强有效性。

三、针对处理对象是文本，分析文本的特点，对遗传算法的适应度函数以及遗传算子的工作都进行了细节优化，增强了特征选择的准确度。

四、对特征选择结果使用K最近邻结点算法进行文本分类，在过程中对样本训练集进行了优化，提高算法的效率；

五、在裁剪样本文本数据训练集的时候分为类内样本文本数据以及边界样本文本数据并行裁剪，节省算法的运行时间。

附图说明

图1为本发明的文本挖掘的整体流程图；

图2为本发明的文本分类的整体流程图；

图3为本发明的文本预处理流程图；

图4为本发明的遗传算法文本特征提取流程图；

图5为本发明的KNN算法流程图；

图6为本发明的类内样本文本数据裁剪流程图；

图7为本发明的边界样本文本数据裁剪流程图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

参见图1和图2，一种基于优化样本集KNN算法的文本分类方法，首先对训练集文本进行预处理，然后对预处理后的文本进行向量空间模型表示，接着对表示结果进行特征提取，进而可以进行文本分类模型计算，将待分类文本数据集同样进行文本预处理、文本表示以及特征提取后，将模型运用到待分类文本数据集中，最终得到结果。

一种优化训练样本集的KNN文本分类方法，具体的步骤如下：

(1)预定义文本总类别数目为n，n代表已知类别样本的类别数，即训练用文本数据的类别数，C＝{c₁,c₂,...,c_n}是类别集合，对训练用文本数据和待分类文本数据进行文本预处理；训练用文本数据和待分类文本数据可以为网络上采集或者自然语言处理相关语料库等非结构化数据。其中，如图3所示，首先去除文本数据(训练用文本数据和待分类数据)中无用的低频词，如某一些词或短语在文本中出现的次数很少，对最后的结果影响不大，就可将其去除；通过去除掉无用的低频词后再去除文本数据中的标记，比如HTML的一些标记语言；然后去除文本数据中的停用词，停用词一般是指那些对于全文的意思内容没有任何能够起到表现作用的词语，比如“的”、“了”这些词；最后对文本数据进行中文分词得到特征词语，因为中文比较特殊，如果断句错误，经常会很引起很大的歧义，原因就在于中文中的词语和词语之间不像英文那样有空格隔开，中文之间是没有隔离符号的，而中文博大精深，很多词语连在一起代表的意思是不同的，所以在中文分词时使用ICTCLAS分词系统。

(2)将预处理后的训练用文本数据和待分类文本数据分别进行文本表示，文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示，具体步骤如下：

v(d_i)＝(w₁(d_i),w₂(d_i),...,w_n(d_i))，

v(d_i)＝(w₁(d_i),w₂(d_i),...,w_n(d_i),MI_n+1(d_i))，

(3)对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取，如图4所示遗传算法进行特征提取流程，具体步骤如下：

(33)计算初始种群中的每一条染色体的适应度；

(35)使用比例法进行选择，将选择算子作用于种群，比例法的公式为：其中，Fit(s_i)为每一条染色体s_i的适应度，P(s_i)为最终s_i被选择的概率，j为从j＝1开始直到n，n为遗传算法染色体总数；

(4)对提取的训练用文本数据特征进行分类训练，使用经过优化样本集的KNN算法进行训练分类，构造文本分类器，文本分类器的实质为一个代表分类过程的函数；如图5所示，使用经过优化样本集的KNN算法进行训练分类的步骤如下：

(41)对训练用文本数据进行裁剪，得到裁剪样本文本数据训练集，得到裁剪样本文本数据训练集的步骤如下：

(412)裁剪类内样本文本数据，类内样本文本数据裁剪的步骤如下：

(4121)计算出训练用文本数据中的每一个已知类别样本文本数据类别的中心向量距离类中心向量最远的向量和训练用文本数据中的每一个已知类别样本文本数据的平均密度其中距离用相似度公式计算，此步骤中向量指代的是文本特征词，相似度越大距离越小，每一类的样本可以根据距离公式，抽象铺展成一个二维平面图，类的中心向量也就是最中间区域的那个向量，这是可以通过整体距离计算得到的，而密度是指代区域内样本个数；

(4125)依次遍历完所有增量空间。

(413)裁剪边界样本文本数据，边界样本裁剪文本数据的步骤如下：

(4131)计算出所有边界样本文本数据ε邻域范围的平均样本个数AVG，ε为自己设置的初始值，不是类内的裁剪范围，针对边界样本设置的一个初始值范围，尽量将两个类或者多个类的边界圈进去，将多个类的边界密度修剪来相似；

(4133)依次遍历完所有边界样本文本数据。

(42)采用余弦定理计算待分类文本数据和裁剪后样本文本数据训练集中已知类别样本文本数据之间的相似度，相似度的计算公式为：

其中，Sim(d_i,d_j)表示文本d_i和d_j之间的相似程度，n表示文本的特征词数目，w_ki和w_kj分别表示文本d_i和d_j的第k个特征词的权值，Sim(d_i,d_j)值越大表示两个文本之间的相似度越高，反之，两个文本之间的区别越大；

本发明已经通过上述实施例进行了说明，但应当理解的是，上述实施例只是用于举例和说明的目的，而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是，本发明并不局限于上述实施例，根据本发明的教导还可以做出更多种的变型和修改，这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims

1.一种优化训练样本集的KNN文本分类方法，其特征在于，如下步骤：

(1)对训练用文本数据和待分类文本数据进行文本预处理；

(4)对提取的训练用文本数据特征进行分类训练，使用经过优化样本集的KNN算法进行训练分类，构造文本分类器；使用经过优化样本集的KNN算法进行训练分类的步骤如下：

(41)对训练用文本数据进行裁剪，得到裁剪样本文本数据训练集；得到裁剪样本文本数据训练集的步骤如下：

(412)裁剪类内样本文本数据；类内样本文本数据裁剪的步骤如下：

(4125)依次遍历完所有增量空间；

(413)裁剪边界样本文本数据；

(44)根据K个已知类别样本文本数据判断待分类文本数据的类别；

2.根据权利要求1所述的一种优化训练样本集的KNN文本分类方法，其特征在于，所述步骤(2)中，文本表示是指将预处理后的结构化文本数据转化为向量空间模型表示，具体步骤如下：

w_{i} (d_{j}) = \frac{{tf}_{i j} \times \log_{2} (\frac{N}{N_{i}} + 0.01)}{\sqrt{Σ_{k = 1}^{n} {({tf}_{k j})}^{2} * {[\log_{2} (\frac{N}{N_{k}} + 0.01)]}^{2}}};

(22)将计算出的训练用文本数据和待分类文本数据特征词权值分别表示为向量，具体表示为：

v(d_i)＝(w₁(d_i),w₂(d_i),...,w_n(d_i))，

{MI}_{a v g} (w) = Σ_{i = 1}^{m} P (c_{i}) M I (w, c_{i}),

v(d_i)＝(w₁(d_i),w₂(d_i),...,w_n(d_i),MI_n+1(d_i))，

3.根据权利要求1所述的一种优化训练样本集的KNN文本分类方法，其特征在于，所述步骤(3)中，对文本表示的训练用文本数据和待分类文本数据分别利用遗传算法进行特征提取，具体步骤如下：

(33)计算初始种群中的每一条染色体的适应度；

(35)使用比例法进行选择，将选择算子作用于种群；

4.根据权利要求3所述的一种优化训练样本集的KNN文本分类方法，其特征在于，所述步骤(35)中，比例法的公式为：

5.根据权利要求1所述的一种优化训练样本集的KNN文本分类方法，其特征在于，所述步骤(42)中，相似度的计算公式为：

S i m (d_{i}, d_{j}) = \cos (d_{i}, d_{j}) = \frac{Σ_{k = 1}^{n} w_{k i} \times w_{k j}}{\sqrt{(Σ_{k = 1}^{n} w_{k i}^{2}) (Σ_{k = 1}^{n} w_{k j}^{2})}},

6.根据权利要求1所述的一种基于KNN算法的文本分类方法，其特征在于，所述步骤(413)中，边界样本裁剪文本数据的步骤如下：

(4133)依次遍历完所有边界样本文本数据。