CN102033949B

CN102033949B - 基于修正的k近邻文本分类方法

Info

Publication number: CN102033949B
Application number: CN 201010601777
Authority: CN
Inventors: 曹杰; 伍之昂; 王有权; 方仓健
Original assignee: Nanjing University of Finance and Economics
Current assignee: Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2010-12-23
Filing date: 2010-12-23
Publication date: 2012-02-29
Anticipated expiration: 2030-12-23
Also published as: CN102033949A

Abstract

本发明公开了一种基于修正的K近邻文本分类方法，包括文本预处理，首先对训练文本集合中的每一个文档进行分词，去除停用词，将文本进行项目化表示；文本特征选择，然后对文本向量降维，选择尽可能少且与文档主题概念密切相关的文档特征；最后利用基于偏差的K近邻文本分类算法构建分类器进行分类，得到分类结果。该方法分类结果准确。

Description

基于修正的K近邻文本分类方法

技术领域

本发明属于电子资源信息分类和检索领域，涉及一种非结构化文本分类和管理方法，具体地说是一种基于修正的K近邻文本分类方法。

背景技术

近年来，随着信息技术的迅速发展，特别是互联网的普及和数据库的大规模应用，网上的电子资源信息急剧增加，面对信息爆炸和信息多元化，如何有效地组织和管理这些海量信息，并且快速、准确地获得自己需要的、真正感兴趣的信息已成为当前一大难题。文本分类技术作为组织和处理大量电子资源信息的关键技术，将有助于信息检索和分析，方便用户快速、准确地定位所需要的信息。

文本分类是指按照预先定义的主题类别，根据信息内容将不同的信息划分到与其相关的类别中。文本分类技术研究始于50年代末，美国IBM公司的H. P. Luhn首先提出了基于词频统计的文本分类算法，对文本分类技术进行可行性研究。20世纪60年代至80年代末，知识工程技术是这段时期最主要最有效的内容文本分类系统，主要使用人工的方法来构建分类器，这样既耗费人力物力，又容易出现人为错误。20世纪90年代以后，随着互联网技术的飞速发展，基于统计理论和机器学习方法成为主流的文本分类技术，主要包括决策树方法、神经网络方法、遗传算法、贝叶斯分类、K近邻、最小二乘拟合方法、粗糙集方法、模糊集方法、支持向量机等等。

K近邻是最早应用于自动文本分类的机器学习算法之一，其分类思想是：取待分类文文本s的K个近邻，看这K个近邻中多数属于哪一类，就将s归于该类。该种规则中显然存在一个问题：当样本分布密度不不均匀时，只按照前K个近邻样本的顺序而不考虑它们的距离差别，一般K近邻存在倾向于大类的分类决策，将会降低分类器的分类性能。

发明内容

鉴于K近邻对样本不均匀数据存在较大的偏差，本发明的目的是提供一种基于修正的K近邻文本分类方法，该算法首先对训练文本集合中的每一个文档进行分词，去除停用词，将文本进行项目化表示，然后需要对文本向量降维，选择尽可能少且与文档主题概念密切相关的文档特征，最后利用基于偏差的K近邻文本分类算法构建分类器，分类结果准确。

本发明的目的是通过以下技术方案来实现的：

一种基于修正的K近邻文本分类方法，其特征在于：该方法首先对训练文本集合中的每一个文档进行分词，去除停用词，将文本进行项目化表示，然后对文本向量降维，选择尽可能少且与文档主题概念密切相关的文档特征，最后利用基于偏差的K近邻文本分类算法构建分类器进行分类，得到分类结果，具体步骤如下：

1）文本预处理；搜集文本并进行预处理，包括处理文本乱码及非文本内容分词并去停用词，删除非相关文本；

2）文本特征选择，应该选择尽可能少而准确且与文档主题概念密切相关的文档特征进行文本分类；用文本预处理的结果组成一个文本向量来表征文本，然后根据规则从高维的特征空间中选取对文档分类影响最大的特征子集来提高文本分类的时间和空间效率；

3）文本分类；由于K近邻文本分类方法存在当样本分布密度不不均匀时K近邻存在倾向于大类的分类决策，采用基于修正的K近邻文本分类方法进行分类。

本发明在文本特征选择时，构造一个特征函数对特征词进行打分，然后按照分值的高低将特征词排序，最后通过设定的阈值仅保留分值高于阈值的特征词。常见的特征选择方法有:信息增益、互信息、c ²统计量、特征权等方法，本发明中主要采用c ²统计量的方法。

本发明首先对训练文本集合中的每一个文档进行分词，去除停用词，将文本进行项目化表示，然后需要对文本向量降维，选择尽可能少且与文档主题概念密切相关的文档特征，最后利用基于偏差的K近邻文本分类算法构建分类器进行分类，分类结果准确。

附图说明

图1为本发明的整体框架图。

具体实施方式

一种本发明所述的的基于修正的K近邻文本分类方法，该方法首先对训练文本集合中的每一个文档进行分词，去除停用词，将文本进行项目化表示，然后对文本向量降维，选择尽可能少且与文档主题概念密切相关的文档特征，最后利用基于偏差的K近邻文本分类算法构建分类器进行分类，得到分类结果，

1）文本预处理；搜集文本并进行预处理，包括处理文本乱码及非文本内容分词并去停用词，删除非相关文本；由于文本预处理不是本发明的重点，所以就不再详述。

2）文本特征选择，应该选择尽可能少而准确且与文档主题概念密切相关的文档特征进行文本分类；用文本预处理的结果组成一个文本向量来表征文本，然后根据规则从高维的特征空间中选取对文档分类影响最大的特征子集来提高文本分类的时间和空间效率。

在文本特征选择时，构造一个特征函数对特征词进行打分，然后按照分值的高低将特征词排序，最后通过设定的阈值仅保留分值高于阈值的特征词。

3）文本分类；由于K近邻文本分类方法存在当样本分布密度不不均匀时K近邻存在倾向于大类的分类决策，采用基于修正的K近邻文本分类方法进行分类。常见的特征选择方法有:信息增益、互信息、c ²统计量、特征权等方法，本发明中采用c ²统计量的方法。

在文本预处理的基础上主要c ²统计量来衡量特征词w和类别c之间的权重关系，根据阀值选取对文本分类影响较大的特征词，最后在此基础上采用修正的文本分类方法完成文本分类，具体实施步骤如下所示：

步骤1：由于c ²统计量的方法充分考虑了特征词和文本类别之间的关系，所以该方法使得所找出来的特征词对文本类别的判定有更大的帮助，在文本训练集合较大的情况下，该方法有很好的稳定性，所以选取该方法来完成文本特征选择。令A为训练文本集中特征词w和类c同时出现的次数；B为特征词w出现而类c不出现的次数；C为特征词w不出现而类c出现的次数；D为特征词w和类c都没有出现的次数；N则表示训练文本集中的样本总数，c ²统计量的计算公式如公式(1)所示：

(1)

步骤2：然后再使用公式(2)计算特征词w对整个训练集合的c ²统计量，下面是公式(2)的计算方法：

(2)

其中m为文本类别数量，然后设置一个阀值，将原始特征空间中低于阀值的特征词，保留高于阀值的特征词作为文本进一步分类的特征。

步骤3: 根据步骤2中找出的特征词，根据向量空间模型，将文本集合形式化为加权特征向量，文本集合S=(T ₁,W ₁; T ₂,W ₂; ...; T _n,W _n)，然后计算每个文本与其他文本的相似度，计算公式如式(3)所示：

(3)

其中si为测试文本集合的特征向量，sj为其他文本，M为特征向量的维数，Wik为文本向量si的第k维。

步骤4：为了能够修正K近邻分类器，为每个类别t赋予一个权重wt，其中权重大小与根据文本类别的大小进行调整，如果文本类别大，则相对的调小一些该权重，否则调大一些该权重，则调整后的相似度技术公式如公式(4)所示：

(4)

步骤4：找出测试文本si的最大的K个最相似邻居，计算每个文本类别的权重，计算公式如公式(5)所示：

(5)

其中s为新的文本向量，sim(s, si, wt)为新的文本向量和s的K个最近邻中的si的相似度，tft代表了文本向量的类别属性，如果si属于该类，则tft等于1，否则等于0。

步骤5：分别计算新的文本向量s的所有类别权重，找出权重最大的文本类别，则新的文本属于该类，完成文本分类。

Claims

1.一种基于修正的K近邻文本分类方法，其特征在于：该方法首先通过文本预处理对训练文本集合中的每一个文档进行分词，去除停用词，将文本进行项目化表示，然后进行文本特征选择，对文本向量降维，选择尽可能少且与文档主题概念密切相关的文档特征，最后进行文本分类，利用基于偏差的K近邻文本分类算法构建分类器，得到分类结果，具体步骤如下：

2.根据权利要求1所述的基于修正的K近邻文本分类方法，其特征在于：步骤2）中，文本特征选择时，构造一个特征函数对特征词进行打分，然后按照分值的高低将特征词排序，最后通过设定的阈值仅保留分值高于阈值的特征词。