CN103995876A

CN103995876A - 一种基于卡方统计和smo算法的文本分类方法

Info

Publication number: CN103995876A
Application number: CN201410225565.XA
Authority: CN
Inventors: 武星; 裴孟齐
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2014-05-26
Filing date: 2014-05-26
Publication date: 2014-08-20

Abstract

本发明公开了一种基于卡方统计量和SMO算法的文本分类方法：其步骤：首先对训练文本进行分词、去除停用词、预处理操作，再以卡方统计量为标准遴选出设定数量单词作为特征词；然后,分别计算上述训练文本和测试文本的特征权重值；将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型；将训练后的分类器对测试文本的特征向量进行分类，得到每条测试文本的分类结果。该方法能够克服将所有词作为特征导致文本分类的特征多、噪声多的缺陷，并能提高文本的分类精度和效率。

Description

一种基于卡方统计和SMO算法的文本分类方法

技术领域

本发明涉及自然语言计算机自动处理技术领域，特别涉及一种基于卡方统计和SMO算法的文本分类方法。

背景技术

近年来，随着互联网技术的飞速发展和普及，网络上的电子资源信息急剧增加，面对如此大量的数据信息，如何有效地组织和管理这些海量信息，并从中快速、准确地获得自己所需要的、真正感兴趣的信息已成为当前的一大难题。在网络信息中，大多数以文本的形式来保存，因而文本数据的挖掘具有很高的潜在价值。文本分类技术作为一种典型的文本挖掘技术，能够组织和处理大量文本信息，有助于信息检索与分析，方便用户快速、准确地定位所需要的信息。

文本分类是指计算机对文本集按照一定的分类体系或标准进行自动分类标记（中国专利文献名称为“基于修正的K近邻文本分类方法”，专利号为201010601777.5），文本自动分类研究始于20世纪50年代末，美国IBM公司的H.P.Luhn在这一领域进行了开创性的研究。20世纪60年代至80年代末，文本分类系统以知识工程的方法为主，知识工程技术即根据领域专家对给定文本集合的分类经验，人工提取出一组逻辑规则，作为计算机文本分类的依据，然后分析这些系统的技术特点和性能，即利用专家规则来进行分类；到了90年代以后，统计方法和机器学习的方法被引入到文本自动分类中，取代了知识工程的方法，其中，机器学习算法，该方法中提取有效的特征向量，得到一个好的学习效果，因此提取有效的特征向量以及避免噪音特征的干扰是提高机器支持向量机学习效果的重要途径。卡耐基梅隆大学Yiming Yang 1997年于ICML会议上发表的《A Comparative Study on Feature Selection in Text Categorization》报道基于向量空间模型的支持向量机方法效果最好。有效的特征向量的建立最常用的方法是TF-IDF（TF：Term Frequency，IDF：Inverse Document Frequency）方法。传统的向量空间模型在文本分类中已经得到比较多的应用，特征向量通过向量空间模型(Vector Space Model，VSM)表示，该模型表示文本文件的代数模型，模型的向量中，每一维都相当于是一个独立的词组。如果独立的词组出现在了文档中，则该向量中的值为非零。SMO算法（Sequential minimal optimization，缩写为SMO）由Microsoft Research的John C. Platt在1998年提出。为节省存储空间和提高搜索效率，在自然语言计算机自动处理文本之前或之后,会自动过滤掉停用词，为防止停用词与安全口令发生混淆，将停用词形成一个停用词表。但是，并没有一个统一的停用词表能够适用于所有的自然语言处理工具。对于一个给定的目的，任何一类的词语都可以被选作停用词。通常意义上，停用词大致分为两类：

一类是人类语言中包含的功能词，功能词极其普遍，与其他词相比，功能词没有什么实际含义，比如'the'、'is'、'at'、'which'、'on'，对于搜索引擎来说，当所要搜索的短语包含功能词，例如'The Who'、'The The'或'Take The'复合名词，该复合名词中包含停用词，使用就会发生混淆。

另一类词包括词汇词，比如词汇词'want'，这些词汇应用十分广泛，对这些词的搜索引擎无法得到精确的搜索结果，难以缩小文本的搜索范围，降低词汇的搜索效率，通常会把上述诸如此类的词汇移去，提高搜索效率。

综上所述，目前机器学习方法，在的提取学习特征时，常常将所有词作为特征，其特征多，且包含很多噪音，导致文本分类的效果较差。，通常，采用的最近邻分类方法(KNN)对文本进行分类，该分类方法对特征多、含很多噪音所有分类样本分类时，所有用时间较长，分类效率不高。

发明内容

本发明的主要目的在于针对已有技术存在的不足，提供一种基于卡方统计和SMO算法的文本分类方法，该方法能够克服将所有词作为特征导致文本分类的特征多、噪声多的缺陷，并能提高文本的分类精度和效率。

为达到上述目的，本发明的构思如下：首先对训练文本进行分词、去除停用词、预处理操作，再以卡方统计量为标准遴选出设定数量单词作为特征词；然后 ,分别计算上述训练文本和测试文本的特征权重值；将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型；将训练后的分类器对测试文本的特征向量进行分类，得到每条测试文本的分类结果。

根据上述发明构思，本发明采用下述技术方案：

一种基于卡方统计和SMO算法的文本分类方法，其步骤如下：

(1)，收集互联网文本，将文本分为训练文本和测试文本：从互联网收集文本，对每条文本进行类别标签，将已进行类别标签的文本为训练文本，将已进行类别标签的文本为待分类的文本，待分类的文本作为测试文本；

(2)，对训练文本进行预处理，得到训练文本词汇表：对训练文本进行分词、去除停用词、过滤文本乱码，得到训练文本词汇表；

(3)，计算各个单词对应的训练文本词汇表卡方统计量，得到训练文本特征词表：计算训练文本词汇表中的每个单词关于各类别的卡方统计量，取该单词在各个类别中最大的卡方统计量作为该单词的权重，然后，将各个单词按照其权重由大到小的顺序排列，选取其中一定数量的权重最大的单词，由权重最大所对应的单词构成训练文本特征词表；

(4)，分别计算上述训练文本和测试文本的特征权重值：分别计算上述训练文本和测试文本中各个单词的TF-IDF特征权重值，将各个单词及各个存在于特征词表中的单词的TF-IDF特征权重值组成训练文本的特征向量和测试文本的特征向量，由各个训练文本的特征向量组成训练文本特征向量表，由各个测试文本的特征向量共同组成测试文本特征向量表；

(5)，将特征向量表转换为文档向量模型：将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型，

所述的文档向量模型表示训练文本特征向量写入文件作为训练文件，

所述的文档向量模型表示测试文本特征向量写入文件作为测试文件；

(6)，加载训练文件分类器，对测试文件进行分类：加载上述训练文件训练SMO分类器，再加上述载测试文件，将训练后的分类器对测试文本的特征向量进行分类，得到每条测试文本的分类结果。

上述步骤(3)所述的计算各个单词对应的训练文本词汇表卡方统计量，其计算式为：

(1)

公式(1)中，t表示文本单词，c表示文本类别，表示文本单词t关于文本类别c的卡方统计量，A表示包含文本单词t且属于文本类别c的文档频数，B为包含文本单词t但是不属于文本类别c的文档频数，C表示属于文本类别c但是不包含文本单词t的文档频数，N表示文本语料中文档总数，D是既不属于文本类别c也不包含文本单词t的文档频数。

上述步骤(4)所述的计算上述训练文本和测试文本的特征权重值，其计算式为：

(2)

公式(2)中，表示在中的文本特征词表的特征权重，表示在中出现的频度，表示在所有训练文本中出现的频度最大值；表示训练集中出现的文档数，N是训练集中总的文档数，即在中的特征权重等于在中的总频率乘以整个文档集里的倒排文档频率的对数。

上述步骤(5)所述的将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型，其转换表达式为：

(3)

公式(3)中，表示在中归一化后的权值，为在中的特征权值。

本发明的一种基于卡方统计和SMO算法的文本分类方法与现有技术相比较具的优点如下：

该方法由于分别计算各个单词对应的训练文本词汇表卡方统计量卡方统计量、训练文本的特征权重值和测试文本的特征权重值：加载上述训练文件训练SMO分类器，对测试文本的特征向量进行分类，因此，该方法能够克服将所有词作为特征导致文本分类的特征多、噪声多的缺陷，并能提高文本的分类精度和效率。

附图说明

图1为本发明的一种基于卡方统计和SMO算法的文本分类方法的流程图。

图2为图1中步骤(2)中所述的流程图。

图3为图1中步骤(3)中所述的流程图。

图4为图1中步骤(4)中所述的流程图。

具体实施方式

下面结合附图及具体实例对本发明作进一步的描述。

如图1所示，本发明的一种基于卡方统计和SMO算法的文本分类方法，具体步骤如下：

(2)，对训练文本进行预处理，得到训练文本词汇表，如图2所示，步骤如下：

a), 打开训练文档，对每条训练文本分词；

b), 对于训练文本每一个单词，判断其是否为汉字、字母、数字，如果是，则继续预处理过程，否则过滤掉该单词；

c), 通过停用词表过滤掉训练文本中的停用词，提取有意义的实词；

d, 得到训练文本词汇表；

(3)，计算各个单词对应的训练文本词汇表卡方统计量，得到训练文本特征词表，如图3所示，步骤如下：

a), 遍历训练文本词汇表中的所有单词，对于各个单词，计算其在各个类别文章中的出现次数和未出现次数；

b), 遍历训练文本词汇表中的所有单词，对于各个单词，根据步骤b)的结果计算该单词关于各个类别的卡方统计量；

c), 取该单词在各个类别中最大的卡方统计量作为该单词的权重，如有“体育”和“财经”两个类别的训练文本，其中某单词关于“体育”类别的卡方统计量为1300，关于“财经”类别的卡方统计量为1000，则该单词权重为1300；

d), 将各个单词按照其对应的权重由大到小的顺序排列；

e), 选取其中一定数量的权重最大的单词，如前1000个权重最大的单词；

f), 由这些权重最大的单词构成训练文本特征词表。

所述的计算各个单词对应的训练文本词汇表卡方统计量，其计算式为：

(1)

公式(1)中，t表示文本单词，c表示文本类别，表示文本单词t关于文本类别c的卡方统计量，A表示包含文本单词t且属于文本类别c的文档频数，B为包含文本单词t但是不属于文本类别c的文档频数，C表示属于文本类别c但是不包含文本单词t的文档频数，N表示文本语料中文档总数，D是既不属于文本类别c也不包含文本单词t的文档频数；

(4)，分别计算上述训练文本和测试文本的特征权重值，如图3所示，步骤如下：

a), 对训练文本和测试文本预处理；

b), 将训练文本和测试文本的各个单词与训练文本特征词表作匹配，如果该单词存在于特征词表中，则继续计算其TF-IDF特征权重值，否则置其特征权重值为0；

c), 将各个单词及各个单词的TF-IDF特征权重值组成训练文本的特征向量和测试文本的特征向量；

d), 由各个训练文本的特征向量组成训练文本特征向量表，由各个测试文本的特征向量组成测试文本特征向量表。

所述的计算上述训练文本和测试文本的特征权重值，其计算式为：

(2)

公式(2)中，表示在中的文本特征词表的特征权重，表示在中出现的频度，表示在所有训练文本中出现的频度最大值；表示训练集中出现的文档数，N是训练集中总的文档数，即在中的特征权重等于在中的总频率乘以整个文档集里的倒排文档频率的对数；

所述的文档向量模型表示测试文本特征向量写入文件作为测试文件，

所述的将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型，其转换表达式为：

(3)

公式(3)中，表示在中归一化后的权值，为在中的特征权值；

Claims

1.一种基于卡方统计量和SMO算法的文本分类方法，其特征在于，

首先对训练文本进行分词、去除停用词、预处理操作，再以卡方统计量为标准遴选出设定数量单词作为特征词；然后 ,分别计算上述训练文本和测试文本的特征权重值；将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型；将训练后的分类器对测试文本的特征向量进行分类，得到每条测试文本的分类结果，其具体步骤如下：

(5)，将特征向量表转换为文档向量模型：将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型，所述的文档向量模型表示训练文本特征向量写入文件作为训练文件，所述的文档向量模型表示测试文本特征向量写入文件作为测试文件；

2.根据权利要求1所述的一种基于卡方统计和SMO算法的文本分类方法，其特征在于，上述步骤(3)所述的计算各个单词对应的训练文本词汇表卡方统计量，其计算式为：

(1)

3.根据权利要求2所述的一种基于卡方统计和SMO算法的文本分类方法，其特征在于，上述步骤(4)所述的计算上述训练文本和测试文本的特征权重值，其计算式为：

(2)

4.根据权利要求3所述的一种基于卡方统计和SMO算法的文本分类方法，其特征在于，上述步骤(5)所述的将每条训练文本和测试文本的特征向量转换为训练文档向量模型和测试文档向量模型，其转换表达式为：

(3)

公式(3)中，表示在中归一化后的权值，为在中的特征权值。