CN103207893B

CN103207893B - 基于向量组映射的两类文本的分类方法

Info

Publication number: CN103207893B
Application number: CN201310080455.4A
Authority: CN
Inventors: 李玉鑑; 王影
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2013-03-13
Filing date: 2013-03-13
Publication date: 2016-05-25
Anticipated expiration: 2033-03-13
Also published as: CN103207893A

Abstract

本发明公开了一种基于向量组映射的两类文本的分类方法，包括：收集文本数据集，将其划分为训练集和测试集；预处理数据集；提取总词表并统计词频；对训练样本集进行特征选取，得到特征向量表；将数据集中的所有样本特征项赋权值表示成向量；将训练样本集和测试样本集分别表示成一个向量组；将训练样本集中正、负类样本分别表示为全矩阵形式；将训练样本中的正类文本矩阵和负类文本矩阵分别映射为一个向量；利用最近邻算法判断测试样本的类别。本发明使用tf*rf特征提取法，用向量组表示正、负类文本，不仅能够提取自适应能力强、分类性能好的文本特征，还能全面地表示文本信息，通过向量组的映射变换，简化了分类过程，提高了分类速度。

Description

基于向量组映射的两类文本的分类方法

技术领域

本发明属于电子信息技术领域，具体涉及一种基于向量组映射的两类文本的分类方法。

背景技术

文本分类是指用计算机按照一定的标准对文本集自动赋予类别标记，它在信息检索、文本挖掘和情报分析等领域中具有重要应用，其中涉及文本表示、特征选择、分类模型和评价方法等关键技术。文本分类的过程如附图1所示。首先需要对文本进行预处理，并对文本进行特征向量表示；然后训练学习构造分类器；最后使用分类器对新文本进行分类。

目前,比较常用的文本分类器有朴素贝叶斯（Bayes）、支持向量机（SVM）、K最近邻（KNN）等。其中KNN方法简单易行，而且分类效果良好，对不同数据集有良好的可操作性。最近邻方法是KNN方法的一个特例，它的基本思想是在训练样本中找到测试样本的最近邻样本，然后根据这个最近邻样本的类别决定测试样本的类别。首先，由于最近邻方法只根据距离测试样本最近邻的样本判断测试样本的类别，放大了噪声数据的干扰，会降低分类精度。其次，由于传统的最近邻方法并没有训练阶段，所有的计算都是在分类时完成的，所以这种方法的实时性不好。当训练集文档数量很大的时候，其计算开销巨大，以至于随着训练集的增长，分类过程将非常缓慢甚至无法进行。这是最近邻方法的一个主要缺点。目前主要从两个方面来减少最近邻方法的计算开销：一是减少训练集的规模，清除噪声数据；二是改进最近邻的相似度计算和搜索算法，减少相似度计算的复杂度，由全局搜索改为局部搜索。现有的算法虽然能够有效降低最近邻搜索的计算开销，但是它们大部分无法保证进行全局的最优搜索，不能适用于海量数据和高维空间。

发明内容

针对上述基于最近邻文本分类过程中存在的抗噪声数据干扰能力弱、分类时计算开销大的缺陷，本发明提出了一种根据全局正、负类样本的特征信息判断测试样本的类别，从而降低分类时对个别样本的依赖度以及分类时间的两类文本分类方法。

本发明的基本原理：对每一个文本提取特征，将一个文本表示为一个特征向量的形式，进而将一类文本表示成向量组的形式。然后，由映射变换将每个类别的向量组映射为相应的类别向量，通过计算两个向量间的欧式距离判断距离测试样本最近的是正类列向量还是负类列向量，并根据距离测试样本最近的列向量类别判断这个测试样本的类别。

一种基于向量组映射的两类文本的分类方法，其特征在于包括以下步骤：

步骤一，收集数据集，将收集的数据集分为训练样本集和测试样本集。

步骤二，预处理数据集，方法如下：

将无结构化的数据处理为结构化数据，得到建立模型或应用模型进行分类的、包含各个文本属性等字段信息的原始数据样本；对已结构化的数据样本进行分词，完成单词字符小写化、去停用词、删除标点符号以及词根还原的初步处理，统计每个测试样本以及训练样本的词频。

步骤三，对训练样本集，提取出总词表，方法如下：

对于总词表中的每一个词项，统计包含该词项的正类样本个数以及负类样本个数，过滤掉训练样本集中所有正、负类文档频率小于3的词项，得到文档频率表。

步骤四，对训练样本集进行特征选取，得到特征向量表。具体方法如下：

对于步骤三得到的总词表中的每一个词项，计算词项t对于文本类别c_i的χ²统计值χ²(t,c_i)。χ²统计值越高，它与该类之间的相关性越大，携带的类别信息也较多，计算公式如下：

χ^{2} (t, c_{i}) = \frac{N \times {(AD - CB)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}

其中，N表示训练样本集中的文本总数，A表示属于c_i类且包含t的文档频数，B表示不属于c_i类但是包含t的文档频数，C表示属于c_i类但是不包含t的文档频数，D是既不属于c_i也不包含t的文档频数。

步骤五，为数据集中所有样本的特征项赋权值，得到每个样本的向量表示。本发明采用词频相关频率积（tf.rf）的赋权值方法，其中tf是词频(termfrequency)，rf是相关频率(relevancefrequency)。对于词项t_k，令文本d关于t_k的权值为ω_k，产生文本d的向量表示d＝(ω₁,ω₂,...,ω_n)。根据tf.rf计算权值ω_k的公式为：

ω_k＝tf_k*rf_k

其中，tf_k表示词项t_k在文档d中的频率，已由步骤二得到，rf_k值的计算方法如下：

{rf}_{k} = \log_{2} (2 + \frac{a_{k}}{\max (1, c_{k})})

其中，a_k表示在训练文档集中包含词项t_k的正类文本数，b_k表示不包含词项t_k的正类文本数，c_k表示包含词项t_k的负类文本数，d_k表示不包含词项t_k的负类文本数。

步骤六，将训练样本集表示成一个向量组，将测试样本集表示成另一个向量组。

步骤七，对步骤五得到的训练样本向量组分类，根据正负类的标记分为两组。并将所有正类文本和负类文本的向量组分别表示为一个全矩阵的形式，即得到正类文本和负类文本的矩阵表示形式。

步骤八，将训练样本中的正类文本矩阵和负类文本矩阵分别映射为一个向量。矩阵到向量的映射过程具体如下：

（1）对两个矩阵分别进行奇异值分解（SVD）。例如，对于矩阵M进行奇异值分解时，可将M分解为三个矩阵乘积的形式，公式如下：

M=U*S*V

其中，若M为m*n，则U为m*m，V为n*n，S为m*n。奇异值在S的对角线上，非负且按降序排列。

（2）对于正类文本矩阵和负类文本矩阵分别进行奇异值分解后，将分解后的最左矩阵U的上三角矩阵元素按行排成一个列向量。这两个列向量就是所需的映射后的列向量，称为正类列向量和负类列向量。

步骤九，对每一个测试样本，利用最近邻算法判断其类别，即通过计算两个向量间的欧式距离来判断距离测试样本最近的是正类列向量还是负类列向量，根据距离测试样本最近的列向量类别判断这个测试样本的类别。

本发明与现有技术相比，具有以下明显的优势和有益效果：

本发明在文本分类过程中不再需要逐一判断距离测试样本最近邻的样本，然后根据最近邻的样本决定这个测试样本的类别，而是将所有的正类样本和所有的负类样本分别看成一个样本，这样在计算某个测试样本的最近邻样本时，只需要计算两次（当为两类文本分类时），极大地减少了计算量，加快了分类的速度；同时，本发明在一定程度上避免了在分类过程中距离测试样本最近邻样本类别的偶然性，通过利用所用正、负类文本的映射向量来代表正、负类文本的信息，能够有效地利用全局正、负类文本的特征信息，提高了分类的正确性；此外，在本发明提出的通过向量组映射的文本分类思想不仅适用于两类文本分类，同时也可以应用于多类文本分类，可扩展性强。

附图说明

图1为本发明所涉及的文本分类的模块构成图；

图2为本发明所涉及的方法流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的描述。

基于向量组映射的两类文本分类方法的流程图如图2所示。一种基于向量组映射的两类文本的分类方法，其特征在于包括以下步骤：

步骤二，预处理数据集。

步骤三，提取总词表，统计词频，得到文档频率表。

步骤四，对训练样本集进行特征选取，得到特征向量表。

步骤五，为数据集中所有样本的特征项赋权值，得到每个样本的向量表示。

步骤七，将训练样本集中正、负类样本分别表示为一个全矩阵的形式。

步骤八，将训练样本中的正类文本矩阵和负类文本矩阵分别映射为一个向量。

步骤九，对每一个测试样本，利用最近邻算法判断其类别。

下面给出一个应用本发明对文本进行分类的实例。

从UCI数据集网站上收集Reuters数据集，共下载了68274篇文本，其中65740篇作为训练集，其余的2534篇作为测试集。本发明采用Reuters数据集中文本书目最多的前10类文本，包括acq、com、crude、earn、grain、interest、money-fx、ship、trade、wheat。各类文本详细信息如表1所示：

表1各类文本的信息列表

因本发明解决两类文本分类问题，而数据集共包含10个类别的样本，故在实验时指定其中的一类作为正类样本，其余的样本作为负类样本。

对于Reuters数据集，通过指定不同的类作为正类，测试10组数据以分析对比分类器的实验效果。例如当acq作为正类时，其余的9类都作为负类。每次实验中有6574篇文本作为训练样本，2534篇样本作为测试样本。分别计算最近邻分类器和基于向量组映射分类器的实验效果，这里以正确率、召回率和F1-测度三个指标进行评价。实验结果如表2所示。

表2以正确率、召回率和F1-测度为评价指标的实验结果

从以上实验结果中可以看出，在选定不同的类作为正类的情况下，基于向量组映射的文本分类算法三项指标普遍优于基于最近邻的文本分类算法。当ship作为正类时，因为数据的不平衡性，最近邻分类器将所有的样本都分为负类，此时的召回率为0，从而导致F1-测度无法计算。当计算最近邻分类器的各个评价指标的平均值时，不考虑这组数据。对于同样的数据，本发明的分类器仍然能够保证稳定的分类效果。从上表中可以看出，无论数据样本的平衡与否，本发明中的分类器都能保证分类的平均正确率在93%以上，平均召回率为84.1%，以及平均F1值为0.5888，充分证明了该方法的有效性以及优越性。

以上实施例仅用以说明本发明，而并非限制本发明所描述的技术方案。因此，一切不脱离本发明的精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于向量组映射的两类文本的分类方法，其特征在于包括以下步骤：

步骤一，收集数据集，将收集的数据集分为训练样本集和测试样本集；

步骤二，预处理数据集，方法如下：

将无结构化的数据处理为结构化数据，得到建立模型或应用模型进行分类的、包含各个文本属性字段信息的原始数据样本；对已结构化的数据样本进行分词，完成单词字符小写化、去停用词、删除标点符号以及词根还原的初步处理，统计每个测试样本以及训练样本的词频；

步骤三，对训练样本集，提取出总词表，方法如下：

对于总词表中的每一个词项，统计包含该词项的正类样本个数以及负类样本个数，过滤掉训练样本集中所有正、负类文档频率小于3的词项，得到文档频率表；

步骤四，对训练样本集进行特征选取，得到特征向量表；方法如下：

对于步骤三得到的总词表中的每一个词项，计算词项t对于文本类别c_i的χ²统计值χ²(t,c_i)；χ²统计值越高，它与该类之间的相关性越大，携带的类别信息也较多，计算公式如下：

χ^{2} (t, c_{i}) = \frac{N \times {(A D - C B)}^{2}}{(A + C) \times (B + D) \times (A + B) \times (C + D)}

其中，N表示训练样本集中的文本总数，A表示属于c_i类且包含t的文档频数，B表示不属于c_i类但是包含t的文档频数，C表示属于c_i类但是不包含t的文档频数，D是既不属于c_i也不包含t的文档频数；

步骤五，为数据集中所有样本的特征项赋权值，得到每个样本的向量表示，方法如下：

采用词频相关频率积(tf.rf)的赋权值方法，其中tf是词频，rf是相关频率；对于词项t_k，令文本d关于t_k的权值为ω_k，产生文本d的向量表示d＝(ω₁,ω₂,...,ω_n)；根据tf.rf按下式计算权值ω_k：

ω_k＝tf_k*rf_k

{rf}_{k} = \log_{2} (2 + \frac{a_{k}}{m a x (1, c_{k})})

其中，a_k表示在训练文档集中包含词项t_k的正类文本数，b_k表示不包含词项t_k的正类文本数，c_k表示包含词项t_k的负类文本数，d_k表示不包含词项t_k的负类文本数；

步骤六，将训练样本集表示成一个向量组，将测试样本集表示成另一个向量组；

步骤七，对步骤六得到的训练样本向量组分类，根据正负类的标记分为两组，并将所有正类文本和负类文本的向量组分别表示为一个全矩阵的形式，即得到正类文本和负类文本的矩阵表示形式；

步骤八，将训练样本中的正类文本矩阵和负类文本矩阵分别映射为一个向量，方法如下：

(1)对两个矩阵分别进行奇异值分解(SVD)，对于矩阵M进行奇异值分解时，可将M分解为三个矩阵乘积的形式，表示如下：

M＝U*S*V

其中，若M为m*n，则U为m*m，V为n*n，S为m*n；奇异值在S的对角线上，非负且按降序排列；

(2)对于正类文本矩阵和负类文本矩阵分别进行奇异值分解后，将分解后的最左矩阵U的上三角矩阵元素按行排成一个列向量，这两个列向量就是所需的映射后的列向量，称为正类列向量和负类列向量；