CN104598586B

CN104598586B - 大规模文本分类的方法

Info

Publication number: CN104598586B
Application number: CN201510024552.0A
Authority: CN
Inventors: 赵旭; 李建强; 桂琪; 亢阳阳; 孙靖超; 田猛
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-01-18
Filing date: 2015-01-18
Publication date: 2018-04-17
Anticipated expiration: 2035-01-18
Also published as: CN104598586A

Abstract

大规模文本分类的方法涉及计算机领域，为实现兼顾精度的大规模学习，需要通过构建具有最大差异性的多个分类器及实现多个分类器的高效集成决策来实现。该大规模文本分类的方法包括：将文本数据转换为向量数据，分割大规模文本数据集为子集；以分布式计算的方法使用子集训练子分类器；选择分类器；对待测样本进行分类，实现多分类器共同决策。本发明将集成学习框架应用于大规模文本分类上，可以使现有的分类方法适用于大规模文本分类，提高分类效率。

Description

大规模文本分类的方法

技术领域

本发明涉及计算机领域，更具体地涉及集成学习以及大规模文本分类的方法。

背景技术

文本分类(Text categorization)是指在给定分类体系下，根据文本内容自动确定文本类别的过程，按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档，20世纪90年代以前，占主导地位的文本分类方法一直是基于知识工程的分类方法，即由专业人员手工进行分类。人工分类非常费时，效率非常低。90年代以来，众多的统计方法和机器学习方法应用于自动文本分类，文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究，并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。

文本分类的研究可以追溯到上世纪六十年代，早期的文本分类主要是基于知识工程(Knowledge Engineering)，通过手工定义一些规则来对文本进行分类，这种方法费时费力，且必须对某一领域有足够的了解，才能写出合适的规则。到上世纪九十年代，随着网上在线文本的大量涌现和机器学习的兴起，大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练，建立一个判别规则或分类器，从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果，并且它的学习不需要专家干预，能适用于任何领域的学习，使得它成为目前文本分类的主流方法。

但由于近年数据集规模逐渐增大，使得计算机处理大规模数据信息的时间成本急速增加，而现有的分类方法更多侧重于分类精度的提高，对大规模文本分类不能很好地解决。因此人们开始尝试将集成学习框架应用于分类算法之中，应用多分类器共同工作和共同决策的方法分担大规模数据的工作量，以扩大传统分类方法的应用范围，提高分析大规模数据的效率，但仍然存在扩展性的问题，难以满足大规模文本分类的要求。

目前将集成学习框架应用于大规模文本分类的研究并不多，现有技术中，期刊“(IJCSIS)International Journal of Computer Science and Information Security,Vol.12,No.8,August 2014”2014年8月出版的第12期第8卷中的由Ahmad BasheerHassanat,Mohammad Ali Abbadi,

Ghada Awad Altarawneh,Karak,Jordan所著的论文“Solving the Problem ofthe K Parameter in the KNN Classifier Using an Ensemble Learning Approach；”中提出了应用集成学习方法解决KNN分类器中K值的问题。其中，将集成学习方法引入文本分类，很好的在传统KNN分类方法上(图1)，实现了多个不同K值的KNN分类器同时对待测样本进行决策的功能。具体地，该方法针对不同的待测样本的向量信息，选取距离样本最近的个样本作为子集，同时对不同K值的KNN分类器给与不同的权重对待测样本进行决策，以权重最大的类别作为结果输出(图2)。

上述方法虽然将集成学习应用于文本分类之中，但是它在扩展度上仍然有局限性，和现有的算法类似，其目的是提高决策结果的精度，并不能使现有方法在处理数据的规模上得到强化。在实际应用中，大规模文本数据会对该方法有很大的影响，例如该方法针对大量待测样本时，运算非常耗时。

发明内容

本发明是鉴于以上所述的一个或多个问题做出的。

本发明提出了一种大规模文本分类的方法，其特征在于步骤如下：

步骤1：将文本数据转换为向量数据：

将文本数据转换为TF-IDF向量数据，使文本数据成为多维向量数据；

步骤2：分割大规模文本数据集为子集；

步骤3：以分布式计算方法训练子分类器：

根据样本分割结果，以各个子集分别训练各自的子分类器；

步骤4：选择分类器处理待测样本：

根据测试样本的向量数据，选取所需的子分类器对测试样本进行分类；

步骤5：多个子分类器共同决策：

这是集成学习方法在大规模文本分类中的应用，为实现兼顾精度的大规模文本分类，通过构建具有大差异性的多个子分类器，并实现多个子分类器对测试样本共同决策。

步骤2中依据每个样本的向量数据，计算样本间距，不断将相互间距小的样本合并生成子集，当子集中的样本数目大于λm后，将子集分割成为样本数量不少于m的数个子集；其中λ，m为整数，λ取值为1～3，m取值大于1000。

训练过程采用分布式计算的方式，由多台电脑同时负责子分类器的训练，提高了大规模文本数据集训练分类器的效率。对于训练子分类器的算法，并不局限一种特定的算法，现有的文本分类算法如SVM,KNN,NB等算法均可适用于本分类系统。

步骤4中具体如下：当测试样本D进行分类时，首先通过D的向量信息，选取距离D最近的数个(3-5个)子集所对应的子分类器，组成子分类器集合距离计算公式为

之后选取子分类器与D的夹角余弦最小的1-2个子分类器加入集合M；然后对M中的各子分类器给予不同的权重，权重依据子集与D的距离而定，w(i)＝∑d(i)/d(i)，w为权重，d为距离，i为M中的子分类器序号，之后使用M中的各子分类器对D进行分类，投票决策结果取决于各分类器对待测样本的分类结果的权重和，将结果按照类别，把权重相加，取权重最大的类别作为待测样本的结果。

根据本发明一个实施例的大规模文本分类方法包括：将文本数据转换为向量数据，分割大规模文本数据集为子集；以分布式计算的方法使用子集训练子分类器；选择分类器处理待测样本；对待测样本进行分类，实现多分类器共同决策。本发明相对于现有的文本分类方法，可以使现有的文本分类方法处理大规模文本数据，不但能兼顾文本分类精度，同时使用分布式计算的方法提高对大规模文本数据处理的效率。

附图说明

结合附图，从下面对本发明实施例的详细描述，将更好地理解本发明，其中：

图1传统KNN分类方法

图2集成学习在传统KNN分类方法上的应用

图3(a)集成学习应用于大规模文本分类

图3(b)集成学习应用于大规模文本分类

图4大规模文本分类方法流程图

图5(a)合并分割样本为数个子集

图5(b)根据测试样本D选取子集

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例。下面的描述涵盖了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说显而易见的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更清楚的理解。本发明绝不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了相关元素、部件和算法的任何修改、替换和改进。

鉴于以上所述的传统文本分类算法在处理大规模文本分类上的问题以及集成学习融入KNN分类器的论文中的问题，本发明提出了大规模文本分类方法。下面结合图3(a)和图3(b)，说明根据本发明一个实施例的大规模文本分类方法示例。

图3(a)(b)示出了根据本发明一个实施例的大规模文本分类方法的简要框图。图4示出了根据本发明一个实施例的大规模文本分类方法的简要流程图。图5(a)(b)示出了根据本发明一个实施例的大规模文本分类方法的一个简单样例。

如图3(a)所示，根据本发明一个实施例的大规模文本分类方法包括初始数据处理装置、训练子分类器装置、以及待测样本装置，它们的功能如下：初始数据处理装置用于对大规模文本数据进行样本处理(即，将初始文本集转换为向量集并分割数据集为子集SD(i)，计算每个子集的中心向量O(i))。训练子分类器装置用于子分类器的训练(即，使用分割数据集产生的子集训练子分类器C(i))。待测样本装置用于对待测文本进行分类(即，通过选取所需的子分类器，给与不同分类器不同权重，统合各分类器结果，以权重最大的类别作为结果输出)。

具体地，通过给出由根据本发明一个实施例的大规模文本分类方法的示例，详细解释每一步工作及结果：

如图4所示，在前两步完成对初始大规模文本数据集的处理：1.将文本类型的数据转换为TFIDF信息的向量数据。2.根据各样本的向量，进行合成与分割产生数个子集。具体合并和分割子集算法如下：

Diversity-aware training dataset splitting algorithm

Input:training dataset T,the minimum number of instances in

each sub-dataset m

Output:multiple sub-datasets{SD1,SD2,SD3,…,SDn}

1:Init:create a SD for each instance；

2:Loop:

3:For each group|SD|<m

4:scan all other SDs once to find a SD′such that:

5:RAD(SD∪SD′)is minimized；

6:merge sub-dataset SD and SD′

7:If all the|SD|≥m

8:break Loop

9:For each SD such that|SD|≥λm

10:split the SD into|G|/m SDs such that:

11:each SD has at least m instances；

12:Output{SD1,SD2,SD3,…,SDn}

13:End:

3.计算各子集的中心向量O(i)。这样就完成了对初始数据的处理。

第三步要进行子分类器的训练，现有的分类方法均适用于此处，我们使用分割好的子集分别训练子分类器，这个过程可以使用分布式计算的方式进行，使用多台电脑同时工作提高效率，从而得到各子集对应的子分类器。

之后的步骤为该系统对待测样本的处理，当待测样本D需要分类时，首先通过D的向量信息，选取距离D较近的数个子集所对应的子分类器，组成子分类器集合M(M将对待测样本进行分类决策)，之后选取子分类器与D的夹角余弦最小的几个子分类器加入集合M。然后对M中的各子分类器给予不同的权重(依据其子集到D的距离而定，公式如图所示)，之后使用M中的各子分类器对D进行分类，按类别统计，将权重最大的类别作为结果输出。子分类器选择及投票算法如下：

Sub classifier selection and voting algorithm

Input:test instance D,subdata(SD1,O(1)),(SD2,O(2)),...,(SDn,O(n)),subclassifier C1,C2,...,Cn

Output:D.class

1:Init；

2:Loop:

3:For each subdata

4:calculate the distance from D to O(i)

5://欧几里德距离

6:calculate the cosine c(i)between D and O(i)

7：

8：selected 3-5classifiers C(i)with the smallest d(i)and 1-2classifiers C(i)with large c(i)to M；

9:For each classifier in M

10:w(i)＝∑d(i)/d(i)；//计算M中的分类器的权重

11:For each C(i)such that C(i)∈M

12:use C(i)to classify D；

13:if C(i).result＝j

14:D.class(j)＝D.class(j)+w(i)；//将分类结果相同的权重相加

15:D.class is the one with max D.class(i)；

16:End:

17:Output D.class

图5(a)和图5(b)对本发明实施例的大规模文本分类方法合并分割样本及对测试样本选取子分类器的一个简单举例。假设各样本都是二维向量，初始样本分布在空间中。逐渐根据样本间距合并为数个子集，当对测试样本D进行分类时，根据D在空间中的位置，选取3个离D最近的3个子集以及2个与D的夹角余弦最小的2个子集。使用这5个子集分别训练出的分类器对D进行分类，根据各子集到D的空间距离赋予不同的权重，根据分类结果的权重和，取最大的类别作为测试样本D的分类结果。

上面已经参考附图对根据本发明实施例的大规模文本分类方法进行了详细描述。如前所述，本发明将集成学习技术和分布式计算溶入大规模文本分类中，是一种兼顾文本分类方法的分类精度和可扩展性两个方面需求的分布式大规模文本分类算法，相对于现有的文本分类算法，本发明可以将现有算法应用于大规模文本分类上，改善现有技术的一些缺陷，提高效率和扩展性。

但是，需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神之后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而系统体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种大规模文本分类的方法，其特征在于步骤如下：

步骤1：将文本数据转换为向量数据：

步骤2：分割大规模文本数据集为子集；

步骤3：以分布式计算方法训练子分类器：

根据样本分割结果，以各个子集分别训练各自的子分类器；具体包括训练过程中采用分布式计算的方式，由多台电脑同时负责子分类器的训练，提高大规模文本数据集训练分类器的效率；

步骤4：选择分类器处理待测样本：

根据测试样本的向量数据，选取所需的子分类器对测试样本进行分类；具体包括：当测试样本D进行分类时，首先通过D的向量信息，选取距离D最近的数个子集所对应的子分类器，组成子分类器集合距离计算公式为

之后选取子分类器与D的夹角余弦最小的1-2个子分类器加入集合M；然后对M中的各子分类器给予不同的权重，权重依据子集与D的距离而定，w(i)＝∑c(i)/c(i)，w为权重，c为距离，i为M中的子分类器序号，之后使用M中的各子分类器对D进行分类，投票决策结果取决于各分类器对待测样本的分类结果的权重和，将结果按照类别，把权重相加，取权重最大的类别作为待测样本的结果；

步骤5：多个子分类器共同决策：

2.根据权利要求1所述的大规模文本分类的方法，其特征在于：步骤2中依据每个样本的向量数据，计算样本间距，不断将相互间距小的样本合并生成子集，当子集中的样本数目大于λm后，将子集分割成为样本数量不少于m的数个子集；其中λ，m为整数，λ取值为1～3，m取值大于1000。

3.根据权利要求1所述的大规模文本分类的方法，其特征在于：步骤3中训练子分类器的算法为SVM、KNN或NB。