CN105740424A

CN105740424A - 一种基于 Spark 平台的高效率文本分类方法

Info

Publication number: CN105740424A
Application number: CN201610066429.XA
Authority: CN
Inventors: 唐卓; 鲁彬; 李肯立; 李巧巧; 陈建国; 熊燎特
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2016-01-29
Filing date: 2016-01-29
Publication date: 2016-07-06

Abstract

本发明提供了一种基于Spark平台的高效率文本分类方法，该方法包括：在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；Spark平台从HDFS文件系统中读取数据，将数据转换为RDD并将其存储在内存；将所有任务分为不同的stage，然后运行各个任务；对RDD进行预处理；进行训练；测试分类模型。本发明弥补了朴素贝叶斯模型的缺点与不足，还提高了处理的速度；还对数据挖掘和机器学习起到了有效地促进作用：促进了传统的数据挖掘算法向并行的数据挖掘算法转变；对贝叶斯算的改进提高了分类的精度；促进了以Spark平台为基础的算法的改进；最后提高了集群资源利用率。

Description

一种基于 Spark 平台的高效率文本分类方法

技术领域

本发明涉及大数据处理技术领域，尤其涉及一种基于Spark平台的高效率文本分类方法。

背景技术

随着信息技术的快速发展和互联网逐渐的被广泛应用，现在互联网已经成为最重要的信息来源了。特别是云计算和大数据时代的来临，互联网上的数据正在呈指数级增长。它们具有如下特点：数据量大、维度高、结构复杂不规则，而且包含大量的噪声数据，但是他们蕴含着大量的商业价值。面对如此庞大、复杂的信息，如何快速的组织、管理、利用、挖掘出有价值的信息是一些非常重大的挑战。

现今大部分的数据都是以文本的形式存贮在互联网的。文本分类技术是信息检索和文本挖掘的重要基础。它的主要工作是根据先前定义的规则自动的将文本分成不同的类别。

朴素贝叶斯算法常用的十大经典的数据挖掘算法之一。经常应用于文本分类，数据挖掘等方面。它简单、运行速度快、易于实现，并且分类效果好。贝叶斯分类算法主要有两种模型：多变量伯努利模型和多项式模型。多变量伯努利模型将每一个特征项规看做是一个变量，且每个变量为二元变量，多项式模型的特征项取值规定为特征项在文本中出现的频率。由于多变量伯努利模型仅考虑了特征性是否在文档中出现，没有考虑出现的次数对文档类别的影响。而多项式模型将特征项在文档中出现的次数作为特征项的权重。所以最近许多学者都将多项式模型作为文本分类的研究基础。

ApacheSpark作为一种当今最流行的分布式计算框架之一，它是基于内存计算和并行计算的，非常适合大数据挖掘和机器学习。在速度方面，它是基于内存计算的，而Hadoop将中间计算结果写到HDFS文件系统，每次读写操作都要读写HDFS文件系统，所以Spark比Hadoop要快上100倍；而访问磁盘的速度比Hadoop快10倍。所以Spark更适合运行更复杂的算法，例如：迭代计算、图计算等。不仅如此，Spark支持对数据集的多种操作，如：map,filter,flatmap,reduceByKey等；而MapRduce只支持两种操作map和reduce。

自2009年，Spark诞生于加州伯克利大学AMPLab以来，到2013年成为Apache基金项目，它一直在快速的发展。在大数据挖掘领域，一直走在前沿。从数据处理的层面上来看，它包含批处理，交互式处理、流式处理等多种数据处理方式。从支持的云平台来看，有Hadoop,Cassandra,Mesos等多家云供平台应商。除了伯克利大学及Databricks公司自身外，Intel,IBM,Yahoo,Amazon等也一直在研究、利用、改进、发展它，国内腾讯、淘宝、优酷土豆等都在用Spark进行数据分析和机器学习，例如：进行数据的存储、清洗、聚类分析、协同过滤等。

(1)特征项

在分类模型中每一个特征项代表了一个对分类有用的特征属性，其值称为特征项权重，其计算方法有TF(单一词频)、TFIDF(词频反转文档)等。

(2)先验概率

根据历史记录和资料，分析得到的概率，如全概率中的“因”。在此分类模型中，它表示为类先验概率。

(3)条件概率

条件概率又称后验概率，是某事件在已知事件发生的前提下发生的概率。在此分类模型中，它表示为已知某个文档属于某个类的概率。

(4)VSM(向量空间模型)

将文本经过一系列的处理后，转换为对应的向量，向量的维度为文档中对应的特征项的数量，每一位的值为特征项的权重。每一个文档都转换成一个向量，最后会形成一个矩阵，由于文档中的特征各不相同，所以对应的向量取值也不同，这样就导致向量的稀疏性，从而形成的矩阵为稀疏矩阵。

(5)分类模型

根据贝叶斯公式及定理，然后根据TFIDF权重计算方法将文本转换成对应的向量，建立分类模型，此模型用于分类器参数的确定，和分类结果的测试。

(6)RDD(弹性分布式数据集)

RDD是Spark中一个容错的、并行的数据结构，可以根据用户的要求将数据存储到磁盘和内存中，并且能根据用户的设定设置分区数量。不仅如此，RDD还提供了一组丰富的操作来操作数据集。

(7)Job

一个job对应一个工作任务，它包含了很多的task，每一个task是一个能单独运行的线程。

(8)Task

被Driver端送到worker端上的executor上的工作单元，一个task通常会处理一个数据分片。

(9)Worker

集群中实际运行应用程序的代码与处理数据的工作节点，相当于Hadoop的slave节点。

(10)ClusterManager

集群资源管理的外部服务，支持Spark集群的资源管理器主要有Standalone、Yarn、Mesos等。其中Standalone是Spark自带的资源管理器，它能满足大部分计算环境中的资源管理。Yarn是Hadoop2.0的升级版，能够支持资源的和管理。Mesos提供了有效，跨分布式应用或框架的资源隔离和共享，可以运行Hadoop、MPI、Hypertable、Spark。使用了ZooKeeper实现容错复制，使用LinuxContainer来隔离任务，支持多种资源计划分配。

目前大多数的机器学习算法还是串行的，当数据量不大时，可以用串行的；但随着云计算和大数据时代的来临，数据呈指数增长，传统的串行算法显然不能满足处理的要求，而且之前的网格计算和并行计算资源利用率不高，导致成本很大，而且要求专门的服务器，不能将普通的PC机利用起来，Hadoop虽然可以满足一部分的大数据处理，但是它是通过map函数和reduce函数来实现功能的，map函数和reduce函数之间的通信都是通过HDFS文件系统的。这样Hadoop的读写HDFS文件系统的次数增加了，导致网络传输增加。而Spark是基于内存计算的分布式框架，它将要计算的数据和中间计算结果缓存到内存中，这样可以减少读写磁盘的次数，降低了网络传输带来的代价。

总之将数据挖掘算在Spark上运行实现既能够提升效率，又能有效地利用资源。

发明内容

本发明的目的在于提供一种基于Spark平台的高效率文本分类方法，将朴素贝叶斯算法加以改进并在Spark上实现，克服以多项式为基础的贝叶斯分类模型只考虑了文本中特征项占类中的比例、而没有考虑特征项所述类在整个训练集所占比例和含有该特征项的文档数占所有文档数的比例的缺陷。

本发明的目的是通过以下技术方案实现的。

一种基于Spark平台的高效率文本分类方法，包括：

(1)在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中；

(2)通过客户端向Spark平台提交作业，Spark平台从HDFS文件系统中读取数据，将读取的数据转换为弹性分布式数据集RDD，并将其存储在内存中；

(3)根据所述RDD中的分区partition之间的依赖关系，Spark平台将所有任务分为不同的任务组stage，然后运行各个stage中的任务。

(4)在所述Spark平台上，对所述RDD进行预处理并将结果输出到HDFS文件系统上；

(5)进行训练，将步骤(4)中缓存的RDD中的文本内容进行向量化，转化为分布式行向量；并且通过特征项的权重计算，计算每一个特征项的权重。然后根据改进的条件概率公式，计算条件概率、weightsPerFeature(训练集特征项频率之和向量)和weightsPerLab(训练集标识频率向量)，并且这些参数广播到各个工作节点；

(6)测试分类模型，各工作节点通过L(d)＝argmax[h₀+Σ_jf_jW_0，j]计算出文本在所有类中最大概率，最后将结果输出。

其中，所述步骤(2)中，根据用户程序设定的RDD中partition数目来启动一定数目的并发线程数读取数据。

其中，所述步骤(4)中，在所述Spark平台上对所述RDD进行预处理并将结果输出到HDFS文件系统上的方法进一步包括：

各个工作节点从RDD中读取数据进行转换操作，先进行filter操作，过滤掉其中的停用词，以去除文本中的一些对分类无实际作用的噪声数据；然后对数据集中的特征项按照信息增益方法过滤掉一些信息增益很小的特征项，并将此时的RDD拷贝一份缓存起来；接着对数据集中的特征项进行聚合操作，最后在将各工作节点的结果输出到HDFS文件系统上。

其中，所述Spark平台由低层至高层依次包括：存储系统、资源管理器、计算框架及应用层。

本发明实施例与现有技术相比，本发明具有以下优点：

本发明提出的基于Spark平台的高效率文本分类方法，通过去除噪声算法和信息增益算法达到降噪、降维的目的，然后以多项式模型为基础建立分类模型，将文档转换成向量，计算其TFIDF权重后转换成分布式行向量。在计算条件概率时将特征项的全局影响因素和局部影响因素综合起来考虑，提高了分类的精度。本分类方法在Spark上实现，实现了大数据的快速并行处理，极大地提高了处理的速度。

本发明弥补了以多项式模型为基础的朴素贝叶斯模型的缺点与不足，同时还提高了处理的速度。此外还对数据挖掘和机器学习起到了有效地促进作用：第一促进了传统的数据挖掘算法向并行的数据挖掘算法转变；第二、对贝叶斯算的改进提高了分类的精度；第三、促进了以Spark平台为基础的算法的改进；最后提高了集群资源利用率。

附图说明

图1是本发明实施例提供的基于Spark平台的高效率文本分类方法流程图；

图2是本发明所述方法依赖的Spark生态系统架构图；

图3是本发明实施例提供的大数据的预处理流程图；

图4是本发明实施例提供的训练和测试图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本实施例中基于Spark平台的高效率文本分类方法包括以下步骤：

步骤101：在物理服务器上构建具有虚拟机的HDFS文件系统和Spark平台，并将数据集上传到HDFS文件系统中。

步骤102：通过客户端向Spark集群提交作业，Spark从HDFS文件系统中读取数据，将输入数据转换为弹性分布式数据集(RDD)并根据用户程序设定的RDD中partition数目来启动一定数目的并发线程数读取数据，并将它存储在内存中。

步骤103：Spark的DAGScheduler根据RDD中的partition之间的依赖关系，将任务分为不同的stage，从Job的逻辑执行图中，从后往前推算，遇到ShuffleDependency就将其加入该stage。每个stage里面task数目由该stage最后一个RDD中的partition个数决定。如果stage最后要产生result，那么该stage将被划分为ResultTask，否则都是ShuffleMapTask。然后将stage作为tasksets提交给底层的TaskScheduler，TaskScheduler负责向cluster发送tasksets，并且调用backend来运行task。

步骤104：对数据集进行预处理，各个worker节点从RDD中读取数据进行transformation操作，先进行filter操作，过滤掉一些停用词，这样可以去除文本中的一些对分类无实际作用的噪声数据。此时数据集转换为FilteredRDD1，然后对数据集中的特征项按照信息增益方法过滤掉一些信息增益很小的特征项，已达到降维的目的，数据集转换为FilteredRDD2，并将此时的RDD拷贝一份缓存起来。接着执行reduceByKey操作对数据集中的特征项进行聚合操作，最后在将各工作节点的的结果发送到Driver端，输出到HDFS文件系统上。

步骤105：进行训练，将步骤三缓存的RDD中的文本内容进行向量化，转化为分布式行向量。并且通过特征项的权重计算，计算每一个特征项的权重。然后根据改进的条件概率公式，计算条件概率、weightsPerFeature和weightsPerLab，并且这些参数广播到各个工作节点。

步骤六：测试分类模型，各工作节点通过L(d)＝argmax[h₀+Σ_jf_jW_0，j]计算出文本在所有类中最大概率，最后将结果输出。

图2描述了Spark生态系统架构图。Spark的底层存储系统可以为HDFS分布式文件系统、AmazonS3文件系统、Hypertable、Hbase、本地文件系统等。它的上层是各种支持的资源管理器，如：LocalModel，Standalone，EC2，Mesos，Yarn等，资源管理器管理整个系统的资源分配和调度，如：对各工作节点分配的cpu数，内存大小，网络带宽等。Spark的计算框架是在资源管理器的上层，与资源管理器协同配合实现计算操作完成用户的计算任务。最上层是各种应用，如：Bagel，Shark，StremingSpark，MachineLearning等。它们能为用户提供各种功能需求，实现各种复杂的工作任务等。

图3描述了在Spark上的预处理过程中数据集的变化形式。

步骤1：从HDFS上读取数据集，将数据集存储到RDD中。

步骤2：将上一步形成的ParallelCollectionRDD通过filter操作过滤掉一些对分类有害的噪声数据，此时，数据集转换为FilteredRDD。

步骤3：通过信息增益法将那些信息增益低于一定阈值的特征词去除，此时RDD的形式还是FilteredRDD。并且将这一步中的RDD复制一份留着以后用。

步骤4：通过reduceByKey对单词进行计数，并按照预先定义的规则进行编码。此时RDD转换成了ShffuledRDD。

步骤5：将各工作节点的值进行汇总统计，并传送到Driver端，最后输出到HDFS文件系统上。

所述整个过程都在内存中进行，除了最后一步将结果保存到HDFS文件系统上，其它步骤都是运行在内存中的。这样极大地提高了运算速度。

图3描述了贝叶斯分类器的训练和测试过程。

步骤1：将预处理过程中复制的RDD通过map函数给每一个文本添加一个类别。

步骤2：对上一步RDD进行计算，计算的方法为TFIDF权重计算方法，将文本转换成分布式行向量。此时RDD编程MappedRDD。

步骤3：训练模型，根据改进的条件概率公式训练模型的参数，计算出weightsPerFeature，weightsPerLab等参数，并将它们设为全局变量，广播到各工作节点。

步骤4：测试，计算文档在各类中的概率，将概率最大的类作为最后的类别。并将结果输出。

为了验证本发明所述方法的可靠性，将此方法与其它方法进行了对比，我们选取了20newsgroup，Reuters21578，SogouLab_Reduce，Fudancopora四种数据集，并且随机地选取了60％作为训练集，40％作为测试集。

从下表1中可以看出改进的贝叶斯方法在四种数据集上的分类精确度是最高的，相比TF权重计算的且没有改进的贝叶斯方法有很大的提高。相比TFIDF权重且没有改进的贝叶斯算法也有一定的改进。

表1各种分类方法在不同数据集上的精确度

Accuracy	TF	TFIDF	Improved Bayesian
				20news-18828	0.68	0.879	0.908
Reuters21578	0.911	0.923	0.939
				SogouLab_Reduced	0.649	0.809	0.822
Fudan corpora	0.776	0.832	0.84

下表2中F1值也反映出了改进的贝叶斯算法在四种数据集上的综合性能是最好的，改进的贝叶斯算法在相比单一TF权重和TFIDF权重算法有一定的改进。在20newsgroup数据集上InprovedBayesian的F1值比TF的高14.4％，比TFIDF高2.7％，在其它数据集上也是一样。

表2各种分类方法在不同数据集上的F1值

F1	TF	TFIDF	Improved Bayesian
				20news-18828	0.764	0.881	0.908
Reuters21578	0.92	0.928	0.939
				SogouLab_Reduced	0.723	0.821	0.83
Fudan corpora	0.762	0.823	0.831

综上，本发明应用HDFS文件系统的高容错性、高数据访问吞吐量，将大量的数据集上传到HDFS文件系统中，然后将Spark数据预处理程序通过客户端提交到Spark集群，Spark是基于并行计算和内存计算的云平台，它会将提交的工作化分为一系列的子任务，接着根据数据就近和本地性原则将任务分发到各工作节点，预处理完后，各工作节点利用改进的贝叶斯算法，训练数据，计算各个类别下的特征项的权重，建立贝叶斯分类模型，获得到模型参数，最后利用改进的分类模型测试分类精度。各个任务并行的运行在工作节点上，提高了任务的并行度，减少了数据的处理时间，且大部分数据都驻留在内存中，减少了读写HDFS文件系统的次数，也减少了数据传输的网络开销。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Spark平台的高效率文本分类方法，其特征在于，该方法包括：

(3)根据所述RDD中的分区partition之间的依赖关系，Spark平台将所有任务分为不同的任务组stage，然后运行各个stage中的任务；

(5)进行训练，将步骤(4)中缓存的RDD中的文本内容进行向量化，转化为分布式行向量；并且通过特征项的权重计算，计算每一个特征项的权重；然后根据改进的条件概率公式，计算条件概率、训练集特征项频率之和向量、训练集标识频率向量，并且将这些参数广播到各个工作节点；

(6)测试分类模型，各工作节点计算出文本在所有类中最大概率，最后将结果输出。

2.如权利要求1所述的基于Spark平台的高效率文本分类方法，其特征在于，所述步骤(2)中，根据用户程序设定的RDD中partition数目来启动一定数目的并发线程数读取数据。

3.如权利要求1所述的基于Spark平台的高效率文本分类方法，其特征在于，所述步骤(4)中，在所述Spark平台上对所述RDD进行预处理并将结果输出到HDFS文件系统上的方法进一步包括：

4.如权利要求1所述的基于Spark平台的高效率文本分类方法，其特征在于，所述Spark平台由低层至高层依次包括：存储系统、资源管理器、计算框架及应用层。