CN107194411A

CN107194411A - 一种改进的分层级联的支持向量机并行化方法

Info

Publication number: CN107194411A
Application number: CN201710237933.6A
Authority: CN
Inventors: 王念滨; 陈龙; 何鸣; 周连科; 王红滨; 童鹏鹏; 王瑛琦; 陈锡瑞; 赵新杰; 王昆明
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2017-04-13
Filing date: 2017-04-13
Publication date: 2017-09-22

Abstract

本发明提供的是一种改进的分层级联的支持向量机并行化方法。通过改进的Cascade SVM算法得到了优化：首先，改进算法中c的引入，用于在层级训练过程中，衡量每一层训练中得到的模型支持向量个数的变化情况。其次，通过调整模型训练过程中的合并策略和层次结构，每层训练得到的支持向量的合并方式由两两合并，优化调整为全部合并之后再进行平均切分，这样避免了两两进行合并方式中存在过滤非边界样本不足的缺点。本发明可以保证不失分类精度的前提下，同时借助当前主流的Spark并行框架，有效地缩短模型训练时间，提高模型的训练和分类效率。

Description

一种改进的分层级联的支持向量机并行化方法

技术领域

本发明涉及一种改进的Casade SVM并行化方法。

背景技术

在大数据时代下，随着互联网和信息技术的快速发展和广泛应用，产生了与人们生活息息相关的各种海量数据。其中在这些纷乱混杂的数据中，非结构化的文本信息占主要部分。面对如此巨大的文本数据，人们很难迅速地获取自身有用的信息。如何快速地处理和发掘这些数据信息成为当前面临的一大难题，这也促进了文本分类相关技术的深入研究广泛运用。文本分类是数据挖掘范围中十分重要和热门的技术，文本分类技术可以把数量巨大的非结构化文本数据采用计算机能理解的方法进行计算，从而帮助人们更好、快速地获取真正需要的信息，广泛应用在舆情分析、和个性化推荐等领域中。

支持向量机SVM是数据挖掘领域中在统计学习基础上的一种分类算法，通过将分类间隔最大化来构造最优分类超平面，来增强模型的泛化能力。其优点是很少出现过拟合现象，而且不依赖于特征的维数，在高维空间中具有很好的泛化能力。因此本发明在进行文本分类任务相关研究时，选用SVM作为分类器，进行文本分类任务的研究。

Cascade SVM是一种分层级联的SVM并行训练算法，其基本思想是：通过对数据集切分和滤除每级训练过程中的非支持变量来达到对模型加速训练的效果。其中CascadeSVM算法的训练过程如图1所示，在开始第一层训练时，将模型原始训练集切分成独立的训练子集，然后在每个子数据集上独立的进行SVM训练，得到各自对应的局部支持向量，并将得到的局部支持向量两两进行合并成为下一层的输入，照着这样依次类推，直到最终结果合并为一个数据集，在此基础上训练出全局支持向量，然后验证得到的全局支持向量是否满足训练的精度，如果满足要求则训练结束，否则将最后的得到的全局支持向量反馈合并到第一层的数据集，继续进行迭代训练，直至最后输出训练模型。

对于Cascade SVM算法这种二分级联训练结构，在大数据集下训练时，能够节省大量的计算时间和存储空间，是一种应用广泛SVM大规模并行训练学习方法。但是这种层叠结构目前有两个不足之处：

(1)由Cascade SVM的这种二分级联结构可知，在模型并行训练过程中，假设第一层执行N个独立的SVM，那么第二层只能执行N/2个SVM，依照这种方式到最后一层只能进行一个SVM的训练。假设模型训练在包含N个节点的集群上进行训练，那么在模型训练过程中会出现大量的节点资源空闲，这样导致集群的资源利用率不高。

(2)在整个层级训练的过程中，第一层SVM训练结束后，大部分的非支持向量被剔除掉，后面的层级训练中滤除的非支持向量数量较少，但是消耗了计算所用的大量时间。

发明内容

本发明的目的在于提供一种能够有效地降低训练时间和资源空闲，能够避免两两进行合并方式中存在过滤非边界样本不足的问题的改进的分层级联的支持向量机并行化方法。

本发明的目的是这样实现的：

(1)输入训练数据集到HDFS(Hadoop Distributed File System)分布式文件存储系统；

(2)从HDFS上读取训练数据集，生成RDD(Resilient Distribute Dataset)弹性分布式数据集，并根据指定的N值切分成样本均匀的子数据集，N为并行的机器数；

(3)对于

(4)在N/2^i-1个数据块上分别进行独立的SVM训练，将训练得到的支持向量合并为全局支持向量MDi；

(5)设c的值为本层得到支持向量的个数同上层得到支持向量个数的比值，如果c＞预设值；

(6)跳转到步骤(10)；

(7)否则执行下面步骤；

(8)将MDi均匀切分为N/2ⁱ份子数据集；

(9)循环结束；

(10)将MDi作为全局支持向量，进行SVM训练；

(11)直至满足停机条件，输出支持向量机模型。

本发明主要针对在大规模数据集下，采用SVM的分类器模型进行分类。为了实现文本分类的并行化，本发明将围绕着在不损失文本分类精度的前提下，如何提高模型训练效率进行详细地阐述。针对如何通过改进的现有的Cascade SVM并行算法，有效提高文本分类的效率、实现文本分类的并行化是当前研究的关键问题。本发明主要针对当前主流的SVM并行算法Cascade SVM进行研究与改进，提出了一种改进的Casade SVM并行化方法。

(1)改进的Cascade SVM算法

本发明在Cascade SVM算法的基础上，提出了一种改进的Cascade SVM训练算法。新算法仍然保留了Cascade SVM算法的主要思想和理论，把大规模数据集切分为小的子数据集，来降低单独进行SVM训练的数据规模，最终通过局部寻优达到全局最优的目的。

针对在模型层级训练中，后面层级得到的支持向量个数同上层得到的支持向量个数变化不明显，却还仍然继续进行迭代训练，耗费大量的时间，改进的Cascade SVM算法中首先引入了一个比例参数c，其中c的值为本层得到的支持向量个数同上层得到的支持向量个数的比值。c的值一般预设为0.95，当c大于预设的值时，即可认为此时模型训练得到的支持向量即为本次迭代中最终的支持向量集，然后再进行支持向量机训练，如果得到的支持向量机满足要求则输出模型，否则仍然采用和Cascade SVM算法中相同的方法，将最终的支持向量集反馈合并到第一层数据集进行迭代训练，直到最终支持向量机满足迭代结束条件。通过这种方式，可以有效地减小模型中后层训练消耗的时间，同时也减少了计算资源的空闲时间。

其次改进的Cascade SVM训练算法还从模型训练的合并策略和层次结构上做出相应的调整，首先每层训练得到的支持向量的合并方式由两两合并，优化调整为全部合并之后再进行平均切分。

图2是改进的Cascade SVM算法处理过程，其中TDi表示训练数据块，在第一层时，首先将模型的原始训练集分割成N份子数据集，切分过程中要保证每个子数据集中样本分布均匀，这里取N＝8，则子数据集表示为(TD1-TD8)。然后每台处理器在对应的子数据集上单独地进行SVM训练，每次训练过程中采用SMO的优化算法，进行模型求解，训练中滤除大量的非边界样本，得到该训练集的支持向量。将得到的8个支持向量集进行合并，从而得到MD1全局模型的支持向量集。接下来将MD1平均切分为4份，分别用MTD1-MTD4表示，然后对这些新分的数据分别单独地进行SVM训练，再将训练得到的4个支持向量集合并为MD2。此时，MD2中支持向量的个数和MD1中支持向量的个数比值为c，若c值大于模型设定的值，将MD2得到的作为本次迭代中的最终支持向量集，进行SVM训练。若c值小于预设值，那么将沿层级结构继续进行切分，将MD2切分成2份，用MD5-MD6表示。然后对这两份支持向量集独立地进行SVM训练，再将训练得到的2个支持向量集合并为MD3。将MD3作为本次迭代中最终的支持向量集进行SVM训练，得到此次迭代的最终支持向量机结果，若此次迭代得到的最终结果满足迭代停止条件，则输出训练好的模型，否则将最终的支持向量集合并到第一层原始数据集接着进行迭代训练，直至满足迭代的停机条件。这样循环迭代进行上述过程，最后得到一个全局最优的训练模型。

(2)基于Spark的改进Casade SVM算法的并行化

Spark是一种基于MapReduce思想实现的并行分布式框架，其不同之处在于Spark主要基于内存计算，它首先会对作业流程进行整体分析，在生成一个有向无环图的基础上执行作业，作业会按照设定的有向无环图执行，作业的中间结果可以选择保存在内存中，这样就不用再频繁的读写HDFS，减少了大量的磁盘IO操作，这种特性使得它非常适合一些需要大量进行迭代运算的数据挖掘和机器学习算法。Spark中采用了一种新的数据抽象模型，即分布式数据集RDD，RDD是分布于集群中的数据集合，该集合是只读的，并且具有容错机制，RDD是一个已被分区的，不可变的并且能够被并行执行的数据集合，可以将RDD简单理解为一个分布于集群中的一个数组。

本发明的有益效果为：

对比Cascade SVM算法的不足之处，通过改进的Cascade SVM算法得到了优化：首先，改进算法中c的引入，用于在层级训练过程中，衡量每一层训练中得到的模型支持向量个数的变化情况。通过这种表征方式，可以有效地观察到模型中支持向量的下降比例，若c大于预设值，则跳出层级训练。这样可以避免Cascade SVM算法中经过几层或者若干次迭代后，在模型的支持向量个数已经变化不大，却还要继续进行训练，从而消耗了大量计算时间的情况。通过新算法的改进，经过几层或者若干次迭代，就可以滤除大部分的非支持向量，得到模型的最终的支持向量集。通过这种改进方式，有效地降低了模型的训练时间和资源空闲。其次，通过调整模型训练过程中的合并策略和层次结构，每层训练得到的支持向量的合并方式由两两合并，优化调整为全部合并之后再进行平均切分，这样避免了两两进行合并方式中存在过滤非边界样本不足的缺点。

本发明提出改进的Cascade SVM算法可以保证不失分类精度的前提下，同时借助当前主流的Spark并行框架，有效地缩短模型训练时间，提高模型的训练和分类效率。因此本发明中提出的一种改进的Casade SVM并行化方法，在当前大规模数据环境下，通过提升文本分类效率，具有的一定学术和工程实用价值。

附图说明

图1为Cascade SVM算法层级结构。

图2为改进的Cascade SVM算法层级结构。

图3基于Spark改进的Casade SVM并行算法流程。

图4为改进的Cascade SVM算法同原始算法在训练时间对比。

图5为改进的Cascade SVM算法同原始算法在分类精度的对比。

具体实施方式

下面举例对本发明做更详细的描述。

将本发明提出改进Cascade SVM算法同Spark并行框架相结合，算法流程图如图3所示。通过将Spark良好的并行处理能力同改进的Casade SVM算法相结合，以模型的训练和分类效率。

算法：基于spark改进的Casade SVM算法并行化。

输入：训练数据集，划分区个数N；

输出：支持向量机模型model。

(1)输入训练数据集到HDF(SHadoop Distributed File System)分布式文件存储系统；

(3)对于

(4)在N/2^i-1个数据块上分别进行独立的SVM训练，将训练得到的支持向量合并为全局支持向量MDi

(5设c的值为本层得到支持向量的个数同上层得到支持向量个数的比值，如果c＞预设值

(6)跳转到步骤(10)；

(7)否则执行下面步骤；

(8)将MDi均匀切分为N/2ⁱ份子数据集；

(9)循环结束；

(10)将MDi作为全局支持向量，进行SVM训练；

(11)直至满足停机条件，输出支持向量机模型。

在Spark框架上，实现了改进的Cascade SVM算法。在模型开始训练前，首先将训练数据集上传到HDFS分布式文件系统，利用textFile函数从HDFS系统中读取训练集，自动转换成RDD数据类型，并根据之前给定的划分区个数N，将训练集均匀切分成N份子数据集。第3步到第9步实现了在层级SVM上进行并行训练，最后将得到的MDi作为全局支持向量，独立地进行SVM训练，判定此时得到的结果是否满足停机条件，如果满足，则直接输出训练好的支持向量机模型，否则将得到的结果合并到第1步，接着迭代训练，直到满足停机条件。

实验结果与分析：

(一)数据集的选取

本试验中使用的实验语料是由搜狗实验室提供的文本分类新闻数据集，从中筛选了包括美食、科技、娱乐、体育等十个类别的新闻数据，得到了320126条新闻数据，为了方便在实验中进行对比实验，将这些新闻数据拆分为10000、20000、40000、80000、160000条记录的4个子数据集。在拆分过程中，使各数据集中各类别的数据量样本均匀，由于大规模数据集的计算时间较长，通过在不同大小数据集下，对比本发明提出算法同原有算法的实验结果。

(二)评价方法

分类器的基本评价指标继承了信息检索中的评价指标，一般有准确率、召回率。其中准确率和召回率是分类器性能评价的主要指标，反映了分类质量的两个方面。它们的公式如下：

其中，a代表某一类被正确分类的数量，b代表其他类被分为该类的数量，c代表这个类别被分为其他类的数量。一个好的分类系统应该同时具有较高的准确率和召回率。

F1分数在综合准确率和召回率的一种指标，其中F1分数又称为平衡F分数，公式如下：

也可以通过加入调整参数，用于调整准确率和召回率在公式中的比重，使指标更侧重于准确率或召回率。

准确率和召回率是针对某一个类而进行的评价，为了评估分类算法在整个数据集上的分类性能，可以采用宏平均，宏平均是每个类的性能指标的算术平均值。其中宏平均准确率和召回率公式如下：

其中|C|为类别数，P_i是第i类的准确率，R_i是第i类的召回率。

(三)结果及分析

(1)改进的Cascade SVM算法同原始Cascade SVM算法的对比实验

本实验是为了证实提出改进的Cascade SVM算法和原有算法在模型训练时间和分类精度的效果，本文选择不同大小的数据集进行两种算法的并行实验，同时又添加了LIBSVM的单机实验作为对比实验。其中三种算法在不同大小数据集上的训练时间如图4所示。

由图4可知，实验中随着数据规模变大，模型的训练时间越长，而且呈指数增长趋势。当训练数据规模较小时，LIBSVM的训练时间要小于另外两种算法。而随着数据规模增大，LIBSVM的训练时间增长速度要比另外两种算法快。这是因为当训练集较小时，SVM的并行算法运行过程中，需要切分数据和进行通信，当数据规模较小时，这些因素会导致并行算法的训练时间大于LIBSVM。随着训练数据量不断增大，另外两种算法的优势尤为突出，模型的额外时间占整个训练时间的比重越来越小。从实验结果可知，本发明提出改进的CascadeSVM算法在训练时间上要略优于Cascade SVM算法。

图5展示了在不同训练集规模下各算法的模型分类精度，其中模型的分类精度随着训练集的增加而增加，当训练集达到一定规模后，分类精度则变化不大。改进的CascadeSVM算法和LIBVM相比分类精度差异不大，比Cascade SVM算法的分类精度略高。综上，从本实验的结果可以看出，本发明提出改进的Cascade SVM算法可以保证不失分类精度的前提下，有效地缩短模型训练时间，提高模型的训练效率。

(四)结论：

在海量文本数据下，如何有效地提高文本分类效率是当前面临的主要问题。首先仔细分析了文本分类的相关技术，在当前海量数据集背景下，如何提高文本分类的效率问题，提出了一种改进Casade SVM并行算法，本发明主要完成以下几点工作：

(1)围绕如何提高分类的效率问题，在分析现有SVM并行算法的基础上，提出了一种改进的Casade SVM并行算法，有效解决了现有算法中存在的资源利用率不高和模型训练时间过长等缺点，从而提升了模型训练和分类效率。

(2)将本发明提出改进的SVM并行算法同适合迭代运算的主流并行框架Spark相结合，实现了文本分类的并行化，提升了文本分类的效率。

Claims

1.一种改进的分层级联的支持向量机并行化方法，其特征是：

(1)输入训练数据集到HDFS分布式文件存储系统；

(2)从HDFS上读取训练数据集，生成RDD弹性分布式数据集，并根据指定的N值切分成样本均匀的子数据集，N为并行的机器数；

(3)对于

(6)跳转到步骤(10)；

(7)否则执行下面步骤；

(8)将MDi均匀切分为N/2ⁱ份子数据集；

(9)循环结束；

(10)将MDi作为全局支持向量，进行SVM训练；

(11)直至满足停机条件，输出支持向量机模型。