CN102591940A

CN102591940A - 一种基于Map/Reduce的快速支持向量数据描述方法及系统

Info

Publication number: CN102591940A
Application number: CN2011104437269A
Authority: CN
Inventors: 庄进发; 吴鸿伟; 罗佳
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2012-07-18
Anticipated expiration: 2031-12-27
Also published as: CN102591940B

Abstract

本发明涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统，其中方法包括：对用于支持向量数据描述的数据进行预处理，生成支持向量数据描述的训练数据集D；根据预设置的参数、由训练数据集D生成n个子数据集，预设置的参数包括训练数据集的划分个数；根据n个子数据集，生成MapReduce编程架构下的n个子分类器SVDD_{i＝(1，......，n)}的Map任务，并将Map任务交由Hadoop集群调度器进行运算；调用MapReduce编程架构下的Reduce任务进行子分类器SVDD_{i＝(1，......，n)}的合并，得到训练数据集的SVDD分类器。本发明可以在处理海量数据时，降低SVDD训练数据集的维数，加快SVDD训练速度，同时避免训练中断。

Description

一种基于Map/Reduce的快速支持向量数据描述方法及系统

技术领域

本发明涉及计算机应用技术领域，更具体地说，涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统。

背景技术

支持向量数据描述(Support Vector Data Description，SVDD)是在支持向量机(Support Vector Machine，SVM)的基础上，由Tax于2001年提出的一种针对单类数据的数据描述算法。它的主要思想是在核特征空间中寻找一个最小超球分界面，该分界面应尽可能把所有训练样本包围起来，并以该分界面对数据进行分类和描述。SVDD继承了SVM的优点，即以结构风险为目标进行优化，因此一经提出就受到了广大研究者的注意，并将之应用于异常检测、入侵检测中、基因表达聚类、故障检测等方面，取得很好的效果。然而，上述应用领域的数据逐渐朝着海量级别的方向发展。

目前，SVDD分类器常用的训练方法有：标准的训练方法和增量式方法。当上述训练方法应用于海量数据的级别时，由于需要通过核函数工具进行高维映射，最后得到用于寻优矩阵的维数将是爆炸性，其导致的后果是：(1)SVDD模型训练速度非常缓慢；(2)因内存消耗量过大使得训练中断。

Map/Reduce(映射/化简)系统是一个最先由Google提出的分布式计算软件构架，通过定义相应的映射(Map)和化简(Reduce)函数来实现大数据量的分布式处理，可以用来解决大数据量的分布式计算问题，然后把计算后的结果放入文件系统或者数据库中。在Map/Reduce系统中，每一个map操作都是相对独立的，所有的map任务都是并行运行的，虽然实践中会受到数据源和中央处理器个数的影响。同样的，Map/Reduce系统用一个reducer集合来执行reduce操作，所有带有相同key的map输出会聚集到同一个reducer。虽然这个过程看上去没有串行计算来得高效，但是Map/Reduce系统能够处理一般服务器所不能处理的大数据量处理问题。大型的服务器集群(例如Hadoop集群)可以在几个小时内处理petabyte数据量的排序问题。而并行处理可以提供部分容错和出错恢复的功能，当一个map操作或reduce操作失效时，整个工作就会被重新安排，从而不会影响数据处理工作的连续性。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于Map/Reduce的快速支持向量数据描述方法及系统，其能在处理海量数据时，降低SVDD训练数据集的维数，加快SVDD训练速度，同时避免训练中断。

本发明解决其技术问题所采用的技术方案是：

构造一种基于Map/Reduce的快速支持向量数据描述方法，其中，包括以下步骤：

对用于支持向量数据描述的数据进行预处理，生成支持向量数据描述的训练数据集D；

根据预设置的参数、由所述训练数据集D生成n个子数据集，所述预设置的参数包括训练数据集的划分个数；

根据所述n个子数据集，生成Map/Reduce编程架构下的n个子分类器SVDD_{i＝(1，......，n)}的Map任务，并将所述Map任务交由Hadoop集群调度器进行运算；

在所述Hadoop集群调度器运算完成后，调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDD_{i＝(1，......，n)}的合并，得到最后训练数据集的SVDD分类器；其中，所述i、n为自然数。

本发明所述的快速支持向量数据描述方法，其中，所述根据预设置的参数、由所述训练数据集D生成n个子数据集具体包括：

获取预计要抽样的子训练集的个数n值；

应用Bagging方式对所述训练数据集D进行抽样，在所抽样本不重复时，将所抽样本加入到子数据集

中；

在所述子数据集

中所包含样本的个数达到预设的个数时，判断所有子数据集是否已全部完成抽样，如果是，则停止抽样，否则更新所述训练数据集D，令

再重复执行前一步骤。

本发明所述的快速支持向量数据描述方法，其中，所述步骤根据所述n个子数据集，生成Map/Reduce编程架构下的n个子分类器SVDD_{i＝(1，......，n)}的Map任务具体包括：

读取所述子数据集

获取核参数、惩罚比例，其中所述核参数采用默认的高斯核；

根据所述核参数、惩罚比例，对所述子数据集

进行训练建模；

训练生成Map/Reduce编程架构下的n个所述子分类器SVDD_{i＝(1，......，n)}的Map任务。

本发明所述的快速支持向量数据描述方法，其中，所述将所述Map任务交由Hadoop集群调度器进行运算具体包括：

启动所述Hadoop集群调度器对所述Map任务进行调度运行，所述调度器将n个所述Map任务交由Hadoop集群的中多个计算节点进行运算，并将运算结果存储于Hadoop集群的分布式存储系统中。

本发明所述的快速支持向量数据描述方法，其中，所述Hadoop集群调度器运算完成后，调用Map/Reduce编程架构下的Reduce任务进行子SVDD_{i=(1,......,n)}的合并，得到最后训练数据集的SVDD分类器具体包括：

读取所述子分类器SVDD_{i＝(1，......，n)}；

获取所述子分类器SVDD_{i＝(1，......，n)}的支持向量集

计算所述支持向量集的每个样本被多少个所述子分类器SVDD_{i＝(1，......，n)}包含，所计算结果记为

每被一个所述子分类器SVDD_{i＝(1，......，n)}包含，则令

k_{1}^{{SV}_{i}^{{svdd}_{i}}} = k_{i}^{{SV}_{i}^{{svdd}_{i}}} + 1;

计算

{SV}_{one} = {k_{i}^{{SV}_{i}^{{svdd}_{i}}} = = 1, i = 1, . . . . . ., n};

根据所述SV_one训练生成训练数据集的SVDD分类器。

本发明还提供了一种基于Map/Reduce的快速支持向量数据描述系统，其中，包括训练数据集生成模块、Bagging抽样划分模块、Map函数子SVDD分类器生成模块和Reduce函数合并子SVDD分类器模块；其中，

所述训练数据集生成模块，用于对用于支持向量数据描述的数据进行预处理，生成支持向量数据描述的训练数据集D；

所述Bagging抽样划分模块，用于根据预设置的参数、由所述训练数据集D生成n个子数据集，所述预设置的参数包括训练数据集的划分个数；

所述Map函数子SVDD分类器生成模块，用于根据所述n个子数据集，生成Map/Reduce编程架构下的n个子分类器SVDD_{i＝(1，......，n)}的Map任务，并将所述Map任务交由Hadoop集群调度器进行运算；

所述Reduce函数合并子SVDD分类器模块，用于在所述Hadoop集群调度器运算完成后，调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDD_{i＝(1，......，n)}的合并，得到最后训练数据集的SVDD分类器；

其中，所述i、n为自然数。

本发明所述的快速支持向量数据描述系统，其中，所述Bagging抽样划分模块包括：

n值获取单元，用于获取预计要抽样的子训练集的个数n值；

抽样单元，用于应用Bagging方式对所述训练数据集D进行抽样，在所抽样本不重复时，将所抽样本加入到子数据集中；

第一判断单元，用于在所述子数据集

再启动所述抽样单元。

本发明所述的快速支持向量数据描述系统，其中，所述Map函数子SVDD分类器生成模块包括：

第一数据读取单元，用于读取所述子数据集

第一参数获取单元，用于获取核参数、惩罚比例，其中所述核参数采用默认的高斯核；

训练建模单元，用于根据所述核参数、惩罚比例，对所述子数据集

进行训练建模；

子分类器生成单元，用于训练生成Map/Reduce编程架构下的n个所述子分类器SVDD_{i＝(1，......，n)}的Map任务。

本发明所述的快速支持向量数据描述系统，其中，所述Map函数子SVDD分类器生成模块还包括：

运算单元，用于启动所述Hadoop集群调度器对所述Map任务进行调度运行，所述调度器将n个所述Map任务交由Hadoop集群的中多个计算节点进行运算，并将运算结果存储于Hadoop集群的分布式存储系统中。

本发明所述的快速支持向量数据描述系统，其中，所述Reduce函数合并子SVDD分类器模块包括：

第二数据读取单元，用于读取所述子分类器SVDD_{i＝(1，......，n)}；

第二参数获取单元，用于获取所述子分类器SVDD_{i＝(1，......，n)}的支持向量集

SV = {{sv}_{1}^{{svdd}_{1}}, . . . . . ., {sv}_{n}^{{svdd}_{n}}};

第一计算单元，用于计算所述支持向量集的每个样本被多少个所述子分类器SVDD_{i＝(1，......，n)}包含，所计算结果记为

每被一个所述子分类器SVDD_{i＝(1，......，n)}包含，则令

k_{i}^{{SV}_{i}^{{svdd}_{i}}} = k_{i}^{{SV}_{i}^{{svdd}_{i}}} + 1;

第二计算单元，用于计算

{SV}_{one} = {k_{i}^{{SV}_{i}^{{svdd}_{i}}} = = 1, i = 1, . . . . . ., n};

第二判断单元，用于判断支持向量是否遍历完，如果是，则启动所述SVDD分类器生成单元，否则转向所述第一计算单元；

SVDD分类器生成单元，用于根据所述SV_one训练生成训练数据集的SVDD分类器。

本发明的有益效果在于：通过将海量的训练数据集进行Bagging抽样子数据集的划分，即生成n个数量相等的子数据集；其次利用Map函数将某个子数据集用于生成子分类器；最后利用Reduce函数将子分类器进行合并，生成最后的分类器。由于SVDD本身是通过封闭的球体作为分界面，其性质是闭环的，因此通过这样的Map/Reduce方式，其训练的性能与原来是一样的。通过本发明的方法和系统，可以降低SVDD训练数据集的维数，同时利用集群的计算能力，加快其海量数据的训练速度，及防止训练中断现象的产生，对于入侵检测、故障检测等传统的海量数据级别的模式识别应用问题都有一定的参考价值。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明较佳实施例的基于Map/Reduce的快速支持向量数据描述方法流程图；

图2是本发明较佳实施例的快速支持向量数据描述方法中Bagging抽样流程图；

图3是本发明较佳实施例的快速支持向量数据描述方法中Map函数操作流程图；

图4是本发明较佳实施例的快速支持向量数据描述方法中Reduce函数操作流程图；

图5是本发明较佳实施例的快速支持向量数据描述方法测试应用过程示意图；

图6是本发明较佳实施例的基于Map/Reduce的快速支持向量数据描述系统原理框图；

图7是本发明较佳实施例的快速支持向量数据描述系统中Bagging抽样划分模块原理框图；

图8是本发明较佳实施例的快速支持向量数据描述系统中Map函数子SVDD分类器生成模块原理框图；

图9是本发明较佳实施例的快速支持向量数据描述系统中Reduce函数合并子SVDD分类器模块原理框图。

具体实施方式

本发明较佳实施例的基于Map/Reduce的快速支持向量数据描述(SVDD)方法S100流程如图1所示，该快速支持向量数据描述方法S100可以采用硬件或软件来实现。该方法起始于步骤S110。

在步骤S120中，对用于支持向量数据描述的数据进行预处理，生成支持向量数据描述的训练数据集。具体地，模型建立人员，将用于SVDD建模的数据进行预处理，并根据专家的经验知识形成SVDD的训练数据样本集。在步骤S130中，根据预设置的参数、由上述训练数据集生成n个子数据集，其中预设置的参数包括训练数据集的划分个数。在步骤S140中，根据n个子数据集，生成Map/Reduce编程架构下的n个子分类器SVDD_{i＝(1，......，n)}的Map任务，并将Map任务交由Hadoop集群调度器进行运算。在步骤S150中，在Hadoop集群调度器运算完成后，调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDD_{i＝(1，......，n)}的合并，得到最后训练数据集的SVDD分类器。上述方法快速支持向量数据描述方法S100结束于步骤S160。其中，上述i、n为自然数。本实施例的方法中，由于SVDD本身是通过封闭的球体作为分界面，其性质是闭环的，通过这样的Map/Reduce方式，其训练的性能与原来是一样的，因此可以降低SVDD训练数据集的维数，同时利用集群的计算能力，其直接效果是大大加快SVDD的训练速度，同时避免了训练的中断。

在进一步的实施例中，如图2所示，上述基于Map/Reduce的快速支持向量数据描述方法S100中步骤S130具体包括：获取预计要抽样的子训练集的个数n值；应用Bagging方式对训练数据集D进行抽样，有放回的抽取样本s_i，判断所抽取样本是否重复，即判断是否

在所抽样本不重复时，将所抽样本s_i加入到子数据集

中；判断子数据集

中所包含样本的个数是否达到预设的个数(取整数值)；在子数据集

中所包含样本的个数达到预设的个数时，判断所有子数据集是否已全部完成抽样，如果是，则停止Bagging抽样，否则更新训练数据集D，令

再重复执行前一步骤，即：再应用Bagging方式对训练数据集D进行抽样，在所抽样本不重复时，将所抽样本加入到子数据集

中；再次判断子数据集

中所包含样本的个数是否达到预设的个数取整数值；在子数据集中所包含样本的个数达到预设的个数时，判断所有子数据集是否已全部完成抽样，如果是，则停止Bagging抽样，否则更新训练数据集D，令

直到所有子数据集已全部完成抽样。其中，上述Bagging方式对训练数据集D进行抽样是指，对训练数据集D有放回的抽样，利用该Bagging抽样方法，可以使得抽样获得子训练集的信息熵比较均匀，防止因奇异点数据导致训练子分类器发生变形崩塌。

在进一步的实施例中，如图3所示，上述基于Map/Reduce的快速支持向量数据描述方法S100的步骤S140中，根据n个子数据集，生成Map/Reduce编程架构下的n个子分类器SVDD_{i＝(1，......，n)}的Map任务具体包括：步骤S141、读取子数据集

步骤S142、获取核参数δ和惩罚比例C，其中核参数采用默认的高斯核；步骤S143、根据核参数δ和惩罚比例C，对子数据集

进行训练建模；步骤S144、训练生成Map/Reduce编程架构下的n个子分类器SVDD_{i＝(1，......，n)}的Map任务。在该步骤中，由于进行了Bagging抽样后，所得到子数据集的样本数已经大大的减少，所以在步骤S143中，可以选用标准的训练方法对子数据

进行建模，生成子分类器，详细训练方法在此不一一赘述。

进一步地，上述基于Map/Reduce的快速支持向量数据描述方法S100的步骤S140中，将Map任务交由Hadoop集群调度器进行运算具体包括：启动Hadoop集群调度器j obtracker对上述生成的n个子分类器SVDD_{i＝(1，......，n)}的Map任务进行调度运行，调度器jobtracker将n个Map任务交由Hadoop集群的中多个计算节点进行运算，并将运算结果存储于Hadoop集群的分布式存储系统(Hadoop Distributed File System，HDFS)中。由于Hadoop集群可以处理海量数据，因此利用Hadoop集群进行数据存储及处理可以使得SVDD分类器能适应需要处理海量数据的应用领域。其中采用Hadoop集群调度器jobtracker进行调度运行的具体算法可参考现有技术，在此不进行描述。

更进一步地，如图4所示，上述基于Map/Reduce的快速支持向量数据描述方法S100的步骤S150具体包括：步骤S151、读取上述子分类器SVDD_{i＝(1，......，n)}；步骤S152、获取子分类器SVDD_{i＝(1，......，n)}的支持向量集

步骤S153、计算支持向量集的每个样本被多少个子分类器SVDD_{i＝(1，......，n)}包含，所计算结果记为每被一个子分类器SVDD_{i＝(1，......，n)}包含，则更新

令步骤S154、计算SV_one，其中

步骤S155、判断支持向量是否遍历完，如果是，则执行步骤S156、根据SV_one训练生成训练数据集的SVDD分类器，具体为：先生成训练集SV_one，然后获取输入的核参数δ和惩罚比例C，应用标准的训练方法进行训练，生成最后的分类器SVDD_global；否则重复执行步骤S153、S154、S155。

具体应用时，如图5所示，用户将待判别的数据输入到客户端，客户端将所接收到的数据传到SVDD分类器服务端上，然后SVDD分类器服务器会根据训练后的SVDD分类器对提交的样本进行判别分类，最后将结果返回给客户端，并通过客户端显示判别结果给客户。

在本发明的另一实施例中，如图6所示，还提供了一种基于Map/Reduce的快速支持向量数据描述系统00，该快速支持向量数据描述系统00可以采用硬件或软件来实现。在图6中同时示意出了该快速支持向量数据描述系统00与Hadoop集群50之间的交互关系。其中，快速支持向量数据描述系统00包括训练数据集生成模块10、Bagging抽样划分模块20、Map函数子SVDD分类器生成模块30和Reduce函数合并子SVDD分类器模块40。其中，训练数据集生成模块10，用于对用于支持向量数据描述的数据进行预处理，生成支持向量数据描述的训练数据集；Bagging抽样划分模块20，用于根据预设置的参数、由训练数据集生成n个子数据集，预设置的参数包括训练数据集的划分个数；Map函数子SVDD分类器生成模块30，用于根据n个子数据集，生成Map/Reduce编程架构下的n个子分类器SVDD_{i＝(1，......，n)}的Map任务，并将Map任务交由Hadoop集群调度器进行运算；Reduce函数合并子SVDD分类器模块40，用于在Hadoop集群调度器运算完成后，调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDD_{i＝(1，......，n)}的合并，得到最后训练数据集的SVDD分类器；其中，i、n为自然数。本实施例的快速支持向量数据描述系统00中，由于SVDD本身是通过封闭的球体作为分界面，其性质是闭环的，通过这样的Map/Reduce方式，其训练的性能与原来是一样的，因此可以降低SVDD训练数据集的维数，同时利用Hadoop集群的计算能力，其直接效果是大大加快SVDD的训练速度，同时避免了训练的中断。

在进一步的实施例中，如图7所示，上述快速支持向量数据描述系统00的Bagging抽样划分模块20包括：n值获取单元21，用于获取预计要抽样的子训练集的个数n值；抽样单元22，用于应用Bagging方式对训练数据集D进行抽样，在所抽样本不重复时，将所抽样本加入到子数据集

中；第一判断单元23，用于在子数据集中所包含样本的个数达到预设的个数时，判断所有子数据集是否已全部完成抽样，如果是，则停止抽样，否则更新训练数据集D，令再启动所述抽样单元22，再次进行Bagging抽样。其中，上述Bagging方式对训练数据集D进行抽样是指，对训练数据集D有放回的抽样，利用该Bagging抽样方法，可以使得抽样获得子训练集的信息熵比较均匀，防止因奇异点数据导致训练子分类器发生变形崩塌。

在进一步的实施例中，如图8所示，上述快速支持向量数据描述系统00的Map函数子SVDD分类器生成模块30包括：第一数据读取单元31，用于读取子数据集

第一参数获取单元32，用于获取核参数、惩罚比例，其中核参数采用默认的高斯核；训练建模单元33，用于根据核参数、惩罚比例，对子数据集

进行训练建模；子分类器生成单元34，用于训练生成Map/Reduce编程架构下的n个子分类器SVDD_{i＝(1，......，n)}的Map任务。由于子数据集

的样本数已经大大的减少，所以训练建模单元33可以选用标准的训练方法对子数据

进行建模，生成子分类器SVDD_{i＝(1，......，n)}。

在进一步的实施例中，如图8所示，上述快速支持向量数据描述系统00的Map函数子SVDD分类器生成模块30还包括：运算单元35，用于启动Hadoop集群调度器jobtracker对Map任务进行调度运行，调度器jobtracker将n个Map任务交由Hadoop集群的中多个计算节点进行运算，并将运算结果存储于Hadoop集群50的分布式存储系统(Hadoop Distributed File System，HDFS)中。由于Hadoop集群50可以处理海量数据，因此利用Hadoop集群50进行数据存储及处理可以使得SVDD分类器能适应需要处理海量数据的应用领域。

在进一步的实施例中，如图9所示，上述快速支持向量数据描述系统00的Reduce函数合并子SVDD分类器模块40包括：第二数据读取单元41，用于读取子分类器SVDD_{i＝(1，......，n)}；第二参数获取单元42，用于获取子分类器SVDD_{i＝(1，......，n)}的支持向量集

第一计算单元43，用于计算支持向量集的每个样本被多少个子分类器SVDD_{i＝(1，......，n)}包含，所计算结果记为

每被一个子分类器SVDD_{i＝(1，......，n)}包含，则令

第二计算单元44，用于计算

第二判断单元45，用于判断支持向量是否遍历完，如果是，则启动SVDD分类器生成单元46，否则转向第一计算单元43；SVDD分类器生成单元46，用于根据SV_one训练生成训练数据集的SVDD分类器。

以banana数据为例，对上述快速支持向量数据描述系统00生成SVDD分类器的完整过程包括：1、画出banana数据集的空间分布图；2、应用Bagging抽样划分模块20对banana数据进行Bagging进行抽样；3、应用Map函数子SVDD分类器生成模块30对其进行子SVDD训练，给出数据原始空间和高维空间的分类器边界图；4、应用Reduce函数合并子SVDD分类器模块40对子SVDD进行合并，给出数据原始空间和高维空间的分类器边界图；5、最后得出整体的SVDD分类器。

综上，本发明从SVDD的训练算法上进行改进，首先通过将海量的训练数据集进行Bagging抽样子数据集的划分，即生成n个数量相等的子数据集；其次利用Map函数将某个子数据集用于生成子分类器；最后利用Reduce函数将子分类器进行合并，生成最后的分类器。由于SVDD本身是通过封闭的球体作为分界面，其性质是闭环的，因此通过这样的Map/Reduce方式，其训练的性能与原来是一样的。通过本发明的方法和系统，可以降低SVDD训练数据集的维数，同时利用集群的计算能力，加快其海量数据的训练速度，及防止训练中断现象的产生，对于入侵检测、故障检测等传统的海量数据级别的模式识别应用问题都有一定的参考价值。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。