CN102591940A - 一种基于Map/Reduce的快速支持向量数据描述方法及系统 - Google Patents

一种基于Map/Reduce的快速支持向量数据描述方法及系统 Download PDF

Info

Publication number
CN102591940A
CN102591940A CN2011104437269A CN201110443726A CN102591940A CN 102591940 A CN102591940 A CN 102591940A CN 2011104437269 A CN2011104437269 A CN 2011104437269A CN 201110443726 A CN201110443726 A CN 201110443726A CN 102591940 A CN102591940 A CN 102591940A
Authority
CN
China
Prior art keywords
svdd
sub
map
support vector
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011104437269A
Other languages
English (en)
Other versions
CN102591940B (zh
Inventor
庄进发
吴鸿伟
罗佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN 201110443726 priority Critical patent/CN102591940B/zh
Publication of CN102591940A publication Critical patent/CN102591940A/zh
Application granted granted Critical
Publication of CN102591940B publication Critical patent/CN102591940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统,其中方法包括:对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;根据预设置的参数、由训练数据集D生成n个子数据集,预设置的参数包括训练数据集的划分个数;根据n个子数据集,生成MapReduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将Map任务交由Hadoop集群调度器进行运算;调用MapReduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到训练数据集的SVDD分类器。本发明可以在处理海量数据时,降低SVDD训练数据集的维数,加快SVDD训练速度,同时避免训练中断。

Description

一种基于Map/Reduce的快速支持向量数据描述方法及系统
技术领域
本发明涉及计算机应用技术领域,更具体地说,涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统。
背景技术
支持向量数据描述(Support Vector Data Description,SVDD)是在支持向量机(Support Vector Machine,SVM)的基础上,由Tax于2001年提出的一种针对单类数据的数据描述算法。它的主要思想是在核特征空间中寻找一个最小超球分界面,该分界面应尽可能把所有训练样本包围起来,并以该分界面对数据进行分类和描述。SVDD继承了SVM的优点,即以结构风险为目标进行优化,因此一经提出就受到了广大研究者的注意,并将之应用于异常检测、入侵检测中、基因表达聚类、故障检测等方面,取得很好的效果。然而,上述应用领域的数据逐渐朝着海量级别的方向发展。
目前,SVDD分类器常用的训练方法有:标准的训练方法和增量式方法。当上述训练方法应用于海量数据的级别时,由于需要通过核函数工具进行高维映射,最后得到用于寻优矩阵的维数将是爆炸性,其导致的后果是:(1)SVDD模型训练速度非常缓慢;(2)因内存消耗量过大使得训练中断。
Map/Reduce(映射/化简)系统是一个最先由Google提出的分布式计算软件构架,通过定义相应的映射(Map)和化简(Reduce)函数来实现大数据量的分布式处理,可以用来解决大数据量的分布式计算问题,然后把计算后的结果放入文件系统或者数据库中。在Map/Reduce系统中,每一个map操作都是相对独立的,所有的map任务都是并行运行的,虽然实践中会受到数据源和中央处理器个数的影响。同样的,Map/Reduce系统用一个reducer集合来执行reduce操作,所有带有相同key的map输出会聚集到同一个reducer。虽然这个过程看上去没有串行计算来得高效,但是Map/Reduce系统能够处理一般服务器所不能处理的大数据量处理问题。大型的服务器集群(例如Hadoop集群)可以在几个小时内处理petabyte数据量的排序问题。而并行处理可以提供部分容错和出错恢复的功能,当一个map操作或reduce操作失效时,整个工作就会被重新安排,从而不会影响数据处理工作的连续性。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于Map/Reduce的快速支持向量数据描述方法及系统,其能在处理海量数据时,降低SVDD训练数据集的维数,加快SVDD训练速度,同时避免训练中断。
本发明解决其技术问题所采用的技术方案是:
构造一种基于Map/Reduce的快速支持向量数据描述方法,其中,包括以下步骤:
对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;
根据预设置的参数、由所述训练数据集D生成n个子数据集,所述预设置的参数包括训练数据集的划分个数;
根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将所述Map任务交由Hadoop集群调度器进行运算;
在所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器;其中,所述i、n为自然数。
本发明所述的快速支持向量数据描述方法,其中,所述根据预设置的参数、由所述训练数据集D生成n个子数据集具体包括:
获取预计要抽样的子训练集的个数n值;
应用Bagging方式对所述训练数据集D进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集
Figure BSA00000644604400031
中;
在所述子数据集
Figure BSA00000644604400032
中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止抽样,否则更新所述训练数据集D,令
Figure BSA00000644604400033
再重复执行前一步骤。
本发明所述的快速支持向量数据描述方法,其中,所述步骤根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务具体包括:
读取所述子数据集
Figure BSA00000644604400034
获取核参数、惩罚比例,其中所述核参数采用默认的高斯核;
根据所述核参数、惩罚比例,对所述子数据集
Figure BSA00000644604400035
进行训练建模;
训练生成Map/Reduce编程架构下的n个所述子分类器SVDDi=(1,......,n)的Map任务。
本发明所述的快速支持向量数据描述方法,其中,所述将所述Map任务交由Hadoop集群调度器进行运算具体包括:
启动所述Hadoop集群调度器对所述Map任务进行调度运行,所述调度器将n个所述Map任务交由Hadoop集群的中多个计算节点进行运算,并将运算结果存储于Hadoop集群的分布式存储系统中。
本发明所述的快速支持向量数据描述方法,其中,所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器具体包括:
读取所述子分类器SVDDi=(1,......,n)
获取所述子分类器SVDDi=(1,......,n)的支持向量集
Figure BSA00000644604400041
计算所述支持向量集的每个样本被多少个所述子分类器SVDDi=(1,......,n)包含,所计算结果记为
Figure BSA00000644604400042
每被一个所述子分类器SVDDi=(1,......,n)包含,则令 k 1 SV i svdd i = k i SV i svdd i + 1 ;
计算 SV one = { k i SV i svdd i = = 1 , i = 1 , . . . . . . , n } ;
根据所述SVone训练生成训练数据集的SVDD分类器。
本发明还提供了一种基于Map/Reduce的快速支持向量数据描述系统,其中,包括训练数据集生成模块、Bagging抽样划分模块、Map函数子SVDD分类器生成模块和Reduce函数合并子SVDD分类器模块;其中,
所述训练数据集生成模块,用于对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;
所述Bagging抽样划分模块,用于根据预设置的参数、由所述训练数据集D生成n个子数据集,所述预设置的参数包括训练数据集的划分个数;
所述Map函数子SVDD分类器生成模块,用于根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将所述Map任务交由Hadoop集群调度器进行运算;
所述Reduce函数合并子SVDD分类器模块,用于在所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器;
其中,所述i、n为自然数。
本发明所述的快速支持向量数据描述系统,其中,所述Bagging抽样划分模块包括:
n值获取单元,用于获取预计要抽样的子训练集的个数n值;
抽样单元,用于应用Bagging方式对所述训练数据集D进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集中;
第一判断单元,用于在所述子数据集
Figure BSA00000644604400052
中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止抽样,否则更新所述训练数据集D,令
Figure BSA00000644604400053
再启动所述抽样单元。
本发明所述的快速支持向量数据描述系统,其中,所述Map函数子SVDD分类器生成模块包括:
第一数据读取单元,用于读取所述子数据集
Figure BSA00000644604400054
第一参数获取单元,用于获取核参数、惩罚比例,其中所述核参数采用默认的高斯核;
训练建模单元,用于根据所述核参数、惩罚比例,对所述子数据集
Figure BSA00000644604400055
进行训练建模;
子分类器生成单元,用于训练生成Map/Reduce编程架构下的n个所述子分类器SVDDi=(1,......,n)的Map任务。
本发明所述的快速支持向量数据描述系统,其中,所述Map函数子SVDD分类器生成模块还包括:
运算单元,用于启动所述Hadoop集群调度器对所述Map任务进行调度运行,所述调度器将n个所述Map任务交由Hadoop集群的中多个计算节点进行运算,并将运算结果存储于Hadoop集群的分布式存储系统中。
本发明所述的快速支持向量数据描述系统,其中,所述Reduce函数合并子SVDD分类器模块包括:
第二数据读取单元,用于读取所述子分类器SVDDi=(1,......,n)
第二参数获取单元,用于获取所述子分类器SVDDi=(1,......,n)的支持向量集 SV = { sv 1 svdd 1 , . . . . . . , sv n svdd n } ;
第一计算单元,用于计算所述支持向量集的每个样本被多少个所述子分类器SVDDi=(1,......,n)包含,所计算结果记为
Figure BSA00000644604400062
每被一个所述子分类器SVDDi=(1,......,n)包含,则令 k i SV i svdd i = k i SV i svdd i + 1 ;
第二计算单元,用于计算 SV one = { k i SV i svdd i = = 1 , i = 1 , . . . . . . , n } ;
第二判断单元,用于判断支持向量是否遍历完,如果是,则启动所述SVDD分类器生成单元,否则转向所述第一计算单元;
SVDD分类器生成单元,用于根据所述SVone训练生成训练数据集的SVDD分类器。
本发明的有益效果在于:通过将海量的训练数据集进行Bagging抽样子数据集的划分,即生成n个数量相等的子数据集;其次利用Map函数将某个子数据集用于生成子分类器;最后利用Reduce函数将子分类器进行合并,生成最后的分类器。由于SVDD本身是通过封闭的球体作为分界面,其性质是闭环的,因此通过这样的Map/Reduce方式,其训练的性能与原来是一样的。通过本发明的方法和系统,可以降低SVDD训练数据集的维数,同时利用集群的计算能力,加快其海量数据的训练速度,及防止训练中断现象的产生,对于入侵检测、故障检测等传统的海量数据级别的模式识别应用问题都有一定的参考价值。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明较佳实施例的基于Map/Reduce的快速支持向量数据描述方法流程图;
图2是本发明较佳实施例的快速支持向量数据描述方法中Bagging抽样流程图;
图3是本发明较佳实施例的快速支持向量数据描述方法中Map函数操作流程图;
图4是本发明较佳实施例的快速支持向量数据描述方法中Reduce函数操作流程图;
图5是本发明较佳实施例的快速支持向量数据描述方法测试应用过程示意图;
图6是本发明较佳实施例的基于Map/Reduce的快速支持向量数据描述系统原理框图;
图7是本发明较佳实施例的快速支持向量数据描述系统中Bagging抽样划分模块原理框图;
图8是本发明较佳实施例的快速支持向量数据描述系统中Map函数子SVDD分类器生成模块原理框图;
图9是本发明较佳实施例的快速支持向量数据描述系统中Reduce函数合并子SVDD分类器模块原理框图。
具体实施方式
本发明较佳实施例的基于Map/Reduce的快速支持向量数据描述(SVDD)方法S100流程如图1所示,该快速支持向量数据描述方法S100可以采用硬件或软件来实现。该方法起始于步骤S110。
在步骤S120中,对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集。具体地,模型建立人员,将用于SVDD建模的数据进行预处理,并根据专家的经验知识形成SVDD的训练数据样本集。在步骤S130中,根据预设置的参数、由上述训练数据集生成n个子数据集,其中预设置的参数包括训练数据集的划分个数。在步骤S140中,根据n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将Map任务交由Hadoop集群调度器进行运算。在步骤S150中,在Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器。上述方法快速支持向量数据描述方法S100结束于步骤S160。其中,上述i、n为自然数。本实施例的方法中,由于SVDD本身是通过封闭的球体作为分界面,其性质是闭环的,通过这样的Map/Reduce方式,其训练的性能与原来是一样的,因此可以降低SVDD训练数据集的维数,同时利用集群的计算能力,其直接效果是大大加快SVDD的训练速度,同时避免了训练的中断。
在进一步的实施例中,如图2所示,上述基于Map/Reduce的快速支持向量数据描述方法S100中步骤S130具体包括:获取预计要抽样的子训练集的个数n值;应用Bagging方式对训练数据集D进行抽样,有放回的抽取样本si,判断所抽取样本是否重复,即判断是否
Figure BSA00000644604400081
在所抽样本不重复时,将所抽样本si加入到子数据集
Figure BSA00000644604400082
中;判断子数据集
Figure BSA00000644604400083
中所包含样本的个数是否达到预设的个数(取整数值);在子数据集
Figure BSA00000644604400084
中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止Bagging抽样,否则更新训练数据集D,令
Figure BSA00000644604400091
再重复执行前一步骤,即:再应用Bagging方式对训练数据集D进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集
Figure BSA00000644604400092
中;再次判断子数据集
Figure BSA00000644604400093
中所包含样本的个数是否达到预设的个数取整数值;在子数据集中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止Bagging抽样,否则更新训练数据集D,令
Figure BSA00000644604400095
直到所有子数据集已全部完成抽样。其中,上述Bagging方式对训练数据集D进行抽样是指,对训练数据集D有放回的抽样,利用该Bagging抽样方法,可以使得抽样获得子训练集的信息熵比较均匀,防止因奇异点数据导致训练子分类器发生变形崩塌。
在进一步的实施例中,如图3所示,上述基于Map/Reduce的快速支持向量数据描述方法S100的步骤S140中,根据n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务具体包括:步骤S141、读取子数据集
Figure BSA00000644604400096
步骤S142、获取核参数δ和惩罚比例C,其中核参数采用默认的高斯核;步骤S143、根据核参数δ和惩罚比例C,对子数据集
Figure BSA00000644604400097
进行训练建模;步骤S144、训练生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务。在该步骤中,由于进行了Bagging抽样后,所得到子数据集的样本数已经大大的减少,所以在步骤S143中,可以选用标准的训练方法对子数据
Figure BSA00000644604400099
进行建模,生成子分类器,详细训练方法在此不一一赘述。
进一步地,上述基于Map/Reduce的快速支持向量数据描述方法S100的步骤S140中,将Map任务交由Hadoop集群调度器进行运算具体包括:启动Hadoop集群调度器j obtracker对上述生成的n个子分类器SVDDi=(1,......,n)的Map任务进行调度运行,调度器jobtracker将n个Map任务交由Hadoop集群的中多个计算节点进行运算,并将运算结果存储于Hadoop集群的分布式存储系统(Hadoop Distributed File System,HDFS)中。由于Hadoop集群可以处理海量数据,因此利用Hadoop集群进行数据存储及处理可以使得SVDD分类器能适应需要处理海量数据的应用领域。其中采用Hadoop集群调度器jobtracker进行调度运行的具体算法可参考现有技术,在此不进行描述。
更进一步地,如图4所示,上述基于Map/Reduce的快速支持向量数据描述方法S100的步骤S150具体包括:步骤S151、读取上述子分类器SVDDi=(1,......,n);步骤S152、获取子分类器SVDDi=(1,......,n)的支持向量集
Figure BSA00000644604400101
步骤S153、计算支持向量集的每个样本被多少个子分类器SVDDi=(1,......,n)包含,所计算结果记为每被一个子分类器SVDDi=(1,......,n)包含,则更新
Figure BSA00000644604400103
步骤S154、计算SVone,其中
Figure BSA00000644604400105
步骤S155、判断支持向量是否遍历完,如果是,则执行步骤S156、根据SVone训练生成训练数据集的SVDD分类器,具体为:先生成训练集SVone,然后获取输入的核参数δ和惩罚比例C,应用标准的训练方法进行训练,生成最后的分类器SVDDglobal;否则重复执行步骤S153、S154、S155。
具体应用时,如图5所示,用户将待判别的数据输入到客户端,客户端将所接收到的数据传到SVDD分类器服务端上,然后SVDD分类器服务器会根据训练后的SVDD分类器对提交的样本进行判别分类,最后将结果返回给客户端,并通过客户端显示判别结果给客户。
在本发明的另一实施例中,如图6所示,还提供了一种基于Map/Reduce的快速支持向量数据描述系统00,该快速支持向量数据描述系统00可以采用硬件或软件来实现。在图6中同时示意出了该快速支持向量数据描述系统00与Hadoop集群50之间的交互关系。其中,快速支持向量数据描述系统00包括训练数据集生成模块10、Bagging抽样划分模块20、Map函数子SVDD分类器生成模块30和Reduce函数合并子SVDD分类器模块40。其中,训练数据集生成模块10,用于对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集;Bagging抽样划分模块20,用于根据预设置的参数、由训练数据集生成n个子数据集,预设置的参数包括训练数据集的划分个数;Map函数子SVDD分类器生成模块30,用于根据n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将Map任务交由Hadoop集群调度器进行运算;Reduce函数合并子SVDD分类器模块40,用于在Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器;其中,i、n为自然数。本实施例的快速支持向量数据描述系统00中,由于SVDD本身是通过封闭的球体作为分界面,其性质是闭环的,通过这样的Map/Reduce方式,其训练的性能与原来是一样的,因此可以降低SVDD训练数据集的维数,同时利用Hadoop集群的计算能力,其直接效果是大大加快SVDD的训练速度,同时避免了训练的中断。
在进一步的实施例中,如图7所示,上述快速支持向量数据描述系统00的Bagging抽样划分模块20包括:n值获取单元21,用于获取预计要抽样的子训练集的个数n值;抽样单元22,用于应用Bagging方式对训练数据集D进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集
Figure BSA00000644604400111
中;第一判断单元23,用于在子数据集中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止抽样,否则更新训练数据集D,令再启动所述抽样单元22,再次进行Bagging抽样。其中,上述Bagging方式对训练数据集D进行抽样是指,对训练数据集D有放回的抽样,利用该Bagging抽样方法,可以使得抽样获得子训练集的信息熵比较均匀,防止因奇异点数据导致训练子分类器发生变形崩塌。
在进一步的实施例中,如图8所示,上述快速支持向量数据描述系统00的Map函数子SVDD分类器生成模块30包括:第一数据读取单元31,用于读取子数据集
Figure BSA00000644604400121
第一参数获取单元32,用于获取核参数、惩罚比例,其中核参数采用默认的高斯核;训练建模单元33,用于根据核参数、惩罚比例,对子数据集
Figure BSA00000644604400122
进行训练建模;子分类器生成单元34,用于训练生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务。由于子数据集
Figure BSA00000644604400123
的样本数已经大大的减少,所以训练建模单元33可以选用标准的训练方法对子数据
Figure BSA00000644604400124
进行建模,生成子分类器SVDDi=(1,......,n)
在进一步的实施例中,如图8所示,上述快速支持向量数据描述系统00的Map函数子SVDD分类器生成模块30还包括:运算单元35,用于启动Hadoop集群调度器jobtracker对Map任务进行调度运行,调度器jobtracker将n个Map任务交由Hadoop集群的中多个计算节点进行运算,并将运算结果存储于Hadoop集群50的分布式存储系统(Hadoop Distributed File System,HDFS)中。由于Hadoop集群50可以处理海量数据,因此利用Hadoop集群50进行数据存储及处理可以使得SVDD分类器能适应需要处理海量数据的应用领域。
在进一步的实施例中,如图9所示,上述快速支持向量数据描述系统00的Reduce函数合并子SVDD分类器模块40包括:第二数据读取单元41,用于读取子分类器SVDDi=(1,......,n);第二参数获取单元42,用于获取子分类器SVDDi=(1,......,n)的支持向量集
Figure BSA00000644604400125
第一计算单元43,用于计算支持向量集的每个样本被多少个子分类器SVDDi=(1,......,n)包含,所计算结果记为
Figure BSA00000644604400126
每被一个子分类器SVDDi=(1,......,n)包含,则令
Figure BSA00000644604400127
第二计算单元44,用于计算
Figure BSA00000644604400131
第二判断单元45,用于判断支持向量是否遍历完,如果是,则启动SVDD分类器生成单元46,否则转向第一计算单元43;SVDD分类器生成单元46,用于根据SVone训练生成训练数据集的SVDD分类器。
以banana数据为例,对上述快速支持向量数据描述系统00生成SVDD分类器的完整过程包括:1、画出banana数据集的空间分布图;2、应用Bagging抽样划分模块20对banana数据进行Bagging进行抽样;3、应用Map函数子SVDD分类器生成模块30对其进行子SVDD训练,给出数据原始空间和高维空间的分类器边界图;4、应用Reduce函数合并子SVDD分类器模块40对子SVDD进行合并,给出数据原始空间和高维空间的分类器边界图;5、最后得出整体的SVDD分类器。
综上,本发明从SVDD的训练算法上进行改进,首先通过将海量的训练数据集进行Bagging抽样子数据集的划分,即生成n个数量相等的子数据集;其次利用Map函数将某个子数据集用于生成子分类器;最后利用Reduce函数将子分类器进行合并,生成最后的分类器。由于SVDD本身是通过封闭的球体作为分界面,其性质是闭环的,因此通过这样的Map/Reduce方式,其训练的性能与原来是一样的。通过本发明的方法和系统,可以降低SVDD训练数据集的维数,同时利用集群的计算能力,加快其海量数据的训练速度,及防止训练中断现象的产生,对于入侵检测、故障检测等传统的海量数据级别的模式识别应用问题都有一定的参考价值。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于Map/Reduce的快速支持向量数据描述方法,其特征在于,包括以下步骤:
对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;
根据预设置的参数、由所述训练数据集D生成n个子数据集,所述预设置的参数包括训练数据集的划分个数;
根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将所述Map任务交由Hadoop集群调度器进行运算;
在所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器;其中,所述i、n为自然数。
2.根据权利要求1所述的快速支持向量数据描述方法,其特征在于,所述根据预设置的参数、由所述训练数据集D生成n个子数据集具体包括:
获取预计要抽样的子训练集的个数n值;
应用Bagging方式对所述训练数据集D进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集
Figure FSA00000644604300011
中;
在所述子数据集
Figure FSA00000644604300012
中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止抽样,否则更新所述训练数据集D,令
Figure FSA00000644604300013
再重复执行前一步骤。
3.根据权利要求2所述的快速支持向量数据描述方法,其特征在于,所述步骤根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务具体包括:
读取所述子数据集
Figure FSA00000644604300021
获取核参数、惩罚比例,其中所述核参数采用默认的高斯核;
根据所述核参数、惩罚比例,对所述子数据集
Figure FSA00000644604300022
进行训练建模;
训练生成Map/Reduce编程架构下的n个所述子分类器SVDDi=(1,......,n)的Map任务。
4.根据权利要求3所述的快速支持向量数据描述方法,其特征在于,所述将所述Map任务交由Hadoop集群调度器进行运算具体包括:
启动所述Hadoop集群调度器对所述Map任务进行调度运行,所述调度器将n个所述Map任务交由Hadoop集群的中多个计算节点进行运算,并将运算结果存储于Hadoop集群的分布式存储系统中。
5.根据权利要求4所述的快速支持向量数据描述方法,其特征在于,所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器具体包括:
读取所述子分类器SVDi=(1,......,n)
获取所述子分类器SVDDi=(1,......,n)的支持向量集
Figure FSA00000644604300023
计算所述支持向量集的每个样本被多少个所述子分类器SVDDi=(1,......,n)包含,所计算结果记为
Figure FSA00000644604300024
每被一个所述子分类器SVDDi=(1,......,n)包含,则令 k i SV i svdd i = k i SV i svdd i + 1 ;
计算 SV one = { k i SV i svdd i = = 1 , i = 1 , . . . . . . , n } ;
根据所述SVone训练生成训练数据集的SVDD分类器。
6.一种基于Map/Reduce的快速支持向量数据描述系统,其特征在于,包括训练数据集生成模块、Bagging抽样划分模块、Map函数子SVDD分类器生成模块和Reduce函数合并子SVDD分类器模块;其中,
所述训练数据集生成模块,用于对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;
所述Bagging抽样划分模块,用于根据预设置的参数、由所述训练数据集D生成n个子数据集,所述预设置的参数包括训练数据集的划分个数;
所述Map函数子SVDD分类器生成模块,用于根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将所述Map任务交由Hadoop集群调度器进行运算;
所述Reduce函数合并子SVDD分类器模块,用于在所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器;
其中,所述i、n为自然数。
7.根据权利要求6所述的快速支持向量数据描述系统,其特征在于,所述Bagging抽样划分模块包括:
n值获取单元,用于获取预计要抽样的子训练集的个数n值;
抽样单元,用于应用Bagging方式对所述训练数据集D进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集
Figure FSA00000644604300031
中;
第一判断单元,用于在所述子数据集
Figure FSA00000644604300032
中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止抽样,否则更新所述训练数据集D,令再启动所述抽样单元。
8.根据权利要求6所述的快速支持向量数据描述系统,其特征在于,所述Map函数子SVDD分类器生成模块包括:
第一数据读取单元,用于读取所述子数据集
Figure FSA00000644604300034
第一参数获取单元,用于获取核参数、惩罚比例,其中所述核参数采用默认的高斯核;
训练建模单元,用于根据所述核参数、惩罚比例,对所述子数据集
Figure FSA00000644604300041
进行训练建模;
子分类器生成单元,用于训练生成Map/Reduce编程架构下的n个所述子分类器SVDDi=(1,......,n)的Map任务。
9.根据权利要求8所述的快速支持向量数据描述系统,其特征在于,所述Map函数子SVDD分类器生成模块还包括:
运算单元,用于启动所述Hadoop集群调度器对所述Map任务进行调度运行,所述调度器将n个所述Map任务交由Hadoop集群的中多个计算节点进行运算,并将运算结果存储于Hadoop集群的分布式存储系统中。
10.根据权利要求6所述的快速支持向量数据描述系统,其特征在于,所述Reduce函数合并子SVDD分类器模块包括:
第二数据读取单元,用于读取所述子分类器SVDDi=(1,......,n)
第二参数获取单元,用于获取所述子分类器SVDDi=(1,......,n)的支持向量集 SV = { sv 1 svdd 1 , . . . . . . , sv n svdd n } ;
第一计算单元,用于计算所述支持向量集的每个样本被多少个所述子分类器SVDDi=(1,......,n)包含,所计算结果记为
Figure FSA00000644604300043
每被一个所述子分类器SVDDi=(1,......,n)包含,则令 k i SV i svdd i = k i SV i svdd i + 1 ; 第二计算单元,用于计算 SV one = { k i SV i svdd i = = 1 , i = 1 , . . . . . . , n } ;
第二判断单元,用于判断支持向量是否遍历完,如果是,则启动所述SVDD分类器生成单元,否则转向所述第一计算单元;
SVDD分类器生成单元,用于根据所述SVone训练生成训练数据集的SVDD分类器。
CN 201110443726 2011-12-27 2011-12-27 一种基于Map/Reduce的快速支持向量数据描述方法及系统 Active CN102591940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110443726 CN102591940B (zh) 2011-12-27 2011-12-27 一种基于Map/Reduce的快速支持向量数据描述方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110443726 CN102591940B (zh) 2011-12-27 2011-12-27 一种基于Map/Reduce的快速支持向量数据描述方法及系统

Publications (2)

Publication Number Publication Date
CN102591940A true CN102591940A (zh) 2012-07-18
CN102591940B CN102591940B (zh) 2013-09-25

Family

ID=46480581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110443726 Active CN102591940B (zh) 2011-12-27 2011-12-27 一种基于Map/Reduce的快速支持向量数据描述方法及系统

Country Status (1)

Country Link
CN (1) CN102591940B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064991A (zh) * 2013-02-05 2013-04-24 杭州易和网络有限公司 一种海量数据聚类方法
CN103399927A (zh) * 2013-08-05 2013-11-20 百度在线网络技术(北京)有限公司 分布式计算方法和装置
CN103606530A (zh) * 2013-10-25 2014-02-26 清华大学 融合函数型数据描述的等离子刻蚀过程的故障检测方法
CN104657574A (zh) * 2014-06-13 2015-05-27 苏州大学 一种医疗诊断模型的建立方法及装置
CN104778254A (zh) * 2015-04-20 2015-07-15 北京蓝色光标品牌管理顾问股份有限公司 一种非参数的话题自动标注的分布式系统和标注方法
CN105740604A (zh) * 2016-01-22 2016-07-06 湖南大学 基于冗余距离消除和极端点优化的并行k-means聚类方法
CN106294762A (zh) * 2016-08-11 2017-01-04 齐鲁工业大学 一种基于学习的实体识别方法
CN106547890A (zh) * 2016-11-04 2017-03-29 深圳云天励飞技术有限公司 海量图像特征向量中的快速聚类预处理方法
CN106899440A (zh) * 2017-03-15 2017-06-27 苏州大学 一种面向云计算的网络入侵检测方法及系统
CN107204998A (zh) * 2016-03-16 2017-09-26 华为技术有限公司 处理数据的方法和装置
CN110245012A (zh) * 2018-03-08 2019-09-17 中国移动通信集团广东有限公司 一种松散型虚拟化资源调度方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216436A (zh) * 2008-01-03 2008-07-09 东华大学 一种基于支持向量数据描述理论的织物瑕疵自动检测方法
CN102222092A (zh) * 2011-06-03 2011-10-19 复旦大学 一种MapReduce平台上的海量高维数据聚类方法
CN102255926A (zh) * 2010-05-17 2011-11-23 中国移动通信集团公司 MapReduce系统中的任务分配方法、系统及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216436A (zh) * 2008-01-03 2008-07-09 东华大学 一种基于支持向量数据描述理论的织物瑕疵自动检测方法
CN102255926A (zh) * 2010-05-17 2011-11-23 中国移动通信集团公司 MapReduce系统中的任务分配方法、系统及装置
CN102222092A (zh) * 2011-06-03 2011-10-19 复旦大学 一种MapReduce平台上的海量高维数据聚类方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064991A (zh) * 2013-02-05 2013-04-24 杭州易和网络有限公司 一种海量数据聚类方法
CN103399927A (zh) * 2013-08-05 2013-11-20 百度在线网络技术(北京)有限公司 分布式计算方法和装置
CN103606530A (zh) * 2013-10-25 2014-02-26 清华大学 融合函数型数据描述的等离子刻蚀过程的故障检测方法
CN103606530B (zh) * 2013-10-25 2016-01-06 清华大学 融合函数型数据描述的等离子刻蚀过程的故障检测方法
CN104657574B (zh) * 2014-06-13 2017-10-31 苏州大学 一种医疗诊断模型的建立方法及装置
CN104657574A (zh) * 2014-06-13 2015-05-27 苏州大学 一种医疗诊断模型的建立方法及装置
CN104778254B (zh) * 2015-04-20 2018-03-27 北京蓝色光标品牌管理顾问股份有限公司 一种非参数的话题自动标注的分布式系统和标注方法
CN104778254A (zh) * 2015-04-20 2015-07-15 北京蓝色光标品牌管理顾问股份有限公司 一种非参数的话题自动标注的分布式系统和标注方法
CN105740604A (zh) * 2016-01-22 2016-07-06 湖南大学 基于冗余距离消除和极端点优化的并行k-means聚类方法
CN107204998A (zh) * 2016-03-16 2017-09-26 华为技术有限公司 处理数据的方法和装置
CN107204998B (zh) * 2016-03-16 2020-04-28 华为技术有限公司 处理数据的方法和装置
CN106294762A (zh) * 2016-08-11 2017-01-04 齐鲁工业大学 一种基于学习的实体识别方法
CN106294762B (zh) * 2016-08-11 2019-12-10 齐鲁工业大学 一种基于学习的实体识别方法
CN106547890A (zh) * 2016-11-04 2017-03-29 深圳云天励飞技术有限公司 海量图像特征向量中的快速聚类预处理方法
CN106547890B (zh) * 2016-11-04 2018-04-03 深圳云天励飞技术有限公司 海量图像特征向量中的快速聚类预处理方法
CN106899440A (zh) * 2017-03-15 2017-06-27 苏州大学 一种面向云计算的网络入侵检测方法及系统
CN110245012A (zh) * 2018-03-08 2019-09-17 中国移动通信集团广东有限公司 一种松散型虚拟化资源调度方法及系统

Also Published As

Publication number Publication date
CN102591940B (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN102591940B (zh) 一种基于Map/Reduce的快速支持向量数据描述方法及系统
Liu et al. Closing the" quantum supremacy" gap: achieving real-time simulation of a random quantum circuit using a new sunway supercomputer
Reed et al. Exascale computing and big data
Arfat et al. Big data tools, technologies, and applications: A survey
CN106874478A (zh) 基于Spark的并行化随机标签子集多标签文本分类方法
CN115146865A (zh) 基于人工智能的任务优化方法及相关设备
Agarwal et al. Implementation of an improved algorithm for frequent itemset mining using Hadoop
Wu et al. A path relinking enhanced estimation of distribution algorithm for direct acyclic graph task scheduling problem
Chen et al. Cloud-based predictive modeling system and its application to asthma readmission prediction
Han et al. SlimML: Removing non-critical input data in large-scale iterative machine learning
Li et al. Classification and disease probability prediction via machine learning programming based on multi-GPU cluster MapReduce system
Yadwadkar Machine learning for automatic resource management in the datacenter and the cloud
WO2023040145A1 (zh) 基于人工智能的文本分类方法、装置、电子设备及介质
Wang et al. A novel two-step job runtime estimation method based on input parameters in HPC system
Zhou et al. A parallel method to accelerate spatial operations involving polygon intersections
Gao et al. High-performance deep learning toolbox for genome-scale prediction of protein structure and function
Mishra et al. Short term price prediction for preemptible VM instances in cloud computing
Sukanya et al. Benchmarking support vector machines implementation using multiple techniques
CN102591978B (zh) 一种分布式文本拷贝检测系统
CN103577486A (zh) 一种对搜索结果进行排序的方法和设备
Sbih et al. Towards Efficient Ensemble Method for Bug Triaging.
Liu et al. An optimized speculative execution strategy based on local data prediction in a heterogeneous hadoop environment
He et al. Parallel decision tree with application to water quality data analysis
Fleites et al. Large-Scale Correlation-Based Semantic Classification Using MapReduce.
Golasowski et al. Toward the convergence of high-performance computing, cloud, and big data domains

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120718

Assignee: Xiaoma Baoli (Xiamen) Network Technology Co.,Ltd.

Assignor: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Contract record no.: X2023350000040

Denomination of invention: A Fast Support Vector Data Description Method and System Based on Map/Reduce

Granted publication date: 20130925

License type: Common License

Record date: 20230301