CN102591940B - 一种基于Map/Reduce的快速支持向量数据描述方法及系统 - Google Patents
一种基于Map/Reduce的快速支持向量数据描述方法及系统 Download PDFInfo
- Publication number
- CN102591940B CN102591940B CN 201110443726 CN201110443726A CN102591940B CN 102591940 B CN102591940 B CN 102591940B CN 201110443726 CN201110443726 CN 201110443726 CN 201110443726 A CN201110443726 A CN 201110443726A CN 102591940 B CN102591940 B CN 102591940B
- Authority
- CN
- China
- Prior art keywords
- sub
- map
- training
- data set
- svdd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 143
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 43
- 238000003860 storage Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 7
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 239000000725 suspension Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 9
- 238000012706 support-vector machine Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 241000234295 Musa Species 0.000 description 3
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000003638 chemical reducing agent Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000004883 computer application Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统,其中方法包括:对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;根据预设置的参数、由训练数据集D生成n个子数据集,预设置的参数包括训练数据集的划分个数;根据n个子数据集,生成MapReduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将Map任务交由Hadoop集群调度器进行运算;调用MapReduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到训练数据集的SVDD分类器。本发明可以在处理海量数据时,降低SVDD训练数据集的维数,加快SVDD训练速度,同时避免训练中断。
Description
技术领域
本发明涉及计算机应用技术领域,更具体地说,涉及一种基于Map/Reduce的快速支持向量数据描述方法及系统。
背景技术
支持向量数据描述(Support Vector Data Description,SVDD)是在支持向量机(Support Vector Machine,SVM)的基础上,由Tax于2001年提出的一种针对单类数据的数据描述算法。它的主要思想是在核特征空间中寻找一个最小超球分界面,该分界面应尽可能把所有训练样本包围起来,并以该分界面对数据进行分类和描述。SVDD继承了SVM的优点,即以结构风险为目标进行优化,因此一经提出就受到了广大研究者的注意,并将之应用于异常检测、入侵检测中、基因表达聚类、故障检测等方面,取得很好的效果。然而,上述应用领域的数据逐渐朝着海量级别的方向发展。
目前,SVDD分类器常用的训练方法有:标准的训练方法和增量式方法。当上述训练方法应用于海量数据的级别时,由于需要通过核函数工具进行高维映射,最后得到用于寻优矩阵的维数将是爆炸性,其导致的后果是:(1)SVDD模型训练速度非常缓慢;(2)因内存消耗量过大使得训练中断。
Map/Reduce(映射/化简)系统是一个最先由Google提出的分布式计算软件构架,通过定义相应的映射(Map)和化简(Reduce)函数来实现大数据量的分布式处理,可以用来解决大数据量的分布式计算问题,然后把计算后的结果放入文件系统或者数据库中。在Map/Reduce系统中,每一个map操作都是相对独立的,所有的map任务都是并行运行的,虽然实践中会受到数据源和中央处理器个数的影响。同样的,Map/Reduce系统用一个reducer集合来执行reduce操作,所有带有相同key的map输出会聚集到同一个reducer。虽然这个过程看上去没有串行计算来得高效,但是Map/Reduce系统能够处理一般服务器所不能处理的大数据量处理问题。大型的服务器集群(例如Hadoop集群)可以在几个小时内处理petabyte数据量的排序问题。而并行处理可以提供部分容错和出错恢复的功能,当一个map操作或reduce操作失效时,整个工作就会被重新安排,从而不会影响数据处理工作的连续性。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于Map/Reduce的快速支持向量数据描述方法及系统,其能在处理海量数据时,降低SVDD训练数据集的维数,加快SVDD训练速度,同时避免训练中断。
本发明解决其技术问题所采用的技术方案是:
构造一种基于Map/Reduce的快速支持向量数据描述方法,其中,包括以下步骤:
对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;
根据预设置的参数、由所述训练数据集D生成n个子数据集,所述预设置的参数包括训练数据集的划分个数;
根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将所述Map任务交由Hadoop集群调度器进行运算;
在所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器;其中,所述i、n为自然数。
本发明所述的快速支持向量数据描述方法,其中,所述根据预设置的参数、由所述训练数据集D生成n个子数据集具体包括:
获取预计要抽样的子训练集的个数n值;
应用Bagging方式对所述训练数据集D进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集中;
本发明所述的快速支持向量数据描述方法,其中,所述步骤根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务具体包括:
获取核参数、惩罚比例,其中所述核参数采用默认的高斯核;
训练生成Map/Reduce编程架构下的n个所述子分类器SVDDi=(1,......,n)的Map任务。
本发明所述的快速支持向量数据描述方法,其中,所述将所述Map任务交由Hadoop集群调度器进行运算具体包括:
启动所述Hadoop集群调度器对所述Map任务进行调度运行,所述调度器将n个所述Map任务交由Hadoop集群的中多个计算节点进行运算,并将运算结果存储于Hadoop集群的分布式存储系统中。
本发明所述的快速支持向量数据描述方法,其中,所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器具体包括:
读取所述子分类器SVDDi=(1,......,n);
获取所述子分类器SVDDi=(1,......,n)的支持向量集计算所述支持向量集的每个样本被多少个所述子分类器SVDDi=(1,......,n)包含,所计算结果记为每被一个所述子分类器SVDDi=(1,......,n)包含,则令
计算
根据所述SVone训练生成训练数据集的SVDD分类器。
本发明还提供了一种基于Map/Reduce的快速支持向量数据描述系统,其中,包括训练数据集生成模块、Bagging抽样划分模块、Map函数子SVDD分类器生成模块和Reduce函数合并子SVDD分类器模块;其中,
所述训练数据集生成模块,用于对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;
所述Bagging抽样划分模块,用于根据预设置的参数、由所述训练数据集D生成n个子数据集,所述预设置的参数包括训练数据集的划分个数;
所述Map函数子SVDD分类器生成模块,用于根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将所述Map任务交由Hadoop集群调度器进行运算;
所述Reduce函数合并子SVDD分类器模块,用于在所述Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器;
其中,所述i、n为自然数。
本发明所述的快速支持向量数据描述系统,其中,所述Bagging抽样划分模块包括:
n值获取单元,用于获取预计要抽样的子训练集的个数n值;
抽样单元,用于应用Bagging方式对所述训练数据集D进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集中;
本发明所述的快速支持向量数据描述系统,其中,所述Map函数子SVDD分类器生成模块包括:
第一参数获取单元,用于获取核参数、惩罚比例,其中所述核参数采用默认的高斯核;
子分类器生成单元,用于训练生成Map/Reduce编程架构下的n个所述子分类器SVDDi=(1,......,n)的Map任务。
本发明所述的快速支持向量数据描述系统,其中,所述Map函数子SVDD分类器生成模块还包括:
运算单元,用于启动所述Hadoop集群调度器对所述Map任务进行调度运行,所述调度器将n个所述Map任务交由Hadoop集群的中多个计算节点进行运算,并将运算结果存储于Hadoop集群的分布式存储系统中。
本发明所述的快速支持向量数据描述系统,其中,所述Reduce函数合并子SVDD分类器模块包括:
第二数据读取单元,用于读取所述子分类器SVDDi=(1,......,n);
第二参数获取单元,用于获取所述子分类器SVDDi=(1,......,n)的支持向量集
第二计算单元,用于计算
第二判断单元,用于判断支持向量是否遍历完,如果是,则启动所述SVDD分类器生成单元,否则转向所述第一计算单元;
SVDD分类器生成单元,用于根据所述SVone训练生成训练数据集的SVDD分类器。
本发明的有益效果在于:通过将海量的训练数据集进行Bagging抽样子数据集的划分,即生成n个数量相等的子数据集;其次利用Map函数将某个子数据集用于生成子分类器;最后利用Reduce函数将子分类器进行合并,生成最后的分类器。由于SVDD本身是通过封闭的球体作为分界面,其性质是闭环的,因此通过这样的Map/Reduce方式,其训练的性能与原来是一样的。通过本发明的方法和系统,可以降低SVDD训练数据集的维数,同时利用集群的计算能力,加快其海量数据的训练速度,及防止训练中断现象的产生,对于入侵检测、故障检测等传统的海量数据级别的模式识别应用问题都有一定的参考价值。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明较佳实施例的基于Map/Reduce的快速支持向量数据描述方法流程图;
图2是本发明较佳实施例的快速支持向量数据描述方法中Bagging抽样流程图;
图3是本发明较佳实施例的快速支持向量数据描述方法中Map函数操作流程图;
图4是本发明较佳实施例的快速支持向量数据描述方法中Reduce函数操作流程图;
图5是本发明较佳实施例的快速支持向量数据描述方法测试应用过程示意图;
图6是本发明较佳实施例的基于Map/Reduce的快速支持向量数据描述系统原理框图;
图7是本发明较佳实施例的快速支持向量数据描述系统中Bagging抽样划分模块原理框图;
图8是本发明较佳实施例的快速支持向量数据描述系统中Map函数子SVDD分类器生成模块原理框图;
图9是本发明较佳实施例的快速支持向量数据描述系统中Reduce函数合并子SVDD分类器模块原理框图。
具体实施方式
本发明较佳实施例的基于Map/Reduce的快速支持向量数据描述(SVDD)方法S100流程如图1所示,该快速支持向量数据描述方法S100可以采用硬件或软件来实现。该方法起始于步骤S110。
在步骤S120中,对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集。具体地,模型建立人员,将用于SVDD建模的数据进行预处理,并根据专家的经验知识形成SVDD的训练数据样本集。在步骤S130中,根据预设置的参数、由上述训练数据集生成n个子数据集,其中预设置的参数包括训练数据集的划分个数。在步骤S140中,根据n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将Map任务交由Hadoop集群调度器进行运算。在步骤S150中,在Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器。上述方法快速支持向量数据描述方法S100结束于步骤S160。其中,上述i、n为自然数。本实施例的方法中,由于SVDD本身是通过封闭的球体作为分界面,其性质是闭环的,通过这样的Map/Reduce方式,其训练的性能与原来是一样的,因此可以降低SVDD训练数据集的维数,同时利用集群的计算能力,其直接效果是大大加快SVDD的训练速度,同时避免了训练的中断。
在进一步的实施例中,如图2所示,上述基于Map/Reduce的快速支持向量数据描述方法S100中步骤S130具体包括:获取预计要抽样的子训练集的个数n值;应用Bagging方式对训练数据集D进行抽样,有放回的抽取样本si,判断所抽取样本是否重复,即判断是否在所抽样本不重复时,将所抽样本si加入到子数据集中;判断子数据集中所包含样本的个数是否达到预设的个数(取整数值);在子数据集中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止Bagging抽样,否则更新训练数据集D,令再重复执行前一步骤,即:再应用Bagging方式对训练数据集D进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集中;再次判断子数据集中所包含样本的个数是否达到预设的个数取整数值;在子数据集中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止Bagging抽样,否则更新训练数据集D,令直到所有子数据集已全部完成抽样。其中,上述Bagging方式对训练数据集D进行抽样是指,对训练数据集D有放回的抽样,利用该Bagging抽样方法,可以使得抽样获得子训练集的信息熵比较均匀,防止因奇异点数据导致训练子分类器发生变形崩塌。
在进一步的实施例中,如图3所示,上述基于Map/Reduce的快速支持向量数据描述方法S100的步骤S140中,根据n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务具体包括:步骤S141、读取子数据集步骤S142、获取核参数δ和惩罚比例C,其中核参数采用默认的高斯核;步骤S143、根据核参数δ和惩罚比例C,对子数据集进行训练建模;步骤S144、训练生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务。在该步骤中,由于进行了Bagging抽样后,所得到子数据集的样本数已经大大的减少,所以在步骤S143中,可以选用标准的训练方法对子数据进行建模,生成子分类器,详细训练方法在此不一一赘述。
进一步地,上述基于Map/Reduce的快速支持向量数据描述方法S100的步骤S140中,将Map任务交由Hadoop集群调度器进行运算具体包括:启动Hadoop集群调度器j obtracker对上述生成的n个子分类器SVDDi=(1,......,n)的Map任务进行调度运行,调度器jobtracker将n个Map任务交由Hadoop集群的中多个计算节点进行运算,并将运算结果存储于Hadoop集群的分布式存储系统(Hadoop Distributed File System,HDFS)中。由于Hadoop集群可以处理海量数据,因此利用Hadoop集群进行数据存储及处理可以使得SVDD分类器能适应需要处理海量数据的应用领域。其中采用Hadoop集群调度器jobtracker进行调度运行的具体算法可参考现有技术,在此不进行描述。
更进一步地,如图4所示,上述基于Map/Reduce的快速支持向量数据描述方法S100的步骤S150具体包括:步骤S151、读取上述子分类器SVDDi=(1,......,n);步骤S152、获取子分类器SVDDi=(1,......,n)的支持向量集步骤S153、计算支持向量集的每个样本被多少个子分类器SVDDi=(1,......,n)包含,所计算结果记为每被一个子分类器SVDDi=(1,......,n)包含,则更新令步骤S154、计算SVone,其中步骤S155、判断支持向量是否遍历完,如果是,则执行步骤S156、根据SVone训练生成训练数据集的SVDD分类器,具体为:先生成训练集SVone,然后获取输入的核参数δ和惩罚比例C,应用标准的训练方法进行训练,生成最后的分类器SVDDglobal;否则重复执行步骤S153、S154、S155。
具体应用时,如图5所示,用户将待判别的数据输入到客户端,客户端将所接收到的数据传到SVDD分类器服务端上,然后SVDD分类器服务器会根据训练后的SVDD分类器对提交的样本进行判别分类,最后将结果返回给客户端,并通过客户端显示判别结果给客户。
在本发明的另一实施例中,如图6所示,还提供了一种基于Map/Reduce的快速支持向量数据描述系统00,该快速支持向量数据描述系统00可以采用硬件或软件来实现。在图6中同时示意出了该快速支持向量数据描述系统00与Hadoop集群50之间的交互关系。其中,快速支持向量数据描述系统00包括训练数据集生成模块10、Bagging抽样划分模块20、Map函数子SVDD分类器生成模块30和Reduce函数合并子SVDD分类器模块40。其中,训练数据集生成模块10,用于对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集;Bagging抽样划分模块20,用于根据预设置的参数、由训练数据集生成n个子数据集,预设置的参数包括训练数据集的划分个数;Map函数子SVDD分类器生成模块30,用于根据n个子数据集,生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务,并将Map任务交由Hadoop集群调度器进行运算;Reduce函数合并子SVDD分类器模块40,用于在Hadoop集群调度器运算完成后,调用Map/Reduce编程架构下的Reduce任务进行子分类器SVDDi=(1,......,n)的合并,得到最后训练数据集的SVDD分类器;其中,i、n为自然数。本实施例的快速支持向量数据描述系统00中,由于SVDD本身是通过封闭的球体作为分界面,其性质是闭环的,通过这样的Map/Reduce方式,其训练的性能与原来是一样的,因此可以降低SVDD训练数据集的维数,同时利用Hadoop集群的计算能力,其直接效果是大大加快SVDD的训练速度,同时避免了训练的中断。
在进一步的实施例中,如图7所示,上述快速支持向量数据描述系统00的Bagging抽样划分模块20包括:n值获取单元21,用于获取预计要抽样的子训练集的个数n值;抽样单元22,用于应用Bagging方式对训练数据集D进行抽样,在所抽样本不重复时,将所抽样本加入到子数据集中;第一判断单元23,用于在子数据集中所包含样本的个数达到预设的个数时,判断所有子数据集是否已全部完成抽样,如果是,则停止抽样,否则更新训练数据集D,令再启动所述抽样单元22,再次进行Bagging抽样。其中,上述Bagging方式对训练数据集D进行抽样是指,对训练数据集D有放回的抽样,利用该Bagging抽样方法,可以使得抽样获得子训练集的信息熵比较均匀,防止因奇异点数据导致训练子分类器发生变形崩塌。
在进一步的实施例中,如图8所示,上述快速支持向量数据描述系统00的Map函数子SVDD分类器生成模块30包括:第一数据读取单元31,用于读取子数据集第一参数获取单元32,用于获取核参数、惩罚比例,其中核参数采用默认的高斯核;训练建模单元33,用于根据核参数、惩罚比例,对子数据集进行训练建模;子分类器生成单元34,用于训练生成Map/Reduce编程架构下的n个子分类器SVDDi=(1,......,n)的Map任务。由于子数据集的样本数已经大大的减少,所以训练建模单元33可以选用标准的训练方法对子数据进行建模,生成子分类器SVDDi=(1,......,n)。
在进一步的实施例中,如图8所示,上述快速支持向量数据描述系统00的Map函数子SVDD分类器生成模块30还包括:运算单元35,用于启动Hadoop集群调度器jobtracker对Map任务进行调度运行,调度器jobtracker将n个Map任务交由Hadoop集群的中多个计算节点进行运算,并将运算结果存储于Hadoop集群50的分布式存储系统(Hadoop Distributed File System,HDFS)中。由于Hadoop集群50可以处理海量数据,因此利用Hadoop集群50进行数据存储及处理可以使得SVDD分类器能适应需要处理海量数据的应用领域。
在进一步的实施例中,如图9所示,上述快速支持向量数据描述系统00的Reduce函数合并子SVDD分类器模块40包括:第二数据读取单元41,用于读取子分类器SVDDi=(1,......,n);第二参数获取单元42,用于获取子分类器SVDDi=(1,......,n)的支持向量集第一计算单元43,用于计算支持向量集的每个样本被多少个子分类器SVDDi=(1,......,n)包含,所计算结果记为每被一个子分类器SVDDi=(1,......,n)包含,则令第二计算单元44,用于计算第二判断单元45,用于判断支持向量是否遍历完,如果是,则启动SVDD分类器生成单元46,否则转向第一计算单元43;SVDD分类器生成单元46,用于根据SVone训练生成训练数据集的SVDD分类器。
以banana数据为例,对上述快速支持向量数据描述系统00生成SVDD分类器的完整过程包括:1、画出banana数据集的空间分布图;2、应用Bagging抽样划分模块20对banana数据进行Bagging进行抽样;3、应用Map函数子SVDD分类器生成模块30对其进行子SVDD训练,给出数据原始空间和高维空间的分类器边界图;4、应用Reduce函数合并子SVDD分类器模块40对子SVDD进行合并,给出数据原始空间和高维空间的分类器边界图;5、最后得出整体的SVDD分类器。
综上,本发明从SVDD的训练算法上进行改进,首先通过将海量的训练数据集进行Bagging抽样子数据集的划分,即生成n个数量相等的子数据集;其次利用Map函数将某个子数据集用于生成子分类器;最后利用Reduce函数将子分类器进行合并,生成最后的分类器。由于SVDD本身是通过封闭的球体作为分界面,其性质是闭环的,因此通过这样的Map/Reduce方式,其训练的性能与原来是一样的。通过本发明的方法和系统,可以降低SVDD训练数据集的维数,同时利用集群的计算能力,加快其海量数据的训练速度,及防止训练中断现象的产生,对于入侵检测、故障检测等传统的海量数据级别的模式识别应用问题都有一定的参考价值。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (8)
1.一种基于Map/Reduce的快速支持向量数据描述方法,其特征在于,包括以下步骤:
对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;
根据预设置的参数、由所述训练数据集D生成n个子数据集,所述预设置的参数包括训练数据集的划分个数;
根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器 的Map任务,并将所述Map任务交由Hadoop集群调度器进行运算;
所述根据预设置的参数、由所述训练数据集D生成n个子数据集具体包括:
获取预计要抽样的子训练集的个数n值;
3.根据权利要求2所述的快速支持向量数据描述方法,其特征在于,所述将所述Map任务交由Hadoop集群调度器进行运算具体包括:
启动所述Hadoop集群调度器对所述Map任务进行调度运行,所述调度器将n个所述Map任务交由Hadoop集群中的多个计算节点进行运算,并将运算结果存储于Hadoop集群的分布式存储系统中。
5.一种基于Map/Reduce的快速支持向量数据描述系统,其特征在于,包括训练数据集生成模块、Bagging抽样划分模块、Map函数子SVDD分类器生成模块和Reduce函数合并子SVDD分类器模块;其中,
所述训练数据集生成模块,用于对用于支持向量数据描述的数据进行预处理,生成支持向量数据描述的训练数据集D;
所述Bagging抽样划分模块,用于根据预设置的参数、由所述训练数据集D生成n个子数据集,所述预设置的参数包括训练数据集的划分个数;
所述Map函数子SVDD分类器生成模块,用于根据所述n个子数据集,生成Map/Reduce编程架构下的n个子分类器的Map任务,并将所述Map任务交由Hadoop集群调度器进行运算;
其中,所述i、n为自然数;
所述Bagging抽样划分模块包括:
n值获取单元,用于获取预计要抽样的子训练集的个数n值;
7.根据权利要求6所述的快速支持向量数据描述系统,其特征在于,所述Map函数子SVDD分类器生成模块还包括:
运算单元,用于启动所述Hadoop集群调度器对所述Map任务进行调度运行,所述调度器将n个所述Map任务交由Hadoop集群中的多个计算节点进行运算,并将运算结果存储于Hadoop集群的分布式存储系统中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110443726 CN102591940B (zh) | 2011-12-27 | 2011-12-27 | 一种基于Map/Reduce的快速支持向量数据描述方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110443726 CN102591940B (zh) | 2011-12-27 | 2011-12-27 | 一种基于Map/Reduce的快速支持向量数据描述方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102591940A CN102591940A (zh) | 2012-07-18 |
CN102591940B true CN102591940B (zh) | 2013-09-25 |
Family
ID=46480581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110443726 Active CN102591940B (zh) | 2011-12-27 | 2011-12-27 | 一种基于Map/Reduce的快速支持向量数据描述方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102591940B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399927B (zh) * | 2013-08-05 | 2016-11-02 | 百度在线网络技术(北京)有限公司 | 分布式计算方法和装置 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103064991A (zh) * | 2013-02-05 | 2013-04-24 | 杭州易和网络有限公司 | 一种海量数据聚类方法 |
CN103606530B (zh) * | 2013-10-25 | 2016-01-06 | 清华大学 | 融合函数型数据描述的等离子刻蚀过程的故障检测方法 |
CN104657574B (zh) * | 2014-06-13 | 2017-10-31 | 苏州大学 | 一种医疗诊断模型的建立方法及装置 |
CN104778254B (zh) * | 2015-04-20 | 2018-03-27 | 北京蓝色光标品牌管理顾问股份有限公司 | 一种非参数的话题自动标注的分布式系统和标注方法 |
CN105740604A (zh) * | 2016-01-22 | 2016-07-06 | 湖南大学 | 基于冗余距离消除和极端点优化的并行k-means聚类方法 |
CN107204998B (zh) * | 2016-03-16 | 2020-04-28 | 华为技术有限公司 | 处理数据的方法和装置 |
CN106294762B (zh) * | 2016-08-11 | 2019-12-10 | 齐鲁工业大学 | 一种基于学习的实体识别方法 |
CN106547890B (zh) * | 2016-11-04 | 2018-04-03 | 深圳云天励飞技术有限公司 | 海量图像特征向量中的快速聚类预处理方法 |
CN106899440B (zh) * | 2017-03-15 | 2020-04-07 | 苏州大学 | 一种面向云计算的网络入侵检测方法及系统 |
CN110245012A (zh) * | 2018-03-08 | 2019-09-17 | 中国移动通信集团广东有限公司 | 一种松散型虚拟化资源调度方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216436A (zh) * | 2008-01-03 | 2008-07-09 | 东华大学 | 一种基于支持向量数据描述理论的织物瑕疵自动检测方法 |
CN102222092A (zh) * | 2011-06-03 | 2011-10-19 | 复旦大学 | 一种MapReduce平台上的海量高维数据聚类方法 |
CN102255926A (zh) * | 2010-05-17 | 2011-11-23 | 中国移动通信集团公司 | MapReduce系统中的任务分配方法、系统及装置 |
-
2011
- 2011-12-27 CN CN 201110443726 patent/CN102591940B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216436A (zh) * | 2008-01-03 | 2008-07-09 | 东华大学 | 一种基于支持向量数据描述理论的织物瑕疵自动检测方法 |
CN102255926A (zh) * | 2010-05-17 | 2011-11-23 | 中国移动通信集团公司 | MapReduce系统中的任务分配方法、系统及装置 |
CN102222092A (zh) * | 2011-06-03 | 2011-10-19 | 复旦大学 | 一种MapReduce平台上的海量高维数据聚类方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103399927B (zh) * | 2013-08-05 | 2016-11-02 | 百度在线网络技术(北京)有限公司 | 分布式计算方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102591940A (zh) | 2012-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102591940B (zh) | 一种基于Map/Reduce的快速支持向量数据描述方法及系统 | |
Salamat et al. | F5-hd: Fast flexible fpga-based framework for refreshing hyperdimensional computing | |
Zhang et al. | BoostGCN: A framework for optimizing GCN inference on FPGA | |
Wu et al. | Machine learning at facebook: Understanding inference at the edge | |
Zhao et al. | Accelerating binarized convolutional neural networks with software-programmable FPGAs | |
US11429895B2 (en) | Predicting machine learning or deep learning model training time | |
WO2023273045A1 (zh) | 量子系统的基态获取方法、装置、设备、介质及程序产品 | |
US20190095818A1 (en) | Gradient-based auto-tuning for machine learning and deep learning models | |
WO2020081229A1 (en) | Automatic feature subset selection using feature ranking and scalable automatic search | |
Zhang et al. | Efficient and merged biogeography-based optimization algorithm for global optimization problems | |
EP4217885A1 (en) | Data-driven checkpoint selector | |
Zhang et al. | Efficient Deweahter Mixture-of-Experts with Uncertainty-Aware Feature-Wise Linear Modulation | |
CN103605493B (zh) | 基于图形处理单元的并行排序学习方法及系统 | |
Morchdi et al. | A Resource-efficient Task Scheduling System using Reinforcement Learning | |
CN117407177B (zh) | 任务执行方法、装置、电子设备及可读存储介质 | |
CN106250928A (zh) | 基于图形处理单元的并行逻辑回归方法及系统 | |
WO2022031561A1 (en) | Memory usage prediction for machine learning and deep learning models | |
Li et al. | An alternating nonmonotone projected Barzilai–Borwein algorithm of nonnegative factorization of big matrices | |
US20120109975A1 (en) | Clustering system, method and program | |
Jin et al. | Self-supervised Learning for Anomaly Detection in Computational Workflows | |
CN103942235A (zh) | 针对大规模数据集交叉比较的分布式计算系统和方法 | |
CN112241289B (zh) | 一种文本数据的处理方法和电子设备 | |
CN110188804B (zh) | 基于MapReduce框架的支持向量机最优分类模型参数搜索的方法 | |
Wang et al. | Improved artificial bee colony algorithm and its application in classification | |
CN112750074B (zh) | 小样本图像特征增强方法及系统、图像分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20120718 Assignee: Xiaoma Baoli (Xiamen) Network Technology Co.,Ltd. Assignor: XIAMEN MEIYA PICO INFORMATION Co.,Ltd. Contract record no.: X2023350000040 Denomination of invention: A Fast Support Vector Data Description Method and System Based on Map/Reduce Granted publication date: 20130925 License type: Common License Record date: 20230301 |
|
EE01 | Entry into force of recordation of patent licensing contract |