CN109815992A - 一种支持向量机并行加速训练方法及系统 - Google Patents

一种支持向量机并行加速训练方法及系统 Download PDF

Info

Publication number
CN109815992A
CN109815992A CN201811648991.9A CN201811648991A CN109815992A CN 109815992 A CN109815992 A CN 109815992A CN 201811648991 A CN201811648991 A CN 201811648991A CN 109815992 A CN109815992 A CN 109815992A
Authority
CN
China
Prior art keywords
training
parallel
support vector
vector machines
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811648991.9A
Other languages
English (en)
Inventor
高放
陈思
李明强
吴宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201811648991.9A priority Critical patent/CN109815992A/zh
Publication of CN109815992A publication Critical patent/CN109815992A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种支持向量机并行加速训练方法及系统,其中,所述方法包括:根据分组规则对样本数据进行分组,对每组分组数据以并行方式执行以下进程:筛选每组分组数据;对筛选后的每组分组数据进行支持向量机的迭代训练,直至获得多个稳定的训练模型;对多个稳定的训练模型求平均参数,获得统一的训练模型,从而完成支持向量机并行加速训练。所述系统包括:分组模块、数据筛选模块、模型训练模块以及模型融合模块。本发明针对海量数据的分类,通过在支持向量机分类前对海量数据进行分组,并通过对应的筛选机制对分组数据进行筛选,而后以并行的方式进行支持向量机的迭代训练,从而提高了海量数据的支持向量机训练速度。

Description

一种支持向量机并行加速训练方法及系统
技术领域
本发明属于机器学习领域,具体涉及了一种支持向量机并行加速训练方法及系统。
背景技术
支持向量机(Support Vector Machine,SVM)是一种具有完整理论推导和优异实践性能的机器学习算法,被广泛应用于文本分类、人脸识别和图像检测等领域。近年来,许多SVM的软件模型得到了很好的发展,但是当训练样本不断变大时,SVM算法训练的内存和时间消耗急剧增加,所以单机SVM算法不能有效处理大规模数据集。
随着科技的发展,大数据时代的到来,数据规模呈现出爆炸性增长趋势。在数据挖掘领域,互联网应用成为机器学习主要应用方向,一个机器学习方法能不能处理谷歌、淘宝这样重量级的网站所生成的数据,成为互联网从业人员心目中大规模数据处理的标尺;在人工智能、模式识别等机器学习的另一传统领域,深度学习的兴起,样本数据的规模同样出现指数级增长;同时,近年来物联网的兴起,大量需要具有一定智能感知、智能决策、智能动作的智能设备越来越普及,需要处理的信息规模也越来越大,这些嵌入式设备同样急需拥有更高数据处理能力同时识别精准的轻量化机器学习模型作为核心算法。综上所述,以SVM作为代表的传统统计型机器学习算法在各个应用领域都受到数据量增长所带来的挑战。
发明内容
本发明的目的是通过以下技术方案实现的一种支持向量机并行加速训练方法,包括:根据分组规则对样本数据进行分组,对每组分组数据以并行方式执行以下进程:筛选每组分组数据;对筛选后的每组分组数据进行支持向量机的迭代训练,直至获得多个稳定的训练模型;对多个稳定的训练模型求平均参数,获得统一的训练模型,从而完成支持向量机并行加速训练。
进一步的,所述筛选每组分组数据,包括:根据分组数据对训练模型的贡献值进行筛选。
进一步的,所述根据分组数据对训练模型的贡献值进行筛选,包括:
|m_p(xi)-y(xi)|≥ET
其中,m_p(xi)表示使用所有训练样本得到的稀疏模型对训练样本xi的预测值,y(xi)是训练样本xi对应的标签值,ET为贡献值阈值;其中,所述标签值为事先根据训练样本获得的正确值。
进一步的,所述对筛选后的每组分组数据进行支持向量机的迭代训练,直至获得多个稳定的训练模型,包括:对每组分组数据以并行的方式进行支持向量机训练,获得多个训练模型;判断所述多个训练模型是否稳定;如果是,则结束并行训练并输出多个训练模型;如果否,则对多个训练模型平均化,并利用平均化后的多个训练模型继续通过分组数据进行并行训练,直至训练模型稳定。
更进一步的,所述判断所述多个训练模型是否稳定,包括:根据获得的多个训练模型间的差异判断训练模型是否稳定。
所述系统包括:分组模块,用于根据分组规则对样本数据进行分组;数据筛选模块,用于筛选每组分组数据;模型训练模块,用于对筛选后的每组分组数据进行支持向量机的迭代训练,直至获得多个稳定的训练模型;模型融合模块,用于对多个稳定的训练模型求平均参数,获得统一的训练模型,从而完成支持向量机并行加速训练。
优选的,所述数据筛选模块的筛选,包括:根据分组数据对训练模型的贡献值进行筛选。
更优选的,所述根据分组数据对训练模型的贡献值进行筛选,包括:
|m_p(xi)-y(xi)|≥ET
其中,m_p(xi)表示使用所有训练样本得到的稀疏模型对训练样本xi的预测值,y(xi)是训练样本xi对应的标签值,ET为贡献值阈值;其中,所述标签值为事先根据训练样本获得的正确值。
优选的,所述模型训练模块的支持向量机的迭代训练,包括:对每组分组数据以并行的方式进行支持向量机训练,获得多个训练模型;判断所述多个训练模型是否稳定;如果是,则结束并行训练并输出多个训练模型;如果否,则对多个训练模型平均化,并利用平均化后的多个训练模型继续通过分组数据进行并行训练,直至训练模型稳定。
更优选的,所述判断所述多个训练模型是否稳定,包括:根据获得的多个训练模型间的差异判断训练模型是否稳定。
本发明的优点在于:
(1)针对大规模样本,通过稀疏处理的方法减少有效样本数量,降低学习规模;
(2)实现传统SVM训练的并行化,提高训练速度
(3)在进行稀疏预处理和并行化训练的前提下,保证了训练模型的预测正确率与传统方式的相似性,对于传统SVM方法具有完全的可替代效果。
(4)本发明具有普适能力,可以在任何具有多线程、多任务、多核等具有并行计算能力的计算平台上进行实现。不仅适用于中大型计算机,也可应用于性能受限的嵌入式设备。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的一种支持向量机并行加速训练方法的工作流程示意图。
附图2示出了根据本发明实施方式的一种支持向量机并行加速训练方法的支持向量机模型训练流程示意图。
附图3示出了根据本发明具体实施例一的一组训练速度对比示意图。
附图4示出了根据本发明具体实施例一的一组正确率对比示意图。
附图5示出了根据本发明具体实施例一的另一组训练速度对比示意图。
附图6示出了根据本发明具体实施例一的另一组正确率对比示意图。
附图7示出了根据本发明的另一种具体实施的支持向量机训练流程示意图。
附图8示出了使用本发明方法的一种支持向量机并行加速训练系统组成示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,为根据本发明实施方式的一种支持向量机并行加速训练方法的工作流程示意图。其中,所述工作流程包括:根据分组规则对样本数据进行分组,对每组分组数据以并行方式执行以下进程:筛选每组分组数据;对筛选后的每组分组数据进行支持向量机的迭代训练,直至获得多个稳定的训练模型;对多个稳定的训练模型求平均参数,获得统一的训练模型,从而完成支持向量机并行加速训练。其中,所述分组规则包括:平均分组以及根据数据类别分组,如,数字、文字、图片等。所述通过对应的筛选机制对每组分组数据进行筛选包括:该样本筛选机制综合考虑最小二乘支持向量机稀疏模型的特点(通过事先少量模型训练获得)、不同训练样本对模型求解贡献大小和支持向量分布特点,对训练样本进行筛选,减小样本数量。样本筛选基本原则为:
|m_p(xi)-y(xi)|≥ET
其中,m_p(xi)表示使用所有训练样本得到的稀疏模型对训练样本xi分布的预测值,y(xi)是训练样本xi对应的贡献值,ET为贡献值阈值,具体为一个大于0的实数值。
具体的,对于筛选阈值参数ET,需要对其调优确定,其调优原则是在不影响模型预测正确率的前提下,筛选出对模型训练贡献大的训练样本,减少对模型训练贡献小的训练样本,即减少稀疏模型中的支持向量,因此筛选阈值ET参数值需通过多次实验确定。筛选除去训练样本模型中预测值与其贡献值之间的误差值大于等于阈值ET的训练样本数据。而对于对每组分组数据的支持向量机模型的训练过程具体如图2所示:
如图2所示,为根据本发明实施方式的一种支持向量机并行加速训练方法的支持向量机模型训练流程示意图。其中,所述通过对每组分组数据的多次迭代训练,获得多个稳定的训练模型包括:对每组分组数据以并行的方式进行支持向量机训练,获得多个训练模型;判断所述多个训练模型是否稳定;如果是,则结束并行训练并输出多个训练模型;如果否,则对多个训练模型平均化,并利用平均化后的多个训练模型继续通过分组数据进行并行训练,直至训练模型稳定。
具体实施例一(训练速度和准确率对比试验)
本对比试验将对以下三种方法通过两种训练集进行训练速度和正确率的比较:
(1)三种训练方法
数据集中式训练方法:使用所有训练样本数据进行训练的方法;
本发明方法:对样本数据进行平均分组,并对每组样本数据进行筛选;而后将分组后的训练样本随机地分给16个训练进程上,每个进程根据局部(分组)训练样本进行训练,16个进程间进行模型传递,每个进程将接收到的模型中的训练样本加入到本地训练样本集中,并将接收到的模型与本地训练模型进行比较,当训练模型间的差异大于设定阈值时,则对多个训练模型进行平均化,并以平均化后的训练模型进行下一次优化问题的求解,直到所述模型间的差异小于设定阈值而收敛为稳定模型;最后,再对多个稳定的训练模型求平均参数,获得统一的训练模型,从而完成支持向量机并行加速训练。
在本发明方法中省略数据筛选步骤的并行方法,该方法与本发明方法的区别在于省略了数据筛选步骤。
2)测试数据集
测试用数据集选用模拟数据集和UCI MAGIC数据集两套数据集进行实验。
模拟数据集:由两类非线性可分的训练样本构成,其中一类服从均值为mu1=[0,0]T,协方差为Σ=[0.6,0;0,0.4]的二维高斯分布,另一类服从混合比例为π21=0.3和π22=0.7,均值分别为mu3=[2,2]T和mu2=[-2,-2]T,协方差均为Σ=[0.6,0;0,0.4]的二维混合高斯分布。
UCI MAGIC数据集:该数据集用于测试伽马射线望远镜识别大气高能量例子所用,其数据集特点如表1。本实验中使用参数同模拟数据集。
表1 MAGIC数据集基本信息
3)实验结果
附图3示出了根据本发明具体实施例一的一组训练速度对比示意图。附图4示出了根据本发明具体实施例一的一组正确率对比示意图。附图5示出了根据本发明具体实施例一的另一组训练速度对比示意图。附图6示出了根据本发明具体实施例一的另一组正确率对比示意图。其中,串行代表数据集中式训练方法,并行代表在本发明方法中省略数据筛选步骤的并行训练方法,并行-筛选代表本发明方法。
通过图4和图6可以看出,三种训练方法在模拟数据集下获得的训练模型的分类正确率几乎相同,在UCI MAGIC数据集下获得的训练模型的分类正确率,串行训练方式略高于本发明方法和在本发明方法中省略数据筛选步骤的并行方法。通过图3和图5可以看出,三种方法在两种训练集下的模型训练速度都是本发明方法最快(串行.筛选),在本发明方法中省略数据筛选步骤的并行方法次之(并行),数据集中式训练方法(串行)最慢。
因此,通过上述试验可以得出,本发明方法能够获得比数据集中式训练方法更快的训练速度并且根据本发明方法获得的训练模型具有较好的预测准确率。
具体实施例二
如图7所示,附图7示出了根据本发明的另一种具体实施的支持向量机训练流程示意图。其中,具体的支持向量机训练流程包括:对每组分组数据以并行的方式进行支持向量机训练,获得多个训练模型;判断所述多个训练模型是否稳定;如果是,则结束并行训练并输出多个训练模型;如果否,则对多个训练模型平均化,并将所述分组数据重新分组,而后再对平均化后的多个训练模型通过重新分组后的分组数据进行并行训练,直至训练模型稳定;最后对多个稳定的训练模型求平均参数,获得统一的训练模型,从而完成支持向量机并行加速训练。
具体实施例三(训练系统)
如图8所示,为使用本发明方法的一种支持向量机并行加速训练系统组成示意图。其中,所述系统包括:分组模块,用于根据分组规则对样本数据进行分组;数据筛选模块,用于筛选每组分组数据;模型训练模块,用于对筛选后的每组分组数据进行支持向量机的迭代训练,直至获得多个稳定的训练模型;模型融合模块,用于对多个稳定的训练模型求平均参数,获得统一的训练模型,从而完成支持向量机并行加速训练。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种支持向量机并行加速训练方法,其特征在于,包括:
根据分组规则对样本数据进行分组,对每组分组数据以并行方式执行以下进程:
筛选每组分组数据;
对筛选后的每组分组数据进行支持向量机的迭代训练,直至获得多个稳定的训练模型;
对多个稳定的训练模型求平均参数,获得统一的训练模型,从而完成支持向量机并行加速训练。
2.根据权利要求1所述的支持向量机并行加速训练方法,其特征在于,所述筛选每组分组数据,包括:
根据分组数据对训练模型的贡献值进行筛选。
3.根据权利要求2所述的支持向量机并行加速训练方法,其特征在于,所述根据分组数据对训练模型的贡献值进行筛选,包括:
|m_p(xi)-y(xi)|≥ET
其中,m_p(xi)表示使用所有训练样本得到的稀疏模型对训练样本xi的预测值,y(xi)是训练样本xi对应的标签值,ET为贡献值阈值;其中,
所述标签值为事先根据训练样本获得的正确值。
4.根据权利要求1所述的支持向量机并行加速训练方法,其特征在于,所述对筛选后的每组分组数据进行支持向量机的迭代训练,直至获得多个稳定的训练模型,包括:
对每组分组数据以并行的方式进行支持向量机训练,获得多个训练模型;
判断所述多个训练模型是否稳定;如果是,则结束并行训练并输出多个训练模型;
如果否,则对多个训练模型平均化,并利用平均化后的多个训练模型继续通过分组数据进行并行训练,直至训练模型稳定。
5.根据权利要求4所述的支持向量机并行加速训练方法,其特征在于,所述判断所述多个训练模型是否稳定,包括:
根据获得的多个训练模型间的差异判断训练模型是否稳定。
6.一种支持向量机并行加速训练系统,其特征在于,包括:
分组模块,用于根据分组规则对样本数据进行分组;
数据筛选模块,用于筛选每组分组数据;
模型训练模块,用于对筛选后的每组分组数据进行支持向量机的迭代训练,直至获得多个稳定的训练模型;
模型融合模块,用于对多个稳定的训练模型求平均参数,获得统一的训练模型,从而完成支持向量机并行加速训练。
7.根据权利要求6所述的支持向量机并行加速训练系统,其特征在于,所述数据筛选模块的筛选,包括:
根据分组数据对训练模型的贡献值进行筛选。
8.根据权利要求7所述的支持向量机并行加速训练方法,其特征在于,所述根据分组数据对训练模型的贡献值进行筛选,包括:
|m_p(xi)-y(xi)|≥ET
其中,m_p(xi)表示使用所有训练样本得到的稀疏模型对训练样本xi的预测值,y(xi)是训练样本xi对应的标签值,ET为贡献值阈值;其中,
所述标签值为事先根据训练样本获得的正确值。
9.根据权利要求6所述的支持向量机并行加速训练系统,其特征在于,所述模型训练模块的支持向量机的迭代训练,包括:
对每组分组数据以并行的方式进行支持向量机训练,获得多个训练模型;
判断所述多个训练模型是否稳定;如果是,则结束并行训练并输出多个训练模型;
如果否,则对多个训练模型平均化,并利用平均化后的多个训练模型继续通过分组数据进行并行训练,直至训练模型稳定。
10.根据权利要求9所述的支持向量机并行加速训练系统,其特征在于,所述判断所述多个训练模型是否稳定,包括:
根据获得的多个训练模型间的差异判断训练模型是否稳定。
CN201811648991.9A 2018-12-30 2018-12-30 一种支持向量机并行加速训练方法及系统 Pending CN109815992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811648991.9A CN109815992A (zh) 2018-12-30 2018-12-30 一种支持向量机并行加速训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811648991.9A CN109815992A (zh) 2018-12-30 2018-12-30 一种支持向量机并行加速训练方法及系统

Publications (1)

Publication Number Publication Date
CN109815992A true CN109815992A (zh) 2019-05-28

Family

ID=66603278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811648991.9A Pending CN109815992A (zh) 2018-12-30 2018-12-30 一种支持向量机并行加速训练方法及系统

Country Status (1)

Country Link
CN (1) CN109815992A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275170A (zh) * 2020-01-19 2020-06-12 腾讯科技(深圳)有限公司 一种模型训练方法和相关装置
CN113128544A (zh) * 2020-01-15 2021-07-16 富士通株式会社 训练人工智能模型的方法和装置
CN115098771A (zh) * 2022-06-09 2022-09-23 阿里巴巴(中国)有限公司 推荐模型更新方法、推荐模型训练方法及计算设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128544A (zh) * 2020-01-15 2021-07-16 富士通株式会社 训练人工智能模型的方法和装置
CN111275170A (zh) * 2020-01-19 2020-06-12 腾讯科技(深圳)有限公司 一种模型训练方法和相关装置
CN111275170B (zh) * 2020-01-19 2023-11-24 腾讯科技(深圳)有限公司 一种模型训练方法和相关装置
CN115098771A (zh) * 2022-06-09 2022-09-23 阿里巴巴(中国)有限公司 推荐模型更新方法、推荐模型训练方法及计算设备

Similar Documents

Publication Publication Date Title
CN107909101B (zh) 基于卷积神经网络的半监督迁移学习字符识别方法及系统
CN111160474B (zh) 一种基于深度课程学习的图像识别方法
US20190279088A1 (en) Training method, apparatus, chip, and system for neural network model
CN109815992A (zh) 一种支持向量机并行加速训练方法及系统
US11444876B2 (en) Method and apparatus for detecting abnormal traffic pattern
US10089421B2 (en) Information processing apparatus and information processing method
CN109272031A (zh) 一种训练样本生成方法及装置、设备、介质
CN111639679A (zh) 一种基于多尺度度量学习的小样本学习方法
CN108304876A (zh) 分类模型训练方法、装置及分类方法及装置
CN109508740B (zh) 基于高斯混合噪声生成式对抗网络的物体硬度识别方法
CN103473492B (zh) 权限识别方法和用户终端
CN108197668A (zh) 模型数据集的建立方法及云系统
CN111680109A (zh) 知识图谱表示学习模型训练方法、装置及电子设备
CN110348475A (zh) 一种基于空间变换的对抗样本增强方法和模型
CN111967573A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN109413023A (zh) 机器识别模型的训练及机器识别方法、装置、电子设备
CN113228062B (zh) 基于特征多样性学习的深度集成模型训练方法
CN111723856B (zh) 一种图像数据处理方法、装置、设备及可读存储介质
CN111126446A (zh) 一种机器人视觉工业产品缺陷图像数据增广方法
CN106203103A (zh) 文件的病毒检测方法及装置
Xiao et al. A traffic classification method with spectral clustering in SDN
CN109033921A (zh) 一种识别模型的训练方法和装置
CN116958148B (zh) 输电线路关键部件缺陷的检测方法、装置、设备、介质
CN110188322A (zh) 一种波形幅度不确定度确定方法及系统
CN110929301B (zh) 一种基于提升算法的硬件木马检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528