CN103886340A - 一种用于在线学习的样本集训练方法 - Google Patents

一种用于在线学习的样本集训练方法 Download PDF

Info

Publication number
CN103886340A
CN103886340A CN201410069210.6A CN201410069210A CN103886340A CN 103886340 A CN103886340 A CN 103886340A CN 201410069210 A CN201410069210 A CN 201410069210A CN 103886340 A CN103886340 A CN 103886340A
Authority
CN
China
Prior art keywords
support vector
training
sample
sample set
vector machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410069210.6A
Other languages
English (en)
Inventor
沈海斌
卞桂龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201410069210.6A priority Critical patent/CN103886340A/zh
Publication of CN103886340A publication Critical patent/CN103886340A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)

Abstract

本发明公开了一种用于在线学习的样本集训练方法。该方法将初始样本集划分成若干个样本子集,再将每个样本子集根据权重分布随机划分成训练集和测试集。对于训练集,先求取壳向量集,并将其作为新的训练集来进行支持向量机的训练。若生成的支持向量机不满足收敛条件,则丢弃该支持向量机并重新训练。最后将所有支持向量机利用权重投票方式产生一个集成的支持向量机。本发明在样本集上引入了一定的随机性,从而间接地提高了支持向量机的多样性,使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷,起到支持在线学习的目的。同时在不影响分类精度的情况下,还能大幅减少支持向量机的训练时间。

Description

一种用于在线学习的样本集训练方法
技术领域
本发明属于在线学习技术领域,涉及一种用于在线学习的样本集训练方法。
背景技术
在互联网领域,数据集是随着时间的推移不断产生的,所以在完整的数据集上进行机器学习是个几乎不可能的事情,这就需要学习器能够不断地进行学习,而传统的机器学习方法已经无法满足这一要求,在线学习就是针对上述情况应运而生的。
支持向量机作为机器学习领域的一个重要研究分支,因为自身完善的数学理论和良好的实际应用效果,目前在很多领域都获得了应用。但传统的支持向量机属于性能稳定的分类器,有“灾难性遗忘”缺陷,所以是无法进行在线学习的。
本发明针对支持向量机的上述缺陷,提出了新的方法,使支持向量机不仅能支持在线学习,而且还可有效减少支持向量机的训练时间。
发明内容
本发明的目的是针对现有技术的不足,提供一种用于在线学习的样本集训练方法,使支持向量机能克服自身缺陷,从而更好地应用于在线学习领域。
本发明为解决上述技术问题所采用的技术方案如下:
步骤(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=1,2,…,K。每个样本子集Sk有m个样本(xi,yi),i=1,2,…,m,并且都需要进行Tk次迭代。
步骤(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:
步骤(2.1)对样本子集Sk的样本权值进行初始化,其中权值w1(i)=D1(i)=1/m。
步骤(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk
步骤(2.2.1)对样本权值wt进行归一化,建立分布
Figure BDA0000470757210000021
步骤(2.2.2)根据分布Dt随机选择训练集TRt和测试集TEt。利用Qhull算法求取训练集TRt的壳向量集
Figure BDA0000470757210000022
其中
Figure BDA0000470757210000023
并将其作为新的训练集。
步骤(2.2.3)在训练集
Figure BDA0000470757210000024
上训练支持向量机,得到支持向量机ht:X→Y。
步骤(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率:
ϵ t = Σ i : h t ( x i ) ≠ y i D i ( i ) on TR t + TE t ;
如果εt>1/2,则令t=t-1,删除支持向量机ht,跳转到步骤(2.2.2);否则计算正规化错误率:βt=εt/(1-εt)。
步骤(2.2.5)通过权重投票方式产生集成的支持向量机Ht
H t = arg max y ∈ Y Σ t : h t ( x ) = y log ( 1 / β t ) ;
并计算集成误差 E t = Σ i : H t ( x i ) ≠ y i D t ( i ) = Σ i = 1 m D t ( i ) [ | H t ( x i ) ≠ y i | ] . 如果Et>1/2,删除此集成的支持向量机Ht,并令t=t-1,跳转到步骤(2.2.2)。
步骤(2.2.6)设集成正规化错误率Bt=Et/(1-Et),修改样本子集中样本的权值:
Figure BDA0000470757210000028
步骤(3)将所有集成的支持向量机Ht采用权重投票的方式产生最终输出: H final = arg max y ∈ Y Σ k = 1 K Σ t : H t ( x ) = y log ( 1 β t ) .
本发明在样本集上引入了一定的随机性,从而间接地提高了支持向量机的多样性,使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷,起到支持在线学习的目的。同时在不影响分类精度的情况下,还能大幅减少支持向量机的训练时间。
具体实施方式
下面详细说明下本发明的实现过程:
(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=1,2,…,K。每个样本子集Sk有m个样本(xi,yi),i=1,2,…,m,并且都需要进行Tk次迭代。
(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:
(2.1)对样本子集Sk的样本权值进行初始化,其中权值w1(i)=D1(i)=1/m。
(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk
(2.2.1)对样本权值wt进行归一化,建立分布
(2.2.2)根据分布Dt随机选择训练集TRt和测试集TEt。利用Qhull算法求取训练集TRt的壳向量集
Figure BDA0000470757210000032
其中并将其作为新的训练集。
(2.2.3)在训练集
Figure BDA0000470757210000034
上训练支持向量机,得到支持向量机ht:X→Y。
(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率:
ϵ t = Σ i : h t ( x i ) ≠ y i D i ( i ) on TR t + TE t ;
如果εt>1/2,则令t=t-1,删除支持向量机ht,跳转到步骤(2.2.2);否则计算正规化错误率:βt=εt/(1-εt)。
(2.2.5)通过权重投票方式产生集成的支持向量机Ht
H t = arg max y ∈ Y Σ t : h t ( x ) = y log ( 1 / β t ) ;
并计算集成误差 E t = Σ i : H t ( x i ) ≠ y i D t ( i ) = Σ i = 1 m D t ( i ) [ | H t ( x i ) ≠ y i | ] . 如果Et>1/2,删除此集成的支持向量机Ht,并令t=t-1,跳转到步骤(2.2.2)。
(2.2.6)设集成正规化错误率Bt=Et/(1-Et),修改样本子集中样本的权值:
Figure BDA0000470757210000038
(3)将所有集成的支持向量机Ht采用权重投票的方式产生最终输出:
H final = arg max y ∈ Y Σ k = 1 K Σ t : H t ( x ) = y log ( 1 β t ) .
执行完上述的三大步骤,最终产生的集成支持向量机可有效地支持在线学习,提高训练速度的同时有效地克服了“灾难性遗忘”缺陷。
以上所述仅为本发明的具体实施方式,并不用以限制本发明,任何本发明所属领域内的技术人员,在本发明揭露的技术范围内,所作的修改或替换,都应涵盖在本发明的保护范围之内。

Claims (1)

1.一种用于在线学习的样本集训练方法,其特征在于该方法包括以下步骤:
步骤(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=1,2,…,K;每个样本子集Sk有m个样本(xi,yi),i=1,2,…,m,并且都需要进行Tk次迭代;
步骤(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:
步骤(2.1)对样本子集Sk的样本权值进行初始化,其中权值w1(i)=D1(i)=1/m;
步骤(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk
步骤(2.2.1)对样本权值wt进行归一化,建立分布
Figure FDA0000470757200000011
步骤(2.2.2)根据分布Dt随机选择训练集TRt和测试集TEt;利用Qhull算法求取训练集TRt的壳向量集
Figure FDA0000470757200000012
其中
Figure FDA0000470757200000013
并将其作为新的训练集;
步骤(2.2.3)在训练集上训练支持向量机,得到支持向量机ht:X→Y;
步骤(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率:
ϵ t = Σ i : h t ( x i ) ≠ y i D i ( i ) on TR t + TE t ;
如果εt>1/2,则令t=t-1,删除支持向量机ht,跳转到步骤(2.2.2);否则计算正规化错误率:βt=εt/(1-εt);
步骤(2.2.5)通过权重投票方式产生集成的支持向量机Ht
H t = arg max y ∈ Y Σ t : h t ( x ) = y log ( 1 / β t ) ;
并计算集成误差 E t = Σ i : H t ( x i ) ≠ y i D t ( i ) = Σ i = 1 m D t ( i ) [ | H t ( x i ) ≠ y i | ] ; 如果Et>1/2,删除此集成的支持向量机Ht,并令t=t-1,跳转到步骤(2.2.2);
步骤(2.2.6)设集成正规化错误率Bt=Et/(1-Et),修改样本子集中样本的权值:
Figure FDA0000470757200000021
步骤(3)将所有集成的支持向量机Ht采用权重投票的方式产生最终输出:
H final = arg max y ∈ Y Σ k = 1 K Σ t : H t ( x ) = y log ( 1 β t ) .
CN201410069210.6A 2014-02-27 2014-02-27 一种用于在线学习的样本集训练方法 Pending CN103886340A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410069210.6A CN103886340A (zh) 2014-02-27 2014-02-27 一种用于在线学习的样本集训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410069210.6A CN103886340A (zh) 2014-02-27 2014-02-27 一种用于在线学习的样本集训练方法

Publications (1)

Publication Number Publication Date
CN103886340A true CN103886340A (zh) 2014-06-25

Family

ID=50955223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410069210.6A Pending CN103886340A (zh) 2014-02-27 2014-02-27 一种用于在线学习的样本集训练方法

Country Status (1)

Country Link
CN (1) CN103886340A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871872A (zh) * 2019-01-17 2019-06-11 西安交通大学 一种基于壳向量式svm增量学习模型的流量实时分类方法
CN110780741A (zh) * 2019-10-28 2020-02-11 Oppo广东移动通信有限公司 模型训练方法、应用运行方法、装置、介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216426A1 (en) * 2001-05-18 2005-09-29 Weston Jason Aaron E Methods for feature selection in a learning machine
CN103473556A (zh) * 2013-08-30 2013-12-25 中国科学院自动化研究所 基于拒识子空间的分层支持向量机分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216426A1 (en) * 2001-05-18 2005-09-29 Weston Jason Aaron E Methods for feature selection in a learning machine
CN103473556A (zh) * 2013-08-30 2013-12-25 中国科学院自动化研究所 基于拒识子空间的分层支持向量机分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
C. BRADFORD BARBER等: "The Quickhull Algorithm for Convex Hulls", 《ACM TRANSACTIONS ON MATHEMATICAL SOFTWARE》 *
ROBI POLIKAR等: "Learn++: An Incremental Learning Algorithm for Supervised Neural Networks", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART C: APPLICATIONS AND REVIEWS》 *
李东晖 等: "基于壳向量的线性支持向量机快速增量学习算法", 《浙江大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871872A (zh) * 2019-01-17 2019-06-11 西安交通大学 一种基于壳向量式svm增量学习模型的流量实时分类方法
CN110780741A (zh) * 2019-10-28 2020-02-11 Oppo广东移动通信有限公司 模型训练方法、应用运行方法、装置、介质及电子设备
CN110780741B (zh) * 2019-10-28 2022-03-01 Oppo广东移动通信有限公司 模型训练方法、应用运行方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
CN103810101B (zh) 一种软件缺陷预测方法和软件缺陷预测系统
CN106022521B (zh) 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法
WO2021045225A3 (en) Method and apparatus for performing network optimisation using a neural network
CN104537033A (zh) 基于贝叶斯网络和极限学习机的区间型指标预报方法
WO2012015516A8 (en) Methods and systems for machine-learning based simulation of flow
CN105354363A (zh) 基于核极限学习机的脉动风速预测方法
CN108363896A (zh) 一种液压缸故障诊断方法
CN103942461A (zh) 基于在线贯序极限学习机的水质参数预测方法
CN103440497B (zh) 一种gis绝缘缺陷局部放电图谱模式识别方法
CN106067077A (zh) 一种基于神经网络的负荷预测方法及装置
CN105320987A (zh) 一种基于bp神经网络的卫星遥测数据智能判读方法
CN103886340A (zh) 一种用于在线学习的样本集训练方法
Wang et al. An improved weighted naive bayesian classification algorithm based on multivariable linear regression model
CN103559642A (zh) 基于云计算的金融数据挖掘方法
Weihong et al. Optimization of BP neural network classifier using genetic algorithm
CN106874568A (zh) 一种球磨过程的物料粒径分布预测方法
Lv et al. An improved test selection optimization model based on fault ambiguity group isolation and chaotic discrete PSO
CN106355273A (zh) 一种基于极限学习机的核材料辐照后拉伸性能预测系统及预测方法
CN104239975A (zh) 基于改进离散粒子群算法的船舶引航排班方法
CN103761567A (zh) 一种基于贝叶斯估计的小波神经网络权值初始化方法
CN107544242A (zh) 逆系统方法在连铸水处理系统中控制溶解氧的方法
CN105825347A (zh) 经济预测模型建立的方法和预测方法
CN102073796A (zh) 一种模拟溶质三维运移过程的格子行走方法
Antony et al. Teaching advanced statistical techniques to industrial engineers and business managers
CN106327079A (zh) 一种配电网无功优化控制的评价方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140625