CN103886340A - 一种用于在线学习的样本集训练方法 - Google Patents
一种用于在线学习的样本集训练方法 Download PDFInfo
- Publication number
- CN103886340A CN103886340A CN201410069210.6A CN201410069210A CN103886340A CN 103886340 A CN103886340 A CN 103886340A CN 201410069210 A CN201410069210 A CN 201410069210A CN 103886340 A CN103886340 A CN 103886340A
- Authority
- CN
- China
- Prior art keywords
- support vector
- training
- sample
- sample set
- vector machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
Abstract
本发明公开了一种用于在线学习的样本集训练方法。该方法将初始样本集划分成若干个样本子集,再将每个样本子集根据权重分布随机划分成训练集和测试集。对于训练集,先求取壳向量集,并将其作为新的训练集来进行支持向量机的训练。若生成的支持向量机不满足收敛条件,则丢弃该支持向量机并重新训练。最后将所有支持向量机利用权重投票方式产生一个集成的支持向量机。本发明在样本集上引入了一定的随机性,从而间接地提高了支持向量机的多样性,使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷,起到支持在线学习的目的。同时在不影响分类精度的情况下,还能大幅减少支持向量机的训练时间。
Description
技术领域
本发明属于在线学习技术领域,涉及一种用于在线学习的样本集训练方法。
背景技术
在互联网领域,数据集是随着时间的推移不断产生的,所以在完整的数据集上进行机器学习是个几乎不可能的事情,这就需要学习器能够不断地进行学习,而传统的机器学习方法已经无法满足这一要求,在线学习就是针对上述情况应运而生的。
支持向量机作为机器学习领域的一个重要研究分支,因为自身完善的数学理论和良好的实际应用效果,目前在很多领域都获得了应用。但传统的支持向量机属于性能稳定的分类器,有“灾难性遗忘”缺陷,所以是无法进行在线学习的。
本发明针对支持向量机的上述缺陷,提出了新的方法,使支持向量机不仅能支持在线学习,而且还可有效减少支持向量机的训练时间。
发明内容
本发明的目的是针对现有技术的不足,提供一种用于在线学习的样本集训练方法,使支持向量机能克服自身缺陷,从而更好地应用于在线学习领域。
本发明为解决上述技术问题所采用的技术方案如下:
步骤(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=1,2,…,K。每个样本子集Sk有m个样本(xi,yi),i=1,2,…,m,并且都需要进行Tk次迭代。
步骤(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:
步骤(2.1)对样本子集Sk的样本权值进行初始化,其中权值w1(i)=D1(i)=1/m。
步骤(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk。
步骤(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率:
如果εt>1/2,则令t=t-1,删除支持向量机ht,跳转到步骤(2.2.2);否则计算正规化错误率:βt=εt/(1-εt)。
步骤(2.2.5)通过权重投票方式产生集成的支持向量机Ht:
并计算集成误差 如果Et>1/2,删除此集成的支持向量机Ht,并令t=t-1,跳转到步骤(2.2.2)。
步骤(2.2.6)设集成正规化错误率Bt=Et/(1-Et),修改样本子集中样本的权值:
步骤(3)将所有集成的支持向量机Ht采用权重投票的方式产生最终输出:
本发明在样本集上引入了一定的随机性,从而间接地提高了支持向量机的多样性,使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷,起到支持在线学习的目的。同时在不影响分类精度的情况下,还能大幅减少支持向量机的训练时间。
具体实施方式
下面详细说明下本发明的实现过程:
(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=1,2,…,K。每个样本子集Sk有m个样本(xi,yi),i=1,2,…,m,并且都需要进行Tk次迭代。
(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:
(2.1)对样本子集Sk的样本权值进行初始化,其中权值w1(i)=D1(i)=1/m。
(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk。
(2.2.1)对样本权值wt进行归一化,建立分布
(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率:
如果εt>1/2,则令t=t-1,删除支持向量机ht,跳转到步骤(2.2.2);否则计算正规化错误率:βt=εt/(1-εt)。
(2.2.5)通过权重投票方式产生集成的支持向量机Ht:
并计算集成误差 如果Et>1/2,删除此集成的支持向量机Ht,并令t=t-1,跳转到步骤(2.2.2)。
(2.2.6)设集成正规化错误率Bt=Et/(1-Et),修改样本子集中样本的权值:
(3)将所有集成的支持向量机Ht采用权重投票的方式产生最终输出:
执行完上述的三大步骤,最终产生的集成支持向量机可有效地支持在线学习,提高训练速度的同时有效地克服了“灾难性遗忘”缺陷。
以上所述仅为本发明的具体实施方式,并不用以限制本发明,任何本发明所属领域内的技术人员,在本发明揭露的技术范围内,所作的修改或替换,都应涵盖在本发明的保护范围之内。
Claims (1)
1.一种用于在线学习的样本集训练方法,其特征在于该方法包括以下步骤:
步骤(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=1,2,…,K;每个样本子集Sk有m个样本(xi,yi),i=1,2,…,m,并且都需要进行Tk次迭代;
步骤(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:
步骤(2.1)对样本子集Sk的样本权值进行初始化,其中权值w1(i)=D1(i)=1/m;
步骤(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk;
步骤(2.2.3)在训练集上训练支持向量机,得到支持向量机ht:X→Y;
步骤(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率:
如果εt>1/2,则令t=t-1,删除支持向量机ht,跳转到步骤(2.2.2);否则计算正规化错误率:βt=εt/(1-εt);
步骤(2.2.5)通过权重投票方式产生集成的支持向量机Ht:
并计算集成误差 如果Et>1/2,删除此集成的支持向量机Ht,并令t=t-1,跳转到步骤(2.2.2);
步骤(2.2.6)设集成正规化错误率Bt=Et/(1-Et),修改样本子集中样本的权值:
步骤(3)将所有集成的支持向量机Ht采用权重投票的方式产生最终输出:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410069210.6A CN103886340A (zh) | 2014-02-27 | 2014-02-27 | 一种用于在线学习的样本集训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410069210.6A CN103886340A (zh) | 2014-02-27 | 2014-02-27 | 一种用于在线学习的样本集训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103886340A true CN103886340A (zh) | 2014-06-25 |
Family
ID=50955223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410069210.6A Pending CN103886340A (zh) | 2014-02-27 | 2014-02-27 | 一种用于在线学习的样本集训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103886340A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871872A (zh) * | 2019-01-17 | 2019-06-11 | 西安交通大学 | 一种基于壳向量式svm增量学习模型的流量实时分类方法 |
CN110780741A (zh) * | 2019-10-28 | 2020-02-11 | Oppo广东移动通信有限公司 | 模型训练方法、应用运行方法、装置、介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216426A1 (en) * | 2001-05-18 | 2005-09-29 | Weston Jason Aaron E | Methods for feature selection in a learning machine |
CN103473556A (zh) * | 2013-08-30 | 2013-12-25 | 中国科学院自动化研究所 | 基于拒识子空间的分层支持向量机分类方法 |
-
2014
- 2014-02-27 CN CN201410069210.6A patent/CN103886340A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216426A1 (en) * | 2001-05-18 | 2005-09-29 | Weston Jason Aaron E | Methods for feature selection in a learning machine |
CN103473556A (zh) * | 2013-08-30 | 2013-12-25 | 中国科学院自动化研究所 | 基于拒识子空间的分层支持向量机分类方法 |
Non-Patent Citations (3)
Title |
---|
C. BRADFORD BARBER等: "The Quickhull Algorithm for Convex Hulls", 《ACM TRANSACTIONS ON MATHEMATICAL SOFTWARE》 * |
ROBI POLIKAR等: "Learn++: An Incremental Learning Algorithm for Supervised Neural Networks", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART C: APPLICATIONS AND REVIEWS》 * |
李东晖 等: "基于壳向量的线性支持向量机快速增量学习算法", 《浙江大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871872A (zh) * | 2019-01-17 | 2019-06-11 | 西安交通大学 | 一种基于壳向量式svm增量学习模型的流量实时分类方法 |
CN110780741A (zh) * | 2019-10-28 | 2020-02-11 | Oppo广东移动通信有限公司 | 模型训练方法、应用运行方法、装置、介质及电子设备 |
CN110780741B (zh) * | 2019-10-28 | 2022-03-01 | Oppo广东移动通信有限公司 | 模型训练方法、应用运行方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103810101B (zh) | 一种软件缺陷预测方法和软件缺陷预测系统 | |
CN106022521B (zh) | 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法 | |
WO2021045225A3 (en) | Method and apparatus for performing network optimisation using a neural network | |
CN104537033A (zh) | 基于贝叶斯网络和极限学习机的区间型指标预报方法 | |
WO2012015516A8 (en) | Methods and systems for machine-learning based simulation of flow | |
CN105354363A (zh) | 基于核极限学习机的脉动风速预测方法 | |
CN108363896A (zh) | 一种液压缸故障诊断方法 | |
CN103942461A (zh) | 基于在线贯序极限学习机的水质参数预测方法 | |
CN103440497B (zh) | 一种gis绝缘缺陷局部放电图谱模式识别方法 | |
CN106067077A (zh) | 一种基于神经网络的负荷预测方法及装置 | |
CN105320987A (zh) | 一种基于bp神经网络的卫星遥测数据智能判读方法 | |
CN103886340A (zh) | 一种用于在线学习的样本集训练方法 | |
Wang et al. | An improved weighted naive bayesian classification algorithm based on multivariable linear regression model | |
CN103559642A (zh) | 基于云计算的金融数据挖掘方法 | |
Weihong et al. | Optimization of BP neural network classifier using genetic algorithm | |
CN106874568A (zh) | 一种球磨过程的物料粒径分布预测方法 | |
Lv et al. | An improved test selection optimization model based on fault ambiguity group isolation and chaotic discrete PSO | |
CN106355273A (zh) | 一种基于极限学习机的核材料辐照后拉伸性能预测系统及预测方法 | |
CN104239975A (zh) | 基于改进离散粒子群算法的船舶引航排班方法 | |
CN103761567A (zh) | 一种基于贝叶斯估计的小波神经网络权值初始化方法 | |
CN107544242A (zh) | 逆系统方法在连铸水处理系统中控制溶解氧的方法 | |
CN105825347A (zh) | 经济预测模型建立的方法和预测方法 | |
CN102073796A (zh) | 一种模拟溶质三维运移过程的格子行走方法 | |
Antony et al. | Teaching advanced statistical techniques to industrial engineers and business managers | |
CN106327079A (zh) | 一种配电网无功优化控制的评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140625 |