CN103886340A - 一种用于在线学习的样本集训练方法 - Google Patents
一种用于在线学习的样本集训练方法 Download PDFInfo
- Publication number
- CN103886340A CN103886340A CN201410069210.6A CN201410069210A CN103886340A CN 103886340 A CN103886340 A CN 103886340A CN 201410069210 A CN201410069210 A CN 201410069210A CN 103886340 A CN103886340 A CN 103886340A
- Authority
- CN
- China
- Prior art keywords
- support vector
- vector machine
- sample
- training
- sigma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 title claims abstract description 10
- 238000012706 support-vector machine Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 230000007547 defect Effects 0.000 abstract description 6
- 238000010801 machine learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
Abstract
本发明公开了一种用于在线学习的样本集训练方法。该方法将初始样本集划分成若干个样本子集,再将每个样本子集根据权重分布随机划分成训练集和测试集。对于训练集,先求取壳向量集,并将其作为新的训练集来进行支持向量机的训练。若生成的支持向量机不满足收敛条件,则丢弃该支持向量机并重新训练。最后将所有支持向量机利用权重投票方式产生一个集成的支持向量机。本发明在样本集上引入了一定的随机性,从而间接地提高了支持向量机的多样性,使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷,起到支持在线学习的目的。同时在不影响分类精度的情况下,还能大幅减少支持向量机的训练时间。
Description
技术领域
本发明属于在线学习技术领域,涉及一种用于在线学习的样本集训练方法。
背景技术
在互联网领域,数据集是随着时间的推移不断产生的,所以在完整的数据集上进行机器学习是个几乎不可能的事情,这就需要学习器能够不断地进行学习,而传统的机器学习方法已经无法满足这一要求,在线学习就是针对上述情况应运而生的。
支持向量机作为机器学习领域的一个重要研究分支,因为自身完善的数学理论和良好的实际应用效果,目前在很多领域都获得了应用。但传统的支持向量机属于性能稳定的分类器,有“灾难性遗忘”缺陷,所以是无法进行在线学习的。
本发明针对支持向量机的上述缺陷,提出了新的方法,使支持向量机不仅能支持在线学习,而且还可有效减少支持向量机的训练时间。
发明内容
本发明的目的是针对现有技术的不足,提供一种用于在线学习的样本集训练方法,使支持向量机能克服自身缺陷,从而更好地应用于在线学习领域。
本发明为解决上述技术问题所采用的技术方案如下:
步骤(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=1,2,…,K。每个样本子集Sk有m个样本(xi,yi),i=1,2,…,m,并且都需要进行Tk次迭代。
步骤(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:
步骤(2.1)对样本子集Sk的样本权值进行初始化,其中权值w1(i)=D1(i)=1/m。
步骤(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk。
步骤(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率:
如果εt>1/2,则令t=t-1,删除支持向量机ht,跳转到步骤(2.2.2);否则计算正规化错误率:βt=εt/(1-εt)。
步骤(2.2.5)通过权重投票方式产生集成的支持向量机Ht:
并计算集成误差 如果Et>1/2,删除此集成的支持向量机Ht,并令t=t-1,跳转到步骤(2.2.2)。
步骤(2.2.6)设集成正规化错误率Bt=Et/(1-Et),修改样本子集中样本的权值:
步骤(3)将所有集成的支持向量机Ht采用权重投票的方式产生最终输出:
本发明在样本集上引入了一定的随机性,从而间接地提高了支持向量机的多样性,使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷,起到支持在线学习的目的。同时在不影响分类精度的情况下,还能大幅减少支持向量机的训练时间。
具体实施方式
下面详细说明下本发明的实现过程:
(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=1,2,…,K。每个样本子集Sk有m个样本(xi,yi),i=1,2,…,m,并且都需要进行Tk次迭代。
(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:
(2.1)对样本子集Sk的样本权值进行初始化,其中权值w1(i)=D1(i)=1/m。
(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk。
(2.2.1)对样本权值wt进行归一化,建立分布
(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率:
如果εt>1/2,则令t=t-1,删除支持向量机ht,跳转到步骤(2.2.2);否则计算正规化错误率:βt=εt/(1-εt)。
(2.2.5)通过权重投票方式产生集成的支持向量机Ht:
并计算集成误差 如果Et>1/2,删除此集成的支持向量机Ht,并令t=t-1,跳转到步骤(2.2.2)。
(2.2.6)设集成正规化错误率Bt=Et/(1-Et),修改样本子集中样本的权值:
(3)将所有集成的支持向量机Ht采用权重投票的方式产生最终输出:
执行完上述的三大步骤,最终产生的集成支持向量机可有效地支持在线学习,提高训练速度的同时有效地克服了“灾难性遗忘”缺陷。
以上所述仅为本发明的具体实施方式,并不用以限制本发明,任何本发明所属领域内的技术人员,在本发明揭露的技术范围内,所作的修改或替换,都应涵盖在本发明的保护范围之内。
Claims (1)
1.一种用于在线学习的样本集训练方法,其特征在于该方法包括以下步骤:
步骤(1)准备一个初始样本集S,并将其分成K个样本子集Sk,其中k=1,2,…,K;每个样本子集Sk有m个样本(xi,yi),i=1,2,…,m,并且都需要进行Tk次迭代;
步骤(2)针对每个样本子集Sk,按照下列步骤依次进行Tk次迭代:
步骤(2.1)对样本子集Sk的样本权值进行初始化,其中权值w1(i)=D1(i)=1/m;
步骤(2.2)设t的初始值为1,执行完下列步骤后t值自加一,直至t值大于Tk;
步骤(2.2.3)在训练集上训练支持向量机,得到支持向量机ht:X→Y;
步骤(2.2.4)计算支持向量机ht在训练集TRt和测试集TEt上的错误率:
如果εt>1/2,则令t=t-1,删除支持向量机ht,跳转到步骤(2.2.2);否则计算正规化错误率:βt=εt/(1-εt);
步骤(2.2.5)通过权重投票方式产生集成的支持向量机Ht:
并计算集成误差 如果Et>1/2,删除此集成的支持向量机Ht,并令t=t-1,跳转到步骤(2.2.2);
步骤(2.2.6)设集成正规化错误率Bt=Et/(1-Et),修改样本子集中样本的权值:
步骤(3)将所有集成的支持向量机Ht采用权重投票的方式产生最终输出:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410069210.6A CN103886340A (zh) | 2014-02-27 | 2014-02-27 | 一种用于在线学习的样本集训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410069210.6A CN103886340A (zh) | 2014-02-27 | 2014-02-27 | 一种用于在线学习的样本集训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103886340A true CN103886340A (zh) | 2014-06-25 |
Family
ID=50955223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410069210.6A Pending CN103886340A (zh) | 2014-02-27 | 2014-02-27 | 一种用于在线学习的样本集训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103886340A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871872A (zh) * | 2019-01-17 | 2019-06-11 | 西安交通大学 | 一种基于壳向量式svm增量学习模型的流量实时分类方法 |
CN110780741A (zh) * | 2019-10-28 | 2020-02-11 | Oppo广东移动通信有限公司 | 模型训练方法、应用运行方法、装置、介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216426A1 (en) * | 2001-05-18 | 2005-09-29 | Weston Jason Aaron E | Methods for feature selection in a learning machine |
CN103473556A (zh) * | 2013-08-30 | 2013-12-25 | 中国科学院自动化研究所 | 基于拒识子空间的分层支持向量机分类方法 |
-
2014
- 2014-02-27 CN CN201410069210.6A patent/CN103886340A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216426A1 (en) * | 2001-05-18 | 2005-09-29 | Weston Jason Aaron E | Methods for feature selection in a learning machine |
CN103473556A (zh) * | 2013-08-30 | 2013-12-25 | 中国科学院自动化研究所 | 基于拒识子空间的分层支持向量机分类方法 |
Non-Patent Citations (3)
Title |
---|
C. BRADFORD BARBER等: "The Quickhull Algorithm for Convex Hulls", 《ACM TRANSACTIONS ON MATHEMATICAL SOFTWARE》 * |
ROBI POLIKAR等: "Learn++: An Incremental Learning Algorithm for Supervised Neural Networks", 《IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS—PART C: APPLICATIONS AND REVIEWS》 * |
李东晖 等: "基于壳向量的线性支持向量机快速增量学习算法", 《浙江大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871872A (zh) * | 2019-01-17 | 2019-06-11 | 西安交通大学 | 一种基于壳向量式svm增量学习模型的流量实时分类方法 |
CN110780741A (zh) * | 2019-10-28 | 2020-02-11 | Oppo广东移动通信有限公司 | 模型训练方法、应用运行方法、装置、介质及电子设备 |
CN110780741B (zh) * | 2019-10-28 | 2022-03-01 | Oppo广东移动通信有限公司 | 模型训练方法、应用运行方法、装置、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334948B (zh) | 一种基于宽残差网络学习模型的机械轴承故障诊断技术 | |
CN103744835B (zh) | 一种基于主题模型的文本关键词提取方法 | |
CN103150454B (zh) | 基于样本推荐标注的动态机器学习建模方法 | |
CN106017876A (zh) | 基于等权局部特征稀疏滤波网络的轮对轴承故障诊断方法 | |
CN106022954B (zh) | 基于灰色关联度的多重bp神经网络负荷预测方法 | |
CN110830303A (zh) | 一种基于双向长短期记忆循环神经网络的网络流量预测方法 | |
CN103106535A (zh) | 一种基于神经网络解决协同过滤推荐数据稀疏性的方法 | |
CN101576443A (zh) | 基于灰色rbf神经网络的加速寿命试验寿命预测方法 | |
CN103617371A (zh) | 一种基于灰色理论的电能质量综合评估方法 | |
CN107609638A (zh) | 一种基于线性解码器和插值采样优化卷积神经网络的方法 | |
CN103810101A (zh) | 一种软件缺陷预测方法和软件缺陷预测系统 | |
WO2020168796A1 (zh) | 一种基于高维空间采样的数据增强方法 | |
CN107515855A (zh) | 一种结合表情符的微博情感分析方法和系统 | |
CN106528417A (zh) | 软件缺陷智能检测方法和系统 | |
CN106446964A (zh) | 一种增量式的梯度提升决策树更新方法 | |
CN108647823A (zh) | 基于深度学习的股票数据分析方法和装置 | |
CN100456319C (zh) | 高光谱图像复选性加权分类方法 | |
CN102778555B (zh) | 预测变压器油中溶解气体浓度的方法 | |
CN109683591A (zh) | 基于融合信号时域能量与时频熵的水下推进器故障程度辨识方法 | |
CN105184322B (zh) | 一种基于增量集成学习的多时相影像分类方法 | |
CN107807919A (zh) | 一种利用循环随机游走网络进行微博情感分类预测的方法 | |
Wang et al. | Prediction of the admission lines of college entrance examination based on machine learning | |
Weihong et al. | Optimization of BP neural network classifier using genetic algorithm | |
CN103886340A (zh) | 一种用于在线学习的样本集训练方法 | |
CN108920477A (zh) | 一种基于二叉树结构的不平衡数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140625 |
|
RJ01 | Rejection of invention patent application after publication |