CN103886340A

CN103886340A - 一种用于在线学习的样本集训练方法

Info

Publication number: CN103886340A
Application number: CN201410069210.6A
Authority: CN
Inventors: 沈海斌; 卞桂龙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-02-27
Filing date: 2014-02-27
Publication date: 2014-06-25

Abstract

本发明公开了一种用于在线学习的样本集训练方法。该方法将初始样本集划分成若干个样本子集，再将每个样本子集根据权重分布随机划分成训练集和测试集。对于训练集，先求取壳向量集，并将其作为新的训练集来进行支持向量机的训练。若生成的支持向量机不满足收敛条件，则丢弃该支持向量机并重新训练。最后将所有支持向量机利用权重投票方式产生一个集成的支持向量机。本发明在样本集上引入了一定的随机性，从而间接地提高了支持向量机的多样性，使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷，起到支持在线学习的目的。同时在不影响分类精度的情况下，还能大幅减少支持向量机的训练时间。

Description

一种用于在线学习的样本集训练方法

技术领域

本发明属于在线学习技术领域，涉及一种用于在线学习的样本集训练方法。

背景技术

在互联网领域，数据集是随着时间的推移不断产生的，所以在完整的数据集上进行机器学习是个几乎不可能的事情，这就需要学习器能够不断地进行学习，而传统的机器学习方法已经无法满足这一要求，在线学习就是针对上述情况应运而生的。

支持向量机作为机器学习领域的一个重要研究分支，因为自身完善的数学理论和良好的实际应用效果，目前在很多领域都获得了应用。但传统的支持向量机属于性能稳定的分类器，有“灾难性遗忘”缺陷，所以是无法进行在线学习的。

本发明针对支持向量机的上述缺陷，提出了新的方法，使支持向量机不仅能支持在线学习，而且还可有效减少支持向量机的训练时间。

发明内容

本发明的目的是针对现有技术的不足，提供一种用于在线学习的样本集训练方法，使支持向量机能克服自身缺陷，从而更好地应用于在线学习领域。

本发明为解决上述技术问题所采用的技术方案如下：

步骤(1)准备一个初始样本集S，并将其分成K个样本子集S_k，其中k=1,2,…,K。每个样本子集S_k有m个样本(x_i,y_i)，i=1,2,…,m，并且都需要进行T_k次迭代。

步骤(2)针对每个样本子集S_k，按照下列步骤依次进行T_k次迭代：

步骤(2.1)对样本子集S_k的样本权值进行初始化，其中权值w₁(i)＝D₁(i)＝1/m。

步骤(2.2)设t的初始值为1，执行完下列步骤后t值自加一，直至t值大于T_k。

步骤(2.2.1)对样本权值w_t进行归一化，建立分布

步骤(2.2.2)根据分布D_t随机选择训练集TR_t和测试集TE_t。利用Qhull算法求取训练集TR_t的壳向量集

其中

并将其作为新的训练集。

步骤(2.2.3)在训练集

上训练支持向量机，得到支持向量机h_t:X→Y。

步骤(2.2.4)计算支持向量机h_t在训练集TR_t和测试集TE_t上的错误率：

ϵ_{t} = \underset{i : h_{t} (x_{i}) &NotEqual; y_{i}}{Σ} D_{i} (i) on {TR}_{t} + {TE}_{t};

如果ε_t＞1/2，则令t=t-1，删除支持向量机h_t，跳转到步骤(2.2.2)；否则计算正规化错误率：β_t＝ε_t/(1-ε_t)。

步骤(2.2.5)通过权重投票方式产生集成的支持向量机H_t：

H_{t} = \underset{y &Element; Y}{\arg \max} \underset{t : h_{t} (x) = y}{Σ} \log (1 / β_{t});

并计算集成误差

E_{t} = Σ_{i : H_{t} (x_{i}) &NotEqual; y_{i}} D_{t} (i) = Σ_{i = 1}^{m} D_{t} (i) [| H_{t} (x_{i}) &NotEqual; y_{i} |] .

如果E_t＞1/2，删除此集成的支持向量机H_t，并令t=t-1，跳转到步骤(2.2.2)。

步骤(2.2.6)设集成正规化错误率B_t＝E_t/(1-E_t)，修改样本子集中样本的权值:

步骤(3)将所有集成的支持向量机H_t采用权重投票的方式产生最终输出：

H_{final} = \arg \max_{y &Element; Y} Σ_{k = 1}^{K} Σ_{t : H_{t} (x) = y} \log (\frac{1}{β_{t}}) .

本发明在样本集上引入了一定的随机性，从而间接地提高了支持向量机的多样性，使得集成后的支持向量机能克服自身“灾难性遗忘”缺陷，起到支持在线学习的目的。同时在不影响分类精度的情况下，还能大幅减少支持向量机的训练时间。

具体实施方式

下面详细说明下本发明的实现过程：

(1)准备一个初始样本集S，并将其分成K个样本子集S_k，其中k=1,2,…,K。每个样本子集S_k有m个样本(x_i,y_i)，i=1,2,…,m，并且都需要进行T_k次迭代。

(2)针对每个样本子集S_k，按照下列步骤依次进行T_k次迭代：

(2.1)对样本子集S_k的样本权值进行初始化，其中权值w₁(i)＝D₁(i)＝1/m。

(2.2)设t的初始值为1，执行完下列步骤后t值自加一，直至t值大于T_k。

(2.2.1)对样本权值w_t进行归一化，建立分布

(2.2.2)根据分布D_t随机选择训练集TR_t和测试集TE_t。利用Qhull算法求取训练集TR_t的壳向量集

其中并将其作为新的训练集。

(2.2.3)在训练集

上训练支持向量机，得到支持向量机h_t:X→Y。

(2.2.4)计算支持向量机h_t在训练集TR_t和测试集TE_t上的错误率：

ϵ_{t} = \underset{i : h_{t} (x_{i}) &NotEqual; y_{i}}{Σ} D_{i} (i) on {TR}_{t} + {TE}_{t};

(2.2.5)通过权重投票方式产生集成的支持向量机H_t：

H_{t} = \underset{y &Element; Y}{\arg \max} \underset{t : h_{t} (x) = y}{Σ} \log (1 / β_{t});

并计算集成误差

E_{t} = Σ_{i : H_{t} (x_{i}) &NotEqual; y_{i}} D_{t} (i) = Σ_{i = 1}^{m} D_{t} (i) [| H_{t} (x_{i}) &NotEqual; y_{i} |] .

(2.2.6)设集成正规化错误率B_t＝E_t/(1-E_t)，修改样本子集中样本的权值:

(3)将所有集成的支持向量机H_t采用权重投票的方式产生最终输出：

H_{final} = \arg \max_{y &Element; Y} Σ_{k = 1}^{K} Σ_{t : H_{t} (x) = y} \log (\frac{1}{β_{t}}) .

执行完上述的三大步骤，最终产生的集成支持向量机可有效地支持在线学习，提高训练速度的同时有效地克服了“灾难性遗忘”缺陷。

以上所述仅为本发明的具体实施方式，并不用以限制本发明，任何本发明所属领域内的技术人员，在本发明揭露的技术范围内，所作的修改或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种用于在线学习的样本集训练方法，其特征在于该方法包括以下步骤：

步骤(1)准备一个初始样本集S，并将其分成K个样本子集S_k，其中k=1,2,…,K；每个样本子集S_k有m个样本(x_i,y_i)，i=1,2,…,m，并且都需要进行T_k次迭代；

步骤(2.1)对样本子集S_k的样本权值进行初始化，其中权值w₁(i)＝D₁(i)＝1/m；

步骤(2.2)设t的初始值为1，执行完下列步骤后t值自加一，直至t值大于T_k；

步骤(2.2.1)对样本权值w_t进行归一化，建立分布

步骤(2.2.2)根据分布D_t随机选择训练集TR_t和测试集TE_t；利用Qhull算法求取训练集TR_t的壳向量集

其中

并将其作为新的训练集；

步骤(2.2.3)在训练集上训练支持向量机，得到支持向量机h_t:X→Y；

ϵ_{t} = \underset{i : h_{t} (x_{i}) &NotEqual; y_{i}}{Σ} D_{i} (i) on {TR}_{t} + {TE}_{t};

如果ε_t＞1/2，则令t=t-1，删除支持向量机h_t，跳转到步骤(2.2.2)；否则计算正规化错误率：β_t＝ε_t/(1-ε_t)；

步骤(2.2.5)通过权重投票方式产生集成的支持向量机H_t：

H_{t} = \underset{y &Element; Y}{\arg \max} \underset{t : h_{t} (x) = y}{Σ} \log (1 / β_{t});

并计算集成误差

E_{t} = Σ_{i : H_{t} (x_{i}) &NotEqual; y_{i}} D_{t} (i) = Σ_{i = 1}^{m} D_{t} (i) [| H_{t} (x_{i}) &NotEqual; y_{i} |];

如果E_t＞1/2，删除此集成的支持向量机H_t，并令t=t-1，跳转到步骤(2.2.2)；

H_{final} = \arg \max_{y &Element; Y} Σ_{k = 1}^{K} Σ_{t : H_{t} (x) = y} \log (\frac{1}{β_{t}}) .