CN111160461A

CN111160461A - 基于模糊聚类的加权在线极限学习机大数据分类方法

Info

Publication number: CN111160461A
Application number: CN201911390840.2A
Authority: CN
Inventors: 倪双静; 田旭; 汪内利; 刘海萍; 张维; 朱熙豪
Original assignee: Zhejiang Institute of Mechanical and Electrical Engineering Co Ltd
Current assignee: Zhejiang Institute of Mechanical and Electrical Engineering Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-15

Abstract

本发明涉及一种基于模糊聚类的加权在线极限学习机大数据分类方法，包括步骤一算法参数初始化；步骤二初始离线阶段；步骤三在线学习阶段；步骤四用学习到的结果对大数据进行模糊分类。本发明的目的在于针对大数据具有数据量大、多标签的特征，以及训练样本数据分布不平衡的情况，提供了一种基于模糊加权在线极限学习机大数据分类方法，利用增量学习过程中样本数据的自适应聚类，设计相应隶属函数，从而提出基于模糊聚类的加权在线极限学习机大数据分类算法。

Description

基于模糊聚类的加权在线极限学习机大数据分类方法

【技术领域】

本发明涉及计算机技术领域，具体涉及一种基于模糊聚类的加权在线极限学习机大数据分类方法。

【背景技术】

在一般的机器学习问题中，通常是假设一次性获得所有样本或者代表性样本，在训练大量大数据样本的情况下，不仅影响学习效率，而且对硬件的要求也相对较高。在实际感知数据中，数据量往往是逐渐增加的，如果能够在每次新增数据时，不需要重建所有的知识库，而是在原有知识库的基础上，仅对新增数据所引起的变化进行更新，这种增量学习的方式更符合人的思维原理。

在分类的机器学习问题上，目前主流是采用神经网络算法，但是传统神经网络采用的梯度下降算法具有收敛速度慢、产生“局部最优点”等缺点，针对以上缺陷，Huang等人提出了极限学习机算法，该算法是单隐层前馈神经网络的一种典型算法，具有参数设置容易、学习速度快、分类性能好等优点。

在大数据分类问题上，相较于k-means的硬聚类，模糊聚类提供了更加灵活的聚类结果。因为大部分情况下，大数据对象不能划分为明显分离的簇，故需要对每个对象赋予多个簇类的隶属值，指明对象属于该簇的程度。

从近几年研究现状来看，众学者关于增量学习算法的研究较多，有基于支持向量机的增量学习算法、有基于集成分类器的增量学习算法等，也有基于神经网络的增量学习算法，其中就包括基于极限学习机的增量学习算法；同时也有将增量学习应用到聚类分析中的研究，但还是以硬分类为主，针对多标签模糊分类的研究较少。

在极限学习机训练过程中，普遍存在类不平衡的问题，导致分类性能的大幅下降。针对该问题，有人提出了一种加权极限学习机算法WELM，有效降低了少数类被错分的概率，但该算法进根据类不平衡比率为每类样本分类一个统一的权重，并没有考虑样例的具体分布情况。

【发明内容】

本发明的目的在于针对大数据具有数据量大、多标签的特征，以及训练样本数据分布不平衡的情况，提供了一种基于模糊加权在线极限学习机大数据分类方法，该方法利用增量学习过程中样本数据的自适应聚类，设计相应隶属函数，从而提出基于模糊聚类的加权在线极限学习机大数据分类算法。

为实现上述目的，本发明采用以下技术方案：

基于模糊聚类的加权在线极限学习机大数据分类方法，包括如下步骤：

步骤一：算法参数初始化；设置以下参数值：

X：选取N个含先验标签T的训练样本，每个样本含n个属性，m个多标签隶属权值

l：单隐层节点数量

G(x)：激活函数，

a：单隐层前馈神经网络权重参数，分配其随机值，为l×n的矩阵，

b：单隐层前馈神经网络偏置参数，分配其随机值，为l×1的矩阵，

C：惩罚因子；

步骤二：初始离线阶段；选取N₀个少量训练样本及其先验标签隶属度权值，以样本的隐层输出构建初始簇中心矩阵Hc；

步骤三：在线学习阶段；不断更新簇中心矩阵，并将簇中心训练误差进行样本权重设置；

步骤四：用学习到的结果对大数据进行模糊分类。

所述的步骤二初始离线阶段，其过程包括初始化簇中心矩阵Hc及对角矩阵D，获得样本X_i的期望标签权值向量t_i及隐层输出f(X_i)，计算出D_i和簇中心矩阵Hci，Hc＝Hc_i，D＝D_i，该步骤进行循环，直至样本遍历结束，然后计算出W₀，并以此计算K₀和β₀

所述的步骤二，其计算过程如下：

①计算D_i

其中d_i为第i类样本总数,i＝1,2,…,m，

初始时D₀为m维零矩阵，当样本(x_i,t_i)进入模型时，

其中d_ij为第i个样本进来后，当前第j类样本的总数(包括第i个样本)；

②计算簇中心矩阵Hc_i

簇中心矩阵Hc为m×l维矩阵，初始时，Hc₀为零矩阵；

f(x_i)＝G(a·x_i+b)，G(x)为激活函数，

当i＝1时，Hc₁＝t₁ ^Tf(x₁)；

③计算W₀，K₀和β⁽⁰⁾

其中，

其中

β⁽⁰⁾＝K₀ ^-1H₀ ^TW₀T₀，其

所述的步骤三，在线学习阶段过程为根据样本X_i的期望标签权值向量t_i及隐层输出f(X_i)，获得样本训练误差，更新簇中心矩阵Hc_i，获得簇中心训练误差，计算出W，并由此更新K和β；如此循环直至样本全部计算完成。

所述的步骤三中，其计算过程如下：

①获得样本训练误差

其中h_i＝f(x_i)·β

②更新簇中心矩阵Hc_i

其中

③获得簇中心训练误差

其中hc_i＝Hc_i·β

④计算W，更新K和β

W＝(W_ii)_1×1，其中

K_k+1＝K_k+H_k+1 ^TW_k+1H_k+1，其中H_k+1＝(f(x_k+1))_1×1

β^(k+1)＝β^(k)+K_k+1 ^-1H_k+1 ^TW_k+1(T_k+1-H_k+1β^(k))

所述的步骤四，用训练好的β预测x_i的分类结果

为：

与现有技术相比，本发明具有如下有益效果：

请阐述补充本发明的有益效果或者各种优点优势。

在大数据环境下，由于内存容量限制，数据通常采用增量方式进行获取，且在线到来的数据存在类不平衡的特点。因此本发明将加权极限学习机推广到在线极限学习机中，使之更符合大数据分类环境，同时又在加权在线极限学习机算法(WOSELM)的基础上，本发明引入了模糊集思想，通过隶属函数设计，从而缓解类不平衡对大数据分类性能的影响，提高了预测模型的准确度。

【附图说明】

图1是本发明较佳实施例离线初始化过程流程图；

图2是本发明较佳实施例在线学习过程流程图；

图3是三种算法在spambase数据集上增量学习能力比较图；

图4是三种算法在spambase数据集上运行100次的准确率比较图。

【具体实施方式】

请结合说明书附图，对本发明做进一步详细描述。将本发明与在线极限学习机OSELM、加权在线极限学习机WOSELM进行比较，具体如下：

在线极限学习机OSELM

一、算法参数初始化；

实验数据来自UCI标准数据库中的Spambase数据集，该数据集用来判别收到的邮件是否为垃圾邮件，共有4601个样本，57个属性。实验中，先对数据进行归一化等预处理，其训练样本和测试样本都是随机选取的，并且比例分别为80％和20％。

设置以下参数值：

N：选取的训练样本数3680

N₀：从N个训练样本中随机选取的用于初始化β⁽⁰⁾的训练样本数100

n：样本属性数57

m：样本多标签隶属权值个数2

X：选取的N个含先验标签{0,1}的训练样本

l：单隐层节点数量40

G(x)：激活函数sigmoid函数

二、初始阶段

1.随机初始化输入权重a和偏置b

a：随机分配的权重矩阵，其中a_ij∈(-1,1)，i＝1,2,…,l；j＝1,2,…,n

b：随机分配的偏置向量，其中b_i∈(-0.6,0.6)，i＝1,2,…,l

2.从X中随机选取N₀个初始样本，计算隐层的输出矩阵H₀

其中f(x_i)＝G(a·x_i+b)，i＝1,2,…,N₀

3.计算出输出权重β⁽⁰⁾

β⁽⁰⁾＝K₀ ^-1H₀ ^TT₀，其中K₀＝H₀ ^TH₀

三、在线学习阶段

1.遍历训练样本，更新K值和β值

K_k+1＝K_k+H_k+1 ^TH_k+1

β^(k+1)＝β^(k)+K_k+1 ^-1H_k+1 ^T(T_k+1-H_k+1β^(k))

2.输出权重β

加权在线极限学习机WOSELM

一、算法参数初始化；

实验数据与OSELM相同，并选用相同的训练集与测试集。

设置以下参数值：

N：选取的训练样本数3680

N₀：从N个训练样本中选取的用于初始化β⁽⁰⁾的训练样本数100

n：样本属性数57

m：样本多标签隶属权值个数2

X：选取的N个含先验标签{0,1}的训练样本

l：单隐层节点数量40

G(x)：激活函数sigmoid函数

a：与OSELM中的权重矩阵a相同

b：与OSELM中的偏置向量b相同

C：惩罚因子,数值为2¹²

二、初始离线阶段

1.初始化簇中心矩阵Hc及对角矩阵D

2.遍历与OSELM相同的初始样本,更新簇中心矩阵Hc

其中d_ij为第i个样本进来后，当前第j类样本的总数(包含第i个样本)。

t_i＝(t_i1,t_i2,…,t_im)_1×m

其中f(x_i)＝G(a·x_i+b)

当i＝1时：Hc₁＝t₁ ^Tf(x₁)

3.计算样本权重W₀,并以此计算K₀和β⁽⁰⁾

其中，

其中

β⁽⁰⁾＝K₀ ^-1H₀ ^TW₀T₀，其中

三、在线学习阶段

1.遍历训练样本，计算样本权重W,并以此更新K和β

W＝(W_ii)_1×1，其中

K_k+1＝K_k+H_k+1 ^TW_k+1H_k+1，其中H_k+1＝(f(x_k+1))_1×1

β^(k+1)＝β^(k)+K_k+1 ^-1H_k+1 ^TW_k+1(T_k+1-H_k+1β^(k))

2.输出权重β

本发明基于模糊加权在线极限学习机大数据分类方法FWOSELM

一、算法参数初始化；

实验数据与OSELM相同，并选用相同的训练集与测试集。

设置以下参数值：

N：选取的训练样本数3680

n：样本属性数57

m：样本多标签隶属权值个数2

X：选取的N个含先验标签{0,1}的训练样本

l：单隐层节点数量40

G(x)：激活函数sigmoid函数

a：与OSELM中的权重矩阵a相同

b：与OSELM中的偏置向量b相同

C：惩罚因子,数值为2¹²

二、初始离线阶段

初始离线阶段，需要选取N₀个少量训练样本及其先验标签隶属度权值，以样本的隐层输出构建初始簇中心矩阵Hc，离线初始化过程如图1所示。

1.初始化簇中心矩阵Hc及对角矩阵D

2.遍历与OSELM相同的初始样本,更新簇中心矩阵Hc

t_i＝(t_i1,t_i2,…,t_im)_1×m

其中f(x_i)＝G(a·x_i+b)

当i＝1时：Hc₁＝t₁ ^Tf(x₁)

3.计算样本权重W₀,并以此计算K₀和β⁽⁰⁾

其中，

其中

β⁽⁰⁾＝K₀ ^-1H₀ ^TW₀T₀，其中

三、在线学习阶段

在线学习阶段是一个不断更新簇中心矩阵，并将簇中心训练误差进行样本权重设置的过程，流程如图2所示。

1.遍历训练样本，计算样本训练误差

其中h_i＝f(x_i)·β，f(x_i)＝G(a·x_i+b)

2.更新簇中心矩阵

其中

3.获得簇中心训练误差

其中hc_i＝Hc_i·β

4.计算样本权重W,并以此计算K和β

W＝(W_ii)_1×1，其中

K_k+1＝K_k+H_k+1 ^TW_k+1H_k+1，其中H_k+1＝(f(x_k+1))_1×1

β^(k+1)＝β^(k)+K_k+1 ^-1H_k+1 ^TW_k+1(T_k+1-H_k+1β^(k))

5.输出权重β

最后在将各个对比对象进行数据图表验证。

图3为增量学习能力比较实验，经过5次实验取平均值后的结果，可以看到本文提出的WOSELM和FWOSELM算法随着数据量的增大，准确率较高，且FWOSELM比WOSELM算法准确率又更高一些。

图4为算法稳定性比较实验，可以看到FWOSELM算法准确率与WOSELM算法相当，稍高于WOSELM算法，但都比OSELM算法高，FWOSELM算法的浮动较WOSELM算法略小，稳定性较好

以上的具体实施方式仅为本创作的较佳实施例，并不用以限制本创作，凡在本创作的精神及原则之内所做的任何修改、等同替换、改进等，均应包含在本创作的保护范围之内。

Claims

1.一种基于模糊聚类的加权在线极限学习机大数据分类方法，其特征在于：包括如下步骤：

步骤一：算法参数初始化；设置以下参数值：

l：单隐层节点数量

G(x)：激活函数，

C：惩罚因子；

步骤四：用学习到的结果对大数据进行模糊分类。

2.如权利要求1所述的一种基于模糊聚类的加权在线极限学习机大数据分类方法，其特征在于：所述的步骤二初始离线阶段，其过程包括初始化簇中心矩阵Hc及对角矩阵D，获得样本X_i的期望标签权值向量t_i及隐层输出f(X_i)，计算出D_i和簇中心矩阵Hci，Hc＝Hc_i，D＝D_i，该步骤进行循环，直至样本遍历结束，然后计算出W₀，并以此计算K₀和β₀

3.如权利要求2所述的一种基于模糊聚类的加权在线极限学习机大数据分类方法，其特征在于：所述的步骤二，其计算过程如下：

①计算D_i

其中d_i为第i类样本总数,i＝1,2,…,m，

初始时D₀为m维零矩阵，当样本(x_i,t_i)进入模型时，

②计算簇中心矩阵Hc_i

簇中心矩阵Hc为m×l维矩阵，初始时，Hc₀为零矩阵；

f(x_i)＝G(a·x_i+b)，G(x)为激活函数，

当i＝1时，Hc₁＝t₁ ^Tf(x₁)；

③计算W₀，K₀和β⁽⁰⁾

其中，

其中

β⁽⁰⁾＝K₀ ^-1H₀ ^TW₀T₀，其中

4.如权利要求1所述的一种基于模糊聚类的加权在线极限学习机大数据分类方法，其特征在于：所述的步骤三，在线学习阶段过程为根据样本X_i的期望标签权值向量t_i及隐层输出f(X_i)，获得样本训练误差，更新簇中心矩阵Hc_i，获得簇中心训练误差，计算出W，并由此更新K和β；如此循环直至样本全部计算完成。

5.如权利要求4所述的一种基于模糊聚类的加权在线极限学习机大数据分类方法，其特征在于：所述的步骤三中，其计算过程如下：

⑤获得样本训练误差