CN111160461A - 基于模糊聚类的加权在线极限学习机大数据分类方法 - Google Patents
基于模糊聚类的加权在线极限学习机大数据分类方法 Download PDFInfo
- Publication number
- CN111160461A CN111160461A CN201911390840.2A CN201911390840A CN111160461A CN 111160461 A CN111160461 A CN 111160461A CN 201911390840 A CN201911390840 A CN 201911390840A CN 111160461 A CN111160461 A CN 111160461A
- Authority
- CN
- China
- Prior art keywords
- sample
- cluster center
- matrix
- big data
- learning machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于模糊聚类的加权在线极限学习机大数据分类方法,包括步骤一算法参数初始化;步骤二初始离线阶段;步骤三在线学习阶段;步骤四用学习到的结果对大数据进行模糊分类。本发明的目的在于针对大数据具有数据量大、多标签的特征,以及训练样本数据分布不平衡的情况,提供了一种基于模糊加权在线极限学习机大数据分类方法,利用增量学习过程中样本数据的自适应聚类,设计相应隶属函数,从而提出基于模糊聚类的加权在线极限学习机大数据分类算法。
Description
【技术领域】
本发明涉及计算机技术领域,具体涉及一种基于模糊聚类的加权在线极限学习机大数据分类方法。
【背景技术】
在一般的机器学习问题中,通常是假设一次性获得所有样本或者代表性样本,在训练大量大数据样本的情况下,不仅影响学习效率,而且对硬件的要求也相对较高。在实际感知数据中,数据量往往是逐渐增加的,如果能够在每次新增数据时,不需要重建所有的知识库,而是在原有知识库的基础上,仅对新增数据所引起的变化进行更新,这种增量学习的方式更符合人的思维原理。
在分类的机器学习问题上,目前主流是采用神经网络算法,但是传统神经网络采用的梯度下降算法具有收敛速度慢、产生“局部最优点”等缺点,针对以上缺陷,Huang等人提出了极限学习机算法,该算法是单隐层前馈神经网络的一种典型算法,具有参数设置容易、学习速度快、分类性能好等优点。
在大数据分类问题上,相较于k-means的硬聚类,模糊聚类提供了更加灵活的聚类结果。因为大部分情况下,大数据对象不能划分为明显分离的簇,故需要对每个对象赋予多个簇类的隶属值,指明对象属于该簇的程度。
从近几年研究现状来看,众学者关于增量学习算法的研究较多,有基于支持向量机的增量学习算法、有基于集成分类器的增量学习算法等,也有基于神经网络的增量学习算法,其中就包括基于极限学习机的增量学习算法;同时也有将增量学习应用到聚类分析中的研究,但还是以硬分类为主,针对多标签模糊分类的研究较少。
在极限学习机训练过程中,普遍存在类不平衡的问题,导致分类性能的大幅下降。针对该问题,有人提出了一种加权极限学习机算法WELM,有效降低了少数类被错分的概率,但该算法进根据类不平衡比率为每类样本分类一个统一的权重,并没有考虑样例的具体分布情况。
【发明内容】
本发明的目的在于针对大数据具有数据量大、多标签的特征,以及训练样本数据分布不平衡的情况,提供了一种基于模糊加权在线极限学习机大数据分类方法,该方法利用增量学习过程中样本数据的自适应聚类,设计相应隶属函数,从而提出基于模糊聚类的加权在线极限学习机大数据分类算法。
为实现上述目的,本发明采用以下技术方案:
基于模糊聚类的加权在线极限学习机大数据分类方法,包括如下步骤:
步骤一:算法参数初始化;设置以下参数值:
X:选取N个含先验标签T的训练样本,每个样本含n个属性,m个多标签隶属权值
l:单隐层节点数量
G(x):激活函数,
a:单隐层前馈神经网络权重参数,分配其随机值,为l×n的矩阵,
b:单隐层前馈神经网络偏置参数,分配其随机值,为l×1的矩阵,
C:惩罚因子;
步骤二:初始离线阶段;选取N0个少量训练样本及其先验标签隶属度权值,以样本的隐层输出构建初始簇中心矩阵Hc;
步骤三:在线学习阶段;不断更新簇中心矩阵,并将簇中心训练误差进行样本权重设置;
步骤四:用学习到的结果对大数据进行模糊分类。
所述的步骤二初始离线阶段,其过程包括初始化簇中心矩阵Hc及对角矩阵D,获得样本Xi的期望标签权值向量ti及隐层输出f(Xi),计算出Di和簇中心矩阵Hci,Hc=Hci,D=Di,该步骤进行循环,直至样本遍历结束,然后计算出W0,并以此计算K0和β0
所述的步骤二,其计算过程如下:
①计算Di
初始时D0为m维零矩阵,当样本(xi,ti)进入模型时,
②计算簇中心矩阵Hci
簇中心矩阵Hc为m×l维矩阵,初始时,Hc0为零矩阵;
f(xi)=G(a·xi+b),G(x)为激活函数,
当i=1时,Hc1=t1 Tf(x1);
③计算W0,K0和β(0)
所述的步骤三,在线学习阶段过程为根据样本Xi的期望标签权值向量ti及隐层输出f(Xi),获得样本训练误差,更新簇中心矩阵Hci,获得簇中心训练误差,计算出W,并由此更新K和β;如此循环直至样本全部计算完成。
所述的步骤三中,其计算过程如下:
②更新簇中心矩阵Hci
③获得簇中心训练误差
④计算W,更新K和β
Kk+1=Kk+Hk+1 TWk+1Hk+1,其中Hk+1=(f(xk+1))1×1
β(k+1)=β(k)+Kk+1 -1Hk+1 TWk+1(Tk+1-Hk+1β(k))
与现有技术相比,本发明具有如下有益效果:
请阐述补充本发明的有益效果或者各种优点优势。
在大数据环境下,由于内存容量限制,数据通常采用增量方式进行获取,且在线到来的数据存在类不平衡的特点。因此本发明将加权极限学习机推广到在线极限学习机中,使之更符合大数据分类环境,同时又在加权在线极限学习机算法(WOSELM)的基础上,本发明引入了模糊集思想,通过隶属函数设计,从而缓解类不平衡对大数据分类性能的影响,提高了预测模型的准确度。
【附图说明】
图1是本发明较佳实施例离线初始化过程流程图;
图2是本发明较佳实施例在线学习过程流程图;
图3是三种算法在spambase数据集上增量学习能力比较图;
图4是三种算法在spambase数据集上运行100次的准确率比较图。
【具体实施方式】
请结合说明书附图,对本发明做进一步详细描述。将本发明与在线极限学习机OSELM、加权在线极限学习机WOSELM进行比较,具体如下:
在线极限学习机OSELM
一、算法参数初始化;
实验数据来自UCI标准数据库中的Spambase数据集,该数据集用来判别收到的邮件是否为垃圾邮件,共有4601个样本,57个属性。实验中,先对数据进行归一化等预处理,其训练样本和测试样本都是随机选取的,并且比例分别为80%和20%。
设置以下参数值:
N:选取的训练样本数3680
N0:从N个训练样本中随机选取的用于初始化β(0)的训练样本数100
n:样本属性数57
m:样本多标签隶属权值个数2
X:选取的N个含先验标签{0,1}的训练样本
l:单隐层节点数量40
G(x):激活函数sigmoid函数
二、初始阶段
1.随机初始化输入权重a和偏置b
a:随机分配的权重矩阵,其中aij∈(-1,1),i=1,2,…,l;j=1,2,…,n
b:随机分配的偏置向量,其中bi∈(-0.6,0.6),i=1,2,…,l
2.从X中随机选取N0个初始样本,计算隐层的输出矩阵H0
3.计算出输出权重β(0)
β(0)=K0 -1H0 TT0,其中K0=H0 TH0
三、在线学习阶段
1.遍历训练样本,更新K值和β值
Kk+1=Kk+Hk+1 THk+1
β(k+1)=β(k)+Kk+1 -1Hk+1 T(Tk+1-Hk+1β(k))
2.输出权重β
加权在线极限学习机WOSELM
一、算法参数初始化;
实验数据与OSELM相同,并选用相同的训练集与测试集。
设置以下参数值:
N:选取的训练样本数3680
N0:从N个训练样本中选取的用于初始化β(0)的训练样本数100
n:样本属性数57
m:样本多标签隶属权值个数2
X:选取的N个含先验标签{0,1}的训练样本
l:单隐层节点数量40
G(x):激活函数sigmoid函数
a:与OSELM中的权重矩阵a相同
b:与OSELM中的偏置向量b相同
C:惩罚因子,数值为212
二、初始离线阶段
1.初始化簇中心矩阵Hc及对角矩阵D
2.遍历与OSELM相同的初始样本,更新簇中心矩阵Hc
其中f(xi)=G(a·xi+b)
当i=1时:Hc1=t1 Tf(x1)
3.计算样本权重W0,并以此计算K0和β(0)
三、在线学习阶段
1.遍历训练样本,计算样本权重W,并以此更新K和β
Kk+1=Kk+Hk+1 TWk+1Hk+1,其中Hk+1=(f(xk+1))1×1
β(k+1)=β(k)+Kk+1 -1Hk+1 TWk+1(Tk+1-Hk+1β(k))
2.输出权重β
本发明基于模糊加权在线极限学习机大数据分类方法FWOSELM
一、算法参数初始化;
实验数据与OSELM相同,并选用相同的训练集与测试集。
设置以下参数值:
N:选取的训练样本数3680
N0:从N个训练样本中选取的用于初始化β(0)的训练样本数100
n:样本属性数57
m:样本多标签隶属权值个数2
X:选取的N个含先验标签{0,1}的训练样本
l:单隐层节点数量40
G(x):激活函数sigmoid函数
a:与OSELM中的权重矩阵a相同
b:与OSELM中的偏置向量b相同
C:惩罚因子,数值为212
二、初始离线阶段
初始离线阶段,需要选取N0个少量训练样本及其先验标签隶属度权值,以样本的隐层输出构建初始簇中心矩阵Hc,离线初始化过程如图1所示。
1.初始化簇中心矩阵Hc及对角矩阵D
2.遍历与OSELM相同的初始样本,更新簇中心矩阵Hc
其中f(xi)=G(a·xi+b)
当i=1时:Hc1=t1 Tf(x1)
3.计算样本权重W0,并以此计算K0和β(0)
三、在线学习阶段
在线学习阶段是一个不断更新簇中心矩阵,并将簇中心训练误差进行样本权重设置的过程,流程如图2所示。
1.遍历训练样本,计算样本训练误差
2.更新簇中心矩阵
3.获得簇中心训练误差
4.计算样本权重W,并以此计算K和β
Kk+1=Kk+Hk+1 TWk+1Hk+1,其中Hk+1=(f(xk+1))1×1
β(k+1)=β(k)+Kk+1 -1Hk+1 TWk+1(Tk+1-Hk+1β(k))
5.输出权重β
最后在将各个对比对象进行数据图表验证。
图3为增量学习能力比较实验,经过5次实验取平均值后的结果,可以看到本文提出的WOSELM和FWOSELM算法随着数据量的增大,准确率较高,且FWOSELM比WOSELM算法准确率又更高一些。
图4为算法稳定性比较实验,可以看到FWOSELM算法准确率与WOSELM算法相当,稍高于WOSELM算法,但都比OSELM算法高,FWOSELM算法的浮动较WOSELM算法略小,稳定性较好
以上的具体实施方式仅为本创作的较佳实施例,并不用以限制本创作,凡在本创作的精神及原则之内所做的任何修改、等同替换、改进等,均应包含在本创作的保护范围之内。
Claims (6)
1.一种基于模糊聚类的加权在线极限学习机大数据分类方法,其特征在于:包括如下步骤:
步骤一:算法参数初始化;设置以下参数值:
X:选取N个含先验标签T的训练样本,每个样本含n个属性,m个多标签隶属权值
l:单隐层节点数量
G(x):激活函数,
a:单隐层前馈神经网络权重参数,分配其随机值,为l×n的矩阵,
b:单隐层前馈神经网络偏置参数,分配其随机值,为l×1的矩阵,
C:惩罚因子;
步骤二:初始离线阶段;选取N0个少量训练样本及其先验标签隶属度权值,以样本的隐层输出构建初始簇中心矩阵Hc;
步骤三:在线学习阶段;不断更新簇中心矩阵,并将簇中心训练误差进行样本权重设置;
步骤四:用学习到的结果对大数据进行模糊分类。
2.如权利要求1所述的一种基于模糊聚类的加权在线极限学习机大数据分类方法,其特征在于:所述的步骤二初始离线阶段,其过程包括初始化簇中心矩阵Hc及对角矩阵D,获得样本Xi的期望标签权值向量ti及隐层输出f(Xi),计算出Di和簇中心矩阵Hci,Hc=Hci,D=Di,该步骤进行循环,直至样本遍历结束,然后计算出W0,并以此计算K0和β0
4.如权利要求1所述的一种基于模糊聚类的加权在线极限学习机大数据分类方法,其特征在于:所述的步骤三,在线学习阶段过程为根据样本Xi的期望标签权值向量ti及隐层输出f(Xi),获得样本训练误差,更新簇中心矩阵Hci,获得簇中心训练误差,计算出W,并由此更新K和β;如此循环直至样本全部计算完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911390840.2A CN111160461A (zh) | 2019-12-30 | 2019-12-30 | 基于模糊聚类的加权在线极限学习机大数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911390840.2A CN111160461A (zh) | 2019-12-30 | 2019-12-30 | 基于模糊聚类的加权在线极限学习机大数据分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111160461A true CN111160461A (zh) | 2020-05-15 |
Family
ID=70559307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911390840.2A Pending CN111160461A (zh) | 2019-12-30 | 2019-12-30 | 基于模糊聚类的加权在线极限学习机大数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160461A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112528111A (zh) * | 2020-12-10 | 2021-03-19 | 重庆大学 | 一种面向变分布数据流的在线分类方法 |
CN112668749A (zh) * | 2020-11-24 | 2021-04-16 | 江苏中矿安华科技发展有限公司 | 一种基于类标加权极限学习机的煤矿瓦斯预警方法 |
CN112927499A (zh) * | 2021-01-20 | 2021-06-08 | 中冶南方城市建设工程技术有限公司 | 一种基于fcm和kelm的道路施工期路段交通状态判别方法 |
CN114896479A (zh) * | 2022-06-09 | 2022-08-12 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种在线学习方法、系统及计算机可读存储介质 |
-
2019
- 2019-12-30 CN CN201911390840.2A patent/CN111160461A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112668749A (zh) * | 2020-11-24 | 2021-04-16 | 江苏中矿安华科技发展有限公司 | 一种基于类标加权极限学习机的煤矿瓦斯预警方法 |
CN112668749B (zh) * | 2020-11-24 | 2023-07-07 | 江苏中矿安华科技发展有限公司 | 一种基于类标加权极限学习机的煤矿瓦斯预警方法 |
CN112528111A (zh) * | 2020-12-10 | 2021-03-19 | 重庆大学 | 一种面向变分布数据流的在线分类方法 |
CN112528111B (zh) * | 2020-12-10 | 2023-10-20 | 重庆大学 | 一种面向变分布数据流的在线分类方法 |
CN112927499A (zh) * | 2021-01-20 | 2021-06-08 | 中冶南方城市建设工程技术有限公司 | 一种基于fcm和kelm的道路施工期路段交通状态判别方法 |
CN114896479A (zh) * | 2022-06-09 | 2022-08-12 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种在线学习方法、系统及计算机可读存储介质 |
CN114896479B (zh) * | 2022-06-09 | 2024-05-07 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种在线学习方法、系统及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160461A (zh) | 基于模糊聚类的加权在线极限学习机大数据分类方法 | |
CN111860638B (zh) | 基于不平衡数据深度信念网络的并行入侵检测方法和系统 | |
CN108564192B (zh) | 一种基于气象因子权重相似日的短期光伏功率预测方法 | |
CN107292097B (zh) | 基于特征组的中医主症选择方法 | |
CN113468817B (zh) | 一种基于igoa优化elm的超短期风电功率预测方法 | |
CN108805193A (zh) | 一种基于混合策略的电力缺失数据填充方法 | |
CN114897129A (zh) | 一种基于日相似聚类与Kmeans-GRA-LSTM的光伏电站短期功率预测方法 | |
CN110826611A (zh) | 基于多个元分类器加权集成的stacking污水处理故障诊断方法 | |
CN111832839B (zh) | 基于充分增量学习的能耗预测方法 | |
CN115310554A (zh) | 基于深度聚类的品项分配策略、系统、存储介质和设备 | |
CN113449802A (zh) | 基于多粒度互信息最大化的图分类方法及装置 | |
CN113255873A (zh) | 一种聚类天牛群优化方法、系统、计算机设备和存储介质 | |
CN112308161A (zh) | 一种基于人工智能半监督聚类目标下的粒子群算法 | |
CN115751441A (zh) | 基于二次侧流量的供热系统热力站热量调节方法及系统 | |
CN116226689A (zh) | 一种基于高斯混合模型的配电网典型运行场景生成方法 | |
CN115344693A (zh) | 一种基于传统算法和神经网络算法融合的聚类方法 | |
CN113408610B (zh) | 一种基于自适应矩阵迭代极限学习机的图像识别方法 | |
CN114510871A (zh) | 基于思维进化和lstm的云服务器性能衰退预测方法 | |
CN106295688B (zh) | 一种基于稀疏均值的模糊聚类方法 | |
CN114328922B (zh) | 一种基于谱图理论的选择性文本聚类集成方法 | |
CN116415177A (zh) | 一种基于极限学习机的分类器参数辨识方法 | |
CN116681154A (zh) | 一种基于emd-ao-delm的光伏功率计算方法 | |
CN110991743A (zh) | 一种基于聚类分析和优化神经网络的风电功率短期组合预测方法 | |
CN115083511A (zh) | 基于图表示学习与注意力的外围基因调控特征提取方法 | |
CN114238852A (zh) | 运营数据的分析方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |