CN108108762B - 一种用于冠心病数据的核极限学习机及随机森林分类方法 - Google Patents

一种用于冠心病数据的核极限学习机及随机森林分类方法 Download PDF

Info

Publication number
CN108108762B
CN108108762B CN201711399080.2A CN201711399080A CN108108762B CN 108108762 B CN108108762 B CN 108108762B CN 201711399080 A CN201711399080 A CN 201711399080A CN 108108762 B CN108108762 B CN 108108762B
Authority
CN
China
Prior art keywords
kernel
classification
heart disease
coronary heart
learning machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711399080.2A
Other languages
English (en)
Other versions
CN108108762A (zh
Inventor
王丹
石智强
杜金莲
付利华
赵文兵
杜晓林
苏航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201711399080.2A priority Critical patent/CN108108762B/zh
Publication of CN108108762A publication Critical patent/CN108108762A/zh
Application granted granted Critical
Publication of CN108108762B publication Critical patent/CN108108762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种用于冠心病数据的核极限学习机及随机森林分类方法,采用Bootstrap方法对冠心病样本集进行有放回的采样,生成不同的冠心病数据训练子集和测试子集以供基分类器使用;采用混合核形式的核函数作为核极限学习机的核函数,减少核类型对分类模型的性能影响;使用冠心病数据训练子集对核极限学习机进行模型训练并使用测试子集对基分类器进行性能测试,采用排序加粒子群优化的方式循环判断重新生成优化的新基分类器,剔除并代替分类性能较差的基分类器,从而达到提高整体分类性能的目的;形成随机森林模型之后,采用相对多数投票法选取分类结果。

Description

一种用于冠心病数据的核极限学习机及随机森林分类方法
技术领域
本发明属于计算机软件领域,尤其涉及一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法。
背景技术
医疗资料显示,冠心病已经成为危害人类健康最严重的疾病之一。冠心病的一个特点是很难事先做出准确的诊断,但其发生和发展的规律有一定的规律可循。在机器学习技术中,冠心病的诊断本质上是一个分类问题,随着机器学习技术在医疗领域中的发展与应用,人们希望借助机器学习技术和方法辅助对冠心病等复杂疾病的诊断,避免医生在诊断过程中由于经验不足导致的误诊,得到更准确的诊断结果,帮助医生建立临床辅助决策模型,为其在临床应用中提供科学依据。
从研究人员利用不同的模型对冠心病数据分类的结果显示,基于SVM和神经网络的模型表现出较好的分类性能。但是仍然存在如下一些问题。第一,对于SVM和神经网络,很典型的一个难题是模型的参数选择问题,参数的选择对分类结果有很大的影响,而且参数的选择没有统一的标准和理论指导;第二,已存在的很多方法都采用单分类模型,分类性能往往会受到单分类器性能的限制而达到瓶颈,第三,典型人工神经网络模型复杂且训练速度慢。
极限学习机(ELM)比SVM和神经网络具有更优的性能,它的优点在于只含有一个隐藏层,输入层与隐藏层的网络权重值和偏倚值随机产生,而隐藏层和输出层之间的输出权重直接计算求出,不需要迭代调节网络权重,避免了梯度下降法产生的局部极值、学习时间长及学习率低的影响等问题,因此训练速度非常快。但是,由于极限学习机的隐藏层节点数目是随机给定的,而实际实验显示隐藏层节点数目的选取很大程度上决定了神经网络的分类精度是否可最优。换言之,就是极限学习机的神经元数目直接关系到神经网络的系统逼近与泛化性能。随机产生输入层与隐藏层的网络权重值和偏倚值导致极限学习机对未在训练集中出现的样本泛化能力差、输出结果不稳定等缺点,需要大量的隐藏层节点才能达到理想的精度。为了进一步提高极限学习机的泛化能力和稳定性,黄广斌等人在极限学习机中引入核函数,形成核极限学习机(KELM),避免了随机产生的输入权重和偏倚值的问题,使极限学习机的泛化能力更强,更稳定。同时,我们也发现,目前大多数的预测分类模型在医疗领域中还不能完全摆脱人工干预,因为分类精度不够高。如果充分利用海量的数据支持可以提高分类精度,特别是对神经网络来说,数据规模越大,神经网络性能就越强。但是,单机是无法处理海量数据的,因此,还要进一步对分类系统进行并行化来解决能够处理海量数据的问题。
随机森林算法是一种用于分类,回归和其他任务的集成学习方法,它由多个弱基分类器组成。它在运算量没有显著增加的前提下提高了预测精度。它对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用。
综上,鉴于核极限学习机具有比传统的SVM、ELM、神经网络训练速度快、泛化性能好等优点,且随机森林算法不但能够打破单个分类器性能瓶颈问题,而且在处理高维度数据上具有训练速度快等优点。所以本发明提出采用核极限学习机作为随机森林算法的基分类器,使其不仅可以提高核极限学习机的泛化性能,而且易于并行化,以更好地解决单机不能处理海量数据的问题。考虑到基于随机森林算法的分类方法得到更高分类精度的充要条件是基分类器不仅需要分类性能好且基分类器之间应存在差异性。因此,本发明通过采用排序加粒子群优化的方法提高基分类器的分类性能,并使用Bootstrap采样样本集和随机选取特征子集提高基分类器差异化和训练速度,以满足它的充要条件。传统上使用单机多线程的方法对程序进行并行化,但是,对于海量数据来说单机多线程的方法依旧不可行,需要使用多机进行并行化。因此,本发明采用Map-Reduce计算模型对系统进行多机并行化。
发明内容
本发明的内容:
①提出了一种基于优化核极限学习机及并行化的随机森林分类方法,该方法不仅可以支持海量冠心病医疗数据的处理,而且能够提高对冠心病医疗数据的分类性能。
②采用混合核作为极限学习机的核函数来减少核类型对模型性能的影响。
③采用排序加粒子群优化的方式优化基分类器的分类性能并且减少不必要的时间开销。
本方法是一种集成式学习分类方法,传统上采用决策树作为随机森林的基分类器,鉴于核极限学习机的众多优点,本方法采用优化的混合核形式的极限学习机作为随机森林的基分类器,进一步提高核极限学习机的泛化能力和稳定性。
为达到以上发明目的,经过研究讨论和反复实践,本方法确定最终方案如下:
使用优化的核极限学习机作为随机森林算法的基分类器来提高集成分类器的分类性能,多个弱分类器可以组成一个强分类器,进而可以提高分类性能。采用Bootstrap方法对冠心病样本集进行有放回的采样,生成不同的冠心病数据训练子集和测试子集以供基分类器使用。采用混合核形式的核函数作为核极限学习机的核函数,减少核类型对分类模型的性能影响。使用冠心病数据训练子集对核极限学习机进行模型训练并使用测试子集对基分类器进行性能测试,采用排序加粒子群优化的方式循环判断重新生成优化的新基分类器,剔除并代替分类性能较差的基分类器,从而达到提高整体分类性能的目的。形成随机森林模型之后,采用多数投票法选取分类结果。为了能够提高分类性能和达到处理海量冠心病医疗数据的目的,采用基于Map-Reduce计算模型对分类方法进行并行化。
为实现上述目的,本发明采用如下的技术方案:
一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法,包括以下步骤:
步骤1.采用Bootstrap法从N个冠心病数据样本中有放回地随机抽取N个样本并从F个特征中随机选取f个特征(f<<F)组成新的样本集。随机选取冠心病数据样本子空间不仅提高了基分类器的差异性并且能够减少模型训练时间开销。
步骤2.采用径向基核函数与多项式核函数加权得到混合核形式作为核极限学习机的核函数来提高模型的泛化能力,通过混合核的形式充分利用各核的优点,减少核类型对分类模型的性能影响。
步骤3.使用冠心病数据训练子集训练得到混合核极限学习机模型之后,使用测试子集测试每个基分类器的分类性能并排序,剔除分类性能最差的基分类器。再结合粒子群优化算法优化核参数、正则化系数、混合核权重得到优化的新基分类器代替被删除的基分类器。再次使用测试集对新基分类器进行性能测试,遍历其他基分类器依次与新基分类器的分类性能进行比较,如果比新基分类器的分类性能差,则需要使用粒子群优化算法进行优化。
步骤4.由于训练得到的核极限学习机分类性能高且差异性大,由这种基分类器组成的随机森林分类器的泛化性能会更好。通过采用多数投票的方式选取最终分类结果。为了能够提高分类性能和达到处理海量数据的目的,采用基于Map-Reduce计算模型对分类方法进行并行化。
附图说明
图1基于核极限学习机的随机森林分类方法方案图
图2核极限学习机优化流程图
图3粒子群优化算法流程图
图4随机森林算法并行化过程图
具体实施方式
本发明采用混合核的极限学习机作为随机森林的基分类器以及采用排序加粒子群优化的方式优化基分类器,希望达到对冠心病数据分类结果更好的目的。
传统极限学习机的输出权重β通过公式β=H+T计算,H+是特征映射矩阵H的广义矩阵,H是随机特征映射矩阵。为了进一步提高极限学习机的泛化能力,黄广斌引入核函数避免极限学习机方法随机产生输入权重和偏倚值的问题,提出基于核函数的极限学习机方法核极限学习机,核极限学习机输出权重的计算公式如下:
Figure GDA0002901741760000031
由此,核极限学习机的输出函数如下:
Figure GDA0002901741760000032
h(x)是输入x经过隐层映射后的输出,
Figure GDA0002901741760000033
是偏置常量,用于增加稳定性和泛化性能。当隐层映射函数h(x)不可知时,核函数矩阵计算公式如下:
ΩELM=HHTELMi,j=h(xi)·h(xj)=K(xi,xj) (3)
其中K(xi,xj)表示核函数,我们使用径向基核函数和多项式核函数的加权作为核极限学习机的核函数,如下:
K(x,xi)=λKrbf(x,xi)+(1-λ)Kpoly(x,xi) (4)
式中,λ(0≤λ≤1)是权重系数,
Figure GDA0002901741760000034
Kpoly(x,xi)=(x·xi+1)d,d=1,2,...,N (6)
那么,核极限学习机的最终输出函数为:
Figure GDA0002901741760000041
下面将结合附图,对本方法进行详细说明。
图1是基于核极限学习机的随机森林分类方法方案图。首先采用Bootstrap方法对冠心病数据样本集进行采样,从N个冠心病数据样本中随机有放回地选取N个样本组成冠心病数据样本子集,没被选中的样本组成冠心病数据测试子集,在从样本子集和测试子集的F个属性中随机选取f个属性(f<<F),最后形成冠心病数据训练子集Di和测试子集Ti(i=1,2.....k,k为基分类器个数)。然后,开始训练基分类器,详细过程如下:
Figure GDA0002901741760000042
步骤3的零矩阵temp_T,行数为类别个数,列数为样本个数,若每个样本的类别等于label中的某一值,则在temp_T对应位置赋值为1,否则赋值为-1。然后将temp_T重新赋值给T。
在步骤4中我们使用了具有局部特性的径向基核函数与具有全局特性的多项式核函数加权得到的混合核函数,利用两个核函数的优点,减少核类型对模型性能造成的影响。核参数是随机进行输入的,便于后续对基分类器进行优化。
然后,通过训练子集个数,循环训练出所有基分类器后,得到模型集合M。使用冠心病数据测试子集Ti对模型Ei进行性能测试。首先,根据公式(4)计算出核矩阵omega_train,再利用模型Ei中的输出权重矩阵output_weight的转置矩阵output_weight’与omega_train相乘得到所有测试子集样本的分类结果,最后,使用计算得到的分类结果与真实的分类结果对比,即可进一步计算出模型Ei的分类精度。使用所有测试集对所有基分类器进行同样的测试,即可得到分类精度列表。
使用Bootstrap抽样产生不同的训练集训练出来的模型保证了模型之间的差异性,对已训练出来的基分类器进行强化可以提高模型的分类性能。差异性大且分类性能好的模型组成的随机森林分类性能会更好。模型参数对基分类器的分类性能有很大影响,通过对模型参数进行优化可以提高其分类性能。
使用粒子群优化算法进行参数的寻优,它是一种群智能算法,是通过群体中个体之间的协作和信息共享来寻找最优解。粒子群优化算法初始化为一群随机粒子(随机解),粒子i在D维空间的位置表示为矢量xi=(x1,x2,...,xD),飞行速度表示为矢量vi=(v1,v2,...,vD)。每个粒子都有一个由目标函数决定的适应值,并且知道自己到目前为止发现的最好位置pbest和现在的位置xi。除此之外,每个粒子还知道到目前为止整个群体中所有粒子发现的最好位置gbest(gbest是pbest中的最好值)。然后通过迭代找到最优解。在每一次的迭代中,粒子通过跟踪pbest和gbest更新自己。在找到这两个最优值后,粒子通过下面的公式来更新自己的速度和位置。
vi=ω×vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi) (8)
其中,ω是惯性因子,c1,c2是学习因子,rand()是随机数介于(0,1)之间。
xi=xi+vi (9)
结合图3,模型参数C、d、σ、λ寻优过程如下:
Figure GDA0002901741760000051
进一步地,使用基分类器精度列表和粒子群优化算法对基分类器模型集合进行优化,剔除分类性能最差的基分类器,使用粒子群优化算法优化新基分类器代替被删除的基分类器。结合图2,具体过程如下:
Figure GDA0002901741760000061
在初始训练每个基分类器的时候,并没有直接使用粒子群优化算法对每个基分类器进行参数寻优,而是在先验核参数范围内随机生成核参数进行基分类器的训练。这样做的理由是,既然随机化核参数可能产生性能优良的基分类器,那么在遍历模型集合M过程中,就只需找出那些比最优模型分类性能的差别大于给定阈值的模型进行剔除,然后使用粒子群优化算法进行优化即可。对于那些比最优模型性能差别不大的模型来说,没必要进行重新优化训练,这样做可以避免不必要的重复训练,减少时间开销。
经过数据的抽样、模型训练、模型优化之后,就得到了随机森林分类模型,使用相对多数投票的组合策略决定冠心病数据样本最后的分类结果。对于分类任务来说,基分类器hi将从类别标记集合{c1,c2,...,cL}中预测出一个标记,我们将hi在给定的冠心病数据样本x上的预测输出为一个L维向量
Figure GDA0002901741760000062
其中
Figure GDA0002901741760000063
是hi在类别标记cj上的输出。那么相对多数投票组合策略的计算公式如下:
Figure GDA0002901741760000064
即预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个。其中T为基分类器个数。
海量数据可以增强神经网络的性能,但是,单机硬件配置无法满足处理海量数据的要求。为了能够提高分类性能和达到处理海量数据的目的,采用Map-Reduce计算模型对分类方法进行并行化。结合图4,详细说明并行化的过程。
在整个训练过程中不需要数据的混洗操作,所以不需要reduce过程,只利用mapper即可完成并行化。需要重写mapper的setup、map、cleanup三个方法分别实现参数的获取、数据的加载、模型的训练,最后在驱动程序中汇总所有子森林,组成随机森林模型。
1.重写setup方法,该方法从DistributedCache中获取基分类器总数、模型参数、训练集数据分片个数等数据,这些数据是在驱动程序中写入到DistributedCache中的。
2.重写map方法,该方法把数据加载到矩阵中。
3.步骤1和步骤2完成了所需参数和数据的准备,根据图1的处理过程重写cleanup方法实现模型的训练和优化。模型训练好之后,序列化到指定的文件中。
4.在驱动程序中,把基分类器总数、核参数范围、训练集数据分片个数等数据写入到DistributedCache中以便setup方法读取。当所有的计算节点都处理完mapper流程之后,把所有的序列化文件处理汇总到一个序列化文件中,形成随机森林模型,完成并行化。

Claims (1)

1.一种用于冠心病数据的核极限学习机及随机森林分类方法,其特征在于,包括以下步骤:
步骤1.采用Bootstrap法从N个冠心病数据样本中有放回地随机抽取N个样本并从F个特征中随机选取f个特征组成新的样本集,f<<F;
步骤2.核极限学习机模型训练,采用径向基核函数与多项式核函数加权得到混合核函数作为极限学习机的核函数;
步骤3.使用冠心病数据训练子集训练得到混合核极限学习机模型之后,使用测试子集测试每个基分类器的分类性能并排序,剔除分类性能最差的基分类器;再结合粒子群优化算法优化核参数、正则化系数、混合核权重得到优化的新基分类器代替被删除的基分类器;再次使用测试集对新基分类器进行性能测试,遍历其他基分类器依次与新基分类器的分类性能进行比较,如果与新基分类器的分类性能差别超过规定阈值,则需要使用粒子群优化算法进行优化;
步骤4.经过数据的抽样、模型训练、模型优化之后,得到随机森林分类模型,使用相对多数投票的组合策略决定冠心病数据样本最后的分类结果;
对于分类任务来说,基分类器hi将从类别标记集合{c1,c2,...,cL}中预测出一个标记,将hi在给定的冠心病数据样本x上的预测输出为一个L维向量
Figure FDA0002901741750000011
其中,
Figure FDA0002901741750000012
是hi在类别标记cj上的输出,相对多数投票组合策略的计算公式如下:
Figure FDA0002901741750000013
即预测为得票最多的标记,若同时有多个标记获得最高票,则从中随机选取一个。
CN201711399080.2A 2017-12-22 2017-12-22 一种用于冠心病数据的核极限学习机及随机森林分类方法 Active CN108108762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711399080.2A CN108108762B (zh) 2017-12-22 2017-12-22 一种用于冠心病数据的核极限学习机及随机森林分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711399080.2A CN108108762B (zh) 2017-12-22 2017-12-22 一种用于冠心病数据的核极限学习机及随机森林分类方法

Publications (2)

Publication Number Publication Date
CN108108762A CN108108762A (zh) 2018-06-01
CN108108762B true CN108108762B (zh) 2021-03-16

Family

ID=62211613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711399080.2A Active CN108108762B (zh) 2017-12-22 2017-12-22 一种用于冠心病数据的核极限学习机及随机森林分类方法

Country Status (1)

Country Link
CN (1) CN108108762B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117864B (zh) * 2018-07-13 2020-02-28 华南理工大学 基于异构特征融合的冠心病风险预测方法、模型及系统
CN109948680B (zh) * 2019-03-11 2021-06-11 合肥工业大学 病历数据的分类方法及系统
CN110147525B (zh) * 2019-05-21 2023-02-14 内蒙古蒙树生态环境有限公司 苗木生长状态预测方法、装置、设备和存储介质
CN112070519B (zh) * 2019-06-11 2024-03-05 中国科学院沈阳自动化研究所 一种基于数据全局搜索和特征分类的预测方法
CN110251122A (zh) * 2019-06-13 2019-09-20 南方医科大学顺德医院(佛山市顺德区第一人民医院) 一种冠心病风险指数的无损检测系统及方法
CN111476301A (zh) * 2019-12-26 2020-07-31 山东中科先进技术研究院有限公司 一种基于机器学习的医学图像分类方法及系统
CN113130043A (zh) * 2019-12-30 2021-07-16 杭州泉脉科技有限公司 一种基于中医大数据的智能茶饮推荐系统
CN111340125A (zh) * 2020-03-03 2020-06-26 温州大学 基于随机森林算法训练子宫内膜异位囊肿破裂数据的方法
CN111860576A (zh) * 2020-06-05 2020-10-30 温州大学 一种基于随机森林的子宫内膜肿瘤分类标记方法
CN112489803B (zh) * 2020-12-23 2024-08-16 阿斯利康投资(中国)有限公司 风险事件预测方法和系统、风险事件预测系统的生成方法
CN113408603B (zh) * 2021-06-15 2023-10-31 西安华企众信科技发展有限公司 一种基于多分类器融合的冠状动脉狭窄病变程度识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004087737A2 (en) * 2003-03-26 2004-10-14 Omegametrix, Llc Omega-3 fatty acid assays for disease risk assessment
CN103632168A (zh) * 2013-12-09 2014-03-12 天津工业大学 一种机器学习中的分类器集成方法
CN104484571A (zh) * 2014-12-22 2015-04-01 深圳先进技术研究院 一种基于边缘距离排序的集成学习机修剪方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004087737A2 (en) * 2003-03-26 2004-10-14 Omegametrix, Llc Omega-3 fatty acid assays for disease risk assessment
CN103632168A (zh) * 2013-12-09 2014-03-12 天津工业大学 一种机器学习中的分类器集成方法
CN104484571A (zh) * 2014-12-22 2015-04-01 深圳先进技术研究院 一种基于边缘距离排序的集成学习机修剪方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Random forests-based extreme learning machine ensemble for multi-regime time series prediction》;Lin lin,et al;《Expert Systems with Applications》;20171015;第85卷;第164-176页 *
《基于优化组合核极限学习机的网络流量预测》;刘悦,等;《计算机技术与发展》;20160630;第26卷(第6期);第73-77页 *
《集成优化核极限学习机的冠心病无创性诊断》;马超,等;《计算机应用研究》;20170630;第34卷(第6期);第1671-1676页 *

Also Published As

Publication number Publication date
CN108108762A (zh) 2018-06-01

Similar Documents

Publication Publication Date Title
CN108108762B (zh) 一种用于冠心病数据的核极限学习机及随机森林分类方法
Chen et al. Hybrid particle swarm optimization with spiral-shaped mechanism for feature selection
US20210049512A1 (en) Explainers for machine learning classifiers
Diallo et al. Deep embedding clustering based on contractive autoencoder
WO2022121289A1 (en) Methods and systems for mining minority-class data samples for training neural network
Peng et al. Hierarchical Harris hawks optimizer for feature selection
Hu et al. The MBPEP: a deep ensemble pruning algorithm providing high quality uncertainty prediction
Zhang et al. Efficient and merged biogeography-based optimization algorithm for global optimization problems
CN116226629B (zh) 一种基于特征贡献的多模型特征选择方法及系统
CN113255873A (zh) 一种聚类天牛群优化方法、系统、计算机设备和存储介质
CN114897451A (zh) 考虑需求响应用户关键特征的双层聚类修正方法及装置
Chander et al. Data clustering using unsupervised machine learning
Wang et al. Balanced incremental deep reinforcement learning based on variational autoencoder data augmentation for customer credit scoring
Sun et al. A fuzzy brain emotional learning classifier design and application in medical diagnosis
Liu et al. Clustering-based incremental learning for imbalanced data classification
Demidova et al. Optimization of hyperparameters with constraints on time and memory for the classification model of the hard drives states
Pokhrel A comparison of AutoML hyperparameter optimization tools for tabular data
CN111832645A (zh) 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法
Li et al. An imbalanced ensemble learning method based on dual clustering and stage-wise hybrid sampling
Zhang et al. SSIT: a sample selection-based incremental model training method for image recognition
CN116150658A (zh) 信创环境下实现风险数据识别处理的方法、装置、处理器及其计算机可读存储介质
CN114121296B (zh) 基于数据驱动的临床信息规则提取方法、存储介质及设备
Qin et al. Speech recognition for Parkinson’s disease based on improved genetic algorithm and data enhancement technology
CN108154174A (zh) 一种基于核极限学习机及并行化的随机森林分类系统
Lin et al. A neuronal morphology classification approach based on deep residual neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant