CN106650926B - 一种稳健的boosting极限学习机集成建模方法 - Google Patents

一种稳健的boosting极限学习机集成建模方法 Download PDF

Info

Publication number
CN106650926B
CN106650926B CN201610834820.XA CN201610834820A CN106650926B CN 106650926 B CN106650926 B CN 106650926B CN 201610834820 A CN201610834820 A CN 201610834820A CN 106650926 B CN106650926 B CN 106650926B
Authority
CN
China
Prior art keywords
sample
submodel
learning machine
value
steady
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610834820.XA
Other languages
English (en)
Other versions
CN106650926A (zh
Inventor
卞希慧
王靖
张彩霞
范清杰
徐扬
徐红梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan sfitek Scientific Instrument Co.,Ltd.
Original Assignee
Tianjin Green Security Technology Co Ltd
Tianjin Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Green Security Technology Co Ltd, Tianjin Polytechnic University filed Critical Tianjin Green Security Technology Co Ltd
Priority to CN201610834820.XA priority Critical patent/CN106650926B/zh
Publication of CN106650926A publication Critical patent/CN106650926A/zh
Application granted granted Critical
Publication of CN106650926B publication Critical patent/CN106650926B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及一种稳健的boosting极限学习机集成建模方法,首先对训练集中所有样本赋予相同的取样权重;根据样本的取样权重按照概率选取一定数目样本作为一个训练子集;用训练子集的样本建立极限学习机子模型,预测训练集中所有样本,得到预测浓度;根据训练集中每个样本已知浓度与预测浓度的误差来更新取样权重,对于预测误差大的样本加大取样权重;加入一个稳健步骤,将预测误差过大样本的取样权重设置为零;重复上述过程多次,建立多个极限学习机子模型。通过权重中位值法进行预测,得到最终预测结果。与传统极限学习机相比,该方法在预测精度、稳健性和稳定性方面具有明显优势。本发明适用于复杂样品的光谱定量分析。

Description

一种稳健的boosting极限学习机集成建模方法
技术领域
本发明属于复杂样品定量分析领域,具体涉及一种稳健的boosting极限学习机集成建模方法。
背景技术
由黄广斌等人提出的极限学习机(Huang,Guang-Bin;Zhu,Qin-Yu;Siew,Chee-Kheong,Extreme learning machine:Theory and applications,Neurocomputing,2006,70(1-3):489-501)是一种有监督的单隐层前馈神经网络的新算法,因其结构简单、学习速度快和泛化性能强等优点,近年来在复杂样品定量分析方面引起了广泛关注(Bian,Xi-Hui;Li,Shu-Juan;Fan,Meng-Ran;Guo,Yu-Gao;Chang,Na;Wang,Jiang-Jiang,Spectralquantitative analysis of complex samples based on the extreme learningmachine,Analytical Methods,2016,8(23):4674-4679)。与梯度下降法寻优方式不同的是,极限学习机可以随机产生输入权重和隐含层阈值且不需要参数调整(Chen,Wo-Ruo;Bin,Jun;Lu,Hong-Mei;Zhang,Zhi-Min;Liang,Yi-Zeng,Calibration transfer via anextreme learning machine auto-encoder,Analyst,2016,141(6):1973-1980),且该方法在保证泛化性能的同时,极大地提高了学习速度、减少了优化参数的数目。然而由于极限学习机的输入权重和隐含层阈值是随机设置的,使得模型的运行结果具有不稳定性。另一方面,由于极限学习机的输出权重是一个最小二乘解,而最小二乘算法对奇异样本比较敏感。而实际复杂样品光谱数据中奇异样本的存在往往不可避免,因此,极限学习机算法对复杂样品进行分析时存在稳健性差的问题。
集成建模方法,如bagging和boosting等,是提高单一建模方法稳定性和精确度的最佳途径。目前已经提出了bagging极限学习机算法(He,Yan-Lin;Geng,Zhi-Qiang;Zhu,Qun-Xiong,Soft sensor development for the key variables of complex chemicalprocesses using a novel robust bagging nonlinear model integrating improvedextreme learning machine with partial least square,Chemometrics andIntelligent Laboratory Systems,2016,151:78-88),来提高单一极限学习机建模方法的稳定性。但是boosting与极限学习机相结合的算法研究较少。另一方面,为了降低奇异样本对极限学习机模型的影响,也已经提出了稳健极限学习机的算法(Zhang,Kai;Luo,Min-Xia,Outlier-robust extreme learning machine for regression problems,Neurocomputing,2015,151:1519-1527)。但是如何同时提高极限学习机的稳健性和稳定性还没有得到解决。
研究表明,boosting的集成建模效果比bagging略好。Boosting算法是源于机器学习,通过一系列粗糙的、不准确的子模型获得一个精确结果的预测方法。该方法根据样本取样权重的分布,从训练集中选取一定的样本作为训练子集建立子模型。初始时对训练集中所有样品赋予相等的取样权重,以后的迭代过程中预测误差大的样本给予大的取样权重。这种赋权方法会导致在迭代过程中奇异样本总是被选取到训练集中,从而降低甚至破坏模型的性能。近年来,一个稳健版本的boosting被提出,并用于提高偏最小二乘(Shao,Xue-Guang;Bian,Xi-Hui;Cai,Wen-Sheng,An improved boosting partial least squaresmethod for near-infrared spectroscopic quantitative analysis,AnalyticaChimica Acta,2010,666(1-2):32-37)以及回归树(Jiao,Jian;Tan,Shi-Miao;Luo,Rui-Ming;Zhou,Yan-Ping.A Robust boosting regression tree with applications inquantitative structure-activity relationship studies of organic compounds,Journal of Chemical Information and Modeling,2011,51(4):816-828.)等基础建模方法的预测精度及稳健性。与普通的boosting相比,稳健boosting是在更新权重之前引入一个稳健步骤,该稳健步骤通过对预测误差特别大的样本的取样权重设置为零来避免这些样本被取到训练子集中,从而提高boosting的稳健性。
本发明结合极限学习机及稳健boosting方法的优势,提出了一种稳健的boosting极限学习机集成建模方法,并用于复杂样品定量分析,既保留了极限学习机学习速度快,泛化性能强等优势,又提高了极限学习机的稳定性和稳健性。
发明内容
本发明的目的是针对上述存在的问题,将boosting算法与极限学习机(ELM)相结合,同时加入一个稳健步骤,建立一种稳健的boosting极限学习机集成建模方法(流程如图1所示),以提高模型的预测精度、稳健性及稳定性,具体步骤为:
1)收集一定数目的样本,采集样本的光谱数据,测定被测组分的含量。将数据集划分为训练集和预测集;
2)对训练集中所有样本i(i=1,2,......,m)赋予相等的取样权重wi,1
3)根据样本的取样权重按照概率取样选取一定数目的样本作为一个训练子集;
4)确定极限学习机最佳隐含层节点数和激励函数,用训练子集的样品建立极限学习机子模型,用这个子模型预测训练集中所有样本,得到预测浓度;
5)计算训练集中每个样本i已知浓度与预测浓度的误差的绝对值ei,t,其中t为迭代次数;
6)加入一个稳健步骤来改善样本的取样权重,对于预测误差绝对值特别大的样本,将其预测误差设置为0,即
7)根据误差依次计算损失函数Li,t、平均损失函数和模型的自信率βt
8)根据公式
计算每个样本新的取样权重,并归一化,保证
重复步骤(3)~(8)多次,得到T个子模型;
9)对于未知样本,对T个子模型的预测结果,通过权重中位值法得到最终预测结果,且权重中位值公式为:
其中r为将T个预测值进行升序排列的第r个预测值。
本发明中,极限学习机参数优化的方法:定义一个模型性能的评价参数相关系数平均值与方差的比值(MSR),如果多次运行所得相关系数的均值越大(代表精确度好),方差越小(代表稳定性好),那么MSR就越大,模型性能越佳。因此,通过观察MSR随着隐含层节点数以及激励函数的变化来确定最佳参数,其中MSR最大值对应的隐含层节点数及激励函数为最佳参数。
本发明中,子模型个数即迭代次数T的确定方法:固定每个数据集的训练子集样本数为总样本数的50%,给定一个足够大的子模型数目,计算1~T个子模型boosting ELM集成建模的交叉验证均方根误差(RMSECV)。根据RMSECV随着子模型个数的变化,RMSECV值几乎不变(趋于稳定)时对应子模型个数即为所需建立的子模型个数T。
本发明中,训练子集样本百分数的确定方法:子模型数为T、固定稳健中位值倍数为某个值,分别从训练集中选取其样本总数的5%~100%作为训练子集,间隔5%,建立boosting ELM,并观察RMSEP随着训练子集样本百分数的变化,RMSEP最小值对应的训练子集百分数最佳。
本发明中,稳健中位值倍数的选择方法:子模型数为T、采用最佳训练子集样本百分数,把中位值倍数从1~8依次改变,间隔0.5建模一次,并观察RMSEP随着中位值倍数的变化,RMSEP最小值对应的倍数为最佳值。
本发明的优点是:该建模方法结合了集成建模技术boosting和极限学习机的优势,同时对奇异样本具有很好的稳健性,提高了极限学习机算法的预测精度与稳定性,为复杂样品多元校正分析提供了一种新的建模方法。本发明方法可广泛应用于石油、烟草、食品、中药等领域的复杂物质定量分析。
附图说明
图1是boosting极限学习机原理图
图2是小麦近红外数据的极限学习机参数优化图
图3是小麦近红外数据预测均方根误差值随着训练集百分数变化图
图4是小麦近红外数据预测均方根误差值随着中位值倍数变化图
图5是燃油近红外数据的极限学习机参数优化图
图6是燃油近红外数据预测均方根误差值随着训练集百分数变化图
图7是燃油样本数据预测均方根误差值随着中位值倍数变化图
图8是轻汽油和柴油燃料紫外数据的极限学习机参数优化图
图9是轻汽油和柴油燃料紫外数据预测均方根误差值随着训练集百分数变化图
图10是轻汽油和柴油燃料紫外数据预测均方根误差值随着中位值倍数变化图
具体实施方式
为更好地理解本发明,下面结合实施例对本发明做进一步地详细说明,但是本发明要求保护的范围并不局限于实施例所表示的范围。
实施例1:
本实施例是应用于可见-近红外光谱分析,对小麦样本中蛋白质含量值进行研究(该数据中含有2个奇异样本)。具体的步骤如下:
1)收集884个加拿大的小麦样本,采集这些样本的可见-近红外外光谱数据,波长范围为400-2498nm,采样间隔为2nm,包含1050个波长点,光谱采用Foss Model 6500近红外光谱仪测定,下载网址:http://www.idrc-chambersburg.org/shootout2008.html。该数据中第680和681号样本为奇异样本,采用网站上对数据集的划分的描述,778个样本用作训练集,107个样本用作预测集。
2)将训练集中所有样本i(i=1,2,......,778)赋予相等的取样权重wi,1
3)根据样本的取样权重选取按照概率取样选取一定数目的样本作为一个训练子集。
4)确定极限学习机最佳隐含层节点数和激励函数,用训练子集的样本建立极限学习机子模型,用这个子模型预测训练集中所有样本,得到预测浓度。
5)计算训练集中每个样本i已知浓度与预测浓度的误差的绝对值ei,t,其中t为迭代次数。
6)加入一个稳健步骤来改善样本的取样权重,对于预测误差绝对值特别大的样本,将其预测误差设置为0,即
7)根据误差依次计算损失函数Li,t、平均损失函数模型的自信率βt
8)根据公式
计算每个样本新的取样权重,并归一化,保证
重复步骤(3)~(8)多次,得到T个子模型。
9)对于未知样本,对T个子模型的预测结果,通过权重中位值法得到最终预测结果。且权重中位值公式为:
其中r为将T个预测值进行升序排列的第r个预测值。
极限学习机参数优化的方法:定义一个模型性能的评价参数相关系数平均值与方差的比值(MSR),如果多次运行所得相关系数的均值越大(代表精确度好),方差越小(代表稳定性好),那么MSR就越大,模型性能越佳。该实施例中MSR随着隐层节点数及激励函数的变化如图2所示,当MSR最大时对应的隐含层节点数及激励函数分别为95和S型函数。
子模型个数即迭代次数的确定方法:固定每个数据集的训练子集样本数为总样本数的50%,给定500个子模型数目值,计算每个子模型boosting ELM集成建模的交叉验证均方根误差(RMSECV),并观察RMSECV随着子模型个数的变化,当RMSECV值几乎不变(趋于稳定)时对应子模型个数500,即为所需建立的子模型个数。
训练子集样本百分数的确定方法:子模型数为500、固定稳健中位值倍数为6,分别从训练集中选取其样本总数的5%~100%作为训练子集,间隔5%,建立boosting ELM,并观察RMSEP随着训练子集样本百分数的变化,RMSEP最小值对应的训练子集百分数最佳。该实施例中RMSEP值随着训练子集样本百分数的变化如图3所示,随着训练集百分数的增加,RMSEP先快速下降,当训练集百分数大于20%后又逐渐上升,故训练子集样本百分数为20%时为最佳值。
稳健中位值倍数的选择方法:子模型数为500、采用最佳训练子集样本百分数20%,把中位值倍数从1~8依次改变,间隔0.5建模一次,并观察RMSEP随着中位值倍数的变化,RMSEP最小值对应的倍数为最佳值。该实施例中RMSEP值随中位值倍数的变化如图4所示,当RMSEP最小时对应的中位值倍数5.5为最佳值。
利用模型对蛋白质含量未知的预测集样本进行浓度测定,并与不加稳健步骤的boosting ELM、ELM和PLS方法比较。结果表明,利用传统PLS建模,其预测均方根误差RMSEP为0.7476;利用ELM建模,其预测均方根误差RMSEP为0.6760,标准偏差为0.0830;利用没有稳健步骤的boosting ELM建模,其预测均方根误差RMSEP为0.6965,标准偏差为0.0625;利用加稳健步骤的boosting ELM建模,其预测均方根误差RMSEP为0.4366,标准偏差为0.0105。通过比较可以得出,基于ELM方法的模型的预测精度要优于PLS;基于boosting集成的ELM方法稳定性要明显优于ELM方法;该数据中存在奇异样本,稳健步骤的加入可以极大地提高boosting ELM模型的稳健性、稳定性及预测精度。
实施例2:
本实施例是应用于近红外光谱分析,对柴油机燃料样本中的总芳香烃含量进行测定(该数据中不含奇异样本)。具体的步骤如下:
1)收集263个燃油样本,采集这些样本的近红外光谱数据,波长范围为750-1550nm,包括401个波长点,根据美国测试和材料协会(American Society of Testing andMaterials,ASTM)的标准分别测定,下载网址:http://www.eigenvector.com/Data/SWRI。该数据中无奇异样本,采用网站上对数据集划分的描述,142个样本用作训练集,121个样本用作预测集。
2)将训练集中所有样本i(i=1,2,......,142)赋予相等的取样权重wi,1
3)根据样本的取样权重选取按照概率取样选取一定数目的样本作为一个训练子集。
4)确定极限学习机最佳隐含层节点数和激励函数,用训练子集的样本建立极限学习机子模型,用这个子模型预测训练集中所有样本,得到预测浓度。
5)计算训练集中每个样本i已知浓度与预测浓度的误差的绝对值ei,t,其中t为迭代次数。
6)加入一个稳健步骤来改善样本的取样权重,对于预测误差绝对值特别大的样本,将其预测误差设置为0,即
7)根据误差依次计算损失函数Li,t、平均损失函数模型的自信率βt
8)根据公式
计算每个样本新的取样权重,并归一化,保证
重复步骤(3)~(8)多次,得到T个子模型。
9)对于未知样本,对T个子模型的预测结果,通过权重中位值法得到最终预测结果。且权重中位值公式为:
其中r为将T个预测值进行升序排列的第r个预测值。
极限学习机参数优化的方法:定义一个模型性能的评价参数相关系数平均值与方差的比值(MSR),如果多次运行所得相关系数的均值越大(代表精确度好),方差越小(代表稳定性好),那么MSR就越大,模型性能越佳。该实施例中MSR随着隐层节点数及激励函数的变化如图5所示,当MSR最大时对应的隐含层节点数及激励函数分别为48和正弦函数。
子模型个数即迭代次数的确定方法:固定每个数据集的训练子集样本数为总样本数的50%,给定500个子模型数目值,计算每个子模型boosting ELM集成建模的交叉验证均方根误差(RMSECV),并观察RMSECV随着子模型个数的变化,当RMSECV值几乎不变(趋于稳定)时对应子模型个数500,即为所需建立的子模型个数。
训练子集样本百分数的确定方法:子模型数为500、固定稳健中位值倍数为6,分别从训练集中选取其样本总数的5%~100%作为训练子集,间隔5%,建立boosting ELM,并观察RMSEP随着训练子集样本百分数的变化,RMSEP最小值对应的训练子集百分数最佳。该实施例中RMSEP值随着训练子集样本百分数的变化如图6所示,当训练集百分数小于15%时,随着训练集百分数的增加,RMSEP迅速减小,当训练集百分数在15-50%时,RMSEP基本保持不变,当训练集百分数大于50%后,RMSEP缓慢减小后又保持平稳,故训练子集样本百分数为80%时为最佳值。
稳健中位值倍数的选择方法:子模型数为500、采用最佳训练子集样本百分数80%,把中位值倍数从1~8依次改变,间隔0.5建模一次,并观察RMSEP随着中位值倍数的变化,RMSEP最小值对应的倍数为最佳值。该实施例中RMSEP值随中位值倍数的变化如图7所示,当RMSEP最小时对应的中位值倍数5.5为最佳值。
利用模型对总芳香烃含量未知的预测集样本进行浓度测定,并与不加稳健步骤的boosting ELM、ELM和PLS方法比较。结果表明,利用传统PLS建模,其预测均方根误差RMSEP为0.7032;利用ELM建模,其预测均方根误差RMSEP为0.6226,标准偏差为0.0485;利用没有稳健步骤的boosting ELM建模,其预测均方根误差RMSEP为0.5185,标准偏差为0.0064;利用加稳健步骤的boosting ELM建模,其预测均方根误差RMSEP为0.5176,标准偏差为0.0062。通过比较可以得出,基于ELM方法的模型的预测精度要优于PLS;基于boosting集成的ELM方法的预测精度及稳定性要明显优于ELM方法;该数据中不存在奇异样本,有稳健步骤与没有稳健步骤加入的boosting ELM的预测效果相当。
实施例3:
本实施例是应用于紫外光谱分析,对轻汽油和柴油燃料中的单环芳香烃含量进行测定(该数据中含有1个奇异样本)。具体的步骤如下:
1)收集115个轻汽油和柴油燃料样本,采集这些样本的紫外光谱数据,波长范围为200-400nm,采样间隔为0.35nm,包含572个波长点,光谱采用Cary 3 UV-visible分光光度计(Varian Instruments,San Fernando,Calif.)测定。单环芳香族化合物含量采用HPG1205A超临界流体色谱进行测定,下载网址:http://myweb.dal.ca/pdwentze/downloads.html。该数据中第115号样本为奇异样本,采用网站上对数据集划分的描述,前70个样本用作训练集,后44个样本用作预测集。
2)将训练集中所有样本i(i=1,2,......,70)赋予相等的取样权重wi,1
3)根据样本的取样权重选取按照概率取样选取一定数目的样本作为一个训练子集。
4)确定极限学习机最佳隐含层节点数和激励函数,用训练子集的样本建立极限学习机子模型,用这个子模型预测训练集中所有样本,得到预测浓度。
5)计算训练集中每个样本i已知浓度与预测浓度的误差的绝对值ei,t,其中t为迭代次数。
6)加入一个稳健步骤来改善样本的取样权重,对于预测误差绝对值特别大的样本,将其预测误差设置为0,即
7)根据误差依次计算损失函数Li,t、平均损失函数模型的自信率βt
8)根据公式
计算每个样本新的取样权重,并归一化,保证
重复步骤(3)~(8)多次,得到T个子模型。
9)对于未知样本,对T个子模型的预测结果,通过权重中位值法得到最终预测结果。且权重中位值公式为:
其中r为将T个预测值进行升序排列的第r个预测值。
极限学习机参数优化的方法:定义一个模型性能的评价参数相关系数平均值与方差的比值(MSR),如果多次运行所得相关系数的均值越大(代表精确度好),方差越小(代表稳定性好),那么MSR就越大,模型性能越佳。该实施例中MSR随着隐层节点数及激励函数的变化如图8所示,当MSR最大时对应的隐含层节点数及激励函数分别为9和S型函数。
子模型个数即迭代次数的确定方法:固定每个数据集的训练子集样本数为总样本数的50%,给定500个子模型数目值,计算每个子模型boosting ELM集成建模的交叉验证均方根误差(RMSECV),并观察RMSECV随着子模型个数的变化,当RMSECV值几乎不变(趋于稳定)时对应子模型个数500,即为所需建立的子模型个数。
训练子集样本百分数的确定方法:子模型数为500、固定稳健中位值倍数为6,分别从训练集中选取其样本总数的5%~100%作为训练子集,间隔5%,建立boosting ELM,并观察RMSEP随着训练子集样本百分数的变化,RMSEP最小值对应的训练子集百分数最佳。该实施例中RMSEP值随着训练子集样本百分数的变化如图9所示,训练集百分数小于20%时,随着训练集百分数的增加,RMSEP迅速减小,但当训练集百分数大于20%之后略有增加但基本保持不变。故当样本百分数为20%时为最佳值。
稳健中位值倍数的选择方法:子模型数为500、采用最佳训练子集样本百分数20%,把中位值倍数从1~8依次改变,间隔0.5建模一次,并观察RMSEP随着中位值倍数的变化,RMSEP最小值对应的倍数为最佳值。该实施例中RMSEP值随中位值倍数的变化如图10所示,当RMSEP最小时对应的中位值倍数6.5为最佳值。
利用模型对单环芳香烃含量未知的预测集样本进行浓度测定,并与不加稳健步骤的boosting ELM、ELM和PLS方法比较。结果表明,利用传统PLS建模,其预测均方根误差RMSEP为0.8708;利用ELM建模,其预测均方根误差RMSEP为0.8249,标准偏差为0.1073;利用没有稳健步骤的boosting ELM建模,其预测均方根误差RMSEP为0.6689,标准偏差为0.0199;利用加稳健步骤的boosting ELM建模,其预测均方根误差RMSEP为0.6126,标准偏差为0.0146。通过比较可以得出,基于ELM方法的模型的预测精度要优于PLS;基于boosting集成的ELM方法稳定性要明显优于ELM方法;该数据中存在奇异样本,稳健步骤的加入可以提高boosting ELM模型的预测精度及稳定性。

Claims (2)

1.一种稳健的boosting极限学习机集成建模方法,其特征在于具体步骤为:
(1)采集被测样本的光谱数据,测定样本被测成分的含量,将样本划分为训练集和预测集;
(2)对训练集中所有样本i赋予相等的取样权重,i的取值范围为1~m,其中m为训练集中样本总数目;
(3)根据样本的取样权重按照概率取样选取一定数目的样本作为一个训练子集;
(4)确定极限学习机最佳隐含层节点数和激励函数,用训练子集的样本建立极限学习机子模型,用这个子模型预测训练集中所有样本,得到预测浓度;
(5)计算训练集中每个样本已知浓度与预测浓度的误差的绝对值ei,t,其中t为迭代次数;
(6)加入一个稳健步骤来改善样本的取样权重,对于预测误差绝对值特别大的样本,将其预测误差设置为0;
(7)根据误差依次计算损失函数Li,t、平均损失函数和模型的自信率βt
(8)计算每个样本新的取样权重wi,t+1,并归一化,保证
重复步骤(3)~(8)多次,得到T个子模型;
(9)对于未知样本,对T个子模型的预测结果,通过权重中位值法得到最终预测结果;
所述子模型个数即迭代次数T的确定方法是:固定每个数据集的训练子集样本数为总样本数的50%,给定一个足够大的子模型数目,计算1~T个子模型boosting ELM集成建模的RMSECV;根据RMSECV随着子模型个数的变化,RMSECV值趋于稳定时对应子模型个数即为所需建立的子模型个数T;
训练子集样本百分数的确定方法是:子模型数为T、固定稳健中位值倍数为某个值,分别从训练集中选取其样本总数的5%~100%作为训练子集,间隔5%,建立boosting ELM,并观察RMSEP随着训练子集样本百分数的变化,RMSEP最小值对应的训练子集百分数最佳;
稳健中位值倍数的选择方法是:子模型数为T、采用最佳训练子集样本百分数,把中位值倍数从1~8依次改变,间隔0.5建模一次,并观察RMSEP随着中位值倍数的变化,RMSEP最小值对应的倍数为最佳值。
2.根据权利要求1所述的稳健的boosting极限学习机集成建模方法,其特征在于:极限学习机参数优化方法如下:定义一个模型性能的评价参数相关系数平均值与方差的比值(MSR),如果多次运行所得相关系数的均值越大,代表精确度好,方差越小,代表稳定性好,那么MSR就越大,模型性能越佳;因此,通过观察MSR随着隐含层节点数以及激励函数的变化来确定最佳参数,MSR最大值对应的隐含层节点数及激励函数为最佳参数。
CN201610834820.XA 2016-09-14 2016-09-14 一种稳健的boosting极限学习机集成建模方法 Active CN106650926B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610834820.XA CN106650926B (zh) 2016-09-14 2016-09-14 一种稳健的boosting极限学习机集成建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610834820.XA CN106650926B (zh) 2016-09-14 2016-09-14 一种稳健的boosting极限学习机集成建模方法

Publications (2)

Publication Number Publication Date
CN106650926A CN106650926A (zh) 2017-05-10
CN106650926B true CN106650926B (zh) 2019-04-16

Family

ID=58852210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610834820.XA Active CN106650926B (zh) 2016-09-14 2016-09-14 一种稳健的boosting极限学习机集成建模方法

Country Status (1)

Country Link
CN (1) CN106650926B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330514B (zh) * 2017-07-10 2020-07-31 北京工业大学 一种基于集成极限学习机的空气质量预测方法
CN107290305B (zh) * 2017-07-19 2019-11-01 中国科学院合肥物质科学研究院 一种基于集成学习的近红外光谱定量建模方法
CN107886503A (zh) * 2017-10-27 2018-04-06 重庆金山医疗器械有限公司 一种消化道解剖位置识别方法及装置
CN109034366B (zh) * 2018-07-18 2021-10-01 北京化工大学 基于多激活函数的elm集成模型在化工建模中的应用
CN109902411B (zh) * 2019-03-07 2020-08-11 三峡大学 土壤重金属含量检测建模方法及装置、检测方法及装置
CN111291657B (zh) * 2020-01-21 2022-09-16 同济大学 一种基于难例挖掘的人群计数模型训练方法及应用
CN112735535B (zh) * 2021-04-01 2021-06-25 腾讯科技(深圳)有限公司 预测模型训练、数据预测方法、装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537391A (zh) * 2014-12-23 2015-04-22 天津大学 一种极限学习机的元学习方法
CN105117525A (zh) * 2015-07-31 2015-12-02 天津工业大学 Bagging极限学习机集成建模方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537391A (zh) * 2014-12-23 2015-04-22 天津大学 一种极限学习机的元学习方法
CN105117525A (zh) * 2015-07-31 2015-12-02 天津工业大学 Bagging极限学习机集成建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于AdaBoost 的极限学习机分类方法;王杰, 贾育衡;《郑州大学学报( 理学版)》;20140630;第46卷(第2期);第55-58页

Also Published As

Publication number Publication date
CN106650926A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106650926B (zh) 一种稳健的boosting极限学习机集成建模方法
Couture et al. Spectroscopic determination of ecologically relevant plant secondary metabolites
Üstün et al. Determination of optimal support vector regression parameters by genetic algorithms and simplex optimization
Fan et al. Calibration model transfer for near-infrared spectra based on canonical correlation analysis
Sharififar et al. Evaluating a low‐cost portable NIR spectrometer for the prediction of soil organic and total carbon using different calibration models
Huang et al. Improved generalization of spectral models associated with Vis-NIR spectroscopy for determining the moisture content of different tea leaves
CN105300923A (zh) 一种近红外光谱分析仪在线应用时无测点温度补偿模型修正方法
CN104020127A (zh) 一种利用近红外光谱快速测量烟叶中无机元素的方法
Bian et al. A boosting extreme learning machine for near-infrared spectral quantitative analysis of diesel fuel and edible blend oil samples
Galvao et al. An application of subagging for the improvement of prediction accuracy of multivariate calibration models
Xu et al. Improving the accuracy of soil organic carbon content prediction based on visible and near-infrared spectroscopy and machine learning
Jiang et al. Using an optimal CC-PLSR-RBFNN model and NIR spectroscopy for the starch content determination in corn
Shen et al. Rapid and real-time detection of moisture in black tea during withering using micro-near-infrared spectroscopy
Xu et al. Representative splitting cross validation
Xuemei et al. Using short wave visible–near infrared reflectance spectroscopy to predict soil properties and content
Li et al. A novel multivariate calibration method based on variable adaptive boosting partial least squares algorithm
Bian et al. Robust boosting neural networks with random weights for multivariate calibration of complex samples
Yu et al. Prediction of soil properties based on characteristic wavelengths with optimal spectral resolution by using Vis-NIR spectroscopy
Nespeca et al. Multivariate filters combined with interval partial least square method: A strategy for optimizing PLS models developed with near infrared data of multicomponent solutions
Arshad et al. Estimation of leaf water content from mid-and thermal-infrared spectra by coupling genetic algorithm and partial least squares regression
Zhou et al. A new model transfer strategy among spectrometers based on SVR parameter calibrating
CN107356556A (zh) 一种近红外光谱定量分析的双集成建模方法
Tan et al. Determination of total sugar in tobacco by near-infrared spectroscopy and wavelet transformation-based calibration
Li et al. Spectrometric prediction of nitrogen content in different tissues of slash pine trees
Chen et al. A novel spectral multivariate calibration approach based on a multiple fitting method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Bian Xihui

Inventor after: Wang Jing

Inventor after: Zhang Caixia

Inventor after: Fan Qingjie

Inventor after: Xu Yang

Inventor after: Xu Hongmei

Inventor before: Bian Xihui

Inventor before: Xu Yang

Inventor before: Zhang Caixia

Inventor before: Fan Qingjie

Inventor before: Xu Hongmei

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210826

Address after: 621000 Room 301, Mianyang export processing zone, No. 261, east section of Feiyun Avenue, Mianyang high tech Zone, Mianyang City, Sichuan Province

Patentee after: Sichuan sfitek Scientific Instrument Co.,Ltd.

Address before: No. 399 Bingshui Road, Xiqing District, Tianjin, Tianjin

Patentee before: TIANJIN POLYTECHNIC University

Patentee before: TIANJIN GREEN SECURITY TECHNOLOGY Co.,Ltd.