CN106650926B

CN106650926B - 一种稳健的boosting极限学习机集成建模方法

Info

Publication number: CN106650926B
Application number: CN201610834820.XA
Authority: CN
Inventors: 卞希慧; 王靖; 张彩霞; 范清杰; 徐扬; 徐红梅
Original assignee: Tianjin Green Security Technology Co Ltd; Tianjin Polytechnic University
Current assignee: Sichuan sfitek Scientific Instrument Co.,Ltd.
Priority date: 2016-09-14
Filing date: 2016-09-14
Publication date: 2019-04-16
Anticipated expiration: 2036-09-14
Also published as: CN106650926A

Abstract

本发明涉及一种稳健的boosting极限学习机集成建模方法，首先对训练集中所有样本赋予相同的取样权重；根据样本的取样权重按照概率选取一定数目样本作为一个训练子集；用训练子集的样本建立极限学习机子模型，预测训练集中所有样本，得到预测浓度；根据训练集中每个样本已知浓度与预测浓度的误差来更新取样权重，对于预测误差大的样本加大取样权重；加入一个稳健步骤，将预测误差过大样本的取样权重设置为零；重复上述过程多次，建立多个极限学习机子模型。通过权重中位值法进行预测，得到最终预测结果。与传统极限学习机相比，该方法在预测精度、稳健性和稳定性方面具有明显优势。本发明适用于复杂样品的光谱定量分析。

Description

一种稳健的boosting极限学习机集成建模方法

技术领域

本发明属于复杂样品定量分析领域，具体涉及一种稳健的boosting极限学习机集成建模方法。

背景技术

由黄广斌等人提出的极限学习机(Huang，Guang-Bin；Zhu，Qin-Yu；Siew，Chee-Kheong，Extreme learning machine：Theory and applications，Neurocomputing，2006，70(1-3)：489-501)是一种有监督的单隐层前馈神经网络的新算法，因其结构简单、学习速度快和泛化性能强等优点，近年来在复杂样品定量分析方面引起了广泛关注(Bian，Xi-Hui；Li，Shu-Juan；Fan，Meng-Ran；Guo，Yu-Gao；Chang，Na；Wang，Jiang-Jiang，Spectralquantitative analysis of complex samples based on the extreme learningmachine，Analytical Methods，2016，8(23)：4674-4679)。与梯度下降法寻优方式不同的是，极限学习机可以随机产生输入权重和隐含层阈值且不需要参数调整(Chen，Wo-Ruo；Bin，Jun；Lu，Hong-Mei；Zhang，Zhi-Min；Liang，Yi-Zeng，Calibration transfer via anextreme learning machine auto-encoder，Analyst，2016，141(6)：1973-1980)，且该方法在保证泛化性能的同时，极大地提高了学习速度、减少了优化参数的数目。然而由于极限学习机的输入权重和隐含层阈值是随机设置的，使得模型的运行结果具有不稳定性。另一方面，由于极限学习机的输出权重是一个最小二乘解，而最小二乘算法对奇异样本比较敏感。而实际复杂样品光谱数据中奇异样本的存在往往不可避免，因此，极限学习机算法对复杂样品进行分析时存在稳健性差的问题。

集成建模方法，如bagging和boosting等，是提高单一建模方法稳定性和精确度的最佳途径。目前已经提出了bagging极限学习机算法(He，Yan-Lin；Geng，Zhi-Qiang；Zhu，Qun-Xiong，Soft sensor development for the key variables of complex chemicalprocesses using a novel robust bagging nonlinear model integrating improvedextreme learning machine with partial least square，Chemometrics andIntelligent Laboratory Systems，2016，151：78-88)，来提高单一极限学习机建模方法的稳定性。但是boosting与极限学习机相结合的算法研究较少。另一方面，为了降低奇异样本对极限学习机模型的影响，也已经提出了稳健极限学习机的算法(Zhang，Kai；Luo，Min-Xia，Outlier-robust extreme learning machine for regression problems，Neurocomputing，2015，151：1519-1527)。但是如何同时提高极限学习机的稳健性和稳定性还没有得到解决。

研究表明，boosting的集成建模效果比bagging略好。Boosting算法是源于机器学习，通过一系列粗糙的、不准确的子模型获得一个精确结果的预测方法。该方法根据样本取样权重的分布，从训练集中选取一定的样本作为训练子集建立子模型。初始时对训练集中所有样品赋予相等的取样权重，以后的迭代过程中预测误差大的样本给予大的取样权重。这种赋权方法会导致在迭代过程中奇异样本总是被选取到训练集中，从而降低甚至破坏模型的性能。近年来，一个稳健版本的boosting被提出，并用于提高偏最小二乘(Shao，Xue-Guang；Bian，Xi-Hui；Cai，Wen-Sheng，An improved boosting partial least squaresmethod for near-infrared spectroscopic quantitative analysis，AnalyticaChimica Acta，2010，666(1-2)：32-37)以及回归树(Jiao，Jian；Tan，Shi-Miao；Luo，Rui-Ming；Zhou，Yan-Ping.A Robust boosting regression tree with applications inquantitative structure-activity relationship studies of organic compounds，Journal of Chemical Information and Modeling，2011，51(4)：816-828.)等基础建模方法的预测精度及稳健性。与普通的boosting相比，稳健boosting是在更新权重之前引入一个稳健步骤，该稳健步骤通过对预测误差特别大的样本的取样权重设置为零来避免这些样本被取到训练子集中，从而提高boosting的稳健性。

本发明结合极限学习机及稳健boosting方法的优势，提出了一种稳健的boosting极限学习机集成建模方法，并用于复杂样品定量分析，既保留了极限学习机学习速度快，泛化性能强等优势，又提高了极限学习机的稳定性和稳健性。

发明内容

本发明的目的是针对上述存在的问题，将boosting算法与极限学习机(ELM)相结合，同时加入一个稳健步骤，建立一种稳健的boosting极限学习机集成建模方法(流程如图1所示)，以提高模型的预测精度、稳健性及稳定性，具体步骤为：

1)收集一定数目的样本，采集样本的光谱数据，测定被测组分的含量。将数据集划分为训练集和预测集；

2)对训练集中所有样本i(i＝1，2，......，m)赋予相等的取样权重w_i，1；

3)根据样本的取样权重按照概率取样选取一定数目的样本作为一个训练子集；

4)确定极限学习机最佳隐含层节点数和激励函数，用训练子集的样品建立极限学习机子模型，用这个子模型预测训练集中所有样本，得到预测浓度；

5)计算训练集中每个样本i已知浓度与预测浓度的误差的绝对值e_i，t，其中t为迭代次数；

6)加入一个稳健步骤来改善样本的取样权重，对于预测误差绝对值特别大的样本，将其预测误差设置为0，即

7)根据误差依次计算损失函数L_i，t、平均损失函数和模型的自信率β_t；

8)根据公式

计算每个样本新的取样权重，并归一化，保证

重复步骤(3)～(8)多次，得到T个子模型；

9)对于未知样本，对T个子模型的预测结果，通过权重中位值法得到最终预测结果，且权重中位值公式为：

其中r为将T个预测值进行升序排列的第r个预测值。

本发明中，极限学习机参数优化的方法：定义一个模型性能的评价参数相关系数平均值与方差的比值(MSR)，如果多次运行所得相关系数的均值越大(代表精确度好)，方差越小(代表稳定性好)，那么MSR就越大，模型性能越佳。因此，通过观察MSR随着隐含层节点数以及激励函数的变化来确定最佳参数，其中MSR最大值对应的隐含层节点数及激励函数为最佳参数。

本发明中，子模型个数即迭代次数T的确定方法：固定每个数据集的训练子集样本数为总样本数的50％，给定一个足够大的子模型数目，计算1～T个子模型boosting ELM集成建模的交叉验证均方根误差(RMSECV)。根据RMSECV随着子模型个数的变化，RMSECV值几乎不变(趋于稳定)时对应子模型个数即为所需建立的子模型个数T。

本发明中，训练子集样本百分数的确定方法：子模型数为T、固定稳健中位值倍数为某个值，分别从训练集中选取其样本总数的5％～100％作为训练子集，间隔5％，建立boosting ELM，并观察RMSEP随着训练子集样本百分数的变化，RMSEP最小值对应的训练子集百分数最佳。

本发明中，稳健中位值倍数的选择方法：子模型数为T、采用最佳训练子集样本百分数，把中位值倍数从1～8依次改变，间隔0.5建模一次，并观察RMSEP随着中位值倍数的变化，RMSEP最小值对应的倍数为最佳值。

本发明的优点是：该建模方法结合了集成建模技术boosting和极限学习机的优势，同时对奇异样本具有很好的稳健性，提高了极限学习机算法的预测精度与稳定性，为复杂样品多元校正分析提供了一种新的建模方法。本发明方法可广泛应用于石油、烟草、食品、中药等领域的复杂物质定量分析。

附图说明

图1是boosting极限学习机原理图

图2是小麦近红外数据的极限学习机参数优化图

图3是小麦近红外数据预测均方根误差值随着训练集百分数变化图

图4是小麦近红外数据预测均方根误差值随着中位值倍数变化图

图5是燃油近红外数据的极限学习机参数优化图

图6是燃油近红外数据预测均方根误差值随着训练集百分数变化图

图7是燃油样本数据预测均方根误差值随着中位值倍数变化图

图8是轻汽油和柴油燃料紫外数据的极限学习机参数优化图

图9是轻汽油和柴油燃料紫外数据预测均方根误差值随着训练集百分数变化图

图10是轻汽油和柴油燃料紫外数据预测均方根误差值随着中位值倍数变化图

具体实施方式

为更好地理解本发明，下面结合实施例对本发明做进一步地详细说明，但是本发明要求保护的范围并不局限于实施例所表示的范围。

实施例1：

本实施例是应用于可见-近红外光谱分析，对小麦样本中蛋白质含量值进行研究(该数据中含有2个奇异样本)。具体的步骤如下：

1)收集884个加拿大的小麦样本，采集这些样本的可见-近红外外光谱数据，波长范围为400-2498nm，采样间隔为2nm，包含1050个波长点，光谱采用Foss Model 6500近红外光谱仪测定，下载网址：http://www.idrc-chambersburg.org/shootout2008.html。该数据中第680和681号样本为奇异样本，采用网站上对数据集的划分的描述，778个样本用作训练集，107个样本用作预测集。

2)将训练集中所有样本i(i＝1，2，......，778)赋予相等的取样权重w_i，1。

3)根据样本的取样权重选取按照概率取样选取一定数目的样本作为一个训练子集。

4)确定极限学习机最佳隐含层节点数和激励函数，用训练子集的样本建立极限学习机子模型，用这个子模型预测训练集中所有样本，得到预测浓度。

5)计算训练集中每个样本i已知浓度与预测浓度的误差的绝对值e_i，t，其中t为迭代次数。

7)根据误差依次计算损失函数L_i，t、平均损失函数模型的自信率β_t。

8)根据公式

计算每个样本新的取样权重，并归一化，保证

重复步骤(3)～(8)多次，得到T个子模型。

9)对于未知样本，对T个子模型的预测结果，通过权重中位值法得到最终预测结果。且权重中位值公式为：

其中r为将T个预测值进行升序排列的第r个预测值。

极限学习机参数优化的方法：定义一个模型性能的评价参数相关系数平均值与方差的比值(MSR)，如果多次运行所得相关系数的均值越大(代表精确度好)，方差越小(代表稳定性好)，那么MSR就越大，模型性能越佳。该实施例中MSR随着隐层节点数及激励函数的变化如图2所示，当MSR最大时对应的隐含层节点数及激励函数分别为95和S型函数。

子模型个数即迭代次数的确定方法：固定每个数据集的训练子集样本数为总样本数的50％，给定500个子模型数目值，计算每个子模型boosting ELM集成建模的交叉验证均方根误差(RMSECV)，并观察RMSECV随着子模型个数的变化，当RMSECV值几乎不变(趋于稳定)时对应子模型个数500，即为所需建立的子模型个数。

训练子集样本百分数的确定方法：子模型数为500、固定稳健中位值倍数为6，分别从训练集中选取其样本总数的5％～100％作为训练子集，间隔5％，建立boosting ELM，并观察RMSEP随着训练子集样本百分数的变化，RMSEP最小值对应的训练子集百分数最佳。该实施例中RMSEP值随着训练子集样本百分数的变化如图3所示，随着训练集百分数的增加，RMSEP先快速下降，当训练集百分数大于20％后又逐渐上升，故训练子集样本百分数为20％时为最佳值。

稳健中位值倍数的选择方法：子模型数为500、采用最佳训练子集样本百分数20％，把中位值倍数从1～8依次改变，间隔0.5建模一次，并观察RMSEP随着中位值倍数的变化，RMSEP最小值对应的倍数为最佳值。该实施例中RMSEP值随中位值倍数的变化如图4所示，当RMSEP最小时对应的中位值倍数5.5为最佳值。

利用模型对蛋白质含量未知的预测集样本进行浓度测定，并与不加稳健步骤的boosting ELM、ELM和PLS方法比较。结果表明，利用传统PLS建模，其预测均方根误差RMSEP为0.7476；利用ELM建模，其预测均方根误差RMSEP为0.6760，标准偏差为0.0830；利用没有稳健步骤的boosting ELM建模，其预测均方根误差RMSEP为0.6965，标准偏差为0.0625；利用加稳健步骤的boosting ELM建模，其预测均方根误差RMSEP为0.4366，标准偏差为0.0105。通过比较可以得出，基于ELM方法的模型的预测精度要优于PLS；基于boosting集成的ELM方法稳定性要明显优于ELM方法；该数据中存在奇异样本，稳健步骤的加入可以极大地提高boosting ELM模型的稳健性、稳定性及预测精度。

实施例2：

本实施例是应用于近红外光谱分析，对柴油机燃料样本中的总芳香烃含量进行测定(该数据中不含奇异样本)。具体的步骤如下：

1)收集263个燃油样本，采集这些样本的近红外光谱数据，波长范围为750-1550nm，包括401个波长点，根据美国测试和材料协会(American Society of Testing andMaterials，ASTM)的标准分别测定，下载网址：http://www.eigenvector.com/Data/SWRI。该数据中无奇异样本，采用网站上对数据集划分的描述，142个样本用作训练集，121个样本用作预测集。

2)将训练集中所有样本i(i＝1，2，......，142)赋予相等的取样权重w_i，1。

8)根据公式

计算每个样本新的取样权重，并归一化，保证

重复步骤(3)～(8)多次，得到T个子模型。

其中r为将T个预测值进行升序排列的第r个预测值。

极限学习机参数优化的方法：定义一个模型性能的评价参数相关系数平均值与方差的比值(MSR)，如果多次运行所得相关系数的均值越大(代表精确度好)，方差越小(代表稳定性好)，那么MSR就越大，模型性能越佳。该实施例中MSR随着隐层节点数及激励函数的变化如图5所示，当MSR最大时对应的隐含层节点数及激励函数分别为48和正弦函数。

训练子集样本百分数的确定方法：子模型数为500、固定稳健中位值倍数为6，分别从训练集中选取其样本总数的5％～100％作为训练子集，间隔5％，建立boosting ELM，并观察RMSEP随着训练子集样本百分数的变化，RMSEP最小值对应的训练子集百分数最佳。该实施例中RMSEP值随着训练子集样本百分数的变化如图6所示，当训练集百分数小于15％时，随着训练集百分数的增加，RMSEP迅速减小，当训练集百分数在15-50％时，RMSEP基本保持不变，当训练集百分数大于50％后，RMSEP缓慢减小后又保持平稳，故训练子集样本百分数为80％时为最佳值。

稳健中位值倍数的选择方法：子模型数为500、采用最佳训练子集样本百分数80％，把中位值倍数从1～8依次改变，间隔0.5建模一次，并观察RMSEP随着中位值倍数的变化，RMSEP最小值对应的倍数为最佳值。该实施例中RMSEP值随中位值倍数的变化如图7所示，当RMSEP最小时对应的中位值倍数5.5为最佳值。

利用模型对总芳香烃含量未知的预测集样本进行浓度测定，并与不加稳健步骤的boosting ELM、ELM和PLS方法比较。结果表明，利用传统PLS建模，其预测均方根误差RMSEP为0.7032；利用ELM建模，其预测均方根误差RMSEP为0.6226，标准偏差为0.0485；利用没有稳健步骤的boosting ELM建模，其预测均方根误差RMSEP为0.5185，标准偏差为0.0064；利用加稳健步骤的boosting ELM建模，其预测均方根误差RMSEP为0.5176，标准偏差为0.0062。通过比较可以得出，基于ELM方法的模型的预测精度要优于PLS；基于boosting集成的ELM方法的预测精度及稳定性要明显优于ELM方法；该数据中不存在奇异样本，有稳健步骤与没有稳健步骤加入的boosting ELM的预测效果相当。

实施例3：

本实施例是应用于紫外光谱分析，对轻汽油和柴油燃料中的单环芳香烃含量进行测定(该数据中含有1个奇异样本)。具体的步骤如下：

1)收集115个轻汽油和柴油燃料样本，采集这些样本的紫外光谱数据，波长范围为200-400nm，采样间隔为0.35nm，包含572个波长点，光谱采用Cary 3 UV-visible分光光度计(Varian Instruments，San Fernando，Calif.)测定。单环芳香族化合物含量采用HPG1205A超临界流体色谱进行测定，下载网址：http://myweb.dal.ca/pdwentze/downloads.html。该数据中第115号样本为奇异样本，采用网站上对数据集划分的描述，前70个样本用作训练集，后44个样本用作预测集。

2)将训练集中所有样本i(i＝1，2，......，70)赋予相等的取样权重w_i，1。

8)根据公式

计算每个样本新的取样权重，并归一化，保证

重复步骤(3)～(8)多次，得到T个子模型。

其中r为将T个预测值进行升序排列的第r个预测值。

极限学习机参数优化的方法：定义一个模型性能的评价参数相关系数平均值与方差的比值(MSR)，如果多次运行所得相关系数的均值越大(代表精确度好)，方差越小(代表稳定性好)，那么MSR就越大，模型性能越佳。该实施例中MSR随着隐层节点数及激励函数的变化如图8所示，当MSR最大时对应的隐含层节点数及激励函数分别为9和S型函数。

训练子集样本百分数的确定方法：子模型数为500、固定稳健中位值倍数为6，分别从训练集中选取其样本总数的5％～100％作为训练子集，间隔5％，建立boosting ELM，并观察RMSEP随着训练子集样本百分数的变化，RMSEP最小值对应的训练子集百分数最佳。该实施例中RMSEP值随着训练子集样本百分数的变化如图9所示，训练集百分数小于20％时，随着训练集百分数的增加，RMSEP迅速减小，但当训练集百分数大于20％之后略有增加但基本保持不变。故当样本百分数为20％时为最佳值。

稳健中位值倍数的选择方法：子模型数为500、采用最佳训练子集样本百分数20％，把中位值倍数从1～8依次改变，间隔0.5建模一次，并观察RMSEP随着中位值倍数的变化，RMSEP最小值对应的倍数为最佳值。该实施例中RMSEP值随中位值倍数的变化如图10所示，当RMSEP最小时对应的中位值倍数6.5为最佳值。

利用模型对单环芳香烃含量未知的预测集样本进行浓度测定，并与不加稳健步骤的boosting ELM、ELM和PLS方法比较。结果表明，利用传统PLS建模，其预测均方根误差RMSEP为0.8708；利用ELM建模，其预测均方根误差RMSEP为0.8249，标准偏差为0.1073；利用没有稳健步骤的boosting ELM建模，其预测均方根误差RMSEP为0.6689，标准偏差为0.0199；利用加稳健步骤的boosting ELM建模，其预测均方根误差RMSEP为0.6126，标准偏差为0.0146。通过比较可以得出，基于ELM方法的模型的预测精度要优于PLS；基于boosting集成的ELM方法稳定性要明显优于ELM方法；该数据中存在奇异样本，稳健步骤的加入可以提高boosting ELM模型的预测精度及稳定性。

Claims

1.一种稳健的boosting极限学习机集成建模方法，其特征在于具体步骤为：

(1)采集被测样本的光谱数据，测定样本被测成分的含量，将样本划分为训练集和预测集；

(2)对训练集中所有样本i赋予相等的取样权重，i的取值范围为1～m，其中m为训练集中样本总数目；

(3)根据样本的取样权重按照概率取样选取一定数目的样本作为一个训练子集；

(4)确定极限学习机最佳隐含层节点数和激励函数，用训练子集的样本建立极限学习机子模型，用这个子模型预测训练集中所有样本，得到预测浓度；

(5)计算训练集中每个样本已知浓度与预测浓度的误差的绝对值e_i，t，其中t为迭代次数；

(6)加入一个稳健步骤来改善样本的取样权重，对于预测误差绝对值特别大的样本，将其预测误差设置为0；

(7)根据误差依次计算损失函数L_i，t、平均损失函数和模型的自信率β_t；

(8)计算每个样本新的取样权重w_i，t+1，并归一化，保证

重复步骤(3)～(8)多次，得到T个子模型；

(9)对于未知样本，对T个子模型的预测结果，通过权重中位值法得到最终预测结果；

所述子模型个数即迭代次数T的确定方法是：固定每个数据集的训练子集样本数为总样本数的50％，给定一个足够大的子模型数目，计算1～T个子模型boosting ELM集成建模的RMSECV；根据RMSECV随着子模型个数的变化，RMSECV值趋于稳定时对应子模型个数即为所需建立的子模型个数T；

训练子集样本百分数的确定方法是：子模型数为T、固定稳健中位值倍数为某个值，分别从训练集中选取其样本总数的5％～100％作为训练子集，间隔5％，建立boosting ELM，并观察RMSEP随着训练子集样本百分数的变化，RMSEP最小值对应的训练子集百分数最佳；

稳健中位值倍数的选择方法是：子模型数为T、采用最佳训练子集样本百分数，把中位值倍数从1～8依次改变，间隔0.5建模一次，并观察RMSEP随着中位值倍数的变化，RMSEP最小值对应的倍数为最佳值。

2.根据权利要求1所述的稳健的boosting极限学习机集成建模方法，其特征在于：极限学习机参数优化方法如下：定义一个模型性能的评价参数相关系数平均值与方差的比值(MSR)，如果多次运行所得相关系数的均值越大，代表精确度好，方差越小，代表稳定性好，那么MSR就越大，模型性能越佳；因此，通过观察MSR随着隐含层节点数以及激励函数的变化来确定最佳参数，MSR最大值对应的隐含层节点数及激励函数为最佳参数。