CN106644977A - 一种基于蝙蝠算法的光谱变量选择方法 - Google Patents
一种基于蝙蝠算法的光谱变量选择方法 Download PDFInfo
- Publication number
- CN106644977A CN106644977A CN201610898744.9A CN201610898744A CN106644977A CN 106644977 A CN106644977 A CN 106644977A CN 201610898744 A CN201610898744 A CN 201610898744A CN 106644977 A CN106644977 A CN 106644977A
- Authority
- CN
- China
- Prior art keywords
- bat
- loudness
- iterations
- frequency
- optimized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 40
- 230000003595 spectral effect Effects 0.000 title claims abstract description 14
- 238000010187 selection method Methods 0.000 title abstract 4
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000001228 spectrum Methods 0.000 claims description 14
- 230000000977 initiatory effect Effects 0.000 claims description 7
- 230000004087 circulation Effects 0.000 claims description 6
- 238000007796 conventional method Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000001066 destructive effect Effects 0.000 abstract 1
- 239000003921 oil Substances 0.000 description 13
- 235000019198 oils Nutrition 0.000 description 13
- 238000002329 infrared spectrum Methods 0.000 description 12
- 238000005457 optimization Methods 0.000 description 11
- 241000209140 Triticum Species 0.000 description 9
- 235000021307 Triticum Nutrition 0.000 description 9
- 239000008280 blood Substances 0.000 description 9
- 210000004369 blood Anatomy 0.000 description 9
- 239000002283 diesel fuel Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 4
- 238000004611 spectroscopical analysis Methods 0.000 description 4
- 102000001554 Hemoglobins Human genes 0.000 description 2
- 108010054147 Hemoglobins Proteins 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000003549 soybean oil Substances 0.000 description 2
- 235000012424 soybean oil Nutrition 0.000 description 2
- 238000001237 Raman spectrum Methods 0.000 description 1
- -1 agricultural Substances 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000008159 sesame oil Substances 0.000 description 1
- 235000011803 sesame oil Nutrition 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000002211 ultraviolet spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Theoretical Computer Science (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明属于分析化学领域的无损分析技术,具体为一种基于蝙蝠算法的光谱变量选择方法。本发明的具体步骤为:采用一定的分组方式,将数据集划分为训练集和预测集,然后将训练集的整个光谱范围划分为若干个子区间,并对这些子区间进行编码,然后对蝙蝠个体位置进行离散化,并对蝙蝠的初始化参数进行优化,利用优化好的参数进行变量选择,最后用选择出的变量建立PLS模型。该方法的优势在于可以快速地搜索到全局最优值,能有效地提高模型预测精度。本发明适用于涉及复杂光谱变量选择的领域。
Description
技术领域
本发明属于分析化学领域的无损分析技术,具体涉及一种基于蝙蝠算法的光谱变量选择方法。
背景技术
光谱分析技术如紫外光谱、红外光谱、拉曼光谱、近红外光谱等具有分析速度快、灵敏度高等优势,已广泛地应用于石油、农业、医药、化工、环境和生物等许多领域。但是复杂样品的光谱存在噪声、背景以及信号重叠等问题,因此须借助于化学计量学方法才能进行定性定量分析。常规的建模方法是对所有的光谱数据都进行建模,但是光谱数据一般存在成百上千的变量,且并不是所有变量都能提供有用信息,故而会影响预测模型的质量,导致其预测能力下降,因此,需要在建模之前进行变量选择。
传统的变量选择方法主要包括基于智能优化算法的方法以及基于统计学的方法。前者主要有模拟退火算法、遗传算法、蚁群算法、粒子群算法、人工鱼群算法等,尽管模拟退火算法和遗传算法具有相当强的搜索能力,但它们也存在需要大量参数、较长搜索时间以及容易陷入局部最优等缺陷。后者主要有无信息变量消除法(Uninformative VariableElimination,UVE)、蒙特卡罗-无信息变量消除法(Monte Carlo-Uninformative VariableElimination,MC-UVE)、随机检验-偏最小二乘法(Randomization Test-Partial LeastSquare,RT-PLS)等。无信息变量消除法采用留一法交叉验证来获取变量稳定性值,该过程除需多次反复运算外,还需引入与原始光谱所包含变量数目相等的随机噪声变量,所以当数据集数目较大时,该方法存在计算效率低,耗时长等缺点。因此,还需要进一步发展高效准确的变量选择方法。
蝙蝠算法(BA)是剑桥大学Xin-she Yang教授于2010年提出的元启发式优化算法,其具有理论方法简单、设置参数少、编码实现易的特点,算法通过模拟蝙蝠的觅食以及回声定位行为,改变频率、响度和脉冲发射率,进行最佳解的搜索,直到目标达到或停止条件得到满足。蝙蝠算法在工业上常用于连续优化问题,然光谱数据都是离散的数据点,因而传统连续优化的蝙蝠算法无法直接应用于光谱变量选择。本发明对蝙蝠算法进行离散化,并应用于光谱数据的变量选择,用偏最小二乘回归(PLS)建立模型,从而提出了一种基于蝙蝠算法的光谱变量选择方法。既简化了模型,又提高了模型的预测精度。
发明内容
本发明的目的是针对上述存在的问题,对蝙蝠算法进行离散化,并应用于光谱数据的变量选择,用PLS对所选择的变量建立模型,从而达到简化模型及改善模型预测能力的目的。
为实现本发明所提供的技术方案包括以下步骤:
1)采集一定数目样品的光谱,用常规方法测定样品中被测成分的含量;采用一定的分组方式,将数据集划分为训练集和预测集。
2)将训练集的整个光谱范围划分为若干个子区间,蝙蝠个体用一串二进制码表示,对应子区间的选择与否用“1”与“0”表示。
3)利用公式(1)和(2)将蝙蝠个体位置进行离散化。
其中,t表示迭代次数,k表示维数,vi表示速度,xi表示蝙蝠的位置。
4)对蝙蝠算法的初始化参数进行优化,依次优化迭代次数、响度以及脉冲频率、蝙蝠数目。
首先对迭代次数进行优化。固定蝙蝠数目、响度和频度,迭代次数从1变化到500,间隔为10,计算不同迭代次数下的预测均方根误差。预测均方根误差最小值对应的迭代次数为最佳迭代次数。
其次对响度和频度进行优化。迭代次数采用最佳值,蝙蝠数目固定为某个值,响度和频度分别从0.1变化到0.9,间隔为0.1,采用两个循环,计算不同响度和频度下的预测均方根误差。预测均方根误差最小值对应的响度和频度为最佳响度和频度。
最后对蝙蝠数目进行优化。迭代次数、响度、频度采用最佳值,蝙蝠数目从10变化到40,间隔为5,计算不同蝙蝠数目下的预测均方根误差。预测均方根误差最小值对应的蝙蝠数目为最佳蝙蝠数目。
5)利用优化好的参数,采用蝙蝠算法进行变量区间选择,输出最佳的光谱子区间组合。
6)利用所选择的变量区间,建立PLS模型,将预测集中相应的被选择的变量区间代入PLS模型中,进行预测。
本发明提出的Bat-PLS方法既简化了模型,又有效地改善了模型的预测能力,进而提高了模型的预测精度。
附图说明
图1是柴油近红外数据的光谱图
图2是柴油近红外数据的预测均方根误差随迭代次数变化图
图3是柴油近红外数据的蝙蝠数目优化图
图4是柴油近红外数据蝙蝠算法变量选择方法保留的波长点分布图
图5是小麦近红外数据的光谱图
图6是小麦近红外数据的预测均方根误差随迭代次数变化图
图7是小麦近红外数据的蝙蝠数目优化图
图8是小麦近红外数据蝙蝠算法变量选择方法保留的波长点分布图
图9是血液近红外数据的光谱图
图10是血液近红外数据的预测均方根误差随迭代次数变化图
图11是血液近红外数据的蝙蝠数目优化图
图12是血液近红外数据蝙蝠算法变量选择方法保留的波长点分布图
图13是三元调和油近红外数据的光谱图
图14是三元调和油近红外数据的预测均方根误差随迭代次数变化图
图15是三元调和油近红外数据的蝙蝠数目优化图
图16是三元调和油近红外数据蝙蝠算法变量选择方法保留的波长点分布图
具体实施方式
为更好地理解本发明,下面结合实施例对本发明做进一步地详细说明,但是本发明要求保护的范围并不局限于实施例所表示的范围。
实施例1:
本实施例应用于近红外光谱分析,对柴油密度进行测定。具体步骤如下:
1)采集263个柴油密度的近红外光谱数据,波长范围为750-1550nm,包括401个波长点,采用网站(http://www.eigenvector.com/Data/SWRI)上对数据集的划分,将142个样品用作训练集,剩余121个样品用作预测集。图1显示了该数据的近红外光谱。
2)将训练集中的401个波长点每10个波长点划分为1个子区间,共分为40个子区间,最后一个点忽略,蝙蝠个体用40个二进制码表示,对应子区间的选择与否用“1”与“0”表示。
3)利用公式(1)和(2)将蝙蝠个体位置进行离散化。
其中,t表示迭代次数,k表示维数,vi表示速度,xi表示蝙蝠的位置。
4)对蝙蝠算法的初始化参数进行优化,依次优化迭代次数、响度以及脉冲频率、蝙蝠数目。
首先对迭代次数进行优化。固定蝙蝠数为30,响度、频度均固定为0.5,迭代次数从1变化到500,间隔为10,计算不同迭代次数下的预测均方根误差。图2显示了预测均方根误差随着迭代次数的变化,从图中可以看出,起初随着迭代次数的增加,预测均方根误差总体是减小的,当迭代次数大于20之后,随着迭代次数的增加,预测均方根误差值趋于平稳,因此,取25为最佳迭代次数。
其次对响度和频度进行优化。迭代次数采用最佳值25,蝙蝠数目固定为30,响度和频度从0.1变化到0.9,间隔为0.1,采用两个循环,计算不同响度和频度下的预测均方根误差。预测均方根误差最小值对应的响度和频度分别为0.3,0.5。因此最佳响度、频度分别为0.3,0.5。
最后对蝙蝠数目进行优化。迭代次数采用最佳值25,响度和频度分别采用最佳值0.3,0.5,蝙蝠数目从10变化到40,间隔为5,计算不同迭代次数下的预测均方根误差。图3是柴油近红外数据的蝙蝠数目优化图,从图中可以看出,预测均方根误差最小值对应的蝙蝠数目为20。因此最佳蝙蝠数目为20。
5)利用优化好的参数:最佳迭代次数为25,最佳响度和频度分别为0.3和0.5,最佳蝙蝠数目为20。采用蝙蝠算法进行变量区间选择,输出最佳的光谱子区间组合。
6)利用所选择的变量区间(如图4所示),建立PLS模型,将预测集中相应的被选择的变量区间代入PLS模型中,进行预测。
表1显示了柴油近红外数据采用不同建模方法的预测结果。从表中可以看出,仅由PLS单一建模的预测均方根误差值最高,UVE-PLS、MC-UVE-PLS以及RT-PLS算法优化结果相差不大,Bat-PLS预测均方根误差值最小,相关系数最大。因此,蝙蝠算法变量选择要优于其他变量选择方法。
表1 柴油近红外数据采用不同建模方法的预测结果
实施例2:
本实施例应用于近红外光谱分析,对小麦组分含量进行测定。具体步骤如下:
1)采集231个小麦样品的近红外光谱数据,波长范围400-2498nm,采样间隔为2nm,共1050个波长点,根据网上(http//www.graincanada.gc.ca/Quality/Wheat/classes-e.htmo)对数据集的划分,775个样品用作训练集,剩余107个样品用作预测集。图5显示了该数据的近红外光谱图。
2)将训练集中的1050个波长点按每10个波长点划分为1个子区间,共分为105个子区间,蝙蝠个体用105个二进制码表示,对应子区间的选择与否用“1”与“0”表示。
3)利用公式(1)和(2)将蝙蝠个体位置进行离散化。
其中,t表示迭代次数,k表示维数,vi表示速度,xi表示蝙蝠的位置。
4)对蝙蝠算法的初始化参数进行优化,依次优化迭代次数、响度以及脉冲频率、蝙蝠数目。
首先对迭代次数进行优化。固定蝙蝠数为30,响度、频度均固定为0.5,迭代次数从1变化到500,间隔为10,计算不同迭代次数下的预测均方根误差。图6显示了预测均方根误差随着迭代次数的变化,从图中可以看出,随着迭代次数的增加,预测均方根误差值是不断减小的,但是由于迭代次数的限制,当迭代次数为500的时候仍然没有达到最小值,又由于实验设备的限制,取500为最佳迭代次数。
其次对响度和频度进行优化。迭代次数采用最佳值500,蝙蝠数目固定为30,响度和频度从0.1变化到0.9,间隔为0.1,采用两个循环,计算不同响度和频度下的预测均方根误差。预测均方根误差最小值对应的响度和频度分别为0.3,0.4。因此最佳响度、频度分别为0.3,0.4。
最后对蝙蝠数目进行优化。迭代次数采用最佳值500,响度和频度分别采用最佳值0.3,0.4,蝙蝠数目从10变化到40,间隔为5,计算不同迭代次数下的预测均方根误差。图7是近红外数据的蝙蝠数目优化图,从图中可以看出,预测均方根误差最小值对应的蝙蝠数目为15。因此最佳蝙蝠数目为15。
5)利用优化好的参数:最佳迭代次数为500,最佳响度和频度分别为0.3和0.4,最佳蝙蝠数目为15。采用蝙蝠算法进行变量区间选择,输出最佳的光谱子区间组合。
6)利用所选择的变量区间(如图8所示),建立PLS模型,将预测集中相应的被选择的变量区间代入PLS模型中,进行预测。
表2显示了小麦近红外数据的采用不同建模方法的预测结果。从表中可以看出,仅由PLS单一建模的效果最差,UVE-PLS、MC-UVE-PLS以及RT-PLS算法相较于PLS的优化结果好了一倍,这三种方法中,RT-PLS建模的效果相对来说差点,但Bat-PLS预测均方根误差值最小,相关系数最大。因此,蝙蝠算法变量选择要优于其他变量选择方法。
表2 小麦近红外数据的采用不同建模方法的预测结果
实施例3:
本实施例应用于近红外光谱分析,对血液中血红蛋白含量进行测定。具体步骤如下:
1)采集231个血液中血红蛋白含量的近红外光谱数据,波长范围1100-2498nm,采样间隔为2nm,包括701个波长点,光谱采用NIR systems spectrometer model 6500光谱仪测定,根据网站(http://www.idrc-chambersburg.org/shootout2010.html)上对数据集的划分,将143个样品用作训练集,剩余47个样品用作预测集。图9显示了该数据的近红外光谱图。
2)将训练集中的701个波长点按每10个波长点划分为1个子区间,共分为70个子区间,最后一个点忽略,蝙蝠个体用70个二进制码表示,对应子区间的选择与否用“1”与“0”表示。
3)利用公式(1)和(2)将蝙蝠个体位置进行离散化。
其中,t表示迭代次数,k表示维数,vi表示速度,xi表示蝙蝠的位置。
4)对蝙蝠算法的初始化参数进行优化,依次优化迭代次数、响度以及脉冲频率、蝙蝠数目。
首先对迭代次数进行优化。固定蝙蝠数为30,响度、频度均固定为0.5,迭代次数从1变化到500,间隔为10,计算不同迭代次数下的预测均方根误差。图10显示了预测均方根误差随着迭代次数的变化,从图中可以看出,随着迭代次数的增加,预测均方根误差是阶段性减小的,当迭代次数为170左右时,预测均方根误差值趋于平稳,因此,取170为最佳迭代次数。
其次对响度和频度进行优化。迭代次数采用最佳值170,固定蝙蝠数目为30,响度和频度从0.1变化到0.9,间隔为0.1,采用两个循环,计算不同响度和频度下的预测均方根误差。预测均方根误差最小值对应的响度和频度分别为0.4,0.1。因此最佳响度、频度分别为0.4,0.1。
最后对蝙蝠数目进行优化。迭代次数采用最佳值170,响度和频度分别采用最佳值0.4,0.1,蝙蝠数目从10变化到40,间隔为5,计算不同迭代次数下的预测均方根误差。图11是血液近红外数据的蝙蝠数目优化图,从图中可以看出,预测均方根误差最小值对应的蝙蝠数目为25。因此最佳蝙蝠数目为25。
5)利用优化好的参数:最佳迭代次数为170,最佳响度和频度分别为0.4和0.1,最佳蝙蝠数目为25。采用蝙蝠算法进行变量区间选择,输出最佳的光谱子区间组合。
6)利用所选择的变量区间(如图12所示),建立PLS模型,将预测集中相应的被选择的变量区间代入PLS模型中,进行预测。
表3显示了血液近红外数据采用不同建模方法的预测结果。从表中可以看出,UVE+PLS方法所得的预测均方根误差值最大,PLS、MC-UVE+PLS以及RT+PLS算法的预测均方根误差值稍小一点,Bat-PLS预测均方根误差值最小,相关系数最大。因此,蝙蝠算法变量选择要优于其他变量选择方法。
表3 血液近红外数据采用不同建模方法的预测结果
实施例4:
本实施例应用于近红外光谱分析,对三元调和油组分含量进行测定。具体的步骤如下:
1)配置含有大豆油、香油与稻米油的三元调和油样品50个,其中稻米油、大豆油的浓度范围为0.05~2.5,间隔为0.05。使用近红外分光光度计(TJ270-60,天津市拓普仪器有限公司)进行NIR数据测量,波长范围为800~2500nm,采样间隔为1nm,共1701个波长点。采用KS方法对数据集进行划分,将33个样品用作训练集,剩余17个样品用作预测集。图13显示了三元调和油近红外数据的光谱图。
2)将训练集中的1701个波长点按每10个波长点划分为1个子区间,共分为170个子区间,最后一个点忽略,蝙蝠个体用170个二进制码表示,对应子区间的选择与否用“1”与“0”表示。
3)利用公式(1)和(2)将蝙蝠个体位置进行离散化。
其中,t表示迭代次数,k表示维数,v1表示速度,x1表示蝙蝠的位置。
4)对蝙蝠算法的初始化参数进行优化,依次优化迭代次数、响度以及脉冲频率、蝙蝠数目。
首先对迭代次数进行优化。固定蝙蝠数为30,响度、频度均固定为0.5,迭代次数从1变化到500,间隔为10,计算不同迭代次数下的预测均方根误差。图14显示了预测均方根误差随着迭代次数的变化,从图中可以看出,随着迭代次数的增加,预测均方根误差是不断减小的,迭代次数将近500时达到最小值,由于实验设备的限制,因此取500为最优迭代次数。
其次对响度和频度进行优化。迭代次数采用最佳值500,固定蝙蝠数目为30,响度和频度从0.1变化到0.9,间隔为0.1,采用两个循环,计算不同响度和频度下的预测均方根误差。预测均方根误差最小值对应的响度和频度分别为0.2,0.3。因此最佳响度、频度分别为0.2,0.3。
最后对蝙蝠数目进行优化。迭代次数采用最佳值500,响度和频度分别采用最佳值0.2,0.3,蝙蝠数目从10变化到40,间隔为5,计算不同迭代次数下的预测均方根误差。图15是三元调和油近红外数据的蝙蝠数目优化图,从图中可以看出,预测均方根误差最小值对应的蝙蝠数目为30。因此最佳蝙蝠数目为30。
5)利用优化好的参数:最佳迭代次数为500,最佳响度和频度分别为0.2和0.3,最佳蝙蝠数目为30。采用蝙蝠算法进行变量区间选择,输出最佳的光谱子区间组合。
6)利用所选择的变量区间(如图16所示),建立PLS模型,将预测集被选择的相应变量区间代入PLS模型中,进行预测。
表4显示了三元调和油近红外数据采用不同建模方法的预测结果。从表4可以看出,除了Bat-PLS算法所得的预测均方根误差值明显小一些,PLS、UVE-PLS、MC-UVE-PLS以及RT-PLS算法所得预测均方根误差值相差并不太大。因此,蝙蝠算法变量选择要优于其他变量选择方法。
表4 三元调和油近红外数据采用不同建模方法的预测结果
Claims (3)
1.一种基于蝙蝠算法的光谱变量选择方法,其特征在于其具体步骤为:
1)采集一定数目样品的光谱,用常规方法测定样品被测成分的含量,采用一定的分组方式,将数据集划分为训练集和预测集;
2)将训练集的整个光谱范围划分为若干个子区间,蝙蝠个体用一串二进制码表示,对应子区间的选择与否用“1”与“0”表示;
3)利用公式(1)和(2)将蝙蝠个体位置进行离散化;
4)对蝙蝠算法的初始化参数进行优化,依次优化迭代次数、响度以及脉冲频率、蝙蝠数目;
5)利用优化好的参数,采用蝙蝠算法进行变量区间选择,输出最佳的光谱子区间组合;
6)利用所选择的变量区间,建立PLS模型,将预测集中相应的被选择的变量区间代入PLS模型中,进行预测。
2.根据权利要求1所述的基于蝙蝠算法的光谱变量选择方法,其特征在于:对蝙蝠算法的初始化参数进行优化时,具体步骤为:
首先对迭代次数进行优化:固定蝙蝠数目,响度和频度,迭代次数从1变化到500,间隔为10,计算不同迭代次数下的预测均方根误差,预测均方根最小值对应的迭代次数为最佳迭代次数;
其次对响度和频度进行优化:迭代次数采用最佳值,固定蝙蝠数目,响度和频度分别从0.1变化到0.9,间隔为0.1,采用两个循环,计算不同响度和频度下的预测均方根误差。预测均方根误差最小值对应的响度和频度为最佳响度和频度;
最后对蝙蝠数目进行优化:迭代次数、响度、频度采用最佳值,蝙蝠数目从10变化到40,间隔为5,计算不同蝙蝠数目下的预测均方根误差,预测均方根误差最小值对应的蝙蝠数目为最佳蝙蝠数目。
3.根据权利要求1所述的基于蝙蝠算法的光谱变量选择方法,其特征在于:该变量选择方法主要适用于复杂样品光谱的变量选择。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610898744.9A CN106644977A (zh) | 2016-10-13 | 2016-10-13 | 一种基于蝙蝠算法的光谱变量选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610898744.9A CN106644977A (zh) | 2016-10-13 | 2016-10-13 | 一种基于蝙蝠算法的光谱变量选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106644977A true CN106644977A (zh) | 2017-05-10 |
Family
ID=58855236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610898744.9A Pending CN106644977A (zh) | 2016-10-13 | 2016-10-13 | 一种基于蝙蝠算法的光谱变量选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106644977A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766573A (zh) * | 2017-11-13 | 2018-03-06 | 深圳乐信软件技术有限公司 | 基于数据处理的商品推荐方法、装置、设备和存储介质 |
WO2022156578A1 (zh) * | 2021-01-20 | 2022-07-28 | 睿励科学仪器(上海)有限公司 | 一种用于获取样品参数信息的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447565A (zh) * | 2015-11-19 | 2016-03-30 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于离散蝙蝠算法的片上网络映射方法 |
CN105955032A (zh) * | 2016-06-23 | 2016-09-21 | 上海电机学院 | 基于蝙蝠算法优化极限学习机的逆变器控制方法 |
CN105976298A (zh) * | 2016-06-02 | 2016-09-28 | 广东工业大学 | 一种基于离散蝙蝠算法的物流运输调度方法 |
-
2016
- 2016-10-13 CN CN201610898744.9A patent/CN106644977A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447565A (zh) * | 2015-11-19 | 2016-03-30 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于离散蝙蝠算法的片上网络映射方法 |
CN105976298A (zh) * | 2016-06-02 | 2016-09-28 | 广东工业大学 | 一种基于离散蝙蝠算法的物流运输调度方法 |
CN105955032A (zh) * | 2016-06-23 | 2016-09-21 | 上海电机学院 | 基于蝙蝠算法优化极限学习机的逆变器控制方法 |
Non-Patent Citations (6)
Title |
---|
MIRJALILI S等: "Binary bat algorithm", 《NEURAL COMPUTING AND APPLICATIONS》 * |
RANI, A. SYLVIA SELVA等: "Unsupervised Feature Selection Using Binary Bat Algorithm", 《 2ND INTERNATIONAL CONFERENCE ON ELECTRONICS AND COMMUNICATION SYSTEMS (ICECS)》 * |
张霞等: "基于增强蜂群优化算法的特征选择算法", 《计算机应用》 * |
陆婉珍等: "《当代中国近红外光谱技术-全国第一届近红外光谱学术会议论文集》", 31 October 2006, 中国石化出版社 * |
陈媛媛等: "基于改进蝙蝠算法的红外光谱特征选择", 《红外与激光工程》 * |
陈媛媛等: "思维进化蝙蝠算法及其在混合气体红外光谱特征选择中的应用", 《红外与激光工程》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766573A (zh) * | 2017-11-13 | 2018-03-06 | 深圳乐信软件技术有限公司 | 基于数据处理的商品推荐方法、装置、设备和存储介质 |
CN107766573B (zh) * | 2017-11-13 | 2020-09-15 | 深圳乐信软件技术有限公司 | 基于数据处理的商品推荐方法、装置、设备和存储介质 |
WO2022156578A1 (zh) * | 2021-01-20 | 2022-07-28 | 睿励科学仪器(上海)有限公司 | 一种用于获取样品参数信息的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493287B (zh) | 一种基于深度学习的定量光谱数据分析处理方法 | |
CN104990894B (zh) | 一种基于加权吸光度及相似样本的汽油性质检测方法 | |
CN101430276B (zh) | 光谱分析中波长变量优选的方法 | |
WO2021073541A1 (zh) | 一种基于光谱相似度的校正集和验证集的选择及建模方法 | |
CN110455722A (zh) | 橡胶树叶片磷含量高光谱反演方法和系统 | |
CN105092519B (zh) | 基于增量偏最小二乘法的样品成份测定方法 | |
JP6602818B2 (ja) | 流体クラスのサンプル、特に生物流体のサンプルにおけるnmrスピン系の化学シフト値を予測する方法 | |
CN106529008B (zh) | 一种基于蒙特卡罗及lasso的双集成偏最小二乘建模方法 | |
CN110736707B (zh) | 一种主仪器向从仪器光谱模型传递的光谱检测优化方法 | |
CN109299501A (zh) | 一种基于工作流的振动光谱分析模型优化方法 | |
CN109060771B (zh) | 一种基于光谱不同特征集的共识模型构建方法 | |
Jiang et al. | Qualitative and quantitative analysis in solid-state fermentation of protein feed by FT-NIR spectroscopy integrated with multivariate data analysis | |
CN102128805A (zh) | 果品近红外光谱波长选择和快速定量分析方法及装置 | |
CN116559110A (zh) | 一种基于相关性和高斯曲线拟合的自适应近红外光谱变换方法 | |
CN106644977A (zh) | 一种基于蝙蝠算法的光谱变量选择方法 | |
CN115436407A (zh) | 一种随机森林回归结合主成分分析的元素含量定量分析方法 | |
CN103398971A (zh) | 一种测定柴油十六烷值的化学计量学方法 | |
CN106529680A (zh) | 一种基于经验模态分解的多尺度极限学习机集成建模方法 | |
Fu et al. | An effective method based on multi-model fusion for research octane number prediction | |
CN107356556A (zh) | 一种近红外光谱定量分析的双集成建模方法 | |
CN114354666B (zh) | 基于波长频次选择的土壤重金属光谱特征提取、优化方法 | |
CN103927438B (zh) | 基于连续投影算法的近红外波长变量选择方法 | |
CN114004147B (zh) | 一种土壤湿润状态下同时预测多种土壤属性的方法 | |
CN105092509A (zh) | 一种基于pcr-elm算法的样品成份测定方法 | |
CN115130377A (zh) | 一种boss-sapso优化极限学习机的土壤重金属预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170510 |
|
WD01 | Invention patent application deemed withdrawn after publication |