CN114062306A - 一种近红外光谱数据分段预处理方法 - Google Patents
一种近红外光谱数据分段预处理方法 Download PDFInfo
- Publication number
- CN114062306A CN114062306A CN202111240186.4A CN202111240186A CN114062306A CN 114062306 A CN114062306 A CN 114062306A CN 202111240186 A CN202111240186 A CN 202111240186A CN 114062306 A CN114062306 A CN 114062306A
- Authority
- CN
- China
- Prior art keywords
- individuals
- gene
- preprocessing
- spectrum
- near infrared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000007781 pre-processing Methods 0.000 title claims abstract description 65
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 26
- 230000011218 segmentation Effects 0.000 title claims abstract description 15
- 238000001228 spectrum Methods 0.000 claims abstract description 56
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 108090000623 proteins and genes Proteins 0.000 claims description 40
- 230000003595 spectral effect Effects 0.000 claims description 36
- 238000002203 pretreatment Methods 0.000 claims description 19
- 238000002790 cross-validation Methods 0.000 claims description 16
- 238000010187 selection method Methods 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 10
- 230000002068 genetic effect Effects 0.000 claims description 10
- 238000007689 inspection Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 206010064571 Gene mutation Diseases 0.000 claims description 2
- 238000002759 z-score normalization Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 9
- 240000008042 Zea mays Species 0.000 description 7
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 7
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 7
- 235000005822 corn Nutrition 0.000 description 7
- 241000208125 Nicotiana Species 0.000 description 6
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 6
- 238000004445 quantitative analysis Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010521 absorption reaction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000010238 partial least squares regression Methods 0.000 description 4
- 238000010987 Kennard-Stone algorithm Methods 0.000 description 3
- 238000004497 NIR spectroscopy Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- SNICXCGAKADSCV-JTQLQIEISA-N (-)-Nicotine Chemical compound CN1CCC[C@H]1C1=CC=CN=C1 SNICXCGAKADSCV-JTQLQIEISA-N 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 229960002715 nicotine Drugs 0.000 description 2
- SNICXCGAKADSCV-UHFFFAOYSA-N nicotine Natural products CN1CCCC1C1=CC=CN=C1 SNICXCGAKADSCV-UHFFFAOYSA-N 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 101150098072 20 gene Proteins 0.000 description 1
- 239000004215 Carbon black (E152) Substances 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 239000004480 active ingredient Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000004519 grease Substances 0.000 description 1
- 229930195733 hydrocarbon Natural products 0.000 description 1
- 150000002430 hydrocarbons Chemical class 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010905 molecular spectroscopy Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种光谱数据分段预处理方法,在将整条光谱划分成若干个光谱区间后,通过使用优化算法,去寻找得到每个光谱区间下最适合它自己的预处理方法,各自进行预处理,之后再进行常规的后续化学计量学建模。本发明的近红外光谱数据分段预处理方法可以解决传统方法中,全波段统一采用的预处理方法与不同光谱区域各自最适合的预处理方法不一致的问题,从而大大提高预处理的效果,提高模型的性能。
Description
技术领域
本发明属于光谱数据处理技术领域,尤其涉及一种近红外光谱数据分段预处理方法。
背景技术
近红外光谱(NIR)分析技术是指利用近红外光(即波长在780-2526nm范围内的电磁波)进行分析的技术。它有着分析速度快、低污染、分析样品的用量较少、结果重现性好、样品无需进行预处理、无损检测、实时监测等各种优点,近年来在各个行业得到了广泛应用,例如农业、食品、烟草、石油化工、医药等领域。
近红外光谱作为一种分子光谱技术,记录的主要是样品中各种含氢基团(例如C-H、N-H、O-H、S-H等)振动的倍频和合频吸收,因此它非常适合用于碳氢有机物的相关测量。但是同时,在近红外区域,基团的吸收强度弱,灵敏度较低,且光谱吸收带较宽且不同吸收带重叠严重,因此需要借助化学计量学手段,对光谱进行处理,并建立光谱信息与成分含量或是物质种类间的关系模型,从而实现对样品进行快速、无损检测的目的。
近红外光谱的预处理在模型建立中有着十分重要的作用,通过选择使用合适的预处理方案,可以消除或减小近红外光谱数据中那些影响模型建立的部分负面因素,例如仪器的噪声、光谱的数据漂移等,进而提高所建立模型的预测效果。传统的光谱预处理步骤中,是使用某种预处理算法,对整个光谱波段进行预处理。常见的光谱预处理方法包括,多元散射校正(MSC)、导数光谱(常用一阶导数1D和二阶导数2D)、平滑(常用Savitzky-Golay平滑方法,SGsmooth)、标准正态变量变换(SNV)、正交信号校正(OSC)等。对于光谱仪来说,检测不同波长位置的仪器的物理状况是不一致的,并且对于待测样品来说,对于光谱中的不同位置所包含的有效信息的水平也是不同的。在这样的综合作用下,可能会出现,对于某一段光谱区间最适合的是一种预处理方法(例如MSC),另一段光谱区间最适合的却是另一种方法(例如1D)的情况,此时若对全波段统一使用一种预处理手段,显然就并不合理。
发明内容
本发明的目的是提供一种近红外光谱数据分段预处理方法。
为了实现上述目的,本发明采用的技术方案如下:
为了克服现有预处理手段的不足之处,本发明提供了一种光谱数据分段预处理方法,在将整条光谱划分成若干个光谱区间后,通过使用优化算法,去寻找得到每个光谱区间下最适合它自己的预处理方法,各自进行预处理,之后再进行常规的后续化学计量学建模。本方法中,待建立的模型可以是近红外定量分析模型或是近红外定性判别模型,使用的优化算法可以是遗传算法、随机搜索算法等,光谱区间的划分方式可以是等间隔的或不等间隔的,整个优化流程中对光谱进行建模时所用的算法可以是偏最小二乘回归、LASSO回归、岭回归等。为了论述的方便,下面采用的是建立近红外定量分析模型,等间隔的光谱区间划分方式,用遗传算法进行优化,光谱建模时使用偏最小二乘回归。
本发明提供了一种近红外光谱数据分段预处理方法,包括以下步骤:
第一步,设置候选预处理方法:将原始的待处理光谱数据标记为1,然后对原始光谱数据,分别用候选的L种预处理方法进行全波段的处理,并分别将预处理后的数据标记为2,3,4…L+1;
所述L种预处理方法选自平滑Smooth、一阶导数1D、二阶导数2D、标准正态变量变换SNV、多元散射校正MSC、SNV与Smooth组合、SNV与1D组合、SNV与2D组合。
算法涉及到的候选的预处理方法,是指在使用数学方法对光谱数据进行处理后,能够提高后续所建立的近红外模型的预测能力的方法,包括但不限于基体或物理干扰校正、仪器噪声去除、光谱分辨率提高、光谱标准化。
不同波段的预处理方法可以相同,也可以不同。
第二步,划分光谱区间:以等间隔的方式将待处理的近红外光谱分割成M个波段,每个波段包括多个波长点,M为后续遗传算法的基因位数量,每个基因位置与每个波段相对应;
对光谱数据划分为多个波段的方式,可以使用等间隔划分的方式,也可以使用非等间隔的划分方式。
第三步,初始化种群,设定种群规模为P,在这个种群中每一代有个PS个个体,每一个个体有着M个基因位,每个基因的取值范围是1到L+1的正整数,然后以部分随机的方式对种群进行初始化;
所述第三步中,每一个基因的数字代表着对于这个基因对应的波段采用的预处理方法的类型。
所述第三步中,初始化生成的PS个个体中,其中第1个个体的基因固定为原始光谱所对应的基因编号;后续的L个个体的基因固定为L种全光谱预处理方法所对应的基因编号;剩下的全部个体,在所有L+1种类型的基因编号出现次数相同的前提下,随机在1到L+1之间进行生成。
第四步,计算适应度,根据当前种群中每个个体的基因编码,还原出每个个体经过处理后的光谱,然后根据适应度函数计算每个个体的适应度;
所述第四步中,根据基因编码还原出光谱的方式为将每个基因位的编码对应的预处理后的波段进行拼接。由于不同预处理方法得到的光谱的数值大小会有比较大的差距,因此在拼接完成后,要对其进行Z-Score标准化,将所有波段的数值拉至同一数量级。
所述第四步中,适应度为对预处理后数据使用偏最小二乘法PLS建模后,交叉验证得到的交叉验证均方根误差RMSECV作为适应度值,计算方式见下:
第五步,保留精英个体,对适应度进行排序,根据预先设定的精英比率RE,选择表现最好的部分个体,直接保留到下一代种群中,精英个体不进行后续的交叉与变异;
所述第五步中,精英个体为交叉验证均方根误差RMSECV最小的若干个个体,个体的数量为CE=round(Ps·RE);CE为个体的数量;
第六步,种群选择与交叉操作,在该代种群中根据轮盘赌选择法随机选取若干个个体,然后根据设定的交叉比率RC,让其中的一部分进行交叉;
所述第六步中,通过轮盘赌选择法选中第i个个体的概率Pi为:
其中,Zi为第i个个体的RMSECV,Zj为第j个个体的RMSECV。
所述第六步中,通过使用轮盘赌选择法,随机选出的个体数量为CS=PS-CE。
所述第六步中,根据设定的交叉比率RC,对于轮盘赌选中的个体,其中的前CC个个体被替换成该个体与随机另一个轮盘赌选中的个体进行单点交叉得到的子代,其中CC=round((PS-CE)·RC)。
第七步,种群变异操作,对于上一步骤的轮盘赌选择法选中的个体,以变异率RM进行基因变异,发生变异的基因编码将随机替换为1到L+1的正整数;
第八步,遗传优化,迭代执行第四至七步,直到达到最大迭代次数,或是种群的最佳适应度值连续多代无变化;满足终止条件进行下一步,如不满足终止条件,返回第四步重新进行;
第九步,对于优化得到的有最佳表现的基因序列,还原为每一波段相对应的预处理方法,并进行拼接化,作为最终的预处理方法。
所述第九步中,在对预处理方法不同的波段进行拼接后,需要进行Z-Score标准化,消除数量级上的差异。
本发明的近红外光谱数据分段预处理方法,欲通过近红外光谱建模解决的问题,可以是定量分析问题,也可以是定性判别问题;所使用的优化方法,包括但不限于随机搜索和遗传算法;交互检验中所用的光谱建模的方法,包括但不限于偏最小二乘回归PLS、LASSO回归、岭回归和支持向量机SVM;所采用的交互检验方法,包括但不仅限于K折交叉验证、留一法交叉验证、蒙特卡洛交叉验证;根据每个波段的编号对原光谱进行替换重构之后,所述方法还包括对重构后光谱使用标准化或归一化消除片段间的量纲差异。
由于采用上述技术方案,本发明具有以下优点和有益效果:
本发明通过将全光谱划分为多个光谱区间,子区间各自选择合适预处理算法的方式,增广了预处理的适用范围,增加了对复杂的、多样变化的光谱的适用性。并且在此之上,本发明通过结合遗传算法基因选择、交叉、变异的思路,能够有效的搜寻得到各个子区间合适的预处理方法的组合,从而大大提高预处理的效果,提高了后续所建立模型的性能。
附图说明
图1是实施例1近红外光谱数据分段预处理方法的流程图。
图2为实施例1中计算适应度值的流程示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例对本发明做进一步的说明。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
实施例1
对玉米近红外光谱数据的分段预处理
使用一套玉米的近红外光谱数据,借助本发明的近红外光谱数据分段预处理方法进行分段预处理,建立近红外定量分析模型,并与传统的预处理方法进行比较。该光谱数据集引用自eigenvector网站上开源的玉米样本光谱数据集,地址http://www.eigenvector.com/data/Corn/index.html,该套玉米数据包含80个玉米样本的近红外光谱以及对应的油脂含量,光谱含1100-2498nm的700个波长点。
本发明使用Kennard-Stone算法将这80个样本分成两部分,其中60个样本作为校正集用于预处理并建立模型,剩余20个样本作为独立的预测集,对60个样本建立的模型进行评价。以下的预处理步骤均在60个样本的校正集上进行,图1是实施例1近红外光谱数据分段预处理方法的流程图。
一种对玉米样本近红外光谱数据分段预处理方法,包括以下步骤:
第一步,设置候选预处理方法:将原始的待处理光谱数据标记为1,然后对原始光谱数据分别用候选的8种全波段预处理方法进行全波段的处理,并分别将预处理后的数据标记为2,3,4…9;
第二步,划分光谱区间:以等间隔的方式将待处理的近红外光谱分割成20个波段,每个波段包括35个波长点,因此后续遗传算法的基因位数量也是20个,并且每个基因位置与每个波段相对应;
第三步,初始化种群,设定种群规模为200,即在这个种群中每一代有200个个体,每一个个体有着20个基因位,每个基因的取值范围是1到9的正整数,然后以部分随机的方式对种群进行初始化,生成一个200行20列的种群矩阵;
第四步,计算适应度,根据当前种群中每个个体的基因编码,还原出每个个体经过处理后的光谱,并进行Z-Score标准化处理,然后使用偏最小二乘回归建立近红外模型,偏最小二乘的最大潜变量被设定为10,以5折交叉验证的均方根误差作为适应度值,图2为实施例1中计算适应度值的流程示意图;
所述第四步中,适应度为对预处理后数据使用偏最小二乘法PLS建模后,交叉验证得到的交叉验证均方根误差RMSECV作为适应度值,计算方式见下:
第五步,保留精英个体,对适应度进行排序,根据预先设定的精英比率0.025,选择表现最好的5个个体,直接保留到下一代种群中,精英个体不进行后续的交叉与变异;
所述第五步中,精英个体为交叉验证均方根误差RMSECV最小的若干个个体,个体的数量为CE=round(Ps·RE);CE为个体的数量;
第六步,种群选择与交叉操作,在该代种群中根据轮盘赌选择法随机选取195个个体,然后根据设定的交叉比率0.8,让其中的156个个体与随机的其它被选中的个体进行单点交叉;
所述第六步中,通过轮盘赌选择法选中第i个个体的概率Pi为:
其中,Zi为第i个个体的RMSECV,Zj为第j个个体的RMSECV。
所述第六步中,通过使用轮盘赌选择法,随机选出的个体数量为CS=PS-CE。此处,195=200-5。
所述第六步中,根据设定的交叉比率RC,对于轮盘赌选中的个体,其中的前CC个个体被替换成该个体与随机另一个轮盘赌选中的个体进行单点交叉得到的子代,其中CC=round((PS-CE)·RC)。此处,156=(200-5)×0.8。
第七步,种群变异操作,对于上一步骤的轮盘赌选择法选中的195个个体,以变异率0.05进行基因变异,发生变异的基因编码将随机替换为1到9间的正整数;
第八步,遗传优化,迭代执行第4至7步,直到达到最大迭代次数90,或是种群的最佳适应度值连续20代无变化;满足终止条件进行下一步,如不满足终止条件,返回第四步重新进行;
第九步,对于优化得到的有最佳表现的基因序列,还原为每一波段相对应的预处理方法,并进行拼接以及Z-Score标准化,作为最终的预处理方法。
分别使用原始光谱、候选的8种全波段预处理方案以及本发明的方法选出的分段预处理方案,对校正集进行偏最小二乘回归建立模型,然后使用这些模型去预测独立预测集中的样本的油脂含量,并将预测值与参考值进行比较。8种候选的预处理方案分别为平滑(Smooth)、一阶导数(1D)、二阶导数(2D)、标准正态变量变换(SNV)、多元散射校正(MSC)、SNV与Smooth组合、SNV与1D组合、SNV与2D组合。由于交互检验过程以及本发明的方法存在一定的随机性,为减小偶然因素,以上过程将重复50次,以50次的独立预测集均方根误差RMSEP的均值、独立预测集的决定系数的均值对模型的预测性能进行评价。RMSEP越小、越大,则模型的预测精度越高。RMSEP和的计算方式如下:
表1是本发明与原始光谱以及8种候选预处理方案建立模型的50次平均预测性能比较,其中nLVs和RMSECV分别为偏最小二乘模型的最佳潜变量数和对应的交叉验证均方根误差;RMSEP为独立预测集均方根误差;为独立预测集的决定系数。
表1
由表1中数据可以看到,1D、2D以及它们与SNV共同使用,与原始光谱相比,均能提高模型的预测精度,尤其是1D,将RMSEP由原始光谱的0.0726降低到了0.0421,由0.7147提高到了0.9040。而本发明提供的方法,将这些全波段预处理方案分段组合寻优后,有着更加显著的效果,将RMSEP进一步降低到了0.0285,提高到了0.9552。因此,本发明相比于传统的全波段预处理方案,更能提高模型的预测性能。
实施例2
对药片近红外光谱数据的分段预处理
使用一套药片的近红外光谱数据,借助本发明的近红外光谱数据分段预处理方法进行分段预处理,建立近红外定量分析模型,并与传统的预处理方法进行比较。该光谱数据集可从如下网站获得:http://www.models.kvl.dk/Tablets,该套药片数据包含310个药片样本的近红外光谱以及对应的活性组分含量,光谱含7398.3-10507.3cm-1的404个数据点。使用Kennard-Stone算法将这310个样本分成两部分,其中155个样本作为校正集用于预处理并建立模型,剩余155个样本作为独立的预测集,对建立的模型进行评价。
本发明第二步中的等间隔划分的波段数被设定为10,第四步中偏最小二乘的最大潜变量被设定为15,其余的参数设置以及处理流程同实施例1。
表2是本发明与原始光谱以及8种候选预处理方案建立模型的50次平均预测性能比较,其中nLVs和RMSECV分别为偏最小二乘模型的最佳潜变量数和对应的交叉验证均方根误差;RMSEP为独立预测集均方根误差;为独立预测集的决定系数。
表2
由表2中数据可以看到,SNV、MSC以及SNV与Smooth、1D共同使用,与原始光谱相比,均能提高模型的预测精度,尤其是SNV单独使用,将RMSEP由原始光谱的0.3772降低到了0.3439,由0.9211提高到了0.9344。而本发明提供的方法,则将RMSEP进一步降低到了0.3373,进一步提高到了0.9369。因此,在这套数据上,本发明相比于传统的全波段预处理方案,同样有着优异的表现。
实施例3
对烟草的近红外光谱数据的分段预处理
使用一套烟草的近红外光谱数据,借助本发明的近红外光谱数据分段预处理方法进行分段预处理,建立近红外定量分析模型,并与传统的预处理方法进行比较。该套烟草数据包含402个烟草样本的近红外光谱以及对应的尼古丁含量,光谱含3999.6-10001.0cm-1的1557个数据点。使用Kennard-Stone算法将这402个样本分成两部分,其中201个样本作为校正集用于预处理并建立模型,剩余201个样本作为独立的预测集,对建立的模型进行评价。
本发明第二步中的等间隔划分的波段数被设定为30,第四步中偏最小二乘的最大潜变量被设定为30,其余的参数设置以及处理流程同实施例1。
表3是本发明与原始光谱以及8种候选预处理方案建立模型的50次平均预测性能比较,其中nLVs和RMSECV分别为偏最小二乘模型的最佳潜变量数和对应的交叉验证均方根误差;RMSEP为独立预测集均方根误差;为独立预测集的决定系数。
表3
由表3中数据可以看到,对于这套烟草近红外光谱数据而言,8种候选的常规预处理方案均无法产生良好的效果,使用它们进行预处理后,所建立模型对于尼古丁的预测性能并没有得到明显提高,甚至大多数产生了负面的效果,它们的RMSEP相比于原始模型非但没有下降,反而有所上升。这是因为,预处理在对信号进行有益处理的同时,也会造成原始光谱中的有效信息的丢失,如果处理带来的正面作用无法胜过信息损失产生的负面影响,那么从总体上,就会呈现负面的效果。显然,对于这套较为复杂的烟草光谱数据,这些常规的预处理算法并不适用。然而,本发明提供的方法,在这里依旧产生了良好的效果。将原始光谱所建立模型的RMSEP由0.0396降低到了0.0252,由0.9937提高到了0.9973。因此,在这套传统全波段预处理方案表现很差的数据上,本方法有着极为亮眼的表现,有效提升了模型的性能。
以上所述仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专利的技术人员在不脱离本发明技术方案范围内,当可利用上述提示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明方案的范围内。
Claims (10)
1.一种近红外光谱数据分段预处理方法,其特征在于,包括以下步骤:
第一步,设置候选预处理方法:将原始的待处理光谱数据标记为1,然后对原始光谱数据,分别用候选的L种预处理方法进行全波段的处理,并分别将预处理后的数据标记为2,3,4…L+1;
第二步,划分光谱区间:以等间隔的方式将待处理的近红外光谱分割成M个波段,每个波段包括多个波长点,M为后续遗传算法的基因位数量,每个基因位置与每个波段相对应;
第三步,初始化种群,设定种群规模为P,在这个种群中每一代有个PS个个体,每一个个体有着M个基因位,每个基因的取值范围是1到L+1的正整数,然后以部分随机的方式对种群进行初始化;
第四步,计算适应度,根据当前种群中每个个体的基因编码,还原出每个个体经过处理后的光谱,然后根据适应度函数计算每个个体的适应度;
第五步,保留精英个体,对适应度进行排序,根据预先设定的精英比率RE,选择表现最好的部分个体,直接保留到下一代种群中,精英个体不进行后续的交叉与变异;
第六步,种群选择与交叉操作,在该代种群中根据轮盘赌选择法随机选取若干个个体,然后根据设定的交叉比率RC,让其中的一部分进行交叉;
第七步,种群变异操作,对于上一步骤的轮盘赌选择法选中的个体,以变异率RM进行基因变异,发生变异的基因编码将随机替换为1到L+1的正整数;
第八步,遗传优化,迭代执行第四至七步,直到达到最大迭代次数,或是种群的最佳适应度值连续多代无变化;满足终止条件进行下一步,如不满足终止条件,返回第四步重新进行;
第九步,对于优化得到的有最佳表现的基因序列,还原为每一波段相对应的预处理方法,并进行拼接化,作为最终的预处理方法。
2.根据权利要求1所述的近红外光谱数据分段预处理方法,其特征在于,所述L种预处理方法选自平滑Smooth、一阶导数1D、二阶导数2D、标准正态变量变换SNV、多元散射校正MSC、SNV与Smooth组合、SNV与1D组合、SNV与2D组合。
3.根据权利要求1所述的近红外光谱数据分段预处理方法,其特征在于,所述第三步中,每一个基因的数字代表着对于这个基因对应的波段采用的预处理方法的类型。
4.根据权利要求3所述的近红外光谱数据分段预处理方法,其特征在于,所述第三步中,初始化生成的PS个个体中,其中第1个个体的基因固定为原始光谱所对应的基因编号;后续的L个个体的基因固定为L种全光谱预处理方法所对应的基因编号;剩下的全部个体,在所有L+1种类型的基因编号出现次数相同的前提下,随机在1到L+1之间进行生成。
5.根据权利要求4所述的近红外光谱数据分段预处理方法,其特征在于,所述第四步中,根据基因编码还原出光谱的方式为将每个基因位的编码对应的预处理后的波段进行拼接;由于不同预处理方法得到的光谱的数值大小会有比较大的差距,因此在拼接完成后,要对其进行Z-Score标准化,将所有波段的数值拉至同一数量级。
8.根据权利要求7所述的近红外光谱数据分段预处理方法,其特征在于,所述第六步中,通过使用轮盘赌选择法,随机选出的个体数量为CS=PS-CE。
9.根据权利要求8所述的近红外光谱数据分段预处理方法,其特征在于,所述第六步中,根据设定的交叉比率RC,对于轮盘赌选中的个体,其中的前CC个个体被替换成该个体与随机另一个轮盘赌选中的个体进行单点交叉得到的子代,其中CC=round((PS-CE)·RC)。
10.根据权利要求1所述的近红外光谱数据分段预处理方法,其特征在于,所述第九步中,在对预处理方法不同的波段进行拼接后,需要进行Z-Score标准化,消除数量级上的差异。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111240186.4A CN114062306B (zh) | 2021-10-25 | 2021-10-25 | 一种近红外光谱数据分段预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111240186.4A CN114062306B (zh) | 2021-10-25 | 2021-10-25 | 一种近红外光谱数据分段预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114062306A true CN114062306A (zh) | 2022-02-18 |
CN114062306B CN114062306B (zh) | 2024-04-05 |
Family
ID=80235419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111240186.4A Active CN114062306B (zh) | 2021-10-25 | 2021-10-25 | 一种近红外光谱数据分段预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114062306B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049025A (zh) * | 2022-08-16 | 2022-09-13 | 山东钢铁股份有限公司 | 一种基于弹性分段标准化算法的模型迁移方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107132198A (zh) * | 2017-04-18 | 2017-09-05 | 浙江中烟工业有限责任公司 | 一种近红外光谱数据预处理方法 |
WO2018010352A1 (zh) * | 2016-07-11 | 2018-01-18 | 上海创和亿电子科技发展有限公司 | 一种定性定量相结合的近红外定量模型构建方法 |
CN109185731A (zh) * | 2018-08-31 | 2019-01-11 | 中国地质大学(武汉) | 一种星载定标光谱光源的设计方法 |
WO2021036546A1 (zh) * | 2019-08-29 | 2021-03-04 | 山东科技大学 | 基于有偏估计的近红外定量分析模型构建方法 |
CN112881333A (zh) * | 2021-01-13 | 2021-06-01 | 江南大学 | 一种基于改进免疫遗传算法的近红外光谱波长筛选方法 |
-
2021
- 2021-10-25 CN CN202111240186.4A patent/CN114062306B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018010352A1 (zh) * | 2016-07-11 | 2018-01-18 | 上海创和亿电子科技发展有限公司 | 一种定性定量相结合的近红外定量模型构建方法 |
CN107132198A (zh) * | 2017-04-18 | 2017-09-05 | 浙江中烟工业有限责任公司 | 一种近红外光谱数据预处理方法 |
CN109185731A (zh) * | 2018-08-31 | 2019-01-11 | 中国地质大学(武汉) | 一种星载定标光谱光源的设计方法 |
WO2021036546A1 (zh) * | 2019-08-29 | 2021-03-04 | 山东科技大学 | 基于有偏估计的近红外定量分析模型构建方法 |
CN112881333A (zh) * | 2021-01-13 | 2021-06-01 | 江南大学 | 一种基于改进免疫遗传算法的近红外光谱波长筛选方法 |
Non-Patent Citations (2)
Title |
---|
付苗苗;刘梅英;牛智有;杨芳;向喻;: "基于近红外光谱法的水稻秸秆可溶性糖快速检测", 华中农业大学学报, no. 02 * |
杨吴烨等: "采样误差轮廓分析结合移动窗口偏最小二乘法用于变量选择", 2019中国化学会第十五届全国计算(机)化学学术会议论文集 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115049025A (zh) * | 2022-08-16 | 2022-09-13 | 山东钢铁股份有限公司 | 一种基于弹性分段标准化算法的模型迁移方法及系统 |
CN115049025B (zh) * | 2022-08-16 | 2022-11-04 | 山东钢铁股份有限公司 | 一种基于弹性分段标准化算法的模型迁移方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114062306B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Recent advances of chemometric calibration methods in modern spectroscopy: Algorithms, strategy, and related issues | |
CN109493287B (zh) | 一种基于深度学习的定量光谱数据分析处理方法 | |
Bai et al. | Accurate prediction of soluble solid content of apples from multiple geographical regions by combining deep learning with spectral fingerprint features | |
Zhang et al. | Mid‐Infrared Spectroscopy for Coffee Variety Identification: Comparison of Pattern Recognition Methods | |
Bin et al. | A modified random forest approach to improve multi-class classification performance of tobacco leaf grades coupled with NIR spectroscopy | |
CN110726694A (zh) | 光谱变量梯度集成遗传算法的特征波长选择方法和系统 | |
Zhang et al. | Accurate and nondestructive detection of apple brix and acidity based on visible and near-infrared spectroscopy | |
Jiang et al. | Moving‐Window‐Improved Monte Carlo Uninformative Variable Elimination Combining Successive Projections Algorithm for Near‐Infrared Spectroscopy (NIRS) | |
Bao et al. | Rapid detection of talc content in flour based on near-infrared spectroscopy combined with feature wavelength selection | |
CN118190859B (zh) | 一种羊毛羊绒纤维的快速鉴别方法 | |
Xu et al. | Nondestructive detection of total soluble solids in grapes using VMD‐RC and hyperspectral imaging | |
Li et al. | Quantitative analysis of aflatoxin B1 of peanut by optimized support vector machine models based on near-infrared spectral features | |
Qiu et al. | Simultaneous sex and species classification of silkworm pupae by NIR spectroscopy combined with chemometric analysis | |
CN114062306A (zh) | 一种近红外光谱数据分段预处理方法 | |
CN113138181B (zh) | 一种对清香型原酒品质分级的方法 | |
Wang et al. | A Lightweight convolutional neural network for nicotine prediction in tobacco by near-infrared spectroscopy | |
Li et al. | Data fusion of multiple‐information strategy based on Fourier transform near infrared spectroscopy and Fourier‐transform mid infrared for geographical traceability of Wolfiporia cocos combined with chemometrics | |
Dai et al. | Nondestructive identification of rice varieties by the data fusion of Raman and near-infrared (NIR) spectroscopies | |
Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging | |
CN115015120B (zh) | 一种傅里叶红外光谱仪及其温漂在线校正方法 | |
CN116519661A (zh) | 一种基于卷积神经网络的大米识别检测方法 | |
Guo et al. | Component Prediction of Antai Pills Based on One‐Dimensional Convolutional Neural Network and Near‐Infrared Spectroscopy | |
CN115909324A (zh) | 一种广陈皮陈化年份高光谱鉴别方法及系统 | |
Bi et al. | Apple internal quality fusion prediction by multi-pattern recognition technology and evidence theory | |
CN112881333B (zh) | 一种基于改进免疫遗传算法的近红外光谱波长筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |