CN110503156A - 一种基于最小相关系数的多变量校正特征波长选择方法 - Google Patents
一种基于最小相关系数的多变量校正特征波长选择方法 Download PDFInfo
- Publication number
- CN110503156A CN110503156A CN201910797203.0A CN201910797203A CN110503156A CN 110503156 A CN110503156 A CN 110503156A CN 201910797203 A CN201910797203 A CN 201910797203A CN 110503156 A CN110503156 A CN 110503156A
- Authority
- CN
- China
- Prior art keywords
- wavelength
- coefficient
- value
- data
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 238000004611 spectroscopical analysis Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000002329 infrared spectrum Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 37
- 230000001419 dependent effect Effects 0.000 description 12
- 230000009467 reduction Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 239000002689 soil Substances 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 5
- 229920002472 Starch Polymers 0.000 description 4
- 235000013339 cereals Nutrition 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 235000019698 starch Nutrition 0.000 description 4
- 239000008107 starch Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003455 independent Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000004519 grease Substances 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Abstract
本发明公开了一种基于最小相关系数的多变量校正特征波长选择方法,要解决的是现有波长选择方法的问题。本发明的步骤如下:对光谱数据集X进行S‑G一阶导处理,计算各列向量间相关系数的绝对值,得到相关系数矩阵R,计算相关系数矩阵R中各列除对角线外其他元素的平均值及标准差,选取相关系数平均值及标准差阈值对,构成待选波长集合S,对S集合波长进行排序得到集合S',逐次增加一个波长变量建立MLR模型,计算各个模型的RMSEV的值,最小RMSEV值所对应的变量子集即为S下的特征波长,选择下一个阈值对,重复上述步骤,找到所有特征波长集合下对应的最小RMSEV值及其对应特征波长。本发明最大限度地减少冗余的变量选择方法,原理简单,易于实现。
Description
技术领域
本发明涉及近红外光谱波长选择领域,具体是一种基于最小相关系数的多变量校正特征波长选择方法。
背景技术
近年来,近红外光谱技术在石油化工、制药、环境、临床、农业、食品和生物医学等领域的应用越来越广泛。近红外光谱区(800-2500nm)主要是由含氢基团的倍频和合频吸收峰组成,吸收强度较弱灵敏度较低,吸收带较宽且严重重叠,对全谱建模进行定量分析时会存在多重共线性或无信息变量过多等不足。对全谱进行特征波长选择就是减小数据冗余和多重共线性,可以提高模型的预测精度,简化模型的复杂度。
国内外常见的变量选择方法包括:无信息变量消除法、竞争性自适应重加权采样法、间隔偏最小二乘法、反向区间偏最小二乘法、连续投影算法、遗传算法等等。其中连续投影算法(successive projections algorithm,SPA)是一种通过向量的投影分析以达到变量间共线性最小化的波长选择算法,但其原理不易于理解,运行较为复杂,其余的算法也存在变量之间的共线性的问题,人们也在进行相关方面的研究。
发明内容
本发明实施例的目的在于提供一种基于最小相关系数的多变量校正特征波长选择方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种基于最小相关系数的多变量校正特征波长选择方法,具体步骤如下:
步骤一,根据多个样本的近红外光谱数据和化学浓度数据得到光谱数据矩阵XN×K和浓度向量YN×1,其中,N为样本数,K为光谱数据点数,对光谱数据矩阵XN×K进行 Savitzky-Golay(S-G)一阶导处理,可以校正光谱基线,消除背景的干扰,提高光谱分辨率,并且在一定程度上减少了各变量间的线性相关性,为后续波长选择奠定基础;
步骤二,计算光谱数据矩阵XN×K中各列向量之间的相关系数的绝对值,得到矩阵RK×K;相关系数是研究变量之间线性相关程度的量,相关系数越小说明两个向量之间相关性越低,用于建模时,其共线性就越低;
步骤三,计算矩阵RK×K中各列向量除对角线上的元素(r(i,i)=1)之外的其他元素的平均值和标准差σj,j=1,2,…,K;
步骤四,选取(σmin,σmax)=(min(σj),max(σj)), j=1,2,…,K;RK×K某列相关系数平均值越小,说明该波长点与其他各波长点之间的相关性整体较小,某列相关系数标准差越小说明该列相关系数数据的波动较小,数据分布较集中,同时满足相关系数平均值和标准差较小的波长点是潜在的待选波长;
步骤五,选取最小阈值系数和最大阈值系数对(min_thr=1.80,max_thr=0.8),设定选择波长的相关系数平均值和标准差σj的范围分别为:和 (min_thr·σmin,max_thr·σmax),设定波长点设定搜索范围,并将相关系数的范围和标准差的范围均分为多个个波长点,共计生成多个个阈值对,后续的步骤就是针对每一个相关系数、标准差阈值对,得到一个特征波长集;
步骤六,选取一组数据点作为阈值对;
步骤七,将满足并且条件的波长构成待选波长集合S={i1,i2,...,ip},其中 ik(k=1,2,…,p)为选入的波长(变量),p为选入波长(变量)的数量;
步骤八,利用待选波长集合S中各波长点对应的光谱数据对浓度数据YN×1进行标准回归,得到标准回归系数,并按回归系数的绝对值的大小对待选波长集合S进行降序排列,得到新的有序集合S';
步骤九,从S'中第一个波长点开始,每次增加一个波长,建立光谱数据X和浓度数据 YN×1之间的多元线性回归(MLR)模型,共建立p个MLR模型,分别计算p个模型的RMSEV 值,其中最小RMSEV值所对应的变量子集即为待选波长集合S下的特征波长集;
步骤十,选取下一组数据点作为阈值对,重复步骤七至步骤九;
步骤十一,从以上步骤得到的多个特征波长集中选取RMSEV最小值对应的特征波长,即为得到的最优特征波长。
作为本发明实施例进一步的方案:步骤二中矩阵RK×K中各元素r(i,j)(i,j=1,2,3,…,K)的值的计算公式如下:其中cov(i,j)为XN×K中第i列和j列变量的协方差,var(i)、var(j)分别为X中第i列和j列变量的标准差,r(i,j)=r(j,i), cov(i,j)=E[(i-E(i))(j-E(j))],E(i)为第i列向量(变量)的平均值,var(i)=Σ(i-E(i))/N,N为第i 列向量的个数。
作为本发明实施例进一步的方案:最小阈值系数min_thr>1,考虑计算成本和计算效果,一般选取min_thr范围为1.5-1.8。
作为本发明实施例进一步的方案:为了保证选取波长和其他波长之间相关性较小的要求,最大阈值系数max_thr<1,一般选取max_thr取值不超过0.8。
作为本发明实施例进一步的方案:步骤八中标准回归系数计算公式如下: rj=bj×(std(xj)/std(y)),bj为由最小二乘法得到的回归系数,bj=xj\y,std(xj)为光谱数据X的待选波长xj的标准差,std(y)为样本浓度数据y的标准差;标准回归系数是指消除了因变量和自变量量纲影响之后的回归系数,其绝对值的大小能在一定程序上反映了自变量对因变量的影响程度,也就是说,某个变量的绝对值越大,其对因变量的影响也就越大,将待选波长通过计算其标准回归系数的绝对值大小进行降序排列,以首选对自变量影响大的波长点。
作为本发明实施例进一步的方案:步骤十一中特征波长集的数量为2300-2750个。
作为本发明实施例进一步的方案:步骤九中RMSEV值的计算公式如下:yi为样本实测浓度值(化学值,比如,含水率,蛋白质含量、淀粉含量等,通过物理或化学方法得到),为模型计算出来的浓度值(估计值),N为用于建模的样本数量。
与现有技术相比,本发明实施例的有益效果是:
本发明以变量间相关系数最小为标准选取光谱数据的波长点,最小相关系数能最大限度消除波长或变量之间的共线性,从而达到数据降维的目的;
本发明可实现高效降维,提高模型的稳健性及预测精度,同时,少数的波长点可为便携式光谱仪的开发提供便利,降低成本;并且本发明以消除变量间共线性为主要原理,相较于SPA,以公共的测试数据建模,本发明的模型精度均优于SPA的模型精度,且方法简单易于实现,是一种有效的波长选择方法。
附图说明
图1为基于最小相关系数的多变量校正特征波长选择方法的流程图。
图2为基于最小相关系数的多变量校正特征波长选择方法中三个土壤样本的原始近红外光谱图。
图3为基于最小相关系数的多变量校正特征波长选择方法中MCC波长选择的RMSEV的值变化曲线图。
图4为基于最小相关系数的多变量校正特征波长选择方法中MCC波长选择的最终所选特征波长图。
图5为基于最小相关系数的多变量校正特征波长选择方法中SPA波长选择的RMSEV的值变化曲线图。
图6为基于最小相关系数的多变量校正特征波长选择方法中SPA波长选择的最终所选特征波长图。
图7为基于最小相关系数的多变量校正特征波长选择方法中验证集的全谱基础上所建模型的土壤有机质的实测值和预测值相关图。
图8为基于最小相关系数的多变量校正特征波长选择方法中SPA波长选择基础上所建模型的土壤有机质的实测值和预测值相关图。
图9为基于最小相关系数的多变量校正特征波长选择方法中MCC波长选择基础上所建模型的土壤有机质的实测值和预测值相关图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
实施例1
土壤样本近红外光谱数据是公开的,来自于网站Quality&Technology。样本数据包含两部分,样本的NIR光谱和化学性质。共计108个样本。样本光谱的波长范围为400-2500nm,采样间隔为2nm,波长点共计1050个,近红外光谱图如图2所示。本发明采用土壤有机质含量为因变量进行波长选择及近红外光谱数据建模预测分析以证明本方法有效性。
步骤1:将108个样本划分为75%建模集和25%验证集,建模集包含81个样本,验证集包含27个样本。为校正光谱基线,消除其他背景的干扰,提高光谱分辨率,利用Savitzky-Golay窗口宽度为11的一阶求导法对原始光谱数据进行预处理,前后五个波长点为零,即数据的波长点变为1040个,得到建模集光谱数据为81×1040的矩阵Xcal;验证集光谱数据为27×1040的矩阵Xval;
步骤2:计算建模集的数据矩阵Xcal(81×1040)每一列向量与其余各列向量相关系数的绝对值,得到大小为1040×1040相关系数矩阵R;矩阵R的元素值r(i,i)=1,r(i,j)=r(j,i), i,j=1,2,…,1040。
步骤3:计算矩阵R各列除对角线上的元素之外的其他元素的平均值及标准差σj, j=1,2,…,1040。
步骤4:选取(σmin,σmax)=(min(σj),max(σj)), j=1,2,…,1040。
步骤5:选取最小、最大阈值系数对(min_thr=1.80,max_thr=0.8),设定选择波长的相关系数平均值和标准差σj的范围分别为:和(1.8σmin,0.8σmax)。将范围均分为50个数据点将(1.8σmin,0.8σmax)范围均分为50个数据点
步骤6:按一定顺序选取一组数据点作为阈值对。
步骤7:将满足并且的波长构成待选波长集合S={i1,i2,…,ip},其中 ik(k=1,2,…,p)为选入的波长(变量),p为选入波长(变量)的数量;
步骤8:利用待选波长S中各波长点对应的光谱数据对浓度数据YN×1进行标准回归,得到标准回归系数,并按回归系数的绝对值的大小对待选波长集合S中的波长点进行降序排列,得到新的有序集合S';
步骤9:从S'中第一个波长点开始,每次增加一个波长,建立光谱数据Xcal和浓度数据YN×1之间的多元线性回归(MLR)模型,共建立p个MLR模型,分别计算p个模型的 RMSEV值,其中最小RMSEV值所对应的变量子集即为待选波长集合S下的特征波长集;
步骤10:选取下一组数据点作为阈值对,重复步骤7~步骤9;
步骤11:从以上步骤中得到多个(2500个)特征波长集合中选取RMSEV最小值对应的特征波长即为本方法得到的最优特征波长,结果如图3和图4所示。RMSEV最小值为0.8976,该位置下模型RMSEV的值变化曲线如图3所示,此时选择的特征波长数为13个,图4中方块标记的13个点为最终所选特征波长。
为了说明本波长选择方法的优势,将近红外光谱数据集在相同的条件下,利用本算法选择的特征波长点建立的MLR模型(MCC-MLR),与全谱数据的PLSR模型(FULL-PLS)、SPA选择的特征波长建立的MLR模型(SPA-MLR)比较模型精度,以验证算法的有效性。模型的预测能力主要通过校正集相关系数(Rc)、校正均方根误差(RMSEC)、预测集相关系数 (Rp)、预测均方根误差(RMSEP)指标来评价。其中,Rc,Rp取值越接近1,RMSEC和 RMSEP越接近0,模型的拟合性越好,预测精度越高。
其中,SPA变量选择的结果如图5和图6所示,最小RMSE的值为1.2144,此时选择的特征波长为6个波长点。
三种方法所建模型的模型参数如表1所示,验证集的全谱、SPA和本算法土壤有机质的实测值和预测值相关图如图7、图8和图9所示。
表1以土壤有机质为因变量时全谱和不同波长选择下的建模结果
从表1中可以看出,可以看出,本方法得到的预测精度均优于传统的全谱PLS模型和 SPA变量选择后的MLR模型的精度。
实施例2:
一组来自于网站EigenVector的公开的谷物的近红外光谱数据。该数据集包括用3种不同的近红外光谱仪测量的80个谷物样本,样本光谱的波长范围为1100~2498nm,采样间隔为2nm,共计700个波长点。化学性质包括水分、油脂、蛋白质和淀粉值。本实例选取通过仪器mp6测得的近红外光谱,以谷物中的淀粉含量为因变量进行波长选择及光谱数据建模、预测分析以说明本方法的有效性。
步骤1:将80个样本划分为75%训练集和25%验证集,建模集包含60个样本,验证集包含20个样本。为校正光谱基线,消除其他背景的干扰,提高光谱分辨率,利用Savitzky-Golay窗口宽度为11的一阶求导法对原始光谱数据进行预处理,前后五个波长点为零,即数据的波长点变为690个,得到建模集光谱数据为60×690的矩阵Xcal,验证集光谱数据为20×690的矩阵Xval。
步骤2:计算建模集的数据矩阵Xcal(60×690)每一列向量与其余各列向量相关系数的绝对值,得到大小为690×690相关系数矩阵R;矩阵R的元素值r(i,i)=1,r(i,j)=r(j,i), i,j=1,2,…,690。
步骤3:计算矩阵R各列除对角线上的元素之外的其他元素的平均值及标准差σj,j=1,2,…,690。
步骤4:选取(σmin,σmax)=(min(σj),max(σj)), j=1,2,…,690。
步骤5:选取最小、最大阈值系数对(min_thr=1.80,max_thr=0.8),设定选择波长的相关系数平均值和标准差σj的范围分别为:和(1.8σmin,0.8σmax)。将范围均分为50个数据点将(1.8σmin,0.8σmax)范围均分为50个数据点
步骤6:按一定顺序选取一组数据点作为阈值对。
步骤7:将满足并且的波长构成待选波长集合S={i1,i2,…,ip},其中 ik(k=1,2,…,p)为选入的波长(变量),p为选入波长(变量)的数量;
步骤8:利用待选波长S中各波长点对应的光谱数据对浓度数据YN×1进行标准回归,得到标准回归系数,并按回归系数的绝对值的大小对待选波长集合S中的波长点进行降序排列,得到新的有序集合S';
步骤9:从S'中第一个波长点开始,每次增加一个波长,建立光谱数据Xcal和浓度数据YN×1之间的多元线性回归(MLR)模型,共建立p个MLR模型,分别计算p个模型的 RMSEV值,其中最小RMSEV值所对应的变量子集即为待选波长集合S下的特征波长集;
步骤10:选取下一组数据点作为阈值对,重复步骤7~步骤9;
步骤11:从以上步骤中得到多个(2500个)特征波长集合中选取RMSEV最小值对应的特征波长即为本方法得到的最优特征波长,RMSEV最小值为0.1915,此时选择的特征波长数为30个。
SPA变量选择的结果最小RMSE的值为0.2175,此时选择的特征波长为8个波长点。
三种方法所建模型的精度如表2所示。
表2以谷物淀粉含量为因变量时全谱和不同波长选择下的建模结果
从表2可以看出,本发明的方法(MCC-MLR)所建模型的四个评价指标参数均优于传统的PLS模型和SPA-MLR模型。
本发明的工作原理是:一般说来,使用近红外光谱仪获取的数据是高维度数据,维度达到几百维甚至几千维度,这就是所谓的维度灾难。由于共线性问题,高纬度数据不利于数据建模,建模之前需要进行数据降维处理,本发明的主要目的是近红外光谱数据降维,当然也适用于其他类别的多变量数据降维,具有普适性。
现有的数据降维方法很多,但是,本发明的数据降维方法和已有的数据降维方法均不同,本发明是基于自变量之间的相关性最小原则进行降维。降维的理论依据是:若两个自变量高度相关(相关系数绝对值较大),那么在数学建模时,可以使用其中一个变量即可。因此本发明中,如果某个变量和其他所有变量的相关性都很低,那么这个变量就是潜在可用于建模的变量,因此,“最小相关系数”也是本发明的名称和思想的由来。
目前,在近红外光谱降维方法中,也有一个基于相关系数的数据降维方法,这个方法在一些文献上提及,很少有人使用,这个所谓的相关系数法是基于各自变量和因变量的相关系数来选择建模用变量的,也就是说,某个自变量和因变量的相关系数很大,那么这个自变量就保留下来作为建模用变量,相反,如果某个自变量和因变量相关系数很小,那么,这个自变量在建模时就会舍弃。但是这个方法有一个问题没有考虑,假定有两个自变量和因变量的相关系数都很大,数学建模时这两个自变量都被保留下来了,那么,问题来了,如果这两个自变量之间的相关系数本身就很高,那么,这种降维方法并没有真正消除变量之间的共线性问题。
而本发明的数据降维方法能有效消除共线性问题,因为保留下来用于建模的变量之间相关性最低。而且,在建模过程中,依据标准回归系数的绝对值对建模变量进行降序排序这一步骤,本身也考虑了自变量对因变量的影响,保留下了对因变量影响较大大的自变量。从应用实例来看,本发明的方法的降维效果优于现有的较使用较多的其他近红外数据降维方法。而且本发明使用网络上提供的第三方近红外光谱数据进行测试,不是申请者自己测量的数据,因此,本发明具有普适性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种基于最小相关系数的多变量校正特征波长选择方法,其特征在于,具体步骤如下:
步骤一,根据多个样本的近红外光谱数据和化学浓度数据得到光谱数据矩阵XN×K和浓度向量YN×1,其中,N为样本数,K为光谱数据点数,对光谱数据矩阵XN×K进行Savitzky-Golay一阶导处理;
步骤二,计算光谱数据矩阵XN×K中各列向量之间的相关系数的绝对值,得到矩阵RK×K;
步骤三,计算矩阵RK×K中各列向量除对角线上的元素(r(i,i)=1)之外的其他元素的平均值和标准差σj,j=1,2,…,K;
步骤四,选取(σmin,σmax)=(min(σj),max(σj)),j=1,2,…,K;
步骤五,选取最小阈值系数和最大阈值系数对(min_thr=1.80,max_thr=0.8),设定选择波长的相关系数平均值和标准差σj的范围分别为:和(min_thr·σmin,max_thr·σmax),设定波长点设定搜索范围;
步骤六,选取一组数据点作为阈值对;
步骤七,将满足并且条件的波长构成待选波长集合S={i1,i2,...,ip},其中ik(k=1,2,…,p)为选入的波长,p为选入波长的数量;
步骤八,利用待选波长集合S中各波长点对应的光谱数据对浓度数据YN×1进行标准回归,得到标准回归系数,并按回归系数的绝对值的大小对待选波长集合S进行降序排列,得到新的有序集合S';
步骤九,从S'中第一个波长点开始,每次增加一个波长,建立光谱数据X和浓度数据YN×1之间的MLR模型,共建立p个MLR模型,分别计算p个模型的RMSEV值,其中最小RMSEV值所对应的变量子集即为待选波长集合S下的特征波长集;
步骤十,选取下一组数据点作为阈值对,重复步骤七至步骤九;
步骤十一,从以上步骤得到的多个特征波长集中选取RMSEV最小值对应的特征波长,即为得到的最优特征波长。
2.根据权利要求1所述的基于最小相关系数的多变量校正特征波长选择方法,其特征在于,所述步骤二中矩阵RK×K中各元素r(i,j)(i,j=1,2,3,…,K)的值的计算公式如下:其中cov(i,j)为XN×K中第i列和j列变量的协方差,var(i)、var(j)分别为X中第i列和j列变量的标准差,r(i,j)=r(j,i)。
3.根据权利要求1所述的基于最小相关系数的多变量校正特征波长选择方法,其特征在于,所述最小阈值系数min_thr范围为1.5-1.8。
4.根据权利要求1或3所述的基于最小相关系数的多变量校正特征波长选择方法,其特征在于,所述最大阈值系数max_thr不大于0.8。
5.根据权利要求1所述的基于最小相关系数的多变量校正特征波长选择方法,其特征在于,所述步骤八中标准回归系数计算公式如下:rj=bj×(std(xj)/std(y)),bj为由最小二乘法得到的回归系数,bj=xj\y,std(xj)为光谱数据X的待选波长xj的标准差,std(y)为样本浓度数据y的标准差。
6.根据权利要求1所述的基于最小相关系数的多变量校正特征波长选择方法,其特征在于,所述步骤十一中特征波长集的数量为2300-2750个。
7.根据权利要求1所述的基于最小相关系数的多变量校正特征波长选择方法,其特征在于,所述步骤九中RMSEV值的计算公式如下:yi为样本实测浓度值,为模型计算出来的浓度值,N为用于建模的样本数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797203.0A CN110503156B (zh) | 2019-08-27 | 2019-08-27 | 一种基于最小相关系数的多变量校正特征波长选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910797203.0A CN110503156B (zh) | 2019-08-27 | 2019-08-27 | 一种基于最小相关系数的多变量校正特征波长选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110503156A true CN110503156A (zh) | 2019-11-26 |
CN110503156B CN110503156B (zh) | 2021-09-03 |
Family
ID=68590059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910797203.0A Active CN110503156B (zh) | 2019-08-27 | 2019-08-27 | 一种基于最小相关系数的多变量校正特征波长选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503156B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929944A (zh) * | 2019-11-28 | 2020-03-27 | 安徽大学 | 基于高光谱图像与光谱特征相融合技术的小麦赤霉病病情严重度预测方法 |
CN111999258A (zh) * | 2020-07-03 | 2020-11-27 | 桂林理工大学 | 一种面向光谱基线校正的加权建模局部优化方法 |
CN113030010A (zh) * | 2021-03-11 | 2021-06-25 | 贵州省生物技术研究所(贵州省生物技术重点实验室、贵州省马铃薯研究所、贵州省食品加工研究所) | 一种基于逐步缩短步长优中选优的近红外光谱特征波数的筛选方法 |
CN115266583A (zh) * | 2022-07-16 | 2022-11-01 | 北京津发科技股份有限公司 | 环境光滤除方法、系统、计算机设备及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102928352A (zh) * | 2012-10-11 | 2013-02-13 | 无锡济民可信山禾药业股份有限公司 | 一种快速的醒脑静注射液中控检测方法 |
CN103645155A (zh) * | 2013-12-05 | 2014-03-19 | 中国肉类食品综合研究中心 | 生鲜羊肉嫩度的快速无损检测方法 |
CN103913432A (zh) * | 2014-03-25 | 2014-07-09 | 西安交通大学 | 基于粒子群算法的近红外光谱波长选择方法 |
CN104502306A (zh) * | 2014-12-09 | 2015-04-08 | 西北师范大学 | 基于变量重要性的近红外光谱波长选择方法 |
CN104660390A (zh) * | 2015-02-10 | 2015-05-27 | 西南交通大学 | 一种cdma结合aco-ofdm的光多载波码分多址系统通信方法 |
CN105548067A (zh) * | 2015-12-16 | 2016-05-04 | 西南大学 | 一种利用变形虫网络实现最小冗余度的波长选择方法 |
CN105891147A (zh) * | 2016-03-30 | 2016-08-24 | 浙江中烟工业有限责任公司 | 一种基于典型相关系数的近红外光谱信息提取方法 |
CN106918567A (zh) * | 2017-03-27 | 2017-07-04 | 中南大学 | 一种测量痕量金属离子浓度的方法和装置 |
-
2019
- 2019-08-27 CN CN201910797203.0A patent/CN110503156B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102928352A (zh) * | 2012-10-11 | 2013-02-13 | 无锡济民可信山禾药业股份有限公司 | 一种快速的醒脑静注射液中控检测方法 |
CN103645155A (zh) * | 2013-12-05 | 2014-03-19 | 中国肉类食品综合研究中心 | 生鲜羊肉嫩度的快速无损检测方法 |
CN103913432A (zh) * | 2014-03-25 | 2014-07-09 | 西安交通大学 | 基于粒子群算法的近红外光谱波长选择方法 |
CN104502306A (zh) * | 2014-12-09 | 2015-04-08 | 西北师范大学 | 基于变量重要性的近红外光谱波长选择方法 |
CN104660390A (zh) * | 2015-02-10 | 2015-05-27 | 西南交通大学 | 一种cdma结合aco-ofdm的光多载波码分多址系统通信方法 |
CN105548067A (zh) * | 2015-12-16 | 2016-05-04 | 西南大学 | 一种利用变形虫网络实现最小冗余度的波长选择方法 |
CN105891147A (zh) * | 2016-03-30 | 2016-08-24 | 浙江中烟工业有限责任公司 | 一种基于典型相关系数的近红外光谱信息提取方法 |
CN106918567A (zh) * | 2017-03-27 | 2017-07-04 | 中南大学 | 一种测量痕量金属离子浓度的方法和装置 |
Non-Patent Citations (1)
Title |
---|
JING FENG: ""METHOD OF CORRELATION COEFFICIENT OPTIMIZATION USED IN UV-VIS SPECTROPHOTOMETRIC ANALYSIS FOR EFFLUENT IN CATALYTIC OZONATION"", 《JOURNAL OF APPLIED SPECTROSCOPY》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929944A (zh) * | 2019-11-28 | 2020-03-27 | 安徽大学 | 基于高光谱图像与光谱特征相融合技术的小麦赤霉病病情严重度预测方法 |
CN111999258A (zh) * | 2020-07-03 | 2020-11-27 | 桂林理工大学 | 一种面向光谱基线校正的加权建模局部优化方法 |
CN111999258B (zh) * | 2020-07-03 | 2022-06-17 | 桂林理工大学 | 一种面向光谱基线校正的加权建模局部优化方法 |
CN113030010A (zh) * | 2021-03-11 | 2021-06-25 | 贵州省生物技术研究所(贵州省生物技术重点实验室、贵州省马铃薯研究所、贵州省食品加工研究所) | 一种基于逐步缩短步长优中选优的近红外光谱特征波数的筛选方法 |
CN115266583A (zh) * | 2022-07-16 | 2022-11-01 | 北京津发科技股份有限公司 | 环境光滤除方法、系统、计算机设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110503156B (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110503156A (zh) | 一种基于最小相关系数的多变量校正特征波长选择方法 | |
Nawar et al. | Optimal sample selection for measurement of soil organic carbon using on-line vis-NIR spectroscopy | |
Gogé et al. | Optimization criteria in sample selection step of local regression for quantitative analysis of large soil NIRS database | |
CN106124449B (zh) | 一种基于深度学习技术的土壤近红外光谱分析预测方法 | |
Clark et al. | Testing the link between functional diversity and ecosystem functioning in a Minnesota grassland experiment | |
Tian et al. | Weighted SPXY method for calibration set selection for composition analysis based on near-infrared spectroscopy | |
CN102879353B (zh) | 近红外检测花生中蛋白质组分含量的方法 | |
CN107491784A (zh) | 基于深度学习算法的烟叶近红外光谱定量建模方法及应用 | |
CN104990895B (zh) | 一种基于局部区域的近红外光谱信号标准正态校正方法 | |
CN106815643A (zh) | 基于随机森林迁移学习的红外光谱模型传递方法 | |
CN103235095A (zh) | 注水肉检测方法和装置 | |
CN106650926B (zh) | 一种稳健的boosting极限学习机集成建模方法 | |
CN106951720B (zh) | 基于典型相关性分析及线性插值的土壤养分模型转移方法 | |
CN110006844A (zh) | 基于函数性主元分析的近红外光谱特征提取方法和系统 | |
WO1998033047A1 (en) | Calibration system for spectrographic analyzing instruments | |
CN106018331B (zh) | 多通道光谱系统的稳定性评价方法及预处理优化方法 | |
CN105784672A (zh) | 一种基于双树复小波算法的毒品检测仪标准化方法 | |
CN110455726A (zh) | 一种实时预测土壤水分和全氮含量的方法 | |
CN105758819A (zh) | 一种利用近红外光谱检测土壤的有机组分的方法 | |
CN109409350A (zh) | 一种基于pca建模反馈式载荷加权的波长选择方法 | |
Xuemei et al. | Using short wave visible–near infrared reflectance spectroscopy to predict soil properties and content | |
CN110779875B (zh) | 一种基于高光谱技术检测冬小麦麦穗水分含量的方法 | |
Xu et al. | Nondestructive detection of internal flavor in ‘Shatian’pomelo fruit based on visible/near infrared spectroscopy | |
Vasudeva et al. | Mapping spatial variability of foliar nitrogen and carbon in Indian tropical moist deciduous sal (Shorea robusta) forest using machine learning algorithms and Sentinel-2 data | |
da Silva-Sangoi et al. | Soil organic matter and clay predictions by laboratory spectroscopy: Data spatial correlation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |