CN103927438A - 基于连续投影算法的近红外波长变量选择方法 - Google Patents

基于连续投影算法的近红外波长变量选择方法 Download PDF

Info

Publication number
CN103927438A
CN103927438A CN201410145445.9A CN201410145445A CN103927438A CN 103927438 A CN103927438 A CN 103927438A CN 201410145445 A CN201410145445 A CN 201410145445A CN 103927438 A CN103927438 A CN 103927438A
Authority
CN
China
Prior art keywords
wave number
number point
wavelength
point set
wavelength variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410145445.9A
Other languages
English (en)
Other versions
CN103927438B (zh
Inventor
刘永福
徐泽宇
赵健
林远长
何国田
石珍
朱晓强
吴姣娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Institute of Green and Intelligent Technology of CAS
Original Assignee
Chongqing Institute of Green and Intelligent Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Institute of Green and Intelligent Technology of CAS filed Critical Chongqing Institute of Green and Intelligent Technology of CAS
Priority to CN201410145445.9A priority Critical patent/CN103927438B/zh
Publication of CN103927438A publication Critical patent/CN103927438A/zh
Application granted granted Critical
Publication of CN103927438B publication Critical patent/CN103927438B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于连续投影算法的近红外波长变量选择方法。利用权重值方法,将全谱分成三类:相关波数点集、无关波数点集、噪声波数点集,在“相关波数点集”、“无关波数点集”中选取波数点集,建立校正模型,采用正交投影来判断新选入的波长变量的重要性。该方法克服线性相关性、有效降低数据维数、最大限度提取解释信息,确保建立的校正模型校正具有较高的稳健性。

Description

基于连续投影算法的近红外波长变量选择方法
技术领域
本发明涉及一种对石油或农产品品质进行分析的近红外波长变量选择方法,具体涉及基于连续投影算法的近红外波长变量选择方法,属于分析化学技术领域。
背景技术
近红外分析技术是分析化学领域迅猛发展的高新分析技术,其具有无破坏、无污染、分析重现性好、成本低等优点,广泛应用于石油化工、农业、食品等行业。例如在石化领域测定油品辛烷值,农业领域测定谷物的蛋白质、脂肪等含量。但是,近红外区域(780-2526nm)主要体现含氢基团(-OH、-NH、-CH)的合频和各级倍频的吸收,具有信息强度弱、谱峰重叠等缺点,而且波长点之间存在严重的线性关系,导致建模失败。
在实际应用中,常使用全光谱建模如PCR、PLS等。但是,光谱中的某些波长不仅对分析建模没有贡献,而且会提高模型的复杂度、降低其稳健性。常用的方法:采用将近红外全光谱分成若干个子区间,以区间为单位进行波长变量选择,如基于模拟退火算法的近红外光谱波长子区间选择办法(专利号:201010123945.4),或采用全局寻优算法来找出最佳波长变量,如一种蚁群优化算法的近红外光谱特征波长选择方法(专利号:201310269615.X)。但是,上述方法对于子区间个数的确定是个难点,并且需要不停的迭代计算,以确定最佳子区间个数,导致其存在计算时间偏高、运行效率偏低;同时划分子区间存在一定的主观性,导致模型稳健性不佳。
发明内容
为了克服现有技术的不足,本发明提出了一种基于连续投影算法的石油、农产品品质近红外光谱波长变量选择方法。利用权重值方法,将全谱分成三类:相关波数点集、无关波数点集、噪声波数点集,在“相关波数点集”、“无关波数点集”中选取波数点集,建立校正模型。该方法克服线性相关性、有效降低数据维数、最大限度提取解释信息,确保建立的校正模型校正具有较高的稳健性。
本发明的技术方案包含如下步骤:
(A)对近红外光谱进行预处理,消除数据采集过程中因仪器本身的信号漂移、环境变化引起的噪声;对校正集和验证集样本进行划分,从样本集中选择光谱代表性强的样本、浓度范围广的样本作为校正集;
(B)利用预处理后的校正集近红外的全谱建立校正模型,设权重值为W,将其作为阈值,计算全谱X的权重值W,其计算如公式(1)所示;
W = 1 Σ i = 1 n ( y i , actual - y i , predicted ) 2 m - 1 - - - ( 1 )
(C)以浓度作为衡量波数点权重的决定因素,建立浓度与波数点之间的数学关系即校正模型,具体方法如下:把校正集谱阵X等分为Num个子区间{I1,I2,…,INum},对每个波数点Ii分别建立校正模型,计算各子区间的权重值得出权重值Wi,根据步骤(B)得到的阈值将全部波数点划分为三个集合:相关波数集S1、无关波数集S2、噪声波数集S3,其中相关波数集,即能有效提高模型预测精度和稳健性的波数点,如与浓度性质相关的基团所在的NIR区间内的波数点,该类信息对于校正模型的建立具有十分重要意义;无关波数集,即与模型的预测精度、稳健性无关,该类波数点在校正模型建立时可有可无;噪声波数集,即降低模型预测精度、稳健性,如电噪声等,在校正模型中要尽量除去该类波数点;波数点划分具体计算如公式(2)所示,其中:α为阈值浮动上限比例,β为阈值浮动下限比例,0<β<1<α<2;
S 1 = S 1 &cap; I i , W i > &alpha;W S 2 = S 2 &cap; I i , &alpha;W &GreaterEqual; W i &GreaterEqual; &beta;W S 3 = S 3 &cap; I i , W i < &beta;W - - - ( 2 )
(D)选择相关波数集里面的波数点作为初始点,第一次迭代(p=1),选取S1集合中的波长点xj,记为xk(0),即k(0)=j,j∈1,…,|S1|;
(E)把还没选入的相关波数点、无关波数点集合中列向量位置的集合记为S,其中 S = { j , 1 &le; j &le; m 1 , j &NotElement; { k ( 0 ) , &CenterDot; &CenterDot; &CenterDot; k ( p - 1 ) } } ;
(F)分别计算剩余列向量xj(j∈s)与当前所选向量xk(p-1)的投影,计算如公式(3)所示;
Px j = x j - [ x j T x k ( p - 1 ) ] x k ( p - 1 ) [ x k ( p - 1 ) T x k ( p - 1 ) ] - 1 , j &Element; s - - - ( 3 )
(G)提取最大投影值的波长变量序号:k(p)=arg[max(||Pxj||)],j∈s;
(H)令xj=Pxj,j∈s,p=p+1,如果p<h,返回第(F)步;
(I)将投影向量最大的波长引入到波长组合,最终选取的波长变量为{k(p),p=0,…,h-1},每循环一个进行交互验证分析,每个新选入的波长,都与前一个线性关系最小,最小SEP对应的k(p)为最终选择的波长组合,最后根据最优波数点集建立校正集模型。
本发明的有益效果是:
1)通过权重值解决了连续投影算法随机选取波数点为初始点所带来的不足,使得初始点的选取更加科学、合理;
2)采用正交投影来判断新选入的波长变量的重要性,既能有效降低维数,又能最大限度提取有效信息;
3)农产品、油品近红外光谱经过连续投影算法优选波长变量后,能有效降低模型复杂度,提高模型的精确度。
附图说明
图1是本发明的算法流程图;
图2是80组玉米样本的原始光谱数据;
图3是OSC处理后玉米光谱数据;
图4是不同阈值上限比例α对定量分析结果的影响;
图5是不同阈值下限比例β对定量分析结果的影响;
图6是不同波长数对定量分析结果的影响。
具体实施方式
下面结合附图对本发明的具体实施方式进行详细说明。
先对近红外光谱进行预处理,消除数据采集过程中因仪器本身的信号漂移、环境变化引起的噪声,常用的光谱预处理方法有SNV(标准正交变换)、OSC(多元散射校正)、小波变换等;同时,对校正集和预测集样本进行划分,可如采用基于欧式距离的K-S算法、考虑性质变量的SPXY算法等。
实现本发明的流程图如图1所示,设置如下参数:
X(n×m):校正集光谱谱阵,
α:阈值浮动上限比例,β:阈值浮动下限比例,0<β<1<α<2,
h:波长变量个数,
Num:子区间个数,
W:权重值,
S1:有效波数点集,
S2:无关波数点集,
S3:无效波数点集。
在上述参数的基础上,采用连续投影算法对近红外波长变量进行选择的步骤如下:
1.利用公式(1)计算全谱X的权重值W,
2.把校正集谱阵X等分为Num个子区间{I1,I2,…,INum},分别建立校正模型,计算各子区间的权重值
3.依据全谱权值、各子区间权重值、α和β值,利用公式(2),将各子区间划分到S1,S2,S3中,S4=S1∩S2,m1=|S4|,
4.第一次迭代(p=1),选取S1集合中的波长点xj,记为xk(0),即k(0)=j,j∈1,…,|S1|,
5.把还没选入的S4集合中列向量位置的集合记为S,其中 S = { j , 1 &le; j &le; m 1 , j &NotElement; { k ( 0 ) , &CenterDot; &CenterDot; &CenterDot; k ( p - 1 ) } } ;
6.分别计算剩余列向量xj(j∈s)与当前所选向量xk(p-1)的投影,
Px j = x j - [ x j T x k ( p - 1 ) ] x k ( p - 1 ) [ x k ( p - 1 ) T x k ( p - 1 ) ] - 1 , j &Element; s
7.提取最大投影值的波长变量序号:k(p)=arg[max(||Pxj||)],j∈s,
8.令xj=Pxj,j∈s,
9.p=p+1,如果p<h,返回第6步,
最终选取的波长变量为{k(p),p=0,…,h-1}。每循环一个进行交互验证分析,最小SEP对应的k(p)为最终选择的波长组合。
下面以玉米为例,采用上述方法选择玉米的近红外波长变量,并根据选择的波长分析玉米的出油率。
1.光谱预处理
采用OSC算法对玉米光谱数据预处理,处理前后的结果如图2、3所示;采用SPXY算法将80个样本分为两部分:60个训练样本,20个验证样本。
2.波长选择
2.1确定α、β的值
通过公式(1)计算出全谱的权重值即阈值为9.8;根据相关波数点、无关波数点和噪声波数点的定义,权重值大于阈值1.3倍的波数点建立校正模型时,模型精确度显著增加;权重值小于阈值0.75倍的波数点建立校正模型时,模型精确度显著降低,通过图4、5得出α=1.3,β=0.75,根据公式(2),得出各波数点的权重范围,所有波数分为三类:相关波数点集、无关波数点集、噪声波数点集,其分类结果如表1所示。
表1光谱波数点分类表
2.2确定h的值
图6为不同波长数对定量分析结果的影响,观察图6,可见不同波长数h对应的不同定量分析效果。为了降低模型的复杂度,所选取的波数点应尽可能的少。当h=10,SEP值较小,波数点个数最少,定量分析效果佳。
随机选取相关波数点集中的2280nm波数点作为初始点,根据确定了阈值上限比例、阈值下限比例、波长个数的值,从相关波数点集和无关波数点集中采用WSPA算法选取9个波数点,即1838nm、2280nm、2282nm、2284nm、2288nm、2290nm、2292nm、2294nm、2296nm,采用PLS算法建立校正模型,其中主成分个数为4,相关系数R=0.94,定量分析结果如表2所示。
表2玉米出油率的真实值与预测值
真实值 预测值 真实值 预测值
3.496 3.505 3.404 3.345
3.504 3.593 3.415 3.404
3.748 3.764 3.316 3.334
3.619 3.586 3.595 3.616
3.46 3.488 3.557 3.522
3.541 3.666 3.163 3.210
3.479 3.530 3.686 3.756
3.212 3.178 3.55 3.526
3.212 3.231 3.251 3.309
3.519 3.526 3.328 3.423

Claims (1)

1.基于连续投影算法的近红外波长变量选择方法,其特征在于:包括如下步骤:
(A)对近红外光谱进行预处理,对校正集和验证集样本进行划分;
(B)利用预处理后的校正集近红外的全谱建立校正模型,设权重值为W,将其作为阈值,计算全谱X的权重值W,其计算如公式(1)所示;
W = 1 &Sigma; i = 1 n ( y i , actual - y i , predicted ) 2 m - 1 - - - ( 1 )
(C)把校正集谱阵X等分为Num个子区间{I1,I2,…,INum},对每个波数点Ii分别建立校正模型,计算各子区间的权重值得出权重值Wi,根据阈值大小,将全部波数点划分为三个集合:相关波数集S1、无关波数集S2、噪声波数集S3,计算如公式(2)所示,其中:α为阈值浮动上限比例,β为阈值浮动下限比例,0<β<1<α<2;
S 1 = S 1 &cap; I i , W i > &alpha;W S 2 = S 2 &cap; I i , &alpha;W &GreaterEqual; W i &GreaterEqual; &beta;W S 3 = S 3 &cap; I i , W i < &beta;W - - - ( 2 )
(D)选择相关波数集里面的波数点作为初始点,第一次迭代(p=1),选取S1集合中的波长点xj,记为xk(0),即k(0)=j,j∈1,…,|S1|;
(E)把还没选入的相关波数点、无关波数点集合中列向量位置的集合记为S,其中 S = { j , 1 &le; j &le; m 1 , j &NotElement; { k ( 0 ) , &CenterDot; &CenterDot; &CenterDot; k ( p - 1 ) } } ;
(F)根据公式(3)分别计算剩余列向量xj(j∈s)与当前所选向量xk(p-1)的投影;
Px j = x j - [ x j T x k ( p - 1 ) ] x k ( p - 1 ) [ x k ( p - 1 ) T x k ( p - 1 ) ] - 1 , j &Element; s - - - ( 3 )
(G)提取最大投影值的波长变量序号:k(p)=arg[max(||Pxj||)],j∈s;
(H)令xj=Pxj,j∈s,p=p+1,如果p<h,返回第(F)步;
(I)将投影向量最大的波长引入到波长组合,最终选取的波长变量为{k(p),p=0,…,h-1},每循环一个进行交互验证分析,每个新选入的波长,都与前一个线性关系最小,最小SEP对应的k(p)为最终选择的波长组合,最后根据最优波数点集建立校正集模型。
CN201410145445.9A 2014-04-11 2014-04-11 基于连续投影算法的近红外波长变量选择方法 Expired - Fee Related CN103927438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410145445.9A CN103927438B (zh) 2014-04-11 2014-04-11 基于连续投影算法的近红外波长变量选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410145445.9A CN103927438B (zh) 2014-04-11 2014-04-11 基于连续投影算法的近红外波长变量选择方法

Publications (2)

Publication Number Publication Date
CN103927438A true CN103927438A (zh) 2014-07-16
CN103927438B CN103927438B (zh) 2017-08-11

Family

ID=51145656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410145445.9A Expired - Fee Related CN103927438B (zh) 2014-04-11 2014-04-11 基于连续投影算法的近红外波长变量选择方法

Country Status (1)

Country Link
CN (1) CN103927438B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105928901A (zh) * 2016-07-11 2016-09-07 上海创和亿电子科技发展有限公司 一种定性定量相结合的近红外定量模型构建方法
CN106845051A (zh) * 2015-12-04 2017-06-13 北京光巨力信息技术有限公司 一种基于组合优化的近红外无创血糖检测波长变量筛选方法
CN108181263A (zh) * 2017-12-29 2018-06-19 浙江中烟工业有限责任公司 基于近红外光谱的烟叶部位特征提取及判别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279168A (zh) * 2011-07-20 2011-12-14 浙江大学 基于近红外光谱技术快速无损分析整粒棉籽营养品质的方法
CN103344600A (zh) * 2013-06-28 2013-10-09 中国农业大学 一种蚁群优化算法的近红外光谱特征波长选择方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279168A (zh) * 2011-07-20 2011-12-14 浙江大学 基于近红外光谱技术快速无损分析整粒棉籽营养品质的方法
CN103344600A (zh) * 2013-06-28 2013-10-09 中国农业大学 一种蚁群优化算法的近红外光谱特征波长选择方法

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
ARAUJO M C U, ET AL.,: "The successive projections algorithm for variable selection in spectroscopic multicomponent analysis", 《CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS》 *
FEI LIU,ET AL.,: "Application of successive projections algorithm for variable selection to determine organic acids of plum vinegar", 《FOOD CHEMISTRY》 *
ZOU XIAOBO,ET AL.,: "Variables selection methods in near-infrared spectroscopy", 《ANALYTICA CHIMICA ACTA》 *
吴迪等: "基于可见-近红外光谱技术的水稻穗颈瘟染病程度分级方法研究", 《光谱学与光谱分析》 *
廖宜涛,等: "连续投影算法在猪肉pH值无损检测中的应用", 《农业工程学报》 *
张志勇: "基于红外光谱法检测面粉中过氧化苯甲酰添加量", 《中国博士学位论文全文数据库工程科技I辑》 *
徐惠荣: "基于可见-近红外光谱的水果糖度检测模型优化及应用研究", 《中国博士学位论文全文数据库农业科技辑》 *
李桂峰,等: "苹果质地品质近红外无损检测和指纹分析", 《农业工程学报》 *
钱海波,等: "基于连续投影算法的小麦湿面筋近红外校正模型优化", 《中国农学通报》 *
陈彬,等: "连续投影算法的润滑油中含水量的近红外光谱分析", 《红外与激光工程》 *
高洪智等: "基于连续投影算法的土壤总氮近红外特征波长的提取", 《光谱学与光谱分析》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845051A (zh) * 2015-12-04 2017-06-13 北京光巨力信息技术有限公司 一种基于组合优化的近红外无创血糖检测波长变量筛选方法
CN105928901A (zh) * 2016-07-11 2016-09-07 上海创和亿电子科技发展有限公司 一种定性定量相结合的近红外定量模型构建方法
WO2018010352A1 (zh) * 2016-07-11 2018-01-18 上海创和亿电子科技发展有限公司 一种定性定量相结合的近红外定量模型构建方法
CN105928901B (zh) * 2016-07-11 2019-06-07 上海创和亿电子科技发展有限公司 一种定性定量相结合的近红外定量模型构建方法
CN108181263A (zh) * 2017-12-29 2018-06-19 浙江中烟工业有限责任公司 基于近红外光谱的烟叶部位特征提取及判别方法
CN108181263B (zh) * 2017-12-29 2021-01-12 浙江中烟工业有限责任公司 基于近红外光谱的烟叶部位特征提取及判别方法

Also Published As

Publication number Publication date
CN103927438B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN109271926B (zh) 基于gru深度卷积网络的智能辐射源识别方法
CN104990894B (zh) 一种基于加权吸光度及相似样本的汽油性质检测方法
CN107478580B (zh) 基于高光谱遥感的土壤重金属含量估算方法及装置
CN102722892B (zh) 基于低秩矩阵分解的sar图像变化检测方法
CN102930533B (zh) 一种基于改进k-均值聚类的半监督高光谱影像降维方法
CN103472008B (zh) 孵化前期近红外种蛋内鸡胚性别识别方法
CN106124449A (zh) 一种基于深度学习技术的土壤近红外光谱分析预测方法
CN107632010B (zh) 一种结合激光诱导击穿光谱对钢铁样品的定量方法
CN105137498A (zh) 一种基于特征融合的地下目标探测识别系统及方法
CN103886342A (zh) 基于光谱和邻域信息字典学习的高光谱图像分类方法
CN104820873A (zh) 一种基于金属定量构效关系的淡水急性基准预测方法
CN103886336A (zh) 基于稀疏自动编码器的极化sar图像分类方法
CN103413151A (zh) 基于图正则低秩表示维数约简的高光谱图像分类方法
CN104331583B (zh) 一种基于实测海杂波数据的多重分形建模方法
CN105022044A (zh) 基于去噪处理的实测海杂波建模方法
CN105334504A (zh) 基于大边界的非线性判别投影模型的雷达目标识别方法
CN103577676A (zh) 污水处理工艺综合评价的灰色加权法
CN103927438A (zh) 基于连续投影算法的近红外波长变量选择方法
CN103425995A (zh) 基于区域相似性低秩表示降维的高光谱图像分类方法
CN103675758A (zh) 一种双曲调频信号周期斜率和起始频率估计方法
CN103134770B (zh) 消除水分对近红外光谱检测土壤全氮含量影响的方法
CN105608296B (zh) 一种基于荔枝冠层光谱的叶片钾浓度反演方法
CN103278467A (zh) 一种植物叶片氮素丰缺快速无损高准确率的鉴别方法
CN102305792A (zh) 基于非线性偏最小二乘优化模型的森林碳汇遥感估算方法
CN104268561A (zh) 基于结构先验低秩表示的高光谱图像解混方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170811

CF01 Termination of patent right due to non-payment of annual fee