CN114295578B - 基于近红外光谱的烟叶常规化学成分通用模型建模方法 - Google Patents
基于近红外光谱的烟叶常规化学成分通用模型建模方法 Download PDFInfo
- Publication number
- CN114295578B CN114295578B CN202111313544.XA CN202111313544A CN114295578B CN 114295578 B CN114295578 B CN 114295578B CN 202111313544 A CN202111313544 A CN 202111313544A CN 114295578 B CN114295578 B CN 114295578B
- Authority
- CN
- China
- Prior art keywords
- model
- near infrared
- sample
- modeling
- infrared spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 235000002637 Nicotiana tabacum Nutrition 0.000 title claims abstract description 82
- 239000000126 substance Substances 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 53
- 244000061176 Nicotiana tabacum Species 0.000 title 1
- 241000208125 Nicotiana Species 0.000 claims abstract description 81
- 238000004519 manufacturing process Methods 0.000 claims abstract description 68
- 238000011156 evaluation Methods 0.000 claims abstract description 59
- 238000012546 transfer Methods 0.000 claims abstract description 45
- 238000001228 spectrum Methods 0.000 claims abstract description 31
- 238000000611 regression analysis Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 11
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000010238 partial least squares regression Methods 0.000 claims description 5
- 230000003416 augmentation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 229910052757 nitrogen Inorganic materials 0.000 claims description 4
- ZAMOUSCENKQFHK-UHFFFAOYSA-N Chlorine atom Chemical compound [Cl] ZAMOUSCENKQFHK-UHFFFAOYSA-N 0.000 claims description 3
- 241000196324 Embryophyta Species 0.000 claims description 3
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 claims description 3
- 239000003513 alkali Substances 0.000 claims description 3
- 239000000460 chlorine Substances 0.000 claims description 3
- 229910052801 chlorine Inorganic materials 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 239000011591 potassium Substances 0.000 claims description 3
- 229910052700 potassium Inorganic materials 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000012569 chemometric method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- SNICXCGAKADSCV-JTQLQIEISA-N (-)-Nicotine Chemical compound CN1CCC[C@H]1C1=CC=CN=C1 SNICXCGAKADSCV-JTQLQIEISA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 229960002715 nicotine Drugs 0.000 description 1
- SNICXCGAKADSCV-UHFFFAOYSA-N nicotine Natural products CN1CCCC1C1=CC=CN=C1 SNICXCGAKADSCV-UHFFFAOYSA-N 0.000 description 1
- 239000011368 organic material Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明提出一种基于近红外光谱的烟叶常规化学成分通用模型建模方法。首先在相同条件下采集烟叶样品的近红外光谱数据、产地信息,测得其常规化学成分含量。然后建立烟叶产地预测模型。其次设立一组期望模型目标评价参数,利用样品化学成分含量数据与预处理后的光谱数据进行偏最小二乘回归分析建模,若所得模型不符合要求,则对参与建模的样品进行以产地为单位的剔除,得到满足要求并适用最多产地的主模型。对于不参与主模型建模的样品,利用模型转移算法建立转移模型,得到满足参数要求前提下模型数最少的转移模型组。主模型与转移模型组共同构成通用模型,结合产地预测模型,可对来自全国各产区烟叶待测样品进行符合目标精度要求的成分预测。
Description
技术领域
本发明属于利用近红外光谱分析烟叶化学成分技术领域,具体涉及一种基于近红外光谱的烟叶常规化学成分通用模型建模方法。
背景技术
近红外光谱分析是指利用近红外光谱区包含的物质信息,主要用于有机物质大型和定量分析的一种分析技术,其波长范围为780-2500nm(12,500-4,000cm-1)。近红外光照射物质时,物质的一些官能团(如-CH,-OH,-SH和-NH等)会产生振动或能级跃迁,不同基团和物质的近红外吸收波长与强度具有明显差异,因此近红外红光谱反映了物质的结构和组成,由于物质中这些基团的数量和结构形式不同,会在近红外透射或反射光谱上产生相应信息。
近红外光谱分析兼备了可见光分析信号容易获取与红外区光谱分析信息量丰富两方面的优点,但在该谱区吸收强度相对较低、谱带复杂、重叠严重,无法使用经典定性、定量方法,需要依靠化学计量学方法提取信息,须借助化学计量学中的多元统计、曲线拟合、聚类分析等方法定标,将其所含的信息提取出来,结合合适的定标模型,可实现快速多组分分析。
近红外光谱技术具有快速、高效、无损等特点,在农业、食品、石化、医药、环保等诸领域得到应用。烟草中烟碱、糖、氮、焦油及其它一些质量特征与C-H,O-H,N-H及C=O等基团有着密切的联系,因此近红外分析技术在烟草行业中得到了更广泛应用。利用烟草近红外数据可建立烟叶中多种化学成份的定量预测模型,还可以结合一些具有强大特征提取能力的机器学习算法构建烟叶产地预测模型。
尽管目前已有的近红外光谱建模方法在一定产地范围的烟叶样品中可以实现较高精度的成分预测,但是由于不同烟草种植产地的土壤、种植方式、气候条件等因素的不同,导致不同产地烟叶的化学成分含量有较大差别,用传统方法统一建模会导致预测精度受限,所以模型的准确度与通用性难以兼顾。
发明内容
本发明的目的在于针对烟叶成分预测模型准确度与通用性难以兼顾的问题,联合光谱分析技术、化学计量学方法和机器学习技术,提供一种基于近红外光谱的烟叶常规化学成分通用模型建模方法。
为了实现上述目的,本发明采取的技术方案如下。
基于近红外光谱的烟叶常规化学成分通用模型建模方法,具体包括如下步骤:
1)在相同条件下采集不同产地的烟叶样品的近红外光谱数据,并测得其常规化学成分的含量,并将烟叶样品根据产地进行分类;
2)基于步骤1)中采集的烟叶样品近红外光谱数据与产地分类数据,利用特征提取算法建立烟叶产地预测模型,用于对来自未知产地的烟叶样品进行产地预测;
3)设立一组烟叶成分预测通用模型的目标评价参数,对步骤1)中采集的烟叶样品近红外光谱数据进行预处理,减小非目标因素影响;然后利用预处理后的近红外光谱数据与步骤1)中采集的样品化学成分含量数据进行偏最小二乘回归分析建模,并计算出模型的评价参数,将其与预设的目标评价参数进行比较,若不符合目标评价参数要求,则对参与建模的样品进行以产地为单位的剔除,最终得到在满足目标评价参数要求下包含最多产地的主模型,主模型可实现在所包含产地范围内待测烟叶样品的符合目标精度要求的常规化学成分含量预测;
4)对于不参与主模型建模的产地烟叶样品,基于主模型利用模型转移算法建立转移模型,得到一组满足目标评价参数前提下个数最少的转移模型组,转移模型组与步骤3)中得到的主模型共同构成了通用模型,该通用模型可实现所有产地待测烟叶样品的符合目标精度要求的常规化学成分含量预测;
5)对于待测烟叶样本,先采集其近红外光谱数据,若该烟叶样品产地已知,则直接利用通用模型进行常规化学成分预测;若产地未知,则先利用步骤2)中得到的产地预测模型预测其产地,再利用通用模型进行常规化学成分预测。
优选的,所述步骤1)中,所述的常规化学成分的含量为总糖、总植物碱、还原糖、氯、钾、总氮的含量。
优选的,所述的步骤3)具体为:
首先,预设一组烟叶成分预测通用模型的目标评价参数;
然后,设采集到的样品近红外光谱数据为X,测定的样品常规化学成分含量为Y,其中X为n×m矩阵,n为样品数量,m为波长点数,Y为n×6矩阵,每个样品对应6种化学成分含量;对原始近红外光谱数据进行预处理,设经过预处理后的光谱数据为Xpre;
对Xpre与Y进行偏最小二乘回归建模,得到样品常规化学成分含量的预测值Ypre,根据预测值Ypre与真实值Y,可以计算出模型的评价参数,对比模型的评价参数与设置的目标评价参数,若偏差小于设定阈值,则该模型即为最终的通用模型;否则,则以产地为单位对参与建模的样品集进行部分剔除,然后重复建模过程,直至得到的模型评价参数符合目标评价参数的要求,得到的模型即为主模型。
优选的,所述以产地为单位对参与建立主模型的样品集进行部分剔除,具体为:
对步骤1)中采集的样品近红外光谱数据、化学成分含量数据根据产地分组,总组数设为a,可得近红外光谱数据Xi,pre,化学成分含量数据Yi,其中i=1,2,..,a,Xi,pre为ni×m矩阵,Yi为ni×6矩阵,∑ni=n;可得到Xpre与Xi,pre、Y与Yi的关系:
Xpre=[X1,pre X2,pre ... Xa,pre]T (8)
Y=[Y1 Y2 ... Ya]T (9)
由于需要在满足目标评价参数的前提下产地数包含最多,剔除产地数需尽量小,所以从一个产地开始试剔除,定义矩阵Xi'为Xpre剔除了Xi,pre后得到的光谱数据矩阵,Yi'为Y剔除了Yi后得到的光谱数据矩阵,其中i=1,2,..,a,则:
X'i=[X1,pre ... Xi-1,pre Xi+1,pre ... Xa,pre]T (10)
Yi'=[Y1 ... Yi-1 Yi+1 ... Ya]T (11)
取i=1,2,..,a,将X'i与Yi'作为新的Xpre和Y重复建模过程,将建立模型符合目标参数的X'i与Yi'记录下来,若有多组X'i与Yi',则选择样品数最多,即行数最大的X'i(Yi')作为建立主模型的最终训练样品集X'与Y';若i取1~a均不能符合要求,则再多剔除一个产地的样品,重复建模过程,直到选择出符合要求的主模型样品集X'与Y';
利用光谱数据X'与相对应化学成分数据Y'建立的回归模型便为通用模型中的主模型。
所述的步骤4),具体为:
设不参与主模型建模的产地样品光谱数据为Xs,其测定的样品化学成分含量为Ys,其中Xs为n'×m矩阵,Ys为n'×6矩阵,则需要进行Xs对X'的光谱迁移,建立转移模型;
若建立的转移模型不能满足目标参数要求,则以产地为单位对参与转移模型建模的样品集进行部分剔除,然后偏最小二乘回归建模,直至得到的转移模型的模型评价参数符合目标评价参数的要求,得到第一个转移模型后,若还有产地的样品没有参与建模,则重复上述过程,建立新的转移模型,直到所有产地的样品均参与主模型或转移模型的建模,最终得到一个主模型与数个转移模型,共同组成了通用模型。
优选的,所述的以产地为单位对参与转移模型建模的样品集进行部分剔除的方法,与所述以产地为单位对参与建立主模型的样品集进行部分剔除的方法相同。
本发明的有益效果在于,本发明以近红外光谱分析技术为基础,结合化学计量学方法和机器学习技术进行建模。与现有的烟叶近红外定量建模方法相比,本发明通过建立主模型和转移模型群的方法构建通用模型,通用模型适用范围覆盖全国所有产烟省份,结合烟叶产地预测模型,可实现来源于国内所有产烟省份待测烟叶样品的符合目标精度要求的常规化学成分含量预测,兼顾了烟叶化学成分预测模型的准确度与通用性。
附图说明
图1是本发明实施例提供的基于近红外光谱的烟叶常规化学成分通用模型建模方法流程图。
图2是本发明实施例提供的原始光谱图。
图3是本发明实施例提供的模型目标评价参数表。
图4是本发明实施例提供的通用模型评价参数表。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图及实施例对本发明提供的基于近红外光谱的烟叶常规化学成分通用模型建模方法进行详细说明。应当说明,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
如图1所示,在本发明的一个具体实施例中,以国内各产烟省份的烟叶样品为例,来说明本发明的建模方法。
在本实施例中,基于近红外光谱并结合产地识别的烟叶常规化学成分建模方法,包括以下步骤:
步骤1,在相同条件下采集烟叶样品的近红外光谱数据,烟叶样品的原始光谱图如图2所示。并测得其总糖、总植物碱、还原糖、氯、钾、总氮的含量,其中烟叶样品的产地需包含所有的产烟省份,烟叶样品根据产地进行分类,样品取75%作为训练集,25%作为验证集;
步骤2,基于步骤1中采集的训练集样品近红外光谱数据与产地数据,利用特征提取算法建立烟叶产地预测模型,用于对来自未知产地的烟叶样品进行产地预测;
步骤3,设立一组对于烟叶成分预测通用模型的目标评价参数,如图3所示;基于步骤1中采集的训练集样品近红外光谱数据,选择合适的预处理方法(SNV、Smooth等方法)处理光谱数据,从而达到减小各种非目标因素影响待测样品有效信息的目的。然后利用处理后的光谱数据与步骤1中采集的样品化学成分含量数据进行偏最小二乘回归分析建模,并计算出模型的评价参数,将其与设立的目标评价参数进行比较。若不符合目标参数要求,则对参与建模的样品进行以省份为单位的剔除,最终得到在满足目标参数要求下包含最多省份的主模型,主模型可实现在所包含省份范围内待测烟叶样品的符合目标精度要求的常规化学成分含量预测;
该步骤具体实现如下:
设采集到的样品近红外光谱数据为X,测定的样品化学成分含量为Y,其中X为n×m矩阵,n为样品数量,m为波长点数,Y为n×6矩阵,每个样品对应6种化学成分含量;本实施例利用SNV方法对光谱数据进行预处理,实现如(1)式所示;
式中xi是第i个样品的光谱平均值,k=1,2,…,m;m为波长点数;i=1,2,..,n;n为校正样品数;Xi,sNV是第i个样品变换后的光谱,经过预处理后的样品整体光谱数据为XSNV;
对光谱数据进行预处理后,得到光谱数据XSNV,对XSNV与Y进行偏最小二乘回归建模;设置两个未知变量单位向量ω1和c1,向量ω1为m x 1维,c1为6x1维,将其分别对应为XSNV与Y的首个主成分轴向量,利用两者计算出XSNV与Y的首个主成分对,其设为t1和u1,t1和u1的计算方法为如(2)、(3)所示:
t1=XSNV*ω1 (13)
u1=Y*c1 (14)
然后最大化主成分对的方差:
Maximize<Xω1,Yc1>,Subject to:||ω1||=1,||c1||=1 (15)
求出ω1和c1,可知对称矩阵最大特征值所得到的特征向量为两个单位变量本身,结合拉格朗日乘子,得到对应主成分对,然后把XSNV、Y分别和主成分t1和u1进行建模,实现过程如(5)-(7)所示:
t1=XSNVω1;u1=Yc1 (16)
其中,E,G表示残差矩阵;结合具有相关关系的t1和u1,把Y改为对XSNV的t1进行回归分析,即:
其中,F表示残差矩阵;对于(6)-(8),利用最小二乘法进行计算,得到向量p1,q1与主成分向量r1:
由(9)-(11)可知,ω1和p1具有以下关系:
除了主成分对,还有残差矩阵E和F,再将E和F视作新的XSNV和Y,重复上述过程,不断循环直到F达到精度要求。最后得到了一系列方向向量w1,w2,...,wk;c1,c2,...,ck;主成分对t1,t2,...,tk;u1,u2,...,uk;主成分向量r1,r2,...rk。最终XSNV、Y可表示为:
将(13)、(14)写成矩阵的形式,令W=[w1 w2 ... wk],R=[r1 r2 ... rk],结合得到结果:
XSNV=TPT+E (26)
Y=TRT+F=XWRT+F=XSNVA+F (27)
得到Y与XSNV间的回归方程,其中A=WRT。
上述步骤中记录下得到的W和R,然后针对待预测的样品数据,利用W计算出t1,t2,...,tk:
t1=xTw1,t2=xTw2,...,tk=xTwk (28)
然后结合进行y的求解,得到最终的预测值Ypre。
根据预测值Ypre与真实值Y,可以计算出模型的评价参数,如相对误差RE、绝对误差AE、决定系数R2,对比模型的评价参数与设置的目标评价参数,若符合,则该模型即为最终的目标通用模型;若不符合,则以省份为单位对参与建模的样品集进行部分剔除,然后重复上述建模过程,直至得到的模型评价参数符合目标评价参数的要求,得到的模型即为主模型。在本例中,比较结果为不符合目标评价参数,需对样品集进行部分剔除,算法如下:
设参与建模的样品产地省份总数为a,将样品数据按省份进行分类整理,则可得近红外光谱数据Xi,SNV,化学成分含量数据Yi,其中i=1,2,..,a,Xi,SNV为ni×m矩阵,Yi为ni×6矩阵,∑ni=n;可得到XSNV与Xi,SNV、Y与Yi的关系:
XSNV=[X1,SNV X2,SNV ... Xa,SNV]T (29)
Y=[Y1 Y2 ... Ya]T (30)
由于需要在满足目标评价参数的前提下省份数包含最多,剔除省份数需尽量小,所以从一个省份开始试剔除,定义矩阵X'i为XSNV剔除了Xi,SNV后得到的光谱数据矩阵,Yi'为Y剔除了Yi后得到的光谱数据矩阵,其中i=1,2,..,a,则:
X'i=[X1,SNV ... Xi-1,SNV Xi+1,SNV ... Xa,SNV]T (31)
Yi'=[Y1 ... Yi-1 Yi+1 ... Ya]T (32)
取i=1,2,..,a,将X'i与Yi'作为新的XSNV和Y重复(2)-(17)建模过程,将建立模型符合目标参数的X'i与Yi'记录下来,若有多组X'i与Yi',则选择样品数最多,即行数最大的X'i(Yi')作为建立主模型的最终训练样品集X'与Y',在本例中,剔除福建省的样品即可达到目标精度的要求,即X'为XSNV剔除福建省样品光谱数据后的光谱数据;
利用光谱数据X'与相对应化学成分数据Y'建立的PLSR模型便为通用模型中的主模型。
步骤4,对于不参与主模型建模的省份样品,基于主模型利用光谱空间转换(SST)等算法建立转移模型,得到一组满足目标参数前提下个数最少的转移模型组,转移模型组与步骤3中得到的主模型共同构成了通用模型;
步骤4具体实现如下:
设不参与主模型建模的产地样品光谱数据为Xs,其测定的样品化学成分含量为Ys,其中Xs为n'×m矩阵,Ys为n'×6矩阵,则需要进行Xs对X'的光谱迁移,建立转移模型;
所述的进行Xs对X'的光谱迁移采用SST方法,
所述SST的具体实现过程为:
连接近红外光谱数据Xs与X',得到一个由Xs与标准光谱Xm构成的增广矩阵Xcom,对其进行主成分分析降维,获得对应Xs与X'的光谱数据的主成分载荷,然后构造转换矩阵,实现模型转移:
Xcom=[Xm,Xs]=TP=T[P×Tm,P×Ts] (33)
光谱Xs可以通过公式转换为X'm:
为了结构统一,可将上式分离出转换矩阵F:
其中I为单位矩阵,其中T和P分别为增广矩阵Xcom的PCA的得分和载荷,Pm和Ps分别为主数据集X'm和子数据集Xs的载荷。
若建立的转移模型不能满足目标参数要求,则以产地为单位对参与转移模型建模的样品集进行部分剔除,然后偏最小二乘回归建模,直至得到的转移模型的模型评价参数符合目标评价参数的要求,得到第一个转移模型后,若还有产地的样品没有参与建模,则重复上述过程,建立新的转移模型,直到所有产地的样品均参与主模型或转移模型的建模,最终得到一个主模型与数个转移模型,共同组成了通用模型。
需要说明的是,所述的以产地为单位对参与转移模型建模的样品集进行部分剔除的方法,与所述以产地为单位对参与建立主模型的样品集进行部分剔除的方法相同。
步骤5,对于待测烟叶样本,先在相同条件下采集其近红外光谱数据,若该样品产地已知,则直接利用通用模型进行成分预测,若产地未知,则先利用步骤2中得到的产地预测模型预测其产地,再利用通用模型进行相应的成分预测。
基于步骤1中采集的预测集样品近红外光谱数据,对通用模型性能进行测试,得到通用模型评价参数表图4,其中预测集相对误差RE与预测集决定系数R2为预测集样品化学成分含量预测值与真实值计算所得,标准RE与标准R2为模型目标评价参数,对比可知通用模型预测能力符合目标评价参数要求,兼顾了通用能力与预测精度。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于近红外光谱的烟叶常规化学成分通用模型构建方法,其特征在于,具体包括如下步骤:
1)在相同条件下采集不同产地的烟叶样品的近红外光谱数据,并测得其常规化学成分的含量,并将烟叶样品根据产地进行分类;
2)基于步骤1)中采集的烟叶样品近红外光谱数据与产地分类数据,利用特征提取算法建立烟叶产地预测模型,用于对来自未知产地的烟叶样品进行产地预测;
3)设立一组烟叶成分预测通用模型的目标评价参数,对步骤1)中采集的烟叶样品近红外光谱数据进行预处理,减小非目标因素影响;然后利用预处理后的近红外光谱数据与步骤1)中采集的样品化学成分含量数据进行偏最小二乘回归分析建模,并计算出模型的评价参数,将其与预设的目标评价参数进行比较,若不符合目标评价参数要求,则对参与建模的样品进行以产地为单位的剔除,最终得到在满足目标评价参数要求下包含最多产地的主模型,主模型可实现在所包含产地范围内待测烟叶样品的符合目标评价参数要求的常规化学成分含量预测;
4)对于不参与主模型建模的产地烟叶样品,基于主模型利用模型转移算法建立转移模型,得到一组满足目标评价参数前提下个数最少的转移模型组,转移模型组与步骤3)中得到的主模型共同构成了通用模型,该通用模型可实现所有产地待测烟叶样品的符合目标评价参数要求的常规化学成分含量预测;
5)对于待测烟叶样本,先采集其近红外光谱数据,若该烟叶样品产地已知,则直接利用通用模型进行常规化学成分预测;若产地未知,则先利用步骤2)中得到的产地预测模型预测其产地,再利用通用模型进行常规化学成分预测。
2.根据权利要求1所述的一种基于近红外光谱的烟叶常规化学成分通用模型构建方法,其特征在于,所述步骤1)中,所述的常规化学成分的含量为总糖、总植物碱、还原糖、氯、钾、总氮的含量。
3.根据权利要求1所述的一种基于近红外光谱的烟叶常规化学成分通用模型构建方法,其特征在于,步骤1)中所述的不同产地的烟叶样品包含国内所有产烟省份的烟叶样品。
4.根据权利要求1所述的一种基于近红外光谱的烟叶常规化学成分通用模型构建方法,其特征在于,所述的步骤3),具体为:
首先,预设一组烟叶成分预测通用模型的目标评价参数;
然后,设采集到的样品近红外光谱数据为X,测定的样品常规化学成分含量为Y,其中X为n×m矩阵,n为样品数量,m为波长点数,Y为n×6矩阵,每个样品对应6种化学成分含量;对原始近红外光谱数据进行预处理,设经过预处理后的光谱数据为Xpre;
对Xpre与Y进行偏最小二乘回归建模,得到样品常规化学成分含量的预测值Ypre,根据预测值Ypre与真实值Y,可以计算出模型的评价参数,对比模型的评价参数与设置的目标评价参数,若符合目标评价参数要求,则该模型即为通用模型;否则,则以产地为单位对参与建模的样品集进行部分剔除,然后重复建模过程,直至得到的模型评价参数符合目标评价参数的要求,得到的模型即为主模型。
5.根据权利要求4所述的一种基于近红外光谱的烟叶常规化学成分通用模型构建方法,其特征在于,所述以产地为单位对参与建立主模型的样品集进行部分剔除,具体为:
对步骤1)中采集的样品近红外光谱数据、化学成分含量数据根据产地分组,总组数设为a,可得近红外光谱数据Xi,pre,化学成分含量数据Yi,其中i=1,2,..,a,Xi,pre为ni×m矩阵,Yi为ni×6矩阵,∑ni=n;可得到Xpre与Xi,pre、Y与Yi的关系:
Xpre=[X1,pre X2,pre ... Xa,pre]T (1)
Y=[Y1 Y2 ... Ya]T (2)
由于需要在满足目标评价参数的前提下产地数包含最多,剔除产地数需尽量小,所以从一个产地开始试剔除,定义矩阵X′i为Xpre剔除了Xi,pre后得到的光谱数据矩阵,Yi'为Y剔除了Yi后得到的光谱数据矩阵,其中i=1,2,..,a,则:
X′i=[X1,pre ... Xi-1,pre Xi+1,pre ... Xa,pre]T (3)
Yi'=[Y1 ... Yi-1 Yi+1 ... Ya]T (4)
取i=1,2,..,a,将X′i与Yi'作为新的Xpre和Y重复建模过程,将建立模型符合目标评价参数的X′i与Yi'记录下来,若有多组X′i与Yi',则选择样品数最多,即行数最大的X′i(Yi')作为建立主模型的最终训练样品集X'与Y';若i取1~a均不能符合要求,则再多剔除一个产地的样品,直到选择出符合要求的主模型样品集X′与Y′;
利用光谱数据X′与相对应化学成分数据Y′建立的回归模型便为通用模型中的主模型。
6.根据权利要求5所述的基于近红外光谱的烟叶常规化学成分通用模型构建方法,其特征在于所述的步骤4),具体为:
设不参与主模型建模的产地样品光谱数据为Xs,其测定的样品化学成分含量为Ys,其中Xs为n'×m矩阵,Ys为n'×6矩阵,则需要进行Xs对X'的光谱迁移,建立转移模型;
若建立的转移模型不能满足目标评价参数要求,则以产地为单位对参与转移模型建模的样品集进行部分剔除,然后偏最小二乘回归建模,直至得到的转移模型的模型评价参数符合目标评价参数的要求,得到第一个转移模型后,若还有产地的样品没有参与建模,则重复上述过程,建立新的转移模型,直到所有产地的样品均参与主模型或转移模型的建模,最终得到一个主模型与数个转移模型,共同组成了通用模型。
7.根据权利要求6所述的基于近红外光谱的烟叶常规化学成分通用模型构建方法,其特征在于,所述的以产地为单位对参与转移模型建模的样品集进行部分剔除的方法,与所述以产地为单位对参与建立主模型的样品集进行部分剔除的方法相同。
8.根据权利要求6所述的基于近红外光谱的烟叶常规化学成分通用模型构建方法,其特征在于,所述的进行Xs对X'的光谱迁移采用SST方法,
所述SST的具体实现过程为:
连接近红外光谱数据Xs与X',得到一个由Xs与标准光谱Xm构成的增广矩阵Xcom,对其进行主成分分析降维,获得对应Xs与X'的光谱数据的主成分载荷,然后构造转换矩阵,实现模型转移:
Xcom=[Xm,Xs]=TP=T[P×Tm,P×Ts] (5)
光谱Xs可以通过公式转换为X'm:
为了结构统一,可将上式分离出转换矩阵F:
其中I为单位矩阵,其中T和P分别为增广矩阵Xcom的PCA的得分和载荷,Pm和Ps分别为主数据集X'm和子数据集Xs的载荷。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111313544.XA CN114295578B (zh) | 2021-11-08 | 2021-11-08 | 基于近红外光谱的烟叶常规化学成分通用模型建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111313544.XA CN114295578B (zh) | 2021-11-08 | 2021-11-08 | 基于近红外光谱的烟叶常规化学成分通用模型建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114295578A CN114295578A (zh) | 2022-04-08 |
CN114295578B true CN114295578B (zh) | 2024-01-09 |
Family
ID=80964383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111313544.XA Active CN114295578B (zh) | 2021-11-08 | 2021-11-08 | 基于近红外光谱的烟叶常规化学成分通用模型建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114295578B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115165795A (zh) * | 2022-06-28 | 2022-10-11 | 中国烟草总公司郑州烟草研究院 | 一种基于光谱转换的烟草化学成分预测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222164A (zh) * | 2011-05-30 | 2011-10-19 | 中国标准化研究院 | 一种食品感官质量评价方法及系统 |
CN105740898A (zh) * | 2016-01-29 | 2016-07-06 | 广西中烟工业有限责任公司 | 一种利用光谱特征向量结合主成分分析建立分类模型的方法 |
CN106501208A (zh) * | 2016-09-20 | 2017-03-15 | 广西中烟工业有限责任公司 | 一种基于近红外光谱特征的烟叶风格相似性分类方法 |
CN108195793A (zh) * | 2016-12-08 | 2018-06-22 | 中国农业机械化科学研究院 | 植物源性饲料原料氨基酸含量的通用模型构建方法 |
-
2021
- 2021-11-08 CN CN202111313544.XA patent/CN114295578B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222164A (zh) * | 2011-05-30 | 2011-10-19 | 中国标准化研究院 | 一种食品感官质量评价方法及系统 |
CN105740898A (zh) * | 2016-01-29 | 2016-07-06 | 广西中烟工业有限责任公司 | 一种利用光谱特征向量结合主成分分析建立分类模型的方法 |
CN106501208A (zh) * | 2016-09-20 | 2017-03-15 | 广西中烟工业有限责任公司 | 一种基于近红外光谱特征的烟叶风格相似性分类方法 |
CN108195793A (zh) * | 2016-12-08 | 2018-06-22 | 中国农业机械化科学研究院 | 植物源性饲料原料氨基酸含量的通用模型构建方法 |
Non-Patent Citations (2)
Title |
---|
烟叶通用近红外定量模型稳健性研究;秦玉华;中国博士学位论文全文数据库 (基础科学辑);1-127 * |
苹果糖度可见_近红外漫透射光谱在线检测通用模型研究;徐海;中国优秀硕士学位论文全文数据库 (工程科技Ⅰ辑);1-67 * |
Also Published As
Publication number | Publication date |
---|---|
CN114295578A (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112881306A (zh) | 一种基于高光谱图像的煤炭灰分含量快速检测方法 | |
CN104020127A (zh) | 一种利用近红外光谱快速测量烟叶中无机元素的方法 | |
CN114295578B (zh) | 基于近红外光谱的烟叶常规化学成分通用模型建模方法 | |
CN110243806A (zh) | 拉曼光谱下基于相似度的混合物组分识别方法 | |
Puttipipatkajorn et al. | Development of calibration models for rapid determination of moisture content in rubber sheets using portable near-infrared spectrometers | |
CN111595790A (zh) | 基于高光谱图像的青梅糖酸度预测方法 | |
CN105699319A (zh) | 一种基于高斯过程的近红外光谱煤全水分快速检测方法 | |
CN107976417B (zh) | 一种基于红外光谱的原油种类识别方法 | |
CN114112983B (zh) | 一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法 | |
CN114611582B (zh) | 一种基于近红外光谱技术分析物质浓度的方法及系统 | |
Xia et al. | Non-destructive analysis the dating of paper based on convolutional neural network | |
CN114331474A (zh) | 一种模糊线性判别分析的牛奶产地溯源方法 | |
CN109063767B (zh) | 一种基于样本和变量共识的近红外光谱建模方法 | |
CN117269106A (zh) | 快速预测辣椒蛋白质含量的高光谱模型 | |
CN112485238A (zh) | 一种基于拉曼光谱技术鉴别姜黄精油产地的方法 | |
CN115630332A (zh) | 一种小麦粉粉质特性预测方法 | |
CN115186584A (zh) | 一种融合注意力机制和自适应构图的宽度学习半监督软测量建模方法 | |
CN116484989A (zh) | 一种基于深度迁移学习的烟叶近红外多组分预测方法 | |
CN114414524A (zh) | 快速检测航空煤油性质的方法 | |
CN112697746A (zh) | 一种基于光谱信息的红薯粉明矾含量检测方法 | |
CN116952893B (zh) | 一种近红外检测猪粪堆肥过程中的腐殖化程度的方法 | |
CN117368146B (zh) | 一种菌丝体蛋白含量的快速检测方法 | |
CN115950854B (zh) | 一种硝酸-硝酸铵溶液中硝酸铵浓度预测方法 | |
CN114354534A (zh) | 利用二元线性分类器建立航空煤油性质预测模型的方法 | |
CN109406420B (zh) | 基于高光谱成像技术预测枸杞子中东莨菪内酯含量的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |