CN114295578B

CN114295578B - 基于近红外光谱的烟叶常规化学成分通用模型建模方法

Info

Publication number: CN114295578B
Application number: CN202111313544.XA
Authority: CN
Inventors: 厉小润; 时艺丹; 彭钰涵; 戴路; 廖付; 慕继瑞; 张立立; 李永生; 何文苗; 李石头; 王辉; 吴继忠; 黄慧
Original assignee: Zhejiang University ZJU; China Tobacco Zhejiang Industrial Co Ltd
Current assignee: Zhejiang University ZJU; China Tobacco Zhejiang Industrial Co Ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2024-01-09
Anticipated expiration: 2041-11-08
Also published as: CN114295578A

Abstract

本发明提出一种基于近红外光谱的烟叶常规化学成分通用模型建模方法。首先在相同条件下采集烟叶样品的近红外光谱数据、产地信息，测得其常规化学成分含量。然后建立烟叶产地预测模型。其次设立一组期望模型目标评价参数，利用样品化学成分含量数据与预处理后的光谱数据进行偏最小二乘回归分析建模，若所得模型不符合要求，则对参与建模的样品进行以产地为单位的剔除，得到满足要求并适用最多产地的主模型。对于不参与主模型建模的样品，利用模型转移算法建立转移模型，得到满足参数要求前提下模型数最少的转移模型组。主模型与转移模型组共同构成通用模型，结合产地预测模型，可对来自全国各产区烟叶待测样品进行符合目标精度要求的成分预测。

Description

基于近红外光谱的烟叶常规化学成分通用模型建模方法

技术领域

本发明属于利用近红外光谱分析烟叶化学成分技术领域，具体涉及一种基于近红外光谱的烟叶常规化学成分通用模型建模方法。

背景技术

近红外光谱分析是指利用近红外光谱区包含的物质信息，主要用于有机物质大型和定量分析的一种分析技术，其波长范围为780-2500nm(12,500-4,000cm^-1)。近红外光照射物质时，物质的一些官能团(如-CH,-OH,-SH和-NH等)会产生振动或能级跃迁，不同基团和物质的近红外吸收波长与强度具有明显差异，因此近红外红光谱反映了物质的结构和组成，由于物质中这些基团的数量和结构形式不同，会在近红外透射或反射光谱上产生相应信息。

近红外光谱分析兼备了可见光分析信号容易获取与红外区光谱分析信息量丰富两方面的优点，但在该谱区吸收强度相对较低、谱带复杂、重叠严重，无法使用经典定性、定量方法，需要依靠化学计量学方法提取信息，须借助化学计量学中的多元统计、曲线拟合、聚类分析等方法定标，将其所含的信息提取出来，结合合适的定标模型，可实现快速多组分分析。

近红外光谱技术具有快速、高效、无损等特点，在农业、食品、石化、医药、环保等诸领域得到应用。烟草中烟碱、糖、氮、焦油及其它一些质量特征与C-H，O-H，N-H及C＝O等基团有着密切的联系，因此近红外分析技术在烟草行业中得到了更广泛应用。利用烟草近红外数据可建立烟叶中多种化学成份的定量预测模型，还可以结合一些具有强大特征提取能力的机器学习算法构建烟叶产地预测模型。

尽管目前已有的近红外光谱建模方法在一定产地范围的烟叶样品中可以实现较高精度的成分预测，但是由于不同烟草种植产地的土壤、种植方式、气候条件等因素的不同，导致不同产地烟叶的化学成分含量有较大差别，用传统方法统一建模会导致预测精度受限，所以模型的准确度与通用性难以兼顾。

发明内容

本发明的目的在于针对烟叶成分预测模型准确度与通用性难以兼顾的问题，联合光谱分析技术、化学计量学方法和机器学习技术，提供一种基于近红外光谱的烟叶常规化学成分通用模型建模方法。

为了实现上述目的，本发明采取的技术方案如下。

基于近红外光谱的烟叶常规化学成分通用模型建模方法，具体包括如下步骤：

1)在相同条件下采集不同产地的烟叶样品的近红外光谱数据，并测得其常规化学成分的含量，并将烟叶样品根据产地进行分类；

2)基于步骤1)中采集的烟叶样品近红外光谱数据与产地分类数据，利用特征提取算法建立烟叶产地预测模型，用于对来自未知产地的烟叶样品进行产地预测；

3)设立一组烟叶成分预测通用模型的目标评价参数，对步骤1)中采集的烟叶样品近红外光谱数据进行预处理，减小非目标因素影响；然后利用预处理后的近红外光谱数据与步骤1)中采集的样品化学成分含量数据进行偏最小二乘回归分析建模，并计算出模型的评价参数，将其与预设的目标评价参数进行比较，若不符合目标评价参数要求，则对参与建模的样品进行以产地为单位的剔除，最终得到在满足目标评价参数要求下包含最多产地的主模型，主模型可实现在所包含产地范围内待测烟叶样品的符合目标精度要求的常规化学成分含量预测；

4)对于不参与主模型建模的产地烟叶样品，基于主模型利用模型转移算法建立转移模型，得到一组满足目标评价参数前提下个数最少的转移模型组，转移模型组与步骤3)中得到的主模型共同构成了通用模型，该通用模型可实现所有产地待测烟叶样品的符合目标精度要求的常规化学成分含量预测；

5)对于待测烟叶样本，先采集其近红外光谱数据，若该烟叶样品产地已知，则直接利用通用模型进行常规化学成分预测；若产地未知，则先利用步骤2)中得到的产地预测模型预测其产地，再利用通用模型进行常规化学成分预测。

优选的，所述步骤1)中，所述的常规化学成分的含量为总糖、总植物碱、还原糖、氯、钾、总氮的含量。

优选的，所述的步骤3)具体为：

首先，预设一组烟叶成分预测通用模型的目标评价参数；

然后，设采集到的样品近红外光谱数据为X，测定的样品常规化学成分含量为Y，其中X为n×m矩阵，n为样品数量，m为波长点数，Y为n×6矩阵，每个样品对应6种化学成分含量；对原始近红外光谱数据进行预处理，设经过预处理后的光谱数据为X_pre；

对X_pre与Y进行偏最小二乘回归建模，得到样品常规化学成分含量的预测值Y_pre，根据预测值Y_pre与真实值Y，可以计算出模型的评价参数，对比模型的评价参数与设置的目标评价参数，若偏差小于设定阈值，则该模型即为最终的通用模型；否则，则以产地为单位对参与建模的样品集进行部分剔除，然后重复建模过程，直至得到的模型评价参数符合目标评价参数的要求，得到的模型即为主模型。

优选的，所述以产地为单位对参与建立主模型的样品集进行部分剔除，具体为：

对步骤1)中采集的样品近红外光谱数据、化学成分含量数据根据产地分组，总组数设为a，可得近红外光谱数据X_i,pre，化学成分含量数据Y_i，其中i＝1,2,..,a，X_i,pre为n_i×m矩阵，Y_i为n_i×6矩阵，∑n_i＝n；可得到X_pre与X_i,pre、Y与Y_i的关系：

X_pre＝[X_1,pre X_2,pre ... X_a,pre]^T (8)

Y＝[Y₁ Y₂ ... Y_a]^T (9)

由于需要在满足目标评价参数的前提下产地数包含最多，剔除产地数需尽量小，所以从一个产地开始试剔除，定义矩阵X_i'为X_pre剔除了X_i,pre后得到的光谱数据矩阵，Y_i'为Y剔除了Y_i后得到的光谱数据矩阵，其中i＝1,2,..,a，则：

X'_i＝[X_1,pre ... X_i-1,pre X_i+1,pre ... X_a,pre]^T (10)

Y_i'＝[Y₁ ... Y_i-1 Y_i+1 ... Y_a]^T (11)

取i＝1,2,..,a，将X'_i与Y_i'作为新的X_pre和Y重复建模过程，将建立模型符合目标参数的X'_i与Y_i'记录下来，若有多组X'_i与Y_i'，则选择样品数最多，即行数最大的X'_i(Y_i')作为建立主模型的最终训练样品集X'与Y'；若i取1～a均不能符合要求，则再多剔除一个产地的样品，重复建模过程，直到选择出符合要求的主模型样品集X'与Y'；

利用光谱数据X'与相对应化学成分数据Y'建立的回归模型便为通用模型中的主模型。

所述的步骤4)，具体为：

设不参与主模型建模的产地样品光谱数据为X_s，其测定的样品化学成分含量为Y_s，其中X_s为n'×m矩阵，Y_s为n'×6矩阵，则需要进行X_s对X'的光谱迁移，建立转移模型；

若建立的转移模型不能满足目标参数要求，则以产地为单位对参与转移模型建模的样品集进行部分剔除，然后偏最小二乘回归建模，直至得到的转移模型的模型评价参数符合目标评价参数的要求，得到第一个转移模型后，若还有产地的样品没有参与建模，则重复上述过程，建立新的转移模型，直到所有产地的样品均参与主模型或转移模型的建模，最终得到一个主模型与数个转移模型，共同组成了通用模型。

优选的，所述的以产地为单位对参与转移模型建模的样品集进行部分剔除的方法，与所述以产地为单位对参与建立主模型的样品集进行部分剔除的方法相同。

本发明的有益效果在于，本发明以近红外光谱分析技术为基础，结合化学计量学方法和机器学习技术进行建模。与现有的烟叶近红外定量建模方法相比，本发明通过建立主模型和转移模型群的方法构建通用模型，通用模型适用范围覆盖全国所有产烟省份，结合烟叶产地预测模型，可实现来源于国内所有产烟省份待测烟叶样品的符合目标精度要求的常规化学成分含量预测，兼顾了烟叶化学成分预测模型的准确度与通用性。

附图说明

图1是本发明实施例提供的基于近红外光谱的烟叶常规化学成分通用模型建模方法流程图。

图2是本发明实施例提供的原始光谱图。

图3是本发明实施例提供的模型目标评价参数表。

图4是本发明实施例提供的通用模型评价参数表。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图及实施例对本发明提供的基于近红外光谱的烟叶常规化学成分通用模型建模方法进行详细说明。应当说明，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

如图1所示，在本发明的一个具体实施例中，以国内各产烟省份的烟叶样品为例，来说明本发明的建模方法。

在本实施例中，基于近红外光谱并结合产地识别的烟叶常规化学成分建模方法，包括以下步骤：

步骤1，在相同条件下采集烟叶样品的近红外光谱数据，烟叶样品的原始光谱图如图2所示。并测得其总糖、总植物碱、还原糖、氯、钾、总氮的含量，其中烟叶样品的产地需包含所有的产烟省份，烟叶样品根据产地进行分类，样品取75％作为训练集，25％作为验证集；

步骤2，基于步骤1中采集的训练集样品近红外光谱数据与产地数据，利用特征提取算法建立烟叶产地预测模型，用于对来自未知产地的烟叶样品进行产地预测；

步骤3，设立一组对于烟叶成分预测通用模型的目标评价参数，如图3所示；基于步骤1中采集的训练集样品近红外光谱数据，选择合适的预处理方法(SNV、Smooth等方法)处理光谱数据，从而达到减小各种非目标因素影响待测样品有效信息的目的。然后利用处理后的光谱数据与步骤1中采集的样品化学成分含量数据进行偏最小二乘回归分析建模，并计算出模型的评价参数，将其与设立的目标评价参数进行比较。若不符合目标参数要求，则对参与建模的样品进行以省份为单位的剔除，最终得到在满足目标参数要求下包含最多省份的主模型，主模型可实现在所包含省份范围内待测烟叶样品的符合目标精度要求的常规化学成分含量预测；

该步骤具体实现如下：

设采集到的样品近红外光谱数据为X，测定的样品化学成分含量为Y，其中X为n×m矩阵，n为样品数量，m为波长点数，Y为n×6矩阵，每个样品对应6种化学成分含量；本实施例利用SNV方法对光谱数据进行预处理，实现如(1)式所示；

式中x_i是第i个样品的光谱平均值，k＝1,2,…,m；m为波长点数；i＝1,2,..,n；n为校正样品数；X_i,sNV是第i个样品变换后的光谱，经过预处理后的样品整体光谱数据为X_SNV；

对光谱数据进行预处理后，得到光谱数据X_SNV，对X_SNV与Y进行偏最小二乘回归建模；设置两个未知变量单位向量ω₁和c₁，向量ω₁为m x 1维，c₁为6x1维，将其分别对应为X_SNV与Y的首个主成分轴向量，利用两者计算出X_SNV与Y的首个主成分对，其设为t₁和u₁，t₁和u₁的计算方法为如(2)、(3)所示：

t₁＝X_SNV*ω₁ (13)

u₁＝Y*c₁ (14)

然后最大化主成分对的方差：

Maximize＜X_ω1,Y_c1＞,Subject to:||ω₁||＝1,||c₁||＝1 (15)

求出ω₁和c₁，可知对称矩阵最大特征值所得到的特征向量为两个单位变量本身，结合拉格朗日乘子，得到对应主成分对，然后把X_SNV、Y分别和主成分t₁和u₁进行建模，实现过程如(5)-(7)所示：

t₁＝X_SNVω₁；u₁＝Yc₁ (16)

其中，E,G表示残差矩阵；结合具有相关关系的t₁和u₁，把Y改为对X_SNV的t₁进行回归分析，即：

其中，F表示残差矩阵；对于(6)-(8)，利用最小二乘法进行计算，得到向量p₁,q₁与主成分向量r₁：

由(9)-(11)可知，ω₁和p₁具有以下关系：

除了主成分对，还有残差矩阵E和F，再将E和F视作新的X_SNV和Y，重复上述过程，不断循环直到F达到精度要求。最后得到了一系列方向向量w₁,w₂,...,w_k；c₁,c₂,...,c_k；主成分对t₁,t₂,...,t_k；u₁,u₂,...,u_k；主成分向量r₁,r₂,...r_k。最终X_SNV、Y可表示为：

将(13)、(14)写成矩阵的形式，令W＝[w₁ w₂ ... w_k],R＝[r₁ r₂ ... r_k],结合得到结果：

X_SNV＝TP^T+E (26)

Y＝TR^T+F＝XWR^T+F＝X_SNVA+F (27)

得到Y与X_SNV间的回归方程，其中A＝WR^T。

上述步骤中记录下得到的W和R，然后针对待预测的样品数据，利用W计算出t₁,t₂,...,t_k：

t₁＝x^Tw₁,t₂＝x^Tw₂,...,t_k＝x^Tw_k (28)

然后结合进行y的求解，得到最终的预测值Y_pre。

根据预测值Y_pre与真实值Y，可以计算出模型的评价参数，如相对误差RE、绝对误差AE、决定系数R²，对比模型的评价参数与设置的目标评价参数，若符合，则该模型即为最终的目标通用模型；若不符合，则以省份为单位对参与建模的样品集进行部分剔除，然后重复上述建模过程，直至得到的模型评价参数符合目标评价参数的要求，得到的模型即为主模型。在本例中，比较结果为不符合目标评价参数，需对样品集进行部分剔除，算法如下：

设参与建模的样品产地省份总数为a，将样品数据按省份进行分类整理，则可得近红外光谱数据X_i,SNV，化学成分含量数据Y_i，其中i＝1,2,..,a，X_i,SNV为n_i×m矩阵，Y_i为n_i×6矩阵，∑n_i＝n；可得到X_SNV与X_i,SNV、Y与Y_i的关系：

X_SNV＝[X_1,SNV X_2,SNV ... X_a,SNV]^T (29)

Y＝[Y₁ Y₂ ... Y_a]^T (30)

由于需要在满足目标评价参数的前提下省份数包含最多，剔除省份数需尽量小，所以从一个省份开始试剔除，定义矩阵X'_i为X_SNV剔除了X_i,SNV后得到的光谱数据矩阵，Y_i'为Y剔除了Y_i后得到的光谱数据矩阵，其中i＝1,2,..,a，则：

X'_i＝[X_1,SNV ... X_i-1,SNV X_i+1,SNV ... X_a,SNV]^T (31)

Y_i'＝[Y₁ ... Y_i-1 Y_i+1 ... Y_a]^T (32)

取i＝1,2,..,a，将X'_i与Y_i'作为新的X_SNV和Y重复(2)-(17)建模过程，将建立模型符合目标参数的X'_i与Y_i'记录下来，若有多组X'_i与Y_i'，则选择样品数最多，即行数最大的X'_i(Y_i')作为建立主模型的最终训练样品集X'与Y'，在本例中，剔除福建省的样品即可达到目标精度的要求，即X'为X_SNV剔除福建省样品光谱数据后的光谱数据；

利用光谱数据X'与相对应化学成分数据Y'建立的PLSR模型便为通用模型中的主模型。

步骤4，对于不参与主模型建模的省份样品，基于主模型利用光谱空间转换(SST)等算法建立转移模型，得到一组满足目标参数前提下个数最少的转移模型组，转移模型组与步骤3中得到的主模型共同构成了通用模型；

步骤4具体实现如下：

所述的进行X_s对X'的光谱迁移采用SST方法，

所述SST的具体实现过程为：

连接近红外光谱数据X_s与X'，得到一个由X_s与标准光谱X_m构成的增广矩阵X_com，对其进行主成分分析降维，获得对应X_s与X'的光谱数据的主成分载荷，然后构造转换矩阵，实现模型转移：

X_com＝[X_m,X_s]＝TP＝T[P×T_m,P×T_s] (33)

光谱X_s可以通过公式转换为X'_m：

为了结构统一，可将上式分离出转换矩阵F：

其中I为单位矩阵，其中T和P分别为增广矩阵X_com的PCA的得分和载荷，P_m和P_s分别为主数据集X'_m和子数据集X_s的载荷。

需要说明的是，所述的以产地为单位对参与转移模型建模的样品集进行部分剔除的方法，与所述以产地为单位对参与建立主模型的样品集进行部分剔除的方法相同。

步骤5，对于待测烟叶样本，先在相同条件下采集其近红外光谱数据，若该样品产地已知，则直接利用通用模型进行成分预测，若产地未知，则先利用步骤2中得到的产地预测模型预测其产地，再利用通用模型进行相应的成分预测。

基于步骤1中采集的预测集样品近红外光谱数据，对通用模型性能进行测试，得到通用模型评价参数表图4，其中预测集相对误差RE与预测集决定系数R²为预测集样品化学成分含量预测值与真实值计算所得，标准RE与标准R²为模型目标评价参数，对比可知通用模型预测能力符合目标评价参数要求，兼顾了通用能力与预测精度。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于近红外光谱的烟叶常规化学成分通用模型构建方法，其特征在于，具体包括如下步骤：

3)设立一组烟叶成分预测通用模型的目标评价参数，对步骤1)中采集的烟叶样品近红外光谱数据进行预处理，减小非目标因素影响；然后利用预处理后的近红外光谱数据与步骤1)中采集的样品化学成分含量数据进行偏最小二乘回归分析建模，并计算出模型的评价参数，将其与预设的目标评价参数进行比较，若不符合目标评价参数要求，则对参与建模的样品进行以产地为单位的剔除，最终得到在满足目标评价参数要求下包含最多产地的主模型，主模型可实现在所包含产地范围内待测烟叶样品的符合目标评价参数要求的常规化学成分含量预测；

4)对于不参与主模型建模的产地烟叶样品，基于主模型利用模型转移算法建立转移模型，得到一组满足目标评价参数前提下个数最少的转移模型组，转移模型组与步骤3)中得到的主模型共同构成了通用模型，该通用模型可实现所有产地待测烟叶样品的符合目标评价参数要求的常规化学成分含量预测；

2.根据权利要求1所述的一种基于近红外光谱的烟叶常规化学成分通用模型构建方法，其特征在于，所述步骤1)中，所述的常规化学成分的含量为总糖、总植物碱、还原糖、氯、钾、总氮的含量。

3.根据权利要求1所述的一种基于近红外光谱的烟叶常规化学成分通用模型构建方法，其特征在于，步骤1)中所述的不同产地的烟叶样品包含国内所有产烟省份的烟叶样品。

4.根据权利要求1所述的一种基于近红外光谱的烟叶常规化学成分通用模型构建方法，其特征在于，所述的步骤3)，具体为：

首先，预设一组烟叶成分预测通用模型的目标评价参数；

对X_pre与Y进行偏最小二乘回归建模，得到样品常规化学成分含量的预测值Y_pre，根据预测值Y_pre与真实值Y，可以计算出模型的评价参数，对比模型的评价参数与设置的目标评价参数，若符合目标评价参数要求，则该模型即为通用模型；否则，则以产地为单位对参与建模的样品集进行部分剔除，然后重复建模过程，直至得到的模型评价参数符合目标评价参数的要求，得到的模型即为主模型。

5.根据权利要求4所述的一种基于近红外光谱的烟叶常规化学成分通用模型构建方法，其特征在于，所述以产地为单位对参与建立主模型的样品集进行部分剔除，具体为：

X_pre＝[X_1,pre X_2,pre ... X_a,pre]^T (1)

Y＝[Y₁ Y₂ ... Y_a]^T (2)

由于需要在满足目标评价参数的前提下产地数包含最多，剔除产地数需尽量小，所以从一个产地开始试剔除，定义矩阵X′_i为X_pre剔除了X_i,pre后得到的光谱数据矩阵，Y_i'为Y剔除了Y_i后得到的光谱数据矩阵，其中i＝1,2,..,a，则：

X′_i＝[X_1,pre ... X_i-1,pre X_i+1,pre ... X_a,pre]^T (3)

Y_i'＝[Y₁ ... Y_i-1 Y_i+1 ... Y_a]^T (4)

取i＝1,2,..,a，将X′_i与Y_i'作为新的X_pre和Y重复建模过程，将建立模型符合目标评价参数的X′_i与Y_i'记录下来，若有多组X′_i与Y_i'，则选择样品数最多，即行数最大的X′_i(Y_i')作为建立主模型的最终训练样品集X'与Y'；若i取1～a均不能符合要求，则再多剔除一个产地的样品，直到选择出符合要求的主模型样品集X′与Y′；

利用光谱数据X′与相对应化学成分数据Y′建立的回归模型便为通用模型中的主模型。

6.根据权利要求5所述的基于近红外光谱的烟叶常规化学成分通用模型构建方法，其特征在于所述的步骤4)，具体为：

若建立的转移模型不能满足目标评价参数要求，则以产地为单位对参与转移模型建模的样品集进行部分剔除，然后偏最小二乘回归建模，直至得到的转移模型的模型评价参数符合目标评价参数的要求，得到第一个转移模型后，若还有产地的样品没有参与建模，则重复上述过程，建立新的转移模型，直到所有产地的样品均参与主模型或转移模型的建模，最终得到一个主模型与数个转移模型，共同组成了通用模型。

7.根据权利要求6所述的基于近红外光谱的烟叶常规化学成分通用模型构建方法，其特征在于，所述的以产地为单位对参与转移模型建模的样品集进行部分剔除的方法，与所述以产地为单位对参与建立主模型的样品集进行部分剔除的方法相同。

8.根据权利要求6所述的基于近红外光谱的烟叶常规化学成分通用模型构建方法，其特征在于，所述的进行X_s对X'的光谱迁移采用SST方法，

所述SST的具体实现过程为：

X_com＝[X_m,X_s]＝TP＝T[P×T_m,P×T_s] (5)

光谱X_s可以通过公式转换为X'_m：

为了结构统一，可将上式分离出转换矩阵F：