CN108120694B - 用于晒红烟化学成分分析的多元校正方法及系统 - Google Patents

用于晒红烟化学成分分析的多元校正方法及系统 Download PDF

Info

Publication number
CN108120694B
CN108120694B CN201611080365.5A CN201611080365A CN108120694B CN 108120694 B CN108120694 B CN 108120694B CN 201611080365 A CN201611080365 A CN 201611080365A CN 108120694 B CN108120694 B CN 108120694B
Authority
CN
China
Prior art keywords
partial
weight
sample
module
sun
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611080365.5A
Other languages
English (en)
Other versions
CN108120694A (zh
Inventor
杜国荣
马雁军
马莉
黄越
周骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tobacco Group Co Ltd
Original Assignee
Beijing Cigarette Factory Shanghai Tobacco Group Co ltd
Shanghai Tobacco Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cigarette Factory Shanghai Tobacco Group Co ltd, Shanghai Tobacco Group Co Ltd filed Critical Beijing Cigarette Factory Shanghai Tobacco Group Co ltd
Priority to CN201611080365.5A priority Critical patent/CN108120694B/zh
Publication of CN108120694A publication Critical patent/CN108120694A/zh
Application granted granted Critical
Publication of CN108120694B publication Critical patent/CN108120694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/3563Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing solids; Preparation of samples therefor

Landscapes

  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明提供一种用于晒红烟化学成分分析的多元校正方法及系统,包括根据光谱变量权重,使用选取的样品建立偏最小二乘回归模型;根据偏最小二乘回归模型计算所有建模样品的预测误差;计算偏最小二乘回归模型的模型权重;计算所有建模样品的样品权重;确定保留光谱变量个数,选取n i 个光谱变量;进行T次迭代,得到T个偏最小二乘回归模型及对应的模型权重;利用T个偏最小二乘回归模型得到T个晒红烟样品的化学成分的预测值;根据T个晒红烟样品的化学成分的预测值和对应偏最小二乘回归模型的归一化权重得到未知样品的化学成分的最终预测结果。本发明的用于晒红烟化学成分分析的多元校正方法及系统降低利用近红外光谱分析晒红烟化学成分的预测误差。

Description

用于晒红烟化学成分分析的多元校正方法及系统
技术领域
本发明涉及烟草化学分析领域,特别是涉及一种用于晒红烟化学成分分析的多元校正方法及系统。
背景技术
近红外光谱是介于可见光和中红外光之间的电磁波谱,波数约为:10000~4000cm-1。近红外光谱法是利用含有氢基团(X-H,X为:C,O,N,S等)化学键(X-H)伸缩振动倍频和合频,在近红外区的吸收光谱,通过选择适当的化学计量学多元校正方法,把校正样品的近红外吸收光谱与其成分浓度或性质数据进行关联,建立校正样品吸收光谱与其成分浓度或性质之间的关系-校正模型。在进行未知样品预测时,应用已建好的校正模型和未知样品的吸收光谱,就可定量预测其成分浓度或性质。另外,通过选择合适的化学计量学模式识别方法,也可分离提取样本的近红外吸收光谱特征信息,并建立相应的类模型。在进行未知样品的分类时,应用已建立的类模型和未知样品的吸收光谱,便可定性判别未知样品的归属。
近红外光谱分析技术由于具有在线、无损、准确等特点而受到了广泛的关注,已经成功地应用于烟叶原料的化学分析、在线监测等多方面领域。开发并应用准确、快速的烟叶原料分析方法对原料的品质控制、研制工艺等有重要意义。
晒红烟是雪茄烟和混合型卷烟的工业原料,其化学成分对产品的品质具有重要影响。使用近红外漫反射光谱法对晒红烟的总糖、总植物碱、总氮、蛋白质等化学成分进行快速分析便于烟草产品的品质控制、快速研发,具有重要的实际意义。由于近红外光谱包含上千个波长变量,其中有些变量为冗余变量、干扰变量,参与建模会增加样品的预测误差。故需要和多元校正方法结合建立模型,才可以用于样品的定量分析。为了提高分析结果的准确度,必须研究适合晒红烟化学成分分析的近红外多元校正方法。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种用于晒红烟化学成分分析的多元校正方法及系统,通过推进(boosting)选样方式,建立一种变量修正推进偏最小二乘模型用于晒红烟化学成分分析,从而减少模型过拟合,降低利用近红外光谱分析晒红烟化学成分的预测误差。
为实现上述目的及其他相关目的,本发明提供一种用于晒红烟化学成分分析的多元校正方法,包括以下步骤:设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值;根据推进取样量,按照轮盘堵方式选取部分样品;根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数;根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差
Figure BDA0001166800420000021
其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值,
Figure BDA0001166800420000022
为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值;根据公式
Figure BDA0001166800420000023
计算偏最小二乘回归模型Mi的模型权重,其中Lk,i=ek,i/yk,i,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重;根据公式
Figure BDA0001166800420000024
计算迭代次数为i+1时所有建模样品的样品权重;根据公式
Figure BDA0001166800420000025
确定保留光谱变量个数ni,其中j为光谱变量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正;根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重;根据公式
Figure BDA0001166800420000026
归一化偏最小二乘回归模型权重;利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
于本发明一实施例中,设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
于本发明一实施例中,还包括:在建立偏最小二乘回归模型之前,对样品的光谱变量进行中心化。
于本发明一实施例中,对偏最小二乘回归模型使用5折交叉验证。
于本发明一实施例中,所述光谱变量变化迭代次数j的初始值为1,随光谱变量个数变化而累计加1。
同时,本发明还提供一种用于晒红烟化学成分分析的多元校正系统,包括设定模块、选取模块、模型建立模块、预测误差计算模块、模型权重计算模块、样品权重计算模块、变量修正模块、迭代模块、归一化模块和预测模块;
所述设定模块用于设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值;
所述选取模块用于根据推进取样量,按照轮盘堵方式选取部分样品;
所述模型建立模块用于根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数;
所述预测误差计算模块用于根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差
Figure BDA0001166800420000031
其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值,
Figure BDA0001166800420000032
为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值;
所述模型权重计算模块用于根据公式
Figure BDA0001166800420000033
计算偏最小二乘回归模型Mi的模型权重,其中Lk,i=ek,i/yk,i,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重;
所述样品权重计算模块用于根据公式
Figure BDA0001166800420000034
计算迭代次数为i+1时所有建模样品的样品权重;
所述变量修正模块用于根据公式
Figure BDA0001166800420000035
确定保留光谱变量个数ni,其中j为光谱变量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正;
所述迭代模块用于根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重;
所述归一化模块用于根据公式
Figure BDA0001166800420000041
归一化偏最小二乘回归模型权重;
所述预测模块用于利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
于本发明一实施例中,所述设定模块设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
于本发明一实施例中,还包括中心化模块,所述中心化模块用于在建立偏最小二乘回归模型之前,对样品的光谱变量进行中心化。
于本发明一实施例中,所述变量修正模块对偏最小二乘回归模型使用5折交叉验证。
于本发明一实施例中,所述光谱变量变化迭代次数j的初始值为1,随光谱变量个数变化而累计加1。
如上所述,本发明的用于晒红烟化学成分分析的多元校正方法及系统,具有以下有益效果:
(1)在推进偏最小二乘法子模型建立过程中引入变量修正的步骤,提高了子模型的预测能力,保证了整体模型较好的预测能力;
(2)降低了晒红烟化学成分近红外光谱分析的预测误差。
附图说明
图1显示为本发明的用于晒红烟化学成分分析的多元校正方法的流程图;
图2显示为本发明的实施例中晒红烟样品的光谱图;
图3显示为保留变量的偏最小二乘回归模型、偏最小二乘回归子模型、变量修正推进偏最小二乘回归模型的预测均方根误差示意图;
图4显示为本发明的用于晒红烟化学成分分析的多元校正方法中建模光谱变量个数随迭代次数的变化的示意图;
图5显示为本发明的用于晒红烟化学成分分析的多元校正系统的结构示意图。
元件标号说明
1 设定模块
2 选取模块
3 模型建立模块
4 预测误差计算模块
5 模型权重计算模块
6 样品权重计算模块
7 变量修正模块
8 迭代模块
9 归一化模块
10 预测模块
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
推进是一种集成学习方法,通过建立多个子模型,能够得到比单一模型更准确的结果。该方法在选取建模样品时,对预测误差较大的样品赋较大的权重,使下次建模时该样品得到更多的进入子模型的机会。
由于近红外光谱中有冗余变量,会降低模型的精度。本发明在推进取样步骤引入了变量修正步骤。具体做法为:第i次计算偏最小二乘回归模型时,以回归系数绝对值作为指标,保留数值较大的ni个变量;第i+1次计算偏最小二乘回归模型时,使用第i步保留的ni个变量建模,然后保留回归系数较大的ni+1个变量作为下次计算时的变量。通过这种方式可以在推进取样步骤中逐步地修正建模变量,提高模型的预测能力。
参照图1,本发明的用于晒红烟化学成分分析的多元校正方法包括以下步骤:
步骤S1、设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值。
其中,样品权重是指被选择参与建模的晒红烟样品的权重。变量权重是指被选择参与建模的光谱变量的权重。
优选地,设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
步骤S2、根据推进取样量,按照轮盘堵方式选取部分样品。
其中,按照轮盘堵方式选取部分样品时,样品权重较大的样品有较大概率被选中。反之,若样品的样品权重较小,则该样品被选中的概率较小。
具体地,选取的样品数量为晒红烟的样品数m1乘以推进取样量。
步骤S3、根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数。
优选地,在建立偏最小二乘回归模型之前,还需对样品的光谱变量进行中心化。中心化就是将原始数据减去平均值。在本发明中即为将每个光谱变量的值减去所有光谱变量的平均值。
步骤S4、根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差
Figure BDA0001166800420000061
其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值,
Figure BDA0001166800420000062
为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值。
其中,yk,i为按照烟草行业标准对晒红烟样品进行测试所获取的。
步骤S5、根据公式
Figure BDA0001166800420000063
计算偏最小二乘回归模型Mi的模型权重,其中Lk,i=ek,i/yk,i,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重。
其中,Lk,i=ek,i/yk,i为损失函数。
步骤S6、根据公式
Figure BDA0001166800420000064
计算迭代次数为i+1时所有建模样品的样品权重。
步骤S7、根据公式
Figure BDA0001166800420000071
确定保留光谱变量个数ni,其中j为光谱变量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正。
优选地,对偏最小二乘回归模型Mi使用5折交叉验证。
其中,
Figure BDA0001166800420000072
为光谱变量修正速率。j的初始值为1,随光谱变量个数变化而累计加1。
需要说明的是,每次进行光谱变量个数变化时,所保留的光谱变量个数将减少。故设定光谱变量变化迭代次数阈值,以保证在进行光谱变量个数变化后,仍然有足够数量的光谱变量用于建立偏最小二乘回归模型。
步骤S8、根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重。
具体地,迭代执行步骤S2-S7,直至完成T次迭代,从而得到T个偏最小二乘回归模型。
步骤S9、根据公式
Figure BDA0001166800420000073
归一化偏最小二乘回归模型权重。
步骤S10、利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
下面结合具体实施例来进一步阐述本发明的用于晒红烟化学成分分析的多元校正方法。
在该实施例中,使用的设备包括MPA近红外光谱仪(Bruker)、AA3型流动分析仪(Bran+Luebbe)、联想ThinkCenter台式机(CPU:Intel(R)Core(TM)2Quald CPU Q9500;RAM:2GB)。
样品为中国国内不同地区晒红烟样品138个。光谱采集采用漫反射模式,波数范围为3498cm-1到11995cm-1,间隔大约为4cm-1,共2204个变量点。扫描次数为64次,其光谱图如图2所示。
按照烟草行业标准,分别测定晒红烟样品的总植物碱、总糖、总氮、蛋白质、钾、氯等化学成分,从而获得晒红烟样品的总植物碱、总糖、总氮、蛋白质、钾、氯等化学成分的测试值。
下面以总植物碱为例来说明本发明的用于晒红烟化学成分分析的多元校正方法。首先,进行总植物碱的推进偏最小二乘回归分析步骤。在计算前,按浓度大小均匀分布原则将晒红烟样品分为建模集、验证集,其比例为2:1。
随着迭代次数的增加,逐渐修正建模变量。图3中实心方框线显示了不同迭代步骤时,使用保留变量的偏最小二乘回归模型5折交叉验证均方根误差(RMSECV)。可以看出,RMSECV随着迭代次数的增加不断减小,对应着建模变量的不断修正过程。图3中实心圆圈线显示了随着迭代次数增加偏最小二乘回归子模型的预测均方根误差的变化;实心三角形线显示了变量修正推进偏最小二乘模型(VCBoostingPLS)随着迭代次数结果的变化。可以看出,随着迭代次数的增加,偏最小二乘回归子模型的预测误差在波动中逐渐减小的,同时,整体模型的预测误差也随着迭代次数逐渐减小。图4显示了计算过程中建模变量个数随迭代次数的变化。
由于总糖等其它化学成分的多元校正过程与总植物碱很相似,故在此不再赘述其计算过程参数变化。所有指标的结果如表1所示。由表1可知,变量修正推进偏最小二乘回归比推进偏最小二乘回归、偏最小二乘回归的预测均方根误差低,从而有助于提高晒红烟样品的近红外分析的准确性。
表1、偏最小二乘回归、推进偏最小二乘回归及变量修正偏最小二乘回归结果对比
Figure BDA0001166800420000081
其中,r表示验证集晒红烟样品的预测值与实测值之间的相关系数;RMSEP为验证集晒红烟样品的预测值与实测值的均方根误差。
参照图4,本发明的用于晒红烟化学成分分析的多元校正系统包括设定模块1、选取模块2、模型建立模块3、预测误差计算模块4、模型权重计算模块5、样品权重计算模块6、变量修正模块7、迭代模块8、归一化模块9和预测模块10。
设定模块1用于设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值。
其中,样品权重是指被选择参与建模的晒红烟样品的权重。变量权重是指被选择参与建模的光谱变量的权重。
优选地,设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
选取模块2用于根据推进取样量,按照轮盘堵方式选取部分样品。
其中,按照轮盘堵方式选取部分样品时,样品权重较大的样品有较大概率被选中。反之,若样品的样品权重较小,则该样品被选中的概率较小。
具体地,选取的样品数量为晒红烟的样品数m1乘以推进取样量。
模型建立模块3用于根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数。
优选地,还包括中心化模块,该中心化模块用于在建立偏最小二乘回归模型之前,对样品的光谱变量进行中心化。中心化就是将原始数据减去平均值。在本发明中即为将每个光谱变量的值减去所有光谱变量的平均值。
预测误差计算模块4用于根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差
Figure BDA0001166800420000091
其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值,
Figure BDA0001166800420000092
为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值。
其中,yk,i为按照烟草行业标准对晒红烟样品进行测试所获取的。
模型权重计算模块5用于根据公式
Figure BDA0001166800420000093
计算偏最小二乘回归模型Mi的模型权重,其中Lk,i=ek,i/yk,i,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重。
其中,Lk,i=ek,i/yk,i为损失函数。
样品权重计算模块6用于根据公式
Figure BDA0001166800420000101
计算迭代次数为i+1时所有建模样品的样品权重。
变量修正模块7用于根据公式
Figure BDA0001166800420000102
确定保留光谱变量个数ni,其中j为光谱变量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正。
优选地,对偏最小二乘回归模型Mi使用5折交叉验证。
其中,
Figure BDA0001166800420000103
为光谱变量修正速率。j的初始值为1,随光谱变量个数变化而累计加1。
需要说明的是,每次进行光谱变量个数变化时,所保留的光谱变量个数将减少。故设定光谱变量变化迭代次数阈值,以保证在进行光谱变量个数变化后,仍然有足够数量的光谱变量用于建立偏最小二乘回归模型。
迭代模块8用于根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重。
具体地,迭代运行选取模块2、模型建立模块3、预测误差计算模块4、模型权重计算模块5、样品权重计算模块6和变量修正模块7,直至完成T次迭代,从而得到T个偏最小二乘回归模型。
归一化模块9用于根据公式
Figure BDA0001166800420000104
归一化偏最小二乘回归模型权重。
预测模块10用于利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
综上所述,本发明的用于晒红烟化学成分分析的多元校正方法及系统在推进偏最小二乘法子模型建立过程中引入变量修正的步骤,提高了子模型的预测能力,保证了整体模型较好的预测能力;降低了晒红烟化学成分近红外光谱分析的预测误差。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种用于晒红烟化学成分分析的多元校正方法,其特征在于:包括以下步骤:
设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值;
根据推进取样量,按照轮盘赌方式选取部分样品;
根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数;
根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差
Figure FDA0002379492140000011
其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值,
Figure FDA0002379492140000012
为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值;
根据公式
Figure FDA0002379492140000013
计算偏最小二乘回归模型Mi的模型权重,其中Lk,i=ek,i/yk,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重;
根据公式
Figure FDA0002379492140000014
计算迭代次数为i+1时所有建模样品的样品权重;
根据公式
Figure FDA0002379492140000015
确定保留光谱变量个数ni,其中j为光谱变量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正;
根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重;
根据公式
Figure FDA0002379492140000016
归一化偏最小二乘回归模型权重;
利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
2.根据权利要求1所述的用于晒红烟化学成分分析的多元校正方法,其特征在于:设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
3.根据权利要求1所述的用于晒红烟化学成分分析的多元校正方法,其特征在于:还包括:在建立偏最小二乘回归模型之前,对样品的光谱变量进行中心化。
4.根据权利要求1所述的用于晒红烟化学成分分析的多元校正方法,其特征在于:对偏最小二乘回归模型使用5折交叉验证。
5.根据权利要求1所述的用于晒红烟化学成分分析的多元校正方法,其特征在于:所述光谱变量变化迭代次数j的初始值为1,随光谱变量个数变化而累计加1。
6.一种用于晒红烟化学成分分析的多元校正系统,其特征在于:包括设定模块、选取模块、模型建立模块、预测误差计算模块、模型权重计算模块、样品权重计算模块、变量修正模块、迭代模块、归一化模块和预测模块;
所述设定模块用于设定参与建模的晒红烟的样品数为m1,对应的光谱变量数为m2,初始化每个样品权重为1/m1、每个光谱变量权重为1/m2;并设定推进取样量、迭代次数阈值T和光谱变量变化迭代次数阈值;
所述选取模块用于根据推进取样量,按照轮盘赌方式选取部分样品;
所述模型建立模块用于根据光谱变量权重,使用选取的样品建立迭代次数为i时的偏最小二乘回归模型Mi,并计算各个光谱变量对应的回归系数;
所述预测误差计算模块用于根据偏最小二乘回归模型Mi计算迭代次数为i时所有建模样品的预测误差
Figure FDA0002379492140000021
其中,yk,i为迭代次数为i时第k个晒红烟样品的化学成分的测试值,
Figure FDA0002379492140000022
为迭代次数为i时第k个晒红烟样品的采用偏最小二乘回归模型Mi得到的化学成分的预测值;
所述模型权重计算模块用于根据公式
Figure FDA0002379492140000023
计算偏最小二乘回归模型Mi的模型权重,其中Lk,i=ek,i/yk,i,WSk,i为迭代次数为i时第k个晒红烟样品的样品权重;
所述样品权重计算模块用于根据公式
Figure FDA0002379492140000024
计算迭代次数为i+1时所有建模样品的样品权重;
所述变量修正模块用于根据公式
Figure FDA0002379492140000031
确定保留光谱变量个数ni,其中j为光谱变量变化迭代次数;将偏最小二乘回归模型Mi的回归系数按照绝对值大小排序,将前ni个回归系数对应的光谱变量权重修正为1,剩余光谱变量权重修正为0;若建模样品在迭代次数为i+1时的交叉验证误差大于迭代次数为i时的交叉验证误差或j大于光谱变量变化迭代次数阈值,则撤销对光谱变量权重的修正;
所述迭代模块用于根据当前样品权重和光谱变量权重重新选取样品,并建立偏最小二乘回归模型,直至完成T次迭代,得到T个偏最小二乘回归模型及对应的模型权重;
所述归一化模块用于根据公式
Figure FDA0002379492140000032
归一化偏最小二乘回归模型权重;
所述预测模块用于利用T个偏最小二乘回归模型预测未知样品的化学成分,得到T个晒红烟样品的化学成分的预测值;将T个晒红烟样品的化学成分的预测值分别乘以对应偏最小二乘回归模型的权重后再求和,便得到未知样品的化学成分的最终预测结果。
7.根据权利要求6所述的用于晒红烟化学成分分析的多元校正系统,其特征在于:所述设定模块设定推进取样量为50%,迭代次数T为300,光谱变量变化迭代次数阈值为50。
8.根据权利要求6所述的用于晒红烟化学成分分析的多元校正系统,其特征在于:还包括中心化模块,所述中心化模块用于在建立偏最小二乘回归模型之前,对样品的光谱变量进行中心化。
9.根据权利要求6所述的用于晒红烟化学成分分析的多元校正系统,其特征在于:所述变量修正模块对偏最小二乘回归模型使用5折交叉验证。
10.根据权利要求6所述的用于晒红烟化学成分分析的多元校正系统,其特征在于:所述光谱变量变化迭代次数j的初始值为1,随光谱变量个数变化而累计加1。
CN201611080365.5A 2016-11-30 2016-11-30 用于晒红烟化学成分分析的多元校正方法及系统 Active CN108120694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611080365.5A CN108120694B (zh) 2016-11-30 2016-11-30 用于晒红烟化学成分分析的多元校正方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611080365.5A CN108120694B (zh) 2016-11-30 2016-11-30 用于晒红烟化学成分分析的多元校正方法及系统

Publications (2)

Publication Number Publication Date
CN108120694A CN108120694A (zh) 2018-06-05
CN108120694B true CN108120694B (zh) 2020-05-05

Family

ID=62227128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611080365.5A Active CN108120694B (zh) 2016-11-30 2016-11-30 用于晒红烟化学成分分析的多元校正方法及系统

Country Status (1)

Country Link
CN (1) CN108120694B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984930B (zh) * 2018-07-25 2022-11-25 湖南农业大学 一种用于近红外光谱分析的推进稀疏偏最小二乘方法
CN109063767B (zh) * 2018-07-31 2021-12-07 温州大学 一种基于样本和变量共识的近红外光谱建模方法
CN112986178A (zh) * 2021-02-04 2021-06-18 中国农业大学 一种晒红烟中重金属含量的快速检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103528990A (zh) * 2013-10-31 2014-01-22 天津工业大学 一种近红外光谱的多模型建模方法
CN104949936A (zh) * 2015-07-13 2015-09-30 东北大学 基于优化偏最小二乘回归模型的样品成份测定方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103528990A (zh) * 2013-10-31 2014-01-22 天津工业大学 一种近红外光谱的多模型建模方法
CN104949936A (zh) * 2015-07-13 2015-09-30 东北大学 基于优化偏最小二乘回归模型的样品成份测定方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An improved boosting partial least squares method for near-infrared spectroscopic quantitative analysis;Xueguang Shao et al.;《Analytica Chimica Acta》;20100331;第666卷;第32-37页 *
Boosting 集成回归在近红外光谱定量校正中的应用;谭超 等;《计算机与应用化学》;20100228;第27卷(第2期);第241-244页 *
基于改进的Boosting多模型共识算法用于复杂样品的分析;李艳坤;《2011 AASRI Conference on Artificial Intelligence and Industry Application》;20111231;第108-111页 *
用于近红外光谱分析的化学计量学方法研究与应用进展;褚小立 等;《分析化学评述与进展》;20080531;第36卷(第5期);第702-709页 *
蒙特卡洛-偏最小二乘回归系数法用于近红外光谱变量筛选;张明锦 等;《分析试验室》;20130228;第32卷(第2期);第12-16页 *

Also Published As

Publication number Publication date
CN108120694A (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
CN110161013B (zh) 基于机器学习的激光诱导击穿光谱数据处理方法和系统
CN101430276B (zh) 光谱分析中波长变量优选的方法
CN108120694B (zh) 用于晒红烟化学成分分析的多元校正方法及系统
CN106248621B (zh) 一种评价方法与系统
CN104020127A (zh) 一种利用近红外光谱快速测量烟叶中无机元素的方法
CN109115692B (zh) 一种光谱数据分析方法及装置
CN104596979A (zh) 近红外漫反射光谱技术测定造纸法再造烟叶纤维素的方法
CN110967313A (zh) 电子烟烟油尼古丁含量的近红外光谱预测建模方法及应用
CN111999258B (zh) 一种面向光谱基线校正的加权建模局部优化方法
CN104596975A (zh) 近红外漫反射光谱技术测定造纸法再造烟叶木质素的方法
WO2020248961A1 (zh) 一种无参考值的光谱波数选择方法
CN109358022A (zh) 一种快速判别烟用爆珠类型的方法
CN102128805A (zh) 果品近红外光谱波长选择和快速定量分析方法及装置
CN104596976A (zh) 近红外漫反射光谱技术测定造纸法再造烟叶蛋白质的方法
CN104596980A (zh) 近红外漫反射光谱技术测定造纸法再造烟叶热水可溶物的方法
CN117807497A (zh) 一种锂元素野外定量分析方法及系统
CN107064042B (zh) 红外光谱的定性分析方法
CN109145403B (zh) 一种基于样本共识的近红外光谱建模方法
CN116026780B (zh) 基于串联策略波长选择的包衣吸湿率在线检测方法及系统
CN115824996A (zh) 基于近红外光谱的烟叶常规化学成分通用模型建模方法
CN115909324A (zh) 一种广陈皮陈化年份高光谱鉴别方法及系统
CN113607683B (zh) 一种近红外光谱定量分析的自动建模方法
CN114062306B (zh) 一种近红外光谱数据分段预处理方法
CN115795225A (zh) 一种近红外光谱校正集的筛选方法及装置
CN115015120A (zh) 一种傅里叶红外光谱仪及其温漂在线校正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 200082 No. 717, Changyang Road, Shanghai, Yangpu District

Patentee after: SHANGHAI TOBACCO GROUP Co.,Ltd.

Patentee after: Shanghai Tobacco Group Beijing Cigarette Factory Co.,Ltd.

Address before: No. 717, Changyang Road, Yangpu District, Shanghai 200082

Patentee before: SHANGHAI TOBACCO GROUP Co.,Ltd.

Patentee before: BEIJING CIGARETTE FACTORY, SHANGHAI TOBACCO GROUP Co.,Ltd.