CN116628463A - 近红外光谱变量选择方法、装置、电子设备及存储介质 - Google Patents
近红外光谱变量选择方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116628463A CN116628463A CN202310580605.1A CN202310580605A CN116628463A CN 116628463 A CN116628463 A CN 116628463A CN 202310580605 A CN202310580605 A CN 202310580605A CN 116628463 A CN116628463 A CN 116628463A
- Authority
- CN
- China
- Prior art keywords
- relation model
- concentration
- near infrared
- infrared spectrum
- variable selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 71
- 238000010187 selection method Methods 0.000 title abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 50
- 239000011159 matrix material Substances 0.000 claims abstract description 45
- 238000012795 verification Methods 0.000 claims abstract description 44
- 230000003595 spectral effect Effects 0.000 claims abstract description 21
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 238000000342 Monte Carlo simulation Methods 0.000 claims abstract description 16
- 238000002835 absorbance Methods 0.000 claims abstract description 15
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 235000013405 beer Nutrition 0.000 claims abstract description 8
- 241000209140 Triticum Species 0.000 claims description 11
- 235000021307 Triticum Nutrition 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 241000208125 Nicotiana Species 0.000 claims description 6
- 235000002637 Nicotiana tabacum Nutrition 0.000 claims description 6
- 235000010987 pectin Nutrition 0.000 claims description 6
- 229920001277 pectin Polymers 0.000 claims description 6
- 239000001814 pectin Substances 0.000 claims description 6
- 239000004615 ingredient Substances 0.000 claims description 3
- 235000011844 whole wheat flour Nutrition 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 8
- 239000000523 sample Substances 0.000 description 49
- 238000001228 spectrum Methods 0.000 description 27
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010521 absorption reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010238 partial least squares regression Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 239000004429 Calibre Substances 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012443 analytical study Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003801 milling Methods 0.000 description 1
- 238000009659 non-destructive testing Methods 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Operations Research (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本申请提供一种近红外光谱变量选择方法、装置、电子设备及存储介质。方法包括:基于朗伯比尔定律和建模集,创建吸光度矩阵与浓度矩阵的关系模型;循环地基于蒙特卡罗法,从建模集中随机选择ps个波长点,形成经过变量选择之后的新子集及样品中指定成分的浓度yc;将新子集和浓度yc,输入关系模型,得到关系模型的评价参数;将决定系数、验证集中的光谱数据和浓度yv,输入关系模型,得到验证参数;再在每次循环过程得到所有的新子集中,将小于初始均方根误差的光谱数据作为候选变量;将使得关系模型的预测误差最小的待选子集作为变量选择结果。如此,可以得到接近全局最优的变量,有利于提高关系模型后续检测的准确性。
Description
技术领域
本发明涉及光谱数据处理技术领域,具体而言,涉及一种近红外光谱变量选择方法、装置、电子设备及存储介质。
背景技术
伴随着近红外光(Near Infrared,NIR)作为一种无损检测技术,因检测速度快、操作简单、无污染等优点,近红外光谱分析技术能够广泛的应用于物质的定量分析。一个多组分的NIR光谱数据集,人们常用诸如偏最小二乘回归(Partial Least SquaresRegression,PLSR)、主成分回归(Principle Component Regression,PCR)等多变量校正模型来预测参数。校正(Calibration)是指利用已知样本的信息建立自变量与因变量之间的数学关系的数据解析过程。
由于近红外光谱的光谱波段多,当光谱采集设备采集到近红外光谱的这些波段时,除了包含样品自身的信息以外,还包含了噪音、样品背景干扰等干扰数据。因此,在近红外光谱的分析研究中,变量选择对数据分析和建模影响重大。偏最小二乘回归(PartialLeast Squares Regression,PLSR)是目前在近红外光谱中应用最多的一种多元校正方式,包含在绝大多数近红外仪器配套的数据分析软件中。由于各种实际原因,对近红外光谱数据集而言,PLSR仍然存在无法完成很好的回归以选择合适的光谱变量,从而影响模型后续检测准确性的问题。
发明内容
有鉴于此,本申请实施例的目的在于提供一种近红外光谱变量选择方法、装置、电子设备及存储介质,能够改善无法在近红外光谱数据集中选择合适的光谱变量,而影响模型后续检测准确性的问题。
为实现上述技术目的,本申请采用的技术方案如下:
第一方面,本申请实施例提供了一种近红外光谱变量选择方法,所述方法包括:
A10,获取样品的近红外光谱的第一数据集,所述第一数据集包括建模集和验证集;
A20,基于朗伯比尔定律和所述建模集,创建吸光度矩阵Xn×p与浓度矩阵Yn×m的关系模型,表示为Xn×p=Yn×mBm×p+En×p,其中,Xn×p为在所述建模集的n个近红外光谱数据中,p个波长下测得的吸光度矩阵;Yn×m为在n个近红外光谱数据中,m个组分的浓度矩阵;Bm×p为Xn×p与Yn×m的线性关系系数矩阵,En×p为误差矩阵;
A30,基于蒙特卡罗法,从所述建模集中随机选择ps个波长点,形成经过变量选择之后的新子集及样品中指定成分的浓度yc,其中,ps小于p;
A40,将所述新子集和所述浓度yc,输入所述关系模型,得到所述关系模型的评价参数,所述评价参数包括均方根误差及决定系数;
A50,将所述决定系数、所述验证集中的光谱数据和浓度yv,输入所述关系模型,得到验证参数,所述验证参数包括均方根误差;
A60,循环执行步骤A30至步骤A50,直至循环次数达到指定次数,并记录每次经过变量选择之后的新子集
A70,在所有的新子集中,将小于初始均方根误差的光谱数据作为候选变量,其中,所述初始均方根误差为首次将所述新子集/>和所述浓度yc输入所述关系模型得到的均方根误差;
A80,在所述候选变量中,根据被选中的频次排序,并将排序后的候选变量逐个加入到预先创建的待选子集中;
A90,将每个待选子集中的候选变量输入所述关系模型,并将使得所述关系模型的预测误差最小的待选子集作为变量选择结果。
结合第一方面,在一些可选的实施方式中,所述方法还包括:
A100,根据所述变量选择结果,对所述关系模型进行优化,得到优化后的关系模型。
结合第一方面,在一些可选的实施方式中,所述方法还包括:
A110,获取待测样品的近红外光谱的第二数据集;
A120,将所述第二数据集输入所述优化后的关系模型,得到所述待测样品中指定成分的浓度。
结合第一方面,在一些可选的实施方式中,所述待测样品为小麦经过碾磨后的全麦粉,所述指定成分的浓度指蛋白质的含量。
结合第一方面,在一些可选的实施方式中,所述待测样品为烟草,所述指定成分的浓度指果胶的含量。
第二方面,本申请实施例还提供一种近红外光谱变量选择装置,所述装置包括:
第一获取单元,用于获取样品的近红外光谱的第一数据集,所述第一数据集包括建模集和验证集;
模型创建单元,用于基于朗伯比尔定律和所述建模集,创建吸光度矩阵Xn×p与浓度矩阵Yn×m的关系模型,表示为Xn×p=Yn×mBm×p+En×p,其中,Xn×p为在所述建模集的n个近红外光谱数据中,p个波长下测得的吸光度矩阵;Yn×m为在n个近红外光谱数据中,m个组分的浓度矩阵;Bm×p为Xn×p与Yn×m的线性关系系数矩阵,En×p为误差矩阵;
第一选择单元,用于基于蒙特卡罗法,从所述建模集中随机选择ps个波长点,形成经过变量选择之后的新子集及样品中指定成分的浓度yc,其中,ps小于p;
第一输入单元,用于将所述新子集和所述浓度yc,输入所述关系模型,得到所述关系模型的评价参数,所述评价参数包括均方根误差及决定系数;
第二输入单元,用于将所述决定系数、所述验证集中的光谱数据和浓度yv,输入所述关系模型,得到验证参数,所述验证参数包括均方根误差;
循环单元,用于循环执行步骤A30至步骤A50,直至循环次数达到指定次数,并记录每次经过变量选择之后的新子集
第二选择单元,用于在所有的新子集中,将小于初始均方根误差的光谱数据作为候选变量,其中,所述初始均方根误差为首次将所述新子集/>和所述浓度yc输入所述关系模型得到的均方根误差;
排序单元,用于在所述候选变量中,根据被选中的频次排序,并将排序后的候选变量逐个加入到预先创建的待选子集中;
第三选择单元,用于将每个待选子集中的候选变量输入所述关系模型,并将使得所述关系模型的预测误差最小的待选子集作为变量选择结果。
结合第二方面,在一些可选的实施方式中,所述装置还包括:
优化单元,用于根据所述变量选择结果,对所述关系模型进行优化,得到优化后的关系模型。
结合第二方面,在一些可选的实施方式中,所述装置还包括:
第二获取单元,用于获取待测样品的近红外光谱的第二数据集;
检测单元,用于将所述第二数据集输入所述优化后的关系模型,得到所述待测样品中指定成分的浓度。
第三方面,本申请实施例还提供一种电子设备,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行上述的方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的方法。
采用上述技术方案的发明,具有如下优点:
在本申请提供的技术方案中,在获取到包括有建模集和验证集的第一数据集后,基于朗伯比尔定律和建模集,创建吸光度矩阵Xn×p与浓度矩阵Yn×m的关系模型Xn×p=Yn× mBm×p+En×p;基于蒙特卡罗法,从建模集中随机选择ps个波长点,形成经过变量选择之后的新子集及样品中指定成分的浓度yc;将新子集/>和浓度yc,输入关系模型,得到关系模型的评价参数;将决定系数、验证集中的光谱数据/>和浓度yv,输入关系模型,得到验证参数;然后循环基于蒙特卡罗法进行变量选择,每次循环过程都会产生一个新的变量选择子集,并检查每个子集的建模效果。再在所有的新子集/>中,将小于初始均方根误差的光谱数据作为候选变量;在候选变量中,根据被选中的频次排序,并将排序后的候选变量逐个加入到预先创建的待选子集中;将每个待选子集中的候选变量输入关系模型,并将使得关系模型的预测误差最小的待选子集作为变量选择结果。如此,利用蒙特卡罗法进行变量选择,可以得到接近全局最优的变量,而全局最优的变量有利于提高关系模型后续检测的准确性。
附图说明
本申请可以通过附图给出的非限定性实施例进一步说明。应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的近红外光谱变量选择方法的流程示意图。
图2为本申请实施例提供的一种第一数据集的RMSEP频数分布图的示意图。
图3为本申请实施例提供的一种小麦样品中所选择的波长点在第一数据集的平均光谱上的位置的示意图。
具体实施方式
以下将结合附图和具体实施例对本申请进行详细说明,需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请实施例提供一种电子设备可以包括处理模块及存储模块。存储模块内存储计算机程序,当计算机程序被所述处理模块执行时,使得电子设备能够执行下述近红外光谱变量选择方法中的相应步骤。
电子设备可以是但不限于个人电脑、服务器等设备,这里不作具体限定。
请参照图1,本申请还提供一种近红外光谱变量选择方法,可以应用于上述的电子设备中,可以由电子设备执行或实现方法的各步骤。其中,近红外光谱变量选择方法可以包括如下步骤:
步骤A10,获取样品的近红外光谱的第一数据集,所述第一数据集包括建模集和验证集;
步骤A20,基于朗伯比尔定律和所述建模集,创建吸光度矩阵Xn×p与浓度矩阵Yn×m的关系模型,表示为Xn×p=Yn×mBm×p+En×p,其中,Xn×p为在所述建模集的n个近红外光谱数据中,p个波长下测得的吸光度矩阵;Yn×m为在n个近红外光谱数据中,m个组分的浓度矩阵;Bm×p为Xn×p与Yn×m的线性关系系数矩阵,En×p为误差矩阵;
步骤A30,基于蒙特卡罗法,从所述建模集中随机选择ps个波长点,形成经过变量选择之后的新子集及样品中指定成分的浓度yc,其中,ps小于p;
步骤A40,将所述新子集和所述浓度yc,输入所述关系模型,得到所述关系模型的评价参数,所述评价参数包括均方根误差及决定系数;
步骤A50,将所述决定系数、所述验证集中的光谱数据和浓度yv,输入所述关系模型,得到验证参数,所述验证参数包括均方根误差;
步骤A60,循环执行步骤A30至步骤A50,直至循环次数达到指定次数,并记录每次经过变量选择之后的新子集
步骤A70,在所有的新子集中,将小于初始均方根误差的光谱数据作为候选变量,其中,所述初始均方根误差为首次将所述新子集/>和所述浓度yc输入所述关系模型得到的均方根误差;
步骤A80,在所述候选变量中,根据被选中的频次排序,并将排序后的候选变量逐个加入到预先创建的待选子集中;
步骤A90,将每个待选子集中的候选变量输入所述关系模型,并将使得所述关系模型的预测误差最小的待选子集作为变量选择结果。
下面将对近红外光谱变量选择方法的各步骤进行详细阐述,如下:
在步骤A10中,第一数据集通常为预先采集样品得到的近红外光谱及相应成分的浓度(如小麦的近红外光谱及小麦的蛋白质含量)的数据集合,第一数据集可以存储在电子设备的存储模块内,或存储在其他设备上。即,电子设备可以从本地获取第一数据集,或者从其他设备获取到第一数据集。
在第一数据集中,可以包括采集样品得到的多条近红外光谱的数据,每条光谱记录记录了多个的吸收波长与相应的光谱点,另外,第一数据集中还记录有样品每条光谱对应的化学成分的浓度/含量。第一数据集所包括的光谱数量及光谱点数量均可以根据实际情况灵活确定。其中,采集样品的近红外光谱的方式为常规方式,这里不再赘述。
可理解地,第一数据集中的近红外光谱数据可以被划分为建模集、验证集。其中,建模集与验证集的比例可以根据实际情况灵活设置,例如,建模集与验证集的比例可以为3:1或4:1。当然,第一数据集还可以划分有测试集,测试集与验证集的比例可以相同。
在步骤A20中,样本的测试信号(经过标定后的近红外光谱)与待测信号(待检测的近红外光谱)之间存在线性关系,当测试信号与待求信息之间存在线性关系时,可以用朗伯比尔(Lambert-Beer)定律进行校正。
基于朗伯比尔定律和建模集,创建吸光度矩阵Xn×p与浓度矩阵Yn×m的关系模型:
Xn×p=Yn×mBm×p+En×p
可理解地,在关系模型中,浓度矩阵Yn×m中的浓度可以指样品中相应成分的含量,例如,该浓度可以指小麦中的蛋白质含量。其中,近红外光谱数据的数量n、波长数量p、样品组分m均可以根据实际情况灵活确定。
在步骤A30中,蒙特卡罗(Monte Carlo,MC)法又称统计模拟法、随机抽样,是一种随机模拟方式,使用随机数(或更常见的伪随机数)来解决很多计算问题的策略。蒙特卡罗法可以将所求解的问题同一定的概率模型相联系,用计算机实现统计模拟或抽样,以获得问题的近似解。
对一个已经测量完成的数据集来说,在特定建模下,该数据集中光谱数据和理化性质数据之间的关联性是内在固有的。或许之中的关联性由于实际原因不可测得,但蒙特卡洛法可以应对这类难以用解析(或数值)方法处理的问题给出统计结果,用较大的随机频数逼近固有的概率。对于几乎无解的全局最优变量选择,蒙特卡罗法提供了一种较为简单且高效的接近最优解的思路:利用反复随机抽取一定数量的变量,并评价每一次抽取的效果,重复多次以后就可以在宏观上认知如何变量选择。
蒙特卡罗法本身所具有的黑箱属性,致使整个蒙特卡罗法从过程中无法对答案做出合理的解释,但是对于化学校正中的海量的变量选择方式,利用蒙特卡罗法可以找出数据集本身对该建模方法的适应性。即,通过变量选择的方式能使模型优化达到极限。
在步骤A40中,关系模型的评价参数可以包括但不限于均方根误差及决定系数。均方根误差(Root Mean Square Error,RMSE)通常用于衡量预测值与真实值之间的偏差。RMSE的计算方式如下:
其中,yi表示真实值,如采集的样品相应成分(如小麦样品中的蛋白质)的近红外光谱对应的浓度/含量;表示预测值,如预测的浓度/含量;n表示数据点数。
为了便于理解,下面将举例阐述步骤30至步骤90的实现过程,如下:
首先,以建模集为输入,并且输出一个关系模型,即,上述的关系模型可以表示为Model=calibrate(Xc,yc);其中,Xc指建模集中样品的近红外光谱数据,yc指建模集中样品中相应成分的浓度/含量。验证函数应以所建模型和验证集为输入,并且输出一个验证结果,验证结果中常包含诸如RMSE的评价指标,如result=validate(Model,Xv,yv)。其中,Xc指验证集样品的近红外光谱数据,yc指验证集中的样品中相应成分的浓度/含量。
然后,指定循环次数,以便于循环执行步骤A30至步骤A50。其中,在每次循环中,随机选择ps(ps<p)个波长点,形成一个变量选择之后的新子集在每一次循环中,可以利用变量选择之后得到的新子集和yc建立一个校正模型,以得到关系模型的评价参数,如校正均方根误差(RMSEC),决定系数R2。接着,可以将划分的验证集数据中的近红外光谱数据/>和样本相应成分的浓度/含量yv代入关系模型,得到验证参数,如验证均方差(RMSEV),从而可以验证模型的预测能力。每次循环过程都会产生一个新的变量选择子集,并检查每个子集的建模效果,以及记录所有的变量选择。
在步骤A70中,可以结合实际应用经验和具体理论,设置一个筛选指标,如初始均方根误差,再将优于该筛选指标的变量选择挑选出来,进一步研究选择怎样类型的变量会对该建模起到优化作用。预测均方差(RMSEP)是一个常用的评价指标,可以以初始模型的预测均方差RMSEP为作为筛选指标的阈值,循环中小于初始RMSEP的变量选择可以被认为是较好的变量选择,较好的变量便为可优化变量,可优化的变量即为候选变量。
在可优化的变量选择中,所有吸收波长被选中的频次不尽相同。将它们按选中频次从高到低排列之后,再分别试验选中多少变量能达到关系模型的最佳优化效果。
请参照图2,图2为某个近红外光谱对应数据集的MC过程得到的RMSEP频数分布图。在图2中,RMSEP0=0.4427重复106次。图中线条对应的RMSEP表示全谱模型的初始均方根误差RMSEP0,线侧的百分数18.4939%则是RMSEP0的累积分布函数值。即,在所有循环中,RMSEPi<RMSEP0的比率,其中,RMSEPi指总循环次数中,第i次测试的RMSEP值。该比率为可优化率,可优化率较大则说明变量选择对数据集有较大的提升空间。同时,从分布图也能够很明显地得到变量选择对该数据集的优化极限。
在所有可优化的变量(该变量即为近红外光谱中的光谱点)选择中,找到每个吸收波长被随机选中的频率,降序排列之后逐个加入到待选子集中,最后在得到最优值的时候停止,就得到了接近全局最优的变量选择,即得到能使关系模型的预测误差(RMSEP)最小的变量子集选择时,认为达到了最优。后续可以利用最优变量,可以提升关系模型的预测效果,有利于提升在面对相同类型样本的数据集时,直接利用光谱预测理化性质的准确度。
在本实施例中,方法还可以包括:
A100,根据所述变量选择结果,对所述关系模型进行优化,得到优化后的关系模型。
可理解地,通过将变量选择结果代入关系模型,可以对关系模型中的线性关系系数矩阵Bm×p和误差矩阵En×p进行优化。后续在对相同种类的待测样品进行测试时,可以直接基于采集待测样品的近红外光谱,去预测该待测样品中相应成分的浓度或含量。
例如,在本实施例中,方法还可以包括:
A110,获取待测样品的近红外光谱的第二数据集;
A120,将所述第二数据集输入所述优化后的关系模型,得到所述待测样品中指定成分的浓度。
在第二数据集中,通常仅为待测样品的近红外光谱。即,利用待测样品的近红外光谱,去预测待测样品中指定成分的浓度/含量。
其中,待测样品和指定成分可以根据实际情况灵活确定。
例如,待测样品为小麦经过碾磨后的全麦粉,指定成分的浓度指蛋白质的含量。发明人通过试验,采集第一数据集包含该数据集包含496条小麦近红外光谱,被划分成建模集与验证集各249条,每条光谱记录了730-1100nm的吸收波长,第一数据集还提供了小麦样品的蛋白质含量,可以用来建立化学校正回归模型(即为关系模型),用于预测待测样品中的蛋白质含量。
基于步骤A30,选择了203个波长点,这些波长点在数据集的平均光谱上的位置如图3所示。现有的全谱选择优化的PLS模型与本实施例中变量选择之后的优化的关系模型的模型性能如表1所示,可见,变量选择可以在一定程度上有效提升模型的精度,使利用新的小麦样品光谱预测蛋白质含量时达到更小的误差。小麦近红外光谱中大于13000波数的光谱数据并未被用到,在仪器采集时选择波段时便可收窄至9000-13000波数,也可以节省测算开销。
表1:
R2 | RMSEC | RMSEV | |
全谱 | 0.9920 | 0.1889 | 0.2433 |
变量选择 | 0.9912 | 0.1976 | 0.2125 |
不采用本实施例提供的变量选择方式,而采用现有的全谱变量范围建模PLS模型预测蛋白质含量,在验证集上得到了0.24的预测误差。使用本实施例提供的方法的最优变量选择和关系模型,可以逼近变量选择类方法对该数据集的预测精度提升上限,在验证集上得到了约0.21的预测误差,即相比于现有全谱的方式,本申请实施例提供的方法的预测误差更小。
又例如,待测样品为烟草,指定成分的浓度指果胶的含量。发明人通过试验,采集第一数据集包含203条烟草样品近红外光谱,被划分成建模集与验证集分别152、51条,每条光谱记录了4000-10000cm-1的1557个吸收波长,第一数据集还提供了烟草的果胶百分含量,可以用来建立化学校正回归模型(即为上述的关系模型),并用于预测其他烟草中的果胶含量。
现有的全谱选择优化的PLS模型与本实施例中变量选择之后的优化的关系模型的模型性能如表2所示。
表2:
R2 | RMSEC | RMSEV | |
全谱 | 0.7994 | 0.5703 | 0.4427 |
变量选择 | 0.7882 | 0.5873 | 0.3862 |
不采用本实施例提供的变量选择方式,而采用现有全谱变量范围建模PLS模型预测果胶含量,在验证集上得到了0.44的预测误差。采用本实施例提供的上述方法,可以逼近变量选择类方法对该数据集的预测精度提升上限,在验证集上得到了约0.39的预测误差,即,本实施例提供的方法的预测误差小于现有全谱的实现方式。
基于上述设计,本实施例提供的方法可以用于寻找近红外光谱关系模型(或回归模型)中各种波段选择优化算法的优化极限。本方法首先利用蒙特卡洛法随机选择一定数量的变量,然后建立关系模型;多次重复上述建模过程并获得模型性能参数;最后分析模型性能参数的分布,提供一个全局范围内较好的变量选择示例,如此,有利于提高关系模型后续样品检测的准确性。另外,该方法可以用于在应用具体的变量选择之前对数据系统作整体探查。
本申请还提供一种近红外光谱变量选择装置,近红外光谱变量选择装置包括至少一个可以软件或固件(Firmware)的形式存储于存储模块中或固化在电子设备的操作系统(Operating System,OS)中的软件功能模块。处理模块用于执行存储模块中存储的可执行模块,例如近红外光谱变量选择装置所包括的软件功能模块及计算机程序等。
近红外光谱变量选择装置包括的各单元及具有的功能可以如下:
第一获取单元,用于获取样品的近红外光谱的第一数据集,所述第一数据集包括建模集和验证集;
模型创建单元,用于基于朗伯比尔定律和所述建模集,创建吸光度矩阵Xn×p与浓度矩阵Yn×m的关系模型,表示为Xn×p=Yn×mBm×p+En×p,其中,Xn×p为在所述建模集的n个近红外光谱数据中,p个波长下测得的吸光度矩阵;Yn×m为在n个近红外光谱数据中,m个组分的浓度矩阵;Bm×p为Xn×p与Yn×m的线性关系系数矩阵,En×p为误差矩阵;
第一选择单元,用于基于蒙特卡罗法,从所述建模集中随机选择ps个波长点,形成经过变量选择之后的新子集及样品中指定成分的浓度yc,其中,ps小于p;
第一输入单元,用于将所述新子集和所述浓度yc,输入所述关系模型,得到所述关系模型的评价参数,所述评价参数包括均方根误差及决定系数;
第二输入单元,用于将所述决定系数、所述验证集中的光谱数据和浓度yv,输入所述关系模型,得到验证参数,所述验证参数包括均方根误差;
循环单元,用于循环执行步骤A30至步骤A50,直至循环次数达到指定次数,并记录每次经过变量选择之后的新子集
第二选择单元,用于在所有的新子集中,将小于初始均方根误差的光谱数据作为候选变量,其中,所述初始均方根误差为首次将所述新子集/>和所述浓度yc输入所述关系模型得到的均方根误差;
排序单元,用于在所述候选变量中,根据被选中的频次排序,并将排序后的候选变量逐个加入到预先创建的待选子集中;
第三选择单元,用于将每个待选子集中的候选变量输入所述关系模型,并将使得所述关系模型的预测误差最小的待选子集作为变量选择结果。
可选地,近红外光谱变量选择装置还可以包括:
优化单元,用于根据所述变量选择结果,对所述关系模型进行优化,得到优化后的关系模型。
可选地,近红外光谱变量选择装置还可以包括:
第二获取单元,用于获取待测样品的近红外光谱的第二数据集;
检测单元,用于将所述第二数据集输入所述优化后的关系模型,得到所述待测样品中指定成分的浓度。
在本实施例中,处理模块可以是一种集成电路芯片,具有信号的处理能力。上述处理模块可以是通用处理器。例如,该处理器可以是中央处理器(Central Processing Unit,CPU)、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。
存储模块可以是,但不限于,随机存取存储器,只读存储器,可编程只读存储器,可擦除可编程只读存储器,电可擦除可编程只读存储器等。在本实施例中,存储模块可以用于存储第一数据集、关系模型及变量选择结果等。当然,存储模块还可以用于存储程序,处理模块在接收到执行指令后,执行该程序。
需要说明的是,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备的具体工作过程,可以参考前述方法中的各步骤对应过程,在此不再过多赘述。
本申请实施例还提供一种计算机可读存储介质。计算机可读存储介质中存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如上述实施例中所述的近红外光谱变量选择方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本申请各个实施场景所述的方法。
在本申请所提供的实施例中,应该理解到,所揭露的装置、系统和方法,也可以通过其它的方式实现。以上所描述的装置、系统和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种近红外光谱变量选择方法,其特征在于,所述方法包括:
A10,获取样品的近红外光谱的第一数据集,所述第一数据集包括建模集和验证集;
A20,基于朗伯比尔定律和所述建模集,创建吸光度矩阵Xn×p与浓度矩阵Yn×m的关系模型,表示为Xn×p=Yn×mBm×p+En×p,其中,Xn×p为在所述建模集的n个近红外光谱数据中,p个波长下测得的吸光度矩阵;Yn×m为在n个近红外光谱数据中,m个组分的浓度矩阵;Bm×p为Xn×p与Yn×m的线性关系系数矩阵,En×p为误差矩阵;
A30,基于蒙特卡罗法,从所述建模集中随机选择ps个波长点,形成经过变量选择之后的新子集Xcnc×ps及样品中指定成分的浓度yc,其中,ps小于p;
A40,将所述新子集Xcnc×ps和所述浓度yc,输入所述关系模型,得到所述关系模型的评价参数,所述评价参数包括均方根误差及决定系数;
A50,将所述决定系数、所述验证集中的光谱数据Xvnp×ps和浓度yv,输入所述关系模型,得到验证参数,所述验证参数包括均方根误差;
A60,循环执行步骤A30至步骤A50,直至循环次数达到指定次数,并记录每次经过变量选择之后的新子集Xcnc×ps;
A70,在所有的新子集Xcnc×ps中,将小于初始均方根误差的光谱数据作为候选变量,其中,所述初始均方根误差为首次将所述新子集Xcnc×ps和所述浓度yc输入所述关系模型得到的均方根误差;
A80,在所述候选变量中,根据被选中的频次排序,并将排序后的候选变量逐个加入到预先创建的待选子集中;
A90,将每个待选子集中的候选变量输入所述关系模型,并将使得所述关系模型的预测误差最小的待选子集作为变量选择结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
A100,根据所述变量选择结果,对所述关系模型进行优化,得到优化后的关系模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
A110,获取待测样品的近红外光谱的第二数据集;
A120,将所述第二数据集输入所述优化后的关系模型,得到所述待测样品中指定成分的浓度。
4.根据权利要求3所述的方法,其特征在于,所述待测样品为小麦经过碾磨后的全麦粉,所述指定成分的浓度指蛋白质的含量。
5.根据权利要求3所述的方法,其特征在于,所述待测样品为烟草,所述指定成分的浓度指果胶的含量。
6.一种近红外光谱变量选择装置,其特征在于,所述装置包括:
第一获取单元,用于获取样品的近红外光谱的第一数据集,所述第一数据集包括建模集和验证集;
模型创建单元,用于基于朗伯比尔定律和所述建模集,创建吸光度矩阵Xn×p与浓度矩阵Yn×m的关系模型,表示为Xn×p=Yn×mBm×p+En×p,其中,Xn×p为在所述建模集的n个近红外光谱数据中,p个波长下测得的吸光度矩阵;Yn×m为在n个近红外光谱数据中,m个组分的浓度矩阵;Bm×p为Xn×p与Yn×m的线性关系系数矩阵,En×p为误差矩阵;
第一选择单元,用于基于蒙特卡罗法,从所述建模集中随机选择ps个波长点,形成经过变量选择之后的新子集Xcnc×ps及样品中指定成分的浓度yc,其中,ps小于p;
第一输入单元,用于将所述新子集Xcnc×ps和所述浓度yc,输入所述关系模型,得到所述关系模型的评价参数,所述评价参数包括均方根误差及决定系数;
第二输入单元,用于将所述决定系数、所述验证集中的光谱数据Xvnp×ps和浓度yv,输入所述关系模型,得到验证参数,所述验证参数包括均方根误差;
循环单元,用于循环执行步骤A30至步骤A50,直至循环次数达到指定次数,并记录每次经过变量选择之后的新子集Xcnc×ps;
第二选择单元,用于在所有的新子集Xcnc×ps中,将小于初始均方根误差的光谱数据作为候选变量,其中,所述初始均方根误差为首次将所述新子集Xcnc×ps和所述浓度yc输入所述关系模型得到的均方根误差;
排序单元,用于在所述候选变量中,根据被选中的频次排序,并将排序后的候选变量逐个加入到预先创建的待选子集中;
第三选择单元,用于将每个待选子集中的候选变量输入所述关系模型,并将使得所述关系模型的预测误差最小的待选子集作为变量选择结果。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
优化单元,用于根据所述变量选择结果,对所述关系模型进行优化,得到优化后的关系模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取待测样品的近红外光谱的第二数据集;
检测单元,用于将所述第二数据集输入所述优化后的关系模型,得到所述待测样品中指定成分的浓度。
9.一种电子设备,其特征在于,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行如权利要求1-5中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310580605.1A CN116628463A (zh) | 2023-05-22 | 2023-05-22 | 近红外光谱变量选择方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310580605.1A CN116628463A (zh) | 2023-05-22 | 2023-05-22 | 近红外光谱变量选择方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116628463A true CN116628463A (zh) | 2023-08-22 |
Family
ID=87591384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310580605.1A Pending CN116628463A (zh) | 2023-05-22 | 2023-05-22 | 近红外光谱变量选择方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628463A (zh) |
-
2023
- 2023-05-22 CN CN202310580605.1A patent/CN116628463A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Andersen et al. | Variable selection in regression—a tutorial | |
Bai et al. | Accurate prediction of soluble solid content of apples from multiple geographical regions by combining deep learning with spectral fingerprint features | |
Sorol et al. | Visible/near infrared-partial least-squares analysis of Brix in sugar cane juice: A test field for variable selection methods | |
US20210404952A1 (en) | Method for selection of calibration set and validation set based on spectral similarity and modeling | |
US8200449B2 (en) | Testing linearity of methods of chemical analysis with various statistical tests | |
Ye et al. | Non-destructive prediction of protein content in wheat using NIRS | |
US7124054B2 (en) | System and method for mining model accuracy display | |
Chen et al. | FT-NIR spectroscopy and Whittaker smoother applied to joint analysis of duel-components for corn | |
Biancolillo et al. | Chemometrics applied to plant spectral analysis | |
US20210247367A1 (en) | Workflow-based model optimization method for vibrational spectral analysis | |
US10578550B2 (en) | Identifying presence of substrates | |
CN111693487A (zh) | 基于遗传算法和极限学习机的水果糖度检测方法及系统 | |
Pereira et al. | Development of a fast and reliable method for long-and short-term wine age prediction | |
Jiang et al. | Molecular spectroscopic wavelength selection using combined interval partial least squares and correlation coefficient optimization | |
CN114676792A (zh) | 基于随机投影算法的近红外光谱定量分析降维方法及系统 | |
TWI428581B (zh) | 辨識光譜的方法 | |
CN113903407A (zh) | 成分识别方法、装置、电子设备和存储介质 | |
Metz et al. | RoBoost-PLS2-R: an extension of RoBoost-PLSR method for multi-response | |
CN116628463A (zh) | 近红外光谱变量选择方法、装置、电子设备及存储介质 | |
Esquerre et al. | Evaluation of ensemble Monte Carlo variable selection for identification of metabolite markers on NMR data | |
CN115541531A (zh) | 基于二维相关光谱预测饲料中蛋白质含量的方法 | |
CN110632024B (zh) | 一种基于红外光谱的定量分析方法、装置、设备以及存储介质 | |
CN114783538A (zh) | 一种煤炭灰分预测方法及装置 | |
Jing-Jing et al. | Adaptive variable re-weighting and shrinking approach for variable selection in multivariate calibration for near-infrared spectroscopy | |
CN117093841B (zh) | 小麦透射光谱的异常光谱筛选模型确定方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |