CN114166764A - 基于特征波长筛选的光谱特征模型的构建方法及装置 - Google Patents
基于特征波长筛选的光谱特征模型的构建方法及装置 Download PDFInfo
- Publication number
- CN114166764A CN114166764A CN202111322543.1A CN202111322543A CN114166764A CN 114166764 A CN114166764 A CN 114166764A CN 202111322543 A CN202111322543 A CN 202111322543A CN 114166764 A CN114166764 A CN 114166764A
- Authority
- CN
- China
- Prior art keywords
- screening
- characteristic
- feature
- spectral
- characteristic wavelength
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 129
- 230000003595 spectral effect Effects 0.000 title claims abstract description 123
- 238000012216 screening Methods 0.000 title claims abstract description 111
- 238000001228 spectrum Methods 0.000 claims abstract description 42
- 238000012417 linear regression Methods 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000009795 derivation Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 21
- 239000000126 substance Substances 0.000 description 11
- 238000002329 infrared spectrum Methods 0.000 description 9
- 238000010521 absorption reaction Methods 0.000 description 7
- 239000002245 particle Substances 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010187 selection method Methods 0.000 description 5
- 240000000111 Saccharum officinarum Species 0.000 description 4
- 235000007201 Saccharum officinarum Nutrition 0.000 description 4
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- CZMRCDWAGMRECN-UGDNZRGBSA-N Sucrose Chemical compound O[C@H]1[C@H](O)[C@@H](CO)O[C@@]1(CO)O[C@@H]1[C@H](O)[C@@H](O)[C@H](O)[C@@H](CO)O1 CZMRCDWAGMRECN-UGDNZRGBSA-N 0.000 description 2
- 229930006000 Sucrose Natural products 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 239000005720 sucrose Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009659 non-destructive testing Methods 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/01—Arrangements or apparatus for facilitating the optical investigation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/01—Arrangements or apparatus for facilitating the optical investigation
- G01N2021/0106—General arrangement of respective parts
- G01N2021/0112—Apparatus in one mechanical, optical or electronic block
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Biochemistry (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明提供一种基于特征波长筛选的光谱特征模型的构建方法及装置,所述方法包括:通过数据预处理方法处理原始光谱数据,得到待筛选光谱数据;应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合;应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合;利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型。本发明实施例提供的基于特征波长筛选的光谱特征模型的构建方法及装置,简化了模型,提高了模型的可解释性和预测性能。
Description
技术领域
本发明涉及化学计量学技术领域,尤其涉及一种基于特征波长筛选的光谱特征模型的构建方法及装置。
背景技术
近年来,随着化学计量学结合光谱技术在快速、无损检测中的应用越来越广泛,其中的变量选择方法也格外受到重视。然而采用全谱建立模型,不仅增加建模时间,同时光谱中的基线、噪声、共线性变量等干扰信息还会导致模型的预测准确率降低,降低模型的泛化能力,影响建模效果。
为了精简模型,提高模型的性能,需要采用变量选择方法,选择特征变量建立模型。然而,变量投影重要性算法VIP选择的变量个数较多,同时包含大量冗余信息。
发明内容
本发明提供一种基于特征波长筛选的光谱特征模型的构建方法及装置,用以解决现有技术中存在的问题。
本发明提供一种基于特征波长筛选的光谱特征模型的构建方法,包括:通过数据预处理方法处理原始光谱数据,得到待筛选光谱数据;应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合;应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合;利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型。
根据本发明提供的一种基于特征波长筛选的光谱特征模型的构建方法,所述数据预处理方法,具体包括以下一种或几种:Savitzky-Golay平滑处理、求导处理、中心化处理、标准化处理、归一化处理、标准正态变量变换处理以及多元散射校正处理。
根据本发明提供的一种基于特征波长筛选的光谱特征模型的构建方法,所述应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合,具体包括:确定最优主成分数;利用偏最小二乘算法,得到基于所述最优主成分数下的所述待筛选光谱数据中各波长的重要性系数;取所述重要性系数大于1的波长组成第一特征波长集合。
根据本发明提供的一种基于特征波长筛选的光谱特征模型的构建方法,所述应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合,具体包括:
初始流程,随机选取所述第一特征波长集合中的一个波长作为初始波长;
选取流程,依次计算所述初始波长在所述第一特征波长集合中剩余特征波长上的投影值,选取最大投影值对应的所述特征波长到所述第二特征波长集合中,并更新所述第一特征波长集合;
输出流程,重复执行所述选取流程,直到所述第二特征波长集合中的特征波长个数满足预设值,输出第二特征波长集合。
根据本发明提供的一种基于特征波长筛选的光谱特征模型的构建方法,所述利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型,具体包括:将所述第二特征波长集合中的各个特征波长及对应的相关系数代入多元线性回归方程,得到光谱特征模型。
本发明还提供一种基于特征波长筛选的光谱特征模型的构建装置,包括:
预处理模块,用于通过数据预处理方法处理原始光谱数据,得到待筛选光谱数据;
第一筛选模块,用于应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合;
第二筛选模块,用于应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合;
构建模块,用于利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于特征波长筛选的光谱特征模型的构建方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于特征波长筛选的光谱特征模型的构建方法的步骤。
本发明提供的基于特征波长筛选的光谱特征模型的构建方法及装置,通过利用投影重要性算法串联连续变量投影算法对原始光谱数据进行先后双重筛选,得到第二特征波长集合,实现了对原始光谱数据的大幅简化,利用线性回归策略构建基于第二特征波长的光谱特征模型具有建模效率高,模型精简易用且模型预测性能准确的优点,有利于快速实现特征光谱与待检测物质的快速匹配。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于特征波长筛选的光谱特征模型的构建方法的流程示意图之一;
图2是本发明提供的基于特征波长筛选的光谱特征模型的构建方法的流程示意图之二;
图3是本发明提供的甘蔗汁的近红外光谱图;
图4是本发明提供的用于VIP方法的主成分数示意图;
图5是本发明提供的VIP方法筛选的特征波长示意图;
图6是本发明提供的基于VIP方法建模下真实值和预测值的相关关系示意图;
图7是本发明提供的用于全光谱建模方法的主成分数示意图;
图8是本发明提供的基于全光谱建模下真实值和预测值的相关关系示意图;
图9是本发明提供的VIP-SPA方法筛选的特征波长示意图;
图10是本发明提供的各特征波长对应的回归系数示意图;
图11是本发明提供的基于VIP-SPA方法建模下真实值和预测值的相关关系示意图;
图12是本发明提供的基于特征波长筛选的光谱特征模型的构建装置的结构示意图;
图13是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的基于特征波长筛选的光谱特征模型的构建方法的流程示意图之一,如图1所示,所述方法包括:
S110,通过数据预处理方法处理原始光谱数据,得到待筛选光谱数据;
S120,应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合;
S130,应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合;
S140,利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型。
利用近红外光谱仪对待测物质进行测试,得到原始的近红外光谱数据,因为测试过程中的环境因素,例如温度、湿度或者振动等,或者待测物质本身的试样的制备问题,例如试样中颗粒过大或过小、颗粒分布不均匀等都会使得到的原始近红外光谱数据不利于数据分析过程,所以对原始近红外光谱数据进行数据预处理,得到待筛选光谱数据。
变量投影重要性算法(VIP)是一种主要用于变量筛选的方法,基于偏最小二乘回归的优点,该算法可以用于样本较小且几个自变量间相关性较强的情形。在本发明中,首先利用VIP算法对待筛选近红外光谱数据进行初次筛选,得到第一特征波长集合,在该过程中,由于VIP算法选择的变量个数较多,所以在第一特征波长集合中会包含大量的冗余信息,而为了去除这些冗余信息,使得到的特征波长集合更为简要,需要对第一特征波长集合进行再次筛选。
连续变量投影算法(SPA)是一种使矢量空间共线性最小化的前向变量选择算法,它的优势在于提取全波段的几个特征波长,能够消除原始光谱矩阵中冗余的信息,可用于光谱特征波长的筛选。利用连续变量投影算法对第一特征波长集合进行再次筛选,得到了第二特征波长集合,即通过再次筛选过程实现了对冗余信息的消除过程,使得到的第二特征波长集合中各波长的一致性更好,实现利用最少的特征波长表达待测物质的结果。
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。在本发明中,一种物质的特征光谱是由多个特征波长共同决定的,基于这个特性,构建多元线性回归方程:Y=a+bx1+cx2+dx3+…+zxn,其中a、b、c…z表示相关系数,xn表示第n个波长,将第二特征波长集合中的各个波长以及对应的相关系数代入线性回归方程中,即得到光谱特征模型。
本发明提供的基于特征波长筛选的光谱特征模型的构建方法,通过利用投影重要性算法串联连续变量投影算法对原始光谱数据进行先后双重筛选,得到第二特征波长集合,实现了对原始光谱数据的大幅简化,利用线性回归策略构建基于第二特征波长的光谱特征模型具有建模效率高,模型精简易用且模型预测性能准确的优点,有利于快速实现特征光谱与待检测物质的快速匹配。
根据本发明提供的基于特征波长筛选的光谱特征模型的构建方法,在本发明中,所述数据预处理方法,具体包括以下一种或几种:Savitzky-Golay平滑处理、求导处理、中心化处理、标准化处理、归一化处理、标准正态变量变换处理以及多元散射校正处理。
需要说明的是,Savitzky-Golay平滑处理指的是对原数据通过最小二乘拟合系数进行处理,以消除噪声;求导处理能消除基线和背景干扰,并能分辨重叠峰;中心化处理是将每行数据减去数据集的平均值;标准化处理是将中心化处理后的数据除以校正集数据的标准偏差;归一化处理常用矢量归一化方式;标准正态变量变换处理可以消除颗粒大小、表面散射及光程变换的影响;多元散射校正处理主要是消除颗粒分布不均匀及颗粒大小产生的散射。
本发明提供的基于特征波长筛选的光谱特征模型的构建方法,通过利用多种数据处理方法对原始光谱数据进行预处理,消除因光谱测量过程中环境影响以及待测试样中的颗粒分布不均匀等带来的影响,使后续基于该光谱数据建立的光谱特征模型具有良好的性能,提高模型的预测精准度。
根据本发明提供的基于特征波长筛选的光谱特征模型的构建方法,在本发明中,所述应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合,具体包括:确定最优主成分数;利用偏最小二乘算法,得到基于所述最优主成分数下的所述待筛选光谱数据中各波长的重要性系数;取所述重要性系数大于1的波长组成第一特征波长集合。
需要说明的是,选取主成分数的个数取决于预测残差平方和的大小,当预测残差平方和达到最低点时所对应的主成分数即为最佳主成分数;在确定主成分数之后,利用偏最小二乘算法(PLS)得到最优主成分数下各变量的重要性指标VIPk;选择VIPk大于1的波长作为基于变量投影重要性算法的特征波长。
本发明提供的基于特征波长筛选的光谱特征模型的构建方法,通过变量投影重要性算法实现对待筛选光谱数据中特征波长的初次筛选,有效减小了原始光谱数据中的特征波长的数量,实现了对核心特征波长的选取,基于此,大幅降低光谱特征模型的构建难度,提高了模型构建效率。
根据本发明提供的基于特征波长筛选的光谱特征模型的构建方法,在本发明中,所述应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合,具体包括:
初始流程,随机选取所述第一特征波长集合中的一个波长作为初始波长;
选取流程,依次计算所述初始波长在所述第一特征波长集合中剩余特征波长上的投影值,选取最大投影值对应的所述特征波长到所述第二特征波长集合中,并更新所述第一特征波长集合;
输出流程,重复执行所述选取流程,直到所述第二特征波长集合中的特征波长个数满足预设值,输出第二特征波长集合。
需要说明的是,原始光谱数据在经历了VIP算法的初次筛选后,所得到的第一特征波长集合中会存在变量的共线性问题,共线性指的是自变量之间存在一定程度的相关关系,而共线性问题的存在不利于后续光谱特征模型的简化,甚至导致模型预测性能的下降。基于此,利用连续变量投影算法对第一特征波长集合进行了再次筛选。
前向选择方法指的是初始选择一个变量,然后根据变量选择标准程序渐进累加变量,直至达到终止条件,连续变量投影算法(SPA)即为前向选择方法,目标是选择具有最小冗余信息量的变量,用来解决共线性问题,选择原则是新的入选变量是未入选变量中在上一个入选变量的正交子空间上具有最大投影值的变量。
首先,随机选取第一特征波长集合中的一个特征波长作为初始波长,然后,计算该初始波长在第一特征波长集合中剩余特征波长上的投影值,将最大投影值对应的特征波长作为第二特征波长集合中的入选元素,每重复进行一次上述筛选过程,第一特征波长集合中的特征波长就少一个,对应地第二特征波长集合中的特征波长的数量则增加一个,在筛选过程中,实时更新两个集合中特征波长的数量。
当第二特征波长集合中的特征波长数量达到预设值N时,停止上述筛选过程,并将含有N个特征波长的第二特征波长集合进行输出。
本发明提供的基于特征波长筛选的光谱特征模型的构建方法,通过连续变量投影算法在第一特征波长基础上实现对特征波长的再次筛选,得到了第二特征波长集合,再次筛选过程消除了初次筛选后所遗留的共线性问题,减小了各特征波长之间的关联关系,同时进一步精简特征波长的数量,基于先后双重筛选后的特征波长集合进行光谱特征模型的构建,有效提高模型的构建效率以及模型的预测准确率。
根据本发明提供的基于特征波长筛选的光谱特征模型的构建方法,在本发明中,所述利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型,具体包括:将所述第二特征波长集合中的各个特征波长及对应的相关系数代入多元线性回归方程,得到光谱特征模型。
由多个自变量的最优组合共同来预测或估计因变量是多元线性回归策略的核心,在本发明中,利用多个特征波长作为光谱的特征属性来实现对待测物质的成分认定与多元线性回归策略的作用相吻合,故将第二特征波长集合中各个特征波长及对应的相关系数代入预先设好的多元线性回归方程,即得到光谱特征模型。
本发明提供的基于特征波长筛选的光谱特征模型的构建方法,通过以多元线性回归策略和第二特征波长集合为依据,快速得到有关于特征波长的线性回归方程,基于该方程实现光谱特征模型的构建,该模型构建过程简单易实现,且得到的模型具有良好的预测准确率。
图2是本发明提供的基于特征波长筛选的光谱特征模型的构建方法的流程示意图之二,如图2所示,所述方法依次包括:获取原始数据,对原始数据进行预处理后进行基于变量投影重要性算法的特征波长筛选过程,具体为依次确定最优主成分数、选取VIP>1对应的变量作为初筛特征变量,然后将初筛特征变量进行基于连续变量投影算法的特征波长的再次筛选过程,得到特征变量,基于该特征变量建立多元线性回归方程,即得到最终的数学关系模型-光谱特征模型。
本发明提供的基于特征波长筛选的光谱特征模型的构建方法,通过利用投影重要性算法串联连续变量投影算法对原始光谱数据进行先后双重筛选,得到第二特征波长集合,实现了对原始光谱数据的大幅简化,利用线性回归策略构建基于第二特征波长的光谱特征模型具有建模效率高,模型精简易用且模型预测性能准确的优点,有利于快速实现特征光谱与待检测物质的快速匹配。
以甘蔗汁作为待测物质阐述本发明中对于光谱特征模型构建的详细过程,具体如下:
采集90个甘蔗汁样品的近红外光谱NIR,近红外光谱具体采集参数:光谱范围为950~1650nm,分辨率5nm,扫描64次,每个样品测定3次,求均值。蔗糖的化学值依据旋光仪按照国标GB35998-2018的方法测定。图3是本发明提供的甘蔗汁的近红外光谱图,如图3所示,样品NIR光谱主要特征谱带的归属:1450nm附近的吸收带分别为O-H伸缩振动的一倍频吸收;1120nm附近的吸收是C-H伸缩振动的二倍频吸收,970nm附近的吸收是O-H伸缩振动的二倍频吸收。
原始近红外光谱数据采用中心化预处理,依据Kennard-Stone方法将数据集划分为70个建模集样品和20检验集样品,其中建模集样品用于建立模型,检验集样品用于验证模型性能。图4是本发明提供的用于VIP方法的主成分数示意图,如图4所示,采用变量投影重要性算法,前7个主成分解释了91.65%的变量,因此最优主成分数选择7。
图5是本发明提供的VIP方法筛选的特征波长示意图,如图5所示,通过变量投影重要性算法筛选得到49个VIP>1的特征变量,所选择的特征变量位于黑色实线框内,建立变量投影重要性VIP模型的结果为:预测误差平方和RMSEP为0.2947%,相对分析误差RPD为2.9575,决定系数R2为0.9165,图6是本发明提供的基于VIP方法建模下真实值和预测值的相关关系示意图,如图6所示,真实值和预测值的相关关系情况。为了研究VIP特征变量筛选建立模型的性能是否有所提升,采用全谱建立模型,并与VIP特征变量筛选建立模型的性能进行比较。
采用全谱建立模型时,通过Kennard-Stone方法将数据集划分为70个建模集和20检验集,图7是本发明提供的用于全光谱建模方法的主成分数示意图,如图7所示,最优主成分数选择7,全谱建模的结果如下:预测误差平方和RMSEP为0.3117%,相对分析误差RPD为2.7962。决定系数R2为0.9104,图8是本发明提供的基于全光谱建模下真实值和预测值的相关关系示意图,如图8所示,真实值和预测值的相关关系情况。结果表明,通过VIP特征变量筛选建立的模型比全谱模型的预测性能得到了提升。
以上述VIP特征变量筛选方法得到的49个特征变量为研究载体,进一步通过连续变量投影算法SPA,消除共线性的冗余信息,简化模型,提高模型的可解释性。图9是本发明提供的VIP-SPA方法筛选的特征波长示意图,如图9所示,通过连续变量投影算法筛选,特征变量由49个简化为14个变量。这14个特征变量分别位于:950nm、965nm、995nm、1365nm、1375nm、1395nm、1405nm、1430nm、1440nm、1450nm、1460nm、1470nm、1495nm、1615nm处。图10是本发明提供的各特征波长对应的回归系数示意图,回归系数代表着变量的重要性,如图10所示,1430nm、1440nm、1450nm和1460nm这四个变量的回归系数较高,为OH伸缩振动的的一倍频吸收。995nm和1405nm的变量回归系数较小,表明它们在建模中发挥的作用较小。采用14个特征变量建立蔗糖的多元线性回归MLR模型的结果如下:预测误差平方和RMSEP为0.2239%,相对分析误差RPD为3.8927,决定系数R2为0.9256,图11是本发明提供的基于VIP-SPA方法建模下真实值和预测值的相关关系示意图,如图11所示,真实值和预测值的相关关系情况。结果表明,通过VIP-SPA方法建立的模型与全谱建立模型和VIP特征变量建立模型的结果对比,其预测性能得到了很大提升。
综上所述,通过VIP-SPA方法筛选了14个特征变量,去除共线性信息和冗余信息,使得模型得到大大简化,模型的预测性能也得到很大提升,RMSEP由0.3117%提升到0.2239%,RPD由2.7962提升到3.8927。结果表明,本发明提出的变量选择方法,可以显著提高模型预测性能,增强模型的可解释性,此变量选择方法大大的简化了模型,应用范围较广。
图12是本发明提供的基于特征波长筛选的光谱特征模型的构建装置的结构示意图,如图12所示,所述装置包括:
预处理模块1210,用于通过数据预处理方法处理原始光谱数据,得到待筛选光谱数据;
第一筛选模块1220,用于应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合;
第二筛选模块1230,用于应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合;
构建模块1240,用于利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型。
本发明提供的基于特征波长筛选的光谱特征模型的构建装置,通过利用投影重要性算法串联连续变量投影算法对原始光谱数据进行先后双重筛选,得到第二特征波长集合,实现了对原始光谱数据的大幅简化,利用线性回归策略构建基于第二特征波长的光谱特征模型具有建模效率高,模型精简易用且模型预测性能准确的优点,有利于快速实现特征光谱与待检测物质的快速匹配。
根据本发明提供的基于特征波长筛选的光谱特征模型的构建装置,在本发明中,预处理模块1210应用的数据预处理方法,具体包括以下一种或几种:Savitzky-Golay平滑处理、求导处理、中心化处理、标准化处理、归一化处理、标准正态变量变换处理以及多元散射校正处理。
本发明提供的基于特征波长筛选的光谱特征模型的构建装置,通过利用多种数据处理方法对原始光谱数据进行按需性处理,消除因光谱测量过程中环境影响以及待测试样中的颗粒分布不均匀等带来的影响,使后续基于该光谱数据建立的光谱特征模型具有良好的性能,提高模型的预测精准度。
根据本发明提供的基于特征波长筛选的光谱特征模型的构建装置,在本发明中,第一筛选模块1220在用于应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合时,具体用于:确定最优主成分数;利用偏最小二乘算法,得到基于所述最优主成分数下的所述待筛选光谱数据中各波长的重要性系数;取所述重要性系数大于1的波长组成第一特征波长集合。
本发明提供的基于特征波长筛选的光谱特征模型的构建装置,通过变量投影重要性算法实现对待筛选光谱数据中特征波长的初次筛选,有效减小了原始光谱数据中的特征波长的数量,实现了对核心特征波长的选取,基于此,大幅降低光谱特征模型的构建难度,提高了模型构建效率。
根据本发明提供的基于特征波长筛选的光谱特征模型的构建装置,在本发明中,第二筛选模块1230在用于应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合时,具体用于:初始流程,随机选取所述第一特征波长集合中的一个波长作为初始波长;选取流程,依次计算所述初始波长在所述第一特征波长集合中剩余特征波长上的投影值,选取最大投影值对应的所述特征波长到所述第二特征波长集合中,并更新所述第一特征波长集合;输出流程,重复执行所述选取流程,直到所述第二特征波长集合中的特征波长个数满足预设值,输出第二特征波长集合。
本发明提供的基于特征波长筛选的光谱特征模型的构建装置,通过连续变量投影算法在第一特征波长基础上实现对特征波长的再次筛选,得到了第二特征波长集合,再次筛选过程消除了初次筛选后所遗留的共线性问题,减小了各特征波长之间的关联关系,同时进一步精简特征波长的数量,基于先后双重筛选后的特征波长集合进行光谱特征模型的构建,有效提高模型的构建效率以及模型的预测准确率。
根据本发明提供的基于特征波长筛选的光谱特征模型的构建装置,在本发明中,构建模块1240在用于利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型时,具体用于:将所述第二特征波长集合中的各个特征波长及对应的相关系数代入多元线性回归方程,得到光谱特征模型。
本发明提供的基于特征波长筛选的光谱特征模型的构建装置,通过以多元线性回归策略和第二特征波长集合为依据,快速得到有关于特征波长的线性回归方程,基于该方程实现光谱特征模型的构建,该模型构建过程简单易实现,且得到的模型具有良好的预测准确率。
图13示例了一种电子设备的实体结构示意图,如图13所示,该电子设备可以包括:处理器(processor)1310、通信接口(Communications Interface)1320、存储器(memory)1330和通信总线1340,其中,处理器1310,通信接口1320,存储器1330通过通信总线1340完成相互间的通信。处理器1310可以调用存储器1330中的逻辑指令,以执行基于特征波长筛选的光谱特征模型的构建方法,该方法包括:通过数据预处理方法处理原始光谱数据,得到待筛选光谱数据;应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合;应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合;利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型。
此外,上述的存储器1330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于特征波长筛选的光谱特征模型的构建方法,该方法包括:通过数据预处理方法处理原始光谱数据,得到待筛选光谱数据;应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合;应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合;利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于特征波长筛选的光谱特征模型的构建方法,该方法包括:通过数据预处理方法处理原始光谱数据,得到待筛选光谱数据;应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合;应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合;利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于特征波长筛选的光谱特征模型的构建方法,其特征在于,包括:
通过数据预处理方法处理原始光谱数据,得到待筛选光谱数据;
应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合;
应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合;
利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型。
2.根据权利要求1所述的基于特征波长筛选的光谱特征模型的构建方法,其特征在于,所述数据预处理方法,具体包括以下一种或几种:Savitzky-Golay平滑处理、求导处理、中心化处理、标准化处理、归一化处理、标准正态变量变换处理以及多元散射校正处理。
3.根据权利要求1所述的基于特征波长筛选的光谱特征模型的构建方法,其特征在于,所述应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合,具体包括:确定最优主成分数;利用偏最小二乘算法,得到基于所述最优主成分数下的所述待筛选光谱数据中各波长的重要性系数;取所述重要性系数大于1的波长组成第一特征波长集合。
4.根据权利要求1所述的基于特征波长筛选的光谱特征模型的构建方法,其特征在于,所述应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合,具体包括:
初始流程,随机选取所述第一特征波长集合中的一个波长作为初始波长;
选取流程,依次计算所述初始波长在所述第一特征波长集合中剩余特征波长上的投影值,选取最大投影值对应的所述特征波长到所述第二特征波长集合中,并更新所述第一特征波长集合;
输出流程,重复执行所述选取流程,直到所述第二特征波长集合中的特征波长个数满足预设值,输出第二特征波长集合。
5.根据权利要求1所述的基于特征波长筛选的光谱特征模型的构建方法,其特征在于,所述利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型,具体包括:将所述第二特征波长集合中的各个特征波长及对应的相关系数代入多元线性回归方程,得到光谱特征模型。
6.一种基于特征波长筛选的光谱特征模型的构建装置,其特征在于,包括:
预处理模块,用于通过数据预处理方法处理原始光谱数据,得到待筛选光谱数据;
第一筛选模块,用于应用变量投影重要性算法筛选所述待筛选光谱数据,得到第一特征波长集合;
第二筛选模块,用于应用连续变量投影算法筛选所述第一特征波长集合,得到第二特征波长集合;
构建模块,用于利用多元线性回归策略构建基于所述第二特征波长集合的光谱特征模型。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述基于特征波长筛选的光谱特征模型的构建方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于特征波长筛选的光谱特征模型的构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111322543.1A CN114166764A (zh) | 2021-11-09 | 2021-11-09 | 基于特征波长筛选的光谱特征模型的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111322543.1A CN114166764A (zh) | 2021-11-09 | 2021-11-09 | 基于特征波长筛选的光谱特征模型的构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114166764A true CN114166764A (zh) | 2022-03-11 |
Family
ID=80478413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111322543.1A Pending CN114166764A (zh) | 2021-11-09 | 2021-11-09 | 基于特征波长筛选的光谱特征模型的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114166764A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116026780A (zh) * | 2023-03-28 | 2023-04-28 | 江西中医药大学 | 基于串联策略波长选择的包衣吸湿率在线检测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630743A (zh) * | 2015-12-24 | 2016-06-01 | 浙江大学 | 一种光谱波数的选择方法 |
WO2018010352A1 (zh) * | 2016-07-11 | 2018-01-18 | 上海创和亿电子科技发展有限公司 | 一种定性定量相结合的近红外定量模型构建方法 |
CN108007881A (zh) * | 2017-11-30 | 2018-05-08 | 中国农业大学 | 一种基于光谱技术的水产养殖水质总氮含量检测方法 |
CN110726694A (zh) * | 2019-10-22 | 2020-01-24 | 常州大学 | 光谱变量梯度集成遗传算法的特征波长选择方法和系统 |
CN111795943A (zh) * | 2020-06-16 | 2020-10-20 | 中国农业科学院茶叶研究所 | 基于近红外光谱技术无损检测茶叶中外源掺杂蔗糖的方法 |
CN111855608A (zh) * | 2020-07-29 | 2020-10-30 | 中国科学院合肥物质科学研究院 | 基于融合特征波长选择算法的苹果酸度近红外无损检测方法 |
US20210025815A1 (en) * | 2018-04-03 | 2021-01-28 | Shenzhen Institute For Drug Control (Shenzhen Testing Center Of Medical Devices | Near-infrared spectroscopy-based method for chemical pattern recognition of authenticity of traditional chinese medicine gleditsiae spina |
-
2021
- 2021-11-09 CN CN202111322543.1A patent/CN114166764A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105630743A (zh) * | 2015-12-24 | 2016-06-01 | 浙江大学 | 一种光谱波数的选择方法 |
WO2018010352A1 (zh) * | 2016-07-11 | 2018-01-18 | 上海创和亿电子科技发展有限公司 | 一种定性定量相结合的近红外定量模型构建方法 |
CN108007881A (zh) * | 2017-11-30 | 2018-05-08 | 中国农业大学 | 一种基于光谱技术的水产养殖水质总氮含量检测方法 |
US20210025815A1 (en) * | 2018-04-03 | 2021-01-28 | Shenzhen Institute For Drug Control (Shenzhen Testing Center Of Medical Devices | Near-infrared spectroscopy-based method for chemical pattern recognition of authenticity of traditional chinese medicine gleditsiae spina |
CN110726694A (zh) * | 2019-10-22 | 2020-01-24 | 常州大学 | 光谱变量梯度集成遗传算法的特征波长选择方法和系统 |
CN111795943A (zh) * | 2020-06-16 | 2020-10-20 | 中国农业科学院茶叶研究所 | 基于近红外光谱技术无损检测茶叶中外源掺杂蔗糖的方法 |
CN111855608A (zh) * | 2020-07-29 | 2020-10-30 | 中国科学院合肥物质科学研究院 | 基于融合特征波长选择算法的苹果酸度近红外无损检测方法 |
Non-Patent Citations (4)
Title |
---|
代芬 等: "砂糖橘可溶性总糖可见-近红外光谱无损检测", 《农业机械学报》, vol. 42, no. 4, 30 April 2011 (2011-04-30), pages 134 - 137 * |
代芬等: "砂糖橘可溶性总糖可见-近红外光谱无损检测", 农业机械学报, vol. 42, no. 04, pages 134 - 137 * |
李岚涛 等: "基于角果期高光谱的冬油菜产量预测模型研究", 《农业机械学报》, vol. 48, no. 3, 31 March 2017 (2017-03-31), pages 224 - 228 * |
汪六三等: "土壤碱解氮含量可见/近红外光谱预测模型优化", 发光学报, vol. 39, no. 07, pages 1016 - 1023 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116026780A (zh) * | 2023-03-28 | 2023-04-28 | 江西中医药大学 | 基于串联策略波长选择的包衣吸湿率在线检测方法及系统 |
CN116026780B (zh) * | 2023-03-28 | 2023-07-14 | 江西中医药大学 | 基于串联策略波长选择的包衣吸湿率在线检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bouveresse et al. | Standardization of near-infrared spectrometric instruments | |
Tan et al. | Wavelet analysis applied to removing non‐constant, varying spectroscopic background in multivariate calibration | |
Ye et al. | Non-destructive prediction of protein content in wheat using NIRS | |
Cogdill et al. | Single-kernel maize analysis by near-infrared hyperspectral imaging | |
Martyna et al. | Improving discrimination of Raman spectra by optimising preprocessing strategies on the basis of the ability to refine the relationship between variance components | |
Hageman et al. | Temperature robust multivariate calibration: an overview of methods for dealing with temperature influences on near infrared spectra | |
CN112974303B (zh) | 一种基于高光谱的果品品质检测方法、设备及介质 | |
CN109115692B (zh) | 一种光谱数据分析方法及装置 | |
de Almeida et al. | Vis-NIR spectrometric determination of Brix and sucrose in sugar production samples using kernel partial least squares with interval selection based on the successive projections algorithm | |
Perera et al. | Blind image analysis for the compositional and structural characterization of plant cell walls | |
CN114166764A (zh) | 基于特征波长筛选的光谱特征模型的构建方法及装置 | |
Chen et al. | Variable selection by modified IPW (iterative predictor weighting)-PLS (partial least squares) in continuous wavelet regression models | |
JP6630944B2 (ja) | ラマン散乱光の観測方法、ラマン散乱光の観測装置及びプログラム | |
CN116026780B (zh) | 基于串联策略波长选择的包衣吸湿率在线检测方法及系统 | |
CN107247033B (zh) | 基于快速衰减式淘汰算法和plsda鉴别黄花梨成熟度的方法 | |
CN109839362A (zh) | 基于渐进式去噪技术的红外光谱定量分析方法 | |
CN108120694B (zh) | 用于晒红烟化学成分分析的多元校正方法及系统 | |
CN116539553A (zh) | 一种提高近红外光谱模型稳健性的方法 | |
Chen et al. | A new hybrid strategy for constructing a robust calibration model for near-infrared spectral analysis | |
CN112964719B (zh) | 一种基于高光谱的食品果糖检测方法及装置 | |
WO2023123329A1 (zh) | 近红外光谱的净信号提取方法及其系统 | |
CN112949169B (zh) | 一种基于光谱分析的煤样化验值预测方法 | |
CN115184281A (zh) | 一种基于二维光谱的溶液组分浓度确定方法及系统 | |
Kompany-Zareh et al. | Multi-way based calibration transfer between two Raman spectrometers | |
CN117054372B (zh) | 基于nirs与cv的茶叶品质等级检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |