CN114611582A - 一种基于近红外光谱技术分析物质浓度的方法及系统 - Google Patents

一种基于近红外光谱技术分析物质浓度的方法及系统 Download PDF

Info

Publication number
CN114611582A
CN114611582A CN202210140947.7A CN202210140947A CN114611582A CN 114611582 A CN114611582 A CN 114611582A CN 202210140947 A CN202210140947 A CN 202210140947A CN 114611582 A CN114611582 A CN 114611582A
Authority
CN
China
Prior art keywords
sample
matrix
known sample
target domain
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210140947.7A
Other languages
English (en)
Other versions
CN114611582B (zh
Inventor
陈孝敬
黄光造
石文
袁雷明
陈熙
蒋成玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN202210140947.7A priority Critical patent/CN114611582B/zh
Publication of CN114611582A publication Critical patent/CN114611582A/zh
Application granted granted Critical
Publication of CN114611582B publication Critical patent/CN114611582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明提供一种基于近红外光谱技术分析物质浓度的方法,包括获取原始域已知样本和目标域已知样本的近红外光谱数据,以得到原始域已知样本和目标域已知样本的光谱矩阵和浓度矩阵;将原始域已知样本和目标域已知样本的光谱矩阵进行预处理;针对原始域已知样本的近红外光谱数据,计算海赛矩阵和各样本的下降梯度;基于海赛矩阵和各样本的下降梯度,计算原始域已知样本对目标域已知样本的影响力;根据影响力的情况进行子采样,构建相应的PLS回归模型;获取目标域未知样本的光谱数据,并基于PLS回归模型,计算出目标域未知样本的浓度向量矩阵,以实现浓度预测。实施本发明,通过解决传统PLS建模中分布漂移的问题,使得分析结果更加准确。

Description

一种基于近红外光谱技术分析物质浓度的方法及系统
技术领域
本发明涉及近红外光谱识别技术领域,尤其涉及一种基于近红外光谱技术分析物质浓度的方法及系统。
背景技术
近红外光谱技术是一种简单、快速、可靠的检测技术。它综合运用了光谱技术、计算机技术、模式识别等多个学科的研究成果,以其独特的优势在多个领域得到了日益广泛的应用,并已逐渐得到大众的普遍接受和官方的认可。
近红外光谱分析是一种间接的分析方法,往往需要构造反映近红外光谱数据和待分析样本属性关系的回归模型。其中,偏最小二乘(PLS)回归模型是最最常用的多元回归模型。PLS不仅能对光谱矩阵进行处理,还能对浓度矩阵进行同样的处理,因此能够消除光谱矩阵以及浓度矩阵里的噪声信息,取得较好的预测效果。其计算过程为,对光谱矩阵以及浓度矩阵进行分解,通过交互校验法确定其最佳主成分数,最后建立光谱矩阵与浓度矩阵的数学模型关系。
随着采集的数据增多或者异常样本的混入,会导致校正集种的数据中的分布估计不同于验证集中的数据。从而导致验证集的模型不够适合于校正集的数据,使得预测精度不够理想。这里,将校正集的近光谱数据称为源域数据,验证集的近光谱数据称为目标域数据。利用子采样和影响函数,可以从校正集中选出一个和验证集的分布最为接近的子集。然后,用这个子集进行建模得到适合于验证集的模型。影响函数在评估样本的影响力十分的方便,快速,不需要重复建模。在子集上建模得到的新模型能够明显提高预测性能。
因此,研究一种基于影响函数和PLS的子采样建模方法对于近红外光谱分析技术的成功应用有着重要意义。尤其是,基于近红外光谱技术分析物质浓度时,通过解决传统PLS建模中分布漂移的问题,使得分析结果更加准确。
发明内容
本发明实施例所要解决的技术问题在于,提供一种基于近红外光谱技术分析物质浓度的方法及系统,通过解决传统PLS建模中分布漂移的问题,使得分析结果更加准确。
为了解决上述技术问题,本发明实施例提供了一种基于近红外光谱技术分析物质浓度的方法,包括以下步骤:
在采用近红外光谱分析待测物质时,确定待测物质的原始域已知样本及目标域已知样本的近红外光谱数据,并根据所述原始域已知样本及所述目标域已知样本的近红外光谱数据,构建出所述原始域已知样本的光谱矩阵和浓度向量矩阵,以及所述目标域已知样本的光谱矩阵和浓度向量矩阵;
对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理;
构造基于PLS的海赛矩阵以及所述海赛矩阵中各样本的下降梯度;
基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力;
根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建PLS回归模型的最优模型参数,并根据所得到的最优模型参数,构建 PLS回归模型;
获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵,并将所述目标域未知样本的光谱矩阵导入所述PLS回归模型进行分析,得到所述目标域未知样本的浓度向量矩阵,以实现所述目标域未知样本的浓度预测。
其中,所述对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理的步骤,具体为:
将所述原始域已知样本的光谱矩阵和所述目标域已知样本的光谱矩阵分别减去各自的行向量均值。
其中,所述基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力的具体步骤包括:
确定预处理后的原始域已知样本的光谱矩阵Xs,原始域已知样本的浓度向量矩阵ys,预处理后的目标域已知样本的光谱矩阵Xt,目标域已知样本的浓度向量矩阵yt
通过公式
Figure RE-GDA0003599330670000031
计算原始域已知样本zi对回归系数θ的影响
Figure RE-GDA0003599330670000032
通过公式
Figure RE-GDA0003599330670000033
计算原始域已知样本zi对目标域已知样本z的损失影响
Figure RE-GDA0003599330670000034
通过公式
Figure RE-GDA0003599330670000035
计算原始域已知样本zi对目标域已知样本数据集
Figure RE-GDA0003599330670000036
中所有样本的损失影响φi
其中,所述根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建PLS回归模型的最优模型参数的步骤,具体为:
对于给定的原始域已知样本zi,从训练集中筛选出影响最负面的100*α的样本,增加α直到RMSEV曲线收敛;其中,所述原始域已知样本zi的权值表示为
Figure RE-GDA0003599330670000037
thresholdα表示阈值;Oi=0表示需要移除的样本;α∈(0,1);RMSEV表示在目标域上的均方根误差,且
Figure RE-GDA0003599330670000038
给定潜在变量数量A∈[1,MaxLV],分别对每一个A建立相应的模型,并找出对应最小RMSEV时的α值,且进一步将对应最小RMSEV时的α和A为PLS 回归模型的最优模型参数输出;其中,MaxLV表示最大的潜在变量的数目。
本发明实施例还提供了一种基于近红外光谱技术分析物质浓度的系统,包括:
已知样本光谱获取单元,用于在采用近红外光谱分析待测物质时,确定待测物质的原始域已知样本及目标域已知样本的近红外光谱数据,并根据所述原始域已知样本及所述目标域已知样本的近红外光谱数据,构建出所述原始域已知样本的光谱矩阵和浓度向量矩阵,以及所述目标域已知样本的光谱矩阵和浓度向量矩阵;
已知样本光谱矩阵处理单元,用于对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理;
海赛矩阵构建单元,用于构造基于PLS的海赛矩阵以及所述海赛矩阵中各样本的下降梯度;
不利数据去除单元,用于基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力;
模型参数最优查找单元,用于根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建PLS回归模型的最优模型参数,并根据所得到的最优模型参数,构建PLS回归模型;
浓度预测单元,用于获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵,并将所述目标域未知样本的光谱矩阵导入所述PLS回归模型进行分析,得到所述目标域未知样本的浓度向量矩阵,以实现所述目标域未知样本的浓度预测。
其中,所述不利数据去除单元包括:
数据确定模块,用于确定预处理后的原始域已知样本的光谱矩阵Xs,原始域已知样本的浓度向量矩阵ys,预处理后的目标域已知样本的光谱矩阵Xt,目标域已知样本的浓度向量矩阵yt
第一计算模块,用于通过公式
Figure RE-GDA0003599330670000051
计算原始域已知样本zi对回归系数θ的影响
Figure RE-GDA0003599330670000052
第二计算模块,用于通过公式
Figure RE-GDA0003599330670000053
计算原始域已知样本zi对目标域已知样本z的损失影响
Figure RE-GDA0003599330670000054
第三计算模块,用于通过公式
Figure RE-GDA0003599330670000055
计算原始域已知样本zi对目标域已知样本数据集
Figure RE-GDA0003599330670000056
中所有样本的损失影响φi
实施本发明实施例,具有如下有益效果:
1、本发明针对近红外光皮分析中的校正集和验证集两者分布不一致的情况,提出了一种基于影响函数和PLS的子采样建模方法,通过解决传统PLS建模中分布漂移的问题,使得分析结果更加准确;
2、相对于传统的PLS算法,本发明利用原始域已知样本对目标域已知样本的影响情况进行子采样,去除原始域中不利于目标域的部分数据,从而达到建模优化的作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例提供的一种基于近红外光谱技术分析物质浓度的方法的流程图;
图2为本发明实施例提供的一种基于近红外光谱技术分析物质浓度的系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例中,提出的一种基于近红外光谱技术分析物质浓度的方法,包括以下步骤:
步骤S1、在采用近红外光谱分析待测物质时,确定待测物质的原始域已知样本及目标域已知样本的近红外光谱数据,并根据所述原始域已知样本及所述目标域已知样本的近红外光谱数据,构建出所述原始域已知样本的光谱矩阵和浓度向量矩阵,以及所述目标域已知样本的光谱矩阵和浓度向量矩阵;
步骤S2、对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理;
步骤S3、构造基于PLS的海赛矩阵以及所述海赛矩阵中各样本的下降梯度;
步骤S4、基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力;
步骤S5、根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建PLS回归模型的最优模型参数,并根据所得到的最优模型参数,构建PLS回归模型;
步骤S6、获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵,并将所述目标域未知样本的光谱矩阵导入所述PLS回归模型进行分析,得到所述目标域未知样本的浓度向量矩阵,以实现所述目标域未知样本的浓度预测。
具体过程为,在步骤S1中,准备原始域已知样本的近红外光谱数据 {xsi,ysi|i=1,2,…,ns},其中,xsi,ysi表示第i个原始域已知样本的光谱数据和属性 (如浓度),ns代表原始域已知样本的样品数量;
准备目标域已知样本的近红外光谱数据{xti,yti|i=1,2,...,nt};其中,xti,yti表示该数据集的第i个目标域已知样本的光谱数据和属性(如浓度),nt代表目标域已知样本的样品数量;
基于第i个原始域已知样本的光谱数据xsi,构建原始域已知样本的光谱矩阵 X1;基于第i个原始域已知样本的浓度ysi,构建原始域已知样本的浓度向量矩阵 Y1;以及,基于第i个目标域已知样本的光谱数据xti,构建目标域已知样本的光谱矩阵X2;基于第i个目标域已知样本的浓度yti,构建目标域已知样本的浓度向量矩阵Y2
在步骤S2中,对原始域已知样本及目标域已知样本的光谱矩阵进行中心化处理,即将原始域已知样本的光谱矩阵X1和目标域已知样本的光谱矩阵X2分别减去各自的行向量均值。
在步骤S3中,由于PLS可以被看做基于潜在空间的最小二乘法,其模型被表示为y=Tθ。根据这个模型,可以计算原始域已知样本的光谱数据的海赛矩阵 (Hessian)为Hθ=Ts(Ts TTs)-1Ts T,这里Ts表示原始域数据的得分矩阵;
第i个样本的损失函数表示为l(zi,θ)=(yi-ti Tθ)2,zi=(ti,yi),则其对应的下降梯度为▽l(zi,θ)i=-(yi-ti Tθ)ti
在步骤S4中,确定预处理后的原始域已知样本的光谱矩阵Xs,原始域已知样本的浓度向量矩阵ys,预处理后的目标域已知样本的光谱矩阵Xt,目标域已知样本的浓度向量矩阵yt
通过公式
Figure RE-GDA0003599330670000071
计算原始域已知样本zi对回归系数θ的影响
Figure RE-GDA0003599330670000072
实际上是各样本在回归系数估计
Figure RE-GDA0003599330670000073
上的牛顿梯度下降方向;
通过公式
Figure RE-GDA0003599330670000074
计算原始域已知样本zi对目标域已知样本z的损失影响
Figure RE-GDA0003599330670000075
可以看出,两个样本的梯度下降方向决定了两个样本之间的影响关系;
通过公式
Figure RE-GDA0003599330670000081
计算原始域已知样本zi对目标域已知样本数据集
Figure RE-GDA0003599330670000082
中所有样本的损失影响φi
在步骤S5中,首先,对于给定的原始域已知样本zi,从训练集中筛选出影响最负面的100*α的样本,增加α直到RMSEV曲线收敛;其中,所述原始域已知样本zi的权值表示为
Figure RE-GDA0003599330670000083
thresholdα表示阈值;Oi=0表示需要移除的样本;α∈(0,1);RMSEV表示在目标域上的均方根误差,且
Figure RE-GDA0003599330670000084
给定潜在变量数量A∈[1,MaxLV],分别对每一个A建立相应的模型,并找出对应最小RMSEV时的α值,且进一步将对应最小RMSEV时的α和A为PLS 回归模型的最优模型参数输出;其中,MaxLV表示最大的潜在变量的数目。
其次,根据所得到的最优模型参数,即对应最小RMSEV时的α和A,构建 PLS回归模型。
在步骤S6中,首先,获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵;其次,将目标域未知样本的光谱矩阵导入PLS 回归模型进行分析,得到目标域未知样本的浓度向量矩阵,以实现目标域未知样本的浓度预测。
在一个实施例中,步骤一、采集的原始域已知样本的近红外光谱数据,包含10个样本,包含3个波段。其中,样本1-5和6-10分别服从不同分布。
光谱矩阵为
Figure RE-GDA0003599330670000085
浓度向量矩阵为
Figure RE-GDA0003599330670000086
采集的目标域已知样本的近红外光谱数据,包含5个样本,3个波段。其中,光谱矩阵为
Figure RE-GDA0003599330670000091
浓度向量矩阵为
Figure RE-GDA0003599330670000092
这里,目标域的光谱数据与原始域的光谱数据中的6-10号样本比较接近。
步骤二、对原始域已知样本和目标域已知样本的光谱矩阵进行中心化,即将X1和X2的每一行减去各自的行向量均值,得到中心化的矩阵,具体如下:
Figure RE-GDA0003599330670000093
Figure RE-GDA0003599330670000094
步骤三、构造基于PLS的海赛矩阵和各样本的下降梯度
Figure RE-GDA0003599330670000095
Figure RE-GDA0003599330670000096
步骤四、计算原始域已知样本对目标域已知样本的影响力,得到
Figure RE-GDA0003599330670000101
步骤五、根据影响力φ,进行样本采样。
例如,取α=0.5,筛选出6,7,8,9,10样本建立模型
Figure RE-GDA0003599330670000102
步骤六、设置参数A,α取值范围,分别为[1,2,3],[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]
通过参数搜索得到最佳的参数,得到回归系数
Figure RE-GDA0003599330670000103
并进一步构建相应的PLS模型,得到
Figure RE-GDA0003599330670000104
其中,x*是目标域的未知样本,也就是光谱数据,y*是其属性值的预测结果,也就是前面所说的浓度向量。
测量浓度值本身需要依赖实验室中的一些化学方法,比较耗时且成本较高。这里通过基于近红外光谱的建模技术可以快速无损的方式得到待测物质的浓度值。从步骤五中可以看到,该算法有效地从原始域中提取出与目标域匹配的光谱数据,解决了原始域的数据分布和目标域的数据分布不同的问题。因此,相对于基于原始域的全部数据模型,这种方法所建立的模型使用了更少的样本数量,在精度上却得到显著的提升。
如图2所示,为本发明实施例中,提供的一种基于近红外光谱技术分析物质浓度的系统,包括:
已知样本光谱获取单元110,用于在采用近红外光谱分析待测物质时,确定待测物质的原始域已知样本及目标域已知样本的近红外光谱数据,并根据所述原始域已知样本及所述目标域已知样本的近红外光谱数据,构建出所述原始域已知样本的光谱矩阵和浓度向量矩阵,以及所述目标域已知样本的光谱矩阵和浓度向量矩阵;
已知样本光谱矩阵处理单元120,用于对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理;
海赛矩阵构建单元130,用于构造基于PLS的海赛矩阵以及所述海赛矩阵中各样本的下降梯度;
不利数据去除单元140,用于基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力;
模型参数最优查找单元150,用于根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建PLS回归模型的最优模型参数,并根据所得到的最优模型参数,构建PLS回归模型;
浓度预测单元160,用于获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵,并将所述目标域未知样本的光谱矩阵导入所述PLS回归模型进行分析,得到所述目标域未知样本的浓度向量矩阵,以实现所述目标域未知样本的浓度预测。
其中,所述不利数据去除单元140包括:
数据确定模块,用于确定预处理后的原始域已知样本的光谱矩阵Xs,原始域已知样本的浓度向量矩阵ys,预处理后的目标域已知样本的光谱矩阵Xt,目标域已知样本的浓度向量矩阵yt
第一计算模块,用于通过公式
Figure RE-GDA0003599330670000121
计算原始域已知样本zi对回归系数θ的影响
Figure RE-GDA0003599330670000122
第二计算模块,用于通过公式
Figure RE-GDA0003599330670000123
计算原始域已知样本zi对目标域已知样本z的损失影响
Figure RE-GDA0003599330670000124
第三计算模块,用于通过公式
Figure RE-GDA0003599330670000125
计算原始域已知样本zi对目标域已知样本数据集
Figure RE-GDA0003599330670000126
中所有样本的损失影响φi
实施本发明实施例,具有如下有益效果:
1、本发明针对近红外光皮分析中的校正集和验证集两者分布不一致的情况,提出了一种基于影响函数和PLS的子采样建模方法,通过解决传统PLS建模中分布漂移的问题,使得分析结果更加准确;
2、相对于传统的PLS算法,本发明利用原始域已知样本对目标域已知样本的影响情况进行子采样,去除原始域中不利于目标域的部分数据,从而达到建模优化的作用。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (6)

1.一种基于近红外光谱技术分析物质浓度的方法,其特征在于,包括以下步骤:
在采用近红外光谱分析待测物质时,确定待测物质的原始域已知样本及目标域已知样本的近红外光谱数据,并根据所述原始域已知样本及所述目标域已知样本的近红外光谱数据,构建出所述原始域已知样本的光谱矩阵和浓度向量矩阵,以及所述目标域已知样本的光谱矩阵和浓度向量矩阵;
对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理;
构造基于PLS的海赛矩阵以及所述海赛矩阵中各样本的下降梯度;
基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力;
根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建PLS回归模型的最优模型参数,并根据所得到的最优模型参数,构建PLS回归模型;
获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵,并将所述目标域未知样本的光谱矩阵导入所述PLS回归模型进行分析,得到所述目标域未知样本的浓度向量矩阵,以实现所述目标域未知样本的浓度预测。
2.如权利要求1所述的基于近红外光谱技术分析物质浓度的方法,其特征在于,所述对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理的步骤,具体为:
将所述原始域已知样本的光谱矩阵和所述目标域已知样本的光谱矩阵分别减去各自的行向量均值。
3.如权利要求1所述的基于近红外光谱技术分析物质浓度的方法,其特征在于,所述基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力的具体步骤包括:
确定预处理后的原始域已知样本的光谱矩阵Xs,原始域已知样本的浓度向量矩阵ys,预处理后的目标域已知样本的光谱矩阵Xt,目标域已知样本的浓度向量矩阵yt
通过公式
Figure RE-FDA0003599330660000021
计算原始域已知样本zi对回归系数θ的影响
Figure RE-FDA0003599330660000022
通过公式
Figure RE-FDA0003599330660000023
计算原始域已知样本zi对目标域已知样本z的损失影响
Figure RE-FDA0003599330660000024
通过公式
Figure RE-FDA0003599330660000025
计算原始域已知样本zi对目标域已知样本数据集
Figure RE-FDA0003599330660000026
中所有样本的损失影响φi
4.如权利要求3所述的基于近红外光谱技术分析物质浓度的方法,其特征在于,所述根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建PLS回归模型的最优模型参数的步骤,具体为:
对于给定的原始域已知样本zi,从训练集中筛选出影响最负面的100*α的样本,增加α直到RMSEV曲线收敛;其中,所述原始域已知样本zi的权值表示为
Figure RE-FDA0003599330660000027
thresholdα表示阈值;Oi=0表示需要移除的样本;α∈(0,1);RMSEV表示在目标域上的均方根误差,且
Figure RE-FDA0003599330660000028
给定潜在变量数量A∈[1,MaxLV],分别对每一个A建立相应的模型,并找出对应最小RMSEV时的α值,且进一步将对应最小RMSEV时的α和A为PLS回归模型的最优模型参数输出;其中,MaxLV表示最大的潜在变量的数目。
5.一种基于近红外光谱技术分析物质浓度的系统,其特征在于,包括:
已知样本光谱获取单元,用于在采用近红外光谱分析待测物质时,确定待测物质的原始域已知样本及目标域已知样本的近红外光谱数据,并根据所述原始域已知样本及所述目标域已知样本的近红外光谱数据,构建出所述原始域已知样本的光谱矩阵和浓度向量矩阵,以及所述目标域已知样本的光谱矩阵和浓度向量矩阵;
已知样本光谱矩阵处理单元,用于对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理;
海赛矩阵构建单元,用于构造基于PLS的海赛矩阵以及所述海赛矩阵中各样本的下降梯度;
不利数据去除单元,用于基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力;
模型参数最优查找单元,用于根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建PLS回归模型的最优模型参数,并根据所得到的最优模型参数,构建PLS回归模型;
浓度预测单元,用于获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵,并将所述目标域未知样本的光谱矩阵导入所述PLS回归模型进行分析,得到所述目标域未知样本的浓度向量矩阵,以实现所述目标域未知样本的浓度预测。
6.如权利要求5所述的基于近红外光谱技术分析物质浓度的系统,其特征在于,所述不利数据去除单元包括:
数据确定模块,用于确定预处理后的原始域已知样本的光谱矩阵Xs,原始域已知样本的浓度向量矩阵ys,预处理后的目标域已知样本的光谱矩阵Xt,目标域已知样本的浓度向量矩阵yt
第一计算模块,用于通过公式
Figure RE-FDA0003599330660000041
计算原始域已知样本zi对回归系数θ的影响
Figure RE-FDA0003599330660000042
第二计算模块,用于通过公式
Figure RE-FDA0003599330660000043
计算原始域已知样本zi对目标域已知样本z的损失影响
Figure RE-FDA0003599330660000044
第三计算模块,用于通过公式
Figure RE-FDA0003599330660000045
计算原始域已知样本zi对目标域已知样本数据集
Figure RE-FDA0003599330660000046
中所有样本的损失影响φi
CN202210140947.7A 2022-02-16 2022-02-16 一种基于近红外光谱技术分析物质浓度的方法及系统 Active CN114611582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210140947.7A CN114611582B (zh) 2022-02-16 2022-02-16 一种基于近红外光谱技术分析物质浓度的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210140947.7A CN114611582B (zh) 2022-02-16 2022-02-16 一种基于近红外光谱技术分析物质浓度的方法及系统

Publications (2)

Publication Number Publication Date
CN114611582A true CN114611582A (zh) 2022-06-10
CN114611582B CN114611582B (zh) 2024-05-14

Family

ID=81859704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210140947.7A Active CN114611582B (zh) 2022-02-16 2022-02-16 一种基于近红外光谱技术分析物质浓度的方法及系统

Country Status (1)

Country Link
CN (1) CN114611582B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115479905A (zh) * 2022-11-11 2022-12-16 季华实验室 光谱分析方法、装置、终端设备及介质
CN116959628A (zh) * 2023-07-25 2023-10-27 安及义实业(上海)有限公司 用于细胞培养全过程的物质成分分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007044602A1 (en) * 2005-10-07 2007-04-19 Baylor University Methods for determining enantiomeric purity with varying chiral analyte concentration
CN101825567A (zh) * 2010-04-02 2010-09-08 南开大学 一种近红外光谱和拉曼光谱波长的筛选方法
CN107153046A (zh) * 2017-05-18 2017-09-12 温州大学 基于浓度残差信息的近红外光谱检测水果品质的方法及系统
CN111125629A (zh) * 2019-12-25 2020-05-08 温州大学 一种域自适应的pls回归模型建模方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007044602A1 (en) * 2005-10-07 2007-04-19 Baylor University Methods for determining enantiomeric purity with varying chiral analyte concentration
CN101825567A (zh) * 2010-04-02 2010-09-08 南开大学 一种近红外光谱和拉曼光谱波长的筛选方法
CN107153046A (zh) * 2017-05-18 2017-09-12 温州大学 基于浓度残差信息的近红外光谱检测水果品质的方法及系统
CN111125629A (zh) * 2019-12-25 2020-05-08 温州大学 一种域自适应的pls回归模型建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓总纲;李玲慧;温江北;陈华舟;: "草莓固体可溶物的近红外光谱信息统计分析", 食品科技, no. 05, 20 May 2015 (2015-05-20) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115479905A (zh) * 2022-11-11 2022-12-16 季华实验室 光谱分析方法、装置、终端设备及介质
CN115479905B (zh) * 2022-11-11 2023-03-14 季华实验室 光谱分析方法、装置、终端设备及介质
CN116959628A (zh) * 2023-07-25 2023-10-27 安及义实业(上海)有限公司 用于细胞培养全过程的物质成分分析方法及装置

Also Published As

Publication number Publication date
CN114611582B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
US7899625B2 (en) Method and system for robust classification strategy for cancer detection from mass spectrometry data
WO2018121121A1 (zh) 用于扣除谱图本底的方法、通过拉曼谱图识别物质的方法和电子设备
CN114611582A (zh) 一种基于近红外光谱技术分析物质浓度的方法及系统
JP2006267111A (ja) スペクトル、特にnmrスペクトルのセットをプロセッシングする方法
JP2014190795A (ja) 検量線作成方法および検量線作成装置、並びに目的成分検量装置
CN111504942A (zh) 一种提高牛奶中蛋白质预测精度的近红外光谱分析方法
CN111999258A (zh) 一种面向光谱基线校正的加权建模局部优化方法
CN105223140A (zh) 同源物质的快速识别方法
CN113310934A (zh) 骆驼奶中掺加奶牛奶及其掺加比例的快速鉴定方法
CN112651173A (zh) 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统
WO2023123329A1 (zh) 近红外光谱的净信号提取方法及其系统
CN111125629A (zh) 一种域自适应的pls回归模型建模方法
CN116380869A (zh) 一种基于自适应稀疏分解的拉曼光谱去噪方法
CN115420707A (zh) 一种污水近红外光谱的化学需氧量评估方法及系统
CN111220565B (zh) 一种基于cpls的红外光谱测量仪器标定迁移方法
CN112229816B (zh) 基于opls-spa-mix-pls的木材弹性模量预测方法
CN115630332A (zh) 一种小麦粉粉质特性预测方法
CN110632024B (zh) 一种基于红外光谱的定量分析方法、装置、设备以及存储介质
CN114141316A (zh) 一种基于谱图分析的有机物生物毒性预测方法及系统
CN109145887B (zh) 一种基于光谱潜变量混淆判别的阈值分析方法
CN117093841B (zh) 小麦透射光谱的异常光谱筛选模型确定方法、装置及介质
CN117556245B (zh) 一种四甲基氢氧化铵生产过滤杂质检测方法
CN112649390A (zh) 一种基于近红外光谱的粘合剂水分含量监测方法
CN115060685A (zh) 基于光谱数据的多指标协同预测方法
CN117421593A (zh) 一种差谱计算的痕迹遗留时间的测量方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant