CN113674814A - 一种光谱定量分析模型的构建方法及装置 - Google Patents

一种光谱定量分析模型的构建方法及装置 Download PDF

Info

Publication number
CN113674814A
CN113674814A CN202110976970.5A CN202110976970A CN113674814A CN 113674814 A CN113674814 A CN 113674814A CN 202110976970 A CN202110976970 A CN 202110976970A CN 113674814 A CN113674814 A CN 113674814A
Authority
CN
China
Prior art keywords
parameter
initial value
loss function
insensitive loss
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110976970.5A
Other languages
English (en)
Other versions
CN113674814B (zh
Inventor
魏康丽
杨平
李贤信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan Haitian Flavoring and Food Co Ltd
Foshan Haitian Gaoming Flavoring and Food Co Ltd
Original Assignee
Foshan Haitian Flavoring and Food Co Ltd
Foshan Haitian Gaoming Flavoring and Food Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan Haitian Flavoring and Food Co Ltd, Foshan Haitian Gaoming Flavoring and Food Co Ltd filed Critical Foshan Haitian Flavoring and Food Co Ltd
Priority to CN202110976970.5A priority Critical patent/CN113674814B/zh
Publication of CN113674814A publication Critical patent/CN113674814A/zh
Application granted granted Critical
Publication of CN113674814B publication Critical patent/CN113674814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/3577Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing liquids, e.g. polluted water
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种光谱定量分析模型的构建方法及装置,包括:获取训练样本的化学值和光谱特征;根据化学值和光谱特征分别计算得到正则化参数初始值和不敏感损失函数参数初始值;并通过参数寻优得到最优正则化参数和最优不敏感损失函数参数;根据最优正则化参数和最优不敏感损失函数参数构建光谱定量分析模型。本发明实施例通过训练样本的化学值和光谱特征计算得到正则化参数初始值和不敏感损失函数参数初始值,并依据这两个参数初始值进行参数优化以及光谱定量分析模型的构建,不仅能够有效提高参数优化和建模的运算速度,且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。

Description

一种光谱定量分析模型的构建方法及装置
技术领域
本发明涉及定量分析技术领域,尤其是涉及一种光谱定量分析模型的构建方法及装置。
背景技术
红外光谱技术具有操作简便、分析速度快、检测效率高、无需前处理等优点,已广泛应用于食品、药品、化妆品、石油化工等多行业。线性回归、支持向量机、神经网络等机器学习和深度学习算法是建立定量预测模型常用的方法。其中,偏最小二乘(PLS)回归是线性回归中最经典、应用最广泛的一种方法。但变量筛选耗时长且适用性难以保证。神经网络涉及参数繁多,搭建相对复杂,应用门槛较高。支持向量机以结构风险最小化为原则,能够很好地解决小样本、高维数、非线性等问题,且涉及参数较少,构建相对简易,已被广泛应用于回归分析。合理地选择支持向量机的参数C和参数ε可以使模型具有更高的预测精度和更好的泛化能力。参数C决定了模型预测精度和模型复杂度之间的平衡。例如,若C太大,则目标仅是最小化经验风险,所建模型精度虽然高但却使得模型过于复杂,泛化性能变差。参数ε控制ε不敏感区域的宽度,影响用于构造回归函数的SV个数,从而影响模型复杂度。例如,若ε较大,会导致选择较少的SV,模型过于简单。
目前现有的光谱定量分析模型的构建方法是根据优化后的支持向量机参数构建的,支持向量机的参数优化方法主要为:根据先验知识设定参数的初始值,结合网格搜索、梯度下降法等方法进行参数优化。但是现有的光谱定量分析模型的构建方法的参数优化效果较差,导致光谱定量分析模型的预测精度和泛化能力较低。
发明内容
本发明提供了一种光谱定量分析模型构建方法及装置,以解决现有的光谱定量分析模型的构建方法的参数优化效果较差,导致光谱定量分析模型的预测精度和泛化能力较低的问题。
本发明的第一实施例提供了一种光谱定量分析模型的构建方法,包括:
获取训练样本的化学值和光谱特征;
根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;
根据所述光谱特征计算得到所述训练样本的噪声数据,并根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
根据所述最优正则化参数和所述最优不敏感损失函数参数构建光谱定量分析模型。
进一步的,所述分布数据包括平均值和标准差,所述根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值,具体包括:
选择支持向量机的核函数;
基于所述核函数根据所述化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
进一步的,所述根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值,所述不敏感损失函数参数初始值的表达式为:
Figure BDA0003227692310000021
其中,ε为不敏感损失函数参数初始值,n为样本数,t为样本数的预设倍数,f(n)为样本数的对数函数,σ为噪声标准差。
进一步的,所述分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数,具体包括:
将所述训练集的样本划分为K折,计算所述正则化参数初始值和所述不敏感损失函数参数初始值下每折的评估参数;
采用参数寻优方法根据所述正则化参数初始值和所述不敏感损失函数参数初始值分别进行参数搜索得到候选正则化参数和候选不敏感损失函数参数;
将所述评估参数最优时的候选正则化参数和候选不敏感损失函数参数分别作为最优正则化参数和最优不敏感函数参数。
进一步的,所述参数寻优方法包括网格搜索法、梯度下降法和单目标优化法。
进一步的,所述核函数为径向基核函数,所述径向基核函数的表达式为:
K(xi,x)=exp(-γ||x-xi||2)
其中,xi为特征空间某一中心点,x为特征空间的任一点,γ为宽度参数。
进一步的,所述正则化参数初始值的表达式为:
Figure BDA0003227692310000031
其中,p为所述化学值的精密度,
Figure BDA0003227692310000032
为化学值的平均值,σy为化学值的标准差。
进一步的,所述噪声标准差的表达式为:
Figure BDA0003227692310000033
其中,n为训练集的样本数量,d为0-1,k为邻近点数,yi为化学值,
Figure BDA0003227692310000034
为k邻近算法预测值。
本发明的第二实施例提供了一种光谱定量分析模型的构建装置,包括:
数据获取模块,用于获取训练样本的化学值和光谱特征:
第一计算模块,用于根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;
第二计算模块,用于根据所述光谱特征计算得到所述训练样本的噪声数据,并根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
参数寻优模块,用于分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
模型构建模块,用于根据所述最优正则化参数和所述最优不敏感损失函数参数构建光谱定量分析模型。
进一步的,所述分布数据包括平均值和标准差,所述第一计算模块,具体用于:
选择支持向量机的核函数;
基于所述核函数根据所述化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
本发明实施例通过训练样本的化学值和光谱特征进行正则化参数初始值和不敏感损失函数参数初始值的推算,并进一步进行参数寻优,以确定最优正则化参数和最优不敏感损失函数参数,基于该最优正则化参数和最优不敏感损失函数参数能够快速构建可用于复杂组分分析的光谱定量分析模型,不仅能够有效提高参数优化和建模的运算速度,且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。
附图说明
图1是本发明实施例提供的一种光谱定量分析模型的构建方法的流程示意图;
图2是本发明实施例提供的一种光谱定量分析模型的构建方法的另一流程示意图;
图3是本发明实施例提供的支持向量机交叉验证残差示意图;
图4是本发明实施例提供的支持向量机预测残差示意图;
图5是本发明实施例提供的PLS交叉验证残差示意图;
图6是本发明实施例提供的PLS预测残差示意图;
图7是本发明实施例提供的一种光谱定量分析模型的构建装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
请参阅图1-6,在本发明的第一实施例中,提供了图1所示的一种光谱定量分析模型的构建方法,包括:
S1、获取训练样本的化学值和光谱特征;
S2、根据化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;其中,分布数据包括平均值和标准差;
S3、根据光谱特征计算得到训练样本的噪声数据,并根据训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
S4、分别根据正则化参数初始值和不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
S5、根据最优正则化参数和最优不敏感损失函数参数构建光谱定量分析模型。
本发明实施例通过训练样本的化学值和光谱特征进行正则化参数初始值和不敏感损失函数参数初始值的推算,并进一步进行参数寻优,确定最优正则化参数和最优不敏感损失函数参数,基于该最优正则化参数和最优不敏感损失函数参数能够快速构建可用于复杂组分分析的光谱定量分析模型,不仅能够有效提高参数优化和建模的运算速度,且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。
请参阅图2,为本发明实施例提供的一种光谱定量分析模型的构建方法的另一流程示意图。
作为本发明实施例的一种具体实施方式,根据化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值,具体包括:
选择支持向量机的核函数;
基于核函数根据化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
可选地,支持向量机的核函数为径向基核函数,径向基核函数的表达式为:
K(xi,x)=exp(-γ||x-xi||2)
其中,xi为特征空间某一中心点,x为特征空间的任一点,γ为宽度参数。
基于该径向基核函数,能够将正则化参数与训练集的响应值范围联系起来,从而能够选择与训练集的响应值范围相等的正则化参数,具体的,训练样本的化学值结合精密度得到正则化参数初始值C0的表达式为:
Figure BDA0003227692310000061
其中,p为化学值的精密度,
Figure BDA0003227692310000062
为化学值的平均值,σy为化学值的标准差。
本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值,无需根据先验知识来设定参数的初始值以及无需进行重采样,从而能够快速且准确得到支持向量机的正则化参数初始值,进而能够有效提高支持向量机参数优化的效果。
作为本发明实施例的一种具体实施方式,根据训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值,不敏感损失函数参数初始值的表达式为:
Figure BDA0003227692310000063
其中,ε0为不敏感损失函数参数初始值,n为样本数,t为样本数的预设倍数,f(n)为样本数的对数函数,σ为噪声标准差。示例性地,t为样本数的1~10倍,f(n)可以为m lnn,mlog n等,m取正实数,噪声标准差σ的表达式为:
Figure BDA0003227692310000071
其中,n为训练集的样本数量,d为0-1,k为邻近点数,yi为化学值,
Figure BDA0003227692310000072
为k邻近算法预测值。
本发明实施例中,不敏感损失函数参数与出入噪声级别成正比,且与训练集样本数量成反比,即较大的样本数量应产生较小的不敏感损失函数参数,本发明实施例根据噪声标准差和训练集样本数量计算得到不敏感损失函数参数初始值。引入关于训练样本数量的函数能够有效防止当样本数量过大时,不敏感损失函数参数初始值趋于0。
本发明实施例根据样本数和噪声数据计算得到不敏感损失函数参数初始值ε0,综合考虑了样本数与噪声数据对构建光谱定量分析模型的影响,本发明实施例的不敏感损失函数参数初始值的确定方式不仅能够有效减少参数优化的运算量,而且还能使得构建得到的光谱定量分析模型在对复杂组分的样本进行定量分析时,能够有效提高模型的预测精度和泛化能力。在本发明实施例中,复杂组分的样本包括酱油及其发酵液,由煮过的大豆、烤过的谷物、盐水和米曲霉或大豆曲霉经发酵制成,含有酯类、醇类、羰基化合物、缩醛类及酚类等几十种甚至上百种复杂化合物,且化合物的种类和含量会受到各种工艺的不同影响。
作为本发明实施例的一种具体实施方式,分别根据正则化参数初始值和不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数,具体包括:
将训练集的样本划分为K折,计算正则化参数初始值和不敏感损失函数参数初始值下每折的评估参数;
采用参数寻优方法根据正则化参数初始值和不敏感损失函数参数初始值分别进行参数搜索得到候选正则化参数和候选不敏感损失函数参数;
将评估参数最优时的候选正则化参数和候选不敏感损失函数参数分别作为最优正则化参数和最优不敏感函数参数。
在本发明实施例中,通过将训练集的样本划分为K折进行交叉验证,如交叉验证误差SECV、R2、RPD等,并通过采用参数寻优的方法在正则化参数初始值和不敏感损失函数参数初始值的附近搜索得到候选正则化参数Ci和候选不敏感损失函数参数εi,重复上述交叉验证以及参数寻优步骤,直至得到评估参数最优的支持向量机最优参数。
作为本发明实施例的一种具体实施方式,参数寻优方法包括网格搜索法、梯度下降法和单目标优化法。
请参阅图3-6,本发明实施例提供了一种具体的实施例子:
以某公司天然晒制作过程的实验性酱油为样本,检测指标为葡萄糖(g/100g);实验设备为中红外光谱仪,分析光谱范围为968-2947cm-1,平行测量2次;参数筛选和模型建立过程通过Python编程实现。
本实施例中交叉验证折数k=3,化学值精密度p=5%,ε0计算式中f(n)=ln n,n为训练集样本数量284。m=3,邻近算法k=3。
根据正则化参数初始值和不敏感损失函数参数初始值的计算公式计算得到C0和ε0分别为2.296和0.0074。
设置网格搜索步长为0.001,所得最小SECV为0.0719,最优参数C和ε分别为3.356和0.0046。
请参阅图3,本发明实施例提供的基于最优参数C和ε所得最优SVM模型交叉验证残差示意图。请参阅图4,本发明实施例提供的对验证集(样本数量37)的预测结果示意图。请参阅图5,本发明实施例提供的基于PLS最优模型SECV为0.2549的交叉验证残差示意图,请参阅图6,为本发明实施例提供的对验证集预测结果示意图。
根据图3-6可知,本发明实施例所构建的光谱定量分析模型相较于经典PLS模型,一方面SECV更小,对浓度异常样有更好的适用性,模型更稳健;另一方面验证集SEP更小,具有更好的预测精度和泛化性能。
实施本发明实施例,具有以下有益效果:
本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值,无需根据先验知识来设定参数的初始值以及无需进行重采样,从而能够快速且准确得到支持向量机的正则化参数初始值,进而能够有效提高支持向量机参数优化的效果。本发明实施例根据样本数和噪声数据计算得到不敏感损失函数参数初始值,综合考虑了样本数与噪声数据对构建光谱定量分析模型的影响,本发明实施例的不敏感损失函数参数初始值的确定方式不仅能够有效减少参数优化的运算量,而且还能使得构建得到的光谱定量分析模型在对复杂组分的样本进行定量分析时,能够有效提高模型的预测精度和泛化能力。
请参阅图7,本发明的第二实施例提供了一种光谱定量分析模型的构建装置,包括:
数据获取模块10,用于获取训练样本的化学值和光谱特征:
第一计算模块20,用于根据化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;其中,分布数据包括平均值和标准差;
第二计算模块30,用于根据光谱特征计算得到训练样本的噪声数据,并根据训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
参数寻优模块40,用于分别根据正则化参数初始值和不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
模型构建模块50,用于根据最优正则化参数和最优不敏感损失函数参数构建光谱定量分析模型。
本发明实施例通过训练样本的化学值和光谱特征进行正则化参数初始值和不敏感损失函数参数初始值的推算,并进一步进行参数寻优,确定最优正则化参数和最优不敏感损失函数参数,基于该最优正则化参数和最优不敏感损失函数参数能够快速构建可用于复杂组分分析的光谱定量分析模型,不仅能够有效提高参数优化和建模的运算速度,且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。
作为本发明实施例的一种具体实施方式,第一计算模块20,具体用于:
选择支持向量机的核函数;
基于核函数根据化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
可选地,支持向量机的核函数为径向基核函数,径向基核函数的表达式为:
K(xi,x)=exp(-γ||x-xi||2)
其中,xi为特征空间某一中心点,x为特征空间的任一点,γ为宽度参数。
基于该径向基核函数,能够将正则化参数与训练集的响应值范围联系起来,从而能够选择与训练集的响应值范围相等的正则化参数,具体的,训练样本的化学值结合精密度得到正则化参数初始值C0的表达式为:
Figure BDA0003227692310000101
其中,p为化学值的精密度,
Figure BDA0003227692310000102
为化学值的平均值,σy为化学值的标准差。
本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值,无需根据先验知识来设定参数的初始值以及无需进行重采样,从而能够快速且准确得到支持向量机的正则化参数初始值,进而能够有效提高支持向量机参数优化的效果。
本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值,无需根据先验知识来设定参数的初始值以及无需进行重采样,从而能够快速且准确得到支持向量机的正则化参数初始值,进而能够有效提高支持向量机参数优化的效果。
作为本发明实施例的一种具体实施方式,不敏感损失函数参数初始值的表达式为:
Figure BDA0003227692310000103
其中,ε为不敏感损失函数参数初始值,n为样本数,t为样本数的预设倍数,f(n)为样本数的对数函数,σ为噪声标准差。示例性地,t为样本数的1~10倍,f(n)可以为m ln n,mlog n等,m取正实数,噪声标准差σ的表达式为:
Figure BDA0003227692310000104
其中,n为训练集的样本数量,d为0-1,k为邻近点数,yi为化学值,
Figure BDA0003227692310000105
为k邻近算法预测值。
本发明实施例中,不敏感损失函数参数与出入噪声级别成正比,且与训练集样本数量成反比,即较大的样本数量应产生较小的不敏感损失函数参数,本发明实施例根据噪声标准差和训练集样本数量计算得到不敏感损失函数参数初始值。引入关于训练样本数量的函数能够有效防止当样本数量过大时,不敏感损失函数参数初始值趋于0。
本发明实施例根据样本数和噪声数据计算得到不敏感损失函数参数初始值ε0,综合考虑了样本数与噪声数据对构建光谱定量分析模型的影响,本发明实施例的不敏感损失函数参数初始值的确定方式不仅能够有效减少参数优化的运算量,而且还能使得构建得到的光谱定量分析模型在对复杂组分的样本进行定量分析时,能够有效提高模型的预测精度和泛化能力。在本发明实施例中,复杂组分的样本包括酱油及其发酵液,由煮过的大豆、烤过的谷物、盐水和米曲霉或大豆曲霉经发酵制成,含有酯类、醇类、羰基化合物、缩醛类及酚类等几十种甚至上百种复杂化合物,且化合物的种类和含量会受到各种工艺的不同影响。
作为本发明实施例的一种具体实施方式,参数寻优模块40,具体用于:
将训练集的样本划分为K折,计算正则化参数初始值和不敏感损失函数参数初始值下每折的评估参数;
采用参数寻优方法根据正则化参数初始值和不敏感损失函数参数初始值分别进行参数搜索得到候选正则化参数和候选不敏感损失函数参数;
将评估参数最优时的候选正则化参数和候选不敏感损失函数参数分别作为最优正则化参数和最优不敏感函数参数。
在本发明实施例中,通过将训练集的样本划分为K折进行交叉验证,如交叉验证误差SECV、R2、RPD等,并通过采用参数寻优的方法在正则化参数初始值和不敏感损失函数参数初始值的附近搜索得到候选正则化参数Ci和候选不敏感损失函数参数εi,重复上述交叉验证以及参数寻优步骤,直至得到评估参数最优的支持向量机最优参数。
作为本发明实施例的一种具体实施方式,参数寻优方法包括网格搜索法、梯度下降法和单目标优化法。
请参阅图3-6,本发明实施例提供了一种具体的实施例子:
以某公司天然晒制作过程的实验性酱油为样本,检测指标为葡萄糖(g/100g);实验设备为中红外光谱仪,分析光谱范围为968-2947cm-1,平行测量2次;参数筛选和模型建立过程通过Python编程实现。
本实施例中交叉验证折数k=3,化学值精密度p=5%,ε0计算式中f(n)=ln n,n为训练集样本数量284。m=3,邻近算法k=3。
根据正则化参数初始值和不敏感损失函数参数初始值的计算公式计算得到C0和ε0分别为2.296和0.0074。
设置网格搜索步长为0.001,所得最小SECV为0.0719,最优参数C和ε分别为3.356和0.0046。
请参阅图3,本发明实施例提供的基于最优参数C和ε所得最优SVM模型交叉验证残差示意图。请参阅图4,本发明实施例提供的对验证集(样本数量37)的预测结果示意图。请参阅图5,本发明实施例提供的基于PLS最优模型SECV为0.2549的交叉验证残差示意图,请参阅图6,为本发明实施例提供的对验证集预测结果示意图。
根据图3-6可知,本发明实施例所构建的光谱定量分析模型相较于经典PLS模型,一方面SECV更小,对浓度异常样有更好的适用性,模型更稳健;另一方面验证集SEP更小,具有更好的预测精度和泛化性能。
实施本发明实施例,具有以下有益效果:
本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值,无需根据先验知识来设定参数的初始值以及无需进行重采样,从而能够快速且准确得到支持向量机的正则化参数初始值,进而能够有效提高支持向量机参数优化的效果。本发明实施例根据样本数和噪声数据计算得到不敏感损失函数参数初始值,综合考虑了样本数与噪声数据对构建光谱定量分析模型的影响,本发明实施例的不敏感损失函数参数初始值的确定方式不仅能够有效减少参数优化的运算量,而且还能使得构建得到的光谱定量分析模型在对复杂组分的样本进行定量分析时,能够有效提高模型的预测精度和泛化能力。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种光谱定量分析模型的构建方法,其特征在于,包括:
获取训练样本的化学值和光谱特征;
根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;
根据所述光谱特征计算得到所述训练样本的噪声数据,并根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
根据所述最优正则化参数和所述最优不敏感损失函数参数构建光谱定量分析模型。
2.如权利要求1所述的光谱定量分析模型的构建方法,其特征在于,所述分布数据包括平均值和标准差,所述根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值,具体包括:
选择支持向量机的核函数;
基于所述核函数根据所述化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
3.如权利要求1所述的光谱定量分析模型的构建方法,其特征在于,所述根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值,所述不敏感损失函数参数初始值的表达式为:
Figure FDA0003227692300000011
其中,ε为不敏感损失函数参数初始值,n为样本数,t为样本数的预设倍数,f(n)为样本数的对数函数,σ为噪声标准差。
4.如权利要求1所述的光谱定量分析模型的构建方法,其特征在于,所述分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数,具体包括:
将所述训练集的样本划分为K折,计算所述正则化参数初始值和所述不敏感损失函数参数初始值下每折的评估参数;
采用参数寻优方法根据所述正则化参数初始值和所述不敏感损失函数参数初始值分别进行参数搜索得到候选正则化参数和候选不敏感损失函数参数;
将所述评估参数最优时的候选正则化参数和候选不敏感损失函数参数分别作为最优正则化参数和最优不敏感函数参数。
5.如权利要求4所述的光谱定量分析模型的构建方法,其特征在于,所述参数寻优方法包括网格搜索法、梯度下降法和单目标优化法。
6.如权利要求2所述的光谱定量分析模型的构建方法,其特征在于,所述核函数为径向基核函数,所述径向基核函数的表达式为:
K(xi,x)=exp(-γ||x-xi||2)
其中,xi为特征空间某一中心点,x为特征空间的任一点,γ为宽度参数。
7.如权利要求2所述的光谱定量分析模型的构建方法,其特征在于,所述正则化参数初始值的表达式为:
Figure FDA0003227692300000021
其中,p为所述化学值的精密度,
Figure FDA0003227692300000023
为化学值的平均值,σy为化学值的标准差。
8.如权利要求3所述的光谱定量分析模型的构建方法,其特征在于,所述噪声标准差的表达式为:
Figure FDA0003227692300000022
其中,d为0-1,k为邻近点数,yi为化学值,
Figure FDA0003227692300000031
为k邻近算法预测值。
9.一种光谱定量分析模型的构建装置,其特征在于,包括:
数据获取模块,用于获取训练样本的化学值和光谱特征;
第一计算模块,用于根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;
第二计算模块,用于根据所述光谱特征计算得到所述训练样本的噪声数据,并根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
参数寻优模块,用于分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
模型构建模块,用于根据所述最优正则化参数和所述最优不敏感损失函数参数构建光谱定量分析模型。
10.如权利要求9所述的光谱定量分析模型的构建装置,其特征在于,所述分布数据包括平均值和标准差,所述第一计算模块,具体用于:
选择支持向量机的核函数;
基于所述核函数根据所述化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
CN202110976970.5A 2021-08-24 2021-08-24 一种光谱定量分析模型的构建方法及装置 Active CN113674814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110976970.5A CN113674814B (zh) 2021-08-24 2021-08-24 一种光谱定量分析模型的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110976970.5A CN113674814B (zh) 2021-08-24 2021-08-24 一种光谱定量分析模型的构建方法及装置

Publications (2)

Publication Number Publication Date
CN113674814A true CN113674814A (zh) 2021-11-19
CN113674814B CN113674814B (zh) 2023-06-23

Family

ID=78545858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110976970.5A Active CN113674814B (zh) 2021-08-24 2021-08-24 一种光谱定量分析模型的构建方法及装置

Country Status (1)

Country Link
CN (1) CN113674814B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105784628A (zh) * 2016-02-29 2016-07-20 上海交通大学 一种利用中红外光谱检测土壤有机质化学组成的方法
CN107330300A (zh) * 2017-08-24 2017-11-07 中国科学技术大学 一种基于支持向量回归的车辆尾气浓度反演方法
CN107505283A (zh) * 2017-09-04 2017-12-22 上海交通大学 近红外光谱测定次生盐渍土壤中硝酸根离子含量的方法
CN107657287A (zh) * 2017-10-26 2018-02-02 贵州电网有限责任公司电力科学研究院 一种变压器油酸值多频超声波测试回归预测方法
CN110208252A (zh) * 2019-06-30 2019-09-06 华中科技大学 一种基于激光诱导击穿光谱分析的煤灰熔点预测方法
CN111965138A (zh) * 2020-08-18 2020-11-20 山东金璋隆祥智能科技有限责任公司 一种低聚麦芽糖中水分含量的测定方法
CN111965134A (zh) * 2020-08-13 2020-11-20 桂林电子科技大学 一种橡胶硫化促进剂混合物的太赫兹光谱定量分析方法
US20210247367A1 (en) * 2018-08-08 2021-08-12 Zhejiang University Workflow-based model optimization method for vibrational spectral analysis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105784628A (zh) * 2016-02-29 2016-07-20 上海交通大学 一种利用中红外光谱检测土壤有机质化学组成的方法
CN107330300A (zh) * 2017-08-24 2017-11-07 中国科学技术大学 一种基于支持向量回归的车辆尾气浓度反演方法
CN107505283A (zh) * 2017-09-04 2017-12-22 上海交通大学 近红外光谱测定次生盐渍土壤中硝酸根离子含量的方法
CN107657287A (zh) * 2017-10-26 2018-02-02 贵州电网有限责任公司电力科学研究院 一种变压器油酸值多频超声波测试回归预测方法
US20210247367A1 (en) * 2018-08-08 2021-08-12 Zhejiang University Workflow-based model optimization method for vibrational spectral analysis
CN110208252A (zh) * 2019-06-30 2019-09-06 华中科技大学 一种基于激光诱导击穿光谱分析的煤灰熔点预测方法
CN111965134A (zh) * 2020-08-13 2020-11-20 桂林电子科技大学 一种橡胶硫化促进剂混合物的太赫兹光谱定量分析方法
CN111965138A (zh) * 2020-08-18 2020-11-20 山东金璋隆祥智能科技有限责任公司 一种低聚麦芽糖中水分含量的测定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜翠 等: "气象数据弱相关的光伏出力短期预测", 现代电力, no. 06 *

Also Published As

Publication number Publication date
CN113674814B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Chen et al. A fuzzy optimization strategy for the implementation of RBF LSSVR model in vis–NIR analysis of pomelo maturity
Karimi et al. Detection and quantification of food colorant adulteration in saffron sample using chemometric analysis of FT-IR spectra
Oliveri et al. Multivariate class modeling for the verification of food-authenticity claims
Song et al. Nearest clusters based partial least squares discriminant analysis for the classification of spectral data
CN101915744A (zh) 物质成分含量的近红外光谱无损检测方法及装置
CN111044483A (zh) 一种基于近红外光谱的奶油中色素测定方法、系统和介质
CN107958267B (zh) 一种基于光谱线性表示的油品性质预测方法
CN107563448B (zh) 基于近红外光谱分析的样本空间聚类划分法
Oliveri et al. Chemometrics for food authenticity applications
CN109115692A (zh) 一种光谱数据分析方法及装置
CN114216877B (zh) 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统
Cernuda et al. Improved quantification of important beer quality parameters based on nonlinear calibration methods applied to FT-MIR spectra
Camps-Vails et al. Biophysical parameter estimation with adaptive Gaussian processes
CN116735527A (zh) 一种近红外光谱优化方法、装置、系统以及存储介质
Wang et al. SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging
Sena et al. Multivariate statistical analysis and chemometrics
CN113674814A (zh) 一种光谱定量分析模型的构建方法及装置
CN111125629A (zh) 一种域自适应的pls回归模型建模方法
CN111415715B (zh) 一种基于多元光谱数据的智能校正方法、系统及装置
CN114062306B (zh) 一种近红外光谱数据分段预处理方法
CN116205863A (zh) 一种检测高光谱图像异常目标的方法
CN115561193A (zh) 一种傅里叶红外光谱仪数据处理和分析系统
CN113984708A (zh) 一种化学指标检测模型的维护方法和装置
Oblitas et al. The Use of Correlation, Association and Regression Techniques for Analyzing Processes and Food Products
CN109060681B (zh) 痕量金属离子浓度区间预测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant