CN113674814A - 一种光谱定量分析模型的构建方法及装置 - Google Patents
一种光谱定量分析模型的构建方法及装置 Download PDFInfo
- Publication number
- CN113674814A CN113674814A CN202110976970.5A CN202110976970A CN113674814A CN 113674814 A CN113674814 A CN 113674814A CN 202110976970 A CN202110976970 A CN 202110976970A CN 113674814 A CN113674814 A CN 113674814A
- Authority
- CN
- China
- Prior art keywords
- parameter
- initial value
- loss function
- insensitive loss
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000004445 quantitative analysis Methods 0.000 title claims abstract description 38
- 238000001228 spectrum Methods 0.000 title claims abstract description 15
- 239000000126 substance Substances 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000005457 optimization Methods 0.000 claims abstract description 41
- 230000003595 spectral effect Effects 0.000 claims abstract description 40
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000012706 support-vector machine Methods 0.000 claims description 56
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000010183 spectrum analysis Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 94
- 238000002790 cross-validation Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 7
- 238000012952 Resampling Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 150000001875 compounds Chemical class 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 235000013555 soy sauce Nutrition 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 240000006439 Aspergillus oryzae Species 0.000 description 2
- 235000002247 Aspergillus oryzae Nutrition 0.000 description 2
- 241000131386 Aspergillus sojae Species 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 235000010469 Glycine max Nutrition 0.000 description 2
- 244000068988 Glycine max Species 0.000 description 2
- 150000001241 acetals Chemical class 0.000 description 2
- 150000001298 alcohols Chemical class 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 150000001728 carbonyl compounds Chemical class 0.000 description 2
- 235000013339 cereals Nutrition 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 150000002148 esters Chemical class 0.000 description 2
- 238000000855 fermentation Methods 0.000 description 2
- 230000004151 fermentation Effects 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 150000002989 phenols Chemical class 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000002329 infrared spectrum Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3577—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light for analysing liquids, e.g. polluted water
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种光谱定量分析模型的构建方法及装置,包括:获取训练样本的化学值和光谱特征;根据化学值和光谱特征分别计算得到正则化参数初始值和不敏感损失函数参数初始值;并通过参数寻优得到最优正则化参数和最优不敏感损失函数参数;根据最优正则化参数和最优不敏感损失函数参数构建光谱定量分析模型。本发明实施例通过训练样本的化学值和光谱特征计算得到正则化参数初始值和不敏感损失函数参数初始值,并依据这两个参数初始值进行参数优化以及光谱定量分析模型的构建,不仅能够有效提高参数优化和建模的运算速度,且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。
Description
技术领域
本发明涉及定量分析技术领域,尤其是涉及一种光谱定量分析模型的构建方法及装置。
背景技术
红外光谱技术具有操作简便、分析速度快、检测效率高、无需前处理等优点,已广泛应用于食品、药品、化妆品、石油化工等多行业。线性回归、支持向量机、神经网络等机器学习和深度学习算法是建立定量预测模型常用的方法。其中,偏最小二乘(PLS)回归是线性回归中最经典、应用最广泛的一种方法。但变量筛选耗时长且适用性难以保证。神经网络涉及参数繁多,搭建相对复杂,应用门槛较高。支持向量机以结构风险最小化为原则,能够很好地解决小样本、高维数、非线性等问题,且涉及参数较少,构建相对简易,已被广泛应用于回归分析。合理地选择支持向量机的参数C和参数ε可以使模型具有更高的预测精度和更好的泛化能力。参数C决定了模型预测精度和模型复杂度之间的平衡。例如,若C太大,则目标仅是最小化经验风险,所建模型精度虽然高但却使得模型过于复杂,泛化性能变差。参数ε控制ε不敏感区域的宽度,影响用于构造回归函数的SV个数,从而影响模型复杂度。例如,若ε较大,会导致选择较少的SV,模型过于简单。
目前现有的光谱定量分析模型的构建方法是根据优化后的支持向量机参数构建的,支持向量机的参数优化方法主要为:根据先验知识设定参数的初始值,结合网格搜索、梯度下降法等方法进行参数优化。但是现有的光谱定量分析模型的构建方法的参数优化效果较差,导致光谱定量分析模型的预测精度和泛化能力较低。
发明内容
本发明提供了一种光谱定量分析模型构建方法及装置,以解决现有的光谱定量分析模型的构建方法的参数优化效果较差,导致光谱定量分析模型的预测精度和泛化能力较低的问题。
本发明的第一实施例提供了一种光谱定量分析模型的构建方法,包括:
获取训练样本的化学值和光谱特征;
根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;
根据所述光谱特征计算得到所述训练样本的噪声数据,并根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
根据所述最优正则化参数和所述最优不敏感损失函数参数构建光谱定量分析模型。
进一步的,所述分布数据包括平均值和标准差,所述根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值,具体包括:
选择支持向量机的核函数;
基于所述核函数根据所述化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
进一步的,所述根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值,所述不敏感损失函数参数初始值的表达式为:
其中,ε为不敏感损失函数参数初始值,n为样本数,t为样本数的预设倍数,f(n)为样本数的对数函数,σ为噪声标准差。
进一步的,所述分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数,具体包括:
将所述训练集的样本划分为K折,计算所述正则化参数初始值和所述不敏感损失函数参数初始值下每折的评估参数;
采用参数寻优方法根据所述正则化参数初始值和所述不敏感损失函数参数初始值分别进行参数搜索得到候选正则化参数和候选不敏感损失函数参数;
将所述评估参数最优时的候选正则化参数和候选不敏感损失函数参数分别作为最优正则化参数和最优不敏感函数参数。
进一步的,所述参数寻优方法包括网格搜索法、梯度下降法和单目标优化法。
进一步的,所述核函数为径向基核函数,所述径向基核函数的表达式为:
K(xi,x)=exp(-γ||x-xi||2)
其中,xi为特征空间某一中心点,x为特征空间的任一点,γ为宽度参数。
进一步的,所述正则化参数初始值的表达式为:
进一步的,所述噪声标准差的表达式为:
本发明的第二实施例提供了一种光谱定量分析模型的构建装置,包括:
数据获取模块,用于获取训练样本的化学值和光谱特征:
第一计算模块,用于根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;
第二计算模块,用于根据所述光谱特征计算得到所述训练样本的噪声数据,并根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
参数寻优模块,用于分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
模型构建模块,用于根据所述最优正则化参数和所述最优不敏感损失函数参数构建光谱定量分析模型。
进一步的,所述分布数据包括平均值和标准差,所述第一计算模块,具体用于:
选择支持向量机的核函数;
基于所述核函数根据所述化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
本发明实施例通过训练样本的化学值和光谱特征进行正则化参数初始值和不敏感损失函数参数初始值的推算,并进一步进行参数寻优,以确定最优正则化参数和最优不敏感损失函数参数,基于该最优正则化参数和最优不敏感损失函数参数能够快速构建可用于复杂组分分析的光谱定量分析模型,不仅能够有效提高参数优化和建模的运算速度,且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。
附图说明
图1是本发明实施例提供的一种光谱定量分析模型的构建方法的流程示意图;
图2是本发明实施例提供的一种光谱定量分析模型的构建方法的另一流程示意图;
图3是本发明实施例提供的支持向量机交叉验证残差示意图;
图4是本发明实施例提供的支持向量机预测残差示意图;
图5是本发明实施例提供的PLS交叉验证残差示意图;
图6是本发明实施例提供的PLS预测残差示意图;
图7是本发明实施例提供的一种光谱定量分析模型的构建装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
请参阅图1-6,在本发明的第一实施例中,提供了图1所示的一种光谱定量分析模型的构建方法,包括:
S1、获取训练样本的化学值和光谱特征;
S2、根据化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;其中,分布数据包括平均值和标准差;
S3、根据光谱特征计算得到训练样本的噪声数据,并根据训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
S4、分别根据正则化参数初始值和不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
S5、根据最优正则化参数和最优不敏感损失函数参数构建光谱定量分析模型。
本发明实施例通过训练样本的化学值和光谱特征进行正则化参数初始值和不敏感损失函数参数初始值的推算,并进一步进行参数寻优,确定最优正则化参数和最优不敏感损失函数参数,基于该最优正则化参数和最优不敏感损失函数参数能够快速构建可用于复杂组分分析的光谱定量分析模型,不仅能够有效提高参数优化和建模的运算速度,且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。
请参阅图2,为本发明实施例提供的一种光谱定量分析模型的构建方法的另一流程示意图。
作为本发明实施例的一种具体实施方式,根据化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值,具体包括:
选择支持向量机的核函数;
基于核函数根据化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
可选地,支持向量机的核函数为径向基核函数,径向基核函数的表达式为:
K(xi,x)=exp(-γ||x-xi||2)
其中,xi为特征空间某一中心点,x为特征空间的任一点,γ为宽度参数。
基于该径向基核函数,能够将正则化参数与训练集的响应值范围联系起来,从而能够选择与训练集的响应值范围相等的正则化参数,具体的,训练样本的化学值结合精密度得到正则化参数初始值C0的表达式为:
本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值,无需根据先验知识来设定参数的初始值以及无需进行重采样,从而能够快速且准确得到支持向量机的正则化参数初始值,进而能够有效提高支持向量机参数优化的效果。
作为本发明实施例的一种具体实施方式,根据训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值,不敏感损失函数参数初始值的表达式为:
其中,ε0为不敏感损失函数参数初始值,n为样本数,t为样本数的预设倍数,f(n)为样本数的对数函数,σ为噪声标准差。示例性地,t为样本数的1~10倍,f(n)可以为m lnn,mlog n等,m取正实数,噪声标准差σ的表达式为:
本发明实施例中,不敏感损失函数参数与出入噪声级别成正比,且与训练集样本数量成反比,即较大的样本数量应产生较小的不敏感损失函数参数,本发明实施例根据噪声标准差和训练集样本数量计算得到不敏感损失函数参数初始值。引入关于训练样本数量的函数能够有效防止当样本数量过大时,不敏感损失函数参数初始值趋于0。
本发明实施例根据样本数和噪声数据计算得到不敏感损失函数参数初始值ε0,综合考虑了样本数与噪声数据对构建光谱定量分析模型的影响,本发明实施例的不敏感损失函数参数初始值的确定方式不仅能够有效减少参数优化的运算量,而且还能使得构建得到的光谱定量分析模型在对复杂组分的样本进行定量分析时,能够有效提高模型的预测精度和泛化能力。在本发明实施例中,复杂组分的样本包括酱油及其发酵液,由煮过的大豆、烤过的谷物、盐水和米曲霉或大豆曲霉经发酵制成,含有酯类、醇类、羰基化合物、缩醛类及酚类等几十种甚至上百种复杂化合物,且化合物的种类和含量会受到各种工艺的不同影响。
作为本发明实施例的一种具体实施方式,分别根据正则化参数初始值和不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数,具体包括:
将训练集的样本划分为K折,计算正则化参数初始值和不敏感损失函数参数初始值下每折的评估参数;
采用参数寻优方法根据正则化参数初始值和不敏感损失函数参数初始值分别进行参数搜索得到候选正则化参数和候选不敏感损失函数参数;
将评估参数最优时的候选正则化参数和候选不敏感损失函数参数分别作为最优正则化参数和最优不敏感函数参数。
在本发明实施例中,通过将训练集的样本划分为K折进行交叉验证,如交叉验证误差SECV、R2、RPD等,并通过采用参数寻优的方法在正则化参数初始值和不敏感损失函数参数初始值的附近搜索得到候选正则化参数Ci和候选不敏感损失函数参数εi,重复上述交叉验证以及参数寻优步骤,直至得到评估参数最优的支持向量机最优参数。
作为本发明实施例的一种具体实施方式,参数寻优方法包括网格搜索法、梯度下降法和单目标优化法。
请参阅图3-6,本发明实施例提供了一种具体的实施例子:
以某公司天然晒制作过程的实验性酱油为样本,检测指标为葡萄糖(g/100g);实验设备为中红外光谱仪,分析光谱范围为968-2947cm-1,平行测量2次;参数筛选和模型建立过程通过Python编程实现。
本实施例中交叉验证折数k=3,化学值精密度p=5%,ε0计算式中f(n)=ln n,n为训练集样本数量284。m=3,邻近算法k=3。
根据正则化参数初始值和不敏感损失函数参数初始值的计算公式计算得到C0和ε0分别为2.296和0.0074。
设置网格搜索步长为0.001,所得最小SECV为0.0719,最优参数C和ε分别为3.356和0.0046。
请参阅图3,本发明实施例提供的基于最优参数C和ε所得最优SVM模型交叉验证残差示意图。请参阅图4,本发明实施例提供的对验证集(样本数量37)的预测结果示意图。请参阅图5,本发明实施例提供的基于PLS最优模型SECV为0.2549的交叉验证残差示意图,请参阅图6,为本发明实施例提供的对验证集预测结果示意图。
根据图3-6可知,本发明实施例所构建的光谱定量分析模型相较于经典PLS模型,一方面SECV更小,对浓度异常样有更好的适用性,模型更稳健;另一方面验证集SEP更小,具有更好的预测精度和泛化性能。
实施本发明实施例,具有以下有益效果:
本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值,无需根据先验知识来设定参数的初始值以及无需进行重采样,从而能够快速且准确得到支持向量机的正则化参数初始值,进而能够有效提高支持向量机参数优化的效果。本发明实施例根据样本数和噪声数据计算得到不敏感损失函数参数初始值,综合考虑了样本数与噪声数据对构建光谱定量分析模型的影响,本发明实施例的不敏感损失函数参数初始值的确定方式不仅能够有效减少参数优化的运算量,而且还能使得构建得到的光谱定量分析模型在对复杂组分的样本进行定量分析时,能够有效提高模型的预测精度和泛化能力。
请参阅图7,本发明的第二实施例提供了一种光谱定量分析模型的构建装置,包括:
数据获取模块10,用于获取训练样本的化学值和光谱特征:
第一计算模块20,用于根据化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;其中,分布数据包括平均值和标准差;
第二计算模块30,用于根据光谱特征计算得到训练样本的噪声数据,并根据训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
参数寻优模块40,用于分别根据正则化参数初始值和不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
模型构建模块50,用于根据最优正则化参数和最优不敏感损失函数参数构建光谱定量分析模型。
本发明实施例通过训练样本的化学值和光谱特征进行正则化参数初始值和不敏感损失函数参数初始值的推算,并进一步进行参数寻优,确定最优正则化参数和最优不敏感损失函数参数,基于该最优正则化参数和最优不敏感损失函数参数能够快速构建可用于复杂组分分析的光谱定量分析模型,不仅能够有效提高参数优化和建模的运算速度,且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。
作为本发明实施例的一种具体实施方式,第一计算模块20,具体用于:
选择支持向量机的核函数;
基于核函数根据化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
可选地,支持向量机的核函数为径向基核函数,径向基核函数的表达式为:
K(xi,x)=exp(-γ||x-xi||2)
其中,xi为特征空间某一中心点,x为特征空间的任一点,γ为宽度参数。
基于该径向基核函数,能够将正则化参数与训练集的响应值范围联系起来,从而能够选择与训练集的响应值范围相等的正则化参数,具体的,训练样本的化学值结合精密度得到正则化参数初始值C0的表达式为:
本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值,无需根据先验知识来设定参数的初始值以及无需进行重采样,从而能够快速且准确得到支持向量机的正则化参数初始值,进而能够有效提高支持向量机参数优化的效果。
本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值,无需根据先验知识来设定参数的初始值以及无需进行重采样,从而能够快速且准确得到支持向量机的正则化参数初始值,进而能够有效提高支持向量机参数优化的效果。
作为本发明实施例的一种具体实施方式,不敏感损失函数参数初始值的表达式为:
其中,ε为不敏感损失函数参数初始值,n为样本数,t为样本数的预设倍数,f(n)为样本数的对数函数,σ为噪声标准差。示例性地,t为样本数的1~10倍,f(n)可以为m ln n,mlog n等,m取正实数,噪声标准差σ的表达式为:
本发明实施例中,不敏感损失函数参数与出入噪声级别成正比,且与训练集样本数量成反比,即较大的样本数量应产生较小的不敏感损失函数参数,本发明实施例根据噪声标准差和训练集样本数量计算得到不敏感损失函数参数初始值。引入关于训练样本数量的函数能够有效防止当样本数量过大时,不敏感损失函数参数初始值趋于0。
本发明实施例根据样本数和噪声数据计算得到不敏感损失函数参数初始值ε0,综合考虑了样本数与噪声数据对构建光谱定量分析模型的影响,本发明实施例的不敏感损失函数参数初始值的确定方式不仅能够有效减少参数优化的运算量,而且还能使得构建得到的光谱定量分析模型在对复杂组分的样本进行定量分析时,能够有效提高模型的预测精度和泛化能力。在本发明实施例中,复杂组分的样本包括酱油及其发酵液,由煮过的大豆、烤过的谷物、盐水和米曲霉或大豆曲霉经发酵制成,含有酯类、醇类、羰基化合物、缩醛类及酚类等几十种甚至上百种复杂化合物,且化合物的种类和含量会受到各种工艺的不同影响。
作为本发明实施例的一种具体实施方式,参数寻优模块40,具体用于:
将训练集的样本划分为K折,计算正则化参数初始值和不敏感损失函数参数初始值下每折的评估参数;
采用参数寻优方法根据正则化参数初始值和不敏感损失函数参数初始值分别进行参数搜索得到候选正则化参数和候选不敏感损失函数参数;
将评估参数最优时的候选正则化参数和候选不敏感损失函数参数分别作为最优正则化参数和最优不敏感函数参数。
在本发明实施例中,通过将训练集的样本划分为K折进行交叉验证,如交叉验证误差SECV、R2、RPD等,并通过采用参数寻优的方法在正则化参数初始值和不敏感损失函数参数初始值的附近搜索得到候选正则化参数Ci和候选不敏感损失函数参数εi,重复上述交叉验证以及参数寻优步骤,直至得到评估参数最优的支持向量机最优参数。
作为本发明实施例的一种具体实施方式,参数寻优方法包括网格搜索法、梯度下降法和单目标优化法。
请参阅图3-6,本发明实施例提供了一种具体的实施例子:
以某公司天然晒制作过程的实验性酱油为样本,检测指标为葡萄糖(g/100g);实验设备为中红外光谱仪,分析光谱范围为968-2947cm-1,平行测量2次;参数筛选和模型建立过程通过Python编程实现。
本实施例中交叉验证折数k=3,化学值精密度p=5%,ε0计算式中f(n)=ln n,n为训练集样本数量284。m=3,邻近算法k=3。
根据正则化参数初始值和不敏感损失函数参数初始值的计算公式计算得到C0和ε0分别为2.296和0.0074。
设置网格搜索步长为0.001,所得最小SECV为0.0719,最优参数C和ε分别为3.356和0.0046。
请参阅图3,本发明实施例提供的基于最优参数C和ε所得最优SVM模型交叉验证残差示意图。请参阅图4,本发明实施例提供的对验证集(样本数量37)的预测结果示意图。请参阅图5,本发明实施例提供的基于PLS最优模型SECV为0.2549的交叉验证残差示意图,请参阅图6,为本发明实施例提供的对验证集预测结果示意图。
根据图3-6可知,本发明实施例所构建的光谱定量分析模型相较于经典PLS模型,一方面SECV更小,对浓度异常样有更好的适用性,模型更稳健;另一方面验证集SEP更小,具有更好的预测精度和泛化性能。
实施本发明实施例,具有以下有益效果:
本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值,无需根据先验知识来设定参数的初始值以及无需进行重采样,从而能够快速且准确得到支持向量机的正则化参数初始值,进而能够有效提高支持向量机参数优化的效果。本发明实施例根据样本数和噪声数据计算得到不敏感损失函数参数初始值,综合考虑了样本数与噪声数据对构建光谱定量分析模型的影响,本发明实施例的不敏感损失函数参数初始值的确定方式不仅能够有效减少参数优化的运算量,而且还能使得构建得到的光谱定量分析模型在对复杂组分的样本进行定量分析时,能够有效提高模型的预测精度和泛化能力。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种光谱定量分析模型的构建方法,其特征在于,包括:
获取训练样本的化学值和光谱特征;
根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;
根据所述光谱特征计算得到所述训练样本的噪声数据,并根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
根据所述最优正则化参数和所述最优不敏感损失函数参数构建光谱定量分析模型。
2.如权利要求1所述的光谱定量分析模型的构建方法,其特征在于,所述分布数据包括平均值和标准差,所述根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值,具体包括:
选择支持向量机的核函数;
基于所述核函数根据所述化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
4.如权利要求1所述的光谱定量分析模型的构建方法,其特征在于,所述分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数,具体包括:
将所述训练集的样本划分为K折,计算所述正则化参数初始值和所述不敏感损失函数参数初始值下每折的评估参数;
采用参数寻优方法根据所述正则化参数初始值和所述不敏感损失函数参数初始值分别进行参数搜索得到候选正则化参数和候选不敏感损失函数参数;
将所述评估参数最优时的候选正则化参数和候选不敏感损失函数参数分别作为最优正则化参数和最优不敏感函数参数。
5.如权利要求4所述的光谱定量分析模型的构建方法,其特征在于,所述参数寻优方法包括网格搜索法、梯度下降法和单目标优化法。
6.如权利要求2所述的光谱定量分析模型的构建方法,其特征在于,所述核函数为径向基核函数,所述径向基核函数的表达式为:
K(xi,x)=exp(-γ||x-xi||2)
其中,xi为特征空间某一中心点,x为特征空间的任一点,γ为宽度参数。
9.一种光谱定量分析模型的构建装置,其特征在于,包括:
数据获取模块,用于获取训练样本的化学值和光谱特征;
第一计算模块,用于根据所述化学值的分布数据和精密度,计算得到支持向量机的正则化参数初始值;
第二计算模块,用于根据所述光谱特征计算得到所述训练样本的噪声数据,并根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值;
参数寻优模块,用于分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优,得到最优正则化参数和最优不敏感损失函数参数;
模型构建模块,用于根据所述最优正则化参数和所述最优不敏感损失函数参数构建光谱定量分析模型。
10.如权利要求9所述的光谱定量分析模型的构建装置,其特征在于,所述分布数据包括平均值和标准差,所述第一计算模块,具体用于:
选择支持向量机的核函数;
基于所述核函数根据所述化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110976970.5A CN113674814B (zh) | 2021-08-24 | 2021-08-24 | 一种光谱定量分析模型的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110976970.5A CN113674814B (zh) | 2021-08-24 | 2021-08-24 | 一种光谱定量分析模型的构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113674814A true CN113674814A (zh) | 2021-11-19 |
CN113674814B CN113674814B (zh) | 2023-06-23 |
Family
ID=78545858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110976970.5A Active CN113674814B (zh) | 2021-08-24 | 2021-08-24 | 一种光谱定量分析模型的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113674814B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105784628A (zh) * | 2016-02-29 | 2016-07-20 | 上海交通大学 | 一种利用中红外光谱检测土壤有机质化学组成的方法 |
CN107330300A (zh) * | 2017-08-24 | 2017-11-07 | 中国科学技术大学 | 一种基于支持向量回归的车辆尾气浓度反演方法 |
CN107505283A (zh) * | 2017-09-04 | 2017-12-22 | 上海交通大学 | 近红外光谱测定次生盐渍土壤中硝酸根离子含量的方法 |
CN107657287A (zh) * | 2017-10-26 | 2018-02-02 | 贵州电网有限责任公司电力科学研究院 | 一种变压器油酸值多频超声波测试回归预测方法 |
CN110208252A (zh) * | 2019-06-30 | 2019-09-06 | 华中科技大学 | 一种基于激光诱导击穿光谱分析的煤灰熔点预测方法 |
CN111965138A (zh) * | 2020-08-18 | 2020-11-20 | 山东金璋隆祥智能科技有限责任公司 | 一种低聚麦芽糖中水分含量的测定方法 |
CN111965134A (zh) * | 2020-08-13 | 2020-11-20 | 桂林电子科技大学 | 一种橡胶硫化促进剂混合物的太赫兹光谱定量分析方法 |
US20210247367A1 (en) * | 2018-08-08 | 2021-08-12 | Zhejiang University | Workflow-based model optimization method for vibrational spectral analysis |
-
2021
- 2021-08-24 CN CN202110976970.5A patent/CN113674814B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105784628A (zh) * | 2016-02-29 | 2016-07-20 | 上海交通大学 | 一种利用中红外光谱检测土壤有机质化学组成的方法 |
CN107330300A (zh) * | 2017-08-24 | 2017-11-07 | 中国科学技术大学 | 一种基于支持向量回归的车辆尾气浓度反演方法 |
CN107505283A (zh) * | 2017-09-04 | 2017-12-22 | 上海交通大学 | 近红外光谱测定次生盐渍土壤中硝酸根离子含量的方法 |
CN107657287A (zh) * | 2017-10-26 | 2018-02-02 | 贵州电网有限责任公司电力科学研究院 | 一种变压器油酸值多频超声波测试回归预测方法 |
US20210247367A1 (en) * | 2018-08-08 | 2021-08-12 | Zhejiang University | Workflow-based model optimization method for vibrational spectral analysis |
CN110208252A (zh) * | 2019-06-30 | 2019-09-06 | 华中科技大学 | 一种基于激光诱导击穿光谱分析的煤灰熔点预测方法 |
CN111965134A (zh) * | 2020-08-13 | 2020-11-20 | 桂林电子科技大学 | 一种橡胶硫化促进剂混合物的太赫兹光谱定量分析方法 |
CN111965138A (zh) * | 2020-08-18 | 2020-11-20 | 山东金璋隆祥智能科技有限责任公司 | 一种低聚麦芽糖中水分含量的测定方法 |
Non-Patent Citations (1)
Title |
---|
杜翠 等: "气象数据弱相关的光伏出力短期预测", 现代电力, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN113674814B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | A fuzzy optimization strategy for the implementation of RBF LSSVR model in vis–NIR analysis of pomelo maturity | |
Karimi et al. | Detection and quantification of food colorant adulteration in saffron sample using chemometric analysis of FT-IR spectra | |
Oliveri et al. | Multivariate class modeling for the verification of food-authenticity claims | |
Song et al. | Nearest clusters based partial least squares discriminant analysis for the classification of spectral data | |
CN101915744A (zh) | 物质成分含量的近红外光谱无损检测方法及装置 | |
CN111044483A (zh) | 一种基于近红外光谱的奶油中色素测定方法、系统和介质 | |
CN107958267B (zh) | 一种基于光谱线性表示的油品性质预测方法 | |
CN107563448B (zh) | 基于近红外光谱分析的样本空间聚类划分法 | |
Oliveri et al. | Chemometrics for food authenticity applications | |
CN109115692A (zh) | 一种光谱数据分析方法及装置 | |
CN114216877B (zh) | 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统 | |
Cernuda et al. | Improved quantification of important beer quality parameters based on nonlinear calibration methods applied to FT-MIR spectra | |
Camps-Vails et al. | Biophysical parameter estimation with adaptive Gaussian processes | |
CN116735527A (zh) | 一种近红外光谱优化方法、装置、系统以及存储介质 | |
Wang et al. | SVM classification method of waxy corn seeds with different vitality levels based on hyperspectral imaging | |
Sena et al. | Multivariate statistical analysis and chemometrics | |
CN113674814A (zh) | 一种光谱定量分析模型的构建方法及装置 | |
CN111125629A (zh) | 一种域自适应的pls回归模型建模方法 | |
CN111415715B (zh) | 一种基于多元光谱数据的智能校正方法、系统及装置 | |
CN114062306B (zh) | 一种近红外光谱数据分段预处理方法 | |
CN116205863A (zh) | 一种检测高光谱图像异常目标的方法 | |
CN115561193A (zh) | 一种傅里叶红外光谱仪数据处理和分析系统 | |
CN113984708A (zh) | 一种化学指标检测模型的维护方法和装置 | |
Oblitas et al. | The Use of Correlation, Association and Regression Techniques for Analyzing Processes and Food Products | |
CN109060681B (zh) | 痕量金属离子浓度区间预测方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |