CN113674814A

CN113674814A - 一种光谱定量分析模型的构建方法及装置

Info

Publication number: CN113674814A
Application number: CN202110976970.5A
Authority: CN
Inventors: 魏康丽; 杨平; 李贤信
Original assignee: Foshan Haitian Flavoring and Food Co Ltd; Foshan Haitian Gaoming Flavoring and Food Co Ltd
Current assignee: Foshan Haitian Flavoring and Food Co Ltd; Foshan Haitian Gaoming Flavoring and Food Co Ltd
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2021-11-19
Anticipated expiration: 2041-08-24
Also published as: CN113674814B

Abstract

本发明公开了一种光谱定量分析模型的构建方法及装置，包括：获取训练样本的化学值和光谱特征；根据化学值和光谱特征分别计算得到正则化参数初始值和不敏感损失函数参数初始值；并通过参数寻优得到最优正则化参数和最优不敏感损失函数参数；根据最优正则化参数和最优不敏感损失函数参数构建光谱定量分析模型。本发明实施例通过训练样本的化学值和光谱特征计算得到正则化参数初始值和不敏感损失函数参数初始值，并依据这两个参数初始值进行参数优化以及光谱定量分析模型的构建，不仅能够有效提高参数优化和建模的运算速度，且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。

Description

一种光谱定量分析模型的构建方法及装置

技术领域

本发明涉及定量分析技术领域，尤其是涉及一种光谱定量分析模型的构建方法及装置。

背景技术

红外光谱技术具有操作简便、分析速度快、检测效率高、无需前处理等优点，已广泛应用于食品、药品、化妆品、石油化工等多行业。线性回归、支持向量机、神经网络等机器学习和深度学习算法是建立定量预测模型常用的方法。其中，偏最小二乘(PLS)回归是线性回归中最经典、应用最广泛的一种方法。但变量筛选耗时长且适用性难以保证。神经网络涉及参数繁多，搭建相对复杂，应用门槛较高。支持向量机以结构风险最小化为原则，能够很好地解决小样本、高维数、非线性等问题，且涉及参数较少，构建相对简易，已被广泛应用于回归分析。合理地选择支持向量机的参数C和参数ε可以使模型具有更高的预测精度和更好的泛化能力。参数C决定了模型预测精度和模型复杂度之间的平衡。例如，若C太大，则目标仅是最小化经验风险，所建模型精度虽然高但却使得模型过于复杂，泛化性能变差。参数ε控制ε不敏感区域的宽度，影响用于构造回归函数的SV个数，从而影响模型复杂度。例如，若ε较大，会导致选择较少的SV，模型过于简单。

目前现有的光谱定量分析模型的构建方法是根据优化后的支持向量机参数构建的，支持向量机的参数优化方法主要为：根据先验知识设定参数的初始值，结合网格搜索、梯度下降法等方法进行参数优化。但是现有的光谱定量分析模型的构建方法的参数优化效果较差，导致光谱定量分析模型的预测精度和泛化能力较低。

发明内容

本发明提供了一种光谱定量分析模型构建方法及装置，以解决现有的光谱定量分析模型的构建方法的参数优化效果较差，导致光谱定量分析模型的预测精度和泛化能力较低的问题。

本发明的第一实施例提供了一种光谱定量分析模型的构建方法，包括：

获取训练样本的化学值和光谱特征；

根据所述化学值的分布数据和精密度，计算得到支持向量机的正则化参数初始值；

根据所述光谱特征计算得到所述训练样本的噪声数据，并根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值；

分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优，得到最优正则化参数和最优不敏感损失函数参数；

根据所述最优正则化参数和所述最优不敏感损失函数参数构建光谱定量分析模型。

进一步的，所述分布数据包括平均值和标准差，所述根据所述化学值的分布数据和精密度，计算得到支持向量机的正则化参数初始值，具体包括：

选择支持向量机的核函数；

基于所述核函数根据所述化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。

进一步的，所述根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值，所述不敏感损失函数参数初始值的表达式为：

其中，ε为不敏感损失函数参数初始值，n为样本数，t为样本数的预设倍数，f(n)为样本数的对数函数，σ为噪声标准差。

进一步的，所述分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优，得到最优正则化参数和最优不敏感损失函数参数，具体包括：

将所述训练集的样本划分为K折，计算所述正则化参数初始值和所述不敏感损失函数参数初始值下每折的评估参数；

采用参数寻优方法根据所述正则化参数初始值和所述不敏感损失函数参数初始值分别进行参数搜索得到候选正则化参数和候选不敏感损失函数参数；

将所述评估参数最优时的候选正则化参数和候选不敏感损失函数参数分别作为最优正则化参数和最优不敏感函数参数。

进一步的，所述参数寻优方法包括网格搜索法、梯度下降法和单目标优化法。

进一步的，所述核函数为径向基核函数，所述径向基核函数的表达式为：

K(x_i,x)＝exp(-γ||x-x_i||²)

其中，x_i为特征空间某一中心点，x为特征空间的任一点，γ为宽度参数。

进一步的，所述正则化参数初始值的表达式为：

其中，p为所述化学值的精密度，

为化学值的平均值，σ_y为化学值的标准差。

进一步的，所述噪声标准差的表达式为：

其中，n为训练集的样本数量，d为0-1，k为邻近点数，y_i为化学值，

为k邻近算法预测值。

本发明的第二实施例提供了一种光谱定量分析模型的构建装置，包括：

数据获取模块，用于获取训练样本的化学值和光谱特征：

第一计算模块，用于根据所述化学值的分布数据和精密度，计算得到支持向量机的正则化参数初始值；

第二计算模块，用于根据所述光谱特征计算得到所述训练样本的噪声数据，并根据所述训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值；

参数寻优模块，用于分别根据所述正则化参数初始值和所述不敏感损失函数参数初始值进行参数寻优，得到最优正则化参数和最优不敏感损失函数参数；

模型构建模块，用于根据所述最优正则化参数和所述最优不敏感损失函数参数构建光谱定量分析模型。

进一步的，所述分布数据包括平均值和标准差，所述第一计算模块，具体用于：

选择支持向量机的核函数；

本发明实施例通过训练样本的化学值和光谱特征进行正则化参数初始值和不敏感损失函数参数初始值的推算，并进一步进行参数寻优，以确定最优正则化参数和最优不敏感损失函数参数，基于该最优正则化参数和最优不敏感损失函数参数能够快速构建可用于复杂组分分析的光谱定量分析模型，不仅能够有效提高参数优化和建模的运算速度，且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。

附图说明

图1是本发明实施例提供的一种光谱定量分析模型的构建方法的流程示意图；

图2是本发明实施例提供的一种光谱定量分析模型的构建方法的另一流程示意图；

图3是本发明实施例提供的支持向量机交叉验证残差示意图；

图4是本发明实施例提供的支持向量机预测残差示意图；

图5是本发明实施例提供的PLS交叉验证残差示意图；

图6是本发明实施例提供的PLS预测残差示意图；

图7是本发明实施例提供的一种光谱定量分析模型的构建装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

请参阅图1-6，在本发明的第一实施例中，提供了图1所示的一种光谱定量分析模型的构建方法，包括：

S1、获取训练样本的化学值和光谱特征；

S2、根据化学值的分布数据和精密度，计算得到支持向量机的正则化参数初始值；其中，分布数据包括平均值和标准差；

S3、根据光谱特征计算得到训练样本的噪声数据，并根据训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值；

S4、分别根据正则化参数初始值和不敏感损失函数参数初始值进行参数寻优，得到最优正则化参数和最优不敏感损失函数参数；

S5、根据最优正则化参数和最优不敏感损失函数参数构建光谱定量分析模型。

本发明实施例通过训练样本的化学值和光谱特征进行正则化参数初始值和不敏感损失函数参数初始值的推算，并进一步进行参数寻优，确定最优正则化参数和最优不敏感损失函数参数，基于该最优正则化参数和最优不敏感损失函数参数能够快速构建可用于复杂组分分析的光谱定量分析模型，不仅能够有效提高参数优化和建模的运算速度，且能够有效提高构建得到光谱定量分析模型的预测精度和泛化能力。

请参阅图2，为本发明实施例提供的一种光谱定量分析模型的构建方法的另一流程示意图。

作为本发明实施例的一种具体实施方式，根据化学值的分布数据和精密度，计算得到支持向量机的正则化参数初始值，具体包括：

选择支持向量机的核函数；

基于核函数根据化学值的平均值、标准差以及精密度计算得到支持向量机的正则化参数初始值。

可选地，支持向量机的核函数为径向基核函数，径向基核函数的表达式为：

K(x_i,x)＝exp(-γ||x-x_i||²)

基于该径向基核函数，能够将正则化参数与训练集的响应值范围联系起来，从而能够选择与训练集的响应值范围相等的正则化参数，具体的，训练样本的化学值结合精密度得到正则化参数初始值C₀的表达式为：

其中，p为化学值的精密度，

为化学值的平均值，σ_y为化学值的标准差。

本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值，无需根据先验知识来设定参数的初始值以及无需进行重采样，从而能够快速且准确得到支持向量机的正则化参数初始值，进而能够有效提高支持向量机参数优化的效果。

作为本发明实施例的一种具体实施方式，根据训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值，不敏感损失函数参数初始值的表达式为：

其中，ε₀为不敏感损失函数参数初始值，n为样本数，t为样本数的预设倍数，f(n)为样本数的对数函数，σ为噪声标准差。示例性地，t为样本数的1～10倍，f(n)可以为m lnn，mlog n等，m取正实数，噪声标准差σ的表达式为：

为k邻近算法预测值。

本发明实施例中，不敏感损失函数参数与出入噪声级别成正比，且与训练集样本数量成反比，即较大的样本数量应产生较小的不敏感损失函数参数，本发明实施例根据噪声标准差和训练集样本数量计算得到不敏感损失函数参数初始值。引入关于训练样本数量的函数能够有效防止当样本数量过大时，不敏感损失函数参数初始值趋于0。

本发明实施例根据样本数和噪声数据计算得到不敏感损失函数参数初始值ε₀，综合考虑了样本数与噪声数据对构建光谱定量分析模型的影响，本发明实施例的不敏感损失函数参数初始值的确定方式不仅能够有效减少参数优化的运算量，而且还能使得构建得到的光谱定量分析模型在对复杂组分的样本进行定量分析时，能够有效提高模型的预测精度和泛化能力。在本发明实施例中，复杂组分的样本包括酱油及其发酵液，由煮过的大豆、烤过的谷物、盐水和米曲霉或大豆曲霉经发酵制成，含有酯类、醇类、羰基化合物、缩醛类及酚类等几十种甚至上百种复杂化合物，且化合物的种类和含量会受到各种工艺的不同影响。

作为本发明实施例的一种具体实施方式，分别根据正则化参数初始值和不敏感损失函数参数初始值进行参数寻优，得到最优正则化参数和最优不敏感损失函数参数，具体包括：

将训练集的样本划分为K折，计算正则化参数初始值和不敏感损失函数参数初始值下每折的评估参数；

采用参数寻优方法根据正则化参数初始值和不敏感损失函数参数初始值分别进行参数搜索得到候选正则化参数和候选不敏感损失函数参数；

将评估参数最优时的候选正则化参数和候选不敏感损失函数参数分别作为最优正则化参数和最优不敏感函数参数。

在本发明实施例中，通过将训练集的样本划分为K折进行交叉验证，如交叉验证误差SECV、R²、RPD等，并通过采用参数寻优的方法在正则化参数初始值和不敏感损失函数参数初始值的附近搜索得到候选正则化参数C_i和候选不敏感损失函数参数ε_i，重复上述交叉验证以及参数寻优步骤，直至得到评估参数最优的支持向量机最优参数。

作为本发明实施例的一种具体实施方式，参数寻优方法包括网格搜索法、梯度下降法和单目标优化法。

请参阅图3-6，本发明实施例提供了一种具体的实施例子：

以某公司天然晒制作过程的实验性酱油为样本，检测指标为葡萄糖(g/100g)；实验设备为中红外光谱仪，分析光谱范围为968-2947cm^-1，平行测量2次；参数筛选和模型建立过程通过Python编程实现。

本实施例中交叉验证折数k＝3，化学值精密度p＝5％，ε₀计算式中f(n)＝ln n，n为训练集样本数量284。m＝3，邻近算法k＝3。

根据正则化参数初始值和不敏感损失函数参数初始值的计算公式计算得到C₀和ε₀分别为2.296和0.0074。

设置网格搜索步长为0.001，所得最小SECV为0.0719，最优参数C和ε分别为3.356和0.0046。

请参阅图3，本发明实施例提供的基于最优参数C和ε所得最优SVM模型交叉验证残差示意图。请参阅图4，本发明实施例提供的对验证集(样本数量37)的预测结果示意图。请参阅图5，本发明实施例提供的基于PLS最优模型SECV为0.2549的交叉验证残差示意图，请参阅图6，为本发明实施例提供的对验证集预测结果示意图。

根据图3-6可知，本发明实施例所构建的光谱定量分析模型相较于经典PLS模型，一方面SECV更小，对浓度异常样有更好的适用性，模型更稳健；另一方面验证集SEP更小，具有更好的预测精度和泛化性能。

实施本发明实施例，具有以下有益效果：

本发明实施例根据化学值的分布数据和精密度能够合理确定支持向量机的正则化参数初始值，无需根据先验知识来设定参数的初始值以及无需进行重采样，从而能够快速且准确得到支持向量机的正则化参数初始值，进而能够有效提高支持向量机参数优化的效果。本发明实施例根据样本数和噪声数据计算得到不敏感损失函数参数初始值，综合考虑了样本数与噪声数据对构建光谱定量分析模型的影响，本发明实施例的不敏感损失函数参数初始值的确定方式不仅能够有效减少参数优化的运算量，而且还能使得构建得到的光谱定量分析模型在对复杂组分的样本进行定量分析时，能够有效提高模型的预测精度和泛化能力。

请参阅图7，本发明的第二实施例提供了一种光谱定量分析模型的构建装置，包括：

数据获取模块10，用于获取训练样本的化学值和光谱特征：

第一计算模块20，用于根据化学值的分布数据和精密度，计算得到支持向量机的正则化参数初始值；其中，分布数据包括平均值和标准差；

第二计算模块30，用于根据光谱特征计算得到训练样本的噪声数据，并根据训练样本的样本数和噪声数据计算得到支持向量机的不敏感损失函数参数初始值；

参数寻优模块40，用于分别根据正则化参数初始值和不敏感损失函数参数初始值进行参数寻优，得到最优正则化参数和最优不敏感损失函数参数；

模型构建模块50，用于根据最优正则化参数和最优不敏感损失函数参数构建光谱定量分析模型。

作为本发明实施例的一种具体实施方式，第一计算模块20，具体用于：

选择支持向量机的核函数；

K(x_i,x)＝exp(-γ||x-x_i||²)

其中，p为化学值的精密度，

为化学值的平均值，σ_y为化学值的标准差。

作为本发明实施例的一种具体实施方式，不敏感损失函数参数初始值的表达式为：

其中，ε为不敏感损失函数参数初始值，n为样本数，t为样本数的预设倍数，f(n)为样本数的对数函数，σ为噪声标准差。示例性地，t为样本数的1～10倍，f(n)可以为m ln n，mlog n等，m取正实数，噪声标准差σ的表达式为：

为k邻近算法预测值。

作为本发明实施例的一种具体实施方式，参数寻优模块40，具体用于：

请参阅图3-6，本发明实施例提供了一种具体的实施例子：

实施本发明实施例，具有以下有益效果：

以上是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。