CN116735527A

CN116735527A - 一种近红外光谱优化方法、装置、系统以及存储介质

Info

Publication number: CN116735527A
Application number: CN202310688655.1A
Authority: CN
Inventors: 谭正林; 张芸; 刘军
Original assignee: HUBEI UNIVERSITY OF ECONOMICS
Current assignee: HUBEI UNIVERSITY OF ECONOMICS
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-12
Anticipated expiration: 2043-06-09
Also published as: CN116735527B

Abstract

本发明提供一种近红外光谱优化方法、装置、系统以及存储介质，属于光谱处理领域，方法包括：从预设测温热像仪中获得热力图，并从预设近红外光谱仪中获得原始光谱数据；对热力图以及原始光谱数据进行合并分析得到合并后光谱数据；从合并后光谱数据中筛选出目标光谱数据；对目标光谱数据进行拟合得到优化方程集合；通过优化方程集合对待测光谱数据进行优化得到近红外光谱优化结果。本发明能够得到具有曲线代表性的数据，使待发现方程更加轻量化，具有代表性，使得优化过程更加高效快速并且稳定，提高了优化过程的泛化能力。

Description

一种近红外光谱优化方法、装置、系统以及存储介质

技术领域

本发明主要涉及光谱处理技术领域，具体涉及一种近红外光谱优化方法、装置、系统以及存储介质。

背景技术

奶油作为人们日常使用的原料广泛应用于蛋糕、饼干等的制作中。为了增加食品的美感，节省成本，制作者往往在奶油中加入人工色素，我国列入卫生使用标准的人工色素有8种，分别为：胭脂红，苋菜红，赤藓红，新红，柠檬黄，日落黄，亮蓝，靛蓝。对于这8中人工色素的使用量都是有严格规定的，摄入量超过一定标准会对人体健康造成危害。

近红外光谱技术作为一种快速检测技术目前有广泛的研究，原理是利用物质中待测物中的特定分子基团的特征吸收通过化学计量法预测出待测物的含量，很多检测机构已经将该技术作为标准方法应用于物质的快速检测，该技术是一种今后即将应用于实践的人工智能快速检测方法。目前应用此方法预测奶油中色素的含量由于环境中的温度的干扰还只能在实验室恒定温度的环境中进行。近红外光谱对样品温度等物理性质条件敏感，温度的改变会引起化学键的强弱变化，还会影响分子在不同能级之间的跃迁几率，如升高温度会增加跃迁分子的数目，进而吸收更多的能量，结果产生谱带的移动，因此温度的变化对预测模型有较大的影响。

纵观国内外研究动态，主要光谱优化方法为消除温度影响，将温度作为干扰变量进行去噪，没有从根本上解决温度造成的光谱异变，剔除温度敏感波段，仅在波段选择阶段直接排除温度信息，具有局限性，或者找到温度影响因子，对影响因子进行线性处理，没有将温度对光谱的影响做可解释处理，忽视了非线性变化的数据。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种近红外光谱优化方法、装置、系统以及存储介质。

本发明解决上述技术问题的技术方案如下：一种近红外光谱优化方法，包括如下步骤：

从预设测温热像仪中获得多个奶油靛蓝色素的热力图，并从预设近红外光谱仪中获得与各个所述热力图对应的多个原始光谱数据；

分别对各个所述热力图以及与各个所述热力图对应的多个原始光谱数据进行合并分析，得到与各个所述热力图对应的合并后光谱数据；

从所有所述合并后光谱数据中筛选出多个目标光谱数据；

对所有所述目标光谱数据进行拟合，得到优化方程集合；

导入待测光谱数据，通过所述优化方程集合对所述待测光谱数据进行优化，得到吸光度值，并将所述吸光度值作为近红外光谱优化结果。

本发明解决上述技术问题的另一技术方案如下：一种近红外光谱优化装置，包括：

数据获得模块，用于从预设测温热像仪中获得多个奶油靛蓝色素的热力图，并从预设近红外光谱仪中获得与各个所述热力图对应的多个原始光谱数据；

合并分析模块，用于分别对各个所述热力图以及与各个所述热力图对应的多个原始光谱数据进行合并分析，得到与各个所述热力图对应的合并后光谱数据；

筛选模块，用于从所有所述合并后光谱数据中筛选出多个目标光谱数据；

拟合模块，用于对所有所述目标光谱数据进行拟合，得到优化方程集合；

优化结果获得模块，用于导入待测光谱数据，通过所述优化方程集合对所述待测光谱数据进行优化，得到吸光度值，并将所述吸光度值作为近红外光谱优化结果。

基于上述一种近红外光谱优化方法，本发明还提供一种近红外光谱优化系统。

本发明解决上述技术问题的另一技术方案如下：一种近红外光谱优化系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的近红外光谱优化方法。

基于上述一种近红外光谱优化方法，本发明还提供一种计算机可读存储介质。

本发明解决上述技术问题的另一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的近红外光谱优化方法。

本发明的有益效果是：通过热力图以及原始光谱数据的合并分析得到合并后光谱数据，从合并后光谱数据中筛选出多目标光谱数据，对目标光谱数据的拟合得到优化方程集合，通过优化方程集合对待测光谱数据的优化得到近红外光谱优化结果，能够得到具有曲线代表性的数据，使待发现方程更加轻量化，具有代表性，使得优化过程更加高效快速并且稳定，提高了优化过程的泛化能力。

附图说明

图1为本发明实施例提供的一种近红外光谱优化方法的流程示意图；

图2为本发明实施例提供的一种近红外光谱优化装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种近红外光谱优化方法的流程示意图。

如图1所示，一种近红外光谱优化方法，包括如下步骤：

从所有所述合并后光谱数据中筛选出多个目标光谱数据；

对所有所述目标光谱数据进行拟合，得到优化方程集合；

应理解地，所述吸光度值为预设标准温度下的吸光度值。

应理解地，所述预设测温热像仪可以为海康威视卡片式测温热像仪，并有恒温黑体进行定温。

应理解地，用傅里叶变换近红外光谱技术快速对奶油中的人工色素靛蓝进行近红外扫描。

应理解地，通过采样平台的卡片式测温热像仪(即所述预设测温热像仪)获取待温度标准化奶油靛蓝色素的热力图，同时通过采样平台的近红外光谱仪(即所述预设近红外光谱仪)对待标准化奶油靛蓝色素进行数据采集得到原始光谱数据。

具体地，将奶油靛蓝色素样本制备完成后，一份放入恒温冰箱对样品进行冷冻，一份放入数显恒温水浴锅HH-6对样品进行加热，采集不同温度下的样品光谱时，将样品依次快速从恒温冰箱或者数显恒温水浴锅HH-6中取出，然后在样品温度上升或者下降的过程中连续进行光谱的扫描并把各个光谱的相应温度使用采样平台自带的卡片式测温热像仪记录下来。并通过采样平台的近红外光谱仪(即所述预设近红外光谱仪)对待标准化奶油靛蓝色素进行数据采集得到原始光谱数据。

应理解地，待测奶油中所用色素为靛蓝，纯度在99％以上。

应理解地，近红外光谱仪(即所述预设近红外光谱仪)间隔波长16cm-1扫描一次，分辨率越小，扫的数据量就会越多，越精细，对样品池，从上到下扫8个点，每个点扫12次，近红外光谱吸光度的值是12*8的平均值。

上述实施例中，通过热力图以及原始光谱数据的合并分析得到合并后光谱数据，从合并后光谱数据中筛选出多目标光谱数据，对目标光谱数据的拟合得到优化方程集合，通过优化方程集合对待测光谱数据的优化得到近红外光谱优化结果，能够得到具有曲线代表性的数据，使待发现方程更加轻量化，具有代表性，使得优化过程更加高效快速并且稳定，提高了优化过程的泛化能力。

可选地，作为本发明的一个实施例，所述热力图包括多个温度像素点，

所述分别对各个所述热力图以及与各个所述热力图对应的多个原始光谱数据进行合并分析，得到与各个所述热力图对应的合并后光谱数据的过程包括：

分别计算各个所述热力图中多个温度像素点的加权平均值，得到与各个所述热力图对应的温度数据；

分别对与各个所述热力图对应的多个原始光谱数据进行多元散射校正处理，得到与各个所述热力图对应的多个校正后光谱数据；

分别对与各个所述热力图对应的多个校正后光谱数据进行平滑处理，得到与各个所述热力图对应的多个平滑后光谱数据；

分别计算与各个所述热力图对应的多个平滑后光谱数据的一阶导数，得到与各个所述热力图对应的多个处理后光谱数据；

分别将各个所述温度数据以及与各个所述热力图对应的多个处理后光谱数据进行合并，得到与各个所述热力图对应的合并后光谱数据。

应理解地，分别计算各个所述热力图中温度像素矩阵(即多个所述多个温度像素点)由内向外，权重由高到低，进行加权平均。

应理解地，对所述热力图的预处理得到预处理后温度数据(即所述温度数据)，对所述原始光谱数据的降噪处理得到降噪后光谱数据(即所述处理后光谱数据)，合并上述两种数据获得受温度影响的待标准化光谱数据(即所述合并后光谱数据)。

应理解地，对所述热力图的预处理得到预处理后温度数据(即所述温度数据)，由近红外光谱仪根据FTtest测试软件展示出的光束分布可知，采样点在样品中心呈椭圆状正态分布，因此对热力图中的所述温度像素点进行由中心向周围采样区域求加权平均计算得到所述温度数据。

应理解地，对所述原始光谱数据进行多元散射校正(MSC)，消除由于颗粒分布不均及颗粒大小不同产生的散射对光谱的影响。

具体地，MSC(即多元散射校正处理)具体实现方法如下：求得所有光谱数据的平均值作为理想光谱；将每个样本的光谱与平均光谱进行一元线性回归，求解最小二乘问题得到每个样本的基线平移量和偏移量；对每个样本的光谱进行校正：减去求得的基线平移量后除以偏移量，得到校正后的光谱。

应理解地，对进行多元散射校正后的光谱数据(即所述校正后光谱数据)进行SG平滑处理(即平滑处理)，提高光谱信噪比、降低随机噪声的影响。

应理解地，SG平滑处理(即平滑处理)基于最小二乘原理，利用多项式进行数据平滑；

构建宽度为2W+1的窗口，如下式：

上述公式中，M为归一化因子，mi为平滑因子，W为需要进行平滑处理的点的数量。

具体地，对进行SG平滑处理后的光谱数据(即所述平滑后光谱数据)进行一阶导数操作，排除奶油软硬度带来整体漂移对信号的影响。

应理解地，将所述温度数据和降噪处理后的光谱数据(即所述处理后光谱数据)合并，获得仅受温度影响的待标准化光谱数据(即所述合并后光谱数据)。

上述实施例中，通过对热力图以及与原始光谱数据的合并分析得到合并后光谱数据，消除了由于颗粒分布不均及颗粒大小不同产生的散射对光谱的影响，提高了光谱信噪比、降低了随机噪声，还排除奶油软硬度带来整体漂移对信号的影响，为后续数据处理提供准确的数据。

可选地，作为本发明的一个实施例，所述从所有所述合并后光谱数据中筛选出多个目标光谱数据的过程包括：

对所有所述合并后光谱数据进行特征提取，并利用SPA连续投影算法对特征提取后的光谱数据进行冗余去除，得到多个目标光谱数据。

应理解地，对待标准化光谱数据(即所述合并后光谱数据)使用迭代窗口自适应优化连续投影算法的组合(IWA-SPA)进行特征提取及冗余去除，得到目标待标准化光谱数据(即所述目标光谱数据)。

应理解地，对待标准化光谱数据(即所述合并后光谱数据)使用迭代窗口自适应优化算法IWA进行特征提取，选出与温度影响相关的有效的波长区间。

具体地，由于粗选算法只关注如何选中有效区间内的波长点，计算速度一般较快，而且不容易受到无效波长点的干扰。而精选算法则往往由于需要对所有的波长点进行逐一的考察，因此计算速度一般较慢，而且容易受到无效区间内波长点的干扰。签于这两类波长选择算法在进行波长选择时的特点具有一定的互补性，因此人们开始将两类算法串联起来使用，一般先用粗选算法进行波长初选,然后再采用精选算法开展下一步仔细筛查。这做的好处主要有以下几点，第一，可以降低精选波长选择算法的计算量:第二，降低无效波长点对精选波长选择算法计算过程的干扰:第三，可以对粗选波长选择算法选中的波长子集进行精简优化。

应理解地，针对近红外光谱数据特征维度高的问题，对待标准化光谱数据(即所述合并后光谱数据)进行IWA进行特征提取属于粗选算法，选出与温度影响相关的高的波长区间，以剔除无消息波长区间。

应理解地，选用数量尽可能少的代表性波长点进行方程规律分析十分重要，使用连续投影算法SPA对有效的波长区间提取之后的光谱数据进行冗余去除，属于精选算法，待发现方程更加轻量化，具有代表性。

具体地，所述SPA连续投影算法，即连续投影算法(successive projectionsalgorithm，SPA)是前向特征变量选择方法。SPA利用向量的投影分析，通过将波长投影到其他波长上，比较投影向量大小，以投影向量最大的波长为待选波长，然后基于矫正模型选择最终的特征波长。SPA选择的是含有最少冗余信息及最小共线性的变量组合。

上述实施例中，从所有合并后光谱数据中筛选出多个目标光谱数据，剔除了无消息波长区间，能够使待发现方程更加轻量化，具有代表性。

可选地，作为本发明的一个实施例，所述对所有所述合并后光谱数据进行特征提取的过程包括：

统计所有所述合并后光谱数据的数量，得到合并后光谱数据总数；

按照预设规则和所述合并后光谱数据总数对所有所述合并后光谱数据进行划分，得到多个尺寸不同的光谱特征维度窗口，每个所述光谱特征维度窗口包括至少一个合并后光谱数据；

根据预设迭代次数和随机森林算法计算各个所述光谱特征维度窗口的预测均方根误差，得到与各个所述光谱特征维度窗口对应的多个误差矩阵；

计算与各个所述光谱特征维度窗口对应的多个误差矩阵中误差的平均值，得到与各个所述光谱特征维度窗口对应的平均误差矩阵；

将所有所述平均误差矩阵相加，得到目标权重矩阵；

当所述目标权重小于预设判断值时，则将所述目标权重对应的合并后光谱数据作为特征提取后的光谱数据，从而得到多个特征提取后的光谱数据。

应理解地，所述预设规则可以为设置好所述光谱特征维度窗口数量的最大值和最小值，按照因数和所述合并后光谱数据总数进行划分。

应理解地，将样品的近红外光谱特征维度(即所述合并后光谱数据)分别均分为若干种(窗口数由小变大)由大到小连续的窗口。

应理解地，对均分后的光谱特征维度窗口(即所述光谱特征维度窗口)由大到小的进行迭代特征权重计算，窗口初始权重RMSEP值默认为0。

应理解地，采用随机森林算法计算每个窗口(即所述光谱特征维度窗口)的RMSEP值3次取平均值。

应理解地，将所有不同大小迭代窗口的光谱波点权重(即所述平均误差矩阵)进行相加，自适应的选出一定量小权重窗口。

具体地，所述随机森林算法就是在随机子空间中随机组合的自由生长的CART决策树+Bagging得到的，对于随机森林的理解可以分为“随机”和“森林”：“随机”是指数据随机采样以及特征随机采样，主要体现在Bagging，它的全称是Bootstrap aggregation，称为自助法，它是一种有放回的抽样方法。Bagging的每个弱学习器的训练集都是通过随机且有放回采样得到的，简单来说就是每次从原始样本中随机且有放回的采样n个训练样本，进行T轮采样，得到T个训练集，然后用这T个训练集，分别独立训练T个弱学习器，这T个弱学习器结合成一个强学习器，强学习器的结果作为整体的结果输出。而“森林”则是指利用多颗自由生长的CART决策树组成一个“森林”，作为上述的T个弱学习器。

具体地，所述随机森林算法的生成规则如下，从原始训练集中随机有放回采样n个训练样本，重复T次；用这T个数据集，分别作为训练集训练T个CART树模型；如果特征维度为M，指定一个常数m，随机地从M个特征中选取m个特征子集，每次树进行分裂时，从这m个特征中选择最优的；将生成的T棵决策树组成随机森林，保证每棵树都尽最大程度的生长，并且没有剪枝过程；对于回归问题，由T棵树预测结果的均值作为最终的预测结果。

具体地，由于数据采样的随机性，每棵树的训练集都是不同的，而且里面包含重复的训练样本，对于一个含有异常值的数据来说，这种采样方式可以令大多数的树模型得到不包含或者只包含少量异常点的数据，再经过多个学习器最终的“投票”或者“平均”，可以使得随机森林对异常值不敏感，有很强的抗干扰能力。而特征随机采样可以说是随机森林自带的特征选择的功能，正如前面所说，实际数据中会有很多多余甚至无关特征，这些特征会严重影响模型效果，随机森林中让每棵决策树只选择少量的特征进行学习，最后再合成他们的学习成果，因此随机森林能处理高维数据。

具体地，根据预设迭代次数和随机森林算法计算各个所述光谱特征维度窗口的预测均方根误差，得到与各个所述光谱特征维度窗口对应的多个误差矩阵，具体为：

对随机森林进行超参数预设，用随机搜索缩小参数搜索空间，确定最优参数的可能存在范围；用网格搜索进一步精确查找合适的参数，进行小范围网格搜索；根据仅受温度影响的待标准化光谱数据(即所述光谱特征维度窗口中的合并后光谱数据)的特征使用随机森林进行温度预测；温度预测评判标准为相关指数R²，取值在[0,1]之间，其值越大，其值越大，回归效果越好，使用回归效果最好的随机森林超参数；使用调参后的随机森林对每个窗口的特征进行三次以温度为目标变量的回归预测，不同窗口大小，所有特征维度的窗口均得到3次RMSEP值，取平均值作为窗口权重(即所述平均误差矩阵)。

应理解地，RMSEP即预测集的均方根误差RMSE，越小越好。

上述实施例中，对所有合并后光谱数据进行特征提取得到多个提取后光谱数据，提高了抗干扰能力，能够处理高维数据，使得优化过程更加高效快速并且稳定，提高了优化过程的泛化能力。

可选地，作为本发明的一个实施例，所述对所有所述目标光谱数据进行拟合，得到优化方程集合的过程包括：

通过Matplotlib函数库和所有所述目标光谱数据构建三维散点图；

按照预设温度值将所述三维散点图划分为第一划分后数据集和第二划分后数据集；

将所述第一划分后数据集划分为第一划分后训练集和第一划分后预测集；

将所述第二划分后数据集划分为第二划分后训练集和第二划分后预测集；

导入与所述第一划分后预测集对应的多个第一真实值，根据多个所述第一真实值对所述第一划分后训练集和所述第一划分后预测集进行评价指标分析，根据分析结果得到第一目标方程；

导入与所述第二划分后预测集对应的多个第二真实值，根据多个所述第二真实值对所述第二划分后训练集和所述第二划分后预测集进行评价指标分析，根据分析结果得到第二目标方程；

集合所述第一目标方程和所述第二目标方程得到优化方程集合。

优选地，所述预设温度值可以为25℃。

应理解地，使用所述三维散点图对目标待标准化光谱数据(即所述目标光谱数据)进行可视化分析后将其中一个特征维度的光谱数据分为A，B两段(即所述第一划分后数据集和所述第二划分后数据集)。

具体地，使用所述三维散点图对目标待标准化光谱数据(即所述目标光谱数据)进行可视化分析，根据分析结果，以温度为分界点，将其中一个特征维度的光谱数据分为A，B两段(即所述第一划分后数据集和所述第二划分后数据集)。

应理解地，对数据(即所述第一划分后数据集和所述第二划分后数据集)进行洗牌并且随机划分数据集为训练集(即所述第一划分后训练集和所述第二划分后训练集)与测试集(即所述第一划分后预测集和所述第二划分后预测集)，比例为4：1。

应理解地，将A段的最优模型(即所述第一目标方程)与B段的最优模型(即所述第二目标方程)进行组合，得到最终的近红外光谱一个特征与温度关系的可解释性分段方程(即所述优化方程集合)。

上述实施例中，对所有目标光谱数据进行拟合得到优化方程集合，能够得到具有曲线代表性的数据，使待发现方程更加轻量化，具有代表性，使得优化过程更加高效快速并且稳定，提高了优化过程的泛化能力。

可选地，作为本发明的一个实施例，所述根据多个所述第一真实值对所述第一划分后训练集和所述第一划分后预测集进行评价指标分析，根据分析结果得到第一目标方程的过程包括：

通过预设PF多项式函数模型对所述第一划分后训练集进行拟合，得到第一拟合后方程；

通过所述第一拟合后方程对所述第一划分后预测集进行预测，得到多个第一预测值；

通过预设GPOperon遗传编程操作子模型对所述第一划分后训练集进行拟合，得到第二拟合后方程；

通过所述第二拟合后方程对所述第一划分后预测集进行预测，得到多个第二预测值；

计算多个所述第一预测值与多个所述第一真实值的决定系数、预测均方差以及RPD评价指标，对应得到第一决定系数、第一预测均方差以及第一RPD评价指标；

计算多个所述第二预测值与多个所述第一真实值的决定系数、预测均方差以及RPD评价指标，对应得到第二决定系数、第二预测均方差以及第二RPD评价指标；

判断所述第一决定系数是否大于所述第二决定系数，若是，则对所述第一拟合后方程进行标记；若否，则对所述第二拟合后方程进行标记；

判断所述第一预测均方差是否小于所述第二预测均方差，若是，则对所述第一拟合后方程进行标记；若否，则对所述第二拟合后方程进行标记；

判断所述第一RPD评价指标是否小于所述第二RPD评价指标，若是，则对所述第一拟合后方程进行标记；若否，则对所述第二拟合后方程进行标记；

分别统计所述第一拟合后方程和所述第二拟合后方程的标记次数，得到第一拟合后方程标记次数和第二拟合后方程标记次数；

判断所述第一拟合后方程标记次数是否大于所述第二拟合后方程标记次数，若是，则将所述第一拟合后方程作为第一目标方程；若否，则将所述第二拟合后方程作为第一目标方程。

应理解地，对一个特征维度的光谱数据划分后的A段数据(即所述第一划分后训练集和所述第一划分后预测集)采用PF-GPOperon方程发现算法，计算得到近红外光谱一个特征与温度关系的可解释性分段方程(即所述第一目标方程)。

应理解地，根据所述第一预测均方差是否小于所述第二预测均方差、所述第一预测均方差是否小于所述第二预测均方差以及所述第一RPD评价指标是否小于所述第二RPD评价指标来判断所述第一拟合后方程的预测结果是否比所述第二拟合后方程更好，从而选择更好的拟合后方程作为第一目标方程，若满足任意两个条件，则说明所述第一拟合后方程的预测结果比所述第二拟合后方程更好，否则，则说明所述第二拟合后方程的预测结果比所述第一拟合后方程更好。

具体地，使用PF-GPOperon方程发现算法中多项式函数模型PF(即所述预设PF多项式函数模型)分别对A段训练集(即所述第一划分后训练集)进行函数逼近得到方程PF-A(即所述第一拟合后方程)，要求在这些点上的总偏差最小。使用方程PF-A(即所述第一拟合后方程)对A段预测集(即所述第一划分后预测集)进行预测得到预测值(即所述第一预测值)，通过使用R²，RMSEP，RPD三个评价指标，对真实值(即所述第一真实值)和预测值(即所述第一预测值)的效果进行评价，得到A段数据的评价指标值(即所述第一决定系数、所述第一预测均方差以及所述第一RPD评价指标)。

具体地，使用PF-GPOperon方程发现算法中的遗传编程操作子模型GPOperon(即所述预设GPOperon遗传编程操作子模型)对A段训练集(即所述第一划分后训练集)进行函数拟合得到方程GPOperon-A(即所述第二拟合后方程)。使用方程GPOperon-A(即所述第二拟合后方程)对A段预测集(即所述第一划分后预测集)进行预测得到预测值(即所述第二预测值)，通过使用R²，RMSEP，RPD三个评价指标，对真实值(即所述第一真实值)和预测值(即所述第二预测值)的效果进行评价，得到A段数据的评价指标值(即所述第二决定系数、所述第二预测均方差以及所述第二RPD评价指标)。

应理解地，在A段(即所述第一划分后训练集和所述第一划分后预测集)中，将使用多项式函数模型得到的三个评价指标值(即所述第一决定系数、所述第一预测均方差以及所述第一RPD评价指标)与使用遗传编程操作子模型得到的三个评价指标值(即所述第二决定系数、所述第二预测均方差以及所述第二RPD评价指标)进行对比，得到两者中最优模型(即所述第一目标方程)。

具体地，通过预设PF多项式函数模型对所述第一划分后训练集进行拟合的过程如下：

将A段(即所述第一划分后训练集)m对，一个温度x,与一个特征维度吸光度y组成的样本点{(x₁，y₁)(x₂，y₂)…(x_m，y_m)}，根据曲线特征分布，赋予为n次多项式，确定为

根据误差平方和(Sum of the Squared Error,SSE)来评判所有的和样本点中的y_i相差多少，如果能有一组拟合系数让SSE最小，那这组拟合系数我们就可以认为是最好的。SSE公式如下：

对SSE分别求n+1次偏导，并令每个偏导为0：

n+1个等式就可以求出n+1个拟合系数，得到A段n次多项式方程(即所述第一拟合后方程)。

具体地，通过预设GPOperon遗传编程操作子模型对所述第一划分后训练集进行拟合的过程如下：

S1：定义一个适当的原始集合P后，从原始集合P随机取得元素，创建节点，指定连接的随机子节点(相对于后代种群为父母节点)，使用子代生成器，并行随机生成种群。初始节点Node属性结构：Type：节点初始类型；Ar ity：节点初始功能特性；Length：节点的长度，为扎根于该节点的子树中节点的总数；Depth：节点的深度，为节点与任何其他后代节点之间的最长路径长度，遗传运算符使用Depth来确保生成的子代不超过静态深度限制；Id：哈希值映射数据集变量；Value：临时常数或可变权重的值。

S2：通过自动微分(Automatic Derivatives AD)比较，评估适应性(fitnessevaluation)。使用AD进行进化迭代评估，计算可导函数在某点处的导数值，计算复杂函数。自动微分是介于符号微分和数值微分之间的一种方法：数值微分一开始就代入数值近似求解；符号微分直接对表达式进行推导，最后才代入自变量的值得到最终解。自动微分将符号微分应用于最基本的运算，如常数，幂函数，指数函数，对数函数，三角函数等基本函数，代入自变量的值得到其导数值，作为中间结果进行保留，再根据这些基本运算单元的求导结果计算出整个函数的导数值。通过微分反向计算得到预测目标的值。自动微分精度高，无表达式膨胀问题。适应性通过决定系数R²来评估。

S3:判断是否符合终止标准，不符合则继续迭代，如果符合则生成函数方程后序遍历的线性表示。

具体地，步骤S1的过程如下：

平衡树的创建(BTC)，定义树的长度和深度，长度L定义为扎根于该节点的子树中节点的总数，深度Dmax定义为节点与任何其他后代节点之间的最长路径长度，原始集合P由函数集F(+,-,×,÷,sin,cos,exp,log)和目标集合T(常数，变量)并而成，输出为一个完全初始化的GP树。

初始化平衡树属性，功能特性(function arity)a的最大最小值由函数集F进行限制，根据目标长度调整点限制，amin←min(amin,L-1)，amax←min(amax,L-1)；在极值范围内从P中抽取随机节点，root←P(amin,amax)，如果L＝1，则可能选为叶子节点；tuples←[(root,0)]，(node,depth)←tuples[i]，初始化元组列表(节点、深度)；S←root.Arity，开放扩展点数S。

线性平衡树创建(BTC)算法，树创建过程从从原始集合P中随机采样的根节点开始，并跟踪扩展点数S，即算法尚未填充的节点子槽。这些插槽以宽度优先的方式填充，同时跟踪达到目标树长度L所需的剩余节点数。当一个功能节点被添加到树中时，它会根据功能特性a打开许多新的展开子节点childnode，新的展开子节点根据目标长度L和未填充的扩展点的数量之间的差异来限制。当差值变为零时，算法用叶节点填充剩余的扩展点。其中根据深度Dmax限制和目标长度与扩展点运行数之间的差L-S，在每次迭代时计算新节点数量限制。只要a′_min,a′_max>0，直到达到极限，算法生成的树就是平衡的。剩余展开点填充完成后，d←depth+1；更新元组列表(节点、深度)tuples←tuples+(childnode,d)；更新开放扩展点数S←S+child.Arity，此时总节点nodes为从元组列表里提取的每个节点。GP树使用后序遍历的线性表示。

为了增加BTC算法产生的树的形状变化，采用了一个额外的调整：只要不妨碍算法达到目标长度，允许在扩展循环中对叶子节点而不是功能节点进行采样。当S>1时：

概率p称为算法的不规则偏差，它可以由用户指定。

子代生成器使GPOperon算法具有伸缩并发性，树进化过程中所有节点元素都是线性数据结构，提高了内存局部性。使用批处理来最小化控制流指令的影响，利用数据级并行，加快运行时间。并行随机生成种群使用子代生成器，允许在同一代基本循环中使用高级结构来表达不同的算法变体。子代生成器封装预先配置的运算符及子代接受标准，用于从父母种群中产生单个子个体并进行：选择，交叉，突变，评价，接受五个步骤，这些运算符不共享可变状态，可并行执行，每个子代进化在其自己的逻辑线程中独立发生，子代生成器可能会由于可配置的原因而失败。子代生成器中新的平衡树创建初始化，能够产生任意的树大小和符号频率分布。

主进化循环向子代生成器查询新的后代，直到新的种群被填充或终止被触发，当重组体的结果不满足接受标准时，子代生成器返回一个maybe type10来表示可能的失败，不能产生成功的重组体标志着此子代生成器的算法终止。所有经过选择，交叉，突变，评价，接受五个步骤的单个子个体，并不是像传统GP算法一样被无条件接受，如果新的后代对比父母，取得了一定程度的成功，那么新的后代就被接受到新的群体，成功进化的孩子个体比父母具有更好的适应能力。由于每个重组事件都被视为产生新的子代个体的独立尝试，发生在它自己的逻辑线程中，不与其他线程共享任何可变状态，并行性节省了大量时间。

应理解地，适应性通过决定系数R²来评估，值在0～1之间，越接近1越好其公式为：

其中为预测目标变量值，yi为样本变量真实值。

应理解地，RMSEP(即预测均方差)即预测集的均方根误差RMSE，越小越好，均方根误差RMSE公式定义如下：

MSE公式定义如下：

应理解地，RPD(即RPD评价指标)公式定义如下：越小越好，

标准偏差SD公式定义如下：

上述实施例中，根据多个第一真实值对第一划分后训练集和第一划分后预测集进行评价指标分析根据分析结果得到第一目标方程，使待发现方程更加轻量化，具有代表性，使得优化过程更加高效快速并且稳定，提高了优化过程的泛化能力。

可选地，作为本发明的一个实施例，所述根据多个所述第二真实值对所述第二划分后训练集和所述第二划分后预测集进行评价指标分析，根据分析结果得到第二目标方程的过程包括：

通过预设PF多项式函数模型对所述第二划分后训练集进行拟合，得到第三拟合后方程；

通过所述第三拟合后方程对所述第二划分后预测集进行预测，得到多个第三预测值；

通过预设GPOperon遗传编程操作子模型对所述第二划分后训练集进行拟合，得到第四拟合后方程；

通过所述第四拟合后方程对所述第二划分后预测集进行预测，得到多个第四预测值；

计算多个所述第三预测值与多个所述第二真实值的决定系数、预测均方差以及RPD评价指标，对应得到第三决定系数、第三预测均方差以及第三RPD评价指标；

计算多个所述第四预测值与多个所述第二真实值的决定系数、预测均方差以及RPD评价指标，对应得到第四决定系数、第四预测均方差以及第四RPD评价指标；

判断所述第三决定系数是否大于所述第四决定系数，若是，则对所述第三拟合后方程进行标记；若否，则对所述第四拟合后方程进行标记；

判断所述第三预测均方差是否小于所述第四预测均方差，若是，则对所述第三拟合后方程进行标记；若否，则对所述第四拟合后方程进行标记；

判断所述第三RPD评价指标是否小于所述第四RPD评价指标，若是，则对所述第三拟合后方程进行标记；若否，则对所述第四拟合后方程进行标记；

分别统计所述第三拟合后方程和所述第四拟合后方程的标记次数，得到第三拟合后方程标记次数和第四拟合后方程标记次数；

判断所述第三拟合后方程标记次数是否大于所述第四拟合后方程标记次数，若是，则将所述第三拟合后方程作为第二目标方程；若否，则将所述第四拟合后方程作为第二目标方程。

应理解地，对一个特征维度的光谱数据划分后的B段数据(即所述第二划分后训练集和所述第二划分后预测集)采用PF-GPOperon方程发现算法，计算得到近红外光谱一个特征与温度关系的可解释性分段方程(即所述第二目标方程)。

应理解地，根据所述第三预测均方差是否小于所述第四预测均方差、所述第三预测均方差是否小于所述第四预测均方差以及所述第三RPD评价指标是否小于所述第四RPD评价指标来判断所述第三拟合后方程的预测结果是否比所述第四拟合后方程更好，从而选择更好的拟合后方程作为第二目标方程，若满足任意两个条件，则说明所述第三拟合后方程的预测结果比所述第四拟合后方程更好，否则，则说明所述第四拟合后方程的预测结果比所述第三拟合后方程更好。具体地，使用PF-GPOperon方程发现算法中多项式函数模型PF(即所述预设PF多项式函数模型)分别对B段训练集(即所述第二划分后训练集)进行函数逼近得到方程PF-B(即所述第三拟合后方程)，要求在这些点上的总偏差最小。使用方程PF-B(即所述第三拟合后方程)对B段预测集(即所述第二划分后预测集)进行预测得到预测值(即所述第三预测值)，通过使用R²，RMSEP，RPD三个评价指标，对真实值(即所述第二真实值)和预测值(即所述第三预测值)的效果进行评价，得到B段数据的评价指标值(即所述第三决定系数、所述第三预测均方差以及所述第三RPD评价指标)。

具体地，使用PF-GPOperon方程发现算法中的遗传编程操作子模型GPOperon(即所述预设GPOperon遗传编程操作子模型)对B段训练集(即所述第二划分后训练集)进行函数拟合得到方程GPOperon-B(即所述第四拟合后方程)。使用方程GPOperon-B(即所述第四拟合后方程)对B段预测集(即所述第二划分后预测集)进行预测得到预测值(即所述第四预测值)，通过使用R²，RMSEP，RPD三个评价指标，对真实值(即所述第二真实值)和预测值(即所述第四预测值)的效果进行评价，得到B段数据的评价指标值(即所述第四决定系数、所述第四预测均方差以及所述第四RPD评价指标)。

应理解地，在B段(即所述第二划分后训练集和所述第二划分后预测集)中，将使用多项式函数模型得到的三个评价指标值(即所述第三决定系数、所述第三预测均方差以及所述第三RPD评价指标)与使用遗传编程操作子模型得到的三个评价指标值(即所述第四决定系数、所述第四预测均方差以及所述第四RPD评价指标)进行对比，得到两者中最优模型(即所述第二目标方程)

上述实施例中，根据多个第二真实值对第二划分后训练集和第二划分后预测集进行评价指标分析根据分析结果得到第二目标方程，使待发现方程更加轻量化，具有代表性，使得优化过程更加高效快速并且稳定，提高了优化过程的泛化能力。

可选地，作为本发明的另一个实施例，本发明对所述目标待标准化光谱数据所有特征维度使用PF-GPOperon方程发现算法计算得到目标待标准化光谱数据所有特征维度与温度关系的可解释性分段方程，将所有特征维度的方程进行合并得到最终方程集合。

可选地，作为本发明的另一个实施例，本发明使用归一化均方误差(NMSE)对方程集合进行评估，验证方程的有效性，对待温度标准化奶油靛蓝色素近红外光谱使用最终方程集合进行标准化温度回归得到温度标准化后的光谱数据，具体为：

归一化均方误差(NMSE)的公式定义如下：

是模型预测值，y是实际目标值，MSE是均方误差，Var是方差

对待温度标准化奶油靛蓝色素近红外光谱使用可解释性最终方程集合进行标准化温度回归，得到温度标准化后的光谱数据，即标准温度下的吸光度值。

具体地，使用归一化均方误差(NMSE)对方程集合进行评估，验证方程的有效性，不受大异常值的影响，可以评估有异常值的数据，适合对曲线拟合方程进行评估。对待温度标准化奶油靛蓝色素近红外光谱进行标准化温度回归，可消除温度对光谱的影响，实现近红外人工智能快速检测方法能大规模用于实践。

可选地，作为本发明的另一个实施例，本发明通过卡片式测温热像仪获取待温度标准化奶油靛蓝色素的热力图，分别对各个热力图进行预处理即热力图中的温度像素点进行由中心向周围采样区域求加权平均计算得到温度数据，获得了近红外光扫描点精确的样品温度值，分别对各个去噪后光谱数据进行特征提取和冗余去除，得到具有曲线代表性的目标待标准化光谱数据，特征提取选出了与温度影响相关的有效的波长区间，冗余去除，使待发现方程更加轻量化，具有代表性，得到目标待标准化光谱数据，使用三维散点图对目标待标准化光谱数据进行可视化分析，确定温度与近红外光谱特征的吸光度呈分段函数分布，符合分段函数拟合条件，将其中一个特征维度的光谱数据分为A，B两段，对A段数据使用多项式拟合(PF)，可以简单快速分析出规则性较强的A段的拟合方程，对B段数据使用遗传编程GPOperon拟合，可以对B段复杂多变且无明显规律的函数进行拟合，得到拟合方程，子代生成器的使用，使遗传进化过程更加高效快速并且稳定，得到近红外光谱一个特征与温度关系的可解释性分段方程，使用归一化均方误差(NMSE)对方程集合进行评估，验证方程的有效性，NMSE不容易受大异常值的影响，可以用来评估有异常值的数据，提高了模型的泛化能力。

可选地，作为本发明的另一个实施例，本发明通过微分反向计算得到预测目标的值。自动微分精度高，无表达式膨胀问题。自动微分的目的是为了求函数在某点的导数值。它可以认为是介于符号计算和数值计算之间的一种求微分的方式，主要原理是利用求导的链式法则：假设有公式y：

y

y关于x的导数为：

根据链式求导法则，为了方便计算y关于x的导数，可以根据求出上式中的微分表达式，然后将其相乘，得到最后的结果。反向模式沿着上式乘积的正向依次求导，先求出导数其余函数求值的顺序相同，求导所需函数值可以和对应的微分一起求出来。反向模式为先通过正向遍历计算图求出每个节点的值，然后通过反向遍历整个图，计算出每个节点的偏导，其原理为微积分链式法则。以链式法则的一步计算为例子，如下面公式所示：

反向模式为已知数，需要求导的是/>即待求导函数的因变量的导数是已知的。值得注意的是，由于多元微积分可知，M维空间到N维空间的函数f的导数实际上是一个N×M的雅克比矩阵，所以在高维的情况下，上面涉及到的导数乘积都是矩阵乘积，这也是反向传播算法中提到的某个节点的导数需要沿所有路劲求和的原因。

可选地，作为本发明的另一个实施例，本发明通过使用三维散点图对目标待标准化光谱数据进行可视化分析后将其中一个特征维度的光谱数据分为A，B两段，对A段数据使用多项式拟合(PF)，对B段数据使用遗传编程GPOperon拟合，得到近红外光谱一个特征与温度关系的可解释性分段方程。在实验学科中，为了得到离散的数据点，常常使用采样等方式。通常情况下，这不可避免地带来噪声、异常值等问题，也就是说不是所有的数据点都100％可信。另一方面，如果必须完美拟合所有数据点，这带来的代价可能是巨大的(例如过高的参数量、计算量)。舍弃完美拟合所有的数据点，而是寻找一个逼近(近似)函数，就是拟合逼近问题。

可选地，作为本发明的另一个实施例，如图2所示，一种近红外光谱优化装置，包括：

可选地，本发明的另一个实施例提供一种近红外光谱优化系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的近红外光谱优化方法。该系统可为计算机等系统。

可选地，本发明的另一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的近红外光谱优化方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-On ly Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种近红外光谱优化方法，其特征在于，包括如下步骤：

从所有所述合并后光谱数据中筛选出多个目标光谱数据；

对所有所述目标光谱数据进行拟合，得到优化方程集合；

2.根据权利要求1所述的近红外光谱优化方法，其特征在于，所述热力图包括多个温度像素点，

3.根据权利要求1所述的近红外光谱优化方法，其特征在于，所述从所有所述合并后光谱数据中筛选出多个目标光谱数据的过程包括：

4.根据权利要求3所述的近红外光谱优化方法，其特征在于，所述对所有所述合并后光谱数据进行特征提取的过程包括：

将所有所述平均误差矩阵相加，得到目标权重矩阵；

5.根据权利要求1所述的近红外光谱优化方法，其特征在于，所述对所有所述目标光谱数据进行拟合，得到优化方程集合的过程包括：

6.根据权利要求5所述的近红外光谱优化方法，其特征在于，所述根据多个所述第一真实值对所述第一划分后训练集和所述第一划分后预测集进行评价指标分析，根据分析结果得到第一目标方程的过程包括：

7.根据权利要求5所述的近红外光谱优化方法，其特征在于，所述根据多个所述第二真实值对所述第二划分后训练集和所述第二划分后预测集进行评价指标分析，根据分析结果得到第二目标方程的过程包括：

8.一种近红外光谱优化装置，其特征在于，包括：

9.一种近红外光谱优化系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述计算机程序时，实现如权利要求1至7任一项所述的近红外光谱优化方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至7任一项所述的近红外光谱优化方法。