CN115795225B

CN115795225B - 一种近红外光谱校正集的筛选方法及装置

Info

Publication number: CN115795225B
Application number: CN202211586418.6A
Authority: CN
Inventors: 江苏; 王茺; 黄果; 杨钢; 刘海涛
Original assignee: SICHUAN VSPEC TECHNOLOGIES Inc
Current assignee: SICHUAN VSPEC TECHNOLOGIES Inc
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2024-01-23
Anticipated expiration: 2042-12-09
Also published as: CN115795225A

Abstract

本发明涉及分析化学技术领域，尤其涉及一种近红外光谱校正集的筛选方法及装置，其方法包括以下步骤：收集样本，调用t‑SNE将高维空间中的光谱进行降维处理；利用t‑SNE对低维空间中的嵌入点定义高斯联合分布，t‑SNE结合使用KL散度优化相似度指标，获得降维后的数据，任意选取k个对象作为初始的聚类中心，按照与中位数最近的原则，将剩余点分配到当前最佳的中位数代表的类中，在每一类中计算每个成员点对应的准则函数，确定各自样本数量，进而分别随机挑选部分数量的样本，本公开有效减少传统方法测定的工作量。

Description

一种近红外光谱校正集的筛选方法及装置

技术领域

本发明涉及分析化学技术领域，尤其涉及一种近红外光谱校正集的筛选方法及装置。另外还涉及一种电子设备及非暂态计算机可读存储介质。

背景技术

本部分中的陈述仅提供与本公开有关的背景信息并且不构成现有技术。

校正集所需样本数取决于样本自身的复杂程度，校正集样本的选择直接决定所建模型的适用性和准确性，多元校正中校正集的数量并非越多越好，其代表性才是我们优先考虑的，要求所选样本在待测指标方面具有很好的代表性,样品的光谱特征及其性质范围应能涵盖以后待测的样品，因近红外光谱独有的快速分析能力，我们可以轻松获得大量样本光谱，传统化学方法或物理方法测定物质含量或属性费时费力且需要很高的经济成本，为降低建模样本数量从而减少传统方法的工作量，可以事先根据光谱特征筛选出有代表性的样本，因而常用的样本筛选方法有KS算法、SPXY法、Rank-KS法等，这一类算法通常采用原始全光谱进行计算，存在耗时较长、容易受离群样本的影响、未考虑光谱差异并非全由所测样品的组成差异引起或者需要所有样本的化学含量数据等缺点。

基于上述，本领域技术人员亟需提供一种可以有效减少传统方法测定的工作量以及经济成本的针对校正集的筛选方法。

发明内容

发明人通过研究发现：本公开方法筛选校正集所建模型的预测性能较全部样本所建模型的预测性能降低程度不显著，且明显优于随机挑选样本的结果，同时经过发明人试验发现本公开适用于医药、石化、烟草、饲料等复杂样本的定量分析。

本公开的目的在于提供一种近红外光谱校正集的筛选方法及装置，来解决现有技术无法提供一种可以有效减少校正集样本测定工作量的筛选方法的技术问题，同时也辅助缓解了经济成本。

据本公开的一个方面，提供一种近红外光谱校正集的筛选方法，包括以下步骤

步骤1.收集样本，在近红外光谱仪上采集收集样本的近红外光谱；

步骤2.调用t-SNE将高维空间中光谱进行降维处理；

步骤3.利用t-SNE对低维空间中的嵌入点定义高斯联合分布；

步骤4.t-SNE结合使用Ku l l back-Leib ler散度优化高维和低维空间内的相似度指标；

步骤5.获得降维后的数据；

步骤6.任意选取k个对象作为初始的聚类中心，采用中位数作为聚类中心点；

步骤7.按照与中位数最近的原则，将剩余点分配到当前最佳的中位数代表的类中；

步骤8.在每一类中计算每个成员点对应的准则函数，选取准则函数最小时对应的点作为新的中位数；

步骤9.重复执行步骤7-步骤8，直到所有的中位数点不再发生变化或者已达到设定的最大迭代次数；

步骤10.确定前述k个对象的各自样本数量，进而分别随机挑选部分数量的样本，直至所选的样本的个数等于预先确定的数目。

本公开的一些实施例中，所述步骤2中高维空间为三维空间。

本公开的一些实施例中，所述步骤2具体包括：高维光谱之间的欧式距离转换为表示相似性的条件概率，将高维空间中的光谱的相似度由高斯联合分布表示。

本公开的一些实施例中，所述步骤6中的k的数量为5-10个。

本公开的一些实施例中，所述步骤3中嵌入空间的相似度由t分布表示。

本公开的一些实施例中，所述步骤4具体包括通过建立如下函数，优化高维和低维空间内的相似度指标，其中建立的函数为：

其中，D_KL(p||q)表示概率q概率p之间的差异，p(x_i)与q(x_i)代表样本x_i的概率，字母N代表N个样本。

本公开的一些实施例中，所述步骤8中的准则函数具体为类内准则函数。

据本公开的另一个方面，提供一种近红外光谱校正集的筛选装置，包括：采集单元，用于采集收集样本的近红外光谱，所述采集单元中包括近红外光谱仪；调用分析单元，用于调用t-SNE将高维空间中的光谱进行降维处理，利用t-SNE对低维空间中的嵌入点定义高斯联合分布，同时将t-SNE结合使用Ku l l back-Leib ler散度优化高维和低维空间内的相似度指标，获得降维后的数据；匹配单元，用于任意选取k个对象作为初始的聚类中心，采用中位数作为聚类中心点，按照与中位数最近的原则，将剩余点分配到当前最佳的中位数代表的类中，在每一类中计算每个成员点对应的准则函数，选取准则函数最小时对应的点作为新的中位数；循环单元，用于重复执行所述匹配单元内的执行步骤，直到所有的中位数点不再发生变化或者已达到设定的最大迭代次数；核准单元，用于确定前述k个对象的各自样本数量，进而分别随机挑选部分数量的样本，直至所选的样本的个数等于预先确定的数目。

据本公开的又一个方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的近红外光谱校正集的筛选方法的步骤。

据本公开的再一个方面，提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上任意一项所述的近红外光谱校正集的筛选方法的步骤。

本公开与目前公开的技术相比，具有如下的优点和有益效果：本公开在采用传统物理或化学方法测定样本含量或属性之前，先采用对原始高维光谱数据进行降维，滤除光谱数据的噪声，降低后续处理的计算强度，然后基于改进型聚类算法的准则函数结果从各个类别中筛选出具有代表性的样本，剔除相似样本，中位数质心和随机抽样的引入能显著降低异常样本的影响，减少传统方法测定的工作量及经济成本；同时本公开提供的近红外定量建模校正集的筛选方法，所建模型的预测性能较全部样本所建模型的预测性能降低程度不显著，且明显优于随机挑选样本的结果。

附图说明

图1是本发明方法的流程示意图；

图2是本发明的实施例对应的试验红外光谱图；

图3是本发明的实施例对应的样本训练集t-SNE结果图；

图4是本发明的实施例对应的改进型聚类算法分类结果图；

图5是本发明的样本筛选结果图；

图6是现有技术的随机挑选样本的分布情况图；

图7是本发明的实施例的内部交叉验证结果图；

图8是本发明的全部样本所建模型预测结果图；

图9是现有技术的随机挑选样本所建模型预测结果图；

图10是本发明的实施例筛选样本所建模型预测结果图。

说明附图1中的箭头代表执行顺序；附图2-10中的点均代表单个样本；图2中的纵坐标(Absorbance)表示吸收度，横坐标(Wave number)表示波数；图2-5坐标轴旁的Dim1，Dim2，Dim3是t-SNE对原始数据降维后得到的3个维度；图6中的纵坐标(RMSECV)表示交叉验证均方根误差，横坐标(Factors)表示因子。

具体实施方式

请一并参考说明附图1-图10，本实施例提供了一种近红外光谱校正集的筛选方法及装置，该近红外光谱校正集的筛选方法及装置已经处于实际使用阶段，并进行了烟草粉末样品的烟碱含量快速测定的实际作业。

之后参考附图来更全面地描述本发明，在附图中示出了本发明的说明性实施例。但是，本发明还以许多不同的形式体现并且不应当理解为限制于这里叙述的实施例。相反，这些实施例被提供以便本公开充分和完整，并且将本发明的范围完全传递给本领域技术人员。

还将理解的是，尽管术语第一、第二等可以在这里用来描述各种元件，但这些元件不应当被这些术语限制。这些术语只用来区别一个元件与另一个元件。

这里所使用的术语只用于描述特定实施例的目的而不试图限制本发明。如这里所使用的，单数形式“一”、“一个”和“该”旨在也包括多数形式，除非上下文清楚指明不是这样。将进一步理解，术语“包括”和“包含”当在这里使用时规定了所阐明特征、步骤、操作、元素和/或部件的存在，但是不排除一个或多个其它特征、步骤、操作、元素、部件和/或其组合的存在或添加。

除非相反定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属技术领域的普通技术人员通常理解的相同的含义。将进一步理解，诸如在常用词典里所定义的术语应当被解释为具有与其在相关领域的上下文中的意思相一致的意思，并且将不按照理想化的或非常正式意思来解释，除非特意在这里这样定义。

参考根据本发明的实施例的方法、系统和计算机程序产品的框图和流程图来在下面的部分描述本发明。将会理解，框图或流程图的方框以及框图或流程图中方框的组合可以至少部分地由计算机程序指令来实现。这些计算机程序指令可以被提供给一个或多个企业、应用、个人、普遍和/或嵌入式计算机系统，使得经由计算机系统执行的该指令创建用于实现方框图的一个或多个方框中规定的功能/动作的装置、模块、设备、方法。也可以在其它实施例中使用通用计算机系统和/或专用硬件的组合。

这些计算机程序指令还可存储在计算机系统的存储器中，以命令计算机系统以特定的方式工作，使得存储在存储器中的指令产生包括实现一个或多个方框中规定的功能/动作的计算机可读程序代码的制造物品。计算机程序指令还可以加载到计算机系统中以使一系列操作步骤由计算机系统执行，从而产生计算机实现的进程，使得在处理器上执行的指令提供用于实现一个或多个方框中规定的功能/动作的步骤。由此，框图和/或流程图的给定的一个或多个方框为方法、计算机程序产品和/或系统提供(结构的和/或装置加功能的)支持。

还应当注意，在一些替换实施方式中，在流程图中标注的功能/动作可能不是按流程图标注的顺序发生的。例如接连示出的两个方框可以事实上基本并发地执行，或者这些方框有时以相反的顺序执行，这取决于所涉及的功能/动作。最后，一个或多个方框的功能可以是单独的或与其它方框的功能组合。

本公开利用将原始样本的光谱矩阵从高维空间嵌入三维空间，并在三维空间里保持其在高维空间里所携带的信息，此时矩阵的维度已经变为，滤除了原始光谱数据的噪声并降低后续计算的时间复杂度，然后利用改进型聚类算法在前述较小矩阵上快速进行聚类分析，然后从各个类别中根据该类别样本数的多寡随机选择一定数量的样本，从而达到按样本固有空间特征选择代表性样本的目的，克服传统样本筛选方法，比如KS、SPXY、Rank-KS等基于全光谱导致的计算时间长、容易受离群样本的影响、未考虑光谱差异并非全由所测样品的组成差异引起或者需要所有样本的化学含量数据等缺点。

需要提前说明的是：本公开中的Ku l l back-Leib ler散度为用来衡量两个概率分布的相似性的一个度量指标，简称KL。

实施例

本实施例至少包括如下内容：一种近红外光谱校正集的筛选方法，包括以下步骤：收集样本，在近红外光谱仪上采集收集样本的近红外光谱，调用t-SNE将高维空间中的光谱进行降维处理，需要说明的是，本实施中的高维空间为三维空间，同时需要说明的是光谱降维处理过程为将高维光谱之间的欧式距离转换为表示相似性的条件概率，同时将高维空间中的光谱的相似度由高斯联合分布表示。

接着，利用t-SNE对低维空间中的嵌入点定义高斯联合分布，嵌入空间的相似度由t分布表示，t-SNE结合使用Ku l l back-Leib ler散度优化高维和低维空间内的相似度指标，其中采用如下函数，优化高维和低维空间内的相似度指标，其中函数为：

基于上述过程，获得降维后的数据，进一步的，任意选取k个对象作为初始的聚类中心，其中本实施例优选的k的数量为5-10个，也可以选择30、40个等。

最后，采用中位数作为聚类中心点，按照与中位数最近的原则，将剩余点分配到当前最佳的中位数代表的类中，在每一类中计算每个成员点对应的准则函数，本实施例中的准则函数具体为类内准则函数，选取准则函数最小时对应的点作为新的中位数，重复执行前述步骤，直到所有的中位数点不再发生变化或者已达到设定的最大迭代次数，确定前述k个对象的各自样本数量，进而分别随机挑选部分数量的样本，直至所选的样本的个数等于预先确定的数目。

为了更好理解本公开的方法，发明人进行了如下实际实施过程：

应用近红外光谱数据分析，对烟草粉末样品的烟碱含量进行快速测定。

该数据集包含1000个样本，其近红外光谱由傅里叶变换型近红外光谱仪测得，波数范围10000-4000cm^-1，分辨率8cm^-1，1557个数据点，其烟碱值按烟草行业标准《YC/T 160-2002烟草及烟草制品总植物碱的测定连续流动法》由流动分析仪测得，采用系统抽样方法选择80％作为训练集(800个)，剩余20％作为测试集(200个)，部分烟末样品的近红外光谱图如附图2所示。

详细作业过程为：采用算法将训练集(矩阵维度)投影到一个3维空间中，其结果如图3所示；采用改进型聚类算法，将上述3维空间数据进行5分类，分类结果如图4所示；然后从每个类别中按各类别样本数随机挑选一定数目的样本，总计200个样本作为校正集，其空间分布如图5所示，可以看到筛选出来的样本空间分布较均匀；保存对应的光谱序号；针对上述筛选出来的样本光谱(矩阵维度)先进行中心化预处理，然后利用偏最小二乘法，因子数从1-30进行内部交叉验证，观察RMSECV随因子数的变化；作为比较，发明人按照上述的方法对全部训练集(矩阵维度)进行同样的处理；作为比较，发明人按照上述的方法对随机挑选的200个样本(矩阵维度)进行同样的处理；随机挑选样本的分布情况如图6所示，可以看到其分布极不均匀；前述3种校正集的内部交叉验证结果随因子数的变化如图7所示，可以看到随机挑选样本所建模型RMSECV随因子数的变化波动较大，为避免过拟合，选择23个因子；本公开的方法所筛选样本及全部样本所建模型的RMSECV随因子数的变化较平缓，为避免过拟合，选择19个因子；为了考察模型的预测性能，发明人使用上述因子数对应模型分别预测测试集，结果如图8、图9、图10以及下述表所示，下表为不同校正集所建模型的预测结果：

根据上表可以看出使用全部样本建模的结果最佳，决定系数为0.9829，预测均方根误差为0.1306；如果从训练样本中随机挑选部分样本建模，决定系数为0.9499，预测均方根为0.2233；采用本公开的方法仅需使用原始样本的1/4即可接近全部样本所建模型的预测能力，决定系数为0.9789，预测均方根误差为0.1449。本公开的方法能有效筛选代表性样本，大幅降低校正集数量，减少传统方法测定的时间和经济成本。

又一方面，本公开实施例提供一种近红外光谱校正集的筛选装置，包括：采集单元，用于采集收集样本的近红外光谱，所述采集单元中包括近红外光谱仪；调用分析单元，用于调用t-SNE将高维空间中的光谱进行降维处理，利用t-SNE对低维空间中的嵌入点定义高斯联合分布，同时将t-SNE结合使用Ku l l back-Leib ler散度优化高维和低维空间内的相似度指标，获得降维后的数据；匹配单元，用于任意选取k个对象作为初始的聚类中心，采用中位数作为聚类中心点，按照与中位数最近的原则，将剩余点分配到当前最佳的中位数代表的类中，在每一类中计算每个成员点对应的准则函数，选取准则函数最小时对应的点作为新的中位数；循环单元，用于重复执行所述匹配单元内的执行步骤，直到所有的中位数点不再发生变化或者已达到设定的最大迭代次数；核准单元，用于确定前述k个对象的各自样本数量，进而分别随机挑选部分数量的样本，直至所选的样本的个数等于预先确定的数目。

以上所描述的装置实施例仅仅是示意性的，其中作为部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上，可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的，本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

另一方面，本公开实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的近红外光谱校正集的筛选方法的步骤。

再一方面，本公开实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的近红外光谱校正集的筛选方法的步骤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种近红外光谱校正集的筛选方法，其特征在于，包括以下步骤

步骤2.调用t-SNE将高维空间中的光谱进行降维处理；

步骤3.利用t-SNE对低维空间中的嵌入点定义高斯联合分布；高维光谱之间的欧式距离转换为表示相似性的条件概率，将高维空间中的光谱的相似度由高斯联合分布表示；

步骤4.t-SNE结合使用Kullback-Leibler散度优化高维和低维空间内的相似度指标；具体包括通过建立如下函数，优化高维和低维空间内的相似度指标，其中建立的函数为：

其中，表示概率q概率p之间的差异，/>与/>代表样本/>的概率，字母N代表N个样本；

步骤5.获得降维后的数据；

2.根据权利要求1所述的筛选方法，其特征在于，所述步骤2中高维空间为三维空间。

3.根据权利要求1所述的筛选方法，其特征在于，所述步骤6中的k的数量为5-10个。

4.根据权利要求1所述的筛选方法，其特征在于，所述步骤3中嵌入空间的相似度由t分布表示。

5.根据权利要求1所述的筛选方法，其特征在于，所述步骤8中的准则函数具体为类内准则函数。

6.一种近红外光谱校正集的筛选装置，其特征在于，包括：

采集单元，用于采集收集样本的近红外光谱，所述采集单元中包括近红外光谱仪；

调用分析单元，用于调用t-SNE将高维空间中的光谱进行降维处理，利用t-SNE对低维空间中的嵌入点定义高斯联合分布，高维光谱之间的欧式距离转换为表示相似性的条件概率，将高维空间中的光谱的相似度由高斯联合分布表示；同时将t-SNE结合使用Kullback-Leibler散度优化高维和低维空间内的相似度指标，获得降维后的数据；具体包括通过建立如下函数，优化高维和低维空间内的相似度指标，其中建立的函数为：

匹配单元，用于任意选取k个对象作为初始的聚类中心，采用中位数作为聚类中心点，按照与中位数最近的原则，将剩余点分配到当前最佳的中位数代表的类中，在每一类中计算每个成员点对应的准则函数，选取准则函数最小时对应的点作为新的中位数；

循环单元，用于重复执行所述匹配单元内的执行步骤，直到所有的中位数点不再发生变化或者已达到设定的最大迭代次数；

核准单元，用于确定前述k个对象的各自样本数量，进而分别随机挑选部分数量的样本，直至所选的样本的个数等于预先确定的数目。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5任意一项所述的近红外光谱校正集的筛选方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-5任意一项所述的近红外光谱校正集的筛选方法的步骤。