CN109916849A

CN109916849A - 基于近红外光谱相关性分析检测样品理化性质的方法

Info

Publication number: CN109916849A
Application number: CN201910269156.2A
Authority: CN
Inventors: 贾振红; 王玉喜
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2019-06-21

Abstract

本发明实施例提供一种基于近红外光谱相关性分析检测样品理化性质的方法，所述方法包括：获得待测样品的原始近红外光谱数据集；对所述原始近红外光谱数据集中的波长数据进行重要多元相关性分析，去除所述原始近红外光谱数据集中的与所述待测样品不相关的波长数据，得到新近红外光谱数据集；将所述新近红外光谱数据集输入预先生成的检测模型进行理化性质检测，得到所述待测样品的理化性质。可见，根据原始近红外光谱数据集中的波长数据之间的重要多元相关性，将与待测样品不相关的波长数据去除，使新近红外光谱数据集能够更加真实的表征待测样品，进而能够使检测出的理化性质更加符合待测样品的实际情况，能够提高检测结果的准确性。

Description

基于近红外光谱相关性分析检测样品理化性质的方法

技术领域

本发明涉及光谱信息分析技术领域，尤其涉及一种基于近红外光谱相关性分析检测样品理化性质的方法。

背景技术

基于样品的近红外光谱检测该样品的理化性质具有较高的灵敏度，能够实现快速、无损、定性、定量的检测，在地质、冶金、工业、农业、医药卫生、环境、航天等多个领域都有广泛的应用。

在基于样品的近红外光谱检测该样品的理化性质时，通常都是先获取待测样品的原始近红外光谱数据集，将该待测样品的原始近红外光谱数据集输入检测模型中进行理化性质检测，进而得到该样品的理化性质。

然而，由于近红外光谱通常都是由宽带、弱带、非特异带和重叠带组成的，因此，通过光谱测量仪器获取的待测样品的原始近红外光谱数据集中除了有待测样品本身的波长数据外，还存在大量的与待测样品不相关的波长数据。由于待测样品的原始近红外光谱数据集中存在大量的与待测样品不相关的波长数据，使待测样品的原始近红外光谱数据集并不能真实的表征待测样品，导致该原始近红外光谱数据集输入检测模型后，得到的待测样品的理化性质也并不准确。

发明内容

鉴于上述问题，本发明实施例的目的是提供一种基于近红外光谱相关性分析检测样品理化性质的方法，旨在基于样品的近红外光谱数据检测该样品的理化性质时，能够提高检测结果的准确性。

第一方面，本发明实施例提供一种基于近红外光谱相关性分析检测样品理化性质的方法，所述方法包括：获得待测样品的原始近红外光谱数据集，所述待测样品的原始近红外光谱数据集中包括所述待测样品本身的波长数据和与所述待测样品不相关的波长数据；对所述原始近红外光谱数据集中的波长数据进行重要多元相关性(SignificantMultivariate Correlation，SMC)分析，去除所述原始近红外光谱数据集中的与所述待测样品不相关的波长数据，得到新近红外光谱数据集；将所述新近红外光谱数据集输入预先生成的检测模型进行理化性质检测，得到所述待测样品的理化性质，所述检测模型用于检测波长数据对应的理化性质。

第二方面，本发明实施例提供一种检测模型的生成方法，所述方法包括：获得待训练样品的原始近红外光谱数据集和所述待训练样品的的理化性质，所述待训练样品的原始近红外光谱数据集中包括所述待训练样品本身的波长数据和与所述待训练样品不相关的波长数据；计算所述待训练样品的原始近红外光谱数据集中的每个波长数据的重要多元相关系数(Significant Multivariate Correlation值，SMC值)，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述待训练样品的新近红外光谱数据集；使用机器学习算法对所述待训练样品的新近红外光谱数据集和所述待训练样品的理化性质进行机器学习，生成检测模型，所述检测模型用于检测波长数据对应的理化性质。

第三方面，本发明实施例提供一种基于近红外光谱相关性分析检测样品理化性质的装置，所述装置包括：接收模块，被配置为获得待测样品的原始近红外光谱数据集，所述待测样品的原始近红外光谱数据集中包括所述待测样品本身的波长数据和与所述待测样品不相关的波长数据；处理模块，被配置为对所述原始近红外光谱数据集中的波长数据进行重要多元相关性分析，去除所述原始近红外光谱数据集中的与所述待测样品不相关的波长数据，得到新近红外光谱数据集；检测模块，被配置为将所述新近红外光谱数据集输入预先生成的检测模型进行理化性质检测，得到所述待测样品的理化性质，所述检测模型用于检测波长数据对应的理化性质。

第四方面，本发明实施例提供一种检测模型的生成装置，所述装置包括：接收模块，被配置为获得待训练样品的原始近红外光谱数据集和所述待训练样品的的理化性质，所述待训练样品的原始近红外光谱数据集中包括所述待训练样品本身的波长数据和与所述待训练样品不相关的波长数据；处理模块，被配置为计算所述待训练样品的原始近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述待训练样品的新近红外光谱数据集；生成模块，被配置为使用机器学习算法对所述待训练样品的新近红外光谱数据集和所述待训练样品的理化性质进行机器学习，生成检测模型，所述检测模型用于检测波长数据对应的理化性质。

第五方面，本发明实施例提供一种电子设备，所述电子设备包括：至少一个处理器；以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述一个或多个技术方案中的方法。

第六方面，本发明实施例提供一种计算机可读存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述一个或多个技术方案中的方法。

本发明实施例提供的基于近红外光谱相关性分析检测样品理化性质的方法，在获得待测样品的原始近红外光谱数据集后，先对原始近红外光谱数据集中的波长数据进行重要多元相关性分析，去除原始近红外光谱数据集中的与待测样品不相关的波长数据，得到新近红外光谱数据集，再将新近红外光谱数据集输入预先生成的检测模型进行理化性质检测，得到待测样品的理化性质。相比于直接将待测样品的原始近红外光谱数据集输入检测模型中进行理化性质检测这种现有方法，在将待测样品的原始近红外光谱数据集输入检测模型中进行理化性质检测前，先根据原始近红外光谱数据集中的波长数据之间的重要多元相关性，将与待测样品不相关的波长数据去除，得到新近红外光谱数据集，由于新近红外光谱数据集中不存在与待测样品不相关的波长数据，因此，新近红外光谱数据集能够更加真实的表征待测样品，再将新近红外光谱数据集输入检测模型中进行理化性质检测，能够使检测出的理化性质更加符合待测样品的实际情况，能够提高检测结果的准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例中的基于近红外光谱相关性分析检测样品理化性质的方法的流程示意图一；

图2为本发明实施例中的基于近红外光谱相关性分析检测样品理化性质的方法的流程示意图二；

图3为本发明实施例中的啤酒的原始近红外光谱数据集；

图4为本发明实施例中的啤酒的新近红外光谱数据集；

图5为本发明实施例中的基于近红外光谱相关性分析检测样品理化性质的装置的结构示意图；

图6为本发明实施例中的检测模型的生成装置的结构示意图；

图7为本发明实施例中的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于近红外光谱相关性分析检测样品理化性质的方法，图1为本发明实施例中的基于近红外光谱相关性分析检测样品理化性质的方法的流程示意图一，参见图1所示，该方法可以包括：

S101：获得待测样品的原始近红外光谱数据集。

其中，待测样品的原始近红外光谱数据集中包括待测样品本身的波长数据和与待测样品不相关的波长数据。在这里，由于近红外光谱通常是由宽带、弱带、非特异带和重叠带组成的，因此，通过光谱测量仪器测得的待测样品的原始近红外光谱数据集中除了有待测样品本身的波长数据外，还存在有大量的与待测样品不相关的波长数据。

S102：对原始近红外光谱数据集中的波长数据进行重要多元相关性(SignificantMultivariate Correlation，SMC)分析，去除原始近红外光谱数据集中的与待测样品不相关的波长数据，得到新近红外光谱数据集。

在这里，由于待测样品的原始近红外光谱数据集中既有待测样品本身的波长数据，又有与待测样品不相关的波长数据，因此，通过对原始近红外光谱数据集中的波长数据进行重要多元相关性分析，即分析原始近红外光谱数据集中的每个波长数据与其它光谱数据的相关性大小，根据分析结果将原始近红外光谱数据集中的与待测样品不相关的波长数据去除，使得到的新近红外光谱数据集能够更加真实的表征待测样品。

S103：将新近红外光谱数据集输入预先生成的检测模型进行理化性质检测，得到待测样品的理化性质。

其中，检测模型用于检测波长数据对应的理化性质，该检测模型可以是现有的模型，也可以是待训练样品的原始近红外光谱数据集经过步骤S102处理后得到的新近红外光谱数据集与该待训练样品的理化性质经过训练后生成的模型，在此不做限定。

在具体实施过程中，为了能够获得待测样品的理化性质，可以将经过步骤S102处理后得到的待测样品的新近红外光谱数据集输入到检测模型中，该检测模型中存在有多个波长数据与理化性质的对应关系，将新近红外光谱数据集输入到检测模型中后，新近红外光谱数据集中的波长数据就会与检测模型中的波长数据进行匹配，若匹配成功，则会将检测模型中匹配成功的波长数据对应的理化性质作为该待测样品的理化性质。在这里，理化性质可以包括物理性质和化学性质，物理性质可以是指形态、结构等，化学性质可以是指化学成分、化学组分等。

这样，通过待测样品的近红外光谱数据集就能够得到该待测样品的理化性质。例如：若待测样品中含有C-H、N-H、O-H等有机官能团，通过将待测样品的近红外光谱数据集输入检测模型中，就能够分析出该待测样品中含有C-H、N-H、O-H等有机官能团，甚至还能够对该待测样品中含有的C-H、N-H、O-H等有机官能团进行定量分析。

由上述内容可知，本发明实施例提供的基于近红外光谱相关性分析检测样品理化性质的方法，在获得待测样品的原始近红外光谱数据集后，先对原始近红外光谱数据集中的波长数据进行重要多元相关性分析，去除原始近红外光谱数据集中的与待测样品不相关的波长数据，得到新近红外光谱数据集，再将新近红外光谱数据集输入预先生成的检测模型进行理化性质检测，得到待测样品的理化性质。相比于直接将待测样品的原始近红外光谱数据集输入检测模型中进行理化性质检测这种现有方法，在将待测样品的原始近红外光谱数据集输入检测模型中进行理化性质检测前，先根据原始近红外光谱数据集中的波长数据之间的重要多元相关性，将与待测样品不相关的波长数据去除，得到新近红外光谱数据集，由于新近红外光谱数据集中不存在与待测样品不相关的波长数据，因此，新近红外光谱数据集能够更加真实的表征待测样品，再将新近红外光谱数据集输入检测模型中进行理化性质检测，能够使检测出的理化性质更加符合待测样品的实际情况，能够提高检测结果的准确性。

进一步地，作为图1所示方法的细化和扩展，本发明实施例还提供了一种基于近红外光谱相关性分析检测样品理化性质的方法。图2为本发明实施例中的基于近红外光谱相关性分析检测样品理化性质的方法的流程示意图二，参见图2所示，该方法可以包括：

S201：获得待测样品的第N-1近红外光谱数据集。

在这里，N为大于或等于1的正整数，当N为1时，第N-1近红外光谱数据集就是原始近红外光谱数据集。由于在去除待测样品的原始近红外光谱数据集中的与待测样品不相关的波长数据时不是一次性去除的，而是以迭代的方式分多次去除的，故在每次去除一部分与待测样品不相关的波长数据之后都会获得一个近红外光谱数据集。

示例性的，在去除原始近红外光谱数据集中的与待测样品不相关的波长数据时需要经过10次迭代去除，即运行次数为10，那么，N就是从1至11的所有正整数，其中，最开始获得的第0近红外光谱数据集就是原始近红外光谱数据集，经过第1次迭代之后，获得的就是第1近红外光谱数据集，经过第2次迭代之后，获得的就是第2近红外光谱数据集，以此类推，经过第10次迭代之后，获得的就是第10近红外光谱数据集。

S202：按照预设比例，采集第N-1近红外光谱数据集中的波长数据，得到第N-1近红外光谱数据子集。

由于近红外光谱数据集中的波长数据较多，在进行数据处理的过程中数据处理量较大，进而数据处理时间较长。通过按照预设比例，采集近红外光谱数据集中的部分波长数据，得到近红外光谱数据子集，近红外光谱数据子集中的波长数据相比于近红外光谱数据集中的波长数据较少，即降低了近红外光谱数据集的维度。通过对近红外光谱数据子集中的波长数据进行处理，能够缩短后续数据处理的时间。

在实际应用中，可以采用蒙特卡罗采样(Monte Carlo Simulation，MCS)，从第N-1近红外光谱数据集中按照比率R采集波长数据，采集出的波长数据就构成了第N-1近红外光谱数据子集。在这里，比率R可以根据实际情况进行设置，在此不做限定。

S203：计算第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数(Significant Multivariate Correlation值，SMC值)，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到删除波长数据后的第N-1近红外光谱数据子集。

在具体实施过程中，在得到第N-1近红外光谱数据子集后，首先，通过第N-1近红外光谱数据子集中的波长数据建立偏最小二乘回归(Partial least Squares，PLS)模型；然后，计算第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，在这里，每个波长数据都对应有一个SMC值，不同的SMC值表示对某一理化性质的贡献大小，SMC值越大，表示对应的波长对该理化性质的贡献越大，即该波长越重要。接着，按照SMC值大小对第N-1近红外光谱数据子集中的每个波长数据排列；最后，将排列在靠后的SMC值对应的波长数据去除，进而得到删除波长数据后的第N-1近红外光谱数据子集。

接下来，进一步说明如何将排列在靠后的SMC值对应的波长数据去除。在按照SMC值大小对第N-1近红外光谱数据子集中的每个波长数据排列之后，先根据递减功能指数函数(Earliest Deadline Firs，EDF)，计算出本次需要消除的波长数据的数量。具体的，通过EDF计算出波长数据保持比率r_i＝ae^-ki，其中，i为迭代次数，a、k为常数；进而根据波长数据保持比率r_i计算出本次迭代中需要消除的波长数据的数量p×r_i，其中，p为第N-1近红外光谱数据子集中波长数据的数量。最后，将排列在最后的p×r_i个波长数据去除。这样，就将排列在靠后的SMC值对应的波长数据去除了，并得到了删除波长数据后的第N-1近红外光谱数据子集。

在这里需要说明的是，根据EDF计算出的每一次需要删除的波长数据的数量都有所不同，随着删除次数的增加，删除的波长数据的数量是呈指数递减趋势。也就是说，在进行第一次删除时，删除的力度是最大的，会删除大量的与待测样品不相关的波长数据，在随后的删除过程中，删除力度逐渐减小，直到最后一次删除时，删除的数量几乎接近于0，即模仿了“物竞天择，适者生存”的法则。

S204：计算删除波长数据后的第N-1近红外光谱数据子集中的每个波长数据的权重，并删除权重小于预设权重的波长数据，得到第N近红外光谱数据集。

具体的，在计算删除波长数据后的第N-1近红外光谱数据子集中的每个波长数据的权重时，可以采用计算该子集中每个波长数据的权重，其中i＝1，2，……，p，p为该子集的维度，w为权重，smc为重要多元相关系数。然后，删除权重小于预设权重的波长数据，得到第N近红外光谱数据集。

在此需要说明的是，在删除权重小于预设权重的波长数据时，并不会删除该波长数据对应的权重，而是将该权重值设置为0，使权重向量总是保持是p维的。

在实际应用中，可以采用加权自举随机采样(Weighted Bootstrap RandomSampling，WBS)方法计算删除波长数据后的第N-1近红外光谱数据子集中的每个波长数据的权重。

至此，就实现了对第N-1近红外光谱数据集的降维，得到了降维后的第N近红外光谱数据集，且第N近红外光谱数据集中的与待测样品不相关的波长数据相对于第N-1近红外光谱数据集有所减少。

在这里，每执行一次步骤S202、步骤S203和步骤S204，就能够得到一个近红外光谱数据集。例如：在对原始近红外光谱数据集执行步骤S202、步骤S203和步骤S204后，就得到了第1近红外光谱数据集，在对第1近红外光谱数据集执行步骤S202、步骤S203和步骤S204后，就得到了第2近红外光谱数据集。

S205：对N个近红外光谱数据集进行交叉验证(Cross-validation，CV)，从N个近红外光谱数据集中选择交叉验证均方根误差(Root Mean Squared Error of Cross-validation，RMSECV)最小的近红外光谱数据集作为新近红外光谱数据集。

其中，N个近红外光谱数据集是从第1近红外光谱数据集至第N近红外光谱数据集的近红外光谱数据集。

在实际应用中，可以采用5倍交叉验证，从N个近红外光谱数据集中选择交叉验证均方根误差最小的近红外光谱数据集作为新近红外光谱数据集。

示例性的，假设对待测样品的原始近红外光谱数据集进行了3次迭代。依次执行完步骤S202、步骤S203和步骤S204后，分别得到了第1近红外光谱数据集、第2近红外光谱数据集、第3近红外光谱数据集。通过交叉验证，得到第1近红外光谱数据集、第2近红外光谱数据集、第3近红外光谱数据集的均方根误差分别为a、b、c。假设a、b、c中b的值最小，那么，就将第2近红外光谱数据集作为新近红外光谱数据集，新近红外光谱数据集能够更加真实的表征待测样品，将新近红外光谱数据集输入到检测模型中，能够得到准确地待测样品的理化性质。

在待测样品的近红外光谱数据集经过上述步骤S202-S205处理后，得到的新近红外光谱数据集中的待测样品本身的波长数据最多，与待测样品不相关的波长数据最少，即能够提高新近红外光谱数据集中待测样品本身的波长数据的占比，使该新近红外光谱数据集能够更加真实的表征待测样品，将该新近红外光谱数据集输入检测模型进行理化性质检测，能够得到更加准确的待测样品的理化性质。

S206：将新近红外光谱数据集输入预先生成的检测模型进行理化性质检测，得到待测样品的理化性质。

其中，检测模型中存在有波长数据与理化性质的对应关系。将待测样品的波长数据输入该检测模型，当该待测样品的波长数据与检测模型中的波长数据匹配成功时，就能够检测到该待测样品的理化性质了，该待测样品的理化性质即检测模型中匹配出的波长数据对应的理化性质。

至此，就完成了对待测样品的理化性质的检测。

接下来，对上述检测模型的生成方法进行说明。

检测模型的生成方法可以包括以下步骤：

步骤一：获得待训练样品的原始近红外光谱数据集和待训练样品的的理化性质。

其中，待训练样品的原始近红外光谱数据集中包括待训练样品本身的波长数据和与待训练样品不相关的波长数据。待训练样品的原始近红外光谱数据集与上述关于待测样品的原始近红外光谱数据集的解释相似，待训练样品的理化性质与上述关于待测样品的理化性质的解释相似，故在此不再赘述。

步骤二：计算待训练样品的原始近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到待训练样品的新近红外光谱数据集。

其中，步骤二具体可以包括：

步骤A：按照预设比例，采集待训练样品的第N-1近红外光谱数据集中的波长数据，得到待训练样品的第N-1近红外光谱数据子集。

步骤B：计算待训练样品的第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到删除波长数据后的待训练样品的第N-1近红外光谱数据子集。

步骤C：计算删除波长数据后的待训练样品的第N-1近红外光谱数据子集中的每个波长数据的权重，并删除权重小于预设权重的波长数据，得到待训练样品的第N近红外光谱数据集。

步骤D：对待训练样品的N个近红外光谱数据集进行交叉验证，从待训练样品的N个近红外光谱数据集中选择交叉验证均方根误差最小的近红外光谱数据集作为待训练样品的新近红外光谱数据集。

在这里，步骤A-D中对于待训练样品的近红外光谱数据集的具体处理方式与步骤S202-S205中对于待测样品的具体处理方式相似，故在此不再赘述。

步骤三：使用机器学习算法对待训练样品的新近红外光谱数据集和待训练样品的理化性质进行机器学习，生成检测模型。

在这里，由于待训练样品的新近红外光谱数据集中待训练样品本身的波长数据占有很大的比率，因此，待训练样品的新近红外光谱数据集能够真实的表征待训练样品。对待训练样品的新近红外光谱数据集和待训练样品的理化性质进行训练，能够生成更加准确的检测模型，在该检测模型中存在有波长数据与理化性质的对应关系，将待测样品的波长数据输入该检测模型，能够更加准确地检测出该待测样品的理化性质。

接下来，以具体实例说明该基于近红外光谱相关性分析检测样品理化性质的方法在检测待测样品的理化性质上所具有的优势。

以啤酒为例，图3为本发明实施例中的啤酒的原始近红外光谱数据集，参见图3所示，该啤酒的原始近红外光谱数据集是使用近红外吸收谱，即NIR Systems Inc，在25℃下，用30mm石英池直接记录在未稀释的脱气啤酒上，并以2nm的间隔在1100-2250nm的波长范围内收集得到的。采用本发明实施例中的方法，即S202-S205中的方法，对图3中的数据集进行处理，得到啤酒的新近红外光谱数据集，图4为本发明实施例中的啤酒的新近红外光谱数据集，参见图4所示，图4中的数据集是将图3中的数据集运行50次之后的结果，从图4中可以看出，啤酒本身的近红外波长数据主要分布在1100-1350nm之间，而在这个区间对应的是O-H拉伸键振动的第一泛音和C-H拉伸键的第二泛音，这正与啤酒中酵母发酵成酒精的底物是一致的。

同样的，分别采用全光谱法(PLS)、竞争性自适应重加权法(CARS-PLS)、变量空间迭代收缩法(VISSA-PLS)、自举软收缩法(BOSS-PLS)对图3中的数据集进行处理，建立检测模型，并将这些检测模型与本发明实施例中的基于近红外光谱相关性分析检测样品理化性质的方法(SMCPA-PLS)对图3中的数据集进行处理后生成的检测模型进行比较。其中，可以采用Kennard-Stone(K-S)分类法将数据集分为校正集和测试集，并通过测试集对采用校正集中的数据生成的检测模型进行验证。

表1为本发明实施例中的PLS、CARS-PLS、VISSA-PLS、BOSS-PLS、SMCPA-PLS的建模效果对比图。

表1

	PLS	CARS-PLS	VISSA-PLS	BOSS-PLS	SMCPA-PLS
						nVAR	567	41.0±17.8	50.7±0.98	47.7±18.5	22.1±9.3
nLVs	10	5.7±1.1	9.5±0.7	7.9±1.9	5.5±1.3
						RMSECV	0.622	0.168±0.030	0.125±0.016	0.110±0.006	0.115±0.010
RMSEP	0.823	0.540±0.009	0.515±0.421	0.591±0.049	0.123±0.029
						Q2_CV	0.940	0.986±0.091	0.996±0.003	0.995±0.002	0.994±0.001
Q2_test	0.852	0.933±0.081	0.934±0.002	0.923±0.012	0.995±0.001
						T/s	N/A	1.13	162.1	56.2	1.02

其中，nVAR为选择变量数，nLVS为潜在变量数，RMSECV为交叉验证均方根误差，RMSEP为预测均方根误差，Q2_CV为交叉验证确定系数，Q2_test为测试集的确定系数，T为运行50次的平均时间。

参见表1，通过将SMCPA-PLS与PLS、CARS-PLS、VISSA-PLS、BOSS-PLS对比可知，SMCPA-PLS在波长数据量的选择上大大降低，以及能够缩短运行时间，尤其PLS在运行时间上不适用，即N/A。并且根据交叉验证结果可知，SMCPA-PLS建立的检测模型的准确性较高。可见，采用本发明实施例中的方法能够很好的去除啤酒的原始近红外光谱数据集中与啤酒不相关的波长数据，并且能够既快速又准确地建立起啤酒的理化性质检测模型，进而提高啤酒的理化性质检测的准确性。

基于同一发明构思，作为对上述基于近红外光谱相关性分析检测样品理化性质的方法的实现，本发明实施例还提供了一种基于近红外光谱相关性分析检测样品理化性质的装置。图5为本发明实施例中的基于近红外光谱相关性分析检测样品理化性质的装置的结构示意图，参见图5所示，该装置50可以包括：接收模块501，被配置为获得待测样品的原始近红外光谱数据集，待测样品的原始近红外光谱数据集中包括待测样品本身的波长数据和与待测样品不相关的波长数据；处理模块502，被配置为对原始近红外光谱数据集中的波长数据进行重要多元相关性分析，去除原始近红外光谱数据集中的与待测样品不相关的波长数据，得到新近红外光谱数据集；检测模块503，被配置为将新近红外光谱数据集输入预先生成的检测模型进行理化性质检测，得到待测样品的理化性质，检测模型用于检测波长数据对应的理化性质。

基于前述实施例，处理模块，被配置为计算原始近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到新近红外光谱数据集。

基于前述实施例，处理模块，被配置为计算第N-1近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到第N近红外光谱数据集，N为大于或等于1的正整数，当N为1时，第N-1近红外光谱数据集为原始近红外光谱数据集；对N个近红外光谱数据集进行交叉验证，从N个近红外光谱数据集中选择交叉验证均方根误差最小的近红外光谱数据集作为新近红外光谱数据集，N个近红外光谱数据集是从第1近红外光谱数据集至第N近红外光谱数据集的近红外光谱数据集。

基于前述实施例，处理模块，被配置为按照预设比例，采集第N-1近红外光谱数据集中的波长数据，得到第N-1近红外光谱数据子集；计算第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到第N近红外光谱数据集。

基于前述实施例，处理模块，被配置为计算第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到删除波长数据后的第N-1近红外光谱数据子集；计算删除波长数据后的第N-1近红外光谱数据子集中的每个波长数据的权重，并删除权重小于预设权重的波长数据，得到第N近红外光谱数据集。

基于前述实施例，该装置还可以包括：模型生成模块，被配置为获得待训练样品的原始近红外光谱数据集和待训练样品的的理化性质，待训练样品的原始近红外光谱数据集中包括待训练样品本身的波长数据和与待训练样品不相关的波长数据；计算待训练样品的原始近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到待训练样品的新近红外光谱数据集；使用机器学习算法对待训练样品的新近红外光谱数据集和待训练样品的理化性质进行机器学习，生成检测模型。

基于前述实施例，模型生成模块，被配置为计算待训练样品的第N-1近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到待训练样品的第N近红外光谱数据集，N为大于或等于1的正整数，当N为1时，待训练样品的第N-1近红外光谱数据集为待训练样品的原始近红外光谱数据集；对待训练样品的N个近红外光谱数据集进行交叉验证，从待训练样品的N个近红外光谱数据集中选择交叉验证均方根误差最小的近红外光谱数据集作为待训练样品的新近红外光谱数据集，待训练样品的N个近红外光谱数据集是从待训练样品的第1近红外光谱数据集至待训练样品的第N近红外光谱数据集的近红外光谱数据集。

基于前述实施例，模型生成模块，被配置为按照预设比例，采集待训练样品的第N-1近红外光谱数据集中的光谱波长数据，得到待训练样品的第N-1近红外光谱数据子集；计算待训练样品的第N-1近红外光谱数据子集中的每个光谱波长数据的相关系数重要多元相关系数，并删除相关系数重要多元相关系数小于预设相关系数重要多元相关系数的光谱波长数据，得到待训练样品的第N近红外光谱数据集。

基于前述实施例，模型生成模块，被配置为计算待训练样品的第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到删除波长数据后的待训练样品的第N-1近红外光谱数据子集；计算删除波长数据后的待训练样品的第N-1近红外光谱数据子集中的每个波长数据的权重，并删除权重小于预设权重的波长数据，得到待训练样品的第N近红外光谱数据集。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

基于同一发明构思，作为对上述检测模型的生成方法的实现，本发明实施例还提供了一种检测模型的生成装置。图6为本发明实施例中的检测模型的生成装置的结构示意图，参见图6所示，该装置60可以包括：接收模块601，被配置为获得待训练样品的原始近红外光谱数据集和待训练样品的的理化性质，待训练样品的原始近红外光谱数据集中包括待训练样品本身的波长数据和与待训练样品不相关的波长数据；处理模块602，被配置为计算待训练样品的原始近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到待训练样品的新近红外光谱数据集；生成模块603，被配置为使用机器学习算法对待训练样品的新近红外光谱数据集和待训练样品的理化性质进行机器学习，生成检测模型，检测模型用于检测波长数据对应的理化性质。

基于前述实施例，处理模块，被配置为计算待训练样品的第N-1近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到待训练样品的第N近红外光谱数据集，N为大于或等于1的正整数，当N为1时，待训练样品的第N-1近红外光谱数据集为待训练样品的原始近红外光谱数据集；对待训练样品的N个近红外光谱数据集进行交叉验证，从待训练样品的N个近红外光谱数据集中选择交叉验证均方根误差最小的近红外光谱数据集作为待训练样品的新近红外光谱数据集，待训练样品的N个近红外光谱数据集是从待训练样品的第1近红外光谱数据集至待训练样品的第N近红外光谱数据集的近红外光谱数据集。

基于前述实施例，处理模块，被配置为按照预设比例，采集待训练样品的第N-1近红外光谱数据集中的光谱波长数据，得到待训练样品的第N-1近红外光谱数据子集；计算待训练样品的第N-1近红外光谱数据子集中的每个光谱波长数据的相关系数重要多元相关系数，并删除相关系数重要多元相关系数小于预设相关系数重要多元相关系数的光谱波长数据，得到待训练样品的第N近红外光谱数据集。

基于前述实施例，处理模块，被配置为计算待训练样品的第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到删除波长数据后的待训练样品的第N-1近红外光谱数据子集；计算删除波长数据后的待训练样品的第N-1近红外光谱数据子集中的每个波长数据的权重，并删除权重小于预设权重的波长数据，得到待训练样品的第N近红外光谱数据集。

基于同一发明构思，本发明实施例还提供了一种电子设备。图7为本发明实施例中的电子设备的结构示意图，参见图7所示，该电子设备70可以包括：至少一个处理器701；以及与处理器701连接的至少一个存储器702、总线703；其中，处理器701、存储器702通过总线703完成相互间的通信；处理器701用于调用存储器702中的程序指令，以执行上述一个或多个实施例中的方法。

这里需要指出的是：以上电子设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明实施例的电子设备的实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述一个或多个实施例中的方法。

这里需要指出的是：以上计算机可读存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本发明实施例的计算机可读存储介质的实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于近红外光谱相关性分析检测样品理化性质的方法，其特征在于，所述方法包括：

获得待测样品的原始近红外光谱数据集，所述待测样品的原始近红外光谱数据集中包括所述待测样品本身的波长数据和与所述待测样品不相关的波长数据；

对所述原始近红外光谱数据集中的波长数据进行重要多元相关性分析，去除所述原始近红外光谱数据集中的与所述待测样品不相关的波长数据，得到新近红外光谱数据集；

将所述新近红外光谱数据集输入预先生成的检测模型进行理化性质检测，得到所述待测样品的理化性质，所述检测模型用于检测波长数据对应的理化性质。

2.根据权利要求1所述的方法，其特征在于，所述对所述原始近红外光谱数据集中的波长数据进行重要多元相关性分析，去除所述原始近红外光谱数据集中的与所述待测样品不相关的波长数据，得到新近红外光谱数据集，包括：

计算所述原始近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述新近红外光谱数据集。

3.根据权利要求2所述的方法，其特征在于，所述计算所述原始近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述新近红外光谱数据集，包括：

计算第N-1近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到第N近红外光谱数据集，所述N为大于或等于1的正整数，当所述N为1时，所述第N-1近红外光谱数据集为所述原始近红外光谱数据集；

对N个近红外光谱数据集进行交叉验证，从所述N个近红外光谱数据集中选择交叉验证均方根误差最小的近红外光谱数据集作为所述新近红外光谱数据集，所述N个近红外光谱数据集是从第1近红外光谱数据集至所述第N近红外光谱数据集的近红外光谱数据集。

4.根据权利要求3所述的方法，其特征在于，所述计算第N-1近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到第N近红外光谱数据集前，所述方法还包括：

按照预设比例，采集所述第N-1近红外光谱数据集中的波长数据，得到第N-1近红外光谱数据子集；

所述计算第N-1近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到第N近红外光谱数据集，包括：

计算所述第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到第N近红外光谱数据集。

5.根据权利要求4所述的方法，其特征在于，所述计算所述第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到第N近红外光谱数据集，包括：

计算所述第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到删除波长数据后的第N-1近红外光谱数据子集；

计算删除波长数据后的第N-1近红外光谱数据子集中的每个波长数据的权重，并删除权重小于预设权重的波长数据，得到所述第N近红外光谱数据集。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述将所述新近红外光谱数据集输入预先生成的检测模型进行理化性质检测，得到所述待测样品的理化性质前，所述方法还包括：

获得待训练样品的原始近红外光谱数据集和所述待训练样品的的理化性质，所述待训练样品的原始近红外光谱数据集中包括所述待训练样品本身的波长数据和与所述待训练样品不相关的波长数据；

计算所述待训练样品的原始近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述待训练样品的新近红外光谱数据集；

使用机器学习算法对所述待训练样品的新近红外光谱数据集和所述待训练样品的理化性质进行机器学习，生成所述检测模型。

7.根据权利要求6所述的方法，其特征在于，所述计算所述待训练样品的原始近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述待训练样品的新近红外光谱数据集，包括：

计算所述待训练样品的第N-1近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述待训练样品的第N近红外光谱数据集，所述N为大于或等于1的正整数，当所述N为1时，所述待训练样品的第N-1近红外光谱数据集为所述待训练样品的原始近红外光谱数据集；

对所述待训练样品的N个近红外光谱数据集进行交叉验证，从所述待训练样品的N个近红外光谱数据集中选择交叉验证均方根误差最小的近红外光谱数据集作为所述待训练样品的新近红外光谱数据集，所述待训练样品的N个近红外光谱数据集是从所述待训练样品的第1近红外光谱数据集至所述待训练样品的第N近红外光谱数据集的近红外光谱数据集。

8.根据权利要求7所述的方法，其特征在于，所述计算所述待训练样品的第N-1近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述待训练样品的第N近红外光谱数据集前，所述方法还包括：

按照预设比例，采集所述待训练样品的第N-1近红外光谱数据集中的波长数据，得到所述待训练样品的第N-1近红外光谱数据子集；

所述计算所述待训练样品的第N-1近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述待训练样品的第N近红外光谱数据集，包括：

计算所述待训练样品的第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述待训练样品的第N近红外光谱数据集。

9.根据权利要求8所述的方法，其特征在于，所述计算所述待训练样品的第N-1近红外光谱数据集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到所述待训练样品的第N近红外光谱数据集，包括：

计算所述待训练样品的第N-1近红外光谱数据子集中的每个波长数据的重要多元相关系数，并删除重要多元相关系数小于预设重要多元相关系数的波长数据，得到删除波长数据后的所述待训练样品的第N-1近红外光谱数据子集；

计算删除波长数据后的所述待训练样品的第N-1近红外光谱数据子集中的每个波长数据的权重，并删除权重小于预设权重的波长数据，得到所述待训练样品的第N近红外光谱数据集。

10.一种检测模型的生成方法，其特征在于，所述方法包括：

使用机器学习算法对所述待训练样品的新近红外光谱数据集和所述待训练样品的理化性质进行机器学习，生成检测模型，所述检测模型用于检测波长数据对应的理化性质。