CN111309958A

CN111309958A - 一种基于插值运算的光谱重构方法

Info

Publication number: CN111309958A
Application number: CN202010237784.5A
Authority: CN
Inventors: 刘浩; 闫晓剑; 赵浩宇; 张国宏
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-06-19

Abstract

本发明涉及光谱重构技术领域，公开了一种基于插值运算的光谱重构方法。该方法首先选取有限数量含量已知纺织品作为样品，并采集每个样品的光谱数据，分为训练集和预测集，将训练集中样品的光谱数据结合其参比值进行偏最小二乘法建模，记录为模型A，然后根据样品参比值进行插值运算，计算虚拟插值点，再根据样品光谱数据以及虚拟插值点计算虚拟光谱数据，接着结合虚拟插值点与虚拟光谱数据对光谱模型A进行重构，获得重构模型B，最后，使用重构模型B对预测集样品进行预测，判断模型的预测效果。该方法可以有效扩充样品光谱数据库，解决光谱建模需要大量实体样品的问题。同时有着极高的重构效率，而且可以有效提升光谱模型的预测效果。

Description

一种基于插值运算的光谱重构方法

技术领域

本发明涉及光谱重构技术领域，尤其涉及一种基于插值运算的光谱重构方法。

背景技术

随着社会的发展，人们对生活品质的关注日益增加，尤其针对纺织品行业，各类纺织品和人们的生活密不可分，越来越多的消费者也愿意在纺织品上进行投入。但是随之而来的问题，部分不良商家利用消费者难以辨别纺织品品质，为了私利选择在相应的纺织品中掺假，损害了消费者的利益。

然而随着光谱分析技术的发展，对纺织品品质的鉴定变得越发简单。光谱分析技术具有方便、快速、高效、准确和成本较低、不破坏样品、不消耗化学试剂、不污染环境等优点，在农业、食品、工业、纺织业等领域已有广泛的应用。纺织品光谱数据中包含丰富的物质信息，采用纺织品光谱数据以及相关化学值进行建模，能够快速实现对未知样品化学值的预测。但是随之而来的问题是，如若想获得效果良好的光谱模型，需要大量已知参比值的纺织品光谱数据进行数学建模，采集大量纺织品光谱数据不仅需要大量样品，而且采集过程费时费力，造成资源的浪费。因此，如何简单，快速获取纺织品光谱数据成为了需要解决的问题。

发明内容

根据以上现有技术中的不足，本发明要解决的技术问题是：提供一种基于插值运算的光谱重构方法，以解决现有技术中为了获得效果良好的光谱模型需要大量已知参比值的纺织品光谱数据进行数学建模，而采集大量纺织品光谱数据不仅需要大量样品，而且采集过程费时费力，造成资源的浪费的问题。

为了解决上述问题，本发明采用的技术方案是：一种基于插值运算的光谱重构方法，包括如下步骤：

步骤一：选取有限数量含量已知纺织品作为样品，并采集每个样品的光谱数据，分为训练集和预测集，将训练集中样品的光谱数据结合其参比值进行偏最小二乘法建模，记录为模型A；

步骤二：根据样品参比值进行插值运算，计算虚拟插值点；

步骤三：根据样品光谱数据以及虚拟插值点计算虚拟光谱数据；

步骤四：结合虚拟插值点与虚拟光谱数据对光谱模型A进行重构，获得重构模型B；

步骤五：使用重构模型B对预测集样品进行预测，判断预测集的预测参比值与实际参比值之间的相对误差是否超过设定的相对误差，没有超过设定相对误差则可以进行测量含量未知的样品，超过设定相对误差则增加训练集样品数量，重复步骤一至步骤五。

作为进一步优化，步骤一中参比值选取样品的棉纤维含量，训练集的样品数量为两个以上，训练集样品数量大于等于预测集样品数量。

作为进一步优化，步骤二中根据样品参比值进行插值运算，计算虚拟插值点。将样品参比值从小到大依次排列，在相邻两个样品参比值之间插入一个以上虚拟插值点，且虚拟插值点平均分布于相邻两个样品参比值之间，根据相邻两个样品参比值及虚拟插值点个数计算出各虚拟插值点数值。

作为进一步优化，步骤三中根据样品光谱数据以及虚拟插值点计算虚拟光谱数据。在光谱运算中，样品的光谱数据由各个波长点的光强数据构成，计算虚拟光谱数据的过程实际为每个插值计算单位中最大参比值对应的各个波长点光强数据依次减去最小参比值对应各个波长点光强数据，再根据虚拟插值点个数进行等比例分配，分配完成后一一对应虚拟插值点。

作为进一步优化，步骤四中结合虚拟插值点与虚拟光谱数据对光谱模型A进行重构，获得重构模型B。将虚拟光谱数据整合在原始光谱数据中，将虚拟插值点整合在原始参比值集合中，并使得光谱数据与参比值一一对应，然后使用偏最小二乘法算法对光谱模型A进行重新重构，得到重构模型B。

作为进一步优化，步骤五中使用重构模型B对预测集样品进行预测，当预测集样品的预测参比值与实际参比值之间的相对误差是设定相对误差的两倍以上，则可以增加数倍的训练集样品数量，重复步骤一至步骤五；当预测集样品的预测参比值与实际参比值之间的相对误差是设定相对误差的一倍以上两倍以内，则可以增加小于一倍的训练集样品数量，重复步骤一至步骤五。

本发明的有益效果是：通过一种基于插值运算的光谱重构方法，可以有效扩充样品光谱数据库，解决光谱建模需要大量实体样品的问题。同时，相较于已有的光谱重构方法，基于插值的重构方法不仅有着极高的重构效率，而且可以有效提升光谱模型的预测效果。

附图说明

图1为本发明公开的基于插值运算的光谱重构方法的流程图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

参见图1，在步骤101中，选取有限数量含量已知纺织品作为样品，并采集每个样本的光谱数据，分为训练集和预测集，将训练集中样品的光谱数据结合其参比值进行偏最小二乘法建模，记录为模型A。选取20件纺织品作为样品集进行光谱数据的采集，其中10件纺织品作为训练集，其余10件纺织品作为预测集，建模算法为偏最小二乘算法，所述参比值可以选取为样品的棉纤维含量。

在本实施例中，偏最小二乘法作为应用最为广泛的建模算法，其结合了多元线性回归(MLR)及主成分回归(PCR)法的优势，不仅能够对光谱矩阵进行处理，还能对棉纤维含量矩阵进行同样的处理，因此能够消除光谱矩阵以及棉纤维含量矩阵里的噪声信息，取得较好的预测效果。其计算过程为：对光谱矩阵及棉纤维含量矩阵进行分解，通过交互校验法确定其最佳主成分数，最后建立光谱矩阵与棉纤维含量矩阵的数学模型关系，该算法极度适用于棉纤维含量与光谱数据之间的建模。

步骤102中，根据样品参比值进行插值运算，计算虚拟插值点。在本实施例中，10件纺织品的棉纤维含量从小到大依次设置为C₁，C₂……C₁₀，在计算虚拟插值点时，选择两个临近棉纤维含量点进行运算，如若整体需要扩充90条光谱数据，即增加90个虚拟插值点，则C₁～C₂棉纤维含量中需要增加10个虚拟插值点，可以计算出在C₁～C₂棉纤维含量范围内的两个相邻插值点的数值差异ΔC为：

ΔC＝(C₂-C₁)/11

进而可以计算出C₁～C₂棉纤维含量范围内10个虚拟插值点数值为(C₁+ΔC，C₁+2ΔC……C₁+10ΔC)，同理可得其余虚拟插值点的数值大小。

步骤103中，根据样品光谱数据以及虚拟插值点计算虚拟光谱数据。在光谱运算中，样品的光谱数据由各个波长点的光强数据构成，计算虚拟光谱数据的过程实际为每个插值计算单位中最大棉纤维含量对应的各个波长点光强数据依次减去最小棉纤维含量对应各个波长点光强数据，再根据虚拟插值点个数进行等比例分配，分配完成后一一对应虚拟插值点。

在本实施例中，本专利采用的近红外光谱仪波长范围为1150～1445nm，分辨率为6nm，总计为50个波长点。假定棉纤维含量为C₁的样品光谱数据在50个波长点的光强值分别为M₁，M₂……M₅₀，棉纤维含量为C₂的样品光谱数据在50个波长点的光强值分别为N₁，N₂……N₅₀，可以计算出当波长为1150nm时，棉纤维含量为C₁与C₂光强差值为：

ΔK₁＝(N₁-M₁)/11

进一步可以计算出，当波长为1150nm时，虚拟插值点数值为C₁+ΔC的光强值为：

P₁＝M₁+ΔK₁

同理可以得出当波长为1150nm时，虚拟插值点数值为C₁+2ΔC的光强值为：

Q₁＝M₁+2ΔK₁

进一步可以得到，当波长为1156nm时，棉纤维含量为C₁与C₂光强差值为：

ΔK₂＝(N₂-M₂)/11

当波长为1156nm时，虚拟插值点数值为C₁+ΔC的光强值为：

P₂＝M₂+ΔK₂

同理可以得出当波长为1156nm时，虚拟插值点数值为C₁+2ΔC的光强值为：

Q₂＝M₂+2ΔK₂

从以上计算公式同理可计算出，虚拟插值点数值为C₁+ΔC的虚拟光谱数据在50个波长点的光强值P₁，P₂……P₅₀，同理也可得出，虚拟插值点数值为C₁+2ΔC的虚拟光谱数据Q₁，Q₂……Q₅₀。

步骤104中，结合虚拟插值点与虚拟光谱数据对光谱模型A进行重构，获得重构模型B。将虚拟光谱数据整合在原始光谱数据中，将虚拟插值点整合在原始棉纤维含量集合中，并使得光谱数据与棉纤维含量一一对应，然后使用偏最小二乘法算法对光谱模型A进行重新重构，得到重构模型B。

在本实施例中，将虚拟插值点与虚拟光谱数据与原始数据进行整合后，光谱数据库扩充到了100条，其中棉纤维含量C₁对应的光谱数据为M₁，M₂……M₅₀，棉纤维含量C₁+ΔC对应的光谱数据为P₁，P₂……P₅₀，棉纤维含量C₁+2ΔC对应的光谱数据为Q₁，Q₂……Q₅₀，将样品棉纤维含量与光谱数据一一对应后，采用偏最小二乘法算法对整体光谱数据库进行二次建模，得到重构模型B。

步骤105中，使用重构模型B对预测集样品进行预测，判断模型的预测效果。分别采用重构模型B对预测集10个纺织样品进行棉纤维含量预测，将预测值与预测集纺织样品的实际棉纤维含量进行差值运算，对比差值绝对值的大小，当预测集样品的预测参比值与实际参比值之间的相对误差是设定相对误差的两倍以上，则可以增加数倍的训练集样品数量，重复步骤101至步骤105；当预测集样品的预测参比值与实际参比值之间的相对误差是设定相对误差的一倍以上两倍以内，则可以增加小于一倍的训练集样品数量，重复步骤101至步骤105。

在本实施例中，设定预测集10个纺织样品棉纤维实际棉纤维含量为D₁，D₂……D₁₀，采用重构模型B对预测集10个纺织样品进行棉纤维含量预测，得到10组棉纤维含量分别为F₁，F₂……F₁₀，则重构模型B的预测相对误差为|F₁-D₁|，|F₂-D₂|……|F₁₀-D₁₀|，若预测集样品的预测棉纤维含量与实际棉纤维含量之间的相对误差均在1％至1.5％之间，且设定相对误差选取1.5％，由于没有超过设定相对误差，则可以直接测量含量未知样品的棉纤维含量。若设定相对误差选择1％，由于预测集样品的预测参比值与实际参比值之间的相对误差是设定相对误差的一倍以上两倍以内，则需要增加1-9件含量已知的纺织品光谱数据作为训练集重复步骤101至步骤105，直至所有预测集的预测棉纤维含量与实际棉纤维含量之间的相对误差都小于1％则可以进行测量含量未知的纺织品棉纤维含量。若设定相对误差选择0.5％，由于预测集样品的预测参比值与实际参比值之间的相对误差是设定相对误差的两倍以上，则需要增加10件以上含量已知的纺织品光谱数据作为训练集重复步骤101至步骤105，直至所有预测集的预测棉纤维含量与实际棉纤维含量之间的相对误差都小于1％则可以进行测量含量未知的纺织品棉纤维含量。

此外，采用原始模型A对预测集10个纺织样品进行棉纤维含量预测，得到10组棉纤维含量分别为E₁，E₂……E₁₀，对比重构模型B的预测相对误差|F₁-D₁|，|F₂-D₂|……|F₁₀-D₁₀|与原始模型A的预测相对误差|E₁-D₁|，|E₂-D₂|……|E₁₀-D₁₀|，重构模型B的预测相对误差均小于原始模型A的预测相对误差，进而判断重构模型B预测效果优于原始模型A。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于插值运算的光谱重构方法，其特征在于包括以下步骤：

步骤二：根据样品参比值进行插值运算，计算虚拟插值点；

步骤五：使用重构模型B对预测集进行预测，判断预测集样品的预测参比值与实际参比值之间的相对误差是否超过设定相对误差，没有超过设定相对误差则可以进行测量含量未知的样品，超过设定相对误差则增加训练集样品数量，重复步骤一至步骤五。

2.如权利要求1所述的一种基于插值运算的光谱重构方法，其特征在于：步骤一中所述参比值选取样品的棉纤维含量，所述训练集的样品数量为两个以上，所述训练集样品数量大于或等于预测集样品数量。

3.如权利要求1所述的一种基于插值运算的光谱重构方法，其特征在于：步骤二中所述样品参比值从小到大依次排列，在相邻两个样品参比值之间插入一个以上虚拟插值点，且所述虚拟插值点平均分布于相邻两个样品参比值之间，根据相邻两个样品参比值及虚拟插值点个数计算出各虚拟插值点数值。

4.如权利要求1所述的一种基于插值运算的光谱重构方法，其特征在于：步骤三中所述样品光谱数据由各个波长点的光强数据构成，计算虚拟光谱数据的过程为每个插值计算单位中最大参比值对应的各个波长点光强数据依次减去最小参比值对应各个波长点光强数据，再根据虚拟插值点个数进行等比例分配，分配完成后一一对应虚拟插值点，从而得到各虚拟插值点的虚拟光谱数据。

5.如权利要求1所述的一种基于插值运算的光谱重构方法，其特征在于：步骤四中将所述虚拟光谱数据整合在原始光谱数据中，将所述虚拟插值点整合在原始参比值集合中，并使得光谱数据与参比值一一对应，然后使用偏最小二乘法法对光谱模型A进行重新重构，得到重构模型B。

6.如权利要求1所述的一种基于插值运算的光谱重构方法，其特征在于：步骤五中当预测集样品的预测参比值与实际参比值之间的相对误差是设定相对误差的两倍以上，则可以增加数倍的训练集样品数量，重复步骤一至步骤五；当预测集样品的预测参比值与实际参比值之间的相对误差是设定相对误差的一倍以上两倍以内，则可以增加小于一倍的训练集样品数量，重复步骤一至步骤五。