CN113988166A

CN113988166A - 基于光谱相似度和化学指标差异度的样本筛选及建模方法

Info

Publication number: CN113988166A
Application number: CN202111233133.XA
Authority: CN
Inventors: 毕一鸣; 郝贤伟; 田雨农; 廖付; 钟永健; 张赵鹏; 葛川; 吴灵通; 王筑临; 王辉; 郑宏斌; 李海峰; 夏骏; 童神; 刘建国; 李石头; 郭蒙浩; 吴继忠
Original assignee: China Tobacco Zhejiang Industrial Co Ltd
Current assignee: China Tobacco Zhejiang Industrial Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-01-28

Abstract

本发明公开了一种基于光谱相似度和化学指标差异度的样本筛选及建模方法，通过考察样本集中的最相似样本对及化学指标差异度之间的关系。通过衡量样本相似程度，得出在高相似度下的两样本，其化学值应有的差异范围。随着相似度值的降低，最大化学指标差异度升高，具有这样趋势的样本才是有效样本，无论采用何种建模方式均能够很好地建立光谱与化学指标之间的关系。若这种趋势无法体现，则说明该批数据缺乏光谱关于化学指标之间的区分度，因此无法成功建模。因此，该方法有助于使用者及时排除建模方法不当、建模样本较少等因素，较为明确地给出该批数据是否可以建模，从而节省必要的人力物力，对建模及数据分析水平较低的使用者尤为适合。

Description

基于光谱相似度和化学指标差异度的样本筛选及建模方法

技术领域

本发明属于化学计量学领域，具体涉及一种基于光谱相似度和化学指标差异度的样本筛选及建模方法。

背景技术

在化学计量学领域，通常使用光谱分析技术，包括近红外光谱、中红外光谱、紫外可见光谱、拉曼光谱等，对待测物感兴趣物质的含量进行建模。一般而言，记待测物光谱为X，分析化学方法测得待测物感兴趣物质的含量为Y，通过偏最小二乘(Partial LeastSquares,PLS)等算法建立光谱与物质含量间的关联，得到预测模型。对未知含量的同类待测物，通过测量其光谱，通过预测模型即可得出该样本感兴趣物质的含量。

如现有专利文献CN110085286A公开了一种用于卷烟配方维护的片烟化学宜用性评价方法，包括步骤：采集片烟样品，对所述片烟样品的化学指标进行检测；确定现用片烟化学指标的置信区间；建立片烟化学宜用性函数模型；确定欲替换的片烟样品的化学指标的宜用性得分；确定所述化学指标的权重；确定所述欲替换的片烟样品的化学宜用性评价值，根据所述欲替换的片烟样品的化学宜用性评价值确定其选用及调配顺序。该方法记载的片烟化学宜用性函数模型的维护仍然需要补充一定数量的新样本，还可能同时剔除同等数量时间最久的建模样本，对模型进行更新，检测效率低。

由于这类化学计量评估方法通过建模和预测达到原分析方法的效果，属于一种二次方法或间接方法。一直以来，对于某项物质是否可以通过该方式进行建模和预测，需积累一定数量的样本，包括光谱和相对应的分析化学方法检测值，使用PLS等方法尝试建立模型。若建模效果较好，例如建模误差符合预期，则使用独立样本进行验证。若模型仍能通过若干独立样本的验证，则表明该预测模型达到实用标准。若建模效果较差，例如建模误差远超预期，则表明该模型建模不成功。但无法确定失败原因。即，无法确定建模不成功的原因来自于建模样本数量不足、建模方法使用错误及该指标无法使用选定的二次测量方法(例如光谱法)进行建模。

由于仅采集一次待测物光谱X就可对多种指标分别进行建模，因此使用者往往在实现主要的化学成分建模后，例如饲料中的蛋白质和水分、烟草中的烟碱和糖等，希望能继续扩充指标范围，实现部分较低浓度或者检测精度较低的物质的建模。对于类似的尝试，目前尚无任何方法对实验数据及拟建立的模型进行预估，即，明确获得该批数据是否能成功建模的结论。

发明内容

鉴于上述，本发明的目的是提供了一种基于光谱相似度和化学指标差异度的样本筛选及建模方法，通过综合考虑样本的基于光谱相似度和化学指标差异度，来筛选样本以获得有效样本，利用有效样本建模提升模型的预测精度。

为实现上述发明目的，本发明提供以下技术方案：

第一方面，实施例提供了一种基于光谱相似度和化学指标差异度的样本筛选方法，包括以下步骤：

获取多个样本，采集每个样本的光谱，分析每个样本的化学指标；

对样本的光谱进行预处理后，计算每两个样本之间的光谱相似度，计算每两个样本之间的化学指标差异值；

从所有样本中随机提取任意两个样本组成1个样本对，组成样本对集，每个样本对以光谱相似度和化学指标差值进行表征；

将样本对集合中的样本对按照光谱相似度进行排序后，按照设定不同等级，从样本对集合中提取相似度最大的不同等级样本对组成样本对组，并计算每个样本对组中最大化学指标差异值和最小相似度值；

对所有样本对组中最大化学指标差异值归一化处理后，依据归一化的最大化学指标差异值和最小相似度值的相关散点图选择两个关键最大化学指标差异值作为两个筛选指标；

当两个筛选指标满足筛选条件时，则认为这批样本作为有效样本。

其中，所述光谱包括近红外光谱、中红外光谱、紫外可见光谱、太赫兹谱。对样本的光谱的预处理包括于一阶导数处理，二阶导数处理、平滑、去基线、标准正态变换、多元散射校正中的一种或多种的任意顺序的组合。

在一个实施例中，采用皮尔逊相关系数与欧式距离计算两个样本之间的光谱相似度。

在一个实施例中，设定的等级采用百分制，百分数值为1-100之间的具有固定间隔的自然数，固定间隔取值为1,2,4,5,10,15,20,25，固定间隔优选为1,2,4。进一步地，固定间隔优选为1，则百分数值取值为1-100之间的所有自然数。当百分数值为1时，即设定的等级为1％，也就是从样本对集合中提取相似度最大的1％的样本对组成样本对组。

优选地，所述对所有样本对组中最大化学指标差异值归一化处理，包括：

依据每个样本对组中最大化学指标差异值和最小相似度值形成相关散点图，在相关散点图的最小相似度值大且最大化学指标差异值小的区域，筛选分散程度高的分界散点对应的最大化学指标差异值作为归一化的基准数据，计算所有样本对组中最大化学指标差异值与基准数据的比值作为归一化处理结果。

优选地，当设定的等级采用百分制，百分数值为1-100之间的所有自然数时，以百分数值为10-20的等级(也就是等级10-20％)对应的样本对组对应的最大化学指标差异值作为归一化的基准数据。进一步优选地，以10％等级对应的样本对组对应的最大化学指标差异值作为归一化的基准数据。

在一个实施例中，所述依据归一化的最大化学指标差异值和最小相似度值的相关散点图选择两个关键最大化学指标差异值作为两个筛选指标，包括：

依据归一化的最大化学指标差异值和最小相似度值形成相关散点图中，在相关散点图的最小相似度值小且最大化学指标差异值大的区域，筛选分散程度高的分界散点对应的最大化学指标差异值作为第二筛选指标；在相关散点图中，筛选分散集中区域的中心散点对应的最大化学指标差异值作为第一筛选指标，以此得到两个筛选指标。

优选地，当设定的等级采用百分制，百分数值为1-100之间的所有自然数时，以百分数值为80～90的等级对应的样本对组对应的最大化学指标差异值作为第二筛选指标，以百分数值为50的等级对应的样本对组对应的最大化学指标差异值作为第一筛选指标。进一步优选地，分别以等级90％和等级50％对应的本对组对应的最大化学指标差异值作为第二等级指标和第一筛选指标。

在一个实施例中，所述两个筛选指标满足筛选条件时，则认为这批样本作为有效样本，包括：

设定筛选指标的独立阈值和相关阈值，当两个筛选指标分别大于各自的独立阈值，且两个筛选指标的比值大于相关阈值时，则认为这批样本为有效样本，能够用于建模。

优选地，第一筛选指标的独立阈值为1.1-1.8，第二筛选指标的独立阈值为1.4-2.6，相关阈值为1.1-1.5。优选地，当设定的等级采用百分制，百分数值为1-100之间的所有自然数时，以百分数值为80～90的等级对应的样本对组对应的最大化学指标差异值作为第二筛选指标，以百分数值为50的等级对应的样本对组对应的最大化学指标差异值作为第一筛选指标时，第一筛选指标的独立阈值为1.1-1.3，第二筛选指标的独立阈值为1.4-1.6，相关阈值为1.15-1.35。进一步优选地，第一筛选指标的独立阈值为1.2，第二筛选指标的独立阈值为1.5，相关阈值为1.25。

实施例提供的基于光谱相似度和化学指标差异度的样本筛选方法，通过考察样本集中的最相似样本对及化学指标差异度之间的关系。通过衡量样本相似程度，得出在高相似度下的两样本，其化学值应有的差异范围。随着相似度值的降低，最大化学指标差异度升高，具有这样趋势的样本才是有效样本，无论采用何种建模方式均能够很好地建立光谱与化学指标之间的关系。若这种趋势无法体现，则说明该批数据缺乏光谱关于化学指标之间的区分度，因此无法成功建模。因此，该方法有助于使用者及时排除建模方法不当、建模样本较少等因素，较为明确地给出该批数据是否可以建模，从而节省必要的人力物力，对建模及数据分析水平较低的使用者尤为适合。

第二方面，实施例还提供了一种基于光谱相似度和化学指标差异度的建模方法，包括以下步骤：

利用上述基于光谱相似度和化学指标差异度的样本筛选方法筛选获得有效数据；

利用有效数据建立光谱与化学指标之间的预测模型，该预测模型用于基于输入的光谱预测化学指标。

实施例提供的基于光谱相似度和化学指标差异度的建模方法，由于筛选了有效数据，利用有效数据建立的预测模型更具有鲁棒性，能够依据光谱实现对化学指标的精确预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的总糖数据两样本间的光谱相似度与化学值的相对差异值；

图2是实施例提供的对图1中数据进行归一化处理得到的结果图；

图3是实施例提供的在获得有效数据的基础上，使用偏最小二乘法对训练数据四项指标进行建模的效果图；

图4是实施例提供的淀粉数据两样本间的光谱相似度值与化学值相对差异值；

图5是实施例提供的对图2中数据进行归一化处理得到的结果图；

图6是实施例提供的对使用偏最小二乘法对淀粉指标进行建模的效果图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

实施例1

以近红外光谱预测烟草中的成分为例。选取某企业烤烟样本180个。取样后将样本按照烟草行业标准《YC/T 31-1996烟草及烟草制品试样的制备和水分测定烘箱法》制备成粉末样本(将烟叶置于烘箱中，40℃下干燥4h，用旋风磨(FOSS)磨碎过40目筛)，密封平衡1d后进行近红外光谱测量。同时利用分析化学方法测得烤烟样本的总糖、烟碱、还原糖含量，作为不同的化学指标的化学值。

然后对获得的近红外光谱进行一阶导数及分段变换处理后，计算所有烤烟样本中每两个烤烟样本之间的相似度。实施例中，采用皮尔逊相关系数与与欧式距离来计算相似度，具体过程为：相似度s＝-log₁₀((1-p)*d)。其中，p为皮尔逊相关系数，p＝corr(x1,x2)，x1 x2分别代表预处理后的目标光谱与比较光谱。d为欧氏距离，d＝sum(abs(x1-x2))。

同时，还针对糖、烟碱、还原糖三项化学指标中的每一类化学指标，分别计算两个烤烟样本关于每类化学指标的化学值的相对差异值(也就是化学指标差异度)，然后，说所有两个样本组成的样本对构建样本对集，将两样本间的相似度与化学值的相对差异值进行匹配，即针对由两个样本组成的样本对用光谱相似度和化学值的相对差异值进行表征，形成如图1所示的二维显示图，图1中，横坐标显示的是样本间的光谱相似度，纵坐标显示的是样本间的化学值的相对差异值。

接下来，将样本对集合中的样本对按照光谱相似度进行由高到低排序序后，分别选取中相似度最大的前1％，2％，…，100％样本对形成100个样本对组，针对每和样本对组计算最大化学值的相对差值c_max和最小光谱相似度s_min，记Q＝[c_max1 c_max2…c_max100]，实施例中，选择10％对应的样本对组的最大化学值的相对差值c_max10为归一化基础，利用该归一化基础，归一化结果Q1＝Q/c_max10；该归一化结果与对应的最小光谱相似度，形成的相关散点图如图2中所示，图2中共100个点，分别代表取样为前1％，2％，…，100％时样本的s_min及c_max。分析图2，分别选择选择90％和50％对应的归一化的最大化学值的相对差异Q1(90)和Q1(50)作为第一筛选指标P1和第二筛选指标P2。由图2中可以看出，在可以数据建模的情况下，随着样本间相似度的降低，样本所对应的化学值间的差异增大。即样本集中，最小相似度值与最大化学值差异间具有明显的负相关关系，这是数据集可以建模的标志。

表1为实施例1中数据的各项指标计算值

指标	Q(10)	Q(50)	Q(90)	p1	p2
						总糖	0.18	0.30	0.44	1.68	2.49
烟碱	0.29	0.49	0.74	1.68	2.51
						还原糖	0.22	0.29	0.39	1.31	1.77

为了数值化，实施例中，设定第一筛选指标的独立阈值为1.2，第二筛选指标的独立阈值为1.5，第二筛选指标与第一筛选指标的相关阈值为1.25。依据两个独立阈值和一个相关阈值对上述每个化学指标的筛选指标进行判断，发现两个筛选指标P1和P2均大于各自的独立阈值，且P2与P1的比值大于相关指标，因此上述关于每个指标的化学值和光谱均为有效数据，可以用于建模，表2为实施例1数据中使用PLS进行建模的建模效果

表2

指标	PLS潜变量数	RMSEC	RMSECV
				总糖	19	0.01	0.02
烟碱	20	0.02	0.03
				还原糖	16	0.02	0.03

可以看出，经过PLS建模，化学值的预测结果和真实值非常相近。

实施例2

针对某批数据的淀粉检测由于检测人员缺乏训练、标样配制错误等原因，使得给出的淀粉化学检测值不正确。通过本方法证实这一问题。

实施例2采用与实施例1相同的方法，在检测得到淀粉的化学值和红外光谱后，对红外光谱图进行一阶导数及分段变换处理后，计算两样本之间的光谱相似度和化学值的相对差异，然后匹配形成样本对，组成样本对集合，呈现到如3所示的二维显示图中。

同样将样本对集合中的样本对按照光谱相似度进行由高到低排序序后，分别选取中相似度最大的前1％，2％，…，100％样本对形成100个样本对组，针对每和样本对组计算最大化学值的相对差值c_max和最小光谱相似度s_min，得到Q＝[c_max1 c_max2…c_max100]，实施例中，选择10％对应的样本对组的最大化学值的相对差值c_max10为归一化基础，利用该归一化基础，归一化结果Q1＝Q/c_max10；该归一化结果与对应的最小光谱相似度，形成的相关散点图如图4中所示。从图5可以看出，Q1曲线没有呈现出良好的斜率为负的线性关系，计算得p1＝Q1(50)＝0.973，p2＝Q1(90)＝0.986,p2/p1＝1.01，三个指标均未达到成功建模的标准。

采用偏最小二乘方法对该数据进行建模，建模结果为：潜变量数：1,RMSEC＝0.16,RMSECV＝0.17，建模效果见图5。可以看出，该批数据使用PLS方法建模不成功，与本方法结果吻合。

因此，本发明提供的方法对数据能否建模提供了新的视角，对于微量化学指标，人工感官评价指标能否通过光谱等数据进行建模等提供了有力工具。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于光谱相似度和化学指标差异度的样本筛选方法，包括以下步骤：

2.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法，其特征在于，所述光谱包括近红外光谱、中红外光谱、紫外可见光谱、太赫兹谱；

对样本的光谱的预处理包括于一阶导数处理，二阶导数处理、平滑、去基线、标准正态变换、多元散射校正中的一种或多种的任意顺序的组合。

3.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法，其特征在于，采用皮尔逊相关系数与欧式距离计算两个样本之间的光谱相似度。

4.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法，其特征在于，设定的等级采用百分制，百分数值为1-100之间的具有固定间隔的自然数，固定间隔取值为1,2,4,5,10,15,20,25，固定间隔优选为1,2,4。

5.根据权利要求1或4所述的基于光谱相似度和化学指标差异度的样本筛选方法，其特征在于，所述对所有样本对组中最大化学指标差异值归一化处理，包括：

6.根据权利要求5所述的基于光谱相似度和化学指标差异度的样本筛选方法，其特征在于，当设定的等级采用百分制，百分数值为1-100之间的所有自然数时，以百分数值为10-20的等级对应的样本对组对应的最大化学指标差异值作为归一化的基准数据。

7.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法，其特征在于，所述依据归一化的最大化学指标差异值和最小相似度值的相关散点图选择两个关键最大化学指标差异值作为两个筛选指标，包括：

依据归一化的最大化学指标差异值和最小相似度值形成相关散点图中，在相关散点图的最小相似度值小且最大化学指标差异值大的区域，筛选分散程度高的分界散点对应的最大化学指标差异值作为第二筛选指标；在相关散点图中，筛选分散集中区域的中心散点对应的最大化学指标差异值作为第一筛选指标，以此得到两个筛选指标；

优选地，当设定的等级采用百分制，百分数值为1-100之间的所有自然数时，以百分数值为80～90的等级对应的样本对组对应的最大化学指标差异值作为第二筛选指标，以百分数值为50的等级对应的样本对组对应的最大化学指标差异值作为第一筛选指标。

8.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法，其特征在于，所述两个筛选指标满足筛选条件时，则认为这批样本作为有效样本，包括：

9.根据权利要求8所述的基于光谱相似度和化学指标差异度的样本筛选方法，其特征在于，第一筛选指标的独立阈值为1.1-1.8，第二筛选指标的独立阈值为1.4-2.6，相关阈值为1.1-1.5；

优选地，当设定的等级采用百分制，百分数值为1-100之间的所有自然数时，以百分数值为80～90的等级对应的样本对组对应的最大化学指标差异值作为第二筛选指标，以百分数值为50的等级对应的样本对组对应的最大化学指标差异值作为第一筛选指标时，第一筛选指标的独立阈值为1.1-1.3，第二筛选指标的独立阈值为1.4-1.6，相关阈值为1.15-1.35。

10.一种基于光谱相似度和化学指标差异度的建模方法，包括以下步骤：

利用权利要求1-9任一项所述的基于光谱相似度和化学指标差异度的样本筛选方法筛选获得有效数据；