CN113988166A - 基于光谱相似度和化学指标差异度的样本筛选及建模方法 - Google Patents
基于光谱相似度和化学指标差异度的样本筛选及建模方法 Download PDFInfo
- Publication number
- CN113988166A CN113988166A CN202111233133.XA CN202111233133A CN113988166A CN 113988166 A CN113988166 A CN 113988166A CN 202111233133 A CN202111233133 A CN 202111233133A CN 113988166 A CN113988166 A CN 113988166A
- Authority
- CN
- China
- Prior art keywords
- screening
- chemical index
- index difference
- samples
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000126 substance Substances 0.000 title claims abstract description 126
- 238000012216 screening Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000001228 spectrum Methods 0.000 title claims abstract description 41
- 230000003595 spectral effect Effects 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 claims description 15
- 238000002329 infrared spectrum Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 239000006185 dispersion Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 2
- 238000009499 grossing Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000002371 ultraviolet--visible spectrum Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 239000000463 material Substances 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 abstract description 2
- 241000208125 Nicotiana Species 0.000 description 20
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 20
- 230000000694 effects Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- SNICXCGAKADSCV-JTQLQIEISA-N (-)-Nicotine Chemical compound CN1CCC[C@H]1C1=CC=CN=C1 SNICXCGAKADSCV-JTQLQIEISA-N 0.000 description 5
- 229920002472 Starch Polymers 0.000 description 5
- 229960002715 nicotine Drugs 0.000 description 5
- SNICXCGAKADSCV-UHFFFAOYSA-N nicotine Natural products CN1CCCC1C1=CC=CN=C1 SNICXCGAKADSCV-UHFFFAOYSA-N 0.000 description 5
- 235000019698 starch Nutrition 0.000 description 5
- 239000008107 starch Substances 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 3
- 238000004497 NIR spectroscopy Methods 0.000 description 2
- 238000001311 chemical methods and process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000001069 Raman spectroscopy Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000004476 mid-IR spectroscopy Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 235000019505 tobacco product Nutrition 0.000 description 1
- 238000000870 ultraviolet spectroscopy Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/3581—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using far infrared light; using Terahertz radiation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Toxicology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种基于光谱相似度和化学指标差异度的样本筛选及建模方法,通过考察样本集中的最相似样本对及化学指标差异度之间的关系。通过衡量样本相似程度,得出在高相似度下的两样本,其化学值应有的差异范围。随着相似度值的降低,最大化学指标差异度升高,具有这样趋势的样本才是有效样本,无论采用何种建模方式均能够很好地建立光谱与化学指标之间的关系。若这种趋势无法体现,则说明该批数据缺乏光谱关于化学指标之间的区分度,因此无法成功建模。因此,该方法有助于使用者及时排除建模方法不当、建模样本较少等因素,较为明确地给出该批数据是否可以建模,从而节省必要的人力物力,对建模及数据分析水平较低的使用者尤为适合。
Description
技术领域
本发明属于化学计量学领域,具体涉及一种基于光谱相似度和化学指标差异度的样本筛选及建模方法。
背景技术
在化学计量学领域,通常使用光谱分析技术,包括近红外光谱、中红外光谱、紫外可见光谱、拉曼光谱等,对待测物感兴趣物质的含量进行建模。一般而言,记待测物光谱为X,分析化学方法测得待测物感兴趣物质的含量为Y,通过偏最小二乘(Partial LeastSquares,PLS)等算法建立光谱与物质含量间的关联,得到预测模型。对未知含量的同类待测物,通过测量其光谱,通过预测模型即可得出该样本感兴趣物质的含量。
如现有专利文献CN110085286A公开了一种用于卷烟配方维护的片烟化学宜用性评价方法,包括步骤:采集片烟样品,对所述片烟样品的化学指标进行检测;确定现用片烟化学指标的置信区间;建立片烟化学宜用性函数模型;确定欲替换的片烟样品的化学指标的宜用性得分;确定所述化学指标的权重;确定所述欲替换的片烟样品的化学宜用性评价值,根据所述欲替换的片烟样品的化学宜用性评价值确定其选用及调配顺序。该方法记载的片烟化学宜用性函数模型的维护仍然需要补充一定数量的新样本,还可能同时剔除同等数量时间最久的建模样本,对模型进行更新,检测效率低。
由于这类化学计量评估方法通过建模和预测达到原分析方法的效果,属于一种二次方法或间接方法。一直以来,对于某项物质是否可以通过该方式进行建模和预测,需积累一定数量的样本,包括光谱和相对应的分析化学方法检测值,使用PLS等方法尝试建立模型。若建模效果较好,例如建模误差符合预期,则使用独立样本进行验证。若模型仍能通过若干独立样本的验证,则表明该预测模型达到实用标准。若建模效果较差,例如建模误差远超预期,则表明该模型建模不成功。但无法确定失败原因。即,无法确定建模不成功的原因来自于建模样本数量不足、建模方法使用错误及该指标无法使用选定的二次测量方法(例如光谱法)进行建模。
由于仅采集一次待测物光谱X就可对多种指标分别进行建模,因此使用者往往在实现主要的化学成分建模后,例如饲料中的蛋白质和水分、烟草中的烟碱和糖等,希望能继续扩充指标范围,实现部分较低浓度或者检测精度较低的物质的建模。对于类似的尝试,目前尚无任何方法对实验数据及拟建立的模型进行预估,即,明确获得该批数据是否能成功建模的结论。
发明内容
鉴于上述,本发明的目的是提供了一种基于光谱相似度和化学指标差异度的样本筛选及建模方法,通过综合考虑样本的基于光谱相似度和化学指标差异度,来筛选样本以获得有效样本,利用有效样本建模提升模型的预测精度。
为实现上述发明目的,本发明提供以下技术方案:
第一方面,实施例提供了一种基于光谱相似度和化学指标差异度的样本筛选方法,包括以下步骤:
获取多个样本,采集每个样本的光谱,分析每个样本的化学指标;
对样本的光谱进行预处理后,计算每两个样本之间的光谱相似度,计算每两个样本之间的化学指标差异值;
从所有样本中随机提取任意两个样本组成1个样本对,组成样本对集,每个样本对以光谱相似度和化学指标差值进行表征;
将样本对集合中的样本对按照光谱相似度进行排序后,按照设定不同等级,从样本对集合中提取相似度最大的不同等级样本对组成样本对组,并计算每个样本对组中最大化学指标差异值和最小相似度值;
对所有样本对组中最大化学指标差异值归一化处理后,依据归一化的最大化学指标差异值和最小相似度值的相关散点图选择两个关键最大化学指标差异值作为两个筛选指标;
当两个筛选指标满足筛选条件时,则认为这批样本作为有效样本。
其中,所述光谱包括近红外光谱、中红外光谱、紫外可见光谱、太赫兹谱。对样本的光谱的预处理包括于一阶导数处理,二阶导数处理、平滑、去基线、标准正态变换、多元散射校正中的一种或多种的任意顺序的组合。
在一个实施例中,采用皮尔逊相关系数与欧式距离计算两个样本之间的光谱相似度。
在一个实施例中,设定的等级采用百分制,百分数值为1-100之间的具有固定间隔的自然数,固定间隔取值为1,2,4,5,10,15,20,25,固定间隔优选为1,2,4。进一步地,固定间隔优选为1,则百分数值取值为1-100之间的所有自然数。当百分数值为1时,即设定的等级为1%,也就是从样本对集合中提取相似度最大的1%的样本对组成样本对组。
优选地,所述对所有样本对组中最大化学指标差异值归一化处理,包括:
依据每个样本对组中最大化学指标差异值和最小相似度值形成相关散点图,在相关散点图的最小相似度值大且最大化学指标差异值小的区域,筛选分散程度高的分界散点对应的最大化学指标差异值作为归一化的基准数据,计算所有样本对组中最大化学指标差异值与基准数据的比值作为归一化处理结果。
优选地,当设定的等级采用百分制,百分数值为1-100之间的所有自然数时,以百分数值为10-20的等级(也就是等级10-20%)对应的样本对组对应的最大化学指标差异值作为归一化的基准数据。进一步优选地,以10%等级对应的样本对组对应的最大化学指标差异值作为归一化的基准数据。
在一个实施例中,所述依据归一化的最大化学指标差异值和最小相似度值的相关散点图选择两个关键最大化学指标差异值作为两个筛选指标,包括:
依据归一化的最大化学指标差异值和最小相似度值形成相关散点图中,在相关散点图的最小相似度值小且最大化学指标差异值大的区域,筛选分散程度高的分界散点对应的最大化学指标差异值作为第二筛选指标;在相关散点图中,筛选分散集中区域的中心散点对应的最大化学指标差异值作为第一筛选指标,以此得到两个筛选指标。
优选地,当设定的等级采用百分制,百分数值为1-100之间的所有自然数时,以百分数值为80~90的等级对应的样本对组对应的最大化学指标差异值作为第二筛选指标,以百分数值为50的等级对应的样本对组对应的最大化学指标差异值作为第一筛选指标。进一步优选地,分别以等级90%和等级50%对应的本对组对应的最大化学指标差异值作为第二等级指标和第一筛选指标。
在一个实施例中,所述两个筛选指标满足筛选条件时,则认为这批样本作为有效样本,包括:
设定筛选指标的独立阈值和相关阈值,当两个筛选指标分别大于各自的独立阈值,且两个筛选指标的比值大于相关阈值时,则认为这批样本为有效样本,能够用于建模。
优选地,第一筛选指标的独立阈值为1.1-1.8,第二筛选指标的独立阈值为1.4-2.6,相关阈值为1.1-1.5。优选地,当设定的等级采用百分制,百分数值为1-100之间的所有自然数时,以百分数值为80~90的等级对应的样本对组对应的最大化学指标差异值作为第二筛选指标,以百分数值为50的等级对应的样本对组对应的最大化学指标差异值作为第一筛选指标时,第一筛选指标的独立阈值为1.1-1.3,第二筛选指标的独立阈值为1.4-1.6,相关阈值为1.15-1.35。进一步优选地,第一筛选指标的独立阈值为1.2,第二筛选指标的独立阈值为1.5,相关阈值为1.25。
实施例提供的基于光谱相似度和化学指标差异度的样本筛选方法,通过考察样本集中的最相似样本对及化学指标差异度之间的关系。通过衡量样本相似程度,得出在高相似度下的两样本,其化学值应有的差异范围。随着相似度值的降低,最大化学指标差异度升高,具有这样趋势的样本才是有效样本,无论采用何种建模方式均能够很好地建立光谱与化学指标之间的关系。若这种趋势无法体现,则说明该批数据缺乏光谱关于化学指标之间的区分度,因此无法成功建模。因此,该方法有助于使用者及时排除建模方法不当、建模样本较少等因素,较为明确地给出该批数据是否可以建模,从而节省必要的人力物力,对建模及数据分析水平较低的使用者尤为适合。
第二方面,实施例还提供了一种基于光谱相似度和化学指标差异度的建模方法,包括以下步骤:
利用上述基于光谱相似度和化学指标差异度的样本筛选方法筛选获得有效数据;
利用有效数据建立光谱与化学指标之间的预测模型,该预测模型用于基于输入的光谱预测化学指标。
实施例提供的基于光谱相似度和化学指标差异度的建模方法,由于筛选了有效数据,利用有效数据建立的预测模型更具有鲁棒性,能够依据光谱实现对化学指标的精确预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的总糖数据两样本间的光谱相似度与化学值的相对差异值;
图2是实施例提供的对图1中数据进行归一化处理得到的结果图;
图3是实施例提供的在获得有效数据的基础上,使用偏最小二乘法对训练数据四项指标进行建模的效果图;
图4是实施例提供的淀粉数据两样本间的光谱相似度值与化学值相对差异值;
图5是实施例提供的对图2中数据进行归一化处理得到的结果图;
图6是实施例提供的对使用偏最小二乘法对淀粉指标进行建模的效果图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
实施例1
以近红外光谱预测烟草中的成分为例。选取某企业烤烟样本180个。取样后将样本按照烟草行业标准《YC/T 31-1996烟草及烟草制品试样的制备和水分测定烘箱法》制备成粉末样本(将烟叶置于烘箱中,40℃下干燥4h,用旋风磨(FOSS)磨碎过40目筛),密封平衡1d后进行近红外光谱测量。同时利用分析化学方法测得烤烟样本的总糖、烟碱、还原糖含量,作为不同的化学指标的化学值。
然后对获得的近红外光谱进行一阶导数及分段变换处理后,计算所有烤烟样本中每两个烤烟样本之间的相似度。实施例中,采用皮尔逊相关系数与与欧式距离来计算相似度,具体过程为:相似度s=-log10((1-p)*d)。其中,p为皮尔逊相关系数,p=corr(x1,x2),x1 x2分别代表预处理后的目标光谱与比较光谱。d为欧氏距离,d=sum(abs(x1-x2))。
同时,还针对糖、烟碱、还原糖三项化学指标中的每一类化学指标,分别计算两个烤烟样本关于每类化学指标的化学值的相对差异值(也就是化学指标差异度),然后,说所有两个样本组成的样本对构建样本对集,将两样本间的相似度与化学值的相对差异值进行匹配,即针对由两个样本组成的样本对用光谱相似度和化学值的相对差异值进行表征,形成如图1所示的二维显示图,图1中,横坐标显示的是样本间的光谱相似度,纵坐标显示的是样本间的化学值的相对差异值。
接下来,将样本对集合中的样本对按照光谱相似度进行由高到低排序序后,分别选取中相似度最大的前1%,2%,…,100%样本对形成100个样本对组,针对每和样本对组计算最大化学值的相对差值cmax和最小光谱相似度smin,记Q=[cmax1 cmax2…cmax100],实施例中,选择10%对应的样本对组的最大化学值的相对差值cmax10为归一化基础,利用该归一化基础,归一化结果Q1=Q/cmax10;该归一化结果与对应的最小光谱相似度,形成的相关散点图如图2中所示,图2中共100个点,分别代表取样为前1%,2%,…,100%时样本的smin及cmax。分析图2,分别选择选择90%和50%对应的归一化的最大化学值的相对差异Q1(90)和Q1(50)作为第一筛选指标P1和第二筛选指标P2。由图2中可以看出,在可以数据建模的情况下,随着样本间相似度的降低,样本所对应的化学值间的差异增大。即样本集中,最小相似度值与最大化学值差异间具有明显的负相关关系,这是数据集可以建模的标志。
表1为实施例1中数据的各项指标计算值
指标 | Q(10) | Q(50) | Q(90) | p1 | p2 |
总糖 | 0.18 | 0.30 | 0.44 | 1.68 | 2.49 |
烟碱 | 0.29 | 0.49 | 0.74 | 1.68 | 2.51 |
还原糖 | 0.22 | 0.29 | 0.39 | 1.31 | 1.77 |
为了数值化,实施例中,设定第一筛选指标的独立阈值为1.2,第二筛选指标的独立阈值为1.5,第二筛选指标与第一筛选指标的相关阈值为1.25。依据两个独立阈值和一个相关阈值对上述每个化学指标的筛选指标进行判断,发现两个筛选指标P1和P2均大于各自的独立阈值,且P2与P1的比值大于相关指标,因此上述关于每个指标的化学值和光谱均为有效数据,可以用于建模,表2为实施例1数据中使用PLS进行建模的建模效果
表2
指标 | PLS潜变量数 | RMSEC | RMSECV |
总糖 | 19 | 0.01 | 0.02 |
烟碱 | 20 | 0.02 | 0.03 |
还原糖 | 16 | 0.02 | 0.03 |
可以看出,经过PLS建模,化学值的预测结果和真实值非常相近。
实施例2
针对某批数据的淀粉检测由于检测人员缺乏训练、标样配制错误等原因,使得给出的淀粉化学检测值不正确。通过本方法证实这一问题。
实施例2采用与实施例1相同的方法,在检测得到淀粉的化学值和红外光谱后,对红外光谱图进行一阶导数及分段变换处理后,计算两样本之间的光谱相似度和化学值的相对差异,然后匹配形成样本对,组成样本对集合,呈现到如3所示的二维显示图中。
同样将样本对集合中的样本对按照光谱相似度进行由高到低排序序后,分别选取中相似度最大的前1%,2%,…,100%样本对形成100个样本对组,针对每和样本对组计算最大化学值的相对差值cmax和最小光谱相似度smin,得到Q=[cmax1 cmax2…cmax100],实施例中,选择10%对应的样本对组的最大化学值的相对差值cmax10为归一化基础,利用该归一化基础,归一化结果Q1=Q/cmax10;该归一化结果与对应的最小光谱相似度,形成的相关散点图如图4中所示。从图5可以看出,Q1曲线没有呈现出良好的斜率为负的线性关系,计算得p1=Q1(50)=0.973,p2=Q1(90)=0.986,p2/p1=1.01,三个指标均未达到成功建模的标准。
采用偏最小二乘方法对该数据进行建模,建模结果为:潜变量数:1,RMSEC=0.16,RMSECV=0.17,建模效果见图5。可以看出,该批数据使用PLS方法建模不成功,与本方法结果吻合。
因此,本发明提供的方法对数据能否建模提供了新的视角,对于微量化学指标,人工感官评价指标能否通过光谱等数据进行建模等提供了有力工具。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于光谱相似度和化学指标差异度的样本筛选方法,包括以下步骤:
获取多个样本,采集每个样本的光谱,分析每个样本的化学指标;
对样本的光谱进行预处理后,计算每两个样本之间的光谱相似度,计算每两个样本之间的化学指标差异值;
从所有样本中随机提取任意两个样本组成1个样本对,组成样本对集,每个样本对以光谱相似度和化学指标差值进行表征;
将样本对集合中的样本对按照光谱相似度进行排序后,按照设定不同等级,从样本对集合中提取相似度最大的不同等级样本对组成样本对组,并计算每个样本对组中最大化学指标差异值和最小相似度值;
对所有样本对组中最大化学指标差异值归一化处理后,依据归一化的最大化学指标差异值和最小相似度值的相关散点图选择两个关键最大化学指标差异值作为两个筛选指标;
当两个筛选指标满足筛选条件时,则认为这批样本作为有效样本。
2.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,所述光谱包括近红外光谱、中红外光谱、紫外可见光谱、太赫兹谱;
对样本的光谱的预处理包括于一阶导数处理,二阶导数处理、平滑、去基线、标准正态变换、多元散射校正中的一种或多种的任意顺序的组合。
3.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,采用皮尔逊相关系数与欧式距离计算两个样本之间的光谱相似度。
4.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,设定的等级采用百分制,百分数值为1-100之间的具有固定间隔的自然数,固定间隔取值为1,2,4,5,10,15,20,25,固定间隔优选为1,2,4。
5.根据权利要求1或4所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,所述对所有样本对组中最大化学指标差异值归一化处理,包括:
依据每个样本对组中最大化学指标差异值和最小相似度值形成相关散点图,在相关散点图的最小相似度值大且最大化学指标差异值小的区域,筛选分散程度高的分界散点对应的最大化学指标差异值作为归一化的基准数据,计算所有样本对组中最大化学指标差异值与基准数据的比值作为归一化处理结果。
6.根据权利要求5所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,当设定的等级采用百分制,百分数值为1-100之间的所有自然数时,以百分数值为10-20的等级对应的样本对组对应的最大化学指标差异值作为归一化的基准数据。
7.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,所述依据归一化的最大化学指标差异值和最小相似度值的相关散点图选择两个关键最大化学指标差异值作为两个筛选指标,包括:
依据归一化的最大化学指标差异值和最小相似度值形成相关散点图中,在相关散点图的最小相似度值小且最大化学指标差异值大的区域,筛选分散程度高的分界散点对应的最大化学指标差异值作为第二筛选指标;在相关散点图中,筛选分散集中区域的中心散点对应的最大化学指标差异值作为第一筛选指标,以此得到两个筛选指标;
优选地,当设定的等级采用百分制,百分数值为1-100之间的所有自然数时,以百分数值为80~90的等级对应的样本对组对应的最大化学指标差异值作为第二筛选指标,以百分数值为50的等级对应的样本对组对应的最大化学指标差异值作为第一筛选指标。
8.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,所述两个筛选指标满足筛选条件时,则认为这批样本作为有效样本,包括:
设定筛选指标的独立阈值和相关阈值,当两个筛选指标分别大于各自的独立阈值,且两个筛选指标的比值大于相关阈值时,则认为这批样本为有效样本,能够用于建模。
9.根据权利要求8所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,第一筛选指标的独立阈值为1.1-1.8,第二筛选指标的独立阈值为1.4-2.6,相关阈值为1.1-1.5;
优选地,当设定的等级采用百分制,百分数值为1-100之间的所有自然数时,以百分数值为80~90的等级对应的样本对组对应的最大化学指标差异值作为第二筛选指标,以百分数值为50的等级对应的样本对组对应的最大化学指标差异值作为第一筛选指标时,第一筛选指标的独立阈值为1.1-1.3,第二筛选指标的独立阈值为1.4-1.6,相关阈值为1.15-1.35。
10.一种基于光谱相似度和化学指标差异度的建模方法,包括以下步骤:
利用权利要求1-9任一项所述的基于光谱相似度和化学指标差异度的样本筛选方法筛选获得有效数据;
利用有效数据建立光谱与化学指标之间的预测模型,该预测模型用于基于输入的光谱预测化学指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111233133.XA CN113988166A (zh) | 2021-10-22 | 2021-10-22 | 基于光谱相似度和化学指标差异度的样本筛选及建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111233133.XA CN113988166A (zh) | 2021-10-22 | 2021-10-22 | 基于光谱相似度和化学指标差异度的样本筛选及建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113988166A true CN113988166A (zh) | 2022-01-28 |
Family
ID=79740421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111233133.XA Pending CN113988166A (zh) | 2021-10-22 | 2021-10-22 | 基于光谱相似度和化学指标差异度的样本筛选及建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113988166A (zh) |
-
2021
- 2021-10-22 CN CN202111233133.XA patent/CN113988166A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018010352A1 (zh) | 一种定性定量相结合的近红外定量模型构建方法 | |
Wang et al. | Technology using near infrared spectroscopic and multivariate analysis to determine the soluble solids content of citrus fruit | |
CN108181263B (zh) | 基于近红外光谱的烟叶部位特征提取及判别方法 | |
Moscetti et al. | Near infrared spectroscopy is suitable for the classification of hazelnuts according to Protected Designation of Origin | |
CN103235095A (zh) | 注水肉检测方法和装置 | |
Dębska et al. | Decision trees in selection of featured determined food quality | |
Febbi et al. | Automated determination of poplar chip size distribution based on combined image and multivariate analyses | |
CN102967578A (zh) | 在线获取牛肉样本近红外光谱的方法及其在评价牛肉质量中的应用 | |
CN110749565A (zh) | 一种快速鉴别普洱茶存储年份的方法 | |
Fadock et al. | Visible-near infrared reflectance spectroscopy for nondestructive analysis of red wine grapes | |
CN102937575B (zh) | 一种基于二次光谱重组的西瓜糖度快速建模方法 | |
CN105044024A (zh) | 一种基于近红外光谱技术对葡萄果实进行无损检测的方法 | |
CN111257277B (zh) | 一种基于近红外光谱技术的烟叶相似度判定方法 | |
CN105717066A (zh) | 一种基于加权相关系数的近红外光谱识别模型 | |
CN107219184A (zh) | 一种应用于产地溯源的肉类鉴别方法及装置 | |
WO2020248961A1 (zh) | 一种无参考值的光谱波数选择方法 | |
CN104596975A (zh) | 近红外漫反射光谱技术测定造纸法再造烟叶木质素的方法 | |
CN109283153B (zh) | 一种酱油定量分析模型的建立方法 | |
CN105223140A (zh) | 同源物质的快速识别方法 | |
CN104596976A (zh) | 近红外漫反射光谱技术测定造纸法再造烟叶蛋白质的方法 | |
CN113030007B (zh) | 基于相似度学习算法快速检验烟用香精质量稳定性的方法 | |
CN109540837A (zh) | 近红外快速检测苎麻叶片木质纤维素含量的方法 | |
CN105675538A (zh) | 一种胡麻饼养分的检测方法 | |
CN113988166A (zh) | 基于光谱相似度和化学指标差异度的样本筛选及建模方法 | |
CN113984708B (zh) | 一种化学指标检测模型的维护方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |