CN110657890B - 对光谱模型的基于交叉验证的校准 - Google Patents
对光谱模型的基于交叉验证的校准 Download PDFInfo
- Publication number
- CN110657890B CN110657890B CN201910576094.XA CN201910576094A CN110657890B CN 110657890 B CN110657890 B CN 110657890B CN 201910576094 A CN201910576094 A CN 201910576094A CN 110657890 B CN110657890 B CN 110657890B
- Authority
- CN
- China
- Prior art keywords
- data set
- spectral
- spectral model
- model
- spectrometer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 229
- 238000002790 cross-validation Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000010200 validation analysis Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims description 93
- 238000005259 measurement Methods 0.000 claims description 70
- 230000015654 memory Effects 0.000 claims description 35
- 238000004611 spectroscopical analysis Methods 0.000 claims description 13
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 abstract description 8
- 238000003860 storage Methods 0.000 description 30
- 238000004891 communication Methods 0.000 description 26
- 239000000463 material Substances 0.000 description 17
- 238000011002 quantification Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000012628 principal component regression Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000012567 medical material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 239000002994 raw material Substances 0.000 description 3
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 2
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical compound CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 description 2
- 238000001069 Raman spectroscopy Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000004476 mid-IR spectroscopy Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- 229930091371 Fructose Natural products 0.000 description 1
- RFSUNEUAIZKAJO-ARQDHWQXSA-N Fructose Chemical compound OC[C@H]1O[C@](O)(CO)[C@@H](O)[C@@H]1O RFSUNEUAIZKAJO-ARQDHWQXSA-N 0.000 description 1
- 239000005715 Fructose Substances 0.000 description 1
- GUBGYTABKSRVRQ-QKKXKWKRSA-N Lactose Natural products OC[C@H]1O[C@@H](O[C@H]2[C@H](O)[C@@H](O)C(O)O[C@@H]2CO)[C@H](O)[C@@H](O)[C@H]1O GUBGYTABKSRVRQ-QKKXKWKRSA-N 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 229960001138 acetylsalicylic acid Drugs 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 229960001680 ibuprofen Drugs 0.000 description 1
- 239000008101 lactose Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 229960005489 paracetamol Drugs 0.000 description 1
- 239000000825 pharmaceutical preparation Substances 0.000 description 1
- 229940127557 pharmaceutical product Drugs 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000002460 vibrational spectroscopy Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/27—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands using photo-electric detection ; circuits for computing concentration
- G01N21/274—Calibration, base line adjustment, drift correction
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01J—MEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
- G01J3/00—Spectrometry; Spectrophotometry; Monochromators; Measuring colours
- G01J3/02—Details
- G01J3/0275—Details making use of sensor-related data, e.g. for identification of sensor parts or optical elements
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01J—MEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
- G01J3/00—Spectrometry; Spectrophotometry; Monochromators; Measuring colours
- G01J3/28—Investigating the spectrum
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/01—Arrangements or apparatus for facilitating the optical investigation
- G01N2021/0106—General arrangement of respective parts
- G01N2021/0118—Apparatus with remote processing
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2201/00—Features of devices classified in G01N21/00
- G01N2201/12—Circuits of general importance; Signal processing
- G01N2201/129—Using chemometrical methods
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biochemistry (AREA)
- Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Spectrometry And Color Measurement (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本公开涉及对光谱模型的基于交叉验证的校准。一种设备可以接收对于第一光谱模型的主数据集;接收对于与第一光谱模型相关联的目标群体的目标数据集以更新第一光谱模型;生成包括主数据集和来自目标数据集中的第一数据的训练数据集;生成包括来自目标数据集而不是主数据集的第二数据的验证数据集;使用交叉验证并使用训练数据集和验证数据集生成作为第一光谱模型的更新的第二光谱模型;以及提供第二光谱模型。
Description
相关申请
本申请基于美国法典第35条第119款要求于2018年6月29日提交的且题为“UPDATING CALIBRATION MODELS BASED ON NEAR-INFRARED(NIR)SPECTRA”的美国临时专利申请第62/692,248号的优先权,该美国临时申请的内容通过引用以其整体并入本文。
技术领域
本申请涉及对光谱模型的基于交叉验证的校准。
背景技术
原料识别可用于药物产品的质量控制。例如,可以对医用材料执行原料识别,以确定医用材料的组成成分是否对应于与医用材料相关联的包装标签。类似地,可以执行原料量化以确定特定样本中特定化学物的浓度。光谱法可以有助于进行无损的原料识别和/或量化,与其他化学计量技术相比,其准备和数据采集时间减少。
发明内容
本申请的实现方式主要包括以下方面:
1)一种设备,可以包括:一个或更多个存储器;以及一个或更多个处理器,所述一个或更多个处理器通信地耦合到所述一个或更多个存储器,所述一个或更多个处理器被配置为:接收对于第一光谱模型的主数据集;接收对于与第一光谱模型相关联的目标群体的目标数据集,以更新第一光谱模型;生成包括主数据集和来自目标数据集的第一数据的训练数据集;生成包括来自目标数据集而不是主数据集的第二数据的验证数据集;使用交叉验证并使用训练数据集和验证数据集生成作为第一光谱模型的更新的第二光谱模型;并提供第二光谱模型。
2)根据1)所述的设备,其中,所述一个或更多个处理器被配置为:
接收光谱测量;
使用所述第二光谱模型来执行光谱测定;和
提供识别所述光谱测定的输出。
3)根据1)所述的设备,其中,所述训练数据集是多个训练数据集,并且所述验证数据集是多个验证数据集;以及
其中,当生成所述第二光谱模型时,所述一个或更多个处理器被配置成:
基于所述多个训练数据集和所述多个验证数据集生成多个性能度量;
基于所述多个性能度量来确定总的性能度量;
基于所述总的性能度量来确定最优偏最小二乘(PLS)因子;和基于所述最优PLS因子和合并的数据集确定所述第二光谱模型,
其中,所述合并的数据集包括所述主数据集和所述目标数据集。
4)根据1)所述的设备,其中,所述第一光谱模型和所述第二光谱模型是量化模型。
5)根据1)所述的设备,其中,所述主数据集基于由主光谱仪执行的第一组光谱测量,并且所述目标数据集基于由不同于所述主光谱仪的目标光谱仪执行的第二组光谱测量。
6)根据1)所述的设备,其中,所述主数据集基于由特定光谱仪执行的第一组光谱测量,并且所述目标数据集基于由所述特定光谱仪执行的第二组光谱测量。
7)一种方法,可以包括:通过设备接收对于与第一光谱模型相关联的目标群体的目标数据集;基于接收到所述目标数据集通过所述设备来获得对于所述第一光谱模型的主数据集;通过所述设备使用交叉验证确定最优偏最小二乘(PLS)因子,其中,所述最优PLS因子基于多个(a plurality of)训练数据集且基于多个验证数据集确定,每个训练数据集包括目标数据集的相应部分和主数据集的全部,每个验证数据集包括目标数据集的相应部分并且不包括主数据集的数据;通过所述设备合并所述目标数据集和所述主数据集,以生成合并的数据集;通过所述设备并使用合并的数据集和最优PLS因子生成第二光谱模型,其中,所述第二光谱模型是所述第一光谱模型的更新;以及通过所述设备提供第二光谱模型来代替第一光谱模型。
8)根据7)所述的方法,其中,确定所述最优PLS因子包括:
确定关于所述多个训练数据集中的每一个训练数据集和所述多个验证数据集中的每一个验证数据集的偏最小二乘(PLS)性能度量;
基于所述PLS性能度量确定总的PLS性能度量;和
基于所述总的PLS性能度量,优化PLS因子以确定对于所述第二光谱模型的最优PLS因子。
9)根据8)所述的方法,其中,所述总的PLS性能度量与均方根误差(RMSE)值相关联,并且
其中,优化所述PLS因子包括:
优化所述PLS因子以最小化RMSE值。
10)根据8)所述的方法,其中,所述多个验证数据集包括与所述多个训练数据集不同的所述目标数据集中的数据。
11)根据8)所述的方法,其中,确定所述总的PLS性能度量包括:
聚合所述PLS性能度量。
12)根据7)所述的方法,其中,所述目标数据集关联于在与所述主数据集相关联的测量之后执行的对所述目标群体的一组测量。
13)根据12)所述的方法,其中,所述第二光谱模型是所述第一光谱模型的校准更新模型。
14)根据7)所述的方法,其中,所述目标数据集与由特定光谱仪执行的一组测量相关联,所述特定光谱仪不同于执行与所述主数据集相关联的测量的一个或更多个光谱仪。
15)根据14)所述的方法,其中,所述第二光谱模型是所述第一光谱模型的校准传递模型。
16)根据14)所述的方法,其中,提供所述第二光谱模型包括:
提供所述第二光谱模型以用于与通过所述特定光谱仪进行的后续测量结合使用。
17)一种非临时性计算机可读介质,可以存储一个或更多个指令。当被设备的一个或更多个处理器执行时,所述一个或更多个指令可以使所述一个或更多个处理器:接收对于第一光谱模型的主数据集;接收对于与第一光谱模型相关联的目标群体的目标数据集,以更新第一光谱模型;基于主数据集和目标数据集生成多个训练数据集;基于目标数据集生成多个验证数据集,其中,所述多个验证数据集不包括主数据集的数据;基于所述多个训练数据集和所述多个验证数据集并使用交叉验证来确定模型设置;基于模型设置、目标数据集和主数据集生成第二光谱模型;并提供第二光谱模型。
18)根据17)所述的非临时性计算机可读介质,其中,所述模型设置是以下中的至少一项,
偏最小二乘(PLS)模型的PLS因子,
主成分回归(PCR)模型的成分的量,
支持向量回归(SVR)模型的SVR参数,或
预处理设置。
19)根据17)所述的非临时性计算机可读介质,其中,使所述一个或更多个处理器确定所述模型设置的所述一个或更多个指令使所述一个或更多个处理器:
生成关于所述多个训练数据集中的每一个训练数据集和所述多个验证数据集中的对应的验证数据集的多个部分性能度量;
聚合所述多个部分性能度量以生成总的性能度量;和
确定所述模型设置,以最小化所述总的性能度量的误差值。
20)根据17)所述的非临时性计算机可读介质,其中,所述一个或更多个指令在由所述一个或更多个处理器执行时使所述一个或更多个处理器:
接收测量;
基于所述测量并使用所述第二光谱模型来执行光谱测定;和
提供识别所述光谱测定的输出。
附图说明
图1A-1E是本文中描述的示例实现方式的纵览的图示。
图2是在其中可以实现本文中描述的系统和/或方法的示例环境的图示。
图3是图2中的一个或更多个设备的示例部件的图示。
图4-6是对于光谱模型的基于交叉验证的校准的示例过程的流程图。
具体实施方式
示例实现方式的以下详细描述参考了附图。不同附图中的相同参考数字可以标识相同或类似的元素。以下描述使用光谱仪(spectrometer)作为示例,然而,本文描述的校准原理、过程和方法可以与任何传感器一起使用,包括但不限于其他光学传感器和光谱传感器。
原料识别(RMID)是用于识别特定样本的组分(例如,成分)以用于识别、验证等的技术。例如,RMID可用于验证药物材料中的成分是否对应于标签上标识的成分集。类似地,原料量化是用于对特定样本执行量化分析的技术,例如确定特定样本中特定材料的浓度。光谱仪可用于对样本(例如,药物材料)执行光谱法,以确定样本的组分、样本的组分的浓度等。光谱仪可确定对样本的一组测量,并可提供该一组测量用于光谱测定。光谱分类技术(例如,分类器)可以有助于基于对样本的该一组测量而确定样本的组分。
为了执行光谱分类或量化,光谱模型可被用于评估对未知样本的一个或更多个测量。例如,控制设备可以尝试将对未知样本的一个或更多个测量分类为对应于光谱模型的特定类别、与光谱模型相关联的特定水平和/或量,等等。然而,随着时间的推移,原料可能会发生变化,这可能会导致光谱模型不准确。例如,对于被应用于农产品的光谱分类,与不同年份相关联的不同收获可能具有不同的光谱。因此,关于主数据集(例如,在初始时间对初始群体的初始一组光谱测量)训练的光谱模型在应用于目标数据集(例如,在后续时间对后续群体的后续一组光谱测量)时可能不准确。
在另一种情况下,使用对于每个光谱仪的主数据集来针对每个光谱仪训练光谱模型可能是不切实际的。因此,控制设备可以在主数据集上训练单个光谱模型,并且部署该单个光谱模型以用于许多不同的光谱仪。然而,不同的光谱仪可以与不同的校准相关联和/或可以在不同的环境条件下操作。因此,当被应用于由第二光谱仪执行的光谱测量的目标数据集时,使用由第一光谱仪执行的光谱测量的主数据集训练的光谱模型可能不准确。
本文所述的一些实现方式能够使用交叉验证技术对光谱模型进行校准更新和校准传递(calibration transfer)。例如,来自目标数据集的数据可以与来自主数据集的数据合并,以能够生成新的光谱模型。在这种情况下,来自主数据集的数据用于训练光谱模型的训练集,以及来自目标数据集的数据用于训练集和验证光谱模型的验证集两者。以这种方式,相对于用于模型生成和/或模型更新的其他技术,光谱模型的准确度得到提高。此外,基于提高传递的光谱模型的准确度,针对每个光谱仪获得主数据集的必要性被降低,从而降低了与部署光谱仪相关联的成本。
图1A-1E是本文描述的示例实现方式100的图示。如图1A所示,示例实现方式100包括第一光谱仪102和第一控制设备104。
又如图1A并由参考数字150所示,第一控制设备104可以向第一光谱仪102传输指令,以使第一光谱仪102对主群体152执行一组光谱测量。例如,第一控制设备104可以使第一光谱仪102针对要使用分类模型分类的每个类别、针对要使用量化模型量化的每个量等等对样本执行测量。分类模型的类别可以指共享一种或更多种共同特征的相似材料的分组,例如(在药物背景下的)乳糖材料、果糖材料、对乙酰氨基酚材料、布洛芬(ibuprophen)材料、阿司匹林材料等。用于训练分类模型的以及对于其要使用分类模型来执行原料识别的材料可以被称为感兴趣材料。
又如图1A并且由参考数字154和156所示,第一光谱仪102可以执行一组光谱测量,并且可以将该一组光谱测量提供给第一控制设备104进行处理。例如,第一光谱仪102可以确定对于主群体152的每个样本的光谱,以使第一控制设备104能够生成一组类别,用于将未知样本分类为对于量化模型的感兴趣材料之一或者分类为具有与量化模型相关的特定量。
又如图1A并且由参考数字158所示,第一控制设备104可以基于主数据集生成第一光谱模型。例如,第一控制设备104可以使用特定的测定技术并基于该一组光谱测量来生成第一光谱模型。在一些实现方式中,第一控制设备104可以使用支持向量机(SVM)技术(例如,用于信息确定的机器学习技术)生成量化模型。附加地或替代地,第一控制设备104可以使用另一种类型的量化技术来生成量化模型。
量化模型可以包括与将特定光谱分配给感兴趣材料的量的特定类别相关联的信息。在一些实现方式中,量化模型可以包括与识别与量的特定类别相关联的感兴趣材料的类型相关联的信息。以该方式,第一控制设备104可以基于将未知样本的光谱分配给量化模型的量的特定类别来提供识别未知样本的材料的量的信息作为光谱输出。
如图1B并且由参考数字160所示,第二控制设备104’可以接收与第一光谱模型相关联的信息。例如,第二控制设备104’可以接收第一光谱模型、主数据集等。在一些实现方式中,相比于第一控制设备104,第二控制设备104’可以与不同的光谱仪相关联。例如,在校准传递情况下,第二控制设备104’可以与第二光谱仪102’(例如,目标光谱仪)结合使用,并且可以接收与第一光谱模型相关联的信息,以实现从第一光谱仪102(例如,主光谱仪)到第二光谱仪102’的校准传递。在这种情况下,如本文更详细描述的那样,第二控制设备104’和第二光谱仪102’可以执行对目标群体的测量,并生成第二光谱模型。可选地,如本文更详细描述的那样,在校准更新的情况下,第一控制设备104和第一光谱仪102可以执行对目标群体的测量并生成第二光谱模型,而不是将第一光谱模型传递到第二控制设备104’。
又如图1B并且由参考数字162所示,第二控制设备104’可以向第二光谱仪102’传输指令,以使第二光谱仪102’执行对目标群体164的一组光谱测量。例如,第二控制设备104’可以使第二光谱仪102’基于接收到第一光谱模型来执行对目标群体164的光谱测量。在一些实现方式中,第二控制设备104’可以确定更新或校准第一光谱模型,并且可以触发第二光谱仪102’执行该一组光谱测量。在这种情况下,第二控制设备104’可以与第一控制设备104通信,以获得识别主数据集的信息,从而能够生成第二光谱模型。
在一些实现方式中,目标群体164可以对应于主群体152。例如,目标群体164可以是与主群体152中包括的相同类别的另外的样本。在这种情况下,目标群体164可以与主群体152关于样本被收集或测量的时间、位置、环境条件等方面不同。此外,或者替代地,基于使用不同的光谱仪进行测量(例如,由第二光谱仪102’而不是由第一光谱仪102对主群体152进行测量),目标群体164可以不同于主群体152。
又如图1B并且由参考数字166和168所示,第二光谱仪102’可以执行一组光谱测量并且可以向第二控制设备104’提供识别该一组光谱测量的信息。例如,第二光谱仪102’可以执行对目标群体164的光谱测量,并且可以将识别光谱测量(例如,作为目标数据集)的信息提供给第二控制设备104’以进行处理。
如图1C并且由参考数字170所示,第二控制设备104’可以确定总的性能度量。例如,第二控制设备104’可以基于将数据划分成多个子类(folds)、确定对于多个子类的多个性能度量、聚合多个性能度量以确定均方根误差(RMSE)值、以及优化偏最小二乘(PLS)因子(其可以被称为最优PLS因子)以最小化RMSE值,从而确定总的性能度量。子类可以指用于交叉验证的数据子组,其包括生成候选模型的训练集和评估候选模型在预测数据时的准确度的验证集。在另一个示例中,第二控制设备104’可以确定另一种类型的优化模型设置,例如与主成分回归(PCR)因子、支持向量回归(SVR)因子等相关的模型设置。在一些实现方式中,第二控制设备104’可以执行预处理优化。例如,第二控制设备104’可以确定优化的预处理参数作为模型设置的一部分。
在一些实现方式中,第二控制设备104’可以针对每个子类向训练集或验证集分配数据。例如,第二控制设备104’可以确定对于N个子类的多个训练集1至N以及对于N个子类的多个对应的验证集1至N。在一些实现方式中,训练集可以包括通过合并主数据集和目标数据集生成的合并数据。例如,训练集(例如,训练集1)可以包括来自主数据集(例如,MDS)的所有数据和来自目标数据集(例如,TDS1,TS)的一部分数据。在这种情况下,对应的验证集可以包括来自目标数据集(例如,TDS1、VS)的数据和不是来自主数据集的数据的对应部分。对应的验证集可以省略从与被包括在训练集中的相同物理样本的副本扫描中导出的数据。
基于将数据分配到多个子类,第二控制设备104’可以确定对于每个子类的性能度量。例如,第二控制设备104’对于每个子类可以确定并可以聚合性能度量,以确定总的性能度量。例如,第二控制设备104’可以确定对于每个子类的PLS因子,并且可以确定对于每个子类的每个PLS因子的RMSE值。基于确定对于每个子类的每个PLS因子的RMSE值,第二控制设备104’可以确定总RMSE值。例如,第二控制设备104’可以根据所有子类的所有PLS因子来确定RMSE值。在这种情况下,基于确定总RMSE值,第二控制设备104’可以确定最优PLS因子,其可以是具有最低RMSE值的PLS因子。
在这种情况下,基于在交叉验证期间将主数据集和目标数据集包括在N个子类的训练集中,但是仅将目标数据集包括在对应的验证集中,第二光谱模型的准确度相对于其他技术被提高。例如,相对于在不更新的情况下使用第一光谱模型、相对于仅使用目标数据集来确定PLS性能度量、相对于合并所有的目标数据集数据和所有的主数据集数据来生成合并的数据集以及使用将合并的数据集划分在训练集和验证集两者中等等,这种技术可以导致提高的准确度。
如图1D并且由参考数字172所示,第二控制设备104’可以生成第二光谱模型。例如,第二控制设备104’可以使用主数据集(MDS)、目标数据集(TDS)、和最优PLS因子来生成第二光谱模型。以这种方式,第二控制设备104’可以实现校准的光谱模型、更新的光谱模型、传递的光谱模型等的生成。
在一些实现方式中,第二控制设备104’可以合并主数据集和目标数据集以生成合并的数据集(例如,用于训练第二光谱模型的最终训练集)。例如,第二控制设备104’可以聚合主数据集和目标数据集以生成合并的数据集。基于生成合并的数据集,第二控制设备104’可以使用合并的数据集和最优PLS因子(例如,具有最低RMSE值)生成第二光谱模型。例如,第二控制设备104’,可以使用量化模型生成技术以结合合并的数据集(例如,其可以是对于第二光谱模型的训练集)和最优PLS因子来生成第二光谱模型。以这样的方式,通过在不使用合并的数据集的情况下确定最优PLS因子,然后将最优PLS因子与合并的数据集相组合,第二控制设备104’实现了比其他技术更准确的光谱模型。
在一些实现方式中,第二控制设备104’可以基于生成第二光谱模型来提供第二光谱模型。例如,第二控制设备104’可以提供第二光谱模型,该第二光谱模型用于经由数据结构进行存储、用于部署在一个或更多个其他光谱仪上等等。附加地或替代地,第二控制设备104’可以基于生成第二光谱模型来提供与第二光谱模型相关的输出。例如,如本文更详细描述的,第二控制设备104’可以基于使用第二光谱模型分析未知样本来提供量化未知样本的信息。
如图1E且由参考数字174所示,第二控制设备104’可以向第二光谱仪102’传输指令,以使第二光谱仪102’对未知样本176执行一组光谱测量。例如,第二控制设备104’可以使第二光谱仪102’在已经生成第二光谱模型之后对未知样本176执行光谱测量。
又如图1E且由参考数字178和180所示,第二光谱仪102’可以执行一组光谱测量,并且可以向第二控制设备104’提供识别该一组光谱测量的信息。例如,第二光谱仪102’可以确定未知样本176的光谱,并且可以向第二控制设备104’提供识别光谱的信息,以用于分类和/或量化。
又如图1E且由参考数字182所示,第二控制设备104’可以使用第二光谱模型来执行对该一组光谱测量的光谱分析。例如,第二控制设备104’可以使用第二光谱模型来确定未知样本176的分类和/或未知样本176的量化。在这种情况下,第二控制设备104’可以提供识别分类和/或量化的输出。以这样的方式,第二控制设备104’基于生成第二光谱模型来使用第二光谱模型。
如上面指示的,图1A-1E仅作为一个或更多个示例被提供。其它示例可以不同于关于图1A-1E描述的示例。
图2是在其中可以实现本文中所述的系统和/或方法的示例环境200的图示。如图2所示,环境200可以包括控制设备210、光谱仪220、网络230等。环境200中的设备可经由有线连接、无线连接或有线连接和无线连接的组合来互连。
控制设备210包括能够存储、处理和/或路由与光谱分类相关联的信息的一个或更多个设备。例如,控制设备210可以包括服务器、计算机、可穿戴设备、云计算设备等,其基于训练集的一组测量生成光谱模型(如,分类模型或量化模型)、基于验证集的一组测量验证光谱模型和/或利用光谱模型来基于对未知样本的一组测量执行光谱分析。在一些实现方式中,控制设备210可以与特定光谱仪220相关联。在一些实现方式中,控制设备210可以与多个光谱仪220相关联。在一些实现方式中,控制设备210可以从环境200中的另一设备(例如,光谱仪220)接收信息和/或向环境200中的另一设备(例如光谱仪220)传输信息。
光谱仪220包括能够对样本执行光谱测量的一个或更多个设备。例如,光谱仪220可以包括执行光谱法(例如,振动光谱法,诸如近红外(NIR)光谱法、中红外光谱法(mid-IR)、拉曼(Raman)光谱法等)的光谱设备。在一些实现方式中,光谱仪220可以被结合到可穿戴设备中,例如可穿戴光谱仪等。在一些实现方式中,光谱仪220可以从环境200中的另一设备(例如控制设备210)接收信息和/或向环境200中的另一设备(例如控制设备210)传输信息。
网络230包括一个或更多个有线和/或无线网络。例如,网络230可包括蜂窝网络(例如,长期演进(LTE)网络、3G网络、码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如,公共交换电话网络(PSTN))、专用网络、自组织网络、内联网、互联网、基于光纤的网络、云计算网络等,和/或这些或其它类型的网络的组合。
图2中显示的设备和网络的数量和布置作为一个或更多个示例被提供。实际上,与图2中显示的那些设备和/或网络相比,可以有另外的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络或不同地布置的设备和/或网络。此外,图2中显示的两个或更多个设备可在单个设备内实现,或图2中显示的单个设备可被实现为多个分布式设备。另外或可替代地,环境200中的一组设备(例如,一个或更多个设备)可以执行被描述为由环境200中的另一组设备执行的一个或更多个功能。
图3是设备300的示例部件的图示。设备300可以对应于控制设备210和/或光谱仪220。在一些实现方式中,控制设备210和/或光谱仪220可以包括一个或更多个设备300和/或设备300的一个或更多个部件。如图3所示,设备300可包括总线310、处理器320、存储器330、储存部件340、输入部件350、输出部件360以及通信接口370。
总线310包括允许在设备300的多个部件当中通信的部件。处理器320以硬件、固件、和/或硬件和软件的组合实现。处理器320是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理部件。在一些实现方式中,处理器320包括能够被编程以执行功能的一个或更多个处理器。存储器330包括随机存取存储器(RAM)、只读存储器(ROM)和/或存储信息和/或指令以用于由处理器320使用的另一类型的动态或静态储存设备(例如,闪存、磁存储器和/或光学存储器)。
储存部件340存储与设备300的操作和使用相关的信息和/或软件。例如,储存部件340可以包括硬盘(例如,磁盘、光盘和/或磁光盘)、固态驱动器(SSD)、压缩光盘(CD)、数字通用盘(DVD)、软盘、盒式磁带(cartridge)、磁带(magnetic tape)和/或另一类型的非临时性计算机可读介质,连同对应的驱动器。
输入部件350包括允许设备300例如经由用户输入端(例如,触摸屏显示器、键盘、小键盘(keypad)、鼠标、按钮、开关和/或麦克风)来接收信息的部件。附加地或可替换地,输入部件350可以包括用于确定位置的部件(例如,全球定位系统(GPS)部件)和/或传感器(例如,加速度计、陀螺仪、致动器、另一种类型的位置或环境传感器等)。输出部件360包括(经由例如显示器、扬声器、触觉反馈部件、声音或视觉指示器等)提供来自设备300的输出信息的部件。
通信接口370包括使设备300能够例如经由有线连接、无线连接或有线和无线连接的组合与其它设备通信的类似收发机的部件(例如,收发机、单独的接收机、单独的发射机等)。通信接口370可以允许设备300从另一设备接收信息和/或将信息提供给另一设备。例如,通信接口370可包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
设备300可以执行本文中所述的一个或更多个过程。设备300可以基于处理器320执行由非临时性计算机可读介质(例如存储器330和/或储存部件340)存储的软件指令来执行这些过程。如本文所使用的,术语“计算机可读介质”指的是非临时性存储器设备。存储器设备包括在单个物理储存设备内的存储器空间或遍布于多个物理储存设备的存储器空间。
软件指令可以经由通信接口370从另一计算机可读介质或从另一设备被读取到存储器330和/或储存部件340中。存储在存储器330和/或储存部件340中的软件指令当被执行时可使处理器320执行本文中所述的一个或更多个过程。另外或可替代地,硬件电路可代替软件指令或与软件指令组合来使用,以执行本文中所述的一个或更多个过程。因此,本文中所述的实现方式不限于硬件电路和软件的任何特定组合。
图3中显示的部件的数量和布置作为示例被提供。实际上,与图3中显示的那些部件相比,设备300可以包括另外的部件、更少的部件、不同的部件或不同地布置的部件。另外或可替代地,设备300的一组部件(例如,一个或更多个部件)可以执行被描述为由设备300的另一组部件执行的一个或更多个功能。
图4是用于光谱模型的基于交叉验证的校准的示例过程400的流程图。在一些实现方式中,图4的一个或更多个过程块可由控制设备(例如控制设备210)执行。在一些实现方式中,图4的一个或更多个过程块可由与控制设备分离的或者包括控制设备的另一设备或一组设备(诸如光谱仪(如光谱仪220)等)执行。
如图4中所示,过程400可以包括接收对于第一光谱模型的主数据集(块410)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以接收对于第一光谱模型的主数据集。
如图4中进一步所示,过程400可以包括接收对于与第一光谱模型相关联的目标群体的目标数据集,以更新第一光谱模型(块420)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以接收对于与第一光谱模型相关联的目标群体的目标数据集,以更新第一光谱模型。
如图4中进一步所示,过程400可以包括生成训练数据集,该训练数据集包括主数据集和来自目标数据集的第一数据(块430)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以生成包括主数据集和来自目标数据集的第一数据的训练数据集。
如图4中进一步所示,过程400可以包括生成验证数据集,该验证数据集包括来自目标数据集而不是主数据集的第二数据(块440)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以生成包括来自目标数据集而不是主数据集的第二数据的验证数据集。
如图4进一步所示,过程400可以包括使用交叉验证并使用训练数据集和验证数据集生成作为第一光谱模型的更新的第二光谱模型(块450)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以使用交叉验证并使用训练数据集和验证数据集生成作为第一光谱模型的更新的第二光谱模型。
如在图4中进一步所示,过程400可以包括提供第二光谱模型(块460)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以提供第二光谱模型。
过程400可以包括另外的实现方式,诸如以下描述的和/或结合本文其他地方描述的一个或更多个其他过程的任何单个实现方式或实现方式的任何组合。
在第一实现方式中,过程400包括接收光谱测量;使用第二光谱模型执行光谱测定;以及提供识别光谱测定的输出。
在第二实现方式中,单独或与第一实现方式相结合,训练数据集是多个训练数据集,且验证数据集是多个验证数据集,并且过程400包括基于多个训练数据集和多个验证数据集生成多个性能度量,基于多个性能度量确定总的性能度量,基于总的性能度量确定最优偏最小二乘(PLS)因子,并且基于最优PLS因子和合并的数据集确定第二光谱模型,其中合并的数据集包括主数据集和目标数据集。
在第三实现方式中,单独或与第一实现方式和第二实现方式中的一个或更多个结合,第一光谱模型和第二光谱模型是量化模型。
在第四实现方式中,单独地或者与第一实现方式至第三实现方式中的一个或更多个相结合,主数据集基于由主光谱仪执行的第一组光谱测量,并且目标数据集基于由不同于主光谱仪的目标光谱仪执行的第二组光谱测量。
在第五实现方式中,单独或与第一实现方式至第四实现方式中的一个或更多个相结合,主数据集基于由特定光谱仪执行的第一组光谱测量,而目标数据集基于由特定光谱仪执行的第二组光谱测量。
虽然图4示出了过程400的示例块,但在一些实现方式中,与图4中描绘的那些块相比,过程400可包括附加的块、更少的块、不同的块或不同地布置的块。另外或可替代地,过程400的两个或更多个块可并行地被执行。
图5是用于光谱模型的基于交叉验证的校准的示例过程500的流程图。在一些实现方式中,图5的一个或更多个过程块可由控制设备(如控制设备210)执行。在一些实现方式中,图5的一个或更多个过程块可由与控制设备210分离的或者包括控制设备的另一设备或一组设备(诸如光谱仪(如光谱仪220))执行。
如图5所示,过程500可以包括接收对于与第一光谱模型相关联的目标群体的目标数据集(块510)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以接收对于与第一光谱模型相关联的目标群体的目标数据集。
如图5中进一步所示,过程500可以包括基于接收目标数据集来获得对于第一光谱模型的主数据集(块520)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以基于接收目标数据集来获得对于第一光谱模型的主数据集。
如图5中进一步所示,过程500可以包括使用交叉验证确定最优偏最小二乘(PLS)因子,其中最优PLS因子基于多个训练数据集且基于多个验证数据集来确定,每个训练数据集包括目标数据集的相应部分和主数据集的全部,并且每个验证数据集包括目标数据集的相应部分并且不包括主数据集的数据(块530)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以使用交叉验证确定最优偏最小二乘(PLS)因子。在一些方面,最优PLS因子基于多个训练数据集且基于多个验证数据集来确定,每个训练数据集包括目标数据集的相应部分和主数据集的全部,每个验证数据集包括目标数据集的相应部分并且不包括主数据集的数据。
如图5中进一步所示,过程500可以包括合并目标数据集和主数据集以生成合并的数据集(块540)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以合并目标数据集和主数据集以生成合并的数据集。
如图5中进一步所示,过程500可以包括使用合并的数据集和最优PLS因子来生成第二光谱模型,其中第二光谱模型是第一光谱模型的更新(块550)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以使用合并的数据集和最优PLS因子来生成第二光谱模型。在一些方面,第二光谱模型是第一光谱模型的更新。
如在图5中进一步所示,过程500可以包括提供第二光谱模型以代替第一光谱模型(块560)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以提供第二光谱模型以代替第一光谱模型。
过程500可以包括另外的实现方式,诸如以下描述的和/或结合本文其他地方描述的一个或更多个其他过程的任何单个实现方式或实现方式的任何组合。
在第一实现方式中,确定最优PLS因子包括确定对于多个训练数据集的每一个训练数据集和多个验证数据集的每一个验证数据集的偏最小二乘(PLS)性能度量;基于PLS性能度量确定总的PLS性能度量;以及基于总的PLS性能度量来优化用于第二光谱模型的PLS因子。
在第二实现方式中,单独地或与第一实现方式结合,总的PLS性能度量与均方根误差(RMSE)值相关联,并且优化PLS因子包括优化PLS因子以最小化RMSE值。
在第三实现方式中,单独地或与第一实现方式和第二实现方式中的一个或更多个结合,多个验证数据集包括与多个训练数据集相比的目标数据集的不同数据。
在第四实现方式中,单独地或与第一实现方式至第三实现方式中的一个或更多个结合,确定总的PLS性能度量包括聚合PLS性能度量。
在第五实现方式中,单独地或与第一实现方式至第四实现方式中的一个或更多个结合,目标数据集与在与主数据集相关联的测量之后执行的对目标群体的一组测量相关联。
在第六实现方式中,单独或与第一实现方式至第五实现方式中的一个或更多个结合,第二光谱模型是第一光谱模型的校准更新模型。
在第七实现方式中,单独地或者与第一实现方式至第六实现方式中的一个或更多个相结合,目标数据集与由特定光谱仪执行的一组测量相关联,该特定光谱仪不同于执行与主数据集相关联的测量的一个或更多个光谱仪。
在第八实现方式中,单独或与第一实现方式至第七实现方式中的一个或更多个结合,第二光谱模型是第一光谱模型的校准传递模型。
在第九实现方式中,单独地或与第一实现方式至第八实现方式中的一个或更多个相结合,提供第二光谱模型包括提供第二光谱模型以结合由特定光谱仪进行的后续测量来进行使用。
虽然图5示出了过程500的示例块,但在一些实现方式中,与图5中描绘的那些块相比,过程500可包括另外的块、更少的块、不同的块或不同地布置的块。另外或可替代地,过程500的两个或更多个块可并行地被执行。
图6是用于光谱模型的基于交叉验证的校准的示例过程600的流程图。在一些实现方式中,图6的一个或更多个过程块可由控制设备(例如,控制设备210)执行。在一些实现方式中,图6的一个或更多个过程块可由与控制设备分离的或者包括控制设备的另一设备或一组设备(诸如光谱仪(如光谱仪220)等)执行。
如图6所示,过程600可以包括接收对于第一光谱模型的主数据集,接收对于与第一光谱模型相关联的目标群体的目标数据集以更新第一光谱模型,基于主数据集和目标数据集生成多个训练数据集,基于目标数据集生成多个验证数据集,并且其中多个验证数据集不包括主数据集的数据。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以接收对于第一光谱模型的主数据集,接收对于与第一光谱模型相关联的目标群体的目标数据集以更新第一光谱模型,基于主数据集和目标数据集生成多个训练数据集,基于目标数据集生成多个验证数据集,并且其中,多个验证数据集不包括主数据集的数据。在一些方面,多个验证数据集不包括主数据集的数据。
如图6中所示,过程600可以包括接收对于第一光谱模型的主数据集(块610)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以接收对于第一光谱模型的主数据集。
如图6所示,过程600可以包括接收对于与第一光谱模型相关联的目标群体的目标数据集以更新第一光谱模型(块620)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以接收对于与第一光谱模型相关联的目标群体的目标数据集以更新第一光谱模型。
如图6所示,过程600可包括基于主数据集和目标数据集生成多个训练数据集(块630)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以基于主数据集和目标数据集生成多个训练数据集。
如图6所示,过程600可以包括基于目标数据集生成多个验证数据集,并且其中,多个验证数据集不包括主数据集的数据(块640)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以基于目标数据集生成多个验证数据集。在一些方面,多个验证数据集不包括主数据集的数据。
如图6中进一步所示,过程600可以包括基于多个训练数据集和多个验证数据集并使用交叉验证来确定模型设置(块650)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以基于多个训练数据集和多个验证数据集来确定模型设置。
如图6进一步所示,过程600可以包括基于模型设置、目标数据集和主数据集生成第二光谱模型(块660)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以基于模型设置、目标数据集和主数据集生成第二光谱模型。
如在图6中进一步所示,过程600可以包括提供第二光谱模型(块670)。例如,如上所述,控制设备(例如,使用处理器320、存储器330、储存部件340、输入部件350、输出部件360、通信接口370等)可以提供第二光谱模型。
过程600可以包括另外的实现方式,诸如以下描述的和/或结合本文其他地方描述的一个或更多个其他过程的任何单个实现方式或实现方式的任何组合。
在第一实现方式中,模型设置是偏最小二乘(PLS)模型的PLS因子、主成分回归(PCR)模型的成分的量、支持向量回归(SVR)模型的SVR参数或预处理设置中的至少一个。
在第二实现方式中,单独地或与第一实现方式结合,过程600包括生成关于多个训练数据集中的每一个训练数据集和多个验证数据集的对应的验证数据集的多个部分性能度量(a plurality of partial performance metrics),聚合该多个部分性能度量以生成总的性能度量,以及确定模型设置以最小化总的性能度量的误差值。
在第三实现方式中,单独地或与第一实现方式和第二实现方式中的一个或更多个结合,过程600包括基于测量和使用第二光谱模型来执行光谱测定,并提供识别光谱测定的输出。
虽然图6示出了过程600的示例块,但在一些实现方式中,与图6中描绘的那些块相比,过程600可包括另外的块、更少的块、不同的块或不同地布置的块。另外或可替代地,过程600的两个或更多个块可并行地被执行。
前述公开提供了说明和描述,但并不旨在穷举或将实现方式限制到所公开的精确形式。修改和变型可以根据以上公开内容进行,或者可以从实现方式的实践中获得。
如在本文使用的,术语“部件”被规定为广泛地被解释为硬件、固件、和/或硬件和软件的组合。
如本文所使用的,满足阈值可以根据上下文指大于阈值、多于阈值、高于阈值、大于或等于阈值、小于阈值、少于阈值、低于阈值、小于或等于阈值、等于阈值等的值。
将明显的是,本文中所述的系统和/方法可在硬件、固件、或硬件和软件的组合的不同形式中实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不是实现方式的限制。因此,在本文中描述系统和/或方法的操作和行为而不参考特定的软件代码,应理解的是,软件和硬件可以被设计成基于本文中的描述来实现系统和/或方法。
尽管在权利要求中陈述和/或在说明书中公开了特征的特定组合,但是这些组合并不旨在限制各种实现方式的公开内容。事实上,这些特征中的许多可以以权利要求中未具体陈述和/或说明书中未公开的方式组合。尽管以下所列出的每个从属权利要求可以直接从属于仅仅一个权利要求,但是各种实现方式的公开内容包括每个从属权利要求与权利要求组中的每个其他权利要求相结合。
本文中使用的任何元素、动作或指令都不应当被解释为关键或必要的,除非明确这样描述。另外,如本文中所使用的,冠词“一(a)”和“一(an)”旨在包括一个或更多个项,并且可以与“一个或更多个(one or more)”互换使用。此外,如本文所用,冠词“该(the)”旨在包括与冠词“该”相结合的一个或更多个项,并且可以与“该一个或更多个”互换使用。此外,如本文所使用的,术语“集(set)”旨在包括一个或更多个项(例如,相关项、不相关项、相关项和不相关项的组合等),并且可以与“一个或更多个”互换使用。在意指仅一个项的情况下,使用术语“仅一个(only one)”或类似的语言。此外,如本文所用,术语“具有(has)”、“具有(have)”、“具有(having)”等旨在是开放式的术语。此外,除非另有明确地说明,否则短语“基于”旨在表示“至少部分地基于”。此外,如本文所使用的,术语“或”在串联使用时旨在包括在内,并且可以与“和/或”互换使用,除非另有明确说明(例如,与“任一”或“仅其中之一”结合使用的情况)。
Claims (20)
1.一种设备,其为第二控制设备,包括:
一个或更多个存储器;以及
一个或更多个处理器,所述一个或更多个处理器被通信地耦合到所述一个或更多个存储器,所述一个或更多个处理器被配置为:
接收对于由第一控制设备生成的第一光谱模型的主数据集,
所述第一控制设备不同于所述第二控制设备,并且
所述主数据集基于由第一光谱仪执行的第一组光谱测量;
接收对于与所述第一光谱模型相关联的目标群体的目标数据集以更新所述第一光谱模型,
所述目标数据集基于由不同于所述第一光谱仪的第二光谱仪执行的第二组光谱测量;
生成包括所述主数据集和来自所述目标数据集的第一数据的训练数据集;
生成包括来自所述目标数据集而不是所述主数据集的第二数据的验证数据集;
使用交叉验证并使用所述训练数据集和所述验证数据集生成第二光谱模型,所述第二光谱模型是所述第一光谱模型的更新,
相对于使用所述第一光谱模型,使用与所述第二光谱仪相关联的所述第二光谱模型的准确度被提高;以及
提供所述第二光谱模型。
2.根据权利要求1所述的设备,其中,所述一个或更多个处理器被配置为:
接收光谱测量;
使用所述第二光谱模型来执行光谱测定;和
提供识别所述光谱测定的输出。
3.根据权利要求1所述的设备,其中,所述训练数据集是多个训练数据集,并且所述验证数据集是多个验证数据集;以及
其中,当生成所述第二光谱模型时,所述一个或更多个处理器被配置成:
基于所述多个训练数据集和所述多个验证数据集生成多个性能度量;
基于所述多个性能度量来确定总的性能度量;
基于所述总的性能度量来确定最优偏最小二乘因子;和
基于所述最优偏最小二乘因子和合并的数据集确定所述第二光谱模型,
其中,所述合并的数据集包括所述主数据集和所述目标数据集。
4.根据权利要求1所述的设备,其中,所述第一光谱模型和所述第二光谱模型是量化模型。
5.根据权利要求1所述的设备,
其中,所述第一光谱仪是主光谱仪,并且
其中,所述第二光谱仪是目标光谱仪。
6.一种校准方法,包括:
通过第二控制设备,接收对于与由第一控制设备生成的第一光谱模型相关联的目标群体的目标数据集,
其中,所述第二控制设备不同于所述第一控制设备;
通过所述第二控制设备,获得对于所述第一光谱模型的主数据集,
其中,所述主数据集基于由第一光谱仪执行的第一组测量,并且
其中,所述目标数据集基于由不同于所述第一光谱仪的第二光谱仪执行的第二组测量;
通过所述第二控制设备,使用交叉验证来确定最优偏最小二乘因子,
其中,所述最优偏最小二乘因子基于多个训练数据集且基于多个验证数据集来确定,每个训练数据集包括所述目标数据集的相应部分和所述主数据集的全部,每个验证数据集包括所述目标数据集的相应部分并且不包括所述主数据集的数据;
通过所述第二控制设备,合并所述目标数据集和所述主数据集,以生成合并的数据集;
通过所述第二控制设备并使用所述合并的数据集和所述最优偏最小二乘因子,生成第二光谱模型,
其中,所述第二光谱模型是所述第一光谱模型的更新,并且
其中,相对于使用所述第一光谱模型,使用与所述第二光谱仪相关联的所述第二光谱模型的准确度被提高;以及
通过所述第二控制设备,提供所述第二光谱模型来代替所述第一光谱模型。
7.根据权利要求6所述的校准方法,其中,确定所述最优偏最小二乘因子包括:
确定关于所述多个训练数据集中的每一个训练数据集和所述多个验证数据集中的每一个验证数据集的偏最小二乘性能度量;
基于所述偏最小二乘性能度量确定总的偏最小二乘性能度量;和
基于所述总的偏最小二乘性能度量,优化偏最小二乘因子以确定对于所述第二光谱模型的最优偏最小二乘因子。
8.根据权利要求7所述的校准方法,其中,所述总的偏最小二乘性能度量与均方根误差值相关联,并且
其中,优化所述偏最小二乘因子包括:
优化所述偏最小二乘因子以最小化所述均方根误差值。
9.根据权利要求7所述的校准方法,其中,所述多个验证数据集包括与所述多个训练数据集不同的所述目标数据集中的数据。
10.根据权利要求7所述的校准方法,其中,确定所述总的偏最小二乘性能度量包括:
聚合所述偏最小二乘性能度量。
11.根据权利要求6所述的校准方法,其中,所述目标数据集关联于在与所述主数据集相关联的测量之后执行的对所述目标群体的测量。
12.根据权利要求6所述的校准方法,其中,所述第二光谱模型是所述第一光谱模型的校准传递模型。
13.根据权利要求6所述的校准方法,其中,提供所述第二光谱模型包括:
提供所述第二光谱模型以用于与通过所述第二光谱仪进行的后续测量结合使用。
14.一种非临时性计算机可读介质,所述非临时性计算机可读介质存储指令,所述指令包括:
一个或更多个指令,所述一个或更多个指令当由一个或更多个处理器执行时使所述一个或更多个处理器:
接收对于由第一控制设备生成的第一光谱模型的主数据集,
其中,所述一个或更多个处理器位于不同于所述第一控制设备的第二控制设备中,并且
其中,所述主数据集基于由第一光谱仪执行的第一组光谱测量;
接收对于与所述第一光谱模型相关联的目标群体的目标数据集以更新所述第一光谱模型,
其中,所述目标数据集基于由不同于所述第一光谱仪的第二光谱仪执行的第二组光谱测量;
基于所述主数据集和所述目标数据集生成多个训练数据集;
基于所述目标数据集生成多个验证数据集,
其中,所述多个验证数据集不包括所述主数据集的数据;
基于所述多个训练数据集和所述多个验证数据集并使用交叉验证来确定模型设置;
基于所述模型设置、所述目标数据集和所述主数据集,生成第二光谱模型,
其中,相对于使用所述第一光谱模式,使用与所述第二光谱仪相关联的所述第二光谱模型的准确度被提高;和
提供所述第二光谱模型。
15.根据权利要求14所述的非临时性计算机可读介质,其中,所述模型设置是以下中的至少一项:
偏最小二乘模型的偏最小二乘因子,
主成分回归模型的成分的量,
支持向量回归模型的支持向量回归参数,或
预处理设置。
16.根据权利要求14所述的非临时性计算机可读介质,其中,使所述一个或更多个处理器确定所述模型设置的一个或更多个指令使所述一个或更多个处理器:
生成关于所述多个训练数据集中的每一个训练数据集和所述多个验证数据集中的对应的验证数据集的多个部分性能度量;
聚合所述多个部分性能度量以生成总的性能度量;和
确定所述模型设置,以最小化所述总的性能度量的误差值。
17.根据权利要求14所述的非临时性计算机可读介质,其中,所述一个或更多个指令在由所述一个或更多个处理器执行时使所述一个或更多个处理器:
接收测量;
基于所述测量并使用所述第二光谱模型来执行光谱测定;和
提供识别所述光谱测定的输出。
18.根据权利要求14所述的非临时性计算机可读介质,其中,所述第一光谱模型和所述第二光谱模型是量化模型。
19.根据权利要求14所述的非临时性计算机可读介质,其中,使所述一个或更多个处理器提供所述第二光谱模型的一个或更多个指令使所述一个或更多个处理器:
提供所述第二光谱模型以用于与通过所述第二光谱仪进行的后续测量结合使用。
20.根据权利要求14所述的非临时性计算机可读介质,其中,使所述一个或更多个处理器接收所述目标数据集的一个或更多个指令使所述一个或更多个处理器:
从所述第二光谱仪接收所述目标数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210794546.3A CN115266604A (zh) | 2018-06-29 | 2019-06-28 | 对光谱模型的基于交叉验证的校准 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862692248P | 2018-06-29 | 2018-06-29 | |
US62/692,248 | 2018-06-29 | ||
US16/448,914 | 2019-06-21 | ||
US16/448,914 US10928309B2 (en) | 2018-06-29 | 2019-06-21 | Cross-validation based calibration of a spectroscopic model |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210794546.3A Division CN115266604A (zh) | 2018-06-29 | 2019-06-28 | 对光谱模型的基于交叉验证的校准 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110657890A CN110657890A (zh) | 2020-01-07 |
CN110657890B true CN110657890B (zh) | 2022-07-05 |
Family
ID=67137548
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910576094.XA Active CN110657890B (zh) | 2018-06-29 | 2019-06-28 | 对光谱模型的基于交叉验证的校准 |
CN202210794546.3A Pending CN115266604A (zh) | 2018-06-29 | 2019-06-28 | 对光谱模型的基于交叉验证的校准 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210794546.3A Pending CN115266604A (zh) | 2018-06-29 | 2019-06-28 | 对光谱模型的基于交叉验证的校准 |
Country Status (6)
Country | Link |
---|---|
US (3) | US10928309B2 (zh) |
EP (2) | EP4063831A1 (zh) |
JP (3) | JP7123866B2 (zh) |
KR (2) | KR102494073B1 (zh) |
CN (2) | CN110657890B (zh) |
TW (2) | TW202305327A (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10928309B2 (en) | 2018-06-29 | 2021-02-23 | Viavi Solutions Inc. | Cross-validation based calibration of a spectroscopic model |
US10969331B2 (en) * | 2018-07-11 | 2021-04-06 | Viavi Solutions Inc. | Focusing linear model correction and linear model correction for multivariate calibration model maintenance |
CN112629659A (zh) * | 2019-10-08 | 2021-04-09 | 中强光电股份有限公司 | 用于训练用于不同的光谱仪的管线的自动化模型训练装置和自动化模型训练方法 |
CN115280334A (zh) * | 2020-03-31 | 2022-11-01 | 株式会社日立高新技术 | 错误原因的推定装置以及推定方法 |
CN112161965B (zh) * | 2020-09-22 | 2022-08-05 | 复旦大学附属妇产科医院 | 检测中药药性的方法、装置、计算机设备和存储介质 |
WO2023183499A1 (en) * | 2022-03-23 | 2023-09-28 | Si-Ware Systems | Generalized artificial intelligence modeler for ultra-wide-scale deployment of spectral devices |
JP7168118B1 (ja) * | 2022-06-23 | 2022-11-09 | 横河電機株式会社 | 検量装置、検量方法および検量プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050078924A (ko) * | 2004-02-03 | 2005-08-08 | 재단법인서울대학교산학협력재단 | 라만 분광법을 이용한 소변 성분 분석 시스템 및 그 방법 |
CN103528990A (zh) * | 2013-10-31 | 2014-01-22 | 天津工业大学 | 一种近红外光谱的多模型建模方法 |
WO2015145120A1 (en) * | 2014-03-24 | 2015-10-01 | Institute Of Food Research | Spectroscopy method and system |
CN105117734A (zh) * | 2015-07-28 | 2015-12-02 | 江南大学 | 基于模型在线更新的玉米种子高光谱图像分类识别方法 |
CN105203498A (zh) * | 2015-09-11 | 2015-12-30 | 天津工业大学 | 一种基于lasso的近红外光谱变量选择方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100288215B1 (ko) * | 1998-12-30 | 2001-11-02 | 이계안 | 자동차 글라스 장착 시스템 |
US6341257B1 (en) * | 1999-03-04 | 2002-01-22 | Sandia Corporation | Hybrid least squares multivariate spectral analysis methods |
US7277810B2 (en) * | 2005-07-05 | 2007-10-02 | The United States Of America As Represented By The Secretary Of The Navy | Method and apparatus for automating calibration of test instruments |
US20110045598A1 (en) * | 2007-10-17 | 2011-02-24 | Baylor University | Methods for determining enantiomeric purity with improved chiral selectors |
EP2480875A4 (en) * | 2009-09-24 | 2017-10-11 | Commonwealth Scientific and Industrial Research Organisation | Method of contaminant prediction |
US20140012504A1 (en) * | 2012-06-14 | 2014-01-09 | Ramot At Tel-Aviv University Ltd. | Quantitative assessment of soil contaminants, particularly hydrocarbons, using reflectance spectroscopy |
GB2513343A (en) | 2013-04-23 | 2014-10-29 | Univ Singapore | Methods related to instrument-independent measurements for quantitative analysis of fiber-optic Raman spectroscopy |
US10152678B2 (en) * | 2014-11-19 | 2018-12-11 | Kla-Tencor Corporation | System, method and computer program product for combining raw data from multiple metrology tools |
US20160358099A1 (en) * | 2015-06-04 | 2016-12-08 | The Boeing Company | Advanced analytical infrastructure for machine learning |
US10429240B2 (en) * | 2016-07-29 | 2019-10-01 | Viavi Solutions Inc. | Transfer of a calibration model using a sparse transfer set |
US10928309B2 (en) | 2018-06-29 | 2021-02-23 | Viavi Solutions Inc. | Cross-validation based calibration of a spectroscopic model |
-
2019
- 2019-06-21 US US16/448,914 patent/US10928309B2/en active Active
- 2019-06-26 TW TW111139085A patent/TW202305327A/zh unknown
- 2019-06-26 TW TW108122370A patent/TWI783159B/zh active
- 2019-06-27 JP JP2019120431A patent/JP7123866B2/ja active Active
- 2019-06-27 EP EP22168542.3A patent/EP4063831A1/en active Pending
- 2019-06-27 EP EP19183083.5A patent/EP3588060B1/en active Active
- 2019-06-28 KR KR1020190078269A patent/KR102494073B1/ko active IP Right Grant
- 2019-06-28 CN CN201910576094.XA patent/CN110657890B/zh active Active
- 2019-06-28 CN CN202210794546.3A patent/CN115266604A/zh active Pending
-
2021
- 2021-02-11 US US17/248,867 patent/US11719628B2/en active Active
-
2022
- 2022-08-10 JP JP2022128108A patent/JP7387832B2/ja active Active
-
2023
- 2023-01-26 KR KR1020230010250A patent/KR20230022897A/ko active Application Filing
- 2023-06-30 US US18/345,585 patent/US20230349818A1/en active Pending
- 2023-11-15 JP JP2023194386A patent/JP2024035237A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050078924A (ko) * | 2004-02-03 | 2005-08-08 | 재단법인서울대학교산학협력재단 | 라만 분광법을 이용한 소변 성분 분석 시스템 및 그 방법 |
CN103528990A (zh) * | 2013-10-31 | 2014-01-22 | 天津工业大学 | 一种近红外光谱的多模型建模方法 |
WO2015145120A1 (en) * | 2014-03-24 | 2015-10-01 | Institute Of Food Research | Spectroscopy method and system |
CN105117734A (zh) * | 2015-07-28 | 2015-12-02 | 江南大学 | 基于模型在线更新的玉米种子高光谱图像分类识别方法 |
CN105203498A (zh) * | 2015-09-11 | 2015-12-30 | 天津工业大学 | 一种基于lasso的近红外光谱变量选择方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230349818A1 (en) | 2023-11-02 |
US20210164891A1 (en) | 2021-06-03 |
KR20230022897A (ko) | 2023-02-16 |
JP2020020785A (ja) | 2020-02-06 |
US20200003679A1 (en) | 2020-01-02 |
KR102494073B1 (ko) | 2023-01-31 |
JP2022172139A (ja) | 2022-11-15 |
CN115266604A (zh) | 2022-11-01 |
TW202018260A (zh) | 2020-05-16 |
KR20200002694A (ko) | 2020-01-08 |
EP3588060A1 (en) | 2020-01-01 |
JP2024035237A (ja) | 2024-03-13 |
CN110657890A (zh) | 2020-01-07 |
TW202305327A (zh) | 2023-02-01 |
EP4063831A1 (en) | 2022-09-28 |
EP3588060B1 (en) | 2022-05-11 |
US11719628B2 (en) | 2023-08-08 |
JP7123866B2 (ja) | 2022-08-23 |
TWI783159B (zh) | 2022-11-11 |
US10928309B2 (en) | 2021-02-23 |
JP7387832B2 (ja) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110657890B (zh) | 对光谱模型的基于交叉验证的校准 | |
CN110084261B (zh) | 用于光谱分类的减少的误报识别 | |
CN110084262B (zh) | 用于光谱量化的减少的误报识别 | |
US20230273121A1 (en) | Outlier detection for spectroscopic classification | |
CN114782732A (zh) | 光谱分类的异常检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40012746 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |