CN111415715B - 一种基于多元光谱数据的智能校正方法、系统及装置 - Google Patents

一种基于多元光谱数据的智能校正方法、系统及装置 Download PDF

Info

Publication number
CN111415715B
CN111415715B CN202010307645.5A CN202010307645A CN111415715B CN 111415715 B CN111415715 B CN 111415715B CN 202010307645 A CN202010307645 A CN 202010307645A CN 111415715 B CN111415715 B CN 111415715B
Authority
CN
China
Prior art keywords
correction
data
verification
model
evaluation index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010307645.5A
Other languages
English (en)
Other versions
CN111415715A (zh
Inventor
王毅
王箫
王文智
田燕龙
高学军
龚蓉晔
刘志国
杨海山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BEIFEN-RUILI ANALYTICAL INSTRUMENT (GROUP) CO LTD
Original Assignee
BEIJING BEIFEN-RUILI ANALYTICAL INSTRUMENT (GROUP) CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BEIFEN-RUILI ANALYTICAL INSTRUMENT (GROUP) CO LTD filed Critical BEIJING BEIFEN-RUILI ANALYTICAL INSTRUMENT (GROUP) CO LTD
Priority to CN202010307645.5A priority Critical patent/CN111415715B/zh
Publication of CN111415715A publication Critical patent/CN111415715A/zh
Application granted granted Critical
Publication of CN111415715B publication Critical patent/CN111415715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明提供了一种基于多元光谱数据的智能校正方法、系统及装置,本技术方案通过对用户输入的光谱数据一些基本性质,样品的物质形态,模型精确性要求等信息,结合多元光谱分析专家知识库,可以智能建立m个多元光谱数据校正模型。m个多元光谱数据校正模型建立过程中,借助多元光谱分析专家知识库,全部通过智能循环计算完成,无需用户多次尝试不同的校正方法建立模型,可以大大减少计算时间。通过定义综合评价指标S值判定模型优劣,并结合多元光谱分析专家知识库和S值权重专家知识库推荐最优模型给用户。该方案速度快捷,结果准确,适用场景广泛。

Description

一种基于多元光谱数据的智能校正方法、系统及装置
技术领域
本发明涉及光谱数据处理领域,尤其涉及一种光谱仪采集的多元光谱数据评价相关的智能校正方法、系统及装置。
背景技术
目前市售的各种光谱仪配套软件中在提供数据采集功能的基础上,基本都可以提供一些基本的定量和定性校正方法,例如对光谱中某一波长处的响应值或者多个波长响应值组成的面积值,进行一元线性回归分析。提供的一元基本校正方法使用简便,适合在不同行业应用中使用。
然而,能够提供多元光谱数据校正方法的国内外商用软件较少,并且操作十分复杂,应用范围窄。
目前,具有多元光谱数据校正方法的软件,判定定量模型的优劣方法基本都采用验证模型的验证标准误差SEV的大小来判断;判定定性模型的优劣方法基本都采用验证模型的识别率的大小来判断。
利用这些多元光谱数据校正软件提供的方法,建立高质量的多元光谱数据模型,是一件不容易的事情,进行校正方法测试过程也是非常耗时的,需要用户尝试不同的校正方法,重复建立多个多元光谱数据校正模型。
因为很多用户没有专业的化学计量学和光谱分析的经验,建立的校正模型质量较差,经常会发生待预测的未知光谱对模型特征不灵敏的情况。
并且,实际多元光谱数据模型建立中,在用户合理选择多元光谱数据校正方法的前提之下,不同定量验证模型的验证标准误差SEV和定性验证模型的识别率常常相差不大,基本上是通过用户的经验和“猜测”完成最终校正模型的选择工作。
在使用定量模型的验证标准误差SEV和定性模型的验证识别率大小来判定的情况下,基本可以保证校正模型预测的准确性。但是由于不同用户对模型预测能力要求不同,例如在注重模型的稳定性,或者在注重模型精确性等情况下,仅仅通过定量验证模型的验证标准误差SEV和定性验证模型的识别率大小来判断模型优劣无法满足用户的需求。
发明内容
针对现有技术的不足,本发明提供了一种在尽可能短的时间内智能确定多元光谱数据校正模型最优边界条件的实现方法,非常适用于食品、农产品、制药和化工等行业工厂实际使用。具体而言,本发明提供了以下的技术方案:
一方面,本发明提供了一种基于多元光谱数据的智能校正方法,所述方法包括:
步骤1、输入数据初始化,得到初始化输入数据;所述初始化输入数据包括多元光谱数据、化学组分数据;
步骤2、多元光谱分析专家知识库接收所述初始化输入数据,基于多元光谱分析专家知识库包含的方法对所述初始化输入数据进行处理,得到相应的输出数据,从而完成多元光谱分析专家知识库初始化;所述知识库包括异常剔除方法、样品集划分方法、波长选择方法、光谱数据预处理方法、校正算法组、因子选择规则和校正次数;所述异常剔除方法用于对多元光谱数据、化学组分数据进行异常数据分析并剔除不适合校正的数据;所述样品集划分方法用于划分校正集和验证集;
步骤3、对选择的所述多元光谱数据、化学组分数据进行智能校正,形成m个校正模型;所述智能校正包括定性校正、定量校正;
步骤4、显示m个校正模型的综合评价指标S值结果对比,选择并推荐最优校正模型,并存储最优校正模型。
优选地,所述步骤2中,初始化输入数据还包括仪器类型、探测器类型、样品的物质形态类型、模型校正类型、模型精确性类型。
优选地,所述步骤3中,定量校正包括多元线性回归、主成分回归、偏最小二乘回归中的一种或其任意组合。
优选地,所述步骤3中,定性校正包括簇类的独立软模式、偏最小二乘判别分析中的一种或其任意组合。
优选地,所述步骤3中,对选择的所述多元光谱数据、化学组分数据进行智能校正进一步包括:
步骤31、对选择的所述多元光谱数据、化学组分数据进行异常数据分析,剔除不适合校正的数据;
步骤32、将剔除异常数据后的已选数据分为校正集和验证集,校正集独立于验证集。
步骤33、针对校正集进行校正计算,在第一个校正模型中,不需要波长选择和数据预处理;所述数据预处理指对所述校正集中的多元光谱数据进行预处理;
步骤34、对步骤33中的校正计算结果进行校正优化,并进行波长选择和数据预处理;
步骤35、基于多元光谱分析专家知识库的校正次数,建立m个校正模型;
步骤36、所述m个校正模型分别对校正集和验证集进行预测,得到预测结果;
步骤37、基于所述预测结果,计算m个校正模型的综合评价指标S,并存储所述S至每个校正模型中。
优选地,所述综合评价指标S值的获取方式为:
步骤41、判定校正类型,若为定量校正,则转至步骤42,若为定性校正,则转至步骤43;
步骤42、获取对校正集和验证集数据的预测结果,计算模型的校正标准误差、校正决定系数、验证标准误差、验证决定系数、验证误差、验证平均误差、验证误差的标准偏差、T检验值;随后计算模型的定量评价指标,并转至步骤44;所述定量评价指标包括误差一致性、模型相似性、模型有效性、偏差准确性、残差准确性、误差精确性、验证排斥性中的一种或其任意组合;
步骤43、获取对校正集和验证集数据的预测结果,计算模型的校正集样品正确识别个数、校正集样品识别错误个数、校正集样品不识别个数、验证集样品正确识别个数、验证集样品识别错误个数、验证集样品不识别个数;随后计算模型的定性评价指标,并转至步骤44;所述定性评价指标包括识别一致性、校正不识别率、校正错误识别率、验证不识别率、验证错误识别率、校正聚类指数、校正干扰指数中的一种或其任意组合;
步骤44、计算综合评价指标S值:
其中,Si是第i个定性评价指标或定量评价指标;Wi是第i个定性评价指标或定量评价指标对应的权重。
另一方面,本发明还提供了一种基于多元光谱数据的智能校正系统,该系统包括:
数据初始化模块,用于对输入数据初始化,得到初始化输入数据;所述初始化输入数据包括多元光谱数据、化学组分数据;
多元光谱分析专家知识库模块,用于基于初始化输入数据,通过多元光谱分析专家知识库模块中包含的方法,对初始化输入数据进行相应的处理;多元光谱分析专家知识库模块包括异常剔除方法、样品集划分方法、波长选择方法、光谱数据预处理方法、校正算法组、因子选择规则和校正次数;所述异常剔除方法用于对多元光谱数据、化学组分数据进行异常数据分析并剔除不适合校正的数据;所述样品集划分方法用于划分校正集和验证集;
S值权重专家知识库模块,用于在计算综合评价指标S值过程中,确定定性评价指标或定量评价指标对应的权重;
智能校正模块,用于对选择的所述多元光谱数据、化学组分数据进行智能校正,形成m个校正模型;所述智能校正包括定性校正、定量校正;
评价模块,用于显示m个校正模型的综合评价指标S值结果对比,选择并推荐最优校正模型。
优选地,所述评价模块进一步包括:
定量校正评估单元,用于获取对校正集和验证集数据的预测结果,计算模型的校正标准误差、校正决定系数、验证标准误差、验证决定系数、验证误差、验证平均误差、验证误差的标准偏差、T检验值;以及计算模型的定量评价指标;所述定量评价指标包括误差一致性、模型相似性、模型有效性、偏差准确性、残差准确性、误差精确性、验证排斥性中的一种或其任意组合;
定性校正评估单元,用于获取对校正集和验证集数据的预测结果,计算模型的校正集样品正确识别个数、校正集样品识别错误个数、校正集样品不识别个数、验证集样品正确识别个数、验证集样品识别错误个数、验证集样品不识别个数;以及计算模型的定性评价指标;所述定性评价指标包括识别一致性、校正不识别率、校正错误识别率、验证不识别率、验证错误识别率、校正聚类指数、校正干扰指数中的一种或其任意组合;
综合评价指标计算单元,用于计算综合评价指标S值:
其中,Si是第i个定性评价指标或定量评价指标;Wii是第i个定性评价指标或定量评价指标对应的权重。
又一方面,本发明还提供了一种基于多元光谱数据的智能校正装置,该装置至少包括处理器及存储器,所述存储器中存储有可执行指令,所述处理器可以读取所述存储器中的所述可执行指令以执行如上所述的基于多元光谱数据的智能校正方法。
与现有技术相比,本申请的技术方案具有以下优点:
多元光谱分析专家知识库、S值权重专家知识库和综合评价指标S值一起可以实现在尽可能短的时间内建立多元光谱数据智能校正模型。不需要用户具有专业的化学计量学和光谱分析的知识,操作过程非常简单,所有校正模型建立通过计算机智能循环计算完成。
不仅仅使用定量模型的验证标准误差SEV和定性模型的验证识别率大小判定定量校正模型的优劣,而是通过定义的综合评价指标S值判定校正模型优劣,多元光谱分析专家知识库和S值权重专家知识库推荐最优模型给用户。可以满足不同用户对定量校正模型的需求。
附图说明
图1为本发明实施例的多元光谱数据智能校正的流程图;
图2为本发明实施例的输入初始化的流程图;
图3为本发明实施例的多元光谱分析专家知识库初始化的流程图;
图4为本发明实施例的智能校正方法流程图;
图5为本发明实施例的S值计算流程图。
具体实施例
下面将结合本发明实施例中的图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明的目的是规定一种在尽可能短的时间内智能确定多元光谱数据校正模型最优边界条件的实现方法、系统或其装置。非常适用于食品、农产品、制药和化工等行业工厂实际使用。
通过对用户输入的光谱数据一些基本性质,例如仪器类型,例如紫外、可见、红外、近红外等,探测器类型,例如Si、InGaAs等,样品的物质形态,例如固体、液体和气体,模型校正类型,例如定量、定性,模型精确性要求,例如低、一般、高,等信息,结合多元光谱分析专家知识库,可以智能建立m个多元光谱数据校正模型。
m个多元光谱数据校正模型建立过程中,由于多元光谱分析专家知识库存在,无需用户多次尝试不同的校正方法建立模型,全部通过计算机智能循环计算完成,可以大大减少计算时间。
通过定义综合评价指标S值判定模型优劣:定量模型S值可以从误差一致性、模型相似性、模型有效性、偏差准确性、残差准确性、误差精确性和验证排斥性进行评价;定性模型S值可以从识别一致性、校正不识别率、校正错误识别率、验证不识别率、验证错误识别率、校正聚类指数和校正干扰指数进行评价。并结合多元光谱分析专家知识库和S值权重专家知识库推荐最优模型给用户,S值权重专家知识库主要用于在计算综合评价指标S值过程中,确定定性评价指标或定量评价指标对应的权重,该权重会根据多元光谱数据、化学组分数据以及用户各种输入选择的不同数据进行调整,权重的具体调整方式,可以参考不同模型针对不同波长处理的准确性确定,也可以基于经验值来确定,这些权重主要是作为确定最优模型的参考使用,本领域技术人员可以依据所处理的光谱数据范围和使用要求进行调整,也可以采用特定的算法方式来确定权重数值,例如参考输入数据以及用户对设备类型等的输入数据来确定,这是是本领域中常规的方式,此处不再赘述。
以下通过一个具体的应用实例来说明本发明技术方案的实现方式。在一个具体的实施方式中可以通过如下方式实现:
多元光谱数据智能校正的基本流程,首先是输入初始化,然后对多元光谱分析专家知识库进行初始化,接下来是进行智能校正方法计算,对生成的多个校正模型计算综合评价指标S值,并显示全部模型的结果对比(这一结果对比例如可以是综合评价指标的对比、特定某些评价指标的对比等),多元光谱分析专家知识库推荐最优校正模型,并存储最优校正模型,完成智能校正全过程。具体流程见附图1。
输入:
从读取的多元光谱和化学组分数据中进行数据选择,然后选择仪器类型/探测器类型、样品的物质形态类型、模型校正类型、模型精确性类型等,完成数据初始化。具体流程见附图2。
多元光谱分析专家知识库:
包括已选择的仪器类型/探测器类型、样品的物质形态类型、模型校正类型、模型精确性类型、多元光谱数据和化学组分数据6个初始输入数据。基于多元光谱分析专家知识库,对多元光谱数据、化学组分数据以及用户各种输入选择数据进行对应的算法分析,为用户在后期进行智能校正的时候确定使用哪些算法和规则,并计算出校正次数,确保智能校正最优进行,具体即对这6个初始输入数据进行分析,利用知识库中包含的异常剔除算法、样品集划分算法、波长选择算法、预处理算法、校正算法组、因子选择规则和校正次数获得对应的7个输出数据,也即调用上述知识库中对应的算法,在进行智能校正的时候,对数据集进行相应的处理,并且,该知识库也需要对输入的初始数据进行数据集划分,即形成校正集和验证集。具体流程见附图3。
智能校正方法:
校正的过程是从读取已选数据开始的。已选数据包括样本光谱和化学组分数据。为了建立一种模型适应性好的校正方法,需要采集具有代表性样本的光谱。并且每个样本的光谱需要多次测量,随着测量次数的增加,光谱的信噪比可能得到改善,不均匀性可能得到补偿。
实际模型校正由定性校正和定量校正两部分组成。在模型校正时,对样本分配了两个相互独立的不同数据集,即校正集和验证集。然后建立校正集校正模型,利用该模型对验证集进行预测,并对预测结果进行评价。
定量校正的计算方法有很多种,常用的计算方法有多元线性回归(MLR)、主成分回归(PCR)和偏最小二乘回归(PLS)等。
多元线性回归(MLR)是线性回归的多维度的扩展。通过对几个特定波长的数据进行回归分析后,建立定量校正模型,不需要进行主成分分析(PCA)。
主成分回归(PCR)分两个步骤进行:第一步是对加载的多元光谱数据进行主成分分析(PCA)。第二步是通过多元线性回归(MLR)得到相关系数,并建立定量校正模型。能够有效的降低自变量的维数,消除多重共线性的影响。
偏最小二乘回归(PLS)相对于主成分回归(PCR),还将化学组分参考值用于计算,达到能够解释自变量同时也能够解释因变量的方向的目的。相比于主成分回归(PCR)将光谱数据缩减为最具优势的维度,而偏最小二乘回归(PLS)将定位于最相关的维度,即预测值与实际值之间的最佳一致性。
定性校正的计算方法也有很多种,簇类的独立软模式(SIMCA)、偏最小二乘判别分析(PLS-DA)等。
簇类的独立软模式(SIMCA)基于主成分分析(PCA)的有监督的模式识别方法,利用先验分类知识,对每一类别建立一个PCA类模型,然后利用该类模型判别待测样本的类别归属。
偏最小二乘判别分析(PLS-DA)基于偏最小二乘回归(PLS)的有监督的模式识别方法,利用先验分类知识,将类别作为分类变量量化。然后将多元光谱数据与分类变量进行PLS校正,建立PLS-DA模型,然后利用该类模型判别待测样本的类别归属。
智能校正方法具体流程:
步骤31、对选择的所述多元光谱数据、化学组分数据进行异常数据分析,剔除不适合校正的数据;
步骤32、将剔除异常数据后的已选数据分为校正集和验证集,校正集独立于验证集。
步骤33、针对校正集进行校正计算,在第一个校正模型中,不需要波长选择和数据预处理;所述数据预处理指对所述校正集中的多元光谱数据进行预处理;
步骤34、对步骤33中的校正计算结果进行校正优化,并进行波长选择和数据预处理。波长选择是可以减少建模的变量数,简化建立的模型,而且剔除了相关性小的变量或者非线性的变量,使得建立的模型具有更强的预测能力和更好的稳健性,从而提升了校正模型的预测精度和建模效率,波长选择主要分为波长筛选和波段筛选两类,本领域技术人员可以根据实际需要或模型建立的需要,针对重点关注的波长或者波段进行选择或筛选,具体的筛选方式可采用人工筛选或者按照特定的波长条件筛选,此处不再赘述。
预处理主要针对多元光谱数据,光谱数据预处理的目的就是消除多元光谱数据的无关信息和噪声,提取出有用的信号,提高多元光谱数据与化学组分数据之间的相关性,由此获得高信噪比,低背景干扰的分析信号,从而提高建模效果,光谱数据的预处理或者去噪处理属于本领域中的公知常识,本领域技术人员可以基于具体需要进行选择,此处不再赘述。
步骤35、基于多元光谱分析专家知识库的校正次数,建立m个校正模型;
步骤36、所述m个校正模型分别对校正集和验证集进行预测,得到预测结果;
步骤37、基于所述预测结果,计算m个校正模型的综合评价指标S,并存储所述S至每个校正模型中。
上述的各个步骤,并非必须严格按照这些步骤全部涵盖在智能校正的过程中,其中的部分步骤可以基于实际需要设置在其他过程中,以完成数据的相应处理即可,例如,步骤31、32,完全可以设置在多元光谱分析专家知识库中进行相应的处理,以实现剔除异常数据或者完成校准集、验证集的分配等,本领域技术人员应当明了,此处仅以数据的必要处理环节为主,而并不以具体步骤包含在哪一阶段处理为主,本领域技术人员完全可以根据实际系统设置需要进行自由配置或调整。
综合评价指标S值计算:
在一个优选的实施方式中,可以通过定义综合评价指标S值判定模型优劣:定量模型S值可以从误差一致性、模型相似性、模型有效性、偏差准确性、残差准确性、误差精确性和验证排斥性进行评价;定性模型S值可以从识别一致性、校正不识别率、校正错误识别率、验证不识别率、验证错误识别率、校正聚类指数和校正干扰指数进行评价。并结合多元光谱分析专家知识库和S值权重专家知识库推荐最优模型给用户。具体流程见附图5。
Si—第i个综合评价指标S值(即第i个定性评价指标或定量评价指标,以下同);
Wi—第i个综合评价指标S值(即第i个定性评价指标或定量评价指标)对应的权重,其值由S值权重专家知识库确定。
优选的,S值区间可以设置为[0,1],S值越大代表定量校正模型越好,由S值计算公式可知完美模型的S值为1,即。由此可知∑iSi×Wi代表的是对模型影响不好的部分,例如对于验证决定系数用/>带入S计算公式。因此∑iSi×Wi是模型建立过程中产生各种误差、偏差等的总和。通过对所有智能校正方法模型的S值进行分析,推荐最优模型给用户。此处,S值的区间也可以设置为其他数值区间,只要能够达到对模型的评价目的即可,本领域技术人员可以根据实际需求和S值的计算方式进行适当调整。
一、定量校正模型指标:
1、校正模型指标
Y为n个校正集的参考值,是对应的预测值。
1.1校正标准误差SEC
式中:
d—校正模型的自由度,等于n-k,其中n为校正集数量,k为模型变量数;
—第i个校正集光谱的模型预测值;
Yi—第i个校正集光谱的参考值。
注:均值中心化处理在计算平均值时会用去一个自由度。若在建立校正模型前对多元光谱和化学组分数据进行了均值化中心处理,则d=n-k-1。
1.2校正决定系数
校正模型可解释的变异占总变异的比重,是评价模型拟合程度的一项指标。
—n个参考值的均值。
2、验证模型指标:
V为v个验证集的参考值,是对应的预测值。
2.1验证标准误差SEV
v—验证集数量;
—第i个验证集光谱的模型预测值;
Vi—第i个验证集光谱的参考值。
2.2验证决定系数
验证模型可解释的变异占总变异的比重,是评价模型拟合程度的一项指标。
—v个参考值的均值。
2.3验证误差E
V—v个验证集的参考值;
—v个验证集的参考值对应的预测值。
2.4验证平均误差BIASv
2.5验证误差的标准偏差SDV
Ei—第i个验证集光谱误差值。
2.6T检验值
采用T检验方法确定验证集的预测值是否有显著性偏差。
3、S值指标:
误差一致性S1
模型相似性S2
模型有效性S3
偏差准确性S4
Vmax—为v个验证集的参考值的最大值;
Vmin—为v个验证集的参考值的最小值。
残差准确性S5
误差精确性S6
Vmax—为v个验证集的参考值的最大值;
Vmin—为v个验证集的参考值的最小值。
验证排斥性S7
Tthreshold—为v个验证集的T检验值。
二、定性校正模型指标:
Ctrue—校正集正确识别的个数;
cfalse—校正集错误识别的个数;
cnot—校正集不识别的个数;
n—校正集的个数;
k—校正集的实际类别数;
l—校正集的模型预测类别数;
Vtrue—验证集正确识别的个数;
Vfalse—验证集错误识别的个数;
Vnot—验证集不识别的个数;
v—验证集的个数;
S值指标:
识别一致性S1
校正不识别率S2
校正错误识别率S3
验证不识别率S4
验证错误识别率S5
校正聚类指数S6
S6=|l-k|
校正干扰指数S7
Ei—第i类校正集中两个距离最远马氏距离的差值;
—第i类校正集中马氏距离的均值;
—与第i类校正集最接近类马氏距离的均值。
实施例2
在又一个具体的实施方式中,本发明的技术方案还可以通过建立系统的方式实现,本领域技术人员应当明确,该系统中对于各个模块的设置方式,是可以依据方案的设计需要进行人为调整的,但是这些常规的调整也应当视为落入本申请的保护范围之内。在一个较优的实施方式中,该系统可以包括:
数据初始化模块,用于对输入数据初始化,得到初始化输入数据;所述初始化输入数据包括多元光谱数据、化学组分数据;
多元光谱分析专家知识库模块,用于基于初始化输入数据,通过多元光谱分析专家知识库模块中包含的方法,对初始化输入数据进行相应的处理;多元光谱分析专家知识库模块包括异常剔除方法、样品集划分方法、波长选择方法、光谱数据预处理方法、校正算法组、因子选择规则和校正次数;所述异常剔除方法用于对多元光谱数据、化学组分数据进行异常数据分析并剔除不适合校正的数据;所述样品集划分方法用于划分校正集和验证集;
S值权重专家知识库,用于在计算综合评价指标S值过程中,确定定性评价指标或定量评价指标对应的权重;
智能校正模块,用于对选择的所述多元光谱数据、化学组分数据进行智能校正,形成m个校正模型;所述智能校正包括定性校正、定量校正;
评价模块,用于显示m个校正模型的综合评价指标S值结果对比,选择并推荐最优校正模型。
优选地,所述评价模块进一步包括:
定量校正评估单元,用于获取对校正集和验证集数据的预测结果,计算模型的校正标准误差、校正决定系数、验证标准误差、验证决定系数、验证误差、验证平均误差、验证误差的标准偏差、T检验值;以及计算模型的定量评价指标;所述定量评价指标包括误差一致性、模型相似性、模型有效性、偏差准确性、残差准确性、误差精确性、验证排斥性中的一种或其任意组合;
定性校正评估单元,用于获取对校正集和验证集数据的预测结果,计算模型的校正集样品正确识别个数、校正集样品识别错误个数、校正集样品不识别个数、验证集样品正确识别个数、验证集样品识别错误个数、验证集样品不识别个数;以及计算模型的定性评价指标;所述定性评价指标包括识别一致性、校正不识别率、校正错误识别率、验证不识别率、验证错误识别率、校正聚类指数、校正干扰指数中的一种或其任意组合;
综合评价指标计算单元,用于计算综合评价指标S值:
其中,Si是第i个定性评价指标或定量评价指标;Wi是第i个定性评价指标或定量评价指标对应的权重。
优选地,所述初始化输入数据还包括仪器类型、探测器类型、样品的物质形态类型、模型校正类型、模型精确性类型。
优选地,所述智能校正模块还可以基于多元光谱分析专家知识库中的异常判断准则,对选择的所述多元光谱数据、化学组分数据进行异常数据分析,剔除不适合校正的数据;以及将剔除异常数据后的已选数据分为校正集和验证集,校正集独立于验证集。
优选地,定量校正包括多元线性回归、主成分回归、偏最小二乘回归中的一种或其任意组合。
优选地,定性校正包括簇类的独立软模式、偏最小二乘判别分析中的一种或其任意组合。
此外,本发明的技术方案还可以通过建立装置的方式来实现,该装置至少包括处理器及存储器,所述存储器中存储有可执行指令,所述处理器可以读取所述存储器中的所述可执行指令以执行如上所述的基于多元光谱数据的智能校正方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (6)

1.一种基于多元光谱数据的智能校正方法,其特征在于,所述方法包括:
步骤1、输入数据初始化,得到初始化输入数据;所述初始化输入数据包括多元光谱数据、化学组分数据;
步骤2、多元光谱分析专家知识库接收所述初始化输入数据,基于多元光谱分析专家知识库包含的方法对所述初始化输入数据进行处理,得到相应的输出数据,从而完成多元光谱分析专家知识库初始化;所述知识库包括异常剔除方法、样品集划分方法、波长选择方法、光谱数据预处理方法、校正算法组、因子选择规则和校正次数;所述异常剔除方法用于对多元光谱数据、化学组分数据进行异常数据分析并剔除不适合校正的数据;所述样品集划分方法用于划分校正集和验证集;
步骤3、对选择的所述多元光谱数据、化学组分数据进行智能校正,形成m个校正模型;所述智能校正包括定性校正、定量校正;
步骤4、显示m个校正模型的综合评价指标S值结果对比,选择并推荐最优校正模型,并存储最优校正模型;
所述步骤3中,对选择的所述多元光谱数据、化学组分数据进行智能校正进一步包括:
步骤31、对选择的所述多元光谱数据、化学组分数据进行异常数据分析,剔除不适合校正的数据;
步骤32、将剔除异常数据后的已选数据分为校正集和验证集,校正集独立于验证集;
步骤33、针对校正集进行校正计算,在第一个校正模型中,不需要波长选择和数据预处理;所述数据预处理指对所述校正集中的多元光谱数据进行预处理;
步骤34、对步骤33中的校正计算结果进行校正优化,并进行波长选择和数据预处理;
步骤35、基于多元光谱分析专家知识库的校正次数,建立m个校正模型;
步骤36、所述m个校正模型分别对校正集和验证集进行预测,得到预测结果;
步骤37、基于所述预测结果,计算m个校正模型的综合评价指标S,并存储所述S至每个校正模型中;
所述综合评价指标S值的获取方式为:
步骤41、判定校正类型,若为定量校正,则转至步骤42,若为定性校正,则转至步骤43;
步骤42、获取对校正集和验证集数据的预测结果,计算模型的校正标准误差、校正决定系数、验证标准误差、验证决定系数、验证误差、验证平均误差、验证误差的标准偏差、T检验值;随后计算模型的定量评价指标,并转至步骤44;所述定量评价指标包括误差一致性、模型相似性、模型有效性、偏差准确性、残差准确性、误差精确性、验证排斥性中的一种或其任意组合;
步骤43、获取对校正集和验证集数据的预测结果,计算模型的校正集样品正确识别个数、校正集样品识别错误个数、校正集样品不识别个数、验证集样品正确识别个数、验证集样品识别错误个数、验证集样品不识别个数;随后计算模型的定性评价指标,并转至步骤44;所述定性评价指标包括识别一致性、校正不识别率、校正错误识别率、验证不识别率、验证错误识别率、校正聚类指数、校正干扰指数中的一种或其任意组合;
步骤44、计算综合评价指标S值:
其中,Si是第i个定性评价指标或定量评价指标;Wi是第i个定性评价指标或定量评价指标对应的权重。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中,初始化输入数据还包括仪器类型、探测器类型、样品的物质形态类型、模型校正类型、模型精确性类型。
3.根据权利要求1所述的方法,其特征在于,所述步骤3中,定量校正包括多元线性回归、主成分回归、偏最小二乘回归中的一种或其任意组合。
4.根据权利要求1所述的方法,其特征在于,所述步骤3中,定性校正包括簇类的独立软模式、偏最小二乘判别分析中的一种或其任意组合。
5.一种基于多元光谱数据的智能校正系统,其特征在于,所述系统包括:
数据初始化模块,用于对输入数据初始化,得到初始化输入数据;所述初始化输入数据包括多元光谱数据、化学组分数据;
多元光谱分析专家知识库模块,用于基于初始化输入数据,通过多元光谱分析专家知识库模块中包含的方法,对初始化输入数据进行相应的处理;多元光谱分析专家知识库模块包括异常剔除方法、样品集划分方法、波长选择方法、光谱数据预处理方法、校正算法组、因子选择规则和校正次数;所述异常剔除方法用于对多元光谱数据、化学组分数据进行异常数据分析并剔除不适合校正的数据;所述样品集划分方法用于划分校正集和验证集;
S值权重专家知识库模块,用于在计算综合评价指标S值过程中,确定定性评价指标或定量评价指标对应的权重;
智能校正模块,用于对选择的所述多元光谱数据、化学组分数据进行智能校正,形成m个校正模型;所述智能校正包括定性校正、定量校正;
评价模块,用于显示m个校正模型的综合评价指标S值结果对比,选择并推荐最优校正模型;
对选择的所述多元光谱数据、化学组分数据进行智能校正的具体方式为:
步骤31、对选择的所述多元光谱数据、化学组分数据进行异常数据分析,剔除不适合校正的数据;
步骤32、将剔除异常数据后的已选数据分为校正集和验证集,校正集独立于验证集;
步骤33、针对校正集进行校正计算,在第一个校正模型中,不需要波长选择和数据预处理;所述数据预处理指对所述校正集中的多元光谱数据进行预处理;
步骤34、对步骤33中的校正计算结果进行校正优化,并进行波长选择和数据预处理;
步骤35、基于多元光谱分析专家知识库的校正次数,建立m个校正模型;
步骤36、所述m个校正模型分别对校正集和验证集进行预测,得到预测结果;
步骤37、基于所述预测结果,计算m个校正模型的综合评价指标S,并存储所述S至每个校正模型中;
所述评价模块进一步包括:
定量校正评估单元,用于获取对校正集和验证集数据的预测结果,计算模型的校正标准误差、校正决定系数、验证标准误差、验证决定系数、验证误差、验证平均误差、验证误差的标准偏差、T检验值;以及计算模型的定量评价指标;所述定量评价指标包括误差一致性、模型相似性、模型有效性、偏差准确性、残差准确性、误差精确性、验证排斥性中的一种或其任意组合;
定性校正评估单元,用于获取对校正集和验证集数据的预测结果,计算模型的校正集样品正确识别个数、校正集样品识别错误个数、校正集样品不识别个数、验证集样品正确识别个数、验证集样品识别错误个数、验证集样品不识别个数;以及计算模型的定性评价指标;所述定性评价指标包括识别一致性、校正不识别率、校正错误识别率、验证不识别率、验证错误识别率、校正聚类指数、校正干扰指数中的一种或其任意组合;
综合评价指标计算单元,用于计算综合评价指标S值:
其中,Si是第i个定性评价指标或定量评价指标;Wi是第i个定性评价指标或定量评价指标对应的权重。
6.一种基于多元光谱数据的智能校正装置,其特征在于,所述装置至少包括处理器及存储器,所述存储器中存储有可执行指令,所述处理器可以读取所述存储器中的所述可执行指令以执行如权利要求1至4之一所述的基于多元光谱数据的智能校正方法。
CN202010307645.5A 2020-04-17 2020-04-17 一种基于多元光谱数据的智能校正方法、系统及装置 Active CN111415715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010307645.5A CN111415715B (zh) 2020-04-17 2020-04-17 一种基于多元光谱数据的智能校正方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010307645.5A CN111415715B (zh) 2020-04-17 2020-04-17 一种基于多元光谱数据的智能校正方法、系统及装置

Publications (2)

Publication Number Publication Date
CN111415715A CN111415715A (zh) 2020-07-14
CN111415715B true CN111415715B (zh) 2023-09-01

Family

ID=71493673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010307645.5A Active CN111415715B (zh) 2020-04-17 2020-04-17 一种基于多元光谱数据的智能校正方法、系统及装置

Country Status (1)

Country Link
CN (1) CN111415715B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113588572B (zh) * 2021-08-04 2024-03-19 广州市华南自然资源科学技术研究院 一种农田重金属在线检测校正模型智能管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004280591A (ja) * 2003-03-17 2004-10-07 Ntt Data Corp マルチスペクトル画像処理装置、マルチスペクトル画像処理方法、およびコンピュータが実行するためのプログラム
CN102636450A (zh) * 2012-04-18 2012-08-15 西北农林科技大学 基于近红外光谱技术无损检测枸杞中枸杞多糖含量的方法
CN107290305A (zh) * 2017-07-19 2017-10-24 中国科学院合肥物质科学研究院 一种基于集成学习的近红外光谱定量建模方法
CN110470628A (zh) * 2018-12-28 2019-11-19 山东益丰生化环保股份有限公司 一种近红外检测工业硫脲生产料液中硫氢根含量的方法
CN110749565A (zh) * 2019-11-29 2020-02-04 山东大学 一种快速鉴别普洱茶存储年份的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004280591A (ja) * 2003-03-17 2004-10-07 Ntt Data Corp マルチスペクトル画像処理装置、マルチスペクトル画像処理方法、およびコンピュータが実行するためのプログラム
CN102636450A (zh) * 2012-04-18 2012-08-15 西北农林科技大学 基于近红外光谱技术无损检测枸杞中枸杞多糖含量的方法
CN107290305A (zh) * 2017-07-19 2017-10-24 中国科学院合肥物质科学研究院 一种基于集成学习的近红外光谱定量建模方法
CN110470628A (zh) * 2018-12-28 2019-11-19 山东益丰生化环保股份有限公司 一种近红外检测工业硫脲生产料液中硫氢根含量的方法
CN110749565A (zh) * 2019-11-29 2020-02-04 山东大学 一种快速鉴别普洱茶存储年份的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
史云颖等.多元校正模型传递方法的进展与应用.《分析化学( FENXI HUAXUE) 评述与进展》.2019,第47卷(第4期),第479-487页. *

Also Published As

Publication number Publication date
CN111415715A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN105928901B (zh) 一种定性定量相结合的近红外定量模型构建方法
CN109799269B (zh) 基于动态特征重要度的电子鼻气体传感器阵列优化方法
CN104949936B (zh) 基于优化偏最小二乘回归模型的样品成份测定方法
US7899625B2 (en) Method and system for robust classification strategy for cancer detection from mass spectrometry data
CN103528990B (zh) 一种近红外光谱的多模型建模方法
CN109115692B (zh) 一种光谱数据分析方法及装置
CN117349683B (zh) 基于光谱数据的汽车配件涂装色差异常检测系统
CN107563448B (zh) 基于近红外光谱分析的样本空间聚类划分法
CN112285056B (zh) 一种用于光谱样品个性化校正集选择及建模方法
Fidêncio et al. Application of artificial neural networks to the classification of soils from Sao Paulo state using near-infrared spectroscopy
CN111415715B (zh) 一种基于多元光谱数据的智能校正方法、系统及装置
CN113758890A (zh) 一种气体浓度计算方法、装置、设备及存储介质
CN109283153B (zh) 一种酱油定量分析模型的建立方法
Oliveri et al. Data analysis and chemometrics
CN110186871A (zh) 一种茶鲜叶产地的判别方法
CN108872142B (zh) 一种波长选择算法中多参数的选择优化方法
CN113984708B (zh) 一种化学指标检测模型的维护方法和装置
CN114778484B (zh) 茶叶品质等级分类方法及装置、设备、存储介质
CN113607683A (zh) 一种近红外光谱定量分析的自动建模方法
Chen et al. Modeling method and miniaturized wavelength strategy for near-infrared spectroscopic discriminant analysis of soy sauce brand identification
JP7443135B2 (ja) 情報処理装置およびデータベース生成方法
CN113674814B (zh) 一种光谱定量分析模型的构建方法及装置
KR20230011110A (ko) 스펙트럼 학습기반 물질농도 측정장치 및 방법
Kalivas et al. Automatic food and beverage authentication and adulteration detection by classification hybrid fusion
Anderson et al. Assessment of Pareto calibration, stability, and wavelength selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant