CN108267422A - 基于近红外光谱分析的异常样本剔除法 - Google Patents

基于近红外光谱分析的异常样本剔除法 Download PDF

Info

Publication number
CN108267422A
CN108267422A CN201711471959.3A CN201711471959A CN108267422A CN 108267422 A CN108267422 A CN 108267422A CN 201711471959 A CN201711471959 A CN 201711471959A CN 108267422 A CN108267422 A CN 108267422A
Authority
CN
China
Prior art keywords
sample
value
exceptional
absolute error
actual value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711471959.3A
Other languages
English (en)
Other versions
CN108267422B (zh
Inventor
刘彤
向轶
许定舟
曾永平
肖青青
凌亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Zhongtaxun Technology Co.,Ltd.
Original Assignee
Guangzhou Sondon Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Sondon Network Technology Co Ltd filed Critical Guangzhou Sondon Network Technology Co Ltd
Priority to CN201711471959.3A priority Critical patent/CN108267422B/zh
Publication of CN108267422A publication Critical patent/CN108267422A/zh
Application granted granted Critical
Publication of CN108267422B publication Critical patent/CN108267422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N21/359Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于近红外光谱分析的异常样本剔除法,首先根据当前所有样本建立初始模型;然后计算每个样本的真实值和预测值的绝对误差,预设绝对误差限制值,真实值剔除的两个限值yMin、yMax;将所有样本按照绝对误差大小按照从大到小排序,针对排序第i位的样本,若其绝对误差大于绝对误差限制值,同时,该样本的真实值大于yMin,且小于yMax,则判定该样本为异常样本,将该样本剔除。本发明方法能够尽可能地模拟人工的剔样操作,尽可能避免剔除正常样品。并且,能够通过调整相关参数来控制剔除样本的比例与次数,从而在可接受的时耗内完成剔样步骤,提升后续构建的模型质量。

Description

基于近红外光谱分析的异常样本剔除法
技术领域
本发明涉及近红外光谱分析研究领域,特别涉及一种基于近红外光谱分析的异常样本剔除法。
背景技术
近红外光(NIR)是介于紫外-可见光和中红外之间的电磁波,其波长范围为700~2500nm。近红外光能反映含氢基团X—H(如C—H、N—H、O—H等)振动的倍频和合频吸收,不同基团(如甲基、亚甲基、苯环等)或同一基团在不同化学环境中的近红外光吸收波长与强度都有明显差别。因此,近红外光非常适用于含氢有机物质的物化参数测量。
基于现代化学计量学方法,近红外光谱既可以用于定量分析也可以用于定性分析。其中,针对定量分析,该技术应用实施过程中需要前期进行一些必要的准备工作,包括:
(1)具有广泛代表性的定标和预测样品集的收集和成份理化定量分析;
(2)定标和预测样品集的近红外光谱采集和光谱解析;
(3)将物质待测理化成份与(2)中所采光谱建立回归模型(定标模型);
(4)使用已有定标模型对未知理化成份含量的物质光谱进行实际预测分析。
由于(1)、(2)步骤中可能存在误操作或光谱仪器本身误差等因素,导致异常样品的出现。这些异常样品将会影响(3)中所建立起的回归模型,从而导致(4)中的预测分析不准确。因此,在(3)建立回归模型的时候,需要从数据集中将这些异常样品剔除。
然而,目前大多数剔样步骤都需要人工干预,或简单的使用模型对每个样品进行预测,并通过计算预测值与真实值之间的绝对误差来剔除误差较大的异常样品,但该方法效果不好,常常会导致剔除某些正常样品(如理化边缘样品、特征样品等),造成错误。
为此,研究一种能够准确、自动剔除异常样本的方法具有重要的实用价值。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于近红外光谱分析的异常样本剔除法,该方法能够尽可能地模拟人工的剔样操作,尽可能避免剔除正常样品。并且,能够通过调整相关参数来控制剔除样本的比例与次数,从而在可接受的时耗内完成剔样步骤,提升后续构建的模型质量。
本发明的目的通过以下的技术方案实现:基于近红外光谱分析的异常样本剔除法,包括步骤:
根据当前所有样本建立初始模型;
根据初始模型,计算每个样本的真实值和预测值的绝对误差;预设绝对误差限制值;将真实值从小到大排序,提取第个以及第个真实值,分别记为yMin、yMax;
将所有样本按照绝对误差大小按照从大到小排序,针对排序第i位的样本,若其绝对误差大于绝对误差限制值,同时,该样本的真实值大于yMin,且小于yMax,则判定该样本为异常样本,将该样本剔除。
优选的,所述初始模型采用留一交叉验证法建模,初始模型的输出值为模型计算得到的预测标准偏差SEP。该偏差越小则表示模型越优。留一交叉验证法的步骤是:设样本集中有样本i个,从样本集中选择第一个样本作为测试样本,剩余的为训练集。使用训练集建立模型,对测试样本进行预测,得到预测值P1。对样本集中的每个样本,重复上述步骤,得到i个预测值(P1,P2,P3,…,Pi)。通过这i个预测值与对应的真实值,可计算预测标准偏差SEP。在样本数量不是很大的情况下,采用该方法建立的模型具有较高的准确性。
更进一步的,在建立初始模型后,先执行一判断步骤,用于判断是否需要执行异常样本剔除,判断方法如下:
根据初始模型中样本的预测值和真实值,计算初始模型的预测标准偏差SEP、真实值均值Y0和绝对误差,判断是否满足下式:
其中,M为预设的阈值,如果满足,则判定不需要执行异常样本剔除,否则判定需要执行异常样本剔除。
更进一步的,根据样本总数量预设一样本数量阈值,在建立模型时,先判断样本总数量是否小于该样本数量阈值,如果小于,则不再执行剔除异常样本。从而在样本数量较少时,能够尽可能多的保留样本特性。
优选的,根据样本总数量预设一最大剔除比例值,在剔除样本过程中,监控剔除样本的数量,计算当前剔除样本的数量与样本总数量的比值,如果该比值达到最大剔除比例值,则停止剔样。从而保证留存足够数量的样本用于下次建模。
优选的,预设最大建模次数阈值,在针对初始模型执行完样本剔除后,针对剩余样本进行重新建模,并对重新建模的数据继续进行异常样本剔除操作,直到重新建模的次数达到最大建模次数阈值。从而对模型进行进一步的修正,使得后续建立的模型更为精确。
本发明与现有技术相比,具有如下优点和有益效果:
本发明针对异常样本,可实现自动剔除,且在剔除过程中,不仅仅通过预测值与真实值之间的绝对误差,还设计了真实值顺序、样本数量阈值、最大剔除比例值、最大建模次数阈值等多参数共同组合,控制剔除样本的比例与次数,具有时耗少、准确度高的优点,采用该方法剔除样本后构建的模型质量更高。
附图说明
图1是本实施例方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
结合图1,对本实施例基于近红外光谱分析的异常样本剔除法进行具体的说明。
首先,对方法中涉及的各个参数进行设定:
具体方法如下:
1、初始化tCount=1;
2、使用留一交叉验证法建模。
3、根据预测值及真实值,计算SEP、真实值均值Y0、绝对误差AE。判断是否满足:
或样本总数量<30;
如果上面任意一个条件满足,则均停止执行异常样本剔除。否则,初始化iCount=1,触发剔样。
4、剔样的过程,计算:
a)每个样本i,计算误差AEi;
b)对于样本集,aeLimit=SEP*1.2;
c)将真实值从小到大排序,yMin为第个真实值;
d)将真实值从小到大排序,yMax为第个真实值;
e)对于样本集,nMax为(总数量*0.03%)。
5、对于步骤4中的每个样本的AEi进行从大到小排序,判断:
a)AEi是否大于aeLimit;
b)真实值i是否大于yMin;
c)真实值i是否小于yMax;
如果上述3个条件,任意一个不满足,则当前样本就不剔除,如果同时满足,则剔除样本,同时剔样数量iCount加1。
6、若iCount小于步骤3e)中nMax,重复步骤5。否则,执行步骤7。
7、重新建模,tCount加1。判断重新建模次数是否大于预设值,如果是则结束,否则重新回到步骤2,再次建模。
下面通过一组具体的实际数据来证明本发明方法的效果。
用于算法验证的真实数据集描述如下:
第一组 理化均值(35%-55%),SEP(>1.0);
理化均值(35%-55%),SEP(0.6-1.0);
理化均值(35%-55%),SEP(<0.6);
第二组 理化均值(20%-35%),SEP(>0.8);
理化均值(20%-35%),SEP(0.4-0.8);
理化均值(20%-35%),SEP(<0.4);
第三组 理化均值(5%-20%),SEP(>0.6);
理化均值(5%-20%),SEP(0.3-0.6);
理化均值(5%-20%),SEP(<0.3);
第四组 理化均值(1.5%-5%),SEP(>0.4);
理化均值(1.5%-5%),SEP(0.2-0.4);
理化均值(1.5%-5%),SEP(<0.2);
第五组 理化均值(0.01%-1.5%),SEP(>0.3);
理化均值(0.01%-1.5%),SEP(0.1-0.3);
理化均值(0.01%-1.5%),SEP(<0.1)。
使用真实数据对算法进行参数调优后,按照下面的参数数据进行限定:
设定最大剔样次数tCount=2,每次剔样最大剔除比例=3%,
限制1:1-sep/y0<0.998;
限制2:样本数量>30;
限制3:绝对误差>SPE*1.2;
限制4:真实值>第(1/40*总数量)小的样本;
限制5:真实值<第((40-1)/40*总数量)小的样本。
验证记录如下:
1-sep/y0<限制1;
样本数量>限制2;
绝对误差>SPE*限制3;
真实值>第(1/限制4*总数量)小的样本;
真实值<第((限制5-1)/限制5*总数量)小的样本。
最终得到的数据统计结果表如表1。
表1数据统计结果表
从上面的数据可以看到,在经过本实施例的异常样本剔除法之后,重新建立的模型的预测标准偏差SEP相较于之前
初始模型的SEP均有显著程度的下降,由于偏差越小则表示模型越优,因此,后面的模型准确性得到大大提高。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.基于近红外光谱分析的异常样本剔除法,其特征在于,包括步骤:
根据当前所有样本建立初始模型;
根据初始模型,计算每个样本的真实值和预测值的绝对误差;预设绝对误差限制值;将真实值从小到大排序,提取第个以及第个真实值,分别记为yMin、yMax;
将所有样本按照绝对误差大小按照从大到小排序,针对排序第i位的样本,若其绝对误差大于绝对误差限制值,同时,该样本的真实值大于yMin,且小于yMax,则判定该样本为异常样本,将该样本剔除。
2.根据权利要求1所述的基于近红外光谱分析的异常样本剔除法,其特征在于,所述初始模型采用留一交叉验证法建模,初始模型的输出值为模型计算得到的预测标准偏差SEP。
3.根据权利要求2所述的基于近红外光谱分析的异常样本剔除法,其特征在于,在建立初始模型后,先执行一判断步骤,用于判断是否需要执行异常样本剔除,判断方法如下:
根据初始模型中样本的预测值和真实值,计算初始模型的预测标准偏差SEP、真实值均值Y0,判断是否满足下式:
其中,M为预设的阈值,如果满足,则判定不需要执行异常样本剔除,否则判定需要执行异常样本剔除。
4.根据权利要求3所述的基于近红外光谱分析的异常样本剔除法,其特征在于,根据样本总数量预设一样本数量阈值,在建立模型时,先判断样本总数量是否小于该样本数量阈值,如果小于,则不再执行剔除异常样本。
5.根据权利要求1所述的基于近红外光谱分析的异常样本剔除法,其特征在于,根据样本总数量预设一最大剔除比例值,在剔除样本过程中,监控剔除样本的数量,计算当前剔除样本的数量与样本总数量的比值,如果该比值达到最大剔除比例值,则停止剔样。
6.根据权利要求1所述的基于近红外光谱分析的异常样本剔除法,其特征在于,预设最大建模次数阈值,在针对初始模型执行完样本剔除后,针对剩余样本进行重新建模,并对重新建模的数据继续进行异常样本剔除操作,直到重新建模的次数达到最大建模次数阈值。
CN201711471959.3A 2017-12-29 2017-12-29 基于近红外光谱分析的异常样本剔除法 Active CN108267422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711471959.3A CN108267422B (zh) 2017-12-29 2017-12-29 基于近红外光谱分析的异常样本剔除法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711471959.3A CN108267422B (zh) 2017-12-29 2017-12-29 基于近红外光谱分析的异常样本剔除法

Publications (2)

Publication Number Publication Date
CN108267422A true CN108267422A (zh) 2018-07-10
CN108267422B CN108267422B (zh) 2021-01-12

Family

ID=62772955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711471959.3A Active CN108267422B (zh) 2017-12-29 2017-12-29 基于近红外光谱分析的异常样本剔除法

Country Status (1)

Country Link
CN (1) CN108267422B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527790A (zh) * 2020-12-24 2021-03-19 四川享宇金信金融科技有限公司 一种基于loo-cv验证的交叉核验方法
CN113340822A (zh) * 2021-06-23 2021-09-03 浙江启真信息科技有限公司 一种自动标定的光谱采集方法、装置和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023152A1 (en) * 2001-04-11 2003-01-30 Abbink Russell E. System for non-invasive measurement of glucose in humans
CN101266299A (zh) * 2008-04-14 2008-09-17 林昌荣 利用地震数据体结构特征预测油气的方法
CN103729650A (zh) * 2014-01-17 2014-04-16 华东理工大学 近红外光谱建模样本的选择方法
CN104062257A (zh) * 2013-04-15 2014-09-24 山东东阿阿胶股份有限公司 一种基于近红外光谱测定溶液中总黄酮含量的方法
CN105928901A (zh) * 2016-07-11 2016-09-07 上海创和亿电子科技发展有限公司 一种定性定量相结合的近红外定量模型构建方法
CN106596465A (zh) * 2017-03-03 2017-04-26 东北农业大学 一种近红外光谱分析中的异常样本识别方法
CN106706558A (zh) * 2017-01-10 2017-05-24 南京富岛信息工程有限公司 一种剔除校正集异常样本的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023152A1 (en) * 2001-04-11 2003-01-30 Abbink Russell E. System for non-invasive measurement of glucose in humans
CN101266299A (zh) * 2008-04-14 2008-09-17 林昌荣 利用地震数据体结构特征预测油气的方法
CN104062257A (zh) * 2013-04-15 2014-09-24 山东东阿阿胶股份有限公司 一种基于近红外光谱测定溶液中总黄酮含量的方法
CN103729650A (zh) * 2014-01-17 2014-04-16 华东理工大学 近红外光谱建模样本的选择方法
CN105928901A (zh) * 2016-07-11 2016-09-07 上海创和亿电子科技发展有限公司 一种定性定量相结合的近红外定量模型构建方法
CN106706558A (zh) * 2017-01-10 2017-05-24 南京富岛信息工程有限公司 一种剔除校正集异常样本的方法
CN106596465A (zh) * 2017-03-03 2017-04-26 东北农业大学 一种近红外光谱分析中的异常样本识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LI ZHENG-FENG等: "Outlier Detection for Multivariate Calibration in Near Infrared Spectroscopic Analysis by Model Diagnostics", 《CHINESE JOURNAL OF ANALYTICAL CHEMISTRY》 *
LIU ZHICHAO等: "Outlier detection in near-infrared spectroscopic analysis by using Monte Carlo cross-validation", 《SCIENCE IN CHINA SERIES B: CHEMISTRY》 *
严衍禄等: "《近红外光谱分析的原理、技术与应用》", 31 January 2013, 中国轻工业出版社 *
史波林等: "苹果内部品质近红外光谱检测的异常样本分析", 《农业机械学报》 *
祝诗平等: "近红外光谱建模异常样品剔除准则与方法", 《农业机械学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527790A (zh) * 2020-12-24 2021-03-19 四川享宇金信金融科技有限公司 一种基于loo-cv验证的交叉核验方法
CN112527790B (zh) * 2020-12-24 2023-06-02 四川享宇金信金融科技有限公司 一种基于loo-cv验证的交叉核验方法
CN113340822A (zh) * 2021-06-23 2021-09-03 浙江启真信息科技有限公司 一种自动标定的光谱采集方法、装置和介质

Also Published As

Publication number Publication date
CN108267422B (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN105630743B (zh) 一种光谱波数的选择方法
CN110411957B (zh) 水果货架期及新鲜程度的无损快速预测方法及装置
CN104062257B (zh) 一种基于近红外光谱测定溶液中总黄酮含量的方法
CN104142311B (zh) 一种用近红外光谱技术预测火炬松松脂产量的方法
CN104808168B (zh) 一种基于分段电流技术的电能表快速校验方法
CN101949686A (zh) 水果内外综合品质在线无损检测方法及装置
CN106918567B (zh) 一种测量痕量金属离子浓度的方法和装置
CN104155264A (zh) 一种用近红外光谱技术预测火炬松松脂中松节油含量的方法
CN108267422A (zh) 基于近红外光谱分析的异常样本剔除法
CN109060771B (zh) 一种基于光谱不同特征集的共识模型构建方法
CN109211829A (zh) 一种基于SiPLS的近红外光谱法测定大米中水分含量的方法
CN104062258A (zh) 一种采用近红外光谱快速测定复方阿胶浆中可溶性固形物的方法
CN104062259A (zh) 一种采用近红外光谱快速测定复方阿胶浆中总皂苷含量的方法
CN106383094A (zh) 一种快速测定尾细桉木材化学成分含量的方法
CN104730042A (zh) 一种遗传算法结合激光诱导击穿光谱提高自由定标分析精度的方法
CN106248621A (zh) 一种评价方法与系统
CN109738380A (zh) 一种土壤盐渍化程度的高光谱遥感判断方法
CN112595707A (zh) 一种基于激光诱导击穿光谱测量固体样品的测量方法
CN106092893A (zh) 一种光谱判别分析的波长优选方法
CN106018329A (zh) 一种近红外光谱快速检测白砂糖指标的方法
CN105223140A (zh) 同源物质的快速识别方法
CN104132865A (zh) 一种用近红外光谱技术预测火炬松木材密度的方法
CN114252430B (zh) 一种基于激光诱导击穿光谱技术的矿浆品位在线检测方法
CN106706554A (zh) 一种快速无损测定玉米单穗籽粒直链淀粉含量的方法
WO2023207453A1 (zh) 一种基于光谱聚类的中药成分分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230710

Address after: Room A95, No. 66, Honghuagang West Street, Cencun Village, Tianhe District, Guangzhou, Guangdong 510000

Patentee after: Guangdong Zhongtaxun Technology Co.,Ltd.

Address before: 510630 room 806-812, B building, 89 Zhongshan Avenue West, Tianhe District, Guangzhou, Guangdong.

Patentee before: GUANGZHOU SONDON NETWORK TECHNOLOGY Co.,Ltd.