CN106596465A - 一种近红外光谱分析中的异常样本识别方法 - Google Patents
一种近红外光谱分析中的异常样本识别方法 Download PDFInfo
- Publication number
- CN106596465A CN106596465A CN201710123913.6A CN201710123913A CN106596465A CN 106596465 A CN106596465 A CN 106596465A CN 201710123913 A CN201710123913 A CN 201710123913A CN 106596465 A CN106596465 A CN 106596465A
- Authority
- CN
- China
- Prior art keywords
- sample
- exceptional
- infrared spectrum
- exceptional sample
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004458 analytical method Methods 0.000 title claims abstract description 20
- 238000002329 infrared spectrum Methods 0.000 title claims abstract description 18
- 230000002159 abnormal effect Effects 0.000 title abstract description 18
- 238000012952 Resampling Methods 0.000 claims abstract description 23
- 239000000126 substance Substances 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000004611 spectroscopical analysis Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract 1
- 230000005856 abnormality Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005464 sample preparation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Abstract
本发明公开了一种近红外光谱分析中的异常样本识别方法,本发明结合半数重采样和Cook距离算法对近红外光谱分析数据进行异常样本识别。首先改变半数重采样算法的结果表达方式,对光谱数据进行异常样本识别,然后利用Cook距离方法针对化学值进行异常样本识别,均通过偏最小二乘建模效果选取各自的最佳置信区间,联合二者作为本方法中的置信区间;对于同时出现在两种方法下的异常样本,若为高杠杆值点,则剔除,否则保留。本发明结合两种相互独立的算法,能够处理光谱异常和化学值异常同时存在或只存在一种的情况,并对特殊的异常样本进行深入判断,保留由于自身特性而被识别出的特异样本,增强了模型的适用性和稳定性。
Description
技术领域
本发明涉及近红外光谱分析技术领域,具体涉及一种近红外光谱分析中的异常样本识别方法。
背景技术
近红外光谱分析技术具有分析速度快、对样本无损害、成本低等特点,已广泛应用于农业、食品、医药等领域。近红外光谱分析数据包括样本光谱扫描数据和样本元素的化学值数据,样本制备方法不当、周围环境因素改变及仪器自身问题等因素会导致光谱数据中存在异常数据,而化学值的获取大多都是通过化学实验方法获得的,实验过程中的方法不当和误操作同样会引起化学值数据中存在异常。不同分析过程中的近红外光谱分析数据可能既包含光谱异常又包含化学值异常,也有可能只包含其中一种异常数据。近红外光谱分析结果的可靠性首先取决于原始数据的准确性,异常数据会影响实验数据的整体分布,最终影响所建模型的预测能力,因此识别并剔除异常样本是建立可靠模型的先决条件。
发明内容
本发明的目的是提供一种能够有效识别近红外光谱分析中光谱异常、化学值异常的异常样本识别方法,同时能够保留特异样本,保证分析模型可靠性的基础上,提高模型的适用性和稳定性。
本发明的目的通过如下技术方案实现:
一种近红外光谱分析中的异常样本识别方法,包括以下步骤:
1.改变半数重采样算法的结果表达方式
为了便于本发明中选择最佳置信区间,原方法中,每次采样后依据计算距离利用置信区间选取异常样本点,对异常样本点计数累加,根据累加结果选择异常样本;改为每次采样后对计算得到的距离累加,对累加的数据按照置信区间,选取最终的异常样本数据。
2.利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间
半数重采样算法置信区间设置为0.95到0.99,在每个置信区间下应用改变后的半数重采样算法选择异常样本点。针对不同的置信区间,去除异常样本点,建立偏最小二乘模型,对比校正集均方误差根的值,具有最小校正集均方误差根模型所对应的置信区间为最佳置信区间。
3.利用Cook距离方法对样本化学值数据进行异常样本识别,选择最佳置信区间
计算样本化学值的Cook距离,设定置信区间为0.95到0.99,选择每一置信区间下的Cook距离大的样本点为异常样本点。针对不同的置信区间,去除异常样本点,建立偏最小二乘模型,对比校正集均方误差根的值,具有最小校正集均方误差根模型所对应的置信区间为最佳置信区间。
4.作样本散点图,判断特异样本
以Cook距离值为横坐标,半数重采样算法计算得到的距离为纵坐标,对所有样本点做散点图。联合步骤2、3中最佳置信区间,划分样本。样本被划分为四个区域,处于右上方区域的样本为既存在光谱异常又存在化学值异常的样本。计算这些样本光谱数据的杠杆值,若杠杆值很高,则标记为异常样本,否则,该样本应为特异样本,予以保留能够增强模型的适用性和稳定性。
5.标记异常样本
对处于散点图左上方和右下方区域的样本点,标记为异常样本点。
本发明具有的有益效果:能够综合考虑光谱异常、化学值异常同时存在或只存在一种的情况,有效去除近红外光谱分析数据中的异常样本,同时保留特异样本,保证分析模型可靠性的同时,提高模型的适用性和稳定性。
附图说明
图1为改变半数重采样算法结果表达方式的方法
图2为样本点半数重采样距离分布图
图3为样本点Cook距离柱状图
图4为样本散点图
图5为样本点光谱数据杠杆值柱状图
具体实施方式
下面结合附图和实施例对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明提供的一种近红外光谱分析中的异常样本识别方法,主要包括如下步骤:
1.改变半数重采样算法的结果表达方式
参考图1,原方法中每次采样后按置信区间选取异常样本,然后对相应异常样本进行累加计数;改为每次采样后对每个样本计算得到的距离进行累加,采样结束后,再按照置信区间选取距离大的样本作为异常样本。
2.利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间
针对实施例的近红外光谱数据,利用改变后的半数重采样算法计算每个样本的半数重采样距离,得到的结果如参考图2所示。少量样本的半数重采样距离明显高于大多数样本,在0.95-0.99之间选择最佳置信区间。按每个置信区间选择对应的异常样本,剔除异常样本后,建立偏最小二乘模型,对比偏最小二乘模型的校正集均方误差根,最小值对应的区间为最佳置信区间。实施例中半数重采样算法的最佳置信区间选取结果如表1所示,置信区间0.99为该算法下的最佳置信区间。
表1 半数重采样算法的最佳置信区间选择
3.利用Cook距离方法对样本化学值数据进行异常样本识别,选择最佳置信区间
针对实施例的化学值数据,计算每个样本的Cook距离,结果如参考图3所示。少量样本的Cook距离值明显高于大多数样本。在0.95-0.98之间选取最佳置信区间,按每个置信区间选择对应的异常样本,剔除异常样本后,建立偏最小二乘模型,对比偏最小二乘模型的校正集均方误差根,最小值对应的区间为最佳置信区间。实施例中半数重采样算法的最佳置信区间选取结果如表2所示,置信区间0.95为该算法下的最佳置信区间。
表2 Cook距离方法的最佳置信区间选择
4.作散点图,判断特异样本
以Cook距离值为横坐标,半数重采样算法计算得到的距离为纵坐标,对所有样本点做散点图。以两种算法最佳置信区间的联合0.99-0.95为置信区间,划分样本。样本被划分为四个区域,如参考图4所示。处于右上方区域的1号样本为既存在光谱异常又存在化学值异常的样本。样本1有可能是两种数据均存在错误的异常样本,也有可能是由于自身性质导致的特异样本。计算1号样本光谱数据的杠杆值,计算结果如参考图5所示,1号样本杠杆值远远高于其他样本,因此1号样本为光谱数据和化学值均存在异常的样本,标记为异常样本。5.标记异常样本
对处于散点图左上方样本点(10号样本)和右下方区域的样本点(148、63、130、46、70、141、154号样本),标记为异常样本点。
将所有标记为异常的样本点剔除,建立偏最小二乘模型,模型的校正集均方根误差为0.72873,模型的相关系数为0.73028。校正集均方误差根低于原始建模的0.79264,模型的相关系数高于原始建模的0.66317,有效的识别了近红外光谱分析数据中的光谱异常样本和化学值异常样本。
Claims (4)
1.一种近红外光谱分析中的异常样本识别方法,其特征在于:
步骤1:改变半数重采样算法的结果表达方式;
步骤2:利用改变后的半数重采样算法对原始光谱数据进行异常样本识别,选择最佳置信区间;
步骤3:利用Cook距离方法对化学值数据进行异常样本识别,选择最佳置信区间;
步骤4:作样本散点图,判断特异样本;
步骤5:将散点图左上方区域、右下方区域样本点标记为异常样本点。
2.如权利要求1所述的一种近红外光谱分析中的异常样本识别方法,其特征在于步骤1中改变半数重采样算法的结果表达方式的具体方法为:原算法中,每次采样后利用置信区间选取异常样本,对选择的异常样本进行计数累加,选取累加数最多的样本为异常样本;新方法改为每次采样后对计算得到的半数重采样距离进行累加,之后对累加的数据按照置信区间,选取最终的异常样本数据,改变后的算法在尝试选取最佳置信区间方面具有明显优势。
3.如权利要求1所述的一种近红外光谱分析中的异常样本识别方法,其特征在于步骤2、步骤3中最佳置信区间的方法为:首先选取置信区间范围,针对每个置信区间,选取距离大的样本为异常样本,去除异常样本后建立偏最小二乘模型,依据预测模型的校正集均方根误差最小选择最佳置信区间。
4.如权利要求1所述的一种近红外光谱分析中的异常样本识别方法,其特征在于步骤4中作样本散点图,判断特异样本的具体方法为:以样本的Cook距离值为横坐标,半数重采样距离为纵坐标,作所有样本的散点图;以步骤2和步骤3中的最佳置信区间值划分散点图区域,计算位于右上方区域的样本点的光谱数据杠杆值,若杠杆值高,则为标记为异常样本点,否则该样本为特异样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710123913.6A CN106596465A (zh) | 2017-03-03 | 2017-03-03 | 一种近红外光谱分析中的异常样本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710123913.6A CN106596465A (zh) | 2017-03-03 | 2017-03-03 | 一种近红外光谱分析中的异常样本识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106596465A true CN106596465A (zh) | 2017-04-26 |
Family
ID=58587347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710123913.6A Pending CN106596465A (zh) | 2017-03-03 | 2017-03-03 | 一种近红外光谱分析中的异常样本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106596465A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009569A (zh) * | 2017-11-15 | 2018-05-08 | 中国海洋大学 | 一种近红外光谱设备的稳定性判别方法 |
CN108267422A (zh) * | 2017-12-29 | 2018-07-10 | 广州讯动网络科技有限公司 | 基于近红外光谱分析的异常样本剔除法 |
CN116429721A (zh) * | 2023-03-15 | 2023-07-14 | 东北农业大学 | 一种基于mpa框架的松子近红外光谱波段选择方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997006418A1 (en) * | 1995-08-07 | 1997-02-20 | Boehringer Mannheim Corporation | Biological fluid analysis using distance outlier detection |
CN104062256A (zh) * | 2013-04-15 | 2014-09-24 | 山东东阿阿胶股份有限公司 | 一种基于近红外光谱的软测量方法 |
-
2017
- 2017-03-03 CN CN201710123913.6A patent/CN106596465A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997006418A1 (en) * | 1995-08-07 | 1997-02-20 | Boehringer Mannheim Corporation | Biological fluid analysis using distance outlier detection |
CN104062256A (zh) * | 2013-04-15 | 2014-09-24 | 山东东阿阿胶股份有限公司 | 一种基于近红外光谱的软测量方法 |
Non-Patent Citations (6)
Title |
---|
DA CHEN ET AL.: "Simultaneous wavelength selection and outlier detection in multivariate regression on near infrared spectra", 《ANALYTICAL SCIENCES》 * |
M.H.ZHANG ET AL.: "Determination of tatal antioxidant capacity in green tea by near-infrared spectroscopy and multivariate calibration", 《TALANTA》 * |
李晓琳等: "炭阳极焙烧质量控制建模与优化", 《炭素技术》 * |
梁秀英等: "奇异数据筛选法在玉米籽粒蛋白质近红外光谱检测中的应用", 《激光生物学报》 * |
赵振英等: "近红外光谱法分析油页岩含油率中异常样品识别和剔除方法的研究", 《光谱学与光谱分析》 * |
闵顺耕等: "近红外光谱分析中异常值的判别与定量模型优化", 《光谱学与光谱分析》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009569A (zh) * | 2017-11-15 | 2018-05-08 | 中国海洋大学 | 一种近红外光谱设备的稳定性判别方法 |
CN108009569B (zh) * | 2017-11-15 | 2021-04-30 | 中国海洋大学 | 一种近红外光谱设备的稳定性判别方法 |
CN108267422A (zh) * | 2017-12-29 | 2018-07-10 | 广州讯动网络科技有限公司 | 基于近红外光谱分析的异常样本剔除法 |
CN108267422B (zh) * | 2017-12-29 | 2021-01-12 | 广州讯动网络科技有限公司 | 基于近红外光谱分析的异常样本剔除法 |
CN116429721A (zh) * | 2023-03-15 | 2023-07-14 | 东北农业大学 | 一种基于mpa框架的松子近红外光谱波段选择方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106596465A (zh) | 一种近红外光谱分析中的异常样本识别方法 | |
CN105630743B (zh) | 一种光谱波数的选择方法 | |
CN107179310B (zh) | 基于鲁棒噪声方差估计的拉曼光谱特征峰识别方法 | |
CN104374738A (zh) | 一种基于近红外提高鉴别结果的定性分析方法 | |
CN103927532B (zh) | 基于笔画特征的笔迹配准方法 | |
CN101944231A (zh) | 小麦穗部形态参数提取方法 | |
CN109684938A (zh) | 一种基于作物冠层航拍俯视图的甘蔗株数自动识别方法 | |
CN104374739A (zh) | 一种基于近红外定性分析的种子品种真实性鉴别方法 | |
CN107860722B (zh) | 一种蜜瓜内部品质在线检测方法及系统 | |
CN103150498A (zh) | 基于单分类支持向量机的硬件木马识别方法 | |
CN103914707B (zh) | 基于支持向量机的绿色通道产品辅助判别方法 | |
CN105701450A (zh) | K线形态识别方法及装置 | |
CN107545213A (zh) | 基于飞行时间质谱的信号处理方法、系统及电子设备 | |
CN110428438A (zh) | 一种单木建模方法、装置和存储介质 | |
CN106770005B (zh) | 一种用于近红外光谱分析的校正集和验证集的划分方法 | |
CN115546615A (zh) | 中草药根茎切片的识别方法、存储介质、电子设备 | |
CN103239239B (zh) | 一种定幅值的动态光谱数据提取方法 | |
CN105718723B (zh) | 一种质谱数据处理中谱峰位置检测方法 | |
CN112036482B (zh) | 一种基于电子鼻传感器数据的中药材分类方法 | |
CN107976417A (zh) | 一种基于红外光谱的原油种类识别方法 | |
CN106485049B (zh) | 一种基于蒙特卡洛交叉验证的nirs异常样本的检测方法 | |
WO2020001663A2 (zh) | 基因测序结果类型的检测方法、装置、设备及存储介质 | |
CN111521641A (zh) | 一种白兰地原酒不同蒸馏方式的识别方法 | |
CN107025378A (zh) | 一种基于标偏分位百分比的均匀性评价方法 | |
CN105354597B (zh) | 一种游戏物品的分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170426 |