CN109459409B - 一种基于knn的近红外异常光谱识别方法 - Google Patents
一种基于knn的近红外异常光谱识别方法 Download PDFInfo
- Publication number
- CN109459409B CN109459409B CN201710793823.8A CN201710793823A CN109459409B CN 109459409 B CN109459409 B CN 109459409B CN 201710793823 A CN201710793823 A CN 201710793823A CN 109459409 B CN109459409 B CN 109459409B
- Authority
- CN
- China
- Prior art keywords
- abnormal
- samples
- distance
- sample
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001228 spectrum Methods 0.000 title claims abstract description 39
- 238000005259 measurement Methods 0.000 claims abstract description 19
- 238000002329 infrared spectrum Methods 0.000 claims abstract description 18
- 230000003595 spectral effect Effects 0.000 claims description 26
- 238000011160 research Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 8
- 238000000513 principal component analysis Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000010183 spectrum analysis Methods 0.000 abstract description 5
- 230000002547 anomalous effect Effects 0.000 description 6
- 238000004497 NIR spectroscopy Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012850 discrimination method Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/17—Systems in which incident light is modified in accordance with the properties of the material investigated
- G01N21/25—Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
- G01N21/31—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
- G01N21/35—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
- G01N21/359—Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using near infrared light
Landscapes
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Spectrometry And Color Measurement (AREA)
Abstract
本发明公开了一种基于KNN的近红外异常光谱识别方法,以针对近红外光谱分析中,异常光谱数据的存在严重影响到光谱分析模型的准确性和可靠性的问题。方法步骤包括:选择相似性度量、选择超参数k、计算光谱间距离度量、找出k最短距离样本、计算样本异常度量、样本按异常度量排序、识别和剔除异常度量高样本。本发明主要用于构建近红外光谱分析模型的中异常光谱的识别和剔除。
Description
技术领域
本发明涉及一种基于KNN的近红外异常光谱识别方法。
背景技术
异常值是指和大多数数据模式不一致的观测样本值。异常值识别对于任何基于经验数据的研究都是不可或缺的部分。在近红外光谱分析等许多现实的应用场合,数据不但含噪声干扰还包含异常数据,导致所得出的模型出现极大的偏差。异常光谱的存在等训练数据集质量问题,已经成为改善近红外光谱分析模型性能的关键和瓶颈。在基于近红外光谱分析的品质参数检测中,异常数据包括异常光谱数据和所预测的品质参数的异常测量值。品质参数一般是一维数据,低维数据的异常值识别相对简单,现有方法可以很好的完成,本章节不作分析研究。而高维的异常光谱数据的识别,是具有挑战性的问题,仍然是近红外光谱分析中值得重点关注和研究的环节,也是本章所要研究的内容。
有研究指出日常数据中异常值出现的概率大概有1% 到15%。数据中异常值的出现通常有两种原因。一种是因为实验性错误;另一种是由于少数几个对象的独特特征。同样,近红外光谱分析中,异常光谱可能来源于测量背景异常变化,仪器噪声增加,操作错误等,也有可能源于少数测试样本自身的异常。
在近红外光谱分析中,异常光谱数据的存在严重影响到光谱分析模型的准确性和可靠性。异常光谱数据影响正确的回归模型的构建以及模型参数准确估计,从而影响预测结果的准确性。使用鲁棒的回归分析模型和方法,可以使回归模型在一定程度上减少异常值的影响并尽量代表大多数的数据,但无法完全消除异常值的负面影响。因此在光谱数据分析之前检测和识别异常光谱很重要。异常值识别是构建高质量的回归预测模型的最重要步骤之一。
由于异常光谱识别的重要性,已成为大部分近红外光谱分析研究中一个重要步骤。当前的许多光谱分析方面的研究,通过绘制光谱图,然后由人工去分析和识别异常光谱。这种人工识别方式虽然简单直观,但效率低下,且只能识别出的少量的特别明显的异常光谱,多数异常光谱在大量光谱遮盖下不易发现。有些研究中使用了如基于马氏距离,杠杆值,残差,主成分分析等方法识别异常光谱。
基于马氏距离和杠杠值等识别异常值的传统方法的不可靠和局限性,数十年前在统计领域就被清楚认识到。马氏距离要求样本数大于等于数据维度,这对于许多近红外光谱分析的场合都不能满足。杠杆值计算不但要求样本数不小于数据维度,而且要求数据矩阵满秩,比马氏距离计算的条件更为严格。
基于回归残差的异常值识别,依赖于正确的回归预测模型的构建。而异常光谱数据的存在,又会妨碍回归模型的正确构建,导致参数估计偏离,得到扭曲的预测结果。并且回归残差也依赖于所预测品质参数测量值的准确性,即品质参数的异常值和误差也会严重影响残差的大小。这些因素都会导致基于回归残差的异常光谱识别的不可靠。而且,基于回归残差的异常值识别,只适合于检测训练数据集中的异常光谱,而无法检测预测数据集中的异常光谱,因为预测数据集中的真实的品质参数值是未知的。然而预测光谱数据集中的异常值检测也很重要。
基于马氏距离,杠杆值,残差等的异常值识别方法的不可靠,主要的原因是由于异常值的存在,会扭曲异常值识别方法的度量。异常值相互之间存在浸没(Swamping)效应和掩蔽(Masking)效应。浸没效应是指正常数据也被误判为异常数据。掩蔽效应是指由于其他异常值的遮蔽,使一些异常值被误认为是正常数据。数据集中异常数据数量越多,这两种效应也会越明显和严重。
发明内容
发明目的:
本发明的目的就是为了解决异常光谱数据影响近红外定量分析模型的性能的问题,准确而全面的更好识别并剔除异常光谱,从而改善近红外定量分析预测模型的准确性和可靠性,提高模型的预测精度。
技术方案:
基于KNN(K最近邻)异常数据识别算法,是将样本和第k个最近邻居之间的距离作为异常度量的算法。有些K最近邻方法的变体,将样本与k个最近邻的距离的加权和作为异常度量。
基于距离度量来辨别异常值的方法,可分为两种方式,一种是以到所有样本的均值的距离作为异常度量,暂且称为中心距离法;另一种是所测样本到其近邻的距离作为异常度量。前者是通常使用的方法,包括前述的马氏距离等异常值辨别方法都属于中心距离法;后者则是基于K最近邻的异常数据识别法。
KNN方法和前述的马氏距离等中心距离法进行异常光谱识别有着根本的差别。中心距离法假设所有样本在高维空间中近似服从单群体高斯分布(处于超椭球体内),而KNN近邻方法不需要这个假设,可适用于任意群体分布。
基于KNN的异常值识别方法,隐含着这样的假设:正常光谱相互间相似程度高,和近邻间距离小;异常光谱和其他光谱不相似,和近邻间距离较远。这个假设和异常值的定义很相近,所以可看作几乎没有引入额外的假设和条件。KNN需要计算所有n个样本相互之间的距离,再找出每个样本的k个最近邻,对于高维数据计算量非常大。一般通过希尔伯特空间填充曲线将样本空间线性化,减少计算量,加速查找最近邻的过程。
本发明基于KNN的近红外异常光谱识别方法,其特征在于,包括以下主要步骤:
(1)选择某种距离度量d( , )作为近红外光谱样本间的相似性度量;
(2)选择超参数k。异常值识别研究中,k值的确定需根据经验决定,尝试若干个k值,选择识别效果较好的k值,本研究中选择k=5;
(4)找出和样本x i 距离最短的k个样本;
(5)把x i 和第k个样本的距离作为样本x i 的异常值度量;或者把和x i 最近的k个样本距离加权累加后作为样本的异常度量。前者可看作是后者的特例;
(6)回到步骤3),计算其它每一个近红外光谱样本的异常度量;
(7)将所有近红外光谱样本按照其异常度量从高到低的次序进行排序;
(8)在异常度量最高的序列前端中识别出异常光谱数据。有两种方式,一种方式,确定一个阈值,异常度量大于该阈值的视为潜在异常光谱数据;另一种方式,是结合其他方法,依次考察异常异常度量最高的光谱数据,直到遇到正常光谱为止。
具体实施方式
下面结合具体实施方式对本发明做进一步说明。
实施例1:基于欧氏距离度量的KNN的异常光谱识别方法
欧氏距离KNN:基于欧氏距离的K最近邻法,样本与其K最近邻样本间的欧氏距离作为异常度量;
欧氏距离是最常用的距离度量和样本间相似性度量。欧氏距离的计算简单快捷,计算速度和算法实现上具有优势,在性能相近的情况下往往成为优先选项。下面给出基于欧氏距离KNN的异常值识别方法,一方面考察验证其异常光谱数据的识别能力,另一方面作为后续基于主成分标准化空间的PC-KNN方法的参照对比基础。
1)选择欧氏距离作为样本间的相似性度量;
2)选择超参数k。异常值识别研究中,k值的确定需根据经验决定,尝试若干个k值,选择识别效果较好的k值,本研究中选择k=5;
6)回到步骤3),计算其它每一个近红外光谱样本的异常度量;
7)将所有近红外光谱样本按照其异常度量从高到低的次序进行排序;
8)在异常度量最高的序列前端中识别出异常光谱数据。有两种方式,一种方式,确定一个阈值,异常度量大于该阈值的视为潜在异常光谱数据;另一种方式,是结合其他方法,依次考察异常异常度量最高的光谱数据,直到遇到正常光谱为止。
实施例2:基于主成分空间距离度量的KNN的异常光谱识别方法
基于主成分标准化空间的PC-KNN方法,光谱数据进行主成分分析,并对所有主成分(PC)标准化后得到的数据基础上,再使用基于欧氏距离的K最近邻法。
基于欧氏距离的样本间相似性度量,潜在假设是样本分布在各方向上的方差基本相等。而在实际应用中,这个条件不一定满足。基于马氏距离的样本间相似性度量,对各方向的方差大小没有假设和要求。但是马氏距离的计算,不适用于小样本或数据中包含大量的互相关变量的场合,因为这种情况下协方差矩阵是奇异的或者接近奇异。近红外光谱数据一般是小样本高维度,且各维度间存在着高度的互线性关系。因此,近红外光谱分析中,马氏距离度量存在巨大的局限性。前面小节中通过理论分析,已经证明在保留所有主成分时,主成分标准化空间中的欧氏距离,等价于原始光谱数据中的马氏距离。主成分分析对样本数和各维度间线性相关程度没有要求,可广泛适应于近红外光谱分析场合。
基于PC-KNN(Principal components- KNN)的异常光谱识别方法,是在主成分分析后,标准化后的主成分间的KNN异常光谱识别方法。该方法既克服欧氏距离度量对样本分布的局限性,又避免马氏距离计算中要求协方差矩阵非奇异的局限性。方法具体流程如下:
1)X以列为单位进行居中处理;
2)对X进行主成分分析,得到主成分(PC)空间的新坐标U;
3)选择保留的主成分数pn。默认可以保留所有主成分,这样等同于马氏距离。因为方差最小的主成分往往主要由噪声组成。可以考虑舍弃部分最微弱的主成分。
4)对U进行标准化处理,每个主成分(列)都是零均值,单位方差;
5)选择欧氏距离作为样本在主成分标准化空间的相似性度量;
6)选择超参数k。异常值识别研究中,k值的确定需根据经验决定,尝试若干个k值,选择识别效果较好的k值,本研究中选择k=5;
10) 回到步骤7),计算其它每一个近红外光谱样本的异常度量;
11) 将所有近红外光谱样本按照其异常度量从高到低的次序进行排序;
在异常度量最高的序列前端中识别出异常光谱数据。有两种方式,一种方式,确定一个阈值,异常度量大于该阈值的视为潜在异常光谱数据;另一种方式,是结合其他方法,依次考察异常异常度量最高的光谱数据,直到遇到正常光谱为止。
Claims (1)
1.基于KNN的近红外异常光谱识别方法,其特征在于,包括以下主要步骤:
(1)基于主成分标准化空间的距离度量d(,)作为近红外光谱样本间的相似性度量:基于主成分标准化空间的距离度量,首先对光谱数据进行主成分分析,然后对主成分标准化得到的向量空间中,计算样本间的欧氏距离作为相似性距离度量;
(2)选择超参数k,异常值识别研究中,k值的确定需根据经验决定,尝试若干个k值,选择识别效果较好的k值,本研究中选择k=5;
(3)计算光谱样本xi和其他所有样本的距离d(xi,xj),j=1,…,i-1,i+1,…,n,n为总样本数;
(4)找出和样本xi距离最短的k个样本;
(5)把和xi最近的k个样本距离加权累加后作为样本的异常度量;
(6)回到步骤(3),计算其它每一个近红外光谱样本的异常度量;
(7)将所有近红外光谱样本按照其异常度量从高到低的次序进行排序;
(8)在异常度量最高的序列前端中识别出异常光谱数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710793823.8A CN109459409B (zh) | 2017-09-06 | 2017-09-06 | 一种基于knn的近红外异常光谱识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710793823.8A CN109459409B (zh) | 2017-09-06 | 2017-09-06 | 一种基于knn的近红外异常光谱识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109459409A CN109459409A (zh) | 2019-03-12 |
CN109459409B true CN109459409B (zh) | 2022-03-15 |
Family
ID=65605799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710793823.8A Active CN109459409B (zh) | 2017-09-06 | 2017-09-06 | 一种基于knn的近红外异常光谱识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109459409B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220261399A1 (en) | 2019-06-24 | 2022-08-18 | Evonik Operations Gmbh | Method for predicting a feedstuff and/or feedstuff raw material |
CN110208248B (zh) * | 2019-06-28 | 2021-11-19 | 南京林业大学 | 一种辨识拉曼光谱异常测量信号的方法 |
CN114237206A (zh) * | 2021-12-17 | 2022-03-25 | 沈阳工程学院 | 一种面向复杂运行工况的风电变桨系统故障检测方法 |
CN117093841B (zh) * | 2023-10-18 | 2024-02-09 | 中国科学院合肥物质科学研究院 | 小麦透射光谱的异常光谱筛选模型确定方法、装置及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020074330A (ko) * | 2001-03-20 | 2002-09-30 | 삼성전자 주식회사 | 계층적 주요 성분 분석에 기반한 얼굴 인식 방법 및 장치 |
CN103344598A (zh) * | 2013-06-18 | 2013-10-09 | 川渝中烟工业有限责任公司 | 一种梗丝与卷烟叶组配伍性的判定方法 |
CN106324405A (zh) * | 2016-09-07 | 2017-01-11 | 南京工程学院 | 一种基于改进主成分分析的变压器故障诊断方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030087456A1 (en) * | 2001-10-08 | 2003-05-08 | Jones Howland D.T. | Within-sample variance classification of samples |
JP2005287853A (ja) * | 2004-04-01 | 2005-10-20 | Pola Chem Ind Inc | 毛髪の鑑別法 |
JP2005300241A (ja) * | 2004-04-08 | 2005-10-27 | Pola Chem Ind Inc | 毛髪による個人識別/認証の鑑別法 |
US20130338479A1 (en) * | 2008-12-19 | 2013-12-19 | Universidad De Cantabria | Apparatus And Method For Surgical Instrument With Integral Automated Tissue Classifier |
CN104136908B (zh) * | 2011-12-19 | 2018-02-23 | 奥普蒂库尔诊断有限公司 | 用于鉴定培养物中微生物的光谱手段和方法 |
CN102706563A (zh) * | 2012-06-14 | 2012-10-03 | 哈尔滨工业大学 | 燃气轮机的近邻异常检测方法 |
CN103884670B (zh) * | 2014-03-13 | 2016-01-20 | 西安交通大学 | 基于近红外光谱的烟气成分定量分析方法 |
CN103916896B (zh) * | 2014-03-26 | 2017-05-24 | 浙江农林大学 | 基于多维Epanechnikov核密度估计的异常检测方法 |
CN104062008B (zh) * | 2014-06-13 | 2016-04-13 | 武汉理工大学 | 一种考虑整体度量的实测光谱曲线中异常光谱的剔除方法 |
CN105989597B (zh) * | 2015-02-13 | 2020-05-12 | 中国科学院西安光学精密机械研究所 | 基于像素选择过程的高光谱图像异常目标检测方法 |
CN106290238A (zh) * | 2016-08-09 | 2017-01-04 | 西北农林科技大学 | 一种基于高光谱成像的苹果品种快速鉴别方法 |
CN107092921A (zh) * | 2017-03-10 | 2017-08-25 | 佛山市南海区广工大数控装备协同创新研究院 | 基于k最近邻滤波的高光谱图像分类方法 |
-
2017
- 2017-09-06 CN CN201710793823.8A patent/CN109459409B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020074330A (ko) * | 2001-03-20 | 2002-09-30 | 삼성전자 주식회사 | 계층적 주요 성분 분석에 기반한 얼굴 인식 방법 및 장치 |
CN103344598A (zh) * | 2013-06-18 | 2013-10-09 | 川渝中烟工业有限责任公司 | 一种梗丝与卷烟叶组配伍性的判定方法 |
CN106324405A (zh) * | 2016-09-07 | 2017-01-11 | 南京工程学院 | 一种基于改进主成分分析的变压器故障诊断方法 |
Non-Patent Citations (4)
Title |
---|
Distance and similarity-search metrics for use with soil vis–NIR spectra;L. Ramirez-Lopez et.al;《Geoderma》;20121117(第199期);全文 * |
Multi-mode operation of principal component analysis with k-nearestneighbor algorithm to monitor compressors for liquefied natural gasmixed refrigerant processes;Daegeun Ha et.al;《Computers and Chemical Engineering》;20170602(第106期);全文 * |
蓖麻遗传资源产量与品质性状;方平平 等;《福建农林大学学报(自然科学版)》;20110531;第40卷(第3期);全文 * |
近红外光谱的主成分分析-马氏距离聚类判别用于卷烟的真伪鉴别;张灵帅 等;《光谱学与光谱分析》;20110531;第31卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109459409A (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109459409B (zh) | 一种基于knn的近红外异常光谱识别方法 | |
CN107179310B (zh) | 基于鲁棒噪声方差估计的拉曼光谱特征峰识别方法 | |
CN109446189A (zh) | 一种工业参数离群点检测系统及方法 | |
CN105300923A (zh) | 一种近红外光谱分析仪在线应用时无测点温度补偿模型修正方法 | |
WO2015136586A1 (ja) | 要因分析装置、要因分析方法および要因分析プログラム | |
WO2017045296A1 (zh) | 在线近红外样本量确定方法 | |
CN107704802B (zh) | 高光谱图像杂波的度量及异常检测算法的性能预测方法 | |
CN102072767A (zh) | 基于波长相似性共识回归红外光谱定量分析方法和装置 | |
Fan et al. | Direct calibration transfer to principal components via canonical correlation analysis | |
CN104820673A (zh) | 基于自适应性分段统计近似的时间序列相似性度量方法 | |
Chouichi et al. | Chamber-to-chamber discrepancy detection in semiconductor manufacturing | |
CN109283153B (zh) | 一种酱油定量分析模型的建立方法 | |
US10169364B2 (en) | Gauging accuracy of sampling-based distinct element estimation | |
CN106485049B (zh) | 一种基于蒙特卡洛交叉验证的nirs异常样本的检测方法 | |
CN108226092B (zh) | 基于近红外光谱相似度的模型界外样本识别方法 | |
CN108021725B (zh) | 确定电功图数据中抽油机换向点位置的方法 | |
Iqbal et al. | Comparison of different techniques for detection of outliers in case of multivariate data. | |
Kovalenko et al. | Optimization of the histogram intervals number which approximate brightness probability distributions in stochastic image alignment based on mutual information | |
CN111613266A (zh) | 基于定量构效关系的离群值检测方法 | |
Park et al. | A data mining technique for real time process monitoring with mass spectrometry: APC: Advanced process control | |
KR101895707B1 (ko) | 플라즈마 공정의 식각 종료점 진단방법 | |
Zhu et al. | Application of high dimensional feature grouping method in near-infrared spectra of identification of tobacco growing areas | |
Ko et al. | Wafer-to-wafer process fault detection using data stream mining techniques | |
JP2008258486A (ja) | 分布解析方法および装置、異常設備推定方法および装置、上記分布解析方法または異常設備推定方法をコンピュータに実行させるためのプログラム、並びに上記プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN113674814B (zh) | 一种光谱定量分析模型的构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |