CN104063710B - 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法 - Google Patents

基于支持向量机模型的实测光谱曲线中异常光谱剔除方法 Download PDF

Info

Publication number
CN104063710B
CN104063710B CN201410264086.9A CN201410264086A CN104063710B CN 104063710 B CN104063710 B CN 104063710B CN 201410264086 A CN201410264086 A CN 201410264086A CN 104063710 B CN104063710 B CN 104063710B
Authority
CN
China
Prior art keywords
spectrum
spectral
scatter diagram
sid
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410264086.9A
Other languages
English (en)
Other versions
CN104063710A (zh
Inventor
詹云军
苏余斌
黄解军
余晨
邓安鑫
朱捷缘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201410264086.9A priority Critical patent/CN104063710B/zh
Publication of CN104063710A publication Critical patent/CN104063710A/zh
Application granted granted Critical
Publication of CN104063710B publication Critical patent/CN104063710B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于支持向量机模型的实测光谱曲线中异常光谱的剔除方法,利用机器学习理论中支持向量机分类方法思想设置阈值剔除异常光谱,通过交叉验证方法自动参数寻优找出最佳模型参数进而对光谱数据进行分类,避免了人工设置阈值或不断调整阈值的主观性、低效率等问题,能规模化应用于大量光谱数据的处理,并且有效提高了精度和准确性。本发明选取的RBF核函数具有泛化能力强、收敛速度快的特点。本发明还增加了对惩罚系数C、RBF核函数中的间隔参数γ进行寻优的参数选取步骤,结合训练光谱建立SVM二分类算法模型也即支持向量机模型,更进一步的优化了最后异常光谱剔除的结果。

Description

基于支持向量机模型的实测光谱曲线中异常光谱剔除方法
技术领域
本发明涉及一种实测光谱曲线中异常光谱的剔除方法,具体涉及一种基于支持向量机分类方法原理设置阈值剔除异常光谱的方法。
背景技术
光谱分析技术在地质遥感、农林生态、土壤调查、污染监测、食品检测、计量化学等领域应用广泛,在测量过程中,由于仪器噪声、外界环境干扰、操作不当及其他偶发因素的影响,采集到的光谱数据中往往存在异常光谱,如果直接使用这些数据进行建模分析,势必会影响模型的准确性和稳定性。因此,有必要识别出异常光谱并将其剔除。
国内外许多专家学者对异常光谱识别做了相应的研究,陈斌等利用PCA结合马氏距离对光谱异常样品进行剔除;包鑫等利用马氏距离的平均值加两倍马氏距离的标准差作为阈值来剔除异常光谱;Patrick Wiegand等通过偏最小二乘法(PLS)建模,根据光谱数据与所建模型预测值残差大小来判断是否为异常光谱;淡图南等在PLS建模的基础上,采用留一步交叉检验法确定异常光谱数据;ZhiChao Liu等利用蒙特卡洛交叉验证建立一定数量的PLS模型后,按照预测误差平方和排序,并根据光谱在不同模型中出现频次来完成异常光谱的识别。综合国内外研究现状,异常光谱识别基本思想均为大量统计数据分析建模,人为设置阈值或者不断调整阈值后建立预测模型,以相关系数、均方差、平均相对误差等统计参数作为异常样品剔除模型的评价指标,得到不同阈值下的预测精度直至满足要求。上述处理方法存在着两个缺陷,一是运用马氏距离等常规相似性度量方法比较光谱间的差异,不能完全区分开光谱差异;二是人为设置阈值或不断调整阈值的方法,阈值设置依赖处理者的经验,主观性太大,且效率不高,难以应用于大量光谱数据的处理。为了克服上述问题,需要引入新的技术方法和思路。
发明内容:
本发明要解决的技术问题是提供一种基于支持向量机模型的实测光谱曲线中异常光谱的剔除方法,用核函数、惩罚系数和训练光谱建立支持向量机模型,从实测光谱曲线中剔除异常光谱。
为了解决上述技术问题,本发明的技术方案为:
基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,包括如下步骤:1)获取实测光谱数据,并对其进行预处理;2)依据经预处理的实测光谱数据,获取光谱的二维平面散点图;3)将位于二维平面散点图中上方离集群中心较远的离散点标记为总离散点,将二维平面散点图中下方除去了离散点之外的集群点标记为总集群点,总离散点和总集群点共同构成训练光谱;4)选取核函数和惩罚系数C,结合训练光谱建立SVM二分类算法模型;5)将二维平面散点图输入支持向量机模型,在高维空间得到最优分类超平面函数表达式,最优分类超平面函数表达式即为异常光谱阈值线;6)二维平面散点图位于异常光谱阈值线上方的光谱点即为异常光谱,剔除异常光谱。
较佳地,步骤1)预处理包括三个步骤11)去除水汽影响波段,12)采用多项式平滑滤波,滤除原始光谱中高频噪声,13)包络线去除。
较佳地,步骤2)中的二维平面散点图是通过以下方法得到的:计算经预处理的实测光谱数据与标准光谱集平均光谱之间的局部度量,包括欧氏距离ED和余弦角CA,并归一化到0-1之间;计算经预处理的实测光谱数据与标准光谱集平均光谱之间的整体度量,包括光谱信息散度SID,并归一化到0-1之间;光谱编号结合归一化后的欧氏距离ED、余弦角CA、光谱信息散度SID和表达式(ED×SID)/CA的值,得到二维平面下的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图;二维平面散点图包括ED散点图和/或CA散点图和/或SID散点图和/或(ED×SID)/CA散点图。
较佳地,二维平面下的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图的建立方法为:以光谱编号为横轴,以归一化后的欧氏距离ED、余弦角CA、光谱信息散度SID和表达式(ED×SID)/CA的值为纵轴建立二维平面的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图。
较佳地,步骤4)中的核函数为RBF核函数,K(mu,mv)为核函数,mu,mv表示光谱编号为u与v的光谱在二维平面散点图上光谱度量值;惩罚系数C和RBF核函数中的间隔参数γ均是人为指定的经验参数。
较佳地,还包括对训练光谱进行交叉验证,寻得惩罚系数C和核函数RBF中的间隔参数γ的最优取值的步骤,具体方法为:将训练光谱随机分为N个集合,对其中的N-1个集合进行训练,建立SVM二分类算法模型,得到一个决策函数,并用该决策函数对剩下的一个集合进行样本测试;将上述的过程重复N次,取N次过程中的测试错误的平均值作为误差,误差最小的模型中惩罚系数C和RBF核函数中间隔参数γ的取值即为最优取值。
较佳地,步骤5)是将(ED×SID)/CA二维平面散点图输入支持向量机模型,得到最优分类超平面函数表达式b*表示支持向量偏置,可以用任一个支持向量求得,或通过两类中任意一对支持向量取中值求得;mu,mv表示光谱编号为u与v的光谱在归一化(ED×SID)/CA散点图光谱度量值;ou表示光谱编号u输出不同分类点;支持向量机模型即为由惩罚系数C、代入间隔参数γ最优取值的RBF核函数和训练光谱共同构成的SVM二分类算法模型。
本发明利用机器学习理论中支持向量机分类方法思想设置阈值剔除异常光谱,通过交叉验证方法自动参数寻优找出最佳模型参数进而对光谱数据进行分类,避免了人工设置阈值或不断调整阈值的主观性、低效率等问题,能规模化应用于大量光谱数据的处理,并且有效提高了精度和准确性。通过对实测光谱数据进行预处理是为了增强波形结构,也是为了优化异常光谱剔除的结果。本发明选取的RBF核函数具有泛化能力强、收敛速度快的特点。本发明还增加了对惩罚系数C、RBF核函数中的间隔参数γ进行寻优的参数选取步骤,结合训练光谱建立SVM二分类算法模型也即支持向量机模型,更进一步的优化了最后异常光谱剔除的结果。
附图说明
图1为本发明实施例的流程图,
图2为本发明实施例的ED散点图,
图3为本发明实施例的CA散点图,
图4为本发明实施例的SID散点图,
图5为本发明实施例的(ED×SID)/CA散点图,
图6为本发明实施例的异常光谱阈值线图。
具体实施方式
下面结合附图和实施例对本发明作更进一步的说明。
如图1所示,一种基于支持向量机模型的实测光谱曲线中异常光谱的剔除方法,包括如下步骤:
步骤S1,预处理
获取实测光谱数据,并对其进行预处理,具体包括三个步骤:
11)去除水气影响波段,12)采用多项式平滑滤波,滤除原始光谱中高频噪声,13)包络线去除,包络线去除后将反射率归一化到0-1之间,光谱的吸收和反射特征反映在一致的光谱背景上,有效突出光谱曲线的吸收、反射和发射特征。
光谱数据预处理目的是去除噪声干扰、增强波形特征,为定量度量光谱差异提供更加可靠依据。
步骤S2,获取二维平面散点图
依据经预处理的实测光谱数据,得出光谱的二维平面散点图,具体方法如下:
计算经预处理的实测光谱数据与标准光谱集平均光谱之间的局部度量,包括欧氏距离ED和余弦角CA,并归一化到0-1之间;计算经预处理的实测光谱数据与标准光谱集平均光谱之间的整体度量,包括光谱信息散度SID,并归一化到0-1之间;计算方法如下:
实测光谱曲线X和Y都包含n个波段,即X=(x1,x2...xi...xn),Y=(y1,y2...yi...yn),
欧氏距离
余弦角
光谱信息散度
由于距离、角度度量分别是利用谱段间的距离、角度差异的加权值,导致谱段间差异易相互抵消,所以难以区分整体波形结构差异,从信息论的角度加入光谱信息散度SID定量表征波形整体相似性。
如图2至图4所示,以光谱编号为横轴,以归一化后的欧氏距离ED、余弦角CA、光谱信息散度SID和表达式(ED×SID)/CA的值为纵轴建立二维平面的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图。
二维平面散点图包括ED散点图和/或CA散点图和/或SID散点图和/或(ED×SID)/CA散点图。
步骤S3,获取训练光谱
将二维平面下的ED散点图、CA散点图、SID散点图、(ED×SID)/CA散点图这四个二维平面散点图中上方离集群中心较远的离散点标记为总离散点,将二维平面散点图中下方除去了离散点之外的集群点标记为总集群点,总离散点和总集群点共同构成训练光谱;这样即由四个二维平面下的散点图获取得到了二维平面下的训练光谱。
步骤S4,建立支持向量机模型
选取核函数和惩罚系数C,结合训练光谱建立SVM二分类算法模型;
本实施例选取的核函数为RBF核函数,
K(mu,mv)即代表核函数,mu,mv表示光谱编号为u与v的光谱在归一化(ED×SID)/CA散点图上光谱度量值。
间隔参数γ系数为不敏感损失函数参数,γ越大,支持向量越少,γ值越小,支持向量越多;惩罚系数C值用以约束光谱错分情况,C过大或过小,泛化能力变差;
实践中惩罚系数C和RBF核函数中的间隔参数γ多为人为指定的经验参数,作为一种改进,本实施例还包括对训练光谱进行交叉验证,寻得惩罚系数C和核函数RBF中的间隔参数γ的最优取值的步骤。
通过对训练光谱进行交叉验证,自动寻优最佳支持向量机模型所需参数,具体方法为:将训练光谱随机分为N个集合,对其中的N-1个集合进行训练,建立SVM二分类算法模型,得到一个决策函数,并用该决策函数对剩下的一个集合进行样本测试;将上述的过程重复N次,取N次过程中的测试错误的平均值作为误差,误差最小的模型中惩罚系数C和RBF核函数中间隔参数γ的取值即为最优取值。
实践中还可以选取的核函数类型有线性核函数、多项式核函数、sigmoid核函数。本实施例选取的RBF核函数具有泛化能力强、收敛速度快的特点。
将自动寻优出的参数间隔参数γ代入RBF核函数、结合自动寻优的惩罚系数C和训练光谱建立支持向量机模型,训练输入的光谱即为支持向量。
步骤S5,确定异常光谱阈值线
如图6所示,将二维平面散点图输入支持向量机模型,在高维空间得到最优分类超平面函数表达式,最优分类超平面函数表达式即为异常光谱阈值线;
将(ED×SID)/CA二维平面散点图输入支持向量机模型,得到最优分类超平面函数表达式
b*表示支持向量偏置,如图6中实心黑点为支持向量,每个点看成在向量空间中,都可以表示成wx+b的形式,所以任意一个点的b都是已知的,此处支持向量偏置b*即为表达式wx+b中b的值,
还可以通过不同分类点(即离散点和集群点)中任意一对支持向量取中值求得;mu,mv表示光谱编号为u与v的光谱在归一化(ED×SID)/CA散点图光谱度量值;ou表示光谱编号u输出不同分类点。
支持向量机模型即为由惩罚系数C、代入间隔参数γ最优取值的RBF核函数和训练光谱共同构成的SVM二分类算法模型。
步骤S6,剔除异常光谱
二维平面散点图位于异常光谱阈值线上方的光谱点即为异常光谱,剔除异常光谱。
本发明利用机器学习理论中支持向量机分类方法思想设置阈值剔除异常光谱,通过交叉验证方法自动参数寻优找出最佳模型参数进而对光谱数据进行分类,避免了人工设置阈值或不断调整阈值的主观性、低效率等问题,能规模化应用于大量光谱数据的处理,并且有效提高了精度和准确性。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于,包括如下步骤:
1)获取实测光谱数据,并对其进行预处理;
2)依据经预处理的所述实测光谱数据,获取光谱的二维平面散点图,二维平面散点图是通过以下方法得到的:
计算经预处理的实测光谱数据与标准光谱集平均光谱之间的局部度量,包括欧氏距离ED和余弦角CA,并归一化到0-1之间;计算经预处理的实测光谱数据与标准光谱集平均光谱之间的整体度量,包括光谱信息散度SID,并归一化到0-1之间;
光谱编号结合归一化后的欧氏距离ED、余弦角CA、光谱信息散度SID和表达式(ED×SID)/CA的值,得到二维平面下的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图;
所述二维平面散点图包括所述ED散点图和/或CA散点图和/或SID散点图和/或(ED×SID)/CA散点图;
3)将位于所述二维平面散点图中上方离集群中心较远的离散点标记为总离散点,将二维平面散点图中下方除去了离散点之外的集群点标记为总集群点,总离散点和总集群点共同构成训练光谱;
4)选取核函数和惩罚系数C,结合所述训练光谱建立支持向量机模型;
5)将所述二维平面散点图输入所述支持向量机模型,在高维空间得到最优分类超平面函数表达式,最优分类超平面函数表达式即为异常光谱阈值线;
6)所述二维平面散点图位于异常光谱阈值线上方的光谱点即为异常光谱,剔除所述异常光谱。
2.根据权利要求1所述的基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于:所述步骤1)预处理包括三个步骤11)去除水汽影响波段,12)采用多项式平滑滤波,滤除原始光谱中高频噪声,13)包络线去除。
3.根据权利要求1所述的基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于:所述二维平面下的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图的建立方法为:以光谱编号为横轴,以归一化后的欧氏距离ED、余弦角CA、光谱信息散度SID和表达式(ED×SID)/CA的值为纵轴建立二维平面的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图。
4.根据权利要求1所述的基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于:所述步骤4)中的核函数为RBF核函数,K(mu,mv)为核函数,mu,mv表示光谱编号为u与v的光谱在二维平面散点图上光谱度量值;所述惩罚系数C和所述RBF核函数中的间隔参数γ均是人为指定的经验参数。
5.根据权利要求4所述的基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于:还包括对所述训练光谱进行交叉验证,寻得惩罚系数C和核函数RBF中的间隔参数γ的最优取值的步骤,具体方法为:将所述训练光谱随机分为N个集合,对其中的N-1个集合进行训练,建立SVM二分类算法模型,得到一个决策函数,并用该决策函数对剩下的一个集合进行样本测试;将上述的过程重复N次,取每次过程的测试错误的平均值作为所进行样本测试集合的平均误差,将N次测试所得的N个平均误差中值最小的模型的惩罚系数C和RBF核函数中间隔参数γ的取值作为所述最优取值。
6.根据权利要求1或5所述的基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于:所述步骤5)是将(ED×SID)/CA二维平面散点图输入所述支持向量机模型,得到最优分类超平面函数表达式b*表示支持向量偏置;mu,mv表示光谱编号为u与v的光谱在归一化(ED×SID)/CA散点图光谱度量值;ou表示光谱编号u输出不同分类点;所述支持向量机模型即为由惩罚系数C、代入间隔参数γ最优取值的RBF核函数和训练光谱共同构成的SVM二分类算法模型。
CN201410264086.9A 2014-06-13 2014-06-13 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法 Expired - Fee Related CN104063710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410264086.9A CN104063710B (zh) 2014-06-13 2014-06-13 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410264086.9A CN104063710B (zh) 2014-06-13 2014-06-13 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法

Publications (2)

Publication Number Publication Date
CN104063710A CN104063710A (zh) 2014-09-24
CN104063710B true CN104063710B (zh) 2017-08-11

Family

ID=51551412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410264086.9A Expired - Fee Related CN104063710B (zh) 2014-06-13 2014-06-13 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法

Country Status (1)

Country Link
CN (1) CN104063710B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106018515B (zh) * 2016-06-08 2019-01-15 北京科技大学 一种基于流形学习的电子舌信号特征提取方法
JP6782679B2 (ja) * 2016-12-06 2020-11-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理装置、情報処理方法及びプログラム
CN110579466B (zh) * 2018-06-11 2020-12-18 中国农业机械化科学研究院 一种激光诱导击穿光谱筛选方法
CN110897593A (zh) * 2019-10-24 2020-03-24 南京航空航天大学 一种基于光谱特征参数的宫颈癌前病变诊断方法
CN110910021A (zh) * 2019-11-26 2020-03-24 上海华力集成电路制造有限公司 一种基于支持向量机监控在线缺陷的方法
CN111125629B (zh) * 2019-12-25 2023-04-07 温州大学 一种域自适应的pls回归模型建模方法
CN114951047B (zh) * 2022-05-26 2023-08-22 河海大学 基于光纤传感器的振动送料中通用型智能分选方法
CN117132504B (zh) * 2023-10-20 2024-01-30 武汉怡特环保科技有限公司 基于单光子光谱计数技术成像去除干扰的方法
CN117596487B (zh) * 2024-01-18 2024-04-26 深圳市城市公共安全技术研究院有限公司 相机扰动自矫正方法、装置、设备及存储介质
CN118850473B (zh) * 2024-09-24 2024-12-20 江苏威拉里新材料科技有限公司 一种包装机故障智能检测方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0506117A (pt) * 2005-10-14 2007-07-03 Fundacao Oswaldo Cruz método de diagnóstico baseado em padrões proteÈmicos e/ou genÈmicos por vetores de suporte aplicado a espectometria de massa
CN101713731B (zh) * 2009-11-09 2012-02-29 北京中医药大学 一种药物制剂包衣质量的鉴别方法

Also Published As

Publication number Publication date
CN104063710A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
CN104063710B (zh) 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法
CN110532674B (zh) 一种燃煤电站锅炉炉膛温度测量方法
CN106018545B (zh) 一种基于Adaboost-RBF协同的管道缺陷漏磁反演方法
WO2018010352A1 (zh) 一种定性定量相结合的近红外定量模型构建方法
CN110243806B (zh) 拉曼光谱下基于相似度的混合物组分识别方法
CN102152172B (zh) 基于协整建模的刀具磨损监测方法
CN108469180A (zh) 基于大数据和机器学习的烧结终点预测系统的建立方法
CN109324014B (zh) 一种自适应的原油性质近红外快速预测方法
CN104062258B (zh) 一种采用近红外光谱快速测定复方阿胶浆中可溶性固形物的方法
CN111339633B (zh) 基于数据变化特征模糊度量的热量表性能退化评估方法
CN107247033B (zh) 基于快速衰减式淘汰算法和plsda鉴别黄花梨成熟度的方法
CN104155245B (zh) 一种基于模式识别与谱图映射的油品多类性质的检测方法
CN105334185A (zh) 基于光谱投影判别的近红外模型维护方法
CN114216877B (zh) 茶叶近红外光谱分析中谱峰自动检测与重构方法及系统
CN102072767A (zh) 基于波长相似性共识回归红外光谱定量分析方法和装置
CN105486661A (zh) 一种基于高斯过程的近红外光谱煤灰分快速检测方法
CN113758890A (zh) 一种气体浓度计算方法、装置、设备及存储介质
CN104062008B (zh) 一种考虑整体度量的实测光谱曲线中异常光谱的剔除方法
CN105699319A (zh) 一种基于高斯过程的近红外光谱煤全水分快速检测方法
CN115221927A (zh) 一种紫外-可见光谱的溶解有机碳检测方法
CN103278467A (zh) 一种植物叶片氮素丰缺快速无损高准确率的鉴别方法
CN117929356B (zh) 一种基于高斯过程回归的libs定量分析方法
CN106845825A (zh) 一种基于改进pca的带钢冷轧质量问题溯源及控制方法
CN106485049B (zh) 一种基于蒙特卡洛交叉验证的nirs异常样本的检测方法
CN108663334A (zh) 基于多分类器融合寻找土壤养分光谱特征波长的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170811