CN104677498A - 一种近红外光谱模型的鲁棒性改善方法 - Google Patents

一种近红外光谱模型的鲁棒性改善方法 Download PDF

Info

Publication number
CN104677498A
CN104677498A CN201510109849.7A CN201510109849A CN104677498A CN 104677498 A CN104677498 A CN 104677498A CN 201510109849 A CN201510109849 A CN 201510109849A CN 104677498 A CN104677498 A CN 104677498A
Authority
CN
China
Prior art keywords
sample
fuzzy membership
spectrum
factor
robustness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510109849.7A
Other languages
English (en)
Inventor
李海森
高珏
徐超
杜伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201510109849.7A priority Critical patent/CN104677498A/zh
Publication of CN104677498A publication Critical patent/CN104677498A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明属于近红外光谱建模技术领域,具体涉及一种近红外光谱模型的鲁棒性改善方法。采集样本的漫反射光谱,测定样本的糖度值;将光谱样本映射到一个高维的特征空间,寻找样本的最小包含超球,构建光谱样本的数据域描述函数;对样本的近红外光谱、模糊隶属度和糖度数据进行训练,建立模糊支持向量机模型。本发明引入信任因子和舍弃因子,通过映射关系建立数据域描述和概率密度的关联,这样生成的模糊隶属度能客观的反映光谱数据结构,使得该方法更具有通用性。

Description

一种近红外光谱模型的鲁棒性改善方法
技术领域
本发明属于近红外光谱建模技术领域,具体涉及一种近红外光谱模型的鲁棒性改善方法。
背景技术
近红外光谱技术凭借其无损、快速等优点,广泛应用于农业工程、食品分析、环境监测和水声探测等领域。通过近红外光谱,可以建立回归模型和分类模型分别获取样本的定量信息和定性信息。目前研究的焦点大多集中于如何提高模型的预测性能,而对于模型鲁棒性的改善给予的关注相对较少。鲁棒性是模型对光谱数据中不确定因素的适应性,主要表现为模型的抗噪能力和泛化能力。光谱建模时,仪器响应的漂移、样本包含噪声或奇异值、样本不充分等因素都会影响模型的鲁棒性。鲁棒性不足会导致模型应用于不同条件或受噪声影响的光谱数据时,预测误差成倍增长。这一问题严重限制了红外光谱技术的更广泛应用和进一步推广。
为了改善模型的鲁棒性,一种方法是对训练样本进行预处理,从而剔除异常样本,但由于缺乏足够的先验知识,这种方法很难执行;另一种方法是对训练样本引入模糊隶属度,依据样本包含不确定因素的大小、信息的重要性对样本赋予不同的模糊隶属度,通过较小的模糊隶属度赋值来限制异常样本对模型的影响。目前,尽管有多种隶属度函数构造方法,但还没有可遵循的一般性准则。如何根据近红外光谱的特性,构造出符合客观实际的模糊隶属度,从而建立强鲁棒性并具有通用性的模型,使模型在训练样本不充分或测量过程中的各种噪声影响下仍然能稳定而正常的工作是急需要解决的一个难题。
发明内容
本发明的目的是提供一种可以自动生成模糊隶属度,进而构建具有强鲁棒性的模糊支持向量机模型的近红外光谱模型的鲁棒性改善方法。
本发明的目的是这样实现的:
(1)采集样本的漫反射光谱,测定样本的糖度值;
(2)将光谱样本映射到一个高维的特征空间,寻找样本的最小包含超球,构建光谱样本的数据域描述函数,引入信任因子和舍弃因子将光谱的训练样本划分为三个区域,通过映射关系建立数据域描述与概率密度的关联,得到模糊隶属度函数,应用穷举搜索参数寻优法确定模糊隶属度函数中的四个未知参数:信任因子、舍弃因子、映射度和模糊隶属度下限,自动生成每个样本的模糊隶属度;
(3)对样本的近红外光谱、模糊隶属度和糖度数据进行训练,建立模糊支持向量机模型,与光谱分析中常用的多元线性回归、偏最小二乘回归、支持向量机模型进行对比,检验模型的鲁棒性。
步骤(1)所述采集样本的漫反射光谱,采集波长范围是400-1000nm,采样间隔为0.37nm,取四个测试部位的平均光谱作为样本的原始光谱。
步骤(2)所述模糊隶属度函数中D(xi)为光谱数据域描述值,引入信任因子DC和舍弃因子DT将光谱的训练样本划分为三个区域:位于D(xi)<DC区域的光谱样本,样本具有极高的可信度并且赋予模糊隶属度为1;位于D(xi)>DT区域的光谱样本,包含噪声或奇异点,对应的模糊隶属度为最小值σ;位于DC≤D(xi)≤DT,包含噪声或奇异值的概率各不相同,模糊隶属度与包含噪声或奇异值的概率成正比关系。通过映射关系建立数据域描述D(xi)与概率密度px(xi)的关联,由概率密度来表征样本的模糊隶属度,模糊隶属度函数:
p x ( x i ) = 1 if D ( x i ) < D C &sigma; if D ( x i ) > D T &sigma; + ( 1 - &sigma; ) ( D ( x ) - D T D C - D T ) d otherwise
式中d是控制映射度的参数。
步骤(2)所述模糊隶属度函数中四个参数的穷举搜索参数寻优法,首先固定信任因子DC=Dmin和舍弃因子DT=Dmax,对映射度d和模糊隶属度下限σ执行两维穷举搜索,σ的搜索范围是[0.10.9],步长0.1;d的搜索范围是[2-828],乘积为2;固定d和σ,对DC和DT实施两维穷举搜索,DC的值选择为使0%、10%、20%、30%、40%、50%的样本模糊隶属度为1;DT的值选择为使0%、10%、20%、30%、40%、50%的样本模糊隶属度为σ。
本发明的有益效果在于:
(1)本发明引入信任因子和舍弃因子,通过映射关系建立数据域描述和概率密度的关联,这样生成的模糊隶属度能客观的反映光谱数据结构,使得该方法更具有通用性。(2)本发明由穷举搜索参数寻优法确定模糊隶属度函数的四个参数,从而为每个样本自动生成模糊隶属度,对比传统模糊隶属度获取人为设置部分参数的方法,该方法简化了获取过程并且所得模糊隶属度各为客观。(3)本发明所设计的模模型建立时引入自动生成的模糊隶属度的方法,在实际应用近红外光谱技术建模时,训练样本不充分或测量过程中的各种噪声影响下仍然能够稳定而正常的工作,是一种有效的解决方法。并且该方法稍加改进就能适应不同的光谱分析对象,能够推动光谱技术的更广泛应用。
附图说明
图1为本发明所设计鲁棒性改善方法的流程图。
图2为本发明采集苹果样本的近红外漫反射光谱图。
图3为本发明确定模糊隶属度的流程图。
图4a为本发明MLR模型抗噪性能对比图。
图4b为本发明PLSR模型抗噪性能对比图。
图4c为本发明SVM模型抗噪性能对比图。
图4d为本发明FSVM模型抗噪性能对比图。
具体实施方式
下面结合附图对本发明做进一步描述:
为实现上述目的,本发明采取以下技术方案:一种近红外光谱模型的鲁棒性改善方法,具体步骤包括:
(1)采集样本的漫反射光谱,并测定样本的糖度值;
(2)将光谱样本映射到一个高维的特征空间,寻找样本的最小包含超球,构建光谱样本的数据域描述函数,引入信任因子和舍弃因子将光谱的训练样本划分为三个区域,通过映射关系建立数据域描述与概率密度的关联,从而得到模糊隶属度函数,应用穷举搜索参数寻优法确定模糊隶属度函数中的四个未知参数:信任因子、舍弃因子、映射度和模糊隶属度下限,自动生成每个样本的模糊隶属度;
(3)对样本的近红外光谱、模糊隶属度和糖度数据进行训练,建立模糊支持向量机模型,设计检验模型鲁棒性的泛化能力和抗噪能力比较方法,与光谱分析中常用的多元线性回归、偏最小二乘回归,和支持向量机模型进行对比。
所述采集样本的漫反射光谱,选用海洋光学公司的USB2000光纤光谱仪和HL-2000卤钨光源构建检测平台,通过漫反射检测方式采集苹果近红外光谱,采集波长范围是400-1000nm,采样间隔为0.37nm,取四个测试部位的平均光谱作为该样本的原始光谱。所述测定样本的糖度值,使用上海光学仪器五厂生产的阿贝折射仪测定样本糖度。
所述模糊隶属度函数的建立,定义D(xi)为光谱数据域描述值,引入信任因子DC和舍弃因子DT将光谱的训练样本划分为三个区域:位于D(xi)<DC区域的光谱样本,样本具有极高的可信度并且赋予模糊隶属度为1;位于D(xi)>DT区域的光谱样本,样本极有可能包含噪声或奇异点,对应的模糊隶属度为最小值σ;位于DC≤D(xi)≤DT,包含噪声或奇异值的概率各不相同,模糊隶属度与包含噪声或奇异值的概率成正比关系。通过映射关系建立数据域描述D(xi)与概率密度px(xi)的关联,由概率密度来表征样本的模糊隶属度。定义如下的映射关系得到模糊隶属度函数:
p x ( x i ) = 1 if D ( x i ) < D C &sigma; if D ( x i ) > D T &sigma; + ( 1 - &sigma; ) ( D ( x ) - D T D C - D T ) d otherwise
式中d是控制映射度的参数。
所述模糊隶属度函数中四个参数的穷举搜索参数寻优法,首先固定信任因子DC=Dmin和舍弃因子DT=Dmax,对映射度d和模糊隶属度下限σ执行两维穷举搜索。σ的搜索范围是[0.10.9],步长0.1;d的搜索范围是[2-828],乘积为2。接着固定d和σ,对DC和DT实施两维穷举搜索,DC的值选择为使0%、10%、20%、30%、40%、50%的样本模糊隶属度为1;DT的值选择为使0%、10%、20%、30%、40%、50%的样本模糊隶属度为σ。
所述检验模型鲁棒性的泛化能力和抗噪能力比较方法,模型泛化能力比较方法设计为以包含不同数目和不同果品的训练集分别建立模型,比较模型的推广能力;模型抗噪能力比较方法在原始光谱上分别加入高斯、乘性、基线漂移、基线倾斜、波长漂移这五种噪声建立模型,比较模型对噪声的敏感度。
鲁棒性改善方法的总体流程图如图1所示。下面结合实施案例,对本发明的方法作进一步详细描述。
1、由光纤光谱仪卤钨光源构建检测平台,通过漫反射检测方式采集苹果近红外光谱,采集波长范围是400-1000nm,采样间隔为0.37nm,取每个苹果赤道四个测试部位的平均光谱作为该苹果样本的原始光谱,样本的近红外漫反射光谱图如图2所示。
2、使用上海光学仪器五厂生产的阿贝折射仪测量苹果样本的糖度,测量结果如表1所示。
表1苹果糖度的统计信息
3、确定模糊隶属度的流程图如图3所示,具体步骤如下:
1)光谱样本集为X={x1,…,xi,…xl}(其中xi∈Rn为包含n维光谱样本),引入映射φ:Rn→F将光谱样本映射到一个高维的特征空间F,然后求解下面的二次规划:
Minimize W = R 2 + C &Sigma; i = 1 l &xi; i - - - ( 1 )
subject to   ||φ(xi)-a||2≤R2i
ξi≥0  i=1,…,l.
式中R为最小包含超球半径,a为球心,ξi为松弛变量,C为惩罚因子。引入拉格朗日系数βi求解上述规划问题,即可得到最优Lagrange乘子及特征空间中的光谱样本数据域描述。
光谱样本数据域描述即xi在特征空间中映射Φ(xi)到最小包含超球球心a的距离D(xi)。
D ( x i ) = &Sigma; i = 1 l &Sigma; j = 1 l &beta; i &beta; j K ( x i , x j ) + K ( x i , x i ) - 2 &Sigma; j = 1 l K ( x j , x i ) &beta; j - - - ( 2 )
式中βi和βj为拉格朗日系数,K(xi,xj)为核函数。
2)通过映射关系建立数据域描述D(xi)与概率密度px(xi)的关联,由概率密度来表征样本的模糊隶属度。定义如下的映射关系得到模糊隶属度函数:
p x ( x i ) = 1 if D ( x i ) < D C &sigma; if D ( x i ) > D T &sigma; + ( 1 - &sigma; ) ( D ( x ) - D T D C - D T ) d otherwise - - - ( 3 )
式中DC为信任因子,DT为舍弃因子,d是控制映射度的参数,σ为模糊隶属度最小值。
3)为了确定模糊隶属度函数的四个参数,首先固定信任因子DC=Dmin和舍弃因子DT=Dmax,对映射度d和模糊隶属度下限σ执行两维穷举搜索。σ的搜索范围是[0.10.9],步长0.1;d的搜索范围是[2-828],乘积为2。接着固定d和σ,对DC和DT实施两维穷举搜索,DC的值选择为使0%、10%、20%、30%、40%、50%的样本模糊隶属度为1;DT的值选择为使0%、10%、20%、30%、40%、50%的样本模糊隶属度为σ。最终搜索结果为DC=20%、DT=10%、d=8和σ=0.3,将这些参数代入(3)式,自动生成了每个样本的模糊隶属度。
4、对样本的近红外光谱、模糊隶属度和糖度数据进行训练,建立模糊支持向量机模型,设计泛化能力和抗噪能力比较方法,与光谱分析中常用的多元线性回归(MultivariateLinear Regression,MLR)、偏最小二乘回归(Partial Least Square Regression,PLSR),和支持向量机(Support Vector Machines,SVM)模型进行对比,用于检验模型的鲁棒性。模型的预测性能的评价指标为预测均方根误差(RMSEP)。
RMSEP = &Sigma; i = 1 n ( y i - y i ^ ) 2 n - - - ( 4 )
式中yi是样本测量值和预测值,n为样本个数。
1)模型的泛化能力比较方法
将分属两种苹果的样本集分为A子集(红富士)和B子集(国光)。设计四组训练集:第1组选择A子集共30个样本;第2组选择B子集共30个样本;第3组从A子集和B子集中随机各取15个样本;第4组选择A子集和B子集的所有样本共60个。建立模型对分属两种苹果的30个样本进行预测,模型比较结果如表2所示。
表2不同模型的泛化能力对比
由表2看出,本发明所建立模型对比其他模型,从光谱样本中获取的信息更充分,更能适应训练样本的变化,泛化能力更强。
2)模型的抗噪能力比较方法
在原始光谱上分别加入高斯噪声、乘性噪声、基线漂移、基线倾斜、波长漂移,考察模型对这五种噪声的敏感度。模型抗噪试验的结果如图4所示,其中半径0.2的实线代表较好的模型性能,半径0.8的实线代表较差的模型性能,半径越大意味着模型性能受该噪声影响越严重。试验结果可知,本发明所建立模型对各种噪声的敏感度最低,表现出更强的抗噪能力。

Claims (4)

1.一种近红外光谱模型的鲁棒性改善方法,其特征在于:
(1)采集样本的漫反射光谱,测定样本的糖度值;
(2)将光谱样本映射到一个高维的特征空间,寻找样本的最小包含超球,构建光谱样本的数据域描述函数,引入信任因子和舍弃因子将光谱的训练样本划分为三个区域,通过映射关系建立数据域描述与概率密度的关联,得到模糊隶属度函数,应用穷举搜索参数寻优法确定模糊隶属度函数中的四个未知参数:信任因子、舍弃因子、映射度和模糊隶属度下限,自动生成每个样本的模糊隶属度;
(3)对样本的近红外光谱、模糊隶属度和糖度数据进行训练,建立模糊支持向量机模型,与光谱分析中常用的多元线性回归、偏最小二乘回归、支持向量机模型进行对比,检验模型的鲁棒性。
2.根据权利要求1所述的一种近红外光谱模型的鲁棒性改善方法,其特征在于:步骤(1)所述采集样本的漫反射光谱,采集波长范围是400-1000nm,采样间隔为0.37nm,取四个测试部位的平均光谱作为样本的原始光谱。
3.根据权利要求1所述的一种近红外光谱模型的鲁棒性改善方法,其特征在于:步骤(2)所述模糊隶属度函数中D(xi)为光谱数据域描述值,引入信任因子DC和舍弃因子DT将光谱的训练样本划分为三个区域:位于D(xi)<DC区域的光谱样本,样本具有极高的可信度并且赋予模糊隶属度为1;位于D(xi)>DT区域的光谱样本,包含噪声或奇异点,对应的模糊隶属度为最小值σ;位于DC≤D(xi)≤DT,包含噪声或奇异值的概率各不相同,模糊隶属度与包含噪声或奇异值的概率成正比关系。通过映射关系建立数据域描述D(xi)与概率密度px(xi)的关联,由概率密度来表征样本的模糊隶属度,模糊隶属度函数:
p x ( x i ) = 1 if D ( x i ) < D C &sigma; if D ( x i ) > D T &sigma; + ( 1 - &sigma; ) ( D ( x ) - D T D C - D T ) d otherwise
式中d是控制映射度的参数。
4.根据权利要求1所述的一种近红外光谱模型的鲁棒性改善方法,其特征在于:步骤(2)所述模糊隶属度函数中四个参数的穷举搜索参数寻优法,首先固定信任因子DC=Dmin和舍弃因子DT=Dmax,对映射度d和模糊隶属度下限σ执行两维穷举搜索,σ的搜索范围是[0.10.9],步长0.1;d的搜索范围是[2-8 28],乘积为2;固定d和σ,对DC和DT实施两维穷举搜索,DC的值选择为使0%、10%、20%、30%、40%、50%的样本模糊隶属度为1;DT的值选择为使0%、10%、20%、30%、40%、50%的样本模糊隶属度为σ。
CN201510109849.7A 2015-03-13 2015-03-13 一种近红外光谱模型的鲁棒性改善方法 Pending CN104677498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510109849.7A CN104677498A (zh) 2015-03-13 2015-03-13 一种近红外光谱模型的鲁棒性改善方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510109849.7A CN104677498A (zh) 2015-03-13 2015-03-13 一种近红外光谱模型的鲁棒性改善方法

Publications (1)

Publication Number Publication Date
CN104677498A true CN104677498A (zh) 2015-06-03

Family

ID=53312852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510109849.7A Pending CN104677498A (zh) 2015-03-13 2015-03-13 一种近红外光谱模型的鲁棒性改善方法

Country Status (1)

Country Link
CN (1) CN104677498A (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729650A (zh) * 2014-01-17 2014-04-16 华东理工大学 近红外光谱建模样本的选择方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729650A (zh) * 2014-01-17 2014-04-16 华东理工大学 近红外光谱建模样本的选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高珏等: "基于模糊隶属度的近红外光谱模型鲁棒性分析", 《哈尔滨工程大学学报》 *

Similar Documents

Publication Publication Date Title
Chen et al. A fuzzy optimization strategy for the implementation of RBF LSSVR model in vis–NIR analysis of pomelo maturity
CN106124449B (zh) 一种基于深度学习技术的土壤近红外光谱分析预测方法
CN106815643B (zh) 基于随机森林迁移学习的红外光谱模型传递方法
CN101915744B (zh) 物质成分含量的近红外光谱无损检测方法及装置
CN103235095B (zh) 注水肉检测方法和装置
CN102879353B (zh) 近红外检测花生中蛋白质组分含量的方法
CN102590129B (zh) 近红外检测花生中氨基酸含量的方法
CN109540836A (zh) 基于bp人工神经网络的近红外光谱糖度检测方法及系统
CN107796764A (zh) 一种基于三波段植被指数的小麦叶面积指数估算模型的构建方法
An et al. A portable soil nitrogen detector based on NIRS
Pan et al. Simultaneous and rapid measurement of main compositions in black tea infusion using a developed spectroscopy system combined with multivariate calibration
CN105784672A (zh) 一种基于双树复小波算法的毒品检测仪标准化方法
Jiang et al. Qualitative and quantitative analysis in solid-state fermentation of protein feed by FT-NIR spectroscopy integrated with multivariate data analysis
CN102841070A (zh) 由二维相关红外同步光谱识别原油种类的方法
JP6760663B2 (ja) 試料解析装置および試料解析用プログラム
CN107976417B (zh) 一种基于红外光谱的原油种类识别方法
Xu et al. Nondestructive detection of total soluble solids in grapes using VMD‐RC and hyperspectral imaging
CN109521437B (zh) 面向植被生化参数探测的多光谱激光雷达波长选择方法
CN108693139A (zh) 电子烟油理化指标的近红外光谱预测模型建立方法及应用
CN112651173B (zh) 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统
CN107290299B (zh) 一种实时无损检测桃的糖度和酸度的方法
Zhou et al. Applications of near infrared spectroscopy in cotton impurity and fiber quality detection: A review
CN104677498A (zh) 一种近红外光谱模型的鲁棒性改善方法
CN102841071A (zh) 由二维相关红外异步光谱识别原油种类的方法
Bi et al. Apple internal quality fusion prediction by multi-pattern recognition technology and evidence theory

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150603