CN113408616B - 基于pca-uve-elm的光谱分类方法 - Google Patents
基于pca-uve-elm的光谱分类方法 Download PDFInfo
- Publication number
- CN113408616B CN113408616B CN202110677837.XA CN202110677837A CN113408616B CN 113408616 B CN113408616 B CN 113408616B CN 202110677837 A CN202110677837 A CN 202110677837A CN 113408616 B CN113408616 B CN 113408616B
- Authority
- CN
- China
- Prior art keywords
- algorithm
- elm
- data
- classification
- uve
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000003595 spectral effect Effects 0.000 title claims abstract description 19
- 239000000126 substance Substances 0.000 claims abstract description 51
- 238000001069 Raman spectroscopy Methods 0.000 claims abstract description 49
- 238000000513 principal component analysis Methods 0.000 claims abstract description 47
- 238000001228 spectrum Methods 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000000007 visual effect Effects 0.000 claims abstract description 18
- 238000001237 Raman spectrum Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 33
- 238000006073 displacement reaction Methods 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 21
- 238000012216 screening Methods 0.000 claims description 14
- 230000002708 enhancing effect Effects 0.000 claims description 9
- 238000010238 partial least squares regression Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 238000010187 selection method Methods 0.000 claims description 5
- UBOXGVDOUJQMTN-UHFFFAOYSA-N 1,1,2-trichloroethane Chemical compound ClCC(Cl)Cl UBOXGVDOUJQMTN-UHFFFAOYSA-N 0.000 claims description 4
- 101000892269 Meleagris gallopavo Beta-1 adrenergic receptor Proteins 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 4
- 239000002131 composite material Substances 0.000 abstract description 3
- 239000008157 edible vegetable oil Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004611 spectroscopical analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 235000019484 Rapeseed oil Nutrition 0.000 description 1
- 235000019774 Rice Bran oil Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000010495 camellia oil Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000002086 nanomaterial Substances 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 239000008165 rice bran oil Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 235000012424 soybean oil Nutrition 0.000 description 1
- 239000003549 soybean oil Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
- Spectrometry And Color Measurement (AREA)
Abstract
基于PCA‑UVE‑ELM的光谱分类方法,所述PCA‑UVE‑ELM为综合PCA,UVE,以及ELM的复合算法,PCA指主成分分析算法,UVE指无信息变量剔除算法,ELM指极限学习机算法,通过对样品的拉曼光谱原始数据进行归一化处理,利用PCA算法将归一化数据降至二维平面上的直观可视化投影,在二维平面利用置信椭圆实现初步分类;对于重合率较高的标签的光谱数据利用UVE算法计算其特征拉曼位移,根据分类物质的化学特性,对其特征化学键拉曼位移的所测强度进行增强处理以进行优化分类;将数据集按照训练集与测试集3:1的比例对ELM模型进行训练,利用ELM算法寻找最优参数,实现最优分类,从而实现光谱鉴别的多分类,提高鉴别分类的效率和精确度。
Description
技术领域
本发明涉及基于拉曼光谱的物质分析鉴别技术,特别是一种基于PCA-UVE-ELM的光谱分类方法,所述PCA-UVE-ELM为综合PCA,UVE,以及ELM的复合算法,PCA指主成分分析算法(PCA,principal component analysis,主成分分析),UVE指无信息变量剔除算法(UVE,uninformative variable elimination,无信息变量剔除),ELM指极限学习机算法(ELM,extreme learning machine),通过对样品的拉曼光谱原始数据进行归一化处理,利用PCA算法将归一化数据降至二维平面上的直观可视化投影,在二维平面利用置信椭圆实现初步分类;对于重合率较高的标签的光谱数据利用UVE算法计算其特征拉曼位移,根据分类物质的化学特性,对其特征化学键拉曼位移的所测强度进行增强处理以进行优化分类;将数据集按照训练集与测试集3∶1的比例对ELM模型进行训练,利用ELM算法寻找最优参数,实现最优分类,从而实现光谱鉴别的多分类,提高鉴别分类的效率和精确度。
背景技术
拉曼光谱是一种散射光谱,利用拉曼散射效应生成散射光谱并进行分析可以得到分子振动、转动方面的信息。根据拉曼光谱可以分析物质性质,鉴别物质组分。拉曼光谱在化学研究,纳米材料应用,材料科学研究中有着广泛的应用前景。
光谱分析是光学、化学领域中很重要的方法。目前常用的光谱分析算法主要有主成分分析(PCA)和偏最小二乘分析法(PLS,Partial least squares),实现对光谱的分类、回归。但是光谱分析多分类问题的效果并没有良好的效果。将机器学习算法与光谱分析结合是目前的研究热点,神经网络,支持向量机(SVM,Support Vector Machine)算法等应用于拉曼光谱分析有着良好的效果,但是由于光谱数据维度过高,在数据处理过程中计算冗杂,时效性较差。同时数学上的算法并没有与所测物质的物理机制相结合,有一定的缺陷性。
发明内容
本发明针对现有技术中存在的缺陷或不足,提供一种基于PCA-UVE-ELM的光谱分类方法,所述PCA-UVE-ELM为综合PCA,UVE,以及ELM的复合算法,PCA指主成分分析算法(PCA,principal component analysis,主成分分析),UVE指无信息变量剔除算法(UVE,uninformative variable elimination,无信息变量剔除),ELM指极限学习机算法(ELM,extreme learning machine),通过对样品的拉曼光谱原始数据进行归一化处理,利用PCA算法将归一化数据降至二维平面上的直观可视化投影,在二维平面利用置信椭圆实现初步分类;对于重合率较高的标签的光谱数据利用UVE算法计算其特征拉曼位移,根据分类物质的化学特性,对其特征化学键拉曼位移的所测强度进行增强处理以进行优化分类;将数据集按照训练集与测试集3∶1的比例对ELM模型进行训练,利用ELM算法寻找最优参数,实现最优分类,从而实现光谱鉴别的多分类,提高鉴别分类的效率和精确度。
本发明的技术解决方案如下:
基于PCA-UVE-ELM的光谱分类方法,其特征在于:将原始不同样品类的拉曼光谱数据利用主成分分析PCA算法对数据进行降维,实现直观的可视化投影,利用置信椭圆实现初步分类;在初步分类的基础上,利用无信息变量消除UVE算法筛选出为特征拉曼位移的变量以简化后续的计算;将筛选出的拉曼位移与测量物质化学键对应拉曼位移比对,将共性拉曼位移进行增强以提高后续分类的准确性;利用超限学习机ELM算法,对输入特征拉曼位移的光谱数据进行分类。
具体包括如下步骤:
步骤S1,输入检测系统测得的不同样品的原始数据,去除基线,降低噪声,设定好不同样品的标签;
步骤S2,将数据归一化后,利用主成分分析PCA算法,将数据降至二维,保留原光谱的主要特征,实现二维平面的可视化绘图,对每一个标签绘制置信椭圆,实现初步分类;
步骤S3,对于降到二维无法直接分类的数据,将所有的原始数据提取出来重新构成一个数据集;
步骤S4,利用UVE算法计算新数据集不同标签的光谱的特征拉曼位移;
步骤S5,对选取的特征位移进行筛选,同时对和物质特征化学键相关的信号强度进行增强,作为ELM算法的输入;
步骤S6,将原始数据随机打乱后,按照训练集与测试集3∶1的比例对ELM模型进行训练;
步骤S7,选取不同的激活函数和隐藏层结点数量,寻找优化参数以优化分类,提高分类的准确率。
所述步骤S1中的降低噪声,利用基于多项式最小二乘法拟合的Savitzky-Golay方法进行平滑曲线。
所述步骤S2中的主成分分析PCA算法包括将原始的n维数据特征降到2维,n是大于2的正整数,具体方式是原始数据的协方差矩阵作为相关系数矩阵,求解其特征值与特征向量,将特征值从大到小排序,选取前两个特征值对应的特征向量做投影,得到降维后的数据,同类型数据绘制95%置信椭圆,确定区域实现可视化初步分类。
所述步骤S4中的UVE算法是基于偏最小二乘回归系数建立的一种波长的选择方法,将原始的数据集X(n×m)与制造的噪声矩阵R(n×m)合并XR(n×2m)后与标签进行偏最小二乘回归,计算回归系数矩阵的标准偏差与平均值向量对应的比值,取XR矩阵中[m+1,2m]列中最大值为衡量参数,筛选去除XR矩阵中[1,m]列内小于该参数的变量,得到光谱的特征拉曼位移,其中n和m分别表示数据集X或噪声矩阵R均具有n行和m列,n和m均为大于2的正整数。
所述步骤S5中的筛选包括去除UVE算法中间隔过小的变量,同时根据查找样品物质特有化学键的拉曼位移,引入增强因子δ作为对应强度信号的增强系数,得到新的数据集。
所述步骤S6中超限学习机ELM算法为基于前馈神经网络的机器学习方法,随机分配节点参数后利用激活函数,将原始数据映射到ELM特征空间,核心是求解输出权重β,使得误差函数||Hβ-T||2最小,这里H为输出矩阵,T为训练目标,将数据集以3∶1比例分为训练集与预测集,对ELM模型进行训练。
所述步骤S7中的激活函数选取:sigmoid,sin,hardlim,tribas,radbas五种函数进行遍历,根据数据集的大小,取最大隐藏层结点数为数据集样本数除以2进行遍历,选择分类准确度最高的激活函数建模。
本发明相对于现有技术优势在于:
1.利用PCA的算法降到二维数据,实现直观可视化分类。
2.在初步分类后,利用UVE算法,寻找特征位移,对原始数据重新降维,结合物质本身化学特性,对对应位移的强度进行增强,提高模型的预测精度。
3.将超限学习机ELM算法与光谱分析相结合,对比传统的神经网络,尤其是单隐层前馈神经网络,在保证学习精度的前提下算法速度更快。
附图说明
图1是实施本发明基于PCA-UVE-ELM的光谱分类方法的流程图。PCA指主成分分析算法(PCA,principal component analysis,主成分分析),UVE指无信息变量剔除算法(UVE,uninformative variable elimination,无信息变量剔除),ELM指极限学习机(ELM,extreme learning machine)。图1中从开始至结束之间包括以下步骤:步骤1,对原始光谱进行预处理,去除基线,平滑降噪,确定标签;步骤2,利用zscore方法归一化数据,进而利用PCA算法对数据降至二维,zscore(Z分数)是一种归一化算法;步骤3,在二维平面利用置信椭圆实现初步分类;步骤4,取出重合率较高的标签的光谱数据进行优化分类;步骤5,利用UVE算法计算所取光谱的特征位移;步骤6,根据分类物质的化学特性,对其特征化学键位移的所测强度进行增强处理;步骤7,根据ELM算法,用训练集与测试集对ELM模型进行训练,寻找最优参数,得到分类最高准确度。
图2是对四种食用油的pca投影分类中原始光谱数据二维投影点及其置信椭圆初步分类示意图。图2中横坐标pc1为第一主成分数据,-50~-40~-30~-20~-10~0~10~20;纵坐标pc2为第二主成分数据,-15~-10~-5~0~5~10~15。主成分值是由特征向量作为加权系数求得的。图中的椭圆区域1是大豆油,椭圆区域2是菜籽油,椭圆区域3是米糠油,椭圆区域4是茶油。第一主成分pc1为特征值从大到小排序中处于第一位的主成分,第二主成分pc2为特征值从大到小排序中处于第二位的主成分。
图3是对11种食用油的pca投影分类中原始光谱数据二维投影点及其置信椭圆初步分类示意图。图3中涉及种数较多(11种,多数量种)的食用油样品的pca投影分类区分效果没有图2中涉及种数较少(4种,少数量种)的明显。
图4是UVE寻找特征拉曼位移图。图4的横坐标是实际变量-随机构造变量,0-500-1000-1500-2000-2500;纵坐标是回归指标,-150~-100~-50~0~50~100。图4中的虚线左侧为实际变量,右侧为根据正态分布生成的变量,左侧加星变量表示筛选出来的特征拉曼位移,共63个。
具体实施方式
下面结合附图(图1-图4)对本发明进行说明。
图1是实施本发明基于PCA-UVE-ELM的光谱分类方法的流程图。图2是对四种食用油的pca投影分类中原始光谱数据二维投影点及其置信椭圆初步分类示意图。图3是对11种食用油的pca投影分类中原始光谱数据二维投影点及其置信椭圆初步分类示意图。图4是UVE寻找特征拉曼位移图。参考图1至图4所示,基于PCA-UVE-ELM的光谱分类方法,其特征在于:将原始不同样品类的拉曼光谱数据利用主成分分析PCA算法对数据进行降维,实现直观的可视化投影,利用置信椭圆实现初步分类;在初步分类的基础上,利用无信息变量消除UVE算法筛选出为特征拉曼位移的变量以简化后续的计算;将筛选出的拉曼位移与测量物质化学键对应拉曼位移比对,将共性拉曼位移进行增强以提高后续分类的准确性;利用超限学习机ELM算法,对输入特征拉曼位移的光谱数据进行分类。
具体包括如下步骤:步骤S1,输入检测系统测得的不同样品的原始数据,去除基线,降低噪声,设定好不同样品的标签;步骤S2,将数据归一化后,利用主成分分析PCA算法,将数据降至二维,保留原光谱的主要特征,实现二维平面的可视化绘图,对每一个标签绘制置信椭圆,实现初步分类;步骤S3,对于降到二维无法直接分类的数据,将所有的原始数据提取出来重新构成一个数据集;步骤S4,利用UVE算法计算新数据集不同标签的光谱的特征拉曼位移;步骤S5,对选取的特征位移进行筛选,同时对和物质特征化学键相关的信号强度进行增强,作为ELM算法的输入;步骤S6,将原始数据随机打乱后,按照训练集与测试集3∶1的比例对ELM模型进行训练;步骤S7,选取不同的激活函数和隐藏层结点数量,寻找优化参数以优化分类,提高分类的准确率。
所述步骤S1中的降低噪声,利用基于多项式最小二乘法拟合的Savitzky-Golay方法进行平滑曲线。所述步骤S2中的主成分分析PCA算法包括将原始的n维数据特征降到2维,n是大于2的正整数,具体方式是原始数据的协方差矩阵作为相关系数矩阵,求解其特征值与特征向量,将特征值从大到小排序,选取前两个特征值对应的特征向量做投影,得到降维后的数据,同类型数据绘制95%置信椭圆,确定区域实现可视化初步分类。所述步骤S4中的UVE算法是基于偏最小二乘回归系数建立的一种波长的选择方法,将原始的数据集X(n×m)与制造的噪声矩阵R(n×m)合并XR(n×2m)后与标签进行偏最小二乘回归,计算回归系数矩阵的标准偏差与平均值向量对应的比值,取XR矩阵中[m+1,2m]列中最大值为衡量参数,筛选去除XR矩阵中[1,m]列内小于该参数的变量,得到光谱的特征拉曼位移,其中n和m分别表示数据集X或噪声矩阵R均具有n行和m列,n和m均为大于2的正整数。所述步骤S5中的筛选包括去除UVE算法中间隔过小的变量,同时根据查找样品物质特有化学键的拉曼位移,引入增强因子δ作为对应强度信号的增强系数,得到新的数据集。所述步骤S6中超限学习机ELM算法为基于前馈神经网络的机器学习方法,随机分配节点参数后利用激活函数,将原始数据映射到ELM特征空间,核心是求解输出权重β,使得误差函数||Hβ-T||2最小,这里H为输出矩阵,T为训练目标,将数据集以3∶1比例分为训练集与预测集,对ELM模型进行训练。所述步骤S7中的激活函数选取:sigmoid,sin,hardlim,tribas,radbas五种函数进行遍历,根据数据集的大小,取最大隐藏层结点数为数据集样本数除以2进行遍历,选择分类准确度最高的激活函数建模。
本发明基于PCA-UVE-ELM的光谱分类方法,可应用于拉曼光谱等数据的分类。对于样品进行拉曼光谱原始数据获取,进而对其预处理。将归一化数据利用PCA算法对数据降至二维,利用95%的置信椭圆,在平面实现初步分类。当分类的类别数量较多时,初步分类可以将问题分解,得到较好的分类结果。取出重合率较高的标签的光谱数据进行优化分类。利用UVE算法计算所取光谱的特征拉曼位移,根据分类物质的化学特性,对其特征化学键拉曼位移的所测强度进行增强处理。根据ELM算法,将数据集按照训练集与测试集3∶1的比例对ELM模型进行训练,寻找最优参数,实现最优分类。本发明主要以拉曼光谱数据的分类作为载体,可用于食品安全监测,水质监测,化学鉴别分类等技术领域。
本发明基于PCA-UVE-ELM的光谱分类方法,在利用机器学习算法的同时,结合物质本身的化学特性,对分类结果不断优化,实现光谱鉴别的多分类,同时运算速度较快,结果较为精确。
一种基于PCA-UVE-ELM的光谱分类方法,可应用于拉曼光谱的分类等领域,其特征在于:将原始不同类的光谱数据利用主成分分析PCA算法对数据进行降维,实现直观的可视化投影,利用置信椭圆可以分类。在此基础上,利用无信息变量消除UVE算法,筛选出为特征位移的变量,简化了后续的计算。将其筛选出的拉曼位移与测量物质化学键对应拉曼位移比对,将共性拉曼位移进行增强,提高后续分类的准确性。利用ELM超限学习机算法,对输入特征位移的光谱数据进行分类。具体包括如下步骤:
S1:输入检测系统测得的不同样品的原始数据,去除基线,降低噪声,设定好不同样品的标签。
S2:将数据归一化后,利用PCA算法,将数据降至二维,保留原光谱的主要特征,实现二维平面的可视化绘图,对每一个标签绘制置信椭圆,实现初步分类。
S3:对于降到二维无法直接分类的数据,将所有的原始数据提取出来重新构成一个数据集
S4:利用UVE算法计算新数据集不同标签的光谱的特征拉曼位移。
S5:对选取的特征位移进行筛选,同时对和物质特征化学键相关的信号强度进行增强,作为ELM算法的输入。
S6:将原始数据随机打乱后,按照训练集与测试集3∶1的比例对ELM模型进行训练。
S7:选取不同的激活函数和隐藏层结点数量,寻找优化参数,提高分类的准确率。
S1中降噪利用基于多项式最小二乘法拟合的Savitzky-Golay方法进行平滑曲线。
S2中主成分分析法将原始的n维数据特征降到2维,具体方式是原始数据的协方差矩阵作为相关系数矩阵,求解其特征值与特征向量。将特征值从大到小排序,选取前两个特征值对应的特征向量做投影,得到降维后的数据。同类型数据绘制95%置信椭圆,确定区域实现可视化初步分类。
S4中UVE算法是基于偏最小二乘(PLS)回归系数b建立的一种波长的选择方法,将原始的数据集X(n×m),其中n为行数,代表实验的组数,m为列数代表不同变量,将其与制造的噪声矩阵R(n×m)合并为新矩阵XR(n×2m)。将其与标签进行偏最小二乘回归。计算回归系数矩阵的标准偏差与平均值向量对应的比值,取XR矩阵中[m+1,2m]列中最大值为衡量参数,筛选去除XR矩阵中[1,m]列内小于该参数的变量,得到光谱的特征拉曼位移。
S5中筛选方式为去除UVE算法中间隔过小的变量,同时根据查找样品物质特有化学键的拉曼位移,引入增强因子δ作为对应强度信号的增强系数。得到新的的数据集。
S6中超限学习机ELM算法为基于前馈神经网络的机器学习方法,随机分配节点参数后利用激活函数,将原始数据映射到ELM特征空间。核心是求解输出权重,使得误差函数||Hβ-T||2最小,这里H为输出矩阵,T为训练目标,β为输出权重向量。将数据集以3∶1比例分为训练集与预测集,对ELM模型训练。
S7中激活函数主要选取:sigmoid,sin,hardlim,tribas,radbas五种函数进行遍历,根据数据集的大小,取最大隐藏层结点数为数据集样本数除以2进行遍历,选择分类准确度最高的参数进行建模。
结合图1,本发明基于PCA-UVE-ELM的光谱分类方法,包括以下步骤:
步骤S1:输入拉曼系统测得的不同样品的原始数据,去除基线,降低噪声,设定好不同样品的标签。
S1中原始数据X(m×n)利用Savitzky-Golay方法降噪,通过移动窗口利用多项式最小二乘法拟合,进行平滑曲线,降低噪音的干扰。
Savitzky-Golay是一种低通滤波器,相对于其他类似的方法,其能保留相对极大值和宽度分布特性。
步骤S2:将数据归一化后,利用PCA算法,将数据降至二维,在保留原光谱的主要特征,实现二维平面的可视化绘图,对每一个标签绘制置信椭圆,实现初步分类。
标准化方式利用zscore的方法,即其中X为原始数据集,X(i,j)为第i行第j列的数值,X*为标准化后的数据集。σj为第j列的标准差。
构建原始数据的协方差矩阵其中cov为协方差求解函数,后面的E为期望。
求解其特征值与特征向量。将特征值从大到小排序,选取前两个特征值对应的特征向量做投影方向,将原始差值特征投影到2维子空间,得到降维后的数据。
同标签数据根据卡方逆累积分布,绘制95%的置信椭圆。
本实施例中,选择生成椭圆数据点的个数为60,确定区域,如图2为对四种食用油的pca投影分类,可以清晰的分辨开四种食用油。如图3为11种食用油的分类,当种类增多时,区分效果并没有很明显,进而转到步骤S3进行优化分类。
步骤S3:对于降到二维无法直接分类的数据,将所有的原始数据提取出来重新构成一个数据集。
步骤S4:利用UVE算法计算新数据集不同标签的光谱的特征拉曼位移。
S4中UVE算法是基于偏最小二乘(PLS)回归系数b建立的一种波长的选择方法,减少最终PLS模型中包含的变量数,降低模型的复杂性,改善PLS模型。
根据原始的数据集X(n×m)的大小,制造噪声矩阵R(n×m)满足正态分布,与X(n×m)合并为新矩阵XR(n×2m)
将合并后矩阵与标签向量Y进行偏最小二乘回归。
计算回归系数矩阵B(n×2m)的标准偏差与平均值向量对应的比值,得到对应矩阵H(n×2m),取列数为[m+1,2m]的范围中绝对值的最大值为衡量参数,筛选去除[1,m]区间内绝对值小于该参数的变量,得到光谱的特征拉曼位移。
本实施例中如图4所示,虚线左侧为实际变量,右侧为根据正态分布生成的变量,左侧加星变量表示筛选出来的特征拉曼位移,共63个。
步骤S5:对选取的特征拉曼位移进行筛选,同时对和物质特征化学键相关的信号强度进行增强,作为ELM算法的输入。
S5中筛选方式为去除UVE算法中间隔过小的变量,同时根据查找样品物质特有化学键的拉曼位移,引入增强因子δ作为对应强度信号的增强系数,得到新的的数据集。
本实施例中选取δ=2
步骤S6:将原始数据随机打乱后,按照训练集T与测试集W样本数量以3∶1的比例对ELM模型进行训练。
S6中超限学习机ELM算法为基于前馈神经网络的机器学习方法,随机分配节点参数后利用激活函数,将原始数据映射到ELM特征空间。
核心是求解输出权重β向量,使得误差函数||Hβ-L||2最小,这里H为输出矩阵,L为训练目标。
H=G(a,b,T)其中a为随机生成的输入权重矩阵,b为随机生成的偏置系数向量,G为激活函数,T为原始训练数据。通过激活函数将原始数据映射到ELM特征空间中。
β=pinv(HT)*TT,其中pinv为广义逆矩阵函数。
将输出权重β,输入权重矩阵a,偏置系数b向量代入测试集进行判断模型分类准确度。
将数据集以3∶1比例分为训练集与预测集,对ELM模型训练。
步骤S7:选取不同的激活函数和隐藏层结点数量,寻找优化参数,提高分类的准确率。
S7中激活函数主要选取:sigmoid,sin,hardlim,tribas,radbas五种函数进行遍历,根据数据集的大小,取最大隐藏层结点数为数据集样本数除以2进行遍历,根据所用数据的规模选择隐藏层结点的数量,选择分类准确度最高的参数进行建模。
本实施例中选择Hardlim激活函数,初始隐藏层结点数量为50,进行建模,得到训练集准确率88.57%,测试集分类准确率为96.15%。优化后证明当隐藏层结点数量为63时,测试集分类准确率达到100%,代码运行时间为0.078秒,具有良好的分类效果和时效性。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (5)
1.基于PCA-UVE-ELM的光谱分类方法,其特征在于:将原始不同样品类的拉曼光谱数据利用主成分分析PCA算法对数据进行降维,实现直观的可视化投影,利用置信椭圆实现初步分类;在初步分类的基础上,利用无信息变量消除UVE算法筛选出为特征拉曼位移的变量以简化后续的计算;将筛选出的拉曼位移与测量物质化学键对应拉曼位移比对,将共性拉曼位移进行增强以提高后续分类的准确性;利用超限学习机ELM算法,对输入特征拉曼位移的光谱数据进行分类;
具体包括如下步骤:
步骤S1,输入检测系统测得的不同样品的原始数据,去除基线,降低噪声,设定好不同样品的标签;
步骤S2,将数据归一化后,利用主成分分析PCA算法,将数据降至二维,保留原光谱的主要特征,实现二维平面的可视化绘图,对每一个标签绘制置信椭圆,实现初步分类;
步骤S3,对于降到二维无法直接分类的数据,将所有的原始数据提取出来重新构成一个数据集;
步骤S4,利用UVE算法计算新数据集不同标签的光谱的特征拉曼位移;
步骤S5,对选取的特征位移进行筛选,同时对和物质特征化学键相关的信号强度进行增强,作为ELM算法的输入;
步骤S6,将原始数据随机打乱后,按照训练集与测试集3:1的比例对ELM模型进行训练;
步骤S7,选取不同的激活函数和隐藏层结点数量,寻找优化参数以优化分类,提高分类的准确率;
所述步骤S4中的UVE算法是基于偏最小二乘回归系数建立的一种波长的选择方法,将原始的数据集X(n×m)与制造的噪声矩阵R(n×m)合并XR(n×2m)后与标签进行偏最小二乘回归,计算回归系数矩阵的标准偏差与平均值向量对应的比值,取XR矩阵中[m+1,2m]列中最大值为衡量参数,筛选去除XR矩阵中[1,m]列内小于该参数的变量,得到光谱的特征拉曼位移,其中n和m分别表示数据集X或噪声矩阵R均具有n行和m列,n和m均为大于2的正整数;
所述步骤S5中的筛选包括去除UVE算法中间隔过小的变量,同时根据查找样品物质特有化学键的拉曼位移,引入增强因子δ作为对应强度信号的增强系数,得到新的数据集。
2.根据权利要求1所述的基于PCA-UVE-ELM的光谱分类方法,其特征在于:所述步骤S1中的降低噪声,利用基于多项式最小二乘法拟合的Savitzky-Golay方法进行平滑曲线。
3.根据权利要求1所述的基于PCA-UVE-ELM的光谱分类方法,其特征在于:所述步骤S2中的主成分分析PCA算法包括将原始的n维数据特征降到2维,n是大于2的正整数,具体方式是原始数据的协方差矩阵作为相关系数矩阵,求解其特征值与特征向量,将特征值从大到小排序,选取前两个特征值对应的特征向量做投影,得到降维后的数据,同类型数据绘制95%置信椭圆,确定区域实现可视化初步分类。
4.根据权利要求1所述的基于PCA-UVE-ELM的光谱分类方法,其特征在于:所述步骤S6中超限学习机ELM算法为基于前馈神经网络的机器学习方法,随机分配节点参数后利用激活函数,将原始数据映射到ELM特征空间,核心是求解输出权重β,使得误差函数||Hβ-T||2最小,这里H为输出矩阵,T为训练目标,将数据集以3:1比例分为训练集与预测集,对ELM模型进行训练。
5.根据权利要求1所述的基于PCA-UVE-ELM的光谱分类方法,其特征在于:所述步骤S7中的激活函数选取:sigmoid,sin,hardlim,tribas,radbas五种函数进行遍历,根据数据集的大小,取最大隐藏层结点数为数据集样本数除以2进行遍历,选择分类准确度最高的激活函数建模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110677837.XA CN113408616B (zh) | 2021-06-18 | 2021-06-18 | 基于pca-uve-elm的光谱分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110677837.XA CN113408616B (zh) | 2021-06-18 | 2021-06-18 | 基于pca-uve-elm的光谱分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113408616A CN113408616A (zh) | 2021-09-17 |
CN113408616B true CN113408616B (zh) | 2024-03-26 |
Family
ID=77681550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110677837.XA Active CN113408616B (zh) | 2021-06-18 | 2021-06-18 | 基于pca-uve-elm的光谱分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113408616B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113740277A (zh) * | 2021-10-15 | 2021-12-03 | 北方民族大学 | 一种基于光谱多组分分析的环境安全分析方法 |
CN115631483B (zh) * | 2022-12-08 | 2023-05-05 | 奥特贝睿(天津)科技有限公司 | 一种基于深度学习的毫米波雷达和相机融合方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008924A (zh) * | 2019-04-15 | 2019-07-12 | 中国石油大学(华东) | 一种面向高光谱影像中地物的半监督自动标记方法与装置 |
EP3515037A1 (en) * | 2018-01-19 | 2019-07-24 | General Electric Company | Dynamic concurrent learning method to neutralize cyber attacks and faults for industrial asset monitoring nodes |
CN110715917A (zh) * | 2019-10-08 | 2020-01-21 | 浙江大学 | 一种基于拉曼光谱的猪肉和牛肉分类方法 |
CN110849828A (zh) * | 2019-12-13 | 2020-02-28 | 嘉兴职业技术学院 | 一种基于高光谱图像技术的藏红花分类方法 |
CN112712108A (zh) * | 2020-12-16 | 2021-04-27 | 西北大学 | 一种拉曼光谱多元数据分析方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200082282A1 (en) * | 2018-09-10 | 2020-03-12 | Purdue Research Foundation | Methods for inducing a covert misclassification |
-
2021
- 2021-06-18 CN CN202110677837.XA patent/CN113408616B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3515037A1 (en) * | 2018-01-19 | 2019-07-24 | General Electric Company | Dynamic concurrent learning method to neutralize cyber attacks and faults for industrial asset monitoring nodes |
CN110008924A (zh) * | 2019-04-15 | 2019-07-12 | 中国石油大学(华东) | 一种面向高光谱影像中地物的半监督自动标记方法与装置 |
CN110715917A (zh) * | 2019-10-08 | 2020-01-21 | 浙江大学 | 一种基于拉曼光谱的猪肉和牛肉分类方法 |
CN110849828A (zh) * | 2019-12-13 | 2020-02-28 | 嘉兴职业技术学院 | 一种基于高光谱图像技术的藏红花分类方法 |
CN112712108A (zh) * | 2020-12-16 | 2021-04-27 | 西北大学 | 一种拉曼光谱多元数据分析方法 |
Non-Patent Citations (3)
Title |
---|
Peach variety identification using near-infrared diffuse reflectance spectroscopy;Wenchuan Guo等;Computers and Electronics in Agriculture;20160430;第123卷;全文 * |
基于高光谱和太赫兹光谱的甘薯品质检测方法研究;郑艺蕾;中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑;20210115(第01期);全文 * |
最小角回归结合核极限学习机的近红外光谱对柑橘黄龙病的鉴别;陈文丽;王其滨;路皓翔;杨辉华;刘彤;许定舟;杜文川;;分析测试学报;20201019(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113408616A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pourkaramdel et al. | Fabric defect detection based on completed local quartet patterns and majority decision algorithm | |
CN106919980B (zh) | 一种基于神经节分化的增量式目标识别系统 | |
CN113408616B (zh) | 基于pca-uve-elm的光谱分类方法 | |
Luinge | Automated interpretation of vibrational spectra | |
CN111783884B (zh) | 基于深度学习的无监督高光谱图像分类方法 | |
CN112101574B (zh) | 一种机器学习有监督模型解释方法、系统及设备 | |
CN112766227A (zh) | 一种高光谱遥感影像分类方法、装置、设备及存储介质 | |
Ma et al. | Triple-shapelet networks for time series classification | |
Tripathi et al. | Optimized deep learning model for mango grading: Hybridizing lion plus firefly algorithm | |
CN111896495A (zh) | 基于深度学习与近红外光谱太平猴魁产地甄别方法及系统 | |
CN114937173A (zh) | 一种基于动态图卷积网络的高光谱图像快速分类方法 | |
Guo et al. | Dual graph U-Nets for hyperspectral image classification | |
CN112966735B (zh) | 一种基于谱重建的监督多集相关特征融合方法 | |
Singh et al. | Apple Disease Classification Built on Deep Learning | |
CN114062306B (zh) | 一种近红外光谱数据分段预处理方法 | |
Devanta | Optimization of the K-Means Clustering Algorithm Using Davies Bouldin Index in Iris Data Classification | |
Chuntama et al. | Classification of astronomical objects in the galaxy m81 using machine learning techniques ii. an application of clustering in data pre-processing | |
CN112749906A (zh) | 卷烟主流烟气光谱数据的感官评价方法 | |
CN113138181A (zh) | 一种对清香型原酒品质分级的方法 | |
Corchado et al. | A three-step unsupervised neural model for visualizing high complex dimensional spectroscopic data sets | |
CN110766087A (zh) | 一种基于离差最大化法改进k-means的提高数据聚类质量的方法 | |
Bandyopadhyay et al. | Supervised Neural Networks for Fruit Identification | |
Liu et al. | Fourier transform infrared spectroscopy microscopic imaging classification based on multifractal methods | |
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN115728278B (zh) | 枸杞子储存年份鉴别方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |