CN113295673B - 一种激光诱导击穿光谱弱监督特征提取方法 - Google Patents

一种激光诱导击穿光谱弱监督特征提取方法 Download PDF

Info

Publication number
CN113295673B
CN113295673B CN202110472559.4A CN202110472559A CN113295673B CN 113295673 B CN113295673 B CN 113295673B CN 202110472559 A CN202110472559 A CN 202110472559A CN 113295673 B CN113295673 B CN 113295673B
Authority
CN
China
Prior art keywords
spectrum
data
class
ore pulp
concentration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110472559.4A
Other languages
English (en)
Other versions
CN113295673A (zh
Inventor
孙兰香
于海斌
陈彤
齐立峰
尚栋
谢远明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Automation of CAS
Original Assignee
Shenyang Institute of Automation of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Automation of CAS filed Critical Shenyang Institute of Automation of CAS
Priority to CN202110472559.4A priority Critical patent/CN113295673B/zh
Publication of CN113295673A publication Critical patent/CN113295673A/zh
Application granted granted Critical
Publication of CN113295673B publication Critical patent/CN113295673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/71Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light thermally excited
    • G01N21/718Laser microanalysis, i.e. with formation of sample plasma

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Plasma & Fusion (AREA)
  • Optics & Photonics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明涉及一种激光诱导击穿光谱弱监督特征提取方法。本发明的目的是解决光谱数据维度过高时光谱强度‑浓度回归模型建立过程存在的的数据冗余和过拟合问题,所提出的特征选择方法结合线性判别分析LDA,利用类内类间散度值来对光谱各维特征进行评估和选择,以提高实际矿浆的品位分析准确度。具体步骤为:(1)使用类内类间散度评估每一维光谱的重要性;(2)以验证集的均方根误差确定输入回归模型的特征变量数,并最终获得优化的矿浆品位分析的光谱强度‑浓度回归模型。本发明所提特征选择方法降低了数据冗余带来建模复杂度,又因为变量选择过程不直接使用浓度参考值,对训练数据依赖小,鲁棒性高,可实际应用于选矿厂现场监控矿浆品位。

Description

一种激光诱导击穿光谱弱监督特征提取方法
技术领域
本发明属于光谱分析领域,具体是一种激光诱导击穿光谱弱监督特征提取方法。
背景技术
在选矿工业中,浮选是一种非常重要且应用广泛的精矿石提取方法,而浮选过程中,矿浆品位是选矿厂需要实时把握的动态生产指标,其波动幅度的大小直接影响着选矿效率,进而影响选矿厂经济效益,因此对矿浆品位的在线快速检测具有重要研究意义。矿浆品位由矿石碎屑中指定矿物成分的含量确定,实际应用中大多数的分析手段直接监测矿浆的元素组成,矿物含量通常由矿浆中相应元素含量间接获得。
激光诱导击穿光谱技术(LIBS)通过采集矿浆的光谱信号,并对信号建模分析获得矿浆组成元素的含量信息。相比于其他矿物学分析方法如拉曼光谱、X射线衍射分析、高光谱成像等具备分析时间短、可在线原位检测的优点;相比于其他可在线应用的光谱学分析方法如X射线荧光谱等具有装置简单、可全元素同时分析的优点,因此在矿浆品位在线监测任务中受到越来越多研究人员的青睐。
然而原始LIBS光谱数据维度高,包含大量对成分分析无用的冗余信息,因此在将光谱信号输入定量分析模型前对其进行特征提取的预处理工作不仅可以有效降低模型的复杂度、提高在线分析的速度进而提高选矿效率,还可以防止过拟合,提高定量分析的准确性。
现有的光谱特征选择的方式有很多,但依据算法原理可分为三类:滤波式、嵌入式和包裹式。滤波式方法操作简单,但仅能进行单一特征谱线的选择,嵌入式方法通过在定量回归模型的训练过程中对目标函数添加正则化项进行特征选择,以上两种方法属于无监督学习,依赖研究人员对所分析问题的背景知识。包裹式方法将定量回归模型的性能作为光谱特征的评价标准,选择最有利于定量回归模型性能的特征子集,可能在训练数据上过拟合,上述现有技术手段的弊端或局限性无法解决实际生产过程中矿浆指定元素浓度品位分析的准确性,这是实际生产过程遇到的难题。
发明内容
针对现有技术的不足,本发明的目的是解决光谱数据维度过高时光谱强度-浓度回归模型建立过程存在的数据冗余和过拟合问题,导致实际生产过程中矿浆指定元素浓度品位分析的准确性不高,本发明所提出的特征选择方法结合线性判别分析LDA,利用类内类间散度值来对光谱各维特征进行评估和选择,进一步优化光谱强度-浓度回归模型,应用于实际生产的检测分析,提高品位分析精度。
一种激光诱导击穿光谱弱监督特征提取方法,包括以下步骤:
离线建模的步骤:将来自同一个矿浆样本的光谱视为同一类,多次采集不同类的矿浆样本的激光诱导原始光谱数据;利用类内类间散度值来对光谱各维特征进行评估和选择,建立光谱强度-浓度回归模型;
实时检测的步骤:现场采集现场矿浆样本的实时光谱强度数据,根据离线建模获取的最优变量数在实时光谱强度数据中选取对应的光谱强度作为特征,输入建立的光谱强度-浓度回归模型,获得当前矿浆样本中指定元素的浓度含量。
所述采集矿浆样本的光谱数据是采用激光诱导击穿光谱仪采集的。
所述离线建模的步骤包括:
S1、数据预处理:对原始光谱数据进行谱线归一化,用于补偿等离子体波动导致的谱线强度波动;
S2、数据集划分:将矿浆样本数据划分为训练集,验证集和测试集;
S3、计算训练集数据中光谱每一维特征的类内类间散度比值d,并将其从大到小排列;
S4、使用d值最大的前s1个变量对应的光谱特征建立初始光谱强度-浓度回归模型;
S5、使用验证集数据输入初始光谱强度-浓度回归模型,并计算输出的浓度结果的均方根误差;
S6、按照步长a每次增加变量数s1,返回步骤S4继续迭代建模,直到建模变量数达到原始光谱维度数量时停止迭代;
S7、根据校验集数据的均方根误差确定最优变量数,使用最优变量数对应的光谱特征建立最优定量光谱强度-浓度回归模型,回归模型超参数通过验证集均方根误差取最小确定。
所述训练集数据用于建立光谱强度-浓度回归模型的过程,验证集数据用于选择模型超参数,测试集数据不参与模型训练以及模型超参数选择过程,用于验证模型的泛化性能。
所述类内类间散度比值d的计算包括:
对不同的矿浆样本分别进行多次光谱采集,将来自同一个矿浆样本的光谱视为同一类,以类内类间散度的比值衡量光谱每一维特征所包含的信息量;类内散度Sw、类间散度Sb、以及比值d的计算公式如(1)所示:
Figure BDA0003046047310000041
其中,
Figure BDA0003046047310000042
为第h个矿浆样本第i张光谱,C为矿浆样本数,N为每个矿浆样本采集的光谱数,μ为所有光谱的均值,μh为每一类光谱的均值。
验证集均方根误差的计算如公式(2)所示:
Figure BDA0003046047310000043
其中,
Figure BDA0003046047310000044
是预测的元素浓度,yi是真实的元素浓度,NV是验证集的样本量。
一种激光诱导击穿光谱弱监督特征提取系统,包括:光谱采集设备、处理器、存储器;所述光谱采集设备用于采集不同类的矿浆样本的激光诱导原始光谱数据;所述存储器存储有如下程序模块,处理器读取程序执行如权利要求1-6任意一项所述的方法步骤,实现当前矿浆样本中指定元素的浓度含量预测;
离线建模程序模块:利用类内类间散度值来对采集的光谱各维特征进行评估和选择,建立光谱强度-浓度回归模型;
实时检测程序模块:现场采集现场矿浆样本的实时光谱强度数据,根据离线建模获取的最优变量数在实时光谱强度数据中选取对应的光谱强度作为特征,输入建立的光谱强度-浓度回归模型,获得当前矿浆样本中指定元素的浓度含量。
本发明具有以下有益效果及优点:
本发明方法通过类内类间散度评估光谱每一维光谱特征的重要性,特征提取后建立光谱强度-浓度回归模型以进行LIBS的成分分析,降低了数据冗余带来建模复杂度,又因为该分析模型变量选择过程不直接使用浓度参考值,对训练数据依赖小,鲁棒性高,可实际应用于选矿厂现场监控矿浆品位分析监测。
附图说明
图1为本发明的流程图。
图2为铁精矿矿浆的激光诱导击穿光谱原始光谱图。
图3为光谱各维特征的类内散度Sw、类间散度Sb、以及他们的比值d。
图4为提取特征数与验证集均方误差的关系。
图5为筛选出的特征子集在原光谱中的位置。
图6为铁精矿矿浆预测值与真实值的比较图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合铁精矿矿浆的LIBS品位分析实例对本发明的技术方案进行进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
除非另有定义,本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例:一种激光诱导击穿光谱弱监督特征提取方法。流程图如图1所示,具体包括以下步骤:
(1)数据预处理。在实验时,对不同的矿浆样本分别进行多次光谱采集,获得如图2所示的铁精矿矿浆激光诱导击穿光谱原始图,维度为6116,为补偿等离子体波动导致的谱线强度波动,需要对原始光谱数据进行全谱和归一化。
(2)数据集划分。将矿浆样本数据划分训练集、验证集和测试集。总样本数为95,其中训练集包含60个样本,用于建立光谱强度-浓度回归模型,验证集包含15个样本,用以选择合适的模型超参数,测试集不参与模型训练以及模型选择过程,共包含20个样本,用以验证模型的泛化性能。
(3)将来自同一个矿浆样本的光谱视为同一类,以类内类间散度的比值衡量光谱每一维特征所包含的信息量。计算光谱每一维特征的类内类间散度比值d,类内散度Sw、类间散度Sb、以及他们的比值d的计算公式如(1)所示:
Figure BDA0003046047310000061
其中
Figure BDA0003046047310000062
为第h个矿浆样本第i张光谱,C为矿浆样本数,N为每个矿浆样本采集的光谱数,μ为所有光谱的均值,μh为每一类光谱的均值。
对6116维光谱特征按d值大小从大到小排列。光谱各维特征的类内散度Sw、类间散度Sb、以及他们的比值d如图3所示。
(4)使用d值最大的前100维特征建立回归模型,记录验证集的均方根误差。验证集均方根误差的定义如(2)所示:
Figure BDA0003046047310000071
其中,
Figure BDA0003046047310000072
是预测的元素浓度,yi是真实的元素浓度,NV是验证集的样本量;
(5)变量数加10,并使用按照d值排序的新变量建立回归模型,记录验证集的均方根误差。
(6)重复步骤(5)直到建模变量数达到4000维,特征变量数和验证集均方根误差的关系如图4所示。
(7)根据验证集的均方根误差确定输入回归模型的最终变量,使用提取出的光谱特征建立回归模型,筛选出的特征子集在原光谱中的位置如图5所示,可以看出其包含了Fe,Si,Ca,Na,H,O等多条矿浆样本中基体元素的特征线。
结果验证:图6所示为采用本方法得到的铁精矿矿浆预测值与参考值的比较图。
表1
Figure BDA0003046047310000073
表1以多变量定量回归模型PLS为例,比较了本发明方法与传统PLS和结合了特征提取的iPLS方法的结果,本发明方法取得了最低的预测均方根误差RMSEP和最高的决定系数R2。表明本发明方法对维度较高光谱数据降维、降低自吸收和基体效应带来的非线性影响的数据的定量分析有明显的效果。
上述具体实施方式用来解释说明本发明,仅为本发明的优选实施例,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改、等同替换、改进等,都落入本发明的保护范围。。
以上说明所描述的实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变换和改进。这些都属于本发明的保护范围。

Claims (6)

1.一种激光诱导击穿光谱弱监督特征提取方法,其特征在于,包括以下步骤:
离线建模的步骤:将来自同一个矿浆样本的光谱视为同一类,多次采集不同类的矿浆样本的激光诱导原始光谱数据;利用类内类间散度比值来对光谱各维特征进行评估和选择并获取最优变量数,建立光谱强度-浓度回归模型;所述离线建模的步骤包括:
S1、数据预处理:对原始光谱数据进行谱线归一化,用于补偿等离子体波动导致的谱线强度波动;
S2、数据集划分:将矿浆样本数据划分为训练集,验证集和测试集;
S3、计算训练集数据中光谱每一维特征的类内类间散度比值d,并将其从大到小排列;
S4、使用d值最大的前s1个变量对应的光谱特征建立初始光谱强度-浓度回归模型;
S5、使用验证集数据输入初始光谱强度-浓度回归模型,并计算输出的浓度结果的均方根误差;
S6、按照步长a每次增加变量数s1,返回步骤S4继续迭代建模,直到建模变量数达到原始光谱维度数量时停止迭代;
S7、根据验证集数据的均方根误差确定最优变量数,使用最优变量数对应的光谱特征建立最优定量光谱强度-浓度回归模型,回归模型超参数通过验证集均方根误差取最小确定;
实时检测的步骤:现场采集现场矿浆样本的实时光谱强度数据,根据离线建模获取的最优变量数在实时光谱强度数据中选取对应的光谱强度作为特征,输入建立的光谱强度-浓度回归模型,获得当前矿浆样本中指定元素的浓度含量。
2.根据权利要求1所述的一种激光诱导击穿光谱弱监督特征提取方法,其特征在于,所述采集矿浆样本的光谱数据是采用激光诱导击穿光谱仪采集的。
3.根据权利要求1所述的一种激光诱导击穿光谱弱监督特征提取方法,其特征在于,所述训练集数据用于建立光谱强度-浓度回归模型的过程,验证集数据用于选择模型超参数,测试集数据不参与模型训练以及模型超参数选择过程,用于验证模型的泛化性能。
4.根据权利要求1所述的一种激光诱导击穿光谱弱监督特征提取方法,其特征在于,所述类内类间散度比值d的计算包括:
对不同的矿浆样本分别进行多次光谱采集,将来自同一个矿浆样本的光谱视为同一类,以类内类间散度比值衡量光谱每一维特征所包含的信息量;类内散度Sw、类间散度Sb、以及比值d的计算公式如(1)所示:
Figure FDA0003833764700000021
其中,
Figure FDA0003833764700000022
为第h个矿浆样本第i张光谱,C为矿浆样本数,N为每个矿浆样本采集的光谱数,μ为所有光谱的均值,μh为每一类光谱的均值。
5.根据权利要求1所述的一种激光诱导击穿光谱弱监督特征提取方法,其特征在于,验证集均方根误差的计算如公式(2)所示:
Figure FDA0003833764700000031
其中,
Figure FDA0003833764700000032
是预测的元素浓度,yi是真实的元素浓度,NV是验证集的样本量。
6.一种激光诱导击穿光谱弱监督特征提取系统,其特征在于,包括:光谱采集设备、处理器、存储器;所述光谱采集设备用于采集不同类的矿浆样本的激光诱导原始光谱数据;所述存储器存储有如下程序模块,处理器读取程序执行如权利要求1-5任意一项所述的方法,实现当前矿浆样本中指定元素的浓度含量预测;
离线建模程序模块:利用类内类间散度比值来对采集的光谱各维特征进行评估和选择并获取最优变量数,建立光谱强度-浓度回归模型;
实时检测程序模块:现场采集现场矿浆样本的实时光谱强度数据,根据离线建模获取的最优变量数在实时光谱强度数据中选取对应的光谱强度作为特征,输入建立的光谱强度-浓度回归模型,获得当前矿浆样本中指定元素的浓度含量。
CN202110472559.4A 2021-04-29 2021-04-29 一种激光诱导击穿光谱弱监督特征提取方法 Active CN113295673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110472559.4A CN113295673B (zh) 2021-04-29 2021-04-29 一种激光诱导击穿光谱弱监督特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110472559.4A CN113295673B (zh) 2021-04-29 2021-04-29 一种激光诱导击穿光谱弱监督特征提取方法

Publications (2)

Publication Number Publication Date
CN113295673A CN113295673A (zh) 2021-08-24
CN113295673B true CN113295673B (zh) 2022-10-11

Family

ID=77320600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110472559.4A Active CN113295673B (zh) 2021-04-29 2021-04-29 一种激光诱导击穿光谱弱监督特征提取方法

Country Status (1)

Country Link
CN (1) CN113295673B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114088757A (zh) * 2021-11-17 2022-02-25 北京农业质量标准与检测技术研究中心 一种基于弹性网络回归的重金属元素含量检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9471886B2 (en) * 2013-10-29 2016-10-18 Raytheon Bbn Technologies Corp. Class discriminative feature transformation
CN106203452B (zh) * 2016-07-18 2019-03-12 江南大学 基于多线性判别分析的玉米种子高光谱图像多特征转换方法
CN108458989B (zh) * 2018-04-28 2020-10-09 江苏建筑职业技术学院 一种基于太赫兹多参数谱的煤岩识别方法
CN110210005A (zh) * 2019-06-11 2019-09-06 浙江中烟工业有限责任公司 一种无参考值的光谱波数选择方法
CN111077133A (zh) * 2020-01-09 2020-04-28 北京矿冶科技集团有限公司 一种测定磷矿浮选工艺过程产物元素组分的libs在线检测方法
CN111488926B (zh) * 2020-04-07 2024-03-29 中国科学院南京土壤研究所 一种基于优化模型的土壤有机质测定方法

Also Published As

Publication number Publication date
CN113295673A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
Huang Chemometric methods in analytical spectroscopy technology
CN104697966A (zh) 一种基于最小二乘支持向量机算法结合激光诱导击穿光谱的钢铁中铬和锰定量分析方法
CN101825567A (zh) 一种近红外光谱和拉曼光谱波长的筛选方法
CN111537845A (zh) 基于拉曼光谱聚类分析的油纸绝缘设备老化状态识别方法
CN107632010B (zh) 一种结合激光诱导击穿光谱对钢铁样品的定量方法
CN113295673B (zh) 一种激光诱导击穿光谱弱监督特征提取方法
CN112669915A (zh) 一种基于神经网络与近红外光谱的梨无损检测方法
Lu et al. Identification of Chinese red wine origins based on Raman spectroscopy and deep learning
CN103487410A (zh) 基于模型集群分析的激光诱导击穿光谱变量选择方法
Chang et al. Detection of sugar content in food based on the electrochemical method with the assistance of partial least square method and deep learning
CN111259929A (zh) 基于随机森林的食源性致病菌的分类模型训练方法
CN116858822A (zh) 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法
CN107247033B (zh) 基于快速衰减式淘汰算法和plsda鉴别黄花梨成熟度的方法
CN117629971A (zh) 一种提高激光诱导击穿光谱测量页岩中碳元素精度的方法
CN110823966A (zh) 一种基于电子鼻的葡萄酒so2浓度的快速测定方法
CN113295674B (zh) 一种基于s变换的激光诱导击穿光谱特征非线性处理方法
CN111912823A (zh) 一种多成分农药残留荧光检测分析方法
CN104715136B (zh) 一种综合评价纺纱过程水平的方法
CN113138181B (zh) 一种对清香型原酒品质分级的方法
CN113418889B (zh) 一种基于深度学习的干菜水分含量和菌落总数的实时检测方法
CN101650306A (zh) 快速检测分析绢云母质量的方法
CN117929356B (zh) 一种基于高斯过程回归的libs定量分析方法
CN114280000A (zh) 一种原油产地的溯源方法和系统
CN113406058A (zh) 基于互信息特征筛选pls的libs铁矿浆定量分析方法
CN113804657A (zh) 一种基于多元回归结合稀疏自编码器光谱特征降维方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant