CN106295667B - 一种基于遗传算法选择最优光谱谱段的方法及其应用 - Google Patents

一种基于遗传算法选择最优光谱谱段的方法及其应用 Download PDF

Info

Publication number
CN106295667B
CN106295667B CN201510259959.1A CN201510259959A CN106295667B CN 106295667 B CN106295667 B CN 106295667B CN 201510259959 A CN201510259959 A CN 201510259959A CN 106295667 B CN106295667 B CN 106295667B
Authority
CN
China
Prior art keywords
genetic algorithm
principal component
network
sample
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510259959.1A
Other languages
English (en)
Other versions
CN106295667A (zh
Inventor
孙兰香
于海斌
张鹏
丛智博
辛勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Automation of CAS
Original Assignee
Shenyang Institute of Automation of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Automation of CAS filed Critical Shenyang Institute of Automation of CAS
Priority to CN201510259959.1A priority Critical patent/CN106295667B/zh
Publication of CN106295667A publication Critical patent/CN106295667A/zh
Application granted granted Critical
Publication of CN106295667B publication Critical patent/CN106295667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

本发明涉及一种基于遗传算法选择最优光谱谱段的方法及其应用,具体步骤为:1)获得LIBS光谱数据;2)参数编码,形成遗传算法初始种群;3)主成分分析;4)训练人工神经网络模型;5)评价网络;6)形成新种群;7)重复3)~6)至满足适应度指标,输出最优分段及对应的最优分类器;8)应用分类器对未知样品进行分类。本方法训练出的分类器可对训练样品对应种类的待测样品进行准确分类,从而定性分析样品成分组成。

Description

一种基于遗传算法选择最优光谱谱段的方法及其应用
技术领域
本发明属于光谱分析及物质材料组成成分分析领域,具体的说是一种基于遗传算法选择最优光谱谱段的方法及其应用。
背景技术
LIBS(激光诱导击穿光谱)技术是一种新型光谱分析技术。它利用高功率密度的脉冲激光照射样品表面,使样品表面附近的原子经过多光子吸收及碰撞电离等过程从基态跃迁到激发态,形成等离子体。通过测量等离子体自发辐射谱线的波长即可获知样品中元素组成,从而完成定性分析;通过对谱线强度进行分析即可获知元素含量,进而完成定量分析。相比于传统检测方法,激光诱导击穿光谱分析具有多元素同时分析、速度快、低损耗、无辐射等优点,在煤炭冶金工业、材料与制造业、地理化学及考古学研究、烟气及爆炸物检测等领域均有着广阔的应用潜力。
传统的LIBS定性分析模型依赖整个光谱区域,而随着光谱的数据量越来越大,由此建立的定性分析模型越来越复杂。但光谱各特征谱线之间彼此具有较强的线性相关,因此,从原始光谱中选择并提取合适的光谱信息成为快速准确的建立定性分析模型的关键问题。
发明内容
针对现有技术中存在的上述不足之处,本发明要解决的技术问题是提供一种基于遗传算法选择最优光谱谱段的方法及其应用,寻找最优光谱信息谱段,并利用该谱段信息训练分类器的物质组成定性分析,对样品进行快速分类,通过类别确定其元素组成。
本发明为实现上述目的所采用的技术方案是:一种基于遗传算法选择最优光谱谱段的方法,包括以下步骤:
步骤1:获取训练样品的光谱数据,确定波长和强度范围;
步骤2:根据光谱数据、起始位置范围及需要的谱段长度,确定光谱分段参数编码位数,进行对应的遗传算法染色体编码,形成遗传算法初始种群;
步骤3:对初始种群中的每个个体对应谱段进行主成分分析,提取主成分信息;
步骤4:使用人工神经网络算法,以步骤3提取出的主成分信息作为输入,已知的训练样品类别作为输出训练分类器;
步骤5:根据网络对由多个训练样品构成的训练集和由多个训练样品构成的验证集数据进行评价,得到最优网络及相应的网络精度;
步骤6:对初始种群进行选择、交叉和突变操作,重插入原种群形成新种群;
步骤7:重复步骤3~步骤6,直至遗传算法满足结束条件,输出最终得到的最优谱段及其对应的最优分类网络。
所述训练样品为已知分类的样品。
所述编码为对于最优谱段的起始波长和谱段长度进行混合编码,单一染色体的对应编码位置分别代表起始波长位置和谱段长度,通过调节染色体整体长度和对应编码位置长度控制起始波长和谱段长度范围。
所述提取主成分信息具体为:设定主成分信息阈值,通过主成分分析算法选择包含全部信息量大于阈值的前n个主成分,n为主成分分析算法根据阈值自动选择的主成分数,根据不同样品自动确定。
所述主成分信息阈值一般为全部信息量的95%。
所述以使网络对训练集样品具有高分类准确率和低均方根误差(RMSE)作为训练目标,运用BP人工神经网络算法,以主成分分析得到的n个主成分为输入,以1位的分类类别信息作为输出,以经验公式确定隐藏层神经元个数,对训练样品进行训练,得到具有单一隐藏层的三层人工神经网络作为分类模型。
所述以训练出的人工神经网络对验证集样品的分类准确率及均方根误差的加权和值作为适应度函数,判断遗传算法种群中个体的优劣。
所述结束条件为种群在一定代数内没有被优化或进化代数达到预设的上限。
所述步骤5具体为:根据网络对由多个训练样品构成的训练集和由多个训练样品构成的验证集数据的分类准确率和均方根误差RMSE的加权函数作为评价函数对种群中的每个个体对应的网络进行评价,得到最优网络及相应的网络精度。
一种根据权利要求1所述的基于遗传算法选择最优光谱谱段的方法的应用,所述最终得到的最优谱段及其对应的最优分类网络用于对未知样品进行分类。
本发明具有以下优点及有益效果:
1.本发明结合遗传算法、主成分分析和人工神经网络算法,给出一种从原始光谱中提取特征丰富的光谱谱段的方法,并使用由该方法选出的最优谱段建立分类模型,对样品进行定性分析;由于提取出原始光谱中最有效的信息,在大幅减小数据量的同时,可以提升分析结果。
2.无需建立元素光谱数据库,仅需利用已知种类的若干样品训练分类器,即可对其他样品进行准确分类。
3.适用但并不局限于LIBS光谱数据,对于各种宽谱段光谱均可应用。
4.可以实现对金属、岩石等各类材料样品的分类,应用领域广泛。
附图说明
图1为本发明方法实现流程图;
图2为人工神经网络示意图;
图3为各类钢样品最优子谱段内谱线图;
图4为最优分类器对验证集的分类结果。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
如图1所示,方法开始后读取由LIBS实验平台获取的训练样品原始光谱数据作为输入,通过结合主成分分析技术和人工神经网络算法的遗传算法选择最优光谱谱段和最优分类器作为输出,得到一个可对特定(训练样品分类范围内)材料进行准确分类的网络模型。具体实现步骤如下:
步骤1:获取样品的LIBS光谱数据,确定波长和强度范围。
步骤2:根据光谱数据对光谱分段参数进行编码,形成遗传算法初始种群。
其中,根据需要设置子谱段数目后,参与编码形成染色体的参数包括谱段起始位置和谱段长度,染色体编码位数由光谱数据波长范围、分辨率大小及谱段长度允许范围共同决定,编码采用二进制格雷码,最终形成遗传算法初始种群。
步骤3:对种群中的每个个体对应谱段进行主成分分析,提取适当数量的主成分信息。
设定主成分信息阈值,只选择包含全部信息量大于阈值的前n个主成分输出到下一级网络。
步骤4:使用人工神经网络算法,以步骤3提取出的n个主成分作为输入、训练样品类别作为输出训练分类器。
如图2所示,以步骤3提取的n个主成分作为输入,仅有一个类别信息作为输出,训练三层ANN网络,其中隐含层神经元数目按照设置,其中m为1,a设为3,隐含层神经元个数由主成分分析确定的主成分数决定。
步骤5:根据训练集和验证集数据对种群中每个个体训练得到的网络进行评价,得到最优网络及相应的网络精度。
设定分类准确率及均方根误差(RMSE)的加权和值作为训练得到的ANN网络的适应度函数,以验证集相应主成分数据作为输入,计算网络对验证集样品的分类准确率及RMSE,得出各个个体的适应度。
步骤6:对初始种群进行选择(复制)、交叉和突变操作,重插入原种群形成新种群。
设定代沟、交叉和突变概率,产生子代种群,按步骤3-5计算出其适应度函数,将子代适应度高的个体插入父代,替代低适应度个体,形成新种群。
步骤7:重复步骤6,直至遗传算法满足结束条件,结束整个算法过程,输出最终得到的最优谱段及其对应的最优分类网络。
整个遗传算法满足以下两个条件之一则算法结束:1)适应度函数在N代内没有变好;2)进化代数达到上限。算法结束时相应进化代数中适应度最高的染色体对应的谱段即本方法得到的最优谱段,其对应的网络即最优分类网络。
步骤8:应用最终得到的分类器对未知样品进行分类。
按上述方法训练对碳钢、低合金钢、高合金钢和不锈钢四类钢材分类的网络,在固定选择谱段长度为2048条强度谱线的前提下,得到的最优子谱段如图3所示,可见在方法选择的最优子谱段范围内有较清晰和丰富的Fe、Ni、Cr元素谱线,而这三者含量的不同正是判别不同种类钢材的关键。
利用图3对应最优谱段所对应的分类网络对测试样品进行分类,分类结果如图4所示,其中RMSE计算公式如下:
其中,Oi为算法输出(Oi取值为非整数值),Ti为样品的标准类别(Ti取值为1~4的整数值,分别对应四类钢材)。
由图4可以看出,在训练样品类别明确的情况下,本专利涉及的方法可以准确的对未知样品进行分类,并且具有非常低的均方根误差(RMSE)。

Claims (9)

1.一种基于遗传算法选择最优光谱谱段的方法,其特征在于,包括以下步骤:
步骤1:获取训练样品的光谱数据,确定波长和强度范围;
步骤2:根据光谱数据、起始位置范围及需要的谱段长度,确定光谱分段参数编码位数,进行对应的遗传算法染色体编码,形成遗传算法初始种群;所述编码为采用二进制格雷码,对于最优谱段的起始波长和谱段长度进行混合编码,单一染色体的对应编码位置分别代表起始波长位置和谱段长度,通过调节染色体整体长度和对应编码位置长度控制起始波长和谱段长度范围;
步骤3:对初始种群中的每个个体对应谱段进行主成分分析,提取主成分信息;
步骤4:使用人工神经网络算法,以步骤3提取出的主成分信息作为输入,已知的训练样品类别作为输出训练分类器;
步骤5:根据网络对由多个训练样品构成的训练集和由多个训练样品构成的验证集数据进行评价,得到最优网络及相应的网络精度;
步骤6:对初始种群进行选择、交叉和突变操作,重插入原种群形成新种群;
步骤7:重复步骤3~步骤6,直至遗传算法满足结束条件,输出最终得到的最优谱段及其对应的最优分类网络。
2.根据权利要求1所述的一种基于遗传算法选择最优光谱谱段的方法,其特征在于,所述训练样品为已知分类的样品。
3.根据权利要求1所述的一种基于遗传算法选择最优光谱谱段的方法,其特征在于,所述提取主成分信息具体为:设定主成分信息阈值,通过主成分分析算法选择包含全部信息量大于阈值的前n个主成分,n为主成分分析算法根据阈值自动选择的主成分数,根据不同样品自动确定。
4.根据权利要求3所述的一种基于遗传算法选择最优光谱谱段的方法,其特征在于,所述主成分信息阈值为全部信息量的95%。
5.根据权利要求1所述的一种基于遗传算法选择最优光谱谱段的方法,其特征在于,以使网络对训练集样品具有高分类准确率和低均方根误差RMSE作为训练目标,运用BP人工神经网络算法,以主成分分析得到的n个主成分为输入,以1位的分类类别信息作为输出,以经验公式确定隐藏层神经元个数,对训练样品进行训练,得到具有单一隐藏层的三层人工神经网络作为分类模型。
6.根据权利要求1所述的一种基于遗传算法选择最优光谱谱段的方法,其特征在于,以训练出的人工神经网络对验证集样品的分类准确率及均方根误差的加权和值作为适应度函数,判断遗传算法种群中个体的优劣。
7.一种根据权利要求1所述的基于遗传算法选择最优光谱谱段的方法,其特征在于,所述结束条件为种群在一定代数内没有被优化或进化代数达到预设的上限。
8.一种根据权利要求1所述的基于遗传算法选择最优光谱谱段的方法,其特征在于,所述步骤5具体为:根据网络对由多个训练样品构成的训练集和由多个训练样品构成的验证集数据的分类准确率和均方根误差RMSE的加权函数作为评价函数对种群中的每个个体对应的网络进行评价,得到最优网络及相应的网络精度。
9.一种根据权利要求1所述的基于遗传算法选择最优光谱谱段的方法,其特征在于,所述最终得到的最优谱段及其对应的最优分类网络用于对未知样品进行分类。
CN201510259959.1A 2015-05-19 2015-05-19 一种基于遗传算法选择最优光谱谱段的方法及其应用 Active CN106295667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510259959.1A CN106295667B (zh) 2015-05-19 2015-05-19 一种基于遗传算法选择最优光谱谱段的方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510259959.1A CN106295667B (zh) 2015-05-19 2015-05-19 一种基于遗传算法选择最优光谱谱段的方法及其应用

Publications (2)

Publication Number Publication Date
CN106295667A CN106295667A (zh) 2017-01-04
CN106295667B true CN106295667B (zh) 2019-04-23

Family

ID=57634189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510259959.1A Active CN106295667B (zh) 2015-05-19 2015-05-19 一种基于遗传算法选择最优光谱谱段的方法及其应用

Country Status (1)

Country Link
CN (1) CN106295667B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6696458B2 (ja) * 2017-02-23 2020-05-20 株式会社島津製作所 発光分光分析装置
CN111398200B (zh) * 2020-05-18 2022-09-30 安徽理工大学 非相干宽带腔增强吸收光谱最优反演波段确定方法
WO2023279338A1 (en) * 2021-07-08 2023-01-12 Shanghaitech University Neural spectral field reconstruction for spectrometer

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915445A (zh) * 2012-09-17 2013-02-06 杭州电子科技大学 一种改进型的神经网络高光谱遥感影像分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915445A (zh) * 2012-09-17 2013-02-06 杭州电子科技大学 一种改进型的神经网络高光谱遥感影像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《近红外光谱技术在药物无损非破坏定量分析中的应用研究》;曲楠;《吉林大学博士学位论文》;20081115;提要、第22,27-28,47-48,51-56,99-100,115页 *

Also Published As

Publication number Publication date
CN106295667A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN104807787B (zh) 一种基于激光诱导击穿光谱技术的茶叶分类鉴别方法
CN110166484A (zh) 一种基于LSTM-Attention网络的工业控制系统入侵检测方法
CN110413924A (zh) 一种半监督多视图学习的网页分类方法
CN110763660A (zh) 基于集成学习的libs定量分析方法
CN113177919B (zh) Libs与深度学习结合的岩性分类及主量元素含量检测方法
CN107818298A (zh) 用于机器学习物质识别算法的通用拉曼光谱特征提取方法
CN105630743A (zh) 一种光谱波数的选择方法
CN106295667B (zh) 一种基于遗传算法选择最优光谱谱段的方法及其应用
CN107132266A (zh) 一种基于随机森林的水质分类方法及系统
CN109145685B (zh) 基于集成学习的果蔬高光谱品质检测方法
CN113109782B (zh) 一种直接应用于雷达辐射源幅度序列的分类方法
CN113516228A (zh) 一种基于深度神经网络的网络异常检测方法
CN112183459B (zh) 一种基于进化多目标优化的遥感水质图像分类方法
CN111400540A (zh) 一种基于挤压和激励残差网络的歌声检测方法
CN107145778A (zh) 一种入侵检测方法及装置
CN106290263B (zh) 一种基于遗传算法的libs定标定量分析方法
CN108344701A (zh) 基于高光谱技术的石蜡等级定性分类与定量回归方法
CN111259929A (zh) 基于随机森林的食源性致病菌的分类模型训练方法
CN117035560B (zh) 基于大数据的电子烟生产数据管理系统
CN115131293A (zh) 一种基于libs光谱和图像融合的中药材产地识别方法
CN114897101A (zh) 一种航空发动机故障部位识别方法及系统
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
CN113792141A (zh) 基于协方差度量因子的特征选择方法
CN110426612A (zh) 一种两级式变压器油纸绝缘时域介电响应特征量优选方法
CN118298809B (zh) 基于软对比伪学习的开放世界伪造语音归因方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant