CN110567938A - 基于拉曼光谱的污染物组分检测设备和方法 - Google Patents

基于拉曼光谱的污染物组分检测设备和方法 Download PDF

Info

Publication number
CN110567938A
CN110567938A CN201910892367.1A CN201910892367A CN110567938A CN 110567938 A CN110567938 A CN 110567938A CN 201910892367 A CN201910892367 A CN 201910892367A CN 110567938 A CN110567938 A CN 110567938A
Authority
CN
China
Prior art keywords
raman
detected
sample
pollutant
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910892367.1A
Other languages
English (en)
Inventor
谢国锦
谢国宇
刘仲阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910892367.1A priority Critical patent/CN110567938A/zh
Publication of CN110567938A publication Critical patent/CN110567938A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Mathematical Physics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明公开一种基于拉曼光谱的污染物组分检测设备和方法,检测设备设置有污染物采集装置、拉曼光谱仪和检测终端,污染物采集装置对待测物进行采样,获得多个实验样本,通过拉曼光谱仪对这些实验样本进行检测,得到每个实验样本的拉曼光谱,将这些样本拉曼光谱发送给检测终端,检测终端通过聚类算法从多个样本拉曼光谱中提取出待测物的特征向量,构建待测物的散射特征数据,并基于自身存储的多个已知污染物组分的样本物的拉曼特征数据,构建训练样本集对分类器进行训练;最后基于待测物的散射特征数据,通过训练好的分类器,确定待测物的污染物组分,以及确定待测物中未知污染物的特征类别。

Description

基于拉曼光谱的污染物组分检测设备和方法
技术领域
本发明涉及利用拉曼散射进行测试领域,特别是涉及一种基于拉曼光谱的污染物组分检测设备和方法。
背景技术
拉曼光谱是基于拉曼效应得到的一种散射光谱,通过对拉曼光谱进行分析,可以得到分子振动、转动方面的分析,以此可以确定分子的结构。因此,拉曼光谱分析常用于污染物组分检测上。如专利“一种雾霾二次污染物的直接测定方法”(公布号CN106770177A)。现有技术通常是通过将待测物的光谱特征与先前已知的污染物的光谱特征进行对比,从而确定污染物中的颗粒组分。然而,由于社会发展,现在污染物中污染物组分非常复杂,对于污染物中的先前未知的颗粒组分,通过现有技术就不能检测出来。
发明内容
为解决以上技术问题,本发明提供一种基于拉曼光谱的污染物组分检测设备和方法,利用机器学习和聚类算法进行光谱特征提取和分类,从而确定污染物组分,并且可以标定先前未知的组分进行进一步研究。
技术方案如下:
第一方面,提供了一种基于拉曼光谱的污染物组分检测方法,包括:
步骤1、采集多个关于待测物的样本拉曼光谱;
步骤2、通过聚类算法从多个样本拉曼光谱中提取出待测物的特征向量,构建待测物的散射特征数据;
步骤3、基于多个已知污染物组分的样本物的拉曼特征数据,构建训练样本集,通过机器学习对分类器进行训练;
步骤4、基于待测物的散射特征数据,通过训练好的分类器,确定待测物的污染物组分。
结合第一方面,在第一方面的第一种可实现方式中,所述步骤1采用以下方法采集样本拉曼光谱:
通过激光发射装置相待测物发射激光;
通过拉曼光谱仪采集待测物的散射光,生成样本拉曼光谱。
结合第一方面,在第一方面的第二种可实现方式中,所述步骤2采用以下方法确定散射特征数据:
对每个样本拉曼光谱进行预处理,建立样本光谱数据集;
通过K-Means算法从样本光谱图数据集中提取出多个聚类中心,作为待测物的散射特征数据。
结合第一方面的第二种可实现方式,在第一方面的第三种可实现方式中,所述对拉曼光谱组中各个拉曼光谱进行预处理包括:通过归一化函数对去噪后的拉曼光谱进行归一化处理。
结合第一方面,在第一方面的第四种可实现方式中,所述步骤3中采用决策树、最近邻、SVM分类算法中任一一种分类算法对分类器进行训练。
第二方面,提供了一种基于拉曼光谱的污染物组分检测设备,设置有:
拉曼光谱仪,用于采集待测物照射激光后的散射光,生成样本拉曼光谱;
检测终端,用于控制激光发射装置发射出指定功率的激光,以及;
用于通过聚类算法从多个样本拉曼光谱中提取出特征向量,构建待测物的散射特征数据,并基于散射特征数据,通过机器学习训练的分类器,确定待测物中的污染物组分。
结合第二方面,在第二方面的第一种可实现方式中,所述检测终端设置有:
获取模块,用于获取待测物的样本拉曼光谱;
存储器,用于存储多种颗粒组分已知的样本物的拉曼特征数据,以及待测物所有的样本拉曼光谱;
处理器,用于控制激光发射装置产生指定功率的激光,以及;
用于基于存储的多种样本物的拉曼特征数据,通过机器学习方法对分类器进行训练;以及用于通过聚类算法从待测物所有的样本拉曼光谱中提取出特征向量,生成待测物的散射特征数据,并将散射特征数据输入训练好的分类器中,确定待测物的污染物组分。
有益效果:采用本发明的基于拉曼光谱的污染物组分检测方法,能够有效检测出污染物中的污染物组分,并且还可以确定未知的污染物的特征,以便在以后能够检测相同的污染物。
附图说明
图1为本发明检测流程图;
图2为拉曼光谱检测流程图;
图3为生成散射特征数据的流程图;
图4为检测设备的系统框图。
具体实施方式
下面结合实施例和附图对本发明作进一步说明。
如图1所示的检测流程图,该污染物组分检测方法,包括:
步骤1、采集多个关于待测物的样本拉曼光谱;
步骤2、通过聚类算法从多个样本拉曼光谱中提取出待测物的特征向量,构建待测物的散射特征数据;
步骤3、基于多个已知污染物组分的样本物的拉曼特征数据,构建训练样本集,通过机器学习对分类器进行训练;
步骤4、基于待测物的散射特征数据,通过训练好的分类器,确定待测物的污染物组分。
具体而言,通过拉曼光谱仪采集多个关于待测物的样本拉曼光谱,待测物包括颗粒物和/或有机挥发气体污染物。将这些样本拉曼光谱作为样本数据集,采用聚类算法从样本数据集中提取出多个特征向量,然而将这些特征向量整合成污染物的散射特征数据。将散热拉曼特征数据输入到通过多个已知组分的拉曼特征数据训练而成分类器中,从而确定污染物的特征类别,从而确定污染物中的污染物组分。
在本实施例中,优选的,如图2所示,所述步骤1采用以下方法采集样本拉曼光谱:
通过激光发射装置相待测物发射激光;
通过拉曼光谱仪采集待测物的散射光,生成样本拉曼光谱。
在本实施例中,优选的,如图3所示,所述步骤2采用以下方法确定散射特征数据:
对每个样本拉曼光谱进行预处理,建立样本光谱数据集;
通过K-Means算法从样本光谱图数据集中提取出多个聚类中心,作为待测物的散射特征数据。
具体而言,从样本光谱数据集中随机选取K个光谱数据作为初始的聚类中心点,将光谱数据归类到距离最近的聚类中心点所属的类别中。重新计算每个类别的聚类中心点。然后判断前后2个聚类中心点有没有变化。如果有变化,则再根据每个光谱数据到重新计算的聚类中心的距离进行归类,并重新计算聚类中心点,如此循环,直至前后2个聚类中心点有没有变化,输出的聚类结果,并以聚类结果中每个类别的聚类中心作为特征向量以重组空气的散射特征数据。
在本实施例中,优选的,所述对拉曼光谱组中各个拉曼光谱进行预处理包括通过归一化函数对去噪后的拉曼光谱进行归一化处理。具体而言,通过mapminmax函数进行归一化处理。
在本实施例中,优选的,所述步骤3中采用决策树、最近邻、SVM分类算法中任一一种分类算法对分类器进行训练。
以决策树为例,将多个已知污染物组分的样本物的拉曼光谱的特征数据作为训练集,并设定基尼系数阈值和样本个数阈值。将训练集作为当前节点的数据集,判断数据集中样本个数是否小于阈值或没有特征,如果是,则返回决策子树,当前节点停止递归。如果不是,则计算数据集的基尼系数,并判断基尼系数是否小于设定的阈值,如果是则返回决策树子树,当前节点停止递归。如果不是,则计算节点的各个特征数据对数据集的基尼系数,并以其中基尼系数最小的特征数据所对应的特征值,将数据集划分成2个子数据集。将这2个子数据集作为子节点进行递归,最终生成决策树。
将空气的散射特征数据输入到决策树中,决策树会对散射特征数据进行分类,确定散射特征数据中各个离散特征的特征类别,通过已知的污染物的特征类别即可确定空气中的污染物组分,并且可以标定无法确定的特征类别。
如图4所示的污染物组分检测设备的系统框图,该检测设备设置有:
拉曼光谱仪,用于采集待测物照射激光后的散射光,生成样本拉曼光谱;
检测终端,用于控制激光发射装置发射出指定功率的激光,以及;
用于通过聚类算法从多个样本拉曼光谱中提取出特征向量,构建待测物的散射特征数据,并基于散射特征数据,通过机器学习训练的分类器,确定待测物中的污染物组分。
具体而言,激光发射装置向待测物发射激光,拉曼光谱仪采集待测物的散射光,从而获取到多个针对空气的样本拉曼光谱。检测终端对这些样本拉曼光谱进行聚类,提取出其中的特征向量作为散射特征数据,并将散射特征数据输入到训练好的分类器中,从而确定散射特征数据中各个特征向量的特征类别,最后根据特征类别,确定空气中污染物组分,而对于无法确定组分的特征类别,检测终端会进行记录,以便以后识别出同样污染物。
在本实施例中,如图4所示,所述检测终端设置有:
获取模块,用于获取待测物的拉曼光谱;
存储器,用于存储多种颗粒组分已知的样本物的拉曼特征数据,以及待测物所有的样本拉曼光谱;
处理器,用于控制激光发射装置产生指定功率的激光,以及;
用于基于存储的多种样本物的拉曼特征数据,通过机器学习方法对分类器进行训练;以及用于通过聚类算法从待测物所有的拉曼光谱中提取出特征向量,生成待测物的散射特征数据,并将散射特征数据输入训练好的分类器中,确定待测物的污染物组分。
获取模块可以是用于获取信息的通行模块,其主要与拉曼光谱仪的数据输出接口连接,以获取样本拉曼光谱。获取模块获取到样本拉曼光谱后,将发送到存储器中暂存,等到获取到所有实验样本的拉曼光谱后,处理器就从存储器中调取出所有的样本拉曼光谱进行特征向量提取,并以提取到的特征向量作为散热特征数据输入到,先前通过存储器中存储的所有拉曼特征数据训练得到的分类器中,从而得到空气中的特征类别,通过与已知的污染物的特征类别进行比较,从而确定空气中的污染物组分。
最后需要说明的是,上述描述仅仅为本发明的优选实施例,本领域的普通技术人员在本发明的启示下,在不违背本发明宗旨及权利要求的前提下,可以做出多种类似的表示,这样的变换均落入本发明的保护范围之内。

Claims (8)

1.一种基于拉曼光谱的污染物组分检测方法,其特征在于,包括:
步骤1、采集多个关于待测物的样本拉曼光谱;
步骤2、通过聚类算法从多个样本拉曼光谱中提取出待测物的特征向量,构建待测物的散射特征数据;
步骤3、基于多个已知污染物组分的样本物的拉曼特征数据,构建训练样本集,通过机器学习对分类器进行训练;
步骤4、基于待测物的散射特征数据,通过训练好的分类器,确定待测物的污染物组分。
2.根据权利要求1所述的基于拉曼光谱的污染物组分检测方法,其特征在于,所述步骤1采用以下方法采集样本拉曼光谱:
通过激光发射装置相待测物发射激光;
通过拉曼光谱仪采集待测物的散射光,生成样本拉曼光谱。
3.根据权利要求1所述的基于拉曼光谱的污染物组分检测方法,其特征在于,所述步骤2采用以下方法确定散射特征数据:
对每个样本拉曼光谱进行预处理,建立样本光谱数据集;
通过K-Means算法从样本光谱图数据集中提取出多个聚类中心,作为待测物的散射特征数据。
4.根据权利要求3所述的基于拉曼光谱的污染物组分检测方法,其特征在于,所述对拉曼光谱组中各个拉曼光谱进行预处理包括:通过归一化函数对去噪后的拉曼光谱进行归一化处理。
5.根据权利要求1所述的基于拉曼光谱的污染物组分检测方法,其特征在于,所述步骤3中采用决策树、最近邻、SVM分类算法中任一一种分类算法对分类器进行训练。
6.根据权利要求1所述的基于拉曼光谱的污染物组分检测方法,其特征在于,所述待测物包括颗粒物和/或有机挥发气体污染物。
7.一种基于拉曼光谱的污染物组分检测设备,其特征在于,设置有:
拉曼光谱仪,用于采集待测物照射激光后的散射光,生成样本拉曼光谱;
检测终端,用于控制激光发射装置发射出指定功率的激光,以及;
用于通过聚类算法从多个样本拉曼光谱中提取出特征向量,构建待测物的散射特征数据,并基于散射特征数据,通过机器学习训练的分类器,确定待测物中的污染物组分。
8.根据权利要求7所述的基于拉曼光谱的污染物组分检测设备,其特征在于,所述检测终端设置有:
获取模块,用于获取待测物的样本拉曼光谱;
存储器,用于存储多种颗粒组分已知的样本物的拉曼特征数据,以及待测物所有的样本拉曼光谱;
处理器,用于控制激光发射装置产生指定功率的激光,以及;
用于基于存储的多种样本物的拉曼特征数据,通过机器学习方法对分类器进行训练;以及用于通过聚类算法从待测物所有的样本拉曼光谱中提取出特征向量,生成待测物的散射特征数据,并将散射特征数据输入训练好的分类器中,确定待测物的污染物组分。
CN201910892367.1A 2019-09-20 2019-09-20 基于拉曼光谱的污染物组分检测设备和方法 Pending CN110567938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910892367.1A CN110567938A (zh) 2019-09-20 2019-09-20 基于拉曼光谱的污染物组分检测设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910892367.1A CN110567938A (zh) 2019-09-20 2019-09-20 基于拉曼光谱的污染物组分检测设备和方法

Publications (1)

Publication Number Publication Date
CN110567938A true CN110567938A (zh) 2019-12-13

Family

ID=68781692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910892367.1A Pending CN110567938A (zh) 2019-09-20 2019-09-20 基于拉曼光谱的污染物组分检测设备和方法

Country Status (1)

Country Link
CN (1) CN110567938A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111413319A (zh) * 2020-04-30 2020-07-14 成都大象分形智能科技有限公司 基于拉曼光谱的复杂低浓度液体样本检测系统
CN113466206A (zh) * 2021-06-23 2021-10-01 上海仪电(集团)有限公司中央研究院 一种基于大数据的拉曼光谱分析系统
CN115494047A (zh) * 2022-11-17 2022-12-20 广东博创佳禾科技有限公司 一种水环境农业污染物的检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8467052B1 (en) * 2008-11-07 2013-06-18 The United States Of America As Represented By The Secretary Of Agriculture Systems and methods for detecting contaminants in a sample
CN106770177A (zh) * 2017-01-19 2017-05-31 清华大学 一种雾霾二次颗粒物的直接测定方法
CN108489775A (zh) * 2018-05-14 2018-09-04 中国计量大学 一种气溶胶自动采集及拉曼光谱检测装置
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8467052B1 (en) * 2008-11-07 2013-06-18 The United States Of America As Represented By The Secretary Of Agriculture Systems and methods for detecting contaminants in a sample
CN106770177A (zh) * 2017-01-19 2017-05-31 清华大学 一种雾霾二次颗粒物的直接测定方法
CN108489775A (zh) * 2018-05-14 2018-09-04 中国计量大学 一种气溶胶自动采集及拉曼光谱检测装置
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王凯等: "基于改进特征选择RF算法的红外光谱建模方法", 《计算机应用研究》 *
陈珊等: "拉曼光谱的荧光背景扣除及其用于药物聚类分析", 《光谱学与光谱分析》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111413319A (zh) * 2020-04-30 2020-07-14 成都大象分形智能科技有限公司 基于拉曼光谱的复杂低浓度液体样本检测系统
CN111413319B (zh) * 2020-04-30 2023-05-26 成都大象分形智能科技有限公司 基于拉曼光谱的复杂低浓度液体样本检测系统
CN113466206A (zh) * 2021-06-23 2021-10-01 上海仪电(集团)有限公司中央研究院 一种基于大数据的拉曼光谱分析系统
CN115494047A (zh) * 2022-11-17 2022-12-20 广东博创佳禾科技有限公司 一种水环境农业污染物的检测方法及系统

Similar Documents

Publication Publication Date Title
CN110567938A (zh) 基于拉曼光谱的污染物组分检测设备和方法
Möller et al. Photometric classification of type Ia supernovae in the SuperNova Legacy Survey with supervised learning
CN109142317B (zh) 一种基于随机森林模型的拉曼光谱物质识别方法
WO2018121122A1 (zh) 用于物品查验的拉曼光谱检测方法和电子设备
JP6027132B2 (ja) 質量分析法とスコア正規化による微生物の特定方法
CN109073536B (zh) 信息处理装置、信息处理方法、程序以及信息处理系统
Deklerck et al. A protocol for automated timber species identification using metabolome profiling
JP5964983B2 (ja) 質量分析法により微生物を特定するための方法
CN107818298A (zh) 用于机器学习物质识别算法的通用拉曼光谱特征提取方法
US7860685B2 (en) Method for clustering signals in spectra
Äijälä et al. Resolving anthropogenic aerosol pollution types–deconvolution and exploratory classification of pollution events
Savage et al. Evaluation of a hierarchical agglomerative clustering method applied to WIBS laboratory data for improved discrimination of biological particles by comparing data preparation techniques
CN109472287A (zh) 基于二维Gabor小波的三维荧光光谱特征提取方法
Leśkiewicz et al. Improved real-time bio-aerosol classification using artificial neural networks
CN116030310A (zh) 一种基于激光诱导击穿光谱技术的样品分类方法及系统
EP1007961B1 (fr) Appareil de classification destine notamment a la reconnaissance d'odeurs
CN116858822A (zh) 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法
JP7031450B2 (ja) 粒子発生源解析システム、粒子発生源解析方法、及びプログラム
JP4873483B2 (ja) 信号強度の時系列情報の解析方法、解析プログラム、並びに解析装置
CN116026808A (zh) 一种拉曼光谱判别方法和系统
CN114184599A (zh) 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置
CN113030060A (zh) 基于卷积神经网络的毒品拉曼光谱识别方法
CN114694771A (zh) 样品分类方法、分类器的训练方法、设备和介质
KR20200133083A (ko) 측정 환경 조건에 강인한 라만 스펙트럼 판별 방법 및 장치
CN116611338A (zh) 污染物溯源的集成树模型构建方法、溯源方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191213

RJ01 Rejection of invention patent application after publication