CN107818298B - 用于机器学习物质识别算法的通用拉曼光谱特征提取方法 - Google Patents

用于机器学习物质识别算法的通用拉曼光谱特征提取方法 Download PDF

Info

Publication number
CN107818298B
CN107818298B CN201710886434.XA CN201710886434A CN107818298B CN 107818298 B CN107818298 B CN 107818298B CN 201710886434 A CN201710886434 A CN 201710886434A CN 107818298 B CN107818298 B CN 107818298B
Authority
CN
China
Prior art keywords
signal
data
spectrum
raman spectrum
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710886434.XA
Other languages
English (en)
Other versions
CN107818298A (zh
Inventor
谢怡
游乔贝
刘国坤
康怀志
曾勇明
孙锡龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201710886434.XA priority Critical patent/CN107818298B/zh
Publication of CN107818298A publication Critical patent/CN107818298A/zh
Application granted granted Critical
Publication of CN107818298B publication Critical patent/CN107818298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • G06F2218/06Denoising by applying a scale-space analysis, e.g. using wavelet analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Spectrometry And Color Measurement (AREA)

Abstract

用于机器学习物质识别算法的通用拉曼光谱特征提取方法,涉及拉曼光谱。谱图自动预处理;获取谱图的特征向量。可以对任意指定范围的拉曼光谱进行特征提取,所提取的特征向量适用于多种机器学习算法,通用性强,不受目标物质或测试体系的限制;可以自动去除噪声和荧光背景的干扰,同时保留峰值信号的位置和强度等信息;可以有效识别包含各种目标物质的光谱;可以准确提取空白光谱特征,有效识别和准确区分阴性和阳性样品,更好的满足物质检测的实际需求;提取方法不涉及复杂计算,而且对存储空间需求不大,因此时间和空间复杂度低,便于运用于光谱数据的批量处理和分析。

Description

用于机器学习物质识别算法的通用拉曼光谱特征提取方法
技术领域
本发明涉及拉曼光谱,尤其是涉及用于机器学习物质识别算法的通用拉曼光谱特征提取方法。
背景技术
拉曼光谱是以拉曼散射效应为基础的,具有分子指纹信息的振动光谱,每种物质都有区别于其他物质的独特光谱信息。因此,拉曼光谱技术可对物质进行检测分析,在材料、化学、物理、环保和生命科学等领域均有应用。目前流行的表面增强拉曼光谱(SERS)技术[1]和后续发展起来的核壳隔绝纳米粒子增强拉曼光谱(SHINERS)技术[2],大幅度提高了拉曼光谱检测的灵敏度,降低了噪音和背景的干扰,极大地提高了拉曼检测技术的普适性和应用性。基于SERS技术的拉曼光谱仪器具有灵敏度高、样品制备简单、准确度高、检测速度快、成本低和通用性强等优势,因此在痕量物质检测中表现出巨大潜力和广阔的市场前景。例如在食品安全领域中,探测水产品中是否含有孔雀石绿、牛奶中是否含有三聚氰胺和水果表面是否有农药残留等。
传统的拉曼谱图识别技术采用与标准谱图进行模板匹配的方法[3],通过相似度阈值判定样本是否含有目标物质。例如文献[4]针对纺织纤维建立各种纯组分纤维的拉曼光谱特征峰表,并将未知样品与该表进行逐一匹配并计算相似度,进而完成快速识别。文献[5]选择光谱特征峰位置上的最大小波系数作为参数,利用简单反向匹配思路计算相似度,简单高效的识别物质。文献[6]对标准品谱图进行编码,然后利用改进的字符串匹配算法将待测谱图的编码与标准编码进行匹配,根据相似度判定样品类别。这类方法通常运用于单纯体系,对未知光谱样本逐一进行物质识别;但由于相邻拉曼峰相互“淹没”的情况时有发生,往往无法保证在复杂体系中的识别效果。随着SERS光谱仪器的推广和应用,在实际现场测试中产生了大量复杂体系下的拉曼光谱样本,这对拉曼谱图的分析算法提出了新需求:设计适用于拉曼谱图批量分析的通用算法,满足复杂体系下的不同目标物质的自动快速检测需求。而机器学习方法的兴起,正为拉曼谱图的大规模分析开拓新途径[7]。机器学习是一门人工智能科学,主要研究计算机程序如何随着经验积累自动提高性能。近年涌现不少优秀的机器学习方法[8],包括Adaboost、支持向量机(SVM)、多层神经网络和随机森林等。不少学者把拉曼谱图的物质识别(定性分析)问题转换成机器学习的分类问题,即定义若干目标物质为不同类别,然后根据已有的拉曼标准谱图来训练机器学习分类器,最后使用训练好的分类器确定待测光谱属于何种类别(识别目标物质)。例如文献[9]采用最小二乘SVM模型并进行多重迭代优化,可以对分别掺入了葵花籽油、大豆油、玉米油和橄榄油的拉曼光谱检测样本进行快速准确的分类识别。支持向量机SVM模型也可用于细菌样本拉曼谱图的分类和识别[10],而且基于相关核的SVM模型比基于线性核的SVM模型具有更好的分析能力。
机器学习分类方法对拉曼光谱进行物质识别过程中,有一个很关键的步骤:如何对拉曼光谱进行特征提取。特征提取是将拉曼谱图的数据表示成机器学习模型可以接受的数学特征(即特征向量)。如果提取的特征向量丢失了原始光谱中的重要信息,或含有大量干扰信号,将会严重影响物质分类识别结果的准确性。但是现有的特征提取算法往往针对目标物质或特定体系进行设计,未考虑空白拉曼光谱(不含目标物质的光谱样本)对物质分类识别的影响,因此通用性不强[9][10][11][12]。例如文献[11]所提取特征向量仅包含代表食用油不饱和度特征的两个特征峰相关信息,只适用于食用油的快速鉴别。
现有谱图预处理方法大多属于半自动算法,需根据仪器、样品特征和测量环境的变化来调节参数,对操作人员有较高的要求,无法支持不同目标物质光谱的批量处理。例如滑动窗口多项式法[13]利用窗口内的光谱值计算出一个新数值以替代窗口中心位置的原始光谱值,可以快捷消除噪音,但其效果依赖于窗口尺寸和多项式阶数的选择。多项式拟合方法[14][15]在多次迭代中不断消除高频的拉曼峰,进而估计光谱的荧光背景,但由于采用固定的最小二乘拟合阶数,自适应性不高。
传统的拉曼谱图识别技术采用与标准谱图进行模板匹配的方法[3],通过相似度阈值判定样本是否含有目标物质。这类方法通常运用于单纯体系,对未知光谱样本逐一进行物质识别,可以准确识别阴性样本(不含目标物质)和阳性样本(含有目标物质)。但由于相邻拉曼峰相互“淹没”的情况时有发生,往往无法保证在复杂体系中的识别效果。为了实现光谱的批量处理,多种机器学习算法[9][10]被用于对拉曼光谱进行分类和识别。它们面向特定物质的检测应用,支持样本数据量不大,但可获得较好的定性分析结果。其中采用的特征提取方法针对目标物质来设计,只选择该物质独有特性(如特征峰)构成的特征向量进行训练和预测,无法应对复杂体系下的多种目标物质的识别需求,缺乏扩展性和通用性。因此,本发明提出一种适用范围更广、效率更高的特征提取方法,以满足实际物质监测应用的需求。
现有特征提取方法[11][12]普遍采用经典的最大最小归一化算法将特征数据固定在[0,1]区间。该方法往往会丢失峰值信号的强度信息,导致提取的特征分类效果不佳。特别是当面对空白样本时,由于[0,1]特征向量无法区分低强度峰值信号和高强度峰值信号,分类器常常错误地将空白样本识别成含目标物质的样本。
发明内容
本发明的目的在于针对上述现有技术的不足,提供更好的特征向量归一化算法,准确刻画空白样本的特征,使得机器学习算法可以识别阴性样本(不含目标物质)的用于机器学习物质识别算法的通用拉曼光谱特征提取方法。
本发明包括以下步骤:
1)谱图自动预处理;
在步骤1)中,所述谱图自动预处理包括消除噪音和扣除荧光背景,实际测试中,拉曼光谱样本通常以二维数据的形式表达,其中横坐标是波数,纵坐标是该波数对应的光谱信号强度。拉曼光谱样本采集往往会受到诸多因素的影响,由激光产生的荧光背景(主要因素)、由射线产生的毛刺峰和仪器的固有噪声等。为了对拉曼光谱进行准确的物质识别,必须尽可能消除这些因素的影响,使用自动的光谱预处理算法,在复杂体系下利用自适应迭代的思想扣除荧光背景,而不会使拉曼信号受到损失或者产生局部形变,所述自动的光谱预处理算法的主要流程是:
(1)搜索原始光谱数据s的局部极大值点;
(2)在相邻局部极大值点间使用插值方法,获得荧光背景的估计曲线b;
(3)更新光谱数据s=b,对步骤(1)、(2)进行循环迭代;迭代终止条件满足,即可获得荧光背景曲线b,在无人工干预的情况下,采用的谱图自动预处理方法可以准确可靠的消除复杂体系下的拉曼光谱荧光背景,处理异常数据。其效果可以媲美商用的自适应迭代最小二乘法(airPLS)。
2)获取谱图的特征向量;
在步骤2)中,所述获取谱图的特征向量可采用将峰值信号处理为冲激信号,应用极大极小信号自适应缩放算法,将扣除荧光背景后的光谱的峰值信号处理为冲激信号,所述极大极小信号自适应缩放算法通过极小值和极大值来划分峰信号的范围,并采用自适应的信号缩放来减少相邻峰之间的影响;所述极大极小信号自适应缩放算法对离峰值点越远的部分进行越大的缩放,这样的做法使得最后的处理结果中,远离峰值点的峰值数据的作用减弱,突出了峰值及其附近的数据的影响,有效消除了峰值信号以外的干扰因素,具体实施方法如下:
1)使用平滑算法对光谱s-b进行平滑处理,并使用小波阈值(wavelet shrinkage)消除高频白噪声。
2)在处理后的光谱数据中找出所有极小值点。相邻的两个极小值点确定一个数据段。
3)在相邻的极小值点之间寻找极大值点的位置,据此把相应数据段划分为左右两侧。
4)左侧光谱数据统一减去左侧极小值,右侧光谱数据统一减去右侧极小值。若出现左右两侧不连续的情况,需要对较高的一侧数据进行适当缩放。
5)分别对左右两侧数据进行操作以形成峰值冲激信号。假设某侧信号为{x1,x2,...,xn},其对应波数位置为{l1,l2,...,ln},并且x1是局部极大值,n是其信号个数,则更新
Figure BDA0001420243170000041
这一步操作可以突出峰值信号,并削弱远离峰值的信号的强度,即将信号处理为冲激信号。
3)特征向量的归一化处理;
在步骤3)中,所述特征向量的归一化处理可采用固定的数学区间,使用平均归一化(让所有特征数据以0为中心)和反正切(arc-tangent)归一化将信号归一化到固定的数学区间(-1,1)。具体做法是:根据需求截取指定范围的冲激信号并保存在向量Data中,记信号总数为LZ;则归一化后的特征向量Z的计算公式为,
Figure BDA0001420243170000042
其中arctan是反正切函数,Mean(Data)是Data的平均数,d=1,…,LZ。特征向量中每个特征值的取值范围均为(-1,1)。
本发明的归一化方式能更好地保留峰值信号信息,提升分类精度。更为重要的是,它首次准确刻画了空白样本的特征,有效避免将空白样本误判含有目标物质的现象。而现有的特征提取方法采用的经典[0,1]区间最大最小归一化方法,往往会放大空白样本的所有峰值,因此,无法准确识别空白样本。
为了在复杂体系下对拉曼谱图进行快速准确的物质分类识别,本发明提出一种适用于机器学习物质识别算法的通用拉曼光谱特征提取方法。本发明将拉曼光谱的特征表述成等长且取值范围相同的特征向量,为使用机器学习算法(如SVM等)进行物质分类和识别打下良好基础。
与现有的特征提取方法相比,本发明的优点如下:
1)可以对任意指定范围的拉曼光谱进行特征提取,所提取的特征向量适用于多种机器学习算法,通用性强,不受目标物质或测试体系的限制;
2)可以自动去除噪声和荧光背景的干扰,同时保留峰值信号的位置和强度等信息;
3)可以有效识别包含各种目标物质的光谱;
4)可以准确提取空白光谱特征,有效识别和准确区分阴性和阳性样品,更好的满足物质检测的实际需求;
5)本发明的特征提取方法不涉及复杂计算,而且对存储空间需求不大,因此时间和空间复杂度低,便于运用于光谱数据的批量处理和分析。
6)采用自适应的谱图预处理方法,自动消除复杂体系下光谱样本的噪音和荧光背景(无需人工干预),为拉曼光谱的批量分析处理奠定数据基础。
7)极大极小信号自适应缩放算法首次被运用到在特征提取过程中,将峰值信号处理为冲激信号以获得谱图的特征向量。这种算法通用性好,所获得的特征向量适用于不同的机器学习分类器,并可以得到满意的物质分类识别结果。
8)首次对特征向量采用反正切归一化算法,准确刻画了空白光谱样本特征,提高目标物质识别的准确率。
附图说明
图1为本发明的特征提取方法结果示例(苋菜红的特征峰如虚线显示)。
图2为本发明采用[0,1]最大最小归一化算法(空白光谱样本的特征提取结果)。在图2中,a为Blank(without background),b为Feature。
图3为本发明采用[0,1]最大最小归一化算法(亮蓝光谱样本的特征提取结果)。在图3中,a为Brilliant Blue(without backgrount),b为Feature。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明包括以下步骤:
第一步:谱图自动预处理:消除噪音和扣除荧光背景;
实际测试中,拉曼光谱样本通常以二维数据的形式表达,其中横坐标是波数,纵坐标是该波数对应的光谱信号强度。拉曼光谱样本采集往往会受到诸多因素的影响,例如由激光产生的荧光背景(主要因素)、由射线产生的毛刺峰和仪器的固有噪声等。为了对拉曼光谱进行准确的物质识别,必须尽可能的消除这些因素的影响。本发明使用自动的光谱预处理算法[16],在复杂体系下利用自适应迭代的思想扣除荧光背景,而不会使拉曼信号受到损失或者产生局部形变。该算法的主要流程是:
(1)搜索原始光谱数据s的局部极大值点;
(2)在相邻局部极大值点间使用插值方法,获得荧光背景的估计曲线b;
(3)更新光谱数据s=b,对步骤(1)、(2)进行循环迭代;
迭代终止条件满足,即可获得荧光背景曲线b。在无人工干预的情况下,本发明采用的谱图自动预处理方法可以准确可靠的消除复杂体系下的拉曼光谱荧光背景,处理异常数据。其效果可以媲美商用的自适应迭代最小二乘法(airPLS)[17]
第二步:获取谱图的特征向量:将峰值信号处理为冲激信号
应用极大极小信号自适应缩放算法[18],将扣除荧光背景后的光谱的峰值信号处理为冲激信号。该算法通过极小值和极大值来划分峰信号的范围,并采用自适应的信号缩放来减少相邻峰之间的影响。算法对离峰值点越远的部分进行了越大的缩放,这样的做法使得最后的处理结果中,远离峰值点的峰值数据的作用减弱,突出了峰值及其附近的数据的影响,有效消除了峰值信号以外的干扰因素。具体实施方法如下:
(1)使用平滑算法对光谱s-b进行平滑处理,并使用小波阈值(waveletshrinkage)消除高频白噪声[19][20]
(2)在处理后的光谱数据中找出所有极小值点。相邻的两个极小值点确定一个数据段。
(3)在相邻的极小值点之间寻找极大值点的位置,据此把相应数据段划分为左右两侧。
(4)左侧光谱数据统一减去左侧极小值,右侧光谱数据统一减去右侧极小值。若出现左右两侧不连续的情况,需要对较高的一侧数据进行适当缩放。
(5)分别对左右两侧数据进行操作以形成峰值冲激信号。假设某侧信号为{x1,x2,...,xn},其对应波数位置为{l1,l2,...,ln},并且x1是局部极大值,n是其信号个数,则更新
Figure BDA0001420243170000061
这一步操作可以突出峰值信号,并削弱远离峰值的信号的强度,即将信号处理为冲激信号。
第三步:特征向量的归一化处理:固定的数学区间
使用平均归一化(让所有特征数据以0为中心)和反正切(arc-tangent)归一化将信号归一化到固定的数学区间(-1,1)。具体做法是:根据需求截取指定范围的冲激信号并保存在向量Data中,记信号总数为LZ。则归一化后的特征向量Z的计算公式为,
Figure BDA0001420243170000062
其中arctan是反正切函数,Mean(Data)是Data的平均数,d=1,…,LZ。特征向量中每个特征值的取值范围均为(-1,1)。例如,含苋菜红(AcidRed27)的光谱样本的特征提取结果如图1所示。其中,特征向量结果包含波数为300cm-1到1700cm-1的信号信息,为了便于展示,样本的原始光谱信号也归一化被缩放到[0,1]区间。
本发明的归一化方式能更好地保留峰值信号信息,提升分类精度。更为重要的是,它首次准确刻画了空白样本的特征,有效避免将空白样本误判含有目标物质的现象。而现有的特征提取方法采用的经典[0,1]区间最大最小归一化方法,往往会放大空白样本的所有峰值,因此,无法准确识别空白样本。
实验验证:
为了验证本发明的特征提取方法有效性,使用高意(Photop)PT2000仪器从现场测试采集1521个拉曼光谱样本进行测试。含有11种目标物质样本(均为酸性/碱性色素)和不含任何目标物质的样本都进行了标注,光谱测试样本的列表如表1所示。
表1
Figure BDA0001420243170000071
首先,使用本发明的特征提取方法获得所有样本的特征向量(波数范围300cm-1到1700cm-1),选取一部分作为分类器的训练样本(标准谱图),其余部分作为待测样本(未知谱图)。然后,分别使用自适应超图分类器[21]和RBF核SVM分类器[22]进行目标物质的分类识别。结果证明,两中分类方法均获得了90%以上的准确率。这说明本发明的特征提取方法适用于机器学习算法,而且可以有效识别各种目标物质及区别空白样本。
作为对比,在特征向量归一化步骤中采用[0,1]区间最大最小归一化算法,并同样使用自适应超图和SVM方法进行实验。结果是,有相当一部分的空白样本被错误识别为含有某目标物质的样本,导致总体的物质识别准确率下降。其原因是[0,1]区间最大最小归一化方法丢失了峰值强度的重要信息,使得空白样本的特征向量与低浓度标准光谱的特征向量可能存在较大相似性,因此容易造成误判。在图2和3中,亮蓝样本的峰强度远远高于空白样本的峰强度,但最大最小归一化后就无法区分了。但本发明采用的反正切归一化算法,可以保留峰值强度信息(如图1所示),即原始峰越强,归一化后的值越高。因此,机器学习分类器就可以准确区分出空白样本和含目标物质的样本。
满足复杂体系下拉曼谱图的预处理需求:采用谱图预处理的自动算法,消除噪音和荧光背景,同时避免拉曼信号受到损失或者产生局部形变。
为了在复杂体系下对拉曼谱图进行快速准确的物质分类识别,本发明提出一种适用于机器学习物质识别算法的通用拉曼光谱特征提取方法。本发明将拉曼光谱的特征表述成等长且取值范围相同的特征向量,为使用机器学习算法(如SVM等)进行物质分类和识别打下良好基础。

Claims (2)

1.用于机器学习物质识别算法的通用拉曼光谱特征提取方法,其特征在于包括以下步骤:
1)谱图自动预处理,所述谱图自动预处理包括消除噪音和扣除荧光背景;所述谱图自动预处理是对拉曼光谱进行准确的物质识别,使用自动的光谱预处理算法,所述自动的光谱预处理算法的主要流程是:
(1)搜索原始光谱数据s的局部极大值点;
(2)在相邻局部极大值点间使用插值方法,获得荧光背景的估计曲线b;
(3)更新光谱数据s=b,对步骤(1)、(2)进行循环迭代;迭代终止条件满足,即获得荧光背景曲线b,在无人工干预的情况下,采用的谱图自动预处理方法准确可靠的消除复杂体系下的拉曼光谱荧光背景,处理异常数据;
2)获取谱图的特征向量,所述获取谱图的特征向量采用将峰值信号处理为冲激信号,应用极大极小信号自适应缩放算法,将扣除荧光背景后的光谱的峰值信号处理为冲激信号,所述极大极小信号自适应缩放算法通过极小值和极大值来划分峰信号的范围,并采用自适应的信号缩放来减少相邻峰之间的影响;所述极大极小信号自适应缩放算法对离峰值点越远的部分进行越大的缩放,具体实施方法如下:
(1)使用平滑算法对光谱s-b进行平滑处理,并使用小波阈值消除高频白噪声;
(2)在处理后的光谱数据中找出所有极小值点,相邻的两个极小值点确定一个数据段;
(3)在相邻的极小值点之间寻找极大值点的位置,据此把相应数据段划分为左右两侧;
(4)左侧光谱数据统一减去左侧极小值,右侧光谱数据统一减去右侧极小值;若出现左右两侧不连续的情况,需要对较高的一侧数据进行适当缩放;
(5)分别对左右两侧数据进行操作以形成峰值冲激信号,假设某侧信号为{x1,x2,...,xn},其对应波数位置为{l1,l2,...,ln},并且x1是局部极大值,n是其信号个数,则更新
Figure FDF0000010926040000011
这一步操作突出峰值信号,并削弱远离峰值的信号的强度,即将信号处理为冲激信号;
3)特征向量的归一化处理,所述特征向量的归一化处理采用固定的数学区间,使用平均归一化和反正切归一化将信号归一化到固定的数学区间(-1,1),具体做法是:根据需求截取指定范围的冲激信号并保存在向量Data中,记信号总数为LZ;则归一化后的特征向量Z的计算公式为,
Figure FDF0000010926040000021
其中arctan是反正切函数,Mean(Data)是Data的平均数,d=1,2,…,LZ,特征向量中每个特征值的取值范围均为(-1,1)。
2.如权利要求1所述用于机器学习物质识别算法的通用拉曼光谱特征提取方法,其特征在于在步骤1)中,拉曼光谱样本以二维数据的形式表达,拉曼光谱样本采集会受到由激光产生的荧光背景、由射线产生的毛刺峰和仪器的固有噪声的影响。
CN201710886434.XA 2017-09-27 2017-09-27 用于机器学习物质识别算法的通用拉曼光谱特征提取方法 Active CN107818298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710886434.XA CN107818298B (zh) 2017-09-27 2017-09-27 用于机器学习物质识别算法的通用拉曼光谱特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710886434.XA CN107818298B (zh) 2017-09-27 2017-09-27 用于机器学习物质识别算法的通用拉曼光谱特征提取方法

Publications (2)

Publication Number Publication Date
CN107818298A CN107818298A (zh) 2018-03-20
CN107818298B true CN107818298B (zh) 2021-03-09

Family

ID=61607395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710886434.XA Active CN107818298B (zh) 2017-09-27 2017-09-27 用于机器学习物质识别算法的通用拉曼光谱特征提取方法

Country Status (1)

Country Link
CN (1) CN107818298B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019195737A1 (en) * 2018-04-06 2019-10-10 Braskem America, Inc. Raman spectroscopy and machine learning for quality control
CN108830253B (zh) * 2018-06-27 2021-11-26 中石化西南石油工程有限公司地质录井分公司 筛选模型建立方法、光谱筛选装置及方法
CN109142317B (zh) * 2018-08-29 2020-05-08 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN109190714A (zh) * 2018-10-11 2019-01-11 公安部第三研究所 基于深度机器学习模型实现拉曼信号鉴别的系统及方法
CN109557071B (zh) * 2018-11-14 2021-12-17 公安部第一研究所 一种危险液体混合物的拉曼光谱定性定量识别方法
CN109858477A (zh) * 2019-02-01 2019-06-07 厦门大学 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法
CN110032988B (zh) * 2019-04-23 2020-11-13 北京理工大学 紫外拉曼光谱系统实时降噪增强方法
CN109993155B (zh) * 2019-04-23 2021-01-01 北京理工大学 针对低信噪比紫外拉曼光谱的特征峰提取方法
CN110530841A (zh) * 2019-07-16 2019-12-03 河北伊诺光学科技股份有限公司 一种谱图有效性验证方法、系统、电子设备及存储介质
CN111178270B (zh) * 2019-12-30 2023-04-18 上海交通大学 基于xrd的三元组合材料芯片结构分析系统及方法
CN112665461A (zh) * 2020-12-24 2021-04-16 上海微波技术研究所(中国电子科技集团公司第五十研究所) 基于多频电磁感应和弛豫频率参数的识别方法、系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105319198A (zh) * 2014-07-15 2016-02-10 中国石油化工股份有限公司 基于拉曼光谱解析技术的汽油苯含量预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103217409B (zh) * 2013-03-22 2015-02-18 中国科学院重庆绿色智能技术研究院 一种拉曼光谱预处理方法
CN104777149A (zh) * 2015-04-17 2015-07-15 浙江大学 一种基于拉曼光谱的苯中微量甲苯含量的快速测定方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105319198A (zh) * 2014-07-15 2016-02-10 中国石油化工股份有限公司 基于拉曼光谱解析技术的汽油苯含量预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An auto-adaptive background subtraction method for Raman spectra;Yi Xie 等;《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》;20160224;第60页以及附图1 *
消除拉曼光谱荧光背景的新方法及其应用;高国明 等;《光学学报》;20130228;第2页右栏 *

Also Published As

Publication number Publication date
CN107818298A (zh) 2018-03-20

Similar Documents

Publication Publication Date Title
CN107818298B (zh) 用于机器学习物质识别算法的通用拉曼光谱特征提取方法
US10671833B2 (en) Analyzing digital holographic microscopy data for hematology applications
CN109142317B (zh) 一种基于随机森林模型的拉曼光谱物质识别方法
CN113989279A (zh) 基于人工智能及图像处理的塑料薄膜质量检测方法
CN107179310B (zh) 基于鲁棒噪声方差估计的拉曼光谱特征峰识别方法
Valliammal et al. Plant leaf segmentation using non linear K means clustering
CN108694346B (zh) 一种基于两级cnn的船舶辐射噪声信号识别方法
Rabby et al. A modified canny edge detection algorithm for fruit detection & classification
CN110717540B (zh) 一种对雷达新辐射源个体的识别方法及装置
CN115905881B (zh) 黄珍珠分类的方法以及装置、电子设备、存储介质
CN111089856B (zh) 一种拉曼光谱弱信号提取的后处理方法
CN110659374A (zh) 一种基于神经网络提取车辆特征值及属性的以图搜图方法
Sari et al. Classification quality of tobacco leaves as cigarette raw material based on artificial neural networks
Barburiceanu et al. An improved feature extraction method for texture classification with increased noise robustness
KR102013392B1 (ko) Ft-ir 기반 분광 스펙트럼에서 svm 분류기를 이용한 가스 탐지 방법
CN109829902B (zh) 一种基于广义S变换和Teager属性的肺部CT图像结节筛选方法
Dhinesh et al. Detection of leaf disease using principal component analysis and linear support vector machine
CN113408616A (zh) 基于pca-uve-elm的光谱分类方法
CN109598245B (zh) 基于1d-cnn的食用油横向弛豫衰减曲线信号特征提取方法
CN109612961B (zh) 海岸环境微塑料的开集识别方法
Chen et al. Spectroscopic identification of environmental microplastics
Nie et al. Machine vision-based apple external quality grading
Sun et al. A novel method for multi-feature grading of mango using machine vision
CN111693484A (zh) 一种基于太赫兹时域光谱的芝麻油品种识别方法
CN115100733A (zh) Rfid手势识别方法、计算机装置、产品及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant