CN107679569A - 基于自适应超图算法的拉曼光谱物质自动识别方法 - Google Patents

基于自适应超图算法的拉曼光谱物质自动识别方法 Download PDF

Info

Publication number
CN107679569A
CN107679569A CN201710886431.6A CN201710886431A CN107679569A CN 107679569 A CN107679569 A CN 107679569A CN 201710886431 A CN201710886431 A CN 201710886431A CN 107679569 A CN107679569 A CN 107679569A
Authority
CN
China
Prior art keywords
mrow
msub
algorithm
hypergraph
msubsup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710886431.6A
Other languages
English (en)
Inventor
谢怡
游乔贝
康怀志
刘国坤
吴德文
孙锡龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201710886431.6A priority Critical patent/CN107679569A/zh
Publication of CN107679569A publication Critical patent/CN107679569A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

基于自适应超图算法的拉曼光谱物质自动识别方法,涉及拉曼光谱。谱图预处理;谱图特征提取;物质分类识别。自动完成“谱图预处理→谱图特征提取→物质分类识别”的拉曼光谱分析完整过程,实现对物质自动识别。自适应的预处理和特征提取算法在大程度上自动地消除了体系和仪器对于物质识别的影响。特别是首次使用自动插值算法,对SERS样本进行数据统一规整,较好的解决采样频率对特征提取的影响,自动实现“跨仪器”SERS样本的物质识别分类,批量处理分析。自适应超图的分类算法通用性强,适用于复杂体系下的物质自动识别;无需根据体系或物质对算法参数进行调整。采用自适应超图的分类算法,无需根据体系或物质对参数进行调整。

Description

基于自适应超图算法的拉曼光谱物质自动识别方法
技术领域
本发明涉及拉曼光谱,尤其是涉及基于自适应超图算法的拉曼光谱物质自动识别方法。
背景技术
随着我国经济建设和社会发展,无论是关系国计民生的食品安全、环境保护、医疗领域,还是支持科技发展的表面科学、分子电子学、材料科学等基础研究,都对先进便捷的物质检测技术有重大的需求[1]。由于实验室的检测过程复杂耗时,人们需要采用先进的仪器和分析方法来快速检测痕量的违规添加剂和污染物,以避免安全事故。拉曼光谱技术以其快速、无损和样品无需预处理等特点在物质快检领域受到关注,特别是表面增强拉曼光谱(SERS)技术大幅度提升了拉曼光谱检测的灵敏度[2],使得拉曼光谱仪器进入了现场检测的实用阶段[3]。例如,知名光谱仪器生产商美国B&W Tek公司、DeltaNu公司、OceanOptics公司和Thermo Scientific公司相继推出了简便快速的便携式拉曼光谱仪器[4]。随着拉曼仪器的普及,拉曼光谱谱图分析也逐渐由需要人工干预的分步流程,发展到基于算法的自动过程,以提高光谱分析的效率。
在市场上,拉曼仪器常常配备拉曼图谱分析软件和面向应用的谱图数据库,可以完成或协助完成特定物质的识别。但这类软件和数据库的升级扩展依赖于(国外)生产商,更新和维护费用高昂;而且通用性差,往往仅适用于某品牌的仪器,特定的物质和有限的体系,无法满足国内检测的需求。
在学术上,拉曼光谱谱图分析也备受关注,在谱图预处理和定性分析方面取得不少研究成果。例如,基于自适应迭代惩罚最小二乘法(airPLS)的谱图预处理算法[5]能较好的消除荧光背景,已集成到商业化仪器中。基于模板匹配和特征峰检测的拉曼谱图定性分析方法能较好的解决混纺物组分[6]和食用油检测[7]等实际应用问题,逐一识别光谱样本所含的目标物质。基于机器学习的拉曼谱图分类方法也被运用于矿物质[8]、油品[9]和细菌[10]的检测应用中,可以批量完成待测光谱的物质识别。总的来说,现有的拉曼谱图预处理大多属于半自动算法,需要根据光谱数据特征来调整参数以获得“优质干净”的拉曼谱图,对操作人员有一定的专业要求。大部分的拉曼谱图定性分析方法根据待测物质光谱的性质特点而设计,往往需要针对检测体系和拉曼仪器建立标准谱图库和设置算法参数,通用性受到较大限制。
随着市场扩大,便携式光谱仪被运用到更广泛的检测领域和更复杂的环境体系。但是,标准谱图库无法覆盖所有可能的体系,不同的厂商仪器、不同的操作人员和不同的环境体系所采集的光谱数据会有较大差异。这大大增加了拉曼谱图自动分析算法的设计难度,对挖掘光谱数据本身特性和识别算法的能力提出了更高要求。因此自动识别方法需要包容不同检测体系和拉曼仪器,准确提取拉曼光谱的目标物质信号特征。即使待测光谱来自新的体系或仪器,自动识别方法也应该能够识别是否含有目标物质。
现有谱图预处理方法大多属于半自动算法,需根据仪器、样品特征和测量环境的变化来调节参数,消除噪音和荧光背景,但无法支持不同目标物质光谱的批量处理。例如滑动窗口多项式法[11]利用窗口内的光谱值计算出一个新数值以替代窗口中心位置的原始光谱值,可以快捷消除噪音,但其效果依赖于窗口尺寸和多项式阶数的选择。多项式拟合方法[12][13]在多次迭代中不断消除高频的拉曼峰,进而估计光谱的荧光背景,但由于采用固定的最小二乘拟合阶数,自适应性不高。大规模采集的光谱数据还可能来自不同厂商的拉曼仪器,而仪器测量和人工操作的差异往往难以忽视。为了减小误差,传统方法投入大量的人力物力来进行矫正(即仪器标准化)。例如,文献[14]提出以标准光谱样本为基准,预先进行仪器间的拉曼漂移矫正。虽然某些步骤实现了自动化,但需要采集大量标准样本来逼近真实情况,灵活性和通用性不佳。因此,急需设计自动的预处理算法,减小不同体系和仪器对于物质识别准确率的影响。
传统的拉曼谱图识别技术采用与标准谱图进行模板匹配的方法[15],通过相似度阈值逐一判定待测光谱样本是否含有目标物质。由于相邻拉曼峰相互“淹没”的情况时有发生,这类方法在复杂体系中难以获得满意的识别结果。为了实现批量光谱的物质识别,机器学习方法[9][10]被用于拉曼光谱的分析处理。这类方法一般面向特定的检测体系,根据目标物质独有的特性(如特征峰)来构造特征向量,可以把未知的拉曼光谱按照目标物质进行分类,获得较好的物质识别结果。但往往无法应对复杂体系下的物质识别需求,缺乏扩展性和通用性。因此,专业人员需要在测试数据上进行多次试验以优化算法参数,增加了人力成本和复杂度;同时用于调优的测试数据无法反映所有体系的具体情况,因此难以满足复杂体系的物质识别要求。
超图(Hypergraph)[16]算法是一种直推式机器学习算法,能够最大限度的挖掘样本之间的高阶关系,在学习有标注样本的同时,通过对无标注样本的辅助学习来增强分类器的性能,获得令人满意的分类效果。超图算法假设样本之间都具有某种特定的关系,并使用超图来表示样本的集合和样本之间的关系。其中,样本由超图的顶点来表示,样本之间的关系由超图的超边来表示。超边是若干个顶点的集合,可以代表多个样本之间的关系。文献[16]定义了一个规范化的正则化超图拉普拉斯矩阵,并给出了其损失函数,将超图分类问题表示成一个最优化问题,即如何分割超图使其损失最小。文献[17]设计了一种自适应超图算法来解决图像分类问题,即不需要事先确定超图结构,算法采用迭代优化的方式,自动生成描述对象关系的超图,并得到样本的分类结果。
发明内容
本发明的目的在于针对上述现有技术的不足,提供基于自适应超图算法的拉曼光谱物质自动识别方法。
本发明包括以下步骤:
1)谱图预处理;
在步骤1)中,所述谱图预处理包括拉曼光谱的数据规整、消除噪音和荧光背景,拉曼光谱样本通常以二维数据的形式表达,其中横坐标是波数,纵坐标是该波数对应的光谱信号强度。由于采样频率不同,不同拉曼仪器样本信号可能存在差异,甚至无法反映同一波数位置的光谱特点。
为了实现拉曼光谱的批量处理,不同仪器采集的SERS谱图数据格式必须进行统一规整。若忽视采样频率和范围的差异,谱图特征提取的误差会严重影响后续的物质识别分类,采用自动的插值算法实现谱图的数据规整,所述自动的插值算法可采用线性插值、最近邻插值和样条插值。
2)谱图特征提取;
在步骤2)中,所述谱图特征提取采用拉曼光谱的特征表述,对谱图预处理后的SERS谱图进行特征提取,每个谱图的信号特征都被表示成一个等长且取值范围相同的特征向量。首先根据拉曼仪器的有效测量范围,选定一个波数区间。然后借助自动寻峰或扫描算法记录每个拉曼谱图在此区间的采样信号,并用定长的特征向量表示。最后对所有的特征向量进行MIN-MAX归一化处理。
3)物质分类识别;
在步骤3)中,所述物质分类识别使用自适应超图分类器对SERS样本进行学习和识别分类,把拉曼谱图的物质识别(定性分析)问题转换成机器学习的分类问题,并实现批量处理。首先定义若干目标物质为不同类别,然后根据已知(标准)SERS谱图来训练机器学习分类器,最后使用训练好的分类器确定未知(待测)光谱属于何种类别(识别目标物质)。与常用的基于SVM分类器的分类算法不同,提出的自适应超图算法不需要根据具体体系和目标物质对算法参数进行人工调整。具体流程如下:
步骤1:初始化
定义和初始化输出变量--分类结果矩阵Y,记录N个光谱样本的分类结果,目标物质种数(类别数量)为M。若第j个样本已知属于第i个目标物质,则Y(i,j)=1;若第j个样本为待测样本,则设为0,i=1,…M,and j=1,…N。
步骤2:构造超图的关键矩阵
1.超图的每个顶点对应一个光谱样本(特征向量),顶点个数为N。
2.每个顶点选择距离最近的Ks个顶点作为它的“邻居”,并依此构造超图的超边,存储在矩阵H中。
3.根据公式计算对角矩阵W,W为超边的权重矩阵。
4.根据公式De(j,j)=Ks+1和公式计算对角矩阵De和Dv。De为超边的度矩阵,Dv为顶点的度矩阵。
5.根据公式(1)计算S矩阵,然后得到超图的拉普拉斯矩阵L=I-S,其中I矩阵是一个N×N的单位矩阵。
步骤3:优化
根据自适应超图学习[17],使用优化算法来求解分类问题。具体如下:
1.利用公式(2)更新F矩阵(更新值以*号标注):
2.使用迭代的坐标下降法[17],更新W矩阵。由于W是对角矩阵,采用Wp作为元素W(p,p)的缩写,其中p=1,…N。坐标下降法每次选取一对Wp和Wq(p≠q),根据公式(3)更新数值,直至所有Wp完成更新,其中,
3.使用新的W*矩阵,根据公式(1)更新S矩阵。
步骤4:迭代
对于Y矩阵的每一列Y(:,j),在F*矩阵对应行F*(j,:)中搜索F*(j,:)的最大值,并记下最大值所在位置k*,然后更新最后将算法迭代计数加1,若计数未达到设定的阈值(默认设置为5),则返回步骤2继续计算,否则结束本算法,并输出最终分类结果矩阵Y。
本发明具有以下优点:
1)自动完成“谱图预处理→谱图特征提取→物质分类识别”的拉曼光谱分析完整过程,实现对物质自动识别。
2)自适应的预处理和特征提取算法在大程度上自动地消除了体系和仪器对于物质识别的影响。特别是首次使用自动插值算法,对SERS样本进行数据统一规整,较好的解决采样频率对特征提取的影响,自动实现“跨仪器”SERS样本的物质识别分类,批量处理分析。
3)自适应超图的分类算法通用性强,适用于复杂体系下的物质自动识别;无需根据体系或物质对算法参数进行调整。
4)采用自适应超图的分类算法,无需根据体系或物质对参数进行调整。
5)采用自动插值算法,对采样频率低的拉曼光谱样本进行数据规整,使其具有与采样频率高的拉曼光谱样本相同的采样点,以便后续获取统一规格的特征向量。这也是实现拉曼光谱批量分析处理的前提条件。
附图说明
图1为本发明实施例的一个i-Raman样本Cubic插值前后的光谱数据(300~400cm-1)。
图2为本发明实施例的含苋菜红的拉曼谱图预处理和特征提取结果。
图3为PT2000数据集的物质识别结果(各物质的识别准确率和假阳性率)。
具体实施方式
以下实施例将结合附图对本发明作进一步说明。
一、谱图预处理:拉曼光谱的数据规整,消除噪音和荧光背景
拉曼光谱样本通常以二维数据的形式表达,其中横坐标是波数,纵坐标是该波数对应的光谱信号强度。由于采样频率不同,不同拉曼仪器样本信号可能存在差异,甚至无法反映同一波数位置的光谱特点。例如,在300cm-1到1700cm-1波数范围中,PT2000仪器的SERS样本谱图含990个信号(采样频率较高),而i-Raman仪器的SERS样本谱图仅含702个信号(采样频率较低)。
为了实现光谱的批量处理,不同仪器采集的SERS谱图数据格式必须进行统一规整。若忽视采样频率和范围的差异,谱图特征提取的误差会严重影响后续的物质识别分类。本发明采用自动的插值算法来实现谱图的数据规整,例如线性插值、最近邻插值和样条插值[18]。以三次样条插值[18](Cubic插值)的自动上采样为典型案例,所得结果如图1所示。由此,PT2000和i-Raman光谱样本的特征提取可在相同采样点上进行(以频率高的采样点为统一标准)。根据调研的情况,自动插值算法首次被用于处理不同拉曼光谱仪器的数据。
本发明的算法不需要针对体系或物质进行参数调优,较好满足了复杂体系下物质自动识别的实际需求。
因此,本发明提出了一种基于自适应超图算法的拉曼光谱物质自动识别方法,可以批量完成拉曼光谱的分析。本发明首先对拉曼光谱进行格式规整并消除其荧光背景,然后对目标物质的标准光谱和待测的光谱进行特征提取,最后使用自适应超图算法对光谱按照目标物质进行分类和识别。这是一个针对拉曼光谱的完整的物质自动识别流程,算法准确,无需人工干预,通用性强,可支持不同拉曼仪器在复杂环境下进行多种痕量物质的检测。
本发明采用自适应超图算法,对拉曼光谱(包括已知样本和待测样本)的进行多目标物质分类,通过迭代优化进行自动建模,并得到所有样本的分类结果。
为了对拉曼光谱进行准确的物质识别,还要尽可能消除不利因素的影响,例如由激光产生的荧光背景(主要因素)、由射线产生的毛刺峰和仪器的固有噪声等。本发明可使用自动的预处理算法[19][20][21],在复杂体系下消除噪音和荧光背景,而不会使拉曼信号受到损失或者产生局部形变。实验证明,自适应扣基线算法[20]可以通过迭代计算而不是人工调整参数的方法准确消除噪音和荧光背景,如图2(上图)。其性能优于Baek算法[21]和多项式拟合算法[22],可与参数优化的商用算法airPLS[5]媲美。
二、谱图特征提取:拉曼光谱的特征表述
对预处理后的SERS谱图进行特征提取,每个谱图的信号特征都被表示成一个等长且取值范围相同的特征向量。首先根据拉曼仪器的有效测量范围,选定一个波数区间。然后借助自动寻峰或扫描算法记录每个拉曼谱图在此区间的采样信号[23],并用定长的特征向量表示。最后,对所有的特征向量进行MIN-MAX归一化处理。实验证明,应用极大极小信号自适应缩放算法[23]能自动有效的提取拉曼峰值信号特征,如图2(下图)。它通过极小值和极大值来划分峰信号的范围,并采用自适应的信号缩放来减少相邻峰之间的影响,对离峰值点越远的部分进行了越大的缩放。这样的做法突出了峰值及其附近的数据的影响,有效消除了峰值信号以外的干扰因素。波数区间可以灵活选取,算法通用性强,适合处理复杂体系的目标物拉曼光谱。
三、物质分类识别:使用自适应超图分类器对SERS样本进行学习和识别分类
本发明把拉曼谱图的物质识别(定性分析)问题转换成机器学习的分类问题,并实现批量处理。首先定义若干目标物质为不同类别,然后根据已知(标准)SERS谱图来训练机器学习分类器,最后使用训练好的分类器确定未知(待测)光谱属于何种类别(识别目标物质)。与常用的基于SVM分类器的分类算法不同,本发明提出的自适应超图算法不需要根据具体体系和目标物质对算法参数进行人工调整。具体流程如下:
步骤1:初始化
定义和初始化输出变量--分类结果矩阵Y,记录N个光谱样本的分类结果,目标物质种数(类别数量)为M。若第j个样本已知属于第i个目标物质,则Y(i,j)=1;若第j个样本为待测样本,则设为0,i=1,…M,and j=1,…N。
步骤2:构造超图的关键矩阵
1.超图的每个顶点对应一个光谱样本(特征向量),顶点个数为N。
2.每个顶点选择距离最近的Ks个顶点作为它的“邻居”,并依此构造超图的超边,存储在矩阵H中。
3.根据公式计算对角矩阵W,W为超边的权重矩阵。
4.根据公式De(j,j)=Ks+1和公式计算对角矩阵De和Dv。De为超边的度矩阵,Dv为顶点的度矩阵。
5.根据公式(1)计算S矩阵,然后得到超图的拉普拉斯矩阵L=I-S,其中I矩阵是一个N×N的单位矩阵。
步骤3:优化
根据自适应超图学习[17],使用优化算法来求解分类问题。具体如下:
1.利用公式(2)更新F矩阵(更新值以*号标注):
2.使用迭代的坐标下降法[17],更新W矩阵。由于W是对角矩阵,采用Wp作为元素W(p,p)的缩写,其中p=1,…N。坐标下降法每次选取一对Wp和Wq(p≠q),根据公式(3)更新数值,直至所有Wp完成更新,其中,
3.使用新的W*矩阵,根据公式(1)更新S矩阵。
步骤4:迭代
对于Y矩阵的每一列Y(:,j),在F*矩阵对应行F*(j,:)中搜索F*(j,:)的最大值,并记下最大值所在位置k*,然后更新最后将算法迭代计数加1,若计数未达到设定的阈值(默认设置为5),则返回步骤2继续计算,否则结束本算法,并输出最终分类结果矩阵Y。
备注:自适应超图分类方法使用近邻数Ks来控制超图的规模:过小的Ks,将影响分类性能;过大的Ks,将造成计算冗余。经过实验证明,将Ks设置为为可以获得很好的性价比,其中N为所有SERS样本的总数。超图算法的重要矩阵列表参见表1。
表1
实验验证:
本发明采用的实验数据(详见表2),均来自于真实环境下的SERS谱图样本,由高意PT2000仪器(光谱范围200~2500cm-1,光谱分辨率8~10cm-1)和必达泰克i-Raman仪器(光谱范围175~2700cm-1,光谱分辨率3.5cm-1)采集。所有谱图采用本发明所述的预处理算法和特征提取方法进行自动处理后,运用超图方法进行物质分类识别。
假设实验数据集针对M个目标物质,含有N个拉曼谱图,其中含有NT个待测谱图,N-NT个物质已知谱图。可使用如下指标来衡量本发明方法的物质识别性能。
1、混淆矩阵R,在机器学习领域也被称为可能性表格或是错误矩阵,用一种特定的矩阵来呈现多分类算法性能的可视化效果[24]。每一个元素R(i,c)统计含有第i种物质的待测谱图被分类到第c种物质的个数,i=1,…,M,c=1,…,M。显然i=c时,在对角线上的元素R(i,i)是物质识别正确的拉曼谱图数目。R的所有元素之和为NT,即
2、第i种物质的识别准确率和假阳性率显然,越高,φi越低,则对该物质的识别性能越好。
总体识别准确率显然是越高越好。SERS实验谱图的列表参见表2。
表2
在PT2000数据集中,M=6,N=950,甜食中采集的356个拉曼谱图作为已知样本(标记目标物质),其余的NT=594个待测拉曼谱图来自其他体系,作为未知样本进行物质分类识别。图3详细记录了各目标物质识别的准确率和混淆矩阵。单个物质的辨识准确率95.7%~100%,总体识别准确率为96.8%。仔细分析原始谱图,发现这些误判皆是低浓度样品,此时谱图信噪比差,现有算法难以准确提取并识别特征峰,因而形成了一定的误判。尽管如此,整体上,现有算法的辨识准确率仍然优于传统方法。因此,本发明可以识别未知体系下的拉曼谱图,而无须为每种物质每个体系准备大量标准谱,特别适用于实际检测中复杂多变的环境体系。
PT2000数据集的物质识别结果(混淆矩阵)参见表3。
表3
在PT2000和i-Raman的混合数据集中(见表2的下划线突出显示部分),选择共同目标物质的拉曼谱图为实验对象,即M=2,N=534。其中,PT2000的426个拉曼光谱标记目标物质,作为训练集合,而NT=112个i-Raman的拉曼谱图作为待测光谱进行物质识别。亮蓝和胭脂红的识别准确率分别为100%和92.9%,总体识别准确率为96.3%,仅有4个i-Raman的胭脂红测试样本被错误的识别为亮蓝。因此,本发明提出的拉曼光谱物质自动识别方法能够自动识别不同仪器采集的拉曼谱图,具有较好的通用性。

Claims (6)

1.基于自适应超图算法的拉曼光谱物质自动识别方法,其特征在于包括以下步骤:
1)谱图预处理;
2)谱图特征提取;
3)物质分类识别。
2.如权利要求1所述基于自适应超图算法的拉曼光谱物质自动识别方法,其特征在于在步骤1)中,所述谱图预处理包括拉曼光谱的数据规整、消除噪音和荧光背景,拉曼光谱样本以二维数据的形式表达。
3.如权利要求1所述基于自适应超图算法的拉曼光谱物质自动识别方法,其特征在于在步骤1)中,实现拉曼光谱的批量处理,不同仪器采集的SERS谱图数据格式进行统一规整,若忽视采样频率和范围的差异,谱图特征提取的误差会严重影响后续的物质识别分类,采用自动的插值算法实现谱图的数据规整,所述自动的插值算法采用线性插值、最近邻插值和样条插值。
4.如权利要求1所述基于自适应超图算法的拉曼光谱物质自动识别方法,其特征在于在步骤2)中,所述谱图特征提取采用拉曼光谱的特征表述,对谱图预处理后的SERS谱图进行特征提取,每个谱图的信号特征都被表示成一个等长且取值范围相同的特征向量;首先根据拉曼仪器的有效测量范围,选定一个波数区间;然后借助自动寻峰或扫描算法记录每个拉曼谱图在此区间的采样信号,并用定长的特征向量表示;最后对所有的特征向量进行MIN-MAX归一化处理。
5.如权利要求1所述基于自适应超图算法的拉曼光谱物质自动识别方法,其特征在于在步骤3)中,所述物质分类识别使用自适应超图分类器对SERS样本进行学习和识别分类,把拉曼谱图的物质识别问题转换成机器学习的分类问题,并实现批量处理;首先定义若干目标物质为不同类别,然后根据已知SERS谱图来训练机器学习分类器,最后使用训练好的分类器确定未知光谱属于何种类别。
6.如权利要求1所述基于自适应超图算法的拉曼光谱物质自动识别方法,其特征在于在步骤3)中,与基于SVM分类器的分类算法不同,提出的自适应超图算法不需要根据具体体系和目标物质对算法参数进行人工调整,具体流程如下:
步骤1:初始化
定义和初始化输出变量--分类结果矩阵Y,记录N个光谱样本的分类结果,目标物质种数为M;若第j个样本已知属于第i个目标物质,则Y(i,j)=1;若第j个样本为待测样本,则设为0,i=1,…M,and j=1,…N;
步骤2:构造超图的关键矩阵
1)超图的每个顶点对应一个光谱样本,即特征向量,顶点个数为N;
2)每个顶点选择距离最近的Ks个顶点作为它的“邻居”,并依此构造超图的超边,存储在矩阵H中;
3)根据公式计算对角矩阵W,W为超边的权重矩阵;
4)根据公式De(j,j)=Ks+1和公式计算对角矩阵De和Dv;De为超边的度矩阵,Dv为顶点的度矩阵;
5)根据公式(1)计算S矩阵,然后得到超图的拉普拉斯矩阵L=I-S,其中I矩阵是一个N×N的单位矩阵:
<mrow> <mi>S</mi> <mo>=</mo> <msubsup> <mi>D</mi> <mi>v</mi> <mrow> <mo>-</mo> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msubsup> <msubsup> <mi>HWD</mi> <mi>e</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msup> <mi>H</mi> <mi>T</mi> </msup> <msubsup> <mi>D</mi> <mi>v</mi> <mrow> <mo>-</mo> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
步骤3:优化
根据自适应超图学习,使用优化算法来求解分类问题,具体如下:
1)利用公式(2)更新F矩阵,更新值以*号标注:
<mrow> <msup> <mi>F</mi> <mo>*</mo> </msup> <mo>=</mo> <mfrac> <mi>&amp;lambda;</mi> <mrow> <mn>1</mn> <mo>+</mo> <mi>&amp;lambda;</mi> </mrow> </mfrac> <msup> <mrow> <mo>(</mo> <mi>I</mi> <mo>-</mo> <mfrac> <mi>S</mi> <mrow> <mn>1</mn> <mo>+</mo> <mi>&amp;lambda;</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>Y</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
2)使用迭代的坐标下降法,更新W矩阵,由于W是对角矩阵,采用Wp作为元素W(p,p)的缩写,其中p=1,…N,坐标下降法每次选取一对Wp和Wq,p≠q,根据公式(3)更新数值,直至所有Wp完成更新,其中,
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msubsup> <mi>W</mi> <mi>p</mi> <mo>*</mo> </msubsup> <mo>=</mo> <mn>0</mn> <mo>,</mo> <msubsup> <mi>W</mi> <mi>q</mi> <mo>*</mo> </msubsup> <mo>=</mo> <msub> <mi>W</mi> <mi>p</mi> </msub> <mo>+</mo> <msub> <mi>W</mi> <mi>q</mi> </msub> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mn>2</mn> <mi>&amp;mu;</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mi>p</mi> </msub> <mo>+</mo> <msub> <mi>W</mi> <mi>q</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <msub> <mi>&amp;theta;</mi> <mi>q</mi> </msub> <mo>-</mo> <msub> <mi>&amp;theta;</mi> <mi>p</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>&amp;le;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>W</mi> <mi>p</mi> <mo>*</mo> </msubsup> <mo>=</mo> <msub> <mi>W</mi> <mi>p</mi> </msub> <mo>+</mo> <msub> <mi>W</mi> <mi>q</mi> </msub> <mo>,</mo> <msubsup> <mi>W</mi> <mi>q</mi> <mo>*</mo> </msubsup> <mo>=</mo> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mn>2</mn> <mi>&amp;mu;</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mi>p</mi> </msub> <mo>+</mo> <msub> <mi>W</mi> <mi>q</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <msub> <mi>&amp;theta;</mi> <mi>p</mi> </msub> <mo>-</mo> <msub> <mi>&amp;theta;</mi> <mi>q</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>&amp;le;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>W</mi> <mi>p</mi> <mo>*</mo> </msubsup> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mi>&amp;mu;</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>W</mi> <mi>p</mi> </msub> <mo>+</mo> <msub> <mi>W</mi> <mi>q</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <msub> <mi>&amp;theta;</mi> <mi>q</mi> </msub> <mo>-</mo> <msub> <mi>&amp;theta;</mi> <mi>p</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <mn>4</mn> <mi>&amp;mu;</mi> </mrow> </mfrac> <mo>,</mo> <msubsup> <mi>W</mi> <mi>q</mi> <mo>*</mo> </msubsup> <mo>=</mo> <msub> <mi>W</mi> <mi>p</mi> </msub> <mo>+</mo> <msub> <mi>W</mi> <mi>q</mi> </msub> <mo>-</mo> <msubsup> <mi>W</mi> <mi>p</mi> <mo>*</mo> </msubsup> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>e</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
3)使用新的W*矩阵,根据公式(1)更新S矩阵;
步骤4:迭代
对于Y矩阵的每一列Y(:,j),在F*矩阵对应行F*(j,:)中搜索F*(j,:)的最大值,并记下最大值所在位置k*,然后更新最后将算法迭代计数加1,若计数未达到设定的阈值,默认设置为5,则返回步骤2继续计算,否则结束本算法,并输出最终分类结果矩阵Y。
CN201710886431.6A 2017-09-27 2017-09-27 基于自适应超图算法的拉曼光谱物质自动识别方法 Pending CN107679569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710886431.6A CN107679569A (zh) 2017-09-27 2017-09-27 基于自适应超图算法的拉曼光谱物质自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710886431.6A CN107679569A (zh) 2017-09-27 2017-09-27 基于自适应超图算法的拉曼光谱物质自动识别方法

Publications (1)

Publication Number Publication Date
CN107679569A true CN107679569A (zh) 2018-02-09

Family

ID=61137040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710886431.6A Pending CN107679569A (zh) 2017-09-27 2017-09-27 基于自适应超图算法的拉曼光谱物质自动识别方法

Country Status (1)

Country Link
CN (1) CN107679569A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108802002A (zh) * 2018-05-08 2018-11-13 华南农业大学 一种快速无损鉴别解除滞育的蚕卵拉曼光谱模型构建方法
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN110197481A (zh) * 2019-05-30 2019-09-03 苏州大学 一种基于大数据分析的石墨烯指纹峰分析方法
CN111375565A (zh) * 2019-09-27 2020-07-07 中国科学院长春光学精密机械与物理研究所 一种垃圾分类方法、系统及终端设备
CN111523582A (zh) * 2020-04-16 2020-08-11 厦门大学 一种基于迁移学习的跨仪器拉曼光谱定性分析方法
CN112666098A (zh) * 2020-11-06 2021-04-16 上海市第八人民医院 夏季肠道传染病致病病原体检测系统
CN113008874A (zh) * 2021-03-11 2021-06-22 合肥工业大学 基于基线校正和谱峰识别提升激光诱导击穿光谱技术定性检测能力的方法
CN114034642A (zh) * 2021-12-08 2022-02-11 重庆大学 基于微环谐振阵列的拉曼光谱片上检测系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103217409A (zh) * 2013-03-22 2013-07-24 重庆绿色智能技术研究院 一种拉曼光谱预处理方法
CN106645091A (zh) * 2017-02-15 2017-05-10 西派特(北京)科技有限公司 基于拉曼光谱的物质定性检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103217409A (zh) * 2013-03-22 2013-07-24 重庆绿色智能技术研究院 一种拉曼光谱预处理方法
CN106645091A (zh) * 2017-02-15 2017-05-10 西派特(北京)科技有限公司 基于拉曼光谱的物质定性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN YU等: "Adaptive Hypergraph Learning and its Application in Image Classification", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
孙锡龙: "等离激元增强拉曼光谱预处理和识别算法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108802002A (zh) * 2018-05-08 2018-11-13 华南农业大学 一种快速无损鉴别解除滞育的蚕卵拉曼光谱模型构建方法
CN108802002B (zh) * 2018-05-08 2020-11-17 华南农业大学 一种快速无损鉴别解除滞育的蚕卵拉曼光谱模型构建方法
CN109142317B (zh) * 2018-08-29 2020-05-08 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN110197481A (zh) * 2019-05-30 2019-09-03 苏州大学 一种基于大数据分析的石墨烯指纹峰分析方法
CN110197481B (zh) * 2019-05-30 2021-04-09 苏州大学 一种基于大数据分析的石墨烯指纹峰分析方法
CN111375565A (zh) * 2019-09-27 2020-07-07 中国科学院长春光学精密机械与物理研究所 一种垃圾分类方法、系统及终端设备
CN111523582A (zh) * 2020-04-16 2020-08-11 厦门大学 一种基于迁移学习的跨仪器拉曼光谱定性分析方法
CN111523582B (zh) * 2020-04-16 2023-05-12 厦门大学 一种基于迁移学习的跨仪器拉曼光谱定性分析方法
CN112666098A (zh) * 2020-11-06 2021-04-16 上海市第八人民医院 夏季肠道传染病致病病原体检测系统
CN113008874A (zh) * 2021-03-11 2021-06-22 合肥工业大学 基于基线校正和谱峰识别提升激光诱导击穿光谱技术定性检测能力的方法
CN113008874B (zh) * 2021-03-11 2022-07-26 合肥工业大学 基于基线校正和谱峰识别提升激光诱导击穿光谱技术定性检测能力的方法
CN114034642A (zh) * 2021-12-08 2022-02-11 重庆大学 基于微环谐振阵列的拉曼光谱片上检测系统及方法
CN114034642B (zh) * 2021-12-08 2023-10-24 重庆大学 基于微环谐振阵列的拉曼光谱片上检测系统及方法

Similar Documents

Publication Publication Date Title
CN107679569A (zh) 基于自适应超图算法的拉曼光谱物质自动识别方法
CN103278464B (zh) 鱼肉检测方法和装置
Deng et al. Field detection and classification of citrus Huanglongbing based on hyperspectral reflectance
CN110717368A (zh) 一种纺织品定性分类方法
CN110232419A (zh) 一种边坡岩石类别自动识别的方法
CN109858477A (zh) 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法
CN110033032B (zh) 一种基于显微高光谱成像技术的组织切片分类方法
CN109632693A (zh) 一种基于blstm-rnn的太赫兹光谱识别方法
CN104990892B (zh) 种子的光谱图像无损鉴别模型建立方法及种子鉴别方法
CN110082298B (zh) 一种基于高光谱图像的小麦品种赤霉病综合抗性鉴定方法
US20220390374A1 (en) Method for extracting raman characteristic peaks employing improved principal component analysis
CN110108644A (zh) 一种基于深度级联森林和高光谱图像的玉米品种鉴别方法
CN108802002B (zh) 一种快速无损鉴别解除滞育的蚕卵拉曼光谱模型构建方法
CN104568824A (zh) 基于可见/近红外光谱的虾类新鲜度等级检测方法及装置
Wu et al. Study on the optimal algorithm prediction of corn leaf component information based on hyperspectral imaging
CN111523587A (zh) 一种基于机器学习的木本植物物种光谱识别方法
CN108663334A (zh) 基于多分类器融合寻找土壤养分光谱特征波长的方法
McCann et al. Novel histogram based unsupervised classification technique to determine natural classes from biophysically relevant fit parameters to hyperspectral data
US20210199643A1 (en) Fluid classification
CN115424006A (zh) 应用于作物表型参数反演的多源多层次数据融合方法
Chen et al. Tea disease spot recognition based on image feature points extraction and matching
Liu et al. A modified feature fusion method for distinguishing seed strains using hyperspectral data
Zhu et al. PlasticNet: Deep learning for automatic microplastic recognition via FT-IR spectroscopy
CN216847431U (zh) 一种自动实现白菜多项指标的综合快速预测装置
Chen et al. Defective kernel detection using a linear colour CCD

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209

RJ01 Rejection of invention patent application after publication