CN109858477A - 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法 - Google Patents

用深度森林在复杂环境中识别目标物的拉曼光谱分析方法 Download PDF

Info

Publication number
CN109858477A
CN109858477A CN201910104046.0A CN201910104046A CN109858477A CN 109858477 A CN109858477 A CN 109858477A CN 201910104046 A CN201910104046 A CN 201910104046A CN 109858477 A CN109858477 A CN 109858477A
Authority
CN
China
Prior art keywords
forest
sample
raman spectrum
vector
grade
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910104046.0A
Other languages
English (en)
Inventor
谢怡
王舒意
戴平阳
洪佩怡
刘国坤
吴德文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201910104046.0A priority Critical patent/CN109858477A/zh
Publication of CN109858477A publication Critical patent/CN109858477A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明涉及一种用深度森林在复杂环境中识别目标物的拉曼光谱分析方法,该方法包括:选择多个类别已知的样本,生成样本的拉曼谱图集,并对其中所有的拉曼谱图进行预处理,并把预处理后的拉曼谱图设为原始特征向量;深度森林模型的建立:使用多粒度扫描算法将原始特征向量转换为变换特征向量;样本分为训练集和验证集,通过训练集的样本逐级建立级联森林后,通过验证集的样本进行级联森林性能的判断,直至深度森林模型的分类准确率不再随着级联森林的级数增加而增加时,深度森林模型建立完成;通过深度森林模型对待测物质的拉曼谱图进行分类。本发明能从多种测试体系的拉曼光谱中准确识别所含的目标物质,且具有通用性、可扩展性和可伸缩性。

Description

用深度森林在复杂环境中识别目标物的拉曼光谱分析方法
技术领域
本发明涉及物质识别技术领域,尤其涉及一种用深度森林在复杂环境中识 别目标物的拉曼光谱分析方法。
背景技术
随着我国经济建设和社会发展,无论是关系国计民生的食品安全、环境保 护、医疗领域,还是支持科技发展的表面科学、分子电子学、材料科学等基础 研究,都对先进便捷快速的物质检测技术有重大的需求[1]。由于通用实验室检测 过程复杂耗时长,无法满足实际需求,因此急需研究和开发快速高效、适用性 强的分析方法来检测痕量的违规添加剂和污染物,避免此类安全事件的发生。
拉曼光谱是具有分子指纹信息的振动光谱,每种物质都有区别于其他物质 的光谱特征。拉曼光谱[2]以其快速、无损和样品无需制备等特点,在现场快速检 测领域脱颖而出。但拉曼光谱的实际采集过程往往会受到如由激光产生的荧光 背景、由射线产生的毛刺峰和仪器的固有噪声等许多因素的影响。在现场检测 的复杂环境中,不同物质的相邻拉曼峰相互“淹没”的情况时有发生。因此, 利用传统的拉曼谱图分析技术(例如将待测谱图与标准谱图进行模板匹配),往 往难以获得满意的结果。
近年涌现了许多优秀的机器学习算法,主要包括支持向量机(SVM),神经 网络和随机森林等,为拉曼谱图分析开拓了新的途径[3]。基于机器学习的拉曼谱 图定性分析方法已被运用于油品检测等应用中。例如文献[4]《基于拉曼光谱和最 小二乘支持向量机的橄榄油掺伪检测方法研究》采用最小二乘SVM模型并进行 多重迭代优化,可以对分别掺入了葵花籽油、大豆油和玉米油的橄榄油拉曼光 谱样本进行快速分析识别。随机森林算法[5]在训练样本的选择和决策树的生长过 程中引入随机性,降低了树结构分类器的方差,也适合对拉曼光谱谱图进行分 类识别。文献[6]《拉曼光谱的荧光背景扣除及其用于药物聚类分析》将随机森林 模型用于对药物样品的拉曼谱图进行聚类分析,准确区分醋酸泼尼松片和格列 本脲片2种药物;公开号为CN109142317A的中国发明专利[7]《一种拉曼光谱物 质识别方法》提出了基于随机森林算法的拉曼光谱物质自动识别方法。此外, 文献[8]《PersonalInformation from Latent Fingerprints Using Desorption ElectrosprayIonization Mass Spectrometry and Machine Learning》将梯 度提升决策树算法用于对指纹中脂质的拉曼光谱进行识别检测。但现有的机器 学习方法可扩展性和通用性不强,特别是在复杂体系下进行物质识别时,往往 需要专业人员根据不同的体系及目标物质的光谱特性,对算法参数(如核函数) 进行调整,因此其准确率容易受到复杂环境体系和干扰因素的影响。
最近流行的深度学习,运用卷积神经网络对高维数据进行学习,并通过端 到端训练的表征学习发现更好的特征。例如文献[9]《Deep convolutional neural networks forRaman spectrum recognition:a unified solution》提出基于 卷积神经网络的拉曼光谱自动物质识别方法,并在矿物样本数据集中获得较好 识别结果。但深度学习网络结构复杂,计算量大,网络参数多,训练性能依赖 于超参数的调整和大量的训练数据,在数据集较小的实际应用中难以取得好效 果。
发明内容
针对上述问题,本发明旨在提供一种用深度森林在复杂环境中识别目标物 的拉曼光谱分析方法,该方法具有通用性、可扩展性和可伸缩性,能从多种测 试体系的拉曼光谱中准确识别所含的目标物质。
具体方案如下:
一种用深度森林在复杂环境中识别目标物的拉曼光谱分析方法,包括以下 步骤:
S100:选择多个类别已知的样本,生成样本的拉曼谱图集,并对其中所有 的拉曼谱图进行预处理,消除影响谱图分析准确度的因素,并把预处理后的拉 曼谱图设为原始特征向量;
S200:深度森林模型的建立,包括以下步骤:
S210:使用多粒度扫描算法将样本的原始特征向量转换为变换特征向 量;
S220:将样本分为训练集和验证集,通过训练集的样本逐级建立级联 森林后,通过验证集的样本进行级联森林性能的判断,直至深度森林模型 的分类准确率不再随着级联森林的级数增加而增加时,深度森林模型建立 完成;
S300:通过建立的深度森林模型对待测的拉曼谱图样本进行目标物质的分 类识别。
进一步的,步骤S100中所述预处理包括消除荧光背景、毛刺峰和噪声中的 一种或多种。
进一步的,步骤S100还包括:将预处理后的拉曼谱图集进行特征提取,将 原始特征向量更新为提取的特征向量。
进一步的,步骤S210中,设定多粒度扫描算法通过U个滑动窗口进行多粒 度扫描,将每个样本的原始特征向量转换为U个变换特征向量Du,u=1,…,U。
进一步的,步骤S210具体包括:
S211:设定原始特征向量T为n维,经过U次不同粒度的滑动窗口扫描, 其中U≥1,设定第u次扫描的窗口尺寸为Ku,采样步长固定为step,则获得Su个Ku维的特征向量,u=1,…,U;
S212:每个特征向量均使用M个森林进行再学习和训练,其中M个森林包 含Mc个完全随机森林和Mr个随机森林,设定M个森林中的每个森林均输出一 个C维的分类概率向量Y={y1,…,yC},其中,C为目标物质的类别数目,yc表示 属于第c类的概率,c=1,..,C;
S213:将M个森林输出的所有分类概率向量拼接起来,得到U个长度为 M×Su×C的变换特征向量Du,u=1,…,U。
进一步的,步骤S220具体为:
(1)设定级联森林包含多级,每一级包含U个子级,每个子级包含N个森 林,其中N个森林包含Nc个完全随机森林和Nr个随机森林,设定每个森林均输 出一个C维的分类概率向量Y={y1,…,yC},其中,yc表示属于第c类的概率, c=1,...,C,设定每一个子级的N×C维增强特征向量由该子级N个森林输出的分 类概率向量拼接而成;
(2)通过训练集的样本逐级建立级联森林的过程为:
设定第1级的第1子级的输入为训练集中样本的第一个变换特征向量D1
设定第x级的第j子级的增强特征向量与样本的第j个变换特征向量Dj的拼 接为第x级的第j+1子级的输入,x=1,2,...,j=1,...,U-1;
设定第x级的第U子级的增强特征向量与样本的第U个变换特征向量DU的拼接为第x+1级的第1子级的输入,x=1,2,...;
(3)通过验证集的样本判断级联森林性能的方法为:
在每一级生成后,均将验证集中样本的变换特征向量输入级联森林,每个 森林输出一个C维的分类概率向量Y={y1,…,yC},计算N个森林的分类概率向量 平均值设定平均值中值最大的元素对应的类别为预测类别,设定 预测类别与样本的实际类别相同的验证样本数目与验证样本的总数目的比值为 分类准确率,当分类准确率不再随着级数增加而增加时,级联森林终止训练。
进一步的,级联森林训练终止的判定方法具体为:
设定验证样本集中的样本个数为G,计算验证样本集中预测类别与实际类 别相同的样本数目gx,则x级的深度森林模型的分类准确率为px
判定px≤px-1,其中x>1,是否成立,如果成立,则级联森林终止训练,否 则,继续进行下一级的训练。
进一步的,步骤S300包括:
S310:对待测物质的拉曼谱图进行预处理,并把预处理后的拉曼谱图设为 原始特征向量;
S320:使用多粒度扫描算法将待测拉曼谱图的原始特征向量转换为变换特 征向量;
S330:通过级联森林输出的N个C维的分类概率向量,计算这些分类概率 向量的平均值设定其中最大的元素对应的类别为该待测谱图包含 的目标物质的类别。
进一步的,步骤S310中还包括:将预处理后的拉曼谱图集进行特征提取, 将原始特征向量更新为提取的特征向量。
本发明采用如上技术方案,并具有有益效果:
(1)、深度森林模型适合于复杂体系的拉曼谱图定性分析和识别目标物质, 无需频繁调节模型参数,具有准确率高,通用性强的优点。
(2)、深度森林模型可以根据应用需求和计算资源调整计算复杂度,例如 调整表征学习能力的扫描粒度和各森林的决策树数目。
(3)、训练级联森林的机制能自适应地调节生成级数,从而确保深度森林 模型可伸缩地应用到不同规模的数据集上,均能取得较好的物质识别准确率。 而且,随着检测应用推广和训练数据增多,可以获得更好的检测性能。
附图说明
图1所示为本发明实施例的流程示意图。
图2所示为该实施例中多粒度扫描算法的示意图。
图3所示为该实施例中级联森林的示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容 的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例 的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实 施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
参考图1所示,本发明提供了一种基于深度森林模型的拉曼光谱物质识别 方法,包括以下步骤:
S100:选择多个类别已知的样本,生成样本的拉曼谱图集,并对其中所有 的拉曼谱图s进行预处理,消除影响谱图分析准确度的因素,并把预处理后的拉 曼谱图设为原始特征向量s`。
所述预处理包括消除荧光背景、毛刺峰和噪声等多种因素中的一种或多种, 消除的方法采用现有方法即可,如采用基于高斯假设的自动自适应算法[11],在 复杂体系下利用高斯假设和自适应迭代的思想,得到荧光背景b。然后,将原始 拉曼光谱s减去荧光背景b得到预处理后的拉曼谱图s`。本领域技术人员可以自 行选择适当的算法进行预处理,如多项式拟合预处理算法[16][17][18],利用最小二 乘拟合可以计算趋向于拉曼谱图整体趋势的背景曲线。基于求导或滤波的预处 理算法,可以根据峰值位置估计拉曼谱图的荧光背景[19],或直接用拉曼光谱信 号的某阶导数来估计荧光背景[20],在此不做限制。
该实施例中,还包括特征向量提取,即:将预处理后的拉曼谱图集进行特 征提取,将提取后将每个样本的原始特征向量s`更新为提取的特征向量T。
所述特征提取为将光谱信号强度的序列进行数学表征,例如表示为取值范 围相同且维度固定为n的原始特征向量T。该实施例中,特征提取采用如公开号 为“CN107818298A”的发明专利中的“用于机器学习物质识别算法的通用拉曼 光谱特征提取方法[12]”进行,本领域技术人员可以采用其他的方法进行提取, 如文献[18][21][22]中的特征提取算法,在此不做限制。
该实施例中,特征提取的主要目的是强化拉曼光谱的峰值信号(例如冲击 信号),并将拉曼光谱的信号强度序列表示成一个特征向量,为下一步使用机器 学习算法进行光谱分析打下良好基础。由于很好的保留了峰值信号的位置和强 度等信息,特征向量提取可以明显提高拉曼光谱定性分析的准确率。由于特征 向量往往归一化到固定的数学空间,因此能降低后续计算的时间和空间代价。
在其他的实施例中,也可以不包含特征提取的步骤,或者使用其他替代特 征提取的方法来实现强化拉曼光谱的峰值信号的目的,在此不做限制。
S200:深度森林模型的建立,具体包括以下步骤:
S210:针对训练样本集和验证样本集中的每个样本,使用多粒度扫描 (Multi-Grained Scanning)算法对原始特征向量T进行再学习和表征(本实施例中 具体过程件MGS()函数),获得变换特征向量。
具体过程为:
S211:对输入的n维原始特征向量T进行U次不同粒度的滑动窗口扫描, 其中U≥1,设定第u次扫描的窗口尺寸为Ku,采样步长固定为step,则可获得 Su个Ku维的特征向量,u=1,…,U。
S212:每个特征向量均用Mc个完全随机森林(Completely-Random Tree Forest)和Mr个随机森林(Random Forest)进行再学习和训练,森林总数 M=Mc+Mr,M个森林中的每个森林均包含F1棵决策树。
在完全随机森林[13]中,每棵决策树在分裂结点随机选取一个特征进行分裂。 而在随机森林[14]中,每棵决策树在分裂结点随机选取一个特征,并通过基尼指 数[15]确定最佳分裂方式。因此,向M个森林中的每个森林输入一个特征向量, 均可以输出一个C维的分类概率向量Y={y1,…,yC},其中,yc表示样本属于第c 类目标物质的概率,c=1,...,C。
S213:将M个森林输出的所有C维的分类概率向量拼接起来,可获得长度 为M×Su×C的变换特征向量(transformed feature vector)Du,u=1,…,U。
通过上述步骤,原始特征向量通过使用多尺度的滑动窗口进行多粒度扫描, 得到一组更高维的变换特征向量,变换特征向量相较原始特征向量包含更多的 特征信息。
伪代码1:多粒度扫描算法MGS(),用⊕表示向量的拼接
图2所示为一个多粒度扫描过程的例子,假设原始特征向量是n=990维, 目标物质类别总数为C=12,采用U=2种扫描粒度的滑动窗口。首先使用K1=2 的窗口,按照step=1的步长进行特征扫描,生成了989个2维的特征向量(989 =1+(990-2)÷1,公式①)。然后,使用Mc=1个完全随机森林和Mr=1个随机 森林(即M=2)训练这些特征向量,则每个森林将生成989个12维的分类概率 向量,将所有分类概率向量拼接可获得一个23736维的变换特征向量D1。类似 地使用K2=4的窗口,可以获得一个23688维的变换特征向量D2
S220:通过训练样本集的样本逐级建立级联森林(Cascade Forest)后,通过验 证样本集中的样本进行级联森林性能的判断,直至深度森林模型的分类准确率 不再随着级联森林的级数增加而增加时,设定深度森林模型建立完成。
(1)设定级联森林中的每一级包括U个子级,以对应步骤S210中使用多 粒度扫描算法生成的U个变换特征向量,每个子级也由Nc个完全随机森林和Nr个随机森林组成,森林总数N=Nc+Nr,可视作“级联的级联”。
设定级联森林中的每一子级均由Nc个完全随机森林和Nr个随机森林组成, 可视作决策树模型“集成的集成”,以保证集成结构的多样性,N个森林中的每 个森林均包含F2棵决策树。
(2)将训练样本集中样本的第一个变换特征向量D1输入级联森林第一级 CF1的第1子级。该子级的N个森林输出的分类概率向量进行拼接,形成一个N ×C维的增强特征向量(augmented feature vector)。该增强特征向量与D1拼接, 作为CF1第2子级的输入。
CF1第2子级输出的增强特征向量再与样本的第二个变换特征向量D2拼接, 作为CF1的第3子级的输入,依次类推。如伪代码CFS()所示,在级联森林第x 级CFx中(x=1,2,...),第j子级输出的增强特征向量与样本的第j个变换特征向 量Dj拼接,作为第j+1子级的输入(j=1,...,U-1)。
第U子级输出的增强特征向量与样本的第U个变换特征向量DU拼接,作 为第x+1级CFx+1的第1子级的输入。
以此类推,可以完成级联森林每一级的建立。
(3)通过验证样本集中的样本进行级联森林性能的判断的方法为:
每生成新的一级CFx后,均将验证样本集中样本的变换特征向量输入级联 森林,最后一个子级的N个森林均输出了一个C维的分类概率向量。
根据N个森林输出的C维的分类概率向量Y={y1,…,yC},计算N个分类概 率向量中每个元素在N个森林中的平均值并把平均值中值最大的 元素(目标物质)对应的类别设为预测类别。
假设验证样本集中有G个光谱样本(已标注实际的类别),预测类别和标 注类别相同的样本即是被正确识别的光谱。若正确识别的样本数目为gx,则x 级的深度森林模型的分类准确率为px
如果准确率不再随着级数增加而提高,即px≤px-1,其中x>1,则级联森林终 止训练,深度森林模型的构建完成;否则继续训练下一级CFx+1。级联森林的训 练机制能自适应地调节生成级数,从而确保深度森林模型可伸缩地应用到不同 规模的数据集上,较好的克服了深度学习模型固定和计算复杂的缺点。因此本 发明提出的方法在不同规模的数据集上均能取得较好的物质识别准确率。
伪代码2:级联森林算法CFS()
图3所示为一个级联森林模型建立的过程。首先将图2得到的23736维的 变换特征向量D1输入第一级第1子级(包括Nc=2个完全随机森林和Nr=2个随 机森林),每个森林可输出一个C=12维的分类概率向量,并进行拼接。所得的 48维增强特征向量(48=4×12)与D1拼接,可获得23784维(23784=23736+48) 的向量,并输入第一级第2子级。相似的,第一级第2子级输出的48维增强特 征向量与变换特征向量D2拼接,可获得23736维(23736=23688+48)的向量, 将其输入第二级第1子级,以此类推。每生成一级级联森林,都要用验证集样 本进行性能评估。假设此时级联森林训练至x级,则CFx的第2子级的4个森 林均输出了一个12维的分类概率向量,将4个分类概率向量求平均值并找到最 大概率的目标物质。
S300:将待测拉曼谱图的原始特征向量输入所建立的深度森林模型,进行 目标物质分类识别。
将待测拉曼谱图样本的原始特征向量输入深度森林模型,首先经过多粒度 扫描生成变换特征向量,然后通过级联森林获得N个C维的分类概率向量,最 后计算这些概率向量平均值并把其中概率最大的那一类别(目标 物质)作为识别结果。
具体过程包括:
S310:对待测物质的拉曼谱进行预处理,并把预处理后的拉曼谱图设为原 始特征向量。
该实施例中,步骤S310中还包括:将预处理后的拉曼谱图集进行特征提取, 将原始特征向量更新为提取的特征向量。
S320:使用多粒度扫描算法将待测拉曼谱图的原始特征向量转换为变换特 征向量。
S330:通过级联森林输出的N个C维的分类概率向量,计算这些分类概率 向量的平均值设定其中最大的元素对应的类别为该待测谱图包含 的目标物质的类别。
表1所示,为本实施例中的主要变量和参数:
表1
实验验证:
本实验采用的拉曼光谱数据全部来自实际检测环境下的食品样本,由高意PT2000仪器(光谱范围200~2500cm-1,光谱分辨率8~10cm-1)采集获得。表2 列出了PT2000拉曼谱图数据集的组成,其中包括6种酸性色素目标(亮蓝、柠 檬黄、日落黄、苋菜红、胭脂红和诱惑红)、5种碱性色素目标(碱性橙21、碱 性橙22、罗丹明B、碱性橙2和碱性嫩黄O)和不含任何色素的空白谱图(视 为空白类别BL)。
表2所示为PT2000拉曼谱图数据集。
表2
所有拉曼谱图均采用自动预处理算法和特征提取方法进行处理后,运用本 实施例所述的深度森林模型(具体参数见表3)进行目标物质的分类和识别。在 深度森林模型中,随机森林的生成具有随机性。为了消除随机性带来的影响, 所有实验在数据集和参数不变的情况下均重复50次。设待测谱图的样本个数为 H,单次实验后待测谱图样本集中预测类别与实际类别相同的样本数目为h,则 深度森林模型的单次实验物质识别准确率为p:
50次实验的准确率p的平均值为平均识别准确率。
此外,本发明还使用混淆矩阵[23]对深度森林模型的物质识别性能进行描述。 混淆矩阵第σ行第λ列的元素值统计含有第σ种物质的待测谱图被分类到第λ 种物质的个数,σ=1,…,C,λ=1,…,C。显然σ=λ时,在对角线上的元素值是 物质识别正确的拉曼谱图数目。由于所有实验均需重复50次,故仅取其中某次 具有代表性的实验结果进行混淆矩阵的绘制。
表3:
参数 取值
U 2
K<sub>1</sub> 2
K<sub>2</sub> 4
step 1
F<sub>1</sub> 101
M<sub>c</sub> 1
M<sub>r</sub> 1
M 2
F<sub>2</sub> 500
N<sub>r</sub> 2
N<sub>c</sub> 2
N 4
实验一:对碱性色素数据集(共457个谱图)进行实验。从中随机选取80% 作为物质类别已知的谱图(366个谱图)来训练深度森林模型,其余20%作为目 标物质未知的待测样本(91个谱图)。所有目标物质均被准确识别出来,因此平 均识别准确率为100%。
实验二:对PT2000拉曼谱图数据集(共1521个谱图)进行实验。从中随 机选取80%作为物质类别已知的谱图(1216个谱图)来训练深度森林模型,其 余20%作为目标物质未知的的待测样本(304个谱图)。仅有个别实验出现1~2 个待测样本的误判,因此平均识别准确率为99.88%,其中一次实验结果的混淆 矩阵见表4。
表4:
实验三:对PT2000拉曼谱图数据集进行实验(共1521个谱图)。用甜食、 豆瓣酱和腐竹测试体系中的拉曼谱图样本(共562个)作为已知谱图来训练深 度森林模型,而其余体系的样本(共959个)作为目标物质未知的的待测样本。 此时,待测光谱样本来自于深度森林模型未知的检测体系/环境,因此有部分实 验会出现20个左右的误判光谱样本,平均识别准确率为97.58%。其中一次实验 结果的混淆矩阵见表5。
表5:
本发明所提出的拉曼谱图分析方法也可以省略特征提取步骤,即直接把预 处理后的拉曼光谱信号强度序列s`,进行深度森林模型的训练构建和物质识别。 为了对比,实验四同样对PT2000拉曼谱图数据集进行实验。用甜食、豆瓣酱和 腐竹测试体系中的拉曼谱图样本(共562个)作为已知谱图来训练深度森林模 型,而其余体系的样本(共959个)作为目标物质未知的待测样本。所有的拉 曼谱图完成自动预处理后,直接输入深度森林模型进行训练和物质识别。由于 省略了特征提取步骤,相比于包含特征提取步骤的实验结果,物质识别的平均 准确率降低至87.35%,低于经过特征提取后的准确率97.58%,其中一次实验结 果的混淆矩阵见表6。由此可见,特征提取能够提高物质识别的准确率。
表6:
四个实验的结果表明,本发明能够准确地识别复杂体系中的目标物质,对 训练用的已知拉曼谱图的数量和检测体系的种类要求不高。深度森林模型无需 根据数据集和测试体系调整算法参数,即能取得满意的物质识别效果,因此具 有良好的扩展性和自适应性,特别适用于复杂环境体系中的快速物质识别检测。
该实施例中的深度森林模型首先使用多粒度扫描处理特征向量,并通过随 机森林的集成来增强特征表示的再学习效果。然后采用森林级联结构,从前一 级输入数据,其输出结果作为下一级的输入。该深度森林模型的优点是训练容 易,在大小不同规模的数据集上鲁棒性好;计算复杂度可按照计算资源进行自 适应伸缩,便于并行部署来提高效率;更为可贵的是超参数少,模型对超参数 调节不敏感,即一套参数可运用到不同数据集。因此,深度森林模型具有良好 的通用性、可扩展性和可伸缩性,可以满足快速检测应用中大量拉曼谱图的物 质识别要求。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员 应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式 上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
参考文献
[1] J.Trace analysis-challenges and problems[J].Criticalreviews in analytical chemistry,2002,32(4):271-300.
[2]M.F.Cardinal,E.Vander-Ende,R.A.Hackler,M.O.McAnally,P.C.Stair,G.C.Schatz and R.P.Van Duyne,Chem.Soc.Rev.,2017,46,3886-3903.
[3]M.G.Madden,T.Howley,A Machine Learning application forclassification of chemical spectra[J].Applications and Innovations inIntelligent Systems,2009,56: 77-90
[4]章颖强,董伟,张冰,基于拉曼光谱和最小二乘支持向量机的橄榄油掺伪检测方法研究[J].光谱学与光谱分析,2012,32(6):1554-1558
[5]L.Breiman,Random Forests[J].Machine Learning,2001,45:5-32
[6]陈珊,李晓宁,梁逸曾,拉曼光谱的荧光背景扣除及其用于药物聚类分析[J].光谱学与光谱分析,2010,30(8):2157-2160
[7]谢怡,洪佩怡,戴平阳,王舒意,康怀志,王宇翔,“一种拉曼光谱物质识别 方法”,国家发明专利,2018.08.29,公布号:CN109142317A
[8]Zhenpeng Zhou,Richard Zare.PersonalInformation from LatentFingerprints Using Desorption Electrospray Ionization Mass Spectrometry andMachine Learning[J].Analytical Chemistry,2017,89(2).
[9]J.C.Liu,M.Osadchy,L.Ashton,M.Foster,C.J.Solomon,S.J.Gibson,Deepconvolutional neural networks for Raman spectrum recognition:a unifiedsolution[J]. CoRR,2017,abs/1708.09022
[10]Z.H.Zhou and J.Feng,Deep Forest:towards an alternative to deepneural networks[C].Proceedings of the 26th International Joint Conference onArtificial Intelligence,IJCAI 2017,2017,pp.3553-3559
[11]Xie Y,Yang L D,Sun X L,Wu D W,Chen Q Z,Zeng Y M,Liu G K.An auto-adaptive background subtraction method for Raman spectra[J].SpectrochimicaActa Part A:Molecular and Biomolecular Spectroscopy,2016,161(C): 58-63.
[12]谢怡,游乔贝,刘国坤,康怀志,曾勇明,孙锡龙,“用于机器学习物质识 别算法的通用拉曼光谱特征提取方法”,国家发明专利,2017.09.27,公布号: CN107818298A
[13]F.T.Liu,K.M.Ting,Y.Yu,and Z.-H.Zhou.Spectrum of variable-randomtrees. Journal of Articial Intelligence Research,32:355-384,2008.
[14]L.Breiman.Random forests.Machine Learning,45(1):5-32,2001.
[15]L.E.Raileanu,K.Stoffel.Theoretical comparison between the giniindex and information gain criteria.Machine Learning,41(1):77-93,2004.
[16]冯昕韡,朱仲良,沈梦洁,丛培盛,基于多项式拟合的拉曼光谱基线漂移校 正方法[J].计算机与应用化学,2009,26(6):759-762
[17]覃赵军,陶站华,刘军贤,王桂文,分段式线性拟合校正拉曼光谱基线漂移[J].光谱学与光谱分析,2013,33(2):383-386
[18]孙锡龙,等离激元增强拉曼(PERS)光谱预处理和识别算法的研究[D].厦 门大学硕士毕业论文,2014
[19]Z.M.Zhang,S.Chen,Y.Z.Liang,et al.,An intelligent backgroundcorrection algorithm for highly fluorescent samples in Raman spectroscopy[J].Journal of Raman Spectroscopy,2010,41(6):659-669
[20]S.J.Baek,A.Park A,J.Kim,A.G.Shen,J.M.Hu,A simple backgroundelimination method for Raman spectra[J].Chemometrics and IntelligentLaboratory Systems,2009,98(1):24-30
[21]Kyriakides A,Kastanos E,Hadjigeorgiou K,et al.Classification ofRaman spectra using the correlation kernel[J].Journal of Raman Spectroscopy,2011,42(5): 904-909.
[22]章颖强,董伟,张冰,等.基于拉曼光谱和最小二乘支持向量机的橄榄油掺 伪检测方法研究[J].光谱学与光谱分析,2012,32(6):1554-1558.
[23]David M W.Evaluation:From Precision,Recall and F-Measure to ROC,Informedness,Markedness&Correlation[J].Journal of Machine LearningTechnologies.2011,2(1):37–63.

Claims (9)

1.一种用深度森林在复杂环境中识别目标物的拉曼光谱分析方法,其特征在于,包括以下步骤:
S100:选择多个类别已知的样本,生成样本的拉曼谱图集,并对其中所有的拉曼谱图进行预处理,消除影响谱图分析准确度的因素,并把预处理后的拉曼谱图设为原始特征向量;
S200:深度森林模型的建立,包括以下步骤:
S210:使用多粒度扫描算法将样本的原始特征向量转换为变换特征向量;
S220:将样本分为训练集和验证集,通过训练集的样本逐级建立级联森林后,通过验证集的样本进行级联森林性能的判断,直至深度森林模型的分类准确率不再随着级联森林的级数增加而增加时,深度森林模型建立完成;
S300:通过建立的深度森林模型对待测的拉曼谱图样本进行目标物质的分类识别。
2.根据权利要求1所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法,其特征在于:步骤S100中所述预处理包括消除荧光背景、毛刺峰和噪声中的一种或多种。
3.根据权利要求1所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法,其特征在于:步骤S100还包括:将预处理后的拉曼谱图集进行特征提取,将原始特征向量更新为提取的特征向量。
4.根据权利要求1所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法,其特征在于:步骤S210中,设定多粒度扫描算法通过U个滑动窗口进行多粒度扫描,将每个样本的原始特征向量转换为U个变换特征向量Du,u=1,…,U。
5.根据权利要求4所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法,其特征在于:步骤S210具体包括:
S211:设定原始特征向量T为n维,经过U次不同粒度的滑动窗口扫描,其中U≥1,设定第u次扫描的窗口尺寸为Ku,采样步长固定为step,则获得Su个Ku维的特征向量,u=1,…,U;
S212:每个特征向量均使用M个森林进行再学习和训练,其中M个森林包含Mc个完全随机森林和Mr个随机森林,设定M个森林中的每个森林均输出一个C维的分类概率向量Y={y1,…,yC},其中,C为目标物质的类别数目,yc表示属于第c类的概率,c=1,..,C;
S213:将M个森林输出的所有分类概率向量拼接起来,得到U个长度为M×Su×C的变换特征向量Du,u=1,…,U。
6.根据权利要求1所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法,其特征在于:步骤S220具体为:
(1)设定级联森林包含多级,每一级包含U个子级,每个子级包含N个森林,其中N个森林包含Nc个完全随机森林和Nr个随机森林,设定每个森林均输出一个C维的分类概率向量Y={y1,…,yC},其中,yc表示属于第c类的概率,c=1,...,C,设定每一个子级的N×C维增强特征向量由该子级N个森林输出的分类概率向量拼接而成;
(2)通过训练集的样本逐级建立级联森林的过程为:
设定第1级的第1子级的输入为训练集中样本的第一个变换特征向量D1
设定第x级的第j子级的增强特征向量与样本的第j个变换特征向量Dj的拼接为第x级的第j+1子级的输入,x=1,2,...,j=1,...,U-1;
设定第x级的第U子级的增强特征向量与样本的第U个变换特征向量DU的拼接为第x+1级的第1子级的输入,x=1,2,...;
(3)通过验证集的样本判断级联森林性能的方法为:
在每一级生成后,均将验证集中样本的变换特征向量输入级联森林,每个森林输出一个C维的分类概率向量Y={y1,…,yC},计算N个森林的分类概率向量平均值设定平均值中值最大的元素对应的类别为预测类别,设定预测类别与样本的实际类别相同的验证样本数目与验证样本的总数目的比值为分类准确率,当分类准确率不再随着级数增加而增加时,级联森林终止训练。
7.根据权利要求6所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法,其特征在于:级联森林训练终止的判定方法具体为:
设定验证样本集中的样本个数为G,计算验证样本集中预测类别与实际类别相同的样本数目gx,则x级的深度森林模型的分类准确率为px
判定px≤px-1,其中x>1,是否成立,如果成立,则级联森林终止训练,否则,继续进行下一级的训练。
8.根据权利要求1所述的拉曼光谱物质识别方法,其特征在于:步骤S300包括:
S310:对待测物质的拉曼谱图进行预处理,并把预处理后的拉曼谱图设为原始特征向量;
S320:使用多粒度扫描算法将待测拉曼谱图的原始特征向量转换为变换特征向量;
S330:通过级联森林输出的N个C维的分类概率向量,计算这些分类概率向量的平均值设定其中最大的元素对应的类别为该待测谱图包含的目标物质的类别。
9.根据权利要求8所述的拉曼光谱物质识别方法,其特征在于:步骤S310中还包括:将预处理后的拉曼谱图集进行特征提取,将原始特征向量更新为提取的特征向量。
CN201910104046.0A 2019-02-01 2019-02-01 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法 Pending CN109858477A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910104046.0A CN109858477A (zh) 2019-02-01 2019-02-01 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910104046.0A CN109858477A (zh) 2019-02-01 2019-02-01 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法

Publications (1)

Publication Number Publication Date
CN109858477A true CN109858477A (zh) 2019-06-07

Family

ID=66897464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910104046.0A Pending CN109858477A (zh) 2019-02-01 2019-02-01 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法

Country Status (1)

Country Link
CN (1) CN109858477A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110887798A (zh) * 2019-11-27 2020-03-17 中国科学院西安光学精密机械研究所 基于极端随机树的非线性全光谱水体浊度定量分析方法
CN111476287A (zh) * 2020-04-02 2020-07-31 中国人民解放军战略支援部队信息工程大学 一种高光谱影像小样本分类方法及装置
CN111896497A (zh) * 2020-09-15 2020-11-06 四川长虹电器股份有限公司 一种基于预测值的光谱数据修正方法
CN111931953A (zh) * 2020-07-07 2020-11-13 北京工业大学 一种废旧手机多尺度特征深度森林识别方法
CN112001423A (zh) * 2020-07-29 2020-11-27 暨南大学 Apt恶意软件组织的开集识别方法、装置、设备和介质
CN112161965A (zh) * 2020-09-22 2021-01-01 复旦大学附属妇产科医院 检测中药药性的方法、装置、计算机设备和存储介质
CN112651927A (zh) * 2020-12-03 2021-04-13 北京信息科技大学 一种基于卷积神经网络与支持向量机的拉曼光谱智能识别方法
CN113033827A (zh) * 2021-03-03 2021-06-25 南京大学 一种用于深度森林的训练方法和装置
CN113095188A (zh) * 2021-04-01 2021-07-09 山东捷讯通信技术有限公司 一种基于深度学习的拉曼光谱数据分析方法与装置
CN113435471A (zh) * 2021-05-17 2021-09-24 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 深度特征聚类的高排放移动源污染识别方法及系统
CN113963225A (zh) * 2021-12-23 2022-01-21 季华实验室 目标类别判定方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389295A (zh) * 2013-04-17 2013-11-13 首都医科大学 拉曼光谱数据检测方法
CN107818298A (zh) * 2017-09-27 2018-03-20 厦门大学 用于机器学习物质识别算法的通用拉曼光谱特征提取方法
CN107943704A (zh) * 2017-12-04 2018-04-20 扬州大学 一种基于深度森林网络的软件缺陷预测方法
CN107958255A (zh) * 2017-11-21 2018-04-24 中国科学院微电子研究所 一种基于图像的目标检测方法及装置
CN108229550A (zh) * 2017-12-28 2018-06-29 南京信息工程大学 一种基于多粒度级联森林网络的云图分类方法
CN108319855A (zh) * 2018-02-08 2018-07-24 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于深度森林的恶意代码分类方法
CN108764138A (zh) * 2018-05-29 2018-11-06 南京信息工程大学 一种基于多维多粒度级联森林的高原地区云雪分类方法
CN109102032A (zh) * 2018-09-03 2018-12-28 中国水利水电科学研究院 一种基于深度森林和自编码的泵站机组诊断方法
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN109241987A (zh) * 2018-06-29 2019-01-18 南京邮电大学 基于加权的深度森林的机器学习方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389295A (zh) * 2013-04-17 2013-11-13 首都医科大学 拉曼光谱数据检测方法
CN107818298A (zh) * 2017-09-27 2018-03-20 厦门大学 用于机器学习物质识别算法的通用拉曼光谱特征提取方法
CN107958255A (zh) * 2017-11-21 2018-04-24 中国科学院微电子研究所 一种基于图像的目标检测方法及装置
CN107943704A (zh) * 2017-12-04 2018-04-20 扬州大学 一种基于深度森林网络的软件缺陷预测方法
CN108229550A (zh) * 2017-12-28 2018-06-29 南京信息工程大学 一种基于多粒度级联森林网络的云图分类方法
CN108319855A (zh) * 2018-02-08 2018-07-24 中国人民解放军陆军炮兵防空兵学院郑州校区 一种基于深度森林的恶意代码分类方法
CN108764138A (zh) * 2018-05-29 2018-11-06 南京信息工程大学 一种基于多维多粒度级联森林的高原地区云雪分类方法
CN109241987A (zh) * 2018-06-29 2019-01-18 南京邮电大学 基于加权的深度森林的机器学习方法
CN109142317A (zh) * 2018-08-29 2019-01-04 厦门大学 一种基于随机森林模型的拉曼光谱物质识别方法
CN109102032A (zh) * 2018-09-03 2018-12-28 中国水利水电科学研究院 一种基于深度森林和自编码的泵站机组诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHI-HUA ZHOU 等: "Deep Forest: Towards an Alternative to Deep Neural Networks", 《ARXIV:1702.08835V2 [CS.LG]》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110887798A (zh) * 2019-11-27 2020-03-17 中国科学院西安光学精密机械研究所 基于极端随机树的非线性全光谱水体浊度定量分析方法
CN111476287A (zh) * 2020-04-02 2020-07-31 中国人民解放军战略支援部队信息工程大学 一种高光谱影像小样本分类方法及装置
CN111931953A (zh) * 2020-07-07 2020-11-13 北京工业大学 一种废旧手机多尺度特征深度森林识别方法
CN112001423A (zh) * 2020-07-29 2020-11-27 暨南大学 Apt恶意软件组织的开集识别方法、装置、设备和介质
CN112001423B (zh) * 2020-07-29 2023-11-07 暨南大学 Apt恶意软件组织的开集识别方法、装置、设备和介质
CN111896497B (zh) * 2020-09-15 2022-04-08 四川长虹电器股份有限公司 一种基于预测值的光谱数据修正方法
CN111896497A (zh) * 2020-09-15 2020-11-06 四川长虹电器股份有限公司 一种基于预测值的光谱数据修正方法
CN112161965A (zh) * 2020-09-22 2021-01-01 复旦大学附属妇产科医院 检测中药药性的方法、装置、计算机设备和存储介质
CN112651927A (zh) * 2020-12-03 2021-04-13 北京信息科技大学 一种基于卷积神经网络与支持向量机的拉曼光谱智能识别方法
CN113033827A (zh) * 2021-03-03 2021-06-25 南京大学 一种用于深度森林的训练方法和装置
CN113033827B (zh) * 2021-03-03 2024-03-15 南京大学 一种用于深度森林的训练方法和装置
CN113095188A (zh) * 2021-04-01 2021-07-09 山东捷讯通信技术有限公司 一种基于深度学习的拉曼光谱数据分析方法与装置
CN113435471A (zh) * 2021-05-17 2021-09-24 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 深度特征聚类的高排放移动源污染识别方法及系统
CN113963225A (zh) * 2021-12-23 2022-01-21 季华实验室 目标类别判定方法
CN113963225B (zh) * 2021-12-23 2022-04-26 季华实验室 目标类别判定方法

Similar Documents

Publication Publication Date Title
CN109858477A (zh) 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法
Feilhauer et al. Multi-method ensemble selection of spectral bands related to leaf biochemistry
CN109142317B (zh) 一种基于随机森林模型的拉曼光谱物质识别方法
CN107451614B (zh) 基于空间坐标与空谱特征融合的高光谱分类方法
CN104374738B (zh) 一种基于近红外提高鉴别结果的定性分析方法
CN110717368A (zh) 一种纺织品定性分类方法
CN107818298A (zh) 用于机器学习物质识别算法的通用拉曼光谱特征提取方法
CN109002859B (zh) 基于主成分分析的传感器阵列特征选择和阵列优化方法
CN113378680B (zh) 一种拉曼光谱数据的智能建库方法
CN107679569A (zh) 基于自适应超图算法的拉曼光谱物质自动识别方法
Cai et al. Rapid identification of ore minerals using multi-scale dilated convolutional attention network associated with portable Raman spectroscopy
CN109472287A (zh) 基于二维Gabor小波的三维荧光光谱特征提取方法
CN105528580B (zh) 一种基于吸收峰特征的高光谱曲线匹配方法
CN103208011A (zh) 基于均值漂移和组稀疏编码的高光谱图像空谱域分类方法
CN103955711B (zh) 一种成像光谱目标识别分析中的模式识别方法
Mohtashamian et al. Automated plant species identification using leaf shape-based classification techniques: a case study on Iranian Maples
CN110533102A (zh) 基于模糊推理的单类分类方法以及分类器
CN107203779A (zh) 基于空谱信息保持的高光谱降维方法
Farooque et al. Swin transformer with multiscale 3D atrous convolution for hyperspectral image classification
Sarath et al. A Study on Hyperspectral Remote Sensing
Han et al. Spatial-spectral classification based on the unsupervised convolutional sparse auto-encoder for hyperspectral remote sensing imagery
CN116863327A (zh) 一种基于双域分类器协同对抗的跨域小样本分类方法
Chen et al. Convolutional neural network-based pure paint pigment identification using hyperspectral images
Cai et al. Deep metric learning framework combined with Gramian angular difference field image generation for Raman spectra classification based on a handheld Raman spectrometer
CN113469084B (zh) 基于对比生成对抗网络的高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190607

RJ01 Rejection of invention patent application after publication