CN109858477A

CN109858477A - 用深度森林在复杂环境中识别目标物的拉曼光谱分析方法

Info

Publication number: CN109858477A
Application number: CN201910104046.0A
Authority: CN
Inventors: 谢怡; 王舒意; 戴平阳; 洪佩怡; 刘国坤; 吴德文
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2019-06-07

Abstract

本发明涉及一种用深度森林在复杂环境中识别目标物的拉曼光谱分析方法，该方法包括：选择多个类别已知的样本，生成样本的拉曼谱图集，并对其中所有的拉曼谱图进行预处理，并把预处理后的拉曼谱图设为原始特征向量；深度森林模型的建立：使用多粒度扫描算法将原始特征向量转换为变换特征向量；样本分为训练集和验证集，通过训练集的样本逐级建立级联森林后，通过验证集的样本进行级联森林性能的判断，直至深度森林模型的分类准确率不再随着级联森林的级数增加而增加时，深度森林模型建立完成；通过深度森林模型对待测物质的拉曼谱图进行分类。本发明能从多种测试体系的拉曼光谱中准确识别所含的目标物质，且具有通用性、可扩展性和可伸缩性。

Description

用深度森林在复杂环境中识别目标物的拉曼光谱分析方法

技术领域

本发明涉及物质识别技术领域，尤其涉及一种用深度森林在复杂环境中识别目标物的拉曼光谱分析方法。

背景技术

随着我国经济建设和社会发展，无论是关系国计民生的食品安全、环境保护、医疗领域，还是支持科技发展的表面科学、分子电子学、材料科学等基础研究，都对先进便捷快速的物质检测技术有重大的需求^[1]。由于通用实验室检测过程复杂耗时长，无法满足实际需求，因此急需研究和开发快速高效、适用性强的分析方法来检测痕量的违规添加剂和污染物，避免此类安全事件的发生。

拉曼光谱是具有分子指纹信息的振动光谱，每种物质都有区别于其他物质的光谱特征。拉曼光谱^[2]以其快速、无损和样品无需制备等特点，在现场快速检测领域脱颖而出。但拉曼光谱的实际采集过程往往会受到如由激光产生的荧光背景、由射线产生的毛刺峰和仪器的固有噪声等许多因素的影响。在现场检测的复杂环境中，不同物质的相邻拉曼峰相互“淹没”的情况时有发生。因此，利用传统的拉曼谱图分析技术(例如将待测谱图与标准谱图进行模板匹配)，往往难以获得满意的结果。

近年涌现了许多优秀的机器学习算法，主要包括支持向量机(SVM)，神经网络和随机森林等，为拉曼谱图分析开拓了新的途径^[3]。基于机器学习的拉曼谱图定性分析方法已被运用于油品检测等应用中。例如文献^[4]《基于拉曼光谱和最小二乘支持向量机的橄榄油掺伪检测方法研究》采用最小二乘SVM模型并进行多重迭代优化，可以对分别掺入了葵花籽油、大豆油和玉米油的橄榄油拉曼光谱样本进行快速分析识别。随机森林算法^[5]在训练样本的选择和决策树的生长过程中引入随机性，降低了树结构分类器的方差，也适合对拉曼光谱谱图进行分类识别。文献^[6]《拉曼光谱的荧光背景扣除及其用于药物聚类分析》将随机森林模型用于对药物样品的拉曼谱图进行聚类分析，准确区分醋酸泼尼松片和格列本脲片2种药物；公开号为CN109142317A的中国发明专利^[7]《一种拉曼光谱物质识别方法》提出了基于随机森林算法的拉曼光谱物质自动识别方法。此外，文献^[8]《PersonalInformation from Latent Fingerprints Using Desorption ElectrosprayIonization Mass Spectrometry and Machine Learning》将梯度提升决策树算法用于对指纹中脂质的拉曼光谱进行识别检测。但现有的机器学习方法可扩展性和通用性不强，特别是在复杂体系下进行物质识别时，往往需要专业人员根据不同的体系及目标物质的光谱特性，对算法参数(如核函数) 进行调整，因此其准确率容易受到复杂环境体系和干扰因素的影响。

最近流行的深度学习，运用卷积神经网络对高维数据进行学习，并通过端到端训练的表征学习发现更好的特征。例如文献^[9]《Deep convolutional neural networks forRaman spectrum recognition:a unified solution》提出基于卷积神经网络的拉曼光谱自动物质识别方法，并在矿物样本数据集中获得较好识别结果。但深度学习网络结构复杂，计算量大，网络参数多，训练性能依赖于超参数的调整和大量的训练数据，在数据集较小的实际应用中难以取得好效果。

发明内容

针对上述问题，本发明旨在提供一种用深度森林在复杂环境中识别目标物的拉曼光谱分析方法，该方法具有通用性、可扩展性和可伸缩性，能从多种测试体系的拉曼光谱中准确识别所含的目标物质。

具体方案如下：

一种用深度森林在复杂环境中识别目标物的拉曼光谱分析方法，包括以下步骤：

S100：选择多个类别已知的样本，生成样本的拉曼谱图集，并对其中所有的拉曼谱图进行预处理，消除影响谱图分析准确度的因素，并把预处理后的拉曼谱图设为原始特征向量；

S200：深度森林模型的建立，包括以下步骤：

S210：使用多粒度扫描算法将样本的原始特征向量转换为变换特征向量；

S220：将样本分为训练集和验证集，通过训练集的样本逐级建立级联森林后，通过验证集的样本进行级联森林性能的判断，直至深度森林模型的分类准确率不再随着级联森林的级数增加而增加时，深度森林模型建立完成；

S300：通过建立的深度森林模型对待测的拉曼谱图样本进行目标物质的分类识别。

进一步的，步骤S100中所述预处理包括消除荧光背景、毛刺峰和噪声中的一种或多种。

进一步的，步骤S100还包括：将预处理后的拉曼谱图集进行特征提取，将原始特征向量更新为提取的特征向量。

进一步的，步骤S210中，设定多粒度扫描算法通过U个滑动窗口进行多粒度扫描，将每个样本的原始特征向量转换为U个变换特征向量D_u，u＝1,…,U。

进一步的，步骤S210具体包括：

S211：设定原始特征向量T为n维，经过U次不同粒度的滑动窗口扫描，其中U≥1，设定第u次扫描的窗口尺寸为K_u，采样步长固定为step，则获得S_u个K_u维的特征向量，u＝1,…,U；

S212：每个特征向量均使用M个森林进行再学习和训练，其中M个森林包含M_c个完全随机森林和M_r个随机森林，设定M个森林中的每个森林均输出一个C维的分类概率向量Y＝{y₁,…,y_C}，其中，C为目标物质的类别数目，y_c表示属于第c类的概率，c＝1,..,C；

S213：将M个森林输出的所有分类概率向量拼接起来，得到U个长度为 M×S_u×C的变换特征向量D_u，u＝1,…,U。

进一步的，步骤S220具体为：

(1)设定级联森林包含多级，每一级包含U个子级，每个子级包含N个森林，其中N个森林包含N_c个完全随机森林和N_r个随机森林，设定每个森林均输出一个C维的分类概率向量Y＝{y₁,…,y_C}，其中，y_c表示属于第c类的概率， c＝1,...,C，设定每一个子级的N×C维增强特征向量由该子级N个森林输出的分类概率向量拼接而成；

(2)通过训练集的样本逐级建立级联森林的过程为：

设定第1级的第1子级的输入为训练集中样本的第一个变换特征向量D₁；

设定第x级的第j子级的增强特征向量与样本的第j个变换特征向量D_j的拼接为第x级的第j+1子级的输入，x＝1,2,...，j＝1,...,U-1；

设定第x级的第U子级的增强特征向量与样本的第U个变换特征向量D_U的拼接为第x+1级的第1子级的输入，x＝1,2,...；

(3)通过验证集的样本判断级联森林性能的方法为：

在每一级生成后，均将验证集中样本的变换特征向量输入级联森林，每个森林输出一个C维的分类概率向量Y＝{y₁,…,y_C}，计算N个森林的分类概率向量平均值设定平均值中值最大的元素对应的类别为预测类别，设定预测类别与样本的实际类别相同的验证样本数目与验证样本的总数目的比值为分类准确率，当分类准确率不再随着级数增加而增加时，级联森林终止训练。

进一步的，级联森林训练终止的判定方法具体为：

设定验证样本集中的样本个数为G，计算验证样本集中预测类别与实际类别相同的样本数目g_x，则x级的深度森林模型的分类准确率为p_x：

判定p_x≤p_x-1，其中x>1，是否成立，如果成立，则级联森林终止训练，否则，继续进行下一级的训练。

进一步的，步骤S300包括：

S310：对待测物质的拉曼谱图进行预处理，并把预处理后的拉曼谱图设为原始特征向量；

S320：使用多粒度扫描算法将待测拉曼谱图的原始特征向量转换为变换特征向量；

S330：通过级联森林输出的N个C维的分类概率向量，计算这些分类概率向量的平均值设定其中最大的元素对应的类别为该待测谱图包含的目标物质的类别。

进一步的，步骤S310中还包括：将预处理后的拉曼谱图集进行特征提取，将原始特征向量更新为提取的特征向量。

本发明采用如上技术方案，并具有有益效果：

(1)、深度森林模型适合于复杂体系的拉曼谱图定性分析和识别目标物质，无需频繁调节模型参数，具有准确率高，通用性强的优点。

(2)、深度森林模型可以根据应用需求和计算资源调整计算复杂度，例如调整表征学习能力的扫描粒度和各森林的决策树数目。

(3)、训练级联森林的机制能自适应地调节生成级数，从而确保深度森林模型可伸缩地应用到不同规模的数据集上，均能取得较好的物质识别准确率。而且，随着检测应用推广和训练数据增多，可以获得更好的检测性能。

附图说明

图1所示为本发明实施例的流程示意图。

图2所示为该实施例中多粒度扫描算法的示意图。

图3所示为该实施例中级联森林的示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

参考图1所示，本发明提供了一种基于深度森林模型的拉曼光谱物质识别方法，包括以下步骤：

S100：选择多个类别已知的样本，生成样本的拉曼谱图集，并对其中所有的拉曼谱图s进行预处理，消除影响谱图分析准确度的因素，并把预处理后的拉曼谱图设为原始特征向量s`。

所述预处理包括消除荧光背景、毛刺峰和噪声等多种因素中的一种或多种，消除的方法采用现有方法即可，如采用基于高斯假设的自动自适应算法^[11]，在复杂体系下利用高斯假设和自适应迭代的思想，得到荧光背景b。然后，将原始拉曼光谱s减去荧光背景b得到预处理后的拉曼谱图s`。本领域技术人员可以自行选择适当的算法进行预处理，如多项式拟合预处理算法^[16][17][18]，利用最小二乘拟合可以计算趋向于拉曼谱图整体趋势的背景曲线。基于求导或滤波的预处理算法，可以根据峰值位置估计拉曼谱图的荧光背景^[19]，或直接用拉曼光谱信号的某阶导数来估计荧光背景^[20]，在此不做限制。

该实施例中，还包括特征向量提取，即：将预处理后的拉曼谱图集进行特征提取，将提取后将每个样本的原始特征向量s`更新为提取的特征向量T。

所述特征提取为将光谱信号强度的序列进行数学表征，例如表示为取值范围相同且维度固定为n的原始特征向量T。该实施例中，特征提取采用如公开号为“CN107818298A”的发明专利中的“用于机器学习物质识别算法的通用拉曼光谱特征提取方法^[12]”进行，本领域技术人员可以采用其他的方法进行提取，如文献^[18][21][22]中的特征提取算法，在此不做限制。

该实施例中，特征提取的主要目的是强化拉曼光谱的峰值信号(例如冲击信号)，并将拉曼光谱的信号强度序列表示成一个特征向量，为下一步使用机器学习算法进行光谱分析打下良好基础。由于很好的保留了峰值信号的位置和强度等信息，特征向量提取可以明显提高拉曼光谱定性分析的准确率。由于特征向量往往归一化到固定的数学空间，因此能降低后续计算的时间和空间代价。

在其他的实施例中，也可以不包含特征提取的步骤，或者使用其他替代特征提取的方法来实现强化拉曼光谱的峰值信号的目的，在此不做限制。

S200：深度森林模型的建立，具体包括以下步骤：

S210：针对训练样本集和验证样本集中的每个样本，使用多粒度扫描 (Multi-Grained Scanning)算法对原始特征向量T进行再学习和表征(本实施例中具体过程件MGS()函数)，获得变换特征向量。

具体过程为：

S211：对输入的n维原始特征向量T进行U次不同粒度的滑动窗口扫描，其中U≥1，设定第u次扫描的窗口尺寸为K_u，采样步长固定为step，则可获得 S_u个K_u维的特征向量，u＝1,…,U。

S212：每个特征向量均用M_c个完全随机森林(Completely-Random Tree Forest)和M_r个随机森林(Random Forest)进行再学习和训练，森林总数 M＝M_c+M_r，M个森林中的每个森林均包含F₁棵决策树。

在完全随机森林^[13]中，每棵决策树在分裂结点随机选取一个特征进行分裂。而在随机森林^[14]中，每棵决策树在分裂结点随机选取一个特征，并通过基尼指数^[15]确定最佳分裂方式。因此，向M个森林中的每个森林输入一个特征向量，均可以输出一个C维的分类概率向量Y＝{y₁,…,y_C}，其中，y_c表示样本属于第c 类目标物质的概率，c＝1,...,C。

S213：将M个森林输出的所有C维的分类概率向量拼接起来，可获得长度为M×S_u×C的变换特征向量(transformed feature vector)D_u，u＝1,…,U。

通过上述步骤，原始特征向量通过使用多尺度的滑动窗口进行多粒度扫描，得到一组更高维的变换特征向量，变换特征向量相较原始特征向量包含更多的特征信息。

伪代码1：多粒度扫描算法MGS()，用⊕表示向量的拼接

图2所示为一个多粒度扫描过程的例子，假设原始特征向量是n＝990维，目标物质类别总数为C＝12，采用U＝2种扫描粒度的滑动窗口。首先使用K₁＝2 的窗口，按照step＝1的步长进行特征扫描，生成了989个2维的特征向量(989 ＝1+(990-2)÷1，公式①)。然后，使用M_c＝1个完全随机森林和M_r＝1个随机森林(即M＝2)训练这些特征向量，则每个森林将生成989个12维的分类概率向量，将所有分类概率向量拼接可获得一个23736维的变换特征向量D₁。类似地使用K₂＝4的窗口，可以获得一个23688维的变换特征向量D₂。

S220：通过训练样本集的样本逐级建立级联森林(Cascade Forest)后，通过验证样本集中的样本进行级联森林性能的判断，直至深度森林模型的分类准确率不再随着级联森林的级数增加而增加时，设定深度森林模型建立完成。

(1)设定级联森林中的每一级包括U个子级，以对应步骤S210中使用多粒度扫描算法生成的U个变换特征向量，每个子级也由N_c个完全随机森林和N_r个随机森林组成，森林总数N＝N_c+N_r，可视作“级联的级联”。

设定级联森林中的每一子级均由N_c个完全随机森林和N_r个随机森林组成，可视作决策树模型“集成的集成”，以保证集成结构的多样性，N个森林中的每个森林均包含F₂棵决策树。

(2)将训练样本集中样本的第一个变换特征向量D₁输入级联森林第一级 CF₁的第1子级。该子级的N个森林输出的分类概率向量进行拼接，形成一个N ×C维的增强特征向量(augmented feature vector)。该增强特征向量与D₁拼接，作为CF₁第2子级的输入。

CF₁第2子级输出的增强特征向量再与样本的第二个变换特征向量D₂拼接，作为CF₁的第3子级的输入，依次类推。如伪代码CFS()所示，在级联森林第x 级CF_x中(x＝1,2,...)，第j子级输出的增强特征向量与样本的第j个变换特征向量D_j拼接，作为第j+1子级的输入(j＝1,...,U-1)。

第U子级输出的增强特征向量与样本的第U个变换特征向量D_U拼接，作为第x+1级CF_x+1的第1子级的输入。

以此类推，可以完成级联森林每一级的建立。

(3)通过验证样本集中的样本进行级联森林性能的判断的方法为：

每生成新的一级CF_x后，均将验证样本集中样本的变换特征向量输入级联森林，最后一个子级的N个森林均输出了一个C维的分类概率向量。

根据N个森林输出的C维的分类概率向量Y＝{y₁,…,y_C}，计算N个分类概率向量中每个元素在N个森林中的平均值并把平均值中值最大的元素(目标物质)对应的类别设为预测类别。

假设验证样本集中有G个光谱样本(已标注实际的类别)，预测类别和标注类别相同的样本即是被正确识别的光谱。若正确识别的样本数目为g_x，则x 级的深度森林模型的分类准确率为p_x：

如果准确率不再随着级数增加而提高，即p_x≤p_x-1，其中x>1，则级联森林终止训练，深度森林模型的构建完成；否则继续训练下一级CF_x+1。级联森林的训练机制能自适应地调节生成级数，从而确保深度森林模型可伸缩地应用到不同规模的数据集上，较好的克服了深度学习模型固定和计算复杂的缺点。因此本发明提出的方法在不同规模的数据集上均能取得较好的物质识别准确率。

伪代码2：级联森林算法CFS()

图3所示为一个级联森林模型建立的过程。首先将图2得到的23736维的变换特征向量D₁输入第一级第1子级(包括N_c＝2个完全随机森林和N_r＝2个随机森林)，每个森林可输出一个C＝12维的分类概率向量，并进行拼接。所得的 48维增强特征向量(48＝4×12)与D₁拼接，可获得23784维(23784＝23736+48) 的向量，并输入第一级第2子级。相似的，第一级第2子级输出的48维增强特征向量与变换特征向量D₂拼接，可获得23736维(23736＝23688+48)的向量，将其输入第二级第1子级，以此类推。每生成一级级联森林，都要用验证集样本进行性能评估。假设此时级联森林训练至x级，则CF_x的第2子级的4个森林均输出了一个12维的分类概率向量，将4个分类概率向量求平均值并找到最大概率的目标物质。

S300：将待测拉曼谱图的原始特征向量输入所建立的深度森林模型，进行目标物质分类识别。

将待测拉曼谱图样本的原始特征向量输入深度森林模型，首先经过多粒度扫描生成变换特征向量，然后通过级联森林获得N个C维的分类概率向量，最后计算这些概率向量平均值并把其中概率最大的那一类别(目标物质)作为识别结果。

具体过程包括：

S310：对待测物质的拉曼谱进行预处理，并把预处理后的拉曼谱图设为原始特征向量。

该实施例中，步骤S310中还包括：将预处理后的拉曼谱图集进行特征提取，将原始特征向量更新为提取的特征向量。

S320：使用多粒度扫描算法将待测拉曼谱图的原始特征向量转换为变换特征向量。

表1所示，为本实施例中的主要变量和参数：

表1

实验验证：

本实验采用的拉曼光谱数据全部来自实际检测环境下的食品样本，由高意PT2000仪器(光谱范围200～2500cm^-1，光谱分辨率8～10cm^-1)采集获得。表2 列出了PT2000拉曼谱图数据集的组成，其中包括6种酸性色素目标(亮蓝、柠檬黄、日落黄、苋菜红、胭脂红和诱惑红)、5种碱性色素目标(碱性橙21、碱性橙22、罗丹明B、碱性橙2和碱性嫩黄O)和不含任何色素的空白谱图(视为空白类别BL)。

表2所示为PT2000拉曼谱图数据集。

表2

所有拉曼谱图均采用自动预处理算法和特征提取方法进行处理后，运用本实施例所述的深度森林模型(具体参数见表3)进行目标物质的分类和识别。在深度森林模型中，随机森林的生成具有随机性。为了消除随机性带来的影响，所有实验在数据集和参数不变的情况下均重复50次。设待测谱图的样本个数为 H，单次实验后待测谱图样本集中预测类别与实际类别相同的样本数目为h，则深度森林模型的单次实验物质识别准确率为p：

50次实验的准确率p的平均值为平均识别准确率。

此外，本发明还使用混淆矩阵^[23]对深度森林模型的物质识别性能进行描述。混淆矩阵第σ行第λ列的元素值统计含有第σ种物质的待测谱图被分类到第λ 种物质的个数，σ＝1,…,C,λ＝1,…,C。显然σ＝λ时，在对角线上的元素值是物质识别正确的拉曼谱图数目。由于所有实验均需重复50次，故仅取其中某次具有代表性的实验结果进行混淆矩阵的绘制。

表3：

参数	取值
		U	2
K<sub>1</sub>	2
		K<sub>2</sub>	4
step	1
		F<sub>1</sub>	101
M<sub>c</sub>	1
		M<sub>r</sub>	1
M	2
		F<sub>2</sub>	500
N<sub>r</sub>	2
		N<sub>c</sub>	2
N	4

实验一：对碱性色素数据集(共457个谱图)进行实验。从中随机选取80％作为物质类别已知的谱图(366个谱图)来训练深度森林模型，其余20％作为目标物质未知的待测样本(91个谱图)。所有目标物质均被准确识别出来，因此平均识别准确率为100％。

实验二：对PT2000拉曼谱图数据集(共1521个谱图)进行实验。从中随机选取80％作为物质类别已知的谱图(1216个谱图)来训练深度森林模型，其余20％作为目标物质未知的的待测样本(304个谱图)。仅有个别实验出现1～2 个待测样本的误判，因此平均识别准确率为99.88％，其中一次实验结果的混淆矩阵见表4。

表4：

实验三：对PT2000拉曼谱图数据集进行实验(共1521个谱图)。用甜食、豆瓣酱和腐竹测试体系中的拉曼谱图样本(共562个)作为已知谱图来训练深度森林模型，而其余体系的样本(共959个)作为目标物质未知的的待测样本。此时，待测光谱样本来自于深度森林模型未知的检测体系/环境，因此有部分实验会出现20个左右的误判光谱样本，平均识别准确率为97.58％。其中一次实验结果的混淆矩阵见表5。

表5：

本发明所提出的拉曼谱图分析方法也可以省略特征提取步骤，即直接把预处理后的拉曼光谱信号强度序列s`，进行深度森林模型的训练构建和物质识别。为了对比，实验四同样对PT2000拉曼谱图数据集进行实验。用甜食、豆瓣酱和腐竹测试体系中的拉曼谱图样本(共562个)作为已知谱图来训练深度森林模型，而其余体系的样本(共959个)作为目标物质未知的待测样本。所有的拉曼谱图完成自动预处理后，直接输入深度森林模型进行训练和物质识别。由于省略了特征提取步骤，相比于包含特征提取步骤的实验结果，物质识别的平均准确率降低至87.35％，低于经过特征提取后的准确率97.58％，其中一次实验结果的混淆矩阵见表6。由此可见，特征提取能够提高物质识别的准确率。

表6：

四个实验的结果表明，本发明能够准确地识别复杂体系中的目标物质，对训练用的已知拉曼谱图的数量和检测体系的种类要求不高。深度森林模型无需根据数据集和测试体系调整算法参数，即能取得满意的物质识别效果，因此具有良好的扩展性和自适应性，特别适用于复杂环境体系中的快速物质识别检测。

该实施例中的深度森林模型首先使用多粒度扫描处理特征向量，并通过随机森林的集成来增强特征表示的再学习效果。然后采用森林级联结构，从前一级输入数据，其输出结果作为下一级的输入。该深度森林模型的优点是训练容易，在大小不同规模的数据集上鲁棒性好；计算复杂度可按照计算资源进行自适应伸缩，便于并行部署来提高效率；更为可贵的是超参数少，模型对超参数调节不敏感，即一套参数可运用到不同数据集。因此，深度森林模型具有良好的通用性、可扩展性和可伸缩性，可以满足快速检测应用中大量拉曼谱图的物质识别要求。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

参考文献

[1] J.Trace analysis-challenges and problems[J].Criticalreviews in analytical chemistry,2002,32(4):271-300.

[2]M.F.Cardinal,E.Vander-Ende,R.A.Hackler,M.O.McAnally,P.C.Stair,G.C.Schatz and R.P.Van Duyne,Chem.Soc.Rev.,2017,46,3886-3903.

[3]M.G.Madden,T.Howley,A Machine Learning application forclassification of chemical spectra[J].Applications and Innovations inIntelligent Systems,2009,56: 77-90

[4]章颖强,董伟,张冰,基于拉曼光谱和最小二乘支持向量机的橄榄油掺伪检测方法研究[J].光谱学与光谱分析,2012,32(6):1554-1558

[5]L.Breiman,Random Forests[J].Machine Learning,2001,45:5-32

[6]陈珊,李晓宁,梁逸曾,拉曼光谱的荧光背景扣除及其用于药物聚类分析[J].光谱学与光谱分析,2010,30(8):2157-2160

[7]谢怡，洪佩怡，戴平阳，王舒意，康怀志，王宇翔，“一种拉曼光谱物质识别方法”，国家发明专利，2018.08.29，公布号：CN109142317A

[8]Zhenpeng Zhou,Richard Zare.PersonalInformation from LatentFingerprints Using Desorption Electrospray Ionization Mass Spectrometry andMachine Learning[J].Analytical Chemistry,2017,89(2).

[9]J.C.Liu,M.Osadchy,L.Ashton,M.Foster,C.J.Solomon,S.J.Gibson,Deepconvolutional neural networks for Raman spectrum recognition:a unifiedsolution[J]. CoRR,2017,abs/1708.09022

[10]Z.H.Zhou and J.Feng,Deep Forest:towards an alternative to deepneural networks[C].Proceedings of the 26th International Joint Conference onArtificial Intelligence,IJCAI 2017,2017,pp.3553-3559

[11]Xie Y,Yang L D,Sun X L,Wu D W,Chen Q Z,Zeng Y M,Liu G K.An auto-adaptive background subtraction method for Raman spectra[J].SpectrochimicaActa Part A:Molecular and Biomolecular Spectroscopy,2016,161(C): 58-63.

[12]谢怡，游乔贝，刘国坤，康怀志，曾勇明，孙锡龙，“用于机器学习物质识别算法的通用拉曼光谱特征提取方法”，国家发明专利，2017.09.27，公布号： CN107818298A

[13]F.T.Liu,K.M.Ting,Y.Yu,and Z.-H.Zhou.Spectrum of variable-randomtrees. Journal of Articial Intelligence Research,32:355-384,2008.

[14]L.Breiman.Random forests.Machine Learning,45(1):5-32,2001.

[15]L.E.Raileanu,K.Stoffel.Theoretical comparison between the giniindex and information gain criteria.Machine Learning,41(1):77-93,2004.

[16]冯昕韡,朱仲良,沈梦洁,丛培盛,基于多项式拟合的拉曼光谱基线漂移校正方法[J].计算机与应用化学,2009,26(6):759-762

[17]覃赵军,陶站华,刘军贤,王桂文,分段式线性拟合校正拉曼光谱基线漂移[J].光谱学与光谱分析,2013,33(2):383-386

[18]孙锡龙,等离激元增强拉曼(PERS)光谱预处理和识别算法的研究[D].厦门大学硕士毕业论文,2014

[19]Z.M.Zhang,S.Chen,Y.Z.Liang,et al.,An intelligent backgroundcorrection algorithm for highly fluorescent samples in Raman spectroscopy[J].Journal of Raman Spectroscopy,2010,41(6):659-669

[20]S.J.Baek,A.Park A,J.Kim,A.G.Shen,J.M.Hu,A simple backgroundelimination method for Raman spectra[J].Chemometrics and IntelligentLaboratory Systems,2009,98(1):24-30

[21]Kyriakides A,Kastanos E,Hadjigeorgiou K,et al.Classification ofRaman spectra using the correlation kernel[J].Journal of Raman Spectroscopy,2011,42(5): 904-909.

[22]章颖强,董伟,张冰,等.基于拉曼光谱和最小二乘支持向量机的橄榄油掺伪检测方法研究[J].光谱学与光谱分析,2012,32(6):1554-1558.

[23]David M W.Evaluation:From Precision,Recall and F-Measure to ROC,Informedness,Markedness&Correlation[J].Journal of Machine LearningTechnologies.2011,2(1):37–63.

Claims

1.一种用深度森林在复杂环境中识别目标物的拉曼光谱分析方法，其特征在于，包括以下步骤：

S200：深度森林模型的建立，包括以下步骤：

2.根据权利要求1所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法，其特征在于：步骤S100中所述预处理包括消除荧光背景、毛刺峰和噪声中的一种或多种。

3.根据权利要求1所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法，其特征在于：步骤S100还包括：将预处理后的拉曼谱图集进行特征提取，将原始特征向量更新为提取的特征向量。

4.根据权利要求1所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法，其特征在于：步骤S210中，设定多粒度扫描算法通过U个滑动窗口进行多粒度扫描，将每个样本的原始特征向量转换为U个变换特征向量D_u，u＝1,…,U。

5.根据权利要求4所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法，其特征在于：步骤S210具体包括：

S213：将M个森林输出的所有分类概率向量拼接起来，得到U个长度为M×S_u×C的变换特征向量D_u，u＝1,…,U。

6.根据权利要求1所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法，其特征在于：步骤S220具体为：

(1)设定级联森林包含多级，每一级包含U个子级，每个子级包含N个森林，其中N个森林包含N_c个完全随机森林和N_r个随机森林，设定每个森林均输出一个C维的分类概率向量Y＝{y₁,…,y_C}，其中，y_c表示属于第c类的概率，c＝1,...,C，设定每一个子级的N×C维增强特征向量由该子级N个森林输出的分类概率向量拼接而成；

(2)通过训练集的样本逐级建立级联森林的过程为：

(3)通过验证集的样本判断级联森林性能的方法为：

7.根据权利要求6所述的用深度森林在复杂环境中识别目标物的拉曼光谱分析方法，其特征在于：级联森林训练终止的判定方法具体为：

8.根据权利要求1所述的拉曼光谱物质识别方法，其特征在于：步骤S300包括：

9.根据权利要求8所述的拉曼光谱物质识别方法，其特征在于：步骤S310中还包括：将预处理后的拉曼谱图集进行特征提取，将原始特征向量更新为提取的特征向量。