CN113642629B

CN113642629B - 一种基于随机森林提高谱学分析可信度的可视化方法及装置

Info

Publication number: CN113642629B
Application number: CN202110909855.6A
Authority: CN
Inventors: 刘国坤; 罗思恒; 周志帆; 王维礼; 谢怡; 田中群
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2023-12-08
Anticipated expiration: 2041-08-09
Also published as: CN113642629A

Abstract

本发明公开了一种基于谱学分析的随机森林可视化方法及装置，通过数据增强手段获得更多的训练集，对随机森林模型进行训练。再通过统计随机森林模型决策树上分支节点的基尼系数对特征重要度进行统计排序，并将特征重要度向量与颜色图关联，建立特征重要度向量与颜色图上不同的颜色之间的对应关系，得到颜色图向量；将目标物的谱图作为轮廓，以颜色图向量对轮廓内部进行填充，实现可视化作图。本方法可对随机森林模型中所利用的特征进行溯源，增强模型的可解释性，同时还可以据此对建模方案进行调整，实现模型的进一步优化，对利用随机森林实现快速准确的定性分析具有支撑作用。

Description

一种基于随机森林提高谱学分析可信度的可视化方法及装置

技术领域

本发明涉及光谱分析领域，具体涉及一种基于谱学分析的随机森林可视化方法及装置。

背景技术

谱学分析的分析过程中常遇到许多困难，以拉曼光谱为例，拉曼光谱技术(包括表面增强拉曼光谱等)具有灵敏度高、选择性强、非侵入性且信息量丰富等优点，但同时也由于拉曼光谱灵敏度高的特点，在实际检测中检测所得的信号通常为微环境中的整体信号，其中不仅包含目标物的信息，还包含大量冗余信息，例如环境中杂质以及测试基底的干扰。所以在实际的定性分析，尤其在混合物的定性分析中，这种冗余信息会对定性分析产生严重的阻碍。为解决以上问题，机器学习算法得到了引入。

机器学习通过自主学习数据中的特征来获取“经验”，利用“经验”来完善自身性能的一门科学。具体则是通过数据进行模型的训练，再利用模型来在具体应用中发挥作用。机器学习算法会自适应的提取样本中的有效信息并构筑相关模型，受冗余信息影响小、普适性广且性能强大，在拉曼光谱的定性定量分析中已有广泛的应用，例如Yu Mingxin等人利用拉曼光谱对肿瘤组织(舌鳞状细胞癌)和非肿瘤组织进行信号采集，再结合深度卷积神经网络对其进行精准区分，结果展示出较高的灵敏度和特异性；富荣等人利用红外光谱与机器学习算法SVM以及最小二乘判别分析算法，对掺假蜂蜜进行识别，通过遗传算法、网格搜索法等方法对参数进行调优，最终结果最高正确率可达94.64％；李波霞等人利用近红外光谱技术结合机器学习算法，将采集到的不同产地、不同时期的当归样品数据利用PCA算法进行降维处理，最终利用随机森林算法对样本进行建模及分类，结果显示样品可根据产地或产期进行区分，准确率高达94.85％等。虽模型性能和效果较优，但模型内部的解析仍是难题，无法对模型进行更深入的了解，模型的鲁棒性和泛用性等多个方面均无法得到保障。所以对模型内部的解析，实现模型的可视化是必要的。

随机森林是一个由多棵决策树构成的集成学习类型的分类器，可分为训练模型和模型应用两个部分。在训练模型部分，随机森林的训练实质上是对森林中的决策树进行训练，随机选取(有放回)训练集中的N个样本形成小的训练集，重复M次，并将其用于M颗决策树的训练。在此训练过程中，决策树节点的生长所需的特征也可以是总特征中随机选取的一部分。当面对测试集时，随机森林中的决策树对测试样本进行判别，最终经过统计分析得到最终结果。并且随机森林训练样本中仍旧会残余部分数据——袋外数据(Out ofbagging，OBB)未被使用，在无其他变量的情况下，通过两个样本集在模型的测试情况，实现对模型的精准评估。

为了让模型获得更好的泛用性，需准备数量充足且特征丰富的训练集，例如在混合物的识别中则需要构建多种混合物中不同浓度比例的情况，以供模型提取到更为准确的特征。但是拉曼光谱的采集通常伴随着大量人力物力的投入，其时间成本和物料成本较高，难以满足模型训练的需求。现有的数据增强技术是为了弥补数据样本量不足或不均衡而产生的技术，主要应用领域为图像领域，主要方法有旋转、翻转、移位、比例缩放等，并且在音频信号等二维信号中也能产生一定效果，例如SalamonJustin等人利用深卷积神经网络结合数据增强对环境声这一稀缺样本进行了建模，结果远优于浅层小样本学习方法。但是现有技术中很少公开对拉曼光谱的数据增强。

发明内容

针对现有技术存在的问题。本申请的实施例的目的在于提出了一种基于谱学分析的随机森林可视化方法及装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请的实施例提供了一种基于谱学分析的随机森林可视化方法，包括以下步骤：

S1，获取多个纯物质的谱图，将多个纯物质的谱图进行数据增强，得到训练集；

S2，将训练集输入随机森林模型对随机森林模型进行训练优化，得到训练好的随机森林模型；

S3，将目标物的谱图作为测试集输入训练好的随机森林模型，对训练好的随机森林模型输出的决策树上支点的基尼系数进行统计和归一化，得到特征重要度向量；

S4，将特征重要度向量与颜色图关联，建立特征重要度向量与颜色图上不同的颜色之间的对应关系，得到颜色图向量；以及

S5，将目标物的谱图作为轮廓，以颜色图向量对轮廓内部进行填充，实现可视化作图。

在一些实施例中，步骤S1的数据增强具体包括：

S11，将多个纯物质的谱图进行线性加和生成混合物的模拟谱图，并进行标注；

S12，将多个纯物质的谱图进行整体位移、添加噪声得到纯物质的模拟谱图，并进行标注；以及

S13，将纯物质的模拟谱图和混合物的模拟谱图合并作为训练集。

在一些实施例中，所述谱图包括分子光谱、核磁共振谱和光电子能谱，所述分子光谱包括拉曼光谱、红外光谱、紫外可见光谱。

在一些实施例中，在训练集和测试集中加入低幅度噪声，训练好的随机森林设置为完全随机森林。

在一些实施例中，训练好的随机森林模型中的决策树的数量设置为500棵，重复次数为100次。

在一些实施例中，步骤S3中对训练好的随机森林模型输出的决策树上支点的基尼系数进行统计具体包括：

S31：对训练好的随机森林模型中每个决策树的分支节点的基尼系数进行统计；

S32：对训练好的随机森林模型中各个决策树的基尼系数进行统计。

在一些实施例中，特征重要度向量与目标物的谱图横坐标一致的，最高值为1。

第二方面，本申请的实施例提供了一种基于谱学分析的随机森林可视化装置，包括：

数据增强模块，被配置为获取多个纯物质的谱图，将多个纯物质的谱图进行数据增强，得到训练集；

模型训练模块，被配置为将训练集输入随机森林模型对随机森林模型进行训练优化，得到训练好的随机森林模型；

统计归一化模块，被配置为将目标物的谱图作为测试集输入训练好的随机森林模型，对训练好的随机森林模型输出的决策树上支点的基尼系数进行统计和归一化，得到特征重要度向量；

特征关联模块，被配置为将特征重要度向量与颜色图关联，建立不同的特征重要度向量与颜色图上不同的颜色之间的对应关系，得到颜色图向量；以及

颜色填充模块，被配置为将目标物的谱图作为轮廓，以颜色图向量对轮廓内部进行填充，实现可视化作图。

第三方面，本申请的实施例提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本发明公开了一种基于谱学分析的随机森林可视化方法及装置，通过数据增强获得训练集，并将数据增强后的训练集用于随机森林模型的训练，使用训练优化后的随机森林模型对目标物的谱图进行分析，统计随机森林模型决策树分支过程中各决策分支节点上的基尼系数在各个特征上的分布，生成与目标物的谱图的特征向量长度相等的特征重要度向量。最终将特征重要度向量进行归一化，并将其与颜色关联，将目标物的谱图作为轮廓，特征重要度向量作为填充作图，实现各个特征峰在模型中重要度的标定，实现模型的可视化。数据增强可在仅拥有极少的纯样本情况下，生成数量充足、种类丰富的混合物样本，为最终实现快速准确且适用范围广的实际混合物组分识别提供了基础。随机森林模型优化后可以提高模型的准确率，缩短运行时间。最终训练后的随机森林模型无论是在浓度组成复杂的模拟数据及真实环境下采集所得的数据中均表现良好且稳定，在各个类别上均有较高的准确率。并且通过对随机森林模型的可视化，可以发现其能够精准的捕捉重要特征，与高准确率的结果相匹配。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一个实施例可以应用于其中的示例性装置架构图；

图2为本发明的实施例的基于谱学分析的随机森林可视化方法的流程示意图；

图3为本发明的实施例的Nap、Pyr、Bap的SERS谱图及其三元混合物SERS谱图；

图4为本发明的实施例的基于谱学分析的随机森林可视化方法的随机森林可视化示意图；

图5(a)为本发明的实施例一中采用数据增强模型的准确率的结果图，图5(b)为本发明的实施例一中采用数据增强模型的模型可视化的结果图；图5(c)为对比例一中不采用数据增强模型的准确率的结果图，图5(d)为对比例一中不采用数据增强模型的模型可视化的结果图；

图6(a)为本发明的实施例一的特征分布溯源的结果图，图6(b)为本发明的实施例一的错分样本对比的结果图；

图7(a)为本发明的实施例二中决策树的数量与准确率的变化关系图，图7(b)为本发明的实施例二中决策树的数量较少时模型的可视化的结果图；图7(c)为本发明的实施例二中决策树的数量与特征利用率变化关系图，图7(d)为本发明的实施例二中决策树的数量充足时模型的可视化的结果图；

图8(a)为本发明的实施例三中的完全随机森林和随机森林在正确率上的对比的结果图，图8(b)为本发明的实施例三中的完全随机森林和随机森林在可视化对比的结果图；

图9(a)为本发明的实施例四中的不同程度的噪声对模型准确率影响的结果图，图9(b)为本发明的实施例四中的低水平噪声对模型特征提取的影响的结果图；

图10为本发明的实施例的基于谱学分析的随机森林可视化装置的示意图；

图11是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了可以应用本申请实施例的基于谱学分析的随机森林可视化方法或基于谱学分析的随机森林可视化装置的示例性装置架构100。

如图1所示，装置架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如数据处理类应用、文件处理类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理，生成处理结果。

需要说明的是，本申请实施例所提供的基于谱学分析的随机森林可视化方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应地，基于谱学分析的随机森林可视化装置可以设置于服务器105中，也可以设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下，上述装置架构可以不包括网络，而只需服务器或终端设备。

本申请的实施例涉及的谱学分析所用到的谱图包括分子光谱、核磁共振谱和光电子能谱，分子光谱包括拉曼光谱、红外光谱、紫外可见光谱。下面以拉曼光谱作为示例详细进行介绍，若采用其他种类的谱图，则相应选择对应的训练集和测试集进行构筑。本发明不仅限于随机森林模型，在以决策树为基础的算法中仍可适用，例如深度森林等。

图2示出了本申请的实施例提供的一种基于谱学分析的随机森林可视化方法，包括以下步骤：

在具体的实施例中，步骤S3中对训练好的随机森林模型输出的决策树上支点的基尼系数进行统计具体包括：

首先是基尼系数的统计。基尼系数作为信息不纯度的指标，可以反映出变量所包含的有效信息量的大小，信息量越大的特征在分类过程中的重要性越大。本发明通过对决策树的各个决策支点上特征的基尼系数进行统计，实现该决策树上各个特征重要度的标注，同时针对含有多颗决策树的算法，例如随机森林算法，会将多颗决策树的结果进行进一步统计合并，最终归一化形成与谱图向量长度相等的、最高值为1的特征重要度向量。

第二步，将特征重要度向量与拉曼谱峰关联。本发明将特征重要度向量与颜色图关联，实现特征重要度与颜色之间的一一对应，生成等向量长度的颜色带。进一步，以目标物的完全混合物谱图作为可视化图像中的轮廓，将对应的颜色带进行填充，实现算法的可视化。本申请的实施例以萘(Nap)、芘(Pyr)、苯并芘(Bap)三种物质为例，利用数据增强结合随机森林算法，对三者的任意混合物及纯物质进行区分和组分分析。

首先对三种物质的纯物质的拉曼光谱图的特征进行分析，图3为Bap、Nap、Pyr三者的纯物质的拉曼光谱图。目前对分析存在阻碍的条件主要包含以下两个方面：

(1)三种纯物质样品由于结构上存在相似性，所以在多个位置上存在相同的特征峰，如Bap和Pyr在1240cm^-1处的共有峰以及Bap、Pyr、Nap都在1560cm^-1上的共有特征峰，位置交叠的谱峰难以实现物质的指认。

(2)在实际混合物中，三者物质由于结构上的差异性，在实际混合物中，银纳米粒子表面上三者存在竞争吸附，所以在谱图中各个物质特征峰的相对强度与实际中混合物物质的量会出现不匹配的状况。如图3所示，将三种物质在特征峰的绝对强度接近的浓度下，将其混合。结果如图3中黑线所示，在实际混合物谱图中，Bap位于320cm^-1处的强峰在混合物中表现出微弱的拉曼信号，Nap中位于510cm^-1处的峰在混合物中同样存在信号衰弱的情况。竞争吸附的存在导致部分物质在混合物中表现微弱，所以在实际混合物识别时，竞争吸附也是干扰因素之一。

机器学习训练的过程，实质上是对训练样本的特征进行学习、提取的过程。为进一步确保随机森林模型的正确性和可信度，对已构建好的随机森林模型进行了可视化处理，观察各个特征峰在随机森林模型中的使用情况。

随机森林是由若干决策树组成，随机森林的训练其为多个决策树的生长。决策树的生长则是将样本特征的重要度进行排序，利用其中的主要特征对样本进行二分类，即树的生枝过程，直至训练样本都被明确分类。其中特征重要度的衡量则是通过基尼系数或信息熵判断。无论是基尼系数或是信息熵，都是为了衡量一个随机变量不确定度大小而存在的，换句话来说，就是该变量的信息复杂程度和此变量的重要程度。最终将重要度向量进行归一化，并将其与颜色关联，将实际混合物作为轮廓，特征重要度作为填充作图，结果如图4所示。

下面通过随机森林模型在两个数据集(模拟数据集和实际数据集)上的准确率及模型可视化结果两个方面，对具体条件及参数进行评估和优化，探究不同条件对模型的具体影响。

实施例一

本申请的实施例一中的步骤S1的数据增强步骤具体包括：

实施例一中所用的数据增强则是利用多个纯物质进行线性加和得到模拟混合物的模拟拉曼光谱图，利用模拟混合物的模拟拉曼光谱图对随机森林模型进行训练，实现对实际混合物样本的组分鉴别。随机森林模型可以在不改变任何变量的条件下，同时检测袋外数据和测试集两组数据，来评估模型的拟合程度。在本次建模过程中，检测模型的同样有两组数据，首先将纯物质的模拟拉曼光谱图和混合物的模拟拉曼光谱图作为模拟样本，由于模拟样本的生成具有随机性，含有物质种类和物质浓度都随机改变的混合光谱，对该类复杂的光谱识别可以用于评估模型在实际检测中的泛用性。其次目标物的拉曼光谱图则为实际光谱，对实际光谱的识别，可评估模型在实际复杂环境中的可行性。

在实施例一中，将模拟样本作为训练集，实际样本作为测试集，具体建模结果如图5(a)、5(b)所示。由图5(a)可知，在应用了数据增强的模型中，随着模拟样本的数量的增加，随机森林模型对实际混合物的组分识别率逐渐上升，最终趋于稳定，在两组数据中都可以达到99％以上的准确率，实现高准确率的识别。将模拟样本充足(数量为1600)的稳定模型进行可视化，如图5(b)所示，可以发现随机森林模型对于特征的利用主要集中在部分特征峰上。为更好的观察特征峰的归属和位置，对图5(b)中重要度高的特征峰，在纯物质的拉曼光谱图上进行标注，结果如图5(a)所示，其中重点部分为阴影和虚线标注，其次为虚线标注。由图可知，实施例一所建立的随机森林的模型更倾向捕捉各物质具有独立特征的谱峰，如Pyr位于410cm^-1和590cm^-1处的特征峰、Nap位于340cm^-1处的特征峰以及Bap位于760cm^-1处的特征峰等。并且本申请的实施例也能良好利用交叠谱峰中相对峰强差异较大的区域，用于辅助物质鉴别，如1240cm^-1、1405cm^-1处的谱峰。综上可知，数据增强所构筑的训练集可给予随机森林模型充分的训练，准确获取谱图中的差异信息，并借此对数据进行区分，以在两组数据上达到较高准确率。

将直接训练实际样本，不进行数据增强作为对比例一，将实施例一与对比例一进行比较，将实际样本作为训练集，模拟样本进行测试集，同样通过袋外数据实现对两组数据的监测，结果如图5(c)、(d)所示。从图5(c)中可以看出直接利用实际数据进行训练，虽然在自身的训练集上具有很高的正确率，但是当面对组成更为复杂的测试集，即模拟数据集时，其正确率大幅下滑，甚至出现了低于50％的情况。并且从图5(d)中可以看出对比例一的模型对特征未能实现有效捕捉，特征重要度分布无序。

为进一步探究其真实性，将同类的实际样品中的光谱与模型错分的光谱进行比对，结果如图6(b)所示，可以发现两者的特征峰在位置上差异微小，仅在相对强度上存在差异，证明两类光谱的差异主要体现在物质的浓度差异。在此种情况下，模型识别模拟混合物的正确率低，说明该模型的泛用性存在问题。模型的训练集则是导致其泛用性存在问题的根本原因，实际样本由于获取样本的成本较高，其中所包含的样本集数量和种类都存在限制。综上可知，数据增强带来了更加充分的数据用于训练，在此条件下与直接利用小样本实际数据训练相比，效果更佳。在实施例一中，数据增强的引入，可在仅拥有极少的纯样本情况下，生成数量充足、种类丰富的混合物样本，为最终实现快速准确且适用范围广的实际混合物组分识别提供了基础。

实施例二

随机森林模型中最主要的参数就是随机森林模型中决策树的数量，决策树的数量对模型的准确率、运行时间等方面有着极大影响。通常情况下，随机森林模型中的决策树在时间可以接受的情况下，数量越多，拟合效果越好。同样，实施例二对树的数量对随机森林模型的影响进行了探究。

首先针对决策树的数量与正确率的关系的结果如图7(a)所示，可以明显观察到随着决策树的增加，随机森林模型在两组数据上的拟合程度逐步增加，并且保持稳定。进一步，在决策树的数量不同时，分别对随机森林模型实现可视化，并以15棵树(图7(b))和500棵决策树(图7(d))的模型为例，可发现决策树的数量改变并不会影响随机森林模型对特征的选择倾向，如图中图7(b)与图7(d)中在340、405、590cm^-1等特征峰上均呈现高重要度。决策树的数量变动主要影响被利用的特征数量。为突出其变化，将被利用特征在总特征上的数量占比与决策树的数量变化关系作图如图7(c)所示，可清晰观察到决策树的数量与随机森林模型利用的特征数呈现正比例变化关系。综上可知，决策树的数量的增加，被随机森林模型所利用的特征数量会随之增加，但随机森林模型对特征选取的倾向不会发生改变。

实施例三

随机森林中决策树用于节点生长的特征是所有特征中随机一部分或是所有特征，分别对应着两种不同的随机森林，即随机森林和完全随机森林。针对两种随机森林，实施例三种从准确率和可视化模型入手，探究其对模型的影响，结果如图8所示。

首先，在正确率方面，结果如图8(a)所示，随机森林和完全随机森林在模拟样本上差异不大，随着树的增加，随机森林均能达到很好的拟合效果。而在实际样本上，随着树的增加，完全随机森林可更快的达到一个较好的拟合效果，在树的数量相同的情况下，完全随机森林的准确率均领先于随机森林。针对这一现象，我们将树的数量为500的随机森林可视化，与之前的结果进行比对，结果如图8(b)所示。可以发现，随机森林对局部的特征有着更好的提取，例如随机森林对1240cm^-1、1405cm^-1等处的特征峰的提取更加完整，但在局部特征并不是差异最大的特征，所以对准确率产生影响。综上可知，随机森林和完全随机森林相比，主要差异是在特征捕获上，随机森林对次要差异特征捕捉和利用更多，完全随机森林中主要差异特征占比更多，相比之下，完全随机森林的对特征的选取倾向稳定，所构建的模型的准确率和稳定性都优于随机森林。

实施例四

噪声是拉曼光谱分析中的重大障碍，需要针对噪声信号对本模型的影响展开研究，结果如图9所示。首先，将人工生成的高、中、低幅度的高斯白噪声加入训练集和测试集中，观察模型准确率的变化。如图9(a)所示，模型准确率伴随高斯噪声的幅值增加而下降，进一步，将低噪声的模型可视化，观察其特征分布，结果如图9(b)所示。由图可知，噪声的加入，用于建模的特征数量出现显著减少，模型提取特征的难度增加，进而影响模型准确率，并且与噪声的幅值呈正相关。即噪声幅值越大，模型对特征的提取难度增加，特征利用率降低，最终导致模型的准确率降低。同时本方法对幅度低的噪声有一定容忍度，在低幅度噪声存在时仍能保持接近90％的准确率。

综合实施例一至实施例四的结果，经过条件优化后，随机森林模型的最优条件如下：

1)数据增强将训练集数据扩增为由3种纯物质的单张谱图及对应空白样扩增至每种样品400个；

2)随机森林设置为完全随机森林，即决策树生长时选取全部特征进行生长；随机森林的树的数量设置为500颗。

进一步，为了消除随机森林随机性的干扰，我们将随机森林重复次数为100次，并且将结果统计如表4所示。由表4可知，随机森林模型无论是在浓度组成复杂的模拟数据及真实环境下采集所得的数据中均表现良好且稳定，在各个类别上均有较高的准确率。并且通过对随机森林模型的可视化，可以发现其能够精准的捕捉重要特征，与高准确率的结果相匹配。总的来说，本发明凭少量纯物质谱图构建的高准确率模型，特征捕捉精确且模型泛用性良好，具有一定的实际应用价值。

表1各样本集的识别准确率

进一步参考图10，作为对上述各图所示方法的实现，本申请提供了一种基于谱学分析的随机森林可视化装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

本申请的实施例提供了一种基于谱学分析的随机森林可视化装置，包括：

数据增强模块1，被配置为获取多个纯物质的谱图，将多个纯物质的谱图进行数据增强，得到训练集；

模型训练模块2，被配置为将训练集输入随机森林模型对随机森林模型进行训练优化，得到训练好的随机森林模型；

统计归一化模块3，被配置为将目标物的谱图作为测试集输入训练好的随机森林模型，对训练好的随机森林模型输出的决策树上支点的基尼系数进行统计和归一化，得到特征重要度向量；

特征关联模块4，被配置为将特征重要度向量与颜色图关联，建立不同的特征重要度向量与颜色图上不同的颜色之间的对应关系，得到颜色图向量；以及

颜色填充模块5，被配置为将目标物的谱图作为轮廓，以颜色图向量对轮廓内部进行填充，实现可视化作图。

本发明提出了一种基于谱学分析的随机森林可视化方法及装置用于混合物的物质识别，并且以多环芳烃的三元混合物为例，从随机森林模型的准确率和模型的可视化两个方面，对方法的条件进行探究和优化以及方法的效果进行评估，得到了以下结论：

(1)数据增强的方法在用于混合物识别时，能够给模型提供更加丰富、有效的数据，让模型的拟合程度达到理想水平，并有效提高模型的泛用性和稳定性。与直接训练相比，该模型在浓度比例复杂的模拟样本和环境复杂的实际样本中均能取得较高的准确率。并且，在模型可视化过程中发现该模型在特征利用的有效性高，利用的特征为三类物质独立的特征。

(2)随机森林中的主要参数包括随机森林中决策树的数量、完全随机森林和普通随机森林等，这些参数对于模型都会产生不同的影响。决策树的数量主要影响的是建模所用特征的数量，二者呈现正比关系，但决策树的数量并不会影响特征选取的倾向。相反，完全随机森林和随机森林中，主要影响的则是模型对特征选取的倾向。随机森林更倾向捕捉谱图的局部特征，建立的模型在在准确率上低于完全随机森林。

综上所述，本发明在多环芳烃的体系中基本实现了高准确率、强解释性、低成本的混合物快速识别，为混合物定性分析提供了一种全新的思路。

下面参考图11，其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置1100的结构示意图。图11示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机装置1100包括中央处理单元(CPU)1101和图形处理器(GPU)1102，其可以根据存储在只读存储器(ROM)1103中的程序或者从存储部分1109加载到随机访问存储器(RAM)1104中的程序而执行各种适当的动作和处理。在RAM 1104中，还存储有装置1100操作所需的各种程序和数据。CPU 1101、GPU1102、ROM 1103以及RAM 1104通过总线1105彼此相连。输入/输出(I/O)接口1106也连接至总线1105。

以下部件连接至I/O接口1106：包括键盘、鼠标等的输入部分1107；包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分1108；包括硬盘等的存储部分1109；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1110。通信部分1110经由诸如因特网的网络执行通信处理。驱动器1111也可以根据需要连接至I/O接口1106。可拆卸介质1112，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1111上，以便于从其上读出的计算机程序根据需要被安装入存储部分1109。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1110从网络上被下载和安装，和/或从可拆卸介质1112被安装。在该计算机程序被中央处理单元(CPU)1101和图形处理器(GPU)1102执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取多个纯物质的谱图，将多个纯物质的谱图进行数据增强，得到训练集；将训练集输入随机森林模型对随机森林模型进行训练优化，得到训练好的随机森林模型；将目标物的谱图作为测试集输入训练好的随机森林模型，对训练好的随机森林模型输出的决策树上支点的基尼系数进行统计和归一化，得到特征重要度向量；将特征重要度向量与颜色图关联，建立特征重要度向量与颜色图上不同的颜色之间的对应关系，得到颜色图向量；将目标物的谱图作为轮廓，以颜色图向量对轮廓内部进行填充，实现可视化作图。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于谱学分析的随机森林可视化方法，其特征在于，包括以下步骤：

S1，获取多个纯物质的谱图，将所述多个纯物质的谱图进行数据增强，得到训练集；

S2，将所述训练集输入随机森林模型对所述随机森林模型进行训练优化，得到训练好的随机森林模型；

S3，将目标物的谱图作为测试集输入所述训练好的随机森林模型，对所述训练好的随机森林模型输出的决策树上支点的基尼系数进行统计和归一化，得到特征重要度向量；

S4，将所述特征重要度向量与颜色图关联，建立所述特征重要度向量与所述颜色图上不同的颜色之间的对应关系，得到颜色图向量；以及

S5，将所述目标物的谱图作为轮廓，以所述颜色图向量对所述轮廓内部进行填充，实现可视化作图。

2.根据权利要求1所述的基于谱学分析的随机森林可视化方法，其特征在于，所述步骤S1的数据增强具体包括：

S11，将所述多个纯物质的谱图进行线性加和生成混合物的模拟谱图，并进行标注；

S12，将所述多个纯物质的谱图进行整体位移、添加噪声得到纯物质的模拟谱图，并进行标注；以及

S13，将所述纯物质的模拟谱图和所述混合物的模拟谱图合并作为训练集。

3.根据权利要求1所述的基于谱学分析的随机森林可视化方法，其特征在于，所述谱图包括分子光谱、核磁共振谱和光电子能谱，所述分子光谱包括拉曼光谱、红外光谱、紫外可见吸收光谱。

4.根据权利要求1所述的基于谱学分析的随机森林可视化方法，其特征在于，在所述训练集和测试集中加入低幅度噪声，所述训练好的随机森林设置为完全随机森林。

5.根据权利要求1所述的基于谱学分析的随机森林可视化方法，其特征在于，所述训练好的随机森林模型中的决策树的数量设置为500棵，重复次数为100次。

6.根据权利要求1所述的基于谱学分析的随机森林可视化方法，其特征在于，所述步骤S3中对所述训练好的随机森林模型输出的决策树上支点的基尼系数进行统计具体包括：

S31：对所述训练好的随机森林模型中每个决策树的分支节点的基尼系数进行统计；

S32：对所述训练好的随机森林模型中各个决策树的基尼系数进行统计。

7.一种基于谱学分析的随机森林可视化装置，其特征在于，包括：

数据增强模块，被配置为获取多个纯物质的谱图，将所述多个纯物质的谱图进行数据增强，得到训练集；

模型训练模块，被配置为将所述训练集输入随机森林模型对所述随机森林模型进行训练优化，得到训练好的随机森林模型；

统计归一化模块，被配置为将目标物的谱图作为测试集输入所述训练好的随机森林模型，对所述训练好的随机森林模型输出的决策树上支点的基尼系数进行统计和归一化，得到特征重要度向量；

特征关联模块，被配置为将所述特征重要度向量与颜色图关联，建立不同的所述特征重要度向量与所述颜色图上不同的颜色之间的对应关系，得到颜色图向量；以及

颜色填充模块，被配置为将所述目标物的谱图作为轮廓，以所述颜色图向量对所述轮廓内部进行填充，实现可视化作图。

8.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。