CN110210464A

CN110210464A - 一种基于迁移学习的拉曼光谱智能分析方法

Info

Publication number: CN110210464A
Application number: CN201910616759.5A
Authority: CN
Inventors: 洪文晶; 张蕊; 胡勇
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-09-06

Abstract

本发明涉及拉曼光谱技术领域，提供了一种基于迁移学习的拉曼光谱智能分析方法。所述方法包括：在共焦显微拉曼光谱仪上进行拉曼实验；实验拉曼数据的预处理：包括插值处理、基线校正和归一化；大规模标准拉曼数据库的预处理：包括数据增强和插值处理；构建深度学习模型：构建两种广泛应用的深度学习模型DNN和CNN；迁移学习用于实验拉曼数据的分类；数据分析。通过上述方式，解决了深度学习模型对大规模数据的依赖，为未来将拉曼光谱分析技术推向实际应用提供了一个新思路。

Description

一种基于迁移学习的拉曼光谱智能分析方法

技术领域

本发明涉及拉曼光谱技术领域，更具体的说是一种基于迁移学习的拉曼光谱智能分析方法。

背景技术

拉曼光谱技术在实际生产和生活中的应用以物质检测、识别为主。如对油品按所属精炼厂、提炼过程和质量进行分类；对地质矿石进行品种分类；对血液进行分析，诊断病人是否感染登革热等。实验获得的拉曼光谱图通常是通过人工比对的方法进行分析，这一过程不仅耗费大量具有专业知识的人力，还无法保证分类/识别的准确性和时效性。而对于多分类(比如1000个类别)的情况，人工分析的方法将完全失效。因此，发展一种快速、有效的拉曼光谱分析技术将对拉曼光谱的普及带来极大的提升。

目前已经出现大量关于机器学习在拉曼光谱分析中的研究工作，其中在拉曼光谱的多类别分类问题上，深度学习模型通常可以获得优于传统机器学习模型的效果，但深度神经网络严重依赖于训练数据量，涉及到深度学习模型的研究通常采用的是大型数据库作为训练集。在实际应用中研究者通常难以获得大量的实验拉曼光谱数据来训练深度学习模型，这使得小数据量的数据集光谱识别陷入困境。

发明内容

本发明提供了一种基于迁移学习的拉曼光谱智能分析方法，可以有效解决上述问题。

本发明是这样实现的：

一种基于迁移学习的拉曼光谱智能分析方法，包括以下步骤：

S1，在共焦显微拉曼光谱仪上进行拉曼实验，具体步骤如下：取少量药品于载玻片上，用另一载玻片压住，研磨成粉末状；将载玻片取下，换上盖玻片盖住粉末样品；选定一个采谱范围，然后将分段采得的谱图互相重叠一小部分以接成一张宽频谱图；

S2，实验拉曼数据的预处理：包括插值处理、基线校正和归一化；插值采用的是一阶样条曲线法，插值处理后的每组数据代表拉曼位移从200cm^-1到3700cm^-1对应的1100个强度数据点；基线校正采用的是不对称最小二乘平滑法，基线校正后只选取1100个数据点中的前1024个点作为谱图的特征；归一化处理将数据的特征尺度化到[0,1]区间；

S3，大规模标准拉曼数据库的预处理：包括数据增强和插值处理；分别用插值处理和数据增强对两个大规模标准拉曼数据库进行预处理；插值处理采用一阶样条曲线获得从200cm^-1到3700cm^-1的1100个数据点，然后选取前1024个数据点作为样本的特征；数据增强操作包括平移和加噪声，平移是固定拉曼强度序列不变，将拉曼位移增加或减少0～0.6cm^-1，加噪声的具体实现方式是对一条曲线中的每一个点都在X轴和Y轴方向加入一个随机噪声；

S4，构建深度学习模型；构建两种广泛应用的深度学习模型DNN和CNN；DNN网络的层数为7层，前6层网络对应的神经元个数分别为3072、2048、2048、2048、2048和1024；网络最后一层的神经元个数与数据集类别数有关，在预训练时为377而在精调时为72；CNN网络的层数为5层，前3层网络为一维卷积网络，后两层为全连接层，最后一层神经元数在预训练时为1322而在精调时为72；模型的分类准确率由K折交叉验证法来确定，其中K等于3；

S5，迁移学习用于实验拉曼数据的分类；模型搭建好后，首先将预处理后的标准拉曼数据库用于模型的预训练，为了防止过拟合当训练集准确率达到90％时即停止；训练好的模型参数用实验拉曼光谱数据集训练模型时作为初始参数使用；

S6，数据分析；对比迁移学习模型与非迁移学习模型的分类准确性。

作为进一步改进的，对于DNN模型前5层的参数用于迁移，对于CNN模型前2层的参数用于迁移。

作为进一步改进的，所述数据增强用来将数据集中的数据量进行扩充。

本发明的有益效果是：本发明提供了一种在数据量少且类别数多的数据集分类问题上表现优异的迁移学习方法-精调，它能从外部数据中学习规律，在有限的数据环境下充分捕捉同类光谱之间的相似性，解决了深度学习模型对大规模数据的依赖，为未来将拉曼光谱分析技术推向实际应用提供了一个新思路。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的分析方法步骤示意图。

图2为本发明实施的实验拉曼数据预处理操作示意图。

图3为本发明实施例的DNN模型示意图。

图4为本发明实施例的CNN模型示意图。

图5为本发明实施例的基于DNN的迁移学习模型分类准确率示意图。

图6为本发明实施例的基于CNN的迁移学习模型分类准确率示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

参照图1所示，一种基于迁移学习的拉曼光谱智能分析方法,包括以下步骤：

S1.拉曼实验；

本实验在共焦显微拉曼光谱仪上进行，共测试了72种有机物的谱图，具体步骤如下：取少量药品于载玻片上，用另一载玻片压住，研磨成粉末状。将载玻片取下，换上盖玻片盖住粉末样品，以防止测试时粉末溅出污染镜头。为了同时获得较高的光谱分辨率和较宽的光谱范围，采用分段接谱，即先选定一个采谱范围，然后将分段采得的谱图互相重叠一小部分以接成一张宽频谱图。积分时间越长信号越强，因此当信号过饱和时应降低积分时间，反之亦然。本实验设置采谱积分时间为5s，积分次数为1，采谱范围为100-3800cm^-1，分别用532nm，633nm和785nm三种波长的激光照射以获得特征峰尽可能明显、荧光包尽可能弱的光谱图，调整激光功率以获得明显的特征峰，每个样品所用的激光功率不是统一的。

S2.实验拉曼数据的预处理：包括插值处理、基线校正和归一化；

插值采用的是一阶样条曲线法，插值处理后的每组数据代表拉曼位移从200cm^-1到3700cm^-1对应的1100个强度数据点。基线校正采用的是不对称最小二乘平滑法，基线校正后只选取1100个数据点中的前1024个点作为谱图的特征。归一化处理将数据的特征尺度化到[0,1]区间。图2展示了三个预处理步骤后的实验拉曼数据，(a)表示原始光谱，(b)表示插值处理后的光谱，(c)表示基线校正后的光谱，(d)表示归一化后的光谱。

S3.大规模标准拉曼数据库的预处理：包括数据增强和插值处理；

分别用插值处理和数据增强对两个大规模标准拉曼数据库进行预处理。插值处理采用一阶样条曲线获得从200cm^-1到3700cm^-1的1100个数据点，然后选取前1024个数据点作为样本的特征。数据增强操作包括平移和加噪声，平移是固定拉曼强度序列不变，将拉曼位移增加或减少0～0.6cm^-1，加噪声的具体实现方式是对一条曲线中的每一个点都在X轴和Y轴方向加入一个随机噪声。

S4.构建深度学习模型；

构建两种广泛应用的深度学习模型DNN和CNN。DNN网络的层数为7层，前6层网络对应的神经元个数分别为3072、2048、2048、2048、2048和1024。网络最后一层的神经元个数与数据集类别数有关，在预训练时为377而在精调时为72，模型详情见图3。CNN网络的层数为5层，前3层网络为一维卷积网络，后两层为全连接层，最后一层神经元数在预训练时为1322而在精调时为72，模型详情见图4。模型的分类准确率由K折交叉验证法来确定，其中K等于3。

S5.迁移学习用于实验拉曼数据的分类；

模型搭建好后，首先将预处理后的标准拉曼数据库用于模型的预训练，为了防止过拟合当训练集准确率达到90％时即停止。训练好的模型参数用实验拉曼光谱数据集训练模型时作为初始参数使用。

S6.数据分析；

图5显示了基于DNN的迁移学习模型的性能与非迁移学习模型的性能，其中迁移学习模型包括利用有机物数据库和无机物数据库作为源数据库进行预训练两种情形。图中红色虚线代表中位数，绿色三角形表示平均值，盒顶和盒底分别表示前75％和前25％的数值，黑色延长线代表准确率数值范围，且所有准确率结果都是由10次重复实验所获得。从图中可以看出，与非迁移学习模型相比，两种迁移学习模型的分类准确率都有提升，说明本发明涉及到的从标准拉曼光谱数据库到实验拉曼光谱数据集的参数迁移方法有利于提高模型的分类性能。并且与实验拉曼数据不太相似的无机物标准拉曼数据也有利于模型性能的提升，这进一步拓宽了本发明涉及的迁移学习方法的应用场景。图6显示了基于CNN的迁移学习模型和非迁移学习模型的分类准确率，这进一步证明了本发明的迁移学习方法有利于提高用于谱分类的深度学习模型的性能。

以上所述仅为本发明的优选实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于迁移学习的拉曼光谱智能分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的拉曼光谱智能分析方法，其特征在于，对于DNN模型前5层的参数用于迁移，对于CNN模型前2层的参数用于迁移。

3.根据权利要求1所述的拉曼光谱智能分析方法，其特征在于，所述数据增强用来将数据集中的数据量进行扩充。