CN116858822A

CN116858822A - 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法

Info

Publication number: CN116858822A
Application number: CN202311077261.9A
Authority: CN
Inventors: 周丽华; 曾慧; 袁勇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-10-10

Abstract

本发明公开了一种基于机器学习结合拉曼光谱的磺胺嘧啶水体环境中的定量分析方法，旨在提供了一种简易的机器学习算法来定量水体中微量的磺胺嘧啶；本发明数据集较易获得，建立的定量方法拟合程度较好，可达到痕量检测并预测磺胺嘧啶浓度的目的；本发明包括以下步骤：标注测得磺胺嘧啶的拉曼光谱浓度的数据标签，拉曼光谱数据预处理、归一化；建立了一个基于梯度提升决策树(GBDT)的机器学习回归预测模型；该模型实现了在江水和废水中的微量磺胺嘧啶的浓度预测，也获得了较高的拟合优度；通过测试不同浓度和多种背景下的磺胺嘧啶的拉曼光谱数据，建立一个与浓度相关的拉曼光谱数据集；将数据导入机器学习模型中，通过调试机器学习模型中的参数，达到磺胺嘧啶的拉曼光谱的微量分析与预测；涉及机器学习与拉曼光谱数据分析领域。

Description

一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法

技术领域

本专利涉及拉曼光谱数据分析领域，尤其涉及一种基于机器学习的抗生素药物的拉曼光谱数据的磺胺类药物的定量分析方法。

背景技术

拉曼光谱(Raman spectroscopy，RS)是一种间接测量样品内部振动状态的光谱方法。拉曼光谱仪广泛应用于分析化学、生命科学、材料科学和环境科学。拉曼光谱可以用于分析环境中的污染物。例如，可以使用拉曼光谱来研究空气中的颗粒物、水中的有机物等。拉曼光谱信号中含有丰富的分子指纹信息，需要结合数据统计方法对锋位、峰值和谱带光谱特征进行分析，进而识别探测的物质属性。然而，拉曼光谱信息中常常伴有强荧光背景噪声和外界环境干扰信息，同时，由于不同拉曼光谱检测设备性能问题，探测的同类型物质拉曼光谱信息具有一定的差异性，因此，对物质拉曼光谱数据分析具有一定的影响，降低了物质识别的准确度。因此，拉曼光谱分析具有挑战性，需要基于机器学习的化学计量模型进行分析。机器学习在拉曼光谱数据的预处理和建模方面表现优秀；机器学习模型能够对拉曼光谱特征信息进行分析，分析影响模型预测的主要特征，有利于光谱数据的挖掘，并且能应用于各种类型的拉曼光谱数据。

发明内容

本发明的目的一是解决由于同类型物质拉曼光谱数据具有差异性造成的拉曼光谱识别准确率低问题；目的二是解决由于环境干扰造成的物质拉曼光谱识别准确率低问题；

目的三解决低浓度下拉曼光谱定量能力差的问题。

基于以上三个目的，本发明提供一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法。

为此，本发明提供的技术方案是这样的：

一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法，依次包括下述步骤：

1)采集各种环境条件下磺胺嘧啶拉曼光谱数据，测定不同浓度和各种环境条件下的水中的磺嘧啶的拉曼光谱数据，分析其峰位置、峰强度、谱带空间位置的特征信息，建立不同浓度和各种环境条件下的磺胺类药物拉曼光谱数据集；

2)对测试的物质拉曼光谱进行平滑和去基线，使用Savitzky-Golay滤波拟合法提高光谱的平滑性，使用airPLS进行基线校正；

3)根据分析的磺胺嘧啶的拉曼光谱信息，标注拉曼光谱数据浓度数据标签，采用数据增强方法增加对应物质拉曼光谱数据样本量和数据多样性，将建立的拉曼光谱数据集划分训练集、验证集与测试集；使用训练集训练该分类模型，使用验证集对模型的超参数进行调整；使用测试集测试该模型性能。

4)构建基于GBDT算法的机器学习模型，在该模型中提取拉曼光谱的主要特征信息，根据提取的特征进行特征分析，分析影响模型预测的重要特征；利用训练集训练GBDT模型，验证集对训练网络进行评估与调参；使用测试集测试GBDT模型性能，并输出物质拉曼光谱分析结果。

进一步的，上述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法，步骤2)采用下述程序实现的：

进一步的，上述的一种基于机器学习和拉曼光谱的磺胺嘧啶定量分析方法，所述的采用数据采集方法为：(1)在溶液中设置浓度梯度测试拉曼光谱；(2)采集了各种环境条件下的磺胺嘧啶拉曼光谱数据。

进一步的，上述的一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法，所述的采用数据增强方法具体如下：

1)合成表面增强拉曼光谱的基底，设置抗生素药物的浓度梯度为：0.5mg/L，0.45mg/L，0.4mg/L，0.35mg/L，0.3mg/L，0.25mg/L，0.2mg/L，0.15mg/L，0.1mg/L，0.08mg/L，0.06mg/L，0.04mg/L，0.02mg/L，0.01mg/L，0.05mg/L，0.01mg/L，0.005mg/L的磺胺嘧啶溶液，采集其拉曼光谱作为数据集的一部分。

2)采集的各种环境条件下的磺胺嘧啶拉曼光谱数据包括珠江江水中的磺胺嘧啶拉曼光谱数据和珠江啤酒废水厂中的磺胺嘧啶拉曼光谱数据。

进一步的，上述的一种基于机器学习和拉曼光谱的磺胺嘧啶的磺胺嘧啶的定量分析方法，步骤4)具体为：

1)构建的关于浓度的磺胺嘧啶拉曼光谱数据分析模型主要采用了GBDT算法作为回归预测模型，在该回归模型中，使用了特征重要性分析，分析了对磺胺嘧啶浓度预测影响最大的20个重要特征；

2)使用GBDT机器学习模型预测磺胺嘧啶的浓度时，每一轮的迭代时对每个样本都会有一个预测值，此时的损失函数为均方差损失函数：

损失函数的负梯度计算如下：

y_i代表真实值，代表预测值；

初始化弱学习器：

对m＝1，2，...，M有：

对每个样本i＝1，2，...，M，计算负梯度，即残差

将上一步得到的残差作为样本新的真实值，并将数据(x_i，r_im)，i＝1，2，...N作为下棵树的训练数据，得到一颗新的回归数f_m(x)，其对应的叶子节点区域为R_jm，j＝1，2，...J。其中J为回归树的叶子节点的个数。

对叶子区域j＝1，2，...J计算最佳拟合值

更新强学习器

得到最终学习器

3)按照一维数据尺寸设置输入数据集(1879，1231)，将数据输入回归模型。

进一步的，上述的一种基于机器学习和拉曼光谱的抗生素药物的定量分析方法，90％的数据用于训练模型，获取最优的模型表现性能的参数，剩下的10％的数据用于测试模型的预测效果，并通过得到的决定系数(R²)，均方根误差(RMSE)和平均绝对误差(MAE)来评估模型在测试集上的预测性能。

进一步的，上述的一种基于机器学习和拉曼光谱的抗生素药物的定量分析方法，步骤4)的具体方法为模型训练开始前，需设置本实例模型训练超参数，包括学习率、采样样本数、弱分类器的个数等参量。通过10折交叉验证集获取最佳参数组合，之后通过最佳参数组合预测环境中磺胺嘧啶的浓度并评估模型的预测性能。

与现有技术相比，本发明提供的技术方案具有如下技术优点：

1、本发明所建立的不同环境下磺胺嘧啶多种浓度的拉曼光谱数据集为磺胺嘧啶浓度数据集的获取的空白提供一些支持信息。

2、本发明无需对去除基线和滤波后的拉曼光谱数据进行归一化处理，其可直接用于训练本发明的机器学习模型。

3、本发明预测的抗生素药物的浓度达到了水环境中抗生素药物的浓度，为环境中的抗生素药物浓度的监控提供了一种有用的研究思路。

4、本发明使用的机器学习算法模型性能表现优秀，且易于操作实现。

总而言之，本发明提出的基于GBDT算法模型结合拉曼光谱数据的方法，无需对拉曼光谱数据进行归一化处理，只需要平滑和滤波就可以将数据应用与本发明的机器学习模型；通过数据的多样化，在水体环境(包括江水、废水)中收集了数据集，通过对环境中水体的拉曼光谱数据进行特征学习，有效地避免了环境中拉曼光谱数据定量能力低的问题；降低了同类抗生素药物的拉曼光谱差异性小对物质浓度预测准确率的影响；使用GBDT机器学习模型训练和预测水体中不同浓度的拉曼光谱数据，并通过GBDT机器学习模型自带的特征重要性排序函数，对定量预测的重要特征进行排序，以此得到对模型预测影响最大的的重要特征。

附图说明

图1为用于机器学习的磺胺嘧啶拉曼光谱图：a.江水中的磺胺嘧啶拉曼光谱图；b.废水中的磺胺嘧啶拉曼光谱图；

图2为用于机器学习的磺胺嘧啶拉曼光谱数据集的可视化图；

图3为airPLS去基线前后和Savitzky-Golay滤波前磺胺嘧啶的拉曼光谱图；

图4为获取的不同浓度磺胺嘧啶数据集所有特征的回归曲线图；

图5为计算出的前20个拉曼光谱重要峰特征排序图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。本实例利用拉曼光谱结合结合机器学习对磺胺嘧啶药物在水体中进行浓度预测，该实例说明本发明提供的一种基于机器学习的抗生素药物的拉曼光谱定量分析方法。

实施例1

如图1～2所示，本发明构建的拉曼光谱结合GBDT机器学习定量预测模型的数据集，包括0.005mg/L-500mg/L之间的17个浓度的磺胺嘧啶拉曼光谱；采集了珠江的江水中的磺胺嘧啶拉曼光谱数据和珠江啤酒废水处理厂中的磺胺嘧啶拉曼光谱数据一共1231条。

本方案具体步骤如下：

步骤1：利用显微共焦拉曼光谱仪采集多种抗生素药物的拉曼光谱数据，分析了磺胺嘧啶抗生素药物的拉曼光谱锋位、峰值、谱带空间位置等特征信息，建立不同浓度磺胺嘧啶拉曼光谱数据集；

本实例的磺胺嘧啶定量预测包括17个浓度的磺胺嘧啶溶液：

0.5mg/L，0.45mg/L，0.4mg/L，0.35mg/L，0.3mg/L，0.25mg/L，0.2mg/L，0.15mg/L，0.1mg/L，0.08mg/L，0.06mg/L，0.04mg/L，0.02mg/L，0.01mg/L，0.05mg/L，0.01mg/L，0.005mg/L，然后，对17个浓度的磺胺嘧啶溶液进行人工标记。

步骤2：如图3所示，本发明为了便于提取深度学习模型训练过程中的特征信息，需要对拉曼光谱数据进行了平滑去基线处理，使用Savitzky-Golay滤波拟合法提高光谱的平滑性，使用airPLS进行基线校正，其采用下述代码实现：

步骤3：为了增加对应抗生素拉曼光谱数据样本量和数据多样性使用两种数据采集手段建立模型训练数据集：(1)在溶液中设置浓度梯度测试拉曼光谱；(2)采集了各种环境条件下的磺胺嘧啶拉曼光谱数据。

具体步骤如下：

1)合成表面增强拉曼光谱的基底，设置抗生素药物的浓度梯度为：

0.5mg/L，0.45mg/L，0.4mg/L，0.35mg/L，0.3mg/L，0.25mg/L，

0.2mg/L，0.15mg/L，0.1mg/L，0.08mg/L，0.06mg/L，0.04mg/L，

0.02mg/L，0.01mg/L，0.05mg/L，0.01mg/L，0.005mg/L采集其拉曼光谱作为数据集的一部分。

将建立的拉曼光谱数据随机集划分训练集、验证集与测试集；使用训练集训练该分类模型，使用验证集对模型的超参数进行调整；使用测试集测试该模型性能。

步骤4：构建的关于浓度的磺胺嘧啶拉曼光谱数据分析模型主要采用了GBDT算法模型，其具体步骤如下：

1)使用GBDT算法模型在预测磺胺嘧啶的浓度时，每一轮的迭代时对每个样本都会有一个预测值，此时的损失函数为均方差损失函数：

损失函数的负梯度计算如下：

y_i代表真实值，代表预测值；

初始化弱学习器：

对m＝1，2，...，M有：

对每个样本i＝1，2，...，M，计算负梯度，即残差

对叶子区域j＝1，2，...J计算最佳拟合值

更新强学习器

得到最终学习器

2)按照一维数据尺寸设置输入数据集(1879，1231)，将数据输入回归模型。

步骤5：模型训练开始前，需设置本实例模型训练超参数，包括学习率、采样样本数、弱分类器的个数等参量。通过10折交叉验证集获取最佳参数组合，之后通过最佳参数组合预测环境中磺胺嘧啶的浓度并评估模型的预测性能。

步骤6：上述的一种基于机器学习和拉曼光谱的抗生素药物的定量分析方法，90％的数据用于训练模型，获取最优的模型表现性能的参数，剩下的10％的数据用于测试模型的预测效果，并通过得到的决定系数(R²)，均方误差(MSE)，均方根误差(RMSE)和平均绝对误差(MAE)来评估模型在测试集上的预测性能。

如图4所示，使用测试集测试基于拉曼光谱结合GBDT机器学习定量预测模型性能，并输出磺胺嘧啶的拉曼光谱数据集得出的定量预测结果，具体步骤如下：

1)已训练的模型在测试集上进行评估，本实例利用拟合优度图分析模型输出珠江啤酒废水厂和珠江水中的不同浓度磺胺嘧啶浓度预测结果，同时，使用均方误差(MSE)，均方根误差(RMSE)和平均绝对误差(MAE)作为评估指标来评估模型在测试集上的预测性能。

2)已训练的模型在测试集上进行评估，水环境下的不同浓度磺胺嘧啶(SD)的拉曼光谱测试集样本数量如图4所示：0.5mg/L的SD拉曼光谱99条，0.45mg/L的SD拉曼光谱70条，0.4mg/L的SD拉曼光谱70条，0.35mg/L的SD拉曼光谱70条，0.3mg/L的SD拉曼光谱70条，0.25mg/L的SD拉曼光谱70条，0.2mg/L的SD拉曼光谱70条，0.15mg/L的SD拉曼光谱70条，0.1mg/L的SD拉曼光谱102条，0.08mg/L的SD拉曼光谱70条，0.06mg/L的SD拉曼光谱12条，0.05mg/L的SD拉曼光谱80条，0.04mg/L的SD拉曼光谱70条，0.02mg/L的SD拉曼光谱10条，0.01mg/L的SD拉曼光谱82条，0.01mg/L的SD拉曼光谱94条，0.005mg/L的SD拉曼光谱122条，共计1231条SD拉曼光谱。

3)采用拟合优度来确定磺胺嘧啶真实浓度与预测浓度之间的拟合程度，该方法主要用于比较浓度预测结果和实际值之间的关系。拟合优度越大，自变量对因变量的解释程度越高，自变量引起的变动占总变动的百分比越高。观察点在回归直线附近越密集。自变量为不同浓度磺胺嘧啶的拉曼光谱数据特征，因变量为磺胺嘧啶的浓度；其值最大为1，最小为0，当值越接近于1，则说明模型越好；值越接近于0，则模型越差。GBDT算法模型的拟合优度(决定系数)为0.84，有优秀的模型表现能力。

4)本发明方法与应用于拉曼光谱数据分类的其它机器学习方法进行了模型表现能力的对比。采取的其它机器学习方法包括：轻量级梯度提升机算法(LGBM)和极致梯度提升算法(XGB)。三种定量分析方法评估结果如表1所示。

表一不同定量模型的表现性能评估

三个定量模型在不同浓度的磺胺嘧啶数据集中的决定系数相差很小，梯度提升决策树(GBDT)模型的均方误差(MSE)，均方根误差(RMSE)和平均绝对误差(MAE)最小，模型表现能力最好；因此使用GBDT模型内置特征重要性排序函数计算得到了影响模型预测的20个重要特征。其重要特征如图5所示，得到的重要特征为不同浓度的磺胺嘧啶拉曼光谱特征峰。为了验证20个重要特征是否可靠，对这20个重要特征组成的特征子集进一步训练与测试，得到的特征子集的拟合优度为0.77。不同浓度的磺胺嘧啶拉曼光谱数据集一共有1879个特征信息，前20个重要特征能达到0.77的拟合优度，证明重要特征的计算具有可靠性。

综上，本发明提出的基于GBDT机器学习算法模型的方法定量预测环境中磺胺嘧啶的浓度，具有：无需对拉曼光谱数据进行归一化处理，只需要平滑和滤波就可以将数据应用于本发明的机器学习模型中预测磺胺嘧啶的浓度；通过数据的多样化，在水体环境中收集了数据集并进行特征学习，有效地改善了环境对拉曼光谱数据的干扰；降低了不同浓度的磺胺嘧啶抗生素药物的拉曼光谱用于定量预测的准确率；建立了不同环境下磺胺嘧啶多种浓度的拉曼光谱数据集为磺胺嘧啶浓度数据集的获取的空白提供支持。同时机器学习结合拉曼光谱预测环境抗生素浓度的方法易于拓展和使用，在其它抗生素药物的定量预测上均可以使用，具有一定的实际应用价值。

本发明已经通过上述实例进行了说明，但应当理解的是，上述实例只是用于举例和说明的目的。因此，凡在技术领域中通过逻辑分析、推理或者有限实验得到技术方法，皆应当属于描述的实例保护范围内。

Claims

1.一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法，其特征在于，依次包括下述步骤：

3)根据分析的磺胺嘧啶的拉曼光谱信息，标注拉曼光谱数据浓度，将建立的拉曼光谱数据集划分训练集、验证集与测试集；使用训练集训练该回归模型，使用验证集对模型的超参数进行调整；使用测试集测试该模型性能；

4)构建基于GBDT算法的机器学习回归模型，在该模型中，利用机器学习算法，提取拉曼光谱的主要特征信息，根据提取的特征进行基于磺胺类药物的拉曼光谱浓度的回归；

5)使用GBDT机器学习回归模型，在验证集上对训练模型进行评估与调参；

6)使用测试集测试GBDT模型性能，并输出磺胺嘧啶的拉曼光谱分析结果。

2.根据权利要求1所述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法，其特征在于，步骤2)采用下述程序实现的：

3.根据权利要求1所述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法，其特征在于，所述的采集磺胺嘧啶拉曼光谱数据的方法为：(1)在溶液中设置浓度梯度测试拉曼光谱；(2)采集了各种环境条件下的磺胺嘧啶拉曼光谱数据。

4.根据权利要求3所述的一种基于机器学习和拉曼光谱的磺胺类药物的定量分析方法，其特征在于，所述的采用数据的方法具体如下：

1)合成表面增强拉曼光谱的基底，设置磺胺嘧啶的浓度梯度为：0.5mg/L，0.45mg/L，0.4mg/L，0.35mg/L，0.3mg/L，0.25mg/L，0.2mg/L，0.15mg/L，0.1mg/L，0.08mg/L，0.06mg/L，0.04mg/L，0.02mg/L，0.01mg/L，0.05mg/L，0.01mg/L，0.005mg/L的磺胺嘧啶溶液，采集其拉曼光谱作为数据集的一部分。

5.根据权利要求1所述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法，其特征在于，各种环境条件为珠江水、珠江啤酒厂的废水。

6.根据权利要求1所述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法，其特征在于，步骤4)具体为：

1)构建拉曼光谱数据分析模型，在该机器学习模型环境浓度的预测的基础上，使用GBDT算法模型白带的特征重要性函数，筛选出影响磺胺嘧啶浓度预测的重要特征，得到影响浓度预测的磺胺嘧啶拉曼峰信息；

2)使用GBDT算法模型在预测磺胺嘧啶的浓度时，每一轮的迭代时对每个样本都会有一个预测值，此时的损失函数为均方差损失函数：

损失函数的负梯度计算如下：

y_i代表真实值，代表预测值；

初始化弱学习器：

对m＝1，2，...，M有：

对每个样本i＝1，2，...，M，计算负梯度，即残差

对叶子区域j＝1，2，...J计算最佳拟合值

更新强学习器

得到最终学习器

3)按照一维数据尺寸设置输入数据集，将数据输入回归模型，90％的数据用于训练模型，获取最优的模型表现性能的参数，剩下的10％的数据用于测试模型的预测效果，并通过得到的决定系数R2，均方根误差RMSE和平均绝对误差MAE来评估模型在测试集上的预测性能。

7.根据权利要求6所述的一种基于机器学习和拉曼光谱的抗生素药物的定量分析方法，其特征在于，步骤1)的具体方法为模型训练开始前，需设置本实例模型训练超参数，包括学习率、采样样本数、弱分类器的个数参量；通过10折交叉验证集获取最佳参数组合，之后通过最佳参数组合预测环境中磺胺嘧啶的浓度并评估模型的预测性能。