CN116858822A - 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法 - Google Patents
一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法 Download PDFInfo
- Publication number
- CN116858822A CN116858822A CN202311077261.9A CN202311077261A CN116858822A CN 116858822 A CN116858822 A CN 116858822A CN 202311077261 A CN202311077261 A CN 202311077261A CN 116858822 A CN116858822 A CN 116858822A
- Authority
- CN
- China
- Prior art keywords
- sulfadiazine
- raman spectrum
- model
- data
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001237 Raman spectrum Methods 0.000 title claims abstract description 122
- SEEPANYCNGTZFQ-UHFFFAOYSA-N sulfadiazine Chemical compound C1=CC(N)=CC=C1S(=O)(=O)NC1=NC=CC=N1 SEEPANYCNGTZFQ-UHFFFAOYSA-N 0.000 title claims abstract description 85
- 229960004306 sulfadiazine Drugs 0.000 title claims abstract description 85
- 238000010801 machine learning Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004445 quantitative analysis Methods 0.000 title claims abstract description 23
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 22
- 238000012360 testing method Methods 0.000 claims abstract description 26
- 239000002351 wastewater Substances 0.000 claims abstract description 7
- 238000007405 data analysis Methods 0.000 claims abstract description 5
- 238000002372 labelling Methods 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 29
- 238000001069 Raman spectroscopy Methods 0.000 claims description 18
- 239000003814 drug Substances 0.000 claims description 17
- 230000003115 biocidal effect Effects 0.000 claims description 16
- 230000007613 environmental effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims description 3
- 229940124530 sulfonamide Drugs 0.000 claims description 3
- 150000003456 sulfonamides Chemical class 0.000 claims description 3
- 238000000479 surface-enhanced Raman spectrum Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims 1
- 230000001419 dependent effect Effects 0.000 abstract description 3
- 238000003066 decision tree Methods 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000004452 microanalysis Methods 0.000 abstract 1
- 229940079593 drug Drugs 0.000 description 8
- 235000013405 beer Nutrition 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 239000003242 anti bacterial agent Substances 0.000 description 2
- 229940088710 antibiotic agent Drugs 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000005416 organic matter Substances 0.000 description 1
- 239000013618 particulate matter Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000004065 wastewater treatment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N21/00—Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
- G01N21/62—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
- G01N21/63—Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
- G01N21/65—Raman scattering
- G01N21/658—Raman scattering enhancement Raman, e.g. surface plasmons
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Abstract
本发明公开了一种基于机器学习结合拉曼光谱的磺胺嘧啶水体环境中的定量分析方法,旨在提供了一种简易的机器学习算法来定量水体中微量的磺胺嘧啶;本发明数据集较易获得,建立的定量方法拟合程度较好,可达到痕量检测并预测磺胺嘧啶浓度的目的;本发明包括以下步骤:标注测得磺胺嘧啶的拉曼光谱浓度的数据标签,拉曼光谱数据预处理、归一化;建立了一个基于梯度提升决策树(GBDT)的机器学习回归预测模型;该模型实现了在江水和废水中的微量磺胺嘧啶的浓度预测,也获得了较高的拟合优度;通过测试不同浓度和多种背景下的磺胺嘧啶的拉曼光谱数据,建立一个与浓度相关的拉曼光谱数据集;将数据导入机器学习模型中,通过调试机器学习模型中的参数,达到磺胺嘧啶的拉曼光谱的微量分析与预测;涉及机器学习与拉曼光谱数据分析领域。
Description
技术领域
本专利涉及拉曼光谱数据分析领域,尤其涉及一种基于机器学习的抗生素药物的拉曼光谱数据的磺胺类药物的定量分析方法。
背景技术
拉曼光谱(Raman spectroscopy,RS)是一种间接测量样品内部振动状态的光谱方法。拉曼光谱仪广泛应用于分析化学、生命科学、材料科学和环境科学。拉曼光谱可以用于分析环境中的污染物。例如,可以使用拉曼光谱来研究空气中的颗粒物、水中的有机物等。拉曼光谱信号中含有丰富的分子指纹信息,需要结合数据统计方法对锋位、峰值和谱带光谱特征进行分析,进而识别探测的物质属性。然而,拉曼光谱信息中常常伴有强荧光背景噪声和外界环境干扰信息,同时,由于不同拉曼光谱检测设备性能问题,探测的同类型物质拉曼光谱信息具有一定的差异性,因此,对物质拉曼光谱数据分析具有一定的影响,降低了物质识别的准确度。因此,拉曼光谱分析具有挑战性,需要基于机器学习的化学计量模型进行分析。机器学习在拉曼光谱数据的预处理和建模方面表现优秀;机器学习模型能够对拉曼光谱特征信息进行分析,分析影响模型预测的主要特征,有利于光谱数据的挖掘,并且能应用于各种类型的拉曼光谱数据。
发明内容
本发明的目的一是解决由于同类型物质拉曼光谱数据具有差异性造成的拉曼光谱识别准确率低问题;目的二是解决由于环境干扰造成的物质拉曼光谱识别准确率低问题;
目的三解决低浓度下拉曼光谱定量能力差的问题。
基于以上三个目的,本发明提供一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法。
为此,本发明提供的技术方案是这样的:
一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,依次包括下述步骤:
1)采集各种环境条件下磺胺嘧啶拉曼光谱数据,测定不同浓度和各种环境条件下的水中的磺嘧啶的拉曼光谱数据,分析其峰位置、峰强度、谱带空间位置的特征信息,建立不同浓度和各种环境条件下的磺胺类药物拉曼光谱数据集;
2)对测试的物质拉曼光谱进行平滑和去基线,使用Savitzky-Golay滤波拟合法提高光谱的平滑性,使用airPLS进行基线校正;
3)根据分析的磺胺嘧啶的拉曼光谱信息,标注拉曼光谱数据浓度数据标签,采用数据增强方法增加对应物质拉曼光谱数据样本量和数据多样性,将建立的拉曼光谱数据集划分训练集、验证集与测试集;使用训练集训练该分类模型,使用验证集对模型的超参数进行调整;使用测试集测试该模型性能。
4)构建基于GBDT算法的机器学习模型,在该模型中提取拉曼光谱的主要特征信息,根据提取的特征进行特征分析,分析影响模型预测的重要特征;利用训练集训练GBDT模型,验证集对训练网络进行评估与调参;使用测试集测试GBDT模型性能,并输出物质拉曼光谱分析结果。
进一步的,上述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,步骤2)采用下述程序实现的:
进一步的,上述的一种基于机器学习和拉曼光谱的磺胺嘧啶定量分析方法,所述的采用数据采集方法为:(1)在溶液中设置浓度梯度测试拉曼光谱;(2)采集了各种环境条件下的磺胺嘧啶拉曼光谱数据。
进一步的,上述的一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法,所述的采用数据增强方法具体如下:
1)合成表面增强拉曼光谱的基底,设置抗生素药物的浓度梯度为:0.5mg/L,0.45mg/L,0.4mg/L,0.35mg/L,0.3mg/L,0.25mg/L,0.2mg/L,0.15mg/L,0.1mg/L,0.08mg/L,0.06mg/L,0.04mg/L,0.02mg/L,0.01mg/L,0.05mg/L,0.01mg/L,0.005mg/L的磺胺嘧啶溶液,采集其拉曼光谱作为数据集的一部分。
2)采集的各种环境条件下的磺胺嘧啶拉曼光谱数据包括珠江江水中的磺胺嘧啶拉曼光谱数据和珠江啤酒废水厂中的磺胺嘧啶拉曼光谱数据。
进一步的,上述的一种基于机器学习和拉曼光谱的磺胺嘧啶的磺胺嘧啶的定量分析方法,步骤4)具体为:
1)构建的关于浓度的磺胺嘧啶拉曼光谱数据分析模型主要采用了GBDT算法作为回归预测模型,在该回归模型中,使用了特征重要性分析,分析了对磺胺嘧啶浓度预测影响最大的20个重要特征;
2)使用GBDT机器学习模型预测磺胺嘧啶的浓度时,每一轮的迭代时对每个样本都会有一个预测值,此时的损失函数为均方差损失函数:
损失函数的负梯度计算如下:
yi代表真实值,代表预测值;
初始化弱学习器:
对m=1,2,...,M有:
对每个样本i=1,2,...,M,计算负梯度,即残差
将上一步得到的残差作为样本新的真实值,并将数据(xi,rim),i=1,2,...N作为下棵树的训练数据,得到一颗新的回归数fm(x),其对应的叶子节点区域为Rjm,j=1,2,...J。其中J为回归树的叶子节点的个数。
对叶子区域j=1,2,...J计算最佳拟合值
更新强学习器
得到最终学习器
3)按照一维数据尺寸设置输入数据集(1879,1231),将数据输入回归模型。
进一步的,上述的一种基于机器学习和拉曼光谱的抗生素药物的定量分析方法,90%的数据用于训练模型,获取最优的模型表现性能的参数,剩下的10%的数据用于测试模型的预测效果,并通过得到的决定系数(R2),均方根误差(RMSE)和平均绝对误差(MAE)来评估模型在测试集上的预测性能。
进一步的,上述的一种基于机器学习和拉曼光谱的抗生素药物的定量分析方法,步骤4)的具体方法为模型训练开始前,需设置本实例模型训练超参数,包括学习率、采样样本数、弱分类器的个数等参量。通过10折交叉验证集获取最佳参数组合,之后通过最佳参数组合预测环境中磺胺嘧啶的浓度并评估模型的预测性能。
与现有技术相比,本发明提供的技术方案具有如下技术优点:
1、本发明所建立的不同环境下磺胺嘧啶多种浓度的拉曼光谱数据集为磺胺嘧啶浓度数据集的获取的空白提供一些支持信息。
2、本发明无需对去除基线和滤波后的拉曼光谱数据进行归一化处理,其可直接用于训练本发明的机器学习模型。
3、本发明预测的抗生素药物的浓度达到了水环境中抗生素药物的浓度,为环境中的抗生素药物浓度的监控提供了一种有用的研究思路。
4、本发明使用的机器学习算法模型性能表现优秀,且易于操作实现。
总而言之,本发明提出的基于GBDT算法模型结合拉曼光谱数据的方法,无需对拉曼光谱数据进行归一化处理,只需要平滑和滤波就可以将数据应用与本发明的机器学习模型;通过数据的多样化,在水体环境(包括江水、废水)中收集了数据集,通过对环境中水体的拉曼光谱数据进行特征学习,有效地避免了环境中拉曼光谱数据定量能力低的问题;降低了同类抗生素药物的拉曼光谱差异性小对物质浓度预测准确率的影响;使用GBDT机器学习模型训练和预测水体中不同浓度的拉曼光谱数据,并通过GBDT机器学习模型自带的特征重要性排序函数,对定量预测的重要特征进行排序,以此得到对模型预测影响最大的的重要特征。
附图说明
图1为用于机器学习的磺胺嘧啶拉曼光谱图:a.江水中的磺胺嘧啶拉曼光谱图;b.废水中的磺胺嘧啶拉曼光谱图;
图2为用于机器学习的磺胺嘧啶拉曼光谱数据集的可视化图;
图3为airPLS去基线前后和Savitzky-Golay滤波前磺胺嘧啶的拉曼光谱图;
图4为获取的不同浓度磺胺嘧啶数据集所有特征的回归曲线图;
图5为计算出的前20个拉曼光谱重要峰特征排序图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。本实例利用拉曼光谱结合结合机器学习对磺胺嘧啶药物在水体中进行浓度预测,该实例说明本发明提供的一种基于机器学习的抗生素药物的拉曼光谱定量分析方法。
实施例1
如图1~2所示,本发明构建的拉曼光谱结合GBDT机器学习定量预测模型的数据集,包括0.005mg/L-500mg/L之间的17个浓度的磺胺嘧啶拉曼光谱;采集了珠江的江水中的磺胺嘧啶拉曼光谱数据和珠江啤酒废水处理厂中的磺胺嘧啶拉曼光谱数据一共1231条。
本方案具体步骤如下:
步骤1:利用显微共焦拉曼光谱仪采集多种抗生素药物的拉曼光谱数据,分析了磺胺嘧啶抗生素药物的拉曼光谱锋位、峰值、谱带空间位置等特征信息,建立不同浓度磺胺嘧啶拉曼光谱数据集;
本实例的磺胺嘧啶定量预测包括17个浓度的磺胺嘧啶溶液:
0.5mg/L,0.45mg/L,0.4mg/L,0.35mg/L,0.3mg/L,0.25mg/L,0.2mg/L,0.15mg/L,0.1mg/L,0.08mg/L,0.06mg/L,0.04mg/L,0.02mg/L,0.01mg/L,0.05mg/L,0.01mg/L,0.005mg/L,然后,对17个浓度的磺胺嘧啶溶液进行人工标记。
步骤2:如图3所示,本发明为了便于提取深度学习模型训练过程中的特征信息,需要对拉曼光谱数据进行了平滑去基线处理,使用Savitzky-Golay滤波拟合法提高光谱的平滑性,使用airPLS进行基线校正,其采用下述代码实现:
步骤3:为了增加对应抗生素拉曼光谱数据样本量和数据多样性使用两种数据采集手段建立模型训练数据集:(1)在溶液中设置浓度梯度测试拉曼光谱;(2)采集了各种环境条件下的磺胺嘧啶拉曼光谱数据。
具体步骤如下:
1)合成表面增强拉曼光谱的基底,设置抗生素药物的浓度梯度为:
0.5mg/L,0.45mg/L,0.4mg/L,0.35mg/L,0.3mg/L,0.25mg/L,
0.2mg/L,0.15mg/L,0.1mg/L,0.08mg/L,0.06mg/L,0.04mg/L,
0.02mg/L,0.01mg/L,0.05mg/L,0.01mg/L,0.005mg/L采集其拉曼光谱作为数据集的一部分。
2)采集的各种环境条件下的磺胺嘧啶拉曼光谱数据包括珠江江水中的磺胺嘧啶拉曼光谱数据和珠江啤酒废水厂中的磺胺嘧啶拉曼光谱数据。
将建立的拉曼光谱数据随机集划分训练集、验证集与测试集;使用训练集训练该分类模型,使用验证集对模型的超参数进行调整;使用测试集测试该模型性能。
步骤4:构建的关于浓度的磺胺嘧啶拉曼光谱数据分析模型主要采用了GBDT算法模型,其具体步骤如下:
1)使用GBDT算法模型在预测磺胺嘧啶的浓度时,每一轮的迭代时对每个样本都会有一个预测值,此时的损失函数为均方差损失函数:
损失函数的负梯度计算如下:
yi代表真实值,代表预测值;
初始化弱学习器:
对m=1,2,...,M有:
对每个样本i=1,2,...,M,计算负梯度,即残差
将上一步得到的残差作为样本新的真实值,并将数据(xi,rim),i=1,2,...N作为下棵树的训练数据,得到一颗新的回归数fm(x),其对应的叶子节点区域为Rjm,j=1,2,...J。其中J为回归树的叶子节点的个数。
对叶子区域j=1,2,...J计算最佳拟合值
更新强学习器
得到最终学习器
2)按照一维数据尺寸设置输入数据集(1879,1231),将数据输入回归模型。
步骤5:模型训练开始前,需设置本实例模型训练超参数,包括学习率、采样样本数、弱分类器的个数等参量。通过10折交叉验证集获取最佳参数组合,之后通过最佳参数组合预测环境中磺胺嘧啶的浓度并评估模型的预测性能。
步骤6:上述的一种基于机器学习和拉曼光谱的抗生素药物的定量分析方法,90%的数据用于训练模型,获取最优的模型表现性能的参数,剩下的10%的数据用于测试模型的预测效果,并通过得到的决定系数(R2),均方误差(MSE),均方根误差(RMSE)和平均绝对误差(MAE)来评估模型在测试集上的预测性能。
如图4所示,使用测试集测试基于拉曼光谱结合GBDT机器学习定量预测模型性能,并输出磺胺嘧啶的拉曼光谱数据集得出的定量预测结果,具体步骤如下:
1)已训练的模型在测试集上进行评估,本实例利用拟合优度图分析模型输出珠江啤酒废水厂和珠江水中的不同浓度磺胺嘧啶浓度预测结果,同时,使用均方误差(MSE),均方根误差(RMSE)和平均绝对误差(MAE)作为评估指标来评估模型在测试集上的预测性能。
2)已训练的模型在测试集上进行评估,水环境下的不同浓度磺胺嘧啶(SD)的拉曼光谱测试集样本数量如图4所示:0.5mg/L的SD拉曼光谱99条,0.45mg/L的SD拉曼光谱70条,0.4mg/L的SD拉曼光谱70条,0.35mg/L的SD拉曼光谱70条,0.3mg/L的SD拉曼光谱70条,0.25mg/L的SD拉曼光谱70条,0.2mg/L的SD拉曼光谱70条,0.15mg/L的SD拉曼光谱70条,0.1mg/L的SD拉曼光谱102条,0.08mg/L的SD拉曼光谱70条,0.06mg/L的SD拉曼光谱12条,0.05mg/L的SD拉曼光谱80条,0.04mg/L的SD拉曼光谱70条,0.02mg/L的SD拉曼光谱10条,0.01mg/L的SD拉曼光谱82条,0.01mg/L的SD拉曼光谱94条,0.005mg/L的SD拉曼光谱122条,共计1231条SD拉曼光谱。
3)采用拟合优度来确定磺胺嘧啶真实浓度与预测浓度之间的拟合程度,该方法主要用于比较浓度预测结果和实际值之间的关系。拟合优度越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比越高。观察点在回归直线附近越密集。自变量为不同浓度磺胺嘧啶的拉曼光谱数据特征,因变量为磺胺嘧啶的浓度;其值最大为1,最小为0,当值越接近于1,则说明模型越好;值越接近于0,则模型越差。GBDT算法模型的拟合优度(决定系数)为0.84,有优秀的模型表现能力。
4)本发明方法与应用于拉曼光谱数据分类的其它机器学习方法进行了模型表现能力的对比。采取的其它机器学习方法包括:轻量级梯度提升机算法(LGBM)和极致梯度提升算法(XGB)。三种定量分析方法评估结果如表1所示。
表一不同定量模型的表现性能评估
三个定量模型在不同浓度的磺胺嘧啶数据集中的决定系数相差很小,梯度提升决策树(GBDT)模型的均方误差(MSE),均方根误差(RMSE)和平均绝对误差(MAE)最小,模型表现能力最好;因此使用GBDT模型内置特征重要性排序函数计算得到了影响模型预测的20个重要特征。其重要特征如图5所示,得到的重要特征为不同浓度的磺胺嘧啶拉曼光谱特征峰。为了验证20个重要特征是否可靠,对这20个重要特征组成的特征子集进一步训练与测试,得到的特征子集的拟合优度为0.77。不同浓度的磺胺嘧啶拉曼光谱数据集一共有1879个特征信息,前20个重要特征能达到0.77的拟合优度,证明重要特征的计算具有可靠性。
综上,本发明提出的基于GBDT机器学习算法模型的方法定量预测环境中磺胺嘧啶的浓度,具有:无需对拉曼光谱数据进行归一化处理,只需要平滑和滤波就可以将数据应用于本发明的机器学习模型中预测磺胺嘧啶的浓度;通过数据的多样化,在水体环境中收集了数据集并进行特征学习,有效地改善了环境对拉曼光谱数据的干扰;降低了不同浓度的磺胺嘧啶抗生素药物的拉曼光谱用于定量预测的准确率;建立了不同环境下磺胺嘧啶多种浓度的拉曼光谱数据集为磺胺嘧啶浓度数据集的获取的空白提供支持。同时机器学习结合拉曼光谱预测环境抗生素浓度的方法易于拓展和使用,在其它抗生素药物的定量预测上均可以使用,具有一定的实际应用价值。
本发明已经通过上述实例进行了说明,但应当理解的是,上述实例只是用于举例和说明的目的。因此,凡在技术领域中通过逻辑分析、推理或者有限实验得到技术方法,皆应当属于描述的实例保护范围内。
Claims (7)
1.一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,其特征在于,依次包括下述步骤:
1)采集各种环境条件下磺胺嘧啶拉曼光谱数据,测定不同浓度和各种环境条件下的水中的磺嘧啶的拉曼光谱数据,分析其峰位置、峰强度、谱带空间位置的特征信息,建立不同浓度和各种环境条件下的磺胺类药物拉曼光谱数据集;
2)对测试的物质拉曼光谱进行平滑和去基线,使用Savitzky-Golay滤波拟合法提高光谱的平滑性,使用airPLS进行基线校正;
3)根据分析的磺胺嘧啶的拉曼光谱信息,标注拉曼光谱数据浓度,将建立的拉曼光谱数据集划分训练集、验证集与测试集;使用训练集训练该回归模型,使用验证集对模型的超参数进行调整;使用测试集测试该模型性能;
4)构建基于GBDT算法的机器学习回归模型,在该模型中,利用机器学习算法,提取拉曼光谱的主要特征信息,根据提取的特征进行基于磺胺类药物的拉曼光谱浓度的回归;
5)使用GBDT机器学习回归模型,在验证集上对训练模型进行评估与调参;
6)使用测试集测试GBDT模型性能,并输出磺胺嘧啶的拉曼光谱分析结果。
2.根据权利要求1所述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,其特征在于,步骤2)采用下述程序实现的:
3.根据权利要求1所述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,其特征在于,所述的采集磺胺嘧啶拉曼光谱数据的方法为:(1)在溶液中设置浓度梯度测试拉曼光谱;(2)采集了各种环境条件下的磺胺嘧啶拉曼光谱数据。
4.根据权利要求3所述的一种基于机器学习和拉曼光谱的磺胺类药物的定量分析方法,其特征在于,所述的采用数据的方法具体如下:
1)合成表面增强拉曼光谱的基底,设置磺胺嘧啶的浓度梯度为:0.5mg/L,0.45mg/L,0.4mg/L,0.35mg/L,0.3mg/L,0.25mg/L,0.2mg/L,0.15mg/L,0.1mg/L,0.08mg/L,0.06mg/L,0.04mg/L,0.02mg/L,0.01mg/L,0.05mg/L,0.01mg/L,0.005mg/L的磺胺嘧啶溶液,采集其拉曼光谱作为数据集的一部分。
5.根据权利要求1所述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,其特征在于,各种环境条件为珠江水、珠江啤酒厂的废水。
6.根据权利要求1所述的一种基于机器学习和拉曼光谱的磺胺嘧啶的定量分析方法,其特征在于,步骤4)具体为:
1)构建拉曼光谱数据分析模型,在该机器学习模型环境浓度的预测的基础上,使用GBDT算法模型白带的特征重要性函数,筛选出影响磺胺嘧啶浓度预测的重要特征,得到影响浓度预测的磺胺嘧啶拉曼峰信息;
2)使用GBDT算法模型在预测磺胺嘧啶的浓度时,每一轮的迭代时对每个样本都会有一个预测值,此时的损失函数为均方差损失函数:
损失函数的负梯度计算如下:
yi代表真实值,代表预测值;
初始化弱学习器:
对m=1,2,...,M有:
对每个样本i=1,2,...,M,计算负梯度,即残差
将上一步得到的残差作为样本新的真实值,并将数据(xi,rim),i=1,2,...N作为下棵树的训练数据,得到一颗新的回归数fm(x),其对应的叶子节点区域为Rjm,j=1,2,...J。其中J为回归树的叶子节点的个数。
对叶子区域j=1,2,...J计算最佳拟合值
更新强学习器
得到最终学习器
3)按照一维数据尺寸设置输入数据集,将数据输入回归模型,90%的数据用于训练模型,获取最优的模型表现性能的参数,剩下的10%的数据用于测试模型的预测效果,并通过得到的决定系数R2,均方根误差RMSE和平均绝对误差MAE来评估模型在测试集上的预测性能。
7.根据权利要求6所述的一种基于机器学习和拉曼光谱的抗生素药物的定量分析方法,其特征在于,步骤1)的具体方法为模型训练开始前,需设置本实例模型训练超参数,包括学习率、采样样本数、弱分类器的个数参量;通过10折交叉验证集获取最佳参数组合,之后通过最佳参数组合预测环境中磺胺嘧啶的浓度并评估模型的预测性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311077261.9A CN116858822A (zh) | 2023-08-24 | 2023-08-24 | 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311077261.9A CN116858822A (zh) | 2023-08-24 | 2023-08-24 | 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116858822A true CN116858822A (zh) | 2023-10-10 |
Family
ID=88221852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311077261.9A Pending CN116858822A (zh) | 2023-08-24 | 2023-08-24 | 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116858822A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117434045A (zh) * | 2023-11-02 | 2024-01-23 | 中国海洋大学 | 基于sers标记检测和机器学习的同时检测两种兽药的方法 |
-
2023
- 2023-08-24 CN CN202311077261.9A patent/CN116858822A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117434045A (zh) * | 2023-11-02 | 2024-01-23 | 中国海洋大学 | 基于sers标记检测和机器学习的同时检测两种兽药的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493287B (zh) | 一种基于深度学习的定量光谱数据分析处理方法 | |
CN101915744A (zh) | 物质成分含量的近红外光谱无损检测方法及装置 | |
CN116858822A (zh) | 一种基于机器学习和拉曼光谱的水体中磺胺嘧啶定量分析方法 | |
CN109460471B (zh) | 一种基于自学习的方式建立纤维种类图谱库的方法 | |
CN102072767A (zh) | 基于波长相似性共识回归红外光谱定量分析方法和装置 | |
CN105334186A (zh) | 一种近红外光谱分析方法 | |
CN108802002B (zh) | 一种快速无损鉴别解除滞育的蚕卵拉曼光谱模型构建方法 | |
CN116030310A (zh) | 一种基于激光诱导击穿光谱技术的样品分类方法及系统 | |
CN115905881A (zh) | 黄珍珠分类的方法以及装置、电子设备、存储介质 | |
CN111259929A (zh) | 基于随机森林的食源性致病菌的分类模型训练方法 | |
CN108827909B (zh) | 基于可见近红外光谱与多目标融合的土壤快速分类方法 | |
CN114113471A (zh) | 一种基于机器学习的人工鼻冰箱食品新鲜度检测方法及系统 | |
CN107247033B (zh) | 基于快速衰减式淘汰算法和plsda鉴别黄花梨成熟度的方法 | |
CN110887798B (zh) | 基于极端随机树的非线性全光谱水体浊度定量分析方法 | |
CN113295673B (zh) | 一种激光诱导击穿光谱弱监督特征提取方法 | |
Huang et al. | The application of wavelet transform of Raman spectra to facilitate transfer learning for gasoline detection and classification | |
CN115078327A (zh) | 一种基于神经网络架构搜索的危险化学品快速检测方法 | |
CN113295674B (zh) | 一种基于s变换的激光诱导击穿光谱特征非线性处理方法 | |
CN115420726A (zh) | 一种利用重构sers光谱快速识别目标物的方法 | |
CN114863286A (zh) | 一种基于多算法协同选优的混合废塑料分类方法 | |
CN111220565B (zh) | 一种基于cpls的红外光谱测量仪器标定迁移方法 | |
CN113744075A (zh) | 一种基于人工智能的农产品营养品质等级划分系统 | |
CN113933247A (zh) | 一种水果成熟度检测模型的构建方法 | |
Cai et al. | Deep metric learning framework combined with Gramian angular difference field image generation for Raman spectra classification based on a handheld Raman spectrometer | |
CN111912823A (zh) | 一种多成分农药残留荧光检测分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |