CN114530217B - 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置 - Google Patents
一种兰炭基多孔碳吸附重金属效率预测方法及相关装置 Download PDFInfo
- Publication number
- CN114530217B CN114530217B CN202210143508.1A CN202210143508A CN114530217B CN 114530217 B CN114530217 B CN 114530217B CN 202210143508 A CN202210143508 A CN 202210143508A CN 114530217 B CN114530217 B CN 114530217B
- Authority
- CN
- China
- Prior art keywords
- coke
- semi
- adsorption
- porous carbon
- based porous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001179 sorption measurement Methods 0.000 title claims abstract description 204
- 239000000571 coke Substances 0.000 title claims abstract description 147
- 229910001385 heavy metal Inorganic materials 0.000 title claims abstract description 131
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 title claims abstract description 92
- 229910052799 carbon Inorganic materials 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000004519 manufacturing process Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims description 57
- 239000003575 carbonaceous material Substances 0.000 claims description 53
- 238000012549 training Methods 0.000 claims description 40
- 238000010801 machine learning Methods 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000002360 preparation method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000010438 heat treatment Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 239000000463 material Substances 0.000 description 10
- 230000007812 deficiency Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000002351 wastewater Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 229910052785 arsenic Inorganic materials 0.000 description 1
- RQNWIZPPADIBDY-UHFFFAOYSA-N arsenic atom Chemical compound [As] RQNWIZPPADIBDY-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052793 cadmium Inorganic materials 0.000 description 1
- BDOSMKKIYDKNTQ-UHFFFAOYSA-N cadmium atom Chemical compound [Cd] BDOSMKKIYDKNTQ-UHFFFAOYSA-N 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 238000000921 elemental analysis Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- JBQYATWDVHIOAR-UHFFFAOYSA-N tellanylidenegermanium Chemical compound [Te]=[Ge] JBQYATWDVHIOAR-UHFFFAOYSA-N 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Manufacture And Refinement Of Metals (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种兰炭基多孔碳吸附重金属效率预测方法及相关装置,本发明先通过模块MLDPU对兰炭基多孔碳的缺失值进行填充。然后对填充效果进行判定,选择填充效果最好的一种模式。以填充完整的数据集为预测数据集,然后利用XGBoost模块对填充完整的兰炭基多孔碳吸附重金属效率进行预测。使用本发明的预测方法可以适配任何类型含缺失值的实际兰炭基多孔碳吸附数据集,并针对不同的数据集高效、快速预测出兰炭基多孔碳对重金属的吸附效率,指导实际生产应用。
Description
技术领域
本发明涉及机器学习技术领域和碳基吸附材料领域,尤其涉及一种兰炭基多孔碳吸附重金属效率预测方法及相关装置。
背景技术
近年来,随着工业的快速发展,产生大量的重金属废水。废水中的铅(Pb)、镉(Cd)、镍(Ni)、砷(As)、铜(Cu)和锌(Zn)等重金属存在一定的毒性,且在环境中能够长期存在,会对人类健康和生态系统造成严重风险。
吸附法由于其具有效率高、可操作性强和成本低等优点,被认为是处理重金属废水的优良方法。目前,兰炭基多孔碳材料因其成本低、孔隙结构发达、制备工艺简单和价格低廉,被认为是最有前途的吸附材料之一。
在实际过程中,兰炭基多孔碳吸附材料可以用多种方法合成。通过不同的方法合成的吸附材料,吸附性能差异较大。且制备不同类型的兰炭基多孔碳及测试其对不同类型重金属的吸附性能是特别耗时耗力的。利用机器学习(Machine learning,ML)建立有针对性或泛化性能良好的模型来预测吸附材料的吸附性能,是吸附材料设计领域未来的发展趋势之一。但是在实际过程中,由于机器数据采集出错、人工记录失误等原因,使得获取的数据集大多数是不完整的,分析这些含缺失值的数据集会对最终结果产生一定的偏差,对吸附性能预测会造成很大的影响。同时,目前未有合适的兰炭基多孔碳材料吸附性能的预测模型。
发明内容
针对以上问题,本发明的目的在于提供一种兰炭基多孔碳吸附重金属效率预测方法及相关装置。本方法是一种基于MLDPU-XGBoost的算法,可以有效的解决实际研究过程中兰炭基多孔碳吸附相关数据存在缺失位点影响分析结果偏差的问题。在此基础上同时可以实现快速,高效预测兰炭基多孔碳吸附重金属效率。
本发明采用的技术方案如下:
一种兰炭基多孔碳吸附重金属效率预测方法,包括如下过程:
使用机器学习算法对实际生产过程中获取的兰炭基多孔碳材料吸附重金属的数据集进行缺失位点填充,得到补全所有缺失数据的兰炭基多孔碳材料的吸附数据集;
使用极限梯度提升算法(即XGBoost算法),利用所述兰炭基多孔碳材料的吸附数据集对兰炭基多孔碳吸附重金属效率进行预测。
优选的,使用机器学习算法对实际生产过程中获取的兰炭基多孔碳材料吸附重金属的数据集进行缺失位点填充,得到补全所有缺失数据的兰炭基多孔碳材料的吸附数据集,包括如下步骤:
S1.1,获取实际生产过程中兰炭基多孔碳吸附重金属的相关数据,将所述相关数据分类汇总,作为兰炭基多孔碳材料吸附重金属的原始数据集;
S1.2,对所述原始数据集进行EDA统计分析,去除所述原始数据集中的异常值,并对所述原始数据集每列进行编号,得到吸附原始数据集中每一列特征的数据缺失率;然后按编号以数据缺失率从小到大进行排序,形成新的填充顺序向量,以该新的填充顺序向量作为后续缺失数据填充顺序;
S1.3,按照所述缺失数据填充顺序,进行兰炭基多孔碳材料的吸附数据缺失值的填充,以缺失率最小的一列作为新的标签列,并以此列为标准进行兰炭基多孔碳材料吸附重金属的原始数据集数据的重新排序,按照有缺失值、无缺失值将该数据集划分为两个部分;将所述新的标签列不缺失部分对应的其他特征列的部分加对应的重金属的吸附效率列作为训练集特征列X_train,将所述新的标签列不缺失的部分作为训练集标签列Y_train,将训练集特征列X_train和训练集标签列Y_train组成的部分为训练集;所述新的标签列缺失部分对应的其他特征列的部分加对应的吸附效率作为测试集特征列X_test,所述新的标签列缺失的部分作为测试集标签列Y_test,将测试集特征列X_test和测试集标签列Y_test组成测试集;
S1.4,利所述训练集对模型库中的不同机器学习模型进行训练,然后使用测试集进行测试,并对不同机器学习模型进行评估,选出最佳的吸附数据填充模型;
S1.5,利用所述最佳的吸附数据填充模型对所述原始数据集进行缺失位点填充,得到补全所有缺失数据的兰炭基多孔碳材料的吸附数据集。
优选的,S1.1中,所述原始数据集的数据类型包括:兰炭的工业分析和元素分析数据、制备过程中的加热时间数据、制备过程中的加热速率数据、吸附过程中吸附溶液的pH数据、吸附过程中吸附溶液的重金属初始浓度数据和吸附过程的吸附时间数据中的至少一项以及兰炭基多孔碳对重金属的吸附效率。
优选的,S1.4中,对不同机器学习模型进行评估时,以决策系数R2和均方误差MSE对不同机器学习模型进行评估,并根据初步模型性能评分,利用网格搜索和学习曲线对机器学习模型超参数进行调参,得到最优超参数,利用最优超参数选出最佳的吸附数据填充模型。
优选的,S1.5中,利用所述最佳的吸附数据填充模型对所述原始数据集进行缺失位点填充时,按所述缺失数据填充顺序重复所述S1.3,进行遍历填充,直至填充完所有数据。
优选的,使用极限梯度提升算法(即XGBoost算法),利用所述兰炭基多孔碳材料的吸附数据集对兰炭基多孔碳吸附重金属效率进行预测,包括如下过程:
将补全所有缺失数据的兰炭基多孔碳材料的吸附数据集划分为训练集和测试集,初步建立XGBoost模型,对XGBoost模型进行实例化,通过所述训练集对XGBoost模型进行训练,获得兰炭基多孔碳重金属吸附效率预测的XGBoost初步模型;
利用所述测试集对所述XGBoost初步模型进行测试,根据测试结果,对所述XGBoost初步模型的超参数进行调参,确定最优超参数,根据所述最优超参数得到最佳的兰炭基多孔碳重金属吸附效率预测的XGBoost模型;
利用所述最佳的兰炭基多孔碳重金属吸附效率预测的XGBoost模型和实际生产过程中获取的兰炭基多孔碳材料吸附重金属的数据对兰炭基多孔碳吸附重金属效率进行预测。
优选的,初步建立的XGBoost模型如下:
其中,代表初步建立模型的预测结果,i代表兰炭基多孔碳材料吸附重金属原始数据集中的样本i,K代表树的总数量,k代表第k棵树,fk(xi)代表叶子权重,xi代表样本i对应的特征向量;
XGBoost模型的目标函数Obj如下:
其中,i代表数据集中的第i个样本,n代表导入第k棵树的数据总量,yi代表原数据集第i个样本点的实际数值,代表原数据集样本点i预测数值,l()代表传统损失函数,Ω()代表模型复杂度;
对所述XGBoost初步模型的超参数进行调参,确定最优超参数时,利用网格搜索和学习曲线对XGBoost初步模型的超参数进行调参,确定最优超参数;其中,根据泛化误差来设计所述学习曲线,公式如下:
E(f;D)=bias2+var+ε2
其中,E(f;D)代表模型的泛化误差,f代表吸附集成模型,D代表未知数据基集,bias代表吸附数据偏差,var代表吸附数据方差,ε代表数据噪音。
本发明还提供了一种兰炭基多孔碳吸附重金属效率预测系统,包括:
MLDPU模块:用于对实际生产过程中获取的兰炭基多孔碳材料吸附重金属的数据集进行缺失位点填充,得到补全所有缺失数据的兰炭基多孔碳材料的吸附数据集;
XGBoost模块:用于使用极限梯度提升算法(即XGBoost算法),利用所述兰炭基多孔碳材料的吸附数据集对兰炭基多孔碳吸附重金属效率进行预测。
本发明还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明如上所述的兰炭基多孔碳吸附重金属效率预测方法。
本发明还提供了一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明如上所述的兰炭基多孔碳吸附重金属效率预测方法。
本发明具有如下有益效果:
本发明根据兰炭基多孔碳材料吸附数据之间的相关性,使用机器学习算法完成其缺失位点的填充,在增强其数据集相关性的同时避免了噪音数据的加入,使得后续的吸附预测效率更高。利用极限梯度提升算法(即XGBoost算法)对兰炭基多孔碳吸附重金属效率进行快速预测。本发明可以快速、高效的实现实际过程中不同类型兰炭基多孔碳吸附重金属效率的预测,为研究人员设计吸附材料提供参考依据。
附图说明
图1为本发明提供的兰炭基多孔碳吸附重金属效率预测方法逻辑框图;
图2为本发明提供的MLDPU模块处理方法流程图;
图3为本发明提供的XGBoost模块处理方法流程图;
图4为本发明提供的不同填充方法性能的R2对比;
图5为本发明提供的不同填充方法性能的MSE对比;
图6为本发明提供的兰炭基多孔碳对重金属吸附性能的预测模型表现示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明兰炭基多孔碳吸附重金属效率预测系统包括MLDPU模块和XGBoost模块。其中MLDPU模块的作用是实现兰炭基多孔碳数据集缺失位点的补充,XGBoost模块的作用是快速预测兰炭基多孔碳吸附重金属的效率。
如图1所示,本发明兰炭基多孔碳吸附重金属效率预测方法,其核心在于机器学习数据填充算法MLDPU和吸附预测算法XGBoost的设置,并且实现这两种算法的复合使用。该预测方法首先获取兰炭基多孔碳吸附重金属的各种相关数据,进行数据探索分析,利用机器学习算法完成数据集缺失位点的填充。然后,利用XGBoost模型进行兰炭基多孔碳对重金属吸附效率的预测。
该发明的优点在于:首先,利用兰炭基多孔碳吸附重金属数据之间的相关性,使用机器学习算法完成数据集缺失位点的高效填充,与传统的采用0、均值等方式的相比,更加合理,后续吸附预测效果更好。然后,使用XGBoost模型进行兰炭基多孔碳吸附重金属效率预测,此方法可以较好的适应中小型数据样本,并且随着数据量的增大,预测算法的精度会不断提高。利用XGBoost模型可以实现兰炭基多孔碳对重金属吸附效率的快速预测,并且可以适配任何类型包括不同比例缺失值的实际兰炭基多孔碳吸附数据集,极大的节省实验所需的人力物力消耗。
使用本发明的预测方法可以适配任何类型含缺失值的实际兰炭基多孔碳吸附数据集,并针对不同的数据集高效、快速预测出兰炭基多孔碳对重金属的吸附效率,指导实际生产应用。
具体的,本发明的技术方案如下:
本发明核心在于机器学习数据填充算法MLDPU和吸附预测算法XGBoost的设置,并且实现这两种算法的复合使用。该算法的优点在于:首先,利用兰炭基多孔碳吸附重金属数据之间的相关性,使用机器学习算法完成兰炭基多孔碳材料吸附重金属原始数据集中缺失位点的高效填充,与传统的采用0、均值等方式的相比,更加合理,后续吸附预测效果更好。然后,使用XGBoost模型进行兰炭基多孔碳吸附重金属效率预测,此方法可以较好的适应中小型数据样本,并且随着数据量的增大,预测算法的精度会不断提高。利用XGBoost模型可以实现兰炭基多孔碳对重金属吸附效率的快速预测,极大的节省实验所需的人力物力消耗。
本发明兰炭基多孔碳吸附重金属效率预测系统及其处理过程包括以下步骤:
MLDPU模块,如图2所示,MLDPU模块的数据处理步骤包括:
步骤S1.1,获取实际生产过程中兰炭基多孔碳吸附重金属的相关数据,将所述相关数据分类汇总,作为兰炭基多孔碳材料吸附重金属的原始数据集;
步骤S1.2,对所述原始数据集进行EDA统计分析,去除兰炭基多孔碳材料吸附重金属原始数据集中的异常值,并以每列按“1,2,3......”进行编号,得到兰炭基多孔碳材料吸附重金属原始数据集中每一列特征的数据缺失率。然后按编号以数据缺失率从小到大进行排序,形成新的填充顺序向量,使用[m、l、o......]来对新填充向量中的各特征列进行命名,并以该新的填充顺序向量作为后续缺失数据填充顺序;
步骤S1.3,兰炭基多孔碳材料吸附重金属效率预测数据集的测试集、训练集的划分:
按照步骤S1.2得到的缺失率的顺序,进行吸附数据缺失值的填充,以缺失率最小的一列m列作为新的标签列,并以此列为标准进行兰炭基多孔碳材料吸附重金属原始数据集中数据的重新排序,按照有缺失值、无缺失值将数据集划分为两个部分。将特征列m(即缺失率最小的一列m列)不缺失部分对应的其他n-1(n为吸附重金属原始数据集中特征列的个数)个特征列的部分加对应的本来标签(即重金属的吸附效率)列作为训练集特征列X_train,将特征列m不缺失的部分作为训练集标签列Y_train,将训练集特征列X_train和Y_train训练集标签列组成的部分作为后续模型分析的训练集;特征列m(即缺失率最小的一列m列)缺失部分对应的其他n-1(n为吸附重金属原始数据集中特征列的个数)个特征列的部分加对应的本来标签作为测试集特征列X_test,特征列m缺失的部分作为测试集标签列Y_test,即需要填充数据的部分,将测试集特征列X_test和测试集标签列Y_test组成模型的测试集;
步骤S1.4,最优吸附数据填充机器学习模型选择:
首先建立原始机器学习模型库M,利用步骤S1.3所建立的兰炭基多孔碳材料吸附重金属效率预测数据集的训练集对模型库M中的不同机器学习模型进行训练,然后使用兰炭基多孔碳材料吸附重金属效率预测数据集的测试集进行测试,以决策系数R2和均方误差MSE对不同机器学习模型进行评估,并根据初步模型性能评分,利用网格搜索和学习曲线对模型超参数进行调参,选出最佳的吸附数据填充模型;
步骤S1.5,利用填充后的特征列m替换原始数据集中的特征列m,然后按步骤S1.2的缺失率顺序重复步骤S1.3进行遍历填充,直至填充完所有数据。至此,得到补全的所有缺失数据的实际生产过程的兰炭基多孔碳材料的吸附数据集All_Datasets,以此数据集来作为重金属吸附预测最终数据集。
XGBoost模块,如图3所示,XGBoost模块的数据处理步骤包括:
步骤S2.1,将MLDPU模块填充完整的重金属吸附预测最终数据集All_Datasets划分为训练集和测试集,具体比例通过学习曲线进行分析设置。吸附重金属数据属于连续型数据,初步建立XGBoost模型,对初步建立的XGBoost模型进行实例化,然后导入重金属吸附预测最终数据集的训练集的数据对初步建立的XGBoost模型进行训练,获得兰炭基多孔碳重金属吸附效率预测的XGBoost初步模型;
步骤S2.2,将重金属吸附预测最终数据集的测试集导入兰炭基多孔碳重金属吸附效率的XGBoost初步模型,根据模型测试结果,利用网格搜索和学习曲线对模型的超参数进行调参,确定最优超参数,得到最佳的兰炭基多孔碳重金属吸附效率预测的XGBoost模型;
步骤S2.3,输入新的吸附研究数据,利用最佳兰炭基多孔碳重金属吸附效率预测XGBoost模型进行重金属吸附效率预测。
可以根据预测结果并评估模型的泛化性能。
本发明的兰炭基多孔碳材料吸附重金属原始数据集数据类型包括:(1)兰炭的工业分析和元素分析数据;(2)制备过程中的加热时间数据;(3)制备过程中的加热速率数据;(4)吸附过程中吸附溶液的PH数据;(5)吸附过程中吸附溶液的重金属初始浓度数据;(6)吸附过程的吸附时间数据;(7)兰炭基多孔碳对重金属的吸附效率;(8)根据实际情况的不同,其它重金属吸附类型相关的数据。需要注意的是兰炭基多孔碳材料吸附重金属原始数据集中必须存在兰炭基多孔碳对重金属的吸附效率这一类型的数据,除此之外,其他类型数据只需存在几项即可实现兰炭基多孔碳对重金属吸附效率的预测。
其中,分析过程中,实际生产过程中的数据集先经过模块MLDPU处理,然后再通过模块XGBoost进行吸附性能预测。
本发明中,建立的原始机器学习模型库M,表示如下:
M=[M1,M2,……Mn]
其中,各元素分别代表不同的机器学习算法,并建立对应每一模型的超参数集,表示如下:
P=[P1,P2,……,Pn]
其中,各元素代表每个模型对应的不同超参数。
最终,模型建立公式为:
S=Mi(P1,P2,……Pn)
利用网格搜索和学习曲线对模型超参数进行调参,评分标准以k折交叉验证计算分数为准,公式如下:
Ei=(E1,E2,……,En)
其中,Ei表示第i折交叉验证计算评分,E表示k折交叉验证最终评分。
根据得到最优超参数,构建最佳的吸附数据填充机器学习模型。
本发明中,初始XGBoost预测模型构建:
其中,代表初步建立模型的预测结果,i代表兰炭基多孔碳材料吸附重金属原始数据集中的样本i,K代表树的总数量,k代表第k棵树,fk(xi)代表叶子权重,xi代表样本i对应的特征向量。
本发明中,XGBoost模块的目标函数定义为:
其中,i代表数据集中的第i个样本,n代表导入第k棵树的数据总量,K代表建立的树的总量,yi代表原数据集样本点i实际数值,代表原数据集样本点i预测数值,l()代表传统损失函数,Ω()代表模型复杂度。
本发明中,MLDPU模块和XGBoost模块中都是以R2和MSE作为模型的评估指标,计算公式如下:
其中,i代表每一个数据样本,n代表样本数量,fi是最佳模型的预测数值,yi是原数据集样本点i实际数值,代表真实数值的平均值。
本发明中,所进行调参的超参数包括:弱评估的数量n_estimators、模型随机抽样抽取样本比例subsample、模型的学习率learning_rate、模型弱评估器的类型booster、模型损失函数类型objective和模型复杂度惩罚项gamma,不同的实际情况下,超参数对模型的影响各不相同,需根据实际情况进行超参数调整。
本发明中,根据泛化误差来来设计模型的学习曲线,并且使用网格搜索来查找最佳的超参数组合,公式如下:
E(f;D)=bias2+var+ε2
其中,E(f;D)代表模型的泛化误f代表吸附集成模型,D代表未知数据基集,bias代表吸附数据偏差,var代表吸附数据方差,ε代表数据噪音。
实施例
本实施例首先通过以0、均值填充缺失值的传统方法与模块MLDPU填充缺失值进行填充性能对比。
传统缺失值填充方法:以0或均值对数据集的缺失位点直接进行填充。
模块MLDPU缺失值填充方法:
步骤1,获取实际生产过程中兰炭基多孔碳吸附重金属的相关数据,将所述相关数据分类汇总,作为兰炭基多孔碳材料吸附重金属的原始数据集;
步骤2,对兰炭基多孔碳材料吸附原始数据集,进行EDA统计分析,去除兰炭基多孔碳材料吸附重金属原始数据集中的异常值,并以每列按“1,2,3......”进行标号,得到兰炭基多孔碳材料吸附重金属原始数据集中每一列特征的数据缺失率。然后按编号以数据缺失率从小到大进行排序,使用[m、l、o......]来对新填充向量中的各特征列进行命名,并以此作为后续缺失数据填充顺序;
步骤3,兰炭基多孔碳材料吸附重金属效率预测数据集的测试集、训练集的划分,按照步骤S2得到的缺失率顺序,进行吸附数据缺失值的填充,以缺失率最小的一列m作为新的标签列,并以此列为标准进行兰炭基多孔碳材料吸附重金属原始数据集中数据的重新排序,按照有缺失值、无缺失值将数据集划分为两个部分。将特征列m(即缺失率最小的一列m列)不缺失部分对应的其他n-1(n为吸附重金属原始数据集中特征列的个数)个特征列的部分加对应的本来标签(即重金属的吸附效率)列作为训练集特征列X_train,将特征列m不缺失的部分作为训练集标签列Y_train,将训练集特征列X_train和训练集标签列Y_train组成的部分作为后续模型分析的训练集;特征列m(即缺失率最小的一列m列)缺失部分对应的其他n-1(n为吸附重金属原始数据集中特征列的个数)个特征列的部分加对应的本来标签作为测试集特征列X_test,特征列m缺失的部分作为测试集标签列Y_test,即需要填充数据的部分,将测试集特征列X_test和测试集标签列Y_test组成模型的测试集;
步骤4,最优吸附数据填充机器学习模型选择,首先建立原始机器学习模型库M,利用步骤S3所建立的训练集对模型库M中的不同机器学习模型进行训练,然后使用测试集进行测试,以决定系数R2和均方误差MSE对模型进行评估,并根据初步模型性能评分,利用网格搜索和学习曲线对模型超参数进行调参,选出最佳的吸附数据填充模型;
步骤5,利用填充后的特征列m替换原始数据集中的特征列m,然后按S2的缺失率顺序重复步骤S3进行遍历填充,直至填充完所有数据。至此,得到补全的所有缺失数据的实际生产过程的兰炭基多孔碳材料的吸附数据集All_Datasets,以此数据集来作为重金属吸附预测最终数据集。
本发明实施例通过以0、均值填充缺失值的传统方法与模块MLDPU填充缺失值进行填充性能对比。将补充完整的数据集划分为训练集和验证集,通过决策系数R2和均方误差MSE来评估这三种方法补充数据缺失值的性能。不同缺失值填充方式性能对比结果如表1所示:
表1
请参阅图4,图5,分别为不同填充方法的决策系数R2,均方误差MSE的数值对比,决定系数R2可正可负,当R2为负,说明填充方法性能非常差,R2最大值为1,越接近1,说明填充方法性能越好。均方误差MSE一直为正,在数据预测过程中,MSE越小,说明填充方法性能越好。可以看出,MLDPU模块填充的R2和MSE,分别为0.6836和18.36,说明采用本发明一种基于MLDPU-XGBoost算法的兰炭基多孔碳吸附重金属效率预测方法中的MLDPU模块,对实际生产过程中兰炭基多孔碳数据缺失值的补充有着比传统方法更加优异的效果。
含有缺失值的兰炭基多孔碳的实际数据集经MLDPU模块补充完整后,作为预测的原始数据集,利用本发明的XGBoost模块,建立兰炭基多孔碳吸附重金属效率预测模型,用于根据兰炭基多孔碳的相关吸附数据,直接预测出该兰炭基多孔碳对重金属的吸附效率。
步骤1,将MLDPU模块填充完整的吸附数据集All_Datasets划分为训练集和测试集,具体比例通过学习曲线进行分析设置。吸附重金属数据属于连续型数据,初步建立XGBoost模型,对模型进行实例化,然后导入重金属吸附预测最终数据集的训练集的数据对XGBoost进行训练,获得兰炭基多孔碳重金属吸附效率预测的XGBoost初步模型;
步骤2,将重金属吸附预测最终数据集的测试集导入兰炭基多孔碳重金属吸附效率的XGBoost初步模型,根据模型测试结果,利用网格搜索和学习曲线对模型的超参数进行调参,确定最优超参数,得到最佳的兰炭基多孔碳重金属吸附效率预测的XGBoost模型;
步骤3,输入新的吸附研究数据,利用最佳兰炭基多孔碳重金属吸附效率预测XGBoost模型进行重金属吸附效率预测,并评估模型的泛化性能。
请参阅图6,其为本发明所述一种基于MLDPU-XGBoost算法的兰炭基多孔碳吸附重金属效率预测方法的预测模块XGBoost模块的实施过程,在经过数据填充模块MLDPU处理后,利用XGBoost模块建立兰炭基多孔碳吸附重金属效率预测模型,并利用决策系数(R2)和均方误差(MSE)对预测模型进行评价。本发明实施例采用表2中的数据,并通过其来建立最佳的兰炭基多孔碳重金属吸附效率预测的XGBoost模型。
表2
图6为兰炭基多孔碳对Pb(Ⅱ)的吸附效率预测的最佳XGBoost模型的评估表现示意图。
本发明实施例中,首先,进行模块MLDPU填充与传统填充方法对实际数据集的填充性能对比,使用模块MLDPU对数据集的缺失位点进行填充。然后,收集相关数据建立最佳的兰炭基多孔碳重金属吸附效率预测的XGBoost模型,并利用模块XGBoost预测兰炭基多孔碳对重金属的吸附效率。实施例对比了兰炭基多孔碳对Pb(Ⅱ)吸附性能的预测值和实际值,从而评估模型表现,可以看出本吸附性能预测模型预测效果优异,使用在实际实验过程中,可以极大的减少人力物力的消耗。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种兰炭基多孔碳吸附重金属效率预测方法,其特征在于,包括如下过程:
使用机器学习算法对实际生产过程中获取的兰炭基多孔碳材料吸附重金属的数据集进行缺失位点填充,得到补全所有缺失数据的兰炭基多孔碳材料的吸附数据集;
使用极限梯度提升算法,利用所述兰炭基多孔碳材料的吸附数据集对兰炭基多孔碳吸附重金属效率进行预测;
使用机器学习算法对实际生产过程中获取的兰炭基多孔碳材料吸附重金属的数据集进行缺失位点填充,得到补全所有缺失数据的兰炭基多孔碳材料的吸附数据集,包括如下步骤:
S1.1,获取实际生产过程中兰炭基多孔碳吸附重金属的相关数据,将所述相关数据分类汇总,作为兰炭基多孔碳材料吸附重金属的原始数据集;
S1.2,对所述原始数据集进行EDA统计分析,去除所述原始数据集中的异常值,并对所述原始数据集每列进行编号,得到吸附原始数据集中每一列特征的数据缺失率;然后按编号以数据缺失率从小到大进行排序,形成新的填充顺序向量,以该新的填充顺序向量作为后续缺失数据填充顺序;
S1.3,按照所述缺失数据填充顺序,进行兰炭基多孔碳材料的吸附数据缺失值的填充,以缺失率最小的一列作为新的标签列,并以此列为标准进行所述原始数据集数据的重新排序,按照有缺失值、无缺失值将该数据集划分为两个部分;将所述新的标签列不缺失部分对应的其他特征列的部分加对应的重金属的吸附效率列作为训练集特征列,将所述新的标签列不缺失的部分作为训练集标签列,将训练集特征列和训练集标签列组成训练集;所述新的标签列缺失部分对应的其他特征列的部分加对应的吸附效率作为测试集特征列,所述新的标签列缺失的部分作为测试集标签列,将测试集特征列和测试集标签列组成测试集;
S1.4,利所述训练集对模型库中的不同机器学习模型进行训练,然后使用测试集进行测试,并对不同机器学习模型进行评估,选出最佳的吸附数据填充模型;
S1.5,利用所述最佳的吸附数据填充模型对所述原始数据集进行缺失位点填充,得到补全所有缺失数据的兰炭基多孔碳材料的吸附数据集;
使用极限梯度提升算法,利用所述兰炭基多孔碳材料的吸附数据集对兰炭基多孔碳吸附重金属效率进行预测,包括如下过程:
将补全所有缺失数据的兰炭基多孔碳材料的吸附数据集划分为训练集和测试集,初步建立XGBoost模型,对XGBoost模型进行实例化,通过所述训练集对XGBoost模型进行训练,获得兰炭基多孔碳重金属吸附效率预测的XGBoost初步模型;
利用所述测试集对所述XGBoost初步模型进行测试,根据测试结果,对所述XGBoost初步模型的超参数进行调参,确定最优超参数,根据所述最优超参数得到最佳的兰炭基多孔碳重金属吸附效率预测的XGBoost模型;
利用所述最佳的兰炭基多孔碳重金属吸附效率预测的XGBoost模型和实际生产过程中获取的兰炭基多孔碳材料吸附重金属的数据对兰炭基多孔碳吸附重金属效率进行预测。
2.根据权利要求1所述的一种兰炭基多孔碳吸附重金属效率预测方法,其特征在于,S1.1中,所述原始数据集的数据类型包括:兰炭的工业分析和元素分析数据、制备过程中的加热时间数据、制备过程中的加热速率数据、吸附过程中吸附溶液的pH数据、吸附过程中吸附溶液的重金属初始浓度数据和吸附过程的吸附时间数据中的至少一项以及兰炭基多孔碳对重金属的吸附效率。
3.根据权利要求1所述的一种兰炭基多孔碳吸附重金属效率预测方法,其特征在于,S1.4中,对不同机器学习模型进行评估时,以决策系数和均方误差对不同机器学习模型进行评估,并根据初步模型性能评分,利用网格搜索和学习曲线对机器学习模型超参数进行调参,得到最优超参数,利用最优超参数选出最佳的吸附数据填充模型。
4.根据权利要求1所述的一种兰炭基多孔碳吸附重金属效率预测方法,其特征在于,S1.5中,利用所述最佳的吸附数据填充模型对所述原始数据集进行缺失位点填充时,按所述缺失数据填充顺序重复所述S1.3,进行遍历填充,直至填充完所有数据。
5.根据权利要求1所述的一种兰炭基多孔碳吸附重金属效率预测方法,其特征在于,初步建立的XGBoost模型如下:
其中,代表初步建立模型的预测结果,i代表兰炭基多孔碳材料吸附重金属原始数据集中的样本i,K代表树的总数量,k代表第k棵树,fk(xi)代表叶子权重,xi代表样本i对应的特征向量;
XGBoost模型的目标函数Obj如下:
其中,i代表数据集中的第i个样本,n代表导入第k棵树的数据总量,yi代表原数据集第i个样本点的实际数值,代表原数据集样本点i预测数值,l()代表传统损失函数,Ω()代表模型复杂度;
对所述XGBoost初步模型的超参数进行调参,确定最优超参数时,利用网格搜索和学习曲线对XGBoost初步模型的超参数进行调参,确定最优超参数;其中,根据泛化误差来设计所述学习曲线,公式如下:
E(f;D)=bias2+var+ε2
其中,E(f;D)代表模型的泛化误差,f代表吸附集成模型,D代表未知数据基集,bias代表吸附数据偏差,var代表吸附数据方差,ε代表数据噪音。
6.一种兰炭基多孔碳吸附重金属效率预测系统,其特征在于,用于实现权利要求1-5任意一项所述的兰炭基多孔碳吸附重金属效率预测方法,所述兰炭基多孔碳吸附重金属效率预测系统包括:
MLDPU模块:用于对实际生产过程中获取的兰炭基多孔碳材料吸附重金属的数据集进行缺失位点填充,得到补全所有缺失数据的兰炭基多孔碳材料的吸附数据集;
XGBoost模块:用于使用极限梯度提升算法,利用所述兰炭基多孔碳材料的吸附数据集对兰炭基多孔碳吸附重金属效率进行预测。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至5中任意一项所述的兰炭基多孔碳吸附重金属效率预测方法。
8.一种存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的兰炭基多孔碳吸附重金属效率预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210143508.1A CN114530217B (zh) | 2022-02-16 | 2022-02-16 | 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210143508.1A CN114530217B (zh) | 2022-02-16 | 2022-02-16 | 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114530217A CN114530217A (zh) | 2022-05-24 |
CN114530217B true CN114530217B (zh) | 2024-06-07 |
Family
ID=81623256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210143508.1A Active CN114530217B (zh) | 2022-02-16 | 2022-02-16 | 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114530217B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708659A (zh) * | 2016-12-02 | 2017-05-24 | 上海电机学院 | 一种自适应最近邻缺失数据的填充方法 |
US10733515B1 (en) * | 2017-02-21 | 2020-08-04 | Amazon Technologies, Inc. | Imputing missing values in machine learning models |
CN112966447A (zh) * | 2021-03-25 | 2021-06-15 | 北京化工大学 | 一种基于自动机器学习的化学材料吸附性能预测方法及装置 |
-
2022
- 2022-02-16 CN CN202210143508.1A patent/CN114530217B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106708659A (zh) * | 2016-12-02 | 2017-05-24 | 上海电机学院 | 一种自适应最近邻缺失数据的填充方法 |
US10733515B1 (en) * | 2017-02-21 | 2020-08-04 | Amazon Technologies, Inc. | Imputing missing values in machine learning models |
CN112966447A (zh) * | 2021-03-25 | 2021-06-15 | 北京化工大学 | 一种基于自动机器学习的化学材料吸附性能预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114530217A (zh) | 2022-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932314A (zh) | 一种基于深度哈希学习的菊花图像内容检索方法 | |
CN112668630B (zh) | 一种基于模型剪枝的轻量化图像分类方法、系统及设备 | |
CN112557034B (zh) | 一种基于pca_cnns的轴承故障诊断方法 | |
CN110059716A (zh) | 一种cnn-lstm-svm网络模型的构建及mooc辍学预测方法 | |
CN111798940B (zh) | 一种基于深度神经网络算法预测超导材料的方法及装置 | |
CN114816497B (zh) | 基于bert预训练模型的链接生成方法 | |
CN112504682A (zh) | 基于粒子群优化算法的底盘发动机故障诊断方法及系统 | |
CN116316573A (zh) | 一种基于非标准贝叶斯算法优化的短期电力负荷预测方法 | |
CN115272225A (zh) | 一种基于对抗学习网络的带钢表面缺陷检测方法及系统 | |
CN115165366A (zh) | 一种旋转机械变工况故障诊断方法及系统 | |
CN114970946A (zh) | 基于深度学习模型与经验模态分解耦合的pm2.5污染浓度长时空预测方法 | |
CN114530217B (zh) | 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置 | |
CN114202060A (zh) | 基于深度神经网络的生物质活性炭吸附亚甲基蓝性能预测方法 | |
CN113077271A (zh) | 一种基于bp神经网络的企业信用评级方法及装置 | |
CN110706004B (zh) | 一种基于层次聚类的农田重金属污染物溯源方法 | |
CN113011091A (zh) | 一种自动分组的多尺度轻量型深度卷积神经网络优化方法 | |
CN116525038A (zh) | 一种水凝胶最优合成方法、系统、设备及介质 | |
CN113835964A (zh) | 基于小样本学习的云数据中心服务器能耗预测方法 | |
CN115049160A (zh) | 时空大数据的平原工业型城市碳排放量评估方法及系统 | |
Li et al. | Research on surface defect detection of solar pv panels based on pre-training network and feature fusion | |
CN114724655A (zh) | 一种储氢合金性能预测方法及其预测模型和模型建立方法 | |
CN114782740A (zh) | 结合遗传优化与极端梯度提升的遥感水质监测方法 | |
CN113837271A (zh) | 一种基于特征选择的分类改进算法 | |
CN112036397A (zh) | 一种基于深度学习的嵌入式黄瓜叶片图像识别装置 | |
CN117548234B (zh) | 一种用于泡沫浮选工况预估的级联特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |