CN115497573A - 一种炭基生物地质催化材料性质预测与制备方法 - Google Patents
一种炭基生物地质催化材料性质预测与制备方法 Download PDFInfo
- Publication number
- CN115497573A CN115497573A CN202211069754.3A CN202211069754A CN115497573A CN 115497573 A CN115497573 A CN 115497573A CN 202211069754 A CN202211069754 A CN 202211069754A CN 115497573 A CN115497573 A CN 115497573A
- Authority
- CN
- China
- Prior art keywords
- model
- biochar
- prediction
- data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E50/00—Technologies for the production of fuel of non-fossil origin
- Y02E50/10—Biofuels, e.g. bio-diesel
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Medicinal Chemistry (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种炭基生物地质催化材料性质预测与制备方法,制备方法包括:对预测结果进行标准化处理;搭建基于条件变分自编码器的生成模型;将各个目标数据输入对应的生成模型进行训练,得到预测模型;配置目标生物炭的性质参数,使用生成模型生成的数据进行逆标准化,得到目标生物炭的性质参数的数据库,将数据库导入预测模型得到对应的生物炭的性质的概率分布;配置参数选择选择误差,应用预测模型筛选得到生物炭原材料组成和制备工艺参数;根据生物炭原材料组成和制备工艺参数,制备得到目标生物炭;其中,各个候选模型对应的目标数据采用炭基生物地质催化材料性质预测方法得到。本发明提高了准确性,可广泛应用于环境保护技术领域。
Description
技术领域
本发明涉及环境保护技术领域,尤其是一种炭基生物地质催化材料性质预测与制备方法。
背景技术
土壤电活性微生物的通过胞外电子传递,驱动着铁、碳、氮元素循环及其耦合过程,直接决定了土壤镉、砷等重金属污染物的形态转化及其潜在风险。因此,如何介导或调控微生物胞外电子的传递,即催化生物电子传递,是实现对重金属、有机污染物自然消减或稳定化,实现自然恢复的有效途径。炭基功能材料,特别是低成本的生物质源的炭基功能材料具有电子传递活性,是一种极具潜力的生物地质催化材料,可有效调控土壤中胞外电子的传递、催化土壤污染物转化,最终实现土壤自然修复。该炭基生物地质催化材料的元素组成,尤其是氧碳比值和氢碳比值,氧化还原活性能力(电子接受能力和电子供给能力;如表明官能团得失电子能力强等)等特性是决定其土壤催化性能的关键。同时,由于近年来温室气体的过度排放,运用炭基生物地质催化材料也有利于碳的收集与存储,将之封存于土壤中可达数百年之久,能够帮助减缓全球气候变化。然而,炭基生物地质催化材料制备原材料来源广泛,制备工艺各不相同,导致其制备也较为粗放,对于其性质的产生缺乏明确的目标化。再则,炭基生物地质催化材料原材料、制备工艺与性质之间存在多因素交互,关系错综复杂,也难以定量研究。如需运用一种特定性质的炭基生物地质催化材料解决实际问题,选择合适的原材料与制备工艺更是困难重重。因此,为了解决炭基生物地质催化材料原材料、制备工艺与性质之间的预测与逆向设计问题,急需一套高效精准的评估与设计方法来应对这一挑战。
随着以机器学习和深度学习为代表的人工智能算法的快速发展,各类算法模型不断推陈出新,预测精度也逐步优化提高,可为现有数据构建更加细致的预测模型,实现未知性质的准确预测。近几年来,机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断等领域。在环境科学与工程中,机器学习也已用于预测、提取特征重要性、检测异常和发现新材料或者化学品等领域之中。因此,如何预测炭基地质催化的关键性质,特别是如何精准设计、定制化炭基生物地质催化材料的性质,是当前实现精准、高效土壤自然修复的关键。为此,亟需开发炭基生物地质催化材料性质预测与逆向设计完整结合的适用模型。
发明内容
有鉴于此,本发明实施例提供一种准确性高的一种炭基生物地质催化材料性质预测与制备方法。
本发明实施例的一方面提供了炭基生物地质催化材料性质预测方法,包括:
收集生物炭的历史经验数据;
对所述历史经验数据进行补缺处理以及标准化处理,得到训练数据和验证数据;
将所述训练数据输入XGBoost模型进行预测训练,得到多个候选模型;
将所述验证数据输入所述候选模型进行对应的学习,使得各个候选模型能够提取对应的特征信息;
根据学习好的候选模型,得到对应各个候选模型的对应目标数据作为预测结果。
可选地,所述将所述训练数据输入XGBoost模型进行预测训练,得到多个候选模型,包括:
将训练数据输入搭建的XGBoost模型;
使用不同参数通过五折交叉验证进行多次预测;
根据决定系数和均方根误差对五折交叉验证的结果进行评价,对比多次预测的评价结果后,选择评价分数最高的参数组合对应的XGBoost模型用于后续预测;
其中,所述XGBoost模型中的参数包括lr、random、n_est、max_depth、gramma、alpha。
可选地,所述方法还包括:
通过SHAP方法对所述预测结果进行分析,得到各种生物炭性质的重要性排序。
本发明实施例的另一方面还提供了一种炭基生物地质催化材料制备方法,包括:
对候选模型输出的预测结果进行标准化处理,得到各个候选模型对应的目标数据;
利用TensorFlow深度学习框架搭建基于条件变分自编码器的生成模型;
将各个所述目标数据输入对应的生成模型进行训练,得到预测模型;
在所述预测模型中配置目标生物炭的性质参数,使用所述生成模型生成的数据进行逆标准化,得到所述目标生物炭的性质参数的数据库,将所述数据库导入所述预测模型,得到对应的生物炭的性质的概率分布;
配置参数选择选择误差,应用预测模型对数据库进行筛选,得到最终合适的生物炭原材料组成和制备工艺参数;
根据所述生物炭原材料组成和制备工艺参数,制备得到目标生物炭;
其中,所述各个候选模型对应的目标数据采用如前面所述的炭基生物地质催化材料性质预测方法得到。
本发明实施例的另一方面还提供了一种炭基生物地质催化材料性质预测装置,包括:
第一模块,用于收集生物炭的历史经验数据;
第二模块,用于对所述历史经验数据进行补缺处理以及标准化处理,得到训练数据和验证数据;
第三模块,用于将所述训练数据输入XGBoost模型进行预测训练,得到多个候选模型;
第四模块,用于将所述验证数据输入所述候选模型进行对应的学习,使得各个候选模型能够提取对应的特征信息;
第五模块,用于根据学习好的候选模型,得到对应各个候选模型的对应目标数据作为预测结果。
可选地,所述装置还包括:
第六模块,用于通过SHAP方法对所述预测结果进行分析,得到各种生物炭性质的重要性排序。
本发明实施例的另一方面还提供了一种炭基生物地质催化材料制备装置,包括:
第七模块,用于对候选模型输出的预测结果进行标准化处理,得到各个候选模型对应的目标数据;
第八模块,用于利用TensorFlow深度学习框架搭建基于条件变分自编码器的生成模型;
第九模块,用于将各个所述目标数据输入对应的生成模型进行训练,得到预测模型;
第十模块,用于在所述预测模型中配置目标生物炭的性质参数,使用所述生成模型生成的数据进行逆标准化,得到所述目标生物炭的性质参数的数据库,将所述数据库导入所述预测模型,得到对应的生物炭的性质的概率分布;
第十一模块,用于配置参数选择选择误差,应用预测模型对数据库进行筛选,得到最终合适的生物炭原材料组成和制备工艺参数;
第十二模块,用于根据所述生物炭原材料组成和制备工艺参数,制备得到目标生物炭;
其中,所述各个候选模型对应的目标数据采用如前面所述的炭基生物地质催化材料性质预测装置得到。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例在生物炭性质预测方法的过程中,首先收集生物炭的历史经验数据;对所述历史经验数据进行补缺处理以及标准化处理,得到训练数据和验证数据;将所述训练数据输入XGBoost模型进行预测训练,得到多个候选模型;将所述验证数据输入所述候选模型进行对应的学习,使得各个候选模型能够提取对应的特征信息;根据学习好的候选模型,得到对应各个候选模型的对应目标数据作为预测结果。本发明在生物炭制备方法的过程中,对候选模型输出的预测结果进行标准化处理,得到各个候选模型对应的目标数据;利用TensorFlow深度学习框架搭建基于条件变分自编码器的生成模型;将各个所述目标数据输入对应的生成模型进行训练,得到预测模型;在所述预测模型中配置目标生物炭的性质参数,使用所述生成模型生成的数据进行逆标准化,得到所述目标生物炭的性质参数的数据库,将所述数据库导入所述预测模型,得到对应的生物炭的性质的概率分布;配置参数选择选择误差,应用预测模型对数据库进行筛选,得到最终合适的生物炭原材料组成和制备工艺参数;根据所述生物炭原材料组成和制备工艺参数,制备得到目标生物炭;其中,所述各个候选模型对应的目标数据采用炭基生物地质催化材料性质预测方法得到。本发明的准确性高,根据生物炭性质数据,利用条件变分自编码器,构建原材料组成与制备工艺参数生成模型,与预测模型相结合,可实现对所需性质生物炭的逆向设计。在建模之后,也使用具体验证实验考察模型的设计效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的整体步骤流程图;
图2是训练集和测试集的实测值和预测值的拟合图;
图3为运用SHAP方法分析训练好的模型,针对不同输入特性得到的特征重要性分析和特征密度散点图;
图4为SHAP方法分析热解温度对模型影响的部分依赖图;
图5为不同参数主导情况下的制备工艺的实际实验对比验证结果示意图;
图6为本发明实施例挑选的一组实验结果的示意图;
图7为本发明实施例的生物炭性质的概率分布示意图;
图8为本发明实施例实验结果对比图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明实施例的一方面提供了炭基生物地质催化材料性质预测方法,包括:
收集生物炭的历史经验数据;
对所述历史经验数据进行补缺处理以及标准化处理,得到训练数据和验证数据;
将所述训练数据输入XGBoost模型进行预测训练,得到多个候选模型;
将所述验证数据输入所述候选模型进行对应的学习,使得各个候选模型能够提取对应的特征信息;
根据学习好的候选模型,得到对应各个候选模型的对应目标数据作为预测结果。
可选地,所述将所述训练数据输入XGBoost模型进行预测训练,得到多个候选模型,包括:
将训练数据输入搭建的XGBoost模型;
使用不同参数通过五折交叉验证进行多次预测;
根据决定系数和均方根误差对五折交叉验证的结果进行评价,对比多次预测的评价结果后,选择评价分数最高的参数组合对应的XGBoost模型用于后续预测;
其中,所述XGBoost模型中的参数包括lr、random、n_est、max_depth、gramma、alpha。
可选地,所述方法还包括:
通过SHAP方法对所述预测结果进行分析,得到各种生物炭性质的重要性排序。
本发明实施例的另一方面还提供了一种炭基生物地质催化材料制备方法,包括:
对候选模型输出的预测结果进行标准化处理,得到各个候选模型对应的目标数据;
利用TensorFlow深度学习框架搭建基于条件变分自编码器的生成模型;
将各个所述目标数据输入对应的生成模型进行训练,得到预测模型;
在所述预测模型中配置目标生物炭的性质参数,使用所述生成模型生成的数据进行逆标准化,得到所述目标生物炭的性质参数的数据库,将所述数据库导入所述预测模型,得到对应的生物炭的性质的概率分布;
配置参数选择选择误差,应用预测模型对数据库进行筛选,得到最终合适的生物炭原材料组成和制备工艺参数;
根据所述生物炭原材料组成和制备工艺参数,制备得到目标生物炭;
其中,所述各个候选模型对应的目标数据采用如前面所述的炭基生物地质催化材料性质预测方法得到。
本发明实施例的另一方面还提供了一种炭基生物地质催化材料性质预测装置,包括:
第一模块,用于收集生物炭的历史经验数据;
第二模块,用于对所述历史经验数据进行补缺处理以及标准化处理,得到训练数据和验证数据;
第三模块,用于将所述训练数据输入XGBoost模型进行预测训练,得到多个候选模型;
第四模块,用于将所述验证数据输入所述候选模型进行对应的学习,使得各个候选模型能够提取对应的特征信息;
第五模块,用于根据学习好的候选模型,得到对应各个候选模型的对应目标数据作为预测结果。
可选地,所述装置还包括:
第六模块,用于通过SHAP方法对所述预测结果进行分析,得到各种生物炭性质的重要性排序。
本发明实施例的另一方面还提供了一种炭基生物地质催化材料制备装置,包括:
第七模块,用于对候选模型输出的预测结果进行标准化处理,得到各个候选模型对应的目标数据;
第八模块,用于利用TensorFlow深度学习框架搭建基于条件变分自编码器的生成模型;
第九模块,用于将各个所述目标数据输入对应的生成模型进行训练,得到预测模型;
第十模块,用于在所述预测模型中配置目标生物炭的性质参数,使用所述生成模型生成的数据进行逆标准化,得到所述目标生物炭的性质参数的数据库,将所述数据库导入所述预测模型,得到对应的生物炭的性质的概率分布;
第十一模块,用于配置参数选择选择误差,应用预测模型对数据库进行筛选,得到最终合适的生物炭原材料组成和制备工艺参数;
第十二模块,用于根据所述生物炭原材料组成和制备工艺参数,制备得到目标生物炭;
其中,所述各个候选模型对应的目标数据采用如前面所述的炭基生物地质催化材料性质预测装置得到。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
下面结合说明书附图,对本发明的具体实现过程进行详细描述:
本发明的主要目的在于克服现有技术的缺点与不足,提供了一种精准制备生物炭的方法,该方法一方面根据生物炭原材料组成数据与制备工艺参数,利用XGBoost算法,构建多个机器学习模型,可更加准确地独立预测生物炭电子接受能力(EAC)、电子供给能力(EDC)、O/C比值和H/C比值等性质,并且对模型进行SHAP分析来更加合理的解释模型,提取特征重要性,从而不需要进行实验,就能快速得到制备的生物炭性质参数;另一方面,根据生物炭性质数据,利用条件变分自编码器(CVAE),构建原材料组成与制备工艺参数生成模型,与预测模型相结合,可实现对所需性质生物炭的逆向制备。在建模之后,也使用具体验证实验考察模型的制备效果。
本发明的目的在于提供一种精准制备生物炭的方法,既包括生物炭性质正向的预测,也包括生物炭性质逆向制备中原材料与制备工艺的参数选择。
本发明的目的通过以下的技术方案实现:
步骤1:收集已发表文章中与生物炭相关的数据,包括生物炭性质(EAC、EDC、O/C和H/C比值),以及性质相应的生物炭原材料组成与制备工艺参数;
其中,EAC代表电子接受容量,指炭基生物地质催化材料在还原环境中可得到的最大电子数量,反映了其表面官能团的氧化能力。
EDC代表电子供给容量,指炭基生物地质催化材料在氧化环境中可提供的最大电子数量,反映了其表面官能团的还原能力。
H/C,O/C原子比值是碳化过程中,涉及炭基生物地质催化材料化学结构的变化,主要是官能团的分离。碳化过程的进展可以通过原子比的演变来描述。
步骤2:运用多重插补填充缺失数据,校对之后对输入特征进行数据标准化处理,使所有参数处于相同的数据范围;
步骤3:将训练数据输入搭建的XGBoost模型,使用不同参数通过五折交叉验证进行多次预测,对比后各自选择参数组合最佳的XGBoost模型用于后续预测,其中,模型需要调整的参数有lr、random、n_est、max_depth、gramma、alpha等;
其中,learning_rate代表学习率,学习率越大越快收敛,但是容易过拟合,本实施例在调参时,一般设置为0.01到0.5之间。
n_est代表生成的最大树的数目,也是最大的迭代次数,本实施例调参时,一般设置为1到400之间。
max_depth代表最大深度,本实施例常用3-10之间的数字。这个值是用来控制过拟合的。max_depth越大,模型学习的更加具体。
gamma:系统默认为0,本实施例也常用0。
在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。gamma指定了节点分裂所需的最小损失函数下降值。这个参数的值越大,算法越保守。因为gamma值越大的时候,损失函数下降更多才可以分裂节点。所以树生成的时候更不容易分裂节点。
alpha:默认为0。可以应用在高维度的情况下,使得算法更快。
步骤4:将验证集数据输入最佳的四个的XGBoost模型中,让模型分别学习并提取重要信息,并进行结果预测,最后四个模型分别输出EAC、EDC、O/C和H/C比值的预测值;
步骤5:运用SHAP分析,分别解释训练好的四个模型,并且提取特征重要性。
以上为生物炭性质预测部分,以下为生物炭逆向制备中原材料与制备工艺的参数选择部分:
步骤1:对输入特征(四个性质数据)分别进行标准化处理;
步骤2:利用TensorFlow深度学习框架搭建基于条件变分自编码器(CVAE)的生成模型;
步骤3:将四个输入特征分别输入搭建好的四个生成模型进行训练,使用不同参数进行多次数据生成,对比后各自选择参数组合最佳的生成模型用于后续参数生成,其中,模型需要调整的参数有batch_size、epochs、reduce_lr等;
步骤4:加载上述已训练的对应的预测模型,设置所需的具体生物炭性质参数,使用训练好的生成模型生成1000组生成数据,进行逆标准化,得到1000组原材料组成与制备工艺参数,形成一个所需性质参数的数据库,数据库导入预测模型,可以得到对应的生物炭性质的概率分布;
步骤5:设置参数选择选择误差(erro_value),应用预测模型对数据库进行筛选,得到最终合适的生物炭原材料组成和制备工艺参数。
最终,根据上述步骤5得到的最终合适的生物炭原材料组成和制备工艺参数,制备得到目标生物炭。
下面通过不同实施例对本发明的实现过程进行详细描述:
实施例1:建立预测模型与模型评估
步骤1:收集已发表文章中与生物炭相关的数据,包括生物炭性质(EAC、EDC、O/C和H/C比值),以及性质相应的生物炭原材料组成与制备工艺参数;
步骤2:运用多重插补填充缺失数据,校对之后对输入特征进行数据标准化处理,使所有参数处于相同的数据范围;
步骤3:将训练数据输入搭建的XGBoost模型,使用不同参数通过五折交叉验证进行多次预测,对比后各自选择参数组合最佳的XGBoost模型用于后续预测,其中,模型需要调整的参数有lr、random、n_est、max_depth、gramma、alpha等;
步骤4:将验证集数据输入最佳的四个的XGBoost模型中,让模型分别学习并提取重要信息,并进行结果预测,最后四个模型分别输出EAC、EDC、O/C和H/C比值的预测值;
步骤5:运用SHAP分析,分别解释训练好的四个模型,并且提取特征重要性。
具体如下:
在本实施例中,基于python作为程序编写的计算机语言。首先通过关键词搜索收集37篇关于生物炭性质与制备已发表的研究,从这些研究的图表中收集了193条相关数据,其中关于EAC的数据集有107组,EDC的数据集有117组,O/C比值的数据集有153组,H/C比值的数据集有157组。然后,将所有数据的单位进行了统一,利用多重插补方法填补了缺失值并进行校对,最后将所有的输入特征进行了标准化处理。与此同时,对四个数据集进行了正态性检验和相关性分析,以确保本实施例收集的数据具有多样性和广泛性,且每一项特征参数都是独立的贡献于模型,有利于构建鲁棒性好的预测模型。
本实施例分别把四个数据集分出80%的数据作为训练集,剩下20%作为测试集,用于验证模型效果。训练集主要用于训练模型和参数寻优,再分成五份用于五折交叉验证,选取其中的四份用于训练模型,最后一份用于评价训练的模型,如此重复五次,将预测的结果拼接在一起和原训练集真实结果进行评分,用决定系数(R2)和均方根误差(RMSE)作为这次五折验证对模型进行评价。这样在不断调整参数的过程中比较出五折交叉验证评价最好的模型对应的参数,将这些参数值一一记录下来,最终得到每个性质独立且个性化的预测模型。
再把四个完整独立且个性化的模型用于预测剩下的20%的测试集,使用决定系数和均方根误差作为评价模型稳定性和模型外部预测能力的标准。所得EAC数据集的五折交叉验证结果的决定系数为0.80,均方根误差为0.12;外部验证的决定系数为0.79,均方根误差为0.14。所得EDC数据集的五折交叉验证结果的决定系数为0.82,均方根误差为0.10;外部验证的决定系数为0.69,均方根误差为0.11;所得H/C比值数据集的五折交叉验证结果的决定系数为0.95,均方根误差为0.05;外部验证的决定系数为0.96,均方根误差为0.05;所得O/C比值数据集的五折交叉验证结果的决定系数为0.83,均方根误差为0.05;外部验证的决定系数为0.88,均方根误差为0.03;这表明模型有较好的稳定性和外部预测能力。
图2是训练集和测试集的实测值和预测值的拟合图,图2中的a是EAC数据集的拟合图,图2中的b是EDC数据集的拟合图,图2中的c是H/C比值数据集的拟合图,图2中的d是O/C比值数据集的拟合图。
图3运用SHAP方法分析训练好的模型,不同输入特性对EAC(图3中的a)、EDC(图3中的b)、H/C比值(图3中的c)和O/C比值(图3中的d)的特征重要性分析和特征密度散点图。
图4是SHAP方法分析热解温度对模型影响的部分依赖图。通过SHAP方法分析,可知热解温度对于生物炭组成具有决定性影响,而热解温度和停留时间对生物炭氧化还原活性具有重要影响。
实施例2:设计一种EAC性质占主导和一种EDC性质占主导的生物炭
步骤1:对输入特征(四个性质数据)分别进行标准化处理;
步骤2:利用TensorFlow深度学习框架搭建基于变分自编码器(VAE)的生成模型;
步骤3:将EDC作为输入特征输入搭建好的生成模型进行训练,使用不同参数进行多次数据生成,对比后各自选择参数组合最佳的生成模型用于后续参数生成,其中,模型需要调整的参数有batch_size、epochs、reduce_lr等;
步骤4:加载上述已训练好的对应的预测模型,使用训练好的生成模型生成100组生成数据,进行逆标准化,得到100组原材料组成与制备工艺参数,形成一个参数数据库。
步骤5:应用预测模型对数据库进行分类,得到EAC或者EDC占主导的生物炭原材料组成和制备工艺参数库。
步骤6:选择其中两组参数进行实际实验,验证模型逆向设计效果。
具体如下:
本实验基于python作为程序编写的计算机语言,利用TensorFlow深度学习框架搭建基于变分自编码器(VAE)的EDC生成模型。运用生成模型生成100组不同的生物炭原材料组成与制备工艺参数,全部导入EAC和EDC的预测模型,对比EAC与EDC数值大小可以把100组参数划分为EAC占主导(EAC>EDC)或者EDC(EAC<EDC)占主导的两部分参数,通过生物质组成三元图(如图5所示,图5中的a表示EAC占主导的情况,图5中的b表示EDC占主导的情况)与制备工艺对比,可以各自选择出一组合适的参数进行实际实验对比验证。结果表明,图6所示,在EAC占主导的参数中选择一组进行实验,得到的实验结果也是EAC占主导;在EDC占主导的参数中选择一组进行实验,得到的实验结果也是EDC占主导。
实施例3:联合设计一种具备多种性质的生物炭
步骤1:对输入特征(四个性质数据)分别进行标准化处理;
步骤2:利用TensorFlow深度学习框架搭建基于条件变分自编码器(CVAE)的生成模型;
步骤3:将四个输入特征分别输入搭建好的四个生成模型进行训练,使用不同参数进行多次数据生成,对比后各自选择参数组合最佳的生成模型用于后续参数生成,其中,模型需要调整的参数有batch_size、epochs、reduce_lr等;
步骤4:加载上述已训练的对应的预测模型,设置所需的具体生物炭性质参数,使用训练好的生成模型生成1000组生成数据,进行逆标准化,得到1000组原材料组成与制备工艺参数,形成一个所需性质参数的数据库,数据库导入预测模型,可以得到对应的生物炭性质的概率分布;
步骤5:设置参数选择误差(erro_value),应用预测模型对数据库进行筛选,得到最终合适的生物炭原材料组成和制备工艺参数。
具体如下:
本实验基于python作为程序编写的计算机语言,利用TensorFlow深度学习框架搭建基于条件变分自编码器(CVAE)的生成模型。根据统计分析,设计一种EAC数值为0.39,EDC数值为0.23,H/C比值为0.47以及O/C比值为0.18的生物炭。设置对应的生物炭性质数值,使用训练好的生成模型各自生成1000组生成数据,进行逆标准化,得到各自1000组原材料组成与制备工艺参数,形成一个所需性质参数的数据库,数据库导入预测模型,可以得到对应的生物炭性质的概率分布(如图7中的a所示)。设置参数筛选误差(erro_value=0.005),得到符合EAC设计目标的参数共30组,符合EDC设计目标的参数共41组,符合H/C比值设计目标的参数共11组,符合O/C比值设计目标的参数共26组。根据生物质三元图聚合和能耗影响选择(如图7中的b所示),得到一组可行的具体设计参数。用这组参数进行实验验证,得到最终的结果对比,如图8所示,结果显示,逆向设计筛选出的生物炭原材料组成与工艺参数具有实际可行的设计效果。
综上所述,相较于现有技术,本发明具有以下优点:
1.本发明所构建的模型可以预测多种生物炭的不同性质,并且可逆向设计合成生物炭的所需原材料组成与制备工艺参数。该方法操作方便、成本低廉、流程简单,可根据实际需要精准调控生物炭合成,无基础的研究人员也可快捷使用。
2.本发明所使用的方法不需要实验操作,输入生物炭的原材料组成与制备工艺即可预测生物炭的不同性质;也可根据需要的性质特点,生成并筛选出所以的生物炭原材料组成与制备工艺。
3.本发明的预测模型构建采用XGBoost方法,该方法为机器学习模型中比较优秀的模型,可以自动提取特征信息,无需复杂计算。逆向设计中生成模型的构建采用条件变分自编码器,该模型结构简单,运算快捷,性能强大,无需调整即可自动完成参数筛选。
4.所单独构建预测模型均进过五折交叉验证和参数优化调整,具有很强的稳定性与更好的预测能力。所单独构建的生成模型也均经过参数优化调整,具有强大的目标参数生成能力。
5.构建预测模型运用SHAP方法进行可视化分析,可进一步探索影响生物炭性质的关键因素。逆向设计过程结构严谨,流程完备,具有在不同领域应用的可移植性。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种炭基生物地质催化材料性质预测方法,其特征在于,包括:
收集生物炭的历史经验数据;
对所述历史经验数据进行补缺处理以及标准化处理,得到训练数据和验证数据;
将所述训练数据输入XGBoost模型进行预测训练,得到多个候选模型;
将所述验证数据输入所述候选模型进行对应的学习,使得各个候选模型能够提取对应的特征信息;
根据学习好的候选模型,得到对应各个候选模型的对应目标数据作为预测结果。
2.根据权利要求1所述的炭基生物地质催化材料性质预测方法,其特征在于,所述将所述训练数据输入XGBoost模型进行预测训练,得到多个候选模型,包括:
将训练数据输入搭建的XGBoost模型;
使用不同参数通过五折交叉验证进行多次预测;
根据决定系数和均方根误差对五折交叉验证的结果进行评价,对比多次预测的评价结果后,选择评价分数最高的参数组合对应的XGBoost模型用于后续预测;
其中,所述XGBoost模型中的参数包括lr、random、n_est、max_depth、gramma、alpha。
3.根据权利要求1所述的炭基生物地质催化材料性质预测方法,其特征在于,所述方法还包括:
通过SHAP方法对所述预测结果进行分析,得到各种生物炭性质的重要性排序。
4.一种炭基生物地质催化材料制备方法,其特征在于,包括:
对候选模型输出的预测结果进行标准化处理,得到各个候选模型对应的目标数据;
利用TensorFlow深度学习框架搭建基于条件变分自编码器的生成模型;
将各个所述目标数据输入对应的生成模型进行训练,得到预测模型;
在所述预测模型中配置目标生物炭的性质参数,使用所述生成模型生成的数据进行逆标准化,得到所述目标生物炭的性质参数的数据库,将所述数据库导入所述预测模型,得到对应的生物炭的性质的概率分布;
配置参数选择选择误差,应用预测模型对数据库进行筛选,得到最终合适的生物炭原材料组成和制备工艺参数;
根据所述生物炭原材料组成和制备工艺参数,制备得到目标生物炭;
其中,所述各个候选模型对应的目标数据采用如权利要求1所述的炭基生物地质催化材料性质预测方法得到。
5.一种炭基生物地质催化材料性质预测装置,其特征在于,包括:
第一模块,用于收集生物炭的历史经验数据;
第二模块,用于对所述历史经验数据进行补缺处理以及标准化处理,得到训练数据和验证数据;
第三模块,用于将所述训练数据输入XGBoost模型进行预测训练,得到多个候选模型;
第四模块,用于将所述验证数据输入所述候选模型进行对应的学习,使得各个候选模型能够提取对应的特征信息;
第五模块,用于根据学习好的候选模型,得到对应各个候选模型的对应目标数据作为预测结果。
6.根据权利要求5所述的炭基生物地质催化材料性质预测装置,其特征在于,还包括:
第六模块,用于通过SHAP方法对所述预测结果进行分析,得到各种生物炭性质的重要性排序。
7.一种炭基生物地质催化材料制备装置,其特征在于,包括:
第七模块,用于对候选模型输出的预测结果进行标准化处理,得到各个候选模型对应的目标数据;
第八模块,用于利用TensorFlow深度学习框架搭建基于条件变分自编码器的生成模型;
第九模块,用于将各个所述目标数据输入对应的生成模型进行训练,得到预测模型;
第十模块,用于在所述预测模型中配置目标生物炭的性质参数,使用所述生成模型生成的数据进行逆标准化,得到所述目标生物炭的性质参数的数据库,将所述数据库导入所述预测模型,得到对应的生物炭的性质的概率分布;
第十一模块,用于配置参数选择选择误差,应用预测模型对数据库进行筛选,得到最终合适的生物炭原材料组成和制备工艺参数;
第十二模块,用于根据所述生物炭原材料组成和制备工艺参数,制备得到目标生物炭;
其中,所述各个候选模型对应的目标数据采用如权利要求5所述的炭基生物地质催化材料性质预测装置得到。
8.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至4中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至4中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211069754.3A CN115497573B (zh) | 2022-09-02 | 2022-09-02 | 一种炭基生物地质催化材料性质预测与制备方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211069754.3A CN115497573B (zh) | 2022-09-02 | 2022-09-02 | 一种炭基生物地质催化材料性质预测与制备方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115497573A true CN115497573A (zh) | 2022-12-20 |
CN115497573B CN115497573B (zh) | 2023-05-19 |
Family
ID=84468028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211069754.3A Active CN115497573B (zh) | 2022-09-02 | 2022-09-02 | 一种炭基生物地质催化材料性质预测与制备方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497573B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109716346A (zh) * | 2016-07-18 | 2019-05-03 | 河谷生物组学有限责任公司 | 分布式机器学习系统、装置和方法 |
CN112597356A (zh) * | 2020-12-02 | 2021-04-02 | 京东数字科技控股股份有限公司 | 模型训练方法、个性化数据推荐方法、装置及电子设备 |
CN114141316A (zh) * | 2021-10-29 | 2022-03-04 | 广州大学 | 一种基于谱图分析的有机物生物毒性预测方法及系统 |
CN114446410A (zh) * | 2021-12-17 | 2022-05-06 | 无限极(中国)有限公司 | 基于XGBoost的无机砷含量预测方法、装置及介质 |
CN114509814A (zh) * | 2020-10-28 | 2022-05-17 | 中国石油化工股份有限公司 | 一种叠前地震资料随机噪音压制方法及系统 |
CN114693347A (zh) * | 2022-03-23 | 2022-07-01 | 东方合智数据科技(广东)有限责任公司 | 一种基于原纸价格的数据处理方法、系统及终端 |
-
2022
- 2022-09-02 CN CN202211069754.3A patent/CN115497573B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109716346A (zh) * | 2016-07-18 | 2019-05-03 | 河谷生物组学有限责任公司 | 分布式机器学习系统、装置和方法 |
CN114509814A (zh) * | 2020-10-28 | 2022-05-17 | 中国石油化工股份有限公司 | 一种叠前地震资料随机噪音压制方法及系统 |
CN112597356A (zh) * | 2020-12-02 | 2021-04-02 | 京东数字科技控股股份有限公司 | 模型训练方法、个性化数据推荐方法、装置及电子设备 |
CN114141316A (zh) * | 2021-10-29 | 2022-03-04 | 广州大学 | 一种基于谱图分析的有机物生物毒性预测方法及系统 |
CN114446410A (zh) * | 2021-12-17 | 2022-05-06 | 无限极(中国)有限公司 | 基于XGBoost的无机砷含量预测方法、装置及介质 |
CN114693347A (zh) * | 2022-03-23 | 2022-07-01 | 东方合智数据科技(广东)有限责任公司 | 一种基于原纸价格的数据处理方法、系统及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN115497573B (zh) | 2023-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674604B (zh) | 基于多维时序帧卷积lstm的变压器dga数据预测方法 | |
Eisenhauer et al. | From patterns to causal understanding: structural equation modeling (SEM) in soil ecology | |
Zhang et al. | Evolutionary membrane computing: a comprehensive survey and new results | |
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
Wang et al. | Principles, research status, and prospects of feature engineering for data-driven building energy prediction: A comprehensive review | |
CN102073708A (zh) | 面向大规模不确定图数据库的子图查询方法 | |
CA3111632A1 (en) | System and method for anaerobic digestion process assessment, optimization and/or control | |
CN109858709A (zh) | 一种优化焦炭生产的方法、装置和设备 | |
CN103605611A (zh) | 一种基于遗传算法的测试用例优化方法 | |
Yuan et al. | Evoq: Mixed precision quantization of dnns via sensitivity guided evolutionary search | |
CN114970926A (zh) | 一种模型训练方法、企业经营风险预测方法和装置 | |
CN112949904A (zh) | 一种基于特征选择与多层级深度迁移学习的风电场短期功率预测方法 | |
CN114662793A (zh) | 基于可解释分层模型的业务流程剩余时间预测方法与系统 | |
CN104573004B (zh) | 一种基于双阶遗传计算的基因表达数据的双聚类方法 | |
CN115497573B (zh) | 一种炭基生物地质催化材料性质预测与制备方法 | |
CN113742204A (zh) | 一种基于模糊测试的深度学习算子测试工具 | |
CN113793645A (zh) | 一种基于机器学习模型的堆肥腐熟度预测方法 | |
Grégoire et al. | Innovative multidisciplinary method using Machine Learning to define human behaviors and environments during the Caune de l’Arago (Tautavel, France) Middle Pleistocene occupations | |
Carbone et al. | Emulating Expert Insight: A Robust Strategy for Optimal Experimental Design | |
CN117709524A (zh) | 一种基于贝叶斯优化的钢铁行业碳排放预测方法及系统 | |
CN117591981A (zh) | 一种基于AutoML的电力正向有功总值异常检测方法及系统 | |
Wu | Green building development for a sustainable environment with artificial intelligence technology | |
Jayamanne et al. | HMC Techniques for Reducing the Uncertainty of Gas-Lifted Oil Field Model | |
Franke et al. | Decision support oriented Enterprise Architecture metamodel management using classification trees | |
Grégoire et al. | Innovative multidisciplinary method using Machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |