CN114141318A

CN114141318A - 一种基于hpc与ai融合的高效电催化剂筛选方法和系统

Info

Publication number: CN114141318A
Application number: CN202111457726.4A
Authority: CN
Inventors: 唐卓; 潘帅; 曹嵘晖; 纪军刚; 尹旦; 宋柏森; 朱纯霞; 赵环
Original assignee: Hunan University; Shenzhen Zhengtong Electronics Co Ltd
Current assignee: Hunan University; Shenzhen Zhengtong Electronics Co Ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-04
Anticipated expiration: 2041-12-02
Also published as: CN114141318B

Abstract

本发明公开了一种基于HPC与AI融合的高效电催化剂筛选方法，其特征在于，包括：采集多个原始晶体结构，获取每个原始晶体结构的多个非等效切割表面和多个吸附位点，所有原始晶体结构的所有切割表面和所有吸附位点构成吸附数据集，针对吸附数据集中的每个吸附位点而言，对该吸附位点进行解析，以获取该吸附位点对应的特征信息，包括原子特征、相邻特征、以及连接距离特征，从所有原始晶体结构中选择多个原始晶体结构，将选择的每个原始晶体结构的每个吸附位点对应的特征信息输入训练好的卷积‑高斯过程模型中，以得到每个吸附位点的预测吸附能ΔE作为目标输出结果。本发明能够解决现有的实验筛选方法筛选的高成本和周期长的技术问题。

Description

一种基于HPC与AI融合的高效电催化剂筛选方法和系统

技术领域

本发明属于计算化学领域，更具体地，涉及一种基于高性能计算(HighPerformance Computing，简称HPC)与人工智能(Artificial Intelligence，简称AI)融合的高效电催化剂筛选方法和系统。

背景技术

电化学的发展使得本发明的生活发生了翻天覆地的变化。如目前的新能源电池，基因分析、传染病检测和食品安全等的生物传感器，电解工业，环境保护的电渗透等，电化学在这些领域均极具应用前景。同时，电化学能源的存储与转化能够利用清洁和可再生能源，在解决当前以化石燃料为基础的能源体系所带来的环境污染和资源枯竭问题极具潜力。然而，目前工业化应用中普遍存在效率低下且不稳定的瓶颈，突破该瓶颈的关键要素是针对每种电化学反应寻找到高效、稳定的催化剂。因此，如何从海量的材料，尤其是金属合金材料中找到适合的催化剂，是目前解决该瓶颈的重要手段之一。

为了达到对反应物有效的催化活化作用，通常催化剂应具备以下性能：

1.高催化活性。能够实现所需要的催化反应，是衡量催化剂效能大小的标准；

2.高选择性。即在一定条件下，某一催化剂只对某一化学反应起催化作用；

3.高稳定性。指催化剂在使用过程中保持其活性和选择性不变的能力。

目前的电催化剂筛选方法主要分为两类，一类是在科学经验的指导下，科研人员通过合理的推测对某些催化剂进行表面修饰或者改进，再通过实验验证该催化剂的催化效果；另一类是通过使用大数据和智能学习的技术在，该项技术已经成为了分析处理科研数据的一项有效方法，基于特定理论的数值计算也给催化剂的筛选带来了新的突破点，即借助密度泛函理论(Density Functional Theory，简称DFT)计算的高精准度和便利性，机器学习的引入可以也帮助构建多尺度、不同构型的纳米材料。尤其针对复杂催化体系，不同的活性位点和反应活性的预测能够节约大量实验时间与成本。

然而，上述两类电催化剂筛选方法仍然存在一些不可忽略的技术问题：

第一、上述第一种方法受到严苛的客观实验环境限制，需要用户掌握深厚的理论基础和拥有熟练的操作技能，并且由于资源有限而导致其筛选的高成本和周期长的问题。

第二、上述第二种方法的工作流需要用户拥有一定理论知识储备，模型建立过程比较繁琐，从而导致现有的任务和计算管理系统配置耗时长，理论计算与机器学习模型分离而导致的筛选效率低的问题。

第三、上述第二种方法虽然结合及其学习与大数据技术，但是为了满足特定的催化剂需求，在已知的催化剂体系里面难以找到满足机器学习所需要的海量数据，这就导致了机器学习模型因样本不足而导致的模型性能较差，预测精确度不高的问题；另外在庞大的筛选空间下，现有的理论计算筛选仍然存在算力不足的问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于HPC与AI融合的高效电催化剂筛选方法和系统，其目的在于，解决现有的实验筛选方法需要用户掌握深厚的理论基础和拥有熟练的操作技能，并且由于资源有限而导致其筛选的高成本和周期长的技术问题，以及现有的数值计算方法由于现有的任务和计算管理系统配置耗时长，理论计算与机器学习模型分离而导致筛选效率低的技术问题，以及机器学习模型因样本不足而导致模型性能较差、预测精确度不高的技术问题，以及在庞大的筛选空间下，现有的理论计算筛选仍然存在算力不足的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于HPC与AI融合的高效电催化剂筛选方法，包括如下步骤：

(1)采集多个原始晶体结构，获取每个原始晶体结构的多个非等效切割表面和多个吸附位点，所有原始晶体结构的所有切割表面和所有吸附位点构成吸附数据集；

(2)针对步骤(1)得到的吸附数据集中的每个吸附位点而言，对该吸附位点进行解析，以获取该吸附位点对应的特征信息，包括原子特征、相邻特征、以及连接距离特征。

(3)从步骤(2)得到的所有原始晶体结构中选择多个原始晶体结构，将选择的每个原始晶体结构的每个吸附位点对应的特征信息输入训练好的卷积-高斯过程(Convolution-Fed Gaussian Process，简称CFGP)模型中，以得到每个吸附位点的预测吸附能ΔE作为目标输出结果。

(4)设置计数器i＝1；

(5)判断i是否大于步骤(3)选择的吸附位点的总数，如果是则进入步骤(8)，否则进入步骤(6)；

(6)根据火山关系图判断步骤(3)选择的第i个吸附位点的预测吸附能是否处于火山关系图中的最优吸附值范围内，如果是则进入步骤(7)，否则设置计数器i＝i+1，并返回步骤(5)。

(7)使用密度泛函理论DFT方法对第i个吸附位点对应的特征信息进行计算，并判断计算结果与步骤(3)得到的该第i个吸附位点的预测吸附能之间的误差值是否小于0.2eV，如果是则将步骤(2)得到的第i个吸附位点对应的原始晶体结构作为候选催化剂，然后设置计数器i＝i+1，并返回步骤(5)，否则设置计数器i＝i+1，并返回步骤(5)。

(8)对得到的所有候选催化剂的吸附能结果及其对应的特征信息存入数据库。

优选地，吸附位点对应的原子特征包括该吸附位点的原子序数、电负性、配位数/共价半径、基团、周期性、价电子、第一电离能、电子亲和力和原子体积；

吸附位点对应的领域特征是由通过Voronoi多面体算法计算的该吸附位点附近相邻原子之间的配位数组成的；

吸附位点对应的连接距离特征是从该吸附位点的吸附质到其表面结构的所有原子的距离。

优选地，步骤(7)中计算验证使用的是模仿典型的计算化学方法来计算实验中某个位点的吸附能。首先对可能的吸附晶体结构使用DFT进行弛豫，弛豫的晶体结构经过切割产生成所需的表面；然后用自由表面原子和固定的亚表面原子弛豫这些小平面；最后，将吸附物放置在相应位点的表面并完成最终弛豫。

优选地，步骤(7)在进行DFT验证时，计算模拟过程偶尔会产生由解吸、解离、表面重建或DFT不收敛引起的异常弛豫，排除满足以下任何非标准的模拟数据异常：任何两个原子之间的最终最大平衡力超过

¹的模拟，其中吸附能的绝对值超过4eV，任何原子在裸板弛豫期间移动超过

在吸附弛豫期间吸附质移动超过

在吸附弛豫期间任何平板原子移动超过

优选地，步骤(3)中的卷积-高斯过程模型是通过以下步骤训练得到的：

(3-1)采集多个原始晶体结构，获取每个原始晶体结构的多个非等效切割表面和多个吸附位点，所有原始晶体结构的所有切割表面和所有吸附位点及其对应的DFT计算值构成吸附数据集，将该吸附数据集按8：2的比例划分为训练集和测试集。

(3-2)提取步骤(3-1)获取的训练集的特征信息，并将该特征信息输入卷积神经网络CNN进行训练，以得到训练后的CNN模型。

(3-3)对步骤(3-2)得到的CNN模型，使用反向传播(Back-Propagation，简称BP)算法和随机梯度下降(Stochastic Gradient Descent，简称SGD)算法来寻找最优参数，以得到优化后的CNN模型；

(3-4)使用步骤(3-1)得到的数据集中的测试集对迭代训练后的卷积神经网络进行迭代验证，直到得到的预测精度达到最优为止，从而得到训练好的卷积神经网络。

(3-5)对步骤(3-4)得到的卷积神经网络，提取池化输出的倒数第二层v和相应的学习权重W，并将这些输出归一化，以便每个输出在整个训练中的均值为0，标准差为1，然后将其作为高斯过程(Gaussian Process，简称GP)的特征，GP将使用这些特征来得到吸附能的平均值和不确定性预测，从而得到训练好的CFGP模型。

优选地，步骤(3-2)具体为，首先，用晶体图G表示训练集中每个吸附位点的特征信息，图G由节点和边组成，其中节点包含了原子特征和相邻特征，分别用来表示吸附位点与表面原子的联系、以及吸附位点与表面原子所连接的边信息。由于晶体图的周期性特征，同一对端节点之间允许有多条边，每个卷积层中的节点i可以用特征向量v_i表示，类似地，每个边(i,j)_k可以用特征向量

表示，对应于连接节点i和节点j的第k个键。因为每个原子与相邻原子之间的相互作用存在差异，使用第一卷积层对原子特征进行迭代更新，更新方式为：

其中

为原子与键的级联特征，

是连接相邻节点i和节点j的第k个键的相互作用特征，(i，j)_k表示节点i和节点j连接的第k个键。

然后，根据迭代更新后的原子特征、使用非线性图卷积函数对神经网络进行卷积运算：

其中

表示第t个卷积层中节点i的特征向量，t∈[1，R]，R表示CNN网络中卷积层的总数，σ是一个sigmoid函数，

表示第(t-1)个卷积层中节点i和节点j的第k个键的相互作用特征，

和

分别表示第(t-1)卷积层中的卷积权重矩阵和卷积偏置参数，

和

分别表示第(t-1)卷积层的自权重矩阵和自偏置参数，⊙表示逐元素乘法，g是非线性激活函数(这里是“Leaky ReLu”)，σ(·)函数是学习到的相邻元素之间不同相互作用的权重矩阵。

其后，对R个卷积计算结果输入K个隐藏层进行完全连接，并将隐藏层的输出结果线性变换为标量值，并使用由连接距离收集的距离过滤器来排除离吸附物太远的原子的贡献。

然后，将得到的标量值输入平均池化层以生成原始晶体结构的整体特征向量v_c，其可以用池化函数表示：

其中，

表示第R卷积层的第N个节点特征向量。

最后，对池化输出的整体特征向量v_c进行吸附能映射，以得到训练后的CNN模型。

优选地，步骤(3-3)中BP使用的是具有解耦权值衰减和热重启的Adam优化器，以此来最小化DFT计算和预测吸附能之间的平均绝对误差MAE。

优选地，CNN的损失函数，即平均绝对误差MAE等于：

其中，n是训练集中的吸附位点数量，y_i和x_i分别表示第i个吸附位点的DFT计算值和预测吸附能。

按照本发明的另一方面，提供了一种基于HPC与AI融合的高效电催化剂筛选系统，包括：

第一模块，用于采集多个原始晶体结构，获取每个原始晶体结构的多个非等效切割表面和多个吸附位点，所有原始晶体结构的所有切割表面和所有吸附位点构成吸附数据集；

第二模块，用于针对第一模块得到的吸附数据集中的每个吸附位点而言，对该吸附位点进行解析，以获取该吸附位点对应的特征信息，包括原子特征、相邻特征、以及连接距离特征。

第三模块，用于从第二模块得到的所有原始晶体结构中选择多个原始晶体结构，将选择的每个原始晶体结构的每个吸附位点对应的特征信息输入训练好的卷积-高斯过程CFGP模型中，以得到每个吸附位点的预测吸附能ΔE作为目标输出结果。

第四模块，用于设置计数器i＝1；

第五模块，用于判断i是否大于第三模块选择的吸附位点的总数，如果是则进入第八模块，否则进入第六模块；

第六模块，用于根据火山关系图判断第三模块选择的第i个吸附位点的预测吸附能是否处于火山关系图中的最优吸附值范围内，如果是则进入第七模块，否则设置计数器i＝i+1，并返回第五模块。

第七模块，用于使用密度泛函理论DFT方法对第i个吸附位点对应的特征信息进行计算，并判断计算结果与第三模块得到的该第i个吸附位点的预测吸附能之间的误差值是否小于0.2eV，如果是则将第二模块得到的第i个吸附位点对应的原始晶体结构作为候选催化剂，然后设置计数器i＝i+1，并返回第五模块，否则设置计数器i＝i+1，并返回第五模块。

第八模块，用于对得到的所有候选催化剂的吸附能结果及其对应的特征信息存入数据库。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明结合机器学习与数值计算方法，筛选过程不受严格的实现环境的限制，从而降低了催化剂筛选成本，并且由于降低了工作人力需求，筛选周期可以得到大幅缩短。

2、本发明使用基于主动机器学习模型来全精度指导理论计算的催化剂筛选，形成一个闭环的全自动的工作流，从而极大简化用户的工作量；并且该工作流能主动获取搜索空间，提升机器模型的筛选效率。因此能够解决现有的任务和计算管理系统配置耗时长，理论计算与机器学习模型分离而导致的筛选效率低的问题。

3、本发明在机器学习与数值计算之间的迭代过程中，数值计算为机器学习提供可训练样本，机器学习的预测能替换一些因资源不足而导致的无效数值计算，从而提高催化剂筛选的准确性以及加速本发明的探索进程；并且在采样空间逐渐增大的过程中，模型的迭代更新使主动学习的性能也随之提升，因此能够解决机器学习中因样本不足而导致的性能模型较差问题。并且本发明结合超算平台的算力可以有效缓解因采样空间庞大而存在的算力缺陷的问题。

4、本发明的方法具有普适性，能够适用于各种情况下的催化剂筛选任务。

附图说明

图1是本发明基于HPC与AI融合的高效电催化剂筛选方法的整体框架示意图；

图2是融合机器学习与高通量作业筛选催化剂的一个典型流程框架图；

图3是高通量催化剂筛选的数据流流向示意图，其中(a)是使用DFT计算原始数据集的吸附能，(b)是提取数据集的晶体结构信息特征，(c)是机器学习模型预测，丢弃无效数值计算，(d)的火山关系图；

图4是本发明中电催化剂筛选方法的框架示意图，各步骤用编号表示；

图5是CFGP提取吸附位点特征信息作为机器学习模型输入参数示意图；

图6是机器学习与数值计算之间的双向互反馈模式图，形成一个机器学习筛选、DFT验证和机器学习再训练的闭环反馈循环。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基本思路在于，利用采集到的吸附数据集构建机器学习模型，然后利用该机器学习模型来筛选任意大的金属间化合物及其可能的活性表面，接着通过自动执行DFT计算来验证这些表面的CO和H吸附能，并将结果存储于数据库中用于重新训练机器学习模型。这产生了一个机器学习筛选、DFT验证和机器学习再训练的闭环反馈循环，并且产生了一个连续、系统地增长、不需要用户交互的DFT结果数据库。从而形成机器学习+高性能计算进行高通量筛选催化剂的方法(如图1所示)。

在本发明的实验中，通过将47290个吸附数据集以10％依次递增的方式划分成10份(包含5种吸附物，其中主要吸附数据为吸氢，其次为吸一氧化碳)，通过对比每个模型的预测结果(如表1)，说明训练的十个模型随着训练集的增加，筛选高效催化材料的机器学习模型精度提高。主要原因在于在DFT数值计算与机器学习的反复迭代下，不但大大加速该高效催化剂的筛选过程，进一步也提高了训练模型的精度。

如图1所示，本发明提供了一种基于HPC与AI融合的高效电催化剂筛选方法，包括如下步骤：

本发明是从Materials Project(简称MP)网站中获得1499个原始晶体结构，并使用pymatgen工具获取这些原始晶体结构的不同切割表面，米勒指数介于-2和2之间。许多金属间化合物表面包含不对称的顶部和底部表面，在这些情况下，分析了两个表面以及从表面切割的绝对位置产生的不同表面。总共考虑了1499种晶体结构，得到了17,507种切割表面和1,684,908种吸附位点。表面使用MP的理想结构，而不是松散的结构。

(2)针对步骤(1)得到的吸附数据集中的每个吸附位点而言，对该吸附位点进行解析，以获取该吸附位点对应的特征信息，包括原子特征(图3中标识为F_N1)、相邻特征(图3中标识为F_N2)、以及连接距离特征(图3中标识为F_N3)。

具体而言，吸附位点对应的原子特征包括该吸附位点的原子序数、电负性、配位数/共价半径、基团、周期性、价电子、第一电离能、电子亲和力和原子体积。

吸附位点对应的领域特征是由通过Voronoi多面体算法计算的该吸附位点附近相邻原子之间的配位数组成的。

具体而言，本步骤中每次输入模型的原始晶体结构的数量是50-100个之间。

(4)设置计数器i＝1；

(6)根据火山关系图(如图3中的(d)所示)判断步骤(3)选择的第i个吸附位点的预测吸附能是否处于火山关系图中的最优吸附值范围内，如果是则进入步骤(7)，否则设置计数器i＝i+1，并返回步骤(5)。

上述步骤(6)的优点在于，根据火山关系图可以排除大量无效数值计算从而节省计算资源，加速理论计算速度。

(7)使用密度泛函理论(Density Functional Theory，简称DFT)方法对第i个吸附位点对应的特征信息进行计算，并判断计算结果与步骤(3)得到的该第i个吸附位点的预测吸附能之间的误差值是否小于0.2eV，如果是则将步骤(2)得到的第i个吸附位点对应的原始晶体结构作为候选催化剂，然后设置计数器i＝i+1，并返回步骤(5)，否则设置计数器i＝i+1，并返回步骤(5)。

具体的，计算验证使用的是模仿典型的计算化学方法来计算实验中某个位点的吸附能。首先对可能的吸附晶体结构使用DFT进行弛豫，弛豫的晶体结构经过切割产生成所需的表面；然后用自由表面原子和固定的亚表面原子弛豫这些小平面；最后，将吸附物放置在相应位点的表面并完成最终弛豫。

具体的，DFT计算是在原子模拟环境(Vienna Ab initio Simulation Package，简称VASP)中进行的。使用的是包括经过修正后的的Perdew-Burke-Ernzerhof函数、4x4x1的k-point，350eV的截断能，和VASP 5.4版提供的默认赝势执行所有DFT计算。使用10x0x10的k-point和500eV截断能进行体弛豫，并且只允许各向同性弛豫。在x/y方向复制表面，使每个晶胞向量至少为

不包括自旋磁性或色散校正。平板在z方向上复制到最小

平板之间至少有

的真空。对于某些表面，由于面形成方式的限制，这导致了大深度的平板。通常，底层是固定的，定义为在缩放的z方向上距离表面顶部超过3埃的原子。在本发明的案例中，吸附能的计算是相对于气相CO(g)的CO和相对于气相H₂(g)的H。

本步骤在进行DFT验证时，计算模拟过程偶尔会产生由解吸、解离、表面重建或DFT不收敛引起的异常弛豫。可以排除满足以下任何非标准的模拟数据异常：任何两个原子之间的最终最大平衡力超过

的模拟，其中吸附能的绝对值超过4eV，其中任何原子在裸板弛豫期间移动超过

在吸附弛豫期间吸附质移动超过

在吸附弛豫期间任何平板原子移动超过

(8)对得到的所有候选催化剂的吸附能结果及其对应的特征信息存入数据库，以供科学经验的参考。

具体的，上述流程是一个全自动的工作流。DFT计算和其他计算任务以并行、自动化以及高吞吐量的方式协调进行。每种类型的计算和任务都被编码为一个相互依赖的任务，然后使用依赖管理软件(Luigi)并行管理这些任务。例如，吸附能计算取决于单个吸附表面弛豫，而后者取决于原始晶体结构单个体积弛豫。请求吸附能计算会自动触发先决条件的体积和表面弛豫，然后将结果添加到数据库中。当触发需要相同表面的新吸附能计算时，先决条件体积和表面弛豫结果将从数据库中读取，而不是重新生成。这不同于固定管道方法，因为中间任务如表面弛豫，可以在多个管道和不同时间共享。DFT计算任务由中央FireWorks数据库管理，该数据库将DFT计算任务分布在多个计算集群中。这种结合Luigi和FireWorks的框架支持高通量DFT计算，因为可以查询1,684,908个枚举位点中的任何一个的吸附能，而无需人工管理中间任务。所有DFT计算都存储在Mongo数据库中，该数据库包含DFT计算设置、原始晶体结构的信息、切面的米勒指数、吸附位点的笛卡尔坐标、关于吸附位点的化学信息，例如局部配位和吸附能。

具体而言，步骤(3)中的卷积-高斯过程模型是通过以下步骤训练得到的：

具体而言，本发明中使用的吸附数据集是来自Github网站，吸附质为CO和H，应该理解的是，本发明不局限于上述吸附质，任何吸附质都被纳入本发明的保护范围。

在本实施方式中，共采集了12000个样本吸附数据集，并将其按8：2的比例划分为训练集和测试集。

(3-2)提取步骤(3-1)获取的训练集的特征信息，并将该特征信息输入卷积神经网络(Convolutional Neural Networks,简称CNN)进行训练，以得到训练后的CNN模型。

本步骤(3-2)具体为，首先，用晶体图G表示训练集中每个吸附位点的特征信息，图G由节点和边组成，其中节点包含了原子特征和相邻特征，分别用来表示吸附位点与表面原子的联系、以及吸附位点与表面原子所连接的边信息。由于晶体图的周期性特征，同一对端节点之间允许有多条边，每个卷积层中的节点i可以用特征向量v_i表示，类似地，每个边(i,j)_k可以用特征向量

其中

为原子与键的级联特征，

其中

和

分别表示第(t-1)卷积层中的卷积权重矩阵和卷积偏置参数，

和

其中，

表示第R卷积层的第N个节点特征向量。

具体的，整个过程产生由权重W参数化的函数f，它将具有整体特征向量v_c的原始晶体结构C映射到预测吸附能值，并使用DFT计算值迭代更新权重来解决以下优化问题：

其中，f(C；W)表示得到的预测吸附能结果，E_ad是每个吸附位点对应的DFT计算值，C是具有v_c的原始晶体结构，W是该训练模型的权重参数。

具体而言，BP使用的是具有解耦权值衰减(L2正则化范数：10^-5)和热重启的Adam优化器，以此来最小化DFT计算和预测吸附能之间的平均绝对误差(Mean Absolute Error，简称MAE)。

具体的，CNN的损失函数(Loss Function)MAE定义为：

具体的，GP模型中，核函数使用的是Matern协方差内核，并使用最大似然估计(Maximum Likelihood Estimation，MLE)拟合核超参数，池化输出的节点描述符是

然后用节点的的DFT计算吸附能(E_ad)进行训练。预测函数是：

f(v)～GP(P(v)，k(v，v′))

其中P(v)是先验函数的常数均值，k(v，v′)是具有通过最大似然估计方法训练的长度尺度的Mater核。所有的训练和预测都通过GPyTorch中实现的GPU加速完成。

总而言之，通过本发明的上述描述，本发明的主要优点包括：

1、提出了一个不需要用户干预就能连续生成和存储DFT数据的框架。该框架将任务和计算管理软件与主动机器学习和基于代理的优化相结合，从而实现DFT计算的自动化、系统化选择和执行。

2、工作流的任务和计算管理系统减少了配置和处理DFT计算所需的时间，并且DFT结果数据库支持跨众多吸附位点、表面和晶体结构空间的整体分析。该框架的灵活性还允许专家辅助指导，并且能够在需要时使用高通量DFT工作流程来研究特定的位点、表面或晶体结构。更重要的是，针对当前数值计算与机器学习的融合存在的缺陷，这是一种有效的解决方案。即数值计算结果存入数据库为机器学习提供可训练样本，而机器学习通过丢弃大量无效计算从而加速数值计算过程，节省实际计算时间，形成数值计算与机器学习双向互反馈的创新模式(如图6所示)。因此，灵活性、自动化和机器学习指导的结合加速了对CO₂还原、H₂氧化或任何其他具有描述符性能的化学催化剂的理论发现。

本发明从整体上包括以下几个大方面：

(1)思想建设：在基于代理和主动机器学习的思想下，为整个工作流程设计一个筛选框架，本发明结合主动机器学习——也称实验的优化设计以及高性能计算来从给定的数据集构建代理模型，然后使用该模型选择下一步应该获得哪些数据；进一步将选择的数据添加到原始数据集，然后用于创建更新代理模型。上述过程融合了高性能计算算子与机器学习算子形成一个开放式框架(如图1)，并且是一个反复迭代的过程，从而使代理模型不断得到改进。

(2)框架建设：在(1)的思想条件下，本发明创建了一个工作流程，并且结合超级计算机计算资源，采用密度泛函理论计算与机器学习形成数值+数据+智能的过程，耦合成一个在线迭代的有机整体，形成“理论+实验”的全自动的筛选方法，以预测催化剂的性能。该工作流程首先构建原始数据集的特征信息，接着利用这些特征信息作为卷积神经网络的输入训练参数训练代理模型，然后使用此机器学习模型来搜索任意大的金属间化合物晶体和表面的构型中寻找最优活性位点(如图2)，接着通过自动执行DFT计算来验证这些位点的吸附能，并将合适结果存入数据库以更新本发明的机器学习模型。从而使机器学习模型加速了催化剂的筛选，并且数值计算为机器学习提供可训练样本，形成数值计算与机器学习之间的良性反馈循环。在上述框架下，本发明构建了一个机器学习指导催化剂的筛选，自动DFT计算验证和机器学习模型再训练的正向反馈网络。

优选的，步骤(2)中本发明的表面搜索空间以理想的CO和H吸附能为例，它们分别指示了催化剂的CO₂还原性能和H₂氧化性能。该工作流通过自动执行DFT计算来验证这些位点的吸附能。同时DFT结果会被存储在数据库中用于重新训练机器学习模型。这产生了一个机器学习筛选、DFT验证和机器学习再训练的闭环反馈循环，从而产生了一个连续、系统地增长和不需要用户交互的DFT结果数据库。值得注意的是，该工作流并不使用机器学习来加速用户提供系统的计算。相反，它使用机器学习来指导全精度DFT筛选。因此，本发明使用DFT来执行基于代理的优化，并使用主动学习反馈环作为优化指南。同时，DFT数值计算与机器学习的反复迭代，可大大加速该高效催化剂的筛选过程。

(3)吸附计算模型构建：为了生成吸附位点的搜索空间，本发明从MaterialsProject中获得了31种不同元素的1499种不同的金属间化合物。本发明使用pymatgen枚举每个金属间化合物的表面，然后使用Delaunay三角法枚举每个表面上的所有吸附位点(方法部分给出了额外的细节)。本发明的机器学习模型考虑了每个表面上的每个可能的吸附位点的潜在活性。接着，根据不同吸附位点的性质，本发明以现有的指纹法来描述这些吸附位点。

优选地，这些特征信息是通过结合直觉、试错和其他代理模型研究的成功来选择的。为了解释体位效应，本发明用原子半径作为特征。原子半径可能会根据局部环境而改变，所以元素周期和基团可能是原子半径的合适替代品。然而，最初的启发式调查显示，使用周期或组和原子数之间的性能差异可以忽略不计，所以本发明使用原子数，因为它的维数相对较小。为了解释电子亲和效应，鲍林电负性已被证明是一个成功的特征。为了解释空间位阻效应和环境电子效应，配位数已被证明是一个成功的特征。为了提高预测能力，对性质进行粗略估计已证明是成功的。在此情况下，对特定位置吸附能的粗略估计为ΔE。

(4)自动特征构建：自动特征构建过程是一个复杂的过程，它包括通过DFT计算提取最终的晶体结构和目标特征值的过程，然后通过该构型获取特征信息，并将其用于机器学习的过程。进一步的，在基于主动学习的智能框架中，本发明将自动构建的特征作为神经网络特征，并将其与每个材料吸附模型的所有原子结构转换成卷积神经网络(CNN)的数值输入的图形表示。本发明的原子结构信息主要考虑了原子特征(F_N1)、相邻特征(F_N2)和连接距离(F_N3)三种类型的特征(如图3所示)。其中原子特征包括原子序数、电负性、配位数/共价半径、基团、周期性、价电子、第一电离能、电子亲和力和原子体积；领域特征是由Voronoi多面体算法计算的吸附位点附近相邻原子之间的配位数组成的；连接距离是从吸附质到所有原子的距离。目标指纹是吸附能ΔE。

优选的，本发明最初构建的机器学习模型来自于没有经过DFT计算的原始数据集的指纹特征。在经过DFT计算后，可以得到初始的目标吸附能E_adN，如图3中的(a)所示，然后利用这些经过弛豫后的结构信息构建指纹特征{F_N1,F_N2,F_N3}作为模型的学习和预测数据，如图3中的(b)所示。这些特征将在机器学习中用作交叉验证数据集，然后由学习过程找到函数f进行下一次预测。在预测过程中，特征是在没有任何DFT计算的情况下从初始结构中获得的，用于预测材料X的吸附能，然后通过学习问题筛选出下一个循环所需的DFT计算候选，如图3中的(d)所示。这个学习问题是由著名的火山标度关系决定的，火山标度关系是吸附能-催化活性(也称结合能-催化活性)曲线，类似火山，先升后降。

(5)催化剂描述符的主动学习优化：在步骤(4)中，本发明利用火山图曲线关系来筛选候选催化剂。具体的，针对特定的吸附质，本发明可以搜索任意可能的晶体结构，并在学习问题的指引下，一些预测吸附能与火山图不匹配的结构将被丢弃，而只有那些与火山图比较匹配的预测结构会经过DFT来进一步验证，因此本发明便可大大减少数值计算量。在不断地DFT计算过程中，用于机器学习模型的数据集也随之增加，因此本发明的整个自动化的过程中指纹的特征也不断地更新从而提高机器学习代理模型的精度和预测能力。

进一步的，将机器学习方法与所有可用的DFT数据相结合，每天训练和更新代理模型。这些模型被用来帮助选择吸附位置的DFT计算。再本发明案例中，首先，使用训练的模型估算本发明所列举的所有吸附位点的ΔE_CO和ΔE_H。这些估计与数据库中存储的显式DFT结果合并，如果该位置和吸附质存在DFT结果，则去除机器学习估计的吸附能，使每个吸附位置只留下一个预测或估计。然后本发明将每个表面上最强的结合能定义为该表面的低覆盖吸附能。选择预测接近最优的低覆盖吸附能表面进行DFT计算，高斯概率由预测位置与最优值的距离定义，标准偏差为0.2eV。

(5)机器学习与数值计算之间的交互：基于上述工作流，本发明看到了以知识为中心的跨学科间的智能驱动方式，突破了现有的机器学习与数值计算之间存在的某些技术瓶颈，实现了传统科学理论与AI的相互促进。如图(4)所示，本发明从Github获取原始晶胞数据集以及相应的火山关系，并以此建立相应的吸附能预测模型，经过在线分析预测后，通过数值计算方法得到相应的吸附结果并存储在数据库中，然后从中提取相应的特征信息来训练本发明最初的代理模型。最后，训练的模型便可直接根据从相应结构提取的指纹信息来预测吸附能，而无需经过数值计算，并将验证后合理的结果再次存入数据库中。本发明的预测结果是通过火山关系进行智能分析的，它会自动验证吸附结果的可靠性并筛选出合理的结果进行DFT计算。整个循环过程是：

①②③④⑤⑥⑦⑧⑨⑩→④⑤⑥⑦⑧⑨⑩→…→④⑤⑥⑦⑧⑨⑩

特别注意的是，在传统科学实验和理论计算的指导下，用于机器学习的数据集是远远不够的。而在本发明的工作流框架中，DFT数据集在本发明得到目标结果之间是源源不断地产生的，这就弥补了机器学习中地数据集不足的问题。进一步地，本发明的机器学习模型是根据经过验证后的合理数据集不断迭代更新的，并且机器学习的预测结果可以在火山关系的智能分析下抛弃部分不合理的数值计算，从而加速本发明的数值计算过程。

测试结果

本案例中进行了42,790个吸附能计算，确定了54个金属间化合物中具有潜在高CO₂还原活性的131个候选表面，以及102个金属间化合物中的258个候选表面用于氢的氧化吸附。

将47290个吸附数据集以10％依次递增的方式划分为10份，其中每份有包含氢在内的多种吸附质用于训练/验证/测试，并用MAE和均方根差(Root Mean Square Error，简称RMSE)来评估机器学习模型的性能，因为这两个参数都对异常值很敏感，是衡量最坏情况下准确性的指标。机器学习模型的训练特征为包含吸附点在内的晶体结构，目标为吸附能，并且根据火山尺度关系来评价催化材料性能的好坏。通过DFT计算和机器学习预测，验证火山尺度关系中低覆盖率氢吸附能接近最优的表面数目，分别用N_DFT和N_ML表示。η用于评估模型性能变化的趋势。

表1

从上表1可以看出，随着数据集的增加，MAE和RMSE值逐渐减小，这表明训练模型的精度是在逐渐提升。此外，吸附质的数量N_DFT和N_ML也随着训练样本的增加而增加，其中η表示N_DFT相对于N_ML的增量，η的趋势是逐渐变大并趋近于1，即每次迭代的命中数N_ML是逐渐和N_DFT相当的。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于HPC与AI融合的高效电催化剂筛选方法，其特征在于，包括如下步骤：

(3)从步骤(2)得到的所有原始晶体结构中选择多个原始晶体结构，将选择的每个原始晶体结构的每个吸附位点对应的特征信息输入训练好的卷积-高斯过程(Convolution-FedGaussian Process，简称CFGP)模型中，以得到每个吸附位点的预测吸附能ΔE作为目标输出结果。

(4)设置计数器i＝1；

2.根据权利要求1所述的基于HPC与AI融合的高效电催化剂筛选方法，其特征在于，

吸附位点对应的原子特征包括该吸附位点的原子序数、电负性、配位数/共价半径、基团、周期性、价电子、第一电离能、电子亲和力和原子体积；

3.根据权利要求1或2所述的基于HPC与AI融合的高效电催化剂筛选方法，其特征在于，步骤(7)中计算验证使用的是模仿典型的计算化学方法来计算实验中某个位点的吸附能。首先对可能的吸附晶体结构使用DFT进行弛豫，弛豫的晶体结构经过切割产生成所需的表面；然后用自由表面原子和固定的亚表面原子弛豫这些小平面；最后，将吸附物放置在相应位点的表面并完成最终弛豫。

4.根据权利要求1至3中任意一项所述的基于HPC与AI融合的高效电催化剂筛选方法，其特征在于，步骤(7)在进行DFT验证时，计算模拟过程偶尔会产生由解吸、解离、表面重建或DFT不收敛引起的异常弛豫，排除满足以下任何非标准的模拟数据异常：任何两个原子之间的最终最大平衡力超过

的模拟，其中吸附能的绝对值超过4eV，任何原子在裸板弛豫期间移动超过

在吸附弛豫期间吸附质移动超过

在吸附弛豫期间任何平板原子移动超过

5.根据权利要求1所述的基于HPC与AI融合的高效电催化剂筛选方法，其特征在于，步骤(3)中的卷积-高斯过程模型是通过以下步骤训练得到的：

6.根据权利要求5所述的基于HPC与AI融合的高效电催化剂筛选方法，其特征在于，步骤(3-2)具体为，首先，用晶体图G表示训练集中每个吸附位点的特征信息，图G由节点和边组成，其中节点包含了原子特征和相邻特征，分别用来表示吸附位点与表面原子的联系、以及吸附位点与表面原子所连接的边信息。由于晶体图的周期性特征，同一对端节点之间允许有多条边，每个卷积层中的节点i可以用特征向量v_i表示，类似地，每个边(i,j)_k可以用特征向量