CN116092609A

CN116092609A - 一种评估熵增对催化材料oer性能影响规律的方法

Info

Publication number: CN116092609A
Application number: CN202310025082.4A
Authority: CN
Inventors: 张玲洁; 耿学宇; 暴宁钟; 蔡伟炜; 杨辉
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-05-09

Abstract

本发明涉及催化技术，旨在提供一种评估熵增对催化材料OER性能影响规律的方法。包括：利用已有数据选取与OER性能相关的若干种元素物理化学属性，获取相应数值并构成集合，然后进行聚类分类；根据样本的类别分布计算得到各属性的相应熵值，并将不同聚类数下的熵值合并，作为该样本的特征；按此方式构建新的数据集；利用机器学习算法对该数据集进行进行回归拟合、超参数调优和测试，得到回归模型；最后使用SHAP分析模型，得到模型中各个特征的重要性，以及各特征对模型预测OER过电位的影响。本发明首次提出将元素物理化学属性的信息熵与催化材料OER性能进行关联；研究方法能节约大量资源，提高工作效率；准确性高，误差小。

Description

一种评估熵增对催化材料OER性能影响规律的方法

技术领域

本发明涉及催化技术，特别涉及一种评估熵增对催化材料OER性能影响规律的方法。

背景技术

氢能是21世纪重要的高效清洁能源之一，电化学分解水产氢技术是重点研究领域。阳极析氧反应(OER)是电化学分解水产氢反应的瓶颈，科学技术研究人员针对电催化剂(包括金属氧化物、氢氧化物/羟基氧化物、硫族化物、硒化物、氮化物、磷化物/磷酸盐、硼化物、碳化物、金属-有机框架和非金属化合物等)的相关研究越来越多，并取得了可观的成果。

高熵材料由于其具有高的构型熵，使得大量配位不饱和反应活性位点诱导产生；熵稳定效应可以在电化学反应的过程中起到稳定结构的作用，独特的“鸡尾酒效应”及性能可调制性赋予了其极大的结构性能调节潜力。以上诸多优势使得高熵材料成为一类非常有潜力的析氧反应催化剂。

目前，大多数高熵OER催化剂是基于第四周期过渡金属元素制备的，因此本身就具备优良的OER性能。研究人员通常会将关注点放在催化剂材料在不同制备条件下的性能改进，或不同元素组合搭配后对催化性能的影响方面，但普遍不曾考虑过材料中熵增可能对OER性能产生影响。因此，目前未有相关的研究成果或研究进度报道。

本发明拟针对熵增对催化材料OER性能影响规律提出评估方法，以能够为进一步发掘高效高熵OER催化剂提供指导。

发明内容

本发明要解决的技术问题是，克服现有技术中的不足，提供一种评估熵增对催化材料OER性能影响规律的方法。

为解决技术问题，本发明的解决方案是：

提供一种评估熵增对催化材料OER性能影响规律的方法，包括以下步骤：

(1)建立元素组成-过电位数据集D；

(2)分别选取与OER性能相关的若干种元素物理化学属性，构成集合A；

(3)对于集合A中的每一种物理化学属性A_i，使用Pymatgen程序获取元素周期表中前6周期的除稀有气体之外的其他元素的相应数值，构成集合

(4)对每个集合

中的数据，使用Scikit-learn的K-Means聚类方法进行分类，聚类数记为k；

(5)对数据集D中的每一条样本，根据元素组成得到该样本中A_i属性在聚类数设置为k时的类别分布

通过

计算得到A_i属性在聚类数设置为k时的相应熵值

并将不同k值下的

合并为集合S，以集合S作为该样本的特征；按此方式构建新的数据集X，并划分为训练集X_train和测试集X_test；

(6)对步骤(5)得到的训练集和测试集进行均值方差归一化处理，使所有数据归到均值为0、方差为1的分布中；

(7)使用机器学习算法对经步骤(6)处理的训练集进行回归拟合，得到回归模型M；对模型进行超参数调优，并使用经步骤(6)处理的测试集进行泛化性能测试；

(8)在测试集上使用SHAP分析模型M，得到模型中各个特征的重要性，以及各特征对模型M预测OER过电位的影响。

作为本发明的优选方案，所述步骤(2)中，元素的物理化学属性具体包括下述的至少一种：原子序数、原子半径、常见价态、泡林电负性、常见离子平均半径、最外层原子轨道能量、热导率、电导率。

作为本发明的优选方案，所述步骤(4)中，当A_i为步骤(2)所述原子序数和常见价态时，将k设置为

中不同值的数量；否则将k分别设置为3，4，5，6，7，即k∈{3，4，5，6，7}进行多次分类。

作为本发明的优选方案，所述步骤(5)中，熵计算采用以下公式：

上式中，

为在聚类数设置为k下的A_i属性的熵值，

为在聚类数设置为k下A_i属性为类别x_j的概率。

作为本发明的优选方案，所述步骤(5)中，将数据集X按7∶3随机划分为训练集X_train和测试集X_test。

作为本发明的优选方案，所述步骤(7)中，所述机器学习算法是指Autogluon框架所提供的算法，是随机森林算法(Random Forest)或XGBoost中的一种。

发明原理描述：

1、本发明创造性地将“熵增如何影响催化材料的OER性能”作为拟解决的技术问题，并提出合理有效的解决方案。

在发掘优异性能的高熵OER催化剂过程中，熵增的影响是无法回避的关键问题。但由于此前研发方向存在局限性，普遍的做法仍停留在传统的化学反应机理层面。因此对于催化材料OER性能的研究，无法排除影响反应机理的各种因素，单纯考虑构型熵对OER性能的影响。而对于纯熵增效应具体会如何影响催化材料的OER性能，现有公开文献仍缺乏针对性的成果报道。

申请人的发明人团队在催化材料研究过程中，通过对高熵OER催化剂在物理化学微观层面的机理进行深入的分析研究，创造性地提出评估熵增对催化材料性能影响规律的方法。该解决方案突破了催化剂研究领域的传统做法和惯性思维方式。

2、高熵是科学上的一种定义，一般指位于同一化学结构位的元素种类5种或5种以上的化合物。高熵材料具有更好的结构稳定性，同时由于高熵带来的多种异质元素与结构畸变，可以使得材料具有更好的可设计性，通过元素种类的调整，可以获得希望得到的材料特性。目前研究工作中普遍采用的手段是，以大量重复的实验来制备新组合方式的材料，再通过材料性能测试实验进行筛选。因此，常规方法要获知组配调整对材料性能的影响，需要投入大量的人力和财力资源，并且效率非常低下。

本发明创造性地提出了数据驱动型方法，将机器学习算法和数据分析进行结合用于熵增对催化材料性能影响规律的分析。通过利用现有公开数据，训练机器学习模型并使用SHAP来研究该模型中构型熵对过电位的影响。不仅计算出特征对整个模型的重要性，还可以揭示每个特征是如何影响模型的预测值。

3、本发明根据对OER催化材料的先验知识，进行了特征工程。在特征工程中，首先利用Pymatgen获取元素物理化学特征，并通过无监督学习的方式对这些元素物理化学特征中的连续值做离散处理并进一步求此得化合物中元素物理化学属性的熵。在模型训练过程中，本发明仅使用了上述特征工程中所求得的一系列熵特征作为输入向量，使用各种机器学习算法对数据集进行训练得到高泛化能力的回归模型。为了研究构型熵对OER过电位的影响，本发明还使用SHAP方法对该模型各个熵特征重要性进行求解排序。同时，根据SHAP所绘制的蜂窝图来观察构型熵对OER过电位的影响方式。这些都是本技术领域各类公开文献未曾记载过的创新做法。

与现有技术相比，本发明的有益效果是：

1、本发明首次提出，将元素物理化学属性的信息熵与催化材料OER性能进行关联。本发明通过SHAP的方法分析特征对模型预测结果的影响，证明构型熵对过电位有重要影响，并且通过蜂窝图得到构型熵与OER过电位呈负相关关系。OER过电位是OER性能的指标，本发明通过评估熵增与催化材料OER性能的关系来获得具体的影响规律，为OER催化材料提供了新的研究方向。

2、本发明首次提出，将机器学习算法和数据分析进行结合用于熵增对催化材料OER性能影响规律的评估，从而为新催化材料的研发提供OER性能指导。该方法无需进行海量的实验室操作，能够节约大量资源，提高工作效率。

3、本发明提出的方法准确性高，误差小。由于采用基于元素物理化学属性的信息熵作为描述符来表征材料OER性能的方法，利用易于获取的元素物理化学属性作为最初特征，本发明通过无监督学习的方式生成信息熵特征用于训练模型，得到模型最终泛化RMSE误差能低至26.3mV，相较于同类型机器学习模型38mV的RMSE误差更低。

4、本发明首次揭示了纯熵增对OER性能的影响。本发明通过使用SHAP方法解释模型，通过计算熵对OER性能的边际贡献，得到熵在众多影响因素中对OER性能影响的比重，最终得出纯熵增对OER性能的影响规律。

附图说明

图1为实施例1中使用SHAP分析时各样本特征对模型重要性的影响；

图2为实施例1中各样本特征对模型预测值的蜂窝图；

图3为实施例2中使用SHAP分析时各样本特征对模型重要性的影响；

图4为实施例2中各样本特征对模型预测值的蜂窝图；

图5为实施例3中使用SHAP分析时各样本特征对模型重要性的影响；

图6为实施例3中各样本特征对模型预测值的蜂窝图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

实施例1：

一种评估熵增对催化材料OER性能影响规律的方法，包括以下步骤：

(1)以公开文献(Rohr，B.，et al.(2020).″Benchmarking the acceleration ofmaterials discovery by sequential learning.″Chemical Science 11(10)：2696-2706)所提供的OER过电位数据为基础，构件数据集D，该数据集大小为8424。

数据集D中的每一条样本均为一个催化材料，包括了其元素组成和过电位。

(2)分别选取与OER性能相关的若干种元素物理化学属性，构成集合A；A＝{原子序数，原子半径，常见价态，泡林电负性，常见离子平均半径，最外层原子轨道能量，热导率，电阻率}。

该步骤是为计算元素物理化学属性熵做的准备工作。比如要计算热导率的熵，则需要对热导率这个数值先进行分类才能进行热导率熵的计算。分类则需要对元素周期表中所有的热导率数值进行统计，再根据统计结果对热导率这个数值定一个划分标准，多少算高热导率，多少算中热导率，多少算低热导率。催化材料并不包含稀有气体，在统计元素物理化学属性具体数值时应当排除。

(4)对每个集合

中的数据，使用Scikit-learn的K-Means聚类方法进行分类，聚类数记为k；当A_i为步骤(2)所述原子序数和常见价态时，将k设置为

中不同值的数量，否则将k分别设置为3，4，5，6，7，即k∈{3，4，5，6，7}进行多次分类；

通过

计算得到A_i属性在聚类数设置为k时的相应熵值

并将不同k值下的

合并为集合S；S作为该样本的特征；

上式中，

为在聚类数设置为k下的A_i属性的熵值，

为在聚类数设置为k下A_i属性为类别x_j的概率；

的集合为S；将S作为该样本的特征；

按此方式构建新的数据集X，并按照随机划分方法以7∶3划分为训练集X_train和测试集X_test，训练集占比70％，测试集占比30％。

(6)对X_train和X_test进行均值方差归一化处理，即将所有数据归到均值为0，方差为1的分布中。

(7)使用随机森林算法对训练集X_train进行回归拟合，得到回归模型。并对模型进行超参数调优。最终确定其超参数n_estimators为220，max_depth为10，min_samples_leaf为5，min_samples_split为7。所得模型M在训练集上的RMSE误差为24.3mV。进一步使用测试集评价模型的泛化性能在测试集上的RMSE误差为27.9mV。

所述SHAP分析是指，Lundberg在论文“A Unified Approach to InterpretingModel Predictions”所提出的Shapley Additive explanations方法。

所述各特征的缩写如下：

en_COS：常见价态熵，en_AN：原子序数熵(构型熵)，TC_i：将B_热导率分为i类得到的热导率熵，ER_i：将B_电阻率分为i类得到的电阻率熵，ACR_i：将B_{常见离子平均半径}分为i类得到的常见离子平均半径熵，PE_i：将B_{泡林电负性}分为i类得到的泡林电负性熵，AR_i：将B_原子半径分为i类得到的原子半径熵，AO_i：将B_{最外层原子轨道能量}分为i类得到的最外层原子轨道能量熵。

各特征对模型的重要性如图1所示，所有样本特征对模型预测值的蜂窝图2所示。

根据图中数据关系可以得出结论：构型熵与OER过电位呈负相关关系。

实施例2：

与实施例1相比：步骤(2)中，物理化学属性集合A去除一项“电阻率”；步骤(4)中，聚类数分别设置为3，4，5，6，k∈{3，4，5，6}；步骤(7)中，使用XGBoost算法对X_train进行回归拟合，并对其进行超参数调优。最终确定其超参数learning_rate为0.1，n_estimators为280，max_depth为3，gama为0，subsample为0.7，colsample_bytree为1。所得模型M在训练集上的RMSE误差为28.7mV，在测试集上的RMSE误差为30.1mV。其余操作步骤均与实施例1中保持一致。

各特征对模型的重要性如图3所示，所有样本特征对模型预测值的蜂窝图4所示。

实施例3：

与实施例1相比：步骤(2)中，物理化学属性集合A去除一项“电阻率”；步骤(4)中，聚类数分别设置为3，4，5，6，7，k∈{3，4，5，6，7}；使用Autogluon对X_train进行回归拟合。最终所得模型M在训练集上的RMSE误差为25.3mV，在测试集上的RMSE误差为26.6mV。其余操作步骤均与实施例1中保持一致。

各特征对模型的重要性如图5所示，所有样本特征对模型预测值的蜂窝图6所示。

进一步的说明：

本发明在最后一个步骤中的分析对象是模型M，所用分析工具是SHAP方法；即，通过使用SHAP来分析模型在测试集上的表现，然后输出分析结果。如把模型看作成一个函数f，那么本发明使用SHAP分析模型就类似于使用某种方法分析函数f的单调性、极大值、极小值和有界性等。

机器学习可以用来拟合一个模型进行预测，也可以用来解释拟合得到的模型以发现数据中的规律。用来预测即通过训练数据拟合一个函数f，使用函数f去预测输入为x时的输出值f(x)。用来解释就是对已经创建的函数f，研究为什么输入x可以得到输出值f(x)。在本发明中，首先拟合了一个函数f用于预测材料的OER性能，接着对函数f进行解释。换句话说，就是通过解释拟合的函数f去发现现有数据中的规律，发现了构型熵和过电位直接呈负相关关系。

本发明创新性地使用元素物理化学属性熵作为特征，而不是元素物理化学属性。高熵材料中的熵指的是构型熵。本发明提供的三个不同实施例的结论也能验证，构型熵这个特征相对比较重要，并且发现构型熵越高、OER过电位越低，越低的过电位则意味着越高的OER性能。因此，高熵OER催化材料所具有的高OER性能并不是因为引入了多种性能本来就较好的元素，而是熵增本身就能带来OER性能的提升。所以，构型熵对过电位的影响是相关技术人员在催化材料研究过程中需要关注的。

此外，本发明所用模型相对于同类技术而言误差更小。误差越小说明所发现的规律越接近数据中真实反映的规律，即发现的规律越可靠。