CN113052367A

CN113052367A - 一种基于集成机器学习高效预测钙钛矿的稳定性的方法

Info

Publication number: CN113052367A
Application number: CN202110274708.6A
Authority: CN
Inventors: 林彬; 邓钦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2021-06-29

Abstract

本发明公开了一种基于集成机器学习高效预测钙钛矿的稳定性的方法，包括建立样本集、数据预处理并选出建模的特征子集、划分训练集和测试集、构建高效预测模型、预测测试集样本的稳定性，实现快速预测钙钛矿稳定性数值。本发明通过来源于文献和数据库中的样本数据，建立了高效的预测模型，具有简单便捷、成本低廉、绿色环保的优点。使用本发明的集成机器学习模型预测钙钛矿的稳定性，能帮助研究人员避免实验“试错法”的盲目性，节约实验时间和成本，提高材料研发效率。

Description

一种基于集成机器学习高效预测钙钛矿的稳定性的方法

技术领域

本发明涉及钙钛矿的热力学稳定性领域的应用，是一种基于集成机器学习高效预测钙钛矿的稳定性的方法，该方法集成了AdaBoost,CatBoost,XGBoost,GBR 四种机器学习算法，可以高效准确地预测钙钛矿的稳定性，应用于设计特定稳定性的钙钛矿新材料。

技术背景

钙钛矿因其在电催化剂和燃料电池方面的优异性能而受到人们的广泛关注。钙钛矿稳定性是当前钙钛矿太阳能电池研究和应用的核心重点和难点，它是一种关键的材料性质，其值可能决定钙钛矿在给定应用领域的用途。钙钛矿的稳定性通常与钙钛矿是否可合成以及在某些操作环境(如特定的工作温度或氧气分压) 下，它是否会随着时间的推移降解(或保持稳定)。钙钛矿结构的组分灵活性使其具有一系列复杂的功能性质，包括许多反应的活性催化、铁电性、压电性、超导性和高效的光-能转换，这种灵活性也给预测热力学稳定性带来了重大挑战。

随着人工智能技术的发展，许多研究者将机器学习方法应用到材料力学中科学。到期数据处理能力强，研究门槛相对较低，机器学习可以有效降低工业开发中的人力物力成本，缩短研发周期循环取代或配合传统的实验和计算模拟，能更快速、准确地分析材料结构和预测材料性能，从而进一步开发新型功能材料有效。选择不同的机器学习方法从现有的大数据集中预测材料性能参数，可以有效地提高材料性能的预测精度，从而选择性能合理的材料进行实验研究。使用现有数据对材料性能参数的预测不仅可以扩大材料数据的数据量，而且可以为材料实验和设计提供指导应用程序。

发明内容

本发明的目标在于克服实验“试错法”的盲目性，节约实验时间和资源，为钙钛矿稳定性的研究起指导作为，提高了一种基于集成机器学习高效预测钙钛矿稳定性的方法。本发明结合AdaBoost,CatBoost,XGBoost,GBR四种机器学习算法，设计了一种稳定高效的新型集成学习方法，建立钙钛矿稳定性预测模型，基于较高的稳定性和准确性，可以快速准确地预测钙钛矿的稳定性。

为达到上述发明创造目的，本发明采用如下技术方案：

一种基于集成机器学习高效预测钙钛矿的稳定性的方法，包括如下步骤：

1)建立数据集：

从文献和数据库中收集钙钛矿材料的稳定性和其他特征的数据，作为机器学习的数据集样本；

2)对数据进行预处理并选出建模的特征子集：

将所述步骤1)中的数据集进行预处理，对缺损数值的样本数据进行删除，并将完整的数据样本值进行皮尔逊相关系数分析，找到与稳定性相关性强的特征，作为建模的特征子集；

3)将所述步骤2)中得到的特征子集样本按5：1的比例，随机划分为训练集和测试集；

4)构建高效预测模型：

结合AdaBoost,CatBoost,XGBoost,GBR四种机器学习算法，设计了一种稳定高效的新型集成学习方法，利用此方法和步骤3)中得到的训练集进行建模，得到最优的钙钛矿稳定性预测模型；

5)预测测试集样本的带隙；

根据在所述步骤5)中建立的钙钛矿稳定性的预测模型，预测在所述步骤4) 中得到的测试集样本的稳定性。

优选地，在所述步骤2)中皮尔逊相关系数分析原理如下：

皮尔逊相关系数为两个变量之间的协方差和标准差的商，是用于度量两个变量之间的相关(线性相关)程度，其值介于-1与1之间，相关值为1表示在正方向上有很强的相关性，相关值为-1表示在负方向上有很强的相关性。相关值接近于0表示特征之间没有相关性。

2.优选地，在所述步骤3)中结合AdaBoost,CatBoost,XGBoost,GBR四种机器学习算法，设计了一种稳定高效的新型集成学习方法， AdaBoost,CatBoost,XGBoost,GBR方法如下：

Adaboost算法在样本训练集使用过程中，对其中的关键分类特征集进行多次挑选，逐步训练分量弱分类器，用适当的阈值选择最佳弱分类器，最后将每次迭代训练选出的最佳弱分类器构建为强分类器；CatBoost算法在梯度提升树算法的基础上，利用组合类别特征，使用更有效的策略以减少过度拟合，同时使用整个数据集参与训练，对数据信息进行了有效利用，前一个基本分类器被错误分类的样本权重会增大，而正确分类的样本的权重会减小，并且再次用来训练下一个基本分类器，在每一轮迭代中，加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数才可以最终确定最终的强分类器； XGBoost算法基于梯度提升树进行了改进，提升了算法的准确度和运行速度，支持并行计算，大大提高了算法的运行效率，在损失函数中加入了正则项，用来控制模型的复杂度，进而可以防止模型的过拟合；GBR算法通过添加新的回归树以最小化每次迭代中的目标函数，每棵新树都是在上一棵树的残差上进行学习，并且都沿着损失函数的负梯度方向进行训练，通过多次迭代，训练多个弱学习器，最终将这些弱学习器进行线性组合产生一个强学习器。

本发明与现有技术相比较，具有如下显而易见的突出的实质性特点和显著的优点：

1.本发明的基于集成机器学习高效预测钙钛矿的稳定性的方法，克服了传统实验采用的试错法的不足，节约资源和时间，基于集成机器学习建立钙钛矿稳定性的高效预测模型，将数据导入模型，就能得到预测结果。

2.本发明的预测方法在整个过程中不涉及实验和不使用化学用品，不产生化学污染，符合绿色环保理念，易于实现，适合推广应用。

3.本发明可以预测钙钛矿稳定性，帮助研究人员设计特定稳定性的钙钛矿新材料，节约实验和计算的时间和资源，提高实验的效率，器指导作用，避免盲目性。

附图说明

此处说说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施的限定。在附图中：

图1为实施例一中对数据样本值进行皮尔逊相关系数分析的热力图。

图2为实施例一钙钛矿稳定性的模型建模结果图。

图3为实施例二钙钛矿稳定性的模型留一法十折交叉验证结果图。

图4为实施例三钙钛矿稳定性的模型独立测试集结果图。

具体实施方式

以下结合符图和优选实实施例对上述方案做进一步说明，本发明的实施例详述如下：

实施例一：

参加图1，一种基于集成机器学习高效预测钙钛矿的稳定性的方法，包括如下步骤：

1)建立数据集：

钙钛矿材料数据集描述如表1所示：

表1.钙钛矿材料数据集描述

2)对数据进行预处理并选出建模的特征子集：

将所述步骤1)中的数据集进行预处理，对缺损数值的样本数据进行删除，并将完整的数据样本值进行皮尔逊相关系数分析，找到与稳定性相关性强的特征，作为建模的特征子集；图1显示了钙钛矿的几种特征与稳定性的相关程度，小方框内的值代表特征之间的皮尔逊相关性系数值，值域为[-1,1]。皮尔逊相关性系数绝对值越大，表面特征之间相关度越高。其中，正值代表正相关，负值代表负相关。上述所有特征与稳定性的相关性都很强，将上述所有特征作为有效特征。

4)构建高效预测模型：

结合AdaBoost,CatBoost,XGBoost,GBR四种机器学习算法，设计了一种稳定高效的新型集成学习方法，利用此方法和步骤3)中得到的训练集进行建模，得到最优的钙钛矿稳定性预测模型；AdaBoost,CatBoost,XGBoost,GBR原理如下：

5)预测测试集样本的稳定性；

根据在所述步骤5)中建立的钙钛矿稳定性的预测模型，预测在所述步骤4) 中得到的测试集样本的稳定性。本实施例基于钙钛矿样本结合集成机器学习建立的钙钛矿稳定性高效预测模型的建模结果，如图2所示。

本实施例结合四种机器学习算法设计的一种高效的机器学习方法对钙钛矿样本数据进行建模，建立钙钛矿稳定性的高效预测模型。钙钛矿稳定性的预测值和实验值的相关系数为0.9919，均方误差为0.0029，平均绝对误差为0.0397。本实施例方法通过来源于文献和数据库中的实验样本，建立了高效的预测模型，具有准确性高、低成本、绿色环保的优点。本实施例基于集成机器学习预测钙钛矿稳定性的方法，能应用与特定稳定性的钙钛矿新材料的设计。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，进行留一法十折交叉验证，将数据集分成十份，轮流将其中九份作为训练数据，一份作为测试数据，进行试验，测试结果的准确性和稳定性。基于钙钛矿样本结合集成机器学习算法建立的钙钛矿的稳定性预测模型的留一法十折交叉验证结果，如图3所示。本实施例方法采用留一法十折交叉验证对钙钛矿稳定性数据集建立的集成机器学习模型进行留一法十折交叉验证，留一法中钙钛矿稳定性的模型预测值和文献实验值的相关系数为0.9748，均方误差为0.0090，平均绝对误差为0.0700。本实施例方法通过来源于文献的样本数据，建立了留一法十折交叉验证的预测模型，可以对数据建模方法的稳定性和可靠性做出评估。

实施例三：

本实施例与上述实施例一基本相同，特别之处在于：

本实施例方法利用建立的钙钛矿稳定性的预测模型对独立的测试集中的样本进行预测，得到了较好的效果。钙钛矿稳定性的预测值和文献实验值的相关系数为0.9907，均方误差为0.0090，平均绝对误差为0.0700。独立测试集预测结果如图4所示。

综上实施例所述，本发明上述实施例涉及一种基于集成机器学习高效预测钙钛矿稳定性的方法，其步骤如下：1)从文献和数据库中收集钙钛矿材料的稳定性和其他特征的数据，作为机器学习的数据集样本；2)将所述步骤1)中的数据集进行预处理，对缺损数值的样本数据进行删除，并将完整的数据样本值进行皮尔逊相关系数分析，找到与稳定性相关性强的特征，作为建模的特征子集；3) 将所述步骤2)中得到的特征子集样本按5：1的比例，随机划分为训练集和测试集；4)结合AdaBoost,CatBoost,XGBoost,GBR四种机器学习算法，设计了一种稳定高效的新型集成学习方法，利用此方法和步骤3)中得到的训练集进行建模，得到最优的钙钛矿稳定性预测模型；5)根据在所述步骤5)中建立的钙钛矿稳定性的预测模型，预测在所述步骤4)中得到的测试集样本的稳定性。本发明上述实施例通过来源于文献和数据库中的实验样本数据，建立了高效的预测模型，可以准确稳定的预测钙钛矿稳定性。本发明的基于集成机器学习高效预测钙钛矿的稳定性的方法，克服了传统实验采用的试错法的不足，节约资源和时间，将数据导入模型，就能得到预测结果，具有低成本、绿色环保、快捷高效的特点，帮助研究人员设计特定稳定性的钙钛矿新材料，节约实验和计算的时间和资源，提高实验的效率，其指导作用，避免盲目性。

上面对本发明实施例结合附图进行了说明，本发明不限于上述实验，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明的技术方案的实施精神和原理下做的修改、组合、简化、等同替换等，均应为等效的置换模式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，均应包含在本发明的保护范围内。

Claims

1.一种基于集成机器学习高效预测钙钛矿的稳定性的方法，其特征在于，包括如下步骤：

1)建立数据集：

2)对数据进行预处理并选出建模的特征子集：

4)构建高效预测模型：

结合AdaBoost，CatBoost，XGBoost，GBR四种机器学习算法，设计了一种稳定高效的新型集成学习方法，利用此方法和步骤3)中得到的训练集进行建模，得到最优的钙钛矿稳定性预测模型；

5)预测测试集样本的带隙；

根据在所述步骤5)中建立的钙钛矿稳定性的预测模型，预测在所述步骤4)中得到的测试集样本的稳定性。

2.根据权利要求1所述基于集成机器学习快速预测钙钛矿稳定性的方法，在所述步骤2)中皮尔逊相关系数分析原理如下：

皮尔逊相关系数为两个变量之间的协方差和标准差的商，是用于度量两个变量之间的相关(线性相关)程度，其值介于-1与1之间，相关值为1表示在正方向上有很强的相关性，相关值为-1表示在负方向上有很强的相关性，相关值接近于0表示特征之间没有相关性。

3.根据权利要求1所述基于集成机器学习快速预测钙钛矿稳定性的方法，在所述步骤3)中结合AdaBoost，CatBoost，XGBoost，GBR四种机器学习算法，设计了一种稳定高效的新型集成学习方法，AdaBoost，CatBoost，XGBoost，GBR原理如下：

Adaboost算法在样本训练集使用过程中，对其中的关键分类特征集进行多次挑选，逐步训练分量弱分类器，用适当的阈值选择最佳弱分类器，最后将每次迭代训练选出的最佳弱分类器构建为强分类器；CatBoost算法在梯度提升树算法的基础上，利用组合类别特征，使用更有效的策略以减少过度拟合，同时使用整个数据集参与训练，对数据信息进行了有效利用，前一个基本分类器被错误分类的样本权重会增大，而正确分类的样本的权重会减小，并且再次用来训练下一个基本分类器，在每一轮迭代中，加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数才可以最终确定最终的强分类器；XGBoost算法基于梯度提升树进行了改进，提升了算法的准确度和运行速度，支持并行计算，大大提高了算法的运行效率，在损失函数中加入了正则项，用来控制模型的复杂度，进而可以防止模型的过拟合；GBR算法通过添加新的回归树以最小化每次迭代中的目标函数，每棵新树都是在上一棵树的残差上进行学习，并且都沿着损失函数的负梯度方向进行训练，通过多次迭代，训练多个弱学习器，最终将这些弱学习器进行线性组合产生一个强学习器。