CN113327652A

CN113327652A - 一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法

Info

Publication number: CN113327652A
Application number: CN202110509660.2A
Authority: CN
Inventors: 王步维; 范谦; 邵宇; 乐云亮
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-31
Anticipated expiration: 2041-05-11
Also published as: CN113327652B

Abstract

本发明公开了一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法，包括：获取晶体的晶体学信息文件和DFT计算数据，并将其分为训练集、验证集和测试集；从晶体学信息文件中，提取晶体特征，将晶体特征输入神经网络，获取到神经网络输出；采用训练集和验证集分别对构建好的神经网络模型进行训练和验证，获取到预测模型和分类模型；通过预测模型完成对于晶体性质的预测，通过分类模型完成对于晶体性质的分类。本发明能够有效提高对于晶体性质的预测和分类精度，并且耗时少，具有工程实用价值，有助于实现精确的大规模晶体研究模拟，为新晶体材料的开发和研究提供了方法保障。

Description

一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法

技术领域

本发明涉及晶体性质预测和分类技术，具体涉及一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法。

背景技术

晶体性质的模拟通常是借助基于DFT(密度泛函理论)的第一性原理计算方法来实现，但是使用第一性原理筛选出具有理想属性的晶体材料非常的耗时，并且计算成本也不低。因此，如何实现晶体材料的大规模筛选成为了一个难题。随着计算机的发展，机器学习逐渐成为了学术领域的重要话题，人们也试着采用机器学习方法，进行大规模的晶体性质模拟。随着机器学习算法的不断优化，其模拟的精确度也在逐渐逼近第一性原理计算的结果。机器学习与晶体模拟的结合，有助于实现大规模晶体研究模拟，加速了新晶体材料的开发和研究，因此受到了人们的广泛关注。

使用机器学习的方法进行晶体性质的模拟难点在于：如何对任意尺寸晶体中的化学信息(如原子信息和晶体拓扑结构等)进行正确的编码并能与机器学习模型兼容，以及如何通过有限的可得数据训练出具有足够精准度的模型。

晶体图卷积神经网络是一种用于晶体性质研究的机器学习算法，从晶体中原子的连接直接学习晶体性质，提供了一种通用和可解释的晶体化学信息编码方式。基于图卷积(GCN)的晶体图卷积神经网络(简记为CGCNN)，可以预测晶体的各种物理性质。晶体结构图是用节点表示原子，边表示原子间的原子键的无向多图。在CGCNN中，节点i用一个特征向量v_i来表示，v_i中包含了原子i编码属性的特征。无向边(i,j)_k代表了原子i和j间第k个键，u(i,j)_k则表示原子i和j之间第k条原子键的特征向量。为了解决邻居之间相互作用强度的差异问题，CGCNN设计了一种新的卷积函数，

其中

表示原子和原子键特征向量的连接。

b^(t)分别是第t层的卷积权值矩阵，自权重矩阵和偏置，而g(·)代表层与层间的softplus激活函数。

但是，CGCNN方法作为一种快速且能大规模筛选晶体材料的机器学习方法，其预测精确度有限。这是由于CGCNN为了提高机器学习算法的效率，减小了网络复杂度，虽然提高了运行速率，但会造成预测精确度降低。且CGCNN方法默认运行周期(epochs)数为30，这能减少建立模型过程的耗时，可也影响了网络的拟合，同样会造成预测模型的精确度降低。

发明内容

发明目的：为了克服现有技术中存在的不足，提供一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法，其为晶体图卷积神经网络设计一种新的卷积函数，可以提高图卷积中拓扑结构和节点特征融合的能力，从而提高计算的精确度，并通过引入新的归一化方法正则化深度图卷积网络，改善网络的拟合，以此建立出更好的模型，经过改进的新网络具有快速且能大规模筛选晶体材料的特点。

技术方案：为实现上述目的，本发明提供一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法，包括如下步骤：

S1：获取晶体学信息文件(晶体结构数据)和DFT计算数据，并将其分为训练集、验证集和测试集；

S2：从晶体学信息文件中，提取晶体特征，将晶体特征输入神经网络，获取到神经网络输出；

S3：采用训练集和验证集分别对构建好的神经网络模型进行训练和验证，获取到预测模型和分类模型，通过预测模型完成对于晶体性质的预测；通过分类模型完成对于晶体性质的分类。

进一步地，所述步骤S1中晶体的结构数据和DFT计算数据的获取方法为：

A1：通过python软件中的pymatgen程序包连接Materials Project数据库，从中将晶体的id号码以及形成能、绝对能、带隙和费米能等物理性质的DFT计算数据导出到.csv文件中；

A2：通过python软件中的pymatgen程序包连接Materials Project数据库，并读取导出的.csv文件中的晶体id号码，将对应的cif文件(晶体学信息文件)导出；

A3：准备好一个的atom_init.json文件：一个JSON文件，用于存储每个元素的初始化向量。

进一步地，所述步骤S2中神经网络输出的获取过程为：

B1：提取cif文件中的原子特征，每个原子与其邻居原子之间的键特征，每个原子的邻居原子的索引以及晶体映射到原子的索引，将它们作为神经网络的输入；

B2：输入网络的原子特征经过嵌入层生成新的向量，然后将新的原子特征向量和键特征向量以及邻居原子的索引向量一起输入到卷积层中；

B3：在卷积层中，将原子看成节点，原子键看作边，先通过索引向量连接节点向量、邻居节点向量和边向量组成新的嵌入向量，新向量经过一个全连接层1后先对输出进行节点归一化处理；

B4：经过节点归一化和softplus函数激活后的节点向量h^(t)是M个融入邻居特征的隐藏向量Z_T∈R^1×F组合成的数组，通过非线性变换对向量进行变换，然后用一个共享的注意向量q∈R^F′×1得到注意值ω_T；

B5：用softmax函数将注意值ω₁,ω₂,…,ω_M标准化，得到最终的权重；

B6：将这M个融入邻居特征的隐藏向量和它们的注意值组合起来得到最终的节点嵌入H^(t)，进行批量归一化,归一化后与输入卷积层的原节点特征向量相加后经softplus函数激活并输出；

B7：经过3层卷积层后，生成融合了局部化学环境的新向量，新向量再通过池化层生成代表整个晶体的向量，通过softplus函数激活后连接到全连接层2接着再通过同样的函数激活然后输入全连接层3输出。

进一步地，所述步骤B3中节点归一化处理的公式为：

其中，h^(t)为新生成的节点嵌入向量，μ^(t)是节点h^(t)的平均值，σ^(t)是节点的偏差；

所述步骤B4中的节点向量h^(t)的表达为：

其中，T就是h^(t)的第T行，T∈M，M代表邻居原子的最大数量，F是原子隐藏特征的数量；

所述步骤B4中注意值ω_T的表达式为：

ω_T＝q^T·tanh(W·(Z_T)^T+b) (3)

其中W∈R^F′×F是权值矩阵，b∈R^F′×1是偏置向量；

所述步骤B5中最终的权重的表达式为：

所述步骤B6中节点嵌入H^(t)的表达式为：

H^(t)＝a₁Z₁+a₂Z₂+…+a_MZ_M。 (5)

进一步地，所述步骤S2中神经网络的卷积公式为：

其中，Nodenorm(·)代表节点归一化，g(·)代表softplus激活函数，Attention(·)代表注意力机制，BN(·)代表批量归一化。

进一步地，所述步骤S3中预测模型的训练方法为：

使用均方损失和随机梯度下降作为损失函数和优化器；均方损失如公式(7)所示，

loss(x_i,y_i)＝(x_i-y_i)² (7)

式中，x_i是输入数值，y_i是目标属性数值，即DFT计算数值；预测模型以平均绝对误差(MAE)作为评价模型性能的指标。

进一步地，所述步骤S3中平均绝对误差(MAE)：MAE表示预测值和测试值之间绝对误差的平均值，是预测模型的一种评价指标。如公式(8)所示，

其中，x_i表示预测值，y_i表示测试值。

进一步地，所述步骤S3中分类模型对于晶体性质的分类过程为：

在相同的神经网络的框架下，将输出层的激活函数变为logsoftmax激活函数并配合负对数似然损失函数实现对晶体性质的分类。

进一步地，所述步骤S3中logsoftmax激活函数如公式(9)所示，负对数似然损失函数如公式(10)所示，

分类模型以准确度(accuracy)和ROC曲线下面积(AUC)作为评价模型性能的指标。

进一步地，所述ROC曲线下面积(AUC)是对ROC曲线下各部分的面积求和而得。ROC曲线横坐标为假正率(FPR)，即判定为正例却不是真正例的概率。纵坐标为真正率(TPR)，即判定为正例同样也是真正例的概率。AUC大小约接近1说明分类模型越好。

注意力机制是人们在机器学习模型中嵌入的一种特殊结构，用来自动学习和计算输入数据对输出数据的贡献大小。它可以通过学习自适应嵌入的重要性权重，来提高图卷积中拓扑结构和节点特征融合的能力。

本发明提供了一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法，在卷积层中，通过注意力机制学习所有邻居节点的重要性权重，从而在卷积中融入邻居之间不同的交互强度，以此提高了其融合拓扑结构和节点特征的能力。此外，为了降低过拟合风险，进一步引入节点归一化。通过抑制隐藏嵌入的特征相关性和提高模型相对于输入节点特征的平滑度来正则化深度图卷积网络，降低网络的过拟合风险。

有益效果：本发明与现有技术相比，以晶体数据收集、晶体性质预测、晶体性质分类为一个完整体系，将晶体图卷积神经网络和注意力机制充分结合起来，能够有效提高对于晶体性质的预测和分类精度，并且耗时少，具有工程实用价值，有助于实现精确的大规模晶体研究模拟，为新晶体材料的开发和研究提供了方法保障。

附图说明

图1为本发明方法的流程示意图；

图2为本发明中卷积层的卷积结构图；

图3为本发明中神经网络的结构图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法，其主要分为晶体性质的预测和晶体性质的分类两阶段，第一阶段，使用均方损失作为损失函数，使用随机梯度下降作为优化器，分别对晶体的形成能(Formation energy)、绝对能(Absolute energy)、带隙(Bandgap)和费米能(Fermi energy)进行预测，并与DFT计算数据进行了比较。第二阶段，通过将输出层的激活函数换成logsoftmax激活函数，将损失函数换为负对数似然损失函数，对总磁矩阈值为0.5μ_B的晶体进行了分类，并同样对带隙阈值为2.3eV的宽禁带半导体晶体也进行了分类。

如图1所示，本发明提供的一种基于注意力机制和晶体图卷神经网络的晶体性质预测和分类方法，具体包括如下步骤：

S1：获取晶体的结构数据和DFT计算数据，并将其分为训练集、验证集和测试集；

晶体的结构数据和DFT计算数据的获取方法为：

S2：收集晶体学信息文件，提取晶体特征，将晶体特征输入神经网络，获取到神经网络输出；

神经网络输出的获取过程为：

B3：在卷积层中，将原子看成节点，原子键看作边，如图2卷积结构图所示，先通过索引向量连接节点向量、邻居节点向量和边向量组成新的嵌入向量，新向量经过一个全连接层1后先对输出进行节点归一化处理；

节点归一化处理的公式为：

节点向量h^(t)的表达为：

注意值ω_T的表达式为：

ω_T＝q^T·tanh(W·(Z_T)^T+b) (3)

其中W∈R^F′×F是权值矩阵，b∈R^F′×1是偏置向量；

权重的表达式为：

B6：将这M个融入邻居特征的隐藏向量和它们的注意值组合起来得到最终的节点嵌入H^(t)，进行批量归一化，归一化后与输入卷积层的原节点特征向量相加后经softplus函数激活并输出；

节点嵌入H^(t)的表达式为：

H^(t)＝a₁Z₁+a₂Z₂+…+a_MZ_M (5)

B7：参照图3，经过3层卷积层后，生成融合了局部化学环境的新向量，新向量再通过池化层生成代表整个晶体的向量，通过softplus函数激活后连接到全连接层2接着再通过同样的函数激活然后输入全连接层3输出。

基于上述过程，神经网络的卷积公式为：

S3：采用训练集和验证集分别对构建好的神经网络模型进行训练和验证，获取到预测模型和分类模型，根据神经网络输出，通过预测模型完成对于晶体性质的预测；

这里预测模型使用均方损失和随机梯度下降作为损失函数和优化器；均方损失如公式(7)所示，

loss(x_i,y_i)＝(x_i-y_i)² (7)

式中，x_i是输入数值，y_i是目标属性数值，即DFT计算数值；预测模型以平均绝对误差(MAE)作为评价模型性能的指标；

平均绝对误差(MAE)：MAE表示预测值和测试值之间绝对误差的平均值，是预测模型的一种评价指标。如公式(8)所示，

其中，x_i表示预测值，y_i表示测试值。

S4：通过分类模型完成对于晶体性质的分类。

这里分类模型对于晶体性质的分类过程为：

logsoftmax激活函数如公式(9)所示，负对数似然损失函数如公式(10)所示，

ROC曲线下面积(AUC)是对ROC曲线下各部分的面积求和而得。ROC曲线横坐标为假正率(FPR)，即判定为正例却不是真正例的概率。纵坐标为真正率(TPR)，即判定为正例同样也是真正例的概率。AUC大小约接近1说明分类模型越好。

本步骤准备了正负样本作为分类的依据，具体为：将总磁矩大于0.5μ_B的晶体设为1，总磁矩小于0.5μ_B的晶体设为0，测试出的结果数值在0-1之间，数值大于0.5的晶体被认为其总磁矩大于0.5μ_B，数值小于0.5的晶体被认为其总磁矩小于0.5μ_B。同样，将带隙大于2.3eV的晶体设为1，带隙小于2.3eV的晶体设为0，测试出的结果数值在0-1之间，数值大于0.5的晶体被认为带隙大于2.3eV，数值小于0.5的晶体被认为带隙小于2.3eV。

一、本实施例中将上述方案进行实例实验应用，实验中收集了3万多种晶体的数据，默认其中80％为训练数据，10％为验证数据，10％为检测数据。预测实验中，绝对能和形成能这两个物理量的预测值与DFT计算值误差最小，MAE为0.103eV/atom和0.060eV/atom；带隙和费米能的预测结果与DFT计算值误差最大，MAE为0.312eV和0.343eV。对总磁矩大于0.5μ_B的晶体分类实验中，模型分类准确度达到了87.9％，AUC大小为0.919。而对带隙大于0.23eV的宽禁带半导体晶体分类实验中，模型分类准确度更是达到了93.9％，AUC大小为0.981。运行环境为Win10，CPU为i7-10700k，GPU为RTX3080。

二、为了更好的体现本发明方法的效果，本实施例将本发明方法和CGCNN方法进行对比实验，在相同的数据和超参数条件下，本发明方法改善最明显的是带隙，它的MAE降低了8.8％。此外，形成能和绝对能的MAE也都有所下降，分别降低了4.8％和3.7％。尽管费米能的预测误差最大，但是经过对比，MAE依然降低了1.4％。上述研究结果进一步显示，对比CGCNN方法，引入注意力机制和节点归一化后的本发明方法在预测精度方面有明显的改善。

当对总磁矩进行分类时，CGCNN使用收集到的数据中80％的数据作为训练数据，其准确度可以达到86.9％。然而，本发明方法只需要使用60％的数据作为训练数据就可以达到同样的准确度。并且，当同样使用80％的数据作为训练集时，本发明方法的准确度提高了1％。在对宽禁带半导体晶体进行分类时，CGCNN使用80％的数据作为训练数据可以达到92.1％的准确度，而新方法只需要使用40％的数据作为训练数据就可以达到几乎同样的准确度。当同样使用占比80％的数据进行训练时，本发明方法的准确度甚至可以提高1.8％。由此可见本发明方法可以用更少的训练数据就能达到CGCNN的准确度水平，并且当使用相同数据量的训练集时，本发明方法能达到更高的准确度。