CN115713986B

CN115713986B - 基于注意力机制的材料晶体属性预测方法

Info

Publication number: CN115713986B
Application number: CN202211412413.1A
Authority: CN
Inventors: 鲁鸣鸣; 宁瑞鸿; 周星洋; 王超
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-07-11
Anticipated expiration: 2042-11-11
Also published as: CN115713986A

Abstract

本发明公开了一种基于注意力机制的材料晶体属性预测方法，包括获取每一个材料的晶体学信息文件和属性特性数据；对每个材料的晶体结构建模得到晶体图；构建晶体图的几何结构信息的特征表达；将晶体图和步几何结构信息的特征表达输入到构建的材料晶体属性预测初步模型中并训练得到材料晶体属性预测模型；将目标材料的晶体学信息文件输入到材料晶体属性预测模型得到最终的目标材料的晶体属性预测结果。本发明综合考虑了晶体几何结构特征与节点相关性两方面信息，因此本发明方法的可靠性高、精确性好，客观科学，而且本发明方法的计算速度更快，效率更高。

Description

基于注意力机制的材料晶体属性预测方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于注意力机制的材料晶体属性预测方法。

背景技术

随着经济技术的发展和人们生活水平的提高，人工智能技术已经广泛应用于人们的生产和生活当中，给人们的生产和生活带来了无尽的便利。

深度学习技术是人工智能技术的重要组成部分。深度学习在材料晶体应用上的一个关键挑战是材料特征表示。现有的技术使用手工的基于特征的描述符或使用深度图神经网络(GNN)，从晶体结构的三维构象中生成表示。但是，手工的特征需要特定的领域知识和人工干预，这使得手工方法本身受到限制；而深度学习方法不依赖于精细的特征管理，可以利用图数据形式表示材料结构特征，自动学习材料的结构-性质关系。因此图神经网络(GNN)在材料晶体属性预测任务中具有较好应用前景。

随着研究人员提出CGCNN网络，将材料晶体结构转化为晶体图数据以来，以晶体图形式来处理材料晶体属性预测任务成为主流；而且，通过将图神经网络方法应用在材料晶体图数据上，研究人员取得了高于传统计算方法的预测精度。但是，当前材料晶体属性预测方法仍然存在以下两方面的问题。一方面，研究人员关注于改进晶体结构到晶体图的转换过程，以求从材料晶体中获取更多的信息来辅助晶体图信息的更新，但是忽略了晶体图中节点之间的关系；另一方面，虽然有工作聚焦于晶体原子之间关系来改进晶体图特征的更新，但是该类方法没有利用到完整的晶体几何结构信息，导致模型对晶体图中节点之间的序列或位置坐标等信息学习不完全。上述问题，将直接导致现有的材料晶体属性预测方法的可靠性不高，而且精确性也较差。

发明内容

本发明的目的在于提供一种可靠性高、精确性好且客观科学的基于注意力机制的材料晶体属性预测方法。

本发明提供的这种基于注意力机制的材料晶体属性预测方法，包括如下步骤：

S1.获取每一个材料的晶体学信息文件和属性特性数据；

S2.采用无向图对每个材料的晶体结构进行建模，得到晶体图；

S3.采用高斯径向基函数和平面波函数，构建步骤S2得到的晶体图的几何结构信息的特征表达；

S4.将步骤S2得到的晶体图和步骤S3得到的几何结构信息的特征表达，输入到构建的材料晶体属性预测初步模型中；

S5.采用平均绝对误差对材料晶体属性预测初步模型的模型参数进行训练，得到材料晶体属性预测模型；

S6.将目标材料的晶体学信息文件输入到步骤S5得到的材料晶体属性预测模型中，得到的输出结果为目标材料的晶体属性预测结果。

步骤2所述的采用无向图对每个材料的晶体结构进行建模，得到晶体图，具体包括如下步骤：

将晶体晶胞内的院子作为锚质点；

为每个锚质点在半径r内选择离自身最近的N个质点作为该锚质点的邻居质点；半径r为自行设定的超参数；N为自行设定的超参数；

根据每个锚质点及其相邻的邻居质点，共同构成晶体图。

步骤S3所述的采用高斯径向基函数和平面波函数，构建步骤S2得到的晶体图的几何结构信息的特征表达，具体包括如下步骤：

根据步骤S2得到的晶体图，采用高斯径向基函数来编码锚质点之间的距离，采用带有门函数的平面波函数来编码晶体的几何信息，最终得到晶体图的几何结构信息的特征表达p_ij：

p_ij＝W_r{τ_rbf(|r_ij|)}+W_p{τ_pw(r_ij,Ω,a,b,c)⊙G}

式中W_r{}为待学习的参数；τ_rbf()为高斯径向基函数；r_ij为第i个锚质点和第j个邻居节点之间的相对距离；W_p{}为待学习的参数；τ_pw()为平面波函数；Ω为晶胞体积；a、b和c为晶体格基向量；⊙为哈达玛积；G为门函数。

步骤S4所述的将步骤S2得到的晶体图和步骤S3得到的几何结构信息的特征表达，输入到构建的材料晶体属性预测初步模型中，具体包括如下步骤：

材料晶体属性预测初步模型包括：

模型的输入特征向量包括晶体图的节点特征n，边特征e_ij和材料晶体几何结构特征p_ij；其中，节点特征n为采用独热编码的质点元素类型的特征向量，边特征e_ij所对应的编码为由原子之间距离所构建的高斯距离特征，材料晶体几何结构特征p_ij为汇聚了晶格矢量、原子坐标以及晶胞体积结构信息的特征；

采用特征处理层更新三种输入特征：

首先，采用两端节点特征更新边特征：

式中

为第l层更新后的边特征；W_e为待学习参数，用于改变维度并匹配节点特征的维度；||为向量的拼接符号；i为锚节点，j为锚节点i的邻居节点，l为CrystalTransformer堆叠的层数；/>

为在第l层更新的图节点i的特征向量；/>

为在第l层更新的图节点i的邻居节点j的特征集合；

采用更新后的边特征更新与边相关的两端节点特征，同时引入晶体几何结构特征p_ij作为位置编码，并与

和/>

三个特征结合，具体操作采用如下算式表示：

式中⊙为逐元素相乘计算符号；

多头注意力模块用于融合处理后的三种特征，从而辅助更新晶体图中锚节点特征；自多头注意力模块的第一步为对于每个输入向量，创建一个查询向量

一个键向量

和一个值向量/>

对应的计算式如下：

式中

为待学习的查询向量权重；/>

为待学习的键向量权重；/>

为学习的值向量权重；k表示多头注意力模块的第k头，l表示更新层的第l层；/>

为第l层输入第k个注意力头的锚节点特征向量；/>

为第l层输入第k个注意力头的邻居节点特征向量；

为第l层输入第k个注意力头的边ij的特征向量；

具体实施时，首先根据H个头，将

和/>

的特征维度d分成H段，每一段的特征维度为d/H，从而得到/>

和/>

然后，将查询向量与键向量相乘，计算锚节点i与其邻居节点j的相关性评分score^k,l为

为了训练过程的稳定性，在计算过程中，根据处理特征

的维度，对计算得到相关性评分进行缩放，得到/>

然后，通softmanx操作归一化计算得到对应的权重值/>

为/>

d为被缩放嵌入特征的维度；H为模型所含注意力头的数量；

将计算得到的权重值与值向量相乘，得到值向量的输出

为

对更新后的边特征求和，然后将H个注意力头计算得到的输出再次进行拼接，作为锚节点更新一次后的特征向量：具体计算式为：

其中

为多头注意力模块的输出；Concat()为拼接操作；k表示多头注意力模块中第k头，M表示锚节点i的所有邻居节点j的数量；

然后，将多头注意力模块的输出

首先经过线性映射Wo处理，再利用残差结构保存梯度并同时对处理后特征进行归一化，最后在两层的前向反馈传播层FFN^l信息变换之后，得到锚节点i特征输出/>

具体计算式如下：

式中

为映射变换过程中的中间变量；Norm()为归一化操作；/>

为包含了残差梯度信息的多头注意力模块输出；Wo为待学习参数；/>

为上一层的融合特征l为0时则为初始节点特征；/>

为输入下一层模型的锚节点特征；FFN^l()为全连接层；

门池化层用于聚合更新后的晶胞内所有锚节点特征，从而得到整个晶体图特征；具体计算式如下：

式中W_p1和W_p2为不带有偏置的线性映射；g()为激活函数；num为图中节点的数量；

经过门控池化层得到图级别的特征，模型完成一次晶体图特征汇聚更新；经过L次更新之后，模型得到晶体图的最终特征h^L；然后，针对某个属性的预测任务，采用模型得到晶体图的最终特征h^L，经过多层感知机模块，采用如下算式得到最后模型的预测值

所述的多层感知机模块为三层线性层；

式中MLP()为多层感知机层的操作函数。

步骤S5所述的采用平均绝对误差对材料晶体属性预测初步模型的模型参数进行训练，得到材料晶体属性预测模型，具体包括如下步骤：

采用如下算式作为平均绝对误差计算式：

式中n为每个批次的样本数量；y为材料晶体属性预测初步模型的预测输出；Y为真实的属性标签；

采用平均绝对误差对材料晶体属性预测初步模型的模型参数进行训练，使得模型输出的预测值与真实的属性标签之间的距离越来越近，直至达到设定的要求；此时得到的模型为最终的材料晶体属性预测模型。

本发明提供的这种基于注意力机制的材料晶体属性预测方法，综合考虑了晶体几何结构特征与节点相关性两方面信息，因此本发明方法的可靠性高、精确性好，客观科学，而且本发明方法的计算速度更快，效率更高。

附图说明

图1为本发明方法的方法流程示意图。

图2为本发明方法中的材料晶体属性预测初步模型的模型结构示意图。

图3为本发明方法中的材料晶体属性预测初步模型中的特征处理层的结构示意图。

具体实施方式

如图1所示为本发明方法的方法流程示意图：本发明提供的这种基于注意力机制的材料晶体属性预测方法，包括如下步骤：

S1.获取每一个材料的晶体学信息文件和属性特性数据；

S2.采用无向图对每个材料的晶体结构进行建模，得到晶体图；具体包括如下步骤：

将晶体晶胞内的院子作为锚质点；

根据每个锚质点及其相邻的邻居质点，共同构成晶体图；

S3.采用高斯径向基函数和平面波函数，构建步骤S2得到的晶体图的几何结构信息的特征表达；具体包括如下步骤：

p_ij＝W_r{τ_rbf(|r_ij|)}+W_p{τ_pw(r_ij,Ω,a,b,c)⊙G}

式中W_r{}为待学习的参数；τ_rbf()为高斯径向基函数；r_ij为第i个锚质点和第j个邻居节点之间的相对距离；W_p{}为待学习的参数；τ_pw()为平面波函数；Ω为晶胞体积；a、b和c为晶体格基向量；⊙为哈达玛积；G为门函数；

S4.将步骤S2得到的晶体图和步骤S3得到的几何结构信息的特征表达，输入到构建的材料晶体属性预测初步模型中；具体包括如下步骤：

材料晶体属性预测初步模型(结构如图2所示)包括：

采用特征处理层(结构如图3所示)更新三种输入特征：

首先，采用两端节点特征更新边特征：

式中

为第l层更新后的边特征；W_e()为待学习参数，用于改变维度并匹配节点特征的维度；||为向量的拼接符号；i为锚节点，j为锚节点i的邻居节点，l为CrystalTransformer堆叠的层数；/>

为在第l层更新的图节点i的特征向量；/>

为在第l层更新的图节点i的邻居节点j的特征集合；

和/>

三个特征结合，具体操作采用如下算式表示：

式中⊙为逐元素相乘计算符号；

一个键向量

和一个值向量/>

设计三种向量的动机就是通过计算查询向量query与键向量key之间的相似性去寻找最合适的值向量value；对应的计算式如下：

式中

为待学习的查询向量权重；/>

为待学习的键向量权重；/>

为第l层输入第k个注意力头的锚节点特征向量；/>

为第l层输入第k个注意力头的邻居节点特征向量；

为第l层输入第k个注意力头的边ij的特征向量；

具体实施时，首先根据H个头，将

和/>

的特征维度d分成H段，每一段的特征维度为d/H，从而得到/>

和/>

为了训练过程的稳定性，在计算过程中，根据处理特征

的维度，对计算得到相关性评分进行缩放，得到/>

然后，通softmanx操作归一化计算得到对应的权重值/>

为/>

d为被缩放嵌入特征的维度；H为模型所含注意力头的数量；

将计算得到的权重值与值向量相乘，得到值向量的输出

为

其中

然后，将多头注意力模块的输出

首先经过线性映射W_o处理，再利用残差结构保存梯度并同时对处理后特征进行归一化，最后在两层的前向反馈传播层FFN^l信息变换之后，得到锚节点i特征输出/>

在得到自注意力模块输出之后，为了在堆叠Transformer层数避免梯度消失或者梯度爆炸，本申请引入了残差结构，能够有效解决梯度问题，使得模型具有深层次设计的能力；具体计算式如下：

式中

为映射变换过程中的中间变量；Norm()为归一化操作；/>

为上一层的融合特征l为0时则为初始节点特征；/>

为输入下一层模型的锚节点特征；FFN^l()为全连接层；

所述的多层感知机模块为三层线性层；

式中MLP()为多层感知机层的操作函数

S5.采用平均绝对误差对材料晶体属性预测初步模型的模型参数进行训练，得到材料晶体属性预测模型；具体包括如下步骤：

采用如下算式作为平均绝对误差计算式：

式中n为单个训练批次的样本数量；y为材料晶体属性预测初步模型的预测输出；Y为真实的属性标签；

采用平均绝对误差对材料晶体属性预测初步模型的模型参数进行训练，使得模型输出的预测值与真实的属性标签之间的距离越来越近，直至达到设定的要求；此时得到的模型为最终的材料晶体属性预测模型；

以下结合一个实施例，对本发明方法的效果进行说明：

本实施例基于MP数据集，当前模型主要预测材料晶体的七种属性，分别是单原子形成能、绝对能、带隙能、费米能、体积模量、剪切模量和泊松比。但是由于上述七种属性对应的材料数据集数量都不相同并且数据集属性会不断更新，因此本发明的实验数据集主要基于当前主流的MP材料晶体数据集的两种实验数据划分，分别源自于CGCNN方法的实验数据集组织形式(具体如表1所示)和MegNet方法的实验数据集组织形式(具体如表2所示)

表1 CGCNN方法的MP材料晶体数据集划分示意表

表2 MegNet方法的MP材料晶体数据集划分示意表

由于数据集划分具有随机性，本实验设置了随机种子来固定每一次训练的数据集划分。最终，实验时取多次随机种子的平均精度作为实验结果。

在CGCNN数据划分的前提下，本发明对比了七种材料晶体属性预测任务性能，评估结果如表3所示，这里展示了多次不同随机种子实验所得到的最佳实验结果。

表3以CGCNN论文中数据划分下的材料晶体属性预测性能评估数据示意表

属性	单位	CGCNN	GATGNN	GeoCGNN	本发明方法
						单原子形成能	eV	0.039	0.039	0.028	0.0265
带隙能	eV	0.388	0.322	0.2833	0.2849
						绝对能	eV	0.072	0.048	-	0.0352
费米能	eV	0.363	0.33	-	0.2899
						剪切模量	lg(GPa)	0.087	0.085	0.1013	0.0811
体积模量	lg(GPa)	0.054	0.047	0.0697	0.0432
						泊松比	eV	0.03	0.029	0.0349	0.0276

通过对实验结果分析，本发明可以得到如下结论：(1)由于材料晶体的七种属性值具有不同的数据集，并且属性值范围也是大不相同，所以不同属性任务MAE结果相差较大，但是本发明方法在七种属性预测任务上均有一定的提升。(2)本发明方法与将注意力机制引入晶体属性预测的GAT-GNN方法相比，在七种属性预测精度全面优于该方法，这就验证了GT架构对于处理晶体数据集的优越性以及引入晶体几何结构特征的重要性。(3)本发明方法的结果在多个属性预测任务中优于GeoCGNN方法结果，这就验证了通过获取节点之间的相关性对于预测任务确实有一定的提升，尤其是在数据量较少的属性预测任务中。

另外，在MegNet数据划分前提下，本发明主要在单原子形成能、带隙、体积模量以及剪切模型四种属性预测任务上做对比，实验结果如表4所示。

表4以MegNet论文中数据划分下的材料晶体属性预测性能评估数据示意表

属性	单位	MegNet	GeoCGNN	本发明方法
					单原子形成能	eV	0.028	0.024	0.0239
带隙能	eV	0.33	0.289	0.2778
					体积模量	lg(GPa)	0.05	0.057	0.0389
剪切模量	lg(GPa)	0.079	0.077	0.0452

通过对实验结果分析，可以了解到本发明的模型在数据少量时误差下降很快，体积模量和剪切模量两属性在CGCNN数据划分下只有3203个总数据，MAE结果分别为0.0432和0.0811，虽然也是当前最优精度，但是只比其之前最优性能分别下降0.0038和0.0039；然而，当MegNet数据划分中两属性数据增长到5410时，对应误差下降到了0.0389和0.0452远远低于GeoCGNN同样数据集下的误差结果。

最后，为了验证本发明的有效性，通过设置消融实验来验证在输入特征中引入晶体几何结构信息和利用自注意力机制来计算节点之间相关性的在属性预测时所起到的作用。本发明定义了两个缺少部分功能的材料晶体属性预测模型网络，分别是：(1)CrystalTransformer_woP：其表示在本发明方法的基础上，特征处理层是不将晶体几何信息特征p_ij融入到三项输入特征中，仅采用模型原始节点特征。(2)CryststalTransformer_woSA：其表示在本发明方法的基础上，不通过自注意力机制来计算节点之间的相关性来汇聚锚节点特征，而是仅仅直接求和聚合。测试结果如表5所示。

表5类似网络的测试结果数据示意表

属性/模型	本发明方法	CrystalTransformer_woP	CryststalTransformer_woSA
				单原子形成能	0.0265	0.0306	0.0281
带隙能	0.2849	0.3159	0.3359
				体积模量	0.0432	0.0528	0.0531
剪切模量	0.0811	0.0927	0.0887

通过表5可以看到，CrystalTransformer_woP和CryststalTransformer_woSA所得出的平均绝对误差(MAE)均是高于本发明方法的模型的。因此，本发明可以分析得出，晶体几何信息特征与节点之间的相关性均对属性预测任务有重大的影响。该消融实验说明通过自注意力机制学习节点之间的相关性来汇聚锚节点特征以及在输入特征中引入晶体结构几何信息是有效的也是必要的，而且是非常有效的。