CN113807025A

CN113807025A - 基于全局优化算法构建神经网络力场模型的方法

Info

Publication number: CN113807025A
Application number: CN202111170607.0A
Authority: CN
Inventors: 张佳伟; 张勇; 孙思清; 高传集; 蔡卫卫; 石光银
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2021-12-17

Abstract

本发明公开一种基于全局优化算法构建神经网络力场模型的方法，涉及深度学习技术领域，其实现包括：步骤S1、根据研究目标搜集有效的材料模拟数据，并进行单点能标定、分类和筛选，存储于数据库；步骤S2、根据研究目标，从数据库选取能量/能量和力作为神经网络的评价函数，训练得到神经网络模型；步骤S3、基于训练得到的神经网络模型，采用遗传算法进行数据采样，实现全局空间的搜索；步骤S4、对采样数据进行有效性评估，将有效的采样数据自动地提交到超算服务器进行第一性原理计算标定，并合并到数据库，完成一轮迭代过程；步骤S5、重复步骤S1‑S4，得到适配研究任务的神经网络力场模型。本发明可以实现神经网络力场模型的自动化构建。

Description

基于全局优化算法构建神经网络力场模型的方法

技术领域

本发明涉及深度学习技术领域，具体的说是一种基于全局优化算法构建神经网络力场模型的方法。

背景技术

在材料模拟领域，传统的第一性原理计算软件(VASP)可以较准确描述材料的热力学和动力学性质，但计算耗时，并且对超算资源要求极高。而传统的分子动力学软件，比如lammps，gromacs，虽然计算速度尚可，但存在精度较差和太多经验参数的问题。

随着神经网络在材料模拟中逐渐得到了认可，材料大数据在传统材料模拟研究中的地位日益提升。而神经网络力场模型的构建关键在于数据集的选择，这导致高效地利用材料模拟的数据成了当务之急。

发明内容

本发明针对目前技术发展的需求和不足之处，提供一种基于全局优化算法构建神经网络力场模型的方法，该方法充分利用历史的模拟数据，兼顾第一性原理计算软件的精度和普通分子动力学软件的速度，可以很好的解决材料模拟数据中的采样问题。

本发明的一种基于全局优化算法构建神经网络力场模型的方法，解决上述技术问题采用的技术方案如下：

一种基于全局优化算法构建神经网络力场模型的方法，其实现过程包括：

步骤S1、数据处理阶段：材料模拟研究人员根据研究目标搜集有效的材料模拟数据，对搜集得到的材料模拟数据进行单点能标定，并根据组分和原子数目进行分类和筛选，筛选后的材料模拟数据存储于数据库；

步骤S2、模型训练阶段：根据不同的研究目标，从数据库中选取能量/能量和力作为神经网络的评价函数，训练得到至少四个神经网络模型；

步骤S3、数据采样阶段：基于训练得到的神经网络模型，采用遗传算法进行数据采样，实现全局空间的搜索；

步骤S4、数据评估阶段：对通过遗传算法采样得到的数据进行有效性评估，采用结构最大力作为评价特征，用训练得到的神经网络模型计算力的均值，然后对所有神经网络模型的数据计算对于其均值的方差，在方差偏离均值的设定阈值时，认定采样数据数据没有意义，在方差处于设定阈值时，将采样数据自动地提交到超算服务器进行第一性原理计算标定，得到的数据进行预处理，并合并到当前的数据库，至此，完成了一轮迭代过程；

步骤S5、不断重复步骤S1-步骤S4，随着迭代的进行，数据库的数据不断增多，则神经网络的泛化能力不断得到提升，最终得到适配研究任务的神经网络力场模型。

可选的，有效的材料模拟数据可以是课题组以前的历史数据，也可以是文献中的数据；

材料模拟数据可以是材料单点能计算，或者结构优化计算以及分子动力学计算。

可选的，根据组分和原子数目进行分类和筛选的具体操作如下：

首先，对单点能标定后的材料模拟数据根据组分和原子数目不同进行分类；

随后，将相同组分和原子数的结构安装能量进行排序，其中，能量差值在0.1eV内的结构按照结构的最大作用力进行排序；

最后，按照0.2eV的阈值进行数据筛选：能量接近的材料模拟数据，如果最大作用力小于

认定为冗余数据，需要排除。

优选的，筛选后的材料模拟数据存储于ase的db数据库，db数据库是一种基于sqlite的数据库，可以存储材料结构的坐标、能量、力以及其他附加的计算信息，有利于数据的批量处理。

可选的，所涉及遗传算法的初始结构种群可以随机产生，也可以从神经网络模型输出的数据中产生，或者随机产生和神经网络模型输出数据混合的后产生。

进一步可选的，采样过程中，根据GPU服务器数量，运行相同数量的遗传算法程序，当遗传算法完成后，自动提示神经网络进程结束。

优选的，所涉及遗传算法的遗传子代在25代-35代之间。

优选的，所涉及设定阈值包括极小值和极大值，

所述极小值为

方差偏离均值的值小于

时，认定方差过低的偏离均值；

所述极大值为

方差偏离均值的值大于

时，认定方差过高的偏离均值；

无论方差过高的偏离均值还是过低的偏离均值，都认定采样数据数据没有意义。

本发明的一种基于全局优化算法构建神经网络力场模型的方法，与现有技术相比具有的有益效果是：

(1)本发明利用历史的模拟数据，训练神经网络模型，采用遗传算法进行数据采样，实现全局空间的搜索，并通过对采样数据的有效性评估，实现数据合并，以最终提升神经网络的泛化能力，得到适配研究任务的神经网络力场模型；

(2)本发明充分利用历史的模拟数据，兼顾第一性原理计算软件的精度和普通分子动力学软件的速度，可以很好的解决材料模拟数据中的采样问题，实现神经网络力场模型的自动化构建。

附图说明

附图1是本发明的方法流程图。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清楚、完整的描述。

实施例一：

结合附图1，本实施例提出一种基于全局优化算法构建神经网络力场模型的方法，其实现过程包括：

步骤S1、数据处理阶段：材料模拟研究人员根据研究目标搜集有效的材料模拟数据，对搜集得到的材料模拟数据进行单点能标定，并根据组分和原子数目进行分类和筛选，筛选后的材料模拟数据存储于数据库。

本步骤中，有效的材料模拟数据可以是课题组以前的历史数据，也可以是文献中的数据。材料模拟数据可以是材料单点能计算，或者结构优化计算以及分子动力学计算。

根据组分和原子数目进行分类和筛选的具体操作如下：

认定为冗余数据，需要排除。

筛选后的材料模拟数据存储于ase的db数据库，db数据库是一种基于sqlite的数据库，可以存储材料结构的坐标、能量、力以及其他附加的计算信息，有利于数据的批量处理。

步骤S2、模型训练阶段：根据不同的研究目标，从数据库中选取能量/能量和力作为神经网络的评价函数，训练得到四个神经网络模型。

步骤S3、数据采样阶段：基于训练得到的神经网络模型，采用遗传算法进行数据采样，实现全局空间的搜索。

本步骤中，遗传算法的初始结构种群可以随机产生，也可以从神经网络模型输出的数据中产生，或者随机产生和神经网络模型输出数据混合的后产生。

采用遗传算法进行数据采样过程中，根据GPU服务器数量，运行相同数量的遗传算法程序，当遗传算法完成后，自动提示神经网络进程结束。

本次遗传算法的遗传子代为30代。

步骤S4、数据评估阶段：对通过遗传算法采样得到的数据进行有效性评估，采用结构最大力作为评价特征，用训练得到的神经网络模型计算力的均值，然后对所有神经网络模型的数据计算对于其均值的方差，在方差偏离均值的设定阈值时，认定采样数据数据没有意义，在方差处于设定阈值时，将采样数据自动地提交到超算服务器进行第一性原理计算标定，得到的数据进行预处理，并合并到当前的数据库，至此，完成了一轮迭代过程。

本步骤中，设定阈值包括极小值和极大值，