CN113807025A - 基于全局优化算法构建神经网络力场模型的方法 - Google Patents

基于全局优化算法构建神经网络力场模型的方法 Download PDF

Info

Publication number
CN113807025A
CN113807025A CN202111170607.0A CN202111170607A CN113807025A CN 113807025 A CN113807025 A CN 113807025A CN 202111170607 A CN202111170607 A CN 202111170607A CN 113807025 A CN113807025 A CN 113807025A
Authority
CN
China
Prior art keywords
data
neural network
force field
field model
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111170607.0A
Other languages
English (en)
Inventor
张佳伟
张勇
孙思清
高传集
蔡卫卫
石光银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202111170607.0A priority Critical patent/CN113807025A/zh
Publication of CN113807025A publication Critical patent/CN113807025A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于全局优化算法构建神经网络力场模型的方法,涉及深度学习技术领域,其实现包括:步骤S1、根据研究目标搜集有效的材料模拟数据,并进行单点能标定、分类和筛选,存储于数据库;步骤S2、根据研究目标,从数据库选取能量/能量和力作为神经网络的评价函数,训练得到神经网络模型;步骤S3、基于训练得到的神经网络模型,采用遗传算法进行数据采样,实现全局空间的搜索;步骤S4、对采样数据进行有效性评估,将有效的采样数据自动地提交到超算服务器进行第一性原理计算标定,并合并到数据库,完成一轮迭代过程;步骤S5、重复步骤S1‑S4,得到适配研究任务的神经网络力场模型。本发明可以实现神经网络力场模型的自动化构建。

Description

基于全局优化算法构建神经网络力场模型的方法
技术领域
本发明涉及深度学习技术领域,具体的说是一种基于全局优化算法构建神经网络力场模型的方法。
背景技术
在材料模拟领域,传统的第一性原理计算软件(VASP)可以较准确描述材料的热力学和动力学性质,但计算耗时,并且对超算资源要求极高。而传统的分子动力学软件,比如lammps,gromacs,虽然计算速度尚可,但存在精度较差和太多经验参数的问题。
随着神经网络在材料模拟中逐渐得到了认可,材料大数据在传统材料模拟研究中的地位日益提升。而神经网络力场模型的构建关键在于数据集的选择,这导致高效地利用材料模拟的数据成了当务之急。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种基于全局优化算法构建神经网络力场模型的方法,该方法充分利用历史的模拟数据,兼顾第一性原理计算软件的精度和普通分子动力学软件的速度,可以很好的解决材料模拟数据中的采样问题。
本发明的一种基于全局优化算法构建神经网络力场模型的方法,解决上述技术问题采用的技术方案如下:
一种基于全局优化算法构建神经网络力场模型的方法,其实现过程包括:
步骤S1、数据处理阶段:材料模拟研究人员根据研究目标搜集有效的材料模拟数据,对搜集得到的材料模拟数据进行单点能标定,并根据组分和原子数目进行分类和筛选,筛选后的材料模拟数据存储于数据库;
步骤S2、模型训练阶段:根据不同的研究目标,从数据库中选取能量/能量和力作为神经网络的评价函数,训练得到至少四个神经网络模型;
步骤S3、数据采样阶段:基于训练得到的神经网络模型,采用遗传算法进行数据采样,实现全局空间的搜索;
步骤S4、数据评估阶段:对通过遗传算法采样得到的数据进行有效性评估,采用结构最大力作为评价特征,用训练得到的神经网络模型计算力的均值,然后对所有神经网络模型的数据计算对于其均值的方差,在方差偏离均值的设定阈值时,认定采样数据数据没有意义,在方差处于设定阈值时,将采样数据自动地提交到超算服务器进行第一性原理计算标定,得到的数据进行预处理,并合并到当前的数据库,至此,完成了一轮迭代过程;
步骤S5、不断重复步骤S1-步骤S4,随着迭代的进行,数据库的数据不断增多,则神经网络的泛化能力不断得到提升,最终得到适配研究任务的神经网络力场模型。
可选的,有效的材料模拟数据可以是课题组以前的历史数据,也可以是文献中的数据;
材料模拟数据可以是材料单点能计算,或者结构优化计算以及分子动力学计算。
可选的,根据组分和原子数目进行分类和筛选的具体操作如下:
首先,对单点能标定后的材料模拟数据根据组分和原子数目不同进行分类;
随后,将相同组分和原子数的结构安装能量进行排序,其中,能量差值在0.1eV内的结构按照结构的最大作用力进行排序;
最后,按照0.2eV的阈值进行数据筛选:能量接近的材料模拟数据,如果最大作用力小于
Figure BDA0003293009810000021
认定为冗余数据,需要排除。
优选的,筛选后的材料模拟数据存储于ase的db数据库,db数据库是一种基于sqlite的数据库,可以存储材料结构的坐标、能量、力以及其他附加的计算信息,有利于数据的批量处理。
可选的,所涉及遗传算法的初始结构种群可以随机产生,也可以从神经网络模型输出的数据中产生,或者随机产生和神经网络模型输出数据混合的后产生。
进一步可选的,采样过程中,根据GPU服务器数量,运行相同数量的遗传算法程序,当遗传算法完成后,自动提示神经网络进程结束。
优选的,所涉及遗传算法的遗传子代在25代-35代之间。
优选的,所涉及设定阈值包括极小值和极大值,
所述极小值为
Figure BDA0003293009810000031
方差偏离均值的值小于
Figure BDA0003293009810000032
时,认定方差过低的偏离均值;
所述极大值为
Figure BDA0003293009810000033
方差偏离均值的值大于
Figure BDA0003293009810000034
时,认定方差过高的偏离均值;
无论方差过高的偏离均值还是过低的偏离均值,都认定采样数据数据没有意义。
本发明的一种基于全局优化算法构建神经网络力场模型的方法,与现有技术相比具有的有益效果是:
(1)本发明利用历史的模拟数据,训练神经网络模型,采用遗传算法进行数据采样,实现全局空间的搜索,并通过对采样数据的有效性评估,实现数据合并,以最终提升神经网络的泛化能力,得到适配研究任务的神经网络力场模型;
(2)本发明充分利用历史的模拟数据,兼顾第一性原理计算软件的精度和普通分子动力学软件的速度,可以很好的解决材料模拟数据中的采样问题,实现神经网络力场模型的自动化构建。
附图说明
附图1是本发明的方法流程图。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
结合附图1,本实施例提出一种基于全局优化算法构建神经网络力场模型的方法,其实现过程包括:
步骤S1、数据处理阶段:材料模拟研究人员根据研究目标搜集有效的材料模拟数据,对搜集得到的材料模拟数据进行单点能标定,并根据组分和原子数目进行分类和筛选,筛选后的材料模拟数据存储于数据库。
本步骤中,有效的材料模拟数据可以是课题组以前的历史数据,也可以是文献中的数据。材料模拟数据可以是材料单点能计算,或者结构优化计算以及分子动力学计算。
根据组分和原子数目进行分类和筛选的具体操作如下:
首先,对单点能标定后的材料模拟数据根据组分和原子数目不同进行分类;
随后,将相同组分和原子数的结构安装能量进行排序,其中,能量差值在0.1eV内的结构按照结构的最大作用力进行排序;
最后,按照0.2eV的阈值进行数据筛选:能量接近的材料模拟数据,如果最大作用力小于
Figure BDA0003293009810000041
认定为冗余数据,需要排除。
筛选后的材料模拟数据存储于ase的db数据库,db数据库是一种基于sqlite的数据库,可以存储材料结构的坐标、能量、力以及其他附加的计算信息,有利于数据的批量处理。
步骤S2、模型训练阶段:根据不同的研究目标,从数据库中选取能量/能量和力作为神经网络的评价函数,训练得到四个神经网络模型。
步骤S3、数据采样阶段:基于训练得到的神经网络模型,采用遗传算法进行数据采样,实现全局空间的搜索。
本步骤中,遗传算法的初始结构种群可以随机产生,也可以从神经网络模型输出的数据中产生,或者随机产生和神经网络模型输出数据混合的后产生。
采用遗传算法进行数据采样过程中,根据GPU服务器数量,运行相同数量的遗传算法程序,当遗传算法完成后,自动提示神经网络进程结束。
本次遗传算法的遗传子代为30代。
步骤S4、数据评估阶段:对通过遗传算法采样得到的数据进行有效性评估,采用结构最大力作为评价特征,用训练得到的神经网络模型计算力的均值,然后对所有神经网络模型的数据计算对于其均值的方差,在方差偏离均值的设定阈值时,认定采样数据数据没有意义,在方差处于设定阈值时,将采样数据自动地提交到超算服务器进行第一性原理计算标定,得到的数据进行预处理,并合并到当前的数据库,至此,完成了一轮迭代过程。
步骤S5、不断重复步骤S1-步骤S4,随着迭代的进行,数据库的数据不断增多,则神经网络的泛化能力不断得到提升,最终得到适配研究任务的神经网络力场模型。
本步骤中,设定阈值包括极小值和极大值,
所述极小值为
Figure BDA0003293009810000051
方差偏离均值的值小于
Figure BDA0003293009810000052
时,认定方差过低的偏离均值;
所述极大值为
Figure BDA0003293009810000053
方差偏离均值的值大于
Figure BDA0003293009810000054
时,认定方差过高的偏离均值;
无论方差过高的偏离均值还是过低的偏离均值,都认定采样数据数据没有意义。
综上可知,采用本发明的一种基于全局优化算法构建神经网络力场模型的方法,充分利用历史的模拟数据,兼顾第一性原理计算软件的精度和普通分子动力学软件的速度,可以很好的解决材料模拟数据中的采样问题,实现神经网络力场模型的自动化构建。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

Claims (8)

1.一种基于全局优化算法构建神经网络力场模型的方法,其特征在于,其实现过程包括:
步骤S1、数据处理阶段:材料模拟研究人员根据研究目标搜集有效的材料模拟数据,对搜集得到的材料模拟数据进行单点能标定,并根据组分和原子数目进行分类和筛选,筛选后的材料模拟数据存储于数据库;
步骤S2、模型训练阶段:根据不同的研究目标,从数据库中选取能量/能量和力作为神经网络的评价函数,训练得到至少四个神经网络模型;
步骤S3、数据采样阶段:基于训练得到的神经网络模型,采用遗传算法进行数据采样,实现全局空间的搜索;
步骤S4、数据评估阶段:对通过遗传算法采样得到的数据进行有效性评估,采用结构最大力作为评价特征,用训练得到的神经网络模型计算力的均值,然后对所有神经网络模型的数据计算对于其均值的方差,在方差偏离均值的设定阈值时,认定采样数据数据没有意义,在方差处于设定阈值时,将采样数据自动地提交到超算服务器进行第一性原理计算标定,得到的数据进行预处理,并合并到当前的数据库,至此,完成了一轮迭代过程;
步骤S5、不断重复步骤S1-步骤S4,随着迭代的进行,数据库的数据不断增多,则神经网络的泛化能力不断得到提升,最终得到适配研究任务的神经网络力场模型。
2.根据权利要求1所述的基于全局优化算法构建神经网络力场模型的方法,其特征在于,有效的材料模拟数据可以是课题组以前的历史数据,也可以是文献中的数据;
材料模拟数据可以是材料单点能计算,或者结构优化计算以及分子动力学计算。
3.根据权利要求1所述的基于全局优化算法构建神经网络力场模型的方法,其特征在于,根据组分和原子数目进行分类和筛选的具体操作如下:
首先,对单点能标定后的材料模拟数据根据组分和原子数目不同进行分类;
随后,将相同组分和原子数的结构安装能量进行排序,其中,能量差值在0.1eV内的结构按照结构的最大作用力进行排序;
最后,按照0.2eV的阈值进行数据筛选:能量接近的材料模拟数据,如果最大作用力小于
Figure FDA0003293009800000021
认定为冗余数据,需要排除。
4.根据权利要求3所述的基于全局优化算法构建神经网络力场模型的方法,其特征在于,筛选后的材料模拟数据存储于ase的db数据库,db数据库是一种基于sqlite的数据库,可以存储材料结构的坐标、能量、力以及其他附加的计算信息,有利于数据的批量处理。
5.根据权利要求1所述的基于全局优化算法构建神经网络力场模型的方法,其特征在于,遗传算法的初始结构种群可以随机产生,也可以从神经网络模型输出的数据中产生,或者随机产生和神经网络模型输出数据混合的后产生。
6.根据权利要求5所述的基于全局优化算法构建神经网络力场模型的方法,其特征在于,采样过程中,根据GPU服务器数量,运行相同数量的遗传算法程序,当遗传算法完成后,自动提示神经网络进程结束。
7.根据权利要求5所述的基于全局优化算法构建神经网络力场模型的方法,其特征在于,遗传算法的遗传子代在25代-35代之间。
8.根据权利要求1所述的基于全局优化算法构建神经网络力场模型的方法,其特征在于,设定阈值包括极小值和极大值,
所述极小值为
Figure FDA0003293009800000022
方差偏离均值的值小于
Figure FDA0003293009800000023
时,认定方差过低的偏离均值;
所述极大值为
Figure FDA0003293009800000024
方差偏离均值的值大于
Figure FDA0003293009800000025
时,认定方差过高的偏离均值;
无论方差过高的偏离均值还是过低的偏离均值,都认定采样数据数据没有意义。
CN202111170607.0A 2021-10-08 2021-10-08 基于全局优化算法构建神经网络力场模型的方法 Pending CN113807025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111170607.0A CN113807025A (zh) 2021-10-08 2021-10-08 基于全局优化算法构建神经网络力场模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111170607.0A CN113807025A (zh) 2021-10-08 2021-10-08 基于全局优化算法构建神经网络力场模型的方法

Publications (1)

Publication Number Publication Date
CN113807025A true CN113807025A (zh) 2021-12-17

Family

ID=78897345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111170607.0A Pending CN113807025A (zh) 2021-10-08 2021-10-08 基于全局优化算法构建神经网络力场模型的方法

Country Status (1)

Country Link
CN (1) CN113807025A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046445A (zh) * 2019-04-25 2019-07-23 仰恩大学 一种预测高压下Sr、Ba、La、Er掺杂c-ZrO2的光电特性方法
CN110633504A (zh) * 2019-08-21 2019-12-31 中联煤层气有限责任公司 一种煤层瓦斯渗透率预测方法
CN111291997A (zh) * 2020-02-18 2020-06-16 山东科技大学 基于随钻测量技术的煤层冲击危险性实时评估方法
CN112685215A (zh) * 2021-01-22 2021-04-20 浪潮云信息技术股份公司 一种云平台异常日志分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046445A (zh) * 2019-04-25 2019-07-23 仰恩大学 一种预测高压下Sr、Ba、La、Er掺杂c-ZrO2的光电特性方法
CN110633504A (zh) * 2019-08-21 2019-12-31 中联煤层气有限责任公司 一种煤层瓦斯渗透率预测方法
CN111291997A (zh) * 2020-02-18 2020-06-16 山东科技大学 基于随钻测量技术的煤层冲击危险性实时评估方法
CN112685215A (zh) * 2021-01-22 2021-04-20 浪潮云信息技术股份公司 一种云平台异常日志分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUANG SI-DA等人: "Material discovery by combining stochastic surface walking global optimization with a neural network", CHEMICAL SCIENCE, vol. 8, no. 9, pages 6327 - 6337 *
匡建超;陈小花;: "新场气田开发方案寻优的遗传优化神经网络模型", 物探化探计算技术, no. 04 *
陈静;江权;冯夏庭;胡嫣然;: "基于位移增量的高地应力下硐室群围岩蠕变参数的智能反分析", 煤炭学报, no. 05 *

Similar Documents

Publication Publication Date Title
CN108594274B (zh) 一种自适应混沌粒子群优化的组合导航选星方法
CN110135630A (zh) 基于随机森林回归和多步寻优的短期负荷需求预测方法
CN112581263A (zh) 一种基于灰狼算法优化广义回归神经网络的信用评估方法
CN111368887B (zh) 雷雨天气预测模型的训练方法及雷雨天气预测方法
CN107992645B (zh) 基于混沌-烟花混合算法的污水处理过程软测量建模方法
CN110020712B (zh) 一种基于聚类的优化粒子群bp网络预测方法和系统
CN107346459B (zh) 一种基于遗传算法改进的多模式污染物集成预报方法
CN107609717B (zh) 社交网络中一种基于Kalman滤波器的帖子转发量预测方法
CN111967696A (zh) 基于神经网络的电动汽车充电需求预测方法、系统及装置
CN116503676B (zh) 一种基于知识蒸馏小样本增量学习的图片分类方法及系统
CN115525038A (zh) 一种基于联邦分层优化学习的设备故障诊断方法
CN116542382A (zh) 基于混合优化算法的污水处理溶解氧浓度预测方法
CN116244647A (zh) 一种无人机集群的运行状态估计方法
CN112819246A (zh) 基于布谷鸟算法优化神经网络的能源需求预测方法
CN113807025A (zh) 基于全局优化算法构建神经网络力场模型的方法
CN105976057B (zh) 一种基于改进灰色理论的中长期负荷预测方法
CN111310974A (zh) 一种基于ga-elm的短期需水预测方法
CN115394381A (zh) 一种基于机器学习和两步法数据扩充的高熵合金硬度预测方法及装置
CN101609486B (zh) G蛋白偶联受体超类的识别方法及其Web服务系统
CN110516853B (zh) 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法
CN113762591A (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
CN112767128A (zh) 权重确定模型训练方法、风险预测方法及装置
CN112446435A (zh) 一种城市数据分类方法及系统
CN112419092A (zh) 一种基于粒子群优化极限学习机的线损预测方法
CN117574991B (zh) 基于ga算法优化bp神经网络的极移预报方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination