CN113836115A - 数据获取方法、装置、电子设备及可读存储介质 - Google Patents
数据获取方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113836115A CN113836115A CN202111145290.5A CN202111145290A CN113836115A CN 113836115 A CN113836115 A CN 113836115A CN 202111145290 A CN202111145290 A CN 202111145290A CN 113836115 A CN113836115 A CN 113836115A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- file
- physical quantity
- material structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 239000000463 material Substances 0.000 claims abstract description 116
- 238000004364 calculation method Methods 0.000 claims abstract description 47
- 239000013077 target material Substances 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 17
- 230000005389 magnetism Effects 0.000 claims description 13
- 238000013515 script Methods 0.000 claims description 13
- 238000007405 data analysis Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 239000000126 substance Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000007619 statistical method Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 102100021164 Vasodilator-stimulated phosphoprotein Human genes 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 238000012805 post-processing Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000003775 Density Functional Theory Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000329 molecular dynamics simulation Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000005428 wave function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种数据获取方法、装置、电子设备及可读存储介质。其中,方法包括根据目标数据库中的原始数据的材料属性参数,构建符合材料结构且适用于材料模拟软件的输入文件;基于预先设置的收敛标准和输入文件,通过高通量计算对材料结构进行优化处理,得到目标材料结构;利用计算待需求物理量的目标计算方法对目标材料结构进行处理,得到待需求物理量实例数据,本申请可获取满足材料信息学现实需求的大量实例数据。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据获取方法、装置、电子设备及可读存储介质。
背景技术
随着计算机技术的快速发展,用户对计算力的需求越来越高,超级计算机应用而生。在这个计算力等同于生产力的时代,强大的计算力为科学发展注入了新的活力,也提供了新的方法与可能性。尤其是在材料科学方向,大数据与机器学习将新材料研发的进程从传统的10-20年可以缩短到几个月。一般认为,材料科学研究包含三种传统的研究手段,也被称作是三个科学范式,即实验表征、理论科学以及计算科学。以上这些科学手段随着时间的推移,积攒了大量的科学数据,尤其是第三个范式计算科学,凭借算力的不断提升,利用密度泛函理论DFT、分子动力学MD以及蒙特卡洛模拟方法创造了大量丰富且高品质的科学数据。因此,随着算力的不断提升,材料科学也迎来了大数据时代。大数据时代的特征不仅是数据体量大,更是利用这些已有的数据,结合机器学习方法,来创造知识,也被称为是大数据驱动科学发展,即第四个科学范式。当大数据遇到材料科学,利用机器学习来获取知识,这一新的科学领域也被称为是材料信息学。
但是,目前材料信息学发展缺乏完备的数据集,相关技术通过高通量搜索方法来尽快获取数据,从而加速材料计算发展。目前的高通量搜索方法的目的还是寻找最稳定的材料,因此在具体物理性质搜索方面缺乏具体的实例,导致最终所获取的数据并无法满足现实需求。
发明内容
本申请提供了一种数据获取方法、装置、电子设备及可读存储介质,获取满足材料信息学现实需求的大量实例数据。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种数据获取方法,包括:
根据目标数据库中的原始数据的材料属性参数,构建符合材料结构且适用于材料模拟软件的输入文件;
基于预先设置的收敛标准和所述输入文件,通过高通量计算对所述材料结构进行优化处理,得到目标材料结构;
利用计算待需求物理量的目标计算方法对所述目标材料结构进行处理,得到待需求物理量实例数据。
可选的,所述利用计算待需求物理量的目标计算方法对所述目标材料结构进行处理,得到待需求物理量实例数据,包括:
对所述目标材料结构进行电子自洽过程,得到电子云密度实例数据。
可选的,所述利用计算待需求物理量的目标计算方法对所述目标材料结构进行处理,得到待需求物理量实例数据之后,还包括:
预先基于材料磁性属性构建不同的Python脚本,所述磁性属性包括没有磁性体系和含有磁性体系;
分别对于没有磁性体系和含有磁性体系,调用相应的Python脚本将所述电子云密度实例数据转换为目标格式数据。
可选的,所述利用计算待需求物理量的目标计算方法对所述目标材料结构进行处理,得到待需求物理量实例数据之后,还包括:
对所述目标数据库中的各原始数据对应的材料的物理化学性质进行统计学分析,得到数据分析结果;
根据所述数据分析结果生成可视化图像数据。
可选的,所述材料模拟软件为VASP软件,所述根据目标数据库中的原始数据的材料属性参数,构建符合材料结构且适用于材料模拟软件的输入文件,包括:
从所述目标数据库中获取预设材料类型的原始结构文件,以作为所述材料模拟软件的结构文件;
利用shell脚本语言,通过自动搜索所述结构文件中所包含的元素类型,生成相应的赝势文件;
根据结构优化过程和待需求物理量计算过程中所有材料的普适参数,生成控制参数文件。
可选的,所述从所述目标数据库中获取预设材料类型的原始结构文件,包括:
利用并行爬虫方式从所述目标数据库中获取预设材料类型的原始结构文件。
本发明实施例另一方面提供了一种数据获取装置,包括:
输入文件构建模块,用于根据目标数据库中的原始数据的材料属性参数,构建符合材料结构且适用于材料模拟软件的输入文件;
材料结构优化模块,用于基于预先设置的收敛标准和所述输入文件,通过高通量计算对所述材料结构进行优化处理,得到目标材料结构;
数据生成模块,用于利用计算待需求物理量的目标计算方法对所述目标材料结构进行处理,得到待需求物理量实例数据。
可选的,所述数据生成模块用于:对所述目标材料结构进行电子自洽过程,得到电子云密度实例数据。
本发明实施例还提供了一种电子设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述数据获取方法的步骤。
本发明实施例最后还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前任一项所述数据获取方法的步骤。
本申请提供的技术方案的优点在于,对现有数据库的原始样本数据进行处理构建适用于材料模拟软件的输入文件,利用该输入文件通过高通量计算优化材料结构,利用优化后的材料结构对所求的物理化学性质参数进行相应的计算,得到满足现实需求的大量样本实例数据,有利于为材料信息学提供完备的数据集。
此外,本发明实施例还针对数据获取方法提供了相应的实现装置、电子设备及可读存储介质,进一步使得所述方法更具有实用性,所述装置、电子设备及可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据获取方法的流程示意图;
图2为本发明实施例提供的一个示意性例子的前处理流程示意图;
图3为本发明实施例提供的一个示意性例子的计算流程示意图;
图4为本发明实施例提供的结构优化模块代码实例示意图;
图5为本发明实施例提供的结构优化模块中的收敛性校验代码实例示意图;
图6为本发明实施例提供的电子自洽代码实例示意图;
图7为本发明实施例提供的一种后处理实例示意图;
图8为本发明实施例提供的另一种后处理实例示意图;
图9为本发明实施例提供的再一种后处理实例示意图;
图10为本发明实施例提供的数据获取装置的一种具体实施方式结构图;
图11为本发明实施例提供的电子设备的一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
需要注意的是,上述应用场景仅是为了便于理解本申请的思想和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种数据获取方法的流程示意图,本发明实施例可包括以下内容:
S101:根据目标数据库中的原始数据的材料属性参数,构建符合材料结构且适用于材料模拟软件的输入文件。
在本实施例中,目标数据库可为任何一种材料数据库,如Materials Project数据库,原始数据是指直接从目标数据库中所获取的材料数据。材料属性参数包括但并不限制于材料原胞尺寸、对称性和磁性。材料模拟软件用于对原始数据进行电子结构计算和量子力学-分子动力学等的模拟软件,如VASP(Vienna Ab-initio Simulation Package)软件。
S102:基于预先设置的收敛标准和输入文件,通过高通量计算对材料结构进行优化处理,得到目标材料结构。
在上述步骤的基础上,开始对材料的结构进行优化,例如可通过利用shell脚本对于海量结构进行高通量计算来实现优化处理,收敛标准是预先指定好,决定材料结构优化程度的一个标准。
S103:利用计算待需求物理量的目标计算方法对目标材料结构进行处理,得到待需求物理量实例数据。
本实施例的待需求物理量来完备材料信息学的数据集中所需的实例数据对应的材料的物理化学性质,例如可为电子云密度这一物理量,不同的物理量只需对本步骤进行适应性修改即可,举例来说,若待需求物理量为电子云密度,电子云密度对应的目标计算方法为电子自洽,该步骤可为对目标材料结构进行电子自洽过程,得到电子云密度实例数据。
在本发明实施例提供的技术方案中,对现有数据库的原始样本数据进行处理构建适用于材料模拟软件的输入文件,利用该输入文件通过高通量计算优化材料结构,利用优化后的材料结构对所求的物理化学性质参数进行相应的计算,得到满足现实需求的大量样本实例数据,有利于为材料信息学提供完备的数据集。
需要说明的是,本申请中各步骤间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图1只是一种示意方式,并不代表只能是这样的执行顺序。
在上述实施例中,对于如何执行步骤S101并不做限定,本实施例中给出输入文件的一种构建方式,材料模拟软件为VASP软件,需要构建的输入文件包括结构文件POSCAR,赝势文件POTCAR以及控制参数文件INCAR,可包括如下步骤:
从目标数据库中获取预设材料类型的原始结构文件,以作为材料模拟软件的结构文件;
利用shell脚本语言,通过自动搜索结构文件中所包含的元素类型,生成相应的赝势文件;
根据结构优化过程和待需求物理量计算过程中所有材料的普适参数,生成控制参数文件。
为了进一步提高输入文件的构建效率,可利用并行爬虫方式从目标数据库中获取预设材料类型的原始结构文件,具体的,可采用pymatgen软件的Query方法结合python的MPI接口mpi4py实现并行爬虫。
现有的高通量搜索框架仅仅包含了计算模块,往往不包含具体的材料结构挖掘以及后处理、数据分析过程,导致最终所获取的数据并无法满足现实需求,为了进一步满足现实材料数据需求,在利用计算待需求物理量的目标计算方法对目标材料结构进行处理,得到待需求物理量实例数据之后,还包括:
预先基于材料磁性属性构建不同的Python脚本,磁性属性包括没有磁性体系和含有磁性体系;分别对于没有磁性体系和含有磁性体系,调用相应的Python脚本将电子云密度实例数据转换为目标格式数据。
此外,还对目标数据库中的各原始数据对应的材料的物理化学性质进行统计学分析,得到数据分析结果;根据数据分析结果生成可视化图像数据。
举例来说,对于数据库特征,如原胞原子数,元素种类点群与对称性分布等特征实现自动的可视化处理与分析。
为了使所属领域技术人员更加清楚明白本申请的计算方案,本申请以利用VASP软件实现计算电子云密度的高通量搜索实施方式,可以获取大量电子云密度的实例数据,在本实施例中,通过前处理模块、计算模块、后处理模块和数据分析模块四部分组成,前处理模块用于获得材料的原始结构文件,并根据材料原胞尺寸、对称性、磁性三个判断条件来自动化构建符合材料结构的四个VASP输入文件INCAR、KPOINTS、POTCAR和POSCAR。计算模块用于自动进行高通量计算,制定收敛标准,完成结构优化;利用优化好的结构进行电子自恰过程,获得电子云密度。后处理模块用于将CHG文件转化为更普适且轻量级的json文件格式存储。数据分析模块用于对于数据库特征,如原胞原子数,元素种类点群与对称性分布等特征实现自动的可视化处理与分析。本实施例可包括下述内容:
前处理阶段的主要任务是准备VASP计算软件所必须的输入文件,包括结构文件POSCAR,赝势文件POTCAR以及控制参数文件INCAR。具体包含以下步骤,前处理模块的整个流程图如图2所示:
生成POSCAR文件:从Material Project数据库获得指定材料的原始结构文件,也就是VASP的输入文件POSCAR。考虑到数据库体量庞大,因此采用的具体方法是pymatgen软件的Query方法结合python的MPI接口mpi4py实现并行爬虫。
生成POTCAR文件:在以上步骤基础上,对于以上获得的所有结构POSCAR,利用shell脚本语言自动搜索POSCAR所包含的元素类型生成相应的POTCAR。
生成INCAR文件,静态过程:设置结构优化以及电子自恰迭代过程中所有材料的普适参数,包括:
计算精度相关的参数PREC=Accurate。
电子步与离子步控制参数:NELM=80;NSW=60c。
算法控制参数:ISMEAR=0;SIGMA=0.05;LORBIT=11;IBRION=2;ISIF=3;LREAL=Autod。
范德华修正opt-B88:LUSE_VDW=.True.;PARAM1=0.18333;PARAM2=0.22c。
输出变量控制:LCHARG=.False.;LWAVE=.True.输出波函数为了反复的结构优化做准备。
K网格点密度控制参数:KSPACING=0.2。
对称性与磁性控制参数:ISYM=2;ISPIN=2开启磁性与对称性计算。
在上述步骤基础上,开始计算阶段,包括材料的结构优化与电子自恰迭代两个依次的过程,主要实现方法是利用shell脚本对于海量结构进行高通量计算,包含以下步骤,整个流程图如图3所示
设置能量与力的收敛标准,反复迭代实现材料结构的优化,该过程实现方法的实例代码段如下图4,5所示:
迭代一,能量收敛标准为EDIFF=1E-4,EDIFFG=1E-2;如果收敛,则将得到的CONTCAR文件修改为迭代二的POSCAR文件,进入迭代二,使用迭代二的收敛标准进行计算;如果不收敛,则留在迭代一,继续计算;
迭代二,能量收敛标准为EDIFF=1E-6,EDIFFG=1E-3。如果收敛,则进入电子自恰计算阶段;如果不收敛,则将CONTCAR文件修改的POSCAR文件,反复计算,直至收敛。
电子自恰计算属于静态计算,不再面临是否收敛的问题,该过程实现方法的实例代码段如下图6所示,该过程主要使用上述步骤得到的收敛结构POSCAR文件,已经静态计算的INCAR文件,利用shell脚本批量计算即可。
在本实施例中,电子云密度文件CHG的后处理过程包括:利用VASP软件计算得到的电子云密度CHG文件格式并不具有普适性,机器学习算法无法直接从CHG文件种直接获取想要的信息。因此可利用python对于CHG文件进行转化,存储为更为便捷的json格式。由于材料分为含有磁性的体系,和不包含磁性的体系两种,因此实际计算获得的电荷密度CHG文件也有两种格式:对于没有磁性的体系,可利用python脚本CHG_to_json.py将CHG文件转化为json文件存储,具体实现方法如7所示。对于含有磁性的体系,可利用python脚本CHG_to_json_spin.py将CHG文件转化为json文件存储,具体实现方法如8所示。
利用类似于步骤一中的python并行爬虫的方法,可对于数据库中材料的物理化学性质进行统计学分析,以174种材料,利用6个MPI进程进行获取材料的原胞体积、元素构成以及空间点群为例,具体的实现代码实例如下图9所示。得到的数据保存在文件名为space、unitcell两个文件中,后续的可视化利用origin作图软件即可得到。
由上可知,本实施例实现了材料科学领域电子云密度高通量搜索计算这一复杂的科学过程,基于VASP软件和Materials Project数据库,利用python实现数据分析,以及json文件格式处理与压缩,利用并行计算的MPI+python方法实现并行爬虫极大的提高了爬虫效率,整合材料科学领域VASP软件所有输入文件的参数设置与调用,利用pymatgen软件对于Material Project数据库进行数据挖掘,利用shell脚本语言将所有的技术手段进行连接,实现计算的批量自动化处理过程。利用python,shell,pymatgen,mpi4py等技术手段实现高通量计算框架,其中,Python使用MPI实现分布式计算。从而极大地节省了科研工作者的时间成本,并且为材料科学领域的数据库构建以及后续的机器学习过程提供了极大的便利。
本发明实施例还针对数据获取方法提供了相应的装置,进一步使得方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的数据获取装置进行介绍,下文描述的数据获取装置与上文描述的数据获取方法可相互对应参照。
基于功能模块的角度,参见图10,图10为本发明实施例提供的数据获取装置在一种具体实施方式下的结构图,该装置可包括:
输入文件构建模块1001,用于根据目标数据库中的原始数据的材料属性参数,构建符合材料结构且适用于材料模拟软件的输入文件。
材料结构优化模块1002,用于基于预先设置的收敛标准和输入文件,通过高通量计算对材料结构进行优化处理,得到目标材料结构。
数据生成模块1003,用于利用计算待需求物理量的目标计算方法对目标材料结构进行处理,得到待需求物理量实例数据。
可选的,在本实施例的一些实施方式中,上述装置例如还可而包括数据存储模块,用于预先基于材料磁性属性构建不同的Python脚本,磁性属性包括没有磁性体系和含有磁性体系;分别对于没有磁性体系和含有磁性体系,调用相应的Python脚本将电子云密度实例数据转换为目标格式数据。
作为本实施例的一种可选的实施方式,上述数据生成模块1003可用于:对目标材料结构进行电子自洽过程,得到电子云密度实例数据。
作为本实施例的另一种可选的实施方式,上述装置例如还可包括可视化模块,用于对目标数据库中的各原始数据对应的材料的物理化学性质进行统计学分析,得到数据分析结果;根据数据分析结果生成可视化图像数据。
可选的,在本实施例的另一些实施方式中,上述输入文件构建模块1001可进一步用于:材料模拟软件为VASP软件,从目标数据库中获取预设材料类型的原始结构文件,以作为材料模拟软件的结构文件;利用shell脚本语言,通过自动搜索结构文件中所包含的元素类型,生成相应的赝势文件;根据结构优化过程和待需求物理量计算过程中所有材料的普适参数,生成控制参数文件。
作为本实施例的一种可选的实施方式,上述输入文件构建模块1001还可进一步用于:利用并行爬虫方式从目标数据库中获取预设材料类型的原始结构文件。
本发明实施例数据获取装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可获取满足材料信息学现实需求的大量实例数据。
上文中提到的数据获取装置是从功能模块的角度描述,进一步的,本申请还提供一种电子设备,是从硬件角度描述。图11为本申请实施例提供的电子设备在一种实施方式下的结构示意图。如图11所示,该电子设备包括存储器110,用于存储计算机程序;处理器111,用于执行计算机程序时实现如上述任一实施例提到的数据获取方法的步骤。
其中,处理器111可以包括一个或多个处理核心,比如4核心处理器、8核心处理器,处理器111还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器111可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable GateArray,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器111也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器111可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器111还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器110可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器110还可包括高速随机存取存储器以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。存储器110在一些实施例中可以是电子设备的内部存储单元,例如服务器的硬盘。存储器110在另一些实施例中也可以是电子设备的外部存储设备,例如服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器110还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器110不仅可以用于存储安装于电子设备的应用软件及各类数据,例如:执行漏洞处理方法的程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中,存储器110至少用于存储以下计算机程序1101,其中,该计算机程序被处理器111加载并执行之后,能够实现前述任一实施例公开的数据获取方法的相关步骤。另外,存储器110所存储的资源还可以包括操作系统1102和数据1103等,存储方式可以是短暂存储或者永久存储。其中,操作系统1102可以包括Windows、Unix、Linux等。数据1103可以包括但不限于数据获取结果对应的数据等。
在一些实施例中,上述电子设备还可包括有显示屏112、输入输出接口113、通信接口114或者称为网络接口、电源115以及通信总线116。其中,显示屏112、输入输出接口113比如键盘(Keyboard)属于用户接口,可选的用户接口还可以包括标准的有线接口、无线接口等。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口114可选的可以包括有线接口和/或无线接口,如WI-FI接口、蓝牙接口等,通常用于在电子设备与其他电子设备之间建立通信连接。通信总线116可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域技术人员可以理解,图11中示出的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的组件,例如还可包括实现各类功能的传感器117。
本发明实施例所述电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可获取满足材料信息学现实需求的大量实例数据。
可以理解的是,如果上述实施例中的数据获取方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时如上任意一实施例所述数据获取方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种数据获取方法、装置、电子设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种数据获取方法,其特征在于,包括:
根据目标数据库中的原始数据的材料属性参数,构建符合材料结构且适用于材料模拟软件的输入文件;
基于预先设置的收敛标准和所述输入文件,通过高通量计算对所述材料结构进行优化处理,得到目标材料结构;
利用计算待需求物理量的目标计算方法对所述目标材料结构进行处理,得到待需求物理量实例数据。
2.根据权利要求1所述的数据获取方法,其特征在于,所述利用计算待需求物理量的目标计算方法对所述目标材料结构进行处理,得到待需求物理量实例数据,包括:
对所述目标材料结构进行电子自洽过程,得到电子云密度实例数据。
3.根据权利要求2所述的数据获取方法,其特征在于,所述利用计算待需求物理量的目标计算方法对所述目标材料结构进行处理,得到待需求物理量实例数据之后,还包括:
预先基于材料磁性属性构建不同的Python脚本,所述磁性属性包括没有磁性体系和含有磁性体系;
分别对于没有磁性体系和含有磁性体系,调用相应的Python脚本将所述电子云密度实例数据转换为目标格式数据。
4.根据权利要求1所述的数据获取方法,其特征在于,所述利用计算待需求物理量的目标计算方法对所述目标材料结构进行处理,得到待需求物理量实例数据之后,还包括:
对所述目标数据库中的各原始数据对应的材料的物理化学性质进行统计学分析,得到数据分析结果;
根据所述数据分析结果生成可视化图像数据。
5.根据权利要求1至4任意一项所述的数据获取方法,其特征在于,所述材料模拟软件为VASP软件,所述根据目标数据库中的原始数据的材料属性参数,构建符合材料结构且适用于材料模拟软件的输入文件,包括:
从所述目标数据库中获取预设材料类型的原始结构文件,以作为所述材料模拟软件的结构文件;
利用shell脚本语言,通过自动搜索所述结构文件中所包含的元素类型,生成相应的赝势文件;
根据结构优化过程和待需求物理量计算过程中所有材料的普适参数,生成控制参数文件。
6.根据权利要求5所述的数据获取方法,其特征在于,所述从所述目标数据库中获取预设材料类型的原始结构文件,包括:
利用并行爬虫方式从所述目标数据库中获取预设材料类型的原始结构文件。
7.一种数据获取装置,其特征在于,包括:
输入文件构建模块,用于根据目标数据库中的原始数据的材料属性参数,构建符合材料结构且适用于材料模拟软件的输入文件;
材料结构优化模块,用于基于预先设置的收敛标准和所述输入文件,通过高通量计算对所述材料结构进行优化处理,得到目标材料结构;
数据生成模块,用于利用计算待需求物理量的目标计算方法对所述目标材料结构进行处理,得到待需求物理量实例数据。
8.根据权利要求7所述的数据获取装置,其特征在于,所述数据生成模块用于:对所述目标材料结构进行电子自洽过程,得到电子云密度实例数据。
9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至6任一项所述数据获取方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述数据获取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111145290.5A CN113836115B (zh) | 2021-09-28 | 2021-09-28 | 数据获取方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111145290.5A CN113836115B (zh) | 2021-09-28 | 2021-09-28 | 数据获取方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836115A true CN113836115A (zh) | 2021-12-24 |
CN113836115B CN113836115B (zh) | 2023-06-27 |
Family
ID=78967158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111145290.5A Active CN113836115B (zh) | 2021-09-28 | 2021-09-28 | 数据获取方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836115B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328302A (zh) * | 2021-12-28 | 2022-04-12 | 威创集团股份有限公司 | 一种多主机输入控制方法、系统、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182326A (zh) * | 2017-12-29 | 2018-06-19 | 鸿之微科技(上海)股份有限公司 | 基于vasp的能带结构计算方法及系统 |
CN110334055A (zh) * | 2019-06-06 | 2019-10-15 | 苏州迈高材料基因技术有限公司 | 一种获取材料计算数据的方法 |
CN112102887A (zh) * | 2020-09-02 | 2020-12-18 | 北京航空航天大学 | 多尺度集成可视化的高通量自动计算流程及数据智能系统 |
-
2021
- 2021-09-28 CN CN202111145290.5A patent/CN113836115B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182326A (zh) * | 2017-12-29 | 2018-06-19 | 鸿之微科技(上海)股份有限公司 | 基于vasp的能带结构计算方法及系统 |
CN110334055A (zh) * | 2019-06-06 | 2019-10-15 | 苏州迈高材料基因技术有限公司 | 一种获取材料计算数据的方法 |
CN112102887A (zh) * | 2020-09-02 | 2020-12-18 | 北京航空航天大学 | 多尺度集成可视化的高通量自动计算流程及数据智能系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328302A (zh) * | 2021-12-28 | 2022-04-12 | 威创集团股份有限公司 | 一种多主机输入控制方法、系统、设备及存储介质 |
CN114328302B (zh) * | 2021-12-28 | 2023-10-10 | 威创集团股份有限公司 | 一种多主机输入控制方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113836115B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112433819A (zh) | 异构集群调度的模拟方法、装置、计算机设备及存储介质 | |
CN111488211A (zh) | 基于深度学习框架的任务处理方法、装置、设备及介质 | |
CN108205680B (zh) | 图像特征提取集成电路、方法、终端 | |
CN113158292A (zh) | 构件匹配方法、工程量计算方法、装置及电子设备 | |
CN110992307A (zh) | 基于yolo的绝缘子定位识别方法及装置 | |
CN113836115A (zh) | 数据获取方法、装置、电子设备及可读存储介质 | |
Jin et al. | Power grid simulation applications developed using the GridPACK™ high performance computing framework | |
CN117407177B (zh) | 任务执行方法、装置、电子设备及可读存储介质 | |
Khare et al. | Enhanced object detection in floor plan through super-resolution | |
CN112256572A (zh) | 随机测试用例生成方法与装置以及电子设备和存储介质 | |
CN114357685A (zh) | 一种基于云平台的量子芯片性能模拟分析系统 | |
CN112395073A (zh) | 一种面向较大矢量数据的高性能快速渲染方法 | |
CN116382658A (zh) | Ai模型的编译方法、装置、计算机设备及存储介质 | |
CN111208990B (zh) | 一种对象分析方法与装置 | |
CN114564292A (zh) | 一种数据的分布式网格化处理方法、装置、设备及介质 | |
CN114756799A (zh) | 薪酬自动计算方法、装置、电子设备及可读存储介质 | |
CN113590217A (zh) | 基于引擎的函数管理方法、装置、电子设备及存储介质 | |
Tang et al. | Arc4nix: A cross-platform geospatial analytical library for cluster and cloud computing | |
CN112861368A (zh) | 配电网信息模型构建方法、装置及终端设备 | |
CN112446171A (zh) | 电力系统暂态稳定监测方法、装置、终端设备及存储介质 | |
CN111104472A (zh) | 一种数据关联分析方法、装置、存储介质及终端 | |
CN111090554A (zh) | 服务器性能测试时间的预测方法、装置、设备及存储介质 | |
Guan et al. | Distributed Machine Learning with PanDA and iDDS in LHC ATLAS | |
US20230133422A1 (en) | Systems and methods for executing and hashing modeling flows | |
CN115759260A (zh) | 深度学习模型的推理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |