CN111816266B - 一种自动构建材料定量结构性质模型的方法及系统 - Google Patents
一种自动构建材料定量结构性质模型的方法及系统 Download PDFInfo
- Publication number
- CN111816266B CN111816266B CN202010660389.8A CN202010660389A CN111816266B CN 111816266 B CN111816266 B CN 111816266B CN 202010660389 A CN202010660389 A CN 202010660389A CN 111816266 B CN111816266 B CN 111816266B
- Authority
- CN
- China
- Prior art keywords
- crystal structure
- material system
- model
- crystal
- property data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013078 crystal Substances 0.000 claims abstract description 164
- 238000012360 testing method Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 44
- 239000013077 target material Substances 0.000 claims abstract description 29
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 230000001105 regulatory effect Effects 0.000 claims abstract description 3
- 229910052729 chemical element Inorganic materials 0.000 claims description 36
- 238000010276 construction Methods 0.000 claims description 9
- 230000009191 jumping Effects 0.000 claims description 5
- 230000001568 sexual effect Effects 0.000 claims description 5
- 230000001276 controlling effect Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 description 21
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 101100388296 Arabidopsis thaliana DTX51 gene Proteins 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 229910052798 chalcogen Inorganic materials 0.000 description 3
- 150000004770 chalcogenides Chemical class 0.000 description 3
- 150000001787 chalcogens Chemical class 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 229910052723 transition metal Inorganic materials 0.000 description 3
- 150000003624 transition metals Chemical group 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 229910052784 alkaline earth metal Inorganic materials 0.000 description 2
- 150000001342 alkaline earth metals Chemical class 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010353 genetic engineering Methods 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- -1 BaZrS 3 Chemical class 0.000 description 1
- 229940126062 Compound A Drugs 0.000 description 1
- NLDMNSXOCDLTTB-UHFFFAOYSA-N Heterophylliin A Natural products O1C2COC(=O)C3=CC(O)=C(O)C(O)=C3C3=C(O)C(O)=C(O)C=C3C(=O)OC2C(OC(=O)C=2C=C(O)C(O)=C(O)C=2)C(O)C1OC(=O)C1=CC(O)=C(O)C(O)=C1 NLDMNSXOCDLTTB-UHFFFAOYSA-N 0.000 description 1
- 229910045601 alloy Inorganic materials 0.000 description 1
- 239000000956 alloy Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229910052736 halogen Inorganic materials 0.000 description 1
- 150000002367 halogens Chemical class 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000031700 light absorption Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 229910052761 rare earth metal Inorganic materials 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
Abstract
本发明涉及一种自动构建材料定量结构性质模型的方法及系统,该方法利用机器学习方法,基于目标材料体系的晶体结构和目标性质数据构成的数据集,自动循环迭代地训练出QSPR材料结构‑性质预测模型,并对目标材料体系进行晶体结构调控从而丰富结构样本空间,并能自动地通过第一性原理计算得到调控后所产生的晶体结构性质,扩充训练集,从而进一步训练QSPR模型和测试,直至QSPR模型的测试结果达到预设精度,或晶体结构样本空间穷尽。本发明的特点在于自动产生样本数据、自我学习、自动训练出满足一定预测精度的“结构‑性质”预测模型。
Description
技术领域
本发明涉及材料基因工程和材料信息学领域,特别是涉及一种自动构建材料定量结构性质模型的方法及系统。
背景技术
在机器学习和材料信息学领域,材料的“定量结构性质模型”模型,也称为QSPR模型,可有效辅助新材料设计,但是材料数据匮乏,以及模型构建涉及到多学科交叉,都增加了其难度,现有技术中还没有能够自动实现构建材料“定量结构性质模型”的方法及系统。
发明内容
本发明的目的是提供一种自动构建材料定量结构性质模型的方法及系统,能够自动构建材料的定量结构性质模型。
为实现上述目的,本发明提供了如下方案:
一种自动构建材料定量结构性质模型的方法,包括:
确定目标材料体系和待预测的目标性质;
获取所述目标材料体系的若干晶体结构,以及所述晶体结构对应的目标性质数据;
将所述晶体结构与其对应的目标性质数据一一对应构成初始的“结构-性质”数据对集;
利用机器学习方法,基于所述初始的“结构-性质”数据对集训练QSPR模型,得到初始的QSPR模型;
对所述目标材料体系进行晶体结构调控,得到更多的晶体结构,构成晶体结构样本空间;
从所述晶体结构样本空间中获取预设数量的晶体结构;
对所述预设数量的晶体结构分别开展第一性原理计算,对应得到预设数量的目标性质数据;
将所述预设数量的晶体结构和预设数量的目标性质数据一一对应构成用于模型测试的“结构-性质”数据对集,
根据所述用于模型测试的“结构-性质”数据对集对所述初始的QSPR模型进行测试;
判断测试结果是否达到预设精度;
若是,则结束训练,输出所述初始的QSPR模型;
若否,则将所述用于模型测试的“结构-性质”数据对集添加到所述初始的“结构-性质”数据对集,得到增强的“结构-性质”数据对集;
利用所述增强的“结构-性质”数据对集重新训练QSPR模型,得到改进的QSPR模型;
跳转至步骤“从所述晶体结构样本空间中获取预设数量的晶体结构”,直至测试结果达到预设精度或所述晶体结构样本空间穷尽。
可选的,所述目标材料体系,包括AxByCz,其中,A代表第一化学元素,B代表第二化学元素,C代表第三化学元素,x代表元素A的个数,y代表元素B的个数,z代表元素C的个数。
可选的,对所述目标材料体系进行晶体结构调控,得到晶体结构样本空间,包括:
获取第一化学元素A的多个同族元素D1,D2,D3…Dn;
将所述多个同族元素D1,D2,D3…Dn按照设定浓度百分比依次替代第一化学元素A,得到第二材料体系;
获取第二材料体系的大量晶体结构;
获取第二化学元素B的多个同族元素E1,E2,E3…En;
将所述多个同族元素E1,E2,E3…En按照设定浓度百分比依次替代第二化学元素B,得到第三材料体系;
获取第三材料体系的大量晶体结构;
获取第二化学元素C的多个同族元素F1,F2,F3…Fn;
将所述多个同族元素F1,F2,F3…Fn按照设定浓度百分比依次替代第三化学元素C,得到第四材料体系;
获取第四材料体系的大量晶体结构;
对所述第二材料体系的大量晶体结构、第三材料体系的大量晶体结构和第四材料体系的大量晶体结构取并集;
去掉所述并集中的等价晶体结构,得到晶体结构样本空间。
可选的,所述设定浓度百分比浓度可调。
一种自动构建材料定量结构性质模型的系统,包括:
目标确定模块,用于确定目标材料体系和待预测的目标性质;
数据获取模块,用于获取所述目标材料体系的若干晶体结构,以及所述晶体结构对应的目标性质数据;
初始数据对构建模块,用于将所述晶体结构与其对应的目标性质数据一一对应构成初始的“结构-性质”数据对集;
初始训练模块,用于利用机器学习方法,基于所述初始的“结构-性质”数据对集训练QSPR模型,得到初始的QSPR模型;
晶体调控模块,用于对所述目标材料体系进行晶体结构调控,得到晶体结构样本空间;
结构获取模块,用于从所述晶体结构样本空间中获取预设数量的晶体结构;
计算模块,用于对所述预设数量的晶体结构分别开展第一性原理计算,对应得到预设数量的目标性质数据;
用于模型测试的“结构-性质”数据对构建模块,用于将所述预设数量的晶体结构和预设数量的目标性质数据一一对应构成用于模型测试的“结构-性质”数据对集;
测试模块,用于根据所述用于模型测试的“结构-性质”数据对集对初始的QSPR模型进行测试;
判断模块,用于判断测试结果是否达到预设精度;
若达到预设精度,则结束训练,输出所述初始的QSPR模型;
若没有达到预设精度,则将所述用于测试的“结构-性质”数据对集添加到所述初始的“结构-性质”数据对集,得到增强的“结构-性质”数据对集;
改进训练模块,用于根据增强的“结构-性质”数据对集重新训练QSPR模型,得到改进的QSPR模型;
跳转和循环模块,用于跳转至步骤“从所述晶体结构样本空间中读取预设数量的晶体结构”,并循环上述过程,直至测试结果达到预设精度或所述晶体结构样本空间穷尽。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种自动构建材料定量结构性质模型方法及系统,能够自动地扩充样本数据、自我学习、自动训练出满足预设精度的模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明自动构建材料定量结构性质模型的方法流程图;
图2为本发明自动构建材料定量结构性质模型的系统模块图;
图3为本发明实施例训练迭代过程中模型在测试集上的RMSE值变化情况示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种自动构建材料定量结构性质模型的方法及系统,能够自动构建材料定量结构性质的训练模型。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明自动构建材料定量结构性质模型的方法流程图;如图1所示,一种自动构建材料定量结构性质模型的方法,包括:
步骤101:确定目标材料体系和待预测的目标性质;
步骤102:获取所述目标材料体系的若干晶体结构,以及所述晶体结构对应的目标性质数据;
步骤103:将所述晶体结构与其对应的目标性质数据一一对应构成初始的“结构-性质”数据对集;
步骤104:利用机器学习方法,基于所述初始的“结构-性质”数据对集训练QSPR模型,得到初始的QSPR模型;
步骤105:对所述目标材料体系进行晶体结构调控,得到晶体结构样本空间;
步骤106:从所述晶体结构样本空间中获取预设数量的晶体结构;
步骤107:对所述预设数量的晶体结构分别开展第一性原理计算,对应得到预设数量的目标性质数据;
步骤108:将所述预设数量的晶体结构和预设数量的目标性质数据一一对应构成用于模型测试的“结构-性质”数据对集;
步骤109:根据所述用于模型测试的“结构-性质”数据对集对所述初始的QSPR模型进行测试;
步骤110:判断测试结果是否达到预设精度;
步骤111:若是,则结束训练,输出所述初始的QSPR模型;
步骤112:若否,则将所述用于模型测试的“结构-性质”数据对集添加到所述初始的“结构-性质”数据对集,得到增强的“结构-性质”数据对集;
步骤113:利用所述增强的“结构-性质”数据对集重新训练QSPR模型,得到改进的QSPR模型;
步骤114:跳转至步骤“从所述晶体结构样本空间中获取预设数量的晶体结构”,直至测试结果达到预设精度或所述晶体结构样本空间穷尽。
其中,步骤101中所述目标材料体系,可以包括三组元材料体系,如AxByCz,其中,A代表第一化学元素,B代表第二化学元素,C代表第三化学元素,x代表元素A的个数,y代表元素B的个数,z代表元素C的个数;也可以是多组元的材料体系,本发明对此不做限制。
步骤105所述对所述目标材料体系进行晶体结构调控,得到晶体结构样本空间,包括:
获取第一化学元素A的多个同族元素D1,D2,D3…Dn;
将所述多个同族元素D1,D2,D3…Dn按照设定浓度百分比(例如10%)依次替代第一化学元素A,得到【AxD1(1-x)】ByCZ,【AxD2(1-x)】ByCZ…【AxDn(1-x)】ByCZ,记为第二材料体系;
获取第二材料体系的大量晶体结构;
获取第二化学元素B的多个同族元素E1,E2,E3…En;
将所述多个同族元素E1,E2,E3…En按照设定浓度百分比(例如10%)依次替代第二化学元素B,得到Ax【ByE1(1-y)】CZ,Ax【ByE2(1-y)】CZ…Ax【ByEn(1-y)】CZ,记为第三材料体系;
获取第三材料体系的大量晶体结构;
获取第二化学元素C的多个同族元素F1,F2,F3…Fn;
将所述多个同族元素F1,F2,F3…Fn按照设定浓度百分比依次替代第三化学元素C,得到AxBy【CZF1(1-Z)】,AxBy【CZF2(1-Z)】…AxBy【CZFn(1-Z)】,记为第四材料体系;
获取第四材料体系的大量晶体结构;
对所述第二材料体系的大量晶体结构、第三材料体系的大量晶体结构和第四材料体系的大量晶体结构取并集;
去掉所述并集中的等价结构,得到晶体结构样本空间。
具体的,上述利用同族元素替代原有元素的步骤还可以用空位或者利用相关族元素替代原有元素,只要能够扩充数据丰富数据集即可;上述设定浓度百分比浓度可为多个,从而生成更大的样本空间;设定浓度可以选择0,10%,20%...100%。
本发明还公开了一种自动构建材料定量结构性质模型的系统,如图2所示,包括:
目标确定模块201,用于确定目标材料体系和待预测的目标性质;
数据获取模块202,用于获取所述目标材料体系的若干晶体结构,以及所述晶体结构对应的目标性质数据;
初始数据对构建模块203,用于将所述晶体结构与其对应的目标性质数据一一对应构成初始的“结构-性质”数据对集;
初始训练模块204,用于利用机器学习方法,基于所述初始的“结构-性质”数据对集训练QSPR模型,得到初始的QSPR模型;
晶体调控模块205,用于对所述目标材料体系进行晶体结构调控,得到晶体结构样本空间;
结构获取模块206,用于从所述晶体结构样本空间中获取预设数量的晶体结构;
计算模块207,用于对所述预设数量的晶体结构分别开展第一性原理计算,对应得到预设数量的目标性质数据;
用于模型测试的“结构-性质”数据对构建模块208,用于将所述预设数量的晶体结构和预设数量的目标性质数据一一对应构成用于模型测试的“结构-性质”数据对集;
测试模块209,用于根据所述用于模型测试的“结构-性质”数据对集对所述初始的QSPR模型进行测试;
判断模块210,用于判断测试结果是否达到预设精度;
若达到预设精度,则结束训练,输出所述初始的QSPR模型;
若没有达到预设精度,则将所述用于测试的“结构-性质”数据对集添加到所述初始的“结构-性质”数据对集,得到增强的“结构-性质”数据对集;
改进训练模块211,用于根据所述增强的“结构-性质”数据对集重新训练QSPR模型,得到改进的QSPR模型;
跳转和循环模块212,用于跳转至步骤“从所述晶体结构样本空间中获取预设数量的晶体结构”,并循环上述过程,直至测试结果达到预设精度或所述晶体结构样本空间穷尽。
具体的,本发明的相关原理及设计思路如下:
为了更好地体现出逻辑关系,我们将上述内容在软件层面进行阐述,可以将其分为3层,分别是用户层,训练层以及计算层:
其中,用户层是机器与用户交互的窗口,包括目标及算法定义,以及非标注样本数据的生成。其中目标及算法定义包括定义目标材料、目标性质和结构描述符,选定相关机器学习算法和设置目标精度,设置初始样本数据等。非标注样本数据,指目标材料候选晶体结构集供训练层使用。
训练层包括3个核心模块:第一原理计算数据标注引擎,自动化引擎,以及模型训练与验证。按用户层定义的目标性质等,第一性原理计算数据标注引擎负责对目标材料候选晶体结构集第一性原理计算工作的启动和作业管理。自动化引擎负责整个模型训练、反馈、样本数据生成、及标注等的自动实现。模型训练、反馈与比较按照用户层的定义开展模型训练和比较,直到目标“结构-性质”模型达到定义的目标精度。
计算层可连接超级计算中心,负责第一原理计算作业调度,计算结果数据的提取,物化性质衍生等。
具体的,本发明中自动生成训练数据是机器训练模型的核心。模型的训练需要大量数据。为了使模型训练可靠,必须要收集部份实验数据,作为初始样本数据。因此生成训练数据,将包括4个步骤:
1、实验验证过的“结构-性质”数据收集,作为初始标注样本数据;
2、从材料实验数据库找出满足要求的初始非标注数据;
3、基于初始非标注数据,通过调控操作自动生成更多的非标注数据,形成非标注数据样本空间
4、基于非标注数据样本空间,进行数据标注生成“结构-性质”数据集,作为测试集。
为了更清楚地说明本发明的方法,我们以向硫属钙钛矿化合物ABS3(其中A=碱土金属,B=过渡金属)按不同浓度掺杂其它新元素或空位,寻找新的、性能得到进一步提升的硫属钙钛矿太阳能电池材料为案例,对该方法进行进一步的说明。具体阐述如下:
1、从文献中收集部分实验室数据,作为初始数据集。我们需要事先从文献中尽可能收集一些已知硫属钙钛矿化合物的能量,能隙,光吸收系数和载流子迁移率等数据,作为初始的“结构-性质”数据对,这些初始的硫属钙钛矿化合物包括BaZrS3,SrZrS3,BaHfS3,和SrHfS3等。
2、初始的非标注数据
为了能产生更多的有效标注数据,首先要获取有效的非标注数据空间。我们将通过2个步骤来生成有效的非标注数据样本空间:(i)从材料实验数据库中找出初始的ABS3硫属钙钛矿化合物晶体结构集(其中,A表示碱土金属,B表示早期过渡金属),作为初始的非标注样本;(ii)基于初始的非标注样本,通过调控操作(如掺杂,缺陷),产生更多的非标注样本,形成非标注数据样本空间。
我们从ICSD无机晶体结构数据库中,找出满足ABS3型要求的晶体结构集,作为初始晶体结构集。ICSD无机晶体结构数据库可以收集并提供到目前为止所有试验测定的、除了金属和合金以外、不含C–H键的无机物晶体结构的信息,包括化学名和化学式、矿物名和相名称、晶胞参数、空间群、原子坐标、热参数、位置占位度、R因子及有关文献等各种信息。除从ICSD无机晶体结构数据库找出满足ABS3型要求的初始非标注数据外,我们还可以从另一个无机晶体结构数据库PaulingFil中,找出更多ABS3型硫属化合物晶体结构集,作为从ICSD数据库中收集的初始非标注数据的补充。
综上,从ICSD和PaulingFile材料晶体结构数据库中,收集得到的经实验验证过的ABS3型硫属化合物晶体结构集,作为初始非标注数据集,且数据是可靠的。
3、自动生成更多非标注数据样本空间
我们将对上述收集到的经实验验证的初始晶体结构进行掺杂、缺陷等调控操作,从而自动产生更大量的晶体结构。这些通过调控产生的晶体结构,含有大量等价结构。因而需要进行去除等价晶体结构的操作。产生的非等价晶体结构集,作为非标注数据样本空间。基于掺杂和缺陷调控,生成大量不等价晶体结构,形成非标注数据样本空间,是“结构-性质”预测模型训练的核心。
因为第一性原理计算,将搜索该非标注数据样本空间,进行数据标注的操作,生成训练数据。掺杂和缺陷调控操作,拟采用如下的方式:(1)元素周期表中,找出有意义的可替代元素,形成可替代元素集(如过渡金属,稀土元素等)。(2)在可替代元素集中,添加空位到其中,用以实现对缺陷的调控。(3)针对每种可替代元素,分别以10%,20%,。。。100%浓度,替代晶体结构中的某指定元素。(4)针对晶体结构中的另一种被替代元素,重复步骤(2)-(3)。
若需更大的样本空间,还可以5%,10%,。。。100%的浓度进行替代。替代后产生的晶体结构集,会有含有大量的等价晶体结构,需要将它们去除,得到不等价晶体结构,作为非标注数据样本空间。
4、基于非标注数据样本空间,进行数据标注,生成“结构-性质”标注数据集按用户定义的条数选择非标注样本数据(如每次100条),开展第一性原理计算,计算出它们的目标性质,实现对所选样本数据的标注。一旦得到目标性质数据,既得到“结构-性质”数据对,形成结构-性质”标注数据集,并将它们作为测试集。注意会存在数据无法标注的情况,如一些晶体结构的化合物不存在能隙,在这种情况下,程序判别后,会将该条样本数据忽略不计。
针对本发明的技术方案,现提供如下实施例:
本实施例目的是构建一个钙钛矿材料的晶体结构-能隙预测模型。钙钛矿型结构材料化学通式为:ABX3。其中A、B为正价金属元素或分子团,X为O或卤族元素。通过构建钙钛矿结构-能隙之间的关系模型,可以快速的预测已知钙钛矿结构的能隙值,从中筛选出可作为光电转化材料的钙钛矿材料结构。
具体方案如下:
1、初始的钙钛矿结构-能隙数据的获取:
基于本发明的思想,自动训练该QSPR模型所需要的钙钛矿数据应该分为两部分,一部分是钙钛矿“结构-能隙”数据对(已标记样本),另一部分通过晶体结构调控建模产生的新的钙钛矿晶体结构(无标记样本)。其中,已标记样本的钙钛矿晶体结构-能隙数据可通过MatCloud+的晶体结构-能隙查询工具获取,共得到61条数据,如表1所示。非标记样本的钙钛矿晶体结构数据可对61条钙钛矿晶体结构进行替代掺杂的调控方式产生。
表1初始的钙钛矿晶体结构-能隙数据
为了尽可能使掺杂之后的新结构存在能隙值,需要选取合适的掺杂策略和掺杂浓度,具体如下:
(1)掺杂策略
元素周期表中主族元素和副族元素的掺杂策略不同,对主族元素Ca元素进行掺杂时,用来掺杂的新元素可以从Ca的同族元素中(如Be、Mg、Sr、Ba、Ra)选取。对副族元素的Ru进行掺杂时,可Ru元素的邻居元素作为候选集,例如Ru元素的邻居元素:在元素周期表中,Ru元素所在位置的纵向距离为1的范围内和横向距离为3的范围内的元素为Ru的邻居元素。
(2)掺杂浓度
在构建钙钛矿结构-能隙关系模型的实验中,本发明选取25%浓度的进行掺杂,选取该掺杂浓度是基于以下的考虑:首先考虑到低浓度的掺杂不会大幅度的改变晶体结构能隙性质,使掺杂后的新结构大概率存在能隙值,其次掺杂浓度为25%,只需要建立4倍超胞即可,减少后续获取能带性质的计算量。
2、钙钛矿结构的特征提取
本实施例中选取的是ABO3型标准钙钛矿数据,其空间群211,其晶胞的结构参数a=b=c,alpha=beta=gama=90°,并且woykoff位置坐标是相同的,其差别是对应位置上的元素不同。因此,只需要考虑晶体结构A、B位元素的元素特征。针对本案例的钙钛矿结构,经文献调研我们提出特征为原子电负性、原子质量、原子族号、原子半径、平均离子半径等10个特征,输出的晶体结构-性质矩阵的维度为M*11,其中10为特征维度,最后一维是能隙性质。
3、结构-能隙QSPR预测模型的自动构建
首先分别通过晶体结构-性质查询工具和晶体结构查询工具分别获取初始训练数据和初始晶体结构,然后,一方面初始训练数据往下传递,依次进行特征提取(元素特征提取)、特征筛选(随机森林特征筛选)、模型构建(随机森林回归)来构建得到初始钙钛矿晶体结构-性质模型,另一方面,初始晶体结构通过晶体结构调控(替代掺杂)得到新的晶体结构,结构选取工具每次从新的晶体结构中挑选10个预设数量的晶体结构用于性质计算得到标记样本,作为测试集,最后通过回归模型模型评估工具,评价模型在测试集上的泛化能力,并且将拟合不够好的样本,扩充到初始数据集,形成增强的“结构-能隙”数据集,用于后续的重复训练。自动循环迭代,直到模型的泛化能力达到设定的阈值或者产生的新晶体结构全部用完后终止。
其中,之所以选取随机森林回归算法来构建钙钛矿晶体结构-性质关系模型,因为训练数据的数据集较小,训练出来的模型可能会过拟合,随机森林是一种集成学习的方法,它是基于Bagging的方式将许多独立决策树融合在一起,共同决定最后的预测值,可以一定程度的缓解模型过拟合的问题。本实施例只将决策树的数量作为需要调优的超参数,其他超参数都固定,交叉验证的参数设为5。
4、方法和模型评估
本实施例选取RMSE评估标准对训练得到的钙钛矿结构-能隙模型进行评估。由于本实施例每次迭代随机选取10个新的晶体结构分别进行模型预测和能带计算,然后得出新样本在当前模型上的RMSE值,用来评价当前模型在新样本上的泛化能力。并且将误差过大的样本扩充到训练数据中重新训练。通过调研QSPR方法构建晶体结构-能隙关系模型的文献,由于所选数据集不同、特征提取方法不同、拟合模型的算法不同,模型在测试集上的表现也不同,一般在0.2~0.8之间,本实施例通过系统提供的主动学习流程,从61条训练数据开始训练模型,自动迭代地生成标记样本,用来扩充训练数据并重新训练模型,使模型效果得到改进,RMSE误差趋势是随着迭代次数的递增而逐渐减少,误差曲线局部存在少量的波动情况,但最终下降到下降到0.5左右趋于平缓,如图3所示,图中横坐标是迭代次数,纵坐标是新样本在当前模型上的RMSE误差值,图3可以证明该方法系统对于改善模型是有效的。
本发明还公开了如下技术效果:
本发明提供了一种自动构建材料定量结构性质模型方法及系统,能够自动化的实现扩充样本数据、自我学习、自动训练出满足预设精度的模型;而且从材料基因工程和材料信息学角度,目前在材料科学中已广泛应用机器学习、大数据分析技术开展新材料研发,与传统的物理/材料模型相比,本发明的显著特点:借鉴AlphaGoZero理念,提出了一种能自动构建预测材料“结构-性质”QSPR预测模型的自动方法和装置(也就是机器人),通过自动构建出的QSPR预测模型,实现了从“性质-结构”的材料智能生成和材料逆向设计。
涉及学科领域:材料、物理、计算机、人工智能,及数据科学等。如材料领域的科学问题和需求提出;物理领域的建模和第一性原理计算;计算机领域的软硬件研发、部署、及高性能计算;人工智能的主动学习、特征工程、模型训练等,最终回到材料领域的应用验证,环环相扣,体现了多学科交叉,并丰富和完善材料信息学交叉学科方向。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本说明书尽管以三组元化合物AxByCz为案例,其方法和思路同样适用于多组元化合物。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (2)
1.一种自动构建材料定量结构性质模型的方法,其特征在于,包括:
确定目标材料体系和待预测的目标性质,所述目标材料体系,包括AxByCz,其中,A代表第一化学元素,B代表第二化学元素,C代表第三化学元素,x代表元素A的个数,y代表元素B的个数,z代表元素C的个数;
获取所述目标材料体系的若干晶体结构,以及所述晶体结构对应的目标性质数据;
将所述晶体结构与其对应的目标性质数据一一对应构成初始的“结构-性质”数据对集;
利用机器学习方法,基于所述初始的“结构-性质”数据对集训练QSPR模型,得到初始的QSPR模型;
对所述目标材料体系进行晶体结构调控,得到晶体结构样本空间,包括:
获取第一化学元素A的多个同族元素D1,D2,D3…Dn;
将所述多个同族元素D1,D2,D3…Dn按照设定浓度百分比依次替代第一化学元素A,得到第二材料体系;
获取第二材料体系的晶体结构;
获取第二化学元素B的多个同族元素E1,E2,E3…En;
将所述多个同族元素E1,E2,E3…En按照设定浓度百分比依次替代第二化学元素B,得到第三材料体系;
获取第三材料体系的晶体结构;
获取第二化学元素C的多个同族元素F1,F2,F3…Fn;
将所述多个同族元素F1,F2,F3…Fn按照设定浓度百分比依次替代第三化学元素C,得到第四材料体系;
获取第四材料体系的晶体结构;
对所述第二材料体系的晶体结构、第三材料体系的晶体结构和第四材料体系的晶体结构取并集;
去掉所述并集中的等价晶体结构,得到晶体结构样本空间;
所述设定浓度百分比浓度可调;
从所述晶体结构样本空间中获取预设数量的晶体结构;
对所述预设数量的晶体结构分别开展第一性原理计算,对应得到预设数量的目标性质数据;
将所述预设数量的晶体结构和预设数量的目标性质数据一一对应构成用于模型测试的“结构-性质”数据对集;
根据所述用于模型测试的“结构-性质”数据对集对所述初始的QSPR模型进行测试;
判断测试结果是否达到预设精度;
若是,则结束训练,输出所述初始的QSPR模型;
若否,则将所述用于模型测试的“结构-性质”数据对集添加到所述初始的“结构-性质”数据对集,得到增强的“结构-性质”数据对集;
利用所述增强的“结构-性质”数据对集重新训练QSPR模型,得到改进的QSPR模型;
跳转至步骤“从所述晶体结构样本空间中获取预设数量的晶体结构”,直至测试结果达到预设精度或所述晶体结构样本空间穷尽。
2.一种自动构建材料定量结构性质模型的系统,其特征在于,包括:
目标确定模块,用于确定目标材料体系和待预测的目标性质,所述目标材料体系,包括AxByCz,其中,A代表第一化学元素,B代表第二化学元素,C代表第三化学元素,x代表元素A的个数,y代表元素B的个数,z代表元素C的个数;
数据获取模块,用于获取所述目标材料体系的若干晶体结构,以及所述晶体结构对应的目标性质数据;
初始数据对构建模块,用于将所述晶体结构与其对应的目标性质数据一一对应构成初始的“结构-性质”数据对集;
初始训练模块,用于利用机器学习方法,基于所述初始的“结构-性质”数据对集训练QSPR模型,得到初始的QSPR模型;
晶体调控模块,用于对所述目标材料体系进行晶体结构调控,得到晶体结构样本空间,包括:
获取第一化学元素A的多个同族元素D1,D2,D3…Dn;
将所述多个同族元素D1,D2,D3…Dn按照设定浓度百分比依次替代第一化学元素A,得到第二材料体系;
获取第二材料体系的晶体结构;
获取第二化学元素B的多个同族元素E1,E2,E3…En;
将所述多个同族元素E1,E2,E3…En按照设定浓度百分比依次替代第二化学元素B,得到第三材料体系;
获取第三材料体系的晶体结构;
获取第二化学元素C的多个同族元素F1,F2,F3…Fn;
将所述多个同族元素F1,F2,F3…Fn按照设定浓度百分比依次替代第三化学元素C,得到第四材料体系;
获取第四材料体系的晶体结构;
对所述第二材料体系的晶体结构、第三材料体系的晶体结构和第四材料体系的晶体结构取并集;
去掉所述并集中的等价晶体结构,得到晶体结构样本空间;
所述设定浓度百分比浓度可调;
结构获取模块,用于从所述晶体结构样本空间中获取预设数量的晶体结构;
计算模块,用于对所述预设数量的晶体结构分别开展第一性原理计算,对应得到预设数量的目标性质数据;
用于模型测试的“结构-性质”数据对构建模块,用于将所述预设数量的晶体结构和预设数量的目标性质数据一一对应构成用于模型测试的“结构-性质”数据对集;
测试模块,用于根据所述用于模型测试的“结构-性质”数据对集对初始的QSPR模型进行测试;
判断模块,用于判断测试结果是否达到预设精度;
若达到预设精度,则结束训练,输出所述初始的QSPR模型;
若没有达到预设精度,则将所述用于测试的“结构-性质”数据对集添加到所述初始的“结构-性质”数据对集,得到增强的“结构-性质”数据对集;
改进训练模块,用于根据增强的“结构-性质”数据对集重新训练QSPR模型,得到改进的QSPR模型;
跳转和循环模块,用于跳转至步骤“从所述晶体结构样本空间中读取预设数量的晶体结构”,并循环上述过程,直至测试结果达到预设精度或所述晶体结构样本空间穷尽。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660389.8A CN111816266B (zh) | 2020-07-10 | 2020-07-10 | 一种自动构建材料定量结构性质模型的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010660389.8A CN111816266B (zh) | 2020-07-10 | 2020-07-10 | 一种自动构建材料定量结构性质模型的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111816266A CN111816266A (zh) | 2020-10-23 |
CN111816266B true CN111816266B (zh) | 2024-01-30 |
Family
ID=72842107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010660389.8A Active CN111816266B (zh) | 2020-07-10 | 2020-07-10 | 一种自动构建材料定量结构性质模型的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111816266B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382352B (zh) * | 2020-10-30 | 2022-12-16 | 华南理工大学 | 基于机器学习的金属有机骨架材料结构特征快速评估方法 |
CN113421621A (zh) * | 2021-06-16 | 2021-09-21 | 中国农业大学 | 生成式对抗网络驱动的硅锗超晶格发光新材料开发技术 |
CN113505853B (zh) * | 2021-07-28 | 2023-05-23 | 姚宏宇 | 一种在约束条件下对晶体材料进行搜索的方法及装置 |
CN113723014A (zh) * | 2021-09-13 | 2021-11-30 | 中国科学院计算机网络信息中心 | 一种材料的晶体结构搜索方法及装置 |
CN114781118B (zh) * | 2022-03-09 | 2023-05-02 | 南京邮电大学 | 基于第一性原理的非线性光学材料虚拟筛选系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120085163A (ko) * | 2011-10-06 | 2012-07-31 | 주식회사 켐에쎈 | 순수한 화합물의 기체점성도를 예측하는 svrc 모형 |
CN102980972A (zh) * | 2012-11-06 | 2013-03-20 | 南京工业大学 | 一种确定自反应性化学物质热危险性的方法 |
CN106934456A (zh) * | 2017-03-16 | 2017-07-07 | 山东理工大学 | 一种深度卷积神经网络模型构建方法 |
CN108563906A (zh) * | 2018-05-02 | 2018-09-21 | 北京航空航天大学 | 一种基于深度学习的短纤维增强复合材料宏观性能预测方法 |
-
2020
- 2020-07-10 CN CN202010660389.8A patent/CN111816266B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120085163A (ko) * | 2011-10-06 | 2012-07-31 | 주식회사 켐에쎈 | 순수한 화합물의 기체점성도를 예측하는 svrc 모형 |
CN102980972A (zh) * | 2012-11-06 | 2013-03-20 | 南京工业大学 | 一种确定自反应性化学物质热危险性的方法 |
CN106934456A (zh) * | 2017-03-16 | 2017-07-07 | 山东理工大学 | 一种深度卷积神经网络模型构建方法 |
CN108563906A (zh) * | 2018-05-02 | 2018-09-21 | 北京航空航天大学 | 一种基于深度学习的短纤维增强复合材料宏观性能预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111816266A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111816266B (zh) | 一种自动构建材料定量结构性质模型的方法及系统 | |
Liu et al. | Progressive neural architecture search | |
Valko et al. | Stochastic simultaneous optimistic optimization | |
CN108985335B (zh) | 核反应堆包壳材料辐照肿胀的集成学习预测方法 | |
WO2020203922A1 (ja) | 結晶形予測装置、結晶形予測方法、ニューラルネットワークモデルの製造方法、及びプログラム | |
CN112289391B (zh) | 一种基于机器学习的阳极铝箔性能预测系统 | |
CN112434891A (zh) | 基于wcnn-alstm的太阳辐照度时间序列的预测方法 | |
CN112132177B (zh) | 基于机器学习快速预测abo3钙钛矿带隙的在线预报方法 | |
CN116345555A (zh) | 一种基于cnn-isca-lstm模型的短期光伏发电功率预测方法 | |
Liu et al. | Auto-MatRegressor: liberating machine learning alchemists | |
CN115764870A (zh) | 基于自动化机器学习的多变量光伏发电功率预测方法与装置 | |
Li et al. | Temporal attention based tcn-bigru model for energy time series forecasting | |
CN112002380B (zh) | 基于机器学习的高生成热含能材料的自适应设计方法 | |
CN112418504A (zh) | 一种基于混合变量选择优化深度信念网络风速预测方法 | |
CN117198417A (zh) | 基于机器学习和目标优化的稳定晶体结构预测方法及系统 | |
CN116246722B (zh) | 一种硬石膏快速水化的智能控制方法及系统 | |
CN117079744A (zh) | 含能分子人工智能设计方法 | |
CN116825238A (zh) | 基于物理信息融合神经网络的晶体几何形状及对称性预测方法和装置 | |
Albuthbahak et al. | Prediction of concrete compressive strength using supervised machine learning models through ultrasonic pulse velocity and mix parameters | |
CN114609981B (zh) | 一种基于参数区间变化趋势的动态操作模式优化方法、系统及储存介质 | |
CN115148307A (zh) | 一种材料性能自动预测系统 | |
CN115620046A (zh) | 一种基于半监督性能预测器的多目标神经架构搜索方法 | |
Wang et al. | Combined sensitivity ranking of input parameters and model forms of building energy simulation | |
Wang | A new variable selection method for soft sensor based on deep learning | |
Ochoa et al. | Materials funnel 2.0–data-driven hierarchical search for exploration of vast chemical spaces |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |