CN116486938B - 一种双钙钛矿化合物形成性的预测方法和装置 - Google Patents
一种双钙钛矿化合物形成性的预测方法和装置 Download PDFInfo
- Publication number
- CN116486938B CN116486938B CN202310708199.2A CN202310708199A CN116486938B CN 116486938 B CN116486938 B CN 116486938B CN 202310708199 A CN202310708199 A CN 202310708199A CN 116486938 B CN116486938 B CN 116486938B
- Authority
- CN
- China
- Prior art keywords
- compound
- molecular
- molecular formula
- sample
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000001875 compounds Chemical class 0.000 title claims abstract description 163
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 238000013135 deep learning Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 25
- 238000011156 evaluation Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000013145 classification model Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 4
- 125000004429 atom Chemical group 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 150000001768 cations Chemical class 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 150000002500 ions Chemical class 0.000 description 3
- KRHYYFGTRYWZRS-UHFFFAOYSA-M Fluoride anion Chemical compound [F-] KRHYYFGTRYWZRS-UHFFFAOYSA-M 0.000 description 2
- 150000001450 anions Chemical class 0.000 description 2
- 150000001649 bromium compounds Chemical class 0.000 description 2
- 150000001805 chlorine compounds Chemical class 0.000 description 2
- 229910021419 crystalline silicon Inorganic materials 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- XMBWDFGMSWQBCA-UHFFFAOYSA-N hydrogen iodide Chemical compound I XMBWDFGMSWQBCA-UHFFFAOYSA-N 0.000 description 2
- 150000002484 inorganic compounds Chemical class 0.000 description 2
- 229910010272 inorganic material Inorganic materials 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- KKHFRAFPESRGGD-UHFFFAOYSA-N 1,3-dimethyl-7-[3-(n-methylanilino)propyl]purine-2,6-dione Chemical compound C1=NC=2N(C)C(=O)N(C)C(=O)C=2N1CCCN(C)C1=CC=CC=C1 KKHFRAFPESRGGD-UHFFFAOYSA-N 0.000 description 1
- BGAJNPLDJJBRHK-UHFFFAOYSA-N 3-[2-[5-(3-chloro-4-propan-2-yloxyphenyl)-1,3,4-thiadiazol-2-yl]-3-methyl-6,7-dihydro-4h-pyrazolo[4,3-c]pyridin-5-yl]propanoic acid Chemical compound C1=C(Cl)C(OC(C)C)=CC=C1C1=NN=C(N2C(=C3CN(CCC(O)=O)CCC3=N2)C)S1 BGAJNPLDJJBRHK-UHFFFAOYSA-N 0.000 description 1
- CPELXLSAUQHCOX-UHFFFAOYSA-M Bromide Chemical compound [Br-] CPELXLSAUQHCOX-UHFFFAOYSA-M 0.000 description 1
- VEXZGXHMUGYJMC-UHFFFAOYSA-M Chloride anion Chemical compound [Cl-] VEXZGXHMUGYJMC-UHFFFAOYSA-M 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229940126179 compound 72 Drugs 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 150000002222 fluorine compounds Chemical class 0.000 description 1
- 238000013277 forecasting method Methods 0.000 description 1
- 230000005283 ground state Effects 0.000 description 1
- 150000004820 halides Chemical class 0.000 description 1
- 229910052736 halogen Inorganic materials 0.000 description 1
- -1 halogen anion Chemical group 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 150000004694 iodide salts Chemical class 0.000 description 1
- RVPVRDXYQKGNMQ-UHFFFAOYSA-N lead(2+) Chemical compound [Pb+2] RVPVRDXYQKGNMQ-UHFFFAOYSA-N 0.000 description 1
- 230000031700 light absorption Effects 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005693 optoelectronics Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- IUTCEZPPWBHGIX-UHFFFAOYSA-N tin(2+) Chemical compound [Sn+2] IUTCEZPPWBHGIX-UHFFFAOYSA-N 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Analytical Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Physics & Mathematics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明实施例公开了一种双钙钛矿化合物形成性的预测方法及装置,通过获取待预测化合物的分子式,所述待预测化合物具有ABX 3 或A 2 BB’X 6 形式的分子构型;将所述待预测化合物的分子式输入预先训练的预测模型,以得到所述待预测化合物的分子式的形成性结果;其中,所述预测模型是根据化合物样本的分子式以及预设标签在预先构建的深度学习网络中进行训练得到的,所述化合物样本具有ABX 3 或A 2 BB’X 6 形式的分子构型,所述预设标签包括具有形成性的第一标签和不具有形成性的第二标签。解决了钙钛矿形成性预测精度低、测试成本高的技术问题。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种双钙钛矿化合物形成性的预测方法和装置。
背景技术
钙钛矿应用广泛,如电催化、质子传导、铁电体、电池材料、光伏和光电子,而设计新的钙钛矿第一步通常是评估其形成性。从组成元素方面看,钙钛矿是具有通式ABX 3 结构的一类化合物,其名称源自于同名矿物钙钛矿(CaTiO3)。其中A位通常被阳离子所占据,B位常为铅离子(Pb2+)或亚锡离子(Sn2+)等,而X位为卤素阴离子(O2-、F-、Cl-、Br-和I-)。
但是,除了常见的CaTiO3外,BiFeO3、CsPbI3等诸多化合物也具有这一结构,而满足ABX 3 化学式的化合物未必为钙钛矿,因此需要对化合物的结构进行分析。从应用方面看,降本增效是新型材料的核心需求。钙钛矿材料吸光性能远优于晶硅,作为光伏电池具有更好的能量转化率;其次钙钛矿储量大,原材料易于获得的同时对加工的要求也低于晶硅;再次,其消光系数高、叠层薄并能实现柔性应用。
基于此,为了基于钙钛矿形成性的优点,需要快速预测大量化合物的钙钛矿形成性。但是,现有技术缺少针对钙钛矿形成性预测的方法,只能利用实验法进行形成性的实验,不仅测试精度较低,且需要耗费大量的人力物力。
因此,提供一种双钙钛矿化合物形成性的预测方法,以解决钙钛矿形成性预测精度低、测试成本高的技术问题。
发明内容
为此,本发明实施例提供一种双钙钛矿化合物形成性的预测方法和装置,以至少部分解决上述技术问题。
为了实现上述目的,本发明实施例提供如下技术方案:
本发明提供一种双钙钛矿化合物形成性的预测方法,所述方法包括:
获取待预测化合物的分子式,所述待预测化合物具有ABX 3 或 A 2 BB’X 6 形式的分子构型;
将所述待预测化合物的分子式输入预先训练的预测模型,以得到所述待预测化合物的分子式的形成性结果;
其中,所述预测模型是根据化合物样本的分子式以及预设标签在预先构建的深度学习网络中进行训练得到的,所述化合物样本具有ABX 3 或A 2 BB’X 6 形式的分子构型,所述预设标签包括具有形成性的第一标签和不具有形成性的第二标签。
在一些实施例中,根据化合物样本的分子式在预先构建的深度学习网络中进行训练得到所述预测模型,具体包括:
获取海量化合物样本的分子式;
利用所述化合物样本的分子式和对应的标签构建数据样本集,并将所述数据样本集划分为训练集与测试集;
提取所述训练集中的所有化合物样本的分子式的特征数据;
基于所述特征数据利用所述深度学习网络对所述数据集进行分类建模,并对得到的分类模型进行训练,以得到预测模型。
在一些实施例中,对得到的分类模型进行训练,以得到预测模型,之后还包括:
按照预设的评估指标,利用所述测试集对所述预测模型进行评估;
其中,所述评估指标包括准确率(Accuracy)、精确率和召回率的调和均值(F1)、受试者工作特征曲线(ROC曲线)下的面积(AUC)和混淆矩阵图。
在一些实施例中,提取所述训练集中的所有化合物样本的分子式的特征数据,具体包括:
提取所述化合物样本的分子式的电子结构描述符,以所述电子结构描述符作为所述特征数。
在一些实施例中,提取所述化合物样本的分子式的电子结构描述符,具体包括:
标记所述化合物样本的分子式中每种元素的原子数量;
根据原子数量的标记结果,得到各种元素的电子构型;
在所述电子构型中标记电子自旋符号,以得到每个原子的电子构型位向量;
将每个原子的电子构型位向量乘以原子数,通过索引根据电子构型位向量生成所述化合物样本的分子式的电子构型位矢量,所述电子构型位矢量作为电子结构描述符。
在一些实施例中,获取海量化合物样本的分子式,具体包括:
读取所述化合物样本的数据文件;
根据预先设置的目标变量生成所述化合物样本的分子式。
本发明还提供一种双钙钛矿化合物形成性的预测装置,所述装置包括:
数据获取单元,用于获取待预测化合物的分子式,所述待预测化合物具有A 2 BB’X 6 形式的分子构型;
结果生成单元,用于将所述待预测化合物的分子式输入预先训练的预测模型,以得到所述待预测化合物的分子式的形成性结果;
其中,所述预测模型是根据化合物样本的分子式以及预设标签在预先构建的深度学习网络中进行训练得到的,所述化合物样本具有ABX 3 或A 2 BB’X 6 形式的分子构型,所述预设标签包括具有形成性的第一标签和不具有形成性的第二标签。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明所提供的双钙钛矿化合物形成性的预测方法和装置,通过获取待预测化合物的分子式,所述待预测化合物具有ABX 3 或A 2 BB’X 6 形式的分子构型;将所述待预测化合物的分子式输入预先训练的预测模型,即可得到所述待预测化合物的分子式的形成性结果;其中,所述预测模型是根据化合物样本的分子式以及预设标签在预先构建的深度学习网络中进行训练得到的,所述化合物样本具有ABX 3 或A 2 BB’X 6 形式的分子构型,所述预设标签包括具有形成性的第一标签和不具有形成性的第二标签。
本发明所提供的预测方法预报钙钛矿形成性简单、快捷,把化合物的分子式输入预先构建的预测模型即可,分子式对钙钛矿(ABX 3 )成分种类没有限制,B位阳离子也可以被两种不同的离子取代,产生双钙钛矿化学式。将模型泛化到双钙钛矿(A 2 BB’X 6 )形成性的预测,模型具有强普适性和泛化性能,预测精度高,无需实验测试,降低了测试成本,从而解决了现有技术中钙钛矿形成性预测精度低、测试成本高的技术问题。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明所提供的双钙钛矿化合物形成性的预测方法的流程图之一;
图2为本发明所提供的双钙钛矿化合物形成性的预测方法的流程图之二;
图3为本发明所提供的双钙钛矿化合物形成性的预测方法的流程图之三;
图4为本发明所提供的双钙钛矿化合物形成性的预测方法的流程图之四;
图5为混淆矩阵的示意图;
图6为本发明所提供的双钙钛矿化合物形成性的预测装置的结构框图;
图7为本发明所提供的双钙钛矿化合物形成性的预测方法的流程图之五;
图8为本发明所提供的一种计算机设备的结构框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
钙钛矿是具有通式ABX 3 结构的一类化合物,诸多化合物也具有这一结构,但满足ABX 3 化学式的化合物未必为钙钛矿,需要对化合物的结构进行分析,因此在设计新的钙钛矿时,首先通常是评估其形成性。本发明用于利用机器学习钙钛矿形成性预测,特别是用于预测双钙钛矿氧化物和卤化物的形成性,解决了现有技术中钙钛矿形成性预测精度低、测试成本高的技术问题。
请参考图1,图1为本发明所提供的双钙钛矿化合物形成性的预测方法的流程图之一。
在一种具体实施方式中,本发明提供的双钙钛矿化合物形成性的预测方法包括以下步骤:
S110:获取待预测化合物的分子式,所述待预测化合物具有ABX 3 或A 2 BB’X 6 形式的分子构型;也就是说,输入的待预测化合物可以是具有ABX 3 或A 2 BB’X 6 形式分子构型的化合物,该化合物只是具有与钙钛矿或双钙钛矿相同的分子构型,但并不确定其是否为钙钛矿或双钙钛矿。
S120:将所述待预测化合物的分子式输入预先训练的预测模型,以得到所述待预测化合物的分子式的形成性结果;将上述不确定是否为钙钛矿或双钙钛矿的待预测化合物,输入训练得到的预测模型,则可快速确定该待预测化合物是否为钙钛矿或双钙钛矿,也就是该待预测化合物是否具有钙钛矿或双钙钛矿的形成性。
其中,所述预测模型是根据化合物样本的分子式以及预设标签在预先构建的深度学习网络中进行训练得到的,所述化合物样本具有ABX 3 或A 2 BB’X 6 形式的分子构型,所述预设标签包括具有形成性的第一标签和不具有形成性的第二标签。
深度学习网络的算法种类诸多,本实施例采用的是随机森林算法,随机森林是一个计算精度与效率都很高的分类型算法。用机器学习中随机森林的分类方法可以实现精度为85%以上的稳定性判别。仅需向系统传入化学式,便可预测出钙钛矿形成性。对五种阴离子:氧化物、氟化物、氯化物、氯化物、溴化物和碘化物的预测都具有良好的一致性,并且可以将模型泛化应用到双钙钛矿A 2 BB’X 6 形成性预测。
由于训练的样本是钙钛矿或双钙钛矿的分子构型,且具有相应的标签,即样本中属于钙钛矿或双钙钛矿的化合物样本对应的标签为第一标签,样本中不属于钙钛矿或双钙钛矿的化合物样本对应的标签为第二标签,在训练时,将样本的分子式和预设标签同时输入深度学习网络进行训练。将待预测的ABX 3 或A 2 BB’X 6 分子式输入预测模型,运行预测模型,即可快速判断型为ABX 3 的钙钛矿形成性,或A 2 BB’X 6 化合物的双钙钛矿的形成性。
在一些实施例中,如图2所示,根据化合物样本的分子式在预先构建的深度学习网络中进行训练得到所述预测模型,具体包括以下步骤:
S210:获取海量化合物样本的分子式;读取所述化合物样本的数据文件,根据预先设置的目标变量生成所述化合物样本的分子式;
S220:利用所述化合物样本的分子式和对应的标签构建数据样本集,并将所述数据样本集划分为训练集与测试集;
S230:提取所述训练集中的所有化合物样本的分子式的特征数据;
S240:基于所述特征数据利用所述深度学习网络对所述数据集进行分类建模,并对得到的分类模型进行训练,以得到预测模型;
S250:按照预设的评估指标,利用所述测试集对所述预测模型进行评估;其中,所述评估指标包括准确率(Accuracy)、精确率和召回率的调和均值(F1)、受试者工作特征曲线(ROC曲线)下的面积(AUC)和混淆矩阵图。
具体地,在模型训练过程中,首先使用读取数据文件单元、设置目标变量y和获取结构数据单元得到待预测化合物的分子式,随后将分子式传入电子构型描述符,将判断分子式转换为机器学习特征数据;而后划分训练集和测试集,其中训练集占80%,测试集占20%,标准化后传入机器学习算法训练和测试该模型,使用测试集评估训练完成的分类模型,选用准确率(Accuracy)、精确率和召回率的调和均值(F1)、受试者工作特征曲线(ROC曲线)下的面积(AUC)作为模型的评估指标等进行评估,至此模型建立完成。在模型训练完成后,对模型进行提取,将训练好的模型集成模块,并加载于系统上,以供使用时调取。
在步骤S230中,提取所述训练集中的所有化合物样本的分子式的特征数据,具体包括:
提取所述化合物样本的分子式的电子结构描述符,以所述电子结构描述符作为所述特征数。
更为具体是,如图3所示,提取所述化合物样本的分子式的电子结构描述符包括以下步骤:
S310:标记所述化合物样本的分子式中每种元素的原子数量;也就是说,标记单质化合物每种元素的原子数量,如Al 2 (MoO 4 ) 3 为Al:2、MO:3、O:12。
S320:根据原子数量的标记结果,得到各种元素的电子构型。假设无机化合物组成的每个元素的基态构型从原子序数1到104的元素被接受用于描述符计算,电子构型矢量生成第一能级的s轨道和第二能级的s轨道和p轨道。依次类推,从第一到第五能级的轨道为:1s、2s、2p、3s、3p、3d、4s、4p、4p、4d、4f、5s、5p、5d、5f、6s、6p、6d、7s和7p;其表示方式如下表1所示。
表1部分原子电子构型描述符:
原子序数 | 原子 | 1s+ | 1s- | 2s+ | 2s- | 2pz+ | 2px+ | 2py+ | ... |
1 | H | 1 | 0 | 0 | 0 | 0 | 0 | 0 | |
2 | He | 1 | -1 | 0 | 0 | 0 | 0 | 0 | |
3 | Li | 1 | -1 | 1 | 0 | 0 | 0 | 0 | |
4 | Be | 1 | -1 | 1 | -1 | 0 | 0 | 0 | |
5 | Be | 1 | -1 | 1 | -1 | 1 | 0 | 0 | |
6 | C | 1 | -1 | 1 | -1 | 1 | 1 | 0 | |
7 | N | 1 | -1 | 1 | -1 | 1 | 1 | 1 | |
8 | O | 1 | -1 | 1 | -1 | 1 | 1 | 1 | |
9 | F | 1 | -1 | 1 | -1 | 1 | 1 | 1 | |
10 | Ne | 1 | -1 | 1 | -1 | 1 | 1 | 1 |
。
其中,1s+、1s-、2s+...等为电子能级轨道。
S330:在所述电子构型中标记电子自旋符号,以得到每个原子的电子构型位向量;也就是说,给超精细能级标记电子自旋符号,电子构型位矢量根据hengder(洪特)规则生成,单占轨道在每个能级中没有电子被记为0,正旋电子被记为1,反旋电子被记为-1。
S340:将每个原子的电子构型位向量乘以原子数,通过索引根据电子构型位向量生成所述化合物样本的分子式的电子构型位矢量,所述电子构型位矢量作为电子结构描述符。将每个原子的电子构型位向量乘以原子数,然后沿索引将向量中每个位相加得到无机化合物电子构型位矢量。
根据上述具体实施方式,实现了利用机器学习模型预测A 2 BB’X 6 化合物双钙钛矿的形成性的方法,其实现方式的简化流程图如图4所示。其中,读取数据文件可读取csv格式、xlsx格式、xls格式及txt格式的数据文件,且读取数据文件单元可自动获取数据文件的列名。设置目标变量y的作用是将二分类结果作为因变量。
根据上述具体实施方式,本发明方法预报钙钛矿形成性简单、快捷,把化合物的分子式传入系统,仅需数秒就可以得到计算结果。该方法对钙钛矿成分种类没有限制,对五种阴离子:氧化物、氟化物、氯化物、氯化物、溴化物和碘化物的预测都具有良好的一致性,提取模型的准确率可达0.85以上。评估结果如表2所示。
表2化合物分子式、数据量及训练集评估指标:
化合物 | 数据量 | 准确率 | F1 | AUC |
ABX 3 型化合物 | 500 | 0.87 | 0.88 | 0.93 |
ABX 3 型氧化物 | 372 | 0.84 | 0.88 | 0.86 |
ABX 3 型氯化物 | 72 | 0.73 | 0.82 | 0.8 |
ABX 3 型氟化物 | 62 | 0.68 | 0.36 | 0.66 |
ABX 3 型碘化物 | 43 | 0.78 | 0.5 | 0.85 |
ABX 3 型溴化物 | 27 | 0.75 | 0.42 | 0.76 |
。
其中,F1:精确率和召回率的调和均值。其中精确率是指在所有系统判定的“真”的样本中,确实是真的的占比;召回率是指在所有确实为真的样本中,被判为的“真”的占比。
AUC:受试者工作特征曲线(ROC曲线)纵坐标是真正率,横坐标是假正率,AUC是ROC曲线下的面积。
根据上述具体实施方式,该方法基于机器学习的预测系统,相较于实验法和公式法,拥有更广的预测范围,更简洁的操作实现方法,更多的评估指标。对于机器学习的评估指标,包含准确率(Accuracy)、精确率和召回率的调和均值(F1)、受试者工作特征曲线(ROC曲线)下的面积(AUC)等指标和混淆矩阵图,混淆矩阵图示例如图5所示。
根据上述具体实施方式,该方法可以预测包括不同种类钙钛矿,可以将模型泛化到双钙钛矿(A 2 BB’X 6 )形成性的预测,模型具有强普适性和泛化性能。
在上述具体实施方式中,本发明所提供的双钙钛矿化合物形成性的预测方法和装置,通过获取待预测化合物的分子式,所述待预测化合物具有ABX 3 或A 2 BB’X 6 形式的分子构型;将所述待预测化合物的分子式输入预先训练的预测模型,即可得到所述待预测化合物的分子式的形成性结果;其中,所述预测模型是根据化合物样本的分子式以及预设标签在预先构建的深度学习网络中进行训练得到的,所述化合物样本具有ABX 3 或A 2 BB’X 6 形式的分子构型,所述预设标签包括具有形成性的第一标签和不具有形成性的第二标签。
本发明所提供的预测方法预报钙钛矿形成性简单、快捷,把化合物的分子式输入预先构建的预测模型即可,分子式对钙钛矿(ABX 3 )成分种类没有限制,B位阳离子也可以被两种不同的离子取代,产生双钙钛矿化学式。将模型泛化到双钙钛矿(A 2 BB’X 6 )形成性的预测,模型具有强普适性和泛化性能,预测精度高,无需实验测试,降低了测试成本,从而解决了现有技术中钙钛矿形成性预测精度低、测试成本高的技术问题。
除了上述方法,本发明还提供一种双钙钛矿化合物形成性的预测装置,如图6所示,所述装置包括:
数据获取单元610,用于获取待预测化合物的分子式,所述待预测化合物具有A 2 BB’X 6 形式的分子构型;
结果生成单元620,用于将所述待预测化合物的分子式输入预先训练的预测模型,以得到所述待预测化合物的分子式的形成性结果;
其中,所述预测模型是根据化合物样本的分子式以及预设标签在预先构建的深度学习网络中进行训练得到的,所述化合物样本具有ABX 3 或A 2 BB’X 6 形式的分子构型,所述预设标签包括具有形成性的第一标签和不具有形成性的第二标签。
在一些实施例中,根据化合物样本的分子式在预先构建的深度学习网络中进行训练得到所述预测模型,具体包括:
获取海量化合物样本的分子式;
利用所述化合物样本的分子式和对应的标签构建数据样本集,并将所述数据样本集划分为训练集与测试集;
提取所述训练集中的所有化合物样本的分子式的特征数据;
基于所述特征数据利用所述深度学习网络对所述数据集进行分类建模,并对得到的分类模型进行训练,以得到预测模型。
在一些实施例中,对得到的分类模型进行训练,以得到预测模型,之后还包括:
按照预设的评估指标,利用所述测试集对所述预测模型进行评估;
其中,所述评估指标包括准确率(Accuracy)、精确率和召回率的调和均值(F1)、受试者工作特征曲线(ROC曲线)下的面积(AUC)和混淆矩阵图。
在一些实施例中,提取所述训练集中的所有化合物样本的分子式的特征数据,具体包括:
提取所述化合物样本的分子式的电子结构描述符,以所述电子结构描述符作为所述特征数。
在一些实施例中,提取所述化合物样本的分子式的电子结构描述符,具体包括:
标记所述化合物样本的分子式中每种元素的原子数量;
根据原子数量的标记结果,得到各种元素的电子构型;
在所述电子构型中标记电子自旋符号,以得到每个原子的电子构型位向量;
将每个原子的电子构型位向量乘以原子数,通过索引根据电子构型位向量生成所述化合物样本的分子式的电子构型位矢量,所述电子构型位矢量作为电子结构描述符。
在一些实施例中,获取海量化合物样本的分子式,具体包括:
读取所述化合物样本的数据文件;
根据预先设置的目标变量生成所述化合物样本的分子式。
在上述具体实施方式中,本发明所提供的双钙钛矿化合物形成性的预测装置,通过获取待预测化合物的分子式,所述待预测化合物具有ABX 3 或A 2 BB’X 6 形式的分子构型;将所述待预测化合物的分子式输入预先训练的预测模型,即可得到所述待预测化合物的分子式的形成性结果;其中,所述预测模型是根据化合物样本的分子式以及预设标签在预先构建的深度学习网络中进行训练得到的,所述化合物样本具有ABX 3 或A 2 BB’X 6 形式的分子构型,所述预设标签包括具有形成性的第一标签和不具有形成性的第二标签。
本发明所提供的预测装置预报钙钛矿形成性简单、快捷,把化合物的分子式输入预先构建的预测模型即可,分子式对钙钛矿(ABX 3 )成分种类没有限制,B位阳离子也可以被两种不同的离子取代,产生双钙钛矿化学式。将模型泛化到双钙钛矿(A 2 BB’X 6 )形成性的预测,模型具有强普适性和泛化性能,预测精度高,无需实验测试,降低了测试成本,从而解决了现有技术中钙钛矿形成性预测精度低、测试成本高的技术问题。
为了便于理解,下面以一个具体使用场景为例,简述本发明所提供的预测模型的训练和实施过程。
如图7所示,模型的训练过程包括以下步骤:
S1:收集500余条分子式为ABX 3 的化合物和每种化合物是否为钙钛矿的标签作为建模数据集。其中,标签1(对应第一标签)表示化合物为钙钛矿,标签-1(对应第二标签)表示其为非钙钛矿。
S2:生成ABX 3 化合物数据集的电子构型描述符特征。应当理解的是,样本数据集是化合物构成的,而机器学习建模前需要将化合物编码成计算机识别的数字,因此需要计算化合物的电子构型描述符。
S3:将电子构型描述符处理过的化合物数据集划分为训练集与测试集,其中,训练集占80%数据,剩余的20%为测试集。
S4:使用机器学习随机森林算法对S3步骤处理好的训练集进行分类建模。
S5:利用测试集评估训练完成的分类模型。主要的评估模型指标有准确率(Accuracy)、精确率和召回率的调和均值(F1)、受试者工作特征曲线(ROC曲线)下的面积(AUC)和混淆矩阵图。
请继续参考图7,模型的使用过程包括以下步骤:
S1’:将训练好的模型集成为模块,把待预测的A 2 BB’X 6 分子式输入提取的模型。
S2’:运行提取的模型,即可快速判断型为A 2 BB’X 6 化合物的双钙钛矿形成性,如图表3为示例预测结果,模型判断923条A 2 BB’X 6 化合物是否可以形成双钙钛矿的准确率高达0.87。
表3判断A 2 BB’X 6 型化合物是否为双钙钛矿部分数据预测结果:
。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和模型预测。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的模型预测用于存储静态信息和动态信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法实施例中的步骤。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包含一个或多个程序指令。其中,所述一个或多个程序指令用于被一种砝码检定系统执行如上所述的方法。
本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (7)
1.一种双钙钛矿化合物形成性的预测方法,其特征在于,所述方法包括:
获取待预测化合物的分子式,所述待预测化合物具有或/>形式的分子构型;
将所述待预测化合物的分子式输入预先训练的预测模型,以得到所述待预测化合物的分子式的形成性结果;
其中,所述预测模型是根据化合物样本的分子式以及预设标签在预先构建的深度学习网络中进行训练得到的,所述化合物样本具有或/>形式的分子构型,所述预设标签包括具有形成性的第一标签和不具有形成性的第二标签;
其中,根据化合物样本的分子式在预先构建的深度学习网络中进行训练得到所述预测模型,具体包括:
获取海量化合物样本的分子式;
利用所述化合物样本的分子式和对应的标签构建数据样本集,并将所述数据样本集划分为训练集与测试集;
提取所述训练集中的所有化合物样本的分子式的特征数据;
基于所述特征数据利用所述深度学习网络对所述数据样本集进行分类建模,并对得到的分类模型进行训练,以得到预测模型;
按照预设的评估指标,利用所述测试集对所述预测模型进行评估;
其中,所述评估指标包括准确率(Accuracy)、精确率和召回率的调和均值(F1)、受试者工作特征曲线(ROC曲线)下的面积(AUC)和混淆矩阵图。
2.根据权利要求1所述的双钙钛矿化合物形成性的预测方法,其特征在于,提取所述训练集中的所有化合物样本的分子式的特征数据,具体包括:
提取所述化合物样本的分子式的电子结构描述符,以所述电子结构描述符作为所述特征数。
3.根据权利要求2所述的双钙钛矿化合物形成性的预测方法,其特征在于,提取所述化合物样本的分子式的电子结构描述符,具体包括:
标记所述化合物样本的分子式中每种元素的原子数量;
根据原子数量的标记结果,得到各种元素的电子构型;
在所述电子构型中标记电子自旋符号,以得到每个原子的电子构型位向量;
将每个原子的电子构型位向量乘以原子数,通过索引根据电子构型位向量生成所述化合物样本的分子式的电子构型位矢量,所述电子构型位矢量作为电子结构描述符。
4.根据权利要求1所述的双钙钛矿化合物形成性的预测方法,其特征在于,获取海量化合物样本的分子式,具体包括:
读取所述化合物样本的数据文件;
根据预先设置的目标变量生成所述化合物样本的分子式。
5.一种双钙钛矿化合物形成性的预测装置,其特征在于,所述装置包括:
数据获取单元,用于获取待预测化合物的分子式,所述待预测化合物具有或形式的分子构型;
结果生成单元,用于将所述待预测化合物的分子式输入预先训练的预测模型,以得到所述待预测化合物的分子式的形成性结果;
其中,所述预测模型是根据化合物样本的分子式以及预设标签在预先构建的深度学习网络中进行训练得到的,所述化合物样本具有或/>形式的分子构型,所述预设标签包括具有形成性的第一标签和不具有形成性的第二标签;
其中,根据化合物样本的分子式在预先构建的深度学习网络中进行训练得到所述预测模型,具体包括:
获取海量化合物样本的分子式;
利用所述化合物样本的分子式和对应的标签构建数据样本集,并将所述数据样本集划分为训练集与测试集;
提取所述训练集中的所有化合物样本的分子式的特征数据;
基于所述特征数据利用所述深度学习网络对所述数据样本集进行分类建模,并对得到的分类模型进行训练,以得到预测模型;
按照预设的评估指标,利用所述测试集对所述预测模型进行评估;
其中,所述评估指标包括准确率(Accuracy)、精确率和召回率的调和均值(F1)、受试者工作特征曲线(ROC曲线)下的面积(AUC)和混淆矩阵图。
6.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310708199.2A CN116486938B (zh) | 2023-06-15 | 2023-06-15 | 一种双钙钛矿化合物形成性的预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310708199.2A CN116486938B (zh) | 2023-06-15 | 2023-06-15 | 一种双钙钛矿化合物形成性的预测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116486938A CN116486938A (zh) | 2023-07-25 |
CN116486938B true CN116486938B (zh) | 2023-09-29 |
Family
ID=87218081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310708199.2A Active CN116486938B (zh) | 2023-06-15 | 2023-06-15 | 一种双钙钛矿化合物形成性的预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486938B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114143B (zh) * | 2023-10-23 | 2024-02-02 | 桑若(厦门)光伏产业有限公司 | 一种钙钛矿钝化剂钝化策略评估方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110890137A (zh) * | 2019-11-18 | 2020-03-17 | 上海尔云信息科技有限公司 | 一种化合物毒性预测模型建模方法、装置及其应用 |
CN112634992A (zh) * | 2020-12-29 | 2021-04-09 | 上海商汤智能科技有限公司 | 分子性质预测方法及其模型的训练方法及相关装置、设备 |
CN114386694A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于对比学习的药物分子性质预测方法、装置及设备 |
CN115331750A (zh) * | 2022-08-30 | 2022-11-11 | 中国科学院自动化研究所 | 基于深度学习的新靶点化合物活性预测方法及系统 |
-
2023
- 2023-06-15 CN CN202310708199.2A patent/CN116486938B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110890137A (zh) * | 2019-11-18 | 2020-03-17 | 上海尔云信息科技有限公司 | 一种化合物毒性预测模型建模方法、装置及其应用 |
CN112634992A (zh) * | 2020-12-29 | 2021-04-09 | 上海商汤智能科技有限公司 | 分子性质预测方法及其模型的训练方法及相关装置、设备 |
CN114386694A (zh) * | 2022-01-11 | 2022-04-22 | 平安科技(深圳)有限公司 | 基于对比学习的药物分子性质预测方法、装置及设备 |
CN115331750A (zh) * | 2022-08-30 | 2022-11-11 | 中国科学院自动化研究所 | 基于深度学习的新靶点化合物活性预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116486938A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Im et al. | Identifying Pb-free perovskites for solar cells by machine learning | |
CN116486938B (zh) | 一种双钙钛矿化合物形成性的预测方法和装置 | |
Howard et al. | Machine learning for perovskites' reap-rest-recovery cycle | |
Lee et al. | Predicting performance limits of methane gas storage in zeolites with an artificial neural network | |
Allam et al. | Density Functional Theory–Machine Learning Approach to Analyze the Bandgap of Elemental Halide Perovskites and Ruddlesden‐Popper Phases | |
CN111505740B (zh) | 气象预测方法、装置、计算机设备和存储介质 | |
CN110705718A (zh) | 基于合作博弈的模型解释方法、装置、电子设备 | |
Anand et al. | Topological feature engineering for machine learning based halide perovskite materials design | |
CN115062501A (zh) | 一种基于自适应子问题选择策略的芯片封装设计优化方法 | |
CN109377083A (zh) | 风险评估方法、装置、设备和存储介质 | |
CN113282805A (zh) | IPv6地址模式挖掘方法、装置、电子设备及存储介质 | |
CN115174212A (zh) | 一种利用熵技术甄别网络数据传输是否加密的方法 | |
CN114881343A (zh) | 基于特征选择的电力系统短期负荷预测方法及装置 | |
Qiu et al. | Machine learning promotes the development of all-solid-state batteries | |
Wu et al. | Essential structural and experimental descriptors for bulk and grain boundary conductivities of Li solid electrolytes | |
CN113517038A (zh) | 药物与靶点之间亲和力的预测方法、装置及设备 | |
CN111552696A (zh) | 基于大数据的数据处理方法、装置、计算机设备和介质 | |
Shen et al. | Topological graph-based analysis of solid-state ion migration | |
CN112214928A (zh) | 一种低压配电网多源数据处理与融合方法及系统 | |
CN115497576A (zh) | 基于图神经网络的聚合物性质预测方法和系统 | |
CN109872002A (zh) | 金属锂沉积的预测方法、装置及电子设备 | |
CN116108286A (zh) | 基于传播重构的虚假信息检测方法、装置和设备 | |
CN116364212A (zh) | 机器学习模型加速快离子导体材料的筛选优化方法和材料 | |
Kumar et al. | Designing Pr-based advanced photoluminescent materials using machine learning and density functional theory | |
Chen et al. | Artificial intelligence for the understanding of electrolyte chemistry and electrode interface in lithium battery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |