CN116130036B - 一种基于图表示的金属有机框架的逆向设计方法 - Google Patents
一种基于图表示的金属有机框架的逆向设计方法 Download PDFInfo
- Publication number
- CN116130036B CN116130036B CN202310026881.3A CN202310026881A CN116130036B CN 116130036 B CN116130036 B CN 116130036B CN 202310026881 A CN202310026881 A CN 202310026881A CN 116130036 B CN116130036 B CN 116130036B
- Authority
- CN
- China
- Prior art keywords
- mof
- predictor
- graph
- topology
- vae
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013461 design Methods 0.000 title abstract description 24
- 239000002184 metal Substances 0.000 title description 5
- 239000012621 metal-organic framework Substances 0.000 claims abstract description 69
- 239000013598 vector Substances 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000010521 absorption reaction Methods 0.000 claims description 21
- 238000012512 characterization method Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000001179 sorption measurement Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 abstract description 16
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 8
- 239000007789 gas Substances 0.000 description 7
- 239000003546 flue gas Substances 0.000 description 6
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 5
- 239000002245 particle Substances 0.000 description 5
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 4
- 230000002860 competitive effect Effects 0.000 description 3
- 238000013537 high throughput screening Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000000302 molecular modelling Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 229910002092 carbon dioxide Inorganic materials 0.000 description 2
- 239000001569 carbon dioxide Substances 0.000 description 2
- 238000012938 design process Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000003989 dielectric material Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- HNPSIPDUKPIQMN-UHFFFAOYSA-N dioxosilane;oxo(oxoalumanyloxy)alumane Chemical group O=[Si]=O.O=[Al]O[Al]=O HNPSIPDUKPIQMN-UHFFFAOYSA-N 0.000 description 1
- 238000012377 drug delivery Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012983 electrochemical energy storage Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
- 229920003023 plastic Polymers 0.000 description 1
- 239000004033 plastic Substances 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000001338 self-assembly Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02C—CAPTURE, STORAGE, SEQUESTRATION OR DISPOSAL OF GREENHOUSE GASES [GHG]
- Y02C20/00—Capture or disposal of greenhouse gases
- Y02C20/40—Capture or disposal of greenhouse gases of CO2
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Shaping Metal By Deep-Drawing, Or The Like (AREA)
Abstract
本发明公开了一种基于图表示的金属有机框架的逆向设计方法,采用分子图的形式表示MOF的边,采用one‑hot编码进行分类表示MOF的节点和拓扑;搭建生成模型,生成模型包括VAE、预测器和分子群优化器,对VAE和预测器进行联合训练;VAE将边图|节点|拓扑编码到隐空间z中,预测器将隐空间z中的向量作为输入并预测MOF的性质,输出目标函数值,分子群优化器在隐空间z中进行探索,根据目标函数值输出想要的MOF。本发明基于图的MOF表示方法,建立由图神经网络生成模型和高准确度预测器组成的逆向设计深度学习框架,大大改善了MOFs逆向设计中的生成成功率低和预测不够准确的问题。
Description
技术领域
本发明涉及金属有机框架材料合成技术领域,具体的说,是一种基于图表示的金属有机框架的逆向设计方法。
背景技术
金属有机框架(MOFs)是一种晶体多孔材料,它们是通过在不同的拓扑结构中的分子构建块(即节点和连接器)的自组装而形成的。多样的构建块和不同组装方式赋予了MOFs特殊的几何和化学可调性。大量的MOFs已经应用于气体储存、分离、催化、电化学储能和药物传递等领域。由于构建块中的连接器具有庞大的化学空间,我们可以构建无限数量的MOF。在实验环境下,针对特定应用开发一种MOF需要大量的实验和测试,由于可能存在的MOF数量庞大,通过实验进行寻找合适的MOF需要耗费大量的人力物力和时间。随着计算机技术的发展,使用计算方法来替代人工寻找合适的MOF变得越来越流行。有一种计算方法是对MOF数据库进行高通量筛选,在筛选过程中使用分子模拟来预测MOF在给定应用条件下的性能。由于分子模拟计算的复杂性,这种方法只能在几万个MOF中进行筛选。为了加快高通量筛选,人们采用了启发式优化方法如遗传算法和进化算法,来得到更好的MOF结构。这种方式可以搜索到更大的MOF空间。它的缺点在于需要专家的先验知识来总结规则。此外,高通量筛选还有一个缺点,就是MOF数据库中存在大多数是低性能MOF。
考虑到以上情况和深度学习的发展,开发出一种生成新结构的工具具有极大的吸引力和可行性,它针对具有期望的应用性质,直接生成新的材料。这种从性质到结构的设计方式被称为逆向设计。逆向设计已经成功在应用在了MOF领域,但是现有的方法中没有使用预测模型,设计过程中使用zeo++计算软件计算MOF的吸收性能,计算成本比较大,而性能预测是逆向设计的关键步骤;有的使用分子模拟得到的能量网格来计算MOF吸附性能,这也是一个耗费计算成本的过程;而且MOF逆向设计需要一个更好的预测器,能在设计过程中快速、准确的进行性能预测。现有的MOF性质预测模型使用传统机器学习,在训练过程中需要提供大量的输入参数和属性。这些参数和属性的质量将直接影响机器学习模型的可靠性。因此,现有的预测器也不能适用于MOF逆向设计。构造一个更加适合逆向设计的预测器,是一个需要探索的工作。
在MOF的逆向设计领域,需要更好的生成模型来设计MOF。直观来看,可以把MOF表示成是三维空间中大量有规律结合的粒子(原子)的集合,这样的表示在生成的时候,需要同时兼顾到粒子的类型、粒子的数量、以及粒子的空间位置。由于需要考虑到空间架构,粒子的巨大数量以及离散和连续变量的混合,在生成的时候有着巨大的挑战性。MOF生成需要找到一个更加合适的表示方法。MOF设计领域已有的表示,如能量形状、RFcode(edges|vertices|topologies),他们都存在一定的问题,使用能量形状只能有效表征比较简单的沸石结构,RFcode使用SMILES(Simplifified Molecular Input Line Entry System)来表示edges,在生成时仅关注SMILES序列的句法特征和重复模式,忽略其语义并且无法编码更高层次的概念。这在生成分子或者MOF的时候会存在一定的问题,比如(1)重建失效的概率比较高;(2)不能将MOF的属性表示出来。这使得逆向设计过程中生成的MOF结构不够准确,而且性质预测精度比较低。
因此,现有的金属有机框架的逆向设计中,由于不具备性能预测导致不能快速、准确的进行性能预测,以及由于没有合适的表示方法导致MOF生成难度较大、生成的分子存在问题或者结构不够准确、性质预测精度比较低的问题。
发明内容
本发明的目的在于提供一种基于图表示的金属有机框架的逆向设计方法,用于解决现有技术中金属有机框架的逆向设计由于不具备性能预测导致不能快速、准确的进行性能预测,以及由于没有合适的表示方法导致MOF生成难度较大、生成的分子存在问题或者结构不够准确、性质预测精度比较低的问题。
本发明通过下述技术方案解决上述问题:
一种基于图表示的金属有机框架的逆向设计方法,包括:
步骤S100、对金属有机框架MOF进行图表征:从数据集中获取MOF数据,包括MOF的连接器、节点、拓扑和MOF的性质,对MOF数据进行预处理,采用分子图的形式表示MOF的边,采用one-hot编码进行分类表示MOF的节点和拓扑,形成MOF的表征形式边图|节点|拓扑;
步骤S200、搭建生成模型,生成模型包括变分自编码模型VAE、预测器和分子群优化器,对VAE和预测器进行联合训练;
步骤S300、VAE采用三组不同的编码解码器处理MOF的边图|节点|拓扑,将边图|节点|拓扑编码到隐空间z中,预测器采用三层的感知机网络,将隐空间z中的向量作为输入并预测MOF的性质,预测器的输出作为分子群优化器的目标函数值,分子群优化器在隐空间z中进行探索,根据目标函数值输出想要的MOF。
所述变分自编码模型VAE由三组编码器和解码器组成,其中,处理顶点和拓扑的编码器均采用三层感知机网络,处理顶点和拓扑的解码器均采用二层感知机网络;处理边图的编码器和解码器采用分层图编解码器。
对VAE和预测器进行联合训练具体为:
VAE将MOF的表征形式边图|节点|拓扑对应到隐空间z中,预测器添加MOF性质,对VAE和预测器进行联合训练,设置生成模型的整体损失函数Lloss为:
Lloss=LELBO+Lproperty
其中,LELBO为VAE学习的损失函数,Lproperty为预测器的损失函数,VAE学习的损失函数LELBO:
其中,i=1,2,3;n=3,代表有三个编码解码器;q(z1|x1)对应以拓扑结构的onehot编码x1为输入、z1为输出的编码器;q(z2|x2)对应以节点的onehot编码x2为输入、z2为输出的编码器;q(z3|x3)对应以边的图x3为输入、z3为输出的编码器;每个编码器构造的隐空间zi相加,形成一个总的隐空间z;p(z)代表先验分布;DKL代表是KL散度;p(x1|z)、p(x2|z)、p(x3|z)分别为以隐空间z为输入,分别输出拓扑结构的onehot编码、节点的onehot编码、边图的解码器,代表关于q(z|x)的期望;
预测器以半监督的形式运行的,预测器的输入为隐空间z,预测性质为MOF结构和气体吸收性质,当输入的MOF带有性质标签时,预测器则更新参数,当输入的MOF没有标签时,预测器则不更新参数。
所述分子群优化器在隐空间z中进行探索,根据目标函数值输出想要的MOF具体为:
给分子群优化器输入隐空间z的多个向量点,分子群优化器使用预测器得到向量点对应MOF的CO2吸收量,并自动选择更优的向量点进行下一步预测并评估,经过这样的多轮迭代,最终找到一个CO2吸收量最高的向量点;
将这个CO2吸收量最高的向量点使用解码器解码为边图|节点|拓扑后,在开源软件Zeo++中构建MOF。
还包括在开源软件RASPA中使用巨正则蒙特卡洛模拟GCMC评估得到的MOF的CO2吸附量。
所述分子图是通过分子节点和共价键边的方式表示,G=(V,E),其中V表示一组节点向量,E表示一组边,vi、vj表示其中一个节点,vi∈V、vj∈V,eij=(vi,vj)∈E表示节点vi和节点vj形成的边。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明提出了基于图的MOF表示方法,并建立了一个由图神经网络生成模型和高准确度预测器组成的逆向设计深度学习框架,大大改善了MOFs逆向设计中的生成成功率低和预测不够准确的问题。
(2)本发明将复杂的MOF简化为边图|节点|拓扑(graphs|vertices|topologies)的表示形式,新的表示形式作为多组件分别通过对应的编码器编码后同时输入到VAE中,为了更好的提取MOF表示中边图的信息,使用图神经网络作为边图的编码器和解码器。同时,提取VAE隐空间中的向量作为特征描述符来训练性质预测器,使模型在生成和属性预测上表现出了巨大的提升,证明使用图表示的MOF和以及提取的对应特征能使模型学习得更好。采用MOF在烟道气(CO2/N2混合气体)中对CO2的吸收量作为设计目标,使用优化算法搜寻隐空间中的MOF,并将得到的MOF使用GCMC模拟验证,得到极具竞争力的MOF。
附图说明
图1为本发明的图表征示意图;
图2为本发明中的生成模型的结构框图;
图3为本发明的生成模型与现有技术中模型的对比图;
图4为本发明的模型性能结果图;
图5为本发明设计的MOF的示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例:
一种基于图表示的金属有机框架的逆向设计方法,包括:
步骤S100、对金属有机框架MOF进行图表征:从数据集中获取MOF数据,包括MOF的连接器、节点、拓扑和MOF的性质,对MOF数据进行预处理,采用分子图的形式表示MOF的边,采用one-hot编码进行分类表示MOF的节点和拓扑,形成MOF的表征形式边图|节点|拓扑;
如图1所示,将完整的MOF图表示拆解为边图|节点|拓扑(graphs|vertices|topologies)的表示形式,边是具有两个连接点的分子片段,顶点是多连接的金属节点或有机节点,拓扑定义了这些组件如何连接以形成一个特定的MOF。边使用分子图进行表示,节点或拓扑结构分别根据化学公式或网络信息表示为字符;所述分子图是通过分子节点和共价键边的方式表示,G=(V,E),其中V表示一组节点向量,E表示一组边,vi、vj表示其中一个节点,vi∈V、vj∈V,eij=(vi,vj)∈E表示节点vi和节点vj形成的边;
步骤S200、搭建生成模型,生成模型包括变分自编码模型VAE、预测器和分子群优化器(MSO),对VAE和预测器进行联合训练;
步骤S300、VAE采用三组不同的编码解码器处理MOF的边图|节点|拓扑,将边图|节点|拓扑编码到隐空间z中,预测器采用三层的感知机网络,将隐空间z中的向量作为输入并预测MOF的性质,预测器的输出作为分子群优化器的目标函数值,分子群优化器在隐空间z中进行探索,根据目标函数值输出想要的MOF,如图2所示。
所述变分自编码模型VAE由三组编码器和解码器组成,其中,处理顶点和拓扑的编码器均采用三层感知机网络,处理顶点和拓扑的解码器均采用二层感知机网络;处理边图的编码器和解码器采用分层图编解码器,它可以更快的编码边图,使得模型的训练速度大大加快。
VAE将MOF的表征形式边图|节点|拓扑对应到隐空间z中,预测器添加MOF性质,对VAE和预测器进行联合训练,设置生成模型的整体损失函数Lloss为:
Lloss=LELBO+Lproperty
其中,LELBO为VAE学习的损失函数,Lproperty为预测器的损失函数,VAE学习的损失函数LELBO:
其中,i=1,2,3;n=3,代表有三个编码解码器;q(z1|x1)对应以拓扑结构的onehot编码x1为输入、z1为输出的编码器;q(z2|x2)对应以节点的onehot编码x2为输入、z2为输出的编码器;q(z3|x3)对应以边的图x3为输入、z3为输出的编码器;每个编码器构造的隐空间zi相加,形成一个总的隐空间z;p(z)代表先验分布;DKL代表是KL散度;p(x1|z)、p(x2|z)、p(x3|z)分别为以隐空间z为输入,分别输出拓扑结构的onehot编码、节点的onehot编码、边图的解码器,代表关于q(z|x)的期望;
由于带有标签的数据比较少,预测器以半监督的形式运行的,预测器的输入为隐空间z,预测性质为MOF结构和气体吸收性质,当输入的MOF带有性质标签时,预测器则更新参数,当输入的MOF没有标签时,预测器则不更新参数。
模型的验证:我们采用Reticular framework(MOF)library作为训练数据集,该数据集包含200万无标签的假设MOF和45000个具有标签的假设MOF。45000个假设MOF的标签包含:四种结构特性(孔限径(PLD)、最大腔径(LCD)、密度和可接近重量表面积(AGSA))、与天然气分离相关的三种特性(二氧化碳吸收、甲烷吸收和CO2/CH4选择性)和与烟气分离相关的三种特性(二氧化碳吸收、N2吸收和CO2/N2选择性)。将45000带有标签的数据集划为80%为训练集,20%为测试集。
首先是数据预处理,将数据集中200万无标签MOF和45000有标签MOF的拓扑和节点转换为onehot编码,MOF的边转换为图。再将预处理后的200万无标签MOF和45000有标签MOF的数据集划分80%作为训练集,20%作为测试集。如图3所示,模型的生成重建率为82%,随机生成有效率为100%,预测器的拟合系数为0.64,而竞争性模型生成重建率为69.5%,随机生成有效率为61.5%,拟合系数为0.25。我们的模型在生成和属性预测上表现出了巨大的提升,证明使用图表示的MOF和以及提取的对应特征能使模型学习得更好,如图4所示。
为了验证模型的设计效果,我们采用MOF在烟道气(CO2/N2混合气体)中对CO2的吸收量作为设计目标,使用分子群优化器搜寻隐空间中的MOF,并将得到的MOF使用GCMC模拟验证,得到了CO2/N2混合气体中对CO2吸收量2.7mol/kg和2.0mol/kg的新MOF,与最新的相同设计目标的MOF相比,这也是一个极具竞争力的结果。
为了能够得到具有目标性质(即烟道气中对CO2的吸收量高)的MOF,我们采用了分子群优化器在我们构造的隐空间z中进行探索。分子群优化器的目标函数设置为MOF的烟道气中对CO2的吸收量,目标函数值通过先前训练好的预测器得到。具体运行过程如下,给分子群优化器输入多个隐空间z的向量点,优化器使用预测器得到向量点对应MOF的CO2吸收量,并自动选择更优的点进行下一步预测并评估,经过这样的多轮迭代,最终找到一个CO2吸收量最高的向量点。将这个向量点使用解码器解码为边图|节点|拓扑后,在开源软件Zeo++中构建MOF;最后,通过在开源软件RASPA中使用巨正则蒙特卡洛模拟(GCMC)评估得到的MOF的CO2吸附量。
我们得到了CO2/N2混合气体中对CO2吸收量2.7mol/kg和2.0mol/kg的新MOF,与现有技术相比,也是一个非常好的结果,如图5所示。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (5)
1.一种基于图表示的金属有机框架的逆向设计方法,其特征在于,包括:
步骤S100、对金属有机框架MOF进行图表征:从数据集中获取MOF数据,包括MOF的连接器、节点、拓扑和MOF的性质,对MOF数据进行预处理,采用分子图的形式表示MOF的边,采用one-hot编码进行分类表示MOF的节点和拓扑,形成MOF的表征形式边图|节点|拓扑;
步骤S200、搭建生成模型,生成模型包括变分自编码模型VAE、预测器和分子群优化器,对VAE和预测器进行联合训练;
步骤S300、VAE采用三组不同的编码解码器处理MOF的边图|节点|拓扑,将边图|节点|拓扑编码到隐空间z中,预测器采用三层的感知机网络,将隐空间z中的向量作为输入并预测MOF的性质,预测器的输出作为分子群优化器的目标函数值,分子群优化器在隐空间z中进行探索,根据目标函数值输出想要的MOF;
所述变分自编码模型VAE由三组编码器和解码器组成,其中,处理顶点和拓扑的编码器均采用三层感知机网络,处理顶点和拓扑的解码器均采用二层感知机网络;处理边图的编码器和解码器采用分层图编解码器。
2.根据权利要求1所述的一种基于图表示的金属有机框架的逆向设计方法,其特征在于,对VAE和预测器进行联合训练具体为:
VAE将MOF的表征形式边图|节点|拓扑对应到隐空间z中,预测器添加MOF性质,对VAE和预测器进行联合训练,设置生成模型的整体损失函数Lloss为:
Lloss=LELBO+Lproperty
其中,LELBO为VAE学习的损失函数,Lproperty为预测器的损失函数,VAE学习的损失函数LELBO:
其中,i=1,2,3;n=3,代表有三个编码解码器;q(z1|x1)对应以拓扑结构的onehot编码x1为输入、z1为输出的编码器;q(z2|x2)对应以节点的onehot编码x2为输入、z2为输出的编码器;q(z3|x3)对应以边的图x3为输入、z3为输出的编码器;每个编码器构造的隐空间zi相加,形成一个总的隐空间z;p(z)代表先验分布;DKL代表是KL散度;p(x1|z)、p(x2|z)、p(x3|z)分别为以隐空间z为输入,分别输出拓扑结构的onehot编码、节点的onehot编码、边图的解码器,代表关于q(z|x)的期望;
预测器以半监督的形式运行的,预测器的输入为隐空间z,预测性质为MOF结构和气体吸收性质,当输入的MOF带有性质标签时,预测器则更新参数,当输入的MOF没有标签时,预测器则不更新参数。
3.根据权利要求2所述的一种基于图表示的金属有机框架的逆向设计方法,其特征在于,所述分子群优化器在隐空间z中进行探索,根据目标函数值输出想要的MOF具体为:
给分子群优化器输入隐空间z的多个向量点,分子群优化器使用预测器得到向量点对应MOF的CO2吸收量,并自动选择更优的向量点进行下一步预测并评估,经过这样的多轮迭代,最终找到一个CO2吸收量最高的向量点;
将这个CO2吸收量最高的向量点使用解码器解码为边图|节点|拓扑后,在开源软件Zeo++中构建MOF。
4.根据权利要求3所述的一种基于图表示的金属有机框架的逆向设计方法,其特征在于,还包括在开源软件RASPA中使用巨正则蒙特卡洛模拟GCMC评估得到的MOF的CO2吸附量。
5.根据权利要求1所述的一种基于图表示的金属有机框架的逆向设计方法,其特征在于,所述分子图是通过分子节点和共价键边的方式表示,G=(V,E),其中V表示一组节点向量,E表示一组边,vi、vj表示其中一个节点,vi∈V、vj∈V,eij=(vi,vj)∈E表示节点vi和节点vj形成的边。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310026881.3A CN116130036B (zh) | 2023-01-09 | 2023-01-09 | 一种基于图表示的金属有机框架的逆向设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310026881.3A CN116130036B (zh) | 2023-01-09 | 2023-01-09 | 一种基于图表示的金属有机框架的逆向设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116130036A CN116130036A (zh) | 2023-05-16 |
CN116130036B true CN116130036B (zh) | 2024-03-01 |
Family
ID=86295142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310026881.3A Active CN116130036B (zh) | 2023-01-09 | 2023-01-09 | 一种基于图表示的金属有机框架的逆向设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116130036B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011075618A1 (en) * | 2009-12-18 | 2011-06-23 | Georgia Institute Of Technology | Screening metal organic framework materials |
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
CN112382352A (zh) * | 2020-10-30 | 2021-02-19 | 华南理工大学 | 基于机器学习的金属有机骨架材料结构特征快速评估方法 |
CN113327651A (zh) * | 2021-05-31 | 2021-08-31 | 东南大学 | 一种基于变分自编码器和消息传递神经网络的分子图生成方法 |
CN114038516A (zh) * | 2021-11-25 | 2022-02-11 | 中国石油大学(华东) | 一种基于变分自编码器的分子生成与优化 |
WO2022047677A1 (zh) * | 2020-09-02 | 2022-03-10 | 深圳晶泰科技有限公司 | 药物分子筛选方法及系统 |
CN114743617A (zh) * | 2022-04-13 | 2022-07-12 | 北京化工大学 | 一种高效的MOFs材料搜索与生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8900352B2 (en) * | 2011-07-06 | 2014-12-02 | Northwestern University | System and method for generating and/or screening potential metal-organic frameworks |
-
2023
- 2023-01-09 CN CN202310026881.3A patent/CN116130036B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011075618A1 (en) * | 2009-12-18 | 2011-06-23 | Georgia Institute Of Technology | Screening metal organic framework materials |
CN110970099A (zh) * | 2019-12-10 | 2020-04-07 | 北京大学 | 一种基于正则化变分自动编码器的药物分子生成方法 |
WO2022047677A1 (zh) * | 2020-09-02 | 2022-03-10 | 深圳晶泰科技有限公司 | 药物分子筛选方法及系统 |
CN112382352A (zh) * | 2020-10-30 | 2021-02-19 | 华南理工大学 | 基于机器学习的金属有机骨架材料结构特征快速评估方法 |
CN113327651A (zh) * | 2021-05-31 | 2021-08-31 | 东南大学 | 一种基于变分自编码器和消息传递神经网络的分子图生成方法 |
CN114038516A (zh) * | 2021-11-25 | 2022-02-11 | 中国石油大学(华东) | 一种基于变分自编码器的分子生成与优化 |
CN114743617A (zh) * | 2022-04-13 | 2022-07-12 | 北京化工大学 | 一种高效的MOFs材料搜索与生成方法 |
Non-Patent Citations (3)
Title |
---|
混合变分自编码;陈亚瑞;蒋硕然;杨巨成;赵婷婷;张传雷;;计算机研究与发展;20200115(01);全文 * |
粒子群算法的进化式实时优化方法;郭晶;李宏光;;自动化仪表;20110820(08);全文 * |
钱旭 ; 田子奇 ; .材料基因方法在材料设计中的应用.数据与计算发展前沿.2020,(第01期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116130036A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jin et al. | Junction tree variational autoencoder for molecular graph generation | |
CN113707235A (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
CN111428848B (zh) | 基于自编码器和3阶图卷积的分子智能设计方法 | |
CN108647226B (zh) | 一种基于变分自动编码器的混合推荐方法 | |
CN113571125A (zh) | 基于多层网络与图编码的药物靶点相互作用预测方法 | |
JP2023531846A (ja) | 強化学習及びドッキングに基づく医薬品分子のインテリジェント生成方法 | |
CN116486900B (zh) | 基于深度模态数据融合的药物靶标亲和度预测方法 | |
CN114913938B (zh) | 一种基于药效团模型的小分子生成方法、设备及介质 | |
CN117275609A (zh) | 一种基于变分自编码器和Transformer模型的分子设计方法 | |
CN114038516B (zh) | 一种基于变分自编码器的分子生成与优化方法 | |
Jabi et al. | Graph machine learning using 3D topological models | |
Ding et al. | The emergence of the representation of style in design | |
CN104462414A (zh) | 一种基于拓扑结构的流程图相似性方法 | |
CN118072815A (zh) | 一种基于PfgPDI的蛋白质-配体相互作用预测方法 | |
CN116130036B (zh) | 一种基于图表示的金属有机框架的逆向设计方法 | |
CN109979461A (zh) | 一种语音翻译方法及装置 | |
CN117236374A (zh) | 一种基于充分展开的材料图神经网络的分层解释方法 | |
CN116453584A (zh) | 蛋白质三维结构预测方法及系统 | |
CN117195731A (zh) | 一种复杂系统动力学行为建模方法、系统及设备 | |
CN115240787A (zh) | 基于深度条件循环神经网络的全新分子生成方法 | |
Kalojanov et al. | String‐Based Synthesis of Structured Shapes | |
CN113032372B (zh) | 一种基于ClickHouse数据库的空间大数据管理方法 | |
Ong et al. | Machine learning for human design: Sketch interface for structural morphology ideation using neural networks | |
Basu et al. | Guest editors' introduction to the special section on syntactic and structural pattern recognition | |
CN115206456B (zh) | 基于属性编辑流的分子生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |