CN111755081A

CN111755081A - 一种高甲烷吸附率MOFs生成与筛选的方法

Info

Publication number: CN111755081A
Application number: CN202010374619.4A
Authority: CN
Inventors: 卢罡; 郭安然; 阳庆元; 李睿琪
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-10-09
Anticipated expiration: 2040-05-06
Also published as: CN111755081B

Abstract

本发明公开了一种高甲烷吸附率MOFs生成与筛选的方法，获取到数据集内MOFs的简化分子线性输入规范并利用SMILES计算分子指纹，使用循环神经网络模型生成大量假设性MOFs的SMILES表示形式，设计评估模型来判断生成样本的有效性，同时设计并比较不同分类器与不同输入数据的分类效果，筛选出性能最佳的分类器，最后使用训练好的分类器对评估为有效的假设性MOFs的样本进行甲烷吸附性能的预测，筛选出高甲烷吸附率的假设性MOFs，为在实验室合成高甲烷吸附率的MOFs提供参考。

Description

一种高甲烷吸附率MOFs生成与筛选的方法

技术领域

本发明属于功能MOFs智能生成和筛选技术领域，特别涉及一种高甲烷吸附率MOFs生成与筛选的方法。

背景技术

甲烷是一种应用十分广泛的清洁能源，但是它的传统存储方式比较耗能，人们仍在寻找更加的存贮方式。由于金属有机骨架化合物(Metal-Organic Frameworks，MOFs)是由无机金属中心(金属离子或金属簇)与桥连的有机配体通过自组装相互连接形成的一类具有周期性网络结构的晶态多孔材料，它具有纳米级孔隙，这些孔隙使MOFs能够有效地捕获气体分子，所以MOFs可以用于甲烷的存储，进而具有更高的甲烷吸附率的MOFs是技术人员研究的重点。

对于寻找或设计新型MOFs这个问题，传统的研究思路是通过合成新配体或改变配位方式等方式来获得高性能的新型结构的MOFs。然而传统方法需要大量人工参与，实验进展缓慢。随着MOFs十几年来的发展，已经积累了大量数据，使得通过人工智能进行数据训练设计并且筛选有效的化学结构的新材料成为可能。

发明内容

本发明的目的在于提供一种高甲烷吸附率MOFs生成与筛选的方法，通过人工智能进行数据训练设计并且筛选具有高甲烷吸附率化学结构的MOFs以提高搜索效率，为在实验室合成高甲烷吸附率的MOFs提供参考依据。

技术方案如下：

一种高甲烷吸附率MOFs生成与筛选的方法，包括以下步骤：

1)计算SMILES表示形式；

2)使用SMILES计算分子指纹；

3)构建并训练RNN模型生成假设性MOFs的SMILES表示形式；

4)构建评估模型判断RNN模型生成样本的有效性；

5)筛选性能最佳分类器；

6)通过性能最佳分类器对评估为有效MOFs的假设样本进行甲烷吸附性能的预测以筛选出高甲烷吸附率的假设性MOFs。

优选的，所述步骤2)中分子指纹形式包括MACCS、RDKit、Morgan和Avalon。

优选的，所述步骤3)中，RNN模型采用最原始的输入和输出序列等长的结构，采用LSTM提升模型处理长期依赖的能力，模型的损失函数采用交叉熵。

优选的，所述步骤4)中，首先计算数据集内每个样本的MACCS、RDkit、Morgan和Avalon分子指纹的Tanimoto系数以衡量最大相似度，并求其平均值得到相应数据分布图，再计算RNN模型生成样本与数据集内样本的MACCS、RDkit、Morgan和Avalon分子指纹的平均最大相似度，最后设定置信区间，若生成样本的计算结果在对应置信区间内，则认为生成样本属于有效MOFs的假设样本。

优选的，所述步骤5)具体为：将数据集内大部分样本作为训练集，另一部分样本作为测试集，运用卷积神经网络、长短期记忆网络、多层感知机、朴素贝叶斯、k最邻近、逻辑回归、支持向量机分类器，结合训练集内的SMILES表示形式和分子指纹输入数据对MOFs的甲烷吸附率的高低进行训练，使用测试集内的数据对计算出的各分类器的准确率、精确率、召回率、F1分数、AUC分类指标进行度量以筛选出综合性能最佳的分类器。

本发明的有益效果为：

一、本发明设计模型时无需由专家对MOF各项性质进行计算，极大地节约了时间和人力；

二、本发明训练出的RNN模型可学习到高性能MOFs的共性为生成新材料提供可能；

三、本发明的评估模型避免了生成样本的评估的人为筛选；

四、本发明方法挑选出的的分类器分类效果准确，针对甲烷的高吸附率MOFs的筛选准确率和效率高。

附图说明

图1是本发明一种高甲烷吸附率MOFs生成与筛选的方法的流程图。

图2是本发明中MOFs的一些有机配体的SMILES表示形式。

图3是本发明中RNN模型的结构图。

图4是本发明中RNN模型学习生成SMILES为“OC/C＝C/C＝C/CO”的分子的例子。

图5是本发明中7种分类器的PR曲线和ROC曲线。

图6是本发明中RNN模型训练过程中的损失图像。

图7是本发明中分子指纹在数据集内最大相似度的频率直方图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合实施例对本发明提供的高甲烷吸附率MOFs生成与筛选的方法进行详细描述。以下实施例仅用于说明本发明而非用于限制本发明的范围。

本发明提供的高甲烷吸附率MOFs生成与筛选的方法：包括以下步骤：

第一步，计算MOFs数据集内样本的简化分子线性输入规范(SMILES)表示形式；

第二步，使用SMILES计算MACCS、RDKit、Morgan、Avalon分子指纹；

第三步，设计并训练循环神经网络(RNN)模型生成大量假设性MOFs的SMILES表示形式，模型采用最原始的输入和输出序列等长的结构，其中RNN模块采用LSTM以提升模型处理长期依赖的能力，模型的损失函数采用交叉熵；

第四步，设计评估模型来判断RNN模型生成样本的有效性，首先计算数据集内每个样本的MACCS、RDkit、Morgan、Avalon分子指纹的最大相似度(使用Tanimoto系数进行衡量)，并求其平均值得到相应数据分布图，再计算模型生成样本与数据集内样本的4种分子指纹的平均最大相似度，最后设定符合实验要求的置信度，若生成样本的计算结果在对应置信区间内，则认为生成样本与数据集内样本是相似的，属于有效MOFs的样本；

第五步，设计并筛选出性能最佳的分类器，将数据集内80％样本作为训练集，20％样本作为测试集，运用卷积神经网络(Convolutional Neural Networks，CNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、多层感知机(Multilayer Perceptron，MLP)、朴素贝叶斯(Naive Bayes，NB)、k最邻近(k-Nearest Neighbor，kNN)、逻辑回归(LogisticRegression,LR)、支持向量机(Support Vector Machine，SVM)分类器，结合训练集内的SMILES表示形式、MACCS、RDKit、Morgan、Avalon分子指纹输入数据对MOFs的甲烷吸附率的高低进行训练。使用测试集内的数据对计算出的各个分类器的准确率、精确率、召回率、F1分数、ROC曲线下与坐标轴围成的面积(AUC)等5项分类指标进行度量，挑选出综合性能最佳的分类器；

第六步，训练好的分类器对评估为有效MOFs的样本进行甲烷吸附性能的预测，筛选出高甲烷吸附率的假设性MOFs。

实施例1

采用实际数据分析本发明提出的模型效果。实验根据图1所示的流程图用Python实现，使用NVIDIA Tesla K80 GPU对模型进行训练。本发明使用的数据库是2016年Chung YG等人发表于《Science Advances》上的论文“In silico discovery of metal-organicframeworks for precombustion CO2capture using a genetic algorithm”得到的包含51163种MOFs的晶体信息文件(CIF)的数据库。SMILES用一串字符串描述一个化学结构，分子指纹将分子解构并编码成位串，通过简单的“是-否”检查是否存在预定义的一组功能组，MACCS、RDKit、Morgan、Avalon指纹是长度不等的二进制字符串。本发明使用Open Babel软件将CIF转化为SMILES并用RDKit工具包计算与SMILES对应的4种分子指纹作为模型训练的数据集，将数据集内80％的数据作为训练集，其余为测试集。图2是MOFs的一些有机配体的SMILES表示形式。

图3显示了RNN模型的原理，x_t是第t层的输入，h_t是第t层的隐藏状态，它负责整个神经网络的记忆功能，由上一层的隐藏状态h_t-1和本层的输入x_t共同决定。o_t是第t层的输出，模型的线性关系参数U、V、W都是共享的。图4举了模型生成SMILES为“OC/C＝C/C＝C/CO”的分子的例子。SMILES的每种字符都使用独热向量进行编码，当前字符的输出目标是下一个字符。由于SMILES的长度是不同的，设置结束符“\n”，遇到结束符循环停止。若目标与实际输出不同，模型产生损失，损失函数采用交叉熵。训练过程中使用随机梯度下降算法减小模型的损失，学习率设置为0.0001。图6显示了RNN模型训练过程的模型损失图像。图6(a)将批尺寸设置为128，损失曲线震荡较多，效果不佳；图6(b)将批尺寸设置为256，损失曲线更加稳定，收敛到0.3附近。模型生成效果如表1所示。

表1各时期模型生成效果

设定评估模型时，首先计算了样本的4种分子指纹分别在数据集内最大相似度的频率直方图，如图7所示。图7(a)显示存在约16000个样本的MACCS指纹最大相似度为1，这意味着对于这16000中的每一个样本，数据集内至少存在一个与其MACCS指纹完全相同的样本。其余数据约呈线性分布，最小值为0.0965。图7(b)显示除约1800个样本的RDKit指纹最大相似度为1外，其余样本的Rdkit指纹最大相似度大致服从高斯分布，均值为0.8923，最小值为0.5357。图7(c)显示样本的Morgan指纹具有最高频率的最大相似度是0.4917，剩余数据呈指数函数并分布在最高频的两侧，最小值为0.0965。图7(d)显示样本的Avalon指纹的最大相似度呈高斯分布，均值0.8019，最小值0.5077。然后，求得样本的4种分子指纹在数据集内最大相似度的平均值的频率直方图，如图7(e)所示，认定为服从高斯分布，最小值0.5077，均值0.8019。设定评估模型设定区间置信度99.87％，置信区间为[0.5949,1]，计算模型生成样本与训练集内样本的4种分子指纹的平均最大相似度，若处于置信区间内，则认定它属于假设性MOFs。

构造分类器对MOFs的甲烷吸附率的高低进行分类时，本发明将CNN、LSTM、MLP、NB、kNN、LR、SVM等7种分类模型与SMILES表示形式、MACCS、RDKit、Morgan、Avalon分子指纹等5种输入数据进行组合，共有35种组合情况。图5是本发明中7种已挑选出各自最佳输入数据的分类器的PR曲线和ROC曲线，图像显示使用SMILES作为数据输入，CNN作为分类器时分类效果最佳，此时准确率为0.9437，精确率为0.9421，召回率为0.9440，F1分数为0.9430，AUC为0.9866，各项分类指标均为最佳。

对RNN模型的生成样本进行评估，以生成10000个样本为例，生成SMILES的语法正确率为63.89％，认定属于假设性MOFs的样本占语法正确样本的88.26％，认定属于假设性MOFs的样本中属于高甲烷吸附率MOFs的概率是16.44％。

上面结合实施例对本发明的实例作了详细说明，但是本发明并不限于上述实例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出的各种变化，也应视为本发明的保护范围。

Claims

1.一种高甲烷吸附率MOFs生成与筛选的方法，其特征在于，包括以下步骤：

1)计算SMILES表示形式；

2)使用SMILES计算分子指纹；

3)构建并训练RNN模型生成假设性MOFs的SMILES表示形式；

4)构建评估模型判断RNN模型生成样本的有效性；

5)筛选性能最佳分类器；

6)通过性能最佳分类器对评估有效的MOFs的假设样本进行甲烷吸附性能的预测以筛选出高甲烷吸附率的假设性MOFs。

2.根据权利要求1所述的高甲烷吸附率MOFs生成与筛选的方法，其特征在于，所述步骤2)中分子指纹形式包括MACCS、RDKit、Morgan和Avalon。

3.根据权利要求2所述的高甲烷吸附率MOFs生成与筛选的方法，其特征在于，所述步骤3)中，RNN模型采用最原始的输入和输出序列等长的结构，采用LSTM提升模型处理长期依赖的能力，模型的损失函数采用交叉熵。

4.根据权利要求3所述的高甲烷吸附率MOFs生成与筛选的方法，其特征在于，所述步骤4)中，首先计算数据集内每个样本的MACCS、RDkit、Morgan和Avalon分子指纹的Tanimoto系数以衡量最大相似度，并求其平均值得到相应数据分布图，再计算RNN模型生成样本与数据集内样本的MACCS、RDkit、Morgan和Avalon分子指纹的平均最大相似度，最后设定置信区间，若生成样本的计算结果在对应置信区间内，则认为生成样本属于有效MOFs的假设样本。

5.根据权利要求4所述的高甲烷吸附率MOFs生成与筛选的方法，其特征在于，所述步骤5)具体为：将数据集内大部分样本作为训练集，另一部分样本作为测试集，运用卷积神经网络、长短期记忆网络、多层感知机、朴素贝叶斯、k最邻近、逻辑回归、支持向量机分类器，结合训练集内的SMILES表示形式和分子指纹输入数据对MOFs的甲烷吸附率的高低进行训练，使用测试集内的数据对计算出的各分类器的准确率、精确率、召回率、F1分数、AUC分类指标进行度量以筛选出综合性能最佳的分类器。