CN113241130B

CN113241130B - 一种基于图卷积网络的分子结构预测方法

Info

Publication number: CN113241130B
Application number: CN202110637452.0A
Authority: CN
Inventors: 江永全; 林小惠; 杨燕
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2022-04-22
Anticipated expiration: 2041-06-08
Also published as: CN113241130A

Abstract

本发明属于机器学习技术领域，具体的说是涉及一种基于图卷积网络的分子结构预测方法。本发明根据输入分子的SMILES来构建分子图和分子完全图，并对应构建具有两个分支的网络模型，一个分支采用MLP用于预测边，另一个分支包括图卷积网络和MLP，用于对分支的整体结构特征进行提取。本发明使用了图卷积提取分子结构特征，能很好地对分子的整体结构特征进行提取，从而更好地预测结构；使用了双分支的模型设计，解决了完全图破坏分子结构信息的问题。

Description

一种基于图卷积网络的分子结构预测方法

技术领域

本发明属于机器学习技术领域，具体的说是涉及一种基于图卷积网络的分子结构预测方法。

背景技术

分子的结构是研究分子的基础，因为分子的微观结构与包括了化学反应在内的各种宏观的化学性能以及各种物理性质的关系密不可分，因此，从很早以前开始人们就开始了对分子结构的研究，从各种已知的化学物质的分子构型和运动特征中归纳出物质结构的规律性，以解释物质的形成及其属性。

最早的分子结构测定主要是通过实验观察的方法，例如微波谱，X光衍射，电子衍射以及中子衍射等，其中微波谱常用于测量气相小分子结构，该方法通过测定转动常数从而得到转动惯量，而转动惯量是根据原子坐标和原子质量计算得到的，因此得到了转动惯量也就相当于测定到了分子的几何结构。X光衍射是在晶体环境下对分子结构进行测定，该方法通过测定晶体中的电子密度格点数据，再将其转换为原子核的位置信息，以达到测定分子结构的目的。电子衍射技术可用于固体也可用于气体，用于固体时有扫描透射显微镜等方式，用于气体时把气体分子喷到衍射腔里，射入加速后的电子并测量衍射数据，通过测量衍射数据得到原子间的距离矩阵，也等同于得到了分子的结构。

此外，还有一些计算的方法可以得到分子结构，例如，QM9数据集中的分子先由CORINA解析分子的SMILES(Simplified Molecular Input Line Entry Specification,简化分子线性输入规范)生成初始的笛卡尔坐标，随后使用MOPAC在PM7半经验理论水平上进行几何松弛，其结果用作高斯的B3LYP的几何松弛的输入，得到优化的原子坐标。Wolfram中根据分子化学图生成多个随机构象，再从中找到能量构象最低的分子，根据这个分子的坐标得到其化学结构。RDkit化学计算包中使用了两种方法，分别是基于距离的方法和基于知识的方法，基于知识的方法根据Riniker等人从晶体结构数据库的小分子结构中总结出的一些规则来修正基于距离的方法得到的结果。其中QM9数据集中的分子结构，经过多种方法优化，有较高的可信度，但需要转换几种方法，比较繁琐，而且耗时，而后面几种方法虽然计算速度较快，但常常比较粗糙或者需要先验知识。

近年来，随着机器学习的发展，越来越多的机器学习方法被应用与材料和化学等领域中并取得了成功，这极大地体现了机器学习方法在量子化学计算中的优势，其中近年新兴起的图神经网络非常适合对分子的图表示进行特征提取，但现有的方法通常将其用于对分子的性质进行预测而非结构，例如Chen等人开发了一种称作MEGNet的图网络模型，对分子和晶体特性进行了精准预测，Louis等针对许多GNN模型在进行性质预测是不能有效地区分不同原子所做出的贡献的问题提出了一种新的GATGNN模型，取得了相当好的预测性能。而使用图神经网络对分子结构进行预测的工作目前尚未见到相关的公开报道。

由于分子的结构对研究了解以及合成分子有着非常重要的作用，尤其在新药物研发领域，知道药物分子结构十分有助于药物分子属性预测、靶点预测以及化学反应预测，以指导新分子的合成，而通过实验的方法测定分子结构操作复杂，成本高，需耗费人力物力，并且无法测定尚未存在的新设计的分子，而在传统的计算方法中，存在无法很好地平衡计算精度和时间成本之间关系的问题。

发明内容

针对上述问题，本发明提出一种基于图卷积网络的分子结构预测方法，该方法通过预测原子距离矩阵得到分子几何结构。

本发明的技术方案是：

一种基于图卷积网络的分子结构预测方法，包括以下步骤：

S1、构建训练数据集，将获取的SMILES分子表达式转换为图表示：G1(num_nodes，num_edges，ndata＝{‘feature’:[X₁,X₂,…,X _{num_nodes}]}，edata＝{‘feature’:[E₁,E₂,…,E_{num_edges}]，‘label’:[y₁,y₂,…,y_{num_edges}]})和G2(num_nodes，num_edges，ndata＝{‘feature’:[X₁,X₂,…,X_{num_nodes}]}，edata＝{‘feature’:[E₁,E₂,…,E_{num_edges}]，‘label’:[y₁,y₂,…,y_{num_edges}]})，其中，G1表示分子图，G2表示分子完全图，分子完全图即没有键的原子之间也存在边，num_nodes和num_edges表示图结点和边的数量；ndata表示结点信息，其中的feature即为结点的特征向量集合，每个结点的特征向量由该结点所表示的原子的属性编码而成；edata表示边的信息，其中的feature为边的特征向量集合，每条边的特征向量由该边表示的键的属性编码而成，label为边的标签集合，是每条边长度的真值；

S2、构建网络模型，网络模型包括两条分支，第一分支包括MLP1，MLP1为四层的MLP，输入为G1，MLP1中每一层后都跟着一个BachNorm层，输入维度＝结点特征维度*2+边特征维度，每一层的输出维度分别为32、16、16、1。MLP1用于预测有键之间的原子所构成的边，输出分子图中每一条边的长度预测值；

第二分支包括用于进行图卷积操作的更新层、边连接层和MLP2，更新层为四层，MLP2为三层的MLP，更新层结点输入特征为19维，隐藏层特征为32维，输出特征为5维，每一层更新之后都要进行BachNorm操作，更新层中更新边的全连接层为两层，输入维度＝结点特征维度*2+边特征维度，输出维度为4；MLP2中每一层后都跟着一个BachNorm层，输入维度＝结点特征维度*2+边特征维度*4，每一层的输出维度为32，8，1；更新层的输入为G1和G2，更新层每一层的具体更新方式为：对G1的每一个结点进行图卷积操作，聚合邻居结点信息，用聚合的结果更新每一个结点特征向量，再将更新了的结点特征向量赋给G2的结点特征，将G2中每一条边的特征向量和组成这条边的两个结点的特征向量拼接起来，送入两层全连接层，用于对边的特征向量进行更新；四层更新层结束后，将每一层的边特征向量和最后一层组成这个边的两个结点特征向量通过边连接层拼接起来，送入MLP2，输出完全分子图中没有键的原子之间构成的每一条边的长度预测；

最后将MLP1和MLP2的所有输出拼接起来，输出两两原子间的距离；

S3、采用训练数据集对构建的网络模型进行训练，具体为使用梯度下降法进行训练，整个模型的总体损失函数定义为Loss＝αloss1+βloss2，其中loss1表示MLP1的损失，loss2表示MLP2的损失，α和β分别设置为0.4和0.6，loss1和loss2都使用了平均绝对误差，定义为

其中n为每个batch中边的条数，

为预测输出；根据总体损失函数Loss反向传播，训练各层的权重，完成模型的训练，获得训练好的网络模型；

S4、利用训练好的网络模型，将目标分子图输入网络模型，获得每一个分子图中两两原子距离预测。

本发明的有益效果是：(1)使用了图卷积提取分子结构特征，该方法能很好地对分子的整体结构特征进行提取，从而更好地预测结构；(2)使用了双分支的模型设计，解决了完全图破坏分子结构信息的问题；(3)本发明的预测结果相较于RDkit的方法更接近与QM9的计算结果，而在时间上也更优。

附图说明

图1为本发明的网络模型结构示意图。

具体实施方式

下面结合附图，详细描述本发明的技术方案：

本发明根据输入分子的SMILES来构建图，该图是由原子作为结点，键作为边，原子的一些属性，例如原子半径，价电子排布等作为结点的特征嵌入，键的类型作为边特征嵌入，此外，由于需要对分子的距离矩阵进行预测，因此在构建输入的图时，没有键的原子之间也需要进行边的构造，即构建一个完全图作为模型的输入，将原子距离矩阵预测转化为边的长度预测。模型的整体框架图如图1所示，由于完全图破坏了原有分子图的结构信息，因此，模型设置了两个分支，分别对完全图和分子图进行处理。分子图所在的分支需要完成两件事情，分别是对有键的原子之间的距离进行预测，以及将分子图送入带有图卷积操作的更新层进行结点更新，每层更新完后将结点信息传给完全图所在的分支，完全图使用更新的结点来完成对边的更新。在经过L1层这样的更新后，将每一次得到的新的边拼接起来，进行没有键之间的原子距离的预测。其中原子的距离预测使用的是含有L2层隐藏层的多层感知机，其定义如下：

其中，l_i表示第i层输出的向量，W是可训练的权重参数，b为偏置，

为激活函数，他能让函数具有非线性，用于更好的逼近真实值。

更新层中主要目的是对结点和边进行更新，主要操作是图卷积操作，对分子图中的每一个结点，聚合它的邻居节点用于更新自身，聚合操作如下：

其中，N(i)表示结点i的所有邻居节点，l表示图卷积层数，aggregate表示聚合函数，本发明使用了求平均值作为聚合函数，得到邻居的聚合信息之后，将其与结点i拼接起来，送入全连接层，输出更新后的i结点特征，公式如下：

其中||表示拼接操作，

表示激活函数，f表示全连接层。当分子图所有结点更新完毕后，将新的结点特征赋给完全图中的结点，然后更新完全图中没有键的原子之间的边，操作如下：

其中，e_i表示第i条边的特征向量，

和

表示形成边的两个结点的特征向量。当所有的边更新完毕后更新层结束，在经过L1层这样的更新层后，将每一层得到的边特征向量和最后一层的形成该边的结点特征拼接起来，送入多层感知机中，进行边的长度预测，公式如下：

本发明基于图1所示网络模型的主要训练步骤为：

1、将步骤一中处理好的图数据G1、G2输入到模型中。

2、前向传播。

(1)将G1中每一条边的特征向量和组成这条边的两个结点的特征向量拼接起来，送入图1中MLP1中。

(2)将G1送入更新层中，对每一个结点进行图卷积操作，聚合邻居结点信息，用以提取整体结构特征，聚合操作为：

其中，N(i)表示结点i的所有邻居节点，l表示图卷积层数，aggregate表示聚合函数，本发明使用了求平均值作为聚合函数。用聚合的结果更新每一个结点特征向量。

(3)将第(2)步中更新了的结点特征向量赋给G2的结点特征。将G2中每一条边的特征向量和组成这条边的两个结点的特征向量拼接起来，送入两层全连接层，用于对边的特征向量进行更新，至此，一层更新层结束。

(4)四层更新层结束后，将每一层的边特征向量和最后一层组成这个边的两个结点特征向量拼接起来，送入MLP2中。

3、根据总体损失函数Loss反向传播，训练各层的权重，完成模型的训练。

Claims

1.一种基于图卷积网络的分子结构预测方法，其特征在于，包括以下步骤：

S1、构建训练数据集，将获取的SMILES分子表达式转换为图表示：G1(num_nodes，num_edges，ndata＝{‘feature’:[X₁,X₂,…,X_{num_nodes}]}，edata＝{‘feature’:[E₁,E₂,…,E_{num_edges}]，‘label’:[y₁,y₂,…,y_{num_edges}]})和G2(num_nodes，num_edges，ndata＝{‘feature’:[X₁,X₂,…,X_{num_nodes}]}，edata＝{‘feature’:[E₁,E₂,…,E_{num_edges}]，‘label’:[y₁,y₂,…,y_{num_edges}]})，其中，G1表示分子图，G2表示分子完全图，分子完全图即没有键的原子之间也存在边，num_nodes和num_edges表示图结点和边的数量；ndata表示结点信息，其中的feature即为结点的特征向量集合，每个结点的特征向量由该结点所表示的原子的属性编码而成；edata表示边的信息，其中的feature为边的特征向量集合，每条边的特征向量由该边表示的键的属性编码而成，label为边的标签集合，是每条边长度的真值；

S2、构建网络模型，网络模型包括两条分支，第一分支包括MLP1，MLP1为四层的MLP，输入为G1，MLP1中每一层后都跟着一个BachNorm层，输入维度＝结点特征维度*2+边特征维度，每一层的输出维度分别为32、16、16、1；MLP1用于预测有键之间的原子所构成的边，输出分子图的每一条边长度预测值；

其中n为每个batch中边的条数，