CN109461475B

CN109461475B - 一种基于人工神经网络的分子属性预测方法

Info

Publication number: CN109461475B
Application number: CN201811258268.XA
Authority: CN
Inventors: 刘淇; 陈恩红; 陆承镪; 王超; 黄振亚
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-10-26
Filing date: 2018-10-26
Publication date: 2022-05-13
Anticipated expiration: 2038-10-26
Also published as: CN109461475A

Abstract

本发明提供了一种基于人工神经网络的分子属性预测方法，包括：S1)对分子数据进行预处理：通过图的数据结构表征的方法，得到原子空间表征与原子构成表征；S2)建立模型：将原子空间表征与原子构成表征通过多层卷积神经网络，得到分子各级的表征，并将分子各级的表征进行组合，得到模型；S3)根据模型预测分子属性。与现有技术相比，本发明利用多层级卷积神经网络，能够利用已有数据的信息以及分子的多层级结构，从中学出分子属性和空间构成的关系，并用来预测未知分子的相关属性，因此具有较好的速度与精度。

Description

一种基于人工神经网络的分子属性预测方法

技术领域

本发明属于材料学技术领域，尤其涉及一种基于人工神经网络的分子属性预测方法。

背景技术

从药物研发，到材料开发，都离不开分子发现。为了寻找到具有特定属性的分子来满足应用上的需求，通用的方法是遍历一个未知的可能分子的集合(称之为化学空间)，在遍历过程中，研究人员通过各种方法来预测分子的属性，如果发现某分子符合要求，则记录下来做进一步研究。举例而言，对分子能量属性的预测能够帮助研究人员找到稳定的分子。

但是，化学空间往往非常庞大，一个被广泛应用的化学空间有一千六百多亿个分子。因此，一种快速的分子属性测定方法能够极大加速寻求特定分子的进程。但是传统物理上常用的密度泛函分析方法(Density Function Theory，下面简称为DFT)，在时间效率上并不理想，无法对大量数据进行处理。

围绕该问题，研究者们提出了很多方法，但其中大部分仍然是基于DFT开发的。与此同时，该研究领域已经积累了许多相关的数据，但是大部分方法都无法利用这些已有的数据。

发明内容

有鉴于此，本发明要解决的技术问题在于提供一种基于人工神经网络的分子属性预测方法，该分子属性预测方法可充分利用已有的数据，且具有较好的速度与精度。

本发明提供了一种基于人工神经网络的分子属性预测方法，包括：

S1)对分子数据进行预处理：通过图的数据结构表征的方法，得到原子空间表征与原子构成表征；

S2)建立模型：将原子空间表征与原子构成表征通过多层卷积神经网络，得到分子各级的表征，并将分子各级的表征进行组合，得到模型；

S3)根据模型预测分子属性。

优选的，所述步骤S1)具体为：

分子数据包括分子的原子构成与原子的三维空间坐标；

将原子的三维空间坐标转换为原子之间的距离矩阵，然后通过径向基函数扩展为距离张量，得到原子空间表征；

将分子的原子构成进行嵌入表示，得到原子构成表征。

优选的，距离矩阵通过径向基函数扩展为距离张量，具体按照以下模型进行：

其中，x为距离矩阵中的每对距离；∩表示对元素的拼接；μ_i为中心点；||x-μ_i||表示x到第i个中心点的欧几里得距离；h为高斯核，

K为最短距离到最长距离选取中心点的数量；

通过径向基函数得到张量D∈R^N×N×K，N为距离矩阵中每对距离的数量。

优选的，将分子的原子构成进行嵌入表示，具体按照以下步骤进行：

用向量表示分子中的节点和边，将原子看做分子中的节点，其表示为向量a⁰∈R^D，进而得到整个分子的节点表示矩阵A⁰∈R^N×D，经嵌入表示得到边表征矩阵为E∈R^N×D×D。

优选的，将原子空间表征与原子构成表征通过多层卷积神经网络，得到分子各级的表征具体为：

其中，

为卷积层第I+1层的边表征，

为卷积层第I+1层的原子表征；h_e与h_v为更新函数；d_ij为第i个原子与第j个原子之间的距离张量，e_ij为第i个原子与第j个原子之间的边表征。

优选的，其特征在于，

其中，η为超参数，

为元素乘法，

为元素加法，W^ue为权重矩阵；σ为tanh激活函数，W^uv为权重矩阵，M^fa、M^fd与M^fe为全连接层。

优选的，所述步骤S2)中将分子各级的表征进行组合，具体为：

其中，

为第i个原子第k层的表征，∩表示对表征的拼接。

优选的，所述模型为：

其中，

为预测值，σ′为softplus激活函数，

为应用在原子构成表征上的权重矩阵；

为应用在原子构成表征上的全连接层；

为应用在边表征上的权重矩阵；

为应用在边表征上的全连接层。

优选的，得到模型后，还包括：用已有的分子属性数据训练模型中的参数。

优选的，所述步骤S2)中多层卷积神经网络中卷积层的个数为4～5。

在预测的速度上有了很大的提高：对于一个中等大小的分子，在同样的计算资源下，本发明仅需2.4×10^-2秒，而传统基于密度泛函分析方法的模型需要3.6×10³秒。相比之下本发明的效率高了大约1.5×10⁵倍。

在预测的精度方面，本发明在多项属性的预测上都达到了目前最高的精度。

附图说明

图1为本发明提供的分子属性预测方法的流程示意图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

S3)根据模型预测分子属性。

参见图1，图1为本发明提供的分子属性预测方法的流程示意图。

分子数据包括分子的原子构成和每个原子的三维空间坐标；所述分子数据为本领域技术人员熟知的分子数据即可，并无特殊的限制，其可优选为由密度泛函分析方法计算得到的分子数据；对分子数据进行预处理，优选包括分子空间信息的处理和分子结构中节点和边的嵌入表征，前者在原始分子数据中表现为分子中每个原子的三维空间坐标，后者在原始分子数据中表现为分子的原子构成，本发明通过图的数据结构表征的方法，得到原子空间表征与原子构成表征。

其中，所述原子空间表征优选按照以下步骤进行：将原子的三维空间坐标转换为距离矩阵，然后通过径向基函数扩展为距离张量，得到原子空间表征。将原子的三维空间坐标转换为原子之间的距离矩阵，可消除坐标系选择对分子观测的影响，因此使本发明提供的模型具有旋转和平移不变性，不会被不同视角下的同个分子迷惑；然后用径向基函数将该距离矩阵拓展为一个距离张量。径向基函数是一种被广泛使用的核方法，给定一个集合中K个中心点{μ₁,...μ_k}，对于单个数据点x(即距离矩阵中的每对距离)，按照以下模型进行处理：

其中，x为距离矩阵中的每对距离；∩表示对元素的拼接；μ_i为中心点；||x-μ_i||表示x到第i个中心点的欧几里得距离；h为径向基，本发明中优选为高斯核，即

使用高斯核的好处在于可以避免训练初期较长的平台期；K为最短距离到最长距离选取中心点的数量，本发明中优选为在最短距离到最长距离中平均选K个点，这样，所有的距离都能被覆盖在其中。

通过径向基函数得到张量D∈R^N×N×K，di_j表示第i个原子与第j个原子之间的距离张量，N为距离矩阵中每对距离的数量。

预处理中另一部分的操作为嵌入操作，将分子的原子构成进行嵌入表示，得到原子构成表征，可分为原子表征与边表征。在嵌入表示时，用向量表示分子中的节点和边，将原子看做分子中的节点，其表示为向量a⁰∈R^D，进而得到整个分子的节点表示矩阵即原子表征A⁰∈R^N×D。在嵌入表示时，分子中同类原子优选共享一个嵌入值，如一个分子中所有氢原子的向量表示相同，而且该分子中的氢原子向量表示和其他分子中的氢原子表示也相同，因此，向量表示即原子表征仅仅与原子的种类相关，而和原子所在的分子构成以及空间结构没有关系。基于上述同样的技术，对分子中的边进行嵌入，优选当且仅当一个边的两个节点种类相同时，它们的向量表示相同，如所有连接着氢原子与氧原子的边都用同一个向量进行表示，经嵌入表示得到边表征矩阵为E∈R^N×D×D，其中，e_ij∈R为第i个原子与第j个原子之间的边表征。

将原子空间表征与原子构成表征通过多层卷积神经网络，得到分子各级的表征。在此过程中，首选需要构建若干个卷积层，卷积层的个数是一个可以调节的超参数，通常在预测中小型分子时，优选4～5层。在本发明中，每层卷积的输入优选为边嵌入、空间信息以及上一层的相互作用表征，如在第一层的输入时，相互作用表征就是原子表征，而经过第一层卷积后，得到二级相互作用表征来作为第二个卷积层的输入，在每一层嵌入之后，可以得到更高一层的相互作用的表征。考虑到分子中的量子作用力可以被转换为多个级别，如仅基于原子的，两两原子之间的，以及每三个原子之间等等，因此通过多层卷积神经网络，得到分子各级的表征优选具体为：

为卷积层第I+1层的边表征，

其中，h_e是用来更新边表示的，h_v是用来生成更高层的原子相互作用表示的。根据此多层级的建模，能够高效的保留分子的结构信息并描述其量子相互作用力。具体而言，在第一个相互作用层即第一卷积层中，输入的是预处理得到的原子表征a⁰，此表征代表了不同化学元素的原子的固有属性，在第一相互作用层中，模型给改表征加入了一阶邻居节点、边以及空间信息，则输出了a¹，a¹表示二级的相互作用，即每两个原子之间的相互作用表征。以类似的方式，可计算出a²表示三阶相互作用，即每三个原子之间的表征，以此类推，还可以得到a³、a⁴直到a^T，T代表相互作用层的个数，即卷积层的层数。

在本发明中，更新函数h_e优选具体为：

其中，η为超参数，用以控制前一层的边表示的影响，在本发明中优选为

为元素乘法，

为元素加法，W^ue为权重矩阵。通过这种方式，边表示通过前一层的原子表示来不断修正。

所述更新函数h_v优选具体为：

其中，σ为tanh激活函数，W^uv为权重矩阵，M^fa、M^fd与M^fe为全连接层，即M(x)＝Wx+b。通过该函数，模型实行了卷积操作以产生更高阶的原子表示，这里距离张量用以控制相互作用影响的强度，而边嵌入提供了无法被映射到节点上的额外信息。

本发明采用多层级的结构能够给模型带来可迁移的优点。由于传入第一级相互作用层的原子表征和边嵌入仅仅和原子及边的种类有关而和特定的分子结构以及空间信息无关，因此，本发明得到的模型在原子表征和边嵌入中学到的化学领域的知识在分子系统中是通用的。接着，在本发明实例多层级的模型中，这些表征被用来生成更深层次的相互作用表征。虽然大分子和小分子在原子和边的分布上有不同，但是由于分子结构的局部性和可分解性，它们相互作用的方式是类似的。通过这些通用的表征和相似的相互作用机制，本发明提供的模型能够以较高的精度推断出高阶的相互作用表征。因此，本发明提供的模型能够将从小分子数据上学习到的知识迁移到大分子的属性预测上去。此外，另一种迁移知识的方法是，利用小分子数据来学习原子和边的表征，并用学习到的值作为另一个模型的初始化来取代上述的随机初始化方法。

另一方面，由于本发明提供的模型中嵌入层的操作赋予了表征以平移不变性和旋转不变性。加上模型在相互作用层的上述操作是基于元素的，因此，模型的预测结果和原子的顺序无关。这种次序不变性增强了模型的泛化性。

在得到分子各级的表征之后，将其进行组合，优选按照下式进行：

其中，

为第i个原子第k层的表征，∩表示对表征的拼接。

通过分子各级的表征组合，得到模型，优选具体为：

其中，

为预测值，σ′为softplus激活函数，

为应用在原子构成表征上的权重矩阵；

为应用在原子构成表征上的全连接层；

为应用在边表征上的权重矩阵；

为应用在边表征上的全连接层。

由于分子的属性具有可加性和局部性，模型能够通过对每个原子各自进行预测最终加和来获得预测值。在本发明中，模型的前一项表示映射到每个原子的量子相互作用，而额外的和边相关的信息由最后一项提供。由于和原子相关的相互作用占了分子内相互作用的大部分，而与边相关的部分很少，因此，当分子较小时，可以忽略模型公式中的后一项。

为提高模型预测的准确性，优选得到模型后，用已有的分子属性数据训练模型中的参数。在模型的训练中，优选使用均方根误差作为损失函数，更优选具体为：

此处

为预测值，y为真实值。

按照本发明本发明，优选使用小批次随机梯度下降算法来更新模型参数；所述小批次随机梯度下降算法为本领域技术人员熟知的算法即可，并无特殊的限制，本发明中优选算法中使用的优化器为自适应力矩优化器(Adam optimizer)。在本发明提供的一些实施例中，小批量的数值优选为被设定64，而初始学习率为10^-5；在本发明提供的一些实施例中，处理时可以根据数值设定一个阈值，超过这个阈值的距离都用掩码为0，忽略这对距离对应原子的相互作用，由此来减少模型的复杂度并增强鲁棒性。

在本发明提供的一些实施例中，在训练时，使用80％的数据作为训练集，使用10％的数据作为验证集，使用剩余10％的数据作为测试集。验证集用以进行调节超参数，确定好超参数后，如果损失函数连续十次全量数据迭代后都没有变小，则停止训练，并选择在测试集上表现最好的模型。需要注意的是，对于分子的不同属性，需要单独训练不同的模型可以取得比联合训练更好的效果。

本发明依照上述方案，可以充分利用已有数据，学习到分子系统内多层级相互作用的表征，并用以高效地预测未知分子的属性，从而能加速材料学，医学等领域上特性属性分子的搜寻。

通过本发明提供的预测方法能够预测的属性包括但不限于：U₀(温度为0K时分子内能量)、U(温度为298.15K时分子内能量)、H(温度为298.15K时分子热焓)、G(温度为298.15K时分子自由能)、C_v(温度为298.15K时分子热容量)、zpve(基本振动能)、R²(电子空间广度)、E_HOMO(最高占据分子轨道能量)、E_LUMO(最低未占分子轨道)、μ(偶极矩)与α(等向极化率)

为了进一步说明本发明，以下结合实施例对本发明提供的一种基于人工神经网络的分子属性预测方法进行详细描述。

以下实施例中所用的试剂均为市售。

实施例1

以下面三个分子的U₀预测为例，它们都来自国际上常用的QM9数据集，单位为eV。我们以QM9数据集作为训练集，训练上方式如上所述，然后利用训练后得到的模型对以下分子作预测。衡量误差的标准采取绝对误差，即预测值和真实值差的绝对值。

(1)CH₄的真实值为-17.1717476eV，预测值为-17.1681695eV，误差为0.0035781eV。(2)NH₃的真实值为-12.0055513eV，预测值为-12.0187658eV，误差为0.0132145eV。

(3)HOH的真实值为-9.2401279eV，预测值为-9.2371538eV，误差为0.0029741eV。

并且在下表中给出了本方法在整个QM9数据集上各个属性预测的平均误差。