CN113299354B

CN113299354B - 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法

Info

Publication number: CN113299354B
Application number: CN202110528940.8A
Authority: CN
Inventors: 杨跃东; 陈健文; 卢宇彤
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-06-30
Anticipated expiration: 2041-05-14
Also published as: CN113299354A

Abstract

本发明提供一种基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法，包括以下步骤：S1：将药物小分子转化为包括有n个节点和m条边的有向图G＝(ν,ε)，从而将药物小分子性质预测归类为有监督的图学习任务；S2：构建Transformer模型，所述的Transformer模型包括位置层、编码层、生成器层；所述的位置层用于获取原子与原子之间的位置信息；所述的编码层用于学习小分子的空间结构信息；所述的生成器层用于对药物小分子性质的预测；S3：将有向图G＝(ν,ε)输入Transformer模型进行小分子性质预测。本发明能够在Transformer框架中很好的结合MPNN框架的点边交互方式，既可以通过MPNN学习到局部的化学结构信息，也能通过Transformer捕捉到远程依赖信息。

Description

基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法

技术领域

本发明涉及生物信息技术领域，更具体地，涉及一种基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法。

背景技术

如何根据药物分子结构预测其具有的性质一直是药物领域内的挑战性问题之一。解决这个问题的一个关键步骤是如何学习到药物分子的准确表示形式，抽象成数学问题即，给定一个分子m以及对应的性质y，我们需要先学习到分子的一种表示可供计算机识别的形式h＝g(m)，然后再根据这个表示形式设计一种算法得到对应的性质预测，即y＝f(h)。

早期的预测方法如定量构效关系(Quantitative structure–activityrelationship, QSAR)主要是先根据专家们给出的一些物理上或者化学上的描述符以及分子指纹作为分子的特征，从这些特征中学习到分子的固定表示形式[Rogers,D.and M.Hahn,Extended-connectivity fingerprints.Journal of chemical information andmodeling,2010.50(5):p.742-754]。然而这些基于描述符的方法需要满足一个假设，即分子所有的性质都完全与这些给定的描述符相关。这在一定程度上限制了模型的拓展性，即不同结构的分子有可能具有比较接近的描述符。此外这种方法也不符合结构决定性质的药物分子设计思路。

从图论的角度出发，分子的结构能够被抽象成一个带有节点标注和边标注的拓扑图，其中分子的每个原子作为节点，每根化学键作为边。节点的标注既可以使用化学上的特征如元素类型、电荷量、相对原子质量等，也可以使用图论上的特征如邻居数、度数等。边的标注可以使用化学键的类型、立体异构、杂化类型等信息。进一步地，如果能够得到经过优化后能量较低的分子构象，我们还可以使用如原子三维坐标在内的空间信息作为特征。近些年来，随着深度学习技术特别是消息传递框架(Message Passing Neural Network,MPNN)的发展，越来越多的研究者们开始使用MPNN来提取分子高维结构特征从而获得更为准确的表示。

一般来说，通过MPNN框架学习分子表示方法的步骤可以总结如下：

(1)初始化步骤，即将节点初始化为给定的原子特征，将边初始化为相应的边特征。

(2)消息传递步骤，即每个节点根据构建的边向它的邻居节点传递消息，循环迭代几轮，于是每个节点都可以得到相隔较远的节点信息，从而感知到分子的结构信息。

(3)读出步骤：根据(2)中得到的最终节点表示需要转化为一个具有固定结构的图向量表示。

根据这3个步骤，目前已经有许多基于MPNN的方法被提出并成功应用到分子性质预测任务上面，如文献1[Duvenaud,D.,et al.,Convolutional networks on graphs forlearning molecular fingerprints.arXiv preprint arXiv:1509.09292,2015]、文献2[Coley,C.W.,et al.,Convolutional embedding of attributed molecular graphs forphysical property prediction.Journal of chemical information and modeling,2017. 57(8):p.1757-1772]。尽管这些基于MPNN的方法已经获得比较优异的性能，但它们仍然存在着一些问题。

首先，图卷积操作每次只能将节点邻居信息聚合到自身节点中，然后通过迭代的方式使得每个节点可以获取到相隔较远的节点的信息，但有研究者发现当通过堆叠MPNN的方式进行学习的时候会遇到梯度消失的问题[Zhang,J.and L. Meng,Gresnet:Graphresidual network for reviving deep gnns from suspended animation.arXivpreprint arXiv:1909.05729,2019]，模型没有办法学习到分子的远程依赖，从而也就无法学习到如分子内氢键或者远程耦合的信息。

其次，主流的MPNN框架及其变体都集中在如何获取有意义的节点向量，而忽视了边向量的作用[Shang,C.,et al.,Edge attention-based multi-relational graphconvolutional networks.arXiv e-prints,2018:p.arXiv:1802.04944]。

最后，通过MPNN框架获得的节点向量表示在空间中会倾向于相同且难以区分，这在MPNN领域被称为发生了过平滑现象，这也与分子原有的结构不相符[9]。这些因素都限制了MPNN框架在分子表示学习中的应用。

为了解决上述提到的问题，研究者们已经从不同的角度提出许多方法。一方面，随着Transformer框架在深度学习领域的火热，一些研究者也将Transformer 框架用在了分子表示学习中[Maziarka,

et al.,Molecule attention transformer. arXivpreprint arXiv:2002.08264,2020]，它们可以认为是图注意力网络(Graph AttentionNetwork,GAT)[/>

P.,et al.,Graph attention networks.arXiv preprintarXiv:1710.10903,2017]的变体，不同之处在于它们直接关注任意两个原子之间的消息传递，这使得模型可以学习到分子的长程依赖信息，但却忽略了分子的实际连接信息，使得消息传递发生了偏差。另外一方面，原有的MPNN框架是基于无向图的表示学习，有研究者将其改进为基于有向图的表示学习[Yang, K.,et al.,Analyzing learned molecularrepresentations for property prediction. Journal of chemical information andmodeling,2019.59(8):p.3370-3388]，并在其中增强了点边交互，减少了不必要的消息循环[Song,Y.,et al.Communicative representation learning on attributedmolecular graphs.in IJCAI.2020]，但它们依旧不能处理长程依赖信息。

发明内容

本发明为克服上述现有技术中存在的不足，提供了一种基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法，其能够在Transformer框架中很好的结合MPNN框架的点边交互方式，既可以通过MPNN学习到局部的化学结构信息，也能通过Transformer捕捉到远程依赖信息。

为解决上述技术问题，本发明的技术方案如下：

一种基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法，所述的方法包括以下步骤：

S1：将药物小分子转化为包括有n个节点和m条边的有向图

从而将药物小分子性质预测归类为有监督的图学习任务；

S2：构建Transformer模型，所述的Transformer模型包括位置层、编码层、生成器层；所述的位置层用于获取原子与原子之间的位置信息；所述的编码层用于学习小分子的空间结构信息；所述的生成器层用于对药物小分子性质的预测；

S3：将有向图

输入Transformer模型进行小分子性质预测。

优选地，所述的位置层具体处理如下：

采用基于可学习嵌入的方式加入位置信息，即对于每个原子训练一个可学习的权重向量用以表示其位置信息，随后再与输入的原子特征矩阵直接进行相加，得到第一个隐藏层，写成公式如下：

h(x_u)＝node_embedding(x_u)+pos_u,

或者写成矩阵的形式

h(X)＝node_embedding(X)+pos(X)

其中，node_embedding(·)将初始的原子特征矩阵映射到需要的维度；x_u表示每个节点u，

f_node表示特征向量的维度；X表示分子图的节点特征矩阵，

pos_u表示节点u的位置向量。

进一步地，通过加入每条边对应的起始节点向量的形式区别相同原子的两条相对边，写成公式如下：

h(e_uv)＝edge_embedding(e_uv)+h(x_u)

或者写成矩阵的形式：

h(E)＝edge_embedding(E)+h(X)

其中，edge_embedding(·)将初始的边特征矩阵映射到需要的维度；e_uv表示节点u到节点v的有向边，

f_edge表示特征向量的维度；E表示边特征矩阵，

再进一步地，所述的编码层包括自注意力模块和前馈神经网络模块；

所述的自注意力模块，用于计算原子隐藏层矩阵中任意两个原子之间的注意力值，在经过归一化以后重新应用到原子矩阵中，使得每个原子以不同的加权和学习到其他原子的消息，进一步学习到整个分子结构信息；

所述的前馈神经网络模块，用于增加非线性组分，提高学习能力。

再进一步地，采用增强交互型MPNN神经网络重新定义自注意力模块，实现将自注意力模块转为消息交互模块；所述的消息交互模块的计算过程如下：

S1：初始化在位置层中得到原子隐藏矩阵h(X)和边隐藏层矩阵h(E)；

S2：消息传递步骤：

1)消息产生子步骤：将原来的矩阵K的数据来源修改为h(E)，即

式中，W^Q,W^K,W^V均为可学习的权重矩阵；Q,K,V均表示矩阵；

2)消息选择子步骤：

其中，σ(·)指代softmax函数；M_o表示节点与其出向边交互的消息矩阵；M_i表示节点与其入向边交互的消息矩阵；M_d表示节点与自身交互的消息矩阵；M表示消息交互矩阵；

3)消息更新子步骤：

式中，V表示结点隐藏层矩阵。

再进一步地，在步骤1)之后，步骤2)之前，内部实现机制先产生全消息交互矩阵T作为中间变量：

T＝matmul(Q,K.tranpose(-2,-1))

或者表示为：

T[i,u,v]＝matmul(q_i,k_uv)

其中，tranpose表示矩阵的转置、matmul表示矩阵乘法、q_i表示矩阵Q中节点i的隐藏向量、k_uv表示矩阵K中节点u到节点v的有向边的隐藏向量。

再进一步地，将自注意力模块扩展成多头自注意力模块，表达式如下：

其中，Cat(·)指将l个头全部拼接起来；

W_i ^V表示第i个头的可学习的映射权重矩阵。

再进一步地，在所述的Transformer模型中堆叠多个编码层，上一个编码层计算的隐藏层矩阵h(X)和h(E)需要作为下一个编码层的输入；为了减缓因为网络过深带来的梯度消失问题，CoMPT加入了残差机制；

采用前置层归一化方法对Transformer模型进行训练，写成公式如下：

其中，EL(·)即单个编码层；PN(·)表示前置层归一化函数；k为编码层的索引。

再进一步地，

对消息传递步骤进行改造，具体来说，产生的消息交互矩阵M，它的每一个元素看作是从一个节点到另外一个节点所传递的消息，并且拓扑连接矩阵A中的每一个元素提供了这两个节点之间的最短路径距离，因此根据最短路径距离对需要传递的消息乘上衰减系数，即：

M[u,v]＝M[u,v]e^-αA[u,v]

其中，M[u,v]表示从节点u传递到节点v的消息；A[u,v]表示节点u到节点v的最短路径距离；α∈[0,1]是一个可学习的参数，用来控制消息衰减的程度。

再进一步地，所述的生成器层包括采用门控循环单元作为读出函数、多层感知机；

其中，所述的读出函数，用于将每个分子中学习好的原子表示转换成一个固定的向量表示；

所述的多层感知机，用于将固定的向量表示转化成最后预测的数值；

所述的读出函数，写成公式如下形式：

即将最后的原子隐藏层矩阵经过一个GRU单元并进行求和，得到最终图G的隐藏层表示h(G)，通过多层感知机将该隐藏层表示转化为最后的性质预测结果。

与现有技术相比，本发明技术方案的有益效果是：

本发明能够在Transformer框架中很好的结合MPNN框架的点边交互方式，使得模型既可以通过MPNN学习到局部的化学结构信息，也能通过Transformer 捕捉到远程依赖信息。此外，针对MPNN框架中提到的过平滑问题，设计了消息扩散机制用以替换消息传递机制，它可以有效的减缓过平滑现象。实验结果表明在分子性质预测任务上，本发明能够超过目前最好的模型大约4％的性能。

附图说明

图1是本实施例提供的基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法的步骤流程图。

图2是本实施例三个相似分子在不同模型下的t-SNE可视化结果。

图3是本实施例甲酰基苯甲酸的实际化学位移值与预测化学位移值。

图4是本实施例所述的方法(CoMPT)与其他常见框架对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，仅用于示例性说明，不能理解为对本专利的限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法(CoMPT)，所述的方法包括以下步骤：

S1：将药物小分子转化为包括有n个节点和m条边的有向图

从而将药物小分子性质预测归类为有监督的图学习任务；

S3：将有向图

输入Transformer模型进行小分子性质预测。

在一个具体的实施例中，可以将药物小分子性质预测可以归类为有监督的图学习任务，根据标签的不同可以分为如下2大类4小类任务：

(1)图回归/分类任务，即给定分子图集合{G₁,G₂,…,G_N}以及它们对应的标签{y₁,y₂,…,y_N}，通过建立一个模型来预测不在集合内的分子图对应的标签。

(2)节点回归/分类任务，即对于分子图的每个结点v都具有一个对应的标签 y_v，通过建立一个模型来预测未知分子图中的节点的标签。

在一个具体的实施例中，所述的Transformer模型包括位置层、编码层、生成器层；位置层(Position Encoding Layer)，编码层(Encoder Layer)以及生成器层(GenerationLayer)。所述的位置层为整个Transformer模型增加了原子的相对位置信息。所述的编码层包括有自注意力模块(Multi-head Self-attention)和前馈神经网络模块(FeedForward)。通过堆叠多个编码层，Transformer模型就可以准确的学习到给定小分子的空间结构信息。所述的生成器层主要是用于对目标性质的预测，在工程中可以直接使用多层感知机(Multilayer perceptron)实现。下面将逐一详细介绍每个层的实现细节以及CoMPT模型对它的改进。

在一个具体的实施例中，所述的位置层在整个Transformer模型中提供了原子与原子之间的位置信息。由于在编码层中并没有包含位置信息，即在分子中每个原子在不同的位置对于Transformer是没有任何区别的，这与实际情况不符。本实施例采用一种基于可学习嵌入的方式加入了位置信息，即对于每个原子，训练一个可学习的权重向量用以表示其位置信息，随后再与输入的原子特征矩阵直接进行相加，得到第一个隐藏层，写成公式如下：

h(x_u)＝node_embedding(x_u)+pos_u,

或者写成矩阵的形式

h(X)＝node_embedding(X)+pos(X)

f_node表示特征向量的维度；X表示分子图的节点特征矩阵，

pos_u表示节点u的位置向量。

此外，对于每条边，如果直接使用原始边特征向量则会导致无法辨别相同原子的两条相对边，本实施例通过加入每条边对应的起始节点向量的形式区别相同原子的两条相对边，写成公式如下：

h(e_uv)＝edge_embedding(e_uv)+h(x_u)

或者写成矩阵的形式

h(E)＝edge_embedding(E)+h(X)

f_edge表示特征向量的维度；E表示边特征矩阵，

为了计算方便，后续统一使用相同的维度f进行后续编码层和生成器层的迭代。

在一个具体的实施例中，所述的编码层包括自注意力模块、前馈神经网络模块，其中前馈神经网络模块是为了给模型增加更多的非线性组分，提高模型的学习能力。所述的自注意力模块则计算原子隐藏层矩阵中任意两个原子之间的注意力值，在经过归一化以后重新应用到原子矩阵中，使得每个原子以不同的加权和学习到其他原子的消息，进一步学习到整个分子结构信息。具体来说，利用位置层中得到的原子隐藏层矩阵h(X)作为输入，首先计算3个矩阵Q,K,V：

[Q,K,V]＝h(X)[W^Q,W^K,W^V]

其中，W^Q,W^K,W^V均为可学习的权重矩阵，接下来计算注意力得分并更新到原子隐藏层矩阵中：

由此，完成自注意力模块的计算，得到新的h′(X)输入到前馈神经网络模块中。

在一个具体的实施例中，采用增强交互型MPNN神经网络重新定义自注意力模块，实现将自注意力模块转为消息交互模块；简单来说，本实施例对编码层的改进集中在将自注意力模块变为消息交互模块。为了理解设计思路，我们使用MPNN中的术语重新描述自注意力模块的两个计算过程：

(1)初始化步骤：在所述的位置层中已经得到了原子隐藏层矩阵h(X)。

(2)消息传递步骤：编码层在这一步中细分为2个子步骤。

1)消息产生子步骤：

[Q,K,V]＝h(X)[W^Q,W^K,W^V]

2)消息更新子步骤：

这启发我们，如果可以将边隐藏层矩阵h(E)合理的应用到消息传递步骤中，那么就可以在Transformer模型中嵌入MPNN的计算过程。

所述的消息交互模块的计算过程如下：

S2：消息传递步骤：

1)消息产生子步骤：将原来的矩阵K的数据来源修改为h(E)，即

式中，W^Q,W^K,W^V均为可学习的权重矩阵；Q,K,V均表示矩阵；

2)消息选择子步骤：

3)消息更新子步骤：

式中，V表示结点隐藏层矩阵。

由此，完成消息交互模块的全部计算，值得注意的是，本实施例沿用了矩阵乘法作为原子隐藏层矩阵h(X)的更新，使用元素乘作为边隐藏层矩阵的更新。

上述步骤是在工程上的具体实现，但在方法原理上与自注意力模块的计算原理完全相同。具体来说，在步骤1)之后，步骤2)之前，内部实现机制先产生了全消息交互矩阵T作为中间变量：

T＝matmul(Q,K.tranpose(-2,-1))

或者使用更为直观的元素的形式

T[i,u,v]＝matmul(q_i,k_uv)

可看出，全消息交互矩阵T记录的是任意一个节点i与任意一条有向边(u,v) 之间的交互消息，但在分子图里面，不是所有的节点和边之间的交互消息都是有意义的，因此这里还需要进行一个消息选择过程，我们这里选择了3种类型的消息，分别为①节点与其出向边交互的消息矩阵M_o；②节点与其入向边交互的消息矩阵M_i；②节点与自身交互的消息矩阵M_d。利用einsum函数和diag函数可以直接从矩阵Q,K得到3个矩阵M_o,M_i,M_d。

在一个具体的实施例中，将Transformer模型中自注意力模块扩展成多头自注意力模块，写成公式的形式即

其中，Cat(·)指将l个头全部拼接起来，

W_i ^V表示第i个头的可学习的映射权重矩阵。

在一个具体的实施例中，以上自注意力模块的所有计算均是在单个编码层中完成的，而本实施例需要堆叠多个编码层，将上一个编码层计算的隐藏层矩阵 h(X)和h(E)作为下一个编码层的输入，为了减缓因为网络过深带来的梯度消失问题，本实施例加入了残差机制，所述的残差机制即将上一个编码层计算的隐藏层矩阵以及经过本编码层计算后的输出进行求和(也就是下面公式中的h_k(X))。另外为了整个网络的稳定训练，本实施例采用前置层归一化(Post LN)技术，写成公式如下：

过度平滑性的问题是限制MPNN框架准确的学习小分子表示的因素之一，它使得小分子中每个原子的表示趋近于一致。针对这个问题通常有两种解决方案，第一种是减少消息的过度传递，另外一种则是增强节点自身的特征向量的权重。本实施例所述的Transformer模型的自注意力模块已经具有第二种方法的功能，本实施例改造后的消息交互模块由于计算原理相同，故依旧保持这个功能。因此还需要对消息交互模块中的消息传递步骤进行改造。具体来说，产生的消息交互矩阵M，它的每一个元素可以看作是从一个节点到另外一个节点所传递的消息，并且拓扑连接矩阵A中的每一个元素提供了这两个节点之间的最短路径距离，因此可以根据最短路径距离对需要传递的消息乘上衰减系数，即：

M[u,v]＝M[u,v]e^-αA[u,v],

其中，M[u,v]表示从节点u传递到节点v的消息；A[u,v]表示节点u到节点v的最短路径距离；α∈[0,1]是一个可学习的参数，用来控制消息衰减的程度。根据这个公式可以看到，随着节点之间距离的增加，待传递的消息在一开始会迅速减小，随后逐步变得平稳。通过这种方法我们就可以减缓整个消息传递过程，从而减缓了过渡平滑性。

在一个具体的实施例中，所述的生成器层包含有2个部分，第一个部分是读出函数(Readout)，用于将每个分子中学习好的原子表示转换成一个固定的向量表示；第二个部分是多层感知机，用于将这个固定的表示转化成最后预测的数值。本实施例采用门控循环单元(Gated Recurrent Unit,GRU)[20]作为读出函数，写成公式如下形式：

即将最后的原子隐藏层矩阵经过一个GRU单元并进行求和，得到最终图G的隐藏层表示h(G)，生成器层的第二部分将该隐藏层表示转化为最后的性质预测结果。

为了描述清楚本发明的益处，采用本实施例所述的方法在9个小分子公共数据集上进行了测试，下面将依次介绍这些数据集以及测试方法。

目前对于小分子性质预测任务，最为公认的数据集来源于[Wu,Z.,et al.,MoleculeNet:a benchmark for molecular machine learning.Chemical science,2018.9(2):p.513-530]中收集并报道的4大类共17个数据集，均为分子图性质的任务。我们使用其中的7个数据集，有4个是图分类问题数据集，度量方式为接受者操作特征曲线下与坐标轴围成的面积(The area under receiver operating characteristic curve,ROC-AUC)，剩下3个是图回归问题数据集，度量方式为均方根误差(Root mean squared error,RMSE)。对于分子原子性质的任务，我们使用了[Jonas,E.and S.Kuhn,Rapid prediction of NMRspectral properties with quantified uncertainty. Journal of cheminformatics,2019.11(1):p.1-7]中收集的核磁共振氢谱和碳谱2个数据集，度量方式为平均绝对值误差(Mean absolute error,MAE)，所有数据集的基本情况统计如表1：

表1.数据集统计

下面再介绍作为模型初始输入使用到的特征。它主要包括3个部分，即原子特征，边特征以及拓扑连接矩阵，其中拓扑连接矩阵表示分子中任意两个原子之间沿着化学键相隔的最短路径距离，如表2、表3所示：

表2.原子特征

表3.化学键特征

对于分子图性质的任务，我们将每个数据集使用骨架划分方式(ScaffoldSplitting)，并按照0.8/0.1/0.1的比率划分为训练，验证和测试集。再通过不同的随机种子重复5次实验，取度量方式的平均值和标准差作为最后的衡量结果。对比的方法主要来自于[Wu,Z.,et al.,MoleculeNet:a benchmark for molecular machinelearning.Chemical science,2018.9(2):p.513-530]中已经展示的方法，主要包括TF_Robust，GCN，Weave，SchNet，N-Gram以及AttentiveFP，为了凸显本实施例(CoMPT)结合了MPNN与Transformer的优点，我们还分别对比了一系列基于MPNN和Transformer的方法。需要指出的是，在对比过程中，我们均报道没有使用预训练方式的数值。

对于分子原子性质的任务，我们对比的是已经报道出来的3种方法，它们分别是基于高维邻居信息的HOSE方法，基于GCN的方法以及它改进过后的 MPNN方法。在划分方式上，统一使用随机划分，比率为0.8/0.2的方式划分为训练集/测试集，再随机从训练集中挑选5％的数据作为验证集，同时为了提升模型的性能，我们使用梯度搜索的方式调整模型所有的超参数。

如表4中展示了我们得到的在图性质预测任务上的结果，其中具有灰色阴影单元格是之前的方法中性能最好的结果，加粗的单元格是本实施例所述的方法 CoMPT给出的最佳性能结果。从这份表格中可以给出如下几个观察：(1)在大部分数据集上，基于MPNN框架和Transformer框架的模型性能均优于基于GNN 框架的模型，CoMPT结合了这两者的优势，在6/7的数据集上取得了最好的结果。其中，相较于之前最好的MPNN类方法CMPNN以及Transformer类方法 GROVER，CoMPT的平均性能提升分别达到了3.4％(分类任务上提升2.0％，回归任务上提升3.4％)和4.7％(分类任务上提升2.7％，回归任务上提升4.7％)，这表明了CoMPT在学习小分子的表示上的优异性。(2)基于MPNN框架的模型性能要稍优于基于Transformer框架的模型，这表明点边信息的交互对于模型表示学习的重要性要大于邻接矩阵或者三维距离矩阵。(3)在小数据集如FreeSolv(仅包含642个分子)上CoMPT相较于之前最优的方法要提升6.6％的性能提升，表明它可以在小数据集上取得较好的性能。

表4.图性质预测任务结果

表5中展示得到的在分子原子性质预测任务上的结果，我们更换了随机种子并进行了5次独立重复实验，然后报道了它们的平均值和标准差作为最后的结果，可以看到，在氢谱数据集上取得了0.214的MAE，在碳谱上取得了1.321的MAE，相较于之前最好的方法的错误率均有所下降，这表明CoMPT可以准确的预测未知分子的化学位移值。

表5.原子性质预测结果

根据上面的分析可知，浅层的MPNN框架不能够很好的捕获分子当中原子的相对位置信息，但深层的MPNN框架会使得小分子的原子表示趋近于一致，使得它们不能得以区分，即发生过平滑现象。为了阐述清楚我们将MPNN模型嵌入到Transformer模型是能够一定程度上减缓过平滑现象，我们使用了t分布随机邻居嵌入(t-distributed stochasticneighbor embedding,t-SNE)可视化本实施例所的方法经过训练以后得到的分子中所有原子的嵌入表示。我们选择了3个非常相似的小分子，它们具有相同的骨架(都拥有4个环)，但在边缘官能团的情况不一样。理想状况下，3个分子的可视化结果呈现的分布在整体上大致相似(骨架)，但在个别位置上会有不一样的情况(边缘官能团)。

图2展示了这3个小分子在不同模型下的所有原子的可视化结果。MPNN 模型的结果显然表明已经发生了过平滑现象，每个分子的所有原子的表示倾向于聚成一团，变得不可区分。CoMPT模型则能够很好的分散所有原子的嵌入表示。此外，在使用消息扩散机制取代消息传递机制以后，CoMPT能够更准确的学习到相似分子的相似分布情况。有趣的是，CoMPT能够针对相同的官能团学习到不同的表示，这表明了官能团存在的化学环境的差异，与实际情况相符。

图3中展示3-甲酰基苯甲酸的核磁共振氢谱中所有氢的实际化学位移值以及本实施例所述的方法CoMPT给出的所有氢的预测化学位移值。它包含有6个氢原子，化学位移值在4-14ppm之间。通过比较我们可以发现CoMPT能够很好的预测未知化合物的所有氢的化学位移值。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法，其特征在于：所述的方法包括以下步骤：

S1：将药物小分子转化为包括有n个节点和m条边的有向图

从而将药物小分子性质预测归类为有监督的图学习任务；

S3：将有向图

输入Transformer模型进行小分子性质预测；

所述的位置层具体处理如下：

h(x_u)＝node_embedding(x_u)+pos_u,

或者写成矩阵的形式

h(X)＝node_embedding(X)+pos(X)

f_node表示特征向量的维度；X表示分子图的节点特征矩阵，/>

pos_u表示节点u的位置向量；

所述的编码层包括自注意力模块和前馈神经网络模块；

所述的前馈神经网络模块，用于增加非线性组分，提高学习能力；

所述的生成器层包括采用门控循环单元作为读出函数、多层感知机；

所述的读出函数，写成公式如下形式：

2.根据权利要求1所述的基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法，其特征在于：通过加入每条边对应的起始节点向量的形式区别相同原子的两条相对边，写成公式如下：

h(e_uv)＝edge_embedding(e_uv)+h(x_u)

或者写成矩阵的形式：

h(E)＝edge_embedding(E)+h(X)

f_edge表示特征向量的维度；E表示边特征矩阵，/>

3.根据权利要求1所述的基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法，其特征在于：采用增强交互型MPNN神经网络重新定义自注意力模块，实现将自注意力模块转为消息交互模块；所述的消息交互模块的计算过程如下：

S2：消息传递步骤：

1)消息产生子步骤：将原来的矩阵K的数据来源修改为h(E)，即

式中，W^Q,W^K,W^V均为可学习的权重矩阵；Q,K,V均表示矩阵；

2)消息选择子步骤：

3)消息更新子步骤：

式中，V表示结点隐藏层矩阵。

4.根据权利要求3所述的基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法，其特征在于：在步骤1)之后，步骤2)之前，内部实现机制先产生全消息交互矩阵T作为中间变量：

T＝matmul(Q,K.tranpose(-2,-1))

或者表示为：

T[i,u,v]＝matmul(q_i,k_uv)

5.根据权利要求4所述的基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法，其特征在于：将自注意力模块扩展成多头自注意力模块，表达式如下：

其中，Cat(·)指将l个头全部拼接起来；W_i ^Q,W_i ^K,W_i ^V表示第i个头的可学习的映射权重矩阵。

6.根据权利要求5所述的基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法，其特征在于：在所述的Transformer模型中堆叠多个编码层，上一个编码层计算的隐藏层矩阵h(X)和h(E)需要作为下一个编码层的输入；为了减缓因为网络过深带来的梯度消失问题，CoMPT加入了残差机制；

7.根据权利要求3所述的基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法，其特征在于：

M[u,v]＝M[u,v]e^-αA[u,v]