CN116705195B

CN116705195B - 基于矢量量化的图神经网络的药物性质预测方法和装置

Info

Publication number: CN116705195B
Application number: CN202310673599.4A
Authority: CN
Inventors: 郑鹏飞; 吴春琦; 陈红阳
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2024-03-26
Anticipated expiration: 2043-06-07
Also published as: CN116705195A

Abstract

本发明公开了一种基于矢量量化的图神经网络的药物性质预测方法，包括：获取药物分子原始图；构建图编码器，将药物分子原始图编码为隐变量特征；构建码本；计算各节点对应的隐变量特征与码本中各个向量的欧式距离，利用最近邻向量替换隐变量特征，得到矢量化的隐变量特征；构建图解码器，对矢量化的隐变量特征进行解码，得到药物分子增强图；构建药物分子原始图‑增强图实例对，将其对输入至药物分子图对比网络中，得到药物分子图实例对特征；构建损失函数，对药物分子增强图和药物分子图对比网络进行协同训练；将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测，得到药物性质预测结果。

Description

基于矢量量化的图神经网络的药物性质预测方法和装置

技术领域

本发明主要涉及药物性质预测领域，具体涉及一种基于矢量量化的图神经网络的药物性质预测方法和装置。

背景技术

得益于图神经网络的快速发展及药物分子天然的图结构(以原子为节点，以化学键为边)，以图数据为驱动的药物分子性质预测是加速药物研发的必然趋势。通过药物分子性质预测，可以对候选药物进行筛选，极大的减少药物研发的试错成本，缩短整个药物研发周期。图神经网络通过信息聚合机制和信息传递机制，对药物分子图中的每个节点进行特征更新，并最终聚合成整个药物分子图特征，从而进行药物分子性质预测。然而，当下的图神经网络进行药物分子性质预测时，存在以下的局限性：

(1)药物分子的真实性质数据量少，通常需要湿实验或由丰富药理学经验的专家标注获得，成本太高，这使得传统的有监督图神经网络效果不佳。

(2)现有的无监督图神经网络(如图对比网络)，往往需要引入人为设计的训练策略，这使得无监督图神经网络的泛化能力差，对新的药物分子性质的预测准确率较低。

上述局限性使得图神经网络在药物分子性质预测上效果不佳，是以图数据为驱动的药物分子性质预测的巨大挑战。

因此，亟需提出一种药物性质预测方法来克服药物真实性质数据量少的问题，同时获取更准确的药物分子图表征，提高药物分子性质的预测准确率。

发明内容

针对现有技术不足，本发明提供了一种基于矢量量化的图神经网络的药物性质预测方法和装置。

根据本发明实施例的第一方面，提供了一种基于矢量量化的图神经网络的药物性质预测方法，所述方法包括：

获取药物分子原始图；

构建图编码器；

通过图编码器将药物分子原始图编码为隐变量特征；构建码本；计算药物分子原始图中各节点对应的隐变量特征与码本中各个向量的欧式距离，利用码本中的最近邻向量替换隐变量特征，得到矢量化的隐变量特征；构建图解码器，通过图解码器对矢量化的隐变量特征进行解码，重构得到药物分子增强图；

基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对；

构建药物分子图对比网络，将药物分子原始图-增强图实例对输入至药物分子图对比网络中，得到药物分子图实例对特征；

计算药物分子原始图和药物分子增强图之间的第一损失函数，通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数，基于第一损失函数和第二损失函数对药物分子增强图和药物分子图对比网络进行协同训练；

将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测，得到药物性质预测结果。

根据本发明实施例的第二方面，提供了一种基于矢量量化的图神经网络的药物性质预测装置，所述装置包括：存储模块、处理模块、预测模块；

存储模块包括：

药物分子原始图数据库，用于存储药物分子原始图；

药物分子增强图数据库，用于存储药物分子增强图；

处理模块包括：

药物分子原始图获取单元，用于从药物分子原始图数据库中或通过外部接口获取药物分子原始图；

药物分子增强图获取单元，用于通过图编码器将药物分子原始图编码为隐变量特征；构建码本；计算药物分子原始图中各节点对应的隐变量特征与码本中各个向量的欧式距离，利用码本中的最近邻向量替换隐变量特征，得到矢量化的隐变量特征；通过图解码器对矢量化的隐变量特征进行解码，重构得到药物分子增强图；

图实例对构建单元，基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对；

药物分子图对比网络单元，用于将药物分子原始图-增强图实例对转换为药物分子图实例对特征；

协同训练单元，计算药物分子原始图和药物分子增强图之间的第一损失函数，通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数，基于第一损失函数和第二损失函数对药物分子增强图和药物分子图对比网络进行协同训练；

预测模块，用于将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测，得到药物性质预测结果。

根据本发明实施例的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于矢量量化的图神经网络的药物性质预测方法。

根据本发明实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的基于矢量量化的图神经网络的药物性质预测方法。

与现有技术相比，本发明的有益效果是：本发明提供了一种基于矢量量化的图神经网络的药物性质预测方法和装置。通过图编码器和码本对药物分子原始图进行数据增强，得到药物分子增强图，避免了人为设计的图增强方式所造成的泛化能力差的问题，并在数据增强的过程中引入了码本来将药物分子原始图的隐变量特征矢量化，避免了后验坍塌问题。其中，药物分子图对比网络中的图编码器与构建药物分子图增强网络过程中将药物分子原始图编码为隐变量特征的图编码器采用了同一个图编码器，这样可以更充分的提取药物分子图中的结构信息和语义信息，提高药物性质的预测准确率。计算药物分子原始图和药物分子增强图之间的第一损失函数，通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数，将第一损失函数与第二损失函数之和作为整体损失函数对药物分子增强图和药物分子图对比网络进行协同训练，显著提高了药物分子图数据的特征提取效果，可以更好地对药物分子进行性质预测。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于矢量量化的图神经网络的药物性质预测方法的流程图；

图2为本发明实施例提供的药物分子增强图的示意图；

图3为本发明实施例提供的药物分子图对比网络的示意图；

图4为本发明实施例提供的基于矢量量化的图神经网络的药物性质预测装置的示意图；

图5为本发明实施例提供的一种电子设备的示意图。

具体实施例

下面根据附图详细说明本发明。但是应该理解，此处所描述的具体实施例仅用于解释本发明，并不用于限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明实施例提供了一种基于矢量量化的图神经网络的药物性质预测方法，

步骤S1，获取药物分子原始图。

进一步地，还包括：将药物分子原始图存储至药物分子原始图数据库中。

步骤S2，基于图同构网络构建图编码器。

进一步地，图同构网络的更新通过节点特征更新和边特征更新实现，表达式如下：

其中，节点特征更新方式如下：

其中，表示节点i在图同构网络中第k层的节点特征(/>表示节点i的初始特征)，MLP^r表示多层感知机，∈表示折扣系数，/>表示节点i在图同构网络中第k-1层的节点特征，

N(i)表示节点i的邻居节点集合，表示节点i和节点j之间的边在图同构网络中第k-1层的边特征(/>表示节点i和节点j之间的边的初始特征，可为空值)，K表示图同构网络层数，在本实例中，设置K＝3。

边特征更新方式如下：

其中，Sigmoid表示激活函数，"∥"表示Concat操作，和/>表示图同构网络参数。

步骤S3，通过图编码器将药物分子原始图编码为隐变量特征；构建码本；计算隐变量特征中各节点对应的隐变量子特征与码本中各个向量的欧式距离，利用码本中的最近邻向量替换隐变量子特征，得到矢量化的隐变量特征；构建图解码器，通过图解码器对矢量化的隐变量特征进行解码，重构得到药物分子增强图。

具体地，如图2所示，所述步骤S3具体包括以下子步骤：

步骤S301，通过图编码器将药物分子原始图G＝{V,E,H}编码为隐变量特征Z＝{z₁,z₂,…,z_i,…,z_N},Z∈R^N×d。

式中，V表示节点集合(节点为原子),E表示边集合(边为化学键),H表示初始特征(初始特征为原子特征),z_i表示各节点的隐变量特征，i＝1,2,…N，N表示节点数量，d表示隐变量的特征维度，在本实例中，设置d＝256。

需要说明的是，在对药物分子原始图进行编码的过程中，通过对药物分子原始图数据进行信息聚合、压缩，从而减少信息冗余，使得药物分子原始图映射到低维空间中。

步骤S302，构建码本，记为C＝{c₁,c₂,…,c_k}。

步骤S303，将隐变量特征Z＝{z₁,z₂,…,z_i,…,z_N}中各节点对应的隐变量子特征z_i与码本C＝{c₁,c₂,…,c_k}中各个向量的欧式距离，利用码本C中的最近邻向量替换隐变量子特征，得到矢量化的隐变量特征表达式如下：

其中，Quantize表示量化函数，∥·∥₂表示欧氏距离。

步骤S304，由全连接层和图重构层构建图解码器。

步骤S305，通过图解码器对矢量化的隐变量特征进行解码，依据矢量化的隐变量特征/>中的信息预测药物分子增强图G′中各个节点之间是否存在相应的边的概率重构得到药物分子增强图G′。表达式如下：

全连接层：

p(e_i,j)＝MLP(z_i)^T·MLP(z_j)

图重构层：

G_i ^′ _,j＝ε(p(e_i,j)-threshold)

其中，MLP(·)表示多层感知机，z_i表示隐变量特征中第i个节点对应的隐变量子特征，z_j表示隐变量特征中第j个节点对应的隐变量子特征，yhreshold表示图重构阈值，ε(t)表示单位阶跃函数，t＝p(e_i,j)-threshold。当ε(t)＝1时，节点i和节点j之间存在边；当ε(t)＝0时，节点i和节点j之间不存在边。

步骤S4，基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对；

获取药物分子原始图集合及其对应的药物分子增强图集合

对于药物分子原始图和药物分子增强图/>当i＝j时，构建成正原始图-增强图实例对；而当i≠j时，则构建成负原始图-增强图实例对。

对每个药物分子图G_i都有相应的原始图-增强图实例对，其相应的集合表示为当且仅当i＝j时，(G_i,G_j ^′)为图正例对。

步骤S5，构建药物分子图对比网络，将药物分子原始图-增强图实例对输入至药物分子图对比网络中，得到药物分子图实例对特征。

如图3所示，所述药物分子图对比网络包括图编码器和与其连接的信息映射层，其中，图编码器即步骤S2构建的图编码器。

将药物分子原始图-增强图实例对输入至图编码器中进行提取，得到药物分子原始图-增强图实例对的隐变量特征将隐变量特征输入至信息映射层中得到药物分子图实例对特征/>

表达式如下：

其中，N表示药物分子原始图-增强图实例对中对应的药物分子原始图中的节点数量，M表示药物分子原始图-增强图实例对中对应的药物分子增强图中的节点数量，i∈G_i表示药物分子原始图G_i中的所有节点i,j∈G_j ^′表示药物分子增强图G_j ^′中的所有节点j。

需要说明的是，药物分子图对比网络与构建药物分子图增强网络过程采用是同一个图编码器，可以更充分的提取药物分子图中的结构信息和语义信息，提高药物性质的预测准确率。

步骤S6，构建药物分子原始图G和药物分子增强图G′之间的第一损失函数，通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数，基于第一损失函数和第二损失函数对药物分子增强图G′和药物分子图对比网络进行协同训练。

具体地，所述步骤S6包括以下子步骤：

步骤S601，构建药物分子原始图G和药物分子增强图G′之间的第一损失函数L(G,G^′)，表达式如下：

式中，sg(·)表示停止反向传播，β表示超参数。具体来说，为图重构损失，作用在图编码器和图解码器上；/>表示矢量量化损失，用于更新码本C；为传递损失，用来约束图编码器的输出。

步骤S602，通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数/>

具体地，从步骤S5中得到药物分子图实例对特征并以此计算实例对内的相似性程度。对于药物分子原始图G_i，最大化与正实例G_i ^′之间的相似性程度，同时减少与其他负实例之间相似性，依据药物分子图实例对内的相似性程度构建损失函数

其中，药物分子图实例对之间的相似性通过余弦相似度来衡量，损失函数的计算方式如下：

式中，表示药物分子图正实例对特征之间的余弦相似度，表示药物分子图负实例对特征之间的余弦相似度，τ表示温度控制参数。具体地，/>可以表示为：

步骤S603，基于第一损失函数和第二损失函数对药物分子增强图G′和药物分子图对比网络进行协同训练。

协同训练的损失函数的表达式如下：

步骤S7，将药物分子图进行图特征编码后得到的图特征输入至训练好的图对比网络进行预测，得到药物性质预测结果。

表达式如下：

H_G＝g(f(G))

Pred＝Softmax(H_G*W+b)

式中，g表示信息映射函数，f表示图编码器，G表示药物分子图，H_G表示药物分子图特征，Softmax(·)表示激活函数，W和b表示训练好的图对比网络参数，Pred表示药物性质预测结果。

进一步地，所述药物性质预测结果包括药物生物性质预测结果(ADMET、毒性、副作用等)、药物物理化学性质预测结果(水溶性、极性表面积、生物利用度、辛醇溶解度、代谢稳定性等)和药物量子性质预测结果(原子坐标、能量和部分电荷)等。

如图4所示，本发明实施例还提供了一种基于矢量量化的图神经网络的药物性质预测装置，所述装置包括：存储模块、处理模块、预测模块；

存储模块包括：

药物分子原始图数据库，用于存储药物分子原始图；

药物分子增强图数据库，用于存储药物分子增强图；

处理模块包括：

特别地，该装置在处理模块的输入端设置有输入控制接口，与输入接口相连，用来控制输入；在预测模块的输出端设置有输出控制接口，与外部接口相连，用来控制输出。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于矢量量化的图神经网络的药物性质预测方法。如图5所示，为本发明实施例提供的基于矢量量化的图神经网络的药物性质预测方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于矢量量化的图神经网络的药物性质预测方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于矢量量化的图神经网络的药物性质预测方法，其特征在于，所述方法包括：

获取药物分子原始图；

构建图编码器；

构建药物分子图对比网络，所述药物分子图对比网络包括图编码器和与其连接的信息映射层，将药物分子原始图-增强图实例对输入至图编码器中转化为对应的隐变量特征，再经信息映射层处理得到药物分子图实例对特征；

2.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法，其特征在于，构建码本；计算药物分子原始图中各节点对应的隐变量特征与码本中各个向量的欧式距离，利用码本中的最近邻向量替换隐变量特征，得到矢量化的隐变量特征包括：

记码本为C＝{c₁,c₂,…,c_k}；

将隐变量特征Z＝{z₁,z₂,…,z_i,…,z_N}中各节点对应的隐变量子特征z_i与码本C＝{c₁,c₂,…,c_k}中各个向量的欧式距离，利用码本C中的最近邻向量替换隐变量子特征，得到矢量化的隐变量特征表达式如下：

其中，Quantize表示量化函数，||·||₂表示欧氏距离。

3.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法，其特征在于，构建图解码器，通过图解码器对矢量化的隐变量特征进行解码，重构得到药物分子增强图包括：

由全连接层和图重构层构建图解码器；

通过图解码器对矢量化的隐变量特征进行解码，依据矢量化的隐变量特征/>中的信息预测药物分子增强图G′中各个节点之间是否存在相应的边的概率重构得到药物分子增强图G′；表达式如下：

p(e_i，j)＝MLP(z_i)^T·MLP(z_j)

G′_i，j＝ε(p(e_i，j)-threshold)

其中，MLP(·)表示多层感知机，z_i表示隐变量特征中第i个节点对应的隐变量子特征，z_j表示隐变量特征中第j个节点对应的隐变量子特征，threshold表示图重构阈值，ε(t)表示单位阶跃函数，t＝p(e_i,j)-threshold；当ε(t)＝1时，节点i和节点j之间存在边；当ε(t)＝0时，节点i和节点j之间不存在边。

4.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法，其特征在于，基于药物分子原始图和药物分子增强图构建药物分子原始图-增强图实例对包括：

获取药物分子原始图集合及其对应的药物分子增强图集合/>

对于药物分子原始图和药物分子增强图/>当i＝j时，构建成药物分子正原始图-增强图实例对；而当i≠j时，则构建成药物分子负原始图-增强图实例对。

5.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法，其特征在于，构建药物分子图对比网络，将药物分子原始图-增强图实例对输入至药物分子图对比网络中，得到药物分子图实例对特征包括：

表达式如下：

其中，N表示药物分子原始图-增强图实例对中对应的药物分子原始图中的节点数量，M表示药物分子原始图-增强图实例对中对应的药物分子增强图中的节点数量，i∈G_i表示药物分子原始图G_i中的所有节点i,j∈G′_j表示药物分子增强图G′_j中的所有节点。

6.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法，其特征在于，构建药物分子原始图和药物分子增强图之间的第一损失函数，通过药物分子图实例对特征计算药物分子图对比网络对应的第二损失函数，基于第一损失函数和第二损失函数对药物分子增强图和药物分子图对比网络进行协同训练包括：

计算药物分子原始图G和药物分子增强图G′之间的第一损失函数L(G,G′)，表达式如下：

式中，sg(·)表示停止反向传播，β表示超参数，为图重构损失，表示矢量量化损失，/>为传递损失；

通过药物分子图实例对特征之间的相似性计算药物分子图对比网络对应的第二损失函数/>表达式如下：

式中，N表示药物分子图的节点数量，表示药物分子图正实例对特征之间的余弦相似度，/>表示药物分子图负实例对特征之间的余弦相似度，τ表示温度控制参数；

协同训练损失函数为第一损失函数和第二损失函数之和，基于协同训练损失函数对药物分子增强图和药物分子图对比网络进行协同训练。

7.根据权利要求1所述的基于矢量量化的图神经网络的药物性质预测方法，其特征在于，药物性质预测结果包括药物生物性质预测结果、药物物理化学性质预测结果、药物量子性质预测结果。

8.一种基于矢量量化的图神经网络的药物性质预测装置，其特征在于，所述装置包括：存储模块、处理模块、预测模块；

存储模块包括：

药物分子原始图数据库，用于存储药物分子原始图；

药物分子增强图数据库，用于存储药物分子增强图；

处理模块包括：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述权利要求1-7任一项所述的基于矢量量化的图神经网络的药物性质预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的基于矢量量化的图神经网络的药物性质预测方法。