CN116312856A

CN116312856A - 基于子结构的药物相互作用预测方法及系统

Info

Publication number: CN116312856A
Application number: CN202310242812.6A
Authority: CN
Inventors: 任鹏杰; 魏敏; 陈竹敏; 任昭春; 李冬冬; 宋晓萌; 张佃磊; 马军
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-23

Abstract

本发明属于药物相互预测领域，提供了基于子结构的药物相互作用预测方法及系统，该方案包括获取待预测药物的药物结构图；将药物结构图中所有原子信息编码，并确定药物内的每个化学键类型信息；基于化学键类型信息，筛选出若干个原子特征作为对应药物的代表性子结构；基于对应药物的代表性子结构，利用之字形迭代网络，根据药物子结构之间的关联，从已知的子结构之间的交互学习未知的子结构之间的交互，得到药物相互作用感知表示；根据对应药物的代表性子结构和药物相互作用感知表示，计算得到待预测药物之间存在相互作用的概率，解决了很难直接训练并学习到准确的SSI信息的问题，同时充分准确地提取子结构特征，提高最终的DDI预测精度。

Description

基于子结构的药物相互作用预测方法及系统

技术领域

本发明属于药物相互预测领域，尤其涉及基于子结构的药物相互作用预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

现有的考虑子结构的药物相互作用(Drug-Drug Interaction，简称DDI)预测工作可分为两类，一类基于显式子结构，一类基于隐式子结构。

基于显式子结构的方法需要一个预定义的子结构列表。这类方法通过直接挖掘预定义子结构之间的相互作用来预测DDI。这个预先定义的子结构列表可以是人工定义的分子指纹，也可以是通过序列模式挖掘从数据集中提取到的频繁出现的SMILE子串。基于显式子结构方法的优点是可以将DDI的学习过程限制在特定的子结构上。但其缺点也非常明显：

(1)人工定义的分子指纹受限于该领域专家的专业知识，没有足够的灵活性来发现人为定义之外的内容；并且对于早期开发阶段的药物，人工定义好的分子指纹并不一定存在。

(2)非人工定义的分子指纹，即用序列模式挖掘的提取方式提取到的SMILE子串，会出现字结构信息不完整的情况，即关键子串的信息被截断甚至括号不匹配等，从而给模型引入大量噪声。

基于隐式子结构的方法不需要预先定义的子结构列表，模型一般通过图神经网络(GCN或GAT提取大小和形状自适应的子结构，这种方法不需要先验知识，可以挖掘未被定义的子结构，但是如果不能充分准确地提取子结构特征，累计的误差将影响最终的DDI预测。已有的基于隐式子结构的方法聚焦于优化子结构提取方式，虽然能提升模型性能并取得不错的效果，但是，这些工作却忽略了药物子结构之间相互作用(Substructure-Substructure Interactions，简称SSI)之间的相关性。由于现有的DDI数据集，例如Drugbank，不包含子结构间相互作用标签，因此很难直接训练并学习到准确的SSI信息。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于子结构的药物相互作用预测方法，其能利用SSI之间的相关性便可以学到更多的SSI，通过一种化学键辅助之字形迭代网络，去建模学习更多的子结构间相互作用，从而预测药物间相互作用。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于子结构的药物相互作用预测方法，包括如下步骤：

获取待预测药物的药物结构图；

将药物结构图中所有原子信息编码，并确定药物内的每个化学键类型信息；

基于原子信息和化学键类型信息，筛选出若干个原子特征作为对应药物的代表性子结构；

基于对应药物的代表性子结构，利用之字形迭代网络，根据药物子结构之间的关联，从已知的子结构之间的交互学习未知的子结构之间的交互，得到药物相互作用感知表示；

根据对应药物的代表性子结构和药物相互作用感知表示，计算得到待预测药物之间存在相互作用的概率。

本发明的第二个方面提供基于子结构的药物相互作用预测系统，包括：

结构图获取模块，其用于获取待预测药物的药物结构图；

编码模块，其用于将药物结构图中所有原子信息编码，并确定药物内的每个化学键类型信息；

子结构筛选模块，用于基于原子信息和化学键类型信息，筛选出若干个原子特征作为对应药物的代表性子结构；

之字形迭代模块，其用于基于对应药物的代表性子结构，利用之字形迭代网络，根据药物子结构之间的关联，从已知的子结构之间的交互学习未知的子结构之间的交互，得到药物相互作用感知表示；

相互作用预测模块，其用于基于对应药物的代表性子结构和药物相互作用感知表示，计算得到待预测药物之间存在相互作用的概率。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的基于子结构的药物相互作用预测方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所述的基于子结构的药物相互作用预测方法中的步骤。

与现有技术相比，本发明的有益效果是：

1、针对现有技术不包含子结构间相互作用的标签，很难直接训练学习到准确的SSI信息，本发明通过药物的化学键辅助之字形迭代网络，从相对清晰的子结构之间相互作用学习相对模糊的子结构之间相互作用可以捕获难以直接学习的SSI。

2、针对不能充分准确地提取子结构特征，累积的误差将影响最终的DDI预测的问题，本发明在编码子结构时引入了键类型来更好地学习药物的化学特性，设计了一种简单而有效的子结构编码器，将每个子结构编码为一个代表向量，更好地提取子结构特征，能充分地提取子结构特征，提高最终DDI预测的精度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一基于子结构的药物相互作用预测框图；

图2是本发明实施例一基于子结构的药物相互作用预测方法流程图；

图3是本发明实施例一化学键类型的定义；

图4是本发明实施例一之字形迭代网络更新示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

正如本发明背景技术中提及的，针对现有的DDI数据集不包含子结构间相互作用标签，很难直接训练并学习到准确的SSI信息的技术问题，本发明提出一个之字形迭代模块(ZI)，它利用SSI之间的关联，从相对清晰的SSI中学习相对模糊的SSI，从而捕获到难以直接学习的SSI。

基于之字形迭代模块(ZI)的之字形更新过程比如：如果子结构i和子结构j之间的交互(,j)是未知的，但子结构i′和j之间的交互(′,),以及i和j′之间的交互(,j′)是已知的，便可以通过(′,)和(,j′)去更新(,j)。

这里提到的三个交互边(,j)、(,j′)、(′,)可以构成一个“之字形”，因此称为之字形更新。在子结构交互矩阵中，这样的“之字形”有很多，所以子结构相互作用(,j)可以从多个角度被更新。

针对不能充分准确地提取子结构特征，累积的误差将影响最终的DDI预测的问题，本发明提出一个CBAGNN(chemical bond assisted graph neural network，化学键辅助图形神经网络)来获取更有代表性的子结构，这是一种考虑了化学键类型的图神经网络，在有机化学中，官能团(即子结构)中的化学键对SSI起着重要作用。例如，双键可以发生环氧化和双羟基化反应，芳香键可以发生卤化、硝化和磺化反应。因此，假设如果该模型能够识别子结构中的化学键，则可以获得更好的DDI预测性能。另外，为了鼓励相邻的子结构(其中心原子相邻)学习独特的表示，设计了一层RGCN+3层GAT作为CBAGNN的架构，具体来说，CBAGNN在第一层使用RGCN显式考虑所有化学键，在第二层和后续层中使用GAT隐式考虑化学键。这样，从CBAGNN学习到的相邻子结构的表示不仅在中心原子上不同，而且在化学键的权重上也不同。

实施例一

参照图1-图2，本实施例提供了基于子结构的药物相互作用预测方法，包括如下步骤：

S101：获取若干个药物结构图G；其中，药物结构图G中，节点是原子，边是原子间的化学键。

S102：对给定药物结构图G进行预处理，将所有的原子信息编码成一个矩阵M⁰∈Rⁿ ^*d，通过哈夫曼编码确定给定药物内的每个化学键类型；

其中，n和d分别指代分别原子数和输入向量的长度；

如图3所示，通过哈夫曼编码确定给定药物内的每个化学键类型(共16种类型)，具体过程为：使用4个二进制位来编码药物分子中的化学键类型，前两个二进制位用于编码四种化学键类型：单键、双键、三键和芳香键。第三个二进制位用于编码化学键是否为共轭键，第四个二进制位用于编码化学键是否为环键。

本实施例中，通过Rdkit(一个用于化学信息学的开源工具包)进行编码。

S103：基于每个化学键的类型信息，利用子结构提取模型将每一个原子特征编码成向量，筛选出若干个原子向量作为对应药物的代表性子结构；

其中，所述子结构提取模型采用化学键辅助图形神经网络，所述化学键辅助图形神经网络包含一层RGCN和三层GAT；

S301：采用化学键辅助图形神经网络的一层RGCN将每个化学键的类型信息合并到其相应的原子表示中；其公式如下：

其中，

是第i个原子在第l层的表示，第i个原子最初的表示/>

即为构建GBAGNN的输入时得到的M⁰中的第i行，t是化学键类型之一，τ是化学键类型的集合，N_t(i)是与原子i通过化学键类型t相连的邻接原子，W_t ^(l)与W^(l)均为网络中可学习的权重。

S302：采用化学键辅助图形神经网络的三层GAT更新原子表示；其公式如下：

其中，K是注意力头的数目，N(i)是与原子i相连的邻接原子，

为邻接原子特征

的权重。

S303：经过S302的原子信息更新后，获得所有原子的表示M^l∈R^n*d，使用一个池化操作(SAGPooling)来计算每个原子特征的分数s。

随后设定一个超参数k来决定要保留的原子特征数目，从所有原子特征的分数s选出k个原子特征作为该药物的代表性子结构，用M^(sel)来表示：

M⁽⁾＝op(s,k)∈R^k*d

由于经过节点更新后，每个原子的特征向量都以自身为中心聚合了周围原子的信息，因此每个原子向量可代表一个子结构，然后用一个池化层筛选出k个有代表性的原子向量作为k个子结构。

上述方案的优势在于，在编码子结构时引入了键类型来更好地学习药物的化学特性，设计了一种简单而有效的子结构编码器，将每个子结构编码为一个代表向量，更好地提取子结构特征，能充分地提取子结构特征，提高最终DDI预测的精度。

S104：基于对应药物的代表性子结构，利用之字形迭代网络，根据药物子结构之间的关联，从已知的子结构之间的交互学习未知的子结构之间的交互，得到药物相互作用感知表示；

本实施例以两个药物子结构之间的相互作用为例进行详细说明；

为了学习两个药物之间的SSI，之字形迭代模块首先接收两个药物的子结构特征

和/>

作为输入，通过相互作用初始化、zigzag更新、子结构更新得到相互作用感知的子结构/>

和/>

具体包括如下步骤：

S401：对两个药物的子结构

和/>

进行相互作用初始化得到相互作用矩阵F，具体为：

1、将子结构

和/>

的维度均扩展到k*k*d，表示为：

2、通过元素乘和拼接操作获得相互作用矩阵F，表示为：

F＝mlp([F^(dot)‖F^(cat)])∈R^k*k*d

其中，mlp()为一个多层感知器(Multilayer Perceptron layer)，其中相互作用矩阵F中的每一个元素F_i,j代表

的第i个子结构和/>

的第j个子结构间的相互作用，而这里的相互作用是没考虑其他SSI的。

通过考虑F_i,j与别的SSI之间的关联(如F_i,k和f_k,j,k≠i,j)来更新F_i,j。如图4所示，图中左边是相互作用矩阵F，右边是两个相互作用被更新的例子，三条相互作用边(,j),(,j-1),(-1,j)(或者(,j),(,j+2),(+2,j))可以形成之字形，每个之字形表示其中间的相互作用(如(,j))可以被两个相邻相互作用(如(i,j-1)和(-1,j))更新。

在S402和S403之前，首先获得注意力机制所需的查询(query)，键(key)和值(value)：

其中W^q，W^k，W^v均为可训练的参数矩阵。

S402：使用相互作用矩阵F_i,j的线性变换

作为查询(query)计算相互作用矩阵F中第i行(即/>

)和第j列(即/>

)的注意力得分：

在上述计算第i行注意力得分H_m的公式中，

评估相互作用(,j)与(,m)关联程度，/>

量化相互作用(i,m)的清晰度。

S403：使用第i行相互作用值

及其注意力得分/>

(_m的正则化结果)以及第j列相互作用值/>

及其注意力得分/>

(_m的正则化结果)共同更新F_i,j得到/>

S404：将

作为输入，并运用非线性变换和softmax计算得到两个药物的交叉更新表示：

S405：将两个药物的交叉更新表示和原始表示以及两个表示的元素乘结果拼接：

S406：用一个自门控机制(self-gated updating)筛选信息得到最终的相互作用感知表示(interaction-aware representation)：

S105：基于给定药物的子结构和相互作用感知表示，计算给定药物之间存在的相互作用的概率：

其中，

的维度为k*k，用来评估每个SSI的重要程度，R为对相互作用类型r编码后的矩阵。

上述方案的优势在于，通过药物的化学键辅助之字形迭代网络，从相对清晰的子结构之间相互作用学习相对模糊的子结构之间相互作用可以捕获难以直接学习的SSI。

实施例二

本实施例提供了基于子结构的药物相互作用预测系统，包括：

结构图获取模块，其用于获取待预测药物的药物结构图；

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于子结构的药物相互作用预测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于子结构的药物相互作用预测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于子结构的药物相互作用预测方法，其特征在于，包括如下步骤：

获取待预测药物的药物结构图；

2.如权利要求1所述的基于子结构的药物相互作用预测方法，其特征在于，通过哈夫曼编码确定药物内的每个化学键类型。

3.如权利要求2所述的基于子结构的药物相互作用预测方法，其特征在于，所述通过哈夫曼编码确定药物内的每个化学键类型包括：使用4个二进制位来编码药物分子中的化学键类型，前两个二进制位用于编码四种化学键类型：单键、双键、三键和芳香键；第三个二进制位用于编码化学键是否为共轭键，第四个二进制位用于编码化学键是否为环键。

4.如权利要求1所述的基于子结构的药物相互作用预测方法，其特征在于，采用化学键辅助图形神经网络进行筛选原子特征，所述化学键辅助图形神经网络包括一层RGCN和三层GAT，采用一层RGCN将每个化学键的类型信息合并到其相应的原子表示中，采用三层GAT更新原子表示。

5.如权利要求4所述的基于子结构的药物相互作用预测方法，其特征在于，所述采用一层RGCN将每个化学键的类型信息合并到其相应的原子表示中为：

其中，

是第i个原子在第l层的表示，t是化学键类型，N_t(i)是与原子i通过化学键类型t相连的邻接原子，W_t ^(l)与W^(l)均为网络中可学习的权重。

6.如权利要求4所述的基于子结构的药物相互作用预测方法，其特征在于，更新原子表示后，采用池化操作计算每个原子特征的分数，根据设定的超参数确定保留的原子特征数目，从所有原子特征的分数选出对应数目的原子特征作为药物的代表性子结构。

7.如权利要求1所述的基于子结构的药物相互作用预测方法，其特征在于，所述利用之字形迭代网络，根据药物子结构之间的关联，从已知的子结构之间的交互学习未知的子结构之间的交互，得到药物相互作用感知表示，包括如下步骤：

对两个药物的子结构进行相互作用初始化得到相互作用矩阵；

采用相互作用矩阵的线性变换作为查询计算相互作用矩阵中行和列的注意力得分；

根据相互作用矩阵中行和列的注意力得分更新相应作用矩阵；

基于更新的相应作用矩阵，采用自门控机制筛选信息得到最终的药物相互作用感知表示。

8.基于子结构的药物相互作用预测系统，其特征在于，包括：

结构图获取模块，其用于获取待预测药物的药物结构图；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于子结构的药物相互作用预测方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于子结构的药物相互作用预测方法中的步骤。