CN114927173A

CN114927173A - 基于标签相关性和图表示学习的代谢路径预测方法

Info

Publication number: CN114927173A
Application number: CN202210355201.8A
Authority: CN
Inventors: 施建宇; 杜冰雪; 赵鹏程; 朱蓓; 徐意; 杨光; 秦媛
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-08-19
Anticipated expiration: 2042-04-06
Also published as: CN114927173B

Abstract

本发明公开了一种基于标签相关性和图表示学习的代谢路径预测方法，提出一个基于标签相关性的可解释模型，即MP‑GNN，利用代谢路径之间的相关关系，通过标签嵌入表示方法构建标签之间的依赖关系，设计基于标签依赖性的图神经网络，研究基于标签依赖性的代谢路径类型预测方法，探索化合物子结构与其多种代谢路径的关联规律。

Description

基于标签相关性和图表示学习的代谢路径预测方法

技术领域

本发明属于计算机辅助药物研发技术领域，具体涉及为一种基于标签相关性和图表示学习的代谢路径预测方法。

背景技术

小分子药物的发现与发展，需要花费很长的时间和大量的成本。一种好的药物不仅要具有良好的药效，还要具备较佳的物化性质及药代动力学性质。在过去药物研发的过程中，科研人员通常在后期才考虑药物的药代动力学性质，这导致了药物研发失败的风险几率增加。

药物代谢是复杂的生物转化，它可以产生具有与母体药物明显不同的理化和药理特性的代谢产物。完成一个代谢过程的一组连锁的酶促反应被称为代谢路径。药物代谢路径的研究是药物发现与发展的重要任务。识别分子的代谢路径对于理解生物功能、合成新化合物以及减少药物发现中的化合物毒性至关重要。然而，通过生物化学实验确定药物代谢路径的过程既费时又费力。

近年来，基于计算方法预测化合物代谢路径取得了很大的进展。总的来说，大多数方法，特别是机器学习和深度学习模型，已经被证明可以有效地分析当前大量的代谢路径数据，并对新化合物进行预测。传统机器学习方法的效果通常依赖所提取特征的质量，需要较多的领域知识。近几年来，得益于深度学习算法的快速发展及其在其它领域成功应用，通过药物代谢路径的研究积累也促进了深度学习在药物设计领域的应用前景，诸如药物此类的结构型数据可以被图神经网络进行自动特征提取。这些结构化的深度学习模型结合多层神经网络被成功应用在药物设计领域中。然而，尽管在代谢路径预测方面科研人员做出了非常大的努力，取得了显著的成就，但是在实际工作中仍然存在着不小的挑战，主要表现在以下几方面：

1)对药物代谢路径标签依赖性考虑不够充分，目前的方法中没有考虑标签之间的依赖性。

2)可解释性不足，深度学习或图表示学习到的药物嵌入表示总是很难解释，缺乏化合物官能团与代谢路径的关系，不能通过药物本身的官能团去解释为什么属于这种代谢路径。

鉴于此，有必要设计一种新的预测方法。

发明内容

本发明的目的在于解决现有技术所存在的不足之处，而提供了一种基于标签相关性和图表示学习的代谢路径预测方法。

本发明的构思：

提出一个基于标签相关性的可解释模型，即MP-GNN。利用代谢路径之间的相关关系，通过标签嵌入表示方法构建标签之间的依赖关系，设计基于标签依赖性的图神经网络，研究基于标签依赖性的代谢路径类型预测方法，探索化合物子结构与其多种代谢路径的关联规律。

MP-GNN模型为双分支预测模型，其中一个分支采用图注意力层神经网络(GAT-GCN)，首先从KEGG数据库中获取药物代谢路径数据，包括碳水化合物代谢、能量代谢等11种典型代谢路径类型。根据每个药物参与的一种或多种代谢路径类型，构造多标签数据数据集。由于代谢路径数据的标签之间存在相关性，可从标签统计信息中获取额外的知识。所以另一个分支采用图卷积网络提取包含相互依赖关系的药物代谢通路类别特征，并采用图卷积网络构建标签的相关性，节点为标签的特征表示，边为标签之间的相关性矩阵。最后，联合两个分支构建多标签分类器以预测代谢路径类型。

鉴于上述发明构思，本发明为实现发明目的所提供的技术解决方案是：

基于标签相关性和图表示学习的代谢路径预测方法，其特殊之处在于，包括以下步骤：

1)构建代谢路径预测模型MP-GNN；

所述代谢路径预测模型MP-GNN由标签语义关系嵌入模块和分子结构图嵌入模块构成，并将二者进行点积融合，进行标签的预测；

所述标签语义关系嵌入模块包括GloVe词向量预训练层和两个堆叠的图卷积网络层GCN；

所述分子结构图嵌入模块包括一个图注意力网络层、一个图卷积网络层以及两个全连接层神经网络；

2)采集样本数据，对步骤1)构建的代谢路径模型进行训练；

2.1)采集药物分子的结构信息以及其对应的代谢路径的类型信息，构建训练数据集和测试数据集，并根据GloVe词库构建词向量与训练数据集；

2.2)采用RDKit工具对步骤2.1)获得数据中涉及药物分子的SMILES(简化分子线性输入规范，Simplified molecular input line entry specification)序列信息转换为化合物图，得到化合物结构数据；

2.3)根据GloVe词向量算法对代谢路经标签信息进行预训练，得到标签间的依赖关系；

2.4)针对步骤2.1)中所采集得到的代谢路径的类型信息(代谢路径标签信息)，采用GloVe词向量的方法计算所有标签词向量两两之间的相关性；

2.5)利用步骤2.1)中所采集得到的药物分子对应的代谢路径的类型信息(药物代谢路径类型的多标签数据)及步骤2.2)中得到的化合物图(化合物结构数据)作为输入，通过图注意力网络层、图卷积网络层及全局最大池化层得到所有药物分子的特征向量m1,m2,…,mn；

2.6)采用两层全连接层神经网络对步骤2.5)中得到的药物分子的特征向量进行规范；

2.7)利用步骤2.1)代谢路径的类型信息构建标签关联矩阵，并结合步骤2.4)中计算得到的标签词向量两两之间的相关性构建两个堆叠的图卷积网络层进行特征提取并输出特征矩阵E；

2.8)将步骤2.5)中得到的向量m1,m2,…,mn分别和步骤2.7)得到的特征矩阵E进行点积得到带有标签信息的药物分子的特征向量f1,f2,…,fn；

2.9)使用步骤2.8)中得到的药物分子的特征向量f1,f2,…,fn与其原始标签计算损失函数，并根据损失残差通过负反馈调节来训练步骤2.6)中所提到的两层全连接层神经网络的权重；

2.10)训练完成之后最终得到药物分子代谢路径的预测模型；

3)利用步骤2)训练好的代谢路径预测模型，对药物分子的代谢路径进行预测。

进一步地，所述步骤2.2)具体为：

使用开源化学工具箱RDKit将SMILES序列转换为原子之间的相互作用图；在这里，每个节点是一个多维的二进制特征向量，表达了原子符号、相邻原子的数量、相邻氢的数量、原子的隐含值以及该原子是否在芳香族结构中的信息。

进一步地，所述步骤2.3)具体为：

GloVe预训练数据来自语料库的全球“词-词”共现统计数据，所得的特征展示了词向量空间的线性子结构；对于包括多个词类别的代谢路径，采用所有词的平均嵌入作为标签特征。

进一步地，所述步骤2.4)具体为：

对于标签特征表示，采用GloVe算法来获取高维词向量，从而编码11种代谢路径名称；接着，根据训练集中代谢路径出现频次采用条件概率矩阵构建标签之间的相关性矩阵。

进一步地，所述步骤2.5)中构建GAT-GCN模块的步骤，具体如下：

化合物图被表示为G＝(V,E)，其中V是N个节点的集合，E是边的集合；A∈R^N×N是表示E的邻接矩阵。GCN模型为半监督节点分类设计的，其基本思想是通过节点之间的信息传播来更新节点的表示；多层图GCN的层级传播规则如下：

其中，

为添加自连接的无向图的邻接矩阵，I_N是单位矩阵，σ(·)为激活函数，

和W^(l)是一层特定的可训练权矩阵；分层卷积操作可以近似如下：

其中，

F为过滤器或特征映射，C为代谢路径类别，

为节点输出；

GAT通过注意机制对邻居节点进行聚合操作，实现了不同邻居权值的自适应分配，大大提高了图神经网络模型的表达能力。为了获得足够的表达能力，将图的输入节点特征转换为更高层次的特征，并对每个具有权值矩阵的节点进行线性变换，

然后在节点上执行自我注意--共享注意机制a:

表示节点j的特征对节点i的重要性；然后利用softmax函数对注意系数进行归一化，计算节点的输出特征为；

其中，σ(·)为非线性激活函数，α_ij为归一化注意力系数。

进一步地，所述步骤2.7)中构建堆叠的两层GCN模块并输出矩阵E，具体如下：

设计一个新的基于标签共现模式的标签关联矩阵，通过GCN对标签依赖关系进行显式建模，通过该矩阵，节点特征的更新将吸收相关节点(标签)的信息；GCN对于标签的词嵌入与化合物图不同；不仅要把每个GCN节点的最终输出设计给相应标签的分类器，而且图的结构(即相关矩阵)也没有提供多标签的代谢途径任务；因此，需要构建相关矩阵；通过数据驱动的方法来构建这个相关矩阵；也就是说，通过挖掘数据集中标签的共同出现模式来定义标签之间的相关性；以条件概率的形式对标签相关性进行建模，即P(Lj|Li)，它表示当标签Li出现时，标签Lj出现的概率，并且P(Lj|Li)不等于P(Li|Lj)；为了构建相关矩阵，首先，计算标签对在训练集中出现的次数，得到矩阵N∈R^C×C，其中C表示类别的数量，Nij表示Li和Lj的共现次数；然后，通过应用这个标签共现矩阵，可以得到条件概率矩阵；接着，对相关性P_ij＝P(Lj|Li)进行二值化处理，并使用阈值τ来过滤噪声边缘，操作可写为

为了避免过拟合问题，又进行重新加权：

其中

X＝[1,1,1…1]；

是单位矩阵。

进一步地，所述步骤2.9)中构建损失函数的方法，具体如下：

其中i∈(0,1,2…,C),y[i]∈[0,1]表示标签i是否属于化合物，并且

同时，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，其特殊之处在于：所述计算机程序被处理器执行时实现上述方法的步骤。

一种电子设备，其特殊之处在于：包括处理器和计算机可读存储介质；

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被所述处理器运行时执行上述方法的步骤。

本发明的优点是：

1.本发明提出了一种基于图表示学习的预测模型，即MP-GNN，通过构建代谢路径标签依赖性表示来解决这些问题，MP-GNN由标签语义关系嵌入模块和分子结构图嵌入模块构成，并将二者进行点积融合，最后通过神经网络层进行标签的预测。这个模型可以挖掘标签修正的隐藏特征来提高模型的性能，同时也使得药物代谢路径分类具有可解释性。此外，MP-GNN提供了一种基于注意力的关键特征选择，以便更准确地预测代谢路径类型。在基准数据集上对MP-GNN的评价表明，MP-GNN具有较好的药物代谢路径预测性能，本发明可以提供一个计算预测工具，推动药物发现与发展。

2.本发明利用标签之间的全局相关性，可从标签统计信息中获取额外的知识；由于增加了标签的依赖性，模型的性能也能得到很好的改善。

附图说明

图1是本发明所提出的方法MP-GNN的总体架构；

图2是本发明的化合物重要子结构与代谢路径类型关系。

具体实施方式

以下结合附图和具体实施例对本发明的内容作进一步的详细描述：

依据本发明提出的基于标签相关性的代谢路径分类的图表示预测方法的一个实施例具体如下：

本实施例使用来自KEGG的代谢路径数据集：该数据集有6669个化合物，属于11个途径类中的一个或多个：碳水化合物代谢、能量代谢、脂质代谢、核苷酸代谢、氨基酸代谢、其他氨基酸代谢、糖的生物合成与代谢、辅助因子与维生素的代谢、萜类化合物和聚酮化合物的代谢、其他次级代谢产物的生物合成、异生物质的生物降解与代谢。6669个化合物中，4545个化合物仅属于一个成分代谢途径，2124个化合物属于一个以上代谢途径。一些化合物作为多个通路的中间体，出现在多个KEGG路径中。将药物分子的数据按照8：2的比例分为训练集和测试集。

针对数据集中药物分子的SMILES序列信息，采用RDKit算法将药物分子的SMILES序列转换为化合物图(即原子间相互作用图)。

构建标签词向量间的依赖关系。

将所有采集得到的11个代谢路径标签信息，采用GloVe词向量的方法计算所有标签词向量两两之间的相关性。

利用转换后的原子间相互作用图数据通过图注意力网络层、图卷积网络层及全局最大池化层得到得到所有药物分子的特征向量m1,m2,…,mn。

采用两层全连接层神经网络对得到的药物分子的特征向量m1,m2,…,mn进行规范。

利用代谢路径的类型信息构建标签关联矩阵，并结合前述计算得到的标签词向量两两之间的相关性构建堆叠的两层GCN进行特征提取并输出矩阵E。

使用药物分子的特征向量m1,m2,…,mn分别和矩阵E进行点积得到带有标签信息的药物分子的特征向量f1,f2,…,fn。

使用药物分子的特征向量f1,f2,…,fn与其原始标签计算损失函数，并根据损失残差通过负反馈调节来训练两层神经网络的权重。

训练完成得到化合物分子代谢路径的分类模型，即预测模型。

为了评价预测性能，本发明选择了准确率(Accuracy)、精确度(Precision)、召回率(Recall)和F1_score作为基础评价指标。这些指标数值越高，性能越好。首先使用一个sigmoid函数将输出限制在0到1之间，并且给定的阈值为0.5。这些指标的计算采用python中的scikit-learn包进行计算。

使用测试集数据对训练完成的模型进行测试，同时，本发明在同一数据集中将本发明与其他先进的方法进行了比较，测试结果在表1中所示。

表1 MLDG-MP在KEGG数据集上代谢路径预测的性能展示

选择具有氨基酸代谢标签的化合物，并通过图网络的GAT层提取化合物的不同化学键的权重如图2所示。

综上，本发明可用于药物代谢路径分类的预测，以上所述的方案中所公知的实施方法和特性常识在此未作过多的描述。应当指出对于本技术领域人员来说，在不脱离本发明的前提下还可以进行若干改进，这些也应视为本发明的保护范围，这些都不会影响到本发明的实施效果和专利的实用性。本申请要求的保护范围应当以权利要求的内容为准，说明书中的具体实施方式等记载用于解释权利要求的内容。

Claims

1.基于标签相关性和图表示学习的代谢路径预测方法，其特征在于，包括以下步骤：

1)构建代谢路径预测模型MP-GNN：

所述标签语义关系嵌入模块包括GloVe词向量预训练层和两个堆叠的图卷积网络层；

所述分子结构图嵌入模块包括一个图注意力网络层、一个图卷积网络层一个全局最大池化层以及两个全连接层神经网络；

2)采集样本数据，对步骤1)构建的代谢路径模型进行训练：

2.2)采用RDKit工具将步骤2.1)获得数据中涉及药物分子的SMILES序列信息转换为化合物图；

2.4)针对步骤2.1)中所采集得到的代谢路径的类型信息，采用GloVe词向量的方法计算所有标签词向量两两之间的相关性；

2.5)利用步骤2.1)中所采集得到的药物分子对应的代谢路径的类型信息及步骤2.2)中得到的化合物图作为输入，通过图注意力网络层、图卷积网络层及全局最大池化层得到所有药物分子的特征向量m1,m2,…,mn；

2.6)采用两个全连接层神经网络对步骤2.5)中得到的药物分子的特征向量进行规范；

2.10)训练完成之后最终得到药物分子代谢路径的预测模型；

2.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法，其特征在于，所述步骤2.2)具体为：

3.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法，其特征在于，所述步骤2.3)具体为：

4.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法，其特征在于，所述步骤2.4)具体为：

5.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法，其特征在于，所述步骤2.5)中构建GAT-GCN模块的步骤，具体如下：

化合物图被表示为G＝(V,E)，其中V是N个节点的集合，E是边的集合；A∈R^N×N是表示E的邻接矩阵；GCN模型的基本思想是通过节点之间的信息传播来更新节点的表示；多层图GCN的层级传播规则如下：

其中，

其中，

F为过滤器或特征映射，C为代谢路径类别，

为节点输出；

GAT通过注意机制对邻居节点进行聚合操作，实现了不同邻居权值的自适应分配，将图的输入节点特征转换为更高层次的特征，并对每个具有权值矩阵的节点进行线性变换，

然后在节点上执行自我注意--共享注意机制a:

其中，σ(·)为非线性激活函数，α_ij为归一化注意力系数。

6.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法，其特征在于，所述步骤2.7)中构建堆叠的两层GCN模块并输出矩阵E，具体如下：

设计一个新的基于标签共现模式的标签关联矩阵，通过GCN对标签依赖关系进行显式建模，通过该矩阵，节点特征的更新将吸收相关节点的信息；以条件概率的形式对标签相关性进行建模，即P(Lj|Li)，P(Lj|Li)不等于P(Li|Lj)；为了构建相关矩阵，首先，计算标签对在训练集中出现的次数，得到矩阵N∈R^C×C，其中C表示类别的数量，Nij表示Li和Lj的共现次数；然后，通过应用这个标签共现矩阵，可以得到条件概率矩阵；接着，对相关性P_ij＝P(Lj|Li)进行二值化处理，并使用阈值τ来过滤噪声边缘，操作可写为

为了避免过拟合问题，又进行重新加权：

其中

X＝[1,1,1…1]；

是单位矩阵。

7.根据权利要求1所述的基于标签相关性的代谢路径分类的图表示预测方法，其特征在于，所述步骤2.9)中构建损失函数的方法，具体如下：

其中i∈(0,1,2…,C),y[i]∈[0,1]表示标签i是否属于化合物，并且

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7任一所述方法的步骤。

9.一种电子设备，其特征在于：包括处理器和计算机可读存储介质；

所述计算机可读存储介质上存储有计算机程序，所述计算机程序被所述处理器运行时执行权利要求1至7任一所述方法的步骤。