CN114121181B

CN114121181B - 一种基于注意力机制的异构图神经网络中药靶标预测方法

Info

Publication number: CN114121181B
Application number: CN202111337127.9A
Authority: CN
Inventors: 何洁月; 赵文慧; 吴昊
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2024-03-29
Anticipated expiration: 2041-11-12
Also published as: CN114121181A

Abstract

本发明公开一种基于注意力机制的异构图神经网络中药靶标预测方法，依次包括以下步骤：步骤1.根据输入的中药靶标相关数据构建中药靶标异构图，并初始化各节点的特征向量；步骤2.对草药靶标异构图中的所有节点对进行提取，同时通过消息传递机制获得每个节点对的消息向量，将注意力向量和消息向量利用聚合机制聚合到相应的各个节点，再将节点的向量映射回其类型的特定分布，生成目标节点的特征表示；步骤3使用双线性层和两层全连接层对中药靶标对之间的相互作用关系进行预测。本发明通过提取中药靶标异构网络的拓扑结构和语义信息，生成能够充分表达中药和靶标丰富特征的向量表示，可以更有效地解决中药靶标预测问题。

Description

一种基于注意力机制的异构图神经网络中药靶标预测方法

技术领域

本发明涉及一种中药靶标预测方法，具体涉及一种基于注意力机制的异构图神经网络的中药靶标预测方法。

背景技术

中药靶标识别是揭示中药药理机制和改善中药临床治疗的关键步骤，对探索中药作用机制具有重大意义。西药靶标预测的研究已经较多，目前利用计算机识别西药靶标的方法主要有三类：基于配体的方法、基于对接的方法和化学基因组学方法。这些方法操作的对象多为西药单分子化合物，而中药具有多成分、多靶标协同等特点，因此越来越多的研究人员开始采用网络药理学进行中药研究。然而，目前大多数草药靶标预测只是单纯利用现有的中药数据库进行从草药到化学成分到靶标的查找操作，同时使用现有中药分析软件构建成分靶标网络并获取分析结果，并未对中药、靶标相关数据进行有效的利用。而且，由草药到成分到靶标的预测思路存在一定的缺陷：大多数中药含有的成分较多，其中仍有许多成分未被发现，因此，出现了避免加入中药的化学成分，以整体系统的观念探讨与草药产生作用关系的靶标的方法，但这些方法没有充分利用网络中草药和靶标的高阶邻域信息。另一方面，随着异构图神经网络的发展，在药物靶标预测任务中也显示出了巨大的优势，这些方法虽然一定程度上突出了罕见的链接，但是不能灵活地调整不同关系的权重，在获取邻域信息方面存在限制，同时也是针对西药靶标预测的方法。为此，提出本发明专利。

发明内容

发明目的：本发明的目的在于针对中药靶标预测问题，提出一种基于注意力机制的异构图神经网络的中药靶标预测方法(Heterogeneousgraph neural networkwithattention mechanism for prediction ofherb-target interaction，HGNA-HTI)，在构建草药靶标异构网络的基础上，利用了元关系与注意力机制去自动学习不同关系的重要性，同时加入了消息传递机制来合并不同类型的高阶邻居信息，以获取草药和靶标的最终特征表示，从而实现草药靶标相互作用关系的预测。

技术方案：为达到上述目的，本发明的基于注意力机制的异构图神经网络的中药靶标预测方法，依次包括以下顺序执行的步骤：

步骤1.根据输入的中药靶标相关数据构建中药靶标异构图，并初始化各节点的特征向量；

步骤2.对草药靶标异构图中的所有节点对进行提取，即对通过边相连的源节点和目标节点，使用元关系去计算各节点对之间的注意力向量，同时通过消息传递机制获得每个节点对的消息向量，将注意力向量和消息向量利用聚合机制聚合到相应的各个节点，再将节点的向量映射回其类型的特定分布，生成目标节点的特征表示；

步骤3.根据步骤2得到的特征表示，使用双线性层和两层全连接层对中药靶标对之间的相互作用关系进行预测。

进一步地，步骤1具体为：在草药靶标预测问题中，我们使用一组草药H、一组靶标T、一组功效F和一组通路P作为研究数据，其中包含三组关联数据为草药-靶标、草药-功效和靶标-通路，均使用二进制对关联关系进行表示，如果存在关联使用1表示，否则使用0表示。将草药靶标异构图定义为有向图G＝(V,E,X,R)，其中V是节点集合，每个节点v∈V，E是边集合，每条边e∈E。有类型映射函数τ(v):V→X和E→R关联。对于节点类型X有X＝(H,F,T,P)。对于边类型R有R＝(HF,FH,HT,TH,TP,PT)，其中HF表示草药→功效，FH表示功效→草药，HT表示草药→靶标，TH表示靶标→草药，TP表示靶标→通路，PT表示通路→靶标。在构建草药靶标异构图的同时对每个节点进行特征向量的随机初始化，将节点i的初始向量表示为/>

进一步地，步骤2具体包括以下步骤：

步骤21.基于元关系计算注意机制。首先定义元关系：对于源节点a，目标节点b，以及边e:a→b，其元关系表示为<A,AB,B>，其中A,B分别是a和b通过映射函数τ(v):V→X得到对应的节点类型，AB是对边e通过映射函数φ(e):E→R得到对应的边类型。对于源节点a和目标节点b，将源节点映射为Key向量如式(1)所示：

其中，K_Linear(·)表示Key向量线性映射函数，A表示源节点a的节点类型，Key向量线性映射函数根据节点的类型进行区分，l表示图神经网络的层数，表示源节点a在(l-1)层的特征表示。目标节点b映射为Query向量如式(2)所示：

其中，Q_Linear(·)表示Query向量线性映射函数，B表示目标节点b的节点类型，Query向量线性映射函数根据节点的类型进行区分，l表示图神经网络的层数，表示目标节点b在(l-1)层的特征表示。我们为每个边类型保留了一个基于边的矩阵/>对于每条边e:a→b计算n头注意力可以表示如式(3)所示：

其中，N(b)表示目标节点b的邻居，i表示第i个注意力头，Keyⁱ(a)和Queryⁱ(b)分别表示第i个注意力头中计算的Key向量和Query向量，μ表示对注意力的自适应缩放，用来区别不同元关系对目标节点的贡献度，d表示向量的嵌入维度。

步骤22.使用消息传递机制将信息从源节点传递到目标节点以缓解草药和靶标等不同节点以及不同相互作用关系的分布差异。将源节点a映射为Message向量如式(4)所示：

其中，M_Linear(·)表示Message向量线性映射函数。对于每条边e:a→b计算n头消息可以表示如式(5)所示：

其中，是为每个边类型保留的消息矩阵，i表示第i个消息头，Msgⁱ(a)表示第i个消息头中计算的Message向量。

步骤23.将步骤21计算的注意力向量和步骤22计算的消息向量利用聚合机制从源节点ai聚合到目标节点b，使用注意向量作为权重对源节点的消息进行相应的平均，得到更新的向量如式(6)所示：

其中，N(b)表示目标节点b的邻居，Attention(a,e,b)表示得到的注意力向量，Message(a,e,b)表示得到的消息向量，表示聚合后得到的目标节点b的向量。将目标节点b的向量映射回其类型特定的分布，由其节点类型B进行索引。为此，我们对更新的向量应用线性投影然后使用残差连接：

其中，A_Linear(·)表示节点类型的线性映射函数，σ表示残差连接，表示目标节点b在(l-1)层的特征向量，/>表示目标节点b在l层的特征向量。

进一步地，步骤3具体为：根据步骤2获得了草药节点和靶标节点的最终特征表示，将草药节点i的最终特征表示为h_i和靶标节点j的最终特征表示为t_j。链路预测模块使用h_i，t_j作为输入，使用双线性层生成草药节点i和靶标节点j边的表示如式(8)所示：

其中，x_ij表示节点i和j之间的边的表示，W表示双线性层的权重矩阵，b表示双线性层的偏置，ELU为非线性激活函数。接着将边的表示输入到两层全连接层中计算草药节点i和靶标节点j相互作用的概率如式(9)所示：

y_ij＝sigmoid(W₂(ELU(W₁·x_ij+b₁))+b₂) (9)

其中，y_ij为草药节点i和靶标节点j相互作用的概率，W₁和b₁分别是第一层全连接层的权重和偏置，W₂和b₂分别是第二层全连接层的权重和偏置。

有益效果：

本发明提供一种基于注意力机制的异构图神经网络的中药靶标预测方法，在构建草药靶标相关异质网络的基础上，同时利用注意力机制和聚合不同类型高阶邻居信息来学习草药和靶标丰富的向量表示，建立草药和靶标关系的预测模型。具体地，该方法由三个部分组成，第一个部分是收集草药、功效、靶标、通路关联数据构造草药靶标异构网络；第二部分利用异构图神经网络方法学习异构图中的草药和靶标的特征表示；第三部分是使用链路预测函数对得到的草药和靶标的特征表示进行关系预测。其包含以下优点：

(1)创新性地将中药靶标预测问题使用异质图神经网络的方法去建模，通过提取异构网络的拓扑结构和语义信息，生成能够充分表达草药和靶标丰富特征的向量表示；

(2)利用了元关系与注意力机制，避免了设计元路径所需的领域知识，又自动学习不同关系的重要性，同时通过消息传递来合并不同类型的高阶邻居信息，将更加丰富的含义聚合到草药和靶标的最终特征表示。

附图说明

图1本发明中HGNA-HTI模型的整体框架图；

图2为注意力计算示意图；

图3为消息传递示意图；

图4为消息聚合示意图；

图5为HGNA-HTI模型结果对比图；

图6为HGNA-HTI模型参数对比图；

图7为HGNA-HTI模型案例对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合具体实施例和说明附图对本发明作进一步说明，应当理解，此处所描述的优先实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明的一种基于注意力机制的异构图神经网络的中药靶标预测方法，依次包括以下顺序执行的步骤：

1.输入模块

给定数据集草药H、靶标T、功效F和通路P，将草药和靶标之间的相互作用关系定义为{(h,e_ht,t),(t,e_th,h)|h∈H,t∈T}，其中e_ht＝1表示靶标t是草药h的作用靶标，类似地，定义了草药-功效关系、靶标-通路关系，有/>e_hf＝1表示草药h存在功效f；/> e_tp＝1表示靶标t存在与通路p中。将草药靶标异构图定义为有向图G＝(V,E,X,R)，其中V是节点集合，每个节点v∈V，E是边集合，每条边e∈E。有类型映射函数τ(v):V→X和/>E→R关联。

对于节点类型X有X＝(H,F,T,P)。对于边类型R有R＝(HF,FH,HT,TH,TP,PT)，其中HF表示草药→功效，FH表示功效→草药，HT表示草药→靶标，TH表示靶标→草药，TP表示靶标→通路，PT表示通路→靶标。在构建草药靶标异构图的同时对每个节点进行特征向量的随机初始化，将节点i的初始向量表示为

2.嵌入模块

嵌入模块会对草药靶标异构图中的所有节点对进行提取，即对通过边相连的源节点和目标节点，从源节点聚合信息生成目标节点的特征表示。这些过程可以分解为三个组件：基于元路径的注意力机制、异构消息传递机制和异构消息聚合。

第一步是注意机制，即计算源节点和目标节点之间的相互注意程度。考虑到草药和靶标等节点的特征分布存在差异，我们基于草药靶标异构图中的元关系去计算各节点之间的注意力。首先定义元关系：对于源节点a，目标节点b，以及边e:a→b，其元关系表示为<A,AB,B>，其中A,B分别是a和b通过映射函数τ(v):V→X得到对应的节点类型，AB是对边e通过映射函数φ(e):E→R得到对应的边类型。对于源节点a和目标节点b，将源节点映射为Key向量如式(1)所示：

第二步是消息传递机制。在计算注意力的同时，为了缓解草药和靶标等不同节点以及不同关系的分布差异，使用消息传递机制将信息从源节点传递到目标节点以缓解草药和靶标等不同节点以及不同相互作用关系的分布差异。将源节点a映射为Message向量如式(4)所示：

第三步是聚合机制。将以上信息从源节点a聚合到目标节点b，使用注意向量作为权重对源节点的消息进行相应的平均，得到更新的向量如式(6)所示：

3.链路预测模块

根据嵌入模块获得了草药节点和靶标节点的最终特征表示，将草药节点i的最终特征表示为h_i和靶标节点j的最终特征表示为t_j。链路预测模块使用h_i，t_j作为输入，使用双线性层生成草药节点i和靶标节点j边的表示如式(8)所示：

y_ij＝sigmoid(W₂(ELU(W₁·x_ij+b₁))+b₂) (9)

为了验证模型的有效性，本文在量数据集上进行了实验，除此之外，还进行了参数学习和案例分析进一步验证模型的有效性，本文使用的数据集的如表1所示。

表1实验数据集

HT-1数据集有1497个草药、360个功效、5219个靶标、244个通路，草药-功效关联数据3487条、靶标-通路关联数据16162条和草药-靶标数据23453条，来源于公开数据库HIT、Chinese pharmacopoeia、KEGG；HT-2数据集有289个草药、316个功效、13650个靶标、390个通路，草药-功效关联数据1270条、靶标-通路关联数据20379条、草药-靶标数据140850条，来源于公开数据库YaTCM、TCMIP。

图5展示了HGNA-HTI与其他方法包括中药靶标预测方法、其他异构网络嵌入方法、西药靶标预测方法在数据集HT1和HT2上的结果，HGNA-HTI的性能在总体上优于其他方法，引入的基于元关系的注意力机制和聚合高阶邻域信息的消息传递机制能够更好地去处理草药靶标异构网络中丰富的拓扑信息与语义信息，能够更有效地去解决中药靶标预测问题。

图6展示了聚合层深度和生成嵌入维度对模型性能的影响。相较于2层的结构，3层结构在所有评价指标上都实现了一定的提升，反映了草药和靶标之间高阶关系的有效建模；同时适当的提高嵌入维度可以提高模型的性能，反映了高维度的嵌入可以有效编码足够的草药和靶标信息。

图7展示了与传统中药靶标预测方法相似系综方法(SEA)进行的案例对比结果，HGNA-HTI能够识别更多的候选靶标集合，表明了HGNA-HTI的性能更优，同时反映了相较于传统的使用“草药-成分-靶标”的研究策略，采用“草药-靶标”的研究方法也能够实现比较好的预测结果。

Claims

1.一种基于注意力机制的异构图神经网络的中药靶标预测方法，其特征在于：依次包括以下顺序执行的步骤：

步骤1.根据输入的中药靶标相关数据构建中药靶标异构图，并初始化各节点的特征向量；所述步骤1具体为：在草药靶标预测问题中，使用一组草药H、一组靶标T、一组功效F和一组通路P作为研究数据，其中包含三组关联数据为草药-靶标、草药-功效和靶标-通路，均使用二进制对关联关系进行表示，如果存在关联使用1表示，否则使用0表示；将草药靶标异构图定义为有向图G＝(V,E,X,R)，其中V是节点集合，每个节点v∈V，E是边集合，每条边e∈E；有类型映射函数τ(v):V→X和φ(e):E→R关联；对于节点类型X有X＝(H,F,T,P)；对于边类型R有R＝(HF,FH,HT,TH,TP,PT)，其中HF表示草药→功效，FH表示功效→草药，HT表示草药→靶标，TH表示靶标→草药，TP表示靶标→通路，PT表示通路→靶标；在构建草药靶标异构图的同时对每个节点进行特征向量的随机初始化，将节点i的初始向量表示为Z_i ⁰；

所述步骤2具体包括以下步骤：

步骤21.基于元关系计算注意机制；首先定义元关系：对于源节点a，目标节点b，以及边e:a→b，其元关系表示为<A,AB,B>，其中A,B分别是a和b通过映射函数τ(v):V→X得到对应的节点类型，AB是对边e通过映射函数φ(e):E→R得到对应的边类型；对于源节点a和目标节点b，将源节点映射为Key向量如式(1)所示：

其中，K_Linear(·)表示Key向量线性映射函数，A表示源节点a的节点类型，Key向量线性映射函数根据节点的类型进行区分，l表示图神经网络的层数，表示源节点a在(l-1)层的特征表示；目标节点b映射为Query向量如式(2)所示：

其中，Q_Linear(·)表示Query向量线性映射函数，B表示目标节点b的节点类型，Query向量线性映射函数根据节点的类型进行区分，l表示图神经网络的层数，表示目标节点b在(l-1)层的特征表示；我们为每个边类型保留了一个基于边的矩阵/>对于每条边e:a→b计算n头注意力可以表示如式(3)所示：

其中，N(b)表示目标节点b的邻居，i表示第i个注意力头，Keyⁱ(a)和Queryⁱ(b)分别表示第i个注意力头中计算的Key向量和Query向量，μ表示对注意力的自适应缩放，用来区别不同元关系对目标节点的贡献度，d表示向量的嵌入维度；

步骤22.使用消息传递机制将信息从源节点传递到目标节点以缓解草药和靶标等不同节点以及不同相互作用关系的分布差异；将源节点a映射为Message向量如式(4)所示：

其中，M_Linear(·)表示Message向量线性映射函数；对于每条边e:a→b计算n头消息可以表示如式(5)所示：

其中，是为每个边类型保留的消息矩阵，i表示第i个消息头，Msgⁱ(a)表示第i个消息头中计算的Message向量；

步骤23.将步骤21计算的注意力向量和步骤22计算的消息向量利用聚合机制从源节点a聚合到目标节点b，使用注意向量作为权重对源节点的消息进行相应的平均，得到更新的向量如式(6)所示：

其中，N(b)表示目标节点b的邻居，Attention(a,e,b)表示得到的注意力向量，Message(a,e,b)表示得到的消息向量，表示聚合后得到的目标节点b的向量；将目标节点b的向量映射回其类型特定的分布，由其节点类型B进行索引；对更新的向量应用线性投影然后使用残差连接：

其中，A_Linear(·)表示节点类型的线性映射函数，σ表示残差连接，表示目标节点b在(l-1)层的特征向量，/>表示目标节点b在l层的特征向量；

2.根据权利要求1所述的基于注意力机制的异构图神经网络的中药靶标预测方法，其特征在于：所述步骤3具体为：根据步骤2获得了草药节点和靶标节点的最终特征表示，将草药节点i的最终特征表示为h_i和靶标节点j的最终特征表示为t_j；链路预测模块使用h_i，t_j作为输入，使用双线性层生成草药节点i和靶标节点j边的表示如式(8)所示：

其中，x_ij表示节点i和j之间的边的表示，W表示双线性层的权重矩阵，b表示双线性层的偏置，ELU为非线性激活函数；接着将边的表示输入到两层全连接层中计算草药节点i和靶标节点j相互作用的概率如式(9)所示：

y_ij＝sigmoid(W₂(ELU(W₁·x_ij+b₁))+b₂) (9)