CN114121181B - 一种基于注意力机制的异构图神经网络中药靶标预测方法 - Google Patents
一种基于注意力机制的异构图神经网络中药靶标预测方法 Download PDFInfo
- Publication number
- CN114121181B CN114121181B CN202111337127.9A CN202111337127A CN114121181B CN 114121181 B CN114121181 B CN 114121181B CN 202111337127 A CN202111337127 A CN 202111337127A CN 114121181 B CN114121181 B CN 114121181B
- Authority
- CN
- China
- Prior art keywords
- node
- target
- vector
- herbal
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000003814 drug Substances 0.000 title claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000013507 mapping Methods 0.000 claims abstract description 40
- 230000003993 interaction Effects 0.000 claims abstract description 16
- 230000002776 aggregation Effects 0.000 claims abstract description 10
- 238000004220 aggregation Methods 0.000 claims abstract description 10
- 230000004931 aggregating effect Effects 0.000 claims abstract description 7
- 230000005540 biological transmission Effects 0.000 claims abstract description 6
- 239000003596 drug target Substances 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 31
- 241000411851 herbal medicine Species 0.000 claims description 18
- 230000037361 pathway Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 9
- 235000008216 herbs Nutrition 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 229940126680 traditional chinese medicines Drugs 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102100031184 C-Maf-inducing protein Human genes 0.000 description 1
- 101100001670 Emericella variicolor andE gene Proteins 0.000 description 1
- 101100384284 Homo sapiens CMIP gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000144 pharmacologic effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/90—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Pharmacology & Pharmacy (AREA)
- Computing Systems (AREA)
- Medicinal Chemistry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Public Health (AREA)
- Theoretical Computer Science (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Software Systems (AREA)
- Alternative & Traditional Medicine (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Toxicology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开一种基于注意力机制的异构图神经网络中药靶标预测方法,依次包括以下步骤:步骤1.根据输入的中药靶标相关数据构建中药靶标异构图,并初始化各节点的特征向量;步骤2.对草药靶标异构图中的所有节点对进行提取,同时通过消息传递机制获得每个节点对的消息向量,将注意力向量和消息向量利用聚合机制聚合到相应的各个节点,再将节点的向量映射回其类型的特定分布,生成目标节点的特征表示;步骤3使用双线性层和两层全连接层对中药靶标对之间的相互作用关系进行预测。本发明通过提取中药靶标异构网络的拓扑结构和语义信息,生成能够充分表达中药和靶标丰富特征的向量表示,可以更有效地解决中药靶标预测问题。
Description
技术领域
本发明涉及一种中药靶标预测方法,具体涉及一种基于注意力机制的异构图神经网络的中药靶标预测方法。
背景技术
中药靶标识别是揭示中药药理机制和改善中药临床治疗的关键步骤,对探索中药作用机制具有重大意义。西药靶标预测的研究已经较多,目前利用计算机识别西药靶标的方法主要有三类:基于配体的方法、基于对接的方法和化学基因组学方法。这些方法操作的对象多为西药单分子化合物,而中药具有多成分、多靶标协同等特点,因此越来越多的研究人员开始采用网络药理学进行中药研究。然而,目前大多数草药靶标预测只是单纯利用现有的中药数据库进行从草药到化学成分到靶标的查找操作,同时使用现有中药分析软件构建成分靶标网络并获取分析结果,并未对中药、靶标相关数据进行有效的利用。而且,由草药到成分到靶标的预测思路存在一定的缺陷:大多数中药含有的成分较多,其中仍有许多成分未被发现,因此,出现了避免加入中药的化学成分,以整体系统的观念探讨与草药产生作用关系的靶标的方法,但这些方法没有充分利用网络中草药和靶标的高阶邻域信息。另一方面,随着异构图神经网络的发展,在药物靶标预测任务中也显示出了巨大的优势,这些方法虽然一定程度上突出了罕见的链接,但是不能灵活地调整不同关系的权重,在获取邻域信息方面存在限制,同时也是针对西药靶标预测的方法。为此,提出本发明专利。
发明内容
发明目的:本发明的目的在于针对中药靶标预测问题,提出一种基于注意力机制的异构图神经网络的中药靶标预测方法(Heterogeneousgraph neural networkwithattention mechanism for prediction ofherb-target interaction,HGNA-HTI),在构建草药靶标异构网络的基础上,利用了元关系与注意力机制去自动学习不同关系的重要性,同时加入了消息传递机制来合并不同类型的高阶邻居信息,以获取草药和靶标的最终特征表示,从而实现草药靶标相互作用关系的预测。
技术方案:为达到上述目的,本发明的基于注意力机制的异构图神经网络的中药靶标预测方法,依次包括以下顺序执行的步骤:
步骤1.根据输入的中药靶标相关数据构建中药靶标异构图,并初始化各节点的特征向量;
步骤2.对草药靶标异构图中的所有节点对进行提取,即对通过边相连的源节点和目标节点,使用元关系去计算各节点对之间的注意力向量,同时通过消息传递机制获得每个节点对的消息向量,将注意力向量和消息向量利用聚合机制聚合到相应的各个节点,再将节点的向量映射回其类型的特定分布,生成目标节点的特征表示;
步骤3.根据步骤2得到的特征表示,使用双线性层和两层全连接层对中药靶标对之间的相互作用关系进行预测。
进一步地,步骤1具体为:在草药靶标预测问题中,我们使用一组草药H、一组靶标T、一组功效F和一组通路P作为研究数据,其中包含三组关联数据为草药-靶标、草药-功效和靶标-通路,均使用二进制对关联关系进行表示,如果存在关联使用1表示,否则使用0表示。将草药靶标异构图定义为有向图G=(V,E,X,R),其中V是节点集合,每个节点v∈V,E是边集合,每条边e∈E。有类型映射函数τ(v):V→X和E→R关联。对于节点类型X有X=(H,F,T,P)。对于边类型R有R=(HF,FH,HT,TH,TP,PT),其中HF表示草药→功效,FH表示功效→草药,HT表示草药→靶标,TH表示靶标→草药,TP表示靶标→通路,PT表示通路→靶标。在构建草药靶标异构图的同时对每个节点进行特征向量的随机初始化,将节点i的初始向量表示为/>
进一步地,步骤2具体包括以下步骤:
步骤21.基于元关系计算注意机制。首先定义元关系:对于源节点a,目标节点b,以及边e:a→b,其元关系表示为<A,AB,B>,其中A,B分别是a和b通过映射函数τ(v):V→X得到对应的节点类型,AB是对边e通过映射函数φ(e):E→R得到对应的边类型。对于源节点a和目标节点b,将源节点映射为Key向量如式(1)所示:
其中,K_Linear(·)表示Key向量线性映射函数,A表示源节点a的节点类型,Key向量线性映射函数根据节点的类型进行区分,l表示图神经网络的层数,表示源节点a在(l-1)层的特征表示。目标节点b映射为Query向量如式(2)所示:
其中,Q_Linear(·)表示Query向量线性映射函数,B表示目标节点b的节点类型,Query向量线性映射函数根据节点的类型进行区分,l表示图神经网络的层数,表示目标节点b在(l-1)层的特征表示。我们为每个边类型保留了一个基于边的矩阵/>对于每条边e:a→b计算n头注意力可以表示如式(3)所示:
其中,N(b)表示目标节点b的邻居,i表示第i个注意力头,Keyi(a)和Queryi(b)分别表示第i个注意力头中计算的Key向量和Query向量,μ表示对注意力的自适应缩放,用来区别不同元关系对目标节点的贡献度,d表示向量的嵌入维度。
步骤22.使用消息传递机制将信息从源节点传递到目标节点以缓解草药和靶标等不同节点以及不同相互作用关系的分布差异。将源节点a映射为Message向量如式(4)所示:
其中,M_Linear(·)表示Message向量线性映射函数。对于每条边e:a→b计算n头消息可以表示如式(5)所示:
其中,是为每个边类型保留的消息矩阵,i表示第i个消息头,Msgi(a)表示第i个消息头中计算的Message向量。
步骤23.将步骤21计算的注意力向量和步骤22计算的消息向量利用聚合机制从源节点ai聚合到目标节点b,使用注意向量作为权重对源节点的消息进行相应的平均,得到更新的向量如式(6)所示:
其中,N(b)表示目标节点b的邻居,Attention(a,e,b)表示得到的注意力向量,Message(a,e,b)表示得到的消息向量,表示聚合后得到的目标节点b的向量。将目标节点b的向量映射回其类型特定的分布,由其节点类型B进行索引。为此,我们对更新的向量应用线性投影然后使用残差连接:
其中,A_Linear(·)表示节点类型的线性映射函数,σ表示残差连接,表示目标节点b在(l-1)层的特征向量,/>表示目标节点b在l层的特征向量。
进一步地,步骤3具体为:根据步骤2获得了草药节点和靶标节点的最终特征表示,将草药节点i的最终特征表示为hi和靶标节点j的最终特征表示为tj。链路预测模块使用hi,tj作为输入,使用双线性层生成草药节点i和靶标节点j边的表示如式(8)所示:
其中,xij表示节点i和j之间的边的表示,W表示双线性层的权重矩阵,b表示双线性层的偏置,ELU为非线性激活函数。接着将边的表示输入到两层全连接层中计算草药节点i和靶标节点j相互作用的概率如式(9)所示:
yij=sigmoid(W2(ELU(W1·xij+b1))+b2) (9)
其中,yij为草药节点i和靶标节点j相互作用的概率,W1和b1分别是第一层全连接层的权重和偏置,W2和b2分别是第二层全连接层的权重和偏置。
有益效果:
本发明提供一种基于注意力机制的异构图神经网络的中药靶标预测方法,在构建草药靶标相关异质网络的基础上,同时利用注意力机制和聚合不同类型高阶邻居信息来学习草药和靶标丰富的向量表示,建立草药和靶标关系的预测模型。具体地,该方法由三个部分组成,第一个部分是收集草药、功效、靶标、通路关联数据构造草药靶标异构网络;第二部分利用异构图神经网络方法学习异构图中的草药和靶标的特征表示;第三部分是使用链路预测函数对得到的草药和靶标的特征表示进行关系预测。其包含以下优点:
(1)创新性地将中药靶标预测问题使用异质图神经网络的方法去建模,通过提取异构网络的拓扑结构和语义信息,生成能够充分表达草药和靶标丰富特征的向量表示;
(2)利用了元关系与注意力机制,避免了设计元路径所需的领域知识,又自动学习不同关系的重要性,同时通过消息传递来合并不同类型的高阶邻居信息,将更加丰富的含义聚合到草药和靶标的最终特征表示。
附图说明
图1本发明中HGNA-HTI模型的整体框架图;
图2为注意力计算示意图;
图3为消息传递示意图;
图4为消息聚合示意图;
图5为HGNA-HTI模型结果对比图;
图6为HGNA-HTI模型参数对比图;
图7为HGNA-HTI模型案例对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合具体实施例和说明附图对本发明作进一步说明,应当理解,此处所描述的优先实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明的一种基于注意力机制的异构图神经网络的中药靶标预测方法,依次包括以下顺序执行的步骤:
1.输入模块
给定数据集草药H、靶标T、功效F和通路P,将草药和靶标之间的相互作用关系定义为{(h,eht,t),(t,eth,h)|h∈H,t∈T},其中eht=1表示靶标t是草药h的作用靶标,类似地,定义了草药-功效关系、靶标-通路关系,有/>ehf=1表示草药h存在功效f;/> etp=1表示靶标t存在与通路p中。将草药靶标异构图定义为有向图G=(V,E,X,R),其中V是节点集合,每个节点v∈V,E是边集合,每条边e∈E。有类型映射函数τ(v):V→X和/>E→R关联。
对于节点类型X有X=(H,F,T,P)。对于边类型R有R=(HF,FH,HT,TH,TP,PT),其中HF表示草药→功效,FH表示功效→草药,HT表示草药→靶标,TH表示靶标→草药,TP表示靶标→通路,PT表示通路→靶标。在构建草药靶标异构图的同时对每个节点进行特征向量的随机初始化,将节点i的初始向量表示为
2.嵌入模块
嵌入模块会对草药靶标异构图中的所有节点对进行提取,即对通过边相连的源节点和目标节点,从源节点聚合信息生成目标节点的特征表示。这些过程可以分解为三个组件:基于元路径的注意力机制、异构消息传递机制和异构消息聚合。
第一步是注意机制,即计算源节点和目标节点之间的相互注意程度。考虑到草药和靶标等节点的特征分布存在差异,我们基于草药靶标异构图中的元关系去计算各节点之间的注意力。首先定义元关系:对于源节点a,目标节点b,以及边e:a→b,其元关系表示为<A,AB,B>,其中A,B分别是a和b通过映射函数τ(v):V→X得到对应的节点类型,AB是对边e通过映射函数φ(e):E→R得到对应的边类型。对于源节点a和目标节点b,将源节点映射为Key向量如式(1)所示:
其中,K_Linear(·)表示Key向量线性映射函数,A表示源节点a的节点类型,Key向量线性映射函数根据节点的类型进行区分,l表示图神经网络的层数,表示源节点a在(l-1)层的特征表示。目标节点b映射为Query向量如式(2)所示:
其中,Q_Linear(·)表示Query向量线性映射函数,B表示目标节点b的节点类型,Query向量线性映射函数根据节点的类型进行区分,l表示图神经网络的层数,表示目标节点b在(l-1)层的特征表示。我们为每个边类型保留了一个基于边的矩阵/>对于每条边e:a→b计算n头注意力可以表示如式(3)所示:
其中,N(b)表示目标节点b的邻居,i表示第i个注意力头,Keyi(a)和Queryi(b)分别表示第i个注意力头中计算的Key向量和Query向量,μ表示对注意力的自适应缩放,用来区别不同元关系对目标节点的贡献度,d表示向量的嵌入维度。
第二步是消息传递机制。在计算注意力的同时,为了缓解草药和靶标等不同节点以及不同关系的分布差异,使用消息传递机制将信息从源节点传递到目标节点以缓解草药和靶标等不同节点以及不同相互作用关系的分布差异。将源节点a映射为Message向量如式(4)所示:
其中,M_Linear(·)表示Message向量线性映射函数。对于每条边e:a→b计算n头消息可以表示如式(5)所示:
其中,是为每个边类型保留的消息矩阵,i表示第i个消息头,Msgi(a)表示第i个消息头中计算的Message向量。
第三步是聚合机制。将以上信息从源节点a聚合到目标节点b,使用注意向量作为权重对源节点的消息进行相应的平均,得到更新的向量如式(6)所示:
其中,N(b)表示目标节点b的邻居,Attention(a,e,b)表示得到的注意力向量,Message(a,e,b)表示得到的消息向量,表示聚合后得到的目标节点b的向量。将目标节点b的向量映射回其类型特定的分布,由其节点类型B进行索引。为此,我们对更新的向量应用线性投影然后使用残差连接:
其中,A_Linear(·)表示节点类型的线性映射函数,σ表示残差连接,表示目标节点b在(l-1)层的特征向量,/>表示目标节点b在l层的特征向量。
3.链路预测模块
根据嵌入模块获得了草药节点和靶标节点的最终特征表示,将草药节点i的最终特征表示为hi和靶标节点j的最终特征表示为tj。链路预测模块使用hi,tj作为输入,使用双线性层生成草药节点i和靶标节点j边的表示如式(8)所示:
其中,xij表示节点i和j之间的边的表示,W表示双线性层的权重矩阵,b表示双线性层的偏置,ELU为非线性激活函数。接着将边的表示输入到两层全连接层中计算草药节点i和靶标节点j相互作用的概率如式(9)所示:
yij=sigmoid(W2(ELU(W1·xij+b1))+b2) (9)
其中,yij为草药节点i和靶标节点j相互作用的概率,W1和b1分别是第一层全连接层的权重和偏置,W2和b2分别是第二层全连接层的权重和偏置。
为了验证模型的有效性,本文在量数据集上进行了实验,除此之外,还进行了参数学习和案例分析进一步验证模型的有效性,本文使用的数据集的如表1所示。
表1实验数据集
HT-1数据集有1497个草药、360个功效、5219个靶标、244个通路,草药-功效关联数据3487条、靶标-通路关联数据16162条和草药-靶标数据23453条,来源于公开数据库HIT、Chinese pharmacopoeia、KEGG;HT-2数据集有289个草药、316个功效、13650个靶标、390个通路,草药-功效关联数据1270条、靶标-通路关联数据20379条、草药-靶标数据140850条,来源于公开数据库YaTCM、TCMIP。
图5展示了HGNA-HTI与其他方法包括中药靶标预测方法、其他异构网络嵌入方法、西药靶标预测方法在数据集HT1和HT2上的结果,HGNA-HTI的性能在总体上优于其他方法,引入的基于元关系的注意力机制和聚合高阶邻域信息的消息传递机制能够更好地去处理草药靶标异构网络中丰富的拓扑信息与语义信息,能够更有效地去解决中药靶标预测问题。
图6展示了聚合层深度和生成嵌入维度对模型性能的影响。相较于2层的结构,3层结构在所有评价指标上都实现了一定的提升,反映了草药和靶标之间高阶关系的有效建模;同时适当的提高嵌入维度可以提高模型的性能,反映了高维度的嵌入可以有效编码足够的草药和靶标信息。
图7展示了与传统中药靶标预测方法相似系综方法(SEA)进行的案例对比结果,HGNA-HTI能够识别更多的候选靶标集合,表明了HGNA-HTI的性能更优,同时反映了相较于传统的使用“草药-成分-靶标”的研究策略,采用“草药-靶标”的研究方法也能够实现比较好的预测结果。
Claims (2)
1.一种基于注意力机制的异构图神经网络的中药靶标预测方法,其特征在于:依次包括以下顺序执行的步骤:
步骤1.根据输入的中药靶标相关数据构建中药靶标异构图,并初始化各节点的特征向量;所述步骤1具体为:在草药靶标预测问题中,使用一组草药H、一组靶标T、一组功效F和一组通路P作为研究数据,其中包含三组关联数据为草药-靶标、草药-功效和靶标-通路,均使用二进制对关联关系进行表示,如果存在关联使用1表示,否则使用0表示;将草药靶标异构图定义为有向图G=(V,E,X,R),其中V是节点集合,每个节点v∈V,E是边集合,每条边e∈E;有类型映射函数τ(v):V→X和φ(e):E→R关联;对于节点类型X有X=(H,F,T,P);对于边类型R有R=(HF,FH,HT,TH,TP,PT),其中HF表示草药→功效,FH表示功效→草药,HT表示草药→靶标,TH表示靶标→草药,TP表示靶标→通路,PT表示通路→靶标;在构建草药靶标异构图的同时对每个节点进行特征向量的随机初始化,将节点i的初始向量表示为Zi 0;
步骤2.对草药靶标异构图中的所有节点对进行提取,即对通过边相连的源节点和目标节点,使用元关系去计算各节点对之间的注意力向量,同时通过消息传递机制获得每个节点对的消息向量,将注意力向量和消息向量利用聚合机制聚合到相应的各个节点,再将节点的向量映射回其类型的特定分布,生成目标节点的特征表示;
所述步骤2具体包括以下步骤:
步骤21.基于元关系计算注意机制;首先定义元关系:对于源节点a,目标节点b,以及边e:a→b,其元关系表示为<A,AB,B>,其中A,B分别是a和b通过映射函数τ(v):V→X得到对应的节点类型,AB是对边e通过映射函数φ(e):E→R得到对应的边类型;对于源节点a和目标节点b,将源节点映射为Key向量如式(1)所示:
其中,K_Linear(·)表示Key向量线性映射函数,A表示源节点a的节点类型,Key向量线性映射函数根据节点的类型进行区分,l表示图神经网络的层数,表示源节点a在(l-1)层的特征表示;目标节点b映射为Query向量如式(2)所示:
其中,Q_Linear(·)表示Query向量线性映射函数,B表示目标节点b的节点类型,Query向量线性映射函数根据节点的类型进行区分,l表示图神经网络的层数,表示目标节点b在(l-1)层的特征表示;我们为每个边类型保留了一个基于边的矩阵/>对于每条边e:a→b计算n头注意力可以表示如式(3)所示:
其中,N(b)表示目标节点b的邻居,i表示第i个注意力头,Keyi(a)和Queryi(b)分别表示第i个注意力头中计算的Key向量和Query向量,μ表示对注意力的自适应缩放,用来区别不同元关系对目标节点的贡献度,d表示向量的嵌入维度;
步骤22.使用消息传递机制将信息从源节点传递到目标节点以缓解草药和靶标等不同节点以及不同相互作用关系的分布差异;将源节点a映射为Message向量如式(4)所示:
其中,M_Linear(·)表示Message向量线性映射函数;对于每条边e:a→b计算n头消息可以表示如式(5)所示:
其中,是为每个边类型保留的消息矩阵,i表示第i个消息头,Msgi(a)表示第i个消息头中计算的Message向量;
步骤23.将步骤21计算的注意力向量和步骤22计算的消息向量利用聚合机制从源节点a聚合到目标节点b,使用注意向量作为权重对源节点的消息进行相应的平均,得到更新的向量如式(6)所示:
其中,N(b)表示目标节点b的邻居,Attention(a,e,b)表示得到的注意力向量,Message(a,e,b)表示得到的消息向量,表示聚合后得到的目标节点b的向量;将目标节点b的向量映射回其类型特定的分布,由其节点类型B进行索引;对更新的向量应用线性投影然后使用残差连接:
其中,A_Linear(·)表示节点类型的线性映射函数,σ表示残差连接,表示目标节点b在(l-1)层的特征向量,/>表示目标节点b在l层的特征向量;
步骤3.根据步骤2得到的特征表示,使用双线性层和两层全连接层对中药靶标对之间的相互作用关系进行预测。
2.根据权利要求1所述的基于注意力机制的异构图神经网络的中药靶标预测方法,其特征在于:所述步骤3具体为:根据步骤2获得了草药节点和靶标节点的最终特征表示,将草药节点i的最终特征表示为hi和靶标节点j的最终特征表示为tj;链路预测模块使用hi,tj作为输入,使用双线性层生成草药节点i和靶标节点j边的表示如式(8)所示:
其中,xij表示节点i和j之间的边的表示,W表示双线性层的权重矩阵,b表示双线性层的偏置,ELU为非线性激活函数;接着将边的表示输入到两层全连接层中计算草药节点i和靶标节点j相互作用的概率如式(9)所示:
yij=sigmoid(W2(ELU(W1·xij+b1))+b2) (9)
其中,yij为草药节点i和靶标节点j相互作用的概率,W1和b1分别是第一层全连接层的权重和偏置,W2和b2分别是第二层全连接层的权重和偏置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111337127.9A CN114121181B (zh) | 2021-11-12 | 2021-11-12 | 一种基于注意力机制的异构图神经网络中药靶标预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111337127.9A CN114121181B (zh) | 2021-11-12 | 2021-11-12 | 一种基于注意力机制的异构图神经网络中药靶标预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114121181A CN114121181A (zh) | 2022-03-01 |
CN114121181B true CN114121181B (zh) | 2024-03-29 |
Family
ID=80378759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111337127.9A Active CN114121181B (zh) | 2021-11-12 | 2021-11-12 | 一种基于注意力机制的异构图神经网络中药靶标预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114121181B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114613437B (zh) * | 2022-03-08 | 2023-05-26 | 电子科技大学 | 一种基于异构图的miRNA与疾病关联预测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887540A (zh) * | 2019-01-15 | 2019-06-14 | 中南大学 | 一种基于异构网络嵌入的药物靶标相互作用预测方法 |
CN111916145A (zh) * | 2020-07-24 | 2020-11-10 | 湖南大学 | 基于图表示学习的新冠病毒靶标预测和药物发现方法 |
CN112863634A (zh) * | 2021-01-12 | 2021-05-28 | 山东大学 | 基于新冠蛋白质异构网络聚类的中药处方推荐方法及系统 |
CN113066526A (zh) * | 2021-04-08 | 2021-07-02 | 北京大学 | 一种基于超图的药物-靶标-疾病相互作用预测方法 |
-
2021
- 2021-11-12 CN CN202111337127.9A patent/CN114121181B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887540A (zh) * | 2019-01-15 | 2019-06-14 | 中南大学 | 一种基于异构网络嵌入的药物靶标相互作用预测方法 |
CN111916145A (zh) * | 2020-07-24 | 2020-11-10 | 湖南大学 | 基于图表示学习的新冠病毒靶标预测和药物发现方法 |
CN112863634A (zh) * | 2021-01-12 | 2021-05-28 | 山东大学 | 基于新冠蛋白质异构网络聚类的中药处方推荐方法及系统 |
CN113066526A (zh) * | 2021-04-08 | 2021-07-02 | 北京大学 | 一种基于超图的药物-靶标-疾病相互作用预测方法 |
Non-Patent Citations (1)
Title |
---|
Unsupervised heterogeneous transfer fault diagnosis based on graph Laplacian common subspace;Zhanfeng Xu 等;IEEE XPLORE;20210731;1-8 * |
Also Published As
Publication number | Publication date |
---|---|
CN114121181A (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102203065B1 (ko) | 트리플 검증 장치 및 방법 | |
CN106528610A (zh) | 一种基于路径张量分解的知识图谱表示学习方法 | |
CN113628059B (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
Liu et al. | Link prediction approach combined graph neural network with capsule network | |
CN114121181B (zh) | 一种基于注意力机制的异构图神经网络中药靶标预测方法 | |
CN113191530B (zh) | 一种具有隐私保护的区块链节点可靠性预测方法及系统 | |
CN113779355B (zh) | 基于区块链的网络谣言溯源取证方法及系统 | |
Giannella et al. | Communication efficient construction of decision trees over heterogeneously distributed data | |
Li et al. | Hypergraph transformer neural networks | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN112667824A (zh) | 基于多语义学习的知识图谱补全方法 | |
KR20220019461A (ko) | 그래프 신경망을 이용한 지식 그래프 기반 질문 응답 시스템 | |
CN115424660A (zh) | 一种使用预测模型预测多源信息关系的方法、装置 | |
Gencturk et al. | Bofrf: A novel boosting-based federated random forest algorithm on horizontally partitioned data | |
Chen et al. | Construction and application of COVID-19 infectors activity information knowledge graph | |
Zhang et al. | Verifiable fuzzy keyword search supporting sensitive information hiding for data sharing in cloud-assisted e-healthcare systems | |
Gao et al. | Design of telemedicine information query system based on wireless sensor network | |
CN114780879A (zh) | 一种用于知识超图的可解释性链接预测方法 | |
CN112910865B (zh) | 一种基于因子图的推断攻击阶段最大似然估计方法及系统 | |
CN116306780B (zh) | 一种动态图链接生成方法 | |
CN117391816A (zh) | 一种异质图神经网络推荐方法、装置及设备 | |
CN114840777B (zh) | 多维度养老服务推荐方法、装置以及电子设备 | |
CN107018027B (zh) | 一种基于贝叶斯估计和共同邻居节点度的链路预测方法 | |
CN112836511B (zh) | 基于协同关系的知识图谱上下文嵌入方法 | |
Li et al. | Multi-perspective knowledge graph completion with global and interaction features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |