CN113066526B - 一种基于超图的药物-靶标-疾病相互作用预测方法 - Google Patents

一种基于超图的药物-靶标-疾病相互作用预测方法 Download PDF

Info

Publication number
CN113066526B
CN113066526B CN202110377912.0A CN202110377912A CN113066526B CN 113066526 B CN113066526 B CN 113066526B CN 202110377912 A CN202110377912 A CN 202110377912A CN 113066526 B CN113066526 B CN 113066526B
Authority
CN
China
Prior art keywords
node
disease
target
drug
hypergraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110377912.0A
Other languages
English (en)
Other versions
CN113066526A (zh
Inventor
吕肖庆
王蓓
瞿经纬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202110377912.0A priority Critical patent/CN113066526B/zh
Publication of CN113066526A publication Critical patent/CN113066526A/zh
Application granted granted Critical
Publication of CN113066526B publication Critical patent/CN113066526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于超图的药物‑靶标‑疾病相互作用预测方法。本方法为:1)根据药物、靶标、疾病两两之间的二元关系R,建立语义超图G;根据药物分子指纹、靶标序列、疾病表型建立药物节点、靶标节点、疾病节点的特征相似图;2)在语义超图G上应用超图神经网络得到药物、靶标、疾病对应的节点表示;分别在药物、靶标、疾病的特征相似度图上应用图卷积网络得到药物、靶标、疾病对应的节点表示;3)将步骤2)得到的节点表示进行融合;4)利用步骤3)所得每个超边对应的融合后的节点表示训练预测模型;5)生成待预测药物a、疾病c的节点表示并将其输入到训练后的预测模型进行预测,得到药物a通过靶标b治疗疾病c的预测概率。

Description

一种基于超图的药物-靶标-疾病相互作用预测方法
技术领域
本发明属于计算机生物信息网络嵌入及深度学习技术领域,涉及一种基于超图神经网络的药物-靶标-疾病相互作用关系的预测方法。
背景技术
对药物-靶点-疾病相互作用行为的建模在药物发现的早期阶段是至关重要的,并为精准医疗和个性化治疗带来巨大希望。在人类的代谢系统中,许多药物与细胞中的蛋白质靶点相互作用,调节靶点活动,从而改变生物途径,促进健康功能和治疗疾病。因此,利用关联紧密的<药物、靶点、疾病>的三重关系,可以更好地理解药物的作用机制。
近年来,互联网上数据的增长和深度学习模型的不断发展,为探索药物、靶点、疾病之间更全面的关系提供了数据支撑,也为计算机辅助药物发现提供了强大推力。在深度学习模型中,图神经网络模型逐渐被应用在各个领域,取得了重要的研究成果,也为图神经网络在生物信息学领域的应用奠定了基础。但现有方法大都利用传统的图结构(Graph),即将单个数据点映射到节点,将两个点之间的连接或关联映射到边,然而,在实际的应用中,这种成对的连接并不足以描述完整的数据关系,即,这种建模方式将药物-疾病和药物-靶标预测作为两个独立的任务,侧重两两之间的关系,忽略了三种实体之间可能同时发挥作用的依赖关系,在表示药物、靶点、疾病之间复杂的数据关系方面存在局限性。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于超图的药物-靶标-疾病相互作用预测方法。本发明借助同类型医药信息实体之间的相似度,可以同时学习药物-靶标-疾病之间的高阶语义信息和特征相似度信息,自动学习药物、靶标、疾病的低维有效表示,完成对药物-靶标-疾病相互作用预测任务。
本发明的技术方案为:
一种基于超图的药物-靶标-疾病相互作用预测方法,其步骤包括:
1)根据药物、靶标、疾病两两之间的二元关系R,建立语义超图G;根据药物分子指纹、靶标序列、疾病表型获得药物、靶标、疾病的初始特征向量表示XD、XT、XS,然后基于XD建立药物节点的药物特征相似图、基于XT建立靶标节点的靶标特征相似图、基于XS建立疾病节点的疾病特征相似图;
2)在语义超图G上应用超图神经网络得到药物、靶标、疾病对应的节点表示,即药物节点表示hD、靶标节点表示hT和疾病节点表示hS;分别在药物特征相似度图、靶标特征相似度图、疾病特征相似度图上应用图卷积网络得到药物、靶标、疾病对应的节点表示,即药物对应的节点表示
Figure BDA0003011539280000021
靶标对应的节点表示
Figure BDA0003011539280000022
和疾病对应的节点表示
Figure BDA0003011539280000023
3)将步骤2)得到的节点表示进行融合,其中将hD
Figure BDA0003011539280000024
融合得到药物节点表示zD、hT
Figure BDA0003011539280000025
融合得到靶标节点表示zT、hS
Figure BDA0003011539280000026
融合得到疾病节点表示zS
4)将步骤3)所得融合后的节点表示输入到预测层,对训练数据集中样本进行预测,通过最小化损失函数训练整个模型;
5)用训练好的模型生成待预测药物a、靶标b、疾病c的节点表示,并将其输入到训练后的预测层进行预测,得到药物a通过靶标b治疗疾病c的关系预测概率。
进一步的,训练预测模型所用的损失函数为交叉熵损失函数
Figure BDA0003011539280000027
其中,yεi是超边εi的真实标签,
Figure BDA0003011539280000028
为将超边εi对应的融合后的节点表示zD、zT、zS输入预测模型得到的预测标签。
进一步的,所述预测模型为带Sigmoid激活的单层前向神经网络。
进一步的,建立语义超图G的方法为:设药物、靶标、疾病两两之间的二元关系R={RDT,RDS,RTS},其中RDT表示药物-靶标相互作用关系,RDS表示药物-疾病相互作用关系,RTS表示靶标-疾病相互作用关系;根据二元关系R中的相互作用关系将二元关系融合为三元数据模式
Figure BDA0003011539280000029
表示药物
Figure BDA00030115392800000210
和靶标
Figure BDA00030115392800000211
结合可以治愈疾病
Figure BDA00030115392800000212
然后基于三元数据模式建立语义超图G=(V,E),其中V={VD,VT,VS}是节点集,
Figure BDA00030115392800000213
是n种药物构成的药物节点集合,
Figure BDA00030115392800000214
是m种靶标构成的靶标节点集合,
Figure BDA00030115392800000215
是k种疾病构成的疾病节点集合,E={ε1,…,εM}是超边的集合,M为超边总数,每个超边εm由三元组
Figure BDA00030115392800000216
构成,即
Figure BDA00030115392800000217
进一步的,对于同一类型的节点,所述类型包括药物、靶标、疾病;根据两两节点的初始特征向量计算节点的相似度,如果相似度大于设定阈值,则在对应节点之间建立一条边,得到对应节点类型的特征相似图。
进一步的,根据公式ΓT(xi,xj)=cos(Wr⊙xi,Wr⊙xj)计算所述相似度;其中,xi表示节点vi的初始特征向量,Wr是可学习的参数矩阵,表示计算类型r的节点相似度时特征向量不同维度的重要性,⊙表示哈达玛乘积,cos表示余弦相似度。
进一步的,步骤2)中,在语义超图G上应用超图神经网络得到药物、靶标、疾病对应的节点表示的方法为:
211)聚合节点的特征到超边,即对语义超图G上的一个超边εi,通过聚合属于该超边εi的节点的特征向量,建立该超边εi的特征向量表示
Figure BDA0003011539280000031
其中,
Figure BDA0003011539280000032
表示超边εi在超图神经网络第l层的特征向量表示,Ni是超边εi关联的节点个数,
Figure BDA0003011539280000033
是节点vj在超图神经网络第l-1层的嵌入表示,σ是ReLU非线性激活函数,
Figure BDA0003011539280000034
是超图神经网络中可学习的参数;
212)聚合超边特征到节点,即对一个节点vj,基于注意力机制聚合包含节点vj的超边的嵌入表示,其中基于注意力机制的超边到节点的聚合函数公式为
Figure BDA0003011539280000035
其中,注意力系数
Figure BDA0003011539280000036
表示节点vj在超图神经网络第l层的嵌入表示,Mj是节点vj关联的超边个数,
Figure BDA0003011539280000037
是超边εj在超图神经网络第l-1层的嵌入表示,
Figure BDA0003011539280000038
是可学习的度量超边重要性的权重向量,||是拼接运算符,εk为语义超图G上的第k个超边,
Figure BDA0003011539280000039
为超图神经网络中的可学习参数,LeakyReLU为激活函数。
进一步的,步骤2)中,应用带有两个卷积层的图卷积网络更新药物、靶标、疾病的节点表示;更新后的节点表示为
Figure BDA00030115392800000310
其中,Xr为类型r的节点的初始特征向量,
Figure BDA00030115392800000311
Ar为类型r的节点相似度构成的相似度关系矩阵,
Figure BDA00030115392800000312
表示类型r的节点vi和vj的相似度值,
Figure BDA00030115392800000313
是根据相似度矩阵Ar计算得到的度矩阵,I是单位阵,θ=(Wg1,Wg2)是图卷积网络中可学习的参数;类型r包括药物、靶标、疾病。
进一步的,通过一卷积核大小为1×1的卷积层对步骤2)得到的节点表示进行融合。
与现有技术相比,本发明的积极效果为:
本发明提供一种基于超图神经网络的药物-靶标-疾病相互作用预测方法,为改进大部分现有方法普遍存现的问题,即将药物-疾病和药物-靶标预测作为两个独立的任务,忽略了这三种实体之间的依赖关系,不能利用三种实体之间的内在相互作用,本发明借助于超图神经网络和图卷积,同时学习药物-靶标-疾病之间的高阶语义信息和特征相似度信息,能够预测出潜在的药物-靶标-疾病相互作用关系,有助于计算机辅助药物发现中更好地理解药物的作用机制,从而为药物发现提供有价值的参考。
附图说明
图1为本发明的算法框架图;
图2为方法框架图;
图3为超图示例;
图4为特征相似图;
(a)药物特征相似图,(b)靶标特征相似图,(c)疾病特征相似图。
具体实施方式
下面对本发明的详细方法流程作进一步地描述:
本发明提供一种基于超图神经网络的药物-靶标-疾病相互作用预测方法,采用超图神经网络和图卷积网络提取实体关系信息,通过深度模型训练自动学习节点特征表示用于关系预测。步骤包括:建立语义超图和特征相似图、更新节点表示、表示融合、潜在关系预测。本发明克服大多数方法只建模药物-靶标或药物-疾病等二元关系的局限性,有效建模医药数据之间的高阶关系和依赖关系,提高预测出药物-靶标-疾病相互作用关系的准确性,助力药物发现研究。
如图1所示的本发明的流程框图,主要包括以下过程:
1)数据准备,建立语义超图和特征相似图;
2)更新表示,分别在建立的语义超图和特征相似度图上应用超图神经网络和图卷积网络更新节点表示;
3)融合表示,将在语义超图和特征相似度图上更新得到的节点表示进行融合得到最终的节点表示;
4)关联预测,将融合后的表示输入到预测层对<药物,靶标,疾病>关系进行预测;
5)参数更新,采用交叉熵损失函数作为模型的损失函数,并采用反向传播算法更新模型参数,最小化损失值;
6)模型测试,用训练好的模型筛选出最有可能的若干个药物-靶标-疾病相互作用关系。
本发明每个步骤的具体实施方案如下:
步骤一.数据准备,建立语义超图和特征相似图,包括以下步骤:
1.1输入已知的药物、靶标、疾病两两之间的二元关系R={RDT,RDS,RTS},其中RDT表示药物(Drug)-靶标(Target)相互作用关系,RDS表示药物(Drug)-疾病(diSease)相互作用关系,RTS表示靶标(Target)-疾病(diSease)相互作用关系。
1.2将输入的二元关系,经过人工处理,融合为三元数据模式<Drug,Target,diSease>(简记为<D,T,S>),例如,已知二元关系药物a(记为
Figure BDA0003011539280000051
)可以作用于靶标b(记为
Figure BDA0003011539280000052
),即二元关系
Figure BDA0003011539280000053
药物a可以治疗疾病c(记为
Figure BDA0003011539280000054
),即二元关系
Figure BDA0003011539280000055
靶标b和疾病c有关联关系,即二元关系
Figure BDA0003011539280000056
那么就可以将这三个二元关系融合为三元数据模式
Figure BDA0003011539280000057
表示完整语义药物a和靶标b结合可以治愈疾病c。
1.3建立语义超图G=(V,E),其中V={VD,VT,VS}是节点集,
Figure BDA0003011539280000058
是药物节点集合,
Figure BDA0003011539280000059
是靶标节点集合,
Figure BDA00030115392800000510
是疾病节点集合,E={ε1,…,εM}是超边的集合,每个超边εm由1.2.中的
Figure BDA00030115392800000511
三元组构成,用数学语言形式化表示为
Figure BDA00030115392800000512
图3是本发明中建立的语义超图的示例;每个大“圈”表示一条超边,像图中的“a1,b1,c1”就是由一条超边连接起来的。
1.4根据药物分子指纹、靶标序列、疾病表型获得药物、靶标、疾病的初始特征向量表示XD、XT、XS,分别建立三种类型节点的特征相似图。图4是本发明中建立的特征相似图的示例。即将分子指纹作为对应药物的初始特征向量;靶标序列和靶标之间是一一对应关系,靶标序列是字母形式数据需要转化成数值型向量,本发明中采用的方式是:将靶标序列中的字母符号按照字母表的顺序用整数编码(A对应数字1,…,Z对应数字26;即A-1,B-2,…,以此类推Z-26),并且为了方便训练,所有的序列都被填充或者截断为固定为1000的长度,序列长度不足1000的部分,用0补位,得到靶标的数值型特征向量表示(即靶标的初始特征向量);疾病表型是疾病的一种临床特征,采用文章<A text-mining analysis of thehuman phenome>中的方法将疾病表型转化成数值型特征向量(即疾病的初始特征向量)。对于N个药物,对其中的每两药物作为一对药物,然后利用每一对药物的初始特征向量建立两药物之间的相似度,然后根据相似度确定两药物之间是否连接,得到N个药物构成的特征相似图;靶标和疾病同理,分别建立一对应的特征相似图;
1.4.1将药物之间的相似度关系表示为矩阵
Figure BDA00030115392800000513
矩阵AD中任一元素
Figure BDA00030115392800000514
表示药物i和药物j之间的相似度分数;
1.4.2将靶标之间的相似度关系表示为矩阵
Figure BDA0003011539280000061
矩阵AT中任一元素
Figure BDA0003011539280000062
表示靶标i和靶标j之间的相似度分数;
1.4.3将疾病之间的相似度关系表示为矩阵
Figure BDA0003011539280000063
矩阵AS中任一元素
Figure BDA0003011539280000064
表示疾病i和疾病j之间的相似度分数。
其中,节点相似度的计算公式为:
ΓT(xi,xj)=cos(Wr⊙xi,Wr⊙xj) (1)
Figure BDA0003011539280000065
表示节点vi的初始特征表示,
Figure BDA0003011539280000066
是可学习的参数矩阵,表示计算r类型节点相似度时,特征向量不同维度的重要性,⊙表示哈达玛乘积,cos表示余弦相似度,r取值为药物、靶标或疾病,即r类型节点是指药物、靶标或疾病这三种类型中的一种类型的节点。
步骤二.更新表示,分别在步骤一中建立的语义超图和特征相似度图上应用超图神经网络和图卷积网络更新节点表示:
2.1.在语义超图上应用超图神经网络得到药物、靶标、疾病对应的更新后的节点嵌入表示。
2.1.1聚合节点的特征到超边:如图2中“聚合节点特征到超边”部分所示,对一个超边εi,通过聚合属于这个超边εi的节点的特征向量,建立超边的特征向量表示
Figure BDA0003011539280000067
Figure BDA0003011539280000068
其中,
Figure BDA0003011539280000069
表示超边εi在超图神经网络第l层的特征向量表示,AGGv2e是一个聚合函数,将节点特征聚合到超边,在本发明中采用平均聚合函数,Ni是超边εi关联的节点个数,
Figure BDA00030115392800000610
是节点vj在超图神经网络第l-1层的嵌入表示,
Figure BDA00030115392800000611
σ是ReLU非线性激活函数,
Figure BDA00030115392800000612
是超图神经网络中可学习的参数
2.1.2聚合超边特征到节点:如图2中“聚合超边特征到节点”部分所示,对一个节点vj,聚合包含这个节点vj的超边(即{fi|vj∈εi})的嵌入表示,但是,并不是所有包含该节点vj的超边对vj的特征表示贡献度都相同,所以在此引入注意力机制来突出对当前节点vj的节点嵌入表示更重要的超边,因此基于注意力机制的超边到节点的聚合函数公式为:
Figure BDA0003011539280000071
注意力系数α被定义为:
Figure BDA0003011539280000072
其中,
Figure BDA0003011539280000073
表示节点vj在超图神经网络第l层的嵌入表示,AGGe2v是一个带注意力机制的聚合函数,将超边特征加权聚合到顶点,Mj是节点vj关联的超边个数,
Figure BDA0003011539280000074
是超边εj在超图神经网络第l-1层的嵌入表示,σ是ReLU非线性激活函数,W(e2v)和Wv是超图神经网络中可学习的参数。
Figure BDA0003011539280000075
是可学习的度量超边重要性的权重向量,||是拼接运算符,LeakyReLU为带泄露线性整流函数,是一种激活函数,
Figure BDA0003011539280000076
为超图神经网络中的可学习参数。
通过上述的超图神经网络,可以得到更新后的药物节点表示hD、靶标节点表示hT和疾病节点表示hS
2.2分别在1.4建立的药物特征相似度图、靶标特征相似度图、疾病特征相似度图上应用带有两个卷积层的图卷积网络更新药物、靶标、疾病的节点嵌入表示,计算方式如下:
Figure BDA0003011539280000077
其中,Xr∈{XD,XT,XS}是节点的初始特征向量,r∈{D,T,S},
Figure BDA0003011539280000078
Figure BDA0003011539280000079
其中Ar∈{AD,AT,AS}是前文1.4中建立的相似度关系矩阵,
Figure BDA00030115392800000710
就表示类型r的相似度矩阵中节点vi和vj的相似度值,
Figure BDA00030115392800000711
是一个对角矩阵,是根据相似度矩阵Ar计算得到的度矩阵,I是单位阵,θ={Wg1,Wg2}是图卷积网络中可学习的参数集合。
通过上边的图卷积网络,可以得到根据节点特征相似度更新后的药物对应的节点表示
Figure BDA00030115392800000712
靶标对应的节点表示
Figure BDA00030115392800000713
和疾病对应的节点表示
Figure BDA00030115392800000714
步骤三.融合表示,如图2中“表示融合”部分所示,将2.1和2.2中得到的更新后的节点表示进行融合。具体计算方式如下:
融合后的药物节点表示:
Figure BDA00030115392800000715
融合后的靶标节点表示:
Figure BDA0003011539280000081
融合后的疾病节点表示:
Figure BDA0003011539280000082
其中,
Figure BDA0003011539280000083
是堆叠的药物的两种表示,ΦD是1×1的卷积层,其中卷积层的参数是
Figure BDA0003011539280000084
对靶标和疾病的计算采用相同的方式,只是三种类型的节点计算具有不同的参数。由此,可以通过分别学习不同的参数权重来平衡学到的两种类型的表示对最终表示的重要性。
步骤四.关联预测,如图2中关联预测部分所示,将融合后的表示输入到预测层对<药物,靶标,疾病>关系进行预测。首先,获取待预测<药物,靶标,疾病>超边嵌入表示,如下:
f=concat(zD,zT,zS) (11)
即将三者的表示进行拼接,concat表示拼接操作,然后将拼接后的表示输入到预测层,即带sigmoid激活的单层前向神经网络,预测该超边是否具有“药物D和靶标T结合可以治愈疾病S”的相互作用关系,其中sigmoid层的输出值越接近1,表示具有这种关系的概率越大。计算公式如下:
Figure BDA0003011539280000085
其中Wout是预测层前向神经网络的可学习的参数,bout是预测层前向神经网络的可学习的偏置值。
步骤五.参数更新,采用交叉熵损失函数作为模型的损失函数,并采用反向传播算法更新模型参数,最小化损失值,使得随着训练进行,网络的预测结果越来越准确。其中,损失函数为:
Figure BDA0003011539280000086
其中,
Figure BDA0003011539280000087
是超边εi的真实标签。
步骤六.模型测试,用训练好的模型筛选出最有可能的若干个药物-靶标-疾病相互作用关系。采用训练好的模型预测候选的超边,按照预测值从大到小的顺序,即可选出最有可能的若干个药物-靶标-疾病相互作用关系。
下面就应用场景进行举例说明:
假设有药物{a1,a2,a3,a4,a5},靶标{b1,b2,b3},疾病{c1,c2,c3,c4},已知药物a1可以和靶标b1相互作用,靶标b1和疾病c1的发生有所关系,并且已经得到临床验证药物a1可以治愈疾病c1。
根据上边的假设,我们可以得到三组二元关系:药物a1和靶标b1的相互作用关系(a1-b1)、靶标b1和疾病c1的相互作用关系(b1-c1)、药物a1和疾病c1的相互作用关系(a1-c1)。
但是上边的这种二元关系的表现形式,单独的看其中一个的信息,不足以表示出完整的语义信息,即“药物a1可以通过靶标b1,治疗疾病c1”。因此,我们在本发明中引入了“超边”,也就是将“a1-b1-c1”看做一个整体,一个超边可以连接超过两个的顶点,在本示例中,一个超边连接了“a1,b1,c1”这三个节点,一个超边也就代表了一个完整的语义药物a1可以通过靶标b1,治疗疾病c1”,整个数据集中这些关系构成一个个的超边,所有的超边形成了一个超图(Hyper-Graph),如图3所示,在这里,药物、靶标、疾病表示为顶点,药物-靶标-疾病的相互作用关系被表示为超边。本发明通过这种建模方式,利用超图卷积网络,学习节点之间的高阶关系。
在对潜在的药物-靶标-疾病相互作用关系进行预测的时候,除了高阶信息关系,同种类型节点之间的相似关系也很重要。在药物发现过程中,研究者通常认为“相似的药物可以治疗相似的疾病”,因此,本发明中通过在如图4所示的特征相似度图上,利用图卷积网络学习节点的表示,图中的节点分别是药物、靶标、疾病,边的权值代表两个节点之间的相似度。
本发明通过引入上述的超图和特征相似图,可以充分利用高阶关系信息,和特征相似度信息,学习更好的节点表示。
在实际应用中,假设我们想预测“药物a2能否治疗疾病c2”,通过引入上边的超图,可以学习到“药物a2可以通过靶标b3治疗疾病c1”,同时“药物a3也可以通过靶标b3治疗疾病c2”,那么“药物a2很有可能可以通过靶标b3治疗疾病c2”。同时通过特征相似度图,我们也可以充分利用药物a2和药物a3特征相似度的关系,如果药物a2和药物a3特征相似,那么通过特征相似图更新后的节点特征向量在隐向量空间也会更接近,所以通过将两种方式得到的向量表示进行融合,可以充分利用高阶信息和相似度信息,获得高质量的节点表示。最后,本发明会根据学到的药物、靶标、疾病的表示,给出一个预测概率,说明药物a2-靶标b3-疾病c2相互作用的概率,即药物a2通过靶标b3治疗疾病c2的概率,供医药研究者参考。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (8)

1.一种基于超图的药物-靶标-疾病相互作用预测方法,其步骤包括:
1)根据药物、靶标、疾病两两之间的二元关系R,建立语义超图G;根据药物分子指纹、靶标序列、疾病表型获得药物、靶标、疾病的初始特征向量表示XD、XT、XS,然后基于XD建立药物节点的药物特征相似图、基于XT建立靶标节点的靶标特征相似图、基于XS建立疾病节点的疾病特征相似图;
2)在语义超图G上应用超图神经网络得到药物、靶标、疾病对应的节点表示,即药物节点表示hD、靶标节点表示hT和疾病节点表示hS;分别在药物特征相似度图、靶标特征相似度图、疾病特征相似度图上应用图卷积网络得到药物、靶标、疾病对应的节点表示,即药物对应的节点表示
Figure FDA0003636871730000011
靶标对应的节点表示
Figure FDA0003636871730000012
和疾病对应的节点表示
Figure FDA0003636871730000013
其中,在语义超图G上应用超图神经网络得到药物、靶标、疾病对应的节点表示的方法为:211)聚合节点的特征到超边,即对语义超图G上的一个超边εi,通过聚合属于该超边εi的节点的特征向量,建立该超边εi的特征向量表示
Figure FDA0003636871730000014
其中,fi l表示超边εi在超图神经网络第l层的特征向量表示,Ni是超边εi关联的节点个数,
Figure FDA0003636871730000015
是节点vj在超图神经网络第l-1层的嵌入表示,σ是ReLU非线性激活函数,
Figure FDA0003636871730000016
是超图神经网络中可学习的参数;212)聚合超边特征到节点,即对一个节点vj,基于注意力机制聚合包含节点vj的超边的嵌入表示,其中基于注意力机制的超边到节点的聚合函数公式为
Figure FDA0003636871730000017
Figure FDA0003636871730000018
其中,注意力系数
Figure FDA0003636871730000019
Figure FDA00036368717300000110
表示节点vj在超图神经网络第l层的嵌入表示,Mj是节点vj关联的超边个数,fj l-1是超边εj在超图神经网络第l-1层的嵌入表示,
Figure FDA00036368717300000111
是可学习的度量超边重要性的权重向量,||是拼接运算符,εk为语义超图G上的第k个超边,
Figure FDA00036368717300000112
为超图神经网络中的可学习参数,LeakyReLU为激活函数;
3)将步骤2)得到的节点表示进行融合,其中将hD
Figure FDA00036368717300000113
融合得到药物节点表示zD、hT
Figure FDA00036368717300000114
融合得到融合后的靶标节点表示zT、hS
Figure FDA00036368717300000115
融合得到疾病节点表示zS
4)利用步骤3)所得每个超边对应的融合后的节点表示训练预测模型;
5)生成待预测药物a、疾病c的节点表示并将其输入到训练后的预测模型,对<药物,靶标,疾病>关系进行预测,得到药物a通过靶标b治疗疾病c的关系预测概率。
2.如权利要求1所述的方法,其特征在于,训练预测模型所用的损失函数为交叉熵损失函数
Figure FDA0003636871730000021
其中,
Figure FDA0003636871730000022
是超边εi的真实标签,
Figure FDA0003636871730000023
为将超边εi对应的融合后的节点表示zD、zT、zS输入预测模型得到的预测标签。
3.如权利要求1或2所述的方法,其特征在于,所述预测模型为带Sigmoid激活的单层前向神经网络。
4.如权利要求1所述的方法,其特征在于,建立语义超图G的方法为:设药物、靶标、疾病两两之间的二元关系R={RDT,RDS,RTS},其中RDT表示药物-靶标相互作用关系,RDS表示药物-疾病相互作用关系,RTS表示靶标-疾病相互作用关系;根据二元关系R中的相互作用关系将二元关系融合为三元数据模式
Figure FDA0003636871730000024
表示药物
Figure FDA0003636871730000025
和靶标
Figure FDA0003636871730000026
结合可以治愈疾病
Figure FDA0003636871730000027
然后基于三元数据模式建立语义超图G=(V,E),其中V={VD,VT,VS}是节点集,
Figure FDA0003636871730000028
是n种药物构成的药物节点集合,
Figure FDA0003636871730000029
是m种靶标构成的靶标节点集合,
Figure FDA00036368717300000210
是k种疾病构成的疾病节点集合,E={ε1,…,εM}是超边的集合,M为超边总数,每个超边εm由三元组
Figure FDA00036368717300000211
构成,即
Figure FDA00036368717300000212
Figure FDA00036368717300000213
5.如权利要求1所述的方法,其特征在于,对于同一类型的节点,所述类型包括药物、靶标、疾病;根据两两节点的初始特征向量计算节点的相似度,如果相似度大于设定阈值,则在对应节点之间建立一条边,得到对应节点类型的特征相似图。
6.如权利要求5所述的方法,其特征在于,根据公式ΓT(xi,xj)=cos(Wr⊙xi,Wr⊙xj)计算所述相似度;其中,xi表示节点vi的初始特征向量,Wr是可学习的参数矩阵,表示计算类型r的节点相似度时特征向量不同维度的重要性,⊙表示哈达玛乘积,cos表示余弦相似度。
7.如权利要求1所述的方法,其特征在于,步骤2)中,应用带有两个卷积层的图卷积网络更新药物、靶标、疾病的节点表示;更新后的节点表示为
Figure FDA00036368717300000214
其中,Xr为类型r的节点的初始特征向量,
Figure FDA00036368717300000215
Ar为类型r的节点相似度构成的相似度关系矩阵,
Figure FDA00036368717300000216
表示类型r的节点vi和vj的相似度值,
Figure FDA00036368717300000217
是根据相似度矩阵Ar计算得到的度矩阵,I是单位阵,θ=(Wg1,Wg2)是图卷积网络中可学习的参数;类型r包括药物、靶标、疾病。
8.如权利要求1所述的方法,其特征在于,通过一卷积核大小为1×1的卷积层对步骤2)得到的节点表示进行融合。
CN202110377912.0A 2021-04-08 2021-04-08 一种基于超图的药物-靶标-疾病相互作用预测方法 Active CN113066526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110377912.0A CN113066526B (zh) 2021-04-08 2021-04-08 一种基于超图的药物-靶标-疾病相互作用预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110377912.0A CN113066526B (zh) 2021-04-08 2021-04-08 一种基于超图的药物-靶标-疾病相互作用预测方法

Publications (2)

Publication Number Publication Date
CN113066526A CN113066526A (zh) 2021-07-02
CN113066526B true CN113066526B (zh) 2022-08-05

Family

ID=76566210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110377912.0A Active CN113066526B (zh) 2021-04-08 2021-04-08 一种基于超图的药物-靶标-疾病相互作用预测方法

Country Status (1)

Country Link
CN (1) CN113066526B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628696B (zh) * 2021-07-19 2023-10-31 武汉大学 基于双图卷积融合模型的药物连接图分数预测方法及装置
CN113643752A (zh) * 2021-07-29 2021-11-12 北京百度网讯科技有限公司 建立药物协同作用预测模型的方法、预测方法及对应装置
CN114420309B (zh) * 2021-09-13 2023-11-21 北京百度网讯科技有限公司 建立药物协同作用预测模型的方法、预测方法及对应装置
CN114023397B (zh) * 2021-09-16 2024-05-10 平安科技(深圳)有限公司 药物重定向模型生成方法及装置、存储介质、计算机设备
CN113837635B (zh) * 2021-09-29 2024-06-14 支付宝(杭州)信息技术有限公司 风险检测处理方法、装置及设备
CN114121181B (zh) * 2021-11-12 2024-03-29 东南大学 一种基于注意力机制的异构图神经网络中药靶标预测方法
CN115798598B (zh) * 2022-11-16 2023-11-14 大连海事大学 一种基于超图的miRNA-疾病关联预测模型及方法
CN116665763B (zh) * 2023-05-18 2024-05-03 中南大学 一种基于多视图多标签学习的代谢途径推断方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712678A (zh) * 2018-12-12 2019-05-03 中国人民解放军军事科学院军事医学研究院 关系预测方法、装置及电子设备
WO2020170052A1 (en) * 2019-02-21 2020-08-27 King Abdullah University Of Science And Technology Disease-gene prioritization method and system
CN111710428A (zh) * 2020-06-19 2020-09-25 华中师范大学 一种建模全局和局部上下文交互的生物医学文本表示方法
CN112070277A (zh) * 2020-08-17 2020-12-11 杭州电子科技大学 基于超图神经网络的药物-标靶相互作用预测方法
CN112382411A (zh) * 2020-11-13 2021-02-19 大连理工大学 一种基于异质图的药物-蛋白质靶向作用预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11276494B2 (en) * 2018-05-11 2022-03-15 International Business Machines Corporation Predicting interactions between drugs and diseases
CN112119412A (zh) * 2018-05-18 2020-12-22 伯耐沃伦人工智能科技有限公司 具有注意力的图神经网络

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712678A (zh) * 2018-12-12 2019-05-03 中国人民解放军军事科学院军事医学研究院 关系预测方法、装置及电子设备
WO2020170052A1 (en) * 2019-02-21 2020-08-27 King Abdullah University Of Science And Technology Disease-gene prioritization method and system
CN111710428A (zh) * 2020-06-19 2020-09-25 华中师范大学 一种建模全局和局部上下文交互的生物医学文本表示方法
CN112070277A (zh) * 2020-08-17 2020-12-11 杭州电子科技大学 基于超图神经网络的药物-标靶相互作用预测方法
CN112382411A (zh) * 2020-11-13 2021-02-19 大连理工大学 一种基于异质图的药物-蛋白质靶向作用预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Development and Implementation of a Novel Computational Tool for an Efficient Construction of Drug-target Interactome;Jingchun Sun等;《2011 IEEE International Conference on Bioinformatics and Biomedicine Workshops 》;20111227;第274-279页 *
GNDD: A Graph Neural Network-Based Method for Drug-Disease Association Prediction;Bei Wang等;《2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;20200206;第1253-1255页 *

Also Published As

Publication number Publication date
CN113066526A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN113066526B (zh) 一种基于超图的药物-靶标-疾病相互作用预测方法
Zhang et al. Deep learning on graphs: A survey
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
Zhang et al. Constraint score: A new filter method for feature selection with pairwise constraints
CN112119412A (zh) 具有注意力的图神经网络
Jiang et al. Design of structural modular neural networks with genetic algorithm
EL‐Hasnony et al. A hybrid feature selection model based on butterfly optimization algorithm: COVID‐19 as a case study
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
Han et al. A hybrid gene selection method based on gene scoring strategy and improved particle swarm optimization
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
Diallo et al. Auto-attention mechanism for multi-view deep embedding clustering
Xing et al. An adaptive fuzzy c-means clustering-based mixtures of experts model for unlabeled data classification
Lv et al. 3D graph neural network with few-shot learning for predicting drug–drug interactions in scaffold-based cold start scenario
He et al. MRMD3. 0: A python tool and webserver for dimensionality reduction and data visualization via an ensemble strategy
Tahiri et al. Optimized quaternion radial Hahn Moments application to deep learning for the classification of diabetic retinopathy
CN110059154A (zh) 一种基于继承映射的跨模态迁移哈希检索方法
Zhang et al. DBGRU-SE: predicting drug–drug interactions based on double BiGRU and squeeze-and-excitation attention mechanism
CN116720519B (zh) 一种苗医药命名实体识别方法
Wang et al. LDS-CNN: A deep learning framework for drug-target interactions prediction based on large-scale drug screening
Qiao et al. SRS-DNN: a deep neural network with strengthening response sparsity
Suder et al. Bayesian transfer learning
Sun et al. Dynamic adjustment of hidden layer structure for convex incremental extreme learning machine
Wang et al. Sparse imbalanced drug-target interaction prediction via heterogeneous data augmentation and node similarity
Jiang et al. A kernel-based intuitionistic weight fuzzy k-modes algorithm using coupled chained P system combines DNA genetic rules for categorical data
CN114678064A (zh) 一种基于网络表征学习的药物靶标相互作用预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant