CN112270950A - 一种基于网络增强和图正则的融合网络药物靶标关系预测方法 - Google Patents

一种基于网络增强和图正则的融合网络药物靶标关系预测方法 Download PDF

Info

Publication number
CN112270950A
CN112270950A CN202011219170.0A CN202011219170A CN112270950A CN 112270950 A CN112270950 A CN 112270950A CN 202011219170 A CN202011219170 A CN 202011219170A CN 112270950 A CN112270950 A CN 112270950A
Authority
CN
China
Prior art keywords
network
drug
matrix
protein
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011219170.0A
Other languages
English (en)
Other versions
CN112270950B (zh
Inventor
张曦文
戴道清
王伟文
任传贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN202011219170.0A priority Critical patent/CN112270950B/zh
Publication of CN112270950A publication Critical patent/CN112270950A/zh
Application granted granted Critical
Publication of CN112270950B publication Critical patent/CN112270950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于网络增强和图正则的融合网络药物靶标关系预测方法,包括以下步骤:利用无向图模型分别对药物相似网络和蛋白质相似网络进行建模;利用基于三阶邻域随机游走的网络增强方法对建模后的药物相似网络和蛋白质相似网络进行增强处理;用带有图正则的相似矩阵分解模型提取增强处理后的相似网络,分别得到药物网络特征表示和蛋白质网络特征表示;对预测模型进行训练,将药物网络特征表示和蛋白质网络的特征表示向量输入至训练完毕的预测模型,得到药物‑靶标对的关联概率的预测值。本发明能更好的捕获分子间的全局连接关系,同时能有效抑制噪声,使用不同规模、不同噪声程度的分子网络数据进行预测时也更具鲁棒性。

Description

一种基于网络增强和图正则的融合网络药物靶标关系预测 方法
技术领域
本发明涉及系统生物学技术领域,更具体地,涉及一种基于网络增强和图正则的融合网络药物靶标关系预测方法。
背景技术
药物靶标识别是现代药物研发的重要方法。随着高通量技术积累了大量组学数据,利用机器学习方法融合多种信息、寻找具有相似功能的药物或蛋白质,已成为药物靶标识别的重要手段。通过药物或蛋白质的相似性识别药物靶标关联的出发点是,相似的药物更倾向于作用在相似的靶点上、而相似的靶点蛋白更可能结合相似的药物。融合模型可以综合药物的化学结构、药效、药物疾病关联、蛋白质序列结构、相互作用网络、蛋白和药物以及疾病的关联等不同信息,从多方面挖掘相似的药物或靶标蛋白。
针对大规模多组学数据,当前的机器学习融合方法研究主要聚焦于两方面的问题:一是如何有效结合异源、异构数据;二是开发适应大规模数据的模型算法。在现有的融合方法中,与本申请最相近的实现方案有以下几种:
1.用于预测药物-靶点交互作用的基于异构信息的网络整合方法(Y.Luo,X.Zhao,J.Zhou,J.Yang,Y.Zhang,W.Kuang,J.Peng,L.Chen,and J.Zeng,“A network integrationapproach for drug-target interaction prediction and computational drugreposi-tioning from heterogeneous information,”Nature Communications,vol.8,no.1,2017.)。该方法以网络形式的药物、蛋白数据为基础,结合传统随机游走和矩阵分解方法,从不同生物网络中提取药物和蛋白质的特征表示,用以表达药物及蛋白质的共性特征,并基于这些特征预测可能的药物-蛋白相互作用。该方法利用传统随机游走学习网络连接的全局信息,然而缺乏针对噪声的处理过程,对高噪声及区分度低的网络难以得到稳定的表示效果。
2.用于预测药物-靶点相互作用的多相似矩阵协同分解(X.Zheng,H.Ding,H.Mamitsuka,and S.Zhu,“Collaborative matrix factorization with multiplesimilarities for predicting drug-target interactions,”in Proc.SIGKDD,vol.PartF128815,2013,pp.1025–1033.)。该方法对现有药物-蛋白质作用网络进行分解,得到药物和蛋白质的低维特征表示,同时利用药物化学结构、药物分层系统信息(AnatomicalTherapeutic Chemical)、基因序列信息、基因本体(Gene Ontology)及蛋白质相互作用等方面的相似信息约束该低维特征,使学到的药物(蛋白质)特征表示在一定程度上保证了相应相似性。该方法用于分解的是药物-蛋白质相互作用网络的直接连接,这些连接含有较多噪声信息(例如虚假连接、与功能无关连接),学到的特征表示预测效果较差。
上述方法均以多个网络形式的药物和蛋白质数据为基础,分别学习出每种药物或蛋白质的特征表示(即一个低维特征向量),用于预测药物-靶标关系。通过分子之间相互连接的关系网络实现异构数据融合主要有以下问题。首先,每一种数据均含有共性和特有信息。例如序列信息、蛋白质-疾病作用网络均是蛋白质的属性表达,它们共同反应了蛋白分子本身的属性特征,又分别体现基因表达、疾病相关的特性信息。分离特有信息、提取共性特征,是数据有效融合的基本目标。其次,生物分子之间的连接关系较为复杂。生物过程和分子功能往往是由多个分子共同参与,考虑分子功能相似性,仅从分子间直接连接的局部关系进行判断,容易遗漏共同作用分子的其他关系信息。最后,由于实验手段和数据收集测量上的误差,生物网络数据存在不同程度的噪声。当处理的数据规模较大,而已知相互作用关系(正样本)仍比较有限时,噪声问题会存在显著影响,为准确的关系预测带来更大的挑战。
发明内容
本发明为克服上述现有技术中网络药物靶标关系预测方法中分子信息信息提取不全面、生物数据噪音较大影响预测准确度低的缺陷,提供一种基于网络增强和图正则的融合网络药物靶标关系预测方法。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
一种基于网络增强和图正则的融合网络药物靶标关系预测方法,包括以下步骤:
S1:利用无向图模型分别对药物相似网络和蛋白质相似网络进行建模;
S2:利用基于三阶邻域随机游走的网络增强方法对建模后的药物相似网络和蛋白质相似网络进行增强处理;
S3:用带有图正则的相似矩阵分解模型提取增强处理后的相似网络,分别得到药物网络特征表示和蛋白质网络特征表示;
S4:通过已知药物-靶标对的特征信息对预测模型进行训练,将药物网络特征表示和蛋白质网络的特征表示向量输入至训练完毕的预测模型,得到药物-靶标对的关联概率的预测值。
进一步地,其特征在于,步骤S2的具体过程包括:
S201:将药物相似网络和蛋白质相似网络均用G表示,N表示网络中节点个数,S是网络G的相似性矩阵,相似矩阵S中每一个元素sij表示一对节点i和j在属性上的相似系数;
S202:对每一节点构建K邻域,节点i的K邻域由包括i的相似系数最高的K个邻居节点构成,记为Ni,在K邻域上对相似矩阵S进行对称归一化处理得到矩阵Q,相似矩阵对称归一化处理公式为:
Figure BDA0002761473150000031
其中I{·}为示性函数,qij表示矩阵Q元素,i表示行,h、j、j'表示列,N表示药物相似网络或蛋白质相似网络的网络节点个数;
S203:利用归一化之后的矩阵Q在S上实施如下随机游走:
S(t+1)=αQS(t)Q+(1-α)S(t), (2)
其中,α表示随机游走的自相似系数,t→∞,t表示迭代步数,当t→∞时,S收敛到如下矩阵:
S(∞)=(1-α)Q(I-αQ2)-1 (3)
其中,I是N×N单位矩阵,S(∞)为增强相似性矩阵,S(∞)是对称且归一化的。
进一步地,步骤S3的具体过程为:
设定经过步骤S2得到K个增强相似性矩阵,记为
Figure BDA0002761473150000032
Figure BDA0002761473150000033
由softmnax函数定义其近似如下:
Figure BDA0002761473150000034
其中,X和W(k)分别为定义的表示节点共有属性和第k网络专有属性的特征矩阵;
Figure BDA0002761473150000035
中每一个元素表示为:
Figure BDA0002761473150000041
其中xi
Figure BDA0002761473150000042
分别为矩阵X和W(k)的列向量,xi表示节点i的共有属性特征,
Figure BDA0002761473150000043
表示节点j的特有网络特征,D表示降维后的特征向量的维度且D<<N;利用Kullback-Leibler(KL)散度度量相似矩阵得到近似误差:
Figure BDA0002761473150000044
将式(5)代入式(6)得到:
Figure BDA0002761473150000045
使用Laplacian图正则,利用增强相似矩阵对向量xi进行如下约束:
Figure BDA0002761473150000046
其中矩阵
Figure BDA0002761473150000047
对角矩阵
Figure BDA0002761473150000048
表示
Figure BDA0002761473150000049
的度矩阵,其对角元素
Figure BDA00027614731500000410
Tr表示矩阵的迹;
将式(6)和式(8)结合得到目标函数表示为:
Figure BDA00027614731500000411
其中,Lreg表示正则项,λ为正则参数,λ≥0;
采用拟牛顿法,利用目标函数对xi,
Figure BDA00027614731500000412
的梯度进行优化:
Figure BDA00027614731500000413
进一步地,步骤S4的具体过程为:
将Kd个药物的相似网络和Kt个蛋白质相似网络通过步骤S2分别对应得到N×D维的药物特征矩阵Xd、蛋白质特征矩阵Xt,其中药物特征矩阵和蛋白质矩阵的每一列表示一个节点的D维特征,以P表示药物和靶标的相互作用矩阵,若药物i和靶标j存在交互作用,则P矩阵的元素pij=1;否则pij=0,通过公式(8),利用已知交互作用的训练样本学习到药物网络到蛋白质网络的投影矩阵Z:
XdZ(Xt)T≈P (11)
利用得到的投影矩阵Z,对预测样本的每一对药物和标靶输出关联概率预测值,所述预测值表示具有药物和标靶相互作用的可能性:
Figure BDA0002761473150000051
Figure BDA0002761473150000052
表示预测值矩阵。
与现有技术相比,本发明技术方案的有益效果是:
本发明通过基于三阶邻域随机游走的网络增强方法对建模后的药物相似网络和蛋白质相似网络进行增强处理,能更好的捕获分子间的全局连接关系,同时能有效抑制噪声,能够更准确的反映分子的全局结构功能,使用不同规模、不同噪声程度的分子网络数据进行预测时也更具鲁棒性;通过图正则约束更好地处理多数据输入的一致性问题,达到有效利用多种数据信息以全面反映分子功能的效果。
附图说明
图1为本发明方法流程图。
图2为本发明方法流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1-图2所示,一种基于网络增强和图正则的融合网络药物靶标关系预测方法,包括以下步骤:
S1:利用无向图模型分别对药物相似网络和蛋白质相似网络进行建模;
更具体的,所述药物相似网络包括:药物化学结构相似性、药物-疾病关联相似性、药物-副作用相似性、药物相互作用相似性;所述蛋白质相似网络包括:序列结构相似性、蛋白质-疾病关联相似性、蛋白质相互作用相似性。
S2:利用基于三阶邻域随机游走的网络增强方法对建模后的药物相似网络和蛋白质相似网络进行增强处理;
具体过程包括:
S201:将药物相似网络和蛋白质相似网络均用G表示,N表示网络中节点(即对应的药物、蛋白质分子)个数,S是网络G的相似性矩阵,相似矩阵S中每一个元素sij表示一对节点i和j在属性上的相似系数;
S202:对每一节点构建K邻域,节点i的K邻域由包括i的相似系数最高的K个邻居节点构成,记为Ni,在K邻域上对相似矩阵S进行对称归一化处理得到矩阵Q,相似矩阵对称归一化处理公式为:
Figure BDA0002761473150000061
其中I{·}为示性函数,qij表示矩阵Q元素,i表示行,h、j、j'表示列,N表示药物相似网络或蛋白质相似网络的网络节点个数;
S203:利用归一化之后的矩阵Q在S上实施如下随机游走:
S(t+1)=αQS(t)Q+(1-α)S(t), (2)
进一步地,步骤S3的具体过程为:其中,α表示随机游走的自相似系数,t→∞,t表示迭代步数,当t→∞时,S收敛到如下矩阵:
S(∞)=(1-α)Q(I-αQ2)-1 (3)
其中,I是N×N单位矩阵,S(∞)为增强相似矩阵,S(∞)是对称且归一化的。
S3:用带有图正则的相似矩阵分解模型提取增强处理后的相似网络,分别得到药物网络特征表示和蛋白质网络特征表示;
具体过程为:
设定经过步骤S2得到K个增强相似矩阵,记为
Figure BDA0002761473150000071
Figure BDA0002761473150000072
由softmnax函数定义其近似如下:
Figure BDA0002761473150000073
其中,X和W(k)分别为定义的表示节点共有属性和第k网络专有属性的特征矩阵;
Figure BDA0002761473150000074
中每一个元素表示为:
Figure BDA0002761473150000075
其中xi
Figure BDA0002761473150000076
分别为矩阵X和W(k)的列向量,xi表示节点i的共有属性特征,
Figure BDA0002761473150000077
表示节点j的特有网络特征,D表示降维后的特征向量的维度且D<<N;利用Kullback-Leibler(KL)散度度量相似矩阵得到近似误差:
Figure BDA0002761473150000078
将式(5)代入式(6)得到:
Figure BDA0002761473150000079
对每一对节点,希望得到的节点特征向量xi能够保持原网络的相似性,即,若两个节点在原来的网络中是相似的,那它们在特征空间中对应的特征向量应该也是接近的。基于上述原因,使用Laplacian图正则,利用增强相似矩阵对向量xi进行如下约束:
Figure BDA00027614731500000710
其中矩阵
Figure BDA00027614731500000711
对角矩阵
Figure BDA00027614731500000712
表示
Figure BDA00027614731500000713
的度矩阵,其对角元素
Figure BDA0002761473150000081
Tr表示矩阵的迹。
将式(6)和式(8)结合得到目标函数表示为:
Figure BDA0002761473150000082
其中,Lreg表示正则项,λ为正则参数,λ≥0;
采用拟牛顿法,利用目标函数对xi,
Figure BDA0002761473150000083
的梯度进行优化:
Figure BDA0002761473150000084
S4:通过已知药物-靶标对的特征信息对预测模型进行训练,将药物网络特征表示和蛋白质网络的特征表示向量输入至训练完毕的预测模型,得到药物-靶标对的关联概率的预测值。
步骤S4的具体过程为:
将Kd个药物的相似网络和Kt个蛋白质相似网络通过步骤S2分别对应得到N×D维的药物特征矩阵Xd、蛋白质特征矩阵Xt,其中药物特征矩阵和蛋白质矩阵的每一列表示一个节点的D维特征,以P表示药物和靶标的相互作用矩阵,若药物i和靶标j存在交互作用,则P矩阵的元素pij=1;否则pij=0,通过公式(8),利用已知交互作用的训练样本学习到药物网络到蛋白质网络的投影矩阵Z:
XdZ(Xt)T≈P (11)
利用得到的投影矩阵Z,对预测样本的每一对药物和标靶输出关联概率的预测值,所述预测值表示具有药物和标靶相互作用的可能性:
Figure BDA0002761473150000085
其中,
Figure BDA0002761473150000086
表示预测值矩阵。
本发明的算法流程表示如下:
·输入:Kd个药物相似矩阵
Figure BDA0002761473150000087
Kt个蛋白质相似矩阵
Figure BDA0002761473150000088
参数α,λ;
·输出:药物特征表示矩阵Xd,蛋白质特征表示矩阵Xt,预测值矩阵
Figure BDA0002761473150000091
·算法步骤:
i.根据式(1)对称规范化每一个输入的相似矩阵
Figure BDA0002761473150000092
Figure BDA0002761473150000093
得到对应
Figure BDA0002761473150000094
Figure BDA0002761473150000095
ii.利用
Figure BDA0002761473150000096
Figure BDA0002761473150000097
根据式(3)更新
Figure BDA0002761473150000098
Figure BDA0002761473150000099
得到增强矩阵
Figure BDA00027614731500000910
Figure BDA00027614731500000911
分别对
Figure BDA00027614731500000912
Figure BDA00027614731500000913
重复步骤ⅲ-ⅴ直到
(Lt-Lt+1)/max{|Lt|,|Lt+1|,1}≤ε,
其中Lt表示第t步的目标函数Lobj的值,ε=2.2204×10-12表示机器精度:
iii.从[-0.05,0.05]随机选取数值作为Xd,Xt
Figure BDA00027614731500000914
Figure BDA00027614731500000915
元素的初始值;
iv.根据式(10)计算梯度值
Figure BDA00027614731500000916
利用L-BFGS拟牛顿算法包更新
Figure BDA00027614731500000917
Figure BDA00027614731500000918
的元素;
v.根据式(11)得到投影矩阵Z;根据式(12)得到预测值矩阵
Figure BDA00027614731500000919
验证与分析
为了评价本发明中得到的药物和蛋白质的特征表示用于预测药物-靶标相互作用的效果,将其用于真实数据集进行实验。该数据集包含708种药物和1512蛋白质,已知1923对相互作用关系。使用的异构网络包括基于药物化学结构、药物-疾病关联、药物-副作用关联、药物间相互作用、蛋白质序列结构、蛋白-疾病关联和蛋白质相互作用的相似性网络。共有12,015个节点和1,895,445条连边。药物相关数据来源于DrugBank(Version3.0),蛋白质相关数据来源于(Version3.0),疾病相关数据来源于Comparative ToxicogenomicsDatabase,副作用数据来源于SIDER(Version 2)数据库。
本发明与类似方法的对比结果如下表1所示,其中DTINet表示第一对照方法、CMF表示第二对照方法。同时进行了两组实验,即已知作用对和未知作用对数量分别为1:1及1:10时的预测。所采用的评价指标AUROC和AUPR分别表示接受者操作特征曲线和准确率-召回率曲线的曲线下面积。当已知相互作用对(正样本)较少、存在大量未知关联,即正负样本比例严重不平衡时,AUPR指标对预测效果地评价更有辨别度。由结果可见,对比相近方法,本发明在两种实验的各个指标均有稳定的表现。
表1对照试验结果表
Figure BDA0002761473150000101
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于网络增强和图正则的融合网络药物靶标关系预测方法,其特征在于,包括以下步骤:
S1:利用无向图模型分别对药物相似网络和蛋白质相似网络进行建模;
S2:利用基于三阶邻域随机游走的网络增强方法对建模后的药物相似网络和蛋白质相似网络进行增强处理;
S3:用带有图正则的相似矩阵分解模型提取增强处理后的相似网络,分别得到药物网络特征表示和蛋白质网络特征表示;
S4:通过已知药物-靶标对的特征信息对预测模型进行训练,将药物网络特征表示和蛋白质网络的特征表示向量输入至训练完毕的预测模型,得到药物-靶标对的关联概率的预测值。
2.根据权利要求1所述的一种基于网络增强和图正则的融合网络药物靶标关系预测方法,其特征在于,步骤S2的具体过程包括:
S201:将药物相似网络和蛋白质相似网络均用G表示,N表示网络中节点个数,S是网络G的相似性矩阵,相似矩阵S中每一个元素sij表示一对节点i和j在属性上的相似系数;
S202:对每一节点构建K邻域,节点i的K邻域由包括i的相似系数最高的K个邻居节点构成,记为Ni,在K邻域上对相似矩阵S进行对称归一化处理得到矩阵Q,相似矩阵对称归一化处理公式为:
Figure FDA0002761473140000011
其中I{·}为示性函数,q表示矩阵Q的元素,i表示行,h、j、j'表示列,N表示药物相似网络或蛋白质相似网络的网络节点个数;
S203:利用归一化之后的矩阵Q在S上实施如下随机游走:
S(t+1)=αQS(t)Q+(1-α)S(t), (2)
其中,α表示随机游走的自相似系数,t→∞,t表示迭代步数,当t→∞时,S收敛到如下矩阵:
S(∞)=(1-α)Q(I-αQ2)-1 (3)
其中,I是N×N单位矩阵,S(∞)为增强相似性矩阵,S(∞)是对称且归一化的。
3.根据权利要求2所述的一种基于网络增强和图正则的融合网络药物靶标关系预测方法,其特征在于,步骤S3的具体过程为:
设定经过步骤S2得到K个增强相似性矩阵,记为
Figure FDA0002761473140000021
Figure FDA0002761473140000022
由softmnax函数定义其近似如下:
Figure FDA0002761473140000023
其中,X和W(k)分别为定义的表示节点共有属性和第K网络专有属性的特征矩阵;
Figure FDA0002761473140000024
中每一个元素表示为:
Figure FDA0002761473140000025
其中xi
Figure FDA0002761473140000026
分别为矩阵X和W(k)的列向量,xi表示节点i的共有属性特征,
Figure FDA0002761473140000027
表示节点j的特有网络特征,D表示降维后的特征向量的维度且D<<N;
利用Kullback-Leibler(KL)散度度量相似矩阵得到近似误差:
Figure FDA0002761473140000028
将式(5)代入式(6)得到:
Figure FDA0002761473140000029
使用Laplacian图正则,利用增强相似矩阵对向量xi进行如下约束:
Figure FDA00027614731400000210
其中矩阵
Figure FDA00027614731400000211
对角矩阵
Figure FDA00027614731400000212
表示
Figure FDA00027614731400000213
的度矩阵,其对角元素
Figure FDA0002761473140000031
Tr表示矩阵的迹;
将式(6)和式(8)结合得到目标函数表示为:
Figure FDA0002761473140000032
其中,Lreg表示正则项,λ为正则参数,λ≥0;
采用拟牛顿法,利用目标函数对xi,
Figure FDA0002761473140000033
的梯度进行优化:
Figure FDA0002761473140000034
4.根据权利要求3所述的一种基于网络增强和图正则的融合网络药物靶标关系预测方法,其特征在于,步骤S4的具体过程为:
将Kd个药物的相似网络和Kt个蛋白质相似网络通过步骤S2分别对应得到N×D维的药物特征矩阵Xd、蛋白质特征矩阵Xt,其中药物特征矩阵和蛋白质矩阵的每一列表示一个节点的D维特征,以P表示药物和靶标的相互作用矩阵,若药物i和靶标j存在交互作用,则P矩阵的元素pij=1;否则pij=0,通过公式(8),利用已知交互作用的训练样本学习到药物网络到蛋白质网络的投影矩阵Z:
XdZ(Xt)T≈P (11)
利用得到的投影矩阵Z,对预测样本的每一对药物和标靶输出关联概率的预测值,所述预测值表示具有药物和标靶相互作用的可能性:
Figure FDA0002761473140000035
其中,
Figure FDA0002761473140000036
表示预测值矩阵。
CN202011219170.0A 2020-11-04 2020-11-04 一种基于网络增强和图正则的融合网络药物靶标关系预测方法 Active CN112270950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011219170.0A CN112270950B (zh) 2020-11-04 2020-11-04 一种基于网络增强和图正则的融合网络药物靶标关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011219170.0A CN112270950B (zh) 2020-11-04 2020-11-04 一种基于网络增强和图正则的融合网络药物靶标关系预测方法

Publications (2)

Publication Number Publication Date
CN112270950A true CN112270950A (zh) 2021-01-26
CN112270950B CN112270950B (zh) 2023-06-23

Family

ID=74345217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011219170.0A Active CN112270950B (zh) 2020-11-04 2020-11-04 一种基于网络增强和图正则的融合网络药物靶标关系预测方法

Country Status (1)

Country Link
CN (1) CN112270950B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113012770A (zh) * 2021-03-17 2021-06-22 中南大学 基于多模态深度神经网络的药物-药物相互作用事件预测方法、系统、终端及可读存储介质
WO2022110411A1 (zh) * 2020-11-27 2022-06-02 上海商汤智能科技有限公司 信息处理方法及装置、电子设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520166A (zh) * 2018-03-26 2018-09-11 中山大学 一种基于多重相似性网络游走的药物靶标预测方法
CN110246550A (zh) * 2019-06-12 2019-09-17 西安电子科技大学 基于药物相似性网络数据的药物组合预测方法
CN110957002A (zh) * 2019-12-17 2020-04-03 电子科技大学 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN111785320A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于多层网络表示学习的药物靶标相互作用预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520166A (zh) * 2018-03-26 2018-09-11 中山大学 一种基于多重相似性网络游走的药物靶标预测方法
CN110246550A (zh) * 2019-06-12 2019-09-17 西安电子科技大学 基于药物相似性网络数据的药物组合预测方法
CN110957002A (zh) * 2019-12-17 2020-04-03 电子科技大学 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN111785320A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于多层网络表示学习的药物靶标相互作用预测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022110411A1 (zh) * 2020-11-27 2022-06-02 上海商汤智能科技有限公司 信息处理方法及装置、电子设备和计算机可读存储介质
CN113012770A (zh) * 2021-03-17 2021-06-22 中南大学 基于多模态深度神经网络的药物-药物相互作用事件预测方法、系统、终端及可读存储介质
CN113012770B (zh) * 2021-03-17 2022-05-10 中南大学 基于多模态深度神经网络药物-药物相互作用事件预测

Also Published As

Publication number Publication date
CN112270950B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN111210871A (zh) 基于深度森林的蛋白质-蛋白质相互作用预测方法
Li et al. Protein contact map prediction based on ResNet and DenseNet
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
CN112270950B (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN113140254A (zh) 元学习药物-靶点相互作用预测系统及预测方法
CN112652355A (zh) 一种基于深度森林和pu学习的药物-靶标关系预测方法
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
Erfanian et al. Deep learning applications in single-cell omics data analysis
CN113257357B (zh) 蛋白质残基接触图预测方法
Zhang et al. protein2vec: predicting protein-protein interactions based on LSTM
CN117524353B (zh) 一种基于多维度分子信息的分子大模型、构建方法及应用
Murphy et al. Self-supervised learning of cell type specificity from immunohistochemical images
CN114765063A (zh) 基于图神经网络表征的蛋白质与核酸结合位点预测方法
Zhou et al. Accurate and definite mutational effect prediction with lightweight equivariant graph neural networks
Bai et al. A unified deep learning model for protein structure prediction
He et al. Measuring boundedness for protein complex identification in PPI networks
CN115206423A (zh) 基于标签指导的蛋白质作用关系预测方法
CN116486896A (zh) 基于域自适应和图网络的配体特异性结合残基预测方法
Jagtap et al. Multiomics data integration for gene regulatory network inference with exponential family embeddings
Kim et al. Extension of pQSAR: Ensemble model generated by random forest and partial least squares regressions
Ma et al. Drug-target binding affinity prediction method based on a deep graph neural network
Kermani et al. Integrating graph structure information and node attributes to predict protein-protein interactions
Wang et al. DPLA: prediction of protein-ligand binding affinity by integrating multi-level information
Song et al. Bio-Inspired Computing Models and Algorithms
Korkealaakso Predicting liquid-liquid phase separation of proteins using graph neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant