CN112420126A - 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 - Google Patents
一种基于多源数据融合和网络结构扰动的药物靶标预测方法 Download PDFInfo
- Publication number
- CN112420126A CN112420126A CN202011419796.6A CN202011419796A CN112420126A CN 112420126 A CN112420126 A CN 112420126A CN 202011419796 A CN202011419796 A CN 202011419796A CN 112420126 A CN112420126 A CN 112420126A
- Authority
- CN
- China
- Prior art keywords
- drug
- target
- similarity
- network
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003596 drug target Substances 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 title claims abstract description 20
- 239000003814 drug Substances 0.000 claims abstract description 82
- 229940079593 drug Drugs 0.000 claims abstract description 78
- 230000003993 interaction Effects 0.000 claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims description 58
- 108090000623 proteins and genes Proteins 0.000 claims description 30
- 102000004169 proteins and genes Human genes 0.000 claims description 23
- 239000000126 substance Substances 0.000 claims description 22
- 238000009792 diffusion process Methods 0.000 claims description 19
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 8
- 239000003446 ligand Substances 0.000 claims description 8
- 102000003688 G-Protein-Coupled Receptors Human genes 0.000 claims description 7
- 108090000045 G-Protein-Coupled Receptors Proteins 0.000 claims description 7
- 102000004310 Ion Channels Human genes 0.000 claims description 7
- 108020005497 Nuclear hormone receptor Proteins 0.000 claims description 7
- 102000006255 nuclear receptors Human genes 0.000 claims description 7
- 108020004017 nuclear receptors Proteins 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 5
- 102000004190 Enzymes Human genes 0.000 claims description 3
- 108090000790 Enzymes Proteins 0.000 claims description 3
- 230000005624 perturbation theories Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000005610 quantum mechanics Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 201000010099 disease Diseases 0.000 claims description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000013459 approach Methods 0.000 description 4
- 238000002598 diffusion tensor imaging Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000011524 similarity measure Methods 0.000 description 3
- 230000031018 biological processes and functions Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 230000004879 molecular function Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000995051 Brenda Species 0.000 description 1
- 102000003839 Human Proteins Human genes 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 150000001875 compounds Chemical group 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法。其发明内容主要包括:(1)收集药物、靶标相关数据;(2)进行药物相似性分析,得到多种药物相似性;(3)进行靶标相似性分析,得到多种靶标相似性;(4)建立非线性多源数据融合模型,扩散药物相似性、靶标相似性;(5)构建药物靶标双层网络模型;(6)建立药物靶标网络结构扰动模型,预测潜在的药物靶标相互作用。本发明提供了一种多源数据融合链路扰动的方法,以捕获药物靶标网络的链路生成机制规律来识别潜在的药物靶标相互作用。本发明的方法可行且有效,对于研究药物重定位和实现精准医疗具有重要意义。
Description
技术领域
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法。
背景技术
药物靶点相互作用(DTI)在药物发现和开发中起着至关重要的作用,它有助于识别现有药物的新靶点或预测已知靶点的新药。由于DTI的实验测定既昂贵又耗时,目前只有少数药物靶向相互作用通过湿实验室实验得到验证。因此,近年来,许多研究者试图通过使用电子或计算方法来指导体内验证来预测DTI,从而显著降低了识别药物靶向相互作用的成本和时间。
早期的DTIs计算方法可分为两大类:基于对接模拟和基于配体的方法。对接方法考虑目标蛋白的三维结构,但是这种方法非常耗时,而且并不是所有靶蛋白都能获得靶蛋白的结构信息。基于配体的方法将查询配体与一组已知的目标蛋白配体进行比较。但在已知的靶蛋白配基数量较少的情况下,它不能很好地发挥作用。为了克服这一难题,已经开发出许多种基于机器学习的方法来预测DTI。一些研究使用矩阵分解来推断DTI,这种技术将代表药物靶网络的矩阵分解为多个由潜在特征组成的低秩矩阵,这些特征被假定控制DTIs。例如,NRLMF(Liu,Y.et al.:Neighborhood regularized logistic matrixfactorization for drug-target interaction prediction[J].PLoS Comput.Biol,2016,12,e1004760.)应用相互作用数据的局部结构,提出了一种基于logistic矩阵分解的药物靶向相互作用推断方法。DNILMF(Hao,M.et al.:Predicting drug-targetinteractions by dual-network integrated logistic matrix factorization[J].Sci.Rep,2019,7,40376.)结合了靶点和药物的轮廓信息来增强NRLMF方法,该模型表明与仅利用单一目标相似性和单一药物相似性的方法相比,采用不同的目标和药物相似性度量方法可以提高预测性能,并且基于非线性相似性测度积分的预测模型比基于线性组合相似性测度的预测模型具有更好的性能。
此外,基于深度学习的方法在解决许多生物问题方面也受到广泛关注,这些方法虽然取得了很好的效果,但可解释能力差,训练时间成本高。与此相比,基于网络的方法显示出了很大的优势。首先,即使训练数据量不大,基于网络的方法也能具有良好的预测性能。其次,它们是快速和简单的,因为只需要执行简单的物理过程。然而,现有的大量的基于网络的模型主要是基于特定的启发式来识别药物靶标相互作用。尽管这些启发式方法在DTI中有意义,但它们忽略了DTI网络中的链路生成机制而不能充分展示药物与靶点之间的潜在关联。药物靶点相互作用预测问题可以建模为二部网络中的链接预测问题,观察到的药物靶网络结构可以根据一些一致性规则进行推广,以纠正缺失信息。如果添加的新链接对原始网络结构的一致性影响越小,则越有可能是缺失的链接。
有鉴于此,本发明面向药物靶标网络中的链路生成机制,提出了一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法,以识别潜在的药物靶标相互作用。
发明内容
本发明提出了一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法,用以识别潜在的药物靶标相互作用,主要包括以下步骤:
(1)收集已知药物靶标相互作用数据、药物化学结构结构信息、靶标氨基酸序列信息、靶蛋白GO信息;
(2)进行药物相似性分析,得到多种药物相似性;
(3)进行靶标相似性分析,得到多种靶标相似性;
(4)建立非线性多源数据融合模型,扩散融合药物相似性、靶标相似性;
(5)构建药物靶标双层网络模型;
(6)建立药物靶标网络结构扰动模型,预测潜在的药物靶标相互作用,得到最终结果。
1.数据收集阶段
首先,在进行计算相似性之前需要先获取药物的化学结构数据,靶标的氨基酸序列数据以及GO数据,该方法中药物的化学结构是从KEGG配体数据库中的化合物和药物部分获得的,靶标蛋白的氨基酸序列从KEGG基因数据库中提取,靶标的GO函数数据来自GOA数据库。
其次,现有已知的药物靶标相互作用数据在这一步也要被收集,我们从Yamanishi数据库中下载了已经被观察到的药物靶向相互作用,该数据集最初由Yamanishi等人提供,这些药物靶标相互作用信息是从SuperTarget、KEGG BRITE、DrugBank和BRENDA数据库中检索得到的,并且他们根据不同的靶蛋白类别将DTIs信息分为了四组:(1)核受体(NR);(2)酶(E);(3)离子通道(IC)和(4)G蛋白偶联受体(GPCR)。其中,NR数据集包括了90个相互作用,涉及54种药物和26个靶标,E数据集包括2926个相互作用,涉及445种药物和664个靶标,IC数据集包括1476个相互作用,涉及210种药物和204个靶标,GPCR数据集包括635个相互作用,涉及223种药物和95个靶标。
2.药物相似性分析阶段
SIMCOMP最初是作为一种基于图的方法来比较化学结构的,它是一种化学结构搜索服务于化学相似性搜索。本研究采用SIMCOMP算法计算两种药物之间的化学结构相似性,采用图对齐方法,根据药物间最大公共子结构的大小来反映整体相似度得分。在这种方法中,药物di和药物dj之间的化学结构相似性计算如下:
此外,基于药物在DTI网络中表现出类似的非相互作用和相互作用的模式,可能会对新的靶蛋白表现出类似的相互作用行为。我们通过构建二进制向量 来编码药物di与所考虑的DTI网络中各靶标的相互作用谱,因此,药物di和药物dj之间的高斯相互作用谱剖面相似性计算如下:
其中,参数γd是用于调节内核带宽的,可以通过γ′d利用每种药物的相关靶标平均数标准化得到,因此,γd被定义如下:
其中,参数γ′d能通过交叉验证进行设置。我们根据之前的研究简单的设置γ′d为1。
3.靶标相似性分析阶段
在这项工作中,我们专注于人类蛋白质,根据化学上相似的药物倾向于与相似的目标蛋白质相互作用的想法,使用归一化的Smith-Waterman得分计算了靶标序列相似度对于一对蛋白质ti和tj,它们的序列之间的相似性计算如下:
另外,功能相似的基因更有可能调节相似的疾病,并且倾向于用相似的药物治疗,因此,我们使用基因功能信息来构建靶标GO功能相似性网络针对每个名称空间分子功能(MF)、细胞间隔(CC)和生物过程(BP)的目标蛋白GO术语关联;每个目标蛋白质的轮廓由一个二进制向量描述,指定每个GO名称空间中是否存在每个GO术语。在我们的方法中,我们只考虑实验证据码GO项。利用Rcpi工具计算语义相似度。我们采用了“calcParProtGOSim”,参数为organic=“human”、measure=“Wang”和combine=“BMA”。
4.多源数据扩散阶段
由于每个相似性网络可能包含不同的信息和噪声,并且生物数据之间存在非线性关系。我们建立一种非线性相似性融合方法(DTSNF)分别对药物相似性和目标相似性进行融合,得到信息更丰富、更可靠的药物相似性网络以及靶标相似性网络。
一个相似性网络可以表示为一个图G=(V,E),其中V={V{1},V{2},…,V{N}}对应于网络中的节点集(药物或靶标),E对应边集。我们将相应的相似性矩阵表示为S,其中Sij是节点Vi和Vj之间的相似性。我们在每个相似性矩阵上定义了一个完整核和一个稀疏核,完整的内核是一个标准化的权重矩阵F=D-1S,D是一个对角矩阵,并且D(i,i)=∑jS(i,j)。考虑到这种归一化涉及到S的对角项的自相似性,从而可能会受到数值不稳定性的影响。因此,为了保证相似度区间在0到1之间,节点的自相似度为1,我们采用更好的归一化方法来约束相似度边界,使其更具生物可解释性。一个更好的正则化术语定义如下:
其中n为相似度网络中的节点数,Si,k表示相似性矩阵种的第i行。
采用K最近邻算法度量局部亲和度,得到稀疏核:
其中Ni是节点Vi的K个最近邻集。F为相似度网络的全部信息编码,L仅捕捉网络中每个节点的K个最近邻的相似度信息。
基于流形学习算法的思想,我们认为节点与其邻居之间的相似性比远程节点更可靠。我们可以通过图扩散得到非邻域的相似度,因为即使Vi和Vj在一个数据视图中不是很相似,但在扩散和传播过程中,它们的相似性可以通过其他相似视图的信息来表达。让初始状态矩阵F(i)是通过公式5求得表示第i种相似性的全信息矩阵。状态矩阵可以计算如下:
Ft (i)=L(i)×(L(i))T,i=1,2,…,n (7)
式中,Ft (i)为t(t>0)次迭代后第i个相似网络的状态矩阵,m是相似性网络的数量。在每次迭代中,Ft (i)都会根据公式(5)进行归一化,以确保每个节点都是与自身最相似的,其值为1。在t步后,最终融合矩阵计算为:
我们应用DTSNF模型分别整合靶标-靶标相似性和药物-药物相似性,得到FD和FT。FD表示最终的药物扩散矩阵,FT为靶标扩散矩阵。
5.构建药物靶标双层网络模型
由于结构摄动法仅适用于实对称矩阵,因此我们用FD,FT和DT构造了一个双层网络。矩阵FD为药物多源数据信息扩散后的的相似性网络,权重为Sd。FT为靶标多源数据信息扩散后的的相似性网络,权值为St。我们将矩阵DT定义为已知的DTIs网络,如果药物i和靶标j相连,则元素DT(i,j)=1;否则,DT(i,j)=0。因此,药物靶向双层网络可用A×A(A=N+M表示网络中药物和靶点总数)无向邻接矩阵BNAXA表示。
6.用结构微扰法预测药物靶标相互作用
当网络因某种演化或扰动过程而动态变化时,信息在网络结构中表现为一定的规律性或一致性。结构摄动法通过随机删除少量杆件来一阶近似法搅动其余的链路,它目的是用另一组观测到的链路扰动网络,恢复被视为未知信息的丢失链路。针对这一特点,我们将结构扰动的思想应用于药物靶标双层网络上来预测潜在的药物靶标相互作用。
把矩阵BN看作一个边缘加权二分图网络G(U,V,E),其中U指药物顶点集,V是靶标节点集,E表示药物和靶标之间的加权边。我们随机地从E中分离出一个分数链接来构建一个扰动集ΔE,然后其余的链接可以定义为ER=E-ΔE。因此,可以获得一个新的网络GR(U,V,ER),其邻接矩阵为BNR=BN-ΔBN,其中ΔBN表示被删除的链路的邻接矩阵。类似于量子力学中的一阶微扰哈密顿算法,结构微扰理论被应用到BNR。由于BNR是一个对称矩阵,因此可以写成:
其中λk是BNR对应的特征值,xk是正交的和标准化的特征向量。
我们用ΔE作为BNR的摄动集,然后用一阶近似法构造扰动矩阵,使特征值发生变化,但保持特征向量不变。我们考虑两种情况,第一种,如果邻接矩阵BNR没有任何重复特征值,则考虑非退化情况。在扰动后,特征值λk变为λk+Δλk,相应的特征向量变为xk+Δxk。因此,我们可以得到:
(BNR+ΔBN)(xk+Δxk)=(λk+Δλk)(xk+Δxk),k=1,2,…,n. (11)
通过固定特征向量,根据扰动特征值可以得到如下扰动矩阵BN′
如果基于BNR展开,则BN′可以将其看作给定双层网络BN的线性近似。第二种情况,考虑具有重复特征值的退化情形。我们将特征值表示为λki,其中下标k表示不同的特征值,下标i表示相同特征值的Q个相关特征向量。在网络中加入扰动后,由于对称节点会发生部分或全部位移,因此选取退化特征值,并将其连续转化为扰动非退化特征值。如果所选特征向量定义为则特征函数可以表示为:
(BNR+ΔBN)(x′ki)=(λki+Δλ′ki)x′ki (14)
给我们
写成矩阵形式,能被重写为
WBNk=Δλ′kBNk (17)
矩阵特征向量可以反映网络的结构特征。如果矩阵BN′和矩阵BN的特征向量几乎相同,则说明扰动集对结构特征没有显著影响。恢复的新链路对原有网络结构的影响越小,就越有可能是丢失的链路。我们选择BN′通过右上角的DT′得到最终的扰动矩阵,运行10次独立的扰动集平均这十次结果得到BN″。所有未观测到的链路根据其在扰动矩阵中的相应分数按降序排序。这些链路的得分越高,存在的可能性就越大。
具体实施方式
本发明是一种基于非线性多源数据融合和网络结构扰动的药物靶标预测方法。下面描述本发明的具体实施方式。本领域技术人员应该理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的取证范围。
步骤1:从Yamanishi数据库中下载被实验验证的四种药物靶标数据集,包括(1)核受体(NR)数据集;(2)酶(E)数据集;(3)离子通道(IC)数据集和(4)G蛋白偶联受体(GPCR)数据集。从KEGG配体数据库中提取出药物的化学结构,从KEGG基因数据库中提取出靶蛋白的氨基酸序列,从GOA数据库中提取出靶蛋白的GO数据。然后筛选出四种药物靶标数据集中对应的药物的化学结构,靶标的氨基酸序列以及GO数据信息。
步骤2:根据上述提取出的药物化学结构信息利用公式(1)计算出药物的化学结构相似性。在根据获取得到的被实验验证的药物靶标相互作用网络按照公式(2)和公式(3)计算出药物的高斯相互作用谱剖面相似性,根据前人的研究,我们取γ′d为1。
步骤3:对于每一个靶标蛋白,根据步骤1中提取到的氨基酸序列利用公式(4)求得每一对靶蛋白之间的相似性,得到靶标序列相似性矩阵。然后,利用靶标的GO数据使用Rcpi工具计算出靶蛋白的GO功能相似性,得到靶蛋白的GO功能相似性矩阵,应用Rcpi工具时,我们采用了“calcParProtGOSim”,参数为organic=“human”、measure=“Wang”和combine=“BMA”。
步骤4:考虑到生物数据之间通常没有明显的线性关系,我们提出了一种非线性相似性融合算法来捕获多源生物数据中的非线性关系。我们利用步骤2中得到的药物化学结构相似性和药物高斯相互作用谱剖面相似性,根据公式(5)得出每种药物相似性的完整核信息,根据公式(6)得到每种药物相似性的稀疏核信息。然后,基于公式(7)我们得到状态转移矩阵,为了保证自相似性,在状态转移矩阵的迭代中每一步都根据公式(5)进行归一化,在t次迭代后,我们平均每一次迭代的结果得到最后的药物多源信息扩散矩阵。另外,利用步骤3中得到的靶标序列相似性和靶标GO语义相似性进行以上同样的操作,得到最后的靶标多源信息扩散矩阵。
步骤5:利用步骤4中得到的药物多源信息扩散矩阵,靶标多源信息扩散矩阵和步骤1中提取的已知药物靶标相互作用信息按照公式(9)构造一个双层网络BN′以便于下一步操作。
步骤6:利用步骤5中得到的双层网络BN′是实对称的特点,我们应用结构扰动的思想在药物靶标网络上。首先从双层网络中随机选择10%的链接作为扰动链接并删除他们,然后根据量子力学中的一阶微扰哈密顿算法,将结构微扰理论应用于我们的网络,双层网络可以表示为公式(10),然后用一阶近似法构造扰动矩阵,使特征值发生变化,但保持特征向量不变的特点,计算出被扰动后的网络。最后,我们选择BN′右上角的DT′得到最终的扰动矩阵,运行10次独立的扰动集平均这十次结果得到BN″。将网络BN″中所有未观测到的链路根据其在扰动矩阵中的相应分数按降序排序。这些链路的得分越高,那么越可能是潜在的药物靶标相互作用。
本领域技术人员可以理解,本发明的保护范围不局限于所述的具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征进行等同的更改或替换,需要注意的是,更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (7)
1.一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法,其特征在于实施步骤为:
(1)收集已知药物靶标相互作用数据、药物化学结构信息、靶标氨基酸序列信息、靶蛋白GO信息;
(2)进行药物相似性分析,得到药物化学结构相似性和药物高斯相互作用谱剖面相似性;
(3)进行靶标相似性分析,得到靶标序列相似性和靶标GO功能相似性;
(4)建立非线性多源数据融合模型,分别扩散融所有的合药物相似性和所有的靶标相似性;
(5)构建药物靶标双层网络模型;
(6)建立药物靶标网络结构扰动模型,预测潜在的药物靶标相互作用,得到最终结果。
2.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法,其特征在于数据收集阶段:
(1)从Yamanishi数据库中下载被实验验证的药物靶标相互作用数据,将其作为分析数据的主体以及度量药物的高斯相互作用谱剖面相似性,它包含核受体(NR)数据集、酶(E)数据集、离子通道(IC)数据集和G蛋白偶联受体(GPCR)数据集;
(2)从KEGG配体数据库中提取药物的化学结构信息,以度量药物的化学结构相似性;
(3)从KEGG基因数据库中收集靶标的氨基酸序列信息,以度量靶标的序列相似性;
(4)从GOA数据库中提取出靶蛋白的GO数据,以度量靶标的GO功能相似性。
4.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法,其特征在于靶标相似性分析阶段:
(1)根据化学上相似的药物倾向于与相似的目标蛋白质相互作用的想法,使用归一化的Smith-Waterman得分计算靶标序列相似度;
(2)功能相似的基因更有可能调节相似的疾病,并且倾向于用相似的药物治疗,因此,我们使用基因的GO功能信息来构建靶标的GO功能相似性。
5.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法,其特征在于多源数据扩散阶段:
(1)对所获得的药物化学结构相似性矩阵,药物高斯相互作用谱剖面相似性矩阵分别定义一个完整核和一个稀疏核,利用k最近邻居算法度量局部亲和度,使用图扩散得到非邻域的相似度,通过对完整核和稀疏核的迭代运算,在多次扩散和传播过程中得到最终的药物多源信息扩散矩阵;
(2)对所获得的靶标序列结构相似性矩阵,靶标GO功能相似性矩阵分别定义一个完整核和一个稀疏核,利用k最近邻居算法度量局部亲和度,使用图扩散得到非邻域的相似度,通过对完整核和稀疏核的迭代运算,在多次扩散和传播过程中得到最终的靶标多源信息扩散矩阵。
6.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法,其特征在于构建药物靶标双层网络模型,构建表示实验验证的药物靶标相互作用网络的邻居矩阵,利用获得的药物多源信息扩散矩阵,靶标多源信息扩散矩阵和被实验验证的药物靶标相互作用零阶矩阵构造一个药物靶标双层网络。
7.根据权利要求1所述的一种基于多源数据融合和网络结构扰动的药物靶标相互作用预测方法,其特征在于用结构微扰法预测潜在的药物靶标相互作用,根据药物靶标双层网络的实对称特点和量子力学中的一阶微扰哈密顿算法,将结构微扰理论应用于我们的网络,构建关于药物靶标网络的结构扰动模型;通过一阶近似法构造扰动矩阵求解结构扰动模型得到最终扰动后恢复的网络;对所有未观测到的链路根据其在扰动后恢复的网络中的相应分数按降序排序,得分越高的越可能是潜在的药物靶标相互作用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011419796.6A CN112420126A (zh) | 2020-12-07 | 2020-12-07 | 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011419796.6A CN112420126A (zh) | 2020-12-07 | 2020-12-07 | 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112420126A true CN112420126A (zh) | 2021-02-26 |
Family
ID=74776006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011419796.6A Pending CN112420126A (zh) | 2020-12-07 | 2020-12-07 | 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112420126A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113270153A (zh) * | 2021-05-27 | 2021-08-17 | 南华大学 | 一种靶向g蛋白偶联受体的化合物的筛选方法 |
CN113345535A (zh) * | 2021-06-04 | 2021-09-03 | 南开大学 | 保持药物化学性质与功能一致性的药物靶标预测方法及系统 |
CN113409884A (zh) * | 2021-06-30 | 2021-09-17 | 北京百度网讯科技有限公司 | 排序学习模型的训练方法及排序方法、装置、设备及介质 |
CN114496303A (zh) * | 2022-01-06 | 2022-05-13 | 湖南大学 | 一种基于多通道神经网络的抗癌药物筛选方法 |
CN114678064A (zh) * | 2022-04-04 | 2022-06-28 | 湖南大学 | 一种基于网络表征学习的药物靶标相互作用预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109411019A (zh) * | 2018-12-12 | 2019-03-01 | 中国人民解放军军事科学院军事医学研究院 | 一种药物预测方法、装置、服务器及存储介质 |
CN109887540A (zh) * | 2019-01-15 | 2019-06-14 | 中南大学 | 一种基于异构网络嵌入的药物靶标相互作用预测方法 |
CN110176271A (zh) * | 2019-03-06 | 2019-08-27 | 山西医科大学 | 多组学数据扰动云 |
US20190304568A1 (en) * | 2018-03-30 | 2019-10-03 | Board Of Trustees Of Michigan State University | System and methods for machine learning for drug design and discovery |
CN111524546A (zh) * | 2020-04-14 | 2020-08-11 | 湖南大学 | 一种基于异构信息的药物-靶标相互作用预测方法 |
CN111785320A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于多层网络表示学习的药物靶标相互作用预测方法 |
-
2020
- 2020-12-07 CN CN202011419796.6A patent/CN112420126A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190304568A1 (en) * | 2018-03-30 | 2019-10-03 | Board Of Trustees Of Michigan State University | System and methods for machine learning for drug design and discovery |
CN109411019A (zh) * | 2018-12-12 | 2019-03-01 | 中国人民解放军军事科学院军事医学研究院 | 一种药物预测方法、装置、服务器及存储介质 |
CN109887540A (zh) * | 2019-01-15 | 2019-06-14 | 中南大学 | 一种基于异构网络嵌入的药物靶标相互作用预测方法 |
CN110176271A (zh) * | 2019-03-06 | 2019-08-27 | 山西医科大学 | 多组学数据扰动云 |
CN111524546A (zh) * | 2020-04-14 | 2020-08-11 | 湖南大学 | 一种基于异构信息的药物-靶标相互作用预测方法 |
CN111785320A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于多层网络表示学习的药物靶标相互作用预测方法 |
Non-Patent Citations (2)
Title |
---|
ZHANGLI LU等: "HNEDTI: Prediction of drug-target interaction based on heterogeneous network embedding", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE》 * |
张媛媛等: "基于多源数据融合的复杂疾病建模方法研究", 《数学建模及其应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113270153A (zh) * | 2021-05-27 | 2021-08-17 | 南华大学 | 一种靶向g蛋白偶联受体的化合物的筛选方法 |
CN113345535A (zh) * | 2021-06-04 | 2021-09-03 | 南开大学 | 保持药物化学性质与功能一致性的药物靶标预测方法及系统 |
CN113409884A (zh) * | 2021-06-30 | 2021-09-17 | 北京百度网讯科技有限公司 | 排序学习模型的训练方法及排序方法、装置、设备及介质 |
CN114496303A (zh) * | 2022-01-06 | 2022-05-13 | 湖南大学 | 一种基于多通道神经网络的抗癌药物筛选方法 |
CN114496303B (zh) * | 2022-01-06 | 2024-06-04 | 湖南大学 | 一种基于多通道神经网络的抗癌药物筛选方法 |
CN114678064A (zh) * | 2022-04-04 | 2022-06-28 | 湖南大学 | 一种基于网络表征学习的药物靶标相互作用预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107506591B (zh) | 一种基于多元信息融合和随机游走模型的药物重定位方法 | |
Wang et al. | Protein docking model evaluation by graph neural networks | |
CN112420126A (zh) | 一种基于多源数据融合和网络结构扰动的药物靶标预测方法 | |
US20190304568A1 (en) | System and methods for machine learning for drug design and discovery | |
CN107545151B (zh) | 一种基于低秩矩阵填充的药物重定位方法 | |
Dhal et al. | A multi-objective feature selection method using Newton’s law based PSO with GWO | |
CN105653846A (zh) | 基于集成的相似性度量和双向随机游走的药物重定位方法 | |
Guzzi et al. | Biological network analysis: Trends, approaches, graph theory, and algorithms | |
Zeng et al. | Deep collaborative filtering for prediction of disease genes | |
CN110957002A (zh) | 一种基于协同矩阵分解的药物靶点相互作用关系预测方法 | |
CN109637579B (zh) | 一种基于张量随机游走的关键蛋白质识别方法 | |
CN110021341A (zh) | 一种基于异构网络的gpcr药物和靶向通路的预测方法 | |
Pashaei et al. | Gene selection using hybrid dragonfly black hole algorithm: A case study on RNA-seq COVID-19 data | |
Sarwar et al. | A survey of big data analytics in healthcare | |
CN111951886A (zh) | 一种基于贝叶斯归纳型矩阵补全的药物重定位预测方法 | |
Hosseini et al. | FWCMR: A scalable and robust fuzzy weighted clustering based on MapReduce with application to microarray gene expression | |
Pourabbasi et al. | A new single-chromosome evolutionary algorithm for community detection in complex networks by combining content and structural information | |
CN116580848A (zh) | 一种基于多头注意力机制的分析癌症多组学数据方法 | |
CN115050428A (zh) | 基于深度学习融合分子图及指纹的药物性质预测方法及系统 | |
Yi et al. | Learning representation of molecules in association network for predicting intermolecular associations | |
Attea et al. | Improving the performance of evolutionary-based complex detection models in protein–protein interaction networks | |
Ma et al. | Heuristics and metaheuristics for biological network alignment: A review | |
Singh et al. | Towards probabilistic generative models harnessing graph neural networks for disease-gene prediction | |
CN115985520A (zh) | 基于图正则化矩阵分解的药物疾病关联关系的预测方法 | |
CN117312881B (zh) | 临床试验治疗效果评估方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210226 |