CN110910953B - 一种基于蛋白质-域异构网络的关键蛋白预测方法 - Google Patents

一种基于蛋白质-域异构网络的关键蛋白预测方法 Download PDF

Info

Publication number
CN110910953B
CN110910953B CN201911187485.9A CN201911187485A CN110910953B CN 110910953 B CN110910953 B CN 110910953B CN 201911187485 A CN201911187485 A CN 201911187485A CN 110910953 B CN110910953 B CN 110910953B
Authority
CN
China
Prior art keywords
protein
domain
network
following formula
given
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911187485.9A
Other languages
English (en)
Other versions
CN110910953A (zh
Inventor
王雷
孟子璇
邹赛
陈治平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing College of Electronic Engineering
Changsha University
Original Assignee
Chongqing College of Electronic Engineering
Changsha University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing College of Electronic Engineering, Changsha University filed Critical Chongqing College of Electronic Engineering
Priority to CN201911187485.9A priority Critical patent/CN110910953B/zh
Publication of CN110910953A publication Critical patent/CN110910953A/zh
Application granted granted Critical
Publication of CN110910953B publication Critical patent/CN110910953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明根据PageRank算法,设计了一种基于异构蛋白质域网络的基本蛋白质预测方法。本发明先将加权PPI网络、域‑域网络和初始蛋白质域网络三种网络结合起来,构建一个新的蛋白质‑域异构网络。其中,这三种网络分别根据基因表达数据、原始PPI网络以及已知的蛋白质‑域关联关系网络建立起来的。然后根据提取的每个蛋白质的功能特征和拓扑特征计算出每个蛋白质和域的初始分数。接下来,在新构建的蛋白质‑域异构网络的基础上,根据蛋白质和域的初始分数进一步构建新的分配率网络。最后,在构建的分配率网络的基础上,本发明设计了一种改进的PageRank算法来预测关键蛋白,并且预测的精度得到了很大的提高。

Description

一种基于蛋白质-域异构网络的关键蛋白预测方法
技术领域
本发明属于生物信息领域,具体涉及关键蛋白预测方法。
背景技术
越来越多的证据表明,蛋白质几乎参与了所有的生命活动,而不同蛋白质在生命活动中的功能和重要性是不同的。关键蛋白作为一类重要的蛋白质,在生物体的发育和生存中起着至关重要的作用,不仅能为维持生命提供基本的需求,而且在合成生物学中具有一定的实用价值。缺乏关键蛋白会导致蛋白质复合体的生物功能丧失,甚至导致机体死亡。因此,预测关键蛋白逐渐成为一个热点问题,这有利于疾病的治疗和药物的发展。在生物学中,识别关键蛋白主要通过生物学实验进行,如单基因敲除RNA干扰、条件敲除等。然而,生物实验是非常耗时和昂贵的。近年来,大量的计算方法相继被提出。其中,预测关键蛋白的准确性仍是一个具有挑战性的难题。
发明内容
为了解决上述问题,本发明提供一种准确性较高的基于异构蛋白质域网络的基本蛋白质预测方法,包括以下步骤,
S1:从两个不同的公共数据库分别下载的已知PPIs数据集,分别构建两个原始的PPI网络,对于给定的原始PPI网络中的每一对蛋白质,计算它们之间基因表达的高斯交互作用谱核相似性作为它们之间的权重,构建了一个新的加权PPI网络。
S2:根据从公共数据库下载的域信息和已知的蛋白质域关联,分别构建加权域-域关联网络NDD和初始蛋白质-域网络NPD,对NPP、NDD、NPD三种新构建的网络进行整合,得到蛋白质-域异构网络NHPD
S3:在原有的PPI网络NI的基础上,根据初始的PPI网络提取每个蛋白质的拓扑特征,结合从公共数据库下载的与蛋白质相关的亚细胞定位信息和直系同源信息,计算NHPD中每个蛋白质和域的初始得分。
原有的PPI网络是指从数据库中直接下载的蛋白质所构成的网络。
初始的PPI网络是指把原有的PPI网络在本方法中进行初始化后的网络。
加权ppi网络是指根据NDD、NPD所计算的信息对初始化后的PPI网络的各条过的权值修正。
Npp为PPI网络,即从数据库中直接下载的蛋白质所构成的网络。
S4:基于蛋白质-域异构网络NHPD,设计基于PageRank的迭代算法来预测潜在的关键蛋白质。
进一步的,所述步骤S1包括以下步骤:
S101:从两个不同的公共数据库分别下载PPIs数据集,基于所述PPIs数据集,分别构建了两个不同的原始PPI网络,将NI={PI,LI}定义为基于从数据库I下载的已知PPIs的原始PPI网络,其中PI={p1,p2,…,pK}表示从数据库I下载的蛋白质集合,LI表示PI中蛋白质的边集合,根据获得的原始PPI网络NI,,构造K×K维邻接矩阵NI=(aij)K×K,当且仅当pi和pj有一个边时,aij=1,否则aij=0;
S102:对于每个蛋白质p∈PI,令Ex(p,i)表示其第i个时间点的基因表达数据,蛋白质p的基因表达数据表示为Ex(p)={Ex(p,1),Ex(p,2),…,Ex(p,m)},对于PI中任意两个给定的蛋白质pj和pj,它们之间的权重赋值采用以下公式定义:
Figure BDA0002292734940000031
其中,
Figure BDA0002292734940000032
γp表示归一化新的内核带宽参数,γ′p表示内核带宽参数NEp表示存在基因表达的蛋白质数量,α表示参数分布比例,其中α∈[0,1]。
进一步的,所述步骤S2包括以下步骤:
S201:从数据库下载关于域的数据集,采用D={d1,d2,…,dN}表示数据集中的域,LPD代表域和蛋白质之间的边的集合,构造初始蛋白质-域网络NPD={PI,LPD},基于初始蛋白质-域网络NPD,构建K×N维邻接矩阵NPD=(bij)K×N,当且仅当蛋白质pi∈PI和域dj∈D有一条边时,bij=1,否则bij=0;
S202:对于D中任意两个给定的域di和dj,采用Di和Dj分别表示di和dj中的蛋白质集合,Di∩Dj表示di和dj中的共同蛋白质,采用以下公式计算di和dj域之间的权重:
Figure BDA0002292734940000033
构造N×N维邻接矩阵NDD
S203:基于K×K维邻接矩阵NPP、K×N维邻接矩阵NPD和N×N维邻接矩阵NDD,采用以下公式得到(K+N)×(K+N)维异构矩阵NHPD:
Figure BDA0002292734940000041
构建异构蛋白质域网络NHPD
进一步的,所述步骤S3包括以下步骤:
S301:分别从两个不同的数据库下载亚细胞定位信息和同源信息,采用S={s1,s2,…,sn}表示一组亚细胞定位信息,pro(si)代表与亚细胞定位si相关的蛋白质集合和|pro(si)|表示在pro(si)中蛋白质的数量,采用以下公式获得pro(si)的平均数量:
Figure BDA0002292734940000042
S302:采用以下公式定义亚细胞定位si∈S的评分:
Figure BDA0002292734940000043
其中,
Figure BDA0002292734940000044
S303:对于给定的蛋白质pi∈PI,采用以下公式计算其在亚细胞定位方面的评分:
Figure BDA0002292734940000045
S(pi)是与pi相关的一组亚细胞定位;
S304:对于每个蛋白质pi∈PI,令ort(pi)表示蛋白质pi对应的其直系同源信息分数,采用以下公式计算初始分数:
Figure BDA0002292734940000046
S305:对于NI={PI,LI}中的任意给定的蛋白质pi,采用以下公式定义其相邻节点集合:
Figure BDA0002292734940000051
S306:采用以下公式计算NI中与pi相关的三角形数量:
Figure BDA0002292734940000052
其中,|NS(pi)∩NS(pj)|是NS(pi)∩NS(pj)中节点的数量;
S307:对于NI={PI,LI}中的每个蛋白质pi,采用以下公式定义平均三角形的拓扑特征:
Figure BDA0002292734940000053
其中,
Figure BDA0002292734940000054
|NS(pi)|是NS(pi)中节点的数量;
S308:对于NI={PI,LI}中的每个蛋白质pi,采用以下公式定义其初始得分:
Figure BDA0002292734940000055
其中,β∈[0,1],γ∈[0,1],δ∈[0,1],β+γ+δ=1;
S309:对于NHPD中任意给定的域di,采用以下公式定义初始得分:
Figure BDA0002292734940000056
进一步的,所述步骤S4包括以下步骤:
S401:基于新构建的加权PPI网络NPP,对于PI中任意给定的蛋白质pi,采用以下公式定义一组与pi相关的蛋白质集合:
N_NP(pi)={pj|NPP(pi,pj)≠0,pj∈PI};
S402:令
Figure BDA0002292734940000057
BN(pi,pj=NPP(pi,pj)/(1+MNPP)2,对于两个给定的蛋白质pi和pj,采用以下公式定义它们之间的分配率NPP:
Figure BDA0002292734940000061
S403:对于给定的蛋白质pi∈PI和域dj∈D,采用以下公式定义它们之间的权值:
Figure BDA0002292734940000062
S404:对于给定的蛋白质pi∈PI和域dj∈D,采用以下公式定义它们之间的分配率在NPD:
Figure BDA0002292734940000063
S405:对于给定的域di和dj,令
Figure BDA0002292734940000064
采用以下公式定义它们之间的权重:
Figure BDA0002292734940000065
S406:对于D中的任意给定域di,采用以下公式定义了一组与di相关的域集合:
N_D(di)={dj|NDD(di,dj)≠0,dj∈D};
S407:对于D中的任意给定域di和dj,采用以下公式定义它们在NDD中的分配率:
Figure BDA0002292734940000066
S408:采用以下公式得到新的分配率矩阵DRM:
Figure BDA0002292734940000071
S409:基于PageRank算法,设a表示异构蛋白质域网络NHPD中任意的蛋白质节点或域节点,采用以下公式迭代计算蛋白质和域的分数:
Figure BDA0002292734940000072
其中,NPRa(t)是第t次迭代后的得分向量,
Figure BDA0002292734940000073
为比例调整参数。
本发明的有益效果是,将PPI网络与亚细胞定位、直系同源数据、基因表达等与蛋白质相关的生物数据相结合构建新的加权PPI网络来推断关键蛋白质,具有较高的预测准确率。
附图说明
图1为本发明流程图。
图2为本发明流程图。
具体实施方式
预测关键蛋白的计算模型大致可以分为两大类。第一类模型侧重于利用PPI网络(PPI网络表示蛋白质相互作用网络)的拓扑特征来预测关键蛋白。例如,受centrality-lethality规则的启发,一些预测关键蛋白的方法被陆续的提出,其中包括DC(Degreecentrality),IC(Information centrality),CC(Closeness centrality),BC(Be-tweenness centrality),SC(Subgraph centrality),NC(Neighbor centrality)。这些基于PPI网络拓扑的方法都不需要额外的生物数据,打破了传统生物实验的局限性,取得了很大的进展。然而,由于PPI网络的不完整性,PPI网络中的假阳性和假阴性数据可能会对预测结果产生负面影响。因此,这些基于PPI网络拓扑特征的预测方法在预测关键蛋白的过程中,并不能获得令人满意的预测结果。第二类预测方法是将PPI网络与亚细胞定位、直系同源数据、基因表达等与蛋白质相关的生物数据相结合构建新的加权PPI网络来推断关键蛋白质,以此来提高预测准确率。
综上所述,将生物学数据与PPI网络相结合,可以显著提高关键蛋白质的预测准确性。但考虑到单纯的PPI网络不能很好地反映蛋白质的多样性,所以构建了一个名为NPRI的新预测模型来识别关键蛋白。NPRI模型将加权PPI网络与初始蛋白质-域关联网络和域-域关联网络相结合构建蛋白质-域异构网络。此外,对于异构蛋白质-域网络中的每一个蛋白质,都将从原始PPI网络中提取的一些关键的拓扑特性,和与蛋白质相关的亚细胞定位信息、同源信息和整合在一起,得到其初始得分。然后,基于异构蛋白质域网络,进一步构建基于PageRank的迭代算法来检测潜在的关键蛋白质。
本发明先将加权PPI网络、域-域网络和初始蛋白质域网络三种网络结合起来,构建一个新的蛋白质-域异构网络。其中,这三种网络分别根据基因表达数据、原始PPI网络以及已知的蛋白质-域关联关系网络建立起来的。然后根据提取的每个蛋白质的功能特征和拓扑特征计算出每个蛋白质和域的初始分数。接下来,在新构建的蛋白质-域异构网络的基础上,根据蛋白质和域的初始分数进一步构建新的分配率网络。最后,在构建的分配率网络的基础上,本发明设计了一种改进的PageRank算法来预测关键蛋白,并且预测的精度得到了很大的提高。
如图1所示本发明包括以下步骤:
S1:根据从两个公共数据库分别下载的已知PPIs数据集,构建两个原始的PPI网络。然后,对于任意给定的原始PPI网络中的每一对蛋白质,计算它们之间基因表达的高斯交互作用谱核相似性作为它们之间的权重。这样就构建了一种新的加权PPI网络。
S2:根据从公共数据库下载的域信息和已知的蛋白质域关联,分别构建加权域-域关联网络NDD和初始蛋白质-域网络NPD。然后,对NPP、NDD、NPD三种新构建的网络进行整合,得到一种新型的蛋白质-域异构网络NHPD
S3:在原有的PPI网络NI的基础上,可以先根据初始的PPI网络提取每个蛋白质的拓扑特征,然后结合从公共数据库下载的与蛋白质相关的亚细胞定位信息和直系同源信息,计算NHPD中每个蛋白质和域的初始得分。
S4:基于蛋白质-域异构网络NHPD,设计一种新的基于PageRank的迭代算法来预测潜在的关键蛋白质。
PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page和Sergey Brin在20世纪90年代后期发明。PageRank实现了将链接价值概念作为排名因素。
所述步骤S1包括以下步骤:
S101:从两个公共数据库(如Gavin数据库和DIP数据库)分别下载两个已知的PPIs数据集。经过筛选,最终获得了来自DIP数据库的5093个蛋白质之间的1167个基本蛋白质和24743个关联关系;来自Gavin数据库的1855个蛋白质之间的617个基本蛋白质和7669个关联关系。基于以上两个数据库下载的已知PPI数据集,分别构建了两个不同的原始PPI网络。为方便起见,将NI={PI,LI}定义为基于从数据库I下载的已知PPIs的原始PPI网络,其中PI={p1,p2,…,pK}表示从数据库I下载的蛋白质集合,LI表示PI中蛋白质间的边集合。在PI中对于任何给定的蛋白质pi、pj之间有一条边,当且仅当它们之间有一个已知的关联关系。根据获得的原始PPI网络NI,,构造K×K维邻接矩阵NI=(aij)K×K。当且仅当pi和pj有一个边时,有aij=1;否则aij=0。
S102:将下载基因表达数据集。对于每个蛋白质p∈PI,令Ex(p,i)表示其第i个时间点的基因表达数据,则蛋白质p的基因表达数据可以表示为Ex(p)={Ex(p,1),Ex(p,2),…,Ex(p,m)}。因此,受高斯相互作用谱核相似性概念的启发,对于PI中任意两个给定的蛋白质pj和pj,它们之间的权重可以赋值如下:
Figure BDA0002292734940000101
其中,
Figure BDA0002292734940000102
在γp表示归一化新的内核带宽参数γ′p,NEp表示存在基因表达的蛋白质数量,α表示参数分布比例,其中α∈[0,1]。
显然,根据上式(2),可以得到一个K×K维邻接矩阵NPP。
所述步骤S2包括以下步骤:
S201:从Pfam数据库下载关于域的数据集。经过筛选,获得4936个蛋白质域关联,包括3630个蛋白质和1107个蛋白质域。为方便起见,让D={d1,d2,…,dN}表示数据集中的域,LPD代表域和蛋白质之间的边的集合,然后构造出一个初始蛋白质-域网络NPD={PI,LPD}:对于任何给定的蛋白质pi∈PI和域dj∈D,它们之间存在一条边pi和dj当且仅当它们之间有一个已知的关联关系。
显然,基于初始蛋白质-域网络NPD,可以进一步构建一个K×N维邻接矩阵NPD=(bij)K×N,当且仅当蛋白质pi∈PI和域dj∈D有一条边时,bij=1;否则bij=0。
S202:对于D中任意两个给定的域di和dj,让Di和Dj分别表示di和dj中的蛋白质集合,Di∩Dj表示di和dj中的共同蛋白质,那么可以计算di和dj域之间的权重如下:
Figure BDA0002292734940000111
显然,基于上述式(3),可以构造一个新的域-域关联网络NDD,同时得到一个相应的N×N维邻接矩阵NDD
S203:基于新构建的K×K维邻接矩阵NPP、K×N维邻接矩阵NPD和N×N维邻接矩阵NDD,可以很容易地得到一个(K+N)×(K+N)维异构矩阵NHPD如下:
Figure BDA0002292734940000112
显然,根据(4)式,可以得到异构蛋白质域网络NHPD
所述步骤S3包括以下步骤:
S301:为了对NHPD中的蛋白质和域节点进行初始评分,分别从COMPART-MENTS数据库和InParanoid数据库(Version 7)下载亚细胞定位信息和同源信息。然后,让S={s1,s2,…,sn}表示一组亚细胞定位信息,pro(si)代表与亚细胞定位si相关的蛋白质集合和|pro(si)|表示在pro(si)中蛋白质的数量,从下式可以获得的平均数量:
Figure BDA0002292734940000121
S302:根据上式(5),对于每个亚细胞定位si∈S的评分可以定义为:
Figure BDA0002292734940000122
其中,
Figure BDA0002292734940000123
S303:由上式(6)可知,对于任意给定的蛋白质pi∈PI,其在亚细胞定位方面的评分为:
Figure BDA0002292734940000124
S(pi)是与pi相关的一组亚细胞定位。
S304:对于每个蛋白质pi∈PI,令ort(pi)表示蛋白质pi对应的其直系同源信息分数,其直系同源信息分数从InParanoid数据库下载的,基于蛋白质的同源信息,它的初始分数如下:
Figure BDA0002292734940000125
S305:对于NI={PI,LI}中的任意给定的蛋白质pi,我们定义其相邻节点集合为:
Figure BDA0002292734940000126
S306:由上式(10)可知,考虑到三角形具有稳定性的特点,对于NI={PI,LI}中的每一个蛋白质pi,我们可以得到NI中与pi相关的三角形数量如下:
Figure BDA0002292734940000127
其中,|NS(pi)∩NS(pj)|是NS(pi)∩NS(pj)中节点的数量。
S307:根据上式(11),对于NI={PI,LI}中的每个蛋白质pi,我们可以定义其平均三角形的拓扑特征如下:
Figure BDA0002292734940000131
其中,
Figure BDA0002292734940000132
|NS(pi)|是NS(pi)中节点的数量。
S308:根据上式(8)(9)(12),对于NI={PI,LI}中的每个蛋白质pi,我们定义其初始得分为:
Figure BDA0002292734940000133
其中,β∈[0,1],γ∈[0,1],δ∈[0,1],它们三个为调整比例参数,其中β+γ+δ=1。
S309:根据上式(14),对于NHPD中任意给定的域di,我们将其初始得分定义为:
Figure BDA0002292734940000134
所述步骤S4包括以下步骤:
S401:基于新构建的加权PPI网络NPP,对于PI中任意给定的蛋白质pi,我们首先定义一组与pi相关的蛋白质集合,如下:
N_NP(pi)={pj|NPP(pi,pj)≠0,pj∈PI} (16)
S402:令
Figure BDA0002292734940000135
BN(pi,pj)=NPP(pi,pj)/(1+MNPP)2,然后对于任意两个给定的蛋白质pi和pj,我们可以进一步定义它们之间的分配率NPP如下:
Figure BDA0002292734940000141
S403:根据构建的初始蛋白质-域关联网络NPD,对于任意给定的蛋白质pi∈PI和域dj∈D,我们可以定义它们之间的权值为:
Figure BDA0002292734940000142
S404:基于公式(18),让
Figure BDA0002292734940000143
那么,对于任何给定的蛋白质pi∈PI和域dj∈D,我们可以定义它们之间的分配率在NPD如下:
Figure BDA0002292734940000144
S405:基于域-域网络NDD,对于任何给定的域di和dj,让
Figure BDA0002292734940000145
然后我们可以定义它们之间的权重如下:
Figure BDA0002292734940000146
S406:对于D中的任意给定域di,我们定义了一组与di相关的域集合,如下所示:
N_D(di)={dj|NDD(di,dj)≠0,dj∈D} (21)
S407:对于D中的任意给定域di和dj,我们可以定义它们在NDD中的分配率为:
Figure BDA0002292734940000151
S408:由(17)(19)(22)式可得新的分配率矩阵DRM如下:
Figure BDA0002292734940000152
S409:基于PageRank算法,设a表示异构蛋白质域网络NHPD中任意的蛋白质节点或域节点,则根据式(24)迭代计算蛋白质和域的分数:
Figure BDA0002292734940000153
其中,NPRa(t)是第t次迭代后的得分向量,
Figure BDA0002292734940000154
为比例调整参数。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (1)

1.一种基于异构蛋白质域网络的基本蛋白质预测方法,其特征在于包括以下步骤,
S1:从两个不同的公共数据库分别下载的已知PPIs数据集,分别构建两个原始的PPI网络,对于给定的原始的PPI网络中的每一对蛋白质,计算它们之间基因表达的高斯交互作用谱核相似性作为它们之间的权重,构建了一个新的加权PPI网络;
S2:根据从公共数据库下载的域信息和已知的蛋白质域关联,分别构建加权域-域关联网络NDD和初始蛋白质-域网络NPD,对NPP、NDD、NPD三种新构建的网络进行整合,得到蛋白质-域异构网络NHPD
S3:在原始的PPI网络NI的基础上,根据初始的PPI网络提取每个蛋白质的拓扑特征,结合从公共数据库下载的与蛋白质相关的亚细胞定位信息和直系同源信息,计算NHPD中每个蛋白质和域的初始得分;
S4:基于蛋白质-域异构网络NHPD,设计基于PageRank的迭代算法来预测潜在的关键蛋白质;
所述步骤S1包括以下步骤:
S101:从两个不同的公共数据库分别下载PPIs数据集,基于所述PPIs数据集,分别构建了两个不同的原始PPI网络,将NI={PI,LI}定义为基于从数据库I下载的已知PPIs的原始PPI网络,其中PI={p1,p2,…,pK}表示从数据库I下载的蛋白质集合,LI表示PI中蛋白质的边集合,根据获得的原始PPI网络NI,构造K×K维邻接矩阵NI=(aij)K×K,当且仅当pi和pj有一个边时,aij=1,否则aij=0;
S102:对于每个蛋白质p∈PI,令Ex(p,m)表示其第m个时间点的基因表达数据,蛋白质p的基因表达数据表示为Ex(p)={Ex(p,1),Ex(p,2),…,Ex(p,m)},对于PI中任意两个给定的蛋白质pi和pj,它们之间的权重赋值采用以下公式定义:
Figure FDA0003789480600000021
其中,
Figure FDA0003789480600000022
γp表示归一化新的内核带宽参数,γ'p表示内核带宽参数,NEp表示存在基因表达的蛋白质数量,α表示参数分布比例,其中α∈[0,1];
所述步骤S2包括以下步骤:
S201:从数据库下载关于域的数据集,采用D={d1,d2,…,dN}表示数据集中的域,LPD代表域和蛋白质之间的边的集合,构造初始蛋白质-域网络NPD={PI,LPD},基于初始蛋白质-域网络NPD,构建K×N维邻接矩阵NPD=(bij)K×N,当且仅当蛋白质pi∈PI和域dj∈D有一条边时,bij=1,否则bij=0;
S202:对于D中任意两个给定的域di和dj,采用Di和Dj分别表示di和dj中的蛋白质集合,Di∩Dj表示di和dj中的共同蛋白质,采用以下公式计算di和dj域之间的权重:
Figure FDA0003789480600000023
构造N×N维邻接矩阵NDD
S203:基于K×K维邻接矩阵NPP、K×N维邻接矩阵NPD和N×N维邻接矩阵NDD,采用以下公式得到(K+N)×(K+N)维异构矩阵NHPD:
Figure FDA0003789480600000031
构建异构蛋白质域网络NHPD
所述步骤S3包括以下步骤:
S301:分别从两个不同的数据库下载亚细胞定位信息和同源信息,采用S={s1,s2,…,sn}表示一组亚细胞定位信息,pro(si)代表与亚细胞定位si相关的蛋白质集合和|pro(si)|表示在pro(si)中蛋白质的数量,采用以下公式获得pro(si)的平均数量:
Figure FDA0003789480600000032
S302:采用以下公式定义亚细胞定位si∈S的评分:
Figure FDA0003789480600000033
其中,
Figure FDA0003789480600000034
S303:对于给定的蛋白质pi∈PI,采用以下公式计算其在亚细胞定位方面的评分:
Figure FDA0003789480600000035
S(pi)是与pi相关的一组亚细胞定位;
S304:对于每个蛋白质pi∈PI,令ort(pi)表示蛋白质pi对应的其直系同源信息分数,采用以下公式计算初始分数:
Figure FDA0003789480600000036
S305:对于NI={PI,LI}中的任意给定的蛋白质pi,采用以下公式定义其相邻节点集合:
Figure FDA0003789480600000037
S306:采用以下公式计算NI中与pi相关的三角形数量:
Figure FDA0003789480600000041
其中,|NS(pi)∩NS(pj)|是NS(pi)∩NS(pj)中节点的数量;
S307:对于NI={PI,LI}中的每个蛋白质pi,采用以下公式定义平均三角形的拓扑特征:
Figure FDA0003789480600000042
其中,
Figure FDA0003789480600000043
|NS(pi)|是NS(pi)中节点的数量;
S308:对于NI={PI,LI}中的每个蛋白质pi,采用以下公式定义其初始得分:
Figure FDA0003789480600000044
其中,β∈[0,1],γ∈[0,1],δ∈[0,1],β+γ+δ=1;
S309:对于NHPD中任意给定的域di,采用以下公式定义初始得分:
Figure FDA0003789480600000045
所述步骤S4包括以下步骤:
S401:基于新构建的加权PPI网络NPP,对于PI中任意给定的蛋白质pi,采用以下公式定义一组与pi相关的蛋白质集合:
N_NP(pi)={pj|NPP(pi,pj)≠0,pj∈PI};
S402:令
Figure FDA0003789480600000046
对于两个给定的蛋白质pi和pj,采用以下公式定义它们之间的分配率:
Figure FDA0003789480600000047
S403:对于给定的蛋白质pi∈PI和域dj∈D,采用以下公式定义它们之间的权值:
Figure FDA0003789480600000051
S404:对于给定的蛋白质pi∈PI和域dj∈D,采用以下公式定义它们之间的分配率:
Figure FDA0003789480600000052
S405:对于给定的域di和dj,令
Figure FDA0003789480600000053
采用以下公式定义它们之间的权重:
Figure FDA0003789480600000054
S406:对于D中的任意给定域di,采用以下公式定义了一组与di相关的域集合:
N_D(di)={dj|NDD(di,dj)≠0,dj∈D};
S407:对于D中的任意给定域di和dj,采用以下公式定义它们在NDD中的分配率:
Figure FDA0003789480600000055
S408:采用以下公式得到新的分配率矩阵DRM:
Figure FDA0003789480600000056
S409:基于PageRank算法,设a表示异构蛋白质域网络NHPD中任意的蛋白质节点或域节点,采用以下公式迭代计算蛋白质和域的分数:
Figure FDA0003789480600000057
其中,NPRa(t)是第t次迭代后的得分向量,
Figure FDA0003789480600000061
为比例调整参数。
CN201911187485.9A 2019-11-28 2019-11-28 一种基于蛋白质-域异构网络的关键蛋白预测方法 Active CN110910953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911187485.9A CN110910953B (zh) 2019-11-28 2019-11-28 一种基于蛋白质-域异构网络的关键蛋白预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911187485.9A CN110910953B (zh) 2019-11-28 2019-11-28 一种基于蛋白质-域异构网络的关键蛋白预测方法

Publications (2)

Publication Number Publication Date
CN110910953A CN110910953A (zh) 2020-03-24
CN110910953B true CN110910953B (zh) 2022-09-13

Family

ID=69820121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911187485.9A Active CN110910953B (zh) 2019-11-28 2019-11-28 一种基于蛋白质-域异构网络的关键蛋白预测方法

Country Status (1)

Country Link
CN (1) CN110910953B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640468B (zh) * 2020-05-18 2021-08-24 天士力国际基因网络药物创新中心有限公司 一种基于复杂网络筛选疾病相关蛋白的方法
CN113450872B (zh) * 2021-07-02 2022-12-02 南昌大学 磷酸化位点特异激酶的预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427865A (zh) * 2018-03-14 2018-08-21 华南理工大学 一种预测LncRNA和环境因素关联关系的方法
CN108681659A (zh) * 2018-04-02 2018-10-19 首都师范大学 基于样本数据预测蛋白质复合物的方法
CN108733976A (zh) * 2018-05-23 2018-11-02 扬州大学 基于融合生物与拓扑特征的关键蛋白质识别方法
CN109637579A (zh) * 2018-12-18 2019-04-16 长沙学院 一种基于张量随机游走的关键蛋白质识别方法
CN109686402A (zh) * 2018-12-26 2019-04-26 扬州大学 基于动态加权相互作用网络中关键蛋白质识别方法
CN109801674A (zh) * 2019-01-30 2019-05-24 长沙学院 一种基于异构生物网络融合的关键蛋白质识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050130224A1 (en) * 2002-05-31 2005-06-16 Celestar Lexico- Sciences, Inc. Interaction predicting device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427865A (zh) * 2018-03-14 2018-08-21 华南理工大学 一种预测LncRNA和环境因素关联关系的方法
CN108681659A (zh) * 2018-04-02 2018-10-19 首都师范大学 基于样本数据预测蛋白质复合物的方法
CN108733976A (zh) * 2018-05-23 2018-11-02 扬州大学 基于融合生物与拓扑特征的关键蛋白质识别方法
CN109637579A (zh) * 2018-12-18 2019-04-16 长沙学院 一种基于张量随机游走的关键蛋白质识别方法
CN109686402A (zh) * 2018-12-26 2019-04-26 扬州大学 基于动态加权相互作用网络中关键蛋白质识别方法
CN109801674A (zh) * 2019-01-30 2019-05-24 长沙学院 一种基于异构生物网络融合的关键蛋白质识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
An efficient method for protein function annotation based on multilayer protein networks;Haibi Zhao,Sai Hu,et al.;《Human Genomics》;20161231;第10卷(第1期);全文 *
加权优先级网络在蛋白质功能预测中的应用研究;潘怡,胡赛,赵碧海;《小型微型计算机系统》;20170930(第9期);全文 *
基于PPI网络的关键蛋白质的高效预测算法;洪海燕,刘维;《计算机科学》;20161130;第43卷(第11A期);全文 *
基于PPI网络的关键蛋白质识别方法研究及应用;洪海燕;《中国优秀硕士学位论文全文数据库 基础科学辑》;20180215;全文 *
基于关键功能模块挖掘的蛋白质功能预测;赵碧海,李学勇,胡赛,张帆,田清龙,杨品红,刘臻;《自动化学报》;20180131;第44卷(第1期);全文 *
基于高斯相互作用属性核相似性的长非编码RNA与环境因素关联关系预测研究;徐展良;《中国优秀硕士学位论文全文库 基础科学辑》;20181215;第10-11页 *

Also Published As

Publication number Publication date
CN110910953A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
Han et al. Model rubik’s cube: Twisting resolution, depth and width for tinynets
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
Wee et al. Forman persistent Ricci curvature (FPRC)-based machine learning models for protein–ligand binding affinity prediction
CN107506617B (zh) 半局部社交信息miRNA-疾病关联性预测方法
CN107784598A (zh) 一种网络社区发现方法
CN110910953B (zh) 一种基于蛋白质-域异构网络的关键蛋白预测方法
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
Zhang et al. Similarity-based classification in partially labeled networks
CN103034687B (zh) 一种基于2‑类异质网络的关联模块识别方法
CN110957002A (zh) 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
Zhou et al. A density based link clustering algorithm for overlapping community detection in networks
Csősz et al. Diagnostic survey of Malagasy Nesomyrmex species-groups and revision of hafahafa group species via morphology based cluster delimitation protocol
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
Alcalá et al. AligNet: alignment of protein-protein interaction networks
CN114461929A (zh) 一种基于协同关系图的推荐方法及相关装置
CN110660448B (zh) 一种基于蛋白质的拓扑与功能特征的关键蛋白识别方法
Li Revealing network communities with a nonlinear programming method
CN113724787B (zh) 一种基于核心-附件结构的蛋白质复合物识别方法
Zhang et al. Line graph contrastive learning for link prediction
Song et al. Clustered embedding of massive social networks
Zhao et al. Identification of node centrality based on Laplacian energy of networks
Zhao et al. Detecting overlapping protein complexes in weighted PPI network based on overlay network chain in quotient space
Chatrabgoun et al. Constructing gene regulatory networks from microarray data using non-Gaussian pair-copula Bayesian networks
CN111584010A (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
Zhang et al. Graph regularized non-negative matrix factorization with prior knowledge consistency constraint for drug–target interactions prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant