CN103218542B - 一种构建蛋白网络的功能指纹图谱的方法 - Google Patents
一种构建蛋白网络的功能指纹图谱的方法 Download PDFInfo
- Publication number
- CN103218542B CN103218542B CN201310152967.7A CN201310152967A CN103218542B CN 103218542 B CN103218542 B CN 103218542B CN 201310152967 A CN201310152967 A CN 201310152967A CN 103218542 B CN103218542 B CN 103218542B
- Authority
- CN
- China
- Prior art keywords
- biomolecule
- network
- measured
- similarity
- network structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种构建蛋白网络的功能指纹图谱的方法。本发明的构建待测生物分子网络结构的功能分布图谱的方法,包括如下步骤:(1)检测待测生物分子网络结构的功能,得到待测生物分子网络结构与已知数据库中的生物分子网络功能模块的相似性数值;(2)以相似性数值为纵坐标,以已知数据库中的生物分子网络功能模块为横坐标,作图,得到所述待测生物分子网络结构的功能分布图谱。本发明的方法能够简单、方便、快捷地得出待测生物分子网络的结构与功能,还能达到分析与可视化生物分子网络结构与功能的目的,从而为提高生物分析网络乃至寻找疾病成因提供有利的技术支持。
Description
技术领域
本发明涉及一种构建蛋白网络的功能指纹图谱的方法。
背景技术
生物分子网络包括蛋白质相互作用网络、代谢网络和信号传导网络。作为生物医学的重要结构描述,生物分子网络结构与功能的异常直接反映生物机体功能的异常。研究表明生物分子网络上的扰动可直接反映于生物机体的表型变化,网络中某些基因的突变可在网络上产生级联放大效应,从而导致疾病的发生,包括单基因致病的Huntington疾病和多基因致病的复杂疾病,如癌症、糖尿病以及阿尔兹海默病等。研究表明网络中蛋白质与蛋白质的相互作用关系发生改变亦可造成生物机体功能异常。近年来的很多分子网络的解析研究,以期望提供对疾病的更深入的理解,研究表明人类蛋白质相互作用网络的动态拓扑变化可辅助解决乳腺癌的预后问题,人脑的转录组数据与蛋白质相互作用网络的整合可揭示朊病毒疾病的发病机制。另有研究表明构建病毒感染网络为了解病毒的致病过程以及分辨不同病毒各自的感染模式提供了极其有用的信息,同时网络的动态结构信息也为联合用药和多靶药物设计提供了理论基础和极大帮助。
机体的功能是由完整的生物分子网络驱动的,而疾病是不同病因引起的网络异常引起的。生物网络具有很强的稳健性和鲁棒性,但是某些特定的网络节点和网络拓扑异常变化将导致网络较大变化,并可能反映于生物机体,即疾病发生。为此,本发明提出一种检测生物分子网络结构与功能的方法。
发明内容
本发明的目的是提供一种构建待测生物分子网络结构的功能分布图谱的方法。
本发明所提供的构建待测生物分子网络结构的功能分布图谱的方法,包括如下步骤:
(1)检测待测生物分子网络结构的功能,得到待测生物分子网络结构与已知数据库中的生物分子网络功能模块的相似性数值;
(2)以相似性数值为纵坐标,以已知数据库中的生物分子网络功能模块为横坐标,作图,得到所述待测生物分子网络结构的功能分布图谱;
所述检测待测生物分子网络结构的功能的方法,包括如下步骤:
将待测生物分子网络结构与已知数据库中的每个生物分子网络功能模块进行两两比对,包括如下步骤:
(1)、融合要比较的两个生物分子网络:
将每个生物分子网络定义为:G=(V,E),其中V为网络中生物分子集合,E为网络中相互作用边的集合;将待测生物分子网络结构G1=(V1,V2)和被比较的已知数据库中生物分子网络功能模块G2=(V2,V2),合并成为一个网络G12=(V12,E12),方法是将G1中的每个节点分别与G2中的所有节点相连,再将G2中的每个节点分别与G1中的所有节点相连,如果有一个生物分子同时出现在了G1和G2中,将G1和G2分别出现的这个生物分子节点合并成为G12中的一个节点,如果这个生物分子仅出现在G1或者G2中的一个,则不发生合并操作,保留为G12的一个节点,这样V12=V1∪V2,E12=E1∪E2∪V1×V2;
(2)、基于GO的生物分子功能相似性度量:
网络中生物分子的功能相似性是基于GO功能注释度量的,一个生物分子可对应于多个GO注释;两个注释之间的相似性可用基于信息熵值的方法度量,某个注释的信息熵值ε(t)由该节点出现概率p(t)计算得到
Si,j=ε(t)=-logp(t)(1)
得到G12中有相互作用的两个生物分子i,j的功能相似性Si,j;信息熵值ε(t)大于0.8时,两个生物分子功能是相似的;
通过度量G12中有相互作用的两个生物分子的功能相似性,可得到G12对应的相似性邻接矩阵;
SResnik(V12,V12)=[Si,j](2)
其中Si,j为生物分子i与生物分子j的功能相似性,即
(3)、对融合网络进行功能聚类
采用亲和力传播的方法在相似邻接矩阵上进行聚类分析;
(4)、基于聚类结果对网络的相似性打分
假设网络的节点分为N个聚类,Vm,m≤N表示被聚到m类中的生物分子,在该聚类中的G1和G2的局部相似性定义为
而和的相似性分值则定义为所有聚类局部相似性的均值
(5)、相似性打分的标准化
将相似性分值进行标准化:构建一系列规模相同随机网络来估计网络相似性分布的均值和标准差,这些随机网络与待测生物分子网络中节点和相互作用个数相同;用上述的方法计算待测生物分子网络与随机网络的相似性,并将随机过程进行1000次,这些随机相似性分布服从正态分布,假设其均值和标准差分别为和ES,则标准化后的相似性为
(6)若S′G1,G2>3,则判定所述待测生物分子网络结构候选为与该被比较的生物分子网络功能模块具有显著相似的功能。
上述方法中,所述已知数据库为KEGGPathwayDatabase数据库。
上述方法中,在所述两两比较之前,包括如下构建待测生物分子网络结构的步骤:利用生物学实验方法检测若干个待测生物分子之间的相互作用,选出具有相互作用的待测生物分子,将其构建成待测生物分子网络结构。
上述方法中,所述若干个待测生物分子是按照如下方法得到的:检测离体的正常组织与离体的发病组织之间的生物分子差异表达情况,得到差异表达的生物分子,即为所述若干个待测生物分子。
上述方法中,所述生物学实验方法为酵母双杂交实验方法和/或免疫共沉淀实验方法。
上述方法中,所述发病组织为癌症组织,具体为黑色素瘤组织。
上述方法中,所述生物分子为蛋白质。
本发明的方法能够简单、方便、快捷地得出待测生物分子网络的结构与功能,还能达到分析与可视化生物分子网络结构与功能的目的,从而为提高生物分析网络乃至寻找疾病成因提供有利的技术支持。
附图说明
图1为蛋白网络结构功能相似性的检测流程示意图。
图2为14种癌症的网络指纹结果。
具体实施方式
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
本文中所说的“蛋白网络结构”是指若干个蛋白及该若干个蛋白之间的相互作用关系。
实施例1、检测待测蛋白网络结构的功能
一、构建待测蛋白网络结构
利用全基因组多态相关比较研究实验,比较离体的人正常组织与离体的人黑色素瘤组织的蛋白表达差异,获得43个差异表达蛋白,蛋白的名称是BTLA,BTNL2,CBLB,CCL17,CCL22,CD160,CD274,PDCD1LG2,CD28,ICOS,CTLA4,CD40,CD40LG,CD80,CD86,DGKA,FOXP3,ICOSLG,IDO1,IL10,IL10RA,IL10RB,IL12A,IL12B,IL12RB1,IL17A,IL17RA,IL17RB,ITCH,LGALS1,LGALS3,ULRB2,ULRB4,PDCD1,RNF12B,TGFB1,TGFB2,TGFBR1,TGFBR2,TGFBR3,TNFRSF18,TREML2,VDR[请见文献Schoof,Nils,MarkM.Iles,D.TimothyBishop,JuliaA.Newton-Bishop,JenniferH.Barrett,andGenoMELconsortium.“Pathway-BasedAnalysisofaMelanomaGenome-WideAssociationStudy:AnalysisofGenesRelatedtoTumour-Immunosuppression.”PLoSONE6,no.12(December27,2011):e29451.]。利用酵母双杂交实验和免疫共沉淀实验,确定这43个蛋白之间的相互作用关系,发现其中27个蛋白之间有相互作用关系,构成了蛋白网络结构(如表1)。该蛋白网络结构即为待测的蛋白网络结构。
表1.黑色素瘤的蛋白网络结构
二、已知的蛋白网络功能模块数据库
已知的蛋白网络功能模块数据库为KEGGPathwayDatabase,公众可从http://www.genome.jp/kegg/pathway.html获得。
该数据库中含有437个蛋白网络,其中人类相关网络为263个,包含93个人类信号传导相关蛋白网络,且每个蛋白网络的功能已知。本文中将数据库中的每个蛋白网络称作蛋白网络功能模块。
三、将待测蛋白网络结构与已知数据库中的每个蛋白网络功能模块分别进行两两比对,比较其功能相似性,从中找出与待测蛋白网络结构相似的蛋白网络功能模块,该相似的蛋白网络功能模块的功能即为该待测蛋白网络结构的功能。
以数据库中DNA损伤修复蛋白功能模块为例,说明两两比对的方法,其余功能模块的比较方法与此相同。两两比对方法如下(图1):
1、融合要比较的两个蛋白网络:
将一个蛋白质网络定义为:G=(V,E),其中V为网络中蛋白质集合,E为网络中相互作用边的集合。首先将两个网络G1=(V1,V2)和G2=(V2,V2),合并成为一个网络G12=(V12,E12),方法是将G1中的每个节点分别与G2中的所有节点相连,再将G2中的每个节点分别与G1中的所有节点相连。如果有一个蛋白同时出现在了G1和G2中,将G1和G2分别出现的这个蛋白节点合并成为G12中的一个节点,如果这个蛋白仅出现在G1或者G2中的一个,则不发生合并操作,保留为G12的一个节点。这样V12=V1∪V2,E12=E1∪E2∪V1×V2。
2、基于GO的蛋白功能相似性度量:
网络中蛋白的功能相似性是基于GO功能注释度量的,一个蛋白可对应于多个GO注释。两个注释之间的相似性可用基于信息熵值的方法度量,某个注释的信息熵值ε(t)由该节点出现概率p(t)计算得到
Si,j=ε(t)=-logp(t)(1)
得到G12中有相互作用的两个蛋白i,j的功能相似性Si,j。信息熵值ε(t)作为两个蛋白的功能相似性的定量指标,其数值越接近1,表明两个蛋白功能越相似,应用中认为当熵值大于0.8时,两个蛋白功能是相似的。
通过度量G12中有相互作用的两个蛋白的功能相似性,可得到G12对应的相似性邻接矩阵。邻接矩阵属于常规手段,就是把数据重新组织成矩阵形式,并未定义新的计算,公式2已明确根据两个蛋白的功能相似性得到相似性邻接矩阵的步骤。
SResnik(V12,V12)=[Si,j](2)
其中Si,j为蛋白i与蛋白j的功能相似性,即
3、对融合网络进行功能聚类
采用亲和力传播的方法(参照文献“B.J.FreyandD.Dueck.Clusteringbypassingmessagesetweendatapoints.Science,315(5814):972–976,2007”)在相似邻接矩阵上进行聚类分析。
4、基于聚类结果对网络的相似性打分
假设网络的节点分为N个聚类,Vm,m≤N表示被聚到m类中的蛋白质,在该聚类中的G1和G2的局部相似性定义为
而和的相似性分值则定义为所有聚类局部相似性的均值
5、相似性打分的标准化
将相似性分值进行标准化:具体做法是构建一系列规模相同随机网络来估计网络相似性分布的均值和标准差,这些随机网络与待测蛋白网络中节点和相互作用个数相同。用上述的方法计算待测蛋白网络与随机网络的相似性,并将随机过程进行1000次,这些随机相似性分布服从正态分布,假设其均值和标准差分别为和ES,则标准化后的相似性为
若S′G1,G2>3,则认为该待测蛋白网络结构与该DNA损伤修复蛋白功能模块具有显著相似的功能。
四、结果:
该待测蛋白网络结构与DNA损伤修复蛋白功能模块的相似性值(即S′G1,G2)为3.2,是大于3的,说明该待测蛋白网络结构的功能与DNA损伤修复蛋白功能模块的功能具有显著相似性。
实施例2、构建待测蛋白网络结构的功能分布图谱
(1)按照实施例1中所述方法,将该待测蛋白网络结构与已知数据库中其它蛋白网络功能模块进行比较,分别得到实施例1中待测蛋白网络结构与已知数据库中的93个蛋白网络功能模块的相似性数值(即S′G1,G2)。结果该待测蛋白网络结构与数据库中的93个人类信号传导相关蛋白网络功能模块的相似性数值,有的大于3,有的小于3。表明该待测蛋白网络结构与数据库中的93个蛋白网络功能模块中的部分模块具有显著相似的功能。
(2)以相似性数值为纵坐标、以93个蛋白网络功能模块为横坐标,作图,得到所述待测蛋白网络结构的功能分布图谱。结果如图2所示。
用与实施例1和实施例2相同的方法,构建共14种癌症的网络指纹图谱。如图2所示。
Claims (8)
1.构建待测生物分子网络结构的功能分布图谱的方法,包括如下步骤:
(1)检测待测生物分子网络结构的功能,得到待测生物分子网络结构与已知数据库中的生物分子网络功能模块的相似性数值;
(2)以相似性数值为纵坐标,以已知数据库中的生物分子网络功能模块为横坐标,作图,得到所述待测生物分子网络结构的功能分布图谱;
所述检测待测生物分子网络结构的功能的方法,包括如下步骤:
将待测生物分子网络结构与已知数据库中的每个生物分子网络功能模块进行两两比对,包括如下步骤:
(1)、融合要比较的两个生物分子网络:
将每个生物分子网络定义为:G=(V,E),其中V为网络中生物分子集合,E为网络中相互作用边的集合;将待测生物分子网络结构G1=(V1,V2)和被比较的已知数据库中生物分子网络功能模块G2=(V2,V2),合并成为一个网络G12=(V12,E12),方法是将G1中的每个节点分别与G2中的所有节点相连,再将G2中的每个节点分别与G1中的所有节点相连,如果有一个生物分子同时出现在了G1和G2中,将G1和G2分别出现的这个生物分子节点合并成为G12中的一个节点,如果这个生物分子仅出现在G1或者G2中的一个,则不发生合并操作,保留为G12的一个节点,这样V12=V1∪V2,E12=E1∪E2∪V1×V2;
(2)、基于GO的生物分子功能相似性度量:
网络中生物分子的功能相似性是基于GO功能注释度量的,一个生物分子可对应于多个GO注释;两个注释之间的相似性可用基于信息熵值的方法度量,某个注释的信息熵值ε(t)由该节点出现概率p(t)计算得到
Si,j=ε(t)=-logp(t)(1)
得到G12中有相互作用的两个生物分子i,j的功能相似性Si,j;信息熵值ε(t)大于0.8时,两个生物分子功能是相似的;
通过度量G12中有相互作用的两个生物分子的功能相似性,可得到G12对应的相似性邻接矩阵;
SResnik(V12,V12)=[Si,j](2)
其中Si,j为生物分子i与生物分子j的功能相似性,即
(3)、对融合网络进行功能聚类
采用亲和力传播的方法在相似邻接矩阵上进行聚类分析;
(4)、基于聚类结果对网络的相似性打分
假设网络的节点分为N个聚类,Vm,m≤N表示被聚到m类中的生物分子,在该聚类中的G1和G2的局部相似性定义为
而和的相似性分值则定义为所有聚类局部相似性的均值
(5)、相似性打分的标准化
将相似性分值进行标准化:构建一系列规模相同随机网络来估计网络相似性分布的均值和标准差,这些随机网络与待测生物分子网络中节点和相互作用个数相同;用上述的方法计算待测生物分子网络与随机网络的相似性,并将随机过程进行1000次,这些随机相似性分布服从正态分布,假设其均值和标准差分别为和ES,则标准化后的相似性为
(6)若S′G1,G2>3,则判定所述待测生物分子网络结构候选为与该被比较的生物分子网络功能模块具有显著相似的功能。
2.根据权利要求1所述的方法,其特征在于:所述已知数据库为KEGGPathwayDatabase数据库。
3.根据权利要求1所述的方法,其特征在于:所述方法中,在所述两两比较之前,包括如下构建待测生物分子网络结构的步骤:利用生物学实验方法检测若干个待测生物分子之间的相互作用,选出具有相互作用的待测生物分子,将其构建成待测生物分子网络结构。
4.根据权利要求3所述的方法,其特征在于:所述若干个待测生物分子是按照如下方法得到的:检测离体的正常组织与离体的发病组织之间的生物分子差异表达情况,得到差异表达的生物分子,即为所述若干个待测生物分子。
5.根据权利要求4所述的方法,其特征在于:所述生物学实验方法为酵母双杂交实验方法和/或免疫共沉淀实验方法。
6.根据权利要求4所述的方法,其特征在于:所述发病组织为癌症组织。
7.根据权利要求3或4所述的方法,其特征在于:所述生物分子为蛋白质。
8.根据权利要求6所述的方法,其特征在于:所述癌症组织为黑色素瘤组织。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310152967.7A CN103218542B (zh) | 2013-04-27 | 2013-04-27 | 一种构建蛋白网络的功能指纹图谱的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310152967.7A CN103218542B (zh) | 2013-04-27 | 2013-04-27 | 一种构建蛋白网络的功能指纹图谱的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103218542A CN103218542A (zh) | 2013-07-24 |
CN103218542B true CN103218542B (zh) | 2016-03-30 |
Family
ID=48816321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310152967.7A Expired - Fee Related CN103218542B (zh) | 2013-04-27 | 2013-04-27 | 一种构建蛋白网络的功能指纹图谱的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103218542B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503482B (zh) * | 2016-09-14 | 2018-10-09 | 王�忠 | 一种用于定量分析药物干预前后生物分子网络中模块变化的方法 |
CN106529206B (zh) * | 2016-12-20 | 2019-02-22 | 大连海事大学 | 一种蛋白质二维结构图功能元件的自动布线方法 |
CN116595397A (zh) * | 2018-09-21 | 2023-08-15 | 创新先进技术有限公司 | 一种基于网络指纹的身份识别方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101527000A (zh) * | 2009-04-03 | 2009-09-09 | 南京航空航天大学 | 一种基于取样的快速移动对象轨迹聚类方法 |
CN102314560A (zh) * | 2011-09-05 | 2012-01-11 | 浪潮电子信息产业股份有限公司 | 一种蛋白质-蛋白质对接的计算模拟方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6594587B2 (en) * | 2000-12-20 | 2003-07-15 | Monsanto Technology Llc | Method for analyzing biological elements |
-
2013
- 2013-04-27 CN CN201310152967.7A patent/CN103218542B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101527000A (zh) * | 2009-04-03 | 2009-09-09 | 南京航空航天大学 | 一种基于取样的快速移动对象轨迹聚类方法 |
CN102314560A (zh) * | 2011-09-05 | 2012-01-11 | 浪潮电子信息产业股份有限公司 | 一种蛋白质-蛋白质对接的计算模拟方法 |
Non-Patent Citations (1)
Title |
---|
基于多源信息融合的基因表达数据聚类分析;朱建杰;《中国优秀硕士学位论文全文数据库信息科技辑 》;20090815(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103218542A (zh) | 2013-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cámara | Topological methods for genomics: present and future directions | |
Luo et al. | Disease gene prediction by integrating ppi networks, clinical rna-seq data and omim data | |
Liu et al. | Dynamical network biomarkers for identifying critical transitions and their driving networks of biologic processes | |
CN108830045B (zh) | 一种基于多组学的生物标记物系统筛选方法 | |
CN103218542B (zh) | 一种构建蛋白网络的功能指纹图谱的方法 | |
CN103559426A (zh) | 一种针对多视图数据融合的蛋白质功能模块挖掘方法 | |
Zhang et al. | Deep latent space fusion for adaptive representation of heterogeneous multi-omics data | |
Al Kindhi et al. | Hybrid K-means, fuzzy C-means, and hierarchical clustering for DNA hepatitis C virus trend mutation analysis | |
CN104156503A (zh) | 一种基于基因芯片网络分析的疾病风险基因识别方法 | |
Morselli Gysi et al. | Whole transcriptomic network analysis using co-expression differential network analysis (CoDiNA) | |
CN112542214A (zh) | 基于病原微生物宏基因组的多种菌群间Granger因果分析方法 | |
Akond et al. | Biomarker identification from RNA-seq data using a robust statistical approach | |
Meng et al. | Immune cell infiltration landscape and immune marker molecular typing in preeclampsia | |
Park et al. | Deep-learning algorithm and concomitant biomarker identification for NSCLC prediction using multi-omics data integration | |
Lin et al. | Prediction of adverse drug reactions by a network based external link prediction method | |
He et al. | Deep convolutional neural networks for predicting leukemia-related transcription factor binding sites from DNA sequence data | |
CN103077226A (zh) | 一种多模态蛋白质构象空间搜索方法 | |
CN103246828B (zh) | 一种检测待测蛋白网络的功能的方法 | |
Wang et al. | Cross-talk between N6-methyladenosine and their related RNAs defined a signature and confirmed m6A regulators for diagnosis of endometriosis | |
Kuchroo et al. | Topological analysis of single-cell data reveals shared glial landscape of macular degeneration and neurodegenerative diseases | |
Zhou et al. | Xai meets biology: A comprehensive review of explainable ai in bioinformatics applications | |
Bai et al. | Integrating plasma cell‐free DNA with clinical laboratory results enhances the prediction of critically ill patients with COVID‐19 at hospital admission | |
Park et al. | T cell receptor repertoire signatures associated with COVID-19 severity | |
Swarnkar et al. | Multiview clustering on ppi network for gene selection and enrichment from microarray data | |
Vangimalla et al. | HCNM: heterogeneous correlation network model for multi-level integrative study of multi-omics data for cancer subtype prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160330 Termination date: 20210427 |
|
CF01 | Termination of patent right due to non-payment of annual fee |