CN114067906A - 一种融合多源生物信息的关键蛋白质识别方法 - Google Patents
一种融合多源生物信息的关键蛋白质识别方法 Download PDFInfo
- Publication number
- CN114067906A CN114067906A CN202111349828.4A CN202111349828A CN114067906A CN 114067906 A CN114067906 A CN 114067906A CN 202111349828 A CN202111349828 A CN 202111349828A CN 114067906 A CN114067906 A CN 114067906A
- Authority
- CN
- China
- Prior art keywords
- node
- protein
- sum
- value
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012509 protein identification method Methods 0.000 title claims abstract description 12
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 169
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 141
- 230000014509 gene expression Effects 0.000 claims abstract description 50
- 230000004186 co-expression Effects 0.000 claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000004960 subcellular localization Effects 0.000 claims abstract description 20
- 230000003068 static effect Effects 0.000 claims abstract description 15
- 230000008827 biological function Effects 0.000 claims abstract description 3
- YUJLIIRMIAGMCQ-CIUDSAMLSA-N Ser-Leu-Ser Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(O)=O YUJLIIRMIAGMCQ-CIUDSAMLSA-N 0.000 claims description 27
- 230000000694 effects Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims 1
- 230000006916 protein interaction Effects 0.000 description 6
- 230000000052 comparative effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000004071 biological effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 210000003855 cell nucleus Anatomy 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000004940 nucleus Anatomy 0.000 description 2
- 101150005355 36 gene Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 208000005016 Intestinal Neoplasms Diseases 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种融合多源生物信息的关键蛋白质识别方法,包括如下步骤:输入PPI网络和基因表达数据、蛋白质生物功能的注释属性注释数据、亚细胞定位数据;根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;计算出节点的点边缘聚类系数值,计算出该节点与邻居节点之间的基因共表达值,计算出该节点的亚细胞定位得分值,最后求该节点与其邻居之间的亚细胞定位得分值之和;计算出该节点与邻居节点之间的注释值,最后求该节点与其所有邻居之间的共表达系数之和;将上述的属性值进行相加,得到蛋白质u的最终关键性得分值。本发明的识别方法,提高了识别关键蛋白质的准确性,同时使预测结果更加准确,提高了预测的效率。
Description
技术领域
本发明涉及一种融合多源生物信息的关键蛋白质识别方法,主要是在蛋白质相互作用网络中融合蛋白质的多个生物信息的关键蛋白质识别技术,特别涉及蛋白质相互作用网络中融合了网络拓扑信息和蛋白质生物属性识别蛋白质复合物的方法,属于生物信息技术领域。
背景技术
已有研究成果表明,人类疾病的发生和发展都与蛋白质的动态变化密切相关。例如,乳腺癌和肠癌的基因组是由少数常见突变基因和大量的频率较低的突变基因组成。不同蛋白质对生命活动的重要性是不一样的。Winzeler[a]在《Science》发表文章给出了关键蛋白质的定义,他认为关键蛋白质是指通过基因剔除式突变将其移除后造成有关蛋白质复合物功能丧失,并导致生物体无法生存或发育的蛋白质。关键蛋白质的识别能够从系统水平上为生物学、医学等提供有价值的信息。
在本发明提出之前,关键蛋白质识别领域,最开始是通过一系列基于网络拓扑结构特征的关键蛋白质识别方法,例如,度中心性(DC)、接近度中心性(CC)、介数中心性(BC)、子图中心性(SC)、局部平均联通度(LAC)等方法,但是这些方法识别关键蛋白质的缺点是:(1)只考虑了网络本身所具有的拓扑特征,而忽略了蛋白质所固有的生物属性特征。(2)通过生物实验所获得的PPI网络存在噪声,使得蛋白质相互作用数据存在假阳性。
发明内容
本发明的目的就在于克服上述缺陷,提供一种融合多源生物信息的关键蛋白质识别方法,该识别关键蛋白质的方法,是先构建动态PPI子网络,随后在PPI子网络中对于任意一节点计算出它与所有邻居节点之间的点聚类系数值之和、基因共表达值之和、Go注释相似度值之和、以及细胞核位置得分值之和。接着将上述的值相加,作为蛋白质节点的关键性值,最后按照关键性值降序排序输入。
本发明是这样实现的:一种融合多源生物信息的关键蛋白质识别方法,其主要技术特征在于如下步骤:
(1)输入PPI网络和基因表达数据、GO(蛋白质生物功能的注释属性)注释数据、亚细胞定位数据;
(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;
(3)对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);
(4)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);
(5)对于任一子网中的任一节点u来说,计算出该节点的亚细胞定位得分值SLS(u),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);
(6)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);
(7)对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);
(8)最后将蛋白质节点按照Ess_Pro(u)的值从大到小排序输出。
进一步,所述步骤(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值Tg,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络,根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值Tg,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络;每个蛋白质的活跃阈值Tg计算过程如公式(1)-(4)所示:
Tg=ug+3ρg(1-Fg) (4)
蛋白质的基因表达值随时间变化而变化,在公式(1)中,N表示每个蛋白质基因的表达值的数量,Gi表示在i时刻某个蛋白质基因表达值,ug表示某个蛋白质基因表达值的平均值,在公式(2)中,ρg表示的是某个蛋白质基因表达值的标准差的值,在公式(3)中,Fg表示某个蛋白质一组基因表达值的波动性;最后在公式(4)中,Tg表示是某个蛋白质的活跃阈值,也就是说,如果在某个时刻,蛋白质的基因表达值大于这个阈值Tg,就可以说在该时刻,蛋白质是活跃的、表达的。
进一步,所述步骤(3)对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);其中DEcc(u,v)、Sum_DEcc(u)的计算公如下(5)、(6)表示:
其中在公式(5)中,CNu,v表示结点u,v共同邻居的个数,ku,kv分别表示结点u,v的度,Dccu,Dccv表示结点u,v的点聚集系数,其计算如上述公式(7)所示,在公式(7)中kv表示结点v的度,Nv表示由结点v的邻居结点之间组成的边数目;最后借助公式(8)对节点u和所有邻居节点v之间DEcc(u,v)值求和,其中v∈Nu表示与u相连的所有邻居节点的集合。
进一步,所述步骤(4)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);其中两个蛋白质节点之间的共表达系数PCC(u,v)值计算如公式(8)所示,Sum_PCC(u)计算如公式(9)所示:
在公式(8)中,U={u1,u2...un},V={v1,v2...vn}分别表示的是蛋白质u和蛋白质v的n个基因表达值;u’和v’分别表示其基因表达值的平均值;如果两个相互作用的蛋白质u,v基因的共表达程度越高,计算出来的PCC(u,v)值也就越大;在公式(9)中,v∈Nu表示与u相连的所有邻居节点的集合。
进一步,根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于:所述步骤(5)对于任一子网中的任一节点u来说,计算出该节点和邻居之间的亚细胞定位得分值SLS(u,v),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);其中蛋白质节点的亚细胞定位得分SLS(u)值计算如公式(10)所示,Sum_SLS(u)计算如公式(11)所示:
其中在公式(10)中|n|、|m|表示节点u、v在细胞核中出现的次数,在公式(11)中v∈Nu表示与u相连的所有邻居节点的集合。
进一步,所述步骤(6)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go_Sim(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);其中蛋白质节点之间的Go注释相似度值Go_Sim(u,v)计算如公式(12)所示,Sum_Go(u)计算如公式(13)所示:
其中在公式(12)中,分子中的绝对值表示蛋白质u和v具有相同的Go注释的数量;分母|GOu|和|GOv|表示蛋白质u和v拥有Go注释的数量;在公式(13)中,v∈Nu表示与u相连的所有邻居节点的集合。
进一步,所述步骤(7)对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u),最后将Ess_Pro(u)的值从大到小排序;其中蛋白质节点的关键性值如下公式(14)所示:
Ess_Pro(u)=Sum_PCC(u)+Sum_Go(u)+Sum_SLS(u)+Sum_DEcc(u) (14)
其中在公式(14)中的Sum_PCC(u)、Sum_GO(u)、Sum_SLS(u)、Sum_DEcc(u)分别是上述步(3)-(6)中所求的值。
进一步,所述步骤(8)最后将蛋白质节点按Ess_Pro(u)的值从大到小排序输出,就是将步骤7中所求的蛋白质关键性值进行降序排序,然后从大到小将蛋白质节点输出,这就是最终的实验结果。
本发明的优点和效果在于:该方法不但考虑了蛋白质相互作用网络的拓扑特征,同时也更多地考虑了蛋白质的生物属性,进而克服数据噪声高所带来的负面影响。融合多个生物属性提高了识别关键蛋白质的准确性,同时使预测结果更加准确,提高了预测的效率。扩展了该技术在生物信息领域的应用范围和实用性。
附图说明
图1是本发明一种融合多源生物信息的关键蛋白质识别方法的流程示意图。
图2是本发明在DIP数据集上前1%关键蛋白质数量的对比图。
图3是本发明在DIP数据集上前5%关键蛋白质数量的对比图。
图4是本发明在DIP数据集上前10%关键蛋白质数量的对比图。
图5是本发明在DIP数据集上前15%关键蛋白质数量的对比图。
图6是本发明在DIP数据集上前20%关键蛋白质数量的对比图。
图7是本发明在DIP数据集上前25%关键蛋白质数量的对比图。
图8是本发明在MIPS数据集上前1%关键蛋白质数量的对比图。
图9是本发明在MIPS数据集上前5%关键蛋白质数量的对比图。
图10是本发明在MIPS数据集上前10%关键蛋白质数量的对比图。
图11是本发明在MIPS数据集上前15%关键蛋白质数量的对比图。
图12是本发明在MIPS数据集上前20%关键蛋白质数量的对比图。
图13是本发明在MIPS数据集上前25%关键蛋白质数量的对比图。
图14是本发明在Krogan数据集上前1%关键蛋白质数量的对比图。
图15是本发明在Krogan数据集上前5%关键蛋白质数量的对比图。
图16是本发明在Krogan数据集上前10%关键蛋白质数量的对比图。
图17是本发明在Krogan数据集上前15%关键蛋白质数量的对比图。
图18是本发明在Krogan数据集上前20%关键蛋白质数量的对比图。
图19是本发明在Krogan数据集上前25%关键蛋白质数量的对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明的技术思路是:将蛋白质多个生物属性和蛋白质相互作用网络的拓扑特性相结合,首先利用3σ法则和蛋白质基因表达值数据集,将静态PPI网络转化为多个动态PPI子网络,然后在PPI子网络中对于任意一节点计算出它与所有邻居节点之间的点聚类系数值之和、基因共表达值之和、Go注释相似度值之和、以及细胞核位置得分值之和。接着对每一个蛋白质节点将上述的值相加,作为该蛋白质节点的关键性值,最后按照关键性值降序排序输入。融合多个生物属性和拓扑特性有助于理解未知关键蛋白质的功能,对于解释特定功能的分子机制有着重要意义,同时能够对药物靶细胞设计等提供重要的理论依据。所以融合多源生物信息的关键蛋白质识别方法很自然地适用于关键蛋白质的预测。
如图1所示,一种融合多源生物信息的关键蛋白质识别方法,包括以下步骤:
步骤1:输入PPI网络和基因表达数据等生物属性信息数据、亚细胞定位数据。
步骤2:根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络。
基因表达谱数据集:在蛋白质基因表达谱数据集中,每个蛋白质有36个活动点,即每个蛋白质有36个基因表达值Gi,其中i={1,2...36}。为了减少复杂性,通过下面等式(1)中给出的三个周期的平均值来计算跨越12个时间点的每个时刻的表达值。
公式(1)中,Gi代表的是在i时刻的基因表达值,借助公式(1)我们可以计算出某种蛋白质在12个时间点的基因表达值。
基因时序表达数据是在感兴趣的生物学过程中的一系列时间点收集的,从而反映了该过程中基因的动态活性。目前,现有的一些识别方法使用阈值来确定基因在某个时间点是否表达,因此我们使用3σ法则来计算活动阈值。设G i表示基因g在时间点i的表达值,则通过以下公式计算可以得到活动阈值。
Tg=ug+3ρg(1-Fg) (5)
其中N代表基因表达谱中时间点的数目,公式(2)计算的是基因表达值的平均值,公式(3)计算的是基因表达值的标准差的值,公式(4)计算的是基因表达值的波动性值,公式(5)就是我们用来计算蛋白质在时间点i是否活跃的阈值。如果某个蛋白质在某个时间点的基因表达值Gi大于等于这个阈值Tg,我们就认为在该时刻这个蛋白质是处于活跃的状态,如果两个蛋白质在某个时间点都处于活跃状态,并且它们在静态PPI网络中有相互作用,那么在这个时间点的动态子网络中,这两个相互活跃的蛋白质之间就一定存在着一条边,一般来说,这种相互作用被认为是一种动态的相互作用。至此我们已经把静态PPI网络转化为12个动态PPI子网络。
步骤3:对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);其中DEcc(u,v)、Sum_DEcc(u)的计算公如下(6)、(7)表示:
其中在公式(6)中,CNu,v表示结点u,v共同邻居的个数,ku,kv分别表示结点u,v的度,Dccu,Dccv表示结点u,v的点聚集系数,其计算如上述公式(8)所示,在公式(8)中kv表示结点v的度,Nv表示由结点v的邻居结点之间组成的边数目。最后借助公式(7)对节点u和所有邻居节点v之间DEcc(u,v)值求和,其中v∈Nu表示与u相连的所有邻居节点的集合。
步骤4:对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);其中两个蛋白质节点之间的共表达系数PCC(u,v)值计算如公式(9)所示,Sum_PCC(u)计算如公式(10)所示:
在公式(9)中,U={u1,u2...un},V={v1,v2...vn}分别表示的是蛋白质u和蛋白质v的n个基因表达值。u’和v’分别表示其基因表达值的平均值。如果两个相互作用的蛋白质u,v基因的共表达程度越高,计算出来的PCC(u,v)值也就越大。在公式(10)中,v∈Nu表示与u相连的所有邻居节点的集合。
步骤5:对于任一子网中的任一节点u来说,计算出该节点和邻居之间的亚细胞定位得分值SLS(u,v),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);其中蛋白质节点的亚细胞定位得分SLS(u,v)值计算如公式(11)所示,Sum_SLS(u)计算如公式(12)所示:
其中在公式(10)中|n|、|m|表示节点u、v在细胞核中出现的次数,在公式(11)中v∈Nu表示与u相连的所有邻居节点的集合。
步骤6:对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go_Sim(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);其中蛋白质节点之间的Go注释相似度值Go_Sim(u,v)计算如公式(13)所示,Sum_Go(u)计算如公式(14)所示:
其中在公式(13)中,分子中的绝对值表示蛋白质u和v具有相同的Go注释的数量。分母|GOu|和|GOv|表示蛋白质u和v拥有Go注释的数量。在公式(14)中,v∈Nu表示与u相连的所有邻居节点的集合。
步骤7:对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);最后将Ess_Pro(u)的值从大到小排序。其中蛋白质节点的关键性值如下公式(15)所示:
Ess_Pro(u)=Sum_PCC(u)+Sum_Go(u)+Sum_SLS(u)+Sum_DEcc(u) (15)
其中在公式(15)中的Sum_PCC(u)、Sum_GO(u)、Sum_SLS(u)、Sum_DEcc(u)分别是上述步骤(3)-(6)中所求的值。
步骤8:最后将蛋白质节点按Ess_Pro(u)的值从大到小排序输出。就是将步骤7中所求的蛋白质关键性值进行降序排序,然后从大到小将蛋白质节点输出,这就是最终的实验结果。
实施例:
我们分别在MIPS、Krogan、DIP三个数据集上对我们提出的算法FMSBI进行了试验。表1给出了Gavin、Krogan、DIP三个数据集的详细信息,包括了每个网络包含的蛋白质数量及蛋白质之间相互作用的数量。表2给出的是蛋白质生物属性数据集的信息。
表1蛋白质相互作用网络数据集
PPI数据集 | 蛋白质数量 | 相互作用数量 |
MIPS | 4546 | 12319 |
Krogan | 2674 | 7075 |
DIP | 5093 | 24743 |
表2蛋白质生物属性数据集
生物数据集 | 备注 |
基因表达谱集 | 版本:GSE3431,每个基因包括36个时间点的表达值 |
亚细胞定位集 | 亚细胞定位集包含2332个位置得分 |
Go注释集 | Go注释包括了7014个蛋白质的Go注释信息 |
为了评价FMSBI方法在关键蛋白质预测方面的性能,我们将其与其他关键蛋白质识别方法分别进行比较,我们引入统计学性能评估方法,包含六个评价指标:敏感性(SN)、特异性(SP)、阳性预测值(PPV)、阴性预测值(NPV)、F值和准确率(ACC)。这些统计指标的定义分别如下:
其中TP表示为预测为关键蛋白质的关键蛋白质数量,FN被预测为非关键蛋白质的关键蛋白质数量;TN被预测为非关键蛋白质的非关键蛋白质数量,FP被预测为关键蛋白质的非关键蛋白质数量。
FMSBI算法与其他算法在DIP、MIPS、Krogan三个数据集上关于六个评价指标(SN,SP,PPV,NPV,F,ACC)的对比实验结果如表3、表4、表5所示。从表3、表4、表5中可看出,在DIP这一PPI数据集上,本发明提出的算法FMSBI在识别关键蛋白质的性能上优于DC、EC、BC、LAC、PeC、WDC、UDONC、LBCC等对比算法,表明本明提出的方法具有一定的优越性。而在MIPS、Krogan两个PPI数据集上,本发明提出的算法FMSBI在识别关键蛋白质的性能上也优于DC、EC、SC、IC、NC、LAC、PeC、WDC等对比算法,更加表明本明提出的方法具有一定的优越性。
表3发明与其他算法在DIP数据集上的六个指标的对比图
表4发明与其他算法在DIP数据集上的六个指标的对比图
表5本发明与其他算法在Krogan数据集上的六个指标的对比图
从表3、表4中可看出,在DIP这一PPI数据集上,本发明提出的算法FMSBI在识别关键蛋白质的性能上优于DC、EC、BC、LAC、PeC、WDC、UDONC、LBCC等对比算法,表明本明提出的方法具有一定的优越性。表5中,在MIPS、Krogan两个PPI数据集上,本发明提出的算法FMSBI在识别关键蛋白质的性能上也优于DC、EC、SC、IC、NC、LAC、PeC、WDC等对比算法,更加表明本明提出的方法具有一定的优越性。
Claims (7)
1.一种融合多源生物信息的关键蛋白质识别方法,其特征在于,所述识别方法包括如下步骤:
(1)输入PPI网络和基因表达数据、GO注释数据、亚细胞定位数据,其中,GO为蛋白质生物功能的注释属性;
(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;
(3)对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);
(4)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);
(5)对于任一子网中的任一节点u来说,计算出该节点的亚细胞定位得分值SLS(u),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);
(6)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);
(7)对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);
(8)最后将蛋白质节点按Ess_Pro(u)的值从大到小排序输出。
2.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(2)中,根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值Tg,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络;每个蛋白质的活跃阈值Tg计算过程如公式(1)-(4)所示:
Tg=ug+3ρg(1-Fg) (4)
蛋白质的基因表达值随时间变化而变化,在公式(1)中,N表示每个蛋白质基因的表达值的数量,Gi表示在i时刻某个蛋白质基因的表达值,ug表示某个蛋白质基因表达值的平均值,在公式(2)中,ρg表示的是某个蛋白质基因表达值的标准差的值,在公式(3)中,Fg表示某个蛋白质一组基因表达值的波动性;最后在公式(4)中,Tg表示是某个蛋白质的活跃阈值,也就是说,如果在某个时刻,蛋白质的基因表达值大于这个阈值Tg,就可以说在该时刻,蛋白质是活跃的、表达的。
3.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(3)中,对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);其中DEcc、Sum_DEcc(u)的计算公如下(5)、(6)表示;
其中,在公式(5)中,CNu,v表示结点u,v共同邻居的个数,ku,kv分别表示结点u,v的度,Dccu,Dccv表示结点u,v的点聚集系数,其计算如上述公式(7)所示,在公式(7)中kv表示结点v的度,Nv表示由结点v的邻居结点之间组成的边数目;最后借助公式(8)对节点u和所有邻居节点v之间DEcc(u,v)值求和,其中v∈Nu表示与u相连的所有邻居节点的集合;
步骤(4)中,对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);其中两个蛋白质节点之间的共表达系数PCC(u,v)值计算如公式(8)所示,Sum_PCC(u)计算如公式(9)所示;
在公式(8)中,U={u1,u2...un},V={v1,v2...vn}分别表示的是蛋白质u和蛋白质v的n个基因表达值;u’和v’分别表示其基因表达值的平均值;如果两个相互作用的蛋白质u,v基因的共表达程度越高,计算出来的PCC(u,v)值也就越大;在公式(9)中,v∈Nu表示与u相连的所有邻居节点的集合。
5.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(6)中,对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go_Sim(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);其中蛋白质节点之间的Go注释相似度值Go_Sim(u,v)计算如公式(12)所示,Sum_Go(u)计算如公式(13)所示;
Sum_GO(u)=∑GO_Sim(u,v)
v∈Nu (13)
其中在公式(12)中,分子中的绝对值表示蛋白质u和v具有相同的Go注释的数量;分母|GOu|和|GOv|表示蛋白质u和v拥有Go注释的数量;在公式(13)中,v∈Nu表示与u相连的所有邻居节点的集合。
6.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(7)中,对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);最后将Ess_Pro(u)的值从大到小排序;其中蛋白质节点的关键性值如下公式(14)所示;
Ess_Pro(u)=Sum_PCC(u)+Sum_Go(u)+Sum_SLS(u)+Sum_DEcc(u) (14)
其中在公式(14)中的Sum_PCC(u)、Sum_GO(u)、Sum_SLS(u)、Sum_DEcc(u)分别是上述步(3)-(6)中所求的值。
7.据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(8)中,最后将蛋白质节点按Ess_Pro(u)的值从大到小排序输出;就是将步骤(7)中所求的蛋白质关键性值进行降序排序,然后从大到小将蛋白质节点输出,这就是最终的实验结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111349828.4A CN114067906B (zh) | 2021-11-15 | 2021-11-15 | 一种融合多源生物信息的关键蛋白质识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111349828.4A CN114067906B (zh) | 2021-11-15 | 2021-11-15 | 一种融合多源生物信息的关键蛋白质识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114067906A true CN114067906A (zh) | 2022-02-18 |
CN114067906B CN114067906B (zh) | 2024-04-05 |
Family
ID=80272180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111349828.4A Active CN114067906B (zh) | 2021-11-15 | 2021-11-15 | 一种融合多源生物信息的关键蛋白质识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114067906B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170076036A1 (en) * | 2016-11-27 | 2017-03-16 | InSyBio Ltd | Protein functional and sub-cellular annotation in a proteome |
WO2017211059A1 (zh) * | 2016-06-07 | 2017-12-14 | 王�忠 | 一种判别或比较药物作用模块的方法 |
CN108319812A (zh) * | 2018-02-05 | 2018-07-24 | 陕西师范大学 | 一种基于布谷鸟搜索算法识别关键蛋白质的方法 |
CN108804871A (zh) * | 2017-05-02 | 2018-11-13 | 中南大学 | 基于最大邻居子网的关键蛋白质识别方法 |
CN109166604A (zh) * | 2018-08-22 | 2019-01-08 | 华东交通大学 | 一种融合多数据特征预测关键蛋白质的计算方法 |
CN109686403A (zh) * | 2018-12-26 | 2019-04-26 | 扬州大学 | 基于不确定蛋白质相互作用网络中关键蛋白质识别方法 |
-
2021
- 2021-11-15 CN CN202111349828.4A patent/CN114067906B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017211059A1 (zh) * | 2016-06-07 | 2017-12-14 | 王�忠 | 一种判别或比较药物作用模块的方法 |
US20170076036A1 (en) * | 2016-11-27 | 2017-03-16 | InSyBio Ltd | Protein functional and sub-cellular annotation in a proteome |
CN108804871A (zh) * | 2017-05-02 | 2018-11-13 | 中南大学 | 基于最大邻居子网的关键蛋白质识别方法 |
CN108319812A (zh) * | 2018-02-05 | 2018-07-24 | 陕西师范大学 | 一种基于布谷鸟搜索算法识别关键蛋白质的方法 |
CN109166604A (zh) * | 2018-08-22 | 2019-01-08 | 华东交通大学 | 一种融合多数据特征预测关键蛋白质的计算方法 |
CN109686403A (zh) * | 2018-12-26 | 2019-04-26 | 扬州大学 | 基于不确定蛋白质相互作用网络中关键蛋白质识别方法 |
Non-Patent Citations (2)
Title |
---|
李敏;张含会;费耀平;: "融合PPI和基因表达数据的关键蛋白质识别方法", 中南大学学报(自然科学版), no. 03, 26 March 2013 (2013-03-26) * |
毛伊敏;章宇盟;胡健;: "基于中心性和模块特性的关键蛋白质识别", 计算机应用研究, no. 07, 31 December 2020 (2020-12-31) * |
Also Published As
Publication number | Publication date |
---|---|
CN114067906B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319812B (zh) | 一种基于布谷鸟搜索算法识别关键蛋白质的方法 | |
CN104992078B (zh) | 一种基于语义密度的蛋白质网络复合物识别方法 | |
CN109801674B (zh) | 一种基于异构生物网络融合的关键蛋白质识别方法 | |
CN107784196B (zh) | 基于人工鱼群优化算法识别关键蛋白质的方法 | |
Yu et al. | Predicting protein complex in protein interaction network-a supervised learning based method | |
CN107885971B (zh) | 采用改进花授粉算法识别关键蛋白质的方法 | |
CN111599406A (zh) | 结合网络聚类方法的全局多网络比对方法 | |
CN113724787B (zh) | 一种基于核心-附件结构的蛋白质复合物识别方法 | |
Lei et al. | Topology potential based seed-growth method to identify protein complexes on dynamic PPI data | |
CN108804871B (zh) | 基于最大邻居子网的关键蛋白质识别方法 | |
CN110445654A (zh) | 一种基于社区划分的社交网络多源谣言溯源方法及系统 | |
Babu et al. | A simplex method-based bacterial colony optimization algorithm for data clustering analysis | |
CN111584010B (zh) | 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法 | |
Pizzuti et al. | An evolutionary restricted neighborhood search clustering approach for PPI networks | |
CN114067906B (zh) | 一种融合多源生物信息的关键蛋白质识别方法 | |
Wu et al. | The local maximum clustering method and its application in microarray gene expression data analysis | |
CN111128292B (zh) | 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法 | |
CN109616153B (zh) | 一种采用改进的hits算法识别关键蛋白质的方法 | |
CN111667886A (zh) | 一种动态蛋白质复合物识别方法 | |
Wang et al. | An improved memetic algorithm for detecting protein complexes in protein interaction networks | |
Makarenkov et al. | Inferring multiple consensus trees and supertrees using clustering: A review | |
CN106815653B (zh) | 一种基于距离博弈的社交网络关系预测方法及系统 | |
CN114416824A (zh) | 基于模体信息的复杂网络关键节点挖掘的方法 | |
Fu et al. | HGECDA: a heterogeneous graph embedding model for CircRNA-disease association prediction | |
Boratyn et al. | Biologically supervised hierarchical clustering algorithms for gene expression data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |