CN114067906A - 一种融合多源生物信息的关键蛋白质识别方法 - Google Patents

一种融合多源生物信息的关键蛋白质识别方法 Download PDF

Info

Publication number
CN114067906A
CN114067906A CN202111349828.4A CN202111349828A CN114067906A CN 114067906 A CN114067906 A CN 114067906A CN 202111349828 A CN202111349828 A CN 202111349828A CN 114067906 A CN114067906 A CN 114067906A
Authority
CN
China
Prior art keywords
node
protein
sum
value
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111349828.4A
Other languages
English (en)
Other versions
CN114067906B (zh
Inventor
刘维
唐玉亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN202111349828.4A priority Critical patent/CN114067906B/zh
Publication of CN114067906A publication Critical patent/CN114067906A/zh
Application granted granted Critical
Publication of CN114067906B publication Critical patent/CN114067906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种融合多源生物信息的关键蛋白质识别方法,包括如下步骤:输入PPI网络和基因表达数据、蛋白质生物功能的注释属性注释数据、亚细胞定位数据;根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;计算出节点的点边缘聚类系数值,计算出该节点与邻居节点之间的基因共表达值,计算出该节点的亚细胞定位得分值,最后求该节点与其邻居之间的亚细胞定位得分值之和;计算出该节点与邻居节点之间的注释值,最后求该节点与其所有邻居之间的共表达系数之和;将上述的属性值进行相加,得到蛋白质u的最终关键性得分值。本发明的识别方法,提高了识别关键蛋白质的准确性,同时使预测结果更加准确,提高了预测的效率。

Description

一种融合多源生物信息的关键蛋白质识别方法
技术领域
本发明涉及一种融合多源生物信息的关键蛋白质识别方法,主要是在蛋白质相互作用网络中融合蛋白质的多个生物信息的关键蛋白质识别技术,特别涉及蛋白质相互作用网络中融合了网络拓扑信息和蛋白质生物属性识别蛋白质复合物的方法,属于生物信息技术领域。
背景技术
已有研究成果表明,人类疾病的发生和发展都与蛋白质的动态变化密切相关。例如,乳腺癌和肠癌的基因组是由少数常见突变基因和大量的频率较低的突变基因组成。不同蛋白质对生命活动的重要性是不一样的。Winzeler[a]在《Science》发表文章给出了关键蛋白质的定义,他认为关键蛋白质是指通过基因剔除式突变将其移除后造成有关蛋白质复合物功能丧失,并导致生物体无法生存或发育的蛋白质。关键蛋白质的识别能够从系统水平上为生物学、医学等提供有价值的信息。
在本发明提出之前,关键蛋白质识别领域,最开始是通过一系列基于网络拓扑结构特征的关键蛋白质识别方法,例如,度中心性(DC)、接近度中心性(CC)、介数中心性(BC)、子图中心性(SC)、局部平均联通度(LAC)等方法,但是这些方法识别关键蛋白质的缺点是:(1)只考虑了网络本身所具有的拓扑特征,而忽略了蛋白质所固有的生物属性特征。(2)通过生物实验所获得的PPI网络存在噪声,使得蛋白质相互作用数据存在假阳性。
发明内容
本发明的目的就在于克服上述缺陷,提供一种融合多源生物信息的关键蛋白质识别方法,该识别关键蛋白质的方法,是先构建动态PPI子网络,随后在PPI子网络中对于任意一节点计算出它与所有邻居节点之间的点聚类系数值之和、基因共表达值之和、Go注释相似度值之和、以及细胞核位置得分值之和。接着将上述的值相加,作为蛋白质节点的关键性值,最后按照关键性值降序排序输入。
本发明是这样实现的:一种融合多源生物信息的关键蛋白质识别方法,其主要技术特征在于如下步骤:
(1)输入PPI网络和基因表达数据、GO(蛋白质生物功能的注释属性)注释数据、亚细胞定位数据;
(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;
(3)对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);
(4)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);
(5)对于任一子网中的任一节点u来说,计算出该节点的亚细胞定位得分值SLS(u),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);
(6)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);
(7)对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);
(8)最后将蛋白质节点按照Ess_Pro(u)的值从大到小排序输出。
进一步,所述步骤(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值Tg,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络,根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值Tg,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络;每个蛋白质的活跃阈值Tg计算过程如公式(1)-(4)所示:
Figure BDA0003355358430000021
Figure BDA0003355358430000022
Figure BDA0003355358430000023
Tg=ug+3ρg(1-Fg) (4)
蛋白质的基因表达值随时间变化而变化,在公式(1)中,N表示每个蛋白质基因的表达值的数量,Gi表示在i时刻某个蛋白质基因表达值,ug表示某个蛋白质基因表达值的平均值,在公式(2)中,ρg表示的是某个蛋白质基因表达值的标准差的值,在公式(3)中,Fg表示某个蛋白质一组基因表达值的波动性;最后在公式(4)中,Tg表示是某个蛋白质的活跃阈值,也就是说,如果在某个时刻,蛋白质的基因表达值大于这个阈值Tg,就可以说在该时刻,蛋白质是活跃的、表达的。
进一步,所述步骤(3)对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);其中DEcc(u,v)、Sum_DEcc(u)的计算公如下(5)、(6)表示:
Figure BDA0003355358430000031
Figure BDA0003355358430000032
Figure BDA0003355358430000033
Figure BDA0003355358430000034
其中在公式(5)中,CNu,v表示结点u,v共同邻居的个数,ku,kv分别表示结点u,v的度,Dccu,Dccv表示结点u,v的点聚集系数,其计算如上述公式(7)所示,在公式(7)中kv表示结点v的度,Nv表示由结点v的邻居结点之间组成的边数目;最后借助公式(8)对节点u和所有邻居节点v之间DEcc(u,v)值求和,其中v∈Nu表示与u相连的所有邻居节点的集合。
进一步,所述步骤(4)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);其中两个蛋白质节点之间的共表达系数PCC(u,v)值计算如公式(8)所示,Sum_PCC(u)计算如公式(9)所示:
Figure BDA0003355358430000035
在公式(8)中,U={u1,u2...un},V={v1,v2...vn}分别表示的是蛋白质u和蛋白质v的n个基因表达值;u’和v’分别表示其基因表达值的平均值;如果两个相互作用的蛋白质u,v基因的共表达程度越高,计算出来的PCC(u,v)值也就越大;在公式(9)中,v∈Nu表示与u相连的所有邻居节点的集合。
进一步,根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于:所述步骤(5)对于任一子网中的任一节点u来说,计算出该节点和邻居之间的亚细胞定位得分值SLS(u,v),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);其中蛋白质节点的亚细胞定位得分SLS(u)值计算如公式(10)所示,Sum_SLS(u)计算如公式(11)所示:
Figure BDA0003355358430000036
Figure BDA0003355358430000041
其中在公式(10)中|n|、|m|表示节点u、v在细胞核中出现的次数,在公式(11)中v∈Nu表示与u相连的所有邻居节点的集合。
进一步,所述步骤(6)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go_Sim(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);其中蛋白质节点之间的Go注释相似度值Go_Sim(u,v)计算如公式(12)所示,Sum_Go(u)计算如公式(13)所示:
Figure BDA0003355358430000042
Figure BDA0003355358430000043
其中在公式(12)中,分子中的绝对值表示蛋白质u和v具有相同的Go注释的数量;分母|GOu|和|GOv|表示蛋白质u和v拥有Go注释的数量;在公式(13)中,v∈Nu表示与u相连的所有邻居节点的集合。
进一步,所述步骤(7)对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u),最后将Ess_Pro(u)的值从大到小排序;其中蛋白质节点的关键性值如下公式(14)所示:
Ess_Pro(u)=Sum_PCC(u)+Sum_Go(u)+Sum_SLS(u)+Sum_DEcc(u) (14)
其中在公式(14)中的Sum_PCC(u)、Sum_GO(u)、Sum_SLS(u)、Sum_DEcc(u)分别是上述步(3)-(6)中所求的值。
进一步,所述步骤(8)最后将蛋白质节点按Ess_Pro(u)的值从大到小排序输出,就是将步骤7中所求的蛋白质关键性值进行降序排序,然后从大到小将蛋白质节点输出,这就是最终的实验结果。
本发明的优点和效果在于:该方法不但考虑了蛋白质相互作用网络的拓扑特征,同时也更多地考虑了蛋白质的生物属性,进而克服数据噪声高所带来的负面影响。融合多个生物属性提高了识别关键蛋白质的准确性,同时使预测结果更加准确,提高了预测的效率。扩展了该技术在生物信息领域的应用范围和实用性。
附图说明
图1是本发明一种融合多源生物信息的关键蛋白质识别方法的流程示意图。
图2是本发明在DIP数据集上前1%关键蛋白质数量的对比图。
图3是本发明在DIP数据集上前5%关键蛋白质数量的对比图。
图4是本发明在DIP数据集上前10%关键蛋白质数量的对比图。
图5是本发明在DIP数据集上前15%关键蛋白质数量的对比图。
图6是本发明在DIP数据集上前20%关键蛋白质数量的对比图。
图7是本发明在DIP数据集上前25%关键蛋白质数量的对比图。
图8是本发明在MIPS数据集上前1%关键蛋白质数量的对比图。
图9是本发明在MIPS数据集上前5%关键蛋白质数量的对比图。
图10是本发明在MIPS数据集上前10%关键蛋白质数量的对比图。
图11是本发明在MIPS数据集上前15%关键蛋白质数量的对比图。
图12是本发明在MIPS数据集上前20%关键蛋白质数量的对比图。
图13是本发明在MIPS数据集上前25%关键蛋白质数量的对比图。
图14是本发明在Krogan数据集上前1%关键蛋白质数量的对比图。
图15是本发明在Krogan数据集上前5%关键蛋白质数量的对比图。
图16是本发明在Krogan数据集上前10%关键蛋白质数量的对比图。
图17是本发明在Krogan数据集上前15%关键蛋白质数量的对比图。
图18是本发明在Krogan数据集上前20%关键蛋白质数量的对比图。
图19是本发明在Krogan数据集上前25%关键蛋白质数量的对比图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明的技术思路是:将蛋白质多个生物属性和蛋白质相互作用网络的拓扑特性相结合,首先利用3σ法则和蛋白质基因表达值数据集,将静态PPI网络转化为多个动态PPI子网络,然后在PPI子网络中对于任意一节点计算出它与所有邻居节点之间的点聚类系数值之和、基因共表达值之和、Go注释相似度值之和、以及细胞核位置得分值之和。接着对每一个蛋白质节点将上述的值相加,作为该蛋白质节点的关键性值,最后按照关键性值降序排序输入。融合多个生物属性和拓扑特性有助于理解未知关键蛋白质的功能,对于解释特定功能的分子机制有着重要意义,同时能够对药物靶细胞设计等提供重要的理论依据。所以融合多源生物信息的关键蛋白质识别方法很自然地适用于关键蛋白质的预测。
如图1所示,一种融合多源生物信息的关键蛋白质识别方法,包括以下步骤:
步骤1:输入PPI网络和基因表达数据等生物属性信息数据、亚细胞定位数据。
步骤2:根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络。
基因表达谱数据集:在蛋白质基因表达谱数据集中,每个蛋白质有36个活动点,即每个蛋白质有36个基因表达值Gi,其中i={1,2...36}。为了减少复杂性,通过下面等式(1)中给出的三个周期的平均值来计算跨越12个时间点的每个时刻的表达值。
Figure BDA0003355358430000061
公式(1)中,Gi代表的是在i时刻的基因表达值,借助公式(1)我们可以计算出某种蛋白质在12个时间点的基因表达值。
基因时序表达数据是在感兴趣的生物学过程中的一系列时间点收集的,从而反映了该过程中基因的动态活性。目前,现有的一些识别方法使用阈值来确定基因在某个时间点是否表达,因此我们使用3σ法则来计算活动阈值。设G i表示基因g在时间点i的表达值,则通过以下公式计算可以得到活动阈值。
Figure BDA0003355358430000062
Figure BDA0003355358430000063
Figure BDA0003355358430000064
Tg=ug+3ρg(1-Fg) (5)
其中N代表基因表达谱中时间点的数目,公式(2)计算的是基因表达值的平均值,公式(3)计算的是基因表达值的标准差的值,公式(4)计算的是基因表达值的波动性值,公式(5)就是我们用来计算蛋白质在时间点i是否活跃的阈值。如果某个蛋白质在某个时间点的基因表达值Gi大于等于这个阈值Tg,我们就认为在该时刻这个蛋白质是处于活跃的状态,如果两个蛋白质在某个时间点都处于活跃状态,并且它们在静态PPI网络中有相互作用,那么在这个时间点的动态子网络中,这两个相互活跃的蛋白质之间就一定存在着一条边,一般来说,这种相互作用被认为是一种动态的相互作用。至此我们已经把静态PPI网络转化为12个动态PPI子网络。
步骤3:对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);其中DEcc(u,v)、Sum_DEcc(u)的计算公如下(6)、(7)表示:
Figure BDA0003355358430000071
Figure BDA0003355358430000072
Figure BDA0003355358430000073
其中在公式(6)中,CNu,v表示结点u,v共同邻居的个数,ku,kv分别表示结点u,v的度,Dccu,Dccv表示结点u,v的点聚集系数,其计算如上述公式(8)所示,在公式(8)中kv表示结点v的度,Nv表示由结点v的邻居结点之间组成的边数目。最后借助公式(7)对节点u和所有邻居节点v之间DEcc(u,v)值求和,其中v∈Nu表示与u相连的所有邻居节点的集合。
步骤4:对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);其中两个蛋白质节点之间的共表达系数PCC(u,v)值计算如公式(9)所示,Sum_PCC(u)计算如公式(10)所示:
Figure BDA0003355358430000074
Figure BDA0003355358430000075
在公式(9)中,U={u1,u2...un},V={v1,v2...vn}分别表示的是蛋白质u和蛋白质v的n个基因表达值。u’和v’分别表示其基因表达值的平均值。如果两个相互作用的蛋白质u,v基因的共表达程度越高,计算出来的PCC(u,v)值也就越大。在公式(10)中,v∈Nu表示与u相连的所有邻居节点的集合。
步骤5:对于任一子网中的任一节点u来说,计算出该节点和邻居之间的亚细胞定位得分值SLS(u,v),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);其中蛋白质节点的亚细胞定位得分SLS(u,v)值计算如公式(11)所示,Sum_SLS(u)计算如公式(12)所示:
Figure BDA0003355358430000081
Figure BDA0003355358430000082
其中在公式(10)中|n|、|m|表示节点u、v在细胞核中出现的次数,在公式(11)中v∈Nu表示与u相连的所有邻居节点的集合。
步骤6:对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go_Sim(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);其中蛋白质节点之间的Go注释相似度值Go_Sim(u,v)计算如公式(13)所示,Sum_Go(u)计算如公式(14)所示:
Figure BDA0003355358430000083
Figure BDA0003355358430000084
其中在公式(13)中,分子中的绝对值表示蛋白质u和v具有相同的Go注释的数量。分母|GOu|和|GOv|表示蛋白质u和v拥有Go注释的数量。在公式(14)中,v∈Nu表示与u相连的所有邻居节点的集合。
步骤7:对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);最后将Ess_Pro(u)的值从大到小排序。其中蛋白质节点的关键性值如下公式(15)所示:
Ess_Pro(u)=Sum_PCC(u)+Sum_Go(u)+Sum_SLS(u)+Sum_DEcc(u) (15)
其中在公式(15)中的Sum_PCC(u)、Sum_GO(u)、Sum_SLS(u)、Sum_DEcc(u)分别是上述步骤(3)-(6)中所求的值。
步骤8:最后将蛋白质节点按Ess_Pro(u)的值从大到小排序输出。就是将步骤7中所求的蛋白质关键性值进行降序排序,然后从大到小将蛋白质节点输出,这就是最终的实验结果。
实施例:
我们分别在MIPS、Krogan、DIP三个数据集上对我们提出的算法FMSBI进行了试验。表1给出了Gavin、Krogan、DIP三个数据集的详细信息,包括了每个网络包含的蛋白质数量及蛋白质之间相互作用的数量。表2给出的是蛋白质生物属性数据集的信息。
表1蛋白质相互作用网络数据集
PPI数据集 蛋白质数量 相互作用数量
MIPS 4546 12319
Krogan 2674 7075
DIP 5093 24743
表2蛋白质生物属性数据集
生物数据集 备注
基因表达谱集 版本:GSE3431,每个基因包括36个时间点的表达值
亚细胞定位集 亚细胞定位集包含2332个位置得分
Go注释集 Go注释包括了7014个蛋白质的Go注释信息
为了评价FMSBI方法在关键蛋白质预测方面的性能,我们将其与其他关键蛋白质识别方法分别进行比较,我们引入统计学性能评估方法,包含六个评价指标:敏感性(SN)、特异性(SP)、阳性预测值(PPV)、阴性预测值(NPV)、F值和准确率(ACC)。这些统计指标的定义分别如下:
Figure BDA0003355358430000091
Figure BDA0003355358430000092
Figure BDA0003355358430000093
Figure BDA0003355358430000094
Figure BDA0003355358430000095
Figure BDA0003355358430000096
其中TP表示为预测为关键蛋白质的关键蛋白质数量,FN被预测为非关键蛋白质的关键蛋白质数量;TN被预测为非关键蛋白质的非关键蛋白质数量,FP被预测为关键蛋白质的非关键蛋白质数量。
FMSBI算法与其他算法在DIP、MIPS、Krogan三个数据集上关于六个评价指标(SN,SP,PPV,NPV,F,ACC)的对比实验结果如表3、表4、表5所示。从表3、表4、表5中可看出,在DIP这一PPI数据集上,本发明提出的算法FMSBI在识别关键蛋白质的性能上优于DC、EC、BC、LAC、PeC、WDC、UDONC、LBCC等对比算法,表明本明提出的方法具有一定的优越性。而在MIPS、Krogan两个PPI数据集上,本发明提出的算法FMSBI在识别关键蛋白质的性能上也优于DC、EC、SC、IC、NC、LAC、PeC、WDC等对比算法,更加表明本明提出的方法具有一定的优越性。
表3发明与其他算法在DIP数据集上的六个指标的对比图
Figure BDA0003355358430000101
表4发明与其他算法在DIP数据集上的六个指标的对比图
Figure BDA0003355358430000102
表5本发明与其他算法在Krogan数据集上的六个指标的对比图
Figure BDA0003355358430000103
从表3、表4中可看出,在DIP这一PPI数据集上,本发明提出的算法FMSBI在识别关键蛋白质的性能上优于DC、EC、BC、LAC、PeC、WDC、UDONC、LBCC等对比算法,表明本明提出的方法具有一定的优越性。表5中,在MIPS、Krogan两个PPI数据集上,本发明提出的算法FMSBI在识别关键蛋白质的性能上也优于DC、EC、SC、IC、NC、LAC、PeC、WDC等对比算法,更加表明本明提出的方法具有一定的优越性。

Claims (7)

1.一种融合多源生物信息的关键蛋白质识别方法,其特征在于,所述识别方法包括如下步骤:
(1)输入PPI网络和基因表达数据、GO注释数据、亚细胞定位数据,其中,GO为蛋白质生物功能的注释属性;
(2)根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;
(3)对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);
(4)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);
(5)对于任一子网中的任一节点u来说,计算出该节点的亚细胞定位得分值SLS(u),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);
(6)对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);
(7)对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);
(8)最后将蛋白质节点按Ess_Pro(u)的值从大到小排序输出。
2.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(2)中,根据静态PPI网络和蛋白质基因表达值数据集,利用3σ法则构建多个动态子网络;根据基因表达值数据集,可以计算出每个蛋白质的活跃阈值Tg,再结合静态网络的拓扑属性,可以将静态网络根据时间点划分为多个动态子网络;每个蛋白质的活跃阈值Tg计算过程如公式(1)-(4)所示:
Figure FDA0003355358420000011
Figure FDA0003355358420000012
Figure FDA0003355358420000013
Tg=ug+3ρg(1-Fg) (4)
蛋白质的基因表达值随时间变化而变化,在公式(1)中,N表示每个蛋白质基因的表达值的数量,Gi表示在i时刻某个蛋白质基因的表达值,ug表示某个蛋白质基因表达值的平均值,在公式(2)中,ρg表示的是某个蛋白质基因表达值的标准差的值,在公式(3)中,Fg表示某个蛋白质一组基因表达值的波动性;最后在公式(4)中,Tg表示是某个蛋白质的活跃阈值,也就是说,如果在某个时刻,蛋白质的基因表达值大于这个阈值Tg,就可以说在该时刻,蛋白质是活跃的、表达的。
3.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(3)中,对于任一子网中的任一节点u来说,计算出该节点的点边缘聚类系数值DEcc(u,v),最后求该节点与其所有邻居之间的点聚类系数值之和Sum_DEcc(u);其中DEcc、Sum_DEcc(u)的计算公如下(5)、(6)表示;
Figure FDA0003355358420000021
Figure FDA0003355358420000022
Figure FDA0003355358420000023
其中,在公式(5)中,CNu,v表示结点u,v共同邻居的个数,ku,kv分别表示结点u,v的度,Dccu,Dccv表示结点u,v的点聚集系数,其计算如上述公式(7)所示,在公式(7)中kv表示结点v的度,Nv表示由结点v的邻居结点之间组成的边数目;最后借助公式(8)对节点u和所有邻居节点v之间DEcc(u,v)值求和,其中v∈Nu表示与u相连的所有邻居节点的集合;
步骤(4)中,对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的基因共表达值PCC(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_PCC(u);其中两个蛋白质节点之间的共表达系数PCC(u,v)值计算如公式(8)所示,Sum_PCC(u)计算如公式(9)所示;
Figure FDA0003355358420000024
Figure FDA0003355358420000031
在公式(8)中,U={u1,u2...un},V={v1,v2...vn}分别表示的是蛋白质u和蛋白质v的n个基因表达值;u’和v’分别表示其基因表达值的平均值;如果两个相互作用的蛋白质u,v基因的共表达程度越高,计算出来的PCC(u,v)值也就越大;在公式(9)中,v∈Nu表示与u相连的所有邻居节点的集合。
4.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(5)中,对于任一子网中的任一节点u来说,计算出该节点和邻居之间的亚细胞定位得分值SLS(u,v),最后求该节点与其邻居之间的亚细胞定位得分值之和Sum_SLS(u);其中蛋白质节点的亚细胞定位得分SLS(u)值计算如公式(10)所示,Sum_SLS(u)计算如公式(11)所示;
Figure FDA0003355358420000032
Figure FDA0003355358420000033
其中在公式(10)中|n|、|m|表示节点u、v在细胞核中出现的次数,在公式(11)中v∈Nu表示与u相连的所有邻居节点的集合。
5.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(6)中,对于任一子网中的任一节点u来说,计算出该节点与邻居节点之间的Go注释值Go_Sim(u,v),最后求该节点与其所有邻居之间的共表达系数之和Sum_Go(u);其中蛋白质节点之间的Go注释相似度值Go_Sim(u,v)计算如公式(12)所示,Sum_Go(u)计算如公式(13)所示;
Figure FDA0003355358420000034
Sum_GO(u)=∑GO_Sim(u,v)
v∈Nu (13)
其中在公式(12)中,分子中的绝对值表示蛋白质u和v具有相同的Go注释的数量;分母|GOu|和|GOv|表示蛋白质u和v拥有Go注释的数量;在公式(13)中,v∈Nu表示与u相连的所有邻居节点的集合。
6.根据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(7)中,对于每一个节点u来说,将上述的属性值进行相加,得到蛋白质u的最终关键性得分值Ess_Pro(u);最后将Ess_Pro(u)的值从大到小排序;其中蛋白质节点的关键性值如下公式(14)所示;
Ess_Pro(u)=Sum_PCC(u)+Sum_Go(u)+Sum_SLS(u)+Sum_DEcc(u) (14)
其中在公式(14)中的Sum_PCC(u)、Sum_GO(u)、Sum_SLS(u)、Sum_DEcc(u)分别是上述步(3)-(6)中所求的值。
7.据权利要求1所述的融合多源生物信息的关键蛋白质识别方法,其特征在于,步骤(8)中,最后将蛋白质节点按Ess_Pro(u)的值从大到小排序输出;就是将步骤(7)中所求的蛋白质关键性值进行降序排序,然后从大到小将蛋白质节点输出,这就是最终的实验结果。
CN202111349828.4A 2021-11-15 2021-11-15 一种融合多源生物信息的关键蛋白质识别方法 Active CN114067906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111349828.4A CN114067906B (zh) 2021-11-15 2021-11-15 一种融合多源生物信息的关键蛋白质识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111349828.4A CN114067906B (zh) 2021-11-15 2021-11-15 一种融合多源生物信息的关键蛋白质识别方法

Publications (2)

Publication Number Publication Date
CN114067906A true CN114067906A (zh) 2022-02-18
CN114067906B CN114067906B (zh) 2024-04-05

Family

ID=80272180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111349828.4A Active CN114067906B (zh) 2021-11-15 2021-11-15 一种融合多源生物信息的关键蛋白质识别方法

Country Status (1)

Country Link
CN (1) CN114067906B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076036A1 (en) * 2016-11-27 2017-03-16 InSyBio Ltd Protein functional and sub-cellular annotation in a proteome
WO2017211059A1 (zh) * 2016-06-07 2017-12-14 王�忠 一种判别或比较药物作用模块的方法
CN108319812A (zh) * 2018-02-05 2018-07-24 陕西师范大学 一种基于布谷鸟搜索算法识别关键蛋白质的方法
CN108804871A (zh) * 2017-05-02 2018-11-13 中南大学 基于最大邻居子网的关键蛋白质识别方法
CN109166604A (zh) * 2018-08-22 2019-01-08 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN109686403A (zh) * 2018-12-26 2019-04-26 扬州大学 基于不确定蛋白质相互作用网络中关键蛋白质识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017211059A1 (zh) * 2016-06-07 2017-12-14 王�忠 一种判别或比较药物作用模块的方法
US20170076036A1 (en) * 2016-11-27 2017-03-16 InSyBio Ltd Protein functional and sub-cellular annotation in a proteome
CN108804871A (zh) * 2017-05-02 2018-11-13 中南大学 基于最大邻居子网的关键蛋白质识别方法
CN108319812A (zh) * 2018-02-05 2018-07-24 陕西师范大学 一种基于布谷鸟搜索算法识别关键蛋白质的方法
CN109166604A (zh) * 2018-08-22 2019-01-08 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN109686403A (zh) * 2018-12-26 2019-04-26 扬州大学 基于不确定蛋白质相互作用网络中关键蛋白质识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李敏;张含会;费耀平;: "融合PPI和基因表达数据的关键蛋白质识别方法", 中南大学学报(自然科学版), no. 03, 26 March 2013 (2013-03-26) *
毛伊敏;章宇盟;胡健;: "基于中心性和模块特性的关键蛋白质识别", 计算机应用研究, no. 07, 31 December 2020 (2020-12-31) *

Also Published As

Publication number Publication date
CN114067906B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN108319812B (zh) 一种基于布谷鸟搜索算法识别关键蛋白质的方法
CN104992078B (zh) 一种基于语义密度的蛋白质网络复合物识别方法
CN109801674B (zh) 一种基于异构生物网络融合的关键蛋白质识别方法
CN107784196B (zh) 基于人工鱼群优化算法识别关键蛋白质的方法
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
CN111599406A (zh) 结合网络聚类方法的全局多网络比对方法
CN113724787B (zh) 一种基于核心-附件结构的蛋白质复合物识别方法
Lei et al. Topology potential based seed-growth method to identify protein complexes on dynamic PPI data
CN108804871B (zh) 基于最大邻居子网的关键蛋白质识别方法
CN110445654A (zh) 一种基于社区划分的社交网络多源谣言溯源方法及系统
Babu et al. A simplex method-based bacterial colony optimization algorithm for data clustering analysis
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
Pizzuti et al. An evolutionary restricted neighborhood search clustering approach for PPI networks
CN114067906B (zh) 一种融合多源生物信息的关键蛋白质识别方法
Wu et al. The local maximum clustering method and its application in microarray gene expression data analysis
CN111128292B (zh) 一种基于蛋白质成簇特性和活性共表达的关键蛋白质识别方法
CN109616153B (zh) 一种采用改进的hits算法识别关键蛋白质的方法
CN111667886A (zh) 一种动态蛋白质复合物识别方法
Wang et al. An improved memetic algorithm for detecting protein complexes in protein interaction networks
Makarenkov et al. Inferring multiple consensus trees and supertrees using clustering: A review
CN106815653B (zh) 一种基于距离博弈的社交网络关系预测方法及系统
CN114416824A (zh) 基于模体信息的复杂网络关键节点挖掘的方法
Fu et al. HGECDA: a heterogeneous graph embedding model for CircRNA-disease association prediction
Boratyn et al. Biologically supervised hierarchical clustering algorithms for gene expression data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant