CN109686402A - 基于动态加权相互作用网络中关键蛋白质识别方法 - Google Patents

基于动态加权相互作用网络中关键蛋白质识别方法 Download PDF

Info

Publication number
CN109686402A
CN109686402A CN201811597170.7A CN201811597170A CN109686402A CN 109686402 A CN109686402 A CN 109686402A CN 201811597170 A CN201811597170 A CN 201811597170A CN 109686402 A CN109686402 A CN 109686402A
Authority
CN
China
Prior art keywords
protein
network
dynamic
ppi
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811597170.7A
Other languages
English (en)
Other versions
CN109686402B (zh
Inventor
刘维
马良玉
唐玉亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN201811597170.7A priority Critical patent/CN109686402B/zh
Publication of CN109686402A publication Critical patent/CN109686402A/zh
Application granted granted Critical
Publication of CN109686402B publication Critical patent/CN109686402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于动态加权相互作用网络中关键蛋白质识别方法使用准则,计算蛋白质活动时间点和蛋白质活动概率,构建动态PPI网络,然后,根据蛋白质活动概率,计算蛋白质间相互作用权重,构建动态加权PPI网络。在建立好的动态加权PPI网络上,根据蛋白质网络的拓扑特性和生物属性,计算相互作用蛋白质对间的边缘聚类系数、基因本体相似度和皮尔逊相关系数。之后,得到一个重要性分数,最终按分值由大到小排列,输出分值对应的k个蛋白质即为最后结果。本发明提高了关键蛋白质识别的效率,扩展了该技术在生物信息领域的应用范围和实用性。

Description

基于动态加权相互作用网络中关键蛋白质识别方法
技术领域
本发明属于生物信息技术领域,主要是在蛋白质相互作用网络中通过动态加权相互作用网络识别关键蛋白质的技术,特别涉及在动态加权PPI网络中通过网络拓扑特性和蛋白质生物属性识别关键蛋白质的方法。
背景技术
在生物细胞中,关键蛋白质是实现细胞功能不可缺少的,关键蛋白质的探测有助于理解细胞代谢,生长和发育的规律。因此,关于关键蛋白质的识别成为蛋白质组学领域的一项重要研究工作之一。虽然目前对于蛋白质相互作用网络中的关键蛋白质的识别取得了一些成果,但由于生命系统的高度复杂性和随机性,其他领域中卓有成效的方法往往在PPI网络分析中不一定取得理想的效果,忽略了蛋白质相互作用网络的动态性,导致识别出来的蛋白质准确率较低。
在本发明作出之前,在已有的方法中,关键蛋白质识别方法都是根据PPI中的某一顶点的某种重要性指标,如顶点的各种中心度等来排序,取其中较大的k个作为关键蛋白质。然而,这类重要性指标往往很多,如度的中心度、介度中心度、聚类中心度等,这样识别关键蛋白质的缺点是:(1)对于某一蛋白质而言,其某种中心度较高,而其他中心度未必也很高,这将导致识别的关键蛋白质精确度低;(2)基于蛋白质拓扑特性的关键蛋白质预测方法,不但依赖于蛋白质相互作用网络的准确性,同时缺乏考虑关键蛋白质的生物特性。(3)仅仅考虑了静态PPI网络下蛋白质的一些特性,忽略了蛋白质相互作用网络随着时间不断发生变化的。
发明内容
本发明的目的就在于克服上述缺陷,研制基于动态加权相互作用网络中关键蛋白质识别方法。
基于动态加权相互作用网络中关键蛋白质识别方法使用3-σ准则,计算蛋白质活动时间点和蛋白质活动概率,构建动态PPI网络,然后,根据蛋白质活动概率,计算蛋白质间相互作用权重,构建动态加权PPI网络。在建立好的动态加权PPI网络上,根据蛋白质网络的拓扑特性和生物属性,计算相互作用蛋白质对间的边缘聚类系数、基因本体相似度和皮尔逊相关系数。之后,得到一个重要性分数,最终按分值由大到小排列,输出分值对应的k个蛋白质即为最后结果。
基于动态加权相互作用网络中关键蛋白质识别方法,其主要技术特征在于如下步骤:
(1)输入PPI网络和基因表达数据;
(2)根据3-σ准则,计算蛋白质活动时间点和蛋白质活动概率,构建动态PPI网络;
(3)根据蛋白质活动概率,计算蛋白质间相互作用权重,构建动态加权PPI网络;
(4)根据蛋白质顶点之间的相互作用关系,计算边缘聚类系数;
(5)根据蛋白质的生物特性,计算相互作用蛋白质对的基因本体(Gene Ontology)相似度、皮尔逊相关系数(Person correlation coefficient);
(6)根据蛋白质顶点间的权重值、基因本体相似度和皮尔逊相关系数计算蛋白质顶点重要性分数;
(7)获得每个顶点的重要性分数并由大到小排序,排序后最大的k个值为关键蛋白质。
进一步地,所述步骤(2)根据3-σ准则,计算蛋白质活动时间点和蛋白质活动概率,构建动态PPI网络:通过步骤(1)输入PPI网络和基因表达数据,每个蛋白质具有m个时间点,每个时间点对应了一个基因表达值,根据基因表达值的平均值和标准差,计算活动阈值。将活动阈值与每个蛋白质的基因表达值进行比较,构建动态PPI网络。
进一步地,所述步骤(3)根据蛋白质活动概率,计算蛋白质间相互作用权重,构建加权动态PPI网络:通过步骤(2)计算蛋白质活动概率,为每对活动的相互作用蛋白质赋予一个权重,结合动态PPI网络,构建动态加权PPI网络。
进一步地,所述步骤(6)根据蛋白质顶点间的权重值、基因本体相似度和皮尔逊相关系数计算蛋白质顶点重要性分数:整合相互作用蛋白质网络的拓扑特性以及蛋白质的生物属性,建立一个蛋白质重要性计算公式,得出每个蛋白质的最终得分。
本发明的优点和效果在于该方法考虑了蛋白质网络的动态性,整合了蛋白质相互作用网络的拓扑特性以及蛋白质的生物属性信息,进而克服数据的不完全性、动态性以及数据的噪声性所带来的负面影响。在动态加权PPI网络上,将蛋白质相互作用网络的拓扑特性与蛋白质生物属性相结合有助于提高识别关键蛋白质的准确性,提高了关键蛋白质识别的效率,扩展了该技术在生物信息领域的应用范围和实用性。
附图说明
图1——本发明在动态加权相互作用网络中关键蛋白质识别方法流程示意图;
图2——本方法(IEP-DPPI)和其他方法在静态PPI网络和动态PPI网络中识别的关键蛋白质数量比较图。
具体实施方式
本发明的技术思路是:
根据静态PPI网络和基因表达数据,通过3-σ准则,计算蛋白质活动时间点和蛋白质活动概率,构建动态PPI网络,然后,根据蛋白质活动概率,计算蛋白质间相互作用权重,构建动态加权PPI网络。基于动态加权PPI网络,根据蛋白质顶点之间的相互作用关系,计算边缘聚类系数;根据蛋白质的生物特性,计算相互作用蛋白质对的基因本体(GeneOntology)相似度、皮尔逊相关系数(Person correlation coefficient)。最后,根据蛋白质顶点间的权重值、基因本体相似度和皮尔逊相关系数计算蛋白质顶点重要性分数,最终获得每个顶点的重要性分数并由大到小排序,排序后最大的k个值为关键蛋白质。在动态加权PPI网络中,整合生物属性和拓扑特性有助于理解未知蛋白质的功能,对于解释特定功能的分子机制有着重要意义,同时能够对药物靶细胞设计等提供重要的理论依据。所以基于动态加权相互作用网络中关键蛋白质识别方法很自然地适用于关键蛋白质的探测。
下面结合附图和具体实施方式对本发明进行详细说明。
步骤1:输入静态PPI网络和基因表达数据
步骤2:根据3-σ准则,计算蛋白质活动时间点和蛋白质活动概率,构建动态PPI网络
基因表达数据通常由m个时间点表达谱组成。设Gei(p)表示为在时间点i基因p的基因表达值。设u(p)和σ(p)分别表示基因表达数据的算术平均值和标准差。设X是正态分布的实数随机变量N(u,σ2)。对于任何k>0,P{|X-u|<kσ}=2Φ(k)-1其中,Φ(·)是标准正规定律的分布函数。特别是,当k=1,2,3时,P{|X-u|<σ}=P{u-σ<X<u+σ}≈0.6827,P{|X-u|<2σ}≈0.9545和P{|X-u|<3σ}≈0.9973。并给出如下公式:
使用3-σ准则计算不同时间点的k-σ阈值,公式如下:
使用Pri来表示蛋白质在i时间点的活动概率。因此,使用四个水平来表示基于3-σ准则的时间点i蛋白质的活动概率,其通过公式(4)计算。
首先基于每种蛋白质的活动概率构建动态蛋白质相互作用网络。对于蛋白质p,当基因表达值大于Active_threshk(p)时,认为它在时间点i是活动的。蛋白质活动的时间点的集合可以表示为Tp={t1,t2,...,tm},1≤m≤36。如果蛋白质p和蛋白质q在静态网络上相互作用并且具有共同的活动时间点,则认为蛋白质p和q在动态PPI网络上彼此相互作用。CoT(p,q)=1表明蛋白质p和q在动态PPI网络上具有相互作用。
步骤3:根据蛋白质活动概率,计算蛋白质间相互作用权重,构建动态加权PPI网络,通过公式(6)可以有效地给出时间点i的边(p,q)的加权值:
weight(ei(p,q))=Pri(p)·Pri(q) (6)
其中ei(p,q)表示p和q之间的边在时间点i有相互作用。
动态PPI网络的活动水平由每条边的权重之和计算得出,其给出如下:
基于公式(7),每条边的加权值平均值计算如下:
其中|t|表示蛋白质p和q的共同活动时间点的数量。
步骤4:根据蛋白质顶点之间的相互作用关系,计算边缘聚类系数
边(u,v)的边聚类系数可以通过以下公式计算得出:
其中,Nu和Nv分别表示顶点u和v邻居节点的集合。du和dv分别代表顶点u和v的度。
步骤5:根据蛋白质的生物特性,计算相互作用蛋白质对的基因本体(GeneOntology)相似度、皮尔逊相关系数(Person correlation coefficient)
(1)基因本体(Gene Ontology)相似度
Gene Ontology包含生物过程、细胞组成和分子功能,广泛用于检测基因功能间的关联。Gene Ontology相似度定义如下:
其中,Term(G1)和Term(G2)分别表示G1和G2的Gene Ontology术语数。
(2)皮尔逊相关系数(Person correlation coefficient)
皮尔逊相关系数(Person correlation coefficient)用于测量共表达的蛋白质对,这是两个线性依赖变量之间相关强度广泛使用的度量。基因X和Y的皮尔逊相关系数定义为:
其中,m是基因表达数据的样品数,g(X,i)和g(Y,i)分别代表样品i中基因X和Y的表达水平。
步骤6:根据蛋白质顶点间的权重值、基因本体相似度和皮尔逊相关系数计算蛋白质顶点重要性分数
定义每个相互作用边(u,v)的重要性性分数。蛋白质对u和v的必要性评分如下:
ESPS(u,v)=αECC+βSum_ave+ηPCC+γSimmatch (12)
其中,α,β,γ,η∈(0,1)
对于蛋白质v,ESPSI(v)定义为重要性得分的总和。
ESPSI(u)=∑v∈N(u)ESPS(u,v) (13)
其中,N(u)是节点u的邻居节点的集合。
步骤7:获得每个顶点的重要性分数并由大到小排序,排序后最大的k个值为关键蛋白质。
实施例:
在DIP数据集中将本发明提出的方法(IEP-DPPI)与DC,LAC,SC,BC,NC现有的方法在静态PPI网络和动态PPI网络中进行比较。对于每种方法,本发明选择前100到前600个蛋白质结果作为候选集。
DIP数据集的预测结果如图2所示。本发明提出的方法IEP-DPPI可以比其他方法在识别关键蛋白质方面获得更好的结果。同时,基于动态PPI网络预测关键蛋白质的每个典型中心度量的表现优于原始静态PPI网络。当检测到前600种蛋白质时,很明显IEP-DPPI方法在静态PPI网络上识别出的关键蛋白质的数量比BC方法高55%。

Claims (4)

1.基于动态加权相互作用网络中关键蛋白质识别方法,其特征在于,包括如下步骤:
(1)输入静态PPI网络和基因表达数据;
(2)根据3-σ准则,计算蛋白质活动时间点和蛋白质活动概率,构建动态PPI网络;
(3)根据蛋白质活动概率,计算蛋白质间相互作用权重,构建动态加权PPI网络;
(4)根据蛋白质顶点之间的相互作用关系,计算边缘聚类系数;
(5)根据蛋白质的生物特性,计算相互作用蛋白质对的基因本体相似度、皮尔逊相关系数;
(6)根据蛋白质顶点间的权重值、基因本体相似度和皮尔逊相关系数计算蛋白质顶点重要性分数;
(7)获得每个顶点的重要性分数并由大到小排序,排序后最大的k个值为关键蛋白质。
2.根据权利要求1所述的基于动态加权相互作用网络中关键蛋白质识别方法,其特征在于,所述步骤(2):通过步骤(1)输入静态PPI网络和基因表达数据,每个蛋白质具有m个时间点,每个时间点对应了一个基因表达值,根据基因表达值的平均值和标准差,计算活动阈值,将活动阈值与每个蛋白质的基因表达值进行比较,构建动态PPI网络。
3.根据权利要求1所述的基于动态加权相互作用网络中关键蛋白质识别方法,其特征在于,所述步骤(3):通过步骤(2)计算蛋白质活动概率,为每对活动的相互作用蛋白质赋予一个权重,结合动态PPI网络,构建动态加权PPI网络。
4.根据权利要求1所述的基于动态加权相互作用网络中关键蛋白质识别方法,其特征在于,所述步骤(6):整合相互作用蛋白质网络的拓扑特性以及蛋白质的生物属性,建立一个蛋白质重要性计算公式,得出每个蛋白质的最终得分。
CN201811597170.7A 2018-12-26 2018-12-26 基于动态加权相互作用网络中关键蛋白质识别方法 Active CN109686402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811597170.7A CN109686402B (zh) 2018-12-26 2018-12-26 基于动态加权相互作用网络中关键蛋白质识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811597170.7A CN109686402B (zh) 2018-12-26 2018-12-26 基于动态加权相互作用网络中关键蛋白质识别方法

Publications (2)

Publication Number Publication Date
CN109686402A true CN109686402A (zh) 2019-04-26
CN109686402B CN109686402B (zh) 2023-11-03

Family

ID=66189398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811597170.7A Active CN109686402B (zh) 2018-12-26 2018-12-26 基于动态加权相互作用网络中关键蛋白质识别方法

Country Status (1)

Country Link
CN (1) CN109686402B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517729A (zh) * 2019-09-02 2019-11-29 吉林大学 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法
CN110782944A (zh) * 2019-10-24 2020-02-11 长沙学院 一种基于邻域子图连通性的蛋白质预测方法
CN110910953A (zh) * 2019-11-28 2020-03-24 长沙学院 一种基于蛋白质-域异构网络的关键蛋白预测方法
CN113936743A (zh) * 2021-11-12 2022-01-14 大连海事大学 一种基于异质ppi网络的蛋白质复合物识别方法
CN115631808A (zh) * 2022-10-25 2023-01-20 贵州大学 一种分子靶点快速预测及关联机理分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279397A (zh) * 2015-10-26 2016-01-27 华东交通大学 一种识别蛋白质相互作用网络中关键蛋白质的方法
WO2016134659A1 (zh) * 2015-02-25 2016-09-01 苏州大学张家港工业技术研究院 一种利用文本数据构建蛋白质相互作用网络的方法
CN108681659A (zh) * 2018-04-02 2018-10-19 首都师范大学 基于样本数据预测蛋白质复合物的方法
CN108733976A (zh) * 2018-05-23 2018-11-02 扬州大学 基于融合生物与拓扑特征的关键蛋白质识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016134659A1 (zh) * 2015-02-25 2016-09-01 苏州大学张家港工业技术研究院 一种利用文本数据构建蛋白质相互作用网络的方法
CN105279397A (zh) * 2015-10-26 2016-01-27 华东交通大学 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN108681659A (zh) * 2018-04-02 2018-10-19 首都师范大学 基于样本数据预测蛋白质复合物的方法
CN108733976A (zh) * 2018-05-23 2018-11-02 扬州大学 基于融合生物与拓扑特征的关键蛋白质识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANNA HEGELE等: "Dynamic Protein-Protein Interaction Wiring", 《MOLECULAR CELL》 *
ANNA HEGELE等: "Dynamic Protein-Protein Interaction Wiring", 《MOLECULAR CELL》, 24 February 2012 (2012-02-24) *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517729A (zh) * 2019-09-02 2019-11-29 吉林大学 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法
CN110517729B (zh) * 2019-09-02 2021-05-04 吉林大学 一种从动态和静态蛋白质相互作用网络中挖掘蛋白质复合物的方法
CN110782944A (zh) * 2019-10-24 2020-02-11 长沙学院 一种基于邻域子图连通性的蛋白质预测方法
CN110910953A (zh) * 2019-11-28 2020-03-24 长沙学院 一种基于蛋白质-域异构网络的关键蛋白预测方法
CN110910953B (zh) * 2019-11-28 2022-09-13 长沙学院 一种基于蛋白质-域异构网络的关键蛋白预测方法
CN113936743A (zh) * 2021-11-12 2022-01-14 大连海事大学 一种基于异质ppi网络的蛋白质复合物识别方法
CN113936743B (zh) * 2021-11-12 2024-04-26 大连海事大学 一种基于异质ppi网络的蛋白质复合物识别方法
CN115631808A (zh) * 2022-10-25 2023-01-20 贵州大学 一种分子靶点快速预测及关联机理分析方法

Also Published As

Publication number Publication date
CN109686402B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN109686402A (zh) 基于动态加权相互作用网络中关键蛋白质识别方法
CN108734355B (zh) 一种应用于电能质量综合治理场景的短期电力负荷并行预测方法及系统
US11475360B2 (en) System and method for relational time series learning with the aid of a digital computer
CN103473786B (zh) 基于多目标模糊聚类的灰度图像分割方法
CN106338708B (zh) 结合深度学习与递归神经网络的电能计量误差分析方法
CN113326377B (zh) 一种基于企业关联关系的人名消歧方法及系统
CN104765768A (zh) 海量人脸库的快速准确检索方法
CN112800231B (zh) 电力数据校验方法、装置、计算机设备和存储介质
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN113435208B (zh) 学生模型的训练方法、装置及电子设备
CN110555305A (zh) 基于深度学习的恶意应用溯源方法及相关装置
CN111581445A (zh) 基于图基元的图嵌入学习方法
CN114912720A (zh) 基于记忆网络电力负荷预测方法、装置、终端及存储介质
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN116842459B (zh) 一种基于小样本学习的电能计量故障诊断方法及诊断终端
CN112149556B (zh) 一种基于深度互学习和知识传递的人脸属性识别方法
CN109977131A (zh) 一种房型匹配系统
CN117478390A (zh) 一种基于改进密度峰值聚类算法的网络入侵检测方法
Dai et al. Clustering of DOA data in radar pulse based on SOFM and CDbw
CN106816871B (zh) 一种电力系统状态相似性分析方法
CN114691875A (zh) 一种数据分类分级处理方法及装置
Fu et al. Threshold Random Walkers for Community Structure Detection in Complex Networks.
CN114529096A (zh) 基于三元闭包图嵌入的社交网络链路预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant