CN111696626A - 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法 - Google Patents
一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法 Download PDFInfo
- Publication number
- CN111696626A CN111696626A CN201911153140.1A CN201911153140A CN111696626A CN 111696626 A CN111696626 A CN 111696626A CN 201911153140 A CN201911153140 A CN 201911153140A CN 111696626 A CN111696626 A CN 111696626A
- Authority
- CN
- China
- Prior art keywords
- community
- node
- similarity
- protein
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 18
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000006916 protein interaction Effects 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 101000715282 Mus musculus Coiled-coil domain-containing protein 40 Proteins 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 108010058643 Fungal Proteins Proteins 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 230000008827 biological function Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法,该算法的目的是预测蛋白质交互网络中的潜在链接。该方法的步骤主要包括:构建邻接矩阵,检测社区结构,构建训练集和测试集,计算社区紧密度指标,计算基于节点度的局部路径相似度,计算
Description
技术领域
本发明属于复杂网络领域,尤其涉及一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法。
背景技术
近年来,国内外学者在蛋白质交互网络(protein-protein interactionnetwork, PPI)的链接预测方面做了大量的工作。现有的链接预测方法通常是利用节点局部信息来进行预测。作为经典的链接预测方法,基于局部信息相似性的方法由于具有准确性高和复杂性低的特性,已应用于蛋白质交互网络中的链接预测。基于局部信息相似性的方法通常都会基于节点间相似程度越高,链接出现的可能性越高这一假设来进行链接预测。经典的局部相似性方法有共同邻居(Common neighbors, CN)、Adamic-Adar(AA)、资源分配(Resource allocation,RA)和偏好连接(Preferential attachment,PA)等。2002年,Saito等人提出基于节点及其邻居节点的拓扑关系来预测蛋白质交互出现的可能性。这些经典的链接预测方法大多利用节点的共同邻居信息,而没有考虑到蛋白质社区结构信息对链接预测的贡献。
蛋白质之间的交互通常依赖生物过程的内部机制。蛋白质社区通常会共同完成某一种或若干种生物学功能。在预测PPI网络的潜在交互信息时,需要结合蛋白质所在的社区结构信息,来进行蛋白质交互的预测。基于上述理论,近年来,有诸多学者提出了基于社区结构信息的蛋白质交互预测方法。2016年,洪海燕等人将PPI网络看作一个有权无向图,提出了一种基于空间关系映射的蛋白质相互作用预测方法。2017年,Sun等人基于群落结构和节点度的关系,提出了一种局部亲和力结构(LAS)的相似度计算方法。基于节点链接与所属社区紧密程度有关这一假设,Li等人提出了一种基于社区关系强度的链接预测方法。上述方法更注重挖掘网络拓扑结构,缺乏对蛋白质本身拓扑信息的挖掘。
发明内容
针对基于节点相似性和基于社区结构的链接预测算法中存在的不足,本发明提供了一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法,所述方法步骤如下:
步骤S1:构建邻接矩阵
输入数据为蛋白质交互网络的链接集合,构建邻接矩阵
步骤S2:检测社区结构
使用社区发现算法infomap算法,将网络划分为不同的社区
步骤S3:划分训练集和测试集
步骤S4:计算每个社区紧密度指标
根据步骤S2中得到的社区划分,计算社区内的平均最短路径,用它来衡量社区的紧密度。社区紧密度与社区平均最短路径成反比
步骤S5:计算基于节点度的局部路径相似度(Local path similarity based on nodedegree,DLP)
由于次级邻居和目标节点度对最终的链接产生的影响,计算基于次级邻居和节点度的相似度指标
附图说明
图1为本发明流程图。
图2 本算法在PPI网络上各种算法的对比图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。
本发明实施例的前提是已获得蛋白质交互网络数据集。
图1为本发明实施例提供基于社区结构的蛋白质交互网络的链接预测算法流程示意图。如图1所示,本实施例主要包含以下步骤:
步骤1:根据网络的链接集合,构建邻接矩阵
步骤2:使用社区发现算法infomap算法,检测社区结构
步骤4:计算每个社区紧密度指标
根据步骤2中得到的社区划分,计算社区内的平均最短路径,用它来衡量社区的紧密度。社区紧密度与社区平均最短路径成反比
步骤5:计算节点间的节点相似度指标
考虑到次级邻居和目标节点度对最终的链接产生的影响,使用基于节点度的局部路径相似度DLP进行计算,对于网络中给定的节点a和b,其DLP相似度根据如下公式进行计算
以上实施例仅用于说明本发明而非对其进行限制,有关领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
例1 本发明在酵母蛋白质交互网络(PPI)实验结果
本文实验使用酵母蛋白质交互网络(PPI)数据集作为实验数据集,进行蛋白质交互网络上的链接预测。该数据集有1647个蛋白质,2518对相互作用,网络中的节点代表蛋白质,链接代表蛋白质相互作用。
例1将本发明算法应用到酵母蛋白交互网络上进行测试验证。为了从整体上衡量本发明算法算法的精确度,本发明算法使用AUC(Ares Under receiver operatingcharacteristic Curve)评价指标,与4个现有方法进行了对比,4个对比方法分别是CN,Jaccard,Katz和LP,现有的4个方法都运行在各自最优的参数下。实验分别选用测试集的比例为10%和20%,每种算法都运行20次,然后求平均值。
图2为本发明算法(命名为PIPM)在数据集上,每种方法进行20次独立实验,然后计算其平均值。各方法的AUC结果如图2所示。本发明算法在酵母蛋白质交互网络获得了最好的实验结果。通过实验结果发现,本发明算法PIPM在蛋白质交互网络上都优于其他方法。
Claims (3)
1.一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法,其特征在于,包括如下步骤:
步骤S1:构建邻接矩阵
输入数据为蛋白质交互网络的链接集合,构建邻接矩阵
步骤S2:检测社区结构
使用社区发现算法infomap算法,将网络划分为不同的社区
步骤S3:划分训练集和测试集
步骤S4:计算每个社区紧密度指标
根据步骤S2中得到的社区划分,计算社区内的平均最短路径,用它来衡量社区的紧密度,
社区紧密度与社区平均最短路径成反比
步骤S5:计算基于节点度的局部路径相似度(Local path similarity based on nodedegree,DLP)
由于次级邻居和目标节点度对最终的链接产生的影响,计算基于次级邻居和节点度的相似度指标
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911153140.1A CN111696626A (zh) | 2019-11-22 | 2019-11-22 | 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911153140.1A CN111696626A (zh) | 2019-11-22 | 2019-11-22 | 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111696626A true CN111696626A (zh) | 2020-09-22 |
Family
ID=72476139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911153140.1A Pending CN111696626A (zh) | 2019-11-22 | 2019-11-22 | 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696626A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113518010A (zh) * | 2021-07-13 | 2021-10-19 | 中国工商银行股份有限公司 | 一种链路预测方法、装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0006153D0 (en) * | 2000-03-14 | 2000-05-03 | Inpharmatica Ltd | Database |
US20030044864A1 (en) * | 2001-07-20 | 2003-03-06 | Diversa Corporation | Cellular engineering, protein expression profiling, differential labeling of peptides, and novel reagents therefor |
CN103020163A (zh) * | 2012-11-26 | 2013-04-03 | 南京大学 | 一种网络中基于节点相似度的网络社区划分方法 |
WO2017040315A1 (en) * | 2015-08-28 | 2017-03-09 | The Trustees Of Columbia University In The City Of New York | Virtual inference of protein activity by regulon enrichment analysis |
KR20180112180A (ko) * | 2017-03-31 | 2018-10-12 | 순천향대학교 산학협력단 | miRNA의 표적 유전자 검증용 DNA 구조체 |
CN108734223A (zh) * | 2018-05-27 | 2018-11-02 | 北京工业大学 | 基于社区划分的社交网络好友推荐方法 |
CN109637579A (zh) * | 2018-12-18 | 2019-04-16 | 长沙学院 | 一种基于张量随机游走的关键蛋白质识别方法 |
-
2019
- 2019-11-22 CN CN201911153140.1A patent/CN111696626A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0006153D0 (en) * | 2000-03-14 | 2000-05-03 | Inpharmatica Ltd | Database |
US20030044864A1 (en) * | 2001-07-20 | 2003-03-06 | Diversa Corporation | Cellular engineering, protein expression profiling, differential labeling of peptides, and novel reagents therefor |
CN103020163A (zh) * | 2012-11-26 | 2013-04-03 | 南京大学 | 一种网络中基于节点相似度的网络社区划分方法 |
WO2017040315A1 (en) * | 2015-08-28 | 2017-03-09 | The Trustees Of Columbia University In The City Of New York | Virtual inference of protein activity by regulon enrichment analysis |
KR20180112180A (ko) * | 2017-03-31 | 2018-10-12 | 순천향대학교 산학협력단 | miRNA의 표적 유전자 검증용 DNA 구조체 |
CN108734223A (zh) * | 2018-05-27 | 2018-11-02 | 北京工业大学 | 基于社区划分的社交网络好友推荐方法 |
CN109637579A (zh) * | 2018-12-18 | 2019-04-16 | 长沙学院 | 一种基于张量随机游走的关键蛋白质识别方法 |
Non-Patent Citations (2)
Title |
---|
杨晓翠;宋甲秀;张曦煌;: "基于集体影响和边聚类信息的链路预测算法" * |
陈晶;万云;: "基于相似度的双向合并社区发现算法研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113518010A (zh) * | 2021-07-13 | 2021-10-19 | 中国工商银行股份有限公司 | 一种链路预测方法、装置及存储介质 |
CN113518010B (zh) * | 2021-07-13 | 2022-10-25 | 中国工商银行股份有限公司 | 一种链路预测方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107391512B (zh) | 知识图谱预测的方法和装置 | |
Chen et al. | Multi-controller placement towards SDN based on Louvain heuristic algorithm | |
CN107070704A (zh) | 一种基于QoS的可信Web服务组合优化方法 | |
Ma et al. | Modeling and analysis for vertical handoff based on the decision tree in a heterogeneous vehicle network | |
CN113194034A (zh) | 基于图神经网络和深度强化学习的路由优化方法及系统 | |
CN108600103A (zh) | 面向多层级网络的多QoS路由约束的蚁群算法 | |
Liu et al. | An oriented spanning tree based genetic algorithm for multi-criteria shortest path problems | |
CN110519094B (zh) | 一种基于装备体系网络的打击链路评估方法 | |
CN112532442B (zh) | 一种用于全域指控网络的任务协同能力评估方法 | |
CN111641557A (zh) | 一种时延容忍网络最小代价备份路径方法 | |
CN114936307A (zh) | 一种范式化图模型构建方法 | |
CN116647890A (zh) | 一种适用于移动AdHoc网络的多属性多度量路由决策方法 | |
CN111696626A (zh) | 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法 | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
CN111030854A (zh) | 一种Spark云服务环境下面的复杂网络社团发现方法 | |
CN108092892B (zh) | 一种物联网最优网络路由路径的确定方法及系统 | |
CN111711530A (zh) | 基于社区拓扑结构信息的链接预测算法 | |
CN113965400B (zh) | 一种通信网络中流量关键点的确定方法 | |
CN113065073B (zh) | 一种城市的有效路径集搜索方法 | |
CN114826378A (zh) | 基于数据驱动的星间链路调度方法及系统 | |
Jin et al. | Community Selection for Multivariate KPI Predictions in a 2-Tier System | |
CN110569885A (zh) | 一种基于朴素贝叶斯的多阶模体有向网络链路预测方法 | |
CN111917589A (zh) | 一种电力通信网络资源备份方法及相关装置 | |
Zhao et al. | A network coordinate system constructing algorithm based on optimal neighbor nodes | |
Mirmojarabian et al. | Reliability computation of clustered smart meters using fuzzy logic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200922 |
|
WD01 | Invention patent application deemed withdrawn after publication |