CN111696626A - 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法 - Google Patents

一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法 Download PDF

Info

Publication number
CN111696626A
CN111696626A CN201911153140.1A CN201911153140A CN111696626A CN 111696626 A CN111696626 A CN 111696626A CN 201911153140 A CN201911153140 A CN 201911153140A CN 111696626 A CN111696626 A CN 111696626A
Authority
CN
China
Prior art keywords
community
node
similarity
protein
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911153140.1A
Other languages
English (en)
Inventor
王贵参
王红梅
李�浩
王金哲
王远威
郭真俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Technology
Original Assignee
Changchun University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Technology filed Critical Changchun University of Technology
Priority to CN201911153140.1A priority Critical patent/CN111696626A/zh
Publication of CN111696626A publication Critical patent/CN111696626A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法,该算法的目的是预测蛋白质交互网络中的潜在链接。该方法的步骤主要包括:构建邻接矩阵,检测社区结构,构建训练集和测试集,计算社区紧密度指标,计算基于节点度的局部路径相似度,计算

Description

一种融合社区结构和节点度的局部路径相似度的蛋白质链接 预测算法
技术领域
本发明属于复杂网络领域,尤其涉及一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法。
背景技术
近年来,国内外学者在蛋白质交互网络(protein-protein interactionnetwork, PPI)的链接预测方面做了大量的工作。现有的链接预测方法通常是利用节点局部信息来进行预测。作为经典的链接预测方法,基于局部信息相似性的方法由于具有准确性高和复杂性低的特性,已应用于蛋白质交互网络中的链接预测。基于局部信息相似性的方法通常都会基于节点间相似程度越高,链接出现的可能性越高这一假设来进行链接预测。经典的局部相似性方法有共同邻居(Common neighbors, CN)、Adamic-Adar(AA)、资源分配(Resource allocation,RA)和偏好连接(Preferential attachment,PA)等。2002年,Saito等人提出基于节点及其邻居节点的拓扑关系来预测蛋白质交互出现的可能性。这些经典的链接预测方法大多利用节点的共同邻居信息,而没有考虑到蛋白质社区结构信息对链接预测的贡献。
蛋白质之间的交互通常依赖生物过程的内部机制。蛋白质社区通常会共同完成某一种或若干种生物学功能。在预测PPI网络的潜在交互信息时,需要结合蛋白质所在的社区结构信息,来进行蛋白质交互的预测。基于上述理论,近年来,有诸多学者提出了基于社区结构信息的蛋白质交互预测方法。2016年,洪海燕等人将PPI网络看作一个有权无向图,提出了一种基于空间关系映射的蛋白质相互作用预测方法。2017年,Sun等人基于群落结构和节点度的关系,提出了一种局部亲和力结构(LAS)的相似度计算方法。基于节点链接与所属社区紧密程度有关这一假设,Li等人提出了一种基于社区关系强度的链接预测方法。上述方法更注重挖掘网络拓扑结构,缺乏对蛋白质本身拓扑信息的挖掘。
发明内容
针对基于节点相似性和基于社区结构的链接预测算法中存在的不足,本发明提供了一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法,所述方法步骤如下:
步骤S1:构建邻接矩阵
输入数据为蛋白质交互网络的链接集合,构建邻接矩阵
步骤S2:检测社区结构
使用社区发现算法infomap算法,将网络划分为不同的社区
步骤S3:划分训练集和测试集
随机删除一定比例的链接
Figure 166044DEST_PATH_IMAGE001
作为测试集,剩余的链接集合记为
Figure 270266DEST_PATH_IMAGE002
,有
Figure 878971DEST_PATH_IMAGE003
。以下计算都在
Figure 410447DEST_PATH_IMAGE004
中进行
步骤S4:计算每个社区紧密度指标
根据步骤S2中得到的社区划分,计算社区内的平均最短路径,用它来衡量社区的紧密度。社区紧密度与社区平均最短路径成反比
步骤S5:计算基于节点度的局部路径相似度(Local path similarity based on nodedegree,DLP)
由于次级邻居和目标节点度对最终的链接产生的影响,计算基于次级邻居和节点度的相似度指标
步骤S6:结合社区紧密度和DLP计算
Figure 753703DEST_PATH_IMAGE002
中所有未链接的节点之间的相似度值。
附图说明
图1为本发明流程图。
图2 本算法在PPI网络上各种算法的对比图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。
本发明实施例的前提是已获得蛋白质交互网络数据集。
图1为本发明实施例提供基于社区结构的蛋白质交互网络的链接预测算法流程示意图。如图1所示,本实施例主要包含以下步骤:
步骤1:根据网络的链接集合,构建邻接矩阵
步骤2:使用社区发现算法infomap算法,检测社区结构
步骤3:分别删除10%和20%的链接作为测试集
Figure 661616DEST_PATH_IMAGE001
,将剩余的链接作为训练集
Figure 406718DEST_PATH_IMAGE002
步骤4:计算每个社区紧密度指标
根据步骤2中得到的社区划分,计算社区内的平均最短路径,用它来衡量社区的紧密度。社区紧密度与社区平均最短路径成反比
步骤5:计算节点间的节点相似度指标
考虑到次级邻居和目标节点度对最终的链接产生的影响,使用基于节点度的局部路径相似度DLP进行计算,对于网络中给定的节点ab,其DLP相似度根据如下公式进行计算
Figure DEST_PATH_IMAGE005
其中
Figure 328669DEST_PATH_IMAGE006
为节点a的度;
Figure 159222DEST_PATH_IMAGE007
为节点b的度;A为网络的邻接矩阵。
步骤6:结合社区紧密度和DLP计算
Figure 605247DEST_PATH_IMAGE002
中所有未链接的节点之间的相似度值,计算公式如下所示
Figure 204855DEST_PATH_IMAGE008
其中,节点a所在社区的平均最短路径用
Figure DEST_PATH_IMAGE009
表示,
Figure 812554DEST_PATH_IMAGE010
定义为节点a所在社区的紧密度定义。
以上实施例仅用于说明本发明而非对其进行限制,有关领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
例1 本发明在酵母蛋白质交互网络(PPI)实验结果
本文实验使用酵母蛋白质交互网络(PPI)数据集作为实验数据集,进行蛋白质交互网络上的链接预测。该数据集有1647个蛋白质,2518对相互作用,网络中的节点代表蛋白质,链接代表蛋白质相互作用。
例1将本发明算法应用到酵母蛋白交互网络上进行测试验证。为了从整体上衡量本发明算法算法的精确度,本发明算法使用AUC(Ares Under receiver operatingcharacteristic Curve)评价指标,与4个现有方法进行了对比,4个对比方法分别是CN,Jaccard,Katz和LP,现有的4个方法都运行在各自最优的参数下。实验分别选用测试集的比例为10%和20%,每种算法都运行20次,然后求平均值。
图2为本发明算法(命名为PIPM)在数据集上,每种方法进行20次独立实验,然后计算其平均值。各方法的AUC结果如图2所示。本发明算法在酵母蛋白质交互网络获得了最好的实验结果。通过实验结果发现,本发明算法PIPM在蛋白质交互网络上都优于其他方法。

Claims (3)

1.一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法,其特征在于,包括如下步骤:
步骤S1:构建邻接矩阵
输入数据为蛋白质交互网络的链接集合,构建邻接矩阵
步骤S2:检测社区结构
使用社区发现算法infomap算法,将网络划分为不同的社区
步骤S3:划分训练集和测试集
随机删除一定比例的链接
Figure 108696DEST_PATH_IMAGE001
作为测试集,剩余的链接集合记为
Figure 826116DEST_PATH_IMAGE002
,有
Figure 153149DEST_PATH_IMAGE003
以下计算都在
Figure 905204DEST_PATH_IMAGE004
中进行
步骤S4:计算每个社区紧密度指标
根据步骤S2中得到的社区划分,计算社区内的平均最短路径,用它来衡量社区的紧密度,
社区紧密度与社区平均最短路径成反比
步骤S5:计算基于节点度的局部路径相似度(Local path similarity based on nodedegree,DLP)
由于次级邻居和目标节点度对最终的链接产生的影响,计算基于次级邻居和节点度的相似度指标
步骤S6:结合社区紧密度和DLP计算
Figure 727667DEST_PATH_IMAGE002
中所有未链接的节点之间的相似度值。
2.根据权利要求1所述的融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法,其特征在于:所述步骤S5中节点间的节点相似度指标计算方法为:
对于给定的两个节点ab,其相似度计算公式如下所示:
Figure 870066DEST_PATH_IMAGE005
其中
Figure 6649DEST_PATH_IMAGE006
为节点a的度;
Figure 675528DEST_PATH_IMAGE007
为节点b的度;A为网络的邻接矩阵。
3.根据权利要求1所述的基于社区结构的蛋白质交互网络的链接预测算法,其特征在于,所述步骤S6中未链接节点的相似度值计算公式为:
Figure 544258DEST_PATH_IMAGE008
其中,节点a所在社区的平均最短路径用
Figure 298588DEST_PATH_IMAGE009
表示,
Figure 973283DEST_PATH_IMAGE010
定义为节点a所在社区的紧密度定义。
CN201911153140.1A 2019-11-22 2019-11-22 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法 Pending CN111696626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911153140.1A CN111696626A (zh) 2019-11-22 2019-11-22 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911153140.1A CN111696626A (zh) 2019-11-22 2019-11-22 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法

Publications (1)

Publication Number Publication Date
CN111696626A true CN111696626A (zh) 2020-09-22

Family

ID=72476139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911153140.1A Pending CN111696626A (zh) 2019-11-22 2019-11-22 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法

Country Status (1)

Country Link
CN (1) CN111696626A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113518010A (zh) * 2021-07-13 2021-10-19 中国工商银行股份有限公司 一种链路预测方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0006153D0 (en) * 2000-03-14 2000-05-03 Inpharmatica Ltd Database
US20030044864A1 (en) * 2001-07-20 2003-03-06 Diversa Corporation Cellular engineering, protein expression profiling, differential labeling of peptides, and novel reagents therefor
CN103020163A (zh) * 2012-11-26 2013-04-03 南京大学 一种网络中基于节点相似度的网络社区划分方法
WO2017040315A1 (en) * 2015-08-28 2017-03-09 The Trustees Of Columbia University In The City Of New York Virtual inference of protein activity by regulon enrichment analysis
KR20180112180A (ko) * 2017-03-31 2018-10-12 순천향대학교 산학협력단 miRNA의 표적 유전자 검증용 DNA 구조체
CN108734223A (zh) * 2018-05-27 2018-11-02 北京工业大学 基于社区划分的社交网络好友推荐方法
CN109637579A (zh) * 2018-12-18 2019-04-16 长沙学院 一种基于张量随机游走的关键蛋白质识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0006153D0 (en) * 2000-03-14 2000-05-03 Inpharmatica Ltd Database
US20030044864A1 (en) * 2001-07-20 2003-03-06 Diversa Corporation Cellular engineering, protein expression profiling, differential labeling of peptides, and novel reagents therefor
CN103020163A (zh) * 2012-11-26 2013-04-03 南京大学 一种网络中基于节点相似度的网络社区划分方法
WO2017040315A1 (en) * 2015-08-28 2017-03-09 The Trustees Of Columbia University In The City Of New York Virtual inference of protein activity by regulon enrichment analysis
KR20180112180A (ko) * 2017-03-31 2018-10-12 순천향대학교 산학협력단 miRNA의 표적 유전자 검증용 DNA 구조체
CN108734223A (zh) * 2018-05-27 2018-11-02 北京工业大学 基于社区划分的社交网络好友推荐方法
CN109637579A (zh) * 2018-12-18 2019-04-16 长沙学院 一种基于张量随机游走的关键蛋白质识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨晓翠;宋甲秀;张曦煌;: "基于集体影响和边聚类信息的链路预测算法" *
陈晶;万云;: "基于相似度的双向合并社区发现算法研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113518010A (zh) * 2021-07-13 2021-10-19 中国工商银行股份有限公司 一种链路预测方法、装置及存储介质
CN113518010B (zh) * 2021-07-13 2022-10-25 中国工商银行股份有限公司 一种链路预测方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN107391512B (zh) 知识图谱预测的方法和装置
Chen et al. Multi-controller placement towards SDN based on Louvain heuristic algorithm
CN107070704A (zh) 一种基于QoS的可信Web服务组合优化方法
Ma et al. Modeling and analysis for vertical handoff based on the decision tree in a heterogeneous vehicle network
CN113194034A (zh) 基于图神经网络和深度强化学习的路由优化方法及系统
CN108600103A (zh) 面向多层级网络的多QoS路由约束的蚁群算法
Liu et al. An oriented spanning tree based genetic algorithm for multi-criteria shortest path problems
CN110519094B (zh) 一种基于装备体系网络的打击链路评估方法
CN112532442B (zh) 一种用于全域指控网络的任务协同能力评估方法
CN111641557A (zh) 一种时延容忍网络最小代价备份路径方法
CN114936307A (zh) 一种范式化图模型构建方法
CN116647890A (zh) 一种适用于移动AdHoc网络的多属性多度量路由决策方法
CN111696626A (zh) 一种融合社区结构和节点度的局部路径相似度的蛋白质链接预测算法
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN111030854A (zh) 一种Spark云服务环境下面的复杂网络社团发现方法
CN108092892B (zh) 一种物联网最优网络路由路径的确定方法及系统
CN111711530A (zh) 基于社区拓扑结构信息的链接预测算法
CN113965400B (zh) 一种通信网络中流量关键点的确定方法
CN113065073B (zh) 一种城市的有效路径集搜索方法
CN114826378A (zh) 基于数据驱动的星间链路调度方法及系统
Jin et al. Community Selection for Multivariate KPI Predictions in a 2-Tier System
CN110569885A (zh) 一种基于朴素贝叶斯的多阶模体有向网络链路预测方法
CN111917589A (zh) 一种电力通信网络资源备份方法及相关装置
Zhao et al. A network coordinate system constructing algorithm based on optimal neighbor nodes
Mirmojarabian et al. Reliability computation of clustered smart meters using fuzzy logic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200922

WD01 Invention patent application deemed withdrawn after publication