CN107679616A - 一种引入序列信息的残基相互作用网络比对算法si‑magna - Google Patents

一种引入序列信息的残基相互作用网络比对算法si‑magna Download PDF

Info

Publication number
CN107679616A
CN107679616A CN201710981020.5A CN201710981020A CN107679616A CN 107679616 A CN107679616 A CN 107679616A CN 201710981020 A CN201710981020 A CN 201710981020A CN 107679616 A CN107679616 A CN 107679616A
Authority
CN
China
Prior art keywords
magna
network
comparison
protein
sequence information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710981020.5A
Other languages
English (en)
Other versions
CN107679616B (zh
Inventor
丁彦蕊
陶斯涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN201710981020.5A priority Critical patent/CN107679616B/zh
Publication of CN107679616A publication Critical patent/CN107679616A/zh
Application granted granted Critical
Publication of CN107679616B publication Critical patent/CN107679616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/002Biomolecular computers, i.e. using biomolecules, proteins, cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种引入序列信息的残基相互作用网络比对算法SI‑MAGNA,属于计算机应用技术领域。本发明方法是基于完全依靠网络拓扑信息的MAGNA比对算法框架,在其优化函数中引入了蛋白质的序列信息相似性得分并提出SI‑MAGNA算法。它计算种群成员适应度值,将两个父代比对通过交叉函数择优产生一个适应度值更高的子代比对,迭代循环,当满足终止条件时,退出循环,输出比对结果。本发明方法利用算法SI‑MAGNA的在残基相互作用网络比对上的准确性,可以发现蛋白质结构上的保守区域,从而找到实现相似功能的相似结构和产生差异的独有结构,为从系统角度研究蛋白质空间结构和蛋白质性质、功能的关系提供了有效的手段。

Description

一种引入序列信息的残基相互作用网络比对算法SI-MAGNA
技术领域
本发明是一种引入序列信息的残基相互作用网络比对算法SI-MAGNA,属于计算机应用技术领域。具体的说就是基于MAGNA网络比对方法,提出引入蛋白质序列信息的残基相互作用网络比对算法SI-MAGNA,发现两个蛋白质结构上的保守区域,从而找到实现相似功能的相似结构和产生差异的独有结构,该方法可应用于分子设计、分子筛选、药物设计等诸多领域。
背景技术
随着实验测定技术的发展,产生了大量的分子相互作用数据,也称为生物网络数据,例如:蛋白质-蛋白质相互作用网络、代谢网络、残基相互作用网络、基因表达网络等。这使得生物网络比对在近年来成为研究代谢、结构、功能和进化的一类重要的方法。残基相互作用网络对于从系统角度研究蛋白质空间结构和蛋白质性质、功能的关系有着至关重要的作用。而残基相互作用网络比对对于研究蛋白质的分子基础和空间结构非常重要,它能够推动蛋白质结构、性质和功能相关研究的发展。
目前,绝大多数的网络比对方法是针对蛋白质-蛋白质相互作用网络提出的。Kuchaiev,O(《Integrative network alignment reveals large regions of globalnetwork similarity in yeast and human》,Bioinformatics,2011,27(10):1390–1396)等人整合了网络节点之间的多种类型的相似性标准,并决定了相似性标准间的权重,利用最大权重双边图找出最优比对。然而该方法整合了基于蛋白质生物信息的相似性标准,对于残基相互作用网络比对,需要在比对时排除这一因素,比对过程比较复杂。Maoguo Gong(《Global Biological Network Alignment by Using Efficient Memetic Algorithm》,IEEE/ACM Transactions on Computational Biology and Bioinformatics,2016,13(6):1117-1129)等人将遗传算法与局部搜索相结合,首先使用一个粗略的相似度得分矩阵进行初始化,然后使用特定的邻域启发式局部搜索策略来找到最优比对。然而该方法针对蛋白质-蛋白质相互作用网络比对,它需要蛋白质的节点信息作为比对的优化条件,对于残基相互作用网络比对,无法产生在网络拓扑和一级结构方面更准确的比对结果。SomayeHashemifar(《ModuleAlign:module-based global alignment of protein–proteininteraction networks》,Bioinformatics,2016,32(17):i658–i664)等人利用局部信息来定义模块的同源性分数,基于参与相同模块的功能相关蛋白质的分层聚类,并采用迭代方案找到两个网络之间的比对。然而该方法针对蛋白质-蛋白质相互作用网络,需要蛋白质同源性方面的信息作为比对的重要依据,对于残基相互作用网络比对,无法产生在生物方面合理的比对结果。
生物网络比对是一种通过比较两个或多个相互作用网络,发现不同网络在拓扑和功能上的相似区域的方法,已经在研究生物分子的结构和功能,分析生物的进化和演变等领域有了重要应用。然而文献及专利中未见有针对于残基相互作用网络比对的算法,更未见将蛋白质的序列信息引入到残基相互作用网络比对中的算法。
发明内容
有鉴于此,本发明的目的是将蛋白质的序列信息引入到网络比对算法的优化函数中,以实现在残基相互作用网络比对中,产生在网络拓扑和一级结构方面更准确更合理的比对结果。
本发明的技术方案:一种引入序列信息的残基相互作用网络比对算SI-MAGNA,采用下列步骤:
(1)引入蛋白质的序列信息相似性得分
BLOSUM矩阵是一种通过统计相似蛋白质序列的替换率而得到的氨基酸替换矩阵。BLOSUM矩阵基于蛋白质进化的星状模型(即忽略物种近端和远端的关系)和区块中的保守位置与置换关系进行计分,这对于发现同源蛋白质中的保守区域有非常重要的作用。同时,这也与残基相互作用网络比对发现和探索不同网络间保守区域和差异的目标一致。因此,以BLOSUM矩阵作为蛋白质的序列比对的打分矩阵,将比对后残基的序列相似性得分信息加入到残基相互作用网络比对方法中。
(2)构建适应度函数F
适应度函数F作为网络比对的优化条件在算法中起到至关重要的作用,将适应度函数F定义为:
F=α×TopoScore(f)+(1-α)×SeqScore(f),α∈[0,1]
其中TopoScore(f)表示拓扑信息的相似性,SeqScore(f)表示序列信息的相似性,权重α用来调整拓扑信息相似性和序列信息相似性在适应度函数中所占的比例,α∈[0,1]。
拓扑信息的相似性TopoScore可以从现有的3种拓扑比对质量评价标准中选择,包括:边正确性得分(EC),诱导保守结构得分(ICS)和对称子结构得分(S3)。
由网络G1(V1,E1)和G2(V2,E2)的比对f:v1→v2,设G2[Y]为点集为Y的G2的子网,f(V1)={f(v)∈V2:v∈V1},f(E1)={(f(u),f(v))∈E2:(u,v)∈E1},并将保守边定义为由通过f比对的两个网络的两条边组成。
边正确性得分(EC)表示比对中保守边的数量占网络G1边的数量的比例。当一个输入网络G1与另一网络G2是同构的时,它取得最高值100%。EC可表示为:
诱导保守结构得分(ICS)表示保守边的数量占通过比对f形成的网络G2子网的边的数量的比例,表示为:
对称子结构得分(S3)表示保守边的数量占网络G1和G2[f(V1)]叠加的复合图边的数量的比例,表示为:
序列信息的相似性SeqScore使用基于BLOSUM打分矩阵进行序列比对后残基的序列相似性得分信息。
通过调节拓扑信息-序列信息权重α的大小,考察拓扑信息相似性和序列信息相似性所占的比例对比对结果的影响,以获得更加优秀更加合理的比对结果。拓扑信息-序列信息权重α值的取值范围是[0,1],当α值等于1时,表示只引入拓扑信息相似性,而不考虑序列信息相似性;当α等于0时,表示只引入序列信息相似性,而不考虑拓扑信息相似性。
(3)基于遗传算法的框架进行网络比对
本方法基于遗传算法框架,迭代搜索以获得比对结果。通过随机比对以获得给定种群规模p的初始种群P0,种群中的成员即比对。对于每一代种群P,通过适应度函数F将种群中的成员以其比对质量从高到低排序,设定精英率e,将种群中占比为e的高适应度成员保留作为子代成员直接加入下一代种群中。使用Roulette选择算法选择种群P中的成员进行“交叉”产生新的子代以补足下一代中剩余的部分,所选择成员的概率与成员的适应度成正比。种群中成员被选中的概率可表示为:
算法SI-MAGNA具体步骤如下:
步骤1:输入网络G1、G2及相关参数:代数N、精英率e、种群规模p;
步骤2:随机产生种群规模p的比对初始种群P0
步骤3:以初始种群P0作为父代种群;
步骤4:设置代数计数器n=1;
步骤5:计算父代种群P中成员的适应度值,并进行排序。
步骤6:判断并保留适应度值高的父代种群成员,保留比例为精英率e,即P′1=P·e。
步骤7:通过Roulette选择算法和交叉函数产生适应度值较高的比对成员,补足剩余的部分,即P′2=P·(1-e)。
步骤8:将(5)(6)步骤产生的比对成员组成子代成员P’;
步骤9:当n达到代数N时,终止循环;
步骤10:输出网络比对结果。
本发明的有益效果:本发明公开了一种引入序列信息的残基相互作用网络比对算法SI-MAGNA。本发明方法是针对MAGNA算法在残基相互作用网络比对方面精确度不高,比对结果不理想的缺陷做出改进,使改进后的SI-MAGNA算法在残基相互作用网络比对方面的比对结果更加精确,具有更高的边正确性EC。SI-MAGNA算法以BLOSUM矩阵作为蛋白质的序列比对的打分矩阵,将比对后残基的序列相似性得分信息加入到网络比对的优化函数中,使比对过程受到网络拓扑和序列信息两方面因素的影响,提高了比对结果在网络拓扑和一级结构上的准确性和合理性。本发明方法在MAGNA算法的基础上,针对该算法的一些缺陷做出改进,为从系统角度探索蛋白质结构对蛋白质性质、功能的影响提供了一个新的途径。
具体实施方式
(1)本文选择3组残基相互作用网络对作为算法的输入,分别是:(a)来自嗜热栖热菌的ADP核糖焦磷酸酶(PDB号:1V8I)和来自结核分枝杆菌的结构水解酶(PDB号:1MP2);(b)来自高纬度温带海域鱼类的Ⅲ型抗冻蛋白质异构体(PDB号:9AME)和来自人类的唾液酸合成酶(PDB号:1WVO);(c)来自枯草芽孢杆菌的野生嗜温型脂肪酶(PDB号:1I6W)和其两个嗜热型突变体(PDB号:3D2B和3QMM)。不同蛋白质对的三维结构信息和序列信息从RCSB PDB数据库(http://www.rcsb.org/pdb/home/home.do)中获得,采用BLAST算法进行序列比对;并计算残基-残基的相互作用,以此来构建残基相互作用网络,然后进行网络比对。
(2)使用SI-MAGNA算法对3组残基相互作用网络对进行网络比对。拓扑信息-序列信息权重α值是影响比对结果的重要因子,它的取值范围是[0,1]。在实验中,设定代数N为2000,α取值步长为0.1。实验结果如附图说明中图1所示。
(3)SI-MAGNA算法与MAGNA算法的网络比对结果比较。拓扑信息-序列信息权重α取各组在N=2000时产生最优比对时的值,代数N取值为2000、4000、6000、8000、10000、120000。实验结果如附图说明中图2所示。
(4)SI-MAGNA算法与适用于残基相互作用网络比对的其他方法(GRAAL、MI-GRAAL和CytoGEDEVO算法)相比较,实验结果如附图说明中图3所示。
附图说明:
图1:SI-MAGNA算法中拓扑信息-序列信息权重α对比对结果的影响。
图2:SI-MAGNA算法与MAGNA算法的网络比对结果比较。
图3:SI-MAGNA算法与GRAAL、MI-GRAAL和CytoGEDEVO算法的网络比对结果比较。
本方法基于MAGNA网络比对方法,将蛋白质的序列信息作为序列信息相似性引入到优化函数中,提出更加适用于残基相互作用网络比对的SI-MAGNA算法。由图1可见,在残基相互作用网络的比对中,仅依靠网络的拓扑信息或序列信息均不能获得很好的比对结果,引入序列信息相似性能够明显提升比对质量,获得更优的比对结果。由图2可见,相对于MAGNA算法,SI-MAGNA算法不但取得了更优的比对结果,同时因为更少的代数提高了比对的效率。由图3可见,由于考虑了蛋白质序列信息的影响,加入了序列信息相似性特征,使SI-MAGNA算法比GRAAL、MI-GRAAL和CytoGEDEVO算法的比对结果具有更高的边正确性EC,比对结果在网络拓扑和一级结构上更加准确合理。

Claims (2)

1.一种引入序列信息的残基相互作用网络比对算法SI-MAGNA,其特征在于:基于完全依靠网络拓扑信息的MAGNA网络比对方法框架,将蛋白质的序列信息相似性得分引入适应度函数中,优化网络比对算法。使用BLOSUM矩阵作为蛋白质序列比对的打分矩阵,将比对后的序列相似性得分加入到残基相互作用网络比对方法的优化函数中,即将适应度函数F定义为:
F=α×TopoScore(f)+(1-α)×SeqScore(f),α∈[0,1]
其中TopoScore(f)表示拓扑信息的相似性,SeqScore(f)表示序列信息的相似性。
2.根据权利要求1所述的一种引入序列信息的残基相互作用网络比对算法SI-MAGNA,它基于MAGNA方法框架和引入蛋白质的序列信息得分的适应度函数F,其特征包括以下步骤:
(1)输入网络G1、G2及相关参数:代数N、精英率e、种群规模p;
(2)随机产生种群规模p的比对初始种群P0
(3)以初始种群P0作为父代种群;
(4)设置代数计数器n=1;
(5)计算父代种群P中成员的适应度值,并进行排序。
(6)判断并保留适应度值高的父代种群成员,保留比例为精英率e,即P′1=P·e。
(7)通过Roulette选择算法和交叉函数产生适应度值较高的比对成员,补足剩余的部分,即P′2=P·(1-e)。
(8)将(5)(6)步骤产生的比对成员组成子代成员P’;
(9)当n达到代数N时,终止循环;
(10)输出网络比对结果。
CN201710981020.5A 2017-10-20 2017-10-20 一种引入序列信息的残基相互作用网络比对方法si-magna Active CN107679616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710981020.5A CN107679616B (zh) 2017-10-20 2017-10-20 一种引入序列信息的残基相互作用网络比对方法si-magna

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710981020.5A CN107679616B (zh) 2017-10-20 2017-10-20 一种引入序列信息的残基相互作用网络比对方法si-magna

Publications (2)

Publication Number Publication Date
CN107679616A true CN107679616A (zh) 2018-02-09
CN107679616B CN107679616B (zh) 2020-12-04

Family

ID=61141789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710981020.5A Active CN107679616B (zh) 2017-10-20 2017-10-20 一种引入序列信息的残基相互作用网络比对方法si-magna

Country Status (1)

Country Link
CN (1) CN107679616B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846255A (zh) * 2018-06-19 2018-11-20 江南大学 一种分析木聚糖酶热稳定性影响因素的方法
CN111599404A (zh) * 2020-05-25 2020-08-28 江南大学 基于离散化蝙蝠算法的两个生物网络全局比对方法
CN112446492A (zh) * 2020-12-14 2021-03-05 江南大学 基于遗传算法的生物网络比对方法
CN112634988A (zh) * 2021-01-07 2021-04-09 内江师范学院 基于Python语言的基因变异检测方法及系统
CN113066524A (zh) * 2021-05-19 2021-07-02 江南大学 基于模拟退火的多蛋白质相互作用网络比对方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740648A (zh) * 2016-01-21 2016-07-06 江南大学 一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法
CN106446000A (zh) * 2016-07-27 2017-02-22 中国地质大学(武汉) 基于边界交互的区组合拓扑相似性度量方法
CN106951736A (zh) * 2017-03-14 2017-07-14 齐鲁工业大学 一种基于多重进化矩阵的蛋白质二级结构预测方法
CN106960134A (zh) * 2017-03-23 2017-07-18 江南大学 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740648A (zh) * 2016-01-21 2016-07-06 江南大学 一种基于人工蜂群与粒子群混合算法的蛋白质耐热温度的多元线性回归计算方法
CN106446000A (zh) * 2016-07-27 2017-02-22 中国地质大学(武汉) 基于边界交互的区组合拓扑相似性度量方法
CN106951736A (zh) * 2017-03-14 2017-07-14 齐鲁工业大学 一种基于多重进化矩阵的蛋白质二级结构预测方法
CN106960134A (zh) * 2017-03-23 2017-07-18 江南大学 一种适用于木聚糖酶氨基酸相互作用网络聚类的s‑fcm算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SOMAYE HASHEMIFAR AND JINBO XU: "HubAlign: an accurate and efficient method for global alignment of protein-protein interaction networks", 《BIOINFORMATICS》 *
VIKRAM SARAPH AND TIJANA MILENKOVIC: "MAGAN: Maximizing Accuracy in Global Network Alignment", 《BIOIFORMATICS》 *
WILLIAM R. PEARSON: "Selecting the right Similarity-Scoring Matrix", 《CURR PROTOC BIOINFORMATICS》 *
弭宝福: "遗传算法进化策略的改进研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846255A (zh) * 2018-06-19 2018-11-20 江南大学 一种分析木聚糖酶热稳定性影响因素的方法
CN111599404A (zh) * 2020-05-25 2020-08-28 江南大学 基于离散化蝙蝠算法的两个生物网络全局比对方法
CN111599404B (zh) * 2020-05-25 2023-08-04 江南大学 基于离散化蝙蝠算法的两个生物网络全局比对方法
CN112446492A (zh) * 2020-12-14 2021-03-05 江南大学 基于遗传算法的生物网络比对方法
CN112446492B (zh) * 2020-12-14 2024-04-05 江南大学 基于遗传算法的生物网络比对方法
CN112634988A (zh) * 2021-01-07 2021-04-09 内江师范学院 基于Python语言的基因变异检测方法及系统
CN112634988B (zh) * 2021-01-07 2021-10-08 内江师范学院 基于Python语言的基因变异检测方法及系统
CN113066524A (zh) * 2021-05-19 2021-07-02 江南大学 基于模拟退火的多蛋白质相互作用网络比对方法

Also Published As

Publication number Publication date
CN107679616B (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN107679616A (zh) 一种引入序列信息的残基相互作用网络比对算法si‑magna
Lan et al. A two-phase learning-based swarm optimizer for large-scale optimization
Trivedi et al. A survey of multiobjective evolutionary algorithms based on decomposition
Shi et al. A link clustering based overlapping community detection algorithm
Zhao et al. Prediction of essential proteins based on overlapping essential modules
Nikolaou et al. Deviations from Chargaff's second parity rule in organellar DNA: Insights into the evolution of organellar genomes
Lu et al. Auction-based cluster federated learning in mobile edge computing systems
Lin et al. Efficient classification of hot spots and hub protein interfaces by recursive feature elimination and gradient boosting
Zhao et al. A new method for predicting protein functions from dynamic weighted interactome networks
CN109411033A (zh) 一种基于复杂网络的药物疗效筛选方法
CN107122623A (zh) 基于随机分形搜索算法的蛋白质结构预测方法
Peres da Silva et al. TUGDA: task uncertainty guided domain adaptation for robust generalization of cancer drug response prediction from in vitro to in vivo settings
Gan et al. Tic2d: trajectory inference from single-cell rna-seq data using consensus clustering
CN108846255A (zh) 一种分析木聚糖酶热稳定性影响因素的方法
da Silva et al. Parallel niche pareto AlineaGA–an evolutionary multiobjective approach on multiple sequence alignment
Cao et al. A Recommendation Approach Based on Product Attribute Reviews: Improved Collaborative Filtering Considering the Sentiment Polarity.
Qiao et al. Benchmark problems for large-scale constrained multi-objective optimization with baseline results
CN108614889B (zh) 基于混合高斯模型的移动对象连续k近邻查询方法及系统
Tahernezhadiani et al. Towards enhancing solution space diversity in multi-objective optimization: a hypervolume-based approach
Yan et al. Hybrid chain-hypergraph P systems for multiobjective ensemble clustering
Zhang et al. Refining regulatory networks through phylogenetic transfer of information
Tapia et al. A clustering genetic algorithm for genomic data mining
Sasaki et al. A coarse-grained Langevin molecular dynamics approach to de novo protein structure prediction
Fang et al. NDRC: a disease-causing genes prioritized method based on network diffusion and rank concordance
He et al. A new hidden Markov model for protein quality assessment using compatibility between protein sequence and structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant