CN107092812B - 一种在ppi网络中基于遗传算法识别关键蛋白质的方法 - Google Patents

一种在ppi网络中基于遗传算法识别关键蛋白质的方法 Download PDF

Info

Publication number
CN107092812B
CN107092812B CN201710144806.1A CN201710144806A CN107092812B CN 107092812 B CN107092812 B CN 107092812B CN 201710144806 A CN201710144806 A CN 201710144806A CN 107092812 B CN107092812 B CN 107092812B
Authority
CN
China
Prior art keywords
proteins
individuals
similarity
randomly selected
population
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710144806.1A
Other languages
English (en)
Other versions
CN107092812A (zh
Inventor
刘维
吴蔷梅
陈昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN201710144806.1A priority Critical patent/CN107092812B/zh
Publication of CN107092812A publication Critical patent/CN107092812A/zh
Application granted granted Critical
Publication of CN107092812B publication Critical patent/CN107092812B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种在PPI网络中基于遗传算法识别关键蛋白质的算法。本发明在蛋白质相互作用网络中产生初始种群,对个体的适应度计算,赌轮的方法选择操作,在随机挑选的个体对之间进行交叉操作,变异操作,对多个个体解进行局部优化。本发明克服了已有的方法各自存在的缺陷。本发明对该指标进行优化,融合了生物信息,可靠性更高,减少了许多不必要的计算,而且能够对预测出来的关键蛋白质进行局部优化,提高在关键蛋白质识别方面的效率,扩展了该技术在生物信息领域的应用范围和实用性。

Description

一种在PPI网络中基于遗传算法识别关键蛋白质的方法
技术领域
本发明属于生物信息技术领域,主要是在蛋白质相互作用网络中通过遗传算法识别关键蛋白质的技术,特别涉及一种在PPI网络中基于遗传算法识别关键蛋白质的算法。
背景技术
关键蛋白质是指那些生命有机体所必须的蛋白质,敲除关键蛋白质可能会导致生命体无法生存。对关键蛋白质的识别在生物体生存、药物标靶设计、疾病治疗等方面有着重要的应用价值。
在关键蛋白质识别领域,最初是通过生物实验来识别,比如单基因敲除,但是需要花费大量的人力、物力和时间。随着高通量技术的发展,如酵母双杂交、串联亲和纯化等,这些实验产生了大量的蛋白质相互作用关系,所以出现了许多基于蛋白质相互作用网络的识别关键蛋白质的方法。但是这些方法大多都是只考虑了蛋白质相互作用网络拓扑结构,而没有考虑生物信息,或者只考虑了一种生物信息,导致识别出来的关键蛋白质准确率较低。
在本发明作出之前,在已有的方法中,大多都是要计算出所有的关键蛋白质,然后在识别出来的关键蛋白质中取它度较大的P个,这样识别关键蛋白质的缺点是:(1)在实际应用中只关心哪P个的指标较大,关键程度高,而没有必要增加计算量来将蛋白质的某种指标逐一计算,然后对其进行排序,取其中较大的P个。(2)就单个蛋白质而言某种指标较高,但就指标最高的P个而言,其关键性在PPI网络中整体的程度未必最高,也可能只是某一局部顶点的代表,特别是一些采用局部链接指标,或者是采用连接密切度逐步扩大的算法,这样更容易导致最优解的局部性。
发明内容
本发明的目的就是要克服上述缺陷,提供一种在PPI网络中基于遗传算法识别关键蛋白质的算法。
本发明的技术方案是:
一种在PPI网络中基于遗传算法识别关键蛋白质的方法,其主要技术特征在于,包括如下步骤:
(1)在蛋白质相互作用网络中产生初始种群;
(2)对个体的适应度计算:对种群中的个体,通过适应度函数计算其适应度值;
(3)选择操作:对种群中的个体,按其适应度值采用赌轮的方法选择其参加下一代的种群;
(4)交叉操作:交叉操作是按一定概率在随机挑选的个体对之间进行;
(5)变异操作:变异操作是按一定的概率在随机挑选的个体上进行的,在进行变异时,随机挑选新个体中的d个蛋白质,将替换成随机挑选的其他蛋白质;
(6)局部优化:对多个个体解进行局部优化。
本发明的优点和有益效果在于提出了一种衡量Top-P关键蛋白质的整体性指标,并对该指标进行优化,该方法在考虑网络拓扑的基础上也融合了生物信息,使得预测结果更加的准确,可靠性更高。同时本发明提出的方法能够整体度量P个蛋白质的关键性,从而减少了许多不必要的计算,而且能够对预测出来的关键蛋白质进行局部优化。该技术可以提高在关键蛋白质识别方面的效率,扩展了该技术在生物信息领域的应用范围和实用性。
附图说明
图1——本发明流程示意图。
图2——识别出来的关键蛋白质的个数示意图,其中a是取前5%的蛋白质时正确识别出来的关键蛋白质的数量图,b是取前10%的蛋白质时正确识别出来的关键蛋白质的数量图,c是取前15%的蛋白质时正确识别出来的关键蛋白质的数量图,d是取前20%的蛋白质时正确识别出来的关键蛋白质的数量图,e是取前25%的蛋白质时正确识别出来的关键蛋白质的数量图。
图3——识别的准确率比较示意图。
具体实施方式
一、步骤描述
下面结合附图和具体实施方式对本发明进行详细说明。
先输入PPI网络和生物信息,然后
步骤(1):产生初始蛋白质种群
由于蛋白质的关键性与相应顶点度有密切的关系,以顶点度最高的P个蛋白质为基础产生初始种群,并对蛋白质进行编码,为了防止种群的局部化,增加其多样性,在初始种群中再随机替换一部分蛋白质。设U为蛋白质集合V中P个最高度数的顶点集合,U中顶点的最大的度为maxd,最小的度为mind;设每个蛋白质v的度为dv,定义hv=(maxd-dv)/(maxd-mind),产生(0,1)间随机数r,若r<hv,则在V-U中选取随机顶点加入U中来替换v。
步骤(2):计算个体的适应度
因为运用多种生物信息可以有效的提高识别的准确率,所以对蛋白质之间的相似度衡量,通过综合利用蛋白质在PPI网络中及在生物方面的相似度,主要有共同邻居相似度(NTE),基因表达相似度(GES),GO语义相似度(GOS),域交互程度(DS),系统发育谱相似度(PPS),通过对这五种相似度进行加权平均,从而形成蛋白质之间的相似度,即:
wij=α1NTEij2GESij3GOSij4DSij5PPSij
其中,wij为两个蛋白质i和j之间的相似度,权重αi(i=1,2,3,4,5)满足αi∈(0,1),
Figure BSA0000141611950000031
如果蛋白质与其他节点联系越紧密,就越有可能成为关键蛋白质,定义紧密程度与蛋白质之间的相似度wij有关:
Figure BSA0000141611950000032
其中,pij为蛋白质之间的转移概率或影响力,它反映蛋白质之间联系的紧密程度。
通过选取候选解的方法来识别关键蛋白质,其中每一个候选解含有P个蛋白质,整体度量这P个蛋白质的关键性,通过这些蛋白质与其他蛋白质的联系的紧密度来衡量其关键性,设P个顶点的集合U={v1,v2,…vp},每一个vi为一个蛋白质,记Nk(U)为距U中顶点的最短距离为k的顶点的集合,即:
Figure BSA0000141611950000033
|Iu,v|为u到v的最短路径的长度。其中N0(U)=U。
定义集合U的关键度,也就是适应度函数:
Figure BSA0000141611950000041
这里,αk为系数,α1,α2,…αk递减,αi∈(0,1),因为随着路径的增加,邻居间紧密程度会降低,所以为不同的紧密程度附上权值,例如,可设:αk=αk(α∈(0,1))。关键度实际上对U中所有顶点的1至k阶邻居顶点的影响力进行综合评价,在实际计算中,取L为3即可。
步骤3:对个体进行选择操作
本步骤是为了挑选出合适的个体,设V为蛋白质集合,P为关键蛋白质个数,首先为了缩小搜索关键蛋白质的范围,将度最小的若干个顶点去除掉,保留其中V′(V′<V)个顶点,然后产生m个初始个体,构成初始种群W,每个个体为长度为P的向量,对W中的每一个个体通过适应度函数计算其适应度值,最后根据个体适应度值,采用“赌轮法”选择一个个体,即对个体进行选择操作。
步骤4:对所选择的两个个体实施交叉操作
本步骤是对两个个体之间进行交叉,随机选择两个个体,对每一个个体产生[1,P]间的随机数,以确定交叉的位置,产生j个交叉位置,以pc的概率对所选择的两个个体在交叉位置上进行交叉操作。对于两个个体V、W,在它的编码的不相同的顶点中随机挑出C个进行互换,例如:
Figure BSA0000141611950000042
Figure BSA0000141611950000043
其中阴影部分为相同顶点。设交换的长度C=1,我们在V的不相同部分随机挑选“7”在W中随机挑选“8”进行交换,结果为:
Figure BSA0000141611950000044
Figure BSA0000141611950000045
步骤5:按一定概率对随机选择的个体进行变异操作
该操作是按一定的概率在随机挑选的个体上进行的,在个体中产生[1,P]间的随机数,以确定变异的位置,重复d次,挑选出新个体中的d个蛋白质,在[1,V]间选择随机数作为随机挑选的用于替换的蛋白质,以pm的概率将变异位置上的蛋白质替换成随机挑选的其他蛋白质。
步骤6:多个个体解局部优化
对上述步骤2、3、4、5进行多次迭代操作,可以获得多个个体解,对多个个体解进行局部优化的基本思想是:采用贪婪法,设个体U={v1,V2,…Vp,},依次对vi(i=1,2,…,p)用N(vi)={v|(V,vi)∈E}中的结点分别代替vi,构成新的个体U*={v1,v2,…vp,},如果ESS(U*)≥ESS(U),则用U*代替U。
二、实施例
识别出来的关键蛋白质的个数
图2中,图a、b、c、d、e分别是取排序靠前的5%、10%、15%、20%、25%的蛋白质作为预测关键蛋白质的候选集,然后再与酵母PPI数据中的关键蛋白质相比较求交集,得出候选关键蛋白质中真实的关键蛋白质的数量。从图中可以看出,EPGA方法能获得比其他关键蛋白质识别方法更好的效果,无论是在取前5%、10%、15%、20%还是取前25%的蛋白质,其正确识别的关键蛋白质的数量与DC、CC、BC、SC、EC、IC、LAC和NC比较,均比这些方法好。
识别的准确率比较
图3是识别蛋白质的准确率的比较,EPGA方法不仅识别关键蛋白质的数量较其他方法要多,而且识别关键蛋白质的准确率(accuracy rate)与DC、CC、BC、SC、EC、IC、LAC和NC相比较,可以看出本发明所提供的方法能够有更高的识别准确率。

Claims (1)

1.一种在PPI网络中基于遗传算法识别关键蛋白质的方法,其特征在于,包括如下步骤:
(1)在蛋白质相互作用网络中产生初始种群;
(2)对个体的适应度计算:对种群中的个体,通过适应度函数计算其适应度值,即首先本方法在运用PPI网络拓扑结构的同时,考虑到了对识别准确率影响较大蛋白质的生物信息,综合运用了其在生物方面的相似度,主要有共同邻居相似度(NTE),基因表达相似度(GES),GO语义相似度(GOS),域交互程度(DS),系统发育谱相似度(PPS),通过对这五种相似度进行加权平均,从而形成蛋白质之间的相似度,而不是单纯的运用网络拓扑信息;同时通过选取候选解的方法来识别关键蛋白质,其中每一个候选解含有P个蛋白质,整体度量这P个蛋白质的关键性,通过这些蛋白质与其他蛋白质的联系的紧密度来衡量其关键性;
(3)选择操作:对种群中的个体,按其适应度值采用赌轮的方法选择其参加下一代的种群;
(4)交叉操作:交叉操作是按一定概率在随机挑选的个体对之间进行;
(5)变异操作:变异操作是按一定的概率在随机挑选的个体上进行的,在进行变异时,随机挑选新个体中的d个蛋白质,将替换成随机挑选的其他蛋白质;
(6)局部优化:对多个个体解进行局部优化。
CN201710144806.1A 2017-03-06 2017-03-06 一种在ppi网络中基于遗传算法识别关键蛋白质的方法 Expired - Fee Related CN107092812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710144806.1A CN107092812B (zh) 2017-03-06 2017-03-06 一种在ppi网络中基于遗传算法识别关键蛋白质的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710144806.1A CN107092812B (zh) 2017-03-06 2017-03-06 一种在ppi网络中基于遗传算法识别关键蛋白质的方法

Publications (2)

Publication Number Publication Date
CN107092812A CN107092812A (zh) 2017-08-25
CN107092812B true CN107092812B (zh) 2020-06-23

Family

ID=59648612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710144806.1A Expired - Fee Related CN107092812B (zh) 2017-03-06 2017-03-06 一种在ppi网络中基于遗传算法识别关键蛋白质的方法

Country Status (1)

Country Link
CN (1) CN107092812B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798215B (zh) * 2017-11-15 2021-07-23 扬州大学 基于ppi网络层次结构预测功能模块及作用的方法
CN108229643B (zh) * 2018-02-05 2022-04-29 陕西师范大学 一种采用果蝇优化算法识别关键蛋白质的方法
CN108647490B (zh) * 2018-05-04 2022-06-17 安徽大学 基于多目标进化算法的大规模蛋白质功能模块识别方法和系统
CN108733976B (zh) * 2018-05-23 2021-12-03 扬州大学 基于融合生物与拓扑特征的关键蛋白质识别方法
CN110910952B (zh) * 2019-11-21 2023-05-12 衡阳师范学院 一种利用化学反应策略预测基本蛋白质方法
CN117976047A (zh) * 2024-04-02 2024-05-03 吉林农业大学 基于深度学习的关键蛋白质预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208027A (zh) * 2013-03-13 2013-07-17 北京工业大学 基于局部模块度的遗传算法用于大规模复杂网络社区挖掘的方法
CN104820977A (zh) * 2015-05-22 2015-08-05 无锡职业技术学院 一种基于自适应遗传算法的bp神经网络图像复原算法
CN105184112A (zh) * 2015-10-27 2015-12-23 大连大学 基于改进小生境遗传算法的蛋白质结构预测方法
CN105825075A (zh) * 2016-03-11 2016-08-03 大连大学 基于nga-ts算法的蛋白质结构预测方法
CN106202993A (zh) * 2016-07-12 2016-12-07 王亚帝 利用mRNA表达谱与竞争性内源RNA表达谱联合筛选蒽环类药物心脏毒性基因的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201401005D0 (en) * 2014-01-21 2014-03-05 Ucl Business Plc Inhibitor

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208027A (zh) * 2013-03-13 2013-07-17 北京工业大学 基于局部模块度的遗传算法用于大规模复杂网络社区挖掘的方法
CN104820977A (zh) * 2015-05-22 2015-08-05 无锡职业技术学院 一种基于自适应遗传算法的bp神经网络图像复原算法
CN105184112A (zh) * 2015-10-27 2015-12-23 大连大学 基于改进小生境遗传算法的蛋白质结构预测方法
CN105825075A (zh) * 2016-03-11 2016-08-03 大连大学 基于nga-ts算法的蛋白质结构预测方法
CN106202993A (zh) * 2016-07-12 2016-12-07 王亚帝 利用mRNA表达谱与竞争性内源RNA表达谱联合筛选蒽环类药物心脏毒性基因的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于PPI网络的关键蛋白质的高效预测算法;洪海燕等;《计算机科学》;20161130;第43卷(第11A期);第16-20页 *

Also Published As

Publication number Publication date
CN107092812A (zh) 2017-08-25

Similar Documents

Publication Publication Date Title
CN107092812B (zh) 一种在ppi网络中基于遗传算法识别关键蛋白质的方法
CN107247961B (zh) 一种应用模糊轨迹序列的轨迹预测方法
CN110032682B (zh) 一种信息推荐列表生成方法、装置及设备
CN107885971B (zh) 采用改进花授粉算法识别关键蛋白质的方法
US20170076036A1 (en) Protein functional and sub-cellular annotation in a proteome
Khoshgoftaar et al. A review of ensemble classification for dna microarrays data
CN105590039B (zh) 一种基于bso优化的蛋白质复合物识别方法
Bej et al. A multi-schematic classifier-independent oversampling approach for imbalanced datasets
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
Malhotra Community detection in complex networks using link strength-based hybrid genetic algorithm
Babu et al. A simplex method-based bacterial colony optimization algorithm for data clustering analysis
CN111584010B (zh) 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法
Messaoudi et al. Community detection using fireworks optimization algorithm
Nejad et al. Solving a traveling salesman problem using meta-heuristics
Thomsen Evolving the topology of hidden markov models using evolutionary algorithms
KR20230170680A (ko) 심층 콘볼루션 신경망들을 사용하여 변이체 병원성을 예측하기 위한 다중 채널 단백질 복셀화
Fedorchenko et al. Modified genetic algorithm to determine the location of the distribution power supply networks in the city
WO2022221587A1 (en) Artificial intelligence-based analysis of protein three-dimensional (3d) structures
CN114420201A (zh) 一种多源数据高效融合的药物靶标相互作用的预测方法
Naldi et al. Genetic clustering for data mining
WO2016187898A1 (zh) 代谢物ms/ms质谱计算机仿真方法
Divya et al. An Efficient K-Means Clustering Initialization Using Optimization Algorithm
de Lacerda et al. A study of cross-validation and bootstrap as objective functions for genetic algorithms
Bhat et al. OTU clustering: A window to analyse uncultured microbial world
CN117391258B (zh) 一种负碳排放的预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200623

CF01 Termination of patent right due to non-payment of annual fee