CN105354441A - 构建植物蛋白质互作网络的方法 - Google Patents

构建植物蛋白质互作网络的方法 Download PDF

Info

Publication number
CN105354441A
CN105354441A CN201510697708.1A CN201510697708A CN105354441A CN 105354441 A CN105354441 A CN 105354441A CN 201510697708 A CN201510697708 A CN 201510697708A CN 105354441 A CN105354441 A CN 105354441A
Authority
CN
China
Prior art keywords
protein
phytoprotein
interaction
mutually
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510697708.1A
Other languages
English (en)
Other versions
CN105354441B (zh
Inventor
张利达
刘诗薇
刘奕慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201510697708.1A priority Critical patent/CN105354441B/zh
Publication of CN105354441A publication Critical patent/CN105354441A/zh
Application granted granted Critical
Publication of CN105354441B publication Critical patent/CN105354441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Abstract

一种构建植物蛋白质互作网络的方法,该方法将蛋白质结构与非结构特征相结合,利用随机森林算法训练蛋白质互作模型,并用训练后的蛋白质互作分类器对植物蛋白质相互作用关系进行预测,而后构建植物蛋白质相互作用关系网络。与现有方法相比,该方法极大地提高了植物蛋白质相互作用关系预测的准确性。

Description

构建植物蛋白质互作网络的方法
技术领域
本发明涉及生物技术,尤其涉及一种构建植物蛋白质互作网络的方法。
背景技术
蛋白质之间的相互作用几乎对所有细胞过程必不可少,大部分基因在蛋白质水平通过与其它蛋白质的相互作用来行使生物学功能。目前,已发展一些实验手段,如酵母双杂交、亲和纯化等技术方法来解析蛋白质的相互作用关系。随着已完成基因组序列信息的急剧增加,对基因/蛋白质之间的相互关系的认识已远远落后基因序列的增长,而解析蛋白质互作的实验方法不仅通量较低、而且技术要求较高,难以大规模开展相关研究工作。
过去十几年发展了许多基于计算机方法来预测蛋白质之间的相关作用关系,包括基因融合、基因进化谱、基因共表达、基因邻位、同源映射等方法。尽管这些方法利用不同类型的生物数据资源来预测蛋白质相互作用关系,但这些方法均基于非结构特征的间接依据进行预测,限制了方法的准确性。
发明内容
本发明的目的,就是为了解决上述问题,提供一种构建植物蛋白质互作网络的方法。
为了达到上述目的,本发明采用了以下技术方案:一种构建植物蛋白质互作网络的方法,包括如下步骤:
步骤1、在全基因组水平,用Modeller同源建模软件对植物基因进行同源结构建模,同源模型筛选标准为BLAST的E值<10-5、或ModPipe的MPQS(ModPipequalityscore)质量分值≥0.5、或GA341值≥0.5(Meloetal.,2007)、或z-DOPE值<0(Shenetal.,2006)。
步骤2、从PDB与PISA数据库收集同源或异源蛋白质复合体空间结构数据,用PIBASE软件包计算蛋白质复合体各链间互作界面的结构(interfacestructures)及对应互作残基。用TM-Align软件对蛋白质同源结构与复合体模板进行空间结构比对叠加。
步骤3、筛选模板建模分值(TM-Score)大于0.4的蛋白质同源结构与复合体模板间的空间叠加结果(Zhangetal.,2004),计算结构特征,具体包括基因同源结构与复合体模板之间的均方根偏差(Root-mean-squaredeviation)、模板建模分值、以及蛋白质同源结构之间互作界面保守残基数目以及互作界面保守残基比例。
步骤4、非结构特征计算,包括基因共表达,GO三类属性的基因功能相似性,基因系统发生谱,蛋白质相互作用的跨物种保守性(Interolog)以及基因融合。
步骤5、构建蛋白质相互作用阳性数据集与非相互作用蛋白质对阴性数据集,根据每一蛋白质对的4类结构与7类非结构特征,利用R软件包中的随机森林(RandomForests)算法训练目标植物蛋白质互作模型,选择分裂属性的个数mtry为4,生成决策树的数目为500。
步骤6、利用训练后的蛋白质互作分类器对植物整个基因组所有蛋白质两两之间的相互作用关系进行预测,随机森林模型的筛选阈值≥0.5。
步骤7、使用Cytoscape(http://www.cytoscape.org/)软件构建植物全基因组水平的蛋白质相互作用关系网络。
本发明针对现有技术存在的不足,提供了一种将蛋白质空间结构与非结构特征相结合,利用随机森林算法预测蛋白质之间相互作用关系的方法,提高了蛋白质之间相互作用关系预测的准确性,并可以此构建植物全基因组水平的基因相互作用网络。
附图说明
图1为本发明构建植物蛋白质互作网络方法的流程图。
图2是水稻蛋白质互作网络拓扑结构。
具体实施方式
下面以水稻全基因组水平的蛋白质互作网络构建为例,参照图1,具体说明本发明构建植物蛋白质互作网络方法的具体实施步骤。
步骤1、从水稻基因组中分离非转座子相关基因,用Modeller同源建模软件构建稳定的水稻蛋白质结构模型,其筛选标准符合下述条件之一:局部序列比对工具BLASTE值<10-5、或MPQS(ModPipequalityscore)值≥0.5、或GA341值≥0.5、或z-DOPE值<0。
步骤2、从PDB与PISA数据库收集同源或异源蛋白质复合体空间结构数据,用PIBASE软件包计算蛋白质复合体各链间互作界面的结构(interfacestructures)及对应互作残基。用TM-Align软件对水稻蛋白质同源结构与复合体模板进行空间结构比对叠加,筛选稳定的水稻蛋白质同源结构与复合体模板间的空间叠加结果,其筛选标准为模板建模分值TM-Score大于0.4。
步骤3、计算水稻蛋白质同源结构与复合体模板之间的均方根偏差RMSD值、同源结构与复合体模板之间的建模分值、水稻蛋白质同源结构间互作界面保守残基数目以及互作界面保守残基比例。
步骤4、从NCBI(http://www.ncbi.nlm.nih.gov/)的SRA数据库中下载获得水稻RNA-seq样本数据,过滤低质量及污染序列后,获得高质量的RNA测序reads,采用TopHat2与Htseq-count连用计算上述各个样本中水稻基因表达丰度,并基于表达数据,计算水稻基因两两之间的皮尔逊相关系数(Pearsoncorrelationcoefficient)。
步骤5、根据GeneOntology数据,分Biologicalprocess,Molecularfunction及Cellularcomponent三类属性计算水稻基因之间功能相似性分值。基因功能相似性分值定义为S=log(n/N)/log(2/N),其中n是GeneOntology中包含有这两个基因的最低层次GO类别所含基因数目,N是水稻基因组注释基因总数。
步骤6、收集已完成测序的真核和原核基因组,筛选去除进化类似的基因组数据。对水稻基因与已完成测序基因组的与所有编码蛋白质序列进行BLAST比对(设定E值<10-10)。如有匹配序列为1,反之为0,结果产生一个代表同源序列存在与否的n维向量的基因系统进化谱。
步骤7、从BioGRID、IntAct、DIP、MINT及BIND数据库中收集大肠杆菌、酵母、线虫、果蝇、小鼠、人以及拟南芥7个物种的蛋白质互作数据,并根据InParanoid方法计算获得的与上述物种直系同源的水稻基因,按公式计算水稻基因之间互作可能性大小的Interolog分值,其中ISai是水稻基因A与上述各物种直系同源基因A′i的InParanoid值,ISbi是水稻基因B与上述各物种直系同源基因B′i的InParanoid值。
步骤8、对水稻蛋白质与NCBI(http://www.ncbi.nlm.nih.gov/)的nr蛋白质数据库进行BLAST比对,如水稻两个非同源蛋白质序列与nr数据库中的第三条蛋白质序列的不同区域存在至少70%的序列相似性,该两个水稻基因为RosettaStone蛋白质。
步骤9、从BioGRID、IntAct、DIP、MINT及BIND数据库中收集水稻蛋白质互作数据为阳性数据集,非相互作用蛋白质对则由软件随机产生。计算每一蛋白质对的4类结构与7类非结构特征数值,利用R软件包中的随机森林(RandomForests)算法训练水稻蛋白质互作模型,选择分裂属性的个数mtry为4,生成决策树的数目为500。
步骤10、计算水稻所有非转座子相关蛋白质两两之间的4类结构与7类非结构特征值,利用训练后的水稻蛋白质互作分类器对水稻全基因组水平的蛋白质相互作用关系进行的预测,获得708819对水稻蛋白质互作关系,并用Cytoscape构建水稻蛋白质互作网络。
水稻蛋白质互作网络拓扑结构如图2所示。

Claims (6)

1.一种构建植物蛋白质互作网络的方法,其特征在于:包括以下步骤:
一、植物基因同源结构建模,同源结构模型筛选标准为BLAST的E值<10-5、或MPQS值≥0.5、或GA341值≥0.5、或z-DOPE值<0;
二、蛋白质同源结构与复合体模板进行空间结构比对叠加;
三、选择模板建模分值大于0.4的空间叠加结果,计算结构特征,具体包括蛋白质同源结构与复合体模板之间的均方根偏差、同源结构与复合体模板之间的模板建模分值、蛋白质同源结构间互作界面保守残基数目以及互作界面保守残基比例;
四、非结构特征计算,具体包括基因共表达,GO三类属性的基因功能相似性,基因系统发生谱,蛋白质相互作用关系的跨物种保守性以及基因融合;
五、利用随机森林算法进行植物蛋白质互作模型训练,随机森林算法选择分裂属性的个数为4,生成决策树的数目为500;
六、植物蛋白质相互作用关系预测,其筛选阈值≥0.5;
七、构建植物蛋白质相互作用关系网络。
2.如权利要求1所述的构建植物蛋白质互作网络的方法,其特征在于:步骤一中所述植物基因同源结构建模,是在全基因组水平,用Modeller同源建模软件对植物基因进行同源结构建模。
3.如权利要求1所述的构建植物蛋白质互作网络的方法,其特征在于:步骤二所述蛋白质同源结构与复合体模板进行空间结构比对叠加,是从PDB与PISA数据库收集同源或异源蛋白质复合体空间结构数据,用PIBASE软件包计算蛋白质复合体各链间互作界面的结构及对应互作残基,用TM-Align软件对蛋白质同源结构与复合体模板进行空间结构比对叠加。
4.如权利要求1所述的构建植物蛋白质互作网络的方法,其特征在于:步骤五中所述利用随机森林算法进行植物蛋白质互作模型训练,是构建蛋白质相互作用阳性数据集与非相互作用蛋白质对阴性数据集,根据每一蛋白质对的4类结构与7类非结构特征,利用R软件包中的随机森林算法训练目标植物蛋白质互作模型。
5.如权利要求1所述的构建植物蛋白质互作网络的方法,其特征在于:步骤六中所述植物蛋白质相互作用关系预测,是利用训练后的蛋白质互作分类器对植物整个基因组所有蛋白质两两之间的相互作用关系进行预测。
6.如权利要求1所述的构建植物蛋白质互作网络的方法,其特征在于:步骤七中所述构建植物蛋白质相互作用关系网络,是使用Cytoscape软件构建植物全基因组水平的蛋白质相互作用关系网络。
CN201510697708.1A 2015-10-23 2015-10-23 构建植物蛋白质互作网络的方法 Active CN105354441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510697708.1A CN105354441B (zh) 2015-10-23 2015-10-23 构建植物蛋白质互作网络的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510697708.1A CN105354441B (zh) 2015-10-23 2015-10-23 构建植物蛋白质互作网络的方法

Publications (2)

Publication Number Publication Date
CN105354441A true CN105354441A (zh) 2016-02-24
CN105354441B CN105354441B (zh) 2018-02-02

Family

ID=55330412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510697708.1A Active CN105354441B (zh) 2015-10-23 2015-10-23 构建植物蛋白质互作网络的方法

Country Status (1)

Country Link
CN (1) CN105354441B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180164A (zh) * 2017-04-19 2017-09-19 浙江工业大学 一种基于模板的多域蛋白结构组装方法
CN107273713A (zh) * 2017-05-26 2017-10-20 浙江工业大学 一种基于TM‑align的多域蛋白模板搜索方法
CN107977548A (zh) * 2017-12-05 2018-05-01 东软集团股份有限公司 预测蛋白质间相互作用的方法、装置、介质及电子设备
CN109086569A (zh) * 2018-09-18 2018-12-25 武汉深佰生物科技有限公司 蛋白质互作方向与调控关系的预测方法
CN110136773A (zh) * 2019-04-02 2019-08-16 上海交通大学 一种基于深度学习的植物蛋白质互作网络构建方法
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111370068A (zh) * 2020-03-09 2020-07-03 中南大学 一种蛋白质异构体对相互作用预测方法及装置
CN112185459A (zh) * 2020-09-25 2021-01-05 上海交通大学 一种植物与病原菌蛋白质相互作用的预测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841985A (zh) * 2012-08-09 2012-12-26 中南大学 一种基于结构域特征的关键蛋白质识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102841985A (zh) * 2012-08-09 2012-12-26 中南大学 一种基于结构域特征的关键蛋白质识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BIQING LI: "Prediction of protein-protein interaction sites by random forest algorithm with mRMR and IFS", 《PLOS ONE》 *
URSULA PIEPER: "Modbase,a database of annotated comparative protein structure models and associated resources", 《NUCLEIC ACIDS RESEARCH》 *
XUEWEN CHEN等: "Prediction of protein-protein interactions using random decision forest framework", 《BIOINFORMATICS》 *
许传轲: "智能分类算法及其在蛋白质相互作用预测中的应用研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180164A (zh) * 2017-04-19 2017-09-19 浙江工业大学 一种基于模板的多域蛋白结构组装方法
CN107273713A (zh) * 2017-05-26 2017-10-20 浙江工业大学 一种基于TM‑align的多域蛋白模板搜索方法
CN107273713B (zh) * 2017-05-26 2020-06-02 浙江工业大学 一种基于TM-align的多域蛋白模板搜索方法
CN107977548A (zh) * 2017-12-05 2018-05-01 东软集团股份有限公司 预测蛋白质间相互作用的方法、装置、介质及电子设备
CN107977548B (zh) * 2017-12-05 2020-04-07 东软集团股份有限公司 预测蛋白质间相互作用的方法、装置、介质及电子设备
CN109086569A (zh) * 2018-09-18 2018-12-25 武汉深佰生物科技有限公司 蛋白质互作方向与调控关系的预测方法
CN109086569B (zh) * 2018-09-18 2020-04-07 武汉深佰生物科技有限公司 蛋白质互作方向与调控关系的预测方法
CN110136773A (zh) * 2019-04-02 2019-08-16 上海交通大学 一种基于深度学习的植物蛋白质互作网络构建方法
CN111192631A (zh) * 2020-01-02 2020-05-22 中国科学院计算技术研究所 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN111370068A (zh) * 2020-03-09 2020-07-03 中南大学 一种蛋白质异构体对相互作用预测方法及装置
CN112185459A (zh) * 2020-09-25 2021-01-05 上海交通大学 一种植物与病原菌蛋白质相互作用的预测方法

Also Published As

Publication number Publication date
CN105354441B (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN105354441A (zh) 构建植物蛋白质互作网络的方法
Christin et al. Molecular dating, evolutionary rates, and the age of the grasses
Springer et al. The historical biogeography of Mammalia
CN102760210A (zh) 一种蛋白质三磷酸腺苷绑定位点预测方法
Rehman et al. i6mA-Caps: A CapsuleNet-based framework for identifying DNA N6-methyladenine sites
Mostavi et al. Deep-2'-O-me: predicting 2'-O-methylation sites by convolutional neural networks
JP2022532707A (ja) タンパク質工学及びタンパク質生成のための方法及びシステム
Cetin et al. Multiple cut-off grade optimization by genetic algorithms and comparison with grid search method and dynamic programming
Renganaath et al. Systematic identification of cis-regulatory variants that cause gene expression differences in a yeast cross
Giménez et al. Improved detection and classification of plasmids from circularized and fragmented assemblies
Llewellyn et al. Metagenomics shines light on the evolution of “sunscreen” pigment metabolism in the Teloschistales (Lichen-forming Ascomycota)
Sukhorukov et al. VirHunter: A deep learning-based method for detection of novel RNA viruses in plant sequencing data
Niu et al. rBPDL: predicting RNA-binding proteins using deep learning
CN104615910A (zh) 基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法
Vanni et al. Light into the darkness: Unifying the known and unknown coding sequence space in microbiome analyses
Martinez Computational tools for genomic studies in plants
Su et al. The impact of incorporating molecular evolutionary model into predictions of phylogenetic signal and noise
Wang et al. A new method for rapid genome classification, clustering, visualization, and novel taxa discovery from metagenome
Zhang et al. Environmental viromes reveal global virosphere of deep-sea sediment RNA viruses
Wang et al. SRY: an effective method for sorting long reads of sex-limited chromosome
Yan et al. A short review on protein secondary structure prediction methods
Aldas-Bulos et al. Benchmarking protein structure predictors to assist machine learning-guided peptide discovery
CN117116355B (zh) 一种优异多效基因的挖掘方法、装置、设备及介质
Gluck-Thaler et al. Systematic identification of cargo-carrying genetic elements reveals new dimensions of eukaryotic diversity
JP2019095819A (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant