CN108563922A - 预测蛋白质rna结合物热点的方法、系统及存储介质 - Google Patents

预测蛋白质rna结合物热点的方法、系统及存储介质 Download PDF

Info

Publication number
CN108563922A
CN108563922A CN201810299939.0A CN201810299939A CN108563922A CN 108563922 A CN108563922 A CN 108563922A CN 201810299939 A CN201810299939 A CN 201810299939A CN 108563922 A CN108563922 A CN 108563922A
Authority
CN
China
Prior art keywords
data
prediction
residue
sample
protein
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810299939.0A
Other languages
English (en)
Inventor
邓磊
潘玉亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201810299939.0A priority Critical patent/CN108563922A/zh
Publication of CN108563922A publication Critical patent/CN108563922A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及生物信息技术领域,公开了一种预测蛋白质RNA结合物热点的方法、系统及存储介质,以解决生物实验的盲目性和成本高等问题,并提高预测的精度和效果。本实施例方法包括:确定有效数据集,其包括已明确标签的一类数据和待明确标签的二类数据,在该一类数据中,将结合能大于等于1.0的数据作为正样本的热点数据,结合能小于1.0的作为负样本数据;根据该一类数据,采用半监督学习算法中的标签传播算法对该二类数据进行标签值预测,并将预测后的数据归入训练集;以及基于各样本的特征集合,以极度梯度提升算法、神经网络算法和极性随机数算法分别构造分类器以对每个样本的分类进行投票,并对各投票结果进行加权平均得出预测结果。

Description

预测蛋白质RNA结合物热点的方法、系统及存储介质
技术领域
本发明涉及生物信息技术领域,尤其涉及一种预测蛋白质RNA结合物热点的方法、系统及存储介质。
背景技术
蛋白质和RNA(核糖核酸)是生命化合物中最重要的两种生物大分子。蛋白质和RNA间的相互作用在很多重要的生命活动中扮演着不可或缺的角色。在蛋白质和RNA的交界面上存在有许多残基,而只有一小部分残基占据了大量的结合自由能,对蛋白质和RNA的相互作用影响很大,通常把这一小部分残基称为热点残基。近年来的研究发现,热点残基对于分子识别机制的研究、蛋白质工程和药物的设计都具有重要的作用和影响。目前,对于热点残基的研究仅在蛋白质-蛋白质复合物的热点残基研究方面比较完善,现在已经有两三个热点数据库供研究人员免费使用。而对于蛋白质RNA复合物的热点残基的研究还处于初期阶段,在国内更是一片空白。
目前,已经有许多热点残基通过生物实验的方法进行了鉴定,但是这种方法实施起来不仅花费的成本多,而且耗时耗力。然而,如果采用数据挖掘的方法对大量蛋白质RNA复合物残基进行预测,不仅预测精度高、方便、快速,而且节约成本。因此,如果能运用一种有效的方法,从大量的残基中找到热点残基,将更好的解释蛋白质和RNA之间的相互关系,进而为药物的设计和分子的内部研究提供帮助。
发明内容
本发明目的在于公开一种预测蛋白质RNA结合物热点的方法、系统及存储介质,以解决生物实验的盲目性和成本高等问题,并提高预测的精度和效果。
为实现上述目的,本发明公开了一种预测蛋白质RNA结合物热点的方法,包括:
步骤S1、构建蛋白质RNA复合物的初始数据集;
步骤S2、对所述初始数据集进行过滤,筛选出蛋白质RNA结合面上的残基,并过滤掉蛋白质内部的残基、以及蛋白质表面残基;所述蛋白质RNA结合面上的残基的筛选条件包括:
条件1、单个蛋白质链中的残基溶剂可及性值减去复合物中相对应链中的目标残基溶剂可及性值的差值大于
条件2、单个蛋白质链的各个残基的溶剂可及性值除以相应残基最大的溶剂可及性值的比例大于5%;
步骤S3、对所筛选出的蛋白质RNA结合面上的残基所对应的复合物进行去同源处理,得到用于分类的有效数据集,所述有效数据集包括已明确标签的一类数据和待明确标签的二类数据,在所述一类数据中,将结合能大于等于1.0的数据作为正样本的热点数据,结合能小于1.0的作为负样本数据;
步骤S4、根据所述一类数据,采用半监督学习算法中的标签传播算法对所述二类数据进行标签值预测,并将预测后的数据归入训练集,所述训练集还包括部分所述一类数据;同时,从所述一类数据中抽取部分数据构建成测试集;所述训练集和测试集不存在交集且都含有正样本和负样本;
步骤S5、以序列特征、结构特征、残基相互作用网络特征和溶剂暴露特征作为特征集,将同一样本的各个特征值整合到一条特征序列中组合构造成样本的特征集合;
步骤S6、基于各样本的特征集合,以极度梯度提升算法(XGBoost,eXtremeGradient Boosting)、神经网络算法(Neural network algorithm)和极性随机数算法(ERT,Ensemble of Regression Tress)分别构造分类器以对每个样本的分类进行投票,然后对各分类器的投票结果进行加权平均得到蛋白质RNA结合面上残基是否为热点的预测结果。
优选地,各所述分类器的投票结果都为0到1之间的概率值,若三个概率值加权平均的最终结果大于或等于0.5,则判定为正样本,即热点,反之为非热点。
与上述方法相对应的,本发明还公开一种预测蛋白质RNA结合物热点的系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
进一步的,本发明还公开一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
本发明具有以下有益效果:
1、首次将残基相互作用网络特征和溶剂暴露特征应用到蛋白质RNA结合物热点预测,有效的提高预测的精度。
2、通过标签传播算法将训练集中的大量没有标签的数据预测出相对可靠的标签值。不仅扩充了训练集的数量,而且将大量关于蛋白质RNA复合物热点的信息包含了进来,有助于提高分类器的性能。
3、将多个分类效果好的单一算法集成起来作为一个集成算法进行分类。这样做的优点在于它可以克服单一算法的缺点,集聚多个算法的优点,使最终的分类结果更加准确可靠。
通过实验证实,本发明相比其他方法(如:HotSPRing、RNABindRPlus、PPRint等方法)能够更加准确的从大量的残基中辨别热点残基,可以显著提高预测蛋白质RNA复合物中热点残基的精度。
具体实施方式
以下对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
实施例1
本实施例公开一种预测蛋白质RNA结合物热点的方法,包括以下步骤:
步骤S1、构建蛋白质RNA复合物的初始数据集。
步骤S2、对所述初始数据集进行过滤,筛选出蛋白质RNA结合面上的残基,并过滤掉蛋白质内部的残基、以及蛋白质表面残基。
该步骤中,所述蛋白质RNA结合面上的残基的筛选条件包括:
条件1、单个蛋白质链中的残基溶剂可及性值减去复合物中相对应链中的目标残基溶剂可及性值的差值大于
条件2、单个蛋白质链的各个残基的溶剂可及性值除以相应残基最大的溶剂可及性值的比例大于5%。
步骤S3、对所筛选出的蛋白质RNA结合面上的残基所对应的复合物进行去同源处理,得到用于分类的有效数据集,所述有效数据集包括已明确标签的一类数据和待明确标签的二类数据,在所述一类数据中,将结合能大于等于1.0的数据作为正样本的热点数据,结合能小于1.0的作为负样本数据。
步骤S4、根据所述一类数据,采用半监督学习算法中的标签传播算法对所述二类数据进行标签值预测,并将预测后的数据归入训练集,所述训练集还包括部分所述一类数据;同时,从所述一类数据中抽取部分数据构建成测试集;所述训练集和测试集不存在交集且都含有正样本和负样本。
现实生活中往往能容易获得大量未标记的样本,这些样本虽然没有标签,但是它蕴含的信息量是非常大的而且对于我们来说这些信息也是非常重要。而有标记的样本却要耗费大量的人力、物力和财力。例如,在计算机辅助医学图像分析中,可以从医院获得大量的医学图像作为训练例,但如果要求医学专家把这些图像中的病灶都标识出来,则往往是不现实的。同样的情况也出现在预测蛋白质RNA结合物热点领域中。蛋白质RNA结合物热点在生物领域中及其重要,对于理解分子的识别机制和药物靶点的识别都具有重要的作用。然而,现实中这类热点被实验鉴定过的数据(有标签的数据)非常少,而且无人去搜集整理过。但是未被实验鉴定过的热点数据非常多,并且容易搜集到。
该步骤通过标签传播算法将训练集中的大量没有标签的数据预测出相对可靠的标签值。不仅扩充了训练集的数量,而且将大量关于蛋白质RNA复合物热点的信息包含了进来,有助于提高分类器的性能。同时,采用数据挖掘的方法对大量蛋白质RNA复合物残基进行预测,不仅预测精度高、方便、快速,而且节约成本。
在该步骤中,有关标签传播算法的可参照2013年1月(第30卷第1期)出版的《计算机应用研究》中的论文《标签传播算法理论及其用用研究综述》,作者为南京大学信息管理学院的张俊丽、常艳丽、师文,本发明不做赘述。
同时,测试集全部由有标签数据构成。因为有标签数据可信程度高,对预测的结果说服能力强。而且,测试集中的数据和训练集中的数据没有交集也没有重复,所以可以用来检验训练出来的分类器性能的好坏。
步骤S5、以序列特征、结构特征、残基相互作用网络特征和溶剂暴露特征作为特征集,将同一样本的各个特征值整合到一条特征序列中组合构造成样本的特征集合。
在该步骤中,序列特征就是采用蛋白质的序列进行计算而产生的特征结果,结构特征是通过对蛋白质结构进行分析和计算而产生的的结果。残基相互作用网络特征将目标残基和相邻残基联系了起来,克服了传统特征只能描述目标残基本身的局限性。溶剂暴露特征用于表示目标残基的溶剂暴露面积。
步骤S6、基于各样本的特征集合,以极度梯度提升算法、神经网络算法和极性随机数算法分别构造分类器以对每个样本的分类进行投票,然后对各分类器的投票结果进行加权平均得到蛋白质RNA结合面上残基是否为热点的预测结果。
该步骤即将多个分类效果好的单一算法集成起来作为一个集成算法进行分类。例如:各所述分类器的投票结果都为0到1之间的概率值,若三个概率值加权平均的最终结果大于或等于0.5,则判定为正样本,即热点,反之为非热点。
综上,本实施例所公开的预测蛋白质RNA结合物热点的方法,具有以下有益效果:
1、首次将残基相互作用网络特征和溶剂暴露特征应用到蛋白质RNA结合物热点预测,有效的提高预测的精度。
2、通过标签传播算法将训练集中的大量没有标签的数据预测出相对可靠的标签值。不仅扩充了训练集的数量,而且将大量关于蛋白质RNA复合物热点的信息包含了进来,有助于提高分类器的性能。
3、将多个分类效果好的单一算法集成起来作为一个集成算法进行分类。这样做的优点在于它可以克服单一算法的缺点,集聚多个算法的优点,使最终的分类结果更加准确可靠。
通过实验证实,本发明相比其他方法(如:HotSPRing、RNABindRPlus、PPRint等方法)能够更加准确的从大量的残基中辨别热点残基,可以显著提高预测蛋白质RNA复合物中热点残基的精度。
实施例2
与上述方法相对应的,本实施例公开一种预测蛋白质RNA结合物热点的系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例1中方法的步骤。
实施例3
与上述系统实施例同理,本实施例公开一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述实施例1中方法的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种预测蛋白质RNA结合物热点的方法,其特征在于,包括:
步骤S1、构建蛋白质RNA复合物的初始数据集;
步骤S2、对所述初始数据集进行过滤,筛选出蛋白质RNA结合面上的残基,并过滤掉蛋白质内部的残基、以及蛋白质表面残基;所述蛋白质RNA结合面上的残基的筛选条件包括:
条件1、单个蛋白质链中的残基溶剂可及性值减去复合物中相对应链中的目标残基的溶剂可及性值的差值大于
条件2、单个蛋白质链的各个残基的溶剂可及性值除以相应残基最大的溶剂可及性值的比例大于5%;
步骤S3、对所筛选出的蛋白质RNA结合面上的残基所对应的复合物进行去同源处理,得到用于分类的有效数据集,所述有效数据集包括已明确标签的一类数据和待明确标签的二类数据,在所述一类数据中,将结合能大于等于1.0的数据作为正样本的热点数据,结合能小于1.0的作为负样本数据;
步骤S4、根据所述一类数据,采用半监督学习算法中的标签传播算法对所述二类数据进行标签值预测,并将预测后的数据归入训练集,所述训练集还包括部分所述一类数据;同时,从所述一类数据中抽取部分数据构建成测试集;所述训练集和测试集不存在交集且都含有正样本和负样本;
步骤S5、以序列特征、结构特征、残基相互作用网络特征和溶剂暴露特征作为特征集,将同一样本的各个特征值整合到一条特征序列中组合构造成样本的特征集合;
步骤S6、基于各样本的特征集合,以极度梯度提升算法、神经网络算法和极性随机数算法分别构造分类器以对每个样本的分类进行投票,然后对各分类器的投票结果进行加权平均得到蛋白质RNA结合面上残基是否为热点的预测结果。
2.根据权利要求1所述的预测蛋白质RNA结合物热点的方法,其特征在于,各所述分类器的投票结果都为0到1之间的概率值,若三个概率值加权平均的最终结果大于或等于0.5,则判定为正样本,即热点,反之为非热点。
3.一种预测蛋白质RNA结合物热点的系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1或2所述方法的步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述权利要求1或2所述方法的步骤。
CN201810299939.0A 2018-04-04 2018-04-04 预测蛋白质rna结合物热点的方法、系统及存储介质 Pending CN108563922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810299939.0A CN108563922A (zh) 2018-04-04 2018-04-04 预测蛋白质rna结合物热点的方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810299939.0A CN108563922A (zh) 2018-04-04 2018-04-04 预测蛋白质rna结合物热点的方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN108563922A true CN108563922A (zh) 2018-09-21

Family

ID=63534181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810299939.0A Pending CN108563922A (zh) 2018-04-04 2018-04-04 预测蛋白质rna结合物热点的方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN108563922A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215740A (zh) * 2018-11-06 2019-01-15 中山大学 基于Xgboost的全基因组RNA二级结构预测方法
CN112380875A (zh) * 2020-11-18 2021-02-19 杭州大搜车汽车服务有限公司 对话标签跟踪方法、装置、电子装置及存储介质
CN113838520A (zh) * 2021-09-27 2021-12-24 电子科技大学长三角研究院(衢州) 一种iii型分泌系统效应蛋白识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102892779A (zh) * 2010-02-18 2013-01-23 基因泰克公司 神经调节蛋白拮抗剂及其在治疗癌症中的用途
CN103955628A (zh) * 2014-04-22 2014-07-30 南京理工大学 基于子空间融合的蛋白质-维他命绑定位点预测方法
CN106650314A (zh) * 2016-11-25 2017-05-10 中南大学 预测氨基酸突变的方法及系统
US20170253925A1 (en) * 2015-11-25 2017-09-07 Integrated Dna Technologies Methods for variant detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102892779A (zh) * 2010-02-18 2013-01-23 基因泰克公司 神经调节蛋白拮抗剂及其在治疗癌症中的用途
CN103955628A (zh) * 2014-04-22 2014-07-30 南京理工大学 基于子空间融合的蛋白质-维他命绑定位点预测方法
US20170253925A1 (en) * 2015-11-25 2017-09-07 Integrated Dna Technologies Methods for variant detection
CN106650314A (zh) * 2016-11-25 2017-05-10 中南大学 预测氨基酸突变的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEI DENG 等: "Boosting Prediction Performance of Protein–Protein Interaction Hot Spots by Using Structural Neighborhood Properties", 《JOURNAL OF COMPUTATIONAL BIOLOGY》 *
YULIANG PAN 等: "Computational identification of binding energy hot spots in protein–RNA complexes using an ensemble approach", 《BIOINFORMATICS》 *
张俊丽 等: "标签传播算法理论及其应用研究综述", 《计算机应用研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215740A (zh) * 2018-11-06 2019-01-15 中山大学 基于Xgboost的全基因组RNA二级结构预测方法
CN112380875A (zh) * 2020-11-18 2021-02-19 杭州大搜车汽车服务有限公司 对话标签跟踪方法、装置、电子装置及存储介质
CN113838520A (zh) * 2021-09-27 2021-12-24 电子科技大学长三角研究院(衢州) 一种iii型分泌系统效应蛋白识别方法及装置
CN113838520B (zh) * 2021-09-27 2024-03-29 电子科技大学长三角研究院(衢州) 一种iii型分泌系统效应蛋白识别方法及装置

Similar Documents

Publication Publication Date Title
Yan et al. Protein fold recognition based on multi-view modeling
Yuan et al. Binding site detection and druggability prediction of protein targets for structure-based drug design
Ruan et al. Identifying network communities with a high resolution
Bennett‐Lovsey et al. Exploring the extremes of sequence/structure space with ensemble fold recognition in the program Phyre
Goodwin et al. Mosquito species identification using convolutional neural networks with a multitiered ensemble model for novel species detection
CN108563922A (zh) 预测蛋白质rna结合物热点的方法、系统及存储介质
US20070156343A1 (en) Stochastic method to determine, in silico, the drug like character of molecules
Zhang et al. Integrating multiple protein-protein interaction networks to prioritize disease genes: a Bayesian regression approach
Li et al. Protein contact map prediction based on ResNet and DenseNet
Ponssa et al. Patterns of skull development in anurans: size and shape relationship during postmetamorphic cranial ontogeny in five species of the Leptodactylus fuscus Group (Anura: Leptodactylidae)
Li et al. Identification of essential proteins from weighted protein–protein interaction networks
Lee et al. Protein family classification with neural networks
CN109448787A (zh) 基于改进pssm进行特征提取与融合的蛋白质亚核定位方法
Kukreja et al. Revolutionizing Rice Farming: Automated Identification and Classification of Rice Leaf Blight Disease Using Deep Learning
CN107194207A (zh) 基于粒度支持向量机集成的蛋白质配体绑定位点预测方法
Wei et al. DMclust, a Density‐based Modularity Method for Accurate OTU Picking of 16S rRNA Sequences
Wu et al. Determining protein topology from skeletons of secondary structures
Murphy et al. Self-supervised learning of cell type specificity from immunohistochemical images
Gu et al. Surface‐histogram: A new shape descriptor for protein‐protein docking
Cai et al. Improved EfficientNet for corn disease identification
Chapman et al. Inventory and review of quantitative models for spread of plant pests for use in pest risk assessment for the EU territory
Balci et al. DeepInterface: protein-protein interface validation using 3D convolutional neural networks
Farah et al. A deep learning-based approach for the detection of infested soybean leaves
Derry et al. Training data composition affects performance of protein structure analysis algorithms
CN106021999A (zh) 一种多功能抗微生物肽的最优多标记集成预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921