CN108563922A

CN108563922A - 预测蛋白质rna结合物热点的方法、系统及存储介质

Info

Publication number: CN108563922A
Application number: CN201810299939.0A
Authority: CN
Inventors: 邓磊; 潘玉亮
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-21

Abstract

本发明涉及生物信息技术领域，公开了一种预测蛋白质RNA结合物热点的方法、系统及存储介质，以解决生物实验的盲目性和成本高等问题，并提高预测的精度和效果。本实施例方法包括：确定有效数据集，其包括已明确标签的一类数据和待明确标签的二类数据，在该一类数据中，将结合能大于等于1.0的数据作为正样本的热点数据，结合能小于1.0的作为负样本数据；根据该一类数据，采用半监督学习算法中的标签传播算法对该二类数据进行标签值预测，并将预测后的数据归入训练集；以及基于各样本的特征集合，以极度梯度提升算法、神经网络算法和极性随机数算法分别构造分类器以对每个样本的分类进行投票，并对各投票结果进行加权平均得出预测结果。

Description

预测蛋白质RNA结合物热点的方法、系统及存储介质

技术领域

本发明涉及生物信息技术领域，尤其涉及一种预测蛋白质RNA结合物热点的方法、系统及存储介质。

背景技术

蛋白质和RNA(核糖核酸)是生命化合物中最重要的两种生物大分子。蛋白质和RNA间的相互作用在很多重要的生命活动中扮演着不可或缺的角色。在蛋白质和RNA的交界面上存在有许多残基，而只有一小部分残基占据了大量的结合自由能，对蛋白质和RNA的相互作用影响很大，通常把这一小部分残基称为热点残基。近年来的研究发现，热点残基对于分子识别机制的研究、蛋白质工程和药物的设计都具有重要的作用和影响。目前，对于热点残基的研究仅在蛋白质-蛋白质复合物的热点残基研究方面比较完善，现在已经有两三个热点数据库供研究人员免费使用。而对于蛋白质RNA复合物的热点残基的研究还处于初期阶段，在国内更是一片空白。

目前，已经有许多热点残基通过生物实验的方法进行了鉴定，但是这种方法实施起来不仅花费的成本多，而且耗时耗力。然而，如果采用数据挖掘的方法对大量蛋白质RNA复合物残基进行预测，不仅预测精度高、方便、快速，而且节约成本。因此，如果能运用一种有效的方法，从大量的残基中找到热点残基，将更好的解释蛋白质和RNA之间的相互关系，进而为药物的设计和分子的内部研究提供帮助。

发明内容

本发明目的在于公开一种预测蛋白质RNA结合物热点的方法、系统及存储介质，以解决生物实验的盲目性和成本高等问题，并提高预测的精度和效果。

为实现上述目的，本发明公开了一种预测蛋白质RNA结合物热点的方法，包括：

步骤S1、构建蛋白质RNA复合物的初始数据集；

步骤S2、对所述初始数据集进行过滤，筛选出蛋白质RNA结合面上的残基，并过滤掉蛋白质内部的残基、以及蛋白质表面残基；所述蛋白质RNA结合面上的残基的筛选条件包括：

条件1、单个蛋白质链中的残基溶剂可及性值减去复合物中相对应链中的目标残基溶剂可及性值的差值大于

条件2、单个蛋白质链的各个残基的溶剂可及性值除以相应残基最大的溶剂可及性值的比例大于5％；

步骤S3、对所筛选出的蛋白质RNA结合面上的残基所对应的复合物进行去同源处理，得到用于分类的有效数据集，所述有效数据集包括已明确标签的一类数据和待明确标签的二类数据，在所述一类数据中，将结合能大于等于1.0的数据作为正样本的热点数据，结合能小于1.0的作为负样本数据；

步骤S4、根据所述一类数据，采用半监督学习算法中的标签传播算法对所述二类数据进行标签值预测，并将预测后的数据归入训练集，所述训练集还包括部分所述一类数据；同时，从所述一类数据中抽取部分数据构建成测试集；所述训练集和测试集不存在交集且都含有正样本和负样本；

步骤S5、以序列特征、结构特征、残基相互作用网络特征和溶剂暴露特征作为特征集，将同一样本的各个特征值整合到一条特征序列中组合构造成样本的特征集合；

步骤S6、基于各样本的特征集合，以极度梯度提升算法(XGBoost，eXtremeGradient Boosting)、神经网络算法(Neural network algorithm)和极性随机数算法(ERT，Ensemble of Regression Tress)分别构造分类器以对每个样本的分类进行投票，然后对各分类器的投票结果进行加权平均得到蛋白质RNA结合面上残基是否为热点的预测结果。

优选地，各所述分类器的投票结果都为0到1之间的概率值，若三个概率值加权平均的最终结果大于或等于0.5，则判定为正样本，即热点，反之为非热点。

与上述方法相对应的，本发明还公开一种预测蛋白质RNA结合物热点的系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

进一步的，本发明还公开一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述方法的步骤。

本发明具有以下有益效果：

1、首次将残基相互作用网络特征和溶剂暴露特征应用到蛋白质RNA结合物热点预测，有效的提高预测的精度。

2、通过标签传播算法将训练集中的大量没有标签的数据预测出相对可靠的标签值。不仅扩充了训练集的数量，而且将大量关于蛋白质RNA复合物热点的信息包含了进来，有助于提高分类器的性能。

3、将多个分类效果好的单一算法集成起来作为一个集成算法进行分类。这样做的优点在于它可以克服单一算法的缺点，集聚多个算法的优点，使最终的分类结果更加准确可靠。

通过实验证实，本发明相比其他方法(如：HotSPRing、RNABindRPlus、PPRint等方法)能够更加准确的从大量的残基中辨别热点残基，可以显著提高预测蛋白质RNA复合物中热点残基的精度。

具体实施方式

以下对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

实施例1

本实施例公开一种预测蛋白质RNA结合物热点的方法，包括以下步骤：

步骤S1、构建蛋白质RNA复合物的初始数据集。

步骤S2、对所述初始数据集进行过滤，筛选出蛋白质RNA结合面上的残基，并过滤掉蛋白质内部的残基、以及蛋白质表面残基。

该步骤中，所述蛋白质RNA结合面上的残基的筛选条件包括：

条件2、单个蛋白质链的各个残基的溶剂可及性值除以相应残基最大的溶剂可及性值的比例大于5％。

步骤S3、对所筛选出的蛋白质RNA结合面上的残基所对应的复合物进行去同源处理，得到用于分类的有效数据集，所述有效数据集包括已明确标签的一类数据和待明确标签的二类数据，在所述一类数据中，将结合能大于等于1.0的数据作为正样本的热点数据，结合能小于1.0的作为负样本数据。

步骤S4、根据所述一类数据，采用半监督学习算法中的标签传播算法对所述二类数据进行标签值预测，并将预测后的数据归入训练集，所述训练集还包括部分所述一类数据；同时，从所述一类数据中抽取部分数据构建成测试集；所述训练集和测试集不存在交集且都含有正样本和负样本。

现实生活中往往能容易获得大量未标记的样本，这些样本虽然没有标签，但是它蕴含的信息量是非常大的而且对于我们来说这些信息也是非常重要。而有标记的样本却要耗费大量的人力、物力和财力。例如，在计算机辅助医学图像分析中,可以从医院获得大量的医学图像作为训练例,但如果要求医学专家把这些图像中的病灶都标识出来,则往往是不现实的。同样的情况也出现在预测蛋白质RNA结合物热点领域中。蛋白质RNA结合物热点在生物领域中及其重要，对于理解分子的识别机制和药物靶点的识别都具有重要的作用。然而，现实中这类热点被实验鉴定过的数据(有标签的数据)非常少，而且无人去搜集整理过。但是未被实验鉴定过的热点数据非常多，并且容易搜集到。

该步骤通过标签传播算法将训练集中的大量没有标签的数据预测出相对可靠的标签值。不仅扩充了训练集的数量，而且将大量关于蛋白质RNA复合物热点的信息包含了进来，有助于提高分类器的性能。同时，采用数据挖掘的方法对大量蛋白质RNA复合物残基进行预测，不仅预测精度高、方便、快速，而且节约成本。

在该步骤中，有关标签传播算法的可参照2013年1月(第30卷第1期)出版的《计算机应用研究》中的论文《标签传播算法理论及其用用研究综述》，作者为南京大学信息管理学院的张俊丽、常艳丽、师文，本发明不做赘述。

同时，测试集全部由有标签数据构成。因为有标签数据可信程度高，对预测的结果说服能力强。而且，测试集中的数据和训练集中的数据没有交集也没有重复，所以可以用来检验训练出来的分类器性能的好坏。

步骤S5、以序列特征、结构特征、残基相互作用网络特征和溶剂暴露特征作为特征集，将同一样本的各个特征值整合到一条特征序列中组合构造成样本的特征集合。

在该步骤中，序列特征就是采用蛋白质的序列进行计算而产生的特征结果，结构特征是通过对蛋白质结构进行分析和计算而产生的的结果。残基相互作用网络特征将目标残基和相邻残基联系了起来，克服了传统特征只能描述目标残基本身的局限性。溶剂暴露特征用于表示目标残基的溶剂暴露面积。

步骤S6、基于各样本的特征集合，以极度梯度提升算法、神经网络算法和极性随机数算法分别构造分类器以对每个样本的分类进行投票，然后对各分类器的投票结果进行加权平均得到蛋白质RNA结合面上残基是否为热点的预测结果。

该步骤即将多个分类效果好的单一算法集成起来作为一个集成算法进行分类。例如：各所述分类器的投票结果都为0到1之间的概率值，若三个概率值加权平均的最终结果大于或等于0.5，则判定为正样本，即热点，反之为非热点。

综上，本实施例所公开的预测蛋白质RNA结合物热点的方法，具有以下有益效果：

实施例2

与上述方法相对应的，本实施例公开一种预测蛋白质RNA结合物热点的系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例1中方法的步骤。

实施例3

与上述系统实施例同理，本实施例公开一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述实施例1中方法的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种预测蛋白质RNA结合物热点的方法，其特征在于，包括：

步骤S1、构建蛋白质RNA复合物的初始数据集；

条件1、单个蛋白质链中的残基溶剂可及性值减去复合物中相对应链中的目标残基的溶剂可及性值的差值大于

2.根据权利要求1所述的预测蛋白质RNA结合物热点的方法，其特征在于，各所述分类器的投票结果都为0到1之间的概率值，若三个概率值加权平均的最终结果大于或等于0.5，则判定为正样本，即热点，反之为非热点。

3.一种预测蛋白质RNA结合物热点的系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1或2所述方法的步骤。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现上述权利要求1或2所述方法的步骤。