CN109599149B

CN109599149B - 一种rna编码潜能的预测方法

Info

Publication number: CN109599149B
Application number: CN201811252397.8A
Authority: CN
Inventors: 刘士勇; 童晓雪
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2020-09-08
Anticipated expiration: 2038-10-25
Also published as: CN109599149A

Abstract

本发明属于基因注释领域，更具体地，涉及一种RNA编码潜能的预测方法。该方法(命名为CPPred)通过整合多个序列特征，特别是本发明使用CTD来描述RNA的全局分布；然后，以候选特征之间的冗余度和相关性作为标准，并结合递增特征选择方法，从中选取最佳特征集合作为特征向量；通过支持向量机(SVM)建立预测模型；最后根据待预测的RNA序列的特征向量，获取预测结果。本发明提供的预测方法在预测长的RNA序列和当前已有方法结果相当(准确度达到90％以上)，然而在短的RNA序列预测上，该方法明显优于当前已有的方法。

Description

一种RNA编码潜能的预测方法

技术领域

本发明属于基因注释领域，更具体地，涉及一种RNA编码潜能的预测方法。

背景技术

近几年来，下一代测序技术产生了成千上万新的转录本，于是快速且准确地区分编码RNAs和非编码RNAs(ncRNAs)成为分析这些数据的关键。在生物体中，ncRNA虽然不能编码蛋白质但是也具有重要的生物功能，比如基因调控、基因沉默、RNA修饰和加工。

在编码潜能的预测领域，已经公开了一种使用无比对逻辑回归模型的编码潜能评估工具CPAT。其使用4个序列特征：开放阅读框的长度、开放阅读框的覆盖率、Fickett打分和六聚体打分。此预测领域中，还公开了 CPC2，其也只是使用4个序列特征：开放阅读框的长度、Fickett分数，开放阅读框的完整性和等电点。另外一种工具PLEK，使用改进的k-mer策略预测长链非编码RNA和编码RNA。虽然这些工具可以很好的区分长的编码 RNA和ncRNA，但是对于sORF的编码潜能的预测精度较低，故在预测sORF 上仍存在很大不足。

目前，越来越多的sORF的数据被发现，然而具有意义和功能的sORFs 的数目比较少。2010年，sORF finder被提出，它是一种专门为预测sORF 设计的程序，它只使用六聚体特征来预测sORF的编码。然而，只使用一个特征得到的预测结果会有很高的假阳性率。所以，在sORF预测方面仍然是一个悬而未决的问题。故本发明提出一种RNA编码潜能的预测方法CPPred，不仅能够很好的预测长的RNA序列，而且对于短的RNA序列的预测也有较高的准确性。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种RNA编码潜能的预测方法，该方法(命名为CPPred)通过整合多个序列特征，特别是本发明使用CTD来描述RNA的全局分布；然后，以候选特征之间的冗余度和相关性作为标准，并结合递增特征选择方法，从中选取最佳特征集合作为特征向量；通过支持向量机(SVM)建立预测模型；最后根据待预测的RNA 序列的特征向量，获取预测结果。本发明提供的预测方法在预测长的RNA 序列和当前已有方法结果相当(准确度达到90％以上)，然而在短的RNA序列预测上，该方法明显优于当前已有的方法。由此解决现有技术的sORF的编码潜能的预测方法和工具存在的预测准确度不高以及存在过拟合风险的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种RNA编码潜能的预测方法，包括如下步骤：

(1)训练集中的RNA样本候选特征集合的获取：所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征；

(2)最佳特征集合的获取：根据步骤(1)所述候选特征集合中各特征之间的相关性和冗余度选择方法获取最佳特征集合；

(3)使用步骤(2)获得的最佳特征集合，对训练集中所有的RNA样本采用机器学习方法进行训练，获取RNA编码潜能预测模型；

(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型，得到待预测RNA序列的预测结果。

优选地，所述CTD编码特征表示全局转录本序列描述符，其中：

第一个描述符C用于描述转录本序列中每个核苷酸的百分比组成；

第二个描述符T用于描述相邻位置之间四个核苷酸转换的频率百分比；

第三个描述符D用于描述每个核苷酸转录序列上的五个相对位置，分别为0、25％、50％、75％和100％，其中0代表第一个相对位置，100％代表最后一个相对位置。

优选地，步骤(2)具体为：采用最大相关最小冗余方法对所述候选特征集合中的特征进行排序，结合递增特征选择方法使用交叉验证方法进行训练和测试，获取样本的评估指标σ，选取σ最大时的特征集合作为最佳特征集合。

优选地，所述评估指标σ为马修相关系数。

优选地，步骤(2)具体为：对步骤(1)所述候选特征集合中各特征采用主成分分析PCA选择方法获取最佳特征集合。

优选地，步骤(3)获得RNA编码潜能预测模型以后，将测试集中的RNA 序列对应的最佳特征集合代入到所述的预测模型，得到测试集中RNA序列的预测结果，以验证所述预测模型的准确性。

优选地，所述训练集用于建模，所述测试集用于检测模型的准确性，使用时对所述训练集内部进行去冗余操作，以减少过拟合风险；同时训练集和测试集之间也进行去冗余操作。

优选地，步骤(3)所述机器学习方法为支持向量机法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明的RNA编码潜能预测的方法CPPred不依赖于RNA的长度，通过引入CTD编码的特征，CPPRed既能区分长的编码RNAs和ncRNAs，又能很好的区分短的编码RNAs和ncRNAs；在短序列预测上更有优势，相较于现有技术的短序列预测方法准确度高。

(2)本发明首次使用了CTD编码的转录本特征来预测真核生物的RNA的编码潜能，再结合现有工具的特征开发的一种新的预测编码潜能的工具。该工具大大降低了物种依赖性，具有良好的物种普适性。

(3)本发明RNA编码潜能的预测方法通过对选择的训练集和测试集进行去冗余操作，并通过精心选择特定的候选特征集合，再对候选特征进行排序，获得最佳特征集合，利用最佳特征集合进行模型的构建以及待测序列的预测，本发明RNA编码潜能预测工具没有过度拟合，也不存在过度拟合的风险。

(4)在确定最终的预测模型时，以马修相关系数作为评估指标，比通过准确度评估更具说服力，建立的预测模型更为优越。

附图说明

图1为本发明RNA编码预测方法流程图；

图2为本发明数据集的构建流程图；

图3为本发明中CTD编码的特征的示例；

图4为本发明中候选特征集合中特征的排名示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明公开了一种RNA编码潜能的预测工具CPPred，如图1所示，其原理步骤包括：

(1)训练集中的RNA样本候选特征集合的获取；选取来自RNA序列和蛋白质序列的多个特征，其包含之前开发的CPAT(Wang et al.,2013,CPAT: Coding-PotentialAssessment Tool using an alignment-free logistic regression model.NUCLEICACIDS RES)和CPC2(Kang et al.,2017,CPC2: a fast and accurate coding potentialcalculator based on sequence intrinsic features.NUCLEIC ACIDS RES)软件的特征。本发明所述候选特征集合包括开放阅读框的长度、开放阅读框的覆盖率、六聚体分数、Fickett分数(通过核苷酸组成和密码子使用偏差的组合效应来计算得到)、开放阅读框的完整性、多肽的等电点、多肽的亲水性、多肽的不稳定性以及CTD编码特征；本发明特别在候选特征集合中增加了CTD编码的特征，其是首次应用到真核生物预测RNA编码潜能的特征。

本发明数据集包括测试集和训练集，训练集用于建模，测试集用于检测模型的准确性。本发明选取训练集或测试集时，训练集内部进行去冗余操作，以减少过拟合风险，得到更普适的模型。同时训练集和测试集之间要也进行去冗余，可避免训练过的数据用于测试，失去测试的意义。然而，之前预测编码潜能的工具在构建数据的时候却没有去冗余操作，这样可能存在过拟合的风险。

一些实施例中，如图2所示，将RefSeq数据库中所有人类的mRNA数据作为阳性样本，随机选取2/3作为训练集，剩余的1/3作为测试集。将 Ensembl数据库中所有人类的非编码RNA数据作为阴性样本，首先，删除没有注释来源的数据；然后，在剩余的数据中随机选取2/3作为训练集，剩余的1/3作为测试集。训练集内部使用CD-hit方法按照序列一致性阈值大于或者等于99％去冗余。同时,为了确保训练集和测试集之间也是非冗余的，使用CD-hit方法对训练集和测试集按照序列一致性阈值大于或等于80％进行去冗余操作。这样，得到人类测试集，其包括8557条编码RNA序列和8241 条非编码RNA序列。随后，从人类测试中的编码RNA中提取出长度小于303 个核苷酸的ORF片段的RNA序列。同时，将来自ncRNAs的相当数量的相当长的ncRNA随机筛选出来。可以得到，短序列的测试集，包括641条编码的RNA序列和641条非编码的RNA序列。

CTD是预测蛋白质的折叠时被提出的，其是描述全局蛋白质序列的描述符。本发明中，CTD用于描述全局转录本序列的描述符。

RNA是含有四种核苷酸A，T，G和C的序列。第一个指数C描述了转录本序列中每个核苷酸的百分比组成。第二描述符T描述了相邻位置之间四个核苷酸转换的百分比频率。随后，计算每个核苷酸沿着转录本序列的五个相对位置，其中0(第一个)，25％，50％，75％和100％(最后一个)，以描述最后的描述符D。

CTD编码的特征的详细过程如图3所示，以一条40个碱基的RNA序列为例，该序列包括4个腺嘌呤(As)，4个胸腺嘧啶(Ts)，12个鸟嘌呤 (Gs)和20个胞嘧啶(Cs)。对于As，第一描述符C是4/40＝10.0％，对于Bs，4/40＝10.0％，对于Gs，12/40＝30.0％，对于Cs，20/40＝50％。对于第二描述符T，在A和T之间存在零转变，A和G之间存在四个转变， A和C之间有三个转变，T和G之间有三个转变，T和C之间有三个转变，G 和C之间有四个转变。因此，这些转变的频率分别为0/39＝0.0，4/39＝ 0.103，3/39＝0.077，3/39＝0.077，3/39＝0.077和16/39＝0.410。第一个，25％，50％，75％和100％的As分别位于1,1,7,25和40个残基上，则As的D描述符是1/40＝0.025，1/40＝0.025，7/40＝0.175,25 /40＝0.625和40/40＝1.0。同样，Ts的D描述符是0.075，0.075， 0.10，0.450和0.50，对于Gs是0.125,0.375,0.650,0.825和0.925，对于Cs是0.050,0.275,0.425,0.70和0.975。如图4所示，由CTD编码的特征T2和C0在预测编码潜能中发挥着重要的作用。

(2)最佳特征集合的获取：根据步骤(1)所述候选特征集合中各特征之间的相关性和冗余度选择方法获取最佳特征集合。

一些实施例中，步骤(2)具体为：采用最大相关最小冗余方法(mRMR 方法)对所述候选特征集合中的特征进行排序，结合递增特征选择方法使用交叉验证方法进行训练和测试，获取样本的评估指标σ，选取σ最大时的特征集合作为最佳特征集合。评估指标σ可以为马修相关系数，也可以为其他常规评估指标，但优选马修相关系数。马修相关系数为一个综合的评估指标，以马修相关系数作为评估指标，比通过准确度评估更具说服力，建立的预测模型更为优越。

递增特征选择方法，一些实施例中具体为：首先选择使用mRMR方法排名第一的特征进行训练建立模型，计算其10倍交叉验证的评估性能，然后选用排名在前2个的特征进行建模，也计算10倍交叉验证的性能，以此类推，每增加一个排名在前面的特征，就得到一个模型，直至特征全部添加完毕。

一些实施例中，采用最大相关最小冗余方法(mRMR方法)对训练样本集的候选特征集合中的特征进行排序后，结合递增特征选择方法使用十倍交叉验证方法进行训练和测试，获取排序后38个特征递增叠加的马修相关系数MCC₁，MCC₂…MCC₃₈，其分别表示1个，2个…38个特征递增叠加后对应的马修相关系数。选取MCC最大时对应的特征集合作为最佳特征集合。将 MCC₁，MCC₂…MCC₃₈的值作为纵坐标，将特征个数作为横坐标，作图如图4所示，可以看出，采用上述方法排序后，38个特征中前七个特征，包括ORF 的完整度、ORF的覆盖率、多肽的稳定性、CTD编码的特征(T2，C0)、多肽的等电点和ORF的长度递增叠加马修相关系数增长速率较大，而后31个特征递增叠加马修相关系数增长速率平缓，说明在候选特征集合中，ORF的完整度、ORF的覆盖率、多肽的稳定性、CTD编码的特征(T2，C0)、多肽的等电点和ORF的长度是预测编码潜能中的重要特征，这样的组合特征对于编码潜能的预测具有重要作用。进而也说明本发明选择的CTD编码特征 T2和C0在RNA编码潜能预测中的作用不容忽视。

如图4所示，当特征个数是37的时候，MCC值最大(MCC＝0.953)，故选择前37个特征作为最佳特征集合。

对步骤(1)所述候选特征集合中各特征也可采用主成分分析PCA选择方法获取最佳特征集合，其能够获得和上述方法相同的最佳特征集合的特征数目。

(3)使用步骤(2)获得的最佳特征集合，对训练集中所有的RNA样本采用机器学习方法进行训练，获取RNA编码潜能预测模型；一些实施例中机器学习方法为支持向量机法(SVM)。

(4)将测试集中的RNA序列对应的最佳特征集合代入到所述的预测模型，得到测试集中RNA序列的预测结果，以验证所述预测模型的准确性。

(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型，得到待预测RNA序列的预测结果。SVM方法默认阈值为0.5，模型输出值大于或等于该阈值，表明该待测RNA序列为可编码序列，否则为非编码序列。

方法评估：

将测试集中的RNA序列对应的最佳特征集合代入到上述步骤中所建的预测模型，得到待预测样本的预测结果，本发明使用多种评估指标，分别包括灵敏度(SN)、特异性(SP)、精确度(PRE)、准确度(ACC)、F-measure、马修相关系数(MCC)、受试者操作特性曲线下的面积(AUC,area under the receiver operation characteristic curve)，具体如下：

其中，TP为真阳性，指阳性数据中被正确预测为阳性的个数；FN为假阴性，指阳性数据中被错误地预测为阴性的个数；TN为真阴性，指阴性数据中被正确地预测为阴性的个数；FP为假阳性，指阴性数据中被错误地预测为阳性的个数。

从MCC的定义来看，它是预测结果的一种综合评估。对于AUC，其是以灵敏度为纵坐标，特异性为横坐标绘制的曲线与x轴围成的面积。它考虑在不同阈值下对应的SN和SP值，故AUC也是一种对预测结果进行综合评估的指标。

实施例

本发明使用CPPred测试了人类，小鼠，斑马鱼和酿酒酵母的数据，并与现有的CPAT、CPC2、PLEK、sORF finder工具测试结果进行比较。

在人类测试集(包括长序列和短序列)和人类sORF的测试集上，不同预测工具预测性能比较结果见表1和表2。从表1和表2可以看出，不论是人类测试集还是人类sORF的测试集，CPPred均优于CPAT和CPC2，然而略差于PLEK。这是因为PLEK的训练集和人类测试集之间有冗余。

表1：CPPred与CPAT、CPC2、PLEK人类的测试集上的比较

表2：CPPred与CPAT、CPC2、PLEK、sORF finder在人类sORF的测试集上的比较

在小鼠测试集和小鼠sORF的测试集上，测试结果见表3和表4。从表 3和表4可以看出，CPPred都优于其他几种方法(表格3和4)。

表3：CPPred与CPAT、CPC2、PLEK在小鼠测试集上的比较

表4：CPPred与CPAT、CPC2、PLEK、sORF finder在小鼠sORF测试集上的比较

在斑马鱼测试集和斑马鱼sORF的测试集上，测试结果见表5和表6。从表5和表6可以看出，CPPred都优于其他几种方法。

表5：CPPred与CPAT、CPC2、PLEK在斑马鱼测试集上的比较

表6：CPPred与CPAT、CPC2、PLEK、sORF finder在斑马鱼sORF测试集上的比较

在酿酒酵母测试集和酿酒酵母sORF的测试集上，测试结果见表7和表8。从表7和表8可以看出，CPPred都优于其他几种方法。

表7：CPPred与CPAT、CPC2、PLEK在酿酒酵母测试集上的比较

表8：CPPred与CPAT、CPC2、PLEK、sORF finder在酿酒酵母测试集上的比较

另外，作为对比，使用CTD特征训练的模型(OCTD-Model)和只使用开放阅读框的长度，开放阅读框的覆盖率，六聚体分数，Fickett分数，开放阅读框的完整性，多肽的等电点，多肽的亲水性，多肽的不稳定性，即非CTD编码的特征训练的模型(NCTD-Model)，然后在人类sORF数据上进行测试。这里CPPred在人类sORF数据的性能也列在表9中。结果表明 CTD编码的特征更有利于短的RNA序列的预测。

表9：在人类sORF的测试集上OCTD-Model，NCTD-Model和CPPred的性能

从上述表1至表8可以看出，本发明的CPPred在人类，小鼠，斑马鱼和酿酒酵母测试集上，具有高的准确性，相比于CPAT，CPC2和PLEK工具的准确性有微弱的提高，然而，本发明的CPPRed在这些物种的短的RNA序列上具有特别的优势，比之前开发的工具有一个比较大的提升。这可能是因为，本发明使用了CTD编码的特征，而CTD编码的特征与RNA的二级结构具有相关性，RNA的二级结构在RNA编码中起着重要作用，故CPPred捕获了二级结构的特征，从而在预测性能上更具有特别的优势。

本发明中CPPred是在人类数据上进行的训练，在多个物种的测试集上进行了测试，如表格1-8结果显示，CPPred预测准确性相对来说都比较高，故该工具大大降低了物种依赖性，具有良好的物种普适性。这可能是在训练集构建的时候，进行了去冗余操作，避免了过拟合的情况，得到的模型不具有某种偏好性，得到了更普遍适用性的模型。

本发明为了进一步评估CPPred，于是对最近新发现的人类编码RNA进行了测试，从2017年11月27日到2018年4月3日，RefSeq数据库中获得了74条新的人类编码RNA序列，其中包括5条短的RNA序列。CPPred成功预测了74条新的人类编码RNA序列中的67条序列，成功预测了新的人类短的RNA序列中的4条。由此可以看出，CPPred具有较强的预测能力。

Claims

1.一种RNA编码潜能的预测方法，其特征在于，包括如下步骤：

(4)将待预测RNA序列对应的最佳特征集合代入到步骤(3)中所述的预测模型，得到待预测RNA序列的预测结果；

所述CTD编码特征表示全局转录本序列描述符，其中：

第三个描述符D用于描述每个核苷酸在转录本序列上的五个相对位置，分别为0、25％、50％、75％和100％，其中0代表第一个相对位置，100％代表最后一个相对位置。

2.如权利要求1所述的预测方法，其特征在于，步骤(2)具体为：采用最大相关最小冗余方法对所述候选特征集合中的特征进行排序，结合递增特征选择方法使用交叉验证方法进行训练和测试，获取样本的评估指标σ，选取σ最大时的特征集合作为最佳特征集合；所述评估指标σ为马修相关系数。

3.如权利要求1所述的预测方法，其特征在于，步骤(2)具体为：对步骤(1)所述候选特征集合中各特征采用主成分分析PCA选择方法获取最佳特征集合。

4.如权利要求1所述的预测方法，其特征在于，步骤(3)获得RNA编码潜能预测模型以后，将测试集中的RNA序列对应的最佳特征集合代入到所述的预测模型，得到测试集中RNA序列的预测结果，以验证所述预测模型的准确性。

5.如权利要求4所述的预测方法，其特征在于，所述训练集用于建模，所述测试集用于检测模型的准确性，使用时对所述训练集内部进行去冗余操作，以减少过拟合风险；同时训练集和测试集之间也进行去冗余操作。

6.如权利要求1所述的预测方法，其特征在于，步骤(3)所述机器学习方法为支持向量机法。