CN111276182B

CN111276182B - Rna序列编码潜力的计算方法及系统

Info

Publication number: CN111276182B
Application number: CN202010075959.7A
Authority: CN
Inventors: 谌先敢; 阳小飞; 牛艳庆; 刘李漫; 李智
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2023-06-20
Anticipated expiration: 2040-01-21
Also published as: CN111276182A

Abstract

本发明公开了一种RNA序列编码潜力的计算方法及系统，涉及生物信息学领域。该方法包括以下步骤：对训练数据中的部分数据进行过采样，得到新训练数据；计算新训练数据的序列特征，将该序列特征及标签输入分类器进行训练；采用训练所得到的模型对测试数据的特征进行预测；将预测的标签与真实的标签进行比较，得到评估结果。本发明能实现对包含sORF数据的RNA序列编码潜力的准确预测。

Description

RNA序列编码潜力的计算方法及系统

技术领域

本发明涉及生物信息学领域，具体是涉及一种RNA(RibonucleicAcid，核糖核酸)序列编码潜力的计算方法及系统。

背景技术

人类基因组中只有不到2％的碱基对编码蛋白质，剩余部分的功能是未知的，在这些剩余的部分中，ncRNA(non-coding RNA，非编码RNA)是指未翻译成蛋白质的转录本，通过被认为在各种生物过程中起重要作用，且与癌症等疾病有关。

新一代的测序技术产生了大量的新转录本，估计这些转录本的编码潜力对于分析这些数据非常重要。区分cRNA(coding RNA，编码RNA)和ncRNA是一个二元分类问题，目前有许多很好的方法。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：目前的众多方法取得了很好的效果，但局限性也存在，即这些方法对包含sORF(small Open ReadingFrame，小开放阅读框)的数据的预测很差。ORF(Open Reading Frame，开放阅读框)是由起始密码子、终止密码子以及位于两者之间的核苷酸序列三个部分构成的一段核苷酸片段，sORF是指长度小于300核苷酸(nucleotide，nt)的ORF。编码RNA和非编码RNA均可能包含sORF，包含sORF的编码RNA和非编码RNA可以被称为小编码RNA(small coding RNAs)和小非编码RNA(small ncRNAs)。目前的经典方法在区分smallcoding RNAs和small ncRNAs方面的准确率不高。

发明内容

本发明的目的是为了克服上述背景技术的不足，提供一种RNA序列编码潜力的计算方法及系统，能够实现对包含sORF数据的RNA序列编码潜力的准确预测。

第一方面，提供一种RNA序列编码潜力的计算方法，包括以下步骤：

对训练数据中的部分数据进行过采样，得到新训练数据；

计算新训练数据的序列特征，将该序列特征及标签输入分类器进行训练；

采用训练所得到的模型对测试数据的特征进行预测；

将预测的标签与真实的标签进行比较，得到评估结果。

根据第一方面，在第一方面的第一种可能的实现方式中，所述训练数据中的部分数据为训练数据中ORF长度在151-303的转录本。

根据第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述对训练数据中的部分数据进行过采样，包括以下步骤：

对训练数据中ORF长度小于303的编码RNAs进行过采样，使之达到与ORF长度在151-303之间的非编码RNAs同样的数目。

根据第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述对训练数据中的部分数据进行过采样，还包括以下步骤：

在除ORF长度和ORF完整性以外的特征值上，加一定比例的扰动值，生成新的样本点。

根据第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，在除ORF长度和ORF完整性以外的特征值上，加一定比例的扰动值，数学公式如下：

F_new＝F+F_other*a，

其中，F_new是加入扰动之后的新特征值，F是原来的特征值，F_other是除ORF长度和ORF完整性以外的其他特征值，a是扰动的系数。

第二方面，提供一种RNA序列编码潜力的计算系统，包括：

过采样单元，用于：对训练数据中的部分数据进行过采样，得到新训练数据；

训练单元，用于：计算新训练数据的序列特征，将该序列特征及标签输入分类器进行训练；

预测单元，用于：采用训练所得到的模型对测试数据的特征进行预测；

评估单元，用于：将预测的标签与真实的标签进行比较，得到评估结果。

根据第二方面，在第二方面的第一种可能的实现方式中，所述训练数据中的部分数据为训练数据中ORF长度在151-303的转录本。

根据第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述过采样单元对训练数据中的部分数据进行过采样，包括以下步骤：

根据第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述过采样单元对训练数据中的部分数据进行过采样，还包括以下步骤：

根据第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，在除ORF长度和ORF完整性以外的特征值上，加一定比例的扰动值，数学公式如下：

F_new＝F+F_other*a，

与现有技术相比，本发明的优点如下：

(1)本发明对训练数据中的部分数据进行过采样，得到新训练数据；具体是对训练集合中ORF长度在151-303的转录本进行数据过采样的处理，使用新训练数据训练好的模型，能够实现对包含sORF数据的RNA序列编码潜力的准确预测。

(2)本发明还设计一种专门对RNA序列特征进行过采样的方法，用于RNA序列的过采样，能够进一步提高模型的性能。

附图说明

图1是本发明实施例中RNA序列编码潜力的计算方法的流程图。

图2是本发明实施例中对训练数据中的部分数据进行过采样的原理图。

图3是本发明实施例对训练数据进行过采样的详细流程图。

具体实施方式

现在将详细参照本发明的具体实施例，在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明，但将理解，不是想要将本发明限于所述的实施例。相反，想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意，这里描述的方法步骤都可以由任何功能块或功能布置来实现，且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

注意：接下来要介绍的示例仅是一个具体的例子，而不作为限制本发明的实施例必须为如下具体的步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。

参见图1所示，本发明实施例提供一种RNA序列编码潜力的计算方法(Codingpotential calculator method and system based on RNAsequence)，包括以下步骤：

对训练数据中的部分数据进行过采样，得到新训练数据；

采用训练所得到的模型对测试数据的特征进行预测；

将预测的标签与真实的标签进行比较，得到评估结果。

作为优选的实施方式，所述训练数据中的部分数据为训练数据中ORF长度在151-303的转录本。

作为优选的实施方式，所述对训练数据中的部分数据进行过采样，包括以下步骤：

作为优选的实施方式，所述对训练数据中的部分数据进行过采样，还包括以下步骤：

在除ORF完整性绝对值为1以外的特征值上，加一定比例的扰动值，生成新的样本点。

作为优选的实施方式，在除ORF完整性绝对值为1以外的特征值上，加一定比例的扰动值，数学公式如下：

F_new＝F+F_other*a，

本发明实施例还提供一种RNA序列编码潜力的计算系统，包括：

作为优选的实施方式，所述过采样单元对训练数据中的部分数据进行过采样，包括以下步骤：

作为优选的实施方式，所述过采样单元对训练数据中的部分数据进行过采样，还包括以下步骤：

作为优选的实施方式，在除ORF长度和ORF完整性以外的特征值上，加一定比例的扰动值，数学公式如下：

F_new＝F+F_other*a，

申请人认为：目前的方法在区分small code RNAs和smallncRNAs时的性能较差，主要原因在于训练集中，ORF长度在151-303的转录本中，small code RNAs的数量远小于small ncRNAs的数量。为了提高模型在区分small code RNAs和small ncRNAs上的性能，本发明实施例对训练集合中ORF长度在151-303的转录本进行数据过采样的处理，使这部分数据达到平衡。

参见图2所示，虚线椭圆内的是ORF长度位于151和303之间的转录本，样本空间表示为Hs，“+”代表正样本，“-”代表负样本，“*”代表经过过采样之后生成的新样本。其他数据组成的样本空间表示为Ho。在对Hs中的数据进行过采样之前，分类器得到的决策边界是其中的虚线，对Hs中的数据进行过采样之后，产生了新的决策边界。

本发明实施例的创新点有以下两点：

一、对训练集合中ORF长度在151-303的转录本进行数据过采样的处理，使这部分数据达到平衡；

二、另外设计一种专门对RNA序列特征进行过采样的方法。

全部数据被随机划分为两部分：训练数据和测试数据。整个分类过程遵循模式识别的框架，参见图1所示。对训练数据中的部分数据进行过采样，得到新训练数据，计算新训练数据的序列特征，将该序列特征及标签输入分类器进行训练，训练所得到的模型用于对测试数据的特征进行预测，预测的标签与真实的标签进行比较，得到评估结果。

序列特征包括：ORF长度、ORF覆盖率、ORF完整性、Fickett评分、Hexamer评分、预测肽的等电位点(pI)、预测肽的亲水性(Gravy)的Grand平均值、预测肽的稳定性估计等8个特征，全局描述特征CTD(composition，transition和distribution)包括核苷酸组成、核苷酸转换和核苷酸分布等30个特征，全部特征值包含这38个特征。

本发明实施例所采用的分类器是XGBoost，XGBoost是ExtremeGradient Boosting的简称，该算法是gradient boosting decision tree的改进，XGBoost的优势较多，例如：加入了正则项防止过拟合、支持并行化、Shrinkage技术等等。

对训练数据中的部分数据进行过采样，得到新训练数据，详细流程参见图3所示。

训练数据包含编码RNAs和非编码RNAs。按照ORF长度是否大于303的条件，编码RNAs分为ORF长度小于303的数据和其他ORF长度的数据，非编码RNAs分为ORF长度位于151-303之间的数据和其他长度的数据。对ORF长度小于303的编码RNAs进行过采样，使之达到与ORF长度位于151和303之间的非编码RNAs同样的数目。这样ORF长度小于303的编码RNAs和ORF长度位于151-303之间的非编码RNAs的数目达到平衡，这些数据和其他长度的编码RNAs和非编码RNAs一起形成新的训练数据。这些新训练数据的特征及标签用于训练分类器。

本发明实施例在对训练集合中ORF长度在151-303的转录本进行数据过采样的处理的基础上，针对RNA序列特征，还设计了一种专门针对RNA序列特征的过采样方法，用于RNA序列的过采样，以进一步提高模型的性能。本发明实施例的思想是在原来的特征值基础上加上扰动值生成新的样本点，原来的特征值包含38个特征，并不是每个特征都适合加扰动值。ORF长度本身是整数，ORF完整性的绝对值为1(即ORF完整性的值为1或者-1)的特征值不适合加扰动，本发明实施例在除ORF长度和ORF完整性之外的其他特征值上加上一定比例的扰动，数学公式如下：

F_new＝F+F_other*a

其中，F_new是加入扰动之后的新特征值，F是原来的特征值，F_other是除ORF长度和ORF完整性以外的其他特征值，a是扰动的系数，a在此可以设置为0.005，该参数可以调节。

本发明实施例与现有的CPPred(coding potential prediction)方法在四个测试集合上进行比较，所用的评估指标是敏感性(sensitivity，SN)、特异性(specificity，SP)、准确率(accuracy，ACC)、精度(precision，PRE)、F分数(F-score)、AUC(Area Under Curve)和MCC(Matthews Correlation Coefficient)。

为了评估本方法的性能，下面在四个测试集合上将本发明实施例的方法与CPPred可以进行比较。测试集合1是来自人类的经过去冗余之后的数据。测试集合2包括从测试集合1挑选出来的sORF长度小于303的序列。测试集合3是来自老鼠数据，测试集合4包括从测试集合3挑选出来的sORF长度小于303的序列。

表1、测试集合1上两种方法的比较表

	SP(％)	SN(％)	PRE(％)	ACC(％)	F-score	AUC	MCC
								CPPred	97.04	95.44	97.10	96.23	0.963	0.992	0.925
本方法	96.75	96.58	96.86	96.66	0.967	0.995	0.933

表2、测试集合2上两种方法的比较表

	SP(％)	SN(％)	PRE(％)	ACC(％)	F-score	AUC	MCC
								CPPred	97.97	63.34	96.90	80.66	0.766	0.928	0.654
本方法	97.81	71.14	97.02	84.48	0.821	0.953	0.715

表3、测试集合3上两种方法的比较表

	SP(％)	SN(％)	PRE(％)	ACC(％)	F-score	AUC	MCC
								CPPred	97.70	95.57	98.48	96.40	0.970	0.993	0.926
本方法	97.29	96.21	98.22	96.63	0.972	0.994	0.930

表4、测试集合4上两种方法的比较表

	SP(％)	SN(％)	PRE(％)	ACC(％)	F-score	AUC	MCC
								CPPred	97.00	46.81	92.96	74.00	0.623	0.906	0.518
本方法	96.9	51.06	93.30	75.89	0.660	0.905	0.551

在上述的各种评估指标中，MCC是比较全面的指标，ACC是比较重要的指标，这两个指标的数组越大，说明算法的性能越好。在这四个测试集合上，本发明实施例的方法的MCC和ACC指标均优于CPPred方法。从表2和表4可以看出，在测试集合2和测试集合4上，本发明实施例的方法比CPPred方法提高较多，而表1和表3中的结果说明，在测试集合1和测试集合3上，本发明实施例的方法比CPPred好，但提高得不太多。这是因为，本发明实施例的方法适合处理sORF长度小于303的序列，而这样的序列在整个测试集合中所占的比例并不高，所以，虽然本发明实施例的方法提高了sORF长度小于303的序列的分类精度，有助于整个测试集合的分类精度的提升，但是不会大幅度提高整体的分类精度。

从这四个表格可以看出，本发明实施例的方法在性能上超过目前最好的方法CPPred，本发明实施例的方法中对部分数据进行过采样的技术可以提高RNA序列编码潜力的预测性能。

基于同一发明构思，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的所有方法步骤或部分方法步骤。

本发明实现上述方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

基于同一发明构思，本申请实施例还提供一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法中的所有方法步骤或部分方法步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Pr ocessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如声音播放功能、图像播放功能等)；存储数据区可存储根据手机的使用所创建的数据(例如音频数据、视频数据等)。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种RNA序列编码潜力的计算方法，其特征在于，包括以下步骤：

对训练数据中的部分数据进行过采样，得到新训练数据；

采用训练所得到的模型对测试数据的特征进行预测；

将预测的标签与真实的标签进行比较，得到评估结果；

所述训练数据包含编码RNAs和非编码RNAs，按照ORF长度是否大于303的条件，编码RNAs分为ORF长度小于303的数据和其他ORF长度的数据；非编码RNAs分为ORF长度位于151-303之间的数据和其他长度的数据；

所述对训练数据中的部分数据进行过采样，包括以下步骤：

对训练数据中ORF长度小于303的编码RNAs进行过采样，使之达到与ORF长度在151-303之间的非编码RNAs同样的数目；

所述对训练数据中的部分数据进行过采样，还包括以下步骤：

在除ORF长度和ORF完整性以外的特征值上，加一定比例的扰动值，生成新的样本点；

在除ORF长度和ORF完整性以外的特征值上，加一定比例的扰动值，数学公式如下：

F_new＝F+F_other*a，

2.一种RNA序列编码潜力的计算系统，其特征在于，包括：

评估单元，用于：将预测的标签与真实的标签进行比较，得到评估结果；

所述对训练数据中的部分数据进行过采样，包括以下步骤：

所述过采样单元对训练数据中的部分数据进行过采样，还包括以下步骤：

F_new＝F+F_other*a，