CN109215740A

CN109215740A - 基于Xgboost的全基因组RNA二级结构预测方法

Info

Publication number: CN109215740A
Application number: CN201811314747.9A
Authority: CN
Inventors: 肖侬; 柯耀斌; 饶家华; 杨跃东; 陈志广; 卢宇彤
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2019-01-15

Abstract

本发明提供基于Xgboost的全基因组RNA二级结构预测方法，包括：获取RNA序列和RNA序列中碱基位点配对的可能性值；配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本；配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本；将正负样本组合成的样本数据集划分为训练集和测试集，将训练集和测试集加载至基于Xgboost算法建立的机器学习模型，对机器学习模型进行训练与测试；利用训练与测试后的机器学习模型进行RNA二级结构的预测。利用本发明得到RNA在形成二级结构时，每一个碱基位点会形成配对的概率分数，根据概率分数，能为下一步二级结构的形成提供判断依据。

Description

基于Xgboost的全基因组RNA二级结构预测方法

技术领域

本发明涉及生物信息学研究领域，具体涉及基于Xgboost的全基因组RNA二级结构预测方法。

背景技术

RNA二级结构预测是分子生物学的一个重要研究领域,对于推动生命科学的发展具有极其重要的意义。RNA分子结构由三级结构组成:一级结构、二级结构、三级结构。RNA二级结构是指RNA序列由自身回折形成的茎环结构，是一种介于一级结构和三级结构之间的结构,且存储较多高级结构信息，因此RNA二级结构的研究成为生物信息学领域的重要研究问题。二级结构的确定主要有两种方法：物理化学的实验方法和数学计算的预测方法。实验方法主要包括X射线晶体衍射和核磁共振(NMR)。虽然实验方法得到的结果精确，但由于RNA分子降解速度快，难以结晶，故通过等实验方法测定RNA分子的结构很不容易，费时费力，代价高昂，无法满足今天海量RNA二级结构预测的需求。另外实验方法只能测定包含较少碱基的RNA序列的二级结构，而面对分子量较大的RNA时，实验方法的精确度会急剧下降。

为了解决上述实验方法的弊端，人们开始着手借助数学计算方法，并结合计算机从理论上去预测RNA的二级结构，然后做进一步的验证。当只给定RNA的一级序列而缺少先验知识,传统的RNA二级结构预测方法一般采用最小自由能模型。该模型假设所有RNA都会折叠成一个具有最小自由能的二级结构，而二级结构中的每段模体(motif)都有相应的自由能计算方法，一般茎区的自由能为负值，环区自由能为正，茎区越长其自由能越小。因此可以近似的认为，配对的碱基使自由能降低，没有形成配对的碱基则会使自由能升高。

申请号为CN200910218023.9的专利公开了基于碱基片段编码和蚁群算法的RNA序列二级结构预测方法，属生物信息学研究领域，该发明将RNA序列重新编码，使RNA序列以编码序列的形式存储于SRAM中，并根据匹配表得到长度为n的茎区集合，对所有长度为n的茎区采用向右延伸的策略得到所有长度大于n的茎区集合，将得出的相应于RNA序列的所有可能的茎区集合存储于SDRAM中等待调用，然后通过ARM控制芯片随机选取某一茎区作为蚁群算法的初始结点，并利用轮盘赌的策略选择下一茎区，直至可选择的茎区集合为空，最后计算每只蚂蚁相应的二级结构的最小自由能，记录并更新能量最小的二级结构，按照给定的规则更新茎区之间的信息素值，并再次选取初始结点进行循环运算，直至达到给定的迭代步数或满足循环退出的条件，以括号法的模式输出RNA序列二级结构到LCD中，最终得到自由能最小的二级结构。但是，实验证明，真实结构往往不是自由能最小的二级结构。而且，自由能迄今为止还没有完全精确的计算规则。虽然可人为设定一个阈值将目标输出。但实际上，人为阈值设定，往往会带来输出目标过多或过少的问题，从而极大影响准确率等。

发明内容

为解决上述问题，本发明提供基于Xgboost的全基因组RNA二级结构预测方法，该方法中算法的准确性和运算效率就会得到很大的提高。

该技术方案为：

基于Xgboost的全基因组RNA二级结构预测方法，包括步骤：获取RNA序列和所述RNA序列中碱基位点配对的可能性值；配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本；配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本，所述正样本、负样本组合成样本数据集；将样本数据集划分为训练集和测试集，将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型，对机器学习模型进行训练与测试；利用训练与测试后的机器学习模型进行RNA二级结构的预测。

本发明使用机器学习模型，能有效的提取输入信息的特征，包括许多未发现的隐藏特征规律。本发明将已测定二级结构的RNA样本作为输入信息，已测定二级结构的RNA样本包含了两个重要信息，一是RNA的序列结构，二是这个RNA的序列结构中碱基位点配对的可能性值。机器学习模型将在已测定二级结构的RNA样本中学到的规律大规模地应用到其他未知结构的序列预测中，预测其他未知结构中每一个碱基位点会形成配对的概率分数。本发明的机器学习模型是基于Xgboost算法建立的，首先将已测定二级结构的RNA样本进行“简化”，简化成序列片段，序列片段中包括了配对的可能性值低的碱基或者配对的可能性值高的碱基，根据其中碱基的配对的可能性值高与低，取配对的可能性值高和可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段被分为正样本与负样本，正负样本的内容取决于学习的问题，学习的问题是RNA结构中每一个碱基位点形成配对的结果，每一个碱基位点形成配对或者碱基位点的配对的可能性高则为正样本。每一个碱基位点没有形成配对或者碱基位点的配对的可能性低则为负样本。Xgboost适用于变量数较少的表格数据，并且考虑数据特征较为稀疏的情况，而且其分布式的架构，能为后续大规模的序列预测提供高效的支持。对于已测定二级结构的RNA样本较少，输入数据较为稀疏等特点，显然Xgboost会更适用于该数据，而实验结果也表明，在大部分数据集上，该机器学习模型会获得更好的预测效果。将已测定二级结构的RNA样本进行“简化”以及Xgboost算法的选择使得本发明的准确性和运算效率就会得到很大的提高。

进一步地，配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本；配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本的步骤包括：通过独热编码的方式对RNA序列编码；编码后的所述RNA序列中碱基位点配对的可能性值从高到低排序，筛选出前a个碱基作为配对的可能性值高的碱基，筛选出后b个碱基作为配对的可能性值低的碱基；可能性值高的碱基与其上游的长度为c的碱基序列、下游的长度为c的碱基序列组成序列片段，序列片段作为正样本并赋予标签“1”；可能性值低的碱基与其上游的长度为d的碱基序列、上游的长度为d的碱基序列组成序列片段，序列片段作为负样本并赋予标签“0”。以独热编码来表征序列基本组成而使得输入数据较为稀疏，数字编码形式的数据更加适合Xgboost，将已测定二级结构的RNA样本进行“简化”的方法是取可能性值高或低的碱基与其上游一定长度的碱基序列、下游一定长度的碱基序列组成序列片段，该方法方便简单。

进一步地，所述a＝b。正样本数量与负样本数量比值为1：1，正负样本分布均衡，能提高机器学习模型的准确性。

进一步地，通过独热编码的方式对RNA序列编码的步骤包括：RNA序列由腺嘌呤A、尿嘧啶U、鸟嘌呤G、胞嘧啶C四种碱基构成；对四种碱基进行编码，具体为；RNA序列中的腺嘌呤A＝(1,0,0,0)，尿嘧啶U＝(0,1,0,0)，胞嘧啶C＝(0,0,1,0)，鸟嘌呤G＝(0,0,0,1)，RNA序列的开头与结尾缺少碱基的部分以(0,0,0,0)作为补长。

进一步地，将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型，对机器学习模型进行训练与测试的步骤包括：利用训练集对机器学习模型进行训练；利用测试集对机器学习模型测试其预测的RNA序列上每一个碱基位点会形成配对的概率分数；

所述概率分数的预测模型为：

其中，K为树的总个数，f_k为第k棵决策树的评估函数，为样本数据x_i的预测结果；

预测模型的目标函数为：

其中，y＝(y₀,y₁,…,y_i,y_n)是作为训练集的RNA序列中每一个序列片段的特征向量x＝(x₀,x₁,…,x_n)所对应的真实类别，0代表未配对的碱基位点，1代表配对的碱基位点，为样本数据x_i的训练误差，为损失函数，Ω(f_k)表示第k棵树的正则项。

与现有技术相比，本发明的有益效果在于，在已测定二级结构的RNA样本较少的条件下，采用Xgboost算法建立的机器学习模型进行模型搭建与训练、测试，通过Xgboost模型的训练、预测，可以得到最终RNA在形成二级结构时，每一个碱基位点会形成配对的概率分数，根据这一概率分数，能为下一步二级结构的形成提供判断依据。

附图说明

图1为本发明机器学习模型的训练流程图。

其中RNA Sequence表示RNA序列，Windows selection表示选择窗口，one-hotencoding表示独热编码，Input Features表示输入特征；windows size表示窗口大小，eXtreme Gradient Boosting Model表示基于Xgboost算法建立的机器学习模型，TrainingModel表示训练模型，Select the best model表示选择最佳模型，Selection表示分类器选择，Results of prediction表示预测结果。

具体实施方式

结合附图对本发明进行进一步说明。

本方法希望通过对最基本的序列结构进行有监督学习，从中获得一级序列形成二级结构的关键特征，辅助判断由一级序列结构如何形成二级结构。

如图1所示，首先获取数据集。数据集来源于生物学实验的结果，从生物学实验的结果中获得RNA序列和所述RNA序列中碱基位点配对的可能性值。所用到的数据集包括三个，分别标记为PARS-human，PARS-yeast，PDB-Xray数据集。具体的，PARS全称“ParallelAnalysis of RNA Structure(PARS)”，是2010年提出的通过生物学实验测定RNA二级结构的实验方法，PARS-Human指代在人基因上进行实验测定的数据集，PARS-Yeast指代在酵母基因上进行实验测定的数据集。PDB-Xray指的是RNA Strand数据库上对PDB数据库的RNA进行X射线衍射测定的RNA二级结构的数据集。

其次，窗口选择出RNA序列，通过独热编码的方式对RNA序列编码，RNA序列中的腺嘌呤A＝(1,0,0,0)，尿嘧啶U＝(0,1,0,0)，胞嘧啶C＝(0,0,1,0)，鸟嘌呤G＝(0,0,0,1)，RNA序列的开头与结尾缺少碱基的部分以(0,0,0,0)作为补长。

将RNA序列中碱基位点配对的可能性值进行一定的排序规则排序，若将配对的可能性值从高到低排序，则筛选出前a个碱基作为配对的可能性值高的碱基，筛选出前b个碱基作为配对的可能性值低的碱基；若将配对的可能性值从低到高排序，则筛选出前a个碱基作为配对的可能性值低的碱基，筛选出后b个碱基作为配对的可能性值高的碱基。可能性值高的碱基与其上游的长度为c的碱基序列、下游的长度为c的碱基序列组成序列片段，序列片段作为正样本并赋予标签“1”；可能性值低的碱基与其上游的长度为d的碱基序列、上游的长度为d的碱基序列组成序列片段，序列片段作为负样本并赋予标签“0”。以独热编码来表征序列基本组成而使得输入数据较为稀疏，将已测定二级结构的RNA样本进行“简化”的方法是取可能性值高或低的碱基与其上游一定长度的碱基序列、下游一定长度的碱基序列组成序列片段，该方法方便简单。正样本赋予标签“1”，负样本赋予标签“0”，所述正样本、负样本组合成样本数据集；样本数据集加载至基于Xgboost算法建立的机器学习模型，对机器学习模型进行训练与测试。

其中，a、b、c均为大于0的整数。优选地，所述a＝b。正样本数量与负样本数量比值为1：1，正负样本分布均衡，能提高机器学习模型的准确性。

在一个实施例子中，a＝b＝5，c＝d＝6。由于本模型选择的上下游长度均为6，即一个样本片段的长度为6*2+1＝13。对片段进行独热编码后，一个样本的特征维度即13*4＝53，如图1所示，输入的特征维度为53。

将样本数据集划分为训练集和测试集，将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型，对机器学习模型进行训练与测试；利用训练与测试后的机器学习模型进行RNA二级结构的预测。

本发明使用机器学习模型，能有效的提取输入信息的特征，包括许多未发现的隐藏特征规律。本发明将已测定二级结构的RNA样本作为输入信息，已测定二级结构的RNA样本包含了两个重要信息，一是RNA的序列结构，二是这个RNA的序列结构中碱基位点配对的可能性值。机器学习模型将在已测定二级结构的RNA样本中学到的规律大规模地应用到其他未知结构的序列预测中，预测其他未知结构中每一个碱基位点会形成配对的概率分数。本发明的机器学习模型是基于Xgboost算法建立的，首先将已测定二级结构的RNA样本进行“简化”，简化成序列片段，序列片段中包括了配对的可能性值低的碱基或者配对的可能性值高的碱基，根据其中碱基的配对的可能性值高与低，序列片段被分为正样本与负样本，正负样本的内容取决于学习的问题，学习的问题是RNA结构中每一个碱基位点形成配对的结果，每一个碱基位点形成配对或者碱基位点的配对的可能性高则为正样本。每一个碱基位点没有形成配对或者碱基位点的配对的可能性低则为负样本。Xgboost适用于变量数较少的表格数据，并且考虑数据特征较为稀疏的情况，而且其分布式的架构，能为后续大规模的序列预测提供高效的支持。对于已测定二级结构的RNA样本较少，且以独热编码来表征序列基本组成而使得输入数据较为稀疏等特点，显然Xgboost会更适用于该数据，而实验结果也表明，在大部分数据集上，该机器学习模型会获得更好的预测效果。

将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型，对机器学习模型进行训练与测试的步骤包括：利用训练集对机器学习模型进行训练；利用测试集对机器学习模型测试其预测的RNA序列上每一个碱基位点会形成配对的概率分数。

Xgoost算法原理如下所示：

XGBoost模型属于集成学习方法，是分类回归树(CART):T_i(x,y)的集合，其中x＝(x₀,x₁,…,x_n)是作为训练集的RNA序列中每一个特定窗口片段所对应的特征向量，y是该特征向量所对应的真实类别(0代表未配对点，1代表配对点)，训练后可对RNA序列上每一碱基位点在形成二级结构中的配对可能性进行预测。

XGBoost模型的目的是建立一个预测RNA序列二级结构中的配对点的有效分类器，预测时序列中的每一点都能够得到一个预测分数。而这个预测分数是由多个CART树分别得到并通过K个评估函数得到最终预测分数。

可知其预测模型为：

训练误差函数为：

其中，为样本数据x_i的训练误差，为损失函数，Ω(f_k)表示第k棵树的正则项。

而关于训练误差函数的计算，由于XGBoost模型是一种集成学习方法，那么假设我们得到了一棵最优的CART树f_t，则我们是在现有的t-1棵树的基础上，得到目标函数最小的CART树即为f_t：

其中，依然是样本x_i的训练误差，Ω(f_t)表示第t棵树的正则项，C是常数。

对于决策树的正则项部分，可以知道每一棵CART树的模型可以写成：

f_t(x)＝ω_q(x),ω∈R^T,q:R^d→{1,2,…,T}

其中，ω为叶子节点的得分值，q(x)表示样本x对应的叶子节点，T为该树的叶子节点数，

R^d为d维的实数集合，是通用表示。

其复杂度为：

其中，γ,λ为正则化系数，T为该树的叶子节点数。

则最终机器学习模型的目标函数为：

求解这一目标函数，令

可以得到：

其中I_j为在第j个叶子节点上的样本，G_j、H_j、g、h均属于代数符号，指代等号右边的式子，具体含义如式子所示。

对ω_j求偏导，并使其导函数等于0，则有：

G_j+(H_j+λ)ω_j＝0

求解得：

则最后机器学习模型求解的最优解为：

通过基于XGBoost算法的机器学习模型的训练、预测，可以得到最终RNA在形成二级结构时，每一个碱基位点会形成配对的概率分数，根据这一概率分数，能为下一步二级结构的形成提供辅助判断。

在已测定二级结构的RNA样本较少的条件下，采用Xgboost算法建立的机器学习模型进行模型搭建与训练、测试，通过Xgboost模型的训练、预测，可以得到最终RNA在形成二级结构时，每一个碱基位点会形成配对的概率分数，根据这一概率分数，能为下一步二级结构的形成提供判断依据。

Claims

1.基于Xgboost的全基因组RNA二级结构预测方法，其特征在于，包括步骤：

获取RNA序列和所述RNA序列中碱基位点配对的可能性值；

配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本；配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本，所述正样本、负样本组合成样本数据集；

将样本数据集划分为训练集和测试集，将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型，对机器学习模型进行训练与测试；

利用训练与测试后的机器学习模型进行RNA二级结构的预测。

2.根据权利要求1所述的基于Xgboost的全基因组RNA二级结构预测方法，其特征在于，配对的可能性值高的碱基及其上下游一定长度的碱基结合形成的序列片段作为正样本；配对的可能性值低的碱基及其上下游一定长度的碱基结合形成的序列片段作为负样本的步骤包括：

通过独热编码的方式对RNA序列编码；

编码后的所述RNA序列中碱基位点配对的可能性值从高到低排序，筛选出前a个碱基作为配对的可能性值高的碱基，筛选出后b个碱基作为配对的可能性值低的碱基；

可能性值高的碱基与其上游的长度为c的碱基序列、下游的长度为c的碱基序列组成序列片段，序列片段作为正样本并赋予标签“1”；

可能性值低的碱基与其上游的长度为d的碱基序列、上游的长度为d的碱基序列组成序列片段，序列片段作为负样本并赋予标签“0”。

3.根据权利要求2所述的基于Xgboost的全基因组RNA二级结构预测方法，其特征在于，所述a＝b。

4.根据权利要求2所述的基于Xgboost的全基因组RNA二级结构预测方法，其特征在于，通过独热编码的方式对RNA序列编码的步骤包括：

RNA序列由腺嘌呤A、尿嘧啶U、鸟嘌呤G、胞嘧啶C四种碱基构成；

对四种碱基进行编码，具体为：RNA序列中的腺嘌呤A＝(1,0,0,0)，尿嘧啶U＝(0,1,0,0)，胞嘧啶C＝(0,0,1,0)，鸟嘌呤G＝(0,0,0,1)，RNA序列的开头与结尾缺少碱基的部分以(0,0,0,0)作为补长。

5.根据权利要求1所述的基于Xgboost的全基因组RNA二级结构预测方法，其特征在于，将所述训练集和测试集加载至基于Xgboost算法建立的机器学习模型，对机器学习模型进行训练与测试的步骤包括：利用训练集对机器学习模型进行训练；利用测试集对机器学习模型测试其预测的RNA序列上每一个碱基位点会形成配对的概率分数；

所述概率分数的预测模型为：

预测模型的目标函数为：

其中，y＝(y₀,y₁,…,y_i,y_n)是作为训练集的RNA序列中每一个序列片段的特征向量x＝(x₀,x₁,…,x_n)所对应的真实类别，y_i＝0代表未配对的碱基位点，y_i＝1代表配对的碱基位点，为样本数据x_i的训练误差，为损失函数，Ω(f_k)表示第k棵树的正则项。