CN107577924B

CN107577924B - 一种基于深度学习的长链非编码rna亚细胞位置预测方法

Info

Publication number: CN107577924B
Application number: CN201710951364.1A
Authority: CN
Inventors: 曹真; 杨旸; 沈红斌
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2021-05-11
Anticipated expiration: 2037-10-13
Also published as: CN107577924A

Abstract

本发明涉及RNA生物学领域，具体涉及一种基于深度学习的长链非编码RNA(long noncoding RNA，lncRNA)亚细胞位置预测算法。针对多分类问题训练样本中存在的类别不均衡性，本发明提出了一种新型的上采样方法来对训练样本进行预处理。采用堆叠的栈式自编码器来对序列的原始特征进行特征提取。本发明采用了基于深度学习的融合算法来整合多个分类器的预测效果。采用上采样方法大大减小了数据集的不平衡性对分类器效果的影响。在原始特征中有效提取出了区分度较高的更高层次特征。采用基于深度学习的融合算法整合各个分类器的预测结果，提高了鲁棒性，更加适应亚细胞位置多样性和复杂性的具体情形。

Description

一种基于深度学习的长链非编码RNA亚细胞位置预测方法

技术领域

本发明涉及RNA生物学领域，具体涉及一种基于深度学习的长链非编码RNA(longnoncoding RNA，lncRNA)亚细胞位置预测算法。

背景技术

非编码RNA(noncoding RNA，ncRNA)已经被证明是重要的调控因子。microRNA(miRNA)和lncRNA是ncRNA的两种主要类型。近年来lncRNA在RNA生物学领域受到极大关注。相关的研究表明lncRNA的位置信息对于了解其复杂的生物学功能有着很大的帮助。此外，它们已被证明是某些疾病的标志物。因此，理解lncRNA的细胞功能已经成为后基因组织时代的核心任务。

像蛋白质一样，lncRNA的功能依赖于它们所处的细胞区域。因此，定位信息可以为揭示其功能提供重要的参考。过去十年来，由于通过生物实验鉴定亚细胞定位的困难，亚细胞定位的自动预测已成为生物信息学的热门话题。然而，几乎所有现有的预测工具都是为蛋白质设计的。据了解目前尚没有公开发表的lncRNA亚细胞定位的预测算法。原因主要有两个方面：一方面，由于lncRNA在核基因的调控中起作用，所以大多数lncRNA被认为是专属于核内的。然而最近很多研究发现并证实了他们亚细胞位置的多样性。另一方面，对lncRNA亚细胞定位的预测研究受限于信息源。对于大多数lncRNAs而言，序列特征可能是唯一可用的信息来源。

随着新一代测序技术的发展，现在已经有足够序列信息来对lncRNA进行分析研究。基于序列的亚细胞位置预测可以大致分为两类，即基于相似性的搜索算法和机器学习算法。lncRNA在其序列中通常具有很大的多样性。因此，相比于公共数据库中具有丰富的序列信息和定位注释信息的蛋白质，基于机器学习的预测方法更适用于lncRNA亚细胞定位预测的研究。特别是近年来，出现了一些很好的lncRNAs数据库，如RNAlocate(http://www.rna-society.org/rnalocate/)和LncATLAS，其中包含实验验证的lncRNAs的相关知识，这就为训练机器学习模型提供了标准的训练数据集。

基于机器学习模型中的一个重要问题是如何将原始数据编码为训练特征。因此，如何从原始序列中提取区分度较高的高层次特征是本发明的关键问题。原始的序列词袋特征，如k-mers特征中存在大量的噪声和无效信息，其精度非常有限，使用过长k-mers甚至会导致过拟合和模型复杂度的指数性提升。

与传统的机器学习模型不同，无监督的深度学习模型可以自动捕获高级语义表征特征并且具有较机器学习更加优越的学习能力。正是考虑到深度学习模型在特征提取中的突出优势，本发明旨在基于堆叠的栈式自编码器框架从lncRNA原始序列中挖掘高层次特征，并开发一种用于预测lncRNA亚细胞位置的计算工具。为了提高性能，还实现了一个集成神经网络，用他来集成多个分类器的预测结果以提升本发明的鲁棒性。

此外，本发明发现训练样本中存在着较为严重的数据分布不平衡问题。例如，在组建的lncRNA数据集中，位于细胞质，细胞核，细胞溶质，核糖体和外来体中的样本数量分别为304,152,96,47和26。大多数机器学习方法的分类结果对主类别存在偏见，而对于同样重要甚至更加重要的少数类别则会表现不佳。因此，本发明采用上采样的方法来解决这一问题并且在一定程度上缓解了数据不平衡对实验结果所造成的影响。

发明内容：

针对当前领域内没有相关的预测算法的现状，本发明的目的在于提供一种长链非编码RNA(long noncoding RNA，lncRNA)亚细胞位置预测算法。

本发明是通过以下技术方案实现的：

一种基于深度学习的长链非编码RNA亚细胞位置预测算法，算法流程图如图1，包括以下步骤：

S1、组建lncRNA序列亚细胞位置预测训练基准数据集；

S2、从lncRNA序列中提取原始的k-mer频率特征；

S3、采用上采样算法对训练数据进行预处理；

S4、采用三层堆叠的栈式自编码器对提取的频率信息就行特征提取，将得到的频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练；

S5、将四个分类器的输出概率经过基于神经网络的整合算法进行融合训练输出预测结果。

进一步的，所述步骤S1组建lncRNA序列亚细胞位置预测训练基准数据集，数据集组建流程图如图2，具体包括以下步骤：

S11、从RNAlocate数据库中提取全部的lncRNA序列，将全部的1361条序列中official symbol相同但存在多个亚细胞位置的样本合并预处理，合并后得到1074条记录；

S12、清洗序列信息，剔除掉不含亚细胞位置信息的样本序列，清洗后得到714条记录；

S13、为了减少序列冗余对于分类器精度的影响，使用cd-hit工具在714条lncRNA序列中删除了冗余度在80％以上的序列样本，随后剔除掉样本量较少的类别，最终选择包含位于5个亚细胞区域的625条序列信息作为基准lncRNA亚细胞位置预测训练数据集(见表1)。

表1本发明组建的用做lncLocator训练样本的lncRNA亚细胞位置预测数据集。

表1

进一步的，所述步骤S2从lncRNA序列中提取原始的k-mer频率特征，具体如下：

从lncRNA序列中提取原始的k-mer频率特征，所谓的原始的频率特征就是指lncRNA序列中的核苷酸组合特征。假设组建的lncRNA标准数据集为

那么lncRNA的序列可以表示为N＝B₁B₂B₃B₄B₅B₆…B_L，在这里L代表给定序列的核苷酸的个数，根据碱基的不同，B可以被替换为A，C，G或者U中的一个。

对于k-mer的核苷酸组成特征而言，可以表示为B₁B₂B₃…B_k，由于B存在ACGU四种可能，所以对应共有4^k种不同的组合情况，接下来只需要判定B₁B₂B₃…B_k,B₂B₃B₄…B_k+1,…,B_L-k+1B_L-k+2B_L-k+3…B_L分别属于哪种组合情况，因此所提取的特征便是这4^k种不同的组成在给定序列中出现的次数。在本发明中，由于采用的k-mer特征，故所得到的原始频率特征即为256维，每一维特征对应这种组合在给定序列中出现的次数。

进一步的，所述步骤S3采用上采样算法对训练数据进行预处理，数据上采样部分的流程图如图3，具体步骤如下：

S31、确定需要上采样的类别，假定为

接下来利用原始的数据集

训练初始分类器——C_model，训练得到的分类器用来判断接下来步骤中合成的样本是否被采纳。

S32、对需要上采样的类别合成新样本，对每一个需要合成新样本的集合

在其中随机选取两个样本

和

利用下面的公式合成对应类别的新样本

λ是0到1之间的随机值。接下来利用之前训练的模型C_model来对合成的新样本

的可信度进行判别：

只要分类的预测结果位于我们之前设定的阈值之中则该样本会被采纳。

S33、重复训练直到每个类别达到预先设定的样本数量。

进一步的，所述步骤S4采用三层堆叠的栈式自编码器对提取的频率信息就行特征提取，将得到的频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练，具体如下：

S41、构建并训练堆叠的三层栈式自编码网络对原始频率特征进行特征提取。

栈式自编码器是一个利用输出来重构输入的神经网络模型。对于一个栈式自编码器而言它存在一个隐藏层用来对输入信息进行编码。理论上每个自编码器都是一个无监督的学习模型。假设有一个输入数据x，自编码器网络首先将x映射到y。在映射之后，y作为中间输出用于重建x，最终输出z。栈式自编码器模型可以被看作有两部分组成，编码部分和解码部分，两个过程可以分别由以下两个公式表示：

y＝f(Wx+b)

z＝g(W_Ty+b')

当栈式自编码器的隐藏层的维度小于输入维度时，就可以有效的对输入数据进行特征提取。

本发明使用了三层堆叠的栈式自编码网络，相比与单层的栈式自编码网络，更加高效的发挥栈式自编码器的特征提取效果。此外由于在本发明中它是一种顺序构建的逐层结构，使用神经网络的全连接层连接。此外，本发明通过将模型中的某些激活单元以某种概率随机设置为零的方式来避免过拟合问题。

S42、训练初始的四个弱分类器。

将原始的k-mer特征和利用三层堆叠的栈式自编码器(Autoencoder)抽取的高层次特征分别提供给随机森林分类器(RF)和支持向量机分类器(SVM)。最终得到四个不同的分类器，根据输入特征和使用分类器的不同分别命名为原始频率特征组合随机森林(RF)，原始频率特征组合支持向量机(SVM)，堆叠栈式自编码器提取特征组合随机森林(AE+RF)和堆叠栈式自编码器提取特征组合支持向量机(AE+SVM)。

进一步的，所述步骤S5将四个分类器的输出概率经过基于神经网络的整合算法进行融合训练输出预测结果，具体如下：

通过基于深度学习的集成算法整合多个弱分类器。

本发明通过基于深度学习的集成算法来整合步骤四中提到的4个分类器的预测结果，该模型通过使用四个分类器的输出概率值来训练神经网络。受深度学习模型高效性的启发，本发明利用训练的多层神经网络模型来整合各个分类器的预测结果。本发明使用的整合算法的策略是将0级分类器的输出作为1级分类器的训练数据，通过训练1级分类器来找出最优的组合方式来整合各个0级分类器的预测结果。在本发明中，0级分类器的输出是四个分类器的预测概率值，这些概率值作为1级分类器(3层神经网络)的输入。

本发明提出了一种完全基于序列的预测方法，lncLocator算法的整体流程图如图14，通过整合机器学习和深度学习框架来预测lncRNA亚细胞定位。采用的深度学习模型包括高级特征提取阶段的堆叠栈式自编码器和集成算法中使用到的神经网络。采用的机器学习模型包括随机森林和支持向量机。本发明从lncRNA序列中提取原始序列组成特征，然后将它们馈送到堆叠栈式自编码器中以学习区分度较高的高层次特征，进一步将特征输入随机森林和SVM分类器对亚细胞定位进行预测。为了解决类不平衡的问题，本发明采用了一种上采样的方法来提高我们的预测效果和鲁棒性。最后，利用集成算法的策略来整合不同分类器的预测结果来提升模型的预测性能。

相比现有技术，本发明具有如下有益效果：

1.本发明专门组建了用于lncRNA亚细胞位置预测的标准数据集(625条序列，5个亚细胞位置)，预测过程完全基于序列信息，不依赖于其他信息，具有较好的可推广性，本发明在组建的数据集上的预测整体精确度达到了61％，此外在平均精确度上比其他方法分别有5％-9％的提高。

2.本发明提出了一种新的上采样算法来对不平衡训练样本进行预处理，以减小分类器由于对大类别样本的偏好而产生的预测精度的降低。

3.本发明特征提取阶段采用深度学习框架，堆叠的栈式自编码器来对序列提取的频率特征进行二次提取，使得提取的特征具有更高的辨别率。

4.采用基于深度学习的融合算法，神经网络整合各个分类器的预测结果，相比于较常见融合算法的预测结果更加具有鲁棒性，此外融合阶段结合深度学习网络，更加适应亚细胞位置多样性和复杂性的具体情形。

附图说明

图1基于深度学习的长链非编码RNA亚细胞位置预测算法流程图

图2数据集组建流程图

图3数据上采样部分的流程图

图4采用上采样与未采用上采样的评价指标精确度对比图

图5采用上采样与未采用上采样的评价指标F1得分对比图

图6采用上采样与未采用上采样的评价指标召回率对比图

图7原始频率特征组合随机森林(RF)混淆矩阵对比图

图8原始频率特征组合支持向量机(SVM)混淆矩阵对比图

图9堆叠栈式自编码器提取特征组合随机森林(AE+RF)混淆矩阵对比图

图10堆叠栈式自编码器提取特征组合支持向量机(AE+SVM)混淆矩阵对比图

图11是NN ensemble(lncLocator)本发明lncLocator算法混淆矩阵对比图

图12是LoR ensemble逻辑回归算法混淆矩阵对比图

图13是Averageensemble平均投票算法混淆矩阵对比图

图14是lncLocator算法的整体流程图

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程。

本发明考虑到数据集的不平衡性，其中位于细胞质，细胞核，细胞溶质，核糖体和外来体的样本数分别为304,152,96,47和26，所以对除第一类外的其他各类别进行了二倍上采样。本发明中三层堆叠的栈式自编码器中编码层和解码层所采用的激活函数均为sigmoid函数，优化器选用的adam优化器，损失函数选用的重构输出与原始输入的平方误差。Batch_size和nb_epoch均为100，三层的神经元个数分别设置为256，128，64；对于基于深度学习的整合模型部分，本发明中三层神经元的个数分别设置为20，20，5。损失函数选用的交叉熵，优化器依然选用的adam优化器，Batch_size和nb_epoch均为100。

本发明采用的评价指标如下：

其中，n为数据集的类别数；TP、FP、FN分别为真阳性、假阳性、假阴性结果。

实验的预测结果如下：

在实验阶段，将本发明中提出的算法与之前常用的逻辑回归整合算法以及平均投票整合算法进行了比较。四个弱分类器的预测概率作为整合算法的输入。

表2不采用上采样方法时不同集成算法的预测效果

表2

^a使用本发明中提出集成算法

^b使用逻辑回归集成算法

^c使用平均投票集成算法

正如表2所示，本发明提出的整合算法预测效果要好于其他的单独的预测算法和其他的整合算法。

表3上采样算法的预测效果

表3

图4～6为采用上采样与未采用上采样的评价指标对比图，图4：精确度；图5：F1得分；图6：召回率；图7～13为混淆矩阵对比图。

从图4～6和图7～13中可以看出，本发明中提出的上采样算法将F1得分和召回率分别从0.3732和0.3893提升到了0.4368,0.4268，虽然准确率在原有基础上略有下降。显然可以看出整体的准确率的略有下降换来了较少数类别预测精确度的提升。在多分类问题中，样本数较少的类别的重要性不容小视，因此类平均精确度能更好的反映分类器的预测效果。由评价指标的定义易知，在本实验中召回率的物理意义即为类平均准确率。从图4～6和图7～13中可以看出，本发明中提出的算法在类平均准确率和F1得分值上远远领先其他的方法。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种基于深度学习的长链非编码RNA亚细胞位置预测方法，其特征在于：包括以下步骤：

S1、组建lncRNA序列亚细胞位置预测训练基准数据集；

S2、从lncRNA序列中提取原始的k-mer频率特征；

S3、采用上采样算法对训练数据进行预处理；

S4、采用三层堆叠的栈式自编码器对提取的频率信息进行特征提取，将得到的频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练；

2.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测方法，其特征在于：步骤S2中所述原始的k-mer频率特征是指lncRNA序列中的核苷酸组合特征，采用k-mer特征，得到的原始频率特征为256维，每一维特征对应这种组合在给定序列中出现的次数。

3.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测方法，其特征在于：所述步骤S3具体包括以下步骤：

S31、确定需要上采样的类别；

S32、对需要上采样的类别合成新样本；

S33、重复训练直到每个类别达到预先设定的样本数量。

4.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测方法，其特征在于：步骤S4中所述栈式自编码器是利用输出来重构输入的神经网络模型，当栈式自编码器的隐藏层的维度小于输入维度时，对输入数据进行特征提取，将模型中的激活单元以概率随机设置为零的方式，避免过拟合问题。

5.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测方法，其特征在于：步骤S4中所述频率特征和利用模型抽取的特征分别接入随机森林分类器和支持向量机模型训练，得到四个不同的分类器，根据输入特征和使用分类器的不同分别命名为原始频率特征组合随机森林，原始频率特征组合支持向量机，堆叠栈式自编码器提取特征组合随机森林和堆叠栈式自编码器提取特征组合支持向量机。

6.根据权利要求1所述的一种基于深度学习的长链非编码RNA亚细胞位置预测方法，其特征在于：步骤S5中所述基于神经网络的整合算法的策略是将0级分类器的输出作为1级分类器的训练数据，通过训练1级分类器来找出最优的组合方式来整合各个0级分类器的预测结果，0级分类器的输出是四个分类器的预测概率值，这些概率值作为1级分类器3层神经网络的输入。