CN112270958A

CN112270958A - 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法

Info

Publication number: CN112270958A
Application number: CN202011144398.8A
Authority: CN
Inventors: 宋金淼; 张子晨; 谢凡森; 段晓东; 代启国
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-26
Anticipated expiration: 2040-10-23
Also published as: CN112270958B

Abstract

一种基于分层深度学习miRNA‑lncRNA互作关系的预测方法，其属于生物信息学领域。本发明的特征提取方法采用独热编码（one‑hot）和k‑mer编码，预测模型由并行胶囊网络、融合注意力机制的独立递归神经网络（IndRNN）和双向长短期记忆网络（Bi‑LSTM）组成。将序列派生的特征折叠形成维数为18×19的序列特征图像，输入到二维卷积中学习高级特征，再利用miRNA‑lncRNA相互作用序列的各种信息组合的衍生特征作为胶囊网络的输入，最终将其融合作为Bi‑LSTM的输入，进而对单一植物的miRNA与lncRNA进行互作关系预测。相比于传统生物实验室的方法，该方法数据处理量更大，更节省时间；与传统机器学习方法相比，该方法所需的特征更少，准确率更高。

Description

一种基于分层深度学习miRNA-lncRNA互作关系的预测方法

技术领域

本发明涉及生物信息学领域，具体涉及一种基于分层深度学习miRNA-lncRNA互作关系的预测方法。

背景技术

非编码RNA(ncRNA)在很多动生命活动方面起着重要的调节作用，而微小RNA(miRNA)与长非编码RNA(lncRNA)的相互作用更为重要，其互作关系的研究不仅有助于深入分析基因间生物学功能，也可为疾病的诊治和的遗传育种方面提供新思路。目前，miRNA-lncRNA互作关系的预测大多使用生物实验和传统机器学习方法。

自然界的生物细胞基因组大家庭中含有各种各样RNA，有很多数RNA不参与蛋白质的编码，大约只有1-2％能够编码蛋白质。这些不参与蛋白质编码的RNA称为非编码RNA(no-coding RNA)。长度约20核苷酸到24核苷酸的microRNAs(miRNA)，长度大于200核苷酸的lncRNA的相互作用在基因表达调控中起着重要作用，并与物种进化和疾病发生密切相关。miRNA与lncRNA之间也存在交互关系。MiRNA(miR9678)以lncRNA为靶点，触发小干扰RNAs的产生，从而影响生物学特性的表达。因此，miRNA与lncRNA的相互作用具有生物学意义，预测miRNA与lncRNA的相互作用是了解基因表达和细胞功能的关键步骤，有助于研究疾病的发病机制和寻找药物作用的最佳靶点。

对于miRNA与lncRNA相互调控机制的研究大多集中在动物和人类癌症方面，植物方面的研究相对较少。传统单一的深度学习方法有些限制，如CNN通过卷积运算从输入信息中提取深度特征，忽略了特征之间的相关性。此外，合并操作会丢失一些信息，这限制了CNN的性能。为了避免这些问题，胶囊网络被广泛使用。胶囊网络由与每个胶囊中包含的信息相对应的向量表示，下层胶囊代表输入数据的特征信息，上层胶囊代表下层胶囊特征之间的聚集和相关性。

研究miRNA-miRNA的相互调控网络是新热点。现有鉴定miRNA-lncRNA互作关系预测的方法主要分为生物实验和计算机方法这两类。生物实验鉴定费时费力，成本高昂，对于样本数量特别大的不适合鉴定。传统计算预测方法则是利用机器学习相关算法建立预测模型，通过提取miRNA靶基因的序列特征和结构特征作为输入数据，构建分类器模型，但机器学习方法涉及了过多的人工干预且特征提取过程复杂。为克服两者的弊端，利用多网络深度学习融合模型可自动学习特征的特点来实现分类预测是一个突破点。

发明内容

本发明提出一种基于分层深度学习miRNA-miRNA互作关系的预测方法，该方法解决了传统生物实验的局限性、传统机器学习特征提取的不确定性，提高了miRNA-miRNA预测的准确性。

为了达到上述技术效果，本发明的技术方案如下：

一种基于分层深度学习miRNA-lncRNA互作关系的预测方法，包括以下步骤：

S1：数据的收集和预处理。由于没有miRNA和lncRNA相互作用对的公共数据库，本发明使用的玉米miRNA和lncRNA数据集是分别是公共数据库PNRD(http://structuralbiology.cau.edu.cn/PNRD/)和GreeNC(http://greenc.sciencedesigners.com/wiki/Main Pag)下载。

S2：特征提取。为了真实有效地表达序列信息，同时考虑局部序列信息和全局序列信息，根据植物RNA序列特点，将miRNA序列和lncRNA序列成一条单链序列，并对这条单链序列进行k-mer组合统计特征以及对序列二级结构进行one-hot编码。

S3：构建融合深度学习预测模型。本发明提出了一种融合两种深度学习网络进行miRNA-lncRNA互作关系预测的模型。该模型由并行胶囊网络、融合注意机制的独立递归神经网络和Bi-LSTM网络组成。

进一步地，步骤S1中数据收集和预处理的具体过程包括：

S11：首先，将得到植物miRNA和lncRNA数据集去重，然后分别上传到在线软件psRNATarget(https://plantgrn.noble.org/psRNATarget/analysis)上，得出实验需要的miRNA-lncRNA互作关系对中对应的miRNA和lncRNA名称，根据miRNA-lncRNA的名称从原始的数据集序列中提取序列。

S12：对psRNATarget软件得出的miRNA-lncRNA互作关系对经S11步骤处理并去重后，将其作为正样本。由于lncRNA序列长度是大于200nt，miRNA的长度大约为20nt-24nt，所以这条合并序列中lncRNA所占比重大，故将总lncRNA序列分为参与互作关系lncRNA和未参与互作关系的lncRNA，并将这些未参与互作关系的lncRNA，和之前所得到正样本中lncRNA进行相似性对比，去除相似性高于80％的lncRNA样本。

S13：将S12步骤种不参于互作关系的lncRA随机组合miRNA，形成负样本数据集。为确保正样本和负样本的数量相同，采用随机抽样方法，从负样本中抽取的样本数保证和正样本相同。

进一步地，步骤S2中特征提取的具体过程包括：

S21：考虑到序列的全局位置信息，我们采用one-hot编码来表征lncRNA-miRNA序列的二级特征。首先，利用bpRNA获得lncRNA和miRNA二级结构的通用表达，分别为:茎(S)、内环(I)、发卡环(H)、外环(E)、多环(M)、凸出(B)、段(X)；其次，将两个序列组合成一个公共序列，用one-hot编码将其表示为一个7行N列的矩阵，其中N为最长长度。对于小于N的序列，将对空列执行零填充操作。例如，S被编码为(1,0,0,0,0,0,0)^T，I被编码为(0,1,0,0,0,0,0)^T，H编码为(0,0,1,0,0,0,0,0,0)^T，E编码为(0,0,0,1,0,0,0)^T，M被编码为(0,0,0,0,1,0,0)^T，B编码为(0,0,0,0,0,1,0)^T，X编码为(0,0,0,0,0,1)^T，零填充编码为(0,0,0,0,0,0,0)^T。将RNA序列编码成二进制矩阵后，下面就可以输入到设计好的卷积神经网络中进行训练、调参。

S22：k-mer组合统计特征。miRNA和lncRNA序列衍生的(内在的)特征包括k-mer频率、GC含量、碱基对数和最小自由能(MFE)。每个子序列在生物序列中的分布可以用序列中的k-mer频率信息来表示，从而计算出序列的相似性。对于miRNA-lncRNA序列使用k-mer算法用于提取非重叠子序列(生物的话)的每个序列,计算k-mer子序列的频率在每一个序列,并构造一个频率矩阵。为了确定miRNA-lncRNA序列中差异最大的k-mers，提高模型的分类效果，我们选择了不同k值的k-mers组合方法。如果序列的长度为L，则长度为k的k-mer子序列的数量为sk＝L-k+1。该序列由A、U、C和G四个碱基组成，因此长度为L的k-mers有4^k可能的结构。此外，二级结构的稳定性也与RNA中核苷酸C和G的含量有关。G和C含量越高，二级结构越稳定。本文使用ViennaRNA工具得到二次结构的点括号表示，通过计算得到形成二次结构所释放的自由能。在本实验中，只选取k为2、3和4，将2-mer和3-mer以及4-mer与miRNAh和lncRNA的GC含量、碱基对数和最小自由能结合，因此特征共有16+64+256+3+3＝342维。

进一步地，步骤S3中构建融合深度学习网络预测模型的具体过程包括：

S31：模型输入分为两部分，将序列k-mer组合统计特征和二级结构报的one-hot编码分别输入到并行的胶囊网络、融合注意机制的独立递归神经网络中。

S32：IndRNN层，循环神经网络在序列学习问题中获得广泛应用，已经有了很多的成果。但是现在IndRNN，例如：梯度消失和梯度爆炸问题，循环神经网络通常难以训练。为解决本网络收敛时的梯度爆炸和消失问题等问题，本发明引入独立循环神经网络(IndRNN)。

S33：CapsNet层，胶囊神经网络(Capsule Network,CapsNet)是由Hinton在2017年10月份首次提出的新型深度学习网络架构，用于图像的分类，其不同于卷积神经网络的矢量输入输出，胶囊层的输入输出均为向量，并且采用动态路由算法来更新胶囊参数。

与现有技术相比，本发明所能达到的有益效果是：

1、本发明利用了深度学习的技术来对miRNA-lncRNA互作关系进行预测，比传统的实验室的方式要更加省时省力，且能处理的数据更大。

2、本发明提出了一种融合两种深度学习网络的预测miRNA-lncRNA互作关系的模型，克服了传统机器学习需要大量特征的问题，得出的预测准确率更高。

附图说明

图1为本发明两种深度学习网络融合构建预测模型示意图。

图2为本发明数据预处理的流程示意图。

图3为本发明one-hot编码提取二级结构特征示例图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1-3所示，一种基于深度学习miRNA-miRNA互作关系的预测方法，包括以下步骤：

S2：特征提取。为了有效地表达序列信息，同时考虑局部序列信息和全局序列信息，根据miRNA和lncRNA序列特点，将其合并成一条单链序列，并对序列进行k-mer编码以及序列二级结构进行one-hot编码。

S3：构建融合深度学习预测模型。本发明提出了一种融合两种深度学习网络进行miRNA-lncRNA互作关系预测的模型。该模型由并行胶囊网络、融合注意机制的独立递归神经网络和Bi-LSTM网络组成。将序列派生的特征折叠形成维数为18×19的序列特征图像，输入到二维卷积中学习高级特征。此外，我们进一步利用miRNA-lncRNA相互作用序列的各种信息组合的衍生特征作为胶囊网络的输入。IndRNN层集成了注意机制，学习miRNA-lncRNA交互序列二级结构的全局位置信息。最后，将两层的输出融合到Bi-LSTM网络中，学习miRNA-lncRNA交互序列特征之间的依赖关系，进而完成miRNA-lncRNA的预测。

进一步地，步骤S1中数据收集和预处理的具体过程包括：

S11：考虑到种间序列数的差异，选择了玉米的miRNA和lncRNA进行试验。此外，为了减少序列同源性的重复问题，对序列进行了去重处理。从玉米、高粱和短梗草的数据集中分别筛选出长度为19nt～22nt的MiRNA序列和长度为4000nt～8516nt的lncRNA序列。

S12：首先，将得到植物miRNA和lncRNA数据集去重，然后分别上传到在线软件psRNATarget(https://plantgrn.noble.org/psRNATarget/analysis)上，得出实验需要的miRNA-lncRNA互作关系对中对应的miRNA和lncRNA名称，根据miRNA-lncRNA的名称从原始的数据集序列中提取序列。

S13：对psRNATarget软件得出的miRNA-lncRNA互作关系对经S12步骤处理并去重后，将其作为正样本。由于lncRNA序列长度是大于200nt，miRNA的长度大约为20nt-24nt，所以这条合并序列中lncRNA所占比重大，故将总lncRNA序列分为参与互作关系lncRNA和未参与互作关系的lncRNA，并将这些未参与互作关系的lncRNA，和之前所得到正样本中lncRNA进行相似性对比，去除相似性高于80％的lncRNA样本。

S14：将S13步骤种不参于互作关系的lncRA随机组合miRNA，形成负样本数据集。为确保正样本和负样本的数量相同，采用随机抽样方法，从负样本中抽取的样本数保证和正样本相同。

进一步地，步骤S2中特征提取的具体过程包括：

S22：k-mer组合统计特征。miRNA和lncRNA序列衍生的(内在的)特征包括k-mer频率、GC含量、碱基对数和最小自由能(MFE)。每个子序列在生物序列中的分布可以用序列中的k-mer频率信息来表示，从而计算出序列的相似性。对于miRNA-lncRNA序列使用k-mer算法用于提取非重叠子序列(生物的话)的每个序列,计算k-mer子序列的频率在每一个序列,并构造一个频率矩阵。为了确定miRNA-lncRNA序列中差异最大的k-mers，提高模型的分类效果，我们选择了不同k值的k-mers组合方法。如果序列的长度为L，则长度为k的k-mer子序列的数量为sk＝L-k+1。该序列由A、U、C和G四个碱基组成，因此长度为L的k-mers有4^k可能的结构。此外，二级结构的稳定性也与RNA中核苷酸C和G的含量有关。G和C含量越高，二级结构越稳定。本文使用ViennaRNA[27]工具得到二次结构的点括号表示，通过计算得到形成二次结构所释放的自由能。在本实验中，只选取k为2、3和4，将2-mer和3-mer以及4-mer与miRNAh和lncRNA的GC含量、碱基对数和最小自由能结合，因此特征共有16+64+256+3+3＝342维。

S33：CapsNet层，胶囊神经网络(Capsule Network,CapsNet)并且采用动态路由算法来更新胶囊参数。在胶囊网络中,激活函数既保留了输入向量的方向，又将输入向量的模压缩到(0，1)之间.输出v_j的计算公式如下：

其中，v_j是胶囊j的矢量输出，s_j是总输入矢量。胶囊网络第一层为一个激活函数为ReLU的卷积层，除了第一层胶囊外，所有胶囊的总输入s_j是对下面层胶囊的所有预测向量

的加权求和,它是通过下面层胶囊的输出u_i乘以权重矩阵W_ij而得到的。公式如下：

其中c_ij是在动态路由过程中确定的耦合系数，表示每一个低层胶囊与其相对应的高层胶囊之间的权重。对于每个胶囊i来说，所有的权重cij的总和为1。cij由采用的动态路由算法中的sof tmax函数决定,计算公式如下：

其中b_ij是胶囊i与胶囊j的对数概率,用来更新c_ij，并将其初始化为0，在路由迭代过程中，b_ij会不断更新，更新公式如下：

S34：融合输出层，联合处理层得到的特征q和规则特征k完成融合，具体操作是将规则特征k拼接到语义特征q之后,得到融合特征m，公式如下：

其中，

表示特征的拼接。

实施例2

本发明基于深度学习miRNA-miRNA互作关系的预测方法的具体步骤：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

步骤1：先通过将滤波后的miRNA和lncRNA导入psRNATarget软件进行预测，共得到18241对miRNA-lncRNA相互作用对作为阳性数据集。由于miRNA的数量少，序列长度短，在相互作用对中miRNA的比例相对较小，因此本实验主要处理lncRNA序列。首先，将所有lncRNA分为两类，一类参与相互作用，另一类不参与lncRNA与miRNA的相互作用。

步骤2：然后，利用neederman-Wunsch算法对两类lncRNA进行相似度比较，剔除相似度在80％以上的lncRNA样本。最后，将不参与lncRNA与miRNA相互作用的lncRNA与所有miRNA随机组合，得到相似性去除后的负样本数据集。为了保证正、负样本的平衡，采用随机抽样的方法，得到与正样本相同数量的负样本。将正负数据集随机抽取，形成实验所需的数据集，共36482个。

步骤3：为了保证实验结果的准确性和可靠性，实验采用了5折交叉验证。实验数据集平均分为5组，4组用于训练，1组用于验证。交替进行5次实验，取5次实验的平均值作为最终结果。期间，本发明与其他深度学习方法得到的准确率进行对比，最终结果图如下表所示。

以上实验结果表面本申请中方法(Capsule+IndRNN)明显优于其他深度学习网络。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于分层深度学习miRNA-lncRNA互作关系的预测方法，其特征在于，包括以下步骤：

S1：数据的收集和预处理：植物的miRNA和lncRNA数据集是分别来自公共数据库PNRD和GreeNC；

S11：首先，将得到植物miRNA和lncRNA数据集去重，经在线软件psRNATarget处理，得出实验需要的miRNA-lncRNA互作关系对中对应的miRNA和lncRNA名称，根据miRNA-lncRNA的名称从原始的数据集序列中提取序列；

S12：对psRNATarget软件得出的miRNA-lncRNA互作关系对经S11步骤处理并去重后，将其作为正样本数据集；将总lncRNA序列分为参与互作关系lncRNA和未参与互作关系的lncRNA，并将未参与互作关系的lncRNA与正样本中lncRNA进行相似性对比，去除相似性高于80％的lncRNA样本；

S13：将S12步骤中未参于互作关系的lncRA随机组合miRNA，形成负样本数据集；采用随机抽样方法，从负样本中抽取的样本数保证和正样本相同；

S2：特征提取，同时考虑局部序列信息和全局序列信息，根据miRNA和lncRNA序列特点，将其合并成一条单链序列，并对序列进行k-mer编码以及序列二级结构进行one-hot编码；具体步骤为：

S21：采用one-hot编码来表征lncRNA-miRNA序列的二级特征：

利用bpRNA获得lncRNA和miRNA二级结构的通用表达，分别为:茎(S)、内环(I)、发卡环(H)、外环(E)、多环(M)、凸出(B)、段(X)；其次，将两个序列组合成一个公共序列，用one-hot编码将其表示为一个7行N列的矩阵，其中N为最长长度；对于小于N的序列，将对空列执行零填充操作；S编码为(1,0,0,0,0,0,0)^T，I被编码为(0,1,0,0,0,0,0)^T，H编码为(0,0,1,0,0,0,0,0,0)^T，E编码为(0,0,0,1,0,0,0)^T，M被编码为(0,0,0,0,1,0,0)^T，B编码为(0,0,0,0,0,1,0)^T，X编码为(0,0,0,0,0,1)^T，零填充编码为(0,0,0,0,0,0,0)^T；将RNA序列编码成二进制矩阵后，输入到设计好的卷积神经网络中进行训练、调参；

S22：k-mer组合统计特征：

miRNA和lncRNA序列衍生的特征包括k-mer频率、GC含量、碱基对数和最小自由能；每个子序列在生物序列中的分布用序列中的k-mer频率信息来表示，计算序列的相似性；对于miRNA-lncRNA序列使用k-mer算法提取非重叠子序列的每个序列,计算k-mer子序列的频率并在每一个序列构造一个频率矩阵；选取k为2、3和4，将2-mer、3-mer、4-mer与miRNAh和lncRNA的GC含量、碱基对数和最小自由能结合，特征共有342维；

S3：构建融合深度学习预测模型；该模型由并行胶囊网络、融合注意机制的独立递归神经网络(IndRNN)和Bi-LSTM网络组成；将序列派生的特征折叠形成维数为18×19的序列特征图像，输入到二维卷积中学习高级特征；再利用miRNA-lncRNA相互作用序列的信息组合的衍生特征作为胶囊网络的输入；IndRNN层集成注意机制，学习miRNA-lncRNA交互序列二级结构的全局位置信息；具体采用以下步骤：

S31：模型输入分为两部分，将序列k-mer组合统计特征和二级结构报的one-hot编码分别输入到并行的胶囊网络、独立递归神经网络中；

S32：独立递归神经网络IndRNN层：IndRNN层集成注意机制，学习miRNA-lncRNA交互序列二级结构的全局位置信息；

S33：胶囊神经网络CapsNet层，采用动态路由算法来更新胶囊参数；在胶囊神经网络中,激活函数既保留了输入向量的方向，又将输入向量的模压缩到(0，1)之间，输出v_j的计算公式如下：

其中，v_j是胶囊j的矢量输出，s_j是总输入矢量；胶囊神经网络第一层为一个激活函数为ReLU的卷积层，除了第一层胶囊外，所有胶囊的总输入s_j是对下面层胶囊的所有预测向量

的加权求和,通过下面层胶囊的输出u_i乘以权重矩阵W_ij而得到的；公式如下：

其中：c_ij是在动态路由过程中确定的耦合系数，表示每一个低层胶囊与其相对应的高层胶囊之间的权重；对于每个胶囊i来说，所有的权重c_ij的总和为1；c_ij由采用的动态路由算法中的softmax函数决定,计算公式如下：

其中：b_ij是胶囊i与胶囊j的对数概率,用来更新c_ij，并将其初始化为0，在路由迭代过程中，b_ij会不断更新，更新公式如下：

其中，

表示特征的拼接；

将两层的输出融合到Bi-LSTM网络中，学习miRNA-lncRNA交互序列特征之间的依赖关系，进而完成miRNA-lncRNA的预测。