CN113936738A

CN113936738A - 一种基于深度卷积神经网络的rna-蛋白质结合位点预测方法

Info

Publication number: CN113936738A
Application number: CN202111519617.0A
Authority: CN
Inventors: 潘正森; 周树森; 邹海林; 柳婵娟; 臧睦君; 刘通; 王庆军
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-01-14
Anticipated expiration: 2041-12-14
Also published as: CN113936738B

Abstract

本发明属于生物信息学领域，涉及一种基于深度卷积神经网络的RNA‑蛋白质结合位点预测方法，其中包括卷积神经网络和RNA序列数据处理等技术，旨在提高卷积神经网络模型对RNA‑蛋白质结合位点的预测性能。首先，确定不同窗口长度，使用不同长度的窗口分别处理RNA序列；其次，把处理好的RNA序列通过单热编码方式编码成矩阵，针对多个单热编码矩阵训练多个卷积神经网络模型，并保存这些训练好的模型用于预测；最后，将需要预测的RNA序列经过处理后得到多个单热编码矩阵，分别输入对应的卷积神经网络模型得到多个预测概率，取多个模型预测概率的平均值作为预测结果。

Description

一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法

技术领域

本发明属于生物信息学领域，涉及一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法，其中包括卷积神经网络和RNA序列数据处理等技术。

背景技术

RNA结合蛋白 (以下简称RBPs) 在许多生物过程中发挥关键作用，例如：基因调控、mRNA定位等。一些RBPs的突变可能会导致人类疾病。例如：RBPs FUS和TDP-43的突变可导致肌萎缩性侧索硬化症。因此，解码RBPs可以对许多生物学机制有更深入的见解。

通过实验的方法检测RBPs耗时且昂贵。使用从现有注释知识中学习到的模式来计算预测RBPs是一种快速的方法。许多的计算方法已经被提出，神经网络和支持向量机等相关方法已经被成功的应用于预测RBPs。

本发明最重要的创新点是提出了一种新的提取RNA序列结合信息的方法，即通过不同长度的窗口分别处理RNA序列，使得模型可以提取更丰富的序列结合信息，提高模型预测RNA-蛋白质结合位点的性能。

发明内容

一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法，包括预处理RNA序列、训练卷积神经网络和测试卷积神经网络三个过程，其具体步骤如下：

步骤1、为了从RNA序列中提取更多的结合信息，需要使用不同长度的窗口分别处理RNA序列，因此，需要首先确定不同的窗口长度；

步骤2、使用步骤1中确定的不同长度的窗口分别处理RNA序列；对于不等长的RNA序列，当窗口长度大于RNA序列时，使用补足碱基N把RNA序列填充到窗口长度；当窗口长度小于RNA序列时，根据窗口长度把RNA序列分割成多个有部分重叠的等长子序列，子序列不足的RNA序列使用全是补足碱基N的子序列填充；

步骤3、把步骤2中使用不同长度的窗口分别处理好的RNA序列数据通过单热编码的方式编码成多个矩阵；

步骤4、把步骤3中生成的多个单热编码矩阵作为多个卷积神经网络的输入，训练多个卷积神经网络模型；

步骤5、保存训练好的多个卷积神经网络模型；

步骤6、使用步骤5中保存好的模型来预测输入的RNA序列数据。

1. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤1的实现过程如下：

确定处理RNA序列所使用的不同窗口长度：将501个核苷酸的长度作为初始窗口长度MaxL；其余窗口长度分别以MaxL为初始长度递减核苷酸个数为X的整数倍；考虑到模型的预测性能以及模型的训练和测试时间，X的值确定为50，窗口的最小长度MinL为101个核苷酸；窗口的个数P根据公式 (1) 确定：

不同窗口的长度W根据公式 (2) 确定：

其中，i是窗口长度编号，最终产生P个不同长度的窗口。

2. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤2的实现过程如下：

使用步骤1中产生的P个不同长度的窗口分别处理RNA序列。根据L ₁计算卷积神经网络的输入频道数量Q ₁。根据L ₂计算卷积神经网络的输入频道数量Q ₂。例如：当窗口长度大于L ₁时，根据公式 (3) 计算Q ₁= 1，即卷积神经网络的输入频道数量是1，使用补足碱基N把L ₁填充到窗口长度作为一个频道。此时，窗口长度必定大于L ₂，根据公式 (3) 计算Q ₂= 1，使用补足碱基N把L ₂填充到窗口长度作为一个频道。当窗口长度小于L ₁时，把L ₁根据窗口长度分割成Q ₁个有部分重叠的等长子序列，根据公式 (3) 计算Q ₁；L ₂也根据窗口长度分割成Q ₂个有部分重叠的等长子序列，根据公式 (3) 计算Q ₂，如果Q ₂< Q ₁，则使用Q ₁- Q ₂个等于窗口长度的全是补足碱基N的子序列作为填充，此时卷积神经网络的输入频道数量等于Q ₁；

其中，L是RNA序列长度，W是窗口大小，S是窗口之间的重叠长度。当剩余RNA碱基数量大于10时，从后向前截窗口大小的长度作为一条子序列。

3. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤3的实现过程如下：

把步骤2中根据P个窗口长度处理好的P组RNA序列根据公式 (4) 处理得到P个单热编码矩阵，假设n个核苷酸长度的RNA序列

，则RNA序列S的单热编码矩阵M 表示为：

其中，i是核苷酸的索引，j是单热编码矩阵中对应的A, C, G, U的索引，补足碱基N在单热编码矩阵中使用 [0.25,0.25,0.25,0.25] 表示。

4. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤4的实现过程如下：

卷积神经网络模型使用步骤3中处理好的P个单热编码矩阵作为输入，每个矩阵都训练一个卷积神经网络模型，每个卷积神经网络模型包括两个隐藏层、一个全连接层和一个输出层；两个隐藏层参数的设置除了卷积核大小不同，其余参数都相同。两个隐藏层的卷积核大小分别是 (4，10)、(1，10)，都进行归一化操作和使用ReLU激活函数，池化层大小都是 (1，3)，第二个隐藏层的输出以0.25的概率进行Dropout操作；全连接层有200个节点，使用ReLU激活函数，并且全连接层的输出以0.25的概率进行Dropout操作；输出层有2个节点，使用Sigmoid激活函数。

5. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤5的实现过程如下：

保存步骤4中训练好的P个卷积神经网络模型，用于预测输入的RNA序列数据。

6. 一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤6的实现过程如下：

把输入的RNA数据重复步骤1-3得到P个单热编码矩阵，把单热编码矩阵输入到步骤5保存的P个模型中，每个模型得到一个预测结果，输入的RNA序列的最终预测结果取P个模型预测结果的平均值。

附图说明

图1为X = 50时不同的窗口长度。

图2、图3分别是窗口长度大于L ₁和窗口长度小于L ₁时，对L ₂的处理操作。其中图3中的Q ₁和Q ₂由公式 (3) 确定。

图4、图5分别是窗口长度大于L ₁和窗口长度小于L ₁时，把处理完的L ₂按照公式 (4)转变成单热编码矩阵。其中图5中的Q ₁和Q ₂由公式 (3) 确定。

图6是两层卷积神经网络流程图。

图7、图8分别训练多个卷积神经网络模型和测试训练好的模型的流程图。

具体实施方式

以下结合附图和实例对本发明进行详细说明。

本发明的目的是提出一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法，包括预处理RNA序列、训练卷积神经网络和测试卷积神经网络三个过程，其具体过程包括如下步骤：

步骤1、确定处理RNA序列所使用的不同的窗口长度：

X是不同窗口之间的长度差；考虑到模型预测性能以及模型训练和测试时间，X的值确定为50；如图1所示，其中窗口1是初始窗口，具有501个核苷酸长度；由于X = 50，因此窗口2的长度的是451个核苷酸；以此类推，每个窗口依次从初始窗口递减50个核苷酸，直至达到最小窗口长度101个核苷酸。根据公式 (1) 确定，当X = 50时总共产生P ( P = 9 )个不同长度的窗口，窗口的长度分别是501，451，401，351，301，251，201，151和101。

步骤2、使用步骤1中产生的P ( P = 9 ) 个不同长度的窗口分别处理L ₂：

当窗口长度大于L ₁时，L ₂的处理过程如图2所示。当窗口长度W = 501，根据公式(3) Q ₁= 1，Q ₂= 1，因此需要把L ₂填充到501；当窗口长度W = 451，根据公式 (3) Q ₁= 1，Q ₂= 1，因此需要把L ₂填充到451；当窗口长度W = 401，根据公式 (3) Q ₁= 1，Q ₂= 1，因此需要把L ₂填充到401；当窗口长度W = 351，根据公式 (3) Q ₁= 2，Q ₂= 1，因此需要把L ₂填充到351，再填充1个长度为351的全是补足碱基N的子序列；

当窗口长度小于L ₁时，L ₂的处理过程如图3所示。当窗口长度W = 101，根据公式(3) Q ₁= 7，Q ₂= 6，再填充1个长度为101的全是补足碱基N的子序列；当窗口长度W = 151，根据公式 (3) Q ₁= 4，Q ₂= 3，再填充1个长度为151的全是补足碱基N的子序列；当窗口长度W = 201，根据公式 (3) Q ₁= 3，Q ₂= 2，再填充1个长度为201的全是补足碱基N的子序列；当窗口长度W = 251，根据公式 (3) Q ₁= 2，Q ₂= 2，无需填充子序列；当窗口长度W =301，根据公式 (3) Q ₁= 2，Q ₂= 2，无需填充子序列。

步骤3、把步骤2中使用P ( P = 9 ) 个窗口分别处理好的P ( P = 9 ) 组RNA序列根据公式 (4) 处理得到P ( P = 9 ) 个单热编码矩阵：

假设RNA序列为：AUCCGGAAU，那么这条RNA的单热编码矩阵如下：

如图4所示，当窗口大小W = 501 时，L ₂使用补足碱基N在RNA序列后面填充到501，然后通过单热编码的方式编码成矩阵；窗口长度是451，401，351的情况也是如此。如图5所示，当窗口大小W = 101，根据L ₁计算出Q ₁( Q ₁= 7 )，把L ₂分割成Q ₂( Q ₂= 6 ) 个具有50个核苷酸重叠的子序列，然后再填充一个长度为101全是补足碱基N的子序列。把Q ₁个子序列通过单热编码的方式编码成矩阵。窗口长度是151，201，251，301的情况也是如此，但是子序列数量Q ₁、Q ₂和填充全是补足碱基N的子序列数量 ( Q ₁- Q ₂) 有所不同。

步骤4、使用步骤3中产生的P ( P = 9 ) 个单热编码矩阵，分别训练P ( P = 9 )个卷积神经网络；

每个卷积神经网络的参数都相同，卷积神经网络的架构如图6所示。卷积操作包括：输入矩阵与卷积核对应位置分别点乘再求和、卷积核移动；重复这两个步骤到遍历完输入矩阵。第一层包括：(4，10) 大小的卷积核进行卷积操作、归一化操作、使用ReLU激活函数和 (1，3) 大小的最大池化操作；第二层包括：(1，10) 大小的卷积核进行卷积操作、归一化操作、使用ReLU激活函数和 (1，3) 大小的最大池化操作；第二层的输出以0.25的概率随机丢弃节点 (Dropout操作) ；与全连接层200个节点连接，全连接层的输出以0.25的概率随机丢弃节点 (Dropout操作) 和使用ReLU激活函数；与输出层的2个节点连接，使用Sigmoid激活函数得到输出概率；

训练的卷积神经网络架构如图7所示：一条RNA序列经过步骤2、步骤3处理得到P ( P = 9 ) 个单热编码矩阵；针对每个单热编码矩阵都训练一个卷积神经网络，卷积神经网络的架构如图6所述。

步骤5、保存步骤4中训练好的卷积神经网络模型；

步骤6、如图8所示：使用步骤5中保存好的模型，把需要预测的RNA序列数据按照步骤1 - 3处理成P ( P = 9 ) 个单热编码矩阵，分别使用步骤5中保存好的P ( P = 9 ) 个模型处理这P ( P = 9 ) 个单热编码矩阵，每个卷积神经网络使用对应的单热编码矩阵正向传播一次输出P ( P = 9 ) 个概率值。

步骤6、需要预测的RNA序列数据的最终预测概率结果取步骤5中P ( P = 9 ) 个概率的平均值，即可实现高效、精准的预测。在来自CLIP-seq的大型数据集RBP-24上测试了本发明提出的模型的预测结果并与前人提出的模型进行对比 (AUC值越高代表模型性能越好)。GraphProt、deepnet-rbp、iDeepE和本发明提出的模型在24个数据集上的平均AUC分别是0.887、0.902、0.931和0.950。实验证明本发明提出的模型取得了最好的预测结果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度卷积神经网络的RNA-蛋白质结合位点预测方法，包括预处理RNA序列、训练卷积神经网络和测试卷积神经网络三个过程，其具体步骤如下：

步骤2、使用不同长度的窗口分别处理RNA序列；对于不等长的RNA序列，当窗口长度大于RNA序列时，使用补足碱基N把RNA序列填充到窗口长度；当窗口长度小于RNA序列时，根据窗口长度把RNA序列分割成多个有部分重叠的等长子序列，子序列不足的RNA序列使用全是补足碱基N的子序列填充；

步骤4、把步骤3中生成的多个单热编码矩阵作为卷积神经网络的输入，训练多个卷积神经网络模型；

步骤5、保存训练好的多个卷积神经网络模型；

2.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤1的实现过程如下：

确定处理RNA序列所使用的不同窗口长度：将501个核苷酸的长度作为初始窗口长度MaxL；其余窗口长度分别以MaxL为初始长度递减核苷酸个数为X的整数倍；考虑到模型的预测性能以及模型训练的和测试时间，X的值确定为50，窗口的最小长度MinL为101个核苷酸；窗口的个数P根据公式 (1) 确定：

不同窗口的长度W根据公式 (2) 确定：

其中，i是窗口长度编号，最终产生P个不同长度的窗口。

3.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤2的实现过程如下：

使用步骤1中产生的P个不同长度的窗口分别处理RNA序列；根据L ₁计算卷积神经网络的输入频道数量Q ₁，根据L ₂计算卷积神经网络的输入频道数量Q ₂；例如：当窗口长度大于L ₁时，根据公式 (3) 计算Q ₁= 1，即卷积神经网络的输入频道数量是1，使用补足碱基N把L ₁填充到窗口长度作为一个频道；此时，窗口长度必定大于L ₂，根据公式 (3) 计算Q ₂= 1，使用补足碱基N把L ₂填充到窗口长度作为一个频道；当窗口长度小于L ₁时，把L ₁根据窗口长度分割成Q ₁个有部分重叠的等长子序列，根据下面的公式 (3) 计算Q ₁；L ₂也根据窗口长度分割成Q ₂个有部分重叠的等长子序列，根据公式 (3) 计算Q ₂，如果Q ₂< Q ₁，则使用Q ₁- Q ₂个等于窗口长度的全是补足碱基N的子序列作为填充，此时卷积神经网络的输入频道数量等于Q ₁；

其中，L是RNA序列长度，W是窗口大小，S是窗口之间的重叠长度，当剩余RNA碱基数量大于10时，从后向前截窗口大小的长度作为一条子序列。

4.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤3的实现过程如下：

，则RNA序列S的单热编码矩阵M表示为：

其中，i是核苷酸的索引，j是单热编码矩阵中对应的A,C,G,U的索引，补足碱基N在单热编码矩阵中使用 [0.25,0.25,0.25,0.25] 表示。

5.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤4的实现过程如下：

卷积神经网络模型使用步骤3中处理好的P个单热编码矩阵作为输入，每个矩阵都训练一个卷积神经网络模型，每个卷积神经网络模型包括两个隐藏层、一个全连接层和一个输出层；两个隐藏层参数的设置除了卷积核大小不同，其余参数都相同；两个隐藏层的卷积核大小分别是 (4，10)、(1，10)，都进行归一化操作和使用ReLU激活函数，池化层大小都是(1，3)，第二个隐藏层的输出以0.25的概率进行Dropout操作；全连接层有200个节点，使用ReLU激活函数，并且全连接层的输出以0.25的概率进行Dropout操作；输出层有2个节点，使用Sigmoid激活函数。

6.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤5的实现过程如下：

7.根据权利要求1所述的一种基于卷积神经网络的RNA-蛋白质结合位点预测方法，步骤6的实现过程如下：