CN114023376A

CN114023376A - 基于自注意力机制的rna-蛋白质结合位点预测方法和系统

Info

Publication number: CN114023376A
Application number: CN202111297183.4A
Authority: CN
Inventors: 朱敏; 王心翌; 张铭洋; 姚林; 龙春林
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-02-08
Anticipated expiration: 2041-11-02
Also published as: CN114023376B

Abstract

本发明公开了一种基于自注意力机制的RNA‑蛋白质结合位点预测方法和系统，使用RNA与蛋白质结合位点处及上下游的序列特征来训练深度学习模型，并使用所述模型对RNA‑蛋白质相互作用结合位点进行预测；在序列特征的编码过程中本发明引入k‑mer嵌入的编码方式，编码相邻核苷酸间的上下文关系，为模型提供更多有效的特征；在所述特征的提取过程中本发明使用自注意力机制构建预测模型，从全局的角度聚焦RNA序列特征，并赋予关键子序列更高的权重以使网络充分学习关键特征，进而提高模型预测准确率；最后，在基准数据集上对本发明提出的方法进行评价，在预测精度方面优于现有技术。

Description

基于自注意力机制的RNA-蛋白质结合位点预测方法和系统

技术领域

本发明涉及生物信息技术领域，具体涉及一种基于自注意力机制的RNA-蛋白质结合位点预测方法和系统。

背景技术

RNA结合蛋白(RBPs)在基因调控过程中发挥重要作用。研究表明，除少数RNA能以核酶的形式单独发挥功能外，大部分RNA是通过与蛋白质结合形成RNA-蛋白质复合物参与基因调控。RNA结合蛋白在RNA合成、选择性剪接、修饰、转运和翻译等生命活动的调控中都起到关键作用。例如，异质核糖核蛋白(HNRNPL)不仅直接调控许多RNAs的选择性剪接，还能通过反向剪接调控环状RNAs(circRNA)的形成。

为更好地理解RNA结合蛋白功能，研究者需要可靠的预测模型指导生物实验定位序列上的RNA-蛋白质结合位点。高通量技术(Hi-C)存在耗时长且花费高的问题，但它提供了大量经过生物实验验证的RNA-蛋白质结合位点数据，这促进了用于预测RNA-蛋白质结合位点的生物信息学计算模型的发展。为减少高通量实验的耗时和成本，研究人员越来越依靠RNA-蛋白质结合位点预测模型来指导识别结合位点。

根据预测模型所用技术的类别，可将该领域已有的计算方法分为两类：基于机器学习的预测方法与基于深度学习的预测方法。基于机器学习的预测方法首先被应用于预测RNA-蛋白质结合位点，但该类方法存在难以准确提取有效特征的问题。深度学习通过自学习的方式提取序列特征，是当前计算方法构建模型的首要选择。相较于机器学习，深度学习无需手动构建特征，而是通过自学习的方式获取信息表示，这使得模型可以更有效地学习序列特征。

但现有基于深度学习的RNA-蛋白质结合位点预测方法存在一些不足之处。基于深度学习的预测流程可划分为编码和模型阶段。在编码阶段，当前编码方式常采用独热编码(one-hot encoding)，仅编码单个核苷酸却忽略了相邻核苷酸间的上下文关系，而结合位点是由一系列相邻核苷酸组成的子序列，编码相邻核苷酸间的上下文关系帮助模型更准确地预测RNA-蛋白质的结合位点。此外，在模型阶段，现有模型多采用卷积神经网络(CNN)与递归神经网络(RNN)相结合的方式，但相较于自注意力机制(self-attention mechanism)，现有模型提取RNA数据特征不充分，因此预测精度仍有待进一步提高。

发明内容

针对上述问题，本发明的目的在于提供一种基于自注意力机制的RNA-蛋白质结合位点预测方法和系统，从全局的角度聚焦RNA序列特征，并赋予关键子序列更高的权重以使网络充分学习关键特征，进而提高模型预测准确率。技术方案如下：

一种基于自注意力机制的RNA-蛋白质结合位点预测方法，包括如下步骤：

S1：数据获取与预处理：获取RNA与蛋白质结合位点处及其上下游序列数据，并将RNA序列统一为固定的长度；

S2：基于k-mer嵌入编码序列数据：对预处理后数据采用滑动窗口法获取序列的k-mer表示，独热向量化k-mer子序列后通过词嵌入降维独热向量；

S3：基于自注意力网络预测结合位点：为k-mer嵌入后的序列添加位置编码，构建基于自注意力机制的神经网络提取序列特征，将所提取特征通过单层全连接网络分类，将自注意力网络的输出矩阵转换为概率分布，预测是否具有结合位点；

S4：模型训练：在训练集上基于反向传播算法进行模型训练，得到RNA-蛋白质结合位点预测模型；

S5：预测结合位点：通过预测模型处理待测RNA序列，判断待测序列是否具有结合位点。

进一步的，所述步骤S1中，RNA与蛋白质结合位点数据来自于参考基因组对应的片段序列读取的峰值片段，该基因组位置与此处的RBP结合；将所有基因有结合位点的正样本序列随机组合，获取得到阴性结合位点数据，做为负数据集，该基因组位置与此处的RBP不结合。

更进一步的，所述步骤S2具体为：

S21：序列的k-mer表示：滑动窗口从序列首端滑至序列尾端，每次截得序列部分即为k-mer子序列，长为l的序列共截得(l-k+1)个k-mer子序列，k为滑动窗口长度；

S22：独热向量化：每个k-mer子序列被编码为长为4^k(4代表RNA的四种核苷酸类型)的独热向量，将k-mer子序列的独热向量按序拼接，得到序列的独热矩阵

S23：词嵌入：设置嵌入后维度为d_model，将独热矩阵I与嵌入矩阵

相乘，得到k-mer嵌入输出矩阵

具体计算公式为：

更进一步的，所述步骤S3具体为：

S31：添加位置编码：

位置编码中使用的正弦和余弦函数公式：

其中，pos∈(0，l-1)表示子序列在整个k-mer词序列中的位置，i∈(0，d_model/2-1)表示子序列位置编码的各个维度；

将k-mer子序列的位置编码向量按序拼接，得到序列的位置编码矩阵

P＝[PE₀，PE₁，...，PE_l-1]^T

由矩阵

表示k-mer嵌入输出矩阵O和位置编码矩阵P之和，计算公式如下：

X＝P+O

S32：构建基于自注意力机制的神经网络提取序列特征：

所述基于自注意力机制的神经网络由N个相同的层组成，每层包含两个子层：多头自注意力子层和位置前馈网络子层，每个子层的输出通过残差连接与层归一化处理，且每个子层均生成维度为d_model的输出；归一化处理公式如下：

H(x)＝LayerNorm(x+Sublayer(x))

其中，Sublayer(x)表示该子层实现的功能，x表示子层的输入；

S33：预测结合位点：

将自注意力网络的输出矩阵

展平为一维数组，再通过sigmoid做为激活函数的一次线性变换来计算概率p，计算公式如下：

p＝sigmoid(flatten(A)W+b)

sigmoid(x)＝1/(1+e^-x)

其中，W∈R^m×1为线性变化矩阵参数，此处m＝l×d_model，表示展平后一维数组的维度。

更进一步的，所述多头自注意力子层包括三个矩阵输入：

和

这三个矩阵通过如下线性变化得到：

Q＝XW^Q

K＝XW^K

V＝XW^V

其中，

和

为三个线性变化矩阵；

多头注意力计算公式如下：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中，

和

是线性传播参数；此处d_k＝d_model/h，表示每个头经注意力计算后的输出维度；h表示多头注意力的头数；

所述位置前馈网络子层包括两个线性变换，中间通过ReLU激活函数激活：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中，

和

为转换参数；此处d_ff＝d_model/2，表示第一次线性变换后的维度；b₁和b₂分别表示两次线性变化中加入的偏置项。

更进一步的，所述步骤S4具体为：

S41：采用随机失活来减少模型的过拟合：

S411：在计算矩阵X后，添加dropout函数处理矩阵X：

dropout(X，p_drop)

S412：在完成子层计算后，添加dropout函数处理输出：

dropout(Sublayer(x)，p_drop)

S413：在将输出矩阵

展平为一维数组后，添加dropout函数处理输出：

dropout(flatten(A)，p_drop)

其中，p_drop为dropout概率；

S42：加速模型收敛：通过adam优化器来加速模型收敛，损失函数采用最小平方差损失函数训练模型；

其中，y_i和

分别表示实际标签与预测标签，n表示实际标签总个数。

一种构建用于RNA-蛋白质结合位点预测模型的系统，包括处理器，存储器以及储存在存储器上的计算机程序，所述计算机程序在处理器上执行实现上述方法。

本发明的有益效果是：

1)在编码阶段，本发明引入k-mer嵌入(k-mer embedding)的编码方式，编码相邻核苷酸间的上下文关系，为模型提供更多有效的序列特征；

2)在模型阶段，本发明引入自注意力机制构建预测模型，从全局的角度聚焦RNA序列特征，并赋予关键子序列更高的权重以使网络充分学习关键特征，进而提高模型预测准确率；

3)在相同数据集上与现有模型对比，取得了最优的预测准确率(0.945)，相较于之前最好的算法iDeepE(目前已公开的技术方案中，同数据集上预测准确率最高的模型)的平均准确率0.931，提升了1.4个百分点；

4)本发明通过已有实验数据训练神经网络，来预测未被验证的序列是否具有结合位点以指导生物实验，有效地减少了实验时间与财力损耗。

附图说明

图1是本发明种基于自注意力机制RNA-蛋白质结合位点预测方法和系统的模型结构示意图；

图2是本发明基于自注意力机制RNA-蛋白质结合位点预测方法和系统的流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

本发明提出了一种基于自注意力机制RNA-蛋白质结合位点预测方法和系统。该方法通过k-mer嵌入编码方式编码相邻核苷酸间的上下文关系，并引入自注意力机制构建预测模型，赋予关键子序列更高的权重以使网络充分学习关键特征，进而提高模型的预测准确率。

本实施例提供了一种基于自注意力机制RNA-蛋白质结合位点预测方法，参考图1与图2，其过程是基于python3.8.6-tensorflow2.4.0实现。该方法包括：

S1：数据获取与预处理，获取RNA序列数据并进行数据预处理；

S2：基于k-mer嵌入编码序列数据，对预处理后数据进行k-mer嵌入(k-merembedding)编码；

S3：基于自注意力网络预测结合位点，构建基于自注意力机制(self-attentionmechanism)的神经网络提取数据特征，预测是否具有结合位点；

S4：模型训练，在训练集上基于反向传播算法进行模型训练，得到RNA-蛋白质结合位点预测模型；

S5：预测结合位点，通过预测模型处理待测RNA序列，判断待测序列是否具有结合位点。

具体而言，上述五个步骤的详细过程为：

一、数据获取与预处理

从公开数据库中获取RNA与蛋白质结合位点处及其上下游序列数据，固定序列长度。

1、获取数据。获取的RNA与蛋白质结合位点处及其上下游序列数据来源于经过ENCODE国际项目(DNA元件百科全书)所产生的eCLIP数据，其中结合位点数据来自于参考基因组对应的片段序列读取的峰值片段(该基因组位置与该RBP结合，分类标签为1)。此外，使用bedtools shuffle工具将所有基因有结合位点的正样本序列随机组合，获取得到阴性结合位点数据，做为负数据集(该基因组位置与该RBP不结合，分类标签为0)。

2、固定序列长度。将RNA序列统一为固定的长度l＝501表示，确保此长度已包含每条RNA足够的特征与辅助预测信息。

1)长度不足，尾端扩增。若RNA序列长度s不足l，则在序列的尾端填充(l-s)个‘N’，其中‘N’代表填充的占位符；

2)长度超过，尾端截断。若RNA序列长度s超过l，舍去长度为(s-l)的尾端序列。

二、基于k-mer嵌入编码序列数据

采用滑动窗口法获取序列的k-mer表示，独热向量化k-mer子序列后通过词嵌入降维独热向量。

1、序列的k-mer表示。采用滑动窗口法获取序列的k-mer表示，其中滑动窗口长为k＝4，步长为1。滑动窗口从序列首端滑至序列尾端，每次截得序列部分即为k-mer子序列，长为l的序列共截得(l-k+1)个k-mer子序列。

2、独热向量化。独热向量化k-mer子序列，其中每个k-mer子序列被编码为长为4k的独热向量，其中，4^k中的“4”代表RNA的四种核苷酸类型。将k-mer子序列的独热向量按序拼接，得到序列的独热矩阵

3、词嵌入。通过词嵌入降维独热向量，设置嵌入后维度为d_model＝10，将独热矩阵I与嵌入矩阵

相乘，得到k-mer嵌入输出矩阵

具体计算公式为：

其中嵌入矩阵M的参数随机初始化，后续通过模型的反向传播算法优化。计算过程中引入

的意义是将嵌入后的值适当扩大，确保其在后续步骤中添加位置编码后效果不会消失。

三、基于自注意力网络预测结合位点

将添加位置编码后的序列数据通过自注意力网络提取序列特征，再经过单层全连接网络分类，以预测结合位点。

1.添加位置编码。为k-mer嵌入后的序列添加位置编码，以确保后续自注意力机制考虑到序列的位置信息。位置编码中使用的正弦和余弦函数公式：

其中pos∈(0，l-1)表示子序列在整个k-mer词序列中的位置，i∈(0，d_model/2-1)表示子序列位置编码的各个维度。

P＝[PE₀，PE₁，...，PE_l-1]^T

由矩阵

X＝P+O

2.序列特征提取。通过自注意力网络完成序列的特征提取。该网络由N个相同的层组成，每层包含两个子层：多头自注意力(Multi-Head Attention)子层和位置前馈网络(Position-wise Feed-Forward Networks)子层。该实施例中层数设置为N＝6。每个子层的输出通过残差连接(residual connection)与层归一化(layer normalization)处理，公式如下：

H(x)＝LayerNorm(x+Sublayer(x))

其中Sublayer(x)表示该子层实现的功能。为了简化残差连接计算，每个子层都会生成维度为d_model的输出。

1)多头自注意力子层

多头自注意力子层包括三个矩阵输入：

和

这三个矩阵通过如下线性变化得到：

Q＝XW^Q

K＝XW^K

V＝XW^V

其中三个线性变化矩阵

和

的参数随机初始化，后续通过模型的反向传播算法优化。

多头注意力允许自注意力网络关注来自不同表示子空间的信息，这有助于模型学习更多的序列特征。多头注意力计算公式如下：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O

其中

和

是线性传播参数，这里d_k＝d_model/h，表示每个头经注意力计算后的输出维度；h表示多头注意力的头数，本实施例设置h＝2。

2)位置前馈网络子层

位置前馈网络子层由两个线性变换组成，中间通过ReLU激活函数激活：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

其中

和

为转换参数，这里d_ff＝d_model/2，表示第一次线性变换后的维度；b₁和b₂分别表示两次线性变化中加入的偏置项。

3.预测结合位点。将所提取特征通过单层全连接网络分类，将自注意力网络的输出矩阵转换为概率分布，预测是否具有结合位点。将输出矩阵

p＝sigmoid(flatten(A)W+b)

sigmoid(x)＝1/(1+e^-x)

其中线性变化矩阵参数W∈R^m×1随机初始化，后续通过模型的反向传播算法优化，这里m＝l×d_model，表示展平后一维数组的维度。

四、模型训练

在训练集上基于反向传播算法进行模型训练，采用随机失活(dropout)减少过拟合，并通过adam优化器加速模型收敛，得到RNA-蛋白质结合位点预测模型。

1.减少过拟合。使用随机失活来减少模型的过拟合，在模型的三个位置加入dropout函数。该实施例中dropout概率设置为p_drop＝0.05。

1)矩阵X计算后：在计算了矩阵X后，添加dropout函数处理矩阵X。

dropout(X，p_drop)

2)子层计算Sublayer(x)后：在完成了子层计算后，添加dropout函数处理输出。

dropout(Sublayer(x)，p_drop)

3)输出矩阵A展平操作后：在将输出矩阵

展平为一维数组后，添加dropout函数处理输出。

dropout(flatten(A)，p_drop)

2.加速模型收敛。通过adam优化器来加速模型收敛，损失函数采用最小平方差(mean square error)损失函数训练模型。

其中，y_i和

分别表示实际标签与预测标签，n表示实际标签总个数。

五、预测结合位点

通过预测模型处理待测RNA序列，得到预测概率p。若p＞0.5，则预测该待测序列具有结合位点；反之，预测待测序列不具有结合位点。

本发明提供的预测方法，在具体实施时，可采用软件方式实现流程的自动运行。运行流程的装置也应当在本发明的保护范围内。

以下通过对比实验来验证本发明的有益效果。

本实验采用的数据从公开数据库(HITS-CLIP、PAR-CLIP、iCLIP)中提取而得，包括21个RBP的24个CLIP实验数据集。其中，23个数据集来自doRiNA，另一个数据集通过HITS-CLIP测量PTB结合位点。数据集中RNA序列的长度在200-500之间。

我们将本发明提出方法的性能与该领域的五种典型方法进行了比较，它们分别是GraphProt(方法1)、deepnet-rbp(方法2)、iDeepV(方法3)、iDeepE(方法4)和RPI-Net(方法5)。我们通过ROC曲线下面积(AUC)评估模型的性能，在24个数据集上各模型的AUC性能表现如表1所示。

表1对比实验结果

从表1可见，本发明方法优于上述五种方法。具体而言，我们的方法的平均AUC为0.945，分别超过GraphProt、deepnet RBP、iDeepV、RPI-Net、iDeepE了5.8％、4.2％、3.2％、1.8％、1.4％，表明本发明的方法具有更强的RNA-蛋白质结合位点预测能力。

此外，我们的方法在小样本数据上也有很好的表现。在少于20000个训练样本的10个RBP上，本发明方法在其中7个RBP中具有最佳AUC，表明其在学习小样本序列方面的优势。例如，在最小的数据集ALKBH5上，本方法的AUC为0.788，超过iDeepE 3％；在第二小数据集C17ORF85上，本方法比RPI-Net高5.8％。

由此可得出结论，与已有RNA-蛋白质结合位点预测方法相比，本发明方法拥有更高的预测精度。

综上所述，本发明设计了一种基于自注意力机制RNA-蛋白质结合位点预测方法和系统，能够有效提高预测RNA-蛋白质结合位点的性能。本发明的研究成果可应用于生物医学领域，研究人员可以通过本方法的帮助，指导识别RNA序列的结合位点，进而对RBP进行更深入地研究。此外，由于自注意力机制善于提取序列的关键特征，本发明研究成果不仅能应用于RNA-蛋白质结合位点预测问题中，还能应用于其他序列间发生相互作用的基因元件之间的预测。

Claims

1.一种基于自注意力机制的RNA-蛋白质结合位点预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于自注意力机制的RNA-蛋白质结合位点预测方法，其特征在于，所述步骤S1中，RNA与蛋白质结合位点数据来自于参考基因组对应的片段序列读取的峰值片段，该基因组位置与此处的RBP结合；将所有基因有结合位点的正样本序列随机组合，获取得到阴性结合位点数据，做为负数据集，该基因组位置与此处的RBP不结合。

3.根据权利要求1所述的基于自注意力机制的RNA-蛋白质结合位点预测方法，其特征在于，所述步骤S2具体为：

S22：独热向量化：每个k-mer子序列被编码为长为4^k独热向量，将k-mer子序列的独热向量按序拼接，得到序列的独热矩阵