CN112270955A

CN112270955A - 一种注意力机制预测lncRNA的RBP结合位点的方法

Info

Publication number: CN112270955A
Application number: CN202011144401.6A
Authority: CN
Inventors: 宋金淼; 谢凡森; 杨紫琪; 段晓东; 张子晨
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-01-26

Abstract

一种注意力机制预测lncRNA的RBP结合位点的方法，其属于生物信息学领域。该方法采用一种基于高阶统计的编码方法，利用序列特征进行高维空间表示作为模型输入。在基准数据集上对Att_Cnn_Caps模型进行评价，取得了比传统分类器更高的分类精度，采用了基于注意机制、卷积神经网络的联合处理层。它能够针对输入矩阵的不同位置捕获不同的注意权重，提取出更高级的特征。由于一个完整的序列包含复杂的信息，使用胶囊网络来提高预测性能。胶囊网络采用矢量表示输入特征，采用动态路由机制更新参数。

Description

一种注意力机制预测lncRNA的RBP结合位点的方法

技术领域

本发明涉及一种注意力机制预测lncRNA的RBP结合位点的方法，其属于生物信息学领域。

背景技术

RNA结合蛋白(RBP)在不同的翻译后阶段与靶RNA分子相互作用，包括选择性剪接、mRNA稳定、定位、翻译和降解。发现lncrna与蛋白的相互作用，发现RBPs的结合位点，有助于了解转录后的调控机制，探索癌症的发病机制及在其他疾病中的可能作用，并找到潜在的药物靶点。基因组学由于下一代测序技术的广泛应用，使人们可以通过大量的实验获得RBPs数据，但这些技术往往效率低、周期长、成本高。利用计算方法从序列中预测RBPs结合位点是一种重要的手段。RBPs预测的本质是一个分类问题，序列特征表示方法直接影响分类的精度。常见的RNA序列特征表示包括序列信息、结构信息、理化性质及其组合方法。

近年来，具有强大仿真预测能力的数据驱动深度学习方法得到了广泛的应用。例如，DeepBind使用微阵列和输入深卷积神经网络(CNN)的测序数据来预测序列特异性。IDeepS考虑RBP结合序列的结构信息，训练两个独立的CNN提取序列的特征和二级结构的特征，然后将它们合并到一个长-短期记忆网络(LSTM)中，得到改进模型预测性能的高级特征。IDeepE考虑到序列的局部和全局特征之间的差异，将局部和全局特征输入到不同的CNN中，以提高RBP结合位点的预测能力。DeepRiPe提出了一个多任务多模式DNN模型，旨在描述RBP绑定偏好。CircRNA-RBP采用基于密码子的编码方案提取序列特征，并训练卷积神经网络和递归神经网络(RNN)混合深度学习模型来识别CircRNA结合蛋白的结合偏好。DeepMVF-RBP将多视图特征表示与深度信任网络(DBN)方法相结合，用于预测新的候选结合位点和发现潜在的结合模体。MmCNN将序列和结构信息转换为一个热编码和结构表达矩阵，并输入多个多尺度卷积模块来检测RBP结合位点的模体。然而，这些特征表示方法由于维数低、编码规则简单、忽略了RBP结合位点短距离内的核苷酸相关性，可能会丢失大量的关键序列信息。另外，CNN通过卷积运算从输入信息中提取深度特征，忽略了特征之间的相关性。此外，由于合并操作会丢失一些信息，这限制了CNN的性能。

因此，本发明提出了一种预测lncRNA的RBP结合位点的方法，采用一种基于高阶统计的编码方法，将用于高维空间表示的序列特征作为模型输入。在基准数据集上对预测方法进行了评价，取得了比传统分类器更高的分类精度。

发明内容

本发明的目的在于提供了一种新的预测植物lncRNA的RBP结合位点的方法，采用本方法能在不丢失关键序列信息的情况下，准确提高预测效率。

为达到上述效果，本发明的技术方案如下：

一种注意力机制预测植物lncRNA的RBP结合位点的方法，包括以下步骤：

S1：对于分类问题，建立合理的基准数据集是预测高精度分类效果的必要步骤。正、负样本分布、数据集大小和噪声与深度学习的学习质量密切相关。在我们的工作中，所有的数据集都是由Zhang SW等人(Zhang SW,Wang Y,Zhang XX,Wang JQ.Prediction ofthe RBP binding sites on lncRNAs using the high-order nucleotide encodingconvolutional neural network.Anal Biochem.2019；583:113364.doi:10.1016/j.ab.2019.113364)通过实验验证的HOCNNLB中获得。

S2：考虑了核苷酸之间的依赖关系，采用高阶编码提取序列特征可以显著提高预测的准确性。然而，传统的独热编码方法和高阶编码方法都忽略了序列本身的统计信息。因此，这里我们利用核苷酸之间的统计信息来增加序列特征的显著差异，并提出一种基于高阶统计的编码方法。

S3：胶囊神经网络(CapsNet)是Hinton于2017年10月首次提出的一种用于图像识别和自然语言处理的深度学习网络体系结构，它可以解决CNNs的许多固有问题。胶囊层不同于CNN，输入和输出都使用向量，在训练过程中加入动态路由算法来调整胶囊参数。

进一步地，步骤S1中数据集建立的过程具体包括：

S11：HOCNNLB生成的数据集包含31个RBPs结合位点数据集，来自lncRNAs上的12个蛋白质。每个核苷酸都包含一个被认为是结合位点的相互作用位点，在31个实验中，每个实验都从lncRNA上未被识别为相互作用位点的位点构建了一个阴性样本数据集。

S12：为避免正、负样本不平衡影响预测效果，每次实验设置相同数量的正、负样本。每个数据集使用80％的正/负样本作为训练集，其余样本作为独立测试集。

进一步地，步骤S2中高阶编码提取序列特征的具体步骤包括：

S21：给定一个lncRNA序列，用s＝s₁，s₂，…，s_n和n个核苷酸表示。基于高阶统计的编码矩阵S的数学表达式如下：

其中：其中s′表示对应的k-mer序列，k_i代表第i个k-mer为4的核苷酸字串，矩阵列是转换序列s′中k-mer为j子串的基于的是统计的one-hot编码的第j行向量，其中j∈{1,2…,n+k-1}。s′_j是s′的第j个特征，Σs′_j表示的是第j个k-mer在s′中出现的次数。

S22：与基于二阶统计的编码方式相同，考虑到lncRNA链相邻核苷酸在较大距离处的相互关系，采用基于三阶统计的编码方式。它包含64个三核苷酸(i.e.,AAA,…,UUU)，每一个都编码为64维one-hot载体。对于任何lncRNA序列，考虑到k个相邻核苷酸在短距离内的依赖性，将产生4^kk-mer核苷酸，并且每个k-mer核苷酸将被映射到一个4k维的高维空间。

S23:选择合适的k值可以充分表达高维空间中RBPs结合位点附近短距离内隐藏的相邻核苷酸的位置依赖信息，从而提高模型的性能。然而，这将导致运行时间和计算量随着k-mer长度范围的变化而线性增加。考虑到这些情况，为了防止k值过大，避免模型过拟合，本文采用了一些相对k值进行检验。

进一步地，步骤S3中胶囊网络的构建的具体步骤包括：

S31：胶囊层不同于CNN，输入和输出都使用向量，在训练过程中加入动态路由算法来调整胶囊参数，主要分为下胶囊层、动态路由层和上胶囊层层。CapsNet利用路由将低层胶囊的信息动态传输到高层胶囊，克服了CNN中池化层信息的丢失。

S32：CapsNet使用向量运算来提高处理空间位置特征的能力，并使用较少的训练数据进行训练。与卷积池操作不同，CapsNet有相同的变化，对输入的微小变化导致输出的细微变化得以保留。

S33：在CapsNet中，它是以载体的形式运输的，因此胶囊需要朝激活的方向进行处理。挤压激活函数用于将输入向量压缩到(0，1)，同时保持向量方向。输出u_j的计算公式如下:

其中：v_j是胶囊j的矢量输出，s_j是总输入量，并且v_j和s_j在同一方向。公式的第一项是压缩函数。当s_j较大时，第一项接近1；当s_j很小，第一项则接近0。公式的第二项置换向量是s_j，使输出向量v_j的长度在(0，1)范围内。CapsNet的第一层是具有ReLU激活函数的卷积层。除第一层胶囊外，所有胶囊的总输入s_j是所有预测向量的加权和是下层胶囊的

层胶囊的输出与重量矩阵W_ij相乘，其公式如下：

其中j∈[1,k]，k是类的数量，c_ij是动态路由过程中的耦合系数，表示每个下层胶囊与其对应的上层胶囊之间的权重。对于胶囊，c_ij的权重之和是1。c_ij采用由softmax函数确定的动态路由算法，计算公式如下：

其中b_ij是胶囊i和胶囊j的对数概率，用于更新c_ij并将其初始化为0。路线迭代期间，b_ij不断更新，更新公式如下：

与现有技术相比，本发明所能达到的有益效果是：该方法提出了一种基于高阶统计的编码方法，利用序列特征进行高维空间表示作为模型输入。在基准数据集上对Att_Cnn_Caps模型进行评价，取得了比传统分类器更高的分类精度，采用了基于注意机制、卷积神经网络的联合处理层。它能够针对输入矩阵的不同位置捕获不同的注意权重，提取出更高级的特征。由于一个完整的序列包含复杂的信息，使用胶囊网络来提高预测性能。胶囊网络采用矢量表示输入特征，采用动态路由机制更新参数。

1、我们的模型不同于以往对序列使用单一热表示的方法，不能获得足够的信息。我们设计了一种基于统计的高阶编码方法来表示隐藏在lncRNA序列中的高维信息。

2、联合处理层包括注意机制、卷积神经网络。它能够在输入矩阵的不同位置获取不同的关注权值，提取更高级的特征。

3、由于一个完整的序列包含复杂的信息，胶囊网络代替改进预测性能CNN。胶囊网络采用向量表示输入特征，动态路由机制更新参数。

附图说明

图1为本发明CaspsNet的结构图。

图2为本发明把输入的lncRNA序列使用基于高阶统计量的编码方法。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为例更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的；下面结合附图和实施例对本发明的技术方法做进一步的说明。

实施例1

如图1和图2所示一种预测植物lncRNA的RBP结合位点的方法，包括以下步骤：

S1：对于分类问题，建立合理的基准数据集是预测高精度分类效果的必要步骤。正、负样本分布、数据集大小和噪声与深度学习的学习质量密切相关。在我们的工作中，所有的数据集都是由HOCNNLB产生的。

进一步地，步骤S1中数据集建立的过程具体包括：

S22：与基于二阶统计的编码方式相同，考虑到lncRNA链相邻核苷酸在较大距离处的相互关系，采用基于三阶统计的编码方式。它包含64个三核苷酸(i.e.,AAA,…,UUU)，每一个都编码为64维one-hot载体。对于任何lncRNA序列，考虑到k个相邻核苷酸在短距离内的依赖性，将产生4^k个k-mer核苷酸，并且每个k-mer核苷酸将被映射到一个4k维的高维空间。

进一步地，步骤S3中胶囊网络的构建的具体步骤包括：

层胶囊的输出与重量矩阵W_ij相乘，其公式如下：

实施例2

本发明预测植物lncRNA的RBP结合位点的方法的具体步骤：

上述实施例为本发明较佳的实施方式，但本发明并不受上述实施例的限制，其他任何背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

步骤1：数据集的建立，利用HOCNNLB方法建立的数据集对Att_Cnn_Caps模型进行评价，该模型包括12个与lncRNA相关的蛋白质，共31个子数据集。每个子数据集都有一个单独的训练集和测试集。

步骤2：构建联合处理层。此处理层将基于统计的lncRNA序列编码处理成高维空间矩阵，以进一步研究相邻核苷酸的依赖性，并在短距离内定位重要位置。联合处理层利用注意机制获取lncRNA序列的重要位置权重信息，提高RBP结合位点的预测能力。根据方程下面方程计算注意机制，得到权重矩阵：

t_i＝tanh(w_hh_i+b_h)

其中h_i是基于高阶统计的编码矩阵的i特征，w_h和b_h是权重和偏移量。a_i是表示特征h_i的注意权重向量，根据注意权重向量a_i，对原始h_i进行加权，得到注意机制的输出p，计算公式如下：

其中

代表的是拼接操作，本发明采用注意特征矩阵输出矩阵与原始特征矩阵的拼接运算作为CNN输入，实现了高级特征提取。利用maxpool层降低训练参数，增加模型的稳健性。利用Relu激活函数增加了网络的稀疏性，减少了参数间的相互依赖关系，减少了过拟合的发生。

步骤3：利用注意力机制构建胶囊网络。胶囊网络结构主要分为下胶囊层、动态路由层和上胶囊层层。层CapsNet利用路由将低层胶囊的信息动态传输到高层胶囊，克服了CNN中池层信息的丢失。

表1本预测方法与其他方法的平均准确率对比

Method	Acc	Sn	Sp	MCC	AUC
						Att_Cnn_Caps	0.925±0.054	0.923±0.064	0.925±0.057	0.849±0.107	0.967±0.035
HOCNNLB	0.902±0.066	0.924±0.064	0.877±0.088	0.803±0.130	0.953±0.046
						iDeeps	0.636±0.071	0.683±0.117	0.599±0.156	0.293±0.136	0.706±0.080
DeepBind	0.707±0.066	0.706±0.075	0.707±0.078	0.415±0.135	0.778±0.074

表1为本发明的lncRNA的RBP结合位点的预测方法在31个数据上的平均准确率与其他方法对比。结果表明，在不同的实验数据集上，胶囊网络具有不同的性能。Ago2-5蛋白最高AUC为0.999，RBM10-2蛋白最低AUC为0.850。31个实验的平均AUC为0.967，29个实验的AUC大于0.90。实验结果表明本Att_Cnn_Caps模型对lncRNA链上RBP结合位点的识别是有效的。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种注意力机制预测植物lncRNA的RBP结合位点的方法，其特征在于，包括以下步骤：

S1：建立基准数据集，数据集的参数包括正、负样本分布、数据集大小和噪声；基准数据集建立的过程具体包括：

S11：基准数据集由HOCNNLB生成，基准数据集包含31个RBPs结合位点数据集，来自lncRNAs上的12个蛋白质；

S12：实验设置相同数量的正、负样本，每个基准数据集使用80％的正/负样本作为训练集，其余样本作为独立测试集；

S2：构建联合处理层：结合核苷酸之间的依赖关系，采用高阶编码提取序列特征，具体步骤包括：

S21：给定一个lncRNA序列，用s＝s₁，s₂，…，s_n和n个核苷酸表示；基于高阶统计的编码矩阵S的数学表达式如下：

其中：其中s′表示对应的k-mer序列，s′_j是s′的第j个特征；Σs′_j表示的是第j个k-mer在s′中出现的次数；k_i代表第i个k-mer为4的核苷酸字串，矩阵列是转换序列s′中k-mer为j子串的基于的是统计的one-hot编码的第j行向量，其中j∈{1,2…,n+k-1}；

S22：结合lncRNA序列相邻核苷酸在较大距离处的相互关系，采用基于三阶统计的编码方式；lncRNA序列包含64个三核苷酸，每一个都编码为64维one-hot载体；对于任何lncRNA序列，考虑到k个相邻核苷酸在短距离内的依赖性，将产生4^k个k-mer核苷酸，并且每个k-mer核苷酸将被映射到一个4k维的高维空间；

S3：利用注意力机制构胶囊神经网络，具体步骤包括：

S31：胶囊层在训练过程中加入动态路由算法来调整胶囊参数，主要分为下胶囊层、动态路由层和上胶囊层，胶囊神经网络利用路由将低层胶囊的信息动态传输到高层胶囊；

S32：在胶囊神经网络中是以载体的形式运输的，因此胶囊需要朝激活的方向进行处理；挤压激活函数用于将输入向量压缩到(0，1)，同时保持向量方向；输出v_j的计算公式如下:

其中：v_j是胶囊j的矢量输出，s_j是总输入量，并且v_j和s_j在同一方向；

v_j是压缩函数，当s_j较大时，v_j接近1；当s_j很小，v_j则接近0；s_j是置换向量，使输出向量v_j的长度在(0，1)范围内；胶囊神经网络的第一层是具有ReLU激活函数的卷积层；除第一层胶囊外，其余所有胶囊的总输入s_j是所有预测向量的加权和是下层胶囊的

层胶囊的输出与重量矩阵W_ij相乘，其公式如下：

其中j∈[1,k]，k是类的数量；c_ij是动态路由过程中的耦合系数，表示每个下层胶囊与其对应的上层胶囊之间的权重；对于胶囊，c_ij的权重之和是1；c_ij采用由softmax函数确定的动态路由算法，计算公式如下：

其中b_ij是胶囊i和胶囊j的对数概率，用于更新c_ij并将其初始化为0；

路线迭代期间，b_ij不断采用以上公式更新。