CN112837747B

CN112837747B - 基于注意力孪生网络的蛋白质结合位点预测方法

Info

Publication number: CN112837747B
Application number: CN202110041598.9A
Authority: CN
Inventors: 吴贺贺; 潘小勇; 杨旸; 沈红斌
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2022-07-12
Anticipated expiration: 2041-01-13
Also published as: CN112837747A

Abstract

一种基于注意力孪生网络的蛋白质结合位点预测方法，采用具有两层卷积层的神经网络对输入的进行特征提取，再根据提取到的特征估计绑定概率，得到预测的RNA序列绑定蛋白质的概率。本发明采用深度神经网络成对度量学习有效地增强捕获circRNA之间互信息的网络能力，并使用来自其他RBP的可用标记数据进行预训练，从而显著提高预测精确度。

Description

基于注意力孪生网络的蛋白质结合位点预测方法

技术领域

本发明涉及的是一种基因工程领域的技术，具体是一种基于注意力孪生网络识别环状RNA上特征性较差的RNA与蛋白质结合位点预测方法(iDeepC)。

背景技术

环状RNA(circRNA)是一类进化保守的非编码RNA，它们在基因调控中起着至关重要的作用。通常circRNA与RNA结合蛋白(RBP)结合以在许多生物学过程中发挥功能，为解circRNA的功能机制，需要知道它们与哪些RBP结合。

现有预测RBP-circRNA相互作用的计算方法包括RBP通用方法和RBP特定方法。前者针对所有合并的RBP-circRNA相互作用训练一个通用模型，后者针对RBP特异性结合circRNAs针对每个RBP训练一个模型。由于RBP特定模型可以捕获掩埋在单个RBP中的独特绑定模式故优于RBP通用模型，但其缺陷在于构建更多的子模块，并且当感兴趣的RBP不在已知RBP中，则每个独立模型的泛化能力将很弱。

发明内容

本发明针对现有深度学习技术对于特征有限，已知目标circRNA数量较少的RBP的预测精度较差的问题，提出一种基于注意力孪生网络的蛋白质结合位点预测方法，采用深度神经网络成对度量学习有效地增强捕获circRNA之间互信息的网络能力，并使用来自其他RBP的可用标记数据进行预训练，从而显著提高预测精确度。

本发明是通过以下技术方案实现的：

本发明涉及一种基于注意力孪生网络的蛋白质结合位点预测方法，采用具有两层卷积层的神经网络对输入的进行特征提取，再根据提取到的特征估计绑定概率，得到预测的RNA序列绑定蛋白质的概率。

所述的神经网络，包括两个串联的卷积(CNN)层、修正线性(ReLU)层、全连接(FC)层、全局池化层、H-swish激活层，其中：第一卷积层根据输入RNA序列信息，进行卷积处理，得到卷积之后的结果，第二卷积层根据第一卷积层进行卷积处理，得到卷积之后的结果，修正线性(ReLU)层根据第一卷积层的结果，进行修正处理，得到非线性化的结果，H-swish激活层根据第一卷积层的结果经过全连接(FC)层、全局池化、全连接(FC)层的信息，进行激活处理，得到激活之后的结果。

所述的提取到的特征，包括：测试RNA序列x_j和支持集序列对应的特征f_θ(x_q)和特征{f_θ(x_j)，j＝1...m}。

所述的绑定概率是指：

其中：度量函数M(.)＝F(|f_θ(x_q)-f_θ(x_j)|)，f_θ(.)为特征向量，|.|为绝对值，F(.)为全连接层，p_q即为预测的RNA序列x_q绑定蛋白质的概率。

所述的神经网络，通过从对RBP数据集中采样构建正、负样本对；经过one-hot编码后按样本对为单位进行训练。

所述的RBP数据集，即RBP-24和RBP-37。其中将RBP-37的各个RBP按照8∶2的比例划分训练集和测试集，当同一RNA的不同片段同时出现在训练集和测试集时，将其修改至训练集中以保证同一条RNA全长序列不同时出现在训练集和测试集。

所述的预训练，使用C22ORF28训练的结果作为模型的初始化参数，代替模型参数随机初始化。

技术效果

本发明整体解决现有技术对circRNA预测精度不高，特别是特征性较差和数据量较少的RBP，且解决现有技术不能捕获circRNA中motif的不足。

与现有技术相比，本发明使用了轻量级注意力机制的两层卷积神经网络作为嵌入网络，提取输入的两条RNA序列的特征，经过度量单元衡量相似性；本发明采用了随机采样一对样本作为模型的输入来解决数据不足的RBP训练的问题，即从训练集中随机采样一对RNA序列作为输入，使得样本较少的训练更不容易过拟合。数据增强之后提高了模型的泛化效果。

附图说明

图1为本发明流程图；

图中：A)嵌入网络模块和度量模块，B)生成嵌入的网络模块的体系结构。C)预测测试序列的绑定分数；

图2为本方法在RBP-37上的表现示意图；

图中：A)为本方法在RBP-37数据集上的ROC曲线；B)为AUC随训练样本数的增加而变化曲线；

图3为本方法和CRIP，PASSION在RBP-37数据集上的性能比较示意图；

图中：A)所有37个RBP的AUC；B)在结合circRNA的数目小于5000的14个RBP上的AUC，其中X轴是RBP根据结合circRNA的样本数量从小到大排列；

图中：A)用于WTAP的本方法；B)用于WTAP的CRIP；C)用于TXR1的本方法；D)用于FXR1的CRIP；

图4为本方法预测两个全长circRNA的hsa_circ_000180和hsa_circ_0000078的结合位点示意图。

具体实施方式

如图1所示，为本实施例涉及一种基于注意力孪生网络识别环状RNA上特征性较差的RNA与蛋白质结合位点预测系统，包括：嵌入网络模块、注意力模块以及度量模块，其中：注意力模块是嵌入网络模块的一部分，嵌入网络模块与度量模块相连并传输数据特征信息，嵌入网络模块根据输入的两条RNA信息，进行特征提取处理，得到两个RNA的特征向量，度量模块根据嵌入网络模块的信息，进行度量处理，得到相似性概率。

所述的度量模块M由激活函数为Sigmoid的全连接层组成。

本实施例涉及上述系统的预测方法，包括以下步骤：

S1、获取基准数据集，将RBP-37的各个RBP按照8∶2的比例划分训练集和测试集；

优选地，当同一RNA的不同片段同时出现在训练集和测试集时，将其修改至训练集，以保证同一条RNA全长序列不同时出现在训练集和测试集。

具体地，本实施例加载C22ORF28训练的参数作为模型的初始化参数，从数据集中采样一对序列，当两条RNA序列均为正样本，则这一对序列的标签为1，否则为0，经过one-hot编码后输入网络中训练。测试时，定义该RBP的所有正样本为支持集，测试的RNA分别与支持集的样本组成一对输入网络中，平均得出的预测值即为预测的序列绑定的可能性。

S2、使用C22ORF28训练的结果作为模型的初始化参数代替模型参数随机初始化，在预训练时，输入对采样的数量是在具体任务上训练采样数量的五倍。

所述的预训练是指：使用C22ORF28的训练集训练，训练时，每一次输入网络的数据个数为采样对数为5倍的训练集的大小除以批次的大小，其中批次的大小为128，训练完成后保存模型参数作为其他RBP训练的初始化参数。

由于RBP-24和RBP-37数据集上有很多RBP数据量匮乏且特征性较差，所以在相关RBP上预训练期望网络能学习到某种绑定特性，然后在数据量匮乏和特征性较差的RBP上微调，这样有助于提高预测效果。

S3、训练时，从对指定RBP数据集中采样构建正、负样本对；经过编码后按对为单位输入嵌入网络f_θ中提取得到特征向量{f_θ(x_j)，j＝1、2}，根据特征表示之间的差d＝|f_θ(x₁)-f_θ(x₂)|计算得到绑定位点的概率P＝Sigmoid(F(d))，其中：f_θ(.)为特征向量，|.|为差的绝对值，F(.)为全连接层。

所述的采样构建是指：当采样的两个样本是正样本，那么采样的这一对的标签是正样本，当采样的两个样本中有至少一个负样本，那么这一对的标签是负样本，即D_tr＝{(x_i，x_j)，y)|i，j＝{1，2，...，n}，y∈{0，1}，因此原训练数据为n，采样后数据增强为

对。

所述的编码，方式为one-hot编码。

本实施例嵌入网络中两层卷积神经网络的卷积核个数分别为64、32，卷积核的大小分别为7x4和7x1，在第二层，应用批次归一化(BN)层、概率为0.25的dropout层并使用ReLU激活函数，网络最后一层的激活函数为sigmoid，初始学习速率为10^-4的Adam优化器，损失函数使用的是二值交叉熵，批次大小为128。训练的过程中本实例使用早停机制，当在5个epoch验证集上的loss没有下降，则停止训练，以防止在训练过程中过拟合。

所述的嵌入网络f_θ和其内部使用的轻量级注意力机制的计算，即

a_k＝Reshape(Hard_swish(F₂(ReLU6(F₁(pool(f₁(x_k)))))))，其中：

f₁、f₂分别为第一层和第二卷积层络的卷积运算，a_k为注意力的功能，

表示乘法，x_k为RNA序列k的一个one-hot编码矩阵，pool为全局平均池化层，ReLU6和H-swish为激活函数，Reshape(.)为将输出重塑为与第二卷积层络f₂的输出相同维度的操作。

S4、测试时，将查询集的测试序列和支持集中所有序列组成样本对，由神经网络分别提取得到特征向量后经分别计算得到绑定位点的概率，最后平均得到的结果作为测试序列绑定倾向的预测分数，具体步骤如下：

S41、RBP测试时，将训练集中的m个正样本的集合为支持集，即{x_i，i＝1...m}；测试序列的集合为查询集，即{x_j，j＝1...n}，根据测试RNA序列x_q和支持集序列，将其通过嵌入网络以获取特征f_θ(x_q)和支持集中所有m个序列的特征{f_θ(x_j)，j＝1...m}；

S42、对于支持集中的每个序列，分别与所有查询序列的特征相连分别估计绑定概率

其中M(.)是度量函数，M(.)＝F(|f_q(x_i)-f_q(x_j)|)，f_q(.)为特征向量，|.|为差的绝对值，F(.)为完全连接层，p_q即为预测的RNA序列x_q绑定蛋白质的概率。

具体地，本实施例在RBP-37和RBP-24两个基准集上评估本方法，RBP-37由37个RBP固定长度circRNA组成；RBP-24是由24个RBP不等长的线性RNA序列组成。此外，本实施例还构建一个全长circRNA测试数据集，包括与RBP结合和不结合的全长circRNA。

本实施例采用的评价指标

其中：

代表第i条样本的序号(概率得分从小到大排，排在第rank个位置)；M、N分别是正样本的个数和负样本的个数；

是把正样本的序号累加。

实验的预测结果如下：在实验阶段，本实施例分别与在线性RNA数据集RBP-24和环状circRNA两个基准数据集上具有代表性的RNA与蛋白质结合位点预测方法进行比较，包括：

1)Zhang，K.，et al.CRIP：predicting circRNA-RBP-binding sites using acodon-based encoding and hybrid deep neural networks.RNA 2019；25(12)：1604-1615.

2)Jia C，Bi Y，Chen J，et al.PASSION：an ensemble neural network approachfor identifying the binding sites of RBPs on circRNAs[J].Bioinformatics，2020.

3)Maticzka，D.，et al.GraphProt：modeling binding preferences of RNA-binding proteins.Genome Biol 2014；15(1)：R17.

4)Zhang，S.，et al.A deep learning framework for modeling structuralfeatures of RNA-binding protein targets.Nucleic Acids Res 2016；44(4)：e32.

5)Pan，X.Y.and Shen，H.B.Predicting RNA-protein binding sites andmotifs through combining local and global deep convolutional neuralnetworks.Bioinformatics 2018；34(20)：3427-3436.

6)Gronning，A.G.B.，et al.DeepCLIP：predicting the effect of mutationson protein-RNA binding with deep learning.Nucleic Acids Res 2020.，结果如下表1，表2所示。本实施例在平均评价指标AUC上取得最好的结果。在RBP-37上本方法平均AUC为0.9123，而当下最好平均AUC的PASSIONG为0.8845，在RBP-24上本方法平均AUC为0.941，而当下最好平均AUC的DeepCLIP为0.935。

表1在RBP-37数据集上比较本方法与CRIP和PASSION的表现

表2在RBP-24数据集上比较本方法与GraphProt、Deepnetrbp、DeepCLIP和iDeepE的表现：

如表1所示，本方法与基线方法CRIP和PASSION在总共37个RBPs上进行比较。在这三种方法中，本方法对29个RBP的性能最好，而PASSION在7个RBP上的性能最好，CRIP仅在一个RBP上产生最高的AUC。详见补充表S3。本方法的平均AUC为0.912，比CRIP的AUC 0.881高0.031，比激情的AUC 0.885高0.027。对于一些绑定环数量有限的RBP，本方法比CRIP和PASSION有显著的改进。例如，本方法的TNRC6的AUC为0.916，而CRIP和PASSION的AUC分别为0.808和0.785。

如表2所示，在24个数据集上，本方法的平均AUC为0.941，比GraphProt的auc0.887高0.054，比Deepnet-rbp的auc0.903高0.038，比iDeepE的auc0.931高0.010，比DeepCLIP的AUC为.935高0.006。在24个RBP中，本方法在五种方法中获得14个RBP的最高AUC。结果表明，本方法在预测线性RNAs上RBP结合位点方面同样有效，优于现有的方法。

为进一步证明本方法的优势，也研究本方法在训练样本相对较少的RBPs上的有效性。如图3B所示，对于阳性样本数小于5000的14个RBPs，本方法优于CRIP和PASISION。本方法的平均AUC为0.947，比CRIP的AUC 0.888和PASSION的AUC分别增加0.059和0.057。另外，从整体趋势来看，随着训练样本数的增加，这三种方法都取得较好的效果。对于阳性样本最少(只有496个结合环)的RBP-WTAP，本方法的AUC高达0.880。然而，基于深度学习的方法CRIP产生的AUC非常低，为0.678，基于两层ANN的方法PASISION获得的AUC为0.794。结果表明，本方法中的连体结构在预测特征差的RBPs的结合位点方面更为有效，并且不受deep模型中数据匮乏问题的影响。

在全长RNA序列上研究。以AGO3和EWSR1的两个全长RNA序列hsa_circ_000180和hsa_circ_0000078为例进行本方法评估，如图4所示。hsa_circ_000180被分成五个101nt长的段。其中：有一个经过验证的结合位点，本方法可以检测到它。对于hsa_circ_000078，它被分成9个部分。其中3个是经验证的结合位点，本方法可以找到这三个结合位点。

与CRIP和PASSION相比，本方法不仅能获得更好的预测效果，而且能从学习到的CNN过滤器中捕捉到结合基序。本实施例通过本方法对照CISBP-RNA数据库对检测到的基序进行验证，CISBP-RNA数据库为线性RNAs保存已知的结合基序。如图5所示，本方法检测到RBP TIA1、TIAL1、QKI、HRNPC和HUR的五个基序，这些基序在视觉上与CISBP-RNA数据库中已知的线性RNA基序相似。此外，如补充图S2所示，本方法能够检测到不在CISBP-RNA中的新基序，并且这些基序可能是RBP结合环的特定基序，并且不同于线性RNA的那些基序。结果表明，本方法可以学习RBPs对circRNAs的结合偏好，而不是仅仅区分绑定序列和未绑定序列。此外，circRNAs和线性RNAs对某些RBP具有相似的绑定偏好，但对于其他RBP则表现不同。

经过具体实际实验，在计算机或者服务器上python安装tensorflow和keras安装包，运行本系统，加载C22ORF28预训练模型，在指定具体的RBP的训练集上微调，然后测试。同时，也可以使用在RBP-24和RBP-37数据集训练好的模型去测试其他独立测试集。本方法针对RNA绑定蛋白质倾向的模型结构设计，在RBP-24和RBP-37数据集上预测效果与当下方法相比，平均AUC指标均为最好，实验结果如表1和表2所示，本方法在数据集RBP-24和RBP-37上预测精度相比于当下其他方法表现最好，特别是数据量匮乏和特征性较差的RBP，效果如图3B所示；而且可以在全长RNA上通过滑动窗口的方式寻找绑定位点，如图4所示；最重要的是只需要有限数量的样本就可以捕捉到RBP的结合模式，挖掘的RNA的motif，如图5所示。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于注意力孪生网络的蛋白质结合位点预测方法，其特征在于，采用具有两个CNN结构的神经网络对输入的进行特征提取，再根据提取到的特征估计绑定概率，得到预测的RNA序列绑定蛋白质的概率；

所述的神经网络，包括两个串联的卷积层、修正线性层、全连接层、全局池化层、H-swish激活层，其中：第一卷积层根据输入RNA序列信息，进行卷积处理，得到卷积之后的结果，第二卷积层根据第一卷积层处理的结果进行卷积处理，得到卷积之后的结果，修正线性层根据第一卷积层的结果，进行修正处理，得到非线性化的结果，H-swish激活层根据第一卷积层的结果经过全连接层、全局池化、全连接层的信息，进行激活处理，得到激活之后的结果，将该结果与第二卷积神经网络层得到的结果进行融合得到最终输出；

所述的神经网络，通过从对RBP数据集中采样构建正、负样本对；经过one-hot编码后按样本对为单位进行训练；

所述的绑定概率是指：

2.根据权利要求1所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，所述的特征提取，得到：测试RNA序列x_j和支持集序列对应的特征f_θ(x_q)和特征{f_θ(x_j),j＝1…m}。

3.根据权利要求1所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，所述的RBP数据集，即RBP-24和RBP-37，其中将RBP-37的各个RBP按照8:2的比例划分训练集和测试集，当同一RNA的不同片段同时出现在训练集和测试集时，将其修改至训练集中以保证同一条RNA全长序列不同时出现在训练集和测试集。

4.根据上述任一权利要求所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，具体包括：

S1、获取基准数据集，将RBP-37的各个RBP按照8:2的比例划分训练集和测试集；

S2、使用C22ORF28训练的结果作为模型的初始化参数代替模型参数随机初始化，在预训练时，输入对采样的数量是在具体任务上训练采样数量的五倍；

S3、训练时，从对指定RBP数据集中采样构建正、负样本对；经过编码后按对为单位输入嵌入网络f_θ中提取得到特征向量{f_θ(x_j),j＝1、2}，根据特征表示之间的差d＝|f_θ(x₁)-f_θ(x₂)|计算得到绑定位点的概率P＝Sigmoid(F(d))，其中：f_θ(.)为特征向量，|.|为差的绝对值，F(.)为全连接层；

S4、测试时，将查询集的测试序列和支持集中所有序列组成样本对，由神经网络分别提取得到特征向量后经分别计算得到绑定位点的概率，最后平均得到的结果作为测试序列绑定倾向的预测分数。

5.根据权利要求4所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，所述的预训练，使用C22ORF28训练的结果作为模型的初始化参数，代替模型参数随机初始化。

6.根据权利要求4所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，当同一RNA的不同片段同时出现在训练集和测试集时，将其修改至训练集，以保证同一条RNA全长序列不同时出现在训练集和测试集。

7.根据权利要求4所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，所述的采样构建是指：当采样的两个样本是正样本，那么采样的这一对的标签是正样本，当采样的两个样本中有至少一个负样本，那么这一对的标签是负样本，即D_tr＝{(x_i,x_j)，y)|i,j＝{1,2,…,n},y∈{0，1}，因此原训练数据为n，采样后数据增强为

对。

8.根据权利要求4所述的基于注意力孪生网络的蛋白质结合位点预测方法，其特征是，所述的步骤S4具体包括：

S41、RBP测试时，将训练集中的m个正样本的集合为支持集，即{x_i,i＝1…m}；测试序列的集合为查询集，即{x_j,j＝1…n}，根据测试RNA序列x_q和支持集序列，将其通过嵌入网络以获取特征f_θ(x_q)和支持集中所有m个序列的特征{f_θ(x_j),j＝1…m}；

其中：M(.)是度量函数，M(.)＝F(|f_θ(x_i)-f_θ(x_j)|)，f_θ(.)为特征向量，|.|为差的绝对值，F(.)为完全连接层，p_q即为预测的RNA序列x_q绑定蛋白质的概率。