CN111192631B

CN111192631B - 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统

Info

Publication number: CN111192631B
Application number: CN202010000530.1A
Authority: CN
Inventors: 吴杨; 杨瑞; 赵屹
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2023-07-21
Anticipated expiration: 2040-01-02
Also published as: CN111192631A

Abstract

本发明提供了一种构建用于预测蛋白质‑RNA相互作用结合位点模型的方法和系统，与其对应的还包括使用该方法预测蛋白质‑RNA相互作用结合位点的方法和系统。其使用RNA与蛋白质结合位点处及上下游的序列特征以及测定的RNA结构特征来训练深度学习模型，并使用所述模型对蛋白质‑RNA相互作用结合位点进行预测。在所述特征的提取过程中分别使用了基于卷积神经网络构建的基序获取模块和基于循环神经网络构建的上下文语义获取模块。本发明中训练出的模型在判断准确度和计算时间以及应用平台的广泛性方面都相比于现有技术有着显著进步。

Description

用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统

技术领域

本发明涉及RNA-蛋白质相互作用预测技术，尤其涉及用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统，以及对应的使用所述方法预测蛋白质-RNA相互作用结合位点的方法和系统。

背景技术

目前基于深度学习技术对RNA-蛋白质相互作用预测的方法主要有DeepBind(参见Alipanahi,B et al.,(2015).Nature Biotechnology 33,831–

838.)、Deepnet-rbp(参见Zhang,S et al.,(2016).Nucleic Acids Res 44,e32–

e32)和iDeepE(参见Pan,X et al.,(2018).Bioinformatics 34,3427–3436)等。

现有技术DeepBind方法，该模型结构使用卷积神经网络，基于RNA的序列数据进行训练。由于提出时间较早，模型结构简单，因此建模能力不足，准确率较低。而且仅使用RNA与蛋白质结合的序列信息，未考虑RNA的结构信息。

另一个现有技术Deepnet-rbp方法，该方法整合RNA与蛋白质结合的序列信息，并引入“预测”(非真实实验数据)的RNA三级结构信息，使用深度信念网络进行建模，准确率有了一定的提升，但仍较低。另外预测RNA三级结构信息过程非常耗时，因此模型训练时间也较长。

另一个现有技术iDeepE方法，训练了两个分别基于全局序列和局部序列的卷积神经网络模型，并将这两个模型的预测结果求平均作为最终预测值。虽然其准确率相对有提升，但是大幅提升了训练模型的复杂程度，容易导致过拟合，同时也会大大增加了该模型在计算机上训练的计算时间。

另外，Deepnet-rbp方法使用的RNA结构为预测的体外结构，并非来自实验中的真实体内数据，从而不足以捕捉体内条件下的真实RNA结构信息，因此模型的预测准确度也相应受到影响。

发明内容

因此本发明实施例的目的在于克服上述现有技术的缺陷，提供一种用于构建用于预测蛋白质-RNA相互作用结合位点模型的方法和系统，以及使用所述方法预测蛋白质-RNA相互作用结合位点的方法和系统，对蛋白质-RNA相互作用结合位点进行有效预测。

根据本发明的一方面，本发明提供一种构建用于预测蛋白质-RNA相互作用结合位点的模型的方法，包括以下步骤：

步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据，以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据；

步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射，得到基序特征映射组合；

步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射，得到上下文语义特征映射组合；

步骤4、将所述基序特征映射组合与所述上下文语义特征映射组合经过拼接和正则化处理进行融合得到整体特征映射组合；

步骤5、利用所述整体特征映射组合，在训练数据集上，基于深度学习方法进行模型训练，得到所述蛋白质-RNA相互作用结合位点的预测模型。

作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的优选方案，步骤1所述测定的所述蛋白质-RNA结合位点的结构数据是RNA结构组学测定实验技术所产生的结构数据。

作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的更优选方案，所述RNA结构组学测定实验技术所产生的结构数据是DMS-seq、PARS、icSHAPE结构数据。

作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的另一优选方案，步骤2所述基于卷积神经网络CNN方法的步骤包括：

步骤201，从步骤1得到的数据集中提取结合位点序列数据以及对应的结构数据，将其分别左右扩增到相同的长度，并对所述序列数据进行编码；

步骤202，将所述结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算，然后分别使用激活函数对其进行激活，最后将其传递到最大池化层分别进行最大池化，输出结构的特征映射和序列的特征映射；

步骤203，将所述的结构特征映射和序列特征映射对应相加而融合，并且对融合后的特征映射组合进行正则化处理，之后传递到全连接层，最后使用激活函数对其进行激活，输出完整的基序特征映射组合。

作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的另一优选方案，步骤3所述基于循环神经网络RNN方法的步骤包括：

步骤301，从步骤1得到的数据集中提取结合位点及其上下游区域的序列数据，以及对应的结构数据，分别将其左右扩增到相同的长度，并对所述结合位点及其上下游区域的序列数据进行编码；

步骤302，将所述结合位点及其上下游区域的结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算，然后分别使用激活函数进行激活，最后传递到最大池化层分别进行最大池化，提取出结合位点及其上下游区域的结构特征映射和序列特征映射；

步骤303，将所述的结合位点及其上下游区域结构的特征映射和序列的特征映射进行对应相加融合，并将融合的特征映射传递到采用了循环神经网络方法的Bi-LSTM层计算模型中进行序列上下文语义特征的学习，输出上下文语义特征映射；

步骤304，将所述的Bi-LSTM层的输入端的融合的特征映射与输出端的上下文语义特征映射相加构建成一个残差模块，输出完整的上下文语义特征映射组合。

在上述方法中进一步优选，步骤2或步骤3所述的编码采用如下公式：

其中，s_i,j表示待编码的序列数据，M_i,j表示编码后的输出值。

作为构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的又一优选方案，步骤5所述的基于深度学习方法包括使用均方误差损失进行回归训练，或使用Softmax激活函数和交叉熵损失进行分类训练。

根据本发明的另一方面，本发明提供一种构建用于预测蛋白质-RNA相互作用结合位点模型的系统，包括处理器，存储器以及储存在存储器上的计算机程序，所述计算机程序在处理器上执行实现上文任一所述的构建用于预测蛋白质-RNA相互作用结合位点模型的方法。

根据本发明的另一方面，本发明进一步提供一种用于预测蛋白质-RNA相互作用结合位点的方法，包括：

步骤1、将待测的RNA转录本的序列中特定长度的子序列做为潜在的RNA结合蛋白的结合位点，获得潜在的结合位点处及其上下游区域的序列数据，以及所述潜在结合位点及其上下游区域的结构数据，将所述序列数据和结构数据输入通过前述任一项构建的针对所述RNA结合蛋白的模型。

步骤5、将所述整体特征映射组合，通过分类预测，得到该RNA结合蛋白与待测RNA转录本子序列之间相互结合与否的判断结果；或通过回归预测，获得两者之间结合强度的预测值

根据本发明的另一方面，本发明提供一种用于预测蛋白质-RNA相互作用结合位点的系统，包括处理器，存储器以及储存在存储器上的计算机程序，所述计算机程序在处理器上执行实现所述用于预测蛋白质-RNA相互作用结合位点的方法。

根据本发明的另一方面，本发明提供一种计算机可读储存介质，其上储存有计算机程序，所述程序被处理器执行时实现所述用于预测蛋白质-RNA相互作用结合位点的方法。

本发明实施例的技术方案可以包括以下有益效果：

1，本发明(RBPnet)预测RNA结合蛋白的平均分类准确率0.961，超过了之前的最好算法iDeepE(目前已公开的技术方案中，发表时间最晚，预测准确度最高的模型)的平均准确率0.931，本发明在其基础上提升了3个百分点。

2，本发明所构建的网络模型可在CPU上训练，时间复杂度大大优于iDeepE，而iDeepE虽然可以在CPU上训练，但速度明显很慢。

3，对于10000个样本量，本发明的RBPnet模型在CPU上大约需要20分钟即可训练完毕，iDeepE方法则需要大约3小时完成。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

在附图中：

图1示出了根据本发明一个实施例的采用回归模型构建预测蛋白质-RNA相互作用结合位点模型的方法，以及使用该模型对待测数据进行预测的方法的流程示意图。

图2示出了根据本发明一个实施例训练得到的回归模型对长非编码RNA打分后按照功能性进行聚类的结果与验证示意图。

图3示出了根据本发明一个实施例的采用分类模型构建预测蛋白质-RNA相互作用结合位点模型的方法，以及使用该模型对待测数据进行预测的方法的流程示意图。

具体实施方式

根据本发明(RBPnet)的一个方面，训练所述模型所使用的原始数据不仅包括与蛋白质结合的RNA的序列数据，而且引入了RNA结构组学测定实验技术所产生的结构组学测定数据，如DMS-seq结构组学测定数据作为模型的输入数据。相比现有技术(比如上文提到的Deepnet-rbp等模型)，基于DMS-seq技术的RNA结构组学数据可以提供体内真实细胞状态下RNA的二级结构信息，因此本发明将其用于RNA-蛋白质互作研究，用于解决使用软件预测RNA结构不准确并且不能反应真实状态下的体内RNA结构信息的问题。

根据本发明(RBPnet)的一个方面，在数据的处理部分中设计了两个模块，一个名为基序获取模块，由卷积神经网络构建，该模块将结合位点处的序列和结构数据作为输入，用于寻找与RNA结合蛋白(RBP)结合的位点附近的局部序列特征和局部结构特征；另一个名为上下文语义获取模块，由循环神经网络构建，该模块将结合位点及其周围(上下游)的序列和结构数据作为辅助特征，从而提升RNA-蛋白质互作预测模型的准确度。最终RBPnet模型将两个模块提取到的特征进行融合，通过分类或回归训练，获得蛋白质-RNA结合位点是否互作、互作强度的预测输出。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动下获得的所有其他实施例，都属于本发明保护的范围。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

第一个实施例：

本实施例详细描述了一种构建用于预测蛋白质-RNA相互作用结合位点的模型的方法，同时描述了使用上述方法构建模型并对未知RNA对应于某一RNA结合蛋白的潜在结合位点是否与该RNA结合蛋白发生相互作用进行预测的方法，其过程是基于python3.6.8-tensorflow1.5.0-keras2.2.4实现。

参考图1，本实施例包括构建模型的过程和使用模型进行预测的过程。其中第一过程为构建该模型的方法，分为五个步骤：1，构建数据集；2，构建RBPnet预测模型的基序获取模块；3，构建RBPnet预测模型的上下文语义获取模块；4，融合得到RBPnet预测模型的完整特征映射组合；5，利用完整特征映射组合，在训练数据集上，对RBPnet预测模型进行回归或分类训练。

本实施例的第二过程包括使用上一步所构建的模型对待测试数据进行预测。

其中第一过程步骤1为构建样本集，参考图1的输入部分。获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据以及对应的结构数据，将其划分为训练集，验证集和测试集而作为输入层数据。其具体包括：

获取序列数据时，首先获得经过ENCODE国际项目(DNA元件百科全书)所产生的eCLIP数据，处理而得到一组峰值(peak)文件作为正数据集(即该RNA片段的基因组位置跟该RNA结合蛋白(RBP)是结合的，分类标签为1，回归标签是它的结合强度)，同时，使用随机筛选的工具从RNA基因组中寻找等量的一些长度、GC含量、基因组功能元件分布等各方面比较匹配的基因组位置，做为负数据集(该基因组位置跟该RBP不结合，分类标签和回归标签都为0)。为了对网络模型进行测试，将正负数据集分为3份，分别为训练集、测试集和验证集，3份数据集比例约为5:1:1。每份数据集中，一半为正样本集，一半为负样本集，使其保持平衡。各数据集的数据不存在交集。

所述的结合位点(峰值)处的数据原始文件内容包括：染色体、起始位置、终止位置、峰值上游延伸的长度，峰值下游延伸的长度，信号值(0表示负数据集，有值代表信号的高低)，峰值以及上下游的序列值，跟这个区域重叠的转录本id等必要数据。从其中提取结合位点(峰值)处的序列值数据和其上下游的序列值数据作为下一层的输入。

本发明的输入层数据除了结合位点(峰值)处的序列数据之外，引入了RNA结构组学测定实验技术所产生的结构组学测定数据，这一类结构数据可以是DMS-seq、PARS、icSHAPE等多种结构组学测定数据。本实施例使用DMS-seq结构数据，其是真实的实验中得到的与每一个结合位点处的序列对应的RNA结构数据，来源于DMS-seq实验技术，包括在体内条件下(in vivo,简称vivo)、体外条件下(in vitro，简称vitro)、对照条件下(control)，各测得一套数据。该结构数据在每个碱基处的值，如果为0，则表示没有测到结构数据，或者是该碱基在RNA结构中处于双链配对(double-stranded)状态；如果该结构数据值特别大，则表示该碱基在RNA结构中处于单链(single-stranded)状态。将原始数据经过预处理，得到的数据文件内容包括有：(1)体内条件、体外条件、对照条件三种状态下的上游+峰值区+下游区域，每个碱基的DMS-seq信号值，(2)上游延伸的长度、下游延伸的长度，(3)上游+峰值区+下游区域的完整序列，(4)跟这个区域重叠的转录本id。从其中提取结合点处对应的结构数据作为下一层的输入。

步骤2，如图1中的基序获取模块中所示，根据步骤1得到的数据，提取其中的结合位点处的序列特征映射以及对应的结构特征映射，组合而得到基序特征映射组合，具体包括：

步骤201，如图1中基序获取模块中所示的“扩展及编码”，将根据步骤1得到的结合位点处序列数据以及对应的结构数据分别左右扩展到相同的长度75nt。在扩展时，对于数据单元为空的情况，序列数据使用字母N进行填充，对于结构数据使用0值进行填充。

对填充完成的序列数据进行编码，其中所述的编码方式如公式(1)所示。检测到某一单元(i,j)内元素s_i,j属于可分辨的碱基(A,C,G,U)集合时编码输出值M_i，j取输出值为1，如果出现N则取输出值为0.25(即假定A,C,G,U出现概率均等)，其他情况输出值为0。本步骤输出的数据中，序列数据维度为4×75，结构数据维度为1×75。

步骤202，如图1中基序获取模块中所示的“卷积层”，“激活层”，“池化层”，将所述结构数据和经过编码分类的序列数据分别传递到卷积模块中进行卷积计算。卷积层使用16个大小为4×10的卷积核，步长设为1，输出的结构和序列特征映射维度均为16×1×66(即十六个卷积核的计算结果，每一结果为1×66维度)。对上一步卷积计算输出的结构和序列特征映射(特征图)，分别使用ReLU激活函数进行激活，得到激活后的输出特征映射，输出的结构特征映射和序列特征映射的维度均为16×1×66。分别将上一步输出的特征映射传递到最大池化层进行特征的采样，步长设为1。输出的序列特征映射和结构特征映射的维度均为16×1×57。

步骤203、对上一步经过池化层之后的序列和结构的每个特征映射对应相加进行融合，如图1基序获取模块中所示的在融合过程中，序列数据和结构数据这两者的每一对应位置数据相加，相加后输出的新数据维度不变，仍然为16×1×57。之后，将融合后的特征映射传递到正则化层进行正则化处理，这里使用了Dropout函数实施正则化。该实施例中Dropout概率设置为0.5，但也可使用(0，1)区间内其他概率值。输出的特征映射的维度为16×1×57。将所述的正则化处理后的特征映射传递到全连接层。输出的特征映射的维度为1×128，再分别使用ReLU激活函数进行激活，得到完整的基序特征映射组合，维度为1×128。

步骤3、采用循环神经网络方法，根据步骤1得到的有效数据提取其中的结合位点及其上下游区域的序列的特征映射，与结构的特征映射组合而得到上下文语义特征映射组合，参照如图1所示的“上下文语义获取模块”，具体包括：

步骤301，从步骤1得到的数据集中提取结合位点及其上下游区域的序列数据，以及对应的结构数据，分别左右扩增到相同的长度375nt，即结合位点处序列占用75nt长度，及上下游各延伸150nt。在扩张时，对于数据单元为空的情况，序列数据使用字母N进行填充，结构数据使用0值进行填充。然后对扩充完的序列数据进行编码，其中所述的编码方式如公式(2)所示，与步骤2相同，即检测到单元(i,j)内元素属于RNA的碱基(A,C,G,U)集合时，编码输出值M_i，j取输出值为1，如果出现N则取输出值为0.25(即假定A,C,G,U出现概率均等)，其他情况输出值为0。编码后，本步骤输出的数据中，序列数据维度为4×375，结构数据维度为1×375。

步骤302，将所述结构数据和经过编码分类的结合位点及其上下游区域的序列数据分别传递到卷积模块中进行卷积计算，该层卷积模块使用32个大小为4×5的卷积核对数据进行特征提取，步长设为1，输出特征映射维度为32×1×371。然后将所述的提取后的输出特征映射经过激活层，使用ReLU激活函数进行激活，输出的结构特征映射和序列特征映射的维度均为32×1×371。将激活后的输出特征映射传递到池化层，采用最大池化进行特征降维，池化层步长设为5，提取出结构的特征映射和序列结合位点及其上下游区域的特征映射，维度均为32×1×74。

步骤303，将所述的结构的特征映射和序列的特征映射进行对应相加融合，如图1所示的“上下文语义获取模块”中的池化层下方的所示，在融合过程中，序列数据和结构数据这两者的每一对应位置数据相加，相加后输出的新数据维度不变，仍然为32×1×74。将融合的特征映射传递到Bi-LSTM层(循环神经网络层)计算模型中进行序列上下文语义特征的学习，输出上下文语义特征映射；输出的特征映射的维度为64×1×74。

步骤304，将所述的Bi-LSTM层的输入端的融合的特征映射与输出端的上下文语义特征映射相加构建成一个残差模块。该步骤的输入值分两部分，一部分是输入BILSTM之前的数据，维度为32×1×74；另一部分为Bi-LSTM输出后的数据，其原本维度为64×1×74，经映射后得到32×1×74维的数据，然后将两部分输入通过加和进行拼接(如图1“上下文语义获取模块中”的Bi-LSTM层下方的所示)，输出完整的上下文语义特征映射组合。残差模块的使用可以防止网络梯度消失，使得网络层加深，有利于模型的训练。拼接后的数据维度为32×1×74。最后残差模块经过Flatten层处理，这是为了将多维的输入一维化，也即将32×1×74的数据维度展开成1×2368(由32x74得到)。

步骤4、将步骤2所得到的基序特征映射组合与步骤3所得到的上下文语义特征映射组合融合为整体特征映射组合，具体包括：

将维度为1×128的基序特征映射组合与维度为1×2368的上下文语义特征映射组合拼接到一起，然后对拼接后的特征映射使用Dropout函数进行正则化，输出整体特征映射组合，其维度为1×(128+2368)＝1×2496。该实施例中Dropout概率设置为0.5，但也可使用(0，1)区间内其他概率值。

步骤5、利用所述整体特征映射组合，基于反向传播(back propagation)算法进行模型训练，回归训练采用均方误差损失，分类训练采用Softmax激活函数和交叉熵损失，在训练中调整优化基序模块以及上下文语义模块每一层的参数值。由于提取出的整体特征映射组合包含有训练集，验证集和测试集，所以这里采用训练集进行训练，当模型在验证集上的打分准确度，即分类性能(AUC)或回归的相关系数(Pearson相关系数，PCC)，超过预设定的数值时，训练结束。

本实施例的第二过程包括使用上一步所构建的模型对待测试数据,例如所述测试集或者未知的待测RNA序列(其可能是潜在的RNA结合蛋白的结合位点的RNA转录本的序列中特定长度的子序列)进行预测打分，输出蛋白质-RNA结合强度(回归模型，若为分类模型，则预测结合与否)的预测结果。其中，所述的测试集，总量是训练集的1/5，包括了一半的正样本集和一半的负样本集，经过了与训练集相同的特征提取过程，融合成为了所述整体特征映射组合，即最终输入所述模型中的数据。

本发明在计算速度上远远超过了与其计算准确度最接近的iDeepE模型。iDeepE有一个global模型和一个local模型，其各自的参数量分别是1,555,964和279,804，iDeepE最终的模型是两者的整合，也就是说，iDeepE总参数是1,835,768。而本发明的RBPnet只考虑序列数据的情况下，其模型参数为141,906。如果在序列数据基础上加入结构数据(把体内数据(in vivo)、和体外数据(in vitro)两套数据全加)，所述模型总参数量为142,642。可以看出RBPnet的参数量远远小于之前表现最好的iDeepE，参数量大约缩小了一个量级，因而本发明的模型计算时间也大约缩短了一个量级，在实际训练中，10000个样本量的本发明的数据集在CPU上大约需要20分钟即可训练完毕，而同样对于这10000个样本量的数据集，iDeepE方法则需要大约3小时完成。

为了对本发明的模型进行验证，本实施例引进了采用Lnc2Cancer数据库中的562个与癌症相关，且存在于GENCODE数据库中的长非编码RNA来构建测试集，并以本领域公知的已经归类的长非编码RNA(Kirk,J.M.,et al.(2018).Functional classification oflong non-coding RNAs by k-mer content.Nature Genetics 50,1474.)，作为判定标准来检验回归模型训练结果的有效性。此处需要强调，长非编码RNA的功能研究领域有一个众所周知的难题。由于长非编码RNA的序列相似性特别低，所以即使测出了一个长非编码RNA的功能，并不会给其他长非编码RNA的分类提供太多参考(对于mRNA，如果测得了彼此之间的序列相似性，就可以基本确定一族mRNA，处在一族中的mRNA，功能是相似的，所以预测难度较低)。如果能为长非编码RNA预测有效的结合蛋白，即互作伙伴(interactionpartner)，则能对他非编码RNA的功能研究提供非常有价值的信息。但是，长非编码RNA表达量特别低，用实验手段，测得它的互作伙伴，也相对更难，因此，有效的预测RNA-蛋白质的互作，并准确预测其互作强度，是非常重要的。

具体的，对测试集中的每一个长非编码RNA，采用滑动窗口法获得该待测RNA上的潜在结合位点，并依次进行各RNA结合蛋白(RBP)的结合强度预测，挑选具有最大预测值的潜在结合位点作为预测的结合位点，最大的预测值做为该长非编码RNA与该RNA结合蛋白(RBP)的结合预测值。由此构建每个长非编码RNA的RNA结合蛋白(RBP)结构谱特征向量，然后计算长非编码RNA与长非编码RNA之间的结合各RNA结合蛋白的相似性，以此相似性进行一致聚类，将聚类结果与所述本领域公知的已经归类的长非编码RNA相比较，其比较结果如图2所示，图中给出了27个长非编码RNA聚类后的结果。图2的坐标轴从左上角开始表示27个RNA分别按照相同的排列顺序沿着行和列向右或者向下排列，其顺序与名称显示在右侧列；图2的每一个方格表示该方格对应行的RNA与对应列的RNA的相似度数值的灰度表示。图中沿着左上角斜向下的对角线分布着几个较亮的方格状区域，代表了计算后聚类的结果，按照同组RNA相对其他组更高的相似度，将其人为的划分为6组，分组范围以该组RNA不同的灰度为代表显示在右侧纵轴边栏，例如中间的“BACE1-AS”“UCA1”为一组。

对该分组的验证参照数据为公知的负责激活(cis-activating)功能的长非编码RNA，例如PVT1,PCAT6,HOTAIRM1、HOTTIP(黑点标识)，在本发明训练的模型预测的聚类结果中均分布于右侧纵轴上方，而负责抑制(cis-repressive)功能的长非编码RNA，例如BDNF-AS、XIST、CDKN2B-AS1、KCNQ10T1等(方框标识)，均分布于右侧纵轴下方。两类公知的功能不同的长非编码RNA在本模型的预测中被精确的划分开来，没有出现一例交叉，这一结果证实了本发明的预测准确性非常高。

与以上验证集验证过程同样的，在使用该训练出的模型对未知待测的RNA是否与某一蛋白质结合(分类预测)进行打分时，对该未知的待测RNA原始数据进行本实施例同样的特征提取步骤：包括对原始数据进行提取得到基序特征映射组合，以及提取得到上下文语义特征映射组合，然后将两者融合得到整体特征映射组合；其中，待测RNA原始数据包括待测蛋白质-RNA潜在结合位点及其上下游区域的序列数据与结构数据。

第二个实施例：

在本发明的第二个实施例中，采用与实施例一相同的构建并且训练模型方法，但是在使用该模型对待测试数据进行预测时，待测数据可以只包括序列数据而不包括结构数据(即结构数据为空集)。此时仍然可以使用前述已经训练好的模型对该待测序列数据进行打分，其中该序列数据经过与训练集相同的特征提取过程(即分别经过基序模块和上下文语义模块)而融合成为了整体特征映射组合，输入已经训练好的模型进行打分，预测出结合强度。此实施例对应于实验条件有限而无法得到RNA结构组学测定实验技术所产生的结构数据的情况。

第三个实施例：

在本发明的第三个实施例中，不同于实施例一构造并且训练模型时采用的回归训练模型，本实施例采用了分类训练模型，其他步骤，如特征提取、语义获取、特征融合并正则化与第一个实施例相同，如图3所示。具体为使用Softmax激活函数和交叉熵损失进行分类训练，并采用数据集中的所述正样本集和负样本集进行训练，其中原始数据集信息中存有已知的结合位点序列与蛋白质结合的强度值，可规定强度值大于2的数据被划分为正样本，标签置为1，并根据正样本通过一定规则产生处负样本，标签置为0.进而可进行分类训练，得到的模型可以用于预测待测定RNA是否可能与蛋白质进行结合的判断结果(是或者否)。

在同一套数据集上，为24个已知的RNA结合蛋白(RBP)分别构造一个预测模型，然后使用测试集中任一RNA原始数据，输入到已训练好的模型中，将该数据经过上述特征提取之后的整体特征映射组合进行分类预测，输出该RNA与该蛋白结合的分类结果。表1中给出了，在分类模型上，本发明在相同的计算机平台上与现有技术的算法iDeepE、GraphProt、Deepnet-rbp这三者相比的针对各个RNA结合蛋白(RBP)的预测准确度比较结果,其纵坐标为RNA结合蛋白(RBP)名称，横坐标为不同技术的名称(本发明为RBPnet)。其中在对23个RNA结合蛋白的测试中，本发明RBPnet的分类性能(AUC)都是最高的。对于分类性能(AUC)平均值，具体如表1的最后一行所示，iDeepE平均准确率0.931，GraphProt平均准确率0.887，Deepnet-rbp平均准确率0.903，而本发明RBPnet平均准确率0.961，超过了之前的最好算法iDeepE平均准确率0.931，在其基础上提升了3个百分点。

表1本发明相对于三种现有技术的分类性能对比(针对24种RNA结合蛋白(RBP))

RBP	iDeepE	GraphP	Deepne	RBPNe	RBP	iDeepE	GraphP	Deepnet	RBPNet
										ALKBH5	0.758	0.68	0.714	0.793	HNRNPC	0.976	0.952	0.962	0.98
Ago1-4	0.915	0.895	0.881	0.963	IGFBP1-3	0.947	0.889	0.879	0.978
										Ago2	0.884	0.765	0.809	0.914	MOV10	0.916	0.863	0.854	0.97
C17ORF85	0.83	0.8	0.82	0.926	PTB	0.944	0.937	0.983	0.959
										C22ORF28	0.837	0.751	0.792	0.898	PUM2	0.967	0.954	0.971	0.985
CAPRIN1	0.893	0.855	0.834	0.976	QKI	0.97	0.957	0.983	0.985
										ELAVL1A	0.964	0.959	0.966	0.978	SFRS1	0.946	0.898	0.931	0.98
ELAVL1B	0.971	0.9	0.961	0.988	TAF15	0.976	0.97	0.983	0.987
										ELAVL1H	0.979	0.955	0.966	0.984	TDP43	0.945	0.874	0.876	0.954
ELAVL1C	0.988	0.991	0.994	0.999	TIA1	0.937	0.861	0.891	0.945
										EWSR1	0.969	0.935	0.966	0.988	TIAL1	0.934	0.833	0.87	0.954
FUS	0.985	0.968	0.98	0.995	ZC3H7B	0.907	0.82	0.796	0.974
										平均	0.931	0.887	0.903	0.961

根据本发明的另一个实施例，公开一种构建用于预测蛋白质-RNA相互作用结合位点的模型的系统，包括处理器，储存器以及储存在储存器上并可以在处理器上实现上述实施例一或三中所述构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的步骤。

根据本发明的另一个实施例，公开一种计算机可读储存介质，其上储存有计算机程序，所述程序被处理器执行时实现上述实施例中构建用于预测蛋白质-RNA相互作用结合位点的模型的方法的步骤。

根据本发明的另一个实施例，公开一种用于预测蛋白质-RNA相互作用结合位点的系统，包括处理器，储存器以及储存在储存器上并可以在处理器上实现实施例一至三所述的用于预测蛋白质-RNA相互作用结合位点的方法中的步骤。

根据本发明的再一个实施例，公开一种计算机可读储存介质，其上储存有计算机程序，其特征在于，所述程序被处理器执行时实现实施例一至三所述的用于预测蛋白质-RNA相互作用结合位点的方法中的步骤。

对应于本专利说明书所述实施例中所述的模型训练方法，除了在实施例中，还在以下的表2提供了其中各个步骤详细的参数说明，所述参数的设置同样基于python3.6.8-tensorflow1.5.0-keras2.2.4环境实现，但其仅仅是示例性说明：

表2RBPNet模型参数设置

尽管该框图以功能上分开的方式来描述组件，但这样的描述仅为了说明的目的。图中所示的组件可以任意地进行组合或被分为独立的软件、固件和/或硬件组件。而且，无论这样的组件是如何被组合或划分的，它们都可以在同一计算装置或多个计算装置上执行，其中多个计算装置可以是由一个或多个网络连接。

本说明书中“包括”和“具有”以及类似含义的术语表达，意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备并不限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。“一”或“一个”也不排除多个的情况。

虽然本发明已经通过上述实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种构建用于预测蛋白质-RNA相互作用结合位点模型的方法，其中包括如下步骤：

步骤1、获得已知的蛋白质-RNA相互作用的结合位点处及其上下游区域的序列数据，以及测定的所述蛋白质-RNA相互作用的结合位点及其上下游区域的结构数据，其中所述结构数据是RNA结构组学测定实验技术所产生的结构数据，其提供体内真实细胞状态下RNA的二级结构信息；

步骤2、分别基于卷积神经网络CNN方法提取其中的所述结合位点处的序列数据的特征映射以及所述结构数据的特征映射，得到基序特征映射组合，其中所述步骤2包括：

步骤203，将所述的结构特征映射和序列特征映射对应相加而融合，并且对融合后的特征映射组合进行正则化处理，之后传递到全连接层，最后使用激活函数对其进行激活，输出完整的基序特征映射组合；

步骤3、分别基于循环神经网络RNN方法提取其中的结合位点及其上下游区域的序列数据的特征映射以及对应的结构数据的特征映射，得到上下文语义特征映射组合，其中所述循环神经网络RNN方法包括用于进行序列上下文语义学习的双向长短时记忆Bi-LSTM层，其中所述步骤3包括：

步骤301，从步骤1得到的数据集中提取结合位点及其上下游区域的序列数据以及对应的结构数据，分别将其左右扩增到相同的长度，并对所述结合位点及其上下游区域的序列数据进行编码；

步骤302，将所述结合位点及其上下游区域的结构数据和经过编码的序列数据分别传递到卷积模块中进行卷积计算，然后分别使用激活函数进行激活，最后传递到最大池化层分别进行最大池化，提取出结合位点及其上下游区域的序列特征映射和结构特征映射；

步骤303，将所述的结合位点及其上下游区域的序列和结构的特征映射进行对应相加融合，并将融合的特征映射传递到采用了循环神经网络方法的所述Bi-LSTM层计算模型中进行序列上下文语义特征的学习，输出上下文语义特征映射；

步骤304，将所述的Bi-LSTM层的输入端的融合的特征映射与输出端的上下文语义特征映射相加构建成一个残差模块，输出完整的上下文语义特征映射组合；

步骤5、利用所述整体特征映射组合，在训练数据集上基于回归训练或分类训练进行模型训练，得到蛋白质-RNA相互作用结合位点预测模型。

2.根据权利要求1所述的方法，其中所述RNA结构组学测定实验技术所产生的结构数据是DMS-seq、PARS或者icSHAPE结构数据。

3.根据权利要求1所述的方法，其中对所述结合位点及其上下游区域的序列数据进行编码采用如下公式：

其中，表示待编码的序列数据，/>表示编码后的输出值。

4.根据权利要求1所述的方法，其特征在于，所述回归训练使用均方误差损失进行训练，或所述分类训练使用Softmax激活函数和交叉熵损失进行训练。

5.一种构建用于预测蛋白质-RNA相互作用结合位点模型的系统，包括处理器，存储器以及储存在存储器上的计算机程序，所述计算机程序在处理器上执行实现权利要求1至4任一项所述方法。

6.一种计算机可读储存介质，其上储存有计算机程序，其特征在于，所述程序被处理器执行时实现上述权利要求1至4任一项所述方法。

7.一种用于预测蛋白质-RNA相互作用结合位点的方法，包括：

步骤1、将待测的RNA转录本的序列中特定长度的子序列作为潜在的RNA结合蛋白的结合位点，获得潜在的结合位点处及其上下游区域的序列数据，以及所述潜在结合位点及其上下游区域的结构数据，将所述序列数据和结构数据输入通过权利要求1-4之一构建的针对所述RNA结合蛋白的模型；

步骤5、将所述整体特征映射组合通过分类预测得到所述RNA结合蛋白与所述RNA转录本上的潜在结合位点之间相互结合与否的判断结果；或通过回归预测，获得两者之间结合强度的预测值。

8.根据权利要求7所述的方法，其中所述蛋白质-RNA结合位点及其上下游区域的结构数据为空集。

9.一种用于预测蛋白质-RNA相互作用结合位点的系统，包括处理器，存储器以及储存在存储器上的计算机程序，所述计算机程序在处理器上执行实现权利要求7或8的所述方法。

10.一种计算机可读储存介质，其上储存有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求7或8的所述方法。