CN112562788B

CN112562788B - 一种环状rna-rna结合蛋白关系预测模型构建方法

Info

Publication number: CN112562788B
Application number: CN202011575605.5A
Authority: CN
Inventors: 袁亮亮; 杨旸
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-06-28
Anticipated expiration: 2040-12-28
Also published as: CN112562788A

Abstract

本发明公开了一种环状RNA‑RNA结合蛋白关系预测模型构建方法，解决了现有技术仅限制了预测准确率的问题，其技术方案要点是将初始的环状RNA序列数据集样本构造为环状RNA‑RNA结合蛋白序列对的形式；采用自监督学习的方式训练得到词向量字典；根据训练得到的词向量字典，将样本序列对映射成对应的词向量矩阵作为表征；将样本序列对的向量表征对应输入伪孪生网络，得到编码后的特征向量输入到度量函数中，计算绑定概率预测值并计算获得其与标签的差值，优化模型参数；模型训练迭代结束后保存得到的模型，本发明的环状RNA‑RNA结合蛋白关系预测模型构建方法，能针对RNA序列和蛋白质序列进行数据挖掘，能有效提高环状RNA‑RNA结合蛋白结合预测的准确率。

Description

一种环状RNA-RNA结合蛋白关系预测模型构建方法

技术领域

本发明涉及生物信息数据挖掘技术，特别涉及一种环状RNA-RNA结合蛋白关系预测模型构建方法。

背景技术

环状RNA是一类特殊的非编码RNA分子，与传统的linear RNA不同，环状RNA分子呈封闭环状结构，不受RNA外切酶影响，表达更加稳定。

近年的研究表明，环状RNA在疾病中发挥着重要的调控作用，已成为RNA领域最新的研究热点。其中，对于环状RNA和RNA结合蛋白(RBP)的研究是一个主流方向，主要通过研究环状RNA与RBP之间的调控关系从而更好地理解环状RNA的功能。

目前大量已开源的高通量测序实验数据的出现，使得基于数据学习的机器学习算法得以在这个领域发挥作用，通过机器学习算法，可以学习到序列绑定关系的模式，对未知的序列的绑定关系进行预测，相比于湿实验测定的方式减少了成本。

近年来有很多针对环状RNA序列预期其对应的RNA结合蛋白的工作，如2019年Zhang K等人在“CRIP:predicting circRNA-RBP binding sites using a codon-basedencoding and hybrid deep neural networks”中采用CNN+LSTM的模型架构来学习序列关于结合蛋白的绑定模式，在此基础上，2020年Jia C等人在“PASSION:an ensemble neuralnetwork approach for identifying the binding sites of RBPs on circRNAs”中通过集成多种网络模型的方式进一步提升了预测准确率。此外，2020年Yuning Yang等人在“iCircRBP-DHN:identification of circRNA-RBP interaction sites using deephierarchical network”引入了更多的机制，相比前两种方式取得了更好的效果。但以上三种方法的局限在于它们都仅用到了环状RNA序列信息，通过学习环状RNA序列的特定模式来判断是否与目标RNA结合蛋白相结合，而环状RNA序列与蛋白序列绑定是由两序列的相互作用而实现的，仅用到环状RNA序列信息限制了预测准确率，还有待改进的空间。

发明内容

本发明的目的是提供一种环状RNA-RNA结合蛋白关系预测模型构建方法，能针对RNA序列和蛋白质序列进行数据挖掘，能够有效地学习到环状RNA序列和RNA结合蛋白序列之间交互模式的模型，以提高环状RNA-RNA结合蛋白结合预测的准确率。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种环状RNA-RNA结合蛋白关系预测模型构建方法，包括有以下步骤：

S1、将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对，重构形成目标数据集；

S2、采用自监督学习的方式训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征，得到对应的词向量字典；

S3、根据S2所得的词向量字典，将S1得到的目标数据集中的序列对映射成对应的词向量矩阵对，以将原始的环状RNA序列和蛋白质序列转化成对应的分布式表征形式；

S4、将S3得到的序列对的分布式表征输入伪孪生网络，得到编码后对应的两个特征向量；

S5、将S4得到的编码后的两个特征向量输入一个度量函数，输出对绑定概率的预测，计算预测值和标签的差值，优化模型参数；

S6、将步骤S3、S4、S5在原始的环状RNA序列数据集全集上进行一次称为一轮迭代，若迭代轮数等于给定常数或达到早停算法的阈值则停止迭代，进入步骤S7，否则返回步骤S3，迭代轮数加1，其中迭代轮数初始值为0；

S7、模型训练迭代结束后保存测试指标和得到的模型。

作为优选，步骤S1中将原始的环状RNA序列数据集中的环状RNA序列构造为环状RNA-RNA结合蛋白序列对，重构形成目标数据集具体为：

S11、初始化新数据集N为空；

S12、对于一个与某种类型RNA结合蛋白相结合的环状RNA序列子数据集，确定该RNA结合蛋白的蛋白质序列；

S13、将S12中环状RNA序列子数据集中每一个样本的环状RNA序列和对应结合的RNA结合蛋白组成一对，样本的标签不变，加入新数据集N；

S14、将步骤S12、S13进行一次称为一轮迭代，若所有类型的RNA结合蛋白对应的环状RNA序列子数据集都已经经过重构则停止迭代，进入步骤S15，否则返回步骤S12；

S15、保存新数据集N作为重构后的目标数据集。

作为优选，步骤S2中采用自监督学习的方式训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征的步骤包括：

S21、确定RNA序列语料库和蛋白质序列语料库；

S22、将语料库的序列进行分词，对于RNA序列，以长度为10，步长为1的的滑动窗口切分成RNA子序列；对蛋白质序列，以长度为5的滑动窗口，步长为1的方式切分成蛋白质子序列，切分后形成两个新的语料库，RNA子序列和蛋白质子序列分别作为单词；

S23、使用自监督学习的方式，分别训练两个语料库，得到RNA序列的分布式表征和蛋白质序列的分布式表征，对应生成两个词向量字典，分别为RNA序列表征词典与蛋白质序列表征词典。

作为优选，步骤S3中得到原始的环状RNA序列和蛋白质序列对应的分布式表征的步骤包括：

S31、将RNA序列映射为词向量矩阵，以长度为10，步长为1的滑动窗口，将RNA原序列从首部开始进行切分，得到RNA子序列集；根据S2中得到的RNA序列表征词典，依次将RNA子序列集中的RNA子序列映射为词向量，堆叠得到的词向量矩阵为RNA原序列的分布式表征；

S32、将蛋白质序列映射为词向量矩阵，以长度为5，步长为5的滑动窗口，将蛋白质原序列从首部开始进行切分，得到蛋白质子序列集；根据S2中得到的蛋白质序列表征词典，依次将子序列集中的子序列映射为词向量，堆叠得到的词向量矩阵为蛋白质原序列的分布式表征。

作为优选，步骤S4将序列对的表征输入伪孪生网络的步骤包括：将步骤S3得到的词向量矩阵对分别输入两个分支，每个分支是不共享权重的编码器模块，编码器模块可采用不同的网络骨干。

作为优选，步骤S5中将编码后的两个特征向量输入一个度量函数的步骤包括：将S4中的两个分支输出的特征向量拼接，输入一个全连接网络中，损失函数为交叉熵损失函数。

综上所述，本发明具有以下有益效果：

通过引入蛋白质序列信息并构建伪孪生网络的方式，学习到了环状RNA序列和RNA结合蛋白序列之间交互的模式，极大地提高了预测环状RNA-RNA结合蛋白是否结合的准确率。

附图说明

图1为本发明方法的流程示意框图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

原始的环状RNA序列数据集包括有若干个RNA子数据集，每个子数据集对应于一类的RNA结合蛋白，每个子数据集中包含有若干样本，样本由RNA序列和标签组成。

根据一个或多个实施例，公开了一种环状RNA-RNA结合蛋白关系预测模型构建方法，如图1所示，包括有以下步骤：

S1、将初始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对，保持与原样本的标签一致，重构后形成目标数据集；

具体的，初始的原装RNA数据集包括有N个RNA子数据集，每个子数据集对应于一类RNA结合蛋白。步骤S1包括有：

S11、初始化一个新数据集N为空；

S12、对于一个与某种类型RNA结合蛋白相结合的环状RNA序列子数据集，确定该RNA结合蛋白的蛋白质序列P；

S13、将S12中环状RNA序列子数据集中每一个样本的环状RNA序列和对应结合的RNA结合蛋白组成一对，作为新样本的特征，样本的标签不变，加入新数据集N；

S15、保存新数据集N作为重构后的目标数据集。

S2、采用自监督学习的方式训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征，得到对应的词向量字典，分别为RNA序列词向量字典和蛋白质序列词向量字典；

具体的，步骤S2包括有：

S21、确定RNA序列语料库和蛋白质序列语料库，通过UniRef蛋白质数据库和circBase环状RNA数据库构造蛋白质语料库和RNA语料库；

S23、使用典型的词向量训练方法，如GloVe，分别训练两个语料库，得到RNA序列的分布式表征和蛋白质序列的分布式表征，对应生成两个词向量字典，分别为RNA序列表征词典Embed_rna与蛋白质序列表征词典Embed_protein。

S3、根据S2所得的词向量字典，将S1得到的目标数据集中的序列对映射成对应的词向量矩阵对

以将原始的环状RNA序列和蛋白质序列转化成对应的分布式表征形式。向量矩阵

定义为

其中，X^rna，X^protein为S1所得序列对，其中Embed_rna(·)、Embed_protein(·)分别表示基于环状RNA、蛋白质词向量字典的映射函数。

具体的，步骤S3包括有：

S4、将S3得到的序列对的分布式表征输入伪孪生网络，得到编码后对应的两个特征向量；S3得到的输出词向量矩阵作为序列对的分布式表征，具体为将步骤S3得到的词向量矩阵对

分别输入到伪孪生网络的两个分支，每个分支是不共享权重的编码器模块，编码器模块可采用不同的网络骨干，如Resnet，ResNet-18结构的编码器，输出特征向量Y_rna，Y_protein定义为

其中ResNet₁(·)，ResNet₂(·)表示ResNet编码器对输入所做变换的函数。

S5、将S4得到的编码后的两个输出特征向量输入一个度量函数，输出对绑定概率的预测，计算预测值和标签的差值，优化模型参数；将S4中的两个分支输出的特征向量拼接，输入一个全连接网络中；输出特征向量Y_rna，Y_protein进行拼接得到Y_concat，将其输入全连接网络，使用Softmax激活函数，输出对绑定关系的预测值Output，Y_concat定义为：

Y_concat＝Concat(Y_rna，Y_protein)

Output定义为：

Output＝Softmax(g(W_fc*Y_concat+b_fc))。

计算预测值Output和样本真实标签的差异，采用交叉熵损失函数，反向优化整个网络的参数，损失函数为交叉熵损失函数。

S6、将步骤S3、S4、S5在原始的环状RNA序列数据集全集上进行一次称为一轮迭代；若迭代轮数等于给定常数或达到早停算法的阈值则停止迭代，进入步骤S7，否则返回步骤S3，迭代轮数加1，其中迭代轮数初始值为0；迭代轮数给定常数优选20次，早停条件设置为连续5轮验证集准确率没有提升。

S7、模型训练迭代结束后保存测试指标和得到的模型。

基于伪孪生网络的环状RNA-RNA结合蛋白关系预测模型在“CRIP：predictingcircRNA-RBP binding sites using a codon-based encoding and hybrid deep neuralnetworks”文章中提出的数据集中进行了实验，此数据集共有37个子数据集对应37种RNA结合蛋白，训练集与测试集的比例为4∶1，训练集和测试集中正负样本数目比较均衡，实验表明基于伪孪生网络的环状RNA-RNA结合蛋白关系预测模型的预测F1值可以达到0.92以上，AUC达到0.97左右，比目前提出的最先进的CRIP、PASSION、iCirRBP-DHN等模型高7％以上。

本方法通过采用双分支的伪孪生网络的结构，利用了RNA结合蛋白数据，充分挖掘了RNA序列和蛋白质序列之间的相互关系，大幅度提高了环状RNA序列分子对应RNA结合蛋白预测的准确率。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，包括有以下步骤：

S2、采用典型的词向量训练方法训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征，得到对应的词向量字典；

S7、模型训练迭代结束后保存测试指标和得到的模型。

2.根据权利要求1所述的环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，步骤S1中将原始的环状RNA序列数据集中的环状RNA序列与对应的蛋白质序列对应结合构造为环状RNA-RNA结合蛋白序列对，重构形成目标数据集具体为：

S11、初始化新数据集N为空；

S15、保存新数据集N作为重构后的目标数据集。

3.根据权利要求2所述的环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，步骤S2中采用典型的词向量训练方法训练参考资料库中环状RNA序列片段和蛋白质序列片段的分布式表征的步骤包括：

S21、确定RNA序列语料库和蛋白质序列语料库；

S22、将语料库的序列进行分词，对于RNA序列，以长度为10，步长为1的滑动窗口切分成RNA子序列；对蛋白质序列，以长度为5的滑动窗口，步长为1的方式切分成蛋白质子序列，切分后形成两个新的语料库，RNA子序列和蛋白质子序列分别作为单词；

S23、使用典型的词向量训练方法，分别训练两个语料库，得到RNA序列的分布式表征和蛋白质序列的分布式表征，对应生成两个词向量字典，分别为RNA序列表征词典与蛋白质序列表征词典。

4.根据权利要求3所述的环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，步骤S3中得到原始的环状RNA序列和蛋白质序列对应的分布式表征的步骤包括：

S32、将蛋白质序列映射为词向量矩阵，以长度为5，步长为1的滑动窗口，将蛋白质原序列从首部开始进行切分，得到蛋白质子序列集；根据S2中得到的蛋白质序列表征词典，依次将蛋白质子序列集中的子序列映射为词向量，堆叠得到的词向量矩阵为蛋白质原序列的分布式表征。

5.根据权利要求4所述的环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，步骤S4将序列对的分布式表征输入伪孪生网络的步骤包括：将步骤S3得到的词向量矩阵对分别输入伪孪生网络的两个分支，每个分支是不共享权重的编码器模块，编码器模块可采用不同的网络骨干。

6.根据权利要求5所述的环状RNA-RNA结合蛋白关系预测模型构建方法，其特征是，步骤S5中将编码后的两个特征向量输入一个度量函数的步骤包括：将S4中的两个分支输出的特征向量拼接，输入一个全连接网络中，损失函数为交叉熵损失函数。