CN115273965A

CN115273965A - 一种多类型rna甲基化修饰位点预测方法

Info

Publication number: CN115273965A
Application number: CN202210830344.XA
Authority: CN
Inventors: 於东军; 张颖
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-11-01

Abstract

本发明提出了一种多类型RNA甲基化修饰位点预测方法，包括：获取多物种的多种RNA甲基化修饰位点数据确定正样本位点集，对修饰类型的序列数据进行预处理，确定训练数据集；基于BERT构建生物语言模型，将训练数据集数据进行处理转化成单词组成的句子，训练生物语言模型掌握生物语言信息提取能力；基于生物语言模型，采用孪生网络构建预测模型，预测模型采用线性分类器分类，基于训练数据集对预测模型训练，得到最优的预测模型；输入数据至最优的预测模型，获得中心位点甲基化类型预测。本发明可以有效地提取序列特征，增强模型的鲁棒性，并且避免了重复的从头训练，模型容易扩展并迁移到新的数据集上，具有很强的泛化能力。

Description

一种多类型RNA甲基化修饰位点预测方法

技术领域

本发明涉及生物序列修饰预测领域，具体而言是一种多类型RNA甲基化修饰位点预测方法。

背景技术

RNA修饰已经被证明在多种生物过程中发挥重要作用，因此准确识别转录组中的RNA修饰对于深入了解生物学功能和机制至关重要。

目前已经开发了许多用于以单碱基分辨率预测RNA修饰的工具，其中传统的基于特征工程的方法侧重于特征设计和特征选择过程，这需要广泛的生物学专业知识，并且可能引入冗余信息。随着人工智能技术的快速发展，端到端方法受到了研究人员的青睐，此类方法能避免繁琐的手动特征提取。然而，无论是传统机器学习方法或者深度学习方法，目前的方法有以下局限：(1)计算方法大多仅限于一种甲基化类型，换句话说，良好的训练模型仅适用于特定物种的某种修饰类型；(2)缺少对多种修饰类型的数据的整合；(3)基于深度学习的预测方法还需要进一步探索，卷积神经网路与循环神经网络是目前的主流，但生物序列可以理解为生物语言，目前没有语言模型在此任务上的应用。

发明内容

针对现有方法的不足，本发明提出了一种多类型RNA甲基化修饰位点预测方法，可进行多物种多修饰类型的预测，解决现有模型可预测类型单一的问题。

实现本发明目的的技术解决方案为：一种多类型RNA甲基化修饰位点预测方法，包括步骤：

获取多物种的多种RNA甲基化修饰位点数据确定正样本位点集，依据正样本位点的位置与数量进行负样本位点的采样，分别以正负样本位点为中心截取固定长度的序列，并分别对每种修饰类型的序列数据进行预处理，确定训练数据集；

基于BERT构建生物语言模型，将训练数据集数据进行处理转化成单词组成的句子，用此语料训练生物语言模型掌握生物语言信息提取能力，获取生物语言模型；

基于生物语言模型，采用孪生网络构建预测模型，预测模型采用线性分类器分类，基于训练数据集对预测模型训练，每一种修饰类型预测视为单独的下游任务，对于每个下游任务，从训练的参数开始，并使用特定于任务的数据调整预测模型使其适应于相应数据的分类，得到最优的预测模型；

输入数据至最优的预测模型，获得中心位点甲基化类型预测。

进一步地，所述多物种的多种RNA甲基化修饰位点数据包括鼠的4种RNA修饰：ψ、m6A、m5C、m1A，拟南芥的3种RNA修饰：ψ、m5C、m6A，酵母的3种RNA修饰：ψ、m6A、m1A。

进一步地，所述正样本位点集是将正样本位置信息搜集后，对位置进行整合，并将位置信息映射到相应生物的参考基因组得到的。

进一步地，所述序列数据进行预处理时对序列数据进行去冗余操作，将相似度大于80％的序列剔除。

进一步地，所述将训练数据集数据进行处理转化成单词组成的句子包括：

将训练数据集的序列数据分割成单词，通过一个固定宽度的滑动窗口将原始等长序列分割为单词，滑动窗口宽度设置为k，步长为s，序列被划分成l-k+1个单词；

在每个序列的开头和结尾分别添加两个特殊标记CLS和SEP，CLS表示分类令牌，SEP表示分离令牌，连续屏蔽6个长度的单词，标记为MASK，所有样本的屏蔽率为15％，然后将所有单词转换为标记嵌入，加入特殊标记后，句子长度被调整为l-k+3，l为序列初始长度。

进一步地，所述负样本位点的采样基于正样本位点集的正样本修饰位点，任一负样本位点与任一正样本距离大于200bp，所述固定长度的序列为41bp长度的序列。

进一步地，所述k＝6，s＝1。

进一步地，所述生物语言模型采用层数L＝12，隐藏向量大小H＝768，注意力数量A＝12。

进一步地，所述生物语言模型采用的损失函数为：

其中，v₁,v₂分别表示两个输入句子在新空间中的向量，如果这两个句子标签相同，则参数Y＝0，否则，Y取值为1，D(v₁,v₂)表示为两个指定向量的欧式距离，m为调节距离的阈值。

进一步地，所述线性分类器采用交叉熵损失函数，为：

loss(v,y)＝-ylog(f(v))-(1-y)log(1-f(v))

其中，v表示输入句子在新空间中的向量，y为句子标签，f(·)表示预测某类样本得到的概率。

本发明与现有技术相比，其显著优点为：(1)本发明的模型是基于生物语言模型进行微调的，避免了重复的从头训练；(2)本发明的模型同时引入的孪生网络，双重损失韩式的限制使模型具有强鲁棒性，预测精度高；(3)本发明的模型泛化能力高，易于推广到多种多修饰类型，促进了跨物种/修饰的探索。

附图说明

图1为本发明数据搜集以及预处理示意图。

图2为本发明一种多类型RNA甲基化修饰位点预测方法的流程图。

具体实施方式

下面结合附图以及具体实施方式，对本发明做进一步描述，以便于更清楚地理解本发明所要求保护的技术思想。

一种多类型RNA甲基化修饰位点预测方法具体包括以下步骤：

结合图1，步骤1：良好的数据是训练模型的基础，进行多修饰类型预测研究，不能简单地将现有模型所使用的数据集合并，因为这会导致负样本的采样偏差。因此，本发明构建用于多种RNA修饰类型的数据库，具体操作为：

选择小鼠、拟南芥、酵母这三种常见模式生物，主要从两方面搜集高质量的RNA修饰数据，一方面搜集公开的RNA修饰数据库，另一方面从GEO公开的湿实验数据中搜集整理数据，最终整理了小鼠的4种RNA修饰：ψ，m6A，m5C，m1A，拟南芥的3种RNA修饰：ψ，m5C，m6A，酵母的3种RNA修饰：ψ，m6A，m1A。

完成完备的正样本位置信息搜集后，对位置进行整合，并将位置信息映射到相应生物的参考基因组，从而得到整合的正样本位点集。在生成负样本位点集时，限制负样本与所有正样本的距离的大于200bp，即保证所有负样本均不会与正样本重叠。接着从参考基因组中以正负样本为中心截取特定长度的序列(41bp)作为分别作为每种修饰类型的正负样本。

预处理时，分别对得到的正样本数据进行去冗余操作，将相似度大于80％的序列剔除，并将预处理后的数据按9:1的比例划分成训练集与测试集。

结合图2，步骤2：在大规模数据集上进行生物语言模型的预训练，即用无监督学习的方式学习序列的语义信息，生物语言模型有如下特点，其一，单词的长度为6；其二，单词屏蔽是连续的而非随机的，目的是避免轻易的从邻居单词推断出被屏蔽的单词；其三，仅采用采用蒙面语言模型而并未使用下一句句子预测模型，原因是生物语言与人类自然语言有差异，生物语言中没有前后句子的定义具体操作如下：

2.1：将句子(序列)分割成单词：

从人类基因组生成采集训练数据，采集的序列长度标记为l(l在5-510之间)，所有序列是随机抽样的并且相互不重叠。通过一个固定宽度的滑动窗口将原始等长序列分割为单词，这里滑动窗口宽度设置为k，步长为1。经过此步骤，序列被划分成l-k+1个单词，这里k设置为6。

2.2：句子处理：

在每个句子的开头和结尾分别添加两个特殊标记[CLS]和[SEP]，这里[CLS]表示分类令牌，[SEP]表示分离令牌。连续屏蔽6个长度的单词，标记为[MASK]，所有样本的屏蔽率为15％。然后将所有单词转换为标记嵌入。加入特殊标记后，句子长度被调整为l-k+3。

2.3：无监督BERT模型预训练：

所述生物语言模型采用基础的BERT(层数L＝12，隐藏向量大小H＝768，注意力数量A＝12)，采用BERT模型(蒙面语言模型)，在生物语料上对模型进行预训练，即使得模型具备良好的预测[MASK]的能力，进行蒙面预测任务的训练，即在生物语料上对此BERT模型进行预训练，使得模型具备良好的预测[MASK]的能力。

步骤3：在上述预训练的模型上进行有监督微调，具体操作如下：

3.1：数据准备：

数据准备与预训练时类似，需要将本发明采集的针对特定任务的序列转化为单词，并对句子进行处理。具体来说，将长度为41bp的序列划分成36(＝41-6+1)个单词。加上[CLS]和[SEP]后，句子长度被调整为38，并且微调阶段不需要对句子进行随机屏蔽处理。

3.2：预测模型构建，模型分为对比学习模块与分类模块，具体如下：

对比学习模块在图2中体现为两个BERT生物语言模型，序列经过对比学习模块后，被编码为向量，这两个BERT是参数共享的，也称为孪生网络，目的是在将样本映射到新空间时，使得同类样本尽可能接近而不同类样本尽可能远离，因此，所采用的损失函数如下：

其中，v₁,v₂分别表示两个输入句子在新空间中的向量，如果这两个句子标签相同，则Y＝0，否则，Y取值为1，D(v₁,v₂)表示为两个指定向量的欧式距离，m为调节距离的阈值。

分类模块即将最后一个编码器的[CLS]编码池化后接上一个线性分类器，分类器输入的维度为768，输出的维度为2，分类器采用交叉熵损失函数，损失函数表示如下：

loss(v,y)＝-ylog(f(v))-(1-y)log(1-f(v))

最终，综合对比学习模块与分类模块，所需优化的函数如下：

loss＝loss(v₁,v₂,Y)+loss(v₁,y₁)+loss(v₂,y₂)

即对于每两个样本，既要保证其中的每个样本尽可能的分类正确，又要保证样本对在新空间中的映射向量类内接近，类间远离。

预测模型有两个层面的限制，其一采用孪生网络限制同类样本经过语言模型映射到新空间后，其向量相互接近，不同类样本的向量相互远离，其二是[CLS]编码的句子经过线性分类器后，能尽可能的分类正确。以上两种限制兼备使得模型具有鲁棒性。

步骤4：步骤2所述的预训练模型是共用的，基于步骤3，分别在每种组中的每种修饰类型上进行参数微调，使得模型能够适用于特定的甲基化修饰分类。将每种修饰类型的测试数据集输入至最优的改进的预测模型，获得中心位点甲基化类型预测。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构想，做出其它各种相应的改变以及变形，将模型用于其他序列级别预测任务，而所有的这些改变以及变形都应该属于本发明专利权利要求的保护范围之内。

Claims

1.一种多类型RNA甲基化修饰位点预测方法，其特征在于，包括步骤：

基于BERT构建生物语言模型，将训练数据集数据进行处理转化成单词组成的句子，训练生物语言模型掌握生物语言信息提取能力，获取生物语言模型；

2.根据权利要求1所述的多类型RNA甲基化修饰位点预测方法，其特征在于，所述多物种的多种RNA甲基化修饰位点数据包括鼠的4种RNA修饰：ψ、m6A、m5C、m1A，拟南芥的3种RNA修饰：ψ、m5C、m6A，酵母的3种RNA修饰：ψ、m6A、m1A。

3.根据权利要求1所述的多类型RNA甲基化修饰位点预测方法，其特征在于，所述正样本位点集是将正样本位置信息搜集后，对位置进行整合，并将位置信息映射到相应生物的参考基因组得到的。

4.根据权利要求1所述的多类型RNA甲基化修饰位点预测方法，其特征在于，所述序列数据进行预处理时对序列数据进行去冗余操作，将相似度大于80％的序列剔除。

5.根据权利要求1所述的多类型RNA甲基化修饰位点预测方法，其特征在于，所述将训练数据集数据进行处理转化成单词组成的句子包括：

6.根据权利要求5所述的多类型RNA甲基化修饰位点预测方法，其特征在于，所述负样本位点的采样基于正样本位点集的正样本修饰位点，任一负样本位点与任一正样本距离大于200bp，所述固定长度的序列为41bp长度的序列。

7.根据权利要求6所述的多类型RNA甲基化修饰位点预测方法，其特征在于，所述k＝6，s＝1。

8.根据权利要求1所述的多类型RNA甲基化修饰位点预测方法，其特征在于，所述生物语言模型采用层数L＝12，隐藏向量大小H＝768，注意力数量A＝12。

9.根据权利要求1所述的多类型RNA甲基化修饰位点预测方法，其特征在于，所述生物语言模型采用的损失函数为：

10.根据权利要求1所述的多类型RNA甲基化修饰位点预测方法，其特征在于，所述线性分类器采用交叉熵损失函数，为：

loss(v,y)＝-ylog(f(v))-(1-y)log(1-f(v))