CN111192627B

CN111192627B - 基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法

Info

Publication number: CN111192627B
Application number: CN201911288051.8A
Authority: CN
Inventors: 於东军; 李阳; 朱一亨
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-12-15
Filing date: 2019-12-15
Publication date: 2022-09-06
Anticipated expiration: 2039-12-15
Also published as: CN111192627A

Abstract

本发明公开了一种基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法，包括：步骤1、碱基的嵌入法表示；步骤2、在嵌入空间构建直接相关模型；步骤3、基于自适应随机梯度下降的模型优化；步骤4、接触图提取及后处理。该方法是现有基于直接相关分析方法的核糖核酸接触图预测方法的拓展，具有灵活性和高效性。

Description

基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法

技术领域

本发明涉及生物信息学中预测核糖核酸碱基之间接触预测领域，具体地说，是一种基于嵌入技术和直接相关分析的具有高精度的高效蛋核糖核酸接触预测方法。

背景技术

核糖核酸(RNA)是生物生命系统中重要的组成部分之一。在中心法则中承担着重要作用。RNA在生物体内行使多种功能，例如，HIV病毒的遗传信息就是由RNA而非DNA携带。目前，国内外学者在生物信息学领域内对RNA的功能和结构的研究正在逐渐升温。一般来说，同蛋白质类似，RNA的序列决定了RNA的结构，而RNA的结构跟其功能也具有密切的关系。因此，越来越多的的研究人员开始关注RNA的二级结构和三级结构的预测。

目前，具有一级序列的信息的RNA已经大量获得，但是，通过实验方法测定其三维空间结构往往花费高，难度大。这就导致了已知序列信息和结构信息之间形成了巨大的鸿沟。通过生物信息学的手段对已知序列信息的RNA进行三维结构预测成为非常紧迫的任务。

现在一般方法都是通过统计物理学方法基于序列对RNA的二级结构进行预测，再通过二级结构对其三维结构的建模进行指导。但是二级结构的表示存在天然的缺陷，即RNA的二级结构不能表示所有在空间上接触的碱基对。也就是说，二级结构表示的仅仅是所有碱基之间接触的一个子集。

2016年，Caleb Weinreb等人在CELL期刊上刊出的文章3D RNA and FunctionalInteractions from Evolutionary Couplings中提出了一种从RNA多序列联配中通过直接相关分析(DCA)获得碱基之间联配得分的方法plmc。该方法打破了传统RNA二级结构表示的约束，在协助预测RNA三维结构过程中发挥了重要作用。

尽管上述RNA碱基接触预测方法取得了一定的成功，但挑战仍然存在。首先，现有的直接相关分析方法中碱基的表示方法是标签化的，碱基之间没有相关性。再者，现有的直接相关分析模型都是线性模型，无法对天然碱基之间更加复杂的非线性关系进行建模。此外，上述文章中的优化方法效率偏低，训练时间较长。

发明内容

本发明的目的在于提出一种包含新的直接相关分析模型的预测方法，该模型是对现有直接相关分析模型的一种拓展，在现有模型的接触上，加入了碱基类型嵌入的方法，该表示方法可以通过向量表示学习出碱基之间的语义关系。同时通过引入更加高效的优化算法，从而高效优化所提出的模型。

实现本发明目的的技术解决方案为：一种基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法，包括以下步骤：

步骤1、碱基的嵌入法表示：对于给定核糖核酸多序列联配中的每条序列的每一个碱基，先通过多项式分布进行表示，再与一个可训练的嵌入参数矩阵进行相乘，得到对应的向量表示；值得注意的是，由于该嵌入矩阵参数是可训练的，会根据给定的多序列联配自动学习，因此，不同的核糖核酸多序列联配学习得到的向量表示也不一样。

步骤2、基于伪极大似然的直接相关模型构建：构建耦合参数矩阵，对于核糖核酸多序列联配中的每个位置，基于所有不包括该位置的其他位置的嵌入法的向量表示和耦合参数相乘，从而得到该位置概率分布的预测。该核糖核酸序列的概率近似表示为所有位置预测的概率分布的乘积；

步骤3、使用自适应随机梯度下降方法优化模型：损失函数为预测的核糖核酸序列的概率分布和给定核糖核酸多项式概率分布的距离。优化对象为该模型中的嵌入参数和耦合参数。本方法可以认为是一种神经网络方法，但是该神经网络方法更加关注的是隐含层的参数，而非输出层的结果。

步骤4、接触图提取及后处理：接触图最终从训练得到的耦合参数中提取，通过后处理步骤消除接触图中的噪声。

所述步骤1中，对于给定的核糖核酸多序列联配，使用一个嵌入参数矩阵E对现有多序列联配中的每个碱基的表示进行变换，用于表示该氨基酸的向量是一个多项式分布，向量的维度D是事先指定超参数。

所述步骤2中，对核糖核酸多序列联配中每一个碱基进行嵌入法表示后，在新的特征空间中，使用伪极大化似然的直接相关分析方法对核糖核酸多序列联配进行建模；每个位置预测的碱基类型概率分布为

其中

代表多序列联配中第n个位置为碱基类型q的概率；a_\i表示多序列联配中的其它位置；J为可训练的耦合参数。

所述步骤3中，利用自适应学习速率的随机梯度下降算法对该模型进行优化，得到参数E和J。

所述步骤4中，从训练得到的耦合参数J中提取出给定多序列联配中任意两个位置的接触打分C；使用基于平均积矫正的后处理技术对C进行去噪。

本发明与现有技术相比，其显著优点：(1)提高了模型的预测精度：通过增加一个嵌入参数矩阵，实现了碱基的向量化表示。再者，通过步骤之间非线性函数的应用，该模型具有非线性建模的能力；该模型在公共通用数据集上在精度指标上相比plmc获得了19.1％的提高。(2)引入自适应随机梯度下降算法，实现了对所提出模型的高效训练。

附图说明

附图为本发明的三层的神经网络。

具体实施方式

下面结合附图对本发明作进一步的说明。

附图给出了本发明的预测方法系统结构示意图。结合附图所示，一种基于碱基嵌入和直接相关分析的核糖核酸接触图的预测方法，包括了以下步骤：首先，对于给定核糖核酸多序列联配中的每条序列的每一个碱基，先通过多项式分布进行表示，再与一个可训练的嵌入参数矩阵进行相乘，得到对应的向量表示；接着，初始化耦合参数矩阵，对于核糖核酸多序列联配中的每个位置，基于所有不包括该位置的其他位置的嵌入法的向量表示和耦合参数相乘，从而得到该位置概率分布的预测；对于该参数模型，我们使用自适应随机梯度下降方法进行优化；最后，从获得的耦合参数中抽取接触图打分，并通过相关后处理技术去除接触图中的噪声。

以下步骤中，步骤1和步骤2分别对应图中的输入层到隐含层和隐含层到输出层的操作。步骤3为优化该模型的方法。步骤4为结果提取和后处理方法。下面首先介绍该模型的输入信息。

输入介绍

本发明所提出的模型的输入为RNA多序列联配(MSA)，多序列联配是多个对齐的生物序列。一般假设MSA中的序列存在遗传关系，并且输入同一个家族。因此，多序列联配记录了某个家族的遗传信息。该模型的目标就是从遗传信息中推理得到多序列联配中各个位置之间接触的信息。

步骤1、碱基的嵌入法表示

给定一个序列数目为N，序列长度为L的RNA多序列联配，由于RNA中的碱基有A,G,C,U四种，再加上可能出现的GAP状态，一个RNA多序列联配可以表示为一个N×L的矩阵M。矩阵中的每一个元素为有5种状态的标签数据表示。进一步的，我们可以使用多项式分布来表示M中第n个序列中位置l的碱基：

M_n,l＝[B₁,B₂,B₃,B₄,B₅]^T (1)

其中，B_α＝1，如果M中第n个序列中位置l的碱基为α，α∈{1，2，3，4，5}，其它情况则置零。然后通过与初始化的D×5的共享嵌入矩阵E相乘，得到了每个碱基的向量化表示：

M′_n,l＝EM_n,l (2)

为了跟未嵌入的碱基保持一致性，我们通过下面的非线性激活函数使碱基的向量化表示同样遵循多项式分布：

以上，完成了碱基的嵌入向量化表示。

步骤2、直接相关分析模型构建

对于MSA中的每一个位置，步骤2尝试使用其它位置来预测当前位置，假设预测的MSA中的第n个序列的第l个位置的碱基是碱基类型α的概率位

则：

其中，J_k,l,d,α是耦合参数。MSA中第n个序列中位置l的碱基可以用一个5维的向量

表示，代表一个多项式分布。通过比较预测的分布

和输入分布M_n,l之间的差异，就可以判断当前参数模型对MSA建模的效果。

步骤3、基于自适应随机梯度下降的模型优化

为了最优化参数模型对MSA的建模效果，该发明通过最小化预测的分布

和输入分布M_n,l之间的差异来达到这个目的。我们采用了交叉熵来衡量分布之间的差异，因此，该模型的损失函数为：

该发明首次在该领域中引入自适应学习速率的随机梯度下降算法Adam(https://arxiv.org/abs/1412.6980)来优化损失函数(5)。相比plmc中使用的l-bfgs优化算法，Adam在占用更少内存资源的同时，在更短时间内获得了收敛。

步骤4、碱基接触图抽取与后处理

对于得到的耦合参数J，本发明使用Ising gauge(https://www.sciencedirect.com/science/article/pii/S0021999114005178)操作来对耦合参数进行预处理：

其中“:”表示在对应的维度求平均。对于任意两个位置k和l，本发明使用下面的操作获得这两个位置碱基对接触的打分：

最后，我们使用平均积矫正对得分进行矫正：

该矫正可以有效去除RNA碱基接触图里面的噪声。

综上所述，首先本发明将用标签数据表示的RNA多序列联配数据用碱基嵌入方法转换为向量表示，有效表达了碱基之间的相互关系；然后在MSA特异性嵌入参数矩阵变换后的向量空间进行直接相关分析。该发明能够通过端到端的学习，让嵌入参数矩阵自主学习需要的向量表示，同时，非线性的激活函数也给模型增加了复杂关系建模的能力。引入的自适应学习率的随机梯度下降方法可以高效训练所提出的模型。

Claims

1.一种基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法，其特征在于，包括以下步骤：

步骤1、碱基的嵌入法表示：对于给定核糖核酸多序列联配中的每条序列的每一个碱基，先通过多项式分布进行表示，再与一个可训练的嵌入参数矩阵E进行相乘，得到对应的向量表示；

步骤2、基于伪极大似然的直接相关模型构建：构建耦合参数矩阵J，对于核糖核酸多序列联配中的每个位置，基于所有不包括该位置的其他位置的嵌入法的向量表示和耦合参数相乘，从而得到该位置概率分布的预测；核糖核酸序列的概率近似表示为所有位置预测的概率分布的乘积；

步骤3、使用自适应随机梯度下降方法优化模型：损失函数为预测的核糖核酸序列的概率分布和给定核糖核酸多项式概率分布的距离；优化对象为该模型中的嵌入参数和耦合参数；

步骤4、接触图提取及后处理：从训练得到的耦合参数中提取接触图，通过后处理步骤消除接触图中的噪声。

2.根据权利要求1所述的预测方法，其特征在于：所述步骤1中，对于给定的核糖核酸多序列联配，使用一个嵌入参数矩阵E对现有多序列联配中的每个碱基的表示进行变换，用于表示氨基酸的向量是一个多项式分布，向量的维度D是事先指定超参数。

3.根据权利要求1所述的预测方法，其特征在于：所述步骤2中，对核糖核酸多序列联配中每一个碱基进行嵌入法表示后，在新的特征空间中，使用伪极大化似然的直接相关分析方法对核糖核酸多序列联配进行建模；每个位置预测的碱基类型概率分布为

其中

4.根据权利要求1所述的预测方法，其特征在于：所述步骤3中，利用自适应学习速率的随机梯度下降算法对该模型进行优化，得到参数E和J。

5.根据权利要求1所述的预测方法，其特征在于：所述步骤4中，从训练得到的耦合参数J中提取出给定多序列联配中任意两个位置的接触打分C；使用基于平均积矫正的后处理技术对C进行去噪。