CN111192627B - 基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法 - Google Patents

基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法 Download PDF

Info

Publication number
CN111192627B
CN111192627B CN201911288051.8A CN201911288051A CN111192627B CN 111192627 B CN111192627 B CN 111192627B CN 201911288051 A CN201911288051 A CN 201911288051A CN 111192627 B CN111192627 B CN 111192627B
Authority
CN
China
Prior art keywords
ribonucleic acid
base
sequence
direct correlation
prediction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911288051.8A
Other languages
English (en)
Other versions
CN111192627A (zh
Inventor
於东军
李阳
朱一亨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201911288051.8A priority Critical patent/CN111192627B/zh
Publication of CN111192627A publication Critical patent/CN111192627A/zh
Application granted granted Critical
Publication of CN111192627B publication Critical patent/CN111192627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

本发明公开了一种基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法,包括:步骤1、碱基的嵌入法表示;步骤2、在嵌入空间构建直接相关模型;步骤3、基于自适应随机梯度下降的模型优化;步骤4、接触图提取及后处理。该方法是现有基于直接相关分析方法的核糖核酸接触图预测方法的拓展,具有灵活性和高效性。

Description

基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法
技术领域
本发明涉及生物信息学中预测核糖核酸碱基之间接触预测领域,具体地说,是一种基于嵌入技术和直接相关分析的具有高精度的高效蛋核糖核酸接触预测方法。
背景技术
核糖核酸(RNA)是生物生命系统中重要的组成部分之一。在中心法则中承担着重要作用。RNA在生物体内行使多种功能,例如,HIV病毒的遗传信息就是由RNA而非DNA携带。目前,国内外学者在生物信息学领域内对RNA的功能和结构的研究正在逐渐升温。一般来说,同蛋白质类似,RNA的序列决定了RNA的结构,而RNA的结构跟其功能也具有密切的关系。因此,越来越多的的研究人员开始关注RNA的二级结构和三级结构的预测。
目前,具有一级序列的信息的RNA已经大量获得,但是,通过实验方法测定其三维空间结构往往花费高,难度大。这就导致了已知序列信息和结构信息之间形成了巨大的鸿沟。通过生物信息学的手段对已知序列信息的RNA进行三维结构预测成为非常紧迫的任务。
现在一般方法都是通过统计物理学方法基于序列对RNA的二级结构进行预测,再通过二级结构对其三维结构的建模进行指导。但是二级结构的表示存在天然的缺陷,即RNA的二级结构不能表示所有在空间上接触的碱基对。也就是说,二级结构表示的仅仅是所有碱基之间接触的一个子集。
2016年,Caleb Weinreb等人在CELL期刊上刊出的文章3D RNA and FunctionalInteractions from Evolutionary Couplings中提出了一种从RNA多序列联配中通过直接相关分析(DCA)获得碱基之间联配得分的方法plmc。该方法打破了传统RNA二级结构表示的约束,在协助预测RNA三维结构过程中发挥了重要作用。
尽管上述RNA碱基接触预测方法取得了一定的成功,但挑战仍然存在。首先,现有的直接相关分析方法中碱基的表示方法是标签化的,碱基之间没有相关性。再者,现有的直接相关分析模型都是线性模型,无法对天然碱基之间更加复杂的非线性关系进行建模。此外,上述文章中的优化方法效率偏低,训练时间较长。
发明内容
本发明的目的在于提出一种包含新的直接相关分析模型的预测方法,该模型是对现有直接相关分析模型的一种拓展,在现有模型的接触上,加入了碱基类型嵌入的方法,该表示方法可以通过向量表示学习出碱基之间的语义关系。同时通过引入更加高效的优化算法,从而高效优化所提出的模型。
实现本发明目的的技术解决方案为:一种基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法,包括以下步骤:
步骤1、碱基的嵌入法表示:对于给定核糖核酸多序列联配中的每条序列的每一个碱基,先通过多项式分布进行表示,再与一个可训练的嵌入参数矩阵进行相乘,得到对应的向量表示;值得注意的是,由于该嵌入矩阵参数是可训练的,会根据给定的多序列联配自动学习,因此,不同的核糖核酸多序列联配学习得到的向量表示也不一样。
步骤2、基于伪极大似然的直接相关模型构建:构建耦合参数矩阵,对于核糖核酸多序列联配中的每个位置,基于所有不包括该位置的其他位置的嵌入法的向量表示和耦合参数相乘,从而得到该位置概率分布的预测。该核糖核酸序列的概率近似表示为所有位置预测的概率分布的乘积;
步骤3、使用自适应随机梯度下降方法优化模型:损失函数为预测的核糖核酸序列的概率分布和给定核糖核酸多项式概率分布的距离。优化对象为该模型中的嵌入参数和耦合参数。本方法可以认为是一种神经网络方法,但是该神经网络方法更加关注的是隐含层的参数,而非输出层的结果。
步骤4、接触图提取及后处理:接触图最终从训练得到的耦合参数中提取,通过后处理步骤消除接触图中的噪声。
所述步骤1中,对于给定的核糖核酸多序列联配,使用一个嵌入参数矩阵E对现有多序列联配中的每个碱基的表示进行变换,用于表示该氨基酸的向量是一个多项式分布,向量的维度D是事先指定超参数。
所述步骤2中,对核糖核酸多序列联配中每一个碱基进行嵌入法表示后,在新的特征空间中,使用伪极大化似然的直接相关分析方法对核糖核酸多序列联配进行建模;每个位置预测的碱基类型概率分布为
Figure GDA0003715514830000021
其中
Figure GDA0003715514830000022
代表多序列联配中第n个位置为碱基类型q的概率;a\i表示多序列联配中的其它位置;J为可训练的耦合参数。
所述步骤3中,利用自适应学习速率的随机梯度下降算法对该模型进行优化,得到参数E和J。
所述步骤4中,从训练得到的耦合参数J中提取出给定多序列联配中任意两个位置的接触打分C;使用基于平均积矫正的后处理技术对C进行去噪。
本发明与现有技术相比,其显著优点:(1)提高了模型的预测精度:通过增加一个嵌入参数矩阵,实现了碱基的向量化表示。再者,通过步骤之间非线性函数的应用,该模型具有非线性建模的能力;该模型在公共通用数据集上在精度指标上相比plmc获得了19.1%的提高。(2)引入自适应随机梯度下降算法,实现了对所提出模型的高效训练。
附图说明
附图为本发明的三层的神经网络。
具体实施方式
下面结合附图对本发明作进一步的说明。
附图给出了本发明的预测方法系统结构示意图。结合附图所示,一种基于碱基嵌入和直接相关分析的核糖核酸接触图的预测方法,包括了以下步骤:首先,对于给定核糖核酸多序列联配中的每条序列的每一个碱基,先通过多项式分布进行表示,再与一个可训练的嵌入参数矩阵进行相乘,得到对应的向量表示;接着,初始化耦合参数矩阵,对于核糖核酸多序列联配中的每个位置,基于所有不包括该位置的其他位置的嵌入法的向量表示和耦合参数相乘,从而得到该位置概率分布的预测;对于该参数模型,我们使用自适应随机梯度下降方法进行优化;最后,从获得的耦合参数中抽取接触图打分,并通过相关后处理技术去除接触图中的噪声。
以下步骤中,步骤1和步骤2分别对应图中的输入层到隐含层和隐含层到输出层的操作。步骤3为优化该模型的方法。步骤4为结果提取和后处理方法。下面首先介绍该模型的输入信息。
输入介绍
本发明所提出的模型的输入为RNA多序列联配(MSA),多序列联配是多个对齐的生物序列。一般假设MSA中的序列存在遗传关系,并且输入同一个家族。因此,多序列联配记录了某个家族的遗传信息。该模型的目标就是从遗传信息中推理得到多序列联配中各个位置之间接触的信息。
步骤1、碱基的嵌入法表示
给定一个序列数目为N,序列长度为L的RNA多序列联配,由于RNA中的碱基有A,G,C,U四种,再加上可能出现的GAP状态,一个RNA多序列联配可以表示为一个N×L的矩阵M。矩阵中的每一个元素为有5种状态的标签数据表示。进一步的,我们可以使用多项式分布来表示M中第n个序列中位置l的碱基:
Mn,l=[B1,B2,B3,B4,B5]T (1)
其中,Bα=1,如果M中第n个序列中位置l的碱基为α,α∈{1,2,3,4,5},其它情况则置零。然后通过与初始化的D×5的共享嵌入矩阵E相乘,得到了每个碱基的向量化表示:
M′n,l=EMn,l (2)
为了跟未嵌入的碱基保持一致性,我们通过下面的非线性激活函数使碱基的向量化表示同样遵循多项式分布:
Figure GDA0003715514830000041
以上,完成了碱基的嵌入向量化表示。
步骤2、直接相关分析模型构建
对于MSA中的每一个位置,步骤2尝试使用其它位置来预测当前位置,假设预测的MSA中的第n个序列的第l个位置的碱基是碱基类型α的概率位
Figure GDA0003715514830000042
则:
Figure GDA0003715514830000043
其中,Jk,l,d,α是耦合参数。MSA中第n个序列中位置l的碱基可以用一个5维的向量
Figure GDA0003715514830000044
表示,代表一个多项式分布。通过比较预测的分布
Figure GDA0003715514830000045
和输入分布Mn,l之间的差异,就可以判断当前参数模型对MSA建模的效果。
步骤3、基于自适应随机梯度下降的模型优化
为了最优化参数模型对MSA的建模效果,该发明通过最小化预测的分布
Figure GDA0003715514830000046
和输入分布Mn,l之间的差异来达到这个目的。我们采用了交叉熵来衡量分布之间的差异,因此,该模型的损失函数为:
Figure GDA0003715514830000047
该发明首次在该领域中引入自适应学习速率的随机梯度下降算法Adam(https://arxiv.org/abs/1412.6980)来优化损失函数(5)。相比plmc中使用的l-bfgs优化算法,Adam在占用更少内存资源的同时,在更短时间内获得了收敛。
步骤4、碱基接触图抽取与后处理
对于得到的耦合参数J,本发明使用Ising gauge(https://www.sciencedirect.com/science/article/pii/S0021999114005178)操作来对耦合参数进行预处理:
Figure GDA0003715514830000051
其中“:”表示在对应的维度求平均。对于任意两个位置k和l,本发明使用下面的操作获得这两个位置碱基对接触的打分:
Figure GDA0003715514830000052
最后,我们使用平均积矫正对得分进行矫正:
Figure GDA0003715514830000053
该矫正可以有效去除RNA碱基接触图里面的噪声。
综上所述,首先本发明将用标签数据表示的RNA多序列联配数据用碱基嵌入方法转换为向量表示,有效表达了碱基之间的相互关系;然后在MSA特异性嵌入参数矩阵变换后的向量空间进行直接相关分析。该发明能够通过端到端的学习,让嵌入参数矩阵自主学习需要的向量表示,同时,非线性的激活函数也给模型增加了复杂关系建模的能力。引入的自适应学习率的随机梯度下降方法可以高效训练所提出的模型。

Claims (5)

1.一种基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法,其特征在于,包括以下步骤:
步骤1、碱基的嵌入法表示:对于给定核糖核酸多序列联配中的每条序列的每一个碱基,先通过多项式分布进行表示,再与一个可训练的嵌入参数矩阵E进行相乘,得到对应的向量表示;
步骤2、基于伪极大似然的直接相关模型构建:构建耦合参数矩阵J,对于核糖核酸多序列联配中的每个位置,基于所有不包括该位置的其他位置的嵌入法的向量表示和耦合参数相乘,从而得到该位置概率分布的预测;核糖核酸序列的概率近似表示为所有位置预测的概率分布的乘积;
步骤3、使用自适应随机梯度下降方法优化模型:损失函数为预测的核糖核酸序列的概率分布和给定核糖核酸多项式概率分布的距离;优化对象为该模型中的嵌入参数和耦合参数;
步骤4、接触图提取及后处理:从训练得到的耦合参数中提取接触图,通过后处理步骤消除接触图中的噪声。
2.根据权利要求1所述的预测方法,其特征在于:所述步骤1中,对于给定的核糖核酸多序列联配,使用一个嵌入参数矩阵E对现有多序列联配中的每个碱基的表示进行变换,用于表示氨基酸的向量是一个多项式分布,向量的维度D是事先指定超参数。
3.根据权利要求1所述的预测方法,其特征在于:所述步骤2中,对核糖核酸多序列联配中每一个碱基进行嵌入法表示后,在新的特征空间中,使用伪极大化似然的直接相关分析方法对核糖核酸多序列联配进行建模;每个位置预测的碱基类型概率分布为
Figure FDA0003715514820000011
其中
Figure FDA0003715514820000012
代表多序列联配中第n个位置为碱基类型q的概率;a\i表示多序列联配中的其它位置;J为可训练的耦合参数。
4.根据权利要求1所述的预测方法,其特征在于:所述步骤3中,利用自适应学习速率的随机梯度下降算法对该模型进行优化,得到参数E和J。
5.根据权利要求1所述的预测方法,其特征在于:所述步骤4中,从训练得到的耦合参数J中提取出给定多序列联配中任意两个位置的接触打分C;使用基于平均积矫正的后处理技术对C进行去噪。
CN201911288051.8A 2019-12-15 2019-12-15 基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法 Active CN111192627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911288051.8A CN111192627B (zh) 2019-12-15 2019-12-15 基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911288051.8A CN111192627B (zh) 2019-12-15 2019-12-15 基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法

Publications (2)

Publication Number Publication Date
CN111192627A CN111192627A (zh) 2020-05-22
CN111192627B true CN111192627B (zh) 2022-09-06

Family

ID=70709184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911288051.8A Active CN111192627B (zh) 2019-12-15 2019-12-15 基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法

Country Status (1)

Country Link
CN (1) CN111192627B (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3209385A1 (en) * 2013-02-01 2014-08-07 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
CN110085282A (zh) * 2019-04-23 2019-08-02 华中师范大学 核酸结构中核苷酸与核苷酸相互作用预测的方法

Also Published As

Publication number Publication date
CN111192627A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN109063021B (zh) 一种能够编码关系语义多样性结构的知识图谱分布式表示方法
CN106021990A (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
CN105303450A (zh) 基于谱聚类改进交叉的复杂网络社区发现方法
CN113628059B (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
Wang et al. GAEM: a hybrid algorithm incorporating GA with EM for planted edited motif finding problem
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及系统
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
CN111192627B (zh) 基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法
Kaghed et al. Multiple sequence alignment based on developed genetic algorithm
CN115527605B (zh) 基于深度图模型的抗体结构预测方法
CN115881209B (zh) 一种rna二级结构预测的处理方法和装置
CN112085245A (zh) 一种基于深度残差神经网络的蛋白质残基接触预测方法
CN111489787A (zh) 一种CRISPR/Cas9靶向敲除定点DNA效率的预测方法
Yoon et al. Structural alignment of RNAs using profile-csHMMs and its application to RNA homology search: overview and new results
CN104200222A (zh) 一种基于因子图模型的图片中对象识别方法
CN116383422A (zh) 一种基于锚点的无监督跨模态哈希检索方法
Gohardani et al. A multi-objective imperialist competitive algorithm (MOICA) for finding motifs in DNA sequences
CN110705704A (zh) 一种基于相关性分析的神经网络自组织遗传进化算法
CN113539358B (zh) 基于Hilbert编码的增强子-启动子相互作用预测方法及装置
Tong et al. Finite iterative algorithm for solving coupled Lyapunov equations appearing in discrete-time Markov jump linear systems
CN114841318A (zh) 基于跨模态知识蒸馏的智能合约漏洞检测方法
Shen et al. Deep learning method for RNA secondary structure prediction with pseudoknots based on large-scale data
CN111599412B (zh) 基于词向量与卷积神经网络的dna复制起始区域识别方法
KR20220111215A (ko) 자기주의 기반 심층 신경망 모델을 이용한 약물-표적 상호작용 예측 장치 및 그 방법
CN109767808B (zh) 一种新的基于元胞自动机的蛋白质进化仿真模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant