CN104765983A - 基于半扩展结构的核糖核酸假结结构的预测方法与装置 - Google Patents

基于半扩展结构的核糖核酸假结结构的预测方法与装置 Download PDF

Info

Publication number
CN104765983A
CN104765983A CN201510057278.7A CN201510057278A CN104765983A CN 104765983 A CN104765983 A CN 104765983A CN 201510057278 A CN201510057278 A CN 201510057278A CN 104765983 A CN104765983 A CN 104765983A
Authority
CN
China
Prior art keywords
rna
half expansion
pseudoknot
base
ribonucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510057278.7A
Other languages
English (en)
Inventor
刘振栋
魏东
倪明晖
李恒武
刘芳含
陶思颖
李跃军
叶红朝
雷红民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN201510057278.7A priority Critical patent/CN104765983A/zh
Publication of CN104765983A publication Critical patent/CN104765983A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于半扩展结构的核糖核酸假结结构的预测方法及装置,包括以下步骤:输入一段核糖核酸碱基序列;定义半扩展结构;建立包含k茎和半扩展结构的核糖核酸假结结构表示模型和相应的最小能量的计算公式;根据最小能量原理,输出核糖核酸碱基序列的假结结构。本发明的方法的搜索速度、正确率、敏感性和特异性都优于PKNOTS等算法。因此本发明的方法在假结结构的预测方面比PKNOTS算法更有效。

Description

基于半扩展结构的核糖核酸假结结构的预测方法与装置
技术领域
本发明属于生物信息工程领域,涉及一种对核糖核酸(以下简称为RNA)的结构进行预测的方法,尤其涉及基于半扩展结构的RNA假结结构预测的方法及装置。
背景技术
RNA是生物系统内最为重要的生物大分子之一,它在生物体内行使多种功能,是合成蛋白质的模板。RNA二级结构预测用于蛋白质功能分析,是RNA三级结构预测的基础。假结(pseudoknot)是RNA中最广泛的结构单元,是非常复杂和稳定的RNA结构,假结在RNA分子中具有构造、催化和调节功能,假结结构是目前RNA结构预测研究的关键点。
RNA二级结构预测采用的方法主要有两种:早期采用的是序列对比分析方法,即对于在不同有机体中起相同生物功能的一级结构进行比较,此方法的困难之处在于:许多RNA分子的同源序列不易得到;需要大量人力,效率较低,所以目前主要采用的是最小自由能量方法。
最小自由能量算法的理论依据是稳定的二级结构的自由能量最小。基于最小自由能量算法的PKNOTS算法使用O(n6)时间和O(n4)空间计算任意的平面假结和部分非平面假结。PKNOTS算法仅能计算长度短于140个碱基的RNA序列,不能满足较长序列结构预测的需要。PknotsRG算法计算两个茎区构成的简单的嵌套假结,其中任意两个假结为并列或嵌套关系。事实上,由内环和凸起构成的假结在RNA中 普遍存在,交叉假结也具有重要作用。因此,两者都不能被忽略。平面假结是最广泛的假结子类,包含上面提到的由内环和凸起构成的假结以及交叉假结的情况。PseudoBase数据库的所有序列中仅一个序列折叠为一个非平面假结,其余序列都折叠为平面假结。因此我们主要考虑任意平面假结的计算。
Zuker首次将动态规划算法用于最邻近邻居模型提出MFOLD算法,经过二十多年的不断改进和发展,现己成为国际上最广泛使用的RNA二级结构预测方法,对于包含n个核苷酸的RNA序列,MFOLD算法使用O(n3)时间和O(n2)空间预测最优二级结构,目前对于长度小于700个核普酸的RNA序列,MFOLD算法可正确预测大约73%的基对,对于较长的RNA序列及部分子类的预测正确率更低,仅仅给出了三级结构的粗略框架,另外由于算法本身的限制,MFOLD算法不能预测假结和更复杂的三级相互作用。
发明内容
本发明解决的技术问题是使得对RNA结构、尤其是使基于半扩展结构RNA假结结构进行预测,降低其时间复杂性和空间复杂性,提高预测准确性。
本发明的一种基于半扩展结构的核糖核酸假结结构的预测方法包括以下步骤:
输入一段核糖核酸碱基序列;
定义k茎、半扩展结构;
建立包含k茎和半扩展结构的核糖核酸假结结构表示模型和相应的最小能量的计算式;
根据最小能量原理,输出核糖核酸的二级结构。
一个半扩展结构由两个核糖核酸序列片断si,k和sl,j构成,i<k<l<j。两个核糖核酸序列片断中存在p和q,i<p<q<k,使sp,q和sl,j构成k茎,用F[i,k:j]表示其最优半扩展结构。或两个核糖核酸序列片断中存在p和q,l<p<q<j,使sp,q和si,k构成k茎,F[i:l,j]为其最优半扩展结构。
以W(i,j)为子序列si,j对应的包含假结的二级结构S的最小自由能量,计算W(i,j)的情况包括:(1)si和sj是未配对碱基;si和sj不构成基对(i,j)且在不同子序列si,k和sk+1,j对应的二级结构中,i<k<j;(2)si和sj构成基对(i,j);si,j由两个半扩展结构和一个子序列构成;或si,j由一个半扩展结构和一个子序列构成。
V(i,j)为在碱基si和sj构成基对(i,j)时,子序列si,j对应的包含假结的二级结构S的最小能量,计算V(i,j)情况包括:S是由基对(i,j)封闭的1环,S是由基对(i,j)和(k,l)封闭的2环,S是k环(k≥3)或者假结结构,i<k<j。
计算一个半扩展结构的情况包括:(1)一个半扩展结构由另一个半扩展结构和一个未配对碱基构成;(2)一个半扩展结构由另一个半扩展结构和一个子序列构成;(3)一个半扩展结构由另外的两个半扩展结构构成;(4)一个半扩展结构是一个k茎。
使用动态规划算法计算W(i,j)、V(i,j)和RNA半扩展结构的最小能量。
一种基于半扩展结构的核糖核酸假结结构预测装置包括:
输入单元,输入一段核糖核酸序列;
初始化单元,定义k茎和半扩展结构;
存储单元,存储建立包含k茎和半扩展结构的核糖核酸假结结构表示模型及其相应的最小能量的计算公式;
输出单元,其根据最小能量原理,输出核糖核酸的假结结构。
本发明方法的搜索速度、正确率、敏感性和特异性都比PKNOTS算法好,因此本发明的方法在平面假结的预测上比PKNOTS算法更有效。
附图说明
图1是根据本发明的用于预测RNA假结结构的预测方法的流程图。
图2是根据本发明的k茎处理的流程图;
图3是根据本发明的半扩展结构处理的流程图;
图4是参照图1用于预测RNA的假结结构的预测装置;
图5是本发明的有关RNA假结结构的例子;
图6是本发明的包含假结结构的RNA中V(i,j)与W(i,j)最小自由能量的表示;
图7是本发明的包含假结结构的RNA的半扩展结构的表示。
具体实施方式
首先说明关于RNA序列、碱基对、假结等的概念。
RNA一级结构:RNA序列侧链上四种碱基的排列顺序表示。一般来说RNA序列从5′到3′结束,这样整个序列s表示为s=s1s2…sn,si是RNA序列的第i个碱基,si∈{A,U,G,C},RNA子序列si,j是s的一个序列片段,表示为:si,j=si…sj
碱基对:如果si·sj∈{AU,CG,GU},则si·sj构成碱基对。碱基对堆积的能量为负值。
RNA二级结构:RNA序列中的一组基对构成的集合构成RNA二级结构,以S表示。对于任意基对,如果si·sj∈S、si′·sj′∈S且i=i′,则j=j′,亦即,一个基不可同时与两个及两个以上的基构成基对。
图1是根据本发明的用于预测RNA的二级结构的预测方法的流程图。本发明的方法包括以下步骤:输入一段核糖核酸碱基序列;定义半扩展结构;建立包含k茎和半扩展结构的核糖核酸假结结构表示模型并计算出模型的最小能量;根据最小能量原理,输出核糖核酸的二级结构。图4是与图1是用于预测RNA的假结结构的预测装置。RNA假结结构的预测装置包括:输入单元,其输入一段核糖核酸碱基序列;初始化单元,其定义k茎和半扩展结构;存储单元,其存储建立的包含k茎和半扩展结构的核糖核酸假结结构表示模型和相应的最小能量的计算式;输出单元,其根据最小能量原理,输出核糖核酸碱基序列的二级结构。
图2是根据本发明的k茎处理的流程图:输入一段s=s1s2…sn序列,从左向右查找碱基,如果存在i、j,使得si和sj配对,j-i≥6,并且s中存在三个以上连续的相邻基对si·sj、s(i+1)·s(j-1)。。。、sk·sl,则基对si·sj和sk·sl封闭的区间确定为1茎;对1茎中所有配对的碱基进行标记;在1茎封闭的游离碱基中继续查找配对的碱基,如果存在三个以上基对,确定为2茎;对2茎中所有配对的碱基进行标记;在1茎和2茎封闭的游离碱基中继续查找配对的碱基,如果存在三个以上基 对,确定为3茎;对3茎中所有配对的碱基进行标记......直到查找到k茎。如果存在两个以上k茎碱基对的交叉,则构成假结。图3是根据本发明的半扩展结构处理的流程图。k茎确定后,包含k茎和游离碱基的一段序列,确定为半扩展结构,
定义1:RNA子序列Si,j中,如果(i,j),(i+1,j-1),…,(k,l)都是基对,i<k<l<j,则由(i,j)和(k,l)∈S所封闭的结构称为1茎,表示为S1[i,j]。若1茎S1[i,j]由(i,j)和(r,s)∈S所封闭,1茎S1[r’,s’]由(r’,s’)和(k,l)∈S所封闭,i<r<r’<k<l<s’<s<j,v=r’–r+s-s’>2,则由(i,j)和(k,l)∈S所封闭的结构称为2茎,表示为S2[i,j]。
同理,如果S1[i,j]由(i,j)和(r,s)∈S所封闭,(k-1)茎由(r’,s’)和(k,l)∈S所封闭,i<r<r’<k<l<s’<s<j,v=r’–r+s-s’>2,则由(i,j)和(k,l)∈S所封闭的结构称为k茎,表示为Sk[i,j],Sk[i,j]的最小能量表示为ESk(i,j),k茎Sk[i,j]的长度表示为LSk(i,j)=k-i+1或RSk(i,j)=j-l+1。
设2茎S2[i,j]由两个嵌套的1茎和其内部未配对碱基构成。设E2(r,r’:s’,s)表示基对(r,s)和(r’,s’)构成的2环结构的能量,ES1(i,j)和ES1(r’,s’)分别表示由基对(i,j)和(r’,s’)封闭的1茎的能量,则ES2(i,j)=ES1(i,j)+E2(r,r’:s’,s)+ES1(r’,s’)。同理ESk(i,j)=ES1(i,j)+E2(r,r’:s’,s)+ESk-1(r’,s’)。
设LS(i,j)∈{LS1(i,j),LS2(i,j)},ES(i,j)∈{ES1(i,j),ES2(i,j)}。在本发明的方法中,1茎和2茎的自由能量和长度使用O(n3)的时间预处理并分别存于三角矩阵ES(i,j)、LS(i,j)中,其计算过程见程序1。
同理,由ESk(i,j)的计算公式可知,计算k茎的时间复杂度为O(n3),空间复杂度为O(n2)。k茎(k≥3)的计算由后面的动态规划算法实现。
定义2:一个半扩展结构由满足条件(1)或(2)的两个RNA序列片断si,k和sl,j构成,i<k<l<j。
(1)存在p和q,i<p<q<k,使sp,q和sl,j构成k茎。设F[i,k:j]表示其最优半扩展结构,EF(i,k:j)表示F[i,k:j]的最小能量,相应地,LF(i,k:j)=j-l+1表示F[i,k:j]的长度,用M F(i,k:j)=k-i+1表示半扩展结构的度。
(2)存在p和q,l<p<q<j,使sp,q和si,k构成k茎。设F[i:l,j]表示其最优半扩展结构,EF(i:l,j)表示F[i:l,j]的最小能量,相应地,用LF(i:l,j)=k-i+1表示F[i:l,j]的长度,用M F(i:lj)=j-l+1表示半扩展结构的界。
由(1)和(2)知:M F=Max(k-i+1,j-l+1)
一旦半扩展结构F[i:l,j]确定,LF(i:l,j)也唯一确定。因此LF(i:l,j)使用O(n3)空间唯一存储F[i:l,j];同样地,LF(i,k:j)使用O(n3)空间唯一存储F[i,k:j]。
RNA结构中,针对k茎,若k=1或k=2时,其对应的1茎和2茎的程序计算如下:
程序1:在RNA结构中,计算1茎和2茎的能量和长度/*设(i,j)表示碱基si和sj构成的基对,g表示RNA假结结构中k环的惩罚系数。P’表示假结中一个基对的惩罚值,Q’表示假结中一个未配对碱基的惩罚值。*/
图4给出一个简单的假结。使用两个1茎(S1[1,19]、S1[7,30])和三个子序列(s6,6、s13,14、s20,24)构成一个假结。由于每个1茎由两个参数确定,1茎的存储需要O(n2)空间,因此计算假结的时间复杂度为O(n4),空间复杂度为O(n2)。
由图5知:W(1,30)=ES1(1,19)+ES1(7,30)+W(6,6)+W(13,14)+W(20,24)
因此该假结结构可分解为两个交叉的半扩展结构和一个子序列。一个半扩展结构又可以分解为k茎和多分枝环,因此假结可以递归地表示。半扩展结构本身可包含假结,两个半扩展结构的交叉又构成假结结构,这样扩展后的算法可以包含交叉假结。
引入半扩展结构和k茎模型,利用k茎计算半扩展结构,使用半扩展结构的交叉计算嵌套和交叉假结,建立新的RNA假结表示模型。基于新的假结表示模型,设计和实现动态规划算法,预测包含任意平面假结的RNA结构。
利用PknotsRG算法不能预测交叉假结,只能预测由两个1茎构成的简单假结,我们可利用扩展的PknotsRG算法来预测任意的平面假结。由两个半扩展结构和一个子序列或由一个半扩展结构和一个子序列构成的假结结构的计算增加到MFOLD计算模型中构成平面假结计算模型,图2和图3给出基本模型的图解表示。
给定一个序列s=s1s2…sn,序列片段si,j=si…sj,1<i<j<n。设 W(i,j)是子序列si,j对应的包含假结的二级结构S的最小能量。设V(i,j)是si和sj构成基对(i,j)的情况下,子序列si,j对应的包含假结的二级结构S的最小能量。
图6给出W(i,j)和V(i,j)的计算图式。包含假结结构的W(i,j)由下列六种情况计算:
1)si是未配对碱基,如图6.1;
2)sj是未配对碱基,如图6.2;
3)si和sj不构成基对(i,j)且在不同子序列si,k和sk+1,j对应的二级结构中,i<k<j,如图6.3;
4)si和sj构成基对(i,j),如图6.4;
5)si,j由两个半扩展结构和一个子序列构成,如图6.5中,si,j由半扩展结构F[i,k:l]、F[k+1:l+1,j]和子序列sk+1+LF(k:l,j),l-LF(i,k:l)-1构成,图6.8中si,j由F[i:k,l]、F[i+LF(i:k,l),k-1:j]和子序列sl+1,j-LF(i+LF(i:k,l),k-1:j)-1构成,图6.9中si,j由F[k,l:j]、F[i:l+1,j-LF(k,l:j)-1]和si+LF(i:l+1,j-LF(k,l:j)-1),k-1构成;
6)si,j由一个半扩展结构和一个子序列构成,如图6.6中si,j由F[i:l,j]和si+LF(i:l,j),l-1构成,图6.7中si,j由F[i,k:j]和sk+1,j-LF(i:k,j)-1构成。
V(i,j)由下列三种情况计算:
1)S是由基对(i,j)封闭的1环,如图6.10。
2)S是由基对(i,j)和(k,l)封闭的2环,如图6.11。
3)S是由基对(i,j),(i+1,k-1)和(k,j-1)封闭的3环或延伸 为k环,i<k<j,如图6.12。
图6.5,6.8,6.9和6.12用于计算假结和k环结构的最小自由能量。使用公式1计算图6,Gw表示构成一个假结的惩罚值,M表示构成一个多分枝环的惩罚值,P表示多分枝环中每一基对的惩罚值,U是常数,由实验测定。WM和W的计算公式相同,但参数不同,WM专门用于多分枝环内序列片断的结构预测,而W仅用于无外部封闭基对序列片断的结构预测。
由于F[i,k:j]中的子序列si,p-1和sq+1,k(i<p<q<k)或F[i:l,j]中的子序列sl,p-1和sq+1,j(l<p<q<j)可以包含嵌套假结,或者相互构成交叉假结,假结的嵌套和交叉构成复杂的多假结结构,因此半扩展结构的计算很复杂,仅考虑平面假结的计算。图7给出F(i,k:j)的计算图式。F[i:l,j]的计算图式可类似给出。
图7是本发明的RNA的半扩展结构的表示。一个半扩展结构可由下列4种情况计算:
1)一个半扩展结构是一个k茎的扩展或2环,如图7.1中,F[i:l,j]=S1[i,j],或者F[i:l,j]=S2[i,j],或者F[i:l,j]为由(i,j)和(k,l)封闭的2环,i<k<l<j。
2)一个半扩展结构由另一个半扩展结构和一个子序列构成,如图3.2中F[i:l,j]由F[i:q,j]和sl,q-1构成,图7.3中F[i:l,j]由F[i:l,q]和sq+1,j构成。
3)一个半扩展结构由另外的两个半扩展结构构成,如图7.4中 F[i:l,j]由F[l,q:j]和F[i:q+1,j-LF(l,q:j)]构成,图7.5中F[i:l,j]由F[l:q,j]和F[i:l+LF(l:q,j),q-1]构成,图7.6中如果(i+LF(i:q,j)-1,q)∈S,F[i:l,j]由F[i:q,j]和F[i+LF(i:q,j)-1:l,q]构成,图7.7中F[i:l,j]由F[i:q,j]和F[i+LF(i:q,j):l,q-1]构成。
4)一个半扩展结构由另一个半扩展结构和一个未配对碱基构成,如图7.8中,F[i:l,j]由F[i+1:l,j]和碱基si构成。
在模型中,用公式2计算图7。Gwh表示产生多假结的惩罚值,Q’表示假结中一个未配对碱基的惩罚值。ES(i,j)表示由基对(i,j)封闭的1茎的能量值,E2(i,k:l,j)表示由基对(i,j)和基对(k,l)封闭的2环的能量值。
公式1:
V ( i , j ) = min E 1 ( i , j ) mi n ( E 2 ( i , k : l , j ) + V ( k , l ) } , i < k < l < j , u = ( k - i + j - l - 2 < U ) min i < h < j - 1 { W M ( i + 1 , h ) + W M ( h + 1 , j - 1 ) + M + P }
W ( i , j ) = min V ( i , j ) , W ( i + 1 , j ) , W ( i , j - 1 ) min i < k < j - 1 ( W ( i , k ) + W ( k + 1 , j ) ) min i &le; k < l < j ( EF ( i , k : l ) + EF ( k + 1 : l + 1 , j ) + W M ( k + 1 + LF ( k + 1 : l + 1 , j ) , l - LF ( i : k , l ) ) + G w ) min i + 1 &le; l &le; j ( EF ( i : l , j ) + W M ( i + LF ( i : l , j ) , l - 1 ) ) , min i < k < j - 1 ( EF ( i , k : j ) + W M ( k + 1 , j - LF ( i : k , j ) ) ) min i < k &le; l < j ( EF ( i : k , l ) + EF ( i + LF ( i : k , l ) , k - 1 : j ) + W M ( l + 1 , j - LF ( i - LF ( i : k , l ) , k - 1 : j ) ) + G w ) min i < k &le; l < j ( EF ( i : l + 1 , j - LF ( k , l : j ) ) + EF ( k , l : j ) + W M ( i + LF ( i : l + 1 , j - LF ( k : l , j ) ) , k - 1 ) + G w )
公式2:
EF ( i : l , j ) = m in l < q < j ES ( i , j ) or E 2 ( i , k : l , j ) , i < k < l < j EF ( i : q , j ) + W M ( l , q - 1 ) EF ( i : l , q ) + W M ( q + 1 , j ) EF ( l , q : j ) + EF ( i : q + 1 , j - LF ( l , q : j ) ) + G wh EF ( l : q , j ) + EF ( i : l + LF ( l : q , j ) , q - 1 ) + G wh EF ( i : q , j ) + EF ( i + LF ( i : q , j ) - 1 : l , q ) EF ( i + LF ( i : q , j ) : q - 1 ) + EF ( i : q , j ) EF ( i + 1 : l , j ) + Q &prime;
本发明的方法与PKNOTS算法的实验比较
我们用VC++编程实现本发明的方法,并与PKNOTS算法进行比较。在此基础上,优化能量参数,对PseudoBase数据库的所有序列进行计算。PknotsRG算法和LP算法只能预测部分平面假结,PKNOTS算法是目前预测任意平面假结和部分非平面假结的最好算法。因此本发明的方法的测试结果主要与PKNOTS算法进行比较。首先对PKNOTS算法的测试集合进行计算,使用的能量参数与PKNOTS算法相同,但引入更多的同轴堆叠,其计算结果如下。
表1本发明的方法与PKNOTS算法的计算时间比较
表2本发明的方法与PKNOTS算法的不同结果的比较
本发明的方法和PKNOTS算法的计算时间的比较见表1。本发明的方法使用内存为6MB的PC机进行测试,而PKNOTS算法使用内存为4GB的高性能计算机Silicon Graphics Origin200进行测试。从表1可知,计算长度为75个碱基的RNA序列,本发明的方法使用42秒,而PKNOTS算法使用20分钟。计算长度为105个碱基的RNA序列,本发明的方法使用193秒,而PKNOTS算法使用235分钟。计算长度为200个碱基的RNA序列,本发明的方法使用56分钟,而PKNOTS算法不能计算。事实上,本发明的方法可以成功预测长度为1000个以上碱基的RNA序列的二级结构。
由于本发明的方法基于半扩展结构进行计算,并且引入更多的同轴堆叠,特别是假结的同轴堆叠,使本发明的方法有利于形成完整的茎区和正确的假结结构。
在使用相同的能量参数下,本发明的方法对于预测结果不同的15个序列的敏感性和特异性的比较结果见表2,本发明的方法的平均敏感性为88.1%,好于PKNOTS算法的71.7%;本发明的方法的平均特异性为86.3%,好于PKNOTS算法的70.6%。
因此测试结果表明,本发明的方法的搜索速度、平均敏感性和平 均特异性都明显好于PKNOTS算法。
PseudoBase国际RNA数据库的测试结果
PseudoBase是一个RNA假结数据库。本发明的方法测试了PseudoBase数据库的全部245个序列,预测了189个序列包含假结,预测正确假结的序列为162个,正确率为85.7%;
引入半扩展结构和k茎建立新的RNA假结表示模型。基于该模型提出一个时间复杂度为O(n4)和空间复杂度为O(n3)的动态规划方法,预测包含任意平面假结和简单的非平面假结的RNA二级结构。
PKNOTS算法使用时间复杂度为O(n6)和空间复杂度为O(n4),来计算包含平面假结和部分非平面假结的二级结构,计算的假结由不超过两个缺口结构表示。本发明的方法计算的序列长度短于140个碱基。本发明的方法使用时间复杂度为O(n4)和空间复杂度为O(n3)计算假结,假结由不超过两个半扩展结构表示,计算的RNA序列长度可超过100个碱基。从测试结果可知,本发明的方法的搜索速度、正确率、敏感性和特异性都比PKNOTS算法好。因此本发明的方法在平面假结的预测上比PKNOTS算法更有效。
PknotsRG算法使用O(n4)时间和O(n2)空间计算简单的嵌套假结,每一个假结由两个1茎的交叉构成,两个假结只能嵌套或并列,但是PknotsRG算法不能计算由k茎(k>1)构成的假结。PknotsRG算法不能计算由多分枝环构成的假结和交叉假结。
本发明的方法可计算由内环、凸起和多分枝环构成的嵌套假结和交叉假结,而时间复杂度与PknotsRG算法相同,这是与PknotsRG算法的不同之处。因此本发明的方法相比PknotsRG算法可计算更复杂的嵌套和交叉假结。对PseudoBase数据库的测试表明,PknotsRG算法的假结预测正确率为68%,而本发明的方法的假结预测正确率为 76.5%,因此本本发明的方法比PknotsRG算法具有更好的假结预测正确率。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准 。

Claims (9)

1.一种基于半扩展结构的核糖核酸假结结构的预测方法,其特征在于包括以下步骤:
输入一段核糖核酸碱基序列;
定义k茎、半扩展结构;
建立包含k茎和半扩展结构的核糖核酸假结结构表示模型并计算出模型的最小能量;
根据最小能量原理,输出核糖核酸假结结构。
2.根据权利要求1所述的基于半扩展结构的核糖核酸假结结构的预测方法,其特征在于:一个半扩展结构由两个核糖核酸序列片断si,k和sl,j构成,i<k<l<j。
3.根据权利要求2所述的基于半扩展结构的核糖核酸假结结构的预测方法,其特征在于:两个核糖核酸序列片断中可存在p和q,i<p<q<k,使sp,q和sl,j构成k茎,F[i,k:j]为其最优半扩展结构。
4.根据权利要求2所述的基于半扩展结构的核糖核酸假结结构的预测方法,其特征在于:两个核糖核酸序列片断中可存在p和q,l<p<q<j,使sp,q和si,k构成k茎,F[i:l,j]为其最优半扩展结构。
5.根据权利要求1所述的基于半扩展结构的核糖核酸假结结构的预测方法,其特征在于:W(i,j)为子序列si,j对应的包含假结的二级结构S的最小能量,计算W(i,j)的情况包括:碱基si是和sj都是未配对碱基;si和sj不构成基对(i,j)且在不同子序列si,k和sk+1,j对应的二级结构中,i<k<j;V(i,j)为子序列si,j对应的包含假结的二级结构S的最小能量,计算V(i,j)的情况包括:si和sj构成基对(i,j);si,j由一个半扩展结构和一个子序列构成;si,j由一个半扩展结构和一个子序列构成。
6.根据权利要求1所述的基于半扩展结构的核糖核酸假结结构的预测方法,其特征在于:V(i,j)是si和sj构成基对(i,j)时,子序列si,j对应的包含假结的二级结构S的最小能量,计算V(i,j)情况包括:S是由基对(i,j)封闭的1环,或者S是由基对(i,j)和(k,l)封闭的2环,或者S是k环(k≥3)或者假结结构,i<k<j。
7.根据权利要求1所述的基于半扩展结构的核糖核酸假结结构的预测方法,其特征在于:计算一个半扩展结构的情况包括:一个半扩展结构由另一个半扩展结构和一个未配对碱基构成,一个半扩展结构由另一个半扩展结构和一个子序列构成,一个半扩展结构由另外的两个半扩展结构构成,一个半扩展结构是一个k茎或2环。
8.根据权利要求1所述的基于半扩展结构的核糖核酸假结结构的预测方法,其特征在于:使用动态规划法计算W(i,j)、V(i,j)和半扩展结构的最小能量。
9.一种基于半扩展结构的核糖核酸假结结构的预测装置,其特征在于包括:
输入单元,其输入一段核糖核酸碱基序列;
初始化单元,其定义k茎和半扩展结构;
存储单元,其存储建立的包含k茎和半扩展结构的核糖核酸假结结构表示模型和相应的最小能量的计算式;
输出单元,其根据最小能量原理,输出核糖核酸碱基序列的RNA结构。
CN201510057278.7A 2015-04-23 2015-04-23 基于半扩展结构的核糖核酸假结结构的预测方法与装置 Pending CN104765983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510057278.7A CN104765983A (zh) 2015-04-23 2015-04-23 基于半扩展结构的核糖核酸假结结构的预测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510057278.7A CN104765983A (zh) 2015-04-23 2015-04-23 基于半扩展结构的核糖核酸假结结构的预测方法与装置

Publications (1)

Publication Number Publication Date
CN104765983A true CN104765983A (zh) 2015-07-08

Family

ID=53647808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510057278.7A Pending CN104765983A (zh) 2015-04-23 2015-04-23 基于半扩展结构的核糖核酸假结结构的预测方法与装置

Country Status (1)

Country Link
CN (1) CN104765983A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111838A (zh) * 2019-05-05 2019-08-09 山东建筑大学 含假结基于扩展结构的核糖核酸折叠结构预测方法与装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235902A (zh) * 2013-04-18 2013-08-07 山东建筑大学 包含假结的rna结构预测方法
CN104298894A (zh) * 2014-09-17 2015-01-21 山东建筑大学 基于k茎的核糖核酸假结结构的预测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103235902A (zh) * 2013-04-18 2013-08-07 山东建筑大学 包含假结的rna结构预测方法
CN104298894A (zh) * 2014-09-17 2015-01-21 山东建筑大学 基于k茎的核糖核酸假结结构的预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李恒武: "《基于堆积的RNA假结预测算法》", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111838A (zh) * 2019-05-05 2019-08-09 山东建筑大学 含假结基于扩展结构的核糖核酸折叠结构预测方法与装置
CN110111838B (zh) * 2019-05-05 2020-02-25 山东建筑大学 含假结基于扩展结构的核糖核酸折叠结构预测方法与装置

Similar Documents

Publication Publication Date Title
Pettie et al. A shortest path algorithm for real-weighted undirected graphs
Ivashkevich et al. Introduction to the sandpile model
CN103971161B (zh) 基于柯西分布量子粒子群的混合推荐方法
CN106886543A (zh) 结合实体描述的知识图谱表示学习方法和系统
Zheng et al. On the PATHGROUPS approach to rapid small phylogeny
Fournier-Viger FHN: efficient mining of high-utility itemsets with negative unit profits
Gorbenko et al. The longest common parameterized subsequence problem
CN102819664A (zh) 一种基于图形处理单元的影响最大化并行加速方法
Kuziak et al. Efficient open domination in graph products
CN107273693A (zh) 一种碳氢燃料机理简化方法
CN109447261A (zh) 一种基于多阶邻近相似度的网络表示学习的方法
Tomita et al. A simple and faster branch-and-bound algorithm for finding a maximum clique with computational experiments
CN109213951A (zh) 一种基于信任计算和矩阵分解的推荐算法
CN106354889A (zh) 一种基于lwpt‑dtw的间歇过程不等长时段同步化的方法
Yasuda et al. Fast compilation of st paths on a graph for counting and enumeration
Ghorbani et al. Some new results on Mostar index of graphs
CN108052743B (zh) 一种阶梯接近中心度确定方法及系统
CN102708285B (zh) 基于复杂网络模型并行化PageRank算法的核心药物挖掘方法
CN110111838A (zh) 含假结基于扩展结构的核糖核酸折叠结构预测方法与装置
CN104765983A (zh) 基于半扩展结构的核糖核酸假结结构的预测方法与装置
CN104899283A (zh) 一种针对单个不确定图的频繁子图挖掘与优化方法
Darabian et al. New concepts of regular and (highly) irregular vague graphs with applications
CN102521649A (zh) 基于密母计算的网络社区结构检测方法
Kampolis et al. Multilevel optimization strategies based on metamodel-assisted evolutionary algorithms, for computationally expensive problems
CN105335626B (zh) 一种基于网络分析的群lasso特征分群方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150708

RJ01 Rejection of invention patent application after publication