CN101281560B - 一种设计具有多稳健结构的核糖核酸分子的方法 - Google Patents
一种设计具有多稳健结构的核糖核酸分子的方法 Download PDFInfo
- Publication number
- CN101281560B CN101281560B CN2008101115098A CN200810111509A CN101281560B CN 101281560 B CN101281560 B CN 101281560B CN 2008101115098 A CN2008101115098 A CN 2008101115098A CN 200810111509 A CN200810111509 A CN 200810111509A CN 101281560 B CN101281560 B CN 101281560B
- Authority
- CN
- China
- Prior art keywords
- acid molecule
- ribonucleic acid
- steadiness
- structures
- dependency graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种计算机程序,更具体地,是一种设计具有多稳健结构的核糖核酸分子的方法。本发明旨在提供一种能简单、方便、快捷地设计出具有多稳健结构的核糖核酸分子的方法,解决变构核糖核酸分子的设计问题。为了达到上述目的,本发明将具有多稳健结构的核糖核酸分子的设计问题转化为与预定结构相容的核糖核酸分子集合上的组合优化问题,采用基于图论的数学模型,进一步将该问题转化为依赖图上的点着色问题,提出了一种设计具有多稳健结构的核糖核酸分子的方法。该方法包括检查从计算机终端接收的预定结构集合的合法性、生成依赖图、检验依赖图的二分性、分解依赖图、相容序列的计数与均匀采样、选择代价函数模型及参数、优化候选序列的步骤。
Description
技术领域
本发明涉及一种计算机程序,更具体地,是一种设计具有多稳健结构的核糖核酸分子的方法。
背景技术
存在着形成两个或多个亚稳健结构并具有完全不同功能的核糖核酸分子,被称之为核糖核酸分子开关。核糖核酸分子开关调节和控制自然界中各种不同的生物过程,它的可变构象通常被很高的能量屏障分割开,并能通过配体结合或外部刺激如温度改变等而触发。实验结果表明,自然界中存在多种不同的、具有很长生存期的可变构象的核糖核酸分子开关。
稳健性是生物大分子所具有的一种最基本且最普遍的性质,它被理解为在各种干扰面前,生物大分子仍能保持稳定功能的一种能力。根据干扰性质的不同(可遗传与否),稳健性分为遗传稳健性和环境稳健性。遗传稳健性是指在遗传突变干扰面前,表型的不敏感性;而环境稳健性是指在外部环境因素的干扰面前,表型的不敏感性。
研究者已经人工设计出核糖核酸分子开关。然而,设计出能折叠成指定可变构象、并显示出稳定活性,同时具有稳健性和动力学性质、且不需要引入变性和退火步骤就能被触发的变构核糖核酸分子仍然是一项巨大的挑战。
发明内容
本发明旨在提供一种能简单、方便、快捷地设计出具有多稳健结构的核糖核酸分子的方法,解决变构核糖核酸分子的设计问题,为变构酶设计、RNA计算等研究奠定坚实的理论和实验基础。
为了达到上述目的,本发明将具有多稳健结构的核糖核酸分子的设计问题转化为与预定结构相容的核糖核酸分子集合上的组合优化问题,在此基础上,采用基于图论的数学模型,进一步将该问题转化为依赖图上的点着色问题,在计算机系统中提供了一种设计具有多稳健结构的核糖核酸分子的方法。该方法包括检查从计算机终端输入的预定结构集合的合法性、生成依赖图、检验依赖图的二分性、分解依赖图、相容序列的计数与均匀采样、选择代价函数模型及参数、优化候选序列的步骤。
在一种设计具有多稳健结构的核糖核酸分子的方法中,首先将具有多稳健结构的核糖核酸分子的设计问题转化为与预定结构相容的核糖核酸分子集合上的组合优化问题。设RNA二级结构为S(为简单起见,假设序列位置连续编号为1到n),未配对碱基位置的集合为T。给定一个RNA二级结构S就限制了所选择的序列必须与S相容,因为对每个配对{i,j}∈S及每个相容序列x,xixj必须是六种类型的碱基对B={AU,UA,CG,GC,GU,UG}中的一个;而对每个i∈T,则可以选择核苷酸字母表A={A,G,C,U}中任意的一个字母。令与预定结构S相容的所有序列的集合为C[S],则允许与RNA二级结构S相容的序列个数为|C[S]|=|A||T||B||S|。
进一步,将具有多稳健结构的核糖核酸分子的设计问题转化为依赖图上的点着色问题。每个输入的预定结构表示成圆圈图,将这些结构的圆圈图叠加在一个称之为依赖图的组合图中。n个核苷酸的二级结构的集合{Si}的依赖图Ψ包含n个顶点,当且仅当(k,l)在至少一个二级结构Si中是碱基对时,k和l之间存在一条边。依赖图是设计具有多稳健结构的核糖核酸分子方法的出发点。
在一种设计具有多稳健结构的核糖核酸分子的方法中,只有在依赖图Ψ满足二分性的条件下,才能找到与预定结构相容的核糖核酸分子,即相容序列的集合C[S]不为空集。如果预定结构的数目小于等于2,则相应的依赖图总是二分的;如果预定结构超过两个,则相应的依赖图的二分性并不总是能够保证,此时,依赖图二分性的检验可以通过采用宽度优先搜索算法对依赖图做二着色实现。
在一种设计具有多稳健结构的核糖核酸分子的方法中,需要分解依赖图。首先通过基于一个结合识别割点准则的深度优先搜索的双连通图算法寻找割点,然后进一步将这些连通分支分裂成它们的双连通分支。
在一种设计具有多稳健结构的核糖核酸分子的方法中,为了设计在序列组成上没有任何先验偏性的核糖核酸分子,需要在与所有预先指定的结构相容的核糖核酸分子集合中计数和均匀采样。前一步得到依赖图Ψ的全部双连通分支后,相容序列的计数与均匀采样可以通过采用图着色算法实现。
在一种设计具有多稳健结构的核糖核酸分子的方法中,要求所设计的核糖核酸分子具有遗传稳健性。在温度T下,描述遗传稳健性的函数为
ΘT(x)=1-η(x) (1)
上式中η(x)是所设计的核糖核酸分子x(长度为L)的中性值,定义为
其中,d为所设计的核糖核酸分子与其突变体之间的二级结构的距离。
当T=T0=37℃时,(1)式简写为
Θ(x)=1-η(x) (3)
在一种设计具有多稳健结构的核糖核酸分子的方法中,要求所设计的核糖核酸分子具有环境稳健性。令ET(x,S)为序列x在温度T下的二级结构S的自由能,GT(x)为序列x在温度T下的总体自由能,则在温度T下,描述环境稳健性的函数为
ΨT(x,S)=ET(x,S)-GT(x)=-RTlnpT (4)
当T=T0=37℃时,(4)式简写为
Ψ(x,S)=E(x,S)-G(x)=-RTlnp (5)
在一种设计具有多稳健结构的核糖核酸分子的方法中,设计了两个代价函数模型,其一为多稳健热敏核糖核酸分子开关模型,其二为多稳健能量屏障核糖核酸分子开关模型。在这两个模型中,均要求所设计的核糖核酸分子具有(1)式和(4)式所定义的遗传与环境稳健性。在多稳健热敏核糖核酸分子开关模型中,令ΦT(x,Si,Sj)=ET(x,Sj)-ET(x,Sj),当温度由T1,经过T2,...,Tn-1,变化到Tn的时候,相应的结构从S1,经过S2,...,Sn-1转换到Sn的具有n个稳健结构的核糖核酸分子开关可以通过定义下面的代价函数得到
其中ξ>0, 分别为一个常数。在代价函数(6)中,第一项表示在温度Ti偏爱相应的结构Si的程度,第二项表示对结构Sj,j≠i出现在温度Ti的惩罚,第三项表示稳健性的贡献。
在多稳健能量屏障核糖核酸分子开关模型中,给定n个完全不同的二级结构S1,S2,...,Sn(具有相同的序列长度L),要求所设计核糖核酸分子的n个结构S1,S2,...,Sn具有大致相等的自由能,且两两结构之间的能量屏障(energy barrier)大约为ΔEi,j,i,j=1,2,...,n;i<j。对i,j=1,2,...,n,令Υ(x,Si,Sj)=(E(x,Si)-E(x,Sj))2,Δ(x,Si,Sj)=(B(x,Si,Sj)-ΔEi,j)2,其中B(x,Si,Sj),i≠j,i,j=1,...,4为两两结构之间能量屏障的高度,代价函数定义为
其中ξ>0,ζ>0, 分别为一个常数。
在一种设计具有多稳健结构的核糖核酸分子的方法中,为避免在优化过程中出现局部极小值问题,本发明采用了两种元启发优化方法:局部搜索算法和模拟退火算法。
附图说明
图1为本发明的一种设计具有多稳健结构的核糖核酸分子的方法的总体框图;
图2表示依赖图Ψ的生成.(a)长度为20的两个二级结构的圆圈图表示.(b)长度为20的两个二级结构的圆圈图的叠加.(c)长度为20的两个二级结构的依赖图;
图3表示依赖图Ψ的分解.(a)依赖图Ψ.(b)依赖图Ψ的分解;
图4为利用本发明设计的多稳健热敏核糖核酸分子开关的热力学曲线;
图5为利用本发明设计的多稳健能量屏障核糖核酸分子开关的能量屏障树。
具体实施方式
图1为本发明的一种设计具有多稳健结构的核糖核酸分子的方法的总体框图。
对从计算机终端输入的预定结构集合中的每一个预定结构,根据RNA二级结构的定义,做合法性检查。RNA序列R=r1,r2,...,rn是取自字母表A={A,C,G,U}的一个字符串,其中ri∈A,i=1,2,...,n。RNA二级结构Ω是RNA序列R中碱基对折叠而成的所有碱基对的集合,碱基对由B={AU,UA,CG,GC,GU,UG}六种配对中的任意一种形成。假设i·j表示由第i个碱基ri和第j个碱基rj形成的碱基对,其中1≤i<j≤n。RNA二级结构Ω满足以下条件:
(1)对于Ω中任意的碱基对i·j,则i·j∈B;
(2)对于任意的两个碱基对i1·j1和i2·j2,要么i1=i2,j1=j2,要么i1≠i2,i1≠j2,j1≠j2,j1≠j2;
(3)如果h<i<j<k,则Ω中不能同时存在碱基对h·j和i·k;
(4)如果Ω中存在i·j,则|j-i|≥4。
在对从计算机终端输入的预定结构集合中的每一个预定结构检查合法性之后,将每个预定的结构表示成圆圈图,并把这些结构的圆圈图叠加在一个称之为依赖图的组合图中。图2给出了两个预定结构的依赖图Ψ的示例,其中图2(a)为两个长度为20的预定二级结构A和B的圆圈图表示,标号1、5、10、15和20是依赖图的结点编号;通过叠加两个预定结构的圆圈图表示,得到相应的依赖图,如图2(b)所示。在图2(b)中,仅在结构A中出现的边为结点4和18、结点5和17、结点7和15、结点8和14、结点9和13,仅在结构B中出现的边为结点1和20、结点4和10、结点5和9、结点12和18、结点13和17,两个结构中均存在的边为结点2和19。在该依赖图中,长度为1的路径有4条,分别为:结点1和20、结点2和19、结点7和15、结点8和14;长度为3的路径有1条,结点是10,4,18,12;长度为4的圈一个:结点是5、9、13、17,如图2(c)所示。
如果预定结构数目小于等于2,则直接分解依赖图;如果预定结构数目大于2,则首先需要检验依赖图的二分性。在一种设计具有多稳健结构的核糖核酸分子的方法中,依赖图的二分性检验通过采用宽度优先搜索算法对依赖图做二着色实现。如果依赖图具有二分性,则直接分解依赖图;否则,返回。
在依赖图的分解的步骤中,首先采用双连通图算法寻找割点,然后进一步将这些连通分支分裂成它们的双连通分支。在一种设计具有多稳健结构的核糖核酸分子的方法中,寻找割点算法通过采用基于一个结合识别割点准则的深度优先搜索实现。图3给出了一个四个叠加的二级结构的依赖图的分解的示例,其中图3(a)表示的是四个长度为20的叠加的二级结构的依赖图,标号1、5、10、15和20是依赖图的结点编号。它具有两个连通分支:一条路径(结点5和13)和一个复杂的分支(除结点2、3、6、10、15、19和20以外的所有其它结点)。依赖图的第二个连通分支可以在割点x,y分解为长度为1的两条路径G1和G2′、长度为4的一个圈G3,以及一个块的双连通分支G2″,如图3(b)所示。
在得到依赖图Ψ的全部双连通分支后,通过采用图着色算法进行相容序列的计数与均匀采样。选择代价函数模型(多稳健热敏核糖核酸分子开关模型或多稳健能量屏障核糖核酸分子开关模型),确定模型中代价函数的参数。采用两种元启发优化方法(局部搜索和模拟退火算法),在相容序列集合上,优化模型的代价函数,设计出满足性质的最优的具有多稳健结构的核糖核酸分子。
对下面的三个预定结构:
构象1(((.(((((((((((((((((((((((((((.(.((((((((((((((..((((...))))..)))))))))))))).).)))))))))))))))))))..))))))))..))).
构象2(((((((((((...)))))))..((((((((((....))))))))))........)))).....((((((((........)))))))).((((((((.....)))))))).....
构象3(((((((((((((((((((((((((((((((.(.((((((((((((((..((((...))))..)))))))))))))).).)))))))))))))))))))..)))))))).)))).
根据图1中本发明的一种设计具有多稳健结构的核糖核酸分子的方法的总体框图,选择多稳健热敏核糖核酸分子开关模型,设定代价函数的参数为ξ=0.3, 。利用本发明的方法,设计的具有三个稳健结构的多稳健热敏核糖核酸分子为:
CGGAGCGUGCGGGACGUAUGUAGGCUUACUACCCAUGGGUGGUAGGUAUGUUUGAUCC
GGGGUUGCCUAUUAUUUAUCGUUAGUGGGUUUGUAUGUGUUGGUCGCGUGCAGUUGG
分析该分子的热力学性质,图4显示的是随着温度的变化,该分子的热力学曲线。由图可知,从T1=20℃的构象1转换到T2=37℃的构象2,再转换到T3=75℃的构象3时,这三个构象正好被两个倒V型的峰分割开来,表明两两构象之间转换时,需要一个很大的能量。分析该分子的遗传稳健性,根据(2)式所计算的中性值为0.91,表明该分子具有很高的遗传稳健性。同时,所设计的核糖核酸分子的三个构象的自由能分别为-56.30kcal/mol,56.20kcal/mol和-56.10kcal/mol,表明该分子具有很好的热力学性质,即环境稳健性。以上结果表明,所设计的具有三个稳健结构的多稳健热敏核糖核酸分子具有很好的环境稳健性,同时也具有很高的遗传稳健性,满足设计的要求。
同样地,根据图1中本发明的一种设计具有多稳健结构的核糖核酸分子的方法的总体框图,选择多稳健能量屏障核糖核酸分子开关模型,设定代价函数的参数为ξ=0.3,ζ=0.3和 。利用本发明的方法,设计的具有三个稳健结构的多稳健能量屏障核糖核酸分子为:
CUAAUGAGUAUUAAGUGCUUAGUGUAAAGAUCCAAGGGGGUUUUUGCGAUAAUUAUUA
GUUCAUGCAAAAGUUUUUUCGCAUUUUUGUACUAAGCAUUUUCAGUGUUUGGAUGGU
分析该分子的能量屏障,图5给出了该分子在30个局部极小值之间的能量屏障树,由图可知,该分子具有三个主要构象,分别对应于构象1、构象2和构象3,并且处于三个不同分支中。除这三个构象外,其它构象的概率非常低。结果表明这三个构象两两之间被一个较大的能量屏障(~8.0Kcal/mol)分隔开。分析该分子的遗传稳健性,根据(2)式所计算的中性值为0.94,表明该分子具有很高的稳健性。同时,所设计的核糖核酸分子的三个构象具有非常相似的自由能,分别为-56.00kcal/mol,-55.80kcal/mol和-55.70kcal/mol,表明该分子具有很好的热力学性质,即环境稳健性。以上结果表明,所设计的具有三个稳健结构的多稳健能量屏障核糖核酸分子具有很好的环境稳健性,同时也具有很好的稳健性,满足设计的要求。
根据本发明的方法,具有多稳健结构的核糖核酸分子设计问题变得简单、方便、快捷。此外,设计的两个代价函数模型,能够很好的描述所设计的具有多稳健结构的核糖核酸分子的性质的要求。而所采用两种元启发优化方法(局部搜索和模拟退火算法),在设计具有多稳健结构的核糖核酸分子的方法中,能够很好地避免优化过程中出现的局部极小值问题,提高设计效率。本发明将对变构酶设计、RNA计算等研究具有重要理论意义和实用价值。
Claims (9)
1.一种设计具有多稳健结构的核糖核酸分子的方法,其特征在于所述的方法首先将具有多稳健结构的核糖核酸分子的设计问题转化为与预定结构相容的核糖核酸分子集合上的组合优化问题,在此基础上,采用基于图论的数学模型,进一步将该问题转化为依赖图上的点着色问题,具体包括下列步骤:
1)接收来自计算机终端的预定二级结构集合,判别其合法性;
2)生成依赖图;
3)检验依赖图的二分性;
4)分解依赖图;
5)在相容序列集合上计数与均匀采样;
6)选择代价函数模型及参数;
7)优化候选序列。
2.根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说的依赖图,其特征是,将每个预先设定的结构表示成圆圈图,再将这些圆圈图叠加在一个组合图中,即为依赖图。
3.根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说的依赖图二分性的检验,其特征是,对输入的预定二级结构超过两个的情况,通过采用宽度优先搜索算法对依赖图做二着色实现依赖图二分性的检验。
4.根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说的依赖图的分解,其特征是,首先通过基于一个结合识别割点准则的深度优先搜索的双连通图算法寻找割点,然后进一步将这些连通分支分裂成它们的双连通分支。
5.根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说的相容序列的计数与均匀采样,其特征是,在依赖图分解后的双连通分支上,采用图着色算法实现的。
6.根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说的代价函数模型,其特征是,它包括所设计的多稳健热敏核糖核酸分子开关模型和多稳健能量屏障核糖核酸分子开关模型。
9.根据权利要求1所述的一种设计具有多稳健结构的核糖核酸分子的方法,其中所说的候选序列的优化,其特征是,采用两种元启发优化方法--局部搜索算法和模拟退火算法避免优化过程中出现的局部极小值问题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101115098A CN101281560B (zh) | 2008-06-05 | 2008-06-05 | 一种设计具有多稳健结构的核糖核酸分子的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101115098A CN101281560B (zh) | 2008-06-05 | 2008-06-05 | 一种设计具有多稳健结构的核糖核酸分子的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101281560A CN101281560A (zh) | 2008-10-08 |
CN101281560B true CN101281560B (zh) | 2012-07-25 |
Family
ID=40014027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101115098A Expired - Fee Related CN101281560B (zh) | 2008-06-05 | 2008-06-05 | 一种设计具有多稳健结构的核糖核酸分子的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101281560B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1536068A (zh) * | 2003-02-03 | 2004-10-13 | ���ǵ�����ʽ���� | 编码脱氧核糖核酸序列的方法和装置及计算机可读介质 |
-
2008
- 2008-06-05 CN CN2008101115098A patent/CN101281560B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1536068A (zh) * | 2003-02-03 | 2004-10-13 | ���ǵ�����ʽ���� | 编码脱氧核糖核酸序列的方法和装置及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101281560A (zh) | 2008-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Benson et al. | The spacey random walk: A stochastic process for higher-order data | |
Kenny et al. | Algorithmic construction of optimal symmetric Latin hypercube designs | |
Flamm et al. | Barrier trees of degenerate landscapes | |
Wu et al. | Performance utility-analysis of multi-state systems | |
CN102281196A (zh) | 决策树生成方法及设备、基于决策树报文分类方法及设备 | |
Tang et al. | An effective construction method for multi-level uniform designs | |
Silberstein et al. | Large constant dimension codes and lexicodes | |
Niederreiter | Constructions of (t, m, s)-nets and (t, s)-sequences | |
Smith et al. | A new table of constant weight codes of length greater than 28 | |
CN105205348A (zh) | 一种基于距离约束选择策略的群体构象空间优化方法 | |
Gomez-Gardenes et al. | Local versus global knowledge in the Barabási-Albert scale-free network model | |
Fang et al. | Lower bounds and stochastic optimization algorithms for uniform designs with three or four levels | |
CN101281560B (zh) | 一种设计具有多稳健结构的核糖核酸分子的方法 | |
CN104951670A (zh) | 一种基于距离谱的群体构象空间优化方法 | |
Ewert et al. | Efficient per query information extraction from a hamming oracle | |
Chen et al. | Sparse antenna array design for MIMO radar using multiobjective differential evolution | |
Mehrotra et al. | A branch-and-price approach for graph multi-coloring | |
Correia | A study of redundancy and neutrality in evolutionary optimization | |
Donno | Replacement and zig-zag products, Cayley graphs and Lamplighter random walk | |
Papachristodoulou et al. | Structured model reduction for dynamical networked systems | |
Samarghandi et al. | Two-machine, no-wait job shop problem with separable setup times and single-server constraints | |
Ghosh et al. | Theory and application of restricted five neighborhood cellular automata (R5NCA) for protein structure prediction | |
Preciado et al. | Distributed network design for Laplacian eigenvalue placement | |
Riascos et al. | A measure of dissimilarity between diffusive processes on networks | |
Marcugini et al. | Classification of the (n, 3)-arcs in PG (2, 7) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120725 Termination date: 20150605 |
|
EXPY | Termination of patent right or utility model |