CN100559381C - 一种定量分析rna结构稳健性的进化的方法 - Google Patents

一种定量分析rna结构稳健性的进化的方法 Download PDF

Info

Publication number
CN100559381C
CN100559381C CNB2008101115100A CN200810111510A CN100559381C CN 100559381 C CN100559381 C CN 100559381C CN B2008101115100 A CNB2008101115100 A CN B2008101115100A CN 200810111510 A CN200810111510 A CN 200810111510A CN 100559381 C CN100559381 C CN 100559381C
Authority
CN
China
Prior art keywords
sequence
rna
evolution
distance
rna sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2008101115100A
Other languages
English (en)
Other versions
CN101281561A (zh
Inventor
王升启
舒文杰
伯晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Radiation Medicine of CAMMS
Original Assignee
Institute of Radiation Medicine of CAMMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Radiation Medicine of CAMMS filed Critical Institute of Radiation Medicine of CAMMS
Priority to CNB2008101115100A priority Critical patent/CN100559381C/zh
Publication of CN101281561A publication Critical patent/CN101281561A/zh
Application granted granted Critical
Publication of CN100559381C publication Critical patent/CN100559381C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种计算机程序,更具体地,是一种定量分析RNA结构稳健性的进化的方法。本发明旨在提供一种能简单、方便、快捷地度量RNA结构稳健性的进化的定量化分析方法,解决稳健性进化评估难、定量难的问题,达到分析生物稳健性的起源及其进化的目的,由此而提高对生物进化的理解。为了达到上述目的,本发明以RNA二级结构为研究平台,在计算机系统中提供了一种定量分析RNA结构稳健性的进化的方法,该方法包括检查从计算机终端输入的RNA序列的合法性、产生对照序列、计算RNA结构稳健性,定量分析RNA结构稳健性的进化的步骤。

Description

一种定量分析RNA结构稳健性的进化的方法
技术领域
本发明涉及一种计算机程序,更具体地,是一种定量分析RNA结构稳健性的进化的方法。
背景技术
生物稳健性是生物系统中一种最基本且普遍存在的现象。它被理解为在各种干扰面前,仍能保持稳定功能的一种能力。根据干扰性质的不同(可遗传与否),稳健性分为遗传稳健性和环境稳健性。遗传稳健性是指在遗传突变干扰面前,表型的不敏感性;而环境稳健性是指在外部环境因素的干扰面前,表型的不敏感性。一直以来,生物学家都非常关注生物稳健性的研究,从Fisher的显性研究到Waddington的发育稳态研究。研究表明,在生物系统的各个水平上,都存在稳健性,包括基因表达、蛋白质折叠、代谢流量、身体自理调节、发育,甚至组织适应性。正确理解生物系统中稳健性的起源和进化将有助于我们对生物进化的理解。
RNA二级结构是研究生物稳健性的一个很好的平台。事实上,已经有很多研究者研究了RNA病毒、类病毒和microRNA中的稳健性。尽管有很多的研究关注于稳健性的进化机制,但迄今为止,稳健性的起源及其进化仍然不是很清楚。造成这一现状的原因,主要归因于在生物系统中很难给出稳健性进化的定量分析方法。
发明内容
本发明旨在提供一种能简单、方便、快捷地度量RNA结构稳健性的进化的定量化分析方法,解决稳健性进化评估难、定量难的问题,达到分析生物稳健性的起源及其进化的目的,由此而提高对生物进化的理解。
为了达到上述目的,本发明以RNA二级结构为研究平台,在计算机系统中提供了一种定量分析RNA结构稳健性的进化的方法,该方法包括检查从计算机终端输入的RNA序列的合法性、产生对照序列、计算RNA结构稳健性,定量分析RNA结构稳健性的进化的步骤。
在一种定量分析RNA结构稳健性的进化的方法中,对照序列的产生是在选定置乱方法的基础上,沿着输入的长度为l的RNA序列的海明距离,采用蒙特卡洛方法随机采样N条序列,共产生l×N条随机序列。本发明共实现了五种产生对照序列的置乱方法,具体描述如下:
●完全随机:产生与输入序列具有相同长度的随机序列;
●单碱基置乱:随机置换序列中碱基的位置;
●双碱基置乱:根据Erikson-Altschul算法,得到双碱基置乱序列。
●基于零阶马尔科夫模型的置乱:计算序列中单碱基频率P(b)。根据该频率在每个位点随机采样不同的碱基直到达到输入序列的长度为止;
●基于一阶马尔科夫模型的置乱:计算序列中给定碱基b碱基a出现的条件概率P(a|b)。随机选择第一个位点的碱基x1,根据条件概率P(xi+1|xi)选择下一位点的碱基xi+1,直到达到输入序列的长度为止;
在一种定量分析RNA结构稳健性的进化的方法中,采用中性值作为RNA结构稳健性的定量分析指标,中性值的定义为
γ = 1 3 × l Σ i = 1 3 × l l - d i l - - - ( 1 )
其中,di,i=1,2,…,3×l为RNA序列与其第i个突变体序列之间的结构距离,l为RNA序列的长度。中性值γ越大,表明该RNA序列具有较高水平的稳健性。RNA序列与其突变体序列之间的结构距离d的计算分为两种情况:
(I)在仅考虑最小自由能结构的情况下,d为采用不同结构度量计算的RNA序列与其突变体序列之间的最小自由能结构的距离,这些结构度量具体包括字符串编辑距离,树编辑距离和碱基对距离;
(II)在考虑次优结构的情况下,d由RNA序列与其突变体序列之间的结构整体距离δm给出。结构整体距离δm的定义如下:
δ m ( x , y ) = Σ S , S ′ p x ( S ) p y ( S ′ ) δ ( S , S ′ ) - - - ( 2 )
其中,px(S)是序列x的结构整体中结构S的平衡概率,py(S′)是序列y的结构整体中结构S′的平衡概率,δ(S,S′)为结构S和S′的距离。
在一种定量分析RNA结构稳健性的进化的方法中,RNA结构稳健性的进化的定量分析是沿着输入的RNA序列的海明距离进行的。具体操作如下:分别计算输入的RNA序列及沿着海明距离采样产生的对照序列的稳健性γ和其中N为在每个海明距离上产生的对照序列的数目,l为输入的RNA序列的长度。在每个海明距离j上,比较γ和
Figure C20081011151000062
分析输入的RNA序列在每个海明距离上稳健性的显著性,计算每个海明距离上相应的p-value值。并由此给出RNA结构稳健性随海明距离变化的曲线,即RNA结构稳健性的进化的定量分析结果。在海明距离j上,p-value值定义为
p j = M N + 1 - - - ( 3 )
其中,M表示集合
Figure C20081011151000064
中,比输入的RNA序列更稳健的序列的数目,即集合
Figure C20081011151000065
中比γ的值更大的中性值的数目。
附图说明
图1为本发明的一种定量分析RNA结构稳健性的进化的方法的总体框图;
图2为图1中计算RNA结构稳健性的进化的流程图;
图3为线虫中microRNA let-7的结构稳健性的进化的分析结果。
具体实施方式
图1为本发明一种定量分析RNA结构稳健性的进化的方法的总体框图。
对从计算机终端输入的RNA序列,根据RNA序列的定义,做合法性检查。RNA序列是取自字母表A={A,C,G,U}的一个字符串R=r1,r2,…,rn,其中ri∈A,i=1,2,…,n。对不符合该定义的输入序列,则返回重新输入。采用本发明,分析的实例是线虫中长度为l=99的microRNA let-7前体的序列:
UACACUGUGGAUCCGGUGAGGUAGUAGGUUGUAUAGUUUGGAAUAUUACCACCGGU
GAACUAUGCAAUUUUCUACCUUACCGGAGACAGAACUCUUCGA
在对从计算机终端输入的RNA序列检查合法性之后,沿着输入的RNA序列的海明距离,选定五种置乱方法中的完全随机的置乱方法,采用蒙特卡洛方法随机采样N=1,000条随机RNA序列,共产生l×N=99,000条随机RNA序列。
对输入的RNA序列microRNA let-7及其每个海明距离上的对照RNA序列,计算它们的结构稳健性,图2给出了计算RNA结构稳健性的进化的流程图。对每条RNA序列,由于每个位点共有四个碱基A={A,C,G,U}可供选择,去掉其本身,在每个位点可产生三条突变体。例如,对输入的microRNA let-7前体序列,它第一个位点的碱基U,可以突变为其它的三个碱基A、C和U,这样三个突变体序列为:
位点    突变体序列
        AACACUGUGGAUCCGGUGAGGUAGUAGGUUGUAUAGUUUGGAAUAUUACCA
1
        CCGGUGAACUAUGCAAUUUUCUACCUUACCGGAGACAGAACUCUUCGA
        CACACUGUGGAUCCGGUGAGGUAGUAGGUUGUAUAGUUUGGAAUAUUACCA
1
        CCGGUGAACUAUGCAAUUUUCUACCUUACCGGAGACAGAACUCUUCGA
        GACACUGUGGAUCCGGUGAGGUAGUAGGUUGUAUAGUUUGGAAUAUUACCA
1
        CCGGUGAACUAUGCAAUUUUCUACCUUACCGGAGACAGAACUCUUCGA
利用标准的RNA二级结构折叠程序RNAfold,将输入的RNA序列及其每个位点的三个突变体序列(共有3×l个突变体序列)折叠成相应的二级结构。若仅考虑最小自由能结构,利用标准的RNA二级结构距离度量程序RNAdistance,选定距离度量(字符串编辑距离,树编辑距离或碱基对距离三种距离度量),计算输入的RNA序列与其每个突变体序列之间的结构距离d。若考虑次优结构,则利用标准的RNA二级结构整体距离度量程序RNApdist,计算输入的RNA序列与其每个突变体序列之间的结构整体距离δm。在得到RNA序列与其突变体序列之间的结构距离后,对3×l个突变体序列,计算
Figure C20081011151000071
i=1,2,…,3×l的值,统计它们的平均值,即得到(1)式中所定义的RNA序列的中性值γ。
在一种定量分析RNA结构稳健性的进化的方法中,按照上面的流程,计算输入的RNA序列及沿着海明距离采样产生的对照序列的稳健性γ和
Figure C20081011151000072
其中N为每个海明距离上产生的对照序列的数目,l为输入的RNA序列的长度。随后,分析RNA结构稳健性的进化。在每个海明距离上,根据公式(3),计算每个海明距离上相应的p-value值,并由此给出RNA结构稳健性的进化的分析结果。图3显示的是线虫中microRNA let-7的结构稳健性的进化的分析结果。
本发明采用中性值定量评估RNA分子的结构稳健性,能够简单、方便、快捷地定量分析RNA结构稳健性随着海明距离的进化,对RNA进化具有重要的理论意义和实用价值。

Claims (4)

1.一种定量分析RNA结构稳健性的进化的方法,其特征在于所述的方法包括下列步骤:
1)接收来自计算机终端输入的长度为l的RNA序列,判别该序列的合法性;
2)选择置乱方法,在每个海明距离上生成相应的对照序列;
3)采用中性值作为RNA结构稳健性的定量分析指标,中性值的定义为 γ = 1 3 × l Σ i = 1 3 × l l - d i l , 其中,di,i=1,2,...,3×l为RNA序列与其第i个突变体序列之间的结构距离,l为RNA序列的长度,计算输入的RNA序列的中性值γ及其每个海明距离上的对照序列的中性值其中N为在每个海明距离上产生的对照序列的数目,l为输入的RNA序列的长度;
4)沿着输入的RNA序列的海明距离,计算每个海明距离上相应的p-value值,并由此给出RNA结构稳健性随海明距离变化的曲线,得到RNA结构稳健性的进化的定量分析结果,在海明距离j上,p-value值定义为 p j = M N + 1 , 其中,M表示集合
Figure C2008101115100002C4
中,比输入的RNA序列更稳健的序列的数目,即集合中比γ的值更大的中性值的数目。
2.根据权利要求1所述的一种定量分析RNA结构稳健性的进化的方法,其中所述的置乱方法,其特征是,它可以由五种随机化方法中的一种实现,该五种随机化方法具体包括完全随机、单碱基置乱、双碱基置乱、基于零阶马尔科夫模型的置乱和基于一阶马尔科夫模型的置乱。
3.根据权利要求1所述的一种定量分析RNA结构稳健性的进化的方法,在中性值的定义 γ = 1 3 × l Σ i = 1 3 × l l - d i l 中,di,i=1,2,...,3×l为RNA序列与其第i个突变体序列之间的结构距离,该结构距离的计算特征是,根据考虑次优结构与否,RNA序列与其突变体序列之间的结构距离d的计算分为两种情况计算:
1)在不考虑次优结构的情况下,即仅考虑最小自由能结构的情况下,RNA序列与其突变体序列之间的结构距离d由RNA序列与突变体序列之间的最小自由能结构的字符串编辑距离,树编辑距离或碱基对距离给出;
2)在考虑次优结构的情况下,RNA序列与其突变体序列之间的结构距离d由RNA序列与其突变体序列之间的结构整体距离δm给出,结构整体距离δm的定义为 δ m ( x , y ) = Σ S , S ′ p x ( S ) p y ( S ′ ) δ ( S , S ′ ) , 其中,px(S)是序列x的结构整体中结构S的平衡概率,py(S′)是序列y的结构整体中结构S′的平衡概率,δ(S,S′)为结构S和S′的距离。
4.根据权利要求3所述的一种定量分析RNA结构稳健性的进化的方法,其中所述的考虑次优结构的情况是指考虑在输入的RNA序列和突变体序列的最小自由能1kcal/mol内的所有次优结构。
CNB2008101115100A 2008-06-05 2008-06-05 一种定量分析rna结构稳健性的进化的方法 Expired - Fee Related CN100559381C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2008101115100A CN100559381C (zh) 2008-06-05 2008-06-05 一种定量分析rna结构稳健性的进化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2008101115100A CN100559381C (zh) 2008-06-05 2008-06-05 一种定量分析rna结构稳健性的进化的方法

Publications (2)

Publication Number Publication Date
CN101281561A CN101281561A (zh) 2008-10-08
CN100559381C true CN100559381C (zh) 2009-11-11

Family

ID=40014028

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2008101115100A Expired - Fee Related CN100559381C (zh) 2008-06-05 2008-06-05 一种定量分析rna结构稳健性的进化的方法

Country Status (1)

Country Link
CN (1) CN100559381C (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106351B (zh) * 2013-02-28 2017-08-04 重庆科技学院 一种问号赖型钩端螺旋体复制基因损失率分析方法
CN105528532B (zh) * 2014-09-30 2019-08-16 深圳华大基因科技有限公司 一种rna编辑位点的特征分析方法
CN116864001B (zh) * 2023-09-04 2023-12-26 深圳市前海高新国际医疗管理有限公司 基于ai的动物模型rna表达量化分析系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101120251A (zh) * 2004-12-13 2008-02-06 索尼株式会社 基因表达量归一化方法、程序和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101120251A (zh) * 2004-12-13 2008-02-06 索尼株式会社 基因表达量归一化方法、程序和系统

Also Published As

Publication number Publication date
CN101281561A (zh) 2008-10-08

Similar Documents

Publication Publication Date Title
Chou et al. A comparative study of SVDquartets and other coalescent-based species tree estimation methods
Gymrek et al. Interpreting short tandem repeat variations in humans using mutational constraint
Cui et al. Guitar: an R/bioconductor package for gene annotation guided transcriptomic analysis of RNA‐related genomic features
Brynedal et al. Large-scale trans-eQTLs affect hundreds of transcripts and mediate patterns of transcriptional co-regulation
Browning et al. A unified approach to genotype imputation and haplotype-phase inference for large data sets of trios and unrelated individuals
Zhang et al. A review on recent computational methods for predicting noncoding RNAs
Cordero et al. Rich RNA structure landscapes revealed by mutate-and-map analysis
Chan et al. An excess of risk-increasing low-frequency variants can be a signal of polygenic inheritance in complex diseases
Halperin et al. SNP imputation in association studies
Belle et al. An investigation of the variation in the transition bias among various animal mitochondrial DNA
Matsumoto et al. Evaluation of ancestral sequence reconstruction methods to infer nonstationary patterns of nucleotide substitution
Li et al. A gene-based information gain method for detecting gene–gene interactions in case–control studies
Peng et al. Forward-time simulation of realistic samples for genome-wide association studies
Wong et al. LNRLMI: Linear neighbour representation for predicting lncRNA‐miRNA interactions
Wang et al. A performance study of the impact of recombination on species tree analysis
Song et al. De novo post-SELEX optimization of a G-quadruplex DNA aptamer binding to marine toxin gonyautoxin 1/4
CN100559381C (zh) 一种定量分析rna结构稳健性的进化的方法
Einert et al. Theory for RNA folding, stretching, and melting including loops and salt
Lynch et al. The genome-wide signature of short-term temporal selection
Audenaert et al. Impact of dissolved organic matter (DOM) on parameter sensitivity of a kinetic ozone decomposition model
Zhang et al. A multilocus linkage disequilibrium measure based on mutual information theory and its applications
Guo et al. A modified association test for rare and common variants based on affected sib-pair design
Igo Jr et al. Empirical significance values for linkage analysis: trait simulation using posterior model distributions from MCMC oligogenic segregation analysis
Seffens Models of RNA interaction from experimental datasets: framework of resilience
Oscamou et al. Comparison of methods for estimating the nucleotide substitution matrix

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091111

Termination date: 20110605