CN100559381C - 一种定量分析rna结构稳健性的进化的方法 - Google Patents
一种定量分析rna结构稳健性的进化的方法 Download PDFInfo
- Publication number
- CN100559381C CN100559381C CNB2008101115100A CN200810111510A CN100559381C CN 100559381 C CN100559381 C CN 100559381C CN B2008101115100 A CNB2008101115100 A CN B2008101115100A CN 200810111510 A CN200810111510 A CN 200810111510A CN 100559381 C CN100559381 C CN 100559381C
- Authority
- CN
- China
- Prior art keywords
- sequence
- rna
- evolution
- distance
- rna sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 45
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims abstract description 41
- 238000004445 quantitative analysis Methods 0.000 claims abstract description 5
- 239000002585 base Substances 0.000 claims description 12
- 230000007935 neutral effect Effects 0.000 claims description 12
- 239000003513 alkali Substances 0.000 claims description 3
- 238000012113 quantitative test Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000004590 computer program Methods 0.000 abstract description 2
- 238000007689 inspection Methods 0.000 abstract description 2
- 108091029498 Let-7 microRNA precursor Proteins 0.000 description 5
- 241000244206 Nematoda Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000342 Monte Carlo simulation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 239000002243 precursor Substances 0.000 description 2
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 241000726445 Viroids Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 241001493065 dsRNA viruses Species 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 230000012846 protein folding Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种计算机程序,更具体地,是一种定量分析RNA结构稳健性的进化的方法。本发明旨在提供一种能简单、方便、快捷地度量RNA结构稳健性的进化的定量化分析方法,解决稳健性进化评估难、定量难的问题,达到分析生物稳健性的起源及其进化的目的,由此而提高对生物进化的理解。为了达到上述目的,本发明以RNA二级结构为研究平台,在计算机系统中提供了一种定量分析RNA结构稳健性的进化的方法,该方法包括检查从计算机终端输入的RNA序列的合法性、产生对照序列、计算RNA结构稳健性,定量分析RNA结构稳健性的进化的步骤。
Description
技术领域
本发明涉及一种计算机程序,更具体地,是一种定量分析RNA结构稳健性的进化的方法。
背景技术
生物稳健性是生物系统中一种最基本且普遍存在的现象。它被理解为在各种干扰面前,仍能保持稳定功能的一种能力。根据干扰性质的不同(可遗传与否),稳健性分为遗传稳健性和环境稳健性。遗传稳健性是指在遗传突变干扰面前,表型的不敏感性;而环境稳健性是指在外部环境因素的干扰面前,表型的不敏感性。一直以来,生物学家都非常关注生物稳健性的研究,从Fisher的显性研究到Waddington的发育稳态研究。研究表明,在生物系统的各个水平上,都存在稳健性,包括基因表达、蛋白质折叠、代谢流量、身体自理调节、发育,甚至组织适应性。正确理解生物系统中稳健性的起源和进化将有助于我们对生物进化的理解。
RNA二级结构是研究生物稳健性的一个很好的平台。事实上,已经有很多研究者研究了RNA病毒、类病毒和microRNA中的稳健性。尽管有很多的研究关注于稳健性的进化机制,但迄今为止,稳健性的起源及其进化仍然不是很清楚。造成这一现状的原因,主要归因于在生物系统中很难给出稳健性进化的定量分析方法。
发明内容
本发明旨在提供一种能简单、方便、快捷地度量RNA结构稳健性的进化的定量化分析方法,解决稳健性进化评估难、定量难的问题,达到分析生物稳健性的起源及其进化的目的,由此而提高对生物进化的理解。
为了达到上述目的,本发明以RNA二级结构为研究平台,在计算机系统中提供了一种定量分析RNA结构稳健性的进化的方法,该方法包括检查从计算机终端输入的RNA序列的合法性、产生对照序列、计算RNA结构稳健性,定量分析RNA结构稳健性的进化的步骤。
在一种定量分析RNA结构稳健性的进化的方法中,对照序列的产生是在选定置乱方法的基础上,沿着输入的长度为l的RNA序列的海明距离,采用蒙特卡洛方法随机采样N条序列,共产生l×N条随机序列。本发明共实现了五种产生对照序列的置乱方法,具体描述如下:
●完全随机:产生与输入序列具有相同长度的随机序列;
●单碱基置乱:随机置换序列中碱基的位置;
●双碱基置乱:根据Erikson-Altschul算法,得到双碱基置乱序列。
●基于零阶马尔科夫模型的置乱:计算序列中单碱基频率P(b)。根据该频率在每个位点随机采样不同的碱基直到达到输入序列的长度为止;
●基于一阶马尔科夫模型的置乱:计算序列中给定碱基b碱基a出现的条件概率P(a|b)。随机选择第一个位点的碱基x1,根据条件概率P(xi+1|xi)选择下一位点的碱基xi+1,直到达到输入序列的长度为止;
在一种定量分析RNA结构稳健性的进化的方法中,采用中性值作为RNA结构稳健性的定量分析指标,中性值的定义为
其中,di,i=1,2,…,3×l为RNA序列与其第i个突变体序列之间的结构距离,l为RNA序列的长度。中性值γ越大,表明该RNA序列具有较高水平的稳健性。RNA序列与其突变体序列之间的结构距离d的计算分为两种情况:
(I)在仅考虑最小自由能结构的情况下,d为采用不同结构度量计算的RNA序列与其突变体序列之间的最小自由能结构的距离,这些结构度量具体包括字符串编辑距离,树编辑距离和碱基对距离;
(II)在考虑次优结构的情况下,d由RNA序列与其突变体序列之间的结构整体距离δm给出。结构整体距离δm的定义如下:
其中,px(S)是序列x的结构整体中结构S的平衡概率,py(S′)是序列y的结构整体中结构S′的平衡概率,δ(S,S′)为结构S和S′的距离。
在一种定量分析RNA结构稳健性的进化的方法中,RNA结构稳健性的进化的定量分析是沿着输入的RNA序列的海明距离进行的。具体操作如下:分别计算输入的RNA序列及沿着海明距离采样产生的对照序列的稳健性γ和其中N为在每个海明距离上产生的对照序列的数目,l为输入的RNA序列的长度。在每个海明距离j上,比较γ和分析输入的RNA序列在每个海明距离上稳健性的显著性,计算每个海明距离上相应的p-value值。并由此给出RNA结构稳健性随海明距离变化的曲线,即RNA结构稳健性的进化的定量分析结果。在海明距离j上,p-value值定义为
附图说明
图1为本发明的一种定量分析RNA结构稳健性的进化的方法的总体框图;
图2为图1中计算RNA结构稳健性的进化的流程图;
图3为线虫中microRNA let-7的结构稳健性的进化的分析结果。
具体实施方式
图1为本发明一种定量分析RNA结构稳健性的进化的方法的总体框图。
对从计算机终端输入的RNA序列,根据RNA序列的定义,做合法性检查。RNA序列是取自字母表A={A,C,G,U}的一个字符串R=r1,r2,…,rn,其中ri∈A,i=1,2,…,n。对不符合该定义的输入序列,则返回重新输入。采用本发明,分析的实例是线虫中长度为l=99的microRNA let-7前体的序列:
UACACUGUGGAUCCGGUGAGGUAGUAGGUUGUAUAGUUUGGAAUAUUACCACCGGU
GAACUAUGCAAUUUUCUACCUUACCGGAGACAGAACUCUUCGA
在对从计算机终端输入的RNA序列检查合法性之后,沿着输入的RNA序列的海明距离,选定五种置乱方法中的完全随机的置乱方法,采用蒙特卡洛方法随机采样N=1,000条随机RNA序列,共产生l×N=99,000条随机RNA序列。
对输入的RNA序列microRNA let-7及其每个海明距离上的对照RNA序列,计算它们的结构稳健性,图2给出了计算RNA结构稳健性的进化的流程图。对每条RNA序列,由于每个位点共有四个碱基A={A,C,G,U}可供选择,去掉其本身,在每个位点可产生三条突变体。例如,对输入的microRNA let-7前体序列,它第一个位点的碱基U,可以突变为其它的三个碱基A、C和U,这样三个突变体序列为:
位点 突变体序列
AACACUGUGGAUCCGGUGAGGUAGUAGGUUGUAUAGUUUGGAAUAUUACCA
1
CCGGUGAACUAUGCAAUUUUCUACCUUACCGGAGACAGAACUCUUCGA
CACACUGUGGAUCCGGUGAGGUAGUAGGUUGUAUAGUUUGGAAUAUUACCA
1
CCGGUGAACUAUGCAAUUUUCUACCUUACCGGAGACAGAACUCUUCGA
GACACUGUGGAUCCGGUGAGGUAGUAGGUUGUAUAGUUUGGAAUAUUACCA
1
CCGGUGAACUAUGCAAUUUUCUACCUUACCGGAGACAGAACUCUUCGA
利用标准的RNA二级结构折叠程序RNAfold,将输入的RNA序列及其每个位点的三个突变体序列(共有3×l个突变体序列)折叠成相应的二级结构。若仅考虑最小自由能结构,利用标准的RNA二级结构距离度量程序RNAdistance,选定距离度量(字符串编辑距离,树编辑距离或碱基对距离三种距离度量),计算输入的RNA序列与其每个突变体序列之间的结构距离d。若考虑次优结构,则利用标准的RNA二级结构整体距离度量程序RNApdist,计算输入的RNA序列与其每个突变体序列之间的结构整体距离δm。在得到RNA序列与其突变体序列之间的结构距离后,对3×l个突变体序列,计算i=1,2,…,3×l的值,统计它们的平均值,即得到(1)式中所定义的RNA序列的中性值γ。
在一种定量分析RNA结构稳健性的进化的方法中,按照上面的流程,计算输入的RNA序列及沿着海明距离采样产生的对照序列的稳健性γ和其中N为每个海明距离上产生的对照序列的数目,l为输入的RNA序列的长度。随后,分析RNA结构稳健性的进化。在每个海明距离上,根据公式(3),计算每个海明距离上相应的p-value值,并由此给出RNA结构稳健性的进化的分析结果。图3显示的是线虫中microRNA let-7的结构稳健性的进化的分析结果。
本发明采用中性值定量评估RNA分子的结构稳健性,能够简单、方便、快捷地定量分析RNA结构稳健性随着海明距离的进化,对RNA进化具有重要的理论意义和实用价值。
Claims (4)
1.一种定量分析RNA结构稳健性的进化的方法,其特征在于所述的方法包括下列步骤:
1)接收来自计算机终端输入的长度为l的RNA序列,判别该序列的合法性;
2)选择置乱方法,在每个海明距离上生成相应的对照序列;
3)采用中性值作为RNA结构稳健性的定量分析指标,中性值的定义为 其中,di,i=1,2,...,3×l为RNA序列与其第i个突变体序列之间的结构距离,l为RNA序列的长度,计算输入的RNA序列的中性值γ及其每个海明距离上的对照序列的中性值其中N为在每个海明距离上产生的对照序列的数目,l为输入的RNA序列的长度;
2.根据权利要求1所述的一种定量分析RNA结构稳健性的进化的方法,其中所述的置乱方法,其特征是,它可以由五种随机化方法中的一种实现,该五种随机化方法具体包括完全随机、单碱基置乱、双碱基置乱、基于零阶马尔科夫模型的置乱和基于一阶马尔科夫模型的置乱。
3.根据权利要求1所述的一种定量分析RNA结构稳健性的进化的方法,在中性值的定义 中,di,i=1,2,...,3×l为RNA序列与其第i个突变体序列之间的结构距离,该结构距离的计算特征是,根据考虑次优结构与否,RNA序列与其突变体序列之间的结构距离d的计算分为两种情况计算:
1)在不考虑次优结构的情况下,即仅考虑最小自由能结构的情况下,RNA序列与其突变体序列之间的结构距离d由RNA序列与突变体序列之间的最小自由能结构的字符串编辑距离,树编辑距离或碱基对距离给出;
2)在考虑次优结构的情况下,RNA序列与其突变体序列之间的结构距离d由RNA序列与其突变体序列之间的结构整体距离δm给出,结构整体距离δm的定义为 其中,px(S)是序列x的结构整体中结构S的平衡概率,py(S′)是序列y的结构整体中结构S′的平衡概率,δ(S,S′)为结构S和S′的距离。
4.根据权利要求3所述的一种定量分析RNA结构稳健性的进化的方法,其中所述的考虑次优结构的情况是指考虑在输入的RNA序列和突变体序列的最小自由能1kcal/mol内的所有次优结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2008101115100A CN100559381C (zh) | 2008-06-05 | 2008-06-05 | 一种定量分析rna结构稳健性的进化的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2008101115100A CN100559381C (zh) | 2008-06-05 | 2008-06-05 | 一种定量分析rna结构稳健性的进化的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101281561A CN101281561A (zh) | 2008-10-08 |
CN100559381C true CN100559381C (zh) | 2009-11-11 |
Family
ID=40014028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2008101115100A Expired - Fee Related CN100559381C (zh) | 2008-06-05 | 2008-06-05 | 一种定量分析rna结构稳健性的进化的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100559381C (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106351B (zh) * | 2013-02-28 | 2017-08-04 | 重庆科技学院 | 一种问号赖型钩端螺旋体复制基因损失率分析方法 |
CN105528532B (zh) * | 2014-09-30 | 2019-08-16 | 深圳华大基因科技有限公司 | 一种rna编辑位点的特征分析方法 |
CN116864001B (zh) * | 2023-09-04 | 2023-12-26 | 深圳市前海高新国际医疗管理有限公司 | 基于ai的动物模型rna表达量化分析系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101120251A (zh) * | 2004-12-13 | 2008-02-06 | 索尼株式会社 | 基因表达量归一化方法、程序和系统 |
-
2008
- 2008-06-05 CN CNB2008101115100A patent/CN100559381C/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101120251A (zh) * | 2004-12-13 | 2008-02-06 | 索尼株式会社 | 基因表达量归一化方法、程序和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101281561A (zh) | 2008-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bravo et al. | Embracing heterogeneity: coalescing the Tree of Life and the future of phylogenomics | |
Chen et al. | Pseudo nucleotide composition or PseKNC: an effective formulation for analyzing genomic sequences | |
Lee et al. | Distinguishing among modes of convergent adaptation using population genomic data | |
McVean et al. | Approximating the coalescent with recombination | |
Liu et al. | Mitochondrial capture enriches mito‐DNA 100 fold, enabling PCR‐free mitogenomics biodiversity analysis | |
Wilkinson et al. | Influence of nucleotide identity on ribose 2′-hydroxyl reactivity in RNA | |
Zhang et al. | A review on recent computational methods for predicting noncoding RNAs | |
Kladwang et al. | Standardization of RNA chemical mapping experiments | |
Weinberg et al. | Faster genome annotation of non-coding RNA families without loss of accuracy | |
Lynch et al. | The genome-wide signature of short-term temporal selection | |
Wong et al. | LNRLMI: Linear neighbour representation for predicting lncRNA‐miRNA interactions | |
Matsumoto et al. | Evaluation of ancestral sequence reconstruction methods to infer nonstationary patterns of nucleotide substitution | |
Sánchez-Gracia et al. | Impact of deep coalescence on the reliability of species tree inference from different types of DNA markers in mammals | |
Li et al. | A gene-based information gain method for detecting gene–gene interactions in case–control studies | |
Obermayer et al. | Emergence of information transmission in a prebiotic RNA reactor | |
Zhen et al. | Greater strength of selection and higher proportion of beneficial amino acid changing mutations in humans compared with mice and Drosophila melanogaster | |
Wang et al. | A performance study of the impact of recombination on species tree analysis | |
CN110767262A (zh) | 一种基于结构的核酸适配体优化设计方法 | |
CN100559381C (zh) | 一种定量分析rna结构稳健性的进化的方法 | |
Yuan et al. | Read-mapping using personalized diploid reference genome for RNA sequencing data reduced bias for detecting allele-specific expression | |
Peng et al. | Forward-time simulation of realistic samples for genome-wide association studies | |
Luo et al. | Recall DNA methylation levels at low coverage sites using a CNN model in WGBS | |
Guo et al. | Searching genome-wide multi-locus associations for multiple diseases based on bayesian inference | |
Audenaert et al. | Impact of dissolved organic matter (DOM) on parameter sensitivity of a kinetic ozone decomposition model | |
Meyer | Predicting novel RNA–RNA interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091111 Termination date: 20110605 |