CN106897578A - 一种细胞基因翻译过程建模方法 - Google Patents
一种细胞基因翻译过程建模方法 Download PDFInfo
- Publication number
- CN106897578A CN106897578A CN201510933552.2A CN201510933552A CN106897578A CN 106897578 A CN106897578 A CN 106897578A CN 201510933552 A CN201510933552 A CN 201510933552A CN 106897578 A CN106897578 A CN 106897578A
- Authority
- CN
- China
- Prior art keywords
- mrna
- gene
- ribosome
- time point
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000008569 process Effects 0.000 title claims abstract description 61
- 238000013519 translation Methods 0.000 title claims abstract description 52
- 108020004999 messenger RNA Proteins 0.000 claims abstract description 98
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 93
- 230000014509 gene expression Effects 0.000 claims abstract description 44
- 210000003705 ribosome Anatomy 0.000 claims abstract description 27
- 230000008859 change Effects 0.000 claims abstract description 16
- 108020004566 Transfer RNA Proteins 0.000 claims description 43
- 108020004705 Codon Proteins 0.000 claims description 29
- 108020005098 Anticodon Proteins 0.000 claims description 9
- 230000000977 initiatory effect Effects 0.000 claims description 7
- 230000001413 cellular effect Effects 0.000 claims description 6
- 230000033001 locomotion Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002028 premature Effects 0.000 claims description 5
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 claims description 3
- 229930182817 methionine Natural products 0.000 claims description 3
- -1 ribosomes Proteins 0.000 claims description 2
- 210000004027 cell Anatomy 0.000 abstract description 26
- 230000011712 cell development Effects 0.000 abstract description 6
- 238000011161 development Methods 0.000 abstract description 6
- 230000018109 developmental process Effects 0.000 abstract description 5
- 230000014616 translation Effects 0.000 description 51
- 238000002474 experimental method Methods 0.000 description 14
- 102000004169 proteins and genes Human genes 0.000 description 13
- 108090000765 processed proteins & peptides Proteins 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000014621 translational initiation Effects 0.000 description 7
- 230000001105 regulatory effect Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 6
- 150000001413 amino acids Chemical class 0.000 description 5
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 4
- 238000001243 protein synthesis Methods 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 230000031018 biological processes and functions Effects 0.000 description 3
- 230000007717 exclusion Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 235000015097 nutrients Nutrition 0.000 description 3
- 230000005945 translocation Effects 0.000 description 3
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 2
- 125000003001 N-formyl-L-methionyl group Chemical group O=C([H])N([H])[C@]([H])(C(=O)[*])C([H])([H])C([H])([H])SC([H])([H])[H] 0.000 description 2
- 229920002352 Peptidyl-tRNA Polymers 0.000 description 2
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 2
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000022131 cell cycle Effects 0.000 description 2
- 230000010261 cell growth Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007062 hydrolysis Effects 0.000 description 2
- 238000006460 hydrolysis reaction Methods 0.000 description 2
- 230000003834 intracellular effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 125000001151 peptidyl group Chemical group 0.000 description 2
- 102000004196 processed proteins & peptides Human genes 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- 201000004569 Blindness Diseases 0.000 description 1
- 108090000994 Catalytic RNA Proteins 0.000 description 1
- 102000053642 Catalytic RNA Human genes 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 102000002508 Peptide Elongation Factors Human genes 0.000 description 1
- 108010068204 Peptide Elongation Factors Proteins 0.000 description 1
- 108090000279 Peptidyltransferases Proteins 0.000 description 1
- 208000005107 Premature Birth Diseases 0.000 description 1
- 206010036590 Premature baby Diseases 0.000 description 1
- 206010036595 Premature delivery Diseases 0.000 description 1
- 108700005075 Regulator Genes Proteins 0.000 description 1
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 1
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 1
- 108091081024 Start codon Proteins 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 125000003277 amino group Chemical group 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004166 bioassay Methods 0.000 description 1
- 238000005842 biochemical reaction Methods 0.000 description 1
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000019522 cellular metabolic process Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 238000003209 gene knockout Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000011278 mitosis Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 108091092562 ribozyme Proteins 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 210000005253 yeast cell Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G06F19/34—
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种细胞基因翻译过程建模方法,包括以下步骤:根据物种的实验数据得到每一个基因在每一个离散时间点该基因是否表达;查询每个离散时间点的基因,如果基因表达,则初始化;否则不进行初始化;通过各时间点上各基因对应的mRNA拷贝数量与前一个时间点上mRNA数量对比得到各种mRNA中初始化的数量;计算mRNA分子的总初始化速度;计算核糖体分子在对应mRNA上的总延伸速度;根据总初始化速度和总延伸速度得到事件的概率;根据事件概率的权重,随机选择一个事件;更新各种分子的状态。本发明采用基于完全不对称简单排斥过程的原理,同时考虑基因的表达动态变化,使得翻译过程呈现出时间序列特征,更接近细胞发育的本质,适合研究细胞动态发育性质。
Description
技术领域
本发明涉及一种酿酒酵母菌基因动态翻译过程建模的方法,属于生物信息技术、计算方法与计算机虚拟现实技术。
背景技术
细胞的新陈代谢、生长和分化等许多基本的生命现象都受到细胞内基因表达的控制,而基因的这种调控作用则是通过其相应的基因产物来实现的。蛋白质是最重要的基因产物之一,因此其合成也是细胞内最基本和最关键的反应之一。越来越多的实验证据表明,蛋白质的正常翻译对细胞维持正常功能起到关键至关重要的作用。正常的细胞不能忍受基因翻译过程中的严重错误。在细胞的一个生命周期,基因的表达式有序进行的,什么阶段需要表达哪些基因是受到细胞自身以及外界环境共同决定的。一般来说,细胞内因起主导作用。这个过程可以用基因表达的时间序列来描述。在生物试验中已经有很多相关的研究。基因调控网络是一个连续而复杂的动态系统,基因间的调控是随时间、环境变化的动态事件,基因组DNA微阵列为研究者提供了较好的认识调控网络的工具。时间序列基因表达数据包含着丰富的基因调控信息,可以想象,位于基因调控网络上游基因的变化,理应处于下游基因的前面。当上游基因(比如转录因子TF)的表达发生变化以后,这种变化会沿着基因调控网络传播。当测量了每个基因在不同时间的表达水平以后,就能从这种时间序列数据中反推得到关于基因之间调控顺序以及调控对象的重要信息。一般认为,时间序列基因表达数据与同样大小的静态基因表达数据相比,含有更大的推导基因调控网络的信息量。时间序列表达实验是在不同的时间点对细胞周期以及特定状态条件下的基因表达进行测定,比如基因敲除实验,疫苗暴露实验,细胞有丝分裂周期实验等,以观测各个时间点上或细胞周期中基因表达的变化情况,寻找调控基因和目标基因。它和一般静态表达实验的主要区别有两点:一是静态表达实验是对不同样本在同一时间点上的测量,而时间序列表达实验则是对同一样本在几个时间点进行连续测量;二是时间序列表达实验的测量值在连续的时间点上有较强的自相关,而静态表达实验要求样本的测量值服从独立同分布的条件。
细胞内蛋白质的翻译一般被分为三步:起始、延伸和终止。其中负责基因翻译的关键物质是核糖体。
真核细胞基因翻译过程建模方法主要有二种:
第一类是基于微分方程组的方法。按照核糖体的结合位点将核糖体分成若干种类——自由核糖体,结合在位点1上的核糖体,结合在位点2上的核糖体,…,结合在位点n上的核糖体,…,最后一个位点上的核糖体。然后针对核糖体的每个状态浓度的变化情况写出化学反应对应的关系,然后针对上步写出来的化学反应关系,得到每个状态浓度变化的微分方程式。这种方法是生物建模最常用的方法之一。因为蛋白质合成由一系列标准的生化反应,这种方法在原则上是可行的。然而,由于伸长的周期性和多个伸长过程可以发生在一个模板,因此这个过程不像大多数其他酶系统那么简单,而且整个过程会发生占位堵塞效应,因此使用单纯的微分方程组建模不容易反应翻译过程的动态的细节,而且在营养供应发生变化的情况下,相关的参数也会有变化,因此相关的参数不好估计。
第二类是基于TASEP理论的。这类理论被称为“完全不对称的排除过程”或TASEP,是统计方法后续发展,。TASEP的早期版本的特征包括核糖体无限供应的假设,核糖体有统一的沿着mRNA伸长的速率常数,和一个粗粒度的伸长过程,这个过程常被称为跳跃模型。扩展的TASEP允许核糖体在中途退出,这在一定程度上更能反映真实情况。同时核糖体以及转运rna也不是无限供应的,这种在物质上有限制的模型在本质上更接近真实细胞的生理过程。毕竟真实环境下的物质供应都是有一定的限制的。同第二类一样这个模型只是一个基因表达的一个静态模型,事实上,细胞在生长发育的过程中基因表达式动态关闭打开的。相关的表达强度也是随时间不断变化的。因此静态的模型不能更真实的反应实际的蛋白质翻译过程。
发明内容
本发明解决其技术问题所采用的技术方案是:一种细胞基因翻译过程建模方法,包括以下步骤:
1)根据物种的实验数据得到每一个基因在每一个离散时间点该基因是否表达;
2)查询每个离散时间点的基因,如果基因表达,则初始化;否则不进行初始化;
3)通过各时间点上各基因对应的mRNA拷贝数量与前一个时间点上mRNA数量对比得到各种mRNA中初始化的数量;
4)计算mRNA分子的总初始化速度;计算核糖体分子在对应mRNA上的总延伸速度;根据总初始化速度和总延伸速度得到事件的概率;
5)根据事件概率的权重,随机选择一个事件进行反应;
6)更新各种分子的状态;并增加一个步长,返回步骤2),直到达到设定时间为止。
所述通过各时间点上各基因对应的mRNA拷贝数量与前一个时间点上mRNA数量对比得到各种mRNA中初始化的数量包括以下步骤:
读取各时间点上各种基因对应的mRNA拷贝数量,与前一个时间点上mRNA数量对比,得到表达变化的基因,进而得到mRNA变化的比例系数;
根据mRNA变化的比例系数调整核糖体和tRNA的数量,表达变化的核糖体和tRNA状态限定在自由状态;
跟踪每个mRNA分子的状态,更新mRNA、核糖体和tRNA的个数,得到各种mRNA中初始化的数量。
所述计算mRNA分子的总初始化速度通过以下公式得到:
if(M>Rf):
if(M<=Rf):
其中,ρt为所有mRNA初始化的速度,M为自由状态下的蛋氨酸数量,Rf为自由状态的核糖体,fi为某种mRNA中被初始化的分子数所占的百分比,Ai为某种基因对应的mRNA的数量,pi为某种基因的初始化概率,i为某种基因的id号,τr为核糖体的运动特征时间,Nr为核糖体空间位置数量,n为基因种类数目。
所述计算核糖体分子在对应mRNA上的总延伸速度通过以下公式得到:
如果反密码子k和密码子j不匹配:
如果反密码子k和密码子j匹配:
pk_j=1-pmis_based
其中,εt为所有核糖体延伸速度,为结合在j类密码子上的核糖体的数量,为k类密码子对应的tRNA数量,ωj为j类密码子摇摆参数,s为tRNA竞争参数,j为某种密码子的id,τt为tRNA运动特征时间,Nt为tRNA空间位置数量;pmis_based为密码子错误配对导致翻译过程提前终止的概率。
所述根据总初始化速度和总延伸速度得到事件的概率通过以下公式得到:
总的概率=事件速度/(ρt+εt)
其中,事件速度为ρt或εt,ρt为mRNA分子的总初始化速度,εt为核糖体分子在对应mRNA上的总延伸速度:
本发明具有以下有益效果及优点:
1.本发明采用基于完全不对称简单排斥过程的原理,同时考虑基因的表达动态变化,使得翻译过程呈现出时间序列特征,更接近细胞发育的本质,适合研究细胞动态发育性质。
2.在模型中将错误的翻译参数化,使得本模型可以针对不同的营养供给环境蛋白质翻译的特点,比如蛋白质的产量,正确翻译的速率,错误翻译的速率,正确翻译的比例等等。
3.细胞蛋白质表达过程是细胞生命的核心,蛋白质表达准确建模可以为电子细胞提供更可靠的性能,为数字医疗和个性化医疗提交基础。
4.对实验方面,以及有效的降低实验的盲目性,提高实验的效率。为更复杂的细胞模拟提供了一个方向。
附图说明
图1是本发明的方法流程图;
图2是核糖体循环的示意图;
图3是核糖体因为密码子错配导致提前释放的示意图;
具体实施方式
下面结合附图对本发明做详细说明。
我们现在关注更高的一个层次:根据表达基因时间序列来考察单细胞发育过程中蛋白质合成的特征。就应用角度来说,这个模型更靠近真实细胞的发育情况,模拟的结果是一个动态的结果。相对来说以前研究的更为片面,静态。当然生物过程是非常复杂的,我们目前只能在表面上模拟细胞蛋白表达的行为过程。更本质的问题,比如基因表达的时间序列的驱动力我们还没有涉及。
本发明在TASEP模型的基础上,结合了基因表达时间序列以及翻译过程中出错的可能性。目的是分析在细胞生长发育的一生中,蛋白质翻译过程中的速度,考察翻译速度和自由核糖体以及结合状态核糖体数量的变化,考虑各种物质缺乏的状态下,整个翻译过程的状态变化。为真实细胞的基因表达提供理论模型。为实验做理论预测提供依据,为实验做先导,减少实验周期,提高蛋白质合成的效率,降低实验成本。
本发明涉及酵母细胞基因动态翻译产量和营养供给的关系,包括以下步骤:根据细胞发育的特征编辑细胞基因表达时间轴,电子细胞基因表达的时间轴决定某一时刻哪些基因表达,哪些基因不表达。在基因翻译的过程中通过跟踪系统中的mRNA,tRNA,核糖体的时时状态,得到细胞翻译蛋白质过程中出现的各种事件。然后通过各种事件出现的次数,计算出正确蛋白质的翻译肽链个数,早产肽链的个数以及正常结束但是包含错误匹配的肽链个数。其中核糖体向前跳跃的几率是由各种携带氨基酸的转运rna的数量决定的。无论正确匹配与否,都有一定的结合概率,只是正确匹配的概率大,错误匹配的概率低。整个过程就是用概率控制。根据总初始化速度和总延伸速度得到mRNA初始化和核糖体延伸总的概率;根据事件概率的权重,随机选择一个事件进行反应;反应结束后,更新细胞状态;本发明假设细胞处于比较稳定的状态,在考虑正确翻译的同时考虑了错误翻译的可能性
本发明包括以下步骤:基因翻译生物过程的抽象;相关生物问题的数学建模。
根据基因表达的生物过程进行抽象,得到基因表达的几个关键反应步骤。将核糖体翻译mRNA的过程分成初始化,延伸,结束三个步骤,其中初始化过程做了比较多的简化。整个过程都用核糖体的状态位置来标志,比如说初始化过程就是指核糖体由离散的大小亚基结合在mRNA的启动位点上;此时核糖体的位点标记成为以此类推,当延长到位点j的时候此时的核糖体就标志成自由核糖体用Rfree表示,自由的时候我们也不将核糖体大小亚基分开看,将二者看成是结合在一起的整体。上面的过程可以用形象的语言表示成小车在(核糖体)一排柱桩上(mRNA)跳跃前进,规定每次只能跳跃一步,而且需要考虑前后核糖体之间的相互阻挡效应,有了上面的抽象的翻译过程,就可以将这个翻译的过程用抽象的数学语言进行建模。
所述建模过程包括以下内容:
模型上采用完全不对称简单排除过程建模,在核糖体跳跃过程中考虑不同位点跳跃的概率不一样。这主要是基于不同位点的密码相互匹配的t_RNA的浓度不相同。不同的t_RNA的浓度导致了跳跃速度不一样。同时也考虑了反应过程中错误翻译的可能性。在不同的实际情况下这个值会有变化。一旦翻译错误,我们将对错误的情况做简化的处理:如果一个核糖体催化了错误的肽键,那么将按照一定的几率导致这个肽链的早产。
本发明为实现上述目的所采用的技术方案是:基因翻译过程建模方法,包括以下步骤:
整理出基因表达的特性,将整个翻译过程分解成关键的几个步骤:
1翻译起始
翻译中的起始过程基本相同:都先由fmet-tRNA、待翻译mRNA和核糖体组成翻译起始复合物(translation initiation complex)。
2肽链延伸
翻译起始后,核糖体沿mRNA链由5'端朝3'端移动。从起始密码子处开始,核糖体利用具有与当前正在翻译的密码子相对应的反密码子的氨酰-tRNA携带的氨基酸合成肽链。核糖体每翻译一个三联体密码子就为延伸中的肽链的C端添加一分子氨基酸,其自身也同时顺着mRNA单向移动一段距离。肽链延伸阶段是一个不断循环进行的过程(直至核糖体到达终止密码子处)。该阶段可再细分为进位、成肽和移位三个步骤。根据核糖体A位内mRNA部分密码子的引导,具有对应反密码子的氨基酰-tRNA进入A位的步骤,称为“进位”。真核翻译中,氨基酰-tRNA由eEF-1以复合成氨基酰-tRNA·eEF-1·GTP三元复合物的形式带入核糖体的A位。GTP水解后,eEF-1·GDP离开核糖体。核糖体的肽酰转移酶催化位于核糖体P位的tRNA上运载的甲酰甲硫氨酰基或肽酰基转移到A位内刚进入核糖体的新氨基酰-tRNA转运的氨基酸上,使前者的羧基与后者的氨基之间脱水缩合形成肽键。此步骤称为“转肽”(transpeptidation)。转肽步骤完全由核糖体大亚基内的核酶催化完成。在转肽这一步骤中生成的肽酰-tRNA将占据核糖体A位,而P位中刚卸载甲酰甲硫氨酰基或肽酰基的空载tRNA则将进入核糖体的E位。EF-G将位于核糖体A位的tRNA推入P位的步骤称为“移位”。EF-G具有转位酶活性,能催化GTP水解提供能量,推动处于核糖体A位的肽酰-tRNA,使之进入P位(同时使P位中的tRNA进入E位、并使E位的tRNA排出核糖体),核糖体也沿mRNA移动一个密码子。核糖体移位后,其A位将再次空出,为新氨基酰-tRNA进位提供空间。在肽链延伸的过程中,上述三个步骤是重复循环的。循环每完成一次,肽链的C端便加入一个氨基酸分子,直至翻译进入终止阶段。
3翻译终止
在核糖体读取至终止密码子时,翻译进入终止阶段。翻译的终止需要释放因子的参与。真核释放因子有2种。在真核翻译中,三种终止密码子都由eRF-1识别。
4核糖体再循环
核糖体再循环是核糖体参与的翻译中的最后一个过程。在该过程中,核糖体复合物发生解体,以便投入下一次使用。该过程是在核糖体再循环因子(RRF)和参与蛋白质合成过程中转位的延伸因子(EF-G)的协同作用下完成的。核糖体在其再循环过程中由RRF的结构域Ⅰ识别结合核糖体的功能。RRF的结构域Ⅱ则具有将核糖体解离为大、小亚基的能力。
将上面所诉的过程根据核糖体在mRNA上的位置进行分类就是四个状态:初始化,延伸,终止,解散。其中初始化过程相对复杂。在本方法中过程分解使用核糖体的状态和其所处的mRNA上的位置来标志,比如说初始化过程就是指核糖体由离散的大小亚基结合在mRNA的启动位点上;此时核糖体的位点标记成为以此类推,当延长到位点j的时候此时的核糖体就标志成自由核糖体用Rfree表示。上面的过程可以用形象的语言表示成小车在(核糖体)一排柱桩上(mRNA)跳跃前进,规定每次只能跳跃一步,而且需要考虑前后核糖体之间的相互阻挡的问题,有了上面的抽象的翻译过程,就可以将这个翻译的过程用抽象的数学语言进行建模。如图2所示。
本发明主要步骤如下:
1)根据物种的实验数据建立基因表达时间轴文件,即首先将时间离散化,每一个基因在每一个时间点上是否表达,相关的mRNA的数量有多少,初始化概率值有多大,根据实验结果得到包含上述内容的配置文件。基因时间轴主要包含以下信息:每一个离散的时间点,基因是否表达,如果表达,每种基因对应的mRNA数量以及每种表达的基因翻译初始化概率。
2)根据基因序列时间轴当前时间点决定哪些基因表达,哪些基因不表达,表达的基因允许初始化,不表达的基因停止初始化。核糖体和各种tRNA的数量根据mRNA数量动态变化的情况成比例变化。
3)计算mRNA分子的初始化速度;计算核糖体分子在对应mRNA上的延伸速度;根据事件的速度得到事件的概率;
4)根据事件概率的权重,采用轮盘赌的办法选择一个发生事件;在密码子反密码子配对的过程中允许发生一定的错误概率,并且每一个错误配对的事件都有一定的概率导致翻译过程的早产。
5)更新细胞中各种分子的状态;并增加一个步长,返回步骤2),直到达到设定时间为止。
6)通过累计核糖结束的次数,得到各种蛋白质的产量;
建立基因表达时间轴,根据细胞发育的实际情况将相关基因表达的时间范围确定下来,很多功能性基因并不是在所有的阶段都处于表达的状态,这些基因往往是在特定的发育阶段才处于表达状态。
根据总初始化速度和总延伸速度得到mRNA总初始化的概率和核糖体总延伸概率。通过以下公式得到:
mRNA翻译初始化事件总概率=ρt/(ρt+εt)
核糖体延伸事件总概率=εt/(ρt+εt)
其中,事件速度为ρt或εt,ρt为mRNA分子的总初始化速度,εt为核糖体分子在对应mRNA上的总延伸速度。
7)通过累计核糖结束的次数,得到各种蛋白质的产量;
如图1所示,细胞基因翻译过程的建模方法如下:
1、初始化参数:包括所有基因表达时间轴,时间轴上的时间是离散化的时间点,读取时间轴文件中的每一个时间点上基因表达的开关,以及对应时间点上每一种基因对应mrna的数量。核糖体总数,基因总数,tRNA总数,各种mRNA数量,各种tRNA数量。
时间轴文件通过实验得到,包括时间轴上的离散时间点以及每个离散时间点上各基因是否表达。
2、判断时间t是否小于模拟设定时间Tset;如果小于,则执行下一步,否则模拟结束。
3、读取新时间点上各种基因对应的mrna拷贝数量,通过和前一个时间点上mrna数量比对,发现表达情况变化的基因。最后计算当前时间点mRNA拷贝数量相对应于前一时间点上mRNA拷贝数量的变化,即使用当前时间点上mRNA的总数量除以前一个时间点上mRNA总数量,得到mRNA变化的比例系数。然后按mRNA变化的比例系数调整当前时间点上核糖体和tRNA的数量(核糖体和tRNA个数与mRNA个数为倍数关系),增加或者减少的分子(核糖体和tRNA)状态限定在自由态。根据跟踪每个mRNA,核糖体,tRNA的状态变化,更新每个状态的mRNA、核糖体和tRNA的计数,进而得到各种mRNA中可以初始化的数量;
4、计算mRNA的初始化速度:所述计算mRNA的总初始化速度通过以下公式得到:
if(M>Rf):
if(M<=Rf):
其中,ρt为所有mRNA初始化的速度,M为自由状态下的蛋氨酸数量。Rf为自由状态的核糖体,fi为某种mRNA中可以被初始化的分子数所占的百分比,Ai为某种基因对应的mRNA的数量,pi为某种基因翻译初始化概率,i为某种基因的id号,τr为核糖体的运动特征时间,Nr为核糖体空间位置数量,n为基因种类数目。
5、计算核糖体在mRNA上的延伸速度:所述计算核糖体在mRNA上的总延伸速度通过以下公式
如果反密码子k和密码子j不匹配:
如果反密码子k和密码子j匹配:
pk_j=1-pmis_based
其中,εt为所有核糖体总延伸速度,为结合在j类密码子上的核糖体的数量,为k类密码子对应的tRNA数量,ωj为j类密码子与tRNA配对的摇摆参数,s为tRNA竞争参数,j为某种密码子的id,τt为tRNA运动特征时间,Nt为tRNA空间位置数量,pmis_based为密码子错误配对导致翻译过程提前终止的概率,通过实验得到。
6、根据上述参数计算mRNA初始化和核糖体延伸的概率:
mRNA翻译初始化事件总概率=ρt/(ρt+εt)
核糖体延伸事件总概率=εt/(ρt+εt)
根据事件概率的权重,采用轮盘赌的方法随机选择一个事件进行反应(如:翻译起始和肽链延伸反应);反应结束后,更新细胞状态。
7、时间增加一个步长:
返回判断时间t是否小于模拟设定时间Tset。
所述分子错误机制——每次延伸过程都考虑错误可能,一旦出现匹配错误的tRNA,将导致相关核糖体过早结束延伸过程,密码错误配对导致的早产比例请看图3。
错误的蛋白质会扰乱细胞正常的功能,对生物是有害的,如果错误的蛋白质不能马上分解,还会浪费本来已经非常缺乏的物质。但是生物的进化显然不会任这种情况发生,细胞进化出来了一套监察机制,错误翻译提前释放就是其中一个措施。
Claims (5)
1.一种细胞基因翻译过程建模方法,其特征在于包括以下步骤:
1)根据物种的实验数据得到每一个基因在每一个离散时间点该基因是否表达;
2)查询每个离散时间点的基因,如果基因表达,则初始化;否则不进行初始化;
3)通过各时间点上各基因对应的mRNA拷贝数量与前一个时间点上mRNA数量对比得到各种mRNA中初始化的数量;
4)计算mRNA分子的总初始化速度;计算核糖体分子在对应mRNA上的总延伸速度;根据总初始化速度和总延伸速度得到事件的概率;
5)根据事件概率的权重,随机选择一个事件进行反应;
6)更新各种分子的状态;并增加一个步长,返回步骤2),直到达到设定时间为止。
2.根据权利要求1所述的一种细胞基因翻译过程建模方法,其特征在于所述通过各时间点上各基因对应的mRNA拷贝数量与前一个时间点上mRNA数量对比得到各种mRNA中初始化的数量包括以下步骤:
读取各时间点上各种基因对应的mRNA拷贝数量,与前一个时间点上mRNA数量对比,得到表达变化的基因,进而得到mRNA变化的比例系数;
根据mRNA变化的比例系数调整核糖体和tRNA的数量,表达变化的核糖体和tRNA状态限定在自由状态;
跟踪每个mRNA分子的状态,更新mRNA、核糖体和tRNA的个数,得到各种mRNA中初始化的数量。
3.根据权利要求1所述的一种细胞基因翻译过程建模方法,其特征在于所述计算mRNA分子的总初始化速度通过以下公式得到:
其中,ρt为所有mRNA初始化的速度,M为自由状态下的蛋氨酸数量,Rf为自由状态的核糖体,fi为某种mRNA中被初始化的分子数所占的百分比,Ai为某种基因对应的mRNA的数量,pi为某种基因的初始化概率,i为某种基因的id号,τr为核糖体的运动特征时间,Nr为核糖体空间位置数量,n为基因种类数目。
4.根据权利要求1所述的细胞基因翻译过程建模方法,其特征在于所述计算核糖体分子在对应mRNA上的总延伸速度通过以下公式得到:
如果反密码子k和密码子j不匹配:
如果反密码子k和密码子j匹配:
pk_j=1-pmis_based
其中,εt为所有核糖体延伸速度,为结合在j类密码子上的核糖体的数量,为k类密码子对应的tRNA数量,ωj为j类密码子摇摆参数,s为tRNA竞争参数,j为某种密码子的id,τt为tRNA运动特征时间,Nt为tRNA空间位置数量;pmis_based为密码子错误配对导致翻译过程提前终止的概率。
5.根据权利要求1所述的细胞基因翻译过程建模方法,其特征在于所述根据总初始化速度和总延伸速度得到事件的概率通过以下公式得到:
总的概率=事件速度/(ρt+εt)
其中,事件速度为ρt或εt,ρt为mRNA分子的总初始化速度,εt为核糖体分子在对应mRNA上的总延伸速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510933552.2A CN106897578B (zh) | 2015-12-15 | 2015-12-15 | 一种细胞基因翻译过程建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510933552.2A CN106897578B (zh) | 2015-12-15 | 2015-12-15 | 一种细胞基因翻译过程建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106897578A true CN106897578A (zh) | 2017-06-27 |
CN106897578B CN106897578B (zh) | 2020-02-14 |
Family
ID=59188015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510933552.2A Expired - Fee Related CN106897578B (zh) | 2015-12-15 | 2015-12-15 | 一种细胞基因翻译过程建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897578B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1167151A (zh) * | 1997-04-02 | 1997-12-10 | 中国科学院上海生物化学研究所 | 一种外源基因在大肠杆菌中相对翻译起始率的判定方法 |
CN101353372A (zh) * | 2008-08-04 | 2009-01-28 | 林峻 | 一种新型蛋白质分子定向进化方法 |
WO2013011479A3 (en) * | 2011-07-19 | 2013-03-14 | Koninklijke Philips Electronics N.V. | Assessment of cellular signaling pathway activity using probabilistic modeling of target gene expression |
-
2015
- 2015-12-15 CN CN201510933552.2A patent/CN106897578B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1167151A (zh) * | 1997-04-02 | 1997-12-10 | 中国科学院上海生物化学研究所 | 一种外源基因在大肠杆菌中相对翻译起始率的判定方法 |
CN101353372A (zh) * | 2008-08-04 | 2009-01-28 | 林峻 | 一种新型蛋白质分子定向进化方法 |
WO2013011479A3 (en) * | 2011-07-19 | 2013-03-14 | Koninklijke Philips Electronics N.V. | Assessment of cellular signaling pathway activity using probabilistic modeling of target gene expression |
Also Published As
Publication number | Publication date |
---|---|
CN106897578B (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mowbray et al. | Machine learning for biochemical engineering: A review | |
US11887696B2 (en) | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network | |
Williams et al. | Phenotypic landscape inference reveals multiple evolutionary paths to C4 photosynthesis | |
CA2894317C (en) | Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network | |
Zomaya et al. | Biomolecular networks: methods and applications in systems biology | |
Dai et al. | Sequence2vec: a novel embedding approach for modeling transcription factor binding affinity landscape | |
Erfanian et al. | Deep learning applications in single-cell genomics and transcriptomics data analysis | |
Zheng et al. | Emerging deep learning methods for single-cell RNA-seq data analysis | |
US20240055078A1 (en) | Artificial Intelligence-Based Many-To-Many Base Calling | |
Liñares Blanco et al. | Differential gene expression analysis of RNA-seq data using machine learning for Cancer research | |
Cruz et al. | Hybrid computational modeling methods for systems biology | |
Szymanski et al. | Models for DNA design tools: The trouble with metaphors is that they don’t go away | |
CN106897578B (zh) | 一种细胞基因翻译过程建模方法 | |
Schliep et al. | The general hidden markov model library: Analyzing systems with unobservable states | |
Rawool et al. | Steady state approach to model gene regulatory networks—Simulation of microarray experiments | |
CN105760707A (zh) | 细胞基因翻译过程建模方法 | |
Wong | The practical bioinformatician | |
Hirai et al. | Using metabolome data for mathematical modeling of plant metabolic systems | |
Sofi et al. | Decoding life: Genetics, bioinformatics, and artificial intelligence | |
T Magalhães et al. | Computational resources and strategies to assess single-molecule dynamics of the translation process in S. cerevisiae | |
Jurado et al. | A chemical reaction network model of PURE | |
Casali et al. | Rethinking the role of chance in the explanation of cell differentiation | |
Jha | Assembling the Building Blocks for a Unified Splicing Code | |
Umasekar et al. | Advances in modeling techniques for the production and purification of biomolecules: A comprehensive review | |
Vilkhovoy et al. | Toward genome scale modeling of escherichia coli cell-free protein synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200214 |