CN106897578A

CN106897578A - 一种细胞基因翻译过程建模方法

Info

Publication number: CN106897578A
Application number: CN201510933552.2A
Authority: CN
Inventors: 李国辉; 张鼎林; 赵然
Original assignee: Dalian Institute of Chemical Physics of CAS
Current assignee: Dalian Institute of Chemical Physics of CAS
Priority date: 2015-12-15
Filing date: 2015-12-15
Publication date: 2017-06-27
Anticipated expiration: 2035-12-15
Also published as: CN106897578B

Abstract

本发明涉及一种细胞基因翻译过程建模方法，包括以下步骤：根据物种的实验数据得到每一个基因在每一个离散时间点该基因是否表达；查询每个离散时间点的基因，如果基因表达，则初始化；否则不进行初始化；通过各时间点上各基因对应的mRNA拷贝数量与前一个时间点上mRNA数量对比得到各种mRNA中初始化的数量；计算mRNA分子的总初始化速度；计算核糖体分子在对应mRNA上的总延伸速度；根据总初始化速度和总延伸速度得到事件的概率；根据事件概率的权重，随机选择一个事件；更新各种分子的状态。本发明采用基于完全不对称简单排斥过程的原理，同时考虑基因的表达动态变化，使得翻译过程呈现出时间序列特征，更接近细胞发育的本质，适合研究细胞动态发育性质。

Description

一种细胞基因翻译过程建模方法

技术领域

本发明涉及一种酿酒酵母菌基因动态翻译过程建模的方法，属于生物信息技术、计算方法与计算机虚拟现实技术。

背景技术

细胞的新陈代谢、生长和分化等许多基本的生命现象都受到细胞内基因表达的控制，而基因的这种调控作用则是通过其相应的基因产物来实现的。蛋白质是最重要的基因产物之一，因此其合成也是细胞内最基本和最关键的反应之一。越来越多的实验证据表明，蛋白质的正常翻译对细胞维持正常功能起到关键至关重要的作用。正常的细胞不能忍受基因翻译过程中的严重错误。在细胞的一个生命周期，基因的表达式有序进行的，什么阶段需要表达哪些基因是受到细胞自身以及外界环境共同决定的。一般来说，细胞内因起主导作用。这个过程可以用基因表达的时间序列来描述。在生物试验中已经有很多相关的研究。基因调控网络是一个连续而复杂的动态系统,基因间的调控是随时间、环境变化的动态事件,基因组DNA微阵列为研究者提供了较好的认识调控网络的工具。时间序列基因表达数据包含着丰富的基因调控信息,可以想象,位于基因调控网络上游基因的变化,理应处于下游基因的前面。当上游基因(比如转录因子TF)的表达发生变化以后,这种变化会沿着基因调控网络传播。当测量了每个基因在不同时间的表达水平以后,就能从这种时间序列数据中反推得到关于基因之间调控顺序以及调控对象的重要信息。一般认为,时间序列基因表达数据与同样大小的静态基因表达数据相比,含有更大的推导基因调控网络的信息量。时间序列表达实验是在不同的时间点对细胞周期以及特定状态条件下的基因表达进行测定，比如基因敲除实验,疫苗暴露实验,细胞有丝分裂周期实验等,以观测各个时间点上或细胞周期中基因表达的变化情况,寻找调控基因和目标基因。它和一般静态表达实验的主要区别有两点:一是静态表达实验是对不同样本在同一时间点上的测量,而时间序列表达实验则是对同一样本在几个时间点进行连续测量；二是时间序列表达实验的测量值在连续的时间点上有较强的自相关,而静态表达实验要求样本的测量值服从独立同分布的条件。

细胞内蛋白质的翻译一般被分为三步：起始、延伸和终止。其中负责基因翻译的关键物质是核糖体。

真核细胞基因翻译过程建模方法主要有二种：

第一类是基于微分方程组的方法。按照核糖体的结合位点将核糖体分成若干种类——自由核糖体，结合在位点1上的核糖体，结合在位点2上的核糖体,…,结合在位点n上的核糖体，…,最后一个位点上的核糖体。然后针对核糖体的每个状态浓度的变化情况写出化学反应对应的关系，然后针对上步写出来的化学反应关系，得到每个状态浓度变化的微分方程式。这种方法是生物建模最常用的方法之一。因为蛋白质合成由一系列标准的生化反应,这种方法在原则上是可行的。然而,由于伸长的周期性和多个伸长过程可以发生在一个模板,因此这个过程不像大多数其他酶系统那么简单，而且整个过程会发生占位堵塞效应，因此使用单纯的微分方程组建模不容易反应翻译过程的动态的细节，而且在营养供应发生变化的情况下，相关的参数也会有变化，因此相关的参数不好估计。

第二类是基于TASEP理论的。这类理论被称为“完全不对称的排除过程”或TASEP，是统计方法后续发展,。TASEP的早期版本的特征包括核糖体无限供应的假设,核糖体有统一的沿着mRNA伸长的速率常数,和一个粗粒度的伸长过程,这个过程常被称为跳跃模型。扩展的TASEP允许核糖体在中途退出，这在一定程度上更能反映真实情况。同时核糖体以及转运rna也不是无限供应的，这种在物质上有限制的模型在本质上更接近真实细胞的生理过程。毕竟真实环境下的物质供应都是有一定的限制的。同第二类一样这个模型只是一个基因表达的一个静态模型，事实上，细胞在生长发育的过程中基因表达式动态关闭打开的。相关的表达强度也是随时间不断变化的。因此静态的模型不能更真实的反应实际的蛋白质翻译过程。

发明内容

本发明解决其技术问题所采用的技术方案是：一种细胞基因翻译过程建模方法，包括以下步骤：

1)根据物种的实验数据得到每一个基因在每一个离散时间点该基因是否表达；

2)查询每个离散时间点的基因，如果基因表达，则初始化；否则不进行初始化；

3)通过各时间点上各基因对应的mRNA拷贝数量与前一个时间点上mRNA数量对比得到各种mRNA中初始化的数量；

4)计算mRNA分子的总初始化速度；计算核糖体分子在对应mRNA上的总延伸速度；根据总初始化速度和总延伸速度得到事件的概率；

5)根据事件概率的权重，随机选择一个事件进行反应；

6)更新各种分子的状态；并增加一个步长，返回步骤2)，直到达到设定时间为止。

所述通过各时间点上各基因对应的mRNA拷贝数量与前一个时间点上mRNA数量对比得到各种mRNA中初始化的数量包括以下步骤：

读取各时间点上各种基因对应的mRNA拷贝数量，与前一个时间点上mRNA数量对比，得到表达变化的基因，进而得到mRNA变化的比例系数；

根据mRNA变化的比例系数调整核糖体和tRNA的数量，表达变化的核糖体和tRNA状态限定在自由状态；

跟踪每个mRNA分子的状态，更新mRNA、核糖体和tRNA的个数，得到各种mRNA中初始化的数量。

所述计算mRNA分子的总初始化速度通过以下公式得到：

if(M＞R^f):

if(M＜＝R^f):

其中，ρ^t为所有mRNA初始化的速度，M为自由状态下的蛋氨酸数量，R^f为自由状态的核糖体，f_i为某种mRNA中被初始化的分子数所占的百分比，A_i为某种基因对应的mRNA的数量，p_i为某种基因的初始化概率，i为某种基因的id号，τ_r为核糖体的运动特征时间，N_r为核糖体空间位置数量，n为基因种类数目。

所述计算核糖体分子在对应mRNA上的总延伸速度通过以下公式得到：

如果反密码子k和密码子j不匹配:

如果反密码子k和密码子j匹配:

p_{k_j}＝1-p_{mis_based}

其中，ε^t为所有核糖体延伸速度，为结合在j类密码子上的核糖体的数量，为k类密码子对应的tRNA数量，ω_j为j类密码子摇摆参数，s为tRNA竞争参数，j为某种密码子的id，τ_t为tRNA运动特征时间，N_t为tRNA空间位置数量；p_{mis_based}为密码子错误配对导致翻译过程提前终止的概率。

所述根据总初始化速度和总延伸速度得到事件的概率通过以下公式得到：

总的概率＝事件速度/(ρ^t+ε^t)

其中，事件速度为ρ^t或ε^t，ρ^t为mRNA分子的总初始化速度，ε^t为核糖体分子在对应mRNA上的总延伸速度：

本发明具有以下有益效果及优点：

1.本发明采用基于完全不对称简单排斥过程的原理，同时考虑基因的表达动态变化，使得翻译过程呈现出时间序列特征，更接近细胞发育的本质，适合研究细胞动态发育性质。

2.在模型中将错误的翻译参数化，使得本模型可以针对不同的营养供给环境蛋白质翻译的特点，比如蛋白质的产量，正确翻译的速率，错误翻译的速率，正确翻译的比例等等。

3.细胞蛋白质表达过程是细胞生命的核心，蛋白质表达准确建模可以为电子细胞提供更可靠的性能，为数字医疗和个性化医疗提交基础。

4.对实验方面，以及有效的降低实验的盲目性，提高实验的效率。为更复杂的细胞模拟提供了一个方向。

附图说明

图1是本发明的方法流程图；

图2是核糖体循环的示意图；

图3是核糖体因为密码子错配导致提前释放的示意图；

具体实施方式

下面结合附图对本发明做详细说明。

我们现在关注更高的一个层次：根据表达基因时间序列来考察单细胞发育过程中蛋白质合成的特征。就应用角度来说，这个模型更靠近真实细胞的发育情况，模拟的结果是一个动态的结果。相对来说以前研究的更为片面，静态。当然生物过程是非常复杂的，我们目前只能在表面上模拟细胞蛋白表达的行为过程。更本质的问题，比如基因表达的时间序列的驱动力我们还没有涉及。

本发明在TASEP模型的基础上，结合了基因表达时间序列以及翻译过程中出错的可能性。目的是分析在细胞生长发育的一生中，蛋白质翻译过程中的速度，考察翻译速度和自由核糖体以及结合状态核糖体数量的变化，考虑各种物质缺乏的状态下，整个翻译过程的状态变化。为真实细胞的基因表达提供理论模型。为实验做理论预测提供依据，为实验做先导，减少实验周期，提高蛋白质合成的效率，降低实验成本。

本发明涉及酵母细胞基因动态翻译产量和营养供给的关系，包括以下步骤：根据细胞发育的特征编辑细胞基因表达时间轴，电子细胞基因表达的时间轴决定某一时刻哪些基因表达，哪些基因不表达。在基因翻译的过程中通过跟踪系统中的mRNA，tRNA，核糖体的时时状态，得到细胞翻译蛋白质过程中出现的各种事件。然后通过各种事件出现的次数，计算出正确蛋白质的翻译肽链个数，早产肽链的个数以及正常结束但是包含错误匹配的肽链个数。其中核糖体向前跳跃的几率是由各种携带氨基酸的转运rna的数量决定的。无论正确匹配与否，都有一定的结合概率，只是正确匹配的概率大，错误匹配的概率低。整个过程就是用概率控制。根据总初始化速度和总延伸速度得到mRNA初始化和核糖体延伸总的概率；根据事件概率的权重，随机选择一个事件进行反应；反应结束后，更新细胞状态；本发明假设细胞处于比较稳定的状态，在考虑正确翻译的同时考虑了错误翻译的可能性

本发明包括以下步骤：基因翻译生物过程的抽象；相关生物问题的数学建模。

根据基因表达的生物过程进行抽象，得到基因表达的几个关键反应步骤。将核糖体翻译mRNA的过程分成初始化，延伸，结束三个步骤，其中初始化过程做了比较多的简化。整个过程都用核糖体的状态位置来标志，比如说初始化过程就是指核糖体由离散的大小亚基结合在mRNA的启动位点上；此时核糖体的位点标记成为以此类推，当延长到位点j的时候此时的核糖体就标志成自由核糖体用R^free表示，自由的时候我们也不将核糖体大小亚基分开看，将二者看成是结合在一起的整体。上面的过程可以用形象的语言表示成小车在(核糖体)一排柱桩上(mRNA)跳跃前进，规定每次只能跳跃一步，而且需要考虑前后核糖体之间的相互阻挡效应，有了上面的抽象的翻译过程，就可以将这个翻译的过程用抽象的数学语言进行建模。

所述建模过程包括以下内容：

模型上采用完全不对称简单排除过程建模，在核糖体跳跃过程中考虑不同位点跳跃的概率不一样。这主要是基于不同位点的密码相互匹配的t_RNA的浓度不相同。不同的t_RNA的浓度导致了跳跃速度不一样。同时也考虑了反应过程中错误翻译的可能性。在不同的实际情况下这个值会有变化。一旦翻译错误，我们将对错误的情况做简化的处理：如果一个核糖体催化了错误的肽键，那么将按照一定的几率导致这个肽链的早产。

本发明为实现上述目的所采用的技术方案是：基因翻译过程建模方法，包括以下步骤：

整理出基因表达的特性，将整个翻译过程分解成关键的几个步骤：

1翻译起始

翻译中的起始过程基本相同：都先由fmet-tRNA、待翻译mRNA和核糖体组成翻译起始复合物(translation initiation complex)。

2肽链延伸

翻译起始后，核糖体沿mRNA链由5'端朝3'端移动。从起始密码子处开始，核糖体利用具有与当前正在翻译的密码子相对应的反密码子的氨酰-tRNA携带的氨基酸合成肽链。核糖体每翻译一个三联体密码子就为延伸中的肽链的C端添加一分子氨基酸，其自身也同时顺着mRNA单向移动一段距离。肽链延伸阶段是一个不断循环进行的过程(直至核糖体到达终止密码子处)。该阶段可再细分为进位、成肽和移位三个步骤。根据核糖体A位内mRNA部分密码子的引导，具有对应反密码子的氨基酰-tRNA进入A位的步骤，称为“进位”。真核翻译中，氨基酰-tRNA由eEF-1以复合成氨基酰-tRNA·eEF-1·GTP三元复合物的形式带入核糖体的A位。GTP水解后，eEF-1·GDP离开核糖体。核糖体的肽酰转移酶催化位于核糖体P位的tRNA上运载的甲酰甲硫氨酰基或肽酰基转移到A位内刚进入核糖体的新氨基酰-tRNA转运的氨基酸上，使前者的羧基与后者的氨基之间脱水缩合形成肽键。此步骤称为“转肽”(transpeptidation)。转肽步骤完全由核糖体大亚基内的核酶催化完成。在转肽这一步骤中生成的肽酰-tRNA将占据核糖体A位，而P位中刚卸载甲酰甲硫氨酰基或肽酰基的空载tRNA则将进入核糖体的E位。EF-G将位于核糖体A位的tRNA推入P位的步骤称为“移位”。EF-G具有转位酶活性，能催化GTP水解提供能量，推动处于核糖体A位的肽酰-tRNA，使之进入P位(同时使P位中的tRNA进入E位、并使E位的tRNA排出核糖体)，核糖体也沿mRNA移动一个密码子。核糖体移位后，其A位将再次空出，为新氨基酰-tRNA进位提供空间。在肽链延伸的过程中，上述三个步骤是重复循环的。循环每完成一次，肽链的C端便加入一个氨基酸分子，直至翻译进入终止阶段。

3翻译终止

在核糖体读取至终止密码子时，翻译进入终止阶段。翻译的终止需要释放因子的参与。真核释放因子有2种。在真核翻译中，三种终止密码子都由eRF-1识别。

4核糖体再循环

核糖体再循环是核糖体参与的翻译中的最后一个过程。在该过程中，核糖体复合物发生解体，以便投入下一次使用。该过程是在核糖体再循环因子(RRF)和参与蛋白质合成过程中转位的延伸因子(EF-G)的协同作用下完成的。核糖体在其再循环过程中由RRF的结构域Ⅰ识别结合核糖体的功能。RRF的结构域Ⅱ则具有将核糖体解离为大、小亚基的能力。

将上面所诉的过程根据核糖体在mRNA上的位置进行分类就是四个状态：初始化，延伸，终止，解散。其中初始化过程相对复杂。在本方法中过程分解使用核糖体的状态和其所处的mRNA上的位置来标志，比如说初始化过程就是指核糖体由离散的大小亚基结合在mRNA的启动位点上；此时核糖体的位点标记成为以此类推，当延长到位点j的时候此时的核糖体就标志成自由核糖体用R^free表示。上面的过程可以用形象的语言表示成小车在(核糖体)一排柱桩上(mRNA)跳跃前进，规定每次只能跳跃一步，而且需要考虑前后核糖体之间的相互阻挡的问题，有了上面的抽象的翻译过程，就可以将这个翻译的过程用抽象的数学语言进行建模。如图2所示。

本发明主要步骤如下：

1)根据物种的实验数据建立基因表达时间轴文件，即首先将时间离散化，每一个基因在每一个时间点上是否表达，相关的mRNA的数量有多少，初始化概率值有多大，根据实验结果得到包含上述内容的配置文件。基因时间轴主要包含以下信息：每一个离散的时间点，基因是否表达，如果表达，每种基因对应的mRNA数量以及每种表达的基因翻译初始化概率。

2)根据基因序列时间轴当前时间点决定哪些基因表达，哪些基因不表达，表达的基因允许初始化，不表达的基因停止初始化。核糖体和各种tRNA的数量根据mRNA数量动态变化的情况成比例变化。

3)计算mRNA分子的初始化速度；计算核糖体分子在对应mRNA上的延伸速度；根据事件的速度得到事件的概率；

4)根据事件概率的权重，采用轮盘赌的办法选择一个发生事件；在密码子反密码子配对的过程中允许发生一定的错误概率，并且每一个错误配对的事件都有一定的概率导致翻译过程的早产。

5)更新细胞中各种分子的状态；并增加一个步长，返回步骤2)，直到达到设定时间为止。

6)通过累计核糖结束的次数，得到各种蛋白质的产量；

建立基因表达时间轴，根据细胞发育的实际情况将相关基因表达的时间范围确定下来，很多功能性基因并不是在所有的阶段都处于表达的状态，这些基因往往是在特定的发育阶段才处于表达状态。

根据总初始化速度和总延伸速度得到mRNA总初始化的概率和核糖体总延伸概率。通过以下公式得到：

mRNA翻译初始化事件总概率＝ρ^t/(ρ^t+ε^t)

核糖体延伸事件总概率＝ε^t/(ρ^t+ε^t)

其中，事件速度为ρ^t或ε^t，ρ^t为mRNA分子的总初始化速度，ε^t为核糖体分子在对应mRNA上的总延伸速度。

7)通过累计核糖结束的次数，得到各种蛋白质的产量；

如图1所示，细胞基因翻译过程的建模方法如下：

1、初始化参数：包括所有基因表达时间轴，时间轴上的时间是离散化的时间点，读取时间轴文件中的每一个时间点上基因表达的开关，以及对应时间点上每一种基因对应mrna的数量。核糖体总数，基因总数，tRNA总数，各种mRNA数量，各种tRNA数量。

时间轴文件通过实验得到，包括时间轴上的离散时间点以及每个离散时间点上各基因是否表达。

2、判断时间t是否小于模拟设定时间T_set；如果小于，则执行下一步，否则模拟结束。

3、读取新时间点上各种基因对应的mrna拷贝数量，通过和前一个时间点上mrna数量比对，发现表达情况变化的基因。最后计算当前时间点mRNA拷贝数量相对应于前一时间点上mRNA拷贝数量的变化，即使用当前时间点上mRNA的总数量除以前一个时间点上mRNA总数量，得到mRNA变化的比例系数。然后按mRNA变化的比例系数调整当前时间点上核糖体和tRNA的数量(核糖体和tRNA个数与mRNA个数为倍数关系)，增加或者减少的分子(核糖体和tRNA)状态限定在自由态。根据跟踪每个mRNA，核糖体，tRNA的状态变化，更新每个状态的mRNA、核糖体和tRNA的计数，进而得到各种mRNA中可以初始化的数量；

4、计算mRNA的初始化速度:所述计算mRNA的总初始化速度通过以下公式得到：

if(M＞R^f):

if(M＜＝R^f):

其中，ρ^t为所有mRNA初始化的速度，M为自由状态下的蛋氨酸数量。R^f为自由状态的核糖体，f_i为某种mRNA中可以被初始化的分子数所占的百分比，A_i为某种基因对应的mRNA的数量，p_i为某种基因翻译初始化概率，i为某种基因的id号，τ_r为核糖体的运动特征时间，N_r为核糖体空间位置数量，n为基因种类数目。

5、计算核糖体在mRNA上的延伸速度：所述计算核糖体在mRNA上的总延伸速度通过以下公式

如果反密码子k和密码子j不匹配:

如果反密码子k和密码子j匹配:

p_{k_j}＝1-p_{mis_based}

其中，ε^t为所有核糖体总延伸速度，为结合在j类密码子上的核糖体的数量，为k类密码子对应的tRNA数量，ω_j为j类密码子与tRNA配对的摇摆参数，s为tRNA竞争参数，j为某种密码子的id，τ_t为tRNA运动特征时间，N_t为tRNA空间位置数量，p_{mis_based}为密码子错误配对导致翻译过程提前终止的概率，通过实验得到。

6、根据上述参数计算mRNA初始化和核糖体延伸的概率：

mRNA翻译初始化事件总概率＝ρ^t/(ρ^t+ε^t)

核糖体延伸事件总概率＝ε^t/(ρ^t+ε^t)

根据事件概率的权重，采用轮盘赌的方法随机选择一个事件进行反应(如：翻译起始和肽链延伸反应)；反应结束后，更新细胞状态。

7、时间增加一个步长：

返回判断时间t是否小于模拟设定时间T_set。

所述分子错误机制——每次延伸过程都考虑错误可能，一旦出现匹配错误的tRNA，将导致相关核糖体过早结束延伸过程，密码错误配对导致的早产比例请看图3。

错误的蛋白质会扰乱细胞正常的功能，对生物是有害的，如果错误的蛋白质不能马上分解，还会浪费本来已经非常缺乏的物质。但是生物的进化显然不会任这种情况发生，细胞进化出来了一套监察机制，错误翻译提前释放就是其中一个措施。

Claims

1.一种细胞基因翻译过程建模方法，其特征在于包括以下步骤：

5)根据事件概率的权重，随机选择一个事件进行反应；

2.根据权利要求1所述的一种细胞基因翻译过程建模方法，其特征在于所述通过各时间点上各基因对应的mRNA拷贝数量与前一个时间点上mRNA数量对比得到各种mRNA中初始化的数量包括以下步骤：

3.根据权利要求1所述的一种细胞基因翻译过程建模方法，其特征在于所述计算mRNA分子的总初始化速度通过以下公式得到：

i f (M > R^{f}) : ρ^{t} = Σ_{i = 1}^{n} \frac{R^{f} f_{i} A_{i} p_{i}}{τ_{r} N_{r}}

i f (M < = R^{f}) : ρ^{t} = Σ_{i = 1}^{n} \frac{{Mf}_{i} A_{i} p_{i}}{τ_{r} N_{r}}

4.根据权利要求1所述的细胞基因翻译过程建模方法，其特征在于所述计算核糖体分子在对应mRNA上的总延伸速度通过以下公式得到：

ϵ^{t} = Σ_{j = 1}^{61} \frac{R_{j}^{b} C_{j}^{f} ω_{j} s}{τ_{t} N_{t}}

C_{j}^{f} = Σ_{k = 1}^{61} p_{k_j} \times T_{k}^{f}

如果反密码子k和密码子j不匹配:

p_{k_j} = \frac{p_{m i s_b a s e d}}{61}

如果反密码子k和密码子j匹配:

p_{k_j}＝1-p_{mis_based}

5.根据权利要求1所述的细胞基因翻译过程建模方法，其特征在于所述根据总初始化速度和总延伸速度得到事件的概率通过以下公式得到：

总的概率＝事件速度/(ρ^t+ε^t)