CN108363904A

CN108363904A - 一种用于木本植物遗传密码子优化的CodonNX系统及其优化方法

Info

Publication number: CN108363904A
Application number: CN201810123433.4A
Authority: CN
Inventors: 续晨; 诸葛强; 宫新栋; 魏辉; 王立科; 尹佟明
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2018-08-03
Anticipated expiration: 2038-02-07
Also published as: CN108363904B

Abstract

本发明公开了一种用于木本植物遗传密码子优化的CodonNX系统及其优化方法，该系统包括输入模块、处理模块、输出模块；其中，输入模块用于用户输入基因序列和密码子使用频率排序表，并选定具体处理模式；处理模块用于接收输入的密码子信息内容、密码子使用频率排序表信息内容，并依据用户选择的处理模式，进行有效处理，并通过输出模块，输出对应的结果。本CodonNX系统提供了完备的可发展的全系统基因优化功能，提高工作效率，节省成本，系统的参数可选择，尤其是最优密码子可选择，几乎所有参数都公开、透明、可选择，并且可以由用户自己进行设置。该系统适合植物表达载体平台，针对性较强，经试验验证，在转基因植株中能得到高表达蛋白。

Description

一种用于木本植物遗传密码子优化的CodonNX系统及其优化方法

技术领域

本发明属于基因工程技术领域，具体涉及一种用于木本植物遗传密码子优化的CodonNX系统及其优化方法。

背景技术

生物技术的核心能力是使细胞产生本身不能合成的蛋白质。这些蛋白质本身可能很有用，例如可以治疗疾病或是作为工业催化剂。他们可使细胞产生新的化合物或与其他细胞相互作用。这些异源蛋白其序列一定是有宿主细胞来指导并进行翻译的氨基酸序列。合成生物学家对未来的展望是通过合成新的全新的基因，导入宿主细胞，通过合理设计和挖掘新陈代谢途径表达全新的蛋白。在设计过程中最值得关注的一个方面，就是DNA编码序列的设计，这是合成生物学的中心，这是因为遗传密码会直接选择要编码任何蛋白质的DNA序列。同时除了需要DNA序列外，还要确保有足够的mRNA合成，并且密码子选择不能限制了表达。

随着基因测序数据的不断增长，即使未知物理定位的序列也可以通过快速扩增得到的基因，目前的技术已经可以非常方便的通过构建cDNA文库或是PCR扩增克隆获得外源基因。然后这些基因都会做一些简单的改造，例如增加酶切位点便于载体构建，而基因改造的更大的原因是异源基因的表达量很少，甚至所表达的基因来自于该宿主本身，也会出现表达较少的现象。

尽管目前已经做了很多的研究，但是异源表达基因的设计并没有一个统一而可靠的原则。这主要的原因有以下两点：(1)基因的人工合成也仅仅是这几年开始开始成本下降后而开始广泛的应用，以前只能使用定点突变或随机突变来进行研究。所以基因设计参数和实际表达水平之间系统严格的对照实验并没有实际研究。(2)蛋白质合成是一个复杂的生物过程，可能由特定宿主变量和环境条件等基因序列的多个属性决定。

将特定的外源基因构建在植物表达载体中并转入受体植物，并不是植物遗传转化的最终目的。理想的转基因植物往往需要外源基因在特定部位和特定时间内高水平表达，产生人们期望的表型性状。然而，近二十年的发展历史却表明，外源基因在受体植物内往往会出现表达效率低、表达产物不稳定甚至基因失活或沉默等不良现象，导致转基因植物无法投入实际应用。

在基因表达研究中，研究者比较注意选择合适的表达载体和宿主系统，而往往忽视基因本身是否与载体和宿主系统为最佳匹配这样一个实质性问题。基因的最佳化表达可以通过对基因的重新设计和合成来实现，如消除稀有密码子而利用最佳化密码子，二级结构最小化，调整GC含量等。

迄今，科学家仍在思索是什么进化压力导致了密码子使用偏性。每种生物内同义密码子之间的突变-选择平衡至少可部分解释基因组GC含量对密码子分布的影响及密码子使用形式的改变。一些研究者推断，旨在减少同工tRNAs多样性的密码子偏性能够降低新陈代谢负荷，因此，有利于生物在快速生长条件下节约部分能量。不管是什么原因导致了密码子偏性，已日益清楚的是密码子偏性对异源蛋白表达有深远的影响。

遗传密码有64种，但是绝大多数生物倾向于利用这些密码子中的一部分。那些被最频繁利用的称为最佳密码子(optimal codons)，那些不被经常利用的称为稀有或利用率低的密码子(rare or low-usage codons)。实际上用做蛋白表达或生产的每种生物(包括大肠杆菌，酵母，哺乳动物细胞，Pichia，植物细胞和昆虫细胞)都表现出某种程度的密码子利用的差异或偏爱。大肠杆菌、酵母、果蝇、灵长类等每种生物都有独特的8个密码子极少被利用。有趣的是，灵长类和酵母有6个同样的利用率低的密码子。大肠杆菌、酵母和果蝇中编码丰度高的蛋白质的基因明显避免低利用率的密码子。因此，重组蛋白的表达可能受密码子利用的影响(尤其在异源表达系统中)的事实并不很奇怪。你的基因利用的密码子可能不是你正在利用的蛋白生产系统进行高水平表达所偏爱的密码子，这种情况是可能的。利用偏爱密码子(preferred codons)并避免利用率低的或稀有的密码子可以合成基因，基因的这种重新设计叫密码子最佳化。

在同源表达系统中，同较低水平表达的基因相比，较高表达的基因可能有很不同的密码子偏爱。通过对密码子利用的归类分析，人们可以真正预测任何基因在酵母中的表达水平。在诸如Zeamays的其他生物中，大量高表达基因强烈偏爱以G或C结尾的密码子。而且，在Dictyostelium中，同低水平表达的基因比较，高表达基因有较大数目的偏爱密码子。

在大肠杆菌中表达哺乳动物基因是不可预测和具有挑战的。例如直到最近才实现了人血红蛋白的过表达。为了达到血红蛋白的好的表达水平，Alpha-球蛋白cDNA不得不用大肠杆菌偏爱的密码子进行重新合成。在异源宿主中实现象血红蛋白这样复杂的蛋白质的过表达可能需要最佳化密码子，这些研究者为此提供了令人信服的资料。成簇的低利用率的密码子抑制了核糖体的运动，这是基因不能以合适水平表达的一个明显机制。核糖体翻译由九个密码子组成的信使(含几个低利用率密码子或全部为低利用率密码子)时的运动速度要比翻译不含低利用率密码子的同样长的信使的速度慢。即使低利用率密码子簇位于3'端，信使最后也会被核糖体”拥挤”而损害，核糖体又回到5'端。3'端低利用率密码子簇的抑制效应可以和全部信使都由低利用率密码子组成的抑制效应一样大。如果低利用率密码子簇位于5'端，其效应是起始核糖体数目的全面减少，导致蛋白合成中信使的低效率。散在分布的稀有密码子对翻译的效应还未很好地研究，但是有证据表明这种情况的确对翻译效率有负面效应。

目前，对基因转化植物的优化和修饰工作主要有方面：植物特异性启动子的表达调控；异源表达基因的改造和修饰；植物中定位信号提高外源基因表达产物的积累量；降低插入位置不同对基因表达造成的影响；将外源基因整合到细胞核外基因组中；内含子增强作用提高外源基因的表达；这些措施均还不能完全满足使用需求。

发明内容

发明目的：针对现有技术中存在的不足，本发明的目的是提供一种用于木本植物遗传密码子优化的CodonNX系统，满足优化密码子的使用需求。本发明的另一目的是提供一种上述CodonNX系统的优化木本植物遗传密码子的方法。

技术方案：为了实现上述发明目的，本发明采用的技术方案为：

一种用于木本植物遗传密码子优化的CodonNX系统，包括输入模块、处理模块、输出模块；其中，输入模块用于用户输入基因序列和密码子使用频率排序表，并选定具体处理模式；处理模块用于接收输入的密码子信息内容、密码子使用频率排序表信息内容，并依据用户选择的处理模式，进行有效处理，并通过输出模块，输出对应的结果；

所述的输入模块包括序列模块和密码子使用频率排序表模块，序列模块可输入的序列必须为三的倍数，输入的序列以三联体划分，传送到处理模块中；密码子使用频率排序表模块可输入的格式为同义密码子放在同一行，且按使用频率高低从左到右依次排列，中间以冒号隔开，非同义密码子在换行表示。

所述的处理模块至少包括最优密码子替换模块、剪切位点检查和处理模块、mRNA二级结构检查和处理模块、增加模块；最优密码子替换模块，用于依据输入的密码子使用频率排序表替换输入序列中的对应密码子；剪切位点检查和处理模块，用于检查输入的序列是否有剪切位点，并依据用户选择确定是否要替换含有剪切位点的密码子，并进行循环检测，直至处理完毕；mRNA二级结构检查和处理模块，用于检查序列是否有mRNA二级结构，并依据用户选择确定是否要替换含有mRNA二级结构的密码子，并进行循环检测，直至处理完毕；增加模块，用于增加亚细胞器定位序列、kozak序列、内含子片段序列；

所述的输出模块，输出的序列保存在output.txt中。

所述的CodonNX系统的运行使用依托于运行平台，所述的运行平台至少包括相互配合使用的输入设备、主机以及显示界面。

所述的CodonNX系统的木本植物密码子的优化方法，包括以下步骤：

第一步：序列以及密码子使用频率的输入，并选择密码子优化方式；

第二步：删除mRNA降解信号，去除植物序列剪切信号、去除多聚腺苷酸化序列、去除内含子切割序列CATTG、去除AT富集区；

第三步：避免mRNA的形成：在上步所生成的序列中扫描是否有正向重复、反向重复、镜像重复、倒转重复，如有执行删除操作；

第四步：增加亚细胞器定位序列、kozak序列、内含子片段序列；

第五步：输出序列：输出结果保存在output.txt中，方法结束。

第一步中，基因序列由ATG开始TAA终止，每条序列为三的整数倍，要求一个序列一行，序列结束有换行。

第一步中，密码子使用频率表要求格式为同义密码子放在同一行，且按使用频率高低从左到右依次排列，中间以冒号隔开，非同义密码子在换行表示。

第一步中，选择密码子优化方式：选择1则整个序列的密码子全部替换为最优密码子；选择0则直接跳到下一步。

第二步中，

1)删除mRNA降解信号：AUUUA、AUUAA；

2)去除植物序列剪切信号：AATAAA、AATAAT、AATTAA、AACCAA、ATTA、ATTTA、ATAAAA、ATGAAA、AAGCAT、ATATAA、AATCAA、ATACTA、ATACAT、AAAATA、ATTAAA、AATTAA、AATACA、CATAAA；

3)去除多聚腺苷酸化序列：AATAAT类型，AATCAA类型，AATGAA类型，ATGGAA类型，AATTAA类型，TATAAA类型，其他类型包括ATGTAA、TGTGAA、AATGCT、GATATG、ATGCAA、AATGTG、AAAGAT、ATTAA、AATAAA、AATAAT；

4)去除编码区序列中含有的内含子切割序列：5’剪接位点一般为AG/GTAAGT的保守序列、3’剪接位点末端为TGCAG/G的保守序列；

5)修改连续的大于等于4个AT富集区；

反复循环直到基因序列没有任何一个需要删除的序列并且替换时均已三联体同义密码子进行替换，即可进如下一步。

第三步中，正向重复、反向重复、镜像重复和倒转重复均可选择大于7/8/9/10。

第三步中，反复循环直到基因序列没有任何一个mRNA二级发夹结构的形成，即可进入第二步，重新循环检查，直到此序列中既没有二级结构也没有需删除序列，才可以进行到下一步。

第四步中，增加亚细胞器定位序列、kozak序列、内含子片段序列具体如下：

1)亚细胞器定位序列：序列来自TAIR网站中提供的蛋白亚细胞定位数据库SUBA；

内质网定位序列：Kdel序列、Hdel序列；

叶绿体定位序列：TP转运肽；

2)kozak序列：烟草kozak序列、拟南芥kozak序列、其他序列；

3)内含子片段序列：玉米内含子adh1、玉米内含子ubil、水稻actl、马铃薯SBgLR2。

有益效果：与现有技术相比，本发明的用于木本植物遗传密码子优化的CodonNX系统及其优化方法，具有以下优点：

1)在基因表达研究中，本领域的普通技术人员比较注意选择合适的表达载体和宿主系统，而往往忽视基因本身是否与载体和宿主系统为最佳匹配这样一个实质性问题。基因的最佳化表达可以通过对基因的重新设计和合成来实现，如消除稀有密码子而利用最佳化密码子，二级结构最小化，调整GC含量等。本方法在考虑了密码子最佳化、翻译终止效率和真核植物细胞中异源蛋白表达效率等方面，通过CodonNX系统进行基因的重新设计，为研究者进行原核生物的植物表达转化提供较为可行的方法。

2)在本申请的整个方法中，所有替换均以密码子为单位进行替换，即在所有优化过程所需替代密码子时，同义密码子中使用频率高的优先使用，全部是三联体三联体一起替换，且最终保证所表达的蛋白一级序列不变。本方法除进行的密码子优化外，还包括涉及到的其他提高表达的方式，效率更高，专用性更强。

3)CodonNX系统提供了完备的可发展的全系统基因优化功能，提高工作效率，节省成本，系统的参数可选择，尤其是最优密码子可选择，几乎所有参数都公开、透明、可选择，并且可以由用户自己进行设置。该系统适合植物表达载体平台，针对性较强，经试验验证，在转基因植株中能得到高表达蛋白。

附图说明

图1是CodonNX系统的整体流程图。

具体实施方式

下面结合具体实施例对本发明做进一步的说明

实施例1

一种用于木本植物遗传密码子优化的CodonNX系统，包括输入模块、处理模块、输出模块；其中，输入模块用于用户输入基因序列和密码子使用频率排序表，并选定具体处理模式；处理模块用于接收输入的密码子信息内容、密码子使用频率排序表信息内容，并依据用户选择的处理模式，进行有效处理，并通过输出模块，输出对应的结果。

该输入模块包括序列模块和密码子使用频率排序表模块，序列模块可输入的序列必须为三的倍数，输入的序列以三联体划分，传送到处理模块中；密码子使用频率排序表模块可输入的格式为同义密码子放在同一行，且按使用频率高低从左到右依次排列，中间以冒号隔开，例如格式为“密码子：密码子：密码子”，非同义密码子在换行表示。

该处理模块至少包括最优密码子替换模块、剪切位点检查和处理模块、mRNA二级结构检查和处理模块、增加模块；最优密码子替换模块，用于依据输入的密码子使用频率排序表替换输入序列中的对应密码子；剪切位点检查和处理模块，用于检查输入的序列是否有剪切位点，并依据用户选择确定是否要替换含有剪切位点的密码子，并进行循环检测，直至处理完毕；mRNA二级结构检查和处理模块，用于检查序列是否有mRNA二级结构，并依据用户选择确定是否要替换含有mRNA二级结构的密码子，并进行循环检测，直至处理完毕；增加模块，用于增加亚细胞器定位序列、kozak序列、内含子片段序列等。

该输出模块，输出的序列保存在output.txt中。

本实施例的CodonNX系统的运行使用依托于运行平台，该运行平台至少包括相互配合使用的输入设备、主机以及显示界面；典型的运行平台可以为计算机(笔记本、台式机)、工控机、单片机、移动终端(手机、平板)等，运行平台自带的运行系统可以为常用的Windows、android、Mac和Linux等系统或不常用系统甚至是专用系统。

实施例2

实施例1的木本植物遗传密码子优化的CodonNX系统的密码子优化方法，如图1所示，具体步骤如下：

第一步：序列的输入：

1)基因序列由ATG开始TAA终止，每条序列为三的整数倍，要求一个序列一行，序列结束有换行。

2)密码子使用频率：该使用频率表要求格式为同义密码子放在同一行，且按使用频率高低从左到右依次排列，中间以冒号隔开。必须是“密码子：密码子：密码子”这种格式，非同义密码子在换行表示。

例如输入“密码子使用频率表”格式可以是：

TTT:TTC

TTA:TTG:CTT:CTC:CTA:CTG

GTT:GTC:GTA:GTG

CCT:CCC:CCA:CCG

ACT:ACC:ACA:ACG

GCT:GCC:GCA:GCG

TAT:TAC

TAA:TAG

CAT:CAC

CAA:CAG

AAT:AAC

AAA:AAG

GAT:GAC

GAA:GAG

TGT:TGC

CGT:CGC:CGA:CGG:AGA:AGG

GGT:GGC:GGA:GGG

AGT:AGC:TCT:TCC:TCA:TCG

该系统会首先将密码子表转化成为下列矩阵，体现密码子使用的优先级：

0 0 TTT 0 1 TTC

1 0 CTT 1 1 TTG 1 2 CTC 1 3 TTA 1 4 CTG 1 5 CTA

2 0 ATT 2 1 ATC 2 2 ATA 2 3 GTG

3 0 GTT 3 1 GTG 3 2 GTA 3 3 GTC

4 0 CCA 4 1 CCT 4 2 CCC 4 3 CCG

5 0 ACT 5 1 ACA 5 2 ACC 5 3 ACG

6 0 GCT 6 1 GCA 6 2 GCC 6 3 GCG

7 0 TAT 7 1 TAC

8 0 TAA 8 1 TAG

9 0 CAT 9 1 CAC

10 0 CAA 10 1 CAG

11 0 AAT 11 1 AAC

12 0 AAG 12 1 AAA

13 0 GAT 13 1 GAC

14 0 GAG 14 1 GAA

15 0 TGT 15 1 TGC 15 2 CGA 15 3 CGG 15 4 AGA 15 5 AGG

16 0 AGA 16 1 AGG 16 2 CGT 16 3 CGA 16 4 CGC 16 5 CGG

17 0 GGT 17 1 GGA 17 2 GGG 17 3 GGC 17 4 TCA 17 5 TCG

18 0 TCT 18 1 TCA 18 2 AGT 18 3 TCC 18 4 AGC 18 5 TCG

3)需要选择密码子优化方式：选择1则整个序列的密码子全部替换为最优密码子。选择0则直接跳到下一步。

第二步：主要进行的是删除mRNA降解信号，去除植物序列剪切信号、去除多聚腺苷酸化序列、去除内含子切割序列CATTG、去除AT富集区(连续的大于等于4个AT富集区序列)。

如其中AATAAA、AATAAT、AATTAA、AACCAA、ATTA、ATTTA、ATAAAA、ATGAAA、AAGCAT、ATATAA、AATCAA、ATACTA、ATACAT、AAAATA、ATTAAA、AATTAA、AATACA、CATAAA。均为内含子切割序列。在实际方法运行中，首先进行AATAAA的寻找，当找到它第一个A在序列中的位置后，首先得到其在第几号碱基，将此号除以三的余数为1，则此A为三联体的第一位，如余数为2，则此A为三联体的第二位，余数为0，则此A为三联体的第三位，如果是第一位则直接替换AATAAA的第一个AAT，换为其同义密码子(同义密码子排号为0的使用频率越高，为最优密码子。如果第一位上次已被更换为排好为1，则这次更换第二个密码子AAA排好为0的密码子，同样以同义密码子排号小为优选。如果第二个密码子AAA排号也为1则替换第一个密码子AAT排号为2的密码子，以此来推。)如果是三联体的第二位则该序列加入全基因中AATAAA前的一个碱基*AATAAA(一般同义密码子第一位相差不大，当然也有例外)。*AA作为第一个开始换位其同义密码子(同义密码子排号小的使用频率越高为最优。如果*AA为同义密码子表中的最大排号，则第一密码子*AA不变，更换第二个密码子TAA，同样以同义密码子排号小为优选。)如果是三联体的第三位则**A作为第一个开始替换的密码子，方法同前。总之，在替换同义密码子的过程中全部以三联体密码子进行替换已保证最终所得蛋白质完全相同。

替换该基因序列里的AATAAA之后，重新返回检测是否有该检测位点，如果没有，则进入下一个AATAAT内含子切割序列的检测，同样方法循环进行，当该序列完成第一次各种需要删除的序列检测后，还需要重新再循环再次检测看是否因为密码子改过后又出现以前检测过的切割序列等重复。

该步骤所需去掉的序列为：

1)删除mRNA降解信号：AUUUA、AUUAA、其他；

2)去除植物序列剪切信号：AATAAA、AATAAT、AATTAA、AACCAA、ATTA、ATTTA、ATAAAA、ATGAAA、AAGCAT、ATATAA、AATCAA、ATACTA、ATACAT、AAAATA、ATTAAA、AATTAA、AATACA、CATAAA、其他；

3)去除多聚腺苷酸化序列：AATAAT类型，AATCAA类型，AATGAA类型，ATGGAA类型，AATTAA类型，TATAAA类型，其他类型(包括ATGTAA、TGTGAA、AATGCT、GATATG、ATGCAA、AATGTG、AAAGAT、ATTAA、AATAAA、AATAAT)；

4)去除编码区序列中含有的内含子切割序列：5’剪接位点一般为AG/GTAAGT的保守序列、3’剪接位点末端为TGCAG/G的保守序列、其他序列；

5)修改连续的大于等于4个AT富集区。

第三步：避免mRNA的形成：在上步所生成的序列中扫描是否有正向重复(可选择大于7/8/9/10)、反向重复(可选择大于7/8/9/10)、镜像重复(可选择大于7/8/9/10)、倒转重复(可选择大于7/8/9/10)。

如在序列中找到第3号起始的GGCTGCTAA9个碱基的序列和第1227号起始的GGCTGCTAA序列为正向重复，则需替换第3号位起始的段序列，替换方法依旧是首先判断此号除以三的余数。如果为1，则此A为三联体的第一位，如余数为2，则此A为三联体的第二位，余数为0，则此A为三联体的第三位。以GGCTGCTAA为例，在第三号位除以3余数为0则为三联体的第三位，因此此序列“**G GCT GCT AA*”可以从“**G开始替换，可按前一步方法将**G换为其同义密码子(同义密码子排号为0的使用频率最高，为最优密码子。如果第一位上次已被更换为排号为1，则这次更换第二个密码子如果是第一位则直接替换AATAAA的第一个AAT，换为其同义密码子(同义密码子排号为0的使用频率越高，为最优密码子。如果第一位上次已被更换为排好为1，则这次更换第二个密码子GCT排号为0的密码子，同样以同义密码子排号小为优先级。如果第二个密码子GCT排号也为1则替换第三个密码子GCT排号为0的密码子，如果第三个密码子GCT排号也0则替换第四个密码子AA*排号为0的密码子，如果第四个密码子GCT排号也为1则替换第一个密码子**G排号为2的密码子，以此类推。密码子矩阵见第一步中的密码子使用频率表)。

反复循环直到基因序列没有任何一个mRNA二级发夹结构的形成，即可进入第二步，重新循环检查，直到此序列中既没有二级结构也没有需删除序列。才可以进行到下一步。

第四步：增加亚细胞器定位序列、kozak序列、内含子片段序列等。具体如下：

1)亚细胞器定位序列：序列来自TAIR网站中提供的蛋白亚细胞定位数据库SUBA(The Subcelular Proteomic Database)；

内质网定位序列：Kdel序列、Hdel序列、其他序列；

液泡定位序列：其他序列；

叶绿体定位序列：TP转运肽、其他序列；

线粒体定位序列：其他序列。

2)kozak序列：烟草kozak序列、拟南芥kozak序列、其他序列。

3)内含子片段序列：玉米内含子adh1、玉米内含子ubil、水稻actl、马铃薯SBgLR2、其他序列。

第五步：输出序列：输出结果保存在output.txt中，方法结束。

实施例3

应用实施例1的CodonNX系统，采用实施例2的方法，对苏云金芽胞杆菌cry9Aa3基因进行了针对使用最优密码子的改造，并且人工重头合成新的基因。以期通过基因改造的方法使得杨树中表达的Bt杀虫蛋白活性提高。

根据现有的高频密码子算法对欧洲山杨的92个基因32397个、毛白杨的54个基因共18377个密码子、银白杨和欧洲山杨所得杂交杨11个基因共1918个密码子、欧洲黑杨49个基因共15002个密码子、颤杨的55个基因24984个密码子、毛果杨的173个基因115716个密码子、毛果杨和美洲黑杨所得杂交杨的41个基因14531个密码子、美洲黑杨的20个基因9894个密码子、欧洲山杨与颤杨的杂交杨114个基因48153个密码子、欧洲山杨和银白杨所得杂交杨72个基因共29918个密码子的密码子使用频率进行了统计，结果看出不同杨属植物最优密码子大部分均相同，如Ile、Val和Ala等。但也有些氨基酸所使用的最优密码子有所不同，如phe和Pro。即使不相同的，如脯氨酸所使用的同义密码子有CCU、CCC、CCA、CCG，均以AT结尾的密码子为最优密码子，CCU和CCA在不同种杨树中的使用频率均大大高于以CG结尾的密码子。虽然只使用了20个美洲黑杨的基因进行分析，但可以判断出美洲黑杨的密码子使用频率高低依次为：TTT:TTC；TTA:TTG:CTT:CTC:CTA:CTG；GTT:GTC:GTA:GTG；CCT:CCC:CCA:CCG；ACT:ACC:ACA:ACG；GCT:GCC:GCA:GCG；TAT:TAC；TAA:TAG；CAT:CAC；CAA:CAG；AAT:AAC；AAA:AAG；GAT:GAC；GAA:GAG；TGT:TGC；CGT:CGC:CGA:CGG:AGA:AGG；GGT:GGC:GGA:GGG；AGT:AGC:TCT:TCC:TCA:TCG。

使用CodonNX系统对cry9Aa3杀虫基因进行优化，采用两种方案，cry9Aa3-B基因(序列如SEQ ID NO.1所示)是未进行最优密码子全部替换全序列而进行其他方面全方位的优化(去掉了剪切信号等不稳定因素，在基因的上游添加了Ω序列和Kozak序列，下游添加了内质网定位信号KDEL)。cry9Aa3-U基因(序列如SEQ ID NO.2所示)是进行了包括最优密码子全部替换全序列和能涉及到的全方位的优化(使用最优密码子，去掉了剪切信号等不稳定因素，在基因的上游添加了Ω序列和Kozak序列，下游添加了内质网定位信号KDEL)。cry9Aa3-0基因(序列如SEQ ID NO.3所示)是原始野生Bt菌中的基因。将优化后的基因与优化前基因进行对比如图2所示。所有基因翻译的蛋白经过tBlastX比较均完全一致。

通过人工合成法得到改造后的cry9Aa3-U、cry9Aa3-B基因，将改造后的基因利用gateway技术构建到植物表达载体pGWB402上，通过农杆菌侵染法转入南林895杨中，进行了实时定量PCR检测。结果表明，改造后的基因均可在杨树中转录，cry9Aa3-U基因mRNA相对水平表达量的均值为0.073268，cry9Aa3-B基因mRNA相对水平表达量的均值为0.004926，未改造的cry9Aa3-0基因mRNA相对水平表达量的均值为0.000359。

序列表

<110> 南京林业大学

<120> 一种用于木本植物遗传密码子优化的CodonNX系统及其优化方法

<130> 100

<160> 3

<170> SIPOSequenceListing 1.0

<210> 1

<211> 2152

<212> DNA

<213> cry9Aa3-B基因序列(Artificial)

<400> 1

tatttttaca acaattacca acaacaacaa acaacaaaca acattacaat tactatttac 60

aattacataa accatggctg cgaaccagaa caaacacgga attattggcg cttccaattg 120

tggttgtgca tctgacgatg ttgcgaaata tcctttagcc aacaaccctt attcatctgc 180

tttaaactta aactcttgtc aaaacagtag tattctcaac tggatcaaca taataggcga 240

tgcagcgaaa gaagcagtat ctattgggac aaccatagtc tctcttatca cagcaccttc 300

tcttactgga ttaatctcaa tagtatatga ccttataggt aaagtactag gaggtagtag 360

tggacaatcc atatcagatt tgtctatatg tgacttatta tctattattg acttacgggt 420

aagtcagagt gttttaaacg acgggattgc agattttaat ggttctgtac tcttatacag 480

gaactactta gaggctctgg atagctggaa taagaatcct aattctgctt ctgctgaaga 540

actccgtact cgttttagaa tcgccgactc agaatttgat aggatcttaa cccgagggtc 600

tttaacgaat ggtggctcgt tagctagaca aaatgcccaa atattattat taccttcttt 660

tgcgagcgct gcatttttcc acttattact actaagggac gctactagat acggcactaa 720

ttgggggcta tacaacgcta cacctttcat aaactatcag tcaaaactag tcgagcttat 780

cgaactatac actgattatt gcgtacactg gtataaccga ggtttcaacg aactaaggca 840

gcgaggcact agtgctacag cttggttaga atttcataga tatcgtagag agatgacact 900

catggtatta gacatagtcg cctcattttc aagtcttgat attactaatt acccgataga 960

aacagatttt cagttgagta gggtcatcta tacagatcca attggttttg tacatcgtag 1020

tagtcttagg ggagaaagtt ggtttagctt tgttaataga gctaatttct cagacttaga 1080

aaacgcaata cctaatccta gaccgtcttg gtttttaaac aatatgatta tatccactgg 1140

ttcacttaca ctcccggtta gcccaagtac tgatagagcg agggtatggt acggaagtcg 1200

agatcgaatt tcccctgcta attcacaatt cattactgaa ctaatctctg gacaacatac 1260

gactgctaca caaactattt tagggcgaaa catattcaga gtagattctc aagcttgtaa 1320

cttaaatgat accacatatg gagtgaatag ggcggtattt taccatgatg cgagtgaagg 1380

ttcacaaagg tccgtgtacg aggggtatat tcgaacaact gggatagaca accctagagt 1440

tcaaaacatc aacacttact tacctggaga aaattcagat atcccaactc cagaagacta 1500

cactcacata ttaagcacaa caatcaactt aacaggagga ttgagacaag tagcatctaa 1560

tcgccgttca tctttagtaa tgtatggttg gacacacaaa agtctggctc gtaacaatac 1620

catcaatcca gacaggataa cacagatacc tttgacgaag gttgataccc gaggcacagg 1680

tgtttcttac gtgaacgatc caggattcat aggaggagct ctacttcaaa ggactgacca 1740

tggttcgctt ggagtattga gggtccaatt cccacttcac ttaagacaac aatatcgtat 1800

cagagtccgt tatgcttcta caacaaatat tcgattgagt gtgaacggca gtttcggtac 1860

gatttctcaa aatctcccta gtacaatgag actgggagag gacttaagat acggatcttt 1920

tgctataagg gagttcaata cttctatcag acccactgca agtcctgacc aaatccgatt 1980

gacaatagaa ccatctttta tcagacaaga ggtctatgta gatagaattg agttcattcc 2040

agttaatccg acgcgagagg cgaaagagga tctagaagca gcaaaaaaag cggtggcgag 2100

cttgtttaca cgcacaaggg acggataatc cgagaaggat gaactttgat ga 2152

<210> 2

<211> 2152

<212> DNA

<213> cry9Aa3-U基因序列(Artificial)

<400> 2

tatttttaca acaattacca acaacaacaa acaacaaaca acattacaat tactatttac 60

aattacataa accatggctg ctaaccagaa caagcacggt atcatcggtg catcaaactg 120

tggttgtgca tcagatgatg ttgctaagta tccacttgct aacaatccat actcatctgc 180

tcttaacttg aattcttgtc aaagctcatc tattcttaat tggatcaata tcataggaga 240

tgctgcaaaa gaggctgttt caatcggtac aacaattgtt tctcttatca ccgctccatc 300

tttgaccggt cttatctcaa ttgtgtacga tcttattggt aaggtgcttg gaggatcatc 360

tggacagtct attagtgacc tttcaatctg cgatcttttg tcaatcatcg atctcagggt 420

ttctcaatct gtgttgaatg atggtattgc agactttaac ggatctgttt tgctttatag 480

aaactatttg gaagctcttg attcttggaa taagaatcca aattctgcat cagctgagga 540

gttgaggact agattcagaa ttgctgattc tgagttcgac aggatcctta ctagaggttc 600

cttgactaat ggtggatcac ttgcaaggca aaacgctcag atccttttgt tgccttcatt 660

tgcttctgct gctttttttc atcttcttct tttaagggat gctactaggt acggtactaa 720

ttggggtttg tataacgcta ctccattcat caactaccag tctaagcttg ttgaattgat 780

tgagctttat acagactatt gtgttcactg gtataacaga ggttttaatg agcttaggca 840

gagaggaaca tctgctactg cttggcttga gtttcacagg tacagaagag agatgactct 900

tatggtgctt gacatcgttg catcattctc ttccctcgat atcaccaact atcctatcga 960

gactgatttt cagctttcta gagttatcta tactgatccc attggttttg ttcatagatc 1020

atcacttaga ggtgagtctt ggttctcgtt cgtgaacaga gctaattttt ctgatttgga 1080

aaacgctatt cccaatccaa gaccatcttg gtttcttaac aatatgatca tctctactgg 1140

aagtctcact cttcctgttt ctccttcaac tgatagagct agagtgtggt atggttctag 1200

agaccgtatt tctccagcta attctcaatt catcaccgag cttatttctg gtcaacatac 1260

aactgctact caaactattc ttggtagaaa tatttttaga gttgattctc aagcttgtaa 1320

tcttaatgat acaacttacg gtgttaatag agctgtgttc tatcatgatg cttctgaggg 1380

ttctcaaagg tctgtttatg agggttatat ccgaactact ggtattgata acccaagagt 1440

gcagaacatc aacacttatc ttccaggtga gaattctgat attccaactc cagaggacta 1500

tactcatatt ctttcaacaa ctatcaatct tactggtggt ttgaggcaag ttgcatccaa 1560

tagaagatct tctcttgtta tgtatggttg gactcataag tctcttgcta gaaacaacac 1620

gatcaaccca gataggatca ctcaaattcc acttactaag gttgatacaa ggggaactgg 1680

tgtttcttat gttaatgatc caggttttat tggtggtgct cttcttcaaa gaactgatca 1740

tggttctctt ggtgttctta gagtgcaatt tccacttcat cttagacaac agtacaggat 1800

cagggttagg tacgcttcta ctactaatat tcgtttgtct gttaatggtt cattcggtac 1860

tatttctcaa aatcttccat ctactatgag acttggtgag gacttgagat acggttcttt 1920

tgctatcagg gagtttaata cttctatcag gccaactgct tctccagatc aaatcaggct 1980

tactattgag ccatctttta tcaggcaaga ggtttatgtt gatagaattg agtttattcc 2040

agttaatcca acaagggagg ctaaggagga tcttgaggct gccaagaagg ctgttgcttc 2100

tctttttact agaactagag atggttaatc cgagaaggat gaactttgat ga 2152

<210> 3

<211> 2049

<212> DNA

<213> Bacillusthuringiensis

<400> 3

atgaatcaaa ataaacacgg aattattggc gcttccaatt gtggttgtgc atctgatgat 60

gttgcgaaat atcctttagc caacaatcca tattcatctg ctttaaattt aaattcttgt 120

caaaatagta gtattctcaa ctggattaac ataataggcg atgcagcaaa agaagcagta 180

tctattggga caaccatagt ctctcttatc acagcacctt ctcttactgg attaatttca 240

atagtatatg accttatagg taaagtacta ggaggtagta gtggacaatc catatcagat 300

ttgtctatat gtgacttatt atctattatt gatttacggg taagtcagag tgttttaaat 360

gatgggattg cagattttaa tggttctgta ctcttataca ggaactattt agaggctctg 420

gatagctgga ataagaatcc taattctgct tctgctgaag aactccgtac tcgttttaga 480

atcgccgact cagaatttga tagaatttta acccgagggt ctttaacgaa tggtggctcg 540

ttagctagac aaaatgccca aatattatta ttaccttctt ttgcgagcgc tgcatttttc 600

catttattac tactaaggga tgctactaga tatggcacta attgggggct atacaatgct 660

acacctttta taaattatca atcaaaacta gtagagctta ttgaactata tactgattat 720

tgcgtacatt ggtataatcg aggtttcaac gaactaagac aacgaggcac tagtgctaca 780

gcttggttag aatttcatag atatcgtaga gagatgacat tgatggtatt agatatagta 840

gcatcatttt caagtcttga tattactaat tacccaatag aaacagattt tcagttgagt 900

agggtcattt atacagatcc aattggtttt gtacatcgta gtagtcttag gggagaaagt 960

tggtttagct ttgttaatag agctaatttc tcagatttag aaaatgcaat acctaatcct 1020

agaccgtctt ggtttttaaa taatatgatt atatctactg gttcacttac attgccggtt 1080

agcccaagta ctgatagagc gagggtatgg tatggaagtc gagatcgaat ttcccctgct 1140

aattcacaat ttattactga actaatctct ggacaacata cgactgctac acaaactatt 1200

ttagggcgaa atatatttag agtagattct caagcttgta atttaaatga taccacatat 1260

ggagtgaata gggcggtatt ttatcatgat gcgagtgaag gttctcaaag atccgtgtac 1320

gaggggtata ttcgaacaac tgggatagat aaccctagag ttcaaaatat taacacttat 1380

ttacctggag aaaattcaga tatcccaact ccagaagact atactcatat attaagcaca 1440

acaataaatt taacaggagg acttagacaa gtagcatcta atcgccgttc atctttagta 1500

atgtatggtt ggacacataa aagtctggct cgtaacaata ccattaatcc agatagaatt 1560

acacagatac cattgacgaa ggttgatacc cgaggcacag gtgtttctta tgtgaatgat 1620

ccaggattta taggaggagc tctacttcaa aggactgacc atggttcgct tggagtattg 1680

agggtccaat ttccacttca cttaagacaa caatatcgta ttagagtccg ttatgcttct 1740

acaacaaata ttcgattgag tgtgaatggc agtttcggta ctatttctca aaatctccct 1800

agtacaatga gattaggaga ggatttaaga tacggatctt ttgctataag agagtttaat 1860

acttctatta gacccactgc aagtcctgac caaattcgat tgacaataga accatctttt 1920

attagacaag aggtctatgt agatagaatt gagttcattc cagttaatcc gacgcgagag 1980

gcgaaagagg atctagaagc agcaaaaaaa gcggtggcga gcttgtttac acgcacaagg 2040

gacggatta 2049

Claims

1.一种用于木本植物遗传密码子优化的CodonNX系统，其特征在于，包括输入模块、处理模块、输出模块；其中，输入模块用于用户输入基因序列和密码子使用频率排序表，并选定具体处理模式；处理模块用于接收输入的密码子信息内容、密码子使用频率排序表信息内容，并依据用户选择的处理模式，进行有效处理，并通过输出模块，输出对应的结果；

所述的输入模块包括序列模块和密码子使用频率排序表模块，序列模块可输入的序列必须为三的倍数，输入的序列以三联体划分，传送到处理模块中；密码子使用频率排序表模块可输入的格式为同义密码子放在同一行，且按使用频率高低从左到右依次排列，中间以冒号隔开，非同义密码子在换行表示；

所述的输出模块，输出的序列保存在output.txt中。

2.根据权利要求1所述的用于木本植物遗传密码子优化的CodonNX系统，其特征在于，所述的CodonNX系统的运行使用依托于运行平台，所述的运行平台至少包括相互配合使用的输入设备、主机以及显示界面。

3.权利要求1所述的CodonNX系统的木本植物密码子的优化方法，其特征在于，包括以下步骤：

第五步：输出序列：输出结果保存在output.txt中，方法结束。

4.根据权利要求3所述的CodonNX系统的木本植物密码子的优化方法，其特征在于，第一步中，基因序列由ATG开始TAA终止，每条序列为三的整数倍，要求一个序列一行，序列结束有换行。

5.根据权利要求3所述的CodonNX系统的木本植物密码子的优化方法，其特征在于，第一步中，密码子使用频率表要求格式为同义密码子放在同一行，且按使用频率高低从左到右依次排列，中间以冒号隔开，非同义密码子在换行表示。

6.根据权利要求3所述的CodonNX系统的木本植物密码子的优化方法，其特征在于，第一步中，选择密码子优化方式：选择1则整个序列的密码子全部替换为最优密码子；选择0则直接跳到下一步。

7.根据权利要求3所述的CodonNX系统的木本植物密码子的优化方法，其特征在于，第二步中，

1）删除mRNA降解信号：AUUUA、AUUAA；

2）去除植物序列剪切信号：AATAAA、AATAAT、AATTAA、AACCAA、ATTA 、ATTTA、ATAAAA、ATGAAA、AAGCAT、ATATAA、AATCAA、ATACTA、ATACAT、AAAATA、ATTAAA、AATTAA、AATACA、CATAAA；

3）去除多聚腺苷酸化序列：AATAAT类型，AATCAA类型，AATGAA类型，ATGGAA类型，AATTAA类型，TATAAA类型，其他类型包括ATGTAA、TGTGAA、AATGCT、GATATG、ATGCAA、AATGTG、AAAGAT、ATTAA、AATAAA、AATAAT；

4）去除编码区序列中含有的内含子切割序列：5’剪接位点一般为AG／GTAAGT的保守序列、3’剪接位点末端为TGCAG／G的保守序列；

5）修改连续的大于等于4个AT富集区；

8.根据权利要求3所述的CodonNX系统的木本植物密码子的优化方法，其特征在于，第三步中，正向重复、反向重复、镜像重复和倒转重复均可选择大于7/8/9/10。

9.根据权利要求3所述的CodonNX系统的木本植物密码子的优化方法，其特征在于，第三步中，反复循环直到基因序列没有任何一个mRNA二级发夹结构的形成，即可进入第二步，重新循环检查，直到此序列中既没有二级结构也没有需删除序列，才可以进行到下一步。

10.根据权利要求3所述的CodonNX系统的木本植物密码子的优化方法，其特征在于，第四步中，增加亚细胞器定位序列、kozak序列、内含子片段序列具体如下：

1）亚细胞器定位序列：序列来自TAIR网站中提供的蛋白亚细胞定位数据库SUBA；

内质网定位序列：Kdel序列、Hdel序列；

叶绿体定位序列：TP转运肽；

2）kozak序列：烟草kozak序列、拟南芥kozak序列、其他序列；

3）内含子片段序列：玉米内含子adh1、玉米内含子ubil、水稻actl、马铃薯SBgLR2。