CN108363905B - 一种用于植物外源基因改造的CodonPlant系统及其改造方法 - Google Patents

一种用于植物外源基因改造的CodonPlant系统及其改造方法 Download PDF

Info

Publication number
CN108363905B
CN108363905B CN201810124390.1A CN201810124390A CN108363905B CN 108363905 B CN108363905 B CN 108363905B CN 201810124390 A CN201810124390 A CN 201810124390A CN 108363905 B CN108363905 B CN 108363905B
Authority
CN
China
Prior art keywords
sequence
module
gene
plant
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810124390.1A
Other languages
English (en)
Other versions
CN108363905A (zh
Inventor
续晨
贲爱玲
蔡小宁
周加宝
王立科
钱保俐
华春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xiaozhuang University
Original Assignee
Nanjing Xiaozhuang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xiaozhuang University filed Critical Nanjing Xiaozhuang University
Priority to CN201810124390.1A priority Critical patent/CN108363905B/zh
Publication of CN108363905A publication Critical patent/CN108363905A/zh
Application granted granted Critical
Publication of CN108363905B publication Critical patent/CN108363905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

本发明公开了一种用于植物外源基因改造的CodonPlant系统及其改造方法,该CodonPlant系统,包括输入模块、处理模块、输出模块;其中,输入模块用于用户输入基因序列、密码子使用频率排序表以及群体个数n;处理模块用于接收输入的密码子信息内容、密码子使用频率排序表信息内容,并依据用户输入的群体个数n,进行有效处理,并通过输出模块,输出对应的结果。本发明将剪切位点和mRNA等参数进行定点突变放入遗传算法中来保持进化过程中种群的多样性,并加入了基于罚函数的排挤机制,使算法具有良好的全局寻优能力,同时具有很高的全局搜索能力和收敛速度,增加了种群多样性,弥补了遗传算法的收敛性效率偏低的不足,可以使算法提高寻找最优解的能力,有很好的实用性。

Description

一种用于植物外源基因改造的CodonPlant系统及其改造方法
技术领域
本发明属于基因工程技术领域,具体涉及一种用于植物外源基因改造的CodonPlant系统及其改造方法。
背景技术
目前,常用的密码子优化软件均对多目标进行优化,并采用了不同的优化方法。例如,Codon Optimizer(Fuglsang,2003),JCat,OPTIMIZER OPTIMIZER(Puigbòet al.,2007)和ATGme(Daniel et al.,2015)等。最近发展根据多目标寻优算法发展了不同思路的软件。其中GeneDesigner,Upgene和GeMS都先随机生成一组候选序列,然后根据预定义的条件执行筛选器。SGD(Wu et al.,2006)沿着合成基因一步一步地扫描密码,选择基于概率模型的首选密码。DNAWorks(Hoover and Lubkowski,2002)和EuGene(Gao et al.,2004)使用模拟退火算法来进行codon优化。GASCO(Sandhu et al.,2008)软件包分别采用遗传算法进行密码子优化,QPSOBT(Cai et al.,2008)采用改进的粒子群优化算法进行密码子优化。COStar是一种基于d星的动态搜索算法,用于codon优化算法。
而在实际进行植物密码子优化的实验过程中,如果仅仅使用软件是不能实现的。在真实的进行原核生物优化为植物基因,密码子优化,改变基因序列内的密码子以改进重组蛋白质表达的过程已经被广泛实践。当优化基因序列时,需要考虑影响蛋白质表达的多个相互联系的因素。
通常在植物中表达的转基因来自其他植物物种或非植物。这些基因是进化适应于在宿主生物体中以所需表达水平表达的宿主生物体,但是可能不适合在转化的植物中表达。另外还有一些与植物相同植物的基因在相同的植物中可能不适合高水平的表达。不同的生物有所不同DNA碱基组成(AT%或GC%),如真核细胞内的不同基因组(核与线粒体(也有T到U)和植物细胞(质体))。DNA碱基对组成的这种差异影响了DNA的频率出现编码相同氨基酸的简并密码子(密码子使用频率)。同源的丰富带电荷的tRNA通常与基因组中目标密码子的频率成比例。因此例如基因由于缺乏某些带电荷的tRNA,富含GC%的富含AT%的生物体翻译不充分。它是本领域众所周知的是通过重新编码转基因可以克服这个问题,使得密码子的使用反映了这一点用于转基因生物中,如果需要高表达,则匹配密码子使用与高表达该生物体中的基因。
除了密码子使用问题之外,真核细胞核基因还有转录剪接和聚腺苷酸化信号在真核生物之间可能不同(例如在动物和昆虫之间或在双子叶植物之间和单子叶植物),并且可能在其他生物如原核生物中不存在。由于植物中的多聚腺苷酸化信号富含AT,而原核生物缺乏这些信号,富含AT%的原核生物经常含有可被识别为聚腺苷酸化序列的序列。因此,在转基因的编码区域存在这种“隐蔽的”聚腺苷酸化基序已被归因于差在植物中表达,诸如苏云金芽孢杆菌(Bacillus thuringiensis)的基因。Fischhoff等人(US7741118 B1)描述了这一点六聚体AATAAA样基序的去除将改善基因表达。他们提供了16个潜在的聚腺苷酸化的列表在转基因的编码区中频率应该降低的基序以改善植物中的表达。
植物中非植物基因的高水平表达是关键的农艺问题。因此,需要开发新的方法来提高植物中的基因表达,特别是通过提供比本领域已知的一些其他基因修饰方法提出的修饰少的修饰方法。
发明内容
发明目的:针对现有技术中存在的不足,本发明的目的是提供一种用于植物外源基因改造的CodonPlant系统,满足植物外源基因改造的使用需求。本发明的另一目的是提供一种上述CodonPlant系统的植物外源基因改造方法。
技术方案:为了实现上述发明目的,本发明采用的技术方案为:
一种用于植物外源基因改造的CodonPlant系统,包括输入模块、处理模块、输出模块;其中,输入模块用于用户输入基因序列、密码子使用频率排序表以及群体个数n;处理模块用于接收输入的密码子信息内容、密码子使用频率排序表信息内容,并依据用户输入的群体个数n,进行有效处理,并通过输出模块,输出对应的结果;
所述的输入模块包括序列模块、密码子使用频率排序表模块和群体个数模块,序列模块可输入的序列必须为三的倍数,输入的序列以三联体划分,传送到处理模块中;密码子使用频率排序表模块可输入的格式为同义密码子放在同一行,且按使用频率高低从左到右依次排列,中间以冒号隔开,非同义密码子在换行表示;群体个数模块用于输入群体个数n;
所述的处理模块依据遗传算法进行处理最终获得一条最优序列,至少包括种群序列产生模块、期望值设置模块、种群序列处理模块以及增加序列模块;
所述的输出模块,输出的序列保存在output.txt中。
所述的种群序列产生模块用于依据用户输入的信息,产生n条随机序列构成一个种群;期望值设置模块用于用户输入多目标优化期望值;种群序列处理模块在收到用户输入的多目标优化期望值,根据轮盘赌原则选择2条基因,进行基因交叉处理,然后进行基因随机变异,针对剪切位点,进行定点随机变异,针对重复序列,进行定点随机变异,其中,随机变异均使用同义密码子替换,计算估值函数,并替换较差序列,放回原种群,进行循环操作,依据多目标参数计算估值函数得到打分,最终得到优化种群,从中选择出最优序列。
所述的增加序列模块,用于增加亚细胞器定位序列、kozak序列、内含子片段序列等,获得最终用于输出的序列。
所述的遗传算法,过程如下:
1)依据输入的种群数量,随机产生20条序列,构成一个种群;
2)轮盘赌法随机挑取2条序列;
3)1条父本序列,一条母本序列,50%交叉率得到子代;
4)5%随机同义突变;
5)检查是否含有剪切位点,含有时进行定点同义突变:去除植物序列剪切信号、去除多聚腺苷酸化序列、去除酶切信号;
6)检查是否有mRNA二级结构,含有时进行定点同义突变:正向重复、反向重复、镜像重复、倒转重复;
7)统计剪切位点个数、重复序列个数和CAI指数,多目标参数计算估值函数,得到打分。
所述的CodonPlant系统的植物外源基因的改造方法,包括以下步骤:
第一步:序列以及密码子使用频率的输入,并输入群体个数n;
第二步:遗传算法计算,依据用户输入的信息,产生n条随机序列构成一个种群,用户输入多目标优化期望值,根据轮盘赌原则选择2条基因,进行基因交叉处理,然后进行基因随机变异,针对剪切位点,进行定点随机变异,针对重复序列,进行定点随机变异,其中,随机变异均使用同义密码子替换,删除mRNA降解信号,去除植物序列剪切信号、去除多聚腺苷酸化序列、去除内含子切割序列CATTG、去除AT富集区;计算估值函数,并替换较差序列,放回原种群,进行循环操作,依据多目标参数计算估值函数得到打分,最终得到优化种群,从中选择出最优序列;
第三步:增加亚细胞器定位序列、kozak序列、内含子片段序列;
第四步:输出序列:输出结果保存在output.txt中,方法结束。
第一步中,基因序列由ATG开始TAA终止,每条序列为三的整数倍,要求一个序列一行,序列结束有换行。
第一步中,密码子使用频率表要求格式为同义密码子放在同一行,且按使用频率高低从左到右依次排列,中间以冒号隔开,非同义密码子在换行表示。
第二步中,
1)删除mRNA降解信号:AUUUA、AUUAA;
2)去除植物序列剪切信号:AATAAA、AATAAT、AATTAA、AACCAA、ATTA、ATTTA、ATAAAA、ATGAAA、AAGCAT、ATATAA、AATCAA、ATACTA、ATACAT、AAAATA、ATTAAA、AATTAA、AATACA、CATAAA;
3)去除多聚腺苷酸化序列:AATAAT类型,AATCAA类型,AATGAA类型,ATGGAA类型,AATTAA类型,TATAAA类型,其他类型包括ATGTAA、TGTGAA、AATGCT、GATATG、ATGCAA、AATGTG、AAAGAT、ATTAA、AATAAA、AATAAT;
4)去除编码区序列中含有的内含子切割序列:5’剪接位点一般为AG/GTAAGT的保守序列、3’剪接位点末端为TGCAG/G的保守序列;
5)修改连续的大于等于4个AT富集区;
反复循环直到基因序列没有任何一个需要删除的序列并且替换时均已三联体同义密码子进行替换,即可进如下一步。
第二步中,正向重复、反向重复、镜像重复和倒转重复均可选择大于7/8/9/10。
第三步中,增加亚细胞器定位序列、kozak序列、内含子片段序列具体如下:
1)亚细胞器定位序列:序列来自TAIR网站中提供的蛋白亚细胞定位数据库SUBA;
内质网定位序列:Kdel序列、Hdel序列;
叶绿体定位序列:TP转运肽;
2)kozak序列:烟草kozak序列、拟南芥kozak序列、其他序列;
3)内含子片段序列:玉米内含子adh1、玉米内含子ubil、水稻actl、马铃薯SBgLR2。
有益效果:与现有技术相比,本发明具有以下优势:
1)对于一个富含AT的细菌基因中含有大量的腺苷酸剪切位点,而大部分植物最优密码子也是在第三位上大量含有AT,所以在需要去掉腺苷酸剪切位点和需要最优密码子上有很强的冲突和矛盾,进一步如果在进行密码子优化的过程中,可能由于选用了更多的第三位的AT产生更多的腺苷酸剪切位点,因此只采用普通的贪婪算法加迭代很容易陷入死循环。另外在所有的软件中,虽然密码子优化算法很多,但是真正实际解决不同物种间的异源转化问题就效率很低,例如Bt基因的植物表达优化中,许多优化实例证明植物剪切位点要尽可能的去除,才能保证密码子优化后,在植物中高效表达。而所有的密码子优化软件并没有考虑植物本身的这一重要特性,无一例外的全部没有考虑植物多聚腺苷酸化序列、植物序列剪切信号、内含子切割序列因素。导致软件开发但不能解决实际问题。而在考虑了这些因素后,又有新的问题摆在面前,就是密码子优化和剪切序列两个因素直接的冲突。因此,本申请采用罚函数和定向突变的改进遗传算法来解决了这一问题。
2)现有的采用大多数比较经典的优化算法只适用于解空间中的单个解,因为它们往往是基于高阶导数或者目标函数梯度来产生下一个确定的计算序列,但是,这个解会随着迭代深度的增加不断沿着最大速度下降的方向进行改变,这就很有可能会导致局部最优解。但遗传算法在解决高复杂度问题时,比如大空间、非线性、多峰值、全局优化等则显示出了非常独特的优势。它将适应值函数作为参考基础,通过向个体施加遗传操作的方法来达到对群体中的个体结构进行优化重组的目的,从而在全局的范围内逼近最优解。本申请在群遗传算法的基础上引入了一种基于罚函数的小生境技术。传统遗传算法的遗传操作大部分是完全随机的,这种随机的遗传操作的好处进化前期种群的多样性比较好,但是随着进化的继续,适应度低的个体被大量淘汰,留下的大多是相似度较高的个体,再进行遗传操作,也不能产生新的个体,导致种群多样性的降低。本申请将剪切位点和mRNA等参数进行定点突变放入遗传算法中来保持进化过程中种群的多样性,并加入了基于罚函数的排挤机制,使算法具有良好的全局寻优能力,同时具有很高的全局搜索能力和收敛速度,增加了种群多样性,弥补了遗传算法的收敛性效率偏低的不足,可以使算法提高寻找最优解的能力。
3)现有植物序列大多数进行改造主要基于两点:第一密码子的优化,第二是植物剪切信号的去除。许多高表达密码子采用的是TA结尾,而植物剪切信号需要大量去除TA,这样两者之间的矛盾和平衡,如果只采用最优密码子排序进行替换,或者替换掉稀有密码子,很容易进入死循环或者难以找到全局最优解,而进入局部最优解。即本申请要通过寻找好的算法来解决原核生物中大量含有AT碱基(需去掉);最优密码子第三位上大量含有AT碱基(需保留);植物剪切序列大量含有AT碱基(需去掉)参数之间的矛盾,并最终寻找到可以高表达的同义突变序列。在大量现有植物优化实验中大量进行着植物剪切信号的去除,而现行软件并没有一个很好的针对真核生物进行优化的软件,尤其是针对植物这种特定序列的优化。本申请所有替换均以密码子为单位进行替换,即在所有优化过程所需替代密码子时,同义密码子中使用频率高的优先使用,全部是三联体一起替换,且最终保证所表达的蛋白一级序列不变。通过定向突变和建立罚函数,本系统不仅进行了密码子分优先级逐级优化,还保证了原核生物适应真核系统表达所需该基因中去除植物剪切位点,专为植物系统开发,具有很好的实用性。
附图说明
图1是用于植物外源基因改造的CodonPlant系统的流程图;
图2是典型的遗传算法流程图。
具体实施方式
下面结合具体实施例对本发明做进一步的说明。
实施例1
一种用于植物外源基因改造的CodonPlant系统,如图1所示,包括输入模块、处理模块、输出模块;其中,输入模块用于用户输入基因序列、密码子使用频率排序表以及群体个数n(n≥2的整数);处理模块用于接收输入的密码子信息内容、密码子使用频率排序表信息内容,并依据用户输入的群体个数n,进行有效处理,并通过输出模块,输出对应的结果。
该输入模块包括序列模块、密码子使用频率排序表模块和群体个数模块,序列模块可输入的序列必须为三的倍数,输入的序列以三联体划分,传送到处理模块中;密码子使用频率排序表模块可输入的格式为同义密码子放在同一行,且按使用频率高低从左到右依次排列,中间以冒号隔开,例如格式为“密码子:密码子:密码子”,非同义密码子在换行表示。群体个数模块用于输入群体个数n。
该处理模块依据遗传算法进行处理最终获得一条最优序列,至少包括种群序列产生模块、期望值设置模块、种群序列处理模块以及增加序列模块。种群序列产生模块用于依据用户输入的信息,产生n条随机序列构成一个种群;期望值设置模块用于用户输入多目标优化期望值(统计剪切位点个数为零、重复序列个数为零和CAI指数越高越好);种群序列处理模块在收到用户输入的多目标优化期望值,根据轮盘赌原则选择2条基因,进行基因交叉处理,然后进行基因随机变异,针对剪切位点,进行定点随机变异,针对重复序列,进行定点随机变异,其中,随机变异均使用同义密码子替换,计算估值函数,并替换较差序列,放回原种群,进行循环操作,依据多目标参数计算估值函数得到打分,最终得到优化种群,从中选择出最优序列。增加序列模块,用于增加亚细胞器定位序列、kozak序列、内含子片段序列等,获得最终用于输出的序列。
在该处理模块中,如图2所示,典型的遗传算法,过程如下:
1)依据输入的种群数量,随机产生20条序列,构成一个种群;
2)轮盘赌法随机挑取2条序列;
3)1条父本序列,一条母本序列,50%交叉率得到子代;
4)5%随机同义突变;
5)检查是否含有剪切位点,含有时进行定点同义突变:去除植物序列剪切信号、去除多聚腺苷酸化序列、去除酶切信号;
6)检查是否有mRNA二级结构,含有时进行定点同义突变:正向重复、反向重复、镜像重复、倒转重复;
7)统计剪切位点个数、重复序列个数和CAI指数F,多目标参数计算估值函数F,得到打分。具体如下:
1、相对同义密码子使用度(Relativ e Synonymous Codon Usage,RSCU):是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。第i个氨基酸的第j个密码子的相对同义密码子使用度值的计算公式如下:
公式中,xij是编码第i个氨基酸的第j个密码子的出现次数,ni是编码第i个氨基酸的同义密码子的数量(值为1~6)。研究中通常先利用高表达基因的RSCU值建立参考表格。
2、密码子适应指数(Codon Adaptation Index,CAI):可以根据已知高表达基因的序列来估计未知基因密码子使用的偏好性程度。CAI的值在0~1之间,如果越高则表明该基因的密码子使用偏好性越强。CAI值一般用来预测种内基因的表达水平,又可以用来预测外源基因的表达水平。
wij(The relative adaptiveness of a codon):密码子相对适应度
式中,RSCUimax、Ximax分别指编码第i个氨基酸的使用频率最高的密码子的RSCU值和X值
式中,L是指基因中所使用的密码子数。
重复序列个数Sumduplicate_seqence
重复序列参数Paramduplicate_seqence=0.1。
剪切位点个数SumPolyasite
剪切位点参数Param Polya=0.05。
F=C-Sumduplicate_seqence*Paramduplicate_seqence–SumPolyasite*Param Polya
该期望值函数在0和1之间,数值越接近1表示该基因表达量越高。
该输出模块,输出的序列保存在output.txt中。
本实施例的CodonPlant系统的运行使用依托于运行平台,该运行平台至少包括相互配合使用的输入设备、主机以及显示界面;典型的运行平台可以为计算机(笔记本、台式机)、工控机、单片机、移动终端(手机、平板)等,运行平台自带的运行系统可以为常用的Windows、android、Mac和Linux等系统或不常用系统甚至是专用系统。
上述CodonPlant系统的植物外源基因改造方法,具体步骤如下:
第一步:序列的输入:
1)基因序列由ATG开始TAA终止,每条序列为三的整数倍,要求一个序列一行,序列结束有换行。
2)密码子使用频率:该使用频率表要求格式为同义密码子放在同一行,且按使用频率高低从左到右依次排列,中间以冒号隔开。必须是“密码子:密码子:密码子”这种格式,非同义密码子在换行表示。
例如输入“密码子使用频率表”格式可以是:
TTT:TTC
TTA:TTG:CTT:CTC:CTA:CTG
GTT:GTC:GTA:GTG
CCT:CCC:CCA:CCG
ACT:ACC:ACA:ACG
GCT:GCC:GCA:GCG
TAT:TAC
TAA:TAG
CAT:CAC
CAA:CAG
AAT:AAC
AAA:AAG
GAT:GAC
GAA:GAG
TGT:TGC
CGT:CGC:CGA:CGG:AGA:AGG
GGT:GGC:GGA:GGG
AGT:AGC:TCT:TCC:TCA:TCG
该系统会首先将密码子表转化成为下列矩阵,体现密码子使用的优先级:
0 0 TTT 0 1 TTC
1 0 CTT 1 1 TTG 1 2 CTC 1 3 TTA 1 4 CTG 1 5 CTA
2 0 ATT 2 1 ATC 2 2 ATA 2 3 GTG
3 0 GTT 3 1 GTG 3 2 GTA 3 3 GTC
4 0 CCA 4 1 CCT 4 2 CCC 4 3 CCG
5 0 ACT 5 1 ACA 5 2 ACC 5 3 ACG
6 0 GCT 6 1 GCA 6 2 GCC 6 3 GCG
7 0 TAT 7 1 TAC
8 0 TAA 8 1 TAG
9 0 CAT 9 1 CAC
10 0 CAA 10 1 CAG
11 0 AAT 11 1 AAC
12 0 AAG 12 1 AAA
13 0 GAT 13 1 GAC
14 0 GAG 14 1 GAA
15 0 TGT 15 1 TGC 15 2 CGA 15 3 CGG 15 4 AGA 15 5 AGG
16 0 AGA 16 1 AGG 16 2 CGT 16 3 CGA 16 4 CGC 16 5 CGG
17 0 GGT 17 1 GGA 17 2 GGG 17 3 GGC 17 4 TCA 17 5 TCG
18 0 TCT 18 1 TCA 18 2 AGT 18 3 TCC 18 4 AGC 18 5 TCG
3)群体个数n的输入,以步骤以n=20为例。
第二步:遗传算法,主要进行的是删除mRNA降解信号,去除植物序列剪切信号、去除多聚腺苷酸化序列、去除内含子切割序列CATTG、去除AT富集区(连续的大于等于4个AT富集区序列),后面统称为特异序列。
如其中AATAAA、AATAAT、AATTAA、AACCAA、ATTA、ATTTA、ATAAAA、ATGAAA、AAGCAT、ATATAA、AATCAA、ATACTA、ATACAT、AAAATA、ATTAAA、AATTAA、AATACA、CATAAA。均为内含子切割序列。在实际方法运行中,首先进行AATAAA的寻找,当找到它第一个A在序列中的位置后,首先得到其在第几号碱基,将此号除以三的余数为1,则此A为三联体的第一位,如余数为2,则此A为三联体的第二位,余数为0,则此A为三联体的第三位,如果是第一位则直接替换AATAAA的第一个AAT,换为其同义密码子(同义密码子排号为0的使用频率越高,为最优密码子。如果第一位上次已被更换为排好为1,则这次更换第二个密码子AAA排好为0的密码子,同样以同义密码子排号小为优选。如果第二个密码子AAA排号也为1则替换第一个密码子AAT排号为2的密码子,以此来推。)如果是三联体的第二位则该序列加入全基因中AATAAA前的一个碱基*AATAAA(一般同义密码子第一位相差不大,当然也有例外)。*AA作为第一个开始换位其同义密码子(同义密码子排号小的使用频率越高为最优。如果*AA为同义密码子表中的最大排号,则第一密码子*AA不变,更换第二个密码子TAA,同样以同义密码子排号小为优选。)如果是三联体的第三位则**A作为第一个开始替换的密码子,方法同前。总之,在替换同义密码子的过程中全部以三联体密码子进行替换已保证最终所得蛋白质完全相同。
替换该基因序列里的AATAAA之后,重新返回检测是否有该检测位点,如果没有,则进入下一个AATAAT内含子切割序列的检测,同样方法循环进行,当该序列完成第一次各种需要删除的序列检测后,还需要重新再循环再次检测看是否因为密码子改过后又出现以前检测过的切割序列等重复。
该步骤所需去掉的序列为:
1)删除mRNA降解信号:AUUUA、AUUAA、其他;
2)去除植物序列剪切信号:AATAAA、AATAAT、AATTAA、AACCAA、ATTA、ATTTA、ATAAAA、ATGAAA、AAGCAT、ATATAA、AATCAA、ATACTA、ATACAT、AAAATA、ATTAAA、AATTAA、AATACA、CATAAA、其他;
3)去除多聚腺苷酸化序列:AATAAT类型,AATCAA类型,AATGAA类型,ATGGAA类型,AATTAA类型,TATAAA类型,其他类型(包括ATGTAA、TGTGAA、AATGCT、GATATG、ATGCAA、AATGTG、AAAGAT、ATTAA、AATAAA、AATAAT);
4)去除编码区序列中含有的内含子切割序列:5’剪接位点一般为AG/GTAAGT的保守序列、3’剪接位点末端为TGCAG/G的保守序列、其他序列;
5)修改连续的大于等于4个AT富集区。
反复循环直到基因序列没有任何一个需要删除的序列并且替换时均已三联体同义密码子进行替换,即可进如下一步。
第三步:避免mRNA的形成:在上步所生成的序列中扫描是否有正向重复(可选择大于7/8/9/10)、反向重复(可选择大于7/8/9/10)、镜像重复(可选择大于7/8/9/10)、倒转重复(可选择大于7/8/9/10)。
第四步:增加亚细胞器定位序列、kozak序列、内含子片段序列等。具体如下:
1)亚细胞器定位序列:序列来自TAIR网站中提供的蛋白亚细胞定位数据库SUBA(The Subcelular Proteomic Database);
内质网定位序列:Kdel序列、Hdel序列、其他序列;
液泡定位序列:其他序列;
叶绿体定位序列:TP转运肽、其他序列;
线粒体定位序列:其他序列。
2)kozak序列:烟草kozak序列、拟南芥kozak序列、其他序列。
3)内含子片段序列:玉米内含子adh1、玉米内含子ubil、水稻actl、马铃薯SBgLR2、其他序列。
第五步:输出序列:输出结果保存在output.txt中,方法结束。
实施例2
采用实施例的用于植物外源基因改造的CodonPlant系统,进行具体植物外源基因改造,过程如下:
第一步:输入Bacillus thuringiensis菌的NADH dehydrogenase原始基因序列(序列如SEQ ID NO.1所示。)
第二步:根据该序列任意合成20条同义序列(即具有相同蛋白质的不同核苷酸序列),编号为[0]~[19],序列对应如SEQ ID NO.2-21所示。
第三步:使用轮盘赌法随机抽取这20条中的2条。例如抽取第[0]号其期望值是0.2476,第[3]号其期望值是0.2489,作为亲本,将这两条序列各取一半进行交叉重组得到新序列命名为new_seq,将新序列进行5%的随机同义突变后,再扫描其中的特异位点,定向针对特异位点进行定点随机突变,第二次继续扫描其中的重复序列,定向针对重复序列进行定点随机突变,最后计算经过三次突变后的序列作为子代计算期望值为0.3005。比较亲本和子代的期望值大小,[0]、[3]和子代分别为0.2476、0.2489和0.2934。舍掉期望值最小的序列,将其余两条序列重新放回20条序列库中。在这20条序列中[1]期望值最大为0.3005。[1]号中有8个特异位点。
第四步:迭代100次,即重复上面第三步100次循环。
开始第一代的重复进化,通过轮盘赌法选择第[14]号和[5]号,经过三次突变后,新子代序列的期望值为0.2921,与[14]号的0.2927,[5]的0.2617相比,[5]用新子代替换,计算20条各自的最大期望值为第1号0.3005,其中有8个特异位点。经过16代重复1-3步遗传进化后,特异位点全部去除,新序列的期望值为0.5825,亲本14号为0.2927,[10]为0.4702,替换后的20条序列中最大期望值为新序列0.5825。从17代开始,后面都没有特异序列和重复序列。100次迭代后最后序列的期望值为0.6127,亲本为第[5]号,期望值为0.6092,第七号期望值为0.5861,最大值为第[13]号0.6175。
第16次迭代后,最优序列如SEQ ID NO.22所示,第100次迭代后最优序列如SEQ IDNO.23所示(输出结果),表1是100代前后结果比较。
表1 100代前后结果比较
从表1可以看出,该序列经过100代优化后,序列表达量显著增加。
实施例3
方法同实施例2,以cry9Aa-0的原始序列如SEQ ID NO.24所示(输入序列)进行基因改造,100代优化后的序列如SEQ ID NO.25所示(输出结果),表2是100代前后结果比较。
表2 100代前后结果比较
从表2可以看出,该序列经过100代优化后,序列表达量显著增加。
序列表
<110> 南京晓庄学院
<120> 一种用于植物外源基因改造的CodonPlant系统及其改造方法
<130> 100
<160> 25
<170> SIPOSequenceListing 1.0
<210> 1
<211> 1611
<212> DNA
<213> Bacillusthuringiensis
<400> 1
atgagcaatc caaataaaga tttagaggag ctgaaaaaag aagcagctag gcgtgcaaaa 60
gaagaagcga gaaaacgcct tgtagcgaaa cacgaggcgg aaataagtga gcttgaggaa 120
gaagatcaag aaaaagagaa agcgctacca aaaaacgatg atattactat agaagaagca 180
aaacgacgtg cagcagcggc tgcaaaagca aaagtgacgg cgttagcgaa gcagaaaaga 240
gaaggaaccg aagaagtaac ggaagaagaa aaagcaaaag ccaaggcgaa ggcagcagcg 300
gctgcaaaag caaaagcggc agcgttagcg aagcagaaaa gagaaggaac cgaagaagtg 360
acggaagaag aaaaagcgaa agccaaggcg aaggcagcag cagctgcaaa agcaaaagcg 420
gcgacgttag cgaagcagaa aagagaagga atagaagaag taacggaaga agaaaaagcg 480
aaagccaagg cgaaggcagc agcggctgca aaagcaaaag tggcggcgtt agcgaagcag 540
aaaagagaag gaatagaaga agtaacggaa gaagaaaaag cgaaagccaa ggcaaaagcg 600
gcggcgttag cgaagcagaa aagagaaggg acagaagaag taacggaaga agaaaaagcg 660
aaagccaagg caaaagcggc ggcgttagcg aagcagaaaa gagaagggac agaagaagta 720
acggaagaag aaaaagcgaa agccaaggca aaagcggcag cattggcgaa gcagaaagcc 780
tcgcaaggtg atggggattc gggagatgaa aaggcaaagg caattgcagc ggcaaaagcg 840
aaagcagcag cggctgcaag agcgaagaca aagggggctg aaggtaagaa agaggatgag 900
ccgaagcagg aagaactgtc cgtaaatcag ccgtatttaa atcagtatgt tgaggctatt 960
agggagaagt taggagaggg tgcattagta gattcctaca ttaataaact gtcaaaggat 1020
gtgccaactc ttgtggtgga tcccgaaaaa tattatgaag tgatggagtc actgcgattc 1080
catgagggac ttgcttttga ttatatgtca gagctacatg cgacggattt tgtgacacat 1140
atggaagtgt atgttcattt gttttcatat agtaagaaac aatcggtagc ggtgaaggta 1200
aagctagacc gagaaacgcc gcaagtcgaa tctgtgacag cgctttggaa aggggctgac 1260
tggccggagc gagaagcata cgatttgctc ggcattatat ttaaagggca tccgaattta 1320
acacgtattt taatgccaga ggattgggta ggatatccgc ttagaaaaga ctatgaaccg 1380
tatgatgtgg aggtgtaggt gtggccgtta aggttaagtt ggatcgcgag acaccgcaag 1440
tggagtctgt caccgcgctc tggaaaggcg ctgattggcc agagcgtgaa gcttatgacc 1500
ttctgggaat tattttcaag ggccatccta atctcacaag gatccttatg ccagaggatt 1560
gggttggata tcccctgcgt aaagactacg agccctacga cgttgaggtg t 1611
<210> 2
<211> 1611
<212> DNA
<213> 编号[0]序列(Artificial)
<400> 2
atgagtaatc ctaacaagga tctagaagag ttaaaaaaag aggcggcacg ccgagctaaa 60
gaagaggcca gaaagcggct tgtagcaaaa catgaagcgg agattagcga attagaggaa 120
gaagaccagg aaaaggaaaa ggctctgcca aaaaacgatg atataacgat cgaagaagct 180
aaacggaggg ctgcagcagc ggctaaagca aaagttaccg ctctcgctaa gcaaaaacga 240
gaaggcaccg aggaggtaac cgaggaggag aaagcaaagg caaaagccaa agcagccgca 300
gcggcgaagg cgaaggcggc agcgctcgcc aagcaaaagc gtgaagggac ggaagaagtc 360
acggaggagg aaaaagcgaa agccaaagct aaagcggcag ccgcggctaa agcaaaagcc 420
gcgacactag caaaacagaa gcgggagggt attgaggagg tcaccgagga ggaaaaggcc 480
aaagccaaag caaaagcggc tgctgcagca aaggctaaag tggctgcgct cgctaaacaa 540
aagcgagagg ggattgagga agttacggag gaggaaaaag ctaaggcaaa ggcgaaagca 600
gccgcgttag cgaaacaaaa acgggaaggc acggaagaag ttactgagga ggaaaaagca 660
aaagccaagg ctaaagcggc cgcccttgcc aaacaaaagc gagaggggac ggaagaggtg 720
accgaagagg aaaaagccaa ggccaaggcc aaagccgctg cgctagcaaa acagaaggcc 780
tcccaaggtg acggggactc gggagatgag aaggctaagg ccattgccgc tgcaaaggcc 840
aaagctgcag ctgcggcgcg tgcaaagacc aaaggagcag aaggcaagaa ggaggacgag 900
cctaagcaag aggagctatc ggttaaccaa ccctatctaa accagtatgt cgaagctatc 960
cgggaaaaac tcggcgaagg agccttggta gacagttaca tcaataagct gagcaaagat 1020
gtgcccaccc tagtggttga ccccgagaaa tattacgaag taatggagtc tttacggttc 1080
catgaagggc ttgcatttga ttatatgtcg gagctacatg cgacggattt tgtgacgcat 1140
atggaggtgt atgtccatct attctcatac tccaaaaagc agtccgtggc ggtcaaggta 1200
aaacttgata gagagacccc gcaggtagaa tctgttacgg cactctggaa aggggcggat 1260
tggccggaga gggaagccta tgatttgtta gggattatct ttaaagggca cccaaatcta 1320
acacggatcc taatgcccga agactgggta ggatacccct tgcgaaagga ttacgagccg 1380
tatgacgtag aagtctgagt atggcctctt aggctcagct ggatcgcacg tcataggaag 1440
tggtcactat cgcctaggtc gggtaaagcc ctgattggcc aatcagtcaa actcatgact 1500
ttttgggaac tcttttcaag ggctattctc atctcccaag gctctctctg ccagcgtatt 1560
ggactggata tcccttgtgt aaagacaaca tcgccaacaa ccctgcgctg c 1611
<210> 3
<211> 1611
<212> DNA
<213> 编号[1]序列(Artificial)
<400> 3
atgtctaacc ctaataagga cttagaagag cttaagaaag aggctgctcg gcgagcaaaa 60
gaagaggcgc gtaaacggct tgtggctaaa cacgaggcag agattagtga gctggaagag 120
gaagaccagg agaaggagaa agcccttccc aaaaacgacg acattaccat tgaagaggcc 180
aaacgccggg ctgctgcagc agctaaagca aaagttaccg cattggcgaa gcagaaacgg 240
gaaggaacag aggaagtgac cgaggaagaa aaggccaaag ctaaggctaa agccgcagcc 300
gctgccaaag caaaagctgc tgctcttgcg aaacagaaac gagagggaac cgaagaggta 360
accgaagaag agaaggctaa ggcgaaggca aaggctgcgg cagctgcgaa agcgaaggct 420
gcaactcttg caaagcagaa gcgagaaggg atcgaggagg tcactgaaga ggaaaaagcg 480
aaagcgaaag ctaaggctgc agcggccgct aaagctaagg tcgcagctct cgcgaagcag 540
aagagggaag gtatcgaaga agttaccgag gaggagaaag caaaagcgaa agctaaggca 600
gcagcccttg caaaacaaaa gcgtgagggt accgaggaag taacagagga agagaaagca 660
aaggcaaagg cgaaagccgc ggcattagca aagcagaaga gggaaggaac cgaagaggtt 720
acggaagagg aaaaagccaa agcaaaggcc aaggccgcag cccttgccaa acagaaagct 780
agccagggtg acggagactc gggagatgag aaggcgaaag ccatagcggc cgctaaggcc 840
aaagccgccg ccgcggcccg agccaagact aaaggcgccg agggtaagaa ggaggatgag 900
cctaagcagg aggagctctc cgtgaatcag ccttacctca accagtacgt agaggctatc 960
agagaaaaat taggcgaagg cgccctagta gacagttata tcaacaagct ctcaaaggat 1020
gtgcccacac tcgtggttga tcctgaaaag tactatgaag tcatggagtc cctgagattt 1080
catgaaggcc tagcatttga ttacatgagt gagctccatg cgacagattt tgtgacgcat 1140
atggaggttt acgttcacct gttctcctac tcaaagaagc aaagtgtggc cgtgaaagtt 1200
aagttggatc gtgaaactcc gcaggtagaa tcagtcactg cactctggaa gggtgcggat 1260
tggcctgagc gcgaggcata cgatctttta ggaatcattt tcaaagggca tccaaacctt 1320
actagaattc tgatgccgga agactgggtg ggataccctt tgcgaaagga ctacgaacca 1380
tacgatgtag aagtgtgagt gtggccccta aggctttcct ggatagcaag gcatcgtaaa 1440
tggtctctct cgccacgttc tggtaaagcc ctgattggac aatctgttaa acttatgaca 1500
ttttgggaac ttttttcacg tgctatcctc atatctcagg gttcgttatg tcaacgcatt 1560
gggttggata ttccctgcgt aaagaccact tcgccaacta cgctccgctg t 1611
<210> 4
<211> 1611
<212> DNA
<213> 编号[2]序列(Artificial)
<400> 4
atgtcgaacc cgaacaagga cctagaggaa ctgaaaaagg aggctgcacg tcgtgcgaaa 60
gaggaagcca ggaaaagatt agttgccaag cacgaggcag agatatcgga gttagaggaa 120
gaagaccaag agaaggagaa agcgttgccc aaaaacgatg atataacaat cgaagaggct 180
aagcgacggg ctgctgcagc tgccaaggcc aaggtgaccg cattagccaa acaaaagaga 240
gaaggtaccg aagaagtcac tgaggaagaa aaggctaagg ccaaagctaa agctgcggca 300
gctgccaagg cgaaagccgc agccctcgcc aaacagaaac gagaggggac agaggaagtc 360
acggaggaag aaaaggctaa ggctaaggca aaggctgctg ccgcagcgaa ggctaaggcc 420
gccacactcg ccaaacaaaa acgtgagggc attgaagagg ttacggagga agaaaaagca 480
aaagccaaag cgaaggccgc cgcggccgcc aaagccaaag tggctgcact agccaagcag 540
aagcgtgagg gaatcgagga agtaacagaa gaggaaaagg ctaaggcaaa ggcgaaggcc 600
gccgcgctcg ctaaacagaa gcgcgagggg acagaggaag tgaccgaaga agaaaaggcc 660
aaagctaagg ccaaagctgc agccttagcc aaacagaaac gggagggcac ggaggaagtg 720
acagaagaag agaaagccaa agctaaagcg aaggctgctg cgctagcaaa gcaaaaggct 780
tcgcaaggag acggggactc cggagacgaa aaggccaagg cgatagcagc agcaaaagcg 840
aaggcagccg cggctgctcg agctaaaacg aagggggctg agggcaaaaa ggaagatgag 900
ccaaaacagg aagaattatc ggtaaatcag ccatatctga atcagtatgt ggaggccatt 960
cgagaaaaac ttggggaagg ggcgttggtt gacagttaca tcaacaaact ctctaaggat 1020
gtgccgactt tggtggtcga ccccgaaaag tactatgaag tcatggaaag tttgcggttt 1080
catgagggcc tcgccttcga ctatatgtct gagctacatg cgacagattt tgtaactcac 1140
atggaggttt acgtgcacct attcagctac tccaaaaaac aaagcgttgc ggtcaaagta 1200
aaattagatc gtgagacacc acaagtggag agtgtcaccg ccttatggaa aggcgcagat 1260
tggcccgaaa gagaagcgta tgatctgcta ggcataattt ttaaggggca ccccaacttg 1320
acaagaatac tgatgcctga agactgggtg ggttacccct taaggaagga ttacgaaccg 1380
tacgatgttg aggtgtgagt ttggccattg cggttatcat ggatcgctag acacagaaaa 1440
tggagtctgt ctccaaggtc cggcaaggcc ctaattggac agagcgtcaa attgatgact 1500
ttctgggaat tattcagccg cgccattctc ataagccaag gatcgttatg ccagcgtatt 1560
gggctggata ttccctgcgt gaaaaccaca tctcccacca cccttcgttg t 1611
<210> 5
<211> 1611
<212> DNA
<213> 编号[3]序列(Artificial)
<400> 5
atgagcaacc ccaataaaga tctcgaagaa ctgaagaagg aagccgcacg cagagcaaaa 60
gaagaagctc gtaagcggct tgtggcaaag cacgaggccg aaatttcaga actcgaagaa 120
gaggaccagg aaaaagagaa agcgttgccg aaaaatgatg acatcactat cgaggaggcc 180
aaacggcgag cagccgcggc tgcgaaggct aaagtaactg ccctggcgaa acagaagcgg 240
gaagggactg aggaagtgac cgaggaagag aaggctaagg caaaggccaa agctgccgcc 300
gccgcaaaag ctaaagccgc tgctctcgcc aagcagaagc gagagggtac cgaggaggtt 360
acagaagagg agaaggccaa agctaaagcc aaagctgcgg ccgctgctaa ggcaaaagct 420
gctacgttgg ccaagcaaaa aagggagggt atcgaagagg taactgagga ggagaaggct 480
aaggctaaag caaaagctgc tgccgctgct aaggccaaag tagctgctct cgcaaaacag 540
aaacgggagg gcatcgaaga agttactgag gaggaaaagg cgaaggcgaa agcaaaagct 600
gcagccctag ctaaacagaa gagggaaggt acagaggagg tcactgaaga agaaaaagcg 660
aaggctaaag ctaaggcggc ggccttggca aaacagaaga gggaagggac cgaggaggtg 720
actgaagaag agaaggcaaa ggctaaggcg aaagctgctg cgttggcaaa acagaaagcc 780
agccaaggag acggtgactc aggagacgag aaagcaaagg cgattgctgc ggcaaaggct 840
aaagcggcgg ccgcggcaag ggcgaaaacc aagggtgcgg aaggtaaaaa agaggatgag 900
cctaagcagg aggagctctc agtgaatcag ccatatctaa accaatacgt cgaggcaatc 960
agggaaaaac taggggaagg cgctctagtg gattcctaca tcaataaact ctcgaaggat 1020
gtcccaacac tcgttgtaga cccagaaaaa tactacgaag tcatggaaag tctgagattc 1080
cacgaaggct tggcatttga ctatatgtcc gagttgcacg ccaccgactt tgttactcat 1140
atggaagtat acgtccatct cttcagctat agcaaaaaac aaagcgtcgc ggttaaggta 1200
aaattagaca gggagacacc tcaagtggaa tcagtgactg ctctatggaa gggggcagac 1260
tggccggaga gggaagcata tgacttgcta gggataatct tcaagggcca tcccaatctc 1320
acacgtatat taatgcctga agattgggta ggatatccgc ttcgcaaaga ttacgagccg 1380
tacgatgttg aggtgtaggt ctggccactc agattatcct ggatcgctag acatcgaaag 1440
tggtcactaa gcccgagatc gggcaaggcg ctgattgggc agtctgtaaa gttgatgacg 1500
ttttgggaac tattttcccg ggcaattctg atttcccaag gttcattgtg ccagcggata 1560
ggccttgata ttccatgtgt aaaaactact agtcctacca cgctaaggtg c 1611
<210> 6
<211> 1611
<212> DNA
<213> 编号[4]序列(Artificial)
<400> 6
atgtcgaacc ctaataagga tttagaagag ttaaagaaag aggctgcaag acgtgctaaa 60
gaggaagcgc gtaaacgttt agttgcgaag catgaggccg aaatatcaga gctagaggag 120
gaagaccaag agaaggagaa agcgttgccg aaaaacgatg atatcacaat agaagaggcg 180
aaacggaggg ctgcggctgc cgcgaaggct aaagtgaccg cgcttgctaa acagaagcga 240
gaaggtacag aagaagtgac tgaagaagag aaggcgaagg ctaaggcaaa ggccgcagca 300
gcagctaaag caaaagcggc ggccctggca aaacagaaac gagagggtac tgaagaagtt 360
acggaggaag agaaagcaaa agctaaggca aaagccgcgg ctgctgccaa agctaaggcg 420
gcgaccttag ctaagcagaa acgagagggg atagaggagg taacagaaga agagaaggca 480
aaagccaagg caaaggcagc ggctgcggcc aaagctaaag tggcagcact agctaaacag 540
aaacgagaag gaattgaaga ggtaactgaa gaggagaaag ctaaagcaaa agctaaggct 600
gcagcactgg ctaaacagaa gcgcgaaggt acagaagaag tcaccgagga agaaaaggct 660
aaagcaaagg caaaggcagc agctcttgcc aagcagaaac gtgaggggac cgaggaagtt 720
accgaggagg aaaaagcaaa ggcaaaagcc aaggcggcag cgttagcaaa gcagaaagcc 780
tcgcaaggtg atggtgattc aggagacgaa aaggccaagg cgattgcggc cgctaaagca 840
aaggccgcag ctgccgcacg tgcaaaaacc aagggggcgg aaggtaaaaa ggaagacgag 900
ccgaagcaag aagagttatc agtcaaccag ccttatctga accagtatgt agaagcaata 960
cgagagaagt taggcgaagg ggcgctggtt gattcataca tcaacaaatt gtctaaagat 1020
gtccccaccc tcgttgtgga ccccgaaaag tactacgagg taatggagtc actccgattc 1080
catgagggcc ttgcatttga ctatatgtcc gagttgcacg caactgactt tgtcacccac 1140
atggaagttt acgtgcatct tttctcgtat agcaaaaagc aatctgtcgc agtaaaagta 1200
aagctcgacc gtgagactcc tcaggtcgag tccgtaaccg ccctttggaa gggtgccgac 1260
tggccggaac gcgaagcata cgatcttctt gggataattt tcaaaggtca tcctaatctt 1320
acgcggatcc tgatgccaga ggactgggtg ggttacccgc ttcggaagga ctacgagcct 1380
tatgatgttg aggtttaagt ctggccgctt cgcttatcgt ggatagcacg acatcgaaag 1440
tggtcactca gcccgcgatc tggtaaggcg ttgattggtc aatccgttaa actcatgaca 1500
ttctgggagc tattttcgcg tgccatactg ataagtcaag gatcactctg tcaacgcata 1560
ggactggaca taccgtgcgt aaagacaacc tcgccgacta ccctacgttg t 1611
<210> 7
<211> 1611
<212> DNA
<213> 编号[5]序列(Artificial)
<400> 7
atgagtaacc ctaataagga cctagaagaa cttaaaaagg aggcggcgcg acgtgcgaag 60
gaggaagctc gaaagcggtt ggttgctaaa cacgaagctg agatttcgga gctcgaggaa 120
gaagaccaag aaaaagaaaa ggctctaccg aaaaacgatg atattacgat tgaggaagcc 180
aagcggcgcg ccgccgcggc tgcaaaggca aaagtgactg ccctggccaa gcaaaagaga 240
gaaggaaccg aggaagtcac ggaagaggaa aaagcgaaag caaaggctaa ggcggcggct 300
gcagccaaag caaaggccgc ggcattagcg aaacagaagc gcgagggtac cgaagaggta 360
acggaagaag agaaggcgaa agctaaagcg aaagctgccg ccgcggccaa agctaaggct 420
gctaccttgg cgaagcagaa acgcgaagga atagaggaag tcactgagga ggaaaaggcg 480
aaagccaagg ccaaagctgc ggcagctgcc aaagctaagg tagcagcctt ggcaaaacag 540
aaacgcgagg gaatcgagga agttacggaa gaggagaaag caaaagcgaa ggcaaaggcc 600
gccgcgttgg cgaagcaaaa gcgtgaaggc acggaagaag tgaccgagga agagaaagcg 660
aaagccaaag ccaaagccgc ggcattggct aaacaaaaga gagaagggac agaggaagta 720
acggaggaag agaaggcgaa agcaaaagca aaggctgcgg ccttagcgaa acaaaaagcc 780
tcacaaggtg atggtgacag tggtgacgaa aaggcgaaag ccatcgccgc cgcgaaagct 840
aaagctgccg ctgcagcacg agccaagacc aagggcgcag aagggaaaaa ggaggatgaa 900
ccaaagcagg aggaactttc agttaatcaa ccctacctaa atcaatatgt cgaagcaata 960
cgggaaaaac ttggtgaagg cgccttggtg gactcttaca tcaataagct ctccaaggat 1020
gtgccgactc ttgtggtaga tcccgagaaa tattatgaag tcatggaatc cttgagattt 1080
cacgagggtc ttgcatttga ctacatgtcg gaattgcacg ctacagactt cgtaacccac 1140
atggaagtct atgtccacct tttctcctac agtaaaaaac agtcggtagc cgtaaaagta 1200
aagcttgacc gagaaacccc acaggtggaa tcggtcaccg ctttatggaa aggtgccgat 1260
tggcccgaac gtgaggcgta tgacctgttg ggcattattt tcaaaggaca ccctaacctc 1320
actcggattc tgatgccgga ggactgggtt ggatatccat tgaggaagga ctacgaacct 1380
tatgacgtgg aggtataggt atggccactt agactctctt ggatagcccg ccatcgcaaa 1440
tggagcctat ctcctcgttc aggtaaagca ctcattggtc aatctgtcaa gttgatgacg 1500
ttctgggagc tgttttctag agctattttg atttcccagg gatctctgtg tcaacgaatc 1560
gggctcgata taccgtgcgt caagacgact agtccaacca ctcttcgatg t 1611
<210> 8
<211> 1611
<212> DNA
<213> 编号[6]序列(Artificial)
<400> 8
atgtcaaatc ctaataaaga tcttgaggag ctcaaaaagg aggccgcacg acgagcaaaa 60
gaagaggcga gaaagcgatt agtagctaaa catgaggccg agattagcga gttagaagag 120
gaggaccaag agaaggagaa agccttacct aagaatgatg acatcacgat tgaagaagca 180
aagaggcgcg cagccgcggc tgcgaaagcg aaggtgaccg ctctagccaa gcaaaagcgt 240
gagggtaccg aggaagtaac agaggaagaa aaagccaaag ccaaggcaaa ggcggctgcg 300
gccgccaaag ctaaagccgc tgcattagcg aagcagaaga gggaagggac ggaggaagta 360
acagaggaag aaaaggcgaa agccaaggca aaagccgctg ctgctgcgaa agcaaaggcg 420
gcaaccctgg caaaacagaa gagggaggga atcgaggagg taaccgagga ggaaaaggcg 480
aaagcgaaag ccaaagctgc tgcagccgcg aaagccaaag tggcagcact cgcgaaacag 540
aaacgggaag gaatagaaga agttaccgag gaggagaagg cgaaggcaaa agctaaagca 600
gccgctctcg cgaagcaaaa aagggagggg accgaggaag tcaccgagga ggagaaggca 660
aaagcaaaag caaaggcagc cgcattggcg aaacaaaaac gcgagggaac cgaggaagtg 720
accgaggagg aaaaggcaaa agctaaagca aaagctgcag ccctagcaaa gcaaaaagct 780
agccagggtg atggcgattc gggcgatgaa aaggcaaaag ctatagccgc ggccaaggcg 840
aaggctgccg ccgccgctcg ggcaaagacc aaaggggctg aaggaaaaaa ggaggatgaa 900
ccaaagcaag aggaactaag tgttaaccaa ccatatctga accaatatgt tgaggccatt 960
cgagaaaaat taggagaggg tgcgttagtg gactcgtaca ttaataagct atccaaagat 1020
gtgcccaccc ttgttgtcga ccccgaaaag tattacgagg taatggagtc gctcagattt 1080
cacgagggat tggctttcga ctatatgtcg gagttgcatg caacggattt cgtcacacac 1140
atggaggtat acgttcatct tttcagttat tcgaagaaac agtccgtagc cgtgaaggtg 1200
aagcttgacc gagaaacgcc ccaagtggaa tcagtgactg cattgtggaa aggtgctgat 1260
tggccagaga gagaagcata tgacctcctg ggtataatat tcaaggggca ccccaacctg 1320
acccggatcc taatgccgga agactgggtg gggtaccctc tacgcaagga ttatgagccg 1380
tatgatgttg aggtctaagt ctggccacta aggctgtcgt ggatagcccg acaccgtaag 1440
tggtcgctta gccctcgaag tgggaaagcc ctcattgggc agagtgttaa gttaatgacc 1500
ttttgggagt tgttctccag agcgattctg ataagtcagg ggtcgttatg ccagcggatt 1560
gggttggata ttccatgcgt taaaaccact agccctacga cccttcgttg t 1611
<210> 9
<211> 1611
<212> DNA
<213> 编号[7]序列(Artificial)
<400> 9
atgagtaatc ccaacaagga ccttgaggag ttaaaaaagg aggcggcacg acgcgcaaaa 60
gaggaggccc ggaagcgcct cgtggcaaaa cacgaagccg agatttcaga gctagaagag 120
gaagaccaag aaaaagagaa agcccttccc aagaacgatg atataacaat agaagaagcc 180
aagcgcaggg cagcagcggc ggcgaaagct aaggtcacgg cactggcgaa acaaaagcgc 240
gaaggcacag aggaggttac tgaagaggaa aaggctaaag ccaaagcgaa agccgccgct 300
gccgcaaaag caaaagccgc ggcgcttgcg aagcaaaagc gtgagggcac ggaagaggtt 360
actgaagaag aaaaggctaa agcaaaagct aaggcggctg cagctgctaa ggcaaaagcc 420
gccacactcg cgaaacagaa gcgggaggga atagaggagg tgacggaaga agagaaagcc 480
aaagcgaagg cgaaggcagc tgcggcggct aaggcgaagg ttgcggcgct tgcaaagcag 540
aaaagagaag ggattgaaga agttaccgag gaggaaaaag cgaaagcgaa ggctaaagca 600
gcagcgttag ccaaacaaaa gcgggaagga actgaagaag tcaccgaaga agagaaggct 660
aaagcaaagg ccaaggcggc agctttggcc aaacagaaac gtgaagggac ggaagaagtc 720
actgaggagg agaaggccaa agccaaagcg aaggctgctg cattggccaa gcagaaggcg 780
tcccaggggg acggcgactc tggagatgag aaggcaaaag ccatagctgc ggccaaggca 840
aaggctgccg cggctgcgag agcaaagacg aaaggcgcgg agggaaaaaa ggaggacgaa 900
ccaaaacagg aagaactatc cgttaaccaa ccgtatctaa atcagtacgt cgaagcgatt 960
cgcgagaagt tgggcgaggg tgcgttagtc gactcgtaca taaacaagct atcgaaagat 1020
gttccgactt tggtcgtcga ccccgaaaaa tactacgaag tgatggagtc gcttcgtttc 1080
catgaaggcc tggcgtttga ttacatgtcc gagttacatg caaccgattt cgtcacacat 1140
atggaagttt acgtccacct cttttcttac tcgaaaaagc aatctgtcgc agtgaaagtt 1200
aaactagatc gagagacccc acaagtagaa tcagtaaccg ccttatggaa aggcgcagat 1260
tggccagaac gcgaggcata tgatctatta ggtataatct ttaaggggca cccgaacctt 1320
acgaggatcc taatgcctga agactgggtc ggctatccgc ttcgaaaaga ttatgaacct 1380
tatgacgtag aggtctgagt atggccacta cgtctatcat ggatagcccg tcaccgaaaa 1440
tggtcactca gcccacgatc cggaaaagca ttaataggtc aaagtgtaaa gttaatgacc 1500
ttttgggagc tctttagtcg tgcgatacta atatctcaag gttccttatg tcagcgcata 1560
ggacttgaca ttccttgcgt taaaactaca agccccacga ccctgcgatg t 1611
<210> 10
<211> 1611
<212> DNA
<213> 编号[8]序列(Artificial)
<400> 10
atgagtaatc ccaataagga tttagaggag ctaaagaagg aggccgcaag gcgcgctaaa 60
gaggaggctc ggaagcgcct tgtagcaaaa cacgaggcgg agataagtga gctcgaggaa 120
gaagatcagg aaaaggaaaa ggcattacct aagaacgacg acataacaat tgaagaagca 180
aagagaaggg ccgcggctgc cgcaaaggca aaagtaacag ctttagccaa acagaagcgt 240
gaaggcacgg aggaggtgac tgaggaagag aaagctaaag ctaaagcgaa ggcagccgct 300
gctgcgaaag cgaaagccgc tgcactagca aagcaaaagc gagagggtac cgaggaggtc 360
accgaggaag aaaaggcaaa ggcaaaggct aaggcagcag cggccgccaa agccaaagcc 420
gctactcttg ctaagcaaaa gcgagaagga atagaggaag taacggagga ggaaaaggct 480
aaagcaaaag cgaaagcagc agcggccgca aaggcaaagg ttgctgcact ggcgaaacaa 540
aagcgtgaag gtattgagga agtcaccgag gaggagaaag ctaaagccaa ggcaaaagct 600
gccgctttgg cgaaacagaa gcgcgagggg acagaggaag tcaccgagga ggaaaaagcc 660
aaagcgaaag caaaagccgc ggcactagca aagcaaaaac gtgaaggtac ggaggaagtc 720
acagaggagg agaaggctaa agcaaaggcc aaggcagcag cgcttgccaa acaaaaagct 780
tcgcaggggg acggcgactc tggagatgag aaagcaaagg cgatcgccgc ggctaaagcg 840
aaagcggcag ctgccgcacg agcgaaaacg aaaggggctg aagggaagaa ggaggatgaa 900
cctaaacaag aggaactgag cgtgaatcaa ccttatctca atcagtatgt ggaagcaatc 960
cgggaaaagt taggcgaagg agctttggtg gactcttata ttaataagct ttcaaaagac 1020
gttcccacgc tcgtagtgga tccggagaaa tactatgagg taatggaatc cttacgtttt 1080
cacgagggac tagctttcga ttacatgtcc gaattgcatg cgactgattt tgttactcac 1140
atggaggtgt acgttcacct attctcatat tctaagaaac aatcggttgc agtaaaggta 1200
aaattagaca gggaaacgcc tcaagtggag tcagtgacgg cgttatggaa aggtgcggac 1260
tggccggagc gggaagctta cgacttgtta ggtataatct ttaaagggca tcctaacctg 1320
acccgtatcc tgatgcccga agactgggtt ggttatccct tgcggaaaga ttacgaacca 1380
tatgacgtgg aagtgtgagt ttggcctctg agattgagtt ggatcgctcg ccatcgtaaa 1440
tggagcttgt ctccgcgatc gggaaaggcc ctgataggac agagtgtcaa gttgatgacg 1500
ttttgggaac tcttttcgag ggcgatcctg atttcacaag gctccttgtg ccaaaggatt 1560
ggtctcgata tcccatgcgt taagactacg tcgccgacca cgctacgttg t 1611
<210> 11
<211> 1611
<212> DNA
<213> 编号[9]序列(Artificial)
<400> 11
atgtcgaatc caaacaaaga tcttgaagaa ttgaagaagg aggccgcacg gcgagcaaag 60
gaggaggcga gaaagaggct tgtcgcaaaa catgaggccg agatttctga gttagaggaa 120
gaggatcaag agaaagagaa ggccctccct aagaacgatg acatcactat agaggaagca 180
aaaagacggg ctgcagccgc ggcgaaggct aaagtgaccg cactggcaaa acagaaacgg 240
gaaggtaccg aagaggtcac cgaggaagaa aaggccaaag cgaaggcgaa agcagctgct 300
gccgccaaag ccaaggcagc ggccctggct aaacaaaaac gggaaggtac cgaagaggta 360
acagaagaag aaaaagcaaa agctaaagcc aaagcggcag ctgcggcaaa ggctaaagca 420
gccacgctag cgaagcaaaa aagagagggc atagaagaag tgacagagga ggagaaggcg 480
aaagctaagg cgaaagctgc ggcagcagcg aaggctaaag tggccgcatt ggccaaacaa 540
aaacgcgagg gcattgagga agtgactgag gaggaaaagg ctaaagccaa ggccaaggcg 600
gctgcattgg ccaagcaaaa aagggagggt acggaagagg tgacggagga agaaaaagca 660
aaagcaaaag caaaggccgc agctttggct aagcaaaaaa gggaaggtac tgaagaagta 720
actgaagagg agaaggcaaa ggcaaaggcc aaggcggcgg cattagccaa acaaaaggct 780
agtcaagggg acggtgattc gggtgatgag aaggcaaaag ctatagctgc ggctaaagcg 840
aaagccgccg ctgcagcaag ggcgaaaacc aagggagcag aaggaaaaaa ggaggacgaa 900
ccaaaacaag aggaactctc agtaaatcaa ccctatttga accaatacgt tgaagccata 960
agggaaaagc ttggggaggg ggccctcgtc gactcataca taaacaagct ctctaaagat 1020
gttccaacgc tagtagttga tccagaaaag tactatgagg tcatggaatc actccgattt 1080
cacgaggggt tagctttcga ttatatgagc gaactacatg cgactgactt cgttacacat 1140
atggaagtat acgttcatct cttttcttac tcaaagaaac agtcagtagc agtaaaagtt 1200
aaattagatc gagaaacgcc tcaagtcgaa tctgtgaccg cactctggaa aggagctgat 1260
tggcccgaac gtgaagccta cgatttgctt gggataatat ttaaaggaca ccctaacttg 1320
acaagaattc ttatgcccga ggactgggta gggtatccgc tgagaaaaga ctatgaaccg 1380
tacgacgttg aagtttaggt ttggccccta agattgtctt ggatagccag acaccgtaaa 1440
tggagcctat ccccacgatc cggtaaagcg ctaattggac agtcggtgaa gctgatgact 1500
ttttgggagc ttttctcgag agcaattctt atttcgcagg ggtcactgtg ccagaggatc 1560
ggcctggata tcccctgtgt aaaaactaca tcaccaacga cccttcgatg t 1611
<210> 12
<211> 1611
<212> DNA
<213> 编号[10]序列(Artificial)
<400> 12
atgtcgaatc cgaacaagga cttggaggag ttaaagaaag aggctgcgag gcgcgccaaa 60
gaggaggcaa ggaagcgtct tgtggctaag catgaggccg agatttccga actggaagaa 120
gaggaccaag aaaaggagaa agctctacct aagaacgatg atataacgat tgaggaggca 180
aaacgaaggg cagcagcggc ggcaaaagcg aaagtaactg cactcgcaaa acaaaaacga 240
gaggggactg aagaagtgac agaagaggag aaagcaaagg ctaaggcgaa ggcggctgcg 300
gccgccaagg ccaaggctgc agccttagca aagcagaaga gggaaggtac tgaagaagtt 360
accgaggagg agaaagccaa agcgaaggct aaggccgcgg cggcggcaaa ggcaaaagca 420
gcaaccctcg caaagcagaa aagagaaggc atagaagaag tgacggaaga ggaaaaagct 480
aaggctaagg caaaggcagc ggcggctgcc aaagctaagg tcgcggcctt ggctaagcag 540
aagagggagg ggatcgaaga agtgacagag gaggagaaag caaaagccaa agcaaaagcc 600
gcagctcttg cgaaacagaa gcgtgaagga acagaggaag taacagaaga ggagaaagcc 660
aaggcaaaag ctaaagctgc agctttagcg aagcagaaaa gagagggcac cgaagaagtt 720
acagaagagg agaaggcgaa agcaaaggca aaagctgctg cactagccaa acagaaagcg 780
tcgcaggggg acggagattc gggcgatgag aaagctaaag cgattgccgc agcgaaagcg 840
aaggctgcag ctgcggcacg cgcaaagacc aaaggggcgg aggggaagaa agaggacgaa 900
cctaaacaag aagagctaag tgtcaaccaa ccttacttga atcaatacgt agaagcgatc 960
agagagaagt tgggtgaagg cgctctggta gattcgtata ttaataaact ttcaaaagat 1020
gtgcccacgc tagttgtaga tcccgaaaag tattatgaag tcatggagtc gttgaggttc 1080
cacgagggct tggcttttga ttatatgtca gaactccatg ctacagattt cgtaacgcat 1140
atggaagtgt acgtacatct cttttcatac tctaaaaagc agtcggtcgc tgttaaagtg 1200
aagctggacc gcgagacgcc acaggttgaa tcggtaacgg ccctgtggaa gggcgctgac 1260
tggccagagc gagaggccta cgacctccta ggaataatat ttaaaggtca cccgaatttg 1320
acgagaatcc taatgcccga ggactgggtc ggttatcctc ttagaaagga ttatgagcca 1380
tatgatgtag aagtataagt ttggccgcta cgtttatctt ggatagcgag acacagaaag 1440
tggtcactca gtcctagatc gggtaaagca ctcataggac aatctgtgaa gttgatgacg 1500
ttttgggagc tattctcgcg tgcaatatta atttcccagg gatccctatg ccaaaggata 1560
ggcctggata tcccatgtgt aaaaacgacg agtccaacca cgcttcgctg t 1611
<210> 13
<211> 1611
<212> DNA
<213> 编号[11]序列(Artificial)
<400> 13
atgtcgaatc caaacaagga tctggaagaa ctgaaaaaag aagcagcacg acgagcaaag 60
gaagaggcgc gcaaaaggtt ggtcgctaaa catgaagcgg aaattagtga gctggaagag 120
gaggaccaag agaaggaaaa ggcgctgccc aagaatgatg acatcaccat cgaagaagcc 180
aaaagacgcg ccgctgcagc cgccaaagct aaggtaacgg cgttagccaa gcaaaaacga 240
gaaggaactg aggaagttac cgaagaggaa aaggcaaagg ccaaagctaa agccgcagca 300
gcagcaaagg ccaaggctgc cgcgctggcc aaacaaaaac gagaagggac ggaggaggtt 360
accgaagaag agaaggcgaa ggccaaggcg aaggctgccg cggcagctaa agcgaaggcc 420
gctacactag ctaaacaaaa gcgcgagggc atagaggaag ttaccgagga ggagaaggca 480
aaggctaagg ccaaagccgc tgcagctgcc aaggccaaag tagctgccct tgcaaagcaa 540
aagagagaag gtatcgagga ggtaacagaa gaagagaagg ctaaggccaa ggccaaagcg 600
gcagcactag ccaagcagaa acgggaagga accgaggaag tcacggagga agaaaaagcc 660
aaggcaaagg ccaaagcagc tgcgcttgct aaacaaaaac gcgaggggac ggaggaagtt 720
accgaggaag agaaggccaa agcgaaggcc aaggctgctg cattagcaaa acagaaggca 780
agccaaggtg acggggactc aggcgatgag aaggcgaagg ccatagctgc tgcaaaggct 840
aaagcagccg cagctgcgag ggcgaaaact aagggggcag aaggtaaaaa agaagacgaa 900
ccaaagcagg aggagctcag tgtgaaccag ccctacttga accaatatgt agaggccatc 960
cgtgaaaaac tcggagaggg cgcccttgtc gattcctaca taaacaaatt aagcaaagat 1020
gtaccaacgc ttgtggtcga cccagagaag tactacgaag tcatggagtc tctaagattc 1080
cacgaaggac tcgcattcga ttacatgtcc gagctgcacg ccactgattt tgtcacgcat 1140
atggaagtat acgtacactt attttcctac tccaaaaaac agagtgtagc cgtaaaggtt 1200
aagcttgacc gggaaacacc tcaggtagaa tccgtaactg cactatggaa aggggcagat 1260
tggcccgagc gtgaagctta cgatcttctc ggcatcatct ttaaaggaca ccctaacttg 1320
actcgcatac tcatgccgga ggactgggtt ggatacccgc tacgcaaaga ttatgaaccc 1380
tacgatgtcg aagtataagt gtggccacta cggctgtcat ggatagctag gcacagaaag 1440
tggtcccttt cgcctcgcag tggtaaggct cttattggac agagtgttaa gctgatgacg 1500
ttttgggagc tgttctcaag ggcaatatta atcagtcaag gtagtctgtg tcaacgaata 1560
gggttggaca taccatgcgt aaaaacaacc tctcctacaa cgttacgttg t 1611
<210> 14
<211> 1611
<212> DNA
<213> 编号[12]序列(Artificial)
<400> 14
atgagcaatc ccaacaagga ccttgaggag ctaaaaaagg aagctgctag acgggccaag 60
gaggaggctc gaaaacgact cgttgcaaaa cacgaggccg aaatttctga gcttgaagaa 120
gaagatcaag aaaaggaaaa ggcgttacca aaaaacgatg acataacgat tgaagaggcg 180
aaacgtagag cggctgcggc cgctaaagct aaagtgacgg cattagcgaa acagaagaga 240
gagggtactg aggaggtaac tgaggaggag aaggctaaag ccaaagccaa agcagcagca 300
gccgctaaag caaaagctgc cgcattggcc aagcaaaaaa gagagggcac agaagaggtg 360
accgaggagg aaaaagccaa agccaaggca aaagcagctg cagcagctaa ggccaaagct 420
gccactctgg ccaagcaaaa acgagagggt atagaagaag taacagagga agagaaagcc 480
aaggccaaag caaaagcggc ggcggccgcc aaggcaaaag tagctgcgct tgcaaaacaa 540
aagcgcgaag gaatcgagga agttactgaa gaagagaagg caaaggcgaa ggcgaaagcg 600
gcagctcttg cgaaacaaaa acgcgaaggc accgaggagg taactgagga ggagaaggcc 660
aaagctaagg ctaaagctgc agcccttgct aaacagaagc gcgaaggtac agaggaggtg 720
acggaggaag aaaaggcgaa agcgaaagcg aaagcggccg ctctggcgaa acagaaagct 780
tcgcaaggag atggagattc tggcgatgaa aaagccaaag ctatagccgc cgctaaggcc 840
aaggctgctg ctgccgcgcg tgcaaaaacg aaaggtgcgg aggggaagaa agaggatgag 900
cctaagcaag aagagctctc tgtgaatcaa ccttacctca accaatatgt ggaagccatt 960
cgagaaaaac taggagaggg agcactggta gattcttata ttaacaaact cagtaaggac 1020
gtgcctacac tcgttgtaga tccagagaag tactacgaag ttatggagtc gcttcgattt 1080
catgaaggtc tggcctttga ttatatgtcg gagttacatg caacggattt tgtcacccat 1140
atggaagtgt acgttcattt gtttagctac agtaaaaagc agagtgttgc cgtgaaggtg 1200
aaactggacc gggagacgcc acaggtggag tccgtaacag ccctttggaa gggagcggat 1260
tggccggaaa gagaagcgta cgatcttctc gggatcattt ttaagggtca tcctaacctc 1320
acgcgaattt taatgccgga ggattgggtt ggatacccat tgaggaaaga ctatgagccc 1380
tacgatgtcg aggtataggt atggccccta aggctgtcat ggatagctcg ccatcgcaaa 1440
tggtcactca gcccgcgctc tggaaaagcc cttatcgggc aaagcgtaaa gttaatgacc 1500
ttttgggaac tctttagtcg tgccatactc atctcccagg gatcactgtg ccagcgaatc 1560
ggcttagata tcccgtgtgt gaagaccacg agcccaacta ctctgaggtg c 1611
<210> 15
<211> 1611
<212> DNA
<213> 编号[13]序列(Artificial)
<400> 15
atgtccaacc ctaataaaga ccttgaagag cttaaaaagg aggcagccag aagggccaaa 60
gaagaagcac gaaagagact agtcgcgaaa catgaggccg aaatttcgga attggaagag 120
gaagaccagg aaaaagaaaa ggctcttccg aaaaacgatg atattaccat agaagaagcc 180
aaacgacgcg cagcggcggc ggcgaaagcc aaggttaccg ctttagccaa gcagaagaga 240
gaagggacgg aagaggtcac tgaagaggag aaagcgaaag cgaaagccaa agctgcggcg 300
gccgctaagg ccaaagctgc ggcgctagct aagcagaaga gagagggcac tgaggaggtc 360
actgaggagg aaaaggcaaa ggccaaggca aaagccgctg cggccgcgaa agcaaaagcc 420
gctacactag cgaagcaaaa acgagagggt atcgaggaag tcaccgagga ggaaaaagcc 480
aaagctaagg cgaaggctgc cgctgcagct aaagcgaagg ttgcggcact cgcgaaacag 540
aagcgcgagg gcatagaaga agtgacggag gaggaaaagg ctaaggctaa agcgaaggcg 600
gccgccctgg cgaagcagaa gcgtgagggc acggaagaag taaccgagga ggaaaaggcg 660
aaggcaaagg ccaaggccgc ggctttggcg aagcaaaagc gggagggcac ggaggaagtg 720
acggaggaag agaaagcgaa agctaaggca aaggctgcag cattggcaaa gcagaaggcg 780
agtcagggcg acggcgattc cggagacgag aaagcgaagg caatcgccgc ggccaaagct 840
aaggctgctg ctgcagcgcg ggctaagacc aagggagcag aaggtaaaaa agaagacgaa 900
cccaagcagg aagagctttc ggtcaatcaa ccctatttaa atcaatatgt tgaggcaata 960
cgagaaaagt tgggagaggg ggctttggta gactcttata ttaacaaact atcgaaggat 1020
gtgccgactc tagtggttga tcccgaaaag tattatgaag tgatggagag tcttcgcttc 1080
cacgagggcc tcgcgtttga ctatatgtcc gaactacatg ctactgactt tgtcactcat 1140
atggaggtct atgtccacct tttctcttac agcaaaaagc agagcgttgc cgttaaagtt 1200
aaactggacc gcgaaactcc tcaggttgag tcagtcactg cgctctggaa aggcgcggat 1260
tggcctgaaa gggaggccta cgatctacta ggcatcatat tcaaaggcca ccctaactta 1320
acgaggatcc ttatgccgga agactgggtt ggttatccgt taagaaaaga ttatgaaccg 1380
tatgatgtgg aggtataagt ctggcctctt cgcctttctt ggattgctcg tcatagaaag 1440
tggtcgctat caccgcggtc tggtaaagcc ctcattggac agagcgttaa gttgatgacc 1500
ttttgggagc tgttttcacg ggccatattg atttcacagg gctctctatg ccagcggata 1560
ggacttgaca ttccttgtgt caaaacgacc tctccaacaa cattgcgctg c 1611
<210> 16
<211> 1611
<212> DNA
<213> 编号[14]序列(Artificial)
<400> 16
atgtctaatc ccaataagga tttggaggaa ttaaagaaag aggccgcccg gcgggcgaag 60
gaggaggcta gaaaacggct agttgcgaag cacgaagcgg agatttctga attggaagag 120
gaagatcaag agaaagagaa ggccctccca aagaatgacg atatcactat tgaagaggca 180
aagcgtcgag ccgcggctgc agcgaaggca aaagttaccg ccctggcaaa gcagaagagg 240
gaagggaccg aggaggtcac tgaggaagag aaggcgaaag ctaaagccaa ggcagccgcg 300
gctgccaagg ccaaagcagc agcactcgcc aaacaaaaaa gagagggcac cgaggaggtt 360
acggaggagg agaaagccaa agccaaggca aaggcagcag ccgctgcgaa ggctaaagct 420
gcgactcttg ctaagcaaaa acgtgaaggg attgaggaag tcactgaaga ggagaaggcg 480
aaagcgaagg ctaaggctgc cgctgcggcg aaagcaaaag tggctgccct cgcaaaacaa 540
aagcgcgagg gtatcgaaga ggtcacggag gaagaaaaag ctaaagctaa agccaaggcg 600
gctgcactcg caaagcagaa gagggaaggt accgaagaag taacagagga ggaaaaagca 660
aaagcaaaag caaaagccgc ggcattggca aaacagaaga gggaaggaac cgaggaagtc 720
acagaggagg agaaagctaa agccaaggct aaggcggcag cgcttgcgaa gcagaaagct 780
agtcaaggtg acggcgatag cggcgacgaa aaagctaagg cgattgcagc agcaaaagct 840
aaggccgcag ctgccgcccg ggcgaaaacc aagggagcag aaggtaagaa agaggatgaa 900
cctaagcaag aggaattgtc agttaatcaa ccatacctga atcagtacgt tgaagcaata 960
agagagaaac tgggcgaggg cgccctcgta gatagctaca ttaataagtt aagcaaagac 1020
gttcctacct tagtagtcga tccagagaaa tattatgaag ttatggaaag cctaagattc 1080
catgaaggac tagcgttcga ttacatgtct gagctacacg ctaccgactt tgtaacacac 1140
atggaagtgt atgtccatct gttctcgtac agcaaaaaac agtctgtcgc agttaaggtg 1200
aagcttgata gagagactcc gcaagtcgag agcgttaccg ccctgtggaa aggggcggat 1260
tggcctgaac gagaagcgta tgacttatta ggtataatct tcaaaggcca cccaaattta 1320
acacgcattc ttatgcccga agactgggta ggctaccctc ttaggaaaga ctatgagccg 1380
tacgacgtcg aggtttaggt ctggcccttg cgtctttcat ggatagcacg acaccgtaag 1440
tggagtttat caccaaggtc tgggaaagcg ctgatcgggc aatccgtcaa actcatgacc 1500
ttttgggaac tgttttcacg agcaattttg atctcccaag gctctttatg tcagcgtata 1560
ggtctggata taccgtgcgt caagacgacg tcccctacga ctctcaggtg t 1611
<210> 17
<211> 1611
<212> DNA
<213> 编号[15]序列(Artificial)
<400> 17
atgtctaacc caaacaaaga tctggaggag ttgaaaaagg aggcagctcg tcgagcgaag 60
gaggaagcac gaaagcgtct ggtcgcaaaa catgaggccg aaatttccga attagaagaa 120
gaggatcaag aaaaggagaa agctttacct aaaaatgatg acattactat cgaggaggcc 180
aagcgtagag ctgccgcggc tgcaaaagcg aaagttaccg cattagcgaa gcaaaagcgg 240
gagggcaccg aagaggtgac cgaggaagaa aaggctaaag ccaaagccaa agccgctgcc 300
gccgcgaagg ctaaggccgc cgccctcgcg aaacaaaagc gtgagggtac cgaggaggtc 360
acagaggagg aaaaggctaa agcaaaagcc aaggcggccg cagctgcgaa agctaaagca 420
gcaacattgg cgaaacaaaa acgtgagggc attgaagaag tgacggaaga ggaaaaagct 480
aaagcaaaag caaaggccgc tgccgcggcc aaagcaaagg ttgctgcgct cgccaagcag 540
aagcgtgagg ggattgagga ggtaactgaa gaagagaaag caaaggcgaa ggccaaagca 600
gccgcgctgg ctaaacaaaa aagagaaggt accgaggaag tgactgaaga ggagaaggca 660
aaggccaaag cgaaagcggc agcgttggcg aaacaaaagc gcgaaggcac ggaggaggta 720
actgaggaag agaaggcgaa ggccaaggcc aaggccgctg ctttagccaa gcaaaaggca 780
tcgcagggcg atggcgatag cggagacgag aaggcgaagg caatagcggc agctaaggca 840
aaggctgcgg cagccgcgcg ggcaaagacg aaaggtgctg aggggaagaa ggaagatgag 900
cccaagcaag aagaattgtc agtcaaccag ccctatttaa atcagtacgt cgaagcgatt 960
agggaaaagc tgggggaagg cgcactagtc gactcataca tcaataaatt gtcaaaagac 1020
gtcccgacct tagtagtcga tcctgaaaag tactacgagg tgatggaatc actgagattc 1080
catgaggggc tggctttcga ctacatgtct gagctgcatg caactgattt tgtcacccac 1140
atggaggtct acgtccacct attttcgtac agtaaaaagc aaagtgtggc agttaaggtt 1200
aaattggacc gggaaacacc ccaagtggaa tccgtgacgg ccttgtggaa gggagcagac 1260
tggcccgagc gcgaggctta tgatttgtta ggaattattt ttaaggggca ccccaaccta 1320
actcgtatcc taatgcctga ggattgggtt gggtacccac tgcggaagga ttatgagcct 1380
tacgatgtag aggtttgagt atggcccctt agactcagtt ggatcgcgag acaccgcaaa 1440
tggtcattaa gtccccgctc cggcaaggcc ttaattgggc aaagtgtgaa gctaatgacg 1500
ttctgggaat tattttcgcg cgcaatctta atatcacaag ggagtctgtg ccagcgaata 1560
ggcctcgata tcccgtgcgt gaagacgacg agcccaacaa ccctccgttg c 1611
<210> 18
<211> 1611
<212> DNA
<213> 编号[16]序列(Artificial)
<400> 18
atgtctaacc cgaataaaga cttagaagag ttaaagaagg aagcggctag acgggcgaaa 60
gaggaagctc gtaagaggct cgttgcgaag cacgaagccg agatttctga actagaggaa 120
gaagaccaag agaaggaaaa agcccttcct aagaacgacg acatcactat cgaagaagct 180
aaacgacgcg ccgctgcggc agcaaaggca aaggttacag cccttgcgaa acaaaagagg 240
gagggaaccg aagaagttac agaagaagag aaagcaaagg caaaggccaa ggcggcagcc 300
gcggcaaagg ccaaggctgc ggcgcttgcg aaacaaaaac gtgaaggaac ggaggaggtg 360
accgaagaag agaaagcaaa ggccaaggcg aaagctgctg ccgcagctaa agcaaaagct 420
gccacactcg cgaaacagaa gcgggaggga atagaagaag taacagagga ggagaaagct 480
aaagctaaag cgaaagcggc cgcggcagca aaagctaagg tggcagcttt ggcgaagcaa 540
aagagggagg gaatcgagga agtgacggaa gaggagaagg cgaaggccaa ggcgaaagct 600
gctgcgctag caaaacagaa gagggagggc acggaggagg tgacagagga ggaaaaggct 660
aaagcgaagg ccaaggcagc ggccctcgcc aagcagaaac gtgaaggaac cgaagaagtc 720
acggaagaag aaaaggcgaa agcaaaggct aaggccgcgg cattggccaa gcaaaaagcg 780
tcccaggggg atggtgactc tggggatgaa aaagccaagg cgattgctgc cgccaaagcc 840
aaagctgctg ccgctgccag agctaagacc aagggggctg aaggaaagaa ggaggacgaa 900
cctaagcaag aagagttatc tgtgaaccag ccttacctaa accaatatgt tgaggctatt 960
cgagaaaagc taggggaagg tgcgttggtt gacagttata taaataaact gagcaaggat 1020
gtgccaacac tagttgttga tcctgaaaaa tattacgagg taatggaaag cttgaggttc 1080
cacgagggac tggcattcga ctacatgagc gagctgcacg ctaccgattt tgtaactcac 1140
atggaggtgt acgtacatct gttcagttat tccaaaaaac aatcggtggc ggtcaaggtc 1200
aagctcgacc gggaaacgcc acaggtcgaa tctgtgacgg cactatggaa gggggccgac 1260
tggcccgaga gagaagctta tgatttattg ggaataatct ttaaaggcca cccgaatctt 1320
acacgaatac tcatgcccga ggattgggtc gggtatccgc tgaggaaaga ttatgaacct 1380
tacgatgtgg aggtgtaggt atggcctctg cgccttagtt ggatcgcccg tcacagaaag 1440
tggtctttga gcccccgctc tggtaaggcc ctcataggcc agtctgttaa gttaatgact 1500
ttttgggagc tatttagcag ggcaatctta atcagccaag gatcgttatg ccagcgcatt 1560
gggctagata taccctgcgt taaaacaacg tcacctacta cgctgcggtg t 1611
<210> 19
<211> 1611
<212> DNA
<213> 编号[17]序列(Artificial)
<400> 19
atgagtaacc ctaataagga cctagaagaa ctgaaaaaag aagcagctcg acgagcgaaa 60
gaagaagcga gaaagagact cgttgcaaag catgaggcag agatctcaga gctagaggag 120
gaagatcaag aaaaagaaaa agcacttccg aagaatgatg atatcacaat tgaggaagca 180
aaaagaaggg cagctgctgc tgcaaaggcg aaggtgacgg ccctggccaa acaaaagaga 240
gagggtactg aggaagtcac tgaggaagaa aaggccaagg cgaaggccaa agcggccgcc 300
gcagccaagg ccaaggcggc ggctttagct aaacaaaagc gcgaggggac ggaggaagtt 360
acagaagaag aaaaagcaaa agccaaagct aaggcggcag cggcagcgaa ggcaaaggca 420
gcaaccctgg caaagcaaaa gagagaagga atagaggagg tgactgaaga agagaaagcg 480
aaagccaaag caaaagctgc cgctgccgct aaagccaaag tggcggcatt agccaagcaa 540
aaacgtgagg gcatagaaga agttacggaa gaggagaaag caaaggccaa agcgaaggcc 600
gcggccctag cgaagcagaa gcgagaaggc acggaagagg ttactgagga agagaaggcg 660
aaagccaagg ctaaagcagc agctctagct aaacaaaaaa gggaaggcac cgaagaggtg 720
acggaagaag aaaaagcgaa ggcgaaagcg aaggccgccg ccctagcgaa gcagaaggcg 780
tcgcaaggtg acggcgattc gggcgacgaa aaagccaaag ctatagcggc agcgaaggcg 840
aaggccgcag cagcggcccg ggctaaaacg aaaggtgcgg agggcaaaaa agaagatgaa 900
ccaaaacagg aggaactaag cgtcaatcag ccgtacctga accaatacgt tgaagcaatt 960
cgggagaaac tcggggaggg tgctctggta gatagttata ttaataagct cagcaaggat 1020
gtaccgacgc tggttgtcga tccggaaaaa tactacgagg ttatggaatc attaaggttc 1080
cacgaaggtc tcgcgttcga ttacatgtcg gaacttcatg ccaccgattt tgtgactcac 1140
atggaagtgt acgtgcattt gttttcgtac tcaaagaaac aaagtgtcgc ggttaaggta 1200
aaattagata gagagactcc gcaagtcgaa tcggtaacgg ccctgtggaa gggggccgac 1260
tggcccgaga gagaggcata tgacctcctg gggataatct tcaagggcca tccaaacttg 1320
acccgaattc tcatgccgga ggattgggtt ggttatcctc tacggaagga ttatgaacct 1380
tacgacgtgg aagtataggt atggccattg cgattgtcgt ggatagctcg tcataggaaa 1440
tggtcgctgt ccccgagaag tgggaaggct ctcatcggac aaagcgttaa actcatgact 1500
ttttgggaat tgttctcccg cgcaattttg atcagtcagg gttcattgtg ccaacggatt 1560
ggtttggata tcccgtgtgt aaaaacaacc tccccgacca cccttcggtg t 1611
<210> 20
<211> 1611
<212> DNA
<213> 编号[18]序列(Artificial)
<400> 20
atgtcaaatc ccaataaaga cctggaagaa ctaaagaaag aggctgctcg acgtgccaag 60
gaagaggcta ggaaaagatt agtagcaaaa catgaggctg aaatctctga gttagaagag 120
gaggatcaag aaaaggaaaa ggccctaccc aagaatgacg atatcactat agaggaagca 180
aaacgccgtg ccgcggctgc ggcaaaggct aaggtaactg cgcttgctaa acagaaaagg 240
gaaggcactg aggaggtaac tgaggaggaa aaagcgaaag ccaaagcaaa agcagcagct 300
gcagccaaag ccaaggctgc cgcgttggcg aaacaaaagc gcgaagggac cgaagaagta 360
actgaggagg aaaaagcgaa ggcaaaggcg aaggcggccg cggcggcaaa agctaaggct 420
gctaccctcg cgaagcaaaa gagggaggga atagaggagg tgacggaaga agaaaaagct 480
aaggctaagg ctaaggcagc ggctgccgct aaggcgaaag tagcagcgtt agcgaagcaa 540
aagagggagg ggattgagga ggtaacagag gaagaaaagg ccaaggccaa ggcaaaggct 600
gctgctctcg ccaagcagaa acgggaaggg acagaggaag ttactgaaga ggaaaaggcc 660
aaagcaaagg caaaagccgc tgccctcgcg aagcaaaaga gggagggtac tgaagaggtg 720
accgaggagg aaaaagcaaa agccaaagca aaggcagccg cactcgccaa acagaaagcg 780
tcacaaggcg atggagactc cggcgatgaa aaggctaagg caatcgcggc ggcgaaagcg 840
aaagccgctg cggctgcccg cgccaaaacc aagggtgccg agggcaaaaa agaagacgag 900
cctaaacaag aggaactctc ggttaatcaa ccatacttga accaatacgt agaggccatt 960
agagaaaagt tgggagaggg tgcgctagtg gattcataca tcaataaatt atcaaaagac 1020
gttccgactt tagtagtaga tcccgaaaaa tactatgagg ttatggaatc actcaggttt 1080
catgaaggat tggcatttga ttatatgagc gaattgcatg caacagattt cgttacccac 1140
atggaggtgt acgtccatct attctcgtac tctaagaaac agtcagttgc tgtcaaagtc 1200
aagctcgatc gtgagacccc tcaggtcgag tctgtgactg ctttgtggaa aggagctgat 1260
tggccggaac gtgaagcgta tgacctgtta ggtattatct ttaaagggca tccaaatttg 1320
acgagaatat taatgccgga ggactgggtc ggatatccgc tacgaaaaga ctacgagcca 1380
tacgatgtgg aggtgtaggt atggcctctg cgactgtctt ggatcgcccg ccatcgaaaa 1440
tggagtctca gcccacgaag tggcaaagca ctgatcggtc agtctgtgaa gctgatgacc 1500
ttttgggagc tgttctcccg cgcaatctta attagccagg ggtcattatg ccagaggata 1560
ggcttggaca ttccgtgcgt taagacgact tcgccgacca cgttgcgttg t 1611
<210> 21
<211> 1611
<212> DNA
<213> 编号[19]序列(Artificial)
<400> 21
atgtctaacc ctaacaagga cttagaggaa cttaagaaag aagccgcacg gcgcgctaaa 60
gaggaggcac ggaagaggct cgttgccaag catgaggctg aaatttctga attagaggag 120
gaagatcaag agaaggagaa ggcgcttcca aaaaatgatg atatcactat agaggaggct 180
aagcggaggg cagctgccgc tgctaaggca aaggtgacgg cactggctaa acagaaacgt 240
gaaggtaccg aggaagtgac tgaagaagag aaagcgaaag ccaaggcgaa ggccgccgcc 300
gcggcaaaag caaaagcggc ggcgttggcg aaacagaagc gagaaggcac ggaggaggta 360
accgaggaag agaaggccaa agccaaggca aaggcagccg ctgccgcaaa agctaaagct 420
gcaacattag cgaagcaaaa aagggagggt atagaagagg taacggaaga ggaaaaggcg 480
aaggcaaaag cgaaagcggc tgcggcagca aaggcaaaag tcgccgccct ggctaaacag 540
aagcgagagg gaatagagga agtaactgaa gaagaaaagg ccaaagccaa agcaaaggcc 600
gctgcgctag cgaagcaaaa gcgagaaggg acggaagaag taacggaaga ggagaaggcc 660
aaagctaaag ccaaagccgc agcacttgcc aaacagaaac gggaaggcac tgaagaggtt 720
acggaggaag aaaaggcaaa ggcgaaagcg aaagcggcag ccctggccaa acagaaggct 780
tcccaggggg atggagacag cggagacgag aaagccaaag caatagcagc ggcgaaagcc 840
aaggcggccg ctgccgcgag agcaaagaca aaaggcgcgg agggtaaaaa ggaagacgag 900
ccgaagcaag aggaactctc cgtcaatcaa ccctatctca accagtacgt cgaggcgatc 960
cgcgagaagc taggggaagg tgctctggtt gacagttata taaacaaatt gtcaaaggat 1020
gtgcctacgt tagttgtcga ccctgagaag tattacgaag tgatggagag tttaagattc 1080
cacgaagggc tcgcctttga ttatatgagc gaattgcacg ctacggactt cgtaactcac 1140
atggaggtct acgttcacct gttctcttac tcaaagaaac agtctgtagc tgtgaaagtc 1200
aagttggaca gggagacacc tcaagtcgag tcggttaccg cattgtggaa aggcgctgat 1260
tggccggaac gggaggcata tgacctcctt ggtataattt tcaaaggcca ccctaatctt 1320
acgcgaatcc ttatgccaga agattgggtg ggttacccgc tgcgaaagga ctatgagcct 1380
tatgacgtgg aggtgtaagt gtggccctta cgtctatcgt ggattgcgcg tcaccgcaag 1440
tggtcactgt ccccccggtc ggggaaagct ttgatagggc agagcgtcaa gttaatgacg 1500
ttttgggagc tgttttccag agcaatctta atctctcagg ggtccctgtg tcagagaatc 1560
ggcttagaca ttccttgtgt caaaaccaca agtccaacta cacttaggtg c 1611
<210> 22
<211> 1611
<212> DNA
<213> 第16次迭代后最优序列(Artificial)
<400> 22
atgtctaatc ccaataagga tctcgaggaa ttgaagaaag aggccgcccg gcgggcgaag 60
gaggaggcta gaaaacgcct agttgctaag cacgaagcgg agatttctga attggaagag 120
gaagatcaag agaaagagaa ggccctccca aagaatgacg atatcactat tgaagaggca 180
aagcgtcgag ccgcggctgc agcgaaggca aaagttaccg ccttagcaaa gcagaagagg 240
gaagggaccg aggaggtcac tgaggaagag aaggcgaaag ctaaagccaa ggcagccgcg 300
gctgccaagg ccaaagcagc agcactcgcc aaacaaaaaa gagagggcac cgaggaggtt 360
acggaggagg agaaagcgaa agccaaggca aaagcagcag ccgctgcgaa ggctaaagct 420
gcgactcttg ctaagcaaaa acgtgaaggg attgaagaag tcactgaaga ggagaaggcg 480
aaagcgaagg ctaaggctgc cgctgcggcg aaagcaaaag tggctgccct cgcaaaacaa 540
aagcgcgagg gtatcgaaga ggtcacggag gaagaaaaag ctaaagctaa agccaaggcg 600
gctgcactcg caaagcagaa gagggaaggt accgaagaag taacagagga ggaaaaagca 660
aaagcaaaag caaaagccgc ggccttggca aaacagaaga gggaaggaac cgaggaagtc 720
acagaggagg agaaagctaa agccaaggct aaggcggcag cgcttgcgaa gcagaaagct 780
agtcaaggtg acggcgatag cggcgacgaa aaagctaagg cgattgcagc agctaaagct 840
aaggccgcag ctgccgcccg ggcgaaaaca aaaggagcag aaggtaagaa agaggacgaa 900
cctaagcaag aggagttgtc agttaatcag ccatacctga atcagtacgt tgaggcaata 960
agagagaaac tgggcgaggg cgctctcgta gatagctaca tcaacaagtt aagcaaagac 1020
gttcctacct tagtagtcga cccagagaag tactacgaag ttatggagtc actaagattc 1080
catgaaggac tagcgttcga ctacatgtct gagctacacg ctactgactt tgtaacacat 1140
atggaggtgt atgtccatct gttctcatac agcaaaaaac agtctgtcgc agttaaggtg 1200
aagcttgata gagagacccc gcaagtcgaa agcgttacgg ccctgtggaa aggggcggac 1260
tggcctgaac gagaagcgta tgacctactc ggtatcatat tcaaaggcca cccaaactta 1320
acacgcattc ttatgcctga agactgggta ggctacccgc ttaggaaaga ctatgagccg 1380
tacgacgtcg aggtctgagt ctggcccctg cgtctttcct ggatagcacg acaccgtaag 1440
tggagtttaa gcccaaggag cgggaaagcg ttaatcgggc aatccgtcaa actcatgacc 1500
ttttgggaac tgttttcacg agcaattttg atcagtcaag gatctctgtg tcagcgtata 1560
ggtctggata taccgtgcgt caagacgacg tcaccgacga ctctgaggtg t 1611
<210> 23
<211> 1611
<212> DNA
<213> 第100次迭代后最优序列(Artificial)
<400> 23
atgtctaacc cgaataagga cttagaagag ttaaagaaag aggccgctag gcgggctaaa 60
gaagaggctc gtaagagact ggtggctaaa cacgaggctg agataagtga gctggaggag 120
gaagatcagg agaaagaaaa agctctgccc aaaaacgacg acatcaccat agaagaggcc 180
aagcgtcggg ccgctgcagc agctaaagca aaagttaccg cgttggcgaa gcagaaacgg 240
gaaggaacag aggaagtgac cgaggaagaa aaggctaaag ctaaggctaa agcggcagcc 300
gctgcaaaag caaaggctgc tgctcttgcg aagcagaaac gagaaggaac cgaagaggta 360
accgaagaag agaaggcaaa ggctaaggca aaggctgcgg cagctgcgaa agcgaaggct 420
gcaactcttg caaaacagaa gcgagaaggg atcgaggaag tgactgagga ggagaaggct 480
aaagccaaag ctaaggcagc tgcggccgct aaagctaaag tcgcagcact cgctaagcag 540
aagagagaag gtatcgaaga agtgaccgaa gaggagaaag caaaagcgaa agctaaggca 600
gcagcccttg ctaaacaaaa gcgtgagggt accgaggaag taacagagga agagaaagca 660
aaggccaagg ccaaagctgc ggccttagca aagcagaaga gggaagggac cgaggaggtt 720
accgaagagg aaaaagctaa ggcaaaggcc aaggccgcag cccttgccaa acagaaagct 780
agccagggtg atggagatag tggagatgag aaggcgaaag caatagcggc cgcaaaagcc 840
aaagccgccg ccgcggcccg agccaagact aaaggcgccg agggtaagaa agaggatgag 900
cccaagcagg aagagctctc cgtgaatcag ccatacctca accagtacgt agaggctatc 960
agagagaagt taggcgaagg cgccctagtt gacagttata tcaacaagct ctcaaaggat 1020
gtgcccacac tcgtggttga tcctgaaaag tactatgaag tcatggagtc tctgagattt 1080
catgagggcc tcgcattcga ctatatgtcc gagctccatg cgacagattt tgtgacgcat 1140
atggaggttt acgttcacct gttctcctac tcaaagaagc aatccgtcgc cgtgaaggtt 1200
aagttggata gggaaactcc gcaggttgaa tcagtcactg cactctggaa gggtgcggat 1260
tggcctgagc gcgaggctta cgatctactt ggaatcattt tcaaagggca cccaaacctt 1320
actagaattc ttatgccgga agactgggtg ggatatcctt tgcgaaagga ctacgagcca 1380
tacgatgtag aagtgtgagt ctggccacta agactttcct ggatagcacg acatcgtaaa 1440
tggtctctct caccacgttc tggtaaagcg ctgattggac agtctgttaa acttatgaca 1500
ttttgggaac ttttttcacg tgctatcctc atatctcagg gttcgttatg tcaacgaatt 1560
ggcttggaca taccttgtgt aaagaccact tcgccaacta cgctccgctg t 1611
<210> 24
<211> 2052
<212> DNA
<213> Bacillusthuringiensis
<400> 24
atggcgaatc aaaataaaca cggaattatt ggcgcttcca attgtggttg tgcatctgat 60
gatgttgcga aatatccttt agccaacaat ccatattcat ctgctttaaa tttaaattct 120
tgtcaaaata gtagtattct caactggatt aacataatag gcgatgcagc aaaagaagca 180
gtatctattg ggacaaccat agtctctctt atcacagcac cttctcttac tggattaatt 240
tcaatagtat atgaccttat aggtaaagta ctaggaggta gtagtggaca atccatatca 300
gatttgtcta tatgtgactt attatctatt attgatttac gggtaagtca gagtgtttta 360
aatgatggga ttgcagattt taatggttct gtactcttat acaggaacta tttagaggct 420
ctggatagct ggaataagaa tcctaattct gcttctgctg aagaactccg tactcgtttt 480
agaatcgccg actcagaatt tgatagaatt ttaacccgag ggtctttaac gaatggtggc 540
tcgttagcta gacaaaatgc ccaaatatta ttattacctt cttttgcgag cgctgcattt 600
ttccatttat tactactaag ggatgctact agatatggca ctaattgggg gctatacaat 660
gctacacctt ttataaatta tcaatcaaaa ctagtagagc ttattgaact atatactgat 720
tattgcgtac attggtataa tcgaggtttc aacgaactaa gacaacgagg cactagtgct 780
acagcttggt tagaatttca tagatatcgt agagagatga cattgatggt attagatata 840
gtagcatcat tttcaagtct tgatattact aattacccaa tagaaacaga ttttcagttg 900
agtagggtca tttatacaga tccaattggt tttgtacatc gtagtagtct taggggagaa 960
agttggttta gctttgttaa tagagctaat ttctcagatt tagaaaatgc aatacctaat 1020
cctagaccgt cttggttttt aaataatatg attatatcta ctggttcact tacattgccg 1080
gttagcccaa gtactgatag agcgagggta tggtatggaa gtcgagatcg aatttcccct 1140
gctaattcac aatttattac tgaactaatc tctggacaac atacgactgc tacacaaact 1200
attttagggc gaaatatatt tagagtagat tctcaagctt gtaatttaaa tgataccaca 1260
tatggagtga atagggcggt attttatcat gatgcgagtg aaggttctca aagatccgtg 1320
tacgaggggt atattcgaac aactgggata gataacccta gagttcaaaa tattaacact 1380
tatttacctg gagaaaattc agatatccca actccagaag actatactca tatattaagc 1440
acaacaataa atttaacagg aggacttaga caagtagcat ctaatcgccg ttcatcttta 1500
gtaatgtatg gttggacaca taaaagtctg gctcgtaaca ataccattaa tccagataga 1560
attacacaga taccattgac gaaggttgat acccgaggca caggtgtttc ttatgtgaat 1620
gatccaggat ttataggagg agctctactt caaaggactg accatggttc gcttggagta 1680
ttgagggtcc aatttccact tcacttaaga caacaatatc gtattagagt ccgttatgct 1740
tctacaacaa atattcgatt gagtgtgaat ggcagtttcg gtactatttc tcaaaatctc 1800
cctagtacaa tgagattagg agaggattta agatacggat cttttgctat aagagagttt 1860
aatacttcta ttagacccac tgcaagtcct gaccaaattc gattgacaat agaaccatct 1920
tttattagac aagaggtcta tgtagataga attgagttca ttccagttaa tccgacgcga 1980
gaggcgaaag aggatctaga agcagcaaaa aaagcggtgg cgagcttgtt tacacgcaca 2040
agggacggat aa 2052
<210> 25
<211> 1914
<212> DNA
<213> cry9Aa优化后序列(Artificial)
<400> 25
atggctaatc aaaataagca tggtattatt ggtgctagta attgtggttg tgctagtgat 60
gatgctaagt atcctttagc taataatcct tatagtagtg ctttaaattt aaatagttgt 120
caaaatagta gtattttaaa tattaatatt attggtgatg ctgctaagga agctagtatt 180
ggtactacta ttagtttaat tactgctcct agtttaactg gtttaattag tatttatgat 240
ttaattggta agttaggtgg tagtagtggt caaagtatta gtgatttaag tatttgtgat 300
ttattaagta ttattgattt acgtagtcaa agtttaaatg atggtattgc tgattttaat 360
ggtagtttat tatatcgtaa ttatttagaa gctttagata gtaataagaa tcctaatagt 420
gctagtgctg aagaattacg tactcgtttt cgtattgctg atagtgaatt tgatcgtatt 480
ttaactcgtg gtagtttaac taatggtggt agtttagctc gtcaaaatgc tcaaatttta 540
ttattaccta gttttgctag tgctgctttt tttcatttat tattattacg tgatgctact 600
cgttatggta ctaatggttt atataatgct actcctttta ttaattatca aagtaagtta 660
gaattaattg aattatatac tgattattgt cattataatc gtggttttaa tgaattacgt 720
caacgtggta ctagtgctac tgctttagaa tttcatcgtt atcgtcgtga aatgacttta 780
atgttagata ttgctagttt tagtagttta gatattacta attatcctat tgaaactgat 840
tttcaattaa gtcgtattta tactgatcct attggttttc atcgtagtag tttacgtggt 900
gaaagtttta gttttaatcg tgctaatttt agtgatttag aaaatgctat tcctaatcct 960
cgtcctagtt ttttaaataa tatgattatt agtactggta gtttaacttt acctagtcct 1020
agtactgatc gtgctcgtta tggtagtcgt gatcgtatta gtcctgctaa tagtcaattt 1080
attactgaat taattagtgg tcaacatact actgctactc aaactatttt aggtcgtaat 1140
atttttcgtg atagtcaagc ttgtaattta aatgatacta cttatggtaa tcgtgctttt 1200
tatcatgatg ctagtgaagg tagtcaacgt agttatgaag gttatattcg tactactggt 1260
attgataatc ctcgtcaaaa tattaatact tatttacctg gtggtgatat tcctactcct 1320
gaagattata ctcatatttt aagtactact attaatttaa ctggtggttt acgtcaagct 1380
agtaatcgtc gtagtagttt aatgtatggt actcataaga gtttagctcg taataatact 1440
attaatcctg atcgtattac tcaaattcct ttaactaagg atactcgtgg tactggtagt 1500
tataatgatc ctggttttat tggtggtgct ttattacaac gtactgatca tggtagttta 1560
ggtttacgtc aatttccttt acatttacgt caacaatatc gtattcgtcg ttatgctagt 1620
actactaata ttcgtttaag taatggtagt tttggtacta ttagtcaaaa tttacctagt 1680
actatgcgtt taggtgaaga tttacgttat ggtagttttg ctattcgtga atttaatact 1740
agtattcgtc ctactgctag tcctgatcaa attcgtttaa ctattgaacc tagttttatt 1800
cgtcaagaat atgatcgtat tgaatttatt cctaatccta ctcgtgaagc taaggaagat 1860
ttagaagctg ctaagaaggc tgctagttta tttactcgta ctcgtgatgg ttaa 1914

Claims (8)

1.一种用于植物外源基因改造的CodonPlant系统,其特征在于,包括输入模块、处理模块、输出模块;其中,输入模块用于用户输入基因序列、密码子使用频率排序表以及群体个数n;处理模块用于接收输入的密码子信息内容、密码子使用频率排序表信息内容,并依据用户输入的群体个数n,进行有效处理,并通过输出模块,输出对应的结果;
所述的输入模块包括序列模块、密码子使用频率排序表模块和群体个数模块,序列模块可输入的序列必须为三的倍数,输入的序列以三联体划分,传送到处理模块中;密码子使用频率排序表模块可输入的格式为同义密码子放在同一行,且按使用频率高低从左到右依次排列,中间以冒号隔开,非同义密码子在换行表示;群体个数模块用于输入群体个数n;
所述的处理模块依据遗传算法进行处理最终获得一条最优序列,至少包括种群序列产生模块、期望值设置模块、种群序列处理模块以及增加序列模块;
所述的输出模块,输出的序列保存在output.txt中;
所述的遗传算法,过程如下:
1)依据输入的种群数量,随机产生20条序列,构成一个种群;
2)轮盘赌法随机挑取2条序列;
3)1条父本序列,一条母本序列,50%交叉率得到子代;
4)5%随机同义突变;
5)检查是否含有剪切位点,含有时进行定点同义突变:去除植物序列剪切信号、去除多聚腺苷酸化序列、去除酶切信号;
6)检查是否有mRNA二级结构,含有时进行定点同义突变:正向重复、反向重复、镜像重复、倒转重复;
7)统计剪切位点个数、重复序列个数和CAI指数,多目标参数计算估值函数,得到打分。
2.根据权利要求1所述的用于植物外源基因改造的CodonPlant系统,其特征在于,所述的种群序列产生模块用于依据用户输入的信息,产生n条随机序列构成一个种群;期望值设置模块用于用户输入多目标优化期望值;种群序列处理模块在收到用户输入的多目标优化期望值,根据轮盘赌原则选择2条基因,进行基因交叉处理,然后进行基因随机变异,针对剪切位点,进行定点随机变异,针对重复序列,进行定点随机变异,其中,随机变异均使用同义密码子替换,计算估值函数,并替换较差序列,放回原种群,进行循环操作,依据多目标参数计算估值函数得到打分,最终得到优化种群,从中选择出最优序列。
3.根据权利要求1所述的用于植物外源基因改造的CodonPlant系统,其特征在于,所述的增加序列模块,用于增加亚细胞器定位序列、kozak序列、内含子片段序列,获得最终用于输出的序列。
4.一种采用权利要求1所述的用于植物外源基因改造的CodonPlant系统改造植物外源基因的方法,其特征在于,包括以下步骤:
第一步:序列以及密码子使用频率的输入,并输入群体个数n;
第二步:遗传算法计算,依据用户输入的信息,产生n条随机序列构成一个种群,用户输入多目标优化期望值,根据轮盘赌原则选择2条基因,进行基因交叉处理,然后进行基因随机变异,针对剪切位点,进行定点随机变异,针对重复序列,进行定点随机变异,其中,随机变异均使用同义密码子替换,删除mRNA降解信号,去除植物序列剪切信号、去除多聚腺苷酸化序列、去除内含子切割序列CATTG、去除AT富集区;计算估值函数,并替换较差序列,放回原种群,进行循环操作,依据多目标参数计算估值函数得到打分,最终得到优化种群,从中选择出最优序列;
第三步:增加亚细胞器定位序列、kozak序列、内含子片段序列;
第四步:输出序列:输出结果保存在output.txt中,方法结束。
5.根据权利要求4所述的采用用于植物外源基因改造的CodonPlant系统改造植物外源基因的方法,其特征在于,第一步中,基因序列由ATG开始TAA终止,每条序列为三的整数倍,要求一个序列一行,序列结束有换行。
6.根据权利要求4所述的采用用于植物外源基因改造的CodonPlant系统改造植物外源基因的方法,其特征在于,第一步中,密码子使用频率表要求格式为同义密码子放在同一行,且按使用频率高低从左到右依次排列,中间以冒号隔开,非同义密码子在换行表示。
7.根据权利要求4所述的采用用于植物外源基因改造的CodonPlant系统改造植物外源基因的方法,其特征在于,第二步中,
1)删除mRNA降解信号:AUUUA、AUUAA;
2)去除植物序列剪切信号:AATAAA、AATAAT、AATTAA、AACCAA、ATTA、ATTTA、ATAAAA、ATGAAA、AAGCAT、ATATAA、AATCAA、ATACTA、ATACAT、AAAATA、ATTAAA、AATTAA、AATACA、CATAAA;
3)去除多聚腺苷酸化序列:AATAAT类型,AATCAA类型,AATGAA类型,ATGGAA类型,AATTAA类型,TATAAA类型,其他类型包括ATGTAA、TGTGAA、AATGCT、GATATG、ATGCAA、AATGTG、AAAGAT、ATTAA、AATAAA、AATAAT;
4)去除编码区序列中含有的内含子切割序列:5’剪接位点为AG/GTAAGT的保守序列、3’剪接位点末端为TGCAG/G的保守序列;
5)修改连续的大于等于4个AT富集区;
反复循环直到基因序列没有任何一个需要删除的序列并且替换时均已三联体同义密码子进行替换,即可进如下一步。
8.根据权利要求4所述的采用用于植物外源基因改造的CodonPlant系统改造植物外源基因的方法,其特征在于,第三步中,增加亚细胞器定位序列、kozak序列、内含子片段序列具体如下:
1)亚细胞器定位序列:序列来自TAIR网站中提供的蛋白亚细胞定位数据库SUBA;
内质网定位序列:Kdel序列、Hdel序列;
叶绿体定位序列:TP转运肽;
2)kozak序列:烟草kozak序列、拟南芥kozak序列;
3)内含子片段序列:玉米内含子adh1、玉米内含子ubil、水稻actl、马铃薯SBgLR2。
CN201810124390.1A 2018-02-07 2018-02-07 一种用于植物外源基因改造的CodonPlant系统及其改造方法 Active CN108363905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810124390.1A CN108363905B (zh) 2018-02-07 2018-02-07 一种用于植物外源基因改造的CodonPlant系统及其改造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810124390.1A CN108363905B (zh) 2018-02-07 2018-02-07 一种用于植物外源基因改造的CodonPlant系统及其改造方法

Publications (2)

Publication Number Publication Date
CN108363905A CN108363905A (zh) 2018-08-03
CN108363905B true CN108363905B (zh) 2019-03-08

Family

ID=63005178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810124390.1A Active CN108363905B (zh) 2018-02-07 2018-02-07 一种用于植物外源基因改造的CodonPlant系统及其改造方法

Country Status (1)

Country Link
CN (1) CN108363905B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210037611A (ko) * 2018-07-30 2021-04-06 난징 진스크립트 바이오테크 컴퍼니 리미티드 코돈 최적화
CN109390032B (zh) * 2018-11-02 2020-07-31 吉林大学 一种基于进化算法在全基因组关联分析的数据中探索与疾病相关的snp组合的方法
CN110400604B (zh) * 2019-06-28 2021-10-08 中国科学院计算技术研究所 芸香科多物种密码子使用模式分析方法和系统
CN111627495B (zh) * 2020-06-01 2023-03-14 集美大学 一种种群的种用价值的判断方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1415160A2 (en) * 2000-09-30 2004-05-06 Diversa Corporation Whole cell engineering by mutagenizing a substantial portion of a starting genome, combining mutations, and optionally repeating
CN102768713A (zh) * 2012-06-14 2012-11-07 天津大学 异丁醇合成菌基因组尺度代谢网络模型及分子改造方法
CN103279652A (zh) * 2013-05-13 2013-09-04 浙江大学 一种基于蜂群行为的dna遗传算法的复杂化工过程建模方法
CN104878036A (zh) * 2015-04-29 2015-09-02 南京肽德生物技术有限公司 一种模型拟合和基因改造提高蛋白表达效率的方法及应用
CN106156854A (zh) * 2016-08-18 2016-11-23 山东师范大学 一种基于dna编码的支持向量机参数预测方法
CN107430646A (zh) * 2015-03-17 2017-12-01 生物辐射实验室股份有限公司 检测基因组编辑

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101401101B (zh) * 2006-03-10 2014-06-04 皇家飞利浦电子股份有限公司 用于通过谱分析鉴定dna模式的方法和系统
US9988624B2 (en) * 2015-12-07 2018-06-05 Zymergen Inc. Microbial strain improvement by a HTP genomic engineering platform

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1415160A2 (en) * 2000-09-30 2004-05-06 Diversa Corporation Whole cell engineering by mutagenizing a substantial portion of a starting genome, combining mutations, and optionally repeating
CN102768713A (zh) * 2012-06-14 2012-11-07 天津大学 异丁醇合成菌基因组尺度代谢网络模型及分子改造方法
CN103279652A (zh) * 2013-05-13 2013-09-04 浙江大学 一种基于蜂群行为的dna遗传算法的复杂化工过程建模方法
CN107430646A (zh) * 2015-03-17 2017-12-01 生物辐射实验室股份有限公司 检测基因组编辑
CN104878036A (zh) * 2015-04-29 2015-09-02 南京肽德生物技术有限公司 一种模型拟合和基因改造提高蛋白表达效率的方法及应用
CN106156854A (zh) * 2016-08-18 2016-11-23 山东师范大学 一种基于dna编码的支持向量机参数预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《A Pattern Matching Algorithm for Codon Optimization and CpG Motif-Engineering in DNA Expression Vectors》;Ravi Vijaya Satya et al;;《Proceedings of the Computational Systems Bioinformatics》;20031231;第1-12页;
《NgAgo-gDNA基因组编辑系统的成功及启示》;孙瑜 等;;《生物信息学》;20160930;第14卷(第3期);第1672-5565页;

Also Published As

Publication number Publication date
CN108363905A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108363905B (zh) 一种用于植物外源基因改造的CodonPlant系统及其改造方法
Leao et al. Comparative genomics uncovers the prolific and distinctive metabolic potential of the cyanobacterial genus Moorea
Patwardhan et al. Molecular markers in phylogenetic studies-a review
US11946162B2 (en) Directed evolution of synthetic gene cluster
Moszer The complete genome of Bacillus subtilis: from sequence annotation to data management and analysis
Mori et al. Functional genomics of Escherichia coli in Japan
EP1320629B1 (en) Cellular arrays for the identification of altered gene expression
CN103298828A (zh) 犹他游动放线菌的基因组学
McClure et al. Network analysis of transcriptomics expands regulatory landscapes in Synechococcus sp. PCC 7002
Brilli et al. Analysis of plasmid genes by phylogenetic profiling and visualization of homology relationships using Blast2Network
Mathé et al. Classification of Arabidopsis thaliana gene sequences: clustering of coding sequences into two groups according to codon usage improves gene prediction
Bansal et al. Phylogenomic insights into diversity and evolution of nonpathogenic Xanthomonas strains associated with citrus
Oliver et al. The yeast genome: systematic analysis of DNA sequence and biological function
Pesaresi et al. Functional genomics of Arabidopsis photosynthesis
Bagnoli et al. Selection, mutations and codon usage in a bacterial model
Gall et al. Parallel mapping of genotypes to phenotypes contributing to overall biological fitness
Mirkin et al. A top-down method for building genome classification trees with linear binary hierarchies
Riva et al. The difficult interpretation of transcriptome data: the case of the GATC regulatory network
Bansal et al. Phylogenomic insights into diversity and evolution of nonpathogenic Xanthomonas strains associated with citrus. mSphere 5: e00087-20
Oliver 1 Introduction to Functional Analysis of the Yeast Genome
Edwards Functional genomics and the computational analysis of bacterial metabolism
CN108363904A (zh) 一种用于木本植物遗传密码子优化的CodonNX系统及其优化方法
WO2022224336A1 (ja) 情報処理プログラム、情報処理方法および情報処理装置
Tam et al. The thyA gene from Bacillus subtilis exhibits similarity with the phage φ3T thymidylate synthase gene
Maddamsetti et al. Circular RNA Obelisk-Ss is highly abundant in Streptococcus sanguinis SK36

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant