CN101353372A

CN101353372A - 一种新型蛋白质分子定向进化方法

Info

Publication number: CN101353372A
Application number: CNA2008100715206A
Authority: CN
Inventors: 林峻
Original assignee: Individual
Current assignee: Individual
Priority date: 2008-08-04
Filing date: 2008-08-04
Publication date: 2009-01-28

Abstract

本发明属于生命科学领域，具体涉及一种根据蛋白质分子的空间三维结构或者诸如序列信息、二级结构信息等等其它有用信息，分析其分子特性，理性选择目的突变位点，并进行随机重复递推式基因序列突变，之后通过筛选，获得具有目的特性的新型蛋白质分子的定向进化方法。本发明的定向进化技术结合了理性过程和随机过程的优势。

Description

一种新型蛋白质分子定向进化方法

技术领域：

本发明属于生命科学领域，具体涉及一种根据蛋白质分子的空间三维结构或者如序列信息和二级结构信息等等所有有用的信息，分析其分子特性，理性选择目的突变位点，并进行随机重复递推式基因序列突变，之后通过筛选，获得具有目的特性的新型蛋白质分子的定向进化方法。

背景技术：

荷兰科学家格里特于1838年首次发现蛋白质，蛋白质是生物体内一种极为重要的高分子有机物，凡是有生命的物质离开蛋白质就无法生存。蛋白质的基本组成单位是氨基酸，氨基酸通过脱水缩合形成肽链。蛋白质是由一条或多条多肽链组成的，每一条多肽链有十几个至数百个不等的氨基酸残基，各种氨基酸残基按一定的顺序排列。蛋白质是生命的体现者，现代生物工程技术的发展，使得人类可以获得离体的、纯化的、并具有生物活性的蛋白质，可用于生物医药和生物催化等等领域。可是，生物体内天然存在的蛋白质，其特性往往不尽人意，将其提取出来，并在体外使用时常常具有很多缺点，比如活性低，对高温、低温、高pH、低pH、高压、辐射等等极端环境的耐受性差。因此需要对其进行人工的分子改造，使合成的蛋白质更符合人类的需要。由于每一种蛋白质都有自己独特的氨基酸排列顺序(一级结构)，所以只要改变其中关键的氨基酸序列就能改变蛋白质的性质。而氨基酸又是由核酸序列上的三联体密码子决定的，因此只要改变构成遗传密码的碱基序列就能达到改造蛋白质的目的。这一技术始于20世纪90年代，称为定向进化技术(Directedevolution)，其中运用最为广泛的实际操作方法为错误倾向PCR(Error-prone PCR)和DNA改组(DNA shuffling)。其核心思想是随机地改变编码蛋白质的基因序列，获得文库，然后通过大量的筛选，从文库中获得正向进化的目的基因。但是此类方法的随机性很大，其成败与否和效果优劣在于筛选量的大小和准确性。数十年前，人类已知蛋白质分子的理化特性和生物学活性直接取决于其空间三维结构，而根据蛋白质分子的空间三维结构，可以分析出蛋白质的生物活性和某一理化特性具体和哪些氨基酸残基相关联。随着现代结构生物学技术的发展，使用X射线衍射法和NMR法等方法，人类已经获得了很多蛋白质分子的空间三维结构，但是由于自然界存在的蛋白质分子种类众多，而通过实验方法解析蛋白质分子的空间三维结构费用高，步骤繁杂，难度较大，因此，通过实验方法得到空间结构的蛋白质分子的数量所占比例比较少。而近几年，通过使用生物信息学的方法，借助计算机技术，人工模拟蛋白质分子空间三维结构取得了很大的进展。基于人工模拟的空间三维结构或者实验方法解析出的空间三维结构，分析出蛋白质分子中可能与某一特性相联系的氨基酸残基的位置，并理性选择这些位置，对基因进行突变，可以提高正向进化的效率，减小筛选压力。

发明内容：

本发明的目的是通过使用X射线衍射法、NMR法等等实验方法解析蛋白质分子的空间结构。或者使用计算机技术，根据蛋白质分子的序列信息，模拟其空间三维结构。进而根据得到的三维结构信息或者其它信息，分析其分子特性，理性选择目的突变位点，并进行随机重复递推式基因序列突变，之后通过筛选，获得具有目的特性的新型蛋白质分子。本发明的定向进化技术结合了理性过程和随机过程的优势，其具体步骤如下：

1.获得蛋白质分子的核酸序列和氨基酸序列

通过使用基因工程学原理，用PCR法或者文库法等等方法，得到目的蛋白质分子的基因片段，然后再使用“酶切”、“连接”、“转化”等等实验技术，将目的基因片段连上载体，导入宿主菌并保存。之后对基因进行测序，获得基因的碱基序列，根据三联密码子，可以由基因序列转换得到氨基酸序列。或者通过搜索Genbank、EMBL、DDBJ等等国际序列数据库，获得目的蛋白质分子的核酸序列和氨基酸序列，使用全基因合成法，合成目的基因(如果该序列信息受到专利保护，应事先获得专利所有者的授权)。

2.获得三维结构信息

目的蛋白质分子的三维结构信息可以通过实验法和计算机辅助模拟法得到。

实验法包括X射线晶体衍射法和NMR法。X射线衍射分析主要是根据衍射线的方向和强度，即衍射图案上斑点的位置和黑度，通过电子计算机，绘制出电子密度图，从中构建出三维分子图像。NMR分析的原理是：处于一个静磁场中的核子会由于磁场的作用而处于不同的能量状态，当一个外界的摆动的磁场来扰动处于“平衡”状态的核子时，吸收了能量的核子就会在不同的能级之间跃迁，并在此过程中释放出能量。而放出的能量被检测到之后，经过分析和计算就可以得到蛋白质分子内部的结构信息。

计算机辅助构建蛋白质三维模拟结构基于生物信息学中的蛋白质结构预测技术，其主要有两大类方法。一类是理论分析方法或从头算法，通过理论计算(如分子力学、分子动力学计算)进行结构预测。另一类蛋白质结构预测的方法是统计方法，该类方法对已知结构的蛋白质进行统计分析，建立序列到结构的映射模型，进而根据映射模型对未知结构的蛋白质直接从氨基酸序列预测结构。这一类方法包括经验性方法、结构规律提取方法、同源模型化方法等等。同源模型化方法最为常用，预测效果也最为可靠，其原理基于：具有相似序列的蛋白质倾向于折叠成相似的空间三维结构。一对蛋白质，如果它们的序列具有25％-30％的等同部分或者更多，则可以假设这两个蛋白质折叠成相似的空间结构。这样，如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性，那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型。

通过使用生物信息学的计算机软件(如：ACCELRYS DISCOVERY STUDIO，SYBYL等等)以及一些生物信息学网络数据库(如pdb，swiss-model等等)，可以模拟出目的蛋白质分子的空间三维结构。

3.根据三维模型和序列信息或者其它信息选择合适的突变位点

本发明中的“突变位点”定义为：既可以是蛋白质分子上的一个单氨基酸残基，也可以是包含有多个氨基酸残基的序列区域以及它们所对应的DNA和RNA上的单个碱基位点和多个碱基组成的序列区域(下同)。“突变位点”的选择既可以根据蛋白质分子三维结构信息，也可以根据诸如序列信息、二级结构信息等等所有有用的信息。

4.对突变位点进行定点突变

在确定了突变位点之后，可以对编码蛋白质的DNA序列或RNA序列进行改造。对于待突变位点，既可以将其代表某一氨基酸的三联密码子更换为代表另一氨基酸的三联密码子，也可以使用随机密码子，即：在之后的转录并翻译成蛋白质分子的过程中，在使用随机密码子的位置处，加入多肽链的氨基酸的种类是随机的。这样，就可以构建成一个随机序列文库，其特点在于：在理性选择的突变位点处产生了随机的序列信息。

对序列上的特定位点进行改造的常用方法包括：重叠延伸PCR法和大引物PCR定点突变法、全基因合成法合成包含特定突变的全序列、限制性内切酶切除待突变区域后使用连接酶加入目的突变序列等等。

5.筛选目的克隆

对于“将其代表某一氨基酸的三联密码子更换为代表另一氨基酸的三联密码子”这一情况(该情况简称“非随机情况”，下同)，可以直接将改造后的序列连上表达载体，转化宿主菌，表达出目的蛋白，并直接对目的蛋白的活性和理化特性进行检测，得知目的蛋白是否按照意愿产生正向进化。若未产生正向进化，则说明第4步中在突变位点替换的氨基酸种类不合适，此时返回第4步，在该位点替换其它种类的氨基酸。

对于构建随机文库这种情况，可以将文库中的基因连接于表达载体，转化入宿主菌，构建待筛选克隆文库。可以使用培养皿平板法、多孔板法、摇瓶法等方法培养宿主菌并诱导其表达，之后逐一检测表达产物的活性或者理化特性，选择能产生正向进化蛋白质分子的宿主菌，保存。

6.重复递推式定向进化

对于“非随机情况”，可以直接提取产生正向进化的宿主菌的基因组或者表达质粒，通过PCR或者酶切反应获得改造后的基因。

对于构建随机文库这种情况，可以提取筛选到的产生正向进化蛋白质分子的宿主菌的基因组或者表达质粒，通过PCR或者酶切反应获得改造后的基因。对该基因进行测序，获得序列信息，得知蛋白质分子的氨基酸序列中的哪些氨基酸被替换成了哪些氨基酸，从而得到具有正向进化特性的新蛋白质分子。

对于上述的新蛋白质分子以及已知的其序列信息，可以将该蛋白质分子和序列信息作为新的出发起点，重新按照本发明2、3、4、5的方法步骤，重新进行第二轮定向进化，第二轮定向进化的结果又可以作为第三轮定向进化的起点，依次类推至第n轮定向进化(n为正整数)。即迭代递推重复式定向进化。用该方法可以累积正向进化。

7.结合常规方法

对于每一轮产生的结果，可以结合已有的各种定向进化技术，比如错误倾向PCR(Error-prone PCR)和DNA改组(DNA shuffling)等等技术，再次进行改造后再进行第六步的“重复递推式定向进化”，并通过筛选，获得具有更加良好特性的目的蛋白质分子。或者同时进行几组定向进化，每一组均对不同的突变位点进行突变，突变后，不立即进行筛选，而是混合各组的突变基因，使用DNA改组(DNA shuffling)等等技术，进行“洗牌”，此时，各组经过定向进化产生的突变基因的遗传信息在分子水平上产生了类似于“杂交”的效应，各个突变基因的遗传信息相互之间交叉混合，能够扩大遗传信息的多样性，提高定向进化的效率。然后通过筛选，得到正向进化的目的基因，再以此得到的基因为起点，进入下一轮定向进化。之后的每一轮定向进化，都可以使用上述的“洗牌”方法，进行迭代递推重复式定向进化，并累积正向进化。

附图说明：

图1：SWISS MODEL WORKSPACE的同源建模报告单

图2：PAL脂肪酶分子的三维模拟图

图3：重叠延伸PCR过程示意图

具体实施方式：

为了对本发明有更加具体的理解，现结合一株假单胞菌脂肪酶(PAL)基因的定向进化过程作进一步说明。该定向进化的目的为提高假单胞菌脂肪酶(PAL)的热稳定性。应注意，本例仅为描述本发明、便于理解本发明用，而非限制本发明。

(1)使用LB液体摇瓶培养基(蛋白胨10g/L，酵母提取液5g/L，NaCl10g/L，PH7.0)培养假单胞菌，培养条件为37度，12个小时，220rpm。提取假单胞菌基因组的步骤如下：1.取1.5mL菌液至1.5mL Ep管，12000rpm，室温离心2min。2.除去上清液，加入400μl STE，洗涤2次。3.12000rpm，室温离心2min，用200μl TE重悬。4.加入100μl酚，旋涡混匀60s。5.12000rpm，4度离心5min。6.转移160μl上层液相至另一干净Ep管。7.加入40μl TE，100μl氯仿，颠倒混匀，12000rpm，4度离心5min。8.重复以上步骤，直到白色界面不再出现。9.转移160μl上层至干净Ep管，加入40μl TE，1μl RNAseA，37度保温10min。10.加入100μl氯仿，12000rpm，4度离心5min。11.取上层150μl液相至干净Ep管，-20度保存。(此即为提取的基因组DNA)。将基因组DNA于1％琼脂糖凝胶电泳上检测纯度、浓度，之后使用引物(本例中的所有引物序列均已列入说明书后的“序列表”中，“序列表”中编号为3、4、5、6、7、8的序列，分别对应引物：甲、乙、A、B、C、D，下同)：上游引物(甲)：5′GGCGCTGTCAGGCTGGGGTTCC 3′，下游引物(乙)：5′GTGATATCCAGGTGCCATTAGA 3′，退火温度为61度。通过PCR过程获得PAL基因，PCR体系为50μl体系(本例中的所有PCR过程均采用本体系，下同)，具体为：灭菌高纯水28μl，模板5μl，上游引物2μl，下游引物2μl，dNTP(2.5mM)4μl，10X PCR Buffer5μl，Mg²⁺3μl，Taq酶1μl。PCR程序为(本例中的所有PCR过程均采用本程序，下同)：1.95℃ 2min，2.94℃ 50s，3.X℃ 45s(X为退火温度，其数值由具体的引物决定)，4.72℃ 1.5min(2-4步骤循环30次)，5.72℃ 10min，6.4℃终止。将PCR产物于1％琼脂糖凝胶电泳上检测纯度、浓度，并与DNA marker比较得知PCR产物长度(约为950bp-1000bp)。确认无误后，使用北京天根DNA胶回收试剂盒(凡是使用试剂盒，均按照试剂盒说明书操作，下同)回收并纯化目的PCR产物，回收后的产物使用TaKaRa pMD-18T载体试剂盒，通过TA克隆，连接于T载体上，并转化宿主菌大肠杆菌TOP10F’，具体步骤为：挑取TOP10F’单菌落置于5mL LB液体培养基中过夜培养，之后转接于15mL LB液体培养基中培养至OD600＝0.3-0.4，再分装于1.5mL的Ep管中，4℃，12000rpm离心2min，倒净上清液，每管加1mL冰预冷的CaCl₂(0.1mol/L)溶液悬浮细胞。再4℃，12000rpm离心2min，倒净上清液，每管加100μl冰预冷的CaCl₂(0.1mol/L)溶液轻缓地悬浮细胞，即成感受态细胞悬液。将欲转化的DNA溶液全量加入100μl的感受态细胞中，冰上放置30min，42℃水浴中热休克90s，再在冰上放置2min。加入600μl LB培养基，37℃震荡培养60min。在含有X-gal、IPTG、Amp的LB琼脂平板上培养，形成单菌落，计数白色和蓝色菌落，白色菌落为阳性克隆。然后测序，获得基因的DNA序列，再通过三联密码子，翻译DNA序列中的编码ORF为蛋白质序列。(所得的序列已列于序列表中，序列表中编号为1和2的序列，分别对应PAL基因的DNA序列和蛋白质序列。)

(2)向SWISS MODEL WORKSPACE网络数据库(http://swissmodel.expa sy.org/SWISS-MODEL.html)提交获得的蛋白质序列，使用First Approach mode算法进行蛋白质分子空间三维结构的同源建模，获得模拟的PAL蛋白质空间三维结构。将后缀名为pdb的记录有三维结构信息的文件下载到本地计算机中。(报告单和三维结构模拟图见附图1和2)

(3)B因子可以反映蛋白质三维结构的稳定性，通过使用计算机计算，可以得到一个蛋白质分子三维结构中各个氨基酸残基的B因子，由大到小对它们进行排序，由于B因子越大的位点，可能对稳定性的贡献度越大，故优先选取B因子数值高的位点，进行定向进化。PAL蛋白质序列中，B因子数值由大到小排列在前十位的依次为(三字母为氨基酸简写，数字为氨基酸残基在蛋白质序列中的位点)：GLY(144)，PHE(145)，SER(146)，GLU(147)，PHE(148)，PHE(248)，GLY(249)，GLU(250)，PHE(41)，PHE(165)。由于GLY(144)，PHE(145)，SER(146)，GLU(147)，PHE(148)这5个氨基酸残基在位置上相邻，PHE(248)，GLY(249)，GLU(250)这3个氨基酸残基在位置上相邻，故将这5个氨基酸残基和3个氨基酸残基分别看作一个整体(分别命名为siteA和siteB，下同)，对其进行定向进化。

(4)首先对siteA进行定向进化，此为第一轮定向进化。使用重叠延伸PCR技术(见附图3)。设计定点突变引物如下(其中N为随机碱基，可以是A、T、C、G中的任何一种)：右片断：上游引物(B)：5’GTGACCNNNNNNNNNNNNNNNCTCGGGCCGA 3’，下游引物(D)：5’ACCAAAGACTAATGCCGGGTCGCCTAGGGCT 3’，退火温度为70度；左片断：上游引物(A)：5’CACCATGAACAAGAACAAGACGTTCCTCGCG 3’，下游引物(C)：5’TCGGCCCGAGNNNNNNNNNNNNNNNGGTCAC 3’，退火温度为70度。以含有PAL基因的T载体质粒为模板，通过PCR过程，使用以上2套引物，分别获得左和右2个片断。再使用引物：上游引物(A)：5’CACCATGAACAAGAACAAGACGTTCCTCGCG 3’和下游引物(D)：5’ACCAAAGACTAATGCCGGGTCGCCTAGGGCT 3’，退火温度为70度，等量混合之前得到的左右两个片断作为模板，通过PCR，组合之前得到的左右两个片断的PCR产物为全长PAL基因。

(5)PCR产物经1％琼脂糖凝胶电泳检测片断长度、纯度和浓度无误后，使用Invitrogen Champion pET100/D-TOPO Expression Kit表达试剂盒，克隆PCR产物到TOPO表达载体上，转化相应的大肠杆菌，诱导表达PAL基因。

(6)在含有5％三丁酸甘油酯的LB琼脂培养基平板(蛋白胨10g/L，酵母提取液5g/L，NaCl 10g/L，琼脂20g/L，PH7.0)上培养并诱导表达这些大肠杆菌，成功表达并分泌PAL脂肪酶的大肠杆菌会降解菌落周围的三丁酸甘油酯，从而在菌落周围形成透明圈，选取透明圈直径大的大肠杆菌，接种于LB液体摇瓶培养基培养，并诱导表达PAL脂肪酶。

(7)摇瓶培养后，将每瓶摇瓶的发酵液分装于多个试管中，分别置于恒温水浴中静置一段时间。水浴温度和静置时间均由低到高设置一个梯度(30度、40度、60度、80度、100度以及10min、20min、30min)。将水浴处理后的发酵液，滴加于三丁酸甘油酯水琼脂鉴定平板(2％琼脂粉、5％三丁酸甘油酯、去离子水)上，能够在越高温度，越长时间处理后，发酵液仍具有较大透明圈的菌株，为筛选的目的菌株。

(8)将筛选到的目的菌株保存。

(9)提取目的菌株的表达质粒，使用PCR引物(上游引物A：5′CACCATGAACAAGAACAAGACGTTCCTCGCG 3′；下游引物D：5′ACCAAAGACTAATGCCGGGTCGCCTAGGGCT 3′，退火温度为70度)，克隆获得突变过的目的基因序列。并测序，获得序列信息。

(10)重复步骤(2)-(9)，以筛选到的siteA位点突变(正向进化)的基因为起点，对siteB位点进行定向进化。并通过筛选，获得目的基因。

(11)以第(10)步获得的目的基因为起点，对其它位点进行如上所述的突变和筛选，并依次类推，进行多轮递推式定向进化。

应当理解为，在阅读了本发明的上述内容之后，本领域或者相关领域技术人员如果对本发明作出改动或修改，任何等同或者等价形式的改动或修改，均属于本发明申请的权利要求书所限定的范围内。

序列表

<110>林峻

<120>一种新型蛋白质分子定向进化方法

<160>8

<170>PatentIn version 3.3

<210>1

<211>1081

<212>DNA

<213>假单胞菌种(Pseudomonas sp.)

<220>

<221>CDS

<222>(80)..(1009)

<400>1

ggcgctgtca ggctggggtt ccggcccgct cagcacgtgc cttgccaact gcctgtccaa 60

tccgaacgga gtctcgacg atg aac aag aac aag acg ttc ctc gcg gcg gcg 112

Met Asn Lys Asn Lys Thr Phe Leu Ala Ala Ala

1 5 10

ctg gta gcg ctg gcc gcc agc ttt ccc gtg cac gct gcg acc gac tac 160

Leu Val Ala Leu Ala Ala Ser Phe Pro Val His Ala Ala Thr Asp Tyr

15 20 25

acc cgc acg cgc tat ccc atc gtg ctg tcc cac ggt ctg ttc ggc ttc 208

Thr Arg Thr Arg Tyr Pro Ile Val Leu Ser His Gly Leu Phe Gly Phe

30 35 40

aag agc gtc ggc ccg gtg gac tac tgg cac gct atc gtg ccg gcc ctg 256

Lys Ser Val Gly Pro Val Asp Tyr Trp His Ala Ile Val Pro Ala Leu

45 50 55

gag aag gac ggc gcg aag gtc ttc gcc acc tcg cag tcg ccg gtg aac 304

Glu Lys Asp Gly Ala Lys Val Phe Ala Thr Ser Gln Ser Pro Val Asn

60 65 70 75

agc aac gag gtg cgc ggc gaa cag cta ctg gcg cag gtg gag gaa gtc 352

Ser Asn Glu Val Arg Gly Glu Gln Leu Leu Ala Gln Val Glu Glu Val

80 85 90

ctg gcc ctg acc ggc gcg gag aaa gtc aac ctg atc ggc cac agc cag 400

Leu Ala Leu Thr Gly A1a Glu Lys Val Asn Leu Ile Gly His Ser Gln

95 100 105

ggc ggc atg acc gtg cgc tac gtc gcc ggg gtg gcg ccg caa ctg gtg 448

Gly Gly Met Thr Val Arg Tyr Val Ala Gly Val Ala Pro Gln Leu Val

110 115 120

gcc tcg gtc acc acc atg ggc acg ccg cac aag ggc acg ccg gta gcc 496

Ala Ser Val Thr Thr Met Gly Thr Pro His Lys Gly Thr Pro Val Ala

125 130 135

gac gcg gtg acc ggc ttc agc gag ttc ctc ggg ccg atc ggc acc gag 544

Asp Ala Val Thr Gly Phe Ser Glu Phe Leu Gly Pro Ile Gly Thr Glu

140 145 150 155

gtg atc gcc tcg gcg gtg gag gcg ctg ttc tcg gtg gtc gac atc gtc 592

Val Ile Ala Ser Ala Val Glu Ala Leu Phe Ser Val Val Asp Ile Val

160 165 170

gac ggc ggc gag tgg gtc aag ggc gac gcg ctg gct gcc ctg aac agt 640

Asp Gly Gly Glu Trp Val Lys Gly Asp Ala Leu Ala Ala Leu Asn Ser

175 180 185

ctc aac act ccc ggc acc gcg cgg ttc aac cag cgc ttc ccg cag gcg 688

Leu Asn Thr Pro Gly Thr Ala Arg Phe Asn Gln Arg Phe Pro Gln Ala

190 195 200

atc ccg gcc agc gcc tgt ggc cag ggc gcg gag acg gta gcc ggg gtg 736

Ile Pro Ala Ser Ala Cys Gly Gln Gly Ala Glu Thr Val Ala Gly Val

205 210 215

cgc tac tac tcg atg agc ggc acc ggc tcc ctg acc aat gcg ctc gac 784

Arg Tyr Tyr Ser Met Ser Gly Thr Gly Ser Leu Thr Asn Ala Leu Asp

220 225 230 235

ccg agc tcc gcc ggc ctg gcg gtg acc ggg ctg ctg ttc ggc gag gcc 832

Pro Ser Ser Ala Gly Leu Ala Val Thr Gly Leu Leu Phe Gly Glu Ala

240 245 250

aac gac ggt ctg gtc ggc caa tgc tcc agc cac ctg ggc agc gtg gtg 880

Asn Asp Gly Leu Val Gly Gln Cys Ser Ser His Leu Gly Ser Val Val

255 260 265

aag gac aac tac cgg atg gac cat ctg gac gaa gtc aac cag ttg ctc 928

Lys Asp Asn Tyr Arg Met Asp His Leu Asp Glu Val Asn Gln Leu Leu

270 275 280

ggc ctg gtc agc ctg ttc gag agc gac ccg acc cag gtc tat agg cag 976

Gly Leu Val Ser Leu Phe Glu Ser Asp Pro Thr Gln Val Tyr Arg Gln

285 290 295

cat gcc aat cgc ctc agg aac gtc gga ctc tga tccgctcgcc gggtcgccgc 1029

His Ala Asn Arg Leu Arg Asn Val Gly Leu

300 305

agccctaggc gacccggcat tagtctttgg tctaatggca cctggatatc ac 1081

<210>2

<211>309

<212>PRT

<213>假单胞菌种(Pseudomonas sp.)

<400>2

Met Asn Lys Asn Lys Thr Phe Leu Ala Ala Ala Leu Val Ala Leu Ala

1 5 10 15

Ala Ser Phe Pro Val His Ala Ala Thr Asp Tyr Thr Arg Thr Arg Tyr

20 25 30

Pro Ile Val Leu Ser His Gly Leu Phe Gly Phe Lys Ser Val Gly Pro

35 40 45

Val Asp Tyr Trp His Ala Ile Val Pro Ala Leu Glu Lys Asp Gly Ala

50 55 60

Lys Val Phe Ala Thr Ser Gln Ser Pro Val Asn Ser Asn Glu Val Arg

65 70 75 80

Gly Glu Gln Leu Leu Ala Gln Val Glu Glu Val Leu Ala Leu Thr Gly

85 90 95

Ala Glu Lys Val Asn Leu Ile Gly His Ser Gln Gly Gly Met Thr Val

100 105 110

Arg Tyr Val Ala Gly Val Ala Pro Gln Leu Val Ala Ser Val Thr Thr

115 120 125

Met Gly Thr Pro His Lys Gly Thr Pro Val Ala Asp Ala Val Thr Gly

130 135 140

Phe Ser Glu Phe Leu Gly Pro Ile Gly Thr Glu Val Ile Ala Ser Ala

145 150 155 160

Val Glu Ala Leu Phe Ser Val Val Asp Ile Val Asp Gly Gly Glu Trp

165 170 175

Val Lys Gly Asp Ala Leu Ala Ala Leu Asn Ser Leu Asn Thr Pro Gly

180 185 190

Thr Ala Arg Phe Asn Gln Arg Phe Pro Gln Ala Ile Pro Ala Ser Ala

195 200 205

Cys Gly Gln Gly Ala Glu Thr Val Ala Gly Val Arg Tyr Tyr Ser Met

210 215 220

Ser Gly Thr Gly Ser Leu Thr Asn Ala Leu Asp Pro Ser Ser Ala Gly

225 230 235 240

Leu Ala Val Thr Gly Leu Leu Phe Gly Glu Ala Asn Asp Gly Leu Val

245 250 255

Gly Gln Cys Ser Ser His Leu Gly Ser Val Val Lys Asp Asn Tyr Arg

260 265 270

Met Asp His Leu Asp Glu Val Asn Gln Leu Leu Gly Leu Val Ser Leu

275 280 285

Phe Glu Ser Asp Pro Thr Gln Val Tyr Arg Gln His Ala Asn Arg Leu

290 295 300

Arg Asn Val Gly Leu

305

<210>3

<211>22

<212>DNA

<213>人工序列

<400>3

ggcgctgtca ggctggggt t cc 22

<210>4

<211>22

<212>DNA

<213>人工序列

<400>4

gtgatatcca ggtgccatta ga 22

<210>5

<211>31

<212>DNA

<213>人工序列

<400>5

caccatgaac aagaacaaga cgt tcctcgc g 31

<210>6

<211>31

<212>DNA

<213>人工序列

<220>

<221>misc_feature

<222>(7)..(21)

<223>n＝a或g或c或t

<400>6

gtgaccnnnn nnnnnnnnnn nctcgggccg a 31

<210>7

<211>31

<212>DNA

<213>人工序列

<220>

<221>misc_feature

<222>(11)..(25)

<223>n＝a或g或c或t

<400>7

tcggcccgag nnnnnnnnnn nnnnnggtca c 31

<210>8

<211>31

<212>DNA

<213>人工序列

<400>8

accaaagact aatgccgggt cgcctagggc t 31

Claims

1.一种新型的蛋白质分子定向进化方法，其主要流程是：通过使用X射线衍射法、NMR法等等实验方法解析作为进化起点的蛋白质分子的空间结构。或者使用计算机技术，根据蛋白质分子的序列信息，模拟其空间三维结构。进而根据得到的三维结构信息，或者根据该蛋白质分子的其它信息(如序列信息、二级结构信息等等所有有用的信息)，分析其分子特性，理性选择目的突变位点，并进行随机重复递推式基因序列突变，之后通过筛选，获得具有目的特性的新型蛋白质分子。其主要特征是：结合了理性过程和随机过程的优势。

2.根据权利要求1所述的一种新型的蛋白质分子定向进化方法，其特征是在获取蛋白质分子的空间三维结构时，既可以使用X射线衍射法、NMR法等等实验方法，也可以使用计算机模拟方法。

3.根据权利要求1所述的一种新型的蛋白质分子定向进化方法，其特征是在获取蛋白质分子的基因和序列信息时，既可以使用基因工程学原理，用PCR法或者文库法等等方法，得到目的蛋白质分子的基因片段，然后再使用“酶切”、“连接”、“转化”等等实验技术，将目的基因片段连上载体，导入宿主菌并保存。之后对基因进行测序，获得基因的碱基序列，根据三联密码子，由基因序列转换得到氨基酸序列；也可以通过搜索Genbank、EMBL、DDBJ等等国际序列数据库，获得目的蛋白质分子的核酸序列和氨基酸序列，使用全基因合成法，合成目的基因。

4.根据权利要求1所述的一种新型的蛋白质分子定向进化方法，其特征是其中的“突变位点”定义为：既可以是蛋白质分子上的一个单氨基酸残基及其对应的DNA和RNA上的碱基位点，也可以是包含有多个氨基酸残基的序列区域以及它们所对应的DNA和RNA上的多个碱基组成的序列区域。“突变位点”的选择既可以根据蛋白质分子三维结构信息，也可以根据如序列信息、二级结构信息等等所有有用的信息。

5.根据权利要求1所述的一种新型的蛋白质分子定向进化方法，其特征是其中的“随机重复递推式基因序列突变”中“随机”的主要过程为：在确定了突变位点之后，对编码蛋白质的DNA序列或RNA序列进行改造。对于待突变点，既可以将DNA序列或RNA序列中代表某一氨基酸的三联密码子更换为代表另一氨基酸的三联密码子，也可以更换为随机密码子，即：在之后的转录并翻译成蛋白质分子的过程中，在使用随机密码子的位置处，加入多肽链的氨基酸的种类是随机的。这样，就可以构建成一个随机序列文库，其特点在于：在理性选择的位点处产生了随机的序列信息。对序列上的特定位点进行改造(如更换密码子)的常用方法包括：重叠延伸PCR法和大引物PCR定点突变法、全基因合成法合成包含特定突变的全序列、限制性内切酶切除待突变区域后使用连接酶加入目的突变序列等等。对于“将其代表某一氨基酸的三联密码子更换为代表另一氨基酸的三联密码子”这一情况，可以直接将改造后的序列连上表达载体，转化宿主菌，表达出目的蛋白，并直接对目的蛋白的活性和理化特性进行检测，得知目的蛋白是否按照意愿产生正向进化。若未产生正向进化，则说明在突变位点替换的氨基酸种类不合适，此时返回该步骤，在该位点替换其它种类的氨基酸。对于构建随机文库这种情况，可以将文库中的基因连接于表达载体，转化入宿主菌，构建待筛选克隆文库。可以使用培养皿平板法、多孔板法、摇瓶法等等方法培养宿主菌并诱导其表达，之后逐一检测表达产物的活性或者理化特性，选择能产生正向进化蛋白质分子的宿主菌，保存。此为第一轮定向进化。

6.根据权利要求1所述的一种新型的蛋白质分子定向进化方法，其特征是其中的“随机重复递推式基因序列突变”中“重复递推式”的主要过程为：在第一轮定向进化完成后，以第一轮定向进化筛选到的结果(目的蛋白质)作为起点，重复之前的定向进化步骤，进行第二轮定向进化，将第二轮定向进化的结果(目的蛋白质)作为起点，重复之前的定向进化步骤，进行第三轮定向进化，依次类推，至第n轮定向进化(n为正整数)。即迭代递推重复式定向进化。该方法可以累积正向进化。

7.根据权利要求1所述的一种新型的蛋白质分子定向进化方法，其特征是在“重复递推式”定向进化的每一轮(包括最后一轮)，均可以对目的蛋白质及其基因使用错误倾向PCR(Error-prone PCR)或者DNAshuffling等等现有的定向进化技术，对其进行改造，进一步改善蛋白质分子特性。或者同时进行几组定向进化，每一组均对不同的突变位点进行突变，突变后，不立即进行筛选，而是混合各组的突变基因，使用DNA改组(DNA shuffling)等等技术，进行“洗牌”，此时，各组经过定向进化产生的突变基因的遗传信息在分子水平上产生了类似于“杂交”的效应，各个突变基因的遗传信息相互之间交叉混合，能够扩大遗传信息的多样性，提高定向进化的效率。然后通过筛选，得到正向进化的目的基因，再以此得到的基因为起点，进入下一轮定向进化。之后的每一轮定向进化，都可以使用上述的“洗牌”方法，进行迭代递推重复式定向进化，并累积正向进化。

8.根据权利要求1所述的一种新型的蛋白质分子定向进化方法，其特征是其中的“蛋白质”定义为：各种氨基酸通过脱水缩合作用形成肽链后产生的聚合物及其各种配基，或者各种氨基酸以其它方式形成的聚合物。蛋白质既可以是自然界动物、植物、微生物、病毒来源的天然蛋白质，也可以是实验室人工合成的或者修饰、改造过的蛋白质。蛋白质包括肽类物质。

9.通过使用权利要求1所述的一种新型的蛋白质分子定向进化方法，而获得的所有蛋白质分子及其氨基酸序列和碱基序列(包括DNA序列和RNA序列)。