CN103173282A

CN103173282A - 对叶绿素进行酶促脱色的组合物和方法

Info

Publication number: CN103173282A
Application number: CN2013100314216A
Authority: CN
Inventors: D·拉姆; D·韦纳; T·希契曼; N·R·巴顿; M·J·伯克
Original assignee: DSM IP Assets BV
Current assignee: DSM IP Assets BV
Priority date: 2004-06-16
Filing date: 2005-06-14
Publication date: 2013-06-26
Also published as: AU2005264938B2; AU2005264938A1; CN101432292B; CN101432292A; EA200700032A1; ES2461857T3; BRPI0510939A; CA2570872A1; EP1791853A4; WO2006009676A2; WO2006009676A3; JP2008505619A; EP2468853A1; EP2468853B1; ES2540728T3; EP1791853A2; EA013993B1; PL2468853T3; EP1791853B1

Abstract

本发明提供了酶处理（“漂白”或“脱色”）含叶绿素组合物的组合物和方法，所述含叶绿素组合物例如，藻类制备物，含叶绿素或受叶绿素污染的饲料，食品或油，例如植物油，包括从油料种子加工的油例如油菜（油菜籽）油或大豆油，或从油料果实加工的油例如棕榈油。在一个方面，本发明提供了应用叶绿素酶对藻类、动物（例如鱼）或植物制备物、食品或油中的叶绿素进行酶促水解的方法。在一个方面，叶绿素酶被固定在硅石上。本发明也提供了制造的组合物和洗涤剂。

Description

对叶绿素进行酶促脱色的组合物和方法

本申请是2005年6月14日递交的名称为“对叶绿素进行酶促脱色的组合物和方法”的中国专利申请200580027938.1（PCT/US2005/020866）的分案申请。

技术领域

本发明涉及食物、饲料或植物油的工业加工，植物和动物产品以及酶学领域。具体而言，本发明提供了用于酶处理（“漂白”或“脱色”）含叶绿素组合物或受叶绿素污染的组合物的组合物和方法，所述含叶绿素组合物或受叶绿素污染的组合物例如，藻类，动物或植物制备物，食品，饲料或油，例如植物油，包括从油料种子加工的油如油菜（油菜籽）油或大豆油，或从油料果实加工的油如棕榈油。在一个方面，本发明提供了应用叶绿素分解代谢的酶（例如，叶绿素酶）对例如藻类、动物或植物制备物或者食品、饲料或油中的叶绿素进行酶促修饰的方法。

背景技术

来自油料种子如油菜或大豆，或来自油料果实如棕榈的植物油含有叶绿素（chlorophyll）。叶绿素在油生产工艺的许多阶段被去除，包括种子碾压、油提取、脱胶、碱处理和漂白步骤。在这些阶段中的最后，漂白工艺残留的叶绿素被去除到可接受的水平。这些叶绿素典型地在包括加热油和使油通过吸附剂的漂白工艺步骤中从油中去除，以去除叶绿素和影响成品油外观和/或稳定性的其它带颜色化合物。这种技术也用于处理其它含叶绿素的油或植物或藻类制备物如含多不饱和脂肪酸（PUFA）（例如，二十碳五烯酸（EPA）和二十二碳六烯酸（DHA））的油。

高含量的叶绿素色素赋予不需要的颜色，并且诱导油在贮存期间氧化，导致油变坏。在食用油加工工业中，应用漂白步骤将叶绿素水平降低至0.1ppm，以便就颜色和器官感觉而言保证油质量。通常期望的成品叶绿素水平是0.02至0.05ppm之间。此漂白步骤增加了加工成本，并且由于漂白土中的夹带降低了油产量。

在植物中，叶绿素酶（chlase）是参与叶绿素降解的第一个酶，它催化叶绿素中的酯键水解，生成脱植基叶绿素（chlorophyllide）和叶绿醇（植醇，phytol phytol）。

发明概述

本发明提供了酶处理（“漂白”或“脱色”）含叶绿素组合物或受叶绿素污染的组合物的组合物和方法，所述含叶绿素组合物或受叶绿素污染的组合物例如，植物、动物（例如鱼、肉制品）或藻类制备物，食品，饲料或油，例如含多不饱和脂肪酸（PUFA）或含二十二碳六烯酸（DHA）的油，或者包含它们的混合物的组合物。在一个方面，本发明组合物和方法中的“酶漂白”包括应用叶绿素修饰酶，例如，具有叶绿素酶活性的多肽，包括chlases和叶绿素脱植基叶绿素水解酶（chlorophyll chlorophyllido-hydrolyases），和相关多肽或任何叶绿素分解代谢酶。因此，如本文所用，术语“酶漂白（enzymatic bleaching）”包括对叶绿素分子或等价物的任何修饰，包括部分或完全脱色。在一个方面，本发明的组合物和方法可以降低由夹带（entrainment）和粘土/漂白条件下的催化引起的脂肪分解造成的产量损失。

在本发明方法和工艺的可选方面，叶绿素酶—其可以是本发明的新颖的叶绿素酶，或已知的酶，包括chlases和叶绿素脱植基叶绿素水解酶和相关多肽，或它们的组合，或任何叶绿素分解代谢酶，在所述方法或工艺的任意时间或任意处加入，例如，如本文所述。例如，在一个方面，叶绿素酶（可以是本发明的新颖的叶绿素酶，或已知的酶，或它们的组合）和/或任何叶绿素分解代谢酶可以在混合步骤或脱胶步骤中、在碱性槽步骤中、在静态混合器中、在日槽（day tank）中或在保留混合器（retention mixer）中加入到组合物如粗油中，带有或不带有其它酶例如磷脂酶（例如磷脂酶C）。可选地，在本发明方法或工艺的一个方面，叶绿素酶（本发明的或已知的）和/或任何叶绿素分解代谢酶可以在这些步骤的任何组合中加入，或者在所有这些步骤中加入。

在一个方面，本发明提供了酶促修饰叶绿素，以便协助其从组合物中去除的方法或工艺，例如，通过水分离工艺，如附件A第1页所阐述，或者通过疏水分离工艺，或亲和分离工艺和类似工艺。

在一个方面，本发明提供了方法和工艺，包括酶促修饰（例如，分解代谢）组合物（例如食品、饲料、植物、动物、藻类等）中的叶绿素或等价化合物，进一步包括去除该组合物中的组分(例如，在成品中不需要的化合物)，如残留的叶绿素(例如，未被叶绿素酶修饰的叶绿素或等价化合物)、杀虫剂、多环芳烃等。不需要的组分，例如，残留的叶绿素、杀虫剂、多环芳烃和类似物，可以用明显更小量的漂白土或其它吸附剂如硅石或等价化合物去除。

在一个方面，应用漂白土去除组合物的这些组分，例如，在多个步骤中应用漂白土去除，其中在一个方面，用明显较小量的漂白土和/或至少一种其它吸附剂（例如硅石）去除组合物的组分。在一个方面，成品叶绿素水平是约0.02ppm至0.05ppm之间。在此示范性工艺中，漂白步骤可增加加工成本，并且由于漂白土中的夹带降低油产量。本发明的组合物和工艺可以降低夹带和粘土/漂白条件催化引起的脂肪分解造成的产量损失。

在本发明的一个示范性阐述的方法（反应）中，叶绿素酶催化叶绿素水解，生成脱植基叶绿素和叶绿醇，在一个方面中，脱植基叶绿素被水萃取，而叶绿醇保持在油相中。在另一示范性方法中，脱镁叶绿酸（pheophorbide）可以以类似于脱植基叶绿素的方式去除。在一个方面，通过实施本发明的组合物和方法，水分离工艺可以部分或全部排除对吸附的需求。然而，在另一方面，方法包括用基于硅石的提取工艺（例如，无吸附剂或吸附剂减少的硅石精炼）部分或全部提取含水可溶性脱植基叶绿素或脱镁叶绿酸。在一个方面，叶绿素酶被固定在硅石（其随后吸收脱植基叶绿素），例如，硅胶上。在一个方面，硅石包括TriSyl Silica或SORBSIL R^TM硅石。

本发明提供了方法，包括工业工艺，用于酶处理含褐藻素（脱镁叶绿素，pheophytin）组合物或受褐藻素污染的组合物的方法，包括下列步骤：（a）提供含褐藻素或受褐藻素污染的组合物；（b）提供具有叶绿素酶或褐藻素酶活性的多肽（其可以是本发明的新颖的叶绿素酶或已知的酶或它们的组合）；和（c）在其中多肽可以催化褐藻素修饰反应的条件下，使步骤（a）的组合物与步骤（b）的多肽反应。叶绿素的去镁衍生物称作褐藻素。褐藻素是有颜色的，在油中常常存在，特别是曾经应用过酸处理时。在一些应用中，需要去除褐藻素。褐藻素的叶绿素酶处理产物是脱镁叶绿酸，其可以以类似于脱植基叶绿素的方式被去除。

在一个方面，本发明的组合物和方法以工业工艺实施或者同工业工艺实施，例如，油漂白或碱中和或脱胶工艺。在一个方面，在目前的漂白工艺中，本发明组合物和方法的应用协助降低吸附剂的量或消除对吸附剂的需求，所述漂白工艺典型地包括加热油或其它含叶绿素组合物和使其通过吸附剂，以便去除叶绿素和影响成品油外观和/或稳定性的其它带颜色化合物。因此，在实施本发明的本方面中，通过部分或全部消除对吸附剂的需求，加工成本可以降低，例如，吸附剂（例如粘土）成本、处理成本、水成本、能量成本、蒸汽成本可以降低。实施本发明各个方面的其它益处包括产量改进，例如，在吸附剂基质中夹带的油减少，终产物的值增加，包括保留有价值的微量营养素如β胡萝卜素，加工效率增加，包括工艺步骤减少，节约资金和环境益处，例如，降低或消除漂白吸附剂的掩埋。

在一个方面，在实施本发明的组合物和方法中，可以在脱胶（例如，酶促脱胶）工艺中的任意点应用叶绿素修饰多肽（其可以是本发明的新颖的叶绿素酶或已知的酶或它们的组合）。例如，可以在工艺的任何步骤之前或之后，或者在工艺步骤的任何组合之前或之后，或者在所有工艺步骤之前或之后加入叶绿素修饰多肽，例如，在机械和/或化学提取，和/或脱胶和/或碱中和和/或漂白和类似过程之前、期间或之后加入。

在本发明任何方法的可选方面，至少一个步骤是在反应容器中，例如，油脱胶设备中进行的。在本发明任何方法的可选方面，至少一个步骤是以细胞提取物进行的。在本发明任何方法的可选方面，至少一个步骤是以全细胞进行的。细胞可以是任何来源，例如，植物细胞、细菌细胞、真菌细胞、动物细胞（例如，哺乳动物细胞、鱼细胞）或酵母细胞。

本发明提供了酶处理含叶绿素组合物或受叶绿素污染组合物的方法，包括下列步骤：（a）提供含叶绿素组合物或受叶绿素污染组合物（其可以是本发明的新颖的叶绿素酶，或者已知的酶，或者它们的组合）；（b）提供具有叶绿素酶活性的多肽；和（c）在其中多肽可以催化叶绿素修饰反应的条件下，使步骤（a）的组合物与步骤（b）的多肽反应。

本发明提供了酶处理（“漂白”）含叶绿素组合物或受叶绿素污染组合物的工业工艺，包括下列步骤：（a）提供含叶绿素组合物或受叶绿素污染组合物（其可以是本发明的新颖的叶绿素酶，或者已知的酶，或者它们的组合）；（b）提供具有叶绿素酶活性的多肽；和（c）在其中多肽可以催化叶绿素修饰反应的条件下，使步骤（a）的组合物与步骤（b）的多肽反应。

本发明提供了脱胶工艺，包括酶促漂白含叶绿素组合物或受叶绿素污染组合物的步骤，包括下列步骤：（a）提供含叶绿素组合物或受叶绿素污染组合物（其可以是本发明的新颖的叶绿素酶，或者已知的酶，或者它们的组合）；（b）提供具有叶绿素酶活性的多肽；和（c）在其中多肽可以催化叶绿素修饰反应的条件下，使步骤（a）的组合物与步骤（b）的多肽反应。

在叶绿素和褐藻素上存在第二个酯-甲酯。本发明方法可以进一步包括通过酯酶水解此甲酯。这可以增强反应衍生物（现在是二酸）分配到水层的趋势。

在一个示范性方法中，应用磷脂酶例如磷脂酶C或其它水解酶（例如，纤维素酶、半纤维素酶、酯酶、蛋白酶和/或磷酸酶），例如，以改进油萃取和油脱胶。

在可选的方面，本发明方法和工艺还可以包括通过酯酶（其可以是本发明的新颖的酶，或者已知的酶，或者它们的组合）水解叶绿素或褐藻素上的甲酯。在可选的方面，本发明方法还可以包括去除水萃取物中的经修饰的叶绿素。方法还可以包括修饰pH（例如，增加pH）以便促进脱植基叶绿素的水分离。本发明中应用的酶，例如，叶绿素酶，可以在此增加的pH期间或分离工艺中的“碱性（caustic）”相期间加入。方法还可以包括碱中和步骤。方法还可以包括无吸附剂或吸附剂减少的硅石精炼步骤，以便去除由酶促降解叶绿素产生的脱植基叶绿素。方法还可以包括水解酶如磷脂酶C的应用。

在本方法和工艺的一个方面，多肽是酯酶（例如，本发明的酶），例如，叶绿素酶，或具有类似叶绿素酶的活性，或具有叶绿素分解代谢活性。在本方法的一个方面，多肽被固定化。多肽可以被固定在无机支持物或有机支持物上。无机支持物可以包括氧化铝、硅藻土、Dowex-1-氯化物、玻璃珠或硅胶或等价物。多肽可以被固定在藻酸水凝胶或藻酸珠子或等价物上。在本方法的一个方面，多肽还包括脂质体、水凝胶或凝胶。

在本方法的一个方面，多肽在至少一个步骤中是在反应容器中进行的，例如，包括重力胶分离设备（gravitational gum separation device）或存贮槽或类似物的容器。在本发明的一个方面，至少一个步骤是用细胞提取物或全细胞实施的。细胞可以是植物细胞、细菌细胞、真菌细胞、酵母细胞、哺乳动物细胞、昆虫细胞和类似细胞。

在本方法的一个方面，含叶绿素组合物或受叶绿素污染的组合物包括植物材料、植物油（plant oil）或植物提取物。植物材料、植物油或植物提取物可以包括蔬菜油（vegetable oil）或种子油。植物油可以包括棕榈油或菜籽油。可选地，植物材料、植物油或植物提取物可以包括藻类制备物。在本方法的一个方面，含叶绿素组合物或受叶绿素污染的组合物包括非木材产品或木材产品。在本方法的一个方面，含叶绿素组合物或受叶绿素污染的组合物包括织品或布。在本方法的一个方面，含叶绿素组合物或受叶绿素污染的组合物包括药物制剂、食品、油、饲料或饮食添加剂。

本发明的组合物和方法可以用于处理粗提油（crude oils）或精炼油，例如，来自植物（例如，蔬菜）、藻类、动物或鱼的油或合成来源的油。本发明的组合物和方法可以用于处理更高油浓度的粗提油或精炼油，或者，在一个方面，用于处理未精炼和未稀释的粗提油。

在一个方面，方法还包括通过在硅胶或等价物上进行吸附而去除由酶降解叶绿素生成的脱植基叶绿素。含叶绿素组合物或受叶绿素污染的组合物可以包括纺织物、布、线或织物或相关组合物、木材或纸产品或副产品如木浆、纸浆、牛皮纸浆、或非木材纸产品或副产品如米纸（rice paper）。

本发明提供了制造用产品，包括用于酶处理含叶绿素组合物或受叶绿素污染组合物的脱胶系统，包括：（a）植物油精炼设备；和（b）具有叶绿素酶活性的多肽（例如，本发明的酶），其中多肽的活性包括催化叶绿素修饰反应，植物油精炼设备可以使含叶绿素组合物或受叶绿素污染组合物与多肽反应，在其中多肽可以催化叶绿素修饰反应的条件下。在制造用产品的一个方面，植物油精炼设备包括油离去推进器（oil leaving expellor）、存贮槽或重力胶分离设备。叶绿素修饰反应可以包括脱植基叶绿素和叶绿醇的生成。

本发明提供了包括酶处理含叶绿素织物或受叶绿素污染织物的洗涤剂，包括：（a）洗涤剂组合物；和（b）具有叶绿素酶活性的多肽（例如，本发明的酶），其中所述活性包括催化叶绿素修饰反应。在一个方面，叶绿素修饰反应包括脱植基叶绿素和叶绿醇的生成。

本发明提供了酶处理含叶绿素织物或受叶绿素污染织物的方法，包括：（a）提供包括具有叶绿素酶活性的多肽（例如，本发明的酶）的洗涤剂组合物，其中所述活性包括催化叶绿素修饰反应；和（b）使洗涤剂组合物与含叶绿素织物或受叶绿素污染织物在其中多肽可以催化叶绿素修饰反应的条件下接触。在一个方面，叶绿素修饰反应包括脱植基叶绿素和叶绿醇的生成。

本发明提供了分离的、合成的或重组的核酸，其包括在至少约10、15、20、25、30、35、40、45、50、55、60、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2200、2250、2300、2350、2400、2450、2500或更多个残基的区域内，与本发明的示范性核酸例如SEQ IDNO:1、SEQ ID NO:3、SEQ ID NO:5、SEQ ID NO:7、SEQ ID NO:9、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:17或SEQ ID NO:19有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性，或完全（100%）的序列同一性的核酸序列、与其基本上相同的序列，以及与其互补的序列，其编码具有本文所述的酶活性如酯酶活性的至少一种多肽。

在可选的方面，通过用序列比较算法或通过视觉观察确定序列同一性。在一个方面，序列比较算法是BLAST算法，例如，BLAST版本2.2.2算法，其中过滤设置（filtering setting）设置为blastall-p blastp-d"nr pataa"-F F，所有其它选项设置为默认。

本发明的示范性核酸也包括分离的、合成的或重组的核酸，其编码本发明多肽，例如，具有SEQ ID NO:2、SEQ ID NO:4、SEQ ID NO:6、SEQ ID NO:8、SEQID NO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:18或SEQID NO:20中列出的序列，及其子序列和其变体的多肽。

在可选的方面，多肽具有酯酶活性，包括叶绿素酶（chlase）活性，或包括酶促修饰叶绿素分子的酶活性，例如，其中酶促修饰包括叶绿素分子的分解代谢。在一个方面，酯酶活性包括叶绿素脱植基叶绿素水解酶活性。

在一个方面，本发明的分离的、合成的或重组的核酸编码具有热稳定酶活性的多肽。在包括约37℃至约95℃；约55℃至约85℃；约70℃至约95℃；或约90℃至约95℃的温度范围的条件下，所述多肽可以保留有酶活性。

在另一方面，本发明的分离的、合成的或重组的核酸编码具有耐热酶活性的多肽。在暴露于37℃以上至约95℃的温度范围或从55℃以上至约85℃的温度范围中的任何温度之后，多肽可以保留有酶活性。在暴露于约1℃至约5℃、约5℃至约15℃、约15℃至约25℃、约25℃至约37℃、约37℃至约95℃、约55℃至约85℃、约70℃至约75℃、或约90℃至约95℃或更高温度的范围内的温度之后，多肽可以保留有酶活性。在一个方面，在pH值4.5、暴露于90℃以上至约95℃的范围内的温度之后，多肽保留有酶活性。

本发明提供了分离的、合成的或重组的核酸，包括在严格条件下与包括本发明序列的核酸杂交的序列，本发明序列例如，在SEQ ID NO:1、SEQ ID NO:3、SEQID NO:5、SEQ ID NO:7、SEQ ID NO:9、SEQ ID NO:11、SEQ ID NO:13、SEQ IDNO:15、SEQ ID NO:17或SEQ ID NO:19中列出的序列，或其片段或子序列（或其互补物）。在一个方面，本发明核酸编码具有包括叶绿素酶（chlase）活性在内的酯酶活性的多肽，或者具有包括酶促修饰叶绿素分子的酶活性的多肽，例如，其中所述酶促修饰包括叶绿素分子的分解代谢。在一个方面，酯酶活性包括叶绿素脱植基叶绿素基水解酶活性。核酸可以是基因或转录物的至少约10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200或更多个残基长度或全长。在一个方面，严格条件包括含有在约65℃的温度，在0.2XSSC中洗涤约15分钟的洗涤步骤。

本发明提供了核酸探针，用于鉴定编码具有本文所述的酶活性（例如，酯酶活性，包括叶绿素酶（chlase）活性）的多肽的核酸，其中探针包括含有本发明序列或其片段或其子序列的序列中的至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000或更多个连续碱基，其中探针通过结合或杂交来鉴定核酸。探针可以包括含有本发明序列或其片段或其子序列的序列中的至少约10至50、约20至60、约30至70、约40至80或约60至100个连续碱基的寡核苷酸。

本发明提供了核酸探针，用于鉴定编码具有本文所述的至少一种酶活性（例如，酯酶活性，包括叶绿素酶（chlase）活性）的多肽的核酸，其中探针包括含有与本发明核酸具有至少50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性，或完全（100%）的序列同一性的、至少约10、15、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000或更多个残基的序列的核酸，其中序列鉴定是通过应用序列比较算法的分析或通过视觉观察确定的。

探针可以包括寡核苷酸，所述寡核苷酸包括本发明核酸序列或其子序列的至少约10至50、约20至60、约30至70、约40至80或约60至100个连续碱基。

本发明提供了扩增引物对，用于扩增编码具有本文所述的至少一种酶活性（例如，酯酶活性，包括叶绿素酶（chlase）活性）的多肽的核酸，其中所述引物对能够扩增包括本发明序列或其片段或子序列的核酸。扩增引物对中的一个成员或每一成员可以包括寡核苷酸，所述寡核苷酸含有所述序列的至少约10至50个连续碱基，或所述序列的约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个连续碱基。

本发明提供了扩增引物对，其中引物对包括第一成员和第二成员，第一成员具有本发明核酸的约头（5’）12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个残基列出的序列，第二成员具有第一成员的互补链的约头（5’）12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个残基列出的序列。

本发明提供了编码包括本发明多肽在内的蛋白质（例如酶）的核酸，通过应用本发明的扩增引物对进行扩增例如聚合酶链式反应（PCR）而生成。本发明提供了编码具有本文所述的至少一种酶活性（例如，酯酶活性，包括叶绿素酶（chlase）活性）的多肽的核酸，其中应用本发明的扩增引物对。本发明提供了应用本发明的扩增引物对，通过扩增例如聚合酶链式反应（PCR）制备和/或鉴定酶的方法。在一个方面，扩增引物对扩增来自文库的核酸，所述文库例如，基因文库，如环境文库。

本发明提供了扩增编码具有酶活性的多肽的核酸的方法，包括用能够扩增本发明核酸序列或其片段或子序列的扩增引物序列对扩增模板核酸。

本发明提供了包括本发明核酸或其子序列的表达盒。在一个方面，表达盒可以包括与启动子可操作连接的核酸。启动子可以是病毒、细菌、哺乳动物或植物启动子。在一个方面，植物启动子可以是马铃薯、稻、玉米、小麦、烟草或大麦启动子。启动可以是组成型启动子。组成型启动子可以包括CaMV35S。在另一方面，启动子可以是诱导型启动子。在一个方面，启动子可以是组织特异性启动子或受环境调节或受发育调节的启动子。因此，启动子可以是例如种子特异性、叶特异性、根特异性、茎特异性或脱落诱导性启动子。在一个方面，表达盒还可以包括植物或植物病毒表达载体。

本发明提供了克隆载体，其包括本发明的表达盒（例如载体）或本发明的核酸。克隆载体可以是病毒载体、质粒、噬菌体、噬粒、黏粒、F黏粒、细菌噬菌体或人工染色体。病毒载体可以包括腺病毒载体、反转录病毒载体或腺相关病毒载体。克隆载体可以包括细菌人工染色体（BAC）、质粒、细菌噬菌体、P1衍生载体（PAC）、酵母人工染色体（YAC）或哺乳动物人工染色体（MAC）。

本发明提供了包括本发明的核酸或本发明的表达盒（例如，载体）或本发明的克隆载体的转化细胞。在一个方面，转化细胞可以是细菌细胞、哺乳动物细胞、真菌细胞、酵母细胞、昆虫细胞或植物细胞。在一个方面，植物细胞可以是谷类、马铃薯、小麦、稻、玉米、烟草或大麦细胞。

本发明提供了包括本发明核酸或本发明表达盒（例如载体）的转基因非人动物。在一个方面，动物是小鼠。

本发明提供了包括本发明核酸或本发明表达盒（例如载体）的转基因植物。转基因植物可以是谷类植物、玉米植物、马铃薯植物、番茄植物、小麦植物、油料种子植物、油菜籽植物、大豆植物、稻植物、大麦植物或烟草植物。

本发明提供了包括本发明核酸或本发明表达盒（例如载体）的转基因种子。转基因种子可以是谷类植物、玉米种子、小麦粒、油料种子、油菜籽、大豆种子、棕榈仁、向日葵种子、芝麻种子、花生或烟草植物种子。

本发明提供了包括与本发明核酸互补或能够在严格条件下与本发明核酸杂交的核酸序列的反义寡核苷酸。本发明提供了抑制细胞中（本发明的酶的）酶信息的翻译的方法，包括给予细胞或在细胞中表达包括与本发明核酸互补或能够在严格条件下与本发明核酸杂交的核酸序列的反义寡核苷酸。在一个方面，反义寡核苷酸的长度是约10至50、约20至60、约30至70、约40至80或约60至100个碱基。

本发明提供了抑制细胞中酶信息的翻译的方法，包括给予细胞或在细胞中表达包括与本发明核酸互补或能够在严格条件下与本发明核酸杂交的核酸序列的反义寡核苷酸。本发明提供了包括本发明序列的子序列的双链抑制性RNA（RNAi）分子。在一个方面，RNAi是长度约15、16、17、18、19、20、21、22、23、24、25或更多个双核苷酸。本发明提供了抑制细胞中多肽（例如，本发明的酶）的表达的方法，包括给予细胞或在细胞中表达双链抑制性RNA（iRNA），其中RNA包括本发明序列的子序列。

本发明提供了分离的、合成的或重组的多肽，其包括在多肽的至少约20、25、30、35、40、45、50、55、60、65、70、75、100、125、150、175、200、225、250、275、300、325、350或更多个残基，或多肽全长范围内，与本发明的示范性多肽或肽具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性，或全部（100%）序列同一性的氨基酸序列。在一个方面，通过序列比较算法分析或视觉观察确定序列同一性。本发明的示范性多肽序列或肽序列包括SEQ ID NO:2、SEQ ID NO:4、SEQ ID NO:6、SEQ ID NO:8、SEQID NO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:18或SEQID NO:20，和其子序列和其变体。示范性多肽也包括酶的至少约10、15、20、25、30、35、40、45、50、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600或更多个残基长度的片段，或酶的全长。本发明的示范性多肽序列或肽序列包括本发明核酸编码的序列。本发明的示范性多肽或肽序列包括与本发明的抗体特异性结合的多肽或肽。肽可以是，例如，免疫原性片段、基序（例如，结合位点）、信号序列、前体序列（prepro sequence）、催化结构域（CDs）或活性部位。

在一个方面，本发明的多肽具有酯酶活性，如叶绿素酶（chlase）活性，或具有包括酶促修饰叶绿素分子的酶活性，例如，其中酶促修饰包括叶绿素分子的分解代谢。在一个方面，酯酶活性包括叶绿素脱植基叶绿素基水解酶活性。

本发明的另一方面提供了分离的、合成的或重组的多肽或肽，包括本发明多肽序列或肽序列的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100或更多个连续碱基，与其基本上相同的序列和与其互补的序列。肽可以是，例如，免疫原性片段、基序（例如，结合位点）、信号序列、前体序列、催化结构域（CDs）或活性部位。

本发明提供了生物合成系统，包括细胞例如酵母细胞、植物细胞、真菌细胞或微生物（例如细菌）细胞中的本发明核酸和/或质粒。在一个方面，本发明的生物合成系统包括用于叶绿素分子分解代谢所需的所有酶或其子集的编码序列。在一个方面，编码序列可以在质粒、重组载体或病毒和类似物中。

在一个方面，本发明多肽的酶活性是热稳定的。在包括约1℃至约5℃，约5℃至约15℃，约15℃至约25℃，约25℃至约37℃，约37℃至约95℃，约55℃至约85℃，约70℃至约75℃，或约90℃至约95℃或更高的温度范围的条件下，本发明多肽可以保留有活性。在另一方面，本发明多肽的酶活性是耐热的。在暴露于37℃以上至约95℃，或从55℃以上至约85℃的范围中的温度之后，多肽可以保留有活性。在一个方面，在pH值4.5、暴露于90℃以上至约95℃的范围内的温度之后，多肽可以保留有活性。

在一个方面，分离的、合成的或重组的多肽可以包括缺少信号序列的本发明多肽。在一个方面，分离的、合成的或重组的多肽可以包括含有异源信号序列的本发明多肽。

在一个方面，本发明提供了嵌合蛋白，其包括含有本发明信号序列的第一结构域和至少第二结构域。蛋白质可以是融合蛋白。第二结构域可以包括酶。嵌合酶可以包括具有本文所述活性（例如，酯酶活性，包括叶绿素酶（chlase）活性）的至少一种多肽的整个序列或其子序列。

本发明提供了嵌合多肽，其包括含有本发明信号肽（SP）、前体序列和/或催化结构域（CD）的至少第一结构域和含有异源多肽或肽的至少第二结构域，其中异源多肽或肽不与信号肽（SP）、前体序列和/或催化结构域（CD）天然相关。在一个方面，异源多肽或肽不是具有包括酯酶活性或叶绿素分解代谢活性的活性的多肽。异源多肽或肽可以是在信号肽（SP）、前体序列和/或催化结构域（CD）的氨基端、羧基端或者在信号肽（SP）、前体序列和/或催化结构域（CD）的氨基端和羧基端。

本发明提供了编码嵌合多肽的分离的、合成的或重组的核酸，其中嵌合多肽包括含有本发明信号肽（SP）、前体序列和/或催化结构域（CD）的至少第一结构域和含有异源多肽或肽的至少第二结构域，其中异源多肽或肽不与信号肽（SP）、前体序列和/或催化结构域（CD）天然相关。

本发明提供了分离的、合成的或重组的信号序列（例如，信号肽），其由本发明多肽例如SEQ ID NO:2、SEQ ID NO:4、SEQ ID NO:6、SEQ ID NO:8、SEQ IDNO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:18或SEQ IDNO:20的残基1至14、1至15、1至16、1至17、1至18、1至19、1至20、1至21、1至22、1至23、1至24、1至25、1至26、1至27、1至28、1至28、1至30、1至31、1至32、1至33、1至34、1至35、1至36、1至37、1至38、1至40、1至41、1至42、1至43或1至44中列出的序列组成或者包括这些序列。本发明提供了分离的、合成的或重组的信号序列（例如，信号肽），其由下面的表1中列出的序列组成或者包括这些序列。

在一个方面，本发明的酶在约37℃时的比活性范围是每毫克蛋白约1至约1200单位，或每毫克蛋白约100至约1000单位。在另一方面，本发明的酶的比活性是每毫克蛋白约100至约1000单位，或每毫克蛋白约500至约750单位。可选地，本发明的酶在37℃时的比活性范围是每毫克蛋白约1至约750单位，或每毫克蛋白约500至约1200单位。在一个方面，本发明的酶在37℃时的比活性范围是每毫克蛋白约1至约500单位，或每毫克蛋白约750至约1000单位。在另一方面，本发明的酶在37℃时的比活性范围是每毫克蛋白约1至约250单位。可选地，本发明的酶在37℃时的比活性范围是每毫克蛋白约1至约100单位。在另一方面，耐热性包括加热至升高的温度后，保留37℃时酶的至少一半比活性。可选地，耐热性可以包括加热至升高的温度后，保留的比活性范围是37℃时每毫克蛋白约1至约1200单位，或每毫克蛋白约500至约1000单位。在另一方面，耐热性可以包括加热至升高的温度后，保留的比活性范围是37℃时每毫克蛋白约1至约500单位。

本发明提供了本发明的分离的、合成的或重组的多肽，其中多肽包括至少一个糖基化位点。在一个方面，糖基化可以是N连接的糖基化。在一个方面，多肽在巴斯德毕赤酵母（P.pastoris）或粟酒裂殖酵母（S.pombe）中表达之后可以被糖基化。

在一个方面，本发明的多肽可以在包括约pH6.5、pH6、pH5.5、pH5、pH4.5或pH4或更酸性的条件下保持酶活性。在另一方面，本发明多肽在包括约pH7、pH7.5、pH8.0、pH8.5、pH9、pH9.5、pH10、pH10.5或pH11或更碱性的条件下保持活性。在一个方面，本发明多肽在包括约pH6.5、pH6、pH5.5、pH5、pH4.5或pH4或更酸性的条件下保持活性。在另一方面，本发明多肽在包括约pH7、pH7.5、pH8.0、pH8.5、pH9、pH9.5、pH10、pH10.5或pH11或更碱性的条件下保持活性。

本发明提供了含有本发明多肽的蛋白制备物，其中所述蛋白制备物包括液体、固体或凝胶。

本发明提供了含有本发明多肽和第二蛋白质或结构域的异二聚体。在一个方面，异二聚体的第二成员不是本发明多肽，而是不同的酶或另一蛋白质。在一个方面，第二结构域可以是多肽，异二聚体可以是融合蛋白。在一个方面，第二结构域可以是表位或标签。在一个方面，本发明提供了包括本发明多肽的同型二聚体。

本发明提供了固定化的本发明多肽，它是由本发明核酸编码的多肽，或者包括本发明多肽和第二结构域的多肽。在一个方面，多肽可以被固定在细胞、金属、树脂、聚合物、陶瓷、玻璃、微电极、石墨颗粒、珠子、凝胶、平板、阵列或毛细管上。

本发明提供了包括固定化的本发明核酸的阵列。本发明提供了包括本发明抗体的阵列。

本发明提供了与本发明多肽特异结合或与本发明核酸编码的多肽特异结合的分离的、合成的或重组的抗体。抗体可以是单克隆抗体或多克隆抗体。本发明提供了包括本发明抗体，例如，与本发明多肽或本发明核酸编码的多肽特异结合的抗体的杂交瘤。

本发明提供了分离或鉴定参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的方法，其中所述方法包括下列步骤：（a）提供本发明的抗体；（b）提供包括多肽的样品；和（c）使步骤（b）的样品与步骤（a）的抗体在其中抗体可以和多肽特异结合的条件下接触，从而分离或鉴定多肽。

本发明提供了制备与本发明多肽（例如，本发明的酶或别的抗体）特异结合的抗体的方法，包括给予非人动物本发明的核酸或本发明的多肽或其子序列，给予的量足以产生体液免疫应答，从而产生抗体应答。本发明提供了形成体液免疫应答或细胞免疫应答的方法，包括给予非人动物本发明的核酸或本发明的多肽或其子序列，给予的量足以产生免疫应答。

本发明提供了产生重组多肽的方法，包括下列步骤：（a）提供与启动子可操作连接的本发明核酸，和（b）在使得多肽表达的条件下表达步骤（a）的核酸，从而产生重组多肽。在一个方面，本方法还可以包括用步骤（a）的核酸转化宿主细胞，随后表达步骤（a）的核酸，从而在转化细胞中产生重组多肽。

本发明提供了鉴定参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的方法，包括下列步骤：（a）提供本发明多肽或本发明核酸编码的多肽；（b）提供合适的底物（例如，多肽的底物）；和（c）使步骤（a）的多肽或其片段或变体与步骤（b）的底物接触，并检测底物量的减少或反应产物量的增加，其中底物量减少或反应产物量增加检测出参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽。

本发明提供了鉴定参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的底物的方法，其中所述方法包括下列步骤：（a）提供本发明多肽或本发明核酸编码的多肽；（b）提供受试底物；和（c）使步骤（a）的多肽与步骤（b）的受试底物接触，和检测底物量的减少或反应产物量的增加，其中底物量减少或反应产物量增加将受试底物鉴定为参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的底物。

本发明提供了确定受试化合物是否与多肽特异结合的方法，包括下列步骤：（a）在允许核酸翻译成多肽的条件下表达核酸或含有核酸的载体，其中核酸包括本发明核酸，或者提供本发明的多肽；（b）提供受试化合物；（c）使多肽和受试化合物接触；和（d）确定步骤（b）的受试化合物是否与多肽特异结合。

本发明提供了鉴定参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的调节剂的方法，包括下列步骤：（a）提供本发明多肽或本发明核酸编码的多肽；（b）提供受试化合物；（c）使步骤（a）的多肽和步骤（b）的受试化合物接触，和测定多肽活性，其中受试化合物存在时测定的活性与受试化合物不存在时的活性相比的变化确定出受试化合物调节多肽活性。在一个方面，通过提供合适的底物（例如，参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的底物）和检测底物量的减少或反应产物量的增加，或底物量的增加或反应产物量的减少，可以测定多肽活性。与不应用受试化合物的底物或反应产物的量相比，应用受试化合物时底物量的减少或反应产物量的增加将受试化合物鉴定为活性激活剂。与不应用受试化合物的底物或反应产物的量相比，应用受试化合物时底物量的增加或反应产物量的减少将测试化合物鉴定为活性抑制剂。

本发明提供了包括处理器和数据存储设备的计算机系统，其中所述数据存储设备在其上存储有本发明的多肽序列或核酸序列（例如，本发明核酸编码的多肽）。在一个方面，计算机系统还可以包括序列比较算法和其上已经存储了至少一个参照序列的数据存储设备。在另一方面，序列比较算法包括表明多态性的计算机程序。在一个方面，计算机系统还可以包括鉴定所述序列中的一个或多个特征的标识物（identifier）。本发明提供了在其上存储有本发明的多肽序列或核酸序列的计算机可读介质。本发明提供了鉴定序列中特征的方法，包括下列步骤：（a）用鉴定序列中的一个或多个特征的计算机程序读取序列，其中所述序列包括本发明的多肽序列或核酸序列；和（b）用计算机程序鉴定序列中的一个或多个特征。本发明提供了比较第一序列和第二序列的方法，包括下列步骤：（a）应用比较序列的计算机程序读取第一序列和第二序列，其中第一序列包括本发明的多肽序列或核酸序列；和（b）应用计算机程序确定第一序列和第二序列之间的差异。确定第一序列和第二序列之间的差异的步骤还可以包括鉴定多态性的步骤。在一个方面，方法还可以包括鉴定序列中一个或多个特征的标识符。在另一方面，方法可以包括用计算机程序读取第一序列和鉴定该序列中的一个或多个特征。

本发明提供了从环境样品中分离或回收编码多肽的核酸的方法，所述多肽具有参与叶绿素分解代谢的酶活性或具有酯酶（例如叶绿素酶）活性，包括下列步骤：（a）提供扩增编码叶绿素分解代谢所涉及的多肽或具有酯酶（例如叶绿素酶）活性的多肽的核酸的扩增引物序列对，其中所述引物对能够扩增本发明的核酸；（b）从环境样品分离核酸或处理环境样品，以至于样品中的核酸可用于与扩增引物对杂交；和（c）使步骤（b）中的核酸与步骤（a）中的扩增引物对混合并扩增来自环境样品的核酸，从而从环境样品中分离或回收编码参与叶绿素分解代谢的多肽或具有酯酶（例如叶绿素酶）活性的多肽的核酸。在一个方面，扩增引物对的一个成员或每一成员可以包括含有本发明序列的至少约10至50或更多个连续碱基的寡核苷酸。在一个方面，扩增引物对是本发明的扩增对。

本发明提供了从环境样品中分离或回收编码多肽的核酸的方法，所述多肽参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性，包括下列步骤：（a）提供含有本发明核酸或其子序列的多核苷酸探针；（b）从环境样品分离核酸或者处理环境样品，以至于样品中的核酸可与步骤（a）的多核苷酸探针杂交；（c）使步骤（b）中的分离的、合成的核酸或处理的环境样品与步骤（a）的多核苷酸探针混合；和（d）分离与步骤（a）中的多核苷酸探针特异杂交的核酸，从而从环境样品分离或回收编码参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的核酸。环境样品可以包括水样品、液体样品、土壤样品、气体样品或生物样品。在一个方面，生物样品可以来自细菌细胞、原生动物细胞、昆虫细胞、酵母细胞、植物细胞、真菌细胞或哺乳动物细胞。

本发明提供了产生编码参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的核酸的变体的方法，包括下列步骤：（a）提供包括本发明核酸的模板核酸；和（b）在模板序列中修饰、缺失或添加一个或多个核苷酸，或它们的组合，生成模板核酸的变体。在一个方面，方法还可以包括表达变体核酸产生参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的变体多肽。修饰、添加或缺失可以由下列方法引入：包括易错PCR（error-prone PCR）、重排（shuffiing）、寡核苷酸定点诱变（oligonucleotide-directed mutagenesis）、装配PCR（assembly PCR）、有性PCR诱变（sexual PCR mutagenesis）、体内诱变（in vivo mutagenesis）、盒式诱变（cassette mutagenesis）、递归整体诱变（recursive ensemble mutagenesis）、指数整体诱变（exponential ensemble mutagenesis）、位点专一性诱变（site-specificmutagenesis）、基因重装配（gene reassembly）、基因位点饱和诱变（Gene SiteSaturation Mutagenesis）（GSSM）、合成连接重装配（synthetic ligation reassembly）（SLR）或它们的组合。在另一方面，修饰、添加或缺失由下列方法引入：包括重组、递归序列重组（recursive sequence recombination）、硫代磷酸酯修饰的DNA诱变（phosphothioate-modified DNA mutagenesis）、含尿嘧啶模板诱变（uracil-containing template mutagenesis）、缺口双链体诱变（gapped duplexmutagenesis）、点错配修复诱变（point mismatch repair mutagenesis）、修复-缺陷型宿主株诱变（repair-deficient host strain mutagenesis）、化学诱变（chemicalmutagenesis）、放射诱变（radiogenic mutagenesis）、缺失诱变（deletion mutagenesis）、限制-选择诱变（restriction-selection mutagenesis）、限制-纯化诱变（restriction-purification mutagenesis）、人工基因合成（artificial gene synthesis）、整体诱变（ensemble mutagenesis）、嵌合核酸多聚体产生（chimeric nucleic acidmultimer creation）和它们的组合。

在一个方面，所述方法可以反复重复，直至产生参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽，所述多肽与模板核酸编码的多肽相比具有改变的或不同的活性或改变的或不同的稳定性。在一个方面，变体多肽是耐热的，并且在暴露于增加的温度后保留一些活性。在另一方面，与模板核酸编码的多肽相比，变体多肽的糖基化增加。可选地，变体多肽在高温（或更高温）下具有活性，其中模板核酸编码的酶在该高温下没有活性。在一个方面，所述方法可以反复重复，直至产生与模板核酸的密码子使用不同的密码子使用的酶编码序列。在另一方面，所述方法可以反复重复，直至产生具有比模板核酸更高或更低水平的信息表达或稳定性的酶编码基因。

本发明提供了修饰编码参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的核酸中的密码子，以便增加其在宿主细胞中的表达的方法，方法包括下列步骤：（a）提供编码参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的本发明核酸；和（b）鉴定步骤（a）核酸中的非优选（non-preferrd）密码子或较不优选（less preferred）的密码子并用编码相同氨基酸的优选的（preferred）或中性使用（neutrally used）的密码子作为替代密码子替换之，其中优选密码子是在宿主细胞的基因的编码序列中表现过度（over-represented）的密码子，非优选密码子或较不优选的密码子是在宿主细胞的基因的编码序列中表现不足（under-represented）的密码子，从而修饰核酸以便增强其在宿主细胞中的表达。

本发明提供了修饰编码参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的核酸中的密码子的方法，所述方法包括下列步骤：（a）提供本发明核酸；和（b）鉴定步骤（a）核酸中的密码子，并用编码相同氨基酸的不同密码子作为替代密码子替换，从而修饰编码多肽的核酸中的密码子。

本发明提供了修饰编码具有参与叶绿素分解代谢的酶活性或具有酯酶（例如叶绿素酶）活性的多肽的核酸中的密码子以增强其在宿主细胞中的表达的方法，方法包括下列步骤：（a）提供编码具有参与叶绿素分解代谢的酶活性或具有酯酶（例如叶绿素酶）活性的多肽的本发明核酸；和（b）鉴定步骤（a）核酸中的非优选密码子或较不优选的密码子，并用编码相同氨基酸的优选的或中性使用的密码子作为替代密码子替换，其中优选密码子是在宿主细胞的基因的编码序列中表现过度的密码子，非优选密码子或较不优选的密码子是在宿主细胞的基因的编码序列中表现不足的密码子，从而修饰核酸以增强其在宿主细胞中的表达。

本发明提供了修饰编码具有参与叶绿素分解代谢的酶活性或具有酯酶（例如叶绿素酶）活性的多肽的核酸中的密码子，以便降低其在宿主细胞中的表达的方法，所述方法包括下列步骤：（a）提供本发明核酸；和（b）鉴定步骤（a）核酸中的至少一个优选密码子并用编码相同氨基酸的非优选或较不优选的密码子作为替代密码子替换，其中优选密码子是在宿主细胞的基因的编码序列中表现过度的密码子，非优选密码子或较不优选的密码子是在宿主细胞的基因的编码序列中表现不足的密码子，从而修饰核酸以便降低其在宿主细胞中的表达。在一个方面，宿主细胞可以是细菌细胞、真菌细胞、昆虫细胞、酵母细胞、植物细胞或哺乳动物细胞。

本发明提供了产生核酸文库的方法，所述核酸文库编码具有参与叶绿素分解代谢的酶活性或具有酯酶（例如叶绿素酶）活性的多肽中的多个经修饰的多肽活性部位（催化结构域（CDs））或底物结合部位，其中经修饰的活性部位或底物结合部位衍生自包括编码第一活性部位或第一底物结合部位的序列的第一核酸，方法包括下列步骤：（a）提供编码第一活性部位或第一底物结合部位的第一核酸，其中第一核酸序列包括在严格条件下与本发明核酸杂交的序列，并且所述核酸编码活性部位或底物结合部位；（b）提供一套在第一核酸的多个靶密码子处编码天然产生的氨基酸变体的诱变寡核苷酸；和（c）应用这套诱变寡核苷酸产生一套编码活性部位或编码底物结合部位的变体核酸，在每一个被诱变的氨基酸密码子处，变体核酸编码一定范围的氨基酸变异，从而生成编码具有参与叶绿素分解代谢的酶活性或具有酯酶（例如叶绿素酶）活性的多肽中的多个经修饰的多肽活性部位或底物结合部位的核酸文库。在一个方面，本发明包括，通过下列方法诱变步骤（a）中的第一核酸，所述方法包括优化的定向进化系统（optimized directedevolution system）、基因位点饱和诱变（GSSM）、合成连接重装配（SLR）、易错PCR、重排、寡核苷酸定点诱变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体诱变、位点专一性诱变、基因重装配、合成连接重装配（SLR）和它们的组合。在另一方面，方法包括通过下列方法诱变步骤（a）中的第一核酸或变体，所述方法包括重组、递归序列重组、硫代磷酸酯修饰的DNA诱变、含尿嘧啶模板诱变、缺口双链体诱变、点错配修复诱变、修复-缺陷型宿主株诱变、化学诱变、放射诱变、缺失诱变、限制-选择诱变、限制-纯化诱变、人工基因合成、整体诱变、嵌合核酸多聚体产生和它们的组合。

本发明提供了制备小分子的方法，包括下列步骤：（a）提供能够合成或修饰小分子的多种生物合成酶，其中所述酶中的一种包括本发明多肽或由本发明核酸编码；（b）提供步骤（a）中的至少一种酶的底物；和（c）在利于多个生物催化反应进行的条件下，将步骤（b）的底物和酶反应，通过一系列生物催化反应产生小分子。本发明提供了修饰小分子的方法，包括下列步骤：（a）提供酶，其中所述酶包括本发明多肽或由本发明核酸编码的多肽，或其子序列；（b）提供小分子；和（c）在有利于本发明多肽或本发明核酸编码的多肽催化的酶反应进行的条件下，使步骤（a）的酶与步骤（b）的小分子反应，从而修饰小分子。在一个方面，所述方法可以包括步骤（a）中的酶的多种小分子底物，从而生成由本发明的酶催化的至少一种酶反应产生的修饰小分子的文库。在一个方面，所述方法可以包括包括多种额外酶，在有利于进行由所述酶催化的多种生物催化反应的条件下，通过多个酶促反应形成经修饰的小分子的文库。在另一方面，所述方法还可以包括测试文库以确定文库中是否存在表现出期望活性的特定的修饰小分子的步骤。测试文库的步骤还可以包括系统性去除文库中用来产生部分多个修饰小分子的除一个反应之外的所有生物催化反应的步骤，通过检测该部分修饰小分子中具有所需活性的特定修饰小分子的存在或不存在，和鉴定产生具有所需活性的特定修饰小分子的至少一个特定的生物催化反应。

本发明提供了确定本发明多肽或本发明核酸编码的多肽的功能性片段的方法，包括下列步骤：（a）提供本发明多肽或本发明核酸编码的多肽，或其子序列；和（b）从步骤（a）中的序列中删除多个氨基酸残基，和测试残余子序列的酶或结合活性，从而确定该酶的功能性片段。在一个方面，通过提供底物和检测底物量的减少或反应产物量的增加来测定活性。

本发明提供了通过应用实时代谢流（real-time metabolic flux）分析进行新型或修饰的表型的全细胞工程的方法，所述方法包括下列步骤：（a）通过修饰细胞的遗传成分制备修饰的细胞，其中所述遗传成分是通过向细胞中加入本发明核酸而被修饰的；（b）培养修饰的细胞以产生多个修饰细胞；（c）通过实时监测步骤（b）中的细胞培养物，测定细胞的至少一个代谢参数；和（d）分析步骤（c）的数据，以确定在相似的条件下，被测定的参数是否不同于未修饰细胞中的参照测量值，从而应用实时代谢流分析鉴定细胞中的改造表型。在一个方面，通过包括删除或修饰细胞中的序列或者敲除基因的表达的方法，可以修饰细胞的遗传成分。在一个方面，所述方法还可以包括选择含有新改造表型的细胞。在另一方面，所述方法可以包括培养选择的细胞，从而生成含有新改造表型的新细胞株。

本发明提供了提高本发明多肽或本发明核酸编码的多肽的耐热性或热稳定性的方法，方法包括糖基化含有本发明多肽或本发明核酸序列编码的多肽的至少30个连续氨基酸的多肽，从而增强多肽的耐热性或热稳定性。在一个方面，在约37℃以上至约95℃的范围温度时，比活性是热稳定的或耐热的。

本发明提供了在细胞中过表达重组多肽的方法，包括表达包括含有本发明核酸的核酸的载体或本发明核酸序列，其中序列同一性是通过应用序列比较算法的分析或通过视觉观察而确定的，其中过表达通过应用高活性启动子、双顺反子载体或通过载体的基因扩增实现。

本发明提供了制备转基因植物的方法，包括下列步骤：（a）向细胞中引入异源核酸序列，其中异源核酸序列包括本发明的核酸，从而生成转化的植物细胞；和（b）从转化细胞中产生转基因植物。在一个方面，步骤（a）还可以包括通过电穿孔或植物细胞原生质体的微注射引入异源核酸序列。在另一个方面，步骤（a）还可以包括通过DNA粒子轰击（DNAparticle bombardment）向植物组织中直接引入异源核酸序列。可选地，步骤（a）还可以包括应用根癌农杆菌（Agrobacteriumtumefaciens）宿主向植物细胞DNA中引入异源核酸序列。在一个方面，植物细胞可以是马铃薯、玉米、稻、小麦、烟草或大麦细胞。

本发明提供了在植物细胞中表达异源核酸序列的方法，包括下列步骤：（a）用与启动子可操作连接的异源核酸序列转化植物细胞，其中所述异源核酸序列包括本发明的核酸；（b）在异源核酸序列在所述植物细胞中表达的条件下培养植物。本发明提供了在植物细胞中表达异源核酸序列的方法，包括下列步骤：（a）用与启动子可操作连接的异源核酸序列转化植物细胞，其中所述异源核酸序列包括本发明的序列；（b）在其中异源核酸序列在所述植物细胞中表达的条件下培养植物。在另一方面，通过在生物体如细菌、酵母、植物、昆虫、真菌或动物中表达本发明的多核苷酸，可以制备本发明的酶。用于表达本发明多肽的示范性生物可以是裂殖酵母、酿酒酵母、毕赤酵母属某种（Pichia sp.）例如巴斯德毕赤酵母、大肠杆菌（E.coli）、链霉菌某种（Streptomyces sp.）、芽孢杆菌某种（Bacillus sp.）和乳酸菌某种（Lactobacillus sp.）。

本发明的另一方面是制备本发明多肽的方法。方法包括向宿主细胞中引入编码所述多肽的核酸，其中所述核酸可操作地连接到启动子，和在允许所述核酸表达的条件下培养宿主细胞。本发明的又一方面是制备本发明多肽或肽的方法。方法包括向宿主细胞中引入编码所述多肽的核酸，其中所述核酸可操作地连接到启动子，和在允许所述核酸表达的条件下培养宿主细胞，从而产生所述多肽。

本发明的另一方面是产生变体的方法，包括获得具有本发明序列、与其基本上相同的序列、与本发明序列互补的序列及其片段的核酸，和使序列中的一个或多个核苷酸变为另一核苷酸、删除序列中的一个或多个核苷酸，或者向序列中加入一个或多个核苷酸。

本发明提供了对含有本发明至少一种酶的对叶绿素进行分解代谢的生物合成系统。本发明提供了含有编码参与叶绿素分解代谢的酶的至少一种核酸的对叶绿素进行分解代谢的生物合成系统，其中所述核酸包括本发明的序列。在一个方面，所述系统包括多种酶编码核酸，其中所述酶参与叶绿素的分解代谢。在一个方面，所述多种酶编码核酸包括叶绿素分解代谢途径中的所有酶。在一个方面，所述多种酶编码核酸被包含在至少一个质粒、表达盒或表达载体中。

在一个方面，本发明的生物合成系统被包含在细胞中（包括细胞）。细胞可以是细菌细胞、哺乳动物细胞、真菌细胞、酵母细胞、昆虫细胞或植物细胞。酵母细胞可以是毕赤酵母属某种或酵母属某种（Saccharomyces sp.）如巴斯德毕赤酵母、酿酒酵母或粟酒裂殖酵母（Schizosaccharomyces pombe）。

本发明的一个或多个实施方式的细节在下面附随的附图和描述中阐述。从说明书和附图以及权利要求书来看，本发明的其它特征、目标和益处将是显而易见的。

本文引用的所有出版物、专利、专利申请、GenBank序列和ATCC保藏物，包括附录A，明确并入本文作为参考，用于所有目的。

附图说明

图1是对叶绿素（图1A）、叶绿醇（图1B）和脱植基叶绿素（图1C）的示意性描述。

图2和图3描述了表明应用本发明的酶进行的酯酶（叶绿素酶活性）活性分析结果的数据，如下面的实施例1中详细描述。

图4是本发明示范性计算机系统的框图，如下面详细描述。

图5是一个流程图，该图示意性说明了用于将新的核苷酸或蛋白质与序列数据库进行比较，以确定新序列和数据库中的序列之间的同源性水平的过程的一个方面，如下面详细描述。

图6是一个流程图，该图示意性说明了在计算机中确定两个序列是否同源的过程的一个方面，如下面详细描述。

图7是一个流程图，该图示意性说明了检测序列中特征的存在的鉴定过程300的一个方面，如下面详细描述。

图8示出了本发明的示范性酯酶在叶绿素降解中的反应，如下面详细描述。

图9示出和比较传统的酶脱色反应和本发明的示范性酶脱色（漂白）反应，如下面详细描述。

图10示出了本发明的示范性酶脱色（漂白）反应，如下面详细描述。

图11示出了本发明的示范性酶脱色（漂白）方法，其结合有脱胶、酶漂白（“脱色”）和碱中和步骤，如下面详细描述。

图12示出了本发明的示范性酶脱色（漂白）方法，如下面详细描述。

图13示出了示范性油料种子精炼方案，包括提取和应用部分酯酶精炼和修饰油料种子，如下面详细描述。

图14示出了本发明的示范性个别方法–生物脱胶方法，包括应用本发明的至少一种多肽，如下面详细描述。

图15示出了本发明另一示范性工业过程，包括应用本发明的至少一种多肽，如下面详细描述。

图16示出了本发明另一示范性工业过程，包括应用具有叶绿素酶活性的本发明的至少一种多肽。

不同附图中的同一标记表示相同的要素。

发明详述

本发明提供了用于酶处理（“漂白”或“脱色”）含叶绿素组合物或受叶绿素污染组合物的新的组合物和方法，所述含叶绿素组合物或受叶绿素污染组合物例如，植物、动物或藻类制备物、食品、饲料或油。在一个方面，本发明组合物和方法中应用的叶绿素处理（或“酶促漂白”或“脱色”）包括应用叶绿素酶或参与叶绿素分解代谢的其它酶来修饰叶绿素，以协助去除带颜色的卟啉环，例如，通过水提取（aqueous extraction）来完成。叶绿素酶催化叶绿素水解生成可以被水提取的脱植基叶绿素，和保持在油相中的叶绿醇。

例如，在一个方面，本发明提供了用于酶处理（例如水解）饲料、食品或油中的叶绿素的组合物和方法，所述油例如植物油，包括由油料种子加工的油如油菜（油菜籽）油或大豆油，或由油料果实加工的油如棕榈油。在一个方面，本发明提供了应用叶绿素酶对动物或植物油如植物油中的叶绿素或任何带颜色的卟啉环进行酶促水解的酶促漂白方法。

本发明包括通过体内或体外技术酶处理（例如，“漂白”）含叶绿素食物或油的方法，所述体内或体外技术例如，全细胞方案，诸如发酵或其它生物催化工艺。

产生和操纵核酸

本发明提供了分离的、重组的和合成的核酸（例如，本发明的示范性核酸，包括SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5、SEQ ID NO:7、SEQ ID NO:9、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:17或SEQ ID NO:19），和与示范性核酸具有序列同一性的序列；编码本发明多肽，例如，SEQ ID NO:2、SEQ ID NO:4、SEQ ID NO:6、SEQ ID NO:8、SEQ ID NO:10、SEQ ID NO:12、SEQID NO:14、SEQ ID NO:16、SEQ ID NO:18或SEQ ID NO:20中列出的示范性氨基酸序列的核酸。本发明也提供了表达盒如表达载体，其包括本发明核酸，包括编码本发明多肽的多核苷酸。本发明也包括应用本发明核酸开发新的多肽序列的方法。本发明也包括应用本发明核酸抑制基因、转录物和多肽表达的方法。也提供了修饰本发明核酸的方法，例如，通过合成连接重装配、优化的定向进化系统和/或饱和诱变。

本发明的核酸可以通过，例如cDNA文库的克隆和表达、通过PCR的信息或基因组DNA扩增以及类似的技术来制造、分离和/或操纵。

在实施本发明方法中，同源基因可以通过操纵模板核酸来修饰，如本文所述。本发明可以与本领域已知的任何方法或方案或设备联合实施，所述方法、方案和设备在科技文献和专利文献中充分描述。

本发明的一个方面是包括本发明的一个序列的分离的核酸，或包括本发明核酸的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个连续碱基的片段。分离的核酸可以包括DNA，包括cDNA、基因组DNA和合成的DNA。DNA可以是双链或单链的，如果是单链，其可以是编码链或非编码（反义）链。可选地，分离的核酸可以包括RNA。

本发明的分离核酸可以用于制备本发明的一个多肽，或包括本发明的一个多肽的至少5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段。

因此，本发明的另一方面是分离的核酸，其编码本发明的一个多肽或包括本发明一个多肽的至少5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段。由于遗传密码丰余性或简并性，这些核酸的编码序列可以和本发明的一个核酸的一种编码序列相同，或者可以是不同的编码序列，编码具有本发明一个多肽的至少5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的本发明的一个片段。遗传密码是本领域技术人员熟知的，并且可以获自，例如，B.Lewin,Genes VI,Oxford University Press,1997，第214页。

编码本发明的一个多肽的分离核酸，包括但不限于：仅本发明核酸的编码序列和额外的编码序列，例如前导序列（leader sequences）或蛋白原序列（proproteinsequences）和非编码序列诸如内含子或编码序列的5’和/或3’非编码序列。因此，如本文所用，术语“编码多肽的多核苷酸”包括仅含有多肽的编码序列的多核苷酸，以及含有额外的编码和/或非编码序列的多核苷酸。

可选地，可以应用常规技术如定点诱变，或本领域技术人员熟悉的其它技术对本发明的核酸序列进行诱变，以便将沉默改变引入本发明的多核苷酸。如本文所用，“沉默改变（silent changes）”包括，例如，不改变由多核苷酸编码的氨基酸序列的变化。这样的变化可能是需要的，目的是通过引入在宿主生物体中频繁发生的密码子或密码子对，增加含有编码多肽的载体的宿主细胞所产生的多肽的水平。

本发明也涉及具有引起本发明多肽的氨基酸取代、添加、缺失、融合和截短的核苷酸变化的多核苷酸。这样的核苷酸变化可以用技术如定点诱变、随机化学诱变、外切核酸酶III剔除和其它重组DNA技术引入。可选地，这样的核苷酸变化可以是天然发生的等位基因变体，其通过鉴定在高度、中度或低度严格条件下与包括本发明的一个序列（或其互补序列）的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个连续碱基的探针特异杂交的核酸而被分离，如本文提供。

如本文所用，术语“分离的”意味着，物质从其原始环境（例如，如果它是天然发生的，其原始环境是天然环境）中被移走。例如，活的动物中存在的天然发生的多核苷酸或多肽不是分离的，但是与天然系统中的一些或所有共存物质分离的相同的多核苷酸或多肽是分离的。这样的多核苷酸可以是载体的一部分和/或这样的多核苷酸或多肽可以是组合物的一部分并且仍然是被分离的，这在于载体或组合物不是其天然环境的一部分。如本文所用，术语“纯化的”不需要绝对的纯；其意图作为相对的定义。从文库中得到的个别核酸已经常规纯化为电泳同质性。从这些克隆得到的序列不可以直接从文库或从人类总DNA中得到。本发明的纯化核酸已经从生物体的基因组DNA的残余部分纯化出至少10⁴-10⁶倍。然而，术语“纯化的”也包括已经从基因组DNA的残余部分或从文库中的其它序列或其它环境中纯化至少1个数量级的核酸，典型地纯化2个或3个数量级，更典型地是4或5个数量级。

如本文所用，术语“重组”意味着，核酸与在其天然环境中不与之相邻的“骨架”核酸相邻。此外，为了“被富集”，所述核酸将代表在核酸骨架分子群体中5%或更多数目的核酸插入物。根据本发明的骨架分子包括核酸，如表达载体、自主复制核酸、病毒、整合核酸和用于维持或操纵感兴趣的核酸插入物的其它载体或核酸。典型地，富集的核酸代表在重组的骨架分子群体中15%或更多数量的核酸插入物。更典型地，富集的核酸代表在重组的骨架分子群体中50%或更多数量的核酸插入物。在一个方面，典型地，富集的核酸代表在重组的骨架分子群体中90%或更多数量的核酸插入物。

“重组的”多肽或蛋白质是指通过重组DNA技术产生的多肽或蛋白质；即，从用编码期望的多肽或蛋白质的外源DNA构建物转化的细胞产生。“合成的”多肽或蛋白质是通过化学合成制备的那些多肽或蛋白质。固相化学肽合成方法也可以用于合成本发明的多肽或片段。这种方法从20世纪60年代早期已经在本领域中已知（Merrifield,R.B.,J.Am.Chem.Soc.,85:2149-2154,1963）（也参见Stewart,J.M.and Young,J.D.,Solid Phase Peptide Synthesis,2nd Ed.,Pierce Chemical Co.,Rockford,Ill.,pp.11-12）），并且近来在商业上可得的实验室肽设计和合成试剂盒（CambridgeResearch Biochemicals）中应用。这样的商业上可得的实验室试剂盒一般是利用H.M.Geysen et al，Proc.Natl.Acad.Sci.,USA,81:3998(1984)的教导，在多个“杆（rods）”或“钉（pins）”的顶端合成肽，所有的杆或者钉都被连接到一块板上。当使用这样的系统时，整板的杆或者钉被倒转并插入到另一个板的相应孔或者贮存器中，所述孔或者贮存器含有用于将适合的氨基酸附着或固定在杆或钉的顶端的溶液。通过重复这样的处理步骤，即，反转和插入所述杆和钉的顶端至适当的溶液中，将氨基酸构建成所要的肽。此外，大量的可获得的FMOC肽合成系统是可利用的。例如，多肽或片段的装配可以在固体支持物上进行，其中应用Applied Biosystems,Inc.Model431A自动肽合成仪。这些设备使得本发明的肽容易获得，或者通过直接的合成或者通过用其它已知的技术将一系列片段偶联起来的合成。

当在启动子处启动转录的RNA聚合酶可将编码序列转录成mRNA时，启动子序列与编码序列“可操作连接”。

“质粒”的命名是通过在大写字母和/或数字之前和/或之后加上小写字母“p”。在此使用的起始质粒（starting plasmid）可以通过商业渠道获得，通过公共渠道自由获得，或者按照公开的程序从可利用的质粒构建得到。此外，与那些在此描述的质粒等价的质粒是在本领域是已知的，并且对普通技术人员而言是显而易见的。

DNA的“消化”是指，用仅作用于DNA中的某些序列的限制性酶催化切割DNA。本文所用的各种限制性酶是可以经商业途径得到的，它们的作用条件、辅因子和其它要求如本领域普通技术人员已知的那样被应用。对于分析目的，典型地在约20μl的缓冲液中应用1μg质粒或DNA片段和约2单位的酶。对于分离DNA片段用于质粒构建的目的，典型地在更大的体积中应用20至250单位的酶消化5至50μg DNA。用于特定限制性酶的合适的缓冲液和底物量由制造商指定。通常使用37℃、温育时间约1小时，但是可以根据供应商的指导对其进行变化。消化之后，可以进行凝胶电泳来分离所需片段。

“杂交”是指核酸链通过碱基配对与互补链结合的过程。杂交反应可以是灵敏性的和选择性的，因而可以鉴定出甚至在样品中以低浓度存在的感兴趣的特定序列。合适的严格条件可以通过例如，预杂交液和杂交液中的盐或甲酰胺浓度，或者由杂交温度来限定，并且是本领域中熟知的。具体而言，通过降低盐浓度、增加甲酰胺浓度或增高杂交温度，严格性可以增加。在可选的方面，本发明的核酸通过它们在各种严格条件（例如，高度、中度和低度）下杂交的能力来定义，如本文所阐明。

例如，在约37℃至42℃，约50%甲酰胺中，可以发生高度严格条件下的杂交。在约30℃至35℃，约35%至25%甲酰胺中，可以发生降低的严格条件下的杂交。具体地，在42℃，50%甲酰胺、5X SSPE、0.3%SDS和200n/ml经剪切和变性的鲑精DNA中，可以发生高度严格条件下的杂交。杂交可以在上述的降低严格条件下，但是在35%甲酰胺中、在35℃的降低温度下发生。通过计算感兴趣核酸中的嘌呤与嘧啶比率和相应地调整温度，相应于特定严格性水平的温度范围可以进一步缩窄。对上述范围和条件的变化是本领域熟知的。

术语“变体”是指本发明的多核苷酸或多肽，其在一个或多个碱基对、密码子、内含子、外显子或氨基酸残基（分别地）处被修饰，但仍然保留本发明酶的生物学活性。变体可以通过很多种方法产生，包括方法，例如，易错PCR、重排、寡核苷酸定点诱变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体诱变、位点专一诱变、基因重装配、GSSM和它们的任意组合。

术语“饱和诱变（Saturation Mutagenesis）”或“基因位点饱和诱变（Gene SiteSaturation Mutagenesis）”或“GSSM”包括应用简并性寡核苷酸引物将点突变引入多核苷酸中的方法，如下面详细描述。

术语“优化定向进化系统（optimized directed evolution system）”或“优化定向进化（optimized directed evolution）”包括对相关核酸序列，例如，相关基因的片段重新进行装配的方法，并且在下文中详细解释。

术语“合成连接重装配（synthetic ligation reassembly）”或“SLR”包括以非随机方式连接寡核苷酸片段的方法，并且在下文中详细解释。

如本文所用，短语“核酸”或“核酸序列”是指寡核苷酸、核苷酸、多核苷酸或者是指它们中的任何之一的片段，是指基因组或合成来源的DNA或RNA，其可以是单链或双链的，并且可以代表有义链或反义（互补）链，是指肽核酸（PNA）或是指任何DNA样或RNA样物质，其来源是天然的或合成的。短语“核酸”或“核酸序列”包括寡核苷酸、核苷酸、多核苷酸、或者是指它们中的任何之一的片段，是指基因组或合成来源的DNA或RNA（例如，mRNA、rRNA、tRNA、iRNA），其可以是单链或双链的，并且可以代表有义链或反义链，是指肽核酸（PNA）或者是指任何DNA样或RNA样物质，其来源是天然的或合成的，包括例如iRNA、核糖核蛋白（例如，例如，双链iRNAs，例如iRNPs）。该术语包括核酸，即，寡核苷酸，其含有天然核苷酸的已知类似物。该术语也包括带有合成骨架的核酸样结构，参见，例如，Mata(1997)Toxicol.Appl.Pharmacol.144:189-197;Strauss-Soukup(1997)Biochemistry36:8692-8698；Samstag(1996)Antisense Nucleic Acid Drug Dev6:153-156。“寡核苷酸”包括单链多脱氧核苷酸或两条互补的多脱氧核苷酸链，它们可以是化学合成的。这种合成的寡核苷酸在5’没有磷酸，因此在激酶存在时，不通过ATP加入磷酸的情况下，不能连接于另一个寡核苷酸。合成的寡核苷酸将连接于没有脱磷酸化的片段。

特定多肽或蛋白质的“编码序列”或“编码特定多肽或蛋白质的核苷酸序列”是当置于合适的调节序列的调控之下时，被转录和翻译成多肽或蛋白质的核酸序列。

术语“基因”意味着参与产生多肽链的DNA片段，它包括编码区之前和之后的区域（前导区和尾随区）以及在各个编码片段（外显子）之间的间插序列（内含子），如果适用的话。如本文所用，“可操作连接”是指两个或更多个核酸（例如DNA）片段之间的功能关联。在一个方面，它是指转录调节序列和被转录序列之间的功能关联。例如，如果启动子在合适的宿主细胞或其它表达系统中刺激或调节编码序列的转录，则该启动子与该编码序列例如本发明的核酸可操作连接。在一个方面，与被转录序列可操作连接的启动子转录调节序列在物理上与被转录序列连接，即，它们是顺式作用的。然而，一些转录调节序列如增强子，不需要与其转录被它们增强的编码序列在物理上连接或位置上密切接近。

如本文所用，术语“表达盒”是指核苷酸序列，它能够影响结构基因（即，蛋白质编码序列，如本发明的酶）在与这样的序列相容的宿主中的表达。表达盒至少包括可操作地连接至编码多肽的序列上的启动子；和任选地，带有其它的序列，例如，转录终止信号。也可以应用完成表达所必需的或有帮助的额外的因子，例如，增强子。因此，表达盒也包括质粒、表达载体、重组病毒、任何形式的重组“裸DNA”载体和类似物。“载体”包括可以感染、转染、瞬时或永久转导细胞的核酸。应该知道，载体可以是裸核酸或与蛋白质或脂类复合的核酸。载体任选地包括病毒或细菌核酸和/或蛋白质，和/或膜（例如细胞膜、病毒的脂包膜等）。载体包括但不限于复制子（如，RNA复制子，细菌噬菌体），DNA片段可以连接到其上，并被复制。因此，载体包括但不限于RNA、自动自主复制的环状或线性DNA或RNA（例如质粒、病毒和类似物，参见，例如，美国专利5,217,879），并且既包括表达质粒又包括非表达质粒。当重组微生物或细胞培养物被描述为容纳“表达载体”时，其既包括染色体外环状和线性DNA又包括已被整合进入宿主染色体的DNA。当载体被宿主细胞维持时，载体可以在有丝分裂期间作为自主结构由细胞稳定复制，或整合入宿主基因组中。

如本文所用，术语“启动子”包括能够在细胞例如植物细胞中驱动编码序列转录的所有序列。因此，本发明构建体中应用的启动子包括参与调节或操纵基因转录时间和/或速率的顺式作用转录调控元件和调节序列。例如，启动子可以是顺式作用转录调控元件，包括增强子、启动子、转录终止子、复制起点、染色体整合序列、5’和3’非翻译区或内含子序列，它们参与转录调节。这些顺式作用序列典型地与蛋白质或其它生物分子相互作用，以行使（启动/关闭、调节、调控等）转录。“组成型”启动子是在大多数环境条件下和发育或细胞分化状态下持续驱动表达的那些启动子。“诱导型”或“可调节”启动子在环境条件或发育条件的影响下引导本发明的核酸的表达。可以通过诱导型启动子影响转录的环境条件的例子包括厌氧条件、增加的温度、干旱或光的存在。

“组织特异性”启动子是仅在特定细胞或组织或器官，例如，在植物或动物的特定细胞或组织或器官中具有活性的转录调控元件。组织特异性调节可以通过某些内在因子获得，这些内在因子确保对某特定组织特异的蛋白的编码基因被表达。已知这种因子在哺乳动物和植物中存在，以便允许特定组织的发育。

一般技术

本发明提供了酶处理（例如“漂白”）含叶绿素组合物如植物、藻类、食物或油的新颖的组合物和方法。技术人员将知道，可以应用多种步骤和方法合成本发明方法中应用的化合物（例如，催化、起始或中间化合物），所述步骤和方法在科技文献和专利文献中描述，例如，Organic Syntheses Collective Volumes,Gilman et al.(Eds)John Wiley&Sons,Inc.,NY；Venuti(1989)Pharm Res.6:867-873。本发明可以与本领域已知的任何方法或方案联合实施，所述方法或方案在科技文献和专利文献中充分描述。

用于实践本发明的核酸，不论是RNA、iRNA、反义核酸、cDNA、基因组DNA、载体、病毒或它们的杂合体，可以从多种来源分离、遗传改造、扩增和/或表达/重组产生。从这些核酸生成的重组多肽（例如本发明的酶）可以单独分离或克隆并测试所需活性。可以应用任何重组表达系统，包括细菌、哺乳动物、酵母、昆虫或植物细胞表达系统。

可选地，这些核酸可以通过熟知的化学合成技术在体外合成，例如，在Adams(1983)J.Am.Chem.Soc.105:661；Belousov(1997)Nucleic Acids Res.25:3440-3444；Frenkel(1995)Free Radic.Biol.Med.19:373-380;Blommers(1994)Biochemistry33:7886-7896；Narang(1979)Meth.Enzymol.68:90；Brown(1979)Meth.Enzymol.68:109；Beaucage(1981)Tetra.Lett.22:1859；美国专利4,458,066中描述的技术。

用于操作核酸的技术如，例如，亚克隆、标记探针（例如，应用Klenow聚合酶的随机引物标记、切口平移、扩增）、测序、杂交和类似技术在科技文献和专利文献中充分描述，参见，例如，Sambrook,ed.,MOLECULAR CLONING:ALABORATORY MANUAL(2ND ED.)，Vols.1-3,Cold Spring Harbor Laboratory，(1989)；CURRENT PROTOCOLS IN MOLECULAR BIOLOGY，Ausubel,ed.JohnWiley&Sons,Inc.,New York(1997)；LABORATORY TECHNIQUES INBIOCHEMISTRY AND MOLECULAR BIOLOGY：HYBRIDIZATION WITHNUCLEIC ACID PROBES，Part I.Theory and Nucleic Acid Preparation,Tijssen,ed.Elsevier,N.Y.(1993)。

获得和操作用于实施本发明方法的核酸的另一有用方式是从基因组样品中克隆，如果需要，对分离自或扩增自例如基因组克隆或cDNA克隆的插入物进行筛选和再克隆。本发明方法中应用的核酸的来源包括基因组文库或cDNA文库，其包含在例如哺乳动物人工染色体（MACs）中，参见，例如，美国专利5,721,118；6,025,155；人类人工染色体中，参见，例如，Rosenfeld(1997)Nat.Genet.15:333-335；酵母人工染色体（YAC）中；细菌人工染色体（BAC）中；P1人工染色体中，参见例如，Woon(1998)Genomics50:306-316；P1衍生载体（PACs）中，参见例如Kern(1997)Biotechniques23:120-124；黏粒，重组病毒，噬菌体或质粒中。

本发明提供了酶处理（例如“漂白”）含叶绿素组合物如植物、藻类、食品或油的新颖的组合物和方法。技术人员将知道，可以应用多种步骤和方法合成本发明方法中应用的化合物（例如，催化、起始或中间化合物），所述步骤和方法在科技文献和专利文献中描述，例如，Organic Syntheses Collective Volumes,Gilman et al.(Eds)John Wiley&Sons,Inc.,NY；Venuti(1989)Pharm Res.6:867-873。本发明可以与本领域已知的任何方法或方案联合实施，所述方法或方案在科技文献和专利文献中充分描述。

在一个方面，编码本发明多肽的核酸在适当的阶段与能够指导翻译的多肽或其片段分泌的前导序列装配在一起。

本发明提供了融合蛋白和编码它们的核酸。本发明多肽可以与异源的肽或者多肽融合，如N-末端鉴定肽，其赋予了所需的特征，如增加的稳定性或者简化的纯化。本发明的肽和多肽也可以以与一个或者多个连接到其上的额外的结构域形成融合蛋白的形式合成并表达，从而，例如，产生更具免疫源性的肽，更容易分离重组合成肽，鉴定和分离抗体和表达抗体的B细胞，和类似作用。有利于检测和纯化的结构域包括，例如，允许在固定化金属上进行纯化的金属螯合肽，如聚组氨酸序列（polyhistidine tracks）和组氨酸-色氨酸模块（histidine-tryptophanmodules），允许在固定化免疫球蛋白上进行纯化的蛋白A结构域，和在FLAGS延伸/亲和纯化系统（FLAGS extension/affinity purification system,Immunex Corp,Seattle WA）中应用的结构域。在纯化结构域和含基序肽或多肽之间，包含可切割的接头序列如因子Xa或肠激酶（Invitrogen,SanDiego CA）以便协助纯化。例如，表达载体可以包括连接于六个组氨酸残基的编码表位的核酸序列，随后是硫氧还蛋白和肠激酶切割位点（参见，例如，Williams(1995)Biochemistry34:1787-1797;Dobeli(1998)Protein Expr.Purif.12:404-414）。组氨酸残基协助检测和纯化，而肠激酶切割位点提供了从融合蛋白的残余部分纯化出表位的手段。与编码融合蛋白的载体相关的技术以及融合蛋白的应用，在科技文献和专利文献中充分描述，参见，例如，Kroll(1993)DNA Cell.Biol.,12:441-53。

转录和翻译调控序列

本发明提供了本发明的核酸（例如DNA）序列，其与表达（例如转录或翻译）调控序列，例如启动子或增强子可操作连接，以便指导或调控RNA合成/表达。表达调控序列可以在表达载体中。示范性细菌启动子包括lacI、lacZ、T3、T7、gpt、λPR、PL和trp。示范性真核启动子包括CMV即时早期、HSV胸苷激酶、早期和晚期SV40、反转录病毒的LTRs和小鼠金属硫蛋白I。

适于在细菌中表达多肽的启动子包括大肠杆菌lac或trp启动子、lacI启动子、lacZ启动子、T3启动子、T7启动子、gpt启动子、λPR启动子、λPL启动子、来自编码糖酵解酶如3-磷酸甘油酸激酶（PGK）的操纵子的启动子，和酸性磷酸酶启动子。真核启动子包括CMV即刻早期启动子、HSV胸苷激酶启动子、热激启动子、早期和晚期SV40启动子、来自反转录病毒的LTRs和小鼠金属硫蛋白-I启动子。也可以应用已知在原核或真核细胞或它们的病毒中调控基因表达的其它启动子。适于在细菌中表达多肽或其片段的启动子包括大肠杆菌lac或trp启动子、lacI启动子、lacZ启动子、T3启动子、T7启动子、gpt启动子、λP_R启动子、λP_L启动子、来自编码糖酵解酶如3-磷酸甘油酸激酶（PGK）的操纵子的启动子，和酸性磷酸酶启动子。真菌启动子包括

因子启动子。真核启动子包括CMV即刻早期启动子、HSV胸苷激酶启动子、热激启动子、早期和晚期SV40启动子、来自反转录病毒的LTRs和小鼠金属硫蛋白I启动子。也可以应用已知在原核或真核细胞或它们的病毒中调控基因表达的其它启动子。

组织特异性植物启动子

本发明提供了可以以组织特异性方式表达的表达盒，例如，可以以组织特异性方式表达本发明酶的表达盒。本发明也提供了以组织特异性方式表达本发明酶的植物或种子。组织特异性可以是种子特异性、茎特异性、叶特异性、根特异性、果实特异性等等。

在一个方面，组成型启动子如CaMV35S启动子可以被用于在植物或种子的特定部分或在整个植物中的表达。例如，为了过度表达，可以使用植物启动子片段，其将指导核酸在植物例如再生植物的一些或所有组织中表达。此处，这样的启动子被称作“组成型”启动子，它们在大部分环境条件和发育或细胞分化状态下是有活性的。组成型启动子的例子包括花椰菜花叶病毒（CaMV）35S转录起始区、来自根癌农杆菌的T-DNA的1’或2’启动子、来自本领域技术人员已知的各种植物基因的其它转录起始区。这样的基因包括，例如，来自拟南芥（Arabidopsis）的ACT11（Huang(1996)Plant Mol.Biol.33:125-139）；来自拟南芥的Cat3（GenBankNo.U43147,Zhong(1996)Mol.Gen.Genet.251:196-203）；来自甘蓝型油菜（Brassica napus）的编码硬脂酰-酰基载体蛋白去饱和酶的基因（Genbank No.X74782,Solocombe(1994)Plant Physiol.104:1167-1176）；来自玉米的GPc1（GenBank No.X15596;Martinez(1989)J.Mol.Biol208:551-565）；来自玉米的Gpc2（GenBank No.U45855,Manjunath(1997)Plant Mol.Biol.33:97-112）；美国专利4,962,028、5,633,440中描述的植物启动子。

本发明应用来自病毒的组织特异性启动子或组成型启动子，其可以包括例如烟草花叶病毒亚基因组启动子（Kumagai(1995)Proc.Natl.Acad.Sci.USA92:1679-1683；水稻东格鲁杆状病毒（RTBV），其仅在感染的水稻植物中的韧皮细胞中复制，其启动子驱动强的韧皮特异性报道基因的表达；木薯脉带花叶病毒（cassava vein mosaic virus（CVMV））启动子，其在导管、叶中轴细胞和根尖的活性最高（Verdaguer(1996)Plant Mol.Biol.31:1129-1139）。

可选地，植物启动子可以指导表达酶的核酸表达于特定组织、器官或细胞类型中（即，组织特异性启动子），或者可以在更加精确的环境或发育控制下或在可诱导启动子的控制下指导表达酶的核酸的表达。可以影响转录的环境条件的例子包括厌氧条件、增加的温度、光的存在或喷撒化学物质/激素。例如，本发明包括玉米的干旱诱导型启动子（Busk(1997)supra）；马铃薯的冷、干旱和高盐诱导型启动子（Kirch(1997)Plant Mol.Biol.33:897 909）。

组织特异性启动子只在该组织的发育阶段的某个时间段内促进转录。参见，例如，Blazquez(1998)Plant Cell 10:791-800，表征了拟南芥LEAFY基因启动子。也参见Cardon(1997)Plant J 12:367-77，其描述转录因子SPL3，SPL3识别拟南芥（A.thaliana）的调节植物分生组织形成的基因（meristem identity gene）AP1的启动子区域的保守序列基序；和Mandel(1995)Plant Molecular Biology，Vol.29,pp995-1004，其描述了分生组织启动子eIF4。可以应用在特定组织的整个生命周期中具有活性的组织特异性启动子。在一个方面，本发明的核酸可操作地连接到主要仅在棉花纤维细胞中具有活性的启动子。在一个方面，本发明核酸可操作地连接到主要在棉花纤维细胞伸长阶段具有活性的启动子，例如，如Rinehart(1996)supra所述。核酸可以可操作地连接到Fbl2A基因启动子，以便在棉花纤维细胞中优选表达（Ibid）。也参见John(1997)Proc.Natl.Acad.Sci.USA89:5769-5773；John,et al.,美国专利5,608,148和5,602,321，描述了用于构建转基因棉花植物的棉花纤维特异性启动子和方法。也可以用根特异性启动子表达本发明的核酸。根特异性启动子的例子包括来自醇脱氢酶基因的启动子（DeLisle(1990)Int.Rev.Cytol.123:39-60）。可以用来表达本发明核酸的其它启动子包括，例如，胚珠特异性、胚芽特异性、胚乳特异性、珠柄特异性、种皮特异性的启动子或它们的一些组合；叶特异性启动子（参见例如Busk(1997)Plant J.11:1285 1295，描述了玉米中的叶特异性启动子）；发根农杆菌（Agrobacterium rhizogenes）的ORF13启动子（其在根中表现出高活性，参见例如，Hansen(1997)supra）；玉米花粉特异性启动子（参见例如Guerrero(1990)Mol.Gen.Genet.224:161 168）；在果实成熟、衰老和叶的脱落中有活性，在花的脱落中具有低一些的活性的番茄启动子（参见例如Blume(1997)PlantJ.12:731746)；马铃薯SK2基因的雌蕊特异性启动子（参见例如Ficker(1997)PlantMol.Biol.35:425 431）；豌豆的Blec4基因，Blec4基因在蔬菜的表皮组织和转基因苜蓿的花梗顶中具有活性，这使它成为使外源基因靶向表达于活跃地生长的芽或纤维的表皮层的有用工具；胚珠特异性BEL1基因（参见例如Reiser(1995)Cell83:735-742,GenBank No.U39944）；和/或Klee，美国专利5,589,583中的启动子，其描述了一种植物启动子区域，其可导致在分生组织和/或快速分裂细胞中的高水平转录。

可选择的是，经由对植物激素例如植物生长素的暴露便能被诱导的植物启动子可用于表达本发明的核酸。例如，本发明可以使用大豆（Glycine max L.）中的植物生长素响应元件E1启动子片断（AuxREs）（Liu（1997）Plant Physiol.115:397-407）；植物生长素响应的拟南芥GST6启动子（也对水杨酸和过氧化氢产生响应）（Chen（1996）Plant J.10:955-966）；烟草的植物生长素诱导的parC启动子（Sakai（1996）37:906-913）；植物生物素响应元件（Streit（1997）Mol.Plant MicrobeInteract.10:933-937）；和对应激激素脱落酸产生响应的启动子（Sheen（1996）Science274:1900-1902）。

本发明的核酸也可以与植物启动子可操作地连接，所述植物启动子暴露于施用于植物的化学试剂例如除草剂或抗生素，便能够被诱导。例如，可以使用由苯磺酰胺除草剂安全剂活化的玉米In2-2启动子（De Veylder（1997）Plant Cell Physiol.38:568-577）；不同的除草剂安全剂的应用诱导不同的基因表达模式，包括在根中、排水器中和芽尖分生组织中的表达。编码序列可以处于例如四环素诱导的启动子的控制下，例如，被描述的含有Avena sativa L.（oat）精氨酸脱羧酶基因的转基因烟草植物（Masgrau（1997）Plant J.11:465-473）；或者处于水杨酸响应元件的控制之下（Stange（1997）Plant J.11:1315-1324）。使用化学（例如，激素或杀虫剂）诱导的启动子，即，对施用于田间的转基因植物的化学剂发生响应的启动子，本发明的多肽的表达可以在植物发育的特定阶段被诱导。所以，本发明也提供含有可诱导基因的转基因植物，所述可诱导基因编码本发明的多肽，其宿主范围局限于靶向植物种类，例如玉米、稻、大麦、小麦、马铃薯或别的作物，并且所述可诱导基因在作物发育的任何阶段都可被诱导。

技术人员会认识到，组织特异性的植物启动子可以驱动可操作地连接的序列在不是靶向组织的组织中表达。所以，组织特异性启动子是驱动在靶向组织或细胞类型中产生优势表达的启动子，但是也可以导致在别的组织中的一些表达。

本发明的核酸也可以与化学试剂诱导的植物启动子可操作地连接。这些试剂包括例如，除草剂、合成的植物生长激素或抗生素，它们可以通过例如喷雾而施用于转基因植物。本发明的产生淀粉酶的核酸的可诱导表达将允许对具有最佳的淀粉/糖比率的植物进行选择。植物局部的发育也可以因此被控制。这样，本发明提供了促进植物和植物的部分的收获的方法。例如，在许多实施方式中，玉米的由苯磺酰胺除草剂安全剂活化的玉米In2-2启动子被使用（De Veylder（1997）PlantCell Physiol.38:568-577）。应用不同的除草剂安全剂诱导出不同的基因表达模式，包括在根中、排水器中、芽尖分生组织中的表达。本发明的编码序列也可以处于四环素诱导的启动子的控制之下，例如，对含有燕麦（Avena sativa L.）（oat）精氨酸脱羧酶基因的转基因烟草植物的描述（Masgrau（1997）Plant J.11:465-473）；或者，可以由水杨酸响应元件控制（Stange（1997）Plant J.11:1315-1324）。

在一些方面，适当的多肽表达可能需要编码区3’末端的多腺苷酸化区域。多腺苷酸化区域可以来自天然基因，各种其它植物（或动物或其它）基因，或者来自农杆菌（Agrobacterial）T-DNA的基因。

术语“植物（plant）”包括整个植物、植物部分（例如叶、茎、花、根等）、植物原生质体、种子和植物细胞及其后代。可以用于本发明方法的植物的种类很广泛，广泛至能用转化技术进行处理的高等植物，包括被子植物（单子叶植物和双子叶植物）以及裸子植物。它包括各种倍数性水平的植物，包括多倍体、二倍体、单倍体和半合子状态。如本文所用，术语“转基因植物”包括其中插入了异源核酸序列，例如，本发明的核酸和各种重组构建体（例如表达盒）的植物或植物细胞。

表达载体和克隆载体

本发明提供了表达载体和克隆载体，其包括本发明核酸，例如，编码本发明酶的序列。本发明的表达载体和克隆载体可以包括病毒颗粒、杆状病毒、噬菌体、质粒、噬粒、黏粒、F黏粒、细菌人工染色体、病毒DNA（例如疫苗、腺病毒、禽痘病毒、伪狂犬病病毒和SV40的衍生物）、基于P1的人工染色体、酵母质粒、酵母人工染色体和任何别的对感兴趣的特定宿主（例如，杆状菌、曲霉和酵母）有特异性的载体。本发明的载体可以包括染色体、非染色体和合成的DNA序列。大量的合适的载体对于本领域技术人员都是已知的，并且可以商业获得。典型的载体包括：细菌：pQE载体（Qiagen）、pBluescript质粒、pNH载体、λ-ZAP载体（Stratagene）；ptrc99a、pKK223-3、pDR540、pRIT2T（Pharmacia）；真核细胞的：pXT1、pSG5（Stratagene）、pSVK3、pBPV、pMSG、pSVLSV40（Pharmacia）。然而，也可以使用任何别的质粒或别的载体，只要它们可以在宿主中复制和维持下去。可以在本发明中使用低拷贝数或高拷贝数的载体。

“质粒”可以经商业途径得到、可以没有限制地公开得到、或者可以根据公开途径从可利用的质粒构建。与本文所述质粒等价的质粒是本领域已知的，对本领域普通技术人员将是显而易见的。

表达载体可以包括启动子、用于起始翻译的核糖体结合位点和转录终止子。载体也可以包括用于扩增表达的合适序列。哺乳动物表达载体可以包括复制起始点、任何必需的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点、转录终止序列、5’侧翼非转录序列。在一些方面，衍生于SV40剪接子和聚腺苷酸化位点的DNA序列可以用于提供所需要的非转录基因元件。

在一个方面，表达载体含有一个或多个选择性标记基因，使得可以对含有该载体的宿主细胞进行选择。这样的选择性标记包括编码二氢叶酸还原酶的基因和使得真核细胞培养物具有新霉素抗性的基因、使得大肠杆菌（E.coli）具有四环素或氨苄青霉素抗性的基因和酵母（S.cerevisiae）TRP1基因。启动子区域可以从任何期望的基因中选择出来，使用氯霉素转移酶（CAT）载体或具有选择标记的别的载体。

用于在真核细胞中表达多肽或其片段的载体也可以含有增强子，以增加表达水平。增强子是DNA的顺式作用元件，一般长度为大约10到大约300bp，其作用于启动子，增强转录。例子包括在SV40复制起点下游侧100bp到270bp的增强子、巨细胞病毒早期启动子增强子、在复制起点下游侧的多瘤增强子，和腺病毒增强子。

核酸序列可以通过各种程序插入载体中。一般的，把插入物和载体用合适的限制性内切酶消化后，序列可以连接到载体中的所希望的位置。可选择地，插入物和载体的平末端可以被连接。在本领域已知多种克隆技术，例如在Ausubel和Sambrook中描述的。这样的程序和别的程序被认为在本领域技术人员已知的范围内。

载体可以是质粒、病毒颗粒或噬菌体的形式。别的载体包括染色体的、非染色体的和合成的DNA序列，SV40的衍生物；细菌质粒、噬菌体DNA、杆状病毒、酵母质粒、衍生于质粒和噬菌体DNA的组合的载体、病毒DNA例如牛痘、腺病毒、禽痘病毒和伪狂犬病病毒DNA。在原核和真核宿主中使用的各种克隆和表达载体被例如Sambrook描述。

可以使用的特定的细菌载体包括商业上可获得的质粒，其包括以下已知的克隆载体的遗传元件：pBR322（ATCC37017）、pKK223-3（Pharmacia Fine Chemicals,Uppsala,Sweden）、GEM1（Promega Biotec,Madison,WI,USA）、pQE70、pQE60、pQE-9（Qiagen）、pD10、psiX174pBluescript II KS、pNH8A、pNH16a、pNH18A、pNH46A（Stratagene）、ptrc99a、pKK223-3、pKK233-3、DR540、pRIT5（Pharmacia）、pKK232-8和pCM7。特定的真核载体包括pSV2CAT、pOG44、pXT1、pSG（Stratagene）pSVK3、pBPV、pMSG和pSVL（Pharmacia）。然而，可以使用任何别的载体，只要它可以在宿主细胞中复制和维持。

本发明的核酸可以在表达序列盒、载体或病毒中表达，在植物细胞和种子中短暂的或稳定的表达。一个典型的短暂表达系统应用了附加体（episomal）表达系统，例如，通过含有超螺旋DNA的附加小染色体的转录而在核中产生的花椰菜花叶病毒（CaMV）RNA，见，例如，Covey（1990）Proc.Natl.Acad.Sci.USA87:1633-1637。作为选择，编码序列，即本发明的序列的全部或子片断，可以插入到植物宿主细胞基因组中，而成为该宿主染色体DNA的整合的一部分。正义和反义转录物可以以这种方式被表达。包含本发明的核酸的序列（例如，启动子或编码区域）的载体可以包含用于赋予植物细胞或种子选择性表型的标记基因。例如，所述标记可以编码生物杀灭剂抗性，特别是抗生素抗性，例如对卡那霉素、G418、博来霉素、潮霉素或除草剂的抗性，例如对氯磺隆或Basta的抗性。

可以在植物中表达核酸和蛋白的表达载体在本领域中是已知的，可以包括，例如，根瘤农杆菌的载体、马铃薯病毒X（见，例如，Angell（1997）EMBO J.16:3675-3684）、烟草花叶病病毒（见，例如，Casper（1996）Gene173:69-73）、番茄丛矮病毒（见，例如，Hillman（1989）Virology169:42-50）、烟草蚀纹病毒（见，例如，Dolja（l997）Virology234:243-252）、菜豆金色花叶病毒（见，例如，Morinaga（1993）Microbiol inimunol.37:471-476）、花椰菜花叶病毒（见，例如，Cecchini（1997）Mol.Plant Microbe Interact.10:1094-110l）、玉米Ac/Ds转座元件（见，例如，Rubin（1997）Mol.Cell.Biol.17:6294-6302；Kunze（1996）Curr.Top.Microbiol.Inimunol.204:161-194），和玉米抑制基因-突变基因（Spm）转座元件（见，例如Schlappi（1996）Plant Mol.Biol.32:717-725）；和它们的衍生物。

在一个方面，表达载体可以有两套复制系统，使其可以在两种生物中保持，例如在哺乳动物或昆虫细胞中表达，在原核宿主中克隆和扩增。进一步，对于整合表达载体，该表达载体可以包括至少一个与宿主细胞基因组同源的序列。它可以在该表达构建物的两侧包含两个同源序列。通过选择包含入载体的合适的同源序列，可以将该整合载体定位到宿主细胞的特定位置。整合载体的构建物在本领域是已知的。

本发明的表达载体也可以包括选择性的标记基因，以便对已经转化的细菌株进行选择，例如，使细胞对药物，例如氨苄青霉素、氯霉素、红霉素、卡那霉素、新霉素和四环素产生抗性的基因。选择性的标记也可以包括生物合成基因，例如在组氨酸、色氨酸和亮氨酸生物合成途径中的基因。

表达载体中的DNA序列与合适的表达调控序列（启动子）可操作连接，指导RNA合成。特别指定的细菌启动子包括lacI、lacZ、T3、T7、gpt、λP_R、P_L和trp。真核启动子包括CMV即刻早期启动子、HSV胸苷激酶启动子、早期和晚期SV40启动子、来自反转录病毒的LTRs和小鼠金属硫蛋白I启动子。对合适载体和启动子的选择在本领域技术人员的水平之内。表达载体也含有用于翻译起始的核糖体结合位点和转录终止子。载体也可以包括用于扩增表达的合适序列。应用氯霉素转移酶（CAT）载体或带有选择性标记的其它载体，可以从任意期望的基因中选择启动子区。此外，在一个方面，表达载体含有一个或多个选择性标记基因，为选择转化宿主细胞提供表型性状，例如真核细胞培养物的二氢叶酸还原酶或新霉素抗性，或者大肠杆菌的例如四环素或氨苄青霉素的抗性。

哺乳动物表达载体可以包括复制起始点、任何必需的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点、转录终止序列和5’侧翼非转录序列。一方面，衍生于SV40剪接子和聚腺苷酸化位点的DNA序列可以用于提供所需要的非转录基因元件。

此外，表达载体典型地含有一个或多个选择性标记基因，允许选择含有所述载体的宿主细胞。这样的选择标记包括编码二氢叶酸还原酶的基因或使得真核细胞培养物具有新霉素抗性的基因、使大肠杆菌具有四环素或氨苄青霉素抗性的基因，以及酿酒酵母TRP1基因。

在一些方面，编码本发明一个多肽或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段的核酸以合适的相与能够指导翻译的多肽或其片段分泌的前导序列进行装配。任选地，核酸可以编码融合多肽，其中本发明一个多肽或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段被融合到异源肽或多肽，如N端鉴定肽，其赋予所需特性，如增加的稳定性或简化的纯化。

合适的DNA序列可以通过多种方法插入载体。一般而言，在用合适的限制性内切核酸酶消化插入序列和载体之后，DNA序列被连接到载体的所需位置中。可选地，插入序列和载体中的平末端可以连接。许多克隆技术公开于Ausubel et al.Current Protocols in Molecular Biology，John Wiley503Sons,Inc.1997and Sambrook etal.，Molecular Cloning:A Laboratory Manual2nd Ed.，Cold Spring Harbor LaboratoryPress(1989中。认为这样的方法和其它方法在本领域技术人员的知识范围内。

载体的形式可以是质粒、病毒颗粒或噬菌体。其它载体包括染色体、非染色体和合成DNA序列，SV40的衍生物；细菌噬菌体，噬菌体DNA，杆状病毒，酵母质粒，衍生自质粒和噬菌体DNA组合的载体，病毒DNA如牛痘病毒、腺病毒、禽痘病毒、伪狂犬病病毒。用于原核和真核宿主的许多克隆载体和表达载体由Sambrook，et al.，Molecular Cloning:A Laboratory Manual2nd Ed.，Cold SpringHarbor,N.Y.,(1989)描述。

宿主细胞和转化细胞

本发明也提供了包括本发明核酸序列，例如编码本发明酶的序列，或本发明载体的转化细胞。宿主细胞可以是本领域技术人员熟悉的任何宿主细胞，包括原核细胞，真核细胞，如细菌细胞、真菌细胞、酵母细胞、哺乳动物细胞、昆虫细胞或植物细胞。示范性细菌细胞包括大肠杆菌、乳酸乳球菌（Lactococcus lactis）、链霉菌、枯草芽孢杆菌（Bacillus subtilis）、蜡状芽孢杆菌（Bacillus cereus）、伤寒沙门氏菌（Salmonella typhimurium）或芽孢杆菌属、链霉菌属和葡萄球菌（Staphylococcus）属的任何菌种。示范性昆虫细胞包括果蝇（Drosophila）S2和草地夜蛾（Spodoptera）Sf9。示范性酵母细胞包括巴斯德毕赤酵母、酿酒酵母或粟酒裂殖酵母。示范性动物细胞包括CHO、COS或Bowes黑素瘤或任何小鼠或人类细胞系。对合适宿主的选择处于本领域技术人员的能力范围内。转化各种高等植物种类的技术是公知的，在科学文献和技术文献中描述。参见例如Weising(1988)Ann.Rev.Genet.22:421-477；美国专利5,750,870。

载体可以使用各种技术导入宿主细胞中，包括转化、转染、转导、病毒感染、基因枪或者Ti介导的基因转移。具体的方法包括磷酸钙转染、DEAE-Dextran介导的转染、脂转染法（lipofection）或电穿孔（Davis,L.,Dibner,M.,Battey，I.,BasicMethods in Molecular Biology，（1986））。

在一方面，本发明的核酸或载体被导入细胞以便筛选，所以，所述核酸是以合适于该核酸的后续表达的方式进入细胞。导入的方法大体上由靶细胞类型决定。典型的方法包括CaPO₄沉淀法、脂质体融合、脂转染法（例如，LIPOFECTIN^TM）、电穿孔法、病毒感染法，等等。候选的核酸可以稳定地整合到宿主细胞基因组中（例如，用反转录病毒导入）或者可以短暂的或稳定的存在于细胞质中（即，通过使用传统的质粒，利用标准的调控序列、选择标记，等等）。因为许多药学上重要的筛选要求人或模型哺乳动物靶细胞，所以可以使用能够转染这些靶细胞的反转录病毒载体。

在适当的情况下，工程宿主细胞可以在传统的营养培养基中培养，所述营养培养基经改良而适于激活启动子、选择转化子或扩增本发明的基因。在合适的宿主株被转化和宿主株生长到合适的细胞密度之后，用合适的方法（例如，温度变化或化学诱导）诱导被选择的启动子，细胞可以再培养一段时期，使得它们产生所需的多肽或其片段。

细胞可以通过离心收获，通过物理或化学方法破碎，保留得到的粗提物以用于进一步的纯化。被用来表达蛋白质的微生物细胞可以用任何常规方法破碎，包括冷冻-融解循环、超声波、机械破碎法或使用细胞裂解试剂。这些方法为本领域技术人员所熟知。表达的多肽或其片断可以从重组细胞培养物中通过包括硫酸铵或乙醇沉淀、酸提取、阴离子或阳离子交换色谱、磷酸纤维素色谱、疏水相互作用色谱、亲和色谱、羟基磷灰石色谱和凝集素色谱在内的方法回收和纯化。假如必要的话，可以应用蛋白质重折叠来完成多肽的构象。假如需要的话，在最终的纯化步骤中可以采用高效液相色谱（HPLC）。

可以以传统的方式应用宿主细胞中的构建体，产生重组序列编码的基因产物。根据重组生产方法中应用的宿主，含载体宿主细胞产生的多肽可以被糖基化或未被糖基化。本发明的多肽也可以包括起始甲硫氨酸残基或不包括起始甲硫氨酸残基。

也可以采用无细胞的翻译系统来产生本发明的多肽。无细胞翻译系统可以应用由DNA构建物转录得到的mRNA，所述DNA构建物包括与编码所述多肽或其片段的核酸可操作地连接的启动子。在一些方面，该DNA构建物在进行体外转录反应之前可以被线性化。转录得到的mRNA然后与合适的无细胞翻译提取物例如兔网状细胞提取物温育，产生所需的多肽或其片段。

表达载体可以含有一个或多个选择性标记基因，为选择转化的宿主细胞提供表型特征，例如真核细胞培养物的二氢叶酸还原酶或新霉素抗性，或者大肠杆菌的例如四环素或氨苄青霉素抗性。

含有感兴趣的多核苷酸，例如本发明核酸的宿主细胞可以在传统的营养培养基中培养，所述培养基被改良为适于激活启动子、选择转化子或扩增基因。培养条件如温度、pH值和类似条件，是以前被选择用于进行表达的宿主细胞所应用的那些条件，对本领域普通技术人员是显而易见的。鉴定为具有特定酶活性的克隆可以随后被测序，以鉴定编码具有增强活性的酶的多核苷酸序列。

本发明提供了在细胞中过量表达重组酶的方法，所述细胞包括表达含有本发明核酸的载体，本发明核酸例如，含有在基因或转录物的至少约50、75、100、125、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150或更多个残基或全长范围内，与本发明的示范性序列具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性的核酸序列的核酸，其中序列同一性是应用序列比较算法分析或视觉观察确定的，或者是在严格条件下与本发明核酸序列杂交的核酸。过量表达可以由任何方式来完成，例如，使用高活性启动子、双顺反子载体或通过载体的基因扩增。

本发明核酸可以在任何体外或体内表达系统中表达或过量表达。可以应用任何细胞培养系统表达或过量表达重组蛋白，包括细菌、昆虫、酵母、真菌或哺乳动物培养物。过量表达可以通过对启动子、增强子、载体（例如，应用复制子载体、双顺反子载体（参见例如，Gurtu(1996)Biochem.Biophys.Res.Commun.229:295-8）、培养基、培养系统和类似因素的适当选择来实现。在一个方面，在细胞系统中应用选择标记，如谷氨酰胺合成酶（参见例如Sanders(1987)Dev.Biol.Stand.66:55-63）进行基因扩增，用来过量表达本发明的多肽。

宿主细胞可以是本领域技术人员熟悉的任何宿主细胞，包括原核细胞、真核细胞、哺乳动物细胞、昆虫细胞或植物细胞。作为合适宿主的代表性例子，可以提及：细菌细胞如大肠杆菌、链霉菌、枯草芽孢杆菌、鼠伤寒沙门氏菌以及链霉菌属和葡萄球菌属中的各菌种、真菌细胞如酵母、昆虫细胞如果蝇S2和草地夜蛾Sf9、动物细胞如CHO、COS或Bowes黑素瘤和腺病毒。对合适宿主的选择在本领域技术人员的能力范围内。

在适当的情况下，工程宿主细胞可以在传统的营养培养基中培养，所述营养培养基经改良而适于激活启动子、选择转化子或扩增本发明的基因。在合适的宿主株被转化和宿主株生长到合适的细胞密度之后，用合适的方法（例如，温度变化或化学诱导）诱导被选择的启动子，细胞再培养一段时期，使得它们产生所需的多肽或其片段。

细胞通常通过离心收获，通过物理或化学方法破碎，保留得到的粗提物以用于进一步的纯化。被用来表达蛋白质的微生物细胞可以用任何常规方法破碎，包括冷冻-融解循环、超声波、机械破碎法或使用细胞裂解试剂。这些方法为本领域技术人员所熟知。表达的多肽或其片断可以从重组细胞培养物中通过包括硫酸铵或乙醇沉淀、酸提取、阴离子或阳离子交换色谱、磷酸纤维素色谱、疏水作用色谱、亲和色谱、羟基磷灰石色谱和凝集素色谱在内的方法回收和纯化。假如必要的话，可以应用蛋白质重折叠来完成多肽的构象。假如需要的话，在最终的纯化步骤中可以采用高效液相色谱（HPLC）。

也可以用各种哺乳动物细胞培养系统表达重组蛋白。哺乳动物表达系统的例子包括猴肾成纤维细胞COS-7细胞系（由Gluzman,Cell,23:175,1981描述）和能够从相容载体表达蛋白质的其它细胞系如C127、3T3、CHO、HeLa和BHK细胞系。

可以以传统的方式中应用宿主细胞中的构建体，产生重组序列编码的基因产物。根据重组生产方法中应用的宿主，含载体宿主细胞产生的多肽可以被糖基化或未被糖基化。本发明的多肽也可以包括起始甲硫氨酸残基或不包括起始甲硫氨酸残基。

可选地，通过传统的肽合成仪，可以合成产生本发明多肽或含有其至少5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段。在另一方面，可以通过肽合成技术，用多肽的片段或各部分产生相应的全长多肽；因此，片段可以被用作产生全长多肽的中间体。

可以用无细胞翻译系统产生本发明的一个多肽，或含有其至少5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段，其中应用从DNA构建体转录的mRNA，所述DNA构建体包括与编码多肽或其片段的核酸可操作连接的启动子。在一些方面，在进行体外转录反应之前，DNA构建体可以被线性化。随后，转录的mRNA与合适的无细胞翻译提取物如兔网织红细胞提取物温育，产生所需多肽或其片段。

核酸的扩增

在实施本发明中，可以通过扩增来复制本发明核酸和编码本发明酶的核酸或本发明的修饰的核酸。也可以用扩增来克隆或修饰本发明的核酸。因此，本发明提供了用于扩增本发明核酸的扩增引物序列对。本领域技术人员能够设计用于这些序列的任何部分或全长的扩增引物序列对。

在一个方面，本发明提供了由本发明引物对扩增的核酸，所述引物对例如，由本发明核酸的约前（5’）12、13、14、15、16、17、18、19、20、21、22、23、24或25个残基和互补链的约前（5’）15、16、17、18、19、20、21、22、23、24或25个残基所示的引物对。

本发明提供了提供了扩增引物序列对，用于扩增编码具有酶活性的多肽的核酸，其中引物对能够扩增包括本发明序列或其片段或子序列的核酸。扩增引物序列对中的一个成员或每一成员可以包括寡核苷酸，所述寡核苷酸含有序列的至少约10至50个连续碱基，或序列的约12、13、14、15、16、17、18、19、20、21、22、23、24或25个连续碱基。本发明提供了扩增引物对，其中引物对包括第一成员和第二成员，第一成员具有本发明核酸的约前（5’）12、13、14、15、16、17、18、19、20、21、22、23、24或25个残基列出的序列，第二成员具有第一成员的互补链的约前（5’）12、13、14、15、16、17、18、19、20、21、22、23、24或25个残基列出的序列。本发明提供了应用本发明的扩增引物对进行扩增例如聚合酶链式反应（PCR）生成的酶编码核酸。本发明提供了应用本发明的扩增引物对进行扩增例如聚合酶链式反应（PCR）制备酶编码核酸的方法。在一个方面，扩增引物对扩增来自文库的核酸，所述文库例如，基因文库，如环境文库。

也可以用扩增反应对样品中的核酸进行定量（如细胞样品中信息的量）、标记核酸（例如，将其应用于阵列或印迹）、检测核酸或对样品中的特定核酸量进行定量。在本发明的一个方面，来自细胞或cDNA文库的信息被扩增。

技术人员可以选择和设计合适的寡核苷酸扩增引物。扩增方法也是本领域熟知的，包括，例如，聚合酶链式反应PCR（参见例如PCR PROTOCOLS,A GUIDETO METHODS AND APPLICATIONS,ed.Innis,Academic Press,N.Y.(1990)和PCRSTRATEGIES(1995),ed.Innis,Academic Press,Inc.,N.Y.，连接酶链式反应（LCR）（参加例如Wu(1989)Genomics4:560;Landegren(1988)Science241:1077;Barringer(1990)Gene89:117）；转录扩增（参见例如Kwoh(1989)Proc.Natl.Acad.Sci.USA86:1173）；和自主维持序列扩增（参见例如Guatelli(1990)Proc.Natl.Acad.Sci.USA87:1874）；Q β复制酶扩增（参见例如Smith(1997)J.Clin.Microbiol.35:1477-1491），自动Q β复制酶扩增试验（参见例如Burg(1996)Mol.Cell.Probes10:257-271）和其它RNA聚合酶介导的技术（例如NASBA,Cangene,Mississauga,Ontario）；也参见Berger(1987)Methods Enzymol.152:307-316；Sambrook；Ausubel；美国专利4,683,195和4,683,202；Sooknanan(1995)Biotechnology13:563-564。

测定序列同一性程度

本发明提供了核酸，其包括在至少约10、20、30、40、50、60、70、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550或更多个残基的区域内，与本发明的示范性核酸（例如SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5、SEQ ID NO:7、SEQ ID NO:9、SEQ ID NO:11、SEQID NO:13、SEQ ID NO:15、SEQ ID NO:17或SEQ ID NO:19）有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性或完全（100%）的序列同一性的序列。本发明提供了多肽，其包括与本发明的示范性多肽有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性或完全（100%）的序列同一性的序列。可以用任何计算机程序和相关参数，包括本文所述的那些，例如BLAST2.2.2.或FASTA版本3.0t78确定序列同一性（同源性）的程度，参数为默认值。

本发明的核酸序列可以包括本发明示范性序列的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个连续核苷酸和与其基本上相同的序列。本发明核酸序列的同源序列和片段是指与这些序列有至少99%、98%、97%、96%、95%、90%、85%、80%、75%、70%、65%、60%、55%或50%同源性的序列。可以用本文所述的任何计算机程序和参数，包括FASTA版本3.0t78和默认参数确定同源性。同源序列也包括其中尿苷替换了本发明核酸序列中的胸苷的RNA序列。同源序列可以用本文所述的任何方法获得，或者从对测序错误的校正中得到。应该理解，本发明的核酸序列可以表示为传统的单字母格式（参见Stryer,Lubert.Biochemistry，3rd Ed.,W.H Freeman&Co.,New York的封三）或以记录在序列中核苷酸的身份的任何其它格式表示。

此专利说明书中别处描述的各种序列比较程序被特别考虑用于本发明的该方面。蛋白和/或核酸序列同源性可以使用本技术领域已知的各种序列比较算法和程序中的任意一种来评价。这样的算法和程序包括，但不限于，TBLASTN、BLASTP、FASTA、TFASTA和CLUSTALW（Pearson and Lipman,Proc.Natl.Acad.Sci.USA85(8):2444-24481988；Altschul et al.，J.Mol.Biol.215(3):403-4101990；Thompsonet al.,Nucleic Acids Res.22(2):4673-4680,1994；Higgins et al.,Methods Enzymol.266:383-402,1996；Altschul et al.,J.Mol.Biol.215(3):403-410,1990；Altschul et al.,Nature Genetics3:266-272,1993）。

通常用序列分析软件（例如Sequence Analysis Software Package，the GeneticsComputer Group,University of Wisconsin Biotechnology Center,1710UniversityAvenue,Madison,WI53705）测定同源性或同一性。这些软件通过对各种缺失、取代和其它修饰赋予同源性程度值来匹配相似序列。在两个或者多个核酸或者多肽序列的上下文中，术语“同源性”和“同一性”，是指当两个或更多个序列或子序列在某一比较窗口（comparison window）或者指定区域内被比较和联配以确定最大一致性时，这些序列是相同的，或者具有特定百分比的相同氨基酸残基或核苷酸，其可以应用各种序列比较算法或者通过人工联配和视觉观察来测定。

对于序列比较，通常是一个序列作为参考序列，测试序列与之进行比较。当使用序列比较算法时，将测试序列和参考序列输入到计算机中，指定子序列坐标，如果必要，也指定序列算法程序参数。可以使用默认的程序参数，或者可以指定别的参数。然后基于程序参数，序列比较算法计算出测试序列相对于参考序列的序列同一性百分比。

如本文所用，“比较窗口（comparison window）”包括选自20至600、通常是约50至约200、更通常是约100至约150的任一数目的连续位置的片段，其中在两个序列最佳联配之后，一个序列可以和具有相同数目的连续位置的参考序列进行比较。对序列进行联配用于比较的方法是本领域熟知的。例如，通过Smith&Waterman,Adv.Appl.Math.2:482,1981的局部同源性算法，通过Needleman&Wunsch,J.Mol.Biol 48:443,1970的同源性联配算法，通过person&Lipman,Proc.Nat'l.Acad.Sci.USA85:2444,1988的查找相似性方法，通过这些算法的计算机化实施（GAP、BESTFIT、FASTA和TFASTA，在Wisconsin Genetics Software Package,Genetics Computer Group,575Science Dr.,Madison,WI），或者通过人工比对和视觉观察，可以对序列进行最佳联配用于比较。确定同源性或同一性的其它算法，除了BLAST程序（Basic Local Alignment Search Tool，在the National Center forBiological Information）之外，还包括例如ALIGN、AMAS（多重联配序列分析（Analysis of Multiply Aligned Sequences））、AMPS（蛋白质多重序列联配（ProteinMultiple Sequence Alignment））、ASSET（联配片段统计学评价工具（AlignedSegment Statistical Evaluation Tool））、BANDS、BESTSCOR、BIOSCAN（生物学序列比较分析节点（Biological Sequence Comparative Analysis Node））、BLIMPS（BLocks IMProved Searcher）、FASTA、Intervals&Points、BMB、CLUSTAL V、CLUSTAL W、CONSENSUS、LCONSENSUS、WCONSENSUS、Smith-Waterman算法、DARWIN、Las Vegas算法、FNAT（Forced Nucleotide Alignment Tool）、Framealign、Framesearch、DYNAMIC、FILTER、FSAP（Fristensky序列分析软件包（Fristensky Sequence Analysis Package））、GAP（全局联配程序（Global AlignmentProgram））、GENAL、GIBBS、GenQuest、ISSC（灵敏性序列比较（Sensitive SequenceComparison））、LALIGN（局部序列联配（Local Sequence Alignment））、LCP（局部内容程序（Local Content Program））、MACAW（多重联配构建和分析工作台（Multiple Alignment Construction&Analysis Workbench））、MAP（多重联配程序（Multiple Alignment Program））、MBLKP、MBLKN、PIMA（模式诱导的多重序列联配（Pattern-Induced Multi-sequence Alignment））、SAGA（通过遗传算法的序列联配（Sequence Alignment by Genetic Algorithm））和WHAT-IF。也可以用这些联配程序筛选基因组数据库，确定具有基本上相同序列的多核苷酸序列。许多基因组数据库是可以利用的，例如，作为人类基因组测序工程（Human GenomeSequencing Project）（J.Roach,http://weber.u.Washington.edu/~roach/human_genome_progress2.html）（Gibbs,1995）一部分的人类基因组的实质部分是可以得到的。已经对至少21个其它基因组进行了测序，包括例如，生殖器支原体（M.genitalium）（Fraser et al.,1995）、甲烷球菌（M.jannaschii）（Bult et al.,1996）、流感嗜血杆菌（H.influenzae）（Fleischmann et al.,1995）、大肠杆菌（E.coli）（Blattneret al.,1997）和酵母（酿酒酵母）（Mewes et al.,1997）和黑腹果蝇（D.melanogaster）（Adams et al.,2000）。在对模式生物如小鼠、线虫（C.elegans）和拟南芥某种的基因组进行的测序中，也取得了明显的进展。含有基因组信息并且注释有一些功能性信息的数据库由不同组织维护，可以通过因特网登录。

有用算法的一个例子是BLAST和BLAST2.0算法，在Altschul et al.,Nuc.Acids Res.25:3389-3402,1977和Altschul et al.,J.Mol.Biol.215:403-410,1990中分别有描述。进行BLAST分析的软件可以通过美国国家生物技术信息中心（NationalCenter for Biotechnology Information）公开得到。这一算法涉及首先通过鉴别待询序列（query sequence）中长度为W的短的字串来确定高分序列对（high scoringsequence pairs，HSPs），所述字串在与数据库序列中同样长度的字串联配时，匹配或者满足某个正值的阈值T。T是指邻近字串（neighborhood word）的分数阈值（Altschul等，如上）。这些初始的邻近字串命中（hit）被用作启动搜索以发现包含有它们的更长的HSPs的种子。所述字串命中沿着每一个序列向两个方向延伸，只要累积的联配分数在增加。对于核苷酸序列，使用参数M（一对匹配的残基的奖励分数；总是大于0）来计算累积分数。对于氨基酸序列，应用计分矩阵计算累积分数。出现下面情况时，字串命中在各个方向上的延伸便停止：累积的联配分数由达到的最大值下降了数量X；由于一个或者多个记分为负的残基联配的累积，累积分数达到0或者0以下；或者延伸到了任一序列的末端。BLAST算法的参数W、T和X决定了联配的灵敏度和速率。BLASTN程序（对于核苷酸序列）默认的是：字串长度（W）为11，期望值（E）为10，M=5，N=-4，对两条链进行比较。对于氨基酸序列，BLASTP程序默认：字串长度为3，期望值（E）为10，BLOSUM62记分矩阵（参见Henikoff和Henikoff（1989）Proc.Natl.Acad.Sci.USA89:10915）联配（B）为50，期望值（E）为10，M=5，N=-4，对两条链进行比较。

BLAST算法也对两条序列之间的相似性进行统计学分析（参见例如Karlin&Altschul,Proc.Natl.Acad.Sci.USA90:5873,1993）。由BLAST算法提供的一种相似性量度是最小合计概率（smallest sum probability，P(N)），其表示两个核苷酸或者氨基酸序列间的匹配将偶然发生的概率。例如，在测试核酸和参考核酸的比较中，如果最小合计概率在大约0.2以下，更多地在一个方面是0.01以下，最多地在一个方面是大约0.001以下，就认为该核酸与参考序列相似。

在一个方面，应用基本局域联配搜索工具（Basic Local Alignment Search Tool）（“BLAST”）来评价蛋白和核酸序列同源性。具体而言，应用5个特定的BLAST程序执行下列任务：

（1）BLASTP和BLAST3将氨基酸待询序列与蛋白质序列数据库进行比较；

（2）BLASTN将核苷酸待询序列与核苷酸序列数据库进行比较；

（3）BLASTX将待询核苷酸序列（两条链）的6框架概念翻译产物与蛋白质序列数据库进行比较；

（4）TBLASTN将待询蛋白质序列与以所有6框架可读框（两条链）翻译的核苷酸序列数据库进行比较；和

（5）TBLASTX将核苷酸待询序列的6框架翻译产物与核苷酸序列数据库的6框架翻译产物进行比较。

BLAST程序通过鉴定待询氨基酸序列或核酸序列和测试序列之间的相似片段来确定同源性，本文中将所述相似片段称为“高分数片段对（high-scoring segmentpairs）”，在一个方面，测试序列获自蛋白质或核酸序列数据库。在一个方面，通过计分矩阵的方式鉴定（即，联配）高分数片段对，许多计分矩阵是本领域已知的。在一个方面，应用的计分矩阵是BLOSUM62矩阵（Gonnet et al.,Science256:1443-1445,1992;Henikoff and Henikoff，Proteins17:49-61,1993）。较少地在一个方面，也可以应用PAM或PAM250矩阵（参见例如Schwartz and Dayhoff，eds.,1978,Matrices for Detecting Distance Relationships:Atlas of Protein Sequence and Structure,Washington:National Biomedical Research Foundation）。BLAST程序可以由美国国立医学图书馆（U.S.National Library of Medicine）得到。

根据所研究的序列长度和同源性程度，上述算法应用的参数可以调整。在某些方面，在不存在使用者的指示时，参数可以是算法所用的默认参数。

在一个方面，在两个核酸或多肽的上下文中，短语“基本上相同（substantiallyidentical）”是指当两个或更多个序列被比较和联配以寻找最大一致性（maximuncorrespondence）时，它们具有例如，至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的核苷酸或氨基酸残基（序列）同一性，如应用一种已知的序列比较算法或通过视觉观察所测定的。在可选的方面，基本上的同一性存在于基因或转录物的至少约50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150或更多个残基或者全长区域内。在某些方面，序列在编码区域的全长范围内基本上相同。

计算机系统和计算机程序产品

为了在计算机芯片上测定和确定序列同一性、结构同源性、基序和类似性质，可以在可由计算机读取和访问的任何介质上对本发明的核酸或多肽序列进行存储、记录和操作。

因此，本发明提供了其上记录或存储了本发明的核酸和多肽序列的计算机、计算机系统、计算机可读介质、计算机程序产品和类似设备。如本文所用，词语“记录（recorded）”和“存储（stored）”是指在计算机介质上存储信息的过程。技术人员可以容易地采用任何已知方法，在计算机可读介质上记录信息，产生包括本发明一个或多个核酸和/或多肽序列的制品。

本发明的多肽包括本发明的多肽序列，例如，本发明的示范性序列，和与其基本上相同的序列，和任意前述序列的片段。基本上相同或同源的多肽序列是指，与本发明的示范性序列有至少50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性或完全的（100%）序列同一性的多肽序列。

可以用本文所述的任何计算机程序和参数确定同源性，包括FASTA版本3.0t78和默认参数或任何修改的参数。可以用本文所述的任何方法得到同源序列，或者可以从对测序错误的校正得到同源序列。多肽片段包括本发明多肽的至少约10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500或更多个连续氨基酸。应该理解，本发明氨基酸序列示出的多肽编码可以用传统的单字母方式或三字母格式表示（参见Stryer,Lubert.Biochemistry，3rd Ed.,W.H Freeman&Co.,New York的封三），或以记录在序列中多肽的身份的任何其它格式表示。

本发明的核酸序列或多肽序列可以在任何介质上存储、记录和操作，所述介质可以由计算机读取和访问。如本文所用，词语“记录（recorded）”和“存储（stored）”是指在计算机介质上存储信息的过程。技术人员可以容易地采用任何已知方法在计算机可读介质上记录信息，产生包括本发明一个或多个核酸序列、本发明一个或多个多肽序列的制品。本发明的另一方面是计算机可读介质，其上记录了本发明的至少2、5、10、15或20或更多个核酸序列。

本发明的另一方面是计算机可读介质，其上记录了本发明的一个或多个核酸序列。本发明的另一方面是计算机可读介质，其上记录了本发明的一个或多个多肽序列。本发明的另一方面是计算机可读介质，其上记录了至少2、5、10、15或20或更多个上述序列。

如本文所用，术语“计算机”、“计算机程序”和“处理器”以其最宽泛的一般意义应用，包括所有这样的设备，如下文详细描述。特定多肽或蛋白质的“编码序列”或“编码特定多肽或蛋白质的核苷酸序列”是当置于合适的调节序列的控制之下时，被转录和翻译成多肽或蛋白质的核酸序列。

计算机可读介质包括磁性可读介质、光可读介质、电子可读介质和磁/光介质。例如，计算机可读介质可以是硬盘、软盘、磁带、CD-ROM、数字化视频光盘（DVD）、随机存取存储器（RAM）或只读存储器（ROM）以及本领域技术人员已知的其它类型的其它介质。

本发明的方面包括系统（例如基于因特网的系统），尤其是计算机系统，它们存储和操纵此处描述的序列信息。计算机系统100的一个例子在图7中以框图形式阐释。如本文所用，“计算机系统”指硬件组分、软件组分以及数据存储组分，它们用于分析本发明的核酸序列的核苷酸序列或本发明的多肽序列。计算机系统100典型地包括处理、访问和操作序列数据的处理器。处理器105可以是任何熟知类型的中央处理单元，例如，英特尔公司（Intel Corporation）的奔腾III（PentiumIII），或来自Sun、Motorola、Compaq、AMD或International Business Machines的类似处理器。

典型地，计算机系统100是一个通用的系统，包括处理器105和用于存储数据的一个或多个内部数据存储部件110和用于检索数据存储部件上存储的数据的一个或多个数据检索设备。技术人员可以容易地理解，目前可利用的任一计算机系统都是适合的。

在一个特定方面，计算机系统100包括处理器105，处理器105与总线连接，总线与主存储器115（在一个方面以RAM来实现）和一个或多个内部数据存储设备110连接，例如其上已经记录了数据的硬盘驱动器和/或其它计算机可读介质。在某些方面，计算机系统100还包括一个或多个数据检索设备118，用于读取内部数据存储设备110上存储的数据。

数据检索设备118可以是，例如，软盘驱动器、压缩磁盘驱动器、磁带驱动器或能够和远程数据存储系统连接（例如通过因特网）的调制解调器等。在某些方面，内部数据存储设备110是远程计算机可读介质，例如含有控制逻辑和/或其上记录的数据的软盘、压缩磁盘、磁带等等。计算机系统100可以有利地包括合适的软件或者由合适软件编程，用于当数据存储部分被插入到数据检索设备中时从数据存储部分读取控制逻辑和/或数据。

计算机系统100包括显示器120，用于给计算机用户显示输出。也应该注意到，计算机系统100可以被连接到网络或广域网中的其它计算机系统125a-c，以便给计算机100提供集中访问。

用于访问和处理本发明的核酸序列的核苷酸序列或本发明的多肽序列的软件（例如搜索工具、比较工具和建模工具等）在执行过程中可驻留于主存储器115中。

在一些方面，计算机系统100还可以包括序列比较算法，用于比较计算机可读介质上存储的本发明的核酸序列或本发明的多肽序列和计算机可读介质上存储的参考核苷酸序列或多肽序列。“序列比较算法”是指一个或多个程序，其在计算机系统100上执行（本地或远程），以比较数据存储设备中存储的核苷酸序列和其它核苷酸序列和/或化合物。例如，序列比较算法可以比较计算机可读介质上存储的本发明核酸序列的核苷酸序列或本发明的多肽序列和计算机可读介质上存储的参考序列，以鉴定同源性或结构基序。

图5是阐释过程200的一个方面的的流程图，所述过程用于比较新的核苷酸序列或蛋白序列和序列数据库，目的是确定新序列和数据库中序列之间的同源性水平。序列数据库可以是计算机系统100上存储的个人数据库，或公用数据库如可以通过因特网访问的GENBANK。

过程200以起始状态201开始，随后移至状态202，其中待比较的新序列被存储到计算机系统100的存储器上。如上所论述，存储器可以是任何类型的存储器，包括RAM或内部存储设备。

过程200随后移至状态204，其中打开序列数据库以进行分析和比较。然后过程200转到状态206，其中数据库中存储的第一序列被读取到计算机的存储器中。然后在状态210进行比较，以确定第一序列是否与第二序列相同。重要的是，应该注意到，该步骤不限于进行新序列和数据库中第一序列之间的精确比较。比较两个核苷酸序列或蛋白序列的公知方法是本领域技术人员已知的，甚至在所述序列不相同时也如此。例如，为了提高两个测试序列之间的同源性水平，可以向一个序列中引入空位（gap）。控制空位或其它特征在比较期间是否被引入序列的参数通常由计算机系统的用户输入。

在状态210处进行两个序列的比较之后，在决策状态210处作出两个序列是否相同的判断。当然，术语“相同”不限于绝对相同的序列。在过程200中，在由用户输入的同源性参数范围内的序列都将被标记为“相同”。

如果作出了两个序列相同的判断，过程200移至状态214，其中来自数据库的序列的名称被显示给用户。该状态通知用户，具有显示的名称的序列满足所输入的同源性限制。一旦存储的序列的名称被显示给用户，过程200转到决策状态218，其中作出数据库中是否存在更多序列的判断。如果数据库中不存在更多的序列，那么过程200在结束状态220终止。然而，如果数据库中确实存在更多的序列，那么过程200转到状态224，其中指针被指向数据库中的下一个序列，以便与新序列进行比较。以这种方式，将新序列与数据库中的每一序列进行联配和比较。

应该注意到，如果已经在决策状态212已经作出了序列不同源的判断，那么过程200将立即转到决策状态218，以便确定数据库中是否有任何其它序列可用于比较。

因此，本发明的一个方面是计算机系统，该系统包括处理器、其上已经存储了本发明核酸序列或本发明多肽序列的数据存储设备、其上可检索地存储有可与本发明核酸序列或本发明多肽序列进行比较的参考核苷酸序列或多肽序列的数据存储设备和用于进行比较的序列比较器。序列比较器可以指出被比较的序列之间的同源性水平，或鉴定上述核酸码本发明核酸序列或本发明多肽序列中的结构基序，或者可以鉴定与这些核酸码和多肽码比较的序列中的结构基序。在某些方面，数据存储设备可以在其上存储有至少2、5、10、15、20、25、30或40或更多个本发明核酸序列或本发明多肽序列。

本发明的另一方面是确定本发明核酸序列或本发明多肽序列与参考核苷酸序列之间的同源性水平的方法。方法包括，通过应用测定同源性水平的计算机程序读取核酸码或多肽码以及参照核苷酸或多肽序列，和用该计算机程序测定核酸码或多肽码和参考核苷酸或多肽序列之间的同源性。计算机程序可以是用于测定同源性水平的许多计算机程序中的任意程序，包括本文中具体列举的那些（例如，带有默认参数或任何修改参数的BLAST2N）。应用上述计算机系统可以实施所述方法。也可以如下实施所述方法：应用计算机程序读取至少2、5、10、15、20、25、30或40或更多个上述本发明核酸序列或本发明多肽序列，和测定核酸码或多肽码和参考核苷酸序列或多肽序列之间的同源性。

图6是阐述在计算机中确定两个序列是否同源的过程250的一个方面的流程图。过程250以起始状态252开始，随后转到状态254，其中要被比较的第一个序列被存储到存储器上。然后要被比较的第二个序列在状态256被存储到存储器上。然后过程250转到状态260，其中读取第一个序列中的第一个字符，然后转到状态262，其中读取第二个序列的第一个字符。应该理解到，如果序列是核苷酸序列，那么字符将通常是A、T、C、G或U。如果序列是蛋白序列，那么在一个方面，字符可以是单字母氨基酸代码，从而第一个序列和第二个序列可以被容易地比较。

然后在决策状态264作出两个字符是否相同的判断。如果它们相同，那么过程250转到状态268，其中第一个和第二个序列中的下一个字符被读取。然后作出所述的下一个字符是否相同的判断。如果它们相同，那么过程250继续循环，直到两个字符不相同。如果作出的判断是接下来的两个字符不相符，那么过程250转到决策状态274，以确定任一序列中是否有更多的字符可以读取。

如果没有可读取的任何更多的字符，那么过程250转到状态276，其中第一个和第二个序列之间的同源性水平被显示给用户。同源性水平通过计算序列之间相同的字符在第一个序列的序列总数目中的比例来确定。因此，如果第一个100核苷酸序列中的每一个字符都与第二个序列中的每一个字符联配，那么同源性水平将是100%。

可选地，计算机程序可以是比较本发明列出的核酸序列的核苷酸序列和一个或多个参考核苷酸序列，以便确定本发明的核酸码是否在一个或多个部位处不同于参考核酸序列的计算机程序。任选地，对于参考多核苷酸或者本发明的核酸序列，该程序可以记录被插入、删除或取代的核苷酸的长度和身份。在一个方面，计算机程序可以是确定本发明核酸序列是否相对于参考核苷酸序列包含单核苷酸多态性（SNP）的程序。

因此，本发明的另一方面是确定本发明的核酸序列是否在一个或多个核苷酸处不同于参考核苷酸序列的方法，包括下列步骤：应用鉴定核酸序列之间的差异的计算机程序读取核酸码和参考核苷酸序列，和用该计算机程序鉴定核酸码和参考核苷酸序列之间的差异。在某些方面，计算机程序是鉴定单核苷酸多态性的程序。所述方法可以通过上述计算机系统和图6阐述的方法来执行。所述方法也可以如下实施：应用计算机程序读取至少2、5、10、15、20、25、30或40或更多个本发明核酸序列和参考核苷酸序列，和用该计算机程序鉴定核酸码和参考核苷酸序列之间的差异。

在其它方面，基于计算机的系统还可以包括鉴定本发明核酸序列或本发明多肽序列中的特征的标识符。

“标识符（identifier）”是指鉴定本发明核酸序列或本发明多肽序列中某些特征的一个或多个程序。在一个方面，标识符可以包括鉴定本发明核酸序列中的可读框的程序。

图7是阐述用于检测序列中特征的存在情况的标识符过程300的一个方面的流程图。过程300起始于起始状态302，然后转到状态304，其中将被检查特征的第一个序列被存储在计算机系统100的存储器115上。然后过程300转到状态306，其中打开序列特征数据库。这样的数据库包括每一特征的属性以及该特征的名称的列表。例如，特征名称是“起始密码子”，属性是“ATG”。另一个实例是特征名称“TAATAA序列盒”，特征属性是“TAATAA”。这样的数据库的实例由威斯康星大学遗传学计算机组（University of Wisconsin Genetics Computer Group）开发。可选地，特征可以是结构多肽基序如α螺旋、β片层或功能多态基序例如酶催化结构域（CDs）或活性部位、螺旋-转角-螺旋基序或本领域技术人员已知的其它基序。

一旦在状态306打开特征数据库，过程300就转到状态308，其中从数据库读取第一个特征。然后在状态310将第一个特征的属性与第一个序列进行比较。接着在决策状态316作出在第一个序列中是否发现该特征的属性的判断。如果发现了属性，那么过程300转到状态318，其中所发现的特征的名称被显示给用户。

然后，过程300转到决策状态320，其中作出数据库中是否存在更多特征的判断。如果不存在更多特征，那么过程300在结束状态324终止。然而，如果数据库中确实存在更多的特征，那么过程300在状态326读取下一个序列特征，循环回到状态310，其中将下一个特征的属性与第一个序列进行比较。应该注意，如果在决策状态316在第一个序列中没有发现特征属性，那么过程300直接转到决策状态320，以确定数据库中是否存在更多特征。

因此，本发明的另一方面是鉴定本发明核酸序列或本发明多肽序列中的特征的方法，包括用鉴定其中的特征的计算机程序读取核酸码或多肽码和用该计算机程序鉴定核酸码中的特征。在一个方面，计算机程序包括鉴定开放阅读框的计算机程序。方法可以如下进行：应用计算机程序读取单个序列或者至少2、5、10、15、20、25、30或40个本发明核酸序列或本发明多肽序列，和用计算机程序鉴定核酸码或多肽码中的特征。

本发明的核酸序列或本发明的多肽序列可以在多种数据处理器程序中以多种格式存储和操作。例如，本发明的核酸序列或本发明的多肽序列可以以文本文件存储在字处理文件中，如Microsoft WORD^TM或WORDPERFECT^TM，或以ASCII文件存储在本领域技术人员熟悉的各种数据库程序中，如DB2^TM、SYBASE^TM或ORACLE^TM中。此外，许多计算机程序和数据库可以用作序列比较算法、标识符或与本发明核酸序列或本发明多肽序列进行比较的参考核苷酸序列或多肽序列的来源。下列的列举不意图于限制本发明，而是提供对可用于本发明的核酸序列或本发明的多肽序列的程序和数据库的指导。

可以应用的程序和数据库包括但不限于：MacPattern(EMBL)、DiscoveryBase(Molecular Applications Group)、GeneMine(Molecular Applications Group)、Look(Molecular Applications Group)、MacLook(Molecular Applications Group)、BLAST和BLAST2(NCBI)、BLASTN和BLASTX(Altschul et al,J.Mol.Biol.215:403,1990)、FASTA(Pearson and Lipman,Proc.Natl.Acad.Sci.USA,85:2444,1988)、FASTDB(Brutlag et al.Comp.App.Biosci.6:237-245,1990)、Catalyst(MolecularSimulations Inc.)、Catalyst/SHAPE(Molecular Simulations Inc.)、Cerius².DBAccess(Molecular Simulations Inc.)、HypoGen(Molecular Simulations Inc.)、Insight II、(Molecular Simulations Inc.)、Discover(Molecular Simulations Inc.)、CHARMm(Molecular Simulations Inc.)、Felix(Molecular Simulations Inc.)、DelPhi、(MolecularSimulations Inc.)、QuanteMM、(Molecular Simulations Inc.)、Homology(MolecularSimulations Inc.)、Modeler(Molecular Simulations Inc.)、ISIS(Molecular SimulationsInc.)、Quanta/Protein Design(Molecular Simulations Inc.)、WebLab(MolecularSimulations Inc.)、WebLab Diversity Explorer(Molecular Simulations Inc.)、GeneExplorer(Molecular Simulations Inc.)、SeqFold(Molecular Simulations Inc.)、MDLAvailable Chemicals Directory数据库、MDL Drug Data Report数据库、Comprehensive Medicinal Chemistry数据库、Derwents’s World Drug Index数据库、BioByteMasterFile数据库、Genbank数据库和Genseqn数据库。给出这些公开内容之后，许多其它程序和数据库对本领域技术人员将是显而易见的。

可用上述程序检测的基序包括编码亮氨酸拉链、螺旋-转角-螺旋基序、糖基化位点、泛素化位点、α螺旋和β片层的序列、编码指导被编码的蛋白进行分泌的信号肽的信号序列、参与转录调节的序列如同源框、酸性伸展（acidic stretches）、酶活性位点（催化结构域（CDs））、底物结合位点和酶切割位点。

核酸的杂交

本发明提供了分离的、合成的或重组的核酸，其在严格条件下与本发明的示范性序列（例如，SEQ ID NO:1、SEQ ID NO:3、SEQ ID NO:5、SEQ ID NO:7、SEQID NO:9、SEQ ID NO:11、SEQ ID NO:13、SEQ ID NO:15、SEQ ID NO:17或SEQID NO:19）杂交。严格条件可以是高度严格条件、中度严格条件和/或低度严格条件，包括本文所述的高度严格条件和降低的严格条件。在一个方面，洗涤条件的严格性阐明了确定一个核酸是否处于本发明范围内的条件，如下所论述。

在可选方面，由它们在严格条件下杂交的能力所定义的本发明核酸可以是本发明核酸的约5个残基至全长之间；例如，它们的长度可以是至少5、10、15、20、25、30、35、40、50、55、60、65、70、75、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000或更多个残基。也包括小于全长的核酸。这些核酸可以用作例如杂交探针、标记探针、PCR寡核苷酸探针、iRNA（单链或双链）、反义分子或编码抗体结合肽（表位）、基序、活性位点（催化结构域（CDs））的序列以及类似物。

在一个方面，本发明的核酸通过它们在高度严格性下杂交的能力定义，高度严格性包括在大约37℃到42℃的温度下大约50%的甲酰胺的条件。在一个方面，本发明的核酸通过它们在降低的严格性下杂交的能力定义，降低的严格性包括在大约30℃到35℃在大约35%-25%的甲酰胺中的条件。

可选地，本发明的核酸通过它们在高度严格性下杂交的能力定义，高度严格性包括的条件为：在42℃、在50%甲酰胺、5X SSPE、0.3%SDS中，和封闭核酸的重复序列，如cot-1或鲑精DNA（例如200n/ml的剪切和变性鲑精DNA）。一方面，本发明的核酸通过它们在降低的严格性条件下杂交的能力定义，降低的严格性条件包括在35℃的降低温度下的35%甲酰胺中。

在核酸杂交反应中，取决于被杂交的核酸的性质，用于获得特定的严格性水平的条件可以变化。例如，在选择杂交条件时，可以考虑核酸杂交区域的长度、互补程度、核苷酸序列组成（例如，GC与AT含量）和核酸类型（例如RNA与DNA）。其它的考虑是核酸之一是否被固定，例如，被固定在滤膜上。

杂交可以在低度严格性、中度严格性或高度严格性条件下进行。作为核酸杂交的一个例子，含有固定化变性核酸的聚合物膜首先在45℃、在由0.9M NaCl、50mM NaH₂PO₄、pH7.0、5.0mM Na₂EDTA、0.5%SD、10X Denhardt's和0.5mg/ml多核糖腺苷酸组成的溶液中预杂交30分钟。大约2X10⁷cpm（比活性4-9×10⁸cpm/ug）的³²P末端标记寡核苷酸探针随后加入溶液中。温育12-16小时之后，在含有0.5%SDS的1X SET（150mM NaCl、20mM Tris盐酸、pH7.8、1mM Na₂EDTA）中室温下洗涤膜30分钟，随后在新鲜的1X SET中、于T_m-10℃洗涤30分钟，洗涤寡核苷酸探针。随后使膜暴露于放射自显影胶片，用于检测杂交信号。

所有前述杂交可被考虑处于高度严格条件下。

杂交之后，滤膜可以被洗涤以去除任何非特异性结合的可检测探针。根据被杂交核酸的性质、被杂交核酸的长度、互补程度、核酸组成（例如，GC与AT含量）和核酸类型（例如RNA与DNA），用于洗涤滤膜的严格性也可以变化。渐增的严格条件洗涤的例子如下：2X SSC、0.1%SDS，室温下15分钟（低度严格性）；0.1X SSC、0.5%SDS，室温下30分钟至1小时（中度严格性）；0.1X SSC、0.5%SDS，15至30分钟，在杂交温度和68℃之间（高度严格性）；和0.15M NaCl，15分钟，72℃（非常高度的严格性）。最后的低度严格性洗涤可以在0.1X SSC、室温下进行。上面的例子仅仅阐述了可用于洗涤滤膜的一组条件。本领域技术人员会知道，对于不同严格性的洗涤有许多配方。一些其它例子在下文给出。

与探针杂交的核酸是通过放射自显影或其它常规技术鉴定的。

可以对上面的方法进行修改，鉴定出与探针序列具有降低的同源性水平的核酸。例如，为了得到与可检测探针有降低同源性的核酸，可以应用较不严格的条件。例如，在Na+浓度约1M的杂交缓冲液中，杂交温度可以从68℃至42℃以5℃逐步降低。杂交之后，可以用2X SSC、0.5%SDS在杂交温度下洗涤滤膜。认为这些条件在高于50℃时是“中度”条件，在低于50℃时是低度条件。“中度”杂交条件的一个具体例子是在55℃进行上述杂交时。“低度严格性”杂交条件的一个具体例子是在45℃进行上述杂交时。

可选地，杂交可以在含有甲酰胺的缓冲液如6X SSC中、在42℃的温度下进行。在此情况下，杂交缓冲液中的甲酰胺浓度可以从50%至0%以5%逐步降低，以鉴定与探针具有降低的同源性水平的克隆。杂交之后，可以用6X SSC、0.5%SDS在50℃洗涤滤膜。认为这些条件在高于25%甲酰胺时是“中度”条件，在低于25%甲酰胺时是低度条件。“中度”杂交条件的一个具体例子是在30%甲酰胺下进行上述杂交时。“低度”杂交条件的一个具体例子是在10%甲酰胺下进行上述杂交时。

然而，对杂交形式的选择不是关键性的——洗涤条件的严紧性提出了决定核酸是否在本发明范围内的条件。用于鉴定本发明范围内核酸的洗涤条件包括，例如，盐浓度约0.02摩尔、pH7和温度至少约50℃或约55℃至约60℃；或者，盐浓度约0.15M NaCl、72℃，约15分钟；或者，盐浓度约0.2X SSC，温度至少约50℃或约55℃至约60℃，约15至约20分钟；或者，用含有0.1%SDS的盐浓度约2X SSC的溶液洗涤杂交复合物2次，室温下15分钟，随后用含0.1%SDS的0.1X SSC洗涤2次，68℃15分钟；或者等价条件。对于SSC缓冲液和等价条件的描述，参见Sambrook、Tijssen和Ausubel。

可以用这些方法分离本发明核酸。例如，可以用前述方法分离核酸，所述核酸与选自本发明的一个序列或包括其至少约10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个连续碱基的片段和与其互补的序列的核酸序列有至少约97%、至少95%、至少90%、至少85%、至少80%、至少75%、至少70%、至少65%、至少60%、至少55%或至少50%的同源性。同源性可以用比对算法测定。例如，同源多核苷酸可以具有编码序列，所述编码序列是本文所述的一个编码序列的天然发生的等位基因变体。与本发明核酸相比，这样的等位基因变体可以具有一个或多个核苷酸的取代、缺失或加入。

此外，可以用上述方法分离编码多肽的核酸，所述多肽与本发明多肽或包括其至少5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段有至少约99%、95%、至少90%、至少85%、至少80%、至少75%、至少70%、至少65%、至少60%、至少55%或至少50%的同源性，如应用序列比较算法所测定（例如，如应用默认参数的FASTA版本3.0t78算法）。

寡核苷酸探针和应用它们的方法

本发明也提供了核酸探针，其可以用于例如，鉴定编码具有酶活性的多肽或其片段的核酸，或鉴定编码具有叶绿素酶活性的多肽或参与叶绿素分解代谢的酶的基因或其它核酸。在一个方面，探针包括本发明核酸的至少10个连续碱基。可选地，本发明探针可以是本发明核酸列出的序列的至少约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、60、70、80、90、100、110、120、130、150或约10至50、约20至60、约30至70个连续碱基。探针通过结合和/或杂交鉴定核酸。探针可以用在本发明阵列中，参见下面的论述，包括，例如，毛细管阵列。本发明探针也可以用于分离其它核酸或多肽。

本发明的分离的核酸、与其互补的序列、或包括本发明的序列之一的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个连续碱基的片段、或其互补序列也可以用作探针，以确定生物样品如土壤样品是否含有具有本发明核酸序列的生物体或从中可得到所述核酸的生物体。在这样的方法中，获得潜在地含有从其中分离出所述核酸的生物体的生物样品，并且从样品中得到核酸。在允许探针与来自本文所述序列的任何互补序列特异杂交的条件下，使核酸与探针接触。

在必要的情况下，通过使探针与来自已知含有所述互补序列的样品的互补序列以及不含有所述互补序列的对照序列接触，确定允许探针与互补序列特异杂交的条件。杂交条件如杂交缓冲液的盐浓度、杂交缓冲液的甲酰胺浓度或杂交温度可以变化，以鉴定使探针与互补核酸特异杂交的条件。

如果样品含有从其中分离出核酸的生物体，则检测到探针的特异杂交。通过用可检测试剂如放射性同位素、荧光染料或能够催化可检测产物形成的酶标记探针，可以检测杂交。

应用标记探针检测样品中互补核酸存在情况的许多方法是本领域技术人员熟悉的。这些方法包括DNA印迹、RNA印迹、集落杂交方法和斑点印迹。这些方法中的每一种方法的方案提供在Ausubel et al.Current Protocols in Molecular Biology,John Wiley503Sons,Inc.(1997)和Sambrook et al.,Molecular Cloning:A Laboratory Manual2nd Ed.,Cold Spring Harbor Laboratory Press(1989)中。

可选地，可以在扩增反应中应用一种以上的探针（其中至少一种探针能够与核酸样品中存在的任何互补序列特异性杂交）来确定样品中是否包括含有本发明核酸序列的生物体（例如，从其分离出所述核酸的生物体）。典型地，探针包括寡核苷酸。在一个方面，扩增反应可以包括PCR反应。PCR方案描述于Ausubel andSambrook,supra中。可选地，扩增可以包括连接酶链式反应、3SR或链置换反应（参见Barany，F.,“The Ligase Chain Reaction in a PCR World”,PCR Methods andApplications1:5-16,1991；E.Fahy et al.,“Self-sustained Sequence Replication(3SR):AnIsothermal Transcription-based Amplification System Alternative to PCR”,PCR Methodsand Applications1:25-33,1991；和Walker G.T.et al.,“Strand DisplacementAmplification-an Isothermal in vitro DNA Amplification Technique”,Nucleic AcidResearch20:1691-1696,1992）。在这样的方法中，样品中的核酸与探针接触，进行扩增反应，检测任何得到的扩增产物。通过对反应产物进行凝胶电泳和用嵌入剂如溴化乙啶对凝胶染色，可以检测扩增产物。可选地，可以用放射性同位素标记一种或多种探针，在凝胶电泳之后，通过放射自显影可以检测放射性扩增产物的存在。

也可以在染色体步移方法中应用衍生自靠近本发明序列末端的序列的探针，来鉴定含有邻近本发明序列的基因组序列的克隆。这种方法使得能够从宿主生物体中分离出编码其它蛋白质的基因。

可以用本发明的分离的核酸、与其互补的序列、或包括本发明一个序列的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个连续碱基的片段、或与其互补的序列作为探针，鉴定和分离相关的核酸。在某些方面，相关核酸可以是来自不同于分离出所述核酸的生物体的生物体的cDNA或基因组DNA。例如，其它生物体可以是相关生物体。在这种方法中，核酸样品与探针在允许探针与相关序列特异性杂交的条件下接触。随后用上述任何方法检测探针与来自相关生物体的核酸的杂交。

通过改变用于鉴定与可检测探针杂交的核酸如cDNA或基因组DNA的杂交条件的严格性，可以鉴定和分离与探针具有不同的同源性水平的核酸。通过在低于探针解链温度的变化温度下进行杂交，严格性可以变化。解链温度T_m是50%的靶序列与完全互补的探针杂交的温度（在限定的离子强度和pH下）。选择非常严紧的条件，使其与特定探针的Tm相等，或比Tm低大约5℃。应用下列公式可以计算探针的解链温度：

对于长度在14和70个核苷酸之间的探针，用公式T_m＝81.5+16.6(log[Na+])+0.41(G+C比例分数)-(600/N)计算解链温度（T_m），其中N是探针的长度。

如果杂交在含有甲酰胺的溶液中进行，可以用等式T_m＝81.5+16.6(log[Na+])+0.41(G+C比例分数)-(0.63%甲酰胺)-(600/N)计算解链温度，其中N是探针的长度。

预杂交可以在6X SSC、5X Denhardt's试剂、0.5%SDS、100μg变性片段化鲑精DNA或6X SSC、5X Denhardt's试剂、0.5%SDS、100μg变性片段化鲑精DNA、50%甲酰胺中进行。SSC和Denhardt's溶液的配方在Sambrook et al.,supra中列出。

在一个方面，通过将可检测探针加入上面列出的预杂交液进行杂交。当探针包括双链DNA时，在将其加入杂交液之前对其变性。使滤膜与杂交液接触足够长时间，使探针与含有与其互补或与其同源的序列的cDNA或基因组DNA杂交。对于长度超过200个核苷酸的探针，杂交可以在低于T_m15-25℃下进行。对于较短的探针，如寡核苷酸探针，杂交可以在低于T_m5-10℃下进行。在一个方面，对于在6XSSC中的杂交，杂交在约68℃进行。在一个方面，对于在含有50%甲酰胺的溶液中杂交，杂交在约42℃进行。

酶表达的抑制

本发明提供了与本发明核酸互补的核酸（例如反义序列），本发明核酸例如，编码具有参与叶绿素分解代谢的酶活性或具有酯酶（例如叶绿素酶）活性的多肽的核酸。反义序列能够抑制酶编码基因的转运、剪接或转录。抑制作用可以通过靶向于基因组DNA或信使RNA来完成。例如通过杂交和/或切割，靶标核酸的转录或功能可以受到抑制。本发明提供的一组特别有用的抑制剂包括能够与基因结合或是能够与信使结合的寡核苷酸，在每种情况下，都防止或抑制期望酶的产生或功能。结合可以通过序列特异性杂交来完成。另一类有用的抑制剂包括引起编码多肽的核酸失活或切割的寡核苷酸，所述多肽具有参与叶绿素分解代谢的酶活性或具有酯酶（例如叶绿素酶）活性。寡核苷酸可以具有引起这种切割的酶活性，如核酶。寡核苷酸可以被化学修饰或连接到能够切割互补核酸的酶或组分。可以对一组许多不同的这些的寡核苷酸进行筛选，筛选具有所需活性的那些寡核苷酸。因此，本发明提供了在核酸和/或蛋白质水平上抑制酶表达的各种组合物，例如，包括本发明核酸序列的反义分子、iRNA和核酶以及本发明抗体。

对编码具有参与叶绿素分解代谢的酶活性或具有酯酶（例如叶绿素酶）活性的多肽的核酸的表达的抑制作用可以具有多种工业应用。例如，抑制酶表达的本发明组分（例如，反义分子、iRNA、核酶、抗体）可以用作药物组合物，例如，抗病原体药剂或用在其它疗法中，例如，当被抑制的酶具有不需要的、有害的或毒性作用时。

反义寡核苷酸

本发明提供了能够结合酶信息或基因的反义寡核苷酸，其通过靶向于mRNA抑制靶基因或信息，例如，抑制参与叶绿素分解代谢的多肽或具有酯酶（例如叶绿素酶）活性的多肽。设计反义寡核苷酸的策略充分描述于科技文献和专利文献中，技术人员可以应用本发明的新试剂设计这样的寡核苷酸。例如，筛选有效的反义寡核苷酸的基因步移/RNA绘图方案是本领域公知的，参见，例如，Ho(2000)Methods Enzymol.314:168-183，其描述了RNA绘图分析，它基于标准的分子技术，为选择有效的反义序列提供简便和可靠的方法。也参见Smith(2000)Eur.J.Pharm.Sci.11:191-198。

自然发生的核酸被用作反义寡核苷酸。这些反义寡核苷酸可以是任意长度；例如，在可选择的方面，这些反义寡核苷酸在大约5到100之间，大约10到80之间，大约15到60之间，大约18到40之间。最适长度可以通过常规筛选来决定。这些反义寡核苷酸可以以任意浓度存在。最适浓度可通过常规筛选来决定。各种合成的、非天然发生的核苷酸和核酸类似物是已知的，它们可以解决这一潜在的问题。例如，可以使用含有非离子骨架的肽核酸（PNAs），如N-(2-氨基乙基)甘氨酸单元。也可以使用具有硫代磷酸酯键的反义寡核苷酸，正如在如下文献中所描述的：WO97/03211；WO96/39154；Mata（1997）Toxicol Appl Pharmacol144:189-197；Antisense Therapeutics,ed.Agrawal（Humana Press,Totowa,N.J.,1996）。正如上面所描述的，本发明提供的具有合成DNA骨架类似物的反义寡核苷酸也包括二硫代磷酸酯、甲基膦酸、氨基磷酸酯、烷基磷酸三酯、氨基磺酸酯、3'-硫代乙缩醛、亚甲基(甲基亚氨)、3′-N-氨基甲酸酯和吗啉代氨基甲酸酯核酸。

组合化学方法学可用于产生大量能被快速筛选特异性寡核苷酸的寡核苷酸，所述特异性寡核苷酸对任何靶物质具有适当的结合亲和性和特异性，所述靶物质例如本发明的正义和反义序列（例如参见Gold(1995)J.of Biol.Chem.270:13581-13584）。

抑制性核酶

本发明提供了能够结合编码本发明多肽或者编码参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的信息或基因的核酶。这些核酶可以通过例如靶向于mRNA抑制活性。设计核酶和选择用于靶向的酶特异性反义序列的策略在科学和专利文献中有很好的描述，技术人员能使用本发明的新试剂来设计这样的核酶。核酶通过核酶的靶RNA结合部分来与靶RNA结合，从而发挥作用，核酶的靶RNA结合部分与该RNA上切割靶RNA的酶促部分非常接近。这样，通过互补的碱基配对，核酶识别和结合靶RNA，而且一旦结合于正确的位置，便以酶的活性作用来切割靶RNA和使其失活。如果切割发生在编码序列中，以这样的方式切割靶RNA将会破坏其引导合成编码的蛋白的能力。核酶结合和切割其RNA靶之后，它可以从结合的RNA上释放出来并且重复切割新的靶子。

在一些情况下，核酶的酶性质会优于其它的技术，如反义技术（其中核酸分子仅仅结合于核酸靶来阻止其转录、翻译或者与其它分子的联系），因为实现治疗效果所必要的核酶有效浓度可能低于反义寡聚核苷酸的浓度。这一潜在的优点反映出核酶可以以酶的方式进行作用的能力。因此，单个核酶分子可以切割靶RNA的多个分子。此外，核酶典型地是一种高度特异性的抑制物，其抑制作用的特异性不仅依赖于碱基配对的结合机制，也依赖于该分子抑制与其结合的RNA的表达的机制。即，所述抑制是由切割靶RNA引起的，因此特异性定义为靶RNA的切割率与非靶RNA的切割率的比值。除了涉及碱基配对的那些因素，这种切割机制还依赖于另外的因素。这样，核酶作用的特异性比结合于同样的RNA位点的反义寡聚核苷酸强。

本发明的核酶，例如，具有酶活的核酶RNA分子，可以形成锤头型基序、发夹型基序、丁型肝炎病毒基序、I组内含子基序和/或与RNA引导序列相联系的RNaseP样RNA。锤头型基序的例子由例如Rossi(1992)Aids Research和HumanRetroviruses8:183描述；发夹型基序由Hampel(1989)Biochemistry28:4929和Hampel(1990)Nuc.Acids Res.18:299描述；丁型肝炎病毒基序由Perrotta(1992)Biochemistry31:16描述；RNaseP基序由Guerrier-Takada(1983)Cell35:849描述，I组内含子基序由Cech美国专利4,987,071描述。对这些特定基序的叙述不意图是限制性的。本领域技术人员将认识到本发明的核酶，如，本发明的有酶活的RNA分子，可以有与一个或者多个靶基因RNA区域互补的特异的底物结合位点。本发明的核酶可以在底物结合位点内或者其周围具有赋予了该分子RNA切割活性的核苷酸序列。

RNA干扰(RNAi）

在一个方面，本发明提供了RNA抑制分子，称作“RNAi”分子，其包括本发明的序列。RNAi分子包括双链RNA（dsRNA）分子。RNAi可以抑制编码参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的核酸的表达，例如，如本文所述。在一个方面，RNAi的长度大约为15、16、17、18、19、20、21、22、23、24、25或更多个核苷酸的双链。尽管本发明不限于任何特殊的作用机制，RNAi可进入细胞中，引起相似或相同序列的单链RNA（ssRNA）的降解，包括内源性mRNA。当细胞与双链RNA（dsRNA）接触时，来自同源基因的mRNA被称为RNA干扰（RNAi）的过程选择性地降解。RNAi的一个可能的基本机制是将与特定的基因序列匹配的双链RNA（dsRNA）打断成为称为小分子干扰RNA的短的碎片，它可触发与其序列匹配的mRNA的降解。在一个方面，本发明的RNAi可用于基因沉默（gene-silencing）疗法中，见，例如Shuey(2002)Drug Discov.Today7:1040-1046。在一个方面，本发明提供了使用本发明的RNAi选择性降解RNA的方法。该过程可在体外、先体外后体内或体内实施。在一个方面，本发明的RNAi分子可用来在细胞、器官或动物中产生丧失功能的突变。制备和应用可选择性降解RNA的RNAi分子的方法在本领域中是为人所熟知的，见，例如美国专利6,506,559;6,511,824;6,515,109;6,489,127。

核酸的修饰

本发明提供了产生本发明核酸的变体的方法，本发明核酸例如，编码参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽例如本文所述的酶的那些核酸。这些方法可以重复或以各种组合使用，以便产生参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽，与模板核酸编码的酶相比，所述多肽具有改变的或不同的活性或改变的或不同的稳定性。这些方法也可以重复或以各种组合使用，例如，以便在基因/信息表达、信息翻译或信息稳定性方面产生变化。在另一方面，例如，通过对内源性基因进行离体修饰，随后将其重新插入细胞，细胞的遗传组分得以改变。

本发明的核酸可以通过任何方法来改变。例如，随意或随机方法、或者非随机、或者“定向进化”的方法，参见如，美国专利6,361,974。基因的随机突变方法在本领域是已知的，参见如，美国专利5,830,696。例如，可以应用突变剂来对基因进行随机突变。突变剂包括，如，紫外线或者γ辐射，或者化学诱变剂，如，丝裂霉素，亚硝酸，光活化的补骨脂内酯，它们单独使用或者组合使用来诱导DNA的断裂，其可以通过重组被修复。另外的化学诱变剂包括，如，亚硫酸氢钠、亚硝酸、羟胺、肼或者甲酸。其它的诱变剂是核苷酸前体的类似物，如，亚硝基胍、5-溴尿嘧啶、2-氨基嘌呤或者吖啶。这些试剂可以加入到PCR反应中替换核苷酸前体，从而突变该序列。也可以应用嵌入试剂如普罗黄素、吖啶黄、奎纳克林和类似物。

可以应用分子生物学中的任何技术，例如，随机PCR诱变，参见例如Rice(1992)Proc.Natl.Acad.Sci.USA89:5467-5471；或组合多重盒式诱变，参见例如Crameri(1995)Biotechniques18:194-196。可选地，在随意或“随机”片段化之后，可以对核酸例如基因进行重装配，参见例如美国专利6,291,242；6,287,862；6,287,861；5,955,358；5,830,721；5,824,514；5,811,238；5,605,793。在可选的方面，通过易错PCR、重排、寡核苷酸定点诱变作用、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体诱变、位点专一诱变、基因重装配、基因位点饱和诱变^TM（GSSM^TM）、合成连接重装配（SLR）、重组、递归序列重组、硫代磷酸酯修饰的DNA诱变、含尿嘧啶模板诱变、缺口双链体诱变、点错配修复诱变、修复-缺陷型宿主株诱变、化学诱变、放射诱变、缺失诱变、限制-选择诱变、限制-纯化诱变、人工基因合成、整体诱变、嵌合核酸多聚体产生和/或这些方法及其它方法的组合引入修饰、插入或缺失。

下列出版物描述了可以并入本发明方法的各种递归重组程序和/或方法：Stemmer(1999)"Molecular breeding of viruses for targeting and other clinicalproperties"Tumor Targeting4:1-4;Ness(1999)Nature Biotechnology17:893-896；Chang(1999)"Evolution of a cytokine using DNA family shuffling″NatureBiotechnology17:793-797；Minshull(1999)"Protein evolution by molecular breeding"Current Opinion in Chemical Biology3:284-290；Christians(1999)"Directed evolutionof thymidine kinase for AZT phosphorylation using DNA family shuffling″NatureBiotechnology17:259-264；Crameri(1998)"DNA shuffling of a family of genes fromdiverse species accelerates directed evolution"Nature391:288-291；Crameri(1997)"Molecular evolution of an arsenate detoxification pathway by DNA shuffling,"NatureBiotechnology15:436-438；Zhang(1997)"Directed evolution of an effective fucosidasefrom a galactosidase by DNA shuffling and screening"Proc.Natl.Acad.Sci.USA94:4504-4509；Patten et al.(1997)"Applications of DNA Shuffling to Pharmaceuticalsand Vaccines"Current Opinion in Biotechnology8:724-733；Crameri et al.(1996)"Construction and evolution of antibody-phage libraries by DNA shuffling"NatureMedicine2:100-103；Gates et al.(1996)"Affinity selective isolation of ligands frompeptide libraries through display on a lac repressor `headpiece dimer`"Journal ofMolecular Biology255:373-386；Stemmer(1996)"Sexual PCR and Assembly PCR"In:The Encyclopedia of Molecular Biology.VCH Publishers,New York.pp.447-457；Crameri and Stemmer(1995)"Combinatorial multiple cassette mutagenesis creates allthe permutations of mutant and wildtype cassettes"BioTechniques18:194-195；Stemmer et al.(1995)"Single-step assembly of a gene and entire plasmid form largenumbers of oligodeoxyribonucleotides"Gene,164:49-53；Stemmer(1995)"TheEvolution of Molecular Computation"Science270:1510；Stemmer(1995)"SearchingSequence Space"Bio/Technology13:549-553；Stemmer(1994)"Rapid evolution of aprotein in vitro by DNA shuffling"Nature370:389-391；和Stemmer(1994)"DNAshuffling by random fragmentation and reassembly:In vitro recombination formolecular evolution."Proc.Natl.Acad.Sci.USA91:10747-10751。

产生多样性的突变方法包括，例如，定点诱变(Ling et al.(1997)"Approaches toDNA mutagenesis:an overview"Anal Biochem.254(2):157-178;Dale et al.(1996)"Oligonucleotide-directed random mutagenesis using the phosphorothioate method"Methods Mol.Biol.57:369-374；Smith(1985)"In vitro mutagenesis″Ann.Rev.Genet.19:423-462;Botstein&Shortle(1985)"Strategies and applications of in vitromutagenesis"Science229:1193-1201；Carter(1986)"Site-directed mutagenesis"Biochem.J.237:1-7；和Kunkel(1987)"The efficiency of oligonucleotide directedmutagenesis"，Nucleic Acids&Molecular Biology(Eckstein,F.and Lilley，D.M.J.eds.,Springer Verlag,Berlin))；应用含尿嘧啶模板的诱变(Kunkel(1985)"Rapid andefficient site-specific mutagenesis without phenotypic selection"Proc.Natl.Acad.Sci.USA82:488-492；Kunkel et al.(1987)"Rapid and efficient site-specific mutagenesiswithout phenotypic selection"Methods in Enzymol.154,367-382；和Bass et al.(1988)"Mutant Trp repressors with new DNA-binding specificities"Science242:240-245)；寡核苷酸诱导的定点诱变(Methods in Enzymol.100:468-500(1983)；Methods inEnzymol.154:329-350(1987)；Zoller(1982)"Oligonucleotide-directed mutagenesisusing M13-derived vectors:an efficient and general procedure for the production ofpoint mutations in any DNA fragment"Nucleic Acids Res.10:6487-6500；Zoller&Smith(1983)"Oligonucleotide-directed mutagenesis of DNA fragments cloned intoM13vectors"Methods in Enzymol.100:468-500；和Zoller(1987)Oligonucleotide-directed mutagenesis:a simple method using two oligonucleotideprimers and a single-stranded DNA template"Methods in Enzymol.154:329-350)；硫代磷酸酯修饰的DNA诱变(Taylor(1985)"The use of phosphorothioate-modified DNAin restriction enzyme reactions to prepare nicked DNA"Nucl.Acids Res.13:8749-8764；Taylor(1985)"The rapid generation of oligonucleotide-directed mutationsat high frequency using phosphorothioate-modified DNA"Nucl.Acids Res.13:8765-8787(1985)；Nakamaye(1986)"Inhibition of restriction endonuclease Nci Icleavage by phosphorothioate groups and its application to oligonucleotide-directedmutagenesis"Nucl.Acids Res.14:9679-9698；Sayers(1988)"Y-T Exonucleases inphosphorothioate-based oligonucleotide-directed mutagenesis"Nucl.Acids Res.16:791-802；和Sayers et al.(1988)"Strand specific cleavage ofphosphorothioate-containing DNA by reaction with restriction endonucleases in thepresence of ethidium bromide"Nucl.Acids Res.16:803-814)；应用缺口双链体DNA的诱变(Kramer et al.(1984)"The gapped duplex DNA approach tooligonucleotide-directed mutation construction"Nucl.Acids Res.12:9441-9456；Kramer&Fritz(1987)Methods in Enzymol."Oligonucleotide-directed construction ofmutations via gapped duplex DNA"154:350-367；Kramer(1988)"Improved enzymaticin vitro reactions in the gapped duplex DNA approach to oligonucleotide-directedconstruction of mutations"Nucl.Acids Res.16:7207；和Fritz(1988)"Oligonucleotide-directed construction of mutations:a gapped duplex DNA procedurewithout enzymatic reactions in vitro"Nucl.Acids Res.16:6987-6999)。

可以用于实施本发明的其它方案包括点错配修复(Kramer(1984)"PointMismatch Repair″Cell38:879-887)，应用修复-缺陷型宿主株的诱变(Carter et al.(1985)"Improved oligonucleotide site-directed mutagenesis using M13vectors"Nucl.Acids Res.13:4431-4443；和Carter(1987)"Improved oligonucleotide-directedmutagenesis using M13vectors"Methods in Enzymol.154:382-403)，缺失诱变(Eghtedarzadeh(1986)"Use of oligonucleotides to generate large deletions"Nucl.Acids Res.14:5115)，限制-选择和限制-纯化(Wells et al.(1986)"Importance ofhydrogen-bond formation in stabilizing the transition state of subtilisin"Phil.Trans.R.Soc.Lond.A317:415-423)，通过全基因合成的诱变(Nambiar et al.(1984)"Totalsynthesis and cloning of a gene coding for the ribonuclease S protein"Science223:1299-1301；Sakamar(1988)"Total synthesis and expression of a gene for the a-subunitof bovine rod outer segment guanine nucleotide-binding protein(transducin)"Nucl.Acids Res.14:6361-6372；Wells et al.(1985)"Cassette mutagenesis:an efficientmethod for generation of multiple mutations at defined sites"Gene34:315-323；和Grundstrom et al.(1985)"Oligonucleotide-directed mutagenesis by microscale`shot-gun`gene synthesis″Nucl.Acids Res.13:3305-3316)，双链断裂修复(Mandecki(1986)；Arnold(1993)"Protein engineering for unusual environments"Current Opinionin Biotechnology4:450-455."Oligonucleotide-directed double-strand break repair inplasmids of Escherichia coli:a method for site-specific mutagenesis"Proc.Natl.Acad.Sci.USA,83:7177-7181)。上述许多方法的其它细节可见于Methods in EnzymologyVolume154，它也描述了解决多种诱变方法的问题的有用策略。

可以用于实施本发明的方案描述于，例如，授予Stemmer的美国专利5,605,793(1997.2.25),"Methods for In Vitro Recombination；″；授予Stemmer等人的美国专利5,811,238(1998.9.22)"Methods for Generating Polynucleotides having DesiredCharacteristics by Iterative Selection and Recombination;"；授予Stemmer等人的美国专利5,830,721(1998.11.3),"DNA Mutagenesis by Random Fragmentation andReassembly；″；授予Stemmer等人的美国专利5,834,252(1998.11.10)"End-Complementary Polymerase Reaction；″，授予Minshull等人的美国专利5,837,458(1998.11.17),"Methods and Compositions for Cellular and MetabolicEngineering;"；WO95/22625,Stemmer and Crameri,"Mutagenesis by RandomFragmentation and Reassembly;"；WO96/33207，Stemmer and Lipschutz"EndComplementary Polymerase Chain Reaction;"；WO97/20078，Stemmer and Crameri"Methods for Generating Polynucleotides having Desired Characteristics by IterativeSelection and Recombination;"；WO97/35966，Minshull and Stemmer，"Methods andCompositions for Cellular and Metabolic Engineering；″；WO99/41402，Punnonen et al."Targeting of Genetic Vaccine Vectors；″WO99/41383,Punnonen et al."AntigenLibrary Immunization;"；WO99/41369，Punnonen et al."Genetic Vaccine VectorEngineering;"；WO99/41368，Punnonen et al."Optimization of ImmunomodulatoryProperties of Genetic Vaccines；″；EP752008，Stemmer and Crameri,"DNAMutagenesis by Random Fragmentation and Reassembly;"；EP0932670，Stemmer"Evolving Cellular DNA Uptake by Recursive Sequence Recombination；″；WO99/23107，Stemmer et al.,"Modification of Virus Tropism and Host Range by ViralGenome Shuffling;"；WO99/21979，Apt et al.,"Human Papillomavirus Vectors;"；WO98/31837，del Cardayre et al."Evolution of Whole Cells and Organisms byRecursive Sequence Recombination;"；WO98/27230，Patten and Stemmer,"Methodsand Compositions for Polypeptide Engineering;"；WO98/27230，Stemmer et al.,"Methods for Optimization of Gene Therapy by Recursive Sequence Shuffling andSelection,"；WO00/00632，"Methods for Generating Highly Diverse Libraries,"；WO00/09679，"Methods for Obtaining in Vitro Recombined Polynucleotide SequenceBanks and Resulting Sequences,"；WO98/42832，Arnold et al.,"Recombination ofPolynucleotide Sequences Using Random or Defined Primers,"；WO99/29902，Arnoldet al.,"Method for Creating Polynucleotide and Polypeptide Sequences,"；WO98/41653，Vind,"An in Vitro Method for Construction of a DNA Library，"；WO98/41622，Borchert et al.,"Method for Constructing a Library Using DNA Shuffling,"和WO98/42727，Pati and Zarling,"Sequence Alterations using HomologousRecombination."。

可以用于实施本发明的方案（提供了有关各种多样性产生方法的细节）描述于，例如，美国专利申请序列号(USSN)09/407,800，"SHUFFLING OF CODONALTERED GENES"，Patten et al.，1999年9月28日提交；"EVOLUTION OF WHOLECELLS AND ORGANISMS BY RECURSIVE SEQUENCE RECOMBINATION"，delCardayre et al.，美国专利号6,379,964；"OLIGONUCLEOTIDE MEDIATEDNUCLEIC ACID RECOMBINATION"，Crameri et al.，美国专利号6,319,714、6,368,861、6,376,246、6,423,542、6,426,224和PCT/US00/01203；"USE OFCODON-VARIED OLIGONUCLEOTIDE SYNTHESIS FOR SYNTHETICSHUFFLING"，Welch et al.，美国专利号6,436,675；"METHODS FOR MAKINGCHARACTER STRINGS,POLYNUCLEOTIDES&POLYPEPTIDES HAVINGDESIRED CHARACTERISTICS"，Selifonov et al.，2000年1月18日提交，(PCT/US00/01202)和例如"METHODS FOR MAKING CHARACTER STRINGS,POLYNUCLEOTIDES&POLYPEPTIDES HAVING DESIREDCHARACTERISTICS"，Selifonov et al.，2000年7月18日提交（美国序列号09/618,579）；"METHODS OF POPULATING DATA STRUCTURES FOR USE INEVOLUTIONARY SIMULATIONS"，Selifonov and Stemmer，2000年1月18日提交(PCT/US00/01138)；和"SINGLE-STRANDED NUCLEIC ACIDTEMPLATE-MEDIATED RECOMBINATION AND NUCLEIC ACID FRAGMENTISOLATION"，Affholter，2000年9月6日提交(美国序列号09/656,549)；和美国专利号6,177,263、6,153,410。

非随机或“定向进化”方法包括例如，基因位点饱和诱变（GSSM）、合成连接重装配（SLR）或它们的组合，用于修饰本发明核酸，产生参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽，所述多肽具有新的或改变的性质（例如，在高度酸性或碱性条件下、高温或低温下和类似条件下的活性）。在测试葡聚糖或其它多糖的水解活性或其它活性之前，可以对由修饰的核酸编码的多肽进行活性筛选。任何测定形式或方案都可以应用，例如，应用毛细管阵列平台。参见例如美国专利6,361,974、6,280,926、5,939,250。

基因位点饱和诱变(GSSM)

在一个方面，应用含有简并N,N,G/T序列的密码子引物将点突变引入多核苷酸，例如，本发明的核酸，以便产生一组子代多肽，其中在每一氨基酸位置上可表现出完全范围的单氨基酸取代，取代发生的位置例如将要被修饰的酶活性位点（催化结构域（CDs））或配体结合位点中的氨基酸残基。这些寡核苷酸可以包括相邻的第一同源序列，简并N,N,G/T序列，和任选地第二同源序列。由使用这些寡核苷酸而得到的下游子代翻译产物包含沿着多肽的每一氨基酸位点上的所有可能的氨基酸变化，这是由于N,N,G/T序列的简并性包括了所有20个氨基酸的密码子。在一个方面，一个这样的简并寡核苷酸（例如包括一个简并N,N,G/T序列盒）被用于使亲本多核苷酸模板中的每一原始密码子进行完全范围的密码子取代。另一方面，使用至少两个简并序列盒，或者在相同的寡核苷酸中或不同的寡核苷酸中，用于使亲本多核苷酸模板中的至少两个原始密码子进行完全范围的密码子取代。例如，一个寡核苷酸中可以包含多个N,N,G/T序列，以便在多于一个的位点上引入氨基酸突变。这些多个N,N,G/T序列可以直接相邻，或由一个或多个额外的核苷酸序列分隔开。另一方面，用于引入插入和删除的寡核苷酸可以单独使用，或者与含有N,N,G/T序列的密码子组合使用，以便引入氨基酸插入、删除和/或取代的任何排列或组合。

在一个方面，两个或更多个连续氨基酸位置的同时诱变是使用含有相邻N,N,G/T三联体的寡核苷酸进行的，即简并（N,N,G/T）_n序列。另一方面，使用与N,N,G/T序列相比具有较低简并性的简并序列盒。例如，在一些情况下可能期望（例如在寡核苷酸中）使用仅包括一个N的简并三联体序列，其中所述的N可以在三联体的第一第二或第三位置上。在三联体的剩余两个位置上，可以使用包括任意排列和组合的任何其它碱基。可以选择地，在一些情况下可能期望（例如在寡核苷酸中）使用简并N,N,N三联体序列。

在一个方面，使用简并三联体（例如N,N,G/T三联体）允许在多肽中的每一和每个氨基酸位置上系统且容易地产生完全范围的可能的自然氨基酸（总共20种氨基酸）（在可以选择的方面，这些方法也包括在每一氨基酸残基或密码子、位置产生低于所有可能种类的取代）。例如，对于100个氨基酸的多肽，可以产生2000个不同种类（即每个位置上的20种可能氨基酸×100个氨基酸位置）。通过使用含有简并N,N,G/T三联体的寡核苷酸或一组寡核苷酸，32种不同序列可编码所有20种可能的天然氨基酸。因此，在其中使用至少一种这样的寡核苷酸对亲本多核苷酸序列进行饱和诱变的反应容器中，产生了编码20种不同多肽的32种不同的子代多核苷酸。相反，在定点诱变中使用非简并寡核苷酸在每个反应容器中仅仅导致一种子代多肽。非简并寡核苷酸可以任选地与所公开的简并引物组合使用；例如，非简并寡核苷酸可以被用于在工作多核苷酸中产生特异性点突变。这提供了产生特定沉默点突变、导致相应的氨基酸变化的点突变、以及导致产生终止密码子和多肽片段的相应表达的手段。

在一个方面，每一饱和诱变反应容器含有编码至少20种子代多肽（例如，参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的本发明多肽）分子的多核苷酸，这样所有的20种天然氨基酸都会出现在对应于亲本多聚核苷酸中被诱变的密码子位置的特定氨基酸位置（其它的例子使用了少于20个的天然组合）。从每一饱和诱变反应容器产生的32倍简并的子代多肽可以被克隆扩增（例如使用表达载体克隆到合适的宿主中，例如大肠杆菌宿主中），并进行表达的筛选。当通过筛选鉴定出显示有利的性质变化（与亲本多肽比较时，在酸性或碱性条件下例如葡聚糖水解活性增加）的单个子代多肽时，可以对其测序以便确定其中含有的相应的有利的氨基酸取代。

在一个方面，如本文所公开的，应用饱和诱变对亲本多肽的各个和所有的氨基酸位置进行诱变，可以确定出的有利的氨基酸变化可以在超过一个的氨基酸位置。可以产生一个或多个新的子代分子，其含有所有或部分这些有利的氨基酸取代的组合。例如，如果在多肽的3个氨基酸位置的每一个氨基酸位置处鉴定出2个特异性有利的氨基酸变化，那么出现的排列就包括每一位置上的3种可能性（与原始氨基酸没有变化的可能性，以及两个有利变化中的每一个的可能性）和3个位置。因此，总共有3×3×3或27种可能性，其中包括了先前被检验的7种可能性，即6个单点突变（即三个位置的每一个位置有2个）和在任何位置上没有变化的点突变。

在又一方面，位点饱和诱变可以和重排、嵌合、重组和其它诱变程序以及筛选联合应用。本发明提供了以反复方式应用任何的诱变程序，包括饱和诱变。在一个示例中，任何诱变程序的反复应用与筛选联合使用。

本发明也提供了应用专有的密码子引物（含有简并N,N,N序列）将点突变引入多核苷酸，以便产生一套子代多肽，其中在每一氨基酸位置都表现出完整范围的单个氨基酸替换（基因位点饱和诱变^TM(GSSM^TM)）。应用的寡聚物包括邻接的第一同源序列、简并N,N,N序列，以及在一个方面有但不是必需的第二同源序列。应用这种寡核苷酸得到的下游子代翻译产物包括沿着多肽的每一氨基酸位点的所有可能的氨基酸变化，因为N,N,N序列的简并包括所有20种氨基酸的密码子。

在一个方面，一个这样的简并寡聚物（由一个简并N,N,N序列盒组成）用于使亲本核苷酸模板中的各个原先的密码子发生完整范围的密码子替换。在另一方面，应用至少两个简并N,N,N序列盒——或是在同一寡聚物中或者不是，用于使亲本核苷酸模板中的至少两个原先的密码子发生完整范围的密码子替换。因此，一种以上的N,N,N序列可以包含在一个寡聚物中，以便在一个以上的位点引入氨基酸突变。这样的多个N,N，N序列可以直接相邻或者被一个或多个另外的核苷酸序列隔开。在另一方面，用于引入添加和缺失的寡聚物可以单独使用或与含有N,N,N序列的密码子联合使用，以便引入氨基酸添加、缺失和/或取代的任何组合或排列。

在一个特定方面，用含有相邻N,N,N三联体，即简并(N,N,N)n序列的寡核苷酸，可能对两个或更多个相邻氨基酸位点进行同时诱变。

在另一方面，本发明提供了比N,N,N序列的简并度低的简并序列盒的应用。例如，在一些情况下，可能需要应用（例如在一个寡聚物中）包括仅一个N的简并三联体序列，其中所述N可以在三联体的前两个位置或第三位置。在三联体的剩余两个位置可以应用包括其任何组合及排列的任何其它碱基。可选地，在某些情况下，可能需要应用（例如在一个寡聚物中）简并N,N,N三联体序列、N,N,G/T或N,N,G/C三联体序列。

然而，应该理解，如本发明公开的简并三联体（如N,N,G/T或N,N,G/C三联体序列）的应用是有优势的，原因有几个。在一个方面，本发明提供了系统性地和非常容易地在多肽的各个和所有氨基酸位置中产生完整范围的可能氨基酸（总共20个氨基酸）替代的手段。因此，对于100个氨基酸的多肽，本发明提供了系统性地和非常容易地产生2000个不同种类（即，每一位点20个可能的氨基酸乘以100个氨基酸位点）的方法。应该理解，通过应用含有简并N,N,G/T或N,N,G/C三联体序列的寡聚物，提供了编码20个可能的氨基酸的32个单独的序列。因此，在应用一种这样的寡聚物进行亲本多核苷酸序列的饱和诱变的反应容器中，产生了存在编码20种不同多肽的32种不同子代多核苷酸。与之对照，在定点诱变中，应用非简并寡聚物在每个反应容器中仅生成一种子代多肽产物。

本发明也提供了非简并寡核苷酸的应用，其可以任选地与所公开的简并引物联合应用。应该理解，在一些情况下，应用非简并寡核苷酸在工作多核苷酸中产生特定点突变是有优势的。这提供了产生特定沉默点突变、导致相应氨基酸改变的点突变、和引起产生终止密码子和相应的多肽片段表达的点突变的手段。

因此，在本发明的一个方面，每一饱和诱变反应容器含有编码至少20种子代多肽分子的多核苷酸，因而在相应于亲本多核苷酸中被诱变的密码子位置的特定氨基酸位点出现所有20种氨基酸。产生自每一饱和诱变反应容器的32倍简并的子代多肽可以进行克隆扩增（例如，应用表达载体，克隆入合适的大肠杆菌宿主）和进行表达筛选。当通过筛选确定显示有利的性质变化（与亲本多肽比较）的单个子代多肽时，可以对其测序以便确定其中含有的相应的有利的氨基酸取代。

应该理解，如本文所公开，应用饱和诱变来诱变亲本多肽的各个和所有的氨基酸位置进行诱变，可以在超过一个的氨基酸位置确定出的有利的氨基酸变化。可以产生含有全部或部分这些有利氨基酸替代的组合的一种或多种新的子代分子。例如，如果在多肽的三个氨基酸位置的每一个位置确定出2个特定的有利的氨基酸变化，这样出现的排列就包括在每一个位置的3种可能性（与原来的氨基酸没有变化，和两个有利变化中的每一个）和3个位置。这样，就有3×3×3或者27种总的可能性，包括先前检查出的7种——6种单点突变（即，在三个位置的每一个有2个）和在任何位置中都没有变化的1种。

因此，在一个非限制性例子中，本发明提供了应用饱和诱变与其它诱变方法的组合，例如将两个或更多个相关多核苷酸引入合适宿主细胞的方法，从而通过重组和还原性重配（reductive reassortment）产生杂合多核苷酸。

除了沿着整个基因序列进行突变，本发明提供了，可以用诱变来替换多核苷酸序列中的任意数目的碱基中的每一个，其中在一个方面，待诱变的碱基数目从15至100,000中的每一整数。因此，不是对分子中的每一位置进行诱变，可以对每一数目或不连续数目的碱基（在一个方面，子集总数是从15至100,000）进行诱变。在一个方面，应用分离的核苷酸沿多核苷酸序列诱变每一位点或一组位点。待诱变的一组3个位点可以是密码子。可以用诱变引物引入突变，所述诱变引物含有异源序列盒，也称作诱变盒。示范性序列盒可以有1至500个碱基。这种异源序列盒中的每一核苷酸位点是N、A、C、G、T、A/C、A/G、A/T、C/G、C/T、G/T、C/G/T、A/G/T、A/C/T、A/C/G或E，其中E是A、C、G和T之外的任意碱基（E可以称作设计者寡聚物（designer oligo））。

一般而言，饱和诱变包括在限定的待诱变多核苷酸序列（其中在一个方面，待诱变的长度是约15至100,000个碱基）中诱变一整套诱变序列盒（其中在一个方面，每一序列盒的长度是约1-500个碱基）。因此，将一组突变（范围从1至100个突变）引入待诱变的每一序列盒中。在应用一轮饱和诱变期间，待引入一个序列盒的一组突变与待引入第二序列盒的第二组突变可以是不同的或是相同的。这样的分组的例子是缺失、添加、特定密码子的分组和特定核苷酸序列盒的分组。

限定的待诱变序列包括整个基因、通路、cDNA、整个开放阅读框（ORF）和整个启动子、增强子、阻遏物/反式激活物、复制起点、内含子、操纵子或任何多核苷酸功能组。一般而言，用于此目的的“限定序列”可以是15个碱基的多核苷酸序列，和长度是15个碱基至15,000个碱基之间的多核苷酸序列中的任何多核苷酸（本发明特别指定其间的每一整数）。在选择密码子组时的考虑包括由简并诱变序列盒编码的氨基酸类型。

在一个示例中，可以将一组突变引入诱变序列盒，本发明特别提供了在每个位点上编码2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20个氨基酸的简并密码子取代（应用简并寡聚物）和由此编码的多肽文库。

合成连接重装配(SLR）

本发明提供了非随机的基因修饰系统，称作“合成连接重装配”或简单称作“SLR”，这是一种“定向进化方法”，可以产生具有新的或改变的特性的多肽，例如，本发明的酶。

SLR是将寡核苷酸片段非随机地连接在一起的一种方法。该方法与随机寡核苷酸重排不同的地方在于，核酸构件（building blocks）没有被随意地重排、连接或嵌合，而是被非随机地装配。例如参见美国专利申请序列号（USSN）09/332,835，题目为“Synthetic Ligation Reassembly in Directed Evolution”，于1999年6月14日提交（“USSN09/332,835”）。一方面，SLR包括下述步骤：（a）提供模板多核苷酸，其中模板多核苷酸包含编码同源基因的序列；（b）提供多个构件多核苷酸，其中这些构件多核苷酸被设计成可在预定的序列处与模板多核苷酸交换重装配（cross-over reassemble），所述构件多核苷酸包含作为同源基因变体的序列和与变体序列两侧的模板多核苷酸同源的序列；（c）将构件多核苷酸与模板多核苷酸组合在一起，以便构件多核苷酸与模板多核苷酸交换重装配，以产生包含同源基因序列变异体的多核苷酸。

SLR不依赖于将被重新排列的多核苷酸之间存在高度同源性。因此，该方法可以被用于非随机地产生包括超过10¹⁰⁰个不同嵌合体的子代分子的文库（或集合）。SLR可以被用于产生包括超过10¹⁰⁰⁰个不同子代嵌合体的文库。因此，本发明的一些方面包括产生一组最终嵌合的核酸分子的非随机方法，所述最终嵌合的核酸分子具有按设计所选择的整个装配次序。该方法包括按设计产生多个特定核酸构件的步骤，以及装配这些核酸构件的步骤，这样可获得依设计而定的整个装配次序，所述的多个特定核酸构件具有可被应用的互相相容的可连接末端。

将被装配的核酸构件的互相相容的可连接末端被认为对于这种类型的有序装配是“有用的”，如果它们能使这些构件以预定次序结合。因此，核酸构件可以被偶联的整个装配次序是由可连接末端的设计来确定。如果使用多于一个的装配步骤，那么核酸构件可被偶联的总装配次序也由装配步骤的连续次序来确定。一方面，用酶例如连接酶（例如T4DNA连接酶）处理退火的结构片段，以实现结构片段的共价结合。

在一个方面，寡核苷酸构件的设计通过分析一组祖先核酸序列模板来获得，所述祖先核酸模板作为产生最终嵌合的多核苷酸的子代集合的基础。这些亲本寡核苷酸模板因此作为序列信息的来源，它们在将被诱变例如被嵌合或重排的核酸构件的设计中有用。在该方法的一个方面，多个亲本核酸模板的序列被联配，以便选择一个或多个分界点。这些分界点可以位于同源区域，由一个或多个核苷酸构成。这些分界点在一个方面是由至少两个祖先模板共享。从而这些分界点可以被用于描绘将要产生的寡核苷酸构件的边界，以便重排列亲本多核苷酸。在祖先分子中鉴定和选择的分界点作为最终嵌合的子代分子的装配中的潜在嵌合点。分界点可以是由至少两个亲本多核苷酸序列分享的同源区域（包括至少一个同源性核苷酸碱基）。可以选择地，分界点可以是由至少一半的亲本多核苷酸序列分享的同源区域，或者可以是由至少三分之二的亲本多核苷酸序列分享的同源区域。甚至在一个方面，有用的分界点是由至少四分之三的亲本多核苷酸序列分享的同源区域，或者可以是由几乎所有的亲本多核苷酸序列分享的同源区域。在一个方面，分界点是由所有亲本多核苷酸序列分享的同源区域。

在一个方面，连接再装配过程被彻底地进行，以便产生含有尽量可能多的子代嵌合多核苷酸的文库。换句话说，核酸构件的所有可能的有序组合都呈现在最终嵌合的核酸分子集合中。同时，在另一个方面，在每一组合中的装配次序（即各个最终嵌合核酸的5’到3序列中每一构件的装配次序）是如上所述地遵循预先的设计（或非随机地）。由于本发明的非随机特性，大大地降低了不需要的副产品的可能性。

在另一方面，连接再装配方法被系统地进行。例如，实施该方法，以便产生子代分子的系统区分化的文库，该文库分成能被系统地筛选的数个部分，例如可以逐个地筛选。换句话说，通过选择性的和审慎的应用特定的核酸构件，再加上选择性的和审慎的应用连续的分步骤的装配反应，本发明使得这样一种设计可以实现，即可以在各个反应容器中制备出各自特定的一系列子代产物。这样的设计允许进行系统的检查和筛选。因此，这些方法允许很可能非常大量的子代分子以更小的组被系统地检查。由于其具有以高度变通而又彻底和系统的方式进行嵌合化反应的能力，尤其是当祖先分子之间具有低水平的同源性时，这些方法可以产生包含大量子代分子的文库（或集合）。由于本发明的连接再装配的非随机特性，所产生的子代分子在一个方面包含有最终嵌合核酸分子的文库，这些核酸分子具有按设计而选择的总装配次序。饱和诱变和优化的定向进化方法也可以被用于产生不同的子代分子种类。应该意识到，本发明在分界点的选择、核酸构件的大小和数量以及偶联的大小和设计方面提供了选择的自由度和可控制性。进一步，应该意识到，就本发明的可操作性而言，对分子间同源性的要求大大地放宽了。事实上，甚至可以在有很少的分子间同源性或没有分子间同源性的区域内选择分界点。例如，由于密码子的摆动，即密码子的简并性，可以将核苷酸取代引入核酸构件，同时又不会改变在相应的祖先模板中最初编码的氨基酸。可以选择地，可以改变密码子，从而改变对原始氨基酸的编码。在本发明中，这样的取代可以被引入到核酸构件中，以便增加分子间同源分界点的发生率，从而使得在构件之间可获得的偶联的数量增加，而这又允许产生更多数量的子代嵌合分子。

在一个方面，本发明提供了称作合成基因重装配的非随机方法，该方法与随机重排有些关联，除了核酸构件不被随机重排、连接或嵌合，而是被非随机装配。

合成基因重装配方法不取决于在待重排的多核苷酸之间存在高水平的同源性。可以应用本方法非随机产生包括超过10¹⁰⁰个不同的嵌合体的子代分子文库（或集合）。令人信服地，甚至可以用合成基因重装配产生包括超过10¹⁰⁰⁰个不同子代嵌合体的文库。

因此，在一个方面，本发明提供了产生一套最终的具有按设计所选择的整个装配顺序的嵌合核酸分子的非随机方法，该方法包括按设计产生多个特异性核酸构件的步骤，以及装配这些核酸构件的步骤，这样可获得依设计而定的整个装配顺序，所述的多个特异性核酸构件具有可被应用的互相相容的可连接末端。

将被装配的核酸构件的互相相容的可连接末端被认为对于这种类型的有序装配是“有用的”，如果它们能使这些构件以预定顺序结合。因此，一个方面，核酸构件可以被偶联的整个装配顺序是由可连接末端的设计来确定。如果使用多于一个的装配步骤，那么核酸构件可被偶联的总装配顺序也由装配步骤的连续顺序来确定。一方面，用酶例如连接酶（例如T4DNA连接酶）处理退火的结构片段，以实现结构片段的共价结合。

在另一方面，核酸构件的设计通过分析一组祖先核酸序列模板来获得，所述祖先核酸模板作为产生最终嵌合的多核苷酸的子代集合的基础。这些亲本寡核苷酸模板因此作为序列信息的来源，它们在将被诱变例如被嵌合或重排的核酸构件的设计中有用。

在一个示例中，本发明提供了一个家族的相关基因的嵌合和它们编码的相关产物家族。在一个特定例子中，编码产物是酶。根据本文所述方法可以对本发明的多肽进行诱变。

因此，根据本发明的一个方面，对多个亲本核酸模板序列（例如，本发明的多核苷酸）进行联配，为的是选择一个或多个分界点。这些分界点可以位于同源区域。可以用分界点描绘待产生的寡核苷酸构件的边界。因此，祖先分子中被鉴定和选择的分界点作为子代分子装配中的潜在嵌合点。

典型地，有用的分界点是至少两个祖先模板共享的同源区域（包括至少一个同源核苷酸碱基），但分界点可以是由至少一半祖先模板、至少2/3祖先模板、至少3/4祖先模板、在一个方面是由几乎所有祖先模板共享的同源区域。甚至在一个方面，有用的分界点是由所有祖先模板共享的同源区域。

在一个方面，基因重装配过程被穷尽地进行，以便产生穷尽的文库。换言之，核酸构件的所有可能的有序组合都呈现在最终嵌合的核酸分子集合中。同时，另一方面，在每一组合中的装配顺序（即各个最终嵌合核酸的5’到3序列中每一构件的装配顺序）是通过设计（或非随机地）产生的。由于本方法的非随机特性，大大地降低了不需要的副产品的可能性。

在另一方面，本发明提供了，基因重装配方法被系统性实施，例如，以便产生系统区分化的文库，该文库具有能被系统地筛选的数个部分，例如可以逐个地筛选。换言之，本发明提供了，通过选择性的和审慎的应用特定的核酸构件，再加上选择性的和审慎的应用连续的分步骤的装配反应，这样的试验设计可以实现，其中，可以在各个反应容器中制备出特定的子代产物集合。这允许进行系统的检查和筛选过程。因此，这些方法允许很可能非常大量的子代分子以更小的组被系统性检测。

由于其具有以高度变通而又彻底和系统的方式进行嵌合化反应的能力，尤其是当祖先分子之间具有低水平的同源性时，本发明提供了产生包含大量子代分子的文库（或集合）。由于本发明的基因再装配的非随机特性，在一个方面，生成的子代分子包括具有由设计选择的所有装配顺序的最终嵌合核酸分子的文库。在一个特定的方面，如此生成的文库包括10³以上至10¹⁰⁰⁰以上个不同的子代分子种类。

在一个方面，如上产生的一组最终的嵌合核酸包括编码多肽的多核苷酸。根据一个方面，此多核苷酸是基因，其可以是人造基因。根据另一方面，多核苷酸是基因通路（gene pathway），其可以是人造基因通路。本发明提供了，可以将本发明产生的一个或多个人造基因整合入人造基因通路，例如在真核生物（包括植物）中起作用的通路。

在另一例子中，产生构件的步骤的合成性质使得能够设计和引入核苷酸（例如，一个或多个核苷酸，其可以是，例如，密码子或内含子或调节序列），所述核苷酸随后可以在体外方法中（例如，通过诱变）或体内方法中（例如，通过应用宿主生物的基因剪接能力）被任选地去除。应该理解，在许多情况下，除了产生有用分界点的潜在益处之外，还有许多其它的原因导致需要导入这些核苷酸。

因此，根据另一方面，本发明提供了，可以用核酸构件引入内含子。因此，本发明提供了，可以将功能性内含子引入本发明的人造基因。本发明也提供了，可以将功能性内含子引入本发明的人造基因通路。因此，本发明提供用来产生作为含有一个（或多个）人工引入的内含子的人造基因的嵌合多核苷酸。

因此，本发明也提供用来产生作为含有一个（或多个）人工引入的内含子的人造基因通路的嵌合多核苷酸。在一个方面，人工引入的内含子能够以天然发生的内含子在基因剪接中发挥作用的方式在一种或多种宿主细胞的基因剪接中发挥作用。本发明提供了产生含人造内含子的多核苷酸的方法，所述多核苷酸被引入宿主生物体中进行重组和/或剪接。

用本发明产生的人造基因也可以作为与另一核酸重组的底物。同样，用本发明产生的人造基因通路可以作为与另一核酸重组的底物。在一个方面，重组可借助于或发生于人造的含内含子基因和作为重组伴侣的核酸之间的同源区域。在一个方面，重组伴侣也可以是本发明产生的核酸，包括人造基因或人造基因通路。重组可借助于或发生于人造基因的一个（或多个）人工引入的内含子处的同源区域。

本发明的合成基因重装配方法利用多个核酸构件，在一个方面，每一核酸构件具有两个可连接末端。每一核酸构件中的两个可连接端可以是平末端（即，每一端具有0个核苷酸的突出端），或者在一个方面，是一个平末端和一个粘末端，或者在又一方面是两个粘末端。

用于本目的的有用的粘末端可以是3’粘末端或5’粘末端。因此，核酸构件可以具有3’粘末端或可选地5’粘末端，或可选地两个3’粘末端或可选地两个5’粘末端。核酸构件被装配成最终嵌合核酸分子的整个顺序是通过有目的的试验设计来确定的，而不是随机的。

在一个方面，核酸构件是通过两条单链核酸（也称作单链寡聚物）的化学合成，和使它们接触，以使它们退火形成双链核酸构件产生的。

双链核酸构件可以是各种大小的。这些构件的大小可以小或大。构件的示范性大小的范围是从1个碱基对（不包括任何突出端）至100,000个碱基对（不包括任何突出端）。也提供其它示范性大小范围，其具有从1bp至10,000bp（包括其间的每一整数值）的下限和从2bp至100,000bp（包括其间的每一整数值）的上限。

存在许多方法，通过所述方法，可以产生对本发明有用的双链核酸构件；这些方法是本领域已知的，技术人员可以容易地实施这些方法。

根据一个方面，通过首先产生两条单链核酸和使它们退火形成双链核酸构件，产生双链核酸构件。双链核酸构件的两条链可以在除形成突出端的核苷酸之外的每一核苷酸处互补；因而在除任何突出端之外不含有错配。根据另一方面，双链核酸构件的两条链并非在除形成突出端的核苷酸之外的每一核苷酸处都互补。因此，根据本方面，可以用双链核酸构件引入密码子简并。在一个方面，用本文所述的位点饱和诱变引入密码子简并，其中使用一个或多个N,N,G/T序列盒或可选地应用一个或多个N,N,N序列盒。

本发明的体内重组方法可以在特定多核苷酸或序列的未知杂合体或等位基因构成的库上盲法进行。然而，不一定需要知道所述特定多核苷酸的具体DNA或RNA序列。

在一组混合的基因中应用重组的方法可用于产生任何有用的蛋白质，例如，白介素I、抗体、tPA和生长激素。可以用本方法产生具有改变的特异性或活性的蛋白质。也可以用本方法产生杂合核酸序列，例如，启动子区、内含子、外显子、增强子序列、基因的3’非翻译区或5’非翻译区。因此，可以用本方法产生具有更高表达率的基因。本方法在研究重复DNA序列中也有用处。最后，本方法也用于突变核酶或适体。

在一个方面，本文所述的本发明涉及应用重复循环的还原性重配、重组和选择，这使得高度复杂的线性序列如DNA、RNA或蛋白质可以通过重组进行定向分子进化。

优化的定向进化系统

本发明提供了称作“优化的定向进化系统”的非随机基因修饰系统，产生具有新性质或改变性质的多肽，例如，本发明的酶或抗体。优化的定向进化系统涉及还原性重配（reductive reassortment）、重组和选择的重复循环应用，其使得可以通过重组实现核酸的定向分子进化。优化的定向进化允许产生大量的进化的嵌合序列，其中产生的群体显著地富集了具有预定数目遗传交换事件（crossover events）的序列。

交换事件是嵌合序列中的一个点，在这里，发生从一个亲本变体到另一个亲本变体的序列转换。这样的点一般在来自两个亲本的寡核苷酸连接在一起形成单个序列的连接处。这一方法允许计算寡核苷酸序列的正确浓度，这样，序列的最终嵌合群体富集了所选择数目的遗传交换事件。这提供了对选择具有预定数目的遗传交换事件的嵌合变体的更多控制。

此外，这一方法与其他系统相比，提供了一种用于探究巨大数量的可能的蛋白变体空间的方便手段。以前，例如，如果在反应中产生了10¹³个嵌合分子，测试这样大数目的嵌合突变体的特定活性将会非常困难。此外，子代群体的相当部分将具有很高数目的遗传交换事件，其中得到的蛋白不大可能具有增高水平的特定活性。通过应用这些方法，嵌合分子的群体可以富集那些含有特定数目的遗传交换事件的变体。因此，尽管在反应中可以仍然产生10¹³个嵌合分子，但是所选择的用于进一步分析的每一个分子很可能具有，例如，仅仅三个交换事件。因为得到的子代群体可以偏向于具有预定数目的交换事件，所以嵌合分子之间的功能多样性的界线减少。当计算出来自最初的亲本多核苷酸中的哪一个可能影响到特定的性质时，这时便提供了更加可控制的变量。

产生嵌合子代多核苷酸的一个方法是产生相应于每一亲本序列的片段或部分的寡核苷酸。在一个方面，每一寡核苷酸包括独特的重叠区域，这样把所述寡核苷酸混合在一起，得到具有以正确顺序装配的每一寡核苷酸片段的新的变体。其它信息也可以见于，例如，USSN09/332,835；美国专利6,361,974。

对应于每一亲本变体产生的寡核苷酸的数目与最终产生的嵌合分子中得到的交换总数有关联。例如，为了发现具有如在高温下的更高活性的嵌合变体，可以提供三个亲本核苷酸序列变体来进行连接反应。作为一个例子，相应于每一亲本变体的每一部分，可以产生一套50个寡核苷酸序列。因此，在连接重装配过程中，在每一嵌合序列中会有多达50个交换事件。产生的每一个嵌合多核苷酸都以交替的顺序含有来自各个亲本变体的寡核苷酸的可能性很低。如果每一寡核苷酸片段在连接反应中以相同的摩尔量存在，有可能在一些位置中来自同一亲本多核苷酸的寡核苷酸将相互一个个连接，而不导致交换事件。在本例子的任何连接步骤中，如果来自每一亲本的每一寡核苷酸的浓度保持不变，则存在1/3这样的机率（假设3个亲本）：来自同一个亲本变体的寡核苷酸将在嵌合序列内连接，而不产生交换。

相应的，可以确定概率密度函数（PDF），以预测在一个连接反应的每一步中可能发生的交换事件的总数，其中给定了一套确定数目的亲本变体、对应于每种变体的寡核苷酸数目、以及在连接反应中的每个步骤中的每种变体的浓度。在确定PDF中应用到的统计学和数学在下面被描述。通过应用这些方法，可以计算这样的概率密度函数，而且这样就富集了来源于特定连接反应的具有预定数目的交换事件的嵌合子代群体。此外，可以预先确定交换事件的目标数目，然后对该系统进行程序化，以计算在该连接反应的每一个步骤中，每种亲本寡核苷酸的起始量，从而得到以交换事件的预先确定的数目为中心的概率密度函数。这些方法涉及还原性重配、重组和选择的重复循环应用，通过重组实现编码多肽的核酸的定向分子进化。该系统允许产生大量的进化出的嵌合序列，其中产生的群体显著地富集了具有预定数目交换事件的序列。交换事件是在嵌合序列中的一个点，在这里，发生从一个亲本变体到另一个亲本变体的序列转换。这样的点一般在来自两个亲本的寡核苷酸连接在一起形成单个序列的连接处。这一方法允许计算寡核苷酸序列的正确浓度，这样，序列的最终嵌合群体富集了所选择数目的交换事件。这也提供了对选择具有预定数目的交换事件的嵌合突变体的更多控制。

此外，这些方法与其他系统相比，提供了一种用于探究大数量的可能蛋白变体空间的方便手段。通过应用在这里描述的方法，嵌合分子的群体可以富集那些含有特定数目的交换事件的变体。因此，尽管在反应中可以仍然产生10¹³个嵌合分子，但是所选择的用于进一步分析的每一个分子很可能具有，例如，仅仅三个遗传学交换事件。因为得到的子代群体可以倾向于具有预定数目的交换事件，所以嵌合分子之间的功能多样性的界线减少。当计算出来自最初的亲本多核苷酸中的哪一个可能影响到特定的性质时，这时便提供了更加可控制数量的变量。

在一个方面，该方法通过产生对应于每一个亲本序列的片段或者部分的寡核苷酸，产生嵌合子代多核苷酸序列。每一个寡核苷酸优选地包括重叠的独特区域，这样把所述寡核苷酸混合一起，得到具有以正确顺序装配的每一寡核苷酸片段的新的变体。也可参见USSN09/332,835。

测定交换事件

本发明的方面包括系统和软件，它们接受所需的交换的概率密度函数（PDF）、待重装配的亲本基因的数目以及重装配的片段数目作为输入量。该程序输出“片段PDF”，它可以用于确定用于获得重新装配的基因和那些基因的估计的交换PDF的具体方法。在一个方面，于此说明的过程优选地在MATLAB^TM（The Mathworks,Natick,Massachusetts）中进行，MATLAB^TM是一种用于技术计算的程序语言和开发环境。

迭代过程(iterative process）

在实施本发明中，这些方法可以迭代反复。例如，对负责改变表型或新表型的核酸(或所述核酸)进行鉴定，重新分离(例如，应用本发明的核酸),再修饰，再检测活性。本方法可以反复重复，直至改造得到所需的表型。例如，整个生物化学的合成代谢或者分解代谢途径可以设计入细胞中，包括，例如，新的或改变的生物合成或(例如叶绿素)降解途径。

相似地，如果确定了特定的寡核苷酸对于所有所需的性质（如，新的或改变的生物合成或(例如叶绿素)降解途径表型）没有影响，那么就可以通过合成包括待去除的这段序列在内的更大的亲本寡核苷酸，从而将作为变量的这段序列去除。由于将这段序列合并到更大的序列中，可以避免任何交换事件，所以在子代多核苷酸中，这一序列不再有任何变异。确定哪些寡核苷酸与所需的性质最有关系，以及哪些与所需的性质无关的重复实践，可以更有效地探寻可能提供特定性质或者活性的所有可能的蛋白变体。

体内重排

分子的体内重排用于本发明方法中，提供本发明多肽的变体，例如，抗体，酶和类似物。体内重排可以利用细胞重组多聚体的天然特性来进行。尽管体内的重组提供了实现分子多样性的主要的天然途径，遗传重组仍然是一种相对复杂的过程，其涉及1）同源性识别；2）链切割，链侵入，和导致产生重组交叉（recombinationchiasma）的代谢步骤；和最后3）交叉消除(resolution)至分离的重组分子。交叉的形成需要同源序列的识别。

在另一方面，本方面包括从至少一个第一多核苷酸和第二多核苷酸产生杂合多核苷酸的方法。本发明可以用于通过将共享具有部分序列同源性的至少一个区域的至少第一多核苷酸和第二多核苷酸（例如，SEQ ID NOS:1,3,5,7,9,11,13,15,17,19和它们的组合）引入到合适的宿主细胞中而产生杂合多核苷酸。具有部分序列同源性的区域促进导致产生杂合多核苷酸的序列改组的过程。如本文所用，术语“杂合多核苷酸”是由本发明的方法产生的任何核苷酸序列，含有来自至少两个最初多核苷酸序列的序列。这样的杂合多核苷酸可以源自分子间重组事件，分子间重组事件促进了DNA分子间的序列整合。另外，这样的杂合多核苷酸可以源自分子内还原性重配过程，分子内还原性重配过程利用重复序列来改变DNA分子中的核苷酸序列。

体内重配着眼于“分子间”过程，它们可以统称为“重组”，在细菌中，重组一般被视为“RecA依赖性”现象。本发明可以依赖宿主细胞的重组过程来重新组合和重配序列，或利用细胞介导还原性过程的能力，通过缺失来降低细胞中准重复序列的复杂性。“还原性重配”的过程通过“分子内”RecA依赖性过程发生。

因此，在本发明的另一方面，可以通过还原性重配方法产生新的多核苷酸。本方法涉及产生含连续序列（原始编码序列）的构建物、将它们插入合适的载体，随后将它们引入合适的宿主细胞中。各个分子本体的重配通过具有同源性区域的构建物中的连续序列之间或准重复单元之间的组合过程发生。重配过程重组和/或降低了重复序列的复杂性和范围，并且引起产生新的分子种类。可以应用多种处理提高重配率。这些可以包括用紫外光或DNA损伤化学剂进行处理，和/或应用表现出增加水平的“遗传不稳定性”的宿主细胞系。因此，重配过程可以包括同源重组或准重复序列的天然性质来引导它们自身的进化。

重复的或“准重复的”序列在遗传不稳定性方面起作用。在本发明中，“准重复”是不限制它们的原始单元结构的重复。准重复单元可以在构建物中以序列的排列出现；以相似序列的连续单元出现。一旦被连接，连续序列之间的接点变得基本上看不出来，得到的构建物的准重复性质在分子水平现在是连续的。细胞在准重复序列之间进行缺失过程，降低了得到构建物的复杂性。准重复单元提供了一个实践上没有限制的模板库，滑动事件（slippage events）可以在模板上发生。因此，含有准重复的构建物有效提供了足够的分子弹性，缺失（和潜在的插入）事件实质上可以在准重复单元中的任意处发生。

当准重复序列全部以相同方向连接时，例如头对尾或相反，细胞不能区分各个单元。因此，还原过程可以在整个序列中发生。与之对照，当例如，所述单元表现为头对头而不是头对尾时，相邻单元的头尾倒置，从而缺失的形成有助于不连续单元的丢失。因此，本发明方法优选的是序列处于相同的方向。准重复序列的随机定向会引起重配效率的损失，而序列的一致定向会提供最高的效率。然而，虽然具有较少的相同定向的连续序列会降低效率，但是仍然可以为新型分子的有效回收提供足够的弹性。用相同定向以允许更高效率的准重复序列制备构建物。

可以用多种方法中的任意方法，以头对尾方向装配序列，包括下列方法：

a)可以应用包括聚A头和聚T尾的引物，当制备为单链时，所述引物会提供定向。这通过由RNA制备的引物的头几个碱基来完成，并且因而用RNaseH可以容易地去除RNA。

b)可以应用包括独特限制性切割位点的引物。这需要多重位点、一组独特序列和重复合成和连接步骤。

c)引物的内部几个碱基将被硫醇化，并且应用核酸外切酶产生合适的具有尾巴的分子。

重配序列的回收依赖于对具有下降的重复指数（RI）的克隆载体的确定。重配的编码序列随后可以通过扩增回收。产物被重新克隆和表达。具有降低RI的克隆载体的回收可以这样被完成：

1）应用仅在构建体复杂性降低时才能稳定地维持的载体。

2)通过物理方法物理性回收缩短的载体。在这种情况下，克隆载体将应用标准的质粒分离过程进行回收，或者在具有低分子量截留的的琼脂糖凝胶上或者柱子上应用标准过程进行大小分离。

3)插入片段大小降低时，对含有可以选择的断裂基因的载体进行回收。

4)应用表达载体和适当的选择，使用定向选择技术。

相关生物体的编码序列（例如，基因）可以表现出高度的同源性和编码相当多样的蛋白质产物。这些类型的序列在本发明中作为准重复序列特别有用。然而，虽然下文阐述的例子说明了几乎相同原始编码序列（准重复）的重配，这一过程不限于这种几乎相同的重复。

下面的例子说明了本发明的一个方法。描述了来自三种（3）独特物种的编码核酸序列（准重复）。每一序列编码具有一组不同的特性的一种蛋白质。这些序列的每一个在序列的独特位置处的一个碱基对或几个碱基对上有差异。准重复序列被分别或共同扩增，并且被连接到随机装配物中，从而在连接分子群体中可以得到所有可能的排列和组合。准重复单元的数目可以由装配条件来控制。构建体中准重复单元的平均数目被定义为重复指数（RI）。

一旦构建体形成，可以根据公开方案在琼脂糖凝胶上进行大小分级分离，也可以不分离，将构建体插入克隆载体和转染入合适的宿主细胞。随后使细胞繁殖，实现“还原性重配”。如果需要，可以通过DNA损伤的引入刺激还原性重配过程的速率。RI的降低是否是通过“分子内”机制在重复序列之间形成缺失而介导，或是通过“分子间”机制由类似重组的事件而介导是不重要的。最终的结果是分子被重配为所有可能的组合。

任选地，方法包括一个额外的步骤，即对重排的文库成员进行筛选，以确定个别的重排文库成员，所述个别重排文库成员具有结合预先确定的大分子例如，蛋白质受体、寡糖、病毒体或其它预先确定化合物或结构或者以不同方式相互作用，或者催化一个特定反应（例如，如酶的催化结构域）的能力。

从这种文库鉴定出的多肽可以用于治疗、诊断和相关目的（例如，催化剂、用于增加水溶液渗透性的溶质等），和/或可以用于进行一轮或更多轮附加的重排和/或选择循环。

在另一方面，预见到，在重组或重配之前或期间，本发明方法产生的多核苷酸可以接受促进将突变引入原始多核苷酸的试剂或加工。这种突变的引入会增加得到的杂合多核苷酸和其编码多肽的多样性。促进诱变的试剂或过程可以包括但不限于：(+)-CC-1065或合成类似物如(+)-CC-1065-(N3-腺嘌呤(参见Sun and Hurley，(1992)；能够抑制DNA合成的N-乙酰化或脱乙酰化4'-氟-4-氨基联苯加合物(参见例如van de Poll et al.(1992))；或能够抑制DNA合成的N-乙酰化或脱乙酰化4-氨基联苯加合物(也参见van de Poll et al.(1992),pp.751-758)；三价铬、三价铬盐、能够抑制DNA复制的多环芳烃(PAH)DNA加合物，如7-溴甲基-苯基[a]蒽(“BMA”)、三(2,3-二溴丙基)磷酸酯(“Tris-BP”)、1,2-二溴-3-氯丙烷(“DBCP”)、2-溴丙稀醛(2BA)、苯基[a]芘-7,8-二氢二醇-9-10-环氧化物(“BPDE”)、铂(II)卤素盐、N-羟基-2-氨基-3-甲基咪唑[4,5-f]-喹啉(“N-羟基-IQ”)和N-羟基-2-氨基-1-甲基-6-苯基咪唑[4,5-f]-吡啶(“N-羟基-PhIP”)。减慢或停止PCR扩增的示范性手段包括UV光(+)-CC-1065和(+)-CC-1065-(N3-腺嘌呤)。特别包含的方法是DNA加合物或来自多核苷酸或多核苷酸库的含有DNA加合物的多核苷酸，在进一步处理之前，其可以通过包括加热含有多核苷酸的溶液的过程进行释放或去除。

本发明的另一方面涉及产生具有生物学活性的重组蛋白质的方法，其通过根据本发明，在产生杂合或重配多核苷酸的条件下，处理含有编码野生型蛋白质的双链模板多核苷酸的样品。

产生序列变体

本发明也提供了制备本发明核酸序列的序列变体的其它方法。本发明也提供了分离本发明多肽的其它方法。在一个方面，本发明提供本发明编码序列（例如，基因、cDNA或信使）的变体，其可以通过任何方式改变，包括例如，随意或随机方法，或非随机方法，或“定向进化”方法，如上所述。

分离的变体可以是天然发生的。变体也可以在体外产生。变体可以用遗传工程技术，如定向诱变、随机化学诱变、外切酶III缺失步骤和标准克隆技术产生。可选地，这样的变体、片段、类似物或衍生物可以用化学合成或修饰步骤产生。制备变体的其它方法也是本领域技术人员熟悉的。这些方法包括修饰得自天然分离物的核酸序列以便产生编码具有特性的多肽的核酸的步骤，所述特性增强它们在工业或实验室应用中的价值。在这种步骤中，与得自天然分离物的序列具有一个或多个核苷酸差异的大量的变体序列被产生和表征。这些核苷酸差异可以引起氨基酸变化，所述变化相对于来自天然分离物的核酸编码的多肽而言。

例如，可以用易错PCR创建变体。在易错PCR中，在DNA聚合酶的复制保真性低的条件下进行PCR，这样在PCR产物的全长中获得高比率的点突变。易错PCR描述于，例如，Leung,D.W.,et al.,Technique,1:11-15,1989)和Caldwell,R.C.&Joyce G.F.,PCR Methods Applic.,2:28-33,1992中。简言之，在这种程序中，为了在全长的PCR产物中得到高比率的点突变，将待诱变的核酸与PCR引物、反应缓冲液、MgCl₂、MnCl₂、Taq聚合酶和合适浓度的dNTPs混合。例如，可以用20毫微微摩尔（fmoles）的待诱变核酸，每种PCR引物30皮摩尔，包括50mM KCl、10mMTris HCl(pH8.3)和0.01%明胶、7mM MgCl2、0.5mM MnCl₂、5单位Taq聚合酶、0.2mM dGTP、0.2mM dATP、1mM dCTP和1mM dTTP的反应缓冲液进行反应。PCR可以进行30个循环：94℃1分钟、45℃1分钟和72℃1分钟。然而，应该理解，这些参数可以适当变化。将诱变的核酸克隆入合适载体，评价诱变核酸编码的多肽的活性。

变体也可以使用寡核苷酸定向诱变产生，在感兴趣的任何克隆DNA中产生位点专一的变异。寡核苷酸诱变描述于，例如，Reidhaar-Olson(1988)Science241:53-57中。简言之，在这种过程中，合成待被引入到克隆的DNA中的许多具有一个或多个突变的双链寡核苷酸，并且插入到待诱变的克隆DNA中。回收含有经诱变的DNA的克隆，并评定经诱变的DNA编码的多肽的活性。

用于产生变体的另一方法是装配PCR。装配PCR涉及从小DNA片段的混合物装配PCR产物。在同一个容器中平行进行很多不同的PCR反应，其中，一个反应的产物用作另外一个反应的引物。装配PCR描述于，例如，美国专利5,965,408。

产生变体的另一方法是有性PCR诱变。在有性PCR诱变中，由于基于序列同源性的DNA分子的随机片段化，在不同的但是高度相关的DNA序列的DNA分子之间，在体外强行发生同源重组，然后通过PCR反应的引物延伸，交换得到固定。有性PCR诱变描述于，例如，Stemmer(1994)Proc.Natl.Acad.Sci.USA91:10747-10751中。简言之，在这样的过程中，多个待重组的核酸用DNase消化，产生具有50到200个核苷酸的平均大小的片段。纯化具有所需的平均大小的片段，重悬于PCR混合物中。在有利于核酸片段重组的条件下进行PCR。例如，可以在0.2mM各种dNTP、2.2mM MgCl₂、50mM KC、10mM Tris HCl、pH9.0和0.1%TritonX-100的溶液中，重悬浮10-30ng/μl的被纯化片段进行PCR。以100：1的比例在反应混合物中加入2.5单位的Taq聚合酶，应用下列方案进行PCR：94℃60秒、94℃30秒、50-55℃30秒、72℃30秒（30-45次）和72℃5分钟。然而，应该理解，这些参数可以适当变化。在一些方面，寡核苷酸可以包含在PCR反应物中。在其它方面，在第一轮PCR反应中可以应用DNA聚合酶I的Klenow片段，在随后的PCR反应中可以应用Taq聚合酶。分离重组序列，评价它们所编码的多肽的活性。

也可以通过体内诱变创建变体。在一些方面，感兴趣的序列中的随机突变通过在细菌菌株中扩增该感兴趣的序列而产生，所述细菌菌株例如在一个或者多个DNA修复途径中具有突变的大肠杆菌菌株。这样的“突变”菌株具有比野生型亲本更高的随机突变率。在一种这样的菌株中进行DNA的繁殖将最终产生DNA中的随机突变。适用于体内诱变的突变株描述于PCT公布号WO91/16427中，其于1991年10月31日公布，题目是“Methods for Phenotype Creation from Multiple GenePopulations”。

也可以用盒式诱变产生变体。在盒式诱变中，双链DNA分子的小的区域替换为不同于天然序列的合成的寡核苷酸“序列盒”。该寡核苷酸常常含有完全和/或部分随机化的天然序列。

也可以用递归整体诱变产生变体。递归整体诱变是一种用于蛋白质工程（蛋白突变）的算法，它的开发是为了产生表型相关的突变体组成的多样性群体，其成员在氨基酸序列上有所不同。该方法应用反馈机制来控制连续多轮的组合式盒式诱变。递归整体诱变描述于Arkin,A.P.and Youvan,D.C.,PNAS,USA,89:7811-7815,1992中。

在某些方面，应用指数整体诱变产生变体。指数整体诱变是一个用于产生具有高百分比的独特且具功能性的突变体的组合文库的过程，其中一小组的残基被随机化，同时在每一个被改变的位置确认导致功能性蛋白的氨基酸。指数整体诱变描述于Delegrave,S.and Youvan,D.C.,Biotechnology Research,11:1548-1552,1993中。随机和定向诱变描述于Arnold,F.H.,Current Opinion in Biotechnology，4:450-455,1993中。

在某些方面，应用重排方法产生变体，其中编码不同多肽的多个氨基酸的部分被融合在一起，产生编码嵌合多肽的嵌合核酸序列，如1999年5月9日提交的美国专利号5,965,408、题目是“Method of DNA Reassembly by InterruptingSynthesis”和1996年5月22日提交的美国专利号5,939,250、题目是“Productionof Enzymes Having Desired Activities by Mutagenesis”所述。

本发明的多肽变体可以是这样的变体，其中本发明多肽序列中的一个或多个氨基酸残基被取代为保守的或非保守的氨基酸残基（在一个方面是保守的氨基酸残基），这种取代的氨基酸残基可以是遗传密码编码的残基，或者并非如此。

本发明提供了本发明多肽（和编码它们的核酸）的可选实施方式，所述多肽包括至少一个保守性氨基酸取代，如本文所述（例如，保守性氨基酸取代是将多肽中的指定氨基酸取代为具有类似特性的另一氨基酸的取代）。本发明提供了多肽（和编码它们的核酸），其中任意、一些或所有氨基酸残基取代为类似特性的另一氨基酸，例如，保守性氨基酸取代。

保守性取代是将多肽中的指定氨基酸取代为类似特性的另一氨基酸的取代。典型地，被视为保守性氨基酸取代的是下列置换：将脂肪族氨基酸如丙氨酸、缬氨酸、亮氨酸和异亮氨酸置换为另一脂肪族氨基酸；将丝氨酸置换为苏氨酸或相反；将酸性残基如天冬氨酸和谷氨酸置换为另一酸性残基；将带有酰胺基的残基如天冬酰胺和谷氨酰胺置换为带有酰胺基的另一残基；将碱性残基如赖氨酸和精氨酸变换为另一碱性残基；和将芳香残基如苯丙氨酸、酪氨酸置换为另一芳香残基。在可选的方面，这些保守性取代也可以是这些氨基酸的合成等价物。

其它变体是其中本发明多肽的一个或多个氨基酸残基包括取代基的变体。

再其它变体是其中多肽与另一化合物连接的变体，所述化合物如增加多肽半衰期的化合物（例如，聚乙二醇）。

其它变体是其中附加氨基酸被融合到多肽的变体，附加氨基酸如前导序列、分泌序列、蛋白原序列或协助多肽的纯化、富集或稳定的序列。

在某些方面，片段、衍生物和类似物保持与本发明多肽相同的生物学功能或活性。在其它方面，片段、衍生物和类似物包括蛋白原，从而片段、衍生物和类似物可以通过蛋白原部分的切割而活化，产生有活性的多肽。

优化密码子，实现宿主细胞中高水平的蛋白表达

本发明提供了通过改变密码子使用来修饰编码参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的核酸的方法。在一个方面，本发明提供了修饰编码多肽的核酸中的密码子、以便增加或降低其在宿主细胞中的表达的方法。本发明也提供了被修饰以便增强其在宿主细胞中的表达的编码参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽的核酸，被如此修饰的酶，和制备参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的修饰多肽的方法。方法包括鉴定酶编码核酸中的“非优选”或“较不优选”密码子，和将一个或多个这些非优选或较不优选密码子替换为编码相同氨基酸的“优选密码子”，作为替换密码子，并且核酸中的至少一个非优选或较不优选密码子被替换为编码相同氨基酸的优选密码子。优选密码子是在宿主细胞的基因的编码序列中表现过度的密码子，非优选密码子或较不优选的密码子是在宿主细胞的基因的编码序列中表现不足的密码子。

用于表达本发明的核酸、表达序列盒和载体的宿主细胞包括细菌、真菌、酵母、真菌、植物细胞、昆虫细胞和哺乳动物细胞。因此，本发明提供了优化所有这些细胞中的密码子使用的方法、密码子改变的核酸和由该密码子改变的核酸制备的多肽。示范性宿主细胞包括革兰氏阴性细菌，如大肠杆菌；革兰氏阳性细菌如链霉菌、加氏乳酸杆菌（Lactobacillus gasseri）、乳酸乳球菌、乳脂乳球菌（Lactococcus cremoris）、芽孢杆菌属某种（Bacillus sp.）、枯草芽孢杆菌、蜡状芽孢杆菌。示范性宿主细胞也包括真核生物，例如，各种酵母，如酵母属某种，包括酿酒酵母、粟酒裂殖酵母、巴斯德毕赤酵母和乳酸克鲁维斯酵母（Kluyveromyceslactis）、汉逊酵母（Hansenula polymorpha）、黑曲霉（Aspergillus niger），和哺乳动物细胞和细胞系以及昆虫细胞和细胞系。因此，本发明也包括被优化用于在这些生物体和物种中表达的核酸和多肽，例如，本发明的核酸被密码子优化以便在宿主细胞中表达，所述宿主细胞例如，毕赤酵母属某种，例如巴斯德毕赤酵母，酵母属某种或芽孢杆菌属某种，链霉菌属某种和类似宿主细胞。

例如，编码本发明多肽或从细菌细胞分离的相似酶的核酸的密码子被修饰，因而核酸（编码酶）在不同于得到酶（例如本发明的多肽）的细菌的细菌细胞、酵母、真菌、植物细胞、昆虫细胞或哺乳动物细胞中优化表达。优化密码子的方法是本领域公知的，参见，例如，美国专利5,795,737；Baca(2000)Int.J.Parasitol.30:113-118；Hale(1998)Protein Expr.Purif.12:185-188；Narum(2001)Infect.Immun.69:7250-7253。也参见Narum(2001)Infect.Immun.69:7250-7253，其描述在小鼠系统中优化密码子；Outchkourov(2002)Protein Expr.Purif.24:18-24，其描述在酵母中优化密码子；Feng(2000)Biochemistry39:15399-15409，其描述在大肠杆菌中优化密码子；Humphreys(2000)Protein Expr.Purif.20:252-264，其描述在大肠杆菌中影响分泌的优化密码子使用；Gao(2004)Biotechnol Prog.20:443-448，其描述“UpGene”，它是基于网络的DNA密码子优化算法的应用。

转基因非人动物

本发明提供了包括本发明核酸、多肽、表达盒或载体或转染细胞或转化细胞的转基因非人动物。本发明也提供了制备和应用这些转基因非人动物的方法。

转基因非人动物可以是，例如，包括本发明核酸的山羊、兔、绵羊、猪、牛、大鼠和小鼠。这些动物可以用作，例如，研究酶活性的体内模型，或者筛选改变体内酶活性的试剂的模型。在转基因非人动物中待表达的多肽的编码序列可以设计为组成型，或者处于组织特异性、发育特异性或可诱导转录调节因子的控制之下。转基因非人动物可以应用本领域已知的任何方法设计和产生，参见，例如，美国专利6,211,428、6,187,992、6,156,952、6,118,044、6,111,166、6,107,541、5,959,171、5,922,854、5,892,070、5,880,327、5,891,698、5,639,940、5,573,933、5,387,742、5,087,571，它们描述了制备和应用转化细胞和卵，以及转基因小鼠、大鼠、兔、绵羊、猪和牛。也参见，例如，Pollock(1999)J.Immunol.Methods231:147-157，其描述了在转基因产乳动物中产生重组蛋白；Baguisi(1999)Nat.Biotechnol.17:456-461，说明了转基因山羊的产生。美国专利6,211,428描述了制备和应用非人哺乳动物，在它们的脑中表达包括DNA序列的核酸构建体。美国专利5,387,742描述了注射被克隆的重组体或合成DNA序列进入受精小鼠卵中、将被注射的卵植入代孕雌性中、以及使其生长为足月转基因小鼠，所述转基因小鼠的细胞表达与阿尔茨海默病的病理有关的蛋白质。美国专利6,187,992描述了制备和应用转基因小鼠，所述转基因小鼠的基因组包括编码淀粉样前体蛋白（APP）的基因的破坏。

也可以用“基因敲除动物（knockout animals）”实施本发明方法。例如，在一个方面，本发明的转基因动物或修饰动物包括“基因敲除动物”，例如，“基因敲除小鼠”，其被设计为不表达内源性基因，内源性基因被替换成表达本发明酶的基因、或包括本发明酶的融合蛋白的基因。

转基因植物和种子

本发明提供了包括本发明核酸、多肽（例如，参与叶绿素分解代谢或具有酯酶（例如叶绿素酶）活性的多肽）、表达盒或载体或转染细胞或转化细胞的转基因植物和种子。本发明也提供了植物产品，如油、种子、叶、提取物和类似物，它们包括本发明核酸和/或多肽。转基因植物可以是双子叶的（双子叶植物）或单子叶的（单子叶植物）。本发明也提供了制备和应用这些转基因植物和种子的方法。表达本发明多肽的转基因植物或植物细胞可以根据本领域已知的任何方法构建。参见，例如，美国专利6,309,872。

本发明的核酸和表达构建体可以通过任何方式被引入植物细胞。例如，核酸和表达构建体可以被引入所需植物宿主的基因组，或者，核酸和表达构建体可以是附加体。向所需植物基因组的引入可以如此，以至于宿主的内源性转录和/或翻译调控元件调节引入的核酸的活性，不论它是整合的或是附加体。本发明也提供了“基因敲除植物”，其中通过例如同源重组的基因序列的插入破坏了同源基因的表达。产生“基因敲除”植物的手段是本领域公知的，参见，例如，Strepp(1998)Proc Natl.Acad.Sci.USA95:4368-4373；Miao(1995)Plant J7:359-365。参见下文对转基因植物的论述。

本发明的核酸可以用于将所需的性质赋予基本上任何植物，例如，产淀粉植物如马铃薯、小麦、稻子、大麦和类似植物。本发明的核酸可以用于操纵植物的代谢途径，以便优化或改变宿主对本发明多肽或宿主中的同源酶的表达。这可以改变植物中的酶（例如叶绿素酶）活性或生物合成途径产物（叶绿素降解途径）。可选地，本发明的酶或核酸可以用在转基因植物的生产中，以便产生该植物不天然产生的化合物。这可以降低生产成本或产生一种新的产物。

在一个方面，转基因植物生产中的第一步骤涉及制备在植物细胞中表达的表达构建体。这些技术是本领域公知的。它们可以包括选择和克隆启动子、协助核糖体有效结合于mRNA的编码序列，和选择合适的基因终止序列。一个示范性组成型启动子是CaMV35S，来自花椰菜花叶病毒，其通常引起植物中的高度表达。其它启动子更具特异性，并且对植物的内部或者外部环境中的暗示有反应。一个示范性光诱导型启动子是来自cab基因的启动子，cab基因编码主要叶绿素a/b结合蛋白。

在一个方面，核酸被修饰以获得在植物细胞中的更大表达。例如，本发明的序列很可能具有比在植物中更高的A-T核苷酸对百分率，而一些植物优选G-C核苷酸对。因此，编码序列中的A-T核苷酸可以取代为G-C核苷酸，而不显著改变氨基酸序列，使植物细胞中的基因产物的产量增加。

选择性标记基因可以被加入基因构建体，目的是鉴定已经成功整合转基因的植物细胞或组织。这可能是必要的，因为在植物细胞中完成基因的整合和表达是一个小概率事件，仅仅在较少百分率的靶组织和细胞中发生。选择性标记基因编码对试剂有抗性的蛋白，所述试剂一般对植物有毒性，如抗生素或者除草剂。在含有合适的抗生素或除草剂的培养基中生长时，只有已经整合了选择性标记基因的植物细胞可以成活。与其它的插入基因一样，为了有恰当的功能，标记基因也需要启动子和终止序列。

在一个方面，制备转基因植物或种子包括将本发明的序列，和任选地，标记基因整合到目标表达构建物（例如，质粒）中，同时定位启动子和终止子序列。这可以包括将修饰的基因通过合适方法转入植物中。例如，构建物可以应用如电穿孔和微注射植物细胞原生质体的技术直接引入到植物细胞的基因组DNA中，或者应用弹射方法（ballistic methods），如，DNA粒子轰击（DNA particle bombardment）的方法直接引入到植物组织中。例如，参见，例如，Christou(1997)Plant Mol.Biol.35:197-203；Pawlowski(1996)Mol.Biotechnol.6:17-30；Klein(1987)Nature327:70-73；Takumi(1997)Genes Genet.Syst.72:63-69，其论述了应用粒子轰击将转基因引入小麦；和Adam(1997)supra，应用粒子轰击将YACs引入植物细胞。例如，Rinehart(1997)supra，应用粒子轰击产生转基因棉花植物。加速粒子的设备描述于美国专利号5,015,580；商业上可得的BioRad(Biolistics)PDS-2000粒子加速设备；也参见John，美国专利5,608,148；和Ellis，美国专利5,681,730，其描述了粒子介导的裸子植物转化。

在一个方面，原生质体可以被固定化和应用核酸、例如表达构建物注射。尽管源自原生质体的植物再生对于谷类并不容易，但是应用体细胞胚胎发生由原生质体来源的愈伤组织进行植物再生在豆类中是有可能的。机化组织可以使用基因枪技术用裸DNA转化，其中的DNA被包裹于钨微射弹（tungsten microprojectiles）上，射出物的大小为细胞大小的l/100，它携带DNA深入到细胞和细胞器中。转化的组织然后被诱导再生，一般通过体细胞胚胎发生技术。这一技术已经在包括玉米和水稻的几个谷类物种中成功应用。

也可以用重组病毒将核酸，例如表达构建体引入植物细胞。可以用病毒载体转化植物细胞，所述载体如，例如，烟草花叶病毒衍生载体(Rouwendal(1997)PlantMol.Biol.33:989-999)，参见Porta(1996)“Use of viral replicons for the expression ofgenes in plants,”Mol.Biotechnol.5:209-221。

可选地，核酸，例如表达构建体可以和合适的T-DNA侧翼区域组合并引入传统的根癌农杆菌宿主载体中。在细胞被细菌感染时，根癌农杆菌宿主的毒性作用会引导构建体和相邻标记物插入植物细胞DNA中。根癌农杆菌介导的转化技术，包括解毒（disarming）和二元载体的应用，在科学文献中充分描述。参见，例如，Horsch(1984)Science233:496-498；Fraley(1983)Proc.Natl.Acad.Sci.USA80:4803(1983)；Gene Transfer to Plants,Potrykus,ed.(Springer-Verlag,Berlin1995)。根癌农杆菌细胞中的DNA包含在细菌染色体以及称作Ti(肿瘤诱导)质粒的另一结构中。Ti质粒含有称作T-DNA(～20kb长)的一段DNA和一系列毒力（virulence）基因，T-DNA在感染过程中被转移到植物细胞中，毒力基因则引导所述感染过程。根癌农杆菌仅可以通过伤口感染植物：当植物根或茎受伤时，它释放某种化学信号，作为对这种信号的响应，根癌农杆菌的毒力基因被激活，并引发一系列从Ti质粒转移T-DNA至植物染色体所必需的事件。T-DNA然后通过伤口进入到植物细胞。一个推测是T-DNA一直等到植物DNA复制或者转录，然后将自身插入到暴露的植物DNA中。为了应用根癌农杆菌作为转基因载体，T-DNA的肿瘤诱导部分必须去除，而保留T-DNA边界区域和毒力基因。转基因然后插入到T-DNA的边界区域之间，从这里转移到植物细胞并且整合到植物的染色体中。

本发明提供用来应用本发明核酸进行包括重要的谷类植物在内的单子叶植物的转化，参见Hiei(1997)Plant Mol.Biol.35:205-218。也参见，例如，Horsch,Science(1984)233:496；Fraley(1983)Proc.Natl.Acad.Sci USA80:4803；Thykjaer(1997)supra；Park(1996)Plant Mol.Biol.32:1135-1148，论述了T-DNA向基因组DNA的整合。也参见D'Halluin,U.S.Patent No.5,712,135，其描述了包含在谷类或者其它单子叶植物的细胞中的具有功能性的基因的DNA的稳定整合过程。

在一个方面，第三步可以包括能够将整合的靶基因传递至下一代的完整植物的选择和再生。这样的再生技术依赖于对组织培养生长培养基中的某些植物激素的操作，典型地，依赖于与所需的核苷酸序列一同引入的杀虫剂和/或除草剂标记。源自培养的原生质体的植物再生描述于Evans et al.,Protoplasts Isolation andCulture,Handbook of Plant Cell Culture,124-176页，MacMillilan Publishing Company,New York,1983；和Binding,Regeneration of Plants,Plant Protoplasts,pp.21-73,CRC Press,Boca Raton,1985。再生也可以从植物愈伤组织、外植体、器官或者其中的一部分得到。这样的再生技术在Klee(1987)Ann.Rev.of Plant Phys.38:467-486中有概括性的说明。为了从转基因组织如未成熟的胚胎获得整个植物，它们可以在一系列含有营养物和激素的培养基中在可控制的环境条件下培养，即称为组织培养的过程。一旦整个植物再生并且产生种子，便开始评价子代。

表达序列盒稳定并入转基因植物之后，其可以通过有性杂交引入到其它的植物中。可以应用任何数量的标准繁殖技术，这依赖于待杂交的物种。因为本发明核酸的转基因表达导致表型变化，包含本发明的重组核酸的植物可以和另一植物有性杂交而得到最终产物。因此，本发明的种子可以来自本发明的两个转基因植物的杂交，或者来自本发明的植物和其它植物的杂交。当两个亲本植物都表达本发明的多肽时，所需的效应（例如，表达本发明的多肽来产生一种开花行为或结籽行为被改变的植物）可以被增强。所需的效应通过标准的繁殖方法传到以后的植物世代中。

本发明的核酸和多肽在任何植物或种子中表达或者被插入任何植物或种子。本发明的转基因植物可以是双子叶的或单子叶的。本发明的单子叶转基因植物的例子是草，如牧草（蓝草，早熟禾属Poa），饲料草如羊茅属，黑麦草属，温带草，如翦股颖属（Agrostis），和谷类，如，小麦、燕麦、黑麦、大麦、水稻、蜀黍和玉米（corn）。本发明的双子叶转基因植物的例子是烟草、豆类，如羽扇豆、马铃薯、甜菜、豌豆、蚕豆和大豆，以及十字花科植物（Brassicaceae属），如花椰菜，油菜籽，和紧密相关的模式生物拟南芥（Arabidopsis thaliana）。这样，本发明的转基因植物和种子包括很宽范围的植物，包括，但不限于，以下属的种：腰果属（Anacardium）、落花生属（Arachis）、天冬属（Asparagus）、茄属（Atropa）、燕麦属（Avena）、芸苔属（Brassica）、柑桔属（Citrus）、Citrullus、辣椒属(Capsicum）、Carthamus、椰子（Cocos）、咖啡（Coffea）、香瓜属（Cucumis）、南瓜属（Cucurbita）、Daucus、Elaeis、Fragaria、大豆属（Glycine）、棉属（Gossypium）、向日葵属（Helianthus）、Heterocallis、大麦属（Hordeum）、天仙子属（Hyoscyamus）、莴苣属（Lactuca）、亚麻属（Linum）、黑麦草属（Lolium）、羽扇豆属（Lupinus）、番茄属（Lycopersicon）、苹果属（Malus）、木薯属（Manihot）、Majorana、苜蓿属（Medicago）、烟草属（Nicotiana）、Olea、Oryza、Panieum、Pannisetum、鳄梨属（Persea）、菜豆属（Phaseolus）、Pistachia、Pisum、梨属（Pyrus）、李属（Prunus）、萝卡属（Raphanus）、蓖麻属（Ricinus）、黑麦属（Secale）、千里光属（Senecio）、Sinapis、茄属（Solanum）、高粱属（Sorghum）、Theobromus、Trigonella、小麦属（Triticum）、野豌豆属（Vicia）、Vitis、Vigna和玉蜀黍属（Zea）。

在可选的实施方式中，本发明的核酸在含有纤维细胞的植物中表达，所述植物包括例如，棉花、丝棉树（木棉、吉贝木棉）、沙漠柳、石碳酸灌木、winterfat、balsa、苎麻、洋麻、大麻、洛神葵、黄麻、马尼拉剑麻和亚麻。在可选实施方式中，本发明的转基因植物可以是棉（Gossypium）属的成员，包括任何棉种的成员，如亚洲棉（G.arboreum）、草棉（G.herbaceum）、海岛棉（G.barbadense）和陆地棉（G.hirsutum）。

本发明也提供了用于产生大量本发明多肽（例如，酶或抗体）的转基因植物。例如，参见Palmgren(1997)Trends Genet.13:348;Chong(1997)Transgenic Res.6:289-296（用植物生长素诱导的双向甘露氨酸合酶（mas1',2'）启动子和根癌农杆菌介导的叶盘转化方法在转基因马铃薯植物中产生人乳蛋白β-酪蛋白）。

应用已知的程序，技术人员可以通过检测在转基因植物中转基因mRNA或者蛋白的增加或者减少来筛选本发明的植物。检测和定量mRNA或者蛋白的方法是本领域熟知的。

多肽和肽

在一个方面，本发明提供了分离的、合成的或重组的多肽，其与本发明的示范性序列具有序列同一性（例如，至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%或更多，或者完全（100%）的序列同一性），本发明示范性序列例如，具有SEQ ID NO:2、SEQ ID NO:4、SEQ ID NO:6、SEQ IDNO:8、SEQ ID NO:10、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ IDNO:18或SEQ ID NO:20所示序列的蛋白质。

在一个方面，本发明的多肽具有酯酶活性，如叶绿素酶（chlase）活性，或者具有包括酶促修饰叶绿素分子的酶活性，例如，其中酶促修饰包括叶绿素分子的分解代谢。在一个方面，酯酶活性包括叶绿素脱植基叶绿素基水解酶活性。

本发明也提供了嵌合多肽（和编码它们的核酸），其包括至少两个本发明的酶或它们的子序列，例如活性位点或催化位点（CDs）。本发明的嵌合多肽（例如，融合蛋白，或其它异二聚体，例如利用其它方式如接头或静电的方式结合在一起的两个结构域）可以包括本发明的一个多肽（例如，活性位点或催化结构域肽）和本发明的另一多肽（例如，活性位点或催化结构域肽）或其它多肽。例如，本发明的嵌合多肽可以具有参与叶绿素分解代谢的多肽的任何活性或具有酯酶（例如，叶绿素酶）活性，例如，如本文所述。在一个方面，本发明的嵌合多肽包括结构域的融合，例如，信号结构域可以表现出一种活性或多种活性的任何组合。

本发明的多肽包括活性形式和非活性形式的酶。例如，本发明的多肽包括在“成熟”或前体序列（prepro sequences）加工之前的蛋白原，所述的加工通过例如蛋白原加工酶，如产生“活性”成熟蛋白的蛋白原转变酶进行的加工。本发明多肽包括为其它原因而失活的酶，例如，未通过翻译后加工事件进行“活化”的酶，所述的翻译后加工事件例如内肽酶或外肽酶或蛋白酶作用、磷酸化事件、酰胺化、糖基化或硫酸化、二聚化事件和类似作用。本发明的多肽包括所有的活性形式，包括活性子序列，例如酶的催化结构域或活性位点。

鉴定“前体”结构域序列和信号序列的方法在本领域中是公知的，参见，例如，Van de Ven(1993)Crit.Rev.Oncog.4(2):115-136。例如，为了鉴定前体序列，蛋白从细胞外空间纯化出来，测定N端蛋白序列，并与未加工的形式进行比较。

本发明包括具有或没有信号序列和/或前体序列的多肽。本发明包括具有异源信号序列和/或前体序列的多肽。前体序列（包括用作异源前体结构域的本发明序列）可以位于蛋白的氨基末端或羧基末端。本发明也包括含有本发明序列的分离的或重组的信号序列、前体序列和催化结构域（例如“活性位点”）。

用百分比表示的序列同一性可以是基于多肽的全长范围，或者，同一性可以表现在至少大约50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700或更多个残基的区域上。本发明的多肽也可以比所述的示例性多肽的全长短。在可以选择的方面，本发明提供了大小范围在大约5到多肽全长的多肽（肽、片段），例如本发明的酶；示例性的大小为大约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700或更多个残基，这些残基例如是本发明的示例性酶的相邻残基。

本发明的肽（例如，本发明的示例性多肽的子序列）可以用作，例如标记探针、抗原、耐受原、基序、酶活性位点（例如，本发明的酶的“催化结构域”）、本发明的酶的结合位点、信号序列和/或前体结构域。

本发明的多肽和肽可以分离自天然来源，可以是合成的，或者可以是重组产生的多肽。肽和蛋白可以在体外或体内重组表达。本发明的肽和多肽可以使用本技术领域已知的任何方法产生和分离。本发明的多肽和肽也可以使用本技术领域熟知的化学方法全部或部分合成。例如参见Caruthers（1980）Nucleic Acids Res.Symp.Ser.215-223；Horn（1980）Nucleic Acids Res.Symp.Ser.225-232；Banga，A.K.，Therapeutic Peptides and Proteins,Formulation,Processing and DeliverySystems（1995）Technomic Publishing Co.，Lancaster，PA。例如，肽合成可以使用各种固相技术进行（例如参见Roberge（1995）Science269:202；Merrifield（1997）Methods Enzymol.289:3-13），自动合成可以根据制造商提供的说明书来实施，例如使用ABI431A肽合成仪（Perkin Elmer）。

本发明的肽和多肽也可以是糖基化的，所述糖基化可以在翻译后通过化学方法或者通过细胞的生物合成机制而加上，其中后者包括应用已知的糖基化作用基序，所述糖基化作用基序对于序列可以是天然的，或者是作为肽段而被加入的，或者是在核酸编码序列中加入的。糖基化作用可以是O-连接的或者是N-连接的。

本发明的肽和多肽，如以上所定义的，包括所有的“模拟物（mimetic）”和“肽模拟物（peptidomimetic）”形式。术语“模拟物”和“肽模拟物”是指具有与本发明的多肽实质上相同的结构和/或功能特征的合成的化学化合物。该模拟物或者完全由合成的非天然的氨基酸类似物组成，或者是由部分天然的肽氨基酸和部分非天然的氨基酸类似物构成的嵌合分子。所述模拟物也可以包括任意数量的天然氨基酸保守取代，只要这样的取代本质上不改变该模拟物的结构和/或活性。对于作为保守性变体的本发明的多肽，常规实验将可以确定一种模拟物是否在本发明的范围内，即，其结构和/或功能与本发明的示范性多肽并没有实质上的改变。一方面，模拟化合物用在本发明的组合物、细胞系统或方法中（例如，具有表达至少一种本发明的酶的质粒的宿主细胞）。

本发明的多肽模拟化合物可以包含非天然结构成分的任何组合。在可供选择的方面，本发明的模拟化合物包括以下三种结构基团中的一种或所有：a）不是天然酰胺键（“肽键”）连接的残基连接基团；b）取代天然发生的氨基酸残基的非天然残基；或者c）诱导二级结构拟态（mimicry）的残基，即，可以诱导或者稳定二级结构，如β转角、γ转角、β折叠、α螺旋构象，以及类似的结构。例如，当一个多肽的所有残基或者一些残基通过非天然肽键的化学方式连接时，本发明的该多肽可以作为模拟物来表征。各个肽模拟物残基可以通过肽键、其它的化学键或者偶联方式连接，如，通过戊二醛、N-羟基琥珀酰亚胺酯、双功能马来酰亚胺、N,N'-二环己基碳二亚胺（DCC）或者N,N'-二异丙基碳二亚胺（DIC）连接。可以替代传统的酰胺键（“肽键”）连接的连接基团包括，如，酮基亚甲基（如，-C(=O)-CH₂-代替-C(=O)-NH-）、氨基亚甲基（CH₂-NH）、亚乙基、烯烃（CH=CH）、醚（CH₂-O）、硫醚（CH₂-S）、四唑（CN₄-）、噻唑、retroamide、硫代酰胺或者酯（参见如，Spatola（1983）在Chemistry and Biochemistry of Amino Acids,Peptides and Proteins,第7卷,267-357页，“Peptide Backbone Modifications”Marcell Dekker,NY）。

本发明的多肽作为模拟物时，其特征也可以是含有全部或者部分替代了天然发生的氨基酸残基的非天然氨基酸残基。在科学和专利文献中描述了非天然的残基；作为天然氨基酸残基的模拟物的一些典型的非天然化合物及指导在下面有描述。芳香族氨基酸的模拟物可以通过用以下的取代来产生，如，D-或L-萘基丙氨酸；D-或L-苯基甘氨基，D-或L-2thieneyl丙氨酸；D-或L-l,-2,3-或4-芘基丙氨酸；D-或L-3thieneyl丙氨酸；D-或L-(2-吡啶基)-丙氨酸；D-或L-(3-吡啶基)-丙氨酸；D-或L-(2-吡嗪基)-丙氨酸，D-或L-(4-异丙基)-苯基甘氨酸；D-(三氟甲基)-苯基甘氨酸；D-(三氟甲基)-苯基丙氨酸；D-p-氟-苯基丙氨酸；D-或L-p-二苯基苯基丙氨酸；D-者L-p-甲氧基-二苯基苯基丙氨酸；D-或L-2-吲哚(烷基)丙氨酸；和，D-或L-烷基丙氨酸，其中的烷基可以是取代的或非取代的甲基、乙基、丙基、己基、丁基,戊基、异丙基、异丁基、仲异基、异戊基或者非酸性氨基酸。非天然氨基酸的芳香环包括，如噻唑基、苯硫基、吡唑基、苯并咪唑基、萘基、呋喃基、吡咯基和吡啶基芳香环。

酸性氨基酸的模拟物可以通过用以下的取代来产生，如，保持有负电荷的非羧酸氨基酸；(膦酰基)丙氨酸；硫酸化的苏氨酸。羧基侧链（如，天冬氨酰基或者谷氨酰基）也可以通过与碳二亚胺（R'-N-C-N-R'）反应进行选择性的修饰，所述碳二亚胺如1-环己基-3(2-吗啉基-(4-乙基)碳二亚胺或者1-乙基-3(4-氮

-4,4-二甲基戊基)碳二亚胺。天冬氨酰基或者谷氨酰基也可以通过与铵离子反应转化为天冬酰胺酰基和谷氨酰胺酰基。碱性氨基酸的模拟物可以通过用如，（除了赖氨酸和精氨酸外）鸟氨酸、瓜氨酸、或者(胍基)-乙酸，或者(胍基)烷基-乙酸的取代产生，其中烷基如以上定义。腈衍生物（如，含有取代COOH的CN-部分）可以取代天冬酰胺或者谷氨酰胺。天冬酰胺酰基和谷氨酰胺酰基可以脱氨基成为相应的天冬氨酰基或者谷氨酰基。精氨酸残基模拟物可以通过精氨酰基与例如一种或者多种常规试剂在一个方面为碱性的条件下反应而产生，所述的常规试剂包括如苯乙二醛、2,3-丁二酮、l,2-环己二酮或者茚三酮。酪氨酸残基模拟物可以通过酪氨酰基与例如芳香重氮化合物或者四硝基甲烷反应而产生。N-acetylimidizol和四硝基甲烷可以分别用于形成O-乙酰基酪氨酰物质和3-硝基衍生物。半胱氨酸残基模拟物可以通过半胱氨酰残基与例如α-卤素乙酸例如2-氯乙酸或者氯乙酰胺和相应的胺反应而产生；得到羧甲基或者羧酰胺甲基衍生物。半胱氨酸残基模拟物也可以通过半胱氨酰残基与例如溴代-三氟丙酮、α-溴-β-(5-imidozoyl)丙酸；氯乙酰磷酸、N-烷基马来酰亚胺、3-硝基-2-吡啶基二硫化物；甲基2-吡啶基二硫化物；p-氯汞苯甲酸盐；2-氯汞-4硝基苯酚，或者，氯-7-硝基苯并-氧杂-1,3-二唑反应而产生。可以通过赖氨酰基与例如琥珀酸或者其它的羧酸酸酐反应而产生赖氨酸模拟物（和改变氨基末端残基）。赖氨酸和其它的含有α-氨基的残基模拟物也可以通过与亚氨酸酯例如methyl picolinimidate、磷酸吡哆醛、吡哆醛、氯硼氢化物、三硝基-苯磺酸、O-甲基异脲、2,4,戊二酮的反应，和与乙醛酸的转酰胺基酶催化的反应而产生。甲硫氨酸的模拟物可以通过与例如甲硫氨酸亚砜反应而产生。脯氨酸的模拟物包括，例如，2-哌啶酸、四氢噻唑羧酸、3-或4-羟脯氨酸、脱氢脯氨酸、3-或4-甲基脯氨酸，或者3,3,-二甲基脯氨酸。组氨酸残基模拟物可以通过组氨酰基与例如二乙基原碳酸酯或对溴苯甲酰甲基溴化物反应而产生。其它的模拟物包括，例如，由脯氨酸和赖氨酸的羟基化作用产生的模拟物；由丝氨酰或者苏氨酰的羟基的磷酸化作用产生的模拟物；由赖氨酸、精氨酸和组氨酸的α氨基基团的甲基化作用产生的模拟物；由N-末端胺的乙酰化作用而产生的模拟物；由主链酰胺残基的甲基化或用N-甲基氨基酸取代而产生的模拟物；或者，由C-末端羧基的酰胺化而产生的模拟物。

本发明的多肽的残基例如氨基酸也可以用相反手性的氨基酸（或者肽模拟物残基）替代。因此，任何天然发生的L-构型（也可以被称为R或者S，取决于化学实体的结构）的氨基酸都可用相同化学结构类型但是具有相反手性的氨基酸或者肽模拟物替代，相反手性的氨基酸称为D-氨基酸，但也可以称为R-或者S-型。

本发明也提供了通过天然过程，如，翻译后加工（如，磷酸化，酰化等）或者化学修饰技术修饰本发明的多肽的方法，以及得到的被修饰的多肽。修饰可以发生在所述多肽的任何地方，包括肽骨架、氨基酸侧链和氨基端或者羧基端。可以理解，相同类型的修饰可以在已知的多肽中以相同的或者不同的水平在给定多肽的几个位点处发生。给定多肽也可以具有很多类型的修饰。修饰包括乙酰化、酰化作用、ADP-核糖基化作用、酰胺化作用、共价连接核黄素、共价连接血红素部分、共价连接核苷酸或核苷酸衍生物、共价连接脂质或脂质衍生物、共价连接磷脂酰肌醇、交联的环化作用、形成二硫键、去甲基作用、形成共价交联、形成半胱氨酸、形成焦谷氨酸、甲酰基化作用、γ-羧化作用、糖基化作用、形成GPI锚、羟基化作用、碘化作用、甲基化作用、肉豆蔻酰基化作用、氧化作用、聚乙二醇化、蛋白水解过程、磷酸化作用、异戊烯作用、外消旋作用、硒化作用、硫酸盐化作用，和转移RNA介导氨基酸添加到蛋白质中，如精氨酰化。参见，如，Creighton,T.E.,Proteins-Structure and Molecular Properties2nd Ed.,W.H.Freeman和Company,New York（1993）；Posttranslational Covalent Modification of Proteins,B.C.Johnson，Ed.,Academic Press,New York,11-12页（1983）。

固相化学肽合成方法也可以用于合成本发明的多肽或者片段。这样的方法自二十世纪六十年代早期起就是本领域已知的方法（Merrifield,R.B.,J.Am.Chem.Soc.,85:2149-2154,1963）（也参见Stewart,J.M.和Young,J.D.,Solid PhasePeptide Synthesis,第二版,Pierce Chemical Co.,Rockford,III,11-12页），并且这些方法已经可以通过商业上可获得的实验室肽设计和合成试剂盒（Cambridge ResearchBiochemicals）而被应用。这样的商业上可获得的实验室试剂盒一般是利用H.M.Geysen等,Proc.Natl.Acad.Sci.,USA,81:3998（1984）的方法，它们让肽合成在多个“杆”或者“钉”的顶端进行，而所有的“杆”或者“钉”都被连接到一块板上。当使用这样的系统时，一个板的杆或者钉被倒转并插入到另一个板的相应孔或者贮存器中，所述孔或者贮存器含有用于将一种适合的氨基酸附着或固定在杆或钉的顶端的溶液。通过重复这样的处理步骤，即是，反转和插入所述杆和钉的顶端至适当的溶液中，将氨基酸构建成所要的肽。此外，大量的FMOC肽合成系统是可利用的。例如，应用Applied Biosystems,Inc.的Model431A^TM自动肽合成仪可以在固体支持物上装配多肽或者片段。这些设备使得本发明的肽容易获得，或者通过直接的合成或者通过用其它已知的技术将一系列片段偶联起来的合成。

本发明包括具有或没有信号的本发明多肽。含有本发明的信号序列的多肽可以是本发明的多肽，或另一种多肽。

本发明包括固定化的本发明多肽，包括酶、抗体及其片段。本发明提供了抑制多肽活性的方法，例如使用本发明的显性负突变体或抗体。本发明包括含有本发明酶的杂合物，例如融合蛋白、异源二聚体等等。

本发明的多肽可以在多种条件下具有酶活性，例如极端pH和/或温度、氧化剂以及类似的条件。本发明提供了产生可选择的酶制剂的方法，它们具有不同的催化效率和稳定性，例如对于温度、氧化剂和变化的洗涤条件。在一个方面，酶变体可以使用定点诱变和/或随机诱变的技术来产生。在一个方面，定向进化可以被用于产生大量各种具有可选择的特异性和稳定性的酶变体。

本发明的蛋白也可用作研究试剂，以鉴定酶调节物，例如酶活性的激活剂或抑制剂。简单的说，将测试样品（化合物、肉汤、提取物等等）加入到酶分析中，以确定它们抑制底物裂解的能力。用该方式鉴定的抑制剂可用于工业和研究中，以减少或阻止不期望的蛋白水解。酶抑制剂可以被组合以增加活性谱。

本发明也提供了应用本发明的核酸、多肽和抗体发现与本发明的酶有相似活性的新的酶的方法。一方面，筛选噬粒文库，基于表达来发现新的酶。另一方面，筛选λ噬菌体文库，基于表达来发现新的酶。通过筛选噬菌体或噬粒文库，可以检测到毒性克隆；更方便地利用底物；减少工程改造宿主的需要，避开由文库中大的切除带来任何偏差的可能性；而且可以在低克隆密度下获得更快的生长。噬菌体或噬粒文库的筛选可以是在液相中或者固相中进行。一方面，本发明提供了在液相中的筛选。与固相筛选相比，这给予了分析条件上的更大灵活性；额外底物的可行性；对于弱的克隆的更高灵敏性；和更容易实现的自动化。

本发明提供了使用本发明的蛋白和核酸以及机器人自动化来进行筛选的方法，机器人自动化使得在例如一天的短时间内能进行数千个生物催化反应和筛选分析，并且保证了高水平的精确度和可重复性（参见下面关于阵列的讨论）。结果，衍生化合物的文库可以在数周内产生。对于包括小分子在内的分子的修饰的进一步教导，参见PCT/US94/09174。

本发明的另一方面是分离的或纯化的多肽，其包括本发明一个序列，或包括其至少5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段。如上述，通过将编码多肽的核酸插入载体、使得编码序列与能够驱动被编码多肽在合适的宿主细胞中表达的序列可操作地连接，可以得到这样的多肽。例如，表达载体可以包括启动子、用于翻译起始的核糖体结合位点和转录终止子。载体也可以包括用于扩增表达的适当序列。

本发明的另一方面是多肽或其片段，其与本发明一个多肽，或包括其至少5、10、15、20、25、30、35、40、50、75、100或150个或更多个连续氨基酸的片段有至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%或约95%以上的序列同一性（同源性）。序列同一性（同源性）可以应用上述任何程序确定，所述程序联配正被比较的多肽或片段，确定它们之间的氨基酸同一性或相似性程度。应该理解，氨基酸等价、或同一性或“同源性”包括保守性氨基酸取代，如上述的那些。

与本发明一个多肽，或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段有同源性的多肽或片段，可以应用上述技术，通过分离编码它们的核酸得到。

可选地，同源多肽或片段可以通过生物化学富集或纯化过程得到。潜在同源的多肽或片段可以通过活性分析、凝胶电泳和/或微量测序（microsequencing）确定。预期的同源多肽或片段的序列可以和本发明的一个多肽、或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段相比较，其中应用上述的任何程序。

本发明的另一方面是鉴定本发明的片段或变体的分析方法，所述片段或变体保留本发明多肽的酶功能。例如，本发明多肽的片段或变体可以用于催化生物化学反应，这表明，该片段或变体保留本发明多肽的酶活性。

确定片段或变体是否保留本发明多肽的酶活性的分析包括步骤：在使多肽片段或变体行使功能的条件下，使多肽片段或变体与底物分子接触，以及检测多肽和底物的反应中底物水平的减少或特定反应产物水平的增加。

本发明的多肽或包括其至少5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段可以用于多种用途。例如，多肽或其片段可以用于催化生物化学反应。根据本发明的一个方面，提供了应用本发明的多肽或编码这种多肽的多核苷酸水解酯键的方法。在这种方法中，在有利于酯键水解的条件下，使含有酯键的物质（例如，叶绿素）与本发明的一个多肽或与其基本上相同的序列接触。

本发明开发了酶的独特催化性质。鉴于生物催化剂（即，纯化的或者粗制的酶，非存活的或者存活的细胞）在化学转化中的应用一般需要确定与特定的起始化合物反应的特定的生物催化剂，本发明应用的经选择的生物催化剂和反应条件是对于存在于很多起始化合物如小分子中的功能基团具有特异性的，每种生物催化剂对于一种功能基团或者几种相关的功能基团是特异的，并且可以和含有这一功能基团的许多起始化合物反应。

生物催化反应可以从单一的起始化合物生产出一个群体的衍生物。这些衍生物可以进行另一轮的生物催化反应来产生又一个群体的衍生化合物。通过生物催化的衍生作用的每一次迭代可以产生起始小分子或化合物的数千种变化。

酶可以在起始化合物的特定位点发生反应而不影响分子的其它部分，该过程通过传统的化学方法很难实现。这种高度的生物催化特异性提供了用于在文库中鉴定单个活性化合物的方法。该文库是通过用于产生该文库的一系列生物催化反应来表征的，这也称为“生物合成历史”。对该文库的生物活性的筛选和对生物合成历史的追踪确定出产生活性化合物的特定反应顺序。重复该反应顺序，并确认出合成化合物的结构。这种确认方式，不同于其它的合成和筛选方法，并不需要固定化技术，化合物可以利用实际上任何类型的筛选分析在溶液中自由合成和测试。重要的是，酶反应在功能基团上的高度特异性允许“追踪”特定的酶促反应，由所述酶促反应制备出了生物催化产生的文库。

许多程序化的步骤可以使用自动化机器人来实施，这使得每天可执行数千个生物催化反应和筛选分析，并保证高水平的精确性和可重复性。结果，在大概几周内产生了衍生化合物的文库，而采用现今的化学方法则需要几年的时间。

在一个特定的方面，本发明提供了修饰小分子的方法，包括将在此所述的由多核苷酸编码的多肽或其酶活性片段与小分子接触，产生修饰的小分子。检测被修饰的小分子文库以确定显示出所需活性的修饰小分子是否存在于文库中。产生具有所需活性的修饰小分子的特异性催化反应的鉴定可通过系统性地去除用来产生一部分文库的每个生物催化反应，随后检测在这一部分文库中产生的小分子是否存在具有所需活性的修饰小分子。产生具有所需活性的修饰小分子的特异生物催化反应任选地被重复。生物催化反应可以用一组生物催化剂来进行，它们可与在小分子的结构中发现的各种不同结构部分反应，每个生物催化剂对一个结构部分或一组相关的结构部分是特异的，每个生物催化剂可与含有各种不同的结构部分的许多不同的小分子反应。

信号序列、前体、结合结构域和催化结构域

本发明提供了酶信号序列（例如，信号肽（SP））、前体结构域、结合结构域和催化结构域（CD）（例如，活性位点）。本发明的SP、前体结构域和/或CD可以是分离的或重组的肽，或可以是融合蛋白的一部分，例如作为嵌合蛋白的异源结构域。本发明提供了编码这些催化结构域（CD）、前体结构域和信号序列（SP，例如具有包含本发明多肽的氨基末端残基/由本发明多肽的氨基末端残基组成的序列的肽）的核酸。在一方面，本发明提供了信号序列，该信号序列包括肽，所述肽包含如下的一个序列/由如下的一个序列组成：本发明的多肽的残基1到10、1到11、1到12、1到13、1到14、1到15、1到16、1到17、1到18、1到19、1到20、1到21、1到22、1到23、1到24、1到25、1到26、1到27、1到28、1到28、1到30、1到31、1到32、1到33、1到34、1到35、1到36、1到37、1到38、1到39、1到40、1到41、1到42、1到43、1到44、1到45、1到46、1到47、1到48、1到49、1到50、1到51、1到52或更长所示的序列。

在一个方面，本发明也提供了嵌合多肽（和编码它们的核酸），该嵌合多肽包括至少两个本发明的酶或它们的子序列，例如催化结构域（CD）或活性位点。例如，本发明的嵌合多肽可以具有任何活性组合。在一个方面，本发明的嵌合多肽包括结构域的融合，例如，单个结构域可以表现出一种活性或多种活性的任何组合（例如，作为重组嵌合蛋白质）。

本发明也提供了分离的、合成的或重组的信号序列，所述信号序列包括本发明的信号序列或者由本发明的信号序列组成，所述信号序列例如下面的表1中示出的示范性信号序列，还提供了包括这些信号序列的多肽。多肽可以是本发明的另一个酶，或另一类型的酶或多肽。例如，为了帮助阅读表1，本发明提供了分离的、合成的或重组的信号序列，如SEQ ID NO:2的氨基端氨基酸残基1至21示出（“NH₂-MSRVCLPLTLTLALTLSARA”），其由例如，SEQ ID NO:1编码；等等。

表1

本发明的信号序列（SP）和/或前体序列可以是分离的肽，或与本发明的另一个酶或异源蛋白质连接的序列，例如作为融合（嵌合）蛋白。在一个方面，本发明提供了包含本发明的信号序列的多肽。在一方面，包含本发明的信号序列SP和/或前体的多肽包含与本发明的酶异源的序列（例如，包含本发明的SP和/或前体序列和/或来自另一蛋白的序列的融合蛋白）。在一方面，本发明提供了带有异源SP和/或前体序列的本发明的酶，例如带有酵母信号序列的序列。本发明的酶可以包含载体中的异源SP和/或前体序列，所述载体例如pPIC系列载体（Invitrogen，Carlsbad，CA）。在一个方面，本发明的SP和/或前体序列在鉴定新的多肽之后被鉴定。蛋白被分选和转运至其正确的细胞位置的通路通常被称为蛋白靶向通路（protein targeting pathways）。在所有这些靶向系统中最重要的元件之一是新合成的多肽的氨基末端上的短的氨基酸序列，称为信号序列。这种信号序列可指引蛋白至其在细胞中的适合位置，并在转运过程中或在蛋白到达其最终目的地时被去除。大多数的溶酶体蛋白、膜蛋白或分泌蛋白都具有氨基末端信号序列，这些信号序列标示着它们将转位至内质网腔内。在本组中已经有超过100个蛋白信号序列被确定。信号序列的长度可以从13至36个氨基酸残基之间变化。识别信号序列的各种方法对于本领域技术人员是已知的。例如，在一个方面，新的信号肽可通过称为SignalP的方法来鉴定。SignalP应用了既可识别信号肽，又可识别其裂解位点的组合神经网络。（Nielsen等人，“Indentification of prokaryotic andeukaryotic signal peptides and prediction of their cleavage sites”Protein Engineering,卷10,1,1-6页(1997)）。

应该理解的是，在一些方面，本发明的酶可以没有SP和/或前体序列，或一个或多个“结构域”。在一个方面，本发明提供了缺少所有或部分的SP和/或前体结构域的本发明的酶。在一个方面，本发明提供了编码来自本发明一种酶的信号序列（SP）和/或前体序列的核酸序列，其可操作连接于本发明的一种不同的酶的核酸序列，或者，可选地，来自不同类型的蛋白质的信号序列（SP）和/或前体结构域是被需要的。

本发明也提供了分离的或重组的多肽，其含有本发明的信号序列（SP）、前体结构域和/或催化结构域（CD）和异源序列。所述异源序列是与（例如，本发明的酶的）SP、前体结构域和/或CD天然不相关的序列。与SP、前体结构域和/或CD天然不相关的序列可以在SP、前体结构域和/或CD的氨基末端、羧基末端，和/或SP和/或CD的两个末端上。在一个方面，本发明提供了分离的或重组的多肽，其包含（或构成于）含有本发明的信号序列（SP）、前体结构域和/或催化结构域（CD）的多肽，条件是它没有同与其天然相关的任何序列连接。同样，在一个方面，本发明提供了编码这些多肽的分离的或重组的核酸。因此，在一个方面，本发明的分离的或重组的核酸包含本发明的信号序列（SP）、前体结构域和/或催化结构域（CD）的编码序列和异源序列（即，与本发明的信号序列（SP）、前体结构域和/或催化结构域（CD）天然不相关的序列）。异源序列可以在SP、前体结构域和/或CD编码序列的3’末端、5’末端和/或两个末端上。

杂合（嵌合）酶和肽文库

在一方面，本发明提供了包含本发明的序列的本发明的杂合酶和融合蛋白，包括肽库。本发明的肽库可以用于分离目标的肽调节物（如，激活物或者抑制物），如本发明的酶、它们的底物等。本发明的肽库可以用于鉴定目标的形式上的结合配偶，如，配体，例如，细胞因子，激素以及类似物。一方面，本发明提供了嵌合蛋白，其含有本发明的信号序列（SP）、前体结构域和/或催化结构域（CD）或其组合以及异源序列（如上）。

在一方面，本发明的融合蛋白（如，肽部分）是构象稳定的（相对于线形肽），对靶标具有更高的结合亲和性。本发明提供了本发明的酶与其它肽的融合，所述其它肽包括已知的肽和随机的肽。它们可以以这样一种方式融合，即所述多肽的结构没有明显地被扰乱，并且该肽在代谢上或者结构构象上是稳定的。这样便允许获得肽库，该肽库在细胞内的存在及其数量都是容易监测的。

本发明的氨基酸序列变体可以通过该变异的预定的性质来表征，也就是将它们与天然发生的形式区分开的特征，如，本发明酶的等位基因的或者种间的变异。在一方面，本发明的变体表现出与天然发生的类似物相同性质的生物活性。可选择地，可以选择具有改变的特征的变体。一方面，尽管引入氨基酸序列变化的位点或区域是预先决定的，但突变本身并不需要预先决定。例如，为了优化在一个给定位点出现的突变所带来的性能，可以在目标密码子或者区域进行随机诱变，并筛选被表达的酶变体，以寻找所需活性的优化组合。在具有已知序列的DNA的预先决定的位点产生取代突变的技术是已熟知的，正如在此说明的，例如，M13引物诱变和PCR诱变。突变体的筛选可以通过应用，例如，叶绿素水解分析来进行，如下面的实施例1所述。在可选择的方面，氨基酸取代物可以是单个残基；插入可以是大约1到20个氨基酸的水平，尽管可以插入比这大许多的片段。缺失的范围可以是大约1到大约20、30、40、50、60、70个残基或者更多。为了得到具有优化性质的最终衍生物，替代、缺失、插入或者任何它们的组合可以被应用。一般地，这些变化是在为数不多的氨基酸上进行，以使分子的改变最小化。然而，在某些情况下，可以容忍更大的改变。

本发明提供了多肽，例如本发明的酶，其中多肽骨架的结构、二级结构或三级结构，例如，α螺旋或β片层结构，已被修饰。一方面，电荷或疏水性已被修饰。一方面，侧链基团已被修饰。通过选择较不保守的取代来产生功能或免疫性的实质变化。例如，可以进行这样的取代，它们将更加显著地影响：发生变化的区域的多肽骨架的结构，例如α螺旋或β片层结构；分子的电荷或疏水位点，其可以是活性位点；或侧链。本发明提供在本发明的多肽中的取代，其中（a）亲水残基，例如丝氨酰或苏氨酰，被疏水残基例如亮氨酰、异亮氨酰、苯基丙氨酰、缬氨酰或丙氨酰取代；或者相反；（b）半胱氨酸或脯氨酸被任何别的残基取代；或者相反；（c）具有正电性侧链的残基，例如赖氨酰、精氨酰或组氨酰被带负电的残基例如谷氨酰或天冬氨酰取代；或者相反；或者（d）具有大体积侧链的基团，例如苯丙氨酸，被不具侧链的氨基酸例如甘氨酸取代；或者相反。所述变体可以表现出与本发明的酶相同性质的生物学活性，尽管变体可经选择来按需改变酶的特征。

在此应用的“氨基酸”或者“氨基酸序列”是指寡肽，肽，多肽，或者蛋白序列，或者是指这些序列中的任何序列的片段、部分或亚基，并且是指天然产生的或者合成的分子。

在此应用的“氨基酸”或者“氨基酸序列”包括寡肽，肽，多肽，或者蛋白序列，或者这些序列中的任何序列的片段、部分或亚基，并且是指天然产生的或者合成的分子。在此应用的术语“多肽”是指通过肽键或者修饰的肽键彼此连接的氨基酸，即，肽等构物（peptide isosteres），可以含有除了20个基因编码的氨基酸外的修饰氨基酸。多肽可以被天然过程如翻译后加工修饰，或者被本领域公知的化学修饰技术修饰。修饰可以在多肽中的任何位置发生，包括肽骨架、氨基酸侧链和氨基末端或羧基末端。应该理解，相同类型的修饰可以在已知的多肽中以相同的或者不同的水平在给定多肽的几个位点处发生。给定多肽也可以具有很多类型的修饰。修饰包括乙酰化、酰化作用、ADP-核糖基化作用、酰胺化作用、共价连接核黄素、共价连接血红素组分、共价连接核苷酸或核苷酸衍生物、共价连接脂质或脂质衍生物、共价连接磷脂酰肌醇、交联的环化作用、形成二硫键、去甲基作用、形成共价交联、形成半胱氨酸、形成焦谷氨酸、甲酰基化作用、γ-羧化作用、糖基化作用、形成GPI锚、羟基化作用、碘化作用、甲基化作用、肉豆蔻酰基化作用、氧化作用、聚乙二醇化、葡聚糖水解过程、磷酸化作用、异戊烯作用、外消旋作用、硒化作用、硫酸盐化作用，和转移RNA介导氨基酸添加到蛋白质中，如精氨酰化。（参见，Creighton,T.E.,Proteins–Structure and Molecular Properties2nd Ed.,W.H.Freeman and Company，New York(1993)；PosttranslationalCovalent Modification of Proteins,B.C.Johnson,Ed.,Academic Press,New York,1-12页(1983))。本发明的肽和多肽也包括所有的“模拟物”和“肽模拟物”形式，如下文详细论述。

此外，“基本上相同的”氨基酸序列是通过一个或多个保守或非保守氨基酸的取代、缺失、或插入而与参考序列有所不同的序列，尤其是当这样的取代发生在不是分子的活性位点（催化结构域（CDs））的位置时，前提是该多肽基本上保持其功能特性。保守的氨基酸取代，例如用一个氨基酸取代另一个相同类别的氨基酸（例如用一个疏水氨基酸，如异亮氨酸、缬氨酸、亮氨酸或甲硫氨酸，取代另一个疏水氨基酸，或用一个极性氨基酸取代另一个极性氨基酸，例如用精氨酸取代赖氨酸、用谷氨酸取代天冬氨酸，或用谷氨酰胺取代天冬酰胺）。可以从例如多肽中删除一个或多个氨基酸，从而形成对多肽结构的修饰，而又不会显著地改变其生物活性。例如，对酶生物学活性来说不需要的氨基或羧基末端氨基酸可以被去除。可以通过许多方法分析本发明的被修饰多肽序列的生物学活性（例如，酶活性或结合活性），包括使被修饰的多肽序列与酶底物接触，和确定在该分析中，被修饰的多肽是否降低特定底物的量或增加有功能肽与底物的酶反应的生物产物。

如本文所用的“片段”是天然发生蛋白质的一部分，其可以以至少两种不同构象存在。片段可以具有与天然发生蛋白质相同或基本上相同的氨基酸序列。“基本上相同”意味着，氨基酸序列在很大程度上相同，但不是完全相同，并且保持与其相关的序列的至少一种功能活性。在可选的方面，如果两个氨基酸序列具有至少约51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的序列同一性，则这两个氨基酸序列是“基本上相同”或“基本上同源”的。与天然发生的蛋白质具有不同三维结构的片段也被包含，例如，“原-形式（pro-form）”的分子，如低活性蛋白原，其可以通过切割被修饰，产生具有显著增高活性的成熟的酶。

在一方面，本发明的酶包括表位（epitopes）或者纯化标记、信号序列或其它的融合序列等。在一方面，酶可以与随机的肽融合，形成融合多肽。“融合”或者“可操作连接（operably linked）”在此是指随机肽和酶连接在一起，以这样的方式来最小化对酶结构的稳定性的破坏，例如，其仍保持活性。所述的融合多肽（或者编码该融合多肽的融合多核苷酸）还可以包含进一步的成分，包括在多环（multiple loops）处的多个肽。

在一方面，肽和编码它们的核酸是随机化的，或者是完全随机化的，或者是在随机化中有偏向，例如，在核苷酸/残基的普遍频率或者每个位置处的频率方面。“随机化”是指每一个核酸或肽分别由实质上随机的核苷酸和氨基酸组成。一方面，产生所述肽的所述核酸可以化学合成，并且可以在任何位置整合进任何核苷酸。因此，当所述核酸被表达形成肽时，任何氨基酸残基可以整合进任何位置。可以设计合成过程来产生随机化的核酸，从而允许在所述核酸的长度范围内形成所有的或大多数的可能组合，由此形成随机核酸文库。该文库可以提供足量的结构多样的随机化表达产物群体，可以获得概率上充分的细胞响应范围，从而可以提供一种或多种表现出所需响应的细胞。因此，本发明提供了一个足够大的相互作用文库，以便其成员中的至少一个会具有使其对于一些分子、蛋白或者其他因子具有亲和性的结构。

本发明提供了产生可以编码生物学活性杂合多肽（例如，本发明的杂合酶）的嵌合多肽的方法。在一方面，原始的多核苷酸编码生物学活性多肽。本发明的方法通过应用细胞内过程产生新的杂合多肽，该过程整合原始的多核苷酸的序列，这样所得到的杂合多核苷酸编码表现出源于原始的生物活性多肽的活性的多肽。例如，原始的多核苷酸可以编码来自不同微生物的特定酶。由来自一个生物体的第一多核苷酸或变体编码的酶可以，例如，在特定的环境条件下，如高盐的条件下有效地发挥作用。来自不同生物体的第二多核苷酸或变体编码的酶可以在不同的环境条件下，如超高温条件下，有效地发挥作用。含有来自第一和第二原始多核苷酸的序列的杂合多核苷酸可以编码表现出由原始多核苷酸编码的两种酶的特性的酶。因此，由杂合多核苷酸编码的酶可以在第一和第二多核苷酸编码的酶共有的环境条件下，如高盐和极端温度下有效地发挥作用。

由本发明的方法得到的杂合多肽可以表现出原始酶所没有显示出的特异酶活性。例如，在编码酶活性的多核苷酸重组和/或还原性重配以后，由杂合多核苷酸编码得到的杂合多肽可以被筛选来自每一种原始酶的特异活性，即，酶对之起作用的键的类型以及酶发挥作用的温度。这样，例如，可以筛选酶，来确定那些可以区分杂合酶和原始酶的化学功能性，如，底物专一性或杂合多肽起作用时的温度、pH值或盐浓度。

原始多核苷酸来源可以是分离自个体生物体（“分离物”），已经生长在成分确定培养基中的生物体群（“富集培养物”），或者未经培养的生物体（“环境样品”）。应用不依赖于培养物的途径从环境样品获得编码新型生物活性的多核苷酸是最优选的，因为这样可以接触到具生物多样性的未被利用的资源。

“环境文库”是从环境样品中产生，并且代表了天然发生生物体的全体基因组，环境文库可以用克隆载体进行贮存，所述载体可以在适合的原核宿主中繁殖扩增。因为被克隆的DNA起初是从环境样品中直接提取的，所以所述文库并不限于可以在纯培养物中生长的小部分原核生物。此外，存在于这些样品中的环境DNA的标准化，使其更加公正地代表在原始样品中存在的所有物种的DNA。这可以显著增加从样品的次要组成中发现感兴趣基因的效率，所述次要组成与优势种相比，可能小几个数量级。

例如，从一个或者更多的未培养的微生物产生的基因文库被筛选以发现感兴趣的活性。编码感兴趣的生物活性分子的潜在途径，首先在原核生物细胞中以基因表达文库的方式被捕获。编码感兴趣活性的多核苷酸分离自这样的文库，并且引入到宿主细胞中。该宿主细胞在促进重组和/或还原性重配的条件下生长，产生具有新的或者增强活性的潜在的活性分子。

可以制备多核苷酸的微生物包括原核微生物如真细菌和古细菌，低等真核微生物如真菌、一些藻和原生动物。多核苷酸可以分离自环境样品，在这种情况下，核酸被回收而不需培养某一种生物体，或者是从一种或者多种培养的生物中回收。在一方面，这样的微生物可以是适于极端环境的，如，嗜高温的、嗜冷的、冷育的、嗜盐的、嗜压的和嗜酸的。编码从极端微生物中分离出来的酶的多核苷酸可以应用。这样的酶可以在地表温泉和深海的热火山口超过100℃的温度下有作用，在北极水域低于0℃的温度下有作用，在死海的饱和的盐环境下有作用，在pH值在0附近的煤层沉积物和地热富硫矿泉中起作用，或者在pH值超过11的污水污泥中有作用。例如，从来自极端条件下的生物体被克隆和被表达的若干酯酶和脂酶在很宽的温度和pH范围内表现出高活性。

在上文描述的选择和分离的多核苷酸被引入到适当的宿主细胞中。适当的宿主细胞是可以促进重组和/或还原性重配的任何细胞。在一个方面，选择的多核苷酸已在包括合适调控序列的载体中。宿主细胞可以是较高等的真核生物细胞，如哺乳动物细胞，或者较低等的真核生物细胞，如，酵母细胞，或者在一个方面，宿主细胞可以是原核细胞，如细菌细胞。将构建物导入宿主细胞可通过磷酸钙转染、DEAE-葡聚糖介导的转染，或电穿孔（Davis等人，1986）来实现。

适当的宿主的代表性例子包括：细菌细胞，如大肠杆菌、链霉菌、伤寒沙门氏菌；真菌细胞，如酵母；昆虫细胞如果蝇S2和草地夜蛾Sf9；动物细胞如CHO、COS或者Bowes黑素瘤细胞；腺病毒；和植物细胞。按照本文的教导，对适合宿主的选择被认为是在本领域技术人员已知的范围内。

关于可以用于表达重组蛋白的各种哺乳动物细胞培养系统，哺乳动物表达系统的例子包括：猴肾纤维原细胞的COS-7细胞系，其在“SV40-transformed simiancells support the replication of early SV40mutants”（Gluzman,1981）中有说明，能够表达相容载体的其它细胞系，例如，C127、3T3、CHO、HeLa和BHK细胞系。哺乳动物表达载体可以包括复制起点、合适的启动子和增强子，以及必要的核糖体结合位点、多聚腺苷酸化的位点、剪接供体和受体位点、转录终止序列，以及5’侧翼非转录序列。源于SV40剪接的DNA序列和多聚腺苷酸化的位点可以用于提供所需的非转录的遗传学元件。

另一方面，预期本发明的方法可以用于产生编码生物化学途径的新型多核苷酸，所述生物化学途径来自一个或者多个操纵子或者基因簇或者其部分。例如，细菌和很多的真核生物具有调控基因的协调机制，其中所述基因的产物参与相关的过程。基因成簇排列在单个染色体上，在结构上称“基因簇”，它们在单个调节序列的调控下一起转录，所述调节序列包括起始整个簇的转录的单个启动子。因此，基因簇是指一组或者相同或者相关的相邻基因，一般是指功能上相关。基因簇编码的生物活性途径的一个例子是聚酮化合物。

基因簇DNA可以从不同的生物体中分离出来并且连接到载体中，特别是含有表达调节序列的载体，所述表达调节序列可以调控和调节可检测蛋白或者来自连接在一起的基因簇的蛋白相关系列活性的产生。对于引入外源DNA使用具有非常大的容量的载体，特别适合用于这样的基因簇，在这里通过包括大肠杆菌的f-因子（或者致育因子）的例子加以说明。大肠杆菌的f-因子是一种质粒，在接合过程中它能实现自身的高频率转移，f-因子对于获得和稳定扩增大DNA片段，如来自混合的微生物样品的基因簇是理想的。一方面是应用称作“F黏粒”的克隆载体或细菌人工染色体（BAC）载体。它们源于大肠杆菌f因子，可以稳定地整合大的基因组DNA片段。当整合来自混合的未经过培养的环境样品的DNA时，这就有可能得到以稳定的“环境DNA文库”形式存在的大的基因组片段。用于本发明的另一类载体是粘粒载体。粘粒载体最初是设计用来克隆和扩增基因组DNA的大片段。应用粘粒载体的克隆在Sambrook等,Molecular Cloning:A Laboratory Mannual，2nd ED.，Cold Spring Harbor Laboratory Press（1989）中有详细说明。一旦连接到适当的载体，含有不同的聚酮化合物合酶基因簇的两个或者多个载体可以引入到适合的宿主细胞中。这些基因簇所共有的具有部分序列同源性的区域将促进导致序列重新组织为杂合基因簇的过程。然后可以对新的杂合基因簇进行筛选，以寻找在原始基因簇中没有发现的增强的活性。

因此，在一方面，本发明涉及产生具有生物活性的杂合多肽以及筛选具有增强活性的该多肽的方法，该方法通过：

1）以可操作性连接的方式导入至少第一多核苷酸和以可操作性连接的方式导入第二多核苷酸到合适的宿主细胞，所述的至少第一多核苷酸和第二多核苷酸共有具有部分序列同源性的至少一个区域；

2）在促进序列重新组织的条件下培养宿主细胞，得到可操作性连接的杂合多核苷酸；

3）表达由所述杂合多核苷酸编码的杂合多肽；

4）在有利于鉴定增强的生物活性的条件下筛选所述的杂合多肽；和

5）分离编码该杂合多肽的多核苷酸。

用于筛选各种酶活性的方法对于本领域技术人员是已知的，关于它的讨论贯穿于本说明书。当要分离本发明的多肽和多核苷酸时，可以应用这些方法。

筛选方法和“在线”监控设备

在实践本发明的方法时，多种仪器和方法可以与本发明的多肽和核酸一起使用，例如，以筛选多肽的酶活性，以筛选作为潜在调节剂的化合物，例如活性激活剂或抑制剂，以筛选与本发明的多肽结合的抗体，与本发明的核酸杂交的核酸，筛选表达本发明的多肽的细胞，等等。除了下面详细描述的用于筛选样品的阵列形式，其它的形式也可用于实践本发明的方法。这样的形式包括，例如质谱仪、色谱仪，例如高通量HPLC和其它形式的液相色谱，以及更小的形式，如1536孔平板、384孔平板等等。高通量筛选仪器可以被适当改造并用于实践本发明的方法，例如参见美国专利申请号20020001809。

毛细管阵列

本发明的核酸或多肽可被固定或应用于阵列上。阵列可用来筛选或监测化合物（例如，小分子、抗体、核酸等）的文库，以发现它们结合本发明的核酸或多肽或者调节本发明的核酸或多肽的活性的能力。毛细管阵列，如GIGAMATRIX^TM,戴弗萨公司,San Diego,CA；和描述在例如美国专利申请20020080350A1；WO0231203A；WO0244336A中的阵列，提供了容纳和筛选样品的可供选择的装置。在一个方面，毛细管阵列包括多个毛细管，它们形成具有相互邻近的毛细管的阵列，其中所述的每个毛细管含有至少一个壁，其限定了一个用以保留样品的内腔。这个内腔可以是圆柱形的、正方形的、六边形的或其它任何几何形状，只要所述壁能够形成内腔以保留住液体或样品。毛细管阵列的毛细管可相互靠近，联合在一起形成一个面状的构造。毛细管可通过融合（例如，当毛细管由玻璃制成时）、粘合、键合或面对面的夹合而结合在一起。可选择地，毛细管阵列可以包括在阵列中相邻毛细管之间放置的间质材料（interstitial material），从而形成含有多个穿通孔（through-holes）的固体平面装置。

毛细管阵列可由任何数量的毛细管形成，例如，100至4,000,000个毛细管。进一步，具有大约100,000或更多个毛细管的毛细管阵列可形成标准大小和形状的

板，其适合于标准的实验室设备。通过毛细作用或使用细针的微注射，人工或自动地将腔充满。随后可以从毛细管中移出感兴趣的样品以进行进一步的分析或定性。例如，安置细针样的探头，使其与选择的毛细管能够液体连通，从而可以向腔内加入材料或移走材料。

在单区筛选分析（single-pot screening assay）中，分析成分在插入到毛细管阵列中之前被混合在一起，产生目的溶液。当至少一部分阵列被浸入目标溶液中时，通过毛细作用充满内腔。在每个毛细管中的化学或生物学反应和/或活性被监测，以发现可检测到的事件。所述的可检测到的事件常常被称为“命中事件（hit）”，其常常可以通过光学检测与产生“非命中事件（non-hit）”的毛细管区分开来。因此，毛细管阵列可整体地并行检测“命中事件”。

在多区筛选分析（multi-pot screening assay）中，多肽或核酸，例如，配体可被导入进第一成分中，该成分被导入进毛细管阵列的至少一部分毛细管中。然后将气泡导入进第一成分后面的毛细管中。然后将第二成分导入进毛细管内，其中所述的第二成分与第一成分通过气泡相隔。通过在毛细管阵列的两侧施加静水压挤破气泡将第一和第二成分混合在一起。然后监测毛细管阵列中由于两个成分的反应或非反应而发生的可检测到的事件。

在结合筛选分析（binding screening assay）中，感兴趣的样品可作为用可检测颗粒标记的第一液体导入进毛细管阵列的毛细管中，其中为了使可检测颗粒与内腔结合，毛细管的内腔包被了一种结合材料。然后第一液体可从毛细管中移去，其中结合的可检测颗粒仍保留在毛细管内，可以将第二液体导入进毛细管内。然后监测毛细管中由于颗粒与第二液体的反应或非反应而发生的可检测到的事件。

阵列，或“生物芯片”

本发明的核酸或者多肽可以固定于或者应用于阵列。可以应用阵列来筛选或者监测化合物（例如，小分子、抗体、核酸等等）的文库，所述筛选或者监测是针对它们结合本发明的核酸或多肽或者调控本发明的核酸或多肽的活性的能力。例如，在本发明的一方面，一个被监测的参数是基因的转录表达，例如本发明的基因（编码本发明多肽的核酸）。细胞的一种或多种或所有的转录物都可以通过阵列或“生物芯片”上的固定化核酸与包含细胞转录物、或代表细胞转录物的核酸、或与细胞转录物互补的核酸的样品的杂交来测定。通过在微型芯片上应用核酸“阵列”，细胞的一些或所有的转录物可以同时被定量。可选择地，包含基因组核酸的阵列也可以用于确定通过本发明的方法制造的新型的工程菌株的基因型。“多肽阵列”也可以用于同时定量多种蛋白。本发明可以用任何已知的“阵列”进行实践，所述“阵列”也指“微阵列”或“核酸阵列”或“多肽阵列”或“抗体阵列”或“生物芯片”，或者它们的变体。阵列一般是多个“点”或者“靶元素”，每一个靶元素包括确定数量的一种或多种生物分子，例如，固定于基底表面的确定区域、用于特异结合一种样品分子如mRNA转录物的寡核苷酸。

在实践本发明的方法时，任何已知的阵列和/或制备和应用阵列的方法都可以被全部或者部分地并引入，或者引入它们的变化，例如在下列文献中说明的：美国专利6,277,628；6,277,489；6,261,776；6,258,606；6,054,270；6,048,695；6,045,996；6,022,963；6,013,440；5,965,452；5,959,098；5,856,174；5,830,645；5,770,456；5,632,957；5,556,752；5,143,854；5,807,522；5,800,992；5,744,305；5,700,637；5,556,752；5,434,049；也参见，例如，WO99/51773；WO99/09217；WO97/46313；WO96/17958；也参见，例如，Johnston（1998）Curr.Biol.8：R171-R174；Schummer（1997）Biotechinques23:1087-1092；Kern（1997）Biotechniques23:120-124；Solinas-Toldo（1997）Genes,Chromosomes&Cancer20:399-407；Bowtell（1999）Nature Genetics Supp.21:25-32。也参见公布的美国专利申请20010018642；20010019827；20010016322；20010014449；20010014448；20010012537；20010008765。

在此应用的术语“阵列”或者“微阵列”或者“生物芯片”或者“芯片”是许多靶元素，每一个靶元素包括确定量的一个或者多个多肽（包括抗体）或者固定于底物表面的确定区域上的核酸，参见下面进一步的具体讨论。

抗体和基于抗体的筛选方法

本发明提供了分离的或重组的抗体，所述抗体与本发明的多肽特异性结合。这些抗体可用于分离、鉴定或定量本发明的多肽或相关多肽。这些抗体可用于分离本发明范围内的其它多肽，或其它相关多肽。这些抗体被设计成与本发明多肽的活性位点结合。因此，本发明提供了使用本发明的抗体抑制酶的方法（参见上面的讨论）。本发明提供了本发明酶的片段，包括本发明多肽的免疫原性片段。本发明提供了包括本发明多肽或肽和辅剂或载体和类似物的组合物。

抗体可以在免疫沉淀、染色、免疫亲合柱以及类似的程序中被应用。如果需要的话，编码特异抗原的核酸序列可以通过免疫方法获得，随后分离出多肽或核酸，进行扩增或克隆，将多肽固定在本发明的阵列上。可供选择的，本发明的方法可以用于修饰由细胞产生的待修饰的抗体的结构，如，抗体的亲和性可以增加或者降低。而且，制备或修饰抗体的能力可以是通过本发明的方法设计细胞的表型。

免疫接种、产生和分离抗体（多克隆的或单克隆的）的方法是本领域技术人员所了解的，并且在科学和专利文献中有描述，参见，如，Coligan,CURRENTPROTOCOLS IN IMMUNOLOGY,Wiley/Greene,NY（199l）；Stites（eds.）BASICAND CLINICAL IMMUNOLOGY（第7版）Lange Medical Publications,Los Altos,CA（“Stites”）;Goding，MONOCLONAL ANTIBODIES：PRINCIPLES ANDPRACTICE（第2版）Academic Press,New York,NY（1986）;Kohler（1975）Nature256:495；Harlow（1988）ANTIBODIES,A LABORATORY MANUAL,Cold SpringHarbor Publications,New York。除了使用动物的传统的体内方法外，抗体也可以在体外产生，例如，应用表达重组抗体结合位点的噬菌体展示文库。参见如，Hoogenboom（1997）Trends Biotechnol.15：62-70；Katz（1997）Annu.Rev.Biophys.Biomol.Struct.26：27-45。

本发明的多肽或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段，也可以用于产生与所述多肽或片段特异结合的抗体。所得到的抗体可以在免疫亲和层析方法中使用，以分离或纯化多肽或确定生物样品中是否存在多肽。在这样的方法中，蛋白制剂，如提取物，或生物样品与抗体接触，所述抗体能与本发明的多肽之一或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段特异结合。

在免疫亲和方法中，抗体被附着在固相支持物上，如珠子或其它柱基质。在抗体与本发明的多肽之一或其片段特异结合的条件下，蛋白制剂与抗体接触放置。在洗涤去除非特异结合的蛋白后，洗脱特异性结合的多肽。

生物样品中蛋白与抗体结合的能力可以使用本领域技术人员熟悉的多种方法中的任意方法确定。例如，结合可以通过用可检测标记如荧光试剂、酶标记物或放射性同位素对抗体进行标记来确定。可以选择地，抗体与样品的结合可以使用其上具有这样的可检测标记物的二抗来检测。特定的测定法包括ELISA测定法、夹心测定法、放射免疫测定法和Western印迹。

针对本发明的多肽或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段产生的多克隆抗体可以通过将多肽直接注入到动物或通过将多肽施用到动物上来获得，所述动物例如非人动物。如此获得的抗体然后将结合多肽本身。以这样的方式，甚至编码多肽的仅仅一个片段的序列可以用于产生可能与整个天然多肽结合的抗体。这样的抗体然后被用于从表达所述多肽的细胞中分离多肽。

为了制备单克隆抗体，可使用通过连续细胞系培养来产生抗体的任何技术。实例包括杂交瘤技术(Kohler and Milstein,Nature,256:495-497,1975)、trioma技术、人B细胞杂交瘤技术(Kozbor et al.,Immunology Today4:72,1983)和EBV-杂交瘤技术（Cole等人,1985,Monoclonal Antibodies and Cancer Therapy,Alan R.Liss,Inc.,pp.77-96）。

所描述的用于产生单链抗体的技术（美国专利4,946,778）可以适于产生针对本发明多肽或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段的单链抗体。可以选择地，转基因小鼠可用于表达针对这些多肽或其片段的人源化抗体。

针对本发明多肽或包括其至少约5、10、15、20、25、30、35、40、50、75、100或150或更多个连续氨基酸的片段产生的抗体可以用于从其它生物体和样品中筛选类似多肽。在这样的技术中，来自生物体的多肽与抗体接触，并检测那些特异性结合抗体的多肽。上面所描述的任何方法可以用于检测抗体结合。一种这样的筛选试验描述于“Methods for Measuring Cellulase Activities”,Methods inEnzymology,Vol160,pp.87-116。

术语“抗体”包括源自、建模自（modeled after）或者实质上编码自一种或多种免疫球蛋白基因或其片段的肽或者多肽，其能够特异地结合于抗原或者表位，参见，例如Fundamental lmmunology,Third Edition,W.B.Paul,ed.,Raven Press,N.Y.（1993）；Wilson（1994）J.Immunol.Methods175:267-273；Yarmush（1992）J.Biochem.Biophys.Methods25：85-97。术语抗体包括抗原结合部分，即，“抗原结合位点”（例如，片段、子序列、互补决定区（CDRs）），其保持了结合抗原的能力，包括：（i）Fab片段，由VL、VH、CL和CH1结构域组成的单价片段；（ii）F(ab’)₂片段，包括在铰链区通过二硫键连接两个Fab片段的二价片段；（iii）由VH和CH1结构域组成的Fd片段；（iv）由抗体单臂的VL和VH结构域组成的Fv片段，（v）由VH结构域组成的dAb片段（Ward et al.,（1989）Nature341:544-546）；以及（vi）分离的互补决定区（CDR）。单链抗体也被包括于术语“抗体”中。

试剂盒

本发明提供了试剂盒，其包括组合物，如本发明的核酸、表达序列盒、载体、细胞、转基因种子或植物或植物部分、多肽（例如，参与叶绿素分解代谢或具有酯酶（例如，叶绿素酶）活性的酶）和/或抗体。正如此处所描述的，这些试剂盒也可以含有教导本发明的方法学和工业应用的指导材料。在一方面，试剂盒也可以被设计以适应，例如，工业规模水平加工食品、饲料、油和类似物。

全细胞工程和测定代谢参数

本发明的方法提供了细胞的全细胞进化或全细胞工程，其通过例如修饰细胞的遗传组成来开发具有新表型的新颖细胞株，例如，具有修饰的叶绿素分解代谢途径或新的或修饰的酶（例如，叶绿素酶）活性的细胞株。遗传组成可通过加入本发明核酸到细胞中来改变，例如加入本发明的酶的编码序列。例如参见WO0229032；WO0196551。

为了探测新的表型，在“实时”或“在线”的时间期间监测被修饰的细胞的至少一种代谢参数。一发面，多个细胞，如细胞培养物被“实时”或“在线”监测。一方面，“实时”或“在线”监测多个代谢参数。代谢参数可以应用本发明的酶来监测。

代谢流分析（MFA）是以已知的生物化学框架为基础。以质量守恒定律和细胞内代谢的假稳态假说（PSSH）为基础，构建线性独立代谢矩阵。在实践本发明的方法时，建立代谢网络，包括：

●所有途径底物、产物和中间代谢物的特性，

●使途径代谢物互变的所有化学反应的特性，途径反应的化学计量学，

●催化反应的所有酶的特性，酶反应动力学，

●途径组分之间的调控性相互作用；如变构效应相互作用，酶-酶相互作用等，

●酶或者酶的任何其它超大分子组织在细胞内的区室化，以及，

●任何浓度梯度的代谢物、酶或者效应分子，或者它们运动的扩散屏障的存在。

一旦针对给定的细胞株建立了代谢网络，如果在线代谢数据可用，那么可以通过矩阵概念引入数学表达来评估细胞内的代谢流。代谢表型依赖于细胞内整个代谢网络的变化。代谢表型依赖于途径利用对环境条件、遗传调控、发育状态和基因型等等作出的变化。在本发明方法的一个方面，当计算了在线MFA之后，通过研究所述的途径利用来分析细胞的动力学行为、它们的表型和其它性质。例如，在酵母发酵中，如果葡萄糖供应增加，氧气减少，呼吸途径的利用将会降低和/或者停止，而发酵途径的利用将占优势。在所述的途径分析之后，细胞培养物的生理状态的控制将成为可能。通过确定如何改变底物供给、温度、诱导物的使用等来控制细胞的生理状态朝着所需的方向进行，本发明的方法可以有助于确定如何操纵发酵。在实践本发明的方法时，MFA的结果也可以与转录物组（transcriptome）和蛋白质组（proteome）的数据比较，以设计实验和方案用于代谢工程或者基因重排等等。

在实践本发明的方法时，可以产生和检测到任何修饰的或者新的表型，包括在细胞中新的或者改进的特征。可以监测代谢或生长的任何方面。

监控mRNA转录物的表达

在本发明的一个方面，工程改造得到的表型包括增加或降低mRNA转录物（例如，参与叶绿素分解代谢或具有酯酶（例如，叶绿素酶）活性的多肽的信息）的表达，或在细胞中产生新的转录物。增加或降低的表达可以通过测试本发明的酶的存在或通过酶活性分析来跟踪。mRNA转录物或信息，也可以通过本技术领域已知的任何方法来检测和量化，包括Northern印迹、定量扩增反应、与阵列的杂交，以及类似的方法。定量扩增反应包括，例如定量PCR，例如包括定量逆转录聚合酶链式反应或RT-PCR；定量实时RT-PCR，或“实时动力学RT-PCR”（例如参见Kreuzer（2001）Br.J.Haematol.114:313-318;Xia（2001）Transplantation72:907-914）。

在本发明的一方面，工程改造得到的表型是通过敲除同源基因的表达产生。可以敲除所述基因的编码序列或者一个或多个转录控制元件，如启动子或者增强子。这样，转录物的表达可以完全去除或者仅仅降低。

在本发明的一方面，工程改造得到的表型包括增加同源基因的表达。这可以通过敲除负调控元件或者诱变正调控元件而实现，负调控元件包括以顺式或反式起作用的转录调控元件。细胞的一种或多种或所有的转录物可以通过阵列上的固定化核酸与样品的杂交来测定，所述样品包含细胞转录物、或代表细胞转录物的核酸、或与细胞转录物互补的核酸。

监测多肽、肽和氨基酸的表达

在本发明的一方面，工程改造得到的表型包括增加或降低多肽（如参与叶绿素分解代谢或具有酯酶（例如，叶绿素酶）活性的多肽）的表达或者在细胞内产生新的多肽。这一增加或者减少的表达可以通过确定存在的酶量或者通过酶活性分析来跟踪。也可以通过本领域任何已知的方法来检测并定量多肽、肽和氨基酸，所述方法包括，如，核磁共振（NMR）、分光光度测定法、射线照像术（蛋白放射性标记）、电泳、毛细管电泳、高效液相色谱（HPLC）、薄层色谱（TLC）、超扩散色谱，各种免疫学方法，如，免疫沉淀、免疫扩散、免疫电泳、放射性免疫分析（RIA）、酶联免疫吸附分析（ELISA）、免疫荧光分析，凝胶电泳（如，SDS-PAGE）、用抗体染色、荧光激活的细胞分选器（FACS）、热分解质谱、傅立叶转换红外光谱测定、拉曼光谱、GC-MS和LC-电喷以及cap-LC-串联-电喷质谱，和类似的方法。应用这些方法或它们的变体也可以筛选新的生物活性，在美国专利6,057,103中有说明。而且，正如以下详细讨论的，可以应用蛋白阵列测定细胞的一个或多个或所有的多肽。

酶

本发明提供了用于酶处理，例如脱色或“漂白”含叶绿素（叶绿素可以在制备物、饲料、食品或油中作为污染物天然存在，作为被加工产品中的不需要的组分，等）藻类、动物（例如鱼）和/或植物制备物、饲料、食品或油的新的组合物和方法。在一方面，应用叶绿素酶或等价的酶对含叶绿素或受叶绿素污染的组分，例如，藻类、动物或植物制备物、饲料、食品或油进行酶处理。具有能够修饰叶绿素或叶绿素代谢的活性的任何多肽都可以用在本发明的组合物或方法中。

叶绿素酶

本发明的多肽和/或肽可以具有酯酶活性，例如，叶绿素酶或相似的活性。本发明的多肽和/或肽可以包括催化性抗体、酶、活性位点等等。具有酯酶（例如，叶绿素酶）活性的本发明的这些多肽和/或肽可以用在本发明的组合物或方法中。例如，在一方面，本发明的组合物和方法酶处理含叶绿素或受叶绿素污染的组分，通过水解叶绿素（图1A）为叶绿醇（图1B）和脱植基叶绿素（图1C）实施。

任何叶绿素酶、chlase或叶绿素脱植基叶绿素基水解酶或具有相似活性的多肽（例如，叶绿素-脱植基叶绿素基水解酶1或chlase1，或叶绿素-脱植基叶绿素基水解酶2或chlase2，分别参见，例如，NCBI P59677_1和P59678）都可以用在本发明的组合物或方法中。催化叶绿素酯键水解产生脱植基叶绿素和植醇的任何多肽（例如，酶或催化性抗体）都可以用在本发明的组合物或方法中。任何分离的、重组的或合成的或嵌合的（合成和重组的组合）多肽（例如，酶或催化性抗体）都可以应用，例如，叶绿素酶、chlase或叶绿素脱植基叶绿素基水解酶或具有类似活性的多肽可以用在本发明的组合物或方法中，参见，例如，Marchler-Bauer(2003)Nucleic Acids Res.31:383-387。

在一方面，本发明的组合物和方法可以用如WO0229022中描述的酶实施。例如，在一方面，本发明的组合物和方法可以包括重组表达酶，例如，叶绿素酶，如编码叶绿素酶的多核苷酸。在一方面，重组核酸在整个细胞、细胞提取物或体外表达。在一方面，编码酶的多核苷酸被修饰，在转化的宿主细胞中产生改变水平的酶（例如，叶绿素酶）。

在一方面，本发明的组合物和方法可以用已知的酶，如叶绿素酶（包括chlase和叶绿素脱植基叶绿素基水解酶）实施，相关多肽是本领域已知的。例如，可以应用拟南芥（Arabidopsis thaliana）叶绿素酶，如在例如NCBI登记项NM_123753中所述（其中具有SEQ ID NO:22示出的序列的酶是由例如SEQ ID NO:21编码）：

SEQ ID NO:21

AAAAAAAGTAAAGAAAAGAAAAACTAATAAAGAACAAAAAAAATGTCC

TCTTCTTCATCAAGAAACGCCTTTGAAGATGGCAAATACAAATCAAATCT

CTTAACCTTGGACTCATCATCTCGTTGCTGCAAAATAACACCGTCTTCTA

GAGCTTCACCGTCTCCGCCAAAGCAGCTGTTGGTGGCTACGCCGGTGGA

GGAAGGAGATTATCCGGTGGTGATGCTCCTCCATGGTTACCTTCTCTACA

ACTCCTTCTATTCTCAGCTTATGTTGCATGTCTCTTCTCATGGCTTCATCC

TCATCGCTCCTCAGTTATATAGTATCGCCGGACCAGACACAATGGATGA

GATTAAATCAACGGCGGAGATTATGGATTGGTTATCAGTAGGACTTAAT

CACTTTCTTCCAGCGCAAGTAACACCAAACCTATCCAAATTTGCCCTCTC

CGGCCATAGCCGCGGTGGCAAAACCGCGTTTGCGGTCGCCTTAAAGAAA

TTTGGGTACTCCTCGAATCTAAAGATCTCGACATTGATCGGTATAGATCC

AGTCGATGGAACAGGGAAAGGGAAACAAACCCCTCCTCCGGTGTTGGCT

TACCTTCCAAACTCATTTGACCTAGACAAAACGCCTATACTTGTGATCGG

TTCGGGGCTTGGTGAAACCGCTCGGAACCCATTATTCCCACCGTGTGCAC

CTCCCGGAGTGAATCACCGAGAGTTCTTTCGGGAATGTCAAGGTCCAGC

ATGGCATTTCGTTGCGAAGGATTATGGGCATTTGGACATGCTTGATGATG

ATACAAAAGGGATTAGAGGGAAGAGTTCTTATTGTTTGTGTAAGAATGG

TGAAGAGAGGAGACCAATGAGGAGATTCGTTGGTGGACTTGTTGTATCA

TTTTTGAAGGCTTATTTGGAAGGAGATGATCGTGAATTAGTTAAGATCAA

AGATGGGTGTCACGAGGATGTTCCCGTTGAAATTCAAGAGTTTGAGGTT

ATCATGTAAACATAAGTTTTTCTTTAGGGGCTGGTTTTTCTATTGTCAATA

TCATCAGCTTTTGTTGCTTATGGTTTTACAAACTTATATTGTACAACTCTT

TAAGTCACCTCTTTGCTTATGATATTAACCCGATC

SEQ ID NO:22

MSSSSSRNAFEDGKYKSNLLTLDSSSRCCKITPSSRASPSPPKQLLVATPVEE

GDYPVVMLLHGYLLYNSFYSQLMLHVSSHGFILIAPQLYSIAGPDTMDEIKS

TAEIMDWLSVGLNHFLPAQVTPNLSKFALSGHSRGGKTAFAVALKKFGYSS

NLKISTLIGIDPVDGTGKGKQTPPPVLAYLPNSFDLDKTPILVIGSGLGETARN

PLFPPCAPPGVNHREFFRECQGPAWHFVAKDYGHLDMLDDDTKGIRGKSSY

CLCKNGEERRPMRRFVGGLVVSFLKAYLEGDDRELVKIKDGCHEDVPVEIQ

EFEVIM

可以应用银杏（Ginkgo biloba）叶绿素酶，如在例如NCBI登录项AY292526中所述：

SEQ ID NO:23

TTGAAAAACAAAAACGAAGAAGATGAACTCAGTACTTGCACACAGCCAT

CGGCCATGGTTTTAGTGAAGGATGTGTTCAGCGAAGGTCCTTTACCTGTT

CAAATCCTCGCAATTCCACAAGCCAACTCATCTCCATGCTCAAAATTAGC

AGACAAAAACGGAACTGCAACCACGCCTTCTCCTTGTCGGCCTCCTAAA

CCCCTGCTGATCGCTCTTCCTTCCCAACATGGAGATTATCCTCTCATCCTC

TTTTTCCACGGCTATGTACTCCTCAATTCCTTCTATTCTCAACTCTTGCGC

CATGTTGCTTCCCATGGATACATCGCCATAGCTCCTCAGATGTACAGTGT

AATTGGCCCAAATACGACTCCAGAAATAGCCGATGCAGCGGCCATTACA

GACTGGTTACGAGATGGACTCTCGGATAATCTTCCGCAAGCTTTAAACA

ATCATGTGAGGCCCAATTTTGAGAAATTTGTGCTAGCGGGGCACTCGCG

CGGGGGTAAAGTGGCATTTGCACTTGCCCTAGGTCGAGTCTCGCAGCCA

TCTTTAAAGTACTCGGCCCTTGTAGGTCTTGATCCAGTCGATGGAATGGG

AAAAGATCAACAAACCAGTCATCCTATTCTGTCATACAGAGAGCATTCC

TTTGATTTGGGTATGCCAACATTAGTGGTAGGTTCGGGCCTGGGTCCGTG

CAAAAGAAACCCTCTCTTCCCTCCCTGTGCTCCCCAAGGTGTTAACCACC

ATGATTTCTTCTACGAATGTGTCGCTCCTGCCTATCATTTTGTTGCCTCTG

ATTATGGGCATCTTGATTTCTTAGACGACGACACCAAAGGAATAAGAGG

AAAGGCTACTTATTGCCTCTGTAAGAATGGGGAAGCAAGAGAGCCAATG

CGGAAGTTTAGCGGTGGAATTGTGGTTGCATTTCTTCAAGCATTTCTTGG

TGATAATCGTGGAGCCCTGAATGATATTATGGTTTATCCTTCACATGCTC

CAGTCAAGATTGAGCCTCCAGAGTCTTTGGTTACAGAAGATGTAAAATC

CCCAGAAGTCGAATTATTACGCCGGGCAGTTTGCAGATGATGTACCATG

GTATTATGCATTAAAGGAATGTATTTGTTATTAAAAAAATATTAAGAAGT

AAAAAAAAAAAAAAA

SEQ ID NO:24

MVLVKDVFSEGPLPVQILAIPQANSSPCSKLADKNGTATTPSPCRPPKPLLIA

LPSQHGDYPLILFFHGYVLLNSFYSQLLRHVASHGYIAIAPQMYSVIGPNTTP

EIADAAAITDWLRDGLSDNLPQALNNHVRPNFEKFVLAGHSRGGKVAFALA

LGRVSQPSLKYSALVGLDPVDGMGKDQQTSHPILSYREHSFDLGMPTLVVG

SGLGPCKRNPLFPPCAPQGVNHHDFFYECVAPAYHFVASDYGHLDFLDDDT

KGIRGKATYCLCKNGEAREPMRKFSGGIVVAFLQAFLGDNRGALNDIMVYP

SHAPVKIEPPESLVTEDVKSPEVELLRRAVCR

可以应用羽衣甘蓝（Brassica oleracea）叶绿素酶，如在例如NCBI登录项AF337546所述：

SEQ ID NO:25

ACACAAAAAAATATATAACACAAAGAAATAGAAGAAGGAAAAAATGTC

CCCCTCCTTTCTTTTCTTTACTTTGTTTTTGATAAAGGAAATGTCCTCTTC

ATCATCAGCAAACTCCTTTGAGGACGGCAAATACAAAACAGATCTTTTA

ACAGTAGGCTTATCATCTTGCTGCTGGAAAAAGCCCTCCTCTTCTCCGAC

TCCGCAGTCTCCGCCGAAGAGGCTTTTGGTGGCAACGCCGGTGGAGGAA

GGAGAATATCCGGTGGTGATGCTCCTCCATGGTTACCTTCTCTACAACTC

ATTTTATTCCCAGCTTATGTTGCATGTCTCTTCCCATGGCTTCATTGTCAT

CGCTCCGCAGTTATATAGCATTGCCGGACCAGACACCATGGATGAGATA

AAATCAACGGCAGAGATTATTGATTGGTTATCGGTCGGACTAAACCACT

TTCTTCCACCACAAGTAACACCAAACCTATCCAAGTTCGCACTCTCCGGC

CATAGCCGTGGTGGGAAGACCGCATTTGCCTTGGCCTTAAAGAAATTTG

GATACTCGTCCGACCTAAAGATCTCGGCATTGATAGGTATAGATGTTGG

AACTGTTTTTTGGACAAATGGCTATGGCCAATATTCCGGTGAATTTTTCG

AGCAATTTGATTGTCGAAATGACCGGATTGTGGAATCGTAGGATTCATT

GTTATGAGCACTATGGTATAGTGTAATCATATATCAAAAACGAAGTTCG

TTTGAATGAGAAATGAAAGTCTAAAATAGATTATTTGTAAAATATCTAT

ATTAGAATTATGAGGTAAGAAACCTCTTGTGTTTAAAATGGAGAAGTTA

TAACAAAGTTATAAAAAACTTTGTAAACAATTTGGTGTGTTAGC

SEQ ID NO:26

MSPSFLFFTLFLIKEMSSSSSANSFEDGKYKTDLLTVGLSSCCWKKPSSSPTP

QSPPKRLLVATPVEEGEYPVVMLLHGYLLYNSFYSQLMLHVSSHGFIVIAPQ

LYSIAGPDTMDEIKSTAEIIDWLSVGLNHFLPPQVTPNLSKFALSGHSRGGKT

AFALALKKFGYSSDLKISALIGIDVGTVFWTNGYGQYSGEFFEQFDCRNDRI

VES

可以应用甜橙（Citrus sinensis）叶绿素酶，如在例如NCBI登录项Q9MV14所述：

SEQ ID NO:27

MAAMVDAKPAASVQGTPLLATATLPVFTRGIYSTKRITLETSSPSSPPPPKPL

IIVTPAGKGTFNVILFLHGTSLSNKSYSKIFDHIASHGFIVVAPQLYTSIPPPSA

TNELNSAAEVAEWLPQGLQQNLPENTEANVSLVAVMGHSRGGQTAFALSL

RYGFGAVIGLDPVAGTSKTTGLDPSILSFDSFDFSIPVTVIGTGLGGVARCITA

CAPEGANHEEFFNRCKNSSRAHFVATDYGHMDILDDNPSDVKSWALSKYF

CKNGNESRDPMRRCVSGIVVAFLKDFFYGDAEDFRQILKDPSFAPIKLDSVE

YIDASSMLTTTHVKV

酶制备物

本发明方法中应用的酶可以被配制和修饰，例如，进行化学修饰，例如，以增强油溶性、稳定性、活性或用于固定化。例如，本发明方法中应用的酶可以被配制为两亲性的或更加亲脂性的。例如，本发明方法中应用的酶可以被包囊化，例如，在脂质体或凝胶中，例如，藻酸盐水凝胶或藻酸盐珠子或等价物。本发明方法中应用的酶可以在微囊（micellar）系统中配制，例如三元微囊系统（ternarymicellar system（TMS））或反微囊系统（reverse micellar system（RMS））基质中。本发明方法中应用的酶可以如Yi(2002)J.of Molecular Catalysis B:Enzymatic,Vol.19,No.0,pgs319-325中所述而配制。例如，三元微囊系统（TMS）或反微囊系统（RMS）介质形式的两亲性酶，例如，叶绿素酶，可以被包囊入藻酸盐水凝胶。在一方面，酶例如叶绿素酶，在含水缓冲液中制备并保持在水凝胶中，例如，保持在TMS/藻酸盐和RMS/藻酸盐中。囊化酶例如叶绿素酶的一个途径可以是酶-TMS或-RMS系统的乳化和/或内部凝胶化。

本发明方法的酶反应可以在体外，包括例如，在毛细管阵列中进行，如下文所述，或者在全细胞系统中进行。在一方面，本发明方法的酶反应在一个反应容器或多个容器中进行。在一方面，本发明方法的酶反应在植物油精炼设备中进行。

本发明的组合物和方法可以用固定化的酶实施，例如，固定化的叶绿素酶。酶可以被固定在任何无机支持物或有机支持物上。示范性无机支持物包括氧化铝、硅藻土、Dowex-1-氯化物、玻璃珠和硅胶。示范性有机支持物包括藻酸盐水凝胶或藻酸盐珠子或等价物。

在本发明的各个方面，叶绿素酶的固定化可以通过物理吸附在各种无机支持物上而优化，所述无机支持物包括氧化铝、硅藻土、Dowex-1-氯化物、玻璃珠和硅胶。用于实施本发明的酶可以被固定在不同的介质中，包括水、Tris-HCl缓冲液和含有Tris-HCl缓冲液、己烷和表面活性剂的三元微囊系统。当叶绿素酶悬浮于Tris-HCl缓冲液中并吸附在硅胶上时，获得最高的固定化效率（84.56%）和比活性（0.34mumol水解的叶绿素/mg蛋白质/分钟）。

工业应用和医学应用

多肽，例如参与叶绿素分解代谢或具有酯酶（例如，叶绿素酶）活性的本发明的酶，可以用在多种医疗和工业用途中，如本文所述。本发明的组合物和方法可以和任何工业应用或药学或医疗应用联合，用于处理含叶绿素的物质，例如，植物制品、含油物质。例如，仅举几个用途的例子，本发明的组合物和方法可以和将不可水合的磷脂转变为可水合形式的方法，油脱胶，加工植物、鱼类、藻类和类似物的油的方法共同应用。例如，本发明方法可以同脂肪和油的加工共同应用，例如，在日本专利申请出版物H6-306386中所述的，其描述了将油和脂肪中存在的磷脂转变为含有磷酸基团的水溶性物质。

本发明的组合物和方法可以和加工植物油的方法联合应用，所述植物油例如衍生自或分离自米糠、大豆、油菜、棕榈、棉籽、玉米、棕榈仁、椰子、花生、芝麻、向日葵的植物油。本发明的组合物和方法可以和加工精油的方法联合应用，所述精油例如，来自果实种子油的那些，例如，葡萄种子、杏、琉璃苣等。本发明的组合物和方法可以和加工不同形式的油和磷脂的方法联合应用，所述形式包括粗制形式、脱胶的、胶、洗涤水（wash water）、粘土、硅石、皂脚和类似形式。本发明的组合物和方法可以和加工高磷油（例如，大豆油）、鱼油、动物油、植物油、藻类油和类似物的方法联合应用。

本发明的组合物和方法可以同加工和制备可食用油、生物柴油、用于药物和化妆品的脂质体、结构磷脂和结构脂类的方法联合应用。本发明的组合物和方法可以和提取油的方法联合应用。本发明的组合物和方法可以和制备各种皂的方法联合应用。

本方法还可以包括修改pH值（例如，增加pH）以促进脱植基叶绿素的水分离。因此，本发明的组合物和方法还可以包括碱中和过程，例如，应用碱中和的pH条件。在一方面，本发明的组合物和方法包括中和步骤，例如，在处理“化学精炼油”中，例如，其中应用叶绿素酶，和/或在脱植基叶绿素的分离中。本发明的组合物和方法可以包括修改pH以促进脱植基叶绿素的水分离。

在一方面，本发明的组合物和方法包括应用无吸附剂或吸附剂减少的硅石精炼设备和过程，这是本领域已知的，例如，应用TriSyl Silica Refining Processes(Grace Davison,Columbia,MD)或SORBSIL R^TM silicas(INEOS Silicas,Joliet,IL)进行。

酶处理或“漂白”或脱色工艺

本发明提供了新的组合物和方法，用于酶促处理，例如，脱色或“漂白”藻类、动物（例如鱼类）和/或植物制品、饲料、食品或油，如图8至16所示。在一方面，含叶绿素或受叶绿素污染的食品或油被处理。例如，在可选的方面，植物油，包括从油料种子加工的油，如油菜（油菜籽）油或大豆油，或从油料果实加工的油如棕榈油，应用本发明的组合物和/或方法被加工。

本示范性方法的至少一个步骤包括应用酶，例如，可以将叶绿素水解为叶绿醇和脱植基叶绿素的叶绿素酶。在可选的方面，一个步骤、几个步骤或所有步骤应用酶。反应可以在体外或体内进行。

图8说明了本发明的示范性酯酶在叶绿素降解中的反应——叶绿素酶（chlase）催化叶绿素中的酯键水解，产生脱植基叶绿素和植醇，其中脱植基叶绿素由于具有亲水的卟啉环进入水相，植醇分离进入油（疏水）相。在本发明工艺的一方面，应用许多公知方法中的任意方法，应用胶/水分离对亲水的卟啉环进行分离。

图9说明和比较了传统的脱色（漂白）工艺和本发明的示范性酶促脱色（漂白）工艺，其中酶促漂白工艺可以包括本发明的酯酶。在传统方法中，粗提的植物油被脱胶，（可选地，被碱中和），应用例如粘土吸附进行漂白，随后粘土被处理，和除臭以产生“经过精炼、漂白和除臭”的油或RBD（refined,bleached anddeodorized）油。在本发明的示范性酶促漂白工艺中，粗提的植物油被脱胶，（可选地，被碱中和），应用例如本发明的多肽，例如本发明的叶绿素酶进行漂白，随后对脱植基叶绿素进行水分离，接着被除臭以产生“经过精炼、漂白和除臭”的油或RBD油。对脱胶的需要取决于磷的含量和其它因素（在本领域中都是已知的）。大豆和油菜一般被脱胶。

图10说明了本发明的示范性酶脱色（漂白）工艺——组合的脱胶-漂白（“脱色”）工艺。在本发明的本示范性酶促漂白工艺中，应用本发明的多肽，如本发明的酯酶，例如叶绿素酶，在一个步骤中或“单罐（one pot）”中，对粗提的植物油进行脱胶和酶促漂白。脱胶可以是“传统的”脱胶或酶促脱胶，例如，涉及磷脂和/或水解。在一方面，本发明的示范性工艺包括随后的水分离步骤，以去除反应产物脱植基叶绿素、胶和/或皂。在一方面，随后进行除臭以产生“经过精炼、漂白和除臭”的油或RBD油。

图11说明了本发明的示范性酶促脱色（漂白）工艺，其组合了脱胶、酶促脱色（“漂白”）和碱中和步骤。在本发明的本示范性酶促漂白工艺中，应用本发明的多肽，如本发明的酯酶，例如叶绿素酶，在一个步骤中或“单罐”中，对粗提的植物油进行脱胶、中和和酶促漂白。脱胶可以是“传统的”脱胶或酶促脱胶，例如，涉及磷脂和/或水解。在一方面，本发明的示范性工艺包括随后的水分离步骤，以去除反应产物脱植基叶绿素、胶和/或皂。

图12说明了本发明的示范性酶促脱色（漂白）工艺，其包括将本发明的多肽，如酯酶，例如叶绿素酶应用于油料种子制备物，随后是继续的水分离步骤（以去除，例如，反应产物脱植基叶绿素或胶和/或皂），随后是图9、10或11中示出的工艺。

图13说明了一般的油料种子精炼方案，包括油料种子的榨取、精炼和修饰，其中在一个步骤或几个步骤或所有步骤中，除了加入本发明的多肽，如酯酶，例如叶绿素酶至油料种子之外，也加入其它多肽和/或化学物质，例如，纤维素酶、半纤维素酶、蛋白酶、果胶酶、磷脂酶A、B、C和/或D、酯酶（例如，选择性酯酶）、脂酶（例如，1,3脂酶）、选择性脂酶、已知的叶绿素酶或参与叶绿素分解代谢的其它酶和类似酶。

图14说明了本发明的示范性工业工艺——生物脱胶工艺，包括应用磷脂酶A和具有叶绿素酶活性的至少一个本发明多肽。具有叶绿素酶活性的至少一个本发明多肽可以加入到下列一个或多个或所有步骤中：加入到粗提的油，在脱胶过程中或在脱胶的油中，与磷脂酶A加入存储或贮存槽中（例如，在图中的“日槽”中）和/或碱槽中。

图15说明了本发明的另一示范性工业工艺，包括应用至少一个具有叶绿素酶活性的本发明多肽。该至少一个具有叶绿素酶活性的本发明多肽可以被加入下列一个或多个或所有步骤中：加入到粗提的油，在脱胶过程中或脱胶的油中、存储或贮存槽、碱槽和/或阻滞混合器（retention mixer）中。

图16说明了本发明的另一示范性工业工艺，包括应用至少一个具有叶绿素酶活性的本发明多肽。在本示范性工艺中，磷脂酶C（PLC）与本发明的叶绿素酶被加入脱胶工艺或脱胶的油中。该至少一个具有叶绿素酶活性的本发明多肽可以被加入下列一个或多个或所有步骤中：加入到粗提的油，在脱胶工艺中或脱胶的油中（和PLC）、存储或贮存槽中、碱槽和/或阻滞混合器（retention mixer）中。

油脱胶和植物油加工

本发明的组合物和方法可以用在各种植物油加工步骤，例如植物油提取中，特别地，用在称作“油脱胶”的工艺中去除“磷脂胶”。

本发明的组合物和方法可以用在加工各种来源的植物油的方法中，所述各种来源如米糠、大豆、油菜籽、花生和其它坚果、芝麻、向日葵和玉米。所述方法可以与基于己烷提取的工艺联合应用，随后精炼粗提物以产生食用油。精炼顺序中的第一步骤是称作“脱胶”的工艺，它的作用是通过加入水分离磷脂。通过脱胶沉淀出的物质被分离和进一步加工为卵磷脂的混合物。商业上的卵磷脂，例如大豆卵磷脂和向日葵卵磷脂，是半固态或非常粘的物质。它们由主要是磷脂的极性脂类和主要是甘油三酯的油的混合物构成。本发明的组合物和方法可以用在工艺的任何步骤之前或之后、或工艺步骤的任何组合之前或之后、或工艺中所有步骤之前或之后，例如，在机械和/或化学提取、脱胶和/或漂白和类似步骤之前、期间或之后。

本发明的组合物和方法可以用于（即，联合应用）任何“脱胶”程序，包括水脱胶、ALCON油脱胶（例如，对于大豆）、safinco脱胶、“超脱胶”、UF脱胶、TOP脱胶、uni-脱胶、干法脱胶和ENZYMAX^TM脱胶。参见，例如，美国专利6,355,693；6,162,623；6,103,505；6,001,640；5,558,781；5,264,367。本发明的组合物和方法可以用在任何油加工方法中，例如，脱胶或等价过程中。例如，本发明的组合物和方法可以用在美国专利5,558,781；5,288,619；5,264,367；6,001,640；6,376,689；WO0229022所述的工艺中；例如WO98/18912中描述的脱胶中；日本专利申请号H5-132283(1993年4月25日提交)描述的工艺中；欧洲专利申请号82870032.8描述的工艺和类似工艺中。本发明方法包含的各种“脱胶”程序描述在Bockisch,M.(1998)In Fats and Oils Handbook,The extraction of Vegetable Oils(Chapter5),345-445,AOCS Press,Champaign,Illinois中。本发明的组合物和方法可以用在甘油三酯油的酶促脱胶工业用途中，例如EP513709所述。

在一方面，本发明的组合物和方法用于处理植物油，例如，粗提的油，例如米糠、大豆、油菜、花和类似物。在一方面，这改进了脱胶工艺的效率。在一方面，本发明方法改进了叶绿素从油相的分离，例如，在离心期间。这些相的改进分离可以使叶绿素从油中更加有效地去除，包括可水合的和不可水合的油。

本发明的组合物和方法可以用在酶促脱胶的工业用途中，例如在CA1102795中所述，其描述了通过加入至少50％重量百分比的水从谷物脂类中分离极性脂类的方法。以其应用的原理是加入水到粗提油混合物的角度来看，该方法是经过改良的脱胶过程。

在一方面，本发明提供了酶促过程，包括应用本发明组合物和方法，包括水解在油中的水合磷脂，温度为约20℃到40℃，碱性pH，例如pH为大约pH8到pH10，反应时间为大约3到10分钟。

在本发明各种示范性过程中，很多不同的步骤组成了核心的漂白和除臭精炼过程之前的脱胶工艺。这些步骤包括，加热、混合、维持、分离和干燥。在加热步骤以后，加入水，常常还加入酸，并且混合，以便使得不溶性的磷脂“胶”凝聚成可以被分离的颗粒。虽然在脱胶过程中水分离很多的磷脂，但是部分磷脂是以钙盐或者镁盐的形式存在的不可水合的磷脂（NHPs）。脱胶工艺通过加入酸处理这些NHPs。在磷脂水合以后，油被混合、维持并且通过离心分离。最后，将油干燥并且贮存、运输或者精炼。得到的胶可以进一步处理以获得卵磷脂产物，或可以加回到食物中。如上所述，本发明的组合物和方法可以在任何加工方法的任何这些步骤之前或之后、或任何步骤组合之前或之后、或所有步骤之前或之后使用。

一旦本发明的酶处理完成后，用合适的方式，如离心分离器分离经处理的液体（例如油），并得到经处理的油。在一方面，酶修饰叶绿素所产生的化合物部分或全部被转移到水相，从油相中去除。一旦酶处理完成后，如果需要，处理的油可以另外用水或者有机或无机酸洗涤，所述例如乙酸、磷酸、琥珀酸和类似的酸，或用盐溶液洗涤。

在超滤脱胶的一个示例性工艺中，在过滤前，将本发明方法中应用的酶结合于滤器，或者将本发明方法中应用的酶加入到油中。本发明组合物或方法中应用的酶可以被固定在任何基质上，例如，滤器、纤维、柱子、珠子、胶质、凝胶、水凝胶、网和类似物。

本发明的组合物和方法可用于改进油提取、油脱胶和碱中和（例如，植物油）。在一方面，本发明的组合物或方法和至少一种植物细胞壁降解剂（例如纤维素酶、半纤维素酶或类似物，以使细胞壁软化并增加提取时的产量）被用于本发明的工艺中。在一个示范性方法中，为了改进油提取和油脱胶，应用磷脂酶例如磷脂酶C或其它水解酶（例如纤维素酶、半纤维素酶、酯酶、蛋白酶和/或磷酸酶）。例如，在一方面，在与油生产(包括但不限于大豆、油菜、向日葵、米糠油)相关的破碎步骤中，可以应用磷脂酶或其它酶。通过在溶剂提取之前使用酶，或代替溶剂提取，有可能增加油产量和减少粗提油中水合和非水合的磷脂的量。粗提油中磷脂总体上的减少将提高精炼期间的产量，并有可能无需在漂白和除臭之前独立的脱胶步骤。

本发明的组合物和方法也可以用美国专利5,414,100中所述的过程实施。例如，例如，在一方面，本方法或组合物还包括在环境温度下对植物油进行脱酸的层析过程。这些过程可以被改进为，应用油水混合物（miscella）精炼或溶剂提取的脱酸操作，在室温下，粗提植物油被溶解在溶剂例如异丙醇中并通过活性氧化铝（氧化铝）柱子。省去了油和碱性试剂以及油和水之间的物理接触的这一过程，由于也去除了一些带颜色的色素，因此简化了随后的漂白工艺。通过应用稀释的氢氧化钠或氢氧化钾溶液进行洗涤，失效的氧化铝可以被重新活化。

本发明的组合物和方法也可以用JP57156482,1982(申请号JP1981004079419810320)中描述的工艺实施，其描述了将植物脂肪或油精炼为副产物。

本发明的组合物和方法也可以用美国专利5,315,021中描述的工艺实施。例如，在一方面，本发明的方法或组合物可以同从植物油去除叶绿素颜色杂质的工艺实施。该工艺可以包括分散磷酸来源在植物油中，形成水含量为按重量计0.1%以下的混合物，所述混合物保持在70℃至160℃的温度范围，直至形成含有叶绿素颜色杂质的沉淀物。随后可以从油中分离沉淀物，去除叶绿素颜色杂质和沉淀物，例如，在传统的油加工中进行，以及包括从油中去除漂白粘土。

油料种子的酶加工

本发明的组合物和方法可以用于酶促加工油料种子，包括大豆、油菜（菜籽）、椰子、鳄梨和橄榄糊。在一个方面，本发明的这些工艺可以增加油产量，并提高获得的膳食的营养质量。在一些方面，使用本发明的酶和方法来酶加工油料种子，将提供经济和环境利益，并为油提取和加工人类和动物消费食物提供了可供选择的技术。在可选择的方面，本发明的工艺还包括使用磷脂酶、蛋白酶、磷酸酶、植酸酶、木聚糖酶、淀粉酶（例如α-淀粉酶）、葡聚糖酶（例如β-葡聚糖酶）、聚半乳糖醛酸酶、半乳糖脂酶、纤维素酶、半纤维素酶、果胶酶和其他降解植物细胞壁的酶、以及混合酶制剂和细胞裂解剂。在可选择的方面，本发明的工艺可以与其他工艺联合实施，例如酶处理，例如用碳水化合物进行酶处理，包括纤维素酶、半纤维素酶和其他副降解活性，或与化学工艺联合，例如己烷提取大豆油工艺。当在溶剂提取之前进行酶处理时，酶处理可以增加油提取率8-10%。

在可选择的方面，本发明的工艺可以用水提取工艺实施。水提取方法对于油提取来说可能是环境上更清洁的可选技术。本发明的工艺也可以应用酶，所述酶水解构成油料种子细胞壁的结构多糖，或水解构成细胞和脂质小体膜的蛋白质，例如，利用包括纤维素酶、半纤维素酶和/或原果胶酶在内的酶进行消化，用于从大豆细胞提取油。在一个方面，根据Kasai(2003)J.Agric.Food Chem.51:6217-6222的描述，用本发明的酶实施本方法，所述文献报道了消化细胞壁最有效的酶是纤维素酶。

在一个方面，蛋白酶与本发明的方法一起使用。已经评价了操作变量和蛋白酶以及纤维素酶的酶活性对油和蛋白质提取产量以及其他工艺参数，诸如酶浓度、水解时间、颗粒大小和固液比的联合效应。在一个方面，根据Rosenthal(2001)Enzyme and Microb.Tech.28:499-509描述的方案实施本发明的方法，该文献报道了使用热处理的面粉时使用蛋白酶能比对照产生明显较高的油和蛋白质产量。

在一个方面，全蛋白、果胶和半纤维素提取与本发明方法一起使用。植物细胞由一系列的多糖组成，其常常与蛋白质或酚类化合物缔合、或被蛋白质或酚类化合物替代。这些碳水化合物中的大部分只是被消化酶部分消化或低效利用。通过加工或降解性酶处理来破裂这些结构，可以提高它们的营养可利用率。在一个方面，根据Ouhida(2002)J.Agric.Food Chem.50:1933-1938描述的方案实施本发明方法，该文献报道了全蛋白、果胶和半纤维素提取之后实现对大豆细胞壁纤维素(高达20%)的显著降解。

在一个方面，本发明的方法进一步包括在处理种子例如油菜籽中包含入各种酶处理，这些处理包括使用蛋白酶、纤维素酶和半纤维素酶（彼此之间的联合和与本发明的一种或多种酶的各种联合）。例如，所述方法可以包括在传统工艺之前，在用酶温育期间，在20至40的水份中酶处理油菜种子，如Sosulski(1990)Proc.Can.Inst.Food Sci.Technol.3:656所述。本发明的方法可以进一步包括整合蛋白酶、α-淀粉酶、聚半乳糖醛酸酶（相互之间的联合和与本发明的一种或多种酶的各种联合），以水解椰子粉中的细胞物质和释放椰子油，该椰子油可以通过离心回收，如McGlone(1986)J.of Food Sci.51:695-697所述。本发明的方法可以进一步以不同的组合方式结合果胶酶、α-淀粉酶、蛋白酶、纤维素酶（相互之间和与本发明的一种或多种酶的各种联合），以在酶法提取鳄梨油期间明显提高产量（在最好的情况下~70%），如Buenrostro(1986)Biotech.Letters8(7):505-506所述。在本发明的橄榄油提取工艺中，用纤维素酶、半纤维素酶、聚半乳糖醛酸酶、果胶-转甲基酶、蛋白酶和它们的组合（相互之间和与本发明的一种或多种酶的组合）处理橄榄糊，如，例如Montedoro(1976)Acta Vitamin.Enzymol.(Milano)30:13所述。

在一方面，本发明的组合物和方法可以和美国专利6,376,689中描述的方法共同实施。例如，在一方面，本发明的组合物和方法可以包括一步酸脱胶/脱色工艺，该工艺从来自种子的植物油去除叶绿素型化合物，所述种子特别是具有大量叶绿素型化合物的受霜冻损害的种子。在一方面，本发明方法进一步包括与油混合的含水硫酸和磷酸混合物，以便从油中去除叶绿素型化合物。纯化的油可以具有约5ppm以下的叶绿素型化合物，约50ppm以下的磷或按重量计约1.0%以下的游离脂肪酸。

从植物油纯化植物固醇

本发明的组合物（例如酯酶）和方法也可以和从植物油中纯化植物固醇（phytosterol）和三萜或者植物甾醇（plant sterol）的方法和工艺联合使用。应用本发明的方法可以纯化的植物固醇，包括β-谷固醇、菜油甾醇(campesterol)、豆甾醇、豆甾烷醇、β-谷甾烷醇、谷甾烷醇、24-脱氢胆甾醇、chalinasterol、多孔甾醇、穿贝海绵甾醇(clionasterol)和菜籽甾醇(brassicasterol)。植物甾醇是用于健康和营养工业的重要农产品。因此，本发明的组合物（例如酯酶）和方法可用于制备用于化妆品制造的乳化剂以及用于生产激素药物的甾体中间物和前体。本发明的组合物（例如酯酶）和方法可用于制备（如，纯化）植物固醇和它们的酯的类似物，用作具有心血管健康价值的降低胆固醇的试剂。本发明的组合物（例如酯酶）和方法可用于纯化植物甾醇，通过抑制在消化道中的胆固醇吸收，可以降低血清中的胆固醇水平。本发明的组合物（例如酯酶）和方法可用于纯化具有在极低的浓度下具有免疫调节性质的植物甾醇，所述免疫调节性质包括增强的T淋巴细胞细胞应答和天然杀伤细胞对癌细胞系的细胞毒性能力。本发明的组合物（例如酯酶）和方法可用于纯化植物甾醇，用于治疗肺结核、类风湿性关节炎、HIV感染病人的处理和免疫应力的抑制，例如，在马拉松选手中。

本发明的组合物（例如酯酶）和方法可用于纯化存在于日用植物油（如，椰子、油菜、可可豆脂油、玉米、棉籽、亚麻籽、橄榄、棕榈、花生、米糠、红花、芝麻、大豆、向日葵油）的甾醇组分中的甾醇成分，如，谷固醇（40.2-92.3%）、菜油甾醇（2.6-38.6%）、豆甾醇（0-31%）和5-燕麦固醇（1.5-29%）。

植物油精炼设备

本发明提供了制品，包括用于酶处理含叶绿素组合物或受叶绿素污染的组合物的脱胶系统，包括（a）植物油精炼设备；和（b）具有叶绿素酶活性的多肽，其可操作地整合进植物油精炼设备，其中多肽的活性包括催化修饰叶绿素的反应，植物油精炼设备可以在多肽可以修饰叶绿素修饰反应的条件下，使含叶绿素组合物或受叶绿素污染的组合物和多肽反应。

本发明的制品可以包括任何植物油精炼设备或它们的组合，例如，排油器（例如，来自Pennwalt Corp.）或重力胶分离设备。

本发明提供了制品，包括固定化的酶，例如固定化的叶绿素酶，例如，本发明的酯酶。在制品的一方面，叶绿素酶包括硅石固定的叶绿素酶。硅石包括硅胶或其等价物。硅石包括TriSyl Silica或SORBSIL R^TM硅石。

在一方面，本发明的制品包括调节pH值，例如，增加pH（“碱处理”）和随后可选地，中和pH值的装置。

本发明将进一步参照下面的实施例描述，然而，应该理解，本发明不限于这些实施例。

实施例

实施例1：示范性的酯酶活性试验

下面的实施例描述了示范性酯酶（叶绿素酶活性）试验，用于分离和表征本发明的酶和编码它们的核酸，以及确定一种多肽是否在本发明的范围内。

筛选酯酶作用于来自菠菜的叶绿素以产生脱植基叶绿素的活性。在本示范性酯酶（叶绿素酶活性）试验中，酯酶筛选形式包括：

●按同样两份进行筛选的平板，

●每个平板上的阳性（CHLase）和阴性对照，

●1mM CHL，20%细胞裂解物，20%丙酮，pH7.5，0.01%HBT，

●于暗处30℃温育24小时，

●100mL反应体积，

●用LC-VIS分析；注射1mL样品

此酯酶筛选方法应用HPLC来分析反应产物。图2和图3显示的数据表明了应用指定的本发明示范性酶进行的酯酶（叶绿素酶）活性分析试验的结果。

对于HPLC:

柱子：Cromolith SpeedROD RP-18e50-4,6mm(目录号UM1082/086)

流速：1.0mL/min；注射量：1.0mL

图2列出的数据说明，在24小时和48小时时间点之间，反应产物的水平增加，反应产物的水平表明了SEQ ID NO:2、SEQ ID NO:4、SEQ ID NO:6、SEQ IDNO:8、SEQ ID NO:12、SEQ ID NO:14、SEQ ID NO:16、SEQ ID NO:18和SEQ IDNO:20的叶绿素酶活性。图3列出的数据说明，在24小时和48小时时间点之间，反应产物的水平增加，反应产物的水平表明了SEQ ID NO:10的叶绿素酶活性。

本发明的许多实施方式已经被描述。然而，应该理解，可以对其进行各种修改而不背离本发明的精神和范围。因此，其它实施方式包含在权利要求书的范围内。