CN101395269A

CN101395269A - 蛋白酶、编码这些蛋白酶的核酸及它们的制备和应用方法

Info

Publication number: CN101395269A
Application number: CNA2003801047081A
Authority: CN
Inventors: M·卡约特; C·J·汉森; A·麦克卢尔; M·孙; S·格拉马蒂科瓦; M·迪卡库; N·巴顿; J·斯特格; N·阿布沙迪
Original assignee: Diversa Corp
Current assignee: BASF Enzymes LLC
Priority date: 2002-10-10
Filing date: 2003-10-10
Publication date: 2009-03-25
Also published as: ZA200503555B

Abstract

本发明涉及具有蛋白酶活性的多肽、编码所述多肽的多核苷酸，以及制备和应用这些多核苷酸和多肽的方法。本发明的多肽可以在各种诊断、治疗和工业环境中使用。本发明的多肽可以被用作，例如去污剂的添加剂，用于加工食品和用于利用了逆反应的化学合成。另外，本发明的多肽可以在如下领域使用：食品加工、酿造、浴用添加剂、乙醇产品制造、肽合成、对映选择、皮革行业中的皮革制备、废物处理和动物降解、照相行业中银回收、医疗处理、丝脱胶、生物膜降解、生物材料转化为乙醇、生物防御、抗微生物剂和消毒剂、个人护理和化妆品、生物技术制剂，还可用在玉米湿磨法中增加淀粉产量，以及用在药物中，如助消化药和抗炎(消炎)药剂中。

Description

蛋白酶、编码这些蛋白酶的核酸及它们的制备和应用方法

技术领域

本发明涉及分子细胞生物学和生物化学。尤其是，本发明涉及蛋白酶(proteaseenzymes)、编码这些酶的多核苷酸，制备和使用这些多核苷酸和多肽的方法。本发明的多肽可以在多种诊断、治疗和工业环境中应用。本发明的多肽可以被用作，例如去污剂的添加剂，用于加工食品和用于使用逆反应进行化学合成。另外，本发明的多肽可以在如下领域应用：食物加工、酿造、浴用添加剂、酒精生产、肽合成、对映选择性、皮革行业中的皮革制备、废物处理和动物降解、照相行业中银的回收、医疗处理、丝绸脱胶、生物膜降解、生物材料(biomass)转化为乙醇、生物防御、抗微生物剂和消毒剂、个人护理和化妆品、生物技术制剂、用于增加玉米湿磨法(wet milling)的淀粉产量以及药物如助消化药和抗炎(消炎)剂中。

背景技术

在工业、研究和医疗中，酶在广泛的应用中被使用。通过酶的使用，工业过程可以在降低的温度和压力下进行，并且降低了使用腐蚀或有毒物质的依赖性。因此与非酶促产物和过程相比，使用酶可以降低生产成本、能量消耗和污染。一组重要的酶是蛋白酶。蛋白酶是羰基水解酶，该类酶的作用通常是切割蛋白或肽中的肽键。蛋白水解酶普遍存在，发现存在于所有活体生物中，它们对于细胞生长和分化是必要的。细胞外蛋白酶具有商业价值，在各种工业场合中有多种应用。蛋白酶的工业应用包括食品加工、酿造、酒精生产、肽合成、对映选择性、皮革行业中的皮革处理、废物处理和动物降解、照相行业中银的回收、医疗处理、丝脱胶、生物膜降解、生物材料转化为乙醇、生物防御、抗微生物剂和消毒剂、个人护理和化妆品、生物技术制剂以及在玉米湿磨法中增加淀粉产量。另外，蛋白酶是洗衣去污剂和其它产品的重要组分。在生物学研究中，在纯化步骤中使用蛋白酶来降解不需要的蛋白。通常期望应用低特异性的蛋白酶或多种特异性蛋白酶的混合物来获得所需的降解程度。

蛋白酶根据它们的催化机理进行分类。国际生物化学和分子生物学联合会(IUBMB)认可了四种机制型分类：(1)丝氨酸蛋白酶；(2)半胱氨酸蛋白酶；(3)天冬氨酸蛋白酶；和(4)金属蛋白酶。此外，IUBMB也认可一种催化机理未知的内肽酶(寡肽酶)种类。根据催化类型进行的分类已经被建议由基于蛋白酶进化关系的家族分类予以延伸(例如参见Rawlings，N.D.和Barett，A.J.，(1993)，Biochem.J.，290，205-218)。丝氨酸蛋白酶具有最适碱性pH，金属蛋白酶在大约中性时具有最佳活性，半胱氨酸和天冬氨酸酶具有最适酸性pH(BiotechnologyHandbooks.Bacilluis.卷2，由Harwood编著，1989 Plenum Press，New York)。天冬氨酸蛋白酶对于细菌是很罕见的，到目前为止针对细菌病原体的天冬氨酸蛋白酶还没有人报道。另一方面，金属蛋白酶似乎是大多数细菌病原体中的一个普遍的特征。因此，细菌蛋白酶的两个基本类别是丝氨酸蛋白酶和金属蛋白酶。

丝氨酸蛋白酶的特征在于是丝氨酸、组氨酸和天冬氨酸残基的催化三联体。它们包括具有广泛的特异性和生物功能的多种类别的酶。丝氨酸蛋白酶包括两种不同的家族：胰凝乳蛋白酶家族，该家族包括哺乳动物酶如胰凝乳蛋白酶、胰蛋白酶、弹性蛋白酶、激肽释放酶，和枯草杆菌蛋白酶家族，该家族包括细菌酶如枯草杆菌蛋白酶。这两个家族的总体上的3D结构是不同的，但它们具有相同的活性位点几何结构，并且催化进行的机理相同。丝氨酸蛋白酶被用于多种工业目的。例如，丝氨酸蛋白酶枯草杆菌蛋白酶用于洗衣去污剂中，以帮助除去蛋白质污渍(例如Crabb，ACS Symposium Series 460：82-94，1991)。在食品加工行业中，丝氨酸蛋白酶被用于从鱼类和牲畜中制备富含蛋白质的浓缩物，并且在乳制品的制备中被使用(Kida等人，Journal of Fermentation and Bioengineering 80：478-484，1995；Haard and Simpson，in Martin，A.M.，ed.，Fisheries Processing：BiotechnologicalApplication，Chapman and Hall，London，1994，132-154；Bos等人，European PatentOffice Publication 494 149 A1)。

金属蛋白酶(MPs)和丝氨酸蛋白酶构成了最多样化的蛋白酶催化类型。它们存在于细菌、真菌以及更高等的生物中。它们在序列和结构上有很大不同，但大部分酶含有锌原子，该锌原子具有催化活性。在一些情况下，锌可以用另一种金属代替，如钴或镍，而不会损失活性。在与锌结合的水分子攻击易分割键的羰基基团之后，催化机理导致形成非共价的四面中间体。该中间体通过将谷氨酸部分转移到离去基团而被进一步分解。

通常，酶，包括蛋白酶，在窄范围的环境条件(温度、pH等等)下具有活性，许多酶对于特定底物具有高度特异性。给定酶的窄范围活性限制了其适用性，于是产生了选择具备如下条件的酶的需求：(a)具有类似活性但在不同的条件下是有活性的，或者(b)具有不同底物。例如，能在50℃催化反应的酶在35℃可能是无效的，其在较低温度下使用将是不可行的。由于该原因，洗衣去污剂通常包含一系列的蛋白水解酶，从而允许去污剂在大范围的洗涤温度和pH下使用。由于蛋白水解酶的特异性，以及蛋白酶在工业、研究和医疗行业中逐渐增加的应用，在该领域中，存在对于新酶和新酶抑制剂的不断发展的需求。

发明概述

本发明提供了分离的或重组的核酸，其包括与本发明的示例性核酸在至少大约10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2200、2250、2300、2350、2400、2450、2500或更多残基的区域内，具有至少大约50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高或完全的(100％)序列同一性(sequence identity)的核酸序列，其中本发明的示例性核酸如SEQ ID NO：1；SEQ ID NO：3；SEQ ID NO：5；SEQ ID NO：7；SEQ ID NO：9；SEQ ID NO：11；SEQID NO：13；SEQ ID NO：15；SEQ ID NO：17；SEQ ID NO：19；SEQ ID NO：21；SEQID NO：23；SEQ ID NO：25；SEQ ID NO：27；SEQ ID NO：29；SEQ ID NO：31；SEQID NO：33；SEQ ID NO：35；SEQ ID NO：37；SEQ ID NO：39；SEQ ID NO：41；SEQID NO：43；SEQ ID NO：45；SEQ ID NO：47；SEQ ID NO：49；SEQ ID NO：51；SEQID NO：53；SEQ ID NO：55；SEQ ID NO：57；SEQ ID NO：59；SEQ ID NO：61；SEQID NO：63；SEQ ID NO：65；SEQ ID NO：67；SEQ ID NO：69；SEQ ID NO：71；SEQID NO：73；SEQ ID NO：75；SEQ ID NO：77；SEQ ID NO：79；SEQ ID NO：81；SEQID NO：83；SEQ ID NO：85；SEQ ID NO：87；SEQ ID NO：89；SEQ ID NO：91；SEQID NO：93；SEQ ID NO：95；SEQ ID NO：97；SEQ ID NO：99；SEQ ID NO：101；SEQID NO：103；SEQ ID NO：105；SEQ ID NO：107；SEQ ID NO：109；SEQ ID NO：111；SEQ ID NO：113；SEQ ID NO：115；SEQ ID NO：117；SEQ ID NO：119；SEQ IDNO：121；SEQ ID NO：123；SEQ ID NO：125；SEQ ID NO：127；SEQ ID NO：129；SEQ ID NO：131；SEQ ID NO：133；SEQ ID NO：135；SEQ ID NO：137；SEQ IDNO：139；SEQ ID NO：141；SEQ ID NO：143；SEQ ID NO：145；SEQ ID NO：146；SEQ ID NO：150；SEQ ID NO：158；SEQ ID NO：164；SEQ ID NO：171；SEQ IDNO：179；SEQ ID NO：187；SEQ ID NO：193；SEQ ID NO：199；SEQ ID NO：204；SEQ ID NO：210；SEQ ID NO：218；SEQ ID NO：222；SEQ ID NO：229；SEQ IDNO：234；SEQ ID NO：241；SEQ ID NO：248和/或SEQ ID NO：254，其编码至少一个具有蛋白酶活性的多肽，所述序列同一性通过运用了序列比较算法的分析或通过视觉观察来确定。

本发明的示例性核酸也包括分离的或重组的核酸，其编码具有如下序列中所示的序列的多肽：SEQ ID NO：2；SEQ ID NO：4；SEQ ID NO：6；SEQ ID NO：8；SEQID NO：10；SEQ ID NO：12；SEQ ID NO：14；SEQ ID NO：16；SEQ ID NO：18；SEQID NO：20；SEQ ID NO：22；SEQ ID NO：24；SEQ ID NO：26；SEQ ID NO：28；SEQID NO：30；SEQ ID NO：32；SEQ ID NO：34；SEQ ID NO：36；SEQ ID NO：38；SEQID NO：40；SEQ ID NO：42；SEQ ID NO：44；SEQ ID NO：46；SEQ ID NO：48；SEQID NO：50；SEQ ID NO：52；SEQ ID NO：54；SEQ ID NO：56；SEQ ID NO：58；SEQID NO：60；SEQ ID NO：62；SEQ ID NO：64；SEQ ID NO：66；SEQ ID NO：68；SEQID NO：70；SEQ ID NO：72；SEQ ID NO：74；SEQ ID NO：76；SEQ ID NO：78；SEQID NO：80；SEQ ID NO：82；SEQ ID NO：84；SEQ ID NO：86；SEQ ID NO：88；SEQID NO：90；SEQ ID NO：92；SEQ ID NO：94；SEQ ID NO：96；SEQ ID NO：98；SEQID NO：100；SEQ ID NO：102；SEQ ID NO：104；SEQ ID NO：106；SEQ ID NO：108；SEQ ID NO：110；SEQ ID NO：112；SEQ ID NO：114；SEQ ID NO：116；SEQ IDNO：118；SEQ ID NO：120；SEQ ID NO：122；SEQ ID NO：124；SEQ ID NO：126；SEQID NO：128；SEQ ID NO：130；SEQ ID NO：132；SEQ ID NO：134；SEQ ID NO：136；SEQ ID NO：138；SEQ ID NO：140；SEQ ID NO：142；SEQ ID NO：144；SEQ IDNO：147；SEQ ID NO：151；SEQ ID NO：159；SEQ ID NO：165；SEQ ID NO：172；SEQ ID NO：180；SEQ ID NO：188；SEQ ID NO：194；SEQ ID NO：200；SEQ IDNO：205；SEQ ID NO：211；SEQ ID NO：219；SEQ ID NO：223；SEQ ID NO：230；SEQID NO：235；SEQ ID NO：242；SEQ ID NO：249或SEQ ID NO：255，或由SEQ IDNO：145编码的多肽，及其子序列(subsequences)和其变体(variants)。一方面，该多肽具有蛋白酶活性。

下面的列表概括了本发明的示例性序列之间多肽序列和核酸编码序列的关系；例如，SEQ ID NO：2由SEQ ID NO：1编码，SEQ ID NO：255由SEQ ID NO：254编码，等等。

一方面，本发明也提供蛋白酶，和编码蛋白酶的核酸，它们具有共同的新颖之处，原因在于它们是最初从混合的培养物中分离/获得的。本发明提供编码蛋白酶的核酸，其分离自混合的培养物，包括与本发明的示例性核酸在至少大约50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150或更大区域内，具有至少大约10、15、20、25、30、35、40、45、50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高或完全的(100％)序列同一性的核酸序列，其中本发明的示例性核酸如SEQ ID NO：1；SEQ ID NO：3；SEQ ID NO：5；SEQ ID NO：7；SEQ IDNO：9；SEQ ID NO：11；SEQ ID NO：13；SEQ ID NO：15；SEQ ID NO：17；SEQ IDNO：19；SEQ ID NO：21；SEQ ID NO：23；SEQ ID NO：25；SEQ ID NO：27；SEQ IDNO：29；SEQ ID NO：31；SEQ ID NO：33；SEQ ID NO：35；SEQ ID NO：37；SEQ IDNO：39；SEQ ID NO：41；SEQ ID NO：43；SEQ ID NO：45；SEQ ID NO：47；SEQ IDNO：49；SEQ ID NO：51；SEQ ID NO：53；SEQ ID NO：55；SEQ ID NO：57；SEQ IDNO：59；SEQ ID NO：61；SEQ ID NO：63；SEQ ID NO：65；SEQ ID NO：67；SEQ IDNO：69；SEQ ID NO：71；SEQ ID NO：73；SEQ ID NO：75；SEQ ID NO：77；SEQ IDNO：79；SEQ ID NO：81；SEQ ID NO：83；SEQ ID NO：85；SEQ ID NO：87；SEQ IDNO：89；SEQ ID NO：91；SEQ ID NO：93；SEQ ID NO：95；SEQ ID NO：97；SEQ IDNO：99；SEQ ID NO：101；SEQ ID NO：103；SEQ ID NO：105；SEQ ID NO：107；SEQID NO：109；SEQ ID NO：111；SEQ ID NO：113；SEQ ID NO：115；SEQ ID NO：117；SEQ ID NO：119；SEQ ID NO：121；SEQ ID NO：123；SEQ ID NO：125；SEQ IDNO：127；SEQ ID NO：129；SEQ ID NO：131；SEQ ID NO：133；SEQ ID NO：135；SEQ ID NO：137；SEQ ID NO：139；SEQ ID NO：141；SEQ ID NO：143；SEQ IDNO：145；SEQ ID NO：146；SEQ ID NO：150；SEQ ID NO：158；SEQ ID NO：164；SEQ ID NO：171；SEQ ID NO：179；SEQ ID NO：187；SEQ ID NO：193；SEQ IDNO：199；SEQ ID NO：204；SEQ ID NO：210；SEQ ID NO：218；SEQ ID NO：222；SEQ ID NO：229；SEQ ID NO：234；SEQ ID NO：241；SEQ ID NO：248和/或SEQ IDNO：254。

一方面，本发明也提供了蛋白酶，和编码蛋白酶的核酸，它们具有共同的新颖之处，这在于它们是最初来源于共同的来源，例如古细菌来源、细菌来源、真菌来源(例如，丝状子囊菌如异旋腔孢菌(Cochliobolus heterostrophus)，例如异旋腔孢菌菌株C4，ATCC保藏号48331)，或环境来源，例如混合的环境来源，如下面所示。

例如(参考上述列表)，蛋白酶和编码蛋白酶的核酸具有共同的新颖性，如SEQID NO：2(由SEQ ID NO：1编码)、SEQ ID NO：18(由SEQ ID NO：17编码)、SEQ IDNO：64(由SEQ ID NO：63编码)和SEQ ID NO：16(由SEQ ID NO：15编码)中所示，它们最初都来源于古细菌来源，类似地，蛋白酶和编码蛋白酶的核酸具有共同的新颖性，还可以是在于多肽和核酸最初都来源于细菌、真菌(异旋腔孢菌)或环境来源。

一方面，本发明提供了蛋白酶和编码蛋白酶的核酸，它们最初分离/来源于环境来源，例如混合的环境来源，其包括与本发明的示例性核酸在至少大约50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200或更多残基的区域内，具有至少大约10、15、20、25、30、35、40、45、50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、S1％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高或完全的(100％)序列同一性的核酸序列，其中所述核酸编码至少一个具有蛋白酶活性的多肽，序列同一性通过应用序列比较算法的分析或通过视觉观察来确定。

关于本发明的蛋白酶和编码蛋白酶的核酸，它们具有共同的新颖性，这在于它们最初来源于丝状子囊菌异旋腔孢菌，一方面，这些多肽和核酸最初通过在鸡饲料上或者在玉米纤维上培养旋孢腔菌(Cochliobolus)来分离，鸡饲料或玉米纤维是唯一的氮来源。培养基的上清液被浓缩，再在凝胶上分离。通过质谱法分析从凝胶带上分离得到的蛋白质。对这些蛋白质进行测序，并且与旋孢腔菌基因组序列进行比较。将本发明的最初分离自异旋腔孢菌的蛋白酶和编码蛋白酶的核酸概括如下：

一方面，序列比较算法是BLAST2.2.2版本算法，其中过滤设置为blastall-pblastp-d“nr pataa”-FF，所有其它选项设置为默认值。

本发明的另一方面是分离的或重组的核酸，其包括本发明的核酸序列、与其基本上相同的(substantially identical)序列和与其互补的序列的至少10个连续碱基。

一方面，本发明的蛋白酶活性包括催化肽键的水解。术语“蛋白酶活性”包括任何肽键的水解，包括蛋白酶(protease)活性、肽酶(peptidase)活性和/或蛋白质酶(proteinase)活性。蛋白酶活性可以包括内切蛋白酶活性和/或外切蛋白酶活性。蛋白酶活性可以包括羧肽酶活性、氨肽酶活性、丝氨酸蛋白酶活性、金属蛋白酶活性(例如基质金属蛋白酶或胶原酶活性)、半胱氨酸蛋白酶活性和/或天冬氨酸蛋白酶活性。一方面，蛋白酶活性可以包括与胰凝乳蛋白酶、胰蛋白酶、弹性蛋白酶、激肽释放酶和/或枯草杆菌蛋白酶活性相同或类似的活性。蛋白酶活性可以包括肽酶活性，如二肽基肽酶或羧肽酶活性。在可选择的方面，蛋白酶活性可以包括acroylindropepsin活性、顶体蛋白酶活性、actinidain活性、酰氨基酰基-肽酶活性、ADAM 17内切肽酶活性、ADAM10内切肽酶活性、蛇毒蛋白酶活性、ADAMTS-4内切肽酶活性、adenain活性、aeromonolysin活性、丙氨酸羧肽酶活性、α-裂解内切肽酶活性、补体旁路C3/C5转化酶活性、氨肽酶B活性、氨肽酶Ey活性、氨肽酶I活性、ananain活性、炭疽致死因子内切肽酶活性、asclepain活性、天冬氨酰氨肽酶活性、曲霉胃蛋白酶I活性、曲霉胃蛋白酶II活性、次晶形成蛋白活性、虾红素活性、atrolysin A活性、atrolysin B活性、atrolysin C活性、atrolysinE活性、atrolysin F活性、atroxase活性、aureolysin活性、芽孢溶素活性、细菌亮氨酰氨肽酶活性、阻挡胃蛋白酶活性、β-Ala-His二肽酶活性、β-天冬氨酰肽酶、β-裂解金属内切肽酶活性、博来霉素水解酶活性、bontoxilysin活性、bothrolysin活性、bothropasin活性、brachyurin活性、钙蛋白酶-1活性、钙蛋白酶-2活性、癌症前凝血剂活性、念珠菌胃蛋白酶活性、羧肽酶A活性、羧肽酶A2活性、羧肽酶B活性、羧肽酶C活性、羧肽酶D活性、羧肽酶H活性、羧肽酶M活性、羧肽酶T活性、羧肽酶U活性、caricain活性、caspase-1活性、组织蛋白酶B活性、组织蛋白酶D活性、组织蛋白酶E活性、组织蛋白酶F活性、组织蛋白酶G活性、组织蛋白酶H活性、组织蛋白酶K活性、组织蛋白酶L活性、组织蛋白酶O活性、组织蛋白酶S活性、组织蛋白酶T活性、组织蛋白酶V活性、cerevisin活性、绒毛膜溶素H活性、绒毛膜溶素L活性、chymase活性、木瓜凝乳蛋白酶活性、凝乳酶活性、胰凝乳蛋白酶活性(例如胰凝乳蛋白酶C活性)、补体经典途径C3/C5转化酶、梭菌氨肽酶活性、梭菌蛋白酶活性、凝固因子IXa活性、凝固因子VIIa活性、凝固因子Xa活性、凝固因子XIa活性、凝固因子XIIa活性、coccolysin活性、补体成分Clr活性、补体成分Cls活性、补体因子D活性、补体因子I活性、cruzipain活性、cucumisin活性、半胱氨酸型羧肽酶活性、半胱氨酰氨肽酶活性、胞质丙氨酰氨肽酶活性、胞质非特异性二肽酶活性、dactylysin活性、deuterolysin活性、二肽酶E活性、二肽基-二肽酶活性、二肽基-肽酶I活性、二肽基-肽酶II活性、二肽基-肽酶III活性、二肽基-肽酶IV活性、D-立体特异性氨肽酶活性、内肽酶Clp活性、内肽酶La活性、内肽酶So活性、内皮缩血管肽转换酶1活性、endothiapepsin活性、肠肽酶活性、envelysin活性、fibrolase活性、ficain活性、flavastacin活性、flavirin活性、flagilysin活性、果实菠萝蛋白酶活性、弗林蛋白酶活性、配子溶素活性、γ-D-谷氨酰-内消旋-二氨基庚二酸酯肽酶I活性、γ-谷氨酰水解酶活性、γ-肾素活性、胃亚蛋白酶活性、明胶酶A活性、明胶酶B活性、gingipainK活性、gingipain R活性、谷氨酸(Glu)-谷氨酸(Glu)二肽酶活性、谷氨酸羧肽酶II活性、谷氨酸羧肽酶活性谷氨酰氨肽酶活性、谷氨酰内肽酶II活性、谷氨酰内肽酶活性、甘氨酰内肽酶活性、Gly-X羧肽酶活性、GPR内肽酶活性、粒酶A活性、粒酶B活性、辅助组分蛋白酶活性、Hepacivirin活性、Histolysain活性、HIV-1反胃蛋白酶活性、HIV-2反胃蛋白酶活性、Horrilysin活性、Hypodermin C活性、IgA-特异性金属内肽酶活性、IgA-特异性丝氨酸内肽酶活性、Insulysin活性、间质胶原酶活性、Jararhagin活性、Kexin活性、Lactocepin活性、Legumain活性、Leishmanolysin活性、白细胞溶素活性、亮氨酰氨肽酶活性、亮氨酰内肽酶活性、白细胞弹性蛋白酶活性、鲎凝块酶活性、鲎凝块因子B活性、鲎凝块因子C活性、L-肽酶活性、赖氨酸(精氨酸)羧肽酶活性、溶酶体Pro-X羧肽酶活性、溶葡萄球菌素活性、赖氨酰氨肽酶活性、赖氨酰内肽酶活性、巨噬细胞弹性蛋白酶活性、Magnolysin活性、Matrilysin活性、Memapsin 1、Memapsin 2、膜丙氨酸氨肽酶、膜二肽酶、膜Pro-X羧肽酶、膜基质金属蛋白酶-1、Meprin A、Meprin B、金属羧肽酶D、甲硫氨酰氨肽酶、Metridin、Met-Xaa二肽酶、微生物胶原酶、线粒体中间肽酶、线粒体加工肽酶、Mucoropepsin、Mucrolysin、Muramoylpentapeptide羧肽酶、Muramoyltetrapeptide羧肽酶、Mycolysin、成髄细胞蛋白酶、Nardilysin、Neopenthesin、Neprilysin、溶神经素、嗜中性白细胞胶原酶、N-甲酰甲硫氨酰-肽酶、野田村病毒内肽酶、非立体特异性二肽酶、核内包涵体-a内肽酶、寡肽酶A、寡肽酶B、Omptin、Ophiolysin、Oryzin、O-唾液酸糖蛋白内肽酶、胰弹性蛋白酶II、胰弹性蛋白酶、胰内肽酶E、木瓜蛋白酶、Pappalysin-1、Penicillopepsin、PepB氨肽酶、胃蛋白酶A、胃蛋白酶B、肽基-天冬氨酸(Asp)金属内肽酶、肽基-二肽酶A、肽基-二肽酶B、肽基-二肽酶Dcp、肽基-甘氨酰胺酶、肽基-赖氨酸(Lys)金属内肽酶、Phytepsin、Picornain 2A、Picornain 3C、Pitrilysin、血浆激肽释放酶、Plasmepsin I、Plasmepsin II、纤溶酶、纤溶酶原激活物Pla、Polyporopepsin、Prepilin肽酶、原胶原C-内肽酶、原胶原N-内肽酶、脯氨酰氨肽酶、脯氨酰寡肽酶、前阿片皮质素原转化酶、原蛋白转化酶(Proprotein convertase)1、原蛋白转化酶2、蛋白酶体内肽酶复合体、蛋白C(活化的)、蛋白酶K、假溶素、Pycnoporopepsin、焦谷氨酰-肽酶I、焦谷氨酰-肽酶II、肾素、阻抑lexA、Rhizopuspepsin、Rhodotorulapepsin、Ruberlvsin、Russellvsin、S2P内肽酶、Saccharolysin、糖胃蛋白酶、Scutelarin、小柱孢素胃蛋白酶A活性、小柱孢素胃蛋白酶B、Semenogelase、Separase、丝氨酸型D-Ala-D-Ala羧肽酶、锯齿溶素、信号肽酶I、信号肽酶II、蛇毒因子V激活物、Snapalysin、Spermosin、Staphopain、Ste24内肽酶、茎菠萝蛋白酶、Streptogrisin A、Streptogrisin B、Streptopain、基质裂解素1、基质裂解素2、枯草溶菌素、Tentoxilysin、Thermitase、致热溶解酶、Thermomycolin、Thermopsin、热稳定羧肽酶1、甲拌磷寡肽酶、凝血酶活性、组织激肽释放酶活性、Togavirin活性、T-纤溶酶原激活物活性、Trimerelysin I活性、Trimerelysin II活性、三肽氨肽酶活性、三肽基-肽酶I活性、三肽基-肽酶II活性、胰蛋白酶活性、类胰蛋白酶活性、色氨酰氨肽酶活性、微管蛋白基-酪氨酸(Tyr)羧肽酶活性、遍在蛋白基水解酶I活性、U-纤溶酶原激活物活性、V-cath内肽酶活性、Venombin A活性、Venombin AB活性、Xaa-Arg二肽酶活性、Xaa-His二肽酶、活性Xaa-甲基-His二肽酶活性、Xaa-Pro氨肽酶活性、Xaa-Pro二肽酶活性、Xaa-Pro二肽基-肽酶活性、Xaa-Trp氨肽酶活性、Yapsin 1活性、锌D-Ala-D-Ala羧肽酶活性或其组合。

本发明的示例性多肽的一些其它的活性(例如，如上面所罗列)通过实验数据、通过与其它序列的同源性(序列比较)，或通过序列比较以及实验结果一同来确定。然而，本发明的示例性种类，或基于示例性序列的多肽的类群，并不限于任何特定的蛋白酶活性。因此，在可选择的方面，但不是限定性的方面，具有如SEQ ID NO：2中所示的序列(由SEQ ID NO：1编码)的多肽可以具有碱性蛋白酶活性；具有如SEQ ID NO：4中所示的序列(由SEQ ID NO：3编码)的多肽可以具有丝氨酸蛋白酶活性；具有如SEQ ID NO：6中所示的序列(由SEQ ID NO：5编码)的多肽可以具有肽酶活性；具有如SEQ ID NO：22中所示的序列(由SEQ ID NO：21编码)的多肽可以具有丝氨酸蛋白酶活性；具有如SEQ ID NO：26中所示的序列(由SEQ ID NO：25编码)的多肽可以具有枯草杆菌蛋白酶样分泌型蛋白酶活性；具有如SEQ ID NO：28中所示的序列(由SEQ ID NO：27编码)的多肽可以具有丝氨酸蛋白酶活性(例如碱性丝氨酸蛋白酶活性)；具有如SEQ ID NO：36中所示的序列(由SEQ ID NO：35编码)的多肽可以具有丝氨酸蛋白酶活性(例如碱性丝氨酸蛋白酶活性)；具有如SEQ ID NO：38中所示的序列(由SEQ ID NO：37编码)的多肽可以具有丝氨酸蛋白酶活性；具有如SEQ ID NO：42中所示的序列(由SEQ IDNO：41编码)的多肽可以具有丝氨酸蛋白酶活性(例如胞外碱性丝氨酸蛋白酶2活性)；具有如SEQ ID NO：50中所示的序列(由SEQ ID NO：49编码)的多肽可以具有丝氨酸蛋白酶活性(例如碱性丝氨酸蛋白酶活性)；具有如SEQ ID NO：58中所示的序列(由SEQ ID NO：57编码)的多肽可以具有丝氨酸蛋白酶活性；具有如SEQ ID NO：68中所示的序列(由SEQ ID NO：67编码)的多肽可以具有丝氨酸蛋白酶活性(例如碱性丝氨酸蛋白酶活性)；具有如SEQ ID NO：74中所示的序列(由SEQ ID NO：73编码)的多肽可以具有丝氨酸蛋白酶活性(例如碱性丝氨酸蛋白酶活性)；具有如SEQ ID NO：76中所示的序列(由SEQ ID NO：75编码)的多肽可以具有丝氨酸蛋白酶活性(例如冷活性丝氨酸碱性蛋白酶活性)；具有如SEQ IDNO：82中所示的序列(由SEQ ID NO：81编码)的多肽可以具有丝氨酸蛋白酶活性；具有如SEQ ID NO：86中所示的序列(由SEQ ID NO：85编码)的多肽可以具有蛋白酶II活性；具有如SEQ ID NO：90中所示的序列(由SEQ ID NO：89编码)的多肽可以具有丝氨酸金属蛋白酶活性；具有如SEQ ID NO：92中所示的序列(由SEQID NO：91编码)的多肽可以具有金属蛋白酶活性；具有如SEQ ID NO：96中所示的序列(由SEQ ID NO：95编码)的多肽可以具有丝氨酸蛋白酶活性(例如冷活性丝氨酸碱性蛋白酶活性)；具有如SEQ ID NO：98中所示的序列(由SEQ ID NO：97编码)的多肽可以具有肽酶活性；具有如SEQ ID NO：100中所示的序列(由SEQ IDNO：99编码)的多肽可以具有激素原转化酶活性；具有如SEQ ID NO：106中所示的序列(由SEQ ID NO：105编码)的多肽可以具有胶原酶活性；具有如SEQ IDNO：112中所示的序列(由SEQ ID NO：111编码)的多肽可以具有碱性丝氨酸蛋白酶II活性；具有如SEQ ID NO：114中所示的序列(由SEQ ID NO：113编码)的多肽可以具有丝氨酸蛋白酶活性；具有如SEQ ID NO：120中所示的序列(由SEQ IDNO：119编码)的多肽可以具有枯草杆菌蛋白酶样蛋白酶活性；具有如SEQ IDNO：128中所示的序列(由SEQ ID NO：127编码)的多肽可以具有丝氨酸蛋白酶活性(例如丝氨酸蛋白酶A活性)；具有如SEQ ID NO：134中所示的序列(由SEQ IDNO：133编码)的多肽可以具有亮氨酸氨肽酶活性；具有如SEQ ID NO：136中所示的序列(由SEQ ID NO：135编码)的多肽可以具有胶原酶活性；具有如SEQ IDNO：142中所示的序列(由SEQ ID NO：141编码)的多肽可以具有中性蛋白酶活性；具有如SEQ ID NO：147中所示的序列(由SEQ ID NO：146编码)的多肽可以具有丝氨酸蛋白酶活性；具有如SEQ ID NO：151中所示的序列(由SEQ ID NO：150编码)的多肽可以具有金属蛋白酶活性或天冬氨酰蛋白质酶(天冬氨酰蛋白酶)活性；具有如SEQ ID NO：159中所示的序列(由SEQ ID NO：158编码)的多肽可以具有金属蛋白酶活性或羧肽酶活性(例如丝氨酸型羧肽酶活性)；具有如SEQ IDNO：165中所示的序列(由SEQ ID NO：164编码)的多肽可以具有肽酶活性，如氨肽酶活性(例如亮氨酸氨肽酶活性)；具有如SEQ ID NO：172中所示的序列(由SEQ ID NO：171编码)的多肽可以具有肽酶或CaaX异戊二烯基蛋白酶活性(例如CaaX加工活性)；具有如SEQ ID NO：180中所示的序列(由SEQ ID NO：179编码)的多肽可以具有羧肽酶活性(例如锌羧肽酶活性)；具有如SEQ ID NO：188中所示的序列(由SEQ ID NO：187编码)的多肽可以具有丝氨酸蛋白酶活性或subtilase样活性；具有如SEQ ID NO：194中所示的序列(由SEQ ID NO：193编码)的多肽可以具有金属蛋白酶活性或肽酶活性(例如氨肽酶活性)；具有如SEQ ID NO：200中所示的序列(由SEQ ID NO：199编码)的多肽可以具有羧肽酶活性(例如羧肽酶A活性或锌羧肽酶活性)；具有如SEQ ID NO：205中所示的序列(由SEQ IDNO：204编码)的多肽可以具有羧肽酶活性(例如锌羧肽酶活性)；具有如SEQ IDNO：211中所示的序列(由SEQ ID NO：210编码)的多肽可以具有羧肽酶活性(例如羧肽酶S1活性或丝氨酸羧肽酶活性)；具有如SEQ ID NO：219中所示的序列(由SEQ ID NO：218编码)的多肽可以具有锌羧肽酶活性；具有如SEQ ID NO：223中所示的序列(由SEQ ID NO：222编码)的多肽可以具有肽酶活性；具有如SEQ IDNO：230中所示的序列(由SEQ ID NO：229编码)的多肽可以具有碱性或丝氨酸蛋白酶活性或subtilase活性；具有如SEQ ID NO：235中所示的序列(由SEQ IDNO：234编码)的多肽可以具有金属蛋白酶活性或酰基氨酰基肽酶活性(例如羧肽酶S1活性)；具有如SEQ ID NO：242中所示的序列(由SEQ ID NO：241编码)的多肽可以具有羧肽酶活性(例如锌羧肽酶活性)；具有如SEQ ID NO：249中所示的序列(由SEQ ID NO：248编码)的多肽可以具有天冬氨酰蛋白酶活性；具有如SEQID NO：255中所示的序列(由SEQ ID NO：254编码)的多肽可以具有金属蛋白酶活性或羧肽酶活性(例如丝氨酸型羧肽酶活性)。本发明的任何多肽，包括具有上述所罗列的示例性活性的多肽，可能需要处理(例如前体(prepro)形式的加工、磷酸化作用、异戊二烯化、二聚化等等)，以产生该酶的酶促活性形式。

一方面，分离的或重组的核酸编码具有蛋白酶活性的多肽，该多肽是热稳定的。该多肽在如下温度条件下可以保持蛋白酶活性，温度范围为大约37℃到大约95℃之间；大约55℃到大约85℃之间，大约70℃到大约95℃之间，或大约90℃到大约95℃之间。

另一方面，分离的或重组的核酸编码具有蛋白酶活性的多肽，该多肽是耐热的。该多肽在暴露于如下温度后可以保持蛋白酶活性：从大于37℃到大约95℃的范围内，或从大于55℃到大约85℃之间的任何温度。该多肽在暴露于如下温度范围后可以保持蛋白酶活性：大约1℃到大约5℃之间，大约5℃到大约15℃之间，大约15℃到大约25℃之间，大约25℃到大约37℃之间，大约37℃到大约95℃之间，大约55℃到大约85℃之间，大约70℃到大约75℃之间，或大约90℃到大约95℃之间，或更高的温度。一方面，该多肽在暴露于从大于90℃到大约95℃的温度范围内和pH4.5后可保持蛋白酶活性。

本发明提供了分离的或重组的核酸，其包括在严紧条件(stringent conditions)下与包含如下所示的一个序列的核酸杂交的序列：SEQ ID NO：1；SEQ ID NO：3；SEQ ID NO：5；SEQ ID NO：7；SEQ ID NO：9；SEQ ID NO：11；SEQ ID NO：13；SEQID NO：15；SEQ ID NO：17；SEQ ID NO：19；SEQ ID NO：21；SEQ ID NO：23；SEQID NO：25；SEQ ID NO：27；SEQ ID NO：29；SEQ ID NO：31；SEQ ID NO：33；SEQID NO：35；SEQ ID NO：37；SEQ ID NO：39；SEQ ID NO：41；SEQ ID NO：43；SEQID NO：45；SEQ ID NO：47；SEQ ID NO：49；SEQ ID NO：51；SEQ ID NO：53；SEQID NO：55；SEQ ID NO：57；SEQ ID NO：59；SEQ ID NO：61；SEQ ID NO：63；SEQID NO：65；SEQ ID NO：67；SEQ ID NO：69；SEQ ID NO：71；SEQ ID NO：73；SEQID NO：75；SEQ ID NO：77；SEQ ID NO：79；SEQ ID NO：81；SEQ ID NO：83；SEQID NO：85；SEQ ID NO：87；SEQ ID NO：89；SEQ ID NO：91；SEQ ID NO：93；SEQID NO：95；SEQ ID NO：97；SEQ ID NO：99；SEQ ID NO：101；SEQ ID NO：103；SEQID NO：105；SEQ ID NO：107；SEQ ID NO：109；SEQ ID NO：111；SEQ IDNO：113；SEQ ID NO：115；SEQ IDNO：117；SEQ ID NO：119；SEQ ID NO：121；SEQ IDNO：123；SEQ ID NO：125；SEQ ID NO：127；SEQ ID NO：129；SEQ ID NO：131；SEQ ID NO：133；SEQ ID NO：135；SEQ ID NO：137；SEQ ID NO：139；SEQ IDNO：141；SEQ ID NO：143；SEQ ID NO：145；SEQ ID NO：146；SEQ ID NO：150；SEQ ID NO：158；SEQ ID NO：164；SEQ ID NO：171；SEQ ID NO：179；SEQ IDNO：187；SEQ ID NO：193；SEQ ID NO：199；SEQ ID NO：204；SEQ ID NO：210；SEQ ID NO：218；SEQ ID NO：222；SEQ ID NO：229；SEQ ID NO：234；SEQ IDNO：241；SEQ ID NO：248和/或SEQ ID NO：254，或其片段或子序列。一方面，核酸编码具有蛋白酶活性的多肽。该核酸的长度可以是至少大约10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200或更多残基或基因的全长或转录物的全长。一方面，严紧条件包括洗涤步骤，包括在0.2X SSC中在大约65℃的温度下洗涤大约15分钟。

本发明提供了核酸探针，用于鉴定编码具有蛋白酶活性的多肽的核酸，其中所述探针包括含有本发明一个序列或其片段或其子序列的至少大约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000或更多个连续碱基，其中所述探针通过结合或杂交来鉴定核酸。该探针可以包括寡核苷酸，该寡核苷酸包含本发明一个序列或其片段或其子序列的至少大约10到50、大约20到60、大约30到70、大约40到80或大约60到100个连续碱基。

本发明提供了核酸探针，用于鉴定编码具有蛋白酶活性的多肽的核酸，其中所述探针包括含有与本发明的核酸在至少大约10、15、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000或更多个残基上具有至少大约50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高或完全的(100％)序列同一性的序列的核酸，其中序列同一性通过运用序列比较算法的分析或通过视觉观察来确定。

该探针可以包括寡核苷酸，该寡核苷酸含有本发明的核酸序列或其子序列的至少大约10到50、大约20到60、大约30到70、大约40到80或大约60到100个连续碱基。

本发明提供了扩增引物对，用于扩增编码具有蛋白酶活性的多肽的核酸，其中引物对能扩增含有本发明的序列或其片段或子序列的核酸。扩增引物序列对的一个或每一成员可以包括寡核苷酸，该寡核苷酸包括该序列的至少大约10到50个连续碱基，或该序列的大约12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个连续碱基。

本发明提供了扩增引物对，其中引物对包括第一个成员和第二个成员，其中第一成员具有如本发明核酸的大约(5’端)前12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个残基所示的序列，第二成员具有由第一个成员的互补链的大约(5’端)前12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个残基所示的序列。

本发明提供了编码蛋白酶的核酸，其是使用本发明的扩增引物对通过扩增例如聚合酶链式反应(PCR)产生。本发明提供了蛋白酶，其是使用本发明的扩增引物对通过扩增例如聚合酶链式反应(PCR)产生。本发明提供了使用本发明的扩增引物对通过扩增例如聚合酶链式反应(PCR)产生蛋白酶的方法。一方面，扩增引物对从文库中扩增出核酸，所述文库例如基因文库，如环境文库。

本发明提供了扩增核酸的方法，其中核酸编码具有蛋白酶活性的多肽，所述方法包括用能扩增本发明的核酸序列或其片段或子序列的扩增引物序列对扩增模板核酸。

本发明提供了包含本发明的核酸或其子序列的表达序列盒。一方面，表达盒可以包含有效连接到(operably linked to)启动子上的核酸。启动子可以是病毒、细菌、哺乳动物或植物启动子。一方面，植物启动子可以是马铃薯、水稻、玉米、小麦、烟草或大麦启动子。启动子可以是组成型启动子。组成型启动子可以包括CaMV35S。另一方面，启动子可以是诱导型启动子。一方面，启动子可以是组织特异性启动子或环境调节型或发育调节型启动子。因此，启动子可以是，例如种子特异性、叶特异性、根特异性、茎特异性或脱落诱导启动子。一方面，表达盒可以进一步包括植物或植物病毒表达载体。

本发明提供了克隆载体，包括本发明的表达序列盒(例如载体)或本发明的核酸。克隆载体可以是病毒载体、质粒、噬菌体(phage)、噬粒、粘粒(cosmid)、fos-质粒(fosmid)、细菌噬菌体(bacteriophage)或人工染色体。病毒载体可以包括腺病毒载体、逆转录病毒载体或腺相关病毒载体。克隆载体可以包括细菌人工染色体(BAC)、质粒、噬菌体P1衍生载体(PAC)、酵母人工染色体(YAC)或哺乳动物人工染色体(MAC)。

本发明提供了包含本发明所述核酸或本发明所述表达序列盒(例如载体)、或本发明所述克隆载体的转化细胞。一方面，转化细胞可以是细菌细胞、哺乳动物细胞、真菌细胞、酵母细胞、昆虫细胞或植物细胞。一方面，植物细胞可以是马铃薯、小麦、水稻、玉米、烟草或大麦细胞。

本发明提供了包含本发明所述核酸或本发明所述表达序列盒(例如载体)的转基因非人动物。一方面，该动物是小鼠。

本发明提供了包含本发明所述核酸或本发明所述表达序列盒(例如载体)的转基因植物。转基因植物可以是玉米植物、马铃薯植物、番茄植物、小麦植物、含油种子植物、油菜籽植物、大豆植物、水稻植物、大麦植物或烟草植物。

本发明提供了包含本发明所述核酸或本发明所述表达序列盒(例如载体)的转基因种子。转基因种子可以是玉米种子、小麦粒、含油种子、油菜籽、大豆种子、棕榈核、向日葵种子、芝麻种子、花生或烟草植物种子。

本发明提供了包括与本发明的核酸互补的核酸序列或能与本发明的核酸在严紧条件下杂交的核酸序列的反义寡核苷酸。本发明提供了抑制蛋白酶信息在细胞中翻译的方法，该方法包括给细胞施用反义寡核苷酸或在细胞中表达反义寡核苷酸，所述寡核苷酸包括与本发明的核酸互补的核酸序列或能与本发明的核酸在严紧条件下杂交的核酸序列。一方面，反义寡核苷酸长度在大约10-50之间、大约20-60之间、大约30-70之间、大约40-80之间或大约60-100个碱基之间。

本发明提供了抑制蛋白酶信息在细胞中翻译的方法，包括给细胞施用反义寡核苷酸或在细胞中表达反义寡核苷酸，所述反义寡核苷酸包括与本发明的核酸互补的核酸序列或能与本发明的核酸在严紧条件下杂交的核酸序列。本发明提供了包括本发明的序列的子序列的双链抑制性RNA(RNAi)分子。一方面，RNAi的长度为大约15、16、17、18、19、20、21、22、23、24、25或更多个双螺旋核苷酸。本发明提供抑制蛋白酶在细胞中表达的方法，包括给细胞施用双链抑制性RNA(iRNA)或在细胞中表达双链抑制性RNA(iRNA)，其中RNA包括本发明的序列的子序列。

本发明提供了分离的或重组的多肽，其包括在至少大约25、50、75、100、125、150、175、200、225、250、275、300、325、350或更多个残基的区域内，或者在多肽的全长区域内，与本发明的示例性多肽或肽具有至少大约50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高或完全的(100％)序列同一性的氨基酸序列，序列同一性通过运用序列比较算法的分析或通过视觉观察来确定。本发明的示例性多肽或肽序列包括SEQ ID NO：2；SEQ ID NO：4；SEQ IDNO：6；SEQ ID NO：8；SEQ ID NO：10；SEQ ID NO：12；SEQ ID NO：14；SEQ IDNO：16；SEQ ID NO：18；SEQ ID NO：20；SEQ ID NO：22；SEQ ID NO：24；SEQ IDNO：26；SEQ ID NO：28；SEQ ID NO：30；SEQ ID NO：32；SEQ ID NO：34；SEQ IDNO：36；SEQ ID NO：38；SEQ ID NO：40；SEQ ID NO：42；SEQ ID NO：44；SEQ IDNO：46；SEQ ID NO：48；SEQ ID NO：50；SEQ ID NO：52；SEQ ID NO：54；SEQ IDNO：56；SEQ ID NO：58；SEQ ID NO：60；SEQ ID NO：62；SEQ ID NO：64；SEQ IDNO：66；SEQ ID NO：68；SEQ ID NO：70；SEQ ID NO：72；SEQ ID NO：74；SEQ IDNO：76；SEQ ID NO：78；SEQ ID NO：80；SEQ ID NO：82；SEQ ID NO：84；SEQ IDNO：86；SEQ ID NO：88；SEQ ID NO：90；SEQ ID NO：92；SEQ ID NO：94；SEQ IDNO：96；SEQ ID NO：98；SEQ ID NO：100；SEQ ID NO：102；SEQ ID NO：104；SEQID NO：106；SEQ ID NO：108；SEQ ID NO：110；SEQ ID NO：112；SEQ ID NO：114；SEQ ID NO：116；SEQ ID NO：118；SEQ ID NO：120；SEQ ID NO：122；SEQ IDNO：124；SEQ ID NO：126；SEQ ID NO：128；SEQ ID NO：130；SEQ ID NO：132；SEQ IDNO：134；SEQ ID NO：136；SEQ ID NO：138；SEQ ID NO：140；SEQ IDNO：142；SEQ ID NO：144；SEQ ID NO：147；SEQ ID NO：151；SEQ ID NO：159；SEQ IDNO：165；SEQ ID NO：172；SEQ ID NO：180；SEQ ID NO：188；SEQ IDNO：194；SEQ ID NO：200；SEQ ID NO：205；SEQ ID NO：211；SEQ ID NO：219；SEQID NO：223；SEQ ID NO：230；SEQ ID NO：235；SEQ ID NO：242；SEQ ID NO：249或SEQ ID NO：255，或由SEQ ID NO：145编码的蛋白酶，及其子序列和变体。示例性多肽也包括长度为至少大约10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600或更多个残基的片段，或酶的全长。本发明的示例性多肽或肽序列包括由本发明的核酸编码的序列。本发明的示例性多肽或肽序列包括由本发明的抗体特异性结合的多肽或肽。一方面，本发明的多肽可以具有至少一种蛋白酶活性。

本发明的另一方面提供了分离的或重组的多肽或肽，包括本发明的多肽或肽序列、与其基本上相同的序列和与其互补的序列的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100或更多个连续氨基酸。该肽可以是，例如免疫原性片段、基序(例如结合位点)、信号序列(例如表4所示)、前体(prepro)序列或活性位点。

一方面，蛋白酶活性包括催化肽键的水解。蛋白酶活性可以包括内切蛋白酶活性和/或外切蛋白酶活性。蛋白酶活性可以包括羧肽酶活性、氨肽酶活性、丝氨酸蛋白酶活性、金属蛋白酶活性、半胱氨酸蛋白酶活性和/或天冬氨酸蛋白酶活性。一方面，蛋白酶活性可以包括与胰凝乳蛋白酶、胰蛋白酶、弹性蛋白酶、激肽释放酶和/枯草杆菌蛋白酶活性相同或类似的活性。蛋白酶活性可以包括肽酶活性，如二肽基肽酶或羧肽酶活性。

一方面，蛋白酶活性是热稳定的。多肽在如下温度条件下可以保持蛋白酶活性，温度范围为大约1℃到大约5℃之间，大约5℃到大约15℃之间，大约15℃到大约25℃之间，大约25℃到大约37℃之间，大约37℃到大约95℃之间，大约55℃到大约85℃之间，大约70℃到大约75℃之间，或大约90℃到大约95℃之间，或更高的温度。另一方面，蛋白酶活性可以是耐热的。多肽在暴露于从大于37℃到大约95℃的温度范围，或从大于55℃到大约85℃的范围可以保持蛋白酶活性。一方面，多肽在暴露于从大于90℃到大约95℃的温度范围，在pH4.5可以保持蛋白酶活性。

一方面，分离的或重组的多肽可以包括本发明的缺乏信号序列的多肽。一方面，分离的或重组的多肽可以包括本发明的含有异源信号序列的多肽，所述异源信号序列例如异源蛋白酶或异源非蛋白酶信号序列。

一方面，本发明提供了信号序列，其包括肽，所述肽包含如下序列/由如下序列组成：即例如本发明的多肽的残基1到12、1到13、1到14、1到15、1到16、1到17、1到18、1到19、1到20、1到21、1到22、1到23、1到24、1到25、1到26、1到27、1到28、1到28、1到30、1到31、1到32、1到33、1到34、1到35、1到36、1到37、1到38、1到39、1到40、1到41、1到42、1到43、1到44(或更长的肽)所示的序列。一方面，本发明提供了信号序列，其包括肽，所述肽包括表4所示的序列/由表4所示的序列组成。

本发明提供了分离的或重组的肽，其包括氨基酸序列，所述氨基酸序列与SEQID NO：2的残基1到37具有至少95％、96％、97％、98％、99％或更高的序列同一性，与SEQ ID NO：4的残基1到36具有至少95％、96％、97％、98％、99％或更高的序列同一性，与SEQ ID NO：6的残基1到32具有至少95％、96％、97％、98％、99％或更高的序列同一性，与SEQ ID NO：10的残基1到28具有至少95％、96％、97％、98％、99％或更高的序列同一性，与SEQ ID NO：14的残基1到33具有至少95％、96％、97％、98％、99％或更高的序列同一性，与SEQ ID列表中所示的其它信号序列具有至少95％、96％、97％、98％、99％或更高的序列同一性，其中序列同一性通过运用序列比较算法的分析或通过视觉观察来确定。这些肽在其内源蛋白酶、在另一种蛋白酶或异源蛋白(非蛋白酶的酶或其它蛋白)上作为信号序列。

一方面，本发明提供了包含第一结构域和至少第二结构域的嵌合蛋白，其中第一结构域包括本发明的信号序列(例如参见表4)。蛋白可以是融合蛋白。第二结构域可以包括酶。该酶可以是蛋白酶。

本发明提供了嵌合多肽，该嵌合多肽包含至少第一结构域和至少第二结构域，其中第一结构域包括本发明的信号肽(SP)、前体序列和/或催化结构域(CD)，第二结构域包括异源多肽或肽，其中所述异源多肽或肽与所述信号肽(SP)、前体序列和/或催化结构域(CD)不天然相关。一方面，异源多肽或肽不是蛋白酶。异源多肽或肽可以定位在信号肽(SP)、前体序列和/或催化结构域(CD)的氨基末端或羧基末端，或在信号肽(SP)、前体序列和/或催化结构域(CD)的两个末端。

本发明提供了编码嵌合多肽的分离的或重组的核酸，其中所述嵌合多肽包含至少第一结构域和至少第二结构域，其中第一结构域包括本发明的信号肽(SP)、前体序列和/或催化结构域(CD)，第二结构域包括异源多肽或肽，其中所述异源多肽或肽与所述信号肽(SP)、前体序列和/或催化结构域(CD)不天然相关。

一方面，蛋白酶活性包括在大约37℃每毫克蛋白大约1到大约1200单位，或每毫克蛋白大约100到大约1000单位的范围内的比活性。另一方面，蛋白酶活性包括每毫克蛋白从大约100到大约1000单位，或每毫克蛋白从大约500到大约750单位的范围内的比活性。可以选择地，蛋白酶活性包括在37℃每毫克蛋白从大约1到大约750单位，或每毫克蛋白从大约500到大约1200单位的范围内的比活性。一方面，蛋白酶活性包括在37℃每毫克蛋白从大约1到大约500单位，或每毫克蛋白从大约750到大约1000单位的范围内的比活性。另一方面，蛋白酶活性包括在37℃每毫克蛋白从大约1到大约250单位的范围内的比活性。可以选择地，蛋白酶活性包括在37℃每毫克蛋白从大约1到大约100单位的范围内的比活性。另一方面，耐热性包括在被加热到高温后保持在37℃时蛋白酶的至少一半的比活性。可以选择地，耐热性可以包括在被加热到高温后，保持在37℃的每毫克蛋白从大约1到大约1200单位，或每毫克蛋白从大约500到大约1000单位的范围内的比活性。另一方面，耐热性可以包括在被加热到高温后，保持在37℃的每毫克蛋白从大约1到大约500单位范围内的比活性。

本发明提供了本发明的分离的或重组的多肽，其中所述多肽包括至少一个糖基化位点。一方面，糖基化可以是N-连接糖基化。一方面，多肽可以在毕赤酵母(P.pastoris)或裂变酵母(S.pombe)中被表达后被糖基化。

一方面，多肽可以在包括大约pH6.5、pH6、pH5.5、pH5、pH4.5或pH4的条件下保持蛋白酶活性。另一方面，多肽可以在包括大约pH7、pH7.5、pH8.0、pH8.5、pH9、pH9.5、pH10、pH10.5或pH11的条件下保持蛋白酶活性。一方面，多肽可以在暴露于包括大约pH6.5、pH6、pH5.5、pH5、pH4.5或pH4的条件下之后保持蛋白酶活性。另一方面，多肽可以在暴露于包括大约pH7、pH7.5、pH8.0、pH8.5、pH9、pH9.5、pH10、pH10.5或pH11的条件下之后保持蛋白酶活性。

本发明提供了含有本发明的多肽的蛋白制剂，其中蛋白制剂包括液体、固体或凝胶。

本发明提供了包含本发明的多肽和第二蛋白或结构域的异源二聚体。异源二聚体的第二个成员可以是不同的蛋白酶、不同的酶或另一种蛋白。一方面，第二域结构可以是多肽，异源二聚体可以是融合蛋白。一方面，第二结构域可以是抗原决定基(epitope)或标记物(tag)。一方面，本发明提供了包含本发明的多肽的同源二聚体。

本发明提供了具有蛋白酶活性的固定化多肽，其中多肽包括本发明的多肽、由本发明的核酸编码的多肽、或含有本发明的多肽和第二结构域的多肽。一方面，多肽可以被固定在细胞、金属、树脂、聚合物、陶瓷制品、玻璃、微电极、石墨颗粒、珠子、凝胶、平板、阵列或毛细管上。

本发明提供了包含本发明的固定化核酸的阵列。本发明提供了包含本发明的抗体的阵列。

本发明提供了分离的或重组的抗体，其与本发明的多肽或与本发明的核酸编码的多肽特异性结合。该抗体可以是单克隆或多克隆抗体。本发明提供了包含本发明的抗体的杂交瘤，所述抗体例如与本发明的多肽或与由本发明的核酸编码的多肽特异性结合的抗体。

本发明提供了包含本发明的多肽的用于动物的食物添加剂，所述多肽例如由本发明的核酸编码的多肽。一方面，食物添加剂中的多肽可以是糖基化的。本发明提供了包含本发明的多肽的可食用的酶传递基质，所述多肽例如由本发明的核酸编码的多肽。一方面，传递基质包括颗粒状物。一方面，多肽可以被糖基化。一方面，蛋白酶活性是耐热的。另一方面，蛋白酶活性是热稳定的。

本发明提供了分离或鉴定具有蛋白酶活性的多肽的方法，该方法包括如下步骤：(a)提供本发明的抗体；(b)提供包含多肽的样品；和(c)将步骤(b)的样品与步骤(a)的抗体在抗体能与多肽特异性结合的条件下接触，从而分离或鉴定具有蛋白酶活性的多肽。

本发明提供了制备抗蛋白酶抗体的方法，该方法包括以足够的量给非人类动物施用本发明的核酸或本发明的多肽或其子序列，以产生体液免疫应答，从而产生抗蛋白酶抗体。本发明提供了产生抗蛋白酶免疫的方法，该方法包括以足够的量给非人类动物施用本发明的核酸或本发明的多肽或其子序列，以产生免疫应答。

本发明提供了产生重组多肽的方法，包括如下步骤：(a)提供与启动子有效连接的本发明的核酸；和(b)在允许多肽表达的条件下表达步骤(a)的核酸，从而产生重组多肽。一方面，该方法进一步包括用步骤(a)的核酸转化宿主细胞，随后表达步骤(a)的核酸，从而在转化细胞中产生重组多肽。

本发明提供了鉴定具有蛋白酶活性的多肽的方法，包括如下步骤：(a)提供本发明的多肽；或由本发明的核酸编码的多肽；(b)提供蛋白酶底物；和(c)用步骤(b)的底物接触步骤(a)的多肽或其片段或其变体，并且检测底物量的降低或反应产物量的增加，其中底物量的降低或反应产物量的增加检测出具有蛋白酶活性的多肽。

本发明提供了鉴定蛋白酶底物的方法，包括如下步骤：(a)提供本发明的多肽；或由本发明的核酸编码的多肽；(b)提供测试底物；和(c)用步骤(b)的测试底物接触步骤(a)的多肽，并且检测底物量的降低或反应产物量的增加，其中底物量的降低或反应产物量的增加检测出作为蛋白酶底物的测试底物。

本发明提供了确定测试化合物是否与多肽特异性结合的方法，包括如下步骤：(a)在允许核酸翻译为多肽的条件下表达核酸或包含核酸的载体，其中核酸包括本发明的核酸，或提供本发明的多肽；(b)提供测试化合物；(c)用测试化合物接触多肽；和(d)确定步骤(b)的测试化合物是否与多肽特异性结合。

本发明提供了鉴定蛋白酶活性的调节剂的方法，包括如下步骤：(a)提供本发明的多肽，或由本发明的核酸编码的多肽；(b)提供测试化合物；和(c)用步骤(b)的测试化合物接触步骤(a)的多肽，并测定蛋白酶的活性，其中在存在测试化合物的情况下测定的蛋白酶活性与不存在测试化合物的情况下测定的活性相比的变化，提供了该测试化合物调节蛋白酶活性的测定法。一方面，蛋白酶活性可以通过提供蛋白酶底物并检测底物量的降低或反应产物量的增加，或底物量的增加或反应产物量的降低来测量。与没有测试化合物时底物或反应产物量相比，有测试化合物时底物量的降低或反应产物量的增加鉴定出作为蛋白酶活性的激活剂的测试化合物。与没有测试化合物时底物或反应产物量相比，有测试化合物时底物量的增加或反应产物量的降低鉴定出作为蛋白酶活性的抑制剂的测试化合物。

本发明提供了计算机系统，其包括处理器和数据存储设备，其中所述数据存储设备上已经存储了本发明的多肽序列或核酸序列(例如由本发明的核酸编码的多肽)。一方面，计算机系统可以进一步包括序列比较算法和数据存储设备，其中数据存储设备上已经存储了至少一个对比序列。另一方面，序列比较算法包括表明多态现象的计算机程序。一方面，计算机程序可以进一步包括在所述序列中鉴定一个或多个特征的鉴定器(identifier)。本发明提供了计算机可读介质，其上已经存储了本发明的多肽序列或核酸序列。本发明提供了鉴定序列中的特征的方法，包括如下步骤：(a)使用可鉴定序列中的一个或多个特征的计算机程序读取序列，其中所述序列包括本发明的多肽序列或核酸序列；和(b)用所述计算机程序鉴定序列中的一个或多个特征。本发明提供了将第一个序列与第二个序列进行比较的方法，包括如下步骤：(a)通过使用可比较序列的计算机程序读取第一个序列和第二个序列，其中第一个序列包括本发明的多肽序列或核酸序列；和(b)用所述计算机程序确定第一个序列和第二个序列之间的差异。确定第一个序列和第二个序列之间差异的步骤可以进一步包括鉴定多态性的步骤。一方面，该方法可以进一步包括可鉴定序列中的一个或多个特征的鉴定器。另一方面，该方法可以包括使用计算机程序读取第一个序列，并鉴定该序列的一个或多个特征。

本发明提供了从环境样品中分离或回收核酸的方法，所述核酸编码具有蛋白酶活性的多肽，该方法包括如下步骤：(a)提供用于扩增编码具有蛋白酶活性的多肽的核酸的扩增引物序列对，其中引物对能扩增本发明的核酸；(b)从环境样品中分离核酸，或处理环境样品，以便样品中的核酸易于与扩增引物对杂交；和(c)将步骤(a)的扩增引物对与步骤(b)的核酸结合，从环境样品中扩增核酸，从而从环境样品中分离或回收编码具有蛋白酶活性的多肽的核酸。扩增引物对的一个或每一成员可以包括寡核苷酸，该寡核苷酸包含本发明的序列的至少大约10到50个连续碱基。一方面，扩增引物序列对是本发明的扩增对。

本发明提供了从环境样品中分离或回收核酸的方法，所述核酸编码具有蛋白酶活性的多肽，该方法包括如下步骤：(a)提供包含本发明的核酸或其子序列的多核苷酸探针；(b)从环境样品分离核酸，或处理环境样品，以便样品中的核酸易于与步骤(a)的多核苷酸探针杂交；(c)将步骤(a)的多核苷酸探针与步骤(b)的分离的核酸或处理的环境样品结合；和(d)分离与步骤(a)的多核苷酸探针特异性杂交的核酸，从而从环境样品中分离或回收编码具有蛋白酶活性的多肽的核酸。环境样品可以包括水样品、液体样品、土壤样品、空气样品或生物样品。一方面，生物样品可以来源于细菌细胞、原生动物细胞、昆虫细胞、酵母细胞、植物细胞、真菌细胞或哺乳动物细胞。

本发明提供了产生编码具有蛋白酶活性的多肽的核酸变体的方法，该方法包括如下步骤：(a)提供包括本发明的核酸的模板核酸；和(b)在模板序列中修饰、删除或添加一个或多个核苷酸，或修饰、删除和添加的组合，以产生模板核酸的变体。一方面，该方法可以进一步包括表达变体核酸，以产生变体蛋白酶多肽。修饰、添加或删除通过包括如下方法中的一种方法来引入：易错PCR、重排(shuffling)、寡核苷酸诱导的定向突变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变(recursive ensemble mutagenesis)、指数集合诱变(exponential ensemble mutagenesis)、位点特异性诱变、基因再装配、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)或其组合。另一方面，修饰、添加或删除通过如下方法的一种方法引入：包括重组、递归序列重组、硫代磷酸酯修饰的DNA诱变、含尿嘧啶的模板诱变、缺口双链体诱变(gapped duplex mutagenesis)、点错配修复诱变、修复缺失宿主株诱变、化学诱变、放射诱变、缺失诱变、限制选择诱变、限制纯化诱变、人工基因合成、整体诱变、嵌合核酸多聚体生成及其组合。

一方面，该方法可以被反复重复，直到产生与模板核酸编码的多肽相比具有改变的或不同的活性或者改变的或不同的稳定性的蛋白酶。一方面，变体蛋白酶多肽是耐热的，在暴露于增高的温度之后可以保持一些活性。另一方面，与模板核酸编码的蛋白酶相比，变体蛋白酶多肽具有增加的糖基化。可以选择地，变体蛋白酶多肽在高温下具有蛋白酶活性，而由模板核酸编码的蛋白酶在高温下没有活性。一方面，该方法可以被反复重复，直到产生具有与模板核酸的密码子使用(codon usage)有所不同的密码子使用的蛋白酶编码序列。另一方面，该方法可以被反复重复，直到产生具有比模板核酸的信息表达或稳定性更高或更低水平的信息表达或稳定性的蛋白酶基因。

本发明提供了在编码具有蛋白酶活性的多肽的核酸中修饰密码子以增加其在宿主细胞中的表达的方法，该方法包括如下步骤：(a)提供编码具有蛋白酶活性的多肽的本发明核酸；和(b)鉴定步骤(a)的核酸中非优选或较不优选的密码子，用优选的或中度使用(neutrally used)的密码子来代替之，所述优选或中度使用的密码子编码与被取代的密码子相同的氨基酸，其中优选密码子是在宿主细胞的基因的编码序列中过度表现的密码子，非优选或较不优选密码子是在宿主细胞的基因的编码序列中表现不足的密码子，从而修饰核酸以增加其在宿主细胞中的表达。

本发明提供了在编码具有蛋白酶活性的多肽的核酸中修饰密码子的方法，该方法包括如下步骤：(a)提供本发明的核酸；和(b)鉴定步骤(a)的核酸中的密码子，并用不同的密码子来代替，所述不同的密码子编码与被取代的密码子相同的氨基酸，从而修饰在编码蛋白酶的核酸中的密码子。

本发明提供了在编码具有蛋白酶活性的多肽的核酸中修饰密码子以增加其在宿主细胞中的表达的方法，该方法包括如下步骤：(a)提供编码蛋白酶多肽的本发明核酸；和(b)鉴定步骤(a)的核酸中的非优选或较不优选密码子，并用优选的或中度使用的密码子代替之，所述优选或中度使用的密码子编码与被取代的密码子相同的氨基酸，其中优选密码子是在宿主细胞的基因的编码序列中过度表现的密码子，非优选或较不优选密码子是在宿主细胞的基因的编码序列中表现不足的密码子，从而修饰核酸以增加其在宿主细胞中的表达。

本发明提供了在编码具有蛋白酶活性的多肽的核酸中修饰密码子以降低其在宿主细胞中的表达的方法，该方法包括如下步骤：(a)提供本发明的核酸；和(b)鉴定步骤(a)的核酸中的至少一种优选密码子，并用非优选的或较不优选的密码子代替之，所述非优选或较不优选的密码子编码与被取代的密码子相同的氨基酸，其中优选密码子是在宿主细胞的基因的编码序列中过度表现的密码子，非优选或较不优选的密码子是在宿主细胞的基因的编码序列中表现不足的密码子，从而修饰核酸以降低其在宿主细胞中的表达。一方面，宿主细胞可以是细菌细胞、真菌细胞、昆虫细胞、酵母细胞、植物细胞或哺乳动物细胞。

本发明提供了产生核酸文库的方法，所述核酸编码一系列的被修饰的蛋白酶活性位点或底物结合位点，其中被修饰的活性位点或底物结合位点来源于第一核酸，所述第一核酸包含编码第一活性位点或第一底物结合位点的序列，该方法包括如下步骤：(a)提供第一核酸，其编码第一活性位点或第一底物结合位点，其中第一核酸序列包括在严紧条件下与本发明的核酸杂交的序列，所述核酸编码蛋白酶活性位点或蛋白酶底物结合位点；(b)提供一组诱变寡核苷酸，其在第一核酸的多个目标密码子处编码天然发生的氨基酸变体；和(c)使用该组诱变寡核苷酸，产生一组编码活性位点或编码底物结合位点的变体核酸，其在被诱变的每一氨基酸密码子处编码各种范围的氨基酸变化，从而产生编码多个被修饰的蛋白酶活性位点或底物结合位点的核酸文库。一方面，该方法包括通过包括如下方法中的方法诱变步骤(a)的第一核酸：包括优化的定向进化系统、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)、易错PCR、重排、寡核苷酸诱导的定向突变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体诱变、位点特异性诱变、基因再装配、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)及其组合。另一方面，该方法包括通过如下方法中的方法诱变步骤(a)的第一核酸或变体：重组、递归序列重组、硫代磷酸酯修饰的DNA诱变、含尿嘧啶的模板诱变、缺口双链体诱变、点错配修复诱变、修复缺陷型宿主株诱变、化学诱变、放射诱变、缺失诱变、限制选择诱变、限制纯化诱变、人工基因合成、整体诱变、嵌合核酸多聚体生成及其组合。

本发明提供了产生小分子的方法，包括如下步骤：(a)提供多个能合成或修饰小分子的生物合成酶，其中这些酶中的一种酶包括由本发明的核酸编码的蛋白酶；(b)为步骤(a)的至少一种酶提供底物；和(c)将步骤(b)的底物与这些酶在能促进多个生物催化反应的条件下通过一系列生物催化反应进行反应，以产生小分子。本发明提供了修饰小分子的方法，包括如下步骤：(a)提供蛋白酶，其中该酶包括本发明的多肽，或由本发明的核酸编码的多肽，或其子序列；(b)提供小分子；和(c)将步骤(b)的小分子与步骤(a)的酶在能促进由蛋白酶催化的酶促反应的条件下进行反应，从而通过蛋白酶酶促反应修饰小分子。一方面，该方法可以包括为步骤(a)的酶提供多个小分子底物，从而产生由蛋白酶催化的至少一种酶促反应产生的被修饰小分子的文库。一方面，该方法可以包括多个其它的酶，在有助于这些酶介导的多个生物催化反应的条件下使用这些酶，以形成由多个酶促反应产生的被修饰小分子的文库。另一方面，该方法可以进一步包括测试该文库的步骤，以确定该文库中是否存在表现出期望活性的特定被修饰小分子。测试该文库的步骤可以进一步包括系统地去除所有但保留一个用于在文库中产生多个被修饰小分子中的一部分的生物催化反应，方法是通过测试被修饰小分子的所述部分中存在或不存在具有期望活性的特定被修饰小分子，鉴定产生具有期望活性的特定修饰小分子的至少一个特异性生物催化反应。

本发明提供了确定蛋白酶的功能片段的方法，包括如下步骤：(a)提供蛋白酶，其中该酶包括本发明的多肽、或由本发明的核酸编码的多肽、或其子序列；和(b)从步骤(a)的序列删除多个氨基酸残基，并测试剩余的子序列的蛋白酶活性，从而确定蛋白酶的功能片段。一方面，蛋白酶活性通过提供蛋白酶底物并检测底物量的降低或反应产物量的增加来测量。

本发明提供了通过使用实时代谢通量(real-time metabolic flux)分析进行新型或修饰表现型的全细胞工程的方法，该方法包括如下步骤：(a)通过修饰细胞的遗传组分产生修饰的细胞，其中遗传组分通过加入本发明核酸到细胞来修饰；(b)培养修饰的细胞以产生多个修饰细胞；(c)通过实时监控步骤(b)的细胞培养物测量该细胞的至少一个代谢参数，和(d)分析步骤(c)的数据，以确定测量的参数是否与在类似条件下未修饰细胞中的参照测量值不同，从而使用实时代谢通量分析鉴定细胞中的工程表现型。一方面，细胞的遗传组分可以通过包括在细胞中删除一个序列或修饰一个序列，或敲除基因的表达的方法来修饰。一方面，该方法可以进一步包括选择含有新的工程表现型的细胞。另一方面，该方法可以包括培养选择的细胞，从而产生包含新的工程表型的新细胞株。

本发明提供了增加蛋白酶多肽的耐热性或热稳定性的方法，该方法包括糖基化蛋白酶多肽，其中该多肽包括本发明的多肽或由本发明的核酸序列编码的多肽的至少三十个连续氨基酸，从而增加蛋白酶多肽的耐热性或热稳定性。一方面，蛋白酶比活性在大于大约37℃到大约95℃的温度范围内是热稳定的或耐热的。

本发明提供了在细胞中过度表达重组蛋白酶多肽的方法，该方法包括表达含有核酸的载体，该核酸包括本发明的核酸或本发明的核酸序列，其中序列同一性通过使用序列比较算法的分析或通过视觉观察来确定，其中过度表达通过使用高活性启动子、双顺反子(dicistronic)载体或通过该载体的基因扩增来实现。

本发明提供了产生转基因植物的方法，该方法包括如下步骤：(a)将异源核酸序列引入细胞中，其中异源核酸序列包括本发明的核酸序列，从而产生转化的植物细胞；和(b)从转化的细胞产生转基因植物。一方面，步骤(a)可以进一步包括通过植物细胞原生质体的电穿孔或显微注射引入异源核酸序列。另一方面，步骤(a)可以进一步包括通过DNA微粒轰击(DNA particle bombardment)将异源核酸序列直接引入植物组织中。可以选择地，步骤(a)可以进一步包括使用根瘤农杆菌(Agrobacterium tumefaciens)宿主将异源核酸序列引入植物细胞DNA中。一方面，植物细胞可以是马铃薯、玉米、稻米、小麦、烟草或大麦细胞。

本发明提供了在植物细胞中表达异源核酸序列的方法，该方法包括如下步骤：(a)用与启动子有效连接的异源核酸序列转化植物细胞，其中异源核酸序列包括本发明的核酸；(b)在异源核酸序列可在植物细胞中被表达的条件下培养植物。本发明提供了在植物细胞中表达异源核酸序列的方法，包括如下步骤：(a)用与启动子有效连接的异源核酸序列转化植物细胞，其中异源核酸序列包括本发明的核酸；(b)在异源核酸序列可在植物细胞中被表达的条件下培养植物。

本发明提供了水解、分解或破碎含蛋白的组合物的方法，该方法包括如下步骤：(a)提供本发明的具有蛋白酶活性的多肽，或由本发明的核酸编码的多肽；(b)提供含有蛋白的组合物；和(c)在蛋白酶可水解、分解或破碎含蛋白的组合物的条件下用步骤(b)的组合物接触步骤(a)的多肽。一方面，该组合物包括植物细胞、细菌细胞、酵母细胞、昆虫细胞或动物细胞。因此，该组合物可以包括任何植物或植物部分、任何含蛋白的食物或饲料、废料及其类似物。本发明提供了从组合物中溶解或去除蛋白的方法，该方法包括如下步骤：(a)提供具有蛋白酶活性的本发明的多肽，或由本发明的核酸编码的多肽；(b)提供含蛋白的组合物；和(c)在蛋白酶可去除或溶解蛋白的条件下用步骤(b)的组合物接触步骤(a)的多肽。

本发明提供了包含本发明的多肽、或由本发明的核酸编码的多肽的去污剂组合物，其中所述多肽具有蛋白酶活性。蛋白酶可以是非表面活性蛋白酶，或表面活性蛋白酶。该蛋白酶可以被配制成非水液体组合物、铸型固体、粒状(granular)形式、微粒(particulate)形式、压缩片剂、凝胶形式、糊状或浆状形式。本发明提供了洗涤目标物体的方法，该方法包括如下步骤：(a)提供包含具有蛋白酶活性的本发明的多肽或由本发明的核酸编码的多肽的组合物；(b)提供目标物体；和(c)在组合物可以洗涤目标物体的条件下用步骤(b)的目标物体接触步骤(a)的多肽。

本发明提供了包含本发明的多肽或由本发明的核酸编码的多肽的纺织品或织物，包括例如丝线。一方面，所述纺织品或织物包括含有纤维素的纤维。本发明提供了从组合物中去除蛋白质污点的方法，该方法包括如下步骤：(a)提供包含具有蛋白酶活性的本发明的多肽或由本发明的核酸编码的多肽的组合物；(b)提供具有蛋白质污点的组合物；和(c)在蛋白酶可以去除污点的条件下用步骤(b)的组合物接触步骤(a)的多肽。本发明提供了改进织物成品的方法，该方法包括如下步骤：(a)提供包含具有蛋白酶活性的本发明的多肽或由本发明的核酸编码的多肽的组合物；(b)提供一种织物；和(c)在多肽可以处理织物的条件下用步骤(b)的织物接触步骤(a)的多肽，从而改进织物成品。一方面，织物是羊毛或丝绸。

本发明提供了包含本发明的多肽或由本发明的核酸编码的多肽的饲料或食物。本发明提供了在动物食用之前在饲料或食品中水解蛋白的方法，该方法包括如下步骤：(a)获得包含本发明的蛋白酶或由本发明的核酸编码的蛋白酶的饲料材料；和(b)在饲料或食物材料中在足够长的时间期间加入足量步骤(a)的多肽，以促使蛋白的水解或形成处理的食物或饲料，从而在动物食用之前水解食物或饲料中的蛋白。一方面，本发明提供了在动物食用之后水解食物或饲料中蛋白的方法，包括如下步骤：(a)获得含有本发明的蛋白酶或由本发明的核酸编码的蛋白酶的饲料材料；(b)在饲料或食物材料中加入步骤(a)的多肽；和(c)给动物施用饲料或食物材料，其中在食用后，蛋白酶在动物消化道中促使在饲料或食物中的蛋白的水解。食品或饲料可以是，例如玉米。

本发明提供了改进乳制品的质地和味道的方法，该方法包括如下步骤：(a)提供具有蛋白酶活性的本发明的多肽，或由本发明的核酸编码的蛋白酶；(b)提供乳制品；和(c)在蛋白酶可以改进乳制品的质地或味道的条件下用步骤(b)的乳制品接触步骤(a)的多肽。一方面，乳制品包括奶酪或酸奶。本发明提供了含有本发明的蛋白酶或由本发明的核酸编码的蛋白酶的乳制品。本发明提供了使肉或鱼变嫩的方法，包括如下步骤：(a)提供具有蛋白酶活性的本发明的多肽，或由本发明的核酸编码的蛋白酶；(b)提供含有肉或鱼的组合物；和(c)在多肽可以使肉或鱼变嫩的条件下用步骤(b)的组合物接触步骤(a)的多肽。本发明提供了制备不含麸质的产品的方法，包括如下步骤：(a)提供具有蛋白酶活性的本发明的多肽，或由本发明的核酸编码的蛋白酶；(b)提供含有麸质的产品；和(c)在多肽可以水解麸质的条件下用步骤(b)的产品接触步骤(a)的多肽，从而产生不含麸质的产品。一方面，不含麸质的产品是谷类、面包或啤酒。本发明提供了不含麸质的组合物，其含有本发明的多肽，或由本发明的核酸编码的蛋白酶，其中多肽包括蛋白酶活性。

本发明提供了改进从富含油的植物材料提取油的方法，包括如下步骤：(a)提供具有蛋白酶活性的本发明的多肽，或由本发明的核酸编码的蛋白酶；(b)提供富含油的植物材料；和(c)用富含油的植物材料接触步骤(a)的多肽。一方面，富含油的植物材料包括富含油的种子。该油可以是大豆油、橄榄油、油菜籽油(菜籽油)或葵花油。

本发明提供了制备果汁或蔬菜汁、糖浆、浓汤或提取物的方法，该方法包括如下步骤：(a)提供具有蛋白酶活性的本发明的多肽，或由本发明的核酸编码的蛋白酶；(b)提供含有水果或蔬菜材料的组合物或液体；和(c)将步骤(a)的多肽与组合物接触，从而制备果汁或蔬菜汁、糖浆、泥状食品或提取物。

本发明提供了含有本发明的蛋白酶或由本发明的核酸编码的多肽的纸、纸产品或纸浆。本发明提供了处理纸或纸浆或木浆的方法，包括如下步骤：(a)提供具有蛋白酶活性的本发明的多肽，或由本发明的核酸编码的蛋白酶；(b)提供含有纸或纸浆或木浆的组合物；和(c)将步骤(a)的多肽与步骤(b)的组合物在蛋白酶可以处理该纸或纸浆或木浆的条件下接触。

本发明提供了包含本发明的多肽或由本发明的核酸编码的多肽的药物组合物。一方面，药物组合物的作用是消化助剂或表面皮肤护理剂。本发明提供了处理不均衡脱皮的方法，包括局部应用本发明的药物组合物。一方面，处理是预防性的。本发明提供了包含具有蛋白酶活性的本发明的多肽或由本发明的核酸编码的蛋白酶的口腔护理产品。口腔护理产品可以包括牙膏、牙用乳剂(dental cream)、凝胶或牙粉、护齿用品、漱口剂、刷前或刷后漱口制剂、口香糖、糖块(lozenge)或糖果。本发明提供了包含具有蛋白酶活性的本发明的多肽或由本发明的核酸编码的蛋白酶的隐形眼镜清洗组合物。

本发明提供了处理固体或液体动物排泄物(waste products)的方法，该方法包括如下步骤：(a)提供具有蛋白酶活性的本发明的多肽，或由本发明的核酸编码的蛋白酶；(b)提供固体或液体动物排泄物；和(c)将步骤(a)的多肽与步骤(b)的固体或液体排泄物在蛋白酶可以处理排泄物的条件下接触。本发明提供了包含具有蛋白酶活性的本发明的多肽或由本发明的核酸编码的蛋白酶的处理过的废物。

本发明提供了包括具有蛋白酶活性的本发明的多肽或由本发明的核酸编码的蛋白酶的毛团预防(hairball prevention)和/或补救(remedies)。本发明提供了包含具有蛋白酶活性的本发明的多肽或由本发明的核酸编码的蛋白酶的血液或有机污渍去除剂。

本发明的一个或多个实施方案的细节如附图和下面的详述中所示。本发明的其它特征、目标和优点将由于该详述和附图以及权利要求而更加清楚。

此处引述的所有出版物、专利、专利申请、GenBank序列和ATCC保藏物均被特别地引入，以作为参考。

附图说明

本专利或申请文件含有至少一个彩色附图。带有彩色附图(多个彩色附图)的本专利或专利申请公开文本的拷贝可以应请求并且支付必需费用的情况下由专利局提供。

图1是计算机系统的框图。

图2是一个流程图，该图示意性说明了用于将新核苷酸或蛋白序列与序列数据库进行比较，以确定该新序列与数据库中序列之间的同源性水平的过程的一个方面。

图3是一个流程图，该图示意性说明了在计算机中确定两个序列是否同源的过程的一个方面。

图4是一个流程图，该图示意性说明了检测序列中特征的存在的鉴定过程300的一个方面。

图5是以荧光液体终止点测定法(fluorescent liquid end point assay)测试SEQID NO：144(由SEQ ID NO：143编码)在明胶中所得结果的示意性说明，正如下面在实施例1中详细描述的。

图6是(pNA)(para-nitroanalide)的标准曲线的说明，生成该曲线以允许pNA吸光度(A405nm)转化为pNA的摩尔数，正如下面在实施例1中详细描述的。

图7是枯草杆菌蛋白酶A蛋白酶的标准曲线的说明，正如下面在实施例1中详细描述的。

图8是应用了小肽底物对硝基苯胺连接的丙氨酸-丙氨酸-脯氨酸-苯丙氨酸的蛋白酶活性分析结果的说明，正如下面在实施例1中详细描述的。

在不同附图中类似的标记符号表示类似的要素。

发明详述

本发明提供了具有蛋白酶活性的多肽，编码所述多肽的多核苷酸，以及产生和应用这些多核苷酸和多肽的方法。一方面，本发明的蛋白酶被用于催化肽键的水解。本发明的蛋白酶可以被用于制造和/或加工食物或饲料、纺织品、去污剂及类似物。本发明的蛋白酶可以在药物组合物和食物助剂中使用。

本发明的蛋白酶制剂(包括那些用于处理或加工饲料或食物、处理纤维和纺织品、处理废物、处理植物以及类似的蛋白酶制剂)可以进一步包括一种或多种酶，例如：果胶酸裂解酶、纤维素酶(内-β-1，4-葡聚糖酶)、β-葡聚糖酶(内-β-1，3(4)-葡聚糖酶)、脂肪酶、角质酶、过氧化物酶、漆酶、淀粉酶、葡糖淀粉酶、果胶酶、还原酶、氧化酶、酚氧化酶、木质素酶、支链淀粉酶、阿拉伯糖酶、半纤维素酶、甘露聚糖酶、木葡聚糖酶(xyloglucanases)、木聚糖酶、果胶乙酰基酯酶、鼠李糖半乳糖醛酸聚糖乙酰基酯酶、多聚半乳糖醛酸酶、鼠李糖半乳糖醛酸聚糖酶、半乳聚糖酶、果胶裂解酶、果胶甲基酯酶、纤维二糖水解酶、转谷氨酰胺酶；或其混合物。

定义

术语“蛋白酶”包括具有蛋白酶活性的所有多肽，包括肽酶和/或蛋白酶活性。本发明的蛋白酶活性可以包括催化肽键的水解。本发明的蛋白酶可以在两个方向催化肽水解反应。反应的方向可以被确定，例如通过操控底物和/或产物浓度、温度、蛋白酶的选择以及类似的条件。蛋白酶活性可以包括内切蛋白酶活性和/或外蛋白酶活性。蛋白酶活性可以包括诸如羧肽酶活性、二肽基肽酶或氨肽酶活性、丝氨酸蛋白酶活性、金属蛋白酶活性、半胱氨酸蛋白酶活性和/或天冬氨酸蛋白酶活性这样的蛋白酶活性。一方面，蛋白酶活性可以包括与胰凝乳蛋白酶、胰蛋白酶、弹性蛋白酶、激肽释放酶和/枯草杆菌蛋白酶活性相同或类似的活性。

在对本发明的具有蛋白酶活性的多肽所进行的描述中，例如，具有如SEQ IDNO：2；SEQ ID NO：4；SEQ ID NO：6；SEQ ID NO：8；SEQ ID NO：10；SEQ ID NO：12；SEQ ID NO：14；SEQ ID NO：16；SEQ ID NO：18；SEQ ID NO：20；SEQ ID NO：22；SEQ ID NO：24；SEQ ID NO：26；SEQ ID NO：28；SEQ ID NO：30；SEQ ID NO：32；SEQ ID NO：34；SEQ ID NO：36；SEQ ID NO：38；SEQ ID NO：40；SEQ ID NO：42；SEQ ID NO：44；SEQ ID NO：46；SEQ ID NO：48；SEQ ID NO：50；SEQ ID NO：52；SEQ ID NO：54；SEQ ID NO：56；SEQ ID NO：58；SEQ ID NO：60；SEQ ID NO：62；SEQ ID NO：64；SEQ ID NO：66；SEQ ID NO：68；SEQ ID NO：70；SEQ ID NO：72；SEQ ID NO：74；SEQ ID NO：76；SEQ ID NO：78；SEQ ID NO：80；SEQ ID NO：82；SEQ ID NO：84；SEQ ID NO：86；SEQ ID NO：88；SEQ ID NO：90；SEQ ID NO：92；SEQ ID NO：94；SEQ ID NO：96；SEQ ID NO：98；SEQ ID NO：100；SEQ ID NO：102；SEQ ID NO：104；SEQ ID NO：106；SEQ ID NO：108；SEQ ID NO：110；SEQ IDNO：112；SEQ ID NO：114；SEQ ID NO：116；SEQ ID NO：118；SEQ ID NO：120；SEQID NO：122；SEQ ID NO：124；SEQ ID NO：126；SEQ ID NO：128；SEQ ID NO：130；SEQ ID NO：132；SEQ ID NO：134；SEQ ID NO：136；SEQ ID NO：138；SEQ IDNO：140；SEQ ID NO：142；SEQ ID NO：144；SEQ ID NO：147；SEQ ID NO：151；SEQ ID NO：159；SEQ ID NO：165；SEQ ID NO：172；SEQ ID NO：180；SEQ IDNO：188；SEQ ID NO：194；SEQ ID NO：200；SEQ ID NO：205；SEQ ID NO：211；SEQID NO：219；SEQ ID NO：223；SEQ ID NO：230；SEQ ID NO：235；SEQ ID NO：242；SEQ ID NO：249或SEQ ID NO：255中所示的序列的示例性多肽；由SEQ ID NO：145编码的多肽，这意味着如果该多肽具有信号序列和/或前体序列(prepro sequence)(例如“前体(prepro)”结构域)，那么该多肽具有蛋白酶活性时，可以包括和/或不包括信号序列，或者，包括和/或不包括前体序列(例如“前体”结构域)。因此，本发明除了包括蛋白酶的所有活性形式和活性子序列(例如催化结构域或活性位点)，还包括非活性形式的多肽(具有蛋白酶活性)，例如，在其前体序列(例如，通过原蛋白加工酶，诸如原蛋白转化酶)“成熟”或加工以产生“活性的”成熟蛋白之前作为原蛋白(proprotein)，或者，在通过翻译后加工事件“活化”之前作为原蛋白，所述翻译后加工例如内-或外-肽酶或蛋白酶作用、磷酸化事件、酰胺化、糖基化或硫酸盐化作用、二聚事件以及类似的作用。

可以通过任意一种方法来常规地测定多肽的蛋白酶活性(例如进行测试以确定蛋白是否在本发明的范围内)，例如可以通过酶谱(zymograms)中的酪蛋白水解，荧光从明胶中的释放，或者p-硝基苯胺从各种小肽底物中的释放，来测定蛋白酶活性(这些和其它示例性蛋白酶测定法如下面的实施例中所示)。

术语“抗体”包括肽或多肽，它们来自于(derived from)或模制于(modeledafter)一种或多种免疫球蛋白基因或其片段，或基本上由一种或多种免疫球蛋白基因或其片段编码，该肽或多肽能特异性结合抗原或抗原决定基，例如参见Fundamental Immunology，第三版，W.E.Paul编著，Raven Press，N.Y.(1993)；Wilson(1994)J.Immunol.Methods 175：267-273；Yarmush(1992)J.Biochem.Biophvs.Methods 25：85-97。术语抗体包括抗原结合蛋白，即保持结合抗原的能力的“抗原结合位点”(例如片段、子序列、互补决定区(CDRs))，包括(i)Fab片段，一种由VL、VH、CL和CHl结构域组成的单价片段；(ii)F(ab’)2片段，由通过二硫键在铰链区连接的两个Fab片段组成的二价片段；(iii)由VH和CHl结构域组成的Fd片段；(iv)由抗体单臂的VL和VH结构域组成的Fv片段；(v)由VH结构域组成的dAb片段(Ward等人，(1989)Nature 341：544-546)；和(vi)分离的互补决定区(CDR)。单链抗体也被包括在术语“抗体”中。

正如此处所用，术语“阵列”或“微阵列”或“生物芯片”或“芯片”是众多靶元件，每一靶元件包括固定到基材表面的限定区域上的确定数量的一种或多种多肽(包括抗体)或核酸，正如下面进一步所进行的详细讨论。

正如此处所用，术语“计算机”、“计算机程序”和“处理器”以它们最广的普通语境使用，并且包括了所有这样的设备，正如下面所进行的详细描述。“特定多肽或蛋白的编码序列”或“编码特定多肽或酶的序列”是指当被置于适当的调控序列的控制下时可被转录和翻译成多肽或蛋白的核酸序列。

正如此处所用，术语“表达序列盒(expression cassette)”指能影响结构基因(即蛋白编码序列，如本发明的蛋白酶)在与这样的序列相容的宿主中的表达的核苷酸序列。表达序列盒包括至少一个与多肽编码序列有效连接的启动子；并且任选地，可以与其它序列，例如转录终止信号序列有效连接。也可以使用其它的在影响表达中必需或有用的因子，例如增强子。因此，表达序列盒也包括质粒、表达载体、重组病毒、任何形式的重组“裸DNA”载体，以及类似物。

正如此处所用，“有效连接(operably linked)”是指两个或多个核酸(例如DNA)片段之间的功能关系。典型地，“有效连接”指转录调控序列与被转录序列的功能关系。例如，如果启动子刺激或调节编码序列例如本发明的核酸在适当的宿主细胞或其它表达系统中的转录，那么该启动子便是有效连接到编码序列。通常，有效连接到被转录序列的启动子转录调控序列与被转录序列是物理上相邻的，即它们是顺式作用。然而，一些转录调控序列，如增强子，不需要与编码序列物理相邻或者位于与编码序列接近的位置，但这些转录调控序列仍能增强编码序列的转录。

“载体”包括可以感染、转染、短暂或永久地转导细胞的核酸。应该认识到，载体可以是裸核酸、或与蛋白或脂质复合的核酸。该载体任选地包含病毒或细菌核酸和/或蛋白，和/或膜(例如细胞膜、病毒脂质包被等等)。载体包括但不限于复制子(例如RNA复制子、细菌噬菌体)，DNA片段可以连接到这些复制子上从而被复制。因此，载体包括但不限于RNA、自主复制环状或线状DNA或RNA(例如质粒、病毒以及类似物，例如参见美国专利5,217,879)，并且包括表达质粒和非表达质粒。在重组微生物或细胞培养物被描述为“表达载体”的宿主的情况下，该载体包括染色体外环状或线状DNA，它们可以已经被整合到宿主染色体中。在载体通过宿主细胞来维持的情况下，该载体或者可以作为自主结构在有丝分裂过程中被细胞稳定地复制，或者被整合进宿主的基因组中。

正如此处所用，术语“启动子”包括所有能驱动编码序列在细胞例如植物细胞中转录的所有序列。因此，在本发明的构建物中所用的启动子包括顺式作用转录控制元件和调节序列，它们涉及调节或调控基因转录的时间和/或速率。例如，启动子可以是顺式作用转录控制元件，包括增强子、启动子、转录终止子、复制起点、染色体整合序列、5’和3’非翻译区或内含子序列，它们均涉及转录的调节。这些顺式作用序列通常与蛋白或其它生物分子互相作用来执行(打开/关闭、调节、调控等等)转录。“组成型”启动子是那些在大部分环境条件和发育状态或细胞分化状态下连续地驱动表达的启动子。“诱导型”或“可调控型”启动子在环境条件或发育条件的影响下指导本发明的核酸的表达。可以通过诱导型启动子影响转录的环境条件的实例包括厌氧条件、增高的温度、干旱或光的存在。

“组织特异性”启动子是仅仅在特定细胞或组织或器官中有活性的转录控制元件，例如在植物或动物的特定细胞或组织或器官中。组织特异性调节可以通过某些内在因子实现，这些内在因子确保对某特定组织特异的蛋白编码基因被表达。这样的因子已知存在于哺乳动物和植物中，以便允许特异性组织的发育。

术语“植物”包括全植物、植物部分(例如叶、茎、花、根等等)、植物原生质体、种子和植物细胞以及它们的后代。可以用于本发明的方法中的植物的种类很广泛，广泛至能用转化技术进行处理的高等植物，包括被子植物(单子叶植物和双子叶植物)，以及裸子植物。它们包括各种倍数性水平的植物，包括多倍体、二倍体、单倍体和半合子植物。正如此处所用，术语“转基因植物”包括异源核酸序列已经被插入到其中的植物或植物细胞，所述异源核酸序列例如本发明的核酸和各种重组构建物(例如表达序列盒)。

“质粒”可以商购得到，在不受限制的基础上可以公开获得，或可以根据已公开的程序用可获得的质粒来构建。与此处描述的那些质粒等价的质粒在本技术领域是已知的，并且对于普通技术人员是显而易见的。

术语“基因”包括核酸序列，包括在产生转录产物(例如信息)中所涉及的DNA的片段，所述转录产物又被翻译而产生多肽链，或者调节基因转录、复制或稳定性。基因可以包括编码区之前的区域和之后的区域，如前导区(leader)和尾区(trailer)、启动子和增强子，以及在适用的情况下，可以包括各个编码片段(外显子)之间的间插序列(内含子)。

短语“核酸”或“核酸序列”包括寡核苷酸、核苷酸、多核苷酸，或者寡核苷酸、核苷酸、多核苷酸中任意一种的片段，或者基因组的或合成的DNA或RNA(例如mRNA、rRNA、tRNA、iRNA)，它们可以是单链或双链，并且可以代表正义链或反义链，还包括肽核酸(PNA)或者天然的或合成的任何DNA样或RNA样的物质，例如包括iRNA、核糖核蛋白(例如双链iRNAs，例如iRNPs)。该术语包括含有天然核苷酸的已知类似物的核酸，例如寡核苷酸。该术语也包括具有合成骨架的核酸样结构，例如参见Mata(1997)Toxicol.Appl.Pharmacol.144：189-197；Strauss-Soukup(1997)Biochemistry 36：8692-8698；Samstag(1996)Antisense Nucleic Acid Drug Dev 6：153-156。

“氨基酸”或“氨基酸序列”包括寡肽、肽、多肽或蛋白序列，或寡肽、肽、多肽或蛋白序列中任意一种的片段、部分或亚基，它们可以是天然发生的或合成的分子。术语“多肽”和“蛋白”包括通过肽键或修饰的肽键即肽等排物(peptideisosteres)彼此结合在一起的氨基酸，可以含有除20个由基因编码的氨基酸之外的修饰的氨基酸。术语“多肽”也包括肽和多肽片段、基序以及类似物。该术语也包括糖基化多肽。本发明的肽和多肽也包括所有“模拟”和“肽模拟”形式，正如下面进一步详细描述的。

术语“分离的”包括从其原始环境中分离出的物质，所述原始环境例如天然环境，如果该环境是天然存在的话。例如，在活的动物中存在的天然发生的多核苷酸或多肽不是分离的，但与该天然系统中的一些或所有的共存物质分离开的相同的多核苷酸或多肽是分离的。这样的多核苷酸可以成为载体的一部分，和/或这样的多核苷酸或多肽可以是组合物的一部分，但它们仍然是分离的，因为这样的载体或组合物不是其天然环境的组成部分。正如此处所用，分离的物质或组合物也可以是“纯化的”组合物，即，它并不要求绝对的纯度；更正确的说，这意味着是一个相对定义。从文库获得的各个核酸可以按惯例地纯化为电泳同质。在可选择的方面，本发明提供了核酸，这些核酸已经以至少一个、两个、三个、四个、五个或更多个数量级的程度从基因组DNA或从文库或其它环境中的其它序列中被纯化出来。

正如此处所用，术语“重组的”可以包括与“骨架”核酸相邻的核酸，这些核酸在其天然环境中与“骨架”核酸是不相邻的。一方面，核酸表现为在核酸“骨架分子”群体中有5％或更多数量的带有核酸插入物。本发明的“骨架分子”包括核酸，如表达载体、自主复制核酸、病毒、整合核酸，以及用于维持或操纵感兴趣的核酸插入物的其它载体或核酸。一方面，富集的核酸则表现为在重组的骨架分子群体中有10％、15％、20％、30％、40％、50％、60％、70％、80％、90％、95％、98％或更多数量的带有核酸插入物。“重组的”多肽或蛋白是指通过重组DNA技术产生的多肽或蛋白；例如由用编码期望多肽或蛋白的外源DNA构建物转化的细胞产生的多肽或蛋白。“合成的”多肽或蛋白是那些通过化学合成制备的多肽或蛋白，正如下面进一步详细描述的。

启动子序列可以“有效连接到”编码序列上，此时RNA聚合酶可以在启动子处启动转录，将编码序列转录成mRNA，正如下面进一步详细描述的。

“寡核苷酸”或者包括单链的多脱氧核苷酸，或者包括两个互补的多脱氧核苷酸链，它们可以是化学合成的。这样的合成的寡核苷酸没有5’磷酸；因此如果不在存在激酶的情况下采用腺苷三磷酸(ATP)添加磷酸，该合成寡核苷酸便不会连接到另一个寡核苷酸上。合成的寡核苷酸可以连接到没有被去磷酸化的片段上。短语“基本上相同(substantially identical)”在用于两个核酸或多肽时，是指当两个或多个序列被比较和联配(aligned)以寻找最大一致性(maximuncorrespondence)时，它们具有例如至少大约50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高的核苷酸或氨基酸残基(序列)同一性，所述同一性可以使用任意一种已知的序列比较算法测量，正如下面详细讨论的，或者通过视觉观察。在可选择的方面，本发明提供了与本发明的示例性序列在至少大约10、20、30、40、50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000或更多残基的区域内，或从大约50个残基到核酸或多肽的全长的区域内基本上相同的核酸和多肽序列，本发明的示例性序列例如SEQ ID NO：1；SEQ ID NO：3；SEQ ID NO：5；SEQ ID NO：7；SEQ ID NO：9；SEQ ID NO：11；SEQ ID NO：13；SEQ ID NO：15；SEQ ID NO：17；SEQ ID NO：19；SEQ ID NO：21；SEQ ID NO：23；SEQ ID NO：25；SEQ ID NO：27；SEQ ID NO：29；SEQ ID NO：31；SEQ ID NO：33；SEQ ID NO：35；SEQ ID NO：37；SEQ ID NO：39；SEQ ID NO：41；SEQ ID NO：43；SEQ ID NO：45；SEQ ID NO：47；SEQ ID NO：49；SEQ ID NO：51；SEQ ID NO：53；SEQ ID NO：55；SEQ ID NO：57；SEQ ID NO：59；SEQ ID NO：61；SEQ ID NO：63；SEQ ID NO：65；SEQ ID NO：67；SEQ ID NO：69；SEQ ID NO：71；SEQ ID NO：73；SEQ ID NO：75；SEQ ID NO：77；SEQ ID NO：79；SEQ ID NO：81；SEQ ID NO：83；SEQ ID NO：85；SEQ ID NO：87；SEQ ID NO：89；SEQ ID NO：91；SEQ ID NO：93；SEQ ID NO：95；SEQ ID NO：97；SEQ ID NO：99；SEQ ID NO：101；SEQ ID NO：103；SEQ ID NO：105；SEQ ID NO：107；SEQ ID NO：109；SEQ ID NO：111；SEQ ID NO：113；SEQ ID NO：115；SEQ IDNO：117；SEQ ID NO：119；SEQ ID NO：121；SEQ ID NO：123；SEQ ID NO：125；SEQID NO：127；SEQ ID NO：129；SEQ ID NO：131；SEQ ID NO：133；SEQ ID NO：135；SEQ IDNO：137；SEQ ID NO：139；SEQ ID NO：141；SEQ ID NO：143；SEQ IDNO：145；SEQ ID NO：146；SEQ ID NO：150；SEQ ID NO：158；SEQ ID NO：164；SEQ ID NO：171；SEQ ID NO：179；SEQ ID NO：187；SEQ ID NO：193；SEQ IDNO：199；SEQ ID NO：204；SEQ ID NO：210；SEQ ID NO：218；SEQ ID NO：222；SEQ IDNO：229；SEQ ID NO：234；SEQ ID NO：241；SEQ ID NO：248和/或SEQ IDNO：254(核酸)；SEQ ID NO：2；SEQ ID NO：4；SEQ ID NO：6；SEQ ID NO：8；SEQID NO：10；SEQ ID NO：12；SEQ ID NO：14；SEQ ID NO：16；SEQ ID NO：18；SEQID NO：20；SEQ ID NO：22；SEQ ID NO：24；SEQ ID NO：26；SEQ ID NO：28；SEQID NO：30；SEQ ID NO：32；SEQ ID NO：34；SEQ ID NO：36；SEQ ID NO：38；SEQID NO：40；SEQ ID NO：42；SEQ ID NO：44；SEQ ID NO：46；SEQ ID NO：48；SEQID NO：50；SEQ ID NO：52；SEQ ID NO：54；SEQ ID NO：56；SEQ ID NO：58；SEQID NO：60；SEQ ID NO：62；SEQ ID NO：64；SEQ ID NO：66；SEQ ID NO：68；SEQID NO：70；SEQ ID NO：72；SEQ ID NO：74；SEQ ID NO：76；SEQ ID NO：78；SEQID NO：80；SEQ ID NO：82；SEQ ID NO：84；SEQ ID NO：86；SEQ ID NO：88；SEQID NO：90；SEQ ID NO：92；SEQ ID NO：94；SEQ ID NO：96；SEQ ID NO：98；SEQID NO：100；SEQ ID NO：102；SEQ IDNO：104；SEQ ID NO：106；SEQ ID NO：108；SEQ ID NO：110；SEQ ID NO：112；SEQ ID NO：114；SEQ ID NO：116；SEQ IDNO：118；SEQ ID NO：120；SEQ ID NO：122；SEQ ID NO：124；SEQ ID NO：126；SEQID NO：128；SEQ ID NO：130；SEQ ID NO：132；SEQ ID NO：134；SEQ ID NO：136；SEQ ID NO：138；SEQ ID NO：140；SEQ ID NO：142；SEQ ID NO：144；SEQ IDNO：147；SEQ ID NO：151；SEQ ID NO：159；SEQ ID NO：165；SEQ ID NO：172；SEQ ID NO：180；SEQ ID NO：188；SEQ ID NO：194；SEQ ID NO：200；SEQ IDNO：205；SEQ ID NO：211；SEQ ID NO：219；SEQ ID NO：223；SEQ ID NO：230；SEQID NO：235；SEQ ID NO：242；SEQ ID NO：249或SEQ ID NO：255，或由SEQ IDNO：145编码的多肽。本发明的核酸序列可以在多肽编码区的整个长度范围内是基本上相同的。

“基本上相同的”氨基酸序列也可以包括通过一个或多个保守或非保守氨基酸的取代、缺失、或插入而与参考序列有所不同的序列，尤其是当这样的取代发生在不是分子的活性位点的位置时，前提是该多肽基本上保持其功能特性。保守的氨基酸取代，例如用一个氨基酸取代另一个相同类别的氨基酸(例如用一个疏水氨基酸，如异亮氨酸、缬氨酸、亮氨酸或甲硫氨酸，取代另一个疏水氨基酸，或用一个极性氨基酸取代另一个极性氨基酸，例如用精氨酸取代赖氨酸、用谷氨酸取代天冬氨酸，或用谷氨酰胺取代天冬酰胺)。可以从例如蛋白酶中删除一个或多个氨基酸，从而形成对多肽结构的修饰，而又不会显著地改变其生物活性。例如，对蛋白酶活性来说不需要的氨基或羧基末端氨基酸可以被去除。

“杂交”包括这样一个过程，即，通过该过程核酸链与互补链通过碱基配对而结合。杂交反应可以是灵敏的并且是选择性的，以便感兴趣的特定序列可以被鉴定，甚至在其以低浓度存在的样品中也可以被鉴定。严紧条件(stringentconditions)可以通过，例如预杂交和杂交溶液中盐或甲酰胺的浓度来定义，或者通过杂交温度来定义，这些严紧条件在本技术领域是已知的。例如，严紧性可以通过降低盐的浓度、增加甲酰胺的浓度、或升高杂交温度、改变杂交时间来增加，正如下面详细描述的。在可选择的方面，本发明的核酸通过它们在各种严紧条件(例如强、中等和低严紧条件)下杂交的能力来定义，正如此处所示。

“变体”包括在一个或多个碱基对、密码子、内含子、外显子或氨基酸残基处被(分别地)修饰的本发明的多核苷酸或多肽，然而它们仍然保持本发明的蛋白酶的生物活性(所述生物活性可以被测定，例如通过酶谱中酪蛋白的水解、荧光从明胶中的释放，或者p-硝基苯胺从各种小肽底物中的释放来测定)。变体可以通过许多种方法产生，包括的方法诸如，例如易错PCR、重排、寡核苷酸诱导的突变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体诱变、位点特异性诱变、基因再装配、基因位点饱和诱变(GSSM)及其任意组合。此处包括了用于产生变体蛋白酶的技术，例如，所述变体具有活性时的pH或温度与野生型蛋白酶不同。

术语“饱和诱变”或“GSSM”包括使用简并寡核苷酸引物将点突变引入多核苷酸的方法，正如下面详细描述的。

术语“优化的定向进化系统”或“优化的定向进化”包括用于重新装配相关的核酸序列的片段的方法，所述的相关核酸序列例如相关的基因，下面对其进行了详细解释。

术语“合成连接重装配”或“SLR”包括以非随机方式连接寡核苷酸片段的方法，下面进行了详细解释。

产生和操纵核酸

本发明提供了核酸(例如SEQ ID NO：1；SEQ ID NO：3；SEQ ID NO：5；SEQ IDNO：7；SEQ ID NO：9；SEQ ID NO：11；SEQ ID NO：13；SEQ ID NO：15；SEQ IDNO：17；SEQ ID NO：19；SEQ ID NO：21；SEQ ID NO：23；SEQ ID NO：25；SEQ IDNO：27；SEQ ID NO：29；SEQ ID NO：31；SEQ ID NO：33；SEQ ID NO：35；SEQ IDNO：37；SEQ ID NO：39；SEQ ID NO：41；SEQ ID NO：43；SEQ ID NO：45；SEQ IDNO：47；SEQ ID NO：49；SEQ ID NO：51；SEQ ID NO：53；SEQ ID NO：55；SEQ IDNO：57；SEQ ID NO：59；SEQ ID NO：61；SEQ ID NO：63；SEQ ID NO：65；SEQ IDNO：67；SEQ ID NO：69；SEQ ID NO：71；SEQ ID NO：73；SEQ ID NO：75；SEQ IDNO：77；SEQ ID NO：79；SEQ ID NO：81；SEQ ID NO：83；SEQ ID NO：85；SEQ IDNO：87；SEQ ID NO：89；SEQ ID NO：91；SEQ ID NO：93；SEQ ID NO：95；SEQ IDNO：97；SEQ ID NO：99；SEQ ID NO：101；SEQ ID NO：103；SEQ ID NO：105；SEQID NO：107；SEQ ID NO：109；SEQ ID NO：111；SEQ ID NO：113；SEQ IDNO：115；SEQ ID NO：117；SEQ ID NO：119；SEQ ID NO：121；SEQ ID NO：123；SEQ IDNO：125；SEQ ID NO：127；SEQ ID NO：129；SEQ IDNO：131；SEQ ID NO：133；SEQ ID NO：135；SEQ ID NO：137；SEQ ID NO：139；SEQ ID NO：141；SEQ IDNO：143；SEQ ID NO：145；SEQ ID NO：146；SEQ ID NO：150；SEQ ID NO：158；SEQ ID NO：164；SEQ ID NO：171；SEQ ID NO：179；SEQ ID NO：187；SEQ IDNO：193；SEQ ID NO：199；SEQ ID NO：204；SEQ ID NO：210；SEQ ID NO：218；SEQ ID NO：222；SEQ ID NO：229；SEQ ID NO：234；SEQ ID NO：241；SEQ ID NO：248和/或SEQ ID NO：254；编码如下所示的多肽的核酸：SEQ ID NO：2；SEQ ID NO：4；SEQ ID NO：6；SEQ ID NO：8；SEQ ID NO：10；SEQ ID NO：12；SEQ ID NO：14；SEQID NO：16；SEQ ID NO：18；SEQ ID NO：20；SEQ ID NO：22；SEQ ID NO：24；SEQID NO：26；SEQ ID NO：28；SEQ ID NO：30；SEQ ID NO：32；SEQ ID NO：34；SEQID NO：36；SEQ ID NO：38；SEQ ID NO：40；SEQ ID NO：42；SEQ ID NO：44；SEQID NO：46；SEQ ID NO：48；SEQ ID NO：50；SEQ ID NO：52；SEQ ID NO：54；SEQID NO：56；SEQ ID NO：58；SEQ ID NO：60；SEQ ID NO：62；SEQ ID NO：64；SEQID NO：66；SEQ ID NO：68；SEQ ID NO：70；SEQ ID NO：72；SEQ ID NO：74；SEQID NO：76；SEQ ID NO：78；SEQ ID NO：80；SEQ ID NO：82；SEQ ID NO：84；SEQID NO：86；SEQ ID NO：88；SEQ ID NO：90；SEQ ID NO：92；SEQ ID NO：94；SEQID NO：96；SEQ ID NO：98；SEQ ID NO：100；SEQ ID NO：102；SEQ ID NO：104；SEQ ID NO：106；SEQ ID NO：108；SEQ ID NO：110；SEQ ID NO：112；SEQ IDNO：114；SEQ ID NO：116；SEQ ID NO：118；SEQ ID NO：120；SEQ ID NO：122；SEQID NO：124；SEQ ID NO：126；SEQ ID NO：128；SEQ ID NO：130；SEQ ID NO：132；SEQ ID NO：134；SEQ ID NO：136；SEQ ID NO：138；SEQ ID NO：140；SEQ IDNO：142；SEQ ID NO：144；SEQ ID NO：147；SEQ ID NO：151；SEQ ID NO：159；SEQ ID NO：165；SEQ ID NO：172；SEQ ID NO：180；SEQ ID NO：188；SEQ IDNO：194；SEQ ID NO：200；SEQ ID NO：205；SEQ ID NO：211；SEQ ID NO：219；SEQID NO：223；SEQ ID NO：230；SEQ ID NO：235；SEQ ID NO：242；SEQ ID NO：249或SEQ ID NO：255，或由SEQ ID NO：145编码的多肽，包括表达序列盒如表达载体，其编码本发明的多肽。本发明也包括使用本发明的核酸发现新的蛋白酶序列的方法。本发明也包括使用本发明的核酸抑制蛋白酶基因、转录物和多肽的表达的方法。也提供了修饰本发明的核酸的方法，例如通过合成连接重装配、优化的定向进化系统和/或饱和诱变。

本发明的核酸可以通过，例如cDNA文库的克隆和表达、通过PCR的信息或基因组DNA扩增以及类似的技术来制造、分离和/或操纵。在实践本发明的方法时，同源基因可以通过操纵模板核酸来修饰，正如此处所描述的。本发明可以与本技术领域已知的任何方法或程序或设备一起实践，这些方法、程序或设备在科学和专利文献中有很好的描述。

一般技术

用于实践本发明的核酸，不管是RNA、iRNA、反义核酸、cDNA、基因组DNA、载体、病毒或其杂合体，都可以从多种来源分离、进行遗传工程改造、扩增和/或表达/重组产生。从这些核酸产生的重组多肽(例如蛋白酶)可以被单独地分离或克隆，并且可测试期望活性。可以使用任何重组表达系统，包括细菌、哺乳动物、酵母、昆虫或植物表达系统。

可以选择地，这些核酸可以通过熟知的化学合成技术体外合成，正如例如Adams(1983)J.Am.Chem.Soc.105：661；Belousov(1997)Nucleic Acids Res.25：3440-3444；Frenkel(1995)Free Radic.Bio1.Med.19：373-380；Blommers(1994)Biochemistry 33：7886-7896；Narang(1979)Meth.Enzymol.68：90；Brown(1979)Meth.Enzymol.68：109；Beaucage(1981)Tetra.Lett.22：1859；美国专利4,458,066中所描述的。

用于操纵核酸的技术，例如亚克隆、标记探针(例如使用Klenow聚合酶的随机引物标记、切口平移、扩增)、测序、杂交以及类似的技术在科学和专利文献中有很好的描述，例如参见Sambrook编著，MOLECULAR CLONING：ALABORATORY MANUAL(2ND ED.)，1-3卷，Cold Spring Harbor Laboratory，(1989)；CURRENT PROTOCOLS IN MOLECULAR BIOLOGY，Ausubel，ed.John Wiley &Sons，Inc.，New York(1997)；LABORATORY TECHNIQUES IN BIOCHEMISTRYAND MOLECULAR BIOLOGY：HYBRIDIZATION WITH NUCLEIC ACIDPROBES，Part I.Theory and Nucleic Acid Preparation，Tijssen，ed.Elsevier，N.Y.(1993)。

用于实践本发明的方法的获得和操纵核酸的另一个有用的方法是从基因组样品中克隆一并且如果期望的话一筛选和再克隆插入物，插入物可以分离或扩增自例如基因组或cDNA克隆。用于本发明的方法中的核酸的来源包括基因组或cDNA文库，所述文库可以包含在例如哺乳动物人工染色体(MACs)，例如参见美国专利5,721,118；6,025,155；人类人工染色体，例如参见Rosenfeld(1997)Nat.Genet.15：333-335；酵母人工染色体(YAC)；细菌人工染色体(BAC)；P1人工染色体，例如参见Woon(1998)Genomics 50：306-316；P1来源的载体(PACs)，例如参见Kern(1997)Biotechniques 23：120-124；粘粒、重组病毒、噬菌体或质粒中。

一方面，编码本发明的多肽的核酸与能指导翻译出的多肽或其片段的分泌的前导序列以适当的相位进行装配。

本发明提供了融合蛋白和编码这些融合蛋白的核酸。本发明的多肽可以被融合到异源肽或多肽上，如N-末端鉴定肽，其给予了期望的特性，如增加的稳定性或简化的纯化。本发明的肽和多肽也可以作为融合蛋白被合成和表达，其中所述融合蛋白上连接了一个或多个额外的结构域，以便例如产生一个免疫原性更强的肽、以便更易于分离重组合成的肽、以便鉴定和分离抗体和表达抗体的B细胞，等等。有利于检测和纯化的结构域包括，例如金属鳌合肽，如多组氨酸标记和组氨酸-色氨酸模块，其允许在固定的金属上纯化，还包括蛋白A结构域，其允许在固定的免疫球蛋白上纯化，还包括在FLAGS延伸/亲和纯化系统中所使用的结构域(Immunex Corp，Seattle WA)。在纯化结构域和含有基序的肽或多肽之间加入可断裂的连接子序列有助于纯化，这样的连接子序列如Xa因子或肠激酶(Invitrogen，San Diego CA)。例如，表达载体可以包括编码抗原决定基的核酸序列，其连接到六组氨酸残基上，还连接有硫氧还蛋白和肠激酶切割位点(例如参见Williams(1995)Biochemistry 34：1787-1797；Dobeli(1998)Protein Expr.Purif.12：404-414)。组氨酸残基有助于检测和纯化，而肠激酶切割位点提供了将抗原决定基与融合蛋白的剩余部分纯化分离开的方法。与编码融合蛋白的载体和融合蛋白的应用有关的技术在科学和专利文献中进行了很好的描述，例如参见Kroll(1993)DNA Cell.Biol.，12：441-53。

转录和翻译控制序列

本发明提供了有效连接到一个或多个表达(例如转录或翻译)控制序列上的本发明的核酸(例如DNA)序列，所述控制序列例如启动子或增强子，它们可以指导或调节RNA合成/表达。表达控制序列可以在表达载体中。示例性的细菌启动子包括lacI、lacZ、T3、T7、gpt、λPR、PL和trp。示例性的真核启动子包括CMV即时早期启动子、HSV胸苷激酶启动子、早期和晚期SV40启动子、来自逆转录病毒的LTR启动子以及鼠金属硫蛋白I启动子。

适合于在细菌中表达多肽的启动子包括大肠杆菌lac或trp启动子、lacI启动子、lacZ启动子、T3启动子、T7启动子、gpt启动子、λPR启动子和λPL启动子、来自编码糖酵解酶如3-磷酸甘油酯激酶(PGK)的操纵子的启动子、以及酸性磷酸酶启动子。真核启动子包括CMV即时早期启动子、HSV胸苷激酶启动子、热激启动子、早期和晚期SV40启动子、来自逆转录病毒的LTRs、以及小鼠金属硫蛋白-I启动子。也可以使用已知的在原核或真核细胞或病毒中控制基因表达的其它启动子。

组织特异性植物启动子

本发明提供了可以以组织特异性方式表达的表达序列盒，例如可以以组织特异性方式表达本发明的蛋白酶的表达序列盒。本发明也提供了以组织特异性方式表达本发明蛋白酶的植物或种子。组织特异性可以是种子特异性、茎特异性、叶特异性、根特异性、果实特异性以及类似的方式。

一方面，组成型启动子如CaMV 35S启动子可以被用于在植物或种子的特定部分或在整个植物中的表达。例如，为了过度表达，可以使用植物启动子片段，其将直接指导核酸在植物例如再生植物的一些或所有组织中表达。此处，这样的启动子被称作“组成型”启动子，它们在大部分环境条件和发育或细胞分化状态下是有活性的。组成型启动子的实例包括花椰菜花叶病毒(CaMV)35S转录起始区、来自根瘤农杆菌的T-DNA的1’或2’启动子、以及来自本技术领域已知的多种植物基因的其它转录起始区。这样的基因包括，例如来自拟南芥(Arabidopsis)的ACTll(Huang(1996)Plant Mol.Biol.33：125-139)；来自拟南芥的Cat3(Genbank No.U43147，Zhong(1996)Mol.Gen.Genet.251：196-203)；来自甘蓝型油菜(Brassicanapus)的编码硬酯酰基-酰基载体蛋白去饱和酶的基因(Genbank No.X74782，Solocombe(1994)Plant Physiol.104：1167-1176)；来自玉米的GPcl(GenbankNo.X15596；Martinez(1989)J.Mol.Biol.208：551-565)；来自玉米的Gpc2(GenbankNo.U45855；Manjunath(1997)Plant.Mol.Biol.33：97-112)；在美国专利4,962,028；5,633,440中描述的植物启动子。

本发明使用来自病毒的组织特异性或组成型启动子，这些启动子可以包括，例如烟草花叶病毒亚基因组启动子(Kumagai(1995)Proc.Natl.Acad.Sci.USA 92：1679-1683；稻米东格鲁杆状病毒(RTBV)，该病毒仅在受感染稻米植物中的韧皮细胞中复制，它的启动子驱动强的韧皮特异性报道基因的表达；木薯脉带花叶病毒(CVMV)启动子，其在导管、叶中轴细胞、根尖中具有最高活性(Verdaguer(1996)Plant Mol.Biol.31：1129-1139)。

可选择地，植物启动子可以指导表达蛋白酶的核酸表达于特定组织、器官或细胞类型中(即，组织特异启动子)，或者可以在更加精确的环境或发育控制下或在可诱导启动子的控制下指导表达蛋白酶的核酸的表达。可以影响转录的环境条件的例子包括厌氧条件、提高温度、有光、或喷撒化学试剂/激素。例如，本发明包括玉米的干旱诱导型启动子(Busk(1997)如上)，马铃薯的寒冷、干旱、高盐诱导型启动子(Kirch(1997)Plant Mol.Biol.33：897 909)。

组织特异性启动子只在该组织的发育阶段的某个时间段内促进转录。参见，例如描述拟南芥LEAFY基因启动子的Blazquez(1998)Plant Cell 10：791-800。也见，描述转录因子SPL3的Cardon(1997)Plant J 12：367-77，SPL3识别拟南芥(A.thaliana)的调节植物分生组织形成的基因(meristem identity gene)AP1的启动子区域的保守序列基序；和描述分生组织启动子eIF4的Mandel(1995)Plant MolecularBiology，29卷，995-1004页。可以使用在特定组织的整个生命周期都具有活性的组织特异性启动子。一方面，本发明的核酸与主要在棉花纤维细胞中有活性的启动子有效连接。一方面，本发明的核酸与主要在棉花纤维细胞伸长的阶段具有活性的启动子有效连接，例如，Rinehart(1996)如上所描述的。核酸可以与Fb12A基因启动子有效连接，这样它将偏好在棉花纤维细胞(Ibid)中表达。也见John(1997)Proc.Natl.Acad.Sci.USA 89：5769-5773；John等，美国专利5,608,148和5,602,321，描述了用于构建转基因棉花植物的棉花纤维特异性启动子和方法。也可以使用根特异性启动子来表达本发明的核酸。根特异性启动子的例子包括乙醇脱氢酶基因中的启动子(DeLisle(1990)Int.Rey.Cytol.123：39-60)。也可以使用别的启动子来表达本发明的核酸，包括，例如，胚珠特异的、胚芽特异的、胚乳特异的、珠柄特异的、种皮特异的启动子或它们的组合；叶特异的启动子(见，例如，Busk(1997)Plant J.11：12851295，描述玉米的叶特异的启动子)；Agrobacteriumrhizogenes的ORF13启动子(ORF13启动子在根部表现出高活性，见，例如Hansen(1997)如上)；玉米花粉特异性启动子(见，例如Guerrero(1990)Mol.Gen.Genet.224：161 168)；番茄启动子，其在果实成熟、变老、从叶上脱落的过程中有活性，在花中具有低一些的活性(见，例如，Blume(1997)Plant J.12：731 746)；马铃薯SK2基因的雌蕊特异性启动子(见，例如Ficker(1997)Plant Mol.Biol.35：425 431)；豌豆的Blec4基因，Blec4基因在蔬菜的表皮组织和转基因苜蓿的花梗顶中具有活性，这使它成为使外源基因靶向表达于活跃地生长的芽或纤维的表皮层的有用工具；胚珠特异的BEL1基因(见，例如，Reiser(1995)Cell 83：735-742，GenBank号：U39944)；和/或Klee，美国专利5,589,583中的启动子，描述了一种植物启动子区域，其可导致在分生组织和/或快速分裂细胞中的高水平转录。

可选择的是，经由对植物激素例如植物生长素的暴露便能被诱导的植物启动子可用于表达本发明的核酸。例如，本发明可以使用大豆(Glycine max L.)中的植物生长素响应元件E1启动子片断(AuxREs)(Liu(1997)Plant Physiol.115：397-407)；植物生长素响应的拟南芥GST6启动子(也对水杨酸和过氧化氢产生响应)(Chen(1996)Plant J.10：955-966)；烟草的植物生长素诱导的parC启动子(Sakai(1996)37：906-913)；植物生物素响应元件(Streit(1997)Mol.Plant MicrobeInteract.10：933-937)；和对应激激素脱落酸产生响应的启动子(Sheen(1996)Science274：1900-1902)。

本发明的核酸也可以与植物启动子有效连接，所述植物启动子暴露于施用于植物的化学试剂例如除草剂或抗生素，便能够被诱导。例如，可以使用由苯磺酰胺除草剂安全剂活化的玉米In2-2启动子(De Veylder(1997)Plant Cell Physiol.38：568-577)；不同的除草剂安全剂的应用诱导不同的基因表达模式，包括在根中、排水器中和芽尖分生组织中的表达。编码序列可以处于例如四环素诱导的启动子的控制下，例如，被描述的含有Avena sativaL.(oat)精氨酸脱羧酶基因的转基因烟草植物(Masgrau(1997)Plant J.11：465-473)；或者处于水杨酸响应元件的控制之下(Stange(1997)Plant J.11：1315-1324)。使用化学(例如，激素或杀虫剂)诱导的启动子，即，对施用于田间的转基因植物的化学剂发生响应的启动子，本发明的多肽的表达可以在植物发育的特定阶段被诱导。所以，本发明也提供含有可诱导基因的转基因植物，所述可诱导基因编码本发明的多肽，其宿主范围局限于靶向植物种类，例如玉米、稻米、大麦、小麦、马铃薯或别的作物，并且所述可诱导基因在作物发育的任何阶段都可被诱导。

本领域技术人员会认识到，组织特异性的植物启动子可以驱动有效连接的序列在不是靶向组织的组织中表达。所以，组织特异性启动子是驱动在靶向组织或细胞类型中产生优势表达的启动子，但是也可以导致在别的组织中的一些表达。

本发明的核酸也可以与化学试剂诱导的植物启动子有效连接。这些试剂包括例如，除草剂、合成的植物生长激素或抗生素，它们可以通过例如喷雾而施用于转基因植物。本发明的产生蛋白酶的核酸的可诱导表达将允许对具有最佳的蛋白酶表达和/或活性的植物进行选择。植物局部的发育也可以因此被控制。这样，本发明提供了促进植物和植物的部分的收获的方法。例如，在许多实施方式中，玉米的由苯磺酰胺除草剂安全剂活化的玉米In2-2启动子被使用(De Veylder(1997)Plant Cell Physiol.38：568-577)。应用不同的除草剂安全剂诱导出不同的基因表达模式，包括在根中、排水器中、芽尖分生组织中的表达。本发明的编码序列也可以处于四环素诱导的启动子的控制之下，例如，对含有燕麦(Avena sativa L.)(oat)精氨酸脱羧酶基因的转基因烟草植物的描述(Masgrau(1997)Plant J.11：465-473)；或者，可以由水杨酸响应元件控制(Stange(1997)Plant J.11：1315-1324)。

在一些方面，适当的多肽表达可能要求该编码区域的3’端有多聚腺苷酸化区域。多聚腺苷酸化区域可以源自天然基因、各种别的植物(或动物或其它)基因、或者农杆菌T-DNA中的基因。

表达载体和克隆载体

本发明提供包括本发明的核酸例如编码本发明的蛋白酶的序列的表达载体和克隆载体。本发明的表达载体和克隆载体可以包括病毒颗粒、杆状病毒、噬菌体、噬菌粒(phagemids)、粘粒、fos-质粒(fosmids)、细菌人工染色体、病毒DNA(例如疫苗、腺病毒、禽痘病毒、伪狂犬病病毒和SV40的衍生物)、P1衍生的人工染色体、酵母质粒、酵母人工染色体和任何别的对感兴趣的特定宿主(例如，杆状菌、曲霉和酵母)有特异性的载体。本发明的载体可以包括染色体、非染色体和合成的DNA序列。大多数合适的载体对于本领域技术人员都是已知的，并且可以商业获得。典型的载体包括：细菌：pQE载体(Qiagen)、pBluescript质粒、PNH载体、λ-ZAP载体(Stratagene)；ptrc99a、PKK223-3、pDR540、pRIT2T(Pharmacia)；真核细胞的：PXT1、pSG5(Stratagene)、pSVK3、pBPV、pMSG、pSVLSV40(Pharmacia)。然而，也可以使用任何别的质粒或别的载体，只要它们可以在宿主中复制和维持下去。可以在本发明中使用低拷贝数或高拷贝数的载体。

表达载体可以包括启动子、翻译起始和转录终止的核糖体结合位点。载体也可以包括用于扩增表达的合适序列。哺乳动物表达载体可以包括复制起始点、任何必须的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点、转录终止序列、5’边的非转录序列。一方面，衍生于SV40剪接子和聚腺苷酸化位点的DNA序列可以用于提供所需要的非转录基因元件。

在一个方面，表达载体含有一个或多个选择性标记基因，使得可以对含有该载体的宿主细胞进行选择。这样的选择性标记包括编码二氢叶酸还原酶的基因和使得真核细胞培养物具有新霉素抗性的基因、使得大肠杆菌(E.coli)具有四环素或氨苄青霉素抗性的基因和酵母(S.cerevisiae)TRP1基因。启动子区域可以使用氯霉素转移酶(CAT)载体或具有选择标记的别的载体，从任何期望的基因中选择出来。

用于在真核细胞中表达多肽或其片段的载体也可以含有增强子，以增加表达水平。增强子是DNA的顺式作用元件，一般长度为大约10到大约300bp，其作用于启动子，增强其转录。例子包括在SV40复制起点下游侧100bp到270bp的增强子、巨细胞病毒早期启动子增强子、在复制起点下游侧的多瘤增强子，和腺病毒增强子。

核酸序列可以通过各种程序插入载体中。一般的，把插入物和载体用合适的限制性内切酶消化后，序列可以连接到载体中的所希望的位置。可选择地，插入物和载体的平末端可以被连接。在本领域已知多种克隆技术，例如在Ausubel和Sambrook中描述的。这样的程序和别的程序被认为在本领域技术人员已知的范围内。

载体可以是质粒、病毒颗粒或噬菌体的形式。别的载体包括染色体的、非染色体的和合成的DNA序列、SV40的衍生物；细菌质粒、噬菌体DNA、杆状病毒、酵母质粒、衍生于质粒和噬菌体DNA的组合的载体、病毒DNA例如牛痘、腺病毒、禽痘病毒和伪狂犬病病毒DNA。在原核和真核宿主中使用的各种克隆和表达载体被例如Sambrook描述。

可以使用的特定的细菌载体包括商业上可获得的质粒，其包括以下已知的克隆载体的遗传元件：pBR322(ATCC 37017)、pKK223-3(Pharmacia Fine Chemicals，Uppsala，Sweden)、GEM1(Promega Biotec，Madison，WI，USA)、pQE70、pQE60、pQE-9(Qiagen)、pD10、psiX174 pBluescript II KS、pNH8A、pNH16a、pNH18A、pNH46A(Stratagene)、ptrc99a、pKK223-3、pKK233-3、DR540、pRIT5(Pharmacia)、pKK232-8和pCM7。特定的真核载体包括pSV2CAT、pOG44、pXT1、pSG(Stratagene)pSVK3、pBPV、pMSG和pSVL(Pharmacia)。然而，可以使用任何别的载体，只要它可以在宿主细胞中复制和维持。

本发明的核酸可以在表达序列盒、载体或病毒中表达，在植物细胞和种子中短暂的或稳定的表达。一个典型的短暂表达系统应用了附加体(episomal)表达系统，例如，通过含有超螺旋DNA的附加小染色体的转录而在核中产生的花椰菜花叶病毒(CaMV)RNA，见，例如，Covey(1990)Proc.Natl.Acad.Sci.USA 87：1633-1637。作为选择，编码序列，即本发明的序列的全部或亚片断，可以插入到植物宿主细胞基因组中，而成为该宿主染色体DNA的整合的一部分。正义和反义转录产物可以以这种方式被表达。包含本发明的核酸的序列(例如，启动子或编码区域)的载体可以包含用于在植物细胞或种子中选择表型的标记基因。例如，所述标记可以编码生物杀灭剂抗性，特别是抗生素抗性，例如对卡那霉素、G418、博来霉素、潮霉素或除草剂的抗性，例如对氯磺隆或Basta的抗性。

可以在植物中表达核酸和蛋白的表达载体在本领域中是已知的，可以包括，例如，根瘤农杆菌的载体、马铃薯病毒X(见，例如，Angell(1997)EMBO J.16：3675-3684)、烟草花叶病病毒(见，例如，Casper(1996)Gene 173：69-73)、番茄丛矮病毒(见，例如，Hillman(1989)Virology 169：42-50)、烟草蚀纹病毒(见，例如，Dolja(1997)Virology 234：243-252)、菜豆金色花叶病毒(见，例如，Morinaga(1993)Microbiol inimunol.37：471-476)、花椰菜花叶病毒(见，例如，Cecchini(1997)Mol.Plant Microbe Interact.10：1094-1101)、玉米Ac/Ds转座元件(见，例如，Rubin(1997)Mol.Cell.Biol.17：6294-6302；Kunze(1996)Curr.Top.Microbiol.Inimunol.204：161-194)，和玉米抑制基因-突变基因(Spm)转座元件(见，例如Schlappi(1996)Plant Mol.Biol.32：717-725)；和它们的衍生物。

在一个方面，蛋白载体可以有两套复制系统，使其可以在两种生物中保持，例如在哺乳动物或昆虫细胞中表达，在原核宿主中克隆和扩增。进一步，对于整合表达载体，该表达载体可以包括至少一个与宿主细胞基因组同源的序列。它可以在该表达构建物的两侧包含两个同源序列。通过选择包含入载体的合适的同源序列，可以将该整合载体定位到宿主细胞的特定位置。整合载体的构建在本领域是已知的。

本发明的表达载体也可以包括选择性的标记基因，以便对已经转化的细菌株进行选择，例如，使细胞对药物，例如氨苄青霉素、氯霉素、红霉素、卡那霉素、新霉素和四环素产生抗性的基因。选择性的标记也可以包括生物合成基因，例如在组氨酸、色氨酸和亮氨酸生物合成途径中的基因。

宿主细胞和转化细胞

本发明也提供了包含本发明的核酸序列的转化细胞，所述核酸序列例如编码本发明的蛋白酶的序列，或本发明的载体。宿主细胞可以是本领域技术人员熟悉的任何宿主细胞，包括原核细胞，真核细胞，例如，细菌细胞、真菌细胞、酵母细胞、哺乳动物细胞、昆虫细胞或植物细胞。典型的细菌细胞包括大肠杆菌、链霉菌、枯草芽孢杆菌、鼠伤寒沙门氏菌(Salmonella typhimurium)和假单胞菌属、链霉菌属和葡萄球菌属中的许多种类。典型的昆虫细胞包括果蝇S2和草地夜蛾(Spodoptera)Sf9。典型的动物细胞包括CHO、COS或黑色素瘤细胞或任何鼠或人的细胞系。合适的宿主的选择在本领域技术人员的能力范围内。转化各种高等植物种类的技术是已知的，在技术和科学文献中有描述，见，例如，Weising(1988)Ann.Rey.Genet.22：421-477；美国专利5,750,870。

载体可以使用各种技术导入宿主细胞中，包括转化、转染、转导、病毒感染、基因枪或者Ti介导的基因转移。具体的方法包括磷酸钙转染、DEAE-Dextran介导的转染、脂转染法(lipofection)或电穿孔(Davis，L.，Dibner，M.，Battey，I.，BasicMethods in Molecular Biology，(1986))。

一方面，本发明的核酸或载体导入细胞是为了筛选，所以，所述核酸是以合适于该核酸的后续表达的方式进入细胞。导入的方法大体上由靶细胞类型决定。典型的方法包括CaPO₄沉淀法、脂质体融合、脂转染法(例如，LIPOFECTIN^TM)、电穿孔法、病毒感染法，等等。候选的核酸可以稳定地整合到宿主细胞基因组中(例如，用反转录病毒导入)或者可以短暂的或稳定的存在于细胞质中(即，通过使用传统的质粒，利用标准的调控序列、选择标记，等等)。因为许多药学上重要的筛选要求人或模型哺乳动物靶细胞，所以可以使用能够转染这些靶细胞的反转录病毒载体。

在适当的情况下，工程宿主细胞可以在传统的营养培养基中培养，所述营养培养基经改良而适于激活启动子、选择转化子或扩增本发明的基因。在合适的宿主株被转化和宿主株生长到合适的细胞密度之后，用合适的方法(例如，温度变化或化学诱导)诱导被选择的启动子，细胞再培养一段时期，使得它们产生所需的多肽或其片段。

细胞可以通过离心收获，通过物理或化学方法破碎，保留得到的粗提物以用于进一步的纯化。被用来表达蛋白质的微生物细胞可以用任何常规方法破碎，包括冷冻-融解循环、超声波裂解法、机械破碎法或使用细胞溶解试剂。这些方法为本领域技术人员所熟悉。表达的多肽或其片断可以从重组细胞培养物中通过包括硫酸铵或乙醇沉淀、酸提取、阴离子或阳离子交换色谱、磷酸纤维素色谱、疏水作用色谱、亲和色谱、羟基磷灰石色谱和凝集素色谱在内的方法回收和纯化。假如必要的话，可以应用蛋白质重折叠来完成多肽的构象。假如需要的话，在最终的纯化步骤中可以采用高效液相色谱(HPLC)。

各种哺乳动物细胞培养系统也可以被用于表达重组蛋白。哺乳动物表达系统的实例包括猴肾成纤维细胞的COS-7系，以及能从相容载体表达蛋白的其它细胞系，如C127、3T3、CHO、HeLa和BHK细胞系。

宿主细胞中的构建物可以以传统方式用于产生由重组序列编码的基因产物。根据重组产生方法中所用的宿主，由含有载体的宿主细胞产生的多肽可以糖基化或者非糖基化。本发明的多肽也可以包括或不包括起始的甲硫氨酸残基。

也可以采用无细胞的翻译系统来产生本发明的多肽。无细胞翻译系统可以应用由DNA构建物转录得到的mRNA，所述DNA构建物包括与编码所述多肽或其片段的核酸有效连接的启动子。一些方面，该DNA构建物在进行体外转录反应之前可以是线性的。转录得到的mRNA然后与合适的无细胞翻译提取物例如兔网状细胞提取物温育，产生所需的多肽或其片段。

表达载体可以含有一个或多个选择性标记基因，为选择转化宿主细胞提供表型性状，例如真核细胞培养物的二氢叶酸还原酶或新霉素抗性，或者大肠杆菌的例如四环素或氨苄青霉素的抗性。

核酸的扩增

在本发明的实践中，本发明的核酸和编码本发明的蛋白酶的核酸，或本发明的修饰的核酸，可以通过扩增来增殖。扩增也可以用于克隆或修饰本发明的核酸。因此，本发明提供了用于扩增本发明核酸的扩增引物序列对。本技术领域的普通技术人员能设计用于这些序列的任何部分或全长的扩增引物序列对。

一方面，本发明提供了通过本发明的引物对扩增的核酸，例如通过本发明的核酸的(5’端)大约前12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30或更多个残基所示的引物对，和互补链的(5’端)大约前15、16、17、18、19、20、21、22、23、24或25个残基所示的引物对(本发明的核酸例如如下序列：SEQ ID NO：1；SEQ ID NO：3；SEQ ID NO：5；SEQ IDNO：7；SEQ ID NO：9；SEQ ID NO：11；SEQ ID NO：13；SEQ ID NO：15；SEQ IDNO：17；SEQ ID NO：19；SEQ ID NO：21；SEQ ID NO：23；SEQ ID NO：25；SEQ IDNO：27；SEQ ID NO：29；SEQ ID NO：31；SEQ ID NO：33；SEQ ID NO：35；SEQ IDNO：37；SEQ ID NO：39；SEQ ID NO：41；SEQ ID NO：43；SEQ ID NO：45；SEQ IDNO：47；SEQ ID NO：49；SEQ ID NO：51；SEQ ID NO：53；SEQ ID NO：55；SEQ IDNO：57；SEQ ID NO：59；SEQ ID NO：61；SEQ ID NO：63；SEQ ID NO：65；SEQ IDNO：67；SEQ ID NO：69；SEQ ID NO：71；SEQ ID NO：73；SEQ ID NO：75；SEQ IDNO：77；SEQ ID NO：79；SEQ ID NO：81；SEQ ID NO：83；SEQ ID NO：85；SEQ IDNO：87；SEQ ID NO：89；SEQ ID NO：91；SEQ ID NO：93；SEQ ID NO：95；SEQ IDNO：97；SEQ ID NO：99；SEQ ID NO：101；SEQ ID NO：103；SEQ ID NO：105；SEQID NO：107；SEQ ID NO：109；SEQ ID NO：111；SEQ ID NO：113；SEQ ID NO：115；SEQ ID NO：117；SEQ ID NO：119；SEQ ID NO：121；SEQ ID NO：123；SEQ IDNO：125；SEQ ID NO：127；SEQ ID NO：129；SEQ ID NO：131；SEQ ID NO：133；SEQ ID NO：135；SEQ ID NO：137；SEQ ID NO：139；SEQ ID NO：141；SEQ IDNO：143；SEQ ID NO：145；SEQ ID NO：146；SEQ ID NO：150；SEQ ID NO：158；SEQ ID NO：164；SEQ ID NO：171；SEQ ID NO：179；SEQ ID NO：187；SEQ IDNO：193；SEQ ID NO：199；SEQ ID NO：204；SEQ ID NO：210；SEQ ID NO：218；SEQ ID NO：222；SEQ ID NO：229；SEQ ID NO：234；SEQ ID NO：241；SEQ ID NO：248和/或SEQ ID NO：254)。

本发明提供了用于扩增编码具有蛋白酶活性的多肽的核酸的扩增引物序列对，其中所述引物对能扩增含有本发明的序列、其片段或子序列的核酸。该扩增引物序列对的一个或每一个成员包括寡核苷酸，该寡核苷酸包括序列的至少大约10到50个连续碱基，或该序列的大约12、13、14、15、16、17、18、19、20、21、22、23、24或25个连续碱基。本发明提供了扩增引物对，其中该引物对包括第一成员，该第一成员具有如本发明所述核酸的(5’端)前12、13、14、15、16、17、18、19、20、21、22、23、24或25个残基所示的序列，和第二成员，该第二成员具有如第一成员的互补链的(5’端)前12、13、14、15、16、17、18、19、20、21、22、23、24或25个残基所示的序列。本发明提供了通过使用本发明的扩增引物对的扩增例如聚合酶链式反应(PCR)产生的蛋白酶。本发明提供了通过使用本发明的扩增引物对的扩增例如聚合酶链式反应(PCR)产生蛋白酶的方法。一方面，扩增引物对扩增来自文库的核酸，所述文库例如基因文库，如环境文库。

扩增反应也被用于量化样品中核酸的量(如细胞样品中信息的量)、标记核酸(例如将其应用于阵列或印迹)、检测核酸，或量化样品中特异性核酸的量。在本发明的一个方面，扩增从细胞或cDNA文库分离出的信息。

熟练技术人员可以选择和设计合适的寡核苷酸扩增引物。扩增方法在本技术领域也是已知的，包括，例如聚合酶链式反应PCR(例如参见PCR PROTOCOLS，A GUIDE TO METHODS AND APPLICATIONS，ed.Innis，Academic Press，N.Y.(1990)和PCR STRATEGIES(1995)，ed.Innis，Academic Press，Inc.N.Y.，连接酶链式反应(LCR)(例如参见Wu(1989)Genomics 4：560；Landegren(1988)Science 241：1077；Barringer(1990)Gene 89：117)；转录扩增(例如参见Kwoh(1989)Proc.Natl.Acad.Sci.USA 86：1173)；和自主维持序列扩增(例如参见Guatelli(1990)Proc.Natl.Acad.Sci.USA 87：1874)；Qβ复制酶扩增(例如参见Smith(1997)J.Clin.Microbiol.35：1477-1491)，自动Q-β复制酶扩增测定法(例如参见Burg(1996)Mol.Cell.Probes 10：257-271)和其它的RNA聚合酶介导技术(例如NASBA，Cangene，Mississauga，Ontario)；也参见Berger(1987)Methods Enzymol.152：307-316；Sambrook；Ausubel；美国专利4,683,195和4,683,202；Sooknanan(1995)Biotechnology 13：563-564。

确定序列同一性的程度

本发明提供了核酸，所述核酸包括与本发明的示例性核酸在至少大约50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550或更多残基的区域内具有至少大约50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高或完全的(100％)序列同一性的序列(本发明的示例性核酸例如SEQ ID NO：1；SEQ ID NO：3；SEQ ID NO：5；SEQ IDNO：7；SEQ ID NO：9；SEQ ID NO：11；SEQ ID NO：13；SEQ ID NO：15；SEQ IDNO：17；SEQ ID NO：19；SEQ ID NO：21；SEQ ID NO：23；SEQ ID NO：25；SEQ IDNO：27；SEQ ID NO：29；SEQ ID NO：31；SEQ ID NO：33；SEQ ID NO：35；SEQ IDNO：37；SEQ ID NO：39；SEQ ID NO：41；SEQ ID NO：43；SEQ ID NO：45；SEQ IDNO：47；SEQ ID NO：49；SEQ ID NO：51；SEQ ID NO：53；SEQ ID NO：55；SEQ IDNO：57；SEQ ID NO：59；SEQ ID NO：61；SEQ ID NO：63；SEQ ID NO：65；SEQ IDNO：67；SEQ ID NO：69；SEQ ID NO：71；SEQ ID NO：73；SEQ ID NO：75；SEQ IDNO：77；SEQ ID NO：79；SEQ ID NO：81；SEQ ID NO：83；SEQ ID NO：85；SEQ IDNO：87；SEQ ID NO：89；SEQ ID NO：91；SEQ ID NO：93；SEQ ID NO：95；SEQ IDNO：97；SEQ ID NO：99；SEQ ID NO：101；SEQ ID NO：103；SEQ ID NO：105；SEQID NO：107；SEQ ID NO：109；SEQ ID NO：111；SEQ ID NO：113；SEQ ID NO：115；SEQ ID NO：117；SEQ ID NO：119；SEQ ID NO：121；SEQ ID NO：123；SEQ IDNO：125；SEQ ID NO：127；SEQ ID NO：129；SEQ ID NO：131；SEQ ID NO：133；SEQ ID NO：135；SEQ ID NO：137；SEQ ID NO：139；SEQ ID NO：141；SEQ IDNO：143；SEQ ID NO：145；SEQ ID NO：146；SEQ ID NO：150；SEQ ID NO：158；SEQ ID NO：164；SEQ ID NO：171；SEQ ID NO：179；SEQ ID NO：187；SEQ IDNO：193；SEQ ID NO：199；SEQ ID NO：204；SEQ ID NO：210；SEQ ID NO：218；SEQ ID NO：222；SEQ ID NO：229；SEQ ID NO：234；SEQ ID NO：241；SEQ ID NO：248和/或SEQ ID NO：254，和编码SEQ ID NO：2；SEQ ID NO：4；SEQ ID NO：6；SEQ IDNO：8；SEQ ID NO：10；SEQ ID NO：12；SEQ ID NO：14；SEQ ID NO：16；SEQ IDNO：18；SEQ ID NO：20；SEQ ID NO：22；SEQ ID NO：24；SEQ ID NO：26；SEQ IDNO：28；SEQ ID NO：30；SEQ ID NO：32；SEQ ID NO：34；SEQ ID NO：36；SEQ IDNO：38；SEQ ID NO：40；SEQ ID NO：42；SEQ ID NO：44；SEQ ID NO：46；SEQ IDNO：48；SEQ ID NO：50；SEQ ID NO：52；SEQ ID NO：54；SEQ ID NO：56；SEQ IDNO：58；SEQ ID NO：60；SEQ ID NO：62；SEQ ID NO：64；SEQ ID NO：66；SEQ IDNO：68；SEQ ID NO：70；SEQ ID NO：72；SEQ ID NO：74；SEQ ID NO：76；SEQ IDNO：78；SEQ ID NO：80；SEQ ID NO：82；SEQ ID NO：84；SEQ ID NO：86；SEQ IDNO：88；SEQ ID NO：90；SEQ ID NO：92；SEQ ID NO：94；SEQ ID NO：96；SEQ IDNO：98；SEQ ID NO：100；SEQ ID NO：102；SEQ ID NO：104；SEQ ID NO：106；SEQID NO：108；SEQ ID NO：110；SEQ ID NO：112；SEQ ID NO：114；SEQ ID NO：116；SEQ ID NO：118；SEQ ID NO：120；SEQ ID NO：122；SEQ ID NO：124；SEQ IDNO：126；SEQ ID NO：128；SEQ ID NO：130；SEQ ID NO：132；SEQ ID NO：134；SEQ ID NO：136；SEQ ID NO：138；SEQ ID NO：140；SEQ ID NO：142；SEQ ID NO：144和/或SEQ ID NO：147的核酸)。本发明提供了多肽，该多肽包括与本发明的示例性多肽具有至少大约50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高或完全的(100％)序列同一性的序列。序列同一性(同源性)的程度可以使用任何计算机程序和相关参数来确定，包括此处描述的那些，如BLAST2.2.2或FASTA3.0t78版本，参数为默认值。

同源序列也包括RNA序列，其中尿嘧啶取代核酸序列中的胸腺嘧啶。同源序列可以使用此处描述的任意一种方法获得，或者从对测序错误的纠正中产生。应该意识到，此处所示的核酸序列可以以传统的单字母格式表示(例如参见Stryer，Lubert.Biochemistry，3rd Ed.，W.H Freeman & Co.，New York)，或以在序列中记录核苷酸的同一性的任何其它格式表示。

此处描述的各种序列比较程序被用于本发明的该方面。蛋白和/或核酸序列同一性(同源性)可以使用本技术领域已知的各种序列比较算法和程序中的任意一种来评价。这样的算法和程序包括，但不限于，TBLASTN、BLASTP、FASTA、TFASTA和CLUSTALW(Pearson and Lipman，Proc.Natl.Acad.Sci.USA 85(8)：2444-2448，1988；Altschul等人，J.Mol.Biol.215(3)：403-410，1990；Thompson等人，Nucleic Acids Res.22(2)：4673-4680，1994；Higgins等人，Methods Enzymol.266：383-402，1996；Altschul等人，J.Mol.Biol.215(3)：403-410，1990；Altschul等人，Nature Genetics 3：266-272，1993)。

同源性或同一性可以使用序列分析软件来测量(例如，地址为1710 UniversityAvenue，Madison，WI 53705的威斯康星大学生物技术中心遗传学计算机组(Genetics Computer Group)的序列分析软件包)。这样的软件通过对各种缺失、替代和其它的修饰赋予表示同源性的数值来匹配相似的序列。联系两个或者多个核酸或者多肽序列的术语“同源性”和“同一性”，是指当两个或更多个序列或子序列在某一比较窗口(comparison window)或者指定区域内被比较和联配以确定最大一致性时，这些序列是相同的，或者具有特定比例的相同氨基酸残基或核苷酸，其可以应用各种序列比较算法或者通过人工联配和视觉观察来确定。对于序列比较，通常是一段序列作为参考序列，测试序列与之进行比较。当使用序列比较算法时，将测试序列和参考序列输入到计算机中，指定子序列坐标，如果必要，也指定序列算法程序参数。可以使用默认的程序参数，或者可以指定别的参数。然后基于程序参数，序列比较算法计算出测试序列相对于参考序列的序列同一性百分比。

正如此处所用，“比较窗口”包括参考具有任意数目的连续残基的片段。例如，在本发明可以选择的方面，在本发明的示例性多肽或核酸序列和参考序列进行最优化联配后，所述本发明的示例性多肽或核酸序列的范围在20到全长的连续残基可与具有相同数目的连续位置的参考序列作比较。如果参考序列与本发明的示例性多肽或核酸序列具有所要求的序列同一性，例如与本发明的序列的序列同一性为50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高，那么该序列在本发明的范围内。在可以选择的实施方案中，在子序列和参考序列进行最优化联配后，将范围从大约20到600、大约50到200和大约100到150个连续残基的子序列与具有相同数目的邻接位置的参考序列比较。用于序列比较的联配方法在本技术领域是熟知的。可以通过如下方法进行用于序列比较的最优化联配：例如Smith和Waterman，Adv.Appl.Math.2：482，1981的局部同源性算法，Needleman和Wunsch，J.Mol.Biol.48：443，1970的同源性联配算法，person和Lipman，Proc.Nat′l.Acad.Sci.USA 85：2444，1988的查找相似的方法，这些算法的计算机化实施(Wisconsin Genetics Software Package中的GAP、BESTFIT、FASTA和TFASTA，Genetics Computer Group，575 Science Dr.，Madison，WI)，手工联配和观察检验。除了BLAST程序(生物信息国家中心的基本局域联配搜索工具(Basic Local Alignment Search Tool))外，用于确定同源性或者同一性的其它的算法包括，例如，ALIGN、AMAS(多重联配序列分析(Analysis of Multiply AlignedSequences))、AMPS(蛋白多重序列联配(Protein Multiple Sequence Alignment))、ASSET(联配片段统计评估工具(Aligned Segment Statistical Evaluation Tool))、BANDS、BESTSCOR、BIOSCAN(生物学序列比较分析节点(Biological SequenceComparative Analysis Node))、BLIMPS(BLocks IMProved Searcher)、FASTA、Intervals & Points、BMB、CLUSTAL V、CLUSTAL W、CONSENSUS、LCONSENSUS、WCONSENSUS、Smith-Waterman算法、DARWIN、Las Vegas算法、FNAT(强迫核苷酸联配工具(Forced Nucleotide Alignment Tool))、Framealign、Framesearch、DYNAMIC、FILTER、FASP(Fristensky序列分析软件包)、GAP(全局联配程序(Global Alignment Program))、GENAL、GIBBS、GenQuest、ISSC(灵敏性序列比较(Sensitive Sequence Comparison))、LALIGN(局部序列联配(LocalSequence Alignment))、LCP(局部内容程序(Local Content Program))、MACAW(多重联配构建和分析工作台(Multiple Alignment Construction & AnalysisWorkbench))、MAP(多重联配程序(Multiple Alignment Program))、MBLKP、MBLKN、PIMA(模式诱导的多重序列联配(Pattern-Induced Multi-sequenceAlignment))、SAGA(通过遗传算法的序列联配(Sequence Alignment by GeneticAlgorithm))和WHAT-IF。这样的联配程序也可以用于筛查基因组数据库，确定具有大体上相同的序列的多聚核苷酸序列。大量的基因组数据库是可利用的，例如，作为人类基因组测序工程的构成部分的人类基因组的实质部分可以被利用(Gibbs，1995)。几个基因组序列已经测定，如，生殖器支原体(M.genitalium)(Fraser等，1995)、甲烷球菌(M.jannaschii)(Bult等，1996)、流行性感冒杆菌(H.influenzae)(Fleischmann等，1995)、大肠杆菌(E.coli)(Blattner等，1997)、和酵母(S.cerevisiae)(Mewes等，1997)，和黑腹果蝇(D.melanogaster)(Adams等，2000)。在模式生物的基因组序列的测序上已经取得了很大的进展，如鼠，线虫(C.elegans)和拟南芥(Arabadopsis sp.)。含有基因组信息并且注释有一些功能性信息的数据库由不同组织维护，可以通过互联网登录。

BLAST、BLAST 2.0和BLAST 2.2.2算法也可以用于实践本发明。这些算法已经有所描述，例如在Altschul(1997)Nuc.Acids Res.25：3389-3402；Altschul(1990)J.Mol.Biol.215：403-410中。用于实施BLAST分析的软件可以通过美国国家生物技术信息中心公开获得。这一算法涉及首先通过鉴别待询序列(query sequence)中长度为W的短的字串来确定高分序列对(high scoring sequence pairs，HSPs)，所述高分序列对在与数据库序列中同样长度的字串联配时，匹配或者满足某个正值的阈值T。T是指邻近字串(neighborhood word)的分数阈值(Altschul等，如上)。这些初始的邻近字串被用来启动搜索以发现包含有它们的更长的HSPs。所述字串沿着每一个序列向两个方向延伸，只要累积的联配分数在增加。对于核苷酸序列，使用参数M(一对匹配的残基的奖励分数；总是大于0)来计算累积分数。对于氨基酸序列，使用记分矩阵来计算累计分数。出现下面情况时，字串在各个方向上的延伸便停止：累积的联配分数由达到的最大值下降了数量X；由于一个或者多个记分为负的残基联配的累积，累积分数达到0或者0以下；或者延伸到了任一序列的末端。BLAST算法的参数W、T和X决定了联配的灵敏度和速率。BLASTN程序(对于核苷酸序列)默认的是：字串长度(W)为11，期望值(E)为10，M＝5，N＝-4，对两条链进行比较。对于氨基酸序列，BLASTP程序默认：字串长度为3，期望值(E)为10，BLOSUM62记分矩阵(参见Henikoff和Henikoff(1989)Proc.Natl.Acad.Sci.USA 89：10915)联配(B)为50，期望值(E)为10，M＝5，N＝-4，对两条链进行比较。BLAST算法也进行两个序列之间的相似性的统计学分析(参见，例如，Karlin和Altschul(1993)Proc.Natl.Acad.Sci.USA 90：5873)。由BLAST算法提供的一种相似性量度是最小合计概率(smallest sum probability，P(N))，其表示两个核苷酸或者氨基酸序列间的匹配将偶然发生的概率。例如，在测试核酸和参考核酸的比较中，如果最小合计概率小于大约0.2，更优选的是小于0.01，最优选的是小于大约0.001，就认为该核酸与参考序列相似。一方面，应用基本局域联配搜索工具(“BLAST”)来评价蛋白和核酸序列同源性。例如，五个特定的BLAST程序可以用来进行以下的任务：(1)BLASTP和BLAST3把氨基酸待询序列与蛋白质序列数据库进行比较；(2)BLASTN把核苷酸待询序列与核苷酸序列数据库进行比较；(3)BLASTX把待询核苷酸序列(两条链)的六个阅读框架的概念上的翻译产物与蛋白序列数据库进行比较；(4)TBLASTN把待询蛋白序列与核苷酸序列数据库的所有六个阅读框架(两条链)的翻译结果进行比较；(5)TBLASTN把核苷酸待询序列的六个框架的翻译结果与核苷酸序列数据库的六个框架的翻译结果进行比较。BLAST程序通过确定相似片段来确定同源性序列，所述相似片段在此是指在待查询的氨基酸或核酸序列与受测序列之间的“高分片段对(high-scoring segment pairs)”，该受测序列优选从蛋白或者核酸序列数据库得到。高分片段对优选利用记分矩阵来鉴定(即，联配)，很多的记分矩阵在本领域是已知的。优选地，应用的记分矩阵为BLOSUM62矩阵(Gonnet等，Science 256：1443-1445，1992；Henikoff和Henikoff，Proteins 17：49-61，1993)。较不优选地，也可以应用PAM或者PAM250矩阵(参见如，Schwartz和Dayhoff，eds.，1978，Matrices for Detecting Distance Relationships：Atlas of protein Sequence and Structure，Washingion：National Biomedical Research Foundation)。

在本发明的一个方面，为了确定具有必要的序列同一性的核酸是否在本发明的范围内，使用NCBI BLAST 2.2.2程序，默认选项为blastp。在BLAST 2.2.2程序中有大约38个设置选项。在本发明的该示例性方面，除了默认的过滤设置外，所有默认值都被使用(即，所有参数设置为默认值，除了设置过滤为OFF之外)；此处使用了“-F F”设置，该设置使得不能使用过滤。由于序列的长度较短，使用默认过滤通常会导致Karlin-Altschul违例。

在本发明的该示例性方面中所用的缺省值包括：

“低复杂性过滤器：ON

字串大小：3

矩阵：Blosum 62

空位成本：存在：11

延伸：1”

其它缺省设置可以是：低复杂性过滤器OFF，蛋白的字串大小3，BLOSUM62矩阵，空位存在罚分为-11，空位延伸罚分为-1。示例性的NCBI BLAS T 2.2.2程序设置的“-W”选项缺省为0。这意味着，如果没有加以设置，对于蛋白，字串大小缺省为3，对于核苷酸为11。

计算机系统和计算机程序产品

为了确定和鉴定序列同一性、结构同源性、基序等等，本发明的序列可以在可通过计算机读取和访问的任何介质上存储、记录和操作。因此，本发明提供了计算机、计算机系统、计算机可读取的介质、计算机程序产品以及其上记录或存储了本发明的核酸和多肽序列的类似设备。正如此处所用，词语“记录”和“存储”指在计算机介质上存储信息的过程。熟练技术人员能容易地采用任何已知方法，在计算机可读取的介质上存储信息，以产生包括本发明的一个或多个核酸和/或多肽序列的产品。

本发明的另一个方面是计算机可读取的介质，其上已经记录了至少一个本发明的核酸和/或多肽序列。计算机可读取介质包括磁性可读取介质、光学可读取介质、电子可读取介质和磁/光学介质。例如，计算机可读取的介质可以是硬盘、软盘、磁带、CD-ROM、数字化视频光盘(DVD)、随机存取存储器(RAM)或只读存储器(ROM)以及本技术领域的技术人员已知的其它类型的其它介质。

本发明的方面包括系统(例如基于因特网的系统)，尤其是计算机系统，它们存储和操纵此处描述的序列和序列信息。计算机系统100的一个实例以框图形式示意性地描述在图1中。正如此处所用，“计算机系统”指硬件部分、软件部分、以及数据存储部分，它们用于分析本发明的核苷酸或多肽序列。计算机系统100可以包括用于处理、访问和操纵序列数据的处理器。处理器105可以是任何类型的中央处理单元，如来自英特尔公司的奔腾III，或来自Sun、Motorola、Compag、AMD或IBM公司的类似处理器。计算机系统100是一个通用的系统，该系统包括处理器105和用于存储数据的一个或多个内部数据存储组分110，以及用于检索数据存储组分上存储的数据的一个或多个数据检索设备。熟练技术人员能容易地意识到，任何一种当前可获得的计算机系统都是合适的。

一方面，计算机系统100包括连接到总线上的处理器105，其中总线连接到主存储器115(优选地以RAM来实现)和一个或多个内部数据存储设备110，例如其上已经存储了数据的硬盘驱动器和/或其它计算机可读介质。计算机系统100可以进一步包括一个或多个数据检索设备118，用于读取在内部数据存储设备110上存储的数据。数据检索设备118可以是，例如软盘驱动器、压缩磁盘驱动器、磁带驱动器或能连接到远程数据存储系统的调制解调器(例如通过因特网)等等。在一些实施方案中，内部数据存储设备110是远程计算机可读介质，例如含有控制逻辑和/或其上记录的数据的软盘、压缩磁盘、磁带等等。计算机系统100可以有利地包括适当的软件或用适当的软件编程，用于当数据存储部分被插入到数据检索设备中时从数据存储部分读取控制逻辑和/或数据。计算机系统100包括显示器120，用于给计算机用户显示输出。也应用注意到，计算机系统100可以被连接到网络或广域网中的其它计算机系统125a-c，以便给计算机100提供集中访问。用于访问和处理本发明的核苷酸或氨基酸序列的软件在执行过程中可驻留于主存储器115中。在一些方面，计算机系统100可以进一步包括用于比较本发明核酸序列的序列比较算法。算法和序列可以存储于计算机可读介质上。“序列比较算法”指在计算机系统100上执行的一种或多种程序，以比较核苷酸序列和数据存储设备中存储的其它核苷酸序列和/或化合物。例如，序列比较算法可以将计算机可读介质上存储的本发明的核苷酸序列与计算机可读介质上存储的参考序列进行比较，以鉴定同源性或结构基序。

上述算法所用的参数可以根据序列长度和所研究的同源性程度进行调整。在一些方面，在没有用户说明书的情况下，这些参数可以是算法所用的缺省参数。图2是示意性说明过程200的一个方面的流程图，该过程用于将新的核苷酸或蛋白序列与序列数据库进行比较，以便确定新序列和数据库中的序列之间的同源性水平。序列数据库可以是存储于计算机系统100上的个人数据库，或可以通过因特网获得的公开数据库如GENBANK。过程200在起始状态201开始，然后转到状态202，其中要被比较的新序列被存储于计算机系统100的存储器上。正如上面所讨论的，该存储器可以是任何类型的存储器，包括RAM或内部存储设备。然后过程200转到状态204，其中打开序列数据库以进行分析和比较。然后过程200转到状态206，其中数据库中存储的第一个序列被读取到计算机的存储器中。然后在状态210进行比较，以确定第一个序列是否与第二个序列相同。重要的是应该注意到，该步骤不限于进行新序列和数据库中第一个序列之间的精确比较。用于比较两个核苷酸或蛋白序列的熟知的方法对于本技术领域的普通技术人员是已知的，即使所述两个核苷酸或蛋白序列不完全相同。例如，可以在一个序列中引入空位，以提高两个测试序列之间的同源性水平。控制空位或其它特征在比较过程中是否被引入到序列中的参数通常由计算机系统的用户输入。一旦已经在状态210进行两个序列的比较，在决策状态210就要作出两个序列是否相同的判断。当然，术语“相同的”不限于绝对相同的序列。在过程200中，在由用户输入的同源性参数范围内的序列都将被标记为“相同的”。如果作出两个序列相同的判断，过程200转到状态214，其中来自数据库的序列的名称被显示给用户。该状态通知用户，具有显示的名称的序列满足所输入的同源性限制。一旦所存储序列的名称被显示给用户，过程200转到决策状态218，其中作出数据库中是否存在更多序列的判断。如果数据库中不存在更多的序列，那么过程200在结束状态220终止。然而，如果数据库中确实存在更多的序列，那么过程200转到状态224，其中指针被指向数据库中的下一个序列，以便与新序列进行比较。以这种方式，将新序列与数据库中的每一序列联配并进行比较。应该注意到，如果已经在决策状态212已经作出了序列不同源的判断，那么过程200将立即转到决策状态218，以便确定用于比较的数据库中的任何其它序列是否可利用。因此，本发明的一个方面是计算机系统，该系统包括处理器、其上已经存储了本发明核酸序列的数据存储设备、和用于进行比较的序列比较器。该序列比较器可以指出所比较的序列之间的同源性水平，或者鉴定结构基序，或者该比较器可以鉴定与这些核酸密码和多肽密码进行比较的序列中的结构基序。图3是示意性说明用计算机实施的过程250的一个实施方案的流程图，该过程用于确定两个序列是否同源。过程250在起始状态252开始，然后转到状态254，其中要被比较的第一个序列被存储到存储器上。然后要被比较的第二个序列在状态256被存储到存储器上。然后过程250转到状态260，其中读取第一个序列中的第一个字符，然后转到状态262，其中读取第二个序列的第一个字符。应该理解到，如果序列是核苷酸序列，那么字符将通常是A、T、C、G或U。如果序列是蛋白序列，那么字符可以是单字母氨基酸密码，以便第一个序列和第二个序列可以被容易地比较。然后在决策状态264作出两个字符是否相同的判断。如果它们相同，那么过程250转到状态268，其中第一个和第二个序列中的下一个字符被读取。然后作出第一个和第二个序列中的下一个字符是否相同的判断。如果它们相同，那么过程250继续循环，直到两个字符不相同。如果作出的判断是这两个字母不相符，那么过程250转到决策状态274，以确定是否有更多的字符或者序列可以读取。如果没有可读取的任何更多的字符，那么过程250转到状态276，其中第一个和第二个序列之间的同源性水平被显示给用户。同源性水平通过计算序列之间相同的字符在第一个序列的序列总数中的比例来确定。因此，如果第一个100核苷酸序列中的每一个字符都与第二个序列中的每一个字符联配，那么同源性水平将是100％。

可以选择地，计算机系统可以比较参考序列与本发明的序列，以确定这些序列是否在一个或多个位置上不同。关于本发明的序列或者参考序列，该程序可以记录所插入、删除或取代的核苷酸或核酸残基的长度和同一性。计算机程序可以是确定参考序列是否相对于本发明的序列含有单核苷酸多态性(SNP)的程序，或者确定本发明的序列是否包含已知序列的SNP的程序。因此，在一些方面，计算机系统是鉴定SNP的程序。该方法可以通过上面描述的算机系统和图3所示意性说明的方法执行。该方法通过使用计算机程序读取本发明的序列和参考序列，并且用计算机程序鉴定差异来执行。

在其它方面，基于计算机的系统包括鉴定器，用于鉴定本发明的核酸或多肽中的特征。“鉴定器”指在核酸序列中鉴定某些特征的一个或多个程序。例如，鉴定器可以包括在核酸序列中鉴定开发阅读框(ORF)的程序。图4是示意性说明鉴定器过程300的一个方面的流程图，即用于鉴定序列特征的存在。过程300在起始状态302开始，然后转到状态304，其中将被检查特征的第一个序列被存储在计算机系统100的存储器115上。然后过程300转到状态306，其中打开序列特征数据库。这样的数据库包括每一特征的属性以及该特征的名称的列表。例如，特征名称是“起始密码子”，属性是“ATG”。另一个实例是特征名称“TAATAA序列盒”，特征属性是“TAATAA”。这样的数据库的实例由威斯康星大学遗传学计算机组(University of Wisconsin Genetics Computer Group)开发。可以选择地，这些特征是结构多肽基序如α螺旋、β折叠，或功能多肽基序如酶活性位点、螺旋-转角-螺旋基序或本技术领域的普通技术人员已知的其它基序。一旦在状态306打开特征数据库，过程300就转到状态308，其中从数据库读取第一个特征。然后在状态310将第一个特征的属性与第一个序列进行比较。接着在决策状态316作出在第一个序列中是否发现该特征的属性的判断。如果发现了属性，那么过程300转到状态318，其中所发现的特征的名称被显示给用户。然后，过程300转到决策状态320，其中作出数据库中是否存在更多特征的判断。如果不存在更多特征，那么过程300在结束状态324终止。然而，如果数据库中确实存在更多的特征，那么过程300在状态326读取下一个序列特征，循环回到状态310，其中将下一个特征的属性与第一个序列进行比较。如果在决策状态316在第一个序列中没有发现特征属性，那么过程300直接转到决策状态320，以便确定数据库中是否存在更多特征。因此，一方面，本发明提供了鉴定开放阅读框(ORF)的计算机程序。

本发明的多肽或核酸序列可以以多种格式在各种数据处理器程序中存储和操作。例如，序列可以以文本文件存储在字处理文件中，如MicrosoftWORD或WORDPERFECT，或以ASCII文件存储在本技术领域的普通技术人员熟悉的多种数据库程序中，如DB2、SYBASE或ORACLE。此外，许多计算机程序和数据库可以被用作序列比较算法、鉴定器或与本发明的核酸序列进行比较的参考核苷酸序列或多肽序列的来源。用于实践本发明的程序和数据库，包括但不限于：MacPattern(EMBL)、DiscoveryBase(Molecular Application Group)、GeneMine(Molecular Application Group)、Look(Molecular Application Group)、MacLook(Molecular Application Group)、BLAST和BLAST2(NCBI)、BLASTN和BLASTX(Altschul等人，J.Mol.Biol.215：403，1990)、FASTA(Pearson and Lipman，Proc.Natl.Acad.Sci.USA，85：2444，1988)、FASTDB(Brutlag等人，Comp.App.Biosci.6：237-245，1990)、Catalyst(Molecular Simulations Inc.)、Catalyst/SHAPE(MolecularSimulations Inc.)、Cerius2.DBAccess(Molecular Simulations Inc.)、HypoGen(Molecular Simulations Inc.)、Insight II(Molecular Simulations Inc.)、Discover(Molecular Simulations Inc.)、CHARMm(Molecular Simulations Inc.)、Felix(Molecular Simulations Inc.)、DelPhi(Molecular Simulations Inc.)、QuanteMM(Molecular Simulations Inc.)、Homology(Molecular Simulations Inc.)、Modeler(Molecular Simulations Inc.)、ISIS(Molecular Simulations Inc.)、Quanta/ProteinDesign(Molecular Simulations Inc.)、WebLab(Molecular Simulations Inc.)、WebLabDiversity Explorer(Molecular Simulations Inc.)、Gene Explorer(Molecular SimulationsInc.)、SeqFold(Molecular Simulations Inc.)、MDL Available Chemicals Directory数据库、MDL Drug Data Report数据库、Comprehensive Medicinal Chemistry数据库、Derwent’s World Drug Index数据库、BioByteMasterFile数据库、Genbank数据库和Genseqn数据库。基于本发明的公开内容，许多其它程序和数据库对于本技术领域的普通技术人员是显而易见的。

可以用上述程序检测的基序包括：编码亮氨酸拉链的序列、螺旋-转角-螺旋基序、糖基化位点、泛素化位点、α螺旋和β折叠、编码指导编码蛋白分泌的信号肽的信号序列、在转录调节中涉及的序列如同源框、酸性伸展(acidic stretches)、酶活性位点、底物结合位点和酶切割位点。

核酸的杂交

本发明提供了分离的或重组的核酸，这些核酸与本发明的示例性序列(例如SEQ ID NO：1；SEQ ID NO：3；SEQ ID NO：5；SEQ ID NO：7；SEQ ID NO：9；SEQ IDNO：11；SEQ ID NO：13；SEQ ID NO：15；SEQ ID NO：17；SEQ ID NO：19；SEQ IDNO：21；SEQ ID NO：23；SEQ ID NO：25；SEQ ID NO：27；SEQ ID NO：29；SEQ IDNO：31；SEQ ID NO：33；SEQ ID NO：35；SEQ ID NO：37；SEQ ID NO：39；SEQ IDNO：41；SEQ ID NO：43；SEQ ID NO：45；SEQ ID NO：47；SEQ ID NO：49；SEQ IDNO：51；SEQ ID NO：53；SEQ ID NO：55；SEQ ID NO：57；SEQ ID NO：59；SEQ IDNO：61；SEQ ID NO：63；SEQ ID NO：65；SEQ ID NO：67；SEQ ID NO：69；SEQ IDNO：71；SEQ ID NO：73；SEQ ID NO：75；SEQ ID NO：77；SEQ ID NO：79；SEQ IDNO：81；SEQ ID NO：83；SEQ ID NO：85；SEQ ID NO：87；SEQ ID NO：89；SEQ IDNO：91；SEQ ID NO：93；SEQ ID NO：95；SEQ ID NO：97；SEQ ID NO：99；SEQ IDNO：101；SEQ ID NO：103；SEQ ID NO：105；SEQ ID NO：107；SEQ ID NO：109；SEQ ID NO：111；SEQ ID NO：113；SEQ ID NO：115；SEQ ID NO：117；SEQ IDNO：119；SEQ ID NO：121；SEQ ID NO：123；SEQ ID NO：125；SEQ ID NO：127；SEQID NO：129；SEQ ID NO：131；SEQ ID NO：133；SEQ ID NO：135；SEQ ID NO：137；SEQ ID NO：139；SEQ ID NO：141；SEQ ID NO：143；SEQ ID NO：145；SEQ IDNO：146；SEQ ID NO：150；SEQ ID NO：158；SEQ ID NO：164；SEQ ID NO：171；SEQ ID NO：179；SEQ ID NO：187；SEQ ID NO：193；SEQ ID NO：199；SEQ IDNO：204；SEQ ID NO：210；SEQ ID NO：218；SEQ ID NO：222；SEQ ID NO：229；SEQ ID NO：234；SEQ ID NO：241；SEQ ID NO：248和/或SEQ ID NO：254)，或编码本发明多肽(例如SEQ ID NO：2；SEQ ID NO：4；SEQ ID NO：6；SEQ ID NO：8；SEQ ID NO：10；SEQ ID NO：12；SEQ ID NO：14；SEQ ID NO：16；SEQ ID NO：18；SEQ ID NO：20；SEQ ID NO：22；SEQ ID NO：24；SEQ ID NO：26；SEQ ID NO：28；SEQ ID NO：30；SEQ ID NO：32；SEQ ID NO：34；SEQ ID NO：36；SEQ ID NO：38；SEQ ID NO：40；SEQ ID NO：42；SEQ ID NO：44；SEQ ID NO：46；SEQ ID NO：48；SEQ ID NO：50；SEQ ID NO：52；SEQ ID NO：54；SEQ ID NO：56；SEQ ID NO：58；SEQ ID NO：60；SEQ ID NO：62；SEQ ID NO：64；SEQ ID NO：66；SEQ ID NO：68；SEQ ID NO：70；SEQ ID NO：72；SEQ ID NO：74；SEQ ID NO：76；SEQ ID NO：78；SEQ ID NO：80；SEQ ID NO：82；SEQ ID NO：84；SEQ ID NO：86；SEQ ID NO：88；SEQ ID NO：90；SEQ ID NO：92；SEQ ID NO：94；SEQ ID NO：96；SEQ ID NO：98；SEQ ID NO：100；SEQ ID NO：102；SEQ ID NO：104；SEQ ID NO：106；SEQ IDNO：108；SEQ ID NO：110；SEQ ID NO：112；SEQ ID NO：114；SEQ ID NO：116；SEQID NO：118；SEQ ID NO：120；SEQ ID NO：122；SEQ ID NO：124；SEQ IDNO：126；SEQ ID NO：128；SEQ ID NO：130；SEQ ID NO：132；SEQ ID NO：134；SEQ IDNO：136；SEQ ID NO：138；SEQ ID NO：140；SEQ ID NO：142；SEQ ID NO：144和/或SEQ ID NO：147)的核酸在严紧条件下杂交。严紧条件可以是高度严紧性条件、中度严紧性条件和/或低度严紧性条件，包括此处描述的高的和降低的严紧性的条件。一方面，正如下面所讨论的，洗涤条件的严紧性提出了决定核酸是否在本发明范围内的条件。

在可以选择的实施方案中，本发明的核酸，正如通过它们在严紧条件下杂交的能力所定义的，可以在本发明的核酸的大约五个残基到全长之间；例如它们的长度可以是至少5、10、15、20、25、30、35、40、50、55、60、65、70、75、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000或更多残基。也包括小于全长的核酸。这些核酸可以用作，例如杂交探针、标记探针、PCR寡核苷酸探针、iRNA(单链或双链)、反义或编码抗体结合肽(抗原决定基)、基序、活性位点的序列以及类似序列。

一方面，本发明的核酸通过它们在高度严紧性下杂交的能力定义，高度严紧性包括在大约37℃到42℃的温度下大约50％的甲酰胺的条件。一方面，本发明的核酸通过它们在降低的严紧性下杂交的能力定义，降低的严紧性包括在大约30℃到35℃在大约35％-25％的甲酰胺中的条件。

可以选择地，本发明的核酸通过它们在高度严紧性下杂交的能力定义，高度严紧性包括的条件为：在42℃、在50％甲酰胺、5X SSPE、0.3％SDS中，和封闭核酸的重复序列，如cot-1或鲑精DNA(例如200n/ml的剪切和变性鲑精DNA)。一方面，本发明的核酸通过它们在降低的严紧性条件下杂交的能力定义，降低的严紧性条件包括在35℃的降低温度下的35％甲酰胺中。

在杂交后，可以用6X SSC、0.5％ SDS在50℃洗涤滤器。这些条件在高于25％的甲酰胺下被认为是“中度”条件，在低于25％的甲酰胺下被认为是“低度”条件。“中度”杂交条件的特定实例是当上述杂交在30％的甲酰胺中进行时。“低度严格性”杂交条件的特定实例是当上述杂交在10％的甲酰胺中进行时。

与特定水平的严紧性相对应的温度范围可以通过计算相关核酸的嘌呤与嘧啶的比率并且相应地调节温度来进一步限定。本发明的核酸也通过它们在Ausubel和Sambrook中所述的高度、中度、低度严紧性条件下杂交的能力来定义。上述范围和条件的变化在本技术领域是熟知的。下面对杂交条件做了进一步的讨论。

也可以对上述方法进行修饰，以鉴定与探针序列具有降低水平的同源性的核酸。例如，为了获得与可检测的探针具有降低的同源性的核酸，可以使用较低严紧性的条件。例如，杂交温度可以在杂交缓冲液中以5℃的梯度变量从68℃降低到42℃，杂交缓冲液的Na⁺浓度为大约1M。在杂交后，用2X SSC、0.5％ SDS在杂交温度下洗涤滤器。这些条件在高于50℃被认为是“中度”条件，在低于50℃被认为是“低度”条件。特定实例的“中度”杂交条件是当上述杂交在55℃进行。特定实例的“低度严格性”杂交条件是当上述杂交在45℃进行。

可以选择地，杂交可以在含有甲酰胺的缓冲液如6X SSC中在42℃的温度下进行。在这种情况下，杂交缓冲液中甲酰胺的浓度可以以5％的梯度变量从50％降低到0％，以鉴定与探针具有降低水平的同源性的克隆。在杂交后，用6X SSC、0.5％ SDS在50℃洗涤滤器。这些条件在高于25％的甲酰胺被认为是“中度”条件，在低于25％甲酰胺被认为是“低度”条件。特定实例的“中度”杂交条件是当上述杂交在30％甲酰胺中进行。特定实例的“低度严格性”杂交条件是当上述杂交在10％甲酰胺中进行。

然而，杂交形式的选择不是关键性的-洗涤条件的严紧性提出了决定核酸是否在本发明范围内的条件。用于鉴定本发明范围内的核酸的洗涤条件包括，例如：在pH 7大约0.02M的盐浓度，至少为大约50℃或大约55℃到大约60℃的温度；或者在72℃大约0.15M NaCl的盐浓度下洗涤大约15分钟；或者在至少大约50℃或大约55℃到大约60℃的温度下大约0.2X SSC的盐浓度下洗涤大约15到大约20分钟；或者用溶液将杂交复合物洗涤两次，所述溶液的盐浓度为含有0.1％SDS的大约2X SSC，在室温下洗涤15分钟，然后用含有0.1％ SDS的0.1X SSC在68℃洗涤两次，洗涤15分钟；或者等同的条件。参见Sambrook，Tijssen和Ausubel对于SSC缓冲液和等同条件的描述。

这些方法可以被用于分离本发明的核酸。

寡核苷酸探针及其使用这些寡核苷酸探针的方法

本发明也提供了可以使用的核酸探针，例如用于鉴定编码具有蛋白酶活性的多肽的核酸或其片段，或用于鉴定蛋白酶基因。一方面，该探针包括本发明核酸中的至少10个连续碱基。可以选择地，本发明的探针可以是如本发明核酸中所示序列的至少大约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、60、70、80、90、100、110、120、130、150或大约10到50、大约20到60或大约30到70个连续碱基。这些探针通过结合和/或杂交来鉴定核酸。这些探针可以在本发明的阵列中使用，参见下面的讨论，包括例如毛细管阵列。本发明的探针也可以用于分离其它核酸或多肽。

本发明的探针可用于确定生物样品如土壤样品是否含有具有本发明的核酸序列的生物体或从中可得到所述核酸的生物体。在这样的方法中，获得潜在地具有从中可分离出所述核酸的生物体的生物样品，并从样品中获得核酸。将这些核酸在允许探针与样品中存在的任何互补序列特异性杂交的条件下与探针接触。在必要的时候，允许探针与互补序列特异性杂交的条件，可以通过将探针与来自样品的互补序列以及对照序列进行接触来确定，所述样品已知含有互补序列，所述对照序列不含有互补序列。杂交条件，如杂交缓冲液的盐浓度、杂交缓冲液的甲酰胺浓度、或杂交温度，可以被改变以确定允许探针与互补核酸特异性杂交的条件(参见关于特异性杂交条件的讨论)。

如果该样品含有从中可分离出核酸的生物体，那么探针的特异性杂交被检测到。杂交可以通过用可检测的试剂标记过的探针来检测，如放射性同位素、荧光染料或能催化可检测产物形成的酶。使用标记探针来检测样品中互补核酸的存在的许多方法对本技术领域的普通技术人员是熟知的。这些方法包括Southern印迹、Northern印迹、集落杂交方法和斑点印迹。这些方法中的每一种方法的方案在Ausubel和Sambrook中有所提供。

可以选择地，多于一种探针(其中至少一种探针能与核酸样品中存在的任何互补序列特异性杂交)可以在扩增反应中使用，以确定样品是否包含含有本发明的核酸的生物体(例如从中可分离出所述核酸的生物体)。一方面，这些探针包括寡核苷酸。一方面，扩增反应可以包括PCR反应。PCR实验方案在Ausubel和Sambrook中有所描述(参见关于扩增反应的讨论)。在这样的方法中，将样品中的核酸与探针接触，进行扩增反应，检测所得到的扩增产物。扩增产物可以通过在反应产物上进行凝胶电泳并用嵌入剂如溴化乙啶染色凝胶来检测。可以选择地，可以用同位素标记一种或多种探针，放射性扩增产物的存在在凝胶电泳后通过放射自显影术来检测。

来自本发明核酸的3’或5’末端附近的序列的探针也可以在染色体步移(chromosome walking)方法中使用，以鉴定含有额外的例如基因组序列的克隆。这样的方法允许从宿主生物中分离编码相关的额外蛋白的基因。

一方面，本发明的核酸序列被用作探针，以鉴定和分离相关的核酸。在一些方面，如此鉴定的相关核酸可以是来自生物体的cDNA或基因组DNA，这些生物体并不是本发明的核酸最初从中被分离出的生物体。在这样的方法中，核酸样品在允许探针与相关序列特异性杂交的条件下与探针接触。然后用上面描述的任意一种方法检测探针与来自相关生物体的核酸的杂交。

在核酸杂交反应中，用于获得特定水平的严紧性的条件可以有所变化，依赖于被杂交的核酸的性质。例如，在选择杂交条件时，可以考虑长度、互补程度、核苷酸序列组成(例如GC和AT含量)、以及核酸的杂交区域的核酸类型(例如RNA或DNA)。其它的考虑因素是这些核酸中的一个核酸是否被固定化，例如固定化在滤器上。杂交可以在低度严紧性、中度严紧性或高度严紧性的条件下进行。作为核酸杂交的一个实例，含有固定化的变性核酸的聚合物膜首先在45℃在含有如下成分的溶液中预杂交30分钟：0.9M NaCl、50mM NaH₂PO₄，pH7.0、5.0mMNa₂EDTA、0.5％SDS、10X Denhardt’s和0.5mg/ml多核糖腺苷酸。然后在该溶液中加入大约2X 10⁷cpm(比活性为4-9X 10⁸cpm/ug)的³²p末端标记的寡核苷酸探针。在温育12-16小时后，在室温(RT)下在含有0.5％ SDS的1X SET(150mM NaCl、20mM Tris盐酸，pH7.8、1mM Na₂EDTA)中将膜洗涤30分钟，随后，对于寡核苷酸探针，在Tm-10℃的温度，在新鲜的1X SET中洗涤30分钟。然后将膜暴露于放射自显影胶片，以检测杂交信号。

通过改变用于鉴定与可检测探针杂交的核酸例如cDNA或基因组DNA的杂交条件的严紧性，鉴定并分离与探针具有不同同源性水平的核酸。严紧性通过在低于探针的解链温度的变化温度下进行杂交来改变。解链温度Tm是50％的靶序列与完全互补的探针杂交时的温度(在确定的离子强度和pH)。选择非常严紧的条件，使其与特定探针的Tm相等，或比Tm低大约5℃。可以使用下述示范性公式计算探针的解链温度。对于长度在14到70个核苷酸的探针，使用如下公式计算解链温度(Tm)：Tm＝81.5+16.6(log[Na+])+0.41(G+C的比例分数)—(600/N)，其中N是探针的长度。如果杂交在含有甲酰胺的溶液中进行，解链温度使用如下等式计算：Tm＝81.5+16.6(log[Na+])+0.41(G+C的比例分数)—(0.63％甲酰胺)—(600/N)，其中N是探针的长度。预杂交在6X SSC、5X Denhardt’s试剂、0.5％ SDS、100μg变性的片段化鲑精DNA或6X SSC、5X Denhardt’s试剂、0.5％SDS、100μg变性的片段化鲑精DNA、50％甲酰胺中进行。SSC和Denhardt’s和其它溶液的配方已被列出，例如在Sambrook中。

杂交通过将可检测探针加入到上面所列出的预杂交溶液中进行杂交。在探针包括双链DNA的情况下，在加入到杂交溶液之前对探针变性。将滤器与杂交溶液接触充足的时间，以允许探针与含有与其互补的序列或与其同源的序列的cDNA或基因组DNA杂交。对于长度超过200个核苷酸的探针，杂交可以在比Tm低15-25℃的温度进行。对于更短的探针，如寡核苷酸探针，杂交在比Tm低5-10℃的温度进行。一方面，6X SSC中的杂交在大约68℃进行。一方面，在含有50％甲酰胺的溶液中的杂交是在大约42℃进行。所有前述杂交被认为属于高度严紧性条件。

杂交后，洗涤滤器以除去任何未特异性结合的可检测探针。用于洗涤滤器的严紧性也可以根据如下方面进行变化：被杂交的核酸的性质、被杂交的核酸的长度、互补程度、核苷酸序列组成(例如GC和AT含量)和核酸类型(例如RNA和DNA)。逐步增高的严紧性条件洗涤的实例如下：2X SSC，0.1％ SDS，室温下洗涤15分钟(低度严紧性)；0.1X SSC，0.5％ SDS，室温下洗涤30分钟到1小时(中度严紧性)；0.1X SSC，0.5％ SDS，杂交温度和68℃之间洗涤15到30分钟(高度严紧性)；和0.15M NaCl，72℃洗涤15分钟(非常高的严紧性)。最终的低严紧性洗涤可以在0.1X SSC在室温下进行。上述的实例仅仅是可用于洗涤滤器的一组条件的示例性说明。本技术领域的普通技术人员将知道，对于不同严紧性的洗涤，可以有多种方案。

已经与探针杂交的核酸可以通过放射自显影术或其它传统技术来鉴定。可以对上述方法进行修改，以鉴定与探针序列具有降低水平的同源性的核酸。例如，为了获得与可检测探针具有降低同源性的核酸，可以使用较低严格性条件。例如，杂交缓冲液中的杂交温度可以按照5℃的增量从68℃降低到42℃，所述杂交缓冲液的Na+浓度为大约1M。杂交后，用2X SSC、0.5％SDS在杂交温度下洗涤过滤器。这些条件在高于50℃被认为是“中度”条件，在低于50℃被认为是“低度”条件。“中度”杂交条件的实例是当上述杂交在55℃进行时。“低度严格性”杂交条件的实例是当上述杂交在45℃进行时。

可以选择地，杂交可以在含有甲酰胺的缓冲液如6X SSC中在42℃的温度进行。在这种情况下，杂交缓冲液中的甲酰胺浓度可以以5％的变量从50％降低到0％，以鉴定与探针具有降低水平的同源性的克隆。杂交后，用6X SSC、0.5％SDS在50℃洗涤滤器。这些条件在高于25％甲酰胺被认为是“中度”条件，在低于25％甲酰胺被认为是“低度”条件。“中度”杂交条件的特定实例是当上述杂交在30％甲酰胺进行时。“低度严格性”杂交条件的特定实例是当上述杂交在10％甲酰胺进行时。

本发明的这些探针和方法可被用于分离核酸，所述核酸具有与本发明的核酸序列具有至少大约99％、98％、97％、至少95％、至少90％、至少85％、至少80％、至少75％、至少70％、至少65％、至少60％、至少55％或至少50％同源性的序列或与其互补的序列，所述本发明的核酸序列包括其至少大约10、15、20、25、30、35、40、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000或更多个连续碱基。正如此处所讨论的，同源性可以使用联配算法来测量。例如，同源的多核苷酸可以具有编码序列，该编码序列是此处描述的编码序列之一的天然发生的等位基因变体。当与本发明的核酸比较时，这样的等位基因变体可以具有一个或多个核苷酸的取代、删除或添加。

另外，本发明的探针和方法可用于分离编码多肽的核酸，所述多肽与本发明的多肽具有至少大约99％、至少95％、至少90％、至少85％、至少80％、至少75％、至少70％、至少65％、至少60％、至少55％或至少50％序列同一性(同源性)，所述本发明的多肽包括至少大约5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸，正如使用序列联配算法所确定的(例如FASTA 3.0t78版本算法，参数为默认值，或具有如已描述的示例性设置的BLAST2.2.2程序)。

抑制蛋白酶的表达

本发明提供了与本发明的核酸互补的核酸(例如本发明的核酸的反义序列)，所述本发明的核酸例如编码蛋白酶的核酸。反义序列能抑制编码蛋白酶的基因的转运、剪接或转录。抑制可通过将基因组DNA或信使RNA作为靶标来实现。作为靶标的核酸的转录或功能可以被抑制，例如通过杂交和/或切割。本发明提供的一组特定用途的抑制剂包括寡核苷酸，这些寡核苷酸能结合蛋白酶基因或信息，在两种情况下都阻止或抑制蛋白酶的产生或功能。结合可通过序列特异性杂交来完成。另一类有用的抑制剂包括引起蛋白酶信息失活或切割的寡核苷酸。该寡核苷酸可具有引起这样的切割的酶活性，如核酶活性。可以对寡核苷酸进行化学修饰，或与能切割互补核酸的酶或组合物偶联。可以对许多不同的这样的寡核苷酸进行筛选来寻找那些具有期望活性的寡核苷酸。因此，本发明提供了用于在核酸和/或蛋白水平上抑制蛋白酶表达的多种组合物，例如包括本发明的蛋白酶序列和本发明的抗蛋白酶抗体的反义序列、iRNA和核酶。

蛋白酶表达的抑制有多种工业应用。例如，蛋白酶表达的抑制能降低或阻止腐坏。当多肽如结构多肽被酶促降解时，会发生腐坏。这可能导致水果和蔬菜的变质或腐烂。一方面，使用能抑制蛋白酶的表达和/或活性的本发明组合物，例如抗体、反义寡核苷酸、核酶和RNAi，可以减缓或阻止腐坏。因此，一方面，本发明提供了方法和组合物，其包含将本发明的抗体、反义寡核苷酸、核酶和RNAi应用于植物或植物产品(例如水果、种子、根、叶等等)，以减缓或阻止腐坏。这些组合物也可以通过植物(例如转基因植物)或其它生物体(例如用本发明的蛋白酶基因转化的细菌或其它微生物)来表达。

用于抑制蛋白酶表达的本发明的组合物(例如反义序列、iRNA、核酶、抗体)可以被用作药物组合物，例如作为抗病原体试剂，或应用在其它治疗中，例如消炎或皮肤治疗或消化辅助治疗中。例如，蛋白酶是引人注目的抗疟靶标，这是由于它们在寄生虫感染和发展中不可缺少的角色，尤其在宿主红细胞破裂、侵入和血红蛋白降解的过程中，例如参见Wu(2003)Genome Res.13：601-616。在调节产卵活性的肽的激活/失活中涉及的蚊血管紧张肽转化酶(ACE)(一种二肽基羧肽酶)的选择性抑制是一种有效的抗蚊方法；例如参见Ekbote(2003)Comp.Biochem.Physiol.B.Biochem.Mol.Bio.134：593-598。基质金属蛋白酶(matrixmetalloprotease)(例如金属蛋白酶，metalloproteinase)和胶原酶的抑制可以被用来处理或改善这些状况，所述金属蛋白酶(例如金属蛋白酶)和胶原酶降解胞外基质并且促进癌细胞迁移和转移；例如参见Elnemr(2003)Gastric Cancer 6：30-38。

反义寡核苷酸

本发明提供了能结合蛋白酶信息的反义寡核苷酸，其能通过以mRNA作为靶标来抑制蛋白水解活性。设计反义寡核苷酸的策略在科学和专利文献中有很好的描述，熟练技术人员能使用本发明的新试剂设计这样的蛋白酶寡核苷酸。例如，筛选有效的反义寡核苷酸的基因步移/RNA作图方法在本技术领域是熟知的，例如参见Ho(2000)Methods Enzymol.314：168-183，该文献描述了RNA作图分析法，该分析法是基于标准的分子技术，以提供用于有效的反义序列选择的一种简单且可靠的方法。也参见Smith(2000)Eur.J.Pharm.Sci.11：191-198。

自然发生的核酸被用作反义寡核苷酸。这些反义寡核苷酸可以是任意长度；例如，在可选择的方面，这些反义寡核苷酸在大约5到100之间，大约10到80之间，大约15到60之间，大约18到40之间。最适长度可以通过常规筛选来决定。这些反义寡核苷酸可以以任意浓度存在。最适浓度可通过常规筛选来决定。大量合成的、非天然发生的核苷酸和核酸类似物是已知的，它们可以解决这一潜在的问题。例如，可以使用含有非离子骨架的肽核酸(PNA)，如N-(2-氨基乙基)甘氨酸单元。也可以使用具有硫代磷酸酯键的反义寡核苷酸，正如在如下文献中所描述的：WO 97/03211；WO 96/39154；Mata(1997)Toxicol Appl Pharmacol 144：189-197；Antisense Therapeutics，ed.Agrawal(Humana Press，Totowa，N.J.，1996)。正如上面所描述的，本发明提供的具有合成DNA骨架类似物的反义寡核苷酸也包括二硫代磷酸酯、甲基膦酸、氨基磷酸酯、烷基磷酸三酯、氨基磺酸酯、3′-硫代乙缩醛、亚甲基(甲基亚氨)、3′-N-氨基甲酸酯和吗啉代氨基甲酸酯核酸。

组合化学方法学可用于产生大量能被快速筛选特异性寡核苷酸的寡核苷酸，所述特异性寡核苷酸对靶物质具有适当的结合亲和性和特异性，所述靶物质例如本发明的正义和反义蛋白酶序列(例如参见Gold(1995)J.，Biol.Chem.270：13581-13584)。

抑制性核酶

本发明提供了能结合蛋白酶信息的核酶。这些核酶能抑制蛋白酶活性，例如通过以mRNA作为靶标。设计核酶和选择用于靶向的蛋白酶特异性反义序列的策略在科学和专利文献中有很好的描述，熟练技术人员能使用本发明的新试剂来设计这样的核酶。核酶通过核酶的靶RNA结合部分来与靶RNA结合，从而发挥作用，核酶的靶RNA结合部分与该RNA上切割靶RNA的酶促部分非常接近。这样，通过互补的碱基配对，核酶识别和结合靶RNA，而且一旦结合于正确的位置，便以酶的活性作用来切割靶RNA和使其失活。如果切割发生在编码序列中，以这样的方式切割靶RNA将会破坏其引导合成编码的蛋白的能力。核酶结合和切割其RNA靶之后，它可以从结合的RNA上释放出来并且重复切割新的靶子。

在一些情况下，核酶的酶性质会优于其它的技术，如反义技术(其中核酸分子结合于核酸靶来阻止其转录、翻译或者与其它分子的联系)，因为实现治疗效果所必要的核酶有效浓度可能低于反义寡聚核苷酸的浓度。这一潜在的优点反映出核酶可以以酶的方式进行作用的能力。因此，单个核酶分子可以切割靶RNA的多个分子。此外，核酶是一种典型的高度特异性的抑制物，其抑制作用的特异性不仅依赖于碱基配对的结合机制，也依赖于该分子抑制与其结合的RNA的表达的机制。即，所述抑制是由切割靶RNA引起的，因此特异性定义为靶RNA的切割率与非靶RNA的切割率的比值。除了涉及碱基配对的那些因素，这种切割机制还依赖于另外的因素。这样，核酶作用的特异性比结合于同样的RNA位点的反义寡聚核苷酸强。

本发明的核酶，例如，具有酶活的核酶RNA分子可以形成锤头状基序、发夹基序，如肝炎δ病毒基序、I类内含子基序和/或与RNA引导序列(guide sequence)相联系的RNaseP样RNA。锤头状基序的例子在如Rossi(1992)Aids Research andHuman Retroviruses 8：183中有说明；发夹基序在Hampel(1989)Biochemistry 28：4929和Hampel(1990)Nuc.Acids Res.18：299中有说明；肝炎δ病毒基序在Perrotta(1992)Biochemistry 31：16中有说明；RNaseP基序在Guetrier-Takada(1983)Cell35：849中有说明；I类内含子在Cech美国专利4,987,071中有说明。这些特定基序的引述并不是限制性的。本领域技术人员将认识到本发明的核酶，如，本发明的有酶活的RNA分子，可以有与一个或者多个靶基因的RNA区域互补的特异的底物结合位点。本发明的核酶可以在底物结合位点内或者其周围具有赋予了该分子RNA切割活性的核苷酸序列。

RNA干扰(RNAi)

在一个方面，本发明提供了被称为“RNAi”分子的RNA抑制性分子，其含有本发明的蛋白酶序列。RNAi分子构成双链RNA(dsRNA)分子。RNAi可抑制蛋白酶基因的表达。在一个方面，RNAi的长度大约为15、16、17、18、19、20、21、22、23、24、25或更多个核苷酸的双链。本发明不限于任何特殊的作用机制，RNAi可进入细胞中，引起相似或相同序列的单链RNA(ssRNA)的降解，包括内源性mRNA。当细胞与双链RNA(dsRNA)接触时，来自同源基因的mRNA被称为RNA干扰(RNAi)的过程选择性地降解。RNAi的一个可能的基本机制是将与特定的基因序列匹配的双链RNA(dsRNA)打断成为称为小分子干扰RNA的短的碎片，它可触发与其序列匹配的mRNA的降解。在一个方面，本发明的RNAi可用于基因沉默(gene-silencing)疗法中，见，例如Shuey(2002)Drug Discov.Today7：1040-1046。在一个方面，本发明提供了使用本发明的RNAi选择性降解RNA的方法。该过程可在体外、离体或体内实施。在一个方面，本发明的RNAi分子可用来在细胞、器官或动物中产生丧失功能的突变。制备和应用可选择性降解RNA的RNAi分子的方法在本领域中是为人所熟知的，见，例如美国专利6,506,559；6,511,824；6,515,109；6,489,127。

核酸的修饰

本发明提供了产生本发明的核酸的变体的方法，所述本发明的核酸例如那些编码蛋白酶的核酸。这些方法可以被重复或者以多种组合使用，以产生具有与模板核酸编码的蛋白酶有所改变的或不同的活性或有所改变的或不同的稳定性的蛋白酶。这些方法也可以被重复或以多种组合使用，从而例如在基因/信息表达、信息翻译或信息稳定性方面产生变化。另一方面，细胞的遗传组成可以被改变，例如通过同源基因的离体修饰，随后再将其插入到细胞中。

本发明的核酸可以通过任何方法来改变。例如，随意或随机方法、或者非随机、或者“定向进化”的方法，参见如，美国专利6,361,974。基因的随机突变方法在本领域是已知的，参见如，美国专利5,830,696。例如，可以应用突变剂来对基因进行随机突变。突变剂包括，如，紫外线或者γ辐射，或者化学诱变剂，如，丝裂霉素，亚硝酸，光活化的补骨脂内酯，它们单独使用或者组合使用来诱导DNA的断裂，其可以通过重组被修复。另外的化学诱变剂包括，如，亚硫酸氢钠、亚硝酸、羟胺、肼或者甲酸。其它的诱变剂是核苷酸前体的类似物，如，亚硝基胍、5-溴尿嘧啶、2-氨基嘌呤或者吖啶。这些试剂可以加入到PCR反应中替换核苷酸前体，从而突变该序列。也可以应用嵌入试剂如普罗黄素、吖啶黄、奎纳克林和类似物。

可以应用分子生物学上的任何技术，如随机PCR诱变，参见，如，Rice(1992)Proc.Natl.Acad.Sci.USA 89：5467-5471；或者组合式多重盒式诱变，参见如，Crameri(1995)Biotechinques 18：194-196。可选择地，核酸，如基因，可以在随机片段化后重新装配，参见，如，美国专利6,291,242；6,287,862；6,287,861；5,955,358；5,830,721；5,824,514，5,811,238；5,605,793.。在可选择的方面，修饰、增加或者删除可以通过易错PCR、重排、寡核苷酸诱导的定点突变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体突变、位点专一性诱变、基因再装配、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)、重组、递归序列重组(recursive sequence recombination)、硫代磷酸酯修饰的DNA诱变、含有尿嘧啶模板的诱变、缺口双链体诱变(gapped duplex mutagenesis)、点错配修复诱变(point mismatch repair mutagenesis)、修复缺陷型宿主株诱变、化学诱变、放射诱变、缺失诱变、限制选择诱变(restriction-selection mutagenesis)、限制纯化诱变(restriction-purification mutagenesis)、人工基因合成、整体诱变、嵌合核酸多聚体生成、和/或者这些方法和其它方法的组合产生。

以下的出版物描述了可以整入到本发明的方法中的各种递归重组程序和/或方法：Stemmer(1999)“Molecular breeding of viruses for targeting and other clinicalproperties”Tumor Targeting 4：1-4；Ness(1999)Nature Biotechnology 17：893-896；Chang(1999)“Evolution of a cytokine using DNA family shuffling”NatureBiotechnology 17：793-797；Minshull(1999)“Protein evolution by molecular breeding”Current Opinion in Chemical Biology 3：284-290；Christians(1999)“Directed evolutionof thymidine kinase for AZT phosphorylation using DNA family shuffling”NatureBiotechnology 17：259-264；Crameri(1998)“DNA shuffling of a family of genesfromdiverse species accelerates directed evolution”Nature 391：288-291；Crameri(1997)“Molecular evolution of an arsenate detoxification pathway by DNA shuffling”NatureBiotechnology 15：436-438；Zhang(1997)“Directed-evolution of an effectivefucosidase from a galactosidase by DNA shuffling and screening”Proc.Natl.Acad.Sci.USA 94：4504-4509；Patten等(1997)“Applications of DNA Shuffling toPharmaceuticals and Vaccines”Current Opinion in Biotechnology 8：724-733；Crameri等(1996)“Construction and evolution of antibody-phage libraries by DNA shuffling”Nature Medicine 2：100-103；Gates等(1996)“Affinityselective isolation of ligandsfrom peptide libraries through display on a lac repressor′headpiece dimer′”Journal ofMolecular Biology 255：373-386；Stemmer(1996)“Sexual PCR and Assembly PCR”In：The Encyclopedia of Molecular Biology.VCH Publishers，New York.447-457页；Crameri和Stemmer(1995)“Combinatorial multiple cassette mutagenesis creates allthe permutations of mutant and wildtype cassettes”Bio Techniques 18：194-195；Stemmer等(1995)“Single-step assembly of a gene and entire plasmid form largenumbers of oligodeoxyribonucleotides”Gene，164：49-53；Stemmer(1995)“TheEvolution of Molecular Computation”Science 270：1510；Stemmer(1995)“SearchingSequence Space”Bio/Technology 13：549-553；Stemmer(1994)“Rapid evolution ofa protein in vitro by DNA shuffling”Nature 370：389-391；和Stemmer(1994)“DNAshuffling by random fragmentation and reassembly：In vitro recombination formolecular evolution”Proc.Natl.Acad.Sci.USA 91：10747-10751。

产生多样性的突变方法包括，例如，定点诱变(Ling等.(1997)“Approachesto DNA mutagenesis：an overview”Anal Biochem.254(2)：157-178；Dale等(1996)“Oligonucleotide-directed random utagenesis using the phosphorothioate method”Methods Mol.Biol.57：369-374；Smith(1985)“In vitro mutagenesis”Ann.Rev.Genet.19：423-462；Botstein & Shortle(1985)“Strategies and applications of in vitromutagenesis”Science 229：1193-1201；Carter(1986)“Site-directed mutagenesis”Biochem.J.237：1-7；Kunkel(1987)“The efficiency of oligonucleotide directedmutagenesis”在Nucleic Acids & Molecular Biology(Eckstein，F.和Lilley，D.M.J.eds.，Springer Verlag，Berlin))；使用含有尿嘧啶的模板的诱变(Kunkel(1985)“Rapidand efficient site-specific mutagenesis without phenotypic selection”Proc.Natl.Acad.Sci.USA 82：488-492；Kunkel等(1987)“Rapid and efficient site-specific mutagenesiswithout phenotypic selection”Methods in Enzymol.154,367-382；和Bass等(1988)“Mutant Trp repressors with new DNA-binding specificities”Science 242：240-245)；寡核苷酸诱导的定点诱变(Methods in Enzymol.100：468-500(1983)；Methods inEnzymol.154：329-350(1987)；Zoller(1982)“Oligonucleotide-directed mutagenesisusing M13-derived vectors：an efficient and general procedure for the production ofPoint mutations in any DNA fragment”Nucleic Acids Res.10：6487-6500；Zoller &Smith(1983)“Oligonucleotide-directed mutagenesis of DNA fragments cloned intoM13 vectors”Methods in Enzymol.100：468-500和Zoller(1987)Oligonucleotide-directed mutagenesis：a simple method using two oligonucleotideprimers and a single-stranded DNA template”Methods in Enzymol.154：329-350)；硫代磷酸酯修饰的DNA诱变(Taylor(1985)“The use of phosphorothioate-modifiedDNA in restriction enzyme reactions to prepare nicked DNA”Nucl.Acids Res.13：8749-8764；Taylor(1985)“The rapid generation of oligonucleotide-directed mutationsat high frequency using phosphorothioate-modified DNA”Nucl.Acids Res.13：8765-8787(1985)；Nakamaye(1986)“Inhibition of restriction endonuclease NciI cleavage by phosphorothioate groups and its application to oligonucleotide-directedmutagenesis”Nucl.Acids Res.14：9679-9698；Sayers(1988)“Y-T Exonucleases inphosphorothioate-based oligonucleotide-directed mutagenesis”Nucl.Asids Res.16：791-802；和Sayers等(1988)“Strand specific cleavage ofphosphorothioate-containing DNA by reaction with restriction endonucleases in thepresence of ethidium bromide”Nucl.Acids Res.16：803-814)；使用缺口双链体DNA的诱变(Kramer等(1984)“The gapped duplex DNA approach tooligorucleotide-directed mutation construction”Nucl.Acids Res.12：9441-9456；Kramer & Fritz(1987)Methods in Enzymol.“Oligonucleotide-directed construction ofmutations via gapped duplex DNA”154：350-367；Kramer(1988)“Improved enzymaticin vitro reactions in the gapped duplex DNA approach to oligonucleotide-directedconstruction of mutations”Nucl.Acids Res.16：7207；和Fritz(1988)“Oligonucleotide-directed construction of mutations：a gapped duplex DNA procedurewithout enzymatic reactions in vitro”Nucl.Acids Res.16：6987-6999)。

可以用于实践本发明的另外的实验方案包括点错配修复(Kramer(1984)“PointMismatch Repair”Cell 38：879-887)，应用修复缺陷型宿主株的诱变(Carter等(1985)“Improved oligonucleotide site-directed mutagenesis using M13 vectors”Nucl.AcidsRes.13：4431-4443和Carter(1987)“Improved oligonucleotide-directed mutagenesisusing M13 vectors”Methods in Enzymol.154：382-403)，缺失诱变(Eghtedarzadeh(1986)“Use of oligonucleotides to generate large deletions”Nucl.Acids Res.14：5115)，限制-选择和限制-纯化(Wells等(1986)“Importance of hydrogen-bondformation in stabilizing the transition state of subtilisin”Phil.Trans.R.Soc.Lond.A317：415-423)，通过全基因合成的诱变(Nambiar等(1984)“Total synthesis andcloning of a gene coding for the ribonuclease S protein”Science 223：1299-1301；Sakamar和Khorana(1988)“Total synthesis and expression of a gene for the a-subunitof bovine rod outer segment guanine nucleotide-binding protein(transducin)”Nucl.Acids Res.14：6361-6372；Wells等(1985)“Cassette mutagenesis：an efficient methodfor generation of multiple mutations at defined sites”Gene 34：315-323和Grundstrom等(1985)“Oligonucleotide-directed mutagenesis by microscale‘shot-gun’genesynthesis”Nucl.Acids Res.13：3305-3316)，双链断裂修复(Mandecki(1986)，Arnold(1993)“Protein engineering for unusual environments”Current Opinion inBiotechnology 4：450-455.“Oligonucleotide-directed double-strand break repair inplasmids of Escherichia coli：a method for site-speciflc mutagenesis”Proc.Natl.Acad.Sci.USA，83：7177-7181)。很多以上的方法的另外的细节在Methods in Enzymology的154卷中有说明，其中也描述了用于解决各种诱变方法中所会遇到的问题的有用策略。

在例如下列的文件中描述了可以用于实践本发明的实验方案，如Stemmer的美国专利5,605,793(1997.2.25)，“Methods for In Vitro Recombination”；Stemmer等的美国专利5,811,238(1998.9.22)“Methods for Generating Polynucleotides havingDesired Characteristics by Iterative Selection and Recombination”；Stemmer等的美国专利5,830,721(1998.11.3)，“DNA Mutagenesis by Random Fragmenntation andReassembly”；Stemmer等的美国专利5,834,252(1998.11.10)，“End-ComplementaryPolymerase Reaction”；Minshull等的美国专利5,837,458(1998.11.17)“Methods andCompositions for Cellular and Metabolic Engineering”；WO 95/22625，Stemmer和Crameri，“Mutagenesis by Random Fragmentation and Reassembly”；WO 96/33207，Stemmer和Lipschutz，“End Complementary Polymerase Chain Reaction”；WO97/20078，Stemmer和Crameri的“Methods for Generating Polynucleotides havingDesired Characteristics by Iterative Selection and Recombination”；WO 97/35966，Minshull和Stemmer，“Methods and Compositions for Cellular and MetabolicEngineerin”；WO 99/41402，Punnonen等，“Targeting of Genetic Vaccine Vectors”；WO 99/41383，Punnonen等，“Antigen Library Immunization”；WO 99/41369，Punnonen等，“Genetic Vaccine Vector Engineering”；WO 99/41368，Punnonen等，“Optimization of Immunomodulatory Properties of Genetic Vaccines”；EP 752008，Stemmer和Crameri，“DNA Mutagenesis by Random Fragmentation and Reassembly”；EP 0932670，Stemmer，“Evolving Cellular DNA Uptake by Recursive SequenceRecombination”；WO 99/23107，Stemmer等，“Modification of Virus Tropism andHost Range by Viral Genome Shuffling”；WO 99/21979，Apt等，“HumanPapillomavirus Vectors”；WO 98/31837，del Cardayre等，“Evolution of Whole Cellsand Organisms by Recursive Sequence Recombination”；WO 98/27230，Patten和Stemmer，“Methods and Compositions for Polypeptide Engineering”；WO 98/27230，Stemmer等，“Methods for Optimization of Gene Therapy by Recursive SequenceShuffling and Selection”；WO 00/00632，“Methods for Generating Highly DiverseLibraries”；WO 00/09679，“Methods for Obtaining in Vitro Recombined PolynucleotideSequence Banks and Resulting Sequences”；WO 98/42832，Arnold等，“Polynucleotide Sequences Using Random or Defined Primers”；WO 99/29902，Arnold等，“Method for Creating Polynucleotide and Polypeptide Sequences”；WO98/41653，Vind，“An in Vitro Method for Construction of a DNA Library”；WO98/41622，Borchert等，“Method for Constructing a Library Using DNA Shuffling”；以及WO 98/42727，Pati和Zarling，“Sequence Alterations using HomologousRecombination”。

在例如下列的文件中描述了可以用于实践本发明的方案(提供了关于产生不同多样性的方法的细节)，如美国专利申请系列号(USSN)09/407,800，Patten等的“SHUFFLING OF CODON ALTERED GENES”，于1999年9月28日归档；delCardayre等的“EVOLUTION OF WHOLE CELLS AND ORGANISMS BYRECURSIVE SEQUENCE RECOMBINATION”，美国专利6,379,964；Crameri等的“OLIGONUCLEOTIDE MEDIATED NUCLEIC ACID RECOMBINATION”，美国专利6,319,714；6,368,861；6,376,246；6,423,542；6,426,224和PCT/US00/01203；Welch等的“USE OF CODON-VARIED OLIGONUCLEOTIDE SYNTHESIS FORSYNTHETIC SHUFFLING”，美国专利6,436,675；Selifonov等的“METHODS FORMAKING CHARACTER STRINGS，POLYNUCLEOTIDES & POLYPEPTIDESHAVING DESIRED CHARACTERISTICS”，2000年1月18日归档，(PCT/US00/01202)和，如Selifonov等的“METHODS FOR MAKINGCHARACTER STRINGS，POLYNUCLEOTIDES & POLYPEPTIDES HAVINGDESIRED CHARACTERISTICS”，2000年7月18日归档，(美国系列号09/618,579)；Selifonov和Stemmer的“METHODS OF POPULATING DATASTRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS”，2000年1月18日归档(PCT/US00/01138)，和Affholter的“SINGLE-STRANDED NUCLEIC ACIDTEMPLATE-MEDIATED RECOMBINATION AND NUCLEIC ACID FRAGMENTISOLATION”，2000年9月6日归档(美国系列号09/656,549)，和美国专利6,177,263；6,153,410。

非随机或“定向进化”方法包括，例如饱和诱变(GSSM)、合成连接重装配(SLR)或其组合，它们被用于修饰本发明的核酸，以产生具有新的或改变的特性的蛋白酶(例如在高度酸性或碱性条件下的活性，在高温或低温的活性，等等)。由修饰的核酸编码的多肽可以在测试蛋白水解或其它活性之前被筛选活性。可以使用任何分析形式或实验方案，例如使用毛细管阵列平台。例如参见美国专利6,361,974；6,280,926；5,939,250。

饱和诱变或GSSM

一方面，含有简并N，N，G/T序列的密码子引物被用于将点突变引入多核苷酸中，例如蛋白酶或本发明的抗体，以便产生一组子代多肽，其中在每一氨基酸位置上可表现出完全范围的单氨基酸取代，取代发生的位置例如酶活性位点上的氨基酸残基，或将要被定向修饰的配体结合位点。这些寡核苷酸可以包括相邻的第一同源序列，简并N，N，G/T序列，和任选地第二同源序列。从使用这些寡核苷酸得到的下游子代翻译产物包含沿着多肽的每一氨基酸位点上的所有可能的氨基酸变化，这是由于N，N，G/T序列的简并性包括了所有20个氨基酸的密码子。一方面，一个这样的简并寡核苷酸(例如包括一个简并N，N，G/T序列盒)被用于使亲本多核苷酸模板中的每一原始密码子进行完全范围的密码子取代。另一方面，使用至少两个简并序列盒，或者在相同的寡核苷酸中或不同的寡核苷酸中，用于使亲本多核苷酸模板中的至少两个原始密码子进行完全范围的密码子取代。例如，一个寡核苷酸中可以包含多个N，N，G/T序列，以便在多于一个的位点上引入氨基酸突变。这些多个N，N，G/T序列可以直接相邻，或由一个或多个额外的核苷酸序列分隔开。另一方面，用于引入插入和删除的寡核苷酸可以单独使用，或者与含有N，N，G/T序列的密码子组合使用，以便引入氨基酸插入、删除和/或取代的任何排列组合。

一方面，两个或多个连续氨基酸位置的同时诱变是使用含有相邻N，N，G/T三联体的寡核苷酸进行的，即简并(N，N，G/T)_n序列。另一方面，使用与N，N，G/T序列相比具有较低简并性的简并序列盒。例如，在一些情况下可能期望使用仅包括一个N的简并三联体序列，其中所述的N可以在三联体的第一、第二或第三位置上。在三联体的剩余两个位置上，可以使用包括任意排列组合的任何其它碱基。可以选择地，在一些情况下可能期望使用简并N，N，N三联体序列。

一方面，使用简并三联体(例如N，N，G/T三联体)允许在多肽中的所有和每个氨基酸位置上系统且容易地产生完全范围的可能的自然氨基酸(总共20种氨基酸)(在可以选择的方面，这些方法也包括在每一氨基酸残基或密码子、位置产生低于所有可能种类的取代)。例如，对于100个氨基酸的多肽，可以产生2000个不同种类(即每个位置上的20种可能氨基酸×100个氨基酸位置)。通过使用含有简并N，N，G/T三联体的寡核苷酸或一组寡核苷酸，32种不同序列可编码所有20种可能的天然氨基酸。因此，在其中使用至少一种这样的寡核苷酸对亲本多核苷酸序列进行饱和诱变的反应容器中，产生了编码20种不同多肽的32种不同的子代多核苷酸。相反，在定点诱变中使用非简并寡核苷酸在每个反应容器中仅仅导致一种子代多肽。非简并寡核苷酸可以任选地与所公开的简并引物组合使用；例如，非简并寡核苷酸可以被用于在工作多核苷酸中产生特异性点突变。这提供了产生特异性沉默点突变、导致相应的氨基酸变化的点突变、以及导致产生终止密码子和多肽片段相应被表达的方法。

一方面，每一饱和诱变反应容器含有编码至少20种子代多肽(例如蛋白酶)分子的多核苷酸，这样所有的20种天然氨基酸都会出现在对应于亲本多聚核苷酸中被诱变的密码子位置的特定氨基酸位置(其它的例子使用了少于20个天然的组合)。从每一饱和诱变反应容器产生的32倍简并的子代多肽可以被克隆扩增(例如使用表达载体克隆到合适的宿主中，例如大肠杆菌宿主中)，并进行表达的筛选。当单个子代多肽通过筛选鉴定，显示出有利的特性变化时(当与亲本多肽相比时，如在碱性或酸性条件下增高的蛋白水解活性)，可以对其测序以鉴定其中所含的相应的有利氨基酸取代。

一方面，如在此所公开的，应用饱和诱变对亲本多肽的各个和所有的氨基酸位置进行诱变，确定出的有利的氨基酸变化可以在超过一个的氨基酸位置。可以产生一个或多个新的子代分子，其含有所有或部分这些有利的氨基酸取代的组合。例如，如果在多肽的3个氨基酸位置的每一个氨基酸位置处鉴定出2个特异性有利的氨基酸变化，那么出现的排列就包括每一位置上的3种可能性(与原始氨基酸没有变化的可能性，以及两个有利变化中的每一个的可能性)和3个位置。因此，总共有3×3×3或27种可能性，其中包括了先前被检验的7种可能性，即6个单点突变(即三个位置的每一个位置有2个)和在任何位置上没有变化的点突变。

另一方面，位点饱和诱变可以与另一种随机或非随机方法一起使用，以改变序列，这些方法例如合成连接重装配(参见下面)、重排、嵌合、重组和其它诱变方法和诱变剂。本发明提供了以反复的方式使用任何诱变方法，包括饱和诱变。

合成连接重装配(SLR)

本发明提供了非随机的基因修饰系统，命名为“合成连接重装配”或简单地称作“SLR”，这是一种“定向进化方法”，可以产生具有新的或改变的特性的多肽，例如本发明的蛋白酶或抗体。SLR是将寡核苷酸片段非随机地连接在一起的一种方法。该方法与随机寡核苷酸重排不同的地方在于，核酸构件(building blocks)没有被随意地重排、连接或嵌合，而是被非随机地装配。例如参见美国专利(USSN)09/332,835，题目为“Synthetic Ligation Reassembly in Directed Evolution”，于1999年6月14日提交(“USSN 09/332,835”)。一方面，SLR包括下述步骤：(a)提供模板多核苷酸，其中模板多核苷酸包含编码同源基因的序列；(b)提供多个构件多核苷酸，其中这些构件多核苷酸被设计成可在预定的序列处与模板多核苷酸交换重装配(cross-over reassemble)，所述构件多核苷酸包含一个作为同源基因变体的序列和一个与变体序列两侧的模板多核苷酸同源的序列；(c)将构件多核苷酸与模板多核苷酸组合在一起，以便构件多核苷酸与模板多核苷酸交换重装配，以产生包含同源基因序列变异体的多核苷酸。

SLR不依赖于将被重新排列的多核苷酸之间存在高度同源性。因此，该方法可以被用于非随机地产生包括超过10¹⁰⁰个不同嵌合体的子代分子的文库(或集合)。SLR可以被用于产生包括超过10¹⁰⁰⁰个不同子代嵌合体的文库。因此，本发明的一些方面包括产生一组最终嵌合的核酸分子的非随机方法，所述最终嵌合的核酸分子具有按设计所选择的整个装配次序。该方法包括按设计产生多个特异性核酸构件的步骤，以及装配这些核酸构件的步骤，这样可获得依设计而定的整个装配次序，所述的多个特异性核酸构件具有可被应用的互相相容的可连接末端。

将被装配的核酸构件的互相相容的可连接末端被认为对于这种类型的有序装配是“有用的”，如果它们能使这些构件以预定次序结合。因此，核酸构件可以被偶联的整个装配次序是由可连接末端的设计来确定。如果使用多于一个的装配步骤，那么核酸构件可被偶联的总装配次序也由装配步骤的连续次序来确定。一方面，用酶例如连接酶(例如T4 DNA连接酶)处理退火的结构片段，以实现结构片段的共价结合。

一方面，寡核苷酸构件的设计通过分析一组祖先核酸序列模板来获得，所述祖先核酸模板作为产生最终嵌合的多核苷酸的子代集合的基础。这些亲本寡核苷酸模板因此作为序列信息的来源，它们在将被诱变例如被嵌合或重排的核酸构件的设计中有用。在该方法的一个方面，多个亲本核酸模板的序列被联配，以便选择一个或多个分界点。这些分界点可以位于同源区域，由一个或多个核苷酸构成。这些分界点优选地由至少两个祖先模板共享。从而这些分界点可以被用于描绘将要产生的寡核苷酸构件的边界，以便重排列亲本多核苷酸。在祖先分子中鉴定和选择的分界点作为最终嵌合的子代分子的装配中的潜在嵌合点。分界点可以是由至少两个亲本多核苷酸序列分享的同源区域(包括至少一个同源性核苷酸碱基)。可以选择地，分界点可以是由至少一半的亲本多核苷酸序列分享的同源区域，或者可以是由至少三分之二的亲本多核苷酸序列分享的同源区域。甚至更优选地，有用的分界点是由至少四分之三的亲本多核苷酸序列分享的同源区域，或者可以是由几乎所有的亲本多核苷酸序列分享的同源区域。一方面，分界点是由所有亲本多核苷酸序列分享的同源区域。

一方面，连接再装配过程被彻底地进行，以便产生含有尽量可能多的子代嵌合多核苷酸的文库。换句话说，核酸构件的所有可能的有序组合都呈现在最终嵌合的核酸分子集合中。同时，另一方面，在每一组合中的装配次序(即各个最终嵌合核酸的5’到3序列中每一构件的装配次序)是如上所述地遵循预先的设计(或非随机地)。由于本发明的非随机特性，大大地降低了不需要的副产品的可能性。

另一方面，连接再装配方法被系统地进行。例如，实施该方法，以便产生子代分子的系统区分化的文库，该文库分成能被系统地筛选的数个部分，例如可以逐个地筛选。换句话说，通过选择性的和审慎的应用特定的核酸构件，再加上选择性的和审慎的应用连续的分步骤的装配反应，本发明使得这样一种设计可以实现，即可以在各个反应容器中制备出各自特定的一系列子代产物。这样的设计允许进行系统的检查和筛选。因此，这些方法允许很可能非常大量的子代分子以更小的组被系统地检查。由于其具有以高度变通而又彻底和系统的方式进行嵌合化反应的能力，尤其是当祖先分子之间具有低水平的同源性时，这些方法可以产生包含大量子代分子的文库(或集合)。由于本发明的连接再装配的非随机特性，所产生的子代分子优选地包含有最终嵌合核酸分子的文库，这些核酸分子具有按设计而选择的总装配次序。饱和诱变和优化的定向进化方法也可以被用于产生不同的子代分子种类。应该意识到，本发明在分界点的选择、核酸构件的大小和数量以及偶联的大小和设计方面提供了选择的自由度和可控制性。进一步，应该意识到，就本发明的可操作性而言，对分子间同源性的要求大大地放宽了。事实上，甚至可以在有很少的分子间同源性或没有分子间同源性的区域内选择分界点。例如，由于密码子的摆动，即密码子的简并性，可以将核苷酸取代引入核酸构件，同时又不会改变在相应的祖先模板中最初编码的氨基酸。可以选择地，可以改变密码子，从而改变对原始氨基酸的编码。在本发明中，这样的取代可以被引入到核酸构件中，以便增加分子间同源分界点的发生率，从而使得在构件之间可获得的偶联的数量增加，而这又允许产生更多数量的子代嵌合分子。

另一方面，产生构件的步骤的合成属性允许设计和引入核苷酸(例如一个或多个核苷酸，例如可以是密码子或内含子或调控序列)，这些核苷酸随后可以在体外过程中(例如通过诱变)或者在体内过程中(例如通过利用宿主生物体的基因剪接能力)被任选地去除。应该意识到，在许多情况下，除了产生有用的分界点的好处之外，还有许多其它原因也使得可能期望引入这些核苷酸。

一方面，应用核酸构件引入内含子。这样，根据此处描述的方法将功能性内含子引入到所制造的人造基因中。人工引入的内含子可以在宿主细胞的基因剪接中发挥作用，其发挥作用的方式与天然发生的内含子在基因剪接中发挥作用的方式在很大程度上是相同的。

优化的定向进化系统

本发明提供了一种非随机的基因修改系统，命名为“优化的定向进化系统”，其可以用来生产具有新的或者改变的性质的多肽，如本发明的蛋白酶或者抗体。优化的定向进化涉及还原性重配(reductive reassortment)、重组和选择的重复循环应用，其使得可以通过重组实现核酸的定向分子进化。优化的定向进化允许产生大量的进化出的嵌合序列，其中产生的群体显著地富集了具有预定数目遗传交换事件(crossover events)的序列。

遗传交换事件是在嵌合序列中的一个点，在这里，从一个亲本变异体到另一个亲本变异体的序列转换发生。这样的点一般在来自两个亲本的寡聚核苷酸连接在一起形成单个序列的连接处。这一方法允许计算寡聚核苷酸序列的正确浓度，这样，序列的最终嵌合群体富集了选定数目的遗传交换事件。这也提供了对选择具有预定数目的遗传交换事件的嵌合突变体的更多控制。

此外，这一方法与其他系统相比，提供了一种用于探究大数量的可能蛋白变异体的方便手段。以前，例如，如果在反应中产生了10¹³个嵌合分子，测试这样大数目的嵌合突变体的特定活性将会非常困难。此外，子代群体的相当部分将具有很高数目的遗传交换事件，其中得到的蛋白不大可能具有增高水平的特定活性。通过应用这些方法，嵌合分子的群体可以富集那些含有特定数目的遗传交换事件的变异体。因此，尽管在反应中可以仍然产生10¹³嵌合分子，但是所选择的用于进一步分析的每一个分子很可能具有，例如，仅仅三个遗传学交换事件。因为得到的子代群体可以(在统计学上)偏向于具有预定数目的遗传交换事件，所以嵌合分子之间的功能多样性的范围缩少了。当要计算在最初的亲本多聚核苷酸中的哪一个可能影响到特定的性质时，便提供了更加可控数目的变量。

产生嵌合子代多聚核苷酸序列的一个方法是产生对应于每一个亲本序列的片段或者部分的寡聚核苷酸。每一个寡聚核苷酸优选地包括重叠的独特区域，这样把所述寡聚核苷酸混合，得到具有以正确顺序装配的寡聚核苷酸片段的新的变异体。也可以发现另外的一些信息，如，在USSN 09/332,835；美国专利6,361,974中。

对应于每一个亲本变异体产生的寡聚核苷酸数目与在最终产生的嵌合分子中得到的遗传学交换的总的数目具有一定的关系。例如，为了发现具有如在高温下的更高活性的嵌合变异体，可以提供三个亲本核苷酸序列变异体来进行连接反应。作为一个例子，对应于每一个亲本变异体的每一部分可以产生总共50个寡聚核苷酸序列。相应地，在连接再装配过程中，在每一个嵌合序列中就有可能有多达50个交换事件。产生的每一个嵌合多核苷酸都以交替的顺序含有来自各个亲本变异体的寡聚核苷酸的可能性很低。如果每一个寡聚核苷酸片段以同样的摩尔量存在于连接反应中，有可能在一些位置上来自同一亲本多核苷酸的寡核苷酸将与相邻的彼此连接，而不导致遗传交换事件。如果在这一例子的任何连接步骤中，来自每一个亲本的每一种寡聚核苷酸的浓度都保持不变，那么将会有三分之一的机会(假定3个亲本)来自同一个亲本变异体的寡核苷酸连接于嵌合序列内而不产生遗传交换。

因此，可以确定概率密度函数(PDF)，预测在一个连接反应的每一步中可能发生的遗传交换事件的总数，其中给定了一套具有确定数目的亲本变异体、对应于每种变体的寡聚核苷酸、以及在连接反应的每个步骤中的每种变异体的浓度。在确定PDF中应用到的统计学和数学在下面被描述。通过应用这些方法，可以计算这样的概率密度函数，而且这样就富集了来源于特定连接反应的具有预定数目的遗传交换事件的嵌合子代群体。此外，可以预先确定遗传交换事件的目标数目，然后对该系统进行程序化，以计算在该连接反应的每一个步骤中，每种亲本寡聚核苷酸的起始量，从而得到以遗传交换事件的预先确定的数目为中心的概率密度函数。这些方法涉及还原性重配、重组和选择的重复循环应用，通过重组实现编码多肽的核酸的定向分子进化。该系统允许产生大量的进化出的嵌合序列，其中产生的群体显著地富集了具有预定数目遗传交换事件的序列。遗传交换事件是在嵌合序列中的一个点，在这里，从一个亲本变异体到另一个亲本变异体的序列转换发生。这样的点一般是在两个亲本的寡聚核苷酸连接在一起形成单个序列的连接处。这一方法允许计算寡聚核苷酸序列的正确浓度，这样，序列的最终嵌合群体富集了选定数目的遗传交换事件。这也提供了对选择具有预定数目的遗传交换事件的嵌合突变体的更多控制。

此外，这些方法与其他系统相比，提供了一种用于探究大数量的可能蛋白变异体的方便手段。通过应用在这里描述的方法，嵌合分子的群体可以富集那些含有特定数目的遗传交换事件的变异体。因此，尽管在反应中可以仍然产生10¹3个嵌合分子，但是所选择的用于进一步分析的每一个分子很可能具有，例如，仅仅三个遗传学交换事件。因为得到的子代群体可以倾向于具有预定数目的遗传交换事件，所以造成嵌合分子之间的功能多样性的界线减少。当计算出在最初的亲本多聚核苷酸中的哪一个可能影响到特定的性质时，便提供了更加可控制的变量。

一方面，该方法通过产生对应于每一个亲本序列的片段或者部分的寡聚核苷酸，产生嵌合子代多核苷酸序列。每一个寡核苷酸优选地包括重叠的独特区域，这样把所述寡聚核苷酸混合，得到具有以正确顺序装配的寡核苷酸片段的新的变异体。也可参见USSN09/332,835。

确定交换事件

本发明包括系统和软件，它们以所需的遗传交换的概率密度函数(PDF)、待再装配的亲本基因的数目以及在再装配中的片段数目作为输入量。该程序输出“片段PDF”，它可以用于确定用于获得重新装配的基因和那些基因的估计的遗传交换PDF的具体方法。在此说明的过程优选地在MATLAB^TM中进行(The Mathworks，Natick，Massachusetts)，MATLAB^TM是一种用于技术计算的程序语言和开发环境。

迭代处理

在本发明的实践中，这些过程可以被迭代重复。例如，鉴定出具有改变的或者新的蛋白酶表型的核酸，再分离，再修饰，再测试活性。这一过程可以重复直到得到所需的表型。例如，完整的生物化学合成代谢或分解代谢途径可以被通过基因工程设计到细胞中，例如包括环氧化物水解活性的细胞。

类似地，如果确定了某特定寡核苷酸对于所期望的特性(例如新的蛋白酶表型)不会造成任何影响，则可以合成包括这段序列在内的更大的亲本寡核苷酸，从而将这段序列从变量中除去。由于将这段序列合并到更大的序列中，可以避免任何遗传交换事件，所以在子代多聚核苷酸中，这一序列不再有任何变异。确定哪些寡核苷酸与所需的性质最有关系，以及哪些与所需的性质无关的重复实践可以更有效地探寻所有可能的具有特定性质或者活性的蛋白变异体。

体内重排

分子的体内重排在本发明的方法中使用，提供本发明的多肽的变体，例如抗体、蛋白酶以及类似物。体内重排可以利用细胞重组多聚体的天然特性进行。尽管体内重组是提供分子多样性的主要天然途径，但遗传重组仍然是一种相对复杂的过程，该过程涉及1)同源性识别；2)链切割，链侵入，和导致产生重组交叉(recombination chiasma)的代谢步骤；和最后3)交叉消除，得到分离的重组分子。交叉的形成需要同源序列的识别。

一方面，本发明提供了一种方法，用于由至少第一多核苷酸(例如本发明的蛋白酶)和第二多核苷酸(例如酶，如本发明的蛋白酶或任何其它蛋白酶、或标记物或抗原决定基)获得杂合多核苷酸。本发明也用于产生杂合多核苷酸，通过将共享至少一个部分地序列同源的区域的至少第一多核苷酸和第二多核苷酸引入到合适的宿主细胞中实现。部分序列同源的区域促进了导致产生杂合多核苷酸的序列再组织过程。正如此处所用，术语“杂合多核苷酸”是从本发明的方法产生的任何核苷酸序列，其含有来自至少两个原始多核苷酸序列的序列。这样的杂合多核苷酸可以来自可促进DNA分子间序列整合的分子间重组事件。此外，这样的杂合多核苷酸可以来自于分子内还原重配过程，该过程利用重复序列来改变DNA分子内的核苷酸序列。

产生序列变异体

本发明也提供了用于产生本发明核酸(例如蛋白酶)序列的序列变异体的其它方法。本发明也提供了使用本发明的核酸和多肽分离蛋白酶的其它方法。一方面，本发明提供了本发明的蛋白酶编码序列(例如基因、cDNA或信息)的变异体，这些变异体可以通过任何方法来产生，如上所描述，例如包括随意或随机方法、或非随机或“定向进化”方法。

被分离的变异体可以是天然发生的。变异体也可以在体外产生。变异体也可以应用基因工程技术来产生，如定点诱变、随机的化学诱变、核酸外切酶III缺失方法和标准的克隆技术。可选择地，可以应用化学合成或者修饰方法来产生这样的变异体、片段、类似物或者衍生物。本领域技术人员也熟悉制备变异体的其它方法。这些方法包括这样的程序，其中，从天然分离物中获得的核酸序列经过修饰而产生编码具有某些特征的多肽的核酸，所述的特征使这些多肽在工业或者实验室应用中具有更高的价值。在这样的程序中，大量的变异体序列被获得和表征，这些变异体序列与从天然分离物中得到的序列相比，有一个或者多个核苷酸的差异。这些核苷酸的差异可能引起相对于天然分离得到的核酸序列编码的多肽的氨基酸变化。

例如，变异体可以通过易错PCR产生。在易错PCR中，PCR在DNA聚合酶的复制保真性较低的情况下进行，这样便在全长的PCR产物中得到较高的点突变率。易错PCR在例如，Leung，D.W.，等，Technique，1：11～15，1989和Caldwell，R.C.和Joyce G.F.，PCR Methods Applic.，2：28-33，1992中描述。简要地说，在这样的程序中，待诱变的核酸与PCR引物、反应缓冲液、MgCl₂、MnCl₂、Taq聚合酶以及适当浓度的dNTP混合，在全长的PCR产物中得到高的点突变率。例如，反应可以使用20fmol待诱变的核酸进行，每种PCR引物30pmol，反应缓冲液包括50mMKCl、10mM Tris HCl(pH8.3)和0.01％明胶、7mM的MgCl₂、0.5mM MnCl₂、5units的Taq聚合酶、0.2mM dGTP、0.2mM dATP、1mM dCTP和1mM dTTP。PCR可以进行30个循环，每个循环为94℃ 1分钟；45℃ 1分钟；和72℃ 1分钟。然而，应该意识到，这些参数可以适当地变化。诱变的核酸克隆到一个适当的载体，并评价由诱变核酸编码的多肽的活性。

变异体也可以用寡核苷酸诱导的定向突变产生，在任何感兴趣的克隆DNA中产生位点特异性的突变。寡核苷酸诱变在，例如，Reidhaar-Olson(1988)Science241：53-57中描述。简要地说，在这样的程序中，合成多个具有将要被导入被克隆的DNA中的一个或多个突变的双链寡聚核苷酸，将这些寡聚核苷酸插入到待诱变的克隆DNA中。回收含有诱变DNA的克隆，并评估它们编码的多肽的活性。

另一种产生变异体的方法是装配PCR。装配PCR涉及由小DNA片段的混合物来装配PCR产物。大量不同的PCR反应在相同的容器中平行地发生，一个反应的产物引发另一个反应的产物。装配PCR已经被描述，例如在美国专利5,965,408中。

另一种产生变异体的方法是有性PCR诱变。在有性PCR诱变中，由于基于序列同源性的DNA分子随机片段化，在不同的但是高度相关的DNA序列的DNA分子之间，在体外强行发生同源重组，然后通过PCR反应的引物延伸，遗传交换得到固定。有性PCR诱变在，例如，Stemmer(1994)Proc.Natl.Asad.Sci.USA 91：10747-10751中描述。简要地说，在这样的程序中，多个待重组的核酸用DNase消化，产生具有50到200个核苷酸的平均大小的片段。纯化具有所需的平均大小的片段，重悬于PCR混合物中。在有利于核酸片段重组的条件下进行PCR反应。例如，PCR可以这样进行：将纯化的片段重悬于含有0.2mM的各种dNTP、2.2mMMgCl₂、50mM KCl、10mM的Tris-HCl，pH9.0以及0.1％的Triton X-100的溶液中，其浓度为10-30ng/μl。以100：1的比例在反应混合物中加入2.5Units的Taq聚合酶，用以下的条件进行PCR：94℃ 60秒，94℃ 30秒，50-55℃ 30秒，72℃ 30秒(30-45次)，然后72℃进行5分钟。然而，可以意识到，这些参数可以进行适当的变化。在一些方面，寡聚核苷酸可以被包括在该PCR反应中。在其它方面，DNA聚合酶I的Klenow片段可以用于第一轮PCR反应，而Taq聚合酶可以用于后续的PCR反应。重组序列被分离，并评估它们编码的多肽的活性。

变异体也可以通过体内诱变产生。在一些方面，感兴趣的序列中的随机突变通过在细菌菌株中增殖该感兴趣的序列而产生，所述细菌菌株例如在一个或者多个DNA修复途径中具有突变的大肠杆菌菌株。这样的“突变”菌株具有比野生型亲本更高的随机突变率。在一种这样的菌株中进行DNA的繁殖，最终可产生DNA中的随机突变。适于在体内诱变中应用的突变菌株在，例如，PCT公开号WO91/16427中有描述。

变异体也可以通过应用盒式诱变产生。在盒式诱变中，双链DNA分子的一个小的区域被不同于天然序列的合成的寡核苷酸“盒子”替代。所述寡核苷酸一般含有完全和/或部分随机的天然序列。

递归整体诱变也可以用于产生变异体。递归整体诱变是一种用于蛋白质工程(蛋白诱变)的算法，它的开发是为了产生表型相关的突变体组成的多样性群体，其成员在氨基酸序列上有所不同。该方法应用反馈机制来控制连续多轮的组合式盒式诱变。递归整体诱变在如Aikin(1992)Proc.Natl.Acad.Sci.USA 89：7811-7815中有描述。

在一些方面，用指数整体诱变产生变异体。指数整体诱变是一个用于产生具有较高百分比的独特且具功能性的突变体的组合文库的过程，其中部分的残基被随机化，同时在每一个被改变的位置确认导致功能性蛋白的氨基酸。指数整体诱变在如，Delegrave(1993)Biotechnology Res.11：1548-1552中有描述。随机和定点诱变在如，Amold(1993)Current Opinion in Biotechnology 4：450-455中有描述。

在一些方面，变异体利用重排方法产生，其中编码不同的多肽的多个核酸的部分被融合在一起，产生编码嵌合多肽的嵌合核酸序列，其描述见美国专利5,965,408；5,939,250(也参见上面的讨论)。

本发明也提供了本发明的多肽(例如蛋白酶)的变异体，其包括这样的序列，其中一个或多个氨基酸残基(例如本发明的示例性多肽的一个或多个氨基酸残基)被保守或非保守氨基酸残基(例如保守氨基酸残基)取代，这样取代的氨基酸残基可以是由遗传密码编码或不被其编码的氨基酸。保守取代是那些在多肽中一个给定的氨基酸被另一个具有类似特性的氨基酸取代的取代。因此，本发明的多肽包括那些具有本发明的序列的保守取代的多肽，所述本发明的序列例如本发明的示例性多肽，所述取代包括但不限于下述取代：脂肪族氨基酸如丙氨酸、缬氨酸、亮氨酸和异亮氨酸用另一个脂肪族氨基酸取代；丝氨酸用苏氨酸取代，或苏氨酸用丝氨酸取代；酸性残基如天冬氨酸和谷氨酸用另一个酸性残基取代；具有酰胺基因的残基，如天冬酰胺和谷氨酰胺用另一个具有酰胺基因的残基取代；碱性残基如赖氨酸和精氨酸用另一个碱性残基来交换；芳香族残基如苯丙氨酸、酪氨酸用另一个芳香族残基取代。其它变异体是那些在本发明的多肽的一个或多个氨基酸残基中包含有取代基团的变异体。

本发明范围内的其它变异体是那些在其中多肽与别的化合物联接的变异体，如增加多肽的半衰期的化合物，例如聚乙二醇。

本发明范围内的其它变异体是那些在其中额外的氨基酸被融合到多肽上的变异体，额外的氨基酸例如前导序列、分泌序列、蛋白原序列(proprotein sequence)或有助于多肽的纯化、富集或稳定的序列。

在一些方面，本发明的多肽的变异体、片段、衍生物和类似物保持了与示例性多肽相同的生物功能或活性，例如此处描述的蛋白酶活性。在其它方面，变异体、片段、衍生物或类似物包括蛋白原，这样，变异体、片段、衍生物或类似物可以通过蛋白原部分的割裂来激活，以产生活性多肽。

优化密码子以便在宿主细胞中获得高水平的蛋白表达

本发明提供了修饰编码蛋白酶的核酸来改变密码子使用的方法。一方面，本发明提供了修饰编码蛋白酶的核酸中的密码子来增加或者降低其在宿主细胞中的表达的方法。本发明也提供了编码蛋白酶的核酸，该核酸经过修饰从而其在宿主细胞中的表达增加，还提供了经过这样的修饰的蛋白酶，和制备修饰的蛋白酶的方法。该方法包括鉴定编码蛋白酶的核酸中的“非优选的”或“较不优选的”密码子，并且用编码同样氨基酸的“优选密码子”作为替换密码子替换一个或者多个这样的非优选或者较不优选的密码子，并且在所述核酸中至少一个非优选或较不优选的密码子被编码相同氨基酸的优选密码子替换。优选密码子是在宿主细胞基因的编码序列中被优选使用的密码子，而不优选的或者较不优选的密码子是指在宿主细胞基因的编码序列中较少使用的密码子。

用于表达本发明的核酸、表达序列盒以及载体的宿主细胞包括细菌、酵母、真菌、植物细胞、昆虫细胞和哺乳动物细胞。因此，本发明提供了在所有这些细胞中优化密码子使用的方法、密码子被改变的核酸，以及由所述的密码子被改变的核酸编码的多肽。典型的宿主细胞包括革兰氏阴性细菌，如大肠杆菌(Escherichiacoli)和荧光假单胞菌(Pseudomonas fluorescens)；革兰氏阳性细菌，如链霉菌(Streptomyces diversa)、加氏乳酸杆菌(Lactobacillus gasseri)、乳酸乳球菌(Lactococcus lactis)、乳脂乳球菌(Lactococcus cremoris)、枯草芽胞杆菌(Bacillussubtilis)。示范性的宿主细胞也包括真核生物体，如，各种酵母，如酵母菌属(Saccharomyces sp.)，包括酿酒酵母(Saccharomyces cerevisiae)、粟酒裂殖酵母(Schizosaccharomyces pombe)、毕赤酵母(Pichia pastoris)和乳酸克鲁维酵母(Kluyveromyces lactis)、多形汉森酵母(Hansenula polymorpha)、黑曲霉(Aspergillusniger)和哺乳动物细胞和细胞系以及昆虫细胞和细胞系。因此，本发明也包括在这些生物体和物种中表达被优化的核酸和多肽。

例如，从细菌细胞中分离出的编码蛋白酶的核酸的密码子被修饰，以便该核酸在不同于获得该蛋白酶的细菌的细胞，如酵母、真菌、植物细胞、昆虫细胞或者哺乳动物细胞中被最优化地表达。优化密码子的方法在本领域是已知的，参见如，美国专利5,795,737；Baca(2000)Int.J.Parasitol.30：113-118；Hale(1998)Protein Expr.Purif.12：185-188；Narum(2001)Inect.Immun.69：7250-7253。也参见Narum(2001)Infect.Immun.69：7250-7253，描述了在鼠系统中优化密码子；Outchkourov(2002)Protein Expr.Purif.24：18-24，描述了在酵母中优化密码子；Feng(2000)Biochemistry 39：15399-15409，描述了在大肠杆菌中优化密码子；Humphreys(2000)Protein Expr.Purif 20：252-264，描述了大肠杆菌中影响分泌的优化的密码子使用。

转基因非人类动物

本发明提供了转基因非人动物，其包含本发明的核酸、多肽(例如蛋白酶)、表达序列盒或载体或转染细胞或转化细胞。本发明也提供了产生和应用这些转基因非人动物的方法。

转基因非人类动物可以是，例如包含本发明的核酸的山羊、兔、绵羊、猪、牛、小鼠和大鼠。这些动物可以用作例如体内模型来研究蛋白酶活性，或者作为模型来在体内筛选改变蛋白酶活性的试剂。要在转基因非人动物中表达的多肽的编码序列可以设计为组成型的，或者在组织特异性、发育特异性或者可诱导的转录调控因子的控制之下。转基因非人类动物可以应用本领域任何已知的方法设计和产生；参见，如，美国专利6,211,428；6,187,992；6,156,952；6,118,044；6,111,166；6,107,541；5,959,171；5,922,854；5,892,070；5,880,327；5,891,698；5,639,940；5,573,933；5,387,742；5,087,571，它们描述了制造和应用转化的细胞和卵以及转基因大鼠、小鼠、兔、羊、猪和牛。也参见，如，Pollock(1999)J.Immunol.Methods231：147-157，描述了在转基因奶牛动物的乳汁中生产重组蛋白；Baguisi(1999)Nat.Biotechnol.17：456-461，描述了转基因山羊的产生。美国专利6,211,428，描述了制备和应用在其脑中表达含有DNA序列的核酸构建物的转基因非人哺乳动物。美国专利5,387,742，描述了把克隆的重组子或者合成的DNA序列注射至鼠受精卵中，移植注射的卵至假孕的雌鼠中，并生长成为转基因鼠，它的细胞表达与阿尔茨海默氏病的病理相关的蛋白。美国专利6,187,992，描述了制备和应用转基因鼠，它的基因组包含编码淀粉样蛋白原(APP)的基因的破坏。

“基因敲除动物”也可以被用于实践本发明的方法。例如，一方面，本发明的转基因或修饰动物包括“基因敲除动物”，例如“基因敲除小鼠”，其被进行了遗传工程以至于不表达内源基因，该基因被表达本发明蛋白酶或包含有本发明蛋白酶的融合蛋白的基因代替。

转基因植物和种子

本发明提供了转基因植物和种子，其包含本发明的核酸、多肽(例如蛋白酶)、表达序列盒或载体或转染或转化的细胞。本发明也提供了包含本发明的核酸和/或多肽(例如蛋白酶)的植物产物，例如油、种子、叶、提取物和类似物。转基因植物可以是双子叶(双子叶植物)或单子叶的(单子叶植物)。本发明也提供了制备和应用这些转基因植物和种子的方法。表达本发明的多肽的转基因植物或者植物细胞可以按照本领域任何已知的方法构建。参见例如，美国专利6,309,872。

本发明的核酸和表达构建物可以通过任何方式导入到植物细胞中。例如，核酸或者表达构建物可以导入到所希望的植物宿主的基因组中，或者，核酸或表达构建物可以是附加体。可以导入到所希望的植物的基因组中，这样宿主的蛋白酶的产生被内源性的转录或者翻译控制元件调控。本发明也提供了“基因敲除植物”，其中例如同源重组导致的基因序列插入破坏了内源性基因的表达。产生“基因敲除”植物的方法在本领域是已知的，参见，如，Strepp(1998)Proc Natl.Acad.Sci.USA 95：4368-4373；Miao(1995)Plant J 7：359-365。参见下面的转基因植物的讨论。

本发明的核酸可以用来将所需的性质赋予基本上任何植物，例如产淀粉的植物，如马铃薯、小麦、稻米、大麦以及类似的植物。本发明的核酸可以用于操作植物的代谢途径，以优化或者改变宿主的蛋白酶的表达。本发明的蛋白酶可以在转基因植物的生产中被应用，以产生该植物不能天然产生的化合物。这可以降低生产成本或者产生一种新的产物。

一方面，生产转基因植物的第一步涉及制备用于在植物细胞中表达的表达构建物。这些技术在本领域是熟知的。它们可以包括选择和克隆启动子、便于核糖体有效结合mRNA的编码序列，以及选择适当的基因终止序列。一个典型的组成型启动子是来自花椰菜花叶病毒的CaMV35S，它一般在植物中导致高水平的表达。其它的启动子是更特异的，并且对植物的内部或者外部环境中的暗示有反应。一个典型的光诱导的启动子是来自编码主要叶绿素a/b结合蛋白的cab基因的启动子。

一方面，修饰核酸来实现在植物细胞中更强的表达。例如，本发明的序列很可能具有比在植物中更高的A-T核苷酸对百分率，而一些植物优选G-C核苷酸对。因此，编码序列中的A-T核苷酸可以用G-C核苷酸取代，而不显著改变氨基酸序列，从而可以增加基因产物在植物细胞中的生产。

为了鉴定已经成功整合了转移基因的植物细胞或者组织，可以将选择性标记基因加入到基因构建物中。这可能是必要的，因为在植物细胞中完成基因的整合和表达是一个小概率事件，仅仅在较少百分率的靶组织和细胞中发生。选择性标记基因编码对试剂有抗性的蛋白，所述试剂一般对植物有毒性，如抗生素或者除草剂。当在含有适当的抗生素或者除草剂的培养基上生长时，只有已经整合了选择性标记基因的植物细胞可以成活。与其它的插入基因一样，为了有恰当的功能，标记基因也需要启动子和终止序列。

一方面，制备转基因植物或种子包括将本发明的序列以及可选择的标记基因整合到目标表达构建物(如，质粒)中，同时设置启动子和终止序列。这可以包括通过合适的方法将修饰的基因转移至植物中。例如，构建物可以应用如电击转化和微注射植物细胞原生质体的技术直接引入到植物细胞的基因组DNA中，或者构建物可以应用弹道方法(ballistic methods)，如，DNA微粒轰击(DNA particlebombardment)的方法直接引入到植物组织中。例如，参见如，Christou(1997)Plant Mol.Biol.35：197-203；Pawlowski(1996)Mol.Biotechnol.6：17-30；Klein(1987)Nature 327：70-73；Talcumi(1997)Genes Genet.Syst.72：63-69，讨论了应用微粒轰击引入转基因到小麦中；Adam(1997)如上，应用微粒轰击引入YAC至植物细胞中。例如，Rinehart(1997)如上，用微粒轰击来产生转基因棉花植物。用于加速微粒的设备在美国专利5,015,580中有说明；而且，可以买到BioRad(Biolistics)PDS-2000微粒加速设备；也参见，John，美国专利5,608,148；和Ellis，美国专利5,681,730，描述了微粒介导的裸子植物的转化。

一方面，原生质体可以被固定，并用核酸例如表达构建物注射。尽管源自原生质体的植物再生对于谷类并不容易，但是应用体细胞胚胎发生由原生质体来源的愈伤组织进行植物再生在豆类中是有可能的。机化组织可以使用基因枪技术用裸DNA转化，其中的DNA被包裹于钨微射弹(tungsten microprojectiles)上，射出物的大小为细胞大小的1/100，它携带DNA深入到细胞和细胞器中。转化的组织然后被诱导再生，一般通过体细胞胚胎发生技术。这一技术已经在包括玉米和水稻的几个谷类物种中成功应用。

核酸，例如表达构建物也可以应用重组病毒引入到植物细胞中。植物细胞可以用病毒载体转化，如，烟草花叶病毒衍生的载体(Rouwendal(1997)Plant Mol.Biol.33：989-999)，参见Porta(1996)“Use of viral replicons for the expression ofgenes in plants”，Mol.Biotechnol.5：209-221。

可选择地，核酸，如表达构建物，可以与合适的T-DNA旁侧区域组合，并导入到传统的根瘤农杆菌宿主载体中。根瘤农杆菌宿主的毒力功能将在植物细胞受该细菌感染时，引导构建物和邻近的标记插入至植物细胞DNA中。根瘤农杆菌介导的转化技术，包括disarming和二元载体的应用，在科学文献中有详细的说明。参见，如，Horsch(1984)Science 233：496-498；Fraley(1983)Proc.Natl.Acad.Sci.USA 80：4803(1983)；Gene Transfer to Plants，Potrykus，ed.(Springer-Verlag，Berlin1995)。根瘤农杆菌细胞的DNA被包含在细菌染色体中，也被包含在称为Ti(肿瘤诱导)质粒的另一种结构中。Ti质粒含有一段命名为T-DNA的DNA(～20kb长)和一系列毒力(virulence)基因，T-DNA在感染过程中被转移到植物细胞中，毒力基因则引导所述感染过程。根瘤农杆菌可以通过伤口感染植物：当一种植物的根或者茎受伤时，它释放某种化学信号，作为对这种信号的响应，根瘤农杆菌的毒力基因被激活，并引发一系列从Ti质粒转移T-DNA至植物染色体所必需的事件。T-DNA然后通过伤口进入到植物细胞。一个推测是T-DNA一直等到植物DNA复制或者转录，然后将自身插入到暴露的植物DNA中。为了应用根瘤农杆菌作为转基因载体，必须去除T-DNA的肿瘤诱导部分，而保留T-DNA的边界区域和毒力基因。转基因然后插入到T-DNA的边界区域之间，从这里转移到植物细胞并且整合到植物的染色体中。

本发明提供了应用本发明的核酸进行包括重要的谷类植物在内的单子叶植物的转化，参见Hiei(1997)Plant Mol.Biol.35：205-218。也参见如，Horsch，Science(1984)233：496；Fraley(1983)Proc.Natl Acad.Sci USA 80：4803；Thykjaer(1997)如上；Park(1996)Plant Mol.Biol.32：1135-1148，讨论了将T-DNA整合到基因组DNA中。也参见D′Halluin，美国专利5,712,135，描述了包含在谷类或者其它单子叶植物的细胞中的具有功能的基因的DNA的稳定整合过程。

一方面，第三步可能涉及完整植物的选择和再生，所述植物能够将整合的靶基因传递至下一代。这样的再生技术依赖于在组织培养生长培养基中对某些植物激素的操作，典型地，依赖于与所需的核苷酸序列一同引入的杀虫剂和/或除草剂标记。源自培养的原生质体的植物再生在以下文献中有说明，Evans等，Protoplastslsolation and Culture，Handbook of Plant Cell Culture，124-176页，MacMillilanPublishing Company，New York，1983；和Binding，Regeneration of Plants，PlantProtoplasts，21-73页，CRC Press，Boca Raton，1985。再生也可以从植物愈伤组织、外植体、器官或者其中的一部分得到。这样的再生技术在Klee(1987)Ann.Rev.ofplant Phys.38：467-486中有总体的说明。为了从转基因组织如未成熟的胚胎获得整个植物，它们可以在一系列含有营养物和激素的培养基中在可控制的环境条件下培养，即称为组织培养的过程。一旦整个植物再生并且产生种子，便开始评测其子代。

在表达序列盒稳定地整入到转基因植物之后，其可以通过有性杂交(sexualcrossing)引入到其它的植物中。可以应用任何的标准繁殖技术，这依赖于待杂交的物种。因为本发明核酸的转基因表达导致表型变化，包含本发明的重组核酸的植物可以和另一植物有性杂交而得到最终产物。因此，本发明的种子可以来自本发明的两个转基因植物的杂交，或者来自本发明的植物和其它植物的杂交。当两个亲本植物都表达本发明的多肽(如，蛋白酶)时，所需的效应(例如，表达本发明的多肽来产生一种开花行为被改变的植物)可以被增强。所需的效应通过标准的繁殖方法传到以后的植物世代中。

本发明的核酸和多肽被表达于或者插入到任何植物或者种子中。本发明的转基因植物可以是双子叶植物或者单子叶植物。本发明的单子叶转基因植物的例子是草，如牧草(蓝草，早熟禾属Poa)，饲料草如羊茅属，黑麦草属，温带草，如翦股颖属(Agrostis)，和谷类，如，小麦、燕麦、黑麦、大麦、水稻、蜀黍和玉米(corn)。本发明的双子叶转基因植物的例子是烟草，豆类，如羽扇豆，马铃薯，甜菜，豌豆，蚕豆和大豆，以及十字花科植物(Brassicaceae)，如花椰菜，油菜籽，和紧密相关的模式生物拟南芥(Arabidopsis thaliana)。这样，本发明的转基因植物和种子包括很宽范围的植物，包括，但不限于，以下属的物种：腰果属(Anacardium)、落花生属(Arachis)、天冬属(Asparagus)、茄属(Atropa)、燕麦属(Avena)、芸苔属(Brassica)、柑桔属(Citrus)、Citrullus、辣椒属(Capsicum)、Carthamus、椰子(Cocos)、咖啡(Coffea)、香瓜属(Cucumis)、南瓜属(Cucurbita)、Daucus、Elaeis、Fragaria、大豆属(Glycine)、棉属(Gossypium)、向日葵属(Helianthus)、Heterocallis、大麦属(Hordeum)、天仙子属(Hyoscyamus)、莴苣属(Lactuca)、亚麻属(Linum)、黑麦草属(Lolium)、羽扇豆属(Lupinus)、番茄属(Lycopersicon)、苹果属(Malus)、木薯属(Manihot)、Majorana、苜蓿属(Medicago)、烟草属(Nicotiana)、Olea、Oryza、Panieum、Pannisetum、鳄梨属(Persea)、菜豆属(Phaseolus)、Pistachia、Pisum、梨属(Pyrus)、李属(Prunus)、萝卡属(Raphanus)、蓖麻属(Ricinus)、黑麦属(Secale)、千里光属(Senecio)、Sinapis、茄属(Solanum)、高粱属(Sorghum)、Theobromus、Trigonella、小麦属(Triticum)、野豌豆属(Vicia)、Vitis、Vigna和玉蜀黍属(Zea)。

在可供选择的实施方式中，本发明的核酸在含有纤维细胞的植物中表达，包括，如，棉、丝棉树(木棉、吉贝木棉)、沙漠柳、石炭酸灌木、winterfat、balsa、苎麻、洋麻、大麻、洛神葵、黄麻、马尼拉剑麻和亚麻。在可供选择的实施方式中，本发明的转基因植物可以是棉属(Gossypium)的成员，包括任何棉种(Gossypium)的成员，如，亚洲棉(G.arboreum)、草棉(G.herbaceum)、海岛棉(G.barbadense)和陆地棉(G.hirsutum)。

本发明也提供了用于产生大量本发明多肽(例如蛋白酶或抗体)的转基因植物。例如，参见Palingren(1997)Trends Genet.13：348；Chong(1997)TransgenicRes.6：289-296(利用植物生长素诱导的双向甘露氨酸合成酶(mas1′，2′)启动子，应用根瘤农杆菌介导的叶片圆盘(leaf disc)转化方法在转基因马铃薯植物中生产人乳汁蛋白β-酪蛋白)。

应用已知的程序，技术人员可以通过检测在转基因植物中转基因mRNA或蛋白的增加或减少来筛选本发明的植物。检测和定量mRNA或蛋白的方法在本领域是熟知的。

多肽和肽

一方面，本发明提供了分离的或重组的多肽，其与本发明的示例性多肽(氨基酸)序列具有序列同一性(例如至少大约50％、51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高或完全的(100％)序列同一性)，本发明的示例性多肽例如具有SEQ ID NO：2；SEQ ID NO：4；SEQ ID NO：6；SEQ ID NO：8；SEQ ID NO：10；SEQ ID NO：12；SEQ ID NO：14；SEQ ID NO：16；SEQ ID NO：18；SEQ ID NO：20；SEQ ID NO：22；SEQ ID NO：24；SEQ ID NO：26；SEQ ID NO：28；SEQ ID NO：30；SEQ ID NO：32；SEQ ID NO：34；SEQ ID NO：36；SEQ ID NO：38；SEQ ID NO：40；SEQ ID NO：42；SEQ ID NO：44；SEQ ID NO：46；SEQ ID NO：48；SEQ ID NO：50；SEQ ID NO：52；SEQ ID NO：54；SEQ ID NO：56；SEQ ID NO：58；SEQ ID NO：60；SEQ ID NO：62；SEQ ID NO：64；SEQ ID NO：66；SEQ ID NO：68；SEQ ID NO：70；SEQ ID NO：72；SEQ ID NO：74；SEQ ID NO：76；SEQ ID NO：78；SEQ ID NO：80；SEQ ID NO：82；SEQ ID NO：84；SEQ ID NO：86；SEQ ID NO：88；SEQ ID NO：90；SEQ ID NO：92；SEQ ID NO：94；SEQ ID NO：96；SEQ ID NO：98；SEQ ID NO：100；SEQ ID NO：102；SEQ ID NO：104；SEQ ID NO：106；SEQ IDNO：108；SEQ ID NO：110；SEQ ID NO：112；SEQ ID NO：114；SEQ ID NO：116；SEQID NO：118；SEQ ID NO：120；SEQ ID NO：122；SEQ ID NO：124；SEQ ID NO：126；SEQ ID NO：128；SEQ ID NO：130；SEQ ID NO：132；SEQ ID NO：134；SEQ IDNO：136；SEQ ID NO：138；SEQ ID NO：140；SEQ ID NO：142；SEQ ID NO：144；SEQ ID NO：147；SEQ ID NO：151；SEQ ID NO：159；SEQ ID NO：165；SEQ IDNO：172；SEQ ID NO：180；SEQ ID NO：188；SEQ ID NO：194；SEQ ID NO：200；SEQ ID NO：205；SEQ ID NO：211；SEQ ID NO：219；SEQ ID NO：223；SEQ IDNO：230；SEQ ID NO：235；SEQ ID NO：242；SEQ ID NO：249或SEQ ID NO：255中所示序列的蛋白，或由SEQ ID NO：145编码的多肽。一方面，所述多肽具有蛋白酶(protease)活性，包括蛋白酶(proteinase)和/或肽酶活性，例如水解肽键的能力。蛋白酶活性可以包括肽酶活性，例如羧肽酶活性、二肽基肽酶或寡肽酶活性，或氨肽酶活性。蛋白酶活性可以包括丝氨酸蛋白酶活性、金属蛋白酶活性、半胱氨酸蛋白酶活性和/或天冬氨酸蛋白酶活性，或与胰凝乳蛋白酶、胰蛋白酶、弹性蛋白酶、激肽释放酶和/或枯草杆菌蛋白酶相同或类似的活性。

示例性的蛋白酶活性如表1、表2和表3中所示。测定方法在下面的实施例中有详细描述。开发这些测定方法以测定各种pNA(对硝基苯胺)连接的小肽底物以及蛋白底物的蛋白酶活性，所述蛋白底物如酪蛋白、明胶、玉蜀黍蛋白、大豆胰蛋白酶抑制剂、大豆凝集素和麦胚凝集素。对于小肽底物测定法，末端肽键的水解释放pNA基团，引起在410nm处吸光度的增加。为了监控对蛋白底物的活性，在37℃温育蛋白酶和底物，随后监控来自分子内猝灭底物的荧光的增加，这是通过邻苯二甲醛(OPA)分析来完成的，其中在存在BME的情况下，OPA与游离氨基末端反应，产生可以使用标准的荧光平板读数器检测的荧光咪唑，或通过SDS-PAGE分析来完成，其中蛋白酶活性通过底物带的减小或消失来指示。

也使用酶谱来测定酪蛋白、明胶或玉米醇溶蛋白的蛋白酶活性：酶谱凝胶含有包埋到凝胶基质中的酶底物(例如α-玉米醇溶蛋白)。如果蛋白酶具有针对在凝胶中的玉米醇溶蛋白的活性，那么在电泳、复性、显色和染色步骤后在另外的蓝背景中便会产生透明带。透明带与凝胶中蛋白酶的位置相对应。

表1，下面描述了具有蛋白酶活性的示例性多肽。

SEQ ID NOS：酪蛋白明胶AAA AAPF BAPNA GGF IEGR PFR

+表示在使用所测试的条件时在该底物上检测到活性，-表示在该底物上没有检测到活性，空格表示在相应底物上的活性还没有确定。(AAPF＝N-Suc-丙氨酸-脯氨酸-苯丙氨酸-pNA，AAA＝N-Suc-丙氨酸-丙氨酸-丙氨酸-pNA，BAPNA＝N-BZ＝D，L-精氨酸-pNA，GGF＝N-Suc-甘氨酸-甘氨酸-苯丙氨酸-pNA，IEGR＝N-Suc-异亮氨酸-谷氨酸-甘氨酸-精氨酸-pNA，PFR＝N-Suc-脯氨酸-苯丙氨酸-精氨酸-pNA)。

下面的表2和3描述了具有蛋白酶活性的示例性多肽，并且概括了它们的蛋白酶活性。

表2：

表3：活性总结

SEQ ID NOS：酪蛋白明胶AAA AAPF BAPNA GGF IEGR PFR

9，10	-	-	-	-	+	-	+	+
9，10	-	-	-	-	+	-	+	+	15，16	-	-	-	+	-	-	-	+
17，18	-	-	+	+	-	-	+	+	15，16	-	-	-	+	-	-	-	+
17，18	-	-	+	+	-	-	+	+	85，86	-	-	-	-	+	+	+	+
63，64	-	-	-	+	+	+	+	+	85，86	-	-	-	-	+	+	+	+
63，64	-	-	-	+	+	+	+	+	57，58	-	-	+	-	-	-	+	-

ND＝在所测试的条件下没有可检测到的活性，M＝可能(在所测试的条件下有微弱活性)

^*48小时时间点时的数据

分析对应的阴性对照，没有显示出可检测到的活性

OPA数据是表示酶和底物反应的荧光(FL)除以相应的单独的酶和单独的底物对照组的总和的比值。

活性比值＝底物和酶制剂反应FL/((单独底物FL)+(单独酶制剂FL))

荧光比值为1表示没有高于背景的活性。荧光比值高于1表示存在由蛋白酶通过对底物的蛋白酶水解而产生的游离氨基末端。FL比值低于1可能表示蛋白酶受到底物的抑制，这样与存在底物的情况相比，在不存在底物的情况下背景蛋白在酶制剂中的水解在更大程度上发生。在这种情况下，相对于酶和底物样品中的背景成分，只有酶的对照组中的FL背景荧光会更明显。

本发明的多肽包括活性或非活性形式的蛋白酶。例如，本发明的多肽包括在其前体序列经“成熟”或加工过程以产生“活性的”成熟蛋白之前的原蛋白(proprotein)，所述“成熟”或加工过程是通过例如原蛋白加工酶，诸如原蛋白转化酶来完成的。本发明的多肽包括因为其他原因而未活化的蛋白酶，例如，在通过翻译后加工事件来“活化”之前的蛋白酶，所述翻译后加工例如内-或外-肽酶或蛋白酶作用、磷酸化事件、酰胺化、糖基化或硫酸盐化作用、二聚事件以及类似的作用。

本发明的多肽包括所有活性形式的蛋白酶，包括活性子序列，例如蛋白酶的催化结构域或活性位点。一方面，本发明提供了如下所示的催化结构域或活性位点。一方面，本发明提供了肽或多肽，其包含如下所示的活性位点结构域，或由如下所示的活性位点结构域构成(这些结构域通过使用数据库Pfam预测，Pfam是涵盖了许多普通蛋白家族的多序列联配和隐式Markov模型的集合，The Pfamprotein families database，A.Bateman，E.Birney，L.Cerruti，R.Durbin，L.Etwiller，S.R.Eddy，S.Griffiths-Jones，K.L.Howe，M.Marshall，和E.L.L.Sonnhammer，Nucleic Acids Research，30(1)：276-280，2002)：

SEQ ID NO：结构域(AA＝氨基酸)

248，249 AA(104)...(500)

真核天冬氨酰蛋白酶

AA(112)...(317)

218，219 锌羧肽酶

AA(116)...(325)

179，180 锌羧肽酶

AA(117)...(321)

241，242 锌羧肽酶

AA(121)...(228)

PA(蛋白酶相关)结构域；

AA(234)...(468)

193，194 肽酶家族M28

AA(124)...(340)

204，205 锌羧肽酶

AA(124)...(344)

199，200 锌羧肽酶

AA(128)...(378)

164，165 肽酶家族M28

AA(156)...(426)

Subtilase家族；

AA(74)...(142)

187，188 枯草杆菌蛋白酶N-末端区域

AA(234)...(471)

肽酶家族M28；

AA(115)...(224)

222，223 PA(蛋白酶相关)结构域

AA(239)...(439)

171，172 肽酶家族M48

AA(35)...(120)

枯草杆菌蛋白酶N-末端区域；AA(134)...(397)

229，230 Subtilase家族

AA(5)...(389)

150，151 真核天冬氨酰蛋白酶

AA(52)...(494)

210，211 丝氨酸羧肽酶

AA(74)...(522)

254，255 丝氨酸羧肽酶

AA(96)...(532)

158，159 丝氨酸羧肽酶

例如，本发明提供了肽或多肽，其包含SEQ ID NO：249(如由SEQ ID NO：248编码)的残基104到500所示的活性位点结构域，或由SEQ ID NO：249(如由SEQID NO：248编码)的残基104到500所示的活性位点结构域构成，其中该活性位点具有天冬氨酰蛋白酶活性。另一方面，本发明提供了肽或多肽，其包含SEQ IDNO：219(如由SEQ ID NO：218编码)的残基112到317所示的活性位点结构域，或由SEQ ID NO：219(如由SEQ ID NO：218编码)的残基112到317所示的活性位点结构域构成，其中所述活性位点具有锌羧肽酶活性，等等。

鉴定“前体(prepro)”结构域序列和信号序列的方法在本技术领域是熟知的，例如参见Van de Ven(1993)Crit.Rev.Oncog.4(2)：115-136。例如，为了鉴定前体序列，从细胞外空间纯化蛋白，并确定N-末端蛋白序列，与未加工的形式进行比较。

本发明包括具有或没有信号序列和/或前体序列的多肽。本发明包括具有异源信号序列和/或前体序列的多肽。前体序列(包括本发明的用作异源前体结构域的序列)可以位于蛋白的氨基末端或羧基末端。本发明也包括构成本发明的序列的分离的或重组的信号序列(例如参见表4)、前体序列和催化结构域(例如“活性位点”)。

用百分比表示的序列同一性可以是基于多肽的全长范围，或者，同一性可以表现在至少大约50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700或更多残基的区域上。本发明的多肽也可以比所述的示例性多肽的全长短。在可以选择的方面，本发明提供了大小范围在大约5到多肽全长的多肽(肽、片段)，例如酶，如蛋白酶；示例性的大小为大约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700或更多残基，这些残基例如是本发明的示例性蛋白酶的相邻残基。

本发明的肽(例如，本发明的示例性多肽的子序列)可以用作，例如标记探针、抗原、耐受原、基序、蛋白酶活性位点(例如“催化结构域”)、信号序列和/或前体结构域。

本发明的多肽和肽可以分离自天然来源，可以是合成的，或者可以是重组产生的多肽。肽和蛋白可以在体外或体内重组表达。本发明的肽和多肽可以使用本技术领域已知的任何方法产生和分离。本发明的多肽和肽也可以使用本技术领域熟知的化学方法全部或部分合成。例如参见Caruthers(1980)Nucleic Acids Res.Symp.Ser.215-223；Horn(1980)Nucleic Acids Res.Symp.Ser.225-232；Banga，A.K.，Therapeutic Peptides and Proteins，Formulation，Processing and DeliverySystems(1995)Technomic Publishing Co.，Lancaster，PA。例如，肽合成可以使用各种固相技术进行(例如参见Roberge(1995)Science 269：202；Merrifield(1997)Methods Enzymol.289：3-13)，自动合成可以根据制造商提供的说明书来实施，例如使用ABI 431A肽合成仪(Perkin Elmer)。

本发明的肽和多肽也可以是糖基化的，所述糖基化可以在翻译后通过化学方法或者通过细胞的生物合成机制而加上，其中后者包括应用已知的糖基化作用基序，所述糖基化作用基序可以是天然序列，或者是作为肽段而被加入的，或者是在核酸编码序列中加入的。糖基化作用可以是O-连接的或者是N-连接的。

本发明的肽和多肽，如以上所定义的，包括所有的“模拟物(mimetic)”和“肽模拟物(peptidomimetic)”形式。术语“模拟物”和“肽模拟物”是指具有与本发明的多肽实质上相同的结构和/或功能特征的合成的化学化合物。该模拟物或者完全由合成的非天然的氨基酸类似物组成，或者是由部分天然的肽氨基酸和部分非天然的氨基酸类似物构成的嵌合分子。所述模拟物也可以包括任意数量的天然氨基酸保守取代，只要这样的取代本质上不改变该模拟物的结构和/或活性。对于作为保守性变异体的本发明的多肽，常规实验将可以确定一种模拟物是否在本发明的范围内，即，其结构和/或功能并没有实质上的改变。因此，一方面，如果一种模拟化合物具有蛋白酶活性，那么它在本发明的范围内。

本发明的多肽模拟物可以包含非天然结构成分的任何组合。在可供选择的方面，本发明的模拟物包括以下三种结构基团中的一种或所有：a)不是天然酰胺键(“肽键”)连接的残基连接基团；b)取代天然发生的氨基酸残基的非天然残基；或者c)诱导二级结构拟态(mimicry)的残基，即，可以诱导或者稳定二级结构，如β转角、γ转角、β折叠、α螺旋构象，以及类似的结构。例如，当一个多肽的所有残基或者一些残基通过非天然肽键的化学方式连接时，本发明的该多肽可以作为模拟物来表征。各个肽模拟物残基可以通过肽键、其它的化学键或者偶联方式连接，如，通过戊二醛、N-羟基琥珀酰亚胺酯、双功能马来酰亚胺、N，N′-二环已基碳二亚胺(DCC)或者N，N′-二异丙基碳二亚胺(DIC)连接。可以替代传统的酰胺键(“肽键”)连接的连接基团包括，如，酮基亚甲基(如，-C(＝O)-CH₂-代替-C(＝O)-NH-)、氨基亚甲基(CH₂-NH)、次乙基、烯烃(CH＝CH)、醚(CH₂-O)、硫醚(CH₂-S)、四唑(CN₄-)、噻唑、retroamide、硫代酰胺或者酯(参见如，Spatola(1983)在Chemistry and Biochemistry of Amino Acids，Peptides and Proteins，第7卷，267-357页，“Peptide Backbone Modifications”Marcell Dekker，NY)。

本发明的多肽作为模拟物时，其特征也可以是含有全部或者部分替代了天然发生的氨基酸残基的非天然氨基酸残基。在科学和专利文献中描述了非天然的残基；作为天然氨基酸残基的模拟物的一些典型的非天然化合物及指导在下面有描述。芳香族氨基酸的模拟物可以通过用以下的取代来产生，如，D-或L-萘基丙氨酸；D-或L-苯基甘氨基，D-或L-2thieneyl丙氨酸；D-或L-1，-2，3-或4-芘基丙氨酸；D-或L-3thieneyl丙氨酸；D-或L-(2-吡啶基)-丙氨酸；D-或L-(3-吡啶基)-丙氨酸；D-或L-(2-吡嗪基)-丙氨酸，D-或L-(4-异丙基)-苯基甘氨酸；D-(三氟甲基)-苯基甘氨酸；D-(三氟甲基)-苯基丙氨酸；D-p-氟-苯基丙氨酸；D-或L-p-二苯基苯基丙氨酸；D-者L-p-甲氧基-二苯基苯基丙氨酸；D-或L-2-吲哚(烷基)丙氨酸；和，D-或L-烷基丙氨酸，其中的烷基可以是取代的或非取代的甲基、乙基、丙基、已基、丁基，戊基、异丙基、异丁基、仲异基(sec-isotyl)、异戊基或者非酸性氨基酸。非天然氨基酸的芳香环包括，如噻唑基、苯硫基、吡唑基、苯并咪唑基、萘基、呋喃基、吡咯基和吡啶基芳香环。

酸性氨基酸的模拟物可以通过用以下的取代来产生，如，保持有负电荷的非羧酸氨基酸；(膦酰基)丙氨酸；硫酸化的苏氨酸。羧基侧链(如，天冬氨酰基或者谷氨酰基)也可以通过与碳二亚胺(R′-N-C-N-R′)反应进行选择性的修饰，所述碳二亚胺如1-环已基-3(2-吗啉基-(4-乙基)碳二亚胺或者1-乙基-3(4-氮鎓-4，4-二甲基戊基)碳二亚胺。天冬氨酰基或者谷氨酰基也可以通过与铵离子反应转化为天冬酰胺酰基和谷氨酰胺酰基。碱性氨基酸的模拟物可以通过用如，(除了赖氨酸和精氨酸外)鸟氨酸、瓜氨酸、或者(胍基)-乙酸，或者(胍基)烷基-乙酸的取代产生，其中烷基如以上定义。腈衍生物(如，含有取代COOH的CN-部分)可以取代天冬酰胺或者谷氨酰胺。天冬酰胺酰基和谷氨酰胺酰基可以脱氨基成为相应的天冬氨酰基或者谷氨酰基。精氨酸残基模拟物可以通过精氨酰基与例如一种或者多种常规试剂在优选为碱性的条件下反应而产生，所述的常规试剂包括如苯乙二醛、2，3-丁二酮、1，2-环已二酮或者茚三酮。酪氨酸残基模拟物可以通过酪氨酰基与例如芳香重氮化合物或者四硝基甲烷反应而产生。N-acetylimidizol和四硝基甲烷可以分别用于形成O-乙酰基酪氨酰物质和3-硝基衍生物。半胱氨酸残基模拟物可以通过半胱氨酰残基与例如α-卤素乙酸例如2-氯乙酸或者氯乙酰胺和相应的胺反应而产生；得到羧甲基或者羧酰胺甲基衍生物。半胱氨酸残基模拟物也可以通过半胱氨酰残基与例如溴代-三氟丙酮、α-溴-β-(5-imidozoyl)丙酸；氯乙酰磷酸、N-烷基马来酰亚胺、3-硝基-2-吡啶基二硫化物；甲基2-吡啶基二硫化物；p-氯汞苯甲酸盐；2-氯汞-4硝基苯酚，或者，氯-7-硝基苯并-氧杂-1，3-二唑反应而产生。可以通过赖氨酰基与例如琥珀酸或者其它的羧酸酸酐反应而产生赖氨酸模拟物(和改变氨基末端残基)。赖氨酸和其它的含有α-氨基的残基模拟物也可以通过与亚氨酸酯例如methyl picolinimidate、磷酸吡哆醛、吡哆醛、氯硼氢化物、三硝基-苯磺酸、O-甲基异脲、2，4，戊二酮的反应，和与乙醛酸的转酰胺基酶催化的反应而产生。甲硫氨酸的模拟物可以通过与例如甲硫氨酸亚砜反应而产生。脯氨酸的模拟物包括，例如，2-哌啶酸、四氢噻唑羧酸、3-或4-羟脯氨酸、脱氢脯氨酸、3-或4-甲基脯氨酸，或者3，3，-二甲基脯氨酸。组氨酸残基模拟物可以通过组氨酰基与例如二乙基原碳酸酯或对溴苯甲酰甲基溴化物反应而产生。其它的模拟物包括，例如，由脯氨酸和赖氨酸的羟基化作用产生的模拟物；由丝氨酰或者苏氨酰的羟基的磷酸化作用产生的模拟物；由赖氨酸、精氨酸和组氨酸的α氨基基团的甲基化作用产生的模拟物；由N-末端胺的乙酰化作用而产生的模拟物；由主链酰胺残基的甲基化或用N-甲基氨基酸取代而产生的模拟物；或者，由C-末端羧基的酰胺化而产生的模拟物。

本发明的多肽的残基例如氨基酸也可以用相反手性的氨基酸(或者肽模拟物残基)替代。因此，任何天然发生的L-构型(也可以被称为R或者S，取决于化学实体的结构)的氨基酸都可用相同化学结构类型但是具有相反手性的氨基酸或者肽模拟物替代，相反手性的氨基酸称为D-氨基酸，但也可以称R-或者S-型。

本发明也提供了通过天然过程，如，翻译后加工(如，磷酸化，酰化以及类似作用)或者化学修饰技术修饰本发明的多肽的方法，以及得到的被修饰的多肽。修饰可以发生在所述多肽的任何地方，包括肽骨架、氨基酸侧链和氨基端或者羧基端。可以理解，相同类型的修饰可以在已知的多肽中以相同的或者不同的水平在几个位点处发生。一个多肽也可以具有很多类型的修饰。修饰包括乙酰化、酰化作用、ADP-核糖基化作用、酰胺化作用、共价连接核黄素、共价连接血红素组分、共价连接核苷酸或核苷酸衍生物、共价连接脂质或脂质衍生物、共价连接磷脂酰肌醇、交联的环化作用、形成二硫键、去甲基作用、形成共价交联、形成半胱氨酸、形成焦谷氨酸、甲酰基化作用、γ-羧化作用、糖基化作用、形成GPI锚、羟基化作用、碘化作用、甲基化作用、肉豆蔻酰基化作用、氧化作用、聚乙二醇化、蛋白水解过程、磷酸化作用、异戊烯作用、外消旋作用、硒化作用、硫酸盐化作用，和转移RNA介导氨基酸添加到蛋白质中，如精氨酰化。参见，如，Creighton，T.E.，Proteins-Structure and Molecular Properties 2nd Ed.，W.H.Freeman和Company，New York(1993)；Posttranslational Covalent Modification of Proteins，B.C.Johnson，Ed.，Academic Press，New York，11-12页(1983)。

固相化学肽合成方法也可以用于合成本发明的多肽或者片段。这样的方法自二十世纪六十年代早期起就是本领域已知的方法(Merrifield，R.B.，J.Am.Chem.Soc.，85：2149-2154，1963)(也参见Stewart，J.M.和Young，J.D.，Solid PhasePeptide Synthesis，第二版，Pierce Chemical Co.，Rockford，III，11-12页)，并且这些方法已经可以通过商业上可获得的实验室肽设计和合成试剂盒(Cambridge ResearchBiochemicals)而被应用。这样的商业上可获得的实验室试剂盒一般是利用H.M.Geysen等，Proc.Natl.Acad.Sci.，USA，81：3998(1984)的方法，它们让肽合成在多个“杆(rods)”或者“钉(pins)”的顶端进行，而所有的“杆”或者“钉”都被连接到一块板上。当使用这样的系统时，一个板的杆或者钉被倒转并插入到另一个板的相应孔或者贮存器中，所述孔或者贮存器含有用于将一种适合的氨基酸附着或固定在杆或钉的顶端的溶液。通过重复这样的处理步骤，即是，反转和插入所述杆和钉的顶端至适当的溶液中，将氨基酸构建成所要的肽。此外，大量的FMOC肽合成系统是可利用的。例如，应用Applied Biosystems，Inc.的Model 431A^TM自动肽合成仪可以在固体支持物上装配多肽或者片段。这些设备使得本发明的肽容易获得，或者通过直接的合成或者通过用其它已知的技术将一系列片段偶联起来的合成。

本发明包括具有或没有信号的本发明的蛋白酶。含有本发明的信号序列的多肽(例如参见表4)可以是本发明的蛋白酶，或另一种蛋白酶或另一种酶或其它多肽。

本发明包括固定化的蛋白酶、抗蛋白酶抗体及其片段。本发明提供了抑制蛋白酶活性的方法，例如使用本发明的显性负突变体或抗蛋白酶抗体。本发明包括含有本发明蛋白酶的杂合物，例如融合蛋白、异源二聚体等等。

本发明的多肽在多种条件下具有蛋白酶活性，例如极端pH和/或温度、氧化剂以及类似的条件。本发明提供了产生可选择的蛋白酶制剂的方法，它们具有不同的催化效率和稳定性，例如对于温度、氧化剂和改变了的洗涤条件。一方面，蛋白酶变异体可以使用定点诱变和/或随机诱变的技术来产生。一方面，定向进化可以被用于产生大量具有可选择的特异性和稳定性的蛋白酶变异体。

本发明的蛋白也可用作研究试剂，以鉴定蛋白酶调节物，例如蛋白酶活性的激活剂或抑制剂。简单的说，将测试样品(化合物、肉汤、提取物等等)加入到蛋白酶分析中，以确定它们抑制底物裂解的能力。用该方式鉴定的抑制剂可用于工业和研究中，以减少或阻止不期望的蛋白水解。当使用蛋白酶时，抑制剂可以被组合以增加活性谱。

本发明的酶也可以用作研究试剂，以消化蛋白或在蛋白测序中使用。例如，蛋白酶可用于将多肽断裂成用于测序的较小片段，所述测序可以使用例如自动测序仪来进行。

本发明也提供了应用本发明的核酸、多肽和抗体发现新的蛋白酶的方法。一方面，筛选噬粒文库，基于表达来发现蛋白酶。另一方面，筛选λ噬菌体文库，基于表达来发现蛋白酶。通过筛选噬菌体或噬粒文库，可以检测到毒性克隆；更方便地利用底物；减少工程改造宿主的需要，避开由文库中大的切除带来任何偏差的可能性；而且可以在低克隆密度下获得更快的生长。噬菌体或噬粒文库的筛选可以是在液相中或者固相中进行。一方面，本发明提供了在液相中的筛选。与固相筛选相比，这给予了分析条件上的更大灵活性；额外底物的可行性；对于弱的克隆的更高灵敏性；和更容易实现的自动化。

本发明提供了使用本发明的蛋白和核酸以及机器人自动化来进行筛选的方法，机器人自动化使得在例如一天的短时间内能进行数千个生物催化反应和筛选分析，并且保证了高水平的精确度和可重复性(参见下面关于阵列的讨论)。结果，衍生化合物的文库可以在数周内产生。对于包括小分子在内的分子的修饰的进一步教导，参见PCT/US94/09174。

本发明包括蛋白酶，这些蛋白酶是非天然发生的羰基水解酶变异体(例如蛋白酶变异体)，与获得变异体的氨基酸序列的前体羰基水解酶相比，它们具有不同的蛋白水解活性、稳定性、底物特异性、pH曲线和/或性能特征。特定地，这样的蛋白酶变异体具有在自然界没有发现的氨基酸序列，该氨基酸序列是通过用不同的氨基酸取代前体蛋白酶的多个氨基酸残基来衍生得到。前体蛋白酶可以是天然发生的蛋白酶或重组的蛋白酶。有用的蛋白酶变异体包括在指定的氨基酸残基位置处取代天然发生的任何L-氨基酸。

蛋白酶信号序列、前体和催化结构域

本发明提供了蛋白酶信号序列(例如，信号肽(SP))、前体结构域和催化结构域(CD)。本发明的SP、前体结构域和CD可以是分离的或重组的肽，或可以是融合蛋白的一部分，例如作为嵌合蛋白的异源结构域。本发明提供了编码这些催化结构域(CD)、前体结构域和信号序列(SP，例如具有一个包含本发明多肽的氨基末端残基/由本发明多肽的氨基末端残基组成的序列的肽)的核酸。

一方面，本发明提供了信号序列，该信号序列包括肽，所述肽包含如下的一个序列/由如下的一个序列组成：本发明的多肽的残基1到12、1到13、1到14、1到15、1到16、1到17、1到18、1到19、1到20、1到21、1到22、1到23、1到24、1到25、1到26、1到27、1到28、1到28、1到30、1到31、1到32、1到33、1到34、1到35、1到36、1到37、1到38、1到39、1到40、1到41、1到42、1到43、1到44(或更长的肽)所示的序列。

在可以选择的方面，本发明提供了信号序列，该信号序列包括肽，所述肽包含表4中所示的一个序列/由表4中所示的一个序列构成，表4如下：

SEQ ID NO：	信号(AA)
SEQ ID NO：	信号(AA)	1，2	1-37
101，102	1-22	1，2	1-37
101，102	1-22	111，112	1-36
113，114	1-32	111，112	1-36
113，114	1-32	115，116	1-33
121，122	1-25	115，116	1-33
121，122	1-25	123，124	1-56
127，128	1-27	123，124	1-56
127，128	1-27	13，14	1-33
131，132	1-21	13，14	1-33
131，132	1-21	133，134	1-27
139，140	1-38	133，134	1-27
139，140	1-38	141，142	1-25
143，144	1-35	141，142	1-25
143，144	1-35	15，16	1-31
164，165	1-17	15，16	1-31
164，165	1-17	179，180	1-21
19，20	1-39	179，180	1-21
19，20	1-39	193，194	1-19
199，200	1-18	193，194	1-19
199，200	1-18	21，22	1-22
210，211	1-19	21，22	1-22
210，211	1-19	222，223	1-15
229，230	1-21	222，223	1-15
229，230	1-21	23，24	1-23
241，242	1-20	23，24	1-23

254，255	1-18
254，255	1-18	27，28	1-27
29，30	1-24	27，28	1-27
29，30	1-24	3，4	1-36
31，32	1-26	3，4	1-36
31，32	1-26	35，36	1-27
37，38	1-37	35，36	1-27
37，38	1-37	41，42	1-22
43，44	1-25	41，42	1-22
43，44	1-25	45，46	1-26
47，48	1-24	45，46	1-26
47，48	1-24	49，50	1-30
5，6	1-32	49，50	1-30
5，6	1-32	51，52	1-27
53，54	1-32	51，52	1-27
53，54	1-32	55，56	1-27
57，58	1-31	55，56	1-27
57，58	1-31	61，62	1-40
67，68	1-27	61，62	1-40
67，68	1-27	69，70	1-32
71，72	1-25	69，70	1-32
71，72	1-25	73，74	1-28
75，76	1-25	73，74	1-28
75，76	1-25	81，82	1-20
83，84	1-22	81，82	1-20
83，84	1-22	85，86	1-20
87，88	1-35	85，86	1-20
87，88	1-35	89，90	1-32
9，10	1-28	89，90	1-32
9，10	1-28	93，94	1-36
95，96	1-24	93，94	1-36

本发明的蛋白酶信号序列(SP)和/或前体序列可以是分离的肽，或与另一个蛋白酶或非蛋白酶多肽连接的序列，例如作为融合(嵌合)蛋白。一方面，本发明提供了包含本发明的蛋白酶信号序列的多肽。一方面，包含本发明的蛋白酶信号序列SP和/或前体序列的多肽包含与本发明蛋白酶异源的序列(例如，包含本发明的SP和/或前体序列以及来自别的蛋白酶或非蛋白酶蛋白的序列的融合蛋白)。一方面，本发明提供了带有异源SP和/或前体序列的本发明的蛋白酶，例如带有酵母信号序列的序列。本发明的蛋白酶可以包含载体中的异源SP和/或前体序列，所述载体例如pPIC系列载体(Invitrogen，Carlsbad，CA)。

一方面，本发明的SP和/或前体序列在鉴定新的蛋白酶多肽之后被鉴定。蛋白被分选和转运至其正确的细胞位置的通路通常被称为蛋白靶向通路(proteintargeting pathways)。在所有这些靶向系统中最重要的元件之一是新合成的多肽的氨基末端上的短的氨基酸序列，称为信号序列。这种信号序列可指引蛋白至其在细胞中的适合位置，并在转运过程中或在蛋白到达其最终目的地时被去除。大多数的溶酶体蛋白、膜蛋白或分泌蛋白都具有氨基末端信号序列，这些信号序列标示着它们将转位至内质网腔内。在这一类中已经有超过100个蛋白信号序列被确定。信号序列的长度可以从13至36个氨基酸残基。识别信号序列的各种方法对于本领域技术人员是已知的。例如，在一个方面，新的蛋白酶信号肽可通过称为SignaIP的方法来鉴定。SignaIP应用了既可识别信号肽，又可识别其裂解位点的组合神经网络。(Nielsen等人，“Indentification of prokaryotic and eukaryotic signalpeptides and prediction of their cleavage sites”Protein Engineering，卷10，1，1-6页(1997))。

应该理解的是，在一些方面，本发明的蛋白酶可以没有SP和/或前体序列，或“结构域”。在一个方面，本发明提供了缺少所有或部分的SP和/或前体结构域的本发明的蛋白酶。在一个方面，本发明提供了编码来自一种蛋白酶的信号序列(SP)和/或前体序列的核酸序列，其有效连接于一种不同的蛋白酶的核酸序列，或者，可选择地，来自非蛋白酶蛋白的信号序列(SP)和/或前体结构域是被需要的。

本发明也提供了分离的或重组的多肽，其含有本发明的信号序列(SP)、前体结构域和/或催化结构域(CD)和异源序列。所述异源序列是与(例如，蛋白酶的)SP、前体结构域和/或CD天然不相关的序列。与SP、前体结构域和/或CD天然不相关的序列可以在SP、前体结构域和/或CD的氨基末端、羧基末端，和/或SP和/或CD的两个末端上。在一个方面，本发明提供了分离的或重组的多肽，其包含(或构成于)含有本发明的信号序列(SP)、前体结构域和/或催化结构域(CD)的多肽，条件是它没有同与其天然相关的任何序列(例如，蛋白酶序列)连接。同样，在一个方面，本发明提供了编码这些多肽的分离的或重组的核酸。因此，在一个方面，本发明的分离的或重组的核酸包含本发明的信号序列(SP)、前体结构域和/或催化结构域(CD)的编码序列和异源序列(即，与信号序列(SP)、前体结构域和/或催化结构域(CD)天然不相关的序列)。异源序列可以在SP、前体结构域和/或CD编码序列的3’末端、5’末端和/或两个末端上。

杂交(嵌合)蛋白酶和肽文库

一方面，本发明提供了包含本发明的序列的杂合蛋白酶和融合蛋白，包括肽库。本发明的肽库可以用于分离目标的肽调节物(如，激活物或者抑制物)，如蛋白酶底物、受体、酶。本发明的肽库可以用于鉴定目标的结合配偶，如，配体，例如，细胞因子，激素以及类似物。一方面，本发明提供了嵌合蛋白，其含有本发明的信号序列(SP)、前体结构域和/或催化结构域(CD)或其组合以及异源序列(如上)。

一方面，本发明的融合蛋白(如，肽部分)是构象稳定的(相对于线形肽)，对靶标具有更高的结合亲和性。本发明提供了本发明的蛋白酶与其它肽的融合，所述其它肽包括已知的肽和随机的肽。它们可以以这样一种方式融合，使得所述蛋白酶的结构没有明显地被扰乱，并且该肽在代谢上或者结构构象上是稳定的。这样便允许获得肽库，该肽库在细胞内的存在及其数量都是容易监测的。

本发明的氨基酸序列变异体可以通过该变异的注定的性质来表征，也就是将它们与天然发生的形式区分开的特征，如，蛋白酶序列的等位基因的或者种间的变异。一方面，本发明的变异体表现出与天然发生的类似物相同性质的生物活性。可选择地，可以选择具有改变的特征的变异体。一方面，尽管引入氨基酸序列变化的位点或区域是预先决定的，但突变本身并不需要预先决定。例如，为了优化在一个给定位点出现的突变所带来的性能，可以在目标密码子或者区域进行随机诱变，并筛选被表达的蛋白酶变异体，以寻找所需活性的优化组合。在具有已知序列的DNA的预先决定的位点产生取代突变的技术是已熟知的，正如在此说明的，例如，M13引物诱变和PCR诱变。突变体的筛选可以通过应用蛋白水解活性分析来进行。在可供选择的方面，氨基酸取代物可以是单个残基；插入可以是大约1到20个氨基酸的水平，尽管可以插入相当大的片段。缺失的范围可以是大约1到大约20、30、40、50、60、70个残基或者更多。为了得到具有优化性质的最终衍生物，替代、缺失、插入或者任何它们的组合可以被应用。一般地，这些变化是在为数不多的氨基酸上进行，以使分子的改变最小化。然而，在某些情况下，可以容忍更大的改变。

本发明提供了蛋白酶，其中多肽骨架的结构、二级结构或三级结构，例如，α螺旋或β折叠结构，已被修饰。一方面，电荷或疏水性已被修饰。一方面，侧链基团已被修饰。通过选择较不保守的取代来产生功能或免疫性的实质变化。例如，可以进行这样的取代，它们将更加显著地影响：发生变化的区域的多肽骨架的结构，例如α螺旋或β折叠结构；分子的电荷或疏水位点，其可以是活性位点；或侧链。本发明提供在本发明的多肽中的取代，其中(a)亲水残基，例如丝氨酰或苏氨酰，被疏水残基例如亮氨酰、异亮氨酰、苯基丙氨酰、缬氨酰或丙氨酰取代；或者相反；(b)半胱氨酸或脯氨酸被任何别的残基取代；或者相反；(c)具有正电性侧链的残基，例如赖氨酰、精氨酰或组氨酰被带负电的残基例如谷氨酰或天冬氨酰取代；或者相反；或者(d)具有大体积侧链的基团，例如苯丙氨酸，被不具侧链的氨基酸例如甘氨酸取代；或者相反。所述变异体可以表现出相同性质的生物学活性(即，蛋白酶活性)，尽管变异体可经选择来按需改变蛋白酶的特征。

一方面，本发明的蛋白酶包括抗原结合部位(epitopes)或者纯化标记、信号序列或其它的融合序列，等。在一方面，本发明的蛋白酶可以与随机的多肽融合，形成融合多肽。“融合”或者“有效连接(operably linked)”在此是指随机肽和蛋白酶连接在一起，以这样的方式来最小化对蛋白酶结构的稳定性的破坏，例如，其仍保持蛋白酶的活性。所述的融合多肽(或者编码该融合多肽的融合多核苷酸)还可以包含进一步的成分，包括在多环(multiple loops)处的多个肽段。

一方面，肽和编码它们的核酸或者是完全随机化的，或者是在随机化中有偏向，例如，在核苷酸/残基的普遍频率或者每个位置处的频率方面。“随机化”是指每一个核酸或肽分别由实质上随机的核苷酸和氨基酸组成。一方面，产生所述肽的所述核酸可以化学合成，并且可以在任何位置整合进任何核苷酸。因此，当所述核酸被表达形成肽时，任何氨基酸残基可以整合进任何位置。可以设计合成过程来产生随机化的核酸，从而允许在所述核酸的长度范围内形成所有的或大多数的可能组合，由此形成随机核酸文库。该文库可以提供足量的结构多样的随机化表达产物群体，可以获得概率上充分的细胞响应范围，从而可以提供一种或多种表现出所需响应的细胞。因此，本发明提供了一个足够大的相互作用文库，以便其成员中的至少一个会具有使其对于一些分子、蛋白或者其他因子具有亲和性的结构。

筛选方法和“在线”监控设备

在实践本发明的方法时，多种仪器和方法可以与本发明的多肽和核酸一起使用，例如，以筛选多肽的蛋白酶活性(例如分析，比如，酶谱中的酪蛋白水解，荧光从明胶中的释放，或者对硝基苯胺从各种小肽底物中的释放)，以筛选作为蛋白酶活性的潜在调节剂的化合物，例如激活剂或抑制剂，还可以筛选与本发明的多肽结合的抗体，与本发明的核酸杂交的核酸，筛选表达本发明的多肽的细胞，等等。除了下面详细描述的用于筛选样品的阵列形式，其它可选择的形式也可用于实践本发明的方法。这样的形式包括，例如质谱仪、色谱仪，例如高通量HPLC和其它形式的液相色谱，以及更小的形式，如1536孔平板、384孔平板等等。高通量筛选仪器可以被适当改造并用于实践本发明的方法，例如参见美国专利20020001809。

毛细管阵列

本发明的核酸或多肽可被固定或应用于阵列上。阵列可用来筛选或监测化合物(例如，小分子、抗体、核酸等)的文库，以发现它们结合本发明的核酸或多肽或者调节本发明的核酸或多肽的活性的能力。毛细管阵列，如GIGAMATRIX^TM，戴弗萨公司，San Diego，CA；和描述在例如美国专利申请20020080350 A1；WO0231203 A；WO 0244336 A中的阵列，提供了容纳和筛选样品的可供选择的装置。在一个方面，毛细管阵列包括多个毛细管，它们形成相互邻近的毛细管构成的阵列，其中所述的每个毛细管含有至少一个壁，其限定了一个用以保留样品的内腔。这个内腔可以是圆柱形的、正方形的、六边形的或其它任何几何形状，只要所述壁能够形成内腔以保留住液体或样品。毛细管阵列的毛细管可相互靠近，联合在一起形成一个面状的构造。毛细管可通过融合(例如，当毛细管由玻璃制成时)、粘合、键合或面对面的夹合而结合在一起。可选择地，毛细管阵列可以包括在阵列中相邻毛细管之间放置的间质材料(interstitial material)，从而形成含有多个穿通孔(through-holes)的固体平面装置。

毛细管阵列可由任何数量的毛细管形成，例如，100至4,000,000个毛细管。进一步，具有大约100,000或更多个毛细管的毛细管阵列可形成标准大小和形状的Microtiter

板，其适合于标准的实验室设备。通过毛细作用或使用细针的微注射，人工或自动地将腔充满。随后可以从毛细管中移出感兴趣的样品以进行进一步的分析或定性。例如，安置细针样的探头，使其与选择的毛细管能够液体连通，从而可以向腔内加入材料或移走材料。

在单区筛选分析(single-pot screening assay)中，分析成分在插入到毛细管阵列中之前被混合在一起，产生目的溶液。当至少一部分阵列被浸入目标溶液中时，通过毛细作用充满内腔。在每个毛细管中的化学或生物学反应和/或活性被监测，以发现可检测到的事件。所述的可检测到的事件常常被称为“命中事件(hit)”，其常常可以通过光学检测与产生“非命中事件(non-hit)”的毛细管区分开来。因此，毛细管阵列可整体地并行检测“命中事件”。

在多区筛选分析(multi-pot screening assay)中，多肽或核酸，例如，配体可被导入进第一成分中，该成分被导入进毛细管阵列的至少一部分毛细管中。然后将气泡导入进第一成分后面的毛细管中。然后将第二成分导入进毛细管内，其中所述的第二成分与第一成分通过气泡相隔。通过在毛细管阵列的两侧施加静水压挤破气泡将第一和第二成分混合在一起。然后监测毛细管阵列中由于两个成分的反应或非反应而发生的可检测到的事件。

在结合筛选分析(binding screening assay)中，感兴趣的样品可作为用可检测颗粒标记的第一液体导入进毛细管阵列的毛细管中，其中为了使可检测颗粒与内腔结合，毛细管的内腔包被了一种结合材料。然后第一液体可从毛细管中移去，其中结合的可检测颗粒仍保留在毛细管内，可以将第二液体导入进毛细管内。然后监测毛细管中由于颗粒与第二液体的反应或非反应而发生的可检测到的事件。阵列，或“生物芯片”

本发明的核酸或者多肽可以固定于或者应用于阵列。可以应用阵列来筛选或者监测化合物(例如，小分子、抗体、核酸等等)的文库，所述筛选或者监测是针对它们结合本发明的核酸或多肽或者调控本发明的核酸或多肽的活性的能力。例如，在本发明的一方面，一个被监测的参数是蛋白酶基因的转录表达。细胞的一种或多种或所有的转录物都可以通过阵列或“生物芯片”上的固定化核酸与包含细胞转录物、或代表细胞转录物的核酸、或与细胞转录物互补的核酸的样品的杂交来测定。通过在微型芯片上应用核酸“阵列”，细胞的一些或所有的转录物可以同时被定量。可选择地，包含基因组核酸的阵列也可以用于确定通过本发明的方法制造的新型的工程菌株的基因型。“多肽阵列”也可以用于同时定量多种蛋白。本发明可以用任何已知的“阵列”进行实践，所述“阵列”也指“微阵列”或“核酸阵列”或“多肽阵列”或“抗体阵列”或“生物芯片”，或者它们的变体。阵列一般是多个“点”或者“靶元素”，每一个靶元素包括确定数量的一种或多种生物分子，例如，固定于基底表面的确定区域、用于特异结合一种样品分子如mRNA转录物的寡核苷酸。

在实践本发明的方法时，任何已知的阵列和/或制备和应用阵列的方法都可以被全部或者部分地整入，或者也引入它们的变化，例如在下列文献中说明的：美国专利6,277,628；6,277,489；6,261,776；6,258,606；6,054,270；6,048,695；6,045,996；6,022,963；6,013,440；5,965,452；5,959,098；5,856,174；5,830,645；5,770,456；5,632,957；5,556,752；5,143,854；5,807,522；5,800,992；5,744,305；5,700,637；5,556,752；5,434,049；还例如，WO 99/51773；WO 99/09217；WO 97/46313；WO96/17958；还例如，Johnston(1998)Curr.Biol.8：R171-R174；Schummer(1997)Biotechinques 23：1087-1092；Kern(1997)Biotechniques 23：120-124；Solinas-Toldo(1997)Genes，Chromosomes & Cancer 20：399-407；Bowtell(1999)Nature GeneticsSupp.21：25-32。也参见公布的美国专利申请20010018642；20010019827；20010016322；20010014449；20010014448；20010012537；20010008765。

抗体和基于抗体的筛选方法

本发明提供了分离的或重组的抗体，所述抗体与本发明的蛋白酶特异性结合。这些抗体可用于分离、鉴定或定量本发明的蛋白酶或相关多肽。这些抗体可用于分离本发明范围内的其它多肽，或其它相关蛋白酶。这些抗体被设计成与蛋白酶的活性位点结合。因此，本发明提供了使用本发明的抗体抑制蛋白酶的方法(参见上面关于本发明的抗蛋白酶组合物的应用的讨论)。

本发明提供了本发明的酶的片段，包括本发明的多肽的免疫原性片段，所述本发明的多肽例如SEQ ID NO：2；SEQ ID NO：4；SEQ ID NO：6；SEQ ID NO：8；SEQ ID NO：10；SEQ ID NO：12；SEQ ID NO：14；SEQ ID NO：16；SEQ ID NO：18；SEQ ID NO：20；SEQ ID NO：22；SEQ ID NO：24；SEQ ID NO：26；SEQ ID NO：28；SEQ ID NO：30；SEQ ID NO：32；SEQ ID NO：34；SEQ ID NO：36；SEQ ID NO：38；SEQ ID NO：40；SEQ ID NO：42；SEQ ID NO：44；SEQ ID NO：46；SEQ ID NO：48；SEQ ID NO：50；SEQ ID NO：52；SEQ ID NO：54；SEQ ID NO：56；SEQ ID NO：58；SEQ ID NO：60；SEQ ID NO：62；SEQ ID NO：64；SEQ ID NO：66；SEQ ID NO：68；SEQ ID NO：70；SEQ ID NO：72；SEQ ID NO：74；SEQ ID NO：76；SEQ ID NO：78；SEQ ID NO：80；SEQ ID NO：82；SEQ ID NO：84；SEQ ID NO：86；SEQ ID NO：88；SEQ ID NO：90；SEQ ID NO：92；SEQ ID NO：94；SEQ ID NO：96；SEQ ID NO：98；SEQ ID NO：100；SEQ ID NO：102；SEQ ID NO：104；SEQ ID NO：106；SEQ IDNO：108；SEQ ID NO：110；SEQ ID NO：112；SEQ ID NO：114；SEQ ID NO：116；SEQID NO：118；SEQ ID NO：120；SEQ ID NO：122；SEQ ID NO：124；SEQ ID NO：126；SEQ ID NO：128；SEQ ID NO：130；SEQ ID NO：132；SEQ ID NO：134；SEQ IDNO：136；SEQ ID NO：138；SEQ ID NO：140；SEQ ID NO：142；SEQ ID NO：144；SEQ ID NO：147；SEQ ID NO：151；SEQ ID NO：159；SEQ ID NO：165；SEQ IDNO：172；SEQ ID NO：180；SEQ ID NO：188；SEQ ID NO：194；SEQ ID NO：200；SEQ ID NO：205；SEQ ID NO：211；SEQ ID NO：219；SEQ ID NO：223；SEQ IDNO：230；SEQ ID NO：235；SEQ ID NO：242；SEQ ID NO：249或SEQ ID NO：255，或由SEQ ID NO：145编码的多肽。本发明的免疫原性肽(例如，SEQ ID NO：2；SEQID NO：4；SEQ ID NO：6；SEQ ID NO：8；SEQ ID NO：10；SEQ ID NO：12；SEQ IDNO：14；SEQ ID NO：16；SEQ ID NO：18；SEQ ID NO：20；SEQ ID NO：22；SEQ IDNO：24；SEQ ID NO：26；SEQ ID NO：28；SEQ ID NO：30；SEQ ID NO：32；SEQ IDNO：34；SEQ ID NO：36；SEQ ID NO：38；SEQ ID NO：40；SEQ ID NO：42；SEQ IDNO：44；SEO ID NO：46；SEQ ID NO：48；SEQ ID NO：50；SEQ ID NO：52；SEQ IDNO：54；SEQ ID NO：56；SEQ ID NO：58；SEQ ID NO：60；SEQ ID NO：62；SEQ IDNO：64；SEQ ID NO：66；SEQ ID NO：68；SEQ ID NO：70；SEQ ID NO：72；SEQ IDNO：74；SEQ ID NO：76；SEQ ID NO：78；SEQ ID NO：80；SEQ ID NO：82；SEQ IDNO：84；SEQ ID NO：86；SEQ ID NO：88；SEQ ID NO：90；SEQ ID NO：92；SEQ IDNO：94；SEQ ID NO：96；SEQ ID NO：98；SEQ ID NO：100；SEQ ID NO：102；SEQ IDNO：104；SEQ ID NO：106；SEQ ID NO：108；SEQ ID NO：110；SEQ ID NO：112；SEQID NO：114；SEQ ID NO：116；SEQ ID NO：118；SEQ ID NO：120；SEQ ID NO：122；SEQ ID NO：124；SEQ ID NO：126；SEQ ID NO：128；SEQ ID NO：130；SEQ IDNO：132；SEQ ID NO：134；SEQ ID NO：136；SEQ ID NO：138；SEQ ID NO：140；SEQ ID NO：142；SEQ ID NO：144；SEQ ID NO：147；SEQ ID NO：151；SEQ IDNO：159；SEQ ID NO：165；SEQ ID NO：172；SEQ ID NO：180；SEQ ID NO：188；SEQ ID NO：194；SEQ ID NO：200；SEQ ID NO：205；SEQ ID NO：211；SEQ IDNO：219；SEQ ID NO：223；SEQ ID NO：230；SEQ ID NO：235；SEQ ID NO：242；SEQ ID NO：249或SEQ ID NO：255或由SEQ ID NO：145编码的多肽的免疫原性片段)可进一步包括佐剂、载体等等。

抗体可以在免疫沉淀、染色、免疫亲合柱以及类似的程序中被应用。如果需要的话，编码特异抗原的核酸序列可以通过免疫方法获得，随后分离出多肽或核酸，进行扩增或克隆，将多肽固定在本发明的阵列上。可供选择的，本发明的方法可以用于修饰由细胞产生的待修饰的抗体的结构，如，抗体的亲和性可以增加或者降低。而且，制备或修饰抗体的能力可以是通过本发明的方法设计细胞表型。

免疫接种、产生和分离抗体(多克隆的或单克隆的)的方法是本领域技术人员所了解的，并且在科学和专利文献中有描述，参见，如，Coligan，CURRENTPROTOCOLS IN IMMUNOLOGY，Wiley/Greene，NY(1991)；Stites(eds.)BASICAND CLINICAL IMMUNOLOGY(第7版)Lange Medical Publications，Los Altos，CA(“Stites”)；Goding，MONOCLONAL ANTIBODIES：PRINCIPLES ANDPRACTICE(第2版)Academic Press，New York，NY(1986)；Kohler(1975)Nature256：495；Harlow(1988)ANTIBODIES，A LABORATORY MANUAL，Cold SpringHarbor Publications，New York。除了使用动物的传统的体内方法外，抗体也可以在体外产生，例如，应用表达重组抗体结合位点的噬菌体展示文库。参见如，Hoogenboom(1997)Trends Biotechnol.15：62-70；Katz(1997)Annu.Rev.Biophys.Biomol.Struct.26：27-45。

多肽或肽可用于产生与本发明的多肽例如蛋白酶特异性结合的抗体。所得到的抗体可以在免疫亲和层析方法中使用，以分离或纯化多肽或确定生物样品中是否存在多肽。在这样的方法中，蛋白制剂，如提取物，或生物样品与抗体接触，所述抗体能与本发明的多肽之一特异结合。

在免疫亲和方法中，抗体被附着在固相支持物上，如珠子或其它柱基质。蛋白制剂与抗体接触放置，条件是抗体与本发明的多肽之一特异结合。在洗涤去除非特异结合的蛋白后，洗脱特异性结合的多肽。

生物样品中蛋白与抗体结合的能力可以使用本技术领域的普通技术人员熟悉的多种方法中的任意一种方法确定。例如，结合可以通过用可检测标记如荧光试剂、酶标记物或放射性同位素对抗体进行标记来确定。可以选择地，抗体与样品的结合可以使用其上具有这样的可检测标记物的二抗来检测。特定的测定法包括ELISA测定法、夹心测定法、放射免疫测定法和Weatern印迹。

针对本发明的多肽产生的多克隆抗体可以通过将多肽直接注入到动物或通过将多肽施用到非人动物上来获得。如此获得的抗体然后结合多肽本身。以这样的方式，甚至编码多肽的仅仅一个片段的序列可以用于产生可能与整个天然多肽结合的抗体。这样的抗体然后被用于从表达那个多肽的细胞中分离多肽。

为了制备单克隆抗体，可使用通过连续细胞系培养来产生抗体的任何技术。实例包括杂交瘤技术、trioma技术、人B细胞杂交瘤技术和EBV-杂交瘤技术(Cole等人，1985，in Monoclonal Antibodies and Cancer Therapy，Alan R.Liss，Inc.，pp.77-96)。

所描述的用于产生单链抗体的技术(例如参见美国专利4,946,778)可以适于产生针对本发明多肽的单链抗体。可以选择地，转基因小鼠可用于表达针对这些多肽或其片段的人源化抗体。

针对本发明多肽产生的抗体可以在从其它生物体和样品中筛选类似多肽(例如蛋白酶)的方法中使用。在这样的技术中，来自生物体的多肽与抗体接触，并检测那些特异性结合抗体的多肽。上面所描述的任何方法可以用于检测抗体结合。

试剂盒

本发明提供了试剂盒，其包括组合物，如本发明的核酸、表达序列盒、载体、细胞、转基因种子或植物或植物部分、多肽(例如蛋白酶)和/或抗体。正如此处所描述的，这些试剂盒也可以含有教导本发明的方法学和工业应用的指导材料。

全细胞工程和测定代谢参数

本发明的方法提供了细胞的全细胞进化或全细胞工程，其通过修饰细胞的遗传组成来开发具有新表型的新颖细胞株，例如具有新颖或改变的蛋白酶活性的细胞株。遗传组成可通过加入本发明核酸到细胞中来改变，例如加入本发明的酶的编码序列。例如参见WO0229032；WO0196551。

为了探测新的表型，在“实时”或“在线”的时间期间监测被修饰的细胞的至少一种代谢参数。一发面，多个细胞，如细胞培养物被“实时”或“在线”监测。一方面，“实时”或“在线”监测多个代谢参数。代谢参数可以应用本发明的蛋白酶来监测。

代谢流分析(MFA)是以已知的生物化学框架为基础。以质量守恒定律和细胞内代谢的假稳态假说(PSSH)为基础，构建线性独立代谢矩阵。在实践本发明的方法时，建立代谢网络，包括：

●所有途径底物、产物和中间代谢物的特性，

●使途径代谢物互变的所有化学反应的特性，途径反应的化学计量学，

●催化反应的所有酶的特性，酶反应动力学，

●途径组分之间的调控性相互作用；如变构效应相互作用，酶-酶相互作用等，

●酶或者酶的任何其它超大分子组织在细胞内的区室化，以及，

●任何浓度梯度的代谢物、酶或者效应分子的存在，或者它们运动的扩散障碍。

一旦针对给定的细胞株建立了代谢网络，如果在线代谢数据可用，那么可以通过矩阵概念引入数学表达来评估细胞内的代谢流。代谢表型依赖于细胞内整个代谢网络的变化。代谢表型依赖于途径利用对环境条件、遗传调控、发育状态和基因型等等作出的变化。在本发明方法的一个方面，当计算了在线MFA之后，通过研究所述的途径利用来分析细胞的动力学行为、它们的表型和其它性质。例如，在酵母发酵中，如果葡萄糖供应增加，氧气减少，呼吸途径的利用将会降低和/或者停止，而发酵途径的利用将占优势。在所述的途径分析之后，细胞培养物的生理状态的控制将成为可能。通过确定如何改变底物供给、温度、诱导物的使用等来控制细胞的生理状态朝着所需的方向进行，本发明的方法可以有助于确定如何操纵发酵。在实践本发明的方法时，MFA的结果也可以与转录物组(transcriptome)和蛋白质组(proteome)的数据比较，设计实验和方案用于代谢工程或者基因重排等等。

在实践本发明的方法时，可以产生和检测到任何修饰的或者新的表型，包括在细胞中新的或者改进的特征。可以监测代谢或生长的任何方面。监控mRNA转录物的表达

在本发明的一个方面，工程改造得到的表型包括增加或降低mRNA转录物(例如蛋白酶信息)的表达，或在细胞中产生新的(例如蛋白酶)转录物。增加或降低的表达可以通过测试本发明的蛋白酶的存在或通过蛋白酶活性分析来跟踪。mRNA转录物或信息，也可以通过本技术领域已知的任何方法来检测和量化，包括Northern印迹、定量扩增反应、与阵列的杂交，以及类似的方法。定量扩增反应包括，例如定量PCR，例如包括定量逆转录聚合酶链式反应或RT-PCR；定量实时RT-PCR，或“实时动力学RT-PCR”(例如参见Kreuzer(2001)Br.J.Haematol.114：313-318；Xia(2001)Transplantation 72：907-914)。

在本发明的一方面，工程改造得到的表型是通过敲除同源基因的表达产生。可以敲除所述基因的编码序列或者一个或多个转录控制元件，如启动子或者增强子。这样，转录物的表达可以完全去除或者降低。

在本发明的一方面，工程改造得到的表型包括增加同源基因的表达。这可以通过敲除负调控元件或者诱变正调控元件而实现，负调控元件包括以顺式或反式起作用的转录调控元件。细胞的一种或多种或所有的转录物可以通过阵列上的固定化核酸与样品的杂交来测定，所述样品包含细胞转录物、或代表细胞转录物的核酸、或与细胞转录物互补的核酸。

监控多肽、肽和氨基酸的表达

在本发明的一方面，工程化改造得到的表型包括增加或降低多肽(如蛋白酶)的表达或者在细胞内产生新的多肽。这一增加或者减少的表达可以通过确定存在的蛋白酶的量或者通过蛋白酶活性分析来跟踪。也可以通过本领域任何已知的方法来检测并定量多肽、肽和氨基酸，所述方法包括，如，核磁共振(NMR)、分光光度测定法、射线照像术(蛋白放射性标记)、电泳、毛细管电泳、高效液相色谱(HPLC)、薄层色谱(TLC)、超扩散色谱，各种免疫学方法，如，免疫沉淀、免疫扩散、免疫电泳、放射性免疫分析(RIA)、酶联免疫吸附分析(ELISA)、免疫荧光分析，凝胶电泳(如，SDS-PAGE)、用抗体染色、荧光激活的细胞分选器(FACS)、热分解质谱、傅立叶转换红外光谱测定、拉曼光谱、GC-MS和LC-电喷以及cap-LC-串联-电喷质谱，已经类似的方法。应用这些方法或它们的变体也可以筛选新的生物活性，在美国专利6,057,103中有说明。而且，正如以下详细讨论的，可以应用蛋白阵列测定细胞的一个或多个或所有的多肽。

工业应用

去污剂组合物

本发明提供了包含本发明的一种或多种多肽(例如蛋白酶)的去污剂组合物，以及制造和应用这些组合物的方法。本发明包括了制造和使用去污剂组合物的所有方法，例如参见美国专利6,413,928；6,399,561；6,365,561；6,380,147。去污剂组合物可以是单组分和双组分的含水组合物、不含水的液体组合物、铸型固体、粒状形式、颗粒形式、压缩片剂、凝胶和/或糊状和浆状形式。本发明的蛋白酶也以固体或液体形式用作去污剂添加剂产品。这样的添加剂产品目的是补充或提高传统去污剂组合物的性能，它们可在清洗过程的任何阶段加入。

本发明也提供了使用这些去污剂组合物去除油腻的食物类污垢、食物残渣的薄膜和其它小的食物组合物的方法。本发明的蛋白酶有助于通过蛋白的催化水解去除污渍。本发明的蛋白酶可以在纺织品洗涤去污剂中、洗碗用洗涤剂中使用。

实际的活性酶含量依赖于去污剂组合物的制造方法，该含量不是关键性的，只要去污剂溶液具有期望的酶活性。一方面，最终溶液中存在的蛋白酶的量在每克去污剂组合物中从大约0.001mg到0.5mg变化。选择用于该方法和本发明的产品的特定酶依赖于最终的使用条件，包括产品的物理形式、使用时的pH、使用温度和将被降解或改变的污垢类型。可以对酶进行选择以针对给定的一组使用条件提供最佳的活性和稳定性。一方面，本发明的蛋白酶在pH从大约4到大约12的范围内具有活性，在大约20℃到大约95℃的温度范围内具有活性。本发明的去污剂可以包括阳离子、半极性非离子或两性离子表面活性剂；或其混合物。

本发明的蛋白酶可以被配制成粉末或液体去污剂，pH在4.0到12.0之间，重量百分比为大约0.01％到大约5％(优选0.1％到0.5％)的水平。这些去污剂组合物也包括其它酶，如蛋白酶、纤维素酶、脂肪酶或内切糖苷酶、内切-β-1，4-葡聚糖酶、β-葡聚糖酶、内切-β-1，3(4)-葡聚糖酶、角质酶、过氧化物酶、漆酶、淀粉酶、葡糖淀粉酶、果胶酶、还原酶、氧化酶、酚氧化酶、木质素酶、阿拉伯聚糖酶、半纤维素酶、甘露聚糖酶、木质葡聚糖酶、木聚糖酶、果胶乙酰酯酶、多聚鼠李半乳糖醛酸乙酰酯酶、多聚半乳糖醛酸酶、多聚鼠李半乳糖醛酸酶、半乳聚糖酶、果胶裂解酶、果胶甲基酯酶、纤维二糖水解酶和/或转谷氨酰胺酶。这些去污剂组合物也包括增洁剂和稳定剂。

向传统的洗涤组合物中添加本发明的蛋白酶不会造成任何特殊的应用限制。换句话说，适合去污剂的任何温度和pH都适用于本发明的组合物，只要酶在打算使用的pH和/或温度下有活性，或是可耐受的。另外，本发明的蛋白酶可用于不需要去污剂的洗涤剂中，单独应用或与增洁剂和稳定剂联合应用。

本发明提供了洗涤组合物，包括用于洗涤硬表面的去污剂组合物、用于洗涤织物的去污剂组合物、洗碗用组合物、口腔清洗组合物、假牙清洗组合物和隐型眼镜洗涤溶液。

一方面，本发明提供了用于洗涤物体的方法，包括使物体在足以洗涤的条件下接触本发明的多肽。本发明的蛋白酶可作为去污剂添加剂被包含在内。本发明的去污剂组合物可以，例如被配制成包含本发明多肽的手洗或机洗用去污剂组合物。适合于预处理带污渍的织物的洗衣添加剂可以含有本发明的多肽。织物柔顺剂组合物可以含有本发明的多肽。可以选择地，本发明的蛋白酶可以被配制为去污剂组合物，以用于通常的家庭硬表面洗涤操作。在可选择的方面，本发明的去污剂添加剂和去污剂组合物可以包含一种或多种其它的酶，例如蛋白酶、脂肪酶、角质酶、别的蛋白酶、糖酶、纤维素酶、果胶酶、甘露聚糖酶、阿拉伯糖酶、半乳聚糖酶、木聚糖酶、氧化酶，例如乳糖酶和/或过氧化物酶(也参见上面)。对本发明的(一种或多种)酶的性质进行选择，以使其与所选择的去污剂相容(即，与最适pH、与其它酶和非酶成分相容等等)，所述的酶以有效量存在。一方面，本发明的蛋白酶被用于从织物中去除恶臭物质。可以在本发明的实践中使用的各种去污剂组合物和制造它们的方法已经有描述，例如美国专利6,333,301；6,329,333；6,326,341；6,297,038；6,309,871；6,204,232；6,197,070；5,856,164。

当配制为适合用于洗衣机洗涤方法中的组合物时，本发明的蛋白酶可以包括表面活性剂和增洁剂化合物。它们可以额外地包括一种或多种去污剂组分，例如有机聚合物、漂白剂、其它的酶、抑泡剂、分散剂、钙皂分散剂、污垢悬浮、抗再沉积剂和缓蚀剂。本发明的洗衣组合物也含有软化剂，它们是作为额外的去污剂组分。当配制为洗衣去污剂组合物时，含有糖酶的这样的组合物可以提供织物洗涤、污渍去除、白度保持、软化、颜色呈现、染料传递抑制和卫生洗涤。

本发明的洗涤去污剂组合物的密度范围可以在大约200到1500g/升之间，或大约400到1200g/升，或大约500到950g/公升，或600到800g/公升；这可以在大约20℃测量。

本发明的洗涤去污剂组合物的“紧密(compact)”形式最好由密度来反映，就组合物而言，可以通过无机填料盐类的量来反映。无机填料盐是粉末形式的去污剂组合物的传统成分。在传统去污剂组合物中，填料盐以相当大的量存在，通常是总组合物重量的17％到35％。在紧密组合物的一方面，填料盐以不超过总组合物的15％的量存在，或不超过10％，或不超过组合物重量的5％。无机填料盐可选自硫酸盐和氯化物的碱和碱土金属盐，例如硫酸钠。

本发明的液体去污剂组合物也可以是“浓缩形式”。一方面，与传统液体去污剂相比，液体去污剂组合物可含有较少量的水。在可以选择的方面，浓缩的液体去污剂的含水量低于去污剂组合物重量的40％，或低于30％，或低于20％。本发明的去污剂化合物可以包括WO 97/01629中描述的配方。

本发明的蛋白酶如金属蛋白酶(MP)和丝氨酸蛋白酶可在多种洗涤组合物的配制中使用。大量已知的化合物是合适的表面活性剂，它们可以被使用，包括非离子、阴离子、阳离子或两性离子去污剂，例如美国专利4,404,128；4,261,868；5,204,015中所公开的。此外，蛋白酶可以被使用，例如应用于条皂或液体皂、盘碟护理制剂、隐形眼睛清洗溶液或产品、肽水解、废物处理、纺织应用中，在蛋白制备中作为融合物的裂解酶，等等。与别的去污剂蛋白酶相比，这些蛋白酶可以在去污剂组合物中提供增强的性能，也就是，这一组酶可以提高某些酶敏感的污物的洗涤，如草或血液，正如在进行标准的洗涤循环后用通常的评价方法所测定的。金属蛋白酶、丝氨酸蛋白酶(或本发明的其它蛋白酶)可以被配制到已知的粉末和液体去污剂中，它们的pH在6.5到12.0之间，蛋白酶的重量百分比为大约0.01％到大约5％(例如，大约0.1％到0.5％)的水平。这些去污剂洗涤组合物也可以包括其它酶，如已知的蛋白酶、淀粉酶、纤维素酶、脂肪酶或内切糖苷酶，以及增洁剂和稳定剂。

处理纤维和织物

本发明提供了使用本发明的一种或多种蛋白酶处理纤维和织物的方法。这些蛋白酶可以在任何纤维或织物处理方法中使用，这些方法在本技术领域是已知的，例如参见美国专利6,261,828；6,077,316；6,024,766；6,021,536；6,017,751；5,980,581；美国专利公开号20020142438 A1。例如，本发明的蛋白酶可以在纤维和/或织物退浆中使用。一方面，织物的手感和外观通过包括用本发明的蛋白酶在溶液中接触织物的方法得到了改进。一方面，用溶液在压力下处理织物。例如，本发明的蛋白酶可以用于去除染料。

一方面，本发明的蛋白酶在织物的编织过程中或之后应用，或在退浆阶段应用，或在一个或多个其它的织物处理步骤中应用。在织物的编织过程中，线被施加相当大的机械张力。在机械织布机上进行编织之前，经纱通常用上浆淀粉或淀粉衍生物涂覆，以便提高它们的拉伸强度并防止断裂。本发明的蛋白酶可用于去除这些上浆淀粉或淀粉衍生物。在纺织品已经编织好之后，织物继续进行到脱浆阶段。随后可以是一个或多个额外的织物加工步骤。脱浆是从纺织品中去除“浆料”的作用过程。在编织之后和进一步加工织物之前，必须去除浆料涂层，以便确保均匀且耐水的效果。本发明提供了一种脱浆方法，包括通过本发明蛋白酶的作用对“浆料”进行酶作用处理。

本发明的酶可作为去污剂添加剂对织物进行脱浆，所述织物包括含棉织物，所述酶可以例如在含水组合物中。本发明提供了在靛类染色的粗斜纹棉布织物和衣服上产生砂洗外观的方法。对于服装制造，织物可以被剪裁并缝纫为衣料或服装。这些可以在处理前或处理后完成。尤其是，对于粗斜纹布牛仔裤的制造，已经开发了不同的酶加工方法。粗斜纹棉布服装的整理(finishing)通常从酶脱浆步骤开始，在该步骤中服装经受淀粉分解酶的作用，以便给织物提供柔软性，使得棉织物更易于进行后面的酶促整理步骤。本发明提供了使用本发明的蛋白酶加工粗斜纹棉布服装(例如“生物-磨光方法(bio-stoning process)”)、酶促脱浆并给织物提供柔软性的方法。本发明提供了在脱浆和/或整理过程中快速软化粗斜纹棉布服装的方法。

其它酶也可在这些脱浆过程中使用。例如，碱性和热稳定淀粉酶和蛋白酶可被组合在单一容器中，以进行脱浆和生物洗涤(bioscouring)。将脱浆和洗涤组合在一个步骤的优点是由于节约了能量和水从而降低了成本并降低了环境影响，并且减少了废物的产生。脱浆和生物洗涤的示例性的应用条件是大约pH8.5到pH10.0，大约40℃和以上的温度。使用本发明的蛋白酶，低的酶用量，例如每吨棉大约100克，和短反应时间，例如大约15分钟，可以获得有效的脱浆和洗涤，而不用添加钙。

一方面，碱性和热稳定淀粉酶和蛋白酶被组合在脱浆和生物洗涤的单一容器中。将脱浆和洗涤组合在一个步骤的优点是由于节约了能量和水从而降低了成本并降低了环境影响，并且减少了废物的产生。脱浆和生物洗涤的应用条件可以是大约pH8.5到pH10.0之间，大约40℃和以上的温度。低的酶用量(例如每吨棉大约100克)和短的反应时间(例如大约15分钟)可以获得有效的脱浆和洗涤，而不用添加钙。

本发明的蛋白酶可以与其它碳水化合物降解酶一起使用，来制备纤维或洗涤纤维，所述碳水化合物降解酶例如纤维素酶、阿拉伯聚糖酶、木质葡聚糖酶、果胶酶，以及类似的酶。这些可以与去污剂一起使用。一方面，本发明的蛋白酶可以在防止纺织品泛灰的处理中使用。

本发明的蛋白酶可用于处理任何纤维素材料，包括纤维(例如来自棉花、大麻、亚麻或亚麻制品的纤维)、已缝纫和未缝纫的织物，例如编织织物、机织织物、粗斜纹棉布、纱线和毛巾料，它们是用棉、棉混合物或天然或人造纤维素(例如来自含有木聚糖的纤维素纤维，例如来自木浆)或其组合制成。混合物的实例是棉花或人造丝/纤维胶的混合物，其具有一种或多种辅助材料，如羊毛、合成纤维(例如聚酰胺纤维、丙烯酸纤维、聚酯纤维、聚乙烯醇纤维、聚氯乙烯纤维、聚偏二氯乙烯纤维、聚氨酯纤维、聚脲纤维、芳族聚酰胺纤维)和含有纤维素的纤维(例如人造丝/纤维胶、苎麻、大麻、亚麻/亚麻制品、乙酸纤维素纤维、Lyocell(莱塞尔))。

本发明的纺织品处理过程(使用本发明的蛋白酶)可以与其它的纺织品处理——例如精练(scouring)和漂白——联合使用。精练是从棉花纤维中去除非纤维素材料，例如表皮(主要由蜡构成)和初生细胞壁(主要由胶质、蛋白和木葡聚糖构成)。适当的去除蜡对于获得高的可湿润度是必要的。这是染色工艺所必须的。通过本发明的方法去除初生细胞壁，可改善蜡的去除，确保更均匀的染色。用本发明的方法处理纺织品能改善漂白过程中的白度。精练过程中所用的主要的化学制品是以高浓度存在的、高温下的钠的氢氧化物。漂白包括氧化纺织品。漂白通常涉及使用过氧化氢作为氧化剂，以便获得完全漂白(白)的织物，或确保染料的干净的色泽。

本发明也提供了碱性蛋白酶(在碱性条件下有活性的蛋白酶)。这些蛋白酶在纺织品加工、植物纤维(例如植物韧皮纤维)的脱胶、果胶废水的处理、造纸、咖啡和茶叶的发酵中有广泛的应用。例如参见Hoondal(2002)Applied Microbiologyand Biotechnology 59：409-418。

处理食物和食品加工

本发明的蛋白酶在食品加工行业具有多种应用。例如，一方面，本发明的蛋白酶被用于改进从富含油的植物材料例如富含油的种子中提取油，例如从大豆中提取大豆油，从橄榄中提取橄榄油，从油菜籽中提取油菜籽油，和/或从向日葵种子提取葵花油。

本发明的蛋白酶可用于分离植物细胞材料中的成分。例如，本发明的蛋白酶可以用于将富含蛋白的材料(例如植物细胞)分离为不同的成分，例如，从糖用甜菜中分离蔗糖，从马铃薯、果肉或果皮部分分离糖或淀粉。一方面，本发明的蛋白酶可以用于将富含蛋白或富含油的作物分离为有价值的蛋白和油和果皮部分。分离步骤可通过使用本技术领域已知的方法进行。

本发明的蛋白酶可以在果汁或蔬菜汁、糖浆、提取物以及类似物的制备中使用，以提高产率。本发明的蛋白酶可以在各种源自植物细胞壁的材料或废物材料的酶处理(例如蛋白的水解)中使用，所述待处理的材料例如来自酒或果汁的生产，或农业残余物如蔬菜皮壳、豆荚、甜菜果肉、橄榄果肉、马铃薯果肉以及类似物。本发明的蛋白酶可用于改变被加工的水果或蔬菜的稠度和外观。本发明的蛋白酶可用于处理植物材料，以有助于植物材料的加工，包括食物，以有助于植物成分的纯化或提取。本发明的蛋白酶可用于改进饲料价值，降低水结合能力，改善废水植物的降解性和/或改善植物材料到青贮饲料的转化，以及类似的应用。

动物饲料和食品或饲料添加剂

本发明提供了使用本发明的蛋白酶处理动物饲料和食品以及食品或饲料添加剂的方法，所述动物包括哺乳动物(例如人)、鸟、鱼以及类似的动物。本发明提供了包含本发明的蛋白酶的动物饲料、食品和添加剂。一方面，使用本发明的蛋白酶处理动物饲料、食品和添加剂可以有助于营养物例如淀粉在动物饲料或添加剂中的可利用性。通过分解难以消化的蛋白或者间接地或直接地暴露淀粉(或其它营养物)，所述蛋白酶使得营养物更易于受到其它内源或外源酶的触及。蛋白酶也可以简单地引起易于消化和易于吸收的营养物和糖的释放。

在动物饲料或食物的改造中，本发明的蛋白酶可以在体外(通过改变饲料或食物中的组分)或体内加工食物或饲料。蛋白酶可被添加到含有大量阿拉伯半乳聚糖或半乳聚糖的动物饲料或食物组合物中，例如含有来自大豆、油菜籽、羽扇豆等等的植物材料的饲料或食物。当加入到饲料或食物时，蛋白酶显著地改进了植物细胞壁材料的体内分解，从而实现了动物(例如人)更好地利用植物营养物。一方面，改进了动物的生长速度和/或饲料转化率(即被消化的饲料重量相对于增加的重量)。例如含有部分消化或未消化的半乳聚糖的蛋白通过本发明的蛋白酶被完全或部分降解，蛋白酶可以例如与其它酶一起作用，例如β-半乳糖苷酶，从而降解得到肽和半乳糖和/或半乳糖低聚物。这些酶消化产物更易于被动物消化。因此，本发明的蛋白酶可有助于改善饲料或食物的可用能量。而且，通过帮助含有半乳聚糖的蛋白的降解，本发明的蛋白酶可以改进碳水化合物和非碳水化合物的饲料或食物中的组分诸如蛋白、脂肪和矿物的可消化性和吸收。

另一方面，本发明的蛋白酶可以通过直接在转基因饲料作物(如转基因植物、种子以及类似物)中表达酶来供给，所述作物例如玉米、大豆、油菜籽、羽扇豆等等。正如上面所讨论的，本发明提供了含有编码本发明多肽的核酸序列的转基因植物、植物部分和植物细胞。一方面，所述核酸被表达，这样本发明的蛋白酶以可回收的量产生。蛋白酶可以从任何植物或植物部分回收。可以选择地，含有重组多肽的植物或植物部分可以被这样使用，以提高食物或饲料的质量，例如提高营养价值、口味和流变性质，或者破坏抗营养的因子。

纸或纸浆处理

本发明的蛋白酶可以在纸或纸浆处理或纸脱墨中使用。例如，一方面，本发明提供了使用本发明的蛋白酶的纸处理方法。另一方面，在化学和酶促脱墨过程中处理再循环影印纸的纸组分。一方面，本发明的蛋白酶可以与纤维素酶、果胶酸裂解酶或其它酶一起使用。纸可以通过如下三个过程来处理：1)在存在本发明的蛋白酶的情况下进行离解；2)用脱墨化学制品和本发明的蛋白酶进行离解，和/或3)在用本发明的蛋白酶浸透后进行离解。与仅仅用纤维素酶处理的纸相比，用蛋白酶处理的循环纸可以具有更高的亮度，这是由于去除了调色剂颗粒。尽管本发明不受任何特定机理的限制，但本发明的蛋白酶的效果可能是由于其在纸浆悬浮物中作为表面活性剂的行为。

本发明提供了使用本发明的一种或多种蛋白酶处理纸和纸浆的方法。本发明的蛋白酶可以在任何纸处理或纸浆处理方法中使用，这些方法在本技术领域是熟知的，例如参见美国专利6,241,849；6,066,233；5,582,681。例如，一方面，本发明提供了对含有染料的印刷纸进行脱墨和脱色的方法，包括使印刷纸变成浆状物，以得到纸浆，并在存在本发明蛋白酶(也可以加入其它酶)的情况下从纸浆中移去油墨。另一方面，本发明提供了增加纸浆的打浆度的方法，所述纸浆例如由再生纤维制成的纸浆，这可以是通过将含有本发明蛋白酶的酶促混合物(也可以含有其它酶，例如果胶酸分裂酶、纤维素酶、淀粉酶、葡糖淀粉酶)加入到纸浆中，在可引起反应的条件下进行处理，以产生酶促处理的纸浆。酶促处理的纸浆的打浆度相对于再生纤维纸浆的初始打浆度有所增加，光度没有损失。

废物处理

本发明的蛋白酶可以在多种其它的工业应用中使用，例如在废物处理中。例如，一方面，本发明提供了使用本发明的蛋白酶的固体废物降解方法。这些方法可以包括减少基本上未处理的固体废物的质量和体积。固体废品可以在控制温度下在存在酶溶液(含有本发明的蛋白酶)的情况下用酶促降解方法处理。这导致的是一种不存在着由于添加微生物而产生显著细菌发酵的反应。固体废物被转化为液化的废物和一些剩余的固体废物。所得到的液化废物可以与所述任何剩余的固体废物分离。例如参见美国专利5,709,796。

此外，本发明的蛋白酶可以在动物炼油行业应用，例如可以除去羽毛，例如Yamamura(2002)Biochem.Biophys.Res.Com.294：1138-1143所描述的。碱性蛋白酶也可以在由废羽毛或含角蛋白的材料生产蛋白质饲料的方法中使用，例如Gupta(2002)Appl.Mcirobiol.Biotechnol.59：15-32所描述的。

口腔护理产品

本发明提供了包含本发明蛋白酶的口腔护理产品。示例性的口腔护理产品包括牙膏、牙科乳剂、凝胶或牙粉、牙用产品、漱口剂、刷洗前或刷洗后润洗制剂、口香糖、糖块或糖果。例如参见美国专利6,264,925。

酿造和发酵

本发明提供了包含本发明的蛋白酶的酿造(例如发酵)啤酒的方法。在一个示例性的方法中，含淀粉的原料被离解，并被加工以形成麦芽。本发明的蛋白酶可以在发酵过程中的任意阶段使用。例如，本发明的蛋白酶可以在大麦麦芽的加工中使用。啤酒酿造的主要原料是大麦麦芽。这可以是一个三阶段过程。首先，大麦谷物被浸渍以增加水含量，例如增加到大约40％左右。第二，所述谷物可以在15℃到25℃的温度温育3到6天以便发芽，此时酶合成在赤霉素的控制下受到刺激。一方面，本发明的蛋白酶在该过程的这个(或任意其它)阶段加入。蛋白酶的作用导致可发酵的还原糖有所增加。这可以被表示为糖化力(diastatic power)，DP，在12℃糖化力可以在5天内从大约80上升到190。本发明的蛋白酶可以在任何啤酒或酒精饮料生产方法中使用，例如美国专利5,762,991；5,536,650；5,405,624；5,021,246；4,788,066中所描述的。

医疗和研究应用

本发明的蛋白酶可用于以与胶原酶相同的方式从组织分离细胞，用于细胞治疗。例如，本发明的金属内切蛋白酶和其它酶可以将胶原割裂为更小的肽片段，它们可以用作实现组织解离的“释放酶(liberase enzymes)”，提高分离的细胞的健康状况。“释放酶”可以取代传统的胶原酶。本发明的具有胶原酶I、胶原酶II、梭菌蛋白酶和/或中性蛋白酶活性的蛋白酶可用于组织解离。一方面，为了组织解离，本发明的胶原酶同工型可以彼此混合，可选地，还可以与中性蛋白酶混合。一方面，所述中性蛋白酶是中性蛋白酶离散酶(dispase)和/或中性蛋白酶嗜热菌蛋白(thermolysin)。

此外，本发明的蛋白酶可被用作抗微生物剂，这是由于它们具有的溶菌性质，例如Li，S.等人，Bacteriolytic Activity and Specificity of Achromobacter b-LyticProtease，J.Biochem.124，332-339(1998)中所描述的。

本发明的蛋白酶也可在治疗上用于割裂和破坏特定的蛋白。潜在的靶物质包括有毒蛋白，如炭疽、肉毒梭状芽孢杆菌(Clostridium botulinum)、蓖麻毒蛋白和基本的病毒和癌细胞蛋白。

本发明的蛋白酶也可以在消毒剂中使用，例如J.Gen Microbiol(1991)137(5)：1145-1153；Science(2001)249：2170-2172中所描述的。

本发明的蛋白酶的其它医疗应用包括脂肪瘤的去除、伤口清除(debraidment)和疤痕预防(胶原酶)、清除慢性皮肤溃疡和严重的烧伤区域。

本发明的蛋白酶可用于无菌的酶清洗组合物，例如软膏，在一个方面，每克含有大约250单位的胶原酶。白凡士林USP可以作为载体。一方面，本发明的蛋白酶可以在类似于

Ointment(BTC，Lynbrook，NY)的适应症中使用。本发明的蛋白酶也可以在藻酸盐敷料、抗微生物防护敷料、烧伤敷料、压缩绷带、诊断工具、凝胶敷料、水选择性敷料、溃伤吸水(泡沫)敷料、水状胶质敷料、I.V敷料、手术铺单、低粘性敷料、气味吸附敷料、浆糊状绷带、手术后敷料、疤痕处理、皮肤护理、透明膜敷料和/或伤口闭合中使用。本发明的蛋白酶可以在创伤清洗、创伤垫制备中使用，以处理压疮、腿部溃疡、烧伤、糖尿病患者腿部溃疡、疤痕、IV固定、外科伤口和轻伤。

另外，本发明的蛋白酶可以在蛋白质组学(proteomics)和一般的实验室工作中使用。例如，蛋白酶可以以与DNA限制酶相同的方式被使用。

其它工业应用

本发明也包括增加地下形成物(subterranean formation)中的生产液体(production fluids)的流动的一种方法，其是通过除去在生产操作过程中形成并且在地下形成物中发现的粘性、含蛋白的、破坏性液体，这些地下形成物包围着整个井孔，所述方法包括允许生产液体从井孔流出；将来自形成物的生产液体的流动降低到预期流速以下；通过将含水液体和本发明的多肽混合在一起配制酶处理物；将酶处理物泵入到井孔内的期望位置；允许酶处理物降解粘性、含蛋白的、破坏性液体，从而可以将液体从地下形成物中移除到井的表面；其中酶处理物可以有效地攻击细胞壁中的蛋白。

本发明的蛋白酶可用于肽合成，可在皮革工业中使用，例如用于皮革加工，例如除去和/或减少毛发，可用于废物处理，例如从排水管中除去头发，可在摄影行业使用，例如用于从胶片中回收银，可在医疗行业中使用，如上所讨论的，例如用于处理烧伤、伤口、痈、疔疮、深砂眼或通过溶解纤维蛋白溶解血液凝块，可用于丝绸脱胶。

在其它方面，本发明的蛋白酶可用作香味增强剂，例如用在乳酪和动物食品中，例如在Pommer，K.Investigating the impact of enzymes on pet food palatability，Petfood Industry，May 2002，10-11中描述的。

仍然在本发明的另一个方面，本发明的蛋白酶可以用于增加在玉米湿磨中的淀粉产量，例如Johnston，D.B.和Singh，V.Use of proteases to Reduce Steep Time andSO2 requirements in a corn wet-milling process，Cereal Chem.78(4)：405-411中描述的。

在其它方面，本发明的蛋白酶可以在生物防御中使用(例如破坏孢子和细菌)。蛋白酶在生物防御应用中的使用提供了显著的益处，这在于它们能针对未来的任何当前未知的生物武器试剂非常快速地被开发出来。此外，本发明的蛋白酶可用于净化受污染的环境。

另外，本发明的蛋白酶可以在生物膜降解、生物材料转化为乙醇，和/或个人护理和化妆品行业中使用。

本发明的蛋白酶也用于增强对映选择性，例如在Arisawa，A.等人，StreptomycesSerine Protease(DHP-A)as a New Biocatalyst Capable of Forming Chiral Intermediatesof 1，4-Diohydropyridine Calcium Antagonists.Appl Environ Microbiol 2002 Jun；68(6)：2716-2725；Haring，D.等人，Semisynthetic Enzymes in Asymmetric Synthesis：Enantioselective Reduction of Racemic Hydroperoxides Catalyzed by Seleno-Subtilisin.J.Org.Chem.1999，64：832-835中描述的。

本发明将参考下述的实施例做进一步的描述；然而，应该理解到，本发明不限于这些实施例。

实施例

实施例1：蛋白酶活性测定

下述实施例描述了例证性蛋白酶活性测定法，以确定蛋白酶的催化活性。这些例证性测定法可用于确定多肽是否在本发明的范围内。

用于蛋白酶(其对蛋白是有活性的)的活性测定方法包括酶谱(zymograms)和液体底物酶测定法。三种不同类型的酶谱被用于测定活性：酪蛋白(casein)、明胶(gelatin)和玉米醇溶蛋白(zein)。对于液体底物酶测定法，使用了三种主要类型：凝胶电泳、邻苯二甲醛(OPA)和荧光终止点测定法(fluorescent end pointassays)。对于凝胶电泳和OPA测定法，使用了四种不同的底物：玉米醇溶蛋白、大豆胰蛋白酶抑制剂(SBTI，SIGMA-Aldrich，T6522)、麦胚凝集素和大豆凝集素。用于荧光终止点测定法的底物是明胶。

用于蛋白酶和肽酶(其对肽是有活性的)的活性测定方法使用了连接有pNA的小肽底物。这些测定法包括特异性终止点测定法、单位定义动力学测定法(unitdefinition kinetic assays)和pH测定法。

下述的实施例描述了上面所提及的示例性的蛋白酶活性测定方法。这些示例性的测定法可用于确定多肽是否在本发明的范围内。

蛋白(蛋白酶活性)

酪蛋白酶谱凝胶测定法

酪蛋白酶谱凝胶被用于评价蛋白酶活性(参见表1和2)。所述的蛋白酶活性测定法使用4-16％梯度凝胶(Invitrogen Corp.，Carlsbad，CA)来评价，所述4-16％梯度凝胶含有与蓝色染料偶联并且包埋在凝胶基质中的酪蛋白。所有的酶谱凝胶都根据制造商的说明书进行。简单的说，每一样品与等体积的2×上样染料混合，在上样之前温育10分钟，不需要加热。电泳后，将凝胶在复性缓冲液中温育，以去除SDS，从而允许蛋白重新获得它们的天然形式。然后将凝胶转移到显色溶液中，在37℃温育4到24小时。如果蛋白酶消化在凝胶中的酪蛋白，在对应于凝胶中该蛋白酶的位置，就会产生不同于其蓝色背景的透明带。阴性对照组(在凝胶图像上用NC表示)与每一实验中的实验样品同时进行，在与对应的蛋白酶相邻的酪蛋白酶谱上进行电泳。

与传统SDS-PAGE不同，在酪蛋白酶谱的电泳之前，样品没有被加热变性。结果是，有时难以准确地评估蛋白酶的分子量。例如，枯草杆菌蛋白酶A(Sigma，P5380，在凝胶图像上用Subt.A表示)的大小被预测为大约27kDa，所述枯草杆菌蛋白酶A在这些实验中被用作阳性对照组。然而，当使用所描述的条件通过酪蛋白酶谱进行电泳时，枯草杆菌蛋白酶A几乎不能迁移到凝胶中，只有在高于183kDa时才看得见。因此，酶谱不能定义所指示的蛋白酶的MW，但用作活性的指示剂更合适。

明胶酶谱测定法

明胶酶谱，

酶谱凝胶，根据制造商(Invitrogen Corp.，Carlsbad，CA)的说明书进行。与酪蛋白酶谱不同，明胶酶谱在显色后被染色，其中使用ColloidalBlue Staining Kit或SIMPLYBLUE^TM Safestain(两者都来自Invitrogen)。蛋白酶活性的区域显示为深色背景上的透明带。

玉米醇溶蛋白测定法

玉米醇溶蛋白被用作蛋白酶活性测定的底物，其中使用粉末的Z-3625(SigmaChemical Co.St.Louis，MO)和Aquazein的10％溶液(Freeman Industries，Tuckahoe，NY)。当通过SDS-PAGE凝胶分级分离时，来自两个供应商的玉米醇溶蛋白产生了24和22kDa的带。两个玉米醇溶蛋白条带在分子量上是与那些先前描述的α-玉米醇溶蛋白一最丰富的玉米醇溶蛋白亚类一对应的，其被估计在玉米中构成了总玉米醇溶蛋白的71-84％(参见，例如Consoil(2001)Electrophoresis22：2983-2989)。结果阐明于上面的表3中。

含有活性蛋白酶的冻干培养物上清被重悬浮、透析，并用玉米醇溶蛋白在50mM KPO₄，pH7.5中温育。反应以96孔微量滴定形式进行。对“仅仅底物”和“仅仅酶制剂”的对照组以及实验样品进行操作。在30℃温育24小时后，移出等份试样，进行OPA、SDS-PAGE或酶谱分析。在一些情况下，移出新鲜的等份试样，在30℃在48或72小时后分析。

玉米醇溶蛋白酶谱：Aquazein被加入到10％聚丙烯酰胺凝胶中，终浓度为0.075％。被透析的蛋白酶样品的等份试样通过使用标准条件的玉米醇溶蛋白酶谱进行电泳。在电泳之后，清洗酶谱凝胶，在复性缓冲液中温育，在最优化蛋白酶活性的显色缓冲液(含有NaCl、CaCl₂和Brij 35，在Tris缓冲液中，pH8)中温育过夜，并用考马斯蓝染料染色。

SDS-PAGE：从每一样品取出等体积的等份试样，进行SDS-PAGE分析。在电泳后，凝胶中的蛋白用SYPRO Orange(Molecular Probes)染色，用UV透视法观察。

OPA：在存在β-巯基乙醇(BME)的情况下，OPA与游离氨基末端反应，产生可使用标准的荧光平板读数器检测的荧光咪唑。在该测定法中，从每一样品中取出等体积的等份试样，放置在黑色荧光平板中。然后用OPA试剂以1∶10稀释样品。在温育5分钟后测定荧光(Ex＝340nm，Em＝450nm)。所有底物上的OPA数据的总结于上面的表3中。

大豆胰蛋白酶抑制剂测定法

大豆胰蛋白酶抑制剂(SBTI，SIGMA-Aldrich，T6522)被用作蛋白酶活性的底物。含有活性蛋白酶的冻干培养物上清被重悬浮、透析，并用SBTI(终浓度为1mg/ml)在37℃、50mM KPO₄，pH7.5温育。单独底物和单独酶制剂的对照组以及实验样品都被进行。在24小时后，移出等份试样，进行OPA和SDS-PAGE分析。结果阐明于上面的表3中。SDS-PAGE：对于SBTI，在电泳后，用考马斯蓝染色在凝胶中的蛋白。

麦胚凝集素测定法

麦胚凝集素(WGA，EY Laboratories，L-2101，Pure)被用作蛋白酶活性的底物。含有活性蛋白酶的冻干培养物上清被重悬、透析，并用WGA(终浓度为1mg/ml)在37℃、50mM KPO₄，pH7.5温育。单独底物和单独酶制剂的对照组以及实验样品都被进行。在24小时后，移出等份试样，进行OPA和SDS-PAGE分析。结果阐明于上面的表3中。SDS-PAGE：对于WGA，在电泳后，用考马斯蓝染色在凝胶中的蛋白。

大豆凝集素测定法

大豆凝集素(SBA，EY Laboratories，L-1300，Crude)被用作蛋白酶活性的底物。含有活性蛋白酶的冻干培养物上清被重悬、透析，并用SBA(终浓度为1mg/ml)在37℃、50mM KPO₄，pH7.5温育。单独底物和单独酶制剂的对照组以及实验样品都被进行。24小时后，移出等份试样，进行OPA和SDS-PAGE分析。结果阐明于上面的表3中。SDS-PAGE：对于SBA，在电泳后，用考马斯蓝染色在凝胶中的蛋白。

荧光液体终止点测定法中的明胶

DQ明胶(Molecular Probes，荧光素共轭物，D-12054)被用于评价本发明的蛋白酶的蛋白水解活性。DQ明胶是一种蛋白，该蛋白带有沉重的荧光团标记，以至于当该分子保持为完整状态时，其荧光是被猝灭的。割裂底物的蛋白酶将使荧光团从内部淬火的状态释放出来，并且荧光将与蛋白酶活性成比例增加。DQ明胶在100ul反应中被稀释到终浓度25ug/ml，所述反应含有适当的缓冲液如酶谱显色缓冲液(Invitrogen)和数量变化的蛋白酶制剂。在384孔、透明、扁平底微量滴定板上于37℃温育反应，温育时间为1小时到过夜的各种时长。在37℃温育不同的时间后，使用荧光平板读数器监控荧光。

从荧光液体终止点测定法获得的结果的实例可参见表5和图5，其显示了SEQID NO：144(由SEQ ID NO：143编码)的活性。样品被重复测定两次，原始数据在表4中显示，如下。对两次测定结果进行平均，由阴性对照组推出的背景被扣除，使用条柱图(图5)描述由SEQ ID NO：144活性引起的荧光在1小时内的增加。

表5

肽(蛋白酶和肽酶活性)

特异性终止点测定法

连接到发色团的合成小肽底物通常被用来确定特异性，它们在蛋白酶的生物化学表征中有用。为了测量本发明的蛋白酶的底物特异性，从Sigma获得了几种连接着对硝基苯胺(pNA)的合成肽，包括Ala-Ala-Pro-Phe-pNA(AAPF)、Ala-Ala-Ala-pNA(AAA)、N-Bz-D，L-Arg-pNA(BAPNA)、Gly-Gly-Phe-pNA、Ile-Glu-Gly-Arg-pNA和Pro-Phe-Arg-pNA。当P1底物位置处的氨基酸与pNA基团之间的肽键被切割时，便产生了黄色，其吸光度可以在410nm测量。用DMSO制备小肽底物的25mM储液。所使用的底物在100ul反应体积中的终浓度为250uM，所述反应包括变化数量的蛋白酶制剂。反应在合适的蛋白酶缓冲液中进行，如来自Invitrogen的1X酶谱显色缓冲液，在384孔、透明、扁平底微量滴定板上于37℃温育反应，温育时间为1小时到过夜的各种时长。这种“终止点”测定方法提供了一种替代定量方法的定性方法，来评价底物特异性。然而，通过确定使用各种小肽底物时的初始速率，该方法可适当改变以提供定性数据。

单位定义动力学测定法

下述的测定方法被开发出来，使用pNA连接的小肽底物测定蛋白酶单位活性。该测定法允许基于单位对单位的关系(unit per unit)将本发明的酶与枯草杆菌蛋白酶进行直接比较。游离pNA被用来产生标准曲线，以允许将pNA吸光度(A405nm)转化为pNA的摩尔数，从而允许直接量化蛋白酶释放的pNA的数量(图6)。

枯草杆菌蛋白酶A在AAPF-pNA上的活性(初始速率)在该酶的100倍的浓度范围内进行测量(在测定分析中为0.1-10U/mL，基于Sigma提供的活性)。枯草杆菌蛋白酶A的活性在该范围内与酶浓度成线性，允许在较广的活性范围内测定等同单位的本发明的酶。枯草杆菌蛋白酶A的标准曲线如图7所示。

pH测定

下述的测定方法被开发出来，使用枯草杆菌蛋白酶A来确定蛋白酶在多个pH的相对活性。鉴定了四种不同的缓冲液，它们将允许进行一系列不同pH的测试。使用小肽底物对硝基苯胺连接的丙氨酸-丙氨酸-脯氨酸-苯丙氨酸(AAPF-pNA，Sigma，S-7388)来如下地测定蛋白酶活性：在期望的pH，确定使用所述测定条件时获得初始速率所要求的枯草杆菌蛋白酶A的量(5mM AAPF-pNA，37℃)。反应进行三次。确定初始速率并且平均。测定在多个不同pH时相对于具有最高活性的样品的活性百分比，然后作出百分比相对活性与pH的曲线。在不存在酶活性的情况下验证在所测试的pH下的底物稳定性。结果如表6和图8中所示。

表6 速率(A_405nm×10³分钟^-1)

pH	缓冲液	1	2	3	平均	标准偏差	变化百分比％	相对活性％
pH	缓冲液	1	2	3	平均	标准偏差	变化百分比％	相对活性％	5.0	苹果酸	3.71	3.80	3.62	3.71	0.09	2.5	10.09
5.5	苹果酸	8.49	8.16	8.41	8.35	0.17	2.02	22.72	5.0	苹果酸	3.71	3.80	3.62	3.71	0.09	2.5	10.09

6.0	苹果酸	13.56	13.24	12.23	13.01	0.69	5.32	35.38
6.0	苹果酸	13.56	13.24	12.23	13.01	0.69	5.32	35.38	5.5	MES	5.10	4.82	5.19	5.00	0.26	5.1	13.61
6.0	MES	11.81	11.53	11.18	11.51	0.32	2.75	31.3	5.5	MES	5.10	4.82	5.19	5.00	0.26	5.1	13.61
6.0	MES	11.81	11.53	11.18	11.51	0.32	2.75	31.3	6.5	MES	20.45	19.48	20.49	20.14	0.57	2.85	54.76
7.0	MES	27.54	27.51	27.03	27.36	0.28	1.03	74.41	6.5	MES	20.45	19.48	20.49	20.14	0.57	2.85	54.76
7.0	MES	27.54	27.51	27.03	27.36	0.28	1.03	74.41	6.5	MOPS	19.68	19.32	20.20	19.73	0.44	2.24	53.66
7.0	MOPS	29.97	28.89	29.65	29.50	0.55	1.87	80.23	6.5	MOPS	19.68	19.32	20.20	19.73	0.44	2.24	53.66
7.0	MOPS	29.97	28.89	29.65	29.50	0.55	1.87	80.23	7.5	MOPS	34.24	34.02	32.65	33.64	0.86	2.55	91.47
8.0	MOPS	36.76	37.19	36.37	36.77	0.41	1.12	100	7.5	MOPS	34.24	34.02	32.65	33.64	0.86	2.55	91.47
8.0	MOPS	36.76	37.19	36.37	36.77	0.41	1.12	100	8.0	硼酸	34.55	32.97	34.10	33.87	0.81	2.39	92.12
8.5	硼酸	35.39	32.01	35.41	34.27	1.96	5.72	93.19	8.0	硼酸	34.55	32.97	34.10	33.87	0.81	2.39	92.12
8.5	硼酸	35.39	32.01	35.41	34.27	1.96	5.72	93.19	9.0	硼酸	34.85	33.99	33.45	34.10	0.70	2.07	92.72

已经对本发明的多个实施方案进行了描述。然而，应该理解到，可以进行多种变化，只要不背离本发明的精神和范围。因此，其它实施方案仍在权利要求书的范围内。

序列表

<110>M·卡约特(Michelle Cayouette)

C·J·汉森(Connie Jo Hansen)

A·麦克卢尔(Amy McClure)

M·迪卡库(Mark Dycaico)

S·格拉马蒂科瓦(Svetlana Gramatikova)

M·孙(May Sun)

N·巴顿(Nel son Barton)

J·斯特格(Justin Stege)

N·阿布沙迪(Nahla Aboushadi)

<120>蛋白酶、编码这些蛋白酶的核酸及它们的制备和应用方法

<130>09010-093WO1

<140>待指定

<141>2003-10-10

<150>60/418,467

<151>2002-10-10

<150>60/471,423

<151>2003-05-16

<160>255

<170>FastSEQ for Windows Version 4.0

<210>1

<211>1305

<212>DNA

<213>细菌

<400>1

<210>2

<211>434

<212>PRT

<213>细菌

<220>

<221>信号

<222>(1)...(37)

<400>2

<210>3

<211>1572

<212>DNA

<213>细菌

<400>3

<210>4

<211>523

<212>PRT

<213>细菌

<220>

<221>信号

<222>(1)...(36)

<400>4

<210>5

<211>3684

<212>DNA

<213>细菌

<400>5

<210>6

<211>1227

<212>PRT

<213>细菌

<220>

<221>信号

<222>(1)...(32)

<400>6

<210>7

<211>1332

<212>DNA

<213>细菌

<400>7

<210>8

<211>443

<212>PRT

<213>细菌

<400>8

<210>9

<211>2181

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>9

<210>10

<211>726

<212>PRT

<213>未知

<220>

<221>信号

<222>(1)...(28)

<223>从环境样品中获得

<400>10

<210>11

<211>1374

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>11

<210>12

<211>457

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>12

<210>13

<211>783

<212>DNA

<213>细菌

<400>13

<210>14

<211>260

<212>PRT

<213>细菌

<220>

<221>信号

<222>(1)...(33)

<400>14

<210>15

<211>900

<212>DNA

<213>细菌

<400>15

<210>16

<211>299

<212>PRT

<213>细菌

<220>

<221>信号

<222>(1)...(31)

<400>16

<210>17

<211>1137

<212>DNA

<213>细菌

<400>17

<210>18

<211>378

<212>PRT

<213>细菌

<400>18

<210>19

<211>2298

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>19

<210>20

<211>765

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(39)

<400>20

<210>21

<211>867

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>21

<210>22

<211>288

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(22)

<400>22

<210>23

<211>1647

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>23

<210>24

<211>548

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(23)

<400>24

<210>25

<211>1323

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>25

<210>26

<211>440

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>26

<210>27

<211>1893

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>27

<210>28

<211>630

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(27)

<400>28

<210>29

<211>1506

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>29

<210>30

<211>501

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(24)

<400>30

<210>31

<211>1929

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>31

<210>32

<211>642

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(26)

<400>32

<210>33

<211>981

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>33

<210>34

<211>326

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>34

<210>35

<211>1854

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>35

<210>36

<211>617

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(27)

<400>36

<210>37

<211>3582

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>37

<210>38

<211>1193

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(37)

<400>38

<210>39

<211>1386

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>39

<210>40

<211>461

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>40

<210>41

<211>1281

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>41

<210>42

<211>426

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(22)

<400>42

<210>43

<211>1881

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>43

<210>44

<211>626

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(25)

<400>44

<210>45

<211>1875

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>45

<210>46

<211>624

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(26)

<400>46

<210>47

<211>1506

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>47

<210>48

<211>501

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(24)

<400>48

<210>49

<211>1545

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>49

<210>50

<211>515

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(30)

<400>50

<210>51

<211>2874

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>51

<210>52

<211>957

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(27)

<400>52

<210>53

<211>2580

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>53

<210>54

<211>859

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(32)

<400>54

<210>55

<211>2022

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>55

<210>56

<211>673

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(27)

<400>56

<210>57

<211>1293

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>57

<210>58

<211>430

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(31)

<400>58

<210>59

<211>1203

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>59

<210>60

<211>400

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>60

<210>61

<211>1824

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>61

<210>62

<211>607

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(40)

<400>62

<210>63

<211>1869

<212>DNA

<213>古细菌

<400>63

<210>64

<211>622

<212>PRT

<213>古细菌

<400>64

<210>65

<211>1740

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>65

<210>66

<211>579

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>66

<210>67

<211>1854

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>67

<210>68

<211>617

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(27)

<400>68

<210>69

<211>1740

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>69

<210>70

<211>579

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(32)

<400>70

<210>71

<211>1620

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>71

<210>72

<211>539

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(25)

<400>72

<210>73

<211>1836

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>73

<210>74

<211>611

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(28)

<400>74

<210>75

<211>2262

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>75

<210>76

<211>753

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(25)

<400>76

<210>77

<211>2136

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>77

<210>78

<211>711

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>78

<210>79

<211>1407

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>79

<210>80

<211>468

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>80

<210>81

<211>1629

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>81

<210>82

<211>542

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(20)

<400>82

<210>83

<211>3048

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>83

<210>84

<211>1015

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(22)

<400>84

<210>85

<211>2166

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>85

<210>86

<211>721

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(20)

<400>86

<210>87

<211>1848

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>87

<210>88

<211>615

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(35)

<400>88

<210>89

<211>1791

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>89

<210>90

<211>596

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(32)

<400>90

<210>91

<211>1425

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>91

<210>92

<211>474

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>92

<210>93

<211>984

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>93

<210>94

<211>327

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(36)

<400>94

<210>95

<211>1806

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>95

<210>96

<211>601

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(24)

<400>96

<210>97

<211>681

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>97

<210>98

<211>226

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>98

<210>99

<211>1944

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>99

<210>100

<211>647

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>100

<210>101

<211>1125

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>101

<210>102

<211>374

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(22)

<400>102

<210>103

<211>897

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>103

<210>104

<211>298

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>104

<210>105

<211>2091

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>105

<210>106

<211>696

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>106

<210>107

<211>1116

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>107

<210>108

<211>371

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>108

<210>109

<211>1215

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>109

<210>110

<211>404

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>110

<210>111

<211>1596

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>111

<210>112

<211>531

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(36)

<400>112

<210>113

<211>4818

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>113

<210>114

<211>1606

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(32)

<400>114

<210>115

<211>2487

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>115

<210>116

<211>829

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(33)

<400>116

<210>117

<211>1356

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>117

<210>118

<211>451

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>118

<210>119

<211>1590

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>119

<210>120

<211>529

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>120

<210>121

<211>1557

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>121

<210>122

<211>518

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(25)

<400>122

<210>123

<211>1656

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>123

<210>124

<211>552

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(56)

<400>124

<210>125

<211>1215

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>125

<210>126

<211>404

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>126

<210>127

<211>1236

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>127

<210>128

<211>412

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(27)

<400>128

<210>129

<211>1248

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>129

<210>130

<211>415

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>130

<210>131

<211>903

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>131

<210>132

<211>300

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(21)

<400>132

<210>133

<211>939

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>133

<210>134

<211>313

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(27)

<400>134

<210>135

<211>3105

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>135

<210>136

<211>1034

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>136

<210>137

<211>705

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>137

<210>138

<211>234

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>138

<210>139

<211>1428

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>139

<210>140

<211>475

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(38)

<400>140

<210>141

<211>1755

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>141

<210>142

<211>584

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(25)

<400>142

<210>143

<211>2541

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>143

<210>144

<211>846

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<221>信号

<222>(1)...(35)

<400>144

<210>145

<211>4772

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>145

<210>146

<211>2397

<212>DNA

<213>未知

<220>

<223>从环境样品中获得

<400>146

<210>147

<211>798

<212>PRT

<213>未知

<220>

<223>从环境样品中获得

<400>147

<210>148

<211>4437

<212>DNA

<213>异旋孢腔菌(Cochliobolus heterostrophus)菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(203)...(1426)

<223>外显子

<400>148

<210>149

<211>408

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>149

<210>150

<211>1224

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1224)

<223>外显子

<400>150

<210>151

<211>408

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>结构域

<222>(5)...(389)

<223>真核生物天冬氨酰蛋白酶

<400>151

<210>152

<211>3002

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(257)...(304)

<223>外显子

<221>CDS

<222>(363)...(428)

<223>外显子

<221>CDS

<222>(588)...(725)

<223>外显子

<221>CDS

<222>(774)...(950)

<223>外显子

<221>CDS

<222>(1001)...(2290)

<223>外显子

<400>152

<210>153

<211>16

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>153

<210>154

<211>22

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>154

<210>155

<211>46

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>155

<210>156

<211>59

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>156

<210>157

<211>430

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>157

<210>158

<211>1719

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1719)

<400>158

<210>159

<211>573

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>结构域

<222>(96)...(532)

<223>丝氨酸羧基肽酶

<400>159

<210>160

<211>3407

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1001)...(1156)

<223>外显子

<221>CDS

<222>(1277)...(2023)

<223>外显子

<221>CDS

<222>(2177)...(2407)

<223>外显子

<221>misc_feature

<222>(1)...(3407)

<223>n=A，T，C或G

<400>160

<210>161

<211>52

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>161

<210>162

<211>249

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>162

<210>163

<211>77

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>163

<210>164

<211>1134

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1134)

<400>164

<210>165

<211>378

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>信号

<222>(1)...(17)

<221>结构域

<222>(128)...(378)

<223>肽酶家族M28

<400>165

<210>166

<211>4437

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1834)...(1854)

<223>外显子

<221>CDS

<222>(1932)...(2114)

<223>外显子

<221>CDS

<222>(2190)...(3134)

<223>外显子

<221>CDS

<222>(3204)...(3437)

<223>外显子

<400>166

<210>167

<211>7

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>167

<210>168

<211>61

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>168

<210>169

<211>315

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>169

<210>170

<211>78

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>170

<210>171

<211>1383

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1383)

<400>171

<210>172

<211>461

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>结构域

<222>(239)...(439)

<223>肽酶家族M48

<400>172

<210>173

<211>3237

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1440)...(1808)

<223>外显子

<221>CDS

<222>(1862)...(2044)

<223>外显子

<221>CDS

<222>(2096)...(2211)

<223>外显子

<221>CDS

<222>(2263)...(2353)

<223>外显子

<221>CDS

<222>(2448)...(3011)

<223>外显子

<400>173

<210>174

<211>123

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>174

<210>175

<211>61

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>175

<210>176

<211>39

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>176

<210>177

<211>30

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>177

<210>178

<211>188

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>178

<210>179

<211>1323

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1323)

<400>179

<210>180

<211>441

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>信号

<222>(1)...(21)

<221>结构域

<222>(116)...(325)

<223>锌羧基肽酶

<400>180

<210>181

<211>3266

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(7)...(114)

<223>外显子

<221>CDS

<222>(856)...(1134)

<223>外显子

<221>CDS

<222>(1185)...(1337)

<223>外显子

<221>CDS

<222>(1442)...(1786)

<223>外显子

<221>CDS

<222>(1838)...(2266)

<223>外显子

<400>181

<210>182

<211>36

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>182

<210>183

<211>93

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>183

<210>184

<211>51

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>184

<210>185

<211>115

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>185

<210>186

<211>143

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>186

<210>187

<211>1314

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1314)

<400>187

<210>188

<211>438

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>结构域

<222>(156)...(426)

<223>Subtilase家族

<221>结构域

<222>(74)...(142)

<223>枯草杆菌蛋白酶N末端区域

<400>188

<210>189

<211>4101

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1499)...(1597)

<223>外显子

<221>CDS

<222>(1649)...(1967)

<223>外显子

<221>CDS

<222>(2005)...(3104)

<223>外显子

<400>189

<210>190

<211>33

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>190

<210>191

<211>106

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>191

<210>192

<211>367

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>192

<210>193

<211>1518

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1518)

<400>193

<210>194

<211>506

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>信号

<222>(1)...(19)

<221>结构域

<222>(121)...(228)

<223>PA(蛋白酶相关)结构域

<221>结构域

<222>(234)...(468)

<223>肽酶家族M28

<400>194

<210>195

<211>4182

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1001)...(2182)

<223>外显子

<221>CDS

<222>(2238)...(2367)

<223>外显子

<221>CDS

<222>(2425)...(2549)

<223>外显子

<400>195

<210>196

<211>394

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>196

<210>197

<211>43

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>197

<210>198

<211>42

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>198

<210>199

<211>1437

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1437)

<400>199

<210>200

<211>479

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>信号

<222>(1)...(18)

<221>结构域

<222>(124)...(344)

<223>锌羧基肽酶

<400>200

<210>201

<211>3380

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1001)...(1592)

<223>外显子

<221>CDS

<222>(1641)...(2380)

<223>外显子

<221>misc_feature

<222>(1)...(3380)

<223>n=A，T，C或G

<400>201

<210>202

<211>197

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>202

<210>203

<211>247

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>203

<210>204

<211>1332

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1332)

<400>204

<210>205

<211>444

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>结构域

<222>(124)...(340)

<223>锌羧基肽酶

<400>205

<210>206

<211>3999

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1265)...(1549)

<223>外显子

<221>CDS

<222>(1609)...(1950)

<223>外显子

<221>CDS

<222>(2001)...(2999)

<223>外显子

<221>misc_feature

<222>(1)...(3999)

<223>n=A，T，C或G

<400>206

<210>207

<211>95

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>207

<210>208

<211>114

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>208

<210>209

<211>333

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>209

<210>210

<211>1626

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1626)

<400>210

<210>211

<211>542

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>信号

<222>(1)...(19)

<221>结构域

<222>(52)...(494)

<223>丝氨酸羧基肽酶

<400>211

<210>212

<211>4330

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(861)...(1172)

<223>外显子

<221>CDS

<222>(1222)...(1461)

<223>外显子

<221>CDS

<222>(1520)...(1714)

<223>外显子

<221>CDS

<222>(1768)...(1931)

<223>外显子

<221>CDS

<222>(2000)...(2330)

<223>外显子

<400>212

<210>213

<211>104

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>213

<210>214

<211>80

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>214

<210>215

<211>65

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>215

<210>216

<211>55

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>216

<210>217

<211>110

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>217

<210>218

<211>1242

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1242)

<400>218

<210>219

<211>414

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>结构域

<222>(112)...(317)

<223>锌羧基肽酶

<400>219

<210>220

<211>3554

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1001)...(2554)

<223>外显子

<221>misc_feature

<222>(1)...(3554)

<223>n=A，T，C或G

<400>220

<210>221

<211>518

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>221

<210>222

<211>1554

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1554)

<400>222

<210>223

<211>518

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>信号

<222>(1)...(15)

<221>结构域

<222>(234)...(471)

<223>肽酶家族M28

<221>结构域

<222>(115)...(224)

<223>PA(蛋白酶相关)结构域

<400>223

<210>224

<211>3377

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1001)...(1321)

<223>外显子

<221>CDS

<222>(1379)...(1536)

<223>外显子

<221>CDS

<222>(1589)...(1694)

<223>外显子

<221>CDS

<222>(1745)...(2377)

<223>外显子

<400>224

<210>225

<211>107

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>225

<210>226

<211>53

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>226

<210>227

<211>35

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>227

<210>228

<211>211

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>228

<210>229

<211>1218

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1218)

<400>229

<210>230

<211>406

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>信号

<222>(1)...(21)

<221>结构域

<222>(35)...(120)

<223>枯草杆菌蛋白酶N末端区域

<221>结构域

<222>(134)...(397)

<223>Subtilase家族

<400>230

<210>231

<211>3206

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(883)...(948)

<223>外显子

<221>CDS

<222>(1010)...(3106)

<223>外显子

<400>231

<210>232

<211>22

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>232

<210>233

<211>699

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>233

<210>234

<211>2163

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(2163)

<400>234

<210>235

<211>721

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>235

<210>236

<211>3434

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1001)...(1318)

<223>外显子

<221>CDS

<222>(1382)...(1645)

<223>外显子

<221>CDS

<222>(1711)...(1887)

<223>外显子

<221>CDS

<222>(1940)...(2437)

<223>外显子

<221>misc_feature

<222>(1)...(3434)

<223>n=A，T，C或G

<400>236

<210>237

<211>106

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>237

<210>238

<211>88

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>238

<210>239

<211>59

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>239

<210>240

<211>165

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>240

<210>241

<211>1254

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1254)

<400>241

<210>242

<211>418

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>信号

<222>(1)...(20)

<221>结构域

<222>(117)...(321)

<223>锌羧基肽酶

<400>242

<210>243

<211>4594

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1692)...(1873)

<223>外显子

<221>CDS

<222>(2057)...(2509)

<223>外显子

<221>CDS

<222>(2593)...(2768)

<223>外显子

<221>CDS

<222>(2834)...(3597)

<223>外显子

<400>243

<210>244

<211>61

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>244

<210>245

<211>151

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>245

<210>246

<211>58

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>246

<210>247

<211>254

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>247

<210>248

<211>1575

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1575)

<400>248

<210>249

<211>524

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>结构域

<222>(104)...(500)

<223>真核生物天冬氨酰蛋白酶

<400>249

<210>250

<211>6066

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(3361)...(3553)

<223>外显子

<221>CDS

<222>(3608)...(3767)

<223>外显子

<221>CDS

<222>(3821)...(5108)

<223>外显子

<400>250

<210>251

<211>64

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>251

<210>252

<211>54

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48231)

<400>252

<210>253

<211>429

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<400>253

<210>254

<211>1644

<212>DNA

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>CDS

<222>(1)...(1644)

<400>254

<210>255

<211>547

<212>PRT

<213>异旋腔孢菌菌株C4(ATCC 48331)

<220>

<221>信号

<222>(1)...(18)

<221>结构域

<222>(74)...(522)

<223>丝氨酸羧基肽酶

<400>255

Claims

1.分离的或重组的核酸，其包括在至少大约100个残基的区域内与SEQ ID NO:1；SEQ ID NO:3；SEQ ID NO:5；SEQ ID NO:7；SEQ ID NO:9；SEQ ID NO:11；SEQID NO:13；SEQ ID NO:15；SEQ ID NO:17；SEQ ID NO:19；SEQ ID NO:21；SEQID NO:23；SEQ ID NO:25；SEQ ID NO:27；SEQ ID NO:29；SEQ ID NO:31；SEQID NO:33；SEQ ID NO:35；SEQ ID NO:37；SEQ ID NO:39；SEQ ID NO:41；SEQID NO:43；SEQ ID NO:45；SEQ ID NO:47；SEQ ID NO:49；SEQ ID NO:51；SEQID NO:53；SEQ ID NO:55；SEQ ID NO:57；SEQ ID NO:59；SEQ ID NO:61；SEQID NO:63；SEQ ID NO:65；SEQ ID NO:67；SEQ ID NO:69；SEQ ID NO:71；SEQID NO:73；SEQ ID NO:75；SEQ ID NO:77；SEQ ID NO:79；SEQ ID NO:81；SEQID NO:83；SEQ ID NO:85；SEQ ID NO:87；SEQ ID NO:89；SEQ ID NO:91；SEQID NO:93；SEQ ID NO:95；SEQ ID NO:97；SEQ ID NO:99；SEQ ID NO:101；SEQID NO:103；SEQ ID NO:105；SEQ ID NO:107；SEQ ID NO:109；SEQ ID NO:111；SEQ ID NO:113；SEQ ID NO:115；SEQ ID NO:117；SEQ ID NO:119；SEQ IDNO:121；SEQ ID NO:123；SEQ ID NO:125；SEQ ID NO:127；SEQ ID NO:129；SEQ ID NO:131；SEQ ID NO:133；SEQ ID NO:135；SEQ ID NO:137；SEQ IDNO:139；SEQ ID NO:141；SEQ ID NO:143；SEQ ID NO:145；SEQ ID NO:146；SEQ ID NO:150；SEQ ID NO:158；SEQ ID NO:164；SEQ ID NO:171；SEQ IDNO:179；SEQ ID NO:187；SEQ ID NO:193；SEQ ID NO:199；SEQ ID NO:204；SEQ ID NO:210；SEQ ID NO:218；SEQ ID NO:222；SEQ ID NO:229；SEQ IDNO:234；SEQ ID NO:241；SEQ ID NO:248或SEQ ID NO:254具有至少50％序列同一性的核酸序列，其中该核酸编码至少一个具有蛋白酶活性的多肽，所述的序列同一性通过采用了序列比较算法的分析或通过视觉观察来确定。

2.如权利要求1所述的分离的或重组的核酸，其中所述序列同一性是至少大约51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％或64％。

3.如权利要求2所述的分离的或重组的核酸，其中所述序列同一性是至少大约65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高或是100％。

4.如权利要求1所述的分离的或重组的核酸，其中所述序列同一性是在至少大约50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150或更多残基，或者基因或转录物的全长的区域内。

5.如权利要求1所述的分离的或重组的核酸，其中所述核酸序列包括在SEQ IDNO:1；SEQ ID NO:3；SEQ ID NO:5；SEQ ID NO:7；SEQ ID NO:9；SEQ ID NO:11；SEQ ID NO:13；SEQ ID NO:15；SEQ ID NO:17；SEQ ID NO:19；SEQ ID NO:21；SEQ ID NO:23；SEQ ID NO:25；SEQ ID NO:27；SEQ ID NO:29；SEQ ID NO:31；SEQ ID NO:33；SEQ ID NO:35；SEQ ID NO:37；SEQ ID NO:39；SEQ ID NO:41；SEQ ID NO:43；SEQ ID NO:45；SEQ ID NO:47；SEQ ID NO:49；SEQ ID NO:51；SEQ ID NO:53；SEQ ID NO:55；SEQ ID NO:57；SEQ ID NO:59；SEQ ID NO:61；SEQ ID NO:63；SEQ ID NO:65；SEQ ID NO:67；SEQ ID NO:69；SEQ ID NO:71；SEQ ID NO:73；SEQ ID NO:75；SEQ ID NO:77；SEQ ID NO:79；SEQ ID NO:81；SEQ ID NO:83；SEQ ID NO:85；SEQ ID NO:87；SEQ ID NO:89；SEQ ID NO:91；SEQ IDNO:93；SEQ IDNO:95；SEQ IDNO:97；SEQ IDNO:99；SEQ IDNO:101；SEQ ID NO:103；SEQ ID NO:105；SEQ ID NO:107；SEQ ID NO:109；SEQ IDNO:111；SEQ ID NO:113；SEQ ID NO:115；SEQ ID NO:117；SEQ ID NO:119；SEQID NO:121；SEQ ID NO:123；SEQ ID NO:125；SEQ ID NO:127；SEQ ID NO:129；SEQ ID NO:131；SEQ ID NO:133；SEQ ID NO:135；SEQ IDNO:137；SEQ IDNO:139；SEQIDNO:141；SEQ ID NO:143；SEQ ID NO:145；SEQ ID NO:146；SEQ ID NO:150；SEQ ID NO:158；SEQ ID NO:164；SEQ ID NO:171；SEQ IDNO:179；SEQ ID NO:187；SEQ ID NO:193；SEQ ID NO:199；SEQ ID NO:204；SEQ ID NO:210；SEQ ID NO:218；SEQ ID NO:222；SEQ ID NO:229；SEQ IDNO:234；SEQ IDNO:241；SEQ ID NO:248或SEQ ID NO:254中所示的序列。6.如权利要求1所述的分离的或重组的核酸，其中所述核酸序列编码多肽，所述多肽具有在SEQ ID NO:2；SEQ ID NO:4；SEQ ID NO:6；SEQ ID NO:8；SEQ IDNO:10；SEQ ID NO:12；SEQ ID NO:14；SEQ ID NO:16；SEQ ID NO:18；SEQ IDNO:20；SEQ ID NO:22；SEQ ID NO:24；SEQ ID NO:26；SEQ ID NO:28；SEQ IDNO:30；SEQ ID NO:32；SEQ ID NO:34；SEQ ID NO:36；SEQ ID NO:38；SEQ IDNO:40；SEQ ID NO:42；SEQ ID NO:44；SEQ ID NO:46；SEQ ID NO:48；SEQ IDNO:50；SEQ ID NO:52；SEQ ID NO:54；SEQ ID NO:56；SEQ ID NO:58；SEQ IDNO:60；SEQ ID NO:62；SEQ ID NO:64；SEQ ID NO:66；SEQ ID NO:68；SEQ IDNO:70；SEQ ID NO:72；SEQ ID NO:74；SEQ ID NO:76；SEQ ID NO:78；SEQ IDNO:80；SEQ ID NO:82；SEQ ID NO:84；SEQ ID NO:86；SEQ ID NO:88；SEQ IDNO:90；SEQ ID NO:92；SEQ ID NO:94；SEQ ID NO:96；SEQ ID NO:98；SEQ IDNO:100；SEQ ID NO:102；SEQ ID NO:104；SEQ ID NO:106；SEQ ID NO:108；SEQ ID NO:110；SEQ ID NO:112；SEQ ID NO:114；SEQ ID NO:116；SEQ IDNO:118；SEQ ID NO:120；SEQ ID NO:122；SEQ ID NO:124；SEQ ID NO:126；SEQID NO:128；SEQ ID NO:130；SEQ ID NO:132；SEQ ID NO:134；SEQ ID NO:136；SEQ ID NO:138；SEQ IDNO:140；SEQ ID NO:142；SEQ ID NO:144；SEQ IDNO:147；SEQ ID NO:151；SEQ ID NO:159；SEQ ID NO:165；SEQ ID NO:172；SEQ ID NO:180；SEQ ID NO:188；SEQ ID NO:194；SEQ ID NO:200；SEQ IDNO:205；SEQ ID NO:211；SEQ ID NO:219；SEQ ID NO:223；SEQ ID NO:230；SEQID NO:235；SEQ ID NO:242；SEQ ID NO:249或SEQ ID NO:255，或由SEQ IDNO:145编码的多肽中所示的序列。

7.如权利要求1所述的分离的或重组的核酸，其中所述序列比较算法是BLAST版本2.2.2算法，其中过滤设置被设为blastall-pblastp-d“nr pataa”-FF，所有的其它选项被设为默认值。

8.如权利要求1所述的分离的或重组的核酸，其中所述蛋白酶活性包括催化肽键的水解。

9.如权利要求8所述的分离的或重组的核酸，其中所述蛋白酶活性包括内切蛋白酶活性或外切蛋白酶活性。

10.如权利要求8所述的分离的或重组的核酸，其中所述蛋白酶活性包括蛋白质酶活性或肽酶活性。

11.如权利要求10所述的分离的或重组的核酸，其中所述肽酶活性包括羧基肽酶活性。

12.如权利要求10所述的分离的或重组的核酸，其中所述肽酶活性包括氨基肽酶活性。

13.如权利要求1所述的分离的或重组的核酸，其中所述蛋白酶活性包括丝氨酸蛋白酶活性。

14.如权利要求1所述的分离的或重组的核酸，其中所述蛋白酶活性包括金属蛋白酶活性、基质金属蛋白酶或胶原酶活性。

15.如权利要求1所述的分离的或重组的核酸，其中所述蛋白酶活性包括半胱氨酸蛋白酶活性。

16.如权利要求1所述的分离的或重组的核酸，其中所述蛋白酶活性包括天冬氨酸蛋白酶活性。

17.如权利要求1所述的分离的或重组的核酸，其中所述蛋白酶活性包括胰凝乳蛋白酶、胰蛋白酶、弹性蛋白酶、激肽释放酶或枯草杆菌蛋白酶活性。

18.如权利要求1所述的分离的或重组的核酸，其中所述蛋白酶活性包括肽酶活性。

19.如权利要求18所述的分离的或重组的核酸，其中所述肽酶活性包括二肽基肽酶活性。

20.如权利要求1所述的分离的或重组的核酸，其中所述蛋白酶活性是热稳定的。

21.如权利要求20所述的分离的或重组的核酸，其中多肽在包括温度为大约37℃到大约95℃之间、或大约55℃到大约85℃之间、或大约70℃到大约75℃之间、或大约70℃到大约95℃之间、或大约90℃到大约95℃之间的条件下可以保持蛋白酶活性。

22.如权利要求1所述的分离的或重组的核酸，其中所述蛋白酶活性是耐热的。

23.如权利要求22所述的分离的或重组的核酸，其中多肽在暴露于在大于37℃到大约95℃、或大于55℃到大约85℃、或大约70℃到大约75℃之间、或大于90℃到大约95℃的温度后可以保持蛋白酶活性。

24.分离的或重组的核酸，其中所述核酸包括在严紧条件下与包括如下序列的核酸杂交的序列：SEQ ID NO:1；SEQ ID NO:3；SEQ ID NO:5；SEQ ID NO:7；SEQ IDNO:9；SEQ ID NO:11；SEQ ID NO:13；SEQ ID NO:15；SEQ ID NO:17；SEQ IDNO:19；SEQ ID NO:21；SEQ ID NO:23；SEQ ID NO:25；SEQ ID NO:27；SEQ IDNO:29；SEQ ID NO:31；SEQ ID NO:33；SEQ ID NO:35；SEQ ID NO:37；SEQ IDNO:39；SEQ ID NO:41；SEQ ID NO:43；SEQ ID NO:45；SEQ ID NO:47；SEQ IDNO:49；SEQ ID NO:51；SEQ ID NO:53；SEQ ID NO:55；SEQ ID NO:57；SEQ IDNO:59；SEQ ID NO:61；SEQ ID NO:63；SEQ ID NO:65；SEQ ID NO:67；SEQ IDNO:69；SEQ ID NO:71；SEQ ID NO:73；SEQ ID NO:75；SEQ ID NO:77；SEQ IDNO:79；SEQ ID NO:81；SEQ ID NO:83；SEQ ID NO:85；SEQ ID NO:87；SEQ IDNO:89；SEQ ID NO:91；SEQ ID NO:93；SEQ ID NO:95；SEQ ID NO:97；SEQ IDNO:99；SEQ ID NO:101；SEQ ID NO:103；SEQ ID NO:105；SEQ ID NO:107；SEQID NO:109；SEQ ID NO:111；SEQ ID NO:113；SEQ ID NO:115；SEQ ID NO:117；SEQ ID NO:119；SEQ ID NO:121；SEQ ID NO:123；SEQ ID NO:125；SEQ IDNO:127；SEQ ID NO:129；SEQ ID NO:131；SEQ ID NO:133；SEQ ID NO:135；SEQ ID NO:137；SEQ ID NO:139；SEQ ID NO:141；SEQ ID NO:143；SEQ IDNO:145；SEQ ID NO:146；SEQ ID NO:150；SEQ ID NO:158；SEQ ID NO:164；SEQ ID NO:171；SEQ ID NO:179；SEQ ID NO:187；SEQ ID NO:193；SEQ IDNO:199；SEQ ID NO:204；SEQ ID NO:21O；SEQ ID NO:218；SEQ ID NO:222；SEQ ID NO:229；SEQ ID NO:234；SEQ ID NO:241；SEQ ID NO:248或SEQ IDNO:254，其中核酸编码具有蛋白酶活性的多肽。

25.如权利要求24所述的分离的或重组的核酸，其中核酸的长度是至少大约50、75、100、150、200、300、400、500、600、700、800、900、1000或更多残基或者是基因或转录物的全长。

26.如权利要求24所述的分离的或重组的核酸，其中所述严紧条件包括洗涤步骤，包括在0.2×SSC中在大约65℃的温度洗涤大约15分钟。

27.核酸探针，其用于鉴别编码具有蛋白酶活性的多肽的核酸，其中所述探针包括如下序列的至少10个连续碱基，所述序列包括SEQ ID NO:1；SEQ ID NO:3；SEQID NO:5；SEQ ID NO:7；SEQ ID NO:9；SEQ ID NO:11；SEQ ID NO:13；SEQ IDNO:15；SEQ ID NO:17；SEQ ID NO:19；SEQ ID NO:21；SEQ ID NO:23；SEQ IDNO:25；SEQ ID NO:27；SEQ ID NO:29；SEQ ID NO:31；SEQ ID NO:33；SEQ IDNO:35；SEQ ID NO:37；SEQ ID NO:39；SEQ ID NO:41；SEQ ID NO:43；SEQ IDNO:45；SEQ ID NO:47；SEQ ID NO:49；SEQ ID NO:51；SEQ ID NO:53；SEQ IDNO:55；SEQ ID NO:57；SEQ ID NO:59；SEQ ID NO:61；SEQ ID NO:63；SEQ IDNO:65；SEQ ID NO:67；SEQ ID NO:69；SEQ ID NO:71；SEQ ID NO:73；SEQ IDNO:75；SEQ ID NO:77；SEQ ID NO:79；SEQ ID NO:81；SEQ ID NO:83；SEQ IDNO:85；SEQ ID NO:87；SEQ ID NO:89；SEQ ID NO:91；SEQ ID NO:93；SEQ IDNO:95；SEQ ID NO:97；SEQ ID NO:99；SEQ ID NO:101；SEQ ID NO:103；SEQ IDNO:105；SEQ ID NO:107；SEQ ID NO:109；SEQ ID NO:111；SEQ ID NO:113；SEQID NO:115；SEQ ID NO:117；SEQ ID NO:119；SEQ ID NO:121；SEQ IDNO:123；SEQ ID NO:125；SEQ ID NO:127；SEQ ID NO:129；SEQ ID NO:131；SEQ IDNO:133；SEQ ID NO:135；SEQ ID NO:137；SEQ ID NO:139；SEQ ID NO:141；SEQ ID NO:143；SEQ ID NO:145；SEQ ID NO:146；SEQ ID NO:150；SEQ IDNO:158；SEQ ID NO:164；SEQ ID NO:171；SEQ ID NO:179；SEQ ID NO:187；SEQ ID NO:193；SEQ ID NO:199；SEQ ID NO:204；SEQ ID NO:210；SEQ IDNO:218；SEQ IDNO:222；SEQ ID NO:229；SEQ ID NO:234；SEQ ID NO:241；SEQ ID NO:248或SEQ ID NO:254，其中所述探针通过结合或杂交来鉴定核酸。28.如权利要求27所述的核酸探针，其中所述探针包括寡核苷酸，所述寡核苷酸包含至少大约10到50、大约20到60、大约30到70、大约40到80、大约60到100、或大约50到150个连续碱基。

29.核酸探针，其用于鉴别编码具有蛋白酶活性的多肽的核酸，其中所述探针包括核酸，所述核酸包含SEQ ID NO:1；SEQ ID NO:3；SEQ ID NO:5；SEQ ID NO:7；SEQ ID NO:9；SEQ ID NO:11；SEQ ID NO:13；SEQ ID NO:15；SEQ ID NO:17；SEQ ID NO:19；SEQ ID NO:21；SEQ ID NO:23；SEQ ID NO:25；SEQ ID NO:27；SEQ ID NO:29；SEQ ID NO:31；SEQ ID NO:33；SEQ ID NO:35；SEQ ID NO:37；SEQ ID NO:39；SEQ ID NO:41；SEQ ID NO:43；SEQ ID NO:45；SEQ ID NO:47；SEQ ID NO:49；SEQ ID NO:51；SEQ ID NO:53；SEQ ID NO:55；SEQ ID NO:57；SEQ ID NO:59；SEQ ID NO:61；SEQ ID NO:63；SEQ ID NO:65；SEQ ID NO:67；SEQ ID NO:69；SEQ ID NO:71；SEQ ID NO:73；SEQ ID NO:75；SEQ ID NO:77；SEQ ID NO:79；SEQ ID NO:81；SEQ ID NO:83；SEQ ID NO:85；SEQ ID NO:87；SEQ ID NO:89；SEQ ID NO:91；SEQ ID NO:93；SEQ ID NO:95；SEQ ID NO:97；SEQ ID NO:99；SEQ ID NO:101；SEQ ID NO:103；SEQ ID NO:105；SEQ ID NO:107；SEQ ID NO:109；SEQ ID NO:111；SEQ ID NO:113；SEQ ID NO:115；SEQ IDNO:117；SEQ ID NO:119；SEQ ID NO:121；SEQ ID NO:123；SEQ ID NO:125；SEQID NO:127；SEQ ID NO:129；SEQ ID NO:131；SEQ ID NO:133；SEQ ID NO:135；SEQ ID NO:137；SEQ ID NO:139；SEQ ID NO:141；SEQ ID NO:143；SEQ IDNO:145；SEQ ID NO:146；SEQ ID NO:150；SEQ ID NO:158；SEQ ID NO:164；SEQ ID NO:171；SEQ ID NO:179；SEQ ID NO:187；SEQ ID NO:193；SEQ IDNO:199；SEQ ID NO:204；SEQ ID NO:210；SEQ ID NO:218；SEQ ID NO:222；SEQ IDNO:229；SEQ ID NO:234；SEQ ID NO:241；SEQ ID NO:248或SEQ IDNO:254的至少10个连续碱基，其中序列同一性通过采用了序列比较算法的分析或通过视觉观察来确定。

30.如权利要求29所述的核酸探针，其中所述探针包括寡核苷酸，所述寡核苷酸包含至少大约10到50、大约20到60、大约30到70、大约40到80、大约60到100、或大约50到150个连续碱基。

31.扩增引物对，其用于扩增编码具有蛋白酶活性的多肽的核酸，其中所述引物对能够扩增包含权利要求1或权利要求24中所示的序列或其子序列的核酸。

32.如权利要求31所述的扩增引物对，其中所述扩增引物序列对的一个成员包括寡核苷酸，所述寡核苷酸包含序列的至少大约10到50个连续碱基，或序列的大约12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个连续碱基。

33.扩增引物对，其中所述引物对包括第一成员和第二成员，所述第一成员具有SEQ ID NO:1；SEQ ID NO:3；SEQ ID NO:5；SEQ ID NO:7；SEQ ID NO:9；SEQ IDNO:11；SEQ ID NO:13；SEQ ID NO:15；SEQ ID NO:17；SEQ ID NO:19；SEQ IDNO:21；SEQ ID NO:23；SEQ ID NO:25；SEQ ID NO:27；SEQ ID NO:29；SEQ IDNO:31；SEQ ID NO:33；SEQ ID NO:35；SEQ ID NO:37；SEQ ID NO:39；SEQ IDNO:41；SEQ ID NO:43；SEQ ID NO:45；SEQ ID NO:47；SEQ ID NO:49；SEQ IDNO:51；SEQ ID NO:53；SEQ ID NO:55；SEQ ID NO:57；SEQ ID NO:59；SEQ IDNO:61；SEQ ID NO:63；SEQ ID NO:65；SEQ ID NO:67；SEQ ID NO:69；SEQ IDNO:71；SEQ ID NO:73；SEQ ID NO:75；SEQ ID NO:77；SEQ ID NO:79；SEQ IDNO:81；SEQ ID NO:83；SEQ ID NO:85；SEQ ID NO:87；SEQ ID NO:89；SEQ IDNO:91；SEQ ID NO:93；SEQ ID NO:95；SEQ ID NO:97；SEQ ID NO:99；SEQ IDNO:101；SEQ ID NO:103；SEQ ID NO:105；SEQ ID NO:107；SEQ ID NO:109；SEQ ID NO:111；SEQ ID NO:113；SEQ ID NO:115；SEQ ID NO:117；SEQ IDNO:119；SEQ ID NO:121；SEQ ID NO:123；SEQ ID NO:125；SEQ ID NO:127；SEQID NO:129；SEQ ID NO:131；SEQ ID NO:133；SEQ ID NO:135；SEQ ID NO:137；SEQ ID NO:139；SEQ ID NO:141；SEQ ID NO:143；SEQ ID NO:145；SEQ IDNO:146；SEQ ID NO:150；SEQ ID NO:158；SEQ ID NO:164；SEQ ID NO:171；SEQ ID NO:179；SEQ ID NO:187；SEQ ID NO:193；SEQ ID NO:199；SEQ IDNO:204；SEQ ID NO:210；SEQ ID NO:218；SEQ ID NO:222；SEQ ID NO:229；SEQ ID NO:234；SEQ ID NO:241；SEQ ID NO:248或SEQ ID NO:254的5’端大约前12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个残基所示的序列，所述第二成员具有第一成员的互补链的5’端大约前12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个残基所示的序列。

34.编码蛋白酶的核酸，其通过使用如权利要求33所述的扩增引物对进行多核苷酸的扩增而产生。

35.如权利要求34所述的编码蛋白酶的核酸，其中所述扩增是通过聚合酶链式反应。

36.如权利要求34所述的编码蛋白酶的核酸，其中所述核酸是通过基因文库的扩增而产生。

37.如权利要求34所述的编码蛋白酶的核酸，其中所述基因文库是环境文库。

38.由权利要求34所述的编码蛋白酶的核酸编码的分离的或重组的蛋白酶。

39.扩增核酸的方法，其中所述核酸编码具有蛋白酶活性的多肽，所述方法包括用能够扩增权利要求1或权利要求24所述的核酸序列或其子序列的扩增引物序列对扩增模板核酸。

40.表达序列盒，其包含核酸，所述核酸包括权利要求1或权利要求24所述的序列。

41.载体，其包含核酸，所述核酸包括权利要求1或权利要求24所述的序列。

42.克隆载体，其包含核酸，所述核酸包括权利要求1或权利要求24所述的序列，其中所述克隆载体包括病毒载体、质粒、噬菌体、噬粒、粘粒、fos-质粒、细菌噬菌体或人工染色体。

43.如权利要求42所述的克隆载体，其中所述病毒载体包括腺病毒载体、逆转录病毒载体或腺相关病毒载体。

44.如权利要求42所述的克隆载体，包括细菌人工染色体、质粒、噬菌体P1衍生的载体、酵母人工染色体或哺乳动物人工染色体。

45.转化细胞，其含有包括在权利要求1或权利要求中24所述的序列的核酸。

46.转化细胞，其含有在权利要求40中所述的表达序列盒。

47.如权利要求40所述的转化细胞，其中所述细胞是细菌细胞、哺乳动物细胞、真菌细胞、酵母细胞、昆虫细胞或植物细胞。

48.转基因非人动物，其含有在权利要求1或权利要求24中所述的序列。

49.如权利要求48所述的转基因非人动物，其中所述动物是鼠。

50.转基因植物，其含有在权利要求1或权利要求24中所述的序列。

51.如权利要求50所述的转基因植物，其中所述植物是玉米植物、高梁植物、马铃薯植物、番茄植物、小麦植物、含油种子植物、油菜籽植物、大豆植物、稻米植物、大麦植物、草或烟草植物。

52.转基因种子，其含有在权利要求1或权利要求24中所述的序列。

53.如权利要求52所述的转基因种子，其中所述种子是玉米种子、小麦粒、含油种子、油菜籽、大豆种子、棕榈核、向日葵种子、芝麻种子、稻米、大麦、花生或烟草植物种子。

54.反义寡核苷酸，其包括与权利要求1或权利要求24中所述的序列或其子序列互补，或能与权利要求1或权利要求24中所述的序列或其子序列在严紧条件下杂交的核酸序列。

55.如权利要求49所述的反义寡核苷酸，其中所述反义寡核苷酸长度在大约10-50之间、大约20-60之间、大约30-70之间、大约40-80之间、或大约60-100个碱基之间。

56.抑制蛋白酶信息在细胞中翻译的方法，所述方法包括给细胞施用反义寡核苷酸或在细胞中表达反义寡核苷酸，所述反义寡核苷酸包括与权利要求1或权利要求24中所述的序列互补，或能与权利要求1或权利要求24中所述的序列在严紧条件下杂交的核酸序列。

57.双链抑制性RNA(RNAi)分子，其包括在权利要求1或权利要求24中所述的序列的子序列。

58.如权利要求57所述的双链抑制性RNA(RNAi)分子，其中RNAi是长度为大约15、16、17、18、19、20、21、22、23、24、25或更多个核苷酸的双链体。

59.抑制蛋白酶在细胞中表达的方法，所述方法包括给细胞施用双链抑制性RNA(RNAi)或在细胞中表达双链抑制性RNA(RNAi)，所述RNA包括在权利要求1或权利要求24中所述的序列的子序列。

60.分离的或重组的多肽，所述多肽(i)在至少大约100个残基的区域内与SEQ IDNO:2；SEQ ID NO:4；SEQ ID NO:6；SEQ ID NO:8；SEQ ID NO:10；SEQ ID NO:12；SEQ ID NO:14；SEQ ID NO:16；SEQ ID NO:18；SEQ ID NO:20；SEQ ID NO:22；SEQ ID NO:24；SEQ ID NO:26；SEQ ID NO:28；SEQ ID NO:30；SEQ ID NO:32；SEQ ID NO:34；SEQ ID NO:36；SEQ ID NO:38；SEQ ID NO:40；SEQ ID NO:42；SEQ ID NO:44；SEQ ID NO:46；SEQ ID NO:48；SEQ ID NO:50；SEQ ID NO:52；SEQ ID NO:54；SEQ ID NO:56；SEQ ID NO:58；SEQ ID NO:60；SEQ ID NO:62；SEQ ID NO:64；SEQ ID NO:66；SEQ ID NO:68；SEQ ID NO:70；SEQ ID NO:72；SEQ ID NO:74；SEQ ID NO:76；SEQ ID NO:78；SEQ ID NO:80；SEQ ID NO:82；SEQ ID NO:84；SEQ ID NO:86；SEQ ID NO:88；SEQ ID NO:90；SEQ ID NO:92；SEQ ID NO:94；SEQ ID NO:96；SEQ ID NO:98；SEQ ID NO:100；SEQ ID NO:102；SEQ ID NO:104；SEQ ID NO:106；SEQ ID NO:108；SEQ ID NO:110；SEQ IDNO:112；SEQ ID NO:114；SEQ ID NO:116；SEQ ID NO:118；SEQ ID NO:120；SEQID NO:122；SEQ ID NO:124；SEQ ID NO:126；SEQ ID NO:128；SEQ ID NO:130；SEQ ID NO:132；SEQ ID NO:134；SEQ ID NO:136；SEQ ID NO:138；SEQ IDNO:140；SEQ ID NO:142；SEQ ID NO:144；SEQ ID NO:147；SEQ ID NO:151；SEQ ID NO:159；SEQ ID NO:165；SEQ ID NO:172；SEQ ID NO:180；SEQ IDNO:188；SEQ ID NO:194；SEQ ID NO:200；SEQ ID NO:205；SEQ ID NO:211；SEQID NO:219；SEQ ID NO:223；SEQ ID NO:230；SEQ ID NO:235；SEQ ID NO:242；SEQ ID NO:249或SEQ ID NO:255或由SEQ ID NO:145编码的多肽具有至少50％序列同一性，其中序列同一性通过采用了序列比较算法的分析或通过视觉观察来确定，或(ii)由与SEQ ID NO:1；SEQ ID NO:3；SEQ ID NO:5；SEQ ID NO:7；SEQ ID NO:9；SEQ ID NO:11；SEQ ID NO:13；SEQ ID NO:15；SEQ ID NO:17；SEQ ID NO:19；SEQ ID NO:21；SEQ ID NO:23；SEQ ID NO:25；SEQ ID NO:27；SEQ ID NO:29；SEQ ID NO:31；SEQ ID NO:33；SEQ ID NO:35；SEQ ID NO:37；SEQ ID NO:39；SEQ ID NO:41；SEQ ID NO:43；SEQ ID NO:45；SEQ ID NO:47；SEQ ID NO:49；SEQ ID NO:51；SEQ ID NO:53；SEQ ID NO:55；SEQ ID NO:57；SEQ ID NO:59；SEQ ID NO:61；SEQ ID NO:63；SEQ ID NO:65；SEQ ID NO:67；SEQ ID NO:69；SEQ ID NO:71；SEQ ID NO:73；SEQ ID NO:75；SEQ ID NO:77；SEQ ID NO:79；SEQ ID NO:81；SEQ ID NO:83；SEQ ID NO:85；SEQ ID NO:87；SEQ ID NO:89；SEQ ID NO:91；SEQ ID NO:93；SEQ ID NO:95；SEQ ID NO:97；SEQ IDNO:99；SEQ ID NO:101；SEQ ID NO:103；SEQ ID NO:105；SEQ IDNO:107；SEQ ID NO:109；SEQ ID NO:111；SEQ ID NO:113；SEQ ID NO:115；SEQ IDNO:117；SEQ ID NO:119；SEQ ID NO:121；SEQ ID NO:123；SEQ ID NO:125；SEQID NO:127；SEQ ID NO:129；SEQ ID NO:131；SEQ ID NO:133；SEQ ID NO:135；SEQ IDNO:137；SEQ ID NO:139；SEQ ID NO:141；SEQ ID NO:143；SEQ IDNO:145；SEQ ID NO:146；SEQ IDNO:150；SEQ ID NO:158；SEQ ID NO:164；SEQ IDNO:171；SEQ ID NO:179；SEQ ID NO:187；SEQ ID NO:193；SEQ IDNO:199；SEQ ID NO:204；SEQ ID NO:210；SEQ ID NO:218；SEQ ID NO:222；SEQ ID NO:229；SEQ ID NO:234；SEQ ID NO:241；SEQ ID NO:248或SEQ IDNO:254中所示的序列在至少大约100个残基的区域内具有至少50％序列同一性的核酸编码，所述序列同一性通过采用了序列比较算法的分析或通过视觉观察来确定，或由能与SEQ ID NO:1；SEQ ID NO:3；SEQ ID NO:5；SEQ ID NO:7；SEQ IDNO:9；SEQ ID NO:11；SEQ ID NO:13；SEQ ID NO:15；SEQ ID NO:17；SEQ IDNO:19；SEQ ID NO:21；SEQ ID NO:23；SEQ ID NO:25；SEQ ID NO:27；SEQ IDNO:29；SEQ ID NO:31；SEQ ID NO:33；SEQ ID NO:35；SEQ ID NO:37；SEQ IDNO:39；SEQ ID NO:41；SEQ ID NO:43；SEQ ID NO:45；SEQ ID NO:47；SEQ IDNO:49；SEQ ID NO:51；SEQ ID NO:53；SEQ ID NO:55；SEQ ID NO:57；SEQ IDNO:59；SEQ ID NO:61；SEQ ID NO:63；SEQ ID NO:65；SEQ ID NO:67；SEQ IDNO:69；SEQ ID NO:71；SEQ ID NO:73；SEQ ID NO:75；SEQ ID NO:77；SEQ IDNO:79；SEQ ID NO:81；SEQ ID NO:83；SEQ ID NO:85；SEQ ID NO:87；SEQ IDNO:89；SEQ ID NO:91；SEQ ID NO:93；SEQ ID NO:95；SEQ ID NO:97；SEQ IDNO:99；SEQ ID NO:101；SEQ ID NO:103；SEQ ID NO:105；SEQ ID NO:107；SEQID NO:109；SEQ ID NO:111；SEQ ID NO:113；SEQ ID NO:115；SEQ ID NO:117；SEQ ID NO:119；SEQ ID NO:121；SEQ ID NO:123；SEQ ID NO:125；SEQ IDNO:127；SEQ ID NO:129；SEQ ID NO:131；SEQ ID NO:133；SEQ ID NO:135；SEQ ID NO:137；SEQ ID NO:139；SEQ ID NO:141；SEQ ID NO:143；SEQ IDNO:145；SEQ ID NO:146；SEQ ID NO:150；SEQ ID NO:158；SEQ ID NO:164；SEQ ID NO:171；SEQ IDNO:179；SEQ ID NO:187；SEQ ID NO:193；SEQ IDNO:199；SEQ ID NO:204；SEQ ID NO:210；SEQ ID NO:218；SEQ ID NO:222；SEQ ID NO:229；SEQ ID NO:234；SEQ ID NO:241；SEQ ID NO:248或SEQ IDNO:254中所示的序列在严紧条件下杂交的的核酸编码。

61.如权利要求60所述的分离的或重组的多肽，其中所述序列同一性是至少大约51％、52％、53％、54％、55％、56％、57％、58％、59％、60％、61％、62％、63％、64％、65％、66％、67％、68％、69％、70％、71％、72％、73％、74％、75％、76％、77％、78％、79％、80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或更高或是100％的序列同一性。

62.如权利要求60所述的分离的或重组的多肽，其中所述序列同一性是在至少大约10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050或更多残基或者酶的全长的区域内。

63.如权利要求60所述的分离的或重组的多肽，其中所述多肽具有在SEQ IDNO:2；SEQ ID NO:4；SEQ ID NO:6；SEQ ID NO:8；SEQ ID NO:10；SEQ ID NO:12；SEQ ID NO:14；SEQ ID NO:16；SEQ ID NO:18；SEQ ID NO:20；SEQ ID NO:22；SEQ ID NO:24；SEQ ID NO:26；SEQ ID NO:28；SEQ ID NO:30；SEQ ID NO:32；SEQ ID NO:34；SEQ ID NO:36；SEQ ID NO:38；SEQ ID NO:40；SEQ ID NO:42；SEQ ID NO:44；SEQ ID NO:46；SEQ ID NO:48；SEQ ID NO:50；SEQ ID NO:52；SEQ ID NO:54；SEQ ID NO:56；SEQ ID NO:58；SEQ ID NO:60；SEQ ID NO:62；SEQ ID NO:64；SEQ ID NO:66；SEQ ID NO:68；SEQ ID NO:70；SEQ ID NO:72；SEQ ID NO:74；SEQ ID NO:76；SEQ ID NO:78；SEQ ID NO:80；SEQ ID NO:82；SEQ ID NO:84；SEQ ID NO:86；SEQ ID NO:88；SEQ ID NO:90；SEQ ID NO:92；SEQ ID NO:94；SEQ ID NO:96；SEQ ID NO:98；SEQ ID NO:100；SEQ ID NO:102；SEQ ID NO:104；SEQ ID NO:106；SEQ ID NO:108；SEQ ID NO:110；SEQ IDNO:112；SEQ ID NO:114；SEQ ID NO:116；SEQ ID NO:118；SEQ ID NO:120；SEQID NO:122；SEQ ID NO:124；SEQ ID NO:126；SEQ ID NO:128；SEQ ID NO:130；SEQ ID NO:132；SEQ ID NO:134；SEQ ID NO:136；SEQ ID NO:138；SEQ IDNO:140；SEQ ID NO:142；SEQ ID NO:144；SEQ ID NO:147；SEQ ID NO:151；SEQ ID NO:159；SEQ ID NO:165；SEQ ID NO:172；SEQ ID NO:180；SEQ IDNO:188；SEQ ID NO:194；SEQ IDNO:200；SEQ ID NO:205；SEQ ID NO:211；SEQID NO:219；SEQ ID NO:223；SEQ ID NO:230；SEQ ID NO:235；SEQ ID NO:242；SEQ ID NO:249或SEQ ID NO:255，或由SEQ ID NO:145编码的多肽中所示的序列。

64.如权利要求60所述的分离的或重组的多肽，其中所述多肽具有蛋白酶活性。

65.如权利要求64所述的分离的或重组的多肽，其中所述蛋白酶活性包括催化肽键的水解。

66.如权利要求65所述的分离的或重组的多肽，其中所述蛋白酶活性包括内切蛋白酶活性或外切蛋白酶活性。

67.如权利要求65所述的分离的或重组的多肽，其中所述蛋白酶活性包括蛋白质酶活性或肽酶活性。

68.如权利要求67所述的分离的或重组的多肽，其中所述肽酶活性包括羧基肽酶活性。

69.如权利要求67所述的分离的或重组的多肽，其中所述肽酶活性包括氨基肽酶活性。

70.如权利要求64所述的分离的或重组的多肽，其中所述蛋白酶活性包括丝氨酸蛋白酶活性。

71.如权利要求64所述的分离的或重组的多肽，其中所述蛋白酶活性包括金属蛋白酶活性、基质金属蛋白酶或胶原酶活性。

72.如权利要求64所述的分离的或重组的多肽，其中所述蛋白酶活性包括半胱氨酸蛋白酶活性。

73.如权利要求64所述的分离的或重组的核酸，其中所述蛋白酶活性包括天冬氨酸蛋白酶活性。

74.如权利要求64所述的分离的或重组的多肽，其中所述蛋白酶活性包括胰凝乳蛋白酶、胰蛋白酶、弹性蛋白酶、激肽释放酶或枯草杆菌蛋白酶活性。

75.如权利要求64所述的分离的或重组的多肽，其中所述蛋白酶活性包括肽酶活性。

76.如权利要求64所述的分离的或重组的多肽，其中肽酶活性包括二肽基肽酶活性。

77.如权利要求64所述的分离的或重组的多肽，其中所述蛋白酶活性是热稳定的。

78.如权利要求77所述的分离的或重组的多肽，其中所述多肽在包括温度为大约1℃到大约5℃之间、大约5℃到大约15℃之间、大约15℃到大约25℃之间、大约25℃到大约37℃之间、大约37℃到大约95℃之间、大约55℃到大约85℃之间、大约70℃到大约95℃之间、大约70℃到大约75℃之间、或大约90℃到大约95℃之间的条件下可以保持蛋白酶活性。

79.如权利要求64所述的分离的或重组的多肽，其中所述蛋白酶活性是耐热的。

80.如权利要求79所述的分离的或重组的多肽，其中所述多肽在暴露于范围在大约1℃到大约5℃之间、大约5℃到大约15℃之间、大约15℃到大约25℃之间、大约25℃到大约37℃之间、大约37℃到大约95℃之间、大约55℃到大约85℃之间、大约70℃到大约95℃之间、或大约90℃到大约95℃之间或更高的温度后可以保持蛋白酶活性。

81.分离的或重组的多肽，其包括在权利要求60中所述的多肽，并且缺少信号序列或前体序列。

82.分离的或重组的多肽，其包括在权利要求60中所述的多肽，并且具有异源信号序列或异源前体序列。

83.如权利要求64所述的分离的或重组的多肽，其中所述蛋白酶活性包括在大约37℃时它的比活性的范围为每毫克蛋白从大约100到大约1000单位、每毫克蛋白从大约500到大约750单位、每毫克蛋白从大约500到大约1200单位、或每毫克蛋白从大约750到大约1000单位。

84.如权利要求79所述的分离的或重组的多肽，其中所述耐热性包括被加热到高温后仍保留该蛋白酶在37℃的比活性的至少一半。

85.如权利要求79所述的分离的或重组的多肽，其中所述耐热性包括被加热到高温后它在37℃的比活性保持在每毫克蛋白从大约500到大约1200单位的范围内。

86.如权利要求60所述的分离的或重组的多肽，其中所述多肽包括至少一个糖基化位点。

87.如权利要求86所述的分离的或重组的多肽，其中所述糖基化是N-连接糖基化。

88.如权利要求87所述的分离的或重组的多肽，其中所述多肽在毕赤酵母或裂变酵母中被表达之后是被糖基化的。

89.如权利要求64所述的分离的或重组的多肽，其中所述多肽在包括大约pH6.5、pH6.0、pH5.5、pH5.0、pH4.5或pH4.0的条件下保持蛋白酶活性。

90.如权利要求64所述的分离的或重组的多肽，其中所述多肽在包括大约pH7.5、pH8.0、pH8.5、pH9、pH9.5、pH10或pH10.5的条件下保持蛋白酶活性。

91.蛋白制剂，其含有在权利要求60中所述的多肽，其中所述蛋白制剂包括液体、固体或凝胶。

92.异源二聚体，其含有在权利要求60中所述的多肽和第二结构域。

93.如权利要求92所述的异源二聚体，其中所述第二结构域是多肽，所述异源二聚体是融合蛋白。

94.如权利要求92所述的异源二聚体，其中所述第二结构域是抗原结合部位或标记物。

95.同源二聚体，其含有在权利要求60中所述的多肽。

96.固定化的多肽，其中所述多肽包括在权利要求60中所述的序列或其子序列。

97.如权利要求96所述的固定化多肽，其中所述多肽被固定化在细胞、金属、树脂、聚合物、陶瓷、玻璃、微电极、石墨颗粒、珠子、凝胶、平板、阵列或毛细管上。

98.阵列，其含有固定化的在权利要求60中所述的多肽。

99.阵列，其含有固定化的在权利要求1或权利要求24中所述的核酸。

100.分离的或重组的抗体，其与利要求60中所述的多肽特异性结合。

如权利要求100所述的重组或分离的抗体，其中所述抗体是单克隆或多克隆抗体。

杂交瘤，其含有与权利要求60中所述的多肽特异性结合的抗体。

分离或鉴定具有蛋白酶活性的多肽的方法，所述方法包括：

(a)提供如权利要求100中所述的抗体；

(b)提供包含多肽的样品；和

(c)将步骤(b)的样品与步骤(a)的抗体在抗体能够与多肽特异性结合的条件下接触，从而分离或鉴别具有蛋白酶活性的多肽。

制备抗蛋白酶抗体的方法，所述方法包括以足够的量向非人类动物施用权利要求1或权利要求24中所述的核酸或其子序列，以产生体液免疫应答，从而产生抗蛋白酶抗体。

制备抗蛋白酶抗体的方法，所述方法包括以足够的量向非人类动物施用权利要求60中所述的多肽或其子序列，以产生体液免疫应答，从而产生抗蛋白酶抗体。

产生重组多肽的方法，所述方法包括步骤：(a)提供与启动子有效连接的核酸，其中所述核酸包括在权利要求1或权利要求24中所述的序列；和(b)在允许多肽表达的条件下表达步骤(a)的核酸，从而产生重组多肽。

如权利要求106所述的方法，所述方法进一步包括用步骤(a)的核酸转化宿主细胞，随后表达步骤(a)的核酸，从而在转化细胞中产生重组多肽。

用于鉴定具有蛋白酶活性的多肽的方法，所述方法包括步骤：

(a)提供如权利要求64中所述的多肽；

(b)提供蛋白酶底物；和

(c)用步骤(b)的底物接触多肽，并检测底物量的减少或反应产物量的增加，其中底物量的减少或反应产物量的增加表明检测到具有蛋白酶活性的多肽。

用于鉴定蛋白酶底物的方法，所述方法包括步骤：

(a)提供如权利要求64所述的多肽；

(b)提供测试底物；和

(c)用步骤(b)的测试底物接触步骤(a)的多肽，并检测底物量的减少或反应产物量的增加，其中底物量的减少或反应产物量的增加表明鉴定到作为蛋白酶底物的测试底物。

110.确定测试化合物是否与多肽特异性结合的方法，所述方法包括步骤：

(a)在允许核酸翻译为多肽的条件下表达核酸或含有核酸的载体，其中所述核酸包括在权利要求1或权利要求24中所述的序列；

(b)提供测试化合物；

(c)用所述测试化合物接触多肽；和

(d)确定步骤(b)的测试化合物是否与多肽特异性结合。

111.确定测试化合物是否与多肽特异性结合的方法，所述方法包括步骤：

(a)提供权利要求60中所述的多肽；

(b)提供测试化合物；

(c)用所述测试化合物接触所述多肽；和

(d)确定步骤(b)的测试化合物是否与多肽特异性结合。

112.用于鉴定蛋白酶活性的调节剂的方法，所述方法包括步骤：

(a)提供权利要求64所述的多肽；

(b)提供测试化合物；

(c)用步骤(b)的测试化合物接触步骤(a)的多肽，并测定蛋白酶的活性，其中在存在测试化合物的情况下测定的蛋白酶活性与不存在测试化合物的情况下测定的活性相比的变化，提供了确定测试化合物调节蛋白酶活性的测定法。

113.如权利要求112所述的方法，其中所述蛋白酶活性通过提供蛋白酶底物来测量，并检测底物量的减少或反应产物量的增加，或者，底物量的增加或反应产物量的减少。

114.如权利要求113所述的方法，其中与没有测试化合物时的底物量或反应产物量相比，存在测试化合物时底物量的减少或反应产物量的增加表明鉴定到作为蛋白酶活性激活剂的测试化合物。

115.如权利要求113所述的方法，其中与没有测试化合物时的底物量或反应产物量相比，存在测试化合物时底物量的增加或反应产物量的减少表明鉴定到作为蛋白酶活性抑制剂的测试化合物。

116.计算机系统，所述计算机系统包括处理器和数据存储设备，其中所述数据存储设备上已经存储了多肽序列或核酸序列，其中所述多肽序列包括在权利要求60中所述的序列，由权利要求1或权利要求24所述的核酸编码的多肽。

117.如权利要求116所述的计算机系统，其进一步包括序列比较算法和其上已经存储了至少一个对比序列的数据存储设备。

118.如权利要求117所述的计算机系统，其中所述序列比较算法包括指示多态性的计算机程序。

119.如权利要求117所述的计算机系统，其进一步包括在所述序列中鉴定一个或多个特征的鉴定器。

120.计算机可读介质，所述计算机可读介质上已经存储了多肽序列或核酸序列，其中所述多肽序列包括权利要求60所述的多肽；由权利要求1或权利要求24所述的核酸编码的多肽。

121.用于鉴定序列特征的方法，所述方法包括步骤：(a)使用可鉴定序列的一个或多个特征的计算机程序读取序列，其中所述序列包括多肽序列或核酸序列，其中所述多肽序列包括权利要求60中所述的序列；由权利要求1或权利要求24所述的核酸编码的多肽；和(b)用该计算机程序鉴定所述序列中的一个或多个特征。

122.用于将第一序列与第二序列进行比较的方法，所述方法包括步骤：(a)通过使用可比较序列的计算机程序读取第一序列和第二序列，其中所述第一序列包括多肽序列或核酸序列，其中所述多肽序列包括权利要求60中所述的多肽，或由权利要求1或权利要求24所述的核酸编码的多肽；和(b)用该计算机程序确定第一序列和第二序列之间的差异。

123.如权利要求122所述的方法，其中确定第一序列和第二序列之间的差异的步骤进一步包括鉴定多态性的步骤。

124.如权利要求123所述的方法，进一步包括鉴定序列的一个或多个特征的鉴定器。

125.如权利要求124所述的方法，包括使用计算机程序读取第一序列，并鉴定序列中的一个或多个特征。

126.用于从环境样品中分离或回收核酸的方法，所述核酸编码具有蛋白酶活性的多肽，所述方法包括步骤：

(a)提供如权利要求31或权利要求33所述的扩增引物序列对；

(b)从环境样品中分离核酸，或处理环境样品，以便样品中的核酸易于与扩增引物对杂交；和，

(c)将步骤(a)的扩增引物对与步骤(b)的核酸结合，扩增环境样品中的核酸，从而从环境样品中分离或回收编码具有蛋白酶活性的多肽的核酸。

127.如权利要求126所述的方法，其中扩增引物序列对的每一成员都包括寡核苷酸，所述寡核苷酸包含SEQ ID NO:1；SEQ ID NO:3；SEQ ID NO:5；SEQ ID NO:7；SEQ ID NO:9；SEQ ID NO:11；SEQ ID NO:13；SEQ ID NO:15；SEQ ID NO:17；SEQ ID NO:19；SEQ ID NO:21；SEQ ID NO:23；SEQ ID NO:25；SEQ ID NO:27；SEQ ID NO:29；SEQ ID NO:31；SEQ ID NO:33；SEQ ID NO:35；SEQ ID NO:37；SEQ ID NO:39；SEQ ID NO:41；SEQ ID NO:43；SEQ ID NO:45；SEQ ID NO:47；SEQ ID NO:49；SEQ ID NO:51；SEQ ID NO:53；SEQ ID NO:55；SEQ ID NO:57；SEQ ID NO:59；SEQ ID NO:61；SEQ ID NO:63；SEQ ID NO:65；SEQ ID NO:67；SEQ ID NO:69；SEQ ID NO:71；SEQ ID NO:73；SEQ ID NO:75；SEQ ID NO:77；SEQ ID NO:79；SEQ ID NO:81；SEQ ID NO:83；SEQ ID NO:85；SEQ ID NO:87；SEQ ID NO:89；SEQ ID NO:91；SEQ ID NO:93；SEQ ID NO:95；SEQ ID NO:97；SEQ ID NO:99；SEQ ID NO:101；SEQ ID NO:103；SEQ ID NO:105；SEQ ID NO:107；SEQ ID NO:109；SEQ ID NO:111；SEQ ID NO:113；SEQ ID NO:115；SEQ IDNO:117；SEQ ID NO:119；SEQ ID NO:121；SEQ ID NO:123；SEQ ID NO:125；SEQID NO:127；SEQ ID NO:129；SEQ ID NO:131；SEQ ID NO:133；SEQ ID NO:135；SEQ ID NO:137；SEQ ID NO:139；SEQ ID NO:141；SEQ ID NO:143；SEQ IDNO:145；SEQ ID NO:146；SEQ ID NO:150；SEQ ID NO:158；SEQ ID NO:164；SEQ ID NO:171；SEQ ID NO:179；SEQ ID NO:187；SEQ ID NO:193；SEQ IDNO:199；SEQ ID NO:204；SEQ ID NO:210；SEQ ID NO:218；SEQ ID NO:222；SEQ IDNO:229；SEQ ID NO:234；SEQ ID NO:241；SEQ ID NO:248或SEQ IDNO:254所示的序列或其子序列中的至少大约10到50个连续碱基。

128.用于从环境样品中分离或回收核酸的方法，所述核酸编码具有蛋白酶活性的多肽，所述方法包括步骤：

(a)提供多核苷酸探针，其包括权利要求1或权利要求24中所示的序列或其子序列；

(b)从环境样品中分离核酸，或处理环境样品，以便样品中的核酸易于与步骤(a)的多核苷酸探针杂交；

(c)将步骤(a)的多核苷酸探针与步骤(b)的分离的核酸或处理的环境样品结合；和

(d)分离与步骤(a)的多核苷酸探针特异性杂交的核酸，从而从环境样品中分离或回收编码具有蛋白酶活性的多肽的核酸。

129.如权利要求127或权利要求128所述的方法，其中环境样品包括水样品、液体样品、土壤样品、空气样品或生物样品。

130.如权利要求129所述的方法，其中所述生物样品来源于细菌细胞、原生动物细胞、昆虫细胞、酵母细胞、植物细胞、真菌细胞或哺乳动物细胞。

131.产生核酸的变异体的方法，所述核酸编码具有蛋白酶活性的多肽，所述方法包括步骤：

(a)提供包括权利要求1或权利要求24所述的序列的模板核酸；和

(b)在模板序列中修饰、删除或添加一个或多个核苷酸，或进行修饰、删除和添加的组合，以产生模板核酸的变异体。

132.如权利要求131所述的方法，进一步包括表达变异体核酸，以产生变异体蛋白酶多肽。

133.如权利要求131所述的方法，其中修饰、添加或删除通过如下方法中的方法来引入：易错PCR、重排、寡核苷酸指导的诱变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体诱变、位点特异性诱变、基因再装配、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)及其组合。

134.如权利要求131所述的方法，其中修饰、添加或删除通过如下方法中的方法来引入：重组、递归序列重组、硫代磷酸酯修饰的DNA诱变、含尿嘧啶的模板诱变、缺口双链体诱变、点错配修复诱变、修复缺陷型宿主株诱变、化学诱变、放射性诱变、缺失诱变、限制选择诱变、限制纯化诱变、人工基因合成、整体诱变、嵌合核酸多聚体生成及其组合。

135.如权利要求131所述的方法，其中所述方法被迭代反复，直到产生与模板核酸编码的多肽相比具有改变的或不同的活性或者改变的或不同的稳定性的蛋白酶。

136.如权利要求135所述的方法，其中所述变异体蛋白酶多肽是耐热的，在暴露于增高的温度之后仍保留一些活性。

137.如权利要求135所述的方法，其中所述变异体蛋白酶多肽与模板核酸编码的蛋白酶相比，该变异体蛋白酶多肽具有更多的糖基化。

138.如权利要求135所述的方法，其中所述变异体蛋白酶多肽在高温下具有蛋白酶活性，其中模板核酸编码的蛋白酶在高温下没有活性。

139.如权利要求131所述的方法，其中所述方法被反复重复，直到产生具有与模板核酸的密码子使用有所不同的密码子使用的蛋白酶编码序列。

140.如权利要求131所述的方法，其中所述方法被反复重复，直到产生具有比模板核酸的信息表达或稳定性更高或更低水平的信息表达或稳定性的蛋白酶基因。

141.用于修饰编码具有蛋白酶活性的多肽的核酸中的密码子以增加其在宿主细胞中的表达的方法，所述方法包括步骤：

(a)提供编码具有蛋白酶活性的多肽的核酸，其包括在权利要求1或权利要求24中所述的序列；和

(b)鉴定步骤(a)的核酸中的非优选或较不优选的密码子，并用优选的或中度使用的密码子来代替之，所述的优选的或中度使用的密码子编码与被取代密码子相同的氨基酸，其中优选密码子是在宿主细胞基因的编码序列中被过度表现的密码子，非优选或较不优选的密码子是在宿主细胞基因的编码序列中表现不足的密码子，从而修饰核酸以增加其在宿主细胞中的表达。

142.用于修饰编码蛋白酶多肽的核酸中的密码子的方法，所述方法包括步骤：

(a)提供编码具有蛋白酶活性的多肽的核酸，其包括权利要求1或权利要求24中所述的序列；和

(b)鉴定步骤(a)的核酸中的密码子，并用不同的密码子来代替之，所述的不同的密码子编码与被取代密码子相同的氨基酸，从而修饰编码蛋白酶的核酸中的密码子。

143.用于修饰编码蛋白酶多肽的核酸中的密码子以增加其在宿主细胞中的表达的方法，所述方法包括步骤：

(a)提供编码蛋白酶多肽的核酸，其包括权利要求1或权利要求24中所述的序列；和

(b)鉴定步骤(a)的核酸中的非优选或较不优选的密码子，并用优选的或中度使用的密码子来代替之，所述的优选或中度使用的密码子编码与被取代密码子相同的氨基酸，其中优选密码子是在宿主细胞基因的编码序列中被过度表现的密码子，非优选或较不优选的密码子是在宿主细胞基因的编码序列中被表现不足的密码子，从而修饰核酸以增加其在宿主细胞中的表达。

144.用于修饰编码具有蛋白酶活性的多肽的核酸中的密码子以降低其在宿主细胞中的表达的方法，所述方法包括步骤：

(b)鉴定步骤(a)核酸中的至少一种优选密码子，并用非优选的或较不优选的密码子来代替之，所述的非优选的或较不优选的密码子编码与被取代密码子相同的氨基酸，其中优选密码子是在宿主细胞基因的编码序列中被过度表现的密码子，非优选或较不优选的密码子是在宿主细胞基因的编码序列中被表现不足的密码子，从而修饰核酸以降低其在宿主细胞中的表达。

145.如权利要求144所述的方法，其中所述宿主细胞是细菌细胞、真菌细胞、昆虫细胞、酵母细胞、植物细胞或哺乳动物细胞。

146.用于产生核酸文库的方法，所述核酸文库编码一系列被修饰的蛋白酶活性位点或底物结合位点，其中被修饰的活性位点或底物结合位点衍生于第一核酸，所述第一核酸包括编码第一活性位点或第一底物结合位点的序列，所述方法包括如下步骤：

(a)提供编码第一活性位点或第一底物结合位点的第一核酸，其中所述第一核酸序列包括在严紧条件下与SEQ ID NO:1；SEQ ID NO:3；SEQ ID NO:5；SEQ IDNO:7；SEQ ID NO:9；SEQ ID NO:11；SEQ ID NO:13；SEQ ID NO:15；SEQ IDNO:17；SEQ ID NO:19；SEQ ID NO:21；SEQ ID NO:23；SEQ ID NO:25；SEQ IDNO:27；SEQ ID NO:29；SEQ ID NO:31；SEQ ID NO:33；SEQ ID NO:35；SEQ IDNO:37；SEQ ID NO:39；SEQ ID NO:41；SEQ ID NO:43；SEQ ID NO:45；SEQ IDNO:47；SEQ ID NO:49；SEQ ID NO:51；SEQ ID NO:53；SEQ ID NO:55；SEQ IDNO:57；SEQ ID NO:59；SEQ ID NO:61；SEQ ID NO:63；SEQ ID NO:65；SEQ IDNO:67；SEQ ID NO:69；SEQ ID NO:71；SEQ ID NO:73；SEQ ID NO:75；SEQ IDNO:77；SEQ ID NO:79；SEQ ID NO:81；SEQ ID NO:83；SEQ ID NO:85；SEQ IDNO:87；SEQ ID NO:89；SEQ ID NO:91；SEQ ID NO:93；SEQ ID NO:95；SEQ IDNO:97；SEQ ID NO:99；SEQ ID NO:101；SEQ ID NO:103；SEQ ID NO:105；SEQID NO:107；SEQ ID NO:109；SEQ ID NO:111；SEQ ID NO:113；SEQ ID NO:115；SEQ ID NO:117；SEQ ID NO:119；SEQ ID NO:121；SEQ ID NO:123；SEQ IDNO:125；SEQ ID NO:127；SEQ ID NO:129；SEQ ID NO:131；SEQ ID NO:133；SEQ ID NO:135；SEQ ID NO:137；SEQ ID NO:139；SEQ ID NO:141；SEQ IDNO:143；SEQ ID NO:145；SEQ ID NO:146；SEQ ID NO:150；SEQ ID NO:158；SEQ ID NO:164；SEQ ID NO:171；SEQ ID NO:179；SEQ ID NO:187；SEQ IDNO:193；SEQ ID NO:199；SEQ ID NO:204；SEQ ID NO:210；SEQ ID NO:218；SEQ ID NO:222；SEQ ID NO:229；SEQ ID NO:234；SEQ ID NO:241；SEQ ID NO:248或SEQ ID NO:254中所示的序列或其子序列杂交的序列，该核酸编码蛋白酶活性位点或蛋白酶底物结合位点；

(b)提供一组诱变寡核苷酸，它们在第一核酸的多个靶密码子处编码天然发生的氨基酸变体；和，

(c)使用这套诱变寡核苷酸产生一组编码活性位点或编码底物结合位点的变异体核酸，其在被诱变的各个氨基酸密码子处编码一系列的氨基酸变化，从而产生编码多个被修饰的蛋白酶活性位点或底物结合位点的核酸文库。

147.如权利要求145所述的方法，包括通过优化的定向进化系统、基因位点饱和诱变(GSSM)或合成连接重装配(SLR)的方法诱变步骤(a)的第一核酸。

148.如权利要求145所述的方法，包括通过如下的方法诱变步骤(a)的第一核酸或变异体：易错PCR、重排、寡核苷酸指导的诱变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归整体诱变、指数整体诱变、位点特异性诱变、基因再装配、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)及其组合。

149.如权利要求145所述的方法，包括通过如下的方法诱变步骤(a)的第一核酸或变异体：重组、递归序列重组、硫代磷酸酯修饰的DNA诱变、含尿嘧啶的模板诱变、缺口双链体诱变、点错配修复诱变、修复缺陷型宿主株诱变、化学诱变、放射性诱变、缺失诱变、限制选择诱变、限制纯化诱变、人工基因合成、整体诱变、嵌合核酸多聚体生成及其组合。

150.产生小分子的方法，所述方法包括如下步骤：

(a)提供多种能够合成或修饰小分子的生物合成酶，其中这些酶中的一种酶包括由含有权利要求1或权利要求24所述的序列的核酸编码的蛋白酶；

(b)为步骤(a)的至少一种酶提供底物；和

(c)将步骤(b)的底物与这些酶在能够促进多个生物催化反应的条件下通过一系列生物催化反应进行反应，以产生小分子。

151.修饰小分子的方法，所述方法包括如下步骤：

(a)提供蛋白酶，其中该酶包括权利要求64所述的多肽，或由含有权利要求1或权利要求24所述的序列的核酸编码的多肽；

(b)提供小分子；和

(c)将步骤(b)的小分子与步骤(a)的酶在能够促进由蛋白酶催化的酶促反应的条件下通过一系列蛋白酶催化反应进行反应，从而修饰小分子。

152.如权利要求151所述的方法，包括提供给步骤(a)的酶多个小分子底物，从而获得由蛋白酶催化的至少一种酶促反应所产生的修饰小分子的文库。

153.如权利要求151所述的方法，进一步包括提供多种其它的酶，在有助于这些酶介导的多个生物催化反应的条件下，可以形成由多个酶促反应所产生的修饰小分子的文库。

154.如权利要求153所述的方法，进一步包括测试该文库的步骤，以确定该文库中是否存在表现出期望活性的特定的修饰小分子。

155.如权利要求154所述的方法，其中测试该文库的步骤进一步包括系统地去除除了用于产生在文库中所述的多个修饰小分子的一部分的一个生物催化反应之外的所有反应，通过测试所述的那部分修饰小分子中存在或不存在具有期望活性的特定的修饰小分子，鉴定产生具有期望活性的特定的修饰小分子的至少一个特异性生物催化反应。

156.确定蛋白酶的功能片段的方法，所述方法包括步骤：

(a)提供蛋白酶，其中该酶包括权利要求64中所述的多肽、或由权利要求1或权利要求24中所述的的核酸编码的多肽；和

(b)从步骤(a)的序列删除多个氨基酸残基，并测试剩余的子序列的蛋白酶活性，从而确定蛋白酶的功能片段。

157.如权利要求156所述的方法，其中蛋白酶活性是通过提供蛋白酶底物并检测底物量的减少或反应产物量的增加来测量。

158.通过应用实时代谢通量分析来进行全细胞工程以得到新的或修饰的表型的方法，所述方法包括如下步骤：

(a)通过修饰细胞的遗传组分产生修饰的细胞，其中遗传组分通过加入含有权利要求1或权利要求24所述的序列的核酸到细胞来修饰；

(b)培养修饰的细胞以产生大量的修饰细胞；

(c)通过实时监控步骤(b)的细胞培养物来测量所述细胞的至少一个代谢参数，和

(d)分析步骤(c)的数据，以确定所测量的参数是否与在类似条件下未修饰细胞中的可比较的测量结果有所不同，从而应用实时代谢通量分析鉴定出细胞中的工程化表型。

159.如权利要求158所述的方法，其中细胞的遗传组分可以通过删除或修饰细胞中的序列，或敲除基因表达的方法来修饰。

160.如权利要求158所述的方法，进一步包括选择含有通过基因工程产生的新的表现型的细胞。

161.如权利要求160所述的方法，进一步包括培养所选择的细胞，从而产生含有新的工程化表型的新细胞株。

162.分离的或重组的信号序列，其由如下的一个序列组成：(i)SEQ ID NO:2；SEQID NO:4；SEQ ID NO:6；SEQ ID NO:8；SEQ ID NO:10；SEQ ID NO:12；SEQ IDNO:14；SEQ ID NO:16；SEQ ID NO:18；SEQ ID NO:20；SEQ ID NO:22；SEQ IDNO:24；SEQ ID NO:26；SEQ ID NO:28；SEQ ID NO:30；SEQ ID NO:32；SEQ IDNO:34；SEQ ID NO:36；SEQ ID NO:38；SEQ ID NO:40；SEQ ID NO:42；SEQ IDNO:44；SEQ ID NO:46；SEQ ID NO:48；SEQ ID NO:50；SEQ ID NO:52；SEQ IDNO:54；SEQ ID NO:56；SEQ ID NO:58；SEQ ID NO:60；SEQ ID NO:62；SEQ IDNO:64；SEQ ID NO:66；SEQ ID NO:68；SEQ ID NO:70；SEQ ID NO:72；SEQ IDNO:74；SEQ ID NO:76；SEQ ID NO:78；SEQ ID NO:80；SEQ ID NO:82；SEQ IDNO:84；SEQ ID NO:86；SEQ ID NO:88；SEQ ID NO:90；SEQ ID NO:92；SEQ IDNO:94；SEQ ID NO:96；SEQ ID NO:98；SEQ ID NO:100；SEQ ID NO:102；SEQ IDNO:104；SEQ ID NO:106；SEQ ID NO:108；SEQ ID NO:110；SEQ ID NO:112；SEQID NO:114；SEQ ID NO:116；SEQ ID NO:118；SEQ ID NO:120；SEQ ID NO:122；SEQ ID NO:124；SEQ ID NO:126；SEQ ID NO:128；SEQ ID NO:130；SEQ IDNO:132；SEQ ID NO:134；SEQ ID NO:136；SEQ ID NO:138；SEQ ID NO:140；SEQ ID NO:142；SEQ ID NO:144；SEQ ID NO:147；SEQ ID NO:151；SEQ IDNO:159；SEQ ID NO:165；SEQ ID NO:172；SEQ ID NO:180；SEQ ID NO:188；SEQ ID NO:194；SEQ ID NO:200；SEQ ID NO:205；SEQ ID NO:211；SEQ IDNO:219；SEQ ID NO:223；SEQ ID NO:230；SEQ ID NO:235；SEQ ID NO:242；SEQ ID NO:249或SEQ ID NO:255或由SEQ ID NO:145编码的多肽的残基1到17、1到18、1到19、1到20、1到21、1到22、1到23、1到24、1到25、1到26、1到27、1到28、1到28、1到30、1到31、1到32、1到33、1到34、1到35、1到36、1到37、1到38或1到39中所示的序列，或(ii)由表4中所示的一个序列组成的信号序列。

163.嵌合多肽，其包含至少一个第一结构域和至少一个第二结构域，所述第一结构域包括具有权利要求162中所述的序列的信号肽(SP)，所述第二结构域包括异源多肽或肽，其中所述的异源多肽或肽与所述的信号肽(SP)不是天然相关的。

164.如权利要求163所述的嵌合多肽，其中所述异源多肽或肽不是蛋白酶。

165.如权利要求163所述的嵌合多肽，其中所述异源多肽或肽是在信号肽(SP)或蛋白酶催化结构域(CD)的氨基末端、羧基末端或其两个末端上。

166.编码嵌合多肽的分离的或重组的核酸，其中所述嵌合多肽包括至少一个第一个结构域和至少一个第二结构域，其中所述第一结构域包括具有权利要求162中所述的序列的信号肽(SP)，所述第二个结构域包括异源多肽或肽，其中所述的异源多肽或肽与所述的信号肽(SP)不是天然相关的。

167.增加蛋白酶多肽的耐热性或热稳定性的方法，所述方法包括糖基化蛋白酶，其中所述多肽包含在权利要求60中所述的多肽或者由权利要求1或权利要求24所述的核酸编码的多肽的至少30个连续氨基酸，从而增加蛋白酶的耐热性或热稳定性。

168.用于在细胞中过量表达重组蛋白酶的方法，所述方法包括表达含有在权利要求1或权利要求24中所述的核酸序列的载体，其中过量表达通过使用高活性启动子、双顺反子载体或通过载体的基因扩增来实现。

169.产生转基因植物的方法，所述方法包括如下步骤：

(a)将异源核酸序列导入细胞，其中所述异源核酸序列包括在权利要求1或权利要求24中所述的序列，从而产生转化的植物细胞；

(b)由转化的细胞产生转基因植物。

170.如权利要求169所述的方法，其中步骤(a)进一步包括通过植物细胞原生质体的电穿孔或显微注射来导入异源核酸序列。

171.如权利要求169所述的方法，其中步骤(a)包括通过DNA颗粒轰击或通过使用根瘤农杆菌宿主将异源核酸序列直接导入到植物组织中。

172.在植物细胞中表达异源核酸序列的方法，所述方法包括如下步骤：

(a)用与启动子有效连接的异源核酸序列转化植物细胞，其中异源核酸序列包括权利要求1或权利要求24中所述的序列；

(b)在异源核酸序列可在植物细胞中表达的条件下培养植物。

173.用于水解、降解或破碎含蛋白的组合物的方法，所述方法包括如下步骤：

(a)提供具有蛋白酶活性的在权利要求64中所述的多肽，或由权利要求1或权利要求24中所述的核酸编码的多肽；

(b)提供含有蛋白的组合物；和

(c)在蛋白酶可水解、降解或破碎含蛋白的组合物的条件下用步骤(b)的组合物接触步骤(a)的多肽。

174.如权利要求173中所述的方法，其中所述组合物包括植物细胞、细菌细胞、酵母细胞、昆虫细胞或动物细胞。

175.用于从组合物中溶解或去除蛋白的方法，所述方法包括如下步骤：

(b)提供含蛋白的组合物；和

(c)在蛋白酶可去除或溶解蛋白的条件下用步骤(b)的组合物接触步骤(a)的多肽。

176.去污剂组合物，其包含在权利要求64中所述的多肽，或由如权利要求1或权利要求24中所述的核酸编码的多肽，其中所述多肽具有蛋白酶活性。

177.如权利要求176所述的去污剂组合物，其中所述蛋白酶是非表面活性的蛋白酶，或表面活性蛋白酶。

178.如权利要求176中所述的去污剂组合物，其中蛋白酶被配制成非水的液体组合物、铸型固体、粒状形式、微粒形式、压缩片剂、凝胶形式、糊状或浆状形式。

179.用于洗涤物体的方法，所述方法包括如下步骤；

(b)提供目标物体；和

(c)在组合物可以洗涤目标物体的条件下用步骤(b)的物体接触步骤(a)的多肽。

180.纺织品或织物，其含有在权利要求64中所述的多肽，或由权利要求1或权利要求24中所述的核酸编码的多肽。

181.如权利要求180所述的纺织品或织物，其中所述纺织品或织物包括含有纤维素的纤维。

182.用于从组合物中去除蛋白污渍的方法，所述方法包括如下步骤：

(a)提供包含有在权利要求64中所述的具有蛋白酶活性的多肽，或由权利要求1或权利要求24所述的核酸编码的多肽的组合物；

(b)提供具有蛋白污渍的组合物；和

(c)在其中蛋白酶可以去除污渍的条件下将步骤(b)的组合物与步骤(a)的多肽接触。

183.用于改进织物的成品的方法，所述方法包括如下步骤：

(b)提供织物；和

(c)在其中多肽可以处理织物的条件下将步骤(b)的织物与步骤(a)的多肽接触，从而改进织物的成品。

184.如权利要求183所述的方法，其中所述织物是羊毛或丝绸。

185.饲料或食品，其含有在权利要求64中所述的多肽，或由权利要求1或权利要求24所述的核酸编码的多肽。

186.用于在动物进食之前水解在饲料或食物中的蛋白的方法，所述方法包括如下步骤：

(a)获得含有蛋白酶的材料，其中所述蛋白酶具有权利要求64所述的序列，或由权利要求1或权利要求24所述的核酸编码；和

(b)向饲料或食物中加入足量的步骤(a)的多肽，通过足够长的时间，导致蛋白水解或形成处理的食物或饲料，从而在动物进食之前水解在食物或饲料中的蛋白。

187.如权利要求186所述的方法，其中所述食物或饲料是玉米。

188.改进乳制品的质地和味道的方法，所述方法包括如下步骤：

(a)提供具有蛋白酶活性的多肽，其中多肽具有在权利要求64中所述的序列，或由权利要求1或权利要求24所述的核酸编码；

(b)提供乳制品；和

(c)在蛋白酶可以改进乳制品的质地或味道的条件下将步骤(b)的乳制品与步骤(a)的多肽接触。

189.如权利要求188所述的方法，其中所述乳制品包括奶酪或酸奶。

190.乳制品，其含有蛋白酶，所述蛋白酶具有在权利要求64中所述的序列，或由权利要求1或权利要求24所述的核酸编码。

191.使肉或鱼变嫩的方法，所述方法包括如下步骤：

(a)提供具有蛋白酶活性的多肽，其中蛋白酶具有在权利要求64中所述的序列，或由权利要求1或权利要求24所述的核酸编码；

(b)提供含有肉或鱼的组合物；和

(c)在其中多肽可以使肉或鱼变嫩的条件下将步骤(b)的组合物与步骤(a)的多肽接触。

192.改进从富含油的植物材料中提取油的方法，所述方法包括如下步骤：

(a)提供具有蛋白酶活性的如权利要求64所述的多肽，或由权利要求1或权利要求24中所述的核酸编码的多肽；

(b)提供富含油的植物材料；和

(c)将富含油的植物材料与步骤(a)的多肽接触，条件是其中具有蛋白酶活性的多肽能催化肽键的水解。

193.如权利要求192所述的方法，其中所述富含油的植物材料包括富含油的种子。

194.如权利要求193所述的方法，其中所述油是大豆油、橄榄油、油菜籽油或葵花油。

195.制备果汁或蔬菜汁、糖浆、浓汤或提取物的方法，所述方法包括如下步骤：

(a)提供具有蛋白酶活性的如权利要求64中所述的多肽，或由权利要求1或权利要求24所述的核酸编码的多肽；

(b)提供含有水果或蔬菜材料的组合物或液体；和

(c)将步骤(a)的多肽与组合物接触，从而制备果汁或蔬菜汁、糖浆、浓汤或提取物。

196.纸、纸产品或纸浆，其包含权利要求64中所述的蛋白酶，或由权利要求1或权利要求24中所述的核酸编码的多肽。

197.处理纸或纸浆或木浆的方法，所述方法包括如下步骤：

(b)提供含有纸或纸浆或木浆的组合物；和

(c)将步骤(a)的多肽与步骤(b)的组合物在其中蛋白酶可以处理纸或纸浆或木浆的条件下接触。

198.药物组合物，所述药物组合物含有如权利要求64中所述的多肽，或由权利要求1或权利要求24所述的核酸编码的多肽。

199.如权利要求198所述的药物组合物，其中所述药物组合物起到消化助剂或局部皮肤护理剂的作用。

200.处理不均衡脱落的方法，所述方法包括局部应用权利要求199所述的组合物。

如权利要求199所述的方法，其中所述处理是预防性的。

口腔护理产品，所述产品包括如权利要求64中所述的多肽，或由权利要求1或权利要求24所述的核酸编码的多肽。

如权利要求202所述的口腔护理产品，其中所述产品包括牙膏、牙科乳剂、凝胶或牙粉、牙用产品、漱口剂、刷前或刷后漱口制剂、口香糖、糖块或糖果。

隐形眼镜清洗组合物，所述组合物包括如权利要求64所述的多肽，或由权利要求1或权利要求24所述的核酸编码的多肽。

处理固体或液体动物排泄物的方法，所述方法包括如下步骤：

(a)提供如权利要求64所述的多肽，或由权利要求1或权利要求24所述的核酸编码的多肽；

(b)提供固体或液体动物排泄物；和

(c)将步骤(a)的多肽与步骤(b)的固体或液体排泄物在其中蛋白酶可以处理排泄物的条件下接触。

处理过的排泄物，所述排泄物包含具有蛋白酶活性的多肽，其中所述多肽包括权利要求64所述的序列，或由权利要求1或权利要求24所述的核酸编码的多肽。

毛团补救方法，包括具有蛋白酶活性的多肽，其中所述多肽包括权利要求64所述的序列，或由权利要求1或权利要求24所述的核酸编码的多肽。

毛团预防方法，包括具有蛋白酶活性的多肽，其中所述多肽包括权利要求64所述的序列，或由权利要求1或权利要求24所述的核酸编码的多肽。

血液或有机污点的去除剂，所述去除剂包含具有蛋白酶活性的多肽，其中所述多肽包括权利要求64所述的序列，或由权利要求1或权利要求24所述的核酸编码的多肽。

210.用于消毒固体或液体的方法，所述方法包括如下步骤：

(a)提供包含如权利要求64所述的具有蛋白酶活性的多肽，或由权利要求1或权利要求24所述的核酸编码的多肽的组合物；

(b)提供要被消毒的固体或液体；和

(c)将步骤(a)的组合物与步骤(b)的固体或液体在其中蛋白酶可以消毒固体或液体的条件下接触。

211.如权利要求210所述的方法，其中步骤(a)的组合物被配制为喷雾剂或液体。

212.抗微生物、抗病毒或抗孢子试剂，所述试剂包含具有蛋白酶活性的多肽，其中所述多肽包括如权利要求64所述的序列，或由权利要求1或权利要求24所述的核酸编码的多肽。

213.消毒剂，所述消毒剂包含具有蛋白酶活性的多肽，其中所述多肽包括如权利要求64所述的序列，或由权利要求1或权利要求24所述的核酸编码的多肽。

214.用于组织解离的方法，所述方法包括如下步骤：

(a)提供组合物，该组合物包含如权利要求64所述的具有蛋白酶活性的多肽，或由权利要求1或权利要求24所述的核酸编码的多肽；和

(b)将待解离的组织与步骤(a)的组合物接触。

215.如权利要求214所述的方法，其中所述的组织是伤口组织。

216.如权利要求214所述的方法，其中步骤(b)的接触是被用于伤口清洗、创伤垫制备，以处理压疮、腿部溃疡、烧伤、糖尿病患者足部溃疡、疤痕、IV固定、外科伤口和轻伤。

217.医疗用敷料，所述敷料包含具有蛋白酶活性的多肽，其中所述多肽包括如权利要求64中所述的序列，或由权利要求1或权利要求24所述的核酸编码的多肽。