CN109312333A

CN109312333A - 选择具有蛋白酶活性的酶的方法

Info

Publication number: CN109312333A
Application number: CN201780035224.8A
Authority: CN
Inventors: R·布拉扎伊; N·托列洛; C·埃姆里克
Original assignee: Novo Nordisk AS
Current assignee: Novo Nordisk AS
Priority date: 2016-04-07
Filing date: 2017-04-07
Publication date: 2019-02-05
Also published as: EP3440207A1; WO2017177153A1; US20190161786A1

Abstract

本文在此提供用于提高蛋白酶活性的系统及其组分。该系统利用乳液将合成化合物文库在体外区室化，各化合物具有与蛋白酶底物和选择性标记物连接的基因。表达的具有更高蛋白酶活性的酶将优先使蛋白酶底物水解，而蛋白酶活性较低的酶将使底物保持完整。除去未水解的化合物提供了编码活性更高的蛋白酶变体的富集的基因文库。另外说明了可以用于该方法的合成化合物和乳液。

Description

选择具有蛋白酶活性的酶的方法

序列表参考

本申请含有计算机可读形式的序列表，在此将其并入作为参考。

发明领域

本发明属于蛋白质工程设计和选择的技术领域。更具体地，本发明涉及通过定向进化(directed evolution)对酶进行改进。

背景技术

蛋白酶用于许多种工业应用，其中包括，用于改善污渍去除的洗涤剂组合物的家庭护理。尽管蛋白酶(例如亚麻酶(subtilase))已经成功加以修饰，以提高所需的特性，例如稳定性和较低洗涤温度下的有效性(参见，例如，PCT/EP2015/078586、WO 2016/001449和US 2015/0125925)，蛋白酶变体的开发通常包括蛋白质工程技术，例如合理设计和/或定向进化，然后进行费时费力的酶检验，以测试功能的改善。因此，对于迅速、有效地识别编码蛋白酶活性提高的多肽的那些合成基因的方法存在有强烈的需求。

发明内容

本文说明了用于提高蛋白酶活性的系统及其组分。因此，一方面是一种选择具有蛋白酶活性的多肽的方法，该方法包括：

(i)将多种合成化合物悬浮在水相中，其中合成化合物各自包括：

(a)编码多肽的多核苷酸；

(b)与所述多核苷酸连接的蛋白酶底物；和

(c)与所述多核苷酸连接的选择性标记物；

其中水相包括用于多肽表达的组分；

(ii)与水相形成油包水乳液，其中合成化合物在乳液的水性液滴中区室化(compartmentalized)；

(iii)在乳液的水性液滴内表达多肽，其中水性液滴中具有蛋白酶活性的多肽使所述液滴中的蛋白酶底物水解；和

(iv)分离合成化合物，以回收包含蛋白酶底物的合成化合物和/或其中蛋白酶底物已经被水解的合成化合物。

一方面，多肽包括前肽。在另一实施方式中，选择性标记物在相对于蛋白酶底物远端的位置处与多核苷酸连接。

另一方面是一种合成化合物，其包括：(a)编码多肽的多核苷酸；(b)与所述多核苷酸连接的蛋白酶底物；和(c)与所述多核苷酸连接的选择性标记物。在一实施方式中，多肽包括前肽。在另一实施方式中，选择性标记物在相对于蛋白酶底物远端的位置处与多核苷酸连接。

另一方面是一种制造合成化合物的方法，其包括：(i)将蛋白酶底物与编码多肽的多核苷酸连接；(ii)将选择性标记物与编码多肽的多核苷酸连接；和(ii)回收合成化合物。

另一方面是一种多核苷酸文库，其包括多种合成化合物。

另一方面是一种油包水乳液，其包括多核苷酸文库，其中文库的合成化合物在乳液的水性液滴中区室化。

另一方面是一种制造乳液的方法，其包括：(i)将多种合成化合物悬浮在水相中；和(ii)将(i)的悬浮液与油混合。

附图说明

图1显示了根据本发明一方面的蛋白酶选择中所涉及处理步骤的示例性图解表示。

图2显示了通过使用本发明系统的野生型蛋白酶相比较于无催化活性的蛋白酶的自富集的图解表示。

图3显示了使用本发明的系统的IVTT-表达的蛋白酶原(pro-protease)和成熟蛋白酶的收率和活性。含有前肽的蛋白酶的结果以深灰色显示，成熟蛋白酶的结构以白色显示。注意成熟蛋白酶的收率和活性均低到在图表上几乎不可见。

图4显示了具有与本发明的合成化合物连接的近端或远端生物素亲和标签的扩增子的差异捕获。具有近端生物素的扩增子以灰色显示，具有远端生物素的扩增子以黑色显示。“提取”测量是从乳液破裂之后提取的水相部分取样。“捕获”测量是从在涂覆链霉亲和素的小珠上捕获的DNA取样。

图5显示了卵抑制剂对通过本发明的系统回收的DNA的量的影响的图解表示。

具体实施方式

定义

氨基酸：除非另外指出，术语“氨基酸”或“氨基酸残基”包括天然的L-氨基酸或残基。术语“氨基酸”或“氨基酸残基”还包括D-氨基酸以及化学修饰的氨基酸，例如氨基酸类似物、通常不在蛋白质中的天然氨基酸和化学合成的具有氨基酸特性的化合物(统称为“非典型”氨基酸)。例如，“氨基酸”的定义中包括苯丙氨酸或脯氨酸的类似物或模拟物，它们同天然Phe或Pro那样允许肽化合物的相同构象限制。

编码序列：术语“编码序列”或“编码区”是指指定多肽的氨基酸序列的多核苷酸序列。编码序列的边界通常通过开放阅读框确定，其始于ATG起始密码子或者可选的起始密码子例如GTG和TTG，并终于例如TAA、TAG或TGA的终止密码子。编码序列可以是基因组DNA、cDNA、合成多核苷酸和/或重组多核苷酸的序列。

控制序列：术语“控制序列”是指多肽表达所必需的核酸序列。控制序列对于编码多肽的多核苷酸来说可以是天然的(native)或外源的(foreign)，或者对于彼此来说是天然的或外源的。这类控制基因包括，但不限于，前导序列、多腺苷酸化序列、前肽序列、启动子序列、信号肽序列和转录终止子序列。出于引入特定的限制性酶切位点促进控制序列与编码多肽的多核苷酸的编码区连接的目的，控制序列可设有接头(linker)。

远端/近端位置：术语“远端位置”是指所提及的选择性标记物连接到多核苷酸的相对于所提及底物而言的相对端(例如，当底物与链的5’端连接时，则远端的选择性标记物连接在与底物同一链的3’端上，或者这时与互补链的5’端连接。类似地，当底物与链的3’端连接时，则远端的选择性标记物连接在与底物同一链的5’端上，或者这时与互补链的3’端连接)。在一些实施方式中，底物与链的5’端连接，标记物在互补链的5’端上的远端位置处。

术语“近端位置”是指所提及的选择性标记物连接到多核苷酸的相对于所提及底物而言的同一端(例如，当底物与链的5’端连接时，则近端的选择性标记物连接在与底物同一链的5’端上，或者与互补链的3’端连接。类似地，当底物与链的3’端连接时，则近端的选择性标记物连接在与底物同一链的3’端上，或者与互补链的5’端连接)。

表达：术语“表达”包括由编码序列制造多肽的过程，其包括但不限于，转录、转录后修饰、翻译、翻译后修饰和分泌。例如，通过本领域已知的技术，例如测量mRNA和/或翻译的多肽的水平，可以对表达进行测量，以检测增加的表达。如本文所用，表达包括体外转录/翻译。

表达载体：术语“表达载体”是指包括编码多肽的多核苷酸、并且与额外的提供其表达的控制序列可操作连接的线性或环状DNA分子。

宿主细胞：术语“宿主细胞”是指任何易感于转录、转染和转导和类似过程的具有包括本文所述的多核苷酸(例如，编码蛋白酶或蛋白酶变体的多核苷酸)的核酸构建体或表达载体的细胞类型。术语“宿主细胞”包括由于在复制过程中发生突变而与亲本细胞不同的亲本细胞的任何子代。

接头：如本文所用，术语“接头”或“连接”是指提及的化合物与另一提及的化合物化学连接。

成熟多肽：在本文中，术语“成熟多肽”定义为在翻译和任何翻译后修饰例如N-端加工、C-端截短、糖基化、磷酸化等之后的最终形式的具有生物活性的多肽。在一些实施方式中，成熟多肽是SEQ ID NO:3的氨基酸86-354。

变体：术语“变体”是指编码变体的多核苷酸。

核酸构建体：术语“核酸构建体”是指包含一个或多个控制序列的单链或双链核酸分子。构建体可以由天然基因分离出，或者以自然界不会存在的方式修饰成含有核酸片段，或者是合成的。

可操作连接：术语“可操作连接”是指如下结构：其中控制序列相对于多核苷酸的编码序列位于适当的位置处，使得控制序列指导编码序列的表达。

亲本或亲本蛋白酶：术语“亲本”或“亲本蛋白酶”是指进行变更以产生酶变体的蛋白酶。亲本可以是天然的(野生型)多肽或其变体或片段。

多核苷酸：术语“多核苷酸”是指脱氧核糖核苷酸或核糖核苷酸聚合物，除非另外限定，其包括可以以与天然核苷酸类似的方式发挥作用的天然核苷酸的已知类似物。术语“多核苷酸”是指任何形式的DNA或RNA，包括，例如，基因组DNA；作为信使RNA(mRNA)的DNA代表的互补DNA(cDNA)，其通常通过mRNA逆转录或扩增得到；合成产生或通过扩增产生的DNA分子；和mRNA。术语“多核苷酸”包括双链核酸分子以及单链分子。在双链多核苷酸中，多核苷酸链不需要是同延的(coextensive)(即，双链多核苷酸不需要沿着两个链的整个长度是双链)。如果其在结构上不同，例如，核苷酸序列不同，则称多核苷酸是“不同”的。

多肽：术语“多肽”是指氨基酸聚合物，并不指特定长度的编码产物，因此，包括肽、寡肽和蛋白质。多肽还可以是多肽的天然等位基因或改造的变体。

前肽：术语“前肽”是框内连接(融合)在多肽氨基端上的氨基酸序列，其中产生的多肽称作是酶原或多肽原(或者在一些情形中称作酵素原)。多肽原通常是无活性的或者活性较低，并可以通过前肽的催化或自催化切割由多肽原转化成成熟的活性多肽，产生多肽的活性形式。在一些实施方式中，前肽是SEQ ID NO:3的氨基酸1-85。

前肽原：术语“prepropeptide(前肽原)”在本文中定义为多肽氨基端处存在的信号肽和前肽，其中前肽框内连接(融合)在多肽的氨基端上，信号肽区框内连接(或融合)在前肽区的氨基端上。

蛋白酶：术语“蛋白酶”在本文中定义为使肽键水解的酶。其包括任何属于EC 3.4酶分类的酶(包括其13个小类中的每一个)。EC数字分别参考来自NC-IUBMB,AcademicPress,San Diego,California的酶命名法(Enzyme Nomenclature)1992，其包括以下文献中出版的增补1-5：Eur.J.Biochem.223:1-5(1994)；Eur.J.Biochem.232:1-6(1995)；Eur.J.Biochem.237:1-5(1996)；Eur.J.Biochem.250:1-6(1997)；和Eur.J.Biochem.264:610-650(1999)。术语“亚麻酶(subtilase)”是指根据Siezen等人,1991,Protein Engng.4:719-737和Siezen等人,1997,Protein Science 6:501-523的丝氨酸蛋白酶的小类。丝氨酸蛋白酶或丝氨酸肽酶是具有如下特征的蛋白酶小类：在活性位点处具有丝氨酸，其与底物形成共价加合物。而且，亚麻酶(和丝氨酸蛋白酶)的特征在于，除丝氨酸以外，还具有两个活性位点氨基酸残基，即组氨酸和天冬氨酸残基。亚麻酶可以分成6个小类，即，枯草杆菌蛋白酶(Subtilisin)家族、嗜热蛋白酶家族(Thermitase)、蛋白酶K家族、羊毛硫抗生素肽酶(Lantibiotic)家族、Kexin家族和Pyrolysin家族。术语“蛋白酶活性”是指蛋白水解活性(EC 3.4)。本发明的蛋白酶是内肽酶(EC 3.4.21)。蛋白酶活性可以使用本领域已知的方法(例如，US 2015/0125925)或使用市售的检验试剂盒(例如，Sigma-Aldrich)测定。

信号肽：术语“信号肽”在本文中定义为框内连接(融合)在具有生物活性的多肽的氨基端上并指导多肽进入细胞分泌路径的肽。前肽可以存在于信号肽和多肽的氨基端之间(参见上文的前肽原定义)。

底物：如本文所用，术语“底物”通常是指酶的底物，即，酶发挥作用以产生反应产物的材料。

固相：如本文所用，术语“固相”是指当用于本发明的选择方法时是固体的任意材料。

合成化合物：如本文所用，术语“合成化合物”是指非天然存在的化合物。

变体：术语“变体”是指在一个或多个(例如，若干个)位置处包括变更即置换、插入和/或缺失的蛋白酶。置换是指将占据一位置的氨基酸用不同的氨基酸替换；缺失是指去除占据一位置的氨基酸；插入是指紧邻着占据一位置的氨基酸之后增加一个或多个氨基酸。

野生型蛋白酶：术语“野生型”蛋白酶是指天然微生物例如自然界发现的细菌、酵母或丝状真菌表达的蛋白酶。

在本文中提到“大约”一数值或参数包括涉及该数值或参数本身的方面。例如，说明中提到“大约X”包括“X”方面。当与测量的数值结合使用时，“大约”包括了至少涵盖与测量特定数值的方法相关的不确定性的范围，并且可以包括围绕所述数值加或减两个标准偏差的范围。

如本文所用，在所述权利要求中，除非上下文明确指出，单数形式“一”和“该”()包括复数形式。要理解到，本文所述的方面包括“由若干方面组成”和/或“基本上由若干方面组成”。

除非另外定义或者上下文明确指出，本文所用的所有技术和科学术语均具有本领域普通技术人员通常理解的含义。

发明详述

本文说明了用于提高蛋白酶活性的方法及其组分等。本发明采用体外区室化(IVC)用于迅速、高通量地进行酶进化。代替依赖于展示技术中所实施的基因型和表型之间的物理连接的方式，IVC通过油包水乳液的单个水性液滴中的空间限制连接基因型和表型(参见，例如，Tawfik等人,1998,Nat.Biotechnol.16(7):652-656；US 6,489,103；WO 99/02671；WO 2009/124296)。

但是，现有的IVC筛选系统具有几个缺点，使其不适合于筛选蛋白酶，例如，要求有转化成保持与基因连接的产物的可溶性基因连接底物(WO 99/02671)，或者要求有不溶性固相纤维素底物(WO 2009/124296)。另外，申请人已经发现，活性蛋白酶的区室化提出了可能与自体分解(autolysis)有关的挑战。申请人进一步发现，选择性标记物在基因连接底物上的存在和定位对于筛选具有蛋白酶活性的多肽的能力具有显著影响。

因此，本文说明了提高蛋白酶活性的选择方法。该方法利用IVC和一批合成的生物缀合化合物，上述化合物发挥着作为选择底物和编码作用于底物的蛋白酶的两种功能。这批合成化合物包括与一批蛋白酶底物连接的一批多核苷酸，所述多核苷酸编码多肽(具体地，蛋白酶或蛋白酶衍生物)。表达的具有蛋白酶活性的多肽于是可以使蛋白酶底物水解，然后分离水解的和未水解的合成化合物。基于这些方法，申请人进一步发现，使用具有前肽序列的蛋白酶提供显著提高的收率和活性。无意拘泥于任何理论，前肽序列可能使自体分解最小化，从而使表达的具有区室化基因连接底物的蛋白酶得以充分积累。申请人另外出人意料地发现，与近端位置的亲和标签相比，远端亲和标签在基因连接底物上的位置导致释放的DNA的回收显著提高。

如图1所例示，选择方法(300)可以使用一批编码多肽的多核苷酸(302)，例如，包括多核苷酸的合成化合物的文库(303)。文库的多核苷酸(302)与蛋白酶底物(305)连接(304)，并可以涂覆在固相(306)(例如，磁性微球)的表面上，通常为编码针对底物(305)具有蛋白酶活性的酶变体的突变体。编码蛋白酶变体的文库(303)的多核苷酸突变体(302)可以使用许多种技术产生，其包括诱变PCR和DNA文库合成，如下文所详述。使用化学修饰的PCR引物的PCR扩增提供了一种将多核苷酸突变体(302)与蛋白酶底物(305)连接(304)的方式。多核苷酸突变体(302)可以与选择性标记物(307)连接，以提供额外的在处理结束时选择性回收释放出的多核苷酸突变体(302)的方式。多核苷酸文库(303)可以使用多种油-表面活性剂(314)用水乳化(308)，产生含有各自具有区室化的合成化合物的水性液滴(312)(区室)的乳液(310)。将乳液孵育，以将多核苷酸突变体(302)表达(315)成对应的多肽(316)。

然后，所表达的针对蛋白质底物(305)表现出蛋白酶活性的多肽变体(316)使底物(318)水解。比起表现出较低活性的蛋白酶变体，蛋白酶活性提高的蛋白酶变体在概率上更加可能使结合DNA的蛋白酶底物(305)水解。可变的孵育温度和时间以及抑制剂和竞争性底物的使用，使得能够对检验的严格性进行微调。孵育之后，将乳液(310)破坏(319)。然后，使用本文所述的技术，将与水解的蛋白酶底物连接的合成化合物(324)从具有未水解蛋白质底物的合成化合物(325)分离出。例如，使用亲和力捕获，可以促进合成化合物(324)的回收。编码针对底物的蛋白酶活性提高的多肽变体的多核苷酸突变体可以进行额外轮(326)的选择，以进一步提高蛋白酶活性。

因此，一方面是一种选择具有蛋白酶活性的多肽的方法，该方法包括：

(a)编码多肽的多核苷酸；

(b)与所述多核苷酸连接的蛋白酶底物；和

(c)与所述多核苷酸连接的选择性标记物；

其中水相包括用于多肽表达的组分；

(ii)与水相形成油包水乳液，其中合成化合物在乳液的水性液滴中区室化；

合成化合物

一方面，本文使用的合成化合物包括(a)编码多肽的多核苷酸；(b)与所述多核苷酸连接的蛋白酶底物；和(c)与所述多核苷酸连接的选择性标记物。在一些实施方式中，合成化合物包括两种多核苷酸(例如，具有相同或不同序列)。在一些实施方式中，合成化合物仅包括一拷贝的一种核苷酸。

多核苷酸/多肽

多核苷酸可以包括(蛋白酶或源自其的)多肽的编码序列。合适的蛋白酶可以是真菌、细菌来源的，包括丝状真菌和酵母来源，以及植物来源的。化学修饰的或蛋白质工程突变的酶，以及以上任意来源的组合或者基于进化树的计算得出的序列和/或基于结构预测的从头合成序列涵盖在内。

在一实施方式中，多肽是(或者源自)酸性蛋白酶，即，特征在于能够在小于pH 7的酸性条件下例如在pH 2-7下使蛋白质水解的蛋白酶。在一实施方式中，酸性蛋白酶的最佳pH范围为2.5-3.5(在37℃下在0.7％w/v下在高氮酪蛋白底物上测定)，在0.1M哌嗪/乙酸盐/甘氨酸缓冲液中在10mg/mL的酶浓度下在30℃下1小时，最佳温度为5-50℃。

在另一实施方式中，多肽是(或者源自)碱性蛋白酶，即特征在于能够在pH 7以上的碱性条件下例如在pH 7-11下使蛋白质水解的蛋白酶。在一实施方式中，碱性蛋白酶源自芽孢杆菌属(Bacillus)菌株，例如，地衣芽孢杆菌(Bacillus licheniformis)。在一实施方式中，碱性蛋白酶在7-11范围内具有最佳温度，在pH 9下测定的最佳温度大约为70℃。

在另一实施方式中，多肽是(或者源自)中性蛋白酶，即特征在于能够在pH 5-8的条件下使蛋白质水解的蛋白酶。在一实施方式中，碱性蛋白质源自芽孢杆菌属菌株，例如，解淀粉芽孢杆菌(Bacillus amyloliquefaciens)。在一实施方式中，碱性蛋白酶的最佳pH范围为7-11(在25℃、10分钟反应时间和酶浓度0.01-0.2AU/L下测定)，最佳温度为50℃至70℃(在pH 8.5、10分钟反应时间、酶浓度0.03-0.3AU/L下测定)。

在一实施方式中，多肽是(或者源自)金属蛋白酶。在一实施方式中，蛋白酶源自嗜热子囊菌(Thermoascus)属菌株，例如，耐热子囊菌(Thermoascus aurantiacus)菌株，例如，耐热子囊菌CGMCC No.0670，其序列如WO 03/048353中SEQ ID NO:2成熟部分所示，在此将其并入作为参考。耐热子囊菌蛋白酶在20-90℃下具有活性，最佳温度大约70℃。而且，酶在pH 5-10下具有活性，最佳pH大约为6。在一些实施方式中，蛋白酶是来自普通高温放线杆菌(Thermoactinomyces vulgaris)的枯草杆菌蛋白酶(subtilisin)。

合适的植物蛋白酶可以源自大麦。

合适的细菌蛋白酶，例如亚麻酶，包括芽孢杆菌蛋白酶，例如，源自解淀粉芽孢杆菌、迟缓芽孢杆菌(Bacillus lentus)、地衣芽孢杆菌(Bacillus licheniformis)、枯草芽孢杆菌(Bacillus subtilis)、嗜碱芽孢杆菌(Bacillus alcalophilus)。合适的丝状细菌蛋白酶可以源自拟诺卡氏菌(Nocardiopsis)菌株，优选Nocardiopsis prasina NRRL18262蛋白酶(或拟诺卡氏菌属10R)和Nocardiopsis dassonavilla NRRL 18133(Nocardiopsis dassonavilla M58-1)，二者均描述于WO 1988/003947(Novozymes)中。

合适的酸性真菌蛋白酶包括源自曲霉菌属(Aspergillus)、毛霉菌属(Mucor)、根毛霉属(Rhizomucor)、根霉菌属(Rhizopus)、念珠菌属(Candida)、革盖菌属(Coriolus)、内座壳属(Endothia)、Enthomophtra、耙齿菌属(Irpex)、青霉菌属(Penicillium)、小核菌属(Sclerotium)、Thermoaccus和球拟酵母属(Torulopsis)的真菌蛋白酶。尤其预计的是源自黑曲霉(Aspergillus niger)(参见，例如，Koaze等人,1964,Agr.Biol.Chem.Japan 28:216)、佐氏曲霉(Aspergillus saitoi)(参见，例如，Yoshida,1954,J.Agr.Chem.Soc.Japan28:66)、泡盛曲霉(Aspergillus awamori)(Hayashida等人,1977,Agric.Biol.Chem.42(5):927-933)、棘孢曲霉(Aspergillus aculeatus)(WO 95/02044)或米曲霉(Aspergillusoryzae)的蛋白酶；美国专利第4,357,357号和美国专利第3,988,207号中公开的来自微小毛霉(Mucor pusillus)或米黑毛霉(Mucor miehei)的蛋白酶；和例如WO 94/24880(在此将其引入作为参考)中公开的来自Rhizomucor mehei或微小根毛霉(Rhizomucor pusillus)的蛋白酶。

例如，天冬氨酸蛋白酶描述于以下文献中：Handbook of Proteolytic Enzymes,A.J.Barrett,N.D.Rawlings和J.F.Woessner编著,Academic Press,San Diego,1998,270章。合适的天冬氨酸蛋白酶实例包括，例如，以下文献中所述者：Berka等人,1990,Gene 96:313；Berka等人,1993,Gene 125:195-198)；和Gomi等人,1993,Biosci.Biotech.Biochem.57:1095-1100，在此将其并入作为参考。

多肽可以是市售产品的组分(或者源自其组分)，例如，ESPERASE^TM、NOVOZYM^TMFM 2.0L和NOVOZYM^TM50006(获自Novozymes A/S,丹麦)和来自Genencor Int.,Inc.,USA的GC106^TM和SPEZYME^TMFAN。

在一些实施方式中，多肽是(或者源自)亚麻酶。在一些实施方式中，多肽是例如SEQ ID NO:3的迟缓芽孢杆菌蛋白酶，或者源自SEQ ID NO:3的迟缓芽孢杆菌蛋白酶。在一些实施方式中，多肽是例如SEQ ID NO:17的解淀粉芽孢杆菌蛋白酶，或者源自SEQ ID NO:17的解淀粉芽孢杆菌蛋白酶。在一些实施方式中，多肽是例如SEQ ID NO:18的枯草芽孢杆菌168蛋白酶，或者源自SEQ ID NO:18的枯草芽孢杆菌168蛋白酶。在一些实施方式中，多肽是例如SEQ ID NO:19的枯草芽孢杆菌DY蛋白酶，或者源自SEQ ID NO:19的枯草芽孢杆菌DY蛋白酶。在一些实施方式中，多肽是例如SEQ ID NO:20的地衣芽孢杆菌蛋白酶，或者源自SEQ ID NO:20的地衣芽孢杆菌DY蛋白酶。在一些实施方式中，多肽是例如SEQ ID NO:21的迟缓芽孢杆菌蛋白酶，或者源自SEQ ID NO:21的迟缓芽孢杆菌蛋白酶。在一些实施方式中，多肽是例如SEQ ID NO:22的嗜碱芽孢杆菌(Bacillus alcalophilus)PB92蛋白酶，或者源自SEQ ID NO:22的嗜碱芽孢杆菌PB92蛋白酶。在一些实施方式中，多肽是例如SEQ ID NO:23的芽孢杆菌YaB蛋白酶，或者源自SEQ ID NO:23的芽孢杆菌YaB蛋白酶。在一些实施方式中，多肽是例如SEQ ID NO:24的芽孢杆菌属NKS-21蛋白酶，或者源自SEQ ID NO:24的芽孢杆菌属NKS-21蛋白酶。在一些实施方式中，多肽是例如SEQ ID NO:25的芽孢杆菌属G-825-6蛋白酶，或者源自SEQ ID NO:25的芽孢杆菌属G-825-6蛋白酶。在一些实施方式中，多肽是例如SEQ ID NO:26的普通高温放线杆菌蛋白酶，或者源自SEQ ID NO:26的普通高温放线杆菌蛋白酶。

多核苷酸可以包括突变蛋白酶编码序列，其编码亲本蛋白酶的蛋白酶变体。蛋白酶变体在一个或更多个(例如，若干个)位置处包括变更，即，置换、插入和/或缺失。蛋白酶变体的例子描述于WO 2016/087617、WO 2016/001449和US 2015/0125925中，在此将其内容并入作为参考。

多核苷酸可以包括编码前肽的序列。例如，SEQ ID NO:3的野生型缓慢芽孢杆菌蛋白酶包括框内连接到成熟蛋白酶(氨基酸86-354)氨基端的前肽氨基酸序列1-85。申请人在以下的实施例中已证实，编码包含前肽的多肽的多核苷酸出人意料地非常适合于本发明。因此，申请人预计，在本文所述的任意实施方式中，多肽进一步包括前肽序列。多肽可以进一步编码直接融合在成熟肽序列氨基端的或者与直接融合在成熟肽序列氨基的前肽(前肽原)相融合的信号序列(例如，以减慢前蛋白的自成熟化)。在一些实施方式中，多核苷酸不编码信号序列。

多核苷酸可以包括合适的控制序列，例如高效表达基因产物所需的那些，例如，启动子、增强子、翻译起始序列、聚腺苷酸化序列、剪接位点等，如下文所详述。

如上所述，本发明的方法可以包括多种合成化合物，以产生多核苷酸文库(例如，编码蛋白酶变体文库的多核苷酸文库)。在具体实施方式中，文库具有至少大约10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²或10¹⁴种不同的合成化合物和/或多核苷酸。通常，文库的大小将小于大约10¹⁵。

多核苷酸文库可以通过本领域技术人员公知的许多种不同方式中任一种产生。具体地，天然多核苷酸池(pool)可以从基因组DNA或cDNA克隆(Sambrook等人,1989；Molecular cloning:a laboratory manual.Cold Spring Harbor Laboratory Press,NewYork)；例如，通过来自免疫的或未免疫供体的抗体基因的PCR扩增库(repertoires)而制造的噬菌体抗体文库已经证明是非常有效的功能抗体片段来源(Winter等人,1994；Annu.Rev.Immunol.12:433-55；和Hoogenboom,1997,Trends Biotechnol.15:62-70)。通过随机化或掺杂的寡核苷酸合成，也可以通过编码所有(例如参见Smith,1985,Science 228:1315-1317；及Parmley和Smith,1988,Gene 73:305-318)或部分的基因(例如参见Lowman等人,1991,Biochemistry 30:10832-10838)或者基因池(例如参见Nissim等人,1994,EmboJ.13:692-698)，来制造基因文库。

通过许多种体内技术将突变随机引入多核苷酸或多核苷酸池中，也可以产生文库，上述技术包括：使用细菌例如大肠杆菌(E.coli)的突变菌株例如mutD5(Liao等人,1986,Proc.Natl.Acad.Sci.USA 83:576-580；Yamagishi等人,1990,Protein Eng.3:713-719；Low等人,1996,J.Mol.Biol.,260:359-368)；使用B-淋巴细胞的抗体超变系统(Yelamos等人,1995,Nature 376:225-229)。也可以通过化学诱变和离子化或UV辐射在体内或体外引入随机突变(参见Friedberg等人,1995,DNA repair and mutagenesis.ASMPress,Washington D.C.)，或者引入诱变碱基类似物(Freese,1959,J.Mol.Biol.1:87；Zaccolo等人,1996,J.Mol.Biol.255:589-603)。例如，通过易错聚合酶也可以在聚合过程中将随机突变体外引入到基因中(Leung等人,1989,Technique 1:11-15)。通过在体内(参见Kowalczykowski等人,1994,Microbiol.Rev.58:401-65)或在体外(Stemmer,1994,Nature 370:389-391；和Stemmer,1994,Proc.Natl.Acad.Sci.USA 91:10747-10751)使用同源重组，可以引入进一步的多样化。全部或部分基因的文库还可以根据序列数据库或计算预测的序列来化学合成。

文库还可以使用类似于例如DNA改组的DNA重组产生。两种或更多种同源输入多核苷酸(起点多核苷酸)之间的改组涉及将多核苷酸片段化和将片段重组，以得到输出多核苷酸(即，已经进行过一轮改组的多核苷酸)，其中核苷酸片段的数目与输入多核苷酸相比得以交换。DNA重组或改组可以是(部分)随机的过程，其中从两种或更多种起始基因产生嵌合基因文库。可以使用若干已知的形式来进行这种改组或重组过程。该过程可以涉及亲本DNA的随机片段化，然后通过peR再组装成新的全长基因，例如，如US 5,605,793、US 5,811,238、US 5,830,721、US 6,117,679所述。基因的体外重组可以如例如US 6,159,687、WO 98/41623、US 6,159,688、US 5,965,408、US 6,153,510中所述进行。重组过程可以在活细胞内在体内发生，例如，如WO 97/07205和WO 98/28416中所述。亲本DNA可以通过DNA酶I处理或者通过限制性内切核酸酶消化片段化，如Kikuchi等人(2000,Gene 236:159-167)所述。两个亲本的改组可以通过将两个亲本的单链亲本DNA改组进行，如Kikuchi等人(2000,Gene243:133-137)所述。具体的改组方法是遵照以下文献中所述的方法：Crameri等人,1998,Nature 391:288-291；和Ness等人,Nature Biotechnology 17:893-896。另一种方式是US6,159,687：实施例1和2中所述的方法。

底物和选择性标记物

本文所述的合成化合物使用的蛋白酶底物可以是任何合适的底物，如技术人员基于所需的蛋白酶活性和/或选择方法的其他所需特性所确定。例如，底物可以是任何合适的用于上述蛋白酶的底物，其包括但不限于酸性蛋白酶、碱性蛋白酶、中性蛋白酶、金属蛋白酶、亚麻酶和天冬氨酸蛋白酶的底物，例如α-酪氨酸、牛血清白蛋白、血红蛋白、角蛋白、卵清蛋白的底物。在一些实施方式中，底物是交联的和/或热处理的，如本领域所知。

选择性标记物可以是任何在生物化学检验中可以用于使用本文所述的发明方法区分和/或回收已经通过活性蛋白酶改变的这些化合物的合适的标记物。

合适的选择性标记物包括，但不限于亲和标签，其中每个亲和标签是结合对中的一员。当用于本文所述的方法时，亲和标签可以进一步有助于步骤(iv)中水解的和未水解的底物的分离，因为水解的化合物可以例如从固相上分离，并通过在使用标准技术除去未水解的化合物之后通过亲和力捕获选择性地从混合物中除去。

本发明中可以使用的结合对的例子包括抗原和能够结合该抗原的抗体或其片段、生物素抗生物素蛋白/链霉抗生物素蛋白对(Savage等人,1994,Avidin-biotinchemistry:a handbook.Pierce Chemical Company,Rockford)、钙依赖性结合多肽及其配体(例如，钙调蛋白和钙调蛋白结合肽(Stofko等人,1992,FEBS Lett.302:274-278；Montigiani等人,1996,J.Mol.Biol.258:6-13))、组装形成亮氨酸拉链的肽对(Tripet对的人,1996,Protein Engng.9:1029-1042)、组氨酸(典型地为六组氨酸肽)和螯合Cu²⁺、Zn²⁺和Ni²⁺(例如Ni-NTA；Hochuli等人,1987,J.Chromatogr.411:177-84)、RNA-结合和DNA-结合蛋白质(Klug,1995,Ann.NY Acad.Sci.758:143-60)，其包括含有锌指基序的那些(Klug和Schwabe,1995,Faseb T.9:597-604)和DNA甲基转移酶(Anderson,1993,Curr.Op.Struct.Biol.3:24-30)，以及其核酸结合位点。例如，合适的亲和标签包括生物素、洋地黄毒苷(digoxigenin)、二硝基苯基(DNP)、荧光素、若丹明(例如，Texas )和岩藻糖。生物素和岩藻糖分别能够结合抗生物素蛋白和凝集素，而洋地黄毒苷、DNP、荧光素和若丹明能够结合产物特异性抗体。在一实施方式中，合成化合物包括生物素选择性标记物。在该实施方式中，其中蛋白酶底物已经在步骤(iv)中水解的合成化合物可以用链霉抗生物素蛋白(例如覆有链霉抗生物素蛋白的微球)分离。

如上所述，申请人出人意料地发现，与近端位置的亲和标签相比较，远端亲和标签在基因连接底物上的位置导致释放的DNA的回收显著提高。因此，在一实施方式中，选择性标记物(例如，亲和标签)在相对于蛋白酶底物的远端位置与多核苷酸连接。

蛋白酶底物和选择性标记物的缀合可以使用许多种可行的缀合技术进行，并优选不干扰基因表达或酶对底物的活性。可以使用标准合成技术，例如使用反应性把手(handle)(例如，活化的酯、叠氮化物、马来酰亚胺等)将底物或亲和标签与多核苷酸偶联。在一实例中，标记物或底物的游离羟基可以与马来酰亚胺连接的寡核苷酸引物偶联。然后用模板多核苷酸序列通过PCR将产生的缀合物扩增，产生所需的合成化合物。在另一实例中，在PCR扩增之前，将5'-硫醇引物与用马来酰亚胺部分修饰的标记物或底物偶联，提供所需的合成化合物。类似地，修饰的标记物、底物或多核苷酸上的氨基可以与活化的酯(例如，NHS-酯)连接，产生所需的合成化合物。再还有，缀合可以使用点击(click)化学，例如，其中将叠氮化物修饰的标记物或底物与具有以下(i)或(ii)的寡核苷酸引物缀合：(i)用于铜(I)催化的[3+2]叠氮化物-炔烃环加成(CuAAC)的端炔烃，(ii)用于不含Cu的点击环加成(Jewett等人,2010,Chem.Soc.Rev.39(4):1272)的环辛炔衍生物例如二苯并环辛基(DBCO)。因此，在一些实施方式中，选择性标记物和/或底物通过取代硫醇(例如，硫醚)、取代氨基(例如，酰氨基)或三唑部分与多核苷酸连接。

固相

本文所述的合成化合物可以进一步包括固相。可用作固相的材料可以包括：天然聚合碳水化合物及其合成修饰的、交联的或取代的衍生物，例如琼脂、琼脂糖、交联海藻酸、几丁质、取代和交联的瓜尔胶、纤维素酯特别是硝酸和羧酸酯、混合纤维素质和纤维素醚；含有氮的天然聚合物，例如蛋白质和衍生物，包括交联或修饰的明胶和角蛋白；天然烃聚合物，例如乳胶和橡胶；合成聚合物，例如乙烯基聚合物，包括聚乙烯、聚丙烯、聚苯乙烯、聚氯乙烯、聚醋酸乙烯酯及其部分水解的衍生物、聚丙烯酰胺、聚甲基丙烯酰胺、上述缩聚物例如聚酯、聚酰胺和其他聚合物例如聚氨酯或聚环氧化物的共聚物和三元共聚物；多孔无机材料例如碱土金属和镁的硫酸盐或碳酸盐，包括硫酸钡、硫酸钙、碳酸钙，碱金属和碱土金属、铝和镁的硅酸盐；和铝或硅氧化物或水合物，例如粘土、氧化铝、滑石、高岭土、沸石、硅胶或玻璃(这些材料可以与上述聚合材料一起用作过滤材料)；以及上述类别的混合物或共聚物，例如通过在先已存在的天然聚合物上引发合成聚合物的聚合得到的接枝共聚物。

固相通常具有允许其在水相介质中悬浮、然后形成油包水乳液的大小和形状。合适的固相包括微珠或颗粒(为便于讨论，二者均称作“微颗粒”)。可用于本发明的微颗粒可以由本领域技术人员从任何合适类型的颗粒材料中选择，其包括，但不限于，由以下组成者：纤维素、琼脂糖凝胶(Sepharose)、聚苯乙烯、聚甲基丙烯酸酯、聚丙烯、乳胶、聚四氟乙烯、聚丙烯腈、聚碳酸酯或类似材料。

在一些实施方式中，固相是蛋白酶底物(例如，既是固相又是蛋白酶底物的颗粒)。

在一些实施方式中，固相是疏水性微珠(例如，覆有C4、C8和C18烷基、聚苯乙烯或PS-二乙烯基苯的硅胶珠)。使用疏水性固相可以进一步使得能够在步骤(iv)中分离合成化合物，因为保持连接在固相上的化合物将会更容易在油相中被发现，而已经通过水解从固相上切割的化合物将更容易在水相中被发现。

优选的微颗粒包括直径平均为大约0.01至大约35微米、更优选大约0.5至大约20微米或者直径大约0.1至大约5微米的微颗粒，半抗原化(haptenated)微颗粒，通过一种或优选至少两种荧光染料(特别是在流动细胞中各自分离并通过激光激发之后可以被识别者)浸渍的微颗粒，铁磁流体(即，大小小于大约0.1微米的磁性颗粒)，磁性微球体(例如，大小大约3微米的超顺磁颗粒)，和其他通过沉淀和/或过滤可收集或可除去的微颗粒。

在一些实施方式中，固相是纳米颗粒，例如金纳米颗粒。另外预计固体脂质纳米颗粒，例如，如Ekambaram等人,2012,Sci.Revs.Chem.Commun.2(1):80-102所述。纳米颗粒平均粒径通常为大约1-400nm(例如，1-100nm)，并包括，例如，球形胶体金、金纳米棒和海胆(urchian)形纳米颗粒。

固相通过本领域已知的方式与合成化合物连接，其不干扰连接的多核苷酸的表达。例如，胺修饰的合成化合物可以与甲苯磺酰基或羧酸酯修饰的微球连接。类似地，氨基修饰的微球可以与甲苯磺酰基或羧酸酯修饰的合成化合物连接(或者与氨基修饰的合成化合物经由戊二醛连接)。也可以使用羟基、酰肼或氯甲基修饰的微球，如本领域所知晓。用于使化合物与金纳米颗粒连接的示例性合成化合物可见于PCT/US2016/026441中。

在一些实施方式中，固相与蛋白质底物连接，从而将蛋白质底物锚定在固相上。例如，可以缀合在预活化的固相珠(例如，环氧化物或甲苯磺酰基活化的磁性聚苯乙烯珠，例如Dynal M270或M280)上的全蛋白质底物。在这些实施方式中，可以通过活性蛋白酶的水解将合成化合物从本发明方法中的固相上切割。

另外预计一种制造本文所述合成化合物的方法，其包括：(i)将蛋白酶底物与编码多肽的多核苷酸连接；(ii)将选择性标记物与编码多肽的多核苷酸连接；和(ii)回收合成化合物。在一些其中合成化合物包括固相的实施方式中，该方法进一步包括将蛋白酶底物与固相连接。

形成含有用于多肽表达的试剂的水相

将合成化合物在水相中与用于表达多肽(例如，体外转录/翻译)的组分合并。这些组分可以出于对特定系统的要求从以下中选择：合适的缓冲液、含有所有必要成分的体外转录/复制系统和/或体外翻译系统、酶和辅因子、RNA聚合酶、核苷酸、转移RNA、核糖体和氨基酸(天然的或合成的)。

合适的缓冲液通常使得所需的生物系统组分有活性，并因此取决于各个具体反应体系的要求。适合于生物和/或化学反应的缓冲液是本领域已知的，在多种实验教科书中提供有配方，例如Sambrook等人,1989(同上)。

示例性的体外翻译系统可以包括细胞提取物，通常来自细菌(Zubay,1973,Annu.Rev.Genet.7:267-87；Zubay,1980,Methods Enzymol.65:856-877；Lesley等人,1991,J.Biol.Chem.266(4):2632-2638；Lesley,1995,Methods Mol.Biol.37:265-278)，家兔网织红细胞(Pelham和Jackson,1976,Eur.J.Biochem.67:247-256)，或者小麦胚芽(Anderson等人,1983,Methods Enzymol.101:635-44)。许多合适的系统是市售的(例如，来自Promega)，其包括一些允许将转录/翻译偶联者(所有细菌系统和网织红细胞和小麦胚芽TNT.TM提取系统来自Promega)。如果需要，使用的氨基酸混合物可以包括合成氨基酸，以增加文库中产生的蛋白质的可能数目或变化。这可以通过以下方法实现：将tRNA载以人工氨基酸，并将这些tRNA用于要选择的蛋白质的体外翻译(Ellman等人,1991,MethodsEnzymol.202:301-336；Benner,1994,Trends Biotechnol.12:158-63；Mendel等人,1995,Annu.Rev.Biophys.Biomol.Struct.24:435-462)。

如下文所例示，水相可以进一步包括蛋白酶抑制剂或竞争性底物，以对试验严格性条件进行微调。示例性的抑制剂包括卵抑制剂、阳离子螯合剂(例如EDTA)、丝氨酸蛋白酶抑制剂、自杀抑制剂和底物类似物(在此方法中预计的其他抑制剂另外参见Rawlings等人,2004,Biochem.J.378:705-716，在此将该公开的内容整体并入作为参考)。该方法中使用的抑制剂的量可以鉴于本文的教导由技术人员基于所用的蛋白酶系统测定(例如，大约250pg/L至大约8000pg/L，大约500pg/L至大约4000pg/L，或者大约1000pg/L)。

乳液的形成

乳液可以由任何合适的不混溶液体的组合来制造，以能够形成用于使本文所述合成化合物区室化的合适的平台。在一些实施方式中，乳液适合于表达多肽(例如，在水性液滴内)，这些表达的具有蛋白酶活性的多肽能够在上述液滴中使蛋白酶底物水解。

优选地，本发明的乳液具有水(含有上述生物化学组分)作为以细分散液滴形式存在的相(分散、内部或不连续的相)，并具有疏水性不混溶液体(油)作为其中悬浮有这些液滴的基质(不分散、连续或外部相)。这些乳液称作油包水(W/O)。

乳液可以通过加入一种或多种表面活性的试剂(表面活性剂)稳定化。这些表面活性剂称作乳化剂，在水/油界面发挥作用，防止(或者至少延缓)相的分离。许多种油和许多种乳化剂可以用于产生油包水乳液；最近的汇编列举了16,000多种表面活性剂，许多种用作乳化剂(Ash和Ash,1993,Handbook of industrial surfactants.Gower,Aldershot)。合适的油包括轻白矿物油和非离子型表面活性剂(Schick,1966,Nonionicsurfactants.Marcel Dekker,New York)，例如去水山梨糖醇单油酸脂(Span.TM.80；ICI)和聚氧化乙烯去水山梨糖醇单油酸脂(Tween^TM80；ICI)。

使用阴离子型表面活性剂也可以是有益的。合适的表面活性剂包括胆酸钠和牛磺胆酸钠。特别优选脱氧胆酸钠，优选浓度0.5％w/v或更低。包括这些表面活性剂在一些情形中增加了多核苷酸的表达和/或酶/酶变体的活性。向未乳化的反应混合物中加入一些阴离子型表面活性剂完全废止了翻译。但是，在乳化过程中，表面活性剂可以从水相转移至界面，活性得到恢复。向要乳化的混合物中加入阴离子型表面活性剂确保了反应仅在区室化之后进行。

产生乳液通常要求施加迫使相在一起的机械能量。有许多种利用多种机械装置的方式来做到这一点，其包括搅拌器(例如磁力搅拌棒、叶片和涡轮搅拌器、浆片装置和搅拌子)、均化器(包括转子-定子均化器、高压阀均化器和射流均化器)、胶体磨、超声和“膜乳化”装置(Becher,1957,Emulsions:theory and practice.Reinhold,New York；和Dickinson,1994,Emulsions and droplet size control.Butterworth-Heine-mann,Oxford,Vol.pp.191-257)。因此，一方面是一种制备本文所述乳液的方法，其包括(i)将多种合成化合物悬浮在水相中；和(ii)将(i)的悬浮液与油混合。

油包水乳液中形成的水性液滴通常是稳定的，液滴之间存在极少(如果有的话)的多核苷酸或酶/酶变体的交换。存在有容量在直至成千升的工业规模上产生乳液的技术(Becher,1957,Emulsions:theory and practice.Reinhold,New York；Sherman,1968,Emulsion science.Academic Press,London；Lissant,1974,Emulsions and emulsiontechnology.Surfactant Science New York:Marcel Dekker；和Lissant,1984,Emulsionsand emulsion technology.Surfactant Science New York:Marcel Dekker)。

优选的液滴大小将取决于根据本发明要进行的任何单个选择过程的精确要求而变化。在所有情形中，在多核苷酸文库大小、要求的富集和所要求的单个液滴中组分的浓度之间将存在最优的平衡，以实现酶/酶变体的有效表达和反应性。

表达过程优选地在本发明提供的每个单独的液滴内发生。体外转录和偶联的转录/翻译在次纳摩尔DNA浓度下均变得效率较低。由于每个液滴内要求仅有有限数量的DNA分子存在，因此这为可能的液滴大小设定了实际的上限。在一些实施方式中，液滴的平均体积为大约1阿升(altoliter)至大约1纳升(例如，大约10阿升至大约50毫微微升(femtoliter)，或者大约0.5毫微微升至大约10毫微微升)，包含两端值。水性液滴平均直径通常在大约0.05□m至大约100□m范围内，包含两端值。在一些实施方式中，乳液中水性液滴的平均直径为大约0.1μm至大约50μm，大约0.2μm至大约25μm，大约0.5μm至大约10μm，大约1μm至大约5μm，大约2μm至大约4μm，或者大约3μm至大约4μm，包含两端值。在某些实施方式中，液滴的平均体积为小于5.2x10¹⁶m³(对应于球形液滴直径小于10μm)，小于6.5x10¹⁷m³(对应于球形液滴直径小于5μm)，小于或大约4.2x10-¹⁸m³(2μm)，或者小于或大约9x10¹⁸m³(2.6μm)。

液滴中的有效多核苷酸浓度可以通过多种本领域技术人员公知的方法人为增加。例如，这些方法包括加入体积排阻化合物例如聚乙二醇(PEG)，和多种基因扩增技术，包括使用包括来自以下者的RNA聚合酶进行转录：来自细菌例如大肠杆菌(Roberts,1969,Nature,224,1168-74；Blattner和Dahlberg,1972,Nature New Biol.237:227-32；Roberts等人,1975,Proc.Natl.Acad.Sci.USA 72:1922-1926；Rosenberg等人,1975,J.Biol.Chem.250:4755-4764)；真核生物(Weil等人,1979,Cell 18:469-84；Manley等人,1983,Methods Enzymol.101:568-582)和噬菌体，例如T7、T3和SP6(Melton等人,1984,Nucleic Acids Res.12:703556)；聚合酶链式反应(peR)(Saiki等人,1988,Science 239:487-491)；Q-β复制酶扩增(Miele等人,1983,J.Mol.Biol.171:281-95；Cahill等人,1991,Clin.Chem.37:1482-1485；Chetverin和Spirin,1995,Prag.NucleicAcid.Res.Mol.Biol.51:225-270；Katanaev等人,1995,FEBS Lett.359:89-92)；连接酶链式反应(LCR)(Landegren等人,1988,Science 241:1077-1080；Barany,1991,PCR MethodsAppl.1:5-16)；自保持序列复制系统(Fahy等人,1991,PCR Methods Appl.1,25-33)；和链置换扩增(Walker等人,1992,Nucleic Acids Res.20:1691-1696)。如果乳液和体外转录或偶联的转录/翻译系统是热稳定的(例如，偶联的转录/翻译系统可以由热稳定的有机体例如水生栖热菌(Thermus aquaticus)产生)，则甚至要求热循环的基因扩增技术例如PCR和LCR也可以使用。

增加有效的局部核酸浓度能够使更大的液滴得以有效利用。这允许对于大多数应用的液滴体积的优选实际上限为大约2.2x10¹⁴m³(对应于球体直径35μm)。

液滴大小应当足够大，以便在合成化合物以外还容纳需要在液滴内发生的生物化学反应所要求的所有组分。体外的转录反应和偶联转录/翻译反应通常均使用大约2mM的核苷酸总浓度。例如，为了将基因转录成长度500个碱基的单个短RNA分子，这将要求每个液滴最少500分子核苷酸(8.33x10^-22摩尔)。为了组成2mM的溶液，在体积4.17x10¹⁹升(4.17x10²²m³)的液滴内必须含有该数量的分子，液滴如果是球形则直径为93nm。

而且，发生翻译所必需的核糖体自身的直径为大约20nm。因此，在一些实施方式中，液滴直径的下限为大约0.1μm(100nm)。

根据选择系统的要求，乳液液滴的大小可以简单地通过定制用于形成乳液的乳液条件而改变。因为最终的限制因素将会成为液滴大小、相应地是每单位体积可能的液滴数量，因此液滴的大小越大，使指定多核苷酸文库乳化所要求的体积越大。在一些实施方式中，乳液包括至少大约10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²或10¹⁵液滴/mL乳液。

取决于要筛选的文库的复杂程度和大小，乳液形成为总体来说乳液的每个液滴内包括1或小于1个合成的化合物可以是有益的。单位液滴的合成化合物数量由泊松分布决定。因此，如果将条件调节成平均每个液滴有0.1合成化合物，则实际上大约90％的液滴将不含合成化合物，9％的液滴将含有1合成化合物，1％的液滴将含有2或更多合成化合物。实际上，单位液滴的合成化合物的平均数值为大约0.1至大约0.5、更优选大约0.3提供这样的乳液，其含有足够高百分含量的液滴具有每液滴1个合成化合物，足够低百分含量的液滴具有每液滴2个或更多的合成化合物。这一方法通常将提供最有力的解决方案。但是，当文库更大和/或更加复杂时，这会变得不太实际；优选的可以是，一起包括若干合成化合物，并依赖于反复实施本发明的方法，以实现所需活性的分选。在一些实施方式中，油包水乳液中不超过70％、60％、50％、40％、30％、20％、15％、10％或5％的水性液滴包括多于一个的合成化合物。

理论研究表明，产生的多核苷酸突变体的数量越大，则越可能将会产生具有所需特性的对应的编码多肽(例如，有关这一点如何适用于抗体库的说明可参见Perelson和Oster,1979)。近来，实际上经另外确认，比起较小的库，较大的噬菌体-抗体库确实产生了更多结合亲和力更好的抗体(Griffiths等人,1994)。为了确保产生并由此能够选择出稀有的变体，通常大的文库大小是合意的。

使用本发明，在2.6μm的水性液滴直径下，使用20ml乳液中1ml水相，可以容易地选出至少10¹¹的库大小。

表达、分离和进一步处理

将乳液在适合于多肽表达的条件下保持足够长时间。活性蛋白酶发挥作用使该液滴中连接在多核苷酸上的蛋白酶底物水解。通过使用本文所述的教导将表达条件衰减，可以将蛋白酶活性提高的多肽的基因表达序列与活性较低者区分出来。

在一些实施方式中，通过将乳液在25℃至大约60℃下(例如，大约25℃至大约50℃，大约30℃至大约40℃)孵育大约1小时至大约24小时(例如，大约1小时至大约12小时，大约1小时至大约5小时，或者大约1小时至大约2小时)，进行表达。

在一些实施方式中，通过任何合适的技术，例如化学诱导的聚结和/或离心，将水相与油相分离(例如，在步骤(iv)之前)。

可以使用若干常规技术中的任一种将水解的合成化合物与未水解的合成化合物分离。例如，通过使用C18磁珠(例如 RPC 18,Thermo Fisher Scientific,Inc.)可以将未水解的底物与水解的底物分离。覆有C4、C8和C18烷基的磁性二氧化硅珠常规用于分离疏水性物质(例如，具有完整脂肪酸链的未水解的合成化合物)。如本领域所知晓，通过与二氧化硅结合或阴离子交换或者电荷转换介质(charge switch media)，也可以通过除去未水解的化合物进行分离。而且，如上所述，当合成化合物包括选择性标记物时，可以进一步有助于分离，其中例如抗体、凝集素或链霉抗生物素蛋白可以与标记物结合，并通过亲和捕获除去未水解的化合物。

在一些实施方式中，回收的水解和/或未水解的合成化合物得到基本上纯的化合物。对于水解的合成化合物，“基本上纯”是指回收的水解合成化合物制剂含有不超过15％的杂质，其中杂质是指未水解的合成化合物。对于未水解的合成化合物，“基本上纯”是指回收的未水解合成化合物制剂含有不超过15％的杂质，其中杂质是指水解的合成化合物。在一些变化方式中，基本上纯的水解合成化合物或未水解合成化合物可以含有不超过10％的杂质，或者不超过5％的杂质，或者不超过3％的杂质，或者不超过1％的杂质，或者不超过0.5％的杂质。

可以进一步分析分离的合成化合物(水解的和/或未水解的)的集合。例如，在每一轮选择之后，可以例如通过本领域已知的非区室化的测序反应来分析编码感兴趣的脂肪酶的多核苷酸池的富集。在一实施方式中，该方法还包括对步骤(iv)的一种或多种分离的合成化合物例如一种或多种水解的合成化合物和/或一种或多种未水解的化合物的多核苷酸序列进行分析(例如，经由测序)。

可以使用本领域已知的技术，将所选择的池(pool)扩增和/或克隆到用于繁殖和/或表达的合适的表达载体中，如下所述。在一个实施方式中，该方法进一步包括对步骤(iv)的一个或多个水解的合成化合物的一个或多个多核苷酸进行扩增。在另一个实施方式中，该方法进一步包括对步骤(iv)的一个或多个非水解的合成化合物的一个或多个多核苷酸进行扩增。

分离的合成化合物的多核苷酸还能以迭代重复的步骤进行后续的、可能更严格的多轮分选，重新应用本发明的方法的全部或仅选择的步骤。通过适当定制条件，可以在每轮选择后产生编码具有更优化的活性的脂肪酶的合成化合物。因此，在一些实施方式中，重复该方法，其中分离的合成化合物的多核苷酸(例如，从水解的合成化合物扩增的多核苷酸)用于如步骤(i)中所描述的新的复数个合成化合物中，并且对所述新的复数个合成化合物重复步骤(i)-(iv)。如果需要，例如，可以使用例如易错聚合酶链反应(PCR)和/或如上文所述的其他技术，在重复该方法之前在多核苷酸中引入另外的遗传变异。因此，在一个实施方式中，该方法进一步包括(例如经由诱变)向步骤(iv)的分离的合成化合物的一个或多个多核苷酸引入改变。

核酸构建体和表达载体

在一些实施方式中，本文描述的方法进一步包括将来自步骤(iv)的分离的合成化合物的一个或多个多核苷酸克隆到核酸构建体或表达载体中。RNA和/或重组蛋白可以从单独的克隆中产生，用于进一步纯化和测定(如下所述)。使用本发明的方法选择的重组体可以用于采用天然酶的任何应用。因此，在一些实施方式中，这些方法进一步包括表达步骤(iv)的分离的合成化合物的一个或多个多核苷酸(例如，表达水解的合成化合物的多核苷酸以产生具有脂肪酶活性的多肽)。

这些核酸构建体包括编码本文描述的多肽或变体、可操作地连接至一个或多个控制序列的多核苷酸，该一个或多个控制序列在与这些控制序列相容的条件下指导该编码序列在适合的宿主细胞中的表达。

多核苷酸可以按多种方式操纵，以提供多肽的表达。取决于表达载体，在其插入载体以前操纵多核苷酸可以是令人希望的或必需的。利用重组DNA方法修饰多核苷酸的技术是本领域熟知的。

控制序列可以是启动子，即由宿主细胞识别用于表达多核苷酸的多核苷酸。启动子包含介导该变体的表达的转录控制序列。启动子可以是在宿主细胞中显示出转录活性的任何多核苷酸，包括突变型、截短型及杂合型启动子，并且可以是由编码与该宿主细胞同源或异源的细胞外或细胞内多肽的基因获得。

在一些实施方式中，核酸构建体和表达载体使用细菌表达系统(例如，芽孢杆菌表达系统)。

合适的用于指导本发明的核酸构建体在细菌宿主细胞中转录的启动子的例子是获自以下基因的启动子：解淀粉芽孢杆菌α-淀粉酶基因(amyQ)、地衣芽孢杆菌α-淀粉酶基因(amyL)、地衣芽孢杆菌青霉素酶基因(penP)、嗜热脂肪芽孢杆菌(Bacillusstearothermophilus)麦芽糖淀粉酶基因(amyM)、枯草芽孢杆菌果聚糖蔗糖酶基因(sacB)、枯草芽孢杆菌xylA和xylB基因、苏云金芽孢杆菌(Bacillus thuringiensis)cryIIIA基因(Agaisse和Lereclus,1994,Molecular Microbiology 13:97-107)、大肠杆菌lac操纵子、大肠杆菌trc启动子(Egon等人,1988,Gene 69:301-315)、天蓝链霉菌(Streptomycescoelicolor)琼脂酶基因(dagA)和原核β-内酰胺酶基因(Villa-Kamaroff等人,1978,Proc.Natl.Acad.Sci.USA 75:3727-3731)以及tac启动子(DeBoer等人,1983,Proc.Natl.Acad.Sci.USA 80:21-25)。其他的启动子描述于“Useful proteins fromrecombinant bacteria”，Gilbert等人,1980,Scientific American 242:74-94；以及Sambrook等人,1989,同上。串联启动子的例子描述于WO 99/43835。

合适的用于指导本发明的核酸构建体在丝状真菌宿主细胞中转录的启动子的例子是获自以下各项的基因的启动子：构巢曲霉(Aspergillus nidulans)乙酰胺酶、黑曲霉中性α-淀粉酶、黑曲霉酸稳定性α-淀粉酶、黑曲霉或泡盛曲霉葡糖淀粉酶(glaA)、米曲霉(Aspergillus oryzae)TAKA淀粉酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、尖孢镰刀菌(Fusarium oxysporum)胰蛋白酶样蛋白酶(WO 96/00787)、镰孢霉(Fusariumvenenatum)淀粉葡糖苷酶(WO 00/56900)、镰孢霉Daria(WO 00/56900)、镰孢霉Quinn(WO00/56900)、米黑根毛霉(Rhizomucor miehei)脂肪酶、米黑根毛霉(Rhizomucor miehei)天冬氨酸蛋白酶、里氏木霉(Trichoderma reesei)β-葡糖苷酶、里氏木霉纤维二糖水解酶I、里氏木霉纤维二糖水解酶II、里氏木霉内切葡聚糖酶I、里氏木霉内切葡聚糖酶II、里氏木霉内切葡聚糖酶III、里氏木霉内切葡聚糖酶IV、里氏木霉内切葡聚糖酶V、里氏木霉木聚糖酶I、里氏木霉木聚糖酶II、里氏木霉β-木糖苷酶以及NA2-tpi启动子(来自曲霉属中性α-淀粉酶基因的修饰启动子，其中未翻译的前导序列已经被来自曲霉属磷酸丙糖异构酶基因的未翻译的前导序列取代；非限定性例子包括来自黑曲霉中性α-淀粉酶基因的修饰启动子，其中未翻译的前导序列已经被来自构巢曲霉或米曲霉磷酸丙糖异构酶基因的未翻译的前导序列取代)；及其突变的、截短的和杂交启动子。

在酵母宿主中，可用的启动子获自酿酒酵母(Saccharomyces cerevisiae)烯醇酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇3-羟基丙酸脱氢酶/甘油醛-3-磷酸3-羟基丙酸脱氢酶(ADH1,ADH2/GAP)、酿酒酵母磷酸丙糖异构酶(TPI)、酿酒酵母金属硫蛋白(CUP1)和酿酒酵母3-磷酸甘油酸激酶的基因。Romanos等人,1992,Yeast 8:423-488中描述了其它可用的酵母宿主细胞的启动子。

控制序列也可以是合适的转录终止子，其被宿主细胞识别以终止转录。终止子序列与编码变体的多核苷酸的3’-端可操作连接。可以使用任何在宿主细胞中起作用的终止子。

优选的细菌宿主细胞的终止子获自克劳氏芽孢杆菌(Bacillus clausii)碱性蛋白酶(aprH)、地衣芽孢杆菌α-淀粉酶(amyL)、和大肠杆菌核糖体RNA(rrnB)的基因。

优选的丝状真菌宿主细胞的终止子获自构巢曲霉邻氨基苯甲酸合酶、黑曲霉葡糖淀粉酶、黑曲霉α-葡糖苷酶、米曲霉TAKA淀粉酶和尖孢镰刀菌(Fusarium oxysporum)胰蛋白酶样蛋白酶的基因。

优选的酵母宿主细胞的终止子获自酿酒酵母烯醇酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸3-羟基丙酸脱氢酶的基因。Romanos等人,1992,同上中描述了其它可用的酵母宿主细胞的终止子。

控制序列也可以是启动子下游、基因编码序列上游的增加基因表达的mRNA稳定子区(stabilizer region)。

合适的mRNA稳定子区的例子获自苏云金芽孢杆菌cryIIIA基因(WO 94/25612)和枯草芽孢杆菌SP82基因(Hue等人,1995,Journal of Bacteriology 177:3465-3471)。

控制序列也可以是前导序列——对于宿主细胞翻译来说非常重要的mRNA的非翻译区。前导序列与编码变体的多核苷酸的5’-端可操作连接。可以使用任何在宿主细胞中起作用的前导序列。

优选的丝状真菌宿主细胞的前导序列获自米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶的基因。

适合用于酵母宿主细胞的前导序列获自酿酒酵母烯醇酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子和和酿酒酵母醇3-羟基丙酸脱氢酶/甘油醛-3-磷酸3-羟基丙酸脱氢酶(ADH2/GAP)的基因。

控制序列也可以是聚腺苷酸化序列——与变体编码序列的3’-端可操作连接的序列，其在转录时，被宿主细胞识别为在转录的mRNA上增加聚腺苷残基的信号。可以使用任何在宿主细胞中起作用的聚腺苷酸化序列。

优选的丝状真菌宿主细胞的聚腺苷酸化序列获自构巢曲霉邻氨基苯甲酸合酶、黑曲霉葡糖淀粉酶、黑曲霉α-葡糖苷酶、米曲霉TAKA淀粉酶和尖孢镰刀菌胰蛋白酶样蛋白酶的基因。

Guo和Serman,1995,Mol.Cellular Biol.15:5983-5990中描述了可用的酵母宿主细胞的聚腺苷酸化序列。

控制序列也可以是信号肽编码区，其编码与变体的N-端连接的信号肽，并指导多肽进入细胞分泌途径。多核苷酸的编码序列的5’-端可以固有地包含信号肽编码序列，该信号肽编码序列在翻译阅读框中与编码该变体的编码序列的区段天然地连接在一起。可替代地，该编码序列的5’端可以包含对于该编码序列来说是外来的信号肽编码序列。在编码序列未天然地包含信号肽编码序列的情况下，可能需要外源信号肽编码序列。可替代地，外源信号肽编码序列可以简单地替换天然信号肽编码序列，以便增强变体的分泌。然而，可以使用指导表达的变体进入宿主细胞的分泌通路的任何信号肽编码序列。

用于细菌宿主细胞的有效信号肽编码序列是从以下各项的基因获得的信号肽编码序列：芽孢杆菌属NCIB 11837产麦芽糖淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌α-淀粉酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA。Simonen和Palva,1993,Microbiological Reviews 57:109-137中描述了其他的信号肽。

用于丝状真菌宿主细胞的有效信号肽编码序列是从以下各项的基因中获得的信号肽编码序列：黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米曲霉TAKA淀粉酶、特异腐质霉纤维素酶、特异腐质霉内切葡聚糖酶V、疏棉状嗜热丝孢菌(Thermomyces lanuginosa)脂肪酶以及米黑根毛霉天冬氨酸蛋白酶。

可用的酵母宿主细胞信号肽获自酿酒酵母α-因子和酿酒酵母转化酶的基因。Romanos等人,1992,同上描述了其它可用的信号肽编码序列。

控制序列还可以是编码位于变体的N端处的前肽的一个前肽编码序列。生成的多肽被称为前体酶(proenzyme)或多肽原(或在一些情况下被称为酶原(zymogen))。多肽原通常是无活性的并且可以通过催化切割或自身催化切割来自多肽原的前肽而转化为活性多肽。前肽编码序列可以从以下各项的基因获得：枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、嗜热毁丝霉漆酶(WO 95/33836)、米黑根毛霉天冬氨酸蛋白酶、以及酿酒酵母α-因子。

在信号肽序列和前肽序列二者都存在的情况下，前肽序列定位成紧邻变体的N端并且信号肽序列定位成紧邻前肽序列的N端。

还令人希望的可以是添加调节序列，调节序列相对于宿主细胞的生长调节变体的表达。调节系统的实例是响应于化学或物理刺激而引起基因的表达开启或关闭的那些，包括调控化合物的存在。在原核系统中的调节系统包括lac、tac、以及trp操纵基因系统。在酵母中，可以使用ADH2系统或GALl系统。在丝状真菌中，可以使用黑曲霉葡糖淀粉酶启动子、米曲霉TAKA α-淀粉酶启动子、以及米曲霉葡糖淀粉酶启动子。调节序列的其他实例是允许基因扩增的那些。在真核系统中，调节序列包括在甲氨蝶呤存在下被扩增的二氢叶酸还原酶基因以及用重金属扩增的金属硫蛋白基因。在这些情况下，编码变体的多核苷酸将与调节序列可操作地连接。

重组表达载体包括编码本文描述的多肽或变体的多核苷酸，启动子、以及转录终止信号和翻译终止信号。不同的核苷酸和控制序列可以连接在一起以产生重组表达载体，该重组表达载体可以包括一个或多个便利的限制酶切位点以允许在这些位点处插入或取代编码该变体的多核苷酸。可替代地，多核苷酸可以通过将该多核苷酸或包括该多核苷酸的核酸构建体插入用于表达的适当载体中来表达。在产生该表达载体时，该编码序列位于该载体中，这样使得该编码序列与用于表达的适当控制序列可操作地连接。

重组表达载体可以是可方便地经受重组DNA程序并且可引起多核苷酸表达的任何载体(例如，质粒或病毒)。载体的选择将典型地取决于该载体与有待引入该载体的宿主细胞的相容性。该载体可以是线状或闭合的环状质粒。

载体可以是自主复制载体，即，作为染色体外实体存在的载体，其复制独立于染色体复制，例如，质粒、染色体外元件、微染色体或人工染色体。该载体可以包括用于确保自我复制的任何装置。可替代地，该载体可以是这样的载体，当它被引入该宿主细胞中时，被整合到基因组中并且与其中已整合了它的一个或多个染色体一起复制。此外，可以使用单个载体或质粒或者两个或更多个载体或质粒(这些载体或质粒共同包含待引入宿主细胞的基因组中的总DNA)或转座子。

该载体优选包含一个或多个允许方便地选择转化细胞、转染细胞、转导细胞等细胞的选择性标记物。选择性标记物是这样一种基因，该基因的产物提供了杀生物剂抗性或病毒抗性、重金属抗性、营养缺陷型的原养型等。

细菌选择性标记物的例子为地衣芽孢杆菌或枯草芽孢杆菌dal基因，或者赋予抗生素抗性例如氨苄青霉素、氯霉素、卡那霉素、新霉素、壮观霉素或四环素抗性的标记物。合适的酵母宿主细胞标记物包括，但不限于，ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。丝状真菌宿主细胞中使用的选择性标记物包括，但不限于，amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰基转移酶)、bar(草胺膦乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸还原酶)、pyrG(乳清苷-5’磷酸脱羧酶)、sC(硫酸腺苷基转移酶)、以及trpC(邻氨基苯甲酸合酶)，连同其等效物。优选在曲霉属细胞中使用的是构巢曲霉或米曲霉amdS和pyrG基因以及吸水链霉菌(Streptomyces hygroscopicus)bar基因。

载体优选包含允许载体整合到宿主细胞的基因组中或载体在细胞中独立于基因组自主复制的一个或多个元件。

对于整合到宿主细胞基因组中，载体可以依靠编码变体的多核苷酸序列或用于通过同源或非同源重组整合到基因组中的载体的任何其他元件。可替代地，载体可以包含用于指导通过同源重组而整合到宿主细胞基因组中的染色体中的精确位置的另外的多核苷酸。为了增加在精确位置整合的可能性，这些整合的元件应包含足够数量的核酸，如100至10,000个碱基对、400至10,000个碱基对、以及800至10,000个碱基对，这些碱基对与对应的靶序列具有高度的序列一致性以提高同源重组的可能性。这些整合元件可以是与宿主细胞的基因组中的靶序列同源的任何序列。此外，这些整合元件可以是非编码多核苷酸或编码多核苷酸。另一方面，载体可以通过非同源重组整合至宿主细胞的基因组中。

对于自主复制，载体可以进一步包括使载体能够在所讨论的宿主细胞中自主复制的复制起点。复制起点可以是在细胞中起作用的介导自主复制的任何质粒复制子。术语“复制起点”或“质粒复制子”意指使得质粒或载体能够在体内复制的多核苷酸。

细菌的复制起点的实例是允许在大肠杆菌内进行复制的质粒pBR322、pUC19、PACYC177、以及pACYC184以及允许在芽孢杆菌内进行复制的pUB110、pE194、pTA1060、和pAMβ1的复制起点。

用于酵母宿主细胞中的复制起点的实例是2微米复制起点、ARSl、ARS4、ARS1和CEN3的组合以及ARS4和CEN6的组合。

可用于丝状真菌细胞的复制起点的实例是AMA1和ANS1(Gems等人,1991,Gene 98:61-67；Cullen等人,1987,Nucleic Acids Res.15:9163-9175；WO 00/24883)。可以根据WO00/24883中披露的方法完成AMA1基因的分离和包含基因的质粒或载体的构建。

可以将多于一个拷贝的本发明的多核苷酸插入宿主细胞以增加变体的产生。通过将序列的至少一个另外的拷贝整合到宿主细胞基因组中或通过包括与多核苷酸一起的可扩增的选择性标记基因可以获得多核苷酸的增加的拷贝数目，其中通过在适当的选择性试剂的存在下培养细胞可以选择包含扩增拷贝的选择性标记基因的细胞、以及由此多核苷酸的另外的拷贝。

用于连接上文所述的元件以构建本发明的重组表达载体的程序对于本领域普通技术人员来说是熟知的(参见，例如上文的Sambrook等人，1989)。

宿主细胞

在一些实施方式中，本文所述的方法进一步包括将一种或多种来自步骤(iv)的分离的合成化合物的多核苷酸(例如，包括多核苷酸的核酸构建体或表达载体)转化到重组宿主细胞中。将包括多核苷酸的构建物或载体引入到宿主细胞中，使得构建物或载体作为染色体整合体或者作为自复制染色体外载体得以保持。术语“宿主细胞”包括由于在复制过程中发生突变而与亲本细胞不同的亲本细胞的任何子代。宿主细胞的选择将会在很大程度上取决于编码多肽的基因及其来源。

宿主细胞可以是任何可用于重组产生本发明蛋白酶的细胞，例如，原核细胞或真核细胞。

原核宿主细胞可以是任何革兰氏阳性或革兰氏阴性的细菌。革兰氏阳性细菌包括，但不限于，芽孢杆菌属(Bacillus)、梭菌属(Clostridium)、肠球菌属(Enterococcus)、土芽孢杆菌属(Geobacillus)、乳杆菌属(Lactobacillus)、乳球菌属(Lactococcus)、大洋芽孢杆菌属(Oceanobacillus)、葡萄球菌属(Staphylococcus)、链球菌属(Streptococcus)和链霉菌属(Streptomyces)。革兰氏阴性细菌包括但不限于弯曲杆菌属(Campylobacter)、大肠杆菌(E.coli)、黄杆菌属(Flavobacterium)、梭杆菌属(Fusobacterium)、螺杆菌属(Helicobacter)、泥杆菌属(Ilyobacter)、奈瑟氏菌属(Neisseria)、假单胞菌属(Pseudomonas)、沙门氏菌属(Salmonella)和脈原体属(Ureaplasma)。

细菌宿主细胞可以是任何芽孢杆菌属细胞，其包括，但不限于，嗜碱芽孢杆菌(Bacillus alkalophilus)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)、短芽孢杆菌(Bacillus brevis)、环状芽孢杆菌(Bacillus circulans)、克劳氏芽孢杆菌(Bacillusclausii)、凝结芽孢杆菌(Bacillus coagulans)、坚强芽孢杆菌(Bacillus firmus)、灿烂芽孢杆菌(Bacillus lautus)、迟缓芽孢杆菌(Bacillus lentus)、地衣芽孢杆菌(Bacilluslicheniformis)、巨大芽孢杆菌(Bacillus megaterium)、短小芽孢杆菌(Bacilluspumilus)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)、枯草芽孢杆菌(Bacillussubtilis)、以及苏云金芽孢杆菌(Bacillus thuringiensis)细胞。

细菌宿主细胞可以是任何链球菌属(Streptococcus)细胞，其包括，但不限于，似马链球菌(Streptococcus equisimilis)、酿脓链球菌(Streptococcus pyogenes)、乳房链球菌(Streptococcus uberis)和马链球菌兽疫亚种(Streptococcus equisubsp.Zooepidemicus cells)细胞。

细菌宿主细胞可以是任何链霉菌属(Streptomyces)细胞，其包括，但不限于，不产色链霉菌(Streptomyces achromogenes)、阿维链霉菌(Streptomyces avermitilis)、天蓝链霉菌(Streptomyces coelicolor)、灰色链霉菌(Streptomyces griseus)和浅青紫链霉菌细胞(Streptomyces lividans)。

将DNA引入到芽孢杆菌细胞中可以通过以下来实现：原生质体转化(参见，例如Chang和Cohen,1979,Mol.Gen.Genet.168:111-115)、感受态细胞转化(参见，例如，Young和Spizizen,1961,J.Bacteriol.81:823-829，或Dubnau和Davidoff-Abelson,1971,J.Mol.Biol.56:209-221)、电穿孔(参见，例如，Shigekawa和Dower,1988,Biotechniques6:742-751)或缀合(参见，例如，Koehler和Thorne,1987,J.Bacteriol.169:5271-5278)。将DNA引入到大肠杆菌细胞中可以通过以下来实现：原生质体转化(参见，例如，Hanahan,1983,J.Mol.Biol.166:557-580)或电穿孔(参见，例如，Dower等人,1988,Nucleic AcidsRes.16:6127-6145)进行。将DNA引入到链霉菌属细胞中可以通过原生质体转化、电穿孔(参见，例如，Gong等人,2004,Folia Microbiol.(Praha)49:399-405)、缀合(参见，例如，Mazodier等人,1989,J.Bacteriol.171:3583-3585)或转导(参见，例如，Burke等人,2001,Proc.Natl.Acad.Sci.USA 98:6289-6294)。将DNA引入到假单胞菌属细胞中可以通过以下来实现：电穿孔(参见，例如，Choi等人,2006,J.Microbiol.Methods 64:391-397)或缀合(参见，例如，Pinedo和Smets,2005,Appl.Environ.Microbiol.71:51-57)。将DNA引入到链球菌属细胞中可以通过以下来实现：自然感受态(natural competence)(参见，例如，Perry和Kuramitsu,1981,Infect.Immun.32:1295-1297)、原生质体转化(参见，例如，Catt和Jollick,1991,Microbios 68:189-207)、电穿孔(参见，例如，Buckley等人,1999,Appl.Environ.Microbiol.65:3800-3804)或缀合(参见，例如，Clewell,1981,Microbiol.Rev.45:409-436)。但是，可以使用任何本领域已知的方法将DNA引入到宿主细胞中。

宿主细胞也可以是真核细胞，例如哺乳动物、昆虫、植物或真菌细胞。

宿主细胞可以是真菌细胞。如本文所用，“真菌”包括子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、壶菌门(Chytridiomycota)、以及接合菌门(Zygomycota)、以及卵菌门(Oomycota)和全部有丝分裂孢子真菌(如Hawksworth等人在Ainsworth and Bisby’sDictionary of The Fungi,第八版,1995,CAB International,University Press,Cambridge,UK中所定义)。

真菌宿主细胞可以是酵母细胞。如本文所用，“酵母”包括产子囊酵母(ascosporogenous yeast)(内孢霉目(Endomycetales))、产担子酵母(basidiosporogenous yeast)和属于半知菌类(Fungi Imperfecti)(芽孢纲(Blastomycetes))的酵母(芽孢纲)。由于酵母的分类在未来可以变化，出于本发明的目的，酵母应当如Biology and Activities of Yeast(Skinner,F.A.,Passmore,S.M.和Davenport,R.R.,eds,Soc.App.Bacteriol.Symposium Series No.9,1980)中所述定义。

酵母宿主细胞可以是念珠菌属(Candida)、汉逊酵母属(Hansenula)、克鲁维酵母菌属(Kluyveromyces)、毕赤酵母属(Pichia)、酵母属(Saccharomyces)、裂殖酵母属(Schizosaccharomyces)或耶氏酵母属(Yarrowia)细胞，例如乳酸克鲁维酵母(Kluyveromyces lactis)、卡氏酵母(Saccharomyces carlsbergensis)、酿酒酵母(Saccharomyces cerevisiae)、糖化酵母(Saccharomyces diastaticus)、Saccharomycesdouglasii、Saccharomyces kluyveri、Saccharomyces norbensis、Saccharomycesoviformis或解脂耶氏酵母(Yarrowia lipolytica)细胞。

真菌宿主细胞可以是丝状真菌细胞。“丝状真菌”包括所有丝状形式的细分真菌亚门和卵菌亚门(如Hawksworth等人,1995,同上所定义)。丝状真菌通常特征在于由几丁质、纤维素、葡聚糖、壳多糖、甘露聚糖、以及其他复杂多糖构成的菌丝体壁。营养生长是通过菌丝延伸，而碳分解代谢是专性需氧的。相反，酵母(如酿酒酵母)的营养生长是通过单细胞菌体的出芽(budding)，而碳分解代谢可以是发酵性的。

丝状真菌宿主细胞可以是枝顶孢属(Acremonium)、曲霉属(Aspergillus)、短梗霉属(Aureobasidium)、烟管菌属(Bjerkandera)、拟蜡霉属(Ceriporiopsis)、金孢子霉属(Chrysosporium)、鬼伞属(Coprinus)、革盖菌属(Coriolus)、隐球菌属(Cryptococcus)、Filibasidium、镰刀菌属(Fusarium)、腐质霉属(Humicola)、梨孢属(Magnaporthe)、毛菌霉(Mucor)、毁丝霉属(Myceliophthora)、Neocallimastix、脉孢菌属(Neurospora)、拟青霉属(Paecilomyces)、青霉菌属(Penicillium)、平革菌属(Phanerochaete)、白腐菌属(Phlebia)、Piromyces、侧耳菌属(Pleurotus)、裂褶菌属(Schizophyllum)、篮状菌属(Talaromyces)、嗜热子囊菌属(Thermoascus)、梭孢壳属(Thielavia)、弯颈霉属(Tolypocladium)、栓菌属(Trametes)或木霉属(Trichoderma)细胞。

例如，丝状真菌宿主细胞可以是泡盛曲霉(Aspergillus awamori)、臭曲霉(Aspergillus foetidus)、烟曲霉菌(Aspergillus fumigatus)、日本曲霉(Aspergillusjaponicus)、构巢曲霉、黑曲霉、米曲霉、烟管菌(Bjerkandera adusta)、干拟蜡菌(Ceriporiopsis aneirina)、Ceriporiopsis caregiea、Ceriporiopsis gilvescens、Ceriporiopsis pannocinta、Ceriporiopsis rivulosa、Ceriporiopsis subrufa、虫拟蜡菌(Ceriporiopsis subvermispora)、Chrysosporium inops、嗜角质金孢子菌(Chrysosporium keratinophilum)、Chrysosporium lucknowense、Chrysosporiummerdarium、Chrysosporium pannicola、Chrysosporium queenslandicum、Chrysosporiumtropicum、Chrysosporium zonatum、灰盖鬼伞(Coprinus cinereus)、毛革盖菌(Coriolushirsutus)、Fusarium bactridioides、Fusarium cerealis、Fusarium crookwellense、黄色镰刀菌(Fusarium culmorum)、禾谷镰刀菌(Fusarium graminearum)、Fusariumgraminum、异孢镰孢(Fusarium heterosporum)、合欢木镰孢(Fusarium negundi)、尖镰孢(Fusarium oxysporum)、Fusarium reticulatum、粉红镰孢(Fusarium roseum)、接骨木镰孢(Fusarium sambucinum)、Fusarium sarcochroum、拟枝孢镰刀菌(Fusariumsporotrichioides)、干腐病菌(Fusarium sulphureum)、Fusarium torulosum、Fusariumtrichothecioides、镰孢霉(Fusarium venenatum)、特异腐质霉(Humicola insolens)、柔毛腐质霉(Humicola lanuginosa)、米赫毛霉(Mucor miehei)、嗜热毁丝霉(Myceliophthora thermophila)、粗糙脉胞菌(Neurospora crassa)、产紫青霉(Penicillium purpurogenum)、黄孢原毛平革菌(Phanerochaete chrysosporium)、射脉侧菌(Phlebia radiata)、杏鲍菇(Pleurotus eryngii)、太瑞斯梭孢壳霉(Thielaviaterrestris)、长绒毛栓菌(Trametes villosa)、变色栓菌(Trametes versicolor)、哈茨木霉(Trichoderma harzianum)、康氏木霉(Trichoderma koningii)、长梗木霉(Trichodermalongibrachiatum)、里氏木霉(Trichoderma reesei)或绿色木霉(Trichoderma viride)细胞。

真菌细胞可以通过涉及原生质体形成、原生质体的转化和细胞壁再生的方法以本身已知的方式转化。合适的曲霉属和木霉属宿主细胞的转化方法描述于以下文献中：EP238023、Yelton等人,1984,Proc.Natl.Acad.Sci.USA 81:1470-1474以及Christensen等人,1988,Bio/Technology 6:1419-1422。合适的镰孢菌属物种的转化方法由Malardier等人,1989,Gene 78:147-156和WO 96/00787描述。酵母可以使用以下文献中描述的方法转化：Becker和Guarente,In Abelson,J.N.和Simon,M.I.,editors,Guide to YeastGenetics and Molecular Biology,Methods in Enzymology,Volume 194,pp 182-187,Academic Press,Inc.,New York；Ito等人,1983,J.Bacteriol.153:163；以及Hinnen等人,1978,Proc.Natl.Acad.Sci.USA 75:1920。

制造方法

在一些实施方式中，本文所述的方法进一步包括将上述重组宿主细胞在适合于蛋白酶表达的条件下培养，和任选地，回收蛋白酶。

使用本领域已知的方法将宿主细胞在适合于产生蛋白酶的营养培养基中培养。例如，细胞可以在使多肽得以表达和/或分离的条件下、在适当的培养基中，通过摇瓶培养或者在实验室或工业发酵器中通过小规模或大规模发酵(包括连续、分批、补料分批式或固态发酵)培养。培养在合适的包括碳源、氮源和无机盐的营养培养基中使用本领域已知的方法进行。合适的培养基可获自供应商，或者可以根据公开的组成制备(例如，在American TypeCulture Collection目录中)。如果多肽分泌到营养培养基中，多肽可以直接从培养基中回收。如果不分泌多肽，其可以由细胞裂解物回收。

蛋白酶可以使用本领域已知的对于多肽具有特异性的方法检测。这些检测方法包括，但不限于，使用特异性抗体、酶产物的形成或酶底物的消失。例如，可以使用酶检验来测定蛋白酶的活性。

蛋白酶可以使用本领域已知的方法回收。例如，蛋白酶可以通过包括，但不限于收集、离心、过滤、萃取、喷雾干燥、蒸发或沉淀的常规方法从营养培养基中回收。一方面，回收包括蛋白酶的全部发酵液。

蛋白酶可以通过许多种本领域已知的方法提纯，其包括，但不限于，色谱(例如，离子交换色谱、亲和色谱、疏水作用色谱、色谱聚焦、以及尺寸排阻色谱)、电泳方法(例如，制备型等电聚焦)、溶解度差异(例如，硫酸铵沉淀)、SDS-PAGE或萃取(参见，例如，ProteinPurification,Janson和Ryden,editors,VCH Publishers,New York,1989)，以得到基本上纯的多肽。

在另外可选的方面，不回收蛋白酶，而是将表达蛋白酶的本发明的宿主细胞作为多肽来源使用。

本发明通过以下编号的段落进一步说明。

段落[1]：一种选择具有蛋白酶活性的多肽的方法，该方法包括：

(a)编码多肽的多核苷酸；

(b)与所述多核苷酸连接的蛋白酶底物；和

(c)与所述多核苷酸连接的选择性标记物；

其中水相包括用于多肽表达的组分；

段落[2]：根据段落[1]所述的方法，其中多肽包括前肽。

段落[3]：根据段落[1]或[2]所述的方法，其中多种合成化合物包括至少大约10⁶种不同的合成化合物(例如，至少大约10¹⁰、10¹²或10¹⁴种不同的合成化合物)。

段落[4]：根据任一前述段落所述的方法，其中油包水乳液不超过20％的水性液滴包括多于一个的合成化合物。

段落[5]：根据任一前述段落所述的方法，其中每个合成化合物仅包括一拷贝的一种核苷酸。

段落[6]：根据任一前述段落所述的方法，其中乳液包括至少大约10⁶水性液滴/mL乳液(例如，至少大约10⁹、10¹²或10¹⁵水性液滴/mL乳液)。

段落[7]：根据任一前述段落所述的方法，其中乳液中的水性液滴平均直径为大约0.05μm至大约100μm(例如，大约0.1μm至大约50μm，大约0.2μm至大约25μm，大约0.5μm至大约10μm，或者大约1μm至大约5μm)，包含两端值。

段落[8]：根据任一前述段落所述的方法，其中乳液中水性液滴的平均体积为大约1阿升至大约1纳升(例如，大约10阿升至大约50毫微微升，或者大约0.5毫微微升至大约10毫微微升)。

段落[9]：根据任一前述段落所述的方法，其中编码多肽的多核苷酸通过取代硫醇(例如硫醚)、取代氨基(例如酰氨基)或三唑部分与蛋白酶底物连接。

段落[10]：根据任一前述段落所述的方法，其中选择性标记物在相对于蛋白酶底物远端的位置处与多核苷酸连接。

段落[11]：根据任一前述段落所述的方法，其中选择性标记物通过取代硫醇(例如硫醚)、取代氨基(例如酰氨基)或三唑部分与多核苷酸连接。

段落[12]：根据任一前述段落所述的方法，其中选择性标记物是亲和标签。

段落[13]：根据段落[12]所述的方法，其中亲和标签包括生物素。

段落[14]：根据段落[13]所述的方法，其中用链霉抗生物素蛋白(例如，覆有链霉抗生物素蛋白的微球)将步骤(iv)的水解的合成化合物与未水解的合成化合物分离。

段落[15]：根据任一前述段落所述的方法，其中合成化合物各自包括固相。

段落[16]：根据段落[15]所述的方法，其中固相与所述蛋白酶底物连接，并且其中蛋白酶底物的水解使得固相从合成化合物释出。

段落[17]：根据段落[15]或[16]所述的方法，其中固相是微珠或颗粒。

段落[18]：根据段落[17]所述的方法，其中固相是疏水性微珠。

段落[19]：根据段落[15]-[18]中任一段所述的方法，其中固相是金纳米颗粒。

段落[20]：根据任一前述段落所述的方法，其中水相进一步包括蛋白酶抑制剂和/或竞争性底物。

段落[21]：根据任一前述段落所述的方法，其包括在步骤(iv)之前将水相与油相分离(例如，经由化学诱导的聚结和/或离心)。

段落[22]：根据任一前述段落所述的方法，其中所回收的包括蛋白酶底物的合成化合物和/或蛋白酶底物已经被水解的合成化合物是基本上纯的。

段落[23]：根据任一前述段落所述的方法，其进一步包括对步骤(iv)的一种或多种分离的合成化合物进行多核苷酸序列分析(例如，经由测序)。

段落[24]：根据任一前述段落所述的方法，其进一步包括对蛋白酶底物已经被水解的步骤(iv)的合成化合物的一种或多种多核苷酸进行扩增。

段落[25]：根据任一前述段落所述的方法，其进一步包括对包含蛋白酶底物的步骤(iv)的合成化合物的一种或多种多核苷酸进行扩增。

段落[26]：根据段落[24]或[25]所述的方法，其中扩增的一种或多种多核苷酸用于新的步骤(i)所述的多种合成化合物，并且用所述新的多种合成化合物重复步骤(i)至(iv)。

段落[27]：根据任一前述段落所述的方法，其进一步包括将变更引入至步骤(iv)的分离的合成化合物的一种或多种多核苷酸(例如，诱变)。

段落[28]：根据段落[27]所述的方法，其中一种或多种变更的多核苷酸用于新的步骤(i)所述的多种合成化合物，并且用所述新的多种合成化合物重复步骤(i)至(iv)。

段落[29]：根据任一前述段落所述的方法，其进一步包括表达来自步骤(iv)的分离的合成化合物的一种或多种多核苷酸(例如，表达其中蛋白酶底物已经被水解的合成化合物的多核苷酸，从而产生具有蛋白酶活性的多肽)。

段落[30]：根据任一前述段落所述的方法，其进一步包括将来自步骤(iv)的分离的合成化合物的一种或多种多核苷酸克隆到表达载体中。

段落[31]：根据段落[30]所述的方法，其进一步包括将所述表达载体转化到重组宿主细胞中。

段落[32]：根据段落[31]所述的方法，其进一步包括将重组宿主细胞在适合于多肽表达的条件下培养，和任选地，回收多肽。

段落[33]：一种合成化合物，其包括：

(a)编码多肽的多核苷酸；

(b)与所述多核苷酸连接的蛋白酶底物；和

(c)与所述多核苷酸连接的选择性标记物。

段落[34]：根据段落[33]所述的合成化合物，其中多肽包括前肽。

段落[35]：根据段落[33]或[34]所述的合成化合物，其包括仅一个拷贝的一多核苷酸。

段落[36]：根据段落[33]-[35]中任一段所述的合成化合物，其中编码多肽的多核苷酸通过取代硫醇(例如硫醚)、取代氨基(例如酰氨基)或三唑部分与蛋白酶底物连接。

段落[37]：根据段落[33]-[36]中任一段所述的合成化合物，其中选择性标记物在相对于蛋白酶底物远端的位置处与多核苷酸连接。

段落[38]：根据段落[33]-[37]中任一段所述的合成化合物，其中多肽的成熟形式具有蛋白酶活性。

段落[39]：根据段落[33]-[38]中任一段所述的合成化合物，其中多肽是蛋白酶变体。

段落[40]：根据段落[33]-[39]中任一段所述的合成化合物，其中选择性标记物通过取代硫醇(例如硫醚)、取代氨基(例如酰氨基)或三唑部分与多核苷酸连接。

段落[41]：根据段落[33]-[40]中任一段所述的合成化合物，其中选择性标记物是亲和标签。

段落[42]：根据段落[41]所述的合成化合物，其中亲和标签包括生物素。

段落[43]：根据段落[33]-[42]中任一段所述的合成化合物，其进一步包括固相。

段落[44]：根据段落[43]所述的合成化合物，其中固相与所述蛋白酶底物连接。

段落[45]：根据段落[43]或[44]所述的合成化合物，其中固相是微珠或颗粒。

段落[46]：根据段落[45]所述的合成化合物，其中固相是疏水性微珠。

段落[47]：根据段落[43]-[45]中任一段所述的合成化合物，其中固相是金纳米颗粒。

段落[48]：根据段落[33]-[47]中任一段所述的合成化合物，其能够在与具有蛋白酶活性的多肽接触时被水解。

段落[49]：一种制造段落[33]-[48]中任一段所述的合成化合物的方法，其包括：

(i)将蛋白酶底物与编码多肽的多核苷酸连接；

(ii)将选择性标记物与编码多肽的多核苷酸连接；和

(ii)回收合成化合物。

段落[50]：根据段落[49]所述的方法，其进一步包括将蛋白酶底物与固相连接。

段落[51]：一种多核苷酸文库，其包括多种不同的根据段落[33]-[48]中任一段所述的合成化合物。

段落[52]：根据段落[51]所述的文库，其中合成化合物文库包括至少大约10⁶种不同的合成化合物(例如，至少大约10¹⁰、10¹²或10¹⁴种不同的合成化合物)。

段落[53]：一种油包水乳液，其包括根据段落[51]或[52]所述的多核苷酸文库，其中合成化合物在乳液的水性液滴中区室化。

段落[54]：根据段落[53]所述的乳液，油包水乳液不超过20％的水性液滴包括多于一个的合成化合物。

段落[55]：根据段落[53]或[54]所述的乳液，其在水性液滴中进一步包括用于多肽表达的组分。

段落[56]：根据段落[53]-[55]中任一段所述的乳液，其进一步包括乳化剂。

段落[57]：根据段落[53]-[56]中任一段所述的乳液，其包括至少大约10⁶水性液滴/mL乳液(例如，至少大约10⁹、10¹²或10¹⁵水性液滴/mL乳液)。

段落[58]：根据段落[53]-[57]中任一段所述的乳液，其中水性液滴的平均直径为大约0.05μm至大约100μm，包含两端值(例如，大约0.1μm至大约50μm，大约0.2μm至大约25μm，大约0.5μm至大约10μm，或者大约1μm至大约5μm，包含两端值)。

段落[59]：根据段落[53]-[58]中任一段所述的乳液，其中水性液滴的平均体积为大约1阿升至大约1纳升，包含两端值(例如，大约10阿升至大约50毫微微升，或者大约0.5毫微微升至大约10毫微微升)。

段落[60]：根据段落[53]-[59]中任一段所述的乳液，其中乳液适合于在水性液滴内表达多肽。

段落[61]：根据段落[53]-[60]中任一段所述的乳液，其中表达的具有蛋白酶活性的多肽能够使所述液滴中的一种或多种合成化合物水解。

段落[62]：一种制造根据段落[53]-[61]中任一段所述的乳液的方法，其包括：

(i)将多种合成化合物悬浮在水相中；和

(ii)将(i)的悬浮液与油混合。

实施例

通过说明提供以下实施例，其无意于对本发明进行限定。

用作缓冲液和底物的化合物均是至少试剂纯的市售产品。

实施例1：制备用于生物缀合的DNA

使用模板A(SEQ ID NO:1，含有编码序列SEQ ID NO:2，编码SEQ ID NO:3的多肽)或模板B(SEQ ID NO:4，含有编码序列SEQ ID NO:5，编码SEQ ID NO:6的多肽)进行两个单独的如下所示的PCR：组装50μL反应液，其含有0.5μM生物素-TEG-修饰的引物A(5’-生物素TEG/SEQ ID NO:7；5’-CGG TTT CTT GGC CTC CAT ATA C-3’)、0.5μM TCO-修饰的引物B(SEQ ID NO:8；5’-AAG TCA GTA CGT GTG CGC TTA TAG-3’)、1ng模板A或模板B以及25μL高保真2X Master Mix(New England Biolabs,Ipswich,MA USA)。将反应液在98℃下活化30s，然后进行24次热循环(98℃5s，65℃15s，72℃30s)，然后在72℃下进行2m最终延长。使用High Prep PCR系统(MAGBIO GENOMICS,Gaithersburg,MD USA)根据制造商的方案从残余PCR组分提纯产生的扩增子A或扩增子B。

实施例2：将蛋白质底物涂覆在微球上

甲苯磺酰基活化的小珠(bead)上的蛋白质底物

将α-酪蛋白与磁性微球的表面共价连接如下：将DynabeadsMyOne^TMTosylactivated(Thermo Scientific,Inc.)100mg/mL悬浮液原液通过涡旋剧烈搅拌。将500μL悬浮液转移至微量离心管中，并置于磁性支架(Promega 磁力分离架)上≥2m，使小珠迁移至离心管侧，使液体中清除悬浮的小珠。通过移液管取上清液并弃去，使微珠留在离心管中。使用与除去上清液相同的步骤，重复加入和除去1mL涂覆缓冲液(0.1M硼酸钠(H₃BO₃+NaOH)，pH 9.5)，将微球洗涤3X。将洗涤的微球沉淀物再悬浮在805μL涂覆缓冲液中。向再悬浮的微球中加入30μL 80mg/mLα-酪蛋白，并涡旋混合。向悬浮液中加入415μL 3M硫酸铵，将微量离心管在缓慢倾斜转动下在37℃下孵育16-24h。孵育之后，使用磁性支架如上所述除去上清液。

然后通过将微球再悬浮在1.25mL封闭缓冲液(1X PBS，具有0.5％(w/v)甘氨酸和0.05％Tween-20)中，然后在缓慢倾斜转动下在37℃下孵育16-24h，将微球的表面钝化。使用与除去上清液相同的步骤通过反复加入和除去1mL洗涤缓冲液(1X PBS，具有0.1％甘氨酸和0.05％Tween 20)，将钝化的微球洗涤3X。加入～300μL存储缓冲液(1X PBS，具有0.1％甘氨酸和0.05％Tween-20和0.02％叠氮化钠)，将洗涤的微球再悬浮至500μL。存储之前将微球悬浮液超声，以使微球分散。

类似地，可以使用相同的方法将其他蛋白质底物例如牛血清白蛋白或血红蛋白涂覆在微球上。

羧化小珠上的蛋白质底物

将牛血清白蛋白(BSA，Sigma-Aldrich#A3294-50G)与磁性微球的表面共价连接如下：将BSA以80mg/mL溶解在15mM MES(2-(N-吗啉代)乙磺酸)(pH 6)中，在室温下转动过夜。Dynabeads MyOne^TM羧酸(Thermo Scientific,Inc.)10mg/mL悬浮液储液通过涡旋剧烈搅拌。将1mL悬浮液转移至硅化微量离心管(Ambion^TMNonstick，不含RNA酶的微量离心管，2.0mL#AM12475)中，并置于磁性支架(Promega 磁性分离架)上≥2m，使小珠迁移至离心管侧，使液体中清除悬浮的小珠。通过移液管取上清液并弃去，使微珠留在离心管中。将微量离心管从磁性支架上取下，使用用于除去上清液的相同步骤，重复加入和除去1mL的15mM MES pH 6，将微球洗涤2X。将洗涤的微球沉淀物再悬浮在100μL 15mM MES缓冲液(pH 6)中。向微球悬浮液中加入100μL冷PCR级水中以10mg/mL新鲜溶解的EDC(1-乙基-3-(3-二甲基氨基丙基)碳二亚胺盐酸盐)，并在室温下转动孵育30m。通过将微量离心管置于磁性支架上≥2m，如上所述除去上清液。将80mg/mL的BSA溶液在15mM pH 6的MES中稀释100倍，并将500μL稀释液加入到EDC-激活的微球中。在室温下转动16-24h，使BSA与微球表面结合。

通过将微量离心管置于磁性支架上≥2m，如上所述除去上清液。重复加入1mL的1XPBS，0.1％Tween 20(pH 7.4)，并在室温下转动10m，将微球洗涤2X，使用除去上清液的相同方法去除缓冲液。洗涤之后，同之前那样通过将微量离心管置于磁性支架上≥2m，如上所述除去上清液。将微球再悬浮在200-500μL存储悬浮液(1X PBS，0.1％Tween 20，pH 7.4)中。在DNA缀合(实施例3)之前，将微球通过超声分散1h。

实施例3：将底物与DNA连接

将来自实施例1的生物素-和TCO-修饰的DNA扩增子与覆有蛋白质的微球如下缀合：将覆有α-酪蛋白的磁性微球以20mg/mL再悬浮在100mM磷酸盐,0.05％Tween-20(pH 8)缓冲液中，使用如实施例2中的磁性支架除去存储缓冲液。将再悬浮的微球超声30m，以使微球分散。使用实施例2中的磁性支架，将微球在600μl的PB/T缓冲液(100mM磷酸盐，0.05％Tween-20,pH 8)中洗涤6X。将洗涤的微球以100mg/mL再悬浮在PB/T缓冲液中。将0.5μmolNHS-四嗪与33.3μL干燥DMF合并，产生15mM NHS-四嗪溶液。将45μL 100mg/mL洗涤的微球与4μL 15mM NHS-四嗪和11μL PB/T缓冲液合并。使NHS-四嗪与微球上的α-酪蛋白在室温下在800rpm震摇下反应3h。将四嗪-活化的微球如前所述在PB/T缓冲液中洗涤6X，并以100mg/mL再悬浮在PB/T缓冲液中。为了减少非特异性DNA结合，加入20μLSuperBlock缓冲液，并在缓慢倾斜转动下在室温下孵育1h。

孵育之后，将微球悬浮液置于磁性支架上，除去20μL上清液，使微球浓度回至100mg/mL。将微球再悬浮，将10μL与2ng/μL的4.9μL扩增子A或扩增子B(实施例1)和4.1μLSuperBlock缓冲液合并。将反应液在50℃下在连续转动下孵育16h。孵育之后，加入160μLPB/T，将全部体积在Kingfisher(Thermo Scientific)自动化磁性颗粒处理仪中处理，以将微球在180μL 1X PBS中洗涤6X。将洗涤的微球再悬浮在360μL 1X PBS中。通过在BioTek酶标仪中测量400nm处的吸光度，并标准化至1X PBS中5mg/mL，测量微球浓度。

实施例4：乳液形成和多肽表达

将实施例3的DNA-微球缀合物用以下方法乳化：使用体外蛋白质合成试剂盒(New England Biolabs，Ipswich，MA USA)，在冰上组装143.9μL体外转录/翻译(IVTT)反应液。IVTT反应液含有67μL Tube A、6.7μL 二硫键增强剂2、3.4μL鼠RNA酶抑制剂(#M0314)、48.6μL Tube B和1μg的随机阻断DNA。如前所述将来自实施例3的DNA-微球缀合物用1X PB/T洗涤3X，并以5mg/mL的浓度再悬浮在50mM HEPES中。将与扩增子A和扩增子B缀合的微球汇集，使得大约2％源自SEQID NO:1(编码野生型Savinase)，98％源自SEQ ID NO:4(编码无催化活性的Savinase)。将冷的143.9μL IVTT反应液与23.6μL汇集的DNA-微球缀合物合并，并置于含有3mm碳化钨珠(Qiagen,Venlo,Limburg)和335μL室温3M Novec HFE-7500,2％Pico-Surf 1(TheDolomite Centre Ltd.,Royston,UK)的2mL圆底管(Eppendorf AG,Hamburg Germany)中。

将管在组织溶解器(Qiagen,Venlo Limburg)中在15Hz下搅动10s，然后再17Hz下60s。将乳液在30℃下孵育1-4h，使多肽表达，蛋白质水解。对于一些测试来说，乳液温度升高至40℃持续额外的1至36hr，以考察更高的温度对蛋白质水解的影响。

表达/水解之后，水性部分按如下回收：将10μL 20mM PMSF加入到各乳液中，以防止乳液一旦破裂蛋白质进一步水解。将500μL Pico-Break 1(The Dolomite Centre Ltd.,Royston,UK)加入到乳液中，然后倒置，直至得到均匀的悬浮液。将管短暂转动，将悬浮液从管帽除去，并置于磁性支架上30s。通过在微量离心机中在14,000x g下离心25s，准备PhaseLock Gel(PLG)Heavy 2mL(5Prime,Fisher FP2302830)管，使PLG沉淀。将全部悬浮液转移至制备的PLG管中，留下尽可能多的微球。将管在14,000x g下离心5m，以分离相。将顶部的水相部分小心地通过移液管取出，并转移至洁净的管中。将PLG管用30μL IDTE(10mM Tris,pH 8.0,0.1mM EDTA)反萃取，在14,000x g下离心30s，并与顶部的水相部分合并。通过加入IDTE，将全部水性部分增加至160μL。通过将管置于磁性支架上30s，除去残余微球，并将全部160μL上清液转移至洁净的管中。

增强子A富集相比较于增强子B的测量通过液滴数字(droplet digital)PCR(ddPCR)如下进行：组装22μL含有以下物质的反应液：900nM引物1(SEQ ID NO:27；5’-GTTCAACA TATG CCAG CTT-3’)和900nM引物2(SEQ ID NO:28；5’-CGCAC CTGCA ACATG A-3’)、250nM探针1(活性)(5’-/5HEX/ACGG TACA TCGA TGGC(SEQ ID NO:29)/3IABkFQ/-3’)和250nM探针2(无活性)(5’-/56-FAM/ACGG TACA GCAA TGGC(SEQ ID NO:29)/3IABkFQ/-3’)、2.2μL稀释至40,000分子/μL的回收DNA和11μL用于探针(无dUTP)对照的2x ddPCRSupermix(#720001476Bio-Rad,Hercules,CA USA)。使用自动化液滴产生器(#1864101Bio-Rad,Hercules,CA USA)根据制造商的方案产生液滴。然后将液滴热循环40次(95℃30s，52℃1m)，然后在QX200^TMDroplet Reader(#1864003Bio-Rad,Hercules,CA USA)上读取，以确定有活性和无活性的变体比例。图2中的富集表现为富集因子(EF)，其为活性/无活性等位基因(分别为L_final和D_final)的最终比例与活性/无活性等位基因(分别为L₀和D₀)的起始比例的商。

实施例5：使用亲和捕获来回收释出的DNA

从DNA-微球缀合物上释出编码对于底物具有活性的酶的生物素化DNA分子，并如下将其捕获在覆有链霉抗生物素蛋白的小珠上：使用Kingfisher自动化磁性颗粒处理器(Thermo Scientific,Inc.)进行洗涤和DNA结合步骤。将MyOne^TMStreptavidin C1磁珠(Thermo Fisher Scientific,Inc.)在200-μL体积的1XBind&Wash缓冲液(5mM Tris-HCl pH 7.5，0.5mM EDTA，1M NaCl,0.01％Tween-20)中洗涤一次。将来自实施例4的160μL上清液与40μL 5X Bind&Wash缓冲液合并，制成200μL 1XBind&Wash缓冲液中的溶液。然后将洗涤的磁珠加入到溶液中，并在间歇搅拌下在室温下孵育30m，以将磁珠保持在悬浮状态。将含有捕获的DNA分子的磁珠在200-μL体积的1X Bind&Wash悬浮液中洗涤2X，然后在200μL体积的0.1X Bind&Wash缓冲液中洗涤一次。将磁珠再悬浮在200μL IDTE,0.01％Tween-20中，将体积转移至洁净的1.5mL DNA lo-bind微量离心管中。将管手动置于磁性支架上60s，将在不扰动磁珠沉淀物的情况下将上清液小心取出并弃去。将磁珠再分散在18μL IDTE,0.01％Tween-20中。

将与覆有链霉抗生物素蛋白的磁珠(上述)结合的生物素化、富集的扩增子汇集物经PCR扩增如下：组装含有以下物质的50μL反应液：0.5μM引物A(SEQ ID NO:7)、0.5μM引物B(SEQ ID NO:9；5’-GTC AGT ACG TGT GCG CTT ATA G-3’)、10□L小珠溶液(上述)和25μL高保真2X Master Mix(New England Biolabs,Ipswich,MA USA)。将反应液在98℃下活化30s，然后热循环10次(98℃5s，65℃15s，72℃30s)，然后在72℃下最终延伸2m。使用High Prep PCR系统(MAGBIO GENOMICS,Gaithersburg,MD USA)根据制造商的方法由残余PCR组分提纯产生的DNA汇集物。

然后将提纯的DNA汇集物如下PCR扩增：组装含有以下物质的50μL反应液：0.5μM生物素-TEG-修饰的引物A(5’-生物素TEG/SEQ ID NO:7)、0.5μM TCO-修饰的引物B(SEQ IDNO:8)、10uL来自上述步骤的提纯扩增子和25μL高保真2X Master Mix(New EnglandBiolabs,Ipswich,MA USA)。反应在98℃下激活30s，然后热循环26次(98℃5s，65℃15s，72℃30s)，然后在72℃下最终延伸2m。使用High Prep PCR系统(MAGBIO GENOMICS,Gaithersburg,MD USA)根据制造商的方法由残余PCR组分提纯出产生的扩增子汇集物。使用Pippin HT(Sage Science,Inc.Beverly,MA,USA)1.5％琼脂糖盒、15C标记物和宽范围切割，对PCR汇集物提纯出所关注大小(1200bp)的条带。

使用以下方法使所扩增的生物素和TCO修饰的经富集的汇集物(上文)成为单链：使用Kingfisher自动化磁性颗粒处理器(Thermo Scientific,Inc.)进行洗涤、结合和DNA解链步骤。将 MyOne^TM链霉抗生物素蛋白C1磁珠(Thermo FisherScientific,Inc.)在200μL体积的1X Bind&Wash缓冲液(5mM Tris-HCl pH 7.5,0.5mMEDTA,1M NaCl,0.01％Tween-20)中洗涤一次。在1x Bind&Wash缓冲液存在下使0.5μg来自Pippin HT洗脱液的DNA与MyOne^TMC1磁珠结合。将含有捕获的DNA分子的磁珠在200μL 1XBind&Wash溶液中洗涤3x，在0.1X Bind&Wash溶液中洗涤1X，然后在IDTE(10mM Tris,pH8.0,0.1mM EDTA)中洗涤1X。然后将结合DNA的磁珠在轻缓搅动下在75μL 150mM NaOH中孵育30分钟，使生物素-标记的链结合在链霉抗生物素蛋白磁珠上，TCO-标记的链在游离溶液中。然后从NaOH溶液中除去磁珠和磁珠结合的DNA，仅留游离溶液——富集的汇集物中各扩增子的TCO-标记的链。通过加入1.1μL 1M Tris-HCl pH 8.0和6.25μL 1.25M乙酸，将各75μL NaOH,ssDNA溶液中和。然后，根据制造商的方案，将样品在40K MWC、0.5mL的Zeba^TMSpin脱盐柱(Thermo Scientific,Inc)中与IDTE(10mM Tris,pH 8.0,0.1mM EDTA)+0.01％Tween-20进行缓冲液交换。

然后使单链扩增子如下成为双链：组装含有如下的3x50μL反应液：0.5μM生物素-TEG-修饰的引物A(5’-生物素TEG/SEQ ID NO:7)、22.5μL来自上述步骤的单链扩增子和25μL 高保真2X Master Mix(New England Biolabs,Ipswich,MAUSA)。将反应液在98℃下活化60s，然后延伸1个循环(98℃下5s，65℃下60s，72℃下2m)。使用High Prep PCR系统(MAGBIO GENOMICS,Gaithersburg,MD USA)根据制造商的方法由残余PCR组分提纯产生的扩增子汇集物。

实施例6：包含前肽的多肽vs.成熟肽的编码序列的表达

在两个单独的PCR中使用模板A(SEQ ID NO:1，含有SEQ ID NO:2编码序列，编码SEQ ID NO:3多肽)，以产生编码(a)SEQ ID NO:3野生型蛋白酶的前肽形式(氨基酸1-269)或(b)SEQ ID NO:3野生型蛋白酶(氨基酸86-354)的成熟形式的扩增子。分别将正向引物A1(SEQ ID NO:10；5’-CAGAA CGTCA CTCTC TCTTC ACTAA TACGA CTCAC TATAG GGAGA CCACAAGAAG GAGAT ATACA TATGG CTGAA GAAGC AAAAG AAAAA-3’)用于前肽形式，正向引物A2(SEQ ID NO:11；5’-CAGAA CGTCA CTCTC TCTTC ACTAA TACGA CTCAC TATAG GGAGA CCACAAGAAG GAGAT ATACA TATGG CGCAA TCGGT ACCAT GG-3’)代替前肽形式用于成熟形式，而引物B(SEQ ID NO:12；5’-GCTCA CCTGG GCTAT GTATT AGTTA TTAAC GCGTT GCCGC TTCTG C-3’)在两个反应中均用作反向引物。反应在98℃下活化30s，然后热循环24次(98℃5s，65℃15s，72℃30s)，然后在72℃下最终延伸2m。使用Agencourt AMPure XP系统(BeckmanCoulter,Inc.,Indianapolis,IN USA)根据制造商的方法由残余PCR组分提纯产生的前肽扩增子(pro-amplicon)或成熟扩增子。使用体外蛋白质合成试剂盒(NewEngland Biolabs,Ipswich,MA USA)在冰上组装34μL体外转录/翻译(IVTT)反应液。IVTT反应液含有13.6μL 管A、2.72μL 二硫键增强剂、0.68μL鼠RNA酶抑制剂(#M0314)9.86μL 管B和6.8μL前肽扩增子或成熟扩增子。将IVTT反应液在16、25、30和37℃下孵育1h。孵育之后，检验反应的收率和表达的多肽的活性。

使用夹心ELISA对前肽形式和成熟多肽的收率进行如下测量：将对SEQ ID NO:3多肽有特异性的捕获抗体在11mL 1X PBS中以1:4000稀释。将100μL该稀释液加入到96孔white Greiner Lumitrac 600板(E&K Scientific#25074)的每个孔中，并在4℃下孵育过夜。次日，将所有板孔使用Tecan HydroFlex^TM三合一微板洗涤器用250μL 1X TBS-T(Tris-缓冲盐水：50mM Tris,150mM NaCl+0.05％Tween-20)洗涤。向每孔中加入100μL PierceSuperblock缓冲液(Thermo Fisher Scientific,Inc.#37353)，并在室温下孵育，同时在800rpm下震摇1h。如上所述将板洗涤，以除去Superblock缓冲液和未结合的抗体。在Ca-HEPES缓冲液(50mM HEPES+0.1mM CaCl₂，pH 7.6)中制作浓度为119、59.5、23.8、9.5、3.8、1.5、0.6和0.25pg/μL的SEQ ID NO:3多肽的标准曲线，同时将IVTT-表达的多肽在1X TBS-T+1mM PMSF(苯基甲磺酰氟，溶解于100％乙醇中)中稀释10X。将100μL体积的标准曲线(两份)和IVTT样品(三份)加入至板中，以与捕获抗体结合。将板在室温下孵育，同时在800rpm下震摇1h。如上所述，将未结合的试剂用250μL 1X TBS-T洗涤3X。将对多肽SEQ ID NO:3有特异性的HRP-缀合检测抗体在11mL 1X PBS中以1:8000稀释，并将100μL该稀释液加入到各个孔中。将板在室温下孵育，同时在800rpm下震摇1h。通过如上所述用250μL 1X TBS-T洗涤3X，除去未结合的检测抗体。通过将Luminol增强子溶液用提供的稳定过氧化物溶液1:1稀释，制成11mL用于HRP的工作底物SuperSignal ELISA Pico Luminol增强子(ThermoFisher Scientific,Inc.#37070)。将100μL该稀释液加入到每个孔中。通过在800rpm下震摇1m，实现信号显影。使用Biotek Synergy^TMH1酶标仪测量每个孔的总发光。按相对发光单位(RLU)，将5PL曲线拟合应用于标准曲线。由相同浓度范围的标准品，使用曲线拟合计算每个样品的收率。

使用蛋白酶检验试剂盒(Thermo Fisher Scientific,Inc.#E6638)如下测量IVTT-表达的多肽的活性：将冻干的称作EnzChek-Green的底物用200μL 1X PBS重建至浓度1mg/mL，并通过涡旋混合。在琥珀色微型管中，将该1mg/mL储液(stock)用Ca-HEPES以1:25稀释，用于40ng/μL的2X工作储液。准备浓度为595、238、95.2、38.1、15.2、6.1、2.4和1pg/μL的提纯的酶的标准曲线。将IVTT样品使用Ca-HEPES稀释5X。将10μL EnzChek-Green蛋白酶底物等分至384-孔黑色低容量板(Corning#3676)的每个孔中，向其中立即加入10μLIVTT样品，一式二份，并通过移液混合。IVTT样品的最终稀释为10X，EnzChek-Green的检验浓度为20ng/μL。在Biotek Synergy^TMH1上在25℃下在35m范围以3m间隔测量各样品的相对荧光单位(RFU)，激发/发射在493/514nm。计算标准曲线上每个点RFU随时间的变化“平均速率”，并应用5-PL曲线拟合。测量每个样品的平均速率，由相同浓度范围的标准品使用曲线拟合计算样品浓度。

IVTT-表达的前肽形式和成熟蛋白酶的收率和活性显示于表3。注意到，与含有前肽的蛋白酶相比，成熟多肽的收率和活性均显著较低，低到(几乎在图中不可见)。

实施例7：使用近端vs.远端生物素标签回收释放的DNA

进行两项分别的PCR，以产生含有近端或远端生物素标签的DNA扩增子。两种扩增子自模板A(SEQ ID NO:4，含有SEQ ID NO:5的编码序列，编码SEQ ID NO:6的蛋白酶)如下产生：组装含有以下物质的50μL反应液：用于近端生物素标签序列的0.5μM引物A1(SEQ IDNO:13；5’-CAGAA CGTCA CTCTC TCTTC AC-3’)和0.5μM TCO-生物素-TEG-修饰的引物B1(-TCO/Sp-C18/生物素TEG/SEQ ID NO:14；5’-AAAAA ACGGA GCGAA CCACT TATC-3’)；或者用于远端生物素标签序列的0.5μM生物素-TEG-修饰的引物A2(5’-生物素TEG/SEQ ID NO:13)和0.5μM TCO-生物素-TEG-修饰的引物B2(5’-TCO/Sp-C18/BioTEG/SEQ ID NO:14)，1pg模板A和25μL 高保真2X Master Mix(New England Biolabs,Ipswich,MA USA)。反应在98℃下活化30s，然后热循环27次(98℃5s，65℃10s，72℃20s)，然后在72℃下最终延伸2m。使用Agencourt AMPure XP系统(Beckman Coulter,Inc.,Indianapolis,IN USA)根据制造商的方法由残余PCR组分纯化出生物素化扩增子，然后如上所述将其与覆有α-酪蛋白的微球缀合。

对于各个近端-和远端-生物素化的扩增子，如下在冰上组装两种独立的250μL反应液：溶于50mM HEPES pH 7.6的232.8μL 2mg/mL BSA、2μg随机阻断DNA、浓度96pg/μL的10.4μL提纯的Savinase酶和4.8μL微球结合扩增子。立即将来自各个反应液的125μL加入至375μL室温3M Novec HFE-7500、2％Pico-Surf 1(The Dolomite Centre Ltd.,Royston,UK)，并如实施例4所述进行乳化。将乳液和剩余水相反应液体积(用于计算％DNA回收率时称作“输入”)在30℃下孵育1h，以消化α-酪蛋白底物，并释放偶联的扩增子。孵育之后，如上所述萃取各个乳液的水性部分。如上所述，将输入样品中的消化DNA和回收的水性部分捕获在覆有链霉抗生物素蛋白的磁珠上，并用IDTE(10mM Tris,pH 8.0+0.1mM EDTA,Integrated DNA Technologies,Inc.,Coralville,IA USA)洗涤100X。

捕获的DNA分子的浓度通过qPCR如下测量：组装含有以下物质的15μL反应液：0.5μM引物A(SEQ ID NO:15；5’-GGCAT GCACG TTGCT AATTT-3’)和0.5μM引物B(SEQ ID NO:16；5’-GCTAC AACAA GAACG CCTCT A-3’)、5μL稀释的磁珠结合DNA和7.5μLSsoAdvanced^TMUniversal Green Supermix(Bio-Rad,Hercules,CA USA)。将反应液在95℃下活化30s，热循环45次(95℃5s，60℃5s)，然后进行解链曲线测量(95℃5s，65℃1m，连续增加至95℃)，最终冷却至48℃2m。用于qPCR的热循环和 Green信号测量使用480II(Roche,Basel,Switzerland)进行。

如图4所示，与具有远端生物素亲和标签的增强子相比较，具有远端亲和标签的增强子产生的差异捕获显著更高。

实施例8：卵抑制剂存在下的乳液形成和多肽表达

在卵抑制剂的存在下进行实施例1-4的步骤。遵照Davis,Zahnley,and Donavan(1969,Biochemistry 8:2044-2053)的方法自鸡蛋清分离卵抑制剂，至纯度>75％，如通过SDS-PAGE测定。使用DNaseAlert^TM试剂盒(#11-02-01-04,Integrated DNA Technologies,Inc.,Coralville,Iowa USA)根据制造商的方法确定制剂不含核酸酶。

将分离的卵抑制剂在50mM HEPES中稀释，并加入至IVTT反应混合物中，如上所述进行处理，但有如下变更：将与扩增子A和扩增子B缀合的微球汇集，使得大约20％源自SEQID NO:1(编码野生型蛋白酶)，80％源自SEQ ID NO:4(编码无催化活性的蛋白酶)。除实施例4中的标准IVTT组分以外，乳液水相还含有0、250、500、1000、2000、4000或8000pg/μL卵抑制剂。如实施例5所述将乳液在PMSF的存在下破坏并回收之前，将所有乳液在30℃下孵育2h，然后40℃下孵育6h。

释出扩增子A的量通过qPCR测量如下：组装含有以下物质的15μL反应液：0.5μM引物A(SEQ ID NO:15)和0.5μM引物B(SEQ ID NO:16)、5μL 100X稀释的回收DNA和7.5μLSsoAdvanced^TMUniversal Green Supermix(Bio-Rad,Hercules,CA USA)。反应液在95℃下活化30s，热循环45次(95℃5s，60℃5s)，然后进行解链曲线测量(95℃5s，65℃1m，连续增加至95℃)，最终冷却至48℃2m。用于qPCR的热循环和 Green信号测量使用480II(Roche,Basel,Switzerland)进行。如图5所示，与不存在卵抑制剂时释放的量相比较，1000pg/μL的卵抑制剂使得释放的扩增子A的量降低至68％。

尽管前文出于清楚理解的目的通过说明和实例进行了一定程度详细的说明，但本领域技术人员显而易见的是，可以实施任何等同的方面或修改方式。因此，说明书和实施例不应当理解成对本发明的范围加以限定。

序列表

<110> 诺维信公司

R·布拉扎伊

N·托列洛

C·埃姆里克

<120> 选择具有蛋白酶活性的酶的方法

<130> 13103-WO-PCT

<160> 29

<170> PatentIn 版本 3.5

<210> 1

<211> 1156

<212> DNA

<213> 迟缓芽孢杆菌（Bacillus lentus）

<400> 1

cggtttcttg gcctccatat actaatacga ctcactatag ggagaccaca agaaggagat 60

atacatatgg ctgaagaagc aaaagaaaaa tatttaattg gctttaatga gcaggaagct 120

gtcagtgagt ttgtagaaca agtagaggca aatgacgagg tcgccattct ctctgaggaa 180

gaggaagtcg aaattgaatt gcttcatgaa tttgaaacga ttcctgtttt atccgttgag 240

ttaagcccag aagatgtgga cgcgcttgaa ctcgatccag cgatttctta tattgaagag 300

gatgcagaag taacgacaat ggcgcaatcg gtaccatggg gaattagccg tgtgcaagcc 360

ccagctgccc ataaccgtgg attgacaggt tctggtgtaa aagttgctgt cctcgataca 420

gggatatcca ctcatccaga tctaaatatt cgtggtggcg caagctttgt accaggggaa 480

ccgtcgactc aagatgggaa tgggcatggc acgcatgtgg ccgggacgat cgctgcttta 540

aacaattcga ttggcgttct tggcgtagct cctagcgctg agctatacgc tgttaaagtc 600

ctaggggcga gcggttcagg ttcggtcagc tcgattgccc aaggattgga atgggcaggg 660

aacaatggca tgcacgttgc taatttgagt ttaggaagcc cttcgccaag tgccacactc 720

gagcaagctg ttaatagcgc gacttctaga ggcgttcttg ttgtagcggc atctgggaat 780

tcaggtgcag gctcaatcag ctatccggcg cgctatgcga acgcaatggc agtcggagct 840

actgatcaaa acaacaaccg cgctagcttt tcacagtatg gcgcaggcct tgacattgtc 900

gcacccgggg taaacgtgca gagcacatac ccaggttcaa catatgccag cttaaacggt 960

acatcgatgg ctactcctca tgttgcaggt gcggccgccc ttgttaaaca aaagaaccca 1020

tcttggtcta atgtacaaat tcgaaatcat ctaaagaata cggcaactag tttaggaagc 1080

acgaacttgt atggaagcgg acttgttaac gcagaagcgg caacgcgtta ataactataa 1140

gcgcacacgt actgac 1156

<210> 2

<211> 1065

<212> DNA

<213> 迟缓芽孢杆菌

<400> 2

atggctgaag aagcaaaaga aaaatattta attggcttta atgagcagga agctgtcagt 60

gagtttgtag aacaagtaga ggcaaatgac gaggtcgcca ttctctctga ggaagaggaa 120

gtcgaaattg aattgcttca tgaatttgaa acgattcctg ttttatccgt tgagttaagc 180

ccagaagatg tggacgcgct tgaactcgat ccagcgattt cttatattga agaggatgca 240

gaagtaacga caatggcgca atcggtacca tggggaatta gccgtgtgca agccccagct 300

gcccataacc gtggattgac aggttctggt gtaaaagttg ctgtcctcga tacagggata 360

tccactcatc cagatctaaa tattcgtggt ggcgcaagct ttgtaccagg ggaaccgtcg 420

actcaagatg ggaatgggca tggcacgcat gtggccggga cgatcgctgc tttaaacaat 480

tcgattggcg ttcttggcgt agctcctagc gctgagctat acgctgttaa agtcctaggg 540

gcgagcggtt caggttcggt cagctcgatt gcccaaggat tggaatgggc agggaacaat 600

ggcatgcacg ttgctaattt gagtttagga agcccttcgc caagtgccac actcgagcaa 660

gctgttaata gcgcgacttc tagaggcgtt cttgttgtag cggcatctgg gaattcaggt 720

gcaggctcaa tcagctatcc ggcgcgctat gcgaacgcaa tggcagtcgg agctactgat 780

caaaacaaca accgcgctag cttttcacag tatggcgcag gccttgacat tgtcgcaccc 840

ggggtaaacg tgcagagcac atacccaggt tcaacatatg ccagcttaaa cggtacatcg 900

atggctactc ctcatgttgc aggtgcggcc gcccttgtta aacaaaagaa cccatcttgg 960

tctaatgtac aaattcgaaa tcatctaaag aatacggcaa ctagtttagg aagcacgaac 1020

ttgtatggaa gcggacttgt taacgcagaa gcggcaacgc gttaa 1065

<210> 3

<211> 354

<212> PRT

<213> 迟缓芽孢杆菌

<400> 3

Met Ala Glu Glu Ala Lys Glu Lys Tyr Leu Ile Gly Phe Asn Glu Gln

1 5 10 15

Glu Ala Val Ser Glu Phe Val Glu Gln Val Glu Ala Asn Asp Glu Val

20 25 30

Ala Ile Leu Ser Glu Glu Glu Glu Val Glu Ile Glu Leu Leu His Glu

35 40 45

Phe Glu Thr Ile Pro Val Leu Ser Val Glu Leu Ser Pro Glu Asp Val

50 55 60

Asp Ala Leu Glu Leu Asp Pro Ala Ile Ser Tyr Ile Glu Glu Asp Ala

65 70 75 80

Glu Val Thr Thr Met Ala Gln Ser Val Pro Trp Gly Ile Ser Arg Val

85 90 95

Gln Ala Pro Ala Ala His Asn Arg Gly Leu Thr Gly Ser Gly Val Lys

100 105 110

Val Ala Val Leu Asp Thr Gly Ile Ser Thr His Pro Asp Leu Asn Ile

115 120 125

Arg Gly Gly Ala Ser Phe Val Pro Gly Glu Pro Ser Thr Gln Asp Gly

130 135 140

Asn Gly His Gly Thr His Val Ala Gly Thr Ile Ala Ala Leu Asn Asn

145 150 155 160

Ser Ile Gly Val Leu Gly Val Ala Pro Ser Ala Glu Leu Tyr Ala Val

165 170 175

Lys Val Leu Gly Ala Ser Gly Ser Gly Ser Val Ser Ser Ile Ala Gln

180 185 190

Gly Leu Glu Trp Ala Gly Asn Asn Gly Met His Val Ala Asn Leu Ser

195 200 205

Leu Gly Ser Pro Ser Pro Ser Ala Thr Leu Glu Gln Ala Val Asn Ser

210 215 220

Ala Thr Ser Arg Gly Val Leu Val Val Ala Ala Ser Gly Asn Ser Gly

225 230 235 240

Ala Gly Ser Ile Ser Tyr Pro Ala Arg Tyr Ala Asn Ala Met Ala Val

245 250 255

Gly Ala Thr Asp Gln Asn Asn Asn Arg Ala Ser Phe Ser Gln Tyr Gly

260 265 270

Ala Gly Leu Asp Ile Val Ala Pro Gly Val Asn Val Gln Ser Thr Tyr

275 280 285

Pro Gly Ser Thr Tyr Ala Ser Leu Asn Gly Thr Ser Met Ala Thr Pro

290 295 300

His Val Ala Gly Ala Ala Ala Leu Val Lys Gln Lys Asn Pro Ser Trp

305 310 315 320

Ser Asn Val Gln Ile Arg Asn His Leu Lys Asn Thr Ala Thr Ser Leu

325 330 335

Gly Ser Thr Asn Leu Tyr Gly Ser Gly Leu Val Asn Ala Glu Ala Ala

340 345 350

Thr Arg

<210> 4

<211> 1156

<212> DNA

<213> 迟缓芽孢杆菌

<400> 4

cggtttcttg gcctccatat actaatacga ctcactatag ggagaccaca agaaggagat 60

atacatatgg ctgaagaagc aaaagaaaaa tatttaattg gctttaatga gcaggaagct 120

gtcagtgagt ttgtagaaca agtagaggca aatgacgagg tcgccattct ctctgaggaa 180

gaggaagtcg aaattgaatt gcttcatgaa tttgaaacga ttcctgtttt atccgttgag 240

ttaagcccag aagatgtgga cgcgcttgaa ctcgatccag cgatttctta tattgaagag 300

gatgcagaag taacgacaat ggcgcaatcg gtaccatggg gaattagccg tgtgcaagcc 360

ccagctgccc ataaccgtgg attgacaggt tctggtgtaa aagttgctgt cctcgataca 420

gggatatcca ctcatccaga tctaaatatt cgtggtggcg caagctttgt accaggggaa 480

ccgtcgactc aagatgggaa tgggcatggc acgcatgtgg ccgggacgat cgctgcttta 540

aacaattcga ttggcgttct tggcgtagct cctagcgctg agctatacgc tgttaaagtc 600

ctaggggcga gcggttcagg ttcggtcagc tcgattgccc aaggattgga atgggcaggg 660

aacaatggca tgcacgttgc taatttgagt ttaggaagcc cttcgccaag tgccacactc 720

gagcaagctg ttaatagcgc gacttctaga ggcgttcttg ttgtagcggc atctgggaat 780

tcaggtgcag gctcaatcag ctatccggcg cgctatgcga acgcaatggc agtcggagct 840

actgatcaaa acaacaaccg cgctagcttt tcacagtatg gcgcaggcct tgacattgtc 900

gcacccgggg taaacgtgca gagcacatac ccaggttcaa catatgccag cttaaacggt 960

acagcaatgg ctactcctca tgttgcaggt gcggccgccc ttgttaaaca aaagaaccca 1020

tcttggtcta atgtacaaat tcgaaatcat ctaaagaata cggcaactag tttaggaagc 1080

acgaacttgt atggaagcgg acttgttaac gcagaagcgg caacgcgtta ataactataa 1140

gcgcacacgt actgac 1156

<210> 5

<211> 941

<212> DNA

<213> 迟缓芽孢杆菌

<400> 5

atggctgaag aagcaaaaga aaaatattta attggcttta atgagcagga agctgtcagt 60

gagtttgtag aacaagtaga ggcaaatgac gaggtcgcca ttctctctga ggaagaggaa 120

gtcgaaattg aattgcttca tgaatttgaa acgattcctg ttttatccgt tgagttaagc 180

ccagaagatg tggacgcgct tgaactcgat ccagcgattt cttatattga agaggatgca 240

gaagtaacga caatggcgca atcggtacca tggggaatta gccgtgtgca agccccagct 300

gcccataacc gtggattgac aggttctggt gtaaaagttg ctgtcctcga tacagggata 360

tccactcatc cagatctaaa tattcgtggt ggcgcaagct ttgtaccagg ggaaccgtcg 420

actcaagatg ggaatgggca tggcacgcat gtggccggga cgatcgctgc tttaaacaat 480

tcgattggcg ttcttggcgt agctcctagc gctgagctat acgctgttaa agtcctaggg 540

gcgagcggtt caggttcggt cagctcgatt gcccaaggat tggaatgggc agggaacaat 600

ggcatgcacg ttgctaattt gagtttagga agcccttcgc caagtgccac actcgagcaa 660

gctgttaata gcgcgacttc tagaggcgtt cttgttgtag cggcatctgg gaattcaggt 720

gcaggctcaa tcagctatcc ggcgcgctat gcgaacgcaa tggcagtcgg agctactgat 780

caaaacaaca accgcgctag cttttcacag tatggcgcag gccttgacat tgtcgcaccc 840

ggggtaaacg tgcagagcac atacccaggt tcaacatatg ccagcttaaa cggtacagca 900

atggctactc ctcatgttgc aggtgcggcc gcccttgtta a 941

<210> 6

<211> 312

<212> PRT

<213> 迟缓芽孢杆菌

<400> 6

Met Ala Glu Glu Ala Lys Glu Lys Tyr Leu Ile Gly Phe Asn Glu Gln

1 5 10 15

Glu Ala Val Ser Glu Phe Val Glu Gln Val Glu Ala Asn Asp Glu Val

20 25 30

Ala Ile Leu Ser Glu Glu Glu Glu Val Glu Ile Glu Leu Leu His Glu

35 40 45

Phe Glu Thr Ile Pro Val Leu Ser Val Glu Leu Ser Pro Glu Asp Val

50 55 60

Asp Ala Leu Glu Leu Asp Pro Ala Ile Ser Tyr Ile Glu Glu Asp Ala

65 70 75 80

Glu Val Thr Thr Met Ala Gln Ser Val Pro Trp Gly Ile Ser Arg Val

85 90 95

Gln Ala Pro Ala Ala His Asn Arg Gly Leu Thr Gly Ser Gly Val Lys

100 105 110

Val Ala Val Leu Asp Thr Gly Ile Ser Thr His Pro Asp Leu Asn Ile

115 120 125

Arg Gly Gly Ala Ser Phe Val Pro Gly Glu Pro Ser Thr Gln Asp Gly

130 135 140

Asn Gly His Gly Thr His Val Ala Gly Thr Ile Ala Ala Leu Asn Asn

145 150 155 160

Ser Ile Gly Val Leu Gly Val Ala Pro Ser Ala Glu Leu Tyr Ala Val

165 170 175

Lys Val Leu Gly Ala Ser Gly Ser Gly Ser Val Ser Ser Ile Ala Gln

180 185 190

Gly Leu Glu Trp Ala Gly Asn Asn Gly Met His Val Ala Asn Leu Ser

195 200 205

Leu Gly Ser Pro Ser Pro Ser Ala Thr Leu Glu Gln Ala Val Asn Ser

210 215 220

Ala Thr Ser Arg Gly Val Leu Val Val Ala Ala Ser Gly Asn Ser Gly

225 230 235 240

Ala Gly Ser Ile Ser Tyr Pro Ala Arg Tyr Ala Asn Ala Met Ala Val

245 250 255

Gly Ala Thr Asp Gln Asn Asn Asn Arg Ala Ser Phe Ser Gln Tyr Gly

260 265 270

Ala Gly Leu Asp Ile Val Ala Pro Gly Val Asn Val Gln Ser Thr Tyr

275 280 285

Pro Gly Ser Thr Tyr Ala Ser Leu Asn Gly Thr His Gly Tyr Ser Ser

290 295 300

Cys Cys Arg Cys Gly Arg Pro Cys

305 310

<210> 7

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 7

cggtttcttg gcctccatat ac 22

<210> 8

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 8

aagtcagtac gtgtgcgctt atag 24

<210> 9

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 9

gtcagtacgt gtgcgcttat ag 22

<210> 10

<211> 90

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 10

cagaacgtca ctctctcttc actaatacga ctcactatag ggagaccaca agaaggagat 60

atacatatgg ctgaagaagc aaaagaaaaa 90

<210> 11

<211> 87

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 11

cagaacgtca ctctctcttc actaatacga ctcactatag ggagaccaca agaaggagat 60

atacatatgg cgcaatcggt accatgg 87

<210> 12

<211> 46

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 12

gctcacctgg gctatgtatt agttattaac gcgttgccgc ttctgc 46

<210> 13

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 13

cagaacgtca ctctctcttc ac 22

<210> 14

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 14

aaaaaacgga gcgaaccact tatc 24

<210> 15

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 15

ggcatgcacg ttgctaattt 20

<210> 16

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 16

gctacaacaa gaacgcctct a 21

<210> 17

<211> 275

<212> PRT

<213> 解淀粉芽孢杆菌（Bacillus amyloliquefaciens）

<400> 17

Ala Gln Ser Val Pro Tyr Gly Val Ser Gln Ile Lys Ala Pro Ala Leu

1 5 10 15

His Ser Gln Gly Tyr Thr Gly Ser Asn Val Lys Val Ala Val Ile Asp

20 25 30

Ser Gly Ile Asp Ser Ser His Pro Asp Leu Lys Val Ala Gly Gly Ala

35 40 45

Ser Met Val Pro Ser Glu Thr Asn Pro Phe Gln Asp Asn Asn Ser His

50 55 60

Gly Thr His Val Ala Gly Thr Val Ala Ala Leu Asn Asn Ser Ile Gly

65 70 75 80

Val Leu Gly Val Ala Pro Ser Ala Ser Leu Tyr Ala Val Lys Val Leu

85 90 95

Gly Ala Asp Gly Ser Gly Gln Tyr Ser Trp Ile Ile Asn Gly Ile Glu

100 105 110

Trp Ala Ile Ala Asn Asn Met Asp Val Ile Asn Met Ser Leu Gly Gly

115 120 125

Pro Ser Gly Ser Ala Ala Leu Lys Ala Ala Val Asp Lys Ala Val Ala

130 135 140

Ser Gly Val Val Val Val Ala Ala Ala Gly Asn Glu Gly Thr Ser Gly

145 150 155 160

Ser Ser Ser Thr Val Gly Tyr Pro Gly Lys Tyr Pro Ser Val Ile Ala

165 170 175

Val Gly Ala Val Asp Ser Ser Asn Gln Arg Ala Ser Phe Ser Ser Val

180 185 190

Gly Pro Glu Leu Asp Val Met Ala Pro Gly Val Ser Ile Gln Ser Thr

195 200 205

Leu Pro Gly Asn Lys Tyr Gly Ala Tyr Asn Gly Thr Ser Met Ala Ser

210 215 220

Pro His Val Ala Gly Ala Ala Ala Leu Ile Leu Ser Lys His Pro Asn

225 230 235 240

Trp Thr Asn Thr Gln Val Arg Ser Ser Leu Glu Asn Thr Thr Thr Lys

245 250 255

Leu Gly Asp Ser Phe Tyr Tyr Gly Lys Gly Leu Ile Asn Val Gln Ala

260 265 270

Ala Ala Gln

275

<210> 18

<211> 275

<212> PRT

<213> 枯草芽孢杆菌（Bacillus subtilis）

<400> 18

Ala Gln Ser Val Pro Tyr Gly Ile Ser Gln Ile Lys Ala Pro Ala Leu

1 5 10 15

His Ser Gln Gly Tyr Thr Gly Ser Asn Val Lys Val Ala Val Ile Asp

20 25 30

Ser Gly Ile Asp Ser Ser His Pro Asp Leu Asn Val Arg Gly Gly Ala

35 40 45

Ser Phe Val Pro Ser Glu Thr Asn Pro Tyr Gln Asp Gly Ser Ser His

50 55 60

Gly Thr His Val Ala Gly Thr Ile Ala Ala Leu Asn Asn Ser Ile Gly

65 70 75 80

Val Leu Gly Val Ser Pro Ser Ala Ser Leu Tyr Ala Val Lys Val Leu

85 90 95

Asp Ser Thr Gly Ser Gly Gln Tyr Ser Trp Ile Ile Asn Gly Ile Glu

100 105 110

Trp Ala Ile Ser Asn Asn Met Asp Val Ile Asn Met Ser Leu Gly Gly

115 120 125

Pro Thr Gly Ser Thr Ala Leu Lys Thr Val Val Asp Lys Ala Val Ser

130 135 140

Ser Gly Ile Val Val Ala Ala Ala Ala Gly Asn Glu Gly Ser Ser Gly

145 150 155 160

Ser Thr Ser Thr Val Gly Tyr Pro Ala Lys Tyr Pro Ser Thr Ile Ala

165 170 175

Val Gly Ala Val Asn Ser Ser Asn Gln Arg Ala Ser Phe Ser Ser Ala

180 185 190

Gly Ser Glu Leu Asp Val Met Ala Pro Gly Val Ser Ile Gln Ser Thr

195 200 205

Leu Pro Gly Gly Thr Tyr Gly Ala Tyr Asn Gly Thr Ser Met Ala Thr

210 215 220

Pro His Val Ala Gly Ala Ala Ala Leu Ile Leu Ser Lys His Pro Thr

225 230 235 240

Trp Thr Asn Ala Gln Val Arg Asp Arg Leu Glu Ser Thr Ala Thr Tyr

245 250 255

Leu Gly Asn Ser Phe Tyr Tyr Gly Lys Gly Leu Ile Asn Val Gln Ala

260 265 270

Ala Ala Gln

275

<210> 19

<211> 274

<212> PRT

<213> 枯草芽孢杆菌

<400> 19

Ala Gln Thr Val Pro Tyr Gly Ile Pro Leu Ile Lys Ala Asp Lys Val

1 5 10 15

Gln Ala Gln Gly Tyr Lys Gly Ala Asn Val Lys Val Gly Ile Ile Asp

20 25 30

Thr Gly Ile Ala Ala Ser His Thr Asp Leu Lys Val Val Gly Gly Ala

35 40 45

Ser Phe Val Ser Gly Glu Ser Tyr Asn Thr Asp Gly Asn Gly His Gly

50 55 60

Thr His Val Ala Gly Thr Val Ala Ala Leu Asp Asn Thr Thr Gly Val

65 70 75 80

Leu Gly Val Ala Pro Asn Val Ser Leu Tyr Ala Ile Lys Val Leu Asn

85 90 95

Ser Ser Gly Ser Gly Thr Tyr Ser Ala Ile Val Ser Gly Ile Glu Trp

100 105 110

Ala Thr Gln Asn Gly Leu Asp Val Ile Asn Met Ser Leu Gly Gly Pro

115 120 125

Ser Gly Ser Thr Ala Leu Lys Gln Ala Val Asp Lys Ala Tyr Ala Ser

130 135 140

Gly Ile Val Val Val Ala Ala Ala Gly Asn Ser Gly Ser Ser Gly Ser

145 150 155 160

Gln Asn Thr Ile Gly Tyr Pro Ala Lys Tyr Asp Ser Val Ile Ala Val

165 170 175

Gly Ala Val Asp Ser Asn Lys Asn Arg Ala Ser Phe Ser Ser Val Gly

180 185 190

Ala Glu Leu Glu Val Met Ala Pro Gly Val Ser Val Tyr Ser Thr Tyr

195 200 205

Pro Ser Asn Thr Tyr Thr Ser Leu Asn Gly Thr Ser Met Ala Ser Pro

210 215 220

His Val Ala Gly Ala Ala Ala Leu Ile Leu Ser Lys Tyr Pro Thr Leu

225 230 235 240

Ser Ala Ser Gln Val Arg Asn Arg Leu Ser Ser Thr Ala Thr Asn Leu

245 250 255

Gly Asp Ser Phe Tyr Tyr Gly Lys Gly Leu Ile Asn Val Glu Ala Ala

260 265 270

Ala Gln

<210> 20

<211> 274

<212> PRT

<213> 地衣芽胞杆菌（Bacillus licheniformis）

<400> 20

Ala Gln Thr Val Pro Tyr Gly Ile Pro Leu Ile Lys Ala Asp Lys Val

1 5 10 15

Gln Ala Gln Gly Phe Lys Gly Ala Asn Val Lys Val Ala Val Leu Asp

20 25 30

Thr Gly Ile Gln Ala Ser His Pro Asp Leu Asn Val Val Gly Gly Ala

35 40 45

Ser Phe Val Ala Gly Glu Ala Tyr Asn Thr Asp Gly Asn Gly His Gly

50 55 60

Thr His Val Ala Gly Thr Val Ala Ala Leu Asp Asn Thr Thr Gly Val

65 70 75 80

Leu Gly Val Ala Pro Ser Val Ser Leu Tyr Ala Val Lys Val Leu Asn

85 90 95

Ser Ser Gly Ser Gly Thr Tyr Ser Gly Ile Val Ser Gly Ile Glu Trp

100 105 110

Ala Thr Thr Asn Gly Met Asp Val Ile Asn Met Ser Leu Gly Gly Pro

115 120 125

Ser Gly Ser Thr Ala Met Lys Gln Ala Val Asp Asn Ala Tyr Ala Arg

130 135 140

Gly Val Val Val Val Ala Ala Ala Gly Asn Ser Gly Ser Ser Gly Asn

145 150 155 160

Thr Asn Thr Ile Gly Tyr Pro Ala Lys Tyr Asp Ser Val Ile Ala Val

165 170 175

Gly Ala Val Asp Ser Asn Ser Asn Arg Ala Ser Phe Ser Ser Val Gly

180 185 190

Ala Glu Leu Glu Val Met Ala Pro Gly Ala Gly Val Tyr Ser Thr Tyr

195 200 205

Pro Thr Ser Thr Tyr Ala Thr Leu Asn Gly Thr Ser Met Ala Ser Pro

210 215 220

His Val Ala Gly Ala Ala Ala Leu Ile Leu Ser Lys His Pro Asn Leu

225 230 235 240

Ser Ala Ser Gln Val Arg Asn Arg Leu Ser Ser Thr Ala Thr Tyr Leu

245 250 255

Gly Ser Ser Phe Tyr Tyr Gly Lys Gly Leu Ile Asn Val Glu Ala Ala

260 265 270

Ala Gln

<210> 21

<211> 268

<212> PRT

<213> 迟缓芽孢杆菌

<400> 21

Gln Thr Val Pro Trp Gly Ile Ser Phe Ile Asn Thr Gln Gln Ala His

1 5 10 15

Asn Arg Gly Ile Phe Gly Asn Gly Ala Arg Val Ala Val Leu Asp Thr

20 25 30

Gly Ile Ala Ser His Pro Asp Leu Arg Ile Ala Gly Gly Ala Ser Phe

35 40 45

Ile Ser Ser Glu Pro Ser Tyr His Asp Asn Asn Gly His Gly Thr His

50 55 60

Val Ala Gly Thr Ile Ala Ala Leu Asn Asn Ser Ile Gly Val Leu Gly

65 70 75 80

Val Arg Pro Ser Ala Asp Leu Tyr Ala Leu Lys Val Leu Asp Arg Asn

85 90 95

Gly Ser Gly Ser Leu Ala Ser Val Ala Gln Gly Ile Glu Trp Ala Ile

100 105 110

Asn Asn Asn Met His Ile Ile Asn Met Ser Leu Gly Ser Thr Ser Gly

115 120 125

Ser Ser Thr Leu Glu Leu Ala Val Asn Arg Ala Asn Asn Ala Gly Ile

130 135 140

Leu Leu Val Gly Ala Ala Gly Asn Thr Gly Arg Gln Gly Val Asn Tyr

145 150 155 160

Pro Ala Arg Tyr Ser Gly Val Met Ala Val Ala Ala Val Asp Gln Asn

165 170 175

Gly Gln Arg Ala Ser Phe Ser Thr Tyr Gly Pro Glu Ile Glu Ile Ser

180 185 190

Ala Pro Gly Val Asn Val Asn Ser Thr Tyr Thr Gly Asn Arg Tyr Val

195 200 205

Ser Leu Ser Gly Thr Ser Met Ala Thr Pro His Val Ala Gly Val Ala

210 215 220

Ala Leu Val Lys Ser Arg Tyr Pro Ser Tyr Thr Asn Asn Gln Ile Arg

225 230 235 240

Gln Arg Ile Asn Gln Thr Ala Thr Tyr Leu Gly Ser Pro Ser Leu Tyr

245 250 255

Gly Asn Gly Leu Val His Ala Gly Arg Ala Thr Gln

260 265

<210> 22

<211> 269

<212> PRT

<213> 嗜碱芽孢杆菌（Bacillus alcalophilus）

<400> 22

Ala Gln Ser Val Pro Trp Gly Ile Ser Arg Val Gln Ala Pro Ala Ala

1 5 10 15

His Asn Arg Gly Leu Thr Gly Ser Gly Val Lys Val Ala Val Leu Asp

20 25 30

Thr Gly Ile Ser Thr His Pro Asp Leu Asn Ile Arg Gly Gly Ala Ser

35 40 45

Phe Val Pro Gly Glu Pro Ser Thr Gln Asp Gly Asn Gly His Gly Thr

50 55 60

His Val Ala Gly Thr Ile Ala Ala Leu Asn Asn Ser Ile Gly Val Leu

65 70 75 80

Gly Val Ala Pro Asn Ala Glu Leu Tyr Ala Val Lys Val Leu Gly Ala

85 90 95

Ser Gly Ser Gly Ser Val Ser Ser Ile Ala Gln Gly Leu Glu Trp Ala

100 105 110

Gly Asn Asn Gly Met His Val Ala Asn Leu Ser Leu Gly Ser Pro Ser

115 120 125

Pro Ser Ala Thr Leu Glu Gln Ala Val Asn Ser Ala Thr Ser Arg Gly

130 135 140

Val Leu Val Val Ala Ala Ser Gly Asn Ser Gly Ala Gly Ser Ile Ser

145 150 155 160

Tyr Pro Ala Arg Tyr Ala Asn Ala Met Ala Val Gly Ala Thr Asp Gln

165 170 175

Asn Asn Asn Arg Ala Ser Phe Ser Gln Tyr Gly Ala Gly Leu Asp Ile

180 185 190

Val Ala Pro Gly Val Asn Val Gln Ser Thr Tyr Pro Gly Ser Thr Tyr

195 200 205

Ala Ser Leu Asn Gly Thr Ser Met Ala Thr Pro His Val Ala Gly Ala

210 215 220

Ala Ala Leu Val Lys Gln Lys Asn Pro Ser Trp Ser Asn Val Gln Ile

225 230 235 240

Arg Asn His Leu Lys Asn Thr Ala Thr Ser Leu Gly Ser Thr Asn Leu

245 250 255

Tyr Gly Ser Gly Leu Val Asn Ala Glu Ala Ala Thr Arg

260 265

<210> 23

<211> 268

<212> PRT

<213> 芽孢杆菌 YaB

<400> 23

Gln Thr Val Pro Trp Gly Ile Asn Arg Val Gln Ala Pro Ile Ala Gln

1 5 10 15

Ser Arg Gly Phe Thr Gly Thr Gly Val Arg Val Ala Val Leu Asp Thr

20 25 30

Gly Ile Ser Asn His Ala Asp Leu Arg Ile Arg Gly Gly Ala Ser Phe

35 40 45

Val Pro Gly Glu Pro Asn Ile Ser Asp Gly Asn Gly His Gly Thr Gln

50 55 60

Val Ala Gly Thr Ile Ala Ala Leu Asn Asn Ser Ile Gly Val Leu Gly

65 70 75 80

Val Ala Pro Asn Val Asp Leu Tyr Gly Val Lys Val Leu Gly Ala Ser

85 90 95

Gly Ser Gly Ser Ile Ser Gly Ile Ala Gln Gly Leu Gln Trp Ala Ala

100 105 110

Asn Asn Gly Met His Ile Ala Asn Met Ser Leu Gly Ser Ser Ala Gly

115 120 125

Ser Ala Thr Met Glu Gln Ala Val Asn Gln Ala Thr Ala Ser Gly Val

130 135 140

Leu Val Val Ala Ala Ser Gly Asn Ser Gly Ala Gly Asn Val Gly Phe

145 150 155 160

Pro Ala Arg Tyr Ala Asn Ala Met Ala Val Gly Ala Thr Asp Gln Asn

165 170 175

Asn Asn Arg Ala Thr Phe Ser Gln Tyr Gly Ala Gly Leu Asp Ile Val

180 185 190

Ala Pro Gly Val Gly Val Gln Ser Thr Val Pro Gly Asn Gly Tyr Ala

195 200 205

Ser Phe Asn Gly Thr Ser Met Ala Thr Pro His Val Ala Gly Val Ala

210 215 220

Ala Leu Val Lys Gln Lys Asn Pro Ser Trp Ser Asn Val Gln Ile Arg

225 230 235 240

Asn His Leu Lys Asn Thr Ala Thr Asn Leu Gly Asn Thr Thr Gln Phe

245 250 255

Gly Ser Gly Leu Val Asn Ala Glu Ala Ala Thr Arg

260 265

<210> 24

<211> 272

<212> PRT

<213> 芽孢杆菌属 NKS-21

<400> 24

Gln Thr Val Pro Trp Gly Ile Pro Tyr Ile Tyr Ser Asp Val Val His

1 5 10 15

Arg Gln Gly Tyr Phe Gly Asn Gly Val Lys Val Ala Val Leu Asp Thr

20 25 30

Gly Val Ala Pro His Pro Asp Leu His Ile Arg Gly Gly Val Ser Phe

35 40 45

Ile Ser Thr Glu Asn Thr Tyr Val Asp Tyr Asn Gly His Gly Thr His

50 55 60

Val Ala Gly Thr Val Ala Ala Leu Asn Asn Ser Tyr Gly Val Leu Gly

65 70 75 80

Val Ala Pro Gly Ala Glu Leu Tyr Ala Val Lys Val Leu Asp Arg Asn

85 90 95

Gly Ser Gly Ser His Ala Ser Ile Ala Gln Gly Ile Glu Trp Ala Met

100 105 110

Asn Asn Gly Met Asp Ile Ala Asn Met Ser Leu Gly Ser Pro Ser Gly

115 120 125

Ser Thr Thr Leu Gln Leu Ala Ala Asp Arg Ala Arg Asn Ala Gly Val

130 135 140

Leu Leu Ile Gly Ala Ala Gly Asn Ser Gly Gln Gln Gly Gly Ser Asn

145 150 155 160

Asn Met Gly Tyr Pro Ala Arg Tyr Ala Ser Val Met Ala Val Gly Ala

165 170 175

Val Asp Gln Asn Gly Asn Arg Ala Asn Phe Ser Ser Tyr Gly Ser Glu

180 185 190

Leu Glu Ile Met Ala Pro Gly Val Asn Ile Asn Ser Thr Tyr Leu Asn

195 200 205

Asn Gly Tyr Arg Ser Leu Asn Gly Thr Ser Met Ala Ser Pro His Val

210 215 220

Ala Gly Val Ala Ala Leu Val Lys Gln Lys His Pro His Leu Thr Ala

225 230 235 240

Ala Gln Ile Arg Asn Arg Met Asn Gln Thr Ala Ile Pro Leu Gly Asn

245 250 255

Ser Thr Tyr Tyr Gly Asn Gly Leu Val Asp Ala Glu Tyr Ala Ala Gln

260 265 270

<210> 25

<211> 269

<212> PRT

<213> 芽孢杆菌属G-825-6

<400> 25

Asn Gln Val Thr Pro Trp Gly Ile Thr Arg Val Gln Ala Pro Thr Ala

1 5 10 15

Trp Thr Arg Gly Tyr Thr Gly Thr Gly Val Arg Val Ala Val Leu Asp

20 25 30

Thr Gly Ile Ser Thr His Pro Asp Leu Asn Ile Arg Gly Gly Val Ser

35 40 45

Phe Val Pro Gly Glu Pro Ser Tyr Gln Asp Gly Asn Gly His Gly Thr

50 55 60

His Val Ala Gly Thr Ile Ala Ala Leu Asn Asn Ser Ile Gly Val Val

65 70 75 80

Gly Val Ala Pro Asn Ala Glu Leu Tyr Ala Val Lys Val Leu Gly Ala

85 90 95

Asn Gly Ser Gly Ser Val Ser Ser Ile Ala Gln Gly Leu Gln Trp Thr

100 105 110

Ala Gln Asn Asn Ile His Val Ala Asn Leu Ser Leu Gly Ser Pro Val

115 120 125

Gly Ser Gln Thr Leu Glu Leu Ala Val Asn Gln Ala Thr Asn Ala Gly

130 135 140

Val Leu Val Val Ala Ala Thr Gly Asn Asn Gly Ser Gly Thr Val Ser

145 150 155 160

Tyr Pro Ala Arg Tyr Ala Asn Ala Leu Ala Val Gly Ala Thr Asp Gln

165 170 175

Asn Asn Asn Arg Ala Ser Phe Ser Gln Tyr Gly Thr Gly Leu Asn Ile

180 185 190

Val Ala Pro Gly Val Gly Ile Gln Ser Thr Tyr Pro Gly Asn Arg Tyr

195 200 205

Ala Ser Leu Ser Gly Thr Ser Met Ala Thr Pro His Val Ala Gly Val

210 215 220

Ala Ala Leu Val Lys Gln Lys Asn Pro Ser Trp Ser Asn Thr Gln Ile

225 230 235 240

Arg Gln His Leu Thr Ser Thr Ala Thr Ser Leu Gly Asn Ser Asn Gln

245 250 255

Phe Gly Ser Gly Leu Val Asn Ala Glu Ala Ala Thr Arg

260 265

<210> 26

<211> 279

<212> PRT

<213> 普通高温放线杆菌（Thermoactinomyces vulgaris）

<400> 26

Tyr Thr Pro Asn Asp Pro Tyr Phe Ser Ser Arg Gln Tyr Gly Pro Gln

1 5 10 15

Lys Ile Gln Ala Pro Gln Ala Trp Asp Ile Ala Glu Gly Ser Gly Ala

20 25 30

Lys Ile Ala Ile Val Asp Thr Gly Val Gln Ser Asn His Pro Asp Leu

35 40 45

Ala Gly Lys Val Val Gly Gly Trp Asp Phe Val Asp Asn Asp Ser Thr

50 55 60

Pro Gln Asn Gly Asn Gly His Gly Thr His Cys Ala Gly Ile Ala Ala

65 70 75 80

Ala Val Thr Asn Asn Ser Thr Gly Ile Ala Gly Thr Ala Pro Lys Ala

85 90 95

Ser Ile Leu Ala Val Arg Val Leu Asp Asn Ser Gly Ser Gly Thr Trp

100 105 110

Thr Ala Val Ala Asn Gly Ile Thr Tyr Ala Ala Asp Gln Gly Ala Lys

115 120 125

Val Ile Ser Leu Ser Leu Gly Gly Thr Val Gly Asn Ser Gly Leu Gln

130 135 140

Gln Ala Val Asn Tyr Ala Trp Asn Lys Gly Ser Val Val Val Ala Ala

145 150 155 160

Ala Gly Asn Ala Gly Asn Thr Ala Pro Asn Tyr Pro Ala Tyr Tyr Ser

165 170 175

Asn Ala Ile Ala Val Ala Ser Thr Asp Gln Asn Asp Asn Lys Ser Ser

180 185 190

Phe Ser Thr Tyr Gly Ser Val Val Asp Val Ala Ala Pro Gly Ser Trp

195 200 205

Ile Tyr Ser Thr Tyr Pro Thr Ser Thr Tyr Ala Ser Leu Ser Gly Thr

210 215 220

Ser Met Ala Thr Pro His Val Ala Gly Val Ala Gly Leu Leu Ala Ser

225 230 235 240

Gln Gly Arg Ser Ala Ser Asn Ile Arg Ala Ala Ile Glu Asn Thr Ala

245 250 255

Asp Lys Ile Ser Gly Thr Gly Thr Tyr Trp Ala Lys Gly Arg Val Asn

260 265 270

Ala Tyr Lys Ala Val Gln Tyr

275

<210> 27

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 27

gttcaacata tgccagctt 19

<210> 28

<211> 16

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 28

cgcacctgca acatga 16

<210> 29

<211> 16

<212> DNA

<213> 人工序列

<220>

<223> 人工DNA引物

<400> 29

acggtacatc gatggc 16

Claims

1.一种选择具有蛋白酶活性的多肽的方法，所述方法包括：

(i)将多种合成化合物悬浮在水相中，其中所述合成化合物各自包括：

(a)编码多肽的多核苷酸；

(b)与所述多核苷酸连接的蛋白酶底物；和

(c)与所述多核苷酸连接的选择性标记物；

其中所述水相包括用于所述多肽表达的组分；

(ii)与所述水相形成油包水乳液，其中所述合成化合物在所述乳液的水性液滴中区室化；

(iii)在所述乳液的水性液滴内表达所述多肽，其中水性液滴中具有蛋白酶活性的多肽使所述液滴中的蛋白酶底物水解；和

(iv)分离所述合成化合物，以回收包含蛋白酶底物的合成化合物和/或其中蛋白酶底物已经被水解的合成化合物。

2.根据权利要求1所述的方法，其中所述多肽包括前肽。

3.根据权利要求1或2所述的方法，其中所述多种合成化合物包括至少大约10⁶种不同的合成化合物(例如，至少大约10¹⁰、10¹²或10¹⁴种不同的合成化合物)。

4.根据权利要求1-3中任一项所述的方法，其中所述乳液包括至少大约10⁶个水性液滴/mL乳液(例如，至少大约10⁹、10¹²或10¹⁵个水性液滴/mL乳液)。

5.根据权利要求1-4中任一项所述的方法，其中所述乳液中的水性液滴的平均直径为大约0.05μm至大约100μm，包含两端值(例如，大约0.1μm至大约50μm，大约0.2μm至大约25μm，大约0.5μm至大约10μm，或者大约1μm至大约5μm，包含两端值)。

6.根据权利要求1-5中任一项所述的方法，其中所述乳液中的水性液滴的平均体积为大约1阿升至大约1纳升，包含两端值(例如，大约10阿升至大约50毫微微升，或者大约0.5毫微微升至大约10毫微微升)。

7.根据权利要求1-6中任一项所述的方法，其中所述选择性标记物在相对于所述蛋白酶底物远端的位置处与所述多核苷酸连接。

8.根据权利要求1-7中任一项所述的方法，其中所述选择性标记物是亲和标签(例如，生物素)。

9.根据权利要求1-8中任一项所述的方法，其中所述合成化合物各自包括固相(例如，微珠或颗粒)。

10.根据权利要求9所述的方法，其中所述固相与所述蛋白酶底物连接，并且其中所述蛋白酶底物的水解使得所述固相从所述合成化合物释出。

11.根据权利要求1-10中任一项所述的方法，其包括在步骤(iv)之前将水相自油相分离(例如，经由化学诱导的聚结和/或离心)。

12.一种合成化合物，其包括：

(a)编码多肽的多核苷酸；

(b)与所述多核苷酸连接的蛋白酶底物；和

(c)与所述多核苷酸连接的选择性标记物。

13.根据权利要求12所述的合成化合物，其中所述多肽包括前肽。

14.根据权利要求12或13所述的合成化合物，其中所述选择性标记物在相对于所述蛋白酶底物远端的位置处与所述多核苷酸连接。

15.根据权利要求12-14中任一项所述的合成化合物，其中所述选择性标记物是亲和标签(例如，生物素)。

16.根据权利要求12-15中任一项所述的合成化合物，其还包括固相(例如，微珠或颗粒)，其中所述固相与所述蛋白酶底物连接。

17.一种制造权利要求12-16中任一项所述的合成化合物的方法，其包括：

(i)将蛋白酶底物与编码多肽的多核苷酸连接；

(ii)将选择性标记物与所述编码多肽的多核苷酸连接；和

(ii)回收所述合成化合物。

18.一种多核苷酸文库，其包括多种不同的根据权利要求12-16中任一项所述的合成化合物。

19.一种油包水乳液，其包括根据权利要求18所述的多核苷酸文库，其中所述合成化合物在所述乳液的水性液滴中区室化。

20.一种制造根据权利要求19所述的乳液的方法，其包括：

(i)将多种合成化合物悬浮在水相中；和

(ii)将(i)的悬浮液与油混合。