CN101617046A - 使用体外区室化选择和富集蛋白质 - Google Patents

使用体外区室化选择和富集蛋白质 Download PDF

Info

Publication number
CN101617046A
CN101617046A CN200880005815.1A CN200880005815A CN101617046A CN 101617046 A CN101617046 A CN 101617046A CN 200880005815 A CN200880005815 A CN 200880005815A CN 101617046 A CN101617046 A CN 101617046A
Authority
CN
China
Prior art keywords
polynucleotide
target gene
adapter
activity
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200880005815.1A
Other languages
English (en)
Inventor
郑钰
R·J·罗伯茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New England Biolabs Inc
Original Assignee
New England Biolabs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New England Biolabs Inc filed Critical New England Biolabs Inc
Publication of CN101617046A publication Critical patent/CN101617046A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1058Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1075Isolating an individual clone by screening libraries by coupling phenotype to genotype, not provided for in other groups of this subclass

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Ecology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供用于从多核苷酸序列文库选择和富集靶基因的组合物和方法,所述多核苷酸序列文库例如可从基因组形成或由基因序列的随机突变形成。所述选择和富集发生在形成于乳液中的水液滴中,其将来自所述文库的单个多核苷酸或可包括不来自所述文库的多核苷酸的多个多核苷酸、转录和翻译试剂和任选地另外的化学和酶试剂区室化。所述选择和富集方法利用多核苷酸衔接头,所述衔接头在连接至所述多核苷酸片段时、在衔接头特异性引物存在的情况下,能够使扩增发生。

Description

使用体外区室化选择和富集蛋白质
发明背景
【0001】达尔文演化产生多样性并使得个体的组成部分在变化的环境中进行改进。设计具有改变特异性的酶的一种方法是利用可在体外进行控制的环境中进化。这种方法要求基因型和表型之间的关联以及不同基因型的选择和富集策略。基于这些考虑的方法包括:噬菌体展示(参见,例如,Smith,Science 228:1315-1317(1985),和美国专利号7,211,564);mRNA展示(Hanes等,Proc.National Academy Science 94:4937-4942(1997),和Tawfik等,Nat Biotechnol.16:652-656(1998));以及核糖体展示(Roberts等Proc Natl Acad Sci USA 94:12297-12302(1997))。这些方法利用在能够复制的粒子表面上展示所期望的表型。
【0002】定向进化的一种可选方法——其已被称为体外区室化(invitro compartmentalization,IVC)依赖于形成油中的水液滴乳液,其中所述水液滴含有:可控制数量和类型的多核苷酸,连同允许被包封的多核苷酸编码的任何基因表达的最少的转录和翻译系统。这些乳液中的水液滴在至少一些下列出版物中也称为微胶囊。然后,转录和翻译的蛋白质产物可由一些分析形式检测,其优选地允许富集最初可以以在1010个液滴中低至1个的量存在的靶基因(参见,例如,Doi等Nucleic Acids Res32:e95(2004),美国专利号6,184,012、6,489,103、6,495,673、7,138,233和7,252,943,美国公开号2005/0221339、2006/0153924、2006/0154298、2006/0078893、2007/0077572、2007/0092914、2007/0184489和2008/0004436,以及国际申请号WO 2006/040551和WO 2006/051552)。
【0003】如果选择和富集的问题可解决,在单一乳液中稳定地产生多至109~1010个单独水液滴的能力——其中每个液滴含有来自分子文库的不同分子——可提供在广泛的序列空间内对编码所期望表型的靶基因的快速筛选方法。
【0004】不幸地是,已报道的使用IVC的筛选和富集方法一直是令人失望的。例如,Doi等描述了用于选择和富集表达限制性内切核酸酶表型的基因型的筛选方法。Doi等使用DNA聚合酶将dUTP-生物素掺入由限制性内切核酸酶切割产生的粘性末端以允许进行链霉亲和素亲和纯化。在一轮体外区室化中仅获得单一多核苷酸的10倍富集。因此,需要很多轮的富集,以便从随机化的FokI文库选择活性表型FokI。
【0005】使用乳液的体外区室化提供了潜在有效的定向进化方法——如果蛋白质活性的选择和其在溶液中的富集可被优化以便使得能够从广泛的序列空间内有效回收靶基因。
发明概述
【0006】在本发明的一个实施方式中,描述了用于靶基因的选择和富集的方法,其中所述方法包括提供多核苷酸片段文库,所述文库中的一个或更多个多核苷酸片段包括编码具有期望活性的蛋白的靶基因。所述文库中的多核苷酸被包封在乳液中的多个水液滴中,其中所述多个液滴中的每个水液滴含有:(i)具有转录和翻译活性的酶混合物,和(ii)来自所述多核苷酸片段文库的一个或更多个多核苷酸片段。来自所述文库的所述靶基因被转录和翻译以提供蛋白,所述蛋白具有在由连接酶催化的反应中使所述多核苷酸片段共价连接至多核苷酸衔接头的活性。尽管连接优选地发生在多核苷酸片段上的互补粘性末端和多核苷酸衔接头之间,但在本发明的一个实施方式中,也可通过平端连接来实现连接——只要多核苷酸片段上的平头末端是可连接的。例如,这可以通过限制性内切核酸酶活性实现。在任一情况下,靶基因随后可使用衔接头-特异性引物被选择性地扩增。衔接头-特异性引物优选地具有仅存在于衔接头中而不存在于多核苷酸片段中的序列。但是,引物可具有大部分定位于衔接头中、但与多核苷酸片段末端的短序列(例如,小于20个核苷酸)重叠的序列。靶基因的例子包括编码具有下列活性的蛋白的那些基因,所述活性选自:连接酶活性,例如RNA或DNA连接酶活性;多核苷酸切割活性,例如限制性内切核酸酶活性、切口核酸内切酶(nicking endonuclease)活性或回归核酸内切酶活性;转录或翻译活性,例如tRNA合成酶活性或RNA聚合酶活性;以及逆转录活性。
【0007】在一个进一步的实施方式中,在聚合酶-依赖性扩增中利用第二引物,其可与文库中所有多核苷酸片段中共有的序列杂交,其中所述序列定位于多核苷酸的衔接头-连接的末端的相反末端。优选地,所述特异性序列也在基因外部。
【0008】在一个实施方式中,所述水液滴在所述靶基因转录和翻译后以及所述衔接头连接至多核苷酸片段之前被破坏。在另一个实施方式中,所述水液滴可在连接之后和扩增所述基因之前被破坏。
【0009】在一个实施方式中,某些水液滴可包括多个多核苷酸片段,其中所述多个片段进一步包括多个基因。在另一个实施方式中,上述每个水液滴可进一步含有一个或更多个第二多核苷酸片段,其非来自于所述文库并且含有编码规定的第二蛋白的基因。在一个例子中,编码规定的第二蛋白的基因具有多核苷酸切割活性。在另一个实施方式中,上述每个水液滴含有具有聚合酶-切割活性的试剂酶。
【0010】一旦靶基因被扩增,额外一轮或多轮的选择和富集可以是可期望的,在这种情况下,在用于转录和翻译所述基因的酶混合物存在的情况下,扩增产物被包封在乳液中的多个水液滴中,这使得靶基因能够被表达并使其连接至第二多核苷酸衔接头或另外的多核苷酸衔接头并使用对所述第二衔接头具有特异性的引物扩增所述靶基因。每轮中应用的衔接头优选地不同于前一轮中的衔接头。但是,在另一个实施方式中,衔接头可再利用,条件是在下一轮包封之前将其从扩增的靶基因中去除。
【0011】在本发明的一个进一步的实施方式中,一轮选择后的靶基因富集可以是至少50倍、70倍或100倍。
【0012】在一个进一步的实施方式中,文库中的各个多核苷酸片段含有限制性内切核酸酶和切口核酸内切酶中的至少一个的识别序列,所述识别序列在基因序列以外的片段区域中。
【0013】在一个进一步的实施方式中,通过切割多核苷酸片段在多核苷酸片段上形成粘性末端,所述切割利用靶基因表达的蛋白并任选地与酶试剂或第二多核苷酸片段编码的蛋白提供的第二酶活性联合。在后一种情况下,由第二多核苷酸上的基因编码的蛋白的表达和/或活性可依赖于靶基因表达的蛋白。
【0014】例如,当靶基因表达的蛋白具有tRNA合成酶活性时,该活性使第二多核苷酸片段上的基因编码的限制性内切核酸酶被转录和翻译并切割含有靶tRNA合成酶基因的多核苷酸片段,以产生粘性末端用于连接至衔接头,因此引起靶基因的选择和富集。
【0015】在另一个例子中,靶基因表达的蛋白是限制性内切核酸酶,其切割DNA以在多核苷酸片段上形成平头末端。任选地,提供第二酶活性以将平头末端转换为粘性末端,其中所述第二酶活性可以是切口核酸内切酶。具有可相容粘性末端的衔接头可随后被连接至含有靶基因的多核苷酸片段。在另一个例子中,靶基因表达的蛋白具有切口核酸内切酶活性,并且第二酶活性是限制性内切核酸酶活性。两种酶的活性导致多核苷酸上粘性末端的产生,用于连接至衔接头和进行随后的扩增。
【0016】在一个进一步的实施方式中,多核苷酸片段文库含有基因组DNA(gDNA)。在一个例子中,靶基因是天然发生基因,其中所述方法另外包括从扩增的DNA克隆所述天然发生的靶基因,从而提供易于从环境获得具有靶功能的新的天然发生基因的方式。
【0017】在本发明的一个进一步的实施方式中,靶基因是诱变的基因,其具有所期望的切割、合成或连接蛋白活性。
【0018】来自基因组文库或诱变文库的靶基因的例子包括编码具有下列活性的蛋白的那些基因,所述活性选自:连接酶活性,例如RNA或DNA连接酶活性;多核苷酸-切割活性,例如限制性内切核酸酶活性、切口核酸内切酶活性或回归核酸内切酶活性;转录或翻译活性,例如tRNA合成酶活性或RNA聚合酶活性;以及逆转录活性。
【0019】可被选择的活性的例子包括期望特异性由天然发生蛋白中发现的特异性的改变。在一个实施方式中,可寻求限制性内切核酸酶的切割-位点特异性的改变。在这个例子中,期望的非天然切割位点会被引入文库中的多核苷酸片段末端处或接近文库中的多核苷酸片段末端,以使只有所编码的蛋白在所期望的非天然位点切割以产生用于连接至衔接头的粘性末端时,靶基因才会被选择和富集。另一个例子包括对增强的多核苷酸切割活性的选择和富集。可选地,可根据编码蛋白在与野生型蛋白相比距其识别位点非天然距离处切割DNA序列的能力,对靶基因进行选择和富集。
【0020】其他例子包括对诱变多核苷酸片段文库进行靶基因的筛选,所述靶基因编码的蛋白具有新的连接酶活性,例如改变的最适连接温度,或改变的辅因子要求。
【0021】上述这些例子不试图限制方法的实施方式的使用。
【0022】本发明的实施方式已通过从自然界克隆新的限制性内切核酸酶而示例,所述内切核酸酶在本文中命名为TspMI。本发明的另外实施方式进一步包括含有编码TspMI的基因的载体和用所述载体转化的宿主细胞。
【0023】在本发明的一个实施方式中,提供了组合物,其中所述组合物是疏水液体中的亲水溶液的乳液,所述亲水溶液形成多个液滴,每个液滴含有:(i)具有转录和翻译活性的酶混合物;和(ii)来自多核苷酸片段文库的多核苷酸片段,所述多核苷酸片段具有粘性末端或使得酶能够切割所述多核苷酸以产生粘性末端的识别位点。乳液中的液滴可进一步包括具有粘性末端的多核苷酸衔接头,所述粘性末端与所述多核苷酸片段上产生的或存在的粘性末端互补。乳液中的液滴可进一步包括限制性内切核酸酶试剂。乳液中的液滴可包括多个多核苷酸片段,其中一个所述多核苷酸片段编码限制性内切核酸酶试剂。
附图简述
【0024】图1A示出编码限制性内切核酸酶的靶基因的体外选择和富集的示意图。
【0025】将DNA片段文库与转录和翻译试剂一起分散至乳液中的水液滴中(1)。如果活性限制性内切核酸酶在液滴中体外表达,则含有编码基因的DNA片段的末端的切割在多核苷酸片段上的核酸内切酶识别序列处发生,以产生粘性末端。这由——X表示。乳液中的反应通过例如加热和/或添加EDTA来猝灭。通过添加水饱和醚来破坏乳液。从水相回收DNA片段(2)。将具有可相容粘性末端(X——)的过量双链DNA衔接头片段添加至DNA片段。连接仅发生在具有粘性末端的回收DNA片段和具有可相容粘性末端的衔接头之间(——X——)(3)。进行衔接头-特异性PCR扩增,随后纯化的扩增DNA或是进入下一轮选择或是被克隆(4)。
【0026】图1B示出编码具有连接酶活性的蛋白的靶基因的选择。
【0027】将DNA片段文库与转录和翻译试剂以及多核苷酸衔接头一起分散至乳液中的水液滴中。连接发生在含有编码连接酶活性的DNA片段(——X——)的各个液滴中。连接不发生在不存在连接酶-编码基因的那些液滴内(1)。在用于转录和翻译的有效时间段后,停止反应并破坏乳液。从乳液中回收DNA多核苷酸(2)。进行衔接头-特异性PCR扩增,随后回收的扩增DNA或是进入下一轮选择或是被克隆(3)。
【0028】图1C示出酶的偶联选择(couple selection)。将多核苷酸文库、衔接头、去除特定tRNA合成酶的体外转录和翻译试剂、以及编码限制性内切核酸酶的第二多核苷酸片段乳化至水液滴中。如果编码具有特定tRNA合成酶活性的蛋白的靶基因在液滴中表达,则编码限制性内切核酸酶的第二多核苷酸也会被转录和翻译(1)。该核酸内切酶可切割含有靶基因的多核苷酸片段上靶基因以外的位点以产生粘性末端。停止反应并破坏液滴。从乳液中回收DNA片段(2)。需要连接步骤以将衔接头连接至切割的DNA片段(3)。使用回收的DNA片段进行衔接头-特异性PCR(4)。结果,具有被连接的衔接头的模板DNA优先地被扩增。PCR产物用于下一轮选择或被克隆。
【0029】图2提供用于酶体外选择的基因组文库构建的示意图。使用雾化器剪切基因组DNA以产生具有小于5Kb大小的片段(1),随后DNA片段在凝胶上进行大小-选择(1K-3K)并使用PhusionTM聚合酶(Finnzymes,Espoo,Finland)进行末端-修复(2)。然后,用T4多核苷酸激酶磷酸化片段(3)并在对应于NruI切割位点的克隆位点处(5)插入pLT7K载体中(Kong等Nucleic Acid Res 28:3216-3223(2000))(4)。进行液滴的制备,其中液滴含有单一载体和用于进行乳液PCR的扩增试剂。然后破坏乳液并且扩增产物形成多核苷酸文库用于靶基因的选择和富集(6)。因此,多核苷酸文库与用于转录和翻译的试剂(PURETM系统,Genome Institute,Japan)混合并包封在乳液中的水液滴中。如果限制性内切核酸酶由源于基因组的DNA片段编码,然后会发生切割并会如图1A所述来鉴定。如果待从基因组克隆的基因是连接酶,那么连接酶基因的富集会如图1B所述发生。在该方法中,酶可从其天然宿主在少至三轮选择内进行克隆(7)。
【0030】图3A-F示出与第二模板相比靶基因富集的例子。泳道E显示乳液中的转录和翻译产物,其随后与衔接头连接并进行PCR扩增。当与阳性对照比较时,扩增产物相对于绿色荧光蛋白(GFP)是充分富集的。
【0031】泳道NC是阴性对照,其示出在缺乏连接和不使用乳液时两个基因的扩增产物。
【0032】泳道PC是阳性对照,其示出在限制性内切核酸酶和连接酶存在以致所有片段被连接和扩增的情况下两个基因的扩增产物。如所期望的,与PstI相比,GFP表现出绝对优势。
【0033】图3A示出用于模式文库中的DNA模板的示意图。靶基因是PstI-可读框-编码PstI限制性内切核酸酶,而对照是编码GFP的基因。PstI和基因在大小上不同。
【0034】图3B示出1∶100比例的PstI和GFP起始混合物的扩增的第一循环的结果。泳道从左至右是如上述解释的E、NC、PC。
【0035】图3C和D分别示出扩增的第一循环和第二循环的结果,其中起始混合物含有1∶1000比例的PstI和GFP基因。泳道从左至右是如上述解释的E、NC、PC。
【0036】图3E和3F分别示出扩增的第一循环和第二循环的结果,其中起始混合物含有1∶104和1∶105比例的PstI和GFP。泳道从左至右是对于每个比例的E和PC。E中的残留量GFP可产生于单一液滴中两个基因的偶然存在,其中由PstI基因产生的限制性内切核酸酶也作用于GFP。
【0037】注意在泳道E中,PstI基因的量大大增加。
【0038】图4A-D示出来自斯氏普罗威登斯菌(Providencia stuartii)的PstI基因的基因组选择。
【0039】图4A:4Ai示出起始基因组文库。1kb和3kb之间的成片条带含有在富集前产生于乳液中的扩增的基因组模板。泳道2中的单一条带相应于空质粒。
【0040】4Aii和4Aiii分别示出使用PstI基因-特异性引物和M.PstII-特异性引物,基因组文库扩增的结果。
【0041】图4B:4Bi示出在E中基因第一轮选择和富集之后的基因组文库。NC是来自4Ai的总DNA。
【0042】4Bii示出乳液选择后PstI基因的增加量。在4Biii中未观察到M.PstII的富集。
【0043】图4C:4Ci示出在E中第二轮基因选择和富集之后的基因组文库。NC相对应于第一轮选择后破坏乳液产生的总DNA片段的扩增。
【0044】4Cii示出乳液选择后PstI基因的增加量。使用M.PstI基因-特异性引物不再检测到M.PstII基因(4Ciii)。
【0045】图4D:4Di示出在E中第三轮基因选择和富集之后的基因组文库。NC相对应于第二轮选择后破坏乳液产生的总DNA片段的扩增。
【0046】4Dii示出乳液选择后PstI基因的增加量。使用M.PstI基因-特异性引物不再检测到M.PstII基因(4Diii)。
【0047】图5示出在1%琼脂糖凝胶上来自栖热菌某种(Thermus sp.)的TspMI基因的基因组选择。泳道1st、2nd和3rd显示每轮选择后的衔接头-特异性PCR扩增。3rd泳道中的条带被克隆并证实编码TspMI基因。
【0048】图6示出Aval(SEQ ID NO:1)、NspIII(SEQ ID NO:2)、BsoBI(SEQ ID NO:3)和TspMI(SEQ ID NO:4)家族之间的多重比对。预测催化基序(EXK)显示于框中。催化残基组氨酸在110位与120位之间用箭头突出显示。除了用于催化的高度保守区域,TspMI与其他蛋白序列相似性较远。290位与310位之间的箭头显示BsoBI家族中负责简并碱基识别的残基。比对由ClustalW(Roberts,Proc Natl Acad Sci USA 102:5905-5908(2005))产生并由ClustalX(Alves等,Nucleic Acids and Molecular Biology,Pingoud,A.(ed.),Spring-Verlag:Berlin,Germany,Vol.14,pp.393-411(2004))显示。
【0049】图7示出TspMI的核苷酸序列(SEQ ID NO:5)。
实施方式详述
【0050】如果靶基因的选择和富集可被优化以便能够从广泛的序列空间内进行有效回收,那么体外区室化提供定向进化的有效方法。在本发明的实施方式中,已发展了一种选择和富集方法,其涉及将衔接头分子连接至多核苷酸,其中靶基因已从所述多核苷酸被表达和任选地被修饰。该方法在每一轮选择过程中提供多达100倍或高于100倍的富集,并可应用至宽范围的编码可选择酶活性的基因。
【0051】体外区室化依赖于乳液的形成,所述乳液可从不混溶的液体的任何合适组合产生。优选地,亲水溶剂形成显微尺寸或胶态尺寸的“水”液滴。“液滴(droplets)”在本领域中也称为“微胶囊”。胶体中的水液滴可由任何亲水材料形成,所述材料适于形成乳液、含有稳定形式的生化组分、并提供其中可发生所述反应的环境。液滴悬浮于其中的疏水液体不含有任何反应物。
【0052】可通过添加一种或更多种表面-活性剂(surface-active agents)(表面活性剂,surfactants)来稳定乳液。这些表面活性剂被命名为乳化剂并在亲水/疏水界面发挥作用以防止(或至少延迟)相分离。许多疏水液体例如油和许多乳化剂可用于两相乳液的产生;一个近期的汇编物列举了16,000种以上表面活性剂,其中的许多种被用作乳化剂(Ash,M.和Ash,I.Handbook of industrial surfactants.Gower Publishing Ltd:Aldershot,Hampshire,UK(1993);和Schick,Nonionic surfactants.Marcel Dekker:N.Y.(1996)),例如失水山梨糖醇单油酸酯(SPAN.RTM.80;ICI))和聚氧乙烯山梨糖醇酐单油酸酯(TWEEN.RTM.80;ICI))。
【0053】阴离子表面活性剂的使用也可以是有益的。合适的表面活性剂包括胆酸钠和牛磺胆酸钠。特别优选的是脱氧胆酸钠,优选地,处于0.5%w/v或更低的浓度。将阴离子表面活性剂添加至待乳化混合物确保反应只在区室化后进行。
【0054】乳液的产生通常需要应用机械能促使各相混合在一起。存在多种进行该过程的方法,它们利用多种机械装置,包括搅拌器(例如磁搅拌棒、螺旋桨和涡轮搅拌器、桨装置和搅乳器)、均化器(包括转子-定子均化器、高压阀均化器和喷射均化器)、胶体碾磨机、超声波和“膜乳化”装置(Becher,Emulsions:theory and practice.Reinhold:N.Y.(1957;Dickinson,Emulsions and droplet size control.pp.191-257Wedlock,D.J.(ed.),Butterworth-Heinemann:Oxford,U.K.(1994))。
【0055】对应于直径为0.1μm至10μm之间的球体,水液滴的体积优选地为5.2×10-22m3至5.2×10-16m3之间的量级,更优选地在约5.2×10-19m3至6.5×10-17m3之间(1μm与5μm之间),例如2-6μm。
【0056】如果液滴之间存在遗传元件或基因产物的任何交换,乳液中形成的水液滴通常很不稳定。存在产生体积一路升至数千升的工业规模的乳液的技术(Becher,Emulsions:theory and practice,Reinhold:N.Y.(1957);Sherman,Emulsion science.Academic Press:London,U.K.(1968);和Lissant,ed.“Emulsions and emulsion technology”in Surfactant Science,Marcel Dekker:N.Y.(1974和1984版)。
【0057】“多核苷酸片段”是指双链或单链分子或构建体,其选自DNA分子、RNA分子或部分RNA和部分DNA、由单链RNA和单链DNA构成的双链杂合体、或由全部合成的碱基或天然发生碱基和合成碱基的混合物组成的部分或全部人工核酸分子。前述任何一种可在一个末端连接至多肽或其他分子基团或构建体,以使另一端是粘性末端或能够转变成粘性末端,用于连接至衔接头分子。有利地,“其他”分子基团或构建体可选自核酸;聚合物质,尤其是珠子,例如聚苯乙烯珠子;磁性物质例如磁性珠子;标记物例如荧光团或同位素标记物;化学试剂;结合剂例如大环类(macrocycles)等等。
【0058】多核苷酸片段可包括合适的调节序列,例如基因产物有效表达所需的那些调节序列,例如启动子、增强子、翻译起始序列、多聚腺苷酸化序列、剪接位点等等。
【0059】“多核苷酸片段文库”是指多个多核苷酸片段,其具有在各个多核苷酸片段之间变化的基因序列。优选地,所述基因序列中的一个或更多个编码所期望的蛋白活性,其中这些基因序列被称为“靶基因”。靶基因能够编码具有所期望酶活性或结合活性的蛋白,其中所述活性是通过粘性末端方法将衔接头连接在含有靶基因的多核苷酸的末端所需的。
【0060】进行选择和富集方法,用于从多核苷酸片段中的遗传元件群获得一个或更多个靶基因。因此,在开始时假定,所述多核苷酸片段文库包含含有编码所期望蛋白活性的基因序列的一个或更多个多核苷酸片段。不存在靶基因时,不能发生靶基因的选择和富集。
【0061】“酶混合物”是指包括多种酶的转录和翻译系统,所述系统可购得(参见,例如,the NEB catalog,Ipswich,MA)并且任选地为另外的试剂酶。
【0062】“连接”是指两个多核苷酸的共价连接。在该方法的实施方式中,连接需要含有编码蛋白活性的靶基因的多核苷酸片段;通常具有粘性末端的多核苷酸衔接头;以及具有连接酶活性的蛋白——如果具有连接酶活性的该蛋白不被靶基因编码。另外的组分可能任选地包括限制性内切核酸酶试剂或基因,其用于切割多核苷酸片段以产生粘性末端;和/或切口核酸内切酶试剂或基因,其与平头末端-切割限制性内切核酸酶一起应用。限制性内切核酸酶不总是引起连接所需的,因为多核苷酸文库的特征可以是:所有片段都具有粘性末端,但只有那些编码连接酶活性的片段会通过衔接头-依赖性选择被选择。
【0063】在本发明的实施方式中,衔接头的连接是通过IVC进行选择和富集的先决条件。如果靶基因表达,那么连接可在多核苷酸片段和衔接头之间发生,这是因为靶基因编码具有连接酶活性或核酸内切酶活性的蛋白,或靶基因必须表达以允许限制性内切核酸酶在含有靶基因的多核苷酸片段上产生粘性末端,或者靶基因具有允许连接酶通过连接粘性末端将衔接头连接至多核苷酸的其它活性。
【0064】“增强的活性”是本领域术语,其指活性的增加,其可使用本文描述方法的实施方式进行选择。
【0065】“粘性末端”是指双链多核苷酸片段的规定末端,其中具有单链突出端,所述突出端在DNA或RNA连接酶存在的情况下能够共价地结合至多核苷酸衔接头的互补单链。“粘性末端”可在双链RNA、双链DNA或双链RNA/DNA杂合体上产生。粘性末端可通过酶切割形成,或可通过化学合成形成,所述酶例如但不限于限制性内切核酸酶。
【0066】“扩增”是指本领域已知的DNA序列的任何基于引物的复制。例如,扩增可通过聚合酶链式反应(Saiki等,Science 239:487-91(1988))或使用多种其他基因扩增技术中的一种进行,所述其他基因扩增技术包括:Qβ复制酶扩增(Cahill等Clin.Chem.37:1482-5(1991);Chetverin等Progress Nucleic Acid Research Mol.Biol.51:225-70(1995);以及Katanaev等Febs Lett 359:89-92(1995);连接酶链式反应(LCR)(Landegren等,Science 241:1077-80(1988);Barany PCR Methods Applic.1:5-16(1991);自动维持序列扩增系统(Fahy等,PCR Methods Appl 1:25-33(1991),链置换扩增(Walker等,Nucleic Acid Research 20:1691-6(1992),以及解旋酶-依赖性扩增(美国专利号7,282,328)。
【0067】“一(A)”不意图限制于“一个(one)”。
【0068】多核苷酸片段文库可表达来自靶基因的蛋白,所述靶基因通过其与衔接头连接的能力从文库中被选择,其中所述连接事件依赖于靶基因的表达。然后,靶基因可通过衔接头-特异性扩增而富集。
【0069】为确定该方法实施方式的效力,下文提供的实施例描述了如何进行模式选择,所述选择使用掺有各种量的编码PstI限制性内切核酸酶(识别序列CTGCA↓G)以产生4碱基3′-突出端的基因的过量GFP基因的文库。扩增后,观察到大于50倍的富集,更具体地,在单轮选择中100倍的富集(图3)。进行多轮选择以实现连续的富集。
【0070】靶基因的富集提供了本实施方式也适于从生物体的基因组中选择和富集新基因的可信度。以下实施例描述了如何将编码已知的测试限制性内切核酸酶PstI和以前未描述的限制性内切核酸酶TspMI的靶基因从它们发生的细菌(斯氏普罗威登斯菌基因组(PstI)和栖热菌某种(TspMI))的基因组中选择和富集出来。文库从单一细菌种类的gDNA构建。在三轮重复体外选择中,核酸内切酶基因成为所产生文库中的唯一占优势的DNA种类。随后,TspMI被克隆并第一次测序。
【0071】该方法的实施方式提供改进的系统,用于克隆已知使用标准技术难以克隆的限制性内切核酸酶。表达的由多核苷酸片段中的靶基因编码的限制性内切核酸酶在假定基因外部的特异性位点切割多核苷酸。如果限制性内切核酸酶被表达,则在多核苷酸片段上产生粘性末端或平头末端。如果限制性内切核酸酶切割DNA以产生平头末端,那么然后另外的切口核酸内切酶可掺入水液滴并且适当的识别和切口位点可引入多核苷酸片段中的基因和限制性内切核酸酶切割位点之间。在该方法中,在靶基因产物进行平头末端切割后,在多核苷酸片段上产生粘性末端。连接酶可作为试剂添加至水液滴或破坏的乳液中,以促进具有与多核苷酸互补的粘性末端的衔接头和含有靶基因的多核苷酸片段之间的连接。然后进行扩增以提供其中靶基因已被富集的DNA制备物。
【0072】限制性内切核酸酶可涉及衔接头-依赖性选择和富集,其不但用于克隆限制性内切核酸酶,而且用于以几种方式选择和富集多种其他基因。这些包括:
(a)切割多核苷酸片段以产生粘性末端,其在将所述片段引入IVC中之前进行,例如,在选择具有连接酶活性的蛋白和富集该蛋白的溶液中;
(b)切割多核苷酸片段,其在由多核苷酸片段编码的切口核酸内切酶切割之前、之中或之后进行;
(c)作为靶基因的表达产物;
作为第二多核苷酸片段的表达产物,例如,在选择具有转录或翻译酶活性例如tRNA合成酶活性的蛋白中;和/或富集该蛋白的溶液中;或
(e)作为包含在水微粒中的试剂酶,例如,在选择具有逆转录酶或连接酶活性的蛋白中;和/或富集该蛋白的溶液中。
【0073】观察到的靶基因的选择性和富集是可应用的,所述应用不只限于限制性内切核酸酶,也用于多种其他酶,仅受要求衔接头连接至编码靶基因的多核苷酸片段的实验设计的限制。衔接头的使用允许在大量序列空间内对期望蛋白的有效搜索。
【0074】该方法实施方式的应用包括下列:
(1)限制性内切核酸酶突变体的选择和富集。可产生DNA片段文库,其中每个片段含有编码感兴趣酶的基因和在同一DNA片段中突变基因外的限制性内切核酸酶切割序列。
多核苷酸片段的来源可以是随机诱变基因的文库。可选地,所述文库可以是源于体内样品的不同基因的集合,例如,其中所述体内样品是细胞、生物体、或不同生物体的群体,例如,来自土壤样品的微生物。
在本发明的一个实施方式中,多核苷酸片段文库可由例如以下描述的用于DNA的策略产生。单一细菌种类的gDNA被剪切为ORF-大小的片段(例如1-3Kb)。然后将DNA片段在任一末端按需要进行平头末端化并连接至已知序列(例如,T7启动子和特异性限制性内切核酸酶识别/切割序列加上另外的序列)。然后,基因组片段可通过乳液PCR扩增(Zheng等Nucleic Acid Research 35:e83(2007)),以便在基因外部掺入限制性内切核酸酶识别/切割序列。然后,所述扩增的线性片段被并入IVC中。
通过体外区室化,个体DNA片段被掺入液滴,并且任何表达的限制性内切核酸酶——其在插入的切割位点切割DNA以产生规定的粘性末端——会根据DNA连接至衔接头的能力被选择。
添加连接至这些粘性末端的衔接头导致所期望基因的选择。只有那些已被编码的核酸内切酶切割的模板可被有效连接。然后,使用衔接头-特异性PCR扩增衔接头-连接模板来富集靶基因。
每一轮使用不同衔接头,通过三轮反复体外选择,限制性内切核酸酶基因成为在产生的文库中唯一占优势的DNA种类。使用该方法,克隆来自斯氏普罗威登斯菌的PstI基因和来自栖热菌某种的TspMI基因(参见实施例)。
因为连接反应是选择中的关键步骤,所以对于产生较短突出端或平头末端的那些核酸内切酶,该方法可被修改。在这些情况下,切口酶的识别位点可位于平头末端附近,以使切口酶对多核苷酸的切割产生粘性末端。常用的切割物,例如识别4-碱基位点的那些,有时落入应用范围之外,因为它们趋向于破坏它们自己的基因。这些酶在活细菌中是无毒的,因为伴随的DNA甲基转移酶保护宿主。然而,显示的是,具有自我破坏位点的选择性劣势已使得相当比例的常用切割物在它们的基因内丧失识别位点。表1列出在它们基因内具有它们自己的识别位点的那些限制性内切核酸酶基因的统计结果。例如,根据泊松分布,对于大小为1kb的基因,其不具有特定4-碱基位点的概率是大约e-4(即0.018)。这与半数以上的4-碱基识别限制性内切核酸酶基因在它们的编码序列中不具有其自身位点的观察结果形成明显对比(表1)。
一旦多核苷酸片段已被选择,可使用标准克隆技术克隆靶基因(Sambrook等,Molecular cloning:a laboratory manual.Cold Spring HarborLaboratory Press:New York(1989))。但是,可应用可选的技术,这对本领域技术人员会是显而易见的。例如,掺入基因产物中的遗传信息可被掺入合适的表达载体中并从而被表达。
(2)具有与野生型酶相比降低的星号活性的突变体的选择和富集。不同于识别单一序列进行切割,具有星号活性的限制性内切核酸酶在不同位点切割,所述位点通常由于一个核苷酸而彼此不同。通过设计在不同粘性末端之间进行区分的衔接头,选择具有降低的星号活性的修饰酶是可能的。
(3)通常在识别位点外部切割(例如,距识别位点20个核苷酸)的那些天然或重组限制性内切核酸酶的突变体的选择和富集。
在距识别位点增加的距离处切割的突变体的选择和富集可这样实现:设计DNA序列,所述DNA序列具有在识别位点下游的预定数目的核苷酸,其产生靶粘性末端用于连接衔接头。
(4)仅具有切口活性的突变限制性内切核酸酶的选择和富集可这样实现:例如,使多核苷酸片段中的突变基因表达,以至在接近DNA片段末端的位点产生切口。结果会产生衔接头可与之连接的粘性末端。
(5)连接酶活性的选择和富集。多核苷酸片段可由限制性内切核酸酶消化以产生规定末端。衔接头和多核苷酸片段被分散到体外区室中以允许体外转录和翻译。衔接头-特异性PCR可用于扩增编码连接酶活性的DNA片段。
(6)编码具有涉及转录和翻译的酶活性的蛋白的基因的选择和富集。
这可以通过将来自文库的一个或更多个多核苷酸片段,以及含有限制性内切核酸酶基因的多核苷酸片段连同用于转录和翻译的酶混合物掺入乳液中的各个水液滴而实现,所述乳液缺乏由靶基因编码的单一转录或翻译蛋白。所述文库可以是基因组文库或诱变靶基因文库。所述选择方法依赖于在缺乏靶基因编码的蛋白的情况下、所述靶基因编码的蛋白通过转录翻译混合物的产生。随后,编码限制性内切核酸酶的多核苷酸可在含有靶基因编码的蛋白的转录和翻译混合物中被转录和翻译。然后,具有限制性内切核酸酶活性的蛋白可切割来自同一液滴中含有的文库的多核苷酸片段,在多核苷酸片段上产生粘性末端,用于连接至水液滴内部或外部的衔接头。然后,可使用衔接头-特异性引物扩增靶基因。
(7)编码功能蛋白的诱变基因的选择和富集。
乳液可用于有效地筛选具有功能性的随机诱变蛋白。传统的基因筛选文库通过各种标准产生突变体选择。由于与功能性无关的因素,例如翻译效率、折叠效率、对特定缓冲液的优选或催化效率,突变体可选自文库中的混合物。这些复杂因素中的许多因素可通过使用乳液选择和富集步骤而避免。在转录和翻译系统存在的情况下,各个基因在不连续的水液滴中被分离。确定多核苷酸片段选择的主要标准是蛋白是否被表达,以及如果蛋白被表达,蛋白是否具有在多核苷酸片段上产生粘性末端和通过粘性末端将衔接头连接至多核苷酸片段的活性。
不同程度的酶活性或特异性之间的差异可在各个液滴中或在扩增后获得。
如上所述,多轮选择可提供具有所期望性质的变体的回收的增加。而且,也可能的是,使用本文描述的实施方式通过多轮选择和富集来阐明靶基因中的特定核苷酸,当所述核苷酸突变时显示所期望的产物、改变的性质或至少保持功能性。
(8)逆转录酶活性的分离。多核苷酸片段可以是单链RNA。如果RNA片段含有编码逆转录酶的序列,那么在所需附助因子——例如逆转录和水液滴中互补链合成所需的RNA和DNA引物——存在的情况下,会形成双链DNA。限制性内切核酸酶进一步包括在用于逆转录双链产物切割的酶混合物中,从而使得连接到衔接头。
【0075】本文引用的所有参考文献以及2007年2月23日提交的美国临时申请系列号60/903,258通过引用并入本文。
实施例
【0076】根据厂商说明使用高保真PhusionTM聚合酶(Finnzymes,Espoo,Finland)进行所有PCR。所有寡聚物在New England Biolabs(NEB,Ipswich,MA)合成(寡聚物详述参见表3)。若无另外说明,DNA纯化使用旋转-柱方法(Qiagen Inc.,Valencia,CA)。若无另外说明,酶均来自NEB,Ipswich,MA。
模式文库构建
【0077】首先将PstI基因克隆至pLT7K载体中(Kong等,Nucleic AcidsRes 28:3216-3223(2000)),然后从质粒扩增。从pIVEX-GFP载体(Roche,Basel,Switzerland)扩增GFP基因。对于两个模板,T7启动子上游的5′-非翻译区相同。两个反向引物具有两个串联重复的PstI识别位点(CTGCAG)(图2A)。PCR产物用凝胶纯化。纯化DNA的浓度由A260读数和凝胶电泳测定。通过以变化的摩尔比1∶100、1∶103、1∶104和1∶105混合PstI和GFP模板来构建模式文库,终浓度为10ng/μl。
基因组文库构建
【0078】从NEB(Ipswich,MA)菌株保藏中心获得细菌菌株。根据厂商说明使用雾化器(Invitrogen,Carlsbad,CA,K7025-05)剪切约10μg纯化的gDNA。用异丙醇沉淀剪切的gDNA,重悬于水中并通过琼脂糖凝胶电泳从1kb至3kb按大小选择。按大小选择的gDNA的末端是不均一的,并使用PhusionTM聚合酶(3′→5′exo+)(Finnzymes,Espoo,Finland)用dNTP在72℃进行平头末端化2小时。使用T4多核苷酸激酶在37℃对纯化的平头末端化gDNA片段磷酸化1小时。
【0079】载体pYZ6源自pIVEX2.4(Roche,Basel,Switzerland),其具有下列修饰:(1)NruI位点(TCG↓CGA)和MscI位点(TGG↓CCA)已在紧接核糖体-结合位点之后添加至多克隆区以允许平头末端化DNA片段的插入;(2)将两个PstI位点添加至多克隆区之后(在TspMI基因组选择中的两个TspMI位点)。将环状pYZ6质粒通过NruI消化而线性化并纯化。使用T4连接酶在NruI(1U/10μl)存在下进行gDNA片段和pYZ6之间的连接,室温下过夜。从连接混合物纯化DNA。将1μl纯化的DNA转化至化学感受态细胞(NEB,Ipswich,MA,TurboTM)中,以判断文库质量并评价基因组覆盖程度。
【0080】然后,进行乳液PCR,以便使用引物561和825III从连接的gDNA“克隆地”扩增线性DNA模板(Williams等,Nat Methods 3:545-550(2006))。在1.5分钟内,在1000rpm下以滴加方式将200μl的PCR混合物水溶液添加至400μl搅拌油混合物(4.5%v/v Span 80(Fluka,Sigma-Aldrich,St.Louis,MO)、0.45%v/v Tween 80(Sigma-Aldrich,St.Louis,MO)、0.05%Triton-X100(EM BioSciences,San Diego,CA),在轻矿物油(Sigma-Aldrich,St.Louis,MO)中)中。完成添加后,继续搅拌5分钟。将乳液以10份50μl吸至PCR管中,并用矿物油覆盖。将反应加热至98℃,60s;然后循环30次(98℃10s、55℃20s、72℃90s);然后72℃,7min。将乳液PCR的引物与载体臂退火:正向引物561是T7启动子上游的~100nt,并且反向引物825III是PstI位点下游(参见表3)。从乳液PCR扩增的DNA如Williams等所述(Nat Methods3:545-550(2006))(图4A)纯化并用于体外选择。使用体外区室化进行选择
【0081】将重组PURETM系统(Post Genome Institute,Japan)用于体外转录/翻译反应。1200rpm(Telesystem HP15P,Variomag,Daytona Beach,FL)下,将50μl冷却的混合物水溶液(25μl溶液A来自PURETM系统,10μl溶液B PURETM系统,14μl H2O,1μl文库)添加至450μl搅拌的油混合物(0.5%v/v Triton X-100(EM Biosciences,San Diego,CA)和4.5%v/vSpan 80(Fluka,Sigma-Aldrich,St.Louis,MO),在轻矿物油(Sigma-Aldrich,St.Louis,MO)中),并搅拌另外5分钟。在37℃温育乳液2小时以进行体外转录/翻译。在PstI选择中,通过首先加热至80℃20分钟、然后添加50μl猝灭缓冲液(10mM Tris,20mM EDTA,pH=8.0)来停止乳液中的反应。然后将乳液在4℃以14,000rpm旋转15分钟。去除上层油相并通过用1ml水饱和醚萃取来破坏残留乳液。在Speedvac中旋转5分钟去除残留醚。用旋转-柱方法回收DNA文库并在50μl缓冲液EB(Qiagen,Valencia,CA)中洗脱。
【0082】每次乳液选择后的纯化DNA与过量(>100倍)的短双链衔接头(100-200nt)连接。用限制性酶消化从纯化的DNA切除衔接头(参见表3)。10μl连接混合物中的2μl用于衔接头-特异性PCR(初始98℃60s,30个循环:98℃10s、55℃20s、72℃60s,最终延伸72℃7min)。用于后续轮选择的正向引物被嵌套以增加PCR的特异性。PCR之后,DNA被旋转柱纯化并用于下一轮选择。
限制性内切核酸酶基因的特异性富集
【0083】限制性内切核酸酶基因的选择依赖于它们产生随后用于连接和PCR扩增的粘性末端的能力,如图1A所述。用于体外选择的DNA模板被工程化,使得在一端有用于有效转录和翻译的必要元件(T7启动子、核糖体结合位点),而在另一端有两个串联重复的PstI识别位点作为底物(图3A)。与体外转录/翻译系统混合的DNA模板被分散入上至1010个作为人工细胞的水液滴中(Tawfik等,Nat Biotechnol 16:652-656(1998))。在含有限制性内切核酸酶基因的液滴中,活性核酸内切酶在体外表达并切割其自身的编码DNA模板,在尾部留出粘性末端。活性核酸内切酶分子被限制在单个液滴中以确保基因型-表型关联。乳液中的反应停止之后,DNA模板被合并并放入具有过量衔接头的连接混合物中,所述过量衔接头具有可相容粘性末端。然后进行衔接头-特异性PCR以特异性地扩增与衔接头连接的DNA模板。这通过使用仅与衔接头杂交的反向引物来获得,而正向引物对所有DNA模板是通用的。
【0084】我们构建了模式文库,其由两个DNA模板组成,一个具有PstI可读框(ORF),另一个具有GFP ORF。将这两个模板以可变的摩尔比混合,并具有降低浓度的PstI模板。PstI模板的大小是约1.3kb,并且GFP模板是约1.2kb(图3A)。当起始所有模式选择时,使用大约1010个(1μl模式文库,10ng/μl)模板分子。相同量也用于对照实验。作为阳性对照,用纯PstI酶消化初始文库,然后用衔接头连接并进行PCR扩增。我们预测,文库中的所有模板会在阳性对照实验中扩增并且模板之间的最终摩尔比会反映缺乏基因型-表型关联情况下的选择效率。通过直接将初始文库放入连接反应然后进行PCR扩增来进行阴性对照。由于DNA模板是平头末端化的PCR产物,它们不会连接至具有粘性末端的衔接头,并且因此不被扩增。这在图3中得到证实,其显示了在阴性对照中的阴性结果,其说明没有非特异性连接或扩增。
【0085】使用PstI∶GFP=1∶100文库,得自单一轮选择的结果显示于图3B中。在阳性对照中,GFP被优先地扩增(图3B,泳道PC),因为它是起始文库中的优势种类,并且在阴性对照中,几乎没有DNA被扩增(图3B,泳道NC)。相反,乳液选择后,对应于PstI模板的亮条带以可比较的亮度出现在GFP条带上方(图3D和3F,泳道E)。综上所述,这些实验显示PstI模板的特异性富集。使用1∶1000文库在第一轮选择中观察到类似结果(图3C)。从条带亮度判断,选择后PstI和GFP之间的最终摩尔比大于1∶50并且测定为至少100倍富集。
【0086】在IVC选择中,位于同一液滴中的具有限制性内切核酸酶基因的所有模板作为“带出物(carryover)”被扩增。为消除“带出物”模板,在后续的选择之间使用不同的衔接头。图3C和3D显示使用1∶1000文库的两轮选择。第一轮后,PstI模板以大于100倍被富集(图3C,泳道E)。第一次PCR后纯化的DNA直接用于下一轮选择,其后PstI模板成为文库中的优势DNA种类(图3D,泳道E)。使用1∶104和1∶105文库的选择显示于图3E和3F中。第一次选择后,极少的DNA被扩增(图3E,泳道E)。第二次选择后(图3F),对应于PstI和GFP的条带都出现在凝胶上,并具有大约1∶1的比例。观察到在每轮选择中一致的100倍富集。
选择后克隆DNA
【0087】选择后的DNA条带被切出并在琼脂糖凝胶上纯化。然后,将选择的DNA用限制性酶消化(PstI选择中的PstI和TspMI选择中的XmaI)并连接至pLT7K中。将pLT7K设计为提供毒性基因(Kong等,NucleicAcids Res 28:3216-3223(2000))。将连接的DNA转化至NEB TurboTM(Ipswich,MA)中并在LB-Amp平板上铺板。将平板在37℃生长过夜。挑取单个克隆并在具有氨苄青霉素的LB培养基中生长。用微量-制备方法提取质粒并进行测序。
PstI基因的基因组选择
【0088】确定了限制性内切核酸酶基因从模式文库中有效地富集之后,我们继续挑战更复杂文库的系统。利用体外选择的对照实验提供从细菌基因组构建的文库,我们已知在所述细菌基因组中存在活性限制性内切核酸酶基因。通常细菌基因组的大小从小于1M碱基至接近10M碱基变化。通常的II型限制性内切核酸酶基因的大小为大约1kb。因此,从细菌gDNA构建的文库复杂性被计算为105。我们从已知PstI基因的天然宿主斯氏普罗威登斯菌(Providencia stuartii)中选择所述已知PstI基因,并随后从栖热菌某种(Thermus sp.)选择新的热稳定核酸内切酶TspMI基因。
【0089】基因组文库构建的示意图显示于图2。简言之,使用雾化器将纯基因组DNA(gDNA)剪切为小于5kb的片段。然后,对片段化的gDNA进行大小选择(1k-3k)、平头末端化和磷酸化。产生的gDNA片段与线性化的载体连接,所述线性化的载体具有体外转录/翻译和选择的必要元件。然后,通过使用乳液PCR,将与载体连接的gDNA“克隆地”扩增(Williams等,Nat Methods3:545-550(2006))。扩增的线性gDNA模板直接用于体外选择。使用乳液PCR的优势包括降低扩增偏差和增加基因组文库质量。
【0090】在选择过程中,我们通过PCR监测选择前后文库中两个参考基因的存在情况:一个是靶PstI基因,另一个是DNA甲基转移酶基因M.PstII的片段(Sears等,Nucleic Acids Res 33:4775-4787(2005)),其不具有核酸内切酶活性并且不位于染色体上PstI基因附近。图4显示基因组选择的全过程。起始基因组文库显示于图4Ai-4Aiii中,其中PstI和M.PstII片段都存在。注意到条带亮度不一定反映它们在基因组文库中的成比例丰度,原因在于在单个PCR效率方面可能存在差异。
【0091】图4Bi中的凝胶显示对乳化的基因组文库和阴性对照的第一衔接头-特异性PCR的结果。在这两个PCR之间没有明显差异。但是,在两个参考基因上的单个PCR表明,PstI基因在乳化的文库中富集而不在阴性对照中富集。对照基因M.PstII明显地没有被扩增(图4Bii和4Biii)。在乳化的文库中存在的M.PstII少于阴性对照的事实可能归因于在乳液选择中更大量的DNA样品损失纯化图4Bi中的泳道E并用于下一轮选择(图4(Ci)),其后仅期望的PstI基因存在于乳化样品中,而其他污染基因例如M.PstII被稀释掉(图4Ciii)。虽然看起来只有携带PstI的模板在第二选择中保存,但是其不足以在凝胶上清晰显现。纯化图4Ci中的泳道E并对其进行第三轮选择,其后~1.5kb的条带出现在乳化的文库中,而不出现于阴性对照中(图4Di)。对参考基因的单个PCR支持第三轮中一致的富集。随后证实,该1.5kb条带具有全部PstI基因组片段。这些结果强烈表明,PstI基因富集在所期望的过程后产生。
【0092】来自第三选择的~1.5kb条带被凝胶纯化,用PstI酶消化,并克隆至pLT7K中进行测序。质粒pLT7K被工程化改造以容纳极端毒性基因,其通过将克隆基因的控制抑制与反义启动子组合来对抗基础表达的致死作用(Kong等,Nucleic Acids Res 28:3216-3223(2000))。测序的插入物与全部测序的PstI限制-修饰系统比较(Roberts等,Nucleic Acids Res35:D269-270(2007)),并且结果证实在选择的gDNA中存在一种主要产物,其包括全部PstI ORF,具有起始密码子上游的3nt和终止密码子下游的~300nt。该结果明确显示,选择的DNA确实来自gDNA来源并不来自任何可能的污染。有趣的是,所有选择的基因组片段起始于PstI起始密码子上游3nt的观察结果表明,在基因组选择过程中,在翻译效率上可能存在选择压力。
TspMI基因的基因组选择
【0093】然后,我们将体外选择方法应用于另一个来自栖热菌某种(Thermus sp.)的热稳定核酸内切酶TspMI(识别序列C↓CCGGG)(Parashar等,Appl Microbiol Biotechnol 72:917-923(2006)),其以前未被克隆。TspMI在75-80℃具有最佳活性并在37℃保持约20%活性(Roberts等,Nucleic Acids Res 35:D269-270(2007))。基于这些事实,体外选择略微不同于PstI基因的选择,所述不同之处在于:(1)在文库构建中,基因组片段和载体之间的连接步骤在NruI和MscI酶单独存在下进行,以将任一酶在TspMI基因内部切割的机会最小化,所述切割会破坏待选择的靶基因;(2)首先在37℃温育乳液反应物用于体外转录/翻译,然后短暂移至65℃进行有效DNA切割;(3)由于TspMI酶不能通过热失活,只使用猝灭缓冲液来停止反应,并且DNA回收的过程在冰上进行。为了比对,还进行传统的甲基化酶选择(Szomolanyi等,Gene 10:219-225(1980))以对具有TspMI限制-修饰系统的基因组区域绘制图谱。
【0094】图5显示使用源于NruI连接的文库在每轮选择后的衔接头-特异性PCR。作为结果,在第三次选择后观察到多个条带。这些条带用TspMI的同切点酶XmaI(识别序列C↓CCGGG)消化,并克隆至载体pLT7K中。测序的具有插入物的克隆含有~1.1kb的ORF。该ORF与从传统甲基化酶选择方法获得的核酸内切酶基因相符,并且随后被证实编码活性TspMI核酸内切酶基因。具有基因组插入物的五个测序克隆的分析表明,所选择的基因组片段均起始于预测起始密码子下游的36个核苷酸并在终止密码子后可变的位点终止,导致琼脂糖凝胶上多个条带的模式。使用源于MscI连接的文库的选择不产生条带。随后发现在TspMI ORF中存在多个MscI位点,使得在连接步骤中核酸内切酶基因已被破坏。TspMI限制-修饰系统的序列显示于图7中。
【0095】TspMI限制-修饰系统在几个方式方面是令人感兴趣的。它含有通常的R和M基因以及切口核酸内切酶基因(V基因)——其通常连同m5C DNA甲基转移酶被发现。这些核酸内切酶识别胞嘧啶脱氨基作用后形成的G-T错配,所述胞嘧啶脱氨基是自发事件,如果未修正则会是诱变性的。基于序列比对,TspMI基因显示为识别CCCGGG的基因新家族的成员,因为它与已知的以SmaI和XmaI为代表的基因家族非常不相似(表2)。在REBASE中(Roberts等,Nucleic Acids Res 35:D269-270(2007)),SmaI家族具有6个基因,XmaI家族具有7个基因,它们全部伴有形成N4-甲基胞嘧啶的DNA甲基转移酶。在三种已知的情况下,被修饰的是识别序列中的第二碱基。基于该组中的序列相似性,可能它们都修饰这种相同碱基。相反,M.TspMI是m5C甲基转移酶,其显示与M.NmeAI(Cm5CGG)仅仅有限的相似性。
【0096】TspMI蛋白序列与BsoBI只具有远的相似性(P-值>0.1),其是另一热稳定限制性酶并识别C↓YCGRG(Y=C/T,R=A/G)。这将与BsoBI的不严格特异性一致,BsoBI识别两个序列CCCGAG和CTCGAG以及由TspMI识别的特异性序列CCCGGG。注意识别序列中的相关切割位置在两种酶中是相同的。图6显示TspMI和BsoBI连同也识别C↓YCGRG的其他两个相关酶AvaI和NspIII的多重比对。TspMI和BsoBI家族之间的序列保守性定位于催化基序EXK(图6的框)中(van der Woerd等,Structure 9:133-144(2001))。一个有趣的观察现象是,在BsoBI家族这一区域中的保守组氨酸残基——其表明作为碱对作为亲核试剂的水分子去质子化(van der Woerd等,Structure 9:133-144(2001))——在TspMI中被丝氨酸残基替换。这表明可能经由丝氨酸-调节的亲核攻击的略微不同的催化机理。BsoBI中的两个残基Asp246和Lys81(参见图6框中的箭头)——其表明识别简并碱基对并在BsoBI家族中是保守的——在TspMI中已改变为天冬氨酸保守和赖氨酸变为苯丙氨酸。这再次表明略微不同的碱基识别机制,其可能与TspMI的严谨特异性一致。
【0097】表1.在它们的编码序列内具有它们自身的识别位点的限制性内切核酸酶基因的统计*
*所有序列数据源于2007年2月的REBASE(Roberts等,Nucleic Acids Res35:D269-270(2007))。在分析中仅包括实验证实的限制性内切核酸酶基因。简并碱基“RYMKSW”(例如,R=A或G)计算为0.5个碱基;而“BDHV”(例如,B=C或G或T)计算为0.25个碱基。
【0098】表2.识别CCCGGG的限制酶序列家族
Figure A20088000581500302
Figure A20088000581500311
【0099】用于前两类限制-修饰系统的甲基转移酶在序列上是全部密切相关的,表明它们均修饰识别序列中的第二个胞嘧啶残基以形成N4-甲基胞嘧啶。相反,M.TspMI是m5C甲基转移酶,其显示与M.NmeAI(CmSCGG)有限的相似性。粗体显示的酶已进行生物化学表征,其他酶基于与XmaI或SmaI的序列相似性预测。
【0100】表3.用于富集靶基因的引物
Figure A20088000581500312
*载体-特异性引物退火至pYZ6质粒。引物561、590和625退火至T7启动子的上游区。引物825III退火至克隆位点下游区。590是561的嵌套引物,并且625是590的嵌套引物。
**衔接头-特异性引物-
【0101】对于PstI选择,制备三个衔接头:衔接头I凝胶纯化自PstI和DraIII对ΦX174DNA的消化物。特异性扩增引物是174_p1。衔接头II凝胶纯化自PstI和SapI对pUC19DNA的消化物。特异性扩增引物是pUC19_p1。衔接头III凝胶纯化自PstI和BsaI对pBR322DNA的消化物。特异性扩增引物是adaIII1。
【0102】对于TspMI选择,衔接头I凝胶纯化自XmaI和BglI对pUC19DNA的消化物。特异性扩增引物是Bamp。衔接头II凝胶纯化自XmaI和SapI对pUC19DNA的消化物。特异性扩增引物是Samp。衔接头III凝胶纯化自XmaI和BsaI对pBC4DNA的消化物。特异性扩增引物是BC44260。所有DNA底物和酶来自NEB,Ipswich,MA。
序列表
<110>新英格兰生物实验室公司
郑钰
R·J·罗伯茨
<120>使用体外区室化选择和富集蛋白质
<130>NEB-290-PCN
<150>60/903,258
<151>2007-02-23
<150>PCT/US08/54709
<151>2008-02-22
<160>15
<170>PatentIn version 3.4
<210>1
<211>315
<212>PRT
<213>鱼腥藻(Anabaena variabilis)
<400>1
Met Pro Tyr Gln Tyr His Ile Gln Ser Asn Asp Asp Leu Val Thr Pro
1               5                   10                  15
Tyr Gln Glu Val Arg Ala Gly Phe Val Ala Leu Ala Leu Glu Arg Asn
            20                  25                  30
Arg Lys Ala Thr Pro Phe Val Glu Gln Ala Arg Ala Leu Lys Ile Arg
        35                  40                  45
Val Ser Gln Ile Glu Arg Pro Gln Asp Leu Leu Gln Met Arg Asp Ile
    50                  55                  60
Arg Pro Thr Leu Leu Ala Ala Ser Gly Val Ser Asp Lys Ala Ala Gly
65                  70                  75                  80
His Leu Gln Glu Gln Asp Lys Val Asp Ala Ile Glu Gly Leu Ile Gln
                85                  90                  95
Asn Phe Leu Glu Pro Ala Gly Glu Asn Phe Val Glu Glu Leu Val Tyr
            100                 105                 110
Arg Phe Leu Leu Thr Arg Gly Asp Thr Leu Gly Gly Ser Met Arg Asn
        115                 120                 125
Val Gly Gly Ile Leu Ala Glu Arg Lys Phe Ala Arg Tyr Ile Ile Ser
    130                 135                 140
Ala Leu Thr Leu Ser Asn Thr Ser Tyr Lys Trp Leu Asp Lys Asn Ser
145                 150                 155                 160
Lys Thr Trp Leu Asn Gln Pro Asp Asp Asp Thr Asp Ile Glu Leu Arg
                165                 170                 175
Leu Arg Gly Leu Ser Trp Asn Leu Glu Gly Arg Asn Arg Thr Phe Ile
            180                 185                 190
Tyr Asn Val Asn Val Pro Ile Val Arg Lys Asn Ile Asp Ile Cys Leu
        195                 200                 205
Phe Asp Cys Arg Gln Asn Glu Ile Glu Lys Asn Ile Ile Ser Asn Pro
    210                 215                 220
Asn Ile Tyr Ile Ala Leu Gly Glu Leu Lys Gly Gly Ile Asp Pro Ala
225                 230                 235                 240
Gly Ala Asp Glu His Trp Lys Thr Ala Asn Ser Ala Leu Ala Arg Ile
                245                 250                 255
Arg Thr Ala Phe Asp Arg His Ser Leu Lys Pro Tyr Thr Phe Phe Val
            260                 265                 270
Gly Ser Ala Ile Glu Lys Ser Met Ala Glu Glu Ile Trp His Gln Leu
        275                 280                 285
Asn Ser Gly Ile Leu Thr Asn Ala Ala Asn Leu Thr Gln Pro Asp Gln
    290                 295                 300
Val Ala Ser Leu Cys Ala Trp Phe Ile Gln Leu
305                 310                 315
<210>2
<211>322
<212>PRT
<213>未知
<220>
<223>念珠藻属菌种(Nostoc species)C
<400>2
Met Ser Ser His Arg His His Leu Gln Ser Ser Asp Asp Leu Val Thr
1               5                   10                  15
Thr Tyr Glu Ala Thr Arg Ala Gly Phe Ile Ala Leu Ala Leu Glu Lys
            20                  25                  30
Asn Arg Arg Ala Thr Pro Tyr Val Ala Glu Ala Arg Ile Leu Gln Glu
        35                  40                  45
Ala Ala Ser Gln Ala Glu Lys Pro Ala Asp Leu Leu Asn Val Lys Gly
    50                  55                  60
Ile Glu Met Gly Leu Leu Thr Ala Ala Gly Leu Ser Glu Lys Ser Leu
65                  70                  75                  80
Ala His Leu Met Ala Glu Asp Lys Ile Glu Ala Ile Asn Gly Leu Ile
                85                  90                  95
Arg Asn Phe Leu Glu Pro Ala Gly Thr Asn Phe Val Glu Glu Leu Val
            100                 105                 110
Phe Arg Phe Leu Leu Thr Arg Gly Asp Thr Leu Gly Gly Ser Met Arg
        115                 120                 125
Asn Ile Gly Gly Ala Leu Ala Gln Arg Lys Leu Thr Arg Ala Ile Leu
    130                 135                 140
Ser Thr Leu Thr Ile Ala Gly Gln Lys Tyr Gln Trp Gln His Ser Lys
145                 150                 155                 160
Thr Lys Lys Trp Ile Ala Met Thr Asn Asp Asp Thr Asp Ile Glu Leu
                165                 170                 175
Ser Leu Arg Gly Ile Thr Trp Glu Ser Glu Phe Gly Asn Arg Thr Leu
            180                 185                 190
Ile Tyr Asn Leu Thr Val Pro Leu Val Lys Ser Asn Val Asp Leu Cys
        195                 200                 205
Leu Phe Asn Leu Ala Pro Lys Glu Leu Val Ala Asn Gln Ser Ser Ala
    210                 215                 220
Ile Asp Pro Ser Val Val Ala Pro Tyr Ala Ile Ala Leu Gly Glu Leu
225                 230                 235                 240
Lys Gly Gly Ile Asp Pro Ala Gly Ala Asp Glu His Trp Lys Thr Ala
                245                 250                 255
Gln Ala Ala Leu Asn Arg Ile Arg Glu Ala Phe Ser Arg Val Gly Tyr
            260                 265                 270
Ser Pro Leu Thr Phe Phe Val Gly Ser Ala Ile Ala Lys Arg Met Ala
        275                 280                 285
Gly Glu Ile Trp Ser Gln Leu Glu Asn Gly Thr Leu Ser Asn Ala Ala
    290                 295                 300
Asn Leu Asn Glu Glu His Gln Val Ala Ser Ile Ser Arg Trp Leu Tyr
305                 310                 315                 320
Gly Leu
<210>3
<211>323
<212>PRT
<213>未知
<220>
<223>嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)JN2091
<400>3
Met Asn Thr Gln Lys Pro Phe Glu Asn His Leu Lys Ser Val Asp Asp
1               5                   10                  15
Leu Lys Thr Thr Tyr Glu Glu Tyr Arg Ala Gly Phe Ile Ala Phe Ala
            20                  25                  30
Leu Glu Lys Asn Lys Arg Ser Thr Pro Tyr Ile Glu Arg Ala Arg Ala
        35                  40                  45
Leu Lys Val Ala Ala Ser Val Ala Lys Thr Pro Lys Asp Leu Leu Tyr
    50                  55                  60
Leu Glu Asp Ile Gln Asp Ala Leu Leu Tyr Ala Ser Gly Ile Ser Asp
65                  70                  75                  80
Lys Ala Lys Lys Phe Leu Thr Glu Asp Asp Lys Lys Glu Ser Ile Asn
                85                  90                  95
Asn Leu Ile Glu Asn Phe Leu Glu Pro Ala Gly Glu Glu Phe Ile Asp
            100                 105                 110
Glu Leu Ile Phe Arg Tyr Leu Leu Phe Gln Gly Asp Ser Leu Gly Gly
        115                 120                 125
Thr Met Arg Asn Ile Ala Gly Ala Leu Ala Gln Gln Lys Leu Thr Arg
    130                 135                 140
Ala Ile Ile Ser Ala Leu Asp Ile Ala Asn Ile Pro Tyr Lys Trp Leu
145                 150                 155                 160
Asp Ser Arg Asp Lys Lys Tyr Thr Asn Trp Met Asp Lys Pro Glu Asp
                165                 170                 175
Asp Tyr Glu Leu Glu Thr Phe Ala Lys Gly Ile Ser Trp Thr Ile Asn
            180                 185                 190
Gly Lys His Arg Thr Leu Met Tyr Asn Ile Thr Val Pro Leu Val Lys
        195                 200                 205
Lys Asn Val Asp Ile Cys Leu Phe Asn Cys Glu Pro Glu Ile Tyr Thr
    210                 215                 220
Pro Gln Lys Val His Gln Gln Pro Glu Lys Tyr Leu Leu Leu Gly Glu
225                 230                 235                 240
Leu Lys Gly Gly Ile Asp Pro Ala Gly Ala Asp Glu His Trp Lys Thr
                245                 250                 255
Ala Asn Thr Ala Leu Thr Arg Ile Arg Asn Lys Phe Ser Glu Lys Gly
            260                 265                 270
Leu Ser Pro Lys Thr Ile Phe Ile Gly Ala Ala Ile Glu His Ser Met
        275                 280                 285
Ala Glu Glu Ile Trp Asp Gln Leu Gln Ser Gly Ser Leu Thr Asn Ser
    290                 295                 300
Ala Asn Leu Thr Lys Thr Glu Gln Val Gly Ser Leu Cys Arg Trp Ile
305                 310                 315                 320
Ile Asn Ile
<210>4
<211>379
<212>PRT
<213>未知
<220>
<223>未鉴定嗜热菌(Unidentified thermophile)
<400>4
Met Ile Pro Glu His Gly Asn Arg Ser Asp Glu Thr Ile Lys Glu Leu
1               5                   10                  15
Ile Ala Arg Leu Pro Trp Ala Pro Glu Ser Leu Asp Thr Leu Glu Ser
            20                  25                  30
Glu Lys Glu Glu Ala Lys Lys Ile Asp Leu Leu Ser Arg Thr His Arg
        35                  40                  45
Gly Ala Glu Met Ile Arg Tyr Val Leu Thr His Met Glu Ser Ile Phe
    50                  55                  60
Lys Lys Ser Phe Ser Glu Glu Thr Thr Ser Pro Pro Ser Leu Gly Thr
65                  70                  75                  80
Phe Arg Phe Phe Pro Gln His Glu Gln Glu Gly Gln Lys Leu Ile Lys
                85                  90                  95
His Leu Leu Gln Gln Gly Ile Asn Pro Gln Ile Leu Phe Val Glu Ser
            100                 105                 110
Ser Ser Asp Phe Glu Lys Lys Thr Ile Lys Ala Ser Leu His Ala Gly
        115                 120                 125
Ile Thr Lys Lys Leu Ile Asn Asn Tyr Arg Thr Thr Asp Ser Asp Gln
    130                 135                 140
Leu Lys Gln Trp Ile Asn Ser Ala Ile Leu Leu Ala Phe Arg Thr Tyr
145                 150                 155                 160
Val Asp Leu Thr Gly Arg Lys Thr Phe Gln Glu Ser Trp Pro Glu Cys
                165                 170                 175
Val Thr Lys Glu Asp Val Ser Lys Phe Leu Glu Phe Thr Ala Thr Met
            180                 185                 190
Asn Leu Gly Val Met Ala Asp Gly Trp Trp Arg Asn Gln Val Gly Glu
        195                 200                 205
Lys Ala Val Gln Leu Phe Ile Asn Glu Ile Glu Lys Ala Leu Lys Lys
    210                 215                 220
Leu Tyr Ser Lys Lys Ser Tyr Arg Phe Glu Pro Asn Glu Asp Ser Pro
225                 230                 235                 240
Ser Val Arg Glu Tyr Ile Val Thr Asn Thr Thr Asn Glu Thr Gln Leu
                245                 250                 255
Ile Phe Arg Phe Gly Glu Pro Asp Phe Ser Val Lys Ile Arg Asn Glu
            260                 265                 270
Lys Met Glu Lys Ile Leu Ile Leu Gly Glu Ile Lys Gly Arg Phe Asp
        275                 280                 285
Lys Ser Asn Leu Gln Glu Ser Trp Tyr Thr Thr Ile Gln Asn Arg Met
    290                 295                 300
Gly Arg Ala Gly Asn Glu Gly Lys Asn Ala Ala Ser Val Phe Val Leu
305                 310                 315                 320
Val Gln Asn Tyr Phe Val Lys Glu Glu Lys Lys Gln Ile Asn Asp Leu
                325                 330                 335
Leu Asn Glu Ser Glu Lys Lys Gly Leu Lys Leu Gly Leu Phe Ser Leu
            340                 345                 350
Ala Lys Leu Met Phe Ser Gln Glu Glu Arg Arg Arg Phe Glu Glu Cys
        355                 360                 365
Ile Lys Gly Leu Ile Asp Leu Leu Glu Leu Arg
    370                 375
<210>5
<211>3271
<212>DNA
<213>未知
<220>
<223>未鉴定嗜热菌
<400>5
gcgcctggcg gagctggtga gggaggaggc gggggacctt caggaggctc ccgcccccag  60
ggaggagagg cccggggagg cccctcacgg ggggggcctc gagggctccc cgccgggcga  120
gggccaagcg gagcgccccc tcccccccta cctcacctac gtccgcaagg agtgccgcct  180
ccgccccgac cagctggacg ccctcaccgc cctggccggg agaggaaggg gaagggggaa  240
aggatcacgg agaacaccct catccgctgg gcggtggact tacttttgaa aaaactagag  300
ctggaaacgg ggagcgacgg aaaggaggtg acatgacgcg gatgttcgag acgcttgcag  360
aacttgagca cgcttttcaa aacttgcgcg aacaacttgg cgcaatggta acggcgaatg  420
aagactttcc ccttttggtc gtcgaccttt tttccggagc cggcggcatg tcctacggct  480
tcaaatattg gggggatagg ctttacaaaa taatcggtgc ggtggatctc gaggtggcca  540
aacccagcga cagcaaggca aaaaagggcg gcgggggaac gaactgcaac gccacatacg  600
aggccaatat cggcatacgc ccgttaaaag ccgatataac ggaacttaat ccccgtgaat  660
acagagaaaa tttgggtctt gaagtgggtc agttaggcgt acttatttcc tgcgccccct  720
gcacgggatt cagtcaaaaa aactttctga accaccagaa cgatgaccca cgaaaccact  780
tggtgaggag aagcggggtt tttttggagg aatttttacc agagttcttc gtgatggaaa  840
acgtcccaga aatgatgttg ggaaaacacc gtcaccattt tgaagaactg aaggagatac  900
tcgtaggttt gggttattcc tacaccgccg gcgtgttgga tttctccact ctaggtttgc  960
cgcaacgaag aaagcgtgcc gtggttatgg cctggcggga aggtagacga atcccggctc  1020
tacctcgctt tttctcttcc cctcctacgg tacgggaggc aatcggccat cttccacctc  1080
tctccgccgg agaaacacat ccaaacgatc cgatgcacag atgtccaagg cacaccccgg  1140
aggtcatgga aagaattaag gccgtaccca gggacggagg ttcctggatc gacttggcct  1200
ccagaaatcc ggaactcctt attccctcga tgaaaaggaa actacgggaa ggaaagaagg  1260
ggtcttttcc cgacgtctac ggacggatgt cctggaattc ccccgcgcct acgatcacga  1320
gggaatgcgg ccaccccggc aacggacgct acctacaccc cgaacaggac aggatgttat  1380
ctataaggga gatggctata ttacaaggtt ttcctcccaa ttacaccttt attggaaacc  1440
tcaaccaatg ctacaaccaa atcggagacg cggttccccc cctggtttct cgcacgattg  1500
cgggcctctt tctcctcctg aagctcgggc tgaactgggg ccaagtcatg aaccgccata  1560
tacatgtctc caatctcaat tggctttatt tcgaagagca cgtcccgaga gcgcaggtgg  1620
aacaggatcc tctcctaata ccctaagccg gttgccgtac atctagagga ggaaaacgat  1680
gatcccggaa cacggaaaca gaagcgacga aacaatcaag gaattaatcg cccgccttcc  1740
ctgggcaccc gaaagcttgg atacgctaga gagcgagaaa gaagaagcaa aaaaaatcga  1800
tttgctttcg agaacacata gaggtgcgga aatgatacgt tacgttctaa cacacatgga  1860
gtccatcttc aaaaaatcgt tctctgagga gactacctcc ccccctagcc tcggcacttt  1920
ccgcttcttt cctcagcatg aacaagaagg ccaaaagctt ataaagcatc ttttacaaca  1980
aggcataaac ccgcaaattc ttttcgtaga aagtagttcc gattttgaga aaaaaacaat  2040
aaaagcaagt ttacacgcag gcataaccaa aaaactcatc aacaactacc gcacgacgga  2100
cagcgatcag ctcaaacagt ggatcaactc ggcaatactc ctcgccttcc ggacctacgt  2160
tgatttgact gggaggaaaa ccttccaaga aagctggcca gagtgcgtaa ccaaagaaga  2220
cgtctcaaaa ttcttggagt ttaccgcaac gatgaacttg ggagtcatgg cggacggctg  2280
gtggagaaac caggtaggtg agaaagctgt gcaacttttc ataaatgaaa tcgagaaggc  2340
gttgaagaag ctttattcaa aaaaatccta tcgttttgag cctaacgagg acagcccgag  2400
cgtccgcgaa tacatcgtaa ccaacaccac caacgaaacg caactgattt ttcgattcgg  2460
agaaccagat ttttctgtaa aaatccgcaa cgaaaaaatg gaaaaaatac tcattttagg  2520
cgaaataaag gggcgctttg acaaatcgaa cctacaagag agctggtaca caaccatcca  2580
aaataggatg ggaagggcag gaaacgaggg caaaaacgcg gccagtgttt ttgttcttgt  2640
tcaaaattac tttgtgaagg aagaaaagaa acaaataaat gatcttttga acgaaagtga  2700
aaaaaagggc ctcaagttgg gtcttttcag cttggccaag ttgatgttct ctcaagagga  2760
gaggcgaaga tttgaagaat gcatcaaagg cctgatcgac cttctagagc tccgataacc  2820
ctggcaacag cttcctgcgg cgcctttttc aattcatgtt cccaaatcct tacgaccgac  2880
cacccctgtc tggccaggag ttcatcaact cgtgcatcgc gttgcctgtt ctcttttatc  2940
ttcctcctcc aaaactccgc attcgtctta ggtttcttat tacagacggg gcaaccgtgc  3000
cagaaacatc cgtcgacaaa aatcgccact ttccgtttgg gaaatacgac atccggtcgc  3060
ccaggaaggt tgttttttat acggtagccc cttataccgg caacccgcaa gagacgacgc  3120
aactttactt ccggtcccgt ggaggaagtc tttactttcc tcatcaactc agatcttttc  3180
tccggagtaa aaatatccat aaaaaccccg tgtcgaaatc ggctcggctt aatcctagac  3240
aagcacttcc ggcagcgccc gggcggcctc c                                 3271
<210>6
<211>24
<212>DNA
<213>未知
<220>
<223>载体-特异性引物
<400>6
ggtgatgccg gccacgatgc gtcc                                         24
<210>7
<211>29
<212>DNA
<213>未知
<220>
<223>载体-特异性引物
<400>7
gcgtagagga tcgagatctc gatcccgcg    29
<210>8
<211>26
<212>DNA
<213>未知
<220>
<223>载体-特异性引物
<400>8
cgactcacta tagggagacc acaacg       26
<210>9
<211>27
<212>DNA
<213>未知
<220>
<223>载体-特异性引物
<400>9
ttccggatct tagttagtta ccggatc      27
<210>10
<211>30
<212>DNA
<213>未知
<220>
<223>衔接头-特异性引物
<400>10
gttgtaaaac gacggccagt gaattcgagc   30
<210>11
<211>28
<212>DNA
<213>未知
<220>
<223>衔接头-特异性引物
<400>11
gcttgcatgc ctgcaggtcg actctaga     28
<210>12
<211>31
<212>DNA
<213>未知
<220>
<223>衔接头-特异性引物
<400>12
gaacggtcgt caagattgat ggtctgtgtg c 31
<210>13
<211>24
<212>DNA
<213>未知
<220>
<223>衔接头-特异性引物
<400>13
gtagttcgcc agttaatagt ttgc                     24
<210>14
<211>30
<212>DNA
<213>未知
<220>
<223>衔接头-特异性引物
<400>14
gcgcgcttcg ataaaaatga ttggcgtatc               30
<210>15
<211>30
<212>DNA
<213>未知
<220>
<223>衔接头-特异性引物
<400>15
aggaaacagc tatgaccatg attacgccaa               30

Claims (34)

1.一种方法,其包括:
(a)提供多核苷酸片段文库,其中一个或更多个多核苷酸片段包括:编码具有所期望活性的蛋白的靶基因;
(b)将所述片段文库包封在乳液中的多个水液滴中,其中所述多个液滴中的每个水液滴含有:
(i)具有转录和翻译活性的酶混合物;和
(ii)来自所述多核苷酸片段文库的一个或更多个多核苷酸片段;
(c)使得来自所述文库的所述靶基因被转录和翻译,以使所述靶基因的表达允许所述多核苷酸片段通过连接酶共价连接至多核苷酸衔接头;和
(d)使用衔接头-特异性引物扩增所述靶基因。
2.根据权利要求1所述的方法,其进一步包括:在所述靶基因转录和翻译之后和所述衔接头连接至所述多核苷酸片段之前,破坏所述多个水液滴。
3.根据权利要求1所述的方法,其进一步包括:在连接之后和扩增所述基因之前,破坏所述多个水液滴。
4.根据权利要求1所述的方法,其中所述靶基因的表达允许所述多核苷酸片段通过所述多核苷酸片段和所述多核苷酸衔接头上的互补粘性末端连接至所述衔接头。
5.根据权利要求1所述的方法,其中每个所述水液滴进一步含有(iii)一个或更多个第二多核苷酸片段,其非来自于所述文库并编码规定的第二蛋白。
6.根据权利要求5所述的方法,其中所述一个或更多个所述第二多核苷酸片段包括:编码具有多核苷酸切割活性的蛋白的至少一个基因。
7.根据权利要求1所述的方法,其进一步包括:
(e)将所述扩增的靶基因和用于转录和翻译所述基因的酶混合物包封于第二乳液中的多个水液滴中;
(f)允许靶基因被表达和允许通过连接酶连接至第二多核苷酸衔接头;
(g)使用对所述第二衔接头有特异性的引物扩增所述靶基因;和
(h)任选地重复步骤(e)-(g)。
8.根据权利要求7所述的方法,其中任选地重复步骤(e)-(g)包括用权利要求1所述的衔接头或第三衔接头替换所述第二衔接头,用于连接至多核苷酸片段,其中所述第三衔接头具有不同于所述第二衔接头的多核苷酸序列,所述第二衔接头具有不同于所述第一衔接头的多核苷酸序列。
9.根据权利要求1所述的方法,其中所述步骤(d)中的扩增所述靶基因提供所述多核苷酸片段文库中所述靶基因的至少50倍富集。
10.根据权利要求1所述的方法,其中所述文库中的所述多核苷酸片段在所述基因序列以外的所述片段区域中具有限制性内切核酸酶和切口核酸内切酶中的至少一种的识别序列。
11.根据权利要求1所述的方法,其进一步包括:通过用所述靶基因表达的所述蛋白切割所述一个或更多个多核苷酸片段,在所述一个或更多个多核苷酸片段上形成粘性末端,其中切割任选地包括由酶试剂或由第二多核苷酸片段中的基因编码的蛋白提供的第二酶活性。
12.根据权利要求1所述的方法,其中所述多核苷酸片段文库含有基因组DNA。
13.根据权利要求7所述的方法,其中所述靶基因是天然发生基因并且所述方法进一步包括:(i)从所述扩增的DNA克隆所述天然发生靶基因。
14.根据权利要求1所述的方法,其中所述靶基因是诱变的基因,其具有所期望的切割、合成或连接蛋白活性。
15.根据权利要求1所述的方法,其中所述靶基因编码的所述蛋白具有连接酶活性。
16.根据权利要求1所述的方法,其中所述靶基因编码的所述蛋白具有多核苷酸切割活性。
17.根据权利要求16所述的方法,其中所述多核苷酸切割活性选自限制性内切核酸酶切割活性、切口核酸内切酶活性和回归核酸内切酶活性。
18.根据权利要求1所述的方法,其中所述靶基因编码的所述蛋白具有转录或翻译活性。
19.根据权利要求18所述的方法,其中所述靶基因编码的所述蛋白具有tRNA合成酶活性。
20.根据权利要求1所述的方法,其中所述靶基因编码的所述蛋白具有逆转录酶活性。
21.根据权利要求13所述的方法,其中所述靶基因编码具有下列活性的蛋白,所述活性选自:连接酶活性、多核苷酸-切割活性、转录或翻译活性和逆转录活性。
22.根据权利要求14所述的方法,其中所述靶基因编码具有下列活性的蛋白,所述活性选自:连接酶活性、多核苷酸-切割活性、转录或翻译活性和逆转录活性。
23.根据权利要求1所述的方法,其中所述蛋白具有非天然的靶多核苷酸切割活性。
24.根据权利要求1所述的方法,其中所述蛋白的所述活性包括:(i)结合至DNA上的识别位点,和(ii)在距非天然发生的识别序列一定距离处切割所述DNA。
25.根据权利要求1所述的方法,其中每个水液滴包括多个多核苷酸片段,其中至少一个所述多核苷酸片段包括编码具有限制性内切核酸酶活性的蛋白的基因。
26.根据权利要求5所述的方法,其中所述规定的第二蛋白是限制性内切核酸酶。
27.根据权利要求26所述的方法,其中所述靶基因编码选自tRNA合成酶和逆转录酶的蛋白。
28.根据权利要求1所述的方法,其中所述多个液滴各自包括:限制性内切核酸酶试剂。
29.根据权利要求23所述的方法,其中所述多核苷酸片段包括RNA,并且所述RNA编码具有逆转录酶活性的蛋白。
30.分离的DNA,其编码TspMI限制性内切核酸酶,其与SEQ ID NO:5具有至少90%的序列同源性。
31.载体,其包括:权利要求30所述的分离的DNA。
32.宿主细胞,其用权利要求31所述的载体转化。
33.疏水液体中的亲水溶液乳液,其中所述亲水溶液形成多个液滴,每个所述液滴含有:
(i)具有转录和翻译活性的酶混合物;和
(ii)来自多核苷酸片段文库的多核苷酸片段,所述多核苷酸片段具有粘性末端或能够切割所述多核苷酸以产生粘性末端的酶的识别位点。
34.根据权利要求32所述的乳液,其进一步包括:
(iii)具有粘性末端的多核苷酸衔接头,所述粘性末端与所述多核苷酸片段上产生或存在的所述粘性末端互补。
CN200880005815.1A 2007-02-23 2008-02-22 使用体外区室化选择和富集蛋白质 Pending CN101617046A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US90325807P 2007-02-23 2007-02-23
US60/903,258 2007-02-23

Publications (1)

Publication Number Publication Date
CN101617046A true CN101617046A (zh) 2009-12-30

Family

ID=39521829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200880005815.1A Pending CN101617046A (zh) 2007-02-23 2008-02-22 使用体外区室化选择和富集蛋白质

Country Status (7)

Country Link
US (3) US8153358B2 (zh)
EP (1) EP2118280B1 (zh)
JP (1) JP2010518863A (zh)
CN (1) CN101617046A (zh)
AT (1) ATE490319T1 (zh)
DE (1) DE602008003757D1 (zh)
WO (1) WO2008103900A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105297143A (zh) * 2015-09-22 2016-02-03 江苏大学 基于乳液不对称PCR的ssDNA次级文库的制备方法
CN106460066A (zh) * 2014-06-11 2017-02-22 赛普有限责任公司 通过液滴分选的核苷酸序列排除富集(needls)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8524457B2 (en) 2009-09-22 2013-09-03 William Patterson Method for the selection of specific affinity binders by homogeneous noncompetitive assay
PL389135A1 (pl) * 2009-09-28 2011-04-11 Michał Lower Sposób i sonda DNA do otrzymywania endonukleaz restrukcyjnych, zwłaszcza o pożądanej specyficzności sekwencyjnej
EP2539450B1 (en) * 2010-02-25 2016-02-17 Advanced Liquid Logic, Inc. Method of making nucleic acid libraries
EP2622073B1 (en) * 2010-09-27 2018-04-18 Vipergen A method for making an enriched library
WO2013009927A2 (en) 2011-07-11 2013-01-17 Advanced Liquid Logic, Inc. Droplet actuators and techniques for droplet-based assays
WO2014144822A2 (en) 2013-03-15 2014-09-18 Immumetrix, Inc. Methods and compositions for tagging and analyzing samples
EP3555288B1 (en) * 2016-12-19 2021-02-03 Editas Medicine, Inc. Emulsion-based screening methods

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9608540D0 (en) 1996-04-25 1996-07-03 Medical Res Council Isolation of enzymes
DE69826697T2 (de) 1997-07-07 2006-02-16 Medical Research Council In vitro selektionsmethode
GB0022458D0 (en) * 2000-09-13 2000-11-01 Medical Res Council Directed evolution method
GB0110549D0 (en) * 2001-04-30 2001-06-20 Gendaq Ltd Selection method
US20030049603A1 (en) 2001-09-05 2003-03-13 Guy Gorochov Methods for construction and screening of libraries of chemokine variants
CA2498764C (en) 2002-09-20 2015-11-10 New England Biolabs, Inc. Helicase dependent amplification of nucleic acids
US20060210982A1 (en) * 2003-01-31 2006-09-21 Hiroshi Yanagawa Cleavable assigned molecules and screening method using the same
WO2004081183A2 (en) * 2003-03-07 2004-09-23 Rubicon Genomics, Inc. In vitro dna immortalization and whole genome amplification using libraries generated from randomly fragmented dna
US20060078893A1 (en) * 2004-10-12 2006-04-13 Medical Research Council Compartmentalised combinatorial chemistry by microfluidic control
GB0307403D0 (en) * 2003-03-31 2003-05-07 Medical Res Council Selection by compartmentalised screening
GB0307428D0 (en) * 2003-03-31 2003-05-07 Medical Res Council Compartmentalised combinatorial chemistry
ATE386113T1 (de) * 2003-10-01 2008-03-15 Eth Zuerich Verfahren zur in vitro evolution von polypeptiden
EP1691792A4 (en) * 2003-11-24 2008-05-28 Yeda Res & Dev COMPOSITIONS AND METHODS FOR IN VITRO / I SORTING OF MOLECULAR AND CELLULAR BANKS
US20050221339A1 (en) * 2004-03-31 2005-10-06 Medical Research Council Harvard University Compartmentalised screening by microfluidic control
WO2006051552A2 (en) * 2004-11-15 2006-05-18 Yeda Research And Development Co. Ltd. At The Weizmann Institute Of Science Directed evolution and selection using in vitro compartmentalization

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106460066A (zh) * 2014-06-11 2017-02-22 赛普有限责任公司 通过液滴分选的核苷酸序列排除富集(needls)
CN105297143A (zh) * 2015-09-22 2016-02-03 江苏大学 基于乳液不对称PCR的ssDNA次级文库的制备方法

Also Published As

Publication number Publication date
EP2118280A2 (en) 2009-11-18
US8153358B2 (en) 2012-04-10
JP2010518863A (ja) 2010-06-03
US20120172236A1 (en) 2012-07-05
US8753847B2 (en) 2014-06-17
US20130331300A1 (en) 2013-12-12
US20080206832A1 (en) 2008-08-28
US8551734B2 (en) 2013-10-08
WO2008103900A3 (en) 2008-10-30
ATE490319T1 (de) 2010-12-15
EP2118280B1 (en) 2010-12-01
DE602008003757D1 (de) 2011-01-13
WO2008103900A2 (en) 2008-08-28

Similar Documents

Publication Publication Date Title
CN101617046A (zh) 使用体外区室化选择和富集蛋白质
CN110431229B (zh) 热稳定的Cas9核酸酶
CN107075511B9 (zh) 合成子的形成
US9228179B2 (en) Polymerase
Frauenkron‐Machedjou et al. Towards understanding directed evolution: more than half of all amino acid positions contribute to ionic liquid resistance of Bacillus subtilis lipase A
US20080004436A1 (en) Directed Evolution and Selection Using in Vitro Compartmentalization
EP2527438A1 (en) Methods and compositions for DNA fragmentation and tagging by transposases
CN103710323A (zh) 用于dna断裂和标记的固定化的转座酶复合体
Marner et al. Enzyme immobilization via silaffin‐mediated autoencapsulation in a biosilica support
Lülsdorf et al. A first continuous 4-aminoantipyrine (4-AAP)-based screening system for directed esterase evolution
US20200056224A1 (en) Barcoded transposases to increase efficiency of high-accuracy genetic sequencing
Samuelson et al. The isolation of strand-specific nicking endonucleases from a randomized SapI expression library
Skirgaila et al. Compartmentalization of destabilized enzyme–mRNA–ribosome complexes generated by ribosome display: a novel tool for the directed evolution of enzymes
Zheng et al. Selection of restriction endonucleases using artificial cells
Blondal et al. Discovery and characterization of a thermostable bacteriophage RNA ligase homologous to T4 RNA ligase 1
Zatopek et al. The Hyperthermophilic restriction-modification Systems of Thermococcus kodakarensis protect genome integrity
JP7022699B2 (ja) トランスポザーゼ競合物制御系
Ohtani et al. Junction ribonuclease activity specified in RNases HII/2
De Falco et al. The DNA primase of Sulfolobus solfataricus is activated by substrates containing a thymine-rich bubble and has a 3′-terminal nucleotidyl-transferase activity
Williams Restriction endonucleases and their uses
Khezri et al. An Efficient Approach for Two Distal Point Site-Directed Mutagenesis from Randomly Ligated PCR Products
CN117947000A (zh) 一种CRISPR-Cas系统及方法
Sharma et al. Restriction enzymes from thermophiles
Rothschild et al. CRISPR/Cas9-Assisted Transformation-Efficient Reaction (CRATER) for near-perfect selective transformation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20091230