CN108699600A

CN108699600A - 改进的新一代测序

Info

Publication number: CN108699600A
Application number: CN201780012938.7A
Authority: CN
Inventors: B·纳尔逊; M·马尔滕; T·A·波尔森; M·巴吉森; P·拉迈亚
Original assignee: Novo Nordisk AS
Current assignee: Novo Nordisk AS
Priority date: 2016-02-23
Filing date: 2017-02-23
Publication date: 2018-10-23
Also published as: EP3420104A1; WO2017147294A1; US20190048413A1

Abstract

本发明能够在仅仅一轮PCR扩增和随后的片段化之后，通过和所谓的新一代测序之后，通过以下方法通过NGS确定一个或多个长度大于大约800bp的目标多核苷酸的全核苷酸序列：在每种多核苷酸的至少一个末端加上至少一种已知的寡核苷酸标记，产生延长的多核苷酸，其中加在每种多核苷酸上的每种已知的寡核苷酸标记是独特的；将延长的多核苷酸片段化；使用桥式扩增和新一代测序通过成对的正向和反向读出对获得的片段进行测序；基于已知的寡核苷酸对成对的正向和反向序列读出进行分类；和对分类的成对序列进行人工或计算机模拟组装，从而提供多种多核苷酸中每一种的全编码序列。

Description

改进的新一代测序

序列表参考

本申请含有计算机可读形式的序列表。在此将计算机可读形式并入作为参考。

发明领域

本发明使得在仅仅一轮PCR扩增、随后的片段化(fragmentation)和所谓的新一代测序之后能够确定长度大于大约500bp的一个或多个目标多核苷酸的全核苷酸序列。

背景技术

DNA测序仪(Inc.USA)的出现使得能够进行所谓的“新一代测序”(NGS)，其能够由单一读出(single read)实现大约300个核苷酸的连续测序读出，或者使用具有50-100个核苷酸的重叠以保证两个读出(read)正确合并的正向读出(大约300个核苷酸)和反向读出(大约250个核苷酸)实现大约500个核苷酸的连续测序读出。

为了用NGS对更长的多核苷酸进行测序，通常将DNA片段化，然后分离出大小适宜的片段(<500核苷酸)，将接头-(adaptor-)或标记-(index-)寡核苷酸连接在DNA片段上。接头(adaptor)可以带有独特的(unique)核苷酸序列——一种可以用于在混合样品的片段之间进行区分的标记(index)。接头还具有用于使NGS测序仪的流动池退火的特定DNA序列。将这些接头与片段连接要求加入用于DNA提纯的酶和磁珠。加入接头多多少少要耗时，并且当然地增加了较长序列NGS过程的成本。

Novozymes例行制造上千种新的不同的酶编码基因，需要确定或验证这些基因的核苷酸序列。酶编码基因长度通常为800-3000bp。

需要有可以迅速、低成本地提供上千种大小范围为800-3,000bp的酶编码基因或基因变体的全序列的测序方法。

发明内容

本发明能够在仅仅一轮PCR扩增和随后的片段化(fragmentation)之后，通过NGS确定长度大于大约800bp的一个或多个目标多核苷酸的全核苷酸序列。PCR反应可以在包括目标多核苷酸的培养细胞、这些细胞的孢子或者包括目标多核苷酸的其他材料上直接进行。

将独特的标记寡核苷酸引入到每个变体的PCR扩增中，例如，在PCR反应的正向引物上。PCR反应平行进行，产生的PCR产物混合(合并)在一起。然后将含有来自不同变体的DNA的该PCR产物混合物片段化，理想地使用随机片段化，以在每个基因变体上得到一个随机定位的切割。

接下来，例如，通过从琼脂糖凝胶上切割片段，分离出大小超过NGS 500bp测序限制的DNA片段。然后，向分离出的片段混合物中加入含有另一标记的测序接头寡核苷酸，使得该目标样品可以与其他DNA测序样品在同一NGS运行中一起多重进行(multiplex)。

在测序运行之后，将样品得到的所有成对序列读出经由首次PCR过程中加入的标记序列分解(demultiplex)。这样做使得如果在一个读出上发现标记，如独特的标记所示将相应的配对读出分类至相同来源的基因变体(或微量滴定板中的位置)。当独特标记得到的所有读出针对参考序列定位/对比或者从头组装之后，可以得到长度大于800bp的序列。具有单个标记引物的方法的示意图参见图1，具有两个标记引物的方法的示意图参见图2。

例如，随机片段化可以通过使用所谓的片段化酶(fragmentase)或一种或多种限制性内切酶或者通过物理剪切进行。片段化酶是用于核酸的随机片段化的酶或酶混合物。它可以由两种酶组成，其中一种在双链DNA上随机产生缺口，另一种识别缺口位点，并切割缺口对边相对的DNA链，导致双链DNA的断裂。另外可选地，片段化酶系统可以使用依赖于修饰的核酸内切酶，其要求在之前的PCR步骤中引入修饰的碱基。

片段化产生不同长度的DNA片段，但仅有仍具有开始时的标记的DNA片段将被退火至NGS流动池。因此，标记得到的所有读出总是处于PCR产物的开始。每个这些分类的读出还具有来自NGS测序过程的配对读出。配对读出在DNA片段的另一端开始。由于片段化之后DNA片段大小的变化，其位置在片段之间有变化。

靠近起始标记的测序覆盖度(coverage)将总是远高于其中仅有配对读出有贡献的朝向PCR产物另一端的覆盖度。该方法仅有的限制是可以产生配对读出的DNA的长度。Inc.目前指出，可以在其机器的流动池上有效的桥式扩增(bridge-amplified)的最大DNA长度为1kb。在方法中，在测序之前，使用桥式PCR或聚簇PCR在测序芯片上扩增克隆序列。将侧面连接有接头的DNA文库的单个分子在芯片上用密集覆盖测序芯片表面的引物进行扩增。这导致了紧密束缚(tethered)且局部含有的克隆PCR产物，其可以在基于荧光的可逆终止测序过程中给出良好的信号。这被称作是桥式扩增，因为在扩增一条链之后，DNA需要架桥(bridge over)，使得DNA的另一端与芯片上的另一引物解除，以开始反向链的扩增。

使用PCR产物开始时的正向标记和PCR结束时的反向标记，使可能的测序长度翻番，使得可以对1600bp以上进行测序。该方法的优势在于，对于每个变体，单个独立PCR反应的平行制备很容易，例如，在96孔或384孔PCR仪器中。每个变体使用两种标记的引物。这些引物很短，以两个碱基开始，有长度为8个碱基的标记序列和18-22个碱基的退火区。PCR反应可以非常低的体积进行(<5微升)，因为在将许多独立的样品集中之后，对后续的片段化和片段大小选择而言得到足够的起始材料。在此，例如，对于96或384孔样品，仅需要测序接头的再次连接。

因此，在第一个方面，本发明提供用于确定多种多核苷酸的全编码序列的方法，所述方法包括以下步骤：

a)提供多种多核苷酸，

b)在每种多核苷酸的至少一个末端加上至少一种已知的寡核苷酸标记(index)，产生延长的多核苷酸，其中加在每种多核苷酸上的每种已知的寡核苷酸标记是独特的；

c)将延长的多核苷酸片段化；

d)使用桥式扩增和新一代测序通过成对的正向和反向读出对获得的片段进行测序；

e)基于至少一种已知的寡核苷酸标记对成对的正向和反向序列读出进行分类；和

f)对分类的成对序列进行人工或生物信息学模拟(in silico)组装，从而提供多种多核苷酸中每一种的全编码序列。

附图说明

图1显示了本发明用一种标记引物进行测序的原理示意图。

图2显示了本发明用两种标记引物进行测序的原理示意图。

图3显示了两块琼脂糖凝胶电泳凝胶的照片：左图的凝胶显示了10或12分钟碎片化之后的2μg DNA。右图的凝胶显示在切除具有片段化DNA的琼脂糖之后的相同DNA。泳道1：DirectLoad^TM宽范围DNA标记物(Sigma Aldrich)，其显示长度为1500、1400、1000、750、500、400、300、200、100、50bp的DNA带。泳道2：10分钟片段化；提取大小范围800-1100bp的DNA(称作B2HDF)。泳道2：10分钟片段化；提取大小范围500-1300bp的DNA(称作B2HDG)。泳道3：10分钟片段化；提取大小范围100-1300bp的DNA(称作B2HDJ)。泳道4：12分钟片段化；提取大小范围800-1100bp的DNA(称作B2HDH)。泳道2：12分钟片段化；提取大小范围500-1300bp的DNA(称作B2HDK)。泳道3：12分钟片段化；提取大小范围100-1300bp的DNA(称作B2HDM)。

图4显示了来自具有不同Savinase变体的16个孔的每个结果的图。底部的序列覆盖度是对于位置从7805至9005的所有16个孔的第10个位置处的每一个进行作图的覆盖度。Savinase的编码序列从位置7867至9009。覆盖度/总读出是对于每个样品，将覆盖度除以总的读出数，以得到独立于所得读出的可比较数值。位置是DNA的。注意：由于灰度图所限，不同孔的线难以区分，但对于每一个使跨16个孔得到的覆盖度范围可视化的不同的线进行了很好的显示。

图5显示了两块琼脂糖凝胶电泳凝胶的照片。将2μg大小不同的PCR扩增子用NEBNext dsDNA片段化酶(M0348S)随机片段化，并在琼脂糖凝胶上分析。泳道1和10显示了具有来自1400和1500bp的厚双带的DirectLoad^TM宽范围DNA标记物(Sigma Aldrich)。泳道3显示A1-4，泳道4显示A5-A8，泳道5显示A9-A12，泳道6显示A13-16，泳道7显示A17-A20，泳道8显示A21-24。A1-4的原始大小为1040bp，A5-8为1361，A9-12为1650bp，A13-16为1940bp，A17-20为2257bp，A21-24为1247bp。片段化模式在左图中被视作是拖尾(smearing)。右图显示了对于每种PCR扩增子切出的是哪些大小范围。

图6显示了对于同样长度PCR片段的扩增，来自引物组1-4的4个PCR样品的平均覆盖度。将平均覆盖度在xylR-xylA-xylB基因组序列的参考位置之上进行作图。

图7显示了具有相同长度的4个PCR样品在xylR-xylA-xylB基因组序列的参考位置之上的平均覆盖度。

具体实施方式

定义

编码序列：术语“编码序列”是指直接指定多肽的氨基酸序列的多核苷酸。编码序列的边界通常由开放阅读框决定，其通常起始于例如ATG、GTG或TTG的起始密码子，并结束于例如TAA、TAG或TGA的终止密码子。编码序列可以是基因组DNA、cDNA、合成DNA或其组合。

控制序列：术语“控制序列”是指对编码本发明的成熟多肽的多核苷酸的表达所必需的核酸序列。每个控制序列对于编码多肽的多核苷酸可以是原生的(native)(即来自相同基因)或外源的(foreign)(即来自不同基因)，或者对于彼此是原生的或外源的。这些控制序列包括，但不限于，前导序列、聚腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。最小程度地，控制序列包括启动子以及转录和翻译终止信号。出于引入促进控制序列与编码多肽的多核苷酸编码区的连接的特定限制位点的目的，控制序列可以提供有连接区(linker)。

新一代测序：新一代测序使用与经典桑格链终止法从根本上不同的方法。其通过DNA合成技术——随DNA链的复制追踪加上的标记核苷酸——以大量平行的方式进行测序。通过合成测序(SBS)的技术使用四种荧光标记核苷酸在流动池表面上对数以千万计的簇平行地进行测序。在每个测序周期中，在核酸链上加上单独标记的脱氧核苷三磷酸(dNTP)。核苷酸标记物充当聚合终止子，使得在每次引入dNTP之后，使荧光染料成像，以识别出碱基，然后酶切割，以使得引入下一个核苷酸。由于存在有所有4种可逆终止子-连接的dNTP(A、C、T、G)作为单个独立的分子，天然的竞争使得引入的偏离得以最小化。每个周期中直接从信号强度测量结果作出碱基响应(base call)，其与其他技术相比较，大大降低了原始误差率。最终结果是高度准确的逐个碱基的测序，其消除了序列-背景(sequence-context)特定误差，使得能够进行稳健的碱基响应。本发明第一方面使用的新一代测序的优选装置是市售的MiSeq测序仪(Inc,USA)。

桥式扩增：与使用基于小珠的乳液PCR产生“聚合酶克隆(polonies)”的454和ABI方法相反，使用独特的在流动池表面上发生的“桥式”扩增或桥式-扩增反应。将流动池表面涂覆以与样品制备阶段中连接的接头的序列对应的单链寡核苷酸。将连接接头的单链片段结合在暴露于用于基于聚合酶的延长的试剂的流动池表面上。启动在连接的片段的游离/远端“桥接”至表面上的互补寡核苷酸时发生。重复的变性和延长导致跨过流动池表面上的数百万独特位置中单个分子的局部扩增。该过程在称作Illumina的“聚簇站(cluster station)”——一种自动化流动池处理器中发生。示意图还可从网站获得，其很好地对基本原理加以解释。

表达：术语“表达”包括产生多肽所涉及的任何步骤，其包括，但不限于，转录、转录后修饰、翻译、翻译后修饰和分泌。

表达载体：术语“表达载体”是指包括编码多肽的多核苷酸、并且与提供其表达的控制序列可操作连接的线性或环状DNA分子。

宿主细胞：术语“宿主细胞”是指任何易感于转录、转染和转导等过程的具有包括本发明多核苷酸的核酸构建体或表达载体的细胞类型。术语“宿主细胞”包括由于在复制过程中发生突变而与亲本细胞不同的亲本细胞的任何子代。

分离的：术语“分离的”是指天然不存在的形式或环境中的物质。分离的物质的非限定性例子包括(1)任何非天然物质；(2)任何物质，包括但不限于，任何酶、变体、核酸、蛋白质、肽或辅因子，其是至少部分地从一种或多种或全部天然存在的成分中去除的，借此其在性质上相关联；(3)任何相对于天然发现的物质通过人工修饰的物质；或(4)任何通过增加物质相对于其他组分的量而修饰的物质，借此其天然相关(例如，在宿主细胞中重组产生；编码该物质的基因的多重拷贝；和使用比与编码该物质的基因天然相关的启动子更强的启动子)。

成熟多肽：术语“成熟多肽”是指翻译和任何翻译后修饰例如N-端加工、C-端截短、糖基化、磷酸化等之后的最终形式的多肽。

成熟多肽编码序列：术语“成熟多肽编码序列”是指编码成熟多肽的多核苷酸。

核酸构建体：术语“核酸构建体”是指如下的单链或双链核酸分子：其由天然存在的基因分离，或者以自然界不再存在的方式修饰成含有核酸片段，或者其是合成的，其包括一个或多个控制序列。

可操作连接：术语“可操作连接”是指如下结构：其中控制序列位于相对于多核苷酸的编码序列的适当位置处，使得控制序列指导编码序列的表达。

序列同一性：两个氨基酸序列之间或者两个核苷酸序列之间的相关性通过参数“序列同一性”来描述。

出于本发明的目的，两个氨基酸序列之间的序列同一性使用如EMBOSS软件包(EMBOSS:The European Molecular Biology Open Software Suite,Rice等人,2000,Trends Genet.16:276-277)的Needle程序执行的Needleman-Wunsch算法确定(Needleman和Wunsch,1970,J.Mol.Biol.48:443-453)，优选5.0.0版或更新版本。使用的参数：空位开放罚分(gap open penalty)为10，空位延长罚分为0.5，EBLOSUM62(BLOSUM62的EMBOSS版本)替代矩阵。标记为“最长同一性”(使用-nobrief选项获得)的Needle输出用作百分比同一性，计算如下：

(相同残基x 100)/(序列比对的长度-序列比对中缺口的总数)

出于本发明的目的，两个脱氧核苷酸序列之间的序列同一性使用如EMBOSS软件包(EMBOSS:The European Molecular Biology Open Software Suite,Rice等人,2000,同上)的Needle程序执行的Needleman-Wunsch算法确定(Needleman和Wunsch,1970,同上)，优选5.0.0版或更新版本。使用的参数：空位开放罚分为10，空位延长罚分为0.5，EDNAFULL(NCBI NUC4.4的EMBOSS版本)替代矩阵。标记为“最长同一性”(使用-nobrief选项获得)的Needle输出用作百分比同一性，计算如下：

(相同脱氧核苷酸x 100)/(序列比对的长度-序列比对中缺口的总数)

发明详述

在第一个方面，本发明涉及用于确定多种多核苷酸的全编码序列的方法，所述方法包括以下步骤：

a)提供多种多核苷酸，

b)在每种多核苷酸的至少一个末端加上至少一种已知的寡核苷酸标记，产生延长的多核苷酸，其中加在每种多核苷酸上的每种已知的寡核苷酸标记是独特的；

c)将延长的多核苷酸片段化；

f)对分类的成对序列进行人工或生物信息学模拟组装，从而提供多种多核苷酸中每一种的全编码序列。

在优选的实施方式中，本发明第一方面的多种多核苷酸包括一种或多种启动子。

另外可选地，在第一方面的另一优选实施方式中，多种多核苷酸编码一种或多种目标多肽或者一种或多种目标多肽的变体。优选地，一种或多种目标多肽是一种或多种酶，优选地选自：水解酶、异构酶、连接酶、裂解酶、氧化还原酶或转移酶，例如，α-半乳糖苷酶、α-葡糖苷酶、氨肽酶、淀粉酶、β-半乳糖苷酶、β-葡糖苷酶、β-木糖苷酶、糖化酶、羧肽酶、过氧化氢酶、纤维二糖水解酶、纤维素酶、壳多糖酶、角质酶、环糊精糖基转移酶、脱氧核糖核酸酶、内切葡聚糖酶、酯酶、葡糖淀粉酶、转化酶、漆酶、脂肪酶、甘露糖苷酶、变聚糖酶(mutanase)、氧化酶、果胶分解酶、过氧化物酶、植酸酶、多酚氧化酶、蛋白水解酶、核糖核酸酶、转谷氨酰胺酶或木聚糖酶。

在另一优选实施方式中，步骤(c)中延长的多核苷酸是随机片段化的。另外可选地，步骤(c)中延长的多核苷酸通过一种或多种核酸内切酶片段化的。

优选地，桥式扩增和新一代测序在MiSeq测序仪(可购自Inc,USA)中进行。

优选地，第一方面方法中的分类步骤通过生物信息学模拟进行。另外优选地，组装通过与已知的参考核苷酸序列比对辅助进行。

多肽来源

本发明第一方面中编码目标多肽的多种多核苷酸可以获自任何属的微生物，或者其可以是合成的变体。出于本发明的目的，如本文所用，与指定来源有关的术语“获自”是指由多核苷酸编码的多肽通过指定来源产生，或者通过其中已经插入来自指定来源的多核苷酸的菌株产生。在一方面，获自指定来源的多肽是细胞外分泌的。

多肽可以是细菌多肽。例如，多肽可以是革兰氏阳性细菌多肽，例如，具有[酶]活性的芽孢杆菌属(Bacillus)、梭菌属(Clostridium)、肠球菌属(Enterococcus)、杆菌属(Geobacillus)、乳杆菌属(Lactobacillus)、乳球菌属(Lactococcus)、大洋芽孢杆菌属(Oceanobacillus)、葡萄球菌属(Staphylococcus)、链球菌属(Streptococcus)或链霉菌属(Streptomyces)多肽，或者是革兰氏阴性细菌多肽，例如弯曲杆菌属(Campylobacter)、大肠杆菌(E.coli)、黄杆菌属(Flavobacterium)、梭杆菌属(Fusobacterium)、螺杆菌属(Helicobacter)、泥杆菌属(Ilyobacter)、奈瑟氏球菌属(Neisseria)、假单胞菌属(Pseudomonas)、沙门氏菌属(Salmonella)或脲原体属(Ureaplasma)多肽。

优选地，多肽是嗜碱芽孢杆菌(Bacillus alkalophilus)、高地芽孢杆菌(Bacillus altitudinis)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)、解淀粉芽孢杆菌植物亚种(B.amyloliquefaciens subsp.plantarum)、短芽孢杆菌(Bacillusbrevis)、环状芽孢杆菌(Bacillus circulans)、克劳氏芽孢杆菌(Bacillus clausii)、凝结芽孢杆菌(Bacillus coagulans)、坚强芽孢杆菌(Bacillus firmus)、灿烂芽孢杆菌(Bacillus lautus)、缓慢芽孢杆菌(Bacillus lentus)、地衣芽孢杆菌(Bacilluslicheniformis)、巨大芽孢杆菌(Bacillus megaterium)、甲基营养型芽孢杆菌(Bacillusmethylotrophicus)、短小芽孢杆菌(Bacillus pumilus)、沙福芽孢杆菌(Bacillussafensis)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)、枯草芽孢杆菌(Bacillussubtilis)或苏云金芽孢杆菌(Bacillus thuringiensis)多肽。

另外可选地，多肽可以是似马链球菌(Streptococcus equisimilis)、酿脓链球菌(Streptococcus pyogenes)、乳房链球菌(Streptococcus uberis)、马链球菌兽疫亚种(Streptococcus equi subsp.Zooepidemicus)多肽，或者不产色链霉菌(Streptomycesachromogenes)、阿维链霉菌(Streptomyces avermitilis)、天蓝色链霉菌(Streptomycescoelicolor)、灰色链霉菌(Streptomyces griseus)或变铅青链霉菌(Streptomyceslividans)多肽。

多肽可以是真菌的。例如，多肽可以是酵母多肽，例如念珠菌属(Candida)、克鲁维酵母菌属(Kluyveromyces)、毕赤酵母属(Pichia)、酵母属(Saccharomyces)、裂殖酵母属(Schizosaccharomyces)或亚罗酵母属(Yarrowia)多肽；或者丝状真菌多肽，例如枝顶孢属(Acremonium)、伞菌属(Agaricus)、链格孢属(Alternaria)、曲霉属(Aspergillus)、短梗霉属(Aureobasidium)、葡萄座腔菌(Botryospaeria)、拟蜡霉属(Ceriporiopsis)、毛喙壳属(Chaetomidium)、金孢子霉属(Chrysosporium)、麦角菌属(Claviceps)、旋孢腔菌属(Cochliobolus)、鬼伞属(Coprinopsis)、乳白蚁属(Coptotermes)、棒囊壳属(Corynascus)、栗疫菌(Cryphonectria)、隐球菌属(Cryptococcus)、色二孢属(Diplodia)、黑耳属(Exidia)、丝梗霉属(Filibasidium)、镰孢菌属(Fusarium)、赤霉菌属(Gibberella)、全鞭毛虫属(Holomastigotoides)、腐质霉属(Humicola)、耙菌属(Irpex)、香菇属(Lentinula)、小球腔菌属(Leptospaeria)、巨座壳属(Magnaporthe)、马兰诺菌属(Melanocarpus)、亚灰树花菌属(Meripilus)、毛霉属(Mucor)、毁丝霉属(Myceliophthora)、新美鞭菌属(Neocallimastix)、脉孢菌属(Neurospora)、拟青霉属(Paecilomyces)、青霉菌属(Penicillium)、平革菌属(Phanerochaete)、瘤胃壶菌属(Piromyces)、Poitrasia、假黑盘菌属(Pseudoplectania)、假披发虫属(Pseudotrichonymph)、根毛霉属(Rhizomucor)、裂褶菌属(Schizophyllum)、柱顶孢霉属(Scytalidium)、踝节菌属(Talaromyces)、嗜热子囊菌属(Thermoascus)、梭孢壳属(Thielavia)、弯颈霉属(Tolypocladium)、木霉属(Trichoderma)、长毛盘菌属(Trichophaea)、轮枝孢属(Verticillium)、小包脚菇属(Volvariella)或炭角菌属(Xylaria)多肽。

优选地，多肽是卡尔酵母(Saccharomyces carlsbergensis)、酿酒酵母(Saccharomyces cerevisiae)、糖化酵母(Saccharomyces diastaticus)、道格拉氏酵母(Saccharomyces douglasii)、克鲁弗酵母(Saccharomyces kluyveri)、诺地酵母(Saccharomyces norbensis)或卵形酵母(Saccharomyces oviformis)多肽，或者解纤维枝顶孢霉(Acremonium cellulolyticus)、棘孢曲霉(Aspergillus aculeatus)、泡盛曲霉(Aspergillus awamori)、臭曲霉(Aspergillus foetidus)、烟曲霉(Aspergillusfumigatus)、日本曲霉(Aspergillus japonicus)、构巢曲霉(Aspergillus nidulans)、黑曲霉(Aspergillus niger)、米曲霉(Aspergillus oryzae)、Chrysosporium inops、嗜角质金孢子菌(Chrysosporium keratinophilum)、Chrysosporium lucknowense、Chrysosporium merdarium、毡金孢子菌(Chrysosporium pannicola)、Chrysosporiumqueenslandicum、热带金孢子菌(Chrysosporium tropicum)、Chrysosporium zonatum、杆孢状镰孢(Fusarium bactridioides)、禾谷镰孢(Fusarium cerealis)、库威镰孢(Fusarium crookwellense)、大刀镰孢(Fusarium culmorum)、禾本科镰孢(Fusariumgraminearum)、禾赤镰孢(Fusarium graminum)、异孢镰孢(Fusarium heterosporum)、合欢木镰孢(Fusarium negundi)、尖镰孢(Fusarium oxysporum)、多枝镰孢(Fusariumreticulatum)、粉红镰孢(Fusarium roseum)、接骨木镰孢(Fusarium sambucinum)、肤色镰孢(Fusarium sarcochroum)、拟分枝镰孢(Fusarium sporotrichioides)、硫色镰孢(Fusarium sulphureum)、圆镰孢(Fusarium torulosum)、拟丝孢镰孢(Fusariumtrichothecioides)、镶片镰孢(Fusarium venenatum)、灰霉质霉(Humicola grisea)、特异腐质霉(Humicola insolens)、疏棉状腐质霉(Humicola lanuginosa)、白囊耙齿菌(Irpexlacteus)、米黑毛霉(Mucor miehei)、嗜热毁丝霉(Myceliophthora thermophila)、粗糙脉胞菌(Neurospora crassa)、绳状青霉(Penicillium funiculosum)、产紫青霉(Penicillium purpurogenum)、黄孢平革菌(Phanerochaete chrysosporium)、无色梭壳孢(Thielavia achromatica)、Thielavia albomyces、Thielavia albopilosa、Thielaviaaustraleinsis、Thielavia fimeti、小孢梭孢壳(Thielavia microspora)、卵孢梭孢壳(Thielavia ovispora)、Thielavia peruviana、毛梭孢壳(Thielavia setosa)、瘤孢梭孢壳(Thielavia spededonium)、耐热梭孢壳(Thielavia subthermophila)、土生梭孢壳(Thielavia terrestris)、哈茨木霉(Trichoderma harzianum)、康氏木霉(Trichodermakoningii)、长枝木霉(Trichoderma longibrachiatum)、里氏木霉(Trichoderma reesei)或绿色木霉(Trichoderma viride)多肽。

应当理解到，对于前述物种，本发明包括完全和不完全的阶段，以及其它的分类学等同物，例如无性型，而无论它们已知的种名如何。本领域技术人员将会很容易识别适合的等同物的身份。

这些物种的菌株很容易从许多培养物保藏机构公开取得，例如美国典型培养物保藏中心(American Type Culture Collection)(ATCC)、德意志微生物和细胞培养物保藏中心(Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH)(DSMZ)、真菌菌种保藏中心(Centraalbureau Voor Schimmelcultures)(CBS)和农业研究机构专利培养物保藏中心北区研究中心(Agricultural Research Service Patent Culture Collection、Northern Regional Research Center)(NRRL)。

多肽可以使用前述探针从其它包括分离自自然界(例如，土壤、堆肥、水等)的微生物或者直接获自天然材料(例如，土壤、堆肥、水等)的DNA样品的来源识别并获得。用于从天然生境直接分离微生物和DNA的技术是本领域公知的。然后可通过类似地筛选另一微生物或混合DNA样品的基因组DNA或cDNA文库来得到编码多肽的多核苷酸。一旦用探针检测到编码多肽的多核苷酸，可以采用本领域普通技术人员已知的技术分离或克隆多核苷酸(参见，例如，Sambrook等人，1989，同上)。

多核苷酸

本发明还涉及编码目标多肽的多核苷酸，如本文所述。

用于分离或克隆多核苷酸的技术是本领域已知的，包括从基因组DNA或cDNA或者其组合分离。例如，通过使用公知的聚合酶链式反应(PCR)或表达文库的抗体筛选，以检测具有共享结构特征的克隆的DNA片段，可以作用于从基因组DNA克隆多核苷酸。参见，例如，Innis等人,1990,PCR:A Guide to Methods and Application,Academic Press,NewYork。可以使用其他的核酸扩增程序，如连接酶链式反应(LCR)、连接激活转录(LAT)和基于多核苷酸的扩增(NASBA)。

编码本发明多肽的多核苷酸的修饰对于合成与多肽基本上类似的多肽来说可以是必需的。术语与多肽“基本上类似”是指多肽的非天然存在的形式。这些多肽可以一些改造的方式区别于从其天然来源分离的多肽，例如，特定活性、热稳定性、pH最优值等不同的变体。变体可以通过以下方法构建：基于作为成熟多肽编码序列呈递的多核苷酸例如其亚序列，和/或通过引入不导致多肽氨基酸序列的变化、但对应于旨在用于酶制造的宿主微生物的密码子用途的核苷酸置换，或者通过引入引起不同氨基酸序列的核苷酸置换。核苷酸置换的概述参见，例如，Ford等人,1991,Protein Expression and Purification 2:95-107。

核酸构建体

本发明还涉及核酸构建体，其包括与一个或更多个控制序列可操作连接的本发明的多核苷酸，所述控制序列在合适的表达宿主细胞中在与控制序列相容的条件下指导编码序列的表达。

多核苷酸可以通过多种方式操纵，以提供多肽的表达。取决于表达载体，多核苷酸在其插入到载体中之前的操纵可以是理想的或必需的。使用重组DNA方法修饰多核苷酸的技术是本领域公知的。

控制序列可以是启动子——宿主细胞识别的用于表达编码本发明多肽的多核苷酸的多核苷酸。启动子含有介导多肽表达的转录控制序列。启动子可以是在宿主细胞中表现出转录活性的任何多核苷酸，包括突变的、截短的和杂交启动子，并且可以从编码与宿主细胞同源或异源的细胞外或细胞内多肽的基因获得。

合适的用于指导本发明的核酸构建体在细菌宿主细胞中转录的启动子的例子是获自以下基因的启动子：解淀粉芽孢杆菌α-淀粉酶基因(amyQ)、地衣芽孢杆菌α-淀粉酶基因(amyL)、地衣芽孢杆菌青霉素酶基因(penP)、嗜热脂肪芽孢杆菌麦芽糖淀粉酶(amyM)、枯草芽孢杆菌果聚糖蔗糖酶基因(sacB)、枯草芽孢杆菌xylA和xylB基因、苏云金芽孢杆菌(Bacillus thuringiensis)cryIIIA基因(Agaisse和Lereclus,1994,MolecularMicrobiology 13:97-107)、大肠杆菌lac操纵子、大肠杆菌trc启动子(Egon等人,1988,Gene 69:301-315)、天蓝链霉菌琼脂水解酶基因(dagA)和原核β-内酰胺酶基因(Villa-Kamaroff等人,1978,Proc.Natl.Acad.Sci.USA 75:3727-3731)以及tac启动子(DeBoer等人,1983,Proc.Natl.Acad.Sci.USA 80:21-25)。其他的启动子描述于“Useful proteinsfrom recombinant bacteria”，Gilbert等人,1980,Scientific American 242:74-94；以及Sambrook等人,1989,同上。串联启动子的例子描述于WO 99/43835。

合适的用于指导本发明的核酸构建体在丝状真菌宿主细胞中转录的启动子的例子是获自以下基因的启动子：构巢曲霉乙酰胺酶、黑曲霉中性α-淀粉酶、黑曲霉酸稳定性α-淀粉酶、黑曲霉或泡盛曲霉葡糖淀粉酶(glaA)、米曲霉TAKA淀粉酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、尖孢镰刀菌胰蛋白酶样蛋白酶(WO 96/00787)、镰孢霉淀粉葡糖苷酶(WO 00/56900)、镰孢霉Daria(WO 00/56900)、镰孢霉Quinn(WO 00/56900)、米黑根毛霉(Rhizomucor miehei)脂肪酶、米黑根毛霉天冬氨酸蛋白酶、里氏木霉β-葡糖苷酶、里氏木霉纤维二糖水解酶I、里氏木霉纤维二糖水解酶II、里氏木霉内切葡聚糖酶I、里氏木霉内切葡聚糖酶II、里氏木霉内切葡聚糖酶III、里氏木霉内切葡聚糖酶V、里氏木霉木聚糖酶I、里氏木霉木聚糖酶II、里氏木霉木聚糖酶III、里氏木霉β-木糖苷酶和里氏木霉翻译延长因子以及NA2-tpi启动子(来自曲霉属中性α-淀粉酶基因的修饰启动子，其中未翻译的前导序列已经被来自曲霉属磷酸丙糖异构酶基因的未翻译的前导序列取代；非限定性例子包括来自黑曲霉中性α-淀粉酶基因的修饰启动子，其中未翻译的前导序列已经被来自构巢曲霉或米曲霉磷酸丙糖异构酶基因的未翻译的前导序列取代)；和其突变的、截短的和杂交启动子。其他启动子描述于美国专利第6,011,147号中。

在酵母宿主中，可用的启动子获自酿酒酵母烯醇酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸酯脱氢酶(ADH1,ADH2/GAP)、酿酒酵母磷酸丙糖异构酶(TPI)、酿酒酵母金属硫蛋白(CUP1)和酿酒酵母3-磷酸甘油酸激酶的基因。Romanos等人,1992,Yeast 8:423-488中描述了其它可用的酵母宿主细胞的启动子。

控制序列也可以是转录终止子，其被宿主细胞识别以终止转录。终止子与编码多肽的多核苷酸的3’-端可操作连接。在本发明中可以使用任何在宿主细胞中起作用的终止子。

优选的细菌宿主细胞的终止子获自克劳氏芽孢杆菌碱性蛋白酶(aprH)、地衣芽孢杆菌α-淀粉酶(amyL)、和大肠杆菌核糖体RNA(rrnB)的基因。

优选的丝状真菌宿主细胞的终止子获自构巢曲霉乙酰胺酶、构巢曲霉邻氨基苯甲酸酯合成酶、黑曲霉葡糖淀粉酶、黑曲霉α-葡糖苷酶、米曲霉TAKA淀粉酶、尖孢镰刀菌胰蛋白酶样蛋白酶、里氏木霉β-葡糖苷酶、里氏木霉纤维二糖水解酶I、里氏木霉纤维二糖水解酶II、里氏木霉内切葡聚糖酶I、里氏木霉内切葡聚糖酶II、里氏木霉内切葡聚糖酶III、里氏木霉内切葡聚糖酶V、里氏木霉木聚糖酶I、里氏木霉木聚糖酶II、里氏木霉木聚糖酶III、里氏木霉β-木糖苷酶和里氏木霉翻译延长因子的基因。

优选的酵母宿主细胞的终止子获自酿酒酵母烯醇酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸酯脱氢酶的基因。同上的Romanos等人,1992中描述了其它可用的酵母宿主细胞的终止子。

控制序列也可以是启动子下游、基因编码序列上游的增加基因表达的mRNA稳定区(stabilizer region)。

合适的mRNA稳定区的例子获自苏云金芽孢杆菌cryIIIA基因(WO 94/25612)和枯草芽孢杆菌SP82基因(Hue等人,1995,Journal of Bacteriology 177:3465-3471)。

控制序列也可以是前导序列——对于宿主细胞翻译来说非常重要的mRNA的非翻译区。前导序列与编码多肽的多核苷酸的5’-端可操作地连接。可以使用任何在宿主细胞中起作用的前导序列。

优选的丝状真菌宿主细胞的前导序列获自米曲霉TAKA淀粉酶和构巢曲霉磷酸丙糖异构酶的基因。

适合用于酵母宿主细胞的前导序列获自酿酒酵母烯醇酶(ENO-1)、酿酒酵母3-磷酸甘油酸酯激酶、酿酒酵母α-因子和和酿酒酵母醇脱氢酶/甘油醛-3-磷酸酯脱氢酶(ADH2/GAP)的基因。

控制序列也可以是聚腺苷酸化序列——与多核苷酸的3’-端可操作连接的序列，在转录时，被宿主细胞识别为在转录的mRNA上增加聚腺苷残基的信号。可以使用任何在宿主细胞中起作用的聚腺苷酸化序列。

优选的丝状真菌宿主细胞的聚腺苷酸化序列获自构巢曲霉邻氨基苯甲酸酯合成酶、黑曲霉葡糖淀粉酶、黑曲霉α-葡糖苷酶、米曲霉TAKA淀粉酶和尖孢镰刀菌胰蛋白酶样蛋白酶的基因。

Guo和Serman,1995,Mol.Cellular Biol.15:5983-5990中描述了可用的酵母宿主细胞的聚腺苷酸化序列。

控制序列也可以是信号肽编码区，其编码与多肽的N-端连接的信号肽，并指导多肽进入细胞分泌途径。多核苷酸编码序列的5’-端可以内在地含有信号肽编码序列，该信号肽编码序列与编码多肽的编码序列片段在翻译读框中天然地连接。另外可选地，编码序列的5’-端可以含有编码序列外源的信号肽编码序列。当编码序列并未天然地包含信号肽编码序列时，可以需要有外源的信号肽编码序列。另外可选地，外源信号肽编码序列可以简单地取代天然信号肽编码序列，以便提高多肽的分泌。但是，可以使用任何指导表达的多肽进入宿主细胞分泌途径的信号肽编码序列。

有效的细菌宿主细胞的信号肽编码序列是获自芽孢杆菌NCIB11837麦芽糖淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌α-淀粉酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA的基因的信号肽编码序列。Simonen和Palva,1993,Microbiological Reviews 57:109-137中描述了其他的信号肽。

有效的丝状真菌宿主细胞的信号肽编码序列是获自黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米曲霉TAKA淀粉酶、特异腐质霉(Humicola insolens)纤维素酶、特异腐质霉内切葡聚糖酶V、疏棉状腐质霉(Humicola lanuginosa)脂肪酶和米黑根毛霉天冬氨酸蛋白酶的基因的信号肽编码序列。

可用的酵母宿主细胞信号肽获自酿酒酵母α-因子和酿酒酵母转化酶的基因。同上的Romanos等人,1992描述了其它可用的信号肽编码序列。

控制序列还可以是编码位于多肽N-端的前肽的前肽编码序列。生成的多肽称作酶原或多肽原(在一些情况下称作酵素原)。多肽原通常是非活性的，可以通过来自多肽原的前肽的催化或自催化切割转化为活性多肽。前肽编码序列可以获自枯草芽孢杆菌碱性蛋白酶((aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、嗜热毁丝霉漆酶(WO 95/33836)、米黑根毛霉天冬氨酸蛋白酶和酿酒酵母α-因子的基因。

当信号肽和前肽序列二者均存在时，前肽序列的位置紧挨着多肽的N-端，信号肽序列的位置紧挨着前肽序列的N-端。

添加调节相对于宿主细胞生长的多肽的表达的调节序列也可以是合意的。调节序列的例子有响应于包括调节化合物的存在的化学或物理刺激而导致基因表达打开或关闭的系统。原核系统中的调节序列包括lac、tac和trp操纵子系统。在酵母中，可以使用ADH2系统或GAL1系统。在丝状真菌中，可以使用黑曲霉葡糖淀粉酶启动子、米曲霉TAKAα-淀粉酶启动子和米曲霉葡糖淀粉酶启动子、里氏木霉纤维二糖水解酶I启动子和里氏木霉纤维二糖水解酶II启动子。调节序列的其它例子为允许基因扩增的调节序列。在真核系统中，这些调节序列包括在氨甲喋呤的存在下扩增的二氢叶酸还原酶基因和用重金属扩增的金属硫蛋白基因。在这些情况下，编码多肽的多核苷酸将会与调节序列可操作地连接。

表达载体

本发明还涉及包括编码本发明的多核苷酸、启动子、转录和翻译终止信号的重组表达载体。可以将各种核苷酸和控制序列结合在一起以产生重组表达载体，该重组表达载体可以包括一个或多个方便的限制位点以允许在这些位点处插入或置换编码多肽的多核苷酸。另外可选地，可以通过在适当的表达载体内插入多核苷酸或包括多核苷酸的核酸构建体来表达多核苷酸。在产生表达载体时，编码序列位于载体中，使得编码序列与用于表达的适当控制序列可操作地连接。

重组表达载体可以是任何可以方便地进行重组DNA方法并可以引起多核苷酸表达的载体(例如质粒或病毒)。载体的选择通常取决于载体与载体要引入的宿主细胞的相容性。载体可以是线性或闭环质粒。

载体可以是自主复制的载体，即，作为染色体外实体存在的载体，其复制不依赖于染色体复制，例如，质粒、染色体外元件、微型染色体或人工染色体。载体可以含有任何确保自身复制的工具。另外可选地，载体可以是在引入到宿主细胞中时整合到基因组中并与其中已经整合入载体的染色体一起复制的载体。而且，可以使用单个载体或质粒，或两种或更多种载体或质粒，或者转座子，该载体或质粒一起含有要引入到宿主细胞基因组中的完整DNA。

载体优选含有一种或更多种使得转化、转染、转导等的细胞容易选择的选择标记物。选择标记物是其产物提供杀生物剂或病毒抗性、重金属抗性、对营养缺陷型的原养型等的基因。

合适的细菌选择标记物为地衣芽孢杆菌或枯草芽孢杆菌dal基因或者产生抗生素抗性(例如氨苄青霉素、氯霉素、卡那霉素、新霉素、壮观霉素或四环素抗性)的标记物。合适的酵母宿主细胞标记物包括，但不限于，ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。丝状真菌宿主细胞中使用的选择标记物包括，但不限于，adeA(磷酸核糖氨基咪唑-琥珀羧胺合成酶)、adeB(磷酸核糖氨基咪唑合成酶)、amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰转移酶)、bar(草丁膦乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸盐还原酶)、pyrG(乳清酸核苷-5’-磷酸酯脱羧酶)、sC(硫酸酯腺苷酰转移酶)和trpC(邻氨基苯甲酸酯合成酶)以及其等同物。优选用于曲霉属细胞中的为构巢曲霉或米曲霉amdS和pyrG基因以及吸水链霉菌(Streptomyces hygroscopicus)bar基因。优选用于木霉属细胞中的为adeA、adeB、amdS、hph和pyrG基因。

选择标记物可以是WO 2010/039889中所述的双重选择标记物系统。一方面，双重选择标记物系统是hph-tk双重选择标记物系统。

载体优选地含有允许载体整合到宿主细胞基因组中或者允许载体在细胞中不依赖于基因组自主复制的元件。

对于向宿主细胞基因组中的整合，载体可以依赖于多核苷酸的编码多肽的序列或载体的任何其它元件，用以通过同源或非同源重组整合到基因组中。另外可选地，载体可以含有额外的多核苷酸，该多核苷酸用于通过同源重组指导整合在染色体的精确位置处进入宿主细胞基因组。为了提高在精确位置处整合的可能性，整合元件应当含有充分数量的核酸，例如100-10,000个碱基对、400-10,000个碱基对以及800-10,000个碱基对，其与对应的目标序列具有高度的序列同一性，以提高同源重组的概率。整合元件可以是任何与宿主细胞基因组中的目标序列同源的序列。而且，整合元件可以是非编码或编码多核苷酸。在另一方面，载体可以通过非同源重组整合到宿主细胞的基因组中。

对于自主复制，载体可以进一步包括使得载体能够在所讨论的宿主细胞中自主复制的复制起点。复制起点可以是任何介导自主复制、在细胞中发挥作用的质粒复制因子。术语“复制起点”或“质粒复制因子”是指使得质粒或载体能够在体内复制的多核苷酸。

细菌复制起点的例子为允许在大肠杆菌中复制的pBR322、pUC19、pACYC177和pACYC184的质粒复制起点和允许在芽孢杆菌属中复制的pUB110、pE194、pTA1060和pAMβ1的质粒复制起点。

用于酵母宿主细胞中的复制起点的例子为2微米复制起点ARS1、ARS4、ARS1和CEN3的组合以及ARS4和CEN6的组合。

可用于丝状真菌细胞中的复制起点的例子为AMA1和ANS1(Gems等人,1991,Gene98:61-67；Cullen等人,1987,Nucleic Acids Res.15:9163-9175；WO 00/24883)。AMA1基因的分离以及包括该基因的质粒或载体的构建可以根据WO 00/24883中所公开的方法进行。

可以将本发明多核苷酸的多于一份拷贝插入到宿主细胞中，以提高多肽的产生。多核苷酸拷贝数的增加可以通过将序列的至少一个另外的拷贝整合到宿主细胞基因组中获得，或者通过以下方式获得：包括具有多核苷酸的可扩增的选择标记物基因，其中细胞含有扩增的选择标记物基因的拷贝，从而可以通过将细胞在适当选择试剂的存在下培养对额外的多核苷酸拷贝进行选择。

将上述元件连接以构建本发明的重组表达载体的方法是本领域技术人员公知的(参见，例如，Sambrook等人,1989,同上)。

宿主细胞

本发明还涉及一种包括本发明的多核苷酸的重组宿主细胞，该多核苷酸与一个或多个指导本发明的多肽的产生的控制序列可操作地连接。将包括多核苷酸的构建物或载体引入到宿主细胞中，使得构建体或载体作为如前所述的染色体构成整体或者作为自复制染色体外载体得以保持。术语“宿主细胞”包括由于在复制过程中发生突变而与亲本细胞不同的亲本细胞的任何子代。宿主细胞的选择很大程度上依赖于编码多肽的基因及其来源。

宿主细胞可以是任何可用于本发明多肽的重组产生的细胞，例如，原核细胞或真核细胞。

原核宿主细胞可以是任何革兰氏阳性或革兰氏阴性的细菌。革兰氏阳性细菌包括，但不限于，芽孢杆菌属、梭菌属、肠球菌属、杆菌属、乳杆菌属、乳球菌属、大洋芽孢杆菌属、葡萄球菌属、链球菌属和链霉菌属。革兰氏阴性细菌包括，但不限于，弯曲杆菌属、大肠杆菌、黄杆菌属、梭杆菌属、螺杆菌属、泥杆菌属、奈瑟氏球菌属、假单胞菌属、沙门氏菌属和脲原体属。

细菌宿主细胞可以是任何芽孢杆菌属细胞，其包括，但不限于，嗜碱芽孢杆菌、高地芽孢杆菌、解淀粉芽孢杆菌、解淀粉芽孢杆菌植物亚种、短芽孢杆菌、环状芽孢杆菌、克劳氏芽孢杆菌、凝结芽孢杆菌、坚强芽孢杆菌、灿烂芽孢杆菌、缓慢芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、甲基营养型芽孢杆菌、短小芽孢杆菌、沙福芽孢杆菌、嗜热脂肪芽孢杆菌、枯草芽孢杆菌和苏云金芽孢杆菌细胞。

细菌宿主细胞可以是任何链球菌属细胞，其包括，但不限于，似马链球菌、酿脓链球菌、乳房链球菌和马链球菌兽疫亚种细胞。

细菌宿主细胞可以是任何链霉菌属细胞，其包括，但不限于，不产色链霉菌、阿维链霉菌、天蓝色链霉菌、灰色链霉菌和变铅青链霉菌细胞。

将DNA引入到芽孢杆菌细胞中可以通过以下进行：原生质体转化(参见，例如Chang和Cohen,1979,Mol.Gen.Genet.168:111-115)、感受态细胞转化(参见，例如，Young和Spizizen,1961,J.Bacteriol.81:823-829，或Dubnau和Davidoff-Abelson,1971,J.Mol.Biol.56:209-221)、电穿孔(参见，例如，Shigekawa和Dower,1988,Biotechniques6:742-751)或缀合(参见，例如，Koehler和Thorne,1987,J.Bacteriol.169:5271-5278)。将DNA引入到大肠杆菌细胞中可以通过原生质体转化(参见，例如，Hanahan,1983,J.Mol.Biol.166:557-580)或电穿孔(参见，例如，Dower等人,1988,Nucleic AcidsRes.16:6127-6145)进行。将DNA引入到链霉菌属细胞中可以通过原生质体转化(参见，例如，Gong等人,2004,Folia Microbiol.(Praha)49:399-405)、缀合(参见，例如，Mazodier等人,1989,J.Bacteriol.171:3583-3585)或转导(参见，例如，Burke等人,2001,Proc.Natl.Acad.Sci.USA 98:6289-6294)进行。将DNA引入到假单胞菌属细胞中可以通过电穿孔(参见，例如，Choi等人,2006,J.Microbiol.Methods 64:391-397)或缀合(参见，例如，Pinedo和Smets,2005,Appl.Environ.Microbiol.71:51-57)进行。将DNA引入到链球菌属细胞中可以通过以下进行：自然感受态(natural competence)(参见，例如，Perry和Kuramitsu,1981,Infect.Immun.32:1295-1297)、原生质体转化(参见，例如，Catt和Jollick,1991,Microbios 68:189-207)、电穿孔(参见，例如，Buckley等人,1999,Appl.Environ.Microbiol.65:3800-3804)或缀合(参见，例如，Clewell,1981,Microbiol.Rev.45:409-436)。但是，可以使用任何本领域已知的方法将DNA引入到宿主细胞中。

宿主细胞也可以是真核细胞，例如哺乳动物、昆虫、植物或真菌细胞。

宿主细胞可以是真菌细胞。如本文所用，“真菌”包括以下门：子囊菌门、担子菌门和接合菌门和卵菌门以及所有的有丝分裂真菌(如Hawksworth等人在Ainsworth andBisby’s Dictionary of The Fungi,第八版,1995,CAB International,UniversityPress,Cambridge,UK中所定义)。

真菌宿主细胞可以是酵母细胞。如本文所用，“酵母”包括产子囊孢子酵母(内孢霉目)、无孢子酵母(basidiosporogenous yeast)和属于半知菌(Fungi Imperfecti)的酵母(芽孢纲)。由于酵母的分类在未来可以变化，出于本发明的目的，酵母应当如Biology andActivities of Yeast(Skinner,F.A.,Passmore,S.M.和Davenport,R.R.,eds,Soc.App.Bacteriol.Symposium Series No.9,1980)中所述定义。

酵母宿主细胞可以是念珠菌属、汉逊酵母属(Hansenula)、克鲁维酵母菌属、毕赤酵母属、酵母属、裂殖酵母属或亚罗酵母属细胞，例如乳酸克鲁维酵母(Kluyveromyceslactis)、卡尔酵母、酿酒酵母、糖化酵母、道格拉氏酵母、克鲁弗维酵母、诺地酵母、卵形酵母或解脂耶氏酵母(Yarrowia lipolytica)细胞。

真菌宿主细胞可以是丝状真菌细胞。“丝状真菌”包括所有丝状形式的亚门真菌门和卵菌门(如Hawksworth等人,1995,同上所定义)。丝状真菌通常特征在于由几丁质、纤维素、葡聚糖、壳聚糖、甘露聚糖和其它复杂多糖组成的菌丝体墙。植物生长是通过菌丝延长，碳分解代谢是有必要需氧的。与此相反，酵母例如酿酒酵母的植物生长是通过单细胞菌体的出芽，碳分解代谢可以是发酵性的。

丝状真菌宿主细胞可以是枝顶孢属、曲霉属(Aspergillus)、短梗霉属、烟管菌属(Bjerkandera)、拟蜡霉属、金孢子霉属、鬼伞属(Coprinus)、革盖菌属(Coriolus)、隐球菌属、丝梗霉属、镰孢菌属、腐质霉属、巨座壳属、毛霉属、毁丝霉属、新美鞭菌属、脉孢菌属、拟青霉属、青霉菌属、平革菌属、白腐菌属(Phlebia)、瘤胃壶菌属、侧耳菌属(Pleurotus)、裂褶菌属、踝节菌属、嗜热子囊菌属、梭孢壳属、弯颈霉属、栓菌属(Trametes)或木霉属细胞。

例如，丝状真菌宿主细胞可以是泡盛曲霉、臭曲霉、烟曲霉、日本曲霉、构巢曲霉、黑曲霉、米曲霉、烟管菌(Bjerkandera adusta)、干拟蜡菌(Ceriporiopsis aneirina)、浅黄拟蜡菌(Ceriporiopsis caregiea)、Ceriporiopsis gilvescens、潘诺希塔拟蜡菌(Ceriporiopsis pannocinta)、环带拟蜡菌(Ceriporiopsis rivulosa)、微红拟蜡菌(Ceriporiopsis subrufa)、虫拟蜡菌(Ceriporiopsis subvermispora)、Chrysosporiuminops、嗜角质金孢子菌、Chrysosporium lucknowense、Chrysosporium merdarium、毡金孢子菌(Chrysosporium pannicola)、Chrysosporium queenslandicum、热带金孢子菌(Chrysosporium tropicum)、Chrysosporium zonatum、灰盖鬼伞(Coprinus cinereus)、毛云芝菌(Coriolus hirsutus)、杆孢状镰孢、禾谷镰孢、库威镰孢、大刀镰孢、禾本科镰孢、禾赤镰孢、异孢镰孢、合欢木镰孢、尖镰孢、多枝镰孢、粉红镰孢、接骨木镰孢、肤色镰孢、拟分枝孢镰、硫色镰孢、圆镰孢、拟丝孢镰孢、镶片镰孢、特异腐质霉、疏棉状腐质霉、米黑毛霉(、嗜热毁丝霉、粗糙脉胞菌、产紫青霉、黄孢平革菌、射脉菌(Phlebia radiata)、杏鲍菇(Pleurotus eryngii)、土生梭孢壳、长绒毛栓菌(Trametes villosa)、变色栓菌(Trametesversicolor)、哈茨木霉、康氏木霉、长枝木霉、里氏木霉或绿色木霉细胞。

真菌细胞可以通过包括原生质体形成、原生质体的转化和细胞壁再生的方法以本身已知的方式转化。合适的曲霉属和木霉属宿主细胞的转化方法描述于以下文献中：EP238023；Yelton等人,1984,Proc.Natl.Acad.Sci.USA 81:1470-1474以及Christensen等人,1988,Bio/Technology6:1419-1422。合适的镰孢菌属物种的转化方法由Malardier等人,1989,Gene 78:147-156和WO 96/00787描述。酵母可以使用以下文献中描述的方法转化：Becker和Guarente,In Abelson,J.N.和Simon,M.I.,editors,Guide to YeastGenetics and Molecular Biology,Methods in Enzymology,Volume 194,pp 182-187,Academic Press,Inc.,New York；Ito等人,1983,J.Bacteriol.153:163；以及Hinnen等人,1978,Proc.Natl.Acad.Sci.USA 75:1920。

本发明通过以下实施例加以进一步说明，实施例不应当理解成对本发明的范围加以限定。

实施例

实施例1：使用双标记长PCR用片段化酶对16种变体进行测序

该实施例说明了新一代测序如何用于自一个DNA文库制备并行地得到相同基因的若干变体的全1257bp长度的序列，在此使用Miseq测序仪(Inc.USA)。所说明的原理在于，对于新一代测序仪，比读出长度长的PCR产物在两端用独特的标记编码。然后将许多这些独立的PCR产物混合在一起。然后将该混合的DNA片段化，创建大小不同的仅有一个标记的DNA片段。向这些DNA片段中加入新一代测序接头，对其进行测序。将得到的成对读出通过独特的标记进行分解，这意味着将有标记的读出和未标记(unindexed)的成对读出分配给微滴定板的初始目标孔，即，给单独的变体基因。如果片段化是随机的，序列读出对的未标记读出将会在整个长度上扩展，导致覆盖度在端部很高，在中间较低。读出可以覆盖的序列最大长度的限制是可以被桥式扩增并在测序流动池上形成聚簇的DNA片段的长度。

本实施例用编码公知的蛋白酶Savinase(其具有810bp的成熟肽长度)的基因(SEQID NO:1)的16种已知变体进行。将每个Savinase变体基因整合在枯草芽孢杆菌168菌株中，将这些芽孢杆菌的菌株培养过夜，使得A01-A16的每个孔含有不同的Savinase变体。

在本实施例中，制备高浓度的集落PCR产物，以得到2种工作的DNA微生物。当使用384样品时，可以使用5微升反应，以在将所有384个样品混合在一起时得到足够DNA。

对于16种Savinase变体中的每一种，使用1μl 33-倍稀释的过夜培养物作为模板，使用25μl ReddyMix(Thermo Scientific)、1μl Fw引物(20μΜ)、1μl Rv引物(20μΜ)、22微升纯净水，运行100微升集落PCR反应。PCR在94℃下运行2分钟15秒，然后是94℃15秒、58℃25秒和68℃2分钟的35次循环。循环之后，最终延长步骤在68℃下进行4分钟。对于16种基因变体中的每一种，使用不同的正向和反向标记引物组。这些标记引物由以下组成：GT的5’端、然后是独特的8核苷酸序列、然后是要被测序的基因区外部的退火序列。

表1引物序列，其中对于96孔微孔板第一排的16个孔，前两个核苷酸总是G和T，然后是8-核苷酸的标记和退火核苷酸。

在琼脂糖凝胶上确认产生的PCR产物大小正确。使用NucleoSpin Gel和PCRClean-up试剂盒，以在25μl NE-缓冲液(5mM Tris/HCl，pH 8.5)中的洗脱，分别对产生的PCR产物进行提纯。通过Qubit测量浓度。定量之后，将16种PCR产物以等摩尔浓度合并。

另外显示，可以用2.5x稀释的ReddyMix(Thermo Fisher Scientific)或者用Phusion High-Fidelity DNA聚合酶(Thermo Fisher Scientific)进行PCR。

表2.在Qubit上测量的PCR产物的浓度以及合并成20微克的量，其在稍后分成每次片段化2微克

样品	浓度(ng/μl)	每1250ngμl
			A01	298	4,19
A02	368	3,40
			A03	390	3,21
A04	352	3,55
			A05	406	3,08
A06	236	5,30
			A07	406	3,08
A08	172	7,27
			A09	308	4,06
A10	504	2,48
			A11	542	2,31
A12	218	5,73
			A13	372	3,36
A14	145	8,62
			A15	254	4,92
A16	348	3,59

将6.8μl相当于2μg的合并的DNA样品、2μl 10x缓冲液、9.2l纯净水和2μl NEBdsDNA片段化酶混合，并根据NEBNext dsDNA片段化酶试剂盒(M0348S)的说明书在37℃下孵育10或12分钟。

将样品在琼脂糖凝胶上分析，显示DNA有一些降解，通过1.3kb条带下的拖尾可见。对于每个样品，切出一定大小范围的琼脂糖，随后通过NucleoSpin凝胶试剂盒以25μl NE-缓冲液中的洗脱加以提纯。一消化的DNA样品没有通过琼脂糖凝胶电泳分析，而是直接使用PCR Clean-up试剂盒在25μl NE-缓冲液中洗脱加以提纯。测量得到的各自含有孔A01-A16的标记化、片段化的DNA的样品B1-B7的DNA浓度，将其调节至5ng/μl，使用20μl制备含有TruSeq双标记的文库用于MiSeq测序。

表3.样品名称、文库ID、样品、片段化酶、孵育时间、提纯方法、切出大小、浓度和总读出数概览，所有均用ReddyMix^TM扩增

使用KAPA Biosystems LT文库制备试剂盒(KAPA Biosystems Cape Town,SouthAfrica)，将片段化、大小选择的PCR产物制备成文库。每个15μl体积的样品使用100ng起始原料，使用水来调节体积。使用KAPA试剂进行端部修复、A-拖尾(A-tailing)、接头连接。所有提纯步骤使用AMPureXP珠(Beckman Coulter)。含有标记序列的双接头获自Integrated DNA Technologies Coralville,Iowa。接头在DNA的每条链上含有不同的标记序列，使得相同DNA分子的正向和反向读出均可以进行独特标记序列识别。接头还有利于文库分子与流动池的结合，为文库扩增提供通用的(universal)序列。将含有15μl制备的文库、25μl KAPA HiFi HotStart ReadyMix、2μl扩增引物(50μΜ)和8μl水的PCR反应液进行如下循环：98℃下45秒一次，8次(98℃下15秒、60℃下30秒、72℃下30秒)和72℃下1分钟。遵照KAPA Biosystems LT文库制备试剂盒使用AMPure珠进行PCR产物的提纯。

在产生的文库上进行质量控制，以保证MiSeq上的精确负载。每个文库在Invitrogen Qubit上进行分析，以测定浓度。然后使用Standard Sensitivity NGS试剂盒(DNF-473)在片段分析仪(Fragment Analyzer)(Advance Analytical,Ankeny,Iowa)上进行分析。文库摩尔浓度计算为：(ng/μl)*1500/平均bp。

表4

命名	文库ID	文库ng/μl	文库平均bp	文库nM
					B2HDF	2015_2142	5.7	1058	8.08
B2HDG	2015_2143	9.1	798	17.14
					B2HDH	2015_2144	16.8	1106	22.78
B2HDJ	2015_2145	19.6	808	36.39
					B2HDK	2015_2146	15.1	820	27.62
B2HDM	2015_2147	25.0	767	48.89
					B2HDN	2015_2148	14.2	724	29.42

将这些文库与其他Miseq文库合并。上述文库的每一个计算为具有600bp V3盒(cartridge)的MiSeq运行的2.3％。按照标准方案将文库的集合变性，并稀释至负载13pM。在同一次运行中使用接头中的双标记对这些序列进行分解，并将这些划归至上述样品和其他样品。

将每个样品B2HDF-B2HDN得到的成对读出序列分别使用CLC Genomic benchmark软件(CLC bio,QIAGEN公司,Aarhus,Denmark)再次分解，通过8个核苷酸长的独特标记加上随后的4个跟随的核苷酸进行分类。首先搜索成对读出的正向(Fw)链，然后搜索反向(Rv)链。对于所有样品，对得到序列的48-65％可以分配至标记，并以其分配给微板的孔(参见表5)。

表5.CLC分解报告

使用flexbar程序(Dodt et al.(2012),Biology 1(3),895-905)重复分解步骤，因为这要容易许多，并且很好地保留了配对信息。首先使用以下命令搜索正向链：

flexbar-r*B2HDF*_R1_001.fastq-p*B2HDF*_R2_001.fastq-b A16Fw+Rv.fasta-be LEFT-bt 0.5-a adapters2015.fa-at 2-t B2HDFR1

A16Fw+RV.fasta含有用于搜索的长度为12个氨基酸的序列的列表，adaptors2015.fa是被污染的(contaminating)含有接头序列的列表。该flexbar命令返回了两个名为_1和_2的文件，其含有配对的正向和反向读出。接下来，通过翻转正向和反向读出的输入，搜索反向链：

flexbar-p*B2HDF*_R1_001.fastq-r*B2HDF*_R2_001.fastq-b A16Fw+Rv.fasta-be LEFT-bt 0.5-a adapters2015.fa-at 2-t B2HDFR2

该flexbar命令返回了两个名为_1和_2的文件，其含有配对的反向和正向读出。接下来，将来自两个命令的flexbar输出文件连结(concatenate)，产生名称为_1和_2的文件。接下来，将这些文件作为成对读出的输入而输入到CLC Genomic Workbench(Quiagen)中。将每个孔的读出修剪至限度0.01，映射至参考序列，将映射在本地再比对，提取共有序列，并运行基于概率的变体检测。生成含有共有序列的fasta格式文件(.fa)，创建了含有每个位置上的核苷酸组成信息的映射覆盖度表文件(.tsv)。使用Savinase蛋白酶的编码序列作为参考(SEQ ID NO:1)。

总之，对于每个表达不同Savinase变体的芽孢杆菌克隆，使用以GT开始、然后是独特的8个核苷酸长的标记和基因退火区的正向和反向引物，产生长度1257bp的集落PCR。这对于基于SEQ ID 1的16个已知Savinase变体进行。进行大规模的PCR扩增，得到足够DNA，以进行若干平行测试。然后将所有16个来自不同Savinase变体的PCR产物等摩尔混合，并分成小份，以通过不同的方式处理。将2μg DNA用片段化酶片段化10或12分钟。然后从琼脂糖凝胶上切出大小范围800-1100、500-1100(或1300)或者200-1100(或1300)bp的DNA片段，并提纯。不同样品的名称如表6所示。

在从琼脂糖凝胶上进行切出之前和之后的具有片段化DNA的琼脂糖凝胶如图3所示。另外，如果仅切出800-1100bp，来自琼脂糖凝胶的DNA的提纯导致至少5ng/μl。因此，从仅有2μg的DNA起始原料，可以得到足够用于后续TrueSeq文库制备的片段化DNA。

High Fidelity(New England Biolabs)在集落PCR中给出了很好的结果。所有16个样品均具有与完整的Savinase变体编码基因相比大于100倍的覆盖度，图谱取决于切出大小范围而不同，如图4所示。如果临界值仅在100bp，在端部获得更多的序列，并且观察到面向中部的明显损失。但是，得到的最小读出随较低的临界值变化不大。仅有一个样品(B2HDN)经由PCR提纯试剂盒提纯，使得所有100bp以上的DNA均得以通过。得到的结果与提取过程中以较低的100bp临界值得到的结果非常类似。基于观察到的最小覆盖度，可以推测，384个不同样品需要200万个读出。

表6.得到的序列读出的概览和384个样品所需要读出的推测。各列表示：样品名称和片段化酶处理的分钟数以及DNA片段大小范围(以bp计)；提纯后的浓度；来自MiSeq测序的总读出数；含有有效标记序列的读出的百分含量；每孔的平均读出；在16个孔中任一个中成熟肽任何位置处的最低读出数；推测384个样品在任何位置处得到至少100个读出所需的读出；在所有16个孔的成熟肽的所有位置处覆盖度的平均值。

对共有序列的分析显示，所有16个Savinase变体在所有试验中均得以正确测序。表7显示，将临界值设定在800-1100bp给出明显更多的长读出，但是得到的标记读出的数量降低。这种对片段化、长的双标记集落PCR进行测序的方法正确地确定了16种Savinase-变体编码基因的DNA序列。

表7.显示Miseq接头之间得到的序列长度分布取决于制备方法和得到的读出数。该数据由孔A01的CLC基因组工作台提供的直方图目视提取。

实施例2.确定可以测序的DNA多核苷酸的长度

该实施例显示，使用MiSeq NGS测序仪，根据本发明的方法通过使集落PCR扩增的DNA片段片段化和双标记化，可以对长度1.6kb的DNA多核苷酸进行测序。

在该实施例中，每个文库是由芽孢杆菌基因组(xylR-xylA区：SEQ ID NO:34)在四个反应中扩增的不同长度DNA(长度1000、1300、1600、1900、2000)的合并样品。将长度1000bp的集落PCR用A01-A04标记制备4次，长度1300bp者用A05-A08标记制备，以此类推。将每个大小的四重扩增的PCR片段合并，并在琼脂糖凝胶上运行，将大小范围在800bp至接近原始PCR大小以下(1000、1300、1600、1900、2000bp)的DNA切出并提纯。

然后将不同的长度在等摩尔混合物中合并，通过加入双标记接头构建MiSeq文库。该文库的负载为全部MiSeq集合的4.6％。在得到每个文库的数据、并分解得到属于16个序列中每一个的序列之后，对数据进行分析，寻找最大测序长度有多长。

表8.选择作为退火区对枯草芽孢杆菌xylR-xylA-xylB基因座(SEQ ID NO:34)不同长度的区域进行扩增的引物序列。

将表8的退火序列与起始GT和长度为8个碱基的序列、连同标记和所用退火区的名称合并，产生表9所示的使用的引物。产生的片段大小列于下文的表10中。

表9.显示引物名称；DNA序列，其中前两个核苷酸总是G和T，然后在退火核苷酸之前是8-核苷酸的连接区；引物之间的片段大小；标记序列；退火名称；SEQ ID NO。

表10

孔	NC引物	CN引物	片段总大小	引物间片段大小
					A01-A04	0120-0123	0144-0147	1040	983
A05-A08	0124-0127	0148-0151	1361	1300
					A09-A12	0128-0131	0152-0155	1650	1589
A13-A16	0132-0135	0156-0159	1940	1876
					A17-A20	0136-0139	0160-0163	2257	2196
A21-A24	0140-0143	0164-0167	1247	1191

根据以下PCR方案使用枯草芽孢杆菌168株作为xylR-xylA-xylB基因座(SEQ IDNO:2)PCR扩增的模版：

小等份的琼脂糖凝胶显示，存在有每个尺寸四次复制的PCR扩增子，并且长度正确。将四次复制产物混合之后，将PCR扩增子通过NucleoSpin Gel和PCR Clean-up试剂盒提纯，并在65μl NE-缓冲液中洗脱。然后在Qubit上测量浓度，给出以下结果：A1-4为188ng/μl，A5-8为200ng/μl，A9-12为212ng/μl，A13-16为150ng/μl，A17-20为163ng/μl，A21-24为163ng/μl。

然后将各2μg用2μl NEBNext dsDNA片段化酶(M0348S)在20μl总体积中在37℃下消化11分钟。片段化之后，加入5μl 0,5M，pH 8,0，以使反应停止。将2个消化的样品合并，通过琼脂糖凝胶电泳分离不同的尺寸条带，如图5所示。

片段化之后，在初始尺寸条带之下观察到较低尺寸片段化产物的拖尾。对于每个样品(A1-4、A5-8、A9-12、A13-16、A17-20、A21-24)，从凝胶上切出大小范围从800bp到正好在初始PCR扩增子长度条带以下的条带，并在NucleoSpin Gel和PCR Clean-up试剂盒上提纯，并在30ul NE-缓冲液中洗脱。

Qubit测量的浓度为：A1-4为4,03ng/μl，A5-8为18,1ng/μl，A9-12为23,3ng/μl，A13-A16为37,4ng/μl，A17-A20为40,8ng/μl，A21-A24为13,6ng/μl。然后将每个120ng混合在一起，加入63,5μl NE-缓冲液，填充至120μl，产生的浓度为6ng/μl。通过这种方式，将来自不同长度起始DNA的片段混合成一个样品。这保证了所有均通过相同方式处理，并且得到不同大小长度在测序长度之间的直接比较。

使用市售的KAPA HyperPlus文库制备试剂盒(Kapa Biosystems)将这些片段构建成文库，但是略去片段化步骤。不进行大小选择，但是用0.8X AMPure珠进行两次接头连接后的清扫(clean-up)。将含有20μl制备的文库、25μl KAPA HiFi HotStartReadyMix、5μl扩增引物(10X，KAPA提供)的PCR扩增子以如下方式循环：98℃下3分钟一次，10X(98℃下1分钟20秒，60℃下30秒，72℃下30秒)，72℃下1分钟。在产生的文库上进行质量确认，以保证在MiSeq上的精确负载。

将文库在Invitrogen Qubit上分析，以确定浓度，然后使用StandardSensitivity NGS试剂盒(DNF-473)在片段分析仪(Advance Analytical,Ankeny,Iowa)上进行分析。计算文库摩尔浓度(ng/μl)*1500/平均bp。该文库的负载为MiSeq总集合的4.6％。标准负载为总集合的2.3％。在同样的运行中使用接头中的双标记对这些序列进行分解，并将这些划归至上述样品和其他样品。

然后使用flexbar 2.5版对得到的配对读出序列进行二次分解。首先，搜索具有正向读出的R1文件的标记，同时保持附有相应的反向读出。然后，搜索具有反向读出的R2文件的标记，同时保持相应的所附正向读出。使用以下外壳脚本(shell script)：

-#！/bin/bash

-export PATH＝/z/home/mcom/tools/flexbar_v2.5_linux64/:$PATH

-export LD_LIBRARY_PATH＝/z/home/mcom/tools/flexbar_v2.5

_linux64:$LD_LIBRARY_PATH

-B＝B2RSJ#进入文库B(enter libary B)###to analyze on

-mkdir${B}

-cd${B}

-mkdir Flexbar

-mkdir Flexbar/cat

-mkdir Results

-cd Flexbar

#我们首先在Fw链上进行分解，并除去条码(we demultiplex on the Fw strandfirst and remove the barcode)

-flexbar-r../../incoming/*${B}*_R1_001.fastq.gz-p../../incoming/*${B}*_R2_001.fastq.gz-b../../indexes/ELN-15-MCOM-0021_v2.fa

-be LEFT-bt 0-t${B}_R1-n 2

#接下来我们在Rv链上进行分解，并除去条码。新的文件将具有旧Rv和新Fw链，因此，新rv链含有wel条码。(we demultiplex next on the Rv strand and remove thebarcode.The new file will have the old Rv as the new Fw strand,hence,new rvstrands contain wel barcode)

-flexbar-p../../incoming/*${B}*_R1_001.fastq.gz-r../../incoming/*${B}*_R2_001.fastq.gz-b../../indexes/ELN-15-MCOM-0021_v2.fa

-be LEFT-bt 0-t${B}_R2-n 2

-find-empty-type f-delete

-echo$path

-Is-I

-for R in{A..A}

-do

-for C in{01..24}

-do

-cat*${B}*${R}${C}*_1.fastq>./cat/${B}${R}${C}_1.fastq

-cat*${B}*${R}${C}*_2.fastq>./cat/${B}${R}${C}_2.fastq

-done

-cd cat

-find-empty-type f-delete

-echo$path

-Is-I

-cd..#back to Flexbar

-cd..#back to B#

-cd..#back to NGSPIate

使用下表11中具有标记序列的fasta文件进行分解，并将得到的Miseq序列划归至A1-A24：

表11

使用CLC基因组工作台将序列映射至xylR-xylA-xylB参考基因座，得到投票的(voted)共有序列和.tsv映射覆盖度文件。使用文库名称作为变量$1，使用以下外壳脚本每10个参考位置提取tsv模糊度(ambiguity)文件中的覆盖度：

-#！/bin/bash

-echo"Reference name"$'\t"'Reference position"$'\t"'Reference sub-position(insertion)"$'\t"'Reference symbol"$'\t"'Number of A's"$'\t"'Numberof C's"$'\t"'Number of G's"$'\t"'Number of T's"$'\t"'Number of N's"$'\t"'Number of Gaps"$'\t"Total number of reads covering the position">$1"_50_2260_coverage.tsv"

-for P in{001.001}

-do

-for R in{A..A}

-do

-for C in{01.24}

-do

-for N in{50..2260..10}

-do

-LINE＝$(grep-E"xylR xylA xylB"$'\t'${N}$'\t'$1/Results/$1${R}${C}*.tsv)

-echo$1"_"${R}${C}$'\t'$LINE》$1"_50_2260_coverage.tsv"

-done

Miseq测序给出1.533.750总读出，其中311.732个和299.106个分别在正向和反向读出中含有标记A1-24。因此，总序列的40％含有标记。对于每个标记，计算每10个参考位置的覆盖度。四次复制的覆盖度对于参考位置作图(参见图6和7)。

这显示了预期的在含有标记的PCR扩增子的端部覆盖度较高。覆盖度朝向PCR扩增子的中间而降低。由于TruSeq接头的去除不完全，在PCR扩增子的外部观察到一些覆盖度低的点。由于这些点处于目标序列之外，其不具有显著性。

随着扩增子长度的增加，PCR扩增子中部的最小覆盖度降低。对于983bp引物之间的PCR扩增子的大小，其为3591X；对于1191bp，其为3425；对于1300bp，其为2259X；对于1589bp，其为557X；对于1876bp，其为127X；对于2196bp，其为6X。因此，即使扩增子大小为2200bp，也能得到测序覆盖度。

为了计算最小覆盖度，仅对xylR-xylA-xylB参考基因座的1000-1800的位置进行分析，如表12所示。

表12.覆盖度随所用引物和所用引物组间片段大小的统计数值。983bp片段引物组1-4等同于所用的名称A1-A4，以此类推。

SEQUENCE LISTING

<110> 诺维信公司

<120> 改进的新一代测序

<130> 14144-WO-PCT

<160> 137

<170> PatentIn版本3.5

<210> 1

<211> 1143

<212> DNA

<213> 枯草芽孢杆菌

<220>

<221> misc_特征

<222> (1)..(1140)

<223> Savinase-编码序列.

<400> 1

atgaagaaac cgttggggaa aattgtcgca agcaccgcac tactcatttc tgttgctttt 60

agttcatcga tcgcatcggc tgctgaagaa gcaaaagaaa aatatttaat tggctttaat 120

gagcaggaag ctgtcagtga gtttgtagaa caagtagagg caaatgacga ggtcgccatt 180

ctctctgagg aagaggaagt cgaaattgaa ttgcttcatg aatttgaaac gattcctgtt 240

ttatccgttg agttaagccc agaagatgtg gacgcgcttg aactcgatcc agcgatttct 300

tatattgaag aggatgcaga agtaacgaca atggcgcaat cggtaccatg gggaattagc 360

cgtgtgcaag ccccagctgc ccataaccgt ggattgacag gttctggtgt aaaagttgct 420

gtcctcgata cagggatatc cactcatcca gatctaaata ttcgtggtgg cgcaagcttt 480

gtaccagggg aaccgtcgac tcaagatggg aatgggcatg gcacgcatgt ggccgggacg 540

atcgctgctt taaacaattc gattggcgtt cttggcgtag ctcctagcgc tgagctatac 600

gctgttaaag tcctaggggc gagcggttca ggttcggtca gctcgattgc ccaaggattg 660

gaatgggcag ggaacaatgg catgcacgtt gctaatttga gtttaggaag cccttcgcca 720

agtgccacac tcgagcaagc tgttaatagc gcgacttcta gaggcgttct tgttgtagcg 780

gcatctggga attcaggtgc aggctcaatc agctatccgg cgcgctatgc gaacgcaatg 840

gcagtcggag ctactgatca aaacaacaac cgcgctagct tttcacagta tggcgcaggc 900

cttgacattg tcgcacccgg ggtaaacgtg cagagcacat acccaggttc aacatatgcc 960

agcttaaacg gtacatcgat ggctactcct catgttgcag gtgcggccgc ccttgttaaa 1020

caaaagaacc catcttggtc taatgtacaa attcgaaatc atctaaagaa tacggcaact 1080

agtttaggaa gcacgaactt gtatggaagc ggacttgtta acgcagaagc ggcaacgcgt 1140

taa 1143

<210> 2

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 2

gtagtacgta gcaccgtcta atggatttat g 31

<210> 3

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 3

gtgtcgacat gcaccgtcta atggatttat g 31

<210> 4

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 4

gtctatgtca gcaccgtcta atggatttat g 31

<210> 5

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 5

gttcatgtca gcaccgtcta atggatttat g 31

<210> 6

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 6

gtcgctctat gcaccgtcta atggatttat g 31

<210> 7

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 7

gtctacagac gcaccgtcta atggatttat g 31

<210> 8

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 8

gtgctcgtac gcaccgtcta atggatttat g 31

<210> 9

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 9

gttatgtgag gcaccgtcta atggatttat g 31

<210> 10

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 10

gtacatcgca gcaccgtcta atggatttat g 31

<210> 11

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 11

gtcagtcgtc gcaccgtcta atggatttat g 31

<210> 12

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 12

gttgacgagc gcaccgtcta atggatttat g 31

<210> 13

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 13

gtatatgctc gcaccgtcta atggatttat g 31

<210> 14

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 14

gtgacacaga gcaccgtcta atggatttat g 31

<210> 15

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 15

gttactgatc gcaccgtcta atggatttat g 31

<210> 16

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 16

gtgtacgcga gcaccgtcta atggatttat g 31

<210> 17

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 17

gtcacgcgtg gcaccgtcta atggatttat g 31

<210> 18

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 18

gtagtacgta cgattatgga gcggattg 28

<210> 19

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 19

gtgtcgacat cgattatgga gcggattg 28

<210> 20

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 20

gtctatgtca cgattatgga gcggattg 28

<210> 21

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 21

gttcatgtca cgattatgga gcggattg 28

<210> 22

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 22

gtcgctctat cgattatgga gcggattg 28

<210> 23

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 23

gtctacagac cgattatgga gcggattg 28

<210> 24

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 24

gtgctcgtac cgattatgga gcggattg 28

<210> 25

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 25

gttatgtgag cgattatgga gcggattg 28

<210> 26

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 26

gtacatcgca cgattatgga gcggattg 28

<210> 27

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 27

gtcagtcgtc cgattatgga gcggattg 28

<210> 28

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 28

gttgacgagc cgattatgga gcggattg 28

<210> 29

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 29

gtatatgctc cgattatgga gcggattg 28

<210> 30

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 30

gtgacacaga cgattatgga gcggattg 28

<210> 31

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 31

gttactgatc cgattatgga gcggattg 28

<210> 32

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 32

gtgtacgcga cgattatgga gcggattg 28

<210> 33

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 1 引物

<400> 33

gtcacgcgtg cgattatgga gcggattg 28

<210> 34

<211> 4378

<212> DNA

<213> 枯草芽孢杆菌

<220>

<221> misc_特征

<222> (1)..(4378)

<223> The xylR-xylA-xylB基因座

<400> 34

cattgtaatc atgtccagaa aatgatcaat cacaatggag gacattccta atgccggtgc 60

attctgtcct aaggaagatg gcaataattc atagctattg cctaattggg aataaaccct 120

tgatgatact tcacttctca ttgaatttaa aaccatagga tgcgattcaa ttatgctatt 180

tcttaaaatt acggcttgtg ggttgaaagt atttagaata ttggtaaggc ctattcctaa 240

atagaatcca aaattttgta atgcatttaa ggttccgata tcattcagat gggcgaggtt 300

tatgatatct tgataggaca gttttttctc tttggtctga agagatttta ataaagcctt 360

ctctgaagca tacaattccc agcatcctcg gtttccgcaa ctgcatttag gaccattaaa 420

gtctattgtc atatgtccca tttctccaga gaagccgctt actcctctat ataaatgatt 480

gttgataata acaccgatcc ctattcctgt gctgatactt acgtaaataa tgttatcgtg 540

attttttgca gctccaaata gtttttctcc atatgcgcca gcatttgcct cattttcaat 600

aaaaacagac acattgtact tctcttgtat cgaagatttt aagtcaatat ctctccagtt 660

ggagttcgga gtgaaaacaa ttttttgatc tttatcaatg agtccaggca cgcaaatacc 720

tataccaata aacccgtacg gagattgggg catttgcgta ataaagtgat gaatcatatc 780

aatcaaaatg tctttcgtta tttctggaga attggattcc aaatggcggt attgatcaag 840

aacgattgtt ccttcaaggt ctgttaaaat gccattaata taatccacac caacatctat 900

tccaacggag tatcctgcct ttttattaaa aacaagcatg acaggtcttc ttccgccact 960

tgattgtcct tgacctattt caaataccat actttctttc attaacgtgt ttacctgtga 1020

tgagacagtt gatttattta atccagtcat ttcagataat tttgctcttg aaataggtga 1080

atttttaagg atttctttta ataataactt ttgatttact tttttgacaa aggtttgatc 1140

agcgatatcc acttcatcca ctccatttgt ttaatcttta aattaagtat caacatagta 1200

catagcgaat cttcccttta ttaaatctaa tgtgttcata aaaaactaaa aaaaatattg 1260

aaaatactga cgaggttata taagatgaaa ataagttagt ttgtttaaac aacaaactaa 1320

taggtgatgt acttactata tgaaataaaa tgcatctgta tttgaatgaa tttattttta 1380

agggggaaat cacatggctc aatctcattc cagttcaatc aactattttg gaagcgcaaa 1440

caaagtggtt tacgaaggga aagattcgac taatccttta gcatttaaat attataatcc 1500

tcaagaagta atcggcggaa aaacgctgaa agagcatttg cgattttcta ttgcctattg 1560

gcatacattt actgctgatg gtacagacgt ttttggagca gctacgatgc aaagaccatg 1620

ggatcactat aaaggcatgg atctagcgaa gatgagagta gaagcagcat ttgagatgtt 1680

tgaaaaacta gatgcaccat tctttgcttt tcatgaccgg gatattgcac cagaaggcag 1740

tacgctaaaa gagacaaacc aaaatttaga tatgatcatg ggcatgatta aagattacat 1800

gagaaatagc ggcgttaagc tattatggaa tacagcaaac atgtttacga atccccgttt 1860

cgtccatggt gccgcgactt cttgcaatgc agatgtgttt gcgtatgctg cagcacaagt 1920

gaaaaaaggg ttagaaacag caaaagagct tggcgctgag aactatgtat tttggggcgg 1980

ccgtgaagga tatgaaacat tgttaaatac cgatttaaaa tttgagcttg atgatttggc 2040

tagatttatg catatggcag tggattatgc gaaggaaatc gggtacacag ggcagttttt 2100

gattgagcca aaaccaaaag agccgaccgc ccatcaatac gatacagatg cagcaacaac 2160

cattgccttt ttgaagcaat atggcttaga caatcatttt aaattaaatc ttgaagccaa 2220

tcatgccaca ttagccgggc atacattcga acatgaatta cgcatggcaa gagtacatgg 2280

tctgcttggc tctgttgacg caaaccaggg tcatcctctt ttaggctggg acacggatga 2340

atttccgacg gatttatatt ctacgacatt agcaatgtac gaaatcctgc aaaatggcgg 2400

ccttggaagc ggcggattaa actttgacgc gaaggtcaga agatcttctt tcgagcctga 2460

tgatctaata tatgcccata ttgcagggat ggatgcattt gcaagaggat tgaaagttgc 2520

ccacaaatta atcgaagatc gtgtgtttga agatgtgatt caacatcgtt accgcagctt 2580

tactgaaggg attggtcttg aaattataga aggaagagct aatttccaca cacttgagca 2640

atatgcgcta aatcataaat caattaaaaa cgaatctgga agacaggaga aattaaaagc 2700

gatattgaac caatacattt tagaagtata acaggataag ctccagatcc tgctatcaat 2760

accaagtcac tgaattaccc gtcatgattc ctttcctatt gcttgttgtt atgacgggta 2820

acttctataa ttaggattta tttagagtga atggtttttt aaaagggcaa ggagtgaaaa 2880

aatgaagtat gtcattggaa tagatcttgg aacgagtgct gttaaaacca ttttagttaa 2940

ccaaaacggc aaggtttgtg cagaaacgtc caaaaggtat ccgctcatcc aagagaaggc 3000

gggatatagt gagcaaaatc ctgaagactg ggttcagcaa acaattgaag cattggctga 3060

attggtttct atatccaatg ttcaagccaa ggatattgac gggataagct attcgggaca 3120

aatgcatgga ttagtactgc ttgaccaaga tcgtcaggtg ttacgtaatg caattctttg 3180

gaatgatacc agaacaacgc ctcaatgtat aaggatgacc gagaaatttg gcgatcatct 3240

tcttgacatc acaaaaaacc gtgttttaga agggtttaca ttacctaaaa tgttatgggt 3300

aaaggaacat gaacctgaac tttttaaaaa aactgctgtg tttttgcttc cgaaagacta 3360

cgtgcgattc cgtatgaccg gtgtcattca caccgaatac tccgatgcag caggaacttt 3420

acttttacat attactcgca aggagtggag caatgatatt tgcaatcaaa ttggtatttc 3480

tgcagatatt tgtcctccgc ttgttgaatc tcatgattgt gtaggatcgc tgcttccgca 3540

cgttgccgcg aagaccgggc tattagaaaa aacaaaagtg tacgctgggg gagcagataa 3600

tgcttgcggc gctattggag caggtatcct ttcttccgga aaaacattat gcagtattgg 3660

gacgtcaggg gtcatacttt cctacgaaga agaaaaagaa agagacttta aagggaaagt 3720

ccactttttt aatcatggaa aaaaggattc tttttatacg atgggcgtca cgctcgctgc 3780

aggatacagc ttggactggt ttaaaagaac gtttgcacca aacgaatcgt ttgagcaatt 3840

attgcagggg gtggaagcta ttccgatagg agccaatgga ctgctataca ctccttattt 3900

ggttggtgaa agaacgccgc atgctgattc ttctattcgg ggaagcttga tcggaatgga 3960

tggagcccat aatagaaagc attttttgag ggcaataatg gaaggtatca cattctcttt 4020

acatgaatca attgagctat tccgcgaagc gggaaaatca gttcatactg ttgtttctat 4080

tggtggggga gctaaaaatg atacgtggct gcaaatgcaa gctgatattt tcaatacgag 4140

ggtaattaag ttagaaaatg aacaagggcc agctatgggg gctgcaatgc tggctgcctt 4200

tggaagcggt tggtttgaat cacttgaaga atgtgcagag cagttcattc gtgaggctgc 4260

tgcattttat ccaaaggcgc aaaatgttca aaaatataaa acactatttg atttgtataa 4320

gaacatttac actcacacaa aggatctcaa tacagctttg aagagctttc gaaaaaac 4378

<210> 35

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 表 8. 引物序列

<400> 35

cagaccatgt actcttgcca tg 22

<210> 36

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 表 8. 引物序列

<400> 36

gttctcagcg ccaagctc 18

<210> 37

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 表 8. 引物序列

<400> 37

ggtcttcttc cgccacttg 19

<210> 38

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 表 8. 引物序列

<400> 38

ccagttggag ttcggagtg 19

<210> 39

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 表 8. 引物序列

<400> 39

gaagcataca attcccagca tc 22

<210> 40

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 表 8. 引物序列

<400> 40

ctaatgccgg tgcattctg 19

<210> 41

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 表 8. 引物序列

<400> 41

gaagtcgcgg caccatg 17

<210> 42

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 42

gtagacgtgc ggtcttcttc cgccacttg 29

<210> 43

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 43

gttatgctgt ggtcttcttc cgccacttg 29

<210> 44

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 44

gtacatgtcg ggtcttcttc cgccacttg 29

<210> 45

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 45

gtctatgcgc ggtcttcttc cgccacttg 29

<210> 46

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 46

gtatctatgc ggtcttcttc cgccacttg 29

<210> 47

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 47

gtagatgcta ggtcttcttc cgccacttg 29

<210> 48

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 48

gttagatagc ggtcttcttc cgccacttg 29

<210> 49

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 49

gtatgtcaga ggtcttcttc cgccacttg 29

<210> 50

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 50

gtgcgtctgt ccagttggag ttcggagtg 29

<210> 51

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 51

gtctatgtgt ccagttggag ttcggagtg 29

<210> 52

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 52

gtacgctgtc ccagttggag ttcggagtg 29

<210> 53

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 53

gtatgtagca ccagttggag ttcggagtg 29

<210> 54

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 54

gtgcagatgc gaagcataca attcccagca tc 32

<210> 55

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 55

gtacgcgcgt gaagcataca attcccagca tc 32

<210> 56

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 56

gtctcgtata gaagcataca attcccagca tc 32

<210> 57

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 57

gttctactat gaagcataca attcccagca tc 32

<210> 58

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 58

gtatagatgc ctaatgccgg tgcattctg 29

<210> 59

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 59

gtgatagaga ctaatgccgg tgcattctg 29

<210> 60

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 60

gtatagtcga ctaatgccgg tgcattctg 29

<210> 61

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 61

gtgtcacgcg ctaatgccgg tgcattctg 29

<210> 62

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 62

gtactgactg ccagttggag ttcggagtg 29

<210> 63

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 63

gtagacgagt ccagttggag ttcggagtg 29

<210> 64

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 64

gttcacacat ccagttggag ttcggagtg 29

<210> 65

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 65

gtcgatactg ccagttggag ttcggagtg 29

<210> 66

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 66

gtagacgtgc gttctcagcg ccaagctc 28

<210> 67

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 67

gttatgctgt gttctcagcg ccaagctc 28

<210> 68

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 68

gtacatgtcg gttctcagcg ccaagctc 28

<210> 69

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 69

gtctatgcgc gttctcagcg ccaagctc 28

<210> 70

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 70

gtatctatgc cagaccatgt actcttgcca tg 32

<210> 71

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 71

gtagatgcta cagaccatgt actcttgcca tg 32

<210> 72

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 72

gttagatagc cagaccatgt actcttgcca tg 32

<210> 73

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 73

gtatgtcaga cagaccatgt actcttgcca tg 32

<210> 74

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 74

gtgcgtctgt cagaccatgt actcttgcca tg 32

<210> 75

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 75

gtctatgtgt cagaccatgt actcttgcca tg 32

<210> 76

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 76

gtacgctgtc cagaccatgt actcttgcca tg 32

<210> 77

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 77

gtatgtagca cagaccatgt actcttgcca tg 32

<210> 78

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 78

gtgcagatgc cagaccatgt actcttgcca tg 32

<210> 79

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 79

gtacgcgcgt cagaccatgt actcttgcca tg 32

<210> 80

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 80

gtctcgtata cagaccatgt actcttgcca tg 32

<210> 81

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 81

gttctactat cagaccatgt actcttgcca tg 32

<210> 82

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 82

gtatagatgc cagaccatgt actcttgcca tg 32

<210> 83

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 83

gtgatagaga cagaccatgt actcttgcca tg 32

<210> 84

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 84

gtatagtcga cagaccatgt actcttgcca tg 32

<210> 85

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 85

gtgtcacgcg cagaccatgt actcttgcca tg 32

<210> 86

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 86

gtactgactg gaagtcgcgg caccatg 27

<210> 87

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 87

gtagacgagt gaagtcgcgg caccatg 27

<210> 88

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 88

gttcacacat gaagtcgcgg caccatg 27

<210> 89

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 表 9. 引物序列

<400> 89

gtcgatactg gaagtcgcgg caccatg 27

<210> 90

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 90

agacgtgcgg tc 12

<210> 91

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 91

tatgctgtgg tc 12

<210> 92

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 92

acatgtcggg tc 12

<210> 93

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 93

ctatgcgcgg tc 12

<210> 94

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 94

atctatgcgg tc 12

<210> 95

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 95

agatgctagg tc 12

<210> 96

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 96

tagatagcgg tc 12

<210> 97

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 97

atgtcagagg tc 12

<210> 98

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 98

gcgtctgtcc ag 12

<210> 99

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 99

ctatgtgtcc ag 12

<210> 100

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 100

acgctgtccc ag 12

<210> 101

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 101

atgtagcacc ag 12

<210> 102

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 102

gcagatgcga ag 12

<210> 103

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 103

acgcgcgtga ag 12

<210> 104

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 104

ctcgtataga ag 12

<210> 105

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 105

tctactatga ag 12

<210> 106

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 106

atagatgcct aa 12

<210> 107

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 107

gatagagact aa 12

<210> 108

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 108

atagtcgact aa 12

<210> 109

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 109

gtcacgcgct aa 12

<210> 110

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 110

actgactgcc ag 12

<210> 111

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 111

agacgagtcc ag 12

<210> 112

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 112

tcacacatcc ag 12

<210> 113

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 113

cgatactgcc ag 12

<210> 114

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 114

agacgtgcgt tc 12

<210> 115

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 115

tatgctgtgt tc 12

<210> 116

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 116

acatgtcggt tc 12

<210> 117

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 117

ctatgcgcgt tc 12

<210> 118

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 118

atctatgcca ga 12

<210> 119

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 119

agatgctaca ga 12

<210> 120

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 120

tagatagcca ga 12

<210> 121

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 121

atgtcagaca ga 12

<210> 122

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 122

gcgtctgtca ga 12

<210> 123

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 123

ctatgtgtca ga 12

<210> 124

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 124

acgctgtcca ga 12

<210> 125

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 125

atgtagcaca ga 12

<210> 126

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 126

gcagatgcca ga 12

<210> 127

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 127

acgcgcgtca ga 12

<210> 128

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 128

ctcgtataca ga 12

<210> 129

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 129

tctactatca ga 12

<210> 130

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 130

atagatgcca ga 12

<210> 131

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 131

gatagagaca ga 12

<210> 132

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 132

atagtcgaca ga 12

<210> 133

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 133

gtcacgcgca ga 12

<210> 134

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 134

actgactgga ag 12

<210> 135

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 135

agacgagtga ag 12

<210> 136

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 136

tcacacatga ag 12

<210> 137

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 表 11. 引物序列

<400> 137

cgatactgga ag 12

Claims

1.一种用于确定多种多核苷酸的全编码序列的方法，所述方法包括以下步骤：

a)提供多种多核苷酸，

b)在每个多核苷酸的至少一个末端加上至少一种已知的寡核苷酸标记，产生延长的多核苷酸，其中加在每个多核苷酸上的每个已知的寡核苷酸标记是独特的；

c)将延长的多核苷酸片段化；

e)基于所述至少一种已知的寡核苷酸标记对成对的正向和反向序列读出进行分类；和

f)对分类的成对序列进行人工或计算机模拟组装，从而提供每一个多种多核苷酸的全编码序列。

2.根据权利要求1所述的方法，其中所述多种多核苷酸编码一种或多种目标多肽。

3.根据权利要求1所述的方法，其中所述多种多核苷酸编码一种或多种目标多肽的变体。

4.根据权利要求1所述的方法，其中所述多种多核苷酸包括一个或多个启动子。

5.根据权利要求2-3中任一项所述的方法，其中所述一种或多种目标多肽是一种或多种酶，优选地选自以下酶：水解酶、异构酶、连接酶、裂解酶、氧化还原酶或转移酶，例如，α-半乳糖苷酶、α-葡糖苷酶、氨肽酶、淀粉酶、β-半乳糖苷酶、β-葡糖苷酶、β-木糖苷酶、糖化酶、羧肽酶、过氧化氢酶、纤维二糖水解酶、纤维素酶、壳多糖酶、角质酶、环糊精糖基转移酶、脱氧核糖核酸酶、内切葡聚糖酶、酯酶、葡糖淀粉酶、转化酶、漆酶、脂肪酶、甘露糖苷酶、变聚糖酶(mutanase)、氧化酶、果胶分解酶、过氧化物酶、植酸酶、多酚氧化酶、蛋白水解酶、核糖核酸酶、转谷氨酰胺酶或木聚糖酶。

6.根据权利要求1-5中任一项所述的方法，其中所述步骤(c)中延长的多核苷酸是随机片段化的。

7.根据权利要求1-5中任一项所述的方法，其中所述步骤(c)中延长的多核苷酸通过一种或多种核酸内切酶片段化。

8.根据权利要求1-7中任一项所述的方法，其中所述分类步骤通过计算机模拟进行。

9.根据权利要求1-8中任一项所述的方法，其中所述组装在通过与已知的参考核苷酸序列进行比对的帮助下进行。