CN107002120B

CN107002120B - 测序方法

Info

Publication number: CN107002120B
Application number: CN201580039895.2A
Authority: CN
Inventors: 凯瑟琳·默里·伯克; 艾伦·厄尔·达尔林
Original assignee: Langs Technology Co ltd
Current assignee: Illumina Singapore Pte Ltd
Priority date: 2014-05-23
Filing date: 2015-05-22
Publication date: 2022-08-09
Anticipated expiration: 2035-05-22
Also published as: KR20220025213A; EP3146070B1; US20170183724A1; US20210403991A1; KR102579902B1; KR20170012390A; AU2015263055B2; CN116072218A; DK3146070T5; WO2015177570A1; ES2697804T3; KR102363284B1; GB201409282D0; EP3146070A1; CA2949925A1; JP2017517282A; AU2015263055A1; SG11201609754QA; JP6687605B2; US11047002B2

Abstract

本发明涉及用于生成模板核酸分子的序列的方法，用于确定至少两个模板核酸分子的序列的方法，适于执行所述方法的计算机程序和用于存储所述计算机程序的计算机可读介质。具体地，本发明涉及用于生成至少一个个体靶模板核酸分子的序列的方法，包括：a)提供包含至少两个靶模板核酸分子的核酸分子的至少一个样品；b)将第一分子标记引入所述至少两个靶模板核酸分子中的每一个的一端，并将第二分子标记引入所述至少两个靶模板核酸分子中的每一个的另一端，以提供至少两个带标记模板核酸分子，其中每个带标记模板核酸分子是以独有的第一分子标记和独有的第二分子标记进行标记的；c)扩增所述至少两个带标记模板核酸分子，以提供所述至少两个带标记模板核酸分子的多个拷贝；d)对所述至少两个带标记模板核酸分子包括所述第一分子标记和所述第二分子标记的区域进行测序；和e)为所述至少两个靶模板核酸分子中的至少一个重建共有序列。

Description

测序方法

技术领域

本发明涉及用于生成模板核酸分子的序列的方法，用于确定至少两个模板核酸分子的序列的方法，适于执行所述方法的计算机程序，和用于存储所述计算机程序的计算机可读介质。

背景技术

通常，难以有效和快速地测序长核酸序列(例如大于1Kbp的序列)。目前，测序技术可以产生大量短序列(即短核酸分子的序列)或少量长序列。目前，难以对大量的长序列进行测序。16S rRNA基因用于系统发育研究，因为它在不同种类的细菌和古细菌之间是高度保守的。除了高度保守的引物结合位点之外，16S rRNA基因序列包含可以提供用于细菌鉴定的物种特异性标记序列的高变区。因此，16S rRNA基因测序在医学微生物学中已经普遍成为细菌鉴定的表型方法的快速和便宜的替代方式。此外，尽管其最初用于鉴定细菌，但随后发现16S测序能够将细菌重新分类为完全新的物种或甚至属。它也成为用于在实验室培养物和非培养环境样品中识别和描述新细菌物种的主要标准之一。但是，由于大于1Kbp的大量核酸分子测序的相关困难，阻碍了16S rRNA序列分析的应用。这意味着，一般来说，执行16S序列分析的大多数研究者倾向于着眼在16S基因的至多500bp的短区域。这样的短区测序导致了分类学分辨率的缺乏。

此前已经描述了提高高通量测序仪器的序列读取长度的方法。其中包括复杂性降低方法，例如Illumina的Moleculo，其将独有的条形码归类至DNA分子的100s池，以及分子标记方法，其向每个个体分子添加独有的条形码样品。两种方法均通过分析属于每个条形码的短序列的集合来重建原始模板分子，计算重建原始模板的共有序列。两种方法均依赖于扩增，以产生条形码池或带标记单分子的许多拷贝。但是，这些现有方法都没有使用分子系统来检测由扩增引入的体外重组错误。

发明内容

本发明人开发了允许快速且精确地对核酸的长序列进行测序的技术。该技术可用于许多不同的应用中，但是特别有利于用于16S rRNA基因测序，因为其可用于生成跨1.5Kbp基因全长的大量长序列。因此，这种技术可用于对整个16S rRNA基因进行测序，提供比包括对16S rRNA基因的较短区域进行测序的现有方法更大的分类学分辨率。

此外，本发明人开发了一种技术，其允许识别和忽略在测序过程中产生的重组产物的序列。这提高了一般测序的灵敏度和准确性，并且当该技术用于使用16S测序的系统发育研究时，这种精度提高了分类学分辨率。

本发明的第一方面中，提供了一种用于生成具有至少一个长度大于1Kbp的个体靶模板核酸分子的序列的方法，包括：

a)提供包含长度大于1Kbp的至少两个靶模板核酸分子的核酸分子的至少一个样品；

b)将第一分子标记引入所述至少两个靶模板核酸分子中的每一个的一端，并将第二分子标记引入所述至少两个靶模板核酸分子中的每一个的另一端，以提供至少两个带标记模板核酸分子，其中所述至少两个带标记模板核酸分子中的每一个是以独有的第一分子标记和独有的第二分子标记进行标记的；

c)扩增所述至少两个带标记模板核酸分子，以提供所述至少两个带标记模板核酸分子的多个拷贝；

d)分离所述至少两个带标记模板核酸分子的多个拷贝的一部分，并令所述部分中的所述带标记模板核酸分子片段化以提供多个片段化的模板核酸分子；

e)对所述至少两个带标记模板核酸分子的多个拷贝中包括所述第一分子标记和所述第二分子标记的区域进行测序；

f)对所述多个片段化模板核酸分子进行测序；和

g)从包含步骤f)中产生的序列的至少一个子集的序列，为所述至少两个模板核酸分子中的至少一个重建共有序列。

本发明的第二方面中，提供了一种用于测定至少一个个体靶模板核酸分子的序列的方法，包括以下步骤：

(a)获得包含至少两个带标记模板核酸分子的多个拷贝的区域的序列的数据，其中所述至少两个带标记模板核酸分子中的每一个在一端包含第一分子标记，在另一端包含第二分子标记，其中每个靶模板核酸分子以独有的第一分子标记和独有的第二分子标记进行标记，且其中所述区域包含所述第一分子标记和第二分子标记；

(b)通过将包含彼此同源的第一分子标记和彼此同源的第二分子标记的序列归类给相同的簇，来分析包含所述至少两个带标记模板核酸分子的区域序列的数据，以识别可能对应于相同的个体靶模板核酸分子的序列簇，所述带标记模板核酸分子包含所述第一分子标记和第二分子标记；

(c)获得包含所述至少两个带标记模板核酸分子的多个片段的序列的数据，其中每个所述片段包含所述第一分子标记或所述第二分子标记；

(d)分析所述至少两个带标记模板核酸分子的多个片段的序列，以识别包含与所述第一簇的序列的第一分子标记同源的第一分子标记或与第一簇的序列的第二分子标记同源的第二分子标记的所述至少两个带标记模板核酸分子的多个片段的序列；

(e)通过比对包含在步骤(d)中识别的所述至少两个带标记模板核酸分子的多个片段的序列的至少一个子集的序列，并从所述序列中定义共有序列，重建第一靶模板核酸分子的序列；和

(f)对于第二模板核酸分子和/或更多的模板核酸分子，执行步骤(c)至(e)。

本发明的第三方面中，提供了一种用于用于确定至少一个靶模板核酸分子的序列的方法，包括以下步骤：

a)获得包含序列簇的数据，其中：

(i)每个簇包括至少两个带标记模板核酸分子的多个拷贝的区域序列，其中所述至少两个带标记模板核酸分子中的每一个的一端包含第一分子标记且另一端包含第二分子标记，其中所述至少两个靶模板核酸中的每一个用独有的第一分子标记和独有的第二分子标记进行标记，并且其中所述区域包含所述第一分子标记和所述第二分子标记；

(ii)每个簇包含所述至少两个带标记模板核酸分子的多个片段的序列，其中每个所述片段包含所述第一分子标记或所述第二分子标记；

(iii)每个簇中的所述至少两个带标记模板核酸分子的多个拷贝的区域序列，包含彼此同源的所述第一分子标记和所述第二分子标记；

(iv)所述至少两个带标记模板核酸分子的多个片段的序列，包含与该簇中的所述至少两个靶模板核酸分子的多个拷贝的区域的序列的所述第一分子标记同源的第一分子标记或与该簇中的所述至少两个带标记模板核酸分子的多个拷贝的区域序列的所述第二分子标记同源的第二分子标记；

(b)通过比对包含第一簇中的所述至少两个靶模板核酸分子的多个片段的序列的至少一个子集的序列，并且从这些序列定义共有序列，来重建第一靶模板核酸分子的序列；和

(c)对于第二模板核酸分子和/或其他的模板核酸分子，执行步骤(b)。

本发明的第四方面中，提供了一种用于产生至少一个个体靶模板核酸分子的序列的方法，包括：

a)提供包含至少两个靶模板核酸分子的核酸分子的至少一个样品；

d)对所述至少两个带标记模板核酸分子包括所述第一分子标记和所述第二分子标记的区域进行测序；和

e)为所述至少两个靶模板核酸分子中的至少一个重建共有序列，

其中步骤e)包括

(i)通过将包含彼此同源的第一分子标记序列和彼此同源的第二分子标记序列的序列归类至同一簇，识别所述至少两个带标记模板核酸分子的多个拷贝中可能与相同靶模板核酸分子对应的区域的序列簇；

(ii)选择至少一个序列簇，其中所选择的簇内的序列包含比与其他第一分子标记或第二分子标记共有度更高地彼此关联的第一分子标记和第二分子标记；

(iii)通过对在步骤(ii)中被选择的所述簇中的所述至少两个模板核酸分子的序列进行比对，并且定义所述序列的共有序列，来重建第一靶模板核酸分子的共有序列；和

(iv)对于第二模板核酸分子和/或更多的模板核酸分子，执行步骤(ii)至(iii)。

本发明的第五方面中，提供了一种用于确定至少一个个体靶模板核酸分子的序列的方法，包括以下步骤：

(a)获得包含至少两个带标记模板核酸分子的多个拷贝的区域的序列的数据，其中所述至少两个带标记模板核酸分子中的每一个的一端包含第一分子标记且另一端包含第二分子标记，其中每个靶模板核酸分子用独有的第一分子标记和独有的第二分子标记进行标记，并且其中所述区域包含所述第一分子标记和所述第二分子标记；

(b)分析包含含有所述第一分子标记和第二分子标记的所述至少两个带标记模板核酸分子的区域序列的数据，以通过将包括彼此同源的第一分子标记和彼此同源的第二分子标记的序列归类到同一个簇，来识别可能对应于同一模板核酸分子的序列簇；

(c)选择至少一个序列簇，其中所选簇内的序列包含比与其他第一分子标记或第二分子标记共有度更高地彼此关联的第一分子标记和第二分子标记；

(d)通过比对步骤(c)中所选簇中的至少一个序列子集，并从这些序列定义共有序列，来重建第一模板核酸分子的共有序列；和

(e)对于第二靶模板核酸分子和/或其他的靶模板核酸分子，执行步骤(c)至(d)。

本发明的第六方面中，提供了一种用于确定至少一个靶模板核酸分子的序列的方法，包括：

(a)获得包括序列簇的数据；

(b)通过比对所选簇中的至少一个序列子集的序列来重建第一模板核酸分子的共有序列；

其中所选簇中的所述序列包含至少两个带标记模板核酸分子的多个拷贝的区域的序列，其中所述至少两个带标记模板核酸分子中的每一个包含在一端的第一分子标记和在另一端的第二分子标记，其中每个靶模板核酸分子中用独有的第一分子标记和独有的第二分子标记进行标记，并且所述区域包含所述第一分子标记和所述第二分子标记；和

所选簇中的每个序列

(i)包含与该簇中其它序列的第一分子标记同源的第一分子标记和与该簇中其它序列的第二分子标记同源的第二分子标记；

(ii)包含比与其他第一分子标记或第二分子标记共有度更高地彼此关联的第一分子标记和第二分子标记。

本发明的第七方面中，提供了一种计算机程序，用于在当所述程序在电子设备上运行时，执行本发明的方法或方法步骤。

本发明的第八方面中，提供了一种存储本发明的计算机程序的计算机可读介质。

本发明的第九方面中，提供了一种试剂盒，包括：

(i)包含含有第一分子标记或第二分子标记的部分和具有能够与至少两个模板核酸分子杂交的序列的部分的引物；

(ii)描述如何执行如权利要求1-26中任一项所述的方法的说明书。

本发明的第十方面中，提供了一种试剂盒，包括：

(ii)存储有如权利要求28所述的计算机程序的计算机可读介质。

附图说明

图1.用于处理从单一MiSeq纳米测序到全长16S rRNA模板测序得到的读数的全自动计算工作流程。在仪器上对包含全长模板和“填充”片段的分子库进行测序，并使用所示步骤进行计算处理。

图2.用于16S基因扩增和测序的引物序列的描述。

图3.识别为推定重组(左栏)的条形码簇的丰度，以及产生重组形式的祖细胞分子的丰度(右)。亲本模板平均比推定重组形式丰富28-35倍。

图4.展示了拼接的16S序列的长度分布的图表。

图5.使用长序列和短序列比较OTUs的门(phyla)级别分类学归类的图。透明条形表示短测序方法的所有12个样品的平均值。黑色条形表示“长”方法的所有12个样品的平均值。灰色条形表示来自“长”测序方法的拼接V4区域的所有12个样品的平均值。

图6.使用长序列和短序列比较OTUs的属(genus)级别分类学归类的图。透明条形表示短测序方法的所有12个样品的平均值。黑色条形表示“长”方法的所有12个样品的平均值。灰色条形表示来自“长”测序方法的拼接V4区域的所有12个样品的平均值。

图7.展示观察到的随机条形码数量与测序的模板分子数量对比的累积曲线。预测50x和100x稀释液在模板中具有适当的冗余水平，以允许通过在Illumina MiSeq上进行填充测序来重建全长模板分子。顶部第一行代表1/10稀释度，顶部第二行代表1/50稀释度。顶部第三行代表1/100稀释度。顶部第四行代表1/500稀释度，最底下一行代表1/1000稀释度。

图8-11.展示本发明方法的流程图。

具体实施方式

产生或确定至少一个个体靶序列核酸分子的序列

本方法提供了用于生成或测定至少一个个体靶模板核酸分子的序列的方法。

术语“靶模板核酸分子”是指该方法的操作者想要测序的核酸分子。“模板核酸分子”可以包含较大核酸分子如染色体的一部分。“模板核酸分子”可以包含基因、多个基因或基因片段。“模板核酸分子”可以使用能够与模板核酸分子杂交的引物来分离。

在核酸分子样品中存在至少两个靶模板核酸分子。在16S测序的情形中，所述至少两个靶模板核酸分子可以包括各自编码不同16S rRNA的多个分子。例如，所述至少两个靶模板核酸分子可以包括编码来自不同细菌的16S rRNA的核酸，编码来自相同细菌的16srRNA的不同分子的核酸或两者兼有。或者，所述至少两个靶模板核酸分子可以包含同一基因的多个拷贝。“靶模板核酸分子”可以包含16s rRNA的片段，但是优选该片段的长度为至少1Kbp。这是因为本发明人已证实，当将16S测序用于系统发育研究时，测序的16s rRNA链越长，可获得的分类学分辨率水平越高。

在本发明的一个实施例中，所述至少一个靶模板核酸分子的大小大于1Kbp，大于1.2Kbp，大于1.3Kbp或大于1.5Kbp。在本发明的另一个实施例中，所述至少一个靶模板核酸分子小于100Kbp，小于50Kbp，小于25Kbp，小于15Kbp，小于10Kbp，小于5Kbp，小于3Kbp或小于2Kbp。

在本发明的另一个实施例中，该方法是用于生成至少一个靶模板核酸分子的序列的高通量方法。

提供至少一个核酸样品

本发明的一些方面需要提供至少一个包含至少两个靶模板核酸分子的核酸样品的步骤。可选地，所述至少两个靶模板核酸分子的大小大于1Kbp。

一般来说，术语“包括(comprising)”旨在表示包括但不限于，例如短语“包括以下步骤”表示该方法包括所述步骤，但是还可以执行附加步骤。在本发明的一些实施例中，词语“包括”可以替换为“由…组成(consisting)”。术语“由…组成”旨在表示限制性，例如如果方法是“由以下步骤组成”的，则该方法包括所述步骤且没有其他步骤。

样品可以是任何核酸样品。核酸样品可以是来源于人的核酸样品，例如从人类患者皮肤拭子提取的样品。可选地，核酸样品可以来自其他来源，例如来自水源的样品。这样的样品可以含有数十亿的模板核酸分子。可以使用本发明的方法同时对所述数十亿模板核酸分子中的每一个进行测序，因此可以用于本发明的方法中的模板核酸分子没有上限。

在本发明的另一个实施例中，该方法包括提供多个核酸样品，例如2、3、4、5、6、7、8、9、10、11、15、20、25、50、75或100个样品。可选地，提供小于100、75、50、25、20、15、11、10、9、8、7、6、5或4个核酸样品。在另一个实施例中，提供2至100、2至75、2至50、2至25、5至15或7至15个样品。

引入第一分子标记和第二分子标记并放大至少两个带标记模板核酸分子

本发明的部分方法包括将第一分子标记引入至少两个模板核酸分子中的每一个的一端，将第二分子标记引入所述至少两个模板核酸分子中的每一个的另一端，以提供至少两个带标记模板核酸分子。本发明的部分方法包括扩增所述至少两个带标记模板核酸分子，以提供所述至少两个模板核酸分子的多个拷贝。

为了允许对样品中的模板核酸分子测序，应当扩增模板核酸分子(可选地通过PCR)，以便提供每个模板核酸分子的多个拷贝(即，确保模板核酸分子具有用于测序反应的足够浓度)。在一个实施例中，通过聚合酶链反应(PCR)进行扩增。扩增步骤还确保靶模板核酸分子相对于样品中的其他核酸富集。扩增步骤使用与靶模板核酸分子杂交的引物，因此仅扩增靶模板核酸并相对于样品中的其他核酸增加靶模板核酸分子的浓度(富集)。但是，因为样品通常含有多个靶模板核酸分子，所以该扩增步骤可以扩增多个靶模板核酸分子。例如在16S测序中，样品可以含有来自多个细菌的16S DNA模板，在扩增步骤中使用的引物可以与所有这些16S基因序列杂交，由此扩增所有这些DNA模板。这可以通过使用简并引物来实现，所述引物可以在序列上稍有不同，由此一组简并引物可以与相似但不相同的目标模板核酸序列杂交(或互补)。

优选地，能够确定测序步骤中产生序列中的哪一个来源于相同的原始模板核酸分子。因此，术语“带标记模板核酸分子”是指在每个末端包含“靶模板核酸分子”和标记的分子。这允许确定原始模板核酸的每个分子的共有序列。这可以通过在每个原始模板核酸分子(Lundberg et al；Nature Methods 10:999-1002)的两个末端(5'和3'末端)添加分子标记以产生带标记模板核酸分子来实现。只要第一分子标记和/或第二分子标记在序列上靠近模板DNA分子的末端核苷酸(序列的第一个或最后一个核苷酸)，即可看作已经被引入模板DNA分子的末端。在一个实施例中，在末端核苷酸和第一分子标记之间存在小于50、40、30、25、20、15、10或5个核苷酸。在另一个实施例中，在末端核苷酸和第二分子标记之间存在小于50、40、30、25、20、15、10或5个核苷酸。

本发明的方法要求第一分子标记和第二分子标记是独有的。在这种情形中，术语“独有的(unique)”是指包含碱基对随机序列的分子标记，假设存在足够的随机核苷酸序列，则每个第一分子标记和每个第二分子标记将具有与每个其他标记不同的序列。但是，在一些实施例中，相同的标记序列可以出现不止一次，在该实施例中，第一分子标记和第二分子标记仍然被认为是“独有的”。在另一个实施例中，每个第一分子标记和每个第二分子标记包含与每个其他第一分子标记和第二分子标记的核苷酸序列不同的核苷酸序列。在另一个实施例中，至少90％的第一分子标记和第二分子标记包含与每个其他第一分子标记和第二分子标记的核苷酸序列不同的核苷酸序列。这意味着共享相同的一对第一和第二独有分子标记的核酸分子序列，可能来源于相同的原始模板核酸分子(生日悖论birthdayparadox)。另外，包含与靶模板核酸分子相关联的第一分子标记或第二分子标记的核酸片段的序列，也可能来源于该靶模板DNA分子。使用两个独有的分子标记还允许识别和忽略在本发明的方法期间通过重组产生的序列。

第一分子标记和第二分子标记序列还可以包含来自靶模板核酸序列的若干核苷酸，例如靶模板核酸分子序列的小于50、40、35、30、25、20、15或10个碱基对。

在一个实施例中，第一分子标记和第二分子标记的大小大于5bp，大于6bp或大于7bp。在另一个实施例中，第一分子标记和第二分子标记的大小小于20bp，小于18bp，小于15bp或小于10bp。

可以使用多种技术引入这种独有的分子标记，包括靶核酸PCR、加标片段化(tagmentation)和物理剪切或限制性消化，与随后的衔接子连接(可选地，粘性末端连接)联用。例如，可以使用能够与至少两个靶模板核酸分子杂交(可选地，互补)的第一组引物，在至少两个靶模板核酸分子上进行PCR。在本发明的一个实施例中，通过PCR使用引物将第一分子标记和第二分子标记引入所述至少两个模板核酸分子的每一个中，所述引物包含含有第一分子标记或第二分子标记的部分(5'端部分)以及具有能够与所述至少两个靶模板核酸分子杂交(可选地，互补)的序列的部分(3'末端部分)。这样的引物将与靶模板核酸分子杂交，然后PCR引物延伸将提供包含第一分子标记或第二分子标记的核酸分子。使用这些引物进行另一轮PCR，将提供一端包含第一分子标记且另一端包含第二分子标记的带标记模板核酸分子。在另一个实施例中，所述引物是简并的，即引物的3'末端部分相似但不彼此相同。例如，如果本发明的方法用于16S核糖体测序，则引物之间的3'末端部分可能略有不同，但每个3'末端部分将与至少一种生物体中的16S序列互补。这允许对来源未知的16S序列进行测序，从而能够对任何16S rRNA序列进行测序，而不管其来源(例如其来源细菌)为何。这样的序列可以随后用于系统发育研究。在所述至少两个靶模板核酸分子是16S rRNA基因的实施例中，合适的引物可以具有包含27F(Weisberg et al,J Bacteriol.1991Jan；173(2):697-703)或1391R(Turner et al,1999)细菌引物序列的3'端部分。

在本发明的单独实施例中，可以使用加标片段化引入第一分子标记和第二分子标记。在使用加标片段化引入第一分子标记和第二分子标记的实施例中，可以使用直接加标片段化引入标记；或通过加标片段化引入限定序列，随后使用包含能够与限定序列杂交的部分以及含有第一分子标记或第二分子标记的部分的引物，进行两轮PCR。在本发明的另一个实施例中，第一分子标记和第二分子标记可以通过原始核酸的限制性消化，随后连接包含第一或第二分子标记的核酸来引入。应进行原始核酸的限制性消化，从而消化产生包含待测序区域(所述至少一个靶模板核酸分子)的分子。

在通过PCR将第一分子标记和第二分子标记导入所述至少两个靶模板核酸分子的实施例中，所使用的引物可以包含另一个含有恒定“残端序列(stub sequenc)”的部分。该恒定残端序列优选为所述独有分子标记的5'端。在该实施例中提供的带标记模板核酸分子还包含残端序列。在提供多个核酸样品的实施例中，所述方法还进一步包括一个将样品条形码引入每个样品中的靶模板核酸分子的末端之一的步骤。该进一步的步骤发生在本发明方法中将第一分子标记引入所述至少两个靶模板核酸分子中每一个的一端并将第二分子标记引入其另一端之前或期间。这些样品条形码可以以类似方式引入，以引入第一分子标记和第二分子标记的方式，例如可以对每个样品分别进行一轮PCR，其中所使用的引物可与所述至少两个靶模板核酸分子杂交(或互补)，并且包含含有样品条形码的部分(可选地，3'部分)。可选地，在通过PCR将第一分子标记和第二分子标记引入所述至少两个模板核酸分子的实施例中，用于引入标记的引物可以包含另一含有样品特异性条形码的部分。在该实施例中，对核酸的每个样品分别进行第一轮PCR。第一轮PCR可以使用包含第一分子标记或第二分子标记、样品特异性条形码(其对于样品中的每个核酸模板分子是相同的)、与模板核酸分子杂交的区域、以及可选地残端区域的引物。然后，可以合并核酸样品，并使用不包含样品特异性条形码的引物(可选地，其能够与“残端”区域杂交或互补)进行更多轮次的PCR。可选地，使用包含第二样品特异性条形码的引物进行第二轮PCR，在该实施例中，直到第二轮PCR之后，才收集核酸样品。

扩增所述至少两个标记的模板核酸的步骤，可以包括使用能够与带标记模板核酸分子的末端杂交的第二组引物进行PCR，使得引物延伸得到带标记模板核酸分子的多个拷贝，并且保持第一分子标记和第二分子标记。在第一组引物包含残端序列的实施例中，第二组引物可以包含能够与带标记模板核酸分子的残端序列杂交的区域。

分离扩增后的模板核酸分子的一部分并片段化该部分中扩增后的模板核酸分子

该方法可以包括将扩增后的模板核酸分子分离一部分，并且片段化该部分中扩增后的模板核酸分子以提供多个片段化的模板核酸分子。

术语“片段”是指核酸分子的短片段，即形成“全长”序列的一部分的核苷酸链。根据本发明所述的片段是至少10、15、20、50、100、200、250或500个碱基对长。可选地，本发明的片段将小于2500、2200、2000或1500个碱基对长。

可以使用任何合适的方法进行片段化。例如，可以使用限制性消化或用与带标记模板核酸分子的至少一个内部区域互补的引物进行PCR来实现片段化。优选地，使用产生任意片段的方法进行片段化。术语“任意片段”是指随机产生的片段，例如通过加标片段化产生的片段。使用限制酶产生的片段不是“任意”的，因为限制性消化发生在由所用限制性酶所限定的特定DNA序列处。甚至更优选地，通过加标片段化进行片段化。如果通过加标片段化进行片段化，则加标片段化反应可选地在片段化的模板核酸分子中引入一个衔接子区域。该衔接子区域是短DNA序列，其可以编码例如衔接子，以允许使用Illumina MiSeq技术对片段化的模板核酸分子进行测序。

在典型的实施例中，该步骤还可以包括富集多个片段化模板分子以增加包含第一分子标记或第二分子标记的多个片段化模板核酸分子的比例的又一步骤。在该优选实施例中，富集所述多个片段化模板核酸分子的步骤优选通过PCR进行。优选地，执行PCR使用的是能够与第一或第二分子标记杂交(可选地，与第一或第二分子标记互补)的引物和能够与所述至少两个带标记的模板核酸分子的内部区域杂交(可选地，与其互补)的引物。所述PCR步骤将增加包含第一分子标记或第二分子标记的片段的浓度。

在通过加标片段化进行片段化且该标记化将衔接子区引入片段化模板核酸分子的实施例中，可以通过PCR，使用能够与第一或第二分子标记杂交(可选地，与其互补)的引物和能够与衔接子序列杂交(可选地，与其互补)的引物，来实现富集。

至少两个带标记模板核酸分子的区域测序和/或多个片段化模板核酸分子的测序

一般来说，测序步骤可以使用任何测序方法进行。可能的测序方法的实例包括Maxam Gilbert测序、Sanger测序或包括桥式PCR的测序。在典型的实施例中，测序步骤包括桥式PCR，可选地使用大于5、10、15或20秒的延伸时间进行桥式PCR步骤。使用桥式PCR的实例之一是使用Illumina基因组分析测序仪(Illumina Genome Analyzer Sequencers)。

本发明的方法可以包括对所述至少两个带标记模板核酸分子的区域进行测序的步骤。如上所述，本发明的方法需要将第一和第二分子标记引入所述至少两个目标模板核酸分子中，并且所述至少两个模板核酸分子中的每一个都用独有标记进行标记。由于每个所述至少两个带标记的模板核酸分子都包含独有的标记，则即使在扩增步骤后产生了所述至少两个模板核酸分子的多个拷贝，也可以看到哪些序列对应于哪个个体靶标模板核酸分子。为了实现这一点，操作者必须能够确定与每个原始靶模板核酸分子相关联的第一和第二独有分子标记的序列。这是通过对所述至少两个带标记模板核酸分子的区域进行测序来实现的，其中所述区域包含第一分子标记和第二分子标记。该步骤可以包括测序所述至少两个带标记模板核酸分子的整个长度，或者通常包括仅测序所述至少两个带标记模板核酸分子的末端。

本发明的方法可以包括对多个片段化模板核酸分子进行测序的步骤。在所述方法包括对多个片段化模板核酸分子测序的步骤的实施例中，这可以在对至少两个带标记模板核酸分子进行测序的测序运行的同一测序运行中进行。另一方面，在与所述至少两个带标记模板核酸分子分开的测序运行中，可以更有效和准确地对所述多个片段化的模板核酸分子进行测序。

重建至少两个模板核酸分子中至少一个的共有序列

本发明的方法可以包括重建至少两个模板核酸分子中的至少一个的共有序列的步骤。

可选地，通过将包含彼此同源的第一分子标记序列和彼此同源的第二分子标记序列的序列归类至同一簇，识别所述至少两个带标记模板核酸分子的多个拷贝中可能与相同靶模板核酸分子对应的区域的序列簇(例如步骤S2)。为了本发明的目的，短语“彼此同源”要求两个序列在最长序列的整个长度上彼此具有大于75％、80％、85％、90％、95％、98％、99％或100％的序列一致性。例如，如果序列包含10bp的分子标记，则如果标记仅在一个碱基对中不同，则两个分子标记将彼此90％相同。这种差异可以是碱基对的替换或缺失。这可以通过使用“uclust”算法或任何类似的序列成簇算法(例如CD-HIT)比对分子标记的序列并对其进行比较来确定。

可选地，重建共有序列的步骤包括分析所述至少两个带标记模板核酸分子的序列和/或所述多个片段化模板核酸分子的序列，以识别包含与第一簇的序列的所述第一分子标记或第二分子标记同源的第一分子标记或第二分子标记的所述至少两个带标记模板核酸分子的序列和/或所述多个片段化模板核酸分子的序列(例如步骤S4或S7)。这可以包括确定簇的第一分子标记序列和第二分子标记序列的共有序列的步骤。如上所述，如果第一分子标记序列和第二分子标记序列彼此同源，则将序列归类到相同的簇。第一分子标记序列和第二分子标记序列可以彼此略微不同，哪怕由于本发明的方法期间引入序列中的错误使得序列由相同的个体靶模板核酸分子产生。因此，可以定义来自这些同源第一分子标记和第二分子标记序列的共有序列。此共有序列极有可能代表被引入靶模板核酸分子时的标记序列。一旦定义了簇的第一分子标记和第二分子标记的共有序列，即可以识别包含与这些共有序列之一同源的第一分子标记或第二分子标记的多个片段化模板核酸分子的序列。这在识别对应于特定原始模板核酸分子的多个片段化模板核酸分子时提供更高的准确性。

如上所述，每个带标记模板核酸分子均包含第一分子标记和第二分子标记。复制这些带标记模板核酸分子，且复制的拷贝再片段化。每个片段将具有与个体靶模板核酸分子的一部分相同的序列(尽管在PCR扩增步骤期间可能存在着一些复制错误)，并且因此可以看作“对应”于原始个体靶模板核酸分子的一部分。这些片段的一部分将包含第一分子标记或第二分子标记。因此，一旦经过测序，就可以识别该片段对应的个体靶模板核酸分子。

可选地，重建共有序列的步骤包括：通过比对被识别为包含与第一簇的序列的第一分子标记或第二分子标记同源的第一分子标记或第二分子标记的多个片段化模板核酸分子的序列的至少一个子集，来重建第一模板核酸分子的序列，并且从这些序列定义共有序列的步骤(例如步骤S4，S6或S7)。

如上所述，与每个片段相关联的第一分子标记或第二分子标记的性质，允许操作者确定该片段对应于哪个原始模板核酸分子。会产生多个对应于同一原始模板核酸分子的片段。这些片段中每一个的序列将对应于模板核酸分子的不同(可能重叠)区域。可以通过比对这些片段，并从经比对片段计算共有序列，来重建模板的序列。术语“比对”是指以令共享共有序列的序列区域对齐的方式来排列所述片段的序列。这可以使用诸如Clustal W2、IDBA-UD或SOAPdenovo的软件来进行。一旦序列经过比对，即可以确定共有序列。如上所述，在测序反应期间，可以将突变引入到序列中，但是这些突变序列的浓度将低于精确序列。为此，定义了“共有序列”。在本发明的上下文中，术语“共有序列”可以看作是指，当考虑对应于所述至少一个模板核酸分子的所有片段的序列时，至少一个个体靶模板核酸分子的最可能序列。在一个实施例中，用被识别为包含与第一簇的序列的第一分子标记或第二分子标记同源的第一分子标记或第二分子标记的所述多个片段化模板核酸分子的每个序列进行比对，并将其用于定义共有序列(所定义的共有序列不包含所述第一分子标记或第二分子标记)。在另一个实施例中，将至少一个子集但并非所有所识别的多个片段化模板核酸分子序列进行比对，并用于定义共有序列。在另一个实施例中，将90％、92％、95％、98％、99％或100％的所识别的多个片段化模板核酸分子序列进行比对，并用于定义共有序列。在另一个实施例中，将所述至少一个带标记模板核酸分子的全长序列也包括在比对中，并用于定义共有序列。

可选地，本发明的方法包括，执行重建第二模板核酸分子或另外的模板核酸分子的共有序列所需的步骤。通常，这将包括针对具有彼此同源的第一分子标记和彼此同源的第二分子标记的第二序列簇的重复步骤。

可选地，通过计算机执行重建至少一个靶模板核酸分子的共有序列的步骤。在本发明的另一方面，提供了能够执行重建可选地存储在计算机可读介质上的至少一个靶模板核酸分子的共有序列的步骤的计算机程序。

忽略重组产物的序列

在本发明的一个方面，提供了一种用于生成序列的方法，其包括或进一步包括选择至少一个序列簇，其中所选簇内的序列包含第一分子标记和第二分子标记，且所选择的簇内的序列包含比与其他第一分子标记或第二分子标记共有度更高地彼此关联的第一分子标记和第二分子标记(例如，共有度高至少2倍，至少5倍，至少8倍或至少10倍)。

可选地，所述选择至少一个簇的步骤，由识别所述至少两个带标记模板核酸分子的序列簇组而组成，其中每个组的簇内的序列具有彼此同源的第一分子标记，或由识别所述至少两个带标记模板核酸分子的序列簇组而组成，其中每个组的簇内的序列具有彼此同源的第二分子标记。所述方法还可以包括从序列簇组中选择簇，其中所选簇包含最高数目的序列；其中从所选簇中的序列重建所述第一模板核酸分子的序列。这允许检测重组产物。所述重组可能产生包含对应于一种原始模板核酸分子的一部分的序列和对应于另一种原始模板核酸分子的一部分的序列的核酸分子。但是，如果将第一和第二独有分子标记引入模板核酸分子中，则可以检测这种重组产物。如果发生重组事件，则这一对独有分子标记将不同于任何原始标记模板核酸分子上的独有分子标记的任何配对。这意味着，虽然可以期望识别一个所有序列均包含相同的第一分子或第二分子标记的序列簇，但如果发生少量重组，则可能存在多个具有相同第一分子标记但将该第一分子标记与至少两个不同的第二分子标记配对的簇。但是，这些簇所包含的序列将少于具有与原始模板核酸分子相同的一对第一分子和第二分子标记的簇，因为重组产物的拷贝的存在数目将少于原始模板核酸。

实际上，可以使用本发明的方法来确定发生重组的速率(或在测序过程中产生的重组体数量)。例如，可以识别包含具有最常彼此相关的第一分子标记和第二分子标记的序列的簇。包含具有相同的第一分子标记但具有不同的第二分子标记的序列或具有相同的第二分子标记但具有不同的第一分子标记的序列的其他簇，可能是重组事件的结果，并且这些簇可以称为重组产物簇。可以量化这些重组产物簇中的序列数目。可以计算这些序列(重组产物)与序列总数相比的比例。

本发明的方法可以包括以下步骤：

b)将第一分子标记引入所述至少两个靶模板核酸分子中的每一个的一端，将第二分子标记引入所述至少两个靶模板核酸分子中的每一个的另一端，以提供至少两个带标记模板核酸分子，其中每个带标记模板核酸分子用独有的第一分子标记和独有的第二分子标记进行标记；

d)对所述至少两个带标记模板核酸分子中包括所述第一分子标记和所述第二分子标记的区域进行测序；和

e)识别并忽略作为重组事件产物的序列。

步骤e)可以包括，通过将包含彼此同源的第一分子标记序列和彼此同源的第二分子标记序列的序列归类至同一簇，识别所述至少两个带标记模板核酸分子的多个拷贝中可能与相同靶模板核酸分子对应的序列簇。步骤e)选择序列簇，其中所选择的簇内的序列包含比与其他第一分子标记或第二分子标记共有度更高地彼此关联的第一分子标记和第二分子标记。步骤

e)还可以包括：忽略不存在于所选簇之一内的任何序列。

可选地，所述方法还包括从所选簇之一确定共有序列的步骤。该方法还可以包括用于确定重组发生率或重组事件产物DNA总量百分比的步骤f)。为了执行所述步骤f)，应该确定存在的序列总数和已忽略序列数目。作为重组事件产物DNA总量百分比等于已忽略序列数目/序列的总数×100。当生成共有序列时，可以应用该簇的估计重组速率来去除与多数共有序列不同的序列，其中分歧序列的发生率为重组片段的预期率。通常，可以忽略以如下频率之一出现的序列：小于30％，小于20％，小于15％，小于12％或小于11％。可以将簇的估计重组速率报告为序列的质量度量。

用于测定至少一个模板核酸分子的序列的方法

本发明还提供了测定至少两个模板核酸分子的序列的方法。

在这种方法中，获得/输入数据(S1，S3或S5)，例如，包含至少两个模板核酸分子的序列的数据和/或包含至少两个模板核酸分子含有第一分子标记和第二分子标记的区域的序列的数据，可以使用上述方法步骤获得。

在特定实施例中，该方法由计算机执行。在另一方面，提供了一种计算机程序，其适于在当该程序在电子设备上运行时执行本发明的方法。在另一方面，提供了存储本发明的计算机程序的计算机可读介质。

如上所述，本申请所述方法的各方面(包括图8至11所示的方法)可以由计算机来实施。众所周知，个体计算机可以包括诸如CPU、RAM、存储设备等的标准硬件元件。众所周知，多个计算机可以连接在一起，并且可以通过协作来共同执行计算任务(作为分布式处理系统)。因此，应当理解，所称的由计算机实施的方法，旨在包括但不限于使用能够独立地执行所述一个或多个步骤的数据处理系统(计算机)的方法或分布处理系统。分布式处理系统的一个示例为，经由互联网连接与云计算系统一起工作的台式PC。例如，参考图8，在步骤S1和S3中要输入的数据可以存储在云计算系统(这可以称为云存储系统)的中央服务器处，并且由台式计算机访问，该台式计算机配置为执行分析步骤S2、S4和S5。可选地，在步骤S1和S3中要输入的数据可以由台式计算机提供，并且云计算系统可以配置为执行分析步骤S2、S4和S5并将结果返回到台式计算机。应当理解，根据特定应用的需要，可以采用在不同计算机之间进行数据存储和数据处理任务的任何其他分布。

进一步发展

本发明的方法可以进行改进以用于更长的序列。例如，在包括模板核酸分子片段化的方法中，可以再执行一个将另外的分子标记(例如第三和第四分子标记)引入经片段化模板核酸分子中的步骤。这允许片段化的模板核酸分子进一步片段化，且所述经进一步片段化的模板核酸分子可以进行测序。使用第三分子标记和第四分子标记，能够从进一步片段化的模板核酸分子重建全长序列的序列。

本发明的方法可用于对核酸样品内的多个不同基因进行测序。例如，本发明的方法可以用于，通过使用能够与包含多个基因的核酸杂交的一系列引物，对感兴趣的生物例如医学相关病原体的全部或大部分基因组进行测序。在一个实施例中，这些引物绑定在固体表面上或与选择性标记如生物素偶联。

试剂盒

在本发明的一些方面，提供试剂盒。可选地，所述试剂盒包含以下的一种或多种：

(i)包含含有第一分子标记或第二分子标记的部分和具有能够与靶模板核酸分子杂交的序列的部分的引物；可选地，其中所述引物包含“残端区”；

(ii)包含能够与(i)的引物杂交的部分的引物，例如包含与“残端区”互补的区域的引物；

(iii)能够片段化靶模板核酸分子的组分，例如转座酶、限制酶或与靶模板核酸分子的内部区域互补的其他引物；

(iv)包含能够与经片段化的靶模板核酸分子杂交的部分的引物；

(v)用于进行扩增的试剂，例如通过聚合酶链式反应；

(vi)描述如何实施本发明的方法的说明书；和/或

(vii)存储本发明的计算机程序的计算机可读介质。

实施例1

从足部皮肤提取微生物DNA

从取自6个不同健康个体的足部的皮肤拭子中提取DNA。总共采集了12个样品。通过用浸在0.15M NaCl和0.1％Tween 20的溶液中的人造丝拭子擦拭左脚或右脚的脚踝或脚跟区域来收集皮肤拭子。用拭子用力摩擦皮肤约30秒。将拭子头切断放入珠打浆管，并使用BiOstic Bacteriemia DNA分离试剂盒(Mo-Bio)，根据制造商的说明书从拭子中提取DNA。用Qubit仪器(Life Technologies)通过dsDNA HS测定定量DNA。

实施例2

制备用于Illumina测序的短序列16S文库

使用先前发表的方法(Caporaso et al,2012,ISME 6(8))，从微生物足部皮肤DNA样本制备16S基因的V4区文库，用于Illumina测序。简言之，使用基于Caporaso设计的引物来扩增样本，所述引物经过修饰以包括8bp而非12bp样品条形码，并且在正向和反向引物(引物序列描述于图2中)上均包括条形码。使用经修饰的Caporaso引物(Caporaso_forward和

Caporaso_reverse)进行10个循环的PCR，从500pg模板的DNA扩增V4区，对于每个样品使用不同的条形码引物。在通过磁珠清洗(Agencourt)除去过量的引物之后，合并样品，并再次进行20个循环的PCR，以使用引物Illumina_E_1和Illumina_E_2来富集含有Illumina衔接子的扩增子(参见图2中的引物细节)。在如Caporaso et al,(2012,ISME 6(8))中描述的条件下，用Taq核心PCR试剂盒(Qiagen)进行PCR。根据Caporaso et al,(2012,ISME 6(8))中描述的方法，使用纳米流动池和500循环V2试剂盒，在Illumina MiSeq上对扩增子进行测序。该方法将被称为“短测序”，并且下文中将使用该方法产生的数据称为“V4”数据。

实施例3

制备具有独有分子标记的用于Illumina测序的全长16S文库

用于扩增16S基因的引物含有27F(Weisberg et al,J Bacteriol.1991Jan；173(2):697-703)或1391R(Turner et al,Journal of Eukaryotic Microbiology,1999,46:327–338)细菌引物序列、8bp条形码序列、10bp独有分子标记和部分Illumina PE衔接子序列。引物序列(Long_forward和Long_reverse)显示在图2中。在正向和反向引物上使用10bp独有的分子标记(每端可能100亿个独有标记)，允许我们在池中使用类似于Lundberg etal(Nature Methods,2013,10:999-1002)的方法，独有地标记每个16S分子。使用正向引物对模板DNA进行一个循环的PCR，接着进行珠清洗以除去过量引物，然后使用反向引物进行另一个PCR循环，接着进行另一次珠清洗。第一轮PCR从正向引物延伸16S基因，正向引物在反应中将独有的分子标记引入每个不同的16S模板分子。第二轮PCR使用来自第一轮PCR的延伸产物作为模板，并产生在两端均具有独有分子标记的分子。虽然原始16S分子也可以在第二轮PCR反应中充当模板，但这些产物仅在一端含有部分Illumina PE衔接子序列，因此在富集PCR中不会扩增。富集PCR(34个循环)使用与每个带标记16S分子末端的部分Illumina PE衔接子序列互补的引物(Illumina引物PE_1和PE_2，图2)来扩增带标记16S分子池。

使用Taq PCR核心试剂盒(Qiagen)进行PCR。反应物为50μl，含有约500pg DNA模板、0.25μMF引物、250μMdNTP、1×PCR缓冲液、1×Q溶液和1.25U Taq聚合酶。PCR循环条件为95℃1分钟，50℃2分钟，72℃3分钟。这允许16S基因从正向引物延伸，其在反应中将独有的分子标记引入每个16S分子。然后如下使用Agencourt SPRI珠子对PCR反应进行磁珠清洗。通过移液将PCR反应物与0.6体积的珠混合，并在室温下培养1分钟。将管置于磁架上3分钟以使珠浓缩在管的侧面，并除去上清液。用200μl的85％乙醇洗涤珠子30秒，之后除去乙醇并使珠子空气干燥5分钟。一旦干燥，将管从磁性架中取出，并且通过移液将珠子重悬浮于35μl无核酸酶的水中。在室温下培养1分钟后，将管置于磁架上3分钟，然后将含有DNA的溶液移至新管中。第二个PCR如上所述设置，但使用0.25μM的反向引物，并且模板是31μl经过珠清洗的第一轮PCR反应物，。所应用的PCR循环为95℃1分钟，50℃2分钟和72℃3分钟。在该第二轮PCR中，来自第一轮PCR的独有标记延伸产物充当模板，以产生在两端具有独有分子标记的16S分子。第二轮PCR之后，如上所述进行另一次磁珠清洗，并且将该步骤的输出产物用作最终PCR反应的模板。最终PCR反应设置为50μl体积，并含有0.5μM PE_1和PE_2引物(参见图2)、250μM dNTP、1×PCR缓冲液、1×Q溶液、31μl模板(来自第二次珠清洗)和1.25U Taq聚合酶。PCR循环条件为95℃2分钟，然后是34个95℃1分钟、58℃30秒、72℃2分钟的循环。随后进行72℃下5分钟的最后延伸反应。将PCR再次进行如上所述的珠清洗，然后在Bioanalyser(Agilent)上使用高灵敏度DNA芯片进行分析。

实施例4

全长带标记16S PCR产物的加标片段化

对独有标记的全长16S PCR扩增子进行加标片段化。加标片段化利用转座酶，在片段化DNA的同时加入用于Illumina平台的衔接子序列。根据制造商的说明，使用Nextera-XT试剂盒进行加标片段化，除了PCR扩增步骤以外。在此，每个加标片段化反应进行两轮PCR，每轮使用Illumina提供的PCR引物之一和来自上述延伸PCR的引物之一的组合，以便仅扩增那些感兴趣的片段。我们旨在产生分别在一端具有PE_1(16S扩增子的编码序列的5'端)或PE_2(16S扩增子的编码序列的3'端)序列且另一端具有i7或i5Illumina衔接子(在加标片段化反应期间加入)的DNA片段库(图2)。这提供了来自16S基因的片段库，其与全长16S扩增子一起，可以从MiSeq上的任一末端测序。源自同一模板分子的序列可以通过分子两端的独有分子标记来识别，并重拼接以提供全长16S序列。先使用1.8V Ampure SPRI珠，根据制造商的说明书清洗来自加标片段化反应的PCR产物，随后在加标片段化反应中使用0.6V珠来除去小于400bp的片段。

实施例5

在Illumina MiSeq上进行全长带标记16S扩增子的测序

通过Bioanalyser高灵敏度DNA芯片，测量全长16S带标记扩增子和加标片段化产物的摩尔浓度。在第一次测序期间，仅以1.5pM的平均浓度加载加标片段化产物(用1.8VAmpure SPRI珠清洗)，并在纳米流动池上用具有2×150bp配对末端序列的MiSeq试剂盒v2测序。对于第二次测序，将全长16S带标记扩增子与加标片段化产物(用0.6V Ampure SPRI珠清洗以除去<400bp的片段)以1:9的比例组合。以6pM的平均摩尔浓度加载合并后的样品，并在纳米流动池上用具有2×250bp配对末端序列的MiSeq试剂盒v2测序。

当对全长16S带标记扩增子进行测序时，修改了MiSeq的运行条件。IlluminaMiSeq的Recipe文件夹中的Chemistry.xml文件包含供仪器用于DNA片段的聚簇和测序的方案。修改了对应于Illumina V2测序试剂盒的Chemistry.xml文件，以将“Amplification 1(扩增1)”、“Resyntheses(再合成)”和“First extension(第一次延伸)”步骤中的“WaitDuration(等待时长)”增加到15秒。由此，得到允许对个体全长16S标记扩增子的末端进行测序的过程。

实施例6

从带标记的Illumina序列重建全长16S序列

测序产生来自两种片段的数据，跨越整个16S基因(末端+末端片段)的片段和令16S基因的一端与16S基因的中间区域(末端+内部片段)配对的片段。来自末端+末端片段的序列编码了随机条形码和样品条形码的配对。

为了将序列归类到样品，将8nt样品条形码区域与容忍最多一个错配的已知样品条形码的集合进行匹配。因为16S序列的内部区域可能与样品条形码匹配，随后在具有潜在样品条形码匹配的序列中筛选存在于样品条形码下游的近端或远端16S引物退火序列。一端缺少已知样品条形码或引物退火序列的序列可推测为源自末端+内部片段。

实施例7

消除共有独有分子标记和重组体

由于测序错误，衍生自同一模板分子的序列可能具有略微不同的10nt独有分子标记序列。为了估计带标记模板分子的原始10nt随机条形码序列，我们应用了uclust(Edgar,R.C.(2010)Search and clustering orders of magnitude faster than BLAST,Bioinformatics 26(19),2460-2461；Edgar,R.C.(2013)UPARSE:Highly accurate OTUsequences from microbial amplicon reads,Nature methods)算法以识别>89％一致性(例如，10个碱基中的1个允许错配)的匹配随机条形码序列簇，并报告这些簇的共有序列。我们首先识别了末端+末端片段中的随机条形码簇。然后，我们鉴定了每个10nt随机条形码的最高丰度簇，并弃去任何包含在更丰富的其他簇中发现的10nt随机条形码的簇。该步骤旨在识别和弃去因体外重组而产生的随机条形码组合。重组形式的丰度可能低于亲本模板(图3)。我们注意到，当对任意2Kbp片段测序时，由于模板分子池的多样性，这种体外重组预期不会非常频繁地发生。重组检测在扩增子测序方案(例如对于16S)中的应用是最重要的。

末端+末端片段可能无法捕获样品中存在的所有随机条形码。剩余的随机条形码仍然可以用于重建16S序列，即使它们不能被归类给没有end+end片段信息的样本。因此，我们再次应用uclust在每一端分别识别随机条形码的簇，并且添加先前在末端+末端片段中未发现的任何新的共有序列。

最后，来自整个序列组的随机条形码与共有序列的集合匹配，并且将所述序列分组成簇用于以后拼接。

实施例8

序列簇的拼接

序列簇高概率地包含来源于同一模板分子的序列。我们对序列的簇采用从头拼接算法以重建尽可能多的原始模板分子。使用A5-miseq pipeline(Tritt et al(2012)Anintegrated pipeline for de Novo assembly of Microbial Genomes,PLoS One)拼接序列。A5-miseq是原始A5pipeline的改进版，将其扩展为支持长达500nt的序列拼接，并从序列中剪除衔接子序列，而不是丢弃包含衔接子序列的序列。

该方法在下文中称为“长测序”，并且将使用该方法产生的数据称为“长”数据。

实施例9

16S序列分析

对12个足部样品使用全长测试方案进行测序，其中6个用该方法测序两次。还使用Caparoso et al 2012的方法对所有12个样品进行测序。

使用软件包QIIME分析V4和长序列(Caparoso et al(2010),QIME allowsanalysis of high-throughput community sequence data,Nature Methods 7:335-335)。通过去除小于248bp或大于253bp的序列来对V4序列进行质量过滤。为了比较，从长数据集提取相应的V4区，并且仅将那些包含了V4区的拼接序列包括在下游分析中。这些提取序列在下文中称为“长V4”。使用封闭参考挑选方法将所有序列聚簇成OTUs，该方法将序列归类到来自无嵌合体数据库(Greengenes)的预聚簇OTUs。基于预聚类OUTs的数据库的隶属关系对分类进行评估。

短测序

从12个足部样品和一个阳性(仅大肠杆菌DNA)和阴性(仅拭子)对照产生总共296864对配对末端V4序列。在这些序列中，11240对由于不正确的正向和反向条形码组合而无法归类至样品，这表明重组率至少为3.8％。240938个序列被归类到12个足部样品，其在质量过滤后减少到240426个(关于归类至每个样品的序列数目，参见下表1)。在QIIME中以封闭参考方法聚簇OTUs，得到了1177个包含2个或更多个序列的97％相似度的OTU。这些OTUs的分类学分布类似于以前报道的厚壁菌门(79.6％±25.7)、放线菌(9.3％±12.9)和变形菌门(9.9％±22.2)占优的皮肤种群的分类学分布。

表1：不同测序方法下的每样品中的分析序列数

长序列

拼接了3914个16S序列，其中2030个超过1000bp长(图4)。有2957个序列可归类到足部样品，但有957个序列由于不正确的分子标记组合而不能被归类到样品。仅将包含对应于用短测序方法测序的V4区的序列用于下游分析，并且通过除去短于700bp和长于1500bp的序列，在QIIME中对这些序列进行质量过滤。由此得到用于分析的2351个序列(关于归类给每个样品多少个序列的细节，参见表1)。

长序列(用于分析的2351个序列)聚簇成72个OTUs，而V4长序列(对应于V4数据集相同区域)聚簇成48个OTUs。这些OTUs显示与V4序列数据相同的广义分类学分布(图5)。虽然放线菌(13.6％±21.6)和变形杆菌(11.4±26.7)如图所示有小幅增加，但这些差异不显著(双尾t检验，p>0.05)。

在属(genus)级别上也观察到类似的分类学归类(图6)，其中群落以葡萄球菌属为主，其次是棒状杆菌属、无杆菌属和不动杆菌属。与短测序方法相比，棒状杆菌属在长数据集中的表示增加，这可能解释了在放线菌门中观察到的表达差异，但是如上所述，该差异不显著(双尾t检验，p>0.05)。短测序和长测序方法之间的个体样品比较，显示棒状杆菌在拼接数据集中并非一致地过度表示，并且平均值受到一个样品的强烈影响，其中棒状杆菌在V4样品中仅代表了0.03％的序列，但是在拼接长测序数据中代表了46.67％的序列(样品F2_B2)。

重组率

OTU级别的比较

使用QIIME中的封闭参考方法将经拼接的16S序列(长度范围在756至1375)聚簇为在OTUs，且以相同方式聚簇的具有匹配样品V4数据平均只有30.1％(±6.8)的共有OTUs。这可能是由于比较不同长度的数据集，以及OTUs在QIIME中聚簇的方式。通过与序列数据库的最佳匹配，将序列归类至OTUs，所述序列已经以97％相似度预聚簇成OTUs。据推测，来自数据库的全长序列用于聚簇OTUs，并且在整个16S基因上97％相似的簇在V4区中可能并非97％相似，因为16S基因的不同区域的进化速率不同(Schloss PD(2010)The Effects ofAlignment Quality，Distance Calculation Method，Sequence Filtering，and Regionon the Analysis of 16S rRNA Gene-Based Studies.Plos Computational Biology 6)。因此，我们分析了仅从长序列(长V4序列)的V4区聚簇的OTU。在这种情形中，92.2％(±12.1)的OTUs与匹配的Caporaso样品OTUs相同(表3)。尽管在长数据集中获得的测序覆盖率较低，并且随后在整体上获得的OTUs也更少，这表明获得的数据与使用短V4序列获得的数据大致一致。有趣的是，长序列聚簇成的OTUs比长V4序列多约50％，证明了通过每16S分子更多的序列信息，可实现更灵敏的分类。

这些数据表明，这种新开发的方法提供了关于分类学和OTU聚簇的广义一致种群概况，并能够用于更灵敏的分类学归类。

实施例10

来自大肠杆菌K12MG1655的长片段的测序

对来自大肠杆菌K12MG1655的基因组DNA进行加标片段化，并使用琼脂糖凝胶电泳筛选1.5-3kbp大小的片段。通过2个循环的PCR用随机条形码对这些片段进行分子标记。该池的初始测序表明了模板分子之间的多样性过量，因此全长模板的重建不可行。使用稀释系列来确定模板分子群体成为成功测序和重建全长模板的瓶颈的适当程度(图7)。用填充序列对50x和100x稀释液进行测序。

序列表

<110> 悉尼科技大学

帕特里克·约翰·亨利·坎贝尔

<120> 测序方法

<130> N402378 WO

<140> PCT/GB2015/051518

<141> 2015-05-22

<150> GB1409282.9

<151> 2014-05-23

<160> 82

<170> PatentIn version 3.5

<210> 1

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_1

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 1

acactctttc cctacacgac gctcttccga tctnnnnnnn nnngttggcc gcgagagttt 60

gatcmtggct cag 73

<210> 2

<211> 74

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_2

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 2

acactctttc cctacacgac gctcttccga tctnnnnnnn nnntattaac tncgagagtt 60

tgatcmtggc tcag 74

<210> 3

<211> 75

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_3

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 3

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnctaatgg cnncgagagt 60

ttgatcmtgg ctcag 75

<210> 4

<211> 76

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_4

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 4

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnaaccagt cnnncgagag 60

tttgatcmtg gctcag 76

<210> 5

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_5

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 5

acactctttc cctacacgac gctcttccga tctnnnnnnn nnngaacgga gcgagagttt 60

gatcmtggct cag 73

<210> 6

<211> 74

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_6

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 6

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnactgaag tncgagagtt 60

tgatcmtggc tcag 74

<210> 7

<211> 75

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_7

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 7

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnttggcta tnncgagagt 60

ttgatcmtgg ctcag 75

<210> 8

<211> 76

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_8

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 8

acactctttc cctacacgac gctcttccga tctnnnnnnn nnntggcgat tnnncgagag 60

tttgatcmtg gctcag 76

<210> 9

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_9

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 9

acactctttc cctacacgac gctcttccga tctnnnnnnn nnncctctga tcgagagttt 60

gatcmtggct cag 73

<210> 10

<211> 74

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_10

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 10

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnctcatgc gncgagagtt 60

tgatcmtggc tcag 74

<210> 11

<211> 75

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_11

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 11

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnttcagcg anncgagagt 60

ttgatcmtgg ctcag 75

<210> 12

<211> 76

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_12

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 12

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnggatgcc annncgagag 60

tttgatcmtg gctcag 76

<210> 13

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_13

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 13

acactctttc cctacacgac gctcttccga tctnnnnnnn nnncggtcga gcgagagttt 60

gatcmtggct cag 73

<210> 14

<211> 74

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_14

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 14

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnaagacta cncgagagtt 60

tgatcmtggc tcag 74

<210> 15

<211> 75

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_15

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 15

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnaacgcta anncgagagt 60

ttgatcmtgg ctcag 75

<210> 16

<211> 76

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_16

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 16

acactctttc cctacacgac gctcttccga tctnnnnnnn nnngcctacg cnnncgagag 60

tttgatcmtg gctcag 76

<210> 17

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_17

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 17

acactctttc cctacacgac gctcttccga tctnnnnnnn nnntgactgc tcgagagttt 60

gatcmtggct cag 73

<210> 18

<211> 75

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_19

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 18

acactctttc cctacacgac gctcttccga tctnnnnnnn nnncaacctt anncgagagt 60

ttgatcmtgg ctcag 75

<210> 19

<211> 76

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_20

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 19

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnggaggct gnnncgagag 60

tttgatcmtg gctcag 76

<210> 20

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_21

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 20

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnaatcgat acgagagttt 60

gatcmtggct cag 73

<210> 21

<211> 74

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_22

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 21

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnaccaatt gncgagagtt 60

tgatcmtggc tcag 74

<210> 22

<211> 75

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_23

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 22

acactctttc cctacacgac gctcttccga tctnnnnnnn nnncctaata anncgagagt 60

ttgatcmtgg ctcag 75

<210> 23

<211> 76

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_24

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 23

acactctttc cctacacgac gctcttccga tctnnnnnnn nnnggattag gnnncgagag 60

tttgatcmtg gctcag 76

<210> 24

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_forward_25

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 24

acactctttc cctacacgac gctcttccga tctnnnnnnn nnngcgttac ccgagagttt 60

gatcmtggct cag 73

<210> 25

<211> 70

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_1

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 25

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnngttggcc gtagacgggc 60

ggtgtgtrca 70

<210> 26

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_2

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 26

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnntattaac tnnntagacg 60

ggcggtgtgt rca 73

<210> 27

<211> 70

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_3

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 27

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnctaatgg ctagacgggc 60

ggtgtgtrca 70

<210> 28

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_4

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 28

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnaaccagt cnnntagacg 60

ggcggtgtgt rca 73

<210> 29

<211> 70

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_5

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 29

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnngaacgga gtagacgggc 60

ggtgtgtrca 70

<210> 30

<211> 72

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_6

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 30

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnactgaag tnntagacgg 60

gcggtgtgtr ca 72

<210> 31

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_7

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 31

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnttggcta tnnntagacg 60

ggcggtgtgt rca 73

<210> 32

<211> 70

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_8

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 32

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnntggcgat ttagacgggc 60

ggtgtgtrca 70

<210> 33

<211> 71

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_9

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 33

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnncctctga tntagacggg 60

cggtgtgtrc a 71

<210> 34

<211> 72

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_10

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 34

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnctcatgc gnntagacgg 60

gcggtgtgtr ca 72

<210> 35

<211> 71

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_11

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 35

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnttcagcg antagacggg 60

cggtgtgtrc a 71

<210> 36

<211> 72

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_12

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 36

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnggatgcc anntagacgg 60

gcggtgtgtr ca 72

<210> 37

<211> 71

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_13

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 37

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnncggtcga gntagacggg 60

cggtgtgtrc a 71

<210> 38

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_14

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 38

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnaagacta cnnntagacg 60

ggcggtgtgt rca 73

<210> 39

<211> 70

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_15

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<400> 39

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnaacgcta atagacgggc 60

ggtgtgtrca 70

<210> 40

<211> 71

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_16

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 40

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnngcctacg cntagacggg 60

cggtgtgtrc a 71

<210> 41

<211> 72

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_17

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 41

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnntgactgc tnntagacgg 60

gcggtgtgtr ca 72

<210> 42

<211> 71

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_18

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 42

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnattgccg cntagacggg 60

cggtgtgtrc a 71

<210> 43

<211> 72

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_19

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 43

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnncaacctt anntagacgg 60

gcggtgtgtr ca 72

<210> 44

<211> 71

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_20

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 44

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnggaggct gntagacggg 60

cggtgtgtrc a 71

<210> 45

<211> 72

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_21

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 45

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnaatcgat anntagacgg 60

gcggtgtgtr ca 72

<210> 46

<211> 71

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_22

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 46

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnaccaatt gntagacggg 60

cggtgtgtrc a 71

<210> 47

<211> 71

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_23

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(52)

<223> n is a, c, g, or t

<400> 47

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnncctaata antagacggg 60

cggtgtgtrc a 71

<210> 48

<211> 72

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_24

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(53)

<223> n is a, c, g, or t

<400> 48

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnnggattag gnntagacgg 60

gcggtgtgtr ca 72

<210> 49

<211> 73

<212> DNA

<213> Artificial Sequence

<220>

<223> Long_reverse_25

<220>

<221> misc_feature

<222> (34)..(43)

<223> n is a, c, g, or t

<220>

<221> misc_feature

<222> (52)..(54)

<223> n is a, c, g, or t

<400> 49

ctcggcattc ctgctgaacc gctcttccga tctnnnnnnn nnngcgttac cnnntagacg 60

ggcggtgtgt rca 73

<210> 50

<211> 46

<212> DNA

<213> Artificial Sequence

<220>

<223> PE_1

<400> 50

aatgatacgg cgaccaccga gatctacact ctttccctac acgacg 46

<210> 51

<211> 49

<212> DNA

<213> Artificial Sequence

<220>

<223> PE_2

<400> 51

caagcagaag acggcatacg agatcggtct cggcattcct gctgaaccg 49

<210> 52

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_1

<400> 52

aatgatacgg cgaccaccga gatctacaca accagtctat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 53

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_2

<400> 53

aatgatacgg cgaccaccga gatctacaca acgctaatat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 54

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_3

<400> 54

aatgatacgg cgaccaccga gatctacaca agactactat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 55

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_4

<400> 55

aatgatacgg cgaccaccga gatctacaca atcgatatat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 56

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_5

<400> 56

aatgatacgg cgaccaccga gatctacaca ccaattgtat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 57

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_6

<400> 57

aatgatacgg cgaccaccga gatctacaca ctgaagttat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 58

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_7

<400> 58

aatgatacgg cgaccaccga gatctacaca ttgccgctat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 59

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_8

<400> 59

aatgatacgg cgaccaccga gatctacacc aaccttatat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 60

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_9

<400> 60

aatgatacgg cgaccaccga gatctacacc ctaataatat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 61

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_10

<400> 61

aatgatacgg cgaccaccga gatctacacc ctctgattat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 62

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_14

<400> 62

aatgatacgg cgaccaccga gatctacacg aacggagtat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 63

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_16

<400> 63

aatgatacgg cgaccaccga gatctacacg cgttacctat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 64

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_18

<400> 64

aatgatacgg cgaccaccga gatctacacg gatgccatat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 65

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_20

<400> 65

aatgatacgg cgaccaccga gatctacacg ttggccgtat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 66

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_22

<400> 66

aatgatacgg cgaccaccga gatctacact gactgcttat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 67

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_forward_24

<400> 67

aatgatacgg cgaccaccga gatctacact tcagcgatat ggtaattgtg tgccagcmgc 60

cgcggtaa 68

<210> 68

<211> 64

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_reverse_1

<400> 68

caagcagaag acggcatacg agataaccag tcagtcagtc agccggacta chvgggtwtc 60

taat 64

<210> 69

<211> 64

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_reverse_7

<400> 69

caagcagaag acggcatacg agatattgcc gcagtcagtc agccggacta chvgggtwtc 60

taat 64

<210> 70

<211> 64

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_reverse_8

<400> 70

caagcagaag acggcatacg agatcaacct taagtcagtc agccggacta chvgggtwtc 60

taat 64

<210> 71

<211> 64

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_reverse_9

<400> 71

caagcagaag acggcatacg agatcctaat aaagtcagtc agccggacta chvgggtwtc 60

taat 64

<210> 72

<211> 64

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_reverse_15

<400> 72

caagcagaag acggcatacg agatgcctac gcagtcagtc agccggacta chvgggtwtc 60

taat 64

<210> 73

<211> 64

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_reverse_16

<400> 73

caagcagaag acggcatacg agatgcgtta ccagtcagtc agccggacta chvgggtwtc 60

taat 64

<210> 74

<211> 64

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_reverse_17

<400> 74

caagcagaag acggcatacg agatggaggc tgagtcagtc agccggacta chvgggtwtc 60

taat 64

<210> 75

<211> 64

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_reverse_23

<400> 75

caagcagaag acggcatacg agattggcga ttagtcagtc agccggacta chvgggtwtc 60

taat 64

<210> 76

<211> 64

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_reverse_24

<400> 76

caagcagaag acggcatacg agatttcagc gaagtcagtc agccggacta chvgggtwtc 60

taat 64

<210> 77

<211> 64

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_reverse_25

<400> 77

caagcagaag acggcatacg agatttggct atagtcagtc agccggacta chvgggtwtc 60

taat 64

<210> 78

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> Illumina_E_1

<400> 78

aatgatacgg cgaccaccga 20

<210> 79

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> Illumina_E_2

<400> 79

caagcagaag acggcatacg a 21

<210> 80

<211> 31

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_read_1

<400> 80

tatggtaatt gtgtgccagc mgccgcggta a 31

<210> 81

<211> 32

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_read_2

<400> 81

agtcagtcag ccggactach vgggtwtcta at 32

<210> 82

<211> 32

<212> DNA

<213> Artificial Sequence

<220>

<223> Caporaso_index_read

<400> 82

attagawacc cbdgtagtcc ggctgactga ct 32

Claims

1.用于生成至少一个个体靶模板核酸分子的序列的方法，包括：

a）提供包含至少两个靶模板核酸分子的核酸分子的至少一个样品；

b）将第一分子标记引入所述至少两个靶模板核酸分子中的每一个的一端，并将第二分子标记引入所述至少两个靶模板核酸分子中的每一个的另一端，以提供至少两个带标记模板核酸分子，其中每个带标记模板核酸分子是以独有的第一分子标记和独有的第二分子标记进行标记的，且每个第一分子标记和每个第二分子标记具有与每个其他标记不同的序列；

c）扩增所述至少两个带标记模板核酸分子，以提供所述至少两个带标记模板核酸分子的多个拷贝；

d）对所述至少两个带标记模板核酸分子的包括所述第一分子标记和第二分子标记的区域进行测序；和

e）为所述至少两个靶模板核酸分子中的至少一个重建共有序列，

其中步骤e）包括

（i）通过将包含彼此相同的第一分子标记序列和彼此相同的第二分子标记序列的序列归类至同一簇，识别所述至少两个带标记模板核酸分子的多个拷贝中可能与相同靶模板核酸分子对应的区域的序列簇；

（ii）选择至少一个序列簇，其中所选择的簇内的序列包含比与其他第一分子标记或第二分子标记共有度更高地彼此关联的第一分子标记和第二分子标记；

（iii）通过对步骤（ii）中所选择的簇内的至少两个模板核酸分子的序列进行比对，并且定义这些序列的共有序列，来重建第一靶模板核酸分子的共有序列；和

（iv）对于第二模板核酸分子和/或更多的模板核酸分子，执行步骤（ii）至（iii）。

2.用于生成长度大于1Kbp的至少一个个体靶模板核酸分子的序列的方法，包括：

a）提供包含长度大于1Kbp的至少两个靶模板核酸分子的核酸分子的至少一个样品；

b）将第一分子标记引入所述至少两个靶模板核酸分子中的每一个的一端，并将第二分子标记引入所述至少两个靶模板核酸分子中的每一个的另一端，以提供至少两个带标记模板核酸分子，其中所述至少两个带标记模板核酸分子中的每一个是以独有的第一分子标记和独有的第二分子标记进行标记的，且每个第一分子标记和每个第二分子标记具有与每个其他标记不同的序列；

d）分离所述至少两个带标记模板核酸分子的多个拷贝的一部分，并令所述部分中的所述带标记模板核酸分子片段化以提供多个片段化的模板核酸分子；

e）对所述至少两个带标记模板核酸分子的多个拷贝中包括所述第一分子标记和第二分子标记的区域进行测序;

f）对所述多个片段化的模板核酸分子进行测序；和

g）从包含步骤f）中产生的序列的至少一个子集的序列，为所述至少两个靶模板核酸分子中的至少一个重建共有序列。

3.根据权利要求2所述的方法，其特征在于，（A）所述方法还包括富集多个片段化的模板分子，以增加包含所述第一分子标记或所述第二分子标记的所述多个片段化的模板核酸分子的比例的步骤，且该步骤在步骤f）之前；和/或

（B）步骤g）包括：

（i）通过将包含彼此相同的第一分子标记序列和彼此相同的第二分子标记序列的序列归类至同一簇，识别所述至少两个带标记模板核酸分子的多个拷贝中可能与相同的个体靶模板核酸分子对应的区域的序列簇；

（ii）分析所述多个片段化的模板核酸分子的序列，以识别包含与第一簇的序列的所述第一分子标记相同的第一分子标记和包含与所述第一簇的序列的所述第二分子标记相同的第二分子标记的所述多个片段化的模板核酸分子的序列；

（iii）通过比对包含步骤（ii）中识别的所述多个片段化的模板核酸分子的序列的至少一个子集的序列，并且从这些序列定义共有序列，来重建第一模板核酸分子的序列；和

（iv）对于第二模板核酸分子和/或更多的模板核酸分子，执行步骤（i）至（iii）；和/或

（C）步骤g）是由计算机实施的方法步骤；和/或

（D）步骤e）和/或f）使用包括桥式PCR步骤的测序技术进行；和/或

（E）步骤e）和f）在不同的测序运行中进行。

4.根据权利要求3所述的方法，其特征在于，所述步骤（i）还包括为第一簇确定所述第一分子标记序列的共有序列和所述第二分子标记序列的共有序列，且步骤（ii）包括识别多个片段化模板核酸分子的序列，所述片段化模板核酸分子包含与第一簇的第一分子标记共有序列或第二分子标记共有序列相同的第一分子标记或第二分子标记。

5.根据权利要求3所述的方法，其特征在于，所述桥式PCR步骤使用大于15秒的延伸时间进行。

6.用于确定至少一个个体靶模板核酸分子的序列的由计算机实施的方法，包括以下步骤：

（a）获得包含至少两个带标记模板核酸分子的多个拷贝的区域的序列的数据，其中所述至少两个带标记模板核酸分子中的每一个在一端包含第一分子标记，在另一端包含第二分子标记，其中每个靶模板核酸分子以独有的第一分子标记和独有的第二分子标记进行标记，且其中所述区域包含所述第一分子标记和第二分子标记，且每个第一分子标记和每个第二分子标记具有与每个其他标记不同的序列;

（b）通过将包含彼此相同的第一分子标记和彼此相同的第二分子标记的序列归类给相同的簇，来分析包含所述至少两个带标记模板核酸分子的区域的序列的数据，以识别可能对应于相同的个体靶模板核酸分子的序列簇，所述带标记模板核酸分子包含所述第一分子标记和第二分子标记；

（c）获得包含所述至少两个带标记模板核酸分子的多个片段的序列的数据，其中每个所述片段包含所述第一分子标记或所述第二分子标记；

（d）分析所述至少两个带标记模板核酸分子的多个片段的序列，以识别包含与所述第一簇的序列的第一分子标记相同的第一分子标记和与第一簇的序列的第二分子标记相同的第二分子标记的所述至少两个带标记模板核酸分子的多个片段的序列；

（e）通过比对包含在步骤（d）中识别的所述至少两个带标记模板核酸分子的多个片段的序列的至少一个子集的序列，并从所述序列中定义共有序列，重建第一靶模板核酸分子的序列；和

（f）对于第二靶模板核酸分子和/或更多的靶模板核酸分子，执行步骤（c）至（e）。

7.根据权利要求6所述的方法，其特征在于，所述步骤（b）还包括为第一簇确定所述第一分子标记序列的共有序列和所述第二分子标记序列的共有序列，且步骤（d）包括识别多个片段化模板核酸分子的序列，所述片段化模板核酸分子包含与第一簇的第一分子标记共有序列或第二分子标记共有序列相同的第一分子标记或第二分子标记。

8.用于确定至少一个靶模板核酸分子的序列的由计算机实施的方法，包括以下步骤：

（a）获得包含序列簇的数据，其中：

（i）每个簇包括至少两个带标记模板核酸分子的多个拷贝的区域的序列，其中所述至少两个带标记模板核酸分子中的每一个的一端包含第一分子标记且另一端包含第二分子标记，其中每个靶模板核酸用独有的第一分子标记和独有的第二分子标记进行标记，并且其中所述区域包含所述第一分子标记和所述第二分子标记，其中每个第一分子标记和每个第二分子标记具有与每个其他标记不同的序列；

（ii）每个簇包含所述至少两个带标记模板核酸分子的多个片段的序列，其中每个所述片段包含所述第一分子标记或所述第二分子标记；

（iii）每个簇中的所述至少两个带标记模板核酸分子的多个拷贝的区域的序列，包含彼此相同的所述第一分子标记和所述第二分子标记；

（iv）所述至少两个带标记模板核酸分子的多个片段的序列，包含与该簇中的所述至少两个带标记模板核酸分子的多个拷贝的区域的序列的所述第一分子标记相同的第一分子标记或与该簇中的所述至少两个带标记模板核酸分子的多个拷贝的区域的序列的所述第二分子标记相同的第二分子标记；

（b）通过比对包含第一簇中的所述至少两个带标记模板核酸分子的多个片段的序列的至少一个子集的序列，并且从这些序列定义共有序列，来重建第一靶模板核酸分子的序列；和

（c）对于第二模板核酸分子和/或其他的模板核酸分子，执行步骤（b）。

9.根据权利要求2-8中任一项所述的方法，其特征在于，还包括以下步骤：

（v）通过将包含彼此相同的第一分子标记序列和彼此相同的第二分子标记序列的序列归类至同一簇，来识别可能对应于同一模板核酸分子的所述至少两个带标记模板核酸分子的多个拷贝的区域的序列簇；

（vi）选择至少一个序列簇，其中所选择的簇内的序列包含比与其他第一分子标记或第二分子标记共有度更高地彼此关联的第一分子标记和第二分子标记；

其中，从在步骤（vi）中所选簇中的序列，重建所述第一靶模板核酸分子的序列。

10.根据权利要求9所述的方法，其特征在于，步骤（vi）包括：识别所述至少两个带标记模板核酸分子的序列簇的组，其中每组的簇内的序列具有彼此相同的第一分子标记；和/或识别所述至少两个带标记模板核酸分子的序列簇的组，其中每组的簇内的序列具有彼此相同的第二分子标记；并从所述序列簇的组中选择包含最高数量的序列的簇。

11. 根据权利要求2-7中任一项所述的方法，其特征在于，

（A）步骤e）是由计算机实施的方法步骤；和/或

（B）步骤d）使用包括桥式PCR步骤的测序技术进行。

12.根据权利要求11所述的方法，其特征在于，所述桥式PCR步骤使用大于15秒的延伸时间进行。

13.用于确定至少一个个体靶模板核酸分子的序列的由计算机实施的方法，包括以下步骤：

（a）获得包含至少两个带标记模板核酸分子的多个拷贝的区域的序列的数据，其中所述至少两个带标记模板核酸分子中的每一个的一端包含第一分子标记且另一端包含第二分子标记，其中每个靶模板核酸分子用独有的第一分子标记和独有的第二分子标记进行标记，并且其中所述区域包含所述第一分子标记和所述第二分子标记，其中每个第一分子标记和每个第二分子标记具有与每个其他标记不同的序列；

（b）分析包含含有所述第一分子标记和第二分子标记的所述至少两个带标记模板核酸分子的区域序列的数据，以通过将包括彼此相同的第一分子标记和彼此相同的第二分子标记的序列归类到同一个簇，来识别可能对应于同一模板核酸分子的序列簇；

（c）选择至少一个序列簇，其中所选簇内的序列包含比与其他第一分子标记或第二分子标记共有度更高地彼此关联的第一分子标记和第二分子标记；

（d）通过比对步骤（c）中所选簇中的至少一个序列子集，并从这些序列定义共有序列，来重建第一靶模板核酸分子的共有序列；和

（e）对于第二靶模板核酸分子和/或其他的靶模板核酸分子，执行步骤（c）至（d）。

14.根据权利要求1或权利要求13所述的方法，其特征在于，所述权利要求1的步骤（iv）或权利要求13的步骤（c）由以下组成：识别所述至少两个带标记模板核酸分子的序列簇的组，其中每个组的所述簇内的序列具有彼此相同的5’分子标记；和/或识别所述至少两个带标记模板核酸分子的序列簇的组，其中每个组的所述簇内的序列具有彼此相同的3'分子标记；以及从序列簇的组中选择包含最高数目的序列的簇。

15.用于确定至少一个靶模板核酸分子的序列的由计算机实施的方法，包括：

（a）获得包括序列簇的数据；

（b）通过比对所选簇中的至少一个序列子集的序列来重建第一模板核酸分子的共有序列；

其中所选簇中的所述序列包含至少两个带标记模板核酸分子的多个拷贝的区域的序列，其中所述至少两个带标记模板核酸分子中的每一个包含位于一端的第一分子标记和位于另一端的第二分子标记，其中所述至少两个靶模板核酸分子中的每一个用独有的第一分子标记和独有的第二分子标记进行标记，并且所述区域包含所述第一分子标记和所述第二分子标记，其中每个第一分子标记和每个第二分子标记具有与每个其他标记不同的序列；和

所选簇中的每个序列

（i）包含与该簇中其它序列的第一分子标记相同的第一分子标记和与该簇中其它序列的第二分子标记相同的第二分子标记；

（ii）包含比与其他第一分子标记或第二分子标记共有度更高地彼此关联的第一分子标记和第二分子标记。

16. 根据权利要求3-15中任一项所述的方法，其特征在于，

（A）所述同一簇的序列的所述第一分子标记彼此具有至少90％的序列一致性；和/或

（B）所述同一簇的序列的所述第二分子标记彼此具有至少90％的序列一致性。

17.根据权利要求3-5、9-12中任一项所述的方法，其特征在于，其为由计算机实施的方法。

18. 根据权利要求1-8、10、12-13、15中任一项所述的方法，其特征在于，

（A）所述区域包含大于25个含有所述第一分子标记或第二分子标记的碱基对；和/或

（B）对包含所述至少两个带标记模板核酸分子的全长的所述区域进行测序；和/或

（C）通过使用选自对所述至少一个模板核酸分子进行PCR、加标片段化和物理剪切或限制性酶切的方法，并随后连接包含所述5'分子标记或3'分子标记的核酸，来将所述第一分子标记和所述第二分子标记引入所述至少两个模板核酸分子；和/或

（D）所述至少两个模板核酸分子编码微生物核糖体16S；和/或

（E）所述至少两个模板核酸分子中的至少一个的大小小于10Kbp。

19.根据权利要求18所述的方法，其特征在于，通过使用引物进行PCR，将所述第一分子标记和所述第二分子标记引入所述至少两个模板核酸分子中，所述引物含有包含所述第一分子标记或第二分子标记的部分和具有能够与至少两个模板核酸分子杂交的序列的部分。

20.存储计算机程序的计算机可读介质，所述计算机程序在电子设备上运行时，实现如权利要求1、2、6、8、13或15所述的方法。

21. 试剂盒，包括：

（i）引物，所述引物含有包含所述第一分子标记或第二分子标记的部分和具有能够与至少两个模板核酸分子杂交的序列的部分，以用独有的第一分子标记和独有的第二分子标记来标记每个模板核酸分子，其中每个第一分子标记和每个第二分子标记具有与每个其他标记不同的序列；和

（ii）根据权利要求20所述的计算机可读介质。