CN101460633A

CN101460633A - 用于核酸测序的方法和装置

Info

Publication number: CN101460633A
Application number: CNA200780017676XA
Authority: CN
Inventors: A·贝路驰; S·若弗鲁瓦; S·林纳尔松; P·贝鲁布; T·基思
Original assignee: GENIZON SVENSKA AB
Current assignee: GENIZON SVENSKA AB
Priority date: 2006-03-14
Filing date: 2007-03-14
Publication date: 2009-06-17
Also published as: EP1999276A4; US20100028873A1; CA2647786A1; JP2009529876A; WO2007106509A3; WO2007106509A2; EP1999276A2

Abstract

本发明提供核酸测序方法。该方法包括从核酸样品富集靶核酸，其中所述核酸样品通过至少第一轮杂交选择和扩增以及第二轮杂交选择和扩增进行富集。所述被富集的核酸采用便于Cantaloupe测序技术测序的形式，所述Cantaloupe测序技术使用鸟枪法杂交测序(SBH)固定的滚环扩增子。

Description

用于核酸测序的方法和装置

该申请要求享有2006年3月14日提交的美国临时申请60/781,731的权益，其全部内容在此完整引入作为参考。

本发明涉及核酸测序，尤其涉及PCT/EP2005/002870(对应于WO2005/093094)公开的测序方法，其全部内容在此完整引入作为参考。

发明背景

尽管基因组研究中使用了许多不同的方法，但到目前为止直接测序还是最重要的。实际上，如果能够使测序高效，则可以阐明基因组分析的3个主要层面(序列确定，基因分型和基因表达分析)。例如，可以对模型种属进行测序，通过全基因组测序对个体进行基因分型，并在转换成cDNA后可以彻底分析RNA群。

通过测序技术进展可以改进的其他分析法包括：外因基因组学(例如通过亚硫酸氢盐转化未甲基化的胞嘧啶成尿苷可以鉴定甲基化的胞嘧啶)，鉴定蛋白-蛋白相互作用(例如通过测序酵母双杂实验中获得的命中物(hit))，鉴定蛋白-DNA相互作用(例如通过测序染色体免疫沉淀后获得的DNA片段)以及许多其他分析法。

因此，需要用于DNA测序的高效方法。具体来说，需要高通量测序方法。例如，活细胞含有大约300000拷贝的信使RNA，每个信使RNA平均长大约2000个碱基。即使只完整测序单细胞中的RNA，也必须分析6亿个核苷酸。在由许多不同细胞类型组成的复杂组织中，该任务变得更加困难，因为细胞类型特异性转录物被稀释。要求千兆碱基每日通量以满足这些需要。下表显示不同测序工程(数字是针对人类测序的，除非另外指出)要求通量的一些估算值：

实验	需要的通量
实验	需要的通量	基因组序列(10×de novo)	30Gbp
全基因组多态性	3Gbp	基因组序列(10×de novo)	30Gbp
全基因组多态性	3Gbp	完整单元型图(200个体)	600Gbp
基因表达	600Mbp	完整单元型图(200个体)	600Gbp

外因基因组学	3Gbp
外因基因组学	3Gbp	千万蛋白相互作用	400Mbp
整个生物圈(每个属一种)	～300Tbp	千万蛋白相互作用	400Mbp

已经发展出许多不同的测序技术。

利用荧光双脱氧核苷酸的Sanger测序法(Sanger等，PNAS 74 no.12：5463-5467，1977)是使用最广泛的方法，已经在96甚至384-毛细管序列分析仪中成功自动化。但是，Sanger方法依赖对应于模板每个碱基位置的大量片段的物理分离，因此无法轻易扩大到超高通量测序(现有的最佳设备每天产生～2百万个核苷酸序列)。

杂交测序(SBH)使用一组代表所有可能序列的探针，所述探针直到某一长度(例如，所有10-聚体的一组需要超过一百万个探针)。但是，对于所有“k-聚体”的给定组，k受到可以安装在微阵列表面的探针数量的限制。此外，从杂交数据重建模板序列是复杂的，并且因为杂交动力学的性质和测序更大模板所需探针数量的组合激增而变得更加困难。因此通量低，因为每个模板需要载有数百万探针的微阵列。

SBH的替代方法是将模板置于固体表面，然后连续杂交探针组。利用这种方法，许多模板可以被平行测序，但探针组的规模受到实验步骤连续性质的必要限制。因此，只有非常短的模板可以被测序。实际上用k-聚体探针可以测序的预期长度只有2^k，或用16384个探针只有128个核苷酸(k＝7)。考虑到现实的杂交次数，这类实验步骤是不可行的。Drmanac等，Nature Biotech 16：54-8(1998)尝试通过在好几百张单独的膜上复制每个模板解决这些问题，所述膜然后被平行杂交。但是，这种策略限制了通量，并且对模板制备方法有额外的要求。

在纳米孔测序法(例如，美国专利6,355,420)中DNA分子通过分开两个反应室的纳米孔，这允许利用室间电导的变化检测结合的探针。通过用全部可能的k-聚体的一个亚组修饰DNA，有可能推导出部分序列。尽管如果可能的话，理论上可以实现惊人的通量(大概在三十分钟内一个人类基因组)，但是到目前为止，对于通过纳米孔方法获得完整序列还没有提出可行的策略。

对于合成测序(SBS)已经设计出不同的方法，这涉及检测从掺入核苷酸释放的副产品，或者检测永久附着的标记。为了提高SBS的通量，需要平行显示大量模板上每个碱基的掺入，例如于玻璃表面或者相似的反应室(参见例如美国专利4,863,849和美国专利5,908,755)。

例如，焦磷酸测序法(pyrosequencing)(例如WO/9323564)通过检测采用无机二磷酸(PPi)形式的各个掺入单体的副产品来确定模板的序列。为了保证所有模板分子的反应同步，一次添加一种单体，在下次添加前未掺入的单体被降解。但是，同聚物亚序列(相同单体的运行)提出一个问题，即不能阻止多重掺入。由于模板小部分的错误掺入最后压倒真正的信号，同步化最终被破坏。现有最好的系统只能读大约20-30碱基，组合通量为大约200000碱基/天。

美国专利6,274,320描述了使用滚环扩增产生附着于光纤的串连重复线性单链DNA分子，在能够平行进行的焦磷酸测序反应中分析所述DNA分子。理论上，这类系统的通量只受表面面积(模板分子的数量)、反应速度和成像设备(分辨率)的限制。但是，在PPi被转变成可检测信号前需要防止PPi从检测器扩散的要求实际上限制了反应位点的数量。在美国专利6,274,320中，每个反应受到限制只在位于光纤顶端的微型反应器中发生，从而限制了每条纤维的序列数量为1。

更加受限的是焦磷酸测序法完成的短读数长度(<50bp)。这类短序列在全基因组测序中并不总是有用的，而且平衡反应的复杂设置使进一步延伸读数长度变得困难。只是偶而并针对特定模板报道了读数长度达到100bp。

美国专利6,255,083描述了一种检测释放标记的方案，而WO01/23610描述了一种连续添加核苷酸并检测然后利用核酸外切酶切除的标记的方案。检测释放标记或者副产品的主要优点在于在后续步骤中模板不含标记。但是，因为信号从模板弥散，所以很难在固体表面例如微阵列上平行进行这类测序方案。

改进并且更有效的测序方法，例如那些具有更高通量的方法，将允许更有效和改进的基因组分析。

对造成简单和复杂的人类疾病的遗传变异和突变的寻找面临许多挑战。就复杂疾病来说，这些寻找通常获得与疾病风险相关的单核苷酸多态性(SNP)或者SNP组。对与复杂疾病例如克罗恩病、牛皮癣、哮喘和精神分裂症相关的所有基因和遗传特性的鉴定到目前为止是不可能的。主要原因是现有的基因组分析方法是耗时的，因此产生方法的瓶颈。

在全基因组关联研究(WGAS)中，已经鉴定出许多候选区域(CR)，必须对这类区域进行测序以鉴定与疾病相关的基因、遗传变异和多态性。但是，CR可能相当大(>100kb)，因此测序众多个体中的许多CR面临巨大的测序负担。

发明概述

本发明涉及“高密度指纹法”，其中一组核酸探针与需要其序列信息的核酸退火。通过测定各个探针和靶核酸之间序列互补性的存在或者缺失，确定序列信息。本发明部分基于使用与模板有关的参照序列，这克服了现有测序技术的各种问题，并且允许利用标准试剂和装置在短时间内获得大量序列。优选的实施方案提供了其他优点。

本发明还涉及用于序列分析的算法和技术，以及用于测序的装置和系统。本发明允许只利用本领域可以轻易获得的标准台式设备实现大量测序工作的自动化。

本发明涉及一组探针在连续步骤中的杂交，每个探针包括一或者多个寡核苷酸分子，确定每个探针是否与模板杂交，从而形成靶的“杂交谱”。优选地，调节探针组和模板链的长度以确保“指示探针”(与模板链准确杂交一次的探针)密集覆盖任意给定的模板链。本发明还涉及将获得的杂交谱与预期含有一或者多个类似于模板链的序列的参照数据库进行比较，并确定所述一或者多个参照序列内所述模板链的可能的一或者多个位置。本发明还允许模板链的杂交谱与所述一或者多个位置的预期杂交谱进行比较，从而获得所述模板链的至少部分序列信息。

本发明还涉及基因组学和遗传学领域，包括基因组分析和DNA变异研究。具体来说，本发明预期从DNA样品富集感兴趣的DNA片段。例如，所述感兴趣的片段可以是从疾病的全基因组关联研究中鉴定的候选区(CR)。CR可以是：基因组DNA序列；基因间DNA序列；对应于基因元件的序列，所述基因元件例如启动子、外显子、内含子、UTR和保守的非编码序列；或者cDNA序列。本发明尤其可用于鉴定与疾病相关的单核苷酸多态性(SNP)、其他类型的多态性(插入，缺失，微卫星)以及特定等位基因和单元型。本发明的方法在药物基因组学、诊断学、患者治疗学领域提供DNA变异和多态性的发现并且提供基因单元型信息以用于预测个体对疾病的易感性或者复杂遗传性状和/或它们对一或者多种特定药物的应答，这样的话可以开发适应群体遗传差异的药物和/或将其给予合适的群体。

本发明提供快速、准确和经济有效的选择和测序CR的方法。具体地，本发明将DNA片段富集技术与称为“Cantaloupe”的测序技术(WO2005/093094中详细描述，其在此全文引入作为参考)结合。Cantaloupe技术允许在大约10天内测序完整的人基因组。尽管富集技术已经被描述(参见例如Lovett等，PNAS 88：9628-9632，2005；和Bashiardes等，Nat.Methods2(1)：63-69，2005，其在此全文引入作为参考)，本发明提供一种产生与Cantaloupe测序平台相容的DNA片段的富集方法。

利用本发明的方法，从基因组DNA片段富集感兴趣的序列，然后利用Cantaloupe技术可以方便和容易地测序所述序列，从而允许以省时和经济有效的方式高通量测序大的DNA片段。在示范性的实施方案中，断裂DNA例如基因组DNA并选择所需大小的片段。按照本文更全面描述的含有引物结合位点的DNA衔接子(adapter)与所述片段连接。利用核酸探针的至少两轮杂交选择和扩增产生富集的样品。然后产生并环化所述富集样品的单链片段，并将其固定在固体支持物上。然后通过滚环扩增(RCA)原理复制所述固定的DNA，形成滚环(RC)扩增产物的随机阵列。一系列探针与RC产物连续杂交以产生杂交谱。所述探针(例如)由7-聚体寡核苷酸组成；具有5个可变碱基和2个固定碱基，总共1024个可能的不同探针。所述杂交谱就像各个片段的条形码，将其与参照序列进行比较。然后通过“组装”以及将所有片段条形码与参照基因组进行比较重建靶核酸的序列。

因此，本发明能够从例如基因组DNA样品选择感兴趣的区域并产生预备用于自动化测序系统例如Cantaloupe技术的遗传物质。本发明的方法产生快速、有效和经济有效的DNA变异的分析和鉴定。

附图简述

图1是凝胶图像，它显示随时间增加用CviJ^*切割cDNA样品(泳道4)的结果。观察到平均片段长度逐级降低至100bp(100bp是大小标准的最低片段，泳道3)。将最佳切割反应物上样于泳道1，并纯化大约100bp的片段。

图2显示衔接子连接。泳道1是大小标记物；泳道2，未连接片段；泳道3和4，连接片段。大部分片段正确连接。

图3显示环化前(泳道1)和环化后(泳道2)片段的样品。泳道3显示纯化后的结果。注意泳道3中无接头(linker)。

图4显示使用488nm激光和6FAM滤器在4μm分辨率通过Tecan^TMLS400扫描随机阵列载玻片获得的大约0.8×2.4mm的区段。斑点代表从各个环状模板分子产生的扩增产物。

图5显示利用熔点分析测量的短寡核苷酸探针的稳定性。图5A显示于100mM tris pH8.0，50mM NaCl的CTAB的作用。图5B显示于TaqExpress缓冲液(GENETIX，UK)的LNA的作用。图5C显示于TaqExpress缓冲液的LNA的特异性。图5D显示引入简并位置的作用：具有5 LNA的7-聚体(左)，具有5 LNA和2个简并位置的7-聚体(中间)，具有3 LNA和2个简并位置的7-聚体(右)。

图6显示FAM-标记的通用20-聚体探针(左栏)和TAMRA-标记的7-聚体探针(中间)与随机阵列杂交并通过荧光显微术显象。所述阵列用两种模板合成，所述两种模板都应该结合通用探针但其中只有一种应该结合序列为CGAACCT的7-聚体。在Nikon TE2000倒置显微镜上利用Nikon DSlQMCCD相机在20×放大率捕获图像。右侧栏显示彩色合成，证明所有的TAMRA-标记特征也是FAM-阳性的，与预期一致。

图7显示从DNA样品富集感兴趣的靶序列的步骤，所述靶序列用于Cantaloupe测序。

发明详述

富集靶序列

本发明包括一种从核酸样品富集感兴趣的靶序列的方法，所述靶序列用于后续的固定滚环扩增子的杂交测序(SBH)。本发明的方法包括第一轮杂交选择和扩增，以及第二轮杂交选择和扩增。还可以进行更多轮的选择和扩增以进一步富集核酸样品。

根据本发明可以使用任意核酸样品，例如基因组DNA、cDNA或者RNA。

感兴趣的靶核酸可以是从疾病群组的全基因组关联研究中鉴定的核酸片段。这类疾病群组可以包括具有以下疾病或者复杂遗传性状的患者的DNA样品，例如：克罗恩病，牛皮癣，秃发，长寿，精神分裂症，糖尿病，糖尿病性视网膜病，ADHD，子宫内膜组织异位，哮喘，自身免疫相关疾病，炎性相关疾病，呼吸相关疾病，胃肠相关疾病，生殖相关疾病，女性健康相关疾病，皮肤相关疾病，和眼科相关疾病。

通过断裂DNA样品产生DNA片段群，并将DNA衔接子与所述DNA片段连接，可以制备用于富集的核酸样品例如DNA样品。在一个实施方案中，所述DNA衔接子含有引物结合位点以促进杂交选择后的扩增。各种各样的断裂步骤是本领域已知的，但在一个实施方案中，利用DNase I和绿豆核酸酶切割DNA样品产生平末端DNA片段，这样的话同样具有平末端的DNA衔接子可以与所述DNA片段进行平末端连接。

在一个实施方案中，选择大约500碱基对或者更小的DNA片段用于连接DNA衔接子，而在另一个实施方案中，选择大约200或者大约250碱基对或者更小的DNA片段。

在本发明示范性的实施方案中，第一和第二轮杂交选择涉及将DNA样品与具有标签(tag)的核酸探针杂交，所述DNA样品可以按照上述方法断裂并与DNA衔接子连接。在一个实施方案中，所述核酸探针是生物素化的细菌人工染色体(BAC)。然后可以物理捕获杂交的DNA，例如用链霉抗生物素蛋白包被的珠。因此，在一个示范性的实施方案中，标签和配体分别是生物素和链霉抗生物素蛋白。链霉抗生物素蛋白可以被包含在颗粒或者珠上，例如磁珠，以促进被捕获杂交复合物的分离。许多其他等价的标签是本领域已知的，它们也可用于本发明。

第一轮杂交选择所选择的感兴趣核酸随后在第一轮扩增中扩增。第一轮扩增可以利用例如聚合酶链反应(PCR)进行，但是也可以利用本领域已知的任意扩增步骤进行。利用与DNA衔接子互补的引物最容易进行扩增，按照上文的描述所述DNA衔接子可以与DNA片段连接。

利用上面简单描述并且在下文更详细描述的技术，在第一轮扩增中扩增的感兴趣核酸在第二轮杂交选择中被进一步富集。通过第二轮杂交选择所选择的感兴趣核酸然后在第二轮扩增中被接着扩增。第二轮扩增也可以利用聚合酶链反应(PCR)进行，但是同样地也可以利用本领域已知的任意扩增步骤进行。利用与DNA衔接子互补的引物最容易进行第二轮扩增，在如上所述的示范性实施方案中所述DNA衔接子与核酸片段连接。

视情况而定，在第二轮扩增或者最后一轮扩增中，可以修饰引物以有利于杂交测序的进一步准备。例如，第二轮扩增引物，例如正向引物，可以在5′端用标签例如生物素标签修饰，而另一引物(例如反向引物)可以在5′端被磷酸化。根据该实施方案，然后可以将第二轮扩增产物变性以产生单链核酸，因此利用所述标签(例如链霉抗生物素蛋白)的配体可以捕获和移出被标记的链。然后环化单链扩增产物的磷酸化链。在一个实施方案中，通过将5′和3′端与寡核苷酸接头杂交来环化磷酸化链，从而保持5′和3′端非常接近；并连接5′和3′端以环化单链DNA。连接前可以使用缺口填补聚合步骤填补两末端之间的任意缺口。也可以利用例如生物素标记用于促进环化的寡核苷酸接头，以促进其环化后移出。

然后可以将环化单链分子固定到固体支持物上。可以利用本领域已知的任意方法固定感兴趣的核酸，例如利用本文描述的胺化寡核苷酸。然后利用滚环扩增来扩增固定的、环化的感兴趣核酸，并利用SBH测序，如WO 2005093094所述，其在此全文引入作为参考。

根据疾病或者复杂遗传性状例如克罗恩病和牛皮癣的基因组范围相关研究，平均候选区域大小是大约50万碱基(0.5Mb)。在本发明的一个实施方案中，选择所有与疾病相关的候选区域。在另一个实施方案中，只选择一些候选区域。仍在另一个实施方案中，选择与疾病相关的单个候选区域或者候选区域的一或多个部分进行分析。

一旦选择了用于测序的一或多个区域，就可以选择或者设计核酸探针。通常，所述核酸探针是覆盖完整染色体区域的特异DNA分子，例如源自WGAS研究的候选区域。所述探针也可以覆盖部分候选区域。合适的探针包括YAC、BAC、粘粒或者噬菌体。在一个实施方案中，核酸探针选自商业化提供的BAC分子并且对感兴趣的候选区域是特异性的。在另一个实施方案中，BAC分子选自非商业化来源或者从感兴趣的特定个体产生。

可以利用本领域已知的常见分子生物学技术制备核酸探针。例如，可以利用公知的方法分离和纯化BAC-DNA，例如利用

Large-Construct试剂盒(按照制造商的描述)。

DNA样品可以选自患特定疾病的个体(疾病样品)，或者选自未患病的个体，所述未患病的个体在一个实施方案中可用作对照(对照样品)。例如，1到50个样品可以选自患病个体(疾病样品)，或者在另一个实施方案中，超过50个样品选自患病个体。疾病样品显示单元型的特定组合，包括风险、中性、保护和稀少单元型，覆盖所有感兴趣的候选区域。在另一个实施方案中，1到50个来自健康个体的样品被选作对照，或者超过50个来自健康个体的样品被选作对照。

可以利用本领域任意已知方法分离和制备基因组DNA。可以通过凝胶电泳评价基因组DNA的质量，并通过标准方法测定DNA浓度，例如picogreen染料DNA定量方法。

在基因组DNA的标准制备和纯化后，可以连续经过两个酶步骤处理基因组DNA样品以产生平末端DNA片段。在一个实施方案中，DNA片段大约为250个碱基对。在另一个实施方案中，所述片段小于250碱基对，即大约25bp，大约50bp，大约100bp，大约150bp，大约200bp等等。在另一个实施方案中，所述片段长于250碱基对，即大约300bp，大约350bp，大约400bp，大约450bp，大约500bp，大约1000bp或者更大。本发明的优选靶片段大小从大约200bp到大约400bp。本发明的酶反应不限于任意特定的酶反应。在一个实施方案中，所述酶是DnaseI和绿豆核酸酶I。在另一个实施方案中，按照本文进一步的描述，可以使用其他非酶断裂法，例如超声处理或者剪切。优选地，断裂法产生平末端片段。

然后将所获平末端片段与DNA衔接子连接。在一个实施方案中，所述平末端片段与下列DNA衔接子连接：

衔接子-1

5′-GCAGAATCCGAGGCCGCCT-3′(SEQ ID NO：1)

3′-CGTCTTAGGCTCCGGCGGAACAG-5′(SEQ ID NO：2)

衔接子-2

5′-AGTGGCGTGTCTTGGATGC-3′(SEQ ID NO：3)

3′-TCACCGCACAGAACCTACGCAATAGC-5′(SEQ ID NO：4)

将DNA衔接子设计成只允许与一端连接，即与基因组DNA片段平末端部分连接。所述连接反应可以通过任意方法进行，本领域已知许多种方法。在一个实施方案中，添加相对于基因组DNA片段过量的衔接子。

然后将与衔接子连接的片段(基因组-衔接子DNA)通过任意分离和纯化方法进行分离纯化，其中的许多方法是本领域已知的，例如在12％非变性聚丙烯酰胺凝胶或者3.5％ Metaphor琼脂糖凝胶(Cambrex，Baltimore，MD)上电泳。优选地，所述感兴趣片段通过电泳分离，洗脱，并从凝胶纯化(GFX柱GE Healtcare)，然后通过任意DNA定量方法进行定量，例如picogreen染料DNA定量。

在另一个实施方案中，从重复序列中纯化基因组-衔接子DNA。通常通过与竞争性DNA例如生物素化的Cot_1/2(Invitrogen)的杂交反应进行这种纯化。在另一个实施方案中，可以使用任意已知的去除重复序列的纯化方法。所获纯化的基因组-衔接子DNA可以被用作本发明第一次富集步骤的输入基因组DNA。

当BAC DNA被用作核酸探针时，可以通过向断裂的BAC-DNA添加生物素分子来标签或者标记BAC DNA以提供一种方便的与其他反应组分分离的手段。在该实施方案中，BAC-DNA例如可以用链霉抗生物素蛋白包被的磁珠捕获。标签或者标记BAC DNA的方法是本领域已知的，例如用生物素-切口平移混合物(Biotin-Nick Translation Mix)。切口平移方法利用DNase和大肠杆菌(E coli)DNA聚合酶I的组合在DNA的一条链上产生切口，然后当聚合酶从切口位点再合成时掺入标记核苷酸。标记BAC DNA的等价方法是本领域已知的，可用于该实施方案。

对于基因组DNA制品，探针上的BAC-DNA重复优选用竞争性DNA例如Cot-1 DNA(Invitrogen)封闭。在另一个实施方案中，可以使用任意其他已知方法封闭BAC-DNA探针上的重复序列。

本发明的方法包括至少一轮，但优选至少两轮富集。简单来说，第一轮从全基因组DNA富集靶DNA片段，而第二轮通过减少污染片段的量富集来自第一轮的靶DNA片段。在两个富集步骤中，优选的终产物是～250bp的DNA片段。在另一个实施方案中，这种片段可以小于250bp，即从大约25bp到大约250bp，从大约50bp到大约250bp，从大约100bp到大约250bp，从大约150bp到大约250bp，或者从大约200bp到大约250bp。在另一个实施方案中，所述片段可以大于250bp，即大约300bp或者更大，大约350bp或者更大，大约400bp或者更大，大约450bp或者更大，大约500bp或者更大，大约1000bp或者更大等等。

本发明优选的富集水平至少是1000倍。但是，还预期富集水平是至少200倍或者更高，至少500倍或者更高，至少1500倍或者更高，至少2500倍或者更高，至少5000倍或者更高等等。富集后本发明的DNA片段具有Cantaloupe测序技术所需的特征。

在一个实施方案中，每个富集步骤包括核酸探针与核酸样品(例如具有衔接子的断裂基因组DNA与)之间的杂交，杂交产物与固体介质(例如链霉抗生物素蛋白包被的磁珠)的结合，所选核酸的扩增，和核酸清除步骤。

在一个实施方案中，核酸探针与DNA样品(例如如上所述的衔接子-基因组DNA)之间的杂交涉及纯化的衔接子-基因组DNA和封闭的BAC-DNA之间的杂交反应。所述杂交混合物然后与能够识别并结合杂交混合物的任意固体介质杂交。优选地，这种固体介质包括其他特征使得这种杂交复合物的分离变得容易。在一个实施方案中，这种固体介质是链霉抗生物素蛋白包被的磁珠。杂交反应是本领域公知的，本发明不限于杂交的任意特定条件。示范性的条件显示于本文的实施例1。纯化并浓缩从固体介质收集的DNA用于后续的PCR扩增反应。也可以使用其他已知的扩增步骤，例如NASBA，SDA等等。

利用2个引物(正向和反向)进行本发明的第一轮PCR扩增步骤，每个引物包含与基因组DNA片段连接的衔接子序列。在一个示范性的实施方案中，所述引物序列是：

正向：5′-GACAAGGCGGCCTCGGATTCTG-3′(SEQ ID NO：5)

反向：5′-CGATAACGCATCCAAGACACGC-3′(SEQ ID NO：6)

PCR扩增试剂在本领域已经被充分描述，包含核苷酸、酶和缓冲液。循环参数通常包含初始变性步骤，继之以25-30个循环，每个循环具有变性、退火和延伸步骤。扩增产物利用任意DNA纯化方法或者试剂盒例如QIAquick PCR纯化试剂盒(QIAGEN)进行纯化，并作为第二轮富集步骤的输入DNA。

按照第一轮富集步骤的描述进行本发明的第二轮富集，其中输入DNA是第一轮富集的扩增产物。第二轮扩增类似于上面第一轮富集中描述的第一轮扩增。但是，在第二轮或者最终富集步骤中，可以修饰引物以有利于用于Cantaloupe测序的单链DNA的制备和环化。例如，所述引物可以与先前富集步骤使用的引物具有相同的碱基序列，但其中一个引物可以在其5′端包括标签，例如生物素标签，另一个引物可以含有5′磷酸。例如，正向引物可以含有5′生物素，反向引物可以含有5′磷酸，如所示：

正向：5′-生物素-GACAAGGCGGCCTCGGATTCTG-3′(SEQ ID NO：7)

反向：5′-PHO-CGATAACGCATCCAAGACACGC-3′(SEQ ID NO：8)

引物的这些修饰(生物素化和磷酸化)确保所获DNA片段可用于单链DNA制备和环化，以便通过Cantaloupe测序技术方便的测序。具体地，包含链霉抗生物素蛋白的固体介质可以从样品中捕获和移出生物素化的链，这样的话互补链(在5′端包含磷酸基团)被纯化和分离。然后将产生的单链线性片段(5′端存在磷酸基)与接头保温，所述接头能够与分子的5′和3′端杂交，从而将两个末端靠得很近。酶反应例如利用DNA连接酶的连接将5′和3′端连接。连接前也可以使用聚合缺口填补反应填补两末端之间的任意缺口。在一个示范性的实施方案中，辅助环化的接头是：

5’-生物素-CGTCTTACGCGCCGGCGGAATCCGTCTTACGCGCCGGCGGA

ATC-3’(SEQ ID NO：9)

如上所示，该接头也可以含有标记或者标签以促进其从环化分子样品中的移出。

然后可以将环化单链DNA分子固定用于滚环扩增。在一个示范性的实施方案中，使用Asper Biotech Genorama^TM SAL，0.15或者1mm载玻片(根据制造商关于处理和保存的说明书)固定纯化的环状分子。在另一个实施方案中，任意商品化提供的载玻片可用于固定环状分子。

在一个实施方案中，使用胺化寡核苷酸(参见下面的图A)将环化分子固定到载玻片上。例如，可以使用下列示范性的寡核苷酸：

5′XAAAAAAAAAAGCGTGTCTTGGATGCGTTATCG3′RCA-G-RING

(SEQ ID NO：10)

X＝NH2-(CH2)6-PO4-Oligo

图A

SAL-通过形成共价键，胺化DNA通过5′端附着至包被3-氨丙基三甲氧基硅烷+1，4-亚苯基二异硫代氰酸酯的玻璃表面。

本发明使用专利申请WO2005/093094充分描述的核酸测序技术作为通过本文所述方法富集的候选区域的测序方法，该申请在此引入作为参考。

在优选的实施方案中，所有通过本文所述富集方法加工并固定在玻璃载玻片上的候选区域均通过Cantaloupe测序技术处理。

DNA测序

如上所述，制备环状单链DNA模板分子用于测序。这些模板分子中的每一个均包括引物退火序列和靶序列，对于靶序列需要其序列信息。为了测序，形成固定、环状DNA模板分子的随机阵列，然后利用与引物退火序列退火的扩增引物进行滚环扩增。然后在实验条件下将滚环扩增产物与一组探针杂交以确定组中的各个探针是否与滚环扩增产物的靶序列杂交，从而获得靶序列的杂交谱。然后将所述杂交谱与参照数据库中的一或者多个参照序列的预期杂交谱进行比较，确定靶核酸的序列。

通过滚环扩增法扩增环状单链模板分子可以包括在引起扩增引物延伸和链替代以形成串联重复扩增产物的条件下添加聚合酶和三磷酸盐，所述扩增产物包括靶序列的多个拷贝。

使用的探针组可以是以下解释的完整组或者部分组。

参照序列是与靶相似的序列。可以用许多方法测量参照序列与靶的相似性。例如，通常使用相同核苷酸位置的比例。更先进的测量还允许插入和缺失，例如Smith-Waterman比对，并提供概率相似性得分，如Durbin等＂Biological Sequence Analysis＂(Cambridge University Press 1998)。

本发明方法所需的相似性程度由数个因素决定，包括使用探针的数量和特异性，杂交数据的质量，模板长度和参照数据库的大小。例如，模拟实验显示假定匹配和错配探针之间的熔点度差异(1度变异系数)，256个探针并使用人基因组作为100bp模板的参照，然后可以容忍直至5％的序列差异。这相当于例如利用人基因组作为参照测序大猩猩基因组。进一步增加探针的数量、减少模板长度或者提高匹配/错配区别允许用甚至更低相似性的序列作为参照，例如5-10％，直到10％，5-20％，10-20％或者直到20％。

本发明适用于多种方法，包括再测序、表达谱分析、遗传变异性的分析或者评价和外因基因组学。

可以如下进行不同的实施方案。

样品被断裂产生短片段的鸟枪文库。可以使用先前章节描述的断裂法，尤其是在序列富集的那个章节。可以使用其他产生片段的酶和/或机械方法，例如包括：

酶的：

o 用DnaseI(存在Mn²⁺的条件下)降解，然后填补和/或酶促减短悬垂的ssDNA末端；

o 用频率适度的切割物例如MboI等切割；

o 用频率很高的切割物例如CviJI、CviJI^*等部分切割；

o 用限制性内切酶的混合物切割；

机械的：

o French压力；

o 超声；

o 剪切；

每种方法后可以进行酶促缩短和末端修复；

PCR

o 利用随机引物序列例如六聚物(任选尾部是用于巢式PCR的序列)；

o 利用简并引物或者低严格性条件进行PCR；

o 利用基因家族特异引物(等等)进行PCR。

利用PCR技术，该步骤可任选掺入引物结合位点，例如RCA(滚环扩增)引物退火位点或者用于富集的衔接子。

任选在断裂步骤后，可以按照下面描述进行步骤“X”。

向片段中添加RCA引物退火序列。这可以是例如通过将所述片段克隆到载体(细菌载体，噬菌体等等)，然后利用位于克隆位点以及引物基序外面的限制性内切酶切除所述片段；或者通过双链衔接子在一端或者两端连接；或者通过在每端发夹衔接子的连接，其也提供同时环化。可以掺入的任选其它功能特征包括帮助环化的特征和/或辅助寡结合位点(helper oligobinding site)，其中辅助寡结合位点可以作为FRET下游分析中的供体或者受体。

任选地，可以按照下面描述进行步骤“X”。

测序方法涉及产生单链环状DNA。这可以是例如通过在解链和头尾相连的自身退火后发夹衔接子连接成沙槌(maracas)形状；通过dsDNA的自身连接继之解链；通过连接到辅助片段形成dsDNA环，继之解链；通过发夹衔接子连接到dsDNA的两个末端成哑铃形状；或者ssDNA利用辅助接头的自身连接(其也可用作RCA引物)。

可以按照下列方法进行滚环扩增(RCA)：

·将RCA引物与环状ssDNA退火。所述引物载有可用于固定的反应部分。

·利用RCA引物的附着基团，将引物/模板复合物随机固定到活化阵列的表面。应当优化所述表面上引物/模板复合物的密度以便RCA扩增后表面上具有最大数量的引物/模板复合物而不产生重叠产物(见下文)。表面上引物/模板复合物的密度可以通过例如引物/模板复合物的浓度、表面上附着位点的密度和/或反应条件(时间，缓冲液，温度等等)来控制。

或者

·利用RCA引物的附着基团，将引物随机固定到活化阵列的表面。应当优化所述表面上引物的密度以便RCA扩增后表面上具有最大数量的引物/模板复合物而不产生重叠产物(见下文)。表面上引物的密度可以通过例如引物的浓度、表面上附着位点的密度和/或反应条件(时间，缓冲液，温度等等)来控制。

·将RCA引物与环状ssDNA退火。所述引物应当载有可用于固定的反应部分。

固定和退火后：

然后

·添加聚合酶和4种dNTP以起始滚环扩增。

·任选在RCA中掺入荧光标记物作为FRET的荧光供体或者受体。

·任选在RCA中掺入亲和标签用于多个目的：

o 为了通过内部交联浓缩RCA产物，利用对所述标签有亲和力的多价接头分子进行；

o 为了扩增后标记，利用缀合了对所述标签有亲和力的分子的荧光标记。

或者，可以在溶液中进行RCA，并且可以在扩增后固定产物。例如，可以使用相同的引物进行扩增和固定。在另一选择中，可以在扩增期间掺入载有固定基团的修饰dNTP，然后利用所述掺入的固定基团来固定扩增产物。例如，可以使用生物素-dUTP或者氨基烯丙基-dUTP(Sigma)。

然后可以确定序列。例如，在一个实施方案中，利用下面描述的一组非独特探针的连续杂交确定阵列上不同模板的完整或者部分序列。所述各个模板的序列信息然后与代表被研究样品的序列数据库进行比较，从而确定样品内各靶的相对比例和/或确定相对于所述数据库的任意基因或者其他结构差异。

如上所述，步骤X是选择片段大小范围的步骤(理论上具有很好的分辨率—1-10％CV)。可以使用的技术包括以下：

·通过凝胶电泳和洗脱，利用

o 对dsDNA用PAGE

o 对ssDNA用PAGE

o 琼脂糖凝胶；

·通过层析法(例如HPLC，FPLC)；

·利用亲和标签，例如cDNA上的3′-生物素。

这些步骤公开了本发明各个方面和实施方案中方法施行步骤的优选和任选步骤和方式。本文提供所述步骤内公开特征的所有组合作为本发明的各个方面和实施方案，就好像本文中逐词阐明一样。

根据本发明测序可以包括三个基本步骤。首先，从包含多个模板链的样品中产生(优选在单步中)局部扩增的模板分子的随机阵列。其次，所述随机阵列与一组探针连续杂交以确定阵列上各个扩增的模板中与各探针互补的序列的存在或者缺失。第三，使用能够确定可能的插入、缺失、多态性、剪接变体或者其他感兴趣的序列特征的方法将如此获得的杂交谱与参照序列数据库进行比较。所述比较步骤在搜索步骤中还可以被分离出来，继之以比对步骤。

随机阵列合成

存在许多提供高密度扩增的模板的方法。第一种，可以通过机械手段排列扩增的模板，但这对于每个特定模板分子来说均需要单独的扩增反应(因此限制了通量并增加了成本)。第二种，可以利用凝胶内PCR原位扩增模板(例如描述于US6485944和Mitra RD，Church GM，＂In situ localizedamplification and contact replication of many individual DNA molecules＂，Nucleic Acids Research 1999：27(24)：e34)，这需要使用凝胶(因此严重干扰了后续的杂交反应)。

本发明有利地使用滚环扩增在单个反应中从包含多个模板分子的样品中合成随机阵列。可以实现直至10⁵-10⁷每mm²的密度。本发明实施方案使用的随机阵列合成方法可以包括：

a.提供具有活化表面的表面(例如玻璃)。

b.附着引物，优选通过共价键，或者替代共价键，可以使用强的非共价键(例如生物素/链霉抗生物素蛋白)。

b.添加环状单链模板，优选采用适于检测设备的密度。

c.将模板与引物退火。

d.利用滚环扩增来扩增产生长的单链串联重复模板，所述模板被附着到表面的各个位置。

(参见例如Lizardi等，描述＂Mutation detection and single-moleculecounting using isothermal rolling circle amplification＂：Nature Genetics vol 19，p.225)。

该步骤的改变包括在固定前将环状模板分子与活化的引物预退火，和/或提供“开环”模板分子，所述“开环”模板分子在与引物退火时被环化并利用连接反应闭合。

“合适的密度”优选是使通量最大的密度，例如确保尽可能多的检测器(或者检测器中的像素)检测单个模板分子的极限稀释度。在任意常规阵列中，精确的极限稀释度将使所有位置中的37％容纳单个模板(因为泊松分布的形式)；其余将不容纳或者容纳超过一个。

例如，在具有6μm像素大小的Tecan LS400上，7.5×2.2cm的反应表面容纳4500万像素。利用极限稀释度(泊松分布)，这些像素中的37％将容纳单个模板，即1700万个模板。每个模板测序150个核苷酸，150次循环产生2.5Gb的序列。循环时间为5分钟，则日通量大约为5Gbp，相当于两个完整的人基因组序列。实际上，可靠地检测一种特征需要超过一个像素，但是这种推理取决于检测器是单像素还是多像素的。

当提供适合于下游应用的序列时，适合固相RCA的模板将优化产量(按照模板序列的拷贝数)。通常，优选小模板。尤其是模板可以由20-25bp的引物结合序列和40-500bp的插入序列组成，所述插入序列可以是40-150bp的插入序列。但是，直到500bp或者直到1000bp或者直到5000bp的模板也是可以的，但是将产生更低的拷贝数，由此在测序期间产生更低的信号。引物结合序列可用于环化初始线性模板以及在环化后起始RCA，或者模板可以含有分离的RCA引物结合位点。

为了增加滚环扩增的模板产生的信号，可能必须对其进行浓缩。因为RCA产物基本上是由多至1000或者甚至10000个原始环状模板的串联重复组成的单链DNA分子，所以该分子非常长。例如，100bp的模板利用RCA扩增1000次将达到30μm的数量级，并且因此将其信号传播穿过数个不同像素(假定5μm像素分辨率)。利用更低分辨率的装置不一定有用，因为微小的ssDNA产物只占据30μm像素区域的很少部分，因此可能不会被检测到。因此，需要将信号浓缩到更小的区域。

可以利用表位标记的核苷酸和多价抗体作为交联剂来浓缩RCA产物。其他方法包括通过链霉抗生物素蛋白交联的生物素化的核苷酸。

或者，可以利用DNA缩合物质如CTAB(参见例如Bloomfeld“Biopolymers：Nucleic Acid Sciences”中的“DNA condensation，by nultivalentcations”)实现浓缩。

为了将RCA引物寡核苷酸固定到表面，许多不同的方法已经被描述(参见例如Lindroos等.＂Minisequencing on oligonucleotide arrays：comparison ofimmobilisation chemistries＂，Nucleic Acids Research 2001：29(13)e69)。例如，生物素化的寡核苷酸可以与链霉抗生物素蛋白包被的阵列附着；NH₂修饰的寡核苷酸可以与环氧硅烷衍生的或者异硫氰酸酯包被的玻璃载玻片共价附着，琥珀酰化的寡核苷酸可以与氨基苯基-或者氨丙基-衍生玻璃通过肽键偶联，以及二硫化物修饰的寡核苷酸可以通过硫醇/二硫化物交换反应被固定到巯基硅烷化玻璃。许多其他的方法已经在文献中被描述。

利用短探针连续杂交的再测序

本发明的测序方法包括一组探针的杂交，获得针对各个探针和靶的匹配/错配区别。结果获得每个靶的“谱”。此外，提供所述谱被定位的参照序列并进行比对，这样的话可以高度精确地确定靶序列相对于参照的差异。

优化所述探针组和靶长度，这样的话所述谱可用于(1)将各个靶序列明确定位到参照序列中和(2)准确地分辨靶和参照序列之间的任意序列差异。

为了满足第一个要求，所述探针组包含足以明确定位所述靶的信息(在信息理论意义上)。单个长特异探针足以定位单个特异靶，但是不能使用，因为这样的话对于每个可能的靶均需要单独的探针。作为替代，使用短的非特异性探针。最优化的组将使用与各个靶杂交具有50％统计概率的探针，相当于每个探针1信息比特。50个这样的探针将能够鉴别超过1万亿个靶。这种组还具有其他优点，即对错误和遗传多态性具有弹性。我们的实验显示甚至在存在直至10SNP的条件下，100个4-聚体探针的组能够将100bp的靶唯一地定位于人转录物组中。

为了满足第二个要求，探针组必须覆盖所述靶并且被设计使得序列差异在所述谱中产生确定无疑的变化。例如，所有可能的4-聚体探针的组将完全覆盖任意给定的靶并具有4倍冗余度。任意单核苷酸改变将导致4种探针杂交的损失以及4种其他特性探针的获得。

探针组的灵敏度可以如下计算：

探针是一或多种寡核苷酸的混合物。所述混合物和每种寡核苷酸的序列确定了探针的特异性。探针的稀释系数是其包含的寡核苷酸的数量。探针的有效特异性由非简并寡核苷酸的长度决定，所述寡核苷酸与靶以相同的概率结合。例如，由4种寡核苷酸组成的6-聚体探针具有5核苷酸的有效特异性，所述寡核苷酸中所有4种核苷酸的第一个位置均不同(即完全简并)。

组是包括k-聚体探针的组，所述探针具有以下性质，即任意给定的k长度的靶与所述组中的一个并且只和一个探针杂交。因此，组是完整和非冗余的一组探针。

探针组的复杂性C是所述组中探针的数量。

组中位置的灵敏度是能够在该位置区别的不同靶的组。例如，在一个位置探针是GC混合或者AT混合的组(标注为GC/AT)对G-A、C-A、C-T和G-T差异(即转换)敏感，但对颠换不敏感(G到C等等)。

当利用完整探针组探查时，靶上的每个位置均保证被所述组中的每个位置即通过k交错的重叠探针探查到。但是，每个位置的灵敏度可以是不同的，这样的话所述靶中的一些差异只能被小于k的探针检测到。

例如，如下所示组

(GCAT)(GC/AT)(GC/AT)(G/C/A/T)(G/C/A/T)(GC/AT)(GC/AT)(GCAT)具有8个位置(即k＝8)。第一个和最后一个位置是完全简并的，所以通过这些位置检测不到靶上的变化。转换(GC<->AT)会被6个位置检测到，而颠换(GA<->CT)只被每个探针的两个位置检测到。通过总合每个位置的有效特异性可以计算出有效特异性：0+0.5+0.5+1+1+0.5+0.5+0＝4bp。

对于不常见的靶，经常出现探针在靶中重复的情况。这类探针失去了它们对任意单个位置改变的敏感性，因为它们仍然将与其他位置杂交。

给定靶的长度L，就可以计算存在至少一种对所述位置的改变敏感的探针的概率(对于靶中的每个位置)。首先，确定有多少个探针对无重复的靶中感兴趣的改变敏感。将其称为k_c；在先前的实例中对于转换k_c是6，对于颠换k_c是2。

任意给定探针存在于靶中一个或者多个其他位置的(即是重复的)概率p(R)是：

P (R) = 1 - {(\frac{C - 1}{C})}^{L - 1}

不是所有的2k_c敏感探针均是重复的概率p(S)则是：

指数是2k_c，因为任意改变均造成k_c探针的消失和k_c新探针的出现。

给定靶长度就可以计算敏感度。例如，C＝256，k_c＝2，L＝120得到p＝98％，即具有256个探针的组对所有颠换中的98％敏感(和100％的转换，k_c＝6)。如果只使用所述组中一半的探针，则有效k_c＝1，然后对于颠换p＝86％和对于转换p＝99.7％(k_c＝3)。在像人类(其具有63％的转换)等种属中总的平均敏感度将达到95％。

只要SNP的数量低于靶长度-即只要在一个探针长度内不存在多个SNP，所述理论是绝对正确的。在实际实验中经常是以下情况：例如人基因组DNA含有大约1个SNP每1000个核苷酸，因此2个SNP位于7个碱基内是极不可能的。

实际上，对SNP打分可能需要至少两个敏感探针(即因为杂交数据易于出错)。在这种情况下，概率P(S)变为1-p(R)^2kc-1，所述计算还是简单的。

当使用探针亚组时(为了节约时间和试剂)，不管怎么说可能需要确保在一条链或者另一条链上可以探查到靶的任意位置。换言之，如此确定探针亚组以确保未被探查的任意k-聚体在相反链上被探查到。通过将(G/A)、(C/T)、(G/T)或者(C/A)置于中间位置可以获得这类亚组。例如(G/A)不能探查靶中的G和A，在这种情况下探查的相反链确定是C或者T。其他变异也是可能的。

(GC/AT)简并位置具有两种希望的特征。首先，它确保每个探针中的各个寡核苷酸具有相似的熔点(因为它们全是GC或者AT)。其次，所述位置对转换敏感，其占人类所有SNP的63％。

短寡聚物探针的杂交

在本发明中，设想一组探针与靶连续杂交。为了限制探针组的复杂性，希望保持探针比较短，优选只具有3-6bp的有效特异性。

稳定所述探针以便它们有效地杂交或者完全杂交。此外，稳定可以帮助探针与靶内可能存在的内部二级结构竞争。可以用许多不同的方式实现稳定。

·通过杂交反应中的稳定添加剂，例如盐、CTAB、镁、稳定蛋白。

·通过添加延伸探针长度但并不增加其复杂性的简并位置。例如，具有一个′N′位置延伸的6-聚体探针实际上是4种寡核苷酸的混合物，每个长7碱基。(GC/AT)位置(表示G和C的混合或者A和T的混合)将延伸探针一个碱基，并且只让复杂性加倍(而不是让其增加四倍)。

·通过探针化学作用的修饰，例如利用锁定核酸(Exiqon，Denmark)，肽核酸和/或小沟结合剂(Epoch Biosciences，US)。

·上述方式组合，例如简并探针与LNA在CTAB缓冲液中杂交。

在这些方式中，首先也是要稳定靶(由此潜在地诱导防止杂交的稳定二级结构)。选择性稳定探针的方法是优选的。

检测杂交

已知许多方法可用于检测杂交。

·直接荧光。标记探针，并通过与靶杂交的探针的局部浓度增加来检测杂交。这可能需要高倍放大、共焦光学或者全内反射激发(TIRF)。

·能量转移。用淬灭剂或者供体标记探针，并用相应的供体或者淬灭剂标记靶。通过供体荧光的降低和/或淬灭剂荧光的增加来检测杂交。

·单碱基延伸。杂交的探针作为掺入荧光染料的单碱基延伸反应引物(或者，就像在焦磷酸测序中一样可以检测释放的PPi)。

在一个实施方案中，利用在落射荧光显微镜或者激光扫描器中可检测的荧光团例如Cy3标记探针。许多其他合适的染料是商品化供应的。在最优化的浓度将所述探针与阵列杂交以便能够检测到超过所有液体中存在的背景的杂交阵列特征中浓度的局部增加。例如，可以使用400nM，或者可以在1nM直至500nM或者甚至500nM直至5μM杂交探针，这取决于光学设置。这种检测方案的优点是避免了洗涤步骤，这样的话检测就可以在平衡杂交条件下进行，提高了匹配/错配区分。

能量转移法在下面描述。

靶载有具有荧光供体的永久杂交的辅助寡核苷酸。所述辅助寡核苷酸被设计为耐洗涤，所述洗涤将去除短探针。探针载有暗淬灭剂(darkquencher)。例如，供体可以是荧光素，淬灭剂是Eclipse Dark Quencher(Epoch Biosciences)。已知许多其他的供体/淬灭剂对(参见例如Haugland，R.P.，′Handbook of fluorescent probes and research chemicals′，MolecularProbes Inc.，USA)。通常，希望探针具有长

半径，能够在长距离淬灭。通过探针杂交时供体荧光团的淬灭来检测杂交。

谱搜索和比对

给定靶的谱，寻找靶在参照序列内的位置，允许序列差异。搜索可以如下进行：利用与靶相同大小的窗口通过简单扫描参照序列，计算每个位置预期的谱并将预期的谱与在该位置观察到的谱进行比较。返回最高得分的一或多个位置。因为本发明的方法在短时间内产生非常大量的杂交谱，因此优化搜索步骤是重要的。例如，在实施现状中，谱搜索在高级工作站以每秒12亿次匹配的速度进行，我们估计需要10个工作站才能满足单个测序装置。本发明的另一方面是利用可编程硬件即现场可编程门阵列(FPGA)来加速搜索。通过将搜索算法翻译为Mitrion-C(Mitrion AB，Sweden)，在单个工作站计算机中仅仅利用两个FPGA芯片就可以实现30倍的加速。

一旦发现一或多个可能位置，就寻找相对参照序列的改变，这将解释观察到的谱和预期的谱之间的任意差异。在本阶段我们可以向参照序列引入的相关改变，例如SNP、短indels，、长indels、微卫星、剪接变体等等。对于每种改变或者改变组合，我们再一次计算观察到的谱和预期的谱之间相似性的得分。返回最可能被改变的一或多个参照序列。搜索非常大的参数空间的方法在本领域是已知的，例如Gibbs抽样、Markov-chain MonteCarlo(MCMC)和Metropolis-Hastings算法。

当比较谱时，可以使用简单的二元重叠得分(在两个谱中均杂交或者均不杂交的每个探针得分为1，其他为0)，或者更复杂的统计方法可以使用谱重叠的渐进或者概率测量法。当多个靶位于靶的相同位置时，可以进行更高水平的分析以评定任意序列差异间的置信度。

用于自动化高通量测序的装置

本发明的方法尤其适于自动化，因为可以简单地通过在置于任选具有热控制的检测器表面或者内部的反应室循环试剂溶液进行所述方法。

在一个实例中，检测器是CCD显像仪，例如可以通过白光直接穿过滤波器立方体产生适于与各靶结合的荧光团分别激发和发射光路来进行操作。例如，可以使用Kodak KAF-16801E CCD；它具有1670万像素，成像时间为～2秒。这种设备上的每日测序通量可以达到直至10Gbp。

所述反应室提供：

·光学器件的方便通道(easy access for the optics)。

·闭合反应室。

·用于注射以及从反应室移出试剂的进口。

·允许空气和试剂进出所述小室的出口。

可以按照图3所示的标准微阵列载玻片形式构建反应室，适于插入成像设备中。所述反应室可以插入所述设备，并且在整个测序反应期间都放置在那里。泵和试剂瓶提供固定方案的试剂，电脑控制泵和扫描仪，在反应和扫描之间交替进行。任选地，反应室可以是温度控制的。也任选地，可以在定位(positioning)阶段安置所述反应室以便在室中成像多个位置。

可以将分配器单元与电动阀连接以控制试剂的流动，整个系统均处于电脑控制下。集成系统将由扫描仪、分配器、阀和储存器以及控制电脑组成。

根据本发明的另一方面，提供用于实施本发明方法的设备，所述设备包括：能够检测掺入或者释放的标记的成像组件，用于容纳一或多种附着模板的反应室，这样的话它们在每个循环中能够进入成像组件至少一次，以及将试剂提供给反应室的试剂分配系统。

反应室可以提供并且成像组件也能够分辨密度为至少100/cm²、任选至少1000/cm²、至少10000/cm²或者至少100000/cm²、或者至少1000000/cm²、至少10000000/cm²或者至少100000000每cm²的附着模板。

成像组件例如可以使用选自以下一组的系统或者装置：光电倍增管，光电二极管，电荷耦合器件，CMOS成像芯片，近场扫描显微镜，远场共焦显微镜，广视野落射光显微镜和全内反射显微镜。

成像组件可以检测荧光标记。

成像组件可以检测激光诱导荧光。

在本发明设备的一个实施方案中，反应室是闭合结构，包括透明表面，盖和用于将反应室连接到试剂分配系统的端口，所述透明表面在其内表面容纳模板分子，所述成像组件能够通过透明表面成像。

本发明的另一方面提供单链DNA分子的随机阵列，其中每个所述分子由初始序列的至少两个串联重复拷贝组成，每个所述分子按照随机位置被固定于表面，其密度介于10³-10⁷每cm²，优选在10⁴-10⁵每cm²，或者优选在10⁵每cm²-10⁷每cm²，每个所述初始序列代表来自初始靶DNA或者RNA文库的随机片段，所述文库包括单链或者双链RNA或者DNA分子的混合物，所有所述DNA分子的所述初始序列具有大概相同的长度。

通常，所述分子将包括初始序列的至少100个串联重复拷贝，通常至少1000个、或者至少2000、优选直到20000个。所述分子可以包括初始序列的50个或者更多个串联重复拷贝，这可以利用标准显微术检测。

优选地，在50％CV内、优选5-50％CV、优选在10％ CV内、优选在5％CV内所述初始序列具有的相同长度，即这种分布使得变异系数(CV)是例如5％。CV＝标准差除以平均值。所述初始序列可能具有相同的长度。

初始靶文库可以例如是或者包括一个或者多个RNA文库、mRNA文库、cDNA文库、基因组DNA文库、质粒DNA文库或者DNA分子的文库。

本发明另一方面提供一套或者一组探针，其中每个探针由一或多个寡核苷酸组成，每个所述寡核苷酸是稳定的，每个所述寡核苷酸载有报道基因部分，每个探针的有效特异性在3和10bp之间，所述探针组在统计学上与靶序列所有位置中的至少10％杂交。

有效特异性可以在4-6bp之间。所述有效特异性可以是3、4、5、6、7、8、9或者10bp。

所述探针组在统计学上可以与靶序列所有位置中的至少25％、至少50％、至少90％或者100％杂交。

所述探针组可以与靶序列或者其反向互补序列所有位置中的100％杂交，这样的话所述靶或者靶的反向互补序列中的每个位置均与所述探针组中的至少一种探针在该位置杂交。

靶序列可以是任意的靶序列。

通过简并位置的一或多次引入，锁定核酸单体的引入，肽核酸单体的引入和小沟结合剂的引入，可以稳定本发明的探针组。

报道基因部分可以例如选自以下一组：荧光团，淬灭剂，暗淬灭剂，氧化还原标记和化学活性基团，所述化学活性基团可以通过酶或者化学方法标记，例如用标记的核苷酸标记用于引物延伸的游离3′-OH或者用于杂交后进行化学标记的胺。

应用实施例

基因表达谱分析

通过随机测序cDNA片段，可以通过计算源自各RNA的片段出现次数来定量对应RNA的表达水平。可以同时发现结构特征(剪接变体，5′/3′UTR变体等等)和遗传多态性。

基因谱分析

通过标注相对于参照基因组的序列差异的出现，全基因组的鸟枪法测序可用于对个体进行基因分型。例如，按照这种方法可以轻易发现SNP和indels(插入/缺失)并对其进行基因分型。为了区别杂合位点，可能要求密集片段覆盖以确保两个等位基因都被测序。

根据本文公开的内容，本发明的其他方面和实施方案对熟练技术人员来说都是显而易见的。本说明书中任意地方引用的文献均被引入作为参考。

实施例1

制备用于CANTALOUPE的DNA模板

输入

双链DNA模板。

模板断裂：

使用限制性内切酶CviJ I^*(EURx，Poland)，该酶识别5′-GC-3′并在它们之间切成平端。如下准备限制性内切反应：

1μg模板	1.5μg模板	2μg模板
1μg模板	1.5μg模板	2μg模板	2×反应缓冲液25μl	2×反应缓冲液25μl	2×反应缓冲液25μl
0.3单位CviJ I^*	0.3单位CviJ I^*	0.3单位CviJ I^*	2×反应缓冲液25μl	2×反应缓冲液25μl	2×反应缓冲液25μl
0.3单位CviJ I^*	0.3单位CviJ I^*	0.3单位CviJ I^*	加水至50μl	加水至50μl	加水至50μl
总体积50μl	总体积50μl	总体积50μl	加水至50μl	加水至50μl	加水至50μl

反应在37℃保温1小时。

按照制造商方法利用PCR cleanup试剂盒(Qiagen)纯化被切割的DNA。

在2％琼脂糖凝胶上对一级分进行分析以确定特定批次的模板和酶的最佳反应条件(参见图1，泳道4-8)。

重复最佳的切割反应得到总共5μg DNA(图1，泳道1)。

模板大小选择：

在8％的非变性PAGE(40cm长，1mm厚)上纯化DNA。每孔上样不超过1μg的DNA，并且包括95-105的梯序列，标示感兴趣区域。所述梯序列由95、100和105碱基对的3个PCR片段组成。

凝胶用SYBR金染色，在扫描仪上分析结果，切下感兴趣区域(95-105bp)并按照制造商方法用ElutaTube^TM(Fermentas)电洗脱。

衔接子连接：

用于连接的衔接子如下所示。

5′GCAGAATGCGCGGCCGCCTTAG3′(SEQ ID NO：11)

3′CGTCTTACGCGCCGGCGGAATC5′

它含有5′磷酸和内部NotI位点。

准备下列连接混合物：

1pmol DNA(60-70ng的断裂样品)
1pmol DNA(60-70ng的断裂样品)	25pmol衔接子
Quick连接缓冲液(NEB)20-μl	25pmol衔接子
Quick连接缓冲液(NEB)20-μl	加水至40μl
Quick连接酶(NEB)2μl	加水至40μl
Quick连接酶(NEB)2μl	总体积42μl

在25℃保温15分钟。按照制造商方法利用PCR cleanup试剂盒(Qiagen)纯化反应物。参见图2。

限制性消化NotI：

准备下列反应：

连接的DNA(全部)
连接的DNA(全部)	10×缓冲液(NEB)10μl
100×BSA 1μl	10×缓冲液(NEB)10μl
100×BSA 1μl	加水至95μl
Not I(50单位)5μl	加水至95μl

在37℃保温4小时或者过夜。按照制造商方法利用PCR cleanup试剂盒(Qiagen)纯化样品。

利用PCR cleanup试剂盒重复纯化以去除尽可能多的过量衔接子。

模板的环化：

在下列接头寡核苷酸存在的条件下通过变性样品制备单链环

5′-CGTCTTACGCGCCGGCGGAATCCGTCTTACGCGCCGGCGGAATC-3′.(SEQ ID NO：12)

具体地，如下准备反应：

连接的和Not I切割的样品(每样)
连接的和Not I切割的样品(每样)	5pmol接头寡核苷酸
加水至50μl	5pmol接头寡核苷酸

加热到93℃、3分钟，放在冰上直至冷却，快速旋转。添加50μl2×Quick连接缓冲液(NEB)和1μl Quick连接酶(NEB)，简单混合，在25℃保温15分钟。

在这个阶段形成环，样品可用于RCA。参见图3。

固定：

在包括15％ DMSO的100mM碳酸盐缓冲液pH9.0中，μM RCA引物(与环化接头相同，具有5′-AAAAAAAAAA-C6-NH-3′尾(SEQ ID NO：13)，其中C6是六碳接头，NH是胺基)被固定到SAL-I载玻片(Asper Biotech，Estonia)，并在23℃保温10小时。

载玻片表面残留的活性位点通过以下方法封闭，首先在30℃浸入溶于碳酸盐缓冲液(如上所述，但是40mM)的15mM谷氨酸40分钟，然后在室温下浸入2mg/ml聚丙烯酸pH8.0、10分钟。

环状模板在30℃在缓冲液1(2×SSC，0.1％SDS)中退火2小时，然后用缓冲液1洗涤20分钟，然后用缓冲液2(2×SSC，0.1％ Tween)洗涤30分钟，再用0.1×SSC清洗，最后用1.5mM MgCl₂清洗。

扩增：

在30℃在Phi29缓冲液、1mM dNTP、0.05mg/mL BSA和0.16u/μL Phi29酶(均购自NEB，USA)中进行滚环扩增。

与环化接头互补并且用6-FAM标记的报道基因寡核苷酸如上所述退火，然后浸入缓冲液3(5mM Tris pH8.0，3.5mM MgCl₂，1.5mM(NH₄J₂SO₄，0.01mM CTAB)。图4显示少部分具有个别RCA产物的载玻片清晰可见。

探针组杂交：

根据下列方案设计每个探针：(GCAT)(GC/AT)(GC/AT)(G/C/A/T)(GC/AT)(G/C/A/T)(GC/AT)，每个在位置2、4和6都具有锁定核酸(Exiqon，Denmark)并且在3′端具有Eclipse暗淬灭剂(Epoch Biosciences，USA)。

100nM的探针在缓冲液3中杂交。对于每个探针使用温度斜坡(temperature ramp)以发现匹配/错配区分的最适温度。图5显示两个两匹配/错配对的杂交结果。

实施例2

制备用于CANTALOUPE测序技术的候选区域富集片段

步骤1：选择用于富集的区域和探针制备

为了从核酸样品富集感兴趣的候选区域，在利用Cantaloupe技术测序前可以使用下列示范性的方法。

根据疾病或者复杂遗传性状例如克罗恩病和牛皮癣的全基因组关联研究，平均候选区域大小是大约50万碱基(0.5Mb)。可以选择与疾病相关的所有候选区域，但在这个实施例中，选择来自不同染色体的3个不同区域(H区：453.5kb，R区：285.5kb和E区：193.6kb)，它们覆盖总共932.6kb。此外，在单独的实施例中，只选择E区(193.6kb)来验证大小对本发明富集方法的影响。

用于该方法的探针组是覆盖完整染色体区域的特异DNA分子，即来自Genizon GWS研究的候选区域。探针的来源可以是YAC、BAC、粘粒或者噬菌体或者它们的组合。在本实施例中，使用BAC分子。

扫描候选区域来寻找对感兴趣区域特异的商品化BAC克隆的存在，并将其购买作为制备探针的原始材料。

为了制备探针，进行下列步骤：

a)BAC保存于-80℃的LB-甘油中。利用无菌移液管尖头或者接种环刮擦小瓶的顶部。

b)然后将接种物接种到LB琼脂平板(氯霉素12.5μg/mL)获得单菌落。

c)然后将平板倒置，37℃过夜。

d)从新接种的选择性平板挑取单菌落，用于接种5ml LB(氯霉素12.5μg/mL)的起子培养物。

e)所述培养物在37℃用力振摇(300rpm)，孵育8h。

f)吸取0.5-1.0ml起子培养物并将其添加到500ml选择性LB培养基进行稀释(产生1/500到1/1000的稀释)。

g)然后将所述被稀释的培养物在37℃用力振摇(～300rpm)，保温12-16h。优选使用体积是培养物体积的至少4倍的烧瓶或者容器。培养物应该达到大约3-4×10⁹细胞每ml的细胞密度。

h)按照制造商描述，利用

Large-Construct试剂盒从500ml过夜培养物分离BAC-DNA。典型可以获得直至150μg的不含细菌基因组DNA的BAC-DNA。

步骤2：基因组DNA的制备

DNA样品选自患特定疾病的个体(疾病样品)或者选自未患病的个体被用作对照(对照样品)。疾病样品显示单元型的特定组合，包括风险、中性、保护和稀少单元型，并覆盖所有感兴趣的候选区域。

在本实施例中，使用来自健康个体的3个不同的人类基因组DNA。在基因组DNA的标准制备和纯化后，利用牛胰DNase I和绿豆核酸酶连续处理样品。在Mg²⁺存在的条件下，第一个酶反应用于引起双链断裂，第二个酶反应产生平末端DNA片段。通过凝胶电泳估算平均片段长度(～200bp)和基因组DNA浓度。所获片段然后预备用于衔接子连接。下面描述了用于本实施例的两个不同衔接子，在它们的序列中不存在碱基修饰：

衔接子-1

5′-GCAGAATCCGAGGCCGCCT-3′(SEQ ID NO：1)寡核苷酸名称：UA-ADP1-512

5′-GACAAGGCGGCCTCGGATTCTGC-3′(SEQ ID NO：2)寡核苷酸名称：LA-ADPI-512

衔接子-2

5′-AGTGGCGTGTCTTGGATGC-3′(SEQ ID NO：3)寡核苷酸名称：UA-ADP2-512

5′-CGATAACGCATCCAAGACACGCCACT-3′(SEQ ID NO：4)寡核苷酸名称：LA-ADP2-512

所述衔接子被设计成只能在基因组DNA片段的平末端连接。

a)将两个衔接子混合并添加到连接反应物中，它们的量相对于模板基因组DNA片段75倍过量(每个37.5倍)。

b)连接反应后，两条链被解链(72℃)，利用Phusion聚合酶(NEB，校正聚合酶)产生平末端的和双链末端。

c)然后在3.5％ Metaphor琼脂糖(Cambrex，Baltimore，MD)上通过电泳分离与衔接子连接的片段。切下感兴趣的区域(靶片段大小的范围从200bp到400bp)并利用GFX柱(GE Healthcare)纯化DNA。

d)利用picogreen染料定量所获纯化的具有衔接子的基因组DNA片段(接头连接(linkered)的-512基因组DNA)并将其调整到200ng/μl浓度。

所获接头连接的-512基因组DNA通过乙醇沉淀进行浓缩并被保存用于步骤4(富集步骤)。

步骤3：BAC-DNA探针制备

来自步骤1的BAC-DNA被DnaseI断裂，并使用40μM生物素-16-dUTP通过生物素-切口平移反应混合物(Roche)生物素化。在切口平移反应中包括同位素作为示踪物，以证实生物素化反应有效进行并证实BAC-DNA与链霉抗生物素蛋白包被磁珠的结合。

如步骤2中对于基因组DNA的描述，通过利用Cot-1 DNA(Invitrogen)封闭去除BAC-DNA中的重复序列，产生Cot-1-封闭的-BAC-DNA，用于步骤4(富集步骤)。

步骤4：富集步骤

该步骤包括两轮富集。简单来说，第一轮从全基因组DNA富集靶DNA，而第二轮通过减少污染片段的量富集来自第一轮的靶DNA片段。在两个富集步骤中，终产物是～250bp的DNA片段。为了定量这种富集，所获片段被克隆入质粒并转化细菌。将所获细菌接种于合适的LB平板。随机挑取独立克隆，并探查对富集区域特异的序列。用于计算富集的公式是：

HG大小/CR大小×％特异序列＝富集水平

HG大小：人类基因组大小(kb)

CR大小：感兴趣的候选区域的大小(kb)

％SS：对富集区域特异的序列的％

下表概述了本实施例进行的富集水平测定：

实验	区域大小	测序的克隆	Megabace上的好序列	成功的blast	对富集区域特异的序列	对富集区域特异的序列的百分比	富集水平
实验	区域大小	测序的克隆	Megabace上的好序列	成功的blast	对富集区域特异的序列	对富集区域特异的序列的百分比	富集水平	A	193.6kb	96	90	65	26	40％	6200×
B	932.6kb	96	81	44	15	34％	1100×	A	193.6kb	96	90	65	26	40％	6200×

在实验B中，结论是3个克隆中的1个将具有来自3个CR之一的靶序列和利用Cantaloupe技术测序必需的特征(接头)。

第一轮富集

接头连接的-512-基因组DNA(来自步骤2)与Cot-2-封闭的-BAC-DNA(来自步骤3)的杂交。

将接头连接的512-基因组DNA(1μg)转移至200μl PCR管，用矿物油覆盖。

样品在95℃加热5分钟变性并在65℃保温15分钟。

添加Cot-1-封闭的BAC-DNA，在65℃进行杂交反应70小时。

杂交反应物与链霉抗生物素蛋白包被磁珠的结合

然后在15-25℃向链霉抗生物素蛋白包被磁珠添加杂交混合物30分钟。

利用磁力分离器分离珠，弃掉上清。

所述珠在室温下用1ml 1×SSC，0.1％ SDS洗涤15分钟。

再洗涤所述珠3次，每次均在65℃用1ml 0.1×SSC，0.1％ SDS洗涤15分钟。

通过添加100μl 0.1M NaOH并在室温保温10分钟，从磁珠洗脱杂交的接头连接的512-基因组DNA-Cot1-封闭的BAC-DNA。

利用磁力分离器分离珠。所述珠含有Cot-1-封闭的BAC-DNA，其被生物素化并且仍位于磁珠上。用等体积的1M Tris pH8中和所述上清，然后利用Centricon YM-30柱(Millipore)脱盐。

所获DNA(接头连接的512-基因组DNA)用作如下所述的第一轮富集和扩增步骤的模板。

第一轮扩增

扩增反应含有上述模板DNA(接头连接的512-基因组DNA)。

使用的引物(每个10μm)是：

正向：5′-GACAAGGCGGCCTCGGATTCTG-3′(SEQ ID NO：5)

反向：5′-CGATAACGCATCCAAGACACGC-3′(SEQ ID NO：6)

使用的其他试剂：

25mM各dNTP

5×Phusion反应缓冲液

Phusion聚合酶1U

加水至50μl

扩增程序是在98℃一个变性循环(30秒)，继之以30个循环：98℃变性10秒，在引物解链温度退火10秒和72℃延伸20秒。

利用QIAquick PCR纯化试剂盒(QIAGEN)纯化扩增产物，并将其作为第二轮富集步骤的输入DNA。

第二轮富集

按照第一轮富集步骤的描述进行第二轮富集，其中输入DNA是第一轮富集的扩增产物。第二轮扩增类似于在上面第一轮富集中描述的第一轮扩增，差异在于使用的引物(引物的序列相同但在5′端有修饰)：

正向：5′-生物素-GACAAGGCGGCCTCGGATTCTG-3′(SEQ ID NO：7)

反向：5′-PHO-CGATAACGCATCCAAGACACGC-3′(SEQ ID NO：8)

引物包括的这些修饰(生物素化和磷酸化)确保所获DNA片段可用于测序技术“CANTALOUPE”的输入DNA的制备(环化)。

实施例3

制备用于CANTALOUPE测序的DNA模板

步骤1：单链的产生和环化

该步骤的目的是只保留输入的双链靶DNA的磷酸化单链，所述靶DNA在实施例2描述的第二轮扩增步骤中产生。

Dynabeads保留输入双链生物素化和磷酸化片段。与0.1M NaOH保温促进DNA单链片段的释放和分离，所述DNA含有环化步骤必需的5′-磷酸基。生物素化链仍保留在Dynabeads上，而互补链被释放到溶液中并被用作环化步骤的输入物。

我们在下列生物素化接头寡核苷酸存在的条件下通过变性样品形成单链环状分子(使用Cantaloupe测序技术所必需)：

5’-生物素-CGTCTTACGCGCCGGCGGAATCCGTCTTACGCGCCGGCGGAATC-3’(SEQ ID NO：9)

反应混合物组成为：步骤a产生的单链线性片段(0.3μm)，0.6μm上述接头，并加水直至50μl。所述反应混合物被加热到65℃、2分钟，然后冷却至室温(该步骤用时～15分钟)。然后向所述反应混合物中添加冰冻的连接混合物(DNA连接酶，5U在1X连接缓冲液中，Fermentas)。添加连接酶的目的是将单链片段的3′与5′端连接起来以形成环状分子。为了清楚起见，所述环状分子与生物素化接头杂交以允许单链片段的3′和5′端的并列(juxtaposition)。随后去除生物素化接头以获得纯化的环状分子，其是用于Cantaloupe测序技术的输入模板DNA。

步骤2：环化分子的纯化

然后将环化分子(与步骤2的生物素化接头退火)添加到Dynabeads。

洗涤所述珠，在最后一次洗涤后静置干燥(按照制造商说明书描述)。

利用40mM NaOH从所述珠上洗脱环状分子。

通过实时PCR定量所述分子。

纯环状分子是用于Cantaloupe测序技术中滚环扩增步骤的模板。

步骤3：环化分子在用于Cantaloupe测序的载玻片上的固定

按照制造商关于处理和保存的说明书使用Asper Biotech Genorama^TMSAL，0.15或者1mm载玻片。

固定

在具有15％ DMSO的100mM碳酸盐缓冲液pH9.0中，5μM RCA引物(与环化接头相同，具有额外的5′-AAAPAAAAAA-C6-NH-3′尾(SEQ IDNO：13)，其中C6是六碳接头，NH是胺基)被固定于SAL-1载玻片(AsperBiotech；参见图A使用的寡核苷酸：5′XAAAAAAAAAAGCGTGTCTTGGATGCGTTATCG3′(SEQ ID NO：10)RCA-G-RINGX＝NH2-(CH2)6-PO4-Oligo)。

样品在30℃保温1小时。

载玻片表面残余的活性位点如下被封闭：首先在30℃浸入于碳酸盐缓冲液(如上所述，但是40mM)的15mM谷氨酸中40分钟，然后在室温浸入2mg/ml聚丙烯酸pH8.0、10分钟。

环状模板在30℃在缓冲液1(2×SSC，0.1％ SDS)中退火2小时，然后用缓冲液1洗涤20分钟，然后用缓冲液2(2×SSC，0.1％ Tween)洗涤30分钟，再用0.1×SSC清洗，最后用1.5mM MgCl₂清洗。

序列表

<110>基尼宗生物科学公司

<120>用于核酸测序的方法和装置

<130>GENI-016/01WO

<150>US 60/781,731

<151>2006-03-14

<160>13

<170>PatentIn version 3.4

<210>1

<211>19

<212>DNA

<213>Artificial Sequence

<220>

<223>DNA adaptor for ligation

<400>1

<210>2

<211>24

<212>DNA

<213>Artificial Sequence

<220>

<223>DNA adaptor for ligation

<400>2

<210>3

<211>19

<212>DNA

<213>Artificial Sequence

<220>

<223>DNA adaptor for ligation

<400>3

<210>4

<211>26

<212>DNA

<213>Artificial Sequence

<220>

<223>DNA adaptor for ligation

<400>4

<210>5

<211>22

<212>DNA

<213>Artificial Sequence

<220>

<223>PCR primer combining adaptor and genomic sequences

<400>5

<210>6

<211>22

<212>DNA

<213>Artificial Sequence

<220>

<223>PCR primer combining adaptor and genomic sequences

<400>6

<210>7

<211>22

<212>DNA

<213>Artificial Sequence

<220>

<223>Labeled PCR primer

<220>

<221>misc_feature

<222>(1)..(1)

<223>May be biotinylated

<400>7

<210>8

<211>22

<212>DNA

<213>Artificial Sequence

<220>

<223>Labeled PCR primer

<220>

<221>misc_feature

<222>(1)..(1)

<223>May be phosphorylated

<400>8

<210>9

<211>44

<212>DNA

<213>Artificial Sequence

<220>

<223>Labeled circularization linker

<220>

<221>misc_feature

<222>(1)..(1)

<223>May be biotinylated

<400>9

<210>10

<211>32

<212>DNA

<213>Artificial Sequence

<220>

<223>Aminated oligonucleotide used for fixing circularized moleculesto a slide

<220>

<221>misc_feature

<222>(1)..(1)

<223>N is NH2-(CH2)6-PO4

<220>

<221>misc_feature

<222>(1)..(1)

<223>Residue is modified with NH2-(CH2)6-PO4

<400>10

<210>11

<211>22

<212>DNA

<213>Artificial Sequence

<220>

<223>DNA Adaptor with internal NotI site

<400>11

<210>12

<211>44

<212>DNA

<213>Artificial Sequence

<220>

<223>Linker oligonucleotide

<400>12

<210>13

<211>54

<212>DNA

<213>Artificial Sequence

<220>

<223>Primer used in immobilization

<220>

<221>misc_feature

<222>(54)..(54)

<223>May have a 6 carbon-amine group(C6-NH)attached at the 3’ end

<400>13

Claims

1.一种核酸测序方法，包括：

从核酸样品富集靶序列，其中所述核酸样品通过至少第一轮杂交选择和扩增以及第二轮杂交选择和扩增进行富集；及

通过固定的滚环扩增子的鸟枪法杂交测序(SBH)来测序所述靶序列。

2.如权利要求1所述的方法，其中所述DNA样品包含基因组DNA。

3.如权利要求2所述的方法，其中通过以下步骤制备用于富集的DNA样品：断裂所述DNA样品以产生DNA片段群；以及将DNA衔接子与所述DNA片段连接，其中所述DNA衔接子含有引物结合位点。

4.如权利要求3所述的方法，其中从所述DNA片段群中选择大约500碱基对或者更小的DNA片段。

5.如权利要求4所述的方法，其中从所述DNA片段群中选择大约250碱基对的DNA片段。

6.如权利要求3所述的方法，其中所述断裂产生平末端DNA片段。

7.如权利要求6所述的方法，其中DNA衔接子与平末端DNA片段连接，每个DNA衔接子均具有平末端。

8.如权利要求1所述的方法，其中所述第一和第二轮杂交选择包括将所述DNA样品与具有标签的核酸探针杂交并利用所述标签的配体捕获杂交的DNA。

9.如权利要求8所述的方法，其中所述标签是生物素和所述配体是链霉抗生物素蛋白。

10.如权利要求9所述的方法，其中所述链霉抗生物素蛋白被固定在磁珠上。

11.如权利要求3所述的方法，其中通过第一轮杂交选择所选择的DNA随后在第一轮扩增中被扩增。

12.如权利要求11所述的方法，其中利用聚合酶链反应(PCR)进行所述第一轮扩增。

13.如权利要求12所述的方法，其中利用与所述DNA衔接子的引物结合位点互补的引物进行所述PCR。

14.如权利要求11所述的方法，其中进一步在所述第二轮杂交选择中富集第一轮扩增中被扩增的DNA。

15.如权利要求14所述的方法，其中通过所述第二轮杂交选择所选择的DNA随后在所述第二轮扩增中被扩增。

16.如权利要求15所述的方法，其中利用聚合酶链反应(PCR)进行所述第二轮扩增。

17.如权利要求16所述的方法，其中利用与所述DNA衔接子的引物结合位点互补的引物进行所述PCR。

18.如权利要求17所述的方法，其中所述PCR使用5′端用标签修饰的正向引物和5′端被磷酸化的反向引物。

19.如权利要求18所述的方法，其中所述正向引物5′端的标签是生物素。

20.如权利要求18所述的方法，其中所述第二轮扩增的产物被变性以产生单链DNA。

21.如权利要求20所述的方法，其中具有所述标签的单链DNA被捕获和移出。

22.如权利要求21所述的方法，其中所述标签是生物素，并利用链霉抗生物素蛋白包被珠捕获和移出具有所述生物素标签的单链DNA。

23.如权利要求21所述的方法，还包括环化具有磷酸化5′端的单链DNA。

24.如权利要求23所述的方法，其中通过将5′和3′端与寡核苷酸接头杂交来环化5′磷酸化单链DNA，从而保持5′和3′端非常接近；并连接5′和3′端以环化单链DNA。

25.如权利要求24所述的方法，其中所述寡核苷酸接头具有标签。

26.如权利要求25所述的方法，其中所述寡核苷酸接头标签是生物素，并在单链DNA环化后利用链霉抗生物素蛋白包被珠捕获和移出所述寡核苷酸接头。

27.如权利要求24所述的方法，其中所述环化DNA被固定在固体支持物上。

28.如权利要求27所述的方法，其中所述环化DNA通过与固定的寡核苷酸杂交来固定，所述固定的寡核苷酸通过胺被固定。

29.如权利要求27所述的方法，其中通过滚环扩增来扩增固定的环化的DNA。

30.如权利要求29所述的方法，其中利用SBH测序滚环扩增产物。

31.如权利要求1所述的方法，其中根据疾病群组的全基因组关联研究确定所述靶序列。

32.如权利要求31所述的方法，其中所述疾病群组含有患有以下一或多种疾病的患者的DNA样品：克罗恩病，牛皮癣，秃发，长寿，精神分裂症，糖尿病，糖尿病性视网膜病，ADHD，子宫内膜组织异位，哮喘，自身免疫相关疾病，炎性相关疾病，呼吸相关疾病，胃肠相关疾病，生殖相关疾病，女性健康相关疾病，皮肤相关疾病和/或眼科相关疾病。

33.如权利要求8所述的方法，其中所述核酸探针从细菌人工染色体(BAC)制备。

34.如权利要求8所述的方法，其中杂交前用竞争性DNA封闭重复序列。

35.如权利要求1所述的方法，其中通过固定的滚环扩增子的SBH的测序步骤，包括：

制备多个环状单链DNA模板分子，每个模板分子包含引物退火序列和靶序列；

形成固定的扩增的环状DNA模板分子的随机阵列，通过如下步骤进行：将所述模板分子与扩增引物接触，所述扩增引物与引物退火序列退火从而形成退火的引物/模板复合物，并通过滚环扩增来扩增所述模板分子，其中滚环扩增产物被固定到固体支持物上；

在实验条件下利用探针组探查所述滚环扩增产物，

对于组中的每个探针确定所述探针在实验条件下是否与所述滚环扩增产物的靶序列杂交，从而获得所述靶序列的杂交谱；

将所述每个杂交谱与参照数据库中的一或多个参照序列的预期杂交谱进行比较以确定所述靶序列的序列。

36.如权利要求35所述的方法，还包括确定所述靶序列和参照序列之间的序列差异，其中所述差异是单核苷酸多态性、插入、缺失、可变剪接、可变转录起始位点、可变多腺苷酸化和微卫星中的一或多种。

37.如权利要求35所述的方法，其中所述探针组包括多个探针，其中：每个探针是载有报道基因部分的稳定寡核苷酸，并且每个探针的有效特异性从3到10bp，其中所述探针组使统计学上靶序列中所有位置的至少10％与所述探针组的至少一种探针杂交。

38.如权利要求37所述的方法，其中每个探针的有效特异性从4到6bp。

39.如权利要求37所述的方法，其中所述探针组使统计学上靶序列中所有位置的至少25％与所述探针组的至少一种探针杂交。

40.如权利要求39所述的方法，其中所述探针组使统计学上靶序列中所有位置的至少50％与所述探针组的至少一种探针杂交。

41.如权利要求40所述的方法，其中所述探针组使统计学上靶序列中所有位置的至少90％与所述探针组的至少一种探针杂交。

42.如权利要求41所述的方法，其中所述探针组使统计学上靶序列中所有位置中的至少100％与所述探针组的至少一种探针杂交。