CN110959045A

CN110959045A - 生成大规模平行测序的dna文库的改进的方法和试剂盒

Info

Publication number: CN110959045A
Application number: CN201880049144.2A
Authority: CN
Inventors: 瓦伦蒂娜·德尔莫纳科; 尼科洛·马纳雷西; 热尼·布松; 保拉·托诺尼
Original assignee: Menarini Silicon Biosystems SpA
Current assignee: Menarini Silicon Biosystems SpA
Priority date: 2017-07-21
Filing date: 2018-07-20
Publication date: 2020-04-03
Anticipated expiration: 2038-07-20
Also published as: US20240158850A1; EP3431611A1; IL272039B1; SG11202000360YA; US20200362406A1; IL272039B2; WO2019016401A1; CN110959045B; JP2020530767A; IL272039A; JP2023126945A; KR20200054168A; EP3655541A1; US11859249B2; KR20240069835A; CA3070025A1

Abstract

公开了一种生成大规模平行测序文库的方法，其包括以下步骤：a)提供基本WGADNA文库(pWGAlib)，所述基本WGA DNA文库包括含有WGA文库通用序列衔接子的片段；b)使用第一引物(1PR)对pWGAlib进行单个PCR，所述第一引物(1PR)从5'到3'包括第一测序衔接子(1PR5SA)和第一引物3'区段(1PR3S)，所述第一引物3'区段(1PR3S)与所述WGA文库通用序列衔接子的反向互补序列杂交；c)使用第二引物(2PR)对步骤b)的产物进行单个PCR，所述第二引物(2PR)从5'到3'包括与1PR5SA不同的第二测序衔接子(2PR5SA)和第二引物3'区段(2PR3S)，所述第二引物3'区段(2PR3S)与WGA文库通用序列衔接子的反向互补序列杂交；d)使用包含所述1PR5SA的第三引物和包含所述2PR5SA的第四引物通过PCR扩增步骤c)的产物。

Description

生成大规模平行测序的DNA文库的改进的方法和试剂盒

相关申请的交叉引用

本申请要求于2017年7月21日提交的欧洲专利申请第17182693.6号的优先权，其公开内容通过引用并入本文。

技术领域

本发明涉及由全基因组扩增产物(WGA)生成用于全基因组测序的大规模平行测序文库的方法和试剂盒。特别地，该方法可以有利地应用于确定性限制性位点(Deterministic Restriction-Site)，全基因组扩增(DRS-WGA)DNA产物。

该文库可有利地用于低通全基因组测序和全基因组拷贝数分析(genome-widecopy-number profiling)。

背景技术

对于单细胞，为了获得更多DNA以简化和/或使得可以进行不同类型的遗传分析(包括测序、SNP检测等)，进行全基因组扩增(WGA)是有用的。

使用基于确定性限制性位点的LM-PCR(例如WO/2000/017390中所述)进行的WGA是本领域已知的(下文中简称为DRS-WGA)。基于LM-PCR的DRS-WGA商业试剂盒(Ampli1^TM WGA试剂盒，Silicon Biosystems)已经在Hodgkinson C.L.等人，小细胞肺癌中循环肿瘤细胞的肿瘤发生和遗传谱分析(Tumorigenicity and genetic profiling of circulatingtumor cells in small-cell lung cancer)，自然医学20,897–903(2014)中使用。在这项工作中，进行了对单细胞WGA物质的低通全基因组测序的拷贝数分析。然而，对于该文章中使用的标准工作流程，Illumina文库的创建需要几个步骤，包括i)消化WGA衔接子，ii)DNA片段化，以及标准Illumina工作流程步骤例如iii)末端修复、iv)加A尾、v)条形码化衔接子连接，加上常规步骤：vi)条形码化NGS文库的样品池化和vii)测序。如上述文献(图5b)中所示，尽管CTC通常显示出更多的畸变，但WBC确实呈现了少量可推测为假阳性的拷贝数调用(copy-number calls)。

Ampli1^TM WGA与阵列比较基因组杂交(aCGH)兼容；确实有几组(Moehlendick B等人.(2013)使用寡核苷酸阵列CGH分析单细胞中小于100kb的拷贝数改变的稳健方法(ARobust Method to Analyze Copy Number Alterations of Less than 100kb in SingleCells Using Oligonucleotide Array CGH).PLoS ONE 8(6)：e67031；Czyz ZT等人(2014)用于临床样品的可靠的单细胞阵列CGH(Reliable Single Cell Array CGH for ClinicalSamples).PLoS ONE 9(1):e85907)表明它适用于高分辨率拷贝数分析。然而，aCGH技术昂贵且劳动强度大，因此可能需要不同的方法，例如用于检测体细胞拷贝数改变(CNA)的低通全基因组测序(LPWGS)。

尽管DRS-WGA在均匀和平衡的扩增方面提供了最好的结果，但是基于aCGH或中期CGH的当前方案是费力和/或昂贵的。已经提出低通全基因组测序作为高通量方法，以比aCGH更高的持续合成能力且更低的成本来分析几个样品。然而，生成用于WGA产物(例如DRS-WGA)的大规模平行测序文库的已知方法仍然需要包括几个酶促步骤和反应的方案。

将期望更简化的方法，该方法将DRS-WGA的重现性和质量与分析全基因组拷贝数变体(CNV)的能力结合。此外，还将期望从微量细胞、FFPE或组织活检中确定全基因组拷贝数谱。

以本申请人的名义的PCT/EP2017/059075公开了一种以精简的方式从WGA产物开始生成大规模平行测序文库-也称为NGS(下一代测序)文库的方法。

该方法涉及用两种引物扩增基本WGA DNA文库，每个引物在5′端均包含不同的测序衔接子，从而允许在特定的测序平台上进行测序。可以使用的测序平台是例如Ion-Torrent平台或Illumina平台。

当使用某些测序平台(例如Illumina平台)时，选择在片段的相对的两个末端包含两个不同测序衔接子(Illumina的情况下为P5和P7)的文库片段是特别有利的。这些片段将被称为“异型衔接子片段(heteroadapter fragments)”。为此，上述申请中公开的实施方式中的一种规定了，用于扩增基本WGA DNA文库的两种引物中的一种在5'端被生物素化。图1总结了该实施方式。一旦使用两种引物扩增了基本WGA DNA库，就可以通过链霉亲和素珠选择片段。在两端带有相同测序衔接子的片段(以下称为“同型衔接子片段(heteroadapterfragments)”)被洗脱(如果未进行生物素化)，或保持与链霉亲和素珠的结合(如果在两端进行了生物素化)，而ssDNA异型衔接子片段(两端带有不同的测序衔接子)变性和被洗脱以便选择。

通过生物素化引物进行的选择有一些弱点。特别地，它导致产生单链DNA文库，单链DNA文库更难以量化并且不太优选用于储存。此外，对于Illumina测序工作流程，最好使用双链DNA文库。这个问题可以通过使用P5和P7引物进行双链合成或进一步的扩增循环来解决，但是，这当然会使该方法更加复杂并且不允许单管反应。试剂盒的设计因此更加复杂，因为它需要例如使用为此目的而设计的特定缓冲液。

发明内容

因此，本发明的目的是提供一种从WGA产物开始生成大规模平行测序文库的方法，该方法克服了上述问题。

本发明的其他目的是提供一种使用根据本发明的文库制备方法进行低通全基因组测序的方法和一种从WGA产物开始进行全基因组拷贝数分析的方法。

本发明的进一步目的是提供用于实施上述方法的大规模平行测序文库制备试剂盒和低通全基因组测序试剂盒。

附图说明

图1示出了概述申请人在PCT/EP2017/059075中公开的选择异型衔接子片段的方法的步骤的图。

图2A示出了概述根据本发明的方法的步骤的图，特别是涉及其中通过DRS-WGA获得基本WGA DNA文库的情况。然而，这并不旨在将本发明的范围限于该特定种类的WGA。

图2B示出了基本WGA DNA文库的结构以及在图2A所示的根据本发明的方法中使用的四种引物的结构。括号中还示出了基本WGA DNA文库和四种引物的不同部分在权利要求书和说明书中所使用的首字母缩写词。

图3A示出了用一种根据本发明的定制测序引物在MiSeq、HiSeq2000/2500和1000/1500上双索引测序的图。

图3B示出了用两种根据本发明的定制测序引物在MiniSeq、NextSeq、HiSeq 3000/4000Illumina测序平台上双索引测序的图。

图4A和4B示出了通过根据本发明的方法进行的低通全基因组测序的测序结果。图中示出了由

(Menarini Silicon Biosystems)分选的属于NCI-H441和SW-480细胞系的两种单细胞的拷贝数变化(CNA)谱(图4A)；以及由DEPArray^TM(Menarini SiliconBiosystems)分选的血液单细胞(循环肿瘤细胞[CTC]和白细胞[WBC])的拷贝数变化图谱(图4B)。

图5示出了通过根据本发明的方法进行的低通全基因组测序的测序结果。该图显示了由DEPArray^TM(Menarini Silicon Biosystems)数字分选的属于分解的FFPE切片的肿瘤单个细胞和50个基质细胞群的拷贝数变化(CNA)谱，并使用Ampli1^TM WGA试剂盒扩增的全基因组。

图6A和6B示出了方法之间和平台之间(IonTorrent和Illumina)的比较结果。特别地，图6A示出了通过用于IonTorrent的低通全基因组测序方法(呈现于PCT/EP2017/059075中)和根据本发明的用于Illumina平台的方法获得的NCI-H23单个细胞的拷贝数改变(CNA)谱。图6B示出了基于CNA谱的NCI-H441和WBC单个细胞分层聚类。

定义

除非另有定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的含义相同的含义。尽管许多与本文所述相似或等同的方法和材料可用于本发明的实践或测试，但下文描述了优选的方法和材料。除非另有提及，否则本文描述的用于本发明的技术是本领域普通技术人员熟知的标准方法。

术语“原始DNA”是指用DRS-WGA扩增之前的基因组DNA(gDNA)。

术语“衔接子”或“WGA衔接子”或“WGA PCR引物”或“WGA文库通用序列衔接子”是指在DRS-WGA的情况下，连接于通过限制酶的作用生成的每个片段的另外的寡核苷酸，或在MALBAC的情况下，由于延伸和PCR过程的结果，存在于WGA DNA文库的每个分子的5'区段的已知的多核苷酸序列。

术语“拷贝数改变(CNA)”是指基因组区域的拷贝数的体细胞变化(somaticchange)，通常相对于相同的个体基因组而定义。

术语“拷贝数变异(CNV)”是指基因组区域的拷贝数中的种系变体，其通常相对于参考基因组而定义。在整个描述中，CNA和CNV可以互换使用，因为大多数论证可以应用于两种情况。除非另有相反说明，否则这些术语中的每一个都应指两种情况。

术语“大规模平行测序”(MPS)或“下一代测序”(NGS)是指对DNA测序的方法，该方法包括对在空间上和/或时间上分离的并克隆测序的(伴随或不伴随先前的克隆扩增)DNA分子文库的建立。实例包括Illumina平台(Illumina Inc)、Ion Torrent平台(ThermoFisher Scientific Inc)、Pacific Biosciences平台、MinION(Oxford NanoporeTechnologies Ltd)。

术语“靶序列”意指原始DNA上感兴趣的区域。

术语“基本WGA DNA文库(Primary WGA DNA library，pWGAlib)”是指从WGA反应获得的DNA文库。

术语“基于多重退火和循环的扩增循环(MALBAC)”是指一种拟线性全基因组扩增方法(Zong等人，单个人细胞的单核苷酸和拷贝数变异的全基因组检测(Genome-widedetection of single-nucleotide and copy-number variations of a single humancell),Science.2012 Dec 21；338(6114):1622-6.doi：10.1126/science.1229164.)。MALBAC引物具有用于与模板杂交的8个核苷酸3′随机序列，以及27个核苷酸5'共同序列(GTG AGT GAT GGT TGA GGT AGT GTG GAG)。在第一次延伸后，半扩增子用作另一次延伸的模板，以产生具有互补的5′和3′末端的完整扩增子。在半线性扩增的几次循环后，可以用随后的PCR循环以指数方式来扩增全扩增子。

术语“DNA文库纯化”是指将DNA文库材料与不需要的反应组分(例如酶、dNTP、盐和/或不是所期望DNA文库的一部分的其他分子)分离的过程。DNA文库纯化方法的实例是用基于顺磁珠的技术(在)(例如AGENCOURT AMPure XP或来自Beckman Coulter的固相可逆固定化(SPRI)珠)或用旋转柱纯化(例如来自Merck Millipore的Amicon旋转柱)进行纯化。DNA文库纯化过程的另一个实例是直接或通过蛋白质-蛋白质相互作用(例如链霉亲和素包被的磁珠与生物素化的寡核苷酸相互作用)用与寡核苷酸诱饵偶联的磁珠纯化。

术语“DNA文库选择”是指进行DNA文库纯化或DNA文库大小选择或两者都进行的过程。

术语“测序衔接子(SA)”是指有助于测序DNA插入物的一种或多种分子。每种分子可以不包含或包含多核苷酸序列、官能团中的一种或多种。特别地，它是指需要在大规模平行测序文库中存在的多核苷酸序列，以使测序仪正确地生成输出序列，但该输出序列不携带信息(作为非限制性实例：在Illumina测序的情况下使ssDNA与流动细胞杂交的多核苷酸序列，或在Ion Torrent测序的情况下使ssDNA与离子球杂交的多核苷酸序列，或启动边合成边测序反应(sequencing-by-synthesis reaction)所需的多核苷酸序列)。

术语“测序条形码”是指，当在一个测序仪读段中测序时，允许将读段分配给与该条形码相关的特定样品的多核苷酸序列。

术语“低通全基因组测序”是指在低于1的平均测序深度下的全基因组测序。

术语“平均测序深度”在此是指基于每个样品测序并映射在参考基因组的碱基总数除以总参考基因组大小。测序并映射的碱基总数可以近似为映射读段的数量乘以平均读段长度。

“等量化”是指调节一个或多个样品的浓度以使它们相等的行为。

“标准化”是指调节一个或多个样品的浓度以使它们对应于它们之间的期望比例的行为(等量化是比例为1的特殊情况)。在描述中，为了简单起见，将无差别地使用术语标准化和等量化，因为它们在概念上明显相同。

具体实施方式

参考图2A，该图例示了通过DRS-WGA获得基本WGADNA文库且测序平台是Illumina平台的情况，根据本发明的生成大规模平行测序文库的方法包括以下步骤。

在步骤a中，提供了基本WGA DNA文库(pWGAlib)，该文库包括含有已知的5'序列区段(5SS)、中间序列区段(MSS)和与已知的5'序列区段反向互补的已知的3'序列区段(3SS)的片段。已知的5'序列区段(5SS)包括WGA文库通用序列衔接子。中间序列区段(MSS)至少包括插入区段(IS)，所述插入区段(IS)与WGA之前的原始未扩增DNA的DNA序列对应。除了插入区段(IS)之外，中间序列区段(MSS)任选地包括侧翼5'中间区段(F5)和/或侧翼3'中间区段(F3)(例如，当基本WGA DNA文库根据WO 2015/118077的教导由MALBAC或DRS-WGA生成时)。在图2A和2B中，已知的5'序列区段(5SS)与DRS-WGA特有的LIB序列(SEQ ID NO:50)对应，而已知的3'序列区段(3SS)是LIB序列(LIBrc)的反向互补序列。

在步骤b中，使用至少一种第一引物(1PR)对基本WGA DNA文库进行单个PCR循环，所述第一引物(1PR)至少包括第一引物5'区段(1PR5S)和第一引物3'区段(1PR3S)。第一引物5'区段(1PR5S)包含至少一个第一测序衔接子(1PR5SA)。第一引物3'区段(1PR3S)与已知的3'序列区段(3SS)杂交。步骤b的单个PCR循环的结果是第一引物延伸的WGADNA文库。

单个PCR循环包括双链DNA变性步骤、引物退火步骤和退火引物延伸步骤。优选的实施方式包括在95℃下30秒的变性步骤、在62℃下30秒的退火步骤和在72℃下3分钟的延伸步骤。

第一引物(1PR)优选在第一引物5'区段(1PR5S)的3'位置和第一引物3'区段(1PR3S)的5'位置中还包含至少一个读段测序引物序列(1PRSEQ)。

第一引物(1PR)优选具有选自由SEQ ID NO:1至SEQ ID NO:12组成的组中的序列。

步骤b之后，有必要防止第一引物(1PR)聚合其他基本WGA产物或第一引物延伸的WGA DNA文库片段。在优选的实施方式中，在步骤b之后纯化第一引物延伸的WGA DNA文库。该纯化优选用SPRIselect珠(Beckman Coulter)进行。

在步骤c中，使用至少一个第二引物(2PR)对第一引物延伸的WGA DNA文库进行单个PCR循环，所述第二引物(2PR)包括第二引物5'区段(2PR5S)和第二引物3'区段(2PR3S)。第二引物5'区段(2PR5S)包含与至少一个第一测序衔接子(1PR5SA)不同的至少一个第二测序衔接子(2PR5SA)。第二引物3'区段(2PR3S)与已知的3'序列区段(3SS)杂交。

步骤c的单个PCR循环的结果是第一引物和第二引物延伸的WGA DNA库。

单个PCR循环包括双链DNA变性步骤、引物退火步骤和退火引物延伸步骤。优选的实施方式包括在95℃下30秒的变性步骤，在60℃下30秒的退火步骤和在72℃下3分钟的延伸步骤。

第二引物(2PR)优选具有选自由SEQ ID NO:13至SEQ ID NO:20组成的组中的序列。

在步骤c之后，纯化第一引物和第二引物延伸的WGA DNA文库，优选使用2.5M NaClPEG 20％溶液进行。

在步骤d中，通过使用至少一个包含第一测序衔接子(1PR5SA)的第三引物(3PR)和至少一个包含第二测序衔接子(2PR5SA)的第四引物(4PR)来扩增第一引物和第二引物延伸的WGA DNA文库。步骤d的PCR扩增的结果是扩增的第一引物和第二引物延伸的WGA DNA文库。就DNA文库而言，该扩增步骤的产率足以对其进行测序。

在步骤d之后，纯化扩增的第一引物和第二引物延伸的WGADNA文库，优选使用2.5MNaCl PEG 20％溶液进行。

第三引物(3PR)优选具有序列SEQ ID NO:22，第四引物(4PR)优选具有序列SEQ IDNO:21。

第一引物(1PR)的第一引物5'区段(1PR5S)优选在至少一个第一测序衔接子(1PR5SA)的3'位置和在第一引物3'区段(1PR3S)的5'位置中还包含至少一个第一测序条形码(1PR5BC)。第二引物(2PR)的第二引物5'区段(2PR5S)优选在至少一个第二测序衔接子(2PR5SA)的3'位置和第二引物3'区段(2PR3S)的5'位置中还包含至少一个第二测序条形码(2PR5BC)。这允许更大的多路进行。特别地，如果使用SEQ ID NO:1至SEQ ID NO:12作为第一引物(1PR)，其中每个包含不同条形码，以及使用SEQ ID NO:13至SEQ ID NO:20作为第二引物(2PR)，其中每个引物包含不同的条形码，那么可以获得96种条形码组合，从而进行对96种文库的分析。

WGA文库通用序列衔接子优选是DRS-WGA文库通用序列衔接子或MALBAC文库通用序列衔接子，更优选DRS-WGA文库通用序列衔接子。

DRS-WGA文库通用序列衔接子优选具有SEQ ID NO:50，而MALBAC文库通用序列衔接子优选具有SEQ ID NO:51。

根据本发明的用于低通全基因组测序的方法包括以下步骤。

首先，提供了根据上述公开的生成大规模平行测序文库的方法获得的多个条形码化的大规模平行测序文库，并池化使用不同测序条形码(BC)获得的样品。然后对池化的文库进行测序。

使用不同的测序条形码(BC)池化样品的步骤还包括以下步骤：对条形码化的大规模平行测序文库中的每一个中的DNA进行定量，以及对条形码化的大规模平行测序文库的量进行标准化。

根据本发明的大规模平行测序文库制备试剂盒包含至少一种第一引物(1PR)、一种第二引物(2PR)、一种第三引物(3PR)和一种第四引物(4PR)。这些引物的结构已在上文公开。

在一种优选的实施方式中，其中基本WGA DNA文库是DRS-WGA，大规模平行测序文库制备试剂盒包含一种或多种选自由SEQ ID NO:1至SEQ ID NO:12组成的组中的引物、一种或多种选自由SEQ ID NO:13至SEQ ID NO:20组成的组中的引物、以及引物SEQ ID NO:21和SEQ ID NO:22。

在可供选择的优选的实施方式中，其中基本WGADNA文库是DRS-WGA，大规模平行测序文库制备试剂盒包含一种或多种选自由SEQ ID NO:52至SEQ ID NO:63组成的组中的引物、一种或多种选自由SEQ ID NO:13至SEQ ID NO:20组成的组中的引物、以及引物SEQ IDNO:21和SEQ ID NO:22。

在可供选择的优选的实施方式中，其中基本WGA DNA文库是MALBAC WGA，大规模平行测序文库制备试剂盒包含一种或多种选自由SEQ ID NO:27至SEQ ID NO:38组成的组中的引物、一种或多种选自由SEQ ID NO:39至SEQ ID NO:46组成的组中的引物、以及引物SEQID NO:21和SEQ ID NO:22。

在可供选择的优选的实施方式中，其中基本WGADNA文库是MALBAC WGA，大规模平行测序文库制备试剂盒包含一种或多种选自由SEQ ID NO:64至SEQ ID NO:75组成的组中的引物、一种或多种选自由SEQ ID NO:39至SEQ ID NO:46组成的组中的引物、以及引物SEQID NO:21和SEQ ID NO:22。

根据本发明的一种实施方式的低通全基因组测序试剂盒包含至少一种选自由SEQID NO:1至SEQ ID NO:12组成的组中的引物；至少一种选自由SEQ ID NO:13至SEQ ID NO:20组成的组中的引物；引物SEQ ID NO:21和SEQ ID NO:22；以及SEQ ID NO:23的定制测序引物。试剂盒优选还包含选自由SEQ ID NO:24、SEQ ID NO:25和SEQ ID NO:26组成的组中的引物。特别地，后者中的一种引物与MiniSeq、NextSeq、HiSeq 3000/4000Illumina测序平台一起使用以读取索引2。下面将提供附加说明。在三种引物中，特别优选SEQ ID NO:24。

在可供选择的实施方式中，低通全基因组测序试剂盒包含至少一种选自由SEQ IDNO:52至SEQ ID NO:63组成的组中的引物；至少一种选自由SEQ ID NO:13至SEQ ID NO:20组成的组中的引物；引物SEQ ID NO:21和SEQ ID NO:22；SEQ ID NO:23的定制测序引物和选自由SEQ ID NO:24、SEQ ID NO:25和SEQ ID NO:26组成的组中的定制索引2引物。

根据本发明的另一个实施方式的低通全基因组测序试剂盒包含至少一种选自由SEQ ID NO:27至SEQ ID NO:38组成的组中的引物；至少一种选自由SEQ ID NO:39至SEQ IDNO:46组成的组中的引物；引物SEQ ID NO:21和SEQ ID NO:22；以及SEQ ID NO:47的引物。试剂盒优选还包含SEQ ID NO:48的引物。甚至更优选地，试剂盒包含SEQ ID NO:49的引物。

在可用供选择的实施方式中，低通全基因组测序试剂盒包含至少一种选自由SEQID NO:64至SEQ ID NO:75组成的组中的引物；至少一种选自由SEQ ID NO:39至SEQ ID NO:46组成的组中的引物；引物SEQ ID NO:21和SEQ ID NO:22；SEQ ID NO:47的引物。试剂盒优选还包含SEQ ID NO:48。甚至更优选地，试剂盒包含SEQ ID NO:49的引物。

根据本发明的用于全基因组拷贝数分析的方法包括以下步骤：

-对使用如上所述的测序文库制备试剂盒中的一种开发的DNA文库进行测序；

-分析基因组的不同区域中的测序读段深度；

-通过比较该区域中的读段数相对于参考基因组的相同区域中预期的读段数来确定基因组区域的拷贝数值。

在Illumina平台上进行低通全基因组测序的方案1

·确定性限制位点全基因组扩增(DRS-WGA)

根据制造商的说明，使用Ampli1^TM WGA试剂盒(Menarini Silicon Biosystems)扩增单细胞DNA。通过添加5μL无核酸酶的水稀释5μL WGA扩增的DNA，并使用SPRIselect磁珠(Beckman Coulter)系统进行纯化(比率1.8×)。DNA以12.5μL洗脱，并通过在

2.0荧光计上进行dsDNAHS来分析进行定量。

·P7单次延伸

单个步骤的PCR延伸使用Ampli1^TM PCR试剂盒(Menarini Silicon Biosystems)和LIB_IL_索引D7xx(SEQ ID NO:1至SEQ ID NO:12的引物中的一种)，以15μl的体积进行。每个PCR反应包含：1.5μL Ampli1^TM PCR反应缓冲液(10X)，3μL的一种引物LIB_IL_索引D7xx(在SEQ ID NO:1至SEQ ID NO:12的范围内)[2.5μM]，0.51μL Ampli1^TM PCR dNTPs(10mM)，0.37μL BSA，0.12μL Ampli1^TM PCR Taq聚合酶，WGA纯化的DNA(10至75ng)和Ampli1^TM水至最终体积为15μL。

Applied

2720热循环仪设置如下：95℃下4分钟；95℃下30秒、62℃下30秒、72℃下3分钟，1个循环。

·SPRIselect磁珠净化和P5单次延伸

使用SPRIselect磁珠(Beckman Coulter)系统纯化从上一步骤中扩增得到的15μLAmpli1^TM WGA(比率1.5倍)。用15μL的PCR反应混合物洗脱DNA，所述PCR反应混合物制备如下：1.5μL Ampli1^TM PCR反应缓冲液(10X)，3μL的一种引物LIB_IL_索引D5xx(来自SEQ IDNO:13至SEQ ID NO:20的引物中的一种)[2.5μM]，0.51μL Ampli1^TM PCR dNTP(10mM)，0.37μL BSA，0.12μL Ampli1^TM PCR Taq聚合酶和9.5μL Ampli1^TM水。在珠子的存在下进行P5单次延伸PCR反应。

2720热循环仪设置如下：95℃下4分钟；95℃下30秒、60℃下30秒、72℃下3分钟，1个循环。

·2.5M NaCl PEG 20％溶液净化和文库扩增

使用2.5M NaCl PEG 20％溶液纯化从上一步骤中扩增得到的15μL Ampli1^TM WGA(比率1.5倍)。用15μL的PCR反应混合物洗脱DNA，所述PCR反应混合物制备如下：1.5μLAmpli1^TM PCR反应缓冲液(10X)，1μL的一种引物衔接子P5(SEQ ID NO:21)和1μL的一种引物衔接子P7(SEQ ID NO:22)(各自7.5μM)，0.51μL Ampli1^TM PCR dNTP(10mM)，0.37μL BSA，0.12μL Ampli1^TM PCR Taq聚合酶和10.5μL Ampli1^TM水。

文库扩增PCR反应在珠子的存在下进行。

Applied

2720热循环仪设置如下：95℃下4分钟；95℃下30秒、62℃下30秒、72℃下2分钟，1个循环；95℃下30秒，60℃下30秒，72℃下2分钟，10个循环(延长20秒/循环)；最后在72℃下延伸7分钟。

在一个优选的实施方式中，可以将95℃下30秒，60℃下30秒，72℃下2分钟的循环数延长至12个，以通过在文库扩增过程中引入2个额外的循环来增加文库浓度至少2(至4)倍，从而将循环总数从11增加到13。

·最终文库净化

最后，使用2.5M NaCl PEG 20％溶液(比率1.5×)纯化扩增的文库(包含Illumina测序衔接子序列)，并在15μL Ampli1^TM水中洗脱。纯化的文库在2100

上通过Agilent DNA 7500、DNA 1000或DNA HS试剂盒进行质量鉴定，并通过在

2.0荧光计上进行dsDNA HS分析来定量，以得到等摩尔池。如本领域普通技术人员已知的，根据文库的平均大小(通常在使用Ampli1^TM WGA试剂盒-Menarini Silicon Biosystems获得的DRS-WGA产物上以实验方式观察到平均长度为700bp)，可以将通过定量步骤生成的文库浓度转换为nM(例如600bp文库平均大小为1ng/μL＝2.5nM，700bp文库平均大小为1ng/μL＝2nM，800bp文库平均大小为1ng/μL＝1.9nM)–请参见Illumina技术说明：DNA测序“

文库验证和簇密度优化”公布号770-2013-003。

·作为优选的可供选择的方法，通过实时定量PCR(qPCR)方法对纯化的文库进行定量。qPCR方法基于从对照模板稀释液产生的标准曲线，准确定量功能文库，特别是在每个末端具有正确衔接子的哪些片段(异型衔接子片段)。对MiSeq测序系统的测序。

用0.1N NaOH使4nM的池变性5分钟。然后用HT1缓冲液(Illumina)稀释变性的样品，得到20pM变性文库。将600μl的变性文库负载在MiSeq试剂筒(Illumina公司)上。

使用Illumina MiSeq的v3化学方法产生150个碱基的单个末端读段或成对的末端读段(75PE)。

然后将定制读段1测序引物(SEQ ID NO:23)用HT1稀释，得到0.5μM的终浓度。将600μL稀释的定制读段1测序引物负载在MiSeq试剂筒(Illumina公司)上。

·在HiSeq 1000/1500和2000/2500系统上测序

用0.1N NaOH使4nM的池变性5分钟。

在快速运行模式下使用Illumina HiSeq的v2化学方法，或在高输出运行模式下使用Illumina HiSeq的v4化学方法，产生100个碱基的单个末端读段或成对的末端读段(100PE)。

然后将定制的读段1测序引物(SEQ ID NO:23)用HT1稀释，得到0.5μM的终浓度。

·在NextSeq、HiSeq 3000和4000、NovaSeq系列和HiSeq X Ten系统上测序

用0.1N NaOH使4nM的池变性5分钟。

使用Illumina平台的特定化学方法，产生150个碱基的单个末端读段或成对的末端读段(100PE)。

然后将定制读段1测序引物(SEQ ID NO:23)和定制的引物索引2A(i5)[LNA-5'](SEQ ID NO:24)用HT1稀释，得到0.5μM的终浓度。

下表总结了与所有Illumina平台兼容的DRS-WGA引物的序列(序列为5'→3'方向，省略了5'和3')：

表1

SEQID	名称	引物序列
			SEQID1	LIB_IL_索引D701	CAAGCAGAAGACGGCATACGAGATCGAGTAATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
SEQID2	LIB_IL_索引D702	CAAGCAGAAGACGGCATACGAGATTCTCCGGAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
			SEQID3	LIB_IL_索引D703	CAAGCAGAAGACGGCATACGAGATAATGAGCGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
SEQID4	LIB_IL_索引D704	CAAGCAGAAGACGGCATACGAGATGGAATCTCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
			SEQID5	LIB_IL_索引D705	CAAGCAGAAGACGGCATACGAGATTTCTGAATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
SEQID6	LIB_IL_索引D706	CAAGCAGAAGACGGCATACGAGATACGAATTCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
			SEQID7	LIB_IL_索引D707	CAAGCAGAAGACGGCATACGAGATAGCTTCAGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
SEQID8	LIB_IL_索引D708	CAAGCAGAAGACGGCATACGAGATGCGCATTAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
			SEQID9	LIB_IL_索引D709	CAAGCAGAAGACGGCATACGAGATCATAGCCGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
SEQID10	LIB_IL_索引D710	CAAGCAGAAGACGGCATACGAGATTTCGCGGAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
			SEQID11	LIB_IL索引D711	CAAGCAGAAGACGGCATACGAGATGCGCGAGAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
SEQID12	LIB_IL_索引D712	CAAGCAGAAGACGGCATACGAGATCTATCGCTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGTGGGATTCCTGCTGTCAGT
			SEQID13	LIB_IL_索引D501	AATGATACGGCGACCACCGAGATCTACACTATAGCCTGCTCACCGAAGTGGGATTCCTGCTGTCAGTTAA
SEQID14	LIB_IL_索引D502	AATGATACGGCGACCACCGAGATCTACACATAGAGGCGCTCACCGAAGTGGGATTCCTGCTGTCAGTTAA
			SEQID15	LIB_IL_索引D503	AATGATACGGCGACCACCGAGATCTACACCCTATCCTGCTCACCGAAGTGGGATTCCTGCTGTCAGTTAA
SEQID16	LIB_IL_索引D504	AATGATACGGCGACCACCGAGATCTACACGGCTCTGAGCTCACCGAAGTGGGATTCCTGCTGTCAGTTAA
			SEQID17	LIB_IL_索引D505	AATGATACGGCGACCACCGAGATCTACACAGGCGAAGGCTCACCGAAGTGGGATTCCTGCTGTCAGTTAA
SEQID18	LIB_IL_索引D506	AATGATACGGCGACCACCGAGATCTACACTAATCTTAGCTCACCGAAGTGGGATTCCTGCTGTCAGTTAA
			SEQID19	LIB_IL_索引D507	AATGATACGGCGACCACCGAGATCTACACCAGGACGTGCTCACCGAAGTGGGATTCCTGCTGTCAGTTAA
SEQID20	LIB_IL_索引D508	AATGATACGGCGACCACCGAGATCTACACGTACTGACGCTCACCGAAGTGGGATTCCTGCTGTCAGTTAA
			SEQID21	衔接子P5	AATGATACGGCGACCACCGAGAT
SEQID22	衔接子P7	CAAGCAGAAGACGGCATACGA
			5EQID23	Ampli1<sup>TM</sup>定制测序引物	GCTCACCGAAGTGGGATTCCTGCTGTCAGTTAA
SEQID24	定制引物索引2A(i5)[LNA-5′]	A+CAGC+AGGAA+TCCCACTTCGGTGAGC
			SEQID25	定制引物索引2A(i5)[LNA-3′]	ACAGCAGGAATCCCACT+TCGG+TG+AGC
SEQID26	定制引物索引2(i5)[RNA]	TTrAArCTrGrACArGrCAGrGArATCCrCrArCTArCGGrArGrAGC

下表总结了与所有Illumina平台兼容的MALBAC-WGA引物的序列(序列为5′→3′方向，省略了5′和3′)：

表2

SEQID	名称	引物序列
			SEQID27	MAL_IL_索引D701	CAAGCAGAAGACGGCATACGAGATCGAGTAATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID28	MAL_IL_索引D702	CAAGCAGAAGACGGCATACGAGATTCTCCGGAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID29	MAL_IL_索引D703	CAAGCAGAAGACGGCATACGAGATAATGAGCGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID30	MAL_IL_索引D704	CAAGCAGAAGACGGCATACGAGATGGAATCTCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID31	MAL_IL_索引D705	CAAGCAGAAGACGGCATACGAGATTTCTGAATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID32	MAL_IL_索引D706	CAAGCAGAAGACGGCATACGAGATACGAATTCGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID33	MAL_IL_索引D707	CAAGCAGAAGACGGCATACGAGATAGCTTCAGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID34	MAL_IL_索引D708	CAAGCAGAAGACGGCATACGAGATGCGCATTAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID35	MAL_IL_索引D709	CAAGCAGAAGACGGCATACGAGATCATAGCCGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID36	MAL_IL_索引D710	CAAGCAGAAGACGGCATACGAGATTTCGCGGAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID37	MAL_IL_索引D711	CAAGCAGAAGACGGCATACGAGATGCGCGAGAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID38	MAL_IL_索引D712	CAAGCAGAAGACGGCATACGAGATCTATCGCTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID39	MAL_IL_索引D501	AATGATACGGCGACCACCGAGATCTACACTATAGCCTGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID40	MAL_IL_索引D502	AATGATACGGCGACCACCGAGATCTACACATAGAGGCGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID41	MAL_IL_索引D503	AATGATACGGCGACCACCGAGATCTACACCCTATCCTGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID42	MAL_IL_索引D504	AATGATACGGCGACCACCGAGATCTACACGGCTCTGAGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID43	MAL_IL_索引D505	AATGATACGGCGACCACCGAGATCTACACAGGCGAAGGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID44	MAL_IL_索引D506	AATGATACGGCGACCACCGAGATCTACACTAATCTTAGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID45	MAL_IL_索引D507	AATGATACGGCGACCACCGAGATCTACACCAGGACGTGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID46	MAL_IL_索引D508	AATGATACGGCGACCACCGAGATCTACACGTACTGACGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID47	定制读段1引物	GTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID48	定制引物索引1(i7)	CTCCACACTACCTCAACCATCACTCAC
			SEQID49	定制引物读段2(任选的)	GCTCACCGAAGTGGGATTCCTGCTGTCAGTTAA

当使用DRS-WGA时，如图2A和2B所示，LIB反向互补序列是表1中所列出的SEQ IDNO：1至SEQ ID NO：20的引物的靶标。此外，由于最终文库缺少Illumina读段1测序引物的靶序列，因此已经设计了定制读段1测序引物(SEQ ID NO：23)。定制读段1测序引物(SEQ IDNO：23)包含LIB序列，并且与LIB反向互补序列互补。

值得注意的是，在测序设置中，可以避免使用PhiX标定对照(PhiX spike-incontrol)(Illumina)，因为这种方法可以从我们的Ampli1^TM WGA产物输入构建高复杂度的文库。

此外，测序运行优选使用定制读段1测序引物(SEQ ID NO:23)进行，PhiX DNA文库缺少定制读段1测序引物的靶序列，因此，将不对PhiX DNA进行测序。

而且，通过本发明的方法获得的最终文库不具有由MiniSeq、NextSeq、HiSeq 3000和4000Illumina系统使用的读取索引2(i5)的规范Illumina序列衔接子。

因此，在这些平台上，使用定制引物索引2(SEQ ID NO:24或SEQ ID NO:25或SEQID NO:26)来正确读取索引i5。值得注意的是，定制测序引物索引2包含LIB序列。详细地，定制引物索引2A(i5)[LNA-5'](SEQ ID NO:24)和定制引物索引2A(i5)[LNA-3'](SEQ ID NO:25)具有三个LNA(锁核酸[LNA^TM]-Exiqon)，所述三个LNA是表1中指示的修饰核苷酸，在其旁边带有“+”(例如“+A”)。此外，定制引物索引2(i5)[RNA](SEQ ID NO:26)由在旁边带有“r”的15个RNA核苷酸(例如“rA”)形成。

当使用表2中列出的MALBAC兼容引物(SEQ ID NO:27至SEQ ID NO:49)时，以上相同的考虑事项经过必要的变更也适用。

作为允许生成适用于所有Illumina平台的文库(并且其中基本WGA文库是DRS-WGA文库)的又一种可供选择的实施方式，可以使用以下引物组合：

-选自由SEQ ID NO:52至SEQ ID NO:63组成的组中的至少一种引物；

-选自由SEQ ID NO:13至SEQ ID NO:20组成的组中的至少一种引物；

-引物SEQ ID NO:21和SEQ ID NO:22；

-SEQ ID NO:23的定制测序引物和选自由SEQ ID NO:24、SEQ ID NO:25和SEQ IDNO:26组成的组中的定制索引2引物。

SEQ ID NO:52至SEQ ID NO:63的引物包括8个核苷酸的序列而不是RDSP序列，第一引物3'区段的5'需要8个核苷酸的序列以提高定制测序引物的退火温度。应当注意，第二引物(SEQ ID NO:13至SEQ ID NO:20)包括第二引物3′区段的5′的8个核苷酸的相同序列。SEQ ID NO:23的定制测序引物用于Illumina测序平台，以读取读段1和/或读段2；SEQ IDNO:24(或SEQ ID NO：25或SEQ ID NO：26)的定制测序引物用于Illumina测序平台以读取索引1和索引2。

下表总结了根据该实施方式的用于Illumina平台的DRS-WGA兼容引物的序列(序列为5′→3′方向，省略了5′和3′)

表3

作为允许生成适用于所有Illumina平台的文库(并且其中基本WGA文库是MALBAC文库)的又一种可供选择的实施方式，可以使用以下引物组合：

-选自由SEQ ID NO：64至SEQ ID NO：75组成的组中的至少一种引物；

-选自由SEQ ID NO：39至SEQ ID NO：46组成的组中的至少一种引物；

-引物SEQ ID NO：21和SEQ ID NO：22；

-定制读取引物SEQ ID NO：47。

优选地，还使用SEQ ID NO：48的引物。甚至更优选地，还使用SEQ ID NO：49的引物。

表4

SEQID	名称	序列
			SEQID64	MAL_IL_v2_索引D701	CAAGCAGAAGACGGCATACGAGATCGAGTAATGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID65	MAL_IL_v2_索引D702	CAAGCAGAAGACGGCATACGAGATTCTCCGGAGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID66	MAL_IL_v2_索引D703	CAAGCAGAAGACGGCATACGAGATAATGAGCGGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID67	MAL_IL_v2_索引D704	CAAGCAGAAGACGGCATACGAGATGGAATCTCGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID68	MAL_IL_v2_索引D705	CAAGCAGAAGACGGCATACGAGATTTCTGAATGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID69	MAL_IL_v2_索引D706	CAAGCAGAAGACGGCATACGAGATACGAATTCGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID70	MAL_IL_v2_索引D707	CAAGCAGAAGACGGCATACGAGATAGCTTCAGGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID71	MAL_IL_v2_索引D708	CAAGCAGAAGACGGCATACGAGATGCGCATTAGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID72	MAL_IL_v2_索引D709	CAAGCAGAAGACGGCATACGAGATCATAGCCGGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID73	MAL_IL_v2_索引D710	CAAGCAGAAGACGGCATACGAGATTTCGCGGAGTGAGTGATGGTTGAGGTAGTGTGGAG
			SEQID74	MAL_IL_v2_索引D711	CAAGCAGAAGACGGCATACGAGATGCGCGAGAGTGAGTGATGGTTGAGGTAGTGTGGAG
SEQID75	MAL_IL_v2_索引D712	CAAGCAGAAGACGGCATACGAGATCTATCGCTGTGAGTGATGGTTGAGGTAGTGTGGAG

实施例

实施例1

使用BWA MEM算法将测序读段与hg19人类参考基因组进行比对(Li H.和DurbinR.，2010)。

对照-FREEC(Boeva V.等人，2011)算法用于在没有对照样本的情况下获取拷贝数调用。读段计数通过GC含量进行校正，可映射性(uniqMatch选项)和窗口大小由软件使用变异系数＝0.06确定。相应地将主要倍性参数设置为测试的遗传物质的倍性，并且不使用污染调节。

CNA谱图由DEPArray^TM(Menarini Silicon Biosystems)分选的属于NCI-441和SW-480细胞系的两种单个细胞以及由DEPArray^TM分选的血单个细胞，循环肿瘤细胞(CTC)和白细胞(WBC)使用定制python脚本获得，如图4A和4B所示。

从图中可以看出，沿着22个常染色体描述了显著的增益和损失，以分选的肿瘤单个细胞中的绝对拷贝数表示。

倍性值在y轴上指示；为更好的谱的拟合提供分段数据(黑线)，并改善CNA调用。所评估的主要倍性以上的点可以认为是增益；评估的主要倍性以下的点可认为是损失。

另一方面，WBC正常细胞中没有预期的增益和损失。

实施例2

属于分解的FFPE切片的肿瘤单个细胞和50个基质细胞的群体通过DEPArray^TM(Menarini Silicon Biosystems)进行数字分选，并使用Ampli1^TM WGA试剂盒扩增全基因组。图5示出了通过以上公开的方法进行的低通全基因组测序结果。该图显示了拷贝数改变(CNA)谱，仅对肿瘤单个细胞有增益和损失。这些高质量的CNA谱表明，所提出的方法对DNA降解具有高度的可复原性，并且被证明是对FFPE组织中肿瘤异质性进行单一水平分子表征的可靠且有价值的方法。

实施例3

图6A和6B示出了方法之间和平台之间(IonTorrent和Illumina)的比较结果。

特别地，图6A示出了通过用于IonTorrent的低通全基因组测序方法(呈现在PCT/EP2017/059075中)和通过用于Illumina平台的根据本发明的方法获得的NCI-H23单个细胞的拷贝数改变(CNA)谱。通过这两个平台获得的结果彼此高度一致。

此外，基于CAN谱的NCI-H441和WBC单个细胞分层聚类表明，样本是按样本类型(肿瘤和正常)而非方法或平台进行聚类的(图6B)。

总之，用于IonTorrent的Ampli1^TM低通方法和用于Illumina测序平台的方法都显示出CNA谱的高度一致性。

尽管仅参考用于Ampli1^TM WGA的方法描述了本发明，但是对于本领域技术人员来说显而易见的是，所描述的技术经过必要的变更也适用于任何其他种类的包括具有自我互补的5'和3'区域的文库的WGA(例如MALBAC)。

在本发明的可供选择的实施方式中，可以对第一引物或第二引物(1PR和/或2PR)进行修饰，以使它们在该方法的至少一个步骤中在其5'端与固体支持物结合。

例如，第一引物(1PR)可以包含生物素化的5'端。在第一个PCR循环(步骤b)之后，将链霉亲和素包被的珠子添加到反应管中，捕获第一引物延伸的DNA文库片段，而不包含第一引物的未延伸的片段连同引物、dNTP和聚合酶被洗脱掉。在步骤c中，提供第二引物(2PR)(连同其他PCR试剂)并与第一引物延伸的DNA文库片段杂交，并使用留在管中的与珠子结合的DNA文库片段作为模板进行聚合，从而产生异型衔接子DNA片段。洗涤步骤c的反应混合物后，可以使用第三引物(3PR)和第四引物(4PR)(连同其他PCR试剂)在同一管中通过PCR(步骤d)进一步扩增异型衔接子。可供选择地，可以在单独的管中使用第三引物(3PR)和第四引物(4PR)使异型衔接子变性并从管中洗脱以进行进一步的PCR扩增(步骤d)。

作为另一个实例，第一引物(1PR)可以与磁珠共价结合。在第一个PCR循环后(步骤b)，将第一引物延伸的DNA文库片段与珠子结合并保留，而包含已知的3'序列区段(3SS)但不包含第一引物的非延伸片段被洗脱掉。在步骤c中，第二引物(2PR)与已知的3'序列区段(3SS)的第一引物延伸的DNA文库片段杂交，并使用留在管中的与珠子结合的DNA文库片段作为模板进行聚合，从而生成异型衔接子DNA片段。洗涤步骤c的反应混合物后，可以使用第三引物(3PR)和第四引物(4PR)在同一管中通过PCR进一步扩增异型衔接子(步骤d)。可供选择地，可以在单独的管中使用第三引物(3PR)和第四引物(4PR)使异型衔接子变性并从管中洗脱以进行进一步的PCR扩增(步骤d)。

这些实施方式的一个优点是，在该过程中没有引入与使用SPRIbeads有关的大小选择作用。这将允许在最终的可测序文库中表示长度小于和/或大于SPRIbeads通常保留的长度的片段。一个缺点是试剂盒试剂的复杂性增加，这是引物与珠子或生物素缀合所固有的。存在更大范围的片段可能是有益的，尤其是在以更高的深度进行全基因组测序以实现超越通过低通WGS进行全基因组范围拷贝数分析的完整测序时。

作为实施方式的又另一个实例，在第一个PCR循环中使用第一引物(1PR)(步骤b)之后，进行SPRI纯化以去除残留的第一引物，然后将缀合至磁珠的所述第二引物(2PR)(直接地通过共价键或间接地通过第二引物的生物素修饰和生物素-链霉亲和素与链霉亲和素包被的磁珠的相互作用)用于步骤c的所述单个PCR循环中，然后洗脱反应混合物和单衔接子片段的残留物，仅将所得的异型衔接子片段通过磁力保留在管中，然后继续进行步骤d-用所述第三引物(3PR)和第四引物(4PR)进行PCR扩增。

优点

根据本发明的生成大规模平行测序文库的方法允许以快速、有效、可靠和成本有效的方式获得仅包含需要这些测序平台的异型衔接子片段的文库。尤其重要的是，它允许通过简化的单日单管工作流程来生成双链DNA和测序就绪文库。

最后，应该强调低通全基因组测序相对于阵列CGH(aCGH)(当前研究CNV的领先技术)的优势。阵列CGH(aCGH)基于差异标记的测试和参考基因组DNA样品的使用，这些样品同时与排列在载玻片或其他固体平台上的DNA靶标杂交。然而，由于已经证明难以使用低质量/数量的DNA，因此对于某些应用仍然存在限制。此外，与aCGH相比，基于低通全基因组测序方法的染色体拷贝数评估可能具有多个优势，包括降低DNA测序成本，由于可能增加的染色体分析分辨率而增强对部分或分段非整倍性的检测，无控制地调用拷贝数变更。另外，测序文库制备的潜在自动化可以使人为错误最小化，减少动手时间并实现更高的通量和一致性。

Claims

1.一种生成大规模平行测序文库的方法，包括以下步骤：

a.提供基本WGA DNA文库(pWGAlib)，所述基本WGA DNA文库(pWGAlib)包括含有已知的5'序列区段(5SS)、中间序列区段(MSS)和与所述已知的5'序列区段反向互补的已知的3'序列区段(3SS)的片段，所述已知的5'序列区段(5SS)包括WGA文库通用序列衔接子，所述中间序列区段(MSS)至少包括插入区段(IS)，所述插入区段(IS)与WGA之前的原始未扩增DNA的DNA序列对应，所述中间序列区段(MSS)任选地另外包括侧翼5'中间区段(F5)和/或侧翼3'中间区段(F3)；

b.使用至少一种第一引物(1PR)对基本WGA DNA文库进行单个PCR循环，所述第一引物(1PR)至少包括第一引物5'区段(1PR5S)和第一引物3'区段(1PR3S)，所述第一引物5'区段(1PR5S)包含至少一个第一测序衔接子(1PR5SA)，所述第一引物3'区段(1PR3S)与所述已知的3'序列区段(3SS)杂交，从而获得第一引物延伸的WGA DNA文库；

c.使用至少一个第二引物(2PR)对所述第一引物延伸的WGA DNA文库进行单个PCR循环，所述第二引物(2PR)包括第二引物5'区段(2PR5S)和第二引物3'区段(2PR3S)，所述第二引物5'区段(2PR5S)包含与所述至少一个第一测序衔接子(1PR5SA)不同的至少一个第二测序衔接子(2PR5SA)，所述第二引物3'区段(2PR3S)与所述已知的3'序列区段(3SS)杂交，从而获得第一引物和第二引物延伸的WGA DNA文库；

d.使用至少一个包含所述第一测序衔接子(1PR5SA)的第三引物(3PR)和至少一个包含所述第二测序衔接子(2PR5SA)的第四引物(4PR)，通过PCR扩增所述第一引物和第二引物延伸的WGA DNA文库，从而获得扩增的第一引物和第二引物延伸的WGA DNA文库。

2.根据权利要求1所述的方法，其中，所述至少一种第一引物(1PR)在第一引物5'区段(1PR5S)的3'位置和第一引物3'区段(1PR3S)的5'位置中还包含至少一个读段测序引物序列(1PRSEQ)。

3.根据权利要求1或2所述的方法，其中，所述第一引物5'区段(1PR5S)在至少一个第一测序衔接子(1PR5SA)的3'位置和第一引物3'区段(1PR3S)的5'位置中还包含至少一个第一测序条形码(1PR5BC)，和/或所述第二引物5'区段(2PR5S)在至少一个第二测序衔接子(2PR5SA)的3'位置和第二引物3'区段(2PR3S)的5'位置中还包含至少一个第二测序条形码(2PR5BC)。

4.根据权利要求1至3中任一项所述的方法，还包括在步骤b之后纯化所述第一引物延伸的WGA DNA文库的步骤，和/或还包括在步骤c之后纯化所述第一引物和第二引物延伸的WGA DNA文库的步骤，和/或还包括在步骤d之后纯化所述扩增的第一引物和第二引物延伸的WGA DNA文库的步骤。

5.根据权利要求1至4中任一项所述的方法，其中，所述WGA文库通用序列衔接子是DRS-WGA文库通用序列衔接子或MALBAC文库通用序列衔接子。

6.根据权利要求5所述的方法，其中，所述WGA文库通用序列衔接子是DRS-WGA文库通用序列衔接子。

7.根据权利要求5或6所述的方法，其中，所述DRS-WGA文库通用序列衔接子是SEQ IDNO:50，所述MALBAC文库通用序列衔接子是SEQ ID NO:51。

8.一种用于低通全基因组测序的方法，包括以下步骤：

-提供根据权利要求3至7中任一项所述的方法获得的多个条形码化的大规模平行测序文库，并使用不同测序条形码(BC)池化获得的样品；

-对池化的文库进行测序。

9.根据权利要求8所述的用于低通全基因组测序的方法，其中，使用不同的测序条形码(BC)池化样品的步骤还包括以下步骤：

-对每个所述条形码化的大规模平行测序文库中的DNA进行定量；

-对所述条形码化的大规模平行测序文库的量进行标准化。

10.一种大规模平行测序文库制备试剂盒，包括：

-至少一种第一引物(1PR)，所述第一引物(1PR)至少包括第一引物5'区段(1PR5S)和第一引物3'区段(1PR3S)，所述第一引物5'区段(1PR5S)包含至少一个第一测序衔接子(1PR5SA)，所述第一引物3'区段(1PR3S)与已知的3'序列区段(3SS)杂交，所述已知的3'序列区段(3SS)与已知的5'序列区段(5SS)反向互补，所述已知的5'序列区段(5SS)包含基本WGA DNA文库(pWGAlib)的片段的WGA文库通用序列衔接子，所述片段进一步包含所述已知的5'序列区段(5SS)的3'以及所述已知的3'序列区段(3SS)的5'的中间序列区段(MSS)；

-至少一种第二引物(2PR)，所述第二引物(2PR)至少包含第二引物5'区段(2PR5S)和第二3'区段(2PR3S)，所述第二引物5'区段(2PR5S)包含与所述至少一个第一测序衔接子(1PR5SA)不同的至少一个第二测序衔接子(2PR5SA)，所述第二3'区段与所述片段的所述已知的3'序列区段(3SS)杂交；

-至少一种第三引物(3PR)，所述第三引物(3PR)包含所述第一测序衔接子(1PR5SA)；和

-至少一种第四引物(4PR)，所述第四引物(4PR)包含第二测序衔接子(2PR5SA)。

11.一种大规模平行测序文库制备试剂盒，包含：

a)一种或多种选自由SEQ ID NO:1至SEQ ID NO:12组成的组中的引物、一种或多种选自由SEQ ID NO:13至SEQ ID NO:20组成的组中的引物、以及引物SEQ ID NO:21和SEQ IDNO:22；

或

b)一种或多种选自由SEQ ID NO:27至SEQ ID NO:38组成的组中的引物、一种或多种选自由SEQ ID NO:39至SEQ ID NO:46组成的组中的引物、以及引物SEQ ID NO:21和SEQ IDNO:22；

c)一种或多种选自由SEQ ID NO:52至SEQ ID NO:63组成的组中的引物、一种或多种选自由SEQ ID NO:13至SEQ ID NO:20组成的组中的引物、以及引物SEQ ID NO:21和SEQ IDNO:22；

或

d)一种或多种选自由SEQ ID NO:64至SEQ ID NO:75组成的组中的引物、一种或多种选自由SEQ ID NO:39至SEQ ID NO:46组成的组中的引物、以及引物SEQ ID NO:21和SEQ IDNO:22。

12.一种低通全基因组测序试剂盒，包含：

a)至少一种选自由SEQ ID NO:1至SEQ ID NO:12组成的组中的引物；至少一种选自由SEQ ID NO:13至SEQ ID NO:20组成的组中的引物；引物SEQ ID NO:21和SEQ ID NO:22；以及SEQ ID NO:23的定制测序引物；

或

b)至少一种选自由SEQ ID NO:27至SEQ ID NO:38组成的组中的引物；至少一种选自由SEQ ID NO:39至SEQ ID NO:46组成的组中的引物；引物SEQ ID NO:21和SEQ ID NO:22；以及SEQ ID NO:47的引物；

或

c)至少一种选自由SEQ ID NO:52至SEQ ID NO:63组成的组中的引物；至少一种选自由SEQ ID NO:13至SEQ ID NO:20组成的组中的引物；引物SEQ ID NO:21和SEQ ID NO:22；SEQID NO:23的定制测序引物；以及选自由SEQ ID NO:24、SEQ ID NO:25和SEQ ID NO:26组成的组中的定制索引2引物；

或

d)至少一种选自由SEQ ID NO:64至SEQ ID NO:75组成的组中的引物；至少一种选自由SEQ ID NO:39至SEQ ID NO:46组成的组中的引物；引物SEQ ID NO:21和SEQ ID NO:22；以及SEQ ID NO:47的引物。

13.根据权利要求12所述的低通全基因组测序试剂盒，其中，可供选择地a)还包含选自由SEQ ID NO:24、SEQ ID NO:25和SEQ ID NO:26组成的组中的引物，以及可供选择地b)或可供选择地d)还包含SEQ ID NO:48。

14.根据权利要求13所述的低通全基因组测序试剂盒，其中，可供选择地b)或可供选择地d)还包含SEQ ID NO:49的引物。

15.一种用于全基因组拷贝数分析的方法，包括以下步骤：

-对使用权利要求10或11所述的测序文库制备试剂盒开发的DNA文库进行测序；

-分析基因组的不同区域中的测序读段深度；

-通过比较所述基因组的区域中的读段数相对于参考基因组的相同区域中预期的读段数来确定所述基因组的区域的拷贝数值。