CN114015751A

CN114015751A - 扩增基因组dna的方法、试剂盒及其获得扩增引物的方法

Info

Publication number: CN114015751A
Application number: CN202111248591.0A
Authority: CN
Inventors: 叶艳艳; 丁庆宇
Original assignee: Jiangsu Haibo Gene Technology Co ltd
Current assignee: Jiangsu Haibo Gene Technology Co ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-08

Abstract

本申请提供扩增基因组DNA的方法、试剂盒及获得简并碱基序列的方法，第一反应混合物包括：样本基因组DNA、第一引物和核酸聚合酶，第一引物从5’端到3’端包括：通用序列和简并碱基序列，简并碱基序列从5’端到3’端为2N+4N+HGCH，N和H为简并子集合，G和C为碱基，其中，N＝{A、T、C、G},H＝{A、T、C}；将第一反应混合物置于第一温度循环程序进行预扩增，获得预扩增产物；第二反应混合物包括预扩增产物、第二引物、第三引物和核酸聚合酶，第二引物是文库构建中的通用引物接头，第三引物是文库构建中的index引物接头；将第二反应混合物置于第二温度循环程序进行扩增，获得扩增产物。

Description

扩增基因组DNA的方法、试剂盒及其获得扩增引物的方法

技术领域

本发明涉及生物技术领域，更具体地，涉及扩增单细胞全基因组DNA的方法、试剂盒以及获得扩增引物的方法。

背景技术

细胞是生命体的基本单位。随着分子生物学技术的迅猛发展，单个细胞包含的核酸信息日益成为研究及临床应用热点，主要原因有：(1)样本宝贵或样本起始量低，如人类的卵细胞，生殖细胞，肿瘤循环细胞等。(2)来源于同一样本的不同单细胞基因组存在异质性，如肿瘤组织。因此需要获得该组织不同部位的单细胞基因组信息，而非整个组织的基因组信息。(3)当前的核酸检测技术如新一代测序(NGS，Next Generation Sequencing)、基因芯片(Microarray)、荧光定量PCR(Polymerase Chain Reaction，聚合酶链式反应)等均对待分析样本的起始量有较高的要求(100ng以上DNA)。因此，对于单个细胞(6pg左右DNA)或者少量起始量的样本，需要对单细胞的全基因组扩增从而获得足量用于分析的核酸物质。

目前在市面上或已发表的文献中的单细胞全基因组扩增(WGA，Whole GenomeAmplification)技术主要有：

1、PEP-PCR(Primer Extension Preamplification-Polymerase ChainReaction，扩增前引物延伸聚合酶链式反应)，使用15个碱基的随机引物进行PCR反应，首先在37℃退火温度下进行退火，随后缓慢升温至55℃进行长时间的引物延伸，如此反复多个循环，从而实现对全基因组的扩增；具体方法参见Zhang L,Cui X,Schmitt K,Hubert R,Navidi W,Arnheim N.1992.Whole genome amplification from a single cell:implications for genetic analysis.Proc Natl Acad Sci U S A.89(13):5847-51.。

2、DOP-PCR(Degenerate Oligonucleotide–Primed Polymerase ChainReaction，退变寡核苷酸引物聚合酶链式反应)，使用部分简并寡核苷酸引物进行PCR反应，首先使用25℃进行退火，随后再缓慢升温至引物延伸温度进行引物延伸，完成最初几个循环后，再使用55℃的退火温度进行多循环常规PCR反应，从而实现对全基因组的扩增；具体方法参见Telenius H,Carter NP,Bebb CE,Nordenskjo M,Ponder BA,TunnacliffeA.1992.Degenerate oligonucleotide-primed PCR:general amplification of targetDNA by asingle degenerate primer.Genomics13:718–25)。

3、MDA(Multiple Displacement Amplification，多重置换扩增)，在恒温30℃条件下，随机引物与模板DNA随机退火结合，随后在高保真、强链置换活性的噬菌体Phi29 DNA聚合酶作用下发生链置换扩增反应，被置换产生的单链产物又成为新的复制模板，再进行扩增，如此循环，最后产生大量片段大小为12kb～100kb的扩增产物；具体方法参见DeanFB,Nelson JR,Giesler TL,LaskenRS.2001.Rapid amplification of plasmid andphageDNA using phi29 DNA polymerase and multiply-primed rolling circleamplification.Genome Res.11:1095–99。

4、pWGA(Primer-based whole genome amplification，基于引物的全基因组扩增)，在恒温37℃条件下，T7 gp4在单链DNA模板上产生随机引物，随后在高保真、强链置换活性的噬菌体Phi29 DNA聚合酶作用下发生链置换扩增反应，被置换产生的单链产物又成为新的复制模板，再进行扩增，如此循环，最后产生大量片段大小为12kb～100kb的扩增产物；具体方法参见Ying Li,Hyun-Jin Kim,Chunyang Zheng,et al.2008.Primase-basedwhole genome amplification.Nucleic Acids Res.2008.36(13):e79.。

5、MALBAC(Multiple Annealing and Looping Based Amplification Cycles，多次退火环状循环扩增)，该技术添加了短的特殊的DNA分子(含35个核苷酸)作为引物，该引物由两部分组成：8个核苷酸的粘性部分变化多样，可与模板DNA随机组合，以及27个核苷酸组成一段共同的固定序列，通过将自身掺入到新拷贝链，从而自身成环，防止DNA过度拷贝；具体方法参见Zong C,Lu S,Chapman AR,Xie XS.2012.Genome-Wide Detection ofSingle Nucleotide and Copy Number Variations of a Single Human Cell.Science,338(6114):1622-6.以及PCT专利申请WO2012166425。

6、PicoPlex(Rubicon Genomics)，该技术添加了短的特殊的DNA分子作为引物，该引物由三部分组成，第一部分：通用引物区域，该区域包括13bp的测序通用接头；第二部分：低可变区域，可与模板DNA随机组合；第三部分：高可变区域包括0-6个碱基的随机引物,可与模板DNA随机组合，通过内循环条件实现DNA扩增与测序文库构建同时进行；具体方法参见US8206913B1。

7、Yikon genomics(亿康基因)，该技术添加了短的特殊的DNA分子作为引物，该引物由三部分组成，第一部分：通用引物区域，该区域包括13bp的测序通用接头；第二部分：低可变区域，可与模板DNA随机组合；第三部分：不变区域包括0-6个碱基，通过内循环条件实现DNA扩增与测序文库构建同时进行；具体方法参见CN105925675A。

但是目前主流的单细胞全基因组扩增方法，(1)在扩增效果和测序便利性方面，扩增效果好的扩增方法，操作过程较为繁琐，整个过程涉及多次试剂配制，开盖加液操作，增加了引入环境污染的风险；并且，该方法需要另行进行文库构建。一些不需要另行进行建库的扩增方法，直接扩增出测序文库，扩增产物在单核酸位点上的保真性差，只能用来对单细胞基因组的拷贝数进行分析，很多涉及核酸位点保真性的应用无法使用，扩增产物应用范围窄。(2)在时效性方面，目前的扩增实验过程需耗费4小时以上的时间，人员及仪器效率较低。对于临床上急需验证的样本，无法短时间内给出令人满意的结果。(3)在实操方面，目前的扩增方法，整个实验过程对操作人员的熟练程度要求较高，否则无法获得满意的扩增结果。因此，目前急需一种能够克服主流扩增方法的一个、多个或全部缺陷的改进的扩增方法。

发明内容

本发明的目的在于，提供一种扩增基因组DNA的方法、一种用于扩增基因组DNA的试剂盒以及一种获得扩增基因组DNA的扩增引物的方法。

本申请的第一方面，提供一种扩增基因组DNA的方法，所述方法包括：

(a)提供第一反应混合物，所述第一反应混合物包括：样本基因组DNA、第一引物和核酸聚合酶，所述第一引物从5’端到3’端包括：通用序列和简并碱基序列，所述简并碱基序列从5’端到3’端为2N+4N+HGCH，所述N和H为简并子集合，G和C为碱基，其中，N＝{A、T、C、G},H＝{A、T、C}；

(b)将所述第一反应混合物置于第一温度循环程序进行预扩增，获得预扩增产物；

(c)提供第二反应混合物，所述第二反应混合物包括：步骤(b)中获得的预扩增产物、第二引物、第三引物和核酸聚合酶，所述第二引物是文库构建中的通用引物接头，所述第三引物是文库构建中的index引物接头；

(d)将所述第二反应混合物置于第二温度循环程序进行扩增，获得扩增产物。

在一些实施方式中，所述简并碱基序列从5’端到3’端为2N+4K+HGCH、2N+4M+HGCH、2N+4Y+HGCH或2N+4R+HGCH中的一个或多个，所述N、K、M、Y、R和H为简并子集合，其中，N＝{A、T、C、G},K＝{T、G},M＝{A、C},Y＝{C、T},R＝{A、G},H＝{A、T、C}。2N表示2个碱基都来自简并子集合N的碱基，并且每个碱基都是A、T、C或G中的一个；4K表示4个碱基都是来自简并子集合K的碱基，并且每个碱基都是T或者G。

在一些实施方式中，所述简并碱基序列为在人类基因组DNA上分布均匀且间隔较短的识别位点或识别位点组合获得的权重值高的简并碱基设计的，所述简并碱基序列在扩增中的能够尽可能多的识别整个人基因组中的特定长度间隔的碱基组成，并与之结合启动核酸扩增反应。上述扩增反应能够在保证基因组覆盖度的同时，产生与测序平台要求的文库插入片段大小相匹配的扩增片段，从而降低单碱基的出错率。

进一步的，所述简并碱基序列的获得，包括步骤：

(S1)采集人类基因组DNA的内切酶及其识别位点，统计并筛选出在人类基因组DNA上分布均匀且间隔较短的内切酶或内切酶组合及其识别位点或识别位点组合；

(S2)将步骤S1中筛选出的内切酶或内切酶组合及其识别位点或识别位点组合进行汇总分析，筛选出权重值高的简并碱基来设计简并碱基序列，所述简并碱基序列为10bp，从而实现对人类基因组DNA的定点有效扩增。

进一步的，在步骤S1中，使用R程序语言程序包计算输入的内切酶识别位点,统计不同识别位点在人类基因组的分布、数量以及相邻识别位点间碱基的长度，筛选出在人类基因组DNA上分布均匀且间隔较短的、并且在人类基因组所有染色体均有分布的识别位点或识别位点组合，不同识别位点之间的碱基长度为40-300bp，识别位点或识别位点组合在每条染色体上的分布密度≥50个/1Mb，该识别位点或识别位点组合在整个基因组的覆盖度和不同基因功能区域的覆盖度均较高。

进一步的，在步骤S2中，获得第一引物中3’端的前4个碱基为在相应碱基位置上的权重高的简并碱基，为HGCH，所述H为简并子集合，H＝{A、T、C}，G和C为碱基。

进一步的，所述第一引物中5’端的6个碱基为通过碱基平衡策略获得的简并碱基，为2N+4K、2N+4M、2N+4Y或2N+4R，所述N、K、M、Y、R为简并子集合，G和C为碱基，其中，N＝{A、T、C、G},K＝{T、G},M＝{A、C},Y＝{C、T},R＝{A、G}。

在一些实施方式中，所述通用序列用于在预扩增产物的两端添加一段能够被第二引物和第三引物所识别的序列，从而方便使用PCR的手段将后续第二引物和第三引物添加到所述通用序列两端。

进一步的，所述通用序列与所述简并碱基序列直接相连，或者所述通用序列与简并碱基序列之间通过间隔序列相连，所述通用序列的长度范围在2bp-30bp，所述通用序列包含相同长度和组成的固定碱基序列，所述固定碱基序列为与测序平台中的文库接头的部分或者全部相同或者互补的序列。

进一步的，所述通用序列中的固定碱基序列，在illumina测序平台中包括：5’-GCTCTTCCGATCT-3’在life测序平台中包括：5’-GAT-3，在MGI测序平台中包括：5’-TCCGACTT-3’。

在一些实施方式中，所述第二引物的长度为20-80bp，所述第二引物用于将第二引物的5’端与测序平台匹配，能够直接进行测序反应、或/和将第二引物的3’端与所述第一引物的通用序列进行识别，对预扩增产物进行扩增。

进一步的，在测序文库为单index文库时，所述第二引物为固定序列的引物，在测序文库为双index文库时，所述第二引物为包含部分可变碱基序列的引物，在一些测序文库中，不区分单index文库和双index文库，所述第二引物为固定序列的引物；其中，所述可变碱基是index,index序列每一个样本都是不同的，一般的index序列长度为6bp、8bp、或者10bp。

进一步的，在illumina平台中单index文库中，所述第二引物包括：5’-AATGATACGGCGACCACCGAGATCTACACACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’(SEQ ID NO:1)，在illumina平台中双index文库中，所述第二引物包括：5’-AATGATACGGCGACCACCGAGATCTACACXXXXXXACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’；在MGI平台中单index文库中，所述第二引物包括：/5Phos/GAACGACATGGCTACGATCCGACTT-3’(SEQ ID NO:2)，在MGI平台中双index文库中，所述第二引物包括：/5phos/CTCTCAGTACGTCAGCAGTTXXXXXXXXXXCAACTCCTTGGCTCACAGAAC-3’；在life平台中，不区分单index文库和双index文库，所述第二引物包括：5’-CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGAT-3’(SEQ ID NO:3)；其中，X表示的碱基为可变碱基的位置及长度。

在一些实施方式中，所述第三引物的长度为20-80bp，所述第三引物用于将第三引物的5’端与测序平台匹配，能够直接进行测序反应、或/和将第三引物的3’端与所述第一引物中的通用序列进行识别，对预扩增产物进行扩增、或/和将第三引物自身携带一段包含6碱基、8碱基或10碱基的兼并序列，上机测序后可根据这段碱基的组成来区分不同的样本。

进一步的，所述第三引物为包含部分可变碱基序列的引物，其中，所述可变碱基是index,index序列每一个样本都是不同的，一般的index序列长度可以为6bp、8bp、或者10bp。

进一步的，在illumina平台中，所述第三引物包括：5’-CAAGCAGAAGACGGCATACGAGATXXXXXXGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’；在MGI平台中，所述第三引物包括：5’TGTGAGCCAAGGAGTTGXXXXXXXXXXTTGTCTTCCTAAGACCGCTTGGCCTCCGACTT-3’；在life平台中，所述第三引物包括：5’CCATCTCATCCCT*G*CGTGTCTCCGACTCAGXXXXXXXXXXGAT-3’；其中，X表示的碱基为可变碱基的位置及长度。

在一些实施方式中，所述核酸聚合酶具有热稳定性和/或链置换活性，所述核酸聚合酶包括：Phi29 DNA聚合酶、Bst DNA聚合酶、Pyrophage 3137、Vent聚合酶、TOPOTaq DNA聚合酶、9°Nm聚合酶、Klenow Fragment DNA聚合酶I、MMLV反转录酶、AMV反转录酶、HIV反转录酶、T7 phase DNA聚合酶变种、

超保真DNA聚合酶、Taq聚合酶、E.coli DNA聚合酶、LongAmp Taq DNA聚合酶、OneTaq DNA聚合酶、Deep Vent DNA聚合酶、Vent(exo-)DNA聚合酶、Deep Vent(exo-)DNA聚合酶、Psp GBD(exo-)DNA聚合酶、

DNA聚合酶的一个或多个。

进一步优选的，所述核酸聚合酶为具有热耐受和链置换性质的DNA聚合酶，所述核酸聚合酶包括：Bst 2.0DNA聚合酶、Psp GBD(exo-)DNA聚合酶、

超保真DNA聚合酶、Vent DNA聚合酶、Q5DNA Polymerases、

DNA Polymerases、Taq DNAPolymerases、

DNA Polymerases、Deep

(exo-)DNA Polymerase、Deep

(exo-)DNA Polymerase、Deep

DNA Polymerase、Hemo

(exo-)DNA Polymerase、

DNA Polymerase、Tth DNA聚合酶、Pfu DNA聚合酶、KOD DNA聚合酶、LA Taq DNA聚合酶、HotStart Taq DNA聚合酶、AmpliTaq Gold DNA聚合酶、Pyrobest^TM DNA聚合酶、Taq Plus DNA聚合酶、PrimerSTAR HS DNA聚合酶、

DNA聚合酶中的一个或多个。

在一些实施方式中，所述第一反应混合物和第二反应混合物还包括选自下组的一个或多个的组分：Mg²⁺、dTT、牛血清白蛋白、pH调节剂、DNase抑制剂、RNase、SO₄ ^2-、Cl^-、K⁺、Ca² ⁺、Na⁺、(NH₄)⁺。

在一些实施方式中，所述样本基因组DNA是细胞通过热裂解、碱裂解、酶裂解、机械裂解或化学裂解的方式获得，裂解后的细胞，细胞膜及核膜被破坏，同时缠绕在DNA上的组蛋白变性脱落，裸露的DNA分子为所述样本基因组DNA；所述细胞为人类细胞、动物细胞或细菌细胞，所述人类细胞包括：人类表皮细胞、人体外周血细胞、羊水细胞、单精子、癌细胞、卵细胞或受精卵。

进一步的，所述热裂解的细胞裂解剂包括：蛋白酶K、胃蛋白酶、木瓜蛋白酶、Protease、DTT、NP-40、吐温、SDS、TritonX-100、TrisHcl、EDTA、异硫氰酸胍中的一个或多个。

进一步的，所述1M TrisHcl的占比为1.5％-2.3％、5M NaCl的占比为0.5％-0.8％、100mM DTT的占比为12％-20％、0.5M EDTA的占比为0.3％-0.5％、10％triton X100的占比为1.5％-2％。

进一步的，所述热裂解的裂解温度为20-100℃，所述热裂解的裂解时间为10-100mins。

在一些实施方式中，在步骤(b)中，所述第一引物与样本基因组DNA结合，并在核酸聚合酶的作用下进行延伸和扩增以获得基因组预扩增产物，所述预扩增产物为两端都带有对应测序平台的所述通用序列。

所述第一引物的简并碱基序列为在人类基因组DNA上分布均匀且间隔较短的的识别位点或识别位点组合获得的权重值高的简并碱基设计的。上述设计能够在保证基因组覆盖度的同时，产生与测序平台要求的文库插入片段大小相匹配的扩增片段，从而降低单碱基的出错率。所述简并碱基序列在扩增中的作用是尽可能多的识别整个人基因组中的特定长度间隔的碱基组成，并与之结合启动核酸扩增反应。所述简并碱基的设计来源于遍布人类基因组上的限制性内切酶识别位点，选取一种或多种限制性内切酶位点可以有效控制基因组上识别位点之间的碱基长度，本方法中两个识别位点之间的碱基长度主要分布在40bp-300bp,短片段序列在PCR扩增和后续的测序反应中出错的概率较低。并且，本申请选用保真性高的核酸聚合酶，该聚合酶在PCR反应合成DNA模板时候具有较低的出错概率，错误率不超过10^-6。因此，有效的降低DNA合成过程中出错的概率。

进一步的，所述第一温度循环程序包括：

(b1)在90℃-98℃的温度之间变性1-10mins，将所述DNA双链打开，能够保证在打开DNA双链的同时，最大限度的减少长时间高温对DNA完整性的破坏；

(b2)在3-50℃温度间设置不同的温度梯度以利于第一引物与DNA模板结合，所述温度梯度包括：10-15℃间特定温度、20-25℃间特定温度、30-35℃间特定温度、40-45℃间特定温度、50-55℃间特定温度；

(b3)升温使与DNA模板结合的第一引物在DNA聚合酶的帮助下，以dNTP为原料向前延伸，延伸温度为50-90℃，延伸时间为1-15mins(考虑到聚合酶的延伸长度，延伸速率及错配率)；

(b4)升温使步骤b3中产生的延伸产物从DNA模板上脱落下来,脱落温度为90℃-98℃，时间为10-50sec；

(b5)重复步骤b2至b4，获得最大产量的预扩增产物；

在一些实施方式中，在步骤(d)中，所述第二引物和第三引物分别与所述预扩增产物的3’端结合，基因组扩增产物的3’端与所述第二引物与第三引物连接，并在核酸聚合酶的作用下进行延伸和扩增以得到基因组扩增产物，所述扩增产物的两端带有与测序平台搭配的碱基序列。

进一步的，所述第二温度循环程序包括：

(d1)在90℃-98℃的温度之间变性1-10mins，将所述DNA双链打开；

(d2)升温使与DNA模板结合的第二引物和第三引物在DNA聚合酶的帮助下，以dNTP为原料向前延伸，延伸温度为50-90℃，延伸时间为1-15mins；

(d3)升温使步骤d2中产生的延伸产物从DNA模板上脱落下来，脱落温度为90℃-98℃，时间为10-50sec；

(d4)重复步骤d2至d4，获得最大产量的扩增产物。

在一些实施方式中，所述扩增产物能够直接进行核酸检测，所述核酸检测包括：二代测序、CGH、SNP分型(Single Nucleotide Polymorphisms，单核苷酸多态性)、STR分型(Short Tandem Repeat，短串联重复序列)、基因克隆、荧光定量。

本申请的第二方面，提供一种用于扩增基因组DNA的试剂盒，所述试剂盒包括：第一引物、第二引物、第三引物和核酸聚合酶，所述第一引物从5’端到3’端包括：通用序列和简并碱基序列，所述简并碱基序列从5’端到3’端为2N+4N+HGCH，所述N和H为简并子集合，G和C为碱基，其中，N＝{A、T、C、G},H＝{A、T、C}；所述第二引物是文库构建中的通用引物接头，所述第三引物是文库构建中的index引物接头。

在一些实施方式中，所述简并碱基序列从5’端到3’端为2N+4K+HGCH、2N+4M+HGCH、2N+4Y+HGCH或2N+4R+HGCH中的一个或多个，所述N、K、M、Y、R和H为简并子集合，G和C为碱基，其中，N＝{A、T、C、G},K＝{T、G},M＝{A、C},Y＝{C、T},R＝{A、G},H＝{A、T、C}。

DNA聚合酶中的一个或多个。

超保真DNA聚合酶、Vent DNA聚合酶、Q5DNA Polymerases、

DNA Polymerases、Taq DNAPolymerases、

DNA Polymerases、Deep

(exo-)DNA Polymerase、Deep

(exo-)DNA Polymerase、Deep

DNA Polymerase、Hemo

(exo-)DNA Polymerase、

DNA聚合酶中的一个或多个。

在一些实施方式中，所述试剂盒还包括选自下组的一个或多个的组分：Mg²⁺、dTT、牛血清白蛋白、pH调节剂、DNase抑制剂、RNase、SO₄ ^2-、Cl^-、K⁺、Ca²⁺、Na⁺、(NH₄)⁺。

在一些实施方式中，所述试剂盒还包括热裂解的细胞裂解剂，所述热裂解的细胞裂解剂包括：蛋白酶K、胃蛋白酶、木瓜蛋白酶、Protease、DTT、NP-40、吐温、SDS、TritonX-100、TrisHcl、EDTA、异硫氰酸胍中的一个或多个。

在一些实施方式中，所述试剂盒用于构建全基因组DNA文库。

本申请的第三方面，提供一种获得扩增基因组DNA的扩增引物的方法，所述扩增引物与样本基因组DNA结合，并在核酸聚合酶的作用下进行延伸和扩增以获得基因组预扩增产物，所述扩增引物从5’端到3’端包括：通用序列和简并碱基序列，所述简并碱基序列从5’端到3’端为2N+4N+HGCH，所述N和H为简并子集合，G和C为碱基，其中，N＝{A、T、C、G},H＝{A、T、C}；所述简并碱基序列的获得，包括步骤：

在一些实施方式中，所述简并碱基序列为在人类基因组DNA上分布均匀且间隔较短的识别位点或识别位点组合获得的权重值高的简并碱基设计的，所述简并碱基序列在扩增中的能够尽可能多的识别整个人基因组中的特定长度间隔的碱基组成，并与之结合启动核酸扩增反应，能够在保证基因组覆盖度的同时，在测序过程中文库的插入片段大小相匹配，降低出错率。

进一步的，所述第一引物中5’端的6个碱基为通过碱基平衡策略获得的简并碱基，为2N+4K、2N+4M、2N+4Y或2N+4R，所述N、K、M、Y、R

为简并子集合，G和C为碱基，其中，N＝{A、T、C、G},K＝{T、G},M＝{A、C},Y＝{C、T},R＝{A、G}。

在一些实施方式中，所述通用序列与所述简并碱基序列直接相连，或者所述通用序列与简并碱基序列之间通过间隔序列相连，所述通用序列的长度范围在2bp-30bp，所述通用序列包含相同长度和组成的固定碱基序列，所述固定碱基序列为与测序平台中的文库接头的部分或者全部相同或者互补的序列。

与现有技术相比，本发明的有益效果在于：

(1)本申请扩增DNA的方法，能够直接扩增出测序文库，操作步骤简单，并且扩增产物的基因组覆盖度高，保真性高；本申请的简并碱基序列为在人类基因组DNA上分布均匀且间隔较短的识别位点或识别位点组合获得的权重值高的简并碱基设计的，所述简并碱基序列在扩增中的能够尽可能多的识别整个人基因组中的特定长度间隔的碱基组成，并与之结合启动核酸扩增反应，能够在保证基因组覆盖度的同时，在测序过程中文库的插入片段大小相匹配，降低出错率，因此保真性高。

(2)本申请扩增DNA的方法，扩增时间约为2个小时，与现有技术相比扩增时间缩短了一半。

(3)本申请的扩增产物，由于扩增产物的保真性高，扩增产物的的应用范围广，能够广泛用于二代测序、CGH、SNP分型、STR分型、基因克隆、荧光定量等多种应用。

附图说明

结合以下附图一起阅读时，将会更加充分地描述本申请内容的上述和其他特征。可以理解，这些附图仅描绘了本申请内容的若干实施方式，因此不应认为是对本申请内容范围的限定。通过采用附图，本申请内容将会得到更加明确和详细地说明。

图1为本申请的核酸全基因组扩增操作步骤的示意图。

图2为本申请的简并碱基在人类基因组上的分布及频率。

图3为本申请实施例2的扩增产物的凝胶电泳结果图。

图4为本申请实施例3的扩增产物的凝胶电泳图。

图5为本申请实施例3的扩增产物的拷贝数变异系数。

图6为本申请实施例3的扩增产物的拷贝数图形结果。

图7为本申请实施例4的多重PCR反应扩增产物琼脂糖凝胶检测产物条带。

具体实施方式

描述以下实施例以辅助对本申请的理解，实施例不是也不应当以任何方式解释为限制本申请的保护范围。

下列实施例中未注明具体条件的实验方法，按照常规实验条件，例如Sambrook等人的分子克隆实验室手册(New York:Cold Spring Harbor Laboratory Press，1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。除非有特别说明，否则实施例所用的材料均为市售产品。

实施例1：获得第一引物的简并碱基序列

(1)核酸内切酶识别位点采集

收集已报道的核酸限制性内切酶以及每一种核酸内切酶对应的识别位点，尽可能多的寻找人类基因组上的识别位点，包含但不限于从以下网址获得的限制性核酸及其识别位点，网址为https://enzymefinder.neb.com/#！#nebheader，本申请的检索日期为2021年09月10日。

(2)核酸内切酶识别位点的计算及筛选

加载人类基因组参考序列(hg19基因组),使用R程序语言程序包DECIPHER V2.0软件计算输入的内切酶识别位点,统计不同识别位点在人类基因组的分布、数量以及相邻识别位点间碱基的长度。然后进行筛选，设置筛选标准为：1、识别位点可以为一种或大于等于两种的组合；2、两个相同或不同的识别位点间碱基长度介于40-300bp之间，设置此条件是为获得合适文库长度，从而与测序仪搭配；3、所有识别位点在人基因组所有染色体均有分布，每条染色体分布密度不低于50个/1Mb，这些筛选标准是为筛选出合适长度和密度的识别位点或识别位点组合，共筛选出5个内切酶组合及其识别位点或识别位点组合。

筛选出5个内切酶组合，分别统计了其在整个人类基因组的整体覆盖度和不同基因功能区域的覆盖度。具体覆盖度计算结果见表1，表1为筛选出5个内切酶组合的覆盖度统计表。

表1：筛选出的5个内切酶组合的覆盖度统计表

由表1可知，筛选出的5个内切酶组合在在整个人类基因组的整体覆盖度和不同基因功能区域的覆盖度均较高。如在基因编码区、内切酶组合2、内切酶组合3、内切酶组合4都拥有接近或超过50％的覆盖度。因此，将上述筛选出的5个内切酶组合及其识别位点进行后续的统计分析，以提取及设计出简并碱基序列。

(3)提取及设计简并碱基序列

将上一步筛选出的5个限制性核酸内切酶组合及其识别位点进行汇总分析，获得在简并碱基序列3’端的前4个碱基可能存在的组合，详细的汇总分析结果见表2，表2为筛选出5个内切酶组合在碱基位置上的权重值统计表。

表2：筛选出5个内切酶组合在碱基位置上的权重值统计表

从表2的结果可知，在第一个碱基位置上，ATC三个碱基对应的权重值为80％，因此，该位置识别位点为简并碱基H的可能性高。在第二个碱基位置上，G碱基对应的权重值为80％，因此，该位置识别位点为碱基G的可能性高。在第三个碱基位置上，C碱基对应的权重值为60％，因此，该位置识别位点为碱基C的可能性高。在第四个碱基位置上，ATC三个碱基对应的权重值为80％，因此，该位置识别位点为碱基H的可能性高。需要指出的是第二位和第三位的碱基组成中分别存在C和G，为了降低引物之间出现二聚体的可能性，第二位的C和第三位的G不纳入简并碱基的设计范围内，从而获得了简并碱基序列的3’端的前4个碱基的组合为HGCH。

另外，引物在与DNA模板结合时为了获得稳定的结合能力，通常需要保持一定的长度。按照PCR经验，此长度通常不低于10bp的碱基。因此，在上述4个碱基的5’端后最少要再设计6个碱基才能满足PCR反应的需求。我们在6个碱基中使用了碱基平衡策略，也就是在四个连续碱基位置上选取简并碱基K,M,Y,R，每一个碱基位上K,M,Y,R四种简并碱基的组合可以获得ATCG平衡的碱基组成。此外，考虑到测序中尽量减少潜在不平衡碱基原则，在整个可变碱基序列5’端的前两个位置填充随机碱基N。因此，通过本次分析获得的第一引物的简并碱基序列从5’端到3’端为2N+4K+HGCH、2N+4M+HGCH、2N+4Y+HGCH或2N+4R+HGCH，所述N、K、M、Y、R和H为简并子集合，G和C为碱基，其中，N＝{A、T、C、G},K＝{T、G},M＝{A、C},Y＝{C、T},R＝{A、G},H＝{A、T、C}。其中，图2为获得的简并碱基在人类基因组上的分布及频率。

实施例2：使用正常人外周血细胞进行DNA扩增建库,并在illumina平台上进行技术验证

(1)Genomics DNA提取

使用血液提取试剂盒(Qiagen，货号51104)对获取的两个正常人外周血的血液样本DNA进行提取。取200ul新鲜的血液样本，添加20ul的蛋白酶K，56℃条件下孵育10分钟，后续操作严格按照试剂盒说明书进行。提取后的洗脱缓冲液分两次加入，每次加入40ul,总量80ul，取1微升纯化产物使用Qubit dsDNA HS定量检测试剂盒(本试剂盒购买自赛默飞，货号Q266241-2000T)检测纯化产物浓度。浓度检测结果见表3，表3为2个样本进行DNA提取后的浓度检测表。

表3：2个样本进行DNA提取后的浓度检测表

样本名称	样本体积ul	样本浓度ng/ul	洗脱体积ul	DNA总量(ng)
					Sample 1	200	87.4	80	6,992
Sample 2	200	48.2	80	3,856

(2)Genomics DNA预扩增

使用Sample 1样本作为基因组模板。取1ul Sample 1样本，添加86.4ul的水。获得稀释后的样本浓度为1ng/ul，取1ul稀释样本添加99ul的水震荡混匀获得10pg/ul的基因组稀释样品。1ul该浓度值包含的DNA为10pg,该质量值与单细胞基因组DNA的质量值(6.6pg)接近。因此，可以使用10pg的Sample 1稀释产物来模拟本发明在单细胞基因组水平的扩增效果。Sample 1的Genomic DNA来源于试剂盒提取，该DNA中原本存在的组蛋白等细胞内蛋白成分已被有效去除。因此，不需要细胞的裂解过程，可以直接从DNA的预扩增程序开始进行单细胞扩增。选取稀释到10pg/ul的Sample 1样本，制作4个重复(每个样本添加10pg/ul的Sample 1样本1ul)。每个样本添加第一反应混合液(预扩增反应混合液)，第一反应混合液的第一引物为5’-GCTCTTCCGATCT+2N+4K+HGCH-3’、5’-GCTCTTCCGATCT+2N+4M+HGCH-3’、5’-GCTCTTCCGATCT+2N+4Y+HGCH-3’和5’-GCTCTTCCGATCT+2N+4R+HGCH-3’组成的引物混合物，第一引物满足此要求即可，可由引物合成公司按此要求合成，例如，第一引物为由5’-GCTCTTCCGATCT+AT+GTGT+TGCA-3’、5’-GCTCTTCCGATCT+GC+CACA+AGCT-3’、5’-GCTCTTCCGATCT+CG+TCTC+AGCT-3’和5’-GCTCTTCCGATCT+TA+AGAG+AGCT-3’组成；聚合酶为Deep

(exo-)DNA Polymerase，其他组分为20mM Tris-HCl、10mM(NH₄)₂SO₄、10mM KCl、2mM MgSO₄、0.1％

X-100。将各实验组的反应混合液置于如下第一温控程序进行反应：

本反应体系中每个实验组中的第一引物的总量不低于480皮摩尔，该引物总量可以为一种或多种引物的组合。

(3)Genomics DNA扩增

在上一步获得的Genomic DNA预扩增产物中添加(第二反应混合液)扩增混合液，并将各实验组的反应混合液置于如下第二温控程序进行反应：

每个实验组中均使用第二引物和第三引物，反应中每一种引物的总量不低于5皮摩。在illumina平台单index文库中第二引物和第三引物分别为：5’-AATGATACGGCGACCACC GAGATCTACACACACTCTTTCCCTACACGAC

-3’、5’-CAAGCAGAAGACGGCATACGAGAT

GTGACTGGAGTTCAGACGTGT

-3’。第二引物中单实线标识的碱基是illumina平台识别测序文库所必须的。第二类引物中双实线标识的碱基为通用引物序列。第三类引物中的单虚线是illumina平台识别测序文库所必须的。第三类引物中的波浪线标识的碱基为第三类引物的可变碱基序列。第三类引物中的加粗单虚线标识的碱基为通用引物序列。

(4)琼脂糖凝胶电泳检测扩增产物片段

取5ul未纯化的扩增产物添加1ul 6x的Gel Loading Dye,Purple(6X)(NEB，B7021S),将混有染料的DNA样品添加到1.5％的琼脂糖凝胶上。110V电压，1.5A电流条件下运行45分钟。DNA marker(上海翊圣生物科技有限公司，货号10501ES60)添加量为8ul。凝胶电泳的结果见图3，图3显示4个样品中均存在明显的扩增产物，产物片段大小集中在200-500bp之间。

(5)扩增产物浓度及文库总量检测

取50微升未纯化的扩增产物，使用0.9X磁珠(45ul磁珠)对扩增产物中的DNA进行回收(磁珠购自贝克曼库尔特商贸(中国)有限公司，货号A63880，详细操作步骤按照磁珠提供的说明书进行)。使用22微升EB洗脱。取1微升纯化产物使用Qubit dsDNA HS定量检测试剂盒(本试剂盒购买自赛默飞，货号Q266241-2000T)检测纯化产物浓度。浓度检测结果如下所示：

名称	浓度ng/ul	洗脱体积	文库总量(ng)
				ill_1_1	71.8	22	1579.6
ill_1_2	61.2	22	1346.4
				ill_1_3	61.2	22	1346.4
ill_1_4	64.2	22	1412.4

(6)基本测序数据分析

取上述纯化后的4个实验组的扩增产物，按照每个样品2Mb reads的标准在illumina基因测序仪(illumina，MiSeq)上进行测序，并将测序得到的序列比对到人类参考基因组上。得到表4的实施例2的文库质量分析表。

表4：实施例2的文库质量分析表

在二代测序中文库质量是否高主要体现在三个方面:1)高质量reads比例；2)唯一比对reads在原始数据的比例；3)Reads重复率。本发明产物的实际平均测序数据量为1.63Mb。1、高质量reads比例：该参数是衡量测序文库质量的重要指标，体现了输入文库中能够被测序仪识别并测序的比例，本发明扩增产物的高质量reads比例平均值为96％，说明本发明中绝大部分的文库产物是可以被测序仪识别并读取的。2、唯一比对reads在原始数据的比例：该参数衡量了读取的高质量数据可以唯一比对到人类基因组上的reads在所有测序reads中所占的比例。该参数体现了测序文库中有效reads在整个文库中所占的比例，本发明扩增产物的唯一比对reads在原始数据的比例的平均值为75％。3、Reads重复率:该参数体现了测序文库的多样性，该参数越低表明文库的多样性越好，本发明扩增产物的Reads重复率的平均值为2.90％。

实施例3：使用HaCaT人正常皮肤细胞进行DNA扩增建库,并在MGI平台上进行技术验证

(1)细胞裂解

待测样本为HaCaT人正常皮肤细胞的单细胞，本细胞为贴壁生长的细胞。贴壁细胞的解离过程使用0.25％胰蛋白酶在37℃条件下处理15分钟(赛默飞，15050-065)。收集解离的单细胞悬浮液，1200rcf离心15分钟，吸弃上层培养液，保留下方沉淀的细胞层。使用1x的PBS溶液冲洗2-3次获取的细胞沉淀层。冲洗完成后加入1x的PBS使细胞悬浮。用移液器20微升包含细胞的悬浮液，在40x显微镜下使用口吸管挑取单细胞，吸取的包含单细胞的PBS溶液体积不超过0.5微升.将吸取的单细胞转移进入包含4.5微升裂解缓冲液(含有TrisHcl，NaCl，DTT，EDTA，triton X100和蛋白酶)的0.2mlPCR管内。掌式离心机短暂离心后将PCR管置于PCR仪上执行裂解程序:

(2)基因组预扩增

选取8个经过裂解处理的HaCaT人正常皮肤单细胞，添加第一反应混合物(预扩增混合液)，第一反应混合液的第一引物为5’-GCTCTTCCGATCT+2N+4K+HGCH-3’、5’-GCTCTTCCGATCT+2N+4M+HGCH-3’、5’-GCTCTTCCGATCT+2N+4Y+HGCH-3’和5’-GCTCTTCCGATCT+2N+4R+HGCH-3’组成的引物混合物，第一引物满足此要求即可，可由引物合成公司按此要求合成，例如，第一引物为由5’-GCTCTTCCGATCT+AT+GTGT+TGCA-3’、5’-GCTCTTCCGATCT+GC+CACA+TGCA-3’、5’-GCTCTTCCGATCT+CG+TCTC+TGCA-3’和5’-GCTCTTCCGATCT+TA+AGAG+AGCT-3’组成；聚合酶为Deep

其中每个实验组中使用的第一类引物的总量不低于480皮摩尔，该引物总量可以为一种或多种引物的组合。

(3)基因组扩增

在上一步获得的HaCaT人正常皮肤细胞单细胞预扩增产物中添加第二反应混合物(扩增混合液)，并将各实验组的反应混合液置于如下第二温控程序进行反应：

每个实验组中均使用第二引物和第三引物，反应中每一种引物的总量不低于5皮摩。在MGI平台中第二引物和第三引物分别为：5’-

-3’和5’-

TTGTCTTCCTAAGACCGCTTGGCCTCCGACTT-3’；波浪线标识的碱基是后续MGI平台测序文库上机前环化过程中必须的。双实线标识的碱基是后续MGI平台测序文库上机前环化过程中必须的。单实线标注的碱基为与测序平台的测序序列对应的部分。以单虚线标识的碱基为第三引物的可变碱基序列。

(4)扩增产物浓度及文库总量

取60微升未纯化的扩增产物，使用0.9X磁珠(54ul磁珠)对扩增产物中的DNA进行回收(磁珠购自贝克曼库尔特商贸(中国)有限公司，货号A63880，详细操作步骤按照磁珠提供的说明书进行)。使用22微升EB洗脱。取1微升纯化产物使用Qubit dsDNA HS定量检测试剂盒(本试剂盒购买自赛默飞，货号Q266241-2000T)检测纯化产物浓度。浓度检测结果如下所示：

(5)凝胶电泳检测扩增产物片段

分别取1微升纯化的扩增产物稀释到1ng/ul，在5200片段分析仪系统上检测扩增产物片段大小(安捷伦，货号M5310AA)，电泳图请参见图4。其中每幅图的LM代表low marker(1bp),UM代表up marker(6000bp)。八个扩增产物的长度分布范围为200-800bp之间，主峰集中400bp。

(6)基本测序数据分析

取上述纯化后的8个实验组的扩增产物，按照每个样品2Mb reads的标准在MGISEQ-200基因测序仪(华大智造，货号MGISEQ-200RS)上进行测序，并将测序得到的序列比对到人类参考基因组上。得到表5的实施例3的文库质量分析表。

表5：实施例3的文库质量分析表

在二代测序中一个文库质量是否高主要体现在三个方面:1)高质量reads比例；2)唯一比对reads在原始数据的比例；3)Reads重复率。本发明扩增产物的实际平均测序数据量为2.3Mb。1、高质量reads比例：该参数是衡量测序文库质量的重要指标，体现了输入文库中能够被测序仪识别并测序的比例，扩增产物的高质量reads比例的平均值为97％，说明本发明中绝大部分的文库产物是可以被测序仪识别并读取的。2、唯一比对reads在原始数据的比例：该参数衡量了读取的高质量数据可以唯一比对到人类基因组上的reads在所有测序reads中所占的比例。该参数体现了测序文库中有效reads在整个文库中所占的比例，扩增产物的唯一比对reads在原始数据的比例的平均值为72％。3、Reads重复率:该参数体现了测序文库的多样性，该参数越低表明文库的多样性越好，扩增产物的Reads重复率的平均值为3.27％。

此外，我们以8个样品以自身为参考系，进行了拷贝数变异系数分析，8个样品的拷贝数变异系数见图5，8个样品的拷贝数图形结果见图6。结果显示，8个样品的拷贝数变异系数的平均值为0.071，最高值为0.083，最低值为0.063，由此可见，8个样品之间拷贝数变异系数无明显的统计学差异。结果表明分析相同来源样品时，不同实验组之间的重复性较好。

实施例4：扩增产物位点保真性分析

选取中国人高发的9种疾病基因上下游2Mb范围内单核苷酸多态性位点验证扩增产物的保真性，每种基因选择上下游共10个多态性位点，9种基因合计选择90个单核苷酸多态性位点。

(1)选取的致病基因信息如下：

(2)致病基因对应的上下游单核苷酸多态性位点扩增引物：

(3)多重PCR反应

本次实验中将上述90对引物按照等摩尔量的方式将所有引物合并在一起。合并后的引物称为多重PCR引物混合物。使用细胞系基因组提取试剂盒Blood&Cell Culture DNAMini Kit(25)(Qiagen,货号13323)提取HaCaT人正常皮肤细胞的genomics DNA.HaCaT人正常皮肤细胞的Genomic DNA在本研究中定义为Bulk样品(对照组，金标准)。选择实施例3中的三个单细胞扩增样品(1_1,1_2，1_3)作为实验组样品开展多重PCR反应。每个样品做两个重复。检查多重PCR反应产物90个单核苷酸位点的保真性。

多重PCR反应体系如下：

组分	体积
		2x KAPA HiFi HotStart ReadyMix PCR Kit(货号KK2625)	25ul
重PCR引物混合物	10ul
		模板(30ng/ul)	4ul
水	11ul
		总体积	50ul

多重PCR反应热循环程序如下：

(4)多重PCR反应扩增产物琼脂糖凝胶检测产物条带

取5ul未纯化的扩增产物添加1ul 6x的Gel Loading Dye,Purple(6X)(NEB，B7021S),将混有染料的DNA样品添加到1.5％的琼脂糖凝胶上。110V电压，1.5A电流条件下运行45分钟。DNA marker(上海翊圣生物科技有限公司，货号10501ES60)添加量为8ul。凝胶电泳的结果见图7，显示gDNA和单细胞样品中均存在明显的多重PCR扩增产物。

(5)多重PCR反应扩增产物纯化后浓度

45ul扩增产物使用2.7X磁珠(121.5ul磁珠)对扩增产物中的DNA进行回收(磁珠购自贝克曼库尔特商贸(中国)有限公司，货号A63880，详细操作步骤按照磁珠提供的说明书进行)。上述磁珠筛选比例可以把100bp一下的引物混合物去除。使用52微升EB洗脱。取1微升纯化产物使用Qubit dsDNA HS定量检测试剂盒(本试剂盒购买自赛默飞，货号Q266241-2000T)检测纯化产物浓度。浓度检测结果如下：

序号	样品名称	扩增产物浓度(ng/ul)
			1	1_1_R1	198.302
2	1_1_R2	201.002
			3	1_2_R1	206.523
4	1_2_R2	196.473
			5	1_3_R1	199.695
6	1_3_R2	198.302
			7	Bulk_R1	193.725
8	Bulk_R2	202.976

(6)基本测序数据分析

对扩增产物进行测序，并将测序得到的序列比对到人类参考基因组上。得到表6的实施例4的文库质量分析表。

表6：实施例4的文库质量分析表

二代测序中SNP文库质量主要体现在二个方面:1)高质量reads比例；2)每个SNP位点的覆盖深度；本次测序要求2Mb reads。本发明扩增产物的实际平均测序数据量为2.27Mb。1、高质量reads比例：该参数是衡量测序文库质量的重要指标，体现了输入文库中能够被测序仪识别并测序的比例，本实验中扩增产物的高质量reads比例的平均值为98％，说明本发明中绝大部分的文库产物是可以被测序仪识别并读取的。单细胞扩增产物与gDNA为模板的样本对比无统计学差异。2、测序深度值。本实验中测序深度超过30X的SNPs位点个数占整个SNPs的位点的比例的平均值为34.25％，测序深度超过30X的SNPs位点个数占整个SNPs的位点的比例的平均值为31.92％，单细胞扩增产物与gDNA为模板的样本对比无统计学差异。

(7)SNP测序数据保真性分析

本发明通过将gDNA中检测到的SNP与单细胞产物中检测到的SNP对比来衡量本发明的保真性，保真性结果见表7。本实验共设计90对SNP扩张引物。衡量扩增方法的保真性主要从以下几个方面来进行：1)在gDNA和单细胞产物中可检测的SNPs个数：本研究中两个gDNA中可检测到的SNP个数均为82，位点覆盖度为91％。在单细胞产物中除1_1_R1样本检测到72个样本，位点覆盖率为80％外。其余5个样本的位点覆盖度均超过91％。值得注意的是1_1_R2，1_2_R1，1_3_R2，三个样本检测到的位点均为83，覆盖度超过92％。这样的覆盖度比gDNA中还高。这是由于本发明在某些位点的偏好性或多重PCR扩增错误造成的。后续分析中这些位点不纳入统计。2)金标准gDNA为杂合，单细胞产物为纯和的SNPs个数：此指标反映了单细胞产物的等位基因脱扣比例(ADO,allele drop out)。本方法检测的6个样本中均未发现ADO现象。3)多重PCR扩增在单细胞产物中检测到的与金标准gDNA匹配的杂合SNPs/多重PCR扩增在金标准gDNA中检测到的杂合SNPs个数。该指标反映了本发明在杂合位点的覆盖度和保真性。结果表明在金标准gDNA检测到的41，42个杂合位点(取均值41.5)中，单细胞产物中超过88％的杂合位点都能与金标准保持一致。

表7：扩增产物的保真性检测结果

尽管本申请已公开了多个方面和实施方式，但是其它方面和实施方式对本领域技术人员而言将是显而易见的，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。本申请公开的多个方面和实施方式仅用于举例说明，其并非旨在限制本申请，本申请的实际保护范围以权利要求为准。

序列表

<110> 江苏海伯基因科技有限公司

<120> 扩增DNA的方法、试剂盒及其获得扩增引物的方法

<141> 2021-10-26

<160> 3

<170> SIPOSequenceListing 1.0

<210> 1

<211> 62

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

aatgatacgg cgaccaccga gatctacaca cactctttcc ctacacgacg ctcttccgat 60

ct 62

<210> 2

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

gaacgacatg gctacgatcc gactt 25

<210> 3

<211> 41

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

ccactacgcc tccgctttcc tctctatggg cagtcggtga t 41

Claims

1.一种扩增基因组DNA的方法，其特征在于，所述方法包括：

(a)提供第一反应混合物，所述第一反应混合物包括：样本基因组DNA、第一引物和核酸聚合酶，所述第一引物从5’端到3’端包括：通用序列和简并碱基序列，所述简并碱基序列从5’端到3’端为2N+4N+HGCH所述N和H为简并子集合，G和C为碱基，其中，N＝{A、T、C、G},H＝{A、T、C}；

2.如权利要求1所述的扩增基因组DNA的方法，其特征在于，包括选自下组的一个或多个特征：

(1)所述简并碱基序列从5’端到3’端为2N+4K+HGCH、2N+4M+HGCH、2N+4Y+HGCH或2N+4R+HGCH中的一种或多种，所述K、M、Y和R为简并子集合，其中，K＝{T、G},M＝{A、C},Y＝{C、T},R＝{A、G}；

(2)所述简并碱基序列为在人类基因组DNA上分布均匀且间隔较短的识别位点或识别位点组合获得的权重值高的简并碱基设计的，所述简并碱基序列在扩增中的能够尽可能多的识别整个人基因组中的特定长度间隔的碱基组成，并与之结合启动核酸扩增反应，能够在保证基因组覆盖度的同时，在测序过程中文库的插入片段大小相匹配。

3.如权利要求2所述的扩增基因组DNA的方法，其特征在于，所述简并碱基序列的获得，包括步骤：

4.如权利要求3所述的扩增基因组DNA的方法，其特征在于，包括选自下组的一个或多个特征：

(1)在步骤S1中，使用R程序语言程序包计算输入的内切酶识别位点,统计不同识别位点在人类基因组的分布、数量以及相邻识别位点间碱基的长度，筛选出在人类基因组DNA上分布均匀且间隔较短的、并且在人类基因组所有染色体均有分布的识别位点或识别位点组合，不同识别位点之间的碱基长度为40-300bp，识别位点或识别位点组合在每条染色体上的分布密度≥50个/1Mb，该识别位点或识别位点组合在整个基因组的覆盖度和不同基因功能区域的覆盖度均较高；

(2)在步骤S2中，获得第一引物中3’端的前4个碱基为在相应碱基位置上的权重高的简并碱基，所述第一引物中5’端的6个碱基为通过碱基平衡策略获得的简并碱基。

5.如权利要求1所述的扩增基因组DNA的方法，其特征在于，包括选自下组的一个或多个特征：

(1)所述通用序列用于在预扩增产物的两端添加一段能够被第二引物和第三引物所识别的序列，从而方便使用PCR的手段将后续第二引物和第三引物添加到所述通用序列两端；

(2)所述第二引物的长度为20-80bp，所述第二引物用于将第二引物的5’端与测序平台匹配，能够直接进行测序反应、或/和将第二引物的3’端与所述第一引物的通用序列进行识别，对预扩增产物进行扩增；

(3)所述第三引物的长度为20-80bp，所述第三引物用于将第三引物的5’端与测序平台匹配，能够直接进行测序反应、或/和将第三引物的3’端与所述第一引物中的通用序列进行识别，对预扩增产物进行扩增、或/和将第三引物自身携带一段包含6碱基、8碱基或10碱基的兼并序列，上机测序后可根据这段碱基的组成来区分不同的样本；

(4)所述核酸聚合酶具有热稳定性和/或链置换活性，所述核酸聚合酶包括：Phi29 DNA聚合酶、Bst DNA聚合酶、Pyrophage 3137、Vent聚合酶、TOPOTaq DNA聚合酶、9°Nm聚合酶、Klenow Fragment DNA聚合酶I、MMLV反转录酶、AMV反转录酶、HIV反转录酶、T7 phase DNA聚合酶变种、

超保真DNA聚合酶、Taq聚合酶、E.coli DNA聚合酶、LongAmp TaqDNA聚合酶、OneTaq DNA聚合酶、Deep Vent DNA聚合酶、Vent(exo-)DNA聚合酶、Deep Vent(exo-)DNA聚合酶、Psp GBD(exo-)DNA聚合酶、

DNA聚合酶中的一个或多个；

(5)所述第一反应混合物和第二反应混合物还包括选自下组的一个或多个的组分：Mg² ⁺、dTT、牛血清白蛋白、pH调节剂、DNase抑制剂、RNase、SO₄ ^2-、Cl^-、K⁺、Ca²⁺、Na⁺、(NH₄)⁺；

(6)所述样本基因组DNA是细胞通过热裂解、碱裂解、酶裂解、机械裂解或化学裂解的方式获得，裂解后的细胞，细胞膜及核膜被破坏，同时缠绕在DNA上的组蛋白变性脱落，裸露的DNA分子为所述样本基因组DNA；所述细胞为人类细胞、动物细胞或细菌细胞，所述人类细胞包括：人类表皮细胞、人体外周血细胞、羊水细胞、单精子、癌细胞、卵细胞或受精卵；

(7)在步骤(b)中，所述第一引物与样本基因组DNA结合，并在核酸聚合酶的作用下进行延伸和扩增以获得基因组预扩增产物，所述预扩增产物为两端都带有对应测序平台的所述通用序列；

(8)在步骤(d)中，所述第二引物和第三引物分别与所述预扩增产物的3’端结合，基因组扩增产物的3’端与所述第二引物与第三引物连接，并在核酸聚合酶的作用下进行延伸和扩增以得到基因组扩增产物，所述扩增产物的两端带有与测序平台搭配的碱基序列。

6.如权利要求5所述的扩增基因组DNA的方法，其特征在于，包括选自下组的一个或多个特征：

(1)所述通用序列与所述简并碱基序列直接相连，或者所述通用序列与简并碱基序列之间通过间隔序列相连，所述通用序列的长度范围在

2bp-30bp，所述通用序列包含相同长度和组成的固定碱基序列，所述固定碱基序列为与测序平台中的文库接头的部分或者全部相同或者互补的序列；

(2)所述核酸聚合酶为具有热耐受和链置换性质的DNA聚合酶，所述核酸聚合酶包括：Bst 2.0DNA聚合酶、Psp GBD(exo-)DNA聚合酶、

超保真DNA聚合酶、Vent DNA聚合酶、Q5 DNA Polymerases、

DNA Polymerases、Taq DNA Polymerases、

DNA Polymerases、Deep

(exo-)DNA Polymerase、Deep

(exo-)DNAPolymerase、Deep

DNA Polymerase、Hemo

(exo-)DNAPolymerase、

DNA Polymerase、Tth DNA聚合酶、Pfu DNA聚合酶、KOD DNA聚合酶、LATaq DNA聚合酶、HotStart Taq DNA聚合酶、Ampl iTaq Gold DNA聚合酶、Pyrobest^TMDNA聚合酶、Taq Plus DNA聚合酶、PrimerSTAR HSDNA聚合酶、

DNA聚合酶中的一个或多个；

(3)所述热裂解的细胞裂解剂包括：蛋白酶K、胃蛋白酶、木瓜蛋白酶、Protease、DTT、NP-40、吐温、SDS、TritonX-100、TrisHcl、EDTA、异硫氰酸胍中的一个或多个；

(4)所述第一温度循环程序包括：

(b5)重复步骤b2至b4，获得最大产量的预扩增产物；

(5)所述第二温度循环程序包括：

(d1)在90℃-98℃的温度之间变性1-10mins，将所述DNA双链打开；

(d4)重复步骤d2至d4，获得最大产量的扩增产物。

7.一种用于扩增基因组DNA的试剂盒，其特征在于，所述试剂盒包括：第一引物、第二引物、第三引物和核酸聚合酶，所述第一引物从5’端到3’端包括：通用序列和简并碱基序列，所述简并碱基序列从5’端到3’端为2N+4N+HGCH，所述N和H为简并子集合，G和C为碱基，其中，N＝{A、T、C、G},H＝{A、T、C}；所述第二引物是文库构建中的通用引物接头，所述第三引物是文库构建中的index引物接头。

8.如权利要求7所述的试剂盒，其特征在于，包括选自下组的一个或多个特征：

(1)所述简并碱基序列从5’端到3’端为2N+4K+HGCH、2N+4M+HGCH、2N+4Y+HGCH或2N+4R+HGCH中的一个或多个，所述K、M、Y和R为简并子集合，其中，K＝{T、G},M＝{A、C},Y＝{C、T},R＝{A、G}；

(2)所述通用序列用于在预扩增产物的两端添加一段能够被第二引物和第三引物所识别的序列，从而方便使用PCR的手段将后续第二引物和第三引物添加到所述通用序列两端；

(3)所述通用序列与所述简并碱基序列直接相连，或者所述通用序列与简并碱基序列之间通过间隔序列相连，所述通用序列的长度范围在2bp-30bp，所述通用序列包含相同长度和组成的固定碱基序列，所述固定碱基序列为与测序平台中的文库接头的部分或者全部相同或者互补的序列；

(4)所述第二引物的长度为20-80bp，所述第二引物用于将第二引物的5’端与测序平台匹配，能够直接进行测序反应、或/和将第二引物的3’端与所述第一引物的通用序列进行识别，对预扩增产物进行扩增；

(5)所述第三引物的长度为20-80bp，所述第三引物用于将第三引物的5’端与测序平台匹配，能够直接进行测序反应、或/和将第三引物的3’端与所述第一引物中的通用序列进行识别，对预扩增产物进行扩增、或/和将第三引物自身携带一段包含6碱基、8碱基或10碱基的兼并序列，上机测序后可根据这段碱基的组成来区分不同的样本；

(6)所述核酸聚合酶为具有热耐受和链置换性质的DNA聚合酶，所述核酸聚合酶包括：Bst 2.0DNA聚合酶、Psp GBD(exo-)DNA聚合酶、

超保真DNA聚合酶、Vent DNA聚合酶、Q5 DNA Polymerases、

DNA Polymerases、Taq DNA Polymerases、

DNA Polymerases、Deep

(exo-)DNA Polymerase、Deep

(exo-)DNAPolymerase、Deep

DNA Polymerase、Hemo

(exo-)DNAPolymerase、

DNA Polymerase、Tth DNA聚合酶、Pfu DNA聚合酶、KOD DNA聚合酶、LATaq DNA聚合酶、HotStart Taq DNA聚合酶、Ampl iTaqGold DNA聚合酶、Pyrobest^TMDNA聚合酶、Taq Plus DNA聚合酶、PrimerSTARHSDNA聚合酶、

DNA聚合酶中的一个或多个；

(7)所述试剂盒还包括选自下组的一个或多个的组分：Mg²⁺、dTT、牛血清白蛋白、pH调节剂、DNase抑制剂、RNase、SO₄ ^2-、Cl^-、K⁺、Ca²⁺、Na⁺、(NH₄)⁺；

(8)所述试剂盒还包括热裂解的细胞裂解剂，所述热裂解的细胞裂解剂包括：蛋白酶K、胃蛋白酶、木瓜蛋白酶、Protease、DTT、NP-40、吐温、SDS、TritonX-100、TrisHcl、EDTA、异硫氰酸胍中的一个或多个；

(9)所述试剂盒用于构建全基因组DNA文库。

9.一种获得扩增基因组DNA的扩增引物的方法，其特征在于，所述扩增引物与样本基因组DNA结合，并在核酸聚合酶的作用下进行延伸和扩增以获得基因组预扩增产物，所述扩增引物从5’端到3’端包括：通用序列和简并碱基序列，所述简并碱基序列从5’端到3’端为2N+4N+HGCH，所述N和H为简并子集合，G和C为碱基，其中，N＝{A、T、C、G}，H＝{A、T、C}；所述简并碱基序列的获得，包括步骤：

10.如权利要求9所述的方法，其特征在于，包括选自下组的一个或多个特征：

(2)所述简并碱基序列为在人类基因组DNA上分布均匀且间隔较短的识别位点或识别位点组合获得的权重值高的简并碱基设计的，所述简并碱基序列在扩增中的能够尽可能多的识别整个人基因组中的特定长度间隔的碱基组成，并与之结合启动核酸扩增反应，能够在保证基因组覆盖度的同时，在测序过程中文库的插入片段大小相匹配；

(3)在步骤S1中，使用R程序语言程序包计算输入的内切酶识别位点,统计不同识别位点在人类基因组的分布、数量以及相邻识别位点间碱基的长度，筛选出在人类基因组DNA上分布均匀且间隔较短的、并且在人类基因组所有染色体均有分布的识别位点或识别位点组合，不同识别位点之间的碱基长度为40-300bp，识别位点或识别位点组合在每条染色体上的分布密度≥50个/1Mb，该识别位点或识别位点组合在整个基因组的覆盖度和不同基因功能区域的覆盖度均较高；

(4)在步骤S2中，获得第一引物中3’端的前4个碱基为在相应碱基位置上的权重高的简并碱基，所述第一引物中5’端的6个碱基为通过碱基平衡策略获得的简并碱基；

(5)所述通用序列与所述简并碱基序列直接相连，或者所述通用序列与简并碱基序列之间通过间隔序列相连，所述通用序列的长度范围在2bp-30bp，所述通用序列包含相同长度和组成的固定碱基序列，所述固定碱基序列为与测序平台中的文库接头的部分或者全部相同或者互补的序列。