CN111826421B - 一种pcr随机引物和使用其构建靶向测序文库的方法 - Google Patents
一种pcr随机引物和使用其构建靶向测序文库的方法 Download PDFInfo
- Publication number
- CN111826421B CN111826421B CN202010659213.0A CN202010659213A CN111826421B CN 111826421 B CN111826421 B CN 111826421B CN 202010659213 A CN202010659213 A CN 202010659213A CN 111826421 B CN111826421 B CN 111826421B
- Authority
- CN
- China
- Prior art keywords
- sequence
- seq
- pcr
- dna
- artificial sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000000295 complement effect Effects 0.000 claims abstract description 38
- 238000007363 ring formation reaction Methods 0.000 claims abstract description 11
- 239000002773 nucleotide Substances 0.000 claims abstract description 8
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 8
- 238000012408 PCR amplification Methods 0.000 claims description 39
- 108020004707 nucleic acids Proteins 0.000 claims description 13
- 102000039446 nucleic acids Human genes 0.000 claims description 13
- 150000007523 nucleic acids Chemical class 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 9
- 238000002156 mixing Methods 0.000 claims description 7
- 238000001816 cooling Methods 0.000 claims description 4
- 238000004925 denaturation Methods 0.000 claims description 4
- 230000036425 denaturation Effects 0.000 claims description 4
- 239000000178 monomer Substances 0.000 claims description 4
- 239000007853 buffer solution Substances 0.000 claims description 3
- 230000001225 therapeutic effect Effects 0.000 claims 2
- 238000003752 polymerase chain reaction Methods 0.000 abstract description 55
- 238000000137 annealing Methods 0.000 abstract description 9
- 239000000539 dimer Substances 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 abstract description 2
- 108020004414 DNA Proteins 0.000 description 104
- 239000013615 primer Substances 0.000 description 77
- 230000003321 amplification Effects 0.000 description 29
- 238000003199 nucleic acid amplification method Methods 0.000 description 29
- 239000000047 product Substances 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 23
- 238000006073 displacement reaction Methods 0.000 description 22
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 20
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 20
- 230000008569 process Effects 0.000 description 14
- 102000053602 DNA Human genes 0.000 description 9
- 230000001351 cycling effect Effects 0.000 description 8
- 238000007481 next generation sequencing Methods 0.000 description 8
- 239000012634 fragment Substances 0.000 description 7
- 239000000523 sample Substances 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 108091093088 Amplicon Proteins 0.000 description 6
- 108020001019 DNA Primers Proteins 0.000 description 6
- 239000003155 DNA primer Substances 0.000 description 6
- 238000010276 construction Methods 0.000 description 6
- 102000004190 Enzymes Human genes 0.000 description 5
- 108090000790 Enzymes Proteins 0.000 description 5
- 102000003960 Ligases Human genes 0.000 description 5
- 108090000364 Ligases Proteins 0.000 description 5
- 108020004682 Single-Stranded DNA Proteins 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000007403 mPCR Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 4
- 239000011324 bead Substances 0.000 description 3
- 239000008367 deionised water Substances 0.000 description 3
- 229910021641 deionized water Inorganic materials 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000005549 deoxyribonucleoside Substances 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 235000011178 triphosphate Nutrition 0.000 description 2
- 239000001226 triphosphate Substances 0.000 description 2
- UNXRWKVEANCORM-UHFFFAOYSA-N triphosphoric acid Chemical compound OP(O)(=O)OP(O)(=O)OP(O)(O)=O UNXRWKVEANCORM-UHFFFAOYSA-N 0.000 description 2
- 230000004544 DNA amplification Effects 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 1
- 108020005120 Plant DNA Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002306 biochemical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000012350 deep sequencing Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 239000008241 heterogeneous mixture Substances 0.000 description 1
- 238000011901 isothermal amplification Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003147 molecular marker Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000002853 nucleic acid probe Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000010809 targeting technique Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1093—General methods of preparing gene libraries, not provided for in other subgroups
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/686—Polymerase chain reaction [PCR]
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Genetics & Genomics (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Immunology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Plant Pathology (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物技术领域,具体涉及一种PCR随机引物和使用其构建靶向测序文库的方法。所述PCR随机引物从5’端到3’端依次包括成环互补序列、通用序列、UMI序列、UMI定位点和随机序列,其中,所述成环互补序列与所述通用序列中的部分序列反向互补。本发明的PCR随机引物在5’端引入成环互补序列,从而避免引物中随机序列的核苷酸与通用序列形成二聚体,充分暴露随机序列来提高与模板退火的效率;并且,本发明使用该PCR随机引物构建的文库具有在靶率高、均一性好和平均转化效率高等优势。
Description
技术领域
本发明属于生物技术领域,具体涉及一种PCR随机引物和使用其构建靶向测序文库的方法。
背景技术
下一代测序(Next generation sequencing,NGS)也称为深度测序或大规模平行测序,可同时对数百万小片段进行测序。NGS已广泛应用于众多领域,其中最常用的是基因组DNA变异分析和RNA表达分析。这些分析应用可扩展到整个基因组和整个外显子组,还可专门测序特定区域和基因组合。
NGS测序前,有几种方法可以富集目标区域,最常用的两种方法是:1)基于探针捕获,通过设计与靶DNA序列互补的核酸探针来捕获靶DNA;这类方法因为需要合成探针,所以成本高,实验步骤冗长。2)基于多重PCR,通过设计靶DNA特异性的DNA引物进行PCR扩增来富集靶DNA;相比于基于探针捕获的方法,这类方法成本较低,步骤简短。
NGS和靶向序列捕获技术的进步使其可用于测序异质混合物中的低频突变。然而,PCR和测序方法的系统误差使NGS的进一步发展受到了限制。文库制备、靶向序列捕获和测序均采用DNA聚合酶以及扩增步骤,这些过程会引入偏差,包括重复、相应的不均匀扩增以及因聚合酶误差导致的假象,这种误差会引入原始样品中不存在的序列变化。为了对扩增和测序过程中出现的随机错误进行纠错,使用上述方法建库的过程中可以对每个模板分子加上独特的分子标记(UMI)。测序后具有同样分子标记且对比到基因组同一位置的读序(reads)可归为一组,并视为来源于同一个模板分子。由于扩增和测序错误是随机发生的,同组中如果有少于一半的读序中存在序列与其它读序不同的序列,该序列可视为扩增或测序错误,忽略不计,从而达到纠错的效果。
基于多重PCR的二代测序靶向技术的建库方法可以分成2种:1)使用成对的特异性引物进行常规PCR扩增对靶DNA区域进行捕获和富集;其中UMI可以包含在引物中,在前2个PCR循环中被整合至扩增子。2)首先对DNA片段用链接酶加上通用接头,其中UMI可包含在接头内,然后使用特异性引物和通用引物进行靶DNA富集。在上述基于多重PCR的建库方法中。方法1)需要至少一对引物来富集一个靶区域。引物设计是有条件限制的,比如说在很难在序列复杂度低的区域进行引物设计。这样很多时候成对引物跨度的区域会比较大。如果起始DNA片段小于引物跨越的长度,靶区域将得不到扩增。这在分子诊断中可能会造成灵敏度降低和假阴性。方法2)使用单端特异性引物,避免了使用双端引物时,短模板不能被富集的情形。但是要使用链接酶加上包含通用序列的接头。连接酶链接的效率一般在30%左右,意味着只有30%的起始DNA能被加上接头,转化为测序文库,损失剩下的70%。同样地,这在分子诊断中也会造成灵敏度降低和假阴性。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,为此,本发明提供了一种PCR随机引物和使用其构建靶向测序文库的方法。
本发明所采用的技术方案如下文所述。
本发明的第一方面涉及一种PCR随机引物,所述PCR随机引物从5’端到3’端依次包括成环互补序列、通用序列、UMI序列、UMI定位点和随机序列,其中,所述成环互补序列与所述通用序列中的部分序列反向互补。
根据本发明的一些实施方式,所述PCR随机引物从5’端到3’端依次由成环互补序列、通用序列、UMI序列、UMI定位点和随机序列组成。
根据本发明的一些实施方式,所述成环互补序列与所述通用序列中连接UMI序列端的部分序列反向互补。
根据本发明的一些实施方式,所述成环互补序列的长度为4~20bp。例如,可以是4bp、5bp、6bp、7bp、8bp、9bp或更长。
根据本发明的一些实施方式,所述成环互补序列选自SEQ ID NO:1~5。
根据本发明的一些实施方式,所述通用序列的长度为18~30bp。例如,可以是20bp、23bp、25bp、28bp或30bp。
根据本发明的一些实施方式,所述通用序列选自SEQ ID NO:6~9。
根据本发明的一些实施方式,所述UMI序列的长度为4~20bp。例如,可以是4bp、5bp、8bp、11bp或更长。
根据本发明的一些实施方式,所述UMI定位点的长度为1~6bp。例如,可以是2bp、3bp、4bp或5bp。
根据本发明的一些实施方式,所述UMI定位点选自SEQ ID NO:10~13。
根据本发明的一些实施方式,所述随机序列的长度为5~15bp。例如,可以是5bp、6bp、7bp、8bp、9bp、10bp或12bp。
根据本发明的一些实施方式,所述PCR随机引物选自SEQ ID NO:14~28。
本发明第二方面提供了一种试剂盒,包括本发明第一方面任一项所述的PCR随机引物。
本发明第三方面提供了一种PCR扩增方法,包括用本发明第一方面任一项所述的PCR随机引物或本发明第二方面任一项所述的试剂盒进行PCR扩增。
本发明第四方面提供了一种构建靶向测序文库的方法,包括多轮链置换随机扩增和靶向富集。
根据本发明的一些实施方式,所述构建靶向测序文库的方法,包括如下步骤:
1)将片段化的待测基因组DNA与如上所述的PCR随机引物混合,变性后,迅速冷却处理;
2)将核苷酸单体混合物、核酸聚合酶、缓冲液和步骤1)的产物混合,进行第一轮PCR扩增;
3)将第一轮PCR扩增的产物作为模板,利用特异性引物在第二温度循环程序中进行第二轮的PCR扩增。
根据本发明的一些实施方式,步骤1)中,片段化的待测基因组DNA与如上所述的PCR随机引物混合后在高温下变性,然后迅速冰浴冷却;
根据本发明的一些实施方式,步骤2)中,核酸聚合酶为具有链置换活性的DNA聚合酶,例如可以选自Bst3DNA聚合酶,Omni-Amp DNA聚合酶和SD DNA聚合酶。
根据本发明的一些实施方式,步骤2)中,将核苷酸单体混合物、核酸聚合酶、缓冲液和步骤1)的产物混合,并在第一温度循环程序中进行第一轮PCR扩增;
根据本发明的一些实施方式,步骤2)中,第一温度循环程序可以为:
1个循环:25℃5min,30℃5min,55℃15min;
2-4个循环:75℃1min,25℃5min,30℃5min,55℃15min;
1个循环:55℃10min。
根据本发明的一些实施方式,步骤3)中,将第一轮PCR扩增的产物作为模板,利用特异性引物、5’接头引物和3’接头引物在第二温度循环程序中进行第二轮的PCR扩增。
根据本发明的一些实施方式,所述特异性引物的3’端为靶区域特异性序列,5’端与所述5’接头引物的3’端相同。
根据本发明的一些实施方式,步骤3)中,将第一轮PCR扩增的产物作为模板,利用特异性引物在第二温度循环程序中进行第二轮的PCR扩增。
根据本发明的一些实施方式,步骤3)中,将第一轮PCR扩增的产物作为模板,加入无核酸酶去离子水、PCR预混液、特异性引物、5’接头引物和3’接头引物在第二温度循环程序中进行第二轮的PCR扩增。
根据本发明的一些实施方式,步骤3)中,第二温度循环程序可以为:
1个循环:98℃,30s;
25个循环:98℃,5s;65℃,5min;72℃,30s;
1个循环:72℃2min。
根据本发明的一些实施方式,步骤3)之后,还包括将第二轮PCR扩增的产物纯化的步骤。
根据本发明的一些实施方式,采用磁珠进行纯化,也可以采用柱纯化,或进行凝胶电泳后进行DNA提取。
本发明的有益效果:
本发明设计了一种PCR随机引物和使用其构建靶向测序文库的方法,构建的文库具有在靶率高、均一性好和、平均转化效率高等优势。
多轮随机链置换反应中的PCR随机引物中引入了UMI,用以区分使用同一模板时在不同位点扩增的扩增子。5’端引入成环互补序列,从而避免引物中随机序列的核苷酸与通用序列形成二聚体,充分暴露随机序列来提高与模板退火的效率。
整个多轮随机链置换反应中的温控循环是独特的。不同于传统的MDA,可以很大程度减少反应时间;也不同于MALBAC,每轮都需要添加DNA聚合酶来保证反应的进行。
附图说明
图1为本发明PCR随机引物设计示意图;
图2为多轮链置换随机扩增过程示意图;
图3为靶向富集过程示意图;
图4为本发明实施例构建的测序文库的性能参数。
具体实施方式
本发明的第一方面涉及一种PCR随机引物,所述PCR随机引物从5’端到3’端依次包括成环互补序列、通用序列、UMI序列、UMI定位点和随机序列,其中,所述成环互补序列与所述通用序列中的部分序列反向互补。
如图1所示,为本发明以Illumina TrueSeq接头序列为例设计的PCR随机引物;该PCR随机引物,5’端到3’端依次由成环互补序列、通用序列、UMI序列、UMI定位点和随机序列组成,并且所述成环互补序列与所述通用序列的3’端反向互补。
本发明人通过研究发现,设计成环互补序列与通用序列中的部分序列反向互补成环,可以防止3’端随机序列与测序接头自我形成二聚体,充分暴露随机序列,提高了与核酸模板随机配对的效率,提高了与模板退火的效率;通用序列用来作为下一步扩增的引物配对,可以是不同测序平台的测序接头或其它固定序列;UMI序列用来区分线性扩增中的不同的扩增子;UMI定位点可以用来区分随机序列和UMI序列。现有技术中,大都采用连接酶连接测序接头和UMI,而本发明则是利用PCR随机引物进行链置换随机扩增的方式引入测序接头和UMI,提高了起始核酸分子转化为文库的效率。
本发明中,所述PCR随机引物中,成环互补序列、通用序列、UMI序列、UMI定位点和随机序列的长度和具体序列可以根据实际情况进行调整。
根据本发明的一些实施方式,所述成环互补序列的长度为4~20bp,或更长。例如,可以是4bp、5bp、6bp、7bp、8bp、9bp或更长。
根据本发明的一些实施方式,所述成环互补序列选自SEQ ID NO:1~5。
根据本发明的一些实施方式,所述通用序列的长度为18~30bp。例如,可以是20bp、23bp、25bp、28bp或30bp。
通用序列可以是不同测序平台的测序接头如Illumina平台、BGI平台、IonTorrent平台、Oxford Nanopore平台或PacBio平台的测序接头序列,还可以是其它固定序列。
根据本发明的一些实施方式,所述通用序列选自SEQ ID NO:6~9。
根据本发明的一些实施方式,所述UMI序列的长度为4~20bp。例如,可以是4bp、5bp、8bp、11bp或更长。
根据本发明的一些实施方式,所述UMI定位点的长度为1~6bp。例如,可以是2bp、3bp、4bp或5bp。
根据本发明的一些实施方式,所述UMI定位点选自SEQ ID NO:10~13。
根据本发明的一些实施方式,所述随机序列的长度为5~15bp。例如,可以是5bp、6bp、7bp、8bp、9bp、10bp或12bp。
根据本发明的一些实施方式,PCR随机引物选自SEQ ID NO:14~28。
本发明第二方面提供了一种试剂盒,包括本发明第一方面任一项所述的PCR随机引物。相对于常规引物,本发明试剂盒采用PCR随机引物进行多轮链置换随机扩增,提高起始核酸分子转化为文库的效率。
本发明第三方面提供了一种PCR扩增方法,包括用本发明第一方面任一项所述的PCR随机引物或本发明第二方面任一项所述的试剂盒进行PCR扩增。利用该方法可以有效实现模板的PCR扩增,并且该方法能够增加PCR扩增的特异性,有效降低非特异性产物的产生,并提高扩增效率。
本发明第四方面提供了一种构建靶向测序文库的方法,包括如下步骤:
1)片段化的待测基因组DNA与如上所述的PCR随机引物混合后变性,然后迅速冷却处理;
2)将核苷酸单体混合物、核酸聚合酶、限制性内切酶缓冲液和步骤1)的产物混合,并在第一温度循环程序中进行第一轮PCR扩增;
3)将第一轮PCR扩增的产物作为模板,利用特异性引物在第二温度循环程序中进行第二轮的PCR扩增。
本发明的建库过程主要分为多轮链置换随机扩增(步骤1)和步骤2))和靶向富集(步骤3))过程。首先,本发明使用单端特异性引物,避免了使用双端特异性引物的不足。其次,现有技术中大都是对DNA片段用连接酶加上通用序列(UMI紧邻通用序列),而本发明不使用连接酶加通用序列和UMI,而是设计独特的PCR随机引物,通过链置换随机扩增的方式加上通用序列和UMI,在此过程中,同一分子会在不同位置被随机扩增多次并标上UMI,这种方式不同于只在引物特异性位点扩增的传统PCR,可以鉴别不同PCR随机引物扩增的扩增子,从而降低了扩增中引起的序列错配,便于后续反应中使用通用序列进行的PCR和测序接头的整合;提高了起始核酸分子转化为文库的效率。再者,靶向富集反应即第二轮PCR扩增反应中,使用多轮链置换随机扩增的产物作为模板,靶区域特异性的DNA引物进行PCR扩增,对特异性产物进行富集,同时测序接头也在此过程中加到产物两端,形成测序文库。
根据本发明的一些实施方式,步骤1)中,片段化的待测基因组DNA与如上所述的PCR随机引物混合后在高温下变性,然后迅速冰浴冷却;
本发明中将片段化的待测基因组DNA与如上所述的PCR随机引物混合后在高温下变性,然后迅速冰浴冷却;其中冷却处理是为了防止变性后的单链DNA重新变成双链DNA。
根据本发明的一些实施方式,步骤2)中,核酸聚合酶为具有链置换活性的DNA聚合酶,例如可以选自Bst3DNA聚合酶,Omni-Amp DNA聚合酶和SD DNA聚合酶。
本发明在第二个循环以及后面的多轮链置换循环中,不需要加入额外的DNA聚合酶,使得整个反应中大大减少了人工操作的时间。
根据本发明的一些实施方式,步骤2)中,第一温度循环程序可以为:
1个循环:25℃5min,30℃5min,55℃15min;
2-4个循环:75℃1min,25℃5min,30℃5min,55℃15min;
1个循环:55℃10min。
本发明的步骤1)和步骤2)属于多轮随机链置换扩增过程,在这一过程中,核酸模板与上述PCR随机引物混合后在高温下变性(95℃),变成单链的DNA分子;随后上述PCR随机引物与核酸模板在25℃下退火5分钟,30℃下继续退火5分钟;退火后在链置换DNA聚合酶的作用下进行延伸15分钟。由于链置换扩增,在一个延伸反应中从同一个模板会产生多个长度不一的拷贝。每个拷贝都带有一个独特的分子标记(UMI);这样经过大于或等于2轮这样的反应,产生的新拷贝分子中有些会在2端都带有固定的序列(5’端是通用序列,3’端是通用序列互补序列),有些只有5’端带有通用序列(图2)。这种扩增方式可以使同一个DNA分子在不同位点得到扩增。这不同于传统的PCR,它只在引物特异性位点得到扩增。UMI和通用序列整合到扩增子中,便于纠正扩增中的错配,以及后续反应中的使用通用序列进行的PCR和测序接头的整合。不同于MDA的长时间恒温扩增,也不同于MALBAC的每次反应中的酶添加操作,上述操作更为省时,更方便操作。
根据本发明的一些实施方式,步骤3)中,将第一轮PCR扩增的产物作为模板,加入无核酸酶去离子水、PCR预混液、特异性引物、5’接头引物和3’接头引物在第二温度循环程序中进行第二轮的PCR扩增。
本发明利用特异性引物,以第一轮PCR扩增的产物为模板进行PCR,对特异性产物进行富集,同时,测序接头也在此过程中加到产物两端,形成测序文库。5’接头引物和3’接头引物是测序平台特异性的接头引物,可以是Illumina平台、BGI平台、Ion torrent平台或其它测序平台的接头序列;特异性引物是以预扩增区域为模板设计的引物。特异性引物由2部分组成,3’端是靶区域特性序列,5’端序列与5’接头引物3’端相同(图3)。
根据本发明的一些实施方式,步骤3)中,第二温度循环程序可以为:
1个循环:98℃,30s;
25个循环:98℃,5s;65℃,5min;72℃,30s;
1个循环:72℃2min。
根据本发明的一些实施方式,步骤3)之后,还包括将第二轮PCR扩增的产物纯化的步骤。
根据本发明的一些实施方式,采用磁珠进行纯化。
术语解释:
UMI:独特的分子标签。为一段短的DNA序列,与待测序DNA分子通过生化方法绑定后成为该分子的标签,可用来鉴别该分子。组成UMI的核苷酸一般是随机的,通过A,T,G,C的随机组合,每个位置可以有4个选择。一个长度为N的随机DNA片段可包含4^N个UMI组合。
测序文库:为一个由不同DNA分子组成的混和物。在NGS中,通常由于测序平台的不同,文库DNA分子的两端有添加的通用接头序列。根据样本来源的不同,文库中的DNA可能包含人DNA,其它动物的DNA,植物DNA,或微生物DNA。
DNA引物:一段由核苷酸组成的单链DNA。通常在18-30bp.用来作为DNA聚合酶延伸DNA链时的起始点。
DNA聚合酶:可以单链DNA,DNA引物,脱氧核糖核苷三磷酸作为反应底物,其它无机盐作为辅助因子来合成DNA互补链的酶。
PCR:聚合酶链反应。该反应由DNA聚合酶催化完成,需要起始的DNA模板,DNA引物,脱氧核糖核苷三磷酸作为反应底物,其它无机盐作为辅助因子。产物为与DNA模板互补,从引物处延长的单链DNA。根据所使用的DNA聚合酶的不同,该反应在特定的温度下进行。
链置换扩增:使用具有链置换能力的DNA聚合酶进行的DNA扩增。在DNA聚合酶以DNA作为模板延伸互补链的过程中,若下游遇到处于双链状态的DNA时,具有链置换能力的DNA聚合酶可以解开双链,继续延伸,合成新的互补链,同时旧的互补链被替换下来。
多重PCR:在一个PCR体系中使用大于一条或一对引物进行的PCR反应。
扩增子:由PCR反应产生的DNA产物
探针:一定长度范围内的单链核酸,可以是RNA或DNA。在序列上与靶DNA或RNA互补。
MDA:多重链置换扩增。在该体系中,多个DNA引物用来扩增同一个DNA靶区域。由于反应体系中用的具有链置换能力的DNA聚合酶,比如说Phi29DNA聚合酶,靶区域可被不同引物同时扩增而富集。
MALBAC:多轮退火与成环扩增。在该体系中,带通用序列的随机引物被用来作链置换扩增。在多轮链置换扩增中涉及到温度的变化,包括DNA模板变性,退火,延伸以及退火使产物成环。产物为5’,3’端互补的DNA以及5’端带通用序列的DNA。在第一轮后的扩增中,由于高温变性使DNA聚合酶失活,要加入新的链置换DNA聚合酶。
文库条形码:为短的DNA片段,通常为6-12bp;整合到DNA文库中用以区分不同的DNA文库
Reads:读序,指测序过程中单次测序所得到的碱基序列,由一连串的碱基符号(A,T,G,C)组成。根据测序原理的不同,可读出被测序DNA模板中序列中碱基或其互补碱基。
以下结合具体的实施例对本发明的技术方案做进一步说明,但本发明并不限于这些具体实施方式。实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
本发明实施例中的待测基因组DNA是来源于HEK293T细胞系的基因组DNA,使用前基因组DNA被DNA片段化酶(NEB)消化成100-300bp的片段。
实施例1
1、引物设计:
第一轮PCR扩增用PCR随机引物(SEQ ID NO:14):
5’-AGATCGGAATCAGACGTGTGCTCTTCCGATCTNNNNNNGTNNNNNN-3’
第二轮PCR扩增用引物:
5’接头序列(SEQ ID NO:29):
5’-AATGATACGGCGACCACCGAGATCTACACTGTTCTCTACACTCTTTCCCTACACGACGCTCTTCCGA-3’
3’接头序列(SEQ ID NO:30):
5’-CAAGCAGAAGACGGCATACGAGATAGGTTGGGGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’
特异性引物序列:序列如SEQ ID NO:31~161所示。
CCTACACGACGCTCTTCCGATCTcactcaccgggcgagggcG(SEQ ID NO:31)
CCTACACGACGCTCTTCCGATCTctctgggagatcttcacgctggggG(SEQ ID NO:32)
CCTACACGACGCTCTTCCGATCTtgaaggtgcttggatctggcgctT(SEQ ID NO:33)
CCTACACGACGCTCTTCCGATCTttgatgaagggcgggctcccatC(SEQ ID NO:34)
CCTACACGACGCTCTTCCGATCTtgcccatcaagtggatggcgctG(SEQ ID NO:35)
CCTACACGACGCTCTTCCGATCTaggaagtagcgtggccgccaG(SEQ ID NO:36)
CCTACACGACGCTCTTCCGATCTtaccgtgcgggcttcgtgctG(SEQ ID NO:37)
CCTACACGACGCTCTTCCGATCTacggcccccactgcgtcaaG(SEQ ID NO:38)
CCTACACGACGCTCTTCCGATCTgagcagcagcgaaagcgccttG(SEQ ID NO:39)
CCTACACGACGCTCTTCCGATCTcctggcctacctggtcgccatG(SEQ ID NO:40)
CCTACACGACGCTCTTCCGATCTcggcagtccggcttggaggA(SEQ ID NO:41)
CCTACACGACGCTCTTCCGATCTcgttcatcgggacttggcagccaG(SEQ ID NO:42)
CCTACACGACGCTCTTCCGATCTcacaacgtcttggagcgccagagG(SEQ ID NO:43)
CCTACACGACGCTCTTCCGATCTctcttgagggccacaaagtggccaC(SEQ ID NO:44)
CCTACACGACGCTCTTCCGATCTggcgctgtgtcctttcaggatggtG(SEQ ID NO:45)
CCTACACGACGCTCTTCCGATCTAGAGAATCTCCATTTTAGCACTTACCTGTGAC(SEQ ID NO:46)
CCTACACGACGCTCTTCCGATCTtctggatcagctggatggtcagcG(SEQ ID NO:47)
CCTACACGACGCTCTTCCGATCTtgcctcacctccaccgtgcaG(SEQ ID NO:48)
CCTACACGACGCTCTTCCGATCTgcagccgaggaggagctggtG(SEQ ID NO:49)
CCTACACGACGCTCTTCCGATCTtactggtcccgcatggcgcT(SEQ ID NO:50)
CCTACACGACGCTCTTCCGATCTggcagtagcggcttctaagggcaaG(SEQ ID NO:51)
CCTACACGACGCTCTTCCGATCTggtgtttgtagaggctgctgccctC(SEQ ID NO:52)
CCTACACGACGCTCTTCCGATCTcccaggtcctcggacaccgA(SEQ ID NO:53)
CCTACACGACGCTCTTCCGATCTcccgggacgtgcacaacctC(SEQ ID NO:54)
CCTACACGACGCTCTTCCGATCTacccccacccacagatccactG(SEQ ID NO:55)
CCTACACGACGCTCTTCCGATCTtatggcacctgcaactgcttccctG(SEQ ID NO:56)
CCTACACGACGCTCTTCCGATCTttggctggctggcccagttC(SEQ ID NO:57)
CCTACACGACGCTCTTCCGATCTccatgtttggaactggcatcgccatgA(SEQ ID NO:58)
CCTACACGACGCTCTTCCGATCTgatggatgtgaaccccgagggcaaA(SEQ ID NO:59)
CCTACACGACGCTCTTCCGATCTGTCAAGCCCTCCAACATCCTAGTCAA(SEQ ID NO:60)
CCTACACGACGCTCTTCCGATCTtggggctgaaccaaggatgatgtgG(SEQ ID NO:61)
CCTACACGACGCTCTTCCGATCTctgagcgtcatctgcccccaC(SEQ ID NO:62)
CCTACACGACGCTCTTCCGATCTaaccggggcagggattgcaG(SEQ ID NO:63)
CCTACACGACGCTCTTCCGATCTcaaccccaaccagtgctgccA(SEQ ID NO:64)
CCTACACGACGCTCTTCCGATCTgcccactgtgttactgccatcgacT(SEQ ID NO:65)
CCTACACGACGCTCTTCCGATCTgatgaatgggccacactcactgtcgatG(SEQ ID NO:66)
CCTACACGACGCTCTTCCGATCTggggagaatgtgaaaattccagtggccatC(SEQ ID NO:67)
CCTACACGACGCTCTTCCGATCTttggctttgtgctcattaccttcagctgC(SEQ ID NO:68)
CCTACACGACGCTCTTCCGATCTcaggggatgagctacctggaggatG(SEQ ID NO:69)
CCTACACGACGCTCTTCCGATCTcacaacaaaacaggtgcaaagctgccaG(SEQ ID NO:70)
CCTACACGACGCTCTTCCGATCTtgacagaacgggaagccctcatgtC(SEQ ID NO:71)
CCTACACGACGCTCTTCCGATCTcggctgttagtcactggcagcaaC(SEQ ID NO:72)
CCTACACGACGCTCTTCCGATCTctgggccccattcttctcccaC(SEQ ID NO:73)
CCTACACGACGCTCTTCCGATCTcctcatgtactggtccctcattgcactG(SEQ ID NO:74)
CCTACACGACGCTCTTCCGATCTgctctgtgctgcatttcagagaacgC(SEQ ID NO:75)
CCTACACGACGCTCTTCCGATCTctggattagctggattgtcagtgcgctT(SEQ ID NO:76)
CCTACACGACGCTCTTCCGATCTtggtgctgaccatgtggacattaggtG(SEQ ID NO:77)
CCTACACGACGCTCTTCCGATCTgctcccaaccaagctctcttgaggaT(SEQ ID NO:78)
CCTACACGACGCTCTTCCGATCTCCACCGCTGTGTTGCAGCTACCT(SEQ ID NO:79)
CCTACACGACGCTCTTCCGATCTtccgacccaccatcatggcctG(SEQ ID NO:80)
CCTACACGACGCTCTTCCGATCTcattctaggaagctcaccattcccccaaG(SEQ ID NO:81)
CCTACACGACGCTCTTCCGATCTtacccttgtccccaggaagcatacG(SEQ ID NO:82)
CCTACACGACGCTCTTCCGATCTaggggtgaggcagtctttactcacC(SEQ ID NO:3383)
CCTACACGACGCTCTTCCGATCTcgacagccccggtaaatcttggtG(SEQ ID NO:84)
CCTACACGACGCTCTTCCGATCTtcctactcaccatcctgtgtgcagG(SEQ ID NO:85)
CCTACACGACGCTCTTCCGATCTcacactgacgtgcctctccctC(SEQ ID NO:86)
CCTACACGACGCTCTTCCGATCTaccacccccactgaacctctcttaC(SEQ ID NO:87)
CCTACACGACGCTCTTCCGATCTccgggctgtcgtggtagacttagaA(SEQ ID NO:88)
CCTACACGACGCTCTTCCGATCTggataggcttgtaagtgcccgaagtgtaaG(SEQ ID NO:89)
CCTACACGACGCTCTTCCGATCTtttgggacctccggtcagaaaaccaA(SEQ ID NO:90)
CCTACACGACGCTCTTCCGATCTtggtgtcctcctcctcttccctagataaC(SEQ ID NO:9)
CCTACACGACGCTCTTCCGATCTgattcgagaagtgacaggctatgtcctcG(SEQ ID NO:92)
CCTACACGACGCTCTTCCGATCTggttgttgcctcgtgacaaggagatG(SEQ ID NO:93)
CCTACACGACGCTCTTCCGATCTgtcaaggttgctgattttggtcttgccaG(SEQ ID NO:94)
CCTACACGACGCTCTTCCGATCTcaccacccctcggaatcccT(SEQ ID NO:95)
CCTACACGACGCTCTTCCGATCTtaaggcttacaacgatgtgggcaagacttC(SEQ ID NO:96)
CCTACACGACGCTCTTCCGATCTcctgatgacctgaaggagtttctgcagA(SEQ ID NO:97)
CCTACACGACGCTCTTCCGATCTcacttgatgatactcactgtccatcagcctC(SEQ ID NO:98)
CCTACACGACGCTCTTCCGATCTgggctcccggaagacagtccC(SEQ ID NO:99)
CCTACACGACGCTCTTCCGATCTtgtcctcatgtattggtctctcatggcaC(SEQ ID NO:100)
CCTACACGACGCTCTTCCGATCTggctttgaatctttggccagtacctcatG(SEQ ID NO:101)
CCTACACGACGCTCTTCCGATCTagataatgactcacctggggccacatT(SEQ ID NO:102)
CCTACACGACGCTCTTCCGATCTgcctgttttgtgtctactgttctagaaggcaA(SEQ ID NO:103)
CCTACACGACGCTCTTCCGATCTacactgtacaagctctacgagaggtgtG(SEQ ID NO:104)
CCTACACGACGCTCTTCCGATCTagttctttcttttgcacagggcattttggttG(SEQ ID NO:105)
CCTACACGACGCTCTTCCGATCTctggtgaaaacaccgcagcatgtC(SEQ ID NO:106)
CCTACACGACGCTCTTCCGATCTggaattcctgtgcatgaaagcactgC(SEQ ID NO:107)
CCTACACGACGCTCTTCCGATCTgacaggaagagcacagtcactttgactC(SEQ ID NO:108)
CCTACACGACGCTCTTCCGATCTcccaccctaaagacagcaccaatcttT(SEQ ID NO:109)
CCTACACGACGCTCTTCCGATCTtcgagtttgcccccatgtacaagatC(SEQ ID NO:110)
CCTACACGACGCTCTTCCGATCTTGGAACTTGACGAGCAGCAGAAGAAG(SEQ ID NO:111)
CCTACACGACGCTCTTCCGATCTcggaagatgaagatttcggatttcggcT(SEQ ID NO:112)
CCTACACGACGCTCTTCCGATCTaaaaattgtgaagatctgtgactttggcctgG(SEQ ID NO:113)
CCTACACGACGCTCTTCCGATCTtgatgcccccaagaatcctagtagaatgttT(SEQ ID NO:114)
CCTACACGACGCTCTTCCGATCTgactgttaccaccatacaggcgattaagaaG(SEQ ID NO:115)
CCTACACGACGCTCTTCCGATCTaaatgctgaaagctgtaccatacctgtctG(SEQ ID NO:116)
CCTACACGACGCTCTTCCGATCTgcatctgtacagcatgaagtgcaagaaC(SEQ ID NO:11)
CCTACACGACGCTCTTCCGATCTtgatctccttagacaactacctttctacggaC(SEQ ID NO:118)
CCTACACGACGCTCTTCCGATCTtgttccttcatacacttctccaaaggctC(SEQ ID NO:119)
CCTACACGACGCTCTTCCGATCTgggcttgttttgtatcaactgtccttgttG(SEQ ID NO:120)
CCTACACGACGCTCTTCCGATCTattgccaacatgacttacttgatccccataaG(SEQ ID NO:121)
CCTACACGACGCTCTTCCGATCTacattacatacttaccatgccactttcccttG(SEQ ID NO:122)
CCTACACGACGCTCTTCCGATCTttctgaattagctgtatcgtcaaggcactC(SEQ ID NO:123)
CCTACACGACGCTCTTCCGATCTtttgaaagagaacacacttactctccacgtC(SEQ ID NO:124)
CCTACACGACGCTCTTCCGATCTcacagtggagcgaattcctttggaaA(SEQ ID NO:125)
CCTACACGACGCTCTTCCGATCTaacctcaatctctttgtccgtggtgttA(SEQ ID NO:126)
CCTACACGACGCTCTTCCGATCTaaggacttttaccctcttcagctcagT(SEQ ID NO:127)
CCTACACGACGCTCTTCCGATCTgggaccattatggacatcaggacattC(SEQ ID NO:128)
CCTACACGACGCTCTTCCGATCTgtagatatgatgcagccattgacctgtttaC(SEQ ID NO:129)
CCTACACGACGCTCTTCCGATCTcctcttattgttccctacagattgcgaG(SEQ ID NO:130)
CCTACACGACGCTCTTCCGATCTctggtgccctataacaatgaatgaccaaA(SEQ ID NO:131)
CCTACACGACGCTCTTCCGATCTcctccaacctaatagtgtattcacagagacT(SEQ ID NO:132)
CCTACACGACGCTCTTCCGATCTtggaatgccagaactacaatcttttgatgaC(SEQ ID NO:133)
CCTACACGACGCTCTTCCGATCTttcagggtttctgaatacctgaggtttttC(SEQ ID NO:134)
CCTACACGACGCTCTTCCGATCTagcctggtagccaaaagctaagaaT(SEQ ID NO:135)
CCTACACGACGCTCTTCCGATCTctgttttcctgtagcaaaaccagaaatcC(SEQ ID NO:136)
CCTACACGACGCTCTTCCGATCTctatgttcgaacaggtatctaccatggaG(SEQ ID NO:137)
CCTACACGACGCTCTTCCGATCTtcggatcacaaagatttgtgattttggtcT(SEQ ID NO:138)
CCTACACGACGCTCTTCCGATCTGTGcctaaattgtttgtagggttggttA(SEQ ID NO:139)
CCTACACGACGCTCTTCCGATCTGCAagctttctcacaagcatttggtT(SEQ ID NO:140)
CCTACACGACGCTCTTCCGATCTGgtggtctttgggatcctcatC(SEQ ID NO:141)
CCTACACGACGCTCTTCCGATCTtccgggctttacgcaaataagtaagA(SEQ ID NO:142)
CCTACACGACGCTCTTCCGATCTctggatcccagaaggtgagaaagttA(SEQ ID NO:143)
CCTACACGACGCTCTTCCGATCTgcttggttctgatgtttgtagtgtagC(SEQ ID NO:144)
CCTACACGACGCTCTTCCGATCTacattttcgtaagtgttactcaagaagcagaA(SEQ ID NO:145)
CCTACACGACGCTCTTCCGATCTtacagagtagacacaatgagtgaagctC(SEQ ID NO:146)
CCTACACGACGCTCTTCCGATCTCCTggtcatttatagaaaccgaggtatgaA(SEQ ID NO:147)
CCTACACGACGCTCTTCCGATCTCTAATTCATCTGGAGATCAAACCCGCAA(SEQ ID NO:148)
CCTACACGACGCTCTTCCGATCTaacagttatgattttgcagaaaacagatctgtatT(SEQ ID NO:149)
CCTACACGACGCTCTTCCGATCTGttttgaaatgtgttttataatttagactagtgaA(SEQ ID NO:150)
CCTACACGACGCTCTTCCGATCTCccatactttggatgatagaaacttcatctT(SEQ ID NO:151)
CCTACACGACGCTCTTCCGATCTATAGGTTTCATGGACTCAGTTACTACCTG(SEQ ID NO:152)
CCTACACGACGCTCTTCCGATCTTGGAAAAATAGCCTCAATTCTTACCATC(SEQ ID NO:153)
CCTACACGACGCTCTTCCGATCTGACATTTTGTACTTCTTCAACGCGAAG(SEQ ID NO:154)
CCTACACGACGCTCTTCCGATCTTGGcacattattctggggaatgtataT(SEQ ID NO:155)
CCTACACGACGCTCTTCCGATCTTGAGTATTGTTAACCTTGCAGAATGG(SEQ ID NO:156)
CCTACACGACGCTCTTCCGATCTTGATCTATTTTTCCCTTTCTCCCCA(SEQ ID NO:157)
CCTACACGACGCTCTTCCGATCTtcctagagagttagagtaacttcaatgtcttT(SEQ ID NO:158)
CCTACACGACGCTCTTCCGATCTctttgggttataaatagtgcactcagaaT(SEQ ID NO:159)
CCTACACGACGCTCTTCCGATCTctcctttaccagaatatgagagtaaagG(SEQ ID NO:160)
CCTACACGACGCTCTTCCGATCTCTTTTAGATCTGAGATGCACAATAAAACAG(SEQ ID NO:161)
2、基于多重PCR的靶向测序文库的构建
包括多轮链置换随机扩增(步骤1)和步骤2))和靶向富集(步骤3))过程。
1)10ng的片段化的待测基因组DNA与1μL 10μM的PCR随机引物混合后加无核酸酶去离子水补足至11μL,在95℃下变性2min,然后迅速移到冰浴中冷却3分钟;
2)准备4μL以下酶混合物,加到步骤1)的产物中。
酶混合物:1.5μL 10x cutsmart缓冲液(NEB),1μL 10mM dNTPs(NEB),12单位的Bst3DNA聚合酶(NEB)。
按以下条件在PCR仪中进行反应:
1个循环:25℃5min,30℃5min,55℃15min;
3个循环:75℃1min,25℃5min,30℃5min,55℃15min;
1个循环:55℃10min。
得到第一轮PCR扩增的产物,在8℃保存。
3)第二轮的PCR扩增中各组分的用量如表1所示。
表1第二轮PCR扩增的各组分用量
在PCR仪中,反应条件如下:
1个循环:98℃,30s;
25个循环:98℃,5s;65℃,5min;72℃,30s;
1个循环:72℃2min。
反应完成后,产物用1倍体积的SPRIselect磁珠(Beckman Coulter)进行纯化,纯化产物在BGI2000测序仪上进行双端测序。测序长度为100bp/端。
3、结果分析:
测序完成后,与人基因组序列进行序列匹配后,计算了评价靶向建库方法的3个参数:
1)在靶率:反映靶向建库方法富集靶区域的特异性。在靶率=匹配到预扩增靶区域的reads数/总reads数。
2)均一性:反映靶向建库方法富集众多靶区域是否存在偏好。如果偏好过大,表明有些靶区域没有得到很好的富集或有些靶区域被过于富集。均一性=匹配到靶区域的reads数超过平均在靶reads数的20%的靶区域数目/总的靶区域数目。
3)平均转化效率:反映出靶向建库方法对起始投入的DNA分子捕获成库的效率。在测序达到饱和的状态下,平均转化效率=捕获的在靶平均分子数/投入的靶分子数
在此实施例中投入了约10ng HEK293T细胞系基因组DNA,约合3300个投入的靶分子。
在此实施例中,样本测序总读序为2507765对,其中2256611对读序可以匹配到基因组中,匹配率为90%。1157871对读序可以正确匹配到预扩增区域,根据UMI对在靶读序进行去重后,共有98150个DNA分子。
根据上述公式进行计算,结果如图4所示,为本发明构建的测序文库的性能参数;其中,在靶率为46.2%。去重后均一性为97.7%,在测序总读序数为2507765的情况下平均转化效率为22.9%。随着测序深度的增加,会检测到更到的起始模板分子,预估计算所得平均转化效率会进一步加大。
本领域技术人员应该理解的是,本发明的使用不受限于上述特定应用。就本文描述或描绘的特定元素和/或特征而言,本发明也不局限于其优选实施方案。应当理解的是,本发明不限于所公开的实施方案例或各个实施方案,且在不脱离由以下权利要求所阐述和限定的本发明的范围的情况下能够进行许多重新布置、修改和替换。
SEQUENCE LISTING
<110> 广州迈景基因医学科技有限公司
<120> 一种PCR随机引物和使用其构建靶向测序文库的方法
<130> 111
<160> 161
<170> PatentIn version 3.3
<210> 1
<211> 9
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 1
agatcggaa 9
<210> 2
<211> 7
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 2
aagtgga 7
<210> 3
<211> 8
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 3
ctgagtcg 8
<210> 4
<211> 6
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 4
agatcg 6
<210> 5
<211> 4
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 5
agat 4
<210> 6
<211> 23
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 6
tcagacgtgt gctcttccga tct 23
<210> 7
<211> 25
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 7
gaacgacatg gctacgatcc gactt 25
<210> 8
<211> 30
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 8
ccatctcatc cctgcgtgtc tccgactcag 30
<210> 9
<211> 20
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 9
gacgtgtgct cttccgatct 20
<210> 10
<211> 2
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 10
gt 2
<210> 11
<211> 3
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 11
gtg 3
<210> 12
<211> 4
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 12
gtga 4
<210> 13
<211> 5
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 13
gtgac 5
<210> 14
<211> 45
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(37)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (40)..(45)
<223> n is a, c, g, or t
<400> 14
agatcggaat cagacgtgtg ctcttccgat ctnnnnngtn nnnnn 45
<210> 15
<211> 46
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(38)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (41)..(46)
<223> n is a, c, g, or t
<400> 15
aagtggagaa cgacatggct acgatccgac ttnnnnnngt nnnnnn 46
<210> 16
<211> 52
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (39)..(44)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (47)..(52)
<223> n is a, c, g, or t
<400> 16
ctgagtcgcc atctcatccc tgcgtgtctc cgactcagnn nnnngtnnnn nn 52
<210> 17
<211> 42
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (30)..(34)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (37)..(42)
<223> n is a, c, g, or t
<400> 17
agatcggaag acgtgtgctc ttccgatctn nnnngtnnnn nn 42
<210> 18
<211> 39
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (27)..(31)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (34)..(39)
<223> n is a, c, g, or t
<400> 18
agatcggacg tgtgctcttc cgatctnnnn ngtnnnnnn 39
<210> 19
<211> 37
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (25)..(29)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (32)..(37)
<223> n is a, c, g, or t
<400> 19
agatgacgtg tgctcttccg atctnnnnng tnnnnnn 37
<210> 20
<211> 46
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(37)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (41)..(46)
<223> n is a, c, g, or t
<400> 20
agatcggaat cagacgtgtg ctcttccgat ctnnnnngtg nnnnnn 46
<210> 21
<211> 47
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(37)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (42)..(47)
<223> n is a, c, g, or t
<400> 21
agatcggaat cagacgtgtg ctcttccgat ctnnnnngtg annnnnn 47
<210> 22
<211> 48
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(37)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (43)..(48)
<223> n is a, c, g, or t
<400> 22
agatcggaat cagacgtgtg ctcttccgat ctnnnnngtg acnnnnnn 48
<210> 23
<211> 45
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(37)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (40)..(45)
<223> n is a, c, g, or t
<400> 23
agatcggaat cagacgtgtg ctcttccgat ctnnnnngtn nnnnn 45
<210> 24
<211> 48
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(40)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (43)..(48)
<223> n is a, c, g, or t
<400> 24
agatcggaat cagacgtgtg ctcttccgat ctnnnnnnnn gtnnnnnn 48
<210> 25
<211> 51
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(43)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (46)..(51)
<223> n is a, c, g, or t
<400> 25
agatcggaat cagacgtgtg ctcttccgat ctnnnnnnnn nnngtnnnnn n 51
<210> 26
<211> 45
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(38)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (41)..(45)
<223> n is a, c, g, or t
<400> 26
agatcggaat cagacgtgtg ctcttccgat ctnnnnnngt nnnnn 45
<210> 27
<211> 48
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(38)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (41)..(48)
<223> n is a, c, g, or t
<400> 27
agatcggaat cagacgtgtg ctcttccgat ctnnnnnngt nnnnnnnn 48
<210> 28
<211> 52
<212> DNA
<213> 人工序列(Artificial sequence)
<220>
<221> misc_feature
<222> (33)..(38)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (41)..(52)
<223> n is a, c, g, or t
<400> 28
agatcggaat cagacgtgtg ctcttccgat ctnnnnnngt nnnnnnnnnn nn 52
<210> 29
<211> 67
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 29
aatgatacgg cgaccaccga gatctacact gttctctaca ctctttccct acacgacgct 60
cttccga 67
<210> 30
<211> 66
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 30
caagcagaag acggcatacg agataggttg gggtgactgg agttcagacg tgtgctcttc 60
cgatct 66
<210> 31
<211> 42
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 31
cctacacgac gctcttccga tctcactcac cgggcgaggg cg 42
<210> 32
<211> 48
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 32
cctacacgac gctcttccga tctctctggg agatcttcac gctggggg 48
<210> 33
<211> 47
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 33
cctacacgac gctcttccga tcttgaaggt gcttggatct ggcgctt 47
<210> 34
<211> 46
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 34
cctacacgac gctcttccga tctttgatga agggcgggct cccatc 46
<210> 35
<211> 46
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 35
cctacacgac gctcttccga tcttgcccat caagtggatg gcgctg 46
<210> 36
<211> 44
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 36
cctacacgac gctcttccga tctaggaagt agcgtggccg ccag 44
<210> 37
<211> 44
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 37
cctacacgac gctcttccga tcttaccgtg cgggcttcgt gctg 44
<210> 38
<211> 43
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 38
cctacacgac gctcttccga tctacggccc ccactgcgtc aag 43
<210> 39
<211> 45
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 39
cctacacgac gctcttccga tctgagcagc agcgaaagcg ccttg 45
<210> 40
<211> 45
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 40
cctacacgac gctcttccga tctcctggcc tacctggtcg ccatg 45
<210> 41
<211> 43
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 41
cctacacgac gctcttccga tctcggcagt ccggcttgga gga 43
<210> 42
<211> 47
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 42
cctacacgac gctcttccga tctcgttcat cgggacttgg cagccag 47
<210> 43
<211> 47
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 43
cctacacgac gctcttccga tctcacaacg tcttggagcg ccagagg 47
<210> 44
<211> 48
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 44
cctacacgac gctcttccga tctctcttga gggccacaaa gtggccac 48
<210> 45
<211> 48
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 45
cctacacgac gctcttccga tctggcgctg tgtcctttca ggatggtg 48
<210> 46
<211> 55
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 46
cctacacgac gctcttccga tctagagaat ctccatttta gcacttacct gtgac 55
<210> 47
<211> 47
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 47
cctacacgac gctcttccga tcttctggat cagctggatg gtcagcg 47
<210> 48
<211> 44
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 48
cctacacgac gctcttccga tcttgcctca cctccaccgt gcag 44
<210> 49
<211> 44
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 49
cctacacgac gctcttccga tctgcagccg aggaggagct ggtg 44
<210> 50
<211> 43
<212> DNA
<213> 人工序列(Artificial sequence)
<400> 50
cctacacgac gctcttccga tcttactggt cccgcatggc gct 43
Claims (7)
1.一种PCR随机引物,其特征在于,所述PCR随机引物从5’端到3’端依次包括成环互补序列、通用序列、UMI序列、UMI定位点和随机序列,其中,所述成环互补序列与所述通用序列中连接UMI序列端的部分序列反向互补;
所述成环互补序列如SEQ ID NO: 1所示;
所述通用序列如SEQ ID NO: 6所示;
所述UMI定位点如SEQ ID NO: 10所示。
2.根据权利要求1所述的PCR随机引物,其特征在于,所述UMI序列的长度为4~20 bp。
3.根据权利要求1所述的PCR随机引物,其特征在于,所述随机序列的长度为5~15 bp。
4.一种试剂盒,其特征在于,包括如权利要求1至3任一项所述的PCR随机引物。
5.一种非诊断治疗目的的PCR扩增方法,其特征在于,包括用如权利要求1至3任一项所述的PCR随机引物或如权利要求4所述的试剂盒进行PCR扩增。
6.一种非诊断治疗目的的构建靶向测序文库的方法,其特征在于,包括如下步骤:
1)将片段化的待测基因组DNA与如权利要求1至3任一项所述的PCR随机引物混合,变性后,迅速冷却处理;
2)将核苷酸单体混合物、核酸聚合酶、缓冲液,和步骤1)的产物混合,进行第一轮PCR扩增;
3)将第一轮PCR扩增的产物作为模板,利用特异性引物进行第二轮PCR扩增。
7.根据权利要求6所述的构建靶向测序文库的方法,其特征在于,步骤3)中,将第一轮PCR扩增的产物作为模板,利用特异性引物、5’接头引物和3’接头引物进行第二轮PCR扩增。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010659213.0A CN111826421B (zh) | 2020-07-09 | 2020-07-09 | 一种pcr随机引物和使用其构建靶向测序文库的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010659213.0A CN111826421B (zh) | 2020-07-09 | 2020-07-09 | 一种pcr随机引物和使用其构建靶向测序文库的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111826421A CN111826421A (zh) | 2020-10-27 |
CN111826421B true CN111826421B (zh) | 2021-09-21 |
Family
ID=72900499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010659213.0A Active CN111826421B (zh) | 2020-07-09 | 2020-07-09 | 一种pcr随机引物和使用其构建靶向测序文库的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111826421B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113355391A (zh) * | 2021-06-04 | 2021-09-07 | 翌圣生物科技(上海)股份有限公司 | 一种用于靶向ffpe rna建库的方法 |
CN117343929B (zh) * | 2023-12-06 | 2024-04-05 | 广州迈景基因医学科技有限公司 | 一种pcr随机引物及用其加强靶向富集的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000071562A1 (en) * | 1999-05-24 | 2000-11-30 | The Public Health Research Institute Of The City Of New York, Inc. | High specificity primers, amplification methods and kits |
CN105925675A (zh) * | 2016-04-26 | 2016-09-07 | 序康医疗科技(苏州)有限公司 | 扩增dna的方法 |
CN106282353A (zh) * | 2016-08-26 | 2017-01-04 | 上海翼和应用生物技术有限公司 | 一种利用发夹引物进行多重pcr的方法 |
CN111315884A (zh) * | 2017-09-08 | 2020-06-19 | 普梭梅根公司 | 测序文库的归一化 |
-
2020
- 2020-07-09 CN CN202010659213.0A patent/CN111826421B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000071562A1 (en) * | 1999-05-24 | 2000-11-30 | The Public Health Research Institute Of The City Of New York, Inc. | High specificity primers, amplification methods and kits |
CN105925675A (zh) * | 2016-04-26 | 2016-09-07 | 序康医疗科技(苏州)有限公司 | 扩增dna的方法 |
CN106282353A (zh) * | 2016-08-26 | 2017-01-04 | 上海翼和应用生物技术有限公司 | 一种利用发夹引物进行多重pcr的方法 |
CN111315884A (zh) * | 2017-09-08 | 2020-06-19 | 普梭梅根公司 | 测序文库的归一化 |
Also Published As
Publication number | Publication date |
---|---|
CN111826421A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6860662B2 (ja) | キメラ生成物の同定のためのバーコードを付けられた環状ライブラリーの構築 | |
JP7393429B2 (ja) | ローリングサークル増幅方法、シーケンシングライブラリの調製方法及び調製されたdnaナノスフィア | |
CN111826421B (zh) | 一种pcr随机引物和使用其构建靶向测序文库的方法 | |
CN108396057B (zh) | 基于长链分子倒置探针的核酸靶向捕获测序文库制备方法 | |
WO2018232598A1 (zh) | Pcr引物对及其应用 | |
CN108138175A (zh) | 用于分子条形码编码的试剂、试剂盒和方法 | |
JP2020536525A (ja) | プローブ及びこれをハイスループットシーケンシングに適用するターゲット領域の濃縮方法 | |
CN114540472A (zh) | 一种新型三代测序方法 | |
CN116162686A (zh) | 肠癌相关基因高通量扩增子文库的制备方法、多重pcr引物对及应用 | |
CN113249437A (zh) | 一种用于sRNA测序的建库方法 | |
CN113913493B (zh) | 一种靶基因区域快速富集方法 | |
CN115996938A (zh) | 用于免校准和多重变体等位基因频率定量的定量阻断剂置换扩增(qbda)测序 | |
WO2018232594A1 (zh) | Pcr引物对及其应用 | |
US11739319B2 (en) | PCR primer pair and application thereof | |
CN114277114A (zh) | 一种扩增子测序添加唯一性标识符的方法及应用 | |
CN113667716A (zh) | 基于滚环扩增的测序文库构建方法及其应用 | |
CN115029424A (zh) | 一种固定化模板多核苷酸配对末端测序方法 | |
WO2021088189A1 (zh) | 一种应用于dna数据存储的寡核苷酸库恒温扩增方法 | |
US20160355870A1 (en) | Generation of ligation-ready dna amplicons | |
CN111074354A (zh) | 一种低丰度dna突变测序文库的构建方法 | |
CN117343929B (zh) | 一种pcr随机引物及用其加强靶向富集的方法 | |
CN114686580B (zh) | 用于核酸样本扩增的组合物、试剂盒、方法及系统 | |
WO2023050968A1 (zh) | 制备dna纳米球的双链dna接头及其制备方法、试剂盒以及它们的用途 | |
CN114686579B (zh) | 用于核酸样本扩增的组合物、试剂盒、方法及系统 | |
US20240018510A1 (en) | Methods for sequencing polynucleotide fragments from both ends |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A PCR random primer and method for constructing targeted sequencing libraries using it Granted publication date: 20210921 Pledgee: Industrial and Commercial Bank of China Limited Guangzhou Dongcheng sub branch Pledgor: GUANGZHOU MYGENE MEDICAL TECHNOLOGY CO.,LTD. Registration number: Y2024980042320 |