CN116547390A - 定量多重扩增子测序系统 - Google Patents
定量多重扩增子测序系统 Download PDFInfo
- Publication number
- CN116547390A CN116547390A CN202180074625.0A CN202180074625A CN116547390A CN 116547390 A CN116547390 A CN 116547390A CN 202180074625 A CN202180074625 A CN 202180074625A CN 116547390 A CN116547390 A CN 116547390A
- Authority
- CN
- China
- Prior art keywords
- umi
- sequence
- family
- ngs
- dna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108091093088 Amplicon Proteins 0.000 title claims abstract description 87
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 47
- 108020004414 DNA Proteins 0.000 claims abstract description 149
- 238000000034 method Methods 0.000 claims abstract description 145
- 238000003752 polymerase chain reaction Methods 0.000 claims abstract description 84
- 238000007481 next generation sequencing Methods 0.000 claims description 354
- 239000002773 nucleotide Substances 0.000 claims description 192
- 125000003729 nucleotide group Chemical group 0.000 claims description 192
- 239000013615 primer Substances 0.000 claims description 127
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 claims description 115
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 claims description 115
- 150000007523 nucleic acids Chemical class 0.000 claims description 53
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 41
- 108090000623 proteins and genes Proteins 0.000 claims description 34
- 238000007622 bioinformatic analysis Methods 0.000 claims description 33
- 239000000203 mixture Substances 0.000 claims description 32
- 239000000872 buffer Substances 0.000 claims description 31
- 230000000295 complement effect Effects 0.000 claims description 28
- 239000003153 chemical reaction reagent Substances 0.000 claims description 27
- 108700028369 Alleles Proteins 0.000 claims description 24
- 238000000746 purification Methods 0.000 claims description 20
- 239000003155 DNA primer Substances 0.000 claims description 15
- 238000001712 DNA sequencing Methods 0.000 claims description 15
- 108020001019 DNA Primers Proteins 0.000 claims description 14
- 230000003321 amplification Effects 0.000 claims description 14
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 14
- 229910052739 hydrogen Inorganic materials 0.000 claims description 13
- 238000002156 mixing Methods 0.000 claims description 12
- 230000002441 reversible effect Effects 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 7
- 230000006862 enzymatic digestion Effects 0.000 claims description 7
- 102000039446 nucleic acids Human genes 0.000 claims description 7
- 108020004707 nucleic acids Proteins 0.000 claims description 7
- 238000006073 displacement reaction Methods 0.000 claims description 6
- 239000007790 solid phase Substances 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 239000004973 liquid crystal related substance Substances 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 claims description 3
- 108010006785 Taq Polymerase Proteins 0.000 claims description 3
- 238000012165 high-throughput sequencing Methods 0.000 abstract description 9
- 238000011002 quantification Methods 0.000 abstract description 8
- 108091034117 Oligonucleotide Proteins 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 abstract 1
- 239000000523 sample Substances 0.000 description 62
- 239000000047 product Substances 0.000 description 40
- 239000012491 analyte Substances 0.000 description 36
- 230000035772 mutation Effects 0.000 description 13
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 13
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 13
- 102000053602 DNA Human genes 0.000 description 12
- 102000040430 polynucleotide Human genes 0.000 description 9
- 108091033319 polynucleotide Proteins 0.000 description 9
- 239000002157 polynucleotide Substances 0.000 description 9
- 229910052700 potassium Inorganic materials 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 239000011324 bead Substances 0.000 description 6
- 238000003766 bioinformatics method Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000137 annealing Methods 0.000 description 4
- 239000013641 positive control Substances 0.000 description 4
- 150000001875 compounds Chemical class 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- IAZDPXIOMUYVGZ-UHFFFAOYSA-N Dimethylsulphoxide Chemical compound CS(C)=O IAZDPXIOMUYVGZ-UHFFFAOYSA-N 0.000 description 2
- TWRXJAOTZQYOKJ-UHFFFAOYSA-L Magnesium chloride Chemical compound [Mg+2].[Cl-].[Cl-] TWRXJAOTZQYOKJ-UHFFFAOYSA-L 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- WCUXLLCKKVVCTQ-UHFFFAOYSA-M Potassium chloride Chemical compound [Cl-].[K+] WCUXLLCKKVVCTQ-UHFFFAOYSA-M 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 108091026898 Leader sequence (mRNA) Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 206010034133 Pathogen resistance Diseases 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 108091036066 Three prime untranslated region Proteins 0.000 description 1
- 108091023045 Untranslated Region Proteins 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000539 dimer Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 229910001629 magnesium chloride Inorganic materials 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- -1 nucleoside triphosphates Chemical class 0.000 description 1
- 239000001103 potassium chloride Substances 0.000 description 1
- 235000011164 potassium chloride Nutrition 0.000 description 1
- 239000002987 primer (paints) Substances 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 238000013366 sequence variant analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 239000001226 triphosphate Substances 0.000 description 1
- 235000011178 triphosphate Nutrition 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6858—Allele-specific amplification
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了定量多重扩增子测序系统的方法,所述系统用于通过聚合酶链式反应用寡核苷酸条形码序列标记原始DNA样品,扩增用于高通量测序的基因组区域并定量DNA样品中的序列。所述方法允许分析包含1至10,000个靶区的DNA样品以用于定量潜在序列变体和野生型分子。
Description
相关申请的交叉引用
本申请要求于2020年11月2日提交的美国临时专利申请第63/108,649号的权益,该美国临时专利申请通过引用整体并入本文。
技术领域
本公开涉及分子生物学和生物信息学领域。更具体地,本公开涉及用于分析DNA样品以定量潜在序列变体和野生型分子的方法。
序列表的并入
本申请包含以ASCII格式电子提交的序列表,其全部内容通过引用并入本文。所述ASCII副本创建于2021年10月7日,命名为P35008WO00_SL.txt,在Microsoft中测量的大小为24,576个字节。
背景技术
由于聚合酶链式反应(PCR)扩增期间聚合酶错误的存在和测序错误,检测具有低等位基因频率的DNA变体是困难的。尽管低频率突变,如癌症突变和病原体耐药性突变,具有重要的临床和生物学信息,但标准的下一代测序(NGS)无法自信地标识变异等位基因频率(VAF)低于大约2%至5%的变体。
在此,提供了用于将唯一分子标识符(UMI)附着到原始核酸分子以准确标识概率对数(LOD)低至0.1%的罕见突变的方法。还提供了一种基于阻断剂位移扩增(BDA)的方法,该方法在野生型分子上富集变体序列,以实现低深度测序的准确定量。
发明内容
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)使DNA样品与以下接触:(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;(ii)第一DNA聚合酶;和(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;(b)使步骤(a)的混合物经受允许引物结合和DNA聚合酶延伸的一种或多种温度;(c)去除非延伸的UMI引物以产生产物;(d)将步骤(c)的产物与以下混合:(i)第二组DNA引物;(ii)第二DNA聚合酶;和(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,以及进行PCR以产生PCR产物;(e)对步骤(d)中产生的PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;(f)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有反抑UMI序列的NGS读段也包含该至少一个靶区的野生型序列;(g)从考虑中去除包含在步骤(f)中所标识的反抑UMI序列的所有NGS读段;和(h)基于步骤(g)中未去除的NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)制备下一代测序(NGS)文库,其中将唯一分子标识符(UMI)序列添加到NGS文库中存在的多个多核苷酸中;(b)获得包括NGS读段的序列文件;(c)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有反抑UMI序列的NGS读段也包含该至少一个靶区的野生型序列;(d)从考虑中去除包含在步骤(c)中所标识的反抑UMI序列的所有NGS读段;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
在一个方面,本公开提供了一种方法,该方法包括:(a)从所标记的基因组样品中扩增不同的初始靶DNA分子群体,从而产生扩增的靶DNA分子群体,其中包含多态性靶序列的不同的初始靶DNA分子用不同的唯一分子标识符(UMI)序列进行标记,其中UMI序列包含至少一个选自R、Y、S、W、K、M、B、D、H、V、N及其修饰版本的核苷酸碱基,并且其中多个扩增的靶DNA分子中的每个靶DNA分子包含多态性靶序列和不同UMI序列的相关联的UMI序列;(b)对多个扩增的靶DNA分子进行测序,从而产生多个NGS序列读段,其中该测序步骤为被测序的扩增的靶DNA分子中的每个靶DNA分子提供以下序列的核苷酸序列:(i)至少一部分多态性靶序列;和(ii)UMI序列的相关联的UMI序列;(c)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有反抑UMI序列的NGS读段也包含该至少一个靶区的WT序列;(d)从考虑中去除包含在步骤(c)中所标识的反抑UMI序列的所有NGS读段;和基于步骤(d)中未去除的NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
在一个方面,本公开提供了一种分析核酸序列的方法,该方法包括:(a)将来自唯一分子标识符(UMI)池的UMI附着到多个分析物核酸片段的每条链的第一端以形成多个被唯一标识的分析物核酸片段,其中UMI池超过多个分析物核酸片段的数量;(b)冗余确定被唯一标识的分析物核酸片段的核苷酸序列以产生下一代测序(NGS)读段,其中共享UMI的所确定的核苷酸序列形成UMI家族;(c)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有反抑UMI序列的NGS读段也包含该至少一个靶区的WT序列;(d)从考虑中去除包含在步骤(c)中所标识的反抑UMI序列的所有NGS读段;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)使DNA样品与以下接触:(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;(ii)第一DNA聚合酶;和(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;(b)使步骤(a)的混合物经受允许引物结合和DNA聚合酶延伸的一种或多种温度;(c)去除非延伸的UMI引物以产生产物;(d)将步骤(c)的产物与以下混合:(i)第二组DNA引物;(ii)第二DNA聚合酶;和(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,以及进行PCR以产生PCR产物;(e)对步骤(d)中产生的PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;(f)将NGS读段分组为至少一个UMI家族,其中在UMI家族内的每个NGS读段包含同一UMI序列并与相同的扩增子比对;(g)对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有GNS读段,其中低于阈值的UMIT家族具有小于X的大小,其中X是扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;和(h)基于步骤(g)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)制备下一代测序(NGS)文库,其中将唯一分子标识符(UMI)序列添加到NGS文库中存在的多个多核苷酸中;(b)获得包括NGS读段的序列文件;(c)将NGS读段分组为至少一个UMI家族,其中在UMI家族内的每个NGS读段包含同一UMI序列并与相同的扩增子比对;(d)对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有GNS读段,其中低于阈值的UMIT家族具有小于X的大小,其中X是扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种测序方法,其包括:(a)从所标记的基因组样品中扩增不同的初始靶DNA分子群体,从而产生扩增的靶DNA分子群体,其中包含多态性靶序列的不同的初始靶DNA分子用不同的唯一分子标识符(UMI)序列进行标记,其中UMI序列包含至少一个选自R、Y、S、W、K、M、B、D、H、V、N及其修饰版本的核苷酸碱基,并且其中多个扩增的靶DNA分子中的每个靶DNA分子包含多态性靶序列和不同UMI序列的相关联的UMI序列;(b)对多个扩增的靶DNA分子进行测序,从而产生多个NGS序列读段,其中该测序步骤为被测序的扩增的靶DNA分子中的每个靶DNA分子提供以下序列的核苷酸序列:(i)至少一部分多态性靶序列;和(ii)UMI序列的相关联的UMI序列;(c)将NGS读段分组为至少一个UMI家族,其中在UMI家族内每个NGS读段包含同一UMI序列并与相同的多态性靶序列比对;(d)对于每个多态性靶序列,从考虑中去除低于阈值的UMI家族中的所有NGS读段;其中低于阈值的UMI家族具有小于X的大小,其中X是扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种分析核酸序列的方法,该方法包括:(a)将来自唯一分子标识符(UMI)池的UMI附着到多个分析物核酸片段的每条链的第一端以形成多个被唯一标识的分析物核酸片段,其中UMI池超过多个分析物核酸片段的数量;(b)冗余确定被唯一标识的分析物核酸片段的核苷酸序列以产生下一代测序(NGS)读段,其中共享UMI的所确定的核苷酸序列形成UMI家族;(c)对于每个多态性靶序列,从考虑中去除低于阈值的UMI家族中的所有NGS读段,其中低于阈值的UMI家族具有小于X的大小,其中X是扩增子的最大ZUMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;和(d)基于步骤(c)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)使DNA样品与以下接触:(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;(ii)第一DNA聚合酶;和(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;(b)使步骤(a)的混合物经受允许引物结合和DNA聚合酶延伸的一种或多种温度;(c)去除非延伸的UMI引物以产生产物;(d)将步骤(c)的产物与以下混合:(i)第二组DNA引物;(ii)第二DNA聚合酶;和(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,以及进行PCR以产生PCR产物;(e)对步骤(d)中产生的PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;(f)将NGS读段至少分组为第一UMI家族和第二UMI家族,其中在第一UMI家族内的每个NGS读段包含同一UMI序列并与共同扩增子比对,其中在第二UMI家族内的每个NGS读段包含同一UMI序列并与共同扩增子比对,并且其中第一UMI家族的UMI序列与第二UMI家族的UMI序列相比相差1个核苷酸或2个核苷酸;(g)从考虑中去除在第一UMI家族和第二UMI家族之间具有最少NGS读段的UMI家族中的NGS读段;和(h)基于步骤(g)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)制备下一代测序(NGS)文库,其中将唯一分子标识符(UMI)序列添加到NGS文库中存在的多个多核苷酸中;(b)获得包括NGS读段的序列文件;(c)将NGS读段至少分组为第一UMI家族和第二UMI家族,其中在第一UMI家族内每个NGS读段包含同一UMI序列并与共同扩增子比对,其中在第二UMI家族内的每个NGS读段包含同一UMI序列并与共同扩增子比对,并且其中第一UMI家族的UMI序列与第二UMI家族的UMI序列相比相差1个核苷酸或2个核苷酸;(d)从考虑中去除在第一UMI家族和第二UMI家族之间具有最少NGS读段的UMI家族中的NGS读段;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种测序方法,该方法包括:(a)从所标记的基因组样品中扩增不同的初始靶DNA分子群体,从而产生扩增的靶DNA分子群体,其中包含多态性靶序列的不同的初始靶DNA分子用不同的唯一分子标识符(UMI)序列进行标记,其中UMI序列包含至少一个选自R、Y、S、W、K、M、B、D、H、V、N及其修饰版本的核苷酸碱基,并且其中多个扩增的靶DNA分子中的每个靶DNA分子包含多态性靶序列和不同UMI序列的相关联的UMI序列;(b)对多个扩增的靶DNA分子进行测序,从而产生多个NGS序列读段,其中该测序步骤为被测序的扩增的靶DNA分子中的每个靶DNA分子提供以下序列的核苷酸序列:(i)至少一部分多态性靶序列;和(ii)UMI序列的相关联的UMI序列;(c)将NGS读段至少分组为第一UMI家族和第二UMI家族,其中在第一UMI家族内的每个NGS读段包含同一UMI序列并与多态性靶序列比对,其中在第二UMI家族内的每个NGS读段包含同一UMI序列并与多态性靶序列比对,并且其中第一UMI家族的UMI序列与第二UMI家族的UMI序列相比相差1个核苷酸或2个核苷酸;(d)从考虑中去除在第一UMI家族和第二UMI家族之间具有最少NGS读段的UMI家族中的NGS读段;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种分析核酸序列的方法,该方法包括:(a)将来自唯一分子标识符(UMI)池的UMI附着到多个分析物核酸片段的每条链的第一端以形成多个被唯一标识的分析物核酸片段,其中UMI池超过多个分析物核酸片段的数量;(b)冗余确定被唯一标识的分析物核酸片段的核苷酸序列以产生下一代测序(NGS)读段,其中共享UMI的所确定的核苷酸序列形成UMI家族;(c)将所确定的核苷酸序列至少分组为第一UMI家族和第二UMI家族,其中在第一UMI家族内的每个所确定的核苷酸序列包含同一UMI序列并与共同扩增子比对,其中在第二UMI家族内的每个所确定的核苷酸序列包含同一UMI序列并与共同扩增子比对,并且其中第一UMI家族的UMI序列与第二UMI家族的UMI序列相比相差1个核苷酸或2个核苷酸;(d)从考虑中去除在第一UMI家族和第二UMI家族之间具有最少所确定的核苷酸序列的UMI家族中的NGS读段;和(e)基于剩余所确定的核苷酸序列的生物信息学分析生成序列变体调用。
附图说明
图1描绘了下一代测序(NGS)文库制备的示意图。UMI:唯一分子标识符;NGS:下一代测序
图2描绘了实例1中所讨论的应用的非限制性实施例。
图3描绘了在野生型序列上富集变异序列的定量阻断剂置换扩增(QBDA)工作流程的示意图。
图4描绘了定量扩增子测序(QASeq)工作流程,其中在扩增过程中没有序列偏好。
图5描绘了QBDA分析工作流程的示意图。三个模块(例如,WTveto;最近邻检查;动态临界值)可以按任何顺序或以任何组合执行,用于数据分析。
图6描绘了距离阈值为1的最近邻检查的示意图。
图7描绘了WTveto的示意图
图8包括图A、B和C。图8描绘了具有不同唯一分子标识符(UMI)家族大小分布的两个突变的动态临界值的图示。图A描绘了突变1(黑色)和突变2(灰色)的总体UMI家族大小分布。图A中以灰色突出显示的区域针对突变1(图B)和突变2(图C)进行了扩张。
图9描绘了非小细胞肺癌(NSCLC)QBDA小组的最高基因型到唯一分子标识符(UMI)的分配。
图10包括图A和图B。图10描绘了通过动态临界值(图A)进行的唯一分子标识符(UMI)定量与没有任何临界值测量的UMI定量(图B)相比与测序读段深度无关。对100万(1M)读段的完整数据集和通过随机下采样至600,000(600K)读段产生的子样品进行NSCLC QBDA小组测序数据分析。
图11描绘了具有UMI校正(动态临界值和最近邻检查)相对于无UMI校正的30ngNSCLC小组gBlock掺入标准品的唯一分子标识符(UMI)定量。
图12描绘了替代QBDA工作流程。与图3相比,替代QBDA工作流程消除了通用PCR扩增步骤,并消除了BDA扩增后的纯化。
具体实施方式
除非另外定义,否则所使用的所有技术术语和科学术语具有与本公开所属领域的普通技术人员通常所理解的含义相同的含义。在以单数形式提供术语的情况下,本发明的发明人还设想了以所述术语的复数形式描述的本公开的各个方面。在通过引用并入的参考文献中所使用的术语和定义存在差异的情况下,本申请中使用的术语应具有本文给出的定义。所使用的其它技术术语在其被使用的领域中具有其普通含义,如各种领域特定词典所例示的,例如“《American科学词典》)”(《美国传统词典(American HeritageDictionaries)》的编辑,2011,波士顿和纽约霍顿米夫林出版公司(Houghton MifflinHarcourt,Boston and New York))、“《麦格劳-希尔科学技术术语词典(McGraw-HillDictionary of Scientific and Technical Terms)》”(第6版,2002,纽约麦格劳-希尔出版公司(McGraw-Hill,New York))或“《牛津生物学词典(Oxford Dictionary ofBiology)》”(第6版,2008,牛津和纽约牛津大学出版社(Oxford University Press,Oxfordand New York))。
包含例如所有专利、公开的专利申请和非专利出版物的本文引用的任何参考文献以全文引用的方式并入本文中。
本文所提供的任何组合物被具体地设想用于本文所提供的任何适用方法。
当呈现一组替代方案时,具体地设想了构成所述组替代方案的成员的任何和所有组合。例如,如果项选自由A、B、C和D组成的组,则发明人将单独地具体地设想每个替代方案(例如,单独的A、单独的B等)以及如A、B和D;A和C;B和C等组合。
术语“和/或”在两个或更多个项目的列表中使用时是指所列项目中的任何一个本身或与任何一个或多个其它所列项目的组合。例如,表达“A和/或B”旨在意指A和B中的一个或两者,即单独的A、单独的B或A和B的组合。表达“A、B和/或C″旨在意指单独的A、单独的B、单独的C、A和B的组合、A和C的组合、B和C的组合、或A、B和C的组合。
当本文中提供数字范围时,所述范围应被理解为包含所述范围的边缘以及所述范围的限定边缘之间的任何数字。例如,“1与10之间”包含1与10之间的任何数字以及数字1和数字10。
如本文所用,除非上下文清楚地另外指明,单数形式“一个”、“一种”以及“所述”包含复数指示物。例如,术语“化合物”或“至少一种化合物”可以包含多种化合物,包含其混合物。如本文所用,术语“多个”是指大于一个的任何数量。
本公开提供了用于从各种样品大小检测罕见DNA变体的方法。本公开提供了三种不同的工作流程,这三种工作流程可单独使用或以任何组合使用以检测和/或定量DNA变体:WTveto、最近邻检查和动态临界值。对于每种方法,获得包括序列读段的测序数据,每个序列读段含有唯一分子标识符(UMI)。对于WTveto,当标识出超过X个拷贝的野生型(WT)基因型时,可以将特定UMI分配给WT基因型。对于最近邻检查,将UMI与具有相关序列的其它UMI进行比较以产生UMI家族,并且仅保留最大的UMI家族。对于动态临界值,确定平均最大ZUMI家族大小的X%,并且舍弃家族大小等于或低于临界值的UMI。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)使DNA样品与以下接触:(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;(ii)第一DNA聚合酶;和(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;(b)使步骤(a)的混合物经受允许引物结合和DNA聚合酶延伸的一种或多种温度;(c)去除非延伸的UMI引物以产生产物;(d)将步骤(c)的产物与以下混合:(i)第二组DNA引物;(ii)第二DNA聚合酶;和(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,以及进行PCR以产生PCR产物;(e)对步骤(d)中产生的PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;(f)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有反抑UMI序列的NGS读段也包含该至少一个靶区的野生型序列;(g)从考虑中去除包含在步骤(f)中所标识的反抑UMI序列的所有NGS读段;和(h)基于步骤(g)中未去除的NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)制备下一代测序(NGS)文库,其中将唯一分子标识符(UMI)序列添加到NGS文库中存在的多个多核苷酸中;(b)获得包括NGS读段的序列文件;(c)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有反抑UMI序列的NGS读段也包含该至少一个靶区的野生型序列;(d)从考虑中去除包含在步骤(c)中所标识的反抑UMI序列的所有NGS读段;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
在一个方面,本公开提供了一种方法,其包括:(a)从所标记的基因组样品中扩增不同的初始靶DNA分子群体,从而产生扩增的靶DNA分子群体,其中包含多态性靶序列的不同的初始靶DNA分子用不同的唯一分子标识符(UMI)序列进行标记,其中UMI序列包含至少一个选自R、Y、S、W、K、M、B、D、H、V、N及其修饰版本的核苷酸碱基,并且其中多个扩增的靶DNA分子中的每个靶DNA分子包含多态性靶序列和不同UMI序列的相关联的UMI序列;(b)对多个扩增的靶DNA分子进行测序,从而产生多个NGS序列读段,其中该测序步骤为被测序的扩增的靶DNA分子中的每个靶DNA分子提供以下序列的核苷酸序列:(i)至少一部分多态性靶序列;和(ii)UMI序列的相关联的UMI序列;(c)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有反抑UMI序列的NGS读段也包含该至少一个靶区的WT序列;(d)从考虑中去除包含在步骤(c)中所标识的反抑UMI序列的所有NGS读段;和基于步骤(d)中未去除的NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
在一个方面,本公开提供了一种分析核酸序列的方法,该方法包括:(a)将来自唯一分子标识符(UMI)池的UMI附着到多个分析物核酸片段的每条链的第一端以形成多个被唯一标识的分析物核酸片段,其中UMI池超过多个分析物核酸片段的数量;(b)冗余确定被唯一标识的分析物核酸片段的核苷酸序列以产生下一代测序(NGS)读段,其中共享UMI的所确定的核苷酸序列形成UMI家族;(c)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有反抑UMI序列的NGS读段也包含该至少一个靶区的WT序列;(d)从考虑中去除包含在步骤(c)中所标识的反抑UMI序列的所有NGS读段;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)使DNA样品与以下接触:(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;(ii)第一DNA聚合酶;和(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;(b)使步骤(a)的混合物经受允许引物结合和DNA聚合酶延伸的一种或多种温度;(c)去除非延伸的UMI引物以产生产物;(d)将步骤(c)的产物与以下混合:(i)第二组DNA引物;(ii)第二DNA聚合酶;和(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,以及进行PCR以产生PCR产物;(e)对步骤(d)中产生的PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;(f)将NGS读段分组为至少一个UMI家族,其中在UMI家族内的每个NGS读段包含同一UMI序列并与相同的扩增子比对;(g)对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有GNS读段,其中低于阈值的UMIT家族具有小于X的大小,其中X是扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;和(h)基于步骤(g)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)制备下一代测序(NGS)文库,其中将唯一分子标识符(UMI)序列添加到NGS文库中存在的多个多核苷酸中;(b)获得包括NGS读段的序列文件;(c)将NGS读段分组为至少一个UMI家族,其中在UMI家族内每个NGS读段包含同一UMI序列并与相同的扩增子比对;(d)对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有GNS读段,其中低于阈值的UMIT家族具有小于X的大小,其中X是扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种测序方法,其包括:(a)从所标记的基因组样品中扩增不同的初始靶DNA分子群体,从而产生扩增的靶DNA分子群体,其中包含多态性靶序列的不同的初始靶DNA分子用不同的唯一分子标识符(UMI)序列进行标记,其中UMI序列包含至少一个选自R、Y、S、W、K、M、B、D、H、V、N及其修饰版本的核苷酸碱基,并且其中多个扩增的靶DNA分子中的每个靶DNA分子包含多态性靶序列和不同UMI序列的相关联的UMI序列;(b)对多个扩增的靶DNA分子进行测序,从而产生多个NGS序列读段,其中该测序步骤为被测序的扩增的靶DNA分子中的每个靶DNA分子提供以下序列的核苷酸序列:(i)至少一部分多态性靶序列;和(ii)UMI序列的相关联的UMI序列;(c)将NGS读段分组为至少一个UMI家族,其中在UMI家族内每个NGS读段包含同一UMI序列并与相同的多态性靶序列比对;(d)对于每个多态性靶序列,从考虑中去除低于阈值的UMI家族中的所有NGS读段;其中低于阈值的UMI家族具有小于X的大小,其中X是扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种分析核酸序列的方法,该方法包括:(a)将来自唯一分子标识符(UMI)池的UMI附着到多个分析物核酸片段的每条链的第一端以形成多个被唯一标识的分析物核酸片段,其中UMI池超过多个分析物核酸片段的数量;(b)冗余确定被唯一标识的分析物核酸片段的核苷酸序列,以产生下一代测序(NGS)读段,其中共享UMI的所确定的核苷酸序列形成UMI家族;(c)对于每个多态性靶序列,从考虑中去除低于阈值的UMI家族中的所有NGS读段,其中低于阈值的UMI家族具有小于X的大小,其中X是扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;和(d)基于步骤(c)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)使DNA样品与以下接触:(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;(ii)第一DNA聚合酶;和(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;(b)使步骤(a)的混合物经受允许引物结合和DNA聚合酶延伸的一种或多种温度;(c)去除非延伸的UMI引物以产生产物;(d)将步骤(c)的产物与以下混合:(i)第二组DNA引物;(ii)第二DNA聚合酶;和(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,以及进行PCR以产生PCR产物;(e)对步骤(d)中产生的PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;(f)将NGS读段至少分组为第一UMI家族和第二UMI家族,其中在第一UMI家族内每个NGS读段包含同一UMI序列并与共同扩增子比对,其中在第二UMI家族内每个NGS读段包含同一UMI序列并与共同扩增子比对,并且其中第一UMI家族的UMI序列与第二UMI家族的UMI序列相比相差1个核苷酸或2个核苷酸;(g)从考虑中去除在第一UMI家族和第二UMI家族之间具有最少NGS读段的UMI家族中的NGS读段;和(h)基于步骤(g)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,该方法包括:(a)制备下一代测序(NGS)文库,其中将唯一分子标识符(UMI)序列添加到NGS文库中存在的多个多核苷酸中;(b)获得包括NGS读段的序列文件;(c)将NGS读段至少分组为第一UMI家族和第二UMI家族,其中在第一UMI家族内的每个NGS读段包含同一UMI序列并与共同扩增子比对,其中在第二UMI家族内的每个NGS读段包含同一UMI序列并与共同扩增子比对,并且其中第一UMI家族的UMI序列与第二UMI家族的UMI序列相比相差1个核苷酸或2个核苷酸;(d)从考虑中去除在第一UMI家族和第二UMI家族之间具有最少NGS读段的UMI家族中的NGS读段;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种测序方法,该方法包括:(a)从所标记的基因组样品中扩增不同的初始靶DNA分子群体,从而产生扩增的靶DNA分子群体,其中包含多态性靶序列的不同的初始靶DNA分子用不同的唯一分子标识符(UMI)序列进行标记,其中UMI序列包含至少一个选自R、Y、S、W、K、M、B、D、H、V、N及其修饰版本的核苷酸碱基,并且其中多个扩增的靶DNA分子中的每个靶DNA分子包含多态性靶序列和不同UMI序列的相关联的UMI序列;(b)对多个扩增的靶DNA分子进行测序,从而产生多个NGS序列读段,其中该测序步骤为被测序的扩增的靶DNA分子中的每个靶DNA分子提供以下序列的核苷酸序列:(i)至少一部分多态性靶序列;和(ii)UMI序列的相关联的UMI序列;(c)将NGS读段至少分组为第一UMI家族和第二UMI家族,其中在第一UMI家族内的每个NGS读段包含同一UMI序列并与多态性靶序列比对,其中在第二UMI家族内的每个NGS读段包含同一UMI序列并与多态性靶序列比对,并且其中第一UMI家族的UMI序列与第二UMI家族的UMI序列相比相差1个核苷酸或2个核苷酸;(d)从考虑中去除在第一UMI家族和第二UMI家族之间具有最少NGS读段的UMI家族中的NGS读段;和(e)基于步骤(d)中未去除的NGS读段的生物信息学分析生成序列变体调用。
在一个方面,本公开提供了一种分析核酸序列的方法,该方法包括:(a)将来自唯一分子标识符(UMI)池的UMI附着到多个分析物核酸片段的每条链的第一端以形成多个被唯一标识的分析物核酸片段,其中UMI池超过多个分析物核酸片段的数量;(b)冗余确定被唯一标识的分析物核酸片段的核苷酸序列以产生下一代测序(NGS)读段,其中共享UMI的所确定的核苷酸序列形成UMI家族;(c)将所确定的核苷酸序列至少分组为第一UMI家族和第二UMI家族,其中在第一UMI家族内的每个所确定的核苷酸序列包含同一UMI序列并与共同扩增子比对,其中在第二UMI家族内的每个所确定的核苷酸序列包含同一UMI序列并与共同扩增子比对,并且其中第一UMI家族的UMI序列与第二UMI家族的UMI序列相比相差1个核苷酸或2个核苷酸;(d)从考虑中去除在第一UMI家族和第二UMI家族之间具有最少所确定的核苷酸序列的UMI家族中的NGS读段;和(e)基于剩余所确定的核苷酸序列的生物信息学分析生成序列变体调用。
如本文所用,“DNA”指脱氧核糖核酸。DNA可以是单链的,也可以是双链的。DNA通常包含四种核苷酸:胞嘧啶(C)、鸟嘌呤(G)、腺嘌呤(A)和胸腺嘧啶(T)。在一个方面,本文提供的DNA分子序列包括一个或多个简并核苷酸。如本文所用,“简并核苷酸”是指能够与结构不同的核苷酸执行相同功能或产生相同输出的核苷酸。简并核苷酸的非限制性实例包含C、G或T核苷酸(B);A、G或T核苷酸(D);A、C或T核苷酸(H);G或T核苷酸(K);A或C核苷酸(M);任何核苷酸(N);A或G核苷酸(R);G或C核苷酸(S);A、C或G核苷酸(V);A或T核苷酸(W)以及C或T核苷酸(Y)。
在一个方面,UMI序列包含7个简并核苷酸至30个简并核苷酸。在一个方面,UMI序列包含5个简并核苷酸至40个简并核苷酸。在一个方面,UMI序列包含10个简并核苷酸至20个简并核苷酸。在一个方面,UMI序列包含至少5个简并核苷酸。在一个方面,UMI序列包含至少7个简并核苷酸。在一个方面,UMI序列包含至少10个简并核苷酸。在一个方面,UMI序列包含至少15个简并核苷酸。在一个方面,UMI序列包含少于50个简并核苷酸。在一个方面,UMI序列包含少于40个简并核苷酸。在一个方面,UMI序列包含少于30个简并核苷酸。在一个方面,UMI序列包含少于20个简并核苷酸。
在一个方面,UMI序列中的每个简并核苷酸选自由N、B、D、H、V、S、W、Y、R、M和K组成的群组。
在一个方面,UMI序列包含7个简并核苷酸至30个简并核苷酸,其中每个简并核苷酸选自由N、B、D、H、V、S、W、Y、R、M和K组成的群组。
在一个方面,序列变体调用包括当NGS读段的UMI序列不包括适当的简并碱基设计模式时,去除NGS读段。如本文所用,“适当的简并碱基设计模式”是指包含用于给定方法的预期数量的简并碱基和预期类型的简并碱基的UMI序列。不适当的简并碱基设计的非限制性实例将包括包含太多简并碱基或太少简并碱基的UMI序列。
如本文所用,“靶区”是指目标DNA区域。在一个方面,靶区包含基因序列。在一个方面,靶区包含外显子序列。在一个方面,靶区包含内含子序列。在一个方面,靶区包含5′非翻译区(UTR)序列。在一个方面,靶区包含3'UTR序列。在一个方面,靶区包含至少5个核苷酸。在一个方面,靶区包含至少25个核苷酸。在一个方面,靶区包含至少50个核苷酸。在一个方面,靶区包含至少100个核苷酸。在一个方面,靶区包含至少500个核苷酸。在一个方面,靶区包含至少1000个核苷酸。在一个方面,靶区包含至少5000个核苷酸。在一个方面,靶区包含5个核苷酸至10,000个核苷酸。在一个方面,靶区包含5个核苷酸至5,000个核苷酸。在一个方面,靶区包含5个核苷酸至1,000个核苷酸。在一个方面,靶区包含5个核苷酸至500个核苷酸。在一个方面,靶区包含5个核苷酸至100个核苷酸。
在一个方面,本文提供的DNA样品包含1个靶区至10,000个靶区。在一个方面,本文提供的DNA样品包含1个靶区至100,000个靶区。在一个方面,本文提供的DNA样品包含1个靶区至1000个靶区。在一个方面,本文提供的DNA样品包含1个靶区至500个靶区。在一个方面,本文提供的DNA样品包含1个靶区至100个靶区。在一个方面,本文提供的DNA样品包含1个靶区至10个靶区。在一个方面,本文提供的DNA样品包含至少1个靶区。在一个方面,本文提供的DNA样品包含至少2个靶区。在一个方面,本文提供的DNA样品包含至少10个靶区。在一个方面,本文提供的DNA样品包含至少50个靶区。在一个方面,本文提供的DNA样品包含至少100个靶区。在一个方面,本文提供的DNA样品包含至少1000个靶区。在一个方面,本文提供的DNA样品包含至少10,000个靶区。在一个方面,本文提供的DNA样品包含至少100,000个靶区。
在一个方面,靶区包含至少1个序列变体。在一个方面,靶区包含至少2个序列变体。在一个方面,靶区包含至少5个序列变体。在一个方面,靶区包含至少10个序列变体。在一个方面,靶区包含至少20个序列变体。
在一个方面,靶区的序列变体以至少0.1%的频率存在于群体中。在一个方面,靶区的序列变体以至少0.25%的频率存在于群体中。在一个方面,靶区的序列变体以至少0.5%的频率存在。在一个方面,靶区的序列变体以至少0.75%的频率存在。在一个方面,靶区的序列变体以至少1%的频率存在于群体中。在一个方面,靶区的序列变体以至少1.5%的频率存在于群体中。在一个方面,靶区的序列变体以至少2%的频率存在于群体中。在一个方面,靶区的序列变体以至少2.5%的频率存在于群体中。在一个方面,靶区的序列变体以至少3%的频率存在于群体中。在一个方面,靶区的序列变体以至少4%的频率存在于群体中。在一个方面,靶区的序列变体以至少5%的频率存在于群体中。在一个方面,靶区的序列变体以至少6%的频率存在于群体中。在一个方面,靶区的序列变体以至少7%的频率存在于群体中。在一个方面,靶区的序列变体以至少8%的频率存在于群体中。在一个方面,靶区的序列变体以至少9%的频率存在于群体中。在一个方面,靶区的序列变体以至少10%的频率存在于群体中。在一个方面,靶区的序列变体以介于0.1%和10%的频率存在于群体中。在一个方面,靶区的序列变体以介于0.1%和7.5%的频率存在于群体中。在一个方面,靶区的序列变体以介于0.1%和5%的频率存在于群体中。在一个方面,靶区的序列变体以介于0.1%和2.5%的频率存在于群体中。在一个方面,靶区的序列变体以介于0.1%和1%的频率存在于群体中。在一个方面,靶区的序列变体以介于0.5%和5%的频率存在于群体中。在一个方面,靶区的序列变体以介于0.5%和2.5%的频率存在于群体中。在一个方面,靶区的序列变体以介于2%和5%的频率存在于群体中。
如本文所用,“序列变体”是指与靶区的参考或“野生型”序列相比,序列中至少一个核苷酸的变化。如本文所用,“序列变体调用”是指与野生型序列相比,将序列标识为包含序列变体。如本文所用,“野生型序列”是指给定基因或扩增子的参考序列。在一个方面,序列变体是指靶区的等位基因。如本文所用,“DNA变体分子”是指包含序列变体的DNA分子。
在一个方面,序列变体包含单核苷酸多态性(SNP)。在一个方面,序列变体包含至少一个核苷酸的插入。在一个方面,序列变体包含至少一个核苷酸的缺失。在一个方面,序列变体包含至少两个核苷酸的倒位。
在一个方面,至少一个靶区的参考序列包含针对每个靶区的多个DNA序列,每个靶区包含群体等位基因频率大于0.1%的单核苷酸多态性等位基因。在一个方面,至少一个靶区的参考序列包含针对每个靶区的多个DNA序列,每个靶区包含群体等位基因频率大于0.25%的单核苷酸多态性等位基因。在一个方面,至少一个靶区的参考序列包含针对每个靶区的多个DNA序列,每个靶区包含群体等位基因频率大于0.5%的单核苷酸多态性等位基因。在一个方面,至少一个靶区的参考序列包含针对每个靶区的多个DNA序列,每个靶区包含群体等位基因频率大于1%的单核苷酸多态性等位基因。在一个方面,至少一个靶区的参考序列包含针对每个靶区的多个DNA序列,每个靶区包含群体等位基因频率大于1.5%的单核苷酸多态性等位基因。在一个方面,至少一个靶区的参考序列包含针对每个靶区的多个DNA序列,每个靶区包含群体等位基因频率大于2%的单核苷酸多态性等位基因。在一个方面,至少一个靶区的参考序列包含针对每个靶区的多个DNA序列,每个靶区包含群体等位基因频率介于0.1%和5%之间的单核苷酸多态性等位基因。在一个方面,至少一个靶区的参考序列包含针对每个靶区的多个DNA序列,每个靶区包含群体等位基因频率介于0.1%和2.5%的单核苷酸多态性等位基因。
在一个方面,本公开提供了唯一分子标识符(UMI)。如本文所用,“唯一分子标识符”是指用作单个分子的分子条形码的唯一核苷酸序列。UMI通常附着到样品文库中的DNA分子,以唯一标记每个分子。UMI能够在DNA分子测序期间进行纠错并提高准确性。
如本文所用,“UMI家族”是指包含同一UMI序列且也与相同扩增子比对的一组NGS读段。在一个方面,UMI家族包含至少1个NGS读段。在一个方面,UMI家族包含至少2个NGS读段。在一个方面,UMI家族包含至少5个NGS读段。在一个方面,UMI家族包含至少10个NGS读段。在一个方面,UMI家族包含至少50个NGS读段。在一个方面,UMI家族包含至少100个NGS读段。在一个方面,UMI家族包含至少500个NGS读段。在一个方面,UMI家族包含至少1000个NGS读段。在一个方面,UMI家族包含至少2500个NGS读段。在一个方面,UMI家族包含1个NGS读段至10,000个NGS读段。在一个方面,UMI家族包含1个NGS读段至5,000个NGS读段。在一个方面,UMI家族包含1个NGS读段至1000个NGS读段。在一个方面,UMI家族包含1个NGS读段至100个NGS读段。
在一个方面,序列变体调用包括标识UMI家族序列。如本文所用,“UMI家族序列”是指UMI家族内最常见的核苷酸序列。
在一个方面,序列变体调用包括在1个NGS读段至100个NGS读段包含同一UMI序列时,去除NGS读段。在一个方面,序列变体调用包括在1个NGS读段至10个NGS读段包含同一UMI序列时,去除NGS读段。在一个方面,序列变体调用包括在1个NGS读段至1000个NGS读段包含同一UMI序列时,去除NGS读段。在一个方面,序列变体调用包括在2个NGS读段至100个NGS读段包含同一UMI序列时,去除NGS读段。在一个方面,序列变体调用包括在2个NGS读段至10个NGS读段包含同一UMI序列时,去除NGS读段。在一个方面,序列变体调用包括在2个NGS读段至1000个NGS读段包含同一UMI序列时,去除NGS读段。
在一个方面,序列变体调用包括在至少2个NGS读段包含同一UMI序列时,去除NGS读段。在一个方面,序列变体调用包括在至少10个NGS读段包含同一UMI序列时,去除NGS读段。在一个方面,序列变体调用包括在至少50个NGS读段包含同一UMI序列时,去除NGS读段。
如本文所用,“扩增子”是指通过PCR制备的DNA拷贝。
在一个方面,本公开提供了UMI引物。如本文所用,“UMI引物”是包含UMI序列和与靶区子序列互补的基因特异性序列的寡核苷酸分子。在一个方面,基因特异性序列与靶区子序列100%互补。在一个方面,基因特异性序列与靶区子序列至少99%互补。在一个方面,基因特异性序列与靶区子序列至少98%互补。在一个方面,基因特异性序列与靶区子序列至少97%互补。在一个方面,基因特异性序列与靶区子序列至少96%互补。在一个方面,基因特异性序列与靶区子序列至少95%互补。在一个方面,基因特异性序列与靶区子序列至少90%互补。在一个方面,基因特异性序列与靶区子序列至少85%互补。在一个方面,基因特异性序列与靶区子序列至少80%互补。
如本文所用,与全长靶区相比,“靶区子序列”包含至少1个核苷酸。在一个方面,靶区子序列包含至少5个核苷酸。在一个方面,靶区子序列包含至少15个核苷酸。在一个方面,靶区子序列包含至少25个核苷酸。在一个方面,靶区子序列包含至少35个核苷酸。在一个方面,靶区子序列包含至少50个核苷酸。在一个方面,靶区子序列包含至少75个核苷酸。在一个方面,靶区子序列包含至少100个核苷酸。在一个方面,靶区子序列包含5至500个核苷酸。在一个方面,靶区子序列包含5至250个核苷酸。在一个方面,靶区子序列包含5至100个核苷酸。在一个方面,靶区子序列包含5至50个核苷酸。在一个方面,靶区子序列包含5至35个核苷酸。在一个方面,靶区子序列包含15至35个核苷酸。
在一个方面,非延伸的UMI引物通过选自由固相可逆固定化纯化、柱纯化和酶消化组成的群组的方法从混合物中去除。在一个方面,非延伸的UMI引物通过固相可逆固定化纯化从混合物中去除。在一个方面,非延伸的UMI引物通过柱纯化从混合物中去除。在一个方面,非延伸的UMI引物通过酶消化从混合物中去除。
在一个方面,UMI引物按5′到3′的顺序包含(a)第一通用区域;(b)任选的第二区域,其长度介于1个核苷酸和50个核苷酸之间;(c)第三区域,其包含UMI序列;和(d)第四区域,其包含与靶区子序列互补的基因特异性序列。如本文所用,“通用区域”是指为不同靶区设计的UMI引物中保持相同的序列。
在一个方面,一种方法包括引入一组外引物和一组内引物,其中位于内引物3′端处的3个核苷酸至20个核苷酸不是外引物组的子序列。如本文所用,“外引物”是指位于靶区上侧接一组“内引物”的引物。例如,在不限制的情况下,第一(例如,正向)外引物位于第一(例如,正向)内引物的5′处,而第二(例如,反向)外引物位于第二(例如,反向)内引物的3′处。
在一个方面,本公开提供了至少一种DNA聚合酶。如本文所用,“DNA聚合酶”是指一种能够催化从核苷三磷酸合成DNA分子的酶。DNA聚合酶将核苷酸添加到DNA链的3′端,一次添加一个核苷酸,与模板DNA链相比,产生了反向平行DNA链。DNA聚合酶无法从头开始新的DNA分子;这些DNA聚合酶需要可以在其中添加第一新核苷酸的引物。
在一个方面,本公开提供了DNA聚合酶延伸所需的试剂和缓冲液。DNA聚合酶延伸所需的试剂和缓冲液的非限制性实例包括Tris-HCl、氯化钾、氯化镁、寡核苷酸引物、脱氧核苷酸(dNTP)、甜菜碱和二甲基亚砜。本领域普通技术人员认识到,不同的DNA聚合酶和不同的靶区可能需要不同的必要试剂和缓冲液分组。
DNA聚合酶可以在不同的温度下延伸引物,这取决于DNA聚合酶。在一个方面,DNA聚合酶在至少40℃的温度下延伸引物。在一个方面,DNA聚合酶在至少50℃的温度下延伸引物。在一个方面,DNA聚合酶在至少55℃的温度下延伸引物。在一个方面,DNA聚合酶在至少60℃的温度下延伸引物。在一个方面,DNA聚合酶在至少65℃的温度下延伸引物。在一个方面,DNA聚合酶在至少70℃的温度下延伸引物。在一个方面,DNA聚合酶在至少75℃的温度下延伸引物。在一个方面,DNA聚合酶在至少80℃的温度下延伸引物。
引物可以在多种温度下结合或退火到靶区的互补部分,这取决于所涉及序列的结构和长度。在一个方面,引物结合在至少35℃的温度下发生。在一个方面,引物结合在至少40℃的温度下发生。在一个方面,引物结合在至少45℃的温度下发生。在一个方面,引物结合在至少50℃的温度下发生。在一个方面,引物结合在至少55℃的温度下发生。在一个方面,引物结合在至少60℃的温度下发生。在一个方面,引物结合在至少65℃的温度下发生。在一个方面,引物结合在至少70℃的温度下发生。
在一个方面,DNA聚合酶延伸和引物结合在不同温度下发生。在一个方面,DNA聚合酶延伸和引物结合在相同的温度下发生。
在一个方面,DNA聚合酶是一种耐热DNA聚合酶。如本文所用,“耐热DNA聚合酶”是指能够在高温(例如,高于65℃)下发挥作用并且能够在更高温度(例如,高达约100℃)下存活的DNA聚合酶。耐热DNA聚合酶通常在介于70℃和80℃之间的温度下具有最大催化活性。在一个方面,耐热DNA聚合酶选自由包括Taq DNA聚合酶、DNA聚合酶、/>DNA聚合酶和KAPA高保真DNA聚合酶组成的群组。
在一个方面,DNA聚合酶是非耐热DNA聚合酶。如本文所用,“非耐热DNA聚合酶”是指在高温下不能发挥作用的DNA聚合酶。在一个方面,非耐热DNA聚合酶选自由phi29 DNA聚合酶和Bst DNA聚合酶组成的群组。
在一个方面,一种方法包括高通量测序。在一个方面,一种方法包括对多个扩增子进行高通量测序。如本文所用,“高通量测序”是指能够并行测序多个(例如,数十、数百、数千、数百万、数亿)DNA分子的任何序列方法。在一个方面,桑格测序不是高通量测序。在一个方面,高通量测序包括使用边合成边测序(SBS)流通池。在一个方面,SBS流通池选自由依诺米那(Illumina)SBS流通池和太平洋生物科学(Pacific Biosciences,PacBio)SBS流通池组成的群组。在一个方面,高通量测序通过结合牛津纳米孔的电流测量来进行。
在一个方面,高通量DNA测序包括边合成边测序或基于纳米孔的测序。
通常,高通量测序生成序列文件。如本文所用,“序列文件”是指包括至少一个下一代测序(NGS)读段的序列的计算机可读文本文件。如本文所用,“NGS读段”是指通过高通量测序方法产生的单个核酸分子的核苷酸序列。在一个方面,NGS读段包含UMI序列。在一个方面,NGS读段包含基因序列。在一个方面,NGS读段包含UMI序列和基因序列。在一个方面,NGS读段包含至少10个核苷酸。在一个方面,NGS读段包含至少25个核苷酸。在一个方面,NGS读段包含至少50个核苷酸。在一个方面,NGS读段包含至少100个核苷酸。在一个方面,NGS读段包含至少250个核苷酸。在一个方面,NGS读段包含至少500个核苷酸。在一个方面,NGS读段包含至少1000个核苷酸。在一个方面,NGS读段包含10个核苷酸至10,000个核苷酸。在一个方面,NGS读段包含10个核苷酸至1000个核苷酸。在一个方面,NGS读段包含25个核苷酸至150个核苷酸。
在一个方面,序列文件为纯序列格式。在一个方面,序列文件为FASTQ格式。在一个方面,序列文件为EMBL格式。在一个方面,序列文件为FASTA格式。在一个方面,序列文件为GCG格式。在一个方面,序列文件为富GCG序列格式。在一个方面,序列文件为GenBank格式。在一个方面,序列文件为IG格式。
在一个方面,所标识的NGS序列包含反抑UMI序列。如本文所用,“反抑UMI序列”是指包含与至少一个靶区的野生型序列相同的基因序列的NGS读段的UMI序列。如果包含反抑UMI序列和野生型序列的NGS读段的数量超过阈值,则从序列变体分析中去除包含反抑UMI序列的任何NGS读段(无论基因序列如何)。
如本文所用,“经标记”的基因组样品或核酸分子是指包含至少一个UMI序列的基因组样品或者核酸分子。
如本文所用,“多态性靶序列”是指在给定群体中包含一个或多个序列变体的序列。相比之下,“恒定靶序列”在给定群体中不包含任何序列变体。
在一个方面,一种方法包括对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有NGS读段。如本文所用,“低于阈值的UMI家族”是指包含少于X个NGS读段的UMI家族,其中X被确定为给定扩增子的最大Z UMI家族大小的平均值的Y%。在一个方面,Y介于1%和20%之间,并且Z介于1和20之间。在一个方面,Y介于1%和50%之间,并且Z介于1和50之间。在一个方面,Y介于1%和75%之间,并且Z介于1和75之间。在一个方面,Y大于1%,并且Z大于1。在一个方面,Y大于5%,并且Z大于5。在一个方面,Y大于10%,并且Z大于10。在一个方面,Y和Z为相同的整数。在一个方面,Y和Z为不同的整数。在一个方面,X和Y为相同的整数。在一个方面,X和Y为不同的整数。在一个方面,X和Z为相同的整数。在一个方面,X和Z为不同的整数。在一个方面,X、Y和Z为相同的整数。在一个方面,X、Y和Z为不同的整数。
在一个方面,序列变体调用包括对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有NGS读段,其中低于阈值的UMI家族具有小于X的大小,其中X为扩增子的最大ZUMI家族大小的平均值的Y%。在一个方面,Y介于1%和20%之间,并且Z介于1和20之间。在一个方面,Y介于1%和50%之间,并且Z介于1和50之间。在一个方面,Y介于1%和75%之间,并且Z介于1和75之间。在一个方面,Y大于1%,并且Z大于1。在一个方面,Y大于5%,并且Z大于5。在一个方面,Y大于10%,并且Z大于10。在一个方面,Y和Z为相同的整数。在一个方面,Y和Z为不同的整数。在一个方面,X和Y为相同的整数。在一个方面,X和Y为不同的整数。在一个方面,X和Z为相同的整数。在一个方面,X和Z为不同的整数。在一个方面,X、Y和Z为相同的整数。在一个方面,X、Y和Z为不同的整数。
在一个方面,序列变体调用包括去除至少一个UMI家族,该UMI家族具有针对给定扩增子小于X的成员大小,其中X被设置为针对扩增子的最大Z UMI家族大小的平均值的Y%。在一个方面,Y介于1%和20%之间,并且Z介于1和20之间。在一个方面,Y介于1%和50%之间,并且Z介于1和50之间。在一个方面,Y介于1%和75%之间,并且Z介于1和75之间。在一个方面,Y大于1%,并且Z大于1。在一个方面,Y大于5%,并且Z大于5。在一个方面,Y大于10%,并且Z大于10。在一个方面,Y和Z为相同的整数。在一个方面,Y和Z为不同的整数。在一个方面,X和Y为相同的整数。在一个方面,X和Y为不同的整数。在一个方面,X和Z为相同的整数。在一个方面,X和Z为不同的整数。在一个方面,X、Y和Z为相同的整数。在一个方面,X、Y和Z为不同的整数。
在一个方面,第一UMI家族和第二UMI家族包含不同的UMI序列,但都与共同扩增子比对。在一个方面,第一UMI家族的UMI序列与第二UMI家族的UMI序列相差一个核苷酸。在一个方面,第一UMI家族的UMI序列与第二UMI家族的UMI序列相差两个核苷酸。在一个方面,第一UMI家族的UMI序列与第二UMI家族的UMI序列相差三个核苷酸。在一个方面,第一UMI家族的UMI序列与第二UMI家族的UMI序列相差四个核苷酸。在一个方面,第一UMI家族的UMI序列与第二UMI家族的UMI序列相差五个核苷酸。在一个方面,第一UMI家族的UMI序列与第二UMI家族的UMI序列相差一个核苷酸或两个核苷酸。在一个方面,第一UMI家族的UMI序列与第二UMI家族的UMI序列相差一个核苷酸至三个核苷酸。
作为一个非限制性实例,序列5′-AATG-3′与序列5′-AATC-3′相差一个核苷酸。作为一个非限制性实例,序列5′-AATG-3′与序列5′-AATC-3′相差两个核苷酸。
在一个方面,序列变体调用包括(a)将NGS读段至少分组为第一UMI家族和第二UMI家族,其中在第一UMI家族内的每个NGS读段包含第一同一UMI序列并与共同扩增子比对,其中在第二UMI家族内的每个NGS读段包含第二同一UMI序列并与相同的共同扩增子比对,并且其中第一UMI家族的UMI序列与第二UMI家族的UMI序列相比相差1个核苷酸或2个核苷酸;和(b)从考虑中去除在第一UMI家族和第二UMI家族之间具有最少NGS读段的UMI家族中的NGS读段。
在一个方面,序列变体调用包括标识一个或多个包含1个NGS读段至10个NGS读段的UMI家族,该读段包含与靶区的参考序列100%相同的序列。在一个方面,序列变体调用包括标识一个或多个包含1个NGS读段至50个NGS读段的UMI家族,该读段包含与靶区的参考序列100%相同的序列。在一个方面,序列变体调用包括标识一个或多个包含1个NGS读段至100个NGS读段的UMI家族,该读段包含与靶区的参考序列100%相同的序列。在一个方面,序列变体调用包括标识一个或多个包含1个NGS读段至1000个NGS读段的UMI家族,该读段包含与靶区的参考序列100%相同的序列。在一个方面,序列变体调用包括标识一个或多个包含至少1个NGS读段的UMI家族,该读段包含与靶区的参考序列100%相同的序列。在一个方面,序列变体调用包括标识一个或多个包含至少5个NGS读段的UMI家族,该读段包含与靶区的参考序列100%相同的序列。在一个方面,序列变体调用包括标识一个或多个包含至少10个NGS读段的UMI家族,该读段包含与靶区的参考序列100%相同的序列。
在一个方面,一种方法包括变体序列富集。如本文所用,“变体序列富集”是指增强检测靶区的罕见(例如,在给定群体中以低于5%的频率出现)序列变体的能力的方案。在一个方面,变体序列富集通过阻断剂置换扩增(BDA)进行。参见例如WO 2019/164885,其通过引用整体并入本文。在一个方面,BDA包括用以下扩增核酸分子:(a)用于每个靶基因组区域的BDA正向引物,其中该BDA正向引物包含靶向特异性基因组区域的区域;和(b)用于每个靶基因组区域的BDA阻断剂,其中在BDA正向引物序列的3'端处的4个或更多个核苷酸也存在于BDA阻断剂序列的5'端处或其附近,并且其中BDA阻断剂包含阻止由DNA聚合酶进行的延伸的3'序列或修饰,并且其中BDA阻断剂的浓度是BDA正向引物的浓度的至少两倍。
设想以下示范性、非限制性实施例:
1.一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,所述方法包括:
(a)使所述DNA样品与以下接触:
(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;
(ii)第一DNA聚合酶;以及
(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;
(b)使步骤(a)的所述混合物经受允许引物结合和DNA聚合酶延伸的一种或多种温度;
(c)去除非延伸的UMI引物以产生产物;
(d)将步骤(c)的所述产物与以下混合:
(i)第二组DNA引物;
(ii)第二DNA聚合酶;以及
(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,
以及进行PCR以产生PCR产物;
(e)对步骤(d)中产生的所述PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;
(f)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有所述反抑UMI序列的NGS读段也包含所述至少一个靶区的野生型序列;
(g)从考虑中去除包含在步骤(f)中所标识的所述反抑UMI序列的所有NGS读段;以及
(h)基于步骤(g)中未去除的所述NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
2.一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,所述方法包括:
(a)制备下一代测序(NGS)文库,其中将唯一分子标识符(UMI)序列添加到所述NGS文库中存在的多个多核苷酸中;
(b)获得包括NGS读段的序列文件;
(c)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有所述反抑UMI序列的NGS读段也包含所述至少一个靶区的WT序列;
(d)从考虑中去除包含在步骤(c)中所标识的所述反抑UMI序列的所有NGS读段;以及
(e)基于步骤(d)中未去除的所述NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
3.一种测序方法,其包括:
(a)从所标记的基因组样品中扩增不同的初始靶DNA分子群体,从而产生扩增的靶DNA分子群体,其中包含多态性靶序列的不同的初始靶DNA分子用不同的唯一分子标识符(UMI)序列进行标记,其中所述UMI序列包含至少一个选自R、Y、S、W、K、M、B、D、H、V、N及其修饰版本的核苷酸碱基,并且其中多个所述扩增的靶DNA分子中的每个靶DNA分子包含所述多态性靶序列和不同UMI序列的相关联的UMI序列;
(b)对所述多个扩增的靶DNA分子进行测序,从而产生多个NGS序列读段,其中所述测序步骤为被测序的所述扩增的靶DNA分子中的每个靶DNA分子提供以下序列的核苷酸序列:(i)至少一部分所述多态性靶序列;和(ii)所述UMI序列的相关联的UMI序列;
(c)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有所述反抑UMI序列的NGS读段也包含所述至少一个靶区的WT序列;
(d)从考虑中去除包含在步骤(c)中所标识的所述反抑UMI序列的所有NGS读段;以及
(e)基于步骤(d)中未去除的所述NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
4.一种分析核酸序列的方法,所述方法包括:
(a)将来自唯一分子标识符(UMI)池的UMI附着到多个分析物核酸片段的每条链的第一端以形成多个被唯一标识的分析物核酸片段,其中所述UMI池超过所述多个分析物核酸片段的数量;
(b)冗余确定被唯一标识的分析物核酸片段的核苷酸序列以产生下一代测序(NGS)读段,其中共享UMI的所确定的核苷酸序列形成UMI家族;
(c)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有所述反抑UMI序列的NGS读段也包含所述至少一个靶区的WT序列;
(d)从考虑中去除包含在步骤(c)中所标识的所述反抑UMI序列的所有NGS读段;以及
(e)基于步骤(d)中未去除的所述NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
5.一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,所述方法包括:
(a)使所述DNA样品与以下接触:
(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;
(ii)第一DNA聚合酶;以及
(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;
(b)使步骤(a)的所述混合物经受允许引物结合和DNA聚合酶延伸的温度;
(c)去除非延伸的UMI引物以产生产物;
(d)将(c)的所述产物与以下混合:
(i)第二组DNA引物;
(ii)第二DNA聚合酶;以及
(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,
以及进行PCR以产生PCR产物;
(e)对步骤(d)中产生的所述PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;
(f)将所述NGS读段分组为至少一个UMI家族,其中在UMI家族内的每个NGS读段包含同一UMI序列并与相同的扩增子比对;
(g)对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有NGS读段,其中所述低于阈值的UMI家族具有小于X的大小,其中X是所述扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;以及
(h)基于步骤(g)中未去除的所述NGS读段的生物信息学分析生成序列变体调用。
6.一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,所述方法包括:
(a)制备下一代测序(NGS)文库,其中将唯一分子标识符(UMI)序列添加到所述NGS文库中存在的多个多核苷酸中;
(b)获得包括NGS读段的序列文件;
(c)将所述NGS读段分组为至少一个UMI家族,其中在UMI家族内的每个NGS读段包含同一UMI序列并与相同的扩增子比对;
(d)对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有NGS读段,其中所述低于阈值的UMI家族具有小于X的大小,其中X是所述扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;以及
(e)基于步骤(d)中未去除的所述NGS读段的生物信息学分析生成序列变体调用。
7.一种测序方法,其包括:
(a)从所标记的基因组样品中扩增不同的初始靶DNA分子群体,从而产生扩增的靶DNA分子群体,其中包含多态性靶序列的不同的初始靶DNA分子用不同的唯一分子标识符(UMI)序列进行标记,其中所述UMI序列包含至少一个选自R、Y、S、W、K、M、B、D、H、V、N及其修饰版本的核苷酸碱基,并且其中多个所述扩增的靶DNA分子中的每个靶DNA分子包含所述多态性靶序列和不同UMI序列的相关联的UMI序列;
(b)对所述多个扩增的靶DNA分子进行测序,从而产生多个NGS序列读段,其中所述测序步骤为被测序的所述扩增的靶DNA分子中的每个靶DNA分子提供以下序列的核苷酸序列:(i)至少一部分所述多态性靶序列;和(ii)所述UMI序列的相关联的UMI序列;
(c)将所述NGS读段分组为至少一个UMI家族,其中在UMI家族内的每个NGS读段包含同一UMI序列并与相同的多态性靶序列比对;
(d)对于每个多态性靶序列,从考虑中去除低于阈值的UMI家族中的所有NGS读段,其中所述低于阈值的UMI家族具有小于X的大小,其中X是所述扩增子的最大ZUMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;以及
(e)基于步骤(d)中未去除的所述NGS读段的生物信息学分析生成序列变体调用。
8.一种分析核酸序列的方法,所述方法包括:
(a)将来自唯一分子标识符(UMI)池的UMI附着到多个分析物核酸片段的每条链的第一端以形成多个被唯一标识的分析物核酸片段,其中所述UMI池超过所述多个分析物核酸片段的数量;
(b)冗余确定被唯一标识的分析物核酸片段的核苷酸序列以产生下一代测序(NGS)读段,其中共享UMI的所确定的核苷酸序列形成UMI家族;
(c)对于每个多态性靶序列,从考虑中去除低于阈值的UMI家族中的所有NGS读段,其中所述低于阈值的UMI家族具有小于X的大小,其中X是所述扩增子的最大ZUMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;以及
(d)基于步骤(c)中未去除的所述NGS读段的生物信息学分析生成序列变体调用。
9.一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,所述方法包括:
(a)使所述DNA样品与以下接触:
(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;
(ii)第一DNA聚合酶;以及
(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;
(b)使步骤(a)的所述混合物经受允许引物结合和DNA聚合酶延伸的温度;
(c)去除非延伸的UMI引物以产生产物;
(d)将(c)的所述产物与以下混合:
(i)第二组DNA引物;
(ii)第二DNA聚合酶;以及
(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,
以及进行PCR以产生PCR产物;
(e)对步骤(d)中产生的所述PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;
(f)将所述NGS读段至少分组为第一UMI家族和第二UMI家族,其中在所述第一UMI家族内的每个NGS读段包含第一同一UMI序列并与共同扩增子比对,其中在所述第二UMI家族内的每个NGS读段包含第二同一UMI序列并与所述共同扩增子比对,并且其中所述第一UMI家族的所述UMI序列与所述第二UMI家族的所述UMI序列相比相差1个核苷酸或2个核苷酸;
(g)从考虑中去除在所述第一UMI家族和所述第二UMI家族之间具有最少NGS读段的所述UMI家族中的所述NGS读段;以及
(h)基于步骤(g)中未去除的所述NGS读段的生物信息学分析生成序列变体调用。
10.一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,所述方法包括:
(a)制备下一代测序(NGS)文库,其中将唯一分子标识符(UMI)序列添加到所述NGS文库中存在的多个多核苷酸中;
(b)获得包括NGS读段的序列文件;
(c)将所述NGS读段至少分组为第一UMI家族和第二UMI家族,其中在所述第一UMI家族内的每个NGS读段包含第一同一UMI序列并与共同扩增子比对,其中在所述第二UMI家族内的每个NGS读段包含第二同一UMI序列并与所述共同扩增子比对,并且其中所述第一UMI家族的所述UMI序列与所述第二UMI家族的所述UMI序列相比相差1个核苷酸或2个核苷酸;
(d)从考虑中去除在所述第一UMI家族和所述第二UMI家族之间具有最少NGS读段的所述UMI家族中的所述NGS读段;以及
(e)基于步骤(d)中未去除的所述NGS读段的生物信息学分析生成序列变体调用。
11.一种测序方法,所述方法包括:
(a)从所标记的基因组样品中扩增不同的初始靶DNA分子群体,从而产生扩增的靶DNA分子群体,其中包含多态性靶序列的不同的初始靶DNA分子用不同的唯一分子标识符(UMI)序列进行标记,其中所述UMI序列包含至少一个选自R、Y、S、W、K、M、B、D、H、V、N及其修饰版本的核苷酸碱基,并且其中多个所述扩增的靶DNA分子中的每个靶DNA分子包含所述多态性靶序列和不同UMI序列的相关联的UMI序列;
(b)对所述多个扩增的靶DNA分子进行测序,从而产生多个NGS序列读段,其中所述测序步骤为被测序的所述扩增的靶DNA分子中的每个靶DNA分子提供以下序列的核苷酸序列:(i)至少一部分所述多态性靶序列;和(ii)所述UMI序列的相关联的UMI序列;
(c)将所述NGS读段至少分组为第一UMI家族和第二UMI家族,其中在所述第一UMI家族内的每个NGS读段包含第一同一UMI序列并与所述多态性靶序列比对,其中在所述第二UMI家族内的每个NGS读段包含第二同一UMI序列并与所述多态性靶序列比对,并且其中所述第一UMI家族的所述UMI序列与所述第二UMI家族的所述UMI序列相比相差1个核苷酸或2个核苷酸;
(d)从考虑中去除在所述第一UMI家族和所述第二UMI家族之间具有最少NGS读段的所述UMI家族中的所述NGS读段;以及
(e)基于步骤(d)中未去除的所述NGS读段的生物信息学分析生成序列变体调用。
12.一种分析核酸序列的方法,所述方法包括:
(a)将来自唯一分子标识符(UMI)池的UMI附着到多个分析物核酸片段的每条链的第一端以形成多个被唯一标识的分析物核酸片段,其中所述UMI池超过所述多个分析物核酸片段的数量;
(b)冗余确定被唯一标识的分析物核酸片段的核苷酸序列以产生下一代测序(NGS)读段,其中共享UMI的所确定的核苷酸序列形成UMI家族;
(c)将所确定的核苷酸序列至少分组为第一UMI家族和第二UMI家族,其中在所述第一UMI家族内的每个所确定的核苷酸序列包含第一同一UMI序列并与共同扩增子比对,其中在所述第二UMI家族内的每个所确定的核苷酸序列包含第二同一UMI序列并与所述共同扩增子比对,并且其中所述第一UMI家族的所述UMI序列与所述第二UMI家族的所述UMI序列相比相差1个核苷酸或2个核苷酸;
(d)从考虑中去除在所述第一UMI家族和所述第二UMI家族之间具有最少所确定的核苷酸序列的所述UMI家族中的所述NGS读段;以及
(e)基于剩余所确定的核苷酸序列的生物信息学分析生成序列变体调用。
13.根据实施例1、2、4至6、8至10或12中任一项所述的方法,其中所述UMI序列包含7个简并核苷酸至30个简并核苷酸,并且其中每个简并核苷酸选自由N、B、D、H、V、S、W、Y、R、M和K组成的群组。
14.根据实施例1、5或9中任一项所述的方法,其中所述高通量DNA测序包括边合成边测序或基于纳米孔的测序。
15.根据实施例1、2、5、6、9或10中任一项所述的方法,其中所述序列文件为FASTQ格式。
16.根据实施例1、5或9中任一项所述的方法,其中所述第一DNA聚合酶是耐热DNA聚合酶。
17.根据实施例16所述的方法,其中所述耐热DNA聚合酶选自由包括Taq DNA聚合酶、DNA聚合酶、/>DNA聚合酶和KAPA高保真DNA聚合酶组成的群组。
18.根据实施例1、5或9中任一项所述的方法,其中所述第一DNA聚合酶是非耐热DNA聚合酶。
19.根据实施例18所述的方法,其中所述非耐热DNA聚合酶选自由phi29 DNA聚合酶和Bst DNA聚合酶组成的群组。
20.根据实施例1、5或9中任一项所述的方法,其中步骤(c)中去除所述非延伸的UMI引物通过选自由固相可逆固定化纯化、柱纯化和酶消化组成的群组的方法进行。
21.根据实施例1、5或9中任一项所述的方法,其中步骤(c)中去除所述非延伸的UMI引物通过酶消化进行。
22.根据实施例1、2、5、6、9或10中任一项所述的方法,其中所述至少一个靶区的参考序列包含针对每个靶区的多个DNA序列,所述每个靶区包含群体等位基因频率大于0.1%的单核苷酸多态性等位基因。
23.根据实施例1至12中任一项所述的方法,其中所述序列变体调用进一步包括当1个NGS读段至100个NGS读段包含同一UMI序列时,去除所述NGS读段。
24.根据实施例1至12中任一项所述的方法,其中所述序列变体调用进一步包括当所述NGS读段的所述UMI序列不包含适当的简并碱基设计模式时,去除所述NGS读段。
25.根据实施例1至8中任一项所述的方法,其中所述序列变体调用进一步包括:
(a)将所述NGS读段至少分组为第一UMI家族和第二UMI家族,其中在所述第一UMI家族内的每个NGS读段包含第一同一UMI序列并且与共同扩增子比对,其中在所述第二UMI家族内的每个NGS读段包含第二同一UMI序列并且与所述相同的共同扩增子比对,并且其中所述第一UMI家族的所述UMI序列与所述第二UMI家族的所述UMI序列相比相差1个核苷酸或2个核苷酸;以及
(b)从考虑中去除在所述第一UMI家族和所述第二UMI家族之间具有所述最少NGS读段的所述UMI家族中的所述NGS读段。
26.根据实施例1至12中任一项所述的方法,其中所述序列变体调用进一步包括标识UMI家族序列。
27.根据实施例5至12中任一项所述的方法,其中所述序列变体调用进一步包括标识一个或多个UMI家族,所述UMI家族包含1个NGS读段至10个NGS读段,所述NGS读段包含与所述至少一个靶区的参考序列100%相同的序列。
28.根据实施例1至12中任一项所述的方法,其中所述序列变体调用进一步包括去除至少一个UMI家族,所述UMI家族具有针对每个扩增子小于X的成员大小,其中X被设置为所述扩增子中的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间。
29.根据实施例1至4或9至12中任一项所述的方法,其中所述序列变体调用进一步包括对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有NGS读段,其中所述低于阈值的UMI家族具有小于X的大小,其中X是所述扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间。
30.根据实施例1、5或9中任一项所述的方法,其中所述组UMI引物按5′到3′的顺序包含:
(a)第一通用区域;
(b)任选的第二区域,其长度介于1个核苷酸和50个核苷酸之间;
(c)第三区域,其包含UMI序列;和
(d)第四区域,其包含与靶区子序列互补的基因特异性序列。
31.根据实施例1、5或9中任一项所述的方法,其中步骤(a)进一步包括引入一组外引物,并且其中步骤(d)中引入的所述第二组DNA引物包含一组内引物,其中位于所述内引物的3'端处的3个核苷酸至20个核苷酸不是所述组外引物的子序列。
32.根据实施例1、5或9中任一项所述的方法,其中步骤(d)进一步包括变体序列富集。
33.根据实施例32所述的方法,其中所述变体序列富集通过阻断剂置换扩增(BDA)进行。
34.根据实施例33所述的方法,其中所述BDA包括用以下扩增核酸分子:
(a)BDA正向引物,其用于每个靶基因组区域,其中所述BDA正向引物包含靶向特异性基因组区域的区域;和
(b)BDA阻断剂,其用于每个靶基因组区域,其中BDA正向引物序列的3′端处的4个或更多个核苷酸也存在于BDA阻断剂序列的5′端处或其附近,并且其中所述BDA阻断剂包含阻止由所述DNA聚合酶进行的延伸的3′序列或修饰,并且其中所述BDA阻断剂的浓度为所述BDA正向引物的浓度的至少两倍。
35.根据实施例1、2、5、6、9或10中任一项所述的方法,其中所述DNA样品包含1个靶区至10,000个靶区。
36.根据实施例1、2、5、6、9或10中任一项所述的方法,其中所述基因特异性序列与所述靶区子序列至少90%互补。
37.根据实施例5至8中任一项所述的方法,其中X、Y和Z对于所有扩增子为相同的整数。
38.根据实施例5至8中任一项所述的方法,其中X、Y和Z对于所有扩增子不为相同的整数。
39.根据实施例28或29所述的方法,其中X、Y和Z对于所有扩增子为相同的整数。
40.根据实施例28或29所述的方法,其中X、Y和Z对于所有扩增子不为相同的整数。
在详细描述了本公开之后,明显的是,在不脱离本文和所附权利要求中描述的本公开的精神和范围的情况下,修改、变化和等效方面是可能的。此外,应当了解,本公开中的所有实例都作为非限制性实例提供。
实例
实例1.实验工作流程-QDBA
NGS文库制备原理示意图示于图1和图2中。基于这一原则开发了两种不同的工作流程。
第一种工作流程,如图3所示,称为定量阻断剂置换扩增(QBDA),与我们先前开发的BDA技术相结合(参见,例如WO 2019/164885,其通过引用整体并入本文),以在野生型(WT)序列上富集变体序列。
首先,执行唯一分子标识符(UMI)添加步骤。将DNA样品与特异性正向引物(SfP)、特异性反向引物(SrP)、DNA聚合酶、dNTP和PCR缓冲液混合。
进行两个循环(不多不少)的长延伸(约30分钟)PCR,以允许将UMI添加到所有靶位点。一个DNA分子中的每条链将携带不同的UMI。
其次,进行通用扩增步骤。为了扩增分子以避免纯化期间的样品损失,同时防止将多个UMI添加到相同的原始分子上,将退火温度提高约8℃,并使用通用正向引物(UfP)和通用反向引物(UrP)将样品扩增至少两个循环,优选约7个循环。此过程使用约30秒的短延伸时间。向反应中添加UfP和UrP是在热循环仪上作为开管步骤进行的。接下来,使用固相可逆固定化(SPRI)磁珠、柱或酶消化进行纯化,以去除单链引物,包括SfP、SrP、UfP和UrP。
UMI附着之后,进行BDA扩增。将BDA正向引物、BDA阻断剂、DNA聚合酶、dNTP和PCR缓冲液与经纯化的PCR产物混合用于BDA扩增。将BDA正向引物退火到比结合到SfP的区域更靠近SrP的基因组区域。在BDA扩增的至少两个循环之后,优选在10个循环和23个循环之间,PCR反应混合物通过SPRI磁珠或柱纯化。
接下来,添加衔接子。将BDA衔接子引物(包含依诺米那衔接子序列和BDA正向引物序列)和UrP与经纯化的PCR混合物混合,并扩增至少1个循环。衔接子也可以通过酶连接反应添加。
最后,在使用SPRI磁珠或柱进行另一次纯化后,进行标准下一代测序(NGS)索引PCR。文库被归一化并加载到依诺米那测序仪上。NGS文库可以通过依诺米那测序仪(单端测序和双端测序)或其它下一代测序仪如Ion Torrent进行测序。
可以使用所有类型的DNA聚合酶和PCR超级混合物;对于每个步骤使用特异性DNA聚合酶的标准退火、延伸和变性温度,通用PCR步骤除外,该步骤中退火温度升高。
由于QBDA中存在变异富集,低深度测序足以进行低频突变定量。观察到的WT分子数不能准确反映样品中的真实分子数。突变变异等位基因频率(VAF)应基于观察到的变异分子数和总输入分子数进行定量。总输入分子数通过Qubit或qPCR进行定量。例如,1ng人基因组DNA被认为是约290个单倍体基因组等效物(或580条链)。
实例2.实验工作流程-QASeq
第二种工作流被称为定量扩增子测序(QASeq),如图4所示。该方法中没有序列富集。首先,将DNA样品与SfP、SrPA、DNA聚合酶、dNTP和PCR缓冲液混合。进行两个循环的长延伸(约30分钟)PCR以允许将UMI添加到所有靶位点。一个DNA分子中的每条链将携带不同的UMI。
接下来,为了扩增分子,同时防止将多个UMI添加到相同的原始分子上,退火温度升高约8℃,并使用UfP和UrP将混合物扩增约7个循环。此过程使用约30秒的短延伸时间。向反应中添加UfP和UrP是在热循环仪上作为开管步骤进行的。
在使用SPRI磁珠或柱纯化后,将SrPB引物、DNA聚合酶、dNTP和PCR缓冲液与PCR产物混合用于衔接子置换;在2个循环的长延伸(约30分钟)后,NGS衔接子仅添加到正确PCR产物上,而不添加到引物二聚体或非特异性产物上。使用SPRI磁珠或柱进行另一次纯化后,进行标准NGS索引PCR。文库被归一化并加载到依诺米那测序仪上。
因为QASeq中没有序列偏好,所以突变VAF可以基于观察到的变异和野生型序列的分子数进行定量。
实例3.基因型确定工作流程.
所有与相同位点比对的读段都按其各自的UMI序列排序。携带相同UMI的读段被分组为一个UMI家族。UMI家族大小被计算为携带相同UMI的读段的数量,并且唯一UMI数是一个位点处不同UMI序列的总计数。在此,与UMI相关联的UMI数和基因型由一组UMI校正方法来确定:WTveto;最近邻检查;和动态临界值。参见图5。
可能由PCR聚合酶错误或NGS测序错误导致的UMI家族从进一步考虑中去除。与设计的UMI模式不一致的UMI序列(例如,在聚(H)UMI序列中发现的G碱基)被认为是错误,并从进一步考虑中去除。此外,使得仅1至2个碱基不同的具有高序列相似性(距离阈值)的UMI家族被认为是潜在PCR伪影。因此,实施最近邻检查以仅保留高度相似的UMI组内具有最大家族大小的UMI。参见图6。
虽然一些UMI家族表现出单一基因型,但许多与频率不同的多种基因型相关联。我们将具有最多读段的显性基因型分配给每个UMI家族,除了以下例外情况:在x个或更多个读段中标识野生型基因型(由人;类参考基因组定义),则无论是否存在其它基因型,UMI家族都被分配了野生型基因组。这一阈值称为WTveto,进一步提高了qBDA技术的特异性(图7)。
表1提供了图6和图7中发现的序列的列表。
表1.图6和图7中使用的序列。
/>
家族大小小于Fmin的UMI家族也被去除;Fmin基于UMI家族大小的分布来确定。例如,Emin可以设置为具有完全相同核酸序列的靶标的最大三个UMI家族大小的平均值的5%。参见图8。
实例4.非小细胞肺癌(NSCLC)QBDA小组
NSCLC肺癌小组包括31个BDA设计,这些设计靶向对非小细胞肺癌具有临床意义的14个基因中的热点突变。参见表2和表3。
表2:NSCLC小组富集区
/>
表3:针对NSCLC小组中前10个靶标的寡核苷酸序列
/>
/>
阳性对照由含有临床突变的合成双链gBlock组成,这些突变对应于野生型基因组DNA背景下以0.35至2.8%VAF存在的每个富集区。参见表4。NSCLC QBDA小组在所有BDA扩增子中的90%检测到阳性对照的突变在预期VAF的2倍以内。参见表4。
表4:NSCLC小组gBlock掺入标准品定量结果。
/>
以NSCLC QBDA设计为原型,比较了两种UMI基因型分配方法。简单地将显性基因型分配给每个UMI造成掺入阳性对照的UMI计数与要求与显性基因型相关联的读段超过总读段的固定阈值(例如90%)相当。参见图9。
此外,动态临界值消除了测序读段深度对UMI计数定量的影响。参见图10。总之,通过避免由于可变效应PCR错误、测序错误和测序深度偏差而导致的过度估计,UMI校正的应用改善了UMI定量。参见图11。
实例5.替代QBDA实验工作流程
替代QBDA工作流程(图12)仅由四个后续PCR反应组成。第一次反应用UMI序列标记每个靶分子,接着进行磁珠纯化(SPRI)步骤以去除未反应的引物和副产物。该第一次纯化通过在样品经受SPRI之前添加200ng作为钝化剂溶液的载剂RNA来进行。接下来,进行第二次反应(BDA-PCR),无需纯化,接着立即进行附着测序引物(衔接子)的第三次PCR反应。在第二次SPRI纯化后,第四次反应附着依诺米那的接枝序列和索引。最后,SPRI纯化步骤在NGS之前纯化文库。
与图3所示的标准QBDA方案相比,简化后的工作流程消除了通用PCR扩增步骤,并消除了BDA扩增后的纯化步骤。
替代QBDA工作流程的定量性能与阳性对照样品中的标准QBDA类似,该阳性对照样品含有在约1%VAF下针对每个扩增子的变体。参见表5。
表5.标准QBDA工作流程和简化QBDA工作流程之间的实验结果比较
/>
Claims (31)
1.一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,所述方法包括:
(a)使所述DNA样品与以下接触:
(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;
(ii)第一DNA聚合酶;以及
(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;
(b)使步骤(a)的所述混合物经受允许引物结合和DNA聚合酶延伸的一种或多种温度;
(c)去除非延伸的UMI引物以产生产物;
(d)将步骤(c)的所述产物与以下混合:
(i)第二组DNA引物;
(ii)第二DNA聚合酶;以及
(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,
以及进行PCR以产生PCR产物;
(e)对步骤(d)中产生的所述PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;
(f)标识反抑UMI序列,其中至少1、2、3、4、5、6、7、8、9或10个含有所述反抑UMI序列的NGS读段也包含所述至少一个靶区的野生型序列;
(g)从考虑中去除包含在步骤(f)中所标识的所述反抑UMI序列的所有NGS读段;以及
(h)基于步骤(g)中未去除的所述NGS读段的生物信息学分析,通过定量DNA变体分子来生成序列变体调用。
2.一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,所述方法包括:
(a)使所述DNA样品与以下接触:
(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;
(ii)第一DNA聚合酶;以及
(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;
(b)使步骤(a)的所述混合物经受允许引物结合和DNA聚合酶延伸的温度;
(c)去除非延伸的UMI引物以产生产物;
(d)将(c)的所述产物与以下混合:
(i)第二组DNA引物;
(ii)第二DNA聚合酶;以及
(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,
以及进行PCR以产生PCR产物;
(e)对步骤(d)中产生的所述PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;
(f)将所述NGS读段分组为至少一个UMI家族,其中在UMI家族内的每个NGS读段包含同一UMI序列并与相同的扩增子比对;
(g)对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有NGS读段,其中所述低于阈值的UMI家族具有小于X的大小,其中X是所述扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间;以及
(h)基于步骤(g)中未去除的所述NGS读段的生物信息学分析生成序列变体调用。
3.一种用于分析包含至少一个针对潜在序列变体的靶区的DNA样品的方法,所述方法包括:
(a)使所述DNA样品与以下接触:
(i)一组唯一分子标识符(UMI)引物,其中每个UMI引物包含UMI序列和与靶区子序列互补的基因特异性序列;
(ii)第一DNA聚合酶;以及
(iii)DNA聚合酶延伸产生混合物所需的试剂和缓冲液;
(b)使步骤(a)的所述混合物经受允许引物结合和DNA聚合酶延伸的温度;
(c)去除非延伸的UMI引物以产生产物;
(d)将(c)的所述产物与以下混合:
(i)第二组DNA引物;
(ii)第二DNA聚合酶;以及
(iii)聚合酶链式反应(PCR)所需的试剂和缓冲液,
以及进行PCR以产生PCR产物;
(e)对步骤(d)中产生的所述PCR产物进行高通量DNA测序,并且获得包含下一代测序(NGS)读段的序列文件;
(f)将所述NGS读段至少分组为第一UMI家族和第二UMI家族,其中在所述第一UMI家族内的每个NGS读段包含第一同一UMI序列并且与共同扩增子比对,其中在所述第二UMI家族内的每个NGS读段包含第二同一UMI序列并且与所述共同扩增子比对,并且其中所述第一UMI家族的所述UMI序列与所述第二UMI家族的所述UMI序列相比相差1个核苷酸或2个核苷酸;
(g)从考虑中去除在所述第一UMI家族和所述第二UMI家族之间具有最少NGS读段的所述UMI家族中的所述NGS读段;以及
(h)基于步骤(g)中未去除的所述NGS读段的生物信息学分析生成序列变体调用。
4.根据权利要求1至3中任一项所述的方法,其中所述UMI序列包含7个简并核苷酸至30个简并核苷酸,并且其中每个简并核苷酸选自由N、B、D、H、V、S、W、Y、R、M和K组成的群组。
5.根据权利要求1至3中任一项所述的方法,其中所述高通量DNA测序包括边合成边测序或基于纳米孔的测序。
6.根据权利要求1至3中任一项所述的方法,其中所述序列文件为FASTQ格式。
7.根据权利要求1至3中任一项所述的方法,其中所述第一DNA聚合酶是耐热DNA聚合酶。
8.根据权利要求7所述的方法,其中所述耐热DNA聚合酶选自由包括Taq DNA聚合酶、DNA聚合酶、/>DNA聚合酶和KAPA高保真DNA聚合酶组成的群组。
9.根据权利要求1至3中任一项所述的方法,其中所述第一DNA聚合酶是非耐热DNA聚合酶。
10.根据权利要求9所述的方法,其中所述非耐热DNA聚合酶选自由phi29 DNA聚合酶和Bst DNA聚合酶组成的群组。
11.根据权利要求1至3中任一项所述的方法,其中步骤(c)中去除所述非延伸的UMI引物通过选自由固相可逆固定化纯化、柱纯化和酶消化组成的群组的方法进行。
12.根据权利要求1至3中任一项所述的方法,其中步骤(c)中去除所述非延伸的UMI引物通过酶消化进行。
13.根据权利要求1至3中任一项所述的方法,其中所述至少一个靶区的参考序列包含针对每个靶区的多个DNA序列,所述每个靶区包含群体等位基因频率大于0.1%的单核苷酸多态性等位基因。
14.根据权利要求1至3中任一项所述的方法,其中所述序列变体调用进一步包括当1个NGS读段至100个NGS读段包含同一UMI序列时,去除所述NGS读段。
15.根据权利要求1至3中任一项所述的方法,其中所述序列变体调用进一步包括当所述NGS读段的所述UMI序列不包含适当的简并碱基设计模式时,去除所述NGS读段。
16.根据权利要求1或2所述的方法,其中所述序列变体调用进一步包括:
(a)将所述NGS读段至少分组为第一UMI家族和第二UMI家族,其中在所述第一UMI家族内的每个NGS读段包含第一同一UMI序列并且与共同扩增子比对,其中在所述第二UMI家族内的每个NGS读段包含第二同一UMI序列并且与相同的所述共同扩增子比对,并且其中所述第一UMI家族的所述UMI序列与所述第二UMI家族的所述UMI序列相比相差1个核苷酸或2个核苷酸;以及
(b)从考虑中去除在所述第一UMI家族和所述第二UMI家族之间具有所述最少NGS读段的所述UMI家族中的所述NGS读段。
17.根据权利要求1至3中任一项所述的方法,其中所述序列变体调用进一步包括标识UMI家族序列。
18.根据权利要求2或3所述的方法,其中所述序列变体调用进一步包括标识一个或多个UMI家族,所述UMI家族包含1个NGS读段至10个NGS读段,所述NGS读段包含与所述至少一个靶区的参考序列100%相同的序列。
19.根据权利要求1至3中任一项所述的方法,其中所述序列变体调用进一步包括去除至少一个UMI家族,所述UMI家族具有针对每个扩增子小于X的成员大小,其中X被设置为所述扩增子中的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间。
20.根据权利要求1或3所述的方法,其中所述序列变体调用进一步包括:对于每个扩增子,从考虑中去除低于阈值的UMI家族中的所有NGS读段,其中所述低于阈值的UMI家族具有小于X的大小,其中X是所述扩增子的最大Z UMI家族大小的平均值的Y%,其中Y介于1%和20%之间,并且其中Z介于1和20之间。
21.根据权利要求1至3中任一项所述的方法,其中所述组UMI引物按5′到3′的顺序包含:
(a)第一通用区域;
(b)任选的第二区域,其长度介于1个核苷酸和50个核苷酸之间;
(c)第三区域,其包含UMI序列;和
(d)第四区域,其包含与靶区子序列互补的基因特异性序列。
22.根据权利要求1至3中任一项所述的方法,其中步骤(a)进一步包括引入一组外引物,并且其中步骤(d)中引入的所述第二组DNA引物包含一组内引物,其中位于所述内引物的3'端处的3个核苷酸至20个核苷酸不是所述组外引物的子序列。
23.根据权利要求1至3中任一项所述的方法,其中步骤(d)进一步包括变体序列富集。
24.根据权利要求23所述的方法,其中所述变体序列富集通过阻断剂置换扩增(BDA)进行。
25.根据权利要求24所述的方法,其中所述BDA包括用以下扩增核酸分子:
(a)BDA正向引物,其用于每个靶基因组区域,其中所述BDA正向引物包含靶向特异性基因组区域的区域;和
(b)BDA阻断剂,其用于每个靶基因组区域,其中BDA正向引物序列的3'端处的4个或更多个核苷酸也存在于BDA阻断剂序列的5'端处或其附近,并且其中所述BDA阻断剂包含阻止由所述DNA聚合酶进行的延伸的3'序列或修饰,并且其中所述BDA阻断剂的浓度为所述BDA正向引物的浓度的至少两倍。
26.根据权利要求1至3中任一项所述的方法,其中所述DNA样品包含1个靶区至10,000个靶区。
27.根据权利要求1至3中任一项所述的方法,其中所述基因特异性序列与所述靶区子序列至少90%互补。
28.根据权利要求2所述的方法,其中X、Y和Z对于所有扩增子为相同的整数。
29.根据权利要求2所述的方法,其中X、Y和Z对于所有扩增子不为相同的整数。
30.根据权利要求19或20所述的方法,其中X、Y和Z对于所有扩增子为相同的整数。
31.根据权利要求19或20所述的方法,其中X、Y和Z对于所有扩增子不为相同的整数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063108649P | 2020-11-02 | 2020-11-02 | |
US63/108,649 | 2020-11-02 | ||
PCT/US2021/057573 WO2022094403A1 (en) | 2020-11-02 | 2021-11-01 | Quantitative multiplex amplicon sequencing system |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116547390A true CN116547390A (zh) | 2023-08-04 |
Family
ID=78790129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180074625.0A Pending CN116547390A (zh) | 2020-11-02 | 2021-11-01 | 定量多重扩增子测序系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230399687A1 (zh) |
CN (1) | CN116547390A (zh) |
WO (1) | WO2022094403A1 (zh) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015179339A1 (en) * | 2014-05-19 | 2015-11-26 | William Marsh Rice University | Allele-specific amplification using a composition of overlapping non-allele-specific primer and allele-specific blocker oligonucleotides |
WO2019164885A1 (en) | 2018-02-20 | 2019-08-29 | William Marsh Rice University | Systems and methods for allele enrichment using multiplexed blocker displacement amplification |
EP3841219A4 (en) * | 2018-08-24 | 2022-05-04 | Swift Biosciences, Inc. | ASYMMETRICAL TARGETED AMPLIFICATION METHODS |
-
2021
- 2021-11-01 CN CN202180074625.0A patent/CN116547390A/zh active Pending
- 2021-11-01 WO PCT/US2021/057573 patent/WO2022094403A1/en active Application Filing
- 2021-11-01 US US18/034,753 patent/US20230399687A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230399687A1 (en) | 2023-12-14 |
WO2022094403A1 (en) | 2022-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11667964B2 (en) | Multiplex amplification of polynucleotides | |
US20220316005A1 (en) | Safe sequencing system | |
US9938570B2 (en) | Methods and compositions for universal detection of nucleic acids | |
US20210024989A1 (en) | Systems and methods for allele enrichment using multiplexed blocker displacement amplification | |
CN110777195A (zh) | 采用一组snp的人身份识别 | |
WO2018057971A1 (en) | Compositions and methods for assessing immune response | |
US20220098642A1 (en) | Quantitative amplicon sequencing for multiplexed copy number variation detection and allele ratio quantitation | |
JP7134186B2 (ja) | Rnaおよびdnaからの核酸ライブラリーの作製 | |
WO2022140793A1 (en) | Compositions and methods for highly sensitive detection of target sequences in multiplex reactions | |
CN116547390A (zh) | 定量多重扩增子测序系统 | |
US20180291443A1 (en) | Library Quantitation And Qualification | |
Deharvengt et al. | Nucleic acid analysis in the clinical laboratory | |
Islam et al. | Polymerase chain reaction (PCR) | |
WO2024039272A1 (en) | Nucleic acid amplification | |
Xie | Development of Highly Multiplex Nucleic Acid-Based Diagnostic Technologies | |
WO2021016403A1 (en) | Method, apparatus and system to detect indels and tandem duplications using single cell dna sequencing | |
CN110582577A (zh) | 文库定量和鉴定 | |
Novroski et al. | The STR DECoDE Panel: Increased Diversity and Enhanced DNA Mixture Deconvolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |