CN108430617A - 液滴划分的基于pcr的文库制备 - Google Patents

液滴划分的基于pcr的文库制备 Download PDF

Info

Publication number
CN108430617A
CN108430617A CN201680077499.3A CN201680077499A CN108430617A CN 108430617 A CN108430617 A CN 108430617A CN 201680077499 A CN201680077499 A CN 201680077499A CN 108430617 A CN108430617 A CN 108430617A
Authority
CN
China
Prior art keywords
target
primer
sequence
seq
subsequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680077499.3A
Other languages
English (en)
Inventor
S·霍奇斯
N·埃雷迪亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bio Rad Laboratories Inc
Original Assignee
Bio Rad Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bio Rad Laboratories Inc filed Critical Bio Rad Laboratories Inc
Publication of CN108430617A publication Critical patent/CN108430617A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1068Template (nucleic acid) mediated chemical library synthesis, e.g. chemical and enzymatical DNA-templated organic molecule synthesis, libraries prepared by non ribosomal polypeptide synthesis [NRPS], DNA/RNA-polymerase mediated polypeptide synthesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1075Isolating an individual clone by screening libraries by coupling phenotype to genotype, not provided for in other groups of this subclass
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biochemistry (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

提供了制备靶基因富集的文库的方法。在一个方面,该方法包括将多核苷酸片段划分成多个分区,其中各分区还包含多个用于扩增靶基因的引物对,并且其中引物包含衔接子序列的部分;扩增靶基因序列以生成包含在任一末端侧接衔接子序列的部分的靶基因序列;纯化扩增子;并且使用包含全长衔接子序列的引物扩增该扩增子。

Description

液滴划分的基于PCR的文库制备
相关申请的交叉引用
本申请要求2015年12月30日提交的美国临时申请号62/272,874的优先权,其全部内容通过引用纳入本文。
以ASCII文本文件提交的“序列表”、表格、或计算机程序表附页的引用
将2016年12月28日于机器型号IBM-PC,MS-Windows操作系统创建的31341字节的文件094868-111210PC-1032580_SequenceListing.txt中所记载的序列表全文纳入本文用于所有目的。
背景技术
靶向测序可用于研究基因组样品中选定的基因,基因区域或基因组元素,从而提高下一代测序的效率。为了在测序之前富集靶区域,使用了几种方法,包括使用靶探针从测序文库中进行杂交捕获以及通过使用靶特异性引物对样品DNA进行PCR扩增来产生测序文库。通过PCR扩增产生文库固有地引入了显著的扩增偏好,这导致序列易变的覆盖并显著影响定量准确性。
发明内容
一方面,提供了制备靶基因富集的文库的方法。在一些实施方式中,该方法包括:
(a)提供多个多核苷酸片段;
(b)将所述多核苷酸片段划分成多个分区,其中每个分区还包含多个引物对,每个引物对包含用于扩增靶基因的正向引物和反向引物,其中所述正向引物包含(i)包含第一衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性正向引物序列,并且其中所述反向引物包含(i)包含第二衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性反向引物序列;
(c)用分区中的引物对之一扩增该分区中的多核苷酸片段的靶基因序列,由此产生扩增子,所述扩增子包含靶基因序列,所述靶基因序列在5′末端侧接第一衔接子序列的部分并在3′末端侧接第二衔接子序列的部分;
(d)纯化扩增子;并且
(e)使用包含第一衔接子序列的至少部分的第一扩增子引物和包含第二衔接子序列的至少部分的第二扩增子引物扩增所述扩增子。
在一些实施方式中,多核苷酸片段是基因组DNA片段。在一些实施方式中,多核苷酸片段的长度为至少约100个核苷酸。在一些实施方式中,多核苷酸片段的长度为至多约2000个,至多约5000个,至多约10000个,至多约25000个,或至多约50000个核苷酸。在一些实施方式中,多核苷酸片段的长度为约100至约2000个核苷酸。
在一些实施方式中,在划分步骤(b)中,每个分区包含至少20个引物对。在一些实施方式中,每个分区包含至少50个引物对。在一些实施方式中,每个分区包含至少200个引物对。在一些实施方式中,每个分区包含至少500个引物对。
在一些实施方式中,用于扩增的靶基因或基因区是具有稀有突变的基因或基因区。在一些实施方式中,用于扩增的靶基因或基因区是与癌症或遗传疾病相关的基因或基因区。
在一些实施方式中,第一衔接子序列是P7衔接子序列,第二衔接子序列是P5衔接子序列。在一些实施方式中,第一衔接子序列是P5衔接子序列,第二衔接子序列是P7衔接子序列。在一些实施方式中,P7衔接子序列是与SEQ ID NO:4具有至少70%相同性(例如至少70%,至少75%,至少80%,至少85%,至少90%,至少91%,至少92%,至少93%,至少94%,至少95%,至少96%,至少97%,至少98%或至少99%的相同性)的序列。在一些实施方式中,P7衔接子序列是SEQ ID NO:4。在一些实施方式中,P5衔接子序列是与SEQ ID NO:1具有至少70%相同性(例如至少70%,至少75%,至少80%,至少85%,至少90%,至少91%,至少92%,至少93%,至少94%,至少95%,至少96%,至少97%,至少98%或至少99%的相同性)的序列。在一些实施方式中,P5衔接子序列是SEQ ID NO:1。
在一些实施方式中,对于包含第一衔接子序列的部分的正向引物或反向引物,第一衔接子序列的该部分包含第一衔接子序列的至少20个连续核苷酸。在一些实施方式中,第一衔接子序列的该部分与SEQ ID NO:7或SEQ ID NO:8具有至少70%相同性(例如至少70%,至少75%,至少80%,至少85%,至少90%,至少91%,至少92%,至少93%,至少94%,至少95%,至少96%,至少97%,至少98%或至少99%的相同性)。在一些实施方式中,第一衔接子序列的该部分具有SEQ ID NO:7或SEQ ID NO:8的序列。
在一些实施方式中,第一衔接子序列和/或第二衔接子序列包含条形码序列。在一些实施方式中,包含条形码序列的第一衔接子序列和/或第二衔接子序列与SEQ ID NO:3或SEQ ID NO:6具有至少70%相同性(例如至少70%,至少75%,至少80%,至少85%,至少90%,至少91%,至少92%,至少93%,至少94%,至少95%,至少96%,至少97%,至少98%或至少99%的相同性)。
在一些实施方式中,用于扩增靶基因的正向引物与SEQ ID NO:9-58中的任一个(例如,SEQ ID NO:9,SEQ ID NO:10,SEQ ID NO:11,SEQ ID NO:12,SEQ ID NO:13,SEQ IDNO:14,SEQ ID NO:15,SEQ ID NO:16,SEQ ID NO:17,SEQ ID NO:18,SEQ ID NO:19,SEQ IDNO:20,SEQ ID NO:21,SEQ ID NO:22,SEQ ID NO:23,SEQ ID NO:24,SEQ ID NO:25,SEQ IDNO:26,SEQ ID NO:27,SEQ ID NO:28,SEQ ID NO:29,SEQ ID NO:30,SEQ ID NO:31,SEQ IDNO:32,SEQ ID NO:33,SEQ ID NO:34,SEQ ID NO:35,SEQ ID NO:36,SEQ ID NO:37,SEQ IDNO:38,SEQ ID NO:39,SEQ ID NO:40,SEQ ID NO:41,SEQ ID NO:42,SEQ ID NO:43,SEQ IDNO:44,SEQ ID NO:45,SEQ ID NO:46,SEQ ID NO:47,SEQ ID NO:48,SEQ ID NO:49,SEQ IDNO:50,SEQ ID NO:51,SEQ ID NO:52,SEQ ID NO:53,SEQ ID NO:54,SEQ ID NO:55,SEQ IDNO:56,SEQ ID NO:57或SEQ ID NO:58)具有至少70%的相同性(例如,至少70%,至少75%,至少80%,至少85%,至少90%,至少91%,至少92%,至少93%,至少94%,至少95%,至少96%,至少97%,至少98%或至少99%相同性)。在一些实施方式中,用于扩增靶基因的正向引物包含SEQ ID NO:9-58中的任一个。
在一些实施方式中,用于扩增靶基因的反向引物与SEQ ID NO:59-108中的任一个(例如,SEQ ID NO:59,SEQ ID NO:60,SEQ ID NO:61,SEQ ID NO:62,SEQ ID NO:63,SEQ IDNO:64,SEQ ID NO:65,SEQ ID NO:66,SEQ ID NO:67,SEQ ID NO:68,SEQ ID NO:69,SEQ IDNO:70,SEQ ID NO:71,SEQ ID NO:72,SEQ ID NO:73,SEQ ID NO:74,SEQ ID NO:75,SEQ IDNO:76,SEQ ID NO:77,SEQ ID NO:78,SEQ ID NO:79,SEQ ID NO:80,SEQ ID NO:81,SEQ IDNO:82,SEQ ID NO:83,SEQ ID NO:84,SEQ ID NO:85,SEQ ID NO:86,SEQ ID NO:87,SEQ IDNO:88,SEQ ID NO:89,SEQ ID NO:90,SEQ ID NO:91,SEQ ID NO:92,SEQ ID NO:93,SEQ IDNO:94,SEQ ID NO:95,SEQ ID NO:96,SEQ ID NO:97,SEQ ID NO:98,SEQ ID NO:99,SEQ IDNO:100,SEQ ID NO:101,SEQ ID NO:102,SEQ ID NO:103,SEQ ID NO:104,SEQ ID NO:105,SEQ ID NO:106,SEQ ID NO:107或SEQ ID NO:108)具有至少70%的相同性(例如,至少70%,至少75%,至少80%,至少85%,至少90%,至少91%,至少92%,至少93%,至少94%,至少95%,至少96%,至少97%,至少98%或至少99%相同性)。在一些实施方式中,用于扩增靶基因的反向引物包含SEQ ID NO:59-108中的任一个。
在一些实施方式中,第一扩增子引物与SEQ ID NO:111,SEQ ID NO:SEQ ID NO:112,SEQ ID NO:113,SEQ ID NO:114,SEQ ID NO:115,SEQ ID NO:116,SEQ ID NO:117,SEQID NO:118,SEQ ID NO:119,SEQ ID NO:120,SEQ ID NO:121,SEQ ID NO:122,SEQ ID NO:123,SEQ ID NO:124,SEQ ID NO:125,SEQ ID NO:126,SEQ ID NO:127,SEQ ID NO:128,SEQID NO:129,SEQ ID NO:130,SEQ ID NO:131,SEQ ID NO:132,SEQ ID NO:133,SEQ ID NO:134,SEQ ID NO:135或SEQ ID NO:136中的任一个具有至少70%的相同性(例如,至少70%,至少75%,至少80%,至少85%,至少90%,至少91%,至少92至少95%,至少96%,至少97%,至少98%,或至少99%的相同性)。在一些实施方式中,第一扩增子引物包含SEQ IDNO:111-136中的任一个。在一些实施方式中,第二扩增子引物与SEQ ID NO:1具有至少70%相同性(例如至少70%,至少75%,至少80%,至少85%,至少90%,至少91%,至少92%,至少93%,至少94%,至少95%,至少96%,至少97%,至少98%或至少99%的相同性)。在一些实施方式中,第二扩增子引物包含SEQ ID NO:1。
在一些实施方式中,分区是液滴。在一些实施方式中,分区包含约50皮升至约2纳升的平均体积。在一些实施方式中,分区包含约0.5纳升至约2纳升的平均体积。在一些实施方式中,分区平均包含约0.1至约10个靶标/液滴。在一些实施方式中,分区平均包含约1至约5个靶标/液滴。
在一些实施方式中,在划分步骤(b)中,每个分区还包含选自盐,核苷酸,缓冲液,稳定剂,DNA聚合酶,可检测试剂和无核酸酶的水中的一种或多种构成成分。在一些实施方式中,DNA聚合酶是高保真DNA聚合酶。
在一些实施方式中,扩增步骤(c)(在本文中也称为“靶特异性”扩增)包含1至30个扩增循环,例如5至30个循环,10至30个循环,15至个循环,或10至25个循环。在一些实施方式中,扩增步骤(c)包含至少一个扩增循环。在一些实施方式中,扩增步骤(c)包含至少5个扩增循环,至少10个扩增循环,至少15个扩增循环,至少20个扩增循环,或至少25个扩增循环。在一些实施方式中,扩增步骤(c)包含约30个扩增循环。
在一些实施方式中,扩增步骤(e)(在本文中也称为“巢式”扩增)包含1至30个扩增循环,例如5至30个循环,10至30个循环,15至个循环,或10至25个循环。在一些实施方式中,扩增步骤(e)包含至少一个扩增循环,至少5个扩增循环,至少10个扩增循环,至少15个扩增循环,至少20个扩增循环,或至少25个扩增循环。在一些实施方式中,扩增步骤(e)包含约30个扩增循环。
在一些实施方式中,在扩增步骤(e)之后,该方法进一步包括纯化扩增子。在一些实施方式中,纯化步骤包括破坏分区并将扩增子与分区中的至少一种其他组分分离。在一些实施方式中,在扩增步骤(e)之后,该方法进一步包括对至少一个扩增子进行测序。
另一方面,提供了根据本文所述的方法产生的扩增子文库。
另一方面,提供了用于制备富含靶基因的文库的试剂盒。在一些实施方式中,所述试剂盒包含:
(a)第一组合物,用于划分成多个分区,其中所述组合物包含多个引物对,每个引物对包含用于扩增靶基因的正向引物和反向引物,其中所述正向引物包含(i)包含第一衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性正向引物序列,并且其中所述反向引物包含(i)包含第二衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性反向引物序列;和
(b)第二组合物,其包含第一引物和第二引物,其中第一引物包含第一衔接子序列,第二引物包含第二衔接子序列。
另一方面,提供了用于检测生物样品中的多个靶标的方法。在一些实施方式中,该方法包括:
(a)从生物样品获得多个多核苷酸片段;
(b)将所述多核苷酸片段划分成多个分区,其中每个分区还包含多个引物对,每个引物对包含用于扩增靶基因的正向引物和反向引物,其中所述正向引物包含(i)包含第一衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性正向引物序列,并且其中所述反向引物包含(i)包含第二衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性反向引物序列;
(c)用分区中的引物对之一扩增该分区中的多核苷酸片段的靶基因序列,由此产生扩增子,所述扩增子包含靶基因序列,所述靶基因序列在5′末端侧接第一衔接子序列的部分并在3′末端侧接第二衔接子序列的部分;
(d)纯化所述扩增子;
(e)使用包含第一衔接子序列的第一引物和包含第二衔接子序列的第二引物扩增扩增子;和
(f)检测来自扩增步骤(e)的多个扩增子。
在一些实施方式中,检测步骤包括对多个扩增子进行测序。在一些实施方式中,测序是合成法测序(sequencing by synthesis)。
定义
除非另外定义,本文中使用的所有技术和科学术语具有本领域普通技术人员通常所理解的同样含义。参见例如Lackie,DICTIONARY OF CELLAND MOLECULAR BIOLOGY(《细胞和分子生物学词典》),埃尔斯威尔出版社(Elsevier)(第4版2007);Sambrook等,MOLECULARCLONING,ALABORATORY MANUAL(《分子克隆,实验室手册》),冷泉港实验室出版社(冷泉港,纽约1989)。术语“一个”或“一种”意在表示“一个(种)或多个(种)”。当术语“包含”及其各种变体例如“包括”和“含有”位于叙述步骤或要素之前的时候,是用来表示添加其它的步骤或要素是任选的,并且是非排它性的。本发明的实践中可以使用与本文所述类似或等价的任何方法、装置和材料。本文提供的以下定义是用来帮助理解本文经常用到的某些术语,不对本发明的范围构成限制。
如本文所用,术语“衔接子”是对靶序列(例如,靶基因序列)而言不是天然的,但例如在扩增反应中将其加入靶序列中的多核苷酸序列。在一些实施方式中,衔接子包含杂交序列,其可以与互补或基本上互补的捕获探针(例如固定在固体表面上的捕获探针)杂交。在一些实施方式中,衔接子包含可以与引物例如测序引物或扩增引物杂交的序列。
关于序列所使用的术语“部分的”和“部分”是指长度小于序列的全长的序列。在一些实施方式中,序列的部分可以是序列全长的约20%至约80%,序列全长的约25%至约75%,或序列全长的约30%至约70%,例如,序列全长的约20%,约30%,约40%,约50%,约60%,约70%或约80%。在一些实施方式中,序列的部分是序列的连续数目的核苷酸(例如,该序列的至少10,至少15,至少20,至少25,至少30,至少40或至少50或更多个连续核苷酸)。作为非限制性示例,在一些实施方式中,包含衔接子序列的部分的多核苷酸包含完整衔接子序列的约20%至约80%。
本文所用术语“划分”或“划分的”指将样品分为多个部分或“分区(partition)”。分区可以是固体或流体。在一些实施方式中,分区是固体分区,例如微通道。在一些实施方式中,分区是流体分区,例如液滴。在一些实施方式中,流体分区(如液滴)是不互溶的流体(如水和油)的混合物。在一些实施方式中,流体分区(如液滴)是水性液滴,其被不互溶的运载体流体(如油)包围。
如本文所用,“靶标”是指待检测的多核苷酸序列。在一些实施方式中,靶标是“靶基因序列”,如本文所用,是指待检测的基因或基因的部分。在一些实施方式中,靶标是具有与诸如癌症的疾病相关的突变的多核苷酸序列(例如,基因或基因的部分)。在一些实施方式中,靶标是具有与诸如癌症的疾病相关的稀有突变的多核苷酸序列。
术语“核酸扩增”或“扩增”指用于以线性或指数方式倍增核酸靶序列拷贝的任何体外方法。这些方法包括但不限于聚合酶链式反应(PCR);DNA连接酶链式反应(LCR);QBetaRNA复制酶和基于RNA转录的扩增反应(例如涉及T7,T3或SP6引发的RNA聚合的扩增),例如转录扩增系统(TAS),基于核酸序列的扩增(NASBA),和自主维持序列复制(3SR);单引物等温扩增(SPIA),环介导等温扩增(LAMP),链置换扩增(SDA);多重置换扩增(MDA);滚环扩增(RCA);以及本领域技术人员已知的其他方法。参见例如,Fakruddin等,J.Pharm BioalliedSci.2013 5(4):245-252。
“扩增”是指向溶液(例如以液滴或本体(bulk))提供至足以允许扩增多核苷酸以产生扩增产物或“扩增子”的条件的步骤。扩增反应的组分包括,例如,引物、多核苷酸模板、聚合酶、核苷酸等。术语扩增一般是指靶核酸的指数型增加。然而,本文所用的术语扩增也可指核酸的特定靶序列数量的线性增加,如由循环测序所得。
术语“引物”指与靶核酸上的序列杂交并且用作核酸合成的起始点的多核苷酸序列。引物可以有多种长度。在一些实施方式中,引物长度小于100个核苷酸,例如长度为约10至约50,约15至约40,约15至约30,约20至约80,或约20至约60个核苷酸。可基于本领域技术人员已知的原理设计用于扩增反应(例如,PCR)的引物的长度和序列,参见例如Innis等编,(1990)《PCR方案:方法和应用指南》(PCR Protocols:A Guide to Methods andApplications)。在一些实施方式中,引物包含一个或多个带修饰或非天然的核苷酸碱基。在一些实施方式中,引物包含标签(例如,可检测标签)。
核酸或其部分在一定条件下与另一种核酸“杂交”,使得非特异性杂交在限定的温度下在生理缓冲液中最小。在一些情况中,核酸或其部分与一组靶核酸之间共有的保守序列杂交。在一些情况中,如果包括与超过一个核苷酸伴侣互补的“通用”核苷酸在内有至少约6、8、10、12、14、16、18、20、22、24、26、28或30个连续的互补核苷酸,引物或其部分能杂交至引物结合位点。或者,如果在至少约12、18、14、20、16、25或30个连续的互补核苷酸中有不到1或2个互补错配,引物或其部分能杂交至引物结合位点。在一些实施方式中,发生特异性杂交的限定温度是室温。在一些实施方式中,发生特异性杂交的限定温度高于室温。在一些实施方式中,发生特异性杂交的限定温度为至少约37、40、42、45、50、55、60、65、70、75或80℃,例如约45℃至约60℃,例如约55℃至59℃。在一些实施方式中,发生特异性杂交的限定温度比引物的计算解链温度低约5℃。
本文所用的“核酸”表示DNA、RNA、单链、双链、或更高度聚集的杂交基序及其任意化学修饰。修饰包括但不限于,提供整合入其它电荷、极化性、氢键、静电相互作用、与核酸配体碱基或核酸配体整体的连接点和作用点的化学基团的那些修饰。这类修饰包括但不限于,肽核酸(PNA)、磷酸二酯基团修饰(例如,硫代磷酸酯、甲基膦酸酯)、2′-位糖修饰、5-位嘧啶修饰、8-位嘌呤修饰、环外胺处的修饰、4-硫尿核苷的取代、5-溴或5-碘-尿嘧啶的取代、骨架修饰、甲基化、不常见的碱基配对组合如异碱基(isobases)、异胞苷和异胍(isoguanidine)等。核酸也可包含非天然碱基,如硝基吲哚。修饰还可包括3′和5′修饰,包括但不限于用荧光团(例如,量子点)或其他部分加帽。
附图简要说明
图1.描绘靶标富集的文库的构建的示例性示意图。包含感兴趣的靶基因的基因组DNA片段被划分成液滴。液滴还含有用于扩增靶基因的正向和反向引物对,其中正向引物包含部分P7衔接子序列,反向引物包含部分P5衔接子序列。进行液滴数字PCR(ddPCR)扩增以产生具有扩增的靶基因的液滴,其中部分P7和部分P5衔接子序列分别在靶基因的5′和3′末端连接。使包含ddPCR扩增子的液滴破裂并且PCR扩增子被纯化。然后使用具有全长P7衔接子序列的正向引物和具有全长P5衔接子序列的反向引物对扩增子进行巢式PCR扩增反应。全长衔接子序列中可以包括“索引(index)”或条形码序列。所得到的扩增产物是包含靶基因,全长P5衔接子和全长P7衔接子的双链多核苷酸。
图2.(SEQ ID NO:1,142,141,140,143-146,7,138和139)描绘使用P5和P7衔接子的示例性文库制备方案的示意图。对于第一扩增步骤,将部分P7靶特异性正向引物(3′-Rev-GSP-TCTAGCCTTCTCGTGTGCAGACT-5′SEQ ID NO:141)和部分P5靶特异性反向引物(5′-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-For-GSP-3′SEQ ID NO:142)用于富集靶基因。对于第二扩增步骤,使用包含全长条形码化P7衔接子序列(“P7-索引-RD2”;3′-TCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTGNNNNNNTAGAGCATACGGCAGAAGACGAAC-5′SEQ ID NO:140)和全长P5衔接子序列(“P5-RD1”:5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3′SEQ ID NO:1)的引物。绿色(对于P5-RD1)和橙色(对于P7-索引-RD2)的序列表示与用于下游测序步骤的捕获寡核苷酸互补的序列。紫色和蓝色的序列分别代表P5和P7衔接子序列中的测序引物区。示例性测序引物包括多重读数1测序引物(5′-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3′SEQID NO:137),多重索引读数测序引物(5′-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC-3′SEQ IDNO:138)和多重读数2测序引物(3′-TCTAGCCTTCTCGTGTGCAGACTTGAGGTCAGTG-5′SEQ ID NO:139)。
图3.液滴划分对比本体扩增的测序结果表明使用液滴划分扩增改善了每个靶标的读数数量的均匀性。
图4A-B.(A)在200重实验中从液滴中回收的产物制备的文库的Experion凝胶分析。L=bp中的梯标;D=从液滴中回收的物质;B=从本体反应中回收的物质。(B)从bp最低到最高排列的200重评级的适配扩增子尺寸的图。
图5A-B.(A)用于靶特异性PCR的基因组DNA片段的尺寸分布。(B)AMPure纯化的DNA片段巢式PCR后的尺寸分布,其来源于本体对比液滴的靶特异性PCR的15个循环(“15TS”)或30个循环(“30TS”)。
图6.上图:用Pre-Amp超混物(左)与ddPCR超混物(右)进行的从靶特异性PCR获得的测序读数的测序度量。底图:对从Pre-Amp主混合物(红色)与ddPCR超混物(蓝色)进行的靶特异性PCR获得的特定癌症靶标的测序读数计数。
图7.标准化储库文库浓度(蓝色)或标准化测序读数计数(红色)的标准化值,其从用针对特定癌症靶标的Pre-Amp超混物或ddPCR超混物进行的靶特异性PCR获得。
图8.读数计数与文库和癌症靶标。y轴报告了源自文库8与9的48重的测序读数计数的定量与x轴上的癌症目标之间的关系,其中靶特异性PCR步骤分别在液滴与本体中进行(探针的ddPCR超混物,无dUTP)。
发明详述
I.引言
本文描述了用于从样品制备靶标富集的文库的方法,组合物和试剂盒。将从样品获得的多核苷酸片段划分到多个分区中,并使用包含部分衔接子序列的引物在第一扩增反应中扩增。回收第一扩增反应的扩增产物并用作使用包含全长衔接子序列的引物的第二扩增反应的模板。本文描述的方法减少了由PCR中的高阶多重化固有地引入的扩增偏好并且为样品的下游检测(例如测序)应用提供了来自样品的扩增子的更均一的表现度。
II.制备靶标富集的文库的方法
一方面,提供了制备靶标富集的文库的方法。在一些实施方式中,该方法包括:
(a)提供多个多核苷酸片段;
(b)将所述多核苷酸片段划分成多个分区,其中每个分区还包含多个引物对,每个引物对包含用于扩增靶基因的正向引物和反向引物,其中所述正向引物包含(i)包含第一衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性正向引物序列,并且其中所述反向引物包含(i)包含第二衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性反向引物序列;
(c)用分区中的引物对之一扩增该分区中的多核苷酸片段的靶基因序列,由此产生扩增子,所述扩增子包含靶基因序列,所述靶基因序列在5′末端侧接第一衔接子序列的部分并在3′末端侧接第二衔接子序列的部分;
(d)纯化所述扩增子;并且
(e)使用包含第一衔接子序列的第一引物和包含第二衔接子序列的第二引物扩增所述扩增子。
多核苷酸片段
本文所述的方法可用于从任何感兴趣的多核苷酸序列产生文库。多核苷酸可以是单链或双链的,或者可以含有双链和单链序列的部分。例如,多核苷酸序列可以是基因组DNA,cDNA,mRNA或DNA和RNA的组合或杂合体。
在一些实施方式中,多核苷酸序列(例如,基因组DNA)从样品例如生物样品获得。生物样品可获自任何生物体,例如动物、植物、真菌、病原体(例如细菌或病毒)或任何其他生物体。在一些实施方式中,该生物样品来自动物,例如哺乳动物(如人或非人灵长类动物、奶牛、马、猪、绵羊、猫、狗、小鼠或大鼠)、鸟(如鸡)或鱼。生物样品可以是获自生物体的任何组织或体液,例如血液,血液成分或血液产品(如血清、血浆、血小板、血红细胞等),痰液或唾液,组织(如肾、肺、肝、心、脑、神经组织、甲状腺、眼、骨骼肌、软骨或骨组织);培养的细胞,例如原代培养物,外植体,和转化的细胞,干细胞,粪便,尿液等。
在一些实施方式中,用于产生靶标富集的文库的多核苷酸序列是基因组DNA。在一些实施方式中,多核苷酸序列包含基因组的亚组(例如,可能包含特定群体(例如易患特定类型癌症的个体)的突变的选定基因)。在一些实施方式中,多核苷酸序列包含外显子组DNA,即富含转录序列的全基因组DNA的亚组,其包含基因组中的外显子组。在一些实施方式中,多核苷酸序列包含转录组DNA,即在细胞或细胞群中产生的所有mRNA或“转录物”的组。
在一些实施方式中,多核苷酸被片段化以产生一种或多种特定尺寸的多核苷酸片段。任何片段化方法都可以使用。在一些实施方式中,通过机械手段(例如,超声切割,声剪切,针剪或声处理)将多核苷酸片段化。在一些实施方式中,通过化学方法或通过酶促方法(例如使用内切核酸酶,如dsDNA马萨诸塞州伊维池的新英格兰生物试验室公司(New England Biolabs,Inc.,Ipswich,MA))将多核苷酸片段化。在一些实施方式中,通过超声(例如Covaris或Sonicman 96孔式仪器)完成片段化。片段化的方法在本领域中是已知的;参见例如US2012/0004126。
在一些实施方式中,对多核苷酸片段进行尺寸选择步骤以获得具有特定尺寸或尺寸范围的多核苷酸片段。任何尺寸选择的方法都可以使用。例如,在一些实施方式中,通过凝胶电泳分离片段化的多核苷酸,并从凝胶中提取对应于感兴趣片段尺寸或尺寸范围的条带。在一些实施例中,可以使用离心柱来选择具有特定最小尺寸的片段。在一些实施方式中,顺磁珠可用于选择性结合具有所需尺寸范围的DNA片段。在一些实施方式中,可以使用尺寸选择方法的组合。
在一些实施方式中,选择长度为至少约100个核苷酸的多核苷酸片段。在一些实施方式中,多核苷酸片段的长度为至多约1000个核苷酸,至多约5000个核苷酸,至多约10,000个核苷酸,至多约20,000个核苷酸,至多约30,000个核苷酸,至多约40,000个核苷酸,或至多约50,000个核苷酸。
在一些实施方式中,选择的多核苷酸片段长度为约100至约50,000个核苷酸,例如约1000至约50,000,约5000至约50,000,约1000至约25,000,约5000至约25,000,约100至约10,000,约1000至约10,000,约100至约5000,约100至约2000,约100至约1500,约100至约1000,约100至约900,或约200至约800个核苷酸。在一些实施方式中,多核苷酸片段化的多核苷酸(例如基因组DNA片段)的平均长度为约100,约150,约200,约250,约300,约350,约400,约450,约500,约550,约600,约650,约700,约750,约800,约850,约900,约950,约1000,约1100,约1200,约1300,约1400,约1500,约1600,约1700,约1800,约1900或约2000个核苷酸。
衔接子
本文描述的方法用于向来自靶基因或基因区的PCR扩增子的5′和3′末端添加衔接子。通常,衔接子是添加到靶核苷酸序列(例如靶基因或基因区)的合成核酸序列。衔接子可以在序列的长度上有所不同。在一些实施方式中,衔接子具有约20个核苷酸至约500个核苷酸,例如约30至约350个核苷酸,约40至约200个核苷酸,约30至约150个核苷酸,约20至约200个核苷酸,或约20至约100个核苷酸(例如,约20、30、40、50、60、70、80、90、100、120、140、160、180、200、220、240、260、280、300、320、340、360、380、400、420、440、460、480或500个核苷酸)的长度。
在一些实施方式中,衔接子序列包含通用序列。如本文所用,“通用”序列是指多个衔接子所共有的核苷酸序列区域(例如,多个5′末端衔接子所共有的核苷酸序列区域或多个3′末端衔接子所共有的核苷酸序列区域)。在一些实施方式中,衔接子包括可变序列。例如,一个5′末端衔接子可以包含与一个或多个核苷酸处的另一个5′末端衔接子的对应区域不同的核苷酸序列区域,并且一个3′末端衔接子可以包含与一个或多个核苷酸处的另一个3′末端衔接子的对应区域不同的核苷酸序列区域。在一些实施方式中,衔接子可以包含通用序列区和可变序列区。
在一些实施方式中,衔接子可以包括“索引”或“条形码”序列。如本文所用索引或条形码序列是鉴别其所偶联分子的短核苷酸序列(例如,长至少约4、6、8、10或12个核苷酸)。在一些实施方式中,条形码序列的长度为约4个核苷酸至约20个核苷酸,约6个核苷酸至约12个核苷酸,或约4个至约10个核苷酸。条形码序列的长度决定了可以区分多少独特的样品。例如,1个核苷酸条形码可以区分不多于4个样品或分子;4个核苷酸条形码可以区分不多于44即256个样品;6个核苷酸条形码可以区分不多于4096个不同样品;而8个核苷酸的条形码可以标引不多于65,536个不同样品。在一些实施方式中,使用条形码来鉴定分区中的分子(“分区特定性条形码”)。相对于其它分区的条形码,分区特异性条形码应为该分区所独有。在一些实施方式中,使用条形码来鉴定核酸来源(例如,获得核酸的细胞或样品)。在一些实施方式中,使用条形码来鉴定与其偶联的分子(例如,靶核酸序列)。在一些实施方式中,当并行处理多个样品时(例如,用于如本文所述的癌症组筛选多个患者样品,其中样品同时加载在测序仪上),使用条形码来区分样品。这种方法的优点是通过规模经济降低了测序成本。本领域熟知条形码技术的使用,参见例如Katsuyuki Shiroguchi等Proc NatlAcad Sci U S A.,2012年1月24日109(4):1347-52和Smith,AM等Nucleic Acids ResearchCan 11,(2010)。设计和连接用于鉴定分子的条形码序列(例如,将条形码附连到多核苷酸序列上)的方法也描述于例如US 6,235,475中,其全部内容通过引用并入本文。
P5和P7衔接子
在一些实施方式中,将第一衔接子序列添加至靶基因或基因区的5′末端,并将第二衔接子序列添加至靶基因或基因区的3′末端。在一些实施方式中,添加到靶基因或基因区的5′和3′末端的衔接子序列是P5衔接子和P7衔接子序列。在亿明达测序化学(在本领域中也称为“桥式扩增”)中使用的P5和P7衔接子是结合阵列表面(例如,流通池表面)上的互补寡核苷酸的衔接子,由此允许结合至P5或P7衔接子的文库片段附连到阵列表面。P5和P7衔接子序列在本领域中是已知的并且描述于例如Bentley等,Nature 456:53-59(2008)。还可参见美国专利号8,192,930。
在一些实施方式中,将P5衔接子添加至靶基因或基因区的5′末端,并将P7衔接子添加至靶基因或基因区的3′末端。在一些实施方式中,将P7衔接子添加至靶基因或基因区的5′末端,并将P5衔接子添加至靶基因或基因区的3′末端。
在一些实施方式中,P5衔接子序列具有以下序列:
5′-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3′(SEQID NO:1)
在一些实施方式中,P5衔接子序列与SEQ ID NO:1具有至少70%相同性(例如至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%或99%的相同性)。在一些实施方式中,与SEQ ID NO:1具有至少70%相同性的P5衔接子序列包含来自P5衔接子序列的连续核酸序列5′-AATGATACGGCGACCACCGAGATCT(SEQ ID NO:2)。在一些实施方式中,SEQ ID NO:2是全长P5衔接子5′末端的不变序列,其在测序反应中与固相表面(例如流动池)上的捕获寡核苷酸杂交。
在一些实施方式中,P5衔接子序列包含索引或条形码序列。在一些实施方式中,所述索引或条形码序列包含4-20个核苷酸(例如6-15,6-12,4-10,或约4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19或20个核苷酸)。在一些实施方式中,条形码序列可以插入SEQID NO:1的序列内。在一些实施方式中,包含条形码的P5衔接子序列具有以下序列:
5′-AAT GAT ACG GCG ACC ACC GAG ATC TNN NNN NAC ACT CTT TCC CTA CACGAC GCT CTT CCG ATC T-3′(SEQ ID NO:3)
在一些实施方式中,包含条形码的P5衔接子序列与SEQ ID NO:3具有至少70%相同性(例如至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%或99%的相同性)。
在一些实施方式中,P7衔接子序列具有以下序列:
5-CAA GCA GAA GAC GGC ATA CGA GAT GTG ACT GGA GTT CAG ACG TGT GCT CTTCCG ATC T-3′(SEQ ID NO:4)
在一些实施方式中,P7衔接子序列与SEQ ID NO:4具有至少70%相同性(例如至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%或99%的相同性)。在一些实施方式中,与SEQ ID NO:4具有至少70%相同性的P7衔接子序列包含来自P7衔接子序列的连续核酸序列CAAGCAGAAGACGGCATACGAGAT(SEQ ID NO:5)。在一些实施方式中,SEQ ID NO:5是全长P7衔接子5′末端的不变序列,其在测序反应中与固相表面(例如流动池)上的捕获寡核苷酸杂交。
在一些实施方式中,P7衔接子序列包含索引或条形码序列。在一些实施方式中,所述索引或条形码序列包含4-20个核苷酸(例如6-15,6-12,4-10,或约4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19或20个核苷酸)。在一些实施方式中,条形码序列可以插入SEQID NO:4的序列内。在一些实施方式中,包含条形码的P7衔接子序列具有以下序列:
5-CAA GCA GAA GAC GGC ATA CGA GAT NNN NNN GTG ACT GGA GTT CAG ACG TGTGCT CTT CCG ATC T-3′(SEQ ID NO:6)
在一些实施方式中,包含条形码的P7衔接子序列与SEQ ID NO:6具有至少70%相同性(例如至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%或99%的相同性)。
其它衔接子序列
在一些实施方式中,添加到靶基因或基因区的5′和3′末端的衔接子序列是Nextera衔接子(亿明达公司(Illumina))。Nextera衔接子在本领域中是已知的并且例如在Turner,Front Genet.,2014,5:5(doi:10.3389/fgene.2014.00005)中进行了描述。在一些实施方式中,衔接子序列是“索引1读数”或“索引2读数”序列。在一些实施方式中,索引1读数衔接子序列具有以下序列:
5′-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3′(SEQ ID NO:109)
在一些实施方式中,索引1读数衔接子序列与SEQ ID NO:109具有至少70%相同性(例如至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%或99%的相同性)。
在一些实施方式中,索引2读数衔接子序列具有以下序列:
5'-AATGATACGGCGACCACCGAGATCTACAC[i5]TCGTCGGCAGCGTC-3′(SEQ ID NO:110)
在一些实施方式中,索引2读数衔接子序列与SEQ ID NO:110具有至少70%相同性(例如至少70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%或99%的相同性)。
在一些实施方式中,加入到靶基因或基因区的5′和3′末端的衔接子序列是市售可得的衔接子序列,例如来自太平洋生物科学公司(Pacific Biosciences),罗氏(Roche)或离子激流公司(Ion Torrent)。例如,在US2012/0196279,WO2013/169998和WO2015/121236中也描述了衔接子和衔接子序列,其通过引用纳入本文。
部分衔接子序列
如以下“用于靶特异性扩增反应的试剂”部分中进一步描述的,使用用于扩增靶基因的靶特异性引物对进行靶特异性扩增反应。在一些实施方式中,靶特异性引物对包含正向引物和反向引物,其中正向引物包含(i)包含第一衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性正向引物序列,并且其中反向引物包含(i)包含第二衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性反向引物序列。如本文所用,“部分”衔接子序列或衔接子序列的“部分”是指衔接子序列的长度小于衔接子序列的全长(例如,如本文所述的P5或P7衔接子序列的长度,其小于P5或P7衔接子序列的全长)。在一些实施方式中,衔接子序列的部分可以是衔接子序列全长的约20%至约80%,衔接子序列全长的约25%至约75%,或衔接子序列全长的约30%至约70%,例如,衔接子序列全长的约20%,约30%,约40%,约50%,约60%,约70%或约80%。在一些实施方式中,“部分”衔接子序列或衔接子序列的“部分”是衔接子序列的连续数量的核苷酸(例如,衔接子序列,例如,本文所述的P5或P7序列的至少10,至少15,至少20,至少25,至少30,至少40或至少50或更多个连接核苷酸)。
在一些实施方式中,部分P5靶特异性引物包含SEQ ID NO:1或SEQ ID NO:3的P5衔接子的至少10个,至少15个,至少20个,至少25个,至少30个或至少35个核苷酸。在一些实施方式中,包含SEQ ID NO:1或SEQ ID NO:3的P5衔接子的至少10个,至少15个,至少20个,至少25个,至少30个或至少35个核苷酸的部分P5靶特异性引物是靶特异性正向引物。在一些实施方式中,包含SEQ ID NO:1或SEQ ID NO:3的P5衔接子的至少10个,至少15个,至少20个,至少25个,至少30个或至少35个核苷酸的部分P5靶特异性引物是靶特异性反向引物。在一些实施方式中,部分P5靶特异性引物包含SEQ ID NO:1或SEQ ID NO:3的P5衔接子的3′末端处的至少10个,至少15个,至少20个,至少25个,至少30个或至少35个核苷酸。在一些实施方式中,部分P5靶特异性引物包含与序列5′-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3′(SEQ ID NO:7)具有至少70%相同性(例如,至少70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、或99%相同性)的序列。在一些实施方式中,部分P5靶特异性引物包含SEQ ID NO:7的序列。
在一些实施方式中,部分P7靶特异性引物包含SEQ ID NO:4或SEQ ID NO:6的P7衔接子的至少10个,至少15个,至少20个,至少25个,至少30个或至少35个核苷酸。在一些实施方式中,包含SEQ ID NO:4或SEQ ID NO:6的P7衔接子的至少10个,至少15个,至少20个,至少25个,至少30个或至少35个核苷酸的部分P7靶特异性引物是靶特异性正向引物。在一些实施方式中,包含SEQ ID NO:4或SEQ ID NO:6的P7衔接子的至少10个,至少15个,至少20个,至少25个,至少30个或至少35个核苷酸的部分P7靶特异性引物是靶特异性反向引物。在一些实施方式中,部分P7靶特异性引物包含SEQ ID NO:4或SEQ ID NO:6的P7衔接子的3′末端处的至少10个,至少15个,至少20个,至少25个,至少30个或至少35个核苷酸。在一些实施方式中,部分P7靶特异性引物包含与序列5′-TCAGACGTGTGCTCTTCCGATCT-3′(SEQ ID NO:8)具有至少70%相同性(例如,至少70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、或99%相同性)的序列。在一些实施方式中,部分P7靶特异性引物包含SEQ ID NO:8的序列。
在一些实施方式中,部分衔接子序列包含如本文所述的索引1读数衔接子序列(SEQ ID NO:109)或索引2读数衔接子序列(SEQ ID NO:110)的至少10个,至少15个,至少20个,至少25个,至少30个或更多个连续核苷酸。在一些实施方式中,部分索引1读数或索引2读数衔接子序列是索引1读数或索引2读数序列的3′末端处的连续区域。
用于靶特异性扩增反应的试剂
为了如本文所述从多核苷酸片段产生靶标富集的文库,使用对靶基因或基因区特异性的引物进行第一扩增反应。在一些实施方式中,扩增反应包含用于富集多个靶基因或基因区的多个引物对。
靶特异性扩增引物
在一些实施方式中,用于扩增靶基因或基因区的引物对包含正向引物和反向引物,其中正向引物包含(i)包含第一衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性正向引物序列,并且其中反向引物包含(i)包含第二衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性反向引物序列。
在一些实施方式中,待富集的靶基因或基因区与疾病(例如癌症,神经肌肉疾病,心血管疾病,发育性疾病或代谢性疾病)具有已知的相关性。在一些实施方式中,待富集的靶基因或基因区与癌症已知的相关性,包括但不限于膀胱癌,脑癌,乳腺癌,宫颈癌,结肠直肠癌,子宫内膜癌,食管癌,胃癌,头颈癌,肾癌,白血病,肝癌,肺癌,淋巴瘤,黑素瘤,卵巢癌,胰腺癌,前列腺癌或甲状腺癌。因此,在一些实施方式中,靶特异性扩增引物包含杂交至与癌症有已知相关性的靶基因或基因区的序列。
在一些实施方式中,富集的靶基因或基因区与疾病(例如遗传疾病)具有已知的相关性,包括但不限于自闭症谱系障碍,心肌病,纤毛病,先天性糖基化障碍,先天性肌无力综合征,癫痫和癫痫症,眼病,糖原贮存病症,遗传性癌症综合征,遗传性周期性发热综合征,炎症性肠病,溶酶体贮积症,多发性骺发育不良,神经肌肉病症,Noonan综合征和相关病症,过氧化物酶体生物合成障碍或骨骼发育异常。因此,在一些实施方式中,靶特异性扩增引物包含杂交至与疾病(例如遗传疾病)有已知相关性的靶基因或基因区的序列。
在一些实施方式中,可以分析靶基因或基因区的突变,包括但不限于与疾病(例如癌症)相关的点突变,单核苷酸多态性,插入缺失,基因融合,重排,新剪接转录物(alternatively spliced transcripts)或拷贝数变体。
根据本文描述的方法可富集的示例性靶基因或基因区显示于下表1和表2中。在一些实施方式中,富集的靶基因或基因区是商业上可获得的疾病和癌症组,例如IonAmpliSeqTM癌症热点组v2(靶向50个致癌基因和肿瘤抑制基因的“热点”区域癌症组,包括覆盖KRAS,BRAF和EGFR基因),Ion AmpliSeqTM综合癌症研究组(靶向400种以上癌基因和肿瘤抑制基因内的外显子的癌症组),Ion AmpliSeqTM遗传疾病组(靶向超过300种与包括神经肌肉,心血管,发育和代谢疾病在内的700多种遗传疾病相关的基因的外显子的遗传疾病组)和亿明达扩增子癌症组(检测48种基因中数百个突变热点的体细胞突变的癌症组)。
在一些实施方式中,靶特异性扩增引物(例如正向引物或反向引物)还包含衔接子序列的部分,例如如上文“衔接子”部分所讨论的。在一些实施方式中,靶特异性扩增引物包含P5衔接子序列或P7衔接子序列的部分。在一些实施方式中,靶特异性正向扩增引物包含P7衔接子序列的部分,并且靶特异性反向扩增引物包含P5衔接子序列的部分。在一些实施方式中,靶特异性正向扩增引物包含P5衔接子序列的部分,并且靶特异性反向扩增引物包含P7衔接子序列的部分。在一些实施方式中,靶特异性扩增引物(例如,正向引物或反向引物)包含本文所述的索引1读数衔接子序列或索引2读数衔接子序列的部分。
在一些实施方式中,靶特异性扩增引物包含P7衔接子的部分,其中该部分包含SEQID NO:4或SEQ ID NO:6的P7衔接子的3′末端处的至少15个,至少20个,至少25个,至少30个或至少35个核苷酸。在一些实施方式中,对于靶特异性扩增引物,P7衔接子的部分是与序列5′-TCAGACGTGTGCTCTTCCGATCT-3′(SEQ ID NO:8)具有至少70%相同性(例如,至少70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、或99%相同性)的序列或具有SEQ ID NO:8的序列。在一些实施方式中,包含SEQ ID NO:8的序列的靶特异性扩增引物是正向扩增引物。在一些实施方式中,包含SEQ ID NO:8的序列的靶特异性扩增引物是反向扩增引物。在一些实施方式中,靶特异性扩增引物是下表1中列出的引物。
在一些实施方式中,靶特异性扩增引物包含P5衔接子的部分,其中该部分包含SEQID NO:1或SEQ ID NO:3的P5衔接子的3′末端处的至少15个,至少20个,至少25个,至少30个或至少35个核苷酸。在一些实施方式中,对于靶特异性扩增引物,P5衔接子的部分是与序列5′-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3′(SEQ ID NO:7)具有至少70%相同性(例如,至少70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、或99%相同性)的序列或具有SEQ ID NO:7的序列。在一些实施方式中,包含SEQ ID NO:7的序列的靶特异性扩增引物是正向扩增引物。在一些实施方式中,包含SEQ ID NO:7的序列的靶特异性扩增引物是反向扩增引物。在一些实施方式中,靶特异性扩增引物是下表2中列出的引物。
在一些实施方式中,靶特异性扩增引物包含索引1读数衔接子的部分,其中该部分包含SEQ ID NO:109的索引1读数衔接子的3′末端处的至少10个,至少15个,至少20个,至少25个或至少30个核苷酸。在一些实施方式中,包含索引1读数衔接子的部分的靶特异性扩增引物是正向扩增引物。在一些实施方式中,包含索引1读数衔接子的部分的靶特异性扩增引物是反向扩增引物。
在一些实施方式中,靶特异性扩增引物包含索引2读数衔接子的部分,其中该部分包含SEQ ID NO:110的索引2读数衔接子的3′末端处的至少10个,至少15个,至少20个,至少25个或至少30个核苷酸。在一些实施方式中,包含索引2读数衔接子的部分的靶特异性扩增引物是正向扩增引物。在一些实施方式中,包含索引2读数衔接子的部分的靶特异性扩增引物是反向扩增引物。
在一些实施方式中,靶特异性扩增引物还包含索引或条形码序列。在一些实施方式中,索引或条形码序列的长度为约4个核苷酸至约20个核苷酸,约6个核苷酸至约12个核苷酸,或约4个至约10个核苷酸。在一些实施方式中,将索引或条形码序列插入靶特异性正向或反向扩增引物中的部分衔接子序列和靶基因特异性序列之间。在一些实施方式中,将索引或条形码序列插入P5衔接子序列的5′-TCT-索引-ACA-3′之间。在一些实施方式中,将索引或条形码序列插入P7衔接子序列的5′-GAT-索引-GTG-3′之间。
可以通过多种方法制备引物,包括但不限于克隆合适的序列和使用本领域已知的方法直接化学合成。参见例如Narang等,Methods Enzymol 68:90(1979)。计算机程序也可用于设计引物并计算引物的解链温度。引物也可以从商业来源获得,包括但不限于整合DNA技术公司(Integrated DNA Technologies),生物搜索技术公司(BioSearchTechnologies),欧普龙技术公司(Operon Technologies),安法马西亚生物技术公司(Amersham Pharmacia Biotech),西格玛公司(Sigma)和生命技术公司(LifeTechnologies)。
其它扩增反应组分
为了通过ddPCR扩增多核苷酸片段的靶基因或基因区,制备扩增反应混合物。在一些实施方式中,扩增反应混合物包含一对或多对如本文所述的靶特异性扩增引物。在一些实施方式中,扩增混合物还包含盐,核苷酸,缓冲剂,稳定剂,DNA聚合酶,可检测试剂和无核酸酶水中的一种或多种。
在一些实施方式中,扩增反应混合物包含DNA聚合酶。可用于本文所述方法的DNA聚合酶可以是能够复制DNA分子的任何聚合酶。在一些实施方式中,所述DNA聚合酶是热稳定聚合酶。热稳定聚合酶分离自多重嗜热细菌,如水生栖热菌(Thermus aquaticus)(Taq),激烈热球菌(Pyrococcus furiosus)(Pfu),沃氏火球菌(Pyrococcus woesei)(Pwo),嗜热芽孢杆菌(Bacillus sterothermophilus)(Bst),嗜酸热硫化叶菌(Sulfolobusacidocaldarius)(Sac),硫磺矿硫化叶菌(Sulfolobus solfataricus)(Sso),隐蔽热网菌(Pyrodictium occultum)(Poc),阿比热网菌(Pyrodictium abyssi)(Pab),和嗜热自养甲烷杆菌(Methanobacterium thermoautotrophicum)(Mth),以及其他物种。DNA聚合酶是本领域已知的,并且市售可得。在一些实施方式中,DNA聚合酶是Taq、Tbr、Tfl、Tru、Tth、Tli、Tac、Tne、Tma、Tih、Tfi、Pfu、Pwo、Kod、Bst、Sac、Sso、Poc、Pab、Mth、Pho、ES4、VENTTM、DEEPVENTTM,或其活性突变体、变体或衍生物。在一些实施方式中,所述DNA聚合酶是Taq DNA聚合酶。在一些实施方式中,DNA聚合酶是高保真DNA聚合酶(例如,iProofTM高保真DNA聚合酶,高保真DNA聚合酶,高保真DNA聚合酶,Taq高保真DNA聚合酶,高保真聚合酶)。在一些实施方式中,DNA聚合酶是快速启动聚合酶(例如FastStartTM Taq DNA聚合酶或FastStartTM高保真DNA聚合酶)。
在一些实施方式中,扩增反应混合物包含核苷酸。用于本文所述方法的核苷酸可以是用于核酸聚合的任何核苷酸。核苷酸可以是天然来源、稀有的、修饰的、衍生的、或者人工得到的。核苷酸可以未标记,或者可以通过本领域技术人员已知的方法可检测地标记(例如,采用放射性同位素、维生素、荧光或化学发光部分,地高辛(dioxigenin))。在一些实施方式中,核苷酸是脱氧核苷三磷酸(“dNTP”,例如,dATP,dCTP,dGTP,dTTP,dUTP,α-硫代-dNIT,生物素-dUTP,荧光素-dUTP,地高辛-dUTP,或7-脱氮-dGTP)。dNTP也是本领域已知的,并且市售可得。在一些实施方式中,核苷酸不包含dUTP。
在一些实施方式中,扩增反应混合物包含一种或多种缓冲剂或盐。本领域已知多种缓冲剂和盐溶液以及修饰的缓冲液。例如,在一些实施方式中,缓冲剂是TRIS,TRICINE,BIS-TRICINE,HEPES,MOPS,TES,TAPS,PIPES或CAPS。在一些实施方式中,盐是乙酸钾、硫酸钾、氯化钾、硫酸铵、氯化铵、乙酸铵、氯化镁、乙酸镁、硫酸镁、氯化锰、乙酸锰、硫酸锰、氯化钠、乙酸钠、氯化锂、或乙酸锂。在一些实施方式中,扩增反应混合物包含浓度为约10mM至约100mM的盐(例如氯化钾)。
在一些实施方式中,扩增反应混合物包含一种或多种光学可检测试剂,例如荧光剂,磷光剂,化学发光剂等。多种试剂(如染料、探针或指示剂)是本领域已知的并可用于本发明。(参见例如英杰公司(Invitrogen),The Handbook-A Guide to Fluorescent Probesand Labeling Technologies(《手册——荧光探针和标记技术指导》),第10版(2005))。荧光剂可包括多种有机和/或无机小分子或多种荧光蛋白及其衍生物。在一些实施方式中,该试剂是荧光团。文献中报道了许多荧光团并因此为本领域技术人员已知,并且其多数易于从生物技术工业的市场供应商购得。荧光团的文献来源包括Cardullo等,Proc.Natl.Acad.Sci.USA 85:8790-8794(1988);Dexter,D.L.,J.of Chemical Physics21:836-850(1953);Hochstrasser等,Biophysical Chemistry 45:133-141(1992);Selvin,P.,Methods in Enzymology 246:300-334(1995);Steinberg,I.Ann.Rev.Biochem.,40:83-114(1971);Stryer,L.Ann.Rev.Biochem.,47:819-846(1978);Wang等,Tetrahedron Letters 31:6493-6496(1990);Wang等,Anal.Chem.67:1197-1203(1995)。荧光团的非限制性示例包括:花青、荧光素(例如5′-羧基荧光素(FAM)、俄勒冈绿(Oregon Green)和Alexa 488)、HEX、若丹明(例如N,N,N′,N′-四甲基-6-羧基若丹明(TAMRA)、四甲基若丹明和四甲基若丹明异硫氰酸酯(TRITC))、伊红、香豆素、芘、四吡咯、芳基甲川、噁嗪、聚合物点和量子点。
在一些实施方式中,所述可检测试剂是插入试剂。插入试剂在插入双链核酸时生成信号。示例性的插入试剂包括,例如,9-氨基吖啶、溴化乙啶、菲啶染料、EvaGreen、PICOGREEN(P-7581,分子探针公司(Molecular Probes))、EB(E-8751,西格玛公司(Sigma))、碘化丙啶(P-4170,西格玛公司)、吖啶橙(A-6014,西格玛公司)、噻唑橙、噁唑黄、7-氨基放线菌素D(A-1310,分子探针公司)、花青染料(如TOTO、YOYO、BOBO和POPO)、SYTO、SYBR Green I(美国专利号5,436,134:N′,N′-二甲基-N-[4-[(E)-(3-甲基-1,3-苯并噻唑-2-亚基)甲基]-1-苯基喹啉-1-鎓-2-基]-N-丙基丙烷-1,3-二胺)、SYBR Green II(美国专利号5,658,751)、SYBR DX、OliGreen、CyQuant GR、SYTOX Green、SYTO9、SYTO10、SYTO17、SYBR14、FUN-1、DEAD Red、碘化己啶、溴化乙啶、二氢乙啶、溴乙啡锭二聚体、9-氨基-6-氯-2-甲氧基吖啶、DAPI、DIPI、吲哚染料、咪唑染料、放线菌素D、羟芪巴脒、LDS 751(美国专利号6,210,885),以及以下文献中描述的染料:Georghiou,Photochemistry and Photobiology(《光化学和光生物学》),26:59-68,培格曼出版公司(Pergamon Press)(1977);Kubota等,Biophys.Chem.,6:279-284(1977);Genest等,Nuc.Ac.Res.,13:2603-2615(1985);Asseline,EMBO J.,3:795-800(1984);Richardson等,美国专利号4,257,774;以及Letsinger等,美国专利号4,547,569。
在一些实施方式中,所述试剂是分子信标寡核苷酸探针。如上所述,“信标探针”方法依赖于使用能量传输。该方法使用能够形成发夹结构的寡核苷酸杂交探针。在杂交探针的一端上(5′或3′端)存在供体荧光团,且在另一端上存在受体部分。在Tyagi和Kramer方法中,该受体部分是淬灭剂,即该受体吸收由供体释放的能量,但随后其本身不产生荧光。因此,当信标处于开放构象时,供体荧光团的荧光是可检测的,而当信标处于发夹(闭合)构象时,供体荧光团的荧光被淬灭。
在一些实施方式中,该试剂是放射性同位素。放射性同位素包括放射性核素,其发射γ射线、正电子、β和α粒子和X射线。合适的放射性核素包括但不限于:225Ac、72As、211At、11B、128Ba、212Bi、75Br、77Br、14C、109Cd、62Cu、64Cu、67Cu、18F、67Ga、68Ga、3H、166Ho、123I、124I、125I、130I、131I、111In、177Lu、13N、15O、32P、33P、212Pb、103Pd、186Re、188Re、47Sc、153Sm、89Sr、99mTc、88Y和90Y。
在一些实施方式中,扩增反应混合物包含一种或多种稳定剂。用于本文所述方法的稳定剂包括但不限于多元醇(甘油,苏糖醇等),包括环状聚醚的聚醚,聚乙二醇,有机或无机盐,如硫酸铵,硫酸钠,钼酸钠,钨酸钠,有机磺酸盐等,糖,多元醇,氨基酸,肽或羧酸,猝灭剂和/或清除剂如甘露醇,甘油,还原型谷胱甘肽,超氧化物歧化酶,牛血清白蛋白(BSA)或明胶,亚精胺,二硫苏糖醇(或巯基乙醇)和/或洗涤剂如X-100[Octophenol(乙二醇醚)],[聚氧乙烯9月桂基醚(Polidocanol C12E9)],(聚氧乙烯脱水山梨糖醇单月桂酸酯20,NP40)和(聚氧乙烯23月桂基醚)。
多重化
在一些实施方式中,本文所述的方法可用于针对多个靶基因或基因区进行富集。在一些实施方式中,靶基因或基因区中的一个或多个是下表1,表2或表4中所述的靶基因或基因区。在一些实施方式中,靶特异性扩增包括扩增至少2个靶基因或基因区,至少约5个靶基因或基因区,至少约10个靶基因或基因区,至少约20个靶基因或基因区,至少约30个靶基因或基因区,至少约40个靶基因或基因区,至少约50个靶基因或基因区,至少约75个靶基因或基因区,至少约100个靶基因或基因区,至少约200个靶基因或基因区,至少约300个靶基因或基因区,至少约400个靶基因或基因区,至少约500个靶基因或基因区,至少约1000个靶基因或基因区,至少约1500个靶基因或基因区,至少约2000个靶基因或基因区,至少约2500个靶基因或基因区,至少约3000个靶基因或基因区,至少约4000个靶基因或基因区,或至少约5000个靶基因或基因区(例如,至少约2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500或5000个靶基因或基因区)。在一些实施方式中,靶特异性扩增包括扩增至少约20个靶基因或基因区(例如,至少20个如下表1,表2或表4中所述的靶基因或基因区)。在一些实施方式中,靶特异性扩增包括扩增至少约50个靶基因或基因区。在一些实施方式中,靶特异性扩增包括扩增至少约200个靶基因或基因区。在一些实施方式中,靶特异性扩增包括扩增至少约1000个靶基因或基因区。
因此,在一些实施方式中,扩增反应混合物包含多对靶特异性扩增引物。在一些实施方式中,扩增反应混合物包含至少约2、5、10、20、30、40、50、75、100、200、300、400、500、1000、1500、2000、2500、3000、3500、3000、3000、3000、4000、4500或5000对靶特异性扩增引物。在一些实施方式中,使用至少约50对靶特异性扩增引物。在一些实施方式中,使用至少约200对靶特异性扩增引物。在一些实施方式中,使用至少约1000对靶特异性扩增引物。
划分
将包含待扩增的靶基因序列的多核苷酸片段和ddPCR扩增反应组分(例如,引物,DNA聚合酶,核苷酸,缓冲剂,盐等)划分到多个分区中。分区可包括多种类型的分区中的任一种,包括固体分区(如孔或管)和流体分区(如油相内的水性液滴)。在一些实施方式中,分区是液滴。在一些实施方式中,分区是微通道。划分样品的方法和组合物描述于,例如,公开的专利申请WO 2010/036352、US 2010/0173394、US 2011/0092373、WO 2011/120024和US2011/0092376,其全部内容各自通过引用纳入本文。
在一些实施方式中,多核苷酸片段和ddPCR反应组分划分成多个液滴。在一些实施方式中,液滴包含乳液组合物,即不互溶的流体(如水和油)的混合物。在一些实施方式中,液滴是水性液滴,其被不互溶的运载体流体(如油)包围。在一些实施方式中,液滴是油性液滴,其被不互溶的运载体流体(如水性溶液)包围。在一些实施方式中,液滴是相对稳定的并在两种或更多种液滴之间具有最小聚结。在一些实施方式中,由样品生成的液滴中少于0.0001%、0.0005%、0.001%、0.005%、0.01%、0.05%、0.1%、0.5%、1%、2%、3%、4%、5%、6%、7%、8%、9%或10%与其他液滴聚结。这些乳液还可具有有限的絮凝,一种分散相从薄片中悬浮液产生的过程。例如在公开的专利申请WO 2011/109546和WO 2012/061444中描述了形成乳液的方法,其全部内容通过引用纳入本文。
在一些实施方式中,使油相流过含有多核苷酸片段和ddPCR反应组分的水性样品,从而形成液滴。该油相可包含氟化基础油,其可通过与氟化表面活性剂(如全氟聚醚)联用而进一步稳定。在一些实施方式中,该基础油包括以下一种或多种:HFE 7500、FC-40、FC-43、FC-70或其它常见氟化油。在一些实施方式中,该油相包含阴离子含氟表面活性剂。在一些实施方式中,该阴离子含氟表面活性剂是Ammonium Krytox(Krytox-AS)、Krytox FSH的铵盐或Krytox FSH的吗啉代衍生物。Krytox-AS的浓度可以是约0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1.0%、2.0%、3.0%或4.0%(w/w)。在一些实施方式中,Krytox-AS的浓度是约1.8%。在一些实施方式中,Krytox-AS的浓度是约1.62%。Krytox FSH的吗啉基衍生物的浓度可以是约0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1.0%、2.0%、3.0%或4.0%(w/w)。在一些实施方式中,Krytox FSH的吗啉代衍生物的浓度是约1.8%。在一些实施方式中,Krytox FSH的吗啉代衍生物的浓度是约1.62%。
在一些实施方式中,该油相还包含用于调节油性质(如蒸气压、粘度或表面张力)的添加剂。非限制性示例包括全氟辛醇和1H,1H,2H,2H-全氟癸醇。在一些实施方式中,1H,1H,2H,2H-全氟癸醇添加至约0.05%、0.06%、0.07%、0.08%、0.09%、0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1.0%、1.25%、1.50%、1.75%、2.0%、2.25%、2.5%、2.75%或3.0%(w/w)的浓度。在一些实施方式中,1H,1H,2H,2H-全氟癸醇添加至约0.18%(w/w)的浓度。
在一些实施方式中,该乳液配制为生成具有类液界面膜的高度单分散液滴,其可通过加热转化为具有类固界面膜的微胶囊;这类微胶囊可作为生物反应器以通过一段时间的孵育保持其含量。转化为微胶囊形式可在一经加热后即发生。例如,这类转化可发生于大于约40°、50°、60°、70°、80°、90°或95℃的温度下。加热过程期间,可使用流体或矿物油覆盖物来阻止蒸发。可在加热前除去或不除去过量的连续相油。这些生物相容性胶囊可在大范围的热和机械处理下抗聚结和/或絮凝。转化后,这些微胶囊可储存于约-70°、-20°、0°、3°、4°、5°、6°、7°、8°、9°、10°、15°、20°、25°、30°、35°或40℃下。
可能含有一种或多种多核苷酸序列和/或一个或多个一组或多组引物对的微胶囊分区可以抵抗聚结,特别是在高温下。因此,这些胶囊可在非常高的密度(例如每单位体积的分区数)下孵育。在一些实施方式中,可每毫升孵育超过100,000、500,000、1,000,000、1,500,000、2,000,000、2,500,000、5,000,000或10,000,000个分区。在一些实施方式中,样品-探针孵育发生在单个孔中,例如微量滴定板的孔,此时各分区之间不具有分区间混合(inter-mixing)。这些微胶囊还可含有孵育所需的其他组分。
在一些实施方式中,将样品(例如,包含多核苷酸片段和/或ddPCR反应组分的样品)划分成至少500个分区,至少1000个分区,至少2000个分区,至少3000个分区,至少4000个分区,至少5000个分区,至少6000个分区,至少7000个分区,至少8000个分区,至少10,000个分区,至少15,000个分区,至少20,000个分区,至少30,000个分区,至少40,000个分区,至少50,000个分区至少60,000个分区,至少70,000个分区,至少80,000个分区,至少90,000个分区,至少100,000个分区,至少200,000个分区,至少300,000个分区,至少400,000个分区,至少500,000个分区,至少600,000个分区,至少700,000个分区,至少800,000个分区,至少900,000个分区,至少1,000,000个分区,至少2,000,000个分区,至少3,000,000个分区,至少4,000,000个分区,至少5,000,000个分区,至少10,000,000个分区,至少20,000,000个分区,至少30,000,000个分区,至少40,000,000个分区,至少50,000,000个分区,至少60,000,000个分区,至少70,000,000个分区,至少80,000,000分区,至少90,000,000个分区,至少100,000,000个分区,至少150,000,000个分区或至少200,000,000个分区。
在一些实施方式中,将样品(例如包含多核苷酸片段和/或ddPCR反应组分的样品)划分成足够数量的分区,使得至少大部分分区具有至少约0.1但不超过约10个标靶/分区(例如,约0.1、0.2、0.3、0.4、0.5、1、2、3、4、5、6、7、8、9、或10个靶标/分区)。在一些实施方式中,至少大部分分区具有至少约0.1但不超过约5个靶标/分区(例如,约0.1、0.2、0.3、0.4、0.5、1、2、3、4或5个靶标/分区)。在一些实施方式中,至少大部分分区具有至少约1但不超过约5个靶标/分区(例如,约0.1、0.2、0.3、0.4、0.5、1、2、3、4或5个靶标/分区)。在一些实施方式中,每个分区平均存在不超过10个靶标。在一些实施方式中,每个分区平均存在至少约0.1个但不超过约10个靶标。在一些实施方式中,每个分区平均存在至少约1个但不超过约5个靶标。在一些实施方式中,每个分区存在平均约0.1、0.2、0.3、0.4、0.5、1、2、3、4、5、6、7、8、9、或10个靶基因组区。
在一些实施方式中,生成的液滴在形状和/或尺寸方面基本均匀。例如,在一些实施方式中,这些液滴在平均直径方面基本均匀。在一些实施方式中,生成的液滴的平均直径为约0.001微米、约0.005微米、约0.01微米、约0.05微米、约0.1微米、约0.5微米、约1微米、约5微米、约10微米、约20微米、约30微米、约40微米、约50微米、约60微米、约70微米、约80微米、约90微米、约100微米、约150微米、约200微米、约300微米、约400微米、约500微米、约600微米、约700微米、约800微米、约900微米或约1000微米。在一些实施方式中,生成的液滴的平均直径为小于约1000微米、小于约900微米、小于约800微米、小于约700微米、小于约600微米、小于约500微米、小于约400微米、小于约300微米、小于约200微米、小于约100微米、小于约50微米,或小于约25微米。在一些实施方式中,生成的液滴在形状和/或尺寸方面是不均匀的。
在一些实施方式中,生成的液滴在体积上基本均匀。例如,在一些实施方式中,生成的液滴的平均体积为约0.001nL、约0.005nL、约0.01nL、约0.02nL、约0.03nL、约0.04nL、约0.05nL、约0.06nL、约0.07nL、约0.08nL、约0.09nL、约0.1nL、约0.2nL、约0.3nL、约0.4nL、约0.5nL、约0.6nL、约0.7nL、约0.8nL、约0.9nL、约1nL、约1.5nL、约2nL、约2.5nL、约3nL、约3.5nL、约4nL、约4.5nL、约5nL、约5.5nL、约6nL、约6.5nL、约7nL、约7.5nL、约8nL、约8.5nL、约9nL、约9.5nL、约10nL、约11nL、约12nL、约13nL、约14nL、约15nL、约16nL、约17nL、约18nL、约19nL、约20nL、约25nL、约30nL、约35nL、约40nL、约45nL或约50nL。在一些实施方式中,液滴具有约50皮升至约2纳升的平均体积。在一些实施方式中,液滴具有约0.5纳升至约50纳升的平均体积。在一些实施方式中,液滴具有约0.5纳升至约2纳升的平均体积。
分区中的靶特异性扩增
在一些实施方式中,本文所述的方法包括在分区中进行的靶特异性扩增步骤。在一些实施方式中,靶特异性扩增步骤包括用分区中的引物对之一扩增分区中的多核苷酸片段的靶基因序列,由此产生扩增子,所述扩增子包含靶基因序列,所述靶基因序列在5′末端侧接第一衔接子序列的部分并在3′末端侧接第二衔接子序列的部分。在一些实施方式中,扩增核酸分子或核酸分子的区域包括聚合酶链反应(PCR)、液滴数字PCR、定量PCR或实时PCR。
在一些实施方式中,扩增反应是PCR反应。在PCR扩增中,与双链靶序列的链互补的寡核苷酸引物退火到它们在靶分子内的互补序列,其被变性成单链。退火的引物用聚合酶延伸以形成靶序列的一对新的互补链。可以重复变性,引物退火和延伸的步骤,直到获得所需数量的扩增序列的拷贝或浓度。在一些实施方式中,靶特异性扩增反应的退火温度为40℃-70℃。
在一些实施方式中,扩增反应是液滴数字PCR反应。例如在US 2014/0162266,US2014/0302503和US 2015/0031034中描述了用于在液滴中进行PCR的方法,其各自内容通过引用纳入本文。下文在“靶标特异性PCR产物的巢式扩增”部分中进一步讨论了扩增方法。
在一些实施方式中,扩增分区中多核苷酸片段的靶基因序列的步骤包括至少一个循环的扩增。在一些实施方式中,扩增分区中多核苷酸片段的靶基因序列的步骤包括至少5个循环的扩增,至少10个循环的扩增,至少15个循环的扩增,至少20个循环的扩增,至少25个循环的扩增,至少30个循环的扩增,至少35个循环的扩增,或至少40个循环的扩增。在一些实施方式中,扩增分区中多核苷酸片段的靶基因序列的步骤包括不超过40个循环的扩增。在一些实施方式中,扩增分区中多核苷酸片段的靶基因序列的步骤包括2至30个循环的扩增。
在一些实施方式中,如本文所述的扩增反应产生包含靶基因序列的扩增子,所述靶基因序列在5′末端侧接第一衔接子序列的部分并且在3′末端侧接第二衔接子序列的部分。在一些实施方式中,扩增子包含在5′末端侧接P7衔接子序列的部分且在3′末端侧接P5衔接子序列的部分的靶基因序列。在一些实施方式中,扩增子包含在5′末端侧接P5衔接子序列的部分且在3′末端侧接P7衔接子序列的部分的靶基因序列。
扩增子的纯化
在一些实施方式中,在分区中的靶特异性扩增反应之后,扩增子从分区释放。在一些实施方式中,分区(例如,液滴)被打破以释放包括扩增子在内的分区的内容物。液滴破裂可以通过许多方法中的任何一种来完成,包括但不限于电方法,机械搅拌(例如混合和/或离心),和引入去稳定流体,或其组合。参见,例如,Zeng等,Anal Chem 2011,83:2083-2089。例如,在US 2013/0189700和Akartuna等,2015,Lab Chip,doi:10.1039/c41c01285b中也描述了打破分区的方法,该文献通过引用纳入本文。
在一些实施方式中,该方法包括将液滴与去稳定流体混合。在一些实施方式中,去稳定流体是氯仿。在一些实施方式中,去稳定流体包含氟化油。
在一些实施方式中,从分区释放的扩增子被纯化,例如以便将扩增子与靶特异性引物,其他分区组分分离和/或以尺寸选择具有特定尺寸或尺寸范围的扩增子。在一些实施方式中,使用固相可逆固定(SPRI)顺磁珠试剂纯化扩增子。SPRI顺磁珠试剂可商购获得,例如在Agencourt AMPure XP PCR纯化系统或SPRIselect试剂试剂盒(加尼福尼亚州贝瑞阿的贝克曼库尔特公司(Beckman-Coulter))中。
靶特异性PCR产物的巢式扩增
在一些实施方式中,在靶特异性扩增反应的扩增子产物上进行第二扩增反应。在一些实施方式中,第二扩增反应是扩增包含部分衔接子序列的扩增子的“巢式扩增”,其使用包含全长衔接子序列或衔接子序列的部分(例如,衔接子序列的至少10个,至少15个,至少20个,至少25个,至少30个,至少40个,或至少50个或更多个连续核苷酸,或全长衔接子序列长度的至少40%,50%,至少60%,至少70%,至少80%,至少90%或至少95%)的引物序列。在一些实施方式中,靶特异性扩增反应将第一衔接子序列(例如P7衔接子序列)的部分和第二衔接子序列(例如P5衔接子序列)的部分导入多核苷酸序列中,并且随后巢式扩增反应将全长第一衔接子序列和第二衔接子序列或第一衔接子序列和第二衔接子序列的部分引入,其包括尚未通过靶特异性扩增反应引入多核苷酸序列的衔接子序列的任何部分,以产生具有整个第一衔接子序列(例如P7衔接子序列)和整个第二衔接子序列(例如P5衔接子序列)的多核苷酸文库。
在一些实施方式中,包含衔接子序列的引物序列包含全长P5衔接子序列。在一些实施方式中,包含衔接子序列的引物序列包含全长P7衔接子序列。上文在“衔接子”一节中讨论了P5和P7衔接子序列。在一些实施方式中,正向引物序列包含P7衔接子序列,反向引物序列包含P5衔接子序列。在一些实施方式中,正向引物序列包含P5衔接子序列,反向引物序列包含P7衔接子序列。在一些实施方式中,包含全长衔接子序列(例如,全长P5或P7衔接子序列)的正向和/或反向引物包含条形码序列。
在一些实施方式中,巢式扩增反应的正向或反向引物(在本文中也称为“扩增子引物”)包含与SEQ ID NO:1或SEQ ID NO:3的P5衔接子序列具有至少70%相同性(例如,至少70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、或99%相同性)的序列。在一些实施方式中,用于巢式扩增反应的正向或反向引物包含SEQ ID NO:1的序列。在一些实施方式中,巢式扩增反应的正向或反向引物包含与SEQ ID NO:1或SEQ IDNO:3具有至少70%相同性的序列,其中该序列包含SEQ ID NO:2的连续核酸序列。在一些实施方式中,巢式扩增反应的正向或反向引物包含与SEQ ID NO:4或SEQ ID NO:6的P7衔接子序列具有至少70%相同性(例如,至少70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、或99%相同性)的序列。在一些实施方式中,用于巢式扩增反应的正向或反向引物包含SEQ ID NO:4的序列。在一些实施方式中,巢式扩增反应的正向或反向引物包含与SEQ ID NO:4或SEQ ID NO:6具有至少70%相同性的序列,其中该序列包含SEQ IDNO:5的连续核酸序列。
在一些实施方式中,巢式扩增反应的正向或反向引物包含与以下序列具有至少70%相同性(例如,至少70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、或99%相同性)的序列,或包含以下任一的序列:SEQ ID NO:111,SEQ ID NO:112,SEQ ID NO:113,SEQ ID NO:114,SEQ ID NO:115,SEQ ID NO:116,SEQ ID NO:117,SEQID NO:118,SEQ ID NO:119,SEQ ID NO:120,SEQ ID NO:121,SEQ ID NO:122,SEQ ID NO:123,SEQ ID NO:124,SEQ ID NO:125,SEQ ID NO:126,SEQ ID NO:127,SEQ ID NO:128,SEQID NO:129,SEQ ID NO:130,SEQ ID NO:131,SEQ ID NO:132,SEQ ID NO:133,SEQ ID NO:134,SEQ ID NO:135或SEQ ID NO:136。
对于巢式扩增反应,在一些实施方式中,扩增核酸分子或核酸分子区域的步骤包括聚合酶链式反应(PCR),液滴数字PCR,定量PCR或实时PCR。在一些实施方式中,扩增反应是定量扩增方法。定量扩增方法(例如,定量PCR或定量线性扩增)涉及扩增核酸模板,直接或间接确定(例如,确定Ct值)扩增的DNA的量,然后基于扩增循环数计算初始模板的量。使用反应扩增DNA基因座是熟知的(参见美国专利号4,683,195和4,683,202;《PCR方案:方法和应用指南》(PCR PROTOCOLS:A GUIDE TO METHODS AND APPLICATIONS)(Innis等编,1990))。通常,使用PCR来扩增DNA模板。然而,已经描述并也可采用扩增的替代性方法。定量扩增的方法公开于,例如,美国专利号6,180,349;6,033,854;和5,972,602,以及例如,Gibson等,Genome Research 6:995-1001(1996);DeGraves等,Biotechniques 34(1):106-10,112-5(2003);Deiman B等,Mol Biotechnol.20(2):163-79(2002)。可“实时”监测扩增。
在一些实施方式中,定量扩增基于监测代表扩增(例如PCR)反应循环中模板拷贝的信号(例如探针的荧光)。在PCR的初始循环中,由于形成的扩增子的量不能支持来自试验的可测量的信号输出,观察到非常低的信号。在初始循环之后,随着形成的扩增子的量增加,信号强度增加至可测量的水平并在后续循环中达到平台(此时PCR进入非对数期)。通过信号强度对循环次数作图,从PCR反应获得可测量的信号的特定循环可以推导和用于倒推计算PCR开始之前靶标的量。该方法确定的特定循环的次数通常称为循环阈值(Ct)。示例性的方法描述于例如Heid等,Genome Methods 6:986-94(1996),参照水解探针。
一种检测扩增产物的方法是5′-3′外切核酸酶“水解”PCR试验(也称为TaqManTM试验)(美国专利号5,210,015和5,487,972;Holland等,PNAS USA 88:7276-7280(1991);Lee等,Nucleic Acids Res.21:3761-3766(1993))。该试验检测扩增反应期间双重标记的荧光探针(TaqManTM探针)的杂交和切割产生的特定PCR产物的累积。荧光探针由用荧光报告染料和淬灭染料双重标记的寡核苷酸组成。PCR期间,如果并且只是如果与正在扩增的片段杂交,则该探针被DNA聚合酶的5′-外切核酸酶活性切割。探针的切割导致报告染料的荧光强度增加。
依赖于使用能量转移的检测扩增产物的另一种方法是“信标探针”方法,描述于Tyagi和Kramer,Nature Biotech.14:303-309(1996),其也是美国专利号5,119,801和5,312,728的主题。该方法使用能够形成发夹结构的寡核苷酸杂交探针。在杂交探针的一端上(5′或3′端)存在供体荧光团,且在另一端上存在受体部分。在Tyagi和Kramer方法中,该受体部分是淬灭剂,即该受体吸收由供体释放的能量,但随后其本身不产生荧光。因此,当信标处于开放构象时,供体荧光团的荧光是可检测的,而当信标处于发夹(闭合)构象时,供体荧光团的荧光被淬灭。应用于PCR时,与PCR产物的一条链杂交的分子信标探针处于开发构象并检测到荧光,而保持未杂交的那些不会产生荧光(Tyagi和Kramer,NatureBiotechnol.14:303-306(1996))。结果,荧光的量将随着PCR产物的量的增加而增加,因而可用作PCR进程的测量。本领域技术人员将理解定量扩增的其他方法也是可得的。
在一些实施方式中,巢式扩增反应包含至少1个循环的扩增,至少2个循环的扩增,至少5个循环的扩增,至少10个循环的扩增。在一些实施方式中,巢式扩增反应包含至少15个循环的扩增,至少20个循环的扩增,至少25个循环的扩增,至少30个循环的扩增,至少35个循环的扩增,或至少40个循环的扩增。
在巢式扩增反应之后,在一些实施方式中,扩增产物被纯化。例如,在一些实施方式中,使用固相可逆固定(SPRI)顺磁珠试剂,例如使用Agencourt AMPure XP PCR纯化系统或SPRIselect试剂盒(加尼福尼亚州贝瑞阿的贝克曼库尔特公司)纯化扩增产物。
III.使用靶标富集的文库的检测方法
在一些实施方式中,本文描述的方法可用于产生可用于下游检测和/或分析方法的靶标富集的文库。
测序
在一些实施方式中,对靶标富集的文库进行测序。高通量测序和基因分型的方法是本领域已知的。例如,此类测序技术包括但不限于:焦磷酸测序、连接法测序、单分子测序、合成法测序(SBS)、大量同步克隆法、大量同步单分子SBS、大量同步单分子实时法,大量同步单分子纳米孔技术等。Morozova和Marra提供对一些此类技术的综述,见Genomics,92:255(2008),该文在此通过引用全文纳入本文。
示例性的DNA测序技术包括基于荧光的测序技术(参见如Birren等,GenomeAnalysis:Analyzing DNA,1(基因组分析:DNA分析,第1卷),纽约冷泉港,该文在此通过引用全文纳入本文)。在一些实施方式中,使用本领域已理解的自动化测序技术。在一些实施方式中,本技术提供带分隔扩增子的同步测序(PCT申请号WO 2006/0841,32,该文在此通过引用全文纳入本文)。在一些实施方式中,DNA测序的实现是通过同步寡核苷酸延伸(参见如美国专利号5,750,341和6,306,597,两者在此通过引用全文纳入本文)。测序技术的补充示例包括:Church多克隆技术(Mitra等,2003,Analytical Biochemistry 320,55-65;Shendure等,2005Science 309,1728-1732;和美国专利号6,432,360,6,485,944,6,511,803;在此通过引用全文纳入本文),454皮升焦磷酸测序技术(picotiter pyrosequencingtechnology,Margulies等,2005Nature 437,376-380;美国公布号2005/0130173;在此通过引用全文纳入本文),Solexa单碱基添加技术(Bennett等,2005,Pharmacogenomics,6,373-382;美国专利号6,787,308和6,833,246;在此通过引用全文纳入本文),Lynx大量同步极好测序技术(Brenner等,(2000).Nat.Biotechnol.18:630-634;美国专利号5,695,934,5,714,330;在此通过引用全文纳入本文)和Adessi PCR克隆技术(Adessi等(2000).NucleicAcid Res.28,E87;WO 2000/018957;在此通过引用全文纳入本文)。
在一些实施方式中,核苷酸测序包括高通量测序。在高通量测序中,使用多个模板和多个引物的平行测序反应允许对基因组或大部分基因组进行快速测序。参见例如WO 03/004690,WO 03/054142,WO 2004/069849,WO 2004/070005,WO 2004/070007,WO 2005/003375,WO 2000/006770,WO 2000/027521,WO 2000/058507,WO 2001/023610,WO 2001/057248,WO 2001/057249,WO 2002/061127,WO 2003/016565,WO 2003/048387,WO 2004/018497,WO 2004/018493,WO 2004/050915,WO 2004/076692,WO 2005/021786,WO 2005/047301,WO 2005/065814,WO 2005/068656,WO 2005/068089,WO 2005/078130,和Seo等,Proc.Natl.Acad.Sci.USA(2004)101:5488-5493。
通常,高通量测序都具有大量同步这一共同特征,高通量策略的目的是使成本比较早的测序方法低(参见如Voelkerding等,Clinical Chem.,55:641-658,2009;MacLean等,Nature Rev.Microbiol.,7:287-296;两者在此都通过引用全文纳入本文)。此类方法可大致分成通常用和不用模板扩增两大类。需要扩增的方法包括罗氏公司以454技术平台商业化的焦磷酸测序(例如,GS 20和GS FLX),亿明达公司销售的Solexa平台,和应用生物系统公司(Applied Biosystems)销售的支持态寡核苷酸连接和检测(SupportedOligonucleotide Ligation and Detection,SOLiD)平台。非扩增方法也称为单分子测序,其示例有螺旋生物科学公司(Helicos BioSciences)销售的HeliScope平台,VisiGen公司、牛津纳米孔技术公司(Oxford Nanopore Technologies)、生命技术公司(LifeTechnologies)/离子流(Ion Torrent)和太平洋生物科学公司销售的平台。
焦磷酸测序(Voelkerding等,Clinical Chem.,55:641-658,2009;MacLean 等,Nature Rev.Microbial.,7:287-296;美国专利号6,210,891和6,258,568;其各自通过引用全文纳入本文)中,模板DNA被片段化、末端修复、连接至衔接子、并用珠捕获单模板分子来进行原位克隆性扩增,珠上载有与衔接子互补的寡核苷酸。载有单模板类型的各珠被分入油包水微泡中,模板被克隆性扩增,所用技术被称作乳液PCR。扩增后破乳,珠被置入皮升微孔板(picotitre plate)的各孔内,孔在测序反应中作为流动室。在测序酶和发光报道子如萤光酶的存在下,流动室中发生四种dNTP试剂各自的有序迭代引入。合适的dNTP被加到测序引物的3′端时,所产生的ATP导致孔内发光脉冲,用CCD相机予以记录。能够实现大于或等于400个碱基的读取长度,且能够实现106个序列读取,得到最多达5亿碱基对(Mb)的序列。
在Solexa/Illumina平台中(Voelkerding等,Clinical Chem.,55.641-658,2009;MacLean等,Nature Rev.Microbial.,7:287-296;美国专利号6,833,246,7,115,400和6,969,488;其各自通过引用全文纳入本文),产生的测序数据较短。在该方法中,使用多核苷酸上的衔接子序列(例如本文所述衔接子序列)来捕获用寡核苷酸锚定物缀合的流动池表面上的模板-衔接子分子。锚被用作PCR引物,但由于模板的长度且其靠近其它邻近的锚寡核苷酸,PCR延伸导致分子“拱跨(arching over)”杂交邻近的锚寡核苷酸在流动室表面形成桥式结构。这些DNA环被变性并切割。正链随后通过可逆染料终止子来测序。通过检测纳入后荧光来确定所纳入核苷酸的序列,在下一轮dNTP添加前除去各荧光团和阻断。序列读数长度范围从36个核苷酸到超过50个核苷酸(例如,至少300bp X 300bp,对于总共600bp的MiSeq和v3试剂盒),每轮分析运行总输出超过1.5万亿核苷酸对(例如,亿明达公司的HiSeq3000/HiSeq 4000)。
使用SOLiD技术测定核酸分子(Voelkerding等,Clinical Chem.,55:641-658,2009;MacLean等,Nature Rev.Microbial.,7:287-296;美国专利号5,912,148和6,130,073;各自通过引用全文纳入本文)也涉及使用多核苷酸上的衔接子序列。一般地,该过程涉及模板的片段化,寡核苷酸衔接子与片段的连接,包含衔接子的多核苷酸连接到珠上,以及通过乳液PCR的克隆扩增。此后,载有模板的珠被固定化在玻璃流动室的衍生化表面,与衔接子寡核苷酸互补的引物发生退火。但该引物并不用于3′延伸,而是用来提供5′磷酸基团供连接至问询探针,这些探针含有两个探针特异性碱基及其后6个简并碱基和四种荧光标记其一。SOLiD系统中,问询探针中每个探针3′的两个碱基有16种可能的组合而在5′端是四种荧光标记之一。荧光颜色,及由此辨识的各探针对应于指定的颜色-空间编码方案。多轮探针退火、连接和荧光检测后变性,然后用相对初始引物错开一位碱基的引物进行第二轮的测序。以此方式,模板序列可通过计算得以重建,而且模板碱基问询两次,得到更高的精确度。序列读取长度平均为约35-50个核苷酸,总体输出为每次测序运行超过40亿个核苷酸对。
某些实施方式中,采用纳米孔测序(参见如Astier等,J.Am.Chem.Soc.2006年2月8日;128(5)1705-10,通过引用纳入本文)。纳米孔测序的原理涉及纳米孔浸入传导液并跨纳米孔施加电压(伏特)时所发生的现象。这些条件下,可观察到由于离子传导有微弱电流通过纳米孔,而电流的量对纳米孔的大小极度敏感。随着核酸的每个碱基通过该纳米孔,就会导致通过纳米孔的电流幅度有变化,这种变化对于四种碱基的每一种是不同的,从而允许确定DNA分子的序列。
某些实施方式中,采用螺旋生物科学公司(Helicos BioSciences Corporation)的HeliScope(Voelkerding等,Clinical Chem.,55.641-658,2009;MacLean等,NatureRev.Microbial,7:287-296;美国专利号7,169,560,7,282,337,7,482,120,7,501,245,6,818,395,6,911,345和7,501,245;其各自通过引用全文纳入本文)。模板DNA被片段化并在3′端多腺苷化,最后的腺苷载有荧光素标记。变性的多腺苷化模板片段连接到流动室表面上的聚(dT)寡核苷酸上。由CCD相机记录被捕获模板的初始物理位置,然后切下并洗去标记。通过添加聚合酶并系列添加带荧光标记的dNTP试剂来实现测序。纳入事件产生对应于dNTP的荧光信号,而CCD相机在每轮dNTP添加前捕捉信号。序列读取长度在25-50个核苷酸,总体输出为每次运行分析超过10亿个核苷酸对。
离子流技术的DNA测序是基于对DNA聚合所释放氢离子的检测(参见如Science327(5970):1190(2010);美国专利申请号2009/0026082;2009/0127589;2010/0301398;2010/0197507;2010/0188073和2010/0137143;全部通过引用全文纳入本文用于所有目的)。微孔含有待测序的模板DNA链。微孔层下方是超敏ISFET离子传感器。所有层都包含在CMOS半导体芯片内,该芯片与电子工业中所用的类似。在dNTP被纳入生长中的互补链时释放氢离子,触发超敏离子传感器。若模板系列中存在均聚重复系列,单次循环中会纳入多个dNTP分子。这导致对应数量的氢释放,和成比例的更高电子信号。这一技术与其它测序技术的区别之处在于不适用带修饰核苷酸和光学元件。离子流测序仪的单碱基精确度为每50碱基读取约99.6%,每次运行产生约100Mb。读取长度是100个碱基对。5个重复的均聚重复序列的精确度是约98%。离子半导体测序的优势在于测序速度快且前期和运行成本低。
检测装置
在一些实施方式中,可使用多种检测装置中的任一种来检测检测试剂或可检测标记物。检测方法的示例包括放射性检测、吸光度检测(如荧光或化学发光)或质谱检测。作为非限制性示例,可使用配备生成激发光的模块(所述激发光可被荧光团吸收)以及检测由荧光团发射的光的模块的检测装置来检测荧光标记物。
在一些实施方式中,可在本体(bulk)中检测扩增产物中的可检测标记。例如,可将经划分的样品(如液滴)合并至板(如96孔或384孔板)的一个或多个孔中,并可使用酶标仪检测信号(如荧光信号)。在一些情况中,可在合并分区后使用条形码来维持划分信息。
在一些实施方式中,该检测器还包括对经划分的样品(如液滴)的操作能力,通过单独划分的样品进入检测器,进行检测,然后退出检测器。在一些实施方式中,经划分的样品(如液滴)可在所述经划分的样品流动时连续检测。在一些实施方式中,经划分的样品(如液滴)排列在表面,而检测器相对所述表面运动,在含信号分区的各位置检测信号。检测器的示例如WO 2010/036352所示,其内容通过引用纳入本文。在一些实施方式中,经划分样品中的可检测标记物可连续检测而无需使经划分的样品流动(如使用室玻片)。
获取荧光检测数据后,可使用通用目的计算机系统(本文中称作“主机”)来储存和处理数据。可使用计算机可执行逻辑进行诸如扣减背景信号、对靶和/或参考序列赋值和量化数据的功能。主机可用于显示、储存、检索或计算来自核酸检测的结果;储存、检索或计算来自核酸检测的原始数据;或者显示、储存、检索或计算可用于本发明的方法中的任何样品或患者信息。
在一些实施方式中,主机或任何其他计算机可用于计算样品中存在的突变的比例。例如,突变或序列变体的比例的计算方法可以是:将其中序列特异性检测试剂检测到突变或序列变体的分区数目除以其中非特异性检测试剂检测到含有核酸(如总核酸、总扩增的核酸、总逆转录的核酸、总DNA或总双链核酸)的分区的分区数目。
主机可配置许多不同的硬件组件并可以许多尺寸和形式制造(例如台式PC、笔记本、平板PC、手持式计算机、服务器、工作站、大型机)。可包含标准组件,例如监视器、键盘、磁盘驱动器、CD和/或DVD驱动器等。当主机与网络相连时,可通过任何合适的传输介质(如有线、光和/或无线介质)和任何合适的通信协议(如TCP/IP)来提供连接;主机可包括合适的网络硬件(例如调制解调器、以太网卡、WiFi卡)。主机可使用多种操作系统中的任一种,包括UNIX、Linux、Microsoft Windows、MacOS或任何其他操作系统。
可以多种语言编写用于实施本发明的各方面的计算机代码,包括PERL、C、C++、Java、JavaScript、VBScript、AWK或任何其他的可在主机上执行或可经编译在主机上执行的脚本或编程语言。代码也可以低级语言编写或分配,例如汇编语言或机器语言。
可在用于储存和/或传输的多种计算机可读取介质上编码整合本发明的多种特征的脚本或程序。合适的介质的示例包括:磁盘或磁带、光学储存介质(如光盘(CD)或DVD(数字多功能光盘))、闪速存储器以及经由遵循各种协议的有线、光纤和/或无线网络(包括因特网)的适用于传输的载波信号。
IV.试剂盒
另一方面,提供了用于生成靶标富集的文库的试剂盒。在一些实施方式中,试剂盒包含:
(b)第一组合物,用于划分成多个分区,其中所述组合物包含多个引物对,每个引物对包含用于扩增靶基因的正向引物和反向引物,其中所述正向引物包含(i)包含第一衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性正向引物序列,并且其中所述反向引物包含(i)包含第二衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性反向引物序列;和
(b)第二组合物,其包含第一引物和第二引物,其中第一引物包含第一衔接子序列,第二引物包含第二衔接子序列。
在一些实施方式中,第一组合物包含如上文部分II中所述的靶特异性扩增引物。在一些实施方式中,靶特异性扩增引物包含部分P5和P7衔接子序列,或部分索引1读数和索引2读数衔接子序列。在一些实施方式中,靶特异性扩增引物是上表1或表2中列出的引物。
在一些实施方式中,第一组合物包含如上文部分II中所述的巢式扩增引物。在一些实施方式中,第二组合物包含含有P5和P7衔接子序列的引物。在一些实施方式中,第二组合物包含含有索引1读数和索引2读数衔接子序列的引物。
在一些实施方式中,第一组合物和/或第二组合物还包含选自盐,核苷酸,缓冲液,稳定剂,DNA聚合酶,可检测试剂和无核酸酶的水中的一种或多种试剂。上文部分II中描述了靶特异性扩增的试剂。在一些实施方式中,组合物包含可用于产生液滴的主混合物(例如,探针的ddPCR超混物,无dUTP(加利福尼亚州赫尔克里斯的生物辐射实验室公司(Bio-Rad))。
在一些实施方式中,试剂盒还包括进行本文所述方法的说明。
V.实施例
提供以下实施例,以说明而非限制所要求保护的发明。
实施例1:50-重癌症组的靶标富集
使用靶特异性,然后巢式PCR文库构建方法,然后进行液滴数字(ddPCR)和测序,对50-重症癌症组进行靶标富集。图1显示了靶标富集方法的示意图。
材料和方法:
使用dsDNA片段酶(马萨诸塞州伊维池的新英格兰生物试验室公司(New England Biolabs,Inc.))将人类基因组DNA片段化至约300bp的中值尺寸。反应后,用1.0X比例的样品:Agencourt AMPure XP珠(加尼福尼亚州贝瑞阿的贝克曼库尔特公司)纯化片段化的DNA。
使用分别具有部分亿明达P5和P7衔接子序列的50-重癌症靶特异性正向和反向引物进行靶特异性PCR扩增反应。本体和ddPCR反应均使用探针的ddPCR超混物,靶特异性的50-重正向和反向引物(起始UOM各1.0μM,最终反应中各自为50nM)和EDTA螯合的片段化反应(起始UOM 0.64ng/μL,最终反应为0.15ng/μL)。
用于50-重的正向和反向引物序列列于下表1和表2中。本体反应与液滴反应进行15个扩增循环。在扩增反应之后,对于液滴反应,使液滴经过使用20%全氟丁醇/80%HFE7500的液滴打破/扩增子纯化方案。从液滴中回收的扩增子(不是本体中的那些)以1.0X的比例进行AMPure XP纯化,以除去未使用的引物和不足100bp的产物。
进行了三个“巢式”PCR试验,每次15轮,其中纳入P5和P7亿明达衔接子的剩余部分以完成对来自靶特异性PCR的每个扩增子的测序文库。参见,例如图2。用于巢式PCR扩增的引物是下面列出的P5 RD1,P7索引6 RD2和P7索引12 RD2序列:
P5 RD1:
AAT GAT ACG GCG ACC ACC GAG ATC TAC ACT CTT TCC CTA CAC GAC GCT CTTCCG ATC T(SEQ ID NO:1)
P7索引6 RD2:CAAGCAGAAGACGGCATACGAGATGCCAATGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:111)
P7索引12 RD2:CAAGCAGAAGACGGCATACGAGATCTTGTAGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT(SEQ ID NO:112)
在试验1中,使用本体非AMPure纯化的和液滴全氟丁醇/HFE7500 AMPure纯化的靶特异性扩增子。在试验2中,使用未经AMPure纯化的本体与液滴全氟丁醇/HFE7500靶标特定产物进行等同尝试。在试验3中,靶特异性扩增子被稀释1/10而不是135.6,以试图提高文库产物的产量。
在巢式PCR扩增反应后,扩增子经过1.0X AMPure纯化以除去不足100bp的不需要的产物。使用生物分析仪(美国加利福尼亚州圣克拉拉的安捷伦科技公司(AgilentTechnologies))确定文库大小。使用Evagreen&Taqman ddPCR分别确定方案和文库中各个阶段的扩增子浓度。文库在亿明达MiSeq测序仪上测序。在试验1中,发现文库存在由本体和液滴衍生的靶特异性PCR物质。在试验2中,还发现文库是由本体和液滴衍生的靶特异性PCR物质产生的。在试验3中,在遵循相同程序的情况下,但为了产生更多文库而用多13.56倍的起始材料,成功地产生了更多的文库。
表1.50-重部分P7+正向基因特异性引物序列
表2.50-重部分P5+反向基因特异性引物序列
实施例2:在液滴中的多重组试验的靶标富集改善了NGS文库构建
液滴数字PCR(ddPCRTM)降低偏好并改善下一代测序(NGS)文库中扩增子的表现度。与标准单管多重NGS方法相比,通过多重试验产生的扩增子在划分时得到改进。将样品划分成液滴减少了PCR中产生的偏好,例如试验之间的竞争。在比较标准工作流程和液滴数字PCR时,对定制多重试验进行了读取覆盖率的改进测试。在此,我们提出了一种简便的方法,它可以轻松地整合到当前的NGS扩增子文库工作流程中,以提供降低包含癌症,微生物或病毒靶标的多重扩增子组中的扩增偏好方面的改进。
材料和方法:
将人类基因组DNA(Coriell DNA NA18853)进行Covaris剪切以产生300bp平均片段尺寸的DNA。针对多重化测试200个PCR试验的大组,其生成靶向尺寸范围从60bp到200bp,GC含量范围从25.4%到76.9%的基因扩增子。这200-重利用PrimePCRTM定制试验(各50nM,生物辐射公司);所有的基因都列在定制200-重补充表中。使用探针的ddPCR超混物(无dUTP)(生物辐射公司,#186-3023),除非另有说明。加入额外的氯化钾(AmbionTM2M KCl,#AM9640G)以改善液滴中的多重化至40mM的最终浓度。在QX200TM液滴发生仪(生物辐射公司,#186-4002)上使用用于QX200TM/QX100TM液滴发生器(生物辐射公司,#186-4008)的DG8TM盒和在下表3中列出的扩增反应设置方案(40个周期)来生成液滴。将液滴转移到twin.tec半裙状96孔板,该板使用带可穿透箔热封的Bio-Rad PX1TM PCR板密封器(#181-4000)(生物辐射公司,#181-4040)密封,并在Bio-Rad C1000TM热循环仪(#185-1196)上如下进行热循环:95℃10分钟(1个循环);10至40个循环:94℃30秒,50℃30秒,68℃1分钟;保持在4℃。根据以下方案回收液滴:
1.将全部体积的液滴和油从一个孔中吸出到1.5mL管中(如果需要,合并重复孔)
2.在液滴浮到管顶部之后,吸取并丢弃底部油相
3.为每个使用的孔添加20μL低TE,如果适用,通过乘以合并的重复孔的数量加入额外的TE
4.在通风橱中向各孔加入70μL氯仿,并盖上试管,如果适用,通过乘以合并的复制孔的数量加入额外的氯仿
5.以最大速度对管涡旋1分钟
6.15,500g离心10分钟
7.通过移液小心去除上层水相,避开氯仿相(下层相),并将水相转移到新的1.5mL管中
8.适当处理氯仿相
从液滴回收的水相包含回收的DNA,dNTP,引物。如果需要,在Experion 1K DNA芯片上显示产品和/或进行10倍连续稀释并使用ddPCR重新定量产品。
根据亿明达TrusSeq LT方案,扩增子衔接TruSeq测序衔接子。根据所使用的多重扩增方法的类型对所产生的文库进行索引,以便在相同的测序运行中比较“本体”与“液滴”产生的文库。使用用于亿明达TruSeq(生物辐射公司,#186-3040)的ddPCRTM文库定量试剂盒对文库进行定量,以便获得等同表现度的合并文库并最大化测序仪的加载量(各索引文库总读数之间大约+/-15%的差异)。使用亿明达MiSeq测序仪和MiSeq试剂盒v2测序试剂进行测序。在ExperionTM自动电泳站(生物辐射公司)上也可以显示扩增子产物,以比较“本体”和“液滴”中使用的扩增方法的质量。
表3.扩增反应设置
结果和讨论:
靶向的组对于NGS应用的重要性日益增加,因为它们可以在很大的测序深度上产生特定的信息。NGS应用的一个担忧是高重所固有引入的PCR偏好。在此,我们通过利用液滴划分的效力来展示减少的扩增。液滴划分通过利用液滴中的低靶标模板占用来降低偏好,同时使多重物的所有引物对在液滴中均等地表示。这通过显著减少每个分区中竞争性PCR反应的数量来减少PCR扩增偏好。与传统的单管本体PCR反应相比,这给予效率较低PCR靶标扩增子扩增的机会,因此提供了在液滴中扩增的扩增子的更均一的表现度,其中所有扩增子在PCR反应中相互竞争资源。
表4是用于证明在扩增之前在液滴中划分的效力的200-重中使用的基因的列表。随机选择200个基因并在液滴与本体反应中进行测试,然后根据上述条件在40个循环的PCR后对样品进行TruSeq LT文库制备。进行40个循环以便在Experion凝胶上可视化,尽管循环次数可以根据使用的起始输入DNA量和文库制备方法而变化。总DNA(Coriell研究所NA18853)输入是10ng的Covaris剪切DNA,平均片段化程度为300bp。总共6个孔用于分配10ng的DNA,其中含有研究的200重的约600,000个靶标(在反应中3030.3个基因组当量*200=606,060个总靶标)。这种靶标浓度大约是每滴5个靶标/液滴(TPD)(600,000个靶标/(6个孔×20,000个液滴/孔=5个TPD))。根据表3中的条件,液滴反应和本体反应是相同且经设置的。我们凭经验发现添加表3中发现的量的KCl有助于液滴中的多重化,以及3步循环条件,其中退火温度比引物的平均退火温度低10℃。例如,如果多重中引物中平均Tm为60℃,那么在50℃热循环期间运行退火温度可能是有利的。
图3清楚地证明了与单一批量PCR扩增反应相比,用于液滴的200重引物对的划分效力。与本体反应相比,划分的反应具有改进的每个靶标扩增子的读数数目的均匀性。使用亿明达TruSeq LT工作流程对样品进行索引,以便可以在亿明达MiSeq测序仪的相同测序运行中评估液滴和本体。请注意,y轴是每个扩增子的读数数量是以10为底的对数标度,因此小的变化是均匀性的显著提高。蓝线表示测序读数的理论理想分布,其中每个扩增子被100%有效扩增。绿线是表示来自液滴中进行扩增的测序读数的数据。橙线与液滴扩增情况下使用的相同主混合物,除了在本体反应中使用(无划分)以外。红线是从供应商“A”设计用于高度多重化的本体主混合的测序读数的痕迹。所有数据都是在相同的测序运行中通过使用唯一的索引标记来区分哪些读数来自哪种使用的扩增方法获得的。这些读数是通过接收x轴上最高读数数量到最低读数数量的扩增子来排序的。很明显,与本体反应相比,液滴划分反应提高了每个扩增子测序读数的均一性。这发生在绝大多数测试的扩增子上。通过随机选择200重而不用生物信息学或经验预测扩增子是否可以在一起良好扩增,该实验表明与本体反应相比,划分通常有助于改善扩增偏好。已经彻底检查性能的市售靶向的组也应该得到改善。人们还可以设想,利用这种液滴PCR技术,使用携带已经纳入引物中的测序寡核苷酸衔接子的引物以简化NGS文库构建。
图4A是200重回收材料的Experion凝胶。从回收的液滴和本体反应扩增收集材料。图4B显示对于库插入物(具有衔接子),预计有2个尺寸群体,其范围从大约200bp到225bp,并且第二群体范围从300bp到335bp。请注意,在图4A中Experion凝胶上的液滴中,两个群体(具有TruSeq衔接子)更均匀并且与具有更多脱靶,潜在嵌合扩增的本体反应相比具有更少的脱靶条带。
表4.200-重中使用的基因
实施例3:液滴中与本体中多重组试验的靶标富集
使用上述实施例1中所述的靶特异性,然后巢式PCR文库构建方法对50-重症癌症组进行靶标富集,具有以下修改:使用尺寸分布为132-2797bp的片段化样品(参见图5A)。以45℃的退火温度进行两个靶特异性扩增试验(一个15个循环的靶特异性PCR,一个30个循环的靶特异性PCR)。使用氯仿完成液滴破碎。为了测序,包含10%PhiX或50%PhiX作为用于增加序列读数多样性的突增(spike-in)。
如图5B所示,扩增子进行15或30个循环的靶特异性PCR,然后进行30个循环的巢式PCR,然后进行1X AMPure-纯化,产生高收率的似乎是扩增子文库的产物。对于本体和液滴,相对于15个循环的目标特异性PCR,源自30个目标特异性PCR循环的巢式PCR的浓度明显更高。
实施例4:使用不同靶特异性扩增主混合物制剂的多重组试验的靶标富集
使用上述实施例3中所述的靶特异性,然后巢式PCR文库构建方法对50-重症癌症组进行靶标富集,具有以下修改。测试了两种靶特异性PCR混合物:不加入KC1的SsoAdvanced PreAmp超混物(用于本体PCR)和加入40mM KCl的ddPCR超混物,无dUTP(用于液滴PCR)。靶特异性扩增进行30个循环,55-45℃退火梯度持续4分钟。对于巢式PCR扩增,退火温度升高至65℃。进行15个循环的巢式PCR扩增。
如图6所示,用ddPCR超混物的液滴中靶特异性PCR与用PreAmp超混物的本体中PCR相比产生了明显更高的上靶率(46.02%比0.71%)。存在一些靶标优先于其它靶标的主混合物依赖性优先扩增(图6)。图7中显示的归一化相关分析表明,从ddPCR超混物获得的扩增子产量比从PreAmp主混合物获得的明显更高。
实施例5:液滴中或本体中多重组试验的靶标富集
使用如以上实施例4中所述的靶标特异性然后巢式PCR文库构建,在液滴或在本体中对50重癌症组和48重癌症组进行靶标富集,并进行以下修改。靶特异性扩增进行30个循环,在45℃退火温度下持续4分钟。对于48重,通过从靶特异性扩增主混合物中排除KRAS和IDH1引物排除了癌症靶标KRAS和IDH1。还测试了靶特异性扩增主混合物ABI基因表达和ABI基因分型。对于巢式PCR扩增步骤,进行30个循环的巢式PCR扩增。
图8在y轴上显示来源于文库8(通过使用ddPCR超混物的液滴中靶特异性PCR产生)与文库9(通过使用ddPCR超混物的本体中靶特异性PCR产生)的测序读取计数的比率。x轴显示48重中的癌症靶标。图8中比值的值都大于1,表明与从本体扩增获得的靶标相比,从液滴扩增得到的靶标有更多的测序数据。此外,在许多情况下,相对于本体中,从液滴中回收的扩增子产量增加约4-8倍。这表明相对于本体中的情况,液滴中分离时,效率较差的PCR扩增子竞争性增强。
实施例6:液滴中多重组试验的靶标富集
使用上述实施例5中所述的靶特异性,然后巢式PCR文库构建方法在本体中或在液滴中对48-重症癌症组进行靶标富集,具有以下修改。使用新的人基因组DNA来源(加利福尼亚州纽瓦克的生物链研究所公司(BioChain Institute,Inc.)),并使用片段酶将其片段化20分钟至平均尺寸865bp(152-6750bp的分布)。对于靶标特异性PCR,ddPCR超混物在本体与液滴(含或不含40mM KCl掺入)中进行测试。靶特异性扩增进行30个循环,在45℃退火温度下持续1分钟。使用P5RD1引物和下表5中所示的P7索引“版本2”引物进行巢式PCR扩增。这些引物使用衔接子索引,这些索引是BaseSpace中亿明达TruSeq索引的反向互补物,便于分析获得的测序数据。
基于PCR退火时间和癌症靶标的输入,使用JMP统计SAS软件程序的预测分析器来最大化非标准化读取计数(基于每个文库的每个Bio-Rad TruSeq ddPCR浓度测定)。为了确定非标准化读数计数,将每个文库以标准化基础加载到测序仪上以达到等摩尔,并且标准化在数学上倒转以解释来自文库构建方案的文库的相对产量。在1至4分钟的退火时间内发现缓慢的斜率,这意味着该因素在产生最大非标准化读数计数方面相对不重要。这些癌症靶标的数据有许多尖斜率的峰值,表明使序列覆盖平整的成功是靶标依赖性的。
本文提供的数据表明,平的测序覆盖率可以通过优化条件如主混合物配方和PCR条件来增强。此外,JMP预测分析器和交互配置文件可用于证明获得所需输出的最佳条件(例如,用于最大化读数)。
表5.P7索引RD2引物
非正式序列表
SEQ ID NO:1-P5衔接子序列
5′-AAT GAT ACG GCG ACC ACC GAG ATC TAC ACT CTT TCC CTA CAC GAC GCTCTT CCG ATC T-3′
SEQ ID NO:2-P5通用衔接子序列
AATGATACGGCGACCACCGAGATCT
SEQ ID NO:3-P5索引衔接子序列
5′-AAT GAT ACG GCG ACC ACC GAG ATC TNN NNN NAC ACT CTT TCC CTA CACGAC GCT CTT CCG ATC T-3′
SEQ ID NO:4-P7衔接子序列
5-CAA GCA GAA GAC GGC ATA CGA GAT GTG ACT GGA GTT CAG ACG TGT GCT CTTCCG ATC T-3′
SEQ ID NO:5-P7通用衔接子序列
CAAGCAGAAGACGGCATACGAGAT
SEQ ID NO:6-P7索引衔接子序列
5-CAA GCA GAA GAC GGC ATA CGA GAT NNN NNN GTG ACT GGA GTT CAG ACG TGTGCT CTT CCG ATC T-3′
SEQ ID NO:7-部分P5衔接子序列
5′-ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3′
SEQ ID NO:8-部分P7衔接子序列
5′-TCAGACGTGTGCTCTTCCGATCT-3′
SEQ ID NO:9-58-部分P7+正向基因特异性引物序列(表1)
SEQ ID NO:59-108-部分P5+反向基因特异性引物序列(表2)
SEQ ID NO:109-索引1读数衔接子序列
5′-CAAGCAGAAGACGGCATACGAGAT[i7]GTCTCGTGGGCTCGG-3′
SEQ ID NO:110-索引2读数衔接子序列
5′-AATGATACGGCGACCACCGAGATCTACAC[i5]TCGTCGGCAGCGTC-3′
SEQ ID NO:111-P7索引6RD2衔接子序列
SEQ ID NO:112-P7索引12RD2衔接子序列
SEQ ID NO:113-136-P7索引RD2版本2衔接子序列
应理解,本文所述的实施例和实施方式仅用于说明目的,本领域技术人员应了解据此作出的各种修饰或改变,且它们包括在本申请的主旨和权益以及所附权利要求书的范围内。本文引用的所有出版物、专利和专利申请通过引用全文纳入本文以用于所有目的。
序列表
<110> 生物辐射实验室股份有限公司(Bio-Rad Laboratories, Inc.)
<120> 液滴划分的基于PCR的文库制备
<130> 094868-111210PC-1032580
<150> US 62/272,874
<151> 2015-12-30
<160> 146
<170> PatentIn version 3.5
<210> 1
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 1
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 2
<211> 25
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 2
aatgatacgg cgaccaccga gatct 25
<210> 3
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> misc_feature
<222> (26)..(31)
<223> N是A, C, G, 或T
<400> 3
aatgatacgg cgaccaccga gatctnnnnn nacactcttt ccctacacga cgctcttccg 60
atct 64
<210> 4
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 4
caagcagaag acggcatacg agatgtgact ggagttcaga cgtgtgctct tccgatct 58
<210> 5
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 5
caagcagaag acggcatacg agat 24
<210> 6
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> misc_feature
<222> (25)..(30)
<223> N是A, C, G, 或T
<400> 6
caagcagaag acggcatacg agatnnnnnn gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 7
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 7
acactctttc cctacacgac gctcttccga tct 33
<210> 8
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 8
tcagacgtgt gctcttccga tct 23
<210> 9
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 9
tcagacgtgt gctcttccga tctggaacgc acggacat 38
<210> 10
<211> 36
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 10
tcagacgtgt gctcttccga tctcaagctg ggcggg 36
<210> 11
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 11
tcagacgtgt gctcttccga tctgaggagg aagtagcgtg 40
<210> 12
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 12
tcagacgtgt gctcttccga tctcacccaa aagtccacct 40
<210> 13
<211> 45
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 13
tcagacgtgt gctcttccga tctcagtgaa agattcatct aatgg 45
<210> 14
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 14
tcagacgtgt gctcttccga tctcagacaa ctgttcaaac tga 43
<210> 15
<211> 42
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 15
tcagacgtgt gctcttccga tctaccttca atgtgtttgg tt 42
<210> 16
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 16
tcagacgtgt gctcttccga tctggtaccg tgcgacat 38
<210> 17
<211> 39
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 17
tcagacgtgt gctcttccga tctcctgtcg tcaactcct 39
<210> 18
<211> 42
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 18
tcagacgtgt gctcttccga tctcagtctt acctggactc tg 42
<210> 19
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 19
tcagacgtgt gctcttccga tctgcagcat gtcaagatca c 41
<210> 20
<211> 44
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 20
tcagacgtgt gctcttccga tctgagaatg tgaaaattcc agtg 44
<210> 21
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 21
tcagacgtgt gctcttccga tctgcatatt tgccattttg gat 43
<210> 22
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 22
tcagacgtgt gctcttccga tcttgacaag attttccctt acc 43
<210> 23
<211> 39
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 23
tcagacgtgt gctcttccga tctcacgcat acggtttgg 39
<210> 24
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 24
tcagacgtgt gctcttccga tctcagtccg gcttggag 38
<210> 25
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 25
tcagacgtgt gctcttccga tctaggagct ggtggagg 38
<210> 26
<211> 44
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 26
tcagacgtgt gctcttccga tcttgacaac atagttggaa tcac 44
<210> 27
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 27
tcagacgtgt gctcttccga tctctgtgtc ctttcaggat g 41
<210> 28
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 28
tcagacgtgt gctcttccga tctagcagtg tatccatttt ctt 43
<210> 29
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 29
tcagacgtgt gctcttccga tctgacctca attttgtttc agg 43
<210> 30
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 30
tcagacgtgt gctcttccga tcttaccaac caagaagggg 40
<210> 31
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 31
tcagacgtgt gctcttccga tctatggtca gcgcactc 38
<210> 32
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 32
tcagacgtgt gctcttccga tctaacatga cttacttgat ccc 43
<210> 33
<211> 47
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 33
tcagacgtgt gctcttccga tctcacaagc atttggtttt aaattat 47
<210> 34
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 34
tcagacgtgt gctcttccga tctctcttac ccactccagg 40
<210> 35
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 35
tcagacgtgt gctcttccga tctagtcagg ctggagaatc 40
<210> 36
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 36
tcagacgtgt gctcttccga tctccttact catggtcgga t 41
<210> 37
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 37
tcagacgtgt gctcttccga tctgtatcgt caaggcactc t 41
<210> 38
<211> 42
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 38
tcagacgtgt gctcttccga tctgttgctg attttggtct tg 42
<210> 39
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 39
tcagacgtgt gctcttccga tctacaatat tcgctccatc ttt 43
<210> 40
<211> 36
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 40
tcagacgtgt gctcttccga tcttcagcgc cgtcct 36
<210> 41
<211> 38
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 41
tcagacgtgt gctcttccga tctcgagctg gaccactg 38
<210> 42
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 42
tcagacgtgt gctcttccga tctatgtcta tgaagtgttg tgg 43
<210> 43
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 43
tcagacgtgt gctcttccga tctcatgtat tggtctctca tgg 43
<210> 44
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 44
tcagacgtgt gctcttccga tcttgtgaag atctgtgact ttg 43
<210> 45
<211> 44
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 45
tcagacgtgt gctcttccga tctacaatct tttgatgaca ttgc 44
<210> 46
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 46
tcagacgtgt gctcttccga tctatttaac catgcagatc ctc 43
<210> 47
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 47
tcagacgtgt gctcttccga tctttcatga tgtttccttc gta 43
<210> 48
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 48
tcagacgtgt gctcttccga tctccctacc ttgtcaccaa t 41
<210> 49
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 49
tcagacgtgt gctcttccga tctcacccac agatccactg 40
<210> 50
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 50
tcagacgtgt gctcttccga tcttactcag gatgagtttt gtg 43
<210> 51
<211> 42
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 51
tcagacgtgt gctcttccga tcttctgtac aagagatacc cc 42
<210> 52
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 52
tcagacgtgt gctcttccga tctatgtttg gaactggcat c 41
<210> 53
<211> 36
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 53
tcagacgtgt gctcttccga tctgcgcgga cgagga 36
<210> 54
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 54
tcagacgtgt gctcttccga tctcgcaaat ttccttccac t 41
<210> 55
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 55
tcagacgtgt gctcttccga tctctttgct tgtcccgata g 41
<210> 56
<211> 44
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 56
tcagacgtgt gctcttccga tcttggaaaa atagcctcaa ttct 44
<210> 57
<211> 42
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 57
tcagacgtgt gctcttccga tctagtaatt gaaccagtag gc 42
<210> 58
<211> 45
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 58
tcagacgtgt gctcttccga tctaaggaaa ctgaattcaa aaaga 45
<210> 59
<211> 46
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 59
acactctttc cctacacgac gctcttccga tctcacggcc accgtc 46
<210> 60
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 60
acactctttc cctacacgac gctcttccga tctcaggctg tatttcttcc ac 52
<210> 61
<211> 47
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 61
acactctttc cctacacgac gctcttccga tcttctcacc acccgca 47
<210> 62
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 62
acactctttc cctacacgac gctcttccga tctagaagta catctgctaa acat 54
<210> 63
<211> 55
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 63
acactctttc cctacacgac gctcttccga tctcagaaag aatgtctttg agtag 55
<210> 64
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 64
acactctttc cctacacgac gctcttccga tctcatgaag acctcacagt aaa 53
<210> 65
<211> 51
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 65
acactctttc cctacacgac gctcttccga tctgttatgg aactgctcac c 51
<210> 66
<211> 46
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 66
acactctttc cctacacgac gctcttccga tctacgtgcg cgatgc 46
<210> 67
<211> 48
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 67
acactctttc cctacacgac gctcttccga tctggatatc gcccagcc 48
<210> 68
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 68
acactctttc cctacacgac gctcttccga tctttaccac tcagagaagg ag 52
<210> 69
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 69
acactctttc cctacacgac gctcttccga tctttctgca tggtattctt tctc 54
<210> 70
<211> 49
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 70
acactctttc cctacacgac gctcttccga tctttgttgg ctttggggg 49
<210> 71
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 71
acactctttc cctacacgac gctcttccga tctaaagatg gaaactttgg act 53
<210> 72
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 72
acactctttc cctacacgac gctcttccga tctgtataca caccttatat gggc 54
<210> 73
<211> 51
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 73
acactctttc cctacacgac gctcttccga tctcatagat gctctcccct c 51
<210> 74
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 74
acactctttc cctacacgac gctcttccga tctctccttt cttccctctc tc 52
<210> 75
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 75
acactctttc cctacacgac gctcttccga tctgtagctg aggatgcctg 50
<210> 76
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 76
acactctttc cctacacgac gctcttccga tctaaagtgg tgaagatatg tgac 54
<210> 77
<211> 49
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 77
acactctttc cctacacgac gctcttccga tcttggatcc acttcctcc 49
<210> 78
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 78
acactctttc cctacacgac gctcttccga tctttaacct tgcagaatgg tc 52
<210> 79
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 79
acactctttc cctacacgac gctcttccga tctacttggt ctcaaagatt cc 52
<210> 80
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 80
acactctttc cctacacgac gctcttccga tctcctggaa caggatctgc 50
<210> 81
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 81
acactctttc cctacacgac gctcttccga tctgatgacg gaatataagc tgg 53
<210> 82
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 82
acactctttc cctacacgac gctcttccga tctagtggat gggtaaaacc ta 52
<210> 83
<211> 55
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 83
acactctttc cctacacgac gctcttccga tctaaagcct gtagttttac ttact 55
<210> 84
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 84
acactctttc cctacacgac gctcttccga tctcagcccc aatcccaata 50
<210> 85
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 85
acactctttc cctacacgac gctcttccga tctgcagaac ttttaaagct gat 53
<210> 86
<211> 51
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 86
acactctttc cctacacgac gctcttccga tctgggtact cacgtttcct t 51
<210> 87
<211> 56
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 87
acactctttc cctacacgac gctcttccga tcttattttt attataaggc ctgctg 56
<210> 88
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 88
acactctttc cctacacgac gctcttccga tctcagcttt gcacctgttt 50
<210> 89
<211> 54
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 89
acactctttc cctacacgac gctcttccga tcttgatgga atgataaacc aaga 54
<210> 90
<211> 49
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 90
acactctttc cctacacgac gctcttccga tctgggcggt acctgtagt 49
<210> 91
<211> 49
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 91
acactctttc cctacacgac gctcttccga tcttacaggt gcctgagca 49
<210> 92
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 92
acactctttc cctacacgac gctcttccga tctgaaataa gacggaaaat tttttaac 58
<210> 93
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 93
acactctttc cctacacgac gctcttccga tctgtttgtt ggacatactg gat 53
<210> 94
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 94
acactctttc cctacacgac gctcttccga tctgcctttc gacacatagt tc 52
<210> 95
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 95
acactctttc cctacacgac gctcttccga tctaagcctc ttgctcagtt 50
<210> 96
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 96
acactctttc cctacacgac gctcttccga tcttgaggga actcaaagta ca 52
<210> 97
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 97
acactctttc cctacacgac gctcttccga tctgataaat cggtactgtg ctt 53
<210> 98
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 98
acactctttc cctacacgac gctcttccga tctaatccgt aagggtgaac ta 52
<210> 99
<211> 49
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 99
acactctttc cctacacgac gctcttccga tctggagaag aggacagcg 49
<210> 100
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 100
acactctttc cctacacgac gctcttccga tcttcaatcc agcaaggtgt 50
<210> 101
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 101
acactctttc cctacacgac gctcttccga tcttgcaact attttcttcc tct 53
<210> 102
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 102
acactctttc cctacacgac gctcttccga tctgtacgcc tccagatgag 50
<210> 103
<211> 53
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 103
acactctttc cctacacgac gctcttccga tctgaagtcc tgagtgtaga tga 53
<210> 104
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 104
acactctttc cctacacgac gctcttccga tctcctcact gattgctctt ag 52
<210> 105
<211> 49
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 105
acactctttc cctacacgac gctcttccga tctagaagcc catcgtgtg 49
<210> 106
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 106
acactctttc cctacacgac gctcttccga tctgggtccc atcagtttga 50
<210> 107
<211> 57
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 107
acactctttc cctacacgac gctcttccga tctctttatg gttatttgca ttttaga 57
<210> 108
<211> 50
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 108
acactctttc cctacacgac gctcttccga tctaccttat acaccgtgcc 50
<210> 109
<211> 46
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> misc_feature
<222> (25)..(31)
<223> N是A, C, G, 或T
<400> 109
caagcagaag acggcatacg agatnnnnnn ngtctcgtgg gctcgg 46
<210> 110
<211> 48
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> misc_feature
<222> (30)..(34)
<223> N是A, C, G, 或T
<400> 110
aatgatacgg cgaccaccga gatctacacn nnnntcgtcg gcagcgtc 48
<210> 111
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 111
caagcagaag acggcatacg agatgccaat gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 112
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 112
caagcagaag acggcatacg agatcttgta gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 113
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 113
caagcagaag acggcatacg agatcgtgat gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 114
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 114
caagcagaag acggcatacg agatacatcg gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 115
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 115
caagcagaag acggcatacg agatgcctaa gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 116
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 116
caagcagaag acggcatacg agattggtca gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 117
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 117
caagcagaag acggcatacg agatcactgt gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 118
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 118
caagcagaag acggcatacg agatattggc gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 119
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 119
caagcagaag acggcatacg agatgatctg gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 120
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 120
caagcagaag acggcatacg agattcaagt gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 121
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 121
caagcagaag acggcatacg agatctgatc gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 122
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 122
caagcagaag acggcatacg agataagcta gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 123
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 123
caagcagaag acggcatacg agatgtagcc gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 124
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 124
caagcagaag acggcatacg agattacaag gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 125
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 125
caagcagaag acggcatacg agatttgact gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 126
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 126
caagcagaag acggcatacg agatggaact gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 127
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 127
caagcagaag acggcatacg agattgacat gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 128
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 128
caagcagaag acggcatacg agatggacgg gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 129
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 129
caagcagaag acggcatacg agatgcggac gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 130
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 130
caagcagaag acggcatacg agattttcac gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 131
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 131
caagcagaag acggcatacg agatggccac gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 132
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 132
caagcagaag acggcatacg agatcgaaac gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 133
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 133
caagcagaag acggcatacg agatcgtacg gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 134
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 134
caagcagaag acggcatacg agatccactc gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 135
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 135
caagcagaag acggcatacg agatatcagt gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 136
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 136
caagcagaag acggcatacg agataggaat gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 137
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 137
acactctttc cctacacgac gctcttccga tct 33
<210> 138
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 138
gatcggaaga gcacacgtct gaactccagt cac 33
<210> 139
<211> 34
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 139
gtgactggag ttcagacgtg tgctcttccg atct 34
<210> 140
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> misc_feature
<222> (25)..(30)
<223> N是A, C, G, 或T
<400> 140
caagcagaag acggcatacg agatnnnnnn gtgactggag ttcagacgtg tgctcttccg 60
atct 64
<210> 141
<211> 23
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 141
tcagacgtgt gctcttccga tct 23
<210> 142
<211> 33
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 142
acactctttc cctacacgac gctcttccga tct 33
<210> 143
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 143
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 144
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> misc_feature
<222> (35)..(40)
<223> N是A, C, G, 或T
<400> 144
agatcggaag agcacacgtc tgaactccag tcacnnnnnn atctcgtatg ccgtcttctg 60
cttg 64
<210> 145
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<400> 145
agatcggaag agcgtcgtgt agggaaagag tgtagatctc ggtggtcgcc gtatcatt 58
<210> 146
<211> 64
<212> DNA
<213> 人工序列
<220>
<223> 合成构建体
<220>
<221> misc_feature
<222> (25)..(30)
<223> N是A, C, G, 或T
<400> 146
caagcagaag acggcatacg agatnnnnnn gtgactggag ttcagacgtg tgctcttccg 60
atct 64

Claims (33)

1.一种制备靶基因富集的文库的方法,所述方法包括:
(a)提供多个多核苷酸片段;
(b)将所述多核苷酸片段划分成多个分区,其中每个分区还包含多个引物对,每个引物对包含用于扩增靶基因的正向引物和反向引物,其中所述正向引物包含(i)包含第一衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性正向引物序列,并且其中所述反向引物包含(i)包含第二衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性反向引物序列;
(c)用分区中的引物对之一扩增该分区中的多核苷酸片段的靶基因序列,由此产生扩增子,所述扩增子包含靶基因序列,所述靶基因序列在5′末端侧接第一衔接子序列的部分并在3′末端侧接第二衔接子序列的部分;
(d)纯化所述扩增子;并且
(e)使用包含第一衔接子序列的至少部分的第一扩增子引物和包含第二衔接子序列的至少部分的第二扩增子引物扩增所述扩增子。
2.如权利要求1所述的方法,其中所述多核苷酸片段是基因组DNA片段。
3.如权利要求1或2所述的方法,其中所述多核苷酸片段的长度是至少约100个核苷酸。
4.如权利要求3所述的方法,其中所述多核苷酸片段的长度是约100至约2000个核苷酸。
5.如权利要求1-4中任一项所述的方法,其中在划分步骤(b)中,各分区包含至少50个引物对。
6.如权利要求5所述的方法,其中在划分步骤(b)中,各分区包含至少200个引物对。
7.如权利要求1-6中任一项所述的方法,其中用于扩增的靶基因是具有稀有突变的基因。
8.如权利要求1-7中任一项所述的方法,其中(i)第一衔接子序列是P7衔接子序列并且第二衔接子序列是P5衔接子序列;或(ii)第一衔接子序列是P5衔接子序列并且第二衔接子序列是P7衔接子序列。
9.如权利要求8所述的方法,其中所述第一衔接子序列是与SEQ ID NO:4有至少70%相同性的P7衔接子序列。
10.如权利要求1-9中任一项所述的方法,其中包含第一衔接子序列的部分的正向引物包含第一衔接子序列的至少20个连续核苷酸。
11.如权利要求10所述的方法,其中所述第一衔接子序列的部分与SEQ ID NO:8有至少70%相同性。
12.如权利要求8所述的方法,其中所述第二衔接子序列是与SEQ ID NO:1有至少70%相同性的P5衔接子序列。
13.如权利要求1-12中任一项所述的方法,其中包含第二衔接子序列的部分的反向引物包含第二衔接子序列的至少20个连续核苷酸。
14.如权利要求13所述的方法,其中所述第二衔接子序列的部分与SEQ ID NO:7有至少70%相同性。
15.如权利要求1-14中任一项所述的方法,其中所述第一衔接子序列和/或第二衔接子序列包含条形码序列。
16.如权利要求15所述的方法,其中在步骤(e)中,第一引物与SEQ ID NO:6有至少70%相同性。
17.如权利要求1-16中任一项所述的方法,其中所述分区是液滴。
18.如权利要求1-17中任一项所述的方法,其中所述分区包含约50皮升至约2纳升的平均体积。
19.如权利要求18所述的方法,其中所述分区包含约0.5纳升至约2纳升的平均体积。
20.如权利要求1-19中任一项所述的方法,其中所述分区平均包含约0.1至约10个靶标/液滴。
21.如权利要求20所述的方法,其中所述分区平均包含约1至约5个靶标/液滴。
22.如权利要求1-21中任一项所述的方法,其中在划分步骤(b)中,每个分区还包含选自盐,核苷酸,缓冲液,稳定剂,DNA聚合酶,可检测试剂和无核酸酶的水中的一种或多种构成成分。
23.如权利要求22所述的方法,其中所述DNA聚合酶是高保真DNA聚合酶。
24.如权利要求1-23中任一项所述的方法,其中扩增步骤(c)包括至少一个循环的扩增。
25.如权利要求1-24中任一项所述的方法,其中扩增步骤(e)包括至少10个循环的扩增。
26.如权利要求1-25中任一项所述的方法,其中在扩增步骤(e)之后,所述方法还包括纯化所述扩增子。
27.如权利要求1-26中任一项所述的方法,其中所述纯化包括打破所述分区并将所述扩增子与所述分区的至少一种其它组分分离。
28.如权利要求1-27中任一项所述的方法,其中在扩增步骤(e)之后,所述方法还包括对至少一个扩增子进行测序。
29.一种按照权利要求1-28中任一项所述的方法生成的扩增子文库。
30.一种试剂盒,其包括:
(a)用于划分成多个分区的第一组合物,其中所述组合物包含多个引物对,每个引物对包含用于扩增靶基因的正向引物和反向引物,其中所述正向引物包含(i)包含第一衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性正向引物序列,并且其中所述反向引物包含(i)包含第二衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性反向引物序列;和
(b)第二组合物,其包含第一引物和第二引物,其中第一引物包含第一衔接子序列,第二引物包含第二衔接子序列。
31.一种用于检测生物样品中多种靶标的方法,所述方法包括:
(a)从所述生物样品获得多个多核苷酸片段;
(b)将所述多核苷酸片段划分成多个分区,其中每个分区还包含多个引物对,每个引物对包含用于扩增靶基因的正向引物和反向引物,其中所述正向引物包含(i)包含第一衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性正向引物序列,并且其中所述反向引物包含(i)包含第二衔接子序列的部分的多核苷酸序列和(ii)靶基因特异性反向引物序列;
(c)用分区中的引物对之一扩增该分区中的多核苷酸片段的靶基因序列,由此产生扩增子,所述扩增子包含靶基因序列,所述靶基因序列在5′末端侧接第一衔接子序列的部分并在3′末端侧接第二衔接子序列的部分;
(d)纯化所述扩增子;
(e)使用包含第一衔接子序列的第一引物和包含第二衔接子序列的第二引物扩增所述扩增子;并且
(f)检测来自扩增步骤(e)的多个扩增子。
32.如权利要求31所述的方法,其中所述检测步骤包括对所述多个扩增子进行测序。
33.如权利要求32所述的方法,其中所述测序是合成法测序。
CN201680077499.3A 2015-12-30 2016-12-29 液滴划分的基于pcr的文库制备 Pending CN108430617A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562272874P 2015-12-30 2015-12-30
US62/272,874 2015-12-30
PCT/US2016/069296 WO2017117440A1 (en) 2015-12-30 2016-12-29 Droplet partitioned pcr-based library preparation

Publications (1)

Publication Number Publication Date
CN108430617A true CN108430617A (zh) 2018-08-21

Family

ID=59225418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680077499.3A Pending CN108430617A (zh) 2015-12-30 2016-12-29 液滴划分的基于pcr的文库制备

Country Status (4)

Country Link
US (1) US20170191127A1 (zh)
EP (1) EP3397379A4 (zh)
CN (1) CN108430617A (zh)
WO (1) WO2017117440A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114945684A (zh) * 2020-01-14 2022-08-26 哈佛学院院长及董事 使用数字微滴式pcr和相关技术测定核酸的装置和方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107287337A (zh) * 2017-08-10 2017-10-24 卡尤迪生物科技宜兴有限公司 使用定量pcr和数字pcr进行核酸检测的新颖制剂、方法和系统
CN108456713A (zh) * 2017-11-27 2018-08-28 天津诺禾致源生物信息科技有限公司 接头封闭序列、文库构建试剂盒及测序文库的构建方法
JP7047373B2 (ja) * 2017-12-25 2022-04-05 トヨタ自動車株式会社 次世代シーケンサー用プライマー並びにその製造方法、次世代シーケンサー用プライマーを用いたdnaライブラリー並びにその製造方法、及びdnaライブラリーを用いたゲノムdna解析方法
WO2020102192A2 (en) * 2018-11-13 2020-05-22 Idbydna Inc. Directional targeted sequencing
CN109825555A (zh) * 2018-11-28 2019-05-31 中国科学院生态环境研究中心 一种硫酸盐还原功能微生物多样性的检测方法
EP3828283A1 (en) * 2019-11-28 2021-06-02 Diagenode S.A. An improved sequencing method and kit
EP3798319A1 (en) 2019-09-30 2021-03-31 Diagenode S.A. An improved diagnostic and/or sequencing method and kit
CA3157359A1 (en) 2019-10-10 2021-04-15 1859, Inc. Methods and systems for microfluidic screening
WO2024120807A1 (en) * 2022-12-06 2024-06-13 Qiagen Gmbh Method of amplifying nucleic acid by polymerases with strand displacement activity

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011106314A2 (en) * 2010-02-25 2011-09-01 Advanced Liquid Logic, Inc. Method of making nucleic acid libraries
CN104736722A (zh) * 2012-05-21 2015-06-24 斯克利普斯研究所 样品制备方法
WO2015133911A1 (en) * 2014-03-05 2015-09-11 Caldera Health Limited Gene expression profiling for the diagnosis of prostate cancers
CN105112516A (zh) * 2015-08-14 2015-12-02 深圳市瀚海基因生物科技有限公司 一种单分子靶向测序方法、装置、系统及应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006007569A2 (en) * 2004-07-01 2006-01-19 Somagenics, Inc. Methods of preparation of gene-specific oligonucleotide libraries and uses thereof
WO2007057652A1 (en) * 2005-11-15 2007-05-24 Solexa Limited Method of target enrichment
EP2334802A4 (en) * 2008-09-09 2012-01-25 Life Technologies Corp METHODS OF GENERATING SPECIFIC LIBRARIES OF GENES
US20120252015A1 (en) * 2011-02-18 2012-10-04 Bio-Rad Laboratories Methods and compositions for detecting genetic material
EP2580351B1 (en) * 2010-06-09 2018-08-29 Keygene N.V. Combinatorial sequence barcodes for high throughput screening
US9150852B2 (en) * 2011-02-18 2015-10-06 Raindance Technologies, Inc. Compositions and methods for molecular labeling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011106314A2 (en) * 2010-02-25 2011-09-01 Advanced Liquid Logic, Inc. Method of making nucleic acid libraries
CN104736722A (zh) * 2012-05-21 2015-06-24 斯克利普斯研究所 样品制备方法
WO2015133911A1 (en) * 2014-03-05 2015-09-11 Caldera Health Limited Gene expression profiling for the diagnosis of prostate cancers
CN105112516A (zh) * 2015-08-14 2015-12-02 深圳市瀚海基因生物科技有限公司 一种单分子靶向测序方法、装置、系统及应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HARISMENDY ET AL: "Detection of low prevalence somatic mutations in solid tumors with ultra-deep targeted sequencing", 《GENOME BIOLOGY》 *
ILLUMINA: "High-Speed, Multiplexed 16S Microbial Sequencing on the MiSeq System", 《WWW.ILLUMINA.COM》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114945684A (zh) * 2020-01-14 2022-08-26 哈佛学院院长及董事 使用数字微滴式pcr和相关技术测定核酸的装置和方法

Also Published As

Publication number Publication date
EP3397379A4 (en) 2019-05-29
EP3397379A1 (en) 2018-11-07
WO2017117440A1 (en) 2017-07-06
US20170191127A1 (en) 2017-07-06

Similar Documents

Publication Publication Date Title
CN108430617A (zh) 液滴划分的基于pcr的文库制备
US11759761B2 (en) Multiple beads per droplet resolution
ES2873850T3 (es) Bibliotecas de secuenciación de próxima generación
US20210382056A1 (en) Method for Rapid Accurate Dispensing, Visualization and Analysis of Single Cells
US9951384B2 (en) Genotyping by next-generation sequencing
EP2971138B1 (en) Digital assays with associated targets
US20170145476A1 (en) Transformable tagging compositions, methods, and processes incorporating same
US20170240963A1 (en) Compositions and methods for identification of a duplicate sequencing read
CN105408495B (zh) 通过茎环结构阻断3’dna末端的聚合酶延伸的方法
EP3841202B1 (en) Nucleotide sequence generation by barcode bead-colocalization in partitions
US20150329855A1 (en) Amplification primers and methods
EP3746552B1 (en) Methods and compositions for deconvoluting partition barcodes
CN107257862A (zh) 从多个引物测序以增加数据速率和密度
US20160115473A1 (en) Multifunctional oligonucleotides
CN114555827A (zh) 用于对相同单细胞中的蛋白质表达、单核苷酸变异和拷贝数变异进行多组学同时检测的方法、系统和设备
CN114761111A (zh) 用于同时检测单细胞中的拷贝数变异和单核苷酸变异的方法、系统和装置
CN115768884A (zh) 用于全基因组扩增的单细胞工作流程
Zhao et al. Universal Exponential Amplification Confers Multilocus Detection of Mutation-Prone Virus
CN107250381B (zh) Dna集合的归一化迭代条形码和测序
US11655510B2 (en) Experimentally validated sets of gene specific primers for use in multiplex applications
Ridgwell ES01. 02 Genetics tools: PCR and sequencing.
WO2023060270A1 (en) Single cell analysis for epigenomic profiling
CN114568027A (zh) 用于确定细胞轨迹的单细胞分析的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180821

RJ01 Rejection of invention patent application after publication