CN116490613A - 用于高效构建遗传文库和遗传分析的衔接子和方法 - Google Patents

用于高效构建遗传文库和遗传分析的衔接子和方法 Download PDF

Info

Publication number
CN116490613A
CN116490613A CN202180071768.6A CN202180071768A CN116490613A CN 116490613 A CN116490613 A CN 116490613A CN 202180071768 A CN202180071768 A CN 202180071768A CN 116490613 A CN116490613 A CN 116490613A
Authority
CN
China
Prior art keywords
dna
multifunctional
adaptor
nucleotides
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180071768.6A
Other languages
English (en)
Inventor
郭健男
珍妮弗·埃尔南德斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Resolution Bioscience Inc
Original Assignee
Resolution Bioscience Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Resolution Bioscience Inc filed Critical Resolution Bioscience Inc
Publication of CN116490613A publication Critical patent/CN116490613A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Plant Pathology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开提供了用于细胞核酸的多路复用检测和分析的组合物和方法。在一些实施方案中,本公开提供了用于本公开的方法中的多功能衔接子。在一些实施方案中,本公开的组合物和方法是可自动化的。

Description

用于高效构建遗传文库和遗传分析的衔接子和方法
相关申请的交叉引用
本申请要求于2020年9月8日提交的美国临时申请第63/075,543号的优先权,其出于所有目的以其整体通过引用并入本文。
技术领域
本申请涉及用于高效构建遗传文库的组合物和方法及其使用方法。使用本文所述的组合物和方法产生的遗传文库可用于遗传分析。
序列表
包含以ASCII格式电子提交并在此通过引用整体并入的序列表。所述ASCII副本创建于2021年9月7日,命名为CLFK_006_01WO_SeqList_ST25,且大小约为20KB。
背景技术
下一代测序(NGS)可用于各种临床环境,以确定遗传变化。NGS大致分为样品预处理、文库制备、测序和生物信息学的过程要素。目前,样品预处理和文库制备是劳动密集型的过程,大部分都在自动化的情况下进行。文库制备方案通常由多步过程组成,并且需要昂贵的试剂和大量的实际操作时间。为了解决NGS中的这一瓶颈,非常需要一种允许样品多路复用、高通量和提高灵敏度的自动化NGS方法。
发明内容
本公开提供了多功能衔接子,其包含a)连接链寡核苷酸,和b)非连接链寡核苷酸,其能够杂交至连接链寡核苷酸的3’末端处区并与其形成双链体;其中连接链寡核苷酸,在与来自样品的双链DNA(dsDNA)片段接触之后,连接至dsDNA片段的每条链的5’末端;其中连接链寡核苷酸包含(i)3’末端悬突;(ii)扩增区,其包含能够用作引物识别位点的多核苷酸序列;(iii)唯一多功能ID区;(iv)唯一分子标识符(UMI)倍增子;和(v)锚区,其包含与非连接链寡核苷酸至少部分互补的多核苷酸序列;其中dsDNA片段在每条链的5’末端处包含磷酸根基团并在每条链的3’末端处包含悬突;其中每条dsDNA片段可通过组合多功能ID区和UMI倍增子来鉴定;和其中可将样品通过多功能ID区来鉴定。
在本公开的多功能衔接子的实施方案中,连接链寡核苷酸包含在3’末端处的dT悬突并且dsDNA片段包含每条链的3’末端处的dA悬突。
在本公开的多功能衔接子的实施方案中,连接链寡核苷酸包含3’末端处的dA悬突并且dsDNA片段包含每条链的3’末端处的dT悬突。
在本公开的多功能衔接子的实施方案中,连接链寡核苷酸包含3’末端处的dC悬突并且dsDNA片段包含每条链的3’末端处的dG悬突。
在本公开的多功能衔接子的实施方案中,连接链寡核苷酸包含3’末端处的dG悬突并且dsDNA片段包含每条链的3’末端处的dC悬突。
在本公开的多功能衔接子的实施方案中,连接链寡核苷酸中的扩增区包含能够用作针对PCR、LAMP、NASBA、SDA、RCA或LCR的引物识别位点的多核苷酸序列。
在本公开的多功能衔接子的实施方案中,非连接链寡核苷酸包含在其3’末端处的防止连接至dsDNA片段的5’末端和/或衔接子二聚体形成的修饰。
在本公开的多功能衔接子的实施方案中,分离样品或样品源自哺乳动物。在一些实施方案中,哺乳动物是用于人类疾病的动物模型。在一些实施方案中,哺乳动物是小鼠、大鼠、豚鼠、兔、猪、猫、绵羊或马。在一些实施方案中,哺乳动物是非人灵长类动物(NHP)。在一些实施方案中,哺乳动物是人。
在本公开的多功能衔接子的实施方案中,分离样品或样品源自一种或多种细胞类型。在一些实施方案中,分离样品或样品来源于一种或多种组织类型。在一些实施方案中,分离样品或样品来源于一种或多种来源。在一些实施方案中,一种或多种来源包括供体。在一些实施方案中,供体是人。在一些实施方案中,供体是健康或对照供体。在一些实施方案中,一种或多种来源包括患者或受试者(如临床试验的)。在一些实施方案中,患者或受试者是人。在一些实施方案中,患者或受试者是健康或对照患者或受试者。在一些实施方案中,患者或受试者是测试患者或受试者。在一些实施方案中,患者或受试者呈现疾病或病症的体征或症状。在一些实施方案中,患者或受试者是怀孕的。在一些实施方案中,患者或受试者呈现疾病或病症的遗传标记的家族史。
在本公开的多功能衔接子的实施方案中,样品是组织活检。在一些实施方案中,组织活检取自肿瘤或疑似肿瘤的组织。
在本公开的多功能衔接子的实施方案中,dsDNA片段是细胞游离DNA(cfDNA)、基因组DNA(gDNA)、互补DNA(cDNA)、线粒体DNA、甲基化DNA或去甲基化DNA。在一些实施方案中,dsDNA片段包括细胞游离DNA(cfDNA)、基因组DNA(gDNA)、互补DNA(cDNA)、线粒体DNA、甲基化DNA和去甲基化DNA中的一种或多种。在一些实施方案中,dsDNA片段包含细胞游离DNA(cfDNA)。在一些实施方案中,dsDNA片段包含基因组DNA(gDNA)。在一些实施方案中,dsDNA片段包含互补DNA(cDNA)。在一些实施方案中,dsDNA片段包含线粒体DNA。在一些实施方案中,dsDNA片段包含甲基化DNA。在一些实施方案中,dsDNA片段包含去甲基化DNA。
在本公开的多功能衔接子的实施方案中,分离dsDNA或dsDNA源自样品或测试样品。在一些实施方案中,样品或测试样品包括生物样品。在一些实施方案中,生物样品包括选自以下的生物流体:羊水、血液、血浆、血清、精液、淋巴液、脑脊液、眼液、尿液、唾液、粪便、粘液、眼泪和汗液。在一些实施方案中,生物样品或生物流体包括羊水。在一些实施方案中,生物样品或生物流体包括全血、血浆、血沉棕黄层和血清中的一种或多种。在一些实施方案中,生物样品或生物流体包括淋巴液。在一些实施方案中,生物样品或生物流体包括脑脊液。在一些实施方案中,生物样品或生物流体包括尿液。在一些实施方案中,生物样品或生物流体包括唾液、粪便、粘液、眼泪和汗液中的一种或多种。
在本公开的多功能衔接子的实施方案中,dsDNA片段通过包括片段化基因组DNA以产生至少一个DNA片段的方法获得。在一些实施方案中,该方法还包括在片段化步骤之前,从包含至少一种细胞的样品分离基因组DNA。在一些实施方案中,片段化包括使基因组DNA与至少一种酶接触,其中酶消化基因组DNA以产生至少一种DNA片段。在一些实施方案中,片段化包括施加机械应力至基因组DNA以产生至少一种DNA片段。在一些实施方案中,片段化包括使基因组DNA与一种或多种化合物接触以化学破坏基因组DNA的一个或多个键。在一些实施方案中,机械应力包括对基因组DNA进行超声处理以产生至少一个DNA片段。在一些实施方案中,在片段化步骤之后,方法还包括使至少一种DNA片段和酶基础,其中酶消化DNA片段的一个或两个末端以产生包含一个或多个平末端的DNA片段。在一些实施方案中,在片段化步骤之后,该方法还包括附接脱氧核糖核酸腺嘌呤(dA)尾至至少一个DNA片段的一个或两个平末端。在一些实施方案中,在片段化步骤之后,该方法还包括磷酸化至少一个DNA片段的一个或两个末端。在一些实施方案中,在片段化步骤之后,该方法还包括同时或依序地附接尾和磷酸化步骤。在一些实施方案中,在片段化步骤之后,该方法还包括附接尾和随后磷酸化步骤。在一些实施方案中,附接尾步骤之后是磷酸化步骤。在一些实施方案中,磷酸化步骤之后是尾步骤的附接。
在本公开的多功能衔接子的实施方案中,dsDNA片段通过包括以下的步骤获得:(a)从测试样品中分离基因组DNA;和(b)片段化基因组DNA以获得基因组DNA片段。在一些实施方案中,步骤(b)通过使基因组DNA与至少一种消化酶接触进行。在一些实施方案中,步骤(b)通过施加机械应力至基因组DNA来进行。在一些实施方案中,机械应力通过对基因组DNA进行超声处理来施加。
在本公开的多功能衔接子的实施方案中,dsDNA片段通过包括以下的步骤获得:(a)从测试样品中分离细胞DNA;和(b)片段化细胞DNA以获得基因组DNA片段。在一些实施方案中,步骤(b)通过使细胞DNA与至少一种消化酶接触进行。在一些实施方案中,步骤(b)通过对细胞DNA施加机械应力来进行。在一些实施方案中,机械应力通过对细胞DNA进行超声处理来施加。
在本公开的多功能衔接子的实施方案中,扩增区是10至50个核苷酸长。在一些实施方案中,扩增区是20至30个核苷酸长。在一些实施方案中,扩增区是25个核苷酸长。
在本公开的多功能衔接子的实施方案中,多功能ID区是3至50个核苷酸长。在一些实施方案中,多功能ID区是3至15个核苷酸长。在一些实施方案中,多功能ID区是8个核苷酸长。
在本公开的多功能衔接子的实施方案中,UMI倍增子与多功能ID区相邻或包含在多功能ID区内。在一些实施方案中,UMI倍增子是1至5个核苷酸长。在一些实施方案中,UMI倍增子是3个核苷酸长,并且包含64种可能核苷酸序列之一。
在本公开的多功能衔接子的实施方案中,锚区是1至50个核苷酸长。在一些实施方案中,锚区是5至25个核苷酸长。在一些实施方案中,锚区是10个核苷酸长。
在本公开的多功能衔接子的实施方案中,多个多功能衔接子连接至多个dsDNA片段。
在一些实施方案中,dsDNA片段在与多个多功能衔接子连接之前进行末端修复。
在本公开的多功能衔接子的实施方案中,多个多功能衔接子的每个多功能衔接子的扩增区包含相同的核苷酸序列。在一些实施方案中,相同核苷酸序列是PCR引物结合位点。
在本公开的多功能衔接子的实施方案中,多个多功能衔接子的每个多功能衔接子的多功能ID区包含2至10,000条唯一核苷酸序列之一。在一些实施方案中,多个多功能衔接子的每个多功能衔接子的多功能ID区包含50至500条唯一核苷酸序列之一。在一些实施方案中,多个多功能衔接子的每个多功能衔接子的多功能ID区包含100至400条唯一核苷酸序列之一。在一些实施方案中,多个多功能衔接子的每个多功能衔接子的多功能ID区包含60条唯一核苷酸序列之一。
在本公开的多功能衔接子的实施方案中,多个多功能衔接子的每个多功能衔接子的多功能ID区是8个核苷酸长。
在本公开的多功能衔接子的实施方案中,多个多功能衔接子的每个多功能衔接子包含64至2,560,000条唯一核苷酸序列之一。
在本公开的多功能衔接子的实施方案中,多个多功能衔接子的每个多功能衔接子包含3840条唯一核苷酸序列之一,并且每条核苷酸序列与3840条唯一核苷酸序列的任何其他序列离散至少二的汉明距离。
在本公开的多功能衔接子的实施方案中,多个多功能衔接子中的每一个包含与多功能ID区相邻或包含在多功能ID区内的UMI倍增子。
在本公开的多功能衔接子的实施方案中,多个多功能衔接子的每个多功能衔接子的UMI倍增子是1至5个核苷酸长。在一些实施方案中,多个多功能衔接子的每个多功能衔接子的UMI倍增子是3个核苷酸长。
在本公开的多功能衔接子的实施方案中,多个功能衔接子的每个多功能衔接子的锚区包含四条核苷酸序列之一,并且给定序列的每个多功能ID区可与四个锚区中的每一个配对。
在本公开的多功能衔接子的实施方案中,多个多功能衔接子的每个多功能衔接子的扩增区包含相同核苷酸序列;其中多个多功能衔接子的每个多功能衔接子的多功能ID区是8个核苷酸长;其中每个多功能ID区的核苷酸序列与多个多功能衔接子的任何其他多功能ID区离散至少二的汉明距离;其中多个多功能衔接子中的每一个包含与多功能ID区相邻或包含在多功能ID区内的UMI倍增子,其中多个多功能衔接子的每个多功能衔接子的UMI倍增子是三个核苷酸长,并且其中可能的核苷酸序列的每个的UMI倍增子与多个多功能衔接子的每个多功能ID区配对,其中多个多功能衔接子的每个多功能衔接子的锚区包含四条核苷酸序列之一,并且其中给定序列的每个多功能ID区可配对至四个锚区中的每一个。
本公开提供了包含多功能衔接子和dsDNA片段的复合物,其中多功能衔接子选自所公开的多功能衔接子中的任一种。
本公开提供了本公开的多个多功能衔接子。在一些实施方案中,多个还可被称为汇集物。在一些实施方案中,多个多功能衔接子包含应用于样品的衔接子集合。在一些实施方案中,在应用于样品的衔接子的集合内,多个多功能衔接子的每个多功能衔接子含有唯一ID区或唯一UMI。在一些实施方案中,可以增加或减少多个多功能衔接子的多功能衔接子的数量以适应样品或样品的细胞DNA靶标。在一些实施方案中,可增加或减少多个多功能衔接子的多功能衔接子的数量,以对应于检测和或分析样品的细胞DNA靶标所需的多路复用水平。在一些实施方案中,可以通过增加或减少待施加至样品的多个多功能衔接子内唯一ID区或唯一UMI的数量,来增加或减少多个多功能衔接子的多功能衔接子的数量。在一些实施方案中,可以通过增加或减少ID区或锚区的核苷酸的数量来增加或减少多个多功能衔接子的多功能衔接子的数量。
本公开提供了用于制备衔接子-标记的DNA文库的方法,其包括:(a)连接多个多功能衔接子与多个dsDNA片段以生成多个多功能衔接子/dsDNA片段复合物,其中多功能衔接子选自所公开的多功能衔接子中的任一种;和(b)使来自步骤(a)的多功能衔接子/dsDNA片段复合物与一种或多种酶接触以形成包含多个持续衔接子-标记的dsDNA片段的衔接子-标记的DNA文库。在一些实施方案中,多个复合物的每个多功能衔接子/dsDNA片段复合物包含连接至dsDNA片段的每个末端的多功能衔接子。
在本公开的方法的一些实施方案中,dsDNA片段是细胞游离DNA(cfDNA)、基因组DNA(gDNA)、互补DNA(cDNA)、线粒体DNA或甲基化DNA、或去甲基化DNA。在一些实施方案中,dsDNA片段包括细胞游离DNA(cfDNA)、基因组DNA(gDNA)、互补DNA(cDNA)、线粒体DNA、甲基化DNA和去甲基化DNA中的一种或多种。在一些实施方案中,dsDNA片段包含细胞游离DNA(cfDNA)。在一些实施方案中,dsDNA片段包含基因组DNA(gDNA)。在一些实施方案中,dsDNA片段包含互补DNA(cDNA)。在一些实施方案中,dsDNA片段包含线粒体DNA。在一些实施方案中,dsDNA片段包含甲基化DNA。在一些实施方案中,dsDNA片段包含去甲基化DNA。
在本公开的方法的一些实施方案中,多个dsDNA片段在与多个多功能衔接子连接之前进行末端修复。
在本公开的方法的一些实施方案中,多个dsDNA片段获自选自以下列表的文库:低通全基因组文库、扩增子文库、全外显子组文库、cDNA文库或甲基化DNA文库。
在本公开的方法的一些实施方案中,非连接链寡核苷酸从多功能衔接子/dsDNA片段复合物被置换。
在本公开的方法的一些实施方案中,一种或多个酶包括DNA连接酶或RNA连接酶。在一些实施方案中,DNA连接酶包含T4 DNA连接酶或Taq DNA连接酶。
本公开提供了用于制备衔接子-标记的DNA文库的方法,其包括:(a)连接多个多功能衔接子与多个dsDNA片段以生成多个多功能衔接子/dsDNA片段复合物,其中多功能衔接子选自所公开的多功能衔接子中的任一种;和(b)使来自步骤(a)的多功能衔接子/dsDNA片段复合物与一种或多种酶接触以形成连续衔接子-标记的dsDNA片段;和扩增连续衔接子-标记的dsDNA片段以生成包含多种连续衔接子-标记的dsDNA片段的衔接子-标记的DNA文库。
在本公开的方法的一些实施方案中,一种或多种引物用于扩增。在一些实施方案中,一种或多种引物包括杂交至衔接子的引物-结合区的通用引物结合序列。
本公开提供了根据所公开的方法中的任一种产生的衔接子-标记的DNA文库。
本公开提供了用于制备杂交分子文库的方法,其包括:(a)使根据所公开的方法中的任一种产生的衔接子-标记的DNA文库与一种或多种多功能捕获探针杂交以形成一种或多种捕获探针/衔接子-标记的DNA复合物,其中每种多功能捕获探针包含(i)第一区,其能够杂交至伴侣寡核苷酸,其中,任选地,第一区包含含PCR引物结合位点的尾序列;和(ii)第二区,其能够杂交至经标记的遗传DNA文库中的特定靶区;(b)从步骤(a)中分离一种或多种捕获探针/衔接子-标记的DNA复合物,其中每种经分离的捕获探针/衔接子-标记的DNA复合物包含捕获探针和衔接子-标记的DNA片段;和(c)酶促处理来自步骤(b)的一种或多种经分离的捕获探针/衔接子-标记的DNA复合物以生成一种或多种衔接子-标记的杂交核酸分子(杂交分子),其中每种杂交分子包含捕获探针,和衔接子-标记的DNA片段的互补序列(捕获探针杂交至经靶向遗传序列的位置的3’处)。在一些实施方案中,该方法还包括(d)对来自步骤(c)的杂交分子进行PCR以生成包含经扩增的杂交分的经靶向的遗传文库。在一些实施方案中,(c)的酶促处理步骤包括使用复合物中的衔接子-标记的DNA片段作为模板进行捕获探针的5′-3′DNA聚合酶延伸。
在所公开的方法的任一种的一些实施方案中,至少一种捕获探针杂交经靶向遗传序列的下游,并且至少一种捕获探针杂交经靶向遗传序列的上游。
在所公开的方法的任一种的一些实施方案中,捕获探针包含测序引物识别序列。
在一些实施方案中,本公开提供了根据所公开的方法中任一种产生的捕获探针/衔接子-标记的DNA复合物。
在一些实施方案中,本公开提供了根据所公开的方法中任一种产生的杂交分子的文库。
在一些实施方案中,本公开提供了根据所公开的方法中任一种产生的靶向遗传文库。
本公开的一些实施方案涉及一种方法,包括对根据所公开的任一种产生的杂交分子文库执行靶向遗传分析。在一些实施方案中,靶向遗传分析是序列分析。在一些实施方案中,靶向遗传分析是拷贝数分析。
本公开的一些实施方案涉及一种方法,包括对根据所公开的任一种产生的经靶向的遗传文库执行靶向遗传分析。在一些实施方案中,靶向遗传分析是序列分析。在一些实施方案中,靶向遗传分析是拷贝数分析。
在所公开的方法的任一种的一些实施方案中,对杂交分子中的捕获探针区进行测序。在所公开的方法的任一种的一些实施方案中,对杂交分子中的整个捕获探针区进行测序。在所公开的方法的任一种的一些实施方案中,对杂交分子中的一部分捕获探针区进行测序。
这些和其他方面将在以下列出的详述中更详细地解决。
附图说明
图1是描绘本公开的示例性多功能衔接子的示意图。示例性多功能衔接子从5’至3’包含25-核苷酸扩增区、8-核苷酸ID区、3-核苷酸UMI倍增子区和10-核苷酸锚区。多功能衔接子还包括3’末端处的dT悬突。多功能衔接子的每个区的长度可如下所述改变。
图2是描绘本公开的方法的总体工作流程的实施方案的示意图。下面将进一步详细描述该工作流程的步骤。
图3是描绘根据本公开的方法的一些实施方案生成衔接子-标记的DNA文库的示例性过程的示意图。在步骤一中,使用NEB Next Ultra II/dA-加尾模块对cfDNA进行末端修复。然后将碱基添加到3’端,并且5’端被磷酸化(步骤2)。步骤2可使用热循环仪进行。在步骤3中,具有3’dT末端悬突的多功能衔接子偶联至5’末端和3’末端的每一个。在任选的步骤4(未显示)中,亲和珠可用于分离未连接的片段和衔接子与衔接子-连接的DNA链。在一些实施方案中,该方法直接从步骤3到步骤5进行扩增。在这一步中,Ultra II/>酶延伸片段上的悬突,以形成双链文库,并使用标准扩增循环扩增片段。任选地,可以在开始时执行另外的3分钟延伸步骤,以允许填充片段的5’和3’末端处的悬突。
图4A至图4C提供了一系列示意图和表,其比较了根据本公开的方法,生成衔接子-标记的DNA文库的比较器过程(为经设计为可自动化的)与生成衔接子-标记的DNA文库的可自动化过程。图4A描绘了比较器过程中所执行的步骤,所使用的试剂和热循环仪程序。图4B描绘了在可自动化过程中执行的步骤,以及所使用的试剂和热循环仪程序。图4C提供了来自使用比较器和可自动化过程进行处理的示例性野生型cfDNA样品以及两个对照样品的深度数据。也显示了在使用可自动化过程时深度增加的百分比。
图5是描绘根据本公开的方法的一些实施方案制备和扩增衔接子-标记DNA文库的说明性方法的示意图。
图6是描绘根据本公开的方法的一些实施方案捕获探针杂交和延伸的示意图。
图7是描绘根据本公开的方法的一些实施方案的经靶向(捕获)文库的扩增的示意图。
图8是比较衔接子分子、“杂交分子”和测序扩增子(用于NGS)的示意图。衔接子分子从5’至3’包含25-核苷酸扩增区、8-核苷酸ID区、3-核苷酸UMI倍增子区、10-核苷酸锚区和3’末端处的dT悬突。杂交分子从5’至3’包含正向引物(FP)、衔接子区(包含扩增区、ID区、UMI倍增子和锚区)、文库片段、多功能捕获探针(MCP)和反向引物(RP)。FP和RP用于扩增杂交分子。如图所示,对于测序读段1,测序在扩增区的开始处起始,并且沿着测序扩增子进行5’至3’。对于读段2,测序在多功能捕获探针的末端开始,并沿着测序扩增子从3’至5’进行。
图9是描绘用于比较器和可自动化过程的衔接子锚分布的图。
图10A至图10B提供了一对描绘cfDNA文库构建的说明性过程中衔接子高效附着至DNA片段的图。图10A提供了输入cfDNA的Bioanalyzer迹线的数据;图10B提供了文库构建后cfDNA生物分析仪迹线的数据,表明大多数(>50%)的cfDNA包含2个条形码(衔接子)。
具体实施方式
本公开的组合物和方法解决了之前长期感到但未满足的对多路复用核酸检测和测序的需求,以及可自动化过程,以提高整个过程的效率,从而实现高通量分析。本发明的组合物和方法可与各种下一代测序(NGS)过程一起使用。
可自动化的DNA文库制备和测序过程的速度和精确性对于包括癌症在内的晚期疾病的快速检测和诊断以及在传播之前早期检测高传染性疾病尤为重要。如果能迅速且准确地检测出遗传疾病,则遗传疾病在发病时就可以治疗,或甚至可以预防。此外,监测治疗功效往往需要快速和准确的结果,以跟踪疾病进展或其缓解的生物标记。
本公开提供了用于高效构建允许自动化的遗传文库和遗传分析的衔接子和方法。除了用于诊断目的的分析外,本公开中的方法和组合物可用于任何核酸样品的分析中。作为一个实例,本公开的方法和组合物可用于一个或多个物种的群体规模测序,以鉴定群体水平上的遗传变异,例如以解决进化、农业和生物学研究领域中的问题。
特别是在大量样品上的高度多路复用反应将最佳地并行进行的那些情况下,本公开的组合物和方法提供了对大量样品进行分析的效率,例如追踪疾病或感染的起源。
本公开的组合物和方法经设计以最小化检测和分析核酸片段所需的步骤。此外,本公开的组合物和方法经设计以简化从一个步骤到另一个步骤对样品的操作,从而在某些情况下允许多个步骤在同一反应容器中依次发生。此外,与其他商业过程相比,本公开的组合物和方法可用于更小的反应体积,从而减少遗传物质的稀释。当起始遗传物质稀缺或有限时,例如当使用细胞游离DNA(cfDNA)或古代DNA时,这一点尤其重要。
在一些实施方案中,本公开提供了使用允许检测多种类型DNA变化的衔接子的衔接子设计和方法,所述DNA变化包括(但不限于)拷贝数变化、单核苷酸变体(SNV)、短(小于40bp)插入和缺失(插入缺失)以及基因组重排,例如基因融合,诸如致癌基因融合、倒置、易位。
在一些实施方案中,本公开提供了根据简化工作流程制备经标记的DNA文库的方法。这些方法对于高通量处理和自动化特别有用,例如使用样品处理机器人进行NGS文库制备、通过靶捕获过程富集目标遗传位点、对遗传物质进行测序和遗传分析。
所公开的组合物在所公开的方法中的用途在提高克隆效率、改进均匀衔接子分布以及在序列读段以及基因组当量的更大深度/覆盖方面改进性能方面惊人地有效。
因此,与标准工作流程(诸如不可自动化工作流程)相比,本公开中提供的方法至少具有以下优越特性:步骤数减少、处理时间更短、操作人员错误风险降低、试剂数量减少、反应体积更小和成本降低,从而使此类方法和工作流程的商业化和自动化可行。
在本公开的方法的一些实施方案中,本方法被称为可自动化过程。虽然本公开的组合物和方法经设计以在自动化设备上使用,但本公开的组合物和方法不需要是自动化的,并且为了清楚,也可以通过非自动化手段或在非自动化设备上执行。为了提供比较的基础,本公开提供了一种“比较器”过程-一种不是专门为自动化或与自动化设备一起使用而设计的过程。当例如与本公开的比较器过程相一致时,本发明的“可自动化”过程消除了数个步骤,同时保留了多路复用核酸检测和分析的所需结果。
在本公开的组合物和方法的一些实施方案中,末端-修复在单个步骤中进行;衔接子连接在单个步骤中进行;和衔接子-标记的DNA片段的延伸和扩增在单个步骤中进行。在一些实施方案中,可自动化的过程还减少了用于文库制备的时间,减少了所用试剂的数量,并减少了反应的体积。特别地,反应体积的减少有利于自动化,因为可以在可由采样机器人处理的微量滴定板或管带中进行更小的反应体积。图4A至图4C提供了示意图,概述了用于生成衔接子-标记的DNA文库的示例性比较器过程和用于生成本公开的衔接子-标记的DNA文库的自动化过程。
定义
除非在公开中另有定义,否则本申请中使用的科学和技术术语应具有本领域普通技术人员普遍理解的含义。通常,本公开所描述的与化学、分子生物学、细胞和癌症生物学、免疫学、微生物学、药理学以及蛋白质和核酸化学结合使用的命名,和化学、分子生物学、细胞和癌症生物学、免疫学、微生物学、药理学以及蛋白质和核酸化学的技术是本领域中众所周知的和常用的那些。本文中提到的所有出版物、专利申请、专利和其他参考文献均以引用的方式整体并入。
如在本公开中使用,除非另有规定,否则以下术语具有赋予它们的含义。
冠词“一个”、“一种”和“所述”在公开中用于指代一个或多于一个(即至少一个)冠词语法对象。举例来说,“一个要素”意指一个要素或多于一个要素。
替代词(如“或”)的使用应被理解为意指替代词中的任一种、两种或其任何组合。
术语“和/或”应被理解为意指可替代物中的任一者或两者。
如本公开中使用,术语“约”或“大约”是指与参考量、水平、值、数字、频率、百分比、尺寸、大小、量、重量或长度相差高达15%、10%、9%、8%、7%、6%、5%、4%、3%、2%或1%的量、水平、值、数字、频率、百分比、尺寸、大小、量、重量或长度。在一些实施方案中,术语“约”或“大约”是指关于参考量、水平、值、数字、频率、百分比、尺寸、大小、量、重量或长度的±15%、±10%、±9%、±8%、±7%、±6%、±5%、±4%、±3%、±2%或±1%范围的量、水平、值、数字、频率、百分比、尺寸、大小、量、重量或长度。
如本公开中所使用,术语“分离的”意指基本上或基本不含在其原生状态下通常伴随其的组分的材料。在一些实施方案中,术语“获得的”或“来源的”与分离的可同义使用。
如本文所使用的“受试者”、“个体”或“患者”包括表现出可以用本文所考虑的组合物检测或鉴定的疾患的症状的任何动物。合适的受试者包括实验动物(诸如小鼠、大鼠、兔子或豚鼠)、农场动物(诸如马、牛、羊、猪)和家养动物或宠物(诸如猫或狗)。在一些实施方案中,受试者是哺乳动物。在一些实施方案中,受试者是非人灵长类动物,并且在优选的实施方案中,受试者是人类。
过渡性短语,诸如“包括”、“基本上由…组成”和“由…组成”,采用美国专利商标局专利审查程序手册(United States Patent and Trademark Office’s Manual of PatentExamining Procedure)中概述的习惯定义(参见MPEP 2111.03)。
衔接子设计
为了实现适于自动化的高通量能力(如,使用样品处理机器人),本公开的衔接子和相关方法在一些实施方案中包括以下特征:(i)一步附接;(ii)高效附接;(iii)均匀衔接子分布;(iv)适应样品多路复用和样品鉴定;(v)大量的唯一分子标识符(UMI)。例如,本公开的衔接子和方法的一些实施方案提供以下:
一步附接:在一些实施方案中,全长多功能衔接子可在一步内附接至DNA片段。“全长”多功能衔接子可包含至少4个区:第一扩增区,其包含能够用作引物识别位点的多核苷酸序列;第二多功能ID区,其包含唯一分子标识符(UMI);第三区,其包含UMI倍增子,和第四区,其包含锚区。附接全长多功能衔接子可以消除以逐步方式进行衔接子连接的需要,其中首先附接锚,然后附接衔接子的剩余区(例如,参见图4A的比较器过程中衔接子连接的逐步方式)。
高效附接:在一些实施方案中,多功能衔接子可以高效率附接至DNA片段。对于本公开的目的,衔接子附接的效率是指输入DNA片段到衔接子-标记的DNA文库分子的转化。例如,DNA片段可通过附接衔接子的ID区鉴定,并且DNA片段如果不附接至衔接子,则不可使用ID区进行鉴定。因此,衔接子附接的更高效率可降低文库转化过程中损失的输入DNA片段的数目。这在其中可用DNA量有限的情况下特别有用,例如在结合许多肿瘤学应用和其他遗传疾病(如多发性硬化症、类风湿性关节炎、阿尔茨海默氏病(Alzheimer's disease))进行分析的样品中。在此类情况下,DNA改变(如,单核苷酸变体(SNV)、插入缺失、拷贝数变化、DNA重排,任选地与肿瘤/癌症有关)的发生通常很少,并可因此很难检测到。本公开的衔接子高效附接至这些DNA片段可以促进捕获此类不常见的变异。在一些实施方案中,将至少50%的输入DNA片段通过附接多功能衔接子来转化为衔接子-标记的DNA文库分子。图10提供了cfDNA文库构建的示例性过程中的衔接子高效附接至DNA片段的数据。
均匀衔接子分布:生物信息学分析可以分析样品内探针性能和样品间探针性能。跨样品的衔接子池之间的性能波动可能会对分析的灵敏度产生负面影响。如通过序列读段测量的经标记的DNA文库和捕获探针文库中的均匀衔接子分布是需要的。在一些实施方案中,存在衔接子分布在衔接子-标记的DNA文库中的偏向的可能性,其中一些衔接子可能连接至DNA片段的效率较低,或者与衔接子池中的其他相比,可能扩增的效率较低。这可能导致在测序过程中扩增子较少和那些低效率衔接子的读段较少。虽然可以通过增加衔接子池中效率较低衔接子的量来容忍或补偿此类偏向分布,以提供衔接子在经标记DNA文库和测序读段中更平衡的表示,但本公开的组合物和方法提供了消除此类补偿的选项。本文公开的衔接子和方法可以提供实现均匀衔接子分布的未预期益处,其中每个衔接子在测序结果中以大致相同的比例表示。这种均匀衔接子分布提供了提高的灵敏度。
在一些实施方案中,均匀衔接子分布可通过具有均在每个衔接子池中表示的多种类型锚区来实现。
在一些实施方案中,均匀衔接子分布可通过为每个衔接子池随机选择的唯一ID区(每个ID区鉴定与其附接的样品和DNA片段两者)实现的。
适应样品多路复用和样品鉴定:为了实现样品多路复用(即同时运行不同样品的能力),在一些实施方案中,构建唯一衔接子池,其中相同池内的每个唯一衔接子附接至同一样品。从序列计数的角度来看,衔接子池中的每个唯一衔接子拥有与池中所有其他衔接子本质上相同的行为是有益的。为了实现这个,在一些实施方案中,每个ID区在ID区与任何其他ID区之间的汉明距离为2,从而减少了将读段误分配给错误样品的机会。在一些实施方案中,将每个衔接子池分割为与特定锚区配对的另外池,从而允许进一步减少在样品解复用中出现错误的可能性。例如,在汉明距离为2的8聚体标签中,可能序列的总数为16,384。术语“配对”当就包含不同多核苷酸序列的DNA的两种不同多核苷酸序列或区而言使用时,意指包含不同多核苷酸序列的DNA的两种不同多核苷酸序列或区存在于相同多核苷酸上。例如,如果DNA的特定ID区被认为与DNA的特定扩增区配对,则这意味着ID区和扩增标签存在于相同的DNA多核苷酸分子上。
大量唯一分子标识符(UMI):虽然从分子生物学的角度来看,衔接子的功能等效通常是有益的,但衔接子拥有非常大量的唯一分子标识符(UMI)(≥10,000)以增强唯一基因组片段的标识也是所需的。在本上下文中,通过“增强”,其意味着鉴定唯一派生片段的能力得到了增强。每个基因组克隆片段都有一对特定的片段化位点,对应于基因组序列中双链DNA被切割的位置。该切割位点可用于区分唯一基因组克隆,因为每个克隆可能具有不同的切割位点。然而,在拥有数千个独立克隆的文库中,唯一衍生的片段往往具有完全相同的切割位点。关于源于相同样品的其他克隆序列,共有相同切割位点的基因组克隆(即片段)可以被分类为唯一的或冗余的。通过附接引入高度多样性序列标签的衔接子,共享相同切割位点的不同基因组克隆更有可能被识别为唯一的。在一些实施方案中,UMI是通过多功能ID区与UMI倍增子的组合产生的。即,每个唯一DNA片段可通过多功能ID区和UMI倍增子的组合鉴定(即由UMI鉴定)。此外,UMI和切割位点的组合创建了唯一分子标识元素(UMIE),这有助于将序列读段归类为冗余读段或唯一读段。一些实施方案考虑了UMI倍增子可以包括更长或更短的序列,以增加或降低总体UMI复杂度。在一些实施方案中,每个独特DNA片段可通过单独的多功能ID区鉴定。
术语“衔接子”、“多功能衔接子”和“衔接子模块”可以可互换使用,并且是指可连接至DNA或RNA分子的末端的短单链或双链寡核苷酸。通常,本文所述的衔接子包含至少五个元件:(i)3’末端悬突;(ii)扩增区,其包含能够用作引物识别位点的多核苷酸序列;(iii)唯一多功能ID区;(iv)唯一分子标识符(UMI)倍增子;和(v)锚区,其包含与非连接链寡核苷酸至少部分互补的多核苷酸序列。图1提供了根据本文所述的一些实施方案的多功能衔接子的示例性组合物(仅显示了连接链寡核苷酸)。
在一些实施方案中,衔接子包含一个或多个扩增区、一个或多个多功能ID区、一个或多个UMI倍增子及一个或多个锚区。在一些实施方案中,衔接子以从5’至3’的顺序包含扩增区、多功能ID区、UMI倍增子、锚区和3’末端悬突。
在一些实施方案中,UMI倍增子包含在多功能ID区内,并且衔接子以5’至3’的顺序包含扩增区、整合多功能ID区/UMI倍增子区、锚区和3’末端悬突。
在一些实施方案中,多功能衔接子包含一个或多个扩增区、一个或多个ID区、一个或多个UMI倍增子、一个或多个锚区,及3′悬突中有效连接底物的一个或多个核苷酸。在另外的实施方案中,衔接子模块还包含一个或多个测序引物结合位点。
可用于本公开的组合物和方法的说明性衔接子的结构提供于表2和表3中。例如,在一些实施方案中,衔接子的连接链可包括以下结构:AMP-ID区/UMI倍增子-ACGTATGCCA(SEQ ID NO:2)-3’dT。在一些实施方案中,衔接子的连接链可包括以下结构:AMP-ID区/UMI倍增子-CTAGCGTTAC(SEQ ID NO:3)-3’dT。在一些实施方案中,衔接子的连接链可包括以下结构:AMP-ID区/UMI倍增子-GATCGACATG(SEQ ID NO:4)-3’dT。在一些实施方案中,衔接子的连接链可包括以下结构:AMP-ID区/UMI倍增子-TGCATCAGGT(SEQ ID NO:5)-3’dT。在一些实施方案中,衔接子的非连接链锚区可包含序列TGGCATACGT(SEQ ID NO:6)。在一些实施方案中,衔接子的非连接链锚区可包含序列GTAACGCTAG_(SEQ ID NO:7)。在一些实施方案中,衔接子的非连接链锚区可包含序列CATGTCGATC(SEQ ID NO:8)。在一些实施方案中,衔接子的非连接链锚区可包含序列ACCTGATGCA(SEQ ID NO:9)。
在一些实施方案中,衔接子可包含含3’dT悬突的连接链。在一些实施方案中,含3’dT悬突的连接链可包含表3中所示的序列中的任一种。例如,含3’dT悬突的连接链可包含SEQ ID NO:10至69中任一种的序列。这些连接链序列内的“NNN”代表了3-核苷酸UMI倍增子,其中每个N可选自A、G、C或T中的任一种。在一些实施方案中,含3’dT悬突的连接链可包含含1、2、3、4、5、6、7、8、9、10或多个核苷酸取代的SEQ ID NO:10至69中的任一种。
连接链寡核苷酸
术语“连接链寡核苷酸”和“连接链”可互换使用。
本公开提供了,在一些实施方案中,连接链寡核苷酸,其包含(i)3’末端悬突;(ii)扩增区,其包含能够用作引物识别位点的多核苷酸序列;(iii)唯一多功能ID区;(iv)唯一分子标识符(UMI)倍增子;和(v)锚区,其包含与非连接链寡核苷酸至少部分互补的多核苷酸序列。
在一些实施方案中,连接链寡核苷酸在5’末端处不磷酸化。
在一些实施方案中,连接链寡核苷酸为约30个核苷酸至约70个核苷酸的长。在一些实施方案中,连接链寡核苷酸是约35至约65个核苷酸、约40至约60个核苷酸、或约40至约50个核苷酸长。在一些实施方案中,连接链寡核苷酸是约47个核苷酸长。
在一些实施方案中,连接链寡核苷酸是30个核苷酸至70个核苷酸长。在一些实施方案中,连接链寡核苷酸是35至65个核苷酸、40至60个核苷酸、或40至50个核苷酸长。在一些实施方案中,连接链寡核苷酸是47个核苷酸长。
非-连接链
术语“非连接链寡核苷酸”和“非-连接链”可互换使用。
非连接链寡核苷酸能够杂交至连接链寡核苷酸的3’末端处并与其形成双链体的区。非连接链与至少一部分的连接链互补,以便形成双链体。这种双链体结构可以促进dsDNA的5’末端连接至连接链。
在一些实施方案中,非连接链未经磷酸化。缺乏非连接链的磷酸化可以阻止非连接链附接至DNA片段的3’末端,并可能减少衔接子二聚体的形成。
在一些实施方案中,非连接链可任选地包含在其3’末端处的防止连接至dsDNA片段的5’末端和/或衔接子二聚体形成的修饰。在一些实施方案中,修饰是化学修饰。
3’末端悬突
术语“3’末端悬突”是指多核苷酸的3’末端处的一个或多个核苷酸悬突或尾。
在一些实施方案中,连接链寡核苷酸包含3’末端处的dT悬突。
在一些实施方案中,3’末端悬突(如dT尾)有助于连接连接链以连接至的DNA片段的5’末端,以便驱动多功能衔接子有效连接至具有互补悬突的DNA片段(如dA-悬突/尾)。
扩增区
术语“扩增区”是指包括能够用作引物识别位点的多核苷酸序列的衔接子分子的元件。引物识别位点可用于适用于本领域已知的任何扩增的任何引物,诸如Fakruddin等人“Nucleic acid amplification:Alternative methods of polymerase chain reaction”J Pharm Bioallied Sci.2013年10月-12月;5(4):245–252公开的方法。例如,此类扩增方法可包括PCR(聚合酶链反应)、LAMP(环介导的等温扩增)、NASBA(核酸序列-基扩增)、SDA(链置换扩增)、RCA(滚环扩增)、LCR(连接酶链反应)。
在一些实施方案中,衔接子包含含一种或多种引物识别序列的扩增区用于DNA文库的单引物扩增。在一些实施方案中,扩增区包含1、2、3、4、5、6、7、8、9、10或更多条引物识别序列,用于DNA文库的单引物扩增。在一些实施方案中,扩增区包含针对ACA2引物(SEQ IDNO:70)的PCR引物结合位点。
在一些实施方案中,扩增区是约5至约50个核苷酸、约10至约45个核苷酸、约15至约40个核苷酸、或约20至约30个核苷酸长。在一些实施方案中,扩增区是约10个核苷酸、约11个核苷酸、约12个核苷酸、约13个核苷酸、约14个核苷酸、约15个核苷酸、约16个核苷酸、约17个核苷酸、约18个核苷酸、约19个核苷酸、约20个核苷酸、约21个核苷酸、约22个核苷酸、约23个核苷酸、约24个核苷酸、约25个核苷酸、约26个核苷酸、约27个核苷酸、约28个核苷酸、约29个核苷酸、约30个核苷酸、约31个核苷酸、约32个核苷酸、约33个核苷酸、约34个核苷酸、约35个核苷酸、约36个核苷酸、约37个核苷酸、约38个核苷酸、约39个核苷酸、或约40个核苷酸或更大的长度。在一些实施方案中,扩增区是约25个核苷酸长。
在一些实施方案中,扩增区是5至50个核苷酸、10至45个核苷酸、15至40个核苷酸、或20至30个核苷酸。在一些实施方案中,扩增区是10个核苷酸、11个核苷酸、12个核苷酸、13个核苷酸、14个核苷酸、15个核苷酸、16个核苷酸、17个核苷酸、18个核苷酸、19个核苷酸、20个核苷酸、21个核苷酸、22个核苷酸、23个核苷酸、24个核苷酸、25个核苷酸、26个核苷酸、27个核苷酸、28个核苷酸、29个核苷酸、30个核苷酸、31个核苷酸、32个核苷酸、33个核苷酸、34个核苷酸、35个核苷酸、36个核苷酸、37个核苷酸、38个核苷酸、39个核苷酸、或40个核苷酸或更大的长。在一些实施方案中,扩增区是25个核苷酸长。
多功能ID区
术语“多功能ID区”和“ID区”可互换使用并且是指包含唯一鉴定特定DNA片段的多核苷酸序列的衔接子元件,以及其来源的样品。
在一些实施方案中,多功能ID区是约3至约50个核苷酸、约3至约25个核苷酸、或约5至约15个核苷酸长。在一些实施方案中,多功能ID区是约3个核苷酸、4个核苷酸、约5个核苷酸、约6个核苷酸、约7个核苷酸、约8个核苷酸、约9个核苷酸、约10个核苷酸、约11个核苷酸、约12个核苷酸、约13个核苷酸、约14个核苷酸、约15个核苷酸、约16个核苷酸、约17个核苷酸、约18个核苷酸、约19个核苷酸、或约20个核苷酸或更大的长度。在一些实施方案中,多功能ID区是约8个核苷酸。
在一些实施方案中,多功能ID区是3至50个核苷酸、3至25个核苷酸、或5至15个核苷酸长。在一些实施方案中,多功能ID区是3个核苷酸、4个核苷酸、5个核苷酸、6个核苷酸、7个核苷酸、8个核苷酸、9个核苷酸、10个核苷酸、11个核苷酸、12个核苷酸、13个核苷酸、14个核苷酸、15个核苷酸、16个核苷酸、17个核苷酸、18个核苷酸、19个核苷酸、或20个核苷酸或更大的长。在一些实施方案中,多功能ID区是8个核苷酸长。
在一些实施方案中,多功能ID区包含约2至约10,000个唯一核苷酸序列、约50至约500个唯一核苷酸序列、或约100至约400个唯一核苷酸序列中的一种。在一些实施方案中,多个多功能衔接子的每个多功能衔接子的多功能ID区包含约60个唯一核苷酸序列之一。
在一些实施方案中,多功能ID区包含2至10,000条唯一核苷酸序列、50至500条唯一核苷酸序列、或100至400条唯一核苷酸序列中的一种。在一些实施方案中,多个多功能衔接子的每个多功能衔接子的多功能ID区包含60条唯一核苷酸序列之一。
在一些实施方案中,多功能衔接子包含64至2,560,000条唯一核苷酸序列之一。
在一些实施方案中,提供了衔接子的预指定池(多个)。此类预指定池用于表示单个样品。即,衔接子寡核苷酸的每个池中的每条衔接子序列都不同于用于识别其他样品的每个其他池中的每条衔接子序列。本领域技术人员将认识到预指定池中可能用于衔接子寡核苷酸的不同寡核苷酸的数量,将取决于多功能ID区和/或UMI倍增子的长度。“多个”可以是指多个相同衔接子模块或不同衔接子模块池。
在一些实施方案中,ID区鉴定单个样品,例如基因组文库源。在一些实施方案中,每个样品被分配约64至约250万个唯一衔接子的多个(预指定池)。在一些实施方案中,每个样品被分配64至250万个唯一衔接子的多个(预指定池)。在一些实施方案中,每个样品被分配约3,840个唯一衔接子的多个(预指定池)。在一些实施方案中,每个样品被分配3,840个唯一衔接子的多个(预指定池)。在一些实施方案中,每个样品被分配约1至约60个唯一衔接子的多个(预指定池)。在一些实施方案中,每个样品被分配1至60个唯一衔接子的多个(预指定池)。在一些实施方案中,每个样品被分配60个唯一衔接子的多个(预指定池),其中将60个唯一衔接子的每个预指定池进一步分成4个集合(每个集合包含15个唯一衔接子),其中一个集合的每个多功能ID区与4条锚序列之一配对。因此,可将样品通过多功能ID区和锚区的组合来鉴定。
在一些实施方案中,每个多功能ID区的核苷酸序列与多个多功能衔接子的任何其他多功能ID区的核苷酸序列离散至少2(意指需要至少两个碱基变化以改变一个ID区为另一个)。
在一些实施方案中,ID区标识其所附接的单个DNA片段,因此ID区还用作片段标签,其可在一个实例中枚举克隆多样性用于拷贝数分析。
在一些实施方案中,多功能ID区是8个核苷酸长,并且包含240个唯一核苷酸序列之一,并且UMI倍增子是3个核苷酸序列长,因此唯一衔接子序列的总数将为240x 43=3840=15,360。因此,在一些实施方案中,每个样品可被分配范围为1~15,360个唯一衔接子的一组衔接子用于DNA片段标识。
在一些实施方案中,多功能ID区是8个核苷酸长并且包含60条唯一核苷酸序列之一,并且UMI倍增子是3个核苷酸长,并且每条核苷酸序列与3840条唯一核苷酸序列中的任何其他序列离散至少2的汉明距离。
因此,多功能ID区有助于样品和DNA片段两者的识别。这与本领域中使用的当前系统形成鲜明对比,所述当前系统使用随机生成的标签来识别序列,并使用单独的条形码或测序器索引来允许样品多路复用。
UMI倍增子
为了进一步增加可能序列标签(UMI)的多样性,UMI倍增子包括在衔接子中。UMI倍增子是一条随机碱基的短序列(如NNN,其中每个N可选自A、C、G和T中任一项),其当与UMI组合时增加衔接子池中衔接子序列的多样性和总数。在一些实施方案中,衔接子包含UMI倍增子,其中UMI倍增子与ID区相邻或包含在ID区内。在一些实施方案中,衔接子包含八个核苷酸长的ID区和三个核苷酸长的UMI倍增子。在一些实施方案中,UMI倍增子是三个核苷酸长并且包含64种可能核苷酸序列之一。在一些实施方案中,UMI倍增子位于与ID区相邻或包含在ID区内。
在一些实施方案中,UMI倍增子的每个核苷酸位置可包含腺嘌呤、鸟嘌呤、胞嘧啶或胸腺嘧啶中的任一种。因此,在一些实施方案中,包含n数目的核苷酸的UMI倍增子可包括4n条可能核苷酸序列之一。在一些实施方案中,UMI倍增子是一个核苷酸长并且包含四条可能序列之一。在一些实施方案中,UMI倍增子是两个核苷酸长并且包含十六条可能序列之一。在一些实施方案中,UMI倍增子是三个核苷酸长并且包含64种可能核苷酸序列之一。在一些实施方案中,UMI倍增子是四个核苷酸长并且包含256种可能序列之一。在一些实施方案中,UMI倍增子是五个核苷酸长并且包含1,024种可能序列之一。在一些实施方案中,UMI倍增子是六个核苷酸长并且包含4,096条可能序列之一。在一些实施方案中,UMI倍增子是七个核苷酸长并且包含16,384条可能序列之一。在一些实施方案中,UMI倍增子是八个核苷酸长并且包含65,536条可能序列之一。在一些实施方案中,UMI倍增子是九个核苷酸长并且包含262,144条可能序列之一。在一些实施方案中,UMI倍增子是十个或更多个核苷酸长并且包含1,048,576或更多条可能序列之一。
在一些实施方案中,UMI倍增子是至少1、至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、或至少10个核苷酸长。在一些实施方案中,UMI倍增子是1至5个核苷酸长。
锚区
术语“锚区”和“锚序列”可互换使用并且是指与非连接链寡核苷酸至少部分互补的多核苷酸序列。在一些实施方案中,锚区还被称为接头。在一些实施方案中,锚区可包含以下特性中的一种或多种:
(1)每条锚序列可以是两个或多个唯一锚类型池的一部分,所述锚类型共同表示延伸内每个位点处的四个可能DNA碱基中的每一个;在一些实施方案中,这一特性即平衡碱基表示可用于校准测序读段中的正确碱基调用。锚序列的总类型数量应与检测模式的总数量相匹配。例如,在测序中检测到四种颜色,因此可以使用四种类型的锚序列。为了达到最大灵敏度,可以利用每种检测模式。本公开的组合物和方法可用于本领域已知的任何检测模式,包括但不限于基于光的检测、基于酶的检测和磁检测。
(2)每条锚序列可由四种可能碱基中的仅两个组成,并且这些经特异性选择为任一和同等数量的A+C或同等数量的G+T;仅由两个碱基形成的锚序列降低了锚序列将参与二级结构形成的可能性,这将妨碍适当的衔接子功能。
(3)由于每条锚序列由等量的A+C或G+T组成,所以每条锚序列可与池中每条其他锚序列具有大致相同的熔融温度和双链体稳定性。
(4)每种类型的锚序列(以A/T/G/C结尾)在测序读段中的分布可能近似相等,例如以近似等摩尔量分布(即池的约25%的衔接子序列以A结尾,约25%以T结尾,约25%以G结尾,和约25%以C结尾)。
在一些实施方案中,将衔接子模块与DNA片段以等摩尔量的含不同锚类型(如,等摩尔量的锚1、锚2、锚3、锚4)的衔接子混合以提供更均匀的衔接子分布。示例性锚序列包括但不限于:锚1ACGTATGCCA(SEQ ID NO:2);锚2CTAGCGTTAC(SEQ ID NO:3);锚3GATCGACATG(SEQ ID NO:4);和锚4TGCATCAGGT(SEQ ID NO:5)。
在一些实施方案中,衔接子序列以3’末端处的T核苷酸(3’T悬突)终结。在一些实施方案中,衔接子具有TT作为3’末端的最后2个核苷酸。在一些实施方案中,衔接子具有AT、CT或GT作为3’末端的最后2个核苷酸。
通常,理想锚类型分布将导致每种锚类型具有相同的分布百分比(即100%除以锚类型的数量),导致包含不同锚的不同衔接子在所有DNA片段中的“均匀”分布。例如,四种锚类型的理想分布将导致每种锚类型的分布约为25%。在一些实施方案中,给定池的锚序列具有约5%至约75%的分布百分比(即,最不常见的锚类型的分布%约为5%,并且最常见的锚类型的分布%约为75%)。在一些实施方案中,给定池的每条锚序列具有约50%、约34%、约28%、约27%、约23%、约14%或约9%的分布%。在一些实施方案中,与比较器过程(即,未经设计以自动化的过程,参见表4)相比,如本文所述的可自动化过程的每条锚序列的分布百分比与理想分布百分比更近至少5%、至少10%、至少25%、或至少20%。
在一些实施方案中,多个衔接子包含3’dT悬突并且可包括更高量的衔接子,所述衔接子具有含TT作为3’末端最后2个核苷酸的锚。此类衔接子可为汇集物中的1X、2X、4X、5X、6X、7X、8X、9X或大于10X量的其他锚类型,导致测序读段中衔接子的更均匀分布。
在一些实施方案中,多个衔接子可包含多于一种锚序列。例如,多个衔接子可含有4种不同的锚序列同时使用。还可以在样品解复用期间使用这些锚序列至更低误差。此外,序列在读段内的位置是固定的,并且因此ID区和锚应在测序读段内具有固定位置,以便通过包含过滤器以供下游考虑。
在一些实施方案中,锚区是1至50个核苷酸长。在一些实施方案中,锚区是4至40个核苷酸长。在一些实施方案中,锚区是5至25个核苷酸长。在一些实施方案中,锚区是至少4个核苷酸、至少6个核苷酸、至少8个核苷酸、至少10个核苷酸、至少12个核苷酸、至少14个核苷酸、或至少16个核苷酸长。在一些实施方案中,锚区是10个核苷酸长。
说明性工作流程
下面提供了本公开中的方法的说明性工作流程,并描绘于图2
1.末端-修复
在一些实施方案中,将输入DNA片段转化为“末端修复的DNA片段”,使得末端-修复的DNA片段在单一反应混合物中具有5’磷酸根基团和3’dA核苷酸悬(单个步骤)。可商购获得的试剂盒(如NEB Ultra II /dA加尾模块E7546L)可用于末端修复DNA片段,或可组合如公开的单个酶和缓冲液中的一种或多种用于制备具有5’磷酸根基团和3’dA核苷酸悬突的末端-修复的DNA片段。
在一些实施方案中,末端修复反应体积是小于50μL。
2.衔接子连接
在一些实施方案中,将多功能衔接子池连接至来自一种或多种样品的末端-修复的dsDNA片段(多路复用),导致衔接子附接至dsDNA片段的5’末端。
在一些实施方案中,连接反应体积小于100μL。
在一些实施方案中,将衔接子-标记的DNA片段分离并在小于100μL的反应体积中洗涤。
3.延伸
在一些实施方案中,3’dA-加尾DNA片段从DNA片段的3’末端延伸,使用附接至DNA片段的5’末端的连接链作为模板替换非连接链以制备适用于扩增的连续衔接子-标记的dsDNA片段。“连续衔接子-标记的dsDNA片段”的集合是未扩增的衔接子-标记的DNA文库。图3提供了描绘根据本公开的一些方法生成衔接子-标记的DNA文库的示例性过程的示意图。
在一些实施方案中,延伸反应体积低于100μL。
4.扩增
在一些实施方案中,未扩增的衔接子-标记的DNA文库用识别衔接子的扩增区中的扩增引物结合位点的单个引物进行PCR扩增,导致经扩增的衔接子-标记的DNA文库。在一些实施方案中,单个引物包含SEQ ID NO:70的序列。为了本公开的目的,“经扩增的衔接子-标记DNA文库”、“经扩增的标记DNA文库”和“扩增库产品(LPA)”可互换使用。图5提供了描绘根据本公开中的方法的衔接子-标记DNA文库的制备和扩增的示意图。
在一些实施方案中,扩增反应体积低于100μL。
在一些实施方案中,将经扩增的标记DNA文库进一步分离并在小于100μL的体积中洗涤。
在一些实施方案中,根据表7提供的条件进行扩增。例如,在一些实施方案中,本文所述的方法包括:1)在69℃的退火温度下进行已经分至2个单独管中的文库的扩增;2)在65℃的退火温度下进行已经分至2个单独管中文库的扩增;或3)在65℃的退火温度下进行扩增而不分割文库(在1管中)。
5.一个或多个遗传基因座的捕获和分离
在一些实施方案中,将其尾区(第一区)至少部分复合至生物素化伴侣寡核苷酸的多功能捕获探针与经扩增的标记DNA文库杂交以形成一种或多种捕获探针/衔接子-标记的DNA复合物。
6.分离经扩增的标记DNA分子-捕获探针模块复合物
在一些实施方案中,将捕获探针/衔接子-标记的DNA复合物(即,捕获的片段)使用链霉亲和素-磁珠与未杂交的片段(即,未捕获的片段)分离。
7.捕获探针延伸
在一些实施方案中,将复合物中的珠粒-支撑的捕获探针使用经标记DNA片段作为末端从3’末端延伸,从而产生衔接子-标记的杂交核酸分子(杂交分子),其中每个杂交分子包含捕获探针和衔接子-标记的DNA片段的互补序列,其位于捕获探针杂交至经靶向遗传序列的位置的3’。
在一些实施方案中,变性将杂化分子从磁珠释放到溶液中。图6提供了描绘捕获探针杂交和延伸的示意图。
8.杂交分子的扩增
在一些实施方案中,正向引物(FP)(SEQ ID NO:71)杂交至杂交分子内衔接子标签的扩增区中的引物结合位点,并且使用杂交分子作为模板来延伸5’->3’捕获探针以制备连续双链杂交分子。
在一些实施方案中,使连续双链杂交分子中的FP-延伸链变性并且反向引物(RP)(SEQ ID NO:72)杂交至杂交分子中掺入的捕获探针模块尾区处的变性FP-延伸的分子/链。
在一些实施方案中,RP使用杂交分子作为模板来延伸5’->3’以制备连续双链杂交分子,所述连续双链杂交分子制备用于测序或通过本领域的任何其他已知方法进行测序。图7提供了描绘经靶向(捕获)文库的扩增的示意图。
在一些实施方案中,测序引物彼此不同。在一些实施方案中,杂交分子的每个末端优先包括由测序引物、诸如P5和P7测序引物或其他测序引物识别的测序引物结合位点。经扩增测序就绪杂交分子的集合被称为“经靶向遗传文库”、“靶向文库”或“探针捕获文库(PCL)”。
在一些实施方案中,扩增反应体积低于100μL。
在一些实施方案中,将经扩增的杂交分子分离和洗涤。
9.测序
在一些实施方案中,使用550测序仪进行经扩增的杂交分子的下一代测序(NGS)。
在一些实施方案中,NGS可以对未扩增的衔接子-标记的DNA文库、经扩增的标记DNA文库、杂交分子文库(未扩增的靶向文库)和/或经扩增的靶向文库进行。
在一些实施方案中,测序读段1(151nt长)和测序读段2(17nt长)使用定制的正向和反向测序引物进行。
按照制造商说明,使用定制引物、正向Seq引物和反向Seq引物62对IlluminaNextSeq550进行测序。
正向测序引物:
CAAGCAGAAGACGGCATACGAGATGTGACTGGCACGGGACCA GAGAATTCGAATACA(SEQ ID NO:73)
反向测序引物62:
GTGACTGGCACGGGACCAGAGAATTCGAATACA(SEQ ID NO:74)
10.遗传分析
在一些实施方案中,杂交分子或根据本公开的方法生成的分子中任一种(可经受使用扩增引物或测序引物的测序)经受遗传分析。
在一些实施方案中,序列读段1和2用于遗传分析。
在一些实施方案中,进行生物信息学分析,以确定遗传变异,诸如拷贝数、SNV、插入缺失、基因和染色体重排。
详细方法
1.衔接子-标记的DNA文库制备
在一些实施方案中,本公开所设想的方法包括生成衔接子-标记的DNA文库,包括用一种或多种末端修复酶处理dsDNA片段以生成末端修复的DNA,并附接一个或多个衔接子至末端修复DNA的每个末端以生成衔接子-标记的DNA文库。
DNA样品制备
如在本公开中所用,术语“DNA”是指脱氧核糖核酸。在一些实施方案中,术语DNA是指基因组DNA、重组DNA、合成DNA或cDNA。在一些实施方案中,DNA是指基因组DNA或cDNA。在一些实施方案中,DNA包含“靶区”。本文考虑的DNA文库包括从RNA构建的基因组DNA文库和cDNA文库,如RNA表达文库。在一些实施方案中,DNA文库包含一种或多种附加的DNA序列和/或标签。
如本公开中所用,术语“循环DNA”、“循环细胞-游离DNA”和“细胞-游离DNA”通常可互换使用,并且是指DNA,其是胞外DNA、从细胞中挤出的DNA或从坏死或细胞凋亡细胞中释放的DNA。该术语通常与“细胞基因组DNA”或“细胞DNA”相反使用,其在本文可互换使用并且是指包含在细胞(即核酸酶)内的基因组DNA,并且只能通过诸如本文所述的分子生物学技术的分子生物学技术来裂解或以其他方式破坏细胞的完整性来获得。
本公开提供的组合物和方法特别适用于制备通常以少量获得的珍贵生物样品,诸如癌组织活检样品或通常为液体的“液体活检”样品(如尿液、CSF、全血、血浆、唾液)。
在一些实施方案中,用于制备文库的DNA的量可以是任何适合的量。在一些实施方案中,量是约1pg至约500ng、约1ng至约400ng、约5ng至约300ng、约10ng至约250ng、或约20ng至约200ng。在一些实施方案中,DNA量是约5ng至约50ng。
在一些实施方案中,用于制备文库的DNA的量可以是任何适合的量。在一些实施方案中,量为1pg至500ng、1ng至400ng、5ng至300ng、10ng至250ng、或20ng至200ng。在一些实施方案中,DNA量为5ng至50ng。
在一些实施方案中,本公开考虑的方法和组合物使用选自以下的dsDNA:细胞游离DNA(cfDNA)、基因组DNA(gDNA)、互补DNA(cDNA)、线粒体DNA、甲基化DNA或去甲基化DNA。
在一些实施方案中,本文考虑的遗传分析的方法包括生成DNA文库,其包括用一种或多种末端修复酶处理cfDNA或片段化细胞基因组DNA以生成末端-修复的DNA,和附接一种或多种衔接子至末端修复的DNA的每个末端以生成DNA文库。
在一些实施方案中,本文考虑的方法和组合物经设计以使用基因组DNA作为分析物,高效分析、检测、诊断和/或监测拷贝数变化。在一些实施方案中,拷贝数分析通过从获自测试样品(如,生物样品,诸如组织活检)的基因组DNA生成基因组DNA文库进行。在一些实施方案中,基因组DNA是循环或细胞游离DNA。在一些实施方案中,基因组DNA是细胞基因组DNA。
在一些实施方案中,基因组DNA获自组织样品或取自组织的活检,包括但不限于骨髓、食道、胃、十二指肠、直肠、结肠、回肠、胰腺、肺、肝、前列腺、脑、神经、脑膜组织、肾组织、子宫内膜组织、颈部组织、乳房、淋巴结、肌肉和皮肤。在一些实施方案中,组织样品是肿瘤或疑似肿瘤的活检。在一些实施方案中,肿瘤是癌性的或疑似癌性。在一些实施方案中,组织样品包括癌细胞或疑似癌性的细胞。
用于从细胞或从由细胞组成的生物组织中纯化基因组DNA的方法在本领域是众所周知的,并且熟练的技术人员将根据所述组织和其中获得所述组织的条件识别出最佳的程序或商业试剂盒。一些实施方案考虑了从组织中纯化细胞DNA将需要细胞破坏或细胞裂解以内部的暴露细胞DNA,例如通过化学和物理方法诸如掺混、研磨或超声处理组织样品;通过添加去污剂或表面活性剂(还用于细胞裂解中)来去除膜脂质,任选地去除蛋白质,例如通过添加蛋白酶;去除RNA,例如通过添加RNA酶;和DNA纯化,例如从细胞裂解步骤期间所用的去污剂、蛋白质、盐和试剂。DNA纯化可通过沉淀,例如用乙醇或异丙醇;通过苯酚-氯仿萃取来进行。
在一些实施方案中,将获自组织和/或细胞的细胞DNA在获得、生成、制备、形成和/或产生如本公开所述的基因组DNA文库之前和期间进行片段化。本领域技术人员将理解存在数种适用于DNA片段化的技术,并且能够识别并鉴定适用于片段化细胞DNA的技术,以达到生成基因组DNA文库以用于DNA测序的目的,包括但不限于下一代测序。一些实施方案考虑了可通过包括但不限于以下的方法将细胞DNA片段化为适当和/或足够长度的片段以生成文库:物理片段化、酶促片段化和化学剪切。
物理片段化可包括但不限于声剪切、超声处理和水动力剪切。在一些实施方案中,通过物理片段化对细胞DNA进行片段化。在一些实施方案中,细胞DNA通过声剪切或超声处理而片段化。一些实施方案考虑了声剪切和超声处理是用于剪切细胞DNA的常用物理方法。仪器(Woburn,MA)是一种用于将DNA断裂为100-5kb bp的声学设备。/>还制造将以6-20kb处理样品以用于Mate-Pair文库的管(gTubes)。/>(Denville,NJ)是一种用于剪切染色质、DNA和破坏组织的超声处理设备。可将小体积的DNA剪切至150-1kb长。来自/>(Marlborough,MA)的/>利用流体动力来剪切DNA。雾化器(Life/>Grand Island,NY)还可用于使用压缩空气雾化液体,从而在几秒钟内将DNA剪切成100-3kb片段。雾化成本低,但该过程可导致原始样品中约30%的细胞DNA丢失。在一些实施方案中,通过超声处理对细胞DNA进行片段化。
酶促片段化可以包括但不限于,用限制性核酸内切酶如DNA酶I处理,或用非特异性核酸酶处理。在一些实施方案中,通过酶促片段化对细胞DNA进行片段化。在一些实施方案中,细胞DNA通过用限制性核酸内切酶处理进行片段化。在一些实施方案中,细胞DNA通过用非特异性核酸酶处理而片段化。在一些实施方案中,细胞DNA通过用转座酶处理而片段化。一些实施方案考虑了剪切细胞DNA为小片的酶促方法包括DNA酶I、麦芽糖结合蛋白(MBP)-T7 Endo I和非特异性核酸酶创伤弧菌(Vvn)核酸酶的组合、New England(Ipswich,MA)/>和NexteraTM标签片段化技术(/>San Diego,CA)。非特异性核酸酶和T7 Endo的组合协同作用以产生非特异性缺口和反缺口,从而生成与缺口位点分离出8个或更少核苷酸的片段。标签片段化使用转座酶同时将衔接子片段化并插入到双链DNA上。
细胞片段化可包括用热和二价金属阳离子进行处理。在一些实施方案中,通过化学片段化对基因组DNA进行片段化。一些实施方案考虑了与基因组DNA相反,化学剪切更通常用于长RNA片段的断裂。化学片段化通常是通过二价金属阳离子(镁或锌)对DNA的热消化来进行的。DNA片段的长度可通过增加或减少孵育时间来调整。
在一些实施方案中,基因组DNA可通过使用适用于生成200bp片段的超声发生器进行超声处理以片段化。
在一些实施方案中,可使用含顺磁性AMPure珠/>的“双面”珠粒纯化,对所生成的片段进行进一步纯化和尺寸选择。
在一些实施方案中,剪切细胞系DNA的混合物可以为适用于研究目的的不同比率,并且它们可与来自雌性和/或雄性受试者的WT cfDNA掺混(以解释X和/或Y染色体上的基因)以产生含单核苷酸变体(SNV)的实验室生成的样品,诸如单基因多态性(SNP)、插入和/或缺失(插入缺失)、基因重排诸如易位、融合、倒置、重复(拷贝数变化)和定义等位基因频率(AF)的其他变体(AF)。
在一些实施方案中,本公开考虑的方法和组合物使用从低通全基因组文库、扩增子文库、全外显子组文库、cDNA文库或甲基化DNA文库获得的dsDNA。
在一些实施方案中,本公开的方法和组合物使用表1中所述的DNA样品中的任一种作为分析物。例如,在一些实施方案中,本公开中考虑的方法和组合物使用细胞-游离DNA(cfDNA)作为分析物。在一些实施方案中,待用作分析物的DNA样品包括合成DNA、基因组DNA或其混合物。在一些实施方案中,待用作分析物的DNA样品包括HRD(同源修复缺陷)基因变体,诸如以下基因中的任一种中的变体:ATM、BRCA1、BRCA2、FANCA、HDAC2、PALB2、ERBB2、TP53、EML4-Alk、EGFR。在一些实施方案中,待用作分析物的DNA样品包括肺癌基因变体。在一些实施方案中,待用作分析物的DNA样品包括来自细胞系诸如NA12878、PC-3或H2228的DNA。
在一些实施方案中,约10至约250ng的样品DNA用于分析。例如,在一些实施方案中,使用约1至约100ng、约1至约50、或约1至约25ng的DNA。在一些实施方案中,使用约20、约25或约50ng的DNA。
在一些实施方案中,待用作分析物的cfDNA的尺寸分布范围为约150bp至约180bp片段。在一些实施方案中,cfDNA的尺寸分布范围为150bp至180bp片段。cfDNA的片段化可以是内切核苷酸和/或外切核苷酸活性的结果,并且对cfDNA的精确、可靠和稳健分析提出了巨大的挑战。用于分析cfDNA的另一个挑战是它在血流中的半衰期很短,大约15分钟。不希望被任何特定的理论束缚,本公开部分考虑了cfDNA的分析可能是“液体活检”并且是当前生物过程的实时快照。
此外,由于cfDNA不在细胞内发现并且可从多种适合的来源(包括但不限于生物流体和粪便样品)获得,因此其不经受困扰下一代测序分析的现有限制,诸如直接进入被分析的组织。
在一些实施方案中,本文考虑的遗传分析方法包括生成cfDNA文库,其包括用一种或多种末端修复酶处理cfDNA以生成末端修复的cfDNA,并将一个或多个衔接子连接至末端修复的cfDNA的每一端以生成cfDNA文库。
作为在一些实施方案中从其中分离cfDNA的合适来源的生物流体的说明性实例包括但不限于羊水、血液、血浆、血清、精液、淋巴液、脑脊液、眼部液体、尿液、唾液、粘液和汗液。
在一些实施方案中,生物流体是血液或血液血浆。
在一些实施方案中,可商购获得的试剂盒和技术人员已知的其他方法可用于直接从受试者的生物流体或从之前获得且任选稳定化的生物样品分离cfDNA,如通过冷冻和/或添加酶螯合剂,包括但不限于EDTA、EGTA或特别用于二价阳离子的其他螯合剂。
在一些实施方案中,分离自携带基因变体的永生化细胞的细胞游离DNA或基因组DNA(如cfDNA或gDNA)(Coriell Institute for Medical Research或SeraCare LifeSciences,Inc.)可用于NGS文库构建。
在一些实施方案中,细胞-游离DNA可从血浆样品使用QIAmp DSP循环NA试剂盒(Qiagen)提取。
单步DNA末端-修复
虽然本公开的DNA片段可以以处理形式获得,但本公开的方法允许对生物样品进行处理以获得可用于连接至本公开的衔接子的DNA片段。例如,本公开的DNA片段的可处理形式包括但不限于包含以下各项中的一种或多种的DNA片段:钝端、钝化3’末端、钝化5’末端、脱氧核糖核酸腺嘌呤(dA)-尾、3’末端处的dA-尾、5’末端处的dA-尾、磷酸化核酸、3’末端处的磷酸化核酸和5’末端处磷酸化核酸。
在一些实施方案中,可以进行“末端修复”以生成去磷酸化、内部损伤修复、平末端、5’磷酸化的DNA片段,或生成含3’悬突的DNA片段。
在包括处理DNA片段的本公开的方法的一些实施方案中,一种或多种DNA修复反应至平末端、加尾反应和磷酸化反应可在单个步骤中进行。
在一些实施方案中,生成基因组DNA文库包括经分离的cfDNA或片段化细胞DNA的末端修复。片段化cfDNA或细胞DNA通过末端修复酶来处理以生成具有平末端、5′-悬突或3′-悬突的末端-修复的cfDNA。在一些实施方案中,末端-修复酶可产生例如。在一些实施方案中,末端-修复的cfDNA或细胞DNA含有平末端。在一些实施方案中,将末端-修复的细胞DNA或cfDNA处理以含有平末端。在一些实施方案中,将末端-修复的cfDNA或细胞DNA的平末端进一步修饰以含有单个碱基对悬突。在一些实施方案中,含有平末端的末端-修复的cfDNA或细胞DNA可经进一步处理以含有腺嘌呤(A)/胸腺嘧啶(T)悬突。在一些实施方案中,含有平末端的末端-修复的cfDNA或细胞DNA可经进一步处理以含有腺嘌呤(A)/胸腺嘧啶(T)悬突作为单个碱基对悬突。在一些实施方案中,末端-修复的cfDNA或细胞DNA具有非模板化3′悬突。在一些实施方案中,处理末端-修复的cfDNA或细胞DNA以含有3′悬突。在一些实施方案中,用末端转移酶(TdT)处理末端-修复的cfDNA或细胞DNA以含有3′悬突。在一些实施方案中,G-尾可通过TdT添加。在一些实施方案中,使用用任何已知的限制酶(如用酶Sau3A等)进行的部分消化,对末端-修复的cfDNA或细胞DNA进行处理以含有悬突末端。
在一些实施方案中,DNA片段的去磷酸化可通过诸如碱性磷酸酶的不耐热磷酸酶进行。商业实例包括APexTM热不稳定碱性磷酸酶、NTPhosTM不耐热磷酸酶、KTTM不耐热磷酸酶和虾碱性磷酸酶(SAP)。
在一些实施方案中,内部DNA损伤可由可修复DNA片段中的内部损伤的一种或多种修复酶修复。实例包括Taq DNA连接酶、核酸内切酶IV、Bst DNA聚合酶Fpg、尿嘧啶-DNA乙二醇酯酶(UDG)、T4 PDG和核酸内切酶VIII。在一些实施方案中,可以使用所有上述酶。可使用可商购获得的前述酶混合物(如PreCR Enzyme试剂盒),或可通过以任何组合添加一种或多种各个酶来制备混合物。在一些实施方案中,不可进行DNA内部损伤修复。
在一些实施方案中,用于dA-加尾的内部DNA损伤修复、末端-修复和末端转移酶(TdT)可在单个步骤和单一反应混合物中进行。在一些实施方案中,可商购获得的试剂盒诸如来自NEB的PreCR酶试剂盒或Quick平试剂盒可用于单步反应。
在一些实施方案中,DNA末端修复可通过使用一种或多种末端修复酶进行以产生平末端DNA片段。酶可包括3’-5’核酸外切酶、5’-3’DNA聚合酶(如Klenow片段)和5’FLAP核酸内切酶。
在一些实施方案中,用于dA-加尾的DNA末端-修复、5’磷酸化和末端转移酶(TdT)可在单个步骤和单个反应混合物中进行,以生成用3’-悬突末端进行5’磷酸化,如5’磷酸化并且3’dA-加尾的dsDNA片段。在一些实施方案中,可商购获得的试剂盒诸如来自NEB的NextUltra II末端修复/dA-加尾试剂盒可用于单步反应。
在一些实施方案中,本公开考虑了适当量的片段化DNA样品可以是“单步末端修复的”,通过将用于以下反应的酶和试剂组合为单一混合物:去磷酸化、内部DNA损伤修复、平末端产生、5’末端磷酸化和3’悬突产生。这一单步骤单反应过程产生末端修复的双链DNA片段,其具有5'磷酸化末端和3’悬突。在一些实施方案中,3’悬突包含dA尾。
在一些实施方案中,可经末端修复的DNA的量可以是任何适合的量。在一些实施方案中,待末端修复的DNA的量为1ng至500ng、5ng至400ng、10ng至300ng、15ng至250ng、或20ng至200ng。在一些实施方案中,待末端修复的DNA的量是20ng至50ng。
衔接子连接至末端修复的DNA
在一些实施方案中,连接步骤包括连接衔接子模块至末端-修复的cfDNA以生成“经标记的”cfDNA文库。在一些实施方案中,采用单个衔接子模块。在一些实施方案中,采用两个、三个、四个或五个衔接子模块。在一些实施方案中,相同序列的衔接子模块附接至片段化的末端修复DNA的每个末端。在一些实施方案中,非相同序列的衔接子模块连接至每个片段化末端-修复的DNA的两个末端。
本文所考虑的一个或多个衔接子的连接可以通过本领域普通技术人员已知的方法进行。在一些实施方案中,本文考虑的一个或多个衔接子连接至包含平末端的末端修复的cfDNA。在一些实施方案中,将一个或多个衔接子连接至包含适用于所采用的连接方法的互补末端的末端修复的cfDNA。在一些实施方案中,将一个或多个衔接子连接至包含3’悬突的末端-修复的cfDNA。
在一些实施方案中,附接基因组DNA片段至多个衔接子包括附接末端修复的cfDNA或细胞DNA片段至含有至少一部分锚区的寡核苷酸的步骤。在一些实施方案中,寡核苷酸含有全锚区。在一些实施方案中,寡核苷酸是包含与伴侣链成双链的5’磷酸化附接链的DNA双链体,其中伴侣链在其3’末端处被化学修饰而阻止附接,并且其中附接链附接至基因组DNA片段。在一些实施方案中,然后将与锚区的至少一部分附接的DNA片段与编码全长衔接子序列的DNA寡核苷酸进行退火。在一些实施方案中,添加一种或多种多核苷酸激酶、一种或多种DNA连接酶、和/或一种或多种DNA聚合酶至基因组DNA片段,及编码全长衔接子序列的DNA寡核苷酸。在一些实施方案中,多核苷酸激酶是T4多核苷酸激酶。在一些实施方案中,DNA连接酶是Taq DNA连接酶。在一些实施方案中,DNA聚合酶是Taq聚合酶。在一些实施方案中,DNA聚合酶是全长Bst聚合酶。
在一些实施方案中,衔接子和DNA片段可与连接缓冲液、试剂和连接酶混合,诸如DNA连接酶(如T4连接酶或Taq连接酶)和/或RNA连接酶。此类连接酶可用于连接如上所述的含3’悬突的单链连接链至单链DNA片段。
在一些实施方案中,多功能衔接子的连接链经由连接链的3’末端悬突与DNA片段的3’悬突的互补在单个步骤中连接至dsDNA片段的5’末端,而非连接链仍然未连接至DNA片段的3’末端。
在一些实施方案中,连接步骤包括连接多功能衔接子与dsDNA片段以生成多功能衔接子/dsDNA片段复合物。在一些实施方案中,采用单个衔接子。在一些实施方案中,采用两个、三个、四个或五个衔接子。在一些实施方案中,相同序列的衔接子模块附接至片段化的末端修复DNA的每个末端。
在一些实施方案中,相同衔接子附接至DNA片段的两个末端。在一些实施方案中,不同的衔接子附接至dsDNA片段的不同末端。
在一些实施方案中,连接步骤包括:
(a)连接多个多功能衔接子与多个dsDNA片段以生成多个多功能衔接子/dsDNA片段复合物,其中多功能衔接子是本公开中的多功能衔接子的任一种;
(b)使来自步骤(a)的衔接子/DNA片段复合物与一种或多种酶接触以形成包含多个连续双链衔接子-标记的DNA片段的衔接子-标记的DNA文库。
在一些实施方案中,将步骤(b)中的衔接子/DNA片段复合物通过DNA聚合酶延伸使用连接链作为模板制成连续双链衔接子-标记的DNA片段。
在一些实施方案中,非附接的非连接链使用连接链作为模板,通过DNA片段的5’-3’聚合酶延伸置换。在一些实施方案中,非连接链可任选地包含在其3’末端处的防止连接至dsDNA片段的5’末端和/或衔接子二聚体形成的修饰。
在一些实施方案中,使用连接链作为模板,非连接链通过DNA聚合酶切口-修复(切口平移)连接至DNA片段的3’末端。
在一些实施方案中,dsDNA片段是细胞游离DNA(cfDNA)、基因组DNA(gDNA)、互补DNA(cDNA)、线粒体DNA或甲基化DNA,或去甲基化DNA。
在一些实施方案中,多个dsDNA片段在与多个多功能衔接子连接之前进行末端修复。
在一些实施方案中,多个dsDNA片段获自选自以下的文库:低通全基因组文库、扩增子文库、全外显子组文库、cDNA文库或甲基化DNA文库。
在一些实施方案中,衔接子连接时间段可以是适合连接的任何时间段。在一些实施方案中,时间段是至少约5分钟。在一些实施方案中,时间段是约5分钟至约72小时。在一些实施方案中,时间段是约5分钟至约2小时。在一些实施方案中,连接时间段是小于约1小时、小于约30分钟、小于约15分钟、或小于约10分钟。
在一些实施方案中,衔接子连接时间段可以是适合连接的任何时间段。在一些实施方案中,时间段是至少5分钟。在一些实施方案中,时间段是5分钟至72小时。在一些实施方案中,时间段是5分钟至2小时。在一些实施方案中,连接时间段小于1小时、小于30分钟、小于15分钟、或小于10分钟。
在一些实施方案中,衔接子连接体积是适用于形成和样品处理机器人的衔接子连接体积。在一些实施方案中,反应体积是约1μL至约1000μL、约1μL至约350μL、约1μL至约200μL、约1μL至约100μL、约1μL至约50μL、约5μL至约25μL、约10μL至约40μL、约20μL至约40μL。在一些实施方案中,反应体积是约100μL。在一些实施方案中,体积是约30μL。
在一些实施方案中,衔接子连接体积是适用于形成和样品处理机器人的衔接子连接体积。在一些实施方案中,反应体积是1μL至1000μL、1μL至350μL、1μL至200μL、1μL至100μL、1μL至50μL,5μL至25μL、10μL至40μL、20μL至40μL。在一些实施方案中,反应体积是100μL。在一些实施方案中,体积是30μL。
在一些实施方案中,衔接子连接可以在条状管或微量滴定板孔中或任何其他适合于允许自动化和/或高通量处理的格式中完成。
在一些实施方案中,衔接子量可以是任何适合的浓度。在一些实施方案中,衔接子的浓度是至少0.01μM。在一些实施方案中,衔接子的浓度是约0.01μM至约200μM、约0.01μM至约50μM、约0.1μM至约50μM、约0.2μM至约20μM、约0.2μM至约10μM、约1μM至约10μM、或约2μM至约8μM。在一些实施方案中,衔接子浓度是至少约2μM。在一些实施方案中,衔接子浓度是约5μM。
在一些实施方案中,衔接子浓度是0.01μM至200μM、0.01μM至50μM、0.1μM至50μM、0.2μM至20μM、0.2μM至10μM、1μM至10μM、或2μM至8μM。在一些实施方案中,衔接子浓度是至少2μM。在一些实施方案中,衔接子浓度是5μM。
在一些实施方案中,可使连接反应混合物在约10℃至约30℃的温度下孵育。在一些实施方案中,可使连接反应混合物在约20℃下孵育。
在一些实施方案中,可使连接反应混合物在10℃至30℃的温度下孵育。在一些实施方案中,可使连接反应混合物在约20℃下孵育。
在一些实施方案中,在连接之后,可分离并洗涤衔接子-标记的DNA分子。这可以使用DNA纯化珠,诸如Ampure 或Spectra混合物进行,使得衔接子-DNA分子仍然附接至珠粒,并且污染物质被冲走。经洗脱的澄清上清液含有包含多个衔接子-标记的DNA片段的经分离文库。可将含有文库的上清液转移到新鲜PCR管或微量滴定板孔中进行扩增。
DNA文库扩增
在一些实施方案中,首先进行dsDNA片段的5’-3’延伸以生成连续的衔接子-标记的dsDNA片段,然后扩增连续的衔接子-标记dsDNA片段以生成包含多个连续的衔接子-标记dsDNA片段的衔接子-标记的DNA文库。
在一些实施方案中,将形成连续衔接子-标记dsDNA片段的dsDNA片段的5’-3’延伸的第一步和扩增连续衔接子-标记的dsDNA片段的第二步合并,以便在单步中生成衔接子-标记的DNA文库。DNA文库中的衔接子-标记的dsDNA片段在包含相同扩增区的两端侧接有衔接子,其中扩增区中的序列可用作可由单个扩增引物、诸如PCR扩增引物识别的扩增引物结合位点。
在一些实施方案中,未附接的非连接链使用连接链作为模板,通过DNA片段的5’-3’聚合酶延伸置换。在一些实施方案中,非连接链可任选地包含在其3’末端处的防止连接至dsDNA片段的5’末端和/或衔接子二聚体形成的修饰。
在一些实施方案中,使用连接链作为模板,非连接链通过DNA聚合酶切口-修复连接至DNA片段的3’末端。
在一些实施方案中,使用DNA聚合酶。DNA聚合酶可以是嗜热的,用于PCR或恒温/等温扩增。在一些实施方案中,将含有试剂的主混合物(MM)和用于5’-3’延伸的酶及用于随后扩增的酶组合。可商购获得的用于此类延伸和扩增的酶和试剂试剂盒包括例如NEB UltraII 2X PCR试剂盒(New England/>)、Hi-Fidelity/>酶PCR(NEB)、KAPAKAPA 2X/>TruSeq/>
在一些实施方案中,将使用标准PCR技术与单引物序列驱动扩增,来扩增一部分的衔接子-标记的DNA文库。在一些实施方案中,单引物序列是约25个核苷酸,任选地在标准离子强度条件下,推断Tm≥55℃。在一些实施方案中,单引物序列是25个核苷酸,任选地在标准离子强度条件下,推断Tm≥55℃。在一些实施方案中,单个扩增引物与衔接子模块的扩展区内的序列互补。在一些实施方案中,单个扩增引物包含TGCAGGACCAGAGAATTCGAATACA(SEQID NO:70)的序列。
在一些实施方案中,扩增可通过本领域已知的任何扩增进行,诸如PCR(聚合酶链反应)、LAMP(环介导的等温扩增)、NASBA(核酸序列-基扩增)、SDA(链置换扩增)、RCA(滚环扩增)、LCR(连接酶链反应)。
在一些实施方案中,在扩增期间,由于衔接子连接至片段的两个末端,一些扩增子将形成茎-环结构。该策略有效地防止了非常短的产物(如引物二聚体)被扩增和使产生的文库偏向。
在一些实施方案中,进行初始3分钟孵育循环以由连接链模板延伸来形成多个连续衔接子-标记的dsDNA片段。
在一些实施方案中,对多个连续衔接子-标记的dsDNA片段进行PCR扩增以形成经扩增的标记DNA文库。
在一些实施方案中,将数皮克的多个连续的衔接子-标记的dsDNA片段扩增为数微克的DNA克隆(衔接子-标记的DNA文库),这意味着10,000倍扩增。经扩增的产物的量可使用本领域已知的方法测量,如在Qubit 2.0或Nanodrop仪器上进行量化。
在一些实施方案中,经扩增的衔接子-标记的DNA文库可通过使用DNA纯化珠来分离,并用洗涤缓冲液,如Tris-EDTA缓冲液(TEZ)pH 8.0进行洗涤。可将澄清的上清液转移到新PCR管或微量滴定板孔或任何其他适用于自动化和/或高通量的格式。
通常,优选使用尽可能少的PCR循环来扩增文库。除了减少工作流程时间,这也限制了在PCR过程中引入偏向的风险。在本公开的方法中末端修复、dA-加尾和衔接子连接的提高效率的结果是需要更少的PCR循环以实现测序或其他下游工作流程所必需的文库产率。所公开的工作流程和过程的简化提供了诸如以下的优势:缩短的周转时间、减少的试剂数量、使用的仪器/机器更少,以及减少的费用。
这些以上过程、衔接子和经标记的DNA文库可用于制备针对存在于任何测试样品中的目标遗传基因座富集的捕获探针文库。
2.目标捕获和分离
在一些实施方案中,用于对基因组DNA、如基因组细胞或cfDNA进行遗传分析的方法包括对DNA文库克隆的一个或多个靶遗传基因座的定量遗传分析。定量遗传分析包括以下步骤中的一种或多种或所有:捕获包含靶遗传基因座的DNA克隆;扩增经捕获的靶向遗传基因座;经扩增的捕获靶向遗传基因座的测序;并对所得序列读段进行生物信息学分析。如本文所用,术语“DNA文库克隆”是指DNA文库片段,其中衔接子和基因组DNA片段的组合导致唯一DNA序列(如,可与另一个DNA文库克隆的DNA序列区分的DNA序列)。
本公开部分考虑了捕获探针模块,其经设计以保留较大探针的效率和可靠性,但最小化包含较小DNA片段的基因组DNA文库(如cfDNA克隆文库)中的无信息序列生成。
术语“多功能捕获探针”和“捕获探针模块”可互换使用。在一些实施方案中,“捕获探针模块”或“多功能捕获探针”包含捕获探针序列和尾序列,其中捕获探针序列能够杂交至经标记的遗传DNA文库中的靶区。在一些实施方案中,多功能捕获探针包含能够杂交至伴侣寡核苷酸的第一区,其中,任选地,第一区包含含PCR引物结合位点的尾序列;和第二区,其能够杂交至经标记的遗传DNA文库中的特定靶区。第一区也可称为尾区,并且第二区也可称为捕获探针或捕获探针序列。
在一些实施方案中,捕获探针分子包含尾序列。如本文所用,术语“尾序列”是指捕获探针模块的5′末端处的多核苷酸,其在一些实施方案中可用作引物结合位点。在一些实施方案中,捕获探针包含测序引物结合位点。
在一些实施方案中,尾序列是约5至约100个核苷酸、约10至约100个核苷酸、约5至约75个核苷酸、约5至约50个核苷酸、约5至约25个核苷酸、或约5至约20个核苷酸。在一些实施方案中,第三区是约10至约50个核苷酸、约15至约40个核苷酸、约20至约30个核苷酸或约20个核苷酸,或核苷酸的任何居间数。
在一些实施方案中,尾序列是约30个核苷酸、约31个核苷酸、约32个核苷酸、约33个核苷酸、约34个核苷酸、约35个核苷酸、约36个核苷酸、约37个核苷酸、约38个核苷酸、约39个核苷酸、或约40个核苷酸。
在一些实施方案中,尾序列是5至100个核苷酸、10至100个核苷酸、5至75个核苷酸、5至50个核苷酸、5至25个核苷酸、或5至20个核苷酸。在一些实施方案中,第三区是10至50个核苷酸、15至40个核苷酸、20至30个核苷酸、或20个核苷酸,或核苷酸的任何居间数。
在一些实施方案中,尾序列是30个核苷酸、31个核苷酸、32个核苷酸、33个核苷酸、34个核苷酸、35个核苷酸、36个核苷酸、37个核苷酸、38个核苷酸、39个核苷酸、或40个核苷酸。
在一些实施方案中,示例性伴侣寡核苷酸可以是:GTGAAAACCAGGATCAACTCCCGTGCCAGTCACATCTCAGATGAGC T(SEQ ID NO:1),其在3’末端处具有生物素-TEG修饰。
连续衔接子-标记的DNA片段(未扩增)和标记的DNA文库(经扩增)各自可用于多种基于测序的遗传分析,包括制备含针对一个或多个目标遗传基因座富集的杂交分子的文库,并且可为未扩增或经扩增文库(“靶向文库”)。
如上所述制备的未扩增衔接子-标记的DNA片段和/或经扩增的标记DNA文库可杂交至多功能捕获探针模块以生成靶向至特定遗传基因座的文库,即经靶向文库。衔接子-标记的DNA片段可与一个或多个捕获探针杂交。每个捕获探针可靶向衔接子-标记的DNA片段中的相同遗传基因座,或它们可靶向衔接子-标记的DNA片段中不同的遗传基因座。在一些实施方案中,靶向了经扩增的经标记的DNA文库片段中的多个遗传基因座。
在一些实施方案中,捕获探针与从细胞DNA构建的基因组DNA文库一起使用。在一些实施方案中,捕获探针与从cfDNA构建的基因组DNA文库一起使用。由于cfDNA的平均尺寸为约150至约170bp且高度片段化,因此一些实施方案是定向组合物,并且本文所考虑的方法包括使用高密度和相对较短的捕获探针来询问目标DNA靶区。在一些实施方案中,捕获探针能够杂交至跨所有染色体区段以均匀密度分布的DNA靶区。一组此类捕获探针在本文中被称为“染色体稳定性探针”。染色体稳定性探针用于在全基因组尺度上询问拷贝数变化,以提供染色体拷贝数的全基因组测量(如,染色体倍性)。
使用高密度捕获探针需要特别注意的一点是,通常捕获探针是使用特定的“序列规则”设计的。例如,在设计捕获探针时,通常会排除冗余序列或表现出极端碱基组成偏向的区。然而,已经发现捕获探针设计规则缺乏灵活性并不会对探针性能产生实质性影响。相比之下,严格按位置约束选择的捕获探针提供了命中靶序列信息;很少出现脱靶和不可映射的读段捕获;并只有少数例外情况下,产生一致、有用的命中靶读段。此外,在接近的探测间距处的高冗余远远弥补了偶尔表现不佳的捕获探针。
在一些实施方案中,靶区被多个捕获探针靶向,其中任两个或多个捕获探针经设计以结合至彼此10个核苷酸内的靶区、彼此15个核苷酸内的靶区、彼此20个核苷酸内的靶区、彼此25个核苷酸内的靶区、彼此30个核苷酸内的靶区、彼此35个核苷酸内的靶区、彼此40个核苷酸内的靶区、彼此45个核苷酸内的靶区、或彼此50个核苷酸内的靶区,以及任何居间核苷酸长度。
在一些实施方案中,捕获探针是约25个核苷酸、约26个核苷酸、约27个核苷酸、约28个核苷酸、约29个核苷酸、约30个核苷酸、约31个核苷酸、约32个核苷酸、约33个核苷酸、约34个核苷酸、约35个核苷酸、约36个核苷酸、约37个核苷酸、约38个核苷酸、约39个核苷酸、约40个核苷酸、约41个核苷酸、约42个核苷酸、约43个核苷酸、约44个核苷酸、或约45个核苷酸。
在一些实施方案中,捕获探针是25个核苷酸、26个核苷酸、27个核苷酸、28个核苷酸、29个核苷酸、30个核苷酸、31个核苷酸、32个核苷酸、33个核苷酸、34个核苷酸、35个核苷酸、36个核苷酸、37个核苷酸、38个核苷酸、39个核苷酸、40个核苷酸、41个核苷酸、42个核苷酸、43个核苷酸、44个核苷酸或45个核苷酸。
在一些实施方案中,捕获探针是约100个核苷酸、约200个核苷酸、约300个核苷酸、约400个核苷酸或约100个核苷酸。在另一个实施方案中,捕获探针是约100个核苷酸至约500个核苷酸、约200个核苷酸至约500个核苷酸、约300个核苷酸至约500个核苷酸、或约400个核苷酸至约500个核苷酸,或其任何居间范围。
在一些实施方案中,捕获探针是100个核苷酸、200个核苷酸、300个核苷酸、400个核苷酸、或100个核苷酸。在另一个实施方案中,捕获探针是100个核苷酸至500个核苷酸、200个核苷酸至500个核苷酸、300个核苷酸至500个核苷酸、或400个核苷酸至500个核苷酸,或其任何居间范围。
在一个特定的实施方案中,捕获探针是60个核苷酸。在另一个实施方案中,捕获探针基本上小于60个核苷酸,但与靶向相同DNA靶区的60个核苷酸捕获探针杂交相当或更好。在一些实施方案中,捕获探针是40个核苷酸。
在一些实施方案中,捕获探针模块包含结合对的特定成员以使得能够分离和/或纯化杂交至捕获探针的经标记和或经扩增基因组DNA文库(如,细胞或cfDNA文库)的一个或多个捕获片段。在一些实施方案中,捕获探针模块是至生物素或另一种适合半抗原的缀合物,如二硝基苯酚、地高辛。
在一些实施方案中,捕获探针模块杂交至经标记和任选扩增的DNA文库以形成复合物。在一些实施方案中,多功能捕获探针模块基本上杂交至DNA文库中的特定基因组靶区。
杂交或杂交条件可包括其中两条核苷酸序列形成稳定复合体的任何反应条件;例如,经标记的DNA文库和捕获探针模块形成稳定的经标记DNA文库—捕获探针模块复合物。此类反应条件在本领域中是众所周知的,并且本领域技术人员将认识到可以适当地修改此类条件,如用更短长度的捕获探针降低退火温度。当捕获探针复合物的第二区表现出与标记DNA文库的区的100%、99%、98%、97%、96%、95%、94%、93%、92%91%、90%、89%、88%、85%、80%、75%或70%序列同一性、同源性或互补性时,可发生大量杂交。
在一些实施方案中,捕获探针(即杂交至靶序列的区)是约40个核苷酸并且具有约44℃至约47℃的最佳退火温度。
在一些实施方案中,捕获探针(即杂交至靶序列的区)是40个核苷酸并且具有44℃至47℃的最佳退火温度。
在一些实施方案中,本文考虑的方法包括分离经标记的cfDNA文库—捕获探针模块复合物。在一些实施方案中,用于分离DNA复合物的方法是本领域技术人员熟知的(参见,如Ausubel等人,Current Protocols in Molecular Biology,2007-2012),并且本领域技术人员认为适当的任何方法可结合本公开的方法使用的。在一些实施方案中,使用生物素-链霉亲和素分离技术分离复合物。
3.靶向文库的扩增
在一些实施方案中,考虑了从经分离的捕获探针/衔接子-标记的DNA复合物去除单链3′-末端。在一些实施方案中,方法包括对经分离的标记DNA文库-多功能捕获探针模块复合物的3′-5′核酸外切酶酶促处理,以去除单链3′末端。
在一些其他实施方案中,该方法包括利用经分离的标记DNA文库片段作为模板进行多功能捕获探针的5′-3′DNA聚合酶延伸。适用于这种延长过程的酶可以任何嗜热热稳定性的DNA聚合酶。可商购获得的DNA聚合酶的实例包括高保真Q5 DNA聚合酶NEBNext Ultra/>NEBNext Ultra II/>(NEB)和KAPA/>
在一些其他实施方案中,该方法包括通过DNA连接酶对5’FLAP核酸内切酶、DNA聚合和和缺口闭合的协同作用,产生杂交捕获探针-分离的标记DNA靶分子,如经标记的cfDNA靶分子或经标记的细胞DNA靶分子。
多种酶可用于经分离的经标记DNA文库-多功能捕获探针模块复合物的3′-5′核酸外切酶酶促处理。可用于一些实施方案中的展现出3′-5′核酸外切酶酶促活性的适合酶的说明性实例包括但不限于:T4或核酸外切酶I、III、V(还参见Shevelev IV,Hübscher U.,Nat Rev Mol Cell Biol.3(5):364-76(2002))。在一些实施方案中,包含3′-5′核酸外切酶活性的酶是T4聚合酶。在一些实施方案中,可采用展现出3′-5′核酸外切酶酶促活性并且能够引物模板延伸的酶,包括例如T4或核酸外切酶I、III、V.Id。
在一些实施方案中,本文考虑的方法包括对上文讨论和本文其他地方描述的3′-5′核酸外切酶酶促处理复合物进行测序和/或PCR。在一些实施方案中,将捕获探针模块的尾部分拷贝以便生成杂交核酸分子。在一些实施方案中,生成的杂交核酸分子包含能够杂交至捕获探针模块的靶区,和捕获探针模块尾序列的互补序列。
在一些实施方案中,遗传分析包括a)使一种或多种捕获探针模块与多个基因组DNA文库克隆中的一个或多个靶遗传基因座杂交,以形成一种或多种捕获探针模块-DNA文库克隆复合物;b)从a)中分离一种或多种捕获探针模块-DNA文库克隆复合物;c)酶促处理来自步骤b)的一种或多种经分离的捕获探针模块-DNA文库克隆复合物;d)对来自c)的酶促处理的复合物进行PCR,其中拷贝捕获探针模块的尾部分以生成经扩增的杂交核酸分子,其中经扩增的杂交核酸分子包含能够杂交至捕获探针的靶基因组基因座中的靶序列和捕获探针模块尾序列的互补序列;和e)对来自d)的经扩增的杂交核酸序列进行定量遗传分析。
在一些实施方案中,考虑了用于确定特定靶遗传基因座的拷贝数的方法,其包括:a)使一个或多个捕获探针模块与多个DNA文库克隆中的一个或多个靶遗传基因座杂交,以形成一种或多种捕获探针模块-DNA文库克隆复合物;b)从a)中分离一种或多种捕获探针模块-DNA文库克隆复合物;c)酶促处理来自步骤b)的一种或多种经分离的捕获探针模块-DNA文库克隆复合物;d)对来自c)的酶促处理的复合物进行PCR,其中拷贝捕获探针模块的尾部分以生成经扩增的杂交核酸分子,其中经扩增的杂交核酸分子包含能够杂交至捕获探针的靶遗传基因座中的靶序列,和捕获探针模块尾序列的互补序列;e)进行d)中经扩增的杂交核酸分子的PCR扩增;和f)定量e)中的PCR反应,其中定量允许测定特定靶区的拷贝数。
在一些实施方案中,步骤c)的酶促处理包括使用具有3′-5′核酸外切酶活性的酶以去除单链3′末端,对来自b)的一种或多种捕获探针模块-DNA文库克隆复合物进行3′-5′核酸外切酶酶促处理;通过5’FLAP核酸内切酶、DNA聚合及由DNA连接酶进行的缺口闭合的协同作用,产生一种或多种杂交捕获探针模块-cfDNA文库克隆分子;或使用组合物中经分离的DNA克隆作为模板,进行捕获探针的5′-3′DNA聚合酶延伸。
在一些实施方案中,步骤c)的酶促处理包括使用复合物中经分离的DNA克隆作为模板,进行捕获探针的5′-3′DNA聚合酶延伸。
在一些实施方案中,PCR可使用本领域技术人员公知的任何标准PCR反应条件进行。在一些实施方案中,e)中的PCR反应采用两种PCR引物。在一些实施方案中,e)中的PCR反应采用杂交至靶遗传基因座内的重复序列的第一PCR引物。在一个特定的实施方案中,e)中的PCR反应采用杂交至靶遗传基因座/尾连接处的杂交核酸分子的第二PCR引物。在一些实施方案中,e)中的PCR反应采用杂交至靶遗传基因座的第一PCR引物,并且第二PCR引物杂交至靶遗传基因座/尾连接处的经扩增的杂交核酸分子。在一些实施方案中,第二引物杂交至靶遗传基因座/尾连接,使得引物的至少一个或多个核苷酸杂交至靶遗传基因座并且引物的至少一个或多个核苷酸杂交至尾序列。
在一些实施方案中,扩增可以是等温的,诸如通过环介导等温扩增(LAMP)、全基因组扩增(WGA)、链置换扩增(SDA)、解链酶依赖性扩增(HDA)、重组聚合酶扩增(RPA)、基于核酸测序的扩增(NASBA)、切口酶扩增反应(NEAR)和连接酶链反应(LCR)。
在一些实施方案中,用于等温扩增的DNA聚合酶包括用于中等温度反应(25–40℃)的DNA聚合酶诸如Klenow片段、Bsu大片段和phi29,和用于更高温度(50–65℃)反应的BstDNA聚合酶的大片段。适用于LCR的酶包括热稳定性Taq连接酶和热稳定性DNA聚合酶诸如Taq聚合酶。
在一些实施方案中,对从步骤e)获得的扩增杂交核酸分子进行测序,并对序列水平对齐,即相互对齐但不与参考序列对齐。在一些实施方案中,步骤a)至e)用一个或多个捕获探针模块重复一次或多次。捕获探针模块可以是相同的或不同的,并经设计为靶向靶遗传基因座的任一条cfDNA链。在一些实施方案中,当捕获探针是不同的时,它们在经标记的cfDNA克隆文库中的靶遗传基因座内的重叠或相邻靶序列处杂交。在一些实施方案中,使用高密度捕获探针策略,其中多个捕获探针杂交至靶遗传基因座,并且其中多个捕获探针中的每一个杂交至约5、约10、约15、约20、约25、约30、约35、约40、约45、约50、约100、约200bp或更大的任何其他捕获探针(其杂交至经标记DNA克隆文库中的靶遗传基因座)内的靶遗传基因座,包括所有居间距离。在一些实施方案中,使用高密度捕获探针策略,其中多个捕获探针杂交至靶遗传基因座,并且其中多个捕获探针中的每一个杂交至5、10、15、20、25、30、35、40、45、50、100、200bp或更大的任何其他捕获探针(其杂交至经标记DNA克隆文库中的靶遗传基因座)内的靶遗传基因座,包括所有居间距离。
在一些实施方案中,该方法可使用每个靶遗传基因座两个捕获探针模块进行,其中一个杂交至靶区上游的“Watson”链(非编码或模板链)并且一个杂交至靶区下游的“Crick”链(编码或非模板链)。
在一些实施方案中,本文考虑的方法可用任何数量的捕获探针模块、例如2、3、4、5、6、7、8、9或10或更多个捕获探针模块/靶遗传基因座(其以任何组合杂交至沃森或克里克链)再进行多次。在一些实施方案中,获得的序列可彼此比对,以便鉴定出差异数中的任一个。
在一些实施方案中,使用一个或多个捕获探针模块,在单个反应中,询问多个靶遗传基因座,如100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000、10000、50000、100000、500000或更大。
在一些实施方案中,不进行酶促处理步骤(以上公开中的步骤)。在一些实施方案中,直接扩增经分离的捕获探针/经标记的DNA片段复合物,其中DNA聚合酶进行5’->3’延伸以形成杂交分子文库。在一些实施方案中,使用含有测序衔接子(如衔接子结合测序引物,诸如NextSeq NGS技术的P5和P7测序引物)的正向和反向引物进一步扩增含有杂交分子的文库,以生成测序就绪的扩增杂交分子的靶向文库。
通过消除酶促处理步骤,因此使用所公开的方法更快地生成靶向文库。此类更快的方法导致存在于经标记DNA文库和经靶向文库内的DNA片段中的目标遗传基因座的遗传分析的经改善和更快的性能。本领域的技术人员将认识到,可以分析遗传基因座的DNA改变,如SNV、插入缺失、基因重组和拷贝数变化。
4.确定基因组当量的数量
在一些实施方案中,用于DNA的遗传分析的方法包括确定DNA克隆文库中基因组当量的数量。如本文所用,术语“基因组当量”是指每个文库中基因组拷贝数。本文所考虑的组合物和方法所遇到的一个重要挑战是实现足够的测定灵敏度来检测和分析遗传序列中的罕见遗传突变或差异。为了在逐个样品的基础上确定测定灵敏度值,通过测量测序文库中存在的基因组当量的数量来测量每个样品中存在的不同和相异序列的数量。为了建立灵敏度,应测量每个样品文库的基因组当量数量。
基因组当量的数量可以通过qPCR测定或通过使用基于生物信息学的计数(在进行测序后)来确定。在临床样品的工艺流程中,基因组当量的qPCR测量用作DNA文库的QC步骤。它在序列分析之前建立了测定灵敏度的期望,并且如果其相应的DNA克隆文库缺乏所需的基因组当量深度,则允许将样品排除在分析之外。最终,基于生物信息学的基因组当量计数也用于识别每个给定DNA克隆文库的基因组当量,和因此测定灵敏度和假阴性估值。
经验qPCR测定和统计学计数测定应呈正相关。在其中测序无法显示DNA克隆文库中的序列深度的情况下,可能需要对DNA克隆文库进行再处理和/或进行额外测序。
在一些实施方案中,细胞DNA或cfDNA克隆文库中的基因组等价物使用定量PCR(qPCR)测定进行测定。在一些实施方案中,使用已知浓度的标准文库来构建标准曲线,并且来自qPCR测定的测量与所得的标准曲线拟合,并且从拟合中推导出基因组当量的值。本发明人已经发现,包含特异性杂交至基因组中常见序列(如重复序列)的一种引物和结合至衔接子中的引物结合位点的另一种引物的qPCR“基于重复序列”测定,测量出与仅使用衔接子特异性引物(存在于DNA克隆的两端上)的方法相比,基因组当量增加8倍。基于重复序列的测定所测量的基因组当量的数量提供了更一致的文库至文库性能,以及在测序运行中基因组当量的qPCR估值与生物信息学计数的标签当量之间更佳比对。
适用于本文所考虑的基于重复序列的基因组当量测定的重复序列的实例包括但不限于:短散在核元件(SINE),如Alu重复序列;长散在核元件(LINE),如LINE1、LINE2、LINE3;微卫星重复序列元件,如短串联重复序列(STR)、简单序列重复序列(SSR);以及全哺乳动物散在重复序列(MIRs)。
在一些实施方案中,重复序列是Alu重复序列。
5.测序
在一些实施方案中,定量遗传分析包括对多个杂交核酸分子进行测序,如同上的本文其他地方所讨论的,以生成足够的测序深度以获得多个唯一的测序读段。术语“唯一读段”或“唯一基因组序列”(UGS)在本文中可互换使用,并且通过将单个冗余读段分组到一个“家族”中来标识。冗余读段是共有相同UMIE的序列读段(如,基因组序列内的共有相同读段代码和相同的DNA序列起始位置),并且源自单个附接事件,并因此是彼此的扩增延伸的“同胞”。代表冗余读段家族的单个共有序列作为唯一读段或UGS进行。每个唯一读段或UGS被认为是唯一附接事件。对应于特定捕获探针的唯一读段的总和被称为用于此特定捕获探针的“原始基因组深度”(RGD)。每个捕获探针产生唯一读段集合,它们是通过分组为家族来计算从总读段中提取出来的。在一些实施方案中,对杂交分子中的整个捕获探针区进行测序。在一些实施方案中,对杂交分子中的一部分捕获探针区进行测序。
然后将给定样品的唯一读段(如样品的原始基因组深度)计算为基于逐个探针地观察到的所有唯一读段。唯一读段是重要的,因为每个唯一读段应来源于唯一基因组DNA克隆。每个唯一读段代表基因组DNA的单倍体当量的输入和分析。唯一读段的总和是分析的单倍体基因组的总和。分析的基因组的数量继而定义了测序测定的灵敏度。通过非限制性实例,如果平均唯一读段计数是100个基因组当量,那么该特定测定的灵敏度能够检测到100个中的一个突变读段,或1%。任何低于此的观察都是不可辩解的。
有明显拷贝数变化的情况(如,噪声探针的实例)被排除在用于计算样品均值的数据集中。在本文中,“噪声探针”是指在大集合相同样品中捕获高度可变数量的唯一读段的探针(如,在12–16个样品重复序列中高度可变数量的唯一读段)。在一些实施方案中,与样品的唯一读段的平均数相比,与噪声探针相关的唯一读段数目增加50%或更大。在一些实施方案中,与样品的唯一读段的平均数相比,与噪声探针相关的唯一读段数目减少50%或更大。在一些实施方案中,将特定分析中所用的约2%至约4%的探针鉴定为噪声探针并从计算中排除以确定给定样品的唯一读段的平均数。在一些实施方案中,将用于特定分析中的2%至4%鉴定为噪声探针并且从计算中排除以确定给定样品的唯一读段的平均数。
在一些实施方案中,将测序读段鉴定为“命中靶读段”或“脱靶读段”。命中靶读段具有在用于创建基因组文库的捕获探针附近内映射的基因组DNA序列。在一些实施方案中,当每条基因组序列物理连接至特定捕获探针时并且当基因组区段和捕获探针的序列均被确定为统一信息时,命中靶读段被定义为其起始坐标在400bp内并更通常在相应捕获探针的3’末端的200bp内映射的任何基因组序列。脱靶读段被定义为相对于捕获探针,在位置≥500个碱基对(并且更通常映射至整个不同的染色体)处,具有与参考基因组对齐的基因组序列。
在一些实施方案中,定量遗传分析包括源自多个样品的杂交核酸分子的多重测序。
在一些实施方案中,定量遗传分析包括获得一个或多个或多个经标记的DNA文库克隆,每个克隆包含第一DNA序列和第二DNA序列,其中第一DNA序列包含经靶向遗传基因座中的序列并且第二DNA序列包含捕获探针序列;对一个或多个克隆进行配对末端测序反应并且获得一个或多个测序读段,或对一个或多个克隆进行测序反应,其中获得大于约100、约200、约300、约400、约500或更多个核苷酸的单个长测序读段,其中读段足以鉴定第一DNA序列和第二DNA序列两者;和根据测序读段的探针序列对一个或多个克隆的测序读段进行排序或聚类。
6.生物信息学分析
在一些实施方案中,定量遗传分析还包括测序读段的生物信息学分析。生物信息学分析排除了在缺乏用于测序的组合物或方法的情况下进行的任何纯智力分析。在一些实施方案中,生物信息学分析包括但不限于:序列比对;基因组当量分析;单核苷酸变体(SNV)分析;基因拷贝数变异(CNV)分析;测量染色体拷贝数;以及检测遗传病变。在一些实施方案中,生物信息学分析可用于定量cfDNA克隆文库中的基因组当量数;检测靶遗传基因座的遗传状态;检测靶遗传基因座中的遗传病变;和测量靶遗传基因座内的拷贝数波动。
序列比对可以在序列读段和一条或多条人参考DNA序列之间进行。在一些实施方案中,测序比对可用于检测靶遗传位点中的遗传病变,包括但不限于检测核苷酸转换或颠换、核苷酸插入或缺失、基因组重排、拷贝数变化或基因融合。作为因果或预后指标的遗传病变的检测可有用于诊断、预后、治疗和/或监测特定遗传疾患或疾病。
术语“靶遗传位点”和“DNA靶区”在本文中可互换使用,并且是指DNA序列内的目标区。在一些实施方案中,对靶遗传基因座进行靶向遗传分析。在一些实施方案中,DNA靶区是与特定遗传状态、遗传疾患、遗传疾病;胎儿检测;遗传嵌合、亲子鉴定;预测对药物治疗的响应;诊断或监测医学疾患;微生物组谱分析;病原体筛选;或器官移植物监测相关的基因区。在另外的实施方案中,DNA靶区是与特定人染色体(诸如特定常染色体或X-连锁染色体)或其区域(如唯一染色体区)相关联的DNA序列。
本文还考虑了可在不需要与参考序列进行比对的情况下进行序列比对分析的方法,在本文中称为水平序列分析。此类分析可以对本文所考虑的方法或任何其他方法生成的任何序列进行。在一些实施方案中,序列分析包括对通过本文所考虑的方法获得的读段执行序列比对。
在一些实施方案中,cfDNA克隆文库中的基因组当量在进行测序之后使用基于生物信息学的计数进行测定。每个测序读段与特定捕获探针相关,并且将分配给每个捕获探针的读段集合解析为组。在一个组内,单个读段集合在基因组序列内共有相同读段编码和相同DNA序列开始位置。这些单个读段被归为“家族”,并且代表这个家族的单条共有序列作为“唯一读段”转结。构成一个家庭的所有各个读段都源自单个附接事件,并因此它们彼此是扩增-衍生的“同胞”。每个唯一读段被认为是唯一附接事件,并且唯一读段的总和被认为等于待分析的基因组当量的数目。
当唯一克隆数接近可能序列组合的总数时,概率决定了相同的代码和起始位点组合将由独立事件创建,并且这些独立事件将不恰当地分组至单个家族内。净结果将为待分析的基因组当量的低估值,并且罕见突变读段可作为测序误差而被丢弃,因为它们与携带相同标识符的野生型读段重叠。
在一些实施方案中,为了提供针对cfDNA克隆文库的精确分析,待分析的基因组当量的数量是可能的唯一克隆数目的约1/10、约1/12、约1/14、约1/16、约1/18、约1/20、约1/25或更小。在一些实施方案中,为了对cfDNA克隆文库提供准确的分析,所分析的基因组当量的数量为可能的唯一克隆数量的1/10、1/12、1/14、1/16、1/18、1/20、1/25或更小。应理解,上面概述的程序只是说明性的,而不是限制性的。
在一些实施方案中,可能需要增加待分析的基因组当量的数量。为了扩大基因组当量的深度,考虑了至少两种解决方案。第一种解决方案是每个样品使用多于一个衔接子集。通过组合衔接子,有可能成倍地扩增可能克隆的总数,并因此扩大基因组输入的舒适限值。第二种解决方案是将读段代码扩增1、2、3、4或5或更多个碱基。与每个其他读段代码相差至少2个碱基的可能读段代码数目标度为4(n-1),其中n是读段代码内的碱基数。因此,在一个非限制性实例中,如果读段代码是5个核苷酸,并且4(5-1)=256;因此,对于每个另外碱基,包含另外的碱基将可用库扩增四倍。
在一些实施方案中,定量遗传分析包括对测序读段的生物信息学分析以鉴定罕见单核苷酸变体(SNV)。
下一代测序的固有错误率大约为0.02-0.02%,这意味着1/200至1/500碱基调用是不正确的。为了检测以低于此的频率(以1/1000序列频率)发生的变体和其他突变,必需调用分子注释策略。通过非限制性实例,使用经靶向序列捕获技术进行的5000个唯一分子的分析–在>50,000个读段的足够测序深度时–将生成5000个唯一读段的集合,其中每个唯一读段属于都具有相同读段代码的读段“家族”。在一个家族中出现的SNV是一种罕见变体的候选物。当在大于一个家族中观察到这种相同的变体时,它就成为了存在于起始样品中的罕见变体的强有力候选者。相比之下,家族内零星发生的变体很可能是测序错误,而在一个或仅一个家族内发生的变体要么是罕见的,要么是在体外发生的碱基改变的结果(如,DNA碱基氧化或PCR-引入的错误)。
在一些实施方案中,检测SNV的方法包括引入10倍以上的基因组输入(基因组或基因组当量)作为测定的所需靶标灵敏度。在一个非限制性实例中,如果期望的灵敏度是2%(2/100),那么实验目标是2000个基因组的输入。
在一些实施方案中,测序数据的生物信息学分析用于检测或识别与遗传状态、疾患或疾病、遗传镶嵌、胎儿检测、亲子鉴定、预测对药物治疗的响应、诊断或监测医疗状况、微生物组谱分析、病原体筛选和监测器官移植相关的SNV。
7.拷贝数分析
本发明提供了可用于检测细胞基因组DNA(如来自组织活检样品)或cfDNA(如来自血液样品)样品内的突变改变、SNP、易位、倒置、缺失、拷贝数变化或其他遗传变异的组合物和方法。本文所公开的组合物和方法可特别用于非常困难地检测,从而以极高分辨率检测来自生物样品(如血液)的cfDNA的拷贝数变化。特别地,本公开的一些实施方案涉及用于通过以下步骤来检测来自测试样品的DNA靶区的拷贝数的方法:由附接至衔接子的基因组DNA片段构成的生成基因组DNA文库,用多个捕获探针捕获DNA靶区,分离包含DNA靶区的DNA文库片段,和进行DNA靶区的定量遗传分析,从而测定DNA靶区的拷贝数。本文所述的衔接子允许鉴定正在测序的单个DNA片段,以及基因组DNA的样品或来源的身份。
在一些实施方案中,本文公开的用于检测靶特异性拷贝数变化的组合物和方法适用于数种样品类型,包括但不限于直接组织活检和外周血。在癌症基因组学并且特别是用于实体瘤分析的细胞游离DNA(cfDNA)测定的背景下,肿瘤DNA的量通常是总体DNA的非常小一部分。此外,拷贝数损失在基因组DNA测定中很难检测到,并且特别是其中拷贝数变化可能只存在于样品的一部分总基因组DNA中的基因组DNA测定,如cfDNA测定。例如,从癌症患者提取的大部分细胞-游离DNA将来源于正常来源,并且具有二倍体拷贝数(除了男性受试者中X-连锁基因之外)。在癌症患者中,源自肿瘤的DNA部分通常具有较低的小等位基因频率,诸如例如其中从血浆提取的2%循环DNA源自肿瘤的患者。一个肿瘤抑制基因拷贝的丢失(例如乳腺癌中的BRCA1)意味着缺少可检测的基因组片段的小等位基因频率为1%。在这种情况下,经工程化的拷贝数丢失测定应能够区分100个拷贝(正常)和99个拷贝(杂合基因丢失)。因此,一些实施方案考虑到本文所述的方法和组合物允许以足够的分辨率检测拷贝数变化,以便即使在cfDNA的上下文中也检测次要等位基因频率下的拷贝数变化。
在一些实施方案中,提供了用于DNA靶区DNA的拷贝数分析的方法。在一些实施方案中,拷贝数分析通过以下步骤进行:生成各自含有基因组DNA片段和衔接子的DNA文库片段的基因组DNA文库,分离含DNA靶区的DNA文库片段,和进行DNA靶区的定量遗传分析。“定量遗传分析”意指通过能够定量DNA(如,基因、遗传基因座、目标靶区等)变化的任何分子生物学技术进行的分析,包括但不限于DNA突变、SNP、易位、缺失和拷贝数变异(CNV)。在一些实施方案中,定量遗传分析通过测序例如下一代测序进行。
在一些实施方案中,提供一种用于拷贝数测定分析的方法,其包括获得一个或多个或者多个克隆,每个克隆包含第一DNA序列和第二DNA序列,其中第一DNA序列包括靶向遗传基因座中的序列,并且第二DNA序列包含捕获探针序列。在相关的实施方案中,对一个或多个克隆进行末端配对的测序反应,并获得一个或多个测序读段。在另一个实施方案中,对一个或多个克隆进行测序反应,其中获得大于约100个核苷酸的单个长测序读段,其中读段足以识别第一DNA序列和第二DNA序列两者。一个或多个克隆的测序读段可以根据测序读段的探针序列进行排序或聚类。
拷贝数分析包括但不限于检查给定基因组DNA样品中发生的特定基因或突变的拷贝数的分析,并且还可以包括给定样品中给定基因拷贝数或序列差异的定量测定。在一些实施方案中,拷贝数分析用于检测或识别与遗传状态、疾患或疾病、胎儿检测、遗传镶嵌、亲子鉴定、预测对药物治疗的响应、诊断或监测医学疾患、微生物组谱分析、病原体筛选和监测器官移植相关的基因扩增。
在一些实施方案中,拷贝数分析用于测量染色体不稳定。在此类实施方案中,包含染色体稳定性探针的捕获探针集合用于在所有染色体集合上以均匀密度确定拷贝数变化。对每个染色体稳定性探针进行拷贝数分析,然后根据其染色体靶标对染色体稳定性探针进行排序。这允许可视化整个基因组的拷贝数损失或增加,并可以用作染色体稳定性的量度。
在一些实施方案中,测序数据的生物信息学分析用于检测或识别靶基因座中的一种或多种序列或遗传病变,包括但不限于检测核苷酸转换或颠换、核苷酸插入或缺失、基因组重排、拷贝数变化或基因融合。作为因果或预后指标的遗传病变的检测可有用于诊断、预后、治疗和/或监测特定遗传疾患或疾病。在一些实施方案中,遗传病变与遗传状态、条件或疾病、胎儿检测、遗传镶嵌、亲子鉴定、预测对药物治疗的响应、诊断或监测医学疾患、微生物组谱分析、病原体筛选和监测器官移植有关。
在一些实施方案中,样品中存在的DNA靶区的拷贝数通过定量遗传分析确定。在一些实施方案中,DNA靶区的拷贝数通过比较样品中存在的DNA靶区的拷贝量并将其与存在于含已知拷贝数的一种或多种样品的DNA靶区的量比较来确定。
一些实施方案考虑到本文所述的组合物和方法可特别用于检测基因组DNA样品中的拷贝数变化,其中样品中仅一部分的总基因组DNA具有拷贝数的变化。例如,与其中等位基因频率通常为~100%、50%或0%的常规SNP基因分型相反,显著肿瘤突变可存在于样品(如细胞游离DNA样品)中,其以显著小于50%(如,在0.1%至>20%的范围内)的次要等位基因频率存在。本领域技术人员将认识到,本文所述的组合物和方法也可用于检测其他类型的突变,包括单核苷酸变体(SNV)、短(如,小于40个碱基对(bp))插入和缺失(插入缺失)以及包括致癌基因融合的基因组重排。
在一些实施方案中,本文所述的组合物和/或方法可用于、能够、适用于和/或能够检测、鉴定、观察和/或揭示小于约20%、小于约19%、小于约18%、小于约17%、小于约16%、小于约15%、小于约14%、小于约13%、小于约12%、小于约11%、小于约10%、小于约9%、小于约8%、小于约7%、小于约6%、小于约5%、小于约4%、小于约3%、小于约2%、小于约1%、小于约0.5%、小于约0.2%或小于约0.1%的来自样品的总基因组DNA中存在的一个或多个DNA靶区的拷贝数变化。在一些实施方案中,本文所述的方法可用于、能够、适用于和/或能够检测、识别、观察和/或揭示存在于约0.01%至约100%、约0.01%至约50%、或约0.1%至约20%的来自样品的总基因组DNA中的一个或多个DNA靶区拷贝数的变化。
在一些实施方案中,本文所述的组合物和/或方法可用于、能够、适用于和/或能够检测、鉴定、观察和/或揭示小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于约12%、小于11%、小于10%、小于9%、小于8%、小于约7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.5%、小于0.2%或小于0.1%的来自样品的总基因组DNA中存在的一个或多个DNA靶区的拷贝数变化。在一些实施方案中,本文所述的方法可用于、能够、适用于和/或能够检测、鉴定、观察和/或揭示0.01%至100%、0.01%至50%或0.1%至20%的来自样品的总基因组DNA中存在的一个或多个DNA靶区的拷贝数变化。
在一些实施方案中,用于cfDNA遗传分析的方法包括:生成和扩增cfDNA文库、确定cfDNA文库中的基因组当的数量;并对一个或多个基因组靶基因座进行定量遗传分析。
一些实施方案考虑了本文所述的方法和组合物中的任一种可有效地用于使用基因组DNA(如细胞cfDNA)有效分析、检测、诊断和/或监测遗传状态、遗传条件、遗传疾病、遗传镶嵌、胎儿诊断、亲子鉴定、微生物组谱分析、病原体筛选和器官移植监测,其中样品中的所有或其中仅一部分的总基因组DNA具有目标特征,如遗传病变、突变、单核苷酸变体(SNV)。在一些实施方案中,目标特征是与疾病或疾患相关的遗传特征。例如,与其中等位基因频率通常为~100%、50%或0%的常规SNP基因分型相反,显著肿瘤突变可存在于样品(如cfDNA样品)中,其以显著小于50%(如,在0.1%至>20%的范围内)的次要等位基因频率存在。
8.临床应用
在一些实施方案中,本文提供了通过以下步骤来检测、识别、预测、诊断或监测受试者中的疾患或疾病的方法:检测目标区中的突变变化、SNP、易位、倒置、缺失、拷贝数变化或其他遗传变异。
在一些实施方案中,本文提供了检测、识别、预测、诊断或监测受试者中的疾患或疾病的方法。
在一些实施方案中,检测、识别、预测、诊断或监测受试者中的遗传状态、疾患或疾病的方法包括对DNA克隆文库中的一个或多个靶遗传基因座进行定量遗传分析,以检测或识别一个或多个靶遗传基因座处序列中的变化。在一些实施方案中,变化是拷贝数变化。
在一些实施方案中,检测、识别、预测、诊断或监测遗传状态、疾患或疾病的方法包括从受试者的生物样品中分离或获得细胞DNA或cfDNA;用一种或多种末端修复酶处理细胞DNA或cfDNA以生成末端修复DNA;将一个或多个衔接子附接至末端修复的DNA的每个末端,以生成基因组DNA文库;扩增DNA文库以生成DNA克隆文库;确定DNA克隆文库中基因组当量的数量;以及对DNA克隆文库中的一个或多个靶遗传基因座进行定量遗传分析,以检测或识别序列中的变化,如一个或多个靶遗传基因座处的SNP、易位、倒置、缺失或拷贝数变化。
在一些实施方案中,一种检测、识别、预测、诊断或监测选自以下的遗传状态或遗传疾患或疾病的方法:遗传疾病;遗传镶嵌;胎儿检测;亲子鉴定;亲子鉴定;预测对药物治疗的响应;诊断或监测医学疾患;微生物体谱分析;病原体筛选;和器官移植监测,所述方法包括从受试者的生物样品中分离或获得基因组DNA;用一种或多种末端修复酶处理DNA以生成末端-修复的DNA;附接一种或多种衔接子至末端-修复的DNA的每个末端以生成基因组DNA文库;扩增基因组DNA文库以生成DNA克隆文库;确定DNA克隆文库中基因组当量的数量;和对DNA克隆文库中的一个或多个靶遗传基因座进行定量遗传分析,以检测或识别核苷酸转换或颠换、核苷酸插入或缺失、基因组重排、拷贝数变化、或一个或多个靶遗传基因座处的序列中的基因融合。
可用本文考虑的组合物和方法检测、识别、预测、诊断或监测的遗传性疾病的说明性实例包括但不限于癌症、阿尔茨海默氏病(Alzheimer’sdisease,APOE1)、Charcot-Marie-Tooth病、莱伯氏遗传性视神经病变(Leber hereditary optic neuropathy,LHON)、天使综合征(Angelman syndrome)(UBE3A,泛素-连接酶连接酶E3A)、普拉德-威利综合征(Prader-Willi syndrome)(染色体15中的区)、β-地中海贫血(HBB,β-珠蛋白)、戈谢病(Gaucher disease)(I型)(GBA,葡糖脑苷脂酶)、囊性纤维化(CFTR上皮氯离子通道)、镰状细胞病(HBB,β-珠蛋白)、泰-萨氏病(Tay–Sachs disease)(HEXA,氨基己糖苷酶A)、苯丙酮尿症(PAH,苯丙氨酸水解酶)、家族性高胆固醇血症(LDLR,低密度脂蛋白受体)、成人多囊肾病(PKD1,多囊素)、亨廷顿病(HDD,亨廷顿蛋白)、I型神经纤维瘤病(NF1,NF1肿瘤抑制基因)、肌强直性营养不良(DM,肌强直蛋白)、结节性硬化症(TSC1,结节素)、软骨发育不全(FGFR3,成纤维细胞生长因子受体)、脆性X综合征(FMR1,RNA-结合蛋白)、杜氏肌营养不良(DMD,肌营养不良蛋白)、血友病A (F8C,凝血因子VIII)、莱施-奈恩综合征(Lesch–Nyhansyndrome)(HPRT1,次黄嘌呤鸟嘌呤核糖转移酶1)和肾上腺脑白质营养不良(ABCD1)。
可以用本文所考虑的组合物和方法检测、识别、预测、诊断或监测的癌症的说明性实例包括但不限于:B细胞癌,如多发性骨髓瘤、黑素瘤、乳腺癌、肺癌(诸如非小细胞肺癌或NSCLC)、支气管癌、结直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、尿膀胱癌、脑或中枢神经系统癌、外周神经系统癌、食管癌、宫颈癌、子宫癌或子宫内膜癌、口腔癌或咽喉癌、肝癌、肾癌、睾丸癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液组织癌、腺癌、炎性肌纤维母细胞瘤、胃肠道间质瘤(GIST)、结肠癌、多发性骨髓瘤(MM)、骨髓增生异常综合征(MDS)、骨髓增生障碍(MPD)、急性淋巴细胞性白血病(ALL)、急性髓细胞性白血病(AML)、慢性髓细胞性白血病(CML)、慢性淋巴细胞性白血病(CLL)、真性红细胞增多、霍奇金淋巴瘤、非霍奇金淋巴瘤(NHL)、软组织肉瘤、纤维肉瘤、粘液肉瘤、脂肪肉瘤、成骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤文氏瘤(Ewing's tumor)、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管癌、肾细胞癌、肝癌、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯氏瘤(Wilms'tumor)、膀胱癌、上皮性癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突神经胶质瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫性大B-细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈癌、小细胞癌、原发性血小板增多症、失认性髓系化生、高嗜酸性粒细胞综合征、特发性髓外化生、高嗜酸性粒细胞综合征、全身性肥大细胞增生症、家族性嗜酸性粒细胞增多、慢性嗜酸性粒细胞白血病、神经内分泌癌、类癌肿瘤等。
在一些实施方案中,遗传病变是在Cosmic数据库中标注的病变(病变和序列数据可在线获得,并且可从Cosmic网站的癌症基因普查部分(Cancer Gene Census section ofthe Cosmic website)下载)或在癌症基因组图谱(Cancer Genome Atlas)中标注的病变(病变和序列数据可在线获取,并且可从癌症基因组图谱网站下载)。
携带一种或多种与可以用本文考虑的组合物和方法检测、识别、预测、诊断或监测的癌症相关的遗传病变的基因的说明性实例包括但不限于ABCB1、ABCC2、ABCC4、ABCG2、ABL1、ABL2、AKT1、AKT2、AKT3、ALDH4A1、ALK、APC、AR、ARAF、ARFRP1、ARID1A、ATM、ATR、AURKA、AURKB、BCL2、BCL2A1、BCL2L1、BCL2L2、BCL6、BRAF、BRCA1、BRCA2、Clorf144、CARD11、CBL、CCND1、CCND2、CCND3、CCNE1、CDH1、CDH2、CDH20、CDH5、CDK4、CDK6、CDK8、CDKN2A、CDKN2B、CDKN2C、CEBPA、CHEK1、CHEK2、CRKL、CRLF2、CTNNB1、CYP1B1、CYP2C19、CYP2C8、CYP2D6、CYP3A4、CYP3A5、DNMT3A、DOT1L、DPYD、EGFR、EPHA3、EPHA5、EPHA6、EPHA7、EPHB1、EPHB4、EPHB6、EPHX1、ERBB2、ERBB3、ERBB4、ERCC2、ERG、ESR1、ESR2、ETV1、ETV4、ETV5、ETV6、EWSR1、EZH2、FANCA、FBXW7、FCGR3A、FGFR1、FGFR2、FGFR3、FGFR4、FLT1、FLT3、FLT4、FOXP4、GATA1、GNA11、GNAQ、GNAS、GPR124、GSTP1、GUCY1A2、HOXA3、HRAS、HSP90AA1、IDH1、IDH2、IGF1R、IGF2R、IKBKE、IKZF1、INHBA、IRS2、ITPA、JAK1、JAK2、JAK3、JUN、KDR、KIT、KRAS、LRP1B、LRP2、LTK、MAN1B1、MAP2K1、MAP2K2、MAP2K4、MCL1、MDM2、MDM4、MEN1、MET、MITF、MLH1、MLL、MPL、MRE11A、MSH2、MSH6、MTHFR、MTOR、MUTYH、MYC、MYCL1、MYCN、NF1、NF2、NKX2-1、NOTCH1、NPM1、NQO1、NRAS、NRP2、NTRK1、NTRK3、PAK3、PAX5、PDGFRA、PDGFRB、PIK3CA、PIK3R1、PKHD1、PLCG1、PRKDC、PTCH1、PTEN、PTPN11、PTPRD、RAF1、RARA、RB1、RET、RICTOR、RPTOR、RUNX1、SLC19A1、SLC22A2、SLCO1B3、SMAD2、SMAD3、SMAD4、SMARCA4、SMARCB1、SMO、SOD2、SOX10、SOX2、SRC、STK11、SULT1A1、TBX22、TET2、TGFBR2、TMPRSS2、TNFRSF14、TOP1、TP53、TPMT、TSC1、TSC2、TYMS、UGT1A1、UMPS、USP9X、VHL和WT1。
在一些实施方案中,遗传病变包含核苷酸转换或颠换、核苷酸插入或缺失(即插入缺失)、基因组重排、拷贝数变化或基因融合。在一些实施方案中,遗传病变包含移码突变。在一些实施方案中,遗传病变包含剪接变化。在一些实施方案中,遗传病变包含单核苷酸变异(SNV)。
在一些实施方案中,遗传病变是融合ALK基因的3′编码区至另一个基因的基因融合。
在一些实施方案中,遗传病变是融合ALK基因的3′编码区至EML4基因的基因融合。
在一些实施方案中,遗传病变是表5或表6所示的病变中的任一种。例如,遗传病变可以是TM突变、BRCA1移码突变、BRCA2移码突变、BRCA2 G4突变(即,导致G-四链体结构形成的突变)、FANCA剪接突变、HDAC2移码突变、PALB2 Q479突变或ATM移码突变。在一些实施方案中,遗传病变可以是ERBB2 1655V突变、TP53 Q331突变、TP53移码突变、EML4-ALK融合、或EGFR扩增。
可以用本文考虑的组合物和方法检测、识别、预测、诊断或监测的适用于胎儿检测的疾患的说明性实例包括但不限于:唐氏综合征(Down Syndrome)(21三体)、爱德华兹综合征(Edwards Syndrome)(18三体)、帕托综合征(Patau Syndrome)(13三体)、克兰费尔特氏综合征(Klinefelter'sSyndrome)(XXY)、X三体综合征、XYY综合征、8三体、16三体、特纳综合征(Turner Syndrome)(XO)、罗伯逊易位(Robertsonian translocation)、迪乔治综合征(DiGeorge Syndrome)和沃尔夫-赫希霍恩(Wolf-Hirschhorn Syndrome)。
可以用本文考虑的组合物和方法检测、识别、预测、诊断或监测的适用于亲子检测的等位基因的说明性实例包括但不限于以下中的16种或更多种:D20S1082、D6S474、D12ATA63、D22S1045、D10S1248、D1S1677、D11S4463、D4S2364、D9S1122、D2S1776、D10S1425、D3S3053、D5S2500、D1S1627、D3S4529、D2S441、D17S974、D6S1017、D4S2408、D9S2157、Amelogenin、D17S1301、D1GATA113、D18S853、D20S482和D14S1434。
适用于预测可以用本文考虑的组合物和方法检测、识别、预测、诊断或监测的对药物治疗的响应的基因的说明性实例包括但不限于下列基因中的一个或多个:ABCB1(ATP-结合盒,亚家族B(MDR/TAP),元件1)、ACE(血管紧缩素I转化酶)、ADH1A(醇脱氢酶1A(I类)、α多肽)、ADH1B(醇脱氢酶IB(类别I),β多肽)、ADH1C(醇脱氢酶1C(I类),γ多肽)、ADRB1(肾上腺素能,β-1-,受体)、ADRB2(肾上腺素能,β-2-,受体,表面)、AHR(芳烃受体)、ALDH1A1(醛脱氢酶1家族,成员A1)、ALOX5(花生四烯酸5-脂氧合酶)、BRCA1(早发性乳腺癌1)、COMT(儿茶酚-O-甲基转移酶)、CYP2A6(细胞色素P450,家族2,亚家族A,多肽6)、CYP2B6(细胞色素P450,家族2,亚家族B,多肽6)、CYP2C9(细胞色素P450,家族2,亚家族C,多肽9)、CYP2C19(细胞色素P450,家族2,亚家族C,多肽19)、CYP2D6(细胞色素P450,家族2,亚家族D,多肽6)、CYP2J2(细胞色素P450,家族2,亚家族J,多肽2)、CYP3A4(细胞色素P450,家族3,亚家族A,多肽4)、CYP3A5(细胞色素P450,家族3,亚家族A,多肽5)、DPYD(二氢嘧啶脱氢酶)、DRD2(多巴胺受体D2)、F5(凝血因子V)、GSTP1(谷胱甘肽S-转移酶pi)、HMGCR(3-羟基-3-甲基戊二酰-辅酶A还原酶)、KCNH2(钾电压门控通道,亚家族H(eag-相关的),成员2)、KCNJ11(内向整流钾通道,亚家族J,成员11)、MTHFR(5,10-亚甲基四氢叶酸还原酶(NADPH))、NQO1(NAD(P)H脱氢酶,醌1)、P2RY1(嘌呤能受体P2Y,G-蛋白偶联,1)、P2RY12(嘌呤能受体P2Y,G-蛋白偶联,12)、PTGIS(前列腺素I2(前列环素)合酶)、SCN5A(钠通道,钾门控,V型,α(长QT综合征3))、SLC19A1(溶质运载蛋白家族19(叶酸转运蛋白),成员1)、SLCO1B1(溶质运载蛋白有机阴离子转运子家族,成员1B1)、SULT1A1(磺基转移酶家族,胞质,1A,苯酚偏好,成员1)、TPMT(硫嘌呤S-甲基转移酶)、TYMS(胸苷酸合成酶)、UGT1A1(UDP葡糖醛酸基转移酶1家族,多肽A1)、VDR(维生素D(1,25-二羟基维生素D3)受体)、VKORC1(维生素K环氧化物还原酶复合物,亚基1)。
可以用本文考虑的组合物和方法检测、识别、预测、诊断或监测的医疗疾患的说明性实例包括但不限于:中风、短暂性缺血发作、创伤性脑损伤、心脏病、心脏病发作、心绞痛、动脉粥样硬化和高血压。
可用本文所考虑的组合物和方法筛选的病原体的说明性实例包括但不限于:细菌、真菌和病毒。
可以用本文所考虑的组合物和方法筛选的细菌物种的说明性实例包括但不限于:分枝杆菌属某些种(Mycobacterium spp.)、肺炎球菌属某些种(Pneumococcus spp.)、埃希氏菌属某些种(Escherichia spp.)、弯曲杆菌属某些种(Campylobacter spp.)、棒状杆菌属某些种(Corynebacterium spp.)、梭菌属某些种(Clostridium spp.)、链球菌属某些种(Streptococcus spp.)、葡球菌属某些种(Staphylococcus spp.)、假单胞菌属某些种(Pseudomonas spp.)、志贺菌属某些种(Shigella spp.)、密螺旋体属某些种(Treponemaspp.)或沙门氏菌属某些种(Salmonella spp.)。
可以用本文所考虑的组合物和方法筛选的真菌种类的说明性实例包括但不限于:曲霉菌属某些种(Aspergillis spp.)、芽生菌属某些种(Blastomyces spp.)、念珠菌属某些种(Candida spp.)、球孢子菌属某些种(Coccicioides spp.)、隐球菌属某些种(Cryptococcus spp.)、皮肤真菌、癣属某些种(Tinea spp.)、毛癣菌属某些种(Trichophyton spp.)、小孢子菌属某些种(Microsporum spp.)、镰刀菌属某些种(Fusarium spp.)、组织胞浆菌属某些种(Histoplasma spp.)、毛霉菌亚门某些种(Mucoromycotina spp.)、肺囊虫属某些种(Pneumocystis spp.)、孢子丝菌属某些种(Sporothrix spp.)、突脐孢菌属某些种(Exserophilum spp.)或支孢菌属某些种(Cladosporium spp.)。
可用本文考虑的组合物和方法筛选的病毒的说明性实例包括但不限于:甲型流感诸如H1N1、H1N2、H3N2和H5N1(禽流感)、乙型流感、丙型流感病毒、甲型肝炎病毒、乙型肝炎病毒、丙型肝炎C病毒、丁型肝炎病毒、戊型肝炎病毒、轮状病毒、诺瓦克病毒组的任何病毒、肠腺病毒、细小病毒、登革热病毒、猴痘、单股反链病毒目(Mononegavirales)、狂犬病毒属诸如狂犬病毒、拉各斯蝙蝠病毒(Lagos bat virus)、莫科拉病毒(Mokola virus)、杜文海格病毒(Duvenhage virus)、欧洲蝙蝠病毒1型和2型和澳大利亚蝙蝠病毒、暂时热病毒属(Ephemerovirus)、水泡病毒属(Vesiculovirus)、水疱性口炎病毒(VSV)、疱疹病毒诸如单纯疱疹病毒1型和2型、水痘带状疱疹、巨细胞病毒、爱泼斯坦-巴尔病毒(EBV)、人疱疹病毒(HHV)、人疱疹病毒6型和8型、莫洛尼鼠白血病病毒(M-MuLV)、莫洛尼鼠肉瘤病毒(MoMSV)、哈维鼠肉瘤病毒(HaMuSV)、鼠乳腺肿瘤病毒(MuMTV)、长猿白血病病毒(GaLV)、猫白血病病毒(FLV)、泡沫病毒属、弗云德鼠白血病病毒、鼠干细胞病毒(MSCV)和劳斯肉瘤病毒(RSV)、HIV(人免疫缺陷病毒;包括HIV 1型和HIV 2型)、梅迪维斯纳病毒(VMV)病毒、山羊关节炎-脑炎病毒(CAEV)、马传染性贫血病毒(EIAV)、猫免疫缺陷病毒(FIV)、牛免疫缺陷病毒(BIV)和猿猴免疫缺陷病毒(SIV)、乳头状瘤病毒、鼠γ疱疹病毒、沙粒病毒诸如阿根廷出血热病毒、玻利维亚出血热病毒、萨比亚相关出血热病毒、委内瑞拉出血热病毒、拉沙热病毒、马丘波病毒、淋巴细胞性脉络丛脑膜炎病毒(LCMV)、布尼亚病毒科(Bunyaviridiae)诸如克里米亚-刚果出血热病毒、汉坦病毒、出血热伴致肾综合征病毒、裂谷热病毒、丝状病毒科(丝状病毒)、丝状病毒科(线状病毒)包括埃博拉出血热和马尔堡出血热、黄病毒科包括凯萨纳尔森林病病毒、鄂木斯克出血热病毒、蜱传脑炎病毒和副粘病毒科诸如亨德拉病毒和尼帕病毒、大天花和小天花(天花)、甲病毒诸如委内瑞拉马脑炎病毒、东部马脑炎病毒、西部马脑炎病毒、SARS-相关冠状病毒(SARS-CoV)、西尼罗河病毒,及任何引起脑炎的病毒。
可以用本文考虑的组合物和方法检测、识别、预测、诊断或监测的适用于监测移植接受者中的器官移植的基因的说明性实例包括但不限于一些基因中的一个或多个:HLA-A、HLA-B、HLA-C、HLA-DR、HLA-DP和HLA-DQ。
在一些实施方案中,生物信息学分析用于量化cfDNA克隆文库中分析的基因组当量的数量;检测靶遗传基因组的遗传变体;检测靶遗传基因组内的突变;检测靶遗传基因组内的遗传融合;或测量靶遗传基因组内的拷贝数波动。
在一些实施方案中,提供用于遗传疾病的伴随诊断,其包括:从受试者的生物样品中分离或获得基因组DNA;用一种或多种末端修复酶处理DNA以生成末端修复DNA;附接一个或多个衔接子至末端修复的DNA的每个末端,以生成DNA文库;扩增DNA文库以生成DNA克隆文库;确定DNA克隆文库中基因组当量的数量;和对DNA克隆文库中与该遗传疾病相关的一种或多种生物标记进行定量遗传分析,其中检测或未检测一种或多种生物标记中的至少一种表明是否应对该遗传疾病进行治疗。在一些实施方案中,DNA是cfDNA。在一些实施方案中,DNA是细胞DNA。
如本文所用,术语“伴随诊断”是指与特定抗癌疗法相关联的诊断测试。在一个具体实施方案中,诊断方法包括检测与生物样品中相关的生物标记中的遗传病变,从而允许迅速识别患者是否应该用抗癌疗法进行治疗。
抗癌疗法包括但不限于手术、放射、化学治疗剂、抗癌药物和免疫调节剂。
抗癌药物的说明性实例包括但不限于:烷基化剂,诸如硫替帕和环磷酰胺(CYTOXANTM);烷基磺酸盐,诸如白消安、英丙舒凡和哌泊舒凡;氮杂环丙烷诸如苯并多巴、卡波醌、美妥多巴和乌妥多巴;乙烯亚胺和甲基密胺(methylamelamines),包括阿曲他明、三亚乙基亚胺、三亚乙基磷酰胺、三亚乙基硫代磷酰胺和三羟甲基三聚氰胺;氮芥诸如苯丁酸氮芥、萘氮芥、氯磷酰胺、雌莫司汀、异环磷酰胺、甲氯雷他明、氧化甲氯雷他明盐酸盐、美法兰、诺威比星、苯芥胆甾醇、泼尼莫司汀、曲洛磷胺、乌拉莫司汀;硝基脲诸如卡莫司汀、氯脲霉素、福莫司汀、洛莫司汀、尼莫司汀、雷莫司汀;抗生素,诸如阿克拉霉素、放线菌素、安曲霉素、重氮丝氨酸、博莱霉素、卡霉素、卡奇霉素、卡柔比星(carabicin)、洋红霉素、嗜癌素、色霉素、更生霉素、道诺霉素、地托比星、6-重氮-5-氧代-L-正亮氨酸、多柔比星及其聚乙二醇化制剂、表柔比星、依索比星、伊达比星、麻西罗霉素、自力霉素、霉酚酸、诺加霉素、橄榄霉素、培洛霉素、培弗来霉素、嘌呤霉素、quelamycin、罗多比星、链霉黑素、链脲菌素、杀结核菌素、乌苯美司、净司他汀、佐柔比星;抗代谢物诸如甲氨蝶呤和5-氟尿嘧啶(5-FU);叶酸类似物,诸如二甲叶酸、甲氨蝶呤、蝶罗呤、三甲曲沙;嘌呤类似物诸如氟达拉滨、6-巯基嘌呤、硫咪嘌呤、硫鸟嘌呤;嘧啶类似物诸如安西他滨、阿扎胞苷、6-氮杂尿苷、卡莫氟、阿糖胞苷、二脱氧尿苷、去氧氟尿苷、依诺他滨、氟尿苷、5-FU;雄激素诸如卡普睾酮、丙酸屈他雄酮、环硫雄醇、美雄烷、睾内酯;抗肾上腺诸如氨鲁米特、米托坦、曲洛司坦;叶酸补充物诸如frolinic acid;醋葡醛内酯;醛磷酰胺糖苷;氨基乙酰丙酸;安吖啶;bestrabucil;比生群;依达曲沙(edatraxate);氟他胺;地美可辛;地吖醌;elformithine;依利醋铵;依托格鲁;硝酸镓;羟基脲;香菇多糖;氯尼达明;米托胍腙;米托蒽醌;莫哌达醇;二胺硝吖啶;喷司他汀;蛋氨氮芥;吡柔比星;鬼臼酸;2-乙肼;丙卡巴肼;雷佐生;西佐喃;锗螺胺;细交链孢菌酮酸;三亚胺醌;2,2',2”-三氯三乙胺;乌拉坦;长春地辛;达卡巴嗪;甘露莫司汀;二溴甘露醇;二溴卫矛醇;哌泊溴烷;gacytosine;阿糖胞苷(“Ara-C”);环磷酰胺;噻替派;紫杉烷,如紫杉醇(/>Bristol-Myers Squibb Oncology,Princeton,N.J.)和多西他赛(Rhne-Poulenc Rorer,Antony,France);苯丁酸氮芥;吉西他滨;6-硫鸟嘌呤;巯嘌呤;甲氨蝶呤;铂类似物诸如顺铂和卡铂;长春碱;铂;依托泊苷(VP-16);异环磷酰胺;丝裂霉素C;米托蒽醌;长春新碱;长春瑞滨;诺维本;米托蒽醌;替尼泊苷;氨喋呤;希罗达;伊班膦酸盐;CPT-11;拓扑异构酶抑制剂RFS 2000;二氟甲基鸟氨酸(DMFO);维甲酸衍生物诸如TargretinTM(贝沙罗汀)、PanretinTM(阿利维A酸);ONTAKTM(地尼白介素);埃斯佩拉霉素;卡培他滨;及上述中任一种的药学上可接受的盐、酸或衍生物。该定义还包括用于调控或抑制激素对癌症作用的抗-激素剂,诸如抗雌激素,包括例如他莫昔芬、雷洛昔芬、芳香酶抑制剂4(5)-咪唑、4-羟基他莫昔芬、曲沃昔芬、雷洛西芬、LY117018、奥那司酮和托瑞米芬(Fareston);和抗雄激素诸如氟他胺、尼鲁胺、比卡鲁胺、亮丙林和戈舍瑞林;及上述中任一种的药学上可接受的盐、酸或衍生物。
免疫调节剂的说明性实例包括但不限于:环孢菌素、他克莫司、曲培莫司、吡美莫司、西罗莫司、维洛莫司、拉氟莫司、拉奎宁莫特和咪喹莫特,以及其类似物、衍生物、盐、离子及配合物。
在一些实施方案中,抗癌药物可包括聚-ADP核糖聚合酶(PARP)抑制剂。PARP抑制剂的说明性实例包括但不限于奥拉帕尼(AZD-2281)、卢卡帕尼(AG014699或PF-01367338、尼拉帕尼(MK-4827)、他拉唑帕尼(BMN-673)维利帕尼(ABT-888)、CEP 9722、E7016、BGB-290、3-氨基苯酰胺。
本说明书中引用的所有出版物、专利申请和已发布专利在本文中通过引用并入,就像每个单独的出版物、专利申请或已发布专利都是通过引用具体且单独地表示通过引用并入。特别地,国际PCT公布No.WO 2016/028316的整个内容具体通过引用并入。
虽然为了理解的清晰,前面的发明已经通过说明和实例的方式进行了一些详细描述,但对于本领域的普通技术人员来说,根据本发明的教导,可以在不偏离所附权利要求书的精神或范围的情况下对其进行某些更改和修改是很明显的。以下实施例仅供说明,并非限制。本领域技术人员将容易地认识到可以更改或修改以产生基本上类似结果的各种非关键参数。
除非特别指出相反,否则本发明的一些实施方案的实践将采用本领域技术范围内的化学、生物化学、有机化学、分子生物学、微生物学、重组DNA技术、遗传学、免疫学和细胞生物学的常规方法,下面将描述其中许多方法以供说明。此类技术在文献中充分解释。参见,如Sambrook等人,Molecular Cloning:A Laboratory Manual(第3版,2001);Sambrook等人,Molecular Cloning:A Laboratory Manual(第2版,1989);Maniatis等人,MolecularCloning:A Laboratory Manual(1982);Ausubel等人,Current Protocols in MolecularBiology(John Wiley and Sons,2008年7月更新);Short Protocols in MolecularBiology:A Compendium of Methods from Current Protocols in Molecular Biology,Greene Pub.Associates and Wiley-Interscience;Glover,DNA Cloning:A PracticalApproach,第I&II卷(IRL Press,Oxford,1985);Anand,Techniques for the Analysis ofComplex Genomes,(Academic Press,New York,1992);Transcription and Translation(B.Hames&S.Higgins编辑,1984);Perbal,A Practical Guide to Molecular Cloning(1984);及Harlow和Lane,Antibodies,(Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.,1998)。
编号的实施方案
尽管所附权利要求书,以下编号的实施方案也构成本公开的一部分。
1.一种多功能衔接子,其包含:
a.连接链寡核苷酸,和
b.非连接链寡核苷酸,其能够杂交至连接链寡核苷酸的3’末端处的区并与其形成双链体;
其中连接链寡核苷酸在与来自样品的dsDNA片段接触之后连接至dsDNA片段的每条链的5’末端;
其中连接链寡核苷酸包含:
(i)3’末端悬突;
(ii)扩增区,其包含能够用作引物识别位点的多核苷酸序列;
(iii)唯一多功能ID区;
(iv)唯一分子标识符(UMI)倍增子;和
(v)包含核苷酸序列的锚区,其与所述非连接链寡核苷酸至少部分互补;
其中所述dsDNA片段包含在每条链的5’末端处的磷酸根基团和每条链的3’末端处的悬突;
其中每个dsDNA片段可以通过多功能ID区和UMI倍增子的组合来识别;并且
其中样品可通过多功能ID区鉴定。
2.如实施方案1所述的多功能衔接子,
其中连接链寡核苷酸包含3’末端处的dT悬突并且dsDNA片段包含每条链的3’末端处的dA悬突,或
其中连接链寡核苷酸包含3’末端处的dA悬突并且dsDNA片段包含每条链的3’末端处的dT悬突。
3.如实施方案1所述的多功能衔接子,
其中连接链寡核苷酸包含3’末端处的dC悬突并且dsDNA片段包含每条链的3’末端处的dG悬突,或
其中连接链寡核苷酸包含3’末端处的dG悬突并且dsDNA片段包含每条链的3’末端处的dC悬突。
4.如实施方案1-3中任一项所述的多功能衔接子,其中连接链寡核苷酸中的扩增区包含能够用作针对PCR、LAMP、NASBA、SDA、RCA或LCR的引物识别位点的多核苷酸序列。
5.如实施方案1-4中任一项所述的多功能衔接子,其中非连接链寡核苷酸包含在其3’末端处的防止连接至dsDNA片段的5’末端和/或衔接子二聚体形成的修饰。
6.如实施方案1-5中任一项所述的多功能衔接子,其中样品是组织活检。
7.如实施方案6所述的多功能衔接子,其中组织活检取自肿瘤或疑似肿瘤的组织。
8.如实施方案1-7中任一项所述的多功能衔接子,其中dsDNA片段包含细胞游离DNA(cfDNA)、基因组DNA(gDNA)、互补DNA(cDNA)、线粒体DNA、甲基化DNA或去甲基化DNA。
9.如实施方案8所述的多功能衔接子,其中dsDNA从测试样品中分离或生成;并且其中测试样品包括从由羊水、血液、血浆、血清、精液、淋巴液、脑脊液、眼液、尿液、唾液、粪便、粘液和汗液组成的组中选择的生物样品。
10.如实施方案1-9中任一项所述的多功能衔接子,其中dsDNA片段通过包括以下的步骤获得:
a.)从测试样品分离细胞DNA;和
b.)片段化细胞DNA以获得基因组DNA片段。
11.如实施方案10所述的多功能衔接子,其中步骤(b)通过使细胞DNA与至少一种消化酶接触进行。
12.如实施方案10所述的多功能衔接子,其中步骤(b)通过对细胞DNA施加机械应力来进行。
13.如实施方案12所述的多功能衔接子,其中通过对细胞DNA进行超声处理来施加机械应力。
14.如实施方案10所述的多功能衔接子,其中步骤(b)通过使细胞DNA与一种或多种化合物接触以化学破坏细胞DNA的一个或多个键来进行。
15.如实施方案1-14中任一项所述的多功能衔接子,其中扩增区是10至50个核苷酸长。
16.如实施方案15所述的多功能衔接子,其中扩增区是20至30个核苷酸长。
17.如实施方案15所述的多功能衔接子,其中扩增区是25个核苷酸长。
18.如实施方案1-17中任一项所述的多功能衔接子,其中多功能ID区是3至50个核苷酸长。
19.如实施方案18所述的多功能衔接子,其中多功能ID区是3至15个核苷酸长。
20.如实施方案18所述的多功能衔接子,其中多功能ID区是8个核苷酸长。
21.如实施方案1-20中任一项所述的多功能衔接子,其中UMI倍增子与多功能ID区相邻或被包含在多功能ID区内。
22.如实施方案21所述的多功能衔接子,其中UMI倍增子是1至5个核苷酸长。
23.如实施方案21所述的多功能衔接子,其中UMI倍增子是3个核苷酸长,并且包含64条可能核苷酸序列之一。
24.如实施方案1-23中任一项所述的多功能衔接子,其中锚区是1至50个核苷酸长。
25.如实施方案24所述的多功能衔接子,其中锚区是5至25个核苷酸长。
26.如实施方案24所述的多功能衔接子,其中锚区是10个核苷酸长。
27.如实施方案1-26中任一项所述的多功能衔接子,其中多个多功能衔接子连接至多个dsDNA片段。
28.如实施方案27所述的多功能衔接子,其中将dsDNA片段在与多个多功能衔接子连接之前进行末端修复。
29.如实施方案27或28所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子的扩增区包含相同的核苷酸序列。
30.如实施方案29所述的多功能衔接子,其中相同的核苷酸序列包含PCR引物结合位点。
31.如实施方案27-30中任一项所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子的多功能ID区包含2至10,000条唯一核苷酸序列之一。
32.如实施方案31所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子的多功能ID区包含50至500条唯一核苷酸序列之一。
33.如实施方案31所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子的多功能ID区包含100至400条唯一核苷酸序列之一。
34.如实施方案31所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子的多功能ID区包含60条唯一核苷酸序列之一。
35.如实施方案31-34中任一项所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子的多功能ID区是8个核苷酸长。
36.如实施方案31-35中任一项所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子包含64至2,560,000条唯一核苷酸序列之一。
37.如实施方案31-36中任一项所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子包含3840条唯一核苷酸序列之一,并且每条核苷酸序列与3840条唯一核苷酸序列的任何其他序列离散至少二的汉明距离。
38.如实施方案31-37中任一项所述的多功能衔接子,其中多个多功能衔接子中的每一个包含与多功能ID区相邻或包含在多功能ID区内的UMI倍增子。
39.如实施方案31-38中任一项所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子的UMI倍增子是1至5个核苷酸长。
40.如实施方案39所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子的UMI倍增子是3个核苷酸长。
41.如实施方案31-40中任一项所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子的锚区包含四条核苷酸序列之一,并且其中给定序列的每个多功能ID区可与四个锚区中的每一个配对。
42.如实施方案31所述的多功能衔接子,其中多个多功能衔接子的每个多功能衔接子的扩增区包含相同的核苷酸序列;
其中多个多功能衔接子的每个多功能衔接子的多功能ID区是8个核苷酸长;
其中每个多功能ID区的核苷酸序列与多个多功能衔接子的任何其他多功能ID区的核苷酸序列离散至少2的汉明距离;
其中多个多功能衔接子中的每一个包含与多功能ID区相邻或包含在多功能ID区内的UMI倍增子,其中多个多功能衔接子的每个多功能衔接子的UMI倍增子是三个核苷酸长,并且其中每个可能核苷酸序列的UMI倍增子与多个多功能衔接子的每个多功能ID区配对,和
其中多个多功能衔接子的每个多功能衔接子的锚区包含四条核苷酸序列之一,并且其中给定序列的每个多功能ID区可与四个锚区中的每一个配对。
43.一种包含多功能衔接子和dsDNA片段的复合物,其中所述多功能衔接子选自实施方案1-42所述的多功能衔接子中的任一种。
44.一种用于制备衔接子-标记的DNA文库的方法,其包括:
a.)连接多个多功能衔接子与多个dsDNA片段以生成多个多功能衔接子/dsDNA片段复合物,其中多个多功能衔接子中的每一个选自实施方案1-42所述的多功能衔接子的任一种;其中多种复合物中的每一种包含实施方案43所述的复合物;和,任选地,
b.)使来自步骤(a)的多种复合物与一种或多种酶接触以形成包含多个连续衔接子-标记的DNA片段的衔接子-标记的DNA文库。
45.如实施方案44所述的方法,其中所述多个dsDNA片段包括细胞游离DNA(cfDNA)、基因组DNA(gDNA)、互补DNA(cDNA)、线粒体DNA、甲基化DNA或去甲基化DNA。
46.如实施方案44或45所述的方法,其中所述多个dsDNA片段在与多个多功能衔接子连接之前进行末端修复。
47.如实施方案44-46中任一项所述的方法,其中所述多个dsDNA片段从选自以下的文库获得:全基因组文库、扩增子文库、全外显子组文库、cDNA文库或甲基化DNA文库。
48.如实施方案44-47中任一项所述的方法,其中非连接链寡核苷酸从步骤(b)中的多功能衔接子/dsDNA片段复合物被置换。
49.如实施方案44-48中任一项所述的方法,其中一种或多个酶包括DNA连接酶或RNA连接酶。
50.如实施方案49所述的方法,其中DNA连接酶包括T4 DNA连接酶或Taq DNA连接酶。
51.如实施方案44-50中任一项所述的方法,其中方法还包括扩增多个连续衔接子-标记的DNA片段以生成包含多个经扩增的连续衔接子-标记dsDNA片段的经扩增的衔接子-标记的DNA文库。
52.如实施方案51所述的方法,其中一种或多种引物用于扩增。
53.如实施方案52所述的方法,其中一种或多种引物包括杂交至衔接子的引物结合区的通用引物结合序列。
54.一种衔接子-标记的DNA文库,其根据实施方案44-53和实施方案67中任一项所述的方法产生。
55.一种用于制备探针-捕获的文库的方法,其包括:
a.)使实施方案54中的衔接子-标记的DNA文库与一种或多种多功能捕获探针杂交以形成一种或多种捕获探针/衔接子-标记的DNA复合物,其中每个多功能捕获探针包含:
i.)第一区,其能够杂交至伴侣寡核苷酸,其中,任选地,第一区包含含PCR引物结合位点的尾序列;
ii.)第二区,其能够杂交至衔接子-标记的DNA文库中的靶区;
b.)分离来自步骤(a)的一种或多种捕获探针/衔接子-标记的DNA复合物,其中每种分离的捕获探针/衔接子-标记的DNA复合物包含捕获探针和衔接子-标记的DNA片段;
c.)酶促处理来自步骤(b)的经分离的捕获探针/DNA片段复合物以生成包含杂交分子的探针-捕获的DNA文库,每种杂交分子包含:
i)至少一部分的捕获探针或其互补序列;
ii)至少一部分的DNA片段或其互补序列;和
iii)衔接子。
56.如实施方案55所述的方法,其中(c)的酶促处理步骤包括使用复合物中衔接子-标记的DNA片段作为模板,进行捕获探针的5′-3′DNA聚合酶延伸。
57.如实施方案55或实施方案56所述的方法,其中至少一种捕获探针杂交至靶区中特定区的下游,并且至少一种捕获探针杂交至靶区中特定区的上游。
58.如实施方案55-57中任一项所述的方法,其中捕获探针包含测序引物识别序列。
59.如实施方案55-58中任一项所述的方法,其还包括,
d.)对来自步骤(c)的杂交分子进行PCR,以生成包含经扩增的杂交分子的经扩增的文库。
60.一种探针-捕获的文库,其包含根据实施方案55-58中任一项产生的杂交分子。
61.一种经扩增的探针-捕获的文库,其根据实施方案59产生。
62.一种方法,其包括对实施方案60所述的杂交分子的探针-捕获的文库进行靶向遗传分析。
63.一种方法,其包括对实施方案61中的经扩增的探针-捕获的文库进行靶向遗传分析。
64.如实施方案62或63所述的方法,其中靶向遗传分析包括序列分析。
65.如实施方案62或63所述的方法,其中靶向遗传分析包括拷贝数分析。
66.如实施方案62-65中任一项所述的方法,其中对所述杂交分子的每一个中的捕获探针区的全部或一部分进行测序。
67.如实施方案44-53中任一项所述的方法,其中多种复合物的每个多功能衔接子/dsDNA片段复合物包含连接至dsDNA片段的每个末端的多功能衔接子。
等效方案
虽然本发明已经结合上面所述的具体实施方案进行了描述,但其许多替代方案、修改和其他变型对于本领域的普通技术人员来说是明显的。所有此类替代方案、修改和变型都意在落入本发明的精神和范围。
此外,本文所述的任何方法都可以重写为瑞士型格式,用于使用本文所述的任何剂、用于药物的制造,用于治疗本文所述的任何病症。同样地,本文所述的任何方法都可重写为用途用化合物权利要求,或用作化合物用途权利要求。
本文所述的所有出版物、专利和专利申请在此通过引用整体并入本文。
实施例
本公开通过以下实施例进一步说明,其不应被解释为在范围或精神上限制本公开至本文所述的具体程序。应理解,提供实施例以说明某些实施方案,并且不打算因此限制本公开的范围。应进一步理解,可以诉诸于各种其他实施方案、修改及其等价方案,其可由本领域技术人员提出,而不偏离本公开的精神。
实施例1:DNA文库的制备
分离自携带基因变体的永生化细胞的细胞-游离DNA和基因组DNA(CoriellInstitute for Medical Research或SeraCare Life Sciences,Inc.)用于本实施例中的NGS文库(衔接子-标记的DNA文库)构建。
表1:实验中所用的样品
/>
使用QIAmp DSP循环NA试剂盒(Qiagen),从血浆样品(参见表1)中提取来自健康供体的细胞-游离DNA。
使用实验室生成的疾病样品1和疾病样品2的优点是可以如下所详述进行仔细控制,并且样品的可用性基本上是无限的。
基因组DNA通过使用超声发生器进行超声处理来剪切以生成200bp片段,然后使用用顺磁性AMPure/>珠粒/>的“双侧”珠粒纯化的进一步纯化和尺寸选择。
将片段化细胞系基因组DNA和合成DNA的混合物与WT cfDNA合并,以产生含已知单核苷酸变体(SNV)、插入和缺失(插入缺失变体)、拷贝数变体(CNV)和以定义等位基因频率(AF)频率融合的疾病样品1和疾病样品2。将上表中所列输入样品量的适当组合共混到定义的百分比中以允许检测低等位基因频率(AF),如下所述进行末端修复并转换为标记DNA文库。
实施例2:任选的单步DNA末端-修复
将输入DNA片段转化为“末端修复的DNA片段”,使得末端-修复的DNA片段在单一反应混合物中具有5’磷酸根基团和3’dA核苷酸悬突(单步末端修复)。
可商购获得的试剂盒(NEB Ultra II/dA加尾模块(E7546L)用于末端修复DNA片段。将末端修复主/>(“末端修复MM”)添加至单管反应混合物中的经扩增的DNA片段。末端修复MM通过合并NEBNext Ultra II末端制备酶/>和NEBNextUltra II末端制备反应/>来制备,每种混合物或缓冲液是NEBNext Ultra II末端修复/dA-加尾模块(New England/>)的组分。将含延伸DNA片段的反应混合物在热循环仪中在以下反应条件下孵育:20℃持续15分钟,然后在70℃下持续10分钟(“单步反应”)。
在一些实施方案中,对末端-修复/dA-加尾步骤进行了优化,使得单步反应使用比用于进行此类反应的制造商推荐量显著更低量的末端修复主混合物(MM)。在一些实施方案中,末端修复MM的量减少还令人惊讶地对末端修复DNA片段(平均>3500GE)的形成没有负面影响,如由使用本公开的衔接子和观察到的所得NGS文库的基因组当量进行的末端修复DNA片段的克隆效率所证明。事实上,令人惊讶的是,使用如本公开中所述的该单步末端修复过程,提高克隆效率。
实施例3:衔接子连接
将多功能衔接子模块的3’dT-加尾连接链的汇集物连接至来自以上样品的末端-修复的DNA片段,导致衔接子附接至片段的5’末端。互补非-连接链未连接至DNA片段的3’dA加尾末端。用于本实验中的衔接子的描述提供于表2和表3中。
将45uL的末端修复反应混合物(含有具有5’磷酸化末端和3’dA核苷酸悬突的末端-修复的DNA片段)添加至5.0μL的唯一多功能衔接子模块(5μM)和30μL的NEB Ultra IILigation(New England/>MA,U.S.A)汇集物。衔接子模块的每个连接链是47nt长,并且包含(从5’->3’)扩增区(AMP,25nt)、能够识别样品和唯一片段两者的多功能ID区(8nt)、UMI倍增子(3nt)、锚(10nt)和3’dT悬突。本实施例中所用的连接链提供于表2中。制备衔接子模块的池,使得每个衔接子池含有包含四种类型锚区的等摩尔量的衔接子模块,其中每种锚类型具有选自A、T、C和G的3’末端核苷酸。
表2:衔接子结构
将反应混合物在20℃下孵育30分钟以生成衔接子-标记的DNA片段。
表3.用于制备非扩增和扩增的标记DNA文库的示例性衔接子序列
/>
/>
*表3的序列中的NNN表示3-核苷酸的UMI倍增子,其中每个N可选自A、G、C、T中的任一种。
连接后,将100μL DNA纯化珠(Ampure)添加至连接混合物。将反应混合物在室温下孵育2分钟。将珠粒在磁体上时用200μL的80%乙醇/水(v/v)洗涤两次,风干,然后用25μL的TRIS-EDTA(TEZ)洗脱。约25μL的含衔接子-标记DNA片段的经洗脱的澄清上清液转移至新PCR管或微量滴度板孔用于扩增以生成衔接子-标记的DNA文库。实施例4:经标记的DNA文库延伸和扩增
在实施例3中的衔接子连接后,添加75μL含试剂和嗜热DNA聚合酶酶(NEB UltraII 2X PCRNew England/>)的主混合物(MM),并使用以下运行参数扩增反应混合物:
60℃持续30秒,72℃持续2分钟,98℃持续30秒;
8个循环的98℃持续30秒;65℃持续30秒;和72℃持续30秒。
使用单个扩增引物:TGCAGGACCAGAGAATTCGAATACA(SEQ ID NO:70)。
进行初始3分钟孵育循环,以通过连接-链-模板延伸形成多个连续衔接子-标记的dsDNA片段,随后对连续衔接子-标记的dsDNA片段进行8个循环PCR扩增,以形成含衔接子标记DNA片段分子的经扩增的标记DNA文库。
扩增后,将120μL的DNA纯化珠添加至连接混合物。将反应混合物在室温下孵育2分钟。将珠粒在磁铁上用200μL 80%乙醇/水(v/v)洗涤两次,风干,然后用14μL TEZ洗脱。将含经扩增的标记DNA文库的澄清上清液转移至新PCR管。
使用这些方法,我们将制备高效率文库的时间从约8小时缩短到约3至4小时。随着酶促/试剂盒试剂(包括实施例中使用的酶)的数量从16种减少到4种,复杂性也降低了。
实施例5:捕获探针文库扩增(预示的)
为了捕获和富集目标遗传基因座,将如实施例2所述的每个经标记DNA文库(如疾病样品1和疾病样品2)合并、多路复用并杂交至对同源修复缺陷基因(如ATM、BRCA1、BRCA2、FANCA、HDAC2和PALB2)有特异性的多功能捕获探针模块池,或至对肺癌基因(如ERBB2、TP53、EML4-ALK融合、EGFR、MET)有特异性的多功能捕获探针模块池。
接下来,将100uL链霉亲和素包被的珠粒(Dynabeads MyOne C1)与杂交反应物合并,并在室温下静置20分钟。将珠粒收集在磁铁上,并用200μL TEZ缓冲液洗涤一次。将经洗涤的珠粒重悬浮在40μL TEZ缓冲液中。将160μL洗涤缓冲液添加至重悬珠粒,并将混合物在45℃下孵育5分钟。然后将珠粒使用磁铁分离,并用200μL TEZ缓冲液洗涤。
杂交后,使用捕获探针的引物延伸以复制经捕获的基因组序列、DNA片段交界处的A/T悬突和附接的衔接子模块,以形成杂交分子文库。因此形成的杂交分子包含在一端上侧接了捕获探针模块并且在另一端上侧接了衔接子模块的DNA片段。
珠粒上探针延伸后,进行PCR以掺入测序衔接子。将珠粒重悬于20uLTEZ中,与PCR主混合物(55uL Ultra II PCR混合物,5.5uL引物F,5.5uL引物R)合并,放在热循环器上,并按以下程序运行:60℃持续30秒;72℃持续30;98℃持续30秒;5个循环的98℃持续30秒;65℃持续30秒;72℃持续30秒。
接下来,将珠粒用磁铁从反应混合物中分离出来。将上清液转移至新PCR管,与PCRMM合并,并在热循环仪上使用以下扩增循环进行扩增:10个循环的98℃持续30秒;65℃持续30秒;72℃持续30秒。
正向引物:
AATGATACGGCGACCACCGAGATCTACACGTCATGCAGGACCAGAGAATTCGAATACA(SEQ ID NO:71)。
反向引物:
CAAGCAGAAGACGGCATACGAGATGTGACTGGCACGGGAGTTGATCCTGGTTTTCAC(SEQ ID NO:72)。
对于每种样品,将这种杂交分子文库进行PCR扩增以提供含经扩增杂交分子的经扩增靶向DNA文库。这些经扩增杂交分子是“测序就绪”,因为它们在分子的两个末端处含有测序引物结合位点,如图8所示。
实施例6:序列分析
对杂交分子进行遗传分析。测序读段1(151nt)和读段2(17nt)用于遗传分析。为了进行适当的聚类和比对分析,每个单独的序列读段都经过处理,从而以生物信息学方式排除A/T核苷酸插入(由衔接子的3’末端悬突和DNA片段的5’末端悬突产生)。这种A/T插入的排除是通过使用生物信息学方法对序列读段进行遗传分析来实现的。变体调用者识别冗余读段并将冗余读段处理为单个一致读段,然后将其在每个探测位置处量化。变体调用者进一步识别了衔接子与每个DNA片段的5'端连接,以生物信息学方式排除插入的A/T悬突,以获得正确的样品特异性DNA片段序列。在遗传分析过程中排除A/T插入提高质量,并减少序列读段的错对和/或不准确聚类。最后,在每个变量测量中检测到的偏差被赋予统计显著性。
实施例7:序列深度的改进
对上述生成的标记DNA文库进行测序。将经标记的DNA文库与人参考基因组对齐,并映射到预期靶标。
使用比较器过程和可自动化过程测量3个标记DNA文库(WT cfDNA、疾病样品1和疾病样品2)的平均深度(参见图4C)。
实施例8:均匀衔接子分布
在本实施例中,对某些衔接子序列包含在经标记的DNA文库中(如由序列读段所测量)的偏向减少了。与使用比较器过程的文库制备相比,使用可自动化过程的文库制备显示了改进的衔接子分布,从而消除了对补偿低效率衔接子的需要。所得锚分布描绘于图9和表4中。
表4:用于衔接子分布的文库制备比较
实施例9:变体检测
表6和表7显示了对实施例1中制备的样品(疾病样品1和疾病样品2)的Watson(+)或Crick链(-)上每种变体的测序读段数目。如从表5可见,对于疾病样品1,使用可自动化过程的变体正链(+链)的平均读段为94,而使用比较器过程的平均读段为66。类似地,对于疾病样品2,使用可自动化过程的变体正链(+链)的平均读段为238,而对于疾病样品1,使用比较器过程的平均读段为199。这些结果表明,对于测试的每一个经检测变体,用于制备经标记DNA文库和探针捕获文库的过程有效得多,如可通过每个变体的读段数增加来衡量,并表明测定灵敏度增加。
表5:使用从疾病样品1制备的文库,可自动化过程和比较器过程之间的变体检测比较
/>
表6:使用从疾病样品2制备的文库,可自动化过程和比较器过程之间的变体检测比较
实施例10:基因组文库扩增的改进
在三种不同条件下测试用于扩增基因组文库的条件:
1)在69℃的退火温度下进行已经分至2个单独管中的文库的扩增;
2)在65℃的退火温度下进行已经分至2个单独管中的文库的扩增;和
3)在65℃的退火温度下进行扩增而不分割文库(于1管中)(表7)。
在65℃的退火温度下(条件3)进行而不分割文库的扩增条件表现良好,从而无需将文库分至2个样品管并简化了文库制备过程。
表7:扩增条件的优化
/>
序列表
<110> 分析生物科学有限公司 (RESOLUTION BIOSCIENCE, INC.)
<120> 用于高效构建遗传文库和遗传分析的衔接子和方法
<130> CLFK-006/01WO 318106-2088
<150> US 63/075,543
<151> 2020-09-08
<160> 74
<170> PatentIn version 3.5
<210> 1
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性伴侣寡核苷酸
<400> 1
gtgaaaacca ggatcaactc ccgtgccagt cacatctcag atgagct 47
<210> 2
<211> 10
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 连接-锚区1
<400> 2
acgtatgcca 10
<210> 3
<211> 10
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 连接-锚区2
<400> 3
ctagcgttac 10
<210> 4
<211> 10
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 连接-锚区3
<400> 4
gatcgacatg 10
<210> 5
<211> 10
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 连接-锚区4
<400> 5
tgcatcaggt 10
<210> 6
<211> 10
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 非连接-锚区1
<400> 6
tggcatacgt 10
<210> 7
<211> 10
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 非连接-锚区2
<400> 7
gtaacgctag 10
<210> 8
<211> 10
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 非连接-锚区3
<400> 8
catgtcgatc 10
<210> 9
<211> 10
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 非连接-锚区4
<400> 9
acctgatgca 10
<210> 10
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链1
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 10
tgcaggacca gagaattcga atacaaaaat cctnnnacgt atgccat 47
<210> 11
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链2
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 11
tgcaggacca gagaattcga atacaaatga tctnnnacgt atgccat 47
<210> 12
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链3
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 12
tgcaggacca gagaattcga atacaagtaa tagnnnacgt atgccat 47
<210> 13
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链4
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 13
tgcaggacca gagaattcga atacacacct ccgnnnacgt atgccat 47
<210> 14
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链5
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 14
tgcaggacca gagaattcga atacacgccc catnnnacgt atgccat 47
<210> 15
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链6
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 15
tgcaggacca gagaattcga atacactacc aagnnnacgt atgccat 47
<210> 16
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链7
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 16
tgcaggacca gagaattcga atacactgtc gttnnnacgt atgccat 47
<210> 17
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链8
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 17
tgcaggacca gagaattcga atacagcaaa tggnnnacgt atgccat 47
<210> 18
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链9
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 18
tgcaggacca gagaattcga atacagctcg agcnnnacgt atgccat 47
<210> 19
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链10
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 19
tgcaggacca gagaattcga atacagtcca caannnacgt atgccat 47
<210> 20
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链11
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 20
tgcaggacca gagaattcga atacagttac cctnnnacgt atgccat 47
<210> 21
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链12
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 21
tgcaggacca gagaattcga atacatagtt ttcnnnacgt atgccat 47
<210> 22
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链13
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 22
tgcaggacca gagaattcga atacatctca gagnnnacgt atgccat 47
<210> 23
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链14
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 23
tgcaggacca gagaattcga atacatgacc ttcnnnacgt atgccat 47
<210> 24
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链15
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 24
tgcaggacca gagaattcga atacattacg gcannnacgt atgccat 47
<210> 25
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链16
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 25
tgcaggacca gagaattcga atacaaacaa aacnnntgca tcaggtt 47
<210> 26
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链17
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 26
tgcaggacca gagaattcga atacaacact gcannntgca tcaggtt 47
<210> 27
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链18
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 27
tgcaggacca gagaattcga atacaatcgc gatnnntgca tcaggtt 47
<210> 28
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链19
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 28
tgcaggacca gagaattcga atacaatggt ggannntgca tcaggtt 47
<210> 29
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链20
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 29
tgcaggacca gagaattcga atacacaact ctcnnntgca tcaggtt 47
<210> 30
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链21
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 30
tgcaggacca gagaattcga atacacgccc gaannntgca tcaggtt 47
<210> 31
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链22
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 31
tgcaggacca gagaattcga atacacgtat gacnnntgca tcaggtt 47
<210> 32
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链23
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 32
tgcaggacca gagaattcga atacagaaac gacnnntgca tcaggtt 47
<210> 33
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链24
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 33
tgcaggacca gagaattcga atacagactc tgannntgca tcaggtt 47
<210> 34
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链25
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 34
tgcaggacca gagaattcga atacagtcac tctnnntgca tcaggtt 47
<210> 35
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链26
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 35
tgcaggacca gagaattcga atacatactg gacnnntgca tcaggtt 47
<210> 36
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链27
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 36
tgcaggacca gagaattcga atacatgcga tacnnntgca tcaggtt 47
<210> 37
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链28
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 37
tgcaggacca gagaattcga atacatgtta atgnnntgca tcaggtt 47
<210> 38
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链29
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 38
tgcaggacca gagaattcga atacattgta cttnnntgca tcaggtt 47
<210> 39
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链30
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 39
tgcaggacca gagaattcga atacatttgg ctcnnntgca tcaggtt 47
<210> 40
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链31
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 40
tgcaggacca gagaattcga atacaaacgc ctannngatc gacatgt 47
<210> 41
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链32
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 41
tgcaggacca gagaattcga atacaaagtt tcannngatc gacatgt 47
<210> 42
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链33
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 42
tgcaggacca gagaattcga atacaacagc gaannngatc gacatgt 47
<210> 43
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链34
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 43
tgcaggacca gagaattcga atacaagcgc ctgnnngatc gacatgt 47
<210> 44
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链35
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 44
tgcaggacca gagaattcga atacacaacc cttnnngatc gacatgt 47
<210> 45
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链36
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 45
tgcaggacca gagaattcga atacacagaa taannngatc gacatgt 47
<210> 46
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链37
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 46
tgcaggacca gagaattcga atacacggac accnnngatc gacatgt 47
<210> 47
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链38
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 47
tgcaggacca gagaattcga atacagccta ttcnnngatc gacatgt 47
<210> 48
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链39
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 48
tgcaggacca gagaattcga atacagcgtc cagnnngatc gacatgt 47
<210> 49
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链40
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 49
tgcaggacca gagaattcga atacaggtac aagnnngatc gacatgt 47
<210> 50
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链41
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 50
tgcaggacca gagaattcga atacataacc ctcnnngatc gacatgt 47
<210> 51
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链42
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 51
tgcaggacca gagaattcga atacatagga gtgnnngatc gacatgt 47
<210> 52
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链43
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 52
tgcaggacca gagaattcga atacatccgc attnnngatc gacatgt 47
<210> 53
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链44
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 53
tgcaggacca gagaattcga atacatgcgt caannngatc gacatgt 47
<210> 54
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链45
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 54
tgcaggacca gagaattcga atacattggt aatnnngatc gacatgt 47
<210> 55
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链46
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 55
tgcaggacca gagaattcga atacaaatag cttnnnctag cgttact 47
<210> 56
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链47
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 56
tgcaggacca gagaattcga atacaagaga gagnnnctag cgttact 47
<210> 57
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链48
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 57
tgcaggacca gagaattcga atacacaacc tgannnctag cgttact 47
<210> 58
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链49
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 58
tgcaggacca gagaattcga atacacatat ggcnnnctag cgttact 47
<210> 59
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链50
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 59
tgcaggacca gagaattcga atacaccata tccnnnctag cgttact 47
<210> 60
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链51
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 60
tgcaggacca gagaattcga atacacgagg tccnnnctag cgttact 47
<210> 61
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链52
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 61
tgcaggacca gagaattcga atacacgtca atgnnnctag cgttact 47
<210> 62
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链53
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 62
tgcaggacca gagaattcga atacacttat catnnnctag cgttact 47
<210> 63
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链54
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 63
tgcaggacca gagaattcga atacagcatt gacnnnctag cgttact 47
<210> 64
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链55
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 64
tgcaggacca gagaattcga atacaggagg tatnnnctag cgttact 47
<210> 65
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链56
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 65
tgcaggacca gagaattcga atacataaca gttnnnctag cgttact 47
<210> 66
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链57
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 66
tgcaggacca gagaattcga atacatcgaa cacnnnctag cgttact 47
<210> 67
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链58
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 67
tgcaggacca gagaattcga atacatgcat aatnnnctag cgttact 47
<210> 68
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链59
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 68
tgcaggacca gagaattcga atacatgtca taannnctag cgttact 47
<210> 69
<211> 47
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 示例性连接链60
<220>
<221> misc_feature
<222> (34)..(36)
<223> n是任意核苷酸
<400> 69
tgcaggacca gagaattcga atacattgcg cggnnnctag cgttact 47
<210> 70
<211> 25
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 单扩增引物
<400> 70
tgcaggacca gagaattcga ataca 25
<210> 71
<211> 58
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 正向引物
<400> 71
aatgatacgg cgaccaccga gatctacacg tcatgcagga ccagagaatt cgaataca 58
<210> 72
<211> 57
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 反向引物
<400> 72
caagcagaag acggcatacg agatgtgact ggcacgggag ttgatcctgg ttttcac 57
<210> 73
<211> 56
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 正向Seq引物
<400> 73
caagcagaag acggcatacg agatgtgact ggcacgggac cagagaattc gaatac 56
<210> 74
<211> 33
<212> DNA
<213> 人工序列 (Artificial Sequence)
<220>
<223> 反向Seq引物62
<400> 74
gtgactggca cgggaccaga gaattcgaat aca 33

Claims (21)

1.多功能衔接子,其包含:
a)连接链寡核苷酸,和
b)非连接链寡核苷酸,其能够杂交至所述连接链寡核苷酸的3’末端处的区并与其形成双链体;
其中,在与来自样品的dsDNA片段接触之后,所述连接链寡核苷酸连接至所述dsDNA片段的每条链的5’末端;
其中所述连接链寡核苷酸包含:
i)3’末端悬突;
ii)扩增区,其包含能够用作引物识别位点的多核苷酸序列;
iii)唯一多功能ID区;
iv)唯一分子标识符(UMI)倍增子;和
v)包含核苷酸序列的锚区,其与所述非连接链寡核苷酸至少部分互补;
其中所述dsDNA片段包含在每条链的5’末端处的磷酸根基团和每条链的3’末端处的悬突;
其中所述多功能ID区和所述UMI倍增子的组合鉴定所述dsDNA片段;和
其中所述多功能ID区鉴定所述样品。
2.如权利要求1所述的多功能衔接子,
其中所述连接链寡核苷酸包含3’末端处的dT悬突,并且所述dsDNA片段包含每条链的3’末端处的dA悬突;
其中所述连接链寡核苷酸包含3’末端处的dA悬突,并且所述dsDNA片段包含每条链的3’末端处的dT悬突;
其中所述连接链寡核苷酸包含3’末端处的dC悬突,并且所述dsDNA片段包含每条链的3’末端处的dG悬突;或
其中所述连接链寡核苷酸包含3’末端处的dG悬突,并且所述dsDNA片段包含每条链的3’末端处的dC悬突。
3.如权利要求1或权利要求2所述的多功能衔接子,其中所述非连接链寡核苷酸包含在其3’末端处的防止连接至所述dsDNA片段的5’末端和/或衔接子二聚体形成的修饰,其中所述非连接链能够从所述双链体被置换。
4.如权利要求1-3中任一项所述的多功能衔接子,
其中所述扩增区是25个核苷酸长;
其中所述多功能ID区是8个核苷酸长;
其中所述UMI倍增子是3个核苷酸长;
其中所述锚区是10个核苷酸长;
其中所述UMI倍增子与所述多功能ID区相邻或包含在所述多功能ID区内;和
其中所述锚区包含四条核苷酸序列中的一条。
5.包含多功能衔接子和dsDNA片段的复合物,其中所述多功能衔接子选自权利要求1至4所述的多功能衔接子中的任一种。
6.用于制备衔接子-标记的DNA文库的方法,其包括:
a)连接多个多功能衔接子与多个dsDNA片段以生成多个多功能衔接子/dsDNA片段复合物,其中所述多个多功能衔接子中的每一个选自权利要求1至4所述的多功能衔接子中任一种;和,任选地,
b)使来自步骤(a)的所述多个复合物与一种或多种酶接触以形成包含多个连续衔接子-标记的DNA片段的衔接子-标记的DNA文库。
7.如权利要求6所述的方法,其中所述多个复合物的每个多功能衔接子/dsDNA片段复合物包含连接至所述dsDNA片段的每个末端的多功能衔接子。
8.如权利要求6或权利要求7所述的方法,其中所述多个dsDNA片段包含细胞游离DNA(cfDNA)、基因组DNA(gDNA)、互补DNA(cDNA)、线粒体DNA、甲基化DNA或去甲基化DNA。
9.如权利要求6-8中任一项所述的方法,其中所述多个dsDNA片段在与多个多功能衔接子连接之前进行末端修复。
10.如权利要求6-9中任一项所述的方法,其中所述非连接链寡核苷酸从步骤(b)中的多功能衔接子/dsDNA片段复合物被置换。
11.如权利要求6-10中任一项所述的方法,其中所述方法包括扩增多个连续的衔接子-标记的DNA片段以生成包含多个经扩增的连续衔接子-标记的dsDNA片段的经扩增的衔接子-标记的DNA文库。
12.如权利要求11所述的方法,其中一种或多种引物用于扩增,其中所述一种或多种引物包括杂交至所述衔接子的引物-结合区的通用引物结合序列。
13.衔接子-标记的DNA文库,其根据权利要求6至12中任一项所述的方法产生。
14.用于制备探针-捕获的文库的方法,其包括:
a)使权利要求13所述的衔接子-标记的DNA文库与一种或多种多功能捕获探针杂交以形成一种或多种捕获探针/衔接子-标记的DNA复合物,其中每种多功能捕获探针包含:
i)第一区,其能够杂交至伴侣寡核苷酸,其中,任选地,所述第一区包含含PCR引物结合位点的尾序列;
ii)第二区,其能够杂交至所述衔接子-标记的DNA文库中的靶区;
b)分离来自步骤(a)的所述一种或多种捕获探针/衔接子-标记的DNA复合物,其中每种分离的捕获探针/衔接子-标记的DNA复合物包含捕获探针和衔接子-标记的DNA片段;和
c)酶促处理来自步骤(b)的经分离的捕获探针/DNA片段复合物以生成包含杂交分子的探针-捕获的DNA文库,每种杂交分子包含:
i)至少一部分的捕获探针或其互补序列;
ii)至少一部分的DNA片段或其互补序列;和
iii)衔接子。
15.如权利要求14所述的方法,其中(c)的所述酶促处理步骤包括使用复合物中衔接子-标记的DNA片段作为模板,进行所述捕获探针的5′-3′DNA聚合酶延伸。
16.如权利要求14或权利要求15所述的方法,其中至少一种捕获探针杂交至所述靶区中特定区的下游,并且至少一种捕获探针杂交至所述靶区中特定区的上游。
17.如权利要求14-16中任一项所述的方法,其还包括:
d)对来自步骤(c)的所述杂交分子进行PCR以生成经扩增的杂交分子。
18.探针-捕获的文库,其包含根据权利要求14至17中任一项产生的杂交分子或经扩增的杂交分子。
19.方法,其包括对权利要求18所述的探针-捕获的文库进行靶向遗传分析。
20.如权利要求19所述的方法,其中所述靶向遗传分析包括序列分析或拷贝数分析。
21.如权利要求19或权利要求20所述的方法,其中对所述杂交分子的每一个中的捕获探针区的全部或一部分进行测序。
CN202180071768.6A 2020-09-08 2021-09-08 用于高效构建遗传文库和遗传分析的衔接子和方法 Pending CN116490613A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063075543P 2020-09-08 2020-09-08
US63/075,543 2020-09-08
PCT/US2021/049448 WO2022055984A1 (en) 2020-09-08 2021-09-08 Adaptors and methods for high efficiency construction of genetic libraries and genetic analysis

Publications (1)

Publication Number Publication Date
CN116490613A true CN116490613A (zh) 2023-07-25

Family

ID=80469537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180071768.6A Pending CN116490613A (zh) 2020-09-08 2021-09-08 用于高效构建遗传文库和遗传分析的衔接子和方法

Country Status (8)

Country Link
US (1) US20220073906A1 (zh)
EP (1) EP4211246A1 (zh)
JP (1) JP2023540782A (zh)
KR (1) KR20230065295A (zh)
CN (1) CN116490613A (zh)
AU (1) AU2021340632A1 (zh)
CA (1) CA3189103A1 (zh)
WO (1) WO2022055984A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024049276A1 (ko) * 2022-09-01 2024-03-07 주식회사 키오믹스 다중 표적 dna의 선택적 증폭용 조성물 및 이를 이용한 증폭 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017083562A1 (en) * 2015-11-11 2017-05-18 Resolution Bioscience, Inc. High efficiency construction of dna libraries
WO2017214557A1 (en) * 2016-06-10 2017-12-14 Counsyl, Inc. Nucleic acid sequencing adapters and uses thereof
CA3048420A1 (en) * 2016-12-09 2018-06-14 Boreal Genomics, Inc. Linked ligation
ES2962223T3 (es) * 2017-04-14 2024-03-18 Guardant Health Inc Métodos para unir adaptadores a ácidos nucleicos de muestra
GB2615955B (en) * 2018-11-21 2023-11-22 Agilent Technologies Inc Methods for targeted nucleic acid library formation

Also Published As

Publication number Publication date
JP2023540782A (ja) 2023-09-26
EP4211246A1 (en) 2023-07-19
US20220073906A1 (en) 2022-03-10
WO2022055984A1 (en) 2022-03-17
KR20230065295A (ko) 2023-05-11
AU2021340632A1 (en) 2023-03-16
CA3189103A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
JP7318054B2 (ja) Dnaライブラリーの高効率構築
JP7304393B2 (ja) Dna試料中のゲノムコピー変化の検出方法
JP6709778B2 (ja) 無細胞DNA(cfDNA)の定量的遺伝子解析のための方法
US20180179578A1 (en) Methods for quantitative genetic analysis of cell free dna
US20220073906A1 (en) Adaptors and methods for high efficiency construction of genetic libraries and genetic analysis
JP7441584B6 (ja) 無細胞DNA(cfDNA)の定量的遺伝子解析のための方法
KR20240004397A (ko) 다중 라이브러리의 동시 유전자 분석을 위한 조성물 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination