CN104395481A - 免疫组库分析中样品污染的检测和定量 - Google Patents

免疫组库分析中样品污染的检测和定量 Download PDF

Info

Publication number
CN104395481A
CN104395481A CN201380031219.1A CN201380031219A CN104395481A CN 104395481 A CN104395481 A CN 104395481A CN 201380031219 A CN201380031219 A CN 201380031219A CN 104395481 A CN104395481 A CN 104395481A
Authority
CN
China
Prior art keywords
nucleic acid
sequence
recombinant nucleic
label
district
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380031219.1A
Other languages
English (en)
Inventor
托马斯·阿斯布瑞
维多利亚·卡尔顿
马利克·法哈姆
斯蒂芬·梅斯维兹
马丁·穆尔黑德
托马斯·威利斯
建标·郑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sequenta Inc
Original Assignee
Mlc Dx Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/834,794 external-priority patent/US9528160B2/en
Priority claimed from US13/835,093 external-priority patent/US9506119B2/en
Application filed by Mlc Dx Inc filed Critical Mlc Dx Inc
Publication of CN104395481A publication Critical patent/CN104395481A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6848Nucleic acid amplification reactions characterised by the means for preventing contamination or increasing the specificity or sensitivity of an amplification reaction

Abstract

本发明涉及用于检测和定量个体的包含T细胞和/或B细胞的组织样品中的核酸污染的方法,其用于产生基于序列的克隆型谱。在一个方面,本发明通过测量借以可将来自预期个体的核酸与非预期个体的核酸区分开的内源性或外源性核酸标签的存在和/或水平来实现。内源性标签包括遗传身份标志物,诸如短串联重复序列、稀有克隆型等,且外源性标签包括用于确定来自序列读段的克隆型序列的序列标签。

Description

免疫组库分析中样品污染的检测和定量
本申请是以下每一个美国专利申请的部分继续申请案(continuation-in-part):2013年3月15日提交的系列号13/835,093和2013年3月15日提交的系列号13/834,794,并且要求来自以下的优先权:2012年4月13日提交的美国临时申请系列号61/624,002;2012年6月11日提交的系列号61/658,317;2012年12月17日提交的系列号61/738,277;和2013年2月22日提交的系列号61/768,269;前述申请的每一个通过应用以其整体并入本文。
发明背景
随着DNA测序的每个碱基成本已经下降,并且测序技术已变得更可靠和方便,正在使用大规模DNA测序开发越来越多的诊断和预后应用,例如,Faham和Willis,美国专利公布2010/0151471;Freeman等人,GenomeResearch,19:1817-1824(2009);Boyd等人,Sci.Transl.Med.,1(12):12ra23(2009);He等人,Oncotarget(March 8,2011);Palomaki等人Genet.Med.,14(3):296-305(2012);Kohlmann等人,Semin.Oncol.,39(1):26-36(2012)。特别是,编码免疫分子,诸如T细胞或B细胞受体,或其组分的核酸谱,包含了关于生物体的健康或疾病的状态的大量信息,使得已提出了此类谱作为用于各种状况的诊断或预后指标的用途,例如Faham和Willis(以上引用);Boyd等人(以上引用);He等人(以上引用)。此外,此类基于序列的谱能够有比基于扩增的编码CDR区的尺寸分布、由微阵列序列取样、来自PCR扩增子的杂交动力学曲线或其他方法大得多的灵敏度,例如Morley等人,美国专利5,418,134;van Dongen等人,Leukemia,17:2257-2317(2003);Ogle等人,Nucleic Acids Research,31:e139(2003);Wang等人,BMC Genomics,8:329(2007);Baum等人,Nature Methods,3(11):895-901(2006)。
然而,与在采用扩增步骤的其他基于DNA的测定中一样,污染或交叉污染DNA的存在可降低采用免疫组库(immune repertoire)测序的测定中检测的有效限值(effective limit)。污染DNA的来源包括测定试剂、设备,操作者的处理、气溶胶等,例如Urban等人,J.Forensic Sci.,45(6):1307-1311(2000);Kwok,142-145页,于Innis等人,编著,PCR Protocols(AcademicPress,1990)。
癌症的微小残留病(minimal residual disease,MRD)的检测受这样的污染影响。对于许多癌症进行治疗的患者常常保留与癌症相关的MRD。即,即使患者可具有响应于治疗的由临床测量的疾病的完全缓解,因某种原因或其他原因避开破坏的小部分癌细胞可得以保留。该残留群体的类型和尺寸是患者的继续治疗的重要预后因素,例如Campana,Hematol.Oncol.Clin.North Am.,23(5):1083-1098(2009);Buccisano等人,Blood,119(2):332-341(2012)。因此,MRD的测量越灵敏,随后的治疗过程将越可能成功,例如Szczepanski等人,Best Pract.Res.Clin.Haematol.,15(1):37-57(2002)。已开发了用于评估该群体的几种技术,包括基于流式细胞仪、原位杂交、细胞遗传学、核酸标志物的扩增等的技术,例如Buccisano等人,Current Opinionin Oncology,21:582-588(2009);van Dongen等人,Leukemia,17(12):2257-2317(2003);等。由于此类区段(本文还称为“克隆型(clonotype)”)通常具有可用作用于其相关癌症细胞的分子标签的独特序列,编码重组免疫受体的区段(即克隆型)的核酸的基于PCR和序列的分析对于评估白血病和淋巴瘤中的MRD是特别有用的,例如Van Dongen等人(如上引用);Faham和Willis,美国专利公布2011/0207134;等。然而,此类技术的灵敏度仍受到来自其他个体的交叉污染的存在的限制。
鉴于基于序列的诊断和预后应用的潜在影响,如果存在用于方便检测并定量样品污染可用的方法,特别是在其中处理大量患者样品的设置下使用免疫组库测序的测定中,将是非常期望的。
发明概述
本发明提出了用于检测和定量免疫组库测定中污染性核酸的方法。本发明举例说明了一些实施方案和应用,其中的一些列于以下及整个说明书中。
在一个方面,本发明涉及用于确定个体的包含T细胞和/或B细胞的组织样品的克隆型谱(clonotype profile)中的污染水平的方法,其中所述方法包括以下步骤:(a)从个体获得组织样品,该组织样品包含来自个体和可能来自一个或更多个其他个体的核酸,该核酸包括来自T细胞和/或B细胞的重组核酸和非重组核酸;(b)由组织样品的核酸生成克隆型谱;(c)测序来自组织样品的核酸的一个或更多个基因座上的遗传标志物,以基于根据遗传标志物的个体和一个或更多个其他个体的遗传鉴定获得来自一个或更多个其他个体和来自所述个体的核酸的比例,其中遗传标志物出现在重组核酸和非重组核酸两者中存在的基因座上,以及(d)确定克隆型谱中的污染性核酸的水平为组织样品的核酸中存在的来自一个或更多个其他个体的核酸的比例。
在另一个方面,以上方法还包括以下步骤:(i)测量所述组织样品中所述核酸的总量;(ii)测量所述组织样品中所述重组核酸的总量;(iii)测序所述非重组核酸中存在且所述重组核酸中不存在的核酸的可切除区段中的一个或更多个基因座上的遗传标志物,以获得来自所述个体和来自所述一个或更多个其他个体的所述非重组核酸的比例;以及(iv)由所述组织样品的所述核酸中的污染性重组核酸的水平确定所述克隆型谱中的污染性核酸的所述水平,污染性重组核酸的水平由以下来确定:核酸的总量、所述重组核酸的总量、来自所述个体和来自所述一个或更多个其他个体的所述核酸的所述比例、以及所述个体和所述一个或更多个其他个体的所述非重组核酸的比例。
在另外的方面,本发明涉及用于确定个体的包含T细胞和/或B细胞的组织样品的克隆型谱中相关克隆型的检测限的方法,所述方法包括以下步骤:(a)从个体获得组织样品,该组织样品包含来自个体和可能来自一个或更多个其他个体的核酸,该核酸包括来自T细胞和/或B细胞的重组核酸和非重组核酸;(b)由组织样品的核酸生成克隆型谱;(c)测序来自组织样品的核酸的一个或更多个基因座上的遗传标志物,以基于根据遗传标志物的所述个体和所述一个或更多个其他个体的遗传鉴定获得来自一个或更多个其他个体和来自所述个体的核酸的比例,其中遗传标志物出现在重组核酸和非重组核酸两者中存在的基因座上,以及(d)确定检测限为对于个体的一个或更多个基因座的任何等位基因的水平为邻近最高的任何所述遗传标志物的等位基因的水平(determining the limit of detection as the levelof an allele of any of said genetic markers next highest to that of any allele ofthe one or more loci of the individual)。
本发明的这些以上特征方面,以及其他方面以一些说明性的实现和应用来示例,其中的一些示于附图并表征于以下的权利要求书部分。然而,以上概述不意在描述本发明的各个说明性实施方案或每个实现。
附图简述
本发明的新颖特征特别地记载在所附的权利要求书中。参考示出其中利用本发明的原则的说明性实施方案的以下详细的说明书获得本发明的特征和优势的更好的理解,并且其附图如下:
图1A示意性地示出了用于扩增用于本发明的遗传标志物的典型方案。
图1B示意性地示出了样品中的核酸,其包含患者核酸和污染性核酸,诸如来自一个或更多个其他患者的遗留DNA。
图1C示出了特定基因座上的遗传标志物的等位基因之间的序列读段的分布。
图1D示意性地示出了样品中的DNA,其包含患者的非重组核酸(Pn)和重组核酸(Pr)以及非重组核酸(Cn)和重组核酸(Cr)污染性核酸,诸如来自一个或更多个其他患者的遗留DNA。
图1E-1F示出了通过取样标记附加独特序列标签至核酸分子的实例。
图1G示出了IgH转录物和其内自然变异的来源。
图2A-2C示出了用于扩增TCRβ基因的两阶段PCR方案。
图3A示出了确定图2C的PCR产物的核苷酸序列的详细信息。图3B示出了确定图2C的PCR产物的核苷酸序列的另一个实施方案的详细信息。
图4A示出了在单一反应中由IgH链产生三个测序模板的PCR方案。图4B-4C示出了用于在三个单独反应中由IgH链产生三个测序模板的PCR方案,在三个单独反应之后,组合所得的扩增子用于加入P5和P7引物结合位点的第二PCR。图4D示出了对于IgH链产生的序列读段的位置。图4E示出了V和J区的密码子结构改进NDN区的碱基调用(base call)的用途。
图5示出了根据与相同序列标签相关的序列读段确定克隆型的序列的步骤的一个实现。
发明详述
除非另有指明,本发明的实践可采用,在本领域的技术范围内的分子生物学(包括重组技术)、生物信息学、细胞生物学、和生物化学的常规技术和描述。此类常规技术包括,但不限于,血细胞的取样和分析、核酸测序和分析等。合适的技术的具体说明可参考本文以下的实施例。然而,当然,还可使用其他等同的常规方法。此类常规技术和描述可参见标准实验室手册诸如Genome Analysis:A Laboratory Manual Series(.I-IV卷);PCR Primer:A Laboratory Manual;and Molecular Cloning:A LaboratoryManual(全部来自冷泉港实验室出版);等。
本发明涉及用于检测和定量用于产生克隆型谱的个体的组织样品中的核酸污染的方法。特别是,感兴趣的核酸污染是起源自其他个体遗留污染,诸如起源自患者至患者或测定操作者至患者的遗留污染,其中包含来自一个或更多个其他个体的克隆型的DNA不适当地与意在测量的个体的DNA混合。此类遗留污染的存在可导致具有重大医学利益的克隆型,诸如与癌症,诸如白血病相关的克隆型的存在和量的假性估计。
在一个实施方案中,来自其他个体的核酸污染可通过测量具有不同于感兴趣的个体,即意在测量或测定的个体的基因身份的基因身份的DNA的量或比例来确定。核酸在组织样品中的基因身份可通过基于短串联重复序列、单核苷酸多态性等的常规遗传鉴定测定来确定,诸如公开于以下文献中的,其通过引用并入本文:Caskey等人,美国专利5,364,759;Weber美国专利5,075,217;Shumaker等人,Human Mutation,7:346-354(1996);Sobrino等人,Forensic Sci.Int.,154(2-3):181-194(2005);Mark,Naturvissenschaften,84:181-188(1997);等。如图1A中所示,典型地,基因组DNA中的遗传标志物将具有可包含SNP或STR连同分别的上游和下游侧翼区(172)和(174)的多态性区(170),其可用于将遗传标志物(170)定位在基因组上并提供引物结合位点用于其扩增和分析。在一个实施方案中,上游和下游引物(176)和(180)连同来自免疫细胞的重组核酸可分别用于以两阶段PCR扩增遗传标志物(170)(如图2A-2B和4B-4C所示)。在此类实施方案中,引物(176)和(180)分别具有尾部(178)和(182),其具有允许与在两阶段PCR的第二阶段中用于扩增重组核酸的引物相同的引物用于扩增遗传标志物(170)的序列。尾部还可包含鉴定遗传标志物的基因座的条形码或标签(例如,以鉴定其为来自基因座1、2、3、或等,参考图1A)。如以下所述,尽量选择引物(176)和(180)的位置和长度使得其退火和解链温度与用于扩增重组核酸的那些大约相同(例如图2A的(212)并使得所得扩增子具有与重组核酸分子的扩增子大约相同的长度和GC含量。
示例性实施方案示于图1B中。在该图中,从组织样品中提取的核酸(100)表示为垂直线(101),既指示来自感兴趣的个体,诸如患者,的基因组或基因组的片段,又指示来自其他个体的基因组或基因组的片段,即污染性核酸(104)。全部个体在位点1、2、3、和4上将具有遗传标志物,其对于感兴趣的个体具有值S1、S2、S3、和S4(108),以及对于污染性DNA具有值S1’、S2’、S3’、和S4’(110),当然,如果污染来自一个以上其他个体,其可在各基因座上包括一个以上的值。在任何情况下,如以下所提到的,感兴趣的个体的值可与可存在于组织样品中的来自其他个体的值区分开。如果预先未知感兴趣的个体基于这些标志物的基因身份,其可由测定中产生的信息来确定。假定感兴趣的个体的DNA将是核酸的主要级分,例如80%、90%、95%,等,则相应于遗传标志物的不同等位基因的序列读段的分布将偏斜至相应于感兴趣的个体的等位基因,即主要等位基因,如图1C中对于遗传标志物基因座1所示。对于基因座1,比如说遗传标志物S1,具有六个等位基因,S1A、S1B、S1C、S1D、S1E和S1F。具有最高数目序列读段(152)的等位基因,S1C,将相应于感兴趣个体的等位基因。S1C的一些序列读段(150)可起因于其他个体,并且一些可分布在其他等位基因,例如(154)。从来自其他基因座的单独计数的序列读段,可建立并求解线性方程组以产生来自感兴趣个体和来自其他个体的核酸的比例的估计值。(例如,两个未知数可以是x1=来自感兴趣个体的遗传标志物的总序列读段的比例,且x2=来自其他个体的遗传标志物的总序列读段的比例)。序列读段在各遗传标志物的不同等位基因中的分布可用于鉴定感兴趣的个体所具有的等位基因。克隆型谱测量的最大灵敏度的测量(例如对于检测相关克隆型,诸如白血病克隆)通过最大非患者等位基因的值来提供,如由图1C中的线(155)所示。如果假定存在具有等位基因S1D的单一污染性基因组,则具有比S1D的值更大的值的任何克隆型将是患者克隆型的精确测量。对于以小于S1D等位基因的水平的水平存在于克隆型谱中的任何克隆型,存在克隆型不起源于患者的可能性。
在一个方面,本发明提供了用于确定个体的包含T细胞和/或B细胞的组织样品的克隆型谱中的相关克隆型的检测限的方法,其中此类方法包括以下步骤:(a)从个体获得组织样品,该组织样品包含来自个体和可能来自一个或更多个其他个体的核酸,该核酸包括来自T细胞和/或B细胞的重组核酸和非重组核酸;(b)由组织样品的核酸生成克隆型谱;(c)测序来自组织样品的核酸的一个或更多个基因座上的遗传标志物,以基于根据遗传标志物的所述个体和所述一个或更多个其他个体的遗传鉴定获得来自所述一个或更多个其他个体和来自所述个体的核酸的比例,其中遗传标志物出现在重组核酸和非重组核酸两者中存在的基因座上,以及(d)确定检测限为对于个体的一个或更多个基因座的任何等位基因的水平为邻近最高的任何所述遗传标志物的等位基因的水平。
在某些情况下,组织样品,诸如全血或PBMC中的细胞类型的比例(并因此重组DNA对非重组DNA的比例),可在来自患者,例如经历治疗,诸如癌症化疗的样品和来自另一个个体,诸如健康个体的污染之间显著不同。在这种情况下,另外的测量可确定源自来自可包括污染性细胞或核酸的组织样品的不同细胞的核酸的不同级分。在本实施方案中,核酸的此类级分可称为患者(或感兴趣的个体)非重组(Pn)、患者重组(Pr)、污染非重组(Cn)、污染重组(Cr)。本发明的该方面示于图1D中,其是来自组织样品的核酸的组成的示意性表示。两个条带(120)和(122)分别表示来自患者(或感兴趣的个体)的核酸和污染性核酸。患者核酸对污染性核酸的示例性比例可以是约90:10。各条带进一步分为重组核酸(Pr(124)和Cr(128))和非重组核酸(Pn(126)和Cn(130))。如以上所提及的,在某些情况下,比例Pr/Pn可非常不同于比例Cr/Cn。在各条带中,遗传标志物基因座S1至S4可用于确定患者核酸对污染性核酸的比例,其是(Pn+Pr)/(Cn+Cr)=Rstrl,其中Rstrl是来自患者核酸的遗传标志物的序列读段对来自其他个体的遗传标志物的序列读段的比例,即来自以上的x1/x2
组织样品中的总核酸的量或浓度可将重组核酸和非重组核酸两者共同的核酸区段,诸如“管家基因”,例如GAPDH(本文称为“共同区段”)的量,与用于此类区段、或基因的一个或更多个内标(internal standard)比较来确定。例如,在一阶段或两阶段PCR中,在处理之前,以已知的量或浓度将一种或更多种内标加入来自组织样品的核酸中。使用此类总核酸内标,人们可获得组织样品中总核酸的值Wg,即,值Wg=Pr+Pc+Cr+Cn。同样地,组织样品中重组核酸的总量或浓度可通过将克隆型的序列读段的量与在处理之前加入至来自组织样品的核酸的一个或更多个重组序列内标,例如V(D)J内标的序列读段的量比较来确定。在一个实施方案中,应用代表待分析的免疫组库特别是在长度和组成上代表待分析的免疫组库的一组重组序列内标。在另一个实施方案中,此类一个或更多个重组序列内标的数目可在1和10之间变化。使用此类内标,可确定值Wp=Cr+Pr
非重组核酸的比例或量可通过测量通常将在其中组装TCR和/或BCR的体细胞重组过程,即V(D)J重组,期间被切除的核酸的区段来确定。对于患者核酸和污染性核酸,此类区段,本文称为“可切除区段”,分别由盒子(132)和(134)示于图1D中。一个或更多个此类区段从重组核酸中切除,如线(133)和(135)所示,指示盒子(132)和(134)的不存在。在TCR和BCR二者的V(D)J重组期间,至少两个区段总是被切除并丢失:在包含V区基因的基因组段(the stretch of genome)和包含D区基因的基因组段之间的第一切除的区段,和在包含D区基因的基因组段和包含J区基因的基因组段之间的第二切除的区段。这些区段的序列容易从公开可得的基因组图谱中获得,所述公开可得的基因组图谱诸如NCBI基因组浏览器(NCBIGenome Browser)(http://www.ncbi.nih.gov/map),加利福尼亚大学Santa Cruz(UCSC)基因组浏览器(the University of California,Santa Cruz(UCSC)Genome Browser)(http://genome.ucsc.edu/cgi-bin/h)、或类似的图谱。例如,编码人BCR的V、D、和J基因见于基因组区14q32.33中或附近;在J基因和D基因之间的第一切除的区段具有位于人基因组的NCBI图谱的染色体14上坐标-106,335K至-106,345K内的序列,且位于D基因和V基因之间的第二切除的区段具有位于人基因组的NCBI图谱的染色体14上坐标-106,406K至-106,385K之间的序列。对于位于染色体7的7q32-35上的编码人TCRβ链的V、D、和J基因存在类似的可切除的区段,例如Hodges等人,J.Clin.Pathol.,56:1-11(2003)。在本发明的一个方面,非重组核酸,即,仍存在第一和第二切除的区段的核酸的比例和/或量,可以以至少两种方式来确定。使用位于切除的区段中的多态性遗传标志物,人们可比较来自患者(或感兴趣的个体)和来自污染性核酸的非重组核酸的相对量。即,比例Pn/Cn=Rstr2可由来自非重组核酸的遗传标志物的序列读段来计算。可选地,人们可使用内标计算非重组序列的总数目。第一和/或第二切除的片段的此类内标由以上NCBI序列使用常规技术容易地构建,诸如以下更充分讨论的。关于总核酸,此类测量允许确定量Pn+Cn=Wx,其中Wx是非重组核酸的总数目或浓度。
以上测量和关系可概述于以下表中:
可以以两种不同的方式做出重组核酸的测量;即,其可使用重组序列内标以得到值Nr=Wp来直接测量,且其可使用总核酸和总非重组核酸以得到值Nr*=Wg-Wx来间接测量。量,z=(Nr*-Nr)/Nr*,本文称为“暗重组(dark recombination)”,提供了测定中未确定的重组核酸的量度。
用于检测和定量克隆型污染的序列标签
在本发明的一个方面,污染性克隆型可通过使用作为基因身份标志物的替代选择的序列标签来检测和定量。在该方面,患者样品中的各克隆型通过序列标签来确定并标记,如以下更充分描述的。遗留污染以克隆型的形式的存在可通过使用序列标签以确定克隆型是起源于目前的样品或是来自另一个样品来检测。这通过以下来完成:保持由每个患者样品确定的序列标签的记录,然后每当做出后续测量时,将目前测量的序列标签与之前测量的那些序列标签进行比较。因为来自各测量的大量标签以及使用常规算法搜索和比较电子记录的容易性,所以将与克隆型相关的序列标签的此类记录便利地保持为大容量存储设备上的电子记录。如果发现匹配,则最可能的原因是遗留污染,条件是测量中采用的序列标签的群体是足够大的。用于以上讨论的通过取样标记的序列标签群体对克隆型群体的尺寸的相同示例性比例可应用于检测遗留污染。在一个实施方案中,此类比例为100:1或更大;在另一个实施方案中,此类比例为1000:1或更大。
使用序列标签确定克隆型
在一些实施方案中,本发明包括用于获得并分析来自免疫分子,诸如T细胞受体(TCR)或B细胞受体(BCR)或其限定的片段的组库的序列数据以迅速并有效地确定克隆型谱的步骤。序列数据通常包括序列读段的大集合,即来自用于分析免疫分子的DNA测序仪的碱基调用的顺序(sequencesof base calls)和相关质量评分。构建克隆型谱中的关键挑战是迅速并准确地辨别包含真正差别的序列读段与包含来自非生物来源,诸如提取步骤、测序化学、扩增化学等的错误的那些。本发明的一个方面包括将独特序列标签附着至样品中的每个克隆型以辅助确定此类缀合物的序列读段是否源于相同的原始克隆型。根据本发明的一个方面,将序列标签附着至体细胞重组核酸分子以形成标签-分子缀合物,其中此类缀合物的每个重组核酸具有独特的序列标签。通常,在从包含T细胞和/或B细胞的样品中提取核酸分子之后进行此类附着。优选地,当由用于序列的常规距离测量诸如汉明距离(Hamming distance)等确定时,此类独特序列标签尽最大可能彼此不同。通过最大化标签-分子缀合物中序列标签之间的距离,即使在高测序和扩增错误率下,缀合物的序列标签仍比不同的缀合物的任何其他标签序列的序列标签距其祖先标签序列近得多。例如,如果应用16-mer序列标签,并且一组克隆型上的每个此类标签具有距该克隆型上每隔一个序列标签的至少百分之五十、或八个核苷酸的汉明距离,则对于将一个此类标签转换进另一个而得到序列标签的错误读段(和将具有错误序列标签的克隆型的序列读段不正确分组),至少八个测序或扩增错误将是必需的。在一个实施方案中,选择序列标签使得在附着至重组核酸分子形成标签-分子缀合物之后,在标签-分子缀合物的标签之间的汉明距离是此类序列标签的总长度的至少百分之二十五的数字(即,每个序列标签与序列中每隔一个此类标签的不同为其核苷酸的至少25%);在另一个实施方案中,在此类序列标签之间的汉明距离是此类序列标签的总长度的至少50%的数字。
在一个方面,通过以下步骤确定克隆型谱:(a)从个体获得包含T细胞和/或B细胞的样品;(b)将序列标签附着至T细胞受体基因或T细胞和/或B细胞的免疫球蛋白基因的重组核酸分子以形成标签-分子缀合物,其中标签-分子缀合物的基本上每个分子具有独特序列标签;(c)扩增标签-分子缀合物;(d)测序标签-分子缀合物;以及(e)比对类似序列标签的序列读段以确定相应于组库的相同克隆型的序列读段。包含B细胞或T细胞的样品使用常规技术来获得,如以下更充分描述的。在附着序列标签的步骤中,优选地序列标签不仅独特,而且彼此足够不同,使得即使大量测序或扩增错误下将一个序列标签转换为另一个的可能性将接近于零。在附着序列标签之后,大多数测序技术需要扩增标签-分子缀合物;然而,每当采用单分子测序技术时,扩增步骤是任选的。单分子测序技术包括,但不限于,单分子实时(SMRT)测序,纳米孔测序,或类似的测序技术,例如美国专利7,313,308、8,153,375、7,907,800、7,960,116、8,137,569;Manrao等人NatureBiotechnology,4(8):2685-2693(2012);等。
在一些实施方案中,通过由取样标记将序列标签附着至样品的重组核酸分子,例如,如由以下公开的:Brenner等人,美国专利5,846,719;Brenner等人,美国专利7,537,897;Macevicz,国际专利公布WO 2005/111242;以及类似的专利,其通过引用并入本文。在由取样标记中,待标记(或加独特标签的)的群体的多核苷酸用于取样(通过附着、连接等)大得多的群体的序列标签。即,如果多核苷酸的群体具有K个成员(包括相同多核苷酸的重复)且序列标签的群体具有N个成员,则N>>K。在一个实施方案中,本发明使用的序列标签的群体的尺寸为样品中克隆型的群体的尺寸的至少10倍;在另一个实施方案中,本发明使用的序列标签的群体的尺寸为样品中克隆型的群体的尺寸的至少100倍;以及在另一个实施方案中,本发明使用的序列标签的群体的尺寸为样品中克隆型的群体的尺寸的至少1000倍。在其他实施方案中,选择序列标签群体的尺寸使得每当此类克隆型与此类序列标签群体组合时,例如在附着反应,诸如连接反应、扩增反应、或类似的反应中,样品中的基本上每个克隆型将具有独特序列。在一些实施方案中,基本上每个克隆型意指此类克隆型的至少90%将具有独特序列标签;在其他实施方案中,基本上每个克隆型意指此类克隆型的至少99%将具有独特序列标签;在其他实施方案中,基本上每个克隆型意指此类克隆型的至少99.9%将具有独特序列标签。在许多组织样品或活组织检查中,T细胞或B细胞的数量可多达或为约1百万个细胞;因此,在本发明采用此类样品的一些实施方案中,在由取样标记中采用的独特序列标签的数目为至少108个或在其他实施方案中至少109个。
在其中由取样标记了多达1百万个克隆型的此类实施方案中,大集合序列标签可由组合合成通过使全部四种核苷酸前体的混合物在合成反应的每个添加步骤中反应有效地产生,例如,如在Church,美国专利5,149,625中公开的,其通过引用并入本文。结果是一组具有“N1N2...Nk”结构的序列标签,其中每个Ni=A、C、G或T且k是标签中核苷酸的数目。由此类组合合成做出的一组序列标签中的序列标签的数目是4k。因此,具有k为至少14,或k在约14至18的范围内的一组此类序列标签适合于将序列标签通过由取样标记附着至106个成员的分子群体。具有以上结构的序列标签的集合包括可在实现本发明的方法时引入困难或错误的许多序列。例如,序列标签的以上组合合成的集合包括具有均聚物区段的许多成员标签,超过一定长度时,一些测序方法,诸如边测序边合成(sequencing-by-synthesis)方法,很难精确确定。因此,本发明包括具有对特定方法步骤,诸如测序是有效的结构的组合合成的序列标签。例如,对边测序边合成化学有效的数个序列标签结构可通过将四种天然核苷酸分为交替用于组合合成的不相交子集,由此预防均聚物区段超过给定长度来做出。例如,令z为A或C,且x为G或T,得到以下的序列标签结构
[(z)1(z)2...(z)i][(x)1(x)2...(x)j]...
其中选择i和j以限制任何均聚物区段的尺寸,i和j可相同或不同。在一个实施方案中,i和j在从1至6的范围内。在此类实施方案中,序列标签可具有从12个至36个核苷酸范围内的长度;并且在其他实施方案中,此类序列标签可具有从12个至24个核苷酸范围内的长度。在其他实施方案中,可使用核苷酸的其他配对,例如,z是A或T,且x是G或C;或z是A或G,且x是T或C。可选地,令z’是四种天然核苷酸中的三种的任何组合,且令x’是不是z’的任何核苷酸(例如,z’是A、C或G,且x’是T)。这给出如下序列标签结构:
[(z')1(z')2....(z’)i]x'[(z')i(z')2...(z’)i]x’...
其中如以上选择i,且x’的出现用作结束任何不期望的均聚物的标点。
各种不同附着反应可用于将独特标签附着至样品中的基本上每个克隆型。在一个实施方案中,此类附着通过以下来实现:将包含重组核酸分子的样品(其,继而,包含克隆型序列)与序列标签的群体或文库组合,使得分子的两个群体的成员可随机地组合并缔合或连接,例如共价地。在此类标签附着反应中,克隆型序列包括线性单链或双链多核苷酸,且序列标签由以下试剂携带:诸如扩增引物,诸如PCR引物、连接接头、可环化的探针、质粒等。能够携带序列标签群体的数个此类试剂公开于Macevicz,美国专利8,137,936;Faham等人,美国专利7,862,999;Landegren等人,美国专利8,053,188;Unrau和Deugau,Gene,145:163-169(1994);Church,美国专利5,149,625;等,其通过引用并入本文。
图1E和1F示出了包含PCR的附着反应,其中序列标签的群体(T1,T2,T3...Tj,Tj+1...Tk,Tk+1...Tn-1,Tn)掺入引物(1100)。序列标签的群体比重组核酸分子(1102)的尺寸大得多的尺寸。通过在PCR的第一个循环中将引物与核酸分子退火并用DNA聚合酶延伸引物将序列标签附着至重组核酸分子。图描述了重组核酸分子如何经由其共同引物结合区(1104),例如,在V区(1108)中的共同引物结合区,通过随机退火到引物选择或取样序列标签的总群体的小部分。由于引物(及因此序列标签)与重组核酸序列分子随机组合,存在相同序列标签可附着至不同核酸分子的小的可能性;然而,如果序列标签的群体与本文所教导的一样大,则此类可能性将小至可忽略,使得基本上每个重组核酸分子将具有附着的独特序列标签。正向和反向引物对的其他引物(1106)与C区(1110)退火使得在退火、延伸和解链的多个循环后,形成扩增子(1112),由此将独特序列标签附着至包含群体(1102)的克隆型的V(D)J区。即,扩增子(1112)包括来自附着反应的标签-分子缀合物。
此类免疫分子通常形成包括长度相对短(例如通常小于300bp)的非常类似的多核苷酸的非常大的集合(例如>1000,但更通常从100,000至1,000,000,或更多)的免疫组库。在本发明的一个方面,发明人认识到并理解,这些特征允许使用高度不同的序列标签以有效比较高度类似克隆型的序列读段以确定其是否源自相同的原始序列。
免疫组库的复杂性是熟知的,例如Arstila等人,Science,286:958-961(1999)和Warren等人(以上引用)。图1G示意性地示出了根据本发明的一些实施方案从中获得克隆型谱的IgH分子(1120)的典型的转录物。天然序列可变性的来源包括来自由基因组携带的大集合的C、D、J和V区段的模块化重组,D区段的末端的核苷酸添加和缺失以产生所谓的“NDN”区,和以如由曲线(1128)指示的大致相对频率在转录物(1122)的长度随机做出取代的体细胞高频突变。在本发明的一个方面,扩增并测序此类IgH和TCR转录物的复杂群体。在一个方面,对IgH分子的一个或两个操作通过使用对V区中不同位点退火的冗余引物来进行(以下更充分地讨论)。当采用具有相对高错误率的测序化学时或很难或不可能预先已知此类序列可变性时,这是特别有利的。在后一种情况下,即使因为(例如)由一个或更多个体细胞突变引起的错配,一个或更多个引物结合位点不能操作或基本上不能操作,用于扩增或产生序列读段的引物延伸仍然发生。从启动子P(1122)开始,曲线(1128)显示的相对频率上升通过前导区(1124),至转录物的V(D)J区(1126)上的最大值,之后其下降至接近零。在本发明的一个方面,重组B细胞核酸的区段通过具有多个正向引物或多个反向引物的PCR来扩增以产生模板的嵌套式集合,例如,如公开于Faham和Willis,美国专利公布2011/0207134中。来自此类集合的模板可在表面上进一步被扩增以形成单独的扩增子(例如,通过桥PCR使用cBot仪器,Illumina,San Diego,CA)。来自相同嵌套式集合的模板可通过在其共同末端产生的序列读段彼此缔合。模板的嵌套式集合允许具有相对高错误率的测序化学用于分析比以其他方式可能分析的序列更长的序列,而同时保持在序列的全长上的高平均质量评分。嵌套式集合还确保从V区获得至少一个序列读段,即使其已经历体细胞高频突变。
IgH分子中的体细胞突变使从序列读段数据重建克隆型增加了一层困难,因为难于确定碱基变化是由于测序或扩增错误还是由于天然突变过程。因为编码IgH的每个核酸将接纳不同并独特的序列标签,使用根据本发明的序列标签大大减轻此类困难。如图5所示,根据本发明,序列读段(500)各自包括序列标签(502)的拷贝和克隆型(504)的拷贝。组装具有相同序列标签的全部序列读段使得可比较克隆型部分中的各位置的核苷酸。因此,即使编码IgH的序列相差至多一个碱基,其将接纳不同的序列标签,使得样品中编码IgH的密切相关的核酸在克隆型确定过程中不彼此进行比较。如以上提到的,序列标签中的错误不显著,因为与克隆型相关的序列标签的序列在序列空间中相距甚远,使得可维持巨大数目的碱基变化而没有一个序列标签在序列空间中与任何其他序列标签变得靠近。
因为不同的方法具有不同期望的读段长度和数据质量,从序列读段数据构建克隆型部分地取决于产生此类数据使用的测序方法。在一个方法中,采用Solexa测序仪产生用于分析的序列读段数据。在一个实施方案中,获得提供至少0.5-1.0x106个淋巴细胞以产生至少1百万个模板分子的样品,其在任选的扩增后可产生模板分子的相应的一百万或更多个克隆群体(或集群)。对于大部分高通量测序方法,包括Solexa方法,此类集群水平的过度取样是需要的,使得各模板序列用大量的冗余来确定以增加序列确定的准确度。对于基于Solexa的实现,优选地各独立模板的序列被确定为10倍或更多。对于具有不同期望的读段长度和数据质量的其他测序方法,不同水平的冗余可用于获得可比较的序列确定准确度。本领域普通技术人员认识到,以上参数,例如样品尺寸、冗余等,是与特定应用相关的设计选择。
图2A-2C示出了在两阶段PCR中将独特序列标签附着至重组核酸分子的示例性步骤。将来自包含T细胞或B细胞的样品的重组核酸分子(250)的群体与具有正向和反向引物(202)和(262)的PCR混合物组合。引物(262)各包括三个区:靶退火区(263)(其在该图解中为V区(206));序列标签(264);和用于两阶段PCR的第二阶段的引物结合区(265)。在该图解中,引物(262)包括靶退火区的混合物以说明V区序列的多样性。因此,以序列标签区制备每个不同的引物。可选地,序列标签元件可连同用于第二PCR阶段的引物结合区附着至C区引物(202)。如提到的,重组核酸分子(250)包括恒定或C区(203)、J区(210)、D区(208)、和V区(206),其可表示编码或TCR或免疫球蛋白的CDR3区的V(D)J区段。在几个循环后,例如,4至10个循环后,生成各成员多核苷酸包括序列标签(270)的第一阶段扩增子(266)。在第二阶段PCR中,扩增子(266)的多核苷酸在Solexa/Illumina测序仪中使用桥PCR用增加了用于集群形成的另外的引物结合位点(224)和(223)的新的正向和反向引物P5(222)和P7(220)来再扩增。引物P7还包括用于样品在单一测序运行中的任选的多重化(multiplexing)的第二序列标签(221)。在产生具有嵌入式(embedded)P5和P7序列的第二PCR扩增子(280)之后,可通过嵌入式P5和P7序列进行桥PCR。
另外的序列标签
在一些实施方案中,本发明使用在扩增和测序之前以可包括“镶嵌标签”(mosaic tags)的独特标签标记核酸,诸如基因组DNA的片段的方法。此类序列标签对于鉴定扩增和测序错误是有用的。镶嵌标签最小化由于不适当的退火、引发、发卡形成等造成的测序和扩增假象,其可在现有技术的完全随机序列标签下发生。在一个方面,镶嵌标签是包括交替恒定区和可变区的序列标签,其中各恒定区具有在镶嵌标签中的位置并包括预定的核苷酸序列,且各可变区具有在镶嵌标签中的位置并包括预定数目的随机选择的核苷酸。例如,22-mer镶嵌标签可具有以下形式:
核苷酸位置:
区位置
存在九个恒定区和可变区,区1(核苷酸1-3)、3(核苷酸9)、5(核苷酸12-14)、7(核苷酸18-19)和9(核苷酸21-22)为可变的(双下划线的核苷酸),且区2(核苷酸4-8)、4(核苷酸10-11)、6(核苷酸15-17)、和8(核苷酸20)为恒定的。N表示从A、C、G或T的集合随机选择的核苷酸;因此,本实例的镶嵌标签的数目是411=4,194,304个标签。b表示指定的位置上的预定的核苷酸。在一些实施方案中,选择b的序列“***bbbbb*bb***bbb**b**”以最小化在构成样品的生物体的基因组中具有完美匹配的可能性。
在一个方面,对于本发明的方法的特定实施方案的镶嵌标签,具有相同位置的全部恒定区具有相同的长度且具有相同的位置的全部可变区具有相同的长度。这允许镶嵌标签以常规的化学和仪器使用部分组合合成来合成。
在一个方面中,镶嵌标签包括从10个至100个核苷酸、或从12个至80个核苷酸、或从15个到60个核苷酸。在一些实施方案中,镶嵌标签包括具有随机选择的核苷酸的至少八个核苷酸位置;在其他实施方案中,每当镶嵌标签具有至少15个核苷酸的长度时,其包括具有随机选择的核苷酸的至少12个核苷酸位置。在另一个方面,在镶嵌标签内没有可变区可具有大于七个核苷酸的长度。
在另一个方面,镶嵌标签可在以下的步骤中使用:(i)从样品中的核酸制备DNA模板;(ii)通过取样标记DNA模板以形成多个标签-模板缀合物,其中标签-模板缀合物的基本上每个DNA模板具有包含交替恒定区和可变区的独特镶嵌标签,各恒定区具有该镶嵌标签中的位置和长度为从1个至10个核苷酸的预定序列,且各可变区具有该镶嵌标签中的位置和长度为从1个至10个的随机选择的核苷酸,使得具有相同位置的恒定区具有相同的长度,且具有相同位置的可变区具有相同的长度;(iii)扩增多个标签-模板缀合物;(iv)对于扩增的标签-模板缀合物的每一个产生多个序列读段;以及(v)通过确定具有相同镶嵌标签的多个序列读段的每个的各核苷酸位置上的一致核苷酸确定每个核酸的核苷酸序列。在另一个方面,镶嵌标签可在以下的步骤中使用:(a)从样品中的核酸制备单链的DNA模板;(b)通过取样标记单链的DNA模板以形成标签-模板缀合物,其中标签-模板缀合物的基本上每个单链的DNA模板具有独特序列标签(即,镶嵌标签),该独特序列标签具有至少15个核苷酸的长度,且具有以下形式:
[(N1N2...NKj)(b1b2....bLj)]M
其中各Ni,对于i=1、2、...Kj,为随机选自由A、C、G和T组成的组的核苷酸;Kj为从1至10的范围内的整数,对于各j小于或等于M(即,区N1N2...NKj是可变区);各bi,对于1、2、...Lj,是核苷酸;Lj为从1至10的范围内的整数,对于各j小于或等于M;使得每个序列标签(i)对于每个j具有相同Kj以及(ii)对于每个j具有相同序列b1b2...bLj(即,区b1b2...bLi是恒定区);以及M为大于或等于2的整数;(c)扩增标签-模板缀合物;(d)产生扩增的标签-模板缀合物的每个的多个序列读段;以及(e)通过确定具有相同序列标签的多个序列读段的每个的各核苷酸位置上的一致核苷酸确定每个核酸的核苷酸序列。在一些实施方案中,多个序列读段是至少104个;在其他实施方案中,多个序列读段是至少105个;在仍其他实施方案中,多个序列读段是至少106个。在一些实施方案中,以上序列标签的总长度在从15个至80个核苷酸的范围内。
使用序列标签从序列读段确定克隆型
根据本发明的一个方面,样品的克隆型通过首先基于其序列标签的分组序列读段来确定。此类分组可通过常规的序列比对方法来完成。用于选择比对方法的指导可见于Batzoglou,Briefings in Bioinformatics,6:6-22(2005),其通过引用并入。在将序列读段组装为相应于独特序列标签的组之后,然后可分析相关的克隆型的序列以确定来自样品的克隆型的序列。图5示出了来自确定与独特序列标签相关的克隆型的序列的示例性比对和方法。在本实施例中,十一个序列读段(500)经由其各自的序列标签(502)来对齐,之后比较指示为1、2、3、4、...n的序列读段的克隆型部分的各位置上的核苷酸。例如,在位置6(506)上的核苷酸为t、t、g、t、t、t、t、t、t、c、t;即,九个碱基调用为t,一个是“g”(508)且一个是“c”(510)。在一个实施方案中,克隆型序列在位置上的正确碱基调用总是为大多数碱基的身份。在位置6(506)的实例中,碱基调用是“t”,因为其是该位置上大多数序列读段中的核苷酸。在其他实施方案中,可考虑其他因素以确定用于克隆型序列的正确的碱基调用,诸如序列读段的碱基调用的质量评分、邻近碱基的身份等。
如以上描述确定克隆型后,可组装包含样品的各不同克隆型的丰度或频率的克隆型谱。
样品
克隆型谱获自存在于多种组织中的免疫细胞的样品。感兴趣的免疫细胞包括T细胞和/或B细胞。T细胞(T淋巴细胞)包括,例如,表达T细胞受体(TCR)的细胞。B细胞(B淋巴细胞)包括,例如,表达B细胞受体(BCR)的细胞。T细胞包括辅助T细胞(效应T细胞或Th细胞)、细胞毒性T细胞(CTL)、记忆T细胞、和调节性T细胞,其可通过细胞表面标志物来区分。在一个方面,T细胞的样品包括至少1,000个T细胞;但更通常地,样品包括至少10,000个T细胞,且更通常地,至少100,000个T细胞。在另一个方面,样品包括从1000个至1,000,000个细胞的范围内的T细胞的数目。免疫细胞的样品还可包括B细胞。B细胞包括,例如,血浆B细胞、记忆B细胞、B1细胞、B2细胞、边缘区B细胞、和滤泡性B细胞。B细胞可表达免疫球蛋白(还称为抗体或B细胞受体)。如以上,在一个方面,B细胞的样品包括至少1,000个B细胞;但更通常地,样品包括至少10,000个B细胞,且更通常地,至少100,000个B细胞。在另一个方面,样品包括从1000个至1,000,000个B细胞的范围内的B细胞的数目。
在本发明的方法中使用的样品(有时称为“组织样品”)可来自多种组织,包括,例如,肿瘤组织、血液和血浆、淋巴液、脑和脊髓周围的脑脊液、骨关节周围的滑液等。在一个实施方案中,样品是血液样品。血液样品可以是约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5、或5.0mL。样品可以是肿瘤活体组织切片(biopsy)。活体组织切片可来自,例如,脑、肝、肺,心脏、结肠、肾、或骨髓的肿瘤。本领域技术人员使用的任何活体组织切片技术可用于从受试者分离样品。例如,活体组织切片可以是其中使用了全身麻醉的开放的活体组织切片。活体组织切片可以是其中做出比在开放活体组织切片中更小的切口的封闭的活体组织切片。活体组织切片可以是核心或切口活体组织切片,其中移出组织的部分。活体组织切片可以是切除活体组织切片,其中做出移出整个病变的尝试。活体组织切片可以是细针吸取活体组织切片,其中用针移出组织或液体的样品。
样品或组织样品包括核酸,例如,DNA(例如,基因组DNA)或RNA(例如,信使RNA)。核酸可以是无细胞的DNA或RNA,例如提取自循环系统,Vlassov等人,Curr.Mol.Med.,10:142-165(2010);Swamp等人,FEBS Lett.,581:795-799(2007)。在本发明的方法中,可分析的来自受试者的RNA或DNA的量包括广泛变化。例如,单细胞的DNA或RNA可以是校准测试需要的全部(即,初始测量以确定疾病的相关克隆型)。为了生成克隆型谱,足够的核酸必须存在于样品中以获得个体的免疫受体组库的有用的表示。更具体地,为了从基因组DNA生成克隆型,从样品提取至少1ng来自T细胞或B细胞的总DNA(即约300二倍体基因组当量);在另一个实施方案中,从样品提取至少2ng的总DNA(即约600二倍体基因组当量);以及在另一个实施方案中,从样品提取至少3ng的总DNA(即约900二倍体基因组当量)。普通技术人员将认识到,当样品中淋巴细胞的比例减少时,前述最低量的DNA必须增加以产生包含多于约1000个独立克隆型的克隆型谱。在一个实施方案中,为了从RNA生成克隆型谱,提取足够量的RNA使得获得编码独特TCR、BCR、或其片段的至少1000个转录物。取决于样品中淋巴细胞的比例、淋巴细胞的发育阶段等,相应于该限值的RNA的量从样品至样品广泛变化。在一个实施方案中,至少100ng的RNA提取自包含B细胞和/或T细胞的组织样品用于生成克隆型谱;在另一个实施方案中,至少500ng的RNA提取自包含B细胞和/或T细胞的组织样品用于生成克隆型谱。本发明的方法中使用的RNA可以是从组织样品提取的总RNA或从组织样品直接提取的多聚腺苷酸RNA(polyA RNA)或提取自从组织样品提取的总RNA的多聚腺苷酸RNA。以上核酸提取可使用商购可得的试剂盒,例如来自Invitrogen(Carlsbad,CA)、Qiagen(San Diego,CA)、或类似的供应商的试剂盒来进行。用于提取RNA的指导见于Liedtke等人,PCR Methods and Applications,4:185-187(1994);以及类似的文献。
如以下(定义)更充分讨论的,包含淋巴细胞的样品足够大使得其中代表了具有独特克隆型的基本上每个T细胞或B细胞,由此形成组库(如本文使用的术语)。在一个实施方案中,采集以九十九百分比的可能性包含具有以.001百分比或更大的频率存在的群体的每个克隆型的样品。在另一个实施方案中,采集以九十九百分比的可能性包含具有以.0001百分比或更大的频率存在的群体的每个克隆型的样品。在一个实施方案中,B细胞或T细胞的样品包括至少五十万个细胞,且在另一个实施方案中,此类样品包括至少一百万个细胞。
每当从中采集样品,诸如,临床研究样品等,的材料的来源稀少时,来自材料的DNA可通过诸如以下的非偏倚技术来扩增:全基因扩增(WGA)、多重置换扩增(MDA);或类似的技术,例如Hawkins等人,Curr.Opin.Biotech.,13:65-67(2002);Dean等人,Genome Research,11:1095-1099(2001);Wang等人,Nucleic Acids Research,32:e76(2004);Hosono等人,Genome Research,13:954-964(2003);等。
血液样品是特别感兴趣的,并可使用常规技术来获得,例如Innis等人,编著,PCR Protocols(Academic Press,1990);或类似的文献。例如,白血细胞可使用常规技术从血液样品中制备,例如RosetteSep试剂盒(StemCell Technologies,Vancouver,Canada)。同样地,全血的其他级分,诸如外周血单核细胞(PBMC)可使用商购可得的试剂盒例如Miltenyi Biotec,Auburn,CA)或类似的试剂盒来分离以用于本发明的方法。血液样品可在从100μl至10ml的体积范围内变化;在一个方面,血液样品体积在从100μl至2ml的范围内。然后使用的常规技术从此类血液样品中提取DNA和/或RNA以用于本发明的方法,例如DNeasy Blood&Tissue试剂盒(Qiagen,Valencia,CA)。任选地,白血细胞的子集,例如淋巴细胞可使用常规技术,例如荧光激活细胞分选(FACS)(Becton Dickinson,San Jose,CA)、磁激活细胞分选(MACS)(Miltenyi Biotec,Auburn,CA)、或类似的技术来进一步分离。
在一些实施方案中,重组核酸存在于各个体的适应性免疫细胞的DNA中,以及其相关的RNA转录物中,使得RNA或DNA可在本发明提供的方法中测序。编码T细胞受体或免疫球蛋白分子、或其部分的来自T细胞或B细胞的重组序列称为克隆型。DNA或RNA可相应于来自T细胞受体(TCR)基因或编码抗体的免疫球蛋白(Ig)基因的序列。例如,DNA和RNA可相应于编码TCR的α、β、γ、或δ链的序列。在大多数T细胞中,TCR是由α链和β链组成的异源二聚体。TCRα链由VJ重组产生,且β链由V(D)J重组产生。对于TCRβ链,在人中存在48个V区段、2个D区段、和13个J区段。在两个连接点的每个上可缺失几个碱基或添加其他碱基(称为N和P核苷酸)。在少数的T细胞中,TCR由γ和δdelta链组成。TCRγ链由VJ重组产生,且TCRδ链由V(D)J重组产生(Kenneth Murphy,PaulTravers,和Mark Walport,Janeway’s Immunology第7版,Garland Science,2007,其在此通过引用以其整体并入)。
在本发明的方法中分析的DNA和RNA可相应于编码具有恒定区(α、δ、ε、γ、或μ)的重链免疫球蛋白(IgH)或具有恒定区λ或κ的轻链免疫球蛋白(IgK或IgL)的序列。每种抗体具有两条相同的轻链和两条相同的重链。每条链包括恒定区(C)和可变区。对于重链,可变区包括可变(V)区段、多样性(D)区段、和连接(J)区段。编码这些区段的每个类型的若干不同的序列存在于基因组中。在B细胞的发育期间特定VDJ重组事件发生,标志该细胞产生特定重链。多样性在轻链中以类似方式产生,除了不存在D区使得仅存在VJ重组。体细胞突变常在重组位点附近发生,导致数个核苷酸的添加或缺失,进一步增加由B细胞产生的重链和轻链的多样性。然后由B细胞产生的抗体的可能的多样性是不同重链和轻链的产物。重链和轻链的可变区有助于形成抗原识别(或结合)区或位点。体细胞高频突变的过程增加了该多样性,体细胞高频突变可在针对一些表位发动特异性应答之后发生。
根据本发明,可选择引物以产生从淋巴细胞中提取的重组核酸的子集的扩增子。此类子集可在本文中称为“体细胞重排区”。体细胞重排区可包括来自发育中的淋巴细胞或来自充分发育的淋巴细胞的核酸,其中发育中的淋巴细胞是其中形成具有完整V(D)J区的分子的免疫基因的重排没有完成的细胞。示例性的不完整的体细胞重排区包括不完整的IgH分子(诸如,仅包含D-J区的分子)、不完整的TCRδ分子(诸如,仅包含D-J区的分子)、和非活性IgK(例如,包括Kde-V区)。
细胞的足够的取样是解释组库数据的重要方面,如以下在“克隆型”和“组库”的定义中进一步描述的。例如,以1,000个细胞开始创建最小频率使得测定是敏感的不管获得多少测序读段。因此本发明的一个方面是开发定量输入的免疫受体分子的数目的方法。这对于TCRβ和IgH序列已实现了。在任何情况下,使用相同的引物集合能够扩增全部不同序列。为了获得拷贝的绝对数目,伴随具有免疫受体拷贝的已知数目的标准,用多个引物进行实时PCR。该实时PCR测量可由随后将被测序的扩增反应做出或可在相同样品的单独等分试样上做出。在DNA的情况下,重排的免疫受体分子的绝对数目可容易地转化为细胞数目(在2倍内,因为一些细胞将具有2个重排拷贝的评估的特定免疫受体,且其他的将具有一个)。在cDNA的情况下,可推测实时样品中重排分子的测量的总数目以定义在相同样品的另一个扩增反应中使用的这些分子的总数目。另外,该方法可与确定RNA总量的方法组合以定义重排免疫受体分子在RNA的单位量(即1μg)中的数目,假设cDNA合成的特定效力。如果测量了cDNA的总量,则不需考虑cDNA合成的效力。如果还已知细胞的数目,则可计算重排免疫受体拷贝/细胞。如果未知细胞的数目,由于特定类型的细胞通常产生可比较的RNA的量,人们可从总RNA估计细胞的数目。因此,从重排免疫受体分子的拷贝/1μg,人们可估计这些分子的数目/细胞。
由将处理用于测序的反应进行单独实时PCR的一个缺点是,可能存在抑制效应,该抑制效应在实时PCR与其他反应中不同,因为可利用不同的酶、输入DNA、和其他条件。处理实时PCR的产物用于测序将改善该问题。然而,使用实时PCR的低拷贝数可起因于反应中低拷贝数目或抑制效应、或其他次优的条件。
可将已知量的一种或更多种cDNA或基因组DNA的内标加入至测定反应中以确定未知量的cDNA或基因组DNA的绝对量或浓度。通过计数内标分子的数目,并将其与同一样品的序列的剩余部分进行比较,人们可估计初始cDNA样品中重排的免疫受体分子的数目。(用于分子计数的此类技术是熟知的,例如Brenner等人,美国专利7,537,897,该专利通过引用并入本文)。
核酸群体的扩增
核酸的靶群体、特别是重组免疫分子的扩增,可通过各种扩增技术来产生。在本发明的一个方面,多重PCR用于扩增重组免疫分子诸如T细胞受体或其部分或B细胞受体或其部分的混合物的成员。用于进行此类免疫分子的多重PCR的指导参见以下参考文献,其通过引用并入:Morley,美国专利5,296,351;Gorski,美国专利5,837,447;Dau,美国专利6,087,096;Von Dongen等人,美国专利公布2006/0234234;欧洲专利公布1544308B1;以及类似的专利。在本发明的一些实施方案中,产生克隆型谱的步骤包括以下步骤:(a)扩增T细胞受体基因的部分和/或B细胞受体基因的部分以及(b)测序所得扩增子的核酸。如在别处解释的,测序的扩增子核酸的数目可从应用至应用变化。例如,确定白血病患者是否仍处于缓解期的克隆型谱将是大量的使得任何肿瘤克隆的检测限将是非常低的。在一些实施方案中,测序的扩增子核酸的数目是至少1000个;在其他实施方案中,测序的扩增子核酸的数目是至少104个;在其他实施方案中,测序的扩增子核酸的数目是至少105个。此类产生步骤还可包括以下的进一步的步骤:将序列读段合并成克隆型,列举或制表克隆型,形成克隆型的频率分布,鉴定克隆型的相关子集,显示克隆型频率信息,等。
由基因组扩增DNA(或通过逆转录RNA以cDNA的形式扩增核酸)之后,可分离、任选地再扩增单独的核酸分子,并然后单独地测序。示例性扩增方案可参见于van Dongen等人,Leukemia,17:2257-2317(2003)或van Dongen等人,美国专利公布2006/0234234,其通过引用并入。简单地,示例性方案如下:反应缓冲液:ABI Buffer II或ABI Gold Buffer(LifeTechnologies,San Diego,CA);50μL最终反应体积;100ng样品DNA;10pmol的各引物(进行调整以平衡扩增,如以下描述的);以200μM终浓度的dNTP;以1.5mM终浓度的MgCl2(取决于靶序列和聚合酶进行优化);Taq聚合酶(1-2U/管);循环条件:95℃下预活化7min;60℃下退火;循环时间:30s变性;30s退火;30s延伸。可在本发明的方法中用于扩增的聚合酶是商购可得的并且包括,例如,Taq聚合酶、AccuPrime聚合酶、或Pfu。聚合酶使用的选择可基于优选保真度还是效力。
实时PCR、picogreen染色、纳流控电泳(例如LabChip)或UV吸收测量可用于初始步骤以判断扩增的材料的功能的量。
在一个方面,进行多重扩增使得起始群体中序列的相对量与扩增群体中的那些序列、或扩增子基本相同。即,以样品群体的成员序列之间的最小扩增偏差进行多重扩增。在一个实施方案中,如果扩增子中的各相对量在其起始样品中的值的五倍内,此类相对量基本相同。在另一个实施方案中,如果扩增子中的各相对量在其起始样品中的值的两倍内,此类相对量基本相同。如以下更充分地讨论,PCR中的扩增偏差可使用常规技术检测并校正,使得对于预定的组库可选择用于提供任何样品的无偏差扩增的PCR引物的集合。
关于基于TCR或BCR序列的许多组库,多重扩增任选地使用全部V区段。优化反应,以尝试获得维持由不同V区段引物扩增的序列的相对丰度的扩增。一些引物是相关的,并因此许多引物可“串扰(cross talk)”,扩增不完全与其匹配的模板。优化条件,使得各模板可以以类似方式来扩增而不论哪个引物扩增它。换言之,如果存在两个模板,然后在1,000倍扩增后,两个模板可扩增约1,000倍,因为串扰,对于一个模板来说,扩增的产物的一半携带不同的引物并不重要。在测序数据的随后分析中,从分析中排除引物序列,并因此,只要同样扩增模板,什么引物用于扩增并不重要。
在一个实施方案中,扩增偏差可通过以下避免:进行两阶段扩增(如Faham和Willis中描述的,以上引用),其中在第一、或初级阶段使用具有与靶序列不互补的尾部的引物实现小数目扩增循环。尾部包括添加至初级扩增子的序列的末端的引物结合位点,使得此类位点用于仅使用单一正向引物和单一反向引物的第二阶段扩增,由此排除扩增偏差的主要原因。优选地,初级PCR将具有足够小数目的循环(例如5-10)以最小化不同引物的差别扩增。用一对引物进行第二扩增并因此差别扩增的问题是最小的。第二PCR直接采用初级PCR的百分之一。在两个扩增之间使用三十五个循环(等于没有100倍稀释步骤下的~28个循环)足以显示稳健扩增,不论循环如何分解:一个初级循环和34个第二循环或25个初级循环和10个第二循环。即使在初级PCR中理想地仅进行1个循环可减少扩增偏差,但存在其他考虑。其中的一个方面是代表性(representation)。当起始输入量不超过最终获得的读段的数目时,这起作用。例如,如果获得了1,000,000个读段,且以1,000,000个输入分子起始,则第二扩增仅采取由100,000个分子的代表性将降低估计初始样品中不同种类的相对丰度的精度。在2个步骤之间的100倍稀释意味着除非初级PCR扩增产生显著大于100个分子,否则代表性减少。这表明可使用最小8个循环(256倍),但更充裕地10个循环(1,000倍)。替代的选择是,第二PCR采取多于1%的初级PCR,但因为初级PCR中使用的高浓度的引物,可使用大稀释系数以确保这些引物不干扰扩增并使序列之间的扩增偏差恶化。另一个替代的选择是,加入纯化或酶促步骤以从初级PCR中清除引物,允许更小稀释它。在本实施例中,初级PCR是10个循环,且第二PCR是25个循环。
使用内标对序列丰度的测量
如以上提及的,可将各种内标加入至本方法的扩增反应中以估计样品中感兴趣的分析物的绝对量。对于采用PCR的实施方案,用于设计并制备内标的指导可参见Roche Molecular Biochemicals Application Note LC11/2000,或类似的参考文献。简单地,内标的设计目标是提供与被定量的靶分子具有相同扩增效力的化合物。此类目标可通过选择包括以下特性的内标来满足:(a)同源于靶分子(包括具有相同长度和GC含量);(b)与靶分子相同的引物结合位点;(c)来自良好定义的来源(例如,线性化的质粒DNA、纯化的PCR产物、合成的DNA、或类似的);(d)可容易检测(例如,即使在测序错误的存在下,可容易辨别不同的序列);(e)以高度精确的浓度引入反应。
本发明使用的内标包括,但不限于,(a)用于定量样品中总核酸的内标(或更确切地说,在扩增反应的起始材料中的总核酸、或基因组当量的总数目);用于样品中总重组核酸的内标;以及(c)用于样品中总非重组核酸的内标。在一个实施方案中,用具有与用于扩增克隆型的那些引物相同的解链和退火温度的引物设计内标。在另一个实施方案中,为两阶段扩增设计此类引物使得用于内标的第二阶段扩增的引物与扩增克隆型使用的那些引物相同。例如,参考图2A和2B,对于第一扩增阶段,用于说明的实施方案的内标的引物可与引物(202)和一个(或数个)引物(212)相同,且对于第二扩增阶段,内标的引物可与引物(222)和引物(220)相同。
生成克隆型的序列读段
可在本发明的方法中使用用于测序核酸的任何高通量技术。优选地,此类技术具有以成本有效方式生成从其中可确定至少1000个克隆型,并优选地,从其中可确定至少10,000至1,000,000个克隆型的大量序列数据的能力。DNA测序技术包括使用标记的终止剂或引物和凝胶分离板或毛细管的经典双脱氧测序反应(Sanger方法),通过使用可逆终止标记的核苷酸的合成的测序,焦磷酸测序,454测序,等位基因特异性杂交于标记的寡核苷酸探针文库,通过使用等位基因特异性杂交于标记的克隆的文库,随后通过连接的合成的测序,在聚合步骤期间实时监控标记的核酸的掺入,聚合酶克隆测序(polony sequencing),和SOLiD测序。分离的分子的测序新近已通过以下被证实:通过使用聚合酶或连接酶的连续或单一延伸反应,以及通过与探针的文库单一或连续差别杂交。这些反应已在很多克隆序列上并行进行,包括在超过1亿序列并行的现在商业应用中的展示。因此这些测序方法可用于研究T细胞受体(TCR)和/或B细胞受体(BCR)的组库。在本发明的一个方面,采用包括在它们并行被测序的固体表面上空间地分离个体分子的步骤的测序的高通量方法。此类固体表面可包括无孔的表面(诸如在Solexa测序中,例如Bentley等人,Nature,456:53-59(2008)或完整基因组测序,例如Drmanac等人,Science,327:78-81(2010)),孔阵列(arrays of wells),其可包括珠子或颗粒结合的模板(诸如对于454,例如Margulies等人,Nature,437:376-380(2005)或离子激流测序,美国专利公布2010/0137143或2010/0304982),微型机械膜(诸如对于SMRT测序,例如Eid等人Science,323:133-138(2009)),珠阵列(如对于SOLiD测序或聚合酶克隆测序,例如Kim等人,Science,316:1481-1414(2007))。在另一个方面,此类方法包括在分子在固体表面上空间地被分离之前或之后扩增分离的分子。预先扩增可包括基于乳液的扩增,诸如乳液PCR、或滚环扩增。其中特别感兴趣的是基于Solexa的测序,其中在固体表面上空间地分离单个模板分子,其后,它们并行通过桥PCR扩增以形成单独克隆群体,或集群,并且然后测序,如描述于Bentley等人(以上引用)和制造商的说明(例如TruSeqTm Sample Preparation Kit and Data Sheet,Illumina,Inc.,San Diego,CA,2010)中;以及还在以下的文献中:美国专利6,090,592、6,300,070、7,115,400、和EP0972081B1;其通过引用并入。在一个实施方案中,在固体表面上布置并扩增的个体分子以至少105个集群/cm2的密度、或以至少5x105个/cm2的密度、或以至少106个集群/cm2的密度形成集群。在一个实施方案中,采用具有相对高错误率的测序化学。在此类实施方案中,由此类化学产生的平均质量评分为序列读段长度的单调下降函数。在一个实施方案中,此类下降相应于0.5%的序列读段,该0.5%的序列读段具有在位置1-75内的至少一个错误;1%的序列读段具有在位置76-100内的至少一个错误;以及2%的序列读段具有在位置101-125内的至少一个错误。
在一个方面,个体的基于序列的克隆型谱使用以下步骤来获得:(a)从个体的T细胞和/或B细胞获得核酸样品;(b)空间地分离源自此类核酸样品的个体分子,该个体分子包括由样品中核酸产生的至少一个模板,其中模板包括体细胞重排区或其部分,每一个个体分子能够产生至少一个序列读段;(c)测序所述空间地分离的个体分子;以及(d)确定来自核酸样品的核酸分子的不同序列的丰度以产生克隆型谱。在一个实施方案中,每个体细胞重排区包括V区和J区。在另一个实施方案中,测序的步骤包括:双向测序每个空间分离的个体分子,以产生至少一个正向序列读段和至少一个反向序列读段。关于后一实施方案,正向序列读段的至少一个和反向序列读段的至少一个具有重叠区使得此类重叠区的碱基由在此类序列读段之间的反向互补关系来确定。在仍另一个实施方案中,各体细胞重排区包括V区和J区,并且测序的步骤还包括从其正向序列读段的一个或更多个和至少一个反向序列读段从J区中位置起始并在其相关的V区的方向上延伸确定每一个个体核酸分子的序列。在另一个实施方案中,个体分子包括选自由以下组成的组中的核酸:完整的IgH分子、不完整的IgH分子、完整的IgK完整、IgK非活性分子、TCRβ分子、TCRγ分子、完整TCRδ分子、以及不完整的TCRδ分子。在另一个实施方案中,测序的步骤包括产生具有单调递减质量评分的序列读段。关于后一实施方案,单调递减质量评分是使得序列读段具有几乎等于(no better than)以下的错误率的评分:0.2%的序列读段包含在碱基位置1至50内的至少一个错误,0.2%至1.0%的序列读段包含在位置51-75内的至少一个错误,0.5%至1.5%的序列读段包含在位置76-100内的至少一个错误。在另一个实施方案中,以上方法包括以下步骤:(a)从个体的T细胞和/或B细胞获得核酸样品;(b)空间地分离源自此类核酸样品的个体分子,该个体分子包括各自从样品中的核酸生成并且各自包含体细胞重排区或其部分的模板的嵌套式集合,各嵌套式集合能够产生,各自在相同方向延伸并且各自从嵌套式集合所产生自的核酸上的不同位置起始的多个序列读段;(c)测序所述空间分离的个体分子;以及(d)确定来自核酸样品的核酸分子的不同序列的丰度以生成克隆型谱。在一个实施方案中,测序的步骤包括为每个嵌套式集合产生多个测序读段。在另一个实施方案中,每个体细胞重排区包V区和J区,并且多个序列读段的每个从V区内的不同位置起始并在其相关J区的方向内延伸。
在一个方面,对于来自个体的各样品,本发明的方法中使用的测序技术生成至少1000个克隆型的序列/运行;在另一个方面,此类技术生成至少10,000个克隆型的序列/运行;在另一个方面,此类技术生成至少100,000个克隆型的序列/运行;在另一个方面,此类技术生成至少500,000个克隆型的序列/运行;以及在另一个方面,此类技术生成至少1,000,000个克隆型的序列/运行。在还另一个方面,此类技术生成在100,000个至1,000,000个克隆型之间的序列/运行/个体样品。
本发明提供的方法中使用的测序技术可生成约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp、约100bp、约110bp、约120bp/读段,约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、约500bp、约550bp、或约600bp/读段。
由无序列标签的序列数据确定克隆型
因为不同的方法具有不同期望的读段长度和数据质量,从序列读段数据构建克隆型部分地取决于产生此类数据使用的测序方法。在一个方法中,采用Solexa测序仪产生用于分析的序列读段数据,如以下描述的:Faham和Willis,以上引用)。在一个实施方案中,获得提供至少0.5-1.0x106个淋巴细胞以产生至少1百万个模板分子的样品,其在任选的扩增后可产生模板分子的相应的一百万或更多克隆群体(或集群)。对于大部分高通量测序方法,包括Solexa方法,此类集群水平的过度取样是需要的,使得各模板序列用大量的冗余来确定以增加序列确定的准确度。对于基于Solexa的实现,优选地各独立模板的序列被确定为10倍或更多。对于具有不同期望的读段长度和数据质量的其他测序方法,不同水平的冗余可用于获得可比较的序列确定准确度。本领域普通技术人员认识到,以上参数,例如样品尺寸、冗余等,是与特定应用相关的设计选择。
在本发明的一个方面,克隆型的序列(包括但不限于源自以下的那些:IgH、TCRα、TCRβ、TCRγ、TCRδ、和/或IgLκ(IgK))可由来自一个或更多个序列读段,例如,沿着选择的链的V(D)J区的一个或更多个序列读段的组合信息来确定。在另一个方面,克隆型的序列通过来自多个序列读段的组合信息来确定。此类多个序列读段可包括沿着有义链的一个或更多个序列读段(即“正向”序列读段),以及沿着其互补链的一个或更多个序列读段(即“反向”序列读段)。当多个序列读段沿着相同链产生时,单独模板首先由用为序列读段的不同位置选择的引物扩增样品分子来产生。该概念示于图4A中,其中引物(404、406和408)用于在单一反应中生成扩增子(分别410、412、和414)。此类扩增可在相同反应或单独反应中进行。在一个方面,每当采用PCR时,单独扩增反应用于生成单独模板,其转而被组合并用于生成沿着相同链的多个序列读段。为避免需要平衡引物浓度(和/或其他反应参数)以确保多个模板的均等扩增(有时本文称为“平衡的扩增”或“无偏扩增”),该后一方法是优选的。模板在单独反应中的生成示于图4B-4C中。其中将包含IgH的样品(400)分为三部分(470、472、和474),将其加入至单独PCR使用J区引物(401)和V区引物(分别404、406、和408)以产生扩增子(分别420、422、和424)。然后将后一扩增子在第二PCR(480)中组合(478),使用P5和P7引物以制备模板(482)用于桥PCR并在Illumina GA测序仪、或类似的仪器上测序。
部分地取决于采用的测序技术,本发明的序列读段可具有多种长度。例如,对于一些技术,在其实施中可出现数个权衡(trade-off),例如,(i)序列读段的数目和长度/模板,以及(ii)序列操作的成本和持续时间。在一个实施方案中,序列读段在从20个至400个核苷酸的范围内;在另一个实施方案中,序列读段在从30个至200个核苷酸的范围内;在又另一个实施方案中,序列读段在从30个至120个核苷酸的范围内。在一个实施方案中,生成1个至4个序列读段用于确定各克隆型的序列;在另一个实施方案中,生成2个至4个序列读段用于确定各克隆型的序列;以及在另一个实施方案中,生成2个至3个序列读段用于确定各克隆型的序列。在前述实施方案中,给定的数目不包括用于鉴定来自不同个体的样品的序列读段。在以下描述的实施方案中使用的各种序列读段的长度还可基于试图由读段捕获的信息而变化;例如,序列读段的起始位置和长度可设计为提供NDN区的长度以及其核苷酸序列;因此,选择跨越整个NDN区的序列读段。在其他方面,组合(而非单独地)包含D和/或NDN区的一个或更多个序列读段是足够的。
在本发明的另一个方面,克隆型的序列部分地通过将序列读段与一个或更多个V区参考序列和一个或更多个J区参考序列比对,以及部分地通过碱基确定而非与参考序列比对,诸如在高度可变NDN区来确定。各种比对算法可应用于序列读段和参考序列。例如,用于选择比对方法的指导可见于Batzoglou,Briefings in Bioinformatics,6:6-22(2005),其通过引用并入。在一个方面,每当V读段或C读段(如以上提及的)与V和J区参考序列比对时,采用树检索算法,例如,如通常描述于Gusfield(以上引用)和Cormen等人Introduction to Algorithms,第三版(The MIT Press,2009)中。
在另一个方面,至少一个正向读段的末端和至少一个反向读段的末端在重叠区重叠(例如图3A中的308),使得读段的碱基彼此为反向互补的关系。因此,例如,如果在重叠区的正向读段为“5’-acgttgc”,则在反向互补关系中的反向读段为相同重叠区内的“5’-gcaacgt”。在一个方面,在此类重叠区内的碱基至少部分地由此类反向互补关系来确定。即,如果其维持两个序列读段之间的反向互补关系或与两个序列读段之间的反向互补关系一致,则碱基调用(或相关的质量评分)在预期的重叠区的可能性增加。在一个方面,TCRβ和IgH链的克隆型(图3A中所示)通过起始于其J区并在其相关的V区的方向延伸的至少一个序列读段(本文中称为“C读段”(304))以及起始于其V区并在其相关的J区的方向延伸的至少一个序列读段(本文称为“V读段”(306))来确定。重叠区(308)可包括或可不包括NDN区(315),如图3A中所示。重叠区(308)可完全在J区,完全在NDN区,完全在V区,或其可包括J区-NDN区边界或V区-NDN区边界,或此类边界两者(如图3A中所示)。通常,此类序列读段通过用聚合酶在边测序边合成反应中延伸测序引物,例如图3A中的(302)和(310)来生成,例如Metzger,Nature Reviews Genetics,11:31-46(2010);Fuller等人,NatureBiotechnology,27:1013-1023(2009)。引物(302)和(310)的结合位点是预先确定的,使得其可提供用于序列读段的初始比对和分析的起始点或锚定点。在一个实施方案中,定位C读段使得其包括TCRβ或IgH链的D和/或NDN区,并且包括邻近V区的部分,例如如图3A和3B中所示。在一个方面,V读段和C读段在V区的重叠用于将读段彼此对齐。在其他实施方案中,序列读段的此类对齐是不需要的,例如对于TCRβ链,使得V读段可只需足够长以鉴定克隆型的特定V区。该后一方面示于图3B中。序列读段(330)用于鉴定与另一个序列读段有或没有重叠的V区,且另一个序列读段(332)横穿NDN区并用于确定其序列。延伸进入V区的序列读段(332)的部分(334)用于将序列读段(332)的序列信息与序列读段(330)的序列信息关联以确定克隆型。对于一些测序方法,诸如像Solexa测序方法的碱基-逐-碱基(base-by-base)方法,测序运行时间和试剂成本通过最小化分析中的测序循环的数目来降低。任选地,如图3A中所示,产生具有样品标签(312)的扩增子(300)以在源自不同生物样品,例如不同患者的克隆型之间进行区分。样品标签(312)可通过以下来鉴定:将引物与引物结合区(316)退火并将其(314)延伸以产生跨越标签(312)的序列读段,由其解码样品标签(312)。
因为至少两个原因:i)体细胞突变的存在使得绘图或比对更困难;以及ii)NDN更大使得将V区段的部分与C读段绘图常常是不可能的,分析IgH链比TCRβ链更具有挑战性。在本发明的一个方面,该问题通过以下来解决:使用多个引物集合用于生成V读段,该V读段位于沿着V区的不同位置上,优选地使得引物结合位点是不重叠的且是分开的,并且以至少一个引物结合位点邻近于NDN区,例如在一个实施方案中,距V-NDN连接点的从5个至50个碱基,或在另一个实施方案中距V-NDN连接点10个至50个碱基。多个引物集合的冗余使由于具有受体细胞突变影响的结合位点的一个或两个引物的失败而未能检测克隆型的风险最小化。此外,邻近NDN区的至少一个引物结合位点的存在使V读段将与C读段重叠是更可能的并因此有效地延伸C读段的长度。这允许跨越NDN区的全部尺寸并还可对在NDN区的两侧上的基本上完整V和J区绘图的连续序列的产生。用于进行此类方案的实施方案示于图4A和4D中。在图4A中,包含IgH链的样品(400)通过以下来测序:通过用J区引物(401)的单一集合和V区(402)引物(404、406、408)的多个(显示三个)集合扩增链生成用于各链的多个扩增子,以产生全部包含相同NDN区并具有包含V区(402)的连续较大部分(411、413、415)的不同长度的多个嵌套式扩增子(例如,410、412、414)。在通过注释其各自的NDN、J和/或C区的身份(或基本身份)测序之后,嵌套式集合的成员可聚集在一起,由此允许重建比在用有限的读段长度和/或序列质量的测序平台的其他情况下更长的V(D)J区段。在一个实施方案中,多个引物集合可以是从2个至5个范围内的数目。在另一个实施方案中,多个是2-3个;以及还在另一个实施方案中,多个是3个。多个中的引物的浓度和位置可宽广变化。V区引物的浓度可相同或可不同。在一个实施方案中,最接近NDN区的引物具有比多个中的其他引物更高的浓度,例如以确保包含NDN区的扩增子被表示在所得扩增子中。在采用三个引物作为多个引物的特定实施方案中,使用60:20:20的浓度比。邻近NDN区(444)的一个或更多个引物(例如图4D中的435和437)可用于生成一个或更多个序列读段(例如434和436),其与由J区引物(432)生成的序列读段(442)重叠,由此改进重叠区(440)中碱基调用的质量。来自多个引物的序列读段可与相邻下游引物结合位点和/或相邻下游序列读段重叠或不重叠。在一个实施方案中,近NDN区的序列读段(例如436和438)可用于鉴定与克隆型相关的特定V区。此类多个引物降低了万一在免疫球蛋白发育期间引物结合位点中的一个超突变时不完全或失败扩增的可能性。其还增加由将在克隆型序列中捕获V区的超突变引入的多样性的可能性。可进行第二PCR以制备用于测序的嵌套式扩增子,例如通过用如所示的P5(401)和P7(404、406、408)引物扩增以产生扩增子(420、422、和424),其可在固体表面上分布为单一分子,其在固体表面上通过桥PCR或类似技术来进一步扩增。
NDN区(特别是IgH链的NDN区)中的碱基调用可通过使用侧翼J和V区的密码子结构来改进,如图4E中所示。(如本文使用的“密码子结构”意指在NDN区外的TCR或BCR转录物或基因的区段,例如V区、J区、或类似区的自然阅读框的密码子。)其中显示了扩增子(450),其是图4B的扩增子的放大图,连同上面为C读段(442)的相对位置和邻近V读段(434)和下面为V区(430)和J区(446)的密码子结构(452和454)。根据本发明的这个方面,在密码子结构(452和454)通过与V和J参考序列常规比对来鉴定之后,使用序列读段(434)和(442)从J区(446)向V区(430),以及在相对方向上从V区(430)朝向J区(446)移动以一次一个碱基调用(或鉴定)NDN区(456)中的碱基。在正常生物条件下,仅具有从V区穿过NDN区并至J区的符合读框(in frame)的密码子的重组TCR或IgH序列被表达为蛋白。即,在体细胞产生的变体中,仅有它们的J区和V区密码子框彼此符合读框并穿过NDN区保持符合读框的那些变体被表达。(这里V和J区的正确的框由参考序列来确定)。如果基于一个或更多个低质量碱基调用鉴定不符合读框(out-of-frame)的序列,则标记相应克隆型用于重新评价或作为潜在相关疾病的异常。如果鉴定的序列是符合读框的并基于高质量碱基调用,则存在相应克隆型已被正确调用的更大的信心。因此,在一个方面,本发明包括由双向序列读段确定基于V(D)J克隆型的方法,包括以下步骤:(a)生成始于J区并延伸进NDN区的至少一个J区序列读段,和始于V区并朝向NDN区延伸的至少一个V区序列读段,使得J区序列读段和V区序列读段在重叠区中重叠,并且J区和V区各自具有密码子结构;(b)确定延伸进NDN区的J区的密码子结构是否与朝向NDN区延伸的V区的密码子结构符合读框。在另外的实施方案中,产生步骤包括产生始于V区并延伸穿过NDN区至J区的至少一个V区序列读段,使得J区序列读段和V区序列读段在重叠区中重叠。
体细胞超突变。在一个实施方案中,已经历体细胞超突变的基于IgH的克隆型如以下来确定。体细胞突变被定义为不同于参考序列(相关区段的,通常V、J或C)的相应碱基并存在于统计学显著数目读段中的测序碱基。在一个实施方案中,C读段可用于发现相对于绘图的(mapped)J区段的体细胞突变,且同样地,V读段可用于发现V区段的。仅使用直接绘图到J或V区段,或在延伸至NDN边界的克隆型内的C和V读段的片(pieces)。以这样的方式,避免了NDN区,且在先前用于克隆型确定的相同‘序列信息’不用于发现突变(以避免将实际上仅是不同的重组NDN区错误地分类为突变核苷酸)。对于各区段类型,绘图的区段(主要等位基因)用作支架,并且考虑在读段绘图阶段期间已绘图至该等位基因的全部读段。其中至少一个读段已绘图的参考序列的每个位置用于体细胞突变分析。在一个实施方案中,用于接受非参考碱基作为有效突变的标准包括以下:1)至少N个读段具有给定的突变碱基,2)至少给定比例的N/M读段(其中M是在此碱基位置上绘图的读段的总数目)以及3)基于二项式分布的,在突变碱基上的N读段的平均Q评分以及具有非突变碱基的读段的数目(M-N)的统计切割。优选地,选择以上参数使得突变的假发现率/克隆型小于1/1000,且更优选地,小于1/10000。
本发明的试剂盒
本发明包括包含用于进行本发明的方法的材料和试剂的试剂盒。在一个实施方案中,本发明的试剂盒包括用于确定组织样品中重组核酸的总量或浓度的引物和重组序列内标。在另一个实施方案中,本发明的试剂盒包括(a)用于确定组织样品中重组核酸的总量或浓度的引物和重组序列内标以及(b)用于确定组织样品中总核酸的总量或浓度的引物和总核酸内标。在后一实施方案的一个方面,此类总核酸内标选自或源自由以下组成的组:组成地并普遍地表达的管家基因;在另外的此类方面,此类总核酸内标选自或源自由以下基因组成的组:GAPDH、β2-微球蛋白、18S核糖体RNA、和β-肌动蛋白。在另一个实施方案中,本发明的试剂盒包括(a)用于确定组织样品中重组核酸的总量或浓度的引物和重组序列内标,(b)用于确定组织样品中总核酸的总量或浓度的引物和总核酸内标,以及(c)用于确定组织样品中非重组核酸的总量或浓度的引物和第一和/或第二可切除的区段内标。在仍另一个实施方案中,本发明的试剂盒包括(a)用于确定组织样品中重组核酸的总量或浓度的引物和重组序列内标,(b)用于确定组织样品中总核酸的总量或浓度的引物和总核酸内标,(c)用于确定组织样品中非重组核酸的总量或浓度的引物和第一和/或第二可切除的区段内标,以及(d)用于确定位于重组核酸和非重组核酸两者中的一个或更多个遗传基因座上的遗传标志物的等位基因的值的引物。在仍另一个实施方案中,本发明的试剂盒包括(a)用于确定组织样品中重组核酸的总量或浓度的引物和重组序列内标,(b)用于确定组织样品中总核酸的总量或浓度的引物和总核酸内标,(c)用于确定非重组核酸中存在且重组核酸中不存在的一个或更多个遗传基因座上的遗传标志物的等位基因的值的引物,以及(d)用于确定位于重组核酸和非重组核酸两者中的一个或更多个遗传基因座上的遗传标志物的等位基因的值的引物。
在上述全部实施方案的另外的考虑中,用于扩增遗传标志物的试剂盒的引物可包括用于一个或更多个遗传标志物的对上游侧翼区特异的至少一个正向引物和对下游侧翼区特异的至少一个反向引物。同样地,在上述全部实施方案的另外的考虑中,试剂盒的引物可包括正向引物和反向引物对的集合,其中各正向引物具有尾部且各反向引物具有尾部。如本文所用,“尾部”意指用作两阶段扩增反应的第二阶段中的引物结合位点的引物部分。优选地,尾部不与待扩增的核酸中的序列,特别是位于或靠近侧翼区的那些序列互补。在另外的实施方案中,对的正向引物的全部尾部的引物结合位点具有相同序列,且对的反向引物的全部尾部的引物结合位点具有相同序列。在仍另外的实施方案中,正向引物和反向引物对的尾部的引物结合位点的序列不同。
虽然已参考一些具体示例性实施方案描述了本发明,但本领域技术人员将认识到可对其做出许多改变而不偏离本发明的精神和范围。除了以上讨论的那些,本发明还适用于各种实施方案和其他主题。
定义
除非本文另有特别定义,本文使用的核酸化学、生物化学、遗传学和分子生物学的术语和符号遵循本领域中标准论文和教科书的那些,例如Kornberg和Baker,DNA Replication,第二版(W.H.Freeman,New York,1992);Lehninger,Biochemistry,第二版(Worth Publishers,New York,1975);Strachan和Read,Human Molecular Genetics,第二版(Wiley-Liss,New York,1999);Abbas等人,Cellular and Molecular Immunology,第6版(Saunders,2007)。
“比对”意指将测试序列,诸如序列读段与一个或更多个参考序列比较以基于一些序列距离量度(distance measure)确定哪个参考序列或参考序列的哪个部分是最接近的方法。比对核苷酸序列的示例性方法是SmithWaterman算法。距离量度可包括汉明距离、Levenshtein距离、或类似的距离。距离量度可包括与待比较的序列的核苷酸的质量值相关的组分。
“扩增子”意指多核苷酸扩增反应的产物;即,多核苷酸的克隆群体,其可以是单链或双链,其从一个或更多个起始序列来复制。一个或更多个起始序列可以是相同序列的一个或更多个拷贝,或其可以是不同序列的混合物。优选地,扩增子由单一起始序列的扩增形成。扩增子可由其产物包括一个或更多个起始、或靶核酸的复制物(replicates)的多个扩增反应生成。在一个方面,产生扩增子的扩增反应是“模板驱动的”,这是由于在模板多核苷酸中具有互补物的反应物,核苷酸或寡核苷酸,的碱基配对是创建反应产物所需要的。在一个方面,模板驱动反应是用核酸聚合酶的引物延伸或用核酸连接酶的寡核苷酸连接。此类反应包括,但不限于,聚合酶链式反应(PCR)、线性聚合酶反应、基于核酸序列的扩增(NASBA)、滚环扩增、和类似的反应,在通过引用并入本文的以下参考文献中公开:Mullis等人,美国专利4,683,195、4,965,188、4,683,202、4,800,159(PCR);Gelfand等人,美国专利5,210,015(用"taqman"探针的实时PCR);Wittwer等人,美国专利6,174,670;Kacian等人,美国专利5,399,491("NASBA");Lizardi,美国专利5,854,033;Aono等人,日本专利出版物JP 4-262799(滚环扩增);以及类似的文献。在一个方面,本发明的扩增子由PCR产生。如果允许随着扩增反应进程测量反应产物的检测化学是可用的,扩增反应可以是“实时”扩增,例如以下描述的“实时PCR”,或“实时NASBA”如描述于Leone等人,Nucleic Acids Research,26:2150-2155(1998)中,以及类似的文献。如本文所用,术语“扩增”意指进行扩增反应。“反应混合物”意指包含用于进行反应的全部必需反应物的溶液,其可包括,但不限于,在反应期间以选择的水平维持pH的缓冲剂、盐、辅因子、清除剂等。
如本文所用的“克隆性(Clonality)”意指组库的克隆型中克隆型丰度的分布偏于单一或几个克隆型的程度的量度。概略地,克隆性是克隆型多样性的相反量度。可根据本发明用于克隆性量度的许多量度或统计是从描述物种丰度关系的生态学可得到的,例如17&18章,于Pielou,AnIntroduction to Mathematical Ecology,(Wiley-Interscience,1969)。在一个方面,用于本发明的克隆性量度是克隆型谱的函数(即,检测的不同克隆型的数目和其丰度),使得在测量了克隆型谱之后,可从其计算克隆性以给出单一数目。一个克隆性量度是Simpson量度,其是两个随机抽取的克隆型将是相同的简单的概率。其他克隆性量度包括基于信息的量度和McIntosh的多样性指数,公开于Pielou中(以上引用)。
“克隆型”意指编码免疫受体或其部分的淋巴细胞的重组核苷酸序列。更具体地,克隆型意指编码T细胞受体(TCR)或B细胞受体(BCR)、或其部分的T细胞或B细胞的重组核苷酸序列。在各种实施方案中,克隆型可编码以下的全部或部分:IgH的VDJ重排、IgH的DJ重排、IgK的VJ重排、IgL的VJ重排、TCRβ的VDJ重排、TCRβ的DJ重排、TCRα的VJ重排、TCRγ的VJ重排、TCRδ的VDJ重排、TCRδ的VD重排、Kde-V重排、或类似的重排。克隆型还可编码涉及易位断裂点区的免疫受体基因,诸如Bcl1-IgH或Bcl1-IgH。在一个方面,克隆型具有足够长以代表或反映它们源自的免疫分子的多样性的序列;因此,克隆型的长度可有很宽变化。在一些实施方案中,克隆型具有从25个至400个核苷酸的范围内的长度;在其他实施方案中,克隆型具有从25个至200个核苷酸的范围内的长度。
“克隆型谱”意指源自淋巴细胞的群体的不同克隆型和其相对丰度的列表。通常,淋巴细胞的群体从组织样品获得。术语“克隆型谱”与免疫“组库”的免疫学概念相关,但比其更泛化(more general),如诸如以下的参考文献中描述的:Arstila等人,Science,286:958-961(1999);Yassai等人,Immunogenetics,61:493-502(2009);Kedzierska等人,Mol.Immunol.,45(3):607-618(2008);以及类似的文献。术语“克隆型谱”包括编码重排免疫受体的核酸的多种列表和丰度,所述核酸可源自淋巴细胞的选定子集(例如组织浸润淋巴细胞、免疫表型子集、或类似的子集),或所述核酸可编码与完整免疫受体相比具有减少的多样性的免疫受体的部分。在一些实施方案中,克隆型谱可包含至少103个不同的克隆型;在其他实施方案中,克隆型谱可包含至少104个不同的克隆型;在其他实施方案中,克隆型谱可包含至少105个不同的克隆型;在其他实施方案中,克隆型谱可包含至少106个不同的克隆型。在此类实施方案中,此类克隆型谱还可包括各不同克隆型的丰度或相对频率。在一个方面,克隆型谱是分别编码个体的淋巴细胞的群体中的T细胞受体(TCR)或B细胞受体(BCR)、或其片段的不同重组核苷酸序列(及其丰度)的集合,其中对于群体的基本上全部淋巴细胞,集合的核苷酸序列具有与不同淋巴细胞或其克隆亚群体一对一的对应性。在一个方面,选择定义克隆型的核酸区段使得其多样性(即集合中不同核酸序列的数目)足够大使得在个体中的基本上每个T细胞或B细胞或其克隆携带此类组库的独特核酸序列。即,优选地样品的各个不同克隆具有不同的克隆型。在本发明的其他方面,相应于组库的淋巴细胞的群体可以是循环B细胞,或可以是循环T细胞,或可以是前述群体的任一个的亚群,包括但不限于,CD4+T细胞、或CD8+T细胞、或由细胞表面标志物定义的其他亚群,或类似的细胞。此类亚群可通过从特定组织,例如骨髓、或淋巴结、或类似的组织采取样品,或通过基于一个或更多个细胞表面标志物、尺寸、形态等从样品(诸如外周血)分选或富集细胞来获得。在还其他方面,相应于组库的淋巴细胞的群体可源自疾病组织,诸如肿瘤组织、感染的组织、或类似的组织。在一个实施方案中,包含人TCRβ链或其片段的克隆型谱包括在从0.1x 106至1.8x 106的范围内,或从0.5x106至1.5x 106的范围内,或从0.8x 106至1.2x 106的范围内的不同核苷酸的数目。在另一个实施方案中,包含人IgH链或其片段的克隆型谱包括在从0.1x 106至1.8x 106的范围内,或从0.5x 106至1.5x 106的范围内,或从0.8x 106至1.2x 106的范围内的不同核苷酸的数目。在具体的实施方案中,本发明的克隆型谱包括编码IgH链的V(D)J区的基本上全部区段的核苷酸序列的集合。在一个方面,如本文所用的“基本上全部”意指,每个区段具有.001%或更高的相对丰度;在另一个方面,如本文所用的“基本上全部”意指,每个区段具有.0001%或更高的相对丰度;在另一个具体的实施方案中,本发明的克隆型谱包括编码TCRβ链的V(D)J区的基本上全部区段的核苷酸序列的集合。在另一个实施方案中,本发明的克隆型谱包括具有从25-200个核苷酸的范围内的长度并包括TCRβ链的V、D、和J区的区段的核苷酸序列的集合。在另一个实施方案中,本发明的克隆型谱包括具有从25-200个核苷酸的范围内的长度并包括IgH链的V、D、和J区的区段的核苷酸序列的集合。在另一个实施方案中,本发明的克隆型谱包括基本上等于表达不同IgH链的淋巴细胞的数目的不同核苷酸序列的数目。在另一个实施方案中,本发明的克隆型谱包括基本上等于表达不同TCRβ链的淋巴细胞的数目的不同核苷酸序列的数目。在还另一个实施方案中,“基本上等于”意指99%可能性克隆型谱将包括以.001%或更大的频率的编码由个体的群体的每个淋巴细胞携带或表达的IgH或TCRβ或其部分的核苷酸序列。在还另一个实施方案中,“基本上等于”意指99%可能性核苷酸序列的组库将包括以.0001%或更大的频率存在的编码每个淋巴细胞携带或表达的IgH或TCRβ或其部分的核苷酸序列。在一些实施方案中,克隆型谱源自包含从105个至107个淋巴细胞的样品。淋巴细胞的此类数目可从1-10mL的外周血样品获得。
“合并(coalescing)”意指通过确定此类序列差异由于实验或测量错误而并非由于真正的生物学差异而将具有此类序列差异的两个候选克隆型作为相同的来处理。在一个方面,将较高频率候选克隆型的序列与较低频率候选克隆型的序列相比,并且如果满足预定的标准,则将较低频率候选克隆型的数目加入至较高频率候选克隆型的数目中,并且此后忽略不计较低频率候选克隆型。即,将与较低频率候选克隆型相关的读段计数加入至较高频率候选克隆型的读段计数中。
“互补决定区”(CDR)意指免疫球蛋白(即,抗体)或T细胞受体中这些分子与抗原的构象互补,由此确定分子的特异性并与特定抗原接触的区。T细胞受体和免疫球蛋白各具有3个CDR:CDR1和CDR2见于可变(V)结构域,且CDR3包括一些V、全部不同的(D)(仅重链)和连接(J)、以及一些恒定(C)结构域。
如本文所用的“污染”意指一个个体的组织样品中存在来自另一个个体的核酸。在一个方面,“污染”意指可影响患者的克隆型谱的解释的不起源于患者的核酸的存在。
“遗传鉴定”意指在个体和来自个体的一个或更多个遗传基因座的遗传标志物的值(或状态)的集合的独特对应关系。
“遗传标志物”意指遗传基因座上的DNA的多态性片段,其可用于鉴定个体。遗传标志物可由其序列或由其邻近或侧翼序列来鉴定。通常,遗传标志物可在群体的不同个体中具有多个序列、或值。示例性遗传标志物包括,但不限于,短串联重复序列(STR)、单核苷酸多态性(SNP)等。DNA的多态区段可以是基因组DNA或其可以是反转录的RNA。在一个实施方案中,多态区段是基因组DNA。在一个实施方案中,用于本发明的遗传标志物通过使用常规技术扩增并测序来鉴定。在另一个实施方案中,遗传标志物在用于生成克隆型谱的方法期间连同免疫分子一起扩增并测序。
“内标”意指与一个或更多个靶多核苷酸在相同反应中被处理以允许绝对或相对定量样品中的靶多核苷酸的核酸序列。在一个方面,反应是扩增反应,诸如PCR。内标可以是内源性的或外源性的。即,内标可天然存在于样品中,或在反应之前可将其添加至样品中。在一个方面,可将一种或更多种外源性内标序列以预定的浓度添加至反应混合物,以提供扩增的序列可与之进行比较的校准,以确定样品中其相应靶多核苷酸的量。外源性内标的数目、序列、长度、和其他特征的选择是本领域普通技术人员的常规设计选择。内源性内标,本文中还称为“参考序列”是相应于展示恒定和与细胞周期无关的水平转录的最低程度地调控的基因的样品天然序列,例如Selvey等人,Mol.Cell Probes,15:307-311(2001)。示例性内标包括,但不限于,来自以下基因的序列:GAPDH、β2-微球蛋白、18S核糖体RNA、和β-肌动蛋白。
“试剂盒”是指用于递送用于实施本发明的方法的材料或试剂的任何递送系统。在本发明的方法的上下文中,此类递送系统包括以下系统:允许存储、运输、或递送反应试剂(例如,在适当的容器中的引物、酶、内标等)和/或从一个位置至另一个位置的支持材料(例如,用于进行测定等的缓冲液、书面指示)。例如,试剂盒包括包含相关反应试剂和/或支持材料的一个或更多个附件(例如,盒子)。可将此类内含物一起或单独地递送至预期的接受者。例如,第一容器可包含用于在测定中使用的酶,而第二容器包含引物。
“淋巴肿瘤(lymphoid neoplasm)”意指可能是恶性的或者非恶性的淋巴细胞的异常增殖。淋巴癌是恶性淋巴肿瘤。淋巴肿瘤是淋巴增生性紊乱的结果,或与淋巴增生性紊乱相关,包括但不限于,滤泡性淋巴瘤、慢性淋巴细胞白血病(CLL)、急性淋巴细胞性白血病(ALL)、毛细胞白血病、淋巴瘤、多发性骨髓瘤、移植后淋巴增生性紊乱、套细胞淋巴瘤(MCL)、弥漫性大B细胞淋巴瘤(DLBCL)、T细胞淋巴瘤,或类似的紊乱,例如Jaffe等人,Blood,112:4384-4399(2008);Swerdlow等人,WHO Classification ofTumours of Haematopoietic and Lymphoid Tissues(第4版)(IARC Press,2008)。
“微小残留病”意指治疗后剩余的癌细胞。最经常连同治疗淋巴瘤和白血病使用该术语。
关于比较参考序列和另一个序列(“比较序列”)使用的“同源百分比”、“同一百分比”、或类似的术语意指在两个序列之间的最佳比对,比较序列与参考序列在等于指示的百分比的数目的亚单位位置中相同,亚单位是用于多核苷酸比较的核苷酸或用于多肽比较的氨基酸。如本文所用,待比较的序列的“最佳比对”是最大化亚单位之间的匹配并最小化构建比对中采用的空位的数目的序列。同一性百分比可用商购可得的算法实施来确定,诸如由Needleman和Wunsch,J.Mol.Biol.,48:443-453(1970)(“GAP”programof Wisconsin Sequence Analysis Package,Genetics Computer Group,Madison,WI)中描述的算法,或类似的算法。用于构建比对和计算同一性百分比或其他相似性量度的本领域中的其他软件包包括基于Smith和Waterman的算法的“BestFit”程序,Advances in Applied Mathematics,2:482-489(1981)(Wisconsin Sequence Analysis Package,Genetics Computer Group,Madison,WI)。换言之,例如,为获得具有与参考核苷酸序列至少95%同一的核苷酸序列的多核苷酸,参考序列中的多达5%的核苷酸可被缺失或用另一个核苷酸来取代,或参考序列中的核苷酸的总数目的多达5%数目的核苷酸可被插入进参考序列。
“聚合酶链式反应”或“PCR”意指用于通过DNA的互补链的同时引物延伸体外扩增特定DNA序列的反应。换言之,PCR是用于由靶核酸两侧引物结合位点做出多个拷贝或复制的反应,此类反应包括以下步骤的一个或更多个重复:(i)变性靶核酸,(ii)使引物退火到引物结合位点,以及(iii)在三磷酸核苷的存在下通过核酸聚合酶延伸引物。通常,在热循环仪仪器内通过为各步骤优化的不同温度循环反应。在各步的具体温度、持续时间、和步骤之间的变化的速率取决于本领域普通技术人员熟知的许多因素,例如由以下文献示例的:McPherson等人,编著,PCR:A Practical Approach andPCR2:A Practical Approach(IRL Press,Oxford,分别1991和1995)。例如,在使用Taq DNA聚合酶的常规PCR中,双链的靶核酸可在温度>90℃下变性,引物在50℃-75℃范围内的温度下退火,以及引物在72℃-78℃范围内的温度下延伸。术语“PCR”包括反应的衍生形式,包括但不限于,RT-PCR、实时PCR、嵌套式PCR、定量PCR、多重PCR,以及类似的PCR。本领域技术人员从申请的上下文可辨别待采用的PCR的特定格式。反应体积范围变化从几百纳升,例如200nL至几百μL,例如200μL。“反转录PCR”、或“RT-PCR”意指前面是将靶RNA转换为然后扩增的互补单链DNA的反转录反应的PCR,例如Tecott等人,美国专利5,168,038,该专利通过引用并入本文。“实时PCR”意指随着反应进行监控反应产物,即扩增子的量的PCR。实时PCR存在主要在用于监控反应产物的检测化学方面不同的许多形式,例如Gelfand等人,美国专利5,210,015(“taqman”);Wittwer等人,美国专利6,174,670和6,569,627(插人染料);Tyagi等人,美国专利5,925,517(分子信标),该专利通过引用并入本文。用于实时PCR的检测化学参见Mackay等人,Nucleic Acids Research,30:1292-1305(2002),其还通过应用并入本文。“嵌套式PCR”意指两阶段PCR,其中第一PCR的扩增子成为使用引物的新集合的第二PCR的模板,所述引物的至少一个结合至第一扩增子的内部位置。如本文所用,关于嵌套式扩增反应的“初始引物”意指用于生成第一扩增子的引物,且“第二引物”意指用于生成第二或嵌套式扩增子的一个或更多个引物。“多重PCR”意指其中多个靶序列(或单一靶序列和一个或更多个参考序列)在同一反应混合物中同时实施的PCR,例如Bernard等人,Anal.Biochem.,273:221-228(1999)(双色实时PCR)。通常,对于待扩增的各序列采用不同集合的引物。通常,多重PCR中的靶序列的数目在从2个至50个、或从2个至40个、或从2个至30个的范围内。“定量PCR”意指为测量样品或样本中一个或更多个特定靶序列的丰度而设计的PCR。定量PCR包括此类靶序列的绝对定量和相对定量两者。定量测量使用可单独或连同靶序列一起测定的一个或更多个参考序列或内标来做出。参考序列可以是对于样品或样本内源性的或外源性的,并且在后一情况下,可包括一个或更多个竞争对手模板。典型的内源性参考序列包括以下基因的转录物的区段:β-肌动蛋白、GAPDH、β2-微球蛋白、核糖体RNA、以及类似的基因。用于定量PCR的技术对于本领域普通技术人员是熟知的,如通过引用并入的以下参考文献中示例的:Freeman等人,Biotechniques,26:112-126(1999);Becker-Andre等人,Nucleic AcidsResearch,17:(1989);Zimmerman等人,Biotechniques,21:268-279(1996);Diviacco等人,Gene,122:3013-3020(1992);Becker-Andre等人,Nucleic Acids Research,17:9437-9446(1989);以及类似的参考文献。
“多核苷酸”是指核苷酸单体的线性聚合物,并且可以是DNA或RNA。构成多核苷酸的单体能够通过单体与单体相互作用的规则模式,诸如沃森-克里克型碱基配对、碱基堆积、碱基配对的Hoogsteen或反向Hoogsteen类型,或类似的方式特异性结合天然多核苷酸。此类单体及其核苷酸间键合(internucleosidic linkage)可以是天然存在的,或可以是其类似物,例如,天然存在的或非天然存在的类似物。非天然存在的类似物可包括PNA,硫代磷酸酯核苷酸间键合,包含允许标签,诸如荧光团、或半抗原等附着的连接基团的碱基。多核苷酸可包括通过磷酸二酯键连接的四种天然核苷(例如用于DNA的脱氧腺苷、脱氧胞苷、脱氧鸟苷、脱氧胸苷或对于RNA的其核糖对应物)。然而,它们还可包括非天然的核苷酸类似物,例如包括修饰的碱基、糖或核苷酸间键合。本领域技术人员应清楚当酶的活性具有特定寡核苷酸或多核苷酸底物需要(例如单链DNA、RNA/DNA双链体等)时,则为寡核苷酸或多核苷酸底物选择适当的组成在普通技术人员的良好知识范围内,特别是来自以下论文的指导:诸如Sambrook等人,MOLECULAR CLONING,第二版(Cold Spring Harbor Laboratory,New York,1989),以及类似的参考文献。如本文所用,术语“寡核苷酸”是指较小的多核苷酸,例如,具有3个-60个单体单元,或在一些实施方案中具有从12个至60个单体单元。在各种实施方案中,多核苷酸或寡核苷酸可表示为一系列字母(大写字母或小写字母),诸如“ATGCCTG”,并将理解核苷酸顺序从左至右为5’—>3’,且除非另有指明或从上下文中明显,则该“A”指示脱氧腺苷,“C”指示脱氧胞苷,“G”指示脱氧鸟苷,以及“T”指示胸苷,“I”指示脱氧肌苷,“U”指示尿苷。
“引物”意指能够在与多核苷酸模板形成双链体后,充当核酸合成的起始的点,并从其3’末端沿着模板延伸使得形成延伸的双链体的天然的或合成的寡核苷酸。引物的延伸通常用核酸聚合酶,诸如DNA或RNA聚合酶来实施。在延伸过程中添加的核苷酸的序列通过模板多核苷酸的序列来确定。通常引物由DNA聚合酶延伸。引物通常具有在从14个至40个核苷酸范围内,或在从18个至36个核苷酸的范围内的长度。引物用于各种核酸扩增反应中,例如,使用单一引物的线性扩增反应,或采用两种或更多种引物的聚合酶链式反应。用于为特定应用选择引物的长度和序列的指导对于本领域普通技术人员是熟知的,如通过引用并入的以下参考文献证明的:Dieffenbach,编著,PCR Primer:A Laboratory Manual,第2版(Cold SpringHarbor Press,New York,2003)。
“质量评分”意指在特定序列位置上的碱基分配是正确的可能性的量度。用于为特定情况计算质量评分的各种方法对本领域普通技术人员是熟知的,诸如,用于为由于不同测序化学,检测系统,碱基调用算法等等而调用的碱基。通常,质量评分值与正确碱基调用的可能性单调地相关。例如,10的质量评分,或Q可意指存在碱基被正确调用的90%可能性,20的Q可意指存在碱基被正确调用的99%可能性,等等。对于一些测序平台,特别是使用边测序边合成化学的那些测序平台,平均质量评分以序列读段长度的函数下降,使得在序列读段开始处的质量评分比在序列读段的结束处的那些质量评分更高,此类下降是由于诸如以下的现象;不完全延伸、推进延伸、模板损失、聚合酶损失、加帽失败、去保护失败等。
“序列读段”意指由通过测序技术产生的序列或数据流确定的核苷酸序列,其确定通过以下来做出:例如,借助于与技术相关的碱基调用软件,例如来自DNA测序平台的商业提供商的碱基调用软件。序列读段通常包括序列中的各个核苷酸的质量评分。通常,序列读段由例如用DNA聚合酶或DNA连接酶沿着模板核酸延伸引物来做出。数据通过记录与此类延伸有关的信号,诸如光学的、化学的(例如pH变化)、或电学的信号来产生。将此类初始数据转换为序列读段。
“序列标签”(或“标签”)或“条形码”意指被连接至多核苷酸或模板分子并用于鉴定和/或追踪反应中的多核苷酸或模板或一系列反应的寡核苷酸。序列标签可附着至多核苷酸或模板的3’-或5’-末端,或其可插入此类多核苷酸或模板的内部,以形成线性缀合物,有时本文中称为“加标签的多核苷酸”、或“加标签的模板”、或“标签-多核苷酸缀合物”、“标签-分子缀合物”、或类似物。序列标签可在尺寸和组成上广泛变化;通过引用并入本文的以下参考文献,提供了用于适于特定实施方案选择序列标签的集合的指导:Brenner,美国专利5,635,400;Brenner和Macevicz,美国专利7,537,897;Brenner等人,Proc.Natl.Acad.Sci.,97:1665-1670(2000);Church等人,欧洲专利公布0303459;Shoemaker等人,Nature Genetics,14:450-456(1996);Morris等人,欧洲专利公布0799897A1;Wallace,美国专利5,981,179;以及类似的参考文献。序列标签的长度和组成可广泛变化,并且特定长度和/或组成的选择取决于几种因素,包括但不限于,如何使用标签生成读出,例如经由杂交反应或经由酶促反应,诸如测序;它们是否被标记,例如用荧光染料或类似的染料;明确鉴定一组多核苷酸需要的可辨识的寡核苷酸的数目,以及类似的,并且标签的集合必须如何不同以确保可信赖的鉴定,例如免于由于测序错误的交叉杂交或错误鉴定。在一个方面,序列标签可各自分别具有在从2个至36个核苷酸,或从4个至30个核苷酸,或从8个至20个核苷酸,或从6个至10个核苷酸的范围内的长度。在一个方面,使用其中集合的各序列标签具有以至少两个碱基不同于相同集合的所有其他标签的序列的独特核苷酸序列的序列标签的集合;在另一个方面,使用其中集合的各标签的序列以至少三个碱基不同于相同集合的所有其他标签的序列的序列标签的集合。
“序列树”意指用于表示核苷酸序列的树形数据结构。在一个方面,本发明的树形数据结构是不包括循环或循环通路的、包括节点和边界的生根定向树(rooted directed tree)。来自本发明的树形数据结构的节点的边界通常是有序的。节点和/或边界是可包含值,或可与值相关的结构。树中的各节点具有零或更多子节点,其按照惯例在树中在节点下方显示。具有子(child)的节点称为子的父节点(child’s parent node)。节点具有至多一个父。不具有任何子的节点称为叶节点。在树的最顶部的节点称为根节点。作为最上面的节点,根节点将不会有父。根节点是树上通常开始操作的节点(尽管有些算法开始于叶节点,并逐步建立在根上结束)。全部其他节点可通过沿边界或连接到达根节点。
“短串联重复序列”或“STR”或“微卫星”是指包括短(例如,1个-5个核苷酸)串联重复序列基序的遗传标志物。微卫星可包含散在重复基序(repeat-motif interspersion),或“神秘地简单序列(cryptically simplesequence)”(Tautz,D.等人(1986)Nature 322(6080):652-656)。此类散在重复基序包括简单散在重复基序,其中微卫星包含具有相同长度、但不同重复序列的一个或更多个散在重复作为串联重复序列基序,(Eichler,E.E.等人(1994)Nat.Genet.8:88-94;Eichler,E.E.等人(1996)Hum.Mol.Genet.5:319-330)。例如,如果串联重复序列基序是TGCC,则简单的散在重复基序可显示如下:TGCC(TCTG)2(TGCC)3,其中散在重复“TCTG”中断TGCC串联重复序列基序的重复。散在重复基序还包括更复杂的散在重复基序,其中作为串联重复序列基序的散在重复基序是不同长度。例如,如果串联重复序列基序是TGCC,则复杂的散在重复基序可表示如下:<$1HIL>TGC(TGCC)2,其中串联重复序列基序被TG和TGC中断。其他更复杂的散在重复基序包括的简单散在重复基序和复杂的散在重复基序在相同微卫星中的组合。例如,此类复杂序列散在重复基序可表示如下:(TGCC)n(TCTG)0(TGCC)3TG(TGCC)3TGC(TGCC)2TGCCC(TGCC)p,其中散在重复的两种形式中断串联重复序列基序TGCC。由本文使用的术语“微卫星”或“STR”涵盖有和没有散在重复的微卫星。

Claims (22)

1.一种确定待监测微小残留病的患者中遗留污染的方法,所述方法包括以下步骤:
由以下步骤通过定期地测量所述患者的克隆型谱监测患者的微小残留病:
(i)从个体获得包含T细胞和/或B细胞的样品;
(ii)将序列标签附着至T细胞和/或B细胞的T细胞受体基因或免疫球蛋白基因的重组核酸的分子以形成标签-分子缀合物,其中所述标签-分子缀合物的基本上每个分子具有独特序列标签;
(iii)扩增所述标签-分子缀合物;
(iv)测序所述标签-分子缀合物;
(v)从由相似序列标签比对的序列读段确定克隆型,并从此类克隆型生成克隆型谱;以及
记录克隆型谱的每次测量的序列标签的核苷酸序列;以及
由随后克隆型谱中来自任何先前克隆型谱的序列标签的存在、不存在和/或水平确定遗留污染。
2.如权利要求1所述的方法,其中所述比对步骤还包括通过确定所述相似序列标签的所述克隆型的每个核苷酸位置上的主要核苷酸确定每个所述标签-分子缀合物的每个所述克隆型的核苷酸序列。
3.如权利要求1所述的方法,其中所述附着步骤包括通过取样标记所述重组核酸分子。
4.如权利要求3所述的方法,其中所述附着步骤在反应混合物中实施,使得所述序列标签以所述重组核酸分子浓度的至少100倍的浓度存在于所述反应混合物中。
5.如权利要求4所述的方法,其中所述序列标签掺入进特异于所述重组核酸分子的引物。
6.如权利要求1所述的方法,其中所述克隆型是编码选自由以下组成的组的免疫受体或免疫受体组分的区段的各25个至400个核苷酸的序列:IgH的VDJ重排、IgH的DJ重排、IgK的VJ重排、IgL的VJ重排、TCRβ的VDJ重排、TCRβ的DJ重排、TCRα的VJ重排、TCRγ的VJ重排、TCRδ的VDJ重排、和TCRδ的VD重排。
7.一种用于确定个体的包含T细胞和/或B细胞的组织样品的克隆型谱中的污染水平的方法,所述方法包括以下步骤:
从个体获得组织样品,所述组织样品包括来自所述个体和可能来自一个或更多个其他个体的核酸,所述核酸包括来自T细胞和/或B细胞的重组核酸以及非重组核酸;
由所述组织样品的核酸生成克隆型谱;
测序来自所述组织样品的核酸的一个或更多个遗传基因座上的遗传标志物以基于根据所述遗传标志物对所述个体和所述一个或更多个其他个体的遗传鉴定获得来自所述一个或更多个其他个体以及来自所述个体的核酸的比例,其中所述遗传标志物出现在存在于所述重组核酸和所述非重组核酸两者的基因座上;以及
确定所述克隆型谱中污染性核酸的水平为来自所述组织样品的核酸中存在的所述一个或更多个其他个体的核酸的比例。
8.如权利要求7所述的方法,其中所述比例由鉴定所述个体的一个或更多个所述遗传标志物的序列读段和所述一个或更多个其他个体的一个或更多个所述遗传标志物的序列读段的数目来确定。
9.如权利要求7所述的方法,其中对所述个体鉴定遗传基因座上具有最高序列读段数目的所述遗传标志物,且对来自所述一个或更多个其他个体的核酸鉴定各遗传基因座上的剩余遗传标志物。
10.如权利要求9所述的方法,其中所述污染水平与以下成比例:由基因座上的交叉污染性核酸鉴定的遗传标志物的序列读段的最高数目除以由所述个体的另一个基因座上鉴定的遗传标志物的序列读段的最低数目。
11.如权利要求7所述的方法,所述方法还包括以下的步骤:
测量所述组织样品中所述核酸的总量;
测量所述组织样品中所述重组核酸的总量;
测序所述非重组核酸中存在的以及所述重组核酸中不存在的核酸的可切除区段中的一个或更多个遗传基因座上的遗传标志物以获得来自所述个体和来自所述一个或更多个其他个体的所述非重组核酸的比例;以及
由所述组织样品的所述核酸中污染性重组核酸的水平确定所述克隆型谱中污染性核酸的所述水平,污染性重组核酸的水平由以下来确定:核酸的总量、所述重组核酸的总量、来自所述个体与来自所述一个或更多个其他个体的所述核酸的所述比例,以及所述个体与所述一个或更多个其他个体的所述非重组核酸的比例。
12.如权利要求11所述的方法,其中所述可切除区段是在V(D)J重组期间切除的核酸的区段。
13.如权利要求12所述的方法,其中所述核酸包括来自人B细胞的重组核酸,并且所述可切除区段包括在染色体14上编码D区的基因和编码V区的基因之间的区。
14.如权利要求12所述的方法,其中所述核酸包括来自人T细胞的重组核酸,并且所述可切除区段包括在染色体11上编码D区的基因和编码V区的基因之间的区。
15.如权利要求11所述的方法,其中测量所述核酸的所述总量的所述步骤包括将已知量的用于总核酸的一种或更多种内标与来自所述组织样品的所述核酸组合,使得所述核酸的共同区段的数目可与所述一种或更多种内标的数目比较。
16.如权利要求15所述的方法,其中所述共同区段包括选自由以下组成的组的基因的部分:GAPDH、β2-微球蛋白、18S核糖体RNA、和β-肌动蛋白。
17.如权利要求11所述的方法,其中测量所述重组核酸的所述总量的所述步骤包括将已知量的用于重组核酸的一种或更多种内标与来自所述组织样品的所述核酸组合,使得所述克隆型谱的克隆型的数目可与用于重组核酸的所述一种或更多种内标的数目比较。
18.如权利要求17所述的方法,其中所述克隆型的每个包括编码V(D)J区的部分的序列,并且其中所述测量的步骤包括以PCR使用来自相同集合的引物扩增来自所述组织样品的所述核酸以及用于重组核酸的所述一种或更多种内标。
19.如权利要求7所述的方法,所述方法还包括以下步骤:
测量所述组织样品中所述核酸的总量;
测量所述组织样品中所述重组核酸的总量;
测量所述组织样品中所述非重组核酸的总量;以及
由所述组织样品的所述核酸中污染性重组核酸的水平确定所述克隆型谱中污染性核酸的所述水平,污染性重组核酸的水平由以下来确定:核酸的总量、所述重组核酸的总量、来自所述个体与来自所述一个或更多个其他个体的所述核酸的所述比例,以及所述非重组核酸的总量。
20.如权利要求19所述的方法,其中所述非重组核酸的所述总量包括将已知量的用于非重组核酸的一种或更多种内标与来自所述组织样品的所述核酸组合,使得非重组核酸中存在的以及重组核酸中不存在的可切除区段的数目可与所述一种或更多种内标的数目比较。
21.如权利要求20所述的方法,其中所述核酸包括来自人B细胞的重组核酸,且所述可切除区段包括在染色体14上编码D区的基因和编码V区的基因之间的区。
22.如权利要求20所述的方法,其中所述核酸包括来自人T细胞的重组核酸,且所述可切除区段包括在染色体11上编码D区的基因和编码V区的基因之间的区。
CN201380031219.1A 2012-04-13 2013-04-09 免疫组库分析中样品污染的检测和定量 Pending CN104395481A (zh)

Applications Claiming Priority (13)

Application Number Priority Date Filing Date Title
US201261624002P 2012-04-13 2012-04-13
US61/624,002 2012-04-13
US201261658317P 2012-06-11 2012-06-11
US61/658,317 2012-06-11
US201261738277P 2012-12-17 2012-12-17
US61/738,277 2012-12-17
US201361768269P 2013-02-22 2013-02-22
US61/768,269 2013-02-22
US13/834,794 US9528160B2 (en) 2008-11-07 2013-03-15 Rare clonotypes and uses thereof
US13/834,794 2013-03-15
US13/835,093 2013-03-15
US13/835,093 US9506119B2 (en) 2008-11-07 2013-03-15 Method of sequence determination using sequence tags
PCT/US2013/035857 WO2013155119A1 (en) 2012-04-13 2013-04-09 Detection and quantitation of sample contamination in immune repertoire analysis

Publications (1)

Publication Number Publication Date
CN104395481A true CN104395481A (zh) 2015-03-04

Family

ID=49328112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380031219.1A Pending CN104395481A (zh) 2012-04-13 2013-04-09 免疫组库分析中样品污染的检测和定量

Country Status (7)

Country Link
EP (1) EP2836611A4 (zh)
JP (1) JP2015512655A (zh)
CN (1) CN104395481A (zh)
AU (1) AU2013246050B2 (zh)
CA (1) CA2869481A1 (zh)
SG (1) SG11201406538VA (zh)
WO (1) WO2013155119A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740650A (zh) * 2016-03-02 2016-07-06 广西作物遗传改良生物技术重点开放实验室 一种快速准确鉴定高通量基因组数据污染源的方法
CN108473984A (zh) * 2015-11-04 2018-08-31 阿特雷卡公司 用于分析与单个细胞相关联的核酸的核酸条形码的组合组
CN110970091A (zh) * 2019-12-20 2020-04-07 北京优迅医学检验实验室有限公司 标签质控的方法及装置
CN111304309A (zh) * 2020-03-06 2020-06-19 上海韦翰斯生物医药科技有限公司 一种测序平台标签序列污染的检测方法
CN112189139A (zh) * 2018-09-26 2021-01-05 北卡罗来纳-查佩尔山大学 用于改进测定的化合物、组合物和方法

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9506119B2 (en) 2008-11-07 2016-11-29 Adaptive Biotechnologies Corp. Method of sequence determination using sequence tags
US8628927B2 (en) 2008-11-07 2014-01-14 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
US8748103B2 (en) 2008-11-07 2014-06-10 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
US9528160B2 (en) 2008-11-07 2016-12-27 Adaptive Biotechnolgies Corp. Rare clonotypes and uses thereof
US9365901B2 (en) 2008-11-07 2016-06-14 Adaptive Biotechnologies Corp. Monitoring immunoglobulin heavy chain evolution in B-cell acute lymphoblastic leukemia
CN104195227B (zh) 2008-11-07 2017-04-12 适应生物技术公司 通过序列分析监测状况的方法
US9394567B2 (en) 2008-11-07 2016-07-19 Adaptive Biotechnologies Corporation Detection and quantification of sample contamination in immune repertoire analysis
EP2387627B1 (en) 2009-01-15 2016-03-30 Adaptive Biotechnologies Corporation Adaptive immunity profiling and methods for generation of monoclonal antibodies
RU2539032C2 (ru) 2009-06-25 2015-01-10 Фред Хатчинсон Кансэр Рисёч Сентер Способ измерения искусственного иммунитета
US9043160B1 (en) 2009-11-09 2015-05-26 Sequenta, Inc. Method of determining clonotypes and clonotype profiles
GB201106254D0 (en) 2011-04-13 2011-05-25 Frisen Jonas Method and product
US10385475B2 (en) 2011-09-12 2019-08-20 Adaptive Biotechnologies Corp. Random array sequencing of low-complexity libraries
AU2012325791B2 (en) 2011-10-21 2018-04-05 Adaptive Biotechnologies Corporation Quantification of adaptive immune cell genomes in a complex mixture of cells
CA2858070C (en) 2011-12-09 2018-07-10 Adaptive Biotechnologies Corporation Diagnosis of lymphoid malignancies and minimal residual disease detection
US9499865B2 (en) 2011-12-13 2016-11-22 Adaptive Biotechnologies Corp. Detection and measurement of tissue-infiltrating lymphocytes
ES2662128T3 (es) 2012-03-05 2018-04-05 Adaptive Biotechnologies Corporation Determinación de cadenas de receptor inmunitario emparejadas a partir de la frecuencia de subunidades coincidentes
ES2582554T3 (es) 2012-05-08 2016-09-13 Adaptive Biotechnologies Corporation Composiciones y método para medir y calibrar el sesgo de la amplificación en reacciones de PCR multiplexadas
CA2886647A1 (en) 2012-10-01 2014-04-10 Adaptive Biotechnologies Corporation Immunocompetence assessment by adaptive immune receptor diversity and clonality characterization
WO2014210223A1 (en) 2013-06-25 2014-12-31 Prognosys Biosciences, Inc. Spatially encoded biological assays using a microfluidic device
US9708657B2 (en) 2013-07-01 2017-07-18 Adaptive Biotechnologies Corp. Method for generating clonotype profiles using sequence tags
CA2941612A1 (en) 2014-03-05 2015-09-11 Adaptive Biotechnologies Corporation Methods using randomer-containing synthetic molecules
US10066265B2 (en) 2014-04-01 2018-09-04 Adaptive Biotechnologies Corp. Determining antigen-specific t-cells
ES2777529T3 (es) 2014-04-17 2020-08-05 Adaptive Biotechnologies Corp Cuantificación de genomas de células inmunitarias adaptativas en una mezcla compleja de células
US10392663B2 (en) 2014-10-29 2019-08-27 Adaptive Biotechnologies Corp. Highly-multiplexed simultaneous detection of nucleic acids encoding paired adaptive immune receptor heterodimers from a large number of samples
US10246701B2 (en) 2014-11-14 2019-04-02 Adaptive Biotechnologies Corp. Multiplexed digital quantitation of rearranged lymphoid receptors in a complex mixture
EP3224384A4 (en) 2014-11-25 2018-04-18 Adaptive Biotechnologies Corp. Characterization of adaptive immune response to vaccination or infection using immune repertoire sequencing
ES2858306T3 (es) 2015-02-24 2021-09-30 Adaptive Biotechnologies Corp Método para determinar el estado de HLA mediante secuenciación del repertorio inmunitario
WO2016161273A1 (en) 2015-04-01 2016-10-06 Adaptive Biotechnologies Corp. Method of identifying human compatible t cell receptors specific for an antigenic target
CN107532207B (zh) 2015-04-10 2021-05-07 空间转录公司 生物样本的空间区别、多重核酸分析
CN105095687B (zh) * 2015-06-26 2018-10-26 南方科技大学 一种免疫组库数据分析方法及终端
EP3954772B1 (en) * 2015-09-01 2023-10-25 The Regents of The University of California Modular polypeptide libraries and methods of making and using same
US10428325B1 (en) 2016-09-21 2019-10-01 Adaptive Biotechnologies Corporation Identification of antigen-specific B cell receptors
EP4212631A1 (en) 2017-09-01 2023-07-19 Life Technologies Corporation Compositions and methods for immune repertoire sequencing
US11254980B1 (en) 2017-11-29 2022-02-22 Adaptive Biotechnologies Corporation Methods of profiling targeted polynucleotides while mitigating sequencing depth requirements
EP3976820A1 (en) 2019-05-30 2022-04-06 10X Genomics, Inc. Methods of detecting spatial heterogeneity of a biological sample
EP4158054A1 (en) * 2020-06-02 2023-04-05 10X Genomics, Inc. Spatial transcriptomics for antigen-receptors
WO2021247543A2 (en) 2020-06-02 2021-12-09 10X Genomics, Inc. Nucleic acid library methods
WO2021252499A1 (en) 2020-06-08 2021-12-16 10X Genomics, Inc. Methods of determining a surgical margin and methods of use thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070172873A1 (en) * 2006-01-23 2007-07-26 Sydney Brenner Molecular counting
US20070264653A1 (en) * 2006-03-10 2007-11-15 Kurt Berlin Method of identifying a biological sample for methylation analysis
CN102272327A (zh) * 2008-11-07 2011-12-07 赛昆塔公司 通过序列分析监测状况的方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001520054A (ja) * 1997-10-23 2001-10-30 エグザクト サイエンシーズ コーポレイション Pcrを用いる分子診断におけるコンタミネーションを検出するための方法
EP1598429A1 (en) * 2004-05-19 2005-11-23 Amplion Ltd. Detection of amplicon contamination during PCR exhibiting two different annealing temperatures
US8748103B2 (en) * 2008-11-07 2014-06-10 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
SG185128A1 (en) * 2010-05-06 2012-12-28 Sequenta Inc Monitoring health and disease status using clonotype profiles
EP2652155B1 (en) * 2010-12-16 2016-11-16 Gigagen, Inc. Methods for massively parallel analysis of nucleic acids in single cells

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070172873A1 (en) * 2006-01-23 2007-07-26 Sydney Brenner Molecular counting
US20070264653A1 (en) * 2006-03-10 2007-11-15 Kurt Berlin Method of identifying a biological sample for methylation analysis
CN102272327A (zh) * 2008-11-07 2011-12-07 赛昆塔公司 通过序列分析监测状况的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108473984A (zh) * 2015-11-04 2018-08-31 阿特雷卡公司 用于分析与单个细胞相关联的核酸的核酸条形码的组合组
CN105740650A (zh) * 2016-03-02 2016-07-06 广西作物遗传改良生物技术重点开放实验室 一种快速准确鉴定高通量基因组数据污染源的方法
CN105740650B (zh) * 2016-03-02 2019-04-05 广西作物遗传改良生物技术重点开放实验室 一种快速准确鉴定高通量基因组数据污染源的方法
CN112189139A (zh) * 2018-09-26 2021-01-05 北卡罗来纳-查佩尔山大学 用于改进测定的化合物、组合物和方法
CN110970091A (zh) * 2019-12-20 2020-04-07 北京优迅医学检验实验室有限公司 标签质控的方法及装置
CN110970091B (zh) * 2019-12-20 2023-05-23 北京优迅医学检验实验室有限公司 标签质控的方法及装置
CN111304309A (zh) * 2020-03-06 2020-06-19 上海韦翰斯生物医药科技有限公司 一种测序平台标签序列污染的检测方法

Also Published As

Publication number Publication date
WO2013155119A1 (en) 2013-10-17
EP2836611A1 (en) 2015-02-18
AU2013246050A1 (en) 2014-10-23
EP2836611A4 (en) 2015-12-30
JP2015512655A (ja) 2015-04-30
AU2013246050B2 (en) 2017-03-16
SG11201406538VA (en) 2014-11-27
CA2869481A1 (en) 2013-10-17

Similar Documents

Publication Publication Date Title
AU2020210279B2 (en) Large-scale biomolecular analysis with sequence tags
CN104395481A (zh) 免疫组库分析中样品污染的检测和定量
US9394567B2 (en) Detection and quantification of sample contamination in immune repertoire analysis
US9506119B2 (en) Method of sequence determination using sequence tags
US9347099B2 (en) Single cell analysis by polymerase cycling assembly
CA2859002C (en) Detection and measurement of tissue-infiltrating lymphocytes
JP6085249B2 (ja) 複雑なアンプリコンの配列解析
WO2013188471A2 (en) Method of sequence determination using sequence tags

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160129

Address after: American California

Applicant after: Sequenta, Inc.

Address before: American California

Applicant before: Mlc Dx Inc.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150304