CN104520443A - 使用序列标签的序列确定方法 - Google Patents

使用序列标签的序列确定方法 Download PDF

Info

Publication number
CN104520443A
CN104520443A CN201380042163.XA CN201380042163A CN104520443A CN 104520443 A CN104520443 A CN 104520443A CN 201380042163 A CN201380042163 A CN 201380042163A CN 104520443 A CN104520443 A CN 104520443A
Authority
CN
China
Prior art keywords
label
sequence
cell
polynucleotide
nucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201380042163.XA
Other languages
English (en)
Inventor
马利克·法哈姆
马丁·穆尔黑德
托马斯·威利斯
建标·郑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adaptive Biotechnologies Corp
Original Assignee
Mlc Dx Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/835,093 external-priority patent/US9506119B2/en
Application filed by Mlc Dx Inc filed Critical Mlc Dx Inc
Publication of CN104520443A publication Critical patent/CN104520443A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明涉及使用序列标签以改善相关序列的扩增子特别是大的和复杂的扩增子,例如包含编码免疫受体分子的重组核酸的扩增子的序列确定。在一个方面,比对具有相同序列标签的序列读段(read),然后,由在每个位置的序列读段碱基响应(base call)的(可能加权的)平均碱基响应确定最终碱基响应。相似地,在另一个方面,通过共同序列标签比对包括一系列的掺入信号的序列读段,并且均聚物区域中的碱基响应被作为在每个“流”位置的功能掺入信号值。

Description

使用序列标签的序列确定方法
交叉引用
本申请要求2013年3月15日申请的美国专利申请序列号13/835,093的优先权,美国专利申请序列号13/835,093要求以下美国临时专利申请的优先权:2012年6月11日申请的序列号61/658,317、2012年12月17日申请的序列号61/738,277以及2013年3月11日申请的序列号61/776,647,它们每个的全文通过引用并入本文。本申请还要求全文通过引用并入本文的2013年5月30日申请的美国临时专利申请序列号61/829,054的优先权。
发明背景
生物或医学样品的分析通常需要确定DNA和/或RNA的大的和复杂的群体的核酸序列,例如Gloor等,PLoS ONE 5(10):el5406(2010);Petrosino等,Clinical Chemistry,55(5):856-866(2009);Arstila等,Science,286:958-961(1999)。尤其地,编码免疫分子,例如T细胞或B细胞受体或它们的组分的核酸谱包含大量的关于有机体的健康或疾病状态的信息,使得已经提出使用这样的谱作为许多健康状况的诊断或预后指标,例如Faham和Willis,美国专利公开2010/0151471;Freeman等,Genome Research,19:1817-1824(2009);Boyd等,Sci.Transl.Med.,1(12):12ra23(2009);He等,Oncotarget(2011年3月8日)。这样的基于序列的谱能够比基于扩增的靶核酸的大小分布、通过微阵列的序列取样、来自PCR扩增子的杂交动力曲线的方法或其它方法灵敏得多,例如Morley等,美国专利5,418,134;vanDongen等,Leukemia,17:2257-2317(2003);Ogle等,Nucleic Acids Research,31:el39(2003);Wang等,BMC Genomics,8:329(2007);Baum等,NatureMethods,3(11):895-901(2006)。然而,因为待分析的群体的大小、这样的群体中序列的相似性、序列之间天然变异的有限可预测性以及由许多样品制备和测量步骤引入数据的噪音,从序列数据有效确定克隆型(clonotype)和克隆型谱(clonotype profile)构成挑战,例如Warren等,Genome Research,21(5):790-797(2011)。
序列标签或条形码已经以多种方式用于辅助核酸群体的分析,包括标记、污染监测、罕见突变检测、物理排序、分子计数等,例如Kinde等,Proc.Natl.Acad.Sci.,108(23):9530-9535(2011);Casbon等,美国专利公开2012/0071331;Brenner,美国专利5,635,400;Brenner和Macevicz,美国专利7,537,897;Brenner等,Proc.Natl.Acad.Sci.,97:1665-1670(2000);Church等,欧洲专利公开0 303 459;Shoemaker等,Nature Genetics,14:450-456(1996);Morris等,欧洲专利公开0799897A1;Wallace,美国专利5,981,179。最近,Kinde等(以上引用)显示了序列标签如何能用于区分测序和扩增错误与参照序列中的罕见突变。
考虑到用于医疗和诊断应用的准确测序的重要性,如果序列标签的使用可以就提高序列确定的效率和准确性而在这类应用中扩展,那么它将高度有益。
发明概述
本发明涉及用于产生复杂的核酸群体的基于序列的谱的方法,所述复杂的核酸群体特别是编码免疫分子或其部分的组库(repertoire)的重组核酸群体。在许多实施方式和应用中示例了本发明,它们的一些总结于以下并遍及说明书中。
在一个方面,本发明涉及确定免疫组库的克隆型的方法,所述方法包括步骤:(a)从个体获得包含T细胞和/或B细胞的样品;(b)将序列标签附接到T细胞受体基因或者T细胞和/或B细胞的免疫球蛋白基因的重组核酸的分子,以形成标签-分子轭合物,其中所述标签-分子轭合物的基本上每个分子具有独特的序列标签;(c)扩增所述标签-分子轭合物;(d)测序所述标签-分子轭合物;以及(e)比对相似序列标签的序列读段(read)以确定相应于所述组库的相同克隆型的序列读段。
在另一方面,本发明涉及在正被监测微小残留病(minimal residualdisease)的患者中检测克隆型残留污染(carry over contamination)的方法,包括步骤:(a)通过根据权利要求A1的方法定期地测量患者的克隆型谱而监测患者的微小残留病;(b)记录克隆型谱的每个测量的所述序列标签;以及(c)如果在后面的克隆型谱中检测到任何先前的克隆型谱的序列标签,则检测到克隆型残留污染。
在另一个方面,本发明涉及确定样品中淋巴细胞的数目的方法,包括下述步骤:(a)从个体获得包含淋巴细胞的样品;(b)将序列标签附接到所述淋巴细胞的T细胞受体基因或免疫球蛋白基因的重组核酸的分子,以形成标签-分子轭合物,其中所述标签-分子轭合物的基本上每个分子具有独特的序列标签;(c)扩增所述标签-分子轭合物;(d)测序所述标签-分子轭合物;(e)计数不同的序列标签的数目,以确定样品中淋巴细胞的数目。
在另一方面,本发明涉及在一个或更多个合成测序反应中确定一个或更多个多核苷酸的核苷酸序列的方法,包括步骤:(a)将序列标签附接到所述一个或更多个多核苷酸的每个,以形成标签-多核苷酸轭合物,其中所述标签-多核苷酸轭合物的基本上每个多核苷酸具有独特的序列标签;(b)扩增所述标签-多核苷酸轭合物;(c)合成测序扩增的标签-多核苷酸轭合物,其中合成测序包括至少一个dNTP流;以及(d)对于具有相同序列标签的每个标签-多核苷酸,确定每个dNTP流的核苷酸掺入的数目,该数目作为每个这样的dNTP流的测量的掺入信号的函数。
本发明提供了从通过高通量测序编码免疫分子的体细胞重组的核酸获得的序列数据的大的集合确定克隆型和克隆型谱的方法。在一个方面,本发明通过用独特的序列标签标记样品中的每个体细胞重组的核酸分子而实施上述方法,所述独特的序列标签用于将来自样品的包含相同克隆型序列的拷贝的序列读段分组。
以上表征的本发明的这些方面以及其它方面,在所说明的许多实施方式和应用中例示,其中一些在附图中示出,并在随后的权利要求书部分进行表征。然而上述概述并非旨在描述所说明的本发明的每个实施方案或每个实施方式。
附图简述
本发明的新颖特征在随附的权利要求中具体阐述。通过参考以下阐述其中利用本发明原理的示例性实施方案的详述和附图,获得对本发明的特征及优点的更好的理解,在附图中:
图1A-1B图示了通过取样而标记以将独特的序列标签附接到核酸分子的实例。
图1C图示了IgH转录本,以及其内的天然变异的来源。
图2A-2C显示了用于扩增重组的核酸分子的两阶段PCR(a two-stagedPCR)方案。
图3图示了从与相同序列标签缔合的序列读段确定克隆型的序列的步骤的一个实施方式。
图4A-4D图示了本发明的涉及在合成测序操作中确定均聚物区域的实施方案。
发明详述
除非另外表明,本发明的实施可使用分子生物学(包括重组技术)、生物信息学、细胞生物学和生物化学的常规技术和说明,它们在本领域的技术范围内。这样的常规技术包括但不限于血细胞的取样和分析、核酸测序和分析等。合适的技术的具体说明还可参考本文以下实例。然而,当然可使用其它等同的常规方法。可在标准的实验室手册例如Genome Analysis:A Laboratory Manual Series(Vols.I-IV)、PCR primier:A Laboratory Manual、和Molecular Cloning:A Laboratory Manual(全部来自冷泉港实验室出版社)等中找到这样的常规技术和说明。
在一个方面,本发明涉及从免疫分子的组库获得并分析序列数据以快速并有效地确定克隆型谱的方法,所述免疫分子例如T细胞受体(TCR)或B细胞受体(BCR)或其限定的片段。序列数据通常包括来自用于分析免疫分子的DNA测序仪的序列读段的大的集合,所述序列读段即碱基响应(base call)的序列和相关的质量分数(quality score)。构建克隆型谱的一个主要挑战为快速地和准确地区分包含真的差异的序列读段与包含来自非生物来源例如提取步骤、测序化学、扩增化学等的错误的那些。本发明的一个方面包括将独特的序列标签附接到样品中的每个克隆型,以辅助确定这样的轭合物的序列读段是否源自相同来源的克隆型。根据本发明的一个方面,序列标签被附接到体细胞重组的核酸分子,以形成标签-分子轭合物,其中这样的轭合物的每个重组核酸具有独特的序列标签。通常,在从包含T细胞和/或B细胞的样品提取核酸分子后进行这样的附接。优选地,如通过用于序列的常规距离测量如Hamming距离等确定的,此类独特的序列标签彼此的差异尽可能大。通过使标签-分子轭合物中序列标签之间的距离最大化,甚至具有高比率的测序错误和扩增错误,相比不同的轭合物的任何其它标签序列,轭合物的序列标签保持远接近于其原始的(ancestoral)标签序列。例如,如果使用16-mer的序列标签,并且克隆型集合上的每个这样的标签与克隆型上每个其他序列标签具有至少50%或8个核苷酸的Hamming距离,则必需至少8个测序错误或扩增错误,以将一个这样的标签转变为另一个用于序列标签的错误读段(以及具有错的序列标签的克隆型的序列读段的不正确的分组)。在一个实施方案中,选择序列标签使得在附接至重组核酸分子以形成标签-分子轭合物之后,标签-分子轭合物的标签之间的Hamming距离为这样的序列标签的总长度的至少25%的数目(即,每个序列标签与每个其他的这样的标签在序列上至少具有其核苷酸的至少25%的差异);在另一个实施方案中,这样的序列标签之间的Hamming距离为这样的序列标签的总长度的至少50%的数目。
在一个方面,通过以下步骤实施本发明:(a)从个体获得包括T细胞和/或B细胞的样品;(b)将序列标签附接到T细胞受体基因或T细胞和/或B细胞的免疫球蛋白基因的重组核酸分子,以形成标签-分子轭合物,其中所述标签-分子轭合物的基本上每个分子具有独特的序列标签;(c)扩增所述标签-分子轭合物;(d)测序所述标签-分子轭合物;以及(e)比对相似序列标签的序列读段,以确定相应于组库的相同克隆型的序列读段。如以下更全面地描述的,使用常规技术获得包含B细胞或T细胞的样品。在附接序列标签的步骤中,优选地,序列标签不仅独特,而且彼此的差别足够大,使得甚至大量测序错误或扩增错误转变一个序列标签成另一个序列标签的可能性接近零。在附接序列标签后,大多数测序技术必需扩增标签-分子轭合物;然而,在使用单分子测序技术时,扩增步骤是任选的。单分子测序包括但不限于单分子实时(SMRT)测序、纳米孔测序等,例如美国专利7,313,308、8,153,375、7,907,800、7,960,116、8,137,569;Manrao等,Nature Biotechnology,4(8):2685-2693(2012)等。
在另一方面,本发明包括通过计数独特的序列标签而确定样品中淋巴细胞的数目的方法。甚至没有序列标签的情况下,TCRβ或IgH基因的克隆型,特别是包括V(D)J区的那些,给淋巴细胞及其克隆提供独特的标记。在重组核酸是从基因组DNA获得时,可通过测序后计数的独特的克隆型的数目而估计样品中淋巴细胞的计数。当存在与相同克隆型相关的相同的淋巴细胞的显著的克隆群体时(或者当重组的核酸是从其个体序列的量可反映、或依赖于表达率及细胞数目的样品mRNA获得时),该方法失效。序列标签的使用克服了该缺点,并且特别地可用于在患许多淋巴紊乱(例如淋巴瘤或白血病)的患者中提供淋巴细胞计数。根据本发明的一个方面,序列标签可用于获得样品中淋巴细胞的绝对计数,无论是否存在大的显性克隆,例如白血病。可用下述步骤实施这样的方法:(a)从个体获得包含淋巴细胞的样品;(b)将序列标签附接到所述淋巴细胞的T细胞受体基因或免疫球蛋白基因的重组核酸的分子,以形成标签-分子轭合物,其中所述标签-分子轭合物的基本上每个分子具有独特的序列标签;(c)扩增所述标签-分子轭合物;(d)测序所述标签-分子轭合物;以及(e)计数不同的序列标签的数目,以确定所述样品中淋巴细胞的数目。在一些实施方案中,重组核酸分子来自基因组DNA。
在本发明的一个实施方案中,序列标签通过取样标记而附接到样品的重组核酸分子上,例如Brenner等,美国专利5,846,719;Brenner等,美国专利7,537,897;Macevicz,国际专利公开WO 2005/111242等中公开的,它们通过引用并入本文。在通过取样标记中,将被标记(或独特地标记)的群体的多核苷酸用于(通过附接、连接等)取样大得多的群体的序列标签。即,如果多核苷酸群体具有K个成员(包括相同多核苷酸的重复),并且序列标签的群体具有N个成员,则N>>K。在一个实施方案中,本发明使用的序列标签群体的大小为样品中克隆型群体大小的至少10倍;在另一个实施方案中,本发明使用的序列标签群体的大小为样品中克隆型群体大小的至少100倍;并且在另一个实施方案中,本发明使用的序列标签群体的大小为样品中克隆型群体大小的至少1000倍。在其它实施方案中,选择序列标签群体的大小,使得当这样的克隆型与这样的序列标签群体在例如附接反应(诸如连接反应、扩增反应等)中组合时,样品中基本上每个克隆型将具有独特的序列标签。在一些实施方案中,基本上每个克隆型意指至少90%的这样的克隆型将具有独特的序列标签;在其它实施方案中,基本上每个克隆型意指至少99%的这样的克隆型将具有独特的序列标签;在其它实施方案中,基本上每个克隆型意指至少99.9%的这样的克隆型将具有独特的序列标签。在许多组织样品或活体组织切片中,T细胞或B细胞的数目可达到或为约1百万细胞;因此,在本发明的一些实施方案中使用这样的样品,在通过取样标记中使用的独特序列标签的数目为至少108,或者在其它实施方案中为至少109
在其中达1百万的克隆型被通过取样标记的实施方案中,可通过在合成反应的每个添加步骤使全部四种核苷酸前体的混合物反应的组合合成有效地生产序列标签的大的集合,例如,如在通过引用并入本文的Church的美国专利5,149,625中公开的。结果为具有“N1N2...Nk”结构的序列标签的大的集合,其中,每种Ni=A、C、G或T,并且k为标签中核苷酸的数目。这样的组合合成产生的序列标签的集合中序列标签的数目为4k。因此,具有至少14的k或约14至18的范围内的k的这样的序列标签的集合适于通过取样标记而将序列标签附接到106个成员的分子群体。具有上述结构的序列标签的集合包括许多在实施本发明的方法时可引入差异或错误的序列。例如,上述组合合成的序列标签的集合包括许多具有均聚物片段的成员标签,一些测序方法例如合成测序方法难于准确地确定上述均聚物片段的确定长度。因此,本发明包括具有对于特定的方法步骤例如测序有效的结构的组合合成的序列标签。例如,可通过将四种天然的核苷酸分成在组合合成中交错地使用的不相交的子集而产生对于合成测序有效的数个序列标签结构,从而防止均聚物分割成上述指定的长度。例如,使z为A或C,并且x为G或T,以产生如下结构的序列标签:
[(z)1(z)2...(z)i][(x)1(y)2…(x)j]…
其中,i和j相同或不同,选择i和j以限制任何均聚物片段的大小。在一个实施方案中,i和j在1至6的范围内。在这样的实施方案中,序列标签可具有12至36个核苷酸范围内的长度;并且在其它实施方案中,这样的序列标签可具有12至24个核苷酸范围内的长度。在其它实施方案中,可使用其它核苷酸配对,例如,z为A或T,并且x为G或C;或者,z为A或G,并且x为T或C。可选地,使z'为四种天然核苷酸的三种的任意组合,并且使x'为不是z'的任何核苷酸(例如,z'为A、C或G,并且x'为T)。这产生了如下的序列标签:
[(z')1(z')2...(z')i]x'[(z')1(z')2...(z')i]x'…
其中如上选择i,并且x'的出现作为插入以终止任何非期望的均聚物。
其它的序列标签
本发明使用了在扩增和测序前用独特的序列标签标记核酸例如基因组DNA片段的方法,所述独特的序列标签可包括“嵌合标签(mosaic tag)”。这样的序列标签可用于识别扩增和测序错误。嵌合标签使现有技术的完全随机的序列标签可能出现的由于不适当的退火、引发(priming)、发卡形成等所致的测序和扩增人工产物最小化。在一个方面,嵌合标签为包括交错的恒定区和可变区的序列标签,其中,每个恒定区在嵌合标签中具有位置,并包括预定序列的核苷酸,并且每个可变区在嵌合标签中具有位置,并包括预定数目的随机选择的核苷酸。通过图示的方式,22-mer的嵌合标签(SEQ ID NO:4)可具有下述形式:
核苷酸位置:
区域位置
有9个恒定区和可变区,区域1(核苷酸1-3)、3(核苷酸9)、5(核苷酸12-14)、7(核苷酸18-19)和9(核苷酸21-22)可变化(双下划线的核苷酸),并且区域2(核苷酸4-8)、4(核苷酸10-11)、6(核苷酸15-17)和8(核苷酸20)是恒定的。N表示从A、C、G或T的集合随机选择的核苷酸;因此,该实例的嵌合标签的数目为411=4,194,304个标签,b表示在指示的位置的预定的核苷酸。在一些实施方案中,选择b的序列“***bbbbb*bb***bbb**b**”,使在构成样品的有机体的基因组中具有完全匹配的可能性最小化。
在一个方面,对于本发明的方法的特定实施方案的嵌合标签,具有相同位置的全部恒定区具有相同的长度,并且具有相同位置的全部可变区具有相同的长度。这允许用常规的化学品和仪器使用部分组合合成而合成嵌合标签。
在一个方面,嵌合标签包括10至100个核苷酸,或12至80个核苷酸,或15至60个核苷酸。在一些实施方案中,嵌合标签包括至少8个具有随机选择的核苷酸的核苷酸位置;在其它实施方案中,当嵌合标签具有至少15个核苷酸的长度时,它们包括至少12个具有随机选择的核苷酸的核苷酸位置。在另一方面,在嵌合标签内无可变区可具有大于7个核苷酸的长度。
在另一个方面,可在以下步骤中使用嵌合标签:(i)从样品中的核酸制备DNA模板;(ii)通过取样标记DNA模板,以形成多重标签-模板轭合物,其中,标签-模板轭合物的基本上每个DNA模板具有独特的嵌合标签,所述嵌合标签包括交错的恒定区和可变区,每个恒定区在嵌合标签中具有位置,以及1至10个核苷酸的长度的预定序列,并且每个可变区在嵌合标签中具有位置,并具有1至10个的长度的随机选择的核苷酸,使得具有相同位置的恒定区具有相同的长度,并且具有相同位置的可变区具有相同的长度;(iii)扩增所述多重标签-模板轭合物;(iv)对于每个扩增的标签-模板轭合物,产生多个序列读段;和(v)通过确定在具有相同的嵌合标签的多个序列读段的每个的每个核苷酸位置的一致核苷酸,而确定每个核酸的核苷酸序列。在另一方面,嵌合标签可用在下述步骤中:(a)从样品中的核酸制备单链DNA模板:(b)通过取样标记所述单链DNA模板,以形成标签-模板轭合物,其中,标签-模板轭合物的基本上每个单链DNA模板具有独特的序列标签(即嵌合标签),所述独特的序列标签具有至少15个核苷酸的长度,并具有以下形式:
[(N1N2…Nkj)(b1b2…bLj)]M
其中,每个Ni,对于i=1、2...Kj,为随机选自由A、C、G和T组成的组的核苷酸;对于每个小于或等于M的j,Kj为1-10的范围内的整数(即区域N1N2...NKj为可变区);每个bi,对于i=1、2,...Lj,为核苷酸;对于每个小于或等于M的j,Lj为1-10的范围内的整数;使得每个序列标签(i)对于每个j具有相同的Kj以及(ii)对于每个j具有相同的序列b1b2...bLj(即区域b1b2...bLj为恒定区);并且M为大于或等于2的整数;(c)扩增所述标签-模板轭合物;(d)对于每个扩增的标签-模板轭合物,产生多个序列读段;以及(e)通过确定在具有相同序列标签的多个序列读段的每个的每个核苷酸位置的一致核苷酸,而确定每个核酸的核苷酸序列。在一些实施方案中,多个序列读段为至少104;在其它实施方案中,多个序列读段为至少105;在又其它实施方案中,多个序列读段为至少106。在一些实施方案中,上述序列标签的总长度在15至80个核苷酸的范围内。
各种不同的附接反应可用于将独特的标签附接到样品中基本上每个克隆型。在一个实施方案中,通过组合包含重组的核酸分子(其依次包括克隆型序列)的样品与序列标签的群体或文库使得两种分子群体的成员可随机组合并例如共价地缔合或连接而完成这样的附接。在这样的标签附接反应中,克隆型序列包括线性的单链或双链多核苷酸,并且通过例如扩增引物(例如PCR引物)、配体接头、可环化探针、质粒等的试剂携带序列标签。在通过引用并入本文的Macevicz,美国专利8,137,936;Faham等,美国专利7,862,999;Landegren等,美国专利8,053,188;Unrau和Deugau,Gene,145:163-169(1994);Church,美国专利5,149,625等中公开了数个能够携带序列标签群体的这样的试剂。
图1A和图1B图示了包括PCR的附接反应,其中,序列标签(Τ1、T2、T3...Tj、Tj+1...Tk、Tk+1...Tn-1、Tn)的群体被掺入到引物(100)中。所述序列标签的群体具有比重组的核酸分子(102)的尺寸大得多的尺寸。序列标签通过退火引物到核酸分子,并在PCT的第一个循环中用DNA聚合酶延伸引物而附接到重组核酸分子。该图图示了重组核酸分子如何通过它们共同的引物结合区(104)(例如V区(108))的方式随机退火引物而选择或取样序列标签总群体的一小部分。由于引物(因此序列标签)与重组的核酸序列分子随机组合,相同的序列标签有小的可能性可附接到不同的核酸分子;然而,如果序列标签群体如本文中教导的那样大,则这样的可能性可忽略地小,使得基本上每个重组核酸分子具有附接的独特的序列标签。正向和反向引物对的其它引物(106)退火到C区(110),使得在退火、延伸和溶解的多个循环后,形成扩增子(112),从而将独特的序列标签附接到包含群体的克隆型的V(D)J区(102)。即,扩增子(112)包括来自附接反应的标签-分子轭合物。
这样的免疫分子通常形成免疫组库,所述免疫组库通常包括在长度上相对短(例如,通常小于300bp)的非常相似的多核苷酸的非常大的集合(例如>1000,但是更通常从100,000至1,000,000,或者更大)。在本发明的一个方面,发明人认识和理解这些特征允许使用高度不相似的序列标签,以有效地比较高度相似的克隆型的序列读段,以确定它们是否源自相同来源的序列。
免疫组库的复杂性是熟知的,例如Arstila等,Science,286:958-961(1999)和Warren等(以上引用)。图1C示意地图示了根据本发明的一些实施方案的克隆型谱衍生自的IgH分子(120)的典型转录本。天然序列变异的来源包括来自基因组携带的大的集合的C、D、J和V区段的模块化重组(modular recombination);D区段末端的核苷酸的添加或缺失,以产生所谓的“NDN”区;以及其中以曲线(128)大致表示的相对频率在转录本(122)的长度上产生取代的体细胞超变。在本发明的一个方面,扩增和测序这样的IgH和TCR转录本的复杂的群体。在一个方面,通过使用退火到V区的不同位点的冗余引物(redundant primer)(以下更全面地描述)进行对IgH分子的一个或两个操作。当使用具有相对高错误率的测序化学时,或者当难于或不可能事先知道这样的序列变异性时,这尤其有益。在后者的情况下,即使一个或更多个引物结合位点由于(例如)由一个或更多个体细胞突变引起的错配而不可操作,或者基本上不可操作时,仍发生用于扩增或产生序列读段的引物延伸。从曲线(128)显示的启动子P(122)相对频率开始,通过前导区(124)在转录本的V(D)J区(126)上达最大值,然后下降到接近0。在本发明的一个方面中,利用多个正向引物或多个反向引物,通过PCR扩增重组B细胞核酸的区段,以产生模板的嵌套集合,如Faham和Willis的美国专利公开2011/0207134中公开的。来自这样的集合的模板可在表面上进一步扩增以形成独立的扩增子(例如通过使用cBot仪器,Illumina,San Diego,CA的桥式PCR)。来自同一嵌套集合的模板可通过在它们的共同末端产生的序列读段彼此相互关联。嵌套集合模板允许将错误率相对较高的测序化学法用于分析比其他方式所允许的更长的序列,而同时在整个序列长度上保持高的平均质量分数。即使V区经历体细胞超变,嵌套集合也能确保从V区获得至少一次序列读段。
因为难于确定碱基变化是否是由于测序错误或扩增错误或由于自然的突变过程所致,所以IgH分子的体细胞突变增加了一层从序列读段数据重构克隆型的困难。根据本发明的序列标签的使用大大减小了这样的困难,因为每个编码IgH的核酸将接受不同并独特的序列标签。如图3中图示,根据本发明的序列读段(300)的每个包括序列标签(302)的拷贝和克隆型(304)(SEQ ID NO:1)的拷贝。汇集具有相同序列标签的全部序列读段,使得可以比较克隆型部分的每个位置的核苷酸(例如SEQ ID NO:2和SEQ ID NO:3)。因此,即使编码IgH的序列差异不超过单个碱基,它们仍接受不同的序列标签,所以在克隆型确定的过程中样品中紧密相关的编码IgH的核酸未被彼此比较。如上所提及的,序列标签中的错误不显著,因为与克隆型缔合的序列标签的序列在序列空间上如此远离使得可以维持巨大量的碱基变化,而没有一个序列标签在序列空间中变得接近任何其它序列标签。
从序列读段数据构建克隆型部分地依赖于用于产生这样的数据的测序方法,因为不同的方法具有不同的预期读段长度和数据质量。在一种方法中,使用Solexa测序仪产生用于分析的序列读段数据。在一个实施方案中,获得提供至少0.5-1.0×106个淋巴细胞的样品,以产生至少1百万的模板分子,该模板分子在任选的扩增后可产生相应的一百万或更多个模板分子(或簇)克隆群体。对于大多数的高通量测序方法(包括Solexa方法),期望在簇水平的这种过取样(over sampling),使得用大程度的冗余确定每个模板序列,以提高序列确定的准确性。对于基于Solexa的实施方式,优选地,确定每个独立的模板的序列10次或更多。对于其它具有不同的预期读段长度和数据质量的测序方法,可使用不同水平的冗余用于序列确定的相当的准确性。本领域普通技术人员了解上述参数,例如样本大小,冗余等,是关于特定的应用的设计选择。
图2A-2C图示了在两阶段PCR中将独特的序列标签附接到重组核酸分子的示例步骤。在PCR混合物中来自包含T细胞或B细胞的样品的重组核酸分子(250)群体与正向引物和反向引物((202)和(262))合并。引物(262)的每个包括3个区域:靶退火区(263)(该图示中为V区(206));序列标签(264);和用于两阶段PCR的第二个阶段的引物结合区(265)。在该图示中,引物(262)包括靶退火区的混合物,以解释V区序列的多样性。因此,用序列标签区制备每个不同的引物。可选地,序列标签元件可沿用于第二PCR阶段的引物结合区附接到C区引物(202)。如示出的,重组核酸分子(250)包括恒定或C区(203)、J区(210)、D区(208)和V区(206),其可表示编码TCR或免疫球蛋白的CDR3区的V(D)J区段。在几个循环后,例如4至10个,产生第一阶段的扩增子(266),每个成员多核苷酸包含序列标签(270)。在第二阶段PCR中,用新的正向和反向引物P5(222)和P7(220)再扩增扩增子(266)的多核苷酸,这为在Solexa/Illumina测序仪中使用桥式PCR的簇形成进一步增加引物结合位点(224)和(223)。引物P7还包括任选的在单个测序运行中用于样品的多倍化的第二序列标签(221)。在再次PCR(secondary PCR)后,用嵌入的P5和P7序列产生扩增子(280),可通过该嵌入的P5和P7序列可进行桥式PCR。
由序列数据确定克隆型
根据本发明的一个方面,通过基于序列读段的序列标签首先分组序列读段而确定样品的克隆型。可通过常规的序列比对方法完成这样的分组。可在通过引用并入本文的Batzoglou,Briefings in Bio informatics,6:6-22(2005)中获得选择比对方法的指南。按照相应于独特的序列标签的组汇集序列读段,然后可分析缔合的克隆型的序列,以从样品确定克隆型的序列。图3图示了了确定与独特的序列标签缔合的克隆型的序列(SEQ ID NO:1)的示例性的比对和方法。在该实例中,通过它们各自的序列标签(302)的方式比对十一个序列读段,然后比较序列读段的克隆型部分的每个位置(表示为1、2、3、4,...n)的核苷酸。例如,在位置6(306)的核苷酸为t、t、g、t、t、t、t、t、t、c、t;即9个碱基响应为t,一个为“g”(308),并且一个为“c”(310)(分别为SEQ ID NO:2和SEQ ID NO:3)。在一个实施方案中,在一个位置的克隆型序列的正确碱基响应为任何大多数碱基的身份。在位置6(306)的实例中,碱基响应为“t”,因为它是在该位置的大多数序列读段的核苷酸。在其它实施方案中,可考虑其它因素以确定克隆型序列的正确碱基响应,例如序列读段的碱基响应的质量分数、相邻碱基的身份等。
一旦如上述确定了克隆型,可汇集包括样品的每个不同的克隆型的丰度和频率的克隆型谱。
在合成测序方法中确定均聚物
根据本发明的一个方面,序列标签可用于从合成测序(SBS)方法产生的信号确定均聚物区域中的核苷酸的数目。即,当复制靶多核苷酸并且多个复制物经受不同的SBS反应时,每个复制物可被标记相同的序列标签,使得来自不同复制物的相似区域中的碱基掺入的SBS信号可通过经由共同的序列标签连接不同掺入信号来分析。SBS方法具有各种实施方式,例如,Fuller等,Nature Biotechnology,27:1013-1023(2009);Ronaghi等,Science,281:363-365(1998);Margulies等,Nature,437:376-380(2005);Rothberg等,Nature,475:348-352(2011);Kumar等,Scientific Reports,2:684(2012);Sims等,Nature Methods,8:575-580(2011);Pourmand等,Proc.Natl.Acad.Sci.,103:6466-6470(2006);Seo等,Proc.Natl.Acad.Sci.,102:5926-5931(2005)等。使用SBS的可商购的DNA序列包括454GS测序仪(454Life Sciences)、PGM和Proton Ion Torrent测序仪(Life Technologies)、PyroMark测序仪(Qiagen)等。许多SBS方法的变体的共同特征为信号序列的产生(“掺入信号”),所述信号序列的每个与在模板驱动的合成反应中掺入到延伸的核苷酸链的核苷酸的数目成比例(或者至少单调地相关)。这样的SBS的变体的共同挑战为当均聚物区域的长度超过5-6个核苷酸时,确定掺入到模板的均聚物区域中的核苷酸的数目。在本发明的一个方面,通过使用序列标签解决该问题。如上述,该实施方案中这样的序列标签的序列彼此足够远离,使它们甚至在引起多个扩增错误和/或序列错误后,易于与它们的原始或母体的序列相关。以该方式,它们与如下在测序中经常使用的标签不同,例如用于校准碱基响应的软件的标签(例如,所谓的“关键”序列)、表明样品或样本的来源的标签、减少残留污染等的标签。在一些实施方案中,通过使用嵌合标签取样而标记模板,使得可选择序列标签自身,而不需要大于所述标签的最长可变区的长度的均聚物区域。在一些实施方案中,使用可变区不长于5个核苷酸的嵌合标签;并且在其它实施方案中,使用可变区不长于4个核苷酸的的嵌合标签。可选地,可如通过引用并入本文的Brenner等的美国专利7,537,897中公开的,构建适于SBS的序列标签。
图4A图示了SBS方法的一个变体,包括添加核苷酸以及洗涤的循环,通常在添加的核苷酸掺入期间或之后进行信号产生。换句话说,描述的变体包括按顺序添加每种不同的核苷三磷酸以及洗涤的循环,例如按以下顺序:(a)添加dATP到生长的模板结合的链,并洗涤;(b)添加dGTP到生长的模板结合的链,并洗涤;(c)添加dCTP到生长的模板结合的链,并洗涤;和(d)添加dTTP到生长的模板结合的链,并洗涤的循环。这样的循环的许多另外的实施方案和变化是可能的,例如Schultz等的美国专利公开2012/0035062,并且在合成测序的范围内。通常,用核酸聚合酶(例如DNA聚合酶)进行延伸。返回图4A,显示了SBS的一个变体。具有与引物结合位点(404)相邻的序列区域(402)的单链模板(400)被锚定到固相支持物上(408),例如Ion Torrent半导体测序芯片的微孔中的SNAPP,例如通过引用并入本文的Nobile等的美国专利公开2010/0300895;Hinz等的美国专利公开2011/0195253。锚定的模板(400)在允许测序引物(406)退火到引物结合位点(404)以及在添加核苷三磷酸时通过聚合酶(410)延伸测序引物(406)的条件下与测序引物(406)和聚合酶(410)结合。在图4A的变体中,包括模板(400)、测序引物(406)和聚合酶(410)的复合体被分别并且按顺序地暴露于dATP、dGTP、dCTP和dTTP的流。在暴露于dATP流(412)之后,通过单一的dA(413)延伸测序的引物(406)。在洗涤(414)以去除或破坏任何残留的dATP后,引入dGTP流(416),使聚合酶(410)掺入dGTP,以通过单一的dG(415)延伸测序引物(406)。在洗涤(418)后,引入dCTP流(420),然而,因为模板中的下一个碱基不与dC互补,没有核苷酸掺入,并且没有测序引物(406)延伸。用洗涤步骤(422)和dTTP流(424)完成该循环。
在这个以及其它SBS的变体中的每个掺入事件期间或之后,产生掺入信号,该掺入信号在特性上可广泛地变化,并可同时包括超过一种的物理或化学表现,例如,光学的和/或电学的。示例的掺入信号包括但不限于pH、荧光、化学发光、电阻等的变化。图4B图示了分别在上述图4A的dATP、dGTP和dCTP流期间或之后记录的典型的掺入信号(426、428、430)。可分析这样的数据,以给出与添加到引物(406)或它的延伸的核苷酸的数目成比例,或者单调地相关的每个峰的数目。这样的分析中获得的数目可根据具体的实施方案而变化,例如,这样的数目可为这样的峰的面积、峰高度、半峰宽度的函数,或者诸如本领域中已知的函数。图4C和4D图示了在均聚物区域(432)存在下并使用序列标签检测掺入信号的SBS方法。支持物(436、438、440)分别相应于单独的SBS反应1、2和K,它们连接有相同的序列标签-模板轭合物的复制物(SEQ ID NO:5)。分别通过单独的聚合物410、410'和410"在单独的反应中延伸引物406、406'和406"。这样单独的反应在单独的反应限制区进行,该单独的反应限制区继而可具有各种形态,例如各种尺度的微孔阵列,例如Rothberg等,Nature,475:348-352(2011);Leamon等,美国专利8,158,359;Rothberg等,美国专利8,313,625;它们的每一个通过引用并入本文。还可通过珠或表面上或凝胶内部的模板的簇定义反应限制区,所述模板的簇例如由桥式PCR产生,所述桥式PCR在Boles等,美国专利6,300,070;Balasubramanian等,美国专利6,787,308中公开,它们都通过引用而被并入。根据SBS方法的一些实施方案,按顺序引入不同的dNTP流到每个反应。通常但是不必要地,每个不同的反应将在大约相同的时间暴露于相同的流,例如对于与适当的流系统结合使用的Ion Torrent半导体测序芯片的不同微孔中发生的SBS反应中的情况将是这样,例如Nobile等(以上引用);Davey等,美国专利公开2012/0143531,后者通过引用并入本文。在每个dNTP流期间或之后,获得掺入信号(i1、i2,...ik)。图4C图示了第二dATP流的掺入信号(442)。对于超过5-6个碱基的均聚物,最后掺入的核苷酸对总信号的贡献变得越来越小,使得难于区分来自掺入的核苷酸的信号与噪音。根据本发明,可一起分析来自多个复制模板的掺入信号,因为它们可被它们共同的序列标签识别。如上所讨论的,选择序列标签(例如通过取样标记过程),使得甚至存在多个扩增或测序错误时,每个标签-多核苷酸轭合物及其复制物的序列标签可与任何其它标签-多核苷酸轭合物及其复制物的每种的序列标签区分。
图4D显示了大量掺入信号(450)的多个序列(1、2,...K),其中,每个序列与共同的序列标签(452)及模板TCGGGGGGGACTT(SEQ ID NO:5)缔合。图示的数据集合的形式与图3中所图示的相似,图3图示了碱基测量的列如何可用于确定最终碱基响应。图4D描述了掺入信号的列如何可用于最终确定核苷酸掺入的数目。当单独的模型用于提取由单个反应的掺入信号估计的核苷酸掺入后,可作出这样的确定,或者通过应用模型到全部或多个来自具有相同母标签的标签-多核苷酸轭合物的掺入信号作出确定。如上所述,图4D中显示的数目为由峰例如(426、428和430)描述的数据集的函数的值(其显示了掺入的信号产生与时间的比率,并且其积分或面积是核苷酸掺入的一种度量)。图4D的标记为“f1a、f1g、f1c、f1t、f2a、f2g”等的列,表示dNTP流的循环,其中,第一个循环(f1a、f1g、f1c、f1t)包括顺序引入dATP、dGTP、dCTP和dTTP到SBS反应,等等。
如上所提到的,可通过具有下述步骤的方法实施本发明的该方面:(a)将序列标签附接到一个或更多个多核苷酸的每个,以形成标签-多核苷酸轭合物,其中所述标签-多核苷酸轭合物的基本上每个多核苷酸具有独特的序列标签;(b)扩增所述标签-多核苷酸轭合物;(c)合成测序扩增的标签-多核苷酸轭合物,其中合成测序包括至少一个dNTP流;和(d)对于具有相同序列标签的每个标签-多核苷酸,确定每个dNTP流的核苷酸掺入数目,该数目作为每个这样的dNTP流的测量的掺入信号的函数。通常,扩增的标签-多核苷酸轭合物包含侧翼序列,以帮助实施各种步骤。例如,标签-多核苷酸轭合物在每个末端可包括一个或更多个侧翼引物结合位点,以允许例如再次扩增、测序引物退火和延伸、基于杂交的捕获等操作。如上所提到的,可通过各种流输送设备和控制系统实施dNTP流,例如在大部分市售的DNA测序系统上实施的那些,例如通过引用并入本文的Schultz等的美国专利公开2012/0073667。dNTP流是包含dNTP的试剂通过反应位点的移动。优选地,实施dNTP流,使得在连续的流之间有显著的流的边界。在一些实施方案中,可以用除了存在dNTP之外与包含dNTP的试剂基本相同的试剂实施洗涤步骤。在一些实施方案中,用于实施洗涤步骤的试剂可包括破坏或变性前面流的dNTP的试剂,例如三磷酸腺苷双磷酸酶。在大多数实施方案中,dNTP流包含对于复合体中的聚合酶来说足以在模板驱动的反应中通过沿标签-多核苷酸轭合物掺入dNTP的流而延伸测序引物的全部的试剂、盐水平、pH等。如上所提到的,多种函数或算法可用于从通过具有相同的序列标签的标签-多核苷酸轭合物而关联的单独的反应模拟信号(例如掺入信号的值)。在一些实施方案中,来自具有相同的序列标签的标签-多核苷酸轭合物的掺入信号的函数(function)为最接近由单独的SBS反应测量的这种掺入信号的平均值的整数。平均值可为算术平均值或加权平均值,例如,后者可依赖于:使用的特定测序系统的特性例如使用的特定测序化学、是否使用标签、产生何种类型的信号(例如,光学、电阻脉冲、pH等)、SBS反应位点在dNTP流中的位置等。关联来自SBS反应和核苷酸掺入信号的可选模型的指南在Rearick,美国专利公开2012/0172241;和Hubbell,美国专利公开2012/0173158中公开,它们都通过引用并入本文。
如上所提到的,可通过各种方法步骤和试剂实施合成测序。在一些实施方案中,可用以下步骤实施合成测序:(a)对于标签-多核苷酸轭合物的每个在允许测序引物退火到这样的标签-多核苷酸轭合物以及在核苷三磷酸的存在下通过核酸聚合酶沿所述标签-多核苷酸轭合物延伸这样的测序引物的条件下形成复合体,所述复合体包括测序引物、核酸聚合酶,以及标签-多核苷酸轭合物;(b)通过dNTP流将dNTP引入所述复合体;(c)测量每个复合物的掺入信号;(d)洗涤所述复合体;和(e)重复步骤(b)至(d)。在一些实施方案中,在扩增标签-多核苷酸轭合物后,在合成测序的步骤中使用所得扩增子的样品。在一些实施方案中,这样的样品包括至少大于102的标签-多核苷酸轭合物数目;在其它实施方案中,这样的样品包括至少102至1015范围内的标签-多核苷酸轭合物数目,或者在其它实施方案中,在102至1012的范围内,或者在其它实施方案中,在102至109的范围内。在其它实施方案中,这样的样品足够大,使具有0.001或更高的频率的全部多核苷酸以99%的可能性存在;或者使具有0.0001或更高的频率的全部多核苷酸以99%的可能性存在。
本发明的该方面中使用的dNTP可为非阻断的dNTP或延伸阻断的dNTP。在前者(非阻断的dNTP)的情况下,在单一dNTP流期间,如果模板包含均聚物区域,则可出现等于均聚物长度数目的掺入。(有因素引起产生较少的掺入(例如具有低的持续合成能力的聚合酶),但是对于非阻段的dNTP,此数目可能等于聚合物长度)。例如,Ion Torrent合成测序化学法使用非阻断的dNTP。在延伸阻断的dNTP的情况下,对于每个流仅可发生单一dNTP的掺入,通常是由于化学阻断基团在引入的核苷酸上的存在。因此,dNTP掺入的循环还包括去阻断步骤,以在延伸的测序引物上再产生可延伸的末端。例如,Illumina合成测序化学法使用延伸阻断的dNTP,例如Bentley等(以下引用)。在一些实施方案中,去阻断步骤可实施为洗涤步骤的一部分。
使用序列标签检测残留污染
残留污染是包括核酸的扩增的技术的显著的问题,例如Borst等,Eur.J.Clin.Microbiol.Infect.Dis.,23(4):289-299(2004);Aslanzadeh,Ann.Clin.Lab.Sci.,34(4):389-396(2004)等。这样的污染当在样品的测定中无意地扩增样品外来的微量的核酸时产生,并且影响或作用于测量结果。在更严重的情况下,来自患者的医学样品中的残留污染可导致测定结果的假阳性解释。外来的核酸可来自与具体的患者无关的来源,例如它可来自另一个患者的样品。或者,外来的核酸可来自与患者有关的来源,例如,它可来自过去同一实验室中处理的同一患者的不同样品,或者来自对来自过去在同一实验室中处理的同一患者的不同的样品的测定反应。
当测量相关核酸的高度复杂的群体,例如编码免疫分子如T细胞受体或免疫球蛋白的重组核酸群体时,残留污染在临床环境中尤其有挑战。出现该挑战是因为难于确定序列读段或克隆型是否是目标样品的真的多样性的一部分,或者它们是否源自外部来源的核酸,例如在同一实验室同一大的测定中处理另一患者的样品或者同一患者以前的样品。在本发明的一个方面,可使用序列标签不仅由序列读段确定克隆型,还确定序列标签是否源自当前的样品或来自另一个样品来检测这样的残留污染。这通过保持由每个患者样品确定的序列标签的记录,然后无论何时做出后续的测量时,将当前测量的序列标签与以前测量的标签相比较而实现。由于来自每次测量的大量的标签,以及易于使用常规的算法检索和比较电子记录,这样的与克隆型缔合的序列标签的记录通常保持为大容量存储装置上的电子记录。如果发现匹配,则最可能的原因为残留污染,条件是测量中使用的序列标签的群体足够大。以上所讨论的通过取样标记的序列标签群体与克隆型群体的大小的相同的示例性比例,可应用于检测残留的污染。在一个实施方案中,这样的比例为100:1或更大。
样品
从各种的组织中存在的免疫细胞样品获得克隆型谱。感兴趣的免疫细胞包括T细胞和/或B细胞。T细胞(T淋巴细胞)包括,例如表达T细胞受体(TCR)的细胞。B细胞(B淋巴细胞)包括,例如表达B细胞受体(B CR)的细胞。T细胞包括辅助T细胞(效应T细胞或Th细胞)、细胞毒性T细胞(CTL)、记忆T细胞和调节T细胞,它们可通过细胞表面标记区分。在一个方面,T细胞的样品包括至少1,000个T细胞;但是更通常地,样品包括至少10,000个T细胞,并且更通常地至少100,000个T细胞。在另一方面,样品中包括1000个至1,000,000个细胞范围内的数目的T细胞。免疫细胞的样品还可包括B细胞。B细胞包括,例如血浆B细胞、记忆B细胞、B1细胞、B2细胞、边缘区B细胞以及滤泡B细胞。B细胞可表达免疫球蛋白(还称为抗体或B细胞受体)。如上述,在一个方面,B细胞的样品包括至少1,000个B细胞;但是更通常地,样品包括至少10,000个B细胞,并且更通常地至少100,000个B细胞。在另一方面,样品包括1000个至1,000,000个B细胞范围内的数目的B细胞。
用在本发明的方法中的样品(有时称为“组织样品”)可来自各种组织,包括,例如肿瘤组织、血液和血浆、淋巴液、脑和脊髓周围的脑脊液、骨关节周围的滑液等。在一个实施方案中,所述样品为血液样品。所述血液样品可为约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5或5.0mL。所述样品可为肿瘤活组织检查样品。所述活组织检查样品可以来自,例如,脑、肝脏、肺、心脏、结肠、肾脏或骨髓的肿瘤。本领域技术人员所用的任何活组织检查技术都可用于从受试者分离样品。例如,活组织检查可以是开放性活组织检查,其中采用全身麻醉。活组织检查可以是闭合性活组织检查,其中形成比开放性活组织检查更小的切口。活组织检查可以是中心活组织检查或切开活组织检查,其中移除组织的一部分。活组织检查可以是切除活组织检查,其中尝试移除整个病变。活组织检查可以是细针抽吸活组织检查,其中用针移除组织样品或体液样品。
样品或组织样品包括核酸,例如,DNA(例如,基因组DNA)或RNA(例如,信使RNA)。所述核酸可以是无细胞DNA或RNA,例如从循环系统提取的,Vlassov等人,Curr.Mol.Med.,10:142-165(2010);Swarup等人,FEBS Lett.,581:795-799(2007)。在本发明的方法中,可分析的来自受试者的RNA或DNA的量包括广泛地变化。例如,单个细胞的DNA或RNA可为校准试验(即,以确定疾病的关联的克隆型的最初测量)需要的全部。为了产生克隆型谱,充足的核酸必须在样品中以获得个体免疫受体组库的有用的代表。更具体地,为了从基因组DNA产生克隆型谱,从样品提取至少1ng的来自T细胞或B细胞的总DNA(即约300二倍体基因组当量);在另一个实施方案中,从样品提取至少2ng的总DNA(即约600二倍体基因组当量);并且在另一个实施方案中,从样品提取至少3ng的总DNA(即约900二倍体基因组当量)。本领域普通技术人员将认识到随着样品中淋巴细胞部分的减少,上述最小量的DNA必须增加,以产生包含超过约1000个独立的克隆型的克隆型谱。为了由RNA产生克隆型谱,在一个实施方案中,提取足量的RNA,以获得编码不同的TCR、BCR或其片段的至少1000个转录子。相应于该限度的RNA的量根据样品中淋巴细胞部分、淋巴细胞的发育阶段等,从样品到样品而广泛地变化。在一个实施方案中,从包含B细胞和/或T细胞的组织样品中提取至少100ng的RNA用于产生克隆型谱;在另一个实施方案中,从包含B细胞和/或T细胞的组织样品中提取至少500ng的RNA用于产生克隆型谱。用在本发明的方法中的RNA可为从组织样品直接提取的总RNA、或从组织样品直接提取的polyA RNA或从组织样品提取的总RNA提取的polyA RNA。上述核酸提取可使用市售的试剂盒进行,例如来自Invitrogen(Carlsbad,CA)、Qiagen(San Diego,CA)或相似的供应商。提取RNA的指南可在Liedtke等,PCR Methods and Applications,4:185-187(1994)和相似的文献中找到。
如下文更充分地讨论的(定义),包含淋巴细胞的样品足够大,使得基本上每个具有不同克隆型的T细胞或B细胞在其中都有代表,从而形成组库(作为本文中使用的术语)。在一个实施方案中,采集样品,该样品有99%的可能性包含以0.001%或更高的频率存在的群体的每一种克隆型。在另一个实施方案中,采集样品,该样品有99%的概率包含以0.0001%或更高的频率存在的群体的每一种克隆型。在一个实施方案中,B细胞或T细胞样品包括至少50万个细胞,而在另一实施方案中,该样品包括至少100万个细胞。
每当取样材料来源诸如,临床研究样品或类似样品稀缺时,可通过非偏差(non-biasing)技术,诸如全基因组扩增(WGA)、多重置换扩增(MDA)或类似技术例如,Hawkins等人,Curr.Opin.Biotech.,13:65-67(2002);Dean等人,Genome Research,11:1095-1099(2001);Wang等人,NucleicAcids Research,32:e76(2004);Hosono等人,Genome Research,13:954-964(2003)等等来扩增来自材料的DNA。
血液样品是特别感兴趣的,并且可用常规技术例如Innis等人编,PCRProtocols(Academic Press,1990)等获得。例如,可用常规技术,例如RosetteSep试剂盒(Stem Cell Technologies,Vancouver,加拿大),从血液样品中分离白细胞。相似地,可使用市售的试剂盒(例如MiltenyiBiotec,Auburn,CA)等分离全血的其它部分,例如外周血单核细胞(PBMC)用于本发明的方法。血液样品的体积范围可为100μL-10mL;在一个方面,血液样品的体积范围是100μL或2mL。随后可用常规技术例如DNeasy血液和组织试剂盒(Qiagen,Valencia,CA)从这种血液样品中提取DNA和/或RNA用于本发明方法的。任选地,白细胞的亚群,例如淋巴细胞,可用常规技术进一步分离,例如荧光激活细胞分选(FACS)(BectonDickinson,San Jose,CA)、磁激活细胞分选(MACS)(Miltenyi Biotec,Auburn,CA)等。
在一些实施方案中,重组核酸存在于每个个体的适应性免疫细胞的DNA以及它们关联的RNA转录本中,以便在本发明提供的方法中可对RNA或DNA二者之一进行测序。来自编码T细胞受体或免疫球蛋白分子的T细胞或B细胞重组序列或其部分被称为克隆型。所述DNA或RNA可对应于T细胞受体(TCR)基因或编码抗体的免疫球蛋白(Ig)基因的序列。例如,所述DNA和RNA可对应于编码TCR的α、β、γ或δ链的序列。在大多数T细胞中,所述TCR是由α链和β链组成的异二聚体。TCRα链是通过VJ重组产生的,并且β链受体是通过V(D)J重组产生的。对于TCRβ链而言,人类中有48个V区段、2个D区段和13个J区段。在两个连接点(junction)中的每一个都可以缺失若干碱基并添加其他碱基(称为N核苷酸和P核苷酸)。在少数T细胞中,TCR由γ链和δ链组成。TCRγ链是通过VJ重组产生的,并且TCRδ链是通过V(D)J重组产生的(Kenneth Murphy,Paul Travers和Mark Walport,Janeway′s Immunology,第7版,Garland Science,2007,通过引用全文并入本文)。
在本发明方法中所分析的DNA和RNA可对应于编码具有恒定区(α、δ、ε、γ或μ)的重链免疫球蛋白(IgH)或具有恒定区λ或κ的轻链免疫球蛋白(IgK或IgL)的序列。每个抗体具有两个相同的轻链和两个相同的重链。每个链包括恒定(C)区和可变区。对重链而言,可变区包括可变(V)区段、多变(D)区段和连接(J)区段。编码这些区段中每种类型的几个不同序列存在于基因组中。特定VDJ重组事件发生在B细胞发育期间,标记该细胞产生特定重链。轻链的多变性以相似的方式产生,只是没有D区,所以只是VJ重组。体细胞突变经常发生在重组位点附近,导致若干核苷酸的添加或删除,进一步增加了由B细胞产生的重链和轻链的多变性。由B细胞产生的抗体的可能的多变性则是不同重链和轻链的产物。重链和轻链的可变区有助于形成抗原识别(或结合)区或位点。可在出现针对某表位的特异性应答之后发生的体细胞超变过程增加了这种多变性。
根据本发明,可以选择引物以产生从淋巴细胞中提取的重组核酸亚群的扩增子。此类亚群在本文中可被称为“体细胞重排区”。体细胞重排区可包含来自发育中的或发育完全的淋巴细胞的核酸,其中发育中的淋巴细胞是免疫基因重排未完成从而未形成具有完整V(D)J区的分子的细胞。示例的不完全体细胞重排区包括不完全IgH分子(诸如,仅包含D-J区的分子)、不完全TCRδ分子(诸如,仅包含D-J区的分子)以及无活性的IgK(例如,包含Kde-V区)。
如下文在“克隆型”和“组库”的定义中进一步描述的,足够的细胞取样是解释组库数据的一个重要方面。例如,从1000个细胞开始,产生试验灵敏的最低频率,该频率与获得的测序读段数目无关。因此,本发明的一方面是开发对输入免疫受体分子的数量进行定量的方法。该方法已被实施用于TCR和IgH序列。在任何一种情况下,采用能扩增所有不同序列的同一集合的引物。为了获得绝对拷贝数,与具有已知免疫受体拷贝数的标准品一起执行使用多重引物的实时PCR。这种实时PCR测量可从扩增反应进行,所述扩增反应随后被测序,或者可对同一样品的等分试样进行这种实时PCR测量。在DNA的情况下,重排免疫受体分子的绝对数可以很容易地转换为细胞数(2倍内,因为某些细胞将评估特异性免疫受体的2个重排拷贝而其他细胞只评估1个)。在cDNA的情况下,可对实时样品中重排分子的测量总数进行推断,以确定在同一样品的另一个扩增反应中使用的这些分子的总数。此外,可将该方法与确定RNA总量的方法相结合,从而假设特定的cDNA合成效率,确定单位量(假设1μg)的RNA中重排免疫受体分子的数目。如果测量cDNA的总量,则无需考虑cDNA合成的效率。如果细胞数也是已知的,则可计算每个细胞的重排免疫受体拷贝。如果细胞数是未知的,则可从总RNA估算细胞数,因为特定类型的细胞通常产生相当量的RNA。因此,从每1μg中重排免疫受体分子的拷贝,可以估算每个细胞中这些分子的数目。
与针对测序进行的反应分开进行实时PCR的一个缺点是可能存在于实时PCR中与另一个反应中不同的抑制效果,因为可能使用不同的酶、输入DNA以及其他条件。针对测序而处理实时PCR产物可以改善该问题。然而,实时PCR的低拷贝数可能是因为拷贝数低或由于抑制效果或反应中其他欠佳的条件。
已知量的cDNA或基因组DNA的一种或更多种内部标准品可加到测定反应中,以确定未知量的cDNA或基因组DNA样品的绝对数量或浓度。通过计数内部标准品的分子的数目,并将其与相同样品的其余序列比较,可估计最初的cDNA样品中重排免疫受体分子的数目(这样的分子计数的技术是熟知的,例如通过引用并入本文的Brenner等的美国专利7,537,897)。
核酸群体的扩增
可通过各种扩增技术产生核酸靶群体特别是重组免疫群体的扩增子。在本发明的一个方面,使用多重PCR扩增重组的免疫分子(例如T细胞受体或其一部分,或者B受体或其一部分)的混合物的成分。进行这样的免疫分子的多重PCR的指南见于以下通过引用并入本文的文献中:Faham和Willis,美国专利8,236,503;Morley,美国专利5,296,351;Gorski,美国专利5,837,447;Dau,美国专利6,087,096;Von Dongen等,美国专利公开2006/0234234;欧洲专利公开EP 1544308B1等。在本发明的一些实施方案中,产生克隆型谱的步骤包括步骤(a)扩增一部分T细胞受体基因和/或一部分B细胞受体基因和(b)测序产生的扩增子的核酸。如其它部分解释的,测序的扩增子核酸序列的数目可根据应用而变化。例如,确定白血病患者是否仍缓解的克隆型谱将是大的,使得任何肿瘤克隆的检测限非常小。在一些实施方案中,测序的扩增子核酸的数目为至少1000;在其它实施方案中,测序的扩增子核酸的数目为至少104;在其它实施方案中,测序的扩增子核酸的数目为至少105。这样的产生步骤还可包括进一步将序列读段合并到克隆型中、列举或列表克隆型、形成克隆型的频率分布、识别克隆型的相关子集、显示克隆型频率信息等步骤。
扩增来自基因组的DNA(或通过逆转录RNA扩增cDNA形式的核酸)之后,可分离个体核酸分子,任选地进行再扩增,然后进行单独测序。示例性的扩增方案可见于van Dongen等人,Leukemia,17:2257-2317(2003)或van Dongen等人美国专利公开2006/0234234,它们通过引用并入。简单来说,示例性的方案如下:反应缓冲液:ABI缓冲液II或ABI Gold缓冲液(Life Technologies,San Diego.CA);50L的最终反应体积;100ng样品DNA;10pmol的各引物(经调整来平衡如下所述的扩增);终浓度为200μM的dNTP;终浓度为1.5mM的MgCl2(根据靶序列及聚合酶进行优化);Taq聚合酶(1-2U/管);循环条件:在95℃预活化7分钟;在60℃退火;循环时间:变性30秒;退火30秒;延伸30秒。在本发明的方法中,可用于扩增的聚合酶是市售的,包括,例如,Taq聚合酶、AccuPrime聚合酶或Pfu。可以基于是优选保真度还是效率,来选择要使用的聚合酶。
可在起始步骤中利用实时PCR、picogreen染色、纳米流电泳(如LabChip)或紫外吸收测量来判断可扩增材料的发挥功能的量。
在一个方面,进行多重扩增,以使起始群体中序列的相对量与扩增的群体或扩增子中的相对量基本上相同。也就是说,进行在一个样品群体的成员序列间具有最小扩增偏差的多重扩增。在一个实施方案中,如果扩增子中各相对量是其在起始样品中的值的五倍以内,那么这些相对量基本上相同。在另一实施方案中,如果扩增子中各相对量是其在起始样品中的数值的两倍以内,那么这些相对量基本上相同。如下文更充分讨论的,PCR中的扩增偏差可以用常规技术检测并修正,以便可选择PCR引物集合用于提供任何样品的无偏差扩增的预定的组库。
对于许多基于TCR或BCR序列的组库,多重扩增任选地使用所有V区段。对反应进行优化以试图使得扩增保持由不同V区段引物扩增的序列的相对丰度。一些引物是相关联的,并因此许多引物可能“串扰”,扩增与其不完全匹配的模板。优化条件,以便各模板可以相似的方式扩增,而不论是用那个引物扩增。换言之,如果有两个模板,那么经过1,000倍扩增后,两个模板均可被扩增约1,000倍,并且对于其中一个模板,一半的扩增产物由于“串扰”而携带不同的引物也不要紧。在对测序数据的后续分析中,从分析中消除引物序列,因此在扩增时使用何种引物都没有关系,只要模板同等地得到扩增即可。
在一个实施方案中,可以通过进行两阶段扩增(如上述Faham和Willis中描述的)来避免扩增偏差,其中在第一阶段或初次阶段,利用具有不与靶序列互补的尾部的引物进行少量扩增循环。该尾部包括被添加到初次扩增子序列末端的引物结合位点,以便这些位点在仅使用一个正向引物和一个反向引物的第二阶段扩增中使用,从而消除引起扩增偏差的主要原因。优选地,初次PCR将进行足够少的循环数(例如5-10)以最小化不同引物的差异扩增。再次扩增用一对引物完成,因此差异扩增的问题是最少的。1%的初次PCR直接进入再次PCR。两次扩增中使用35个循环(相当于无100倍稀释步骤的约28个循环)足以显示稳健的扩增,而不论循环是否分解为如下循环:1个初次循环和34个再次循环,或25个初次循环和10个再次循环。尽管理想地在初次PCR中只运行一次循环可降低扩增偏差,但是还有其他考虑因素。其中一个方面是代表性。这在起始输入量不超过最终获得的读段数时起作用。例如,如果获得1,000,000个读段,并起始于1,000,000个输入分子,则从100,000个分子中仅取出代表进行再次扩增会降低估算原样品中不同种类的相对丰度的精确度。两步骤之间的100倍的稀释意味着代表性降低,除非初次PCR扩增产生显著多于100个的分子。这表明可采用最少8个循环(256倍),但更适合的是10个循环(约1000倍)。该方法的可选方案是取多于1%的初次PCR进入再次PCR,但由于初次PCR所用的引物的高浓度,可以利用大稀释因数来确保这些引物不会干扰扩增并恶化序列间的扩增偏差。另一可选方案是增加纯化或酶促步骤,以消除来自初次PCR的引物,以允许其较少的稀释。在此实例中,初次PCR为10个循环,而第二PCR为25个循环。
测序重组核酸群体体
任何可用于测序核酸的高通量技术都可用于本发明的方法中。优选地,这样的技术具有以成本效益的方式产生可以由其确定至少1000个克隆型,优选可以由其确定至少10,000至1,000,000个克隆型的序列容量的能力。DNA测序技术包括:利用标记的终止子或引物和平板或毛细管凝胶分离的经典双脱氧测序反应(Sanger法)、利用标记的可逆终止核苷酸的合成测序、焦磷酸测序、454测序、等位基因与标记的寡核苷酸探针文库的特异性杂交、利用等位基因与标记克隆文库的特异性杂交随后进行连接的合成测序、在聚合步骤中对标记的核苷酸的添加的实时监测、聚合酶克隆测序以及SOLiD测序。最近通过利用聚合酶或连接酶的连续或单个延伸反应以及通过与探针文库的单个或连续差异杂交证明了对分离的分子的测序。这些反应已对许多克隆序列并行进行,包括在超过1亿个序列的当前商业应用中并行展示。因此,这些测序方法可用于研究T细胞受体(TCR)和/或B细胞受体(BCR)的组库。在本发明的一个方面中,采用高通量测序方法,该方法包括在固体表面上空间分离个体分子的步骤,在该固体表面上对它们进行并行测序。此类固体表面可包括无孔表面(诸如在Solexa测序中,例如Bentley等人,Nature,456:53-59(2008)或全基因组测序,例如Drmanac等人,Science,327:78-81(2010)),可包括珠结合的或颗粒结合的模板的孔阵列(诸如454测序,例如Margulies等人,Nature,437:376-380(2005)或Ion Torrent测序,美国专利公开2010/0137143或2010/0304982)、微机械加工膜(诸如用SMRT测序,例如Eid等人,Science,323:133-138(2009))或珠阵列(如用SOLiD测序或聚合酶克隆测序,例如Kim等人,Science,316:1481-1414(2007))。另一方面,这些方法包括将分离的分子在固体表面上进行空间分离之前或之后,对它们进行扩增。在前的扩增可包括基于乳液的扩增,诸如乳液PCR扩增或滚环扩增。特别受关注的是基于Solexa的测序,其中个体模板分子在固体表面上进行空间分离,之后通过桥式PCR进行并行扩增,以形成单独的克隆群体或簇,然后进行测序,如Bentley等人(如上文所引用)以及制造商的说明书(例如,TruSeqTM样品制备试剂盒和数据表,Illumina,Inc.,San Diego,CA,2010)中所述;并在以下通过引用并入本文的参考文献中有进一步的描述:美国专利6,090,592;6,300,070;7,115,400;以及EP0972081B1。在一个实施方案中,在固体表面放置并扩增个体分子形成簇,该簇具有至少105个簇/cm2的密度;或至少5×105/cm2的密度;或至少106个簇/cm2的密度。在一个实施方案中,采用具有相对较高的错误率的测序化学法。在这些实施方案中,由这些化学法产生的平均质量分数是序列读段长度的单调下降函数。在一个实施方案中,这种下降相应于0.5%的序列读段在位置1-75具有至少一个错误;1%的序列读段在位置76-100具有至少一个错误;和2%的序列读段在位置101-125具有至少一个错误。
在一个方面,使用以下步骤获得个体的基于序列的克隆型谱:(a)从个体的T细胞和/或B细胞获得核酸样品;(b)空间地隔离源自这样的核酸样品的个体分子,所述个体分子包括由所述样品中的核酸产生的至少一种模板,所述模板包括体细胞重排区或其一部分,每个个体分子能够产生至少一个序列读段;(c)测序空间地隔离的个体分子;和(d)确定来自所述核酸样品的核酸分子的不同序列的丰度,以产生克隆型谱。在一些实施方案中,所述方法还包括一个或更多个扩增所述个体分子的步骤,所述个体分子包括T细胞受体基因或免疫球蛋白基因的重组核酸。例如,这样的一个或更多个扩增步骤可包括多阶段PCR。在另一个实施方案中,测序的步骤包括双向地测定每个空间地隔离的个体分子,以产生至少一个正向的序列读段和至少一个反向的序列读段。在另一实施方案中,上述方法包括以下步骤:(a)从个体的T细胞和/或B细胞获得核酸样品;(b)空间地隔离源自这样的核酸样品的个体分子,所述个体分子包括模板的嵌套集合,每个所述模板由所述样品中的核酸产生并且每个所述模板包含体细胞重排区或其一部分,每个嵌套集合能够产生多个序列读段,每个在相同的方向延伸,并且每个从产生所述嵌套集合的核酸上的不同位置开始;(c)测序空间地隔离的个体分子;和(d)确定来自所述核酸样品的核酸分子的不同序列的丰度,以产生克隆型谱。在一个实施方案中,测序的步骤包括对于每个嵌套集合产生多个序列读段。在另一个实施方案中,每个体细胞重排区包括V区和J区,并且多个序列读段的每个开始于V区的不同位置,并在其缔合的J区的方向延伸。
一方面,对于来自个体的每个样品,在本发明方法中使用的测序技术每运行一次产生至少1000种克隆型的序列;另一方面,该技术每运行一次产生至少10,000种克隆型的序列;另一方面,该技术每运行一次产生至少100,000种克隆型的序列;另一方面,该技术每运行一次产生至少500,000种克隆型的序列;另一方面,该技术每运行一次产生至少1,000,000种克隆型的序列。又一方面,该技术每运行一次对于每个个体样品产生100,000至1,000,000种克隆型的序列。
本发明提供的方法中使用的测序技术可产生每读段约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp、约100bp、约110bp、约120bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、约500bp、约550bp或约600bp。
尽管已经参考数个具体的示例的实施方案描述了本发明,但本领域技术人员应当认识到,可以在不脱离本发明的精神和范围的情况下对其进行多种改变。除了以上讨论的那些,本发明还适用于多种传感器实施方式及其它主题。
定义
除非在本文中另外具体定义,本文所使用的核酸化学、生物化学、遗传学和分子生物学的术语和符号都遵循本领域中的标准论文和文章,例如,Kornberg和Baker,DNA Replication,第二版(W.H.Freeman,纽约,1992);Lehninger,Biochemistry,第二版(Worth Publishers,纽约,1975);Strachan和Read,Human Molecular Genetics,第二版(Wiley-Liss,纽约,1999);Abbas等人,Cellular and Molecular Immunology,第六版(Saunders,2007)。
关于两个或更多个序列(例如序列读段)的“比对”意思是基于某一序列距离测量比较两个或更多个序列以确定它们的相似度的方法。比对核苷酸序列的示例方法为Smith Waterman算法。距离测量可包括Hamming距离、Levenshtein距离等。距离测量可包括关于比较的序列的核苷酸的质量值的部分。
“扩增子”意指多核苷酸扩增反应的产物;即,可以是单链或双链的多核苷酸的克隆群体,其是从一个或更多个起始序列复制的。所述一个或更多个起始序列可以是相同序列的一个或更多个拷贝,或者它们可以是不同序列的混合物。优选地,通过单一起始序列的扩增形成扩增子。可以通过多种扩增反应产生扩增子,所述扩增反应的产物包括一个或更多个起始或靶核酸的复制物。在一个方面,产生扩增子的扩增反应是“模板驱动的”,因为反应物(无论是核苷酸或寡核苷酸)的碱基配对在产生反应产物所需的模板多核苷酸中具有互补物。在一个方面,模板驱动的反应是使用核酸聚合酶的引物延伸或使用核酸连接酶的寡核苷酸连接。此类反应包括但不限于聚合酶链反应(PCR)、线性聚合酶反应、基于核酸序列的扩增(NASBA)、滚环扩增等,它们在下列参考文献中公开:Mullis等人,美国专利4,683,195;4,965,188;4,683,202;4,800,159(PCR);Gelfand等人,美国专利5,210,015(使用“taqman”探针的实时PCR);Wittwer等人,美国专利6,174,670;Kacian等人,美国专利5,399,491(“NASBA”);Lizardi,美国专利5,854,033;Aono等人,日本专利公开JP 4-262799(滚环扩增)等,这些文献通过引用并入本文。在一个方面,通过PCR产生本发明的扩增子。如果可以获得允许随着扩增反应的进行测量反应产物的检测化学,则扩增反应可以是“实时”扩增,例如,以下所述的“实时PCR”或Leone等人,Nucleic Acids Research,26:2150-2155(1998)和类似文献中所述的“实时NASBA”。如本文所用,术语“扩增”意指进行扩增反应。“反应混合物”意指包含进行反应所有必需反应物的溶液,其可以包括但不限于,在反应期间将pH维持在选定水平的缓冲剂、盐、辅因子、清除剂等。
如本文所用,“克隆性(clonality)”意指组库的克隆型之间克隆型丰度的分布偏斜至一个或几个克隆型的程度的度量。大致上,克隆性是克隆型多样性的相反的度量。从描述可用于本发明的克隆性度量的物种-丰度关系的生态学可以获得许多度量或统计学数据,例如Pielou,An Introductionto Mathematical Ecology,(Wiley-Interscience,1969)中的第17和18章。在一个方面,本发明使用的克隆性度量是克隆型谱(即检测到的不同克隆型的数目和它们的丰度)的函数,使得在测定克隆型谱后,可以从它计算克隆性以得到单个数字。一种克隆性度量是Simpson度量,这仅仅是两个随机绘制的克隆型将相同的概率。其他克隆性度量包括在Pielou(以上引用)中公开的基于信息的度量和Mcintosh多样性指数。
“克隆型”意指编码免疫受体或其部分的淋巴细胞的重组核苷酸序列。更具体地,“克隆型”意指编码T细胞受体(TCR)或B细胞受体(BCR)或其部分的T细胞或B细胞的重组核苷酸序列。在各种实施方案中,克隆型可编码全部或部分的IgH的VDJ重排、IgH的DJ重排、IgK的VJ重排、IgL的VJ重排、TCRβ的VDJ重排、TCRβ的DJ重排、TCRα的VJ重排、TCRγ的VJ重排、TCRδ的VDJ重排、TCRδ的VD重排、Kde-V重排等。克隆型还可编码涉及免疫受体基因(例如Bcll-IgH或Bcll-IgH)的易位断点区。在一个方面,克隆型具有足够长以代表或反映它们衍生自的免疫分子的多样性的序列;因此,克隆型的长度可变化很大。在一些实施方案中,克隆型具有在25-400个核苷酸范围内的长度;在其它实施方案中,克隆型具有25-200个核苷酸范围内的长度。
“克隆型谱”意思是衍生自淋巴细胞群体的不同的克隆型的列表以及它们相对的丰度。通常,从组织样品获得淋巴细胞群体。术语“克隆型谱”涉及,如例如以下文献中描述的免疫“组库”的免疫学概念,但是更普遍:Arstila等,Science,286:958-961(1999);Yassai等,Immunogenetics,61:493-502(2009);Kedzierska等,Mol.Immunol,45(3):607-618(2008)等。术语“克隆型谱”包括重排的编码免疫受体的核酸的大量列表和丰度,所述重排的编码免疫受体的核酸可源自淋巴细胞的选择的子集(例如,组织浸润的淋巴细胞、免疫表型的子集等),或者所述重排的编码免疫受体的核酸可编码与完整的免疫受体相比具有减小的多变性的免疫受体的部分。在一些实施方案中,克隆型谱可包括至少103个不同的克隆型;在其它实施方案中,克隆型谱可包括至少104个不同的克隆型;在其它实施方案中,克隆型谱可包括至少105个不同的克隆型;在其它实施方案中,克隆型谱可包括至少106个不同的克隆型。在这样的实施方案中,这样的克隆型谱还可包括每个不同的克隆型的丰度或相对丰度。在一个方面,克隆型谱为不同的重组核苷酸序列(具有它们的丰度)的集合,所述重组核苷酸序列分别在个体的淋巴细胞群体中编码T细胞受体(TCR)或B细胞受体(BCR)或其片段,其中,所述集合的核苷酸序列具有与基本上全部的淋巴细胞群体的不同淋巴细胞或它们的克隆亚群的一一对应。在一个方面,选择限定克隆型的核酸区段,使它们的多样性(即所述集合中不同核酸序列的数目)大至足以使个体中基本上每个T细胞或B细胞或它们的克隆携带此组库的独特的核酸序列。即,样品的每个不同的克隆优选具有不同的克隆型。在本发明的其它方面,相应于组库的淋巴细胞群体可为循环的B细胞,或者可为循环的T细胞,或者可为上述群体之一的亚群,包括但不限于CD4+T细胞或CD8+T细胞,或者由细胞表面标记限定的其它亚群等。可基于一种或更多种细胞表面标记、大小、形态等通过从特定的组织(例如骨髓或淋巴结等)获得样品,或通过从样品(例如外周血)分选或富集细胞而获得这样的亚群。在又其它方面,相应于组库的淋巴细胞群体源自疾病组织(例如肿瘤组织、感染的组织等)。在一个实施方案中,包含人TCRβ链或其片段的克隆型谱含有0.1×106至1.8×106的范围内,或在0.5×106至1.5×106的范围内,或在0.8×106至1.2×106的范围内的大量不同的核苷酸序列。在另一实施方案中,包含人IgH链或其片段的克隆型谱含有0.1×106至1.8×106范围内,或0.5×106至1.5×106范围内,或0.8×106至1.2×106范围内的大量不同的核苷酸序列。在具体的实施方案中,本发明的克隆型谱包括编码IgH链的V(D)J区的基本全部区段的核苷酸序列的集合。在一个方面,文中使用的“基本上全部”意思是每个区段具有0.001%或更高的相对丰度;或者在另一方面,文中使用的“基本上全部”意思是每个区段具有0.0001%或更高的相对丰度。在另一个具体的实施方案中,本发明的克隆型谱包括编码TCRβ链的V(D)J区的基本上全部区段的核苷酸序列的集合。在另一实施方案中,本发明的克隆型谱包括具有25-200个核苷酸范围内的长度,并包括TCRβ链的V区、D区和J区的区段的核苷酸序列的集合。在另一实施方案中,本发明的克隆型谱包括具有25-200个核苷酸范围内的长度,并包括IgH链的V区、D区和J区的区段的核苷酸序列的集合。在另一实施方案中,本发明的克隆型谱包括基本上相当于表达不同IgH链的淋巴细胞数目的数目的不同核苷酸序列。在另一实施方案中,本发明的克隆型谱包括基本上相当于表达不同TCRβ链的淋巴细胞数目的数目的不同核苷酸序列。在又另一实施方案中,“基本上相当于”意思是克隆型谱具有99%的可能性包括编码由个体的群体的每个淋巴细胞以0.001%或更大的频率携带或表达的IgH或TCRβ或其部分的核苷酸序列。在另一实施方案中,基本上相当于”意思是核苷酸序列的组库具有99%的可能性包括编码由存在的每个淋巴细胞以0.001%或更大的频率携带或表达的IgH或TCRβ或其部分的核苷酸序列。在一些实施方案中,克隆型谱源自包含105至107个淋巴细胞的样品。此数目的淋巴细胞可从1-10mL的外周血样品获得。
“合并”意思是通过确定序列差异是由于实验或测量误差,而不是由于真的生物差异而将具有序列差异的两个候选克隆型处理为同一克隆型。在一个方面,更高频率的候选克隆型序列与更低频率的候选克隆型序列相比较,并且如果满足预定的标准,则更低频率的候选克隆型的数目被加到更高频率的克隆型的数目中,然后抛弃更低频率的候选克隆型。即,具有更低频率的候选克隆型的读段被加到那些更高频率的候选克隆型中。
“互补决定区”(CDR)意指免疫球蛋白(即,抗体)或T细胞受体的区域,在该区域中分子与抗原的构象互补,从而决定分子的特异性,并与特异性的抗原接触。T细胞受体和免疫球蛋白各自具有三个CDR:CDR1和CDR2见于可变(V)结构域中,并且CDR3包括V的一些、全部的多变(D)(仅重链)和连接(J)结构域,以及恒定(C)结构域的一些。
如文中使用的“污染”意思是在给定时间取自一个个体的样品中来自另一个个体的核酸或来自同一个体的在另一个时间取出的样品的核酸的存在。在一个方面,“污染”意思是不是源自给定患者组织样品的可影响该患者的克隆型谱的解释的核酸的存在。
“内部标准品”意指为了允许绝对或相对定量样品中的靶多核苷酸而在同一反应中与一种或更多种靶多核苷酸一样地处理的核酸序列。在一个方面,反应为扩增反应,例如PCR。内部标准品可以是内源的或外源的。即,内部标准品可以自然地存在于样品中,或者可以在反应前被添加至样品中。在一个方面中,可以将一种或更多种外源的内部标准品序列以预先确定的浓度添加至反应混合物中以提供校准,扩增的序列可以与所述校准比较以确定样品中其相应的靶多核苷酸的量。外源的内部标准品的数目、序列、长度和其他特性的选择对于本领域普通技术人员来说是常规设计选择。内源的内部标准品,在本文中也被称为“参照序列”,是对于样品天然的序列,其对应于表现出恒定的和不依赖于细胞周期的转录水平的被最低调控的基因,例如Selvey等人,Mol.Cell Probes,15:307-311(2001)。实验性内部标准品包括但不限于来自以下基因的序列:GAPDH、β2-微球蛋白、18S核糖体RNA和β-肌动蛋白。
“试剂盒”是指用于递送用于实施本发明方法的材料或试剂的任何递送系统。在本发明的方法的语境中,此类递送系统包括允许将反应试剂(例如,在适当的容器中的引物、酶、内部标准品等)/或支持材料(例如缓冲液,用于进行测定的书面说明书等)从一个位置到另一个位置储存、转运或递送的系统。例如,试剂盒包括含有相关的反应试剂和/或支持材料的一个或更多个容器(例如,盒子)。可以将这些内容物一起或单独地递送至预期的接受者。例如,第一容器可以包含供测定中使用的酶,而第二容器包含引物。
“淋巴肿瘤”意思是可为恶性或非恶性的淋巴细胞的异常增殖。淋巴癌是一种恶性淋巴肿瘤。淋淋巴肿瘤是淋巴增生性紊乱的结果或与淋巴增生性紊乱相关,包括但不限于滤泡性淋巴瘤、慢性淋巴细胞性白血病(CLL)、急性淋巴细胞性白血病(ALL)、毛细胞白血病、淋巴瘤、多发性骨髓瘤、移植后淋巴增生性障碍、套细胞淋巴瘤(MCL)、弥漫大B细胞淋巴瘤(DLBCL)、T细胞淋巴瘤等,例如Jaffe等,Blood,112:4384-4399(2008);Swerdlow等,WHO Classification of Tumours of Haematopoietic andLymphoid Tissues(第4版)(IARC Press,2008)。
“微小残留病”意指治疗后剩余的癌细胞。该术语最常与淋巴瘤和白血病的治疗关连使用。
关于参照序列和另一序列(“比较序列”)的比较中使用的“百分比同源”,“百分比相同”或类似术语意指在两个序列之间的最佳比对中,比较序列在等于所示百分比的数目的亚单位位置处与参照序列相同,对于多核苷酸比较而言亚单位是核苷酸,或者对于多肽比较而言亚单位是氨基酸。如本文所用,所比较的序列的“最佳比对”是使亚单位间的匹配最大化并且使构建比对中采用的缺口的数目最小化的比对。百分比同一性可以用市售可得的算法实施方式,例如Needleman和Wunsch,J.Mol.Biol.,48:443-453(1970)所述的算法(Wisconsin序列分析包的″GAP″程序,GeneticsComputer Group,Madison,WI)或类似算法来确定。本领域中用于构建比对和计算同一性百分比或其他相似性度量的其他软件包包括基于Smith和Waterman,Advances in Applied Mathematics,2:482-489(1981)的算法的″BestFit″程序(Wisconsin序列分析包,Genetics Computer Group,Madison,WI)。换言之,例如,为了获得具有与参照核苷酸序列至少95%相同的核苷酸序列的多核苷酸,参照序列中最高5%的核苷酸可以被删除或者被置换为另一种核苷酸,或者可以将占参照序列中核苷酸总数的最高5%的数目的核苷酸插入参照序列中。
“聚合酶链反应”或“PCR”意指用于通过DNA互补链的同时引物延伸而体外扩增特定DNA序列的反应。换言之,PCR是用于制备侧翼为引物结合位点的靶核酸的多个拷贝或复制物的反应,这种反应包括以下步骤的一个或更多个重复:(i)变性靶核酸,(ii)将引物退火至引物结合位点,以及(iii)在核苷三磷酸的存在下,通过核酸聚合酶延伸该引物。通常,在热循环仪中通过针对每个步骤优化的不同温度循环该反应。特定温度、每个步骤的持续时间和步骤之间的变化速率取决于本领域普通技术人员熟知的许多因素,例如以下参考文献中所例举的:McPherson等人编,PCR:A Practical Approach and PCR2:A Practical Approach(IRL Press,Oxford,分别为1991年和1995年)。例如,在使用Taq DNA聚合酶的常规PCR中,可以在>90℃的温度下变性双链靶核酸,在50-75℃范围内的温度下退火引物,而在72-78℃范围内的温度下延伸引物。术语“PCR”包括该反应的衍生形式,包括但不限于:RT-PCR、实时PCR、巢式PCR、定量PCR、多重PCR等。本领域技术人员可从本申请的上下文辨别使用的PCR的具体形式。反应体积范围为几百纳升,如200nL,至几百μL,例如200μL。“逆转录PCR”或“RT-PCR”意指通过逆转录反应将靶RNA转化为互补单链DNA,然后将其扩增而进行的PCR,例如,Tecott等人,美国专利5,168,038,该专利通过引用并入本文。“实时PCR”意指随着反应的进行监测反应产物即扩增子的量的PCR。实时PCR有许多形式,它们的不同主要在于用于监测反应产物的检测化学,例如Gelfand等人,美国专利5,210,015(″taqman″);Wittwer等人,美国专利6,174,670和6,569,627(嵌入染料);Tyagi等人,美国专利5,925,517(分子信标);上述专利通过引用并入本文。Mackay等人,Nucleic Acids Research,30:1292-1305(2002)(也通过引用并入本文)中综述了用于实时PCR的检测化学。“巢式PCR”意指一种两阶段PCR,其中第一PCR的扩增子变为使用引物的新集合的第二PCR的样品,该引物中的至少一种与第一扩增子的内部位置结合。如本文所用,关于巢式扩增反应的“初始引物”是指用于产生第一扩增子的引物,“次级引物”是指用于产生第二或巢式扩增子的一种或更多种引物。“多重PCR”意指在同一反应混合物中同时进行多种靶序列(或单一靶序列和一种或更多种参照序列)的PCR,例如Bernard等人,Anal.Biochem.,273:221-228(1999)(双色实时PCR)。通常,被扩增的每个序列采用不同集合的引物。通常,在多重PCR中靶序列的数目为2-50,或2-40,或2-30个。“定量PCR”意指为测量样品或标本中一种或更多种特定靶序列的丰度而设计的PCR。定量PCR包括此类靶序列的绝对定量和相对定量二者。定量测量使用可以与靶序列分开或一起测定的一种或更多种参照序列或内部标准品进行。参照序列对于样品或标本来说可以是内源的或外源的,并且在后一种情况下,可以包含一种或更多种竞争剂模板。典型的内源性参照序列包括以下基因的转录本的区段:β-肌动蛋白、GAPDH、β2-微球蛋白、核糖体RNA等。用于定量PCR的技术是本领域普通技术人员公知的,如通过引用并入本文的下列参考文献所例举的:Freeman等人,Biotechniques,26:112-126(1999);Becker-Andre等人,Nucleic AcidsResearch,17:9437-9447(1989);Zimmerman等人,Biotechniques,21:268-279(1996);Diviacco等人,Gene,122:3013-3020(1992);Becker-Andre等人,Nucleic Acids Research,17:9437-9446(1989);等等。
“多核苷酸”是指核苷酸单体的线性聚合物,并且可为DNA或RNA。组成多核苷酸的单体能够通过单体-单体相互作用(例如Watson-Crick类型的碱基配对、碱基堆积、Hoogsteen或反向Hoogsteen类型的碱基配对等)的方式特异地结合到天然多核苷酸。这样的单体及它核苷间键(Internucleosidic linkage)可天然存在或者可为它的类似物,例如天然存在或非天然存在的类似物。非天然存在的类似物可包括PNA、硫代磷酸核苷间键、包含允许附接标签如荧光团,或半抗原等的连接基团的碱基。多核苷酸可包括通过磷酸二酯键连接的四种天然的核苷(例如对于DNA的脱氧腺苷、脱氧胞苷、脱氧鸟苷、脱氧胸苷或者它们对于RNA的核糖对应物)。然而,它们还可包括非天然的核苷类似物,例如包含改性的碱基、糖或核苷间键。本领域技术人员清楚,当酶对于活性具有特异的寡核苷酸或多核苷酸底物要求(例如单链DNA、RNA/DNA双链体等),那么选择对于寡核苷酸或多核苷酸底物合适的组成完全在本领域普通技术人员的知识的范围内,尤其是有来自论文的指导,例如Sambrook等,MOLECULAR CLONING,第二版(纽约冷泉港实验室,1989)以及类似的文献。如文中使用,术语“寡核苷酸”是指较小的多核苷酸,例如具有3-60个单体单元,或者在一些实施方案中,具有12-60个单体单元。在各种实施方案中,除非另外表明或从上下文显而易见,多核苷酸或寡核苷酸可由字母(大写或小写)序列表示,例如“ATGCCTG”,并且应理解核苷酸从左至右为5'→3'的顺序,并且“A”表示脱氧腺苷,“C”表示脱氧胞苷、“G”表示脱氧鸟苷,并且“T”表示胸苷,“I”表示脱氧肌苷,“U”表示尿苷。
“引物”意指与多核苷酸模板形成双链体时,能够作为核酸合成起始点起作用,并且沿模板从其3′末端延伸,从而形成延伸的双链体的天然的或合成的寡核苷酸。通常使用核酸聚合酶如DNA或RNA聚合酶进行引物的延伸。延伸过程中添加的核苷酸的序列取决于模板多核苷酸的序列。通常通过DNA聚合酶延伸引物。引物通常具有14-40个核苷酸范围内或18-36个核苷酸范围内的长度。引物用于许多核酸扩增反应,例如,使用单一引物的线性扩增反应,或采用两种或更多种引物的聚合酶链反应。关于针对特定应用选择引物的长度和序列的指导是本领域普通技术人员熟知的,如通过引用并入本文的下列参考文献所证明的:Dieffenbach编,PCR Primer:A Laboratory Manual,第二版(纽约美国冷泉港出版社,2003)。
“质量分数”意指在特定序列位置的碱基指定是正确的概率的度量。针对特定情况,例如,针对由于不同的测序化学、检测系统、碱基响应算法等而响应的碱基来计算质量分数的多种方法是本领域普通技术人员熟知的。通常,质量分数值与正确碱基响应的概率单调相关。例如,质量分数或Q为10可能意味着有90%的机会碱基被正确响应,Q为20可能意味着有99%到的机会碱基被正确响应,等等。对于一些测序平台,尤其是使用合成测序化学的平台,平均质量分数作为序列读段长度的函数而降低,使得在序列读段开始时的质量分数高于在序列读段结束时的质量分数,这种下降是由于诸如不完全延伸、正向延伸、模板损失、聚合酶损失、加帽失败、去保护失败等现象。
“序列读段”意思是由测序技术产生的序列或数据流确定的核苷酸的序列,所述确定例如通过与技术相关的碱基响应软件例如来自DNA测序平台的商业供应商的碱基响应软件进行。序列读段通常包括序列中的每个核苷酸的质量分数。典型地,通过例如用DNA聚合物或DNA连接酶沿模板核酸延伸引物而制备序列读段。通过记录与这种延伸相关的信号,例如光学信号、化学信号(例如pH变化)或电信号,而产生数据。这种初始数据被转换成序列读段。
“序列标签”(或“标签”)或“条形码”意思是附接于多核苷酸或模板分子的寡核苷酸,并用于在一个反应或一系列的反应中识别和/或追踪多核苷酸或模板。序列标签可附接于多核苷酸或模板的3'-末端或5'-末端,并且它可插入到这样的多核苷酸或模板的内部,以形成线性轭合物,本文中有时称为“带标记的多核苷酸”或“带标记的模板”或“标签-多核苷酸轭合物”、“标签-分子轭合物”等。序列标签可在大小和组成上广泛地变化;通过引用并入本文的以下文献提供了用于选择适于特定的实施方案的序列标签集合的指南:Brenner,美国专利5,635,400;Brenner和Macevicz,美国专利7,537,897;Brenner等,Proc.Natl.Acad.Sci.,97:1665-1670(2000);Church等,欧洲专利公开0303459;Shoemaker等,Nature Genetics,14:450-456(1996);Morris等,欧洲专利公开0799897A1;Wallace,美国专利5,981,179等。序列标签的长度和组成可广泛地变化,并且特定长度和/或组成的选择取决于数个因素,包括但不限于:标签如何用于产生读段,例如通过杂交反应或通过酶促反应,例如测序;它们是否被标记,例如用荧光染料等;明白地识别多核苷酸集合需要的可区分的寡核苷酸标签的数目等,以及为确保可靠的识别一个集合的标签必须的差异如何,例如交叉杂交的自由度或来自序列错误的错误识别。在一个方面,序列标签的每个分别可具有在2-36个核苷酸、或4-30个核苷酸、或8-20个核苷酸或6-10个核苷酸范围的长度。在一个方面,使用序列标签的集合,其中,一个集合的每个序列标签具有与同一集合的所有其他标签的核苷酸序列差异至少两个碱基的独特的核苷酸序列;另一个方面,使用序列标签的集合,其中一个集合的每个标签的序列与同一集合的所有其他标签的核苷酸序列差异至少3个碱基。
“序列树”意思是表示核酸序列的树形数据结构。在一个方面,本发明的树形数据结构为向根树,包括节点以及不包含循环或循环路径的边界。本发明的树形数据结构的节点的边界通常是有序的。节点和/或边界为可包括值或可与值相关的结构。树中的每个节点具有零个或更多个按照惯例在树中显示于其下的子节点。具有子节点的节点称为子节点的父节点。节点最多具有一个父节点。不具有任何子节点的节点称为页节点。树中最顶端的节点称为根节点。作为最顶端的节点,根节点不具有父节点。它是通常对树的操作开始的节点(虽然一些算法开始于页节点,并逐步建立终止于根)。通过沿着边界或连接从它可达到全部其它节点。

Claims (26)

1.一种确定免疫组库的克隆型的方法,所述方法包括步骤:
(a)从个体获得包含T细胞和/或B细胞的样品;
(b)将序列标签附接到T细胞受体基因或者T细胞和/或B细胞的免疫球蛋白基因的重组核酸的分子,以形成标签-分子轭合物,其中所述标签-分子轭合物的基本上每个分子具有独特的序列标签;
(c)扩增所述标签-分子轭合物;
(d)测序所述标签-分子轭合物;以及
(e)比对相似序列标签的序列读段以确定相应于所述组库的相同克隆型的序列读段。
2.根据权利要求1所述的方法,其中所述比对的步骤还包括通过在所述相似序列标签的所述克隆型的每个核苷酸位置确定大多数核苷酸而确定每个所述标签-分子轭合物的每个所述克隆型的核苷酸序列。
3.根据权利要求1所述的方法,其中所述附接的步骤包括通过取样标记所述重组核酸的分子。
4.根据权利要求3所述的方法,其中所述附接的步骤在反应混合物中实施,使得所述序列标签以所述重组核酸的分子的浓度的至少100倍的浓度存在于所述反应混合物中。
5.根据权利要求4所述的方法,其中所述序列标签被掺入对于所述重组核酸的分子特异的引物中。
6.根据权利要求5所述的方法,其中所述序列标签为嵌合标签。
7.一种确定样品中淋巴细胞的数目的方法,所述方法包括步骤:
(a)从个体获得包含淋巴细胞的样品;
(b)将序列标签附接到所述淋巴细胞的T细胞受体基因或免疫球蛋白基因的重组核酸的分子,以形成标签-分子轭合物,其中所述标签-分子轭合物的基本上每个分子具有独特的序列标签;
(c)扩增所述标签-分子轭合物;
(d)测序所述标签-分子轭合物;
(e)计数不同的序列标签的数目,以确定所述样品中淋巴细胞的数目。
8.根据权利要求7所述的方法,其中所述重组核酸为DNA。
9.根据权利要求7所述的方法,其中所述淋巴细胞为T细胞,并且所述重组核酸为T细胞受体基因或其片段。
10.根据权利要求7所述的方法,其中所述淋巴细胞为B细胞,并且所述重组核酸为免疫球蛋白基因或其片段。
11.一种确定免疫组库的克隆型的方法,所述方法包括步骤:
(a)从个体获得包含T细胞和/或B细胞的样品;
(b)通过取样标记来自所述T细胞和/或B细胞的分子以形成标签-分子轭合物,其中每个标签具有序列并且每个分子包含来自T细胞受体基因或免疫球蛋白基因的重组核酸;
(c)测序所述标签-分子轭合物;并且
(d)比对相似标签的序列读段以确定相似的克隆型。
12.根据权利要求11所述的方法,其中所述比对的步骤还包括通过在所述相似序列标签的所述克隆型的每个核苷酸位置确定大多数核苷酸而确定每个所述标签-分子轭合物的每个所述克隆型的核苷酸序列。
13.根据权利要求11所述的方法,其中所述附接的步骤在反应混合物中实施,使得所述序列标签以所述重组核酸的分子的浓度的至少100倍的浓度存在于所述反应混合物中。
14.一种在正被监测微小残留病的患者中检测克隆型残留污染的方法,所述方法包括步骤:
(a)通过根据权利要求1所述的方法定期地测量所述患者的克隆型谱而监测患者的微小残留病;和
(b)记录克隆型谱的每个测量的每个所述序列标签的所述序列;以及
(c)如果在后面的克隆型谱中检测到任何先前的克隆型谱的序列标签,则检测到克隆型残留污染。
15.一种在一个或更多个合成测序反应中确定一个或更多个多核苷酸的核苷酸序列的方法,所述方法包括步骤:
(a)将序列标签附接到所述一个或更多个多核苷酸的每个,以形成标签-多核苷酸轭合物,其中所述标签-多核苷酸轭合物的基本上每个多核苷酸具有独特的序列标签;
(b)扩增所述标签-多核苷酸轭合物;
(c)合成测序扩增的标签-多核苷酸轭合物,其中合成测序包括至少一个dNTP流;以及
(d)对于具有相同序列标签的每个标签-多核苷酸,确定每个dNTP流的核苷酸掺入的数目,该数目作为每个这样的dNTP流的测量的掺入信号的函数。
16.根据权利要求15所述的方法,其中所述一个或更多个多核苷酸为多个多核苷酸。
17.根据权利要求15所述的方法,其中所述多个为至少104。
18.根据权利要求15所述的方法,其中每个所述dNTP流的核苷酸掺入的所述数目为最接近于所述测量的掺入信号的平均数的整数。
19.根据权利要求15所述的方法,其中所述合成测序的步骤包括步骤:
(a)对于每个所述标签-多核苷酸轭合物,在允许测序引物退火到这样的标签-多核苷酸轭合物以及在核苷三磷酸的存在下通过核酸聚合酶沿所述标签-多核苷酸轭合物延伸这样的测序引物的条件下形成复合体,所述复合体包括所述测序引物、所述核酸聚合酶,以及所述标签-多核苷酸轭合物;
(b)通过dNTP流将dNTP引入所述复合体;
(c)测量掺入信号;
(d)洗涤所述复合体;和
(e)重复步骤(b)至(d)。
20.根据权利要求19所述的方法,其中所述dNTP为延伸阻断的dNTP,并且其中所述洗涤的步骤还包括去阻断掺入的延伸阻断的dNTP的步骤,使得在后面的引入步骤中可掺入其它延伸阻断的dNTP。
21.根据权利要求15所述的方法,其中每个不同的标签-多核苷酸轭合物在不同的反应限制区中。
22.根据权利要求15所述的方法,其中所述附接的步骤包括通过取样标记所述一个或更多个多核苷酸以形成所述标签-多核苷酸轭合物。
23.根据权利要求15所述的方法,其中所述序列标签为具有在1至5个核苷酸范围内的长度的可变区的嵌合标签。
24.根据权利要求15所述的方法,其中所述序列标签包括交错区域,所述交错区域包括选自A、C、G和T的不相交子集的核苷酸,使所述每个交错区域具有1至5个核苷酸范围内的长度。
25.根据权利要求15所述的方法,其中所述测序的步骤包括测序所述扩增的标签-多核苷酸轭合物的样品。
26.根据权利要求15所述的方法,其中所述一个或更多个多核苷酸为T细胞受体基因或免疫球蛋白基因的重组核酸的分子。
CN201380042163.XA 2012-06-11 2013-06-11 使用序列标签的序列确定方法 Pending CN104520443A (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201261658317P 2012-06-11 2012-06-11
US61/658,317 2012-06-11
US201261738277P 2012-12-17 2012-12-17
US61/738,277 2012-12-17
US201361776647P 2013-03-11 2013-03-11
US61/776,647 2013-03-11
US13/835,093 2013-03-15
US13/835,093 US9506119B2 (en) 2008-11-07 2013-03-15 Method of sequence determination using sequence tags
US201361829054P 2013-05-30 2013-05-30
US61/829,054 2013-05-30
PCT/US2013/045276 WO2013188471A2 (en) 2012-06-11 2013-06-11 Method of sequence determination using sequence tags

Publications (1)

Publication Number Publication Date
CN104520443A true CN104520443A (zh) 2015-04-15

Family

ID=49758873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380042163.XA Pending CN104520443A (zh) 2012-06-11 2013-06-11 使用序列标签的序列确定方法

Country Status (7)

Country Link
EP (1) EP2859123A4 (zh)
JP (1) JP2015519081A (zh)
CN (1) CN104520443A (zh)
AU (1) AU2013274366A1 (zh)
CA (1) CA2875542A1 (zh)
SG (1) SG11201407888RA (zh)
WO (1) WO2013188471A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095687A (zh) * 2015-06-26 2015-11-25 南方科技大学 一种免疫组库数据分析方法及终端
CN106755410A (zh) * 2016-12-23 2017-05-31 孙涛 一种基于高通量测序同时检测t细胞和b细胞免疫组库的方法
CN107955831A (zh) * 2016-10-13 2018-04-24 深圳华大基因研究院 用于淋巴细胞定量检测的标记物和淋巴细胞定量检测方法
CN108473933A (zh) * 2015-12-08 2018-08-31 昆塔波尔公司 使核酸移位通过纳米孔的方法
WO2019080725A1 (zh) * 2017-10-25 2019-05-02 深圳华大生命科学研究院 一种核酸测序方法以及一种核酸测序试剂盒
CN110678559A (zh) * 2017-08-31 2020-01-10 深圳华大智造科技有限公司 一种核酸探针以及一种核酸测序方法
CN110914911A (zh) * 2017-05-16 2020-03-24 生命科技股份有限公司 压缩分子标记的核酸序列数据的方法

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8748103B2 (en) 2008-11-07 2014-06-10 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
US9394567B2 (en) 2008-11-07 2016-07-19 Adaptive Biotechnologies Corporation Detection and quantification of sample contamination in immune repertoire analysis
US8628927B2 (en) 2008-11-07 2014-01-14 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
US9506119B2 (en) 2008-11-07 2016-11-29 Adaptive Biotechnologies Corp. Method of sequence determination using sequence tags
US9528160B2 (en) 2008-11-07 2016-12-27 Adaptive Biotechnolgies Corp. Rare clonotypes and uses thereof
AU2009311588B2 (en) 2008-11-07 2016-07-28 Adaptive Biotechnologies Corp. Methods of monitoring conditions by sequence analysis
US9365901B2 (en) 2008-11-07 2016-06-14 Adaptive Biotechnologies Corp. Monitoring immunoglobulin heavy chain evolution in B-cell acute lymphoblastic leukemia
HUE029424T2 (en) 2009-01-15 2017-02-28 Adaptive Biotechnologies Corp Adaptive immunity profiling and a method for producing monoclonal antibodies
KR20120044941A (ko) 2009-06-25 2012-05-08 프레드 헛친슨 켄서 리서치 센터 적응 면역의 측정방법
US9043160B1 (en) 2009-11-09 2015-05-26 Sequenta, Inc. Method of determining clonotypes and clonotype profiles
US10385475B2 (en) 2011-09-12 2019-08-20 Adaptive Biotechnologies Corp. Random array sequencing of low-complexity libraries
US9279159B2 (en) 2011-10-21 2016-03-08 Adaptive Biotechnologies Corporation Quantification of adaptive immune cell genomes in a complex mixture of cells
ES2683037T3 (es) 2011-12-09 2018-09-24 Adaptive Biotechnologies Corporation Diagnóstico de tumores malignos linfoides y detección de enfermedad residual mínima
US9499865B2 (en) 2011-12-13 2016-11-22 Adaptive Biotechnologies Corp. Detection and measurement of tissue-infiltrating lymphocytes
DK2823060T3 (en) 2012-03-05 2018-05-28 Adaptive Biotechnologies Corp Determination of associated immune receptor chains from frequency-matched subunits
EP2831276B1 (en) 2012-05-08 2016-04-20 Adaptive Biotechnologies Corporation Compositions and method for measuring and calibrating amplification bias in multiplexed pcr reactions
EP2882870A4 (en) * 2012-08-10 2016-03-16 Sequenta Inc HIGHLY SENSITIVE DETECTION OF MUTATIONS BY SEQUENCE TAGS
US10876152B2 (en) 2012-09-04 2020-12-29 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
US11913065B2 (en) 2012-09-04 2024-02-27 Guardent Health, Inc. Systems and methods to detect rare mutations and copy number variation
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
KR102393608B1 (ko) 2012-09-04 2022-05-03 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
WO2014055561A1 (en) 2012-10-01 2014-04-10 Adaptive Biotechnologies Corporation Immunocompetence assessment by adaptive immune receptor diversity and clonality characterization
US9708657B2 (en) 2013-07-01 2017-07-18 Adaptive Biotechnologies Corp. Method for generating clonotype profiles using sequence tags
ES2784450T3 (es) 2013-12-28 2020-09-25 Guardant Health Inc Métodos y sistemas para detectar variantes genéticas
DE102014200446B3 (de) * 2014-01-13 2015-01-08 Technische Universität Dresden Verfahren zur Dekonvolution Nukleinsäure enthaltender Substanzgemische
US20170292149A1 (en) 2014-03-05 2017-10-12 Adaptive Biotechnologies Corporation Methods using randomer-containing synthetic molecules
US10066265B2 (en) 2014-04-01 2018-09-04 Adaptive Biotechnologies Corp. Determining antigen-specific t-cells
ES2777529T3 (es) 2014-04-17 2020-08-05 Adaptive Biotechnologies Corp Cuantificación de genomas de células inmunitarias adaptativas en una mezcla compleja de células
ES2784343T3 (es) 2014-10-29 2020-09-24 Adaptive Biotechnologies Corp Detección simultánea altamente multiplexada de ácidos nucleicos que codifican heterodímeros de receptores inmunes adaptativos emparejados de muchas muestras
EP3018214B1 (en) 2014-11-05 2017-12-13 Fundacion de Investigacion Hospital 12 de Octubre Method for quantifying the level of minimal residual disease in a subject
US10246701B2 (en) 2014-11-14 2019-04-02 Adaptive Biotechnologies Corp. Multiplexed digital quantitation of rearranged lymphoid receptors in a complex mixture
AU2015353581A1 (en) 2014-11-25 2017-06-15 Adaptive Biotechnologies Corporation Characterization of adaptive immune response to vaccination or infection using immune repertoire sequencing
CA2976580A1 (en) 2015-02-24 2016-09-01 Adaptive Biotechnologies Corp. Methods for diagnosing infectious disease and determining hla status using immune repertoire sequencing
US11041202B2 (en) 2015-04-01 2021-06-22 Adaptive Biotechnologies Corporation Method of identifying human compatible T cell receptors specific for an antigenic target
US10539564B2 (en) 2015-07-22 2020-01-21 Roche Sequencing Solutions, Inc. Identification of antigen epitopes and immune sequences recognizing the antigens
EP3325646B1 (en) 2015-07-22 2020-08-19 F.Hoffmann-La Roche Ag Identification of antigen epitopes and immune sequences recognizing the antigens
JP2019507585A (ja) 2015-12-17 2019-03-22 ガーダント ヘルス, インコーポレイテッド 無細胞dnaの分析による腫瘍遺伝子コピー数を決定するための方法
US10428325B1 (en) 2016-09-21 2019-10-01 Adaptive Biotechnologies Corporation Identification of antigen-specific B cell receptors
EP4212631A1 (en) 2017-09-01 2023-07-19 Life Technologies Corporation Compositions and methods for immune repertoire sequencing
US11254980B1 (en) 2017-11-29 2022-02-22 Adaptive Biotechnologies Corporation Methods of profiling targeted polynucleotides while mitigating sequencing depth requirements
CN111172258B (zh) * 2020-02-24 2023-06-16 国家海洋环境监测中心 基于宏条形码技术的海洋浮游动物多样性的评价方法
EP4127233A1 (en) * 2020-03-24 2023-02-08 Angstrom Bio, Inc. Assays for detecting pathogens
CA3214486A1 (en) 2021-03-24 2022-09-29 Genentech, Inc. Efficient tcr gene editing in t lymphocytes
CN113355403A (zh) * 2021-05-12 2021-09-07 邢迎春 一种利用环境dna技术检测鱼类物种多样性的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5846719A (en) * 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
CN101802220A (zh) * 2007-07-26 2010-08-11 加利福尼亚太平洋生物科学股份有限公司 分子冗余测序法
US20110207134A1 (en) * 2008-11-07 2011-08-25 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
US20110207135A1 (en) * 2008-11-07 2011-08-25 Sequenta, Inc. Methods of monitoring conditions by sequence analysis
CN102272327A (zh) * 2008-11-07 2011-12-07 赛昆塔公司 通过序列分析监测状况的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2633069B1 (en) * 2010-10-26 2015-07-01 Illumina, Inc. Sequencing methods
EP2820174B1 (en) * 2012-02-27 2019-12-25 The University of North Carolina at Chapel Hill Methods and uses for molecular tags

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5846719A (en) * 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
CN101802220A (zh) * 2007-07-26 2010-08-11 加利福尼亚太平洋生物科学股份有限公司 分子冗余测序法
US20110207134A1 (en) * 2008-11-07 2011-08-25 Sequenta, Inc. Monitoring health and disease status using clonotype profiles
US20110207135A1 (en) * 2008-11-07 2011-08-25 Sequenta, Inc. Methods of monitoring conditions by sequence analysis
CN102272327A (zh) * 2008-11-07 2011-12-07 赛昆塔公司 通过序列分析监测状况的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
C.B.JABARA ET AL: "Accurate sampling and deep sequencing of the HIV-1 protease gene using a Primer ID", 《PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES》 *
MILLER JASON R ET AL: "Assembly algorithms for next-generation sequencing data", 《GENOMICS》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095687B (zh) * 2015-06-26 2018-10-26 南方科技大学 一种免疫组库数据分析方法及终端
CN105095687A (zh) * 2015-06-26 2015-11-25 南方科技大学 一种免疫组库数据分析方法及终端
CN108473933A (zh) * 2015-12-08 2018-08-31 昆塔波尔公司 使核酸移位通过纳米孔的方法
CN107955831A (zh) * 2016-10-13 2018-04-24 深圳华大基因研究院 用于淋巴细胞定量检测的标记物和淋巴细胞定量检测方法
CN106755410B (zh) * 2016-12-23 2019-12-06 孙涛 一种基于高通量测序同时检测t细胞和b细胞免疫组库的方法
CN106755410A (zh) * 2016-12-23 2017-05-31 孙涛 一种基于高通量测序同时检测t细胞和b细胞免疫组库的方法
CN110914911A (zh) * 2017-05-16 2020-03-24 生命科技股份有限公司 压缩分子标记的核酸序列数据的方法
CN110914911B (zh) * 2017-05-16 2023-09-22 生命科技股份有限公司 压缩分子标记的核酸序列数据的方法
CN110678559A (zh) * 2017-08-31 2020-01-10 深圳华大智造科技有限公司 一种核酸探针以及一种核酸测序方法
CN110678559B (zh) * 2017-08-31 2023-09-15 深圳华大智造科技股份有限公司 一种核酸探针以及一种核酸测序方法
US11993813B2 (en) 2017-08-31 2024-05-28 Mgi Tech Co., Ltd. Nucleic acid probe and nucleic acid sequencing method
WO2019080725A1 (zh) * 2017-10-25 2019-05-02 深圳华大生命科学研究院 一种核酸测序方法以及一种核酸测序试剂盒
CN110691854A (zh) * 2017-10-25 2020-01-14 深圳华大生命科学研究院 一种核酸测序方法以及一种核酸测序试剂盒
US11649489B2 (en) 2017-10-25 2023-05-16 Bgi Shenzhen Nucleic acid sequencing method and nucleic acid sequencing kit
CN110691854B (zh) * 2017-10-25 2023-09-12 深圳华大生命科学研究院 一种核酸测序方法以及一种核酸测序试剂盒

Also Published As

Publication number Publication date
EP2859123A4 (en) 2015-12-16
JP2015519081A (ja) 2015-07-09
CA2875542A1 (en) 2013-12-19
WO2013188471A2 (en) 2013-12-19
AU2013274366A1 (en) 2015-01-22
SG11201407888RA (en) 2014-12-30
WO2013188471A3 (en) 2014-04-03
EP2859123A2 (en) 2015-04-15

Similar Documents

Publication Publication Date Title
CN104520443A (zh) 使用序列标签的序列确定方法
AU2020210279B2 (en) Large-scale biomolecular analysis with sequence tags
US9347099B2 (en) Single cell analysis by polymerase cycling assembly
US9506119B2 (en) Method of sequence determination using sequence tags
AU2013246050B2 (en) Detection and quantitation of sample contamination in immune repertoire analysis
CA2859002C (en) Detection and measurement of tissue-infiltrating lymphocytes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160129

Address after: American California

Applicant after: Sequenta, Inc.

Address before: American California

Applicant before: Mlc Dx Inc.

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160414

Address after: Washington State

Applicant after: ADAPTIVE BIOTECHNOLOGIES CORP

Address before: American California

Applicant before: Sequenta, Inc.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150415