组织浸润淋巴细胞的检测和测量
交叉引用
本申请要求2011年12月13日提交的共同未决的美国临时申请第61/570,192号的优先权,该申请通过引用以其整体并入本文。
发明背景
浸润至受疾病影响的组织如实体瘤内的不同淋巴细胞亚组的数目和比率通常与疾病的预后有关,例如Deschoolmeester等人,BMCImmunology,11:19(2010);Ohtani,Cancer Immunity,7:4(2007);Yu等人,Laboratory Investigation,86:231-245(2006);Diederichsen等人,Cancer Immunol.Immunother.,52:423-428(2003);等等。遗憾的是,使用诸如免疫组织化学或流式细胞术等可用技术测量这些量是困难的、劳动密集的,并且不适于日常开展。
另外,随着DNA测序的每个碱基成本的下降,大规模DNA测序在诊断和预后应用中的使用受到越来越多的关注。例如,编码诸如T细胞或B细胞受体等免疫分子或其组分的核酸谱包含大量关于生物体的健康或疾病状态的信息,因此已经提出使用此类谱作为众多状况的诊断或预后指标,例如,Faham和Willis,美国专利公开2010/0151471;Freeman等人,Genome Research,19:1817-1824(2009);Boyd等人,Sci.Transl.Med.,1(12):12ra23(2009);He等人,Oncotarget(2011年3月8日)。
如果能够将高通量核酸测序的改进用于提供一种用于测量组织浸润淋巴细胞(TIL)的更方便且更有效的分析,则对于医学和科学领域将是非常有用的。
发明内容
本发明涉及用于测量浸润至实体组织如肿瘤内的细胞如淋巴细胞的数目、水平和/或比率的方法,以及基于此类测量结果作出患者预后。本发明在许多实施和应用中得到例证,其中一些总结如下并贯穿于整个说明书中。
在一个方面,本发明涉及用于鉴别已浸润实体组织的淋巴细胞的方法,该方法包括以下步骤:(a)将来自个体的易获取组织(accessibletissue)的淋巴细胞的样品分选成一个或多个亚组;(b)针对来自所述易获取组织的淋巴细胞的一个或多个亚组中的每一个产生克隆型谱;(c)从实体组织的至少一个样品产生至少一个克隆型谱;以及(d)从它们各自的克隆型检测该实体组织中每个亚组的淋巴细胞。
在另一方面,本发明涉及用于从患者的淋巴细胞浸润至实体瘤的状态来确定预后的方法,其中该方法包括以下步骤:(a)将来自该患者的外周血的淋巴细胞的样品分选成一个或多个亚组;(b)针对来自外周血的淋巴细胞的一个或多个亚组中的每一个产生克隆型谱;(c)从实体瘤的至少一个样品产生至少一个克隆型谱;以及(d)确定所述一个或多个亚组中的每一个的淋巴细胞的数目、水平和/或比率。在一个实施方案中,淋巴细胞浸润至实体瘤的状态是指在实体瘤内选定的功能亚组的淋巴细胞的数目、水平和/或比率。在一些实施方案中,淋巴细胞浸润至实体瘤的状态还可包括这些值在实体瘤内或其附近的空间分布。
本发明的这些以上表征的方面以及其他方面在许多说明性实施和应用中得到例证,其中一些在附图中示出且在随后的权利要求书部分中进行表征。然而,以上概括性内容并非旨在描述本发明的每个说明性实施方案或每个实施。
附图说明
本发明的新颖特征在随附的权利要求书中具体阐述。通过参考以下阐述说明性实施方案(其中利用了本发明的原理)的详细描述和附图,将会获得对本发明的特征及优点的更好的理解,附图中:
图1图解示出了本发明的一个实施方案的步骤。
图2A至图2C示出了用于扩增TCRβ基因的两阶段PCR方案。
图3A显示了确定图2C的PCR产物的核苷酸序列的细节。图3B显示了确定图2C的PCR产物的核苷酸序列的另一实施方案的细节。
图4A显示了在一个反应中从一条IgH链产生三个测序模板的PCR方案。图4B至图4C显示了在三个独立反应中从一条IgH链产生三个测序模板、之后将产生的扩增子组合在一起进行二次PCR以添加P5和P7引物结合位点的PCR方案。图4D显示了针对IgH链产生的序列阅读(sequence read)的位置。图4E显示了使用V区和J区的密码子结构来改善NDN区中的碱基判定。
发明详述
除非另有说明,本发明的实践可利用在本领域技术范围内的分子生物学(包括重组技术)、生物信息学、细胞生物学和生物化学的常规技术和说明。这样的常规技术包括但不限于血细胞的采样和分析、核酸测序和分析等。可通过参考本文以下的实例来获得合适技术的具体说明。然而,当然还可使用其他等同的常规程序。这样的常规技术和说明可见于标准实验室手册,诸如Genome Analysis:A LaboratoryManual Series(Vols.I-IV);PCR Primer:A Laboratory Manual;和Molecular Cloning:A Laboratory Manual(所有均来自Cold SpringHarbor Laboratory Press);等等。
在一个方面,本发明涉及用于确定浸润至诸如肿瘤、受自身免疫性疾病影响的组织、受移植物抗宿主疾病(GVHD)影响的组织、正常组织等实体组织内的淋巴细胞的类型和数目的方法。虽然受关注的实体组织通常是受疾病影响的实体组织,但在一些实施方案中,还可使用正常组织中淋巴细胞的不同亚组的水平和/或数目和/或比率来确定个体的健康状态和/或患有疾病或状况的倾向。
图1示出了本发明的一个实施方案的概略图。由易获取组织(100)如外周血确定个体的淋巴细胞的克隆型。任选地,可实施最小样品制备步骤(102),诸如分离外周血单核细胞(PBMC)。从该样品中,将淋巴细胞分选(104)成亚组,L1、L2…LK(106),该亚组通常对应于具有独特生物学功能的淋巴细胞;这样的亚组在本文中有时被称为淋巴细胞的“功能亚组”。通常,分选是基于这些功能上独特的亚组所特有的一种或多种分子标记物的存在或不存在进行的。此类标记物可以是细胞表面标记物或细胞内标记物。在一个实施方案中,此类标记物是细胞表面标记物。示例性的细胞表面标记物包括但不限于CD3、CD4、CD8、CD19、CD20、CD25、CD45RO、CD117、CD127等。
感兴趣的淋巴细胞亚组包括但不限于B细胞、T细胞、细胞毒性T细胞、辅助性T细胞、调节性T细胞、Th1T辅助性T细胞、Th2辅助性T细胞、Th9辅助性T细胞、Th17辅助性T细胞、Tfh辅助性T细胞、抗原特异性T细胞及抗原特异性B细胞。每当实体组织是实体瘤时,特别感兴趣的是细胞毒性T细胞和调节性T细胞的亚组。
或是由于重叠,例如因低效的分选技术导致的重叠,或是由于第二亚组的成员可完全包含在(或嵌套在)较大的第一亚组中,一些亚组可包括其他亚组的成员;例如,T细胞的亚组包括细胞毒性T细胞和辅助性T细胞作为两个被完全包含的亚组。同样,正如所提到的,辅助性T细胞的亚组包括其他几个被完全包含的亚组。通常,所嵌套的亚组(即亚组的亚组)的细胞通过使用此类亚组所特有的另外的标记物获得。淋巴细胞的亚组一般使用常规试验,通常采用市售标记物和试剂盒(例如BD Biosciences,San Jose,CA),在功能上和/或通过分子标记物进行鉴别。几种受关注的淋巴细胞所特有的标记物如下:针对辅助性T细胞的CD4;针对细胞毒性T细胞的CD8;针对调节性T细胞的CD4、CD25和低表达CD127(或可替代地,针对调节性T细胞的CD4、CD25和细胞内表达FoxP3);以及针对记忆效应T细胞的CD45RO+、CCR7-、CD28-、CD27-、CD8+;等等(其中“+”和“-”符号按照免疫学文献中的常规符号来使用;即,分别用于指示高表达和低(或不存在)表达)。抗体探针可市售获得,用于通过下文描述的分选技术,例如FACS,来分离此类亚组。如上所述,在一些实施方案中,此类亚组的淋巴细胞的存在、不存在和/或水平提供了预后信息,诸如正在经受癌症治疗的患者的生存时间。下表总结了根据本发明用于鉴别淋巴细胞亚组的表面和细胞内标记物。本发明的不同实施方案包括鉴别该表中淋巴细胞亚组的不同组合的克隆型。
表I
可用于FACS分离的淋巴细胞亚组的示例性分子标记物*
*并不旨在作为排他性或穷尽性列表。
基于表面标记物的细胞分选可通过一种或多种技术来进行,该技术包括但不限于荧光激活细胞分选(FACS)、磁激活细胞分选(MACS)、淘选(panning)、重调定(resetting)等,它们通常使用可特异性识别和结合感兴趣的细胞表面特征的抗体或其他试剂。在一个方面,也可采用FACS通过固定和透化细胞,随后例如使用对细胞内标记物具有特异性的标记抗体进行染色,来进行基于细胞内标记物的细胞分选,例如,正如Pan等人,PlosOne,6(3):e17536(2011)中所公开的。此类分选技术及其应用公开于以下的示例性参考文献中:Recktenwald等人编著,“Cell Separation Methods and Applications”(Marcel Dekker,1998);Kearse编著,“T Cell Protocols”,Methods in Molecular Biology,第134卷(Springer,2000);Miltenyi等人,Cytometry,11:231-238(1990);Davies,第11章,“Cell sorting by flow cytometry,”Macey编著,FlowCytometry:Principles and Applications(Humana Press,Totowa,NJ);等等。本发明特别感兴趣的是使用FACS,例如使用市售仪器和制造商的方案及试剂盒(如BD Biosciences FACS Aria III或BD BiosciencesInflux(BD Biosciences,San Jose,CA))来将淋巴细胞分选成感兴趣的亚组。使用FACS分离调节性T细胞亚组具体公开于Boyce等人,“Human regulatory T-cell isolation and measurement of function,”BDBioscience Application Note(2010年3月),该文献通过引用并入本文。基于T细胞受体或B细胞受体的抗原特异性来分选或分离淋巴细胞可通过使用FACS或FACS与诸如MACS的其他技术的组合来进行。使用此类技术来分选和/或分离抗原特异性T细胞或B细胞的指导公开于通过引用并入的下列示例性参考文献中:Thiel等人,Clin.Immunol.,111(2):155-161(2004);Newman等人,J.Immunol.Meth.,272:177-187(2003);Hoven等人,J.Immunol.Meth.,117(2):275-284(1989);美国专利5,213,960和5,326,696;Moody等人,Cytometry A,73A:1086-1092(2008);Gratama等人,Cytometry A,58A:79-86(2004);Davis等人,Nature Reviews Immunology,11:551-558(2011);美国专利8,053,235和8,309,312;Lee等人,Nature Medicine,5(6):677-685(1999);Altman等人,Science,274:94-96(1996);Leisner等人,PLosOne 3(2):e1678(2008);“Pro5MHC Pentamer Handbook,”(ProImmune,Ltd.,UnitedKingdom,2012);及类似的参考文献。
在一个实施方案中,来自易获取组织(诸如外周血)的细胞的连续样品可分选成两个群体:(i)单一定义的亚组(诸如CD8+淋巴细胞;CD4+、CD25+(高);及CD127(低);等等)和(ii)所有其他细胞。收集和分析群体(i),例如通过提取核酸,扩增重组DNA或RNA序列,对它们进行测序,并产生克隆型谱。通过使用不同的亚组特异性探针,可针对所需要的多个亚组重复该过程。
回到图1,从每个分选的亚组中提取DNA或RNA并使用下文更充分地描述的技术为每个亚组产生克隆型谱(108)。该克隆型谱提供了每个亚组中的克隆型序列的列表。在一个实施方案中,分选的淋巴细胞的数目足够多,从而基本上每个具有独特克隆型的T细胞均可在克隆型谱中得到鉴别。如下文更充分地讨论的,在一些实施方案中,由于所述鉴别包括采样,“基本上每个具有独特克隆型的细胞”是指每个处于给定频率或以上(例如0.0001)的克隆型以百分之九十或百分之九十五或类似的概率被确定。根据本发明,淋巴细胞亚组的克隆型信息用于鉴别各种淋巴细胞亚组的细胞的存在、不存在、数目和/或水平,该淋巴细胞亚组的细胞已经浸润至较不易获取的组织,如实体瘤标本或活检标本,或自身免疫性疾病所涉及的组织(110)。这通过从标本(110)中提取DNA或RNA并产生(112)克隆型谱(114)来实现。然后通过在亚组特异性克隆型谱(108)中查找该克隆型的序列,能够将谱(114)的每一个克隆型与淋巴细胞亚组(116)相关联;因此,通过进行这样的关联,鉴别出其成员已经浸润实体组织的亚组。此外,由于克隆型的丰富的多样性,对每个亚组的克隆型进行计数可给出已经浸润至标本内的亚组的淋巴细胞的数目的良好近似值。如果标本的体积是已知的或可确定的,则可获得亚组的淋巴细胞的密度。
在一些实施方案中,例如在难获取组织(inaccessible tissue)是实体瘤时,无论在切除或手术移除的之前或之后,均可采集一个或多个肿瘤样品。使用针抽吸术或其他常规技术,可以获得在肿瘤移除之前采集的样品。在一些实施方案中,获得多个样品,例如用来确定难获取组织内的淋巴细胞亚组的空间分布。在一些实施方案中,可采集至少两个样品,其中至少一个来自难获取组织的表面或外部部分,且至少一个来自难获取组织的内部。如上文所述,在一些实施方案中,难获取组织是已经从患者移除的实体瘤,如图1中的标本(110)所示。来自标本(110)的样品可在切除后及固定后取得。从固定的组织样品产生克隆型谱在下文中更加充分地描述。
根据本发明,图1的实施方案可通过下列步骤实施:(a)将来自个体的易获取组织的淋巴细胞的样品分选成一个或多个亚组;(b)针对来自易获取组织的淋巴细胞的一个或多个亚组中的每一个产生克隆型谱;(c)从实体组织的样品产生克隆型谱;以及(d)根据它们各自的克隆型检测实体组织中的每个亚组的淋巴细胞。在一些实施方案中,步骤(a)可通过用以上提到的各种技术,例如使用针对适当标记物的标记抗体探针的FACS,将淋巴细胞分离成期望的或预先确定的亚组来完成。该步骤的目的是为了从易获取组织中富集或优选分离淋巴细胞的纯亚组,以便使根据难获取组织中鉴别的克隆型对亚组成员的错误判定最小化。富集程度取决于所采用的分离或分选技术及针对亚组的可获取的标记物。在一些实施方案中,分选步骤产生至少一个富含靶淋巴细胞的亚组,以使至少百分之五十的所分选的群体包含靶淋巴细胞。在其他实施方案中,分选步骤产生至少一个富含靶淋巴细胞的亚组,以使至少百分之八十的所分选的群体包含靶淋巴细胞。在其他实施方案中,分选步骤产生至少一个富含靶淋巴细胞的亚组,以使至少百分之九十的所分选的群体包含靶淋巴细胞。在其他实施方案中,例如,当靶淋巴细胞属于罕见细胞群体或无法获得有效探针时,分选步骤可产生仅富集至所分选的群体的百分之五水平的亚组。在这样的情况下,可通过串联使用多种分选技术,例如在MACS之后使用FACS,来获得进一步的富集。在一些实施方案中,如下文所述,产生克隆型谱的步骤可通过从淋巴细胞扩增重组核酸并且对从所得扩增子分离的核酸进行测序来实施。所述产生步骤可进一步包括将测序步骤的所得序列阅读合并成克隆型。所述产生步骤还可进一步包括形成所得克隆型序列的数据库,该数据库适于进行分析,例如,应用算法来比较此类序列与其他克隆型谱的克隆型序列。
如上所述,本发明包括根据患者的淋巴细胞浸润至实体瘤的状态来确定预后的方法,其中该方法包括以下步骤:(a)将来自患者的外周血的淋巴细胞的样品分选成一个或多个亚组;(b)针对来自外周血的淋巴细胞的一个或多个亚组中的每一个产生克隆型谱;(c)从实体瘤的至少一个样品产生至少一个克隆型谱;及(d)确定所述一个或多个亚组中的每一个的淋巴细胞的数目、水平和/或比率。如本文所用的,“预后”是指基于难获取组织如实体瘤中淋巴细胞功能亚组的数目、水平、比率和/或分布对后果的预测。后果可以是患者的生存期、症状改善程度、肿瘤负荷的减少或者疾病状况改善或恶化的其他替代测量指标。在一些实施方案中,预后可以是定性的,因为测量指标指示改善或恶化,但并不指示改善程度(例如生存的额外年数等)或恶化程度。在一些实施方案中,功能亚组的淋巴细胞的水平可以是相对值,例如与患者的其他组织中的水平或浓度(平均值或其他)相比较或与个体群体中的平均水平或范围相比较。在一个实施方案中,相对水平是与患者外周血中淋巴细胞功能亚组的水平相比较。
样品
根据本发明,将来自易获取组织的淋巴细胞分离成亚组,分析所述亚组以确定克隆型,继而利用所述克隆型确定不易获取的组织中不同亚组的淋巴细胞的数目和/或水平;因此,在大多数实施方案中,至少获得两种样品,至少一种来自易获取组织并且至少一种来自难获取组织。在一些实施方案中,从中取得样品的易获取组织包括但不限于外周血、骨髓、淋巴液、滑液等。在一些实施方案中,从中取得样品的不易获取或难获取组织是实体组织,如实体瘤、与自身免疫性疾病相关的发炎组织等。从中取得不易获取样品的示例性实体瘤包括但不限于黑素瘤、结肠直肠肿瘤、卵巢肿瘤、胃肿瘤、乳腺肿瘤、肝细胞肿瘤、尿路上皮肿瘤等。特别感兴趣的是结肠直肠肿瘤和黑素瘤。与自身免疫疾病相关的示例性实体组织包括但不限于结缔组织、关节结缔组织、肌肉组织、皮肤、肺组织、小肠组织、结肠组织等。在其他实施方案中,易获取组织是外周血而不易获取组织是采样时会引起患者明显不适的任何组织。例如,在此类实施方案中,不易获取组织可包括骨髓、淋巴液、滑液等,以及上文所公开的实体组织。
从存在于多种组织中的免疫细胞(不论是在易获取组织中还是在不易获取组织中)的样品获得克隆型谱。感兴趣的免疫细胞包括T细胞和/或B细胞。T细胞(T淋巴细胞)包括,例如,表达T细胞受体(TCR)的细胞。B细胞(B淋巴细胞)包括,例如,表达B细胞受体(BCR)的细胞。T细胞包括可通过细胞表面标记物区分的辅助性T细胞(效应T细胞或Th细胞)、细胞毒性T细胞(CTL)、记忆T细胞和调节性T细胞。在一个方面,T细胞样品包括至少1,000个T细胞;但更典型地,样品包括至少10,000个T细胞,且更典型地,样品包括至少100,000个T细胞。在另一方面,样品包括1000个至1,000,000个细胞的T细胞数目。免疫细胞样品还可包括B细胞。B细胞包括,例如,血浆B细胞、记忆B细胞、B1细胞、B2细胞、边缘区B细胞和滤泡B细胞。B细胞可以表达免疫球蛋白(也称为抗体或B细胞受体)。如上,在一个方面,B细胞样品包括至少1,000个B细胞;但更典型地,样品包括至少10,000个B细胞,且更典型地,样品包括至少100,000个B细胞。在另一方面,样品包括1000个至1,000,000个细胞的B细胞数目。
在本发明的方法中使用的样品(有时称为“组织样品”)可来自多种组织,包括,例如,肿瘤组织、血液和血浆、淋巴液、脑和脊髓周围的脑脊液、骨关节周围的滑液等。在一个实施方案中,样品是血液样品。血液样品可以为约0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5或5.0mL。样品可以是肿瘤活检组织。该活检组织可以来自,例如,脑、肝脏、肺、心脏、结肠、肾脏或骨髓的肿瘤。本领域技术人员所用的任何活检技术都可用于从受试者分离样品。例如,活检可以是开放性活检,其中采用全身麻醉。活检可以是闭合性活检,其中形成比开放性活检更小的切口。活检可以是中心活检或切开活检,其中切除组织的一部分。活检可以是切除活检,其中尝试切除整个病变。活检可以是细针抽吸活检,其中用针移除组织样品或液体样品。在一些实施方案中,可从实体瘤取得多个样品,以便确定在实体瘤内或其周围的淋巴细胞亚组的空间分布。在一些实施方案中,来自实体瘤的样品的数目可以在2个至10个的范围内;在其他实施方案中,该范围可以是2个至20个。
样品或组织样品,无论是易获取的还是不易获取的,都包括核酸,例如,DNA(例如基因组DNA)或RNA(例如,信使RNA)。该核酸可以是无细胞的DNA或RNA,例如从循环系统提取的,Vlassov等人,Curr.Mol.Med.,10:142-165(2010);Swarup等人,FEBS Lett.,581:795-799(2007)。在本发明的方法中,来自受试者的可进行分析的RNA或DNA的量差别很大。为了产生克隆型谱,在样品中获得足够的核酸以用于有帮助地表现组织中个体的免疫受体的组库(repertoire)。更特别地,为了从基因组DNA产生克隆型谱,从样品中提取至少1ng的来自T细胞或B细胞的总DNA(即大约300个二倍体基因组当量);在另一实施方案中,从样品中提取至少2ng的总DNA(即大约600个二倍体基因组当量);而在另一实施方案中,从样品中提取至少3ng的总DNA(即大约900个二倍体基因组当量)。普通技术人员将会认识到,随着样品中淋巴细胞所占比例的减少,前述DNA的最小量可增多,以便产生包含超过约1000个独立克隆型的克隆型谱。为了从RNA产生克隆型谱,在一个实施方案中,提取足量的RNA,进而获得编码独特TCR、BCR或其片段的至少1000个转录物。基于样品中淋巴细胞所占比例、淋巴细胞的发育阶段、采样技术、组织的状况等,对应于这一限制的RNA的量在样品与样品之间有很大的差别。在一个实施方案中,从含有B细胞和/或T细胞的组织样品中提取至少100ng的RNA用于产生克隆型谱;在另一个实施方案中,从含有B细胞和/或T细胞的组织样品中提取至少500ng的RNA用于产生克隆型谱。本发明的方法中使用的RNA可以是从组织样品中提取的总RNA或者是直接从组织样品中或从自组织样品中提取的总RNA中提取的polyA RNA。上述核酸提取可使用市售试剂盒(例如,来自Invitrogen(Carlsbad,CA)、Qiagen(San Diego,CA)等供应商)来进行。提取RNA的指导可见于Liedtke等人,PCR Methods and Applications,4:185-187(1994)等参考文献。
如下文(定义部分)更充分地讨论的,淋巴细胞样品足够大,使得基本上每个具有独特克隆型的T细胞或B细胞在其中都有表现,从而形成组库(本文中使用该术语)。在一个实施方案中,采集样品,该样品有99%的概率包含群体中以0.001%或更高的频率存在的每一种克隆型。在另一个实施方案中,采集样品,该样品有99%的概率包含群体中以0.0001%或更高的频率存在的每一种克隆型。在一个实施方案中,B细胞或T细胞样品包括至少50万个细胞,而在另一实施方案中,该样品包括至少100万个细胞。
每当取样材料来源(诸如,临床研究样品或类似样品)稀缺时,可通过非偏技术如全基因组扩增(WGA)和多重置换扩增(MDA)或类似技术来扩增来自材料的DNA,例如,Hawkins等人,Curr.Opin.Biotech.,13:65-67(2002);Dean等人,Genome Research,11:1095-1099(2001);Wang等人,Nucleic Acids Research,32:e76(2004);Hosono等人,Genome Research,13:954-964(2003);等等。
血液样品作为易获取样品是特别感兴趣的,且可用常规技术获得,例如Innis等人编,PCR Protocols(Academic Press,1990)等。例如,可用常规技术,例如RosetteSep试剂盒(Stem Cell Technologies,Vancouver,加拿大),从血液样品中分离白细胞。血液样品的体积范围可为100μL至10mL;在一个方面,血液样品的体积范围是100μL至2mL。随后可用用于本发明方法的常规技术例如DNeasy血液和组织试剂盒(Qiagen,Valencia,CA)从这样的血液样品中提取DNA和/或RNA。任选地,白细胞的亚组,例如淋巴细胞,可用常规技术进一步分离,例如使用荧光激活细胞分选(FACS)(Becton Dickinson,San Jose,CA)、磁激活细胞分选(MACS)(Miltenyi Biotec,Auburn,CA)等。
由于鉴别性重组(identifying recombination)存在于每个个体的适应性免疫细胞的DNA以及与之相关的RNA转录物中,在提供的本发明的方法中可对RNA或DNA进行测序。编码T细胞受体或免疫球蛋白分子的来自T细胞或B细胞的重组序列或其一部分被称为克隆型。该DNA或RNA可对应于来自T细胞受体(TCR)基因或编码抗体的免疫球蛋白(Ig)基因的序列。例如,该DNA和RNA可对应于编码TCR的α、β、γ或δ链的序列。在大多数T细胞中,TCR是由α链和β链组成的异二聚体。TCRα链是通过VJ重组产生的,而β链受体是通过V(D)J重组产生的。对于TCRβ链而言,人类有48个V区段、2个D区段和13个J区段。在两个连接点中的每一个处都可以删除数个碱基而添加其他碱基(称为N核苷酸和P核苷酸)。在少数T细胞中,TCR由γ链和δ链组成。TCRγ链是通过VJ重组产生的,而TCRδ链是通过V(D)J重组产生的(Kenneth Murphy,Paul Travers和Mark Walport,Janeway's Immunology第7版,Garland Science,2007,其通过引用以其整体并入本文)。
在本发明方法中所分析的DNA或RNA可对应于编码具有恒定区(α、δ、ε、γ或μ)的重链免疫球蛋白(IgH)或具有恒定区λ或κ的轻链免疫球蛋白(IgK或IgL)的序列。每个抗体具有两条相同的轻链和两条相同的重链。每条链由恒定(C)区和可变区组成。对于重链而言,可变区由可变(V)区段、多样性(D)区段和连接(J)区段组成。编码这些区段中每种类型的几个独特序列存在于基因组中。特定VDJ重组事件发生在B细胞发育期间,使该细胞产生特定重链。轻链中的多样性以相似的方式产生,只是没有D区所以只存在VJ重组。体细胞突变经常发生在重组位点附近,导致数个核苷酸的添加或删除,进一步增加了由B细胞产生的重链和轻链的多样性。由B细胞产生的抗体的可能的多样性是不同重链和轻链的产物。重链和轻链的可变区有助于形成抗原识别(或结合)区或位点。除了这种多样性之外,还有体细胞超突变过程,该过程可出现在针对某表位的特异性应答发生之后。
在确定样品中的淋巴细胞数目的一个方面,将已知量的具有已知序列的独特免疫受体重排分子,即,已知量的一种或多种内部标准,添加到来自未知量的样品的cDNA或基因组DNA中。通过对针对添加的已知序列获得的分子与同一样品中的其余序列相比的相对数进行计数,可以估算最初cDNA样品中重排免疫受体分子的数量(这样的分子计数技术是众所周知的,例如,Brenner等人,美国专利7,537,897,其通过引用并入本文)。如果还采用了实时PCR校准,则对添加的独特序列进行测序所得到的数据可用于区分不同的可能性,例如,如在Faham和Willis(上文引用)中所公开的。
从固定的样品中提取核酸
根据本发明从中提取核酸的固定组织样品(例如,来自切除的肿瘤组织或类似组织)通常是来自与疾病相关的组织如实体瘤的化学固定的组织样品。用于产生本发明中使用的固定组织样品的化学固定剂包括醛类、醇类及类似试剂。通常,本发明中使用的固定的组织样品是用甲醛或戊二醛固定的,且特别地,是作为福尔马林固定、石蜡包埋(FFPE)的组织样品而提供的。本发明使用的核酸提取技术的指导公开于通过引用并入的下列参考文献中:Dedhia等人,Asian Pacific J.Cancer Prev.,8:55-59(2007);Okello等人,Analytical Biochemistry,400:110-117(2010);Bereczki等人,Pathology Oncology Research,13(3):209-214(2007);Huijsmans等人,BMC Research Notes,3:239(2010);Wood等人,Nucleic Acids Research,38(14):e151(2010);Gilbert等人,PLosOne,6:e537(2007年6月);Schweiger等人,PLosOne,4(5):e5548(2009年5月)。此外,还有几种用于进行从固定组织提取核酸的市售试剂盒,其可利用制造商提供的说明书与本发明一起使用:AllPrepDNA/RNA FFPE试剂盒(Qiagen,San Diego,CA);Absolutely RNAFFPE试剂盒(Agilent,Santa Clara,CA);QuickExtract FFPE DNA提取试剂盒(Epicentre,Madison,WI);用于FFPE的RecoverAll总核酸分离试剂盒(Ambion,Austin,TX);等等。
简言之,核酸提取可包括下列步骤:(i)获得固定的样品,该固定的样品切成大约20μm厚或更薄的切片且其量有效地产生约6ng的可扩增DNA或约0.5至20ng的可逆转录和可扩增的RNA;(ii)任选地使固定的样品脱蜡,例如,通过二甲苯和乙醇洗涤、右旋柠檬烯和乙醇处理、微波处理或类似处理;(iii)任选地处理以逆转固定剂诱导的DNA交联,例如,在98℃下孵育15分钟等;(iv)消化固定样品的非核酸组分,例如,在常规缓冲液(例如Tris-HCl、EDTA、NaCl、去污剂)中使用蛋白酶K,随后进行蛋白酶K的热变性,之后可任选地将所得溶液直接用于产生克隆型谱以鉴别相关的克隆型;(v)以及任选地提取核酸,例如,苯酚:氯仿提取后用乙醇沉淀;基于硅胶柱的提取,例如QIAamp DNA微型试剂盒(Qiagen,CA)或类似试剂盒。针对RNA分离,可进一步进行RNA特异性提取的步骤,例如RNase抑制剂处理、DNase处理、硫氰酸胍/酸提取等。另外的可选步骤可包括处理所提取的核酸样品以去除PCR抑制剂,例如,牛血清白蛋白或类似试剂可用于此目的,例如,Satoh等人,J.Clin.Microbiol.,36(11):3423-3425(1998)。
可用多种不同的方法测量所提取的核酸的量和质量,所述方法包括但不限于PicoGreen Quantitation Assay(Molecular Probes,Eugene,OR);使用2100Bioanalyzer的分析(Agilent,Santa Clara,CA);TBS-380Mini-Fluorometer(Turner Biosystems,Sunnyvale,CA)等。在一个方面,可通过扩增来测量核酸的质量,例如,在多重PCR中,扩增来自具有预定大小的内标基因的一组片段,例如,100、200、300和400个碱基对,如Van Dongen等人,Leukemia,17:2257-2317(2003)所公开的。在这样的扩增之后,根据大小分离片段并且对条带进行定量以提供反映所提取的核酸片段的大小分布的大小分布。
从固定的组织中提取的核酸由于固定过程而具有典型平均大小为约200个或更少的核苷酸的大小分布。含有克隆型的片段具有可在100-400个核苷酸的范围内的大小;因此,对于以DNA作为起始材料,为确保在所提取的核酸中存在可扩增的克隆型,样品中的基因组当量数必须以显著的量超过所需要的克隆型的数目,例如,通常超过3-6倍。对于以RNA作为起始材料,必须作类似的考虑。如果固定产生的断裂和/或加合物是沿着提取的序列随机分布的,则可如下估算长度为N个碱基对的区域(例如,含有克隆型)不具有断裂或加合物的概率。如果每个核苷酸含有断裂或加合物的概率是p(例如,p可取1/200,平均片段大小的倒数),则N个bp的序列段不具有断裂或加合物的概率的估算值为(1-p)N,例如,Ross,Introduction to Probability Models,第九版(Academic Press,2006)。这个量的倒数是为了得到(平均)需要的可扩增片段的数量而必须采样的基因组当量的增加倍数。例如,如果需要至少1000个可扩增克隆型,则必须具有至少1000个包含不具有断裂或者扩增抑制加合物或交联的克隆型序列(例如,大于300个碱基对(bp))的序列。对于N=300且p=1/200,(1-p)N≈0.22,因此如果对于非固定组织需要6ng样品来得到完整DNA的大约1000个基因组当量,则对于固定组织需要约(1/0.22)x6ng或25-30ng。对于N=100且p=1/200,(1-p)N≈0.61,因此如果对于非固定组织需要6ng样品来得到完整DNA的大约1000个基因组当量,则对于固定组织需要约(1/0.61)x6ng或10ng。在一个方面,为了确定关联克隆型,可扩增克隆型的数目为1000至10000个。相应地,对于包含约50-100%淋巴细胞的固定组织样品,以10-500ng的量从固定组织获得核酸样品。对于包含约1-10%淋巴细胞的固定组织样品,以1-50μg的量从固定组织获得核酸样品。
鉴别B细胞同种型
在一个实施方案中,本发明允许鉴别浸润难获取组织的B细胞的同种型。由B淋巴细胞产生的免疫球蛋白的同种型可根据克隆型来确定,该克隆型设计为包括编码免疫球蛋白的一部分恒定区的核酸。因此,根据本发明的一个方面,从编码免疫球蛋白重链(IgH)的核苷酸的序列阅读构建克隆型。本发明的此类克隆型包括VDJ编码区的一部分和与其相关联的恒定区(或C区)的一部分。根据编码C区的一部分的核苷酸序列来确定同种型。在一个实施方案中,编码C区的部分与VDJ编码区毗邻,因此可通过诸如聚合酶链式反应(PCR)的常规技术来扩增单个连续的序列,如在Faham和Willis,美国专利公开号2011/0207134(其通过引用并入本文)中所公开的。编码C区的克隆型的一部分用于根据特征性等位基因的存在来鉴别同种型。在一个实施方案中,8-100个C区编码核苷酸包含在一个克隆型内;在另一个实施方案中,8-20个C区编码核苷酸包含在一个克隆型内。在一个实施方案中,如下文更充分描述的,在IgH编码序列的扩增期间捕获此类C区编码部分。在此类扩增中,定位一个或多个C区引物,以使得在所得扩增子中捕获在上述范围内的许多C区编码核苷酸。
存在五种哺乳动物Ig重链类型,由希腊字母α、δ、ε、γ和μ表示。存在的重链类型定义了抗体的类别;这些链分别在IgA、IgD、IgE、IgG和IgM抗体中发现。不同的重链在大小和组成上是不同的;α和γ包含约450个氨基酸,而μ和ε具有约550个氨基酸。每个重链具有两个区,即恒定区和可变区。恒定区在相同同种型的所有抗体中都是相同的,但在不同同种型的抗体中是不同的。重链γ、α和δ具有由三个串联(在一条线上)的Ig结构域组成的恒定区和用于增加柔性的铰链区;重链μ和ε具有由四个免疫球蛋白结构域组成的恒定区。重链的可变区在由不同B细胞产生的抗体中是不同的,但是对于由一个B细胞或B细胞克隆产生的所有抗体而言都是相同的。每个重链的可变区为约110个氨基酸长且由单个Ig结构域组成。人类(和其他)IgH C区的核苷酸序列可从诸如http://www.imgt.org上的国际免疫遗传学信息系统(IMGT)等可公开获得的数据库得到。
如上所述,在一些实施方案中,本发明的方法提供了含有同种型信息的免疫球蛋白的克隆型的生成。此类方法可通过下列步骤实施:(a)从个体的淋巴细胞中获得核酸的样品,该样品包含重组序列,每个重组序列包含B细胞受体的C基因区段的至少一部分;(b)从所述重组序列产生扩增子,该扩增子的每个序列包含C基因区段的一部分;(c)对该扩增子进行测序以产生克隆型谱,每个克隆型包含B细胞受体的VDJ区的至少一部分和C基因区段的至少一部分。从后一步骤,采样的B淋巴细胞的同种型通过检测其同种型的克隆型的C基因区段的序列来确定。在一个实施方案中,C基因区段来自编码所述B细胞受体的IgH链的核苷酸序列。典型地,C基因区段处于克隆型的一个末端,而独特的重组序列部分,例如VDJ部分,处于该克隆型的另外一个末端。在一些实施方案中,克隆型的独特部分包含VDJ区的至少一部分。
核酸群体的扩增
可通过多种扩增技术产生目标核酸群体的扩增子。在本发明的一个方面,用多重PCR来扩增核酸混合物(特别是含有重组免疫分子如T细胞受体或其部分的混合物)的成员。在以下通过引用并入本文的参考文献中可以找到对此类免疫分子进行多重PCR的指导:Faham和Willis,美国专利公开2011/0207134;Morley,美国专利5,296,351;Gorski,美国专利5,837,447;Dau,美国专利6,087,096;VonDongen等人,美国专利公开2006/0234234;欧洲专利公开EP1544308B1;等等。
从基因组扩增DNA(或通过逆转录RNA扩增cDNA形式的核酸)之后,可分离个体核酸分子,任选地进行再扩增,然后进行单独测序。示例性的扩增方案可见于van Dongen等人,Leukemia,17:2257-2317(2003)或van Dongen等人,美国专利公开2006/0234234,这些都通过引用并入本文。简单来说,示例性的方案如下:反应缓冲液:ABI缓冲液II或ABI Gold缓冲液(Life Technologies,San Diego,CA);50μL最终反应体积;100ng样品DNA;各10pmol的引物(如下所述进行调整来平衡扩增);终浓度为200μΜ的dNTP;终浓度为1.5mM的MgCl2(根据靶序列及聚合酶进行优化);Taq聚合酶(1-2U/管);循环条件:在95℃预活化7min;在60℃退火;循环时间:变性30s;退火30s;延伸30s。在本发明的方法中,可用于扩增的聚合酶是可商购的,包括,例如,Taq聚合酶、AccuPrime聚合酶或Pfu。可以基于是优选保真度还是效率来选择要使用的聚合酶。
在起始步骤中可利用实时PCR、PicoGreen染色、纳流电泳(如LabChip)或紫外吸收测量来判断可扩增材料的功能量。
在一个方面,进行多重扩增,以使起始群体中序列的相对量与扩增群体或扩增子中的相对量基本上相同。也就是说,进行在一个样品群体的成员序列间具有最小扩增偏差的多重扩增。在一个实施方案中,如果扩增子中各相对量是其在起始样品中的数值的五倍以内,那么这些相对量基本上相同。在另一实施方案中,如果扩增子中各相对量是其在起始样品中的数值的两倍以内,那么这些相对量基本上相同。如下文更充分讨论的,PCR中的扩增偏差可以用常规技术检测并修正,以便可以为提供任何样品的无偏差扩增的预定组库选择一组PCR引物。
对于许多基于TCR或BCR序列的组库,多重扩增任选地使用所有V区段。对反应进行优化以试图获得能保持由不同V区段引物扩增的序列的相对丰度的扩增。一些引物是相关联的,并因此许多引物可能“相互干扰(cross talk)”,从而扩增与其不完全匹配的模板。对条件进行优化,以便各模板可以相似的方式扩增,而不论是用那个引物对其进行扩增。换言之,如果有两个模板,那么经过1,000倍扩增后,这两个模板可被扩增约1,000倍,并且对于其中一个模板,一半的扩增产物由于相互干扰而携带不同的引物也不要紧。在对测序数据的后续分析中,从分析中消除引物序列,因此在扩增时使用何种引物都没有关系,只要模板同等地得到扩增即可。
在一个实施方案中,可以通过进行两阶段扩增(如在上文引用的Faham和Willis中所述)来避免扩增偏差,其中在第一阶段或初次阶段,利用具有与靶序列不互补的尾部的引物进行少量扩增循环。该尾部包括被添加到初级扩增子序列的末端的引物结合位点,以便这些位点在仅使用一个正向引物和一个反向引物的第二阶段扩增中使用,从而消除引起扩增偏差的主要原因。优选地,初次PCR将进行足够少的循环数(例如5-10次)以最小化由不同引物引起的差异扩增。二次扩增用一对引物完成,因此差异扩增的问题是最少的。1%的初次PCR直接进入二次PCR。在两次扩增中使用的35个循环(相当于无100倍稀释步骤的约28个循环)足以显示鲁棒的扩增,而不论循环是否分解为如下循环:1个初次循环和34个二次循环,或25个初次循环和10个二次循环。尽管理想的是在初次PCR中只运行一次循环就可降低扩增偏差,但是还有其他考虑。其中一个方面是表现性(representation)。这在起始输入量不超过最终获得的阅读数时起作用。例如,如果获得1,000,000个阅读,并起始于1,000,000个输入分子,则从100,000个分子中取得表现情况进行二次扩增会降低估算原样品中不同种类的相对丰度的精确度。这两个步骤之间的100倍稀释意味着表现性降低,除非初次PCR扩增产生显著多于100个的分子。这表明可采用最少8个循环(256倍),但更适合的是10个循环(约1000倍)。该方法的备选方案是取多于1%的初次PCR进行二次PCR,但由于初次PCR所用的引物浓度高,可以利用高稀释倍数来确保这些引物不会干扰扩增并恶化序列间的扩增偏差。另一备选方案是增加纯化或酶促步骤,以消除来自初次PCR的引物,以便允许其较小的稀释。在此实例中,初次PCR为10个循环,而二次PCR为25个循环。
产生克隆型的序列阅读
任何用于核酸测序的高通量技术均可在本发明的方法中使用。优选地,此类技术具有以成本有效的方式产生大量序列数据的能力,从该序列数据可确定至少1000个克隆型,并且优选地,从该序列数据可确定至少10,000个至1,000,000个克隆型。DNA测序技术包括利用标记的终止剂或引物和平板或毛细管中的凝胶分离的经典双脱氧测序反应(Sanger法)、利用标记的可逆终止核苷酸的合成测序、焦磷酸测序、454测序、与标记的寡核苷酸探针文库的等位基因特异性杂交、利用与标记克隆文库的等位基因特异性杂交及随后进行的连接的合成测序、在聚合步骤过程中标记核苷酸的掺入的实时监测、聚合酶克隆(polony)测序以及SOLiD测序。最近通过利用聚合酶或连接酶的连续或单个延伸反应以及通过与探针文库的单个或连续差异杂交证明了对分离的分子的测序。这些反应已对许多克隆序列并行进行,包括在超过1亿个序列的当前商业应用中并行展示。因此,这些测序方法可用于研究T细胞受体(TCR)和/或B细胞受体(BCR)的组库。
在本发明的一个方面中,采用高通量测序方法,该方法包括在固体表面上空间分离个体分子的步骤,在该固体表面上对它们进行并行测序。此类固体表面可包括无孔表面(诸如在Solexa测序中,例如Bentley等人,Nature,456:53-59(2008),或在全基因组测序中,例如Drmanac等人,Science,327:78-81(2010)),可包括微珠结合的或颗粒结合的模板的孔阵列(诸如454测序,例如Margulies等人,Nature,437:376-380(2005),或Ion Torrent测序,美国专利公开2010/0137143或2010/0304982)、微机械加工膜(诸如SMRT测序,例如Eid等人,Science,323:133-138(2009))或微珠阵列(如SOLiD测序或聚合酶克隆测序,例如Kim等人,Science,316:1481-1414(2007))。
另一方面,这些方法包括在将所分离的分子在固体表面上进行空间分离之前或之后对它们进行扩增。在前的扩增可包括基于乳液的扩增,如乳液PCR或滚环扩增。特别受关注的是基于Solexa的测序,其中将个体模板分子在固体表面上进行空间分离,之后通过桥式PCR进行并行扩增,以形成单独的克隆群体或聚簇,然后进行测序,如Bentley等人(如上文所引用)以及制造商的说明书(例如,TruSeqTMSample Preparation Kit and Data Sheet,Illumina,Inc.,San Diego,CA,2010)中所述;并在以下通过引用并入本文的参考文献中有进一步的描述:美国专利6,090,592;6,300,070;7,115,400;以及EP0972081B1。在一个实施方案中,置于固体表面上并在固体表面上扩增的个体分子形成聚簇,该聚簇具有至少为105个聚簇/cm2的密度;或至少为5x105/cm2的密度;或至少为106个聚簇/cm2的密度。在一个实施方案中,采用具有相对较高的错误率的测序化学法。在这样的实施方案中,由这些化学法产生的平均质量评分是序列阅读长度的单调下降函数。在一个实施方案中,这种下降相当于0.5%的序列阅读在位置1-75上具有至少一个错误;1%的序列阅读在位置76-100上具有至少一个错误;和2%的序列阅读在位置101-125上具有至少一个错误。
在一个方面,使用下列步骤获得个体的基于序列的克隆型谱:(a)从个体的T细胞和/或B细胞中获得核酸样品;(b)将来源于该核酸样品的个体分子进行空间分离,所述个体分子包括至少一个由样品中的核酸产生的模板,其中模板包含体细胞重排区或其一部分,每个个体分子能够产生至少一个序列阅读;(c)对所述空间分离的个体分子进行测序;以及(d)确定来自所述核酸样品的核酸分子的不同序列的丰度以产生克隆型谱。在另一个实施方案中,基于序列的克隆型谱可通过下列步骤产生:(a)从患者获得包含T细胞和/或B细胞的样品;(b)从样品的T细胞和/或B细胞扩增核酸分子,该核酸分子包含来自T细胞受体基因或免疫球蛋白基因的重组序列;(c)对扩增的核酸分子进行测序以形成克隆型谱;以及(d)确定一个或多个患者特异性克隆型(包括其任何先前未记录的系统发育克隆型)的存在、不存在和/或水平,如通过引用并入本文的Faham和Willis,美国专利公开2011/0207134中所教导的。
在一个实施方案中,每个体细胞重排区包含V区和J区。在另一实施方案中,测序步骤包括对每个空间分离的个体分子进行双向测序,以产生至少一个正向序列阅读和至少一个反向序列阅读。对于后一个实施方案,至少一个正向序列阅读和至少一个反向序列阅读具有重叠区域,以便通过这些序列阅读间的反向互补关系来确定该重叠区的碱基。在又一个实施方案中,每个体细胞重排区包含V区和J区,并且测序步骤还包括从一个或多个其正向序列阅读和至少一个反向序列阅读来确定每个个体核酸分子的序列,该序列阅读从J区中的位置开始并朝着与其相关的V区方向延伸。在另一实施方案中,个体分子包含选自完整IgH分子、不完整IgH分子、完整IgK分子、IgK非活性分子、TCRβ分子、TCRγ分子、完整TCRδ分子和不完整TCRδ分子的核酸。在另一实施方案中,测序步骤包括产生具有单调下降的质量评分的序列阅读。对于后一个实施方案,单调下降的质量评分使得序列阅读具有不优于以下的错误率:0.2%的序列阅读在碱基位置1-50上含有至少一个错误;0.2-1.0%的序列阅读在位置51-75上含有至少一个错误;0.5-1.5%的序列阅读在位置76-100上含有至少一个错误。在另一个实施方案中,上述方法包括以下步骤:(a)从个体的T细胞和/或B细胞中获得核酸样品;(b)空间分离来源于该核酸样品的个体分子,所述个体分子包含嵌套组模板,每个模板由样品中的核酸产生且每个模板含有体细胞重排区或其部分,每个嵌套组能产生多个序列阅读,每个阅读沿相同方向延伸,并且每个阅读从产生嵌套组的核酸上的不同位置开始;(c)对所述空间分离的个体分子进行测序;以及(d)确定来自核酸样品的核酸分子的不同序列的丰度以产生克隆型谱。在一个实施方案中,测序步骤包括针对每个嵌套组产生多个序列阅读。在另一实施方案中,每个体细胞重排区包含V区和J区,并且多个序列阅读中的每一个都从V区中的不同位置开始,并朝着与其相关的J区方向延伸。
在一个方面,对于来自个体的每个样品,在本发明方法中使用的测序技术每运行一次产生至少1000个克隆型的序列;在另一方面,该技术每运行一次产生至少10,000个克隆型的序列;在另一方面,该技术每运行一次产生至少100,000个克隆型的序列;在另一方面,该技术每运行一次产生至少500,000个克隆型的序列;在另一方面,该技术每运行一次产生至少1,000,000个克隆型的序列。在又一方面,该技术每运行一次对于每个单独样品产生100,000至1,000,000个克隆型的序列。
本发明的方法中使用的测序技术每次阅读可产生约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp、约100bp、约110bp、每次阅读约120bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、约500bp、约550bp或约600bp。
从序列数据确定克隆型
由序列阅读数据构建克隆型部分地取决于用于产生这些数据的测序方法,因为不同的方法具有不同的预期阅读长度和数据质量。在一种方法中,采用Solexa测序仪来产生序列阅读数据以供分析。在一个实施方案中,获得提供至少0.5-1.0×l06个淋巴细胞的样品,以产生至少一百万个模板分子,在任选的扩增后该模板分子可产生相应的一百万个或者更多的模板分子的克隆群体(或聚簇)。对于大多数高通量测序方法,包括Solexa方法,这种在聚簇水平上的过度采样(oversampling)是所期望的,以便以大冗余度确定每个模板序列,从而提高序列确定的准确度。对于基于Solexa的实施方案,优选地,每个独立模板的序列确定10次或更多次。对于其他具有不同预期阅读长度和数据质量的测序方法,不同的冗余度水平可用于可比的序列确定准确度。本领域普通技术人员会认识到,上述参数,例如样本大小、冗余度等是与特定应用相关的设计选择。
在本发明的一个方面,可通过组合来自一个或多个序列阅读(例如,沿着选定链的V(D)J区)的信息来确定克隆型的序列(包括但不限于来源于IgH、TCRα、TCRβ、TCRγ、TCRδ和/或IgLκ(IgK)的序列)。在另一方面,通过组合来自多个序列阅读的信息来确定克隆型的序列。这样的多个序列阅读可包括一个或多个沿着有义链的序列阅读(即“正向”序列阅读)以及一个或多个沿着其互补链的序列阅读(即“反向”序列阅读)。当沿着同一条链产生多个序列阅读时,首先通过使用针对序列阅读的不同位置而选定的引物扩增样品分子来产生单独的模板。在图4A中阐述了此概念,其中采用引物(404、406和408)在单一反应中产生扩增子(分别为410、412和414)。此类扩增可在同一反应中或单独的反应中进行。在一个方面,每当采用PCR时,都使用单独的扩增反应来产生单独的模板,该单独的模板继而合并在一起并用于产生沿着同一条链的多个序列阅读。后一方法对于避免需要平衡引物浓度(和/或其他反应参数)以确保多个模板的均衡扩增(本文中有时称为“平衡扩增”或“无偏差扩增”)来说是优选的。图4B至图4C中图示了在单独的反应中模板的产生。其中含有IgH的样品(400)被分成三份(470、472和474),将其加入到使用J区引物(401)和V区引物(分别为404、406和408)的单独PCR中,以产生扩增子(分别为420、422和424)。后述的扩增子随后在使用P5和P7引物的二次PCR(480)中合并(478),以制备用于桥式PCR和在Illumina GA测序仪或类似仪器上进行测序的模板(482)。
本发明的序列阅读可能有很多不同的长度,这部分地取决于所采用的测序技术。例如,对于某些技术,在其实施过程中可能要有一些权衡,例如:(i)每个模板的序列阅读的数目和长度,和(ii)测序运行的成本和持续时间。在一个实施方案中,序列阅读在20到400个核苷酸的范围内;在另一实施方案中,序列阅读在30到200个核苷酸的范围内;在又一实施方案中,序列阅读在30到120个核苷酸的范围内。在一个实施方案中,为了确定每个克隆型的序列要产生1至4个序列阅读;在另一实施方案中,为了确定每个克隆型的序列要产生2至4个序列阅读;而在另一实施方案中,为了确定每个克隆型的序列要产生2至3个序列阅读。在上述实施方案中,所给出的数值不包括用于鉴别来自不同个体的样品的序列阅读。在下述实施方案中所用的各种序列阅读的长度还可基于试图由阅读所捕获的信息而改变;例如,序列阅读的起始位置和长度可以设计成提供NDN区的长度及其核苷酸序列;因此,选择跨越整个NDN区的序列阅读。在其他方面,组合地(而不是单独地)包含D区和/或NDN区的一个或多个序列阅读是足够的。
如上文所述,可以使用多种算法将序列阅读转化为克隆型。在一个实施方案中,部分地通过将序列阅读与一个或者多个V区参考序列和一个或多个J区参考序列进行比对,以及部分地通过无需比对参考序列的碱基确定,比如在高度可变的NDN区中,来确定克隆型的序列。多种比对算法可以应用于序列阅读和参考序列。例如,关于选择比对方法的指南可参见Batzoglou,Briefings in Bioinformatics,6:6-22(2005),通过引用将其并入。在一个方面,每当将V阅读或C阅读(如上所述)与V区和J区参考序列进行比对时,都采用树搜索算法,例如,如在Gusfield(上文引用)和Cormen等人,Introduction toAlgorithms,第三版(The MIT Press,2009)中概括描述的。
在另一实施方案中,至少一个正向阅读的末端和至少一个反向阅读的末端在重叠区(例如图3A中的308)内重叠,使得这两个阅读的碱基彼此是反向互补关系。因此,例如,如果重叠区中的正向阅读是“5’-acgttgc”,则与之处于反向互补关系的反向阅读在同一重叠区内为“5'-gcaacgt”。在一个方面,至少部分地由这种反向互补关系来确定此重叠区内的碱基。也就是说,如果保持两个序列阅读间的反向互补关系,或与之相一致,那么预期重叠区内的碱基判定(或相关的质量评分)的可能性会升高。在一个方面,由至少一个起始于其J区并且朝着与其相关的V区方向延伸的序列阅读(本文称为“C阅读”(304))和至少一个起始于其V区并且朝着与其相关的J区方向延伸的序列阅读(本文称为“V阅读”(306))确定TCRβ和IgH链的克隆型(如图3A所示)。如图3A所示,重叠区(308)可包含或不包含NDN区(315)。重叠区(308)可以完全处于J区中、完全处于NDN区中、完全处于V区中,或其可包含J区-NDN区边界或V区-NDN区边界,或这两个边界(如图3A所示)。通常,通过在合成测序反应中使用聚合酶延伸测序引物,例如图3A中的(302)和(310)而产生这样的序列阅读,例如,Metzger,Nature Reviews Genetics,11:31-46(2010);Fuller等人,NatureBiotechnology,27:1013-1023(2009)。预先确定针对引物(302)和(310)的结合位点,以便它们可提供用于序列阅读的最初比对和分析的起点或锚定点。在一个实施方案中,定位C阅读以使其包含TCRβ或IgH链的D区和/或NDN区,并包括相邻的V区的一部分,例如如图3A和图3B所示。在一个方面,利用V区中的V阅读和C阅读的重叠来将这两个阅读相互比对。在其他实施方案中,这样的序列阅读的比对是不必要的,例如对于TCRβ链,以使得V阅读的长度可能仅足以鉴别克隆型的特定V区。这后一方案在图3B中显示。序列阅读(330)用于鉴别V区,需要或不需要与另一序列阅读重叠,并且另一序列阅读(332)横贯NDN区并用于确定其序列。序列阅读(332)延伸到V区内的部分(334)用于将序列阅读(332)的序列信息与序列阅读(330)的序列信息相关联以确定克隆型。对于某些测序方法,诸如逐个碱基的方法,如Solexa测序法,通过最小化分析中的测序循环数可降低测序运行时间和试剂成本。任选地,如图3A所示,产生具有样品标签(312)的扩增子(300)来区分来源于不同生物样品(例如不同患者)的克隆型。可以通过使引物与引物结合区(316)退火,并将其延伸(314)以生成跨过标签(312)的序列阅读来鉴别样品标签(312),从该序列阅读解码样品标签(312)。
至少两个因素使得分析IgH链比分析TCRβ链更具挑战性,这两个因素为:i)体细胞突变的存在使得定位(mapping)或比对更加困难,以及ii)NDN区较大使得通常不可能将V区段的一部分定位到C阅读上。在本发明的一个方面,通过使用多个引物组产生V阅读来克服该问题,这些引物位于沿V区的不同位置,因此,优选地,这些引物结合位点不重叠并且间隔开来,而且至少一个引物结合位点邻近NDN区,例如在一个实施方案中,距V-NDN连接处5至50个碱基,或者在另一实施方案中,距V-NDN连接处10至50个碱基。多个引物组的冗余度使得由于一个或两个引物不具有受到体细胞突变影响的结合位点而无法检测克隆型的风险最小化。此外,至少一个邻近NDN区的引物结合位点的存在使得V阅读将更有可能与C阅读重叠,并因此有效地延伸C阅读的长度。这允许产生连续序列,该连续序列跨越所有大小的NDN区并且还可以基本上定位位于NDN区两侧上的整个V区和J区。用于执行该方案的实施方案如图4A和图4D所示。在图4A中,含有IgH链(400)的样品通过对每条链产生多个扩增子而进行测序,该扩增子的产生是通过利用单组J区引物(401)以及多组(显示的是3组)V区(402)引物(404、406、408)扩增这些链以产生多个嵌套扩增子(例如,410、412、414),所有嵌套扩增子都包含相同的NDN区并具有连续涵盖了V区(402)的较大部分(411、413、415)的不同长度。嵌套组中的成员可在测序后通过记录它们各自的NDN区、J区和/或C区的身份(或实质身份)而归类到一起,从而允许比具有有限的序列阅读长度和/或序列质量的测序平台的情况能重建更长的V(D)J区段。在一个实施方案中,所述多个引物组可以为2到5个。在另一实施方案中,所述多个为2到3个;并且在又一实施方案中所述多个为3个。多个引物中引物的浓度和位置可以变化很大。V区引物的浓度可以相同或不相同。在一个实施方案中,最接近NDN区的引物比所述多个引物中的其他引物具有更高的浓度,例如,以便确保在所得的扩增子中出现含有NDN区的扩增子。在一个使用3个引物的具体实施方案中,采用了60:20:20的浓度比。一个或多个邻近NDN区(444)的引物(例如图4D中的435和437)可用于产生与利用J区引物(432)产生的序列阅读(442)重叠的一个或多个序列阅读(例如434和436),从而提高重叠区(440)中碱基判定的质量。来自所述多个引物的序列阅读可与或不与邻近的下游引物结合位点和/或邻近的下游序列阅读重叠。在一个实施方案中,靠近NDN区(例如436和438)的序列阅读可用于鉴别与克隆型相关的特定V区。这样的多个引物降低了万一一个引物结合位点在免疫球蛋白发育过程中超突变而导致扩增不完全或扩增失败的可能性。它还提高了由V区超突变引入的多样性在克隆型序列中被捕获的可能性。可进行二次PCR以制备用于测序的嵌套扩增子,例如,通过利用所示的P5(401)和P7(404、406、408)引物扩增以产生扩增子(420、422和424),这些扩增子可以作为单分子分布在固体表面上,其中通过桥式PCR或者类似的技术将它们进一步扩增。
如图4E所示,可通过利用侧翼J区和V区的密码子结构来改善NDN区(尤其是IgH链的NDN区)的碱基判定。(如本文中所用的“密码子结构”意指NDN区以外的TCR或BCR转录物区段或基因(例如V区、J区等)的天然阅读框的密码子。)示出了扩增子(450)——其为图4B的扩增子的放大图,同时在上方示出了C阅读(442)和相邻的V阅读(434)的相对位置,并且在下方分别示出了V区(430)和J区(446)的密码子结构(452和454)。根据本发明此方面,在通过与V和J参考序列进行常规比对而鉴别密码子结构(452和454)以后,使用序列阅读(434)和(442)从J区(446)向V区(430)以及按相反方向从V区(430)向J区(446)一次一个碱基地移动来判定(或鉴别)NDN区(456)中的碱基。在正常的生物学条件下,只有具有从V区穿过NDN区到达J区的符合读框的密码子的重组TCR或IgH序列才表达为蛋白质。也就是说,在体细胞突变产生的变体中,只有J区和V区的密码框彼此符合读框并且穿过NDN区仍然符合读框的变体才会被表达。(这里由参考序列确定V和J区的正确读框)。如果基于一个或多个低质量的碱基判定而鉴别不符合读框的序列,那么相应的克隆型就会被标记为进行重新评估或标记为潜在的疾病相关异常。如果所鉴别的序列符合读框并且基于高质量的碱基判定,则相应克隆型已得到正确判定的可信度较高。因此,在一个方面,本发明包括一种由双向序列阅读来确定基于V(D)J的克隆型的方法,该方法包括以下步骤:(a)产生至少一个起始于J区并延伸至NDN区内的J区序列阅读,以及至少一个起始于V区并向NDN区延伸的V区序列阅读,以使得J区序列阅读与V区序列阅读在重叠区内重叠,并且J区和V区各自具有密码子结构;(b)确定延伸至NDN区内的J区密码子结构是否与向NDN区延伸的V区密码子结构符合读框。在进一步的实施方案中,该产生步骤包括产生至少一个起始于V区并通过NDN区延伸到J区的V区序列阅读,以使得J区序列阅读和V区序列阅读在重叠区内重叠。
在一些实施方案中,可如下确定已经历体细胞超突变的基于IgH的克隆型。体细胞突变被定义为与(相关区段,通常为V、J或C的)参考序列的相应碱基不同并且在统计学上显著量的阅读中存在的测序碱基。在一个实施方案中,C阅读可用于找到相对于定位的J区段的体细胞突变,且同样地V阅读用于V区段。只使用那些或是直接定位到J或V区段或是处于克隆型延伸内可达NDN边界的C阅读和V阅读的片段。用这种方式可以避开NDN区,而且之前用于克隆型确定的相同“序列信息”不用于发现突变(以避免错误地将那些实际上只是不同的重组NDN区的核苷酸归类为突变)。对于每种区段类型,定位的区段(主要的等位基因)用作支架,并且考虑在阅读定位阶段已经定位到此等位基因的所有阅读。针对体细胞突变,分析其中已定位了至少一个阅读的参考序列的每个位置。在一个实施方案中,接受非参考碱基作为有效突变的标准包括以下各项:1)至少N个具有给定的突变碱基的阅读,2)至少具有给定分数N/M的阅读(其中M是在此碱基位置定位的阅读的总数),以及3)统计截止值(statistical cut),其基于二项式分布、在突变碱基处N个阅读的平均Q评分以及具有非突变碱基的阅读数(M-N)。优选地,选择上述参数以使得每个克隆型的突变的错误发现率低于1/1000,更优选地,低于1/10000。
基于序列标签的方法是上述用于从序列数据构建克隆型的方法的替代方法。序列数据通常包含来自用于分析免疫分子的DNA测序仪的序列阅读的庞大集合,即碱基判定序列和相关的质量评分。构建克隆型谱的关键挑战是能够快速准确地将含有真正差异的序列阅读与含有来自非生物来源(诸如提取步骤、测序化学、扩增化学等)的错误的序列阅读区别开来。在用于产生克隆型的一种方法中,在扩增或测序之前,可将独特的序列标签附接至样品中的每个克隆型上,以协助确定此类偶联物的序列阅读是否来源于相同的原始克隆型。序列标签可附接至体细胞重组的核酸分子以形成标签-分子偶联物,其中该偶联物的每个重组核酸具有独特的序列标签。通常在从含有T细胞和/或B细胞的样品中提取核酸分子之后进行这样的附接。优选地,如通过诸如Hamming距离等常规的序列距离测量所确定的,此类独特的序列标签彼此之间差异很大;因此,在标签-分子偶联物中的每个序列标签的拷贝保持距其原始标签序列的距离比距任何其他独特标签序列的原始标签序列的距离更近,即使存在由本发明的步骤引入的高比率的测序或扩增错误。例如,如果使得16-mer序列标签,并且在一组克隆型上的每个这样的标签与在所述克隆型上的每个其他序列标签之间具有至少50%即8个核苷酸的Hamming距离,则对于序列标签的误读(和具有错误序列标签的克隆型的序列阅读的不正确分组),至少需要8个测序或扩增错误才能将一个这样的标签转换成另一个。在一个实施方案中,选择序列标签以便在附接至重组核酸分子上形成标签-分子偶联物之后,该标签-分子偶联物的标签之间的Hamming距离为此类序列标签总长度的至少25%的数值(即,每个序列标签在序列上与每个其他此类标签具有其核苷酸的至少25%的不同);在另一个实施方案中,此类序列标签之间的Hamming距离为此类序列标签总长度的至少50%的数值。
在一个方面,上述方法通过下列步骤实施:(a)从个体获得含有T细胞和/或B细胞的样品;(b)将序列标签附接至T细胞受体基因或者T细胞和/或B细胞的免疫球蛋白基因的重组核酸的分子上以形成标签-分子偶联物,其中基本上标签-分子偶联物的每个分子都具有独特的序列标签;(c)扩增该标签-分子偶联物;(d)对该标签-分子偶联物进行测序;以及(e)比对类似序列标签的序列阅读以确定对应于组库的相同克隆型的序列阅读。如下文更充分描述的,使用常规技术获得含有B细胞或T细胞的样品。在附接序列标签的步骤中,优选序列标签不仅是独特的而且彼此间的差异足够大以使得甚至大量测序或扩增错误将一个序列标签转换成另一个的可能性接近于0。附接序列标签之后,标签-分子偶联物的扩增对大多数测序技术来说都是必要的;然而,每当采用单分子测序技术时,扩增步骤都是任选的。单分子测序技术包括但不限于单分子实时(SMRT)测序、纳米孔测序等,例如:美国专利7,313,308;8,153,375;7,907,800;7,960,116;8,137,569;Manrao等人,Nature Biotechnology,4(8):2685-2693(2012);等等。
在另一方面,本发明包括通过对独特序列标签进行计数来确定样品中淋巴细胞的数目的方法。即使没有序列标签,TCRβ或IgH基因(特别是那些包含V(D)J区的基因)的克隆型也为淋巴细胞及其克隆提供了独特的标记物。每当从基因组DNA获得重组核酸时,均可通过测序后计数的独特克隆型的数目来估算样品中淋巴细胞的计数。每当存在显著的与相同克隆型相关联的相同淋巴细胞的克隆群体时,该方法就会失效。序列标签的使用克服了这个缺点,并且特别可用于提供在罹患多种淋巴病症如淋巴瘤或白血病的患者中的淋巴细胞计数。根据本发明的一个方面,可使用序列标签来获得样品中淋巴细胞的绝对计数,不论是否存在大的主导克隆,例如对于白血病而言。这样的方法可采用下列步骤实施:(a)从个体获得包含淋巴细胞的样品;(b)将序列标签附接至T细胞受体基因或淋巴细胞的免疫球蛋白基因的重组核酸的分子上以形成标签-分子偶联物,其中基本上该标签-分子偶联物的每个分子都具有独特的序列标签;(c)扩增该标签-分子偶联物;(d)对该标签-分子偶联物进行测序;以及(e)对独特序列标签的数目进行计数以确定样品中淋巴细胞的数目。
在一些实施方案中,通过伴随采样进行标记(labeling bysampling)将序列标签附接至样品的重组核酸分子上,例如,如Brenner等人,美国专利5,846,719;Brenner等人,美国专利7,537,897;Macevicz,国际专利公开WO2005/111242等公开的,这些文献通过引用并入本文。在采样标记的过程中,使用待标记(或独特地标记)的群体的多核苷酸对大得多的群体的序列标签进行采样(通过附接、连接等)。也就是说,如果多核苷酸群体具有K个成员(包括同一多核苷酸的复制物)且序列标签群体具有N个成员,则N>>K。在一个实施方案中,随本发明使用的序列标签群体的大小是样品中克隆型群体的大小的至少10倍;在另一个实施方案中,随本发明使用的序列标签群体的大小是样品中克隆型群体的大小的至少100倍;并且在另一个实施方案中,随本发明使用的序列标签群体的大小是样品中克隆型群体的大小的至少1000倍。在其他实施方案中,选择序列标签群体的大小,使得每当此类克隆型与这样的序列标签群体相组合时,例如在诸如连接反应、扩增反应等附接反应中,基本上样品中的每个克隆型都将具有独特的序列标签。在一些实施方案中,基本上每个克隆型是指至少90%的此类克隆型将具有独特的序列标签;在其他实施方案中,基本上每个克隆型是指至少99%的此类克隆型将具有独特的序列标签;在其他实施方案中,基本上每个克隆型是指至少99.9%的此类克隆型将具有独特的序列标签。在许多组织样品或活检组织中,T细胞或B细胞的数目可以多达或约为一百万个细胞;因此,在采用此类样品的本发明的一些实施方案中,在采样标记的过程中所采用的独特序列标签的数目为至少108个,或者在其他实施方案中为至少109个。
在其中多达一百万个克隆型进行采样标记的此类实施方案中,通过在合成反应的每个附加步骤中使全部四种核苷酸前体的混合物发生反应进行组合合成可有效地产生大的序列标签组,例如,如在通过引用并入本文的Church,美国专利5,149,625中所公开的。结果是一组具有“N1N2…Nk”结构的序列标签,其中每个Ni=A、C、G或T且k为标签中核苷酸的数目。在通过这样的组合合成制备的一组序列标签中的序列标签的数目是4k。因此,k至少是14或k在约14至18的范围内的一组这样的序列标签适合于通过采样标记将序列标签附接至106个成员的分子群体。
可利用多种不同的附接反应将独特标签附接至样品中的基本上每个克隆型。在一个实施方案中,这样的附接如下实现:将含有重组核酸分子(其继而含有克隆型序列)的样品与序列标签的群体或文库相组合,从而使两个分子群体的成员可随机组合并且成为相关联的或连接的,例如共价地。在此类标签附接反应中,克隆型序列包含线性单链或双链多核苷酸,并且序列标签由诸如扩增引物如PCR引物、连接衔接子、可循环探针、质粒等试剂携带。能够携带序列标签群体的几种这样的试剂公开于Macevicz,美国专利8,137,936;Faham等人,美国专利7,862,999;Landegren等人,美国专利8,053,188;Unrau和Deugau,Gene,145:163-169(1994);Church,美国专利5,149,625等,这些文献通过引用并入本文。
TCR组库分析
在该实例中,分析TCRβ链。该分析包括扩增、测序和分析TCRβ序列。一个引物与Cβ1和Cβ2中的共同序列互补,并且存在能够扩增全部48个V区段的34个V引物。Cβ1或Cβ2在自J/C连接点起的位置10和14处彼此不同。针对Cβ1和Cβ2的引物在位置16bp处终止并且对Cβ1或Cβ2没有偏向性。这34个V引物由通过引用并入本文的Van Dongen等人的美国专利公开2006/0234234中公开的原始的一组引物修饰而成。经修饰的引物公开于Faham等人,美国专利公开2010/0151471中,其通过引用并入本文。
使用Illumina基因组分析仪对由上述引物产生的扩增子进行测序。如图2A至图2B所示,对信使RNA转录物(200)进行两阶段扩增,在第一阶段使用上述引物而第二阶段加入用于桥式扩增和测序的常用引物。如图2A所示,通过在一侧使用20bp引物(202)进行初次PCR,该引物的3’末端距J/C连接点(204)为16个碱基并且与Cβ1(203)及Cβ2的两个等位基因完全互补。在RNA转录物(200)的V区(206)中,提供引物组(212),其包含与不同V区序列(在一个实施方案中为34个)互补的引物序列。组(212)的引物还包含非互补尾部(214),该尾部产生具有对于P7引物(220)为特异性的引物结合位点(218)的扩增子(216)。在常规的多重PCR之后,形成扩增子(216),该扩增子包含mRNA转录物的J(D)V区(206、208和210)的高度多样性部分和用于二次扩增的共同引物结合位点(203和218),以便添加样品标签(221)和引物(220和222)以供通过桥式PCR形成聚簇。在二次PCR中,在模板的同侧,使用引物(图2B中的222,在本文中称为“C10-17-P5”),该引物在其3’末端具有最靠近J/C连接点的10个碱基的序列,随后为具有自J/C连接点起的位置15-31的序列的17bp,随后为P5序列(224),P5序列在Solexa测序中在通过桥式PCR形成聚簇中起作用。(当C10-17-P5引物(222)与从第一PCR产生的模板退火时,由于引物与最接近J/C连接点的10个碱基和自J/C连接点起的位置15-31处的碱基的序列杂交,在模板中产生4bp的环(位置11-14)。位置11-14的成环消除了携带Cβ1或Cβ2的模板的差异扩增。然后,使用引物进行测序,该引物与最接近J/C连接点的10个碱基和自J/C连接点起的位置15-31处的碱基的序列互补(该引物被称为C’)。C10-17-P5引物可被HPLC纯化,以确保所有经扩增的材料都具有在聚簇形成中能够有效使用的完整末端。)
在图2A中,V引物(212)上的突出端的长度优选为14bp。较短的突出端(214)有助于初次PCR。或者,为了进行二次PCR,在初次PCR中使用V引物中的尽可能长的突出端,因为二次PCR将从该序列引发。研究了支持高效二次PCR的突出端(214)的最小大小。制备两个系列的V引物(针对两个不同的V区段),该引物具有以2bp的步级为10到30bp的突出端大小。使用合适的合成序列,利用该系列中的每个引物进行第一PCR并且进行凝胶电泳以显示扩增的全部。
如图2A所示,初次PCR使用34个不同的V引物(212),该V引物与RNA模板(200)的V区(206)退火,并且在5’尾上含有共同的14bp突出端。该14bp是Illumina测序引物之一的部分序列(称为Read2引物)。同一侧的二次扩增引物(220)包括P7序列、标签(221)和Read2引物序列(223)(该引物被称为Read2_tagX_P7)。P7序列用于聚簇形成。Read2引物及其互补序列用于分别对V区段和标签进行测序。产生一组96个这样的引物,它们具有从1到96编号的标签(参见下文)。这些引物经HPLC纯化,以确保所有扩增的材料都具有可在聚簇形成中有效使用的完整的末端。
如上所述,第二阶段引物C-10-17-P5(图2B中的222)已经打断了与第一阶段PCR中产生的模板的同源性。已经验证了使用该引物的扩增效率。C-10-17-P5的一个替代引物,被称为CsegP5,与第一阶段C引物和携带P5的5’尾具有完美同源性。通过进行实时PCR来比较使用C-10-17-P5和CsegP5在扩增第一阶段PCR模板中的效率。在数次重复中发现,使用C-10-17-P5引物的PCR与使用CsegP5引物的PCR相比在效率上只有很小的差异或没有差异。
图2A至图2C所示的两阶段扩增产生的扩增子(230)具有如图2C所示的Illumina测序仪通常使用的结构。与分子的最远部分退火的两条引物,Illumina引物P5和P7,用于分子的固相扩增(聚簇形成)。每个分子进行三次序列阅读。使用C’引物进行100bp的第一次阅读,该引物具有适合于Illumina测序过程的解链温度。第二次阅读只有6bp长,并且只用于鉴别样品标签的目的。它是使用由制造商(Illumina)提供的标签引物产生的。最后的阅读为同样由制造商(Illumina)提供的Read2引物。使用该引物,以第一PCR V引物序列开始而产生在V区段中的100bp阅读。
尽管已结合几个特定的示例性实施方案对本发明进行了描述,但本领域技术人员将会认识到,在不脱离本发明的精神和范围的情况下可对其作出许多改变。除了以上所讨论的那些,本发明还适用于各种传感器实施及其他主题。
定义
除非在本文中另外明确地定义,本文中使用的核酸化学、生物化学、遗传学和分子生物学的术语和符号遵循本领域中的标准论文和文献,例如,Kornberg和Baker,DNA Replication,第二版(W.H.Freeman,New York,1992);Lehninger,Biochemistry,第二版(Worth Publishers,New York,1975);Strachan和Read,Human Molecular Genetics,第二版(Wiley-Liss,New York,1999);Abbas等人,Cellular and MolecularImmunology,第六版(Saunders,2007)。
“比对”是指一种基于一些序列距离测量值将测试序列如序列阅读与一个或多个参考序列进行比较以确定哪个参考序列或参考序列的哪部分最为接近的方法。比对核苷酸序列的一种示例性方法是Smith Waterman算法。距离测量值可包括Hamming距离、Levenshtein距离等。距离测量值可包括与被比较序列的核苷酸的质量值相关的组分。
“扩增子”是指多核苷酸扩增反应的产物;即,多核苷酸的克隆群体,其可以是单链或双链的,是从一种或多种起始序列复制而成的。所述一种或多种起始序列可以是相同序列的一个或多个拷贝,或者它们可以是不同序列的混合物。优选地,通过单一起始序列的扩增形成扩增子。可以通过多种扩增反应(其产物包含一种或多种起始或目标核酸的复制物)产生扩增子。在一个方面,产生扩增子的扩增反应是“模板驱动的”,因为反应物(或者是核苷酸或者是寡核苷酸)的碱基配对在产生反应产物所需的模板多核苷酸中具有互补序列。在一个方面,模板驱动的反应是使用核酸聚合酶的引物延伸或使用核酸连接酶的寡核苷酸连接。此类反应包括但不限于聚合酶链式反应(PCR)、线性聚合酶反应、基于核酸序列的扩增(NASBA)、滚环扩增等,这些反应公开于下列通过引用并入本文的参考文献中:Mullis等人,美国专利4,683,195;4,965,188;4,683,202;4,800,159(PCR);Gelfand等人,美国专利5,210,015(使用"taqman"探针的实时PCR);Wittwer等人,美国专利6,174,670;Kacian等人,美国专利5,399,491(“NASBA”);Lizardi,美国专利5,854,033;Aono等人,日本专利公开JP 4-262799(滚环扩增);等等。在一个方面,通过PCR产生本发明的扩增子。如果可以获得允许随着扩增反应的进行测量反应产物的检测化学,则扩增反应可以是“实时”扩增,例如,下面所述的“实时PCR”或Leone等人,Nucleic Acids Research,26:2150-2155(1998)等文献中所述的“实时NASBA”。如本文所用的,术语“扩增”是指进行扩增反应。“反应混合物”是指含有进行反应所必需的所有反应物的溶液,其可以包括但不限于,在反应期间将pH维持在选定水平的缓冲剂、盐、辅因子、清除剂等。
“克隆型”是指编码T细胞受体(TCR)或B细胞受体(BCR)的T细胞或B细胞的重组核苷酸序列或其部分。在一个方面,个体的淋巴细胞群体的所有独特克隆型的集合是这种群体的组库,例如,Arstila等人,Science,286:958-961(1999);Yassai等人,Immunogenetics,61:493-502(2009);Kedzierska等人,Mol.Immunol.,45(3):607-618(2008);等等。如本文所用的,“克隆型谱”或“组库谱”是T细胞和/或B细胞的样品(如包含此类细胞的外周血样品)的克隆型的列表,其包括组库的基本上全部的克隆型和它们的相对丰度。“克隆型谱”、“组库谱”和“组库”在此可以互换使用。(即,下面更充分讨论的术语“组库”是指从淋巴细胞的样品测定的组库)。在本发明的一个方面,克隆型包含免疫球蛋白重链(IgH)或TCRβ链的部分。在本发明的其他方面,克隆型可以基于其他重组分子,如免疫球蛋白轻链或TCRα链,或其部分。
“互补决定区”(CDR)是指免疫球蛋白(即,抗体)或T细胞受体的区域,在该区域中该分子与抗原的构象互补,从而决定分子的特异性,并且与特定的抗原接触。T细胞受体和免疫球蛋白各自具有三个CDR:CDR1和CDR2见于可变(V)域中,而CDR3包括V的一部分、全部的多样(D)(仅重链)和连接(J)域,以及恒定(C)域的一部分。
在参照序列和另一种序列(“比较序列”)的比较中使用的“%同源”、“%相同”或类似术语是指在两种序列之间的最佳比对中,比较序列在等于所示百分比的多个亚单位位置处与参照序列相同,对于多核苷酸比较而言该亚单位是核苷酸,或者对于多肽比较而言该亚单位是氨基酸。如本文所用的,所比较的序列的“最佳比对”是使亚单位之间的匹配最大化并且使构建比对中采用的缺口的数目最小化的比对。可以用商业上可获得的算法实现,如Needleman和Wunsch,J.Mol.Biol.,48:443-453(1970)所述的算法(Wisconsin序列分析包的“GAP”程序,Genetics Computer Group,Madison,WI)或类似算法,来确定同一性百分比。本领域中用于构建比对和计算同一性百分比或其他相似性度量的其他软件包包括基于Smith和Waterman,Advances in AppliedMathematics,2:482-489(1981)的算法的“BestFit”程序(Wisconsin序列分析包,Genetics Computer Group,Madison,Wl)。换言之,例如,为了获得具有与参照核苷酸序列至少95%相同的核苷酸序列的多核苷酸,参照序列中最高达5%的核苷酸可以被删除或者被置换为另一种核苷酸,或者可以将最高占参照序列中核苷酸总数的5%的多个核苷酸插入参照序列中。
“流式系统”是指如下的任何仪器或设备:其(i)能够约束粒子或细胞以沿着流体流中的共线路径移动经过或穿过一个或多个收集与所述粒子或细胞相关的多参数数据的检测站,且(ii)能够基于所收集的多参数数据列举或分选此类粒子。流式系统具有很多种形式并且使用很多种技术来实现此类功能,如通过引用并入本文的下列参考文献所示例的:Shapiro,Practical Flow Cytometry,第四版(Wiley-Liss,2003),Bonner等人,Rev Sci Instruments,43404(1972),Huh等人,PhysiolMeas,26R73-98(2005),Ateya等人,Anal Bioanal Chem,3911485-1498(2008),Bohm等人,美国专利7,157,274;Wang等人,美国专利7,068,874;等等。流式系统可包括具有组件的流体系统,其中样品流体流被插入至鞘流体流中从而约束样品流体中的粒子或细胞以沿共线路径移动,这可发生在小池、用作检测站的其他腔室或在喷嘴或其他结构中,用于产生空气中的流(stream-in-air)喷射,然后其可用电操控,例如,正如具有荧光激活的细胞分选(FACS)仪器一样。流式系统、流式细胞仪和流式分选仪及其常规应用公开于一个或多个下列参考文献中:Robinson等人(编者),Current Protocols in Cytometry(John Wiley&Sons,2007);Shapiro,Practical Flow Cytometry,第四版(Wiley-Liss,2003);Owens等人编,Flow Cytometry Principles forClinical Laboratory Practice:Quality Assurance for QuantitativeImmunophenotyping(Wiley-Liss,1994);Ormerod编,Flow Cytometry:A Practical Approach(Oxford University Press,2000)等,这些文献通过引用并入本文。
“聚合酶链式反应”或“PCR”是指通过DNA互补链的同时引物延伸而体外扩增特定DNA序列的反应。换言之,PCR是用于制备侧翼为引物结合位点的目标核酸的多个拷贝或复制物的反应,这样的反应包括以下步骤的一个或多个重复:(i)对目标核酸进行变性,(ii)将引物与引物结合位点退火,以及(iii)在核苷三磷酸的存在下,由核酸聚合酶延伸该引物。通常,在热循环仪中通过针对每个步骤优化的不同温度而使该反应进行循环。特定温度、每个步骤的持续时间和步骤之间的变化速率取决于本领域普通技术人员公知的许多因素,例如以下参考文献中所例举的:McPherson等人编,PCR:A Practical Approach andPCR2:A Practical Approach(IRL Press,Oxford,分别为1991年和1995年)。例如,在使用Taq DNA聚合酶的常规PCR中,双链目标核酸可以在>90℃的温度下变性,在50-75℃的温度下引物退火,而在72-78℃的温度下引物延伸。术语“PCR”包括该反应的衍生形式,包括但不限于:RT-PCR、实时PCR、巢式PCR、定量PCR、多重PCR等。反应体积从几百纳升,例如200nL,至几百μL,例如200μL。“逆转录PCR”或“RT-PCR”是指逆转录反应之后的PCR,该逆转录反应将目标RNA转化为互补单链DNA,然后将其扩增,例如,Tecott等人,美国专利5,168,038,该专利通过引用并入本文。“实时PCR”是指随着反应的进行对反应产物即扩增子的量进行监测的PCR。实时PCR有许多形式,它们的不同主要在于用于监测反应产物的检测化学,例如Gelfand等人,美国专利5,210,015(“taqman”);Wittwer等人,美国专利6,174,670和6,569,627(嵌入染料);Tyagi等人,美国专利5,925,517(分子信标);上述专利通过引用并入本文。Mackay等人,Nucleic AcidsResearch,30:1292-1305(2002)(也通过引用并入本文)中综述了用于实时PCR的检测化学。“巢式PCR”是指一种两阶段PCR,其中第一PCR的扩增子变为使用一组新引物的第二PCR的样品,该新引物中的至少一种与第一扩增子的内部位置结合。如本文所用的,关于巢式扩增反应的“初级引物”是指用于产生第一扩增子的引物,“次级引物”是指用于产生第二或巢式扩增子的一种或多种引物。“多重PCR”是指在同一反应混合物中同时进行多种目标序列(或单一目标序列和一种或多种参照序列)的PCR,例如Bernard等人,Anal.Biochem.,273:221-228(1999)(双色实时PCR)。通常,针对每个被扩增的序列采用不同的引物组。通常,在多重PCR中目标序列的数目为2-50个,或2-40个,或2-30个。“定量PCR”是指为测量样品或标本中一种或多种特定目标序列的丰度而设计的PCR。定量PCR包括此类目标序列的绝对定量和相对定量。使用可以与目标序列分开或一起测定的一种或多种参照序列或内部标准进行定量测量。参照序列对于样品或标本来说可以是内源的或外源的,而在后一种情况下,可以包含一种或多种竞争模板。典型的内源性参照序列包括以下基因的转录物的区段:β-肌动蛋白、GAPDH、β2-微球蛋白、核糖体RNA等。用于定量PCR的技术是本领域普通技术人员公知的,如通过引用并入本文的下列参考文献所例举的:Freeman等人,Biotechniques,26:112-126(1999);Becker-Andre等人,Nucleic Acids Research,17:9437-9447(1989);Zimmerman等人,Biotechniques,21:268-279(1996);Diviacco等人,Gene,122:3013-3020(1992);Becker-Andre等人,Nucleic AcidsResearch,17:9437-9446(1989);等等。
“引物”是指天然的或合成的寡核苷酸,其在与多核苷酸模板形成双链体后能够充当核酸合成起始点,并且沿模板从其3'末端延伸,从而形成延伸的双链体。通常使用核酸聚合酶如DNA或RNA聚合酶进行引物的延伸。延伸过程中添加的核苷酸的顺序取决于模板多核苷酸的序列。通常通过DNA聚合酶来延伸引物。引物通常具有14-40个核苷酸或18-36个核苷酸的长度。引物用于许多核酸扩增反应,例如,使用单一引物的线性扩增反应,或采用两种或更多种引物的聚合酶链式反应。关于针对特定应用选择引物的长度和序列的指导是本领域普通技术人员公知的,如通过引用并入本文的下列参考文献所证明的:Dieffenbach编,PCR Primer:A Laboratory Manual,第二版(ColdSpring Harbor Press,New York,2003)。
“质量评分”是指在特定序列位置处的碱基指定为正确的概率的度量。针对特定情况,例如,针对由于不同的测序化学、检测系统、碱基判定算法等而判定的碱基来计算质量评分的多种方法是本领域普通技术人员公知的。通常,质量评分值与正确碱基判定的概率单调相关。例如,质量评分或Q为10可能意味着碱基被正确判定的几率为90%,Q为20可能意味着碱基被正确判定的几率为99%,等等。对于一些测序平台,尤其是使用合成测序化学的平台,平均质量评分作为序列阅读长度的函数而降低,使得在序列阅读开始时的质量评分高于在序列阅读结束时的质量评分,这样的下降是由于诸如不完全延伸、推进延伸(carry forward extension)、模板损失、聚合酶损失、加帽失败、脱保护失败等现象引起的。
“组库”或“免疫组库”是指在个体的淋巴细胞群体中分别编码T细胞受体(TCR)或B细胞受体(BCR)或其片段的一组独特的重组核苷酸序列,其中对于该群体的基本上所有淋巴细胞,该组的核苷酸序列与独特的淋巴细胞或它们的克隆亚群具有一一对应关系。在一个方面,从一种或多种组织样品如一种或多种血液样品中采集用来确定组库的淋巴细胞群体。组库的成员核苷酸序列在本文中被称为“克隆型”。在一个方面,组库的克隆型包括在TCR或BCR发育期间经历体细胞重组的T细胞或B细胞群体所共有的任何核酸区段,包括其正常或异常的(例如,与癌症相关的)前体分子,包括但不限于以下任何一种:免疫球蛋白重链(IgH)或其亚组(例如,IgH可变区、CDR3区,等等)、不完整的IgH分子、免疫球蛋白轻链或其亚组(例如,可变区、CDR区,等等)、T细胞受体α链或其亚组、T细胞受体β链或其亚组(例如,可变区、CDR3、V(D)J区,等等)、CDR(包括TCR或BCR的CDR1、CDR2或CDR3,或这些CDR的组合)、TCR或BCR的V(D)J区、IgH可变区的超突变区域,等等。在一个方面,选择定义组库的克隆型的核酸区段,以使得它们的多样性(即,在该组中独特的核酸序列的数目)足够大,以便个体中基本上每个T细胞或B细胞或其克隆都携带该组库的独特的核酸序列。即,根据本发明,使用者可以为了定义克隆型而选择编码TCR或BCR的重组核酸的特定区段或区域,该特定区段或区域不反映T细胞或B细胞群体的全部多样性;然而,优选地定义克隆型,使得它们反映衍生出它们的T细胞和/或B细胞群体的多样性。即,优选地,样品的每个不同的克隆具有不同的克隆型。(当然,在一些应用中,在一个克隆型谱中将有一种或多种特定克隆型的多个拷贝,如在来自白血病或淋巴瘤患者的样品的情况下)。在本发明的其他方面,对应于组库的淋巴细胞群体可以是循环B细胞,或者可以是循环T细胞,或者可以是上述群体中任一种的亚群,包括但不限于CD4+T细胞,或CD8+T细胞,或由细胞表面标记物所定义的其他亚群,等等。可以通过从特定组织例如骨髓或淋巴结等中采集样品,或者通过基于一种或多种细胞表面标记物、大小、形态等从样品(如外周血)中分选或富集细胞,来获得这样的亚群。在另外其他方面,对应于组库的淋巴细胞群体可以来源于病变组织,如肿瘤组织、被感染的组织等。在一个实施方案中,包含人TCRβ链或其片段的组库包含范围为0.1x106-1.8x106或0.5x106-1.5x106或0.8x106-1.2x106的独特核苷酸序列数目。在另一个实施方案中,包含人IgH链或其片段的组库包含范围为0.1x106-1.8x106或0.5x106-1.5x106或0.8x106-1.2x106的独特核苷酸序列数目。在一个特定实施方案中,本发明的组库包含一组编码IgH链的V(D)J区的基本上所有区段的核苷酸序列。在一个方面,如本文所用的“基本上所有”是指每个区段具有0.001%或更高的相对丰度;或者在另一个方面,如本文所用的“基本上所有”是指每个区段具有0.0001%或更高的相对丰度。在另一个特定实施方案中,本发明的组库包含一组编码TCRβ链的V(D)J区的基本上所有区段的核苷酸序列。在另一个实施方案中,本发明的组库包含一组具有25-200个核苷酸的长度并且包括TCRβ链的V、D和J区的区段的核苷酸序列。在另一个实施方案中,本发明的组库包含一组具有25-200个核苷酸的长度并且包括IgH链的V、D和J区的区段的核苷酸序列。在另一个实施方案中,本发明的组库包含基本上等于表达独特IgH链的淋巴细胞数目的独特核苷酸序列数目。在另一个实施方案中,本发明的组库包含基本上等于表达独特TCRβ链的淋巴细胞数目的独特核苷酸序列数目。在又一个实施方案中,“基本上等于”是指核苷酸序列的组库有99%的概率将包括0.001%或更高频率的编码由一群个体的每个淋巴细胞所携带或表达的IgH或TCRβ或其部分的核苷酸序列。在又一个实施方案中,“基本上等于”是指核苷酸序列的组库有99%的概率将包括以0.0001%或更高的频率存在的编码由每个淋巴细胞所携带或表达的IgH或TCRβ或其部分的核苷酸序列。上述两句中所述的克隆型组在本文中有时被称为表现IgH和/或TCRβ序列的“完全组库”。正如上面所提到的,当测量或产生克隆型谱(或组库谱)时,获得足够大的淋巴细胞样品,使得这样的克隆型谱为特定应用提供合理地准确的组库表现情况。在一个方面,采用包含105-107个淋巴细胞的样品,尤其是当从1-10mL的外周血样品中获得时。
“序列阅读”是指由通过测序技术产生的序列或数据流确定的核苷酸序列,例如,借助于与该技术相关的碱基判定软件,例如来自DNA测序平台的商业供应商的碱基判定软件,作出该确定。序列阅读通常包括针对序列中的每个核苷酸的质量评分。通常,通过例如采用DNA聚合酶或DNA连接酶沿模板核酸延伸引物来进行序列阅读。通过记录与这样的延伸相关联的信号,诸如光、化学(比如pH的变化)或电信号来产生数据。将这样的初始数据转换成序列阅读。
“序列标签”(或“标签”)或“条形码”是指与多核苷酸或模板分子连接并用于在一个反应或一系列反应中鉴别和/或追踪该多核苷酸或模板的寡核苷酸。序列标签可以附接于多核苷酸或模板的3'-或5'-末端,或者它可以插入这样的多核苷酸或模板的内部以形成线性偶联物,该线性偶联物在本文中有时被称为“标记的多核苷酸”或“标记的模板”或“标签-多核苷酸偶联物”、“标签-分子偶联物”等等。序列标签在大小和组成上可能变化很大;下列通过引用并入本文的参考文献提供了关于选择适用于特定实施方案的序列标签组的指导:Brenner,美国专利5,635,400;Brenner和Macevicz,美国专利7,537,897;Brenner等人,Proc.Natl.Acad.Sci.,97:1665-1670(2000);Church等人,欧洲专利公开0303459;Shoemaker等人,Nature Genetics,14:450-456(1996);Morris等人,欧洲专利公开0799897A1;Wallace,美国专利5,981,179;等等。序列标签的长度和组成可能变化很大,并且具体长度和/或组成的选择取决于数种因素,包括但不限于:如何使用标签产生读出,例如通过杂交反应或通过酶反应,如测序;它们是否被标记,例如,用荧光染料等标记;明确地鉴别一组多核苷酸等所需要的可区分的寡核苷酸标签的数目;以及为了确保可靠的鉴别,例如,无交叉杂交或测序错误产生的错误鉴别,一组标签必须如何不同。在一个方面,序列标签可以各自具有分别为2-36个核苷酸,或4-30个核苷酸,或8-20个核苷酸,或6-10个核苷酸的长度。在一个方面,使用成组的序列标签,其中一组中的每个序列标签具有独特的核苷酸序列,该核苷酸序列与同一组的每个其他标签的核苷酸序列有至少两个碱基不同;在另一方面,使用成组的序列标签,其中一组中的每个标签的序列与同一组的每个其他标签的序列有至少三个碱基不同。
“序列树”是指用于代表核苷酸序列的树形数据结构。在一个方面,本发明的树形数据结构是有向根树,其包含不包括循环或周期性路径的节点和边缘。来自本发明的树形数据结构的节点的边缘通常是有序的。节点和/或边缘是可含有值或与值相关的结构。树中的每个节点具有零个或更多个子节点,在该树中子节点按照惯例显示于节点下方。具有子节点的节点被称为子节点的母节点。节点最多具有一个母节点。没有任何子节点的节点被称为叶节点。树中最顶端的节点被称为根节点。作为最顶端的节点,根节点不具有母节点。在该节点处通常开始对树的操作(尽管一些算法开始于叶节点并且逐步发展,在根节点结束)。从根节点通过跟随边缘或链接可到达所有其他节点。