CN105164277B

CN105164277B - 用于评估免疫组库的方法

Info

Publication number: CN105164277B
Application number: CN201480020810.1A
Authority: CN
Inventors: 王春林; 韩建
Original assignee: CB BIOTECHNOLOGIES Inc
Current assignee: CB BIOTECHNOLOGIES Inc
Priority date: 2013-02-11
Filing date: 2014-02-11
Publication date: 2021-05-28
Anticipated expiration: 2034-02-11
Also published as: HK1212735A1; US20160034637A1; CA2900776A1; WO2014124451A1; JP6460343B2; CN105164277A; EP2954070A1; EP2954070B1; EP2954070A4; JP2016506750A; CA2900776C; KR102228488B1; ES2798119T3; KR20150141939A; PT2954070T

Abstract

本文公开了用于扩增来自T细胞群和B细胞群的RNA并且使用所扩增的RNA产物来评估正常或异常免疫响应与例如自身免疫疾病、癌症、糖尿病或心脏病的疾病的发生之间的可能相关性的方法。

Description

用于评估免疫组库的方法

序列表

本申请含有以ASCII格式电子提交且以引用方式整体并入本文中的序列表。所述ASCII拷贝创建于2014年2月5日，命名为15892-0005_SL.txt并且大小为93,776个字节。

相关申请的交叉引用

本申请是名称为“Method for Evaluating an Immunorepertoire”且在2013年2月11日提交的美国临时申请号61/763,451的继续申请并且要求所述美国临时申请的优先权，所述美国临时申请以引用方式并入本文中。

技术领域

本发明涉及识别细胞群中的T细胞受体抗体的方法和使用所述信息测量患者的免疫状态并且预测所述患者可能患哪种疾病的概率的方法。

背景技术

多年来，科学家已知道某些疾病与特定的基因或基因突变相关。然而，遗传原因只解释了在人中诊断的一部分疾病。许多疾病似乎以某种方式与免疫系统对传染因素和环境因素的响应相关，但免疫系统如何在疾病(例如癌症、阿尔茨海默氏病(Alzheimer’sdisease)、肋软骨炎、纤维肌痛、狼疮和其它疾病)中起作用仍然在被确定中。

人基因组包含总数为567到588个的IG(免疫球蛋白)基因和TR(T细胞受体)基因(339到354个IG和228到234个TR)/单倍体基因组，所述基因位于7个主要基因座中。它们包含405到418个V基因、32个D基因、105到109个J基因和25到29个C基因。功能IG基因和TR基因的数量是每个单倍体基因组321到353个。它们包含187到216个V基因、28个D基因、86到88个J基因和20到21个C基因(http：//imgt.cines.fr)。通过这些基因的重排，估计可生成2.5×10⁷种可能的抗体或T细胞受体。

目前为止，已将少量疾病与身体对共同抗原(Prinz，J.等人，Eur.J.Immunol.(1999)29(10)：3360-3368，“Selection of Conserved TCR VDJ Rearrangements inChronic Psoriatic Plaques Indicates a Common Antigen in Psoriasis Vulgaris)和/或对特定VDJ重排(Tamaru，J.等人，Blood(1994)84(3)：708-715，“Hodgkin’s Diseasewith a B-cell Phenotype Often Shows a VDJ Rearrangement and Somatic Mutationsin the VH Genes)的反应相关联起来。需要用于评估人免疫响应细胞的改变并且将那些改变与特定疾病相关联的更好方法。

发明内容

本发明涉及用于评估免疫响应细胞群的改变并且将那些改变与特定疾病相关联的方法。在本发明的一个方面，所述方法包括以下步骤：(a)从至少一个人或动物受试者分离白细胞亚群，(b)从该细胞亚群分离RNA，(c)在第一扩增反应中使用RT-PCR利用嵌套引物扩增RNA以产生扩增子，嵌套引物的至少一部分包含额外核苷酸以将针对公共引物(communal primer)的结合位点并入所得扩增子中，(d)将第一扩增反应的扩增子与第一扩增反应的一种或多种未使用的引物分离，(e)通过在第二扩增反应中添加公共引物来扩增第一扩增反应的具有至少一个针对公共引物的结合位点的扩增子，和(f)对第二扩增反应的扩增子测序以识别细胞亚群中的抗体和/或受体重排。在一个实施方案中，亚群可包括全血群或另一混合群样品。

在一个实施方案中，可通过流式细胞术进行分离白细胞亚群的步骤，以分离初始B细胞、成熟B细胞、记忆B细胞、初始T细胞、成熟T细胞和记忆T细胞。在所述方法的多个实施方案中，细胞亚群中的重组是B细胞免疫球蛋白重链(IgH)、κ轻链和/或λ轻链(IgK、IgL)、T细胞受体α、β、γ、δ的重排。在另一实施方案中，

在本发明的另一方面，所述方法可任选地包括另一步骤，所述另一步骤包括(g)：将针对已施用疫苗的个体群识别的重排与针对未施用疫苗的个体识别的重排相比较，以评估疫苗在产生免疫响应中的效能。

所述方法还可任选地包括另一步骤(g)：将针对正常个体群识别的重排与针对已被诊断患有疾病的个体群识别的重排相比较，以确定在特定重排或重排集合与疾病之间是否存在相关性。

在多个方面，所述方法可产生对包含互补性决定区3(CDR3)的多核苷酸的半定量扩增，所述区域是由T细胞或B细胞内的基因重排引起的，并且引起抗体和/或T细胞受体对特定抗原的亲和性和特异性。半定量扩增提供的方法不只是检测特定CDR3序列的存在，并且还确定已产生用于产生那些CDR3序列的必需重组事件的细胞的相对丰度。

因此，本发明的一个方面涉及用于分析半定量序列信息以为人或动物提供一个或多个免疫状态报告的方法。用于产生免疫状态报告的方法包括以下步骤：(a)识别在受试者免疫谱与来自存储于数据库中的疾病库的累积免疫谱之间共有的一个或多个独特的CDR3序列，对对应于那些共有的独特CDR3序列的受试者的所检测出序列的总数求和，并且计算受试者免疫谱中代表那些在受试者免疫谱与疾病库之间共有的独特CDR3的所检测出序列总数的百分数，以产生一个或多个初始共有指数；(b)从存储于数据库中的公共库随机选择序列以形成子库，所述子库所包含的序列数量约等于疾病库中独特CDR3序列的数量，识别在受试者免疫谱与子库之间共有的一个或多个独特的CDR3序列，对对应于那些共有的CDR3序列的被检测出序列的总数求和，并且计算受试者免疫谱中在受试者免疫谱与子库之间共有的所检测出序列总数的百分数，以产生抽样共有指数；(c)将步骤(b)重复至少1000次或更多次；和(d)将P值评估为抽样共有指数大于或等于患者的免疫谱与疾病库之间的初始共有指数的次数的分数。

附图说明

参考以下附图可以更好地理解本公开。附图中的元件未必是相互成比例的，而重点在于清楚地图解说明本公开的原理。此外，在所有的这几幅视图中，同样的附图标记指定相应的部分。

图1a和图1b是图解说明通过本发明方法使用本文公开的引物获得的扩增产物的存在的凝胶的照片。

图2a和图2b是代表在患有疾病的个体与通常健康的个体的免疫谱之间所观察到的多样性的差异的卡通图，其中每一实心圆圈代表一个独特CDR3序列，并且圆圈的大小代表在免疫谱中发现独特CDR3序列的次数。

图3是图解说明用于生成公共库的方法的图表。

图4是图解说明用于生成疾病库的方法的图表。

图5图解说明通过以下获得的结果：将患者免疫谱与疾病库相比较，计算患者免疫谱中的在所述两者之间共有的每一独特CDR3的百分数，并且将那些百分数相加以产生总和或共有指数。

图6图解说明通过以下获得的结果：将患者免疫谱与公共库的子集相比较，计算在所述两者之间共有的每一独特CDR3的百分数，并且将在患者免疫谱中的那些百分数相加以产生总和或共有指数。

图7是图解说明本发明方法的图形，其中曲线下面积代表针对公共库的子集(子库)获得的总共有指数，估计P值，并且垂直线(DL₁、DL₂等)代表用于比较个体的免疫谱与一个或多个疾病库的共有指数。

具体实施方式

本发明人已研发出用于从大量细胞评估抗体和T细胞受体重排的方法，所述方法可用于比较在个体群中识别的重排，以确定在特定重排或重排集合与疾病或疾病的某些症状之间是否存在相关性。所述方法还可用于建立一个或多个个体响应传染因素和/或环境因素的免疫响应史，以及用于评估疫苗的效能。

本发明涉及用于评估免疫响应细胞群的改变并且将那些改变与特定疾病相关联的方法。在本发明的一个方面，所述方法包括以下步骤：(a)从至少一个人或动物受试者分离白细胞亚群，(b)从该细胞亚群分离RNA，(c)在第一扩增反应中使用RT-PCR利用嵌套引物扩增RNA以产生扩增子，嵌套引物的至少一部分包含额外核苷酸以将针对公共引物的结合位点并入所得扩增子中，(d)将第一扩增反应的扩增子与第一扩增反应的一种或多种未使用的引物分离，(e)通过在第二扩增反应中添加公共引物来扩增第一扩增反应的具有至少一个针对公共引物的结合位点的扩增子，和(f)对第二扩增反应的扩增子测序以识别细胞亚群中的抗体和/或受体重排。在一个实施方案中，该亚群可包括全血群或另一混合群样品。

在一个实施方案中，从患者取出外周血液样品，并且可通过流式细胞术进行分离白细胞亚群的步骤，以分离初始B细胞、成熟B细胞、记忆B细胞、初始T细胞、成熟T细胞和记忆T细胞。在所述方法的多个实施方案中，细胞亚群中的重组是B细胞免疫球蛋白重链(IgH)、κ轻链和/或λ轻链(IgK、IgL)、T细胞受体β、γ或δ的重排。

在本发明的第二方面，所述方法可包括另一步骤(g)：将针对正常个体群识别的重排与针对已被诊断患有疾病的个体群识别的重排相比较，以确定在特定重排或重排集合与该疾病之间是否存在相关性。

在本发明的另一方面，所述方法可包括另一步骤，所述另一步骤包括(g)：将针对已施用疫苗的个体群识别的重排与针对未施用疫苗的个体群识别的重排相比较，以评估疫苗在产生免疫响应中的效能。

在一些实施方案中，可省略将第一扩增反应的扩增子与第一扩增反应的一种或多种未使用的引物分离的步骤，并且可在同一反应管中进行这两次扩增反应。

本发明人先前研发了称为tem-PCR的PCR方法，所述方法已描述于公开号WO2005/038039中，所述公开的公开内容以引用方式整体并入本文中。最近，本发明人已研发出称为arm-PCR的方法，所述方法描述于美国临时专利申请号61/042,259中，所述申请的公开内容以引用方式整体并入本文中。还描述了用于检测样品中的靶标多核苷酸的装置，所述装置包括：用于热循环以利用嵌套引物扩增一个或多个靶标多核苷酸以产生扩增子的第一扩增室，嵌套引物的至少一部分包含额外核苷酸以将针对公共引物的结合位点并入所得扩增子中；用于将第一扩增反应的扩增子与第一扩增反应的一种或多种未使用的引物分离的构件；和用于热循环以通过在第二扩增反应中添加公共引物来扩增在第一扩增反应期间产生的一个或多个扩增子的第二扩增室，第一扩增反应的扩增子具有至少一个针对至少一种公共引物的结合位点。

还描述了PCR芯片，其包含第一PCR室，所述室流体连接到废液储器和第二PCR室两者，该废液储器和第二PCR室各自另外包含至少一个电极，所述电极包含用于分离从第一PCR室产生的扩增子的构件。第二PCR室流体连接到杂交和检测室，杂交和检测室包含微球体或珠粒，所述珠粒被布置使得珠粒的物理位置指示借助芯片分析的样品中存在特定靶标多核苷酸。

tem-PCR方法，尤其是arm-PCR方法，提供了在一次反应中对多个多核苷酸的半定量扩增。另外，arm-PCR提供额外灵敏度。两者都能够在一次反应中扩增多个多核苷酸，这有益于本发明方法，这是因为(例如)多种T细胞和B细胞的组库(repertoire)是如此之大。在扩增反应中添加公共引物的结合位点，和随后使用公共引物扩增靶标分子得到定量或半定量结果，这使得可确定患者血液样品内包含多种重排的细胞的相对量。由于识别抗原引起的克隆增殖产生较大的识别所述抗原的细胞群，并且通过细胞相对数量评估所述细胞提供用于确定抗原暴露是否影响产生抗体的B细胞或具有受体的T细胞的增殖的方法。这有助于评估是否可能存在于(例如)已被诊断患有具体疾病的个体中较为普遍的具体细胞群，并且尤其可有助于评估疫苗是否在已给予疫苗的个体中达成期望的免疫响应。

存在几种市售的高通量测序技术，例如Roche Life Sciences的454测序。在454测序方法中，454A和454B引物在PCR期间连接到PCR产物上或在PCR反应后连接在PCR产物上。当结合tem-PCR或arm-PCR进行时，454A和454B引物可在扩增反应中用作公共引物。将PCR产物(通常是不同序列的混合物)稀释到约200个拷贝/μl。在“乳液PCR”反应中，(半固体凝胶样环境)在微珠的表面上通过引物(454A或454B)扩增被稀释的PCR产物。因为PCR模板非常稀，通常只有一个珠粒毗邻一个模板，并且其被局限于半固体环境中，扩增只在珠粒上和珠粒周围发生。然后洗脱珠粒，并将其置于具有专门设计的孔的板上。每一孔只可容纳一个珠粒。然后，将试剂添加到各孔中以进行焦磷酸测序。可使用光纤检测器读取每一孔的测序反应，并通过计算机平行收集数据。一种所述高通量反应可生成多达6000万个读段(read)(6000万个珠粒)并且每一读段可生成约300bp序列。

本发明的一个方面涉及“个人免疫组库”或免疫谱的数据库的研发，使得每一个体可建立基线并且在几年时间内追踪对抗原(已知和未知抗原)的免疫响应的发展。如果这一信息是自大量个体收集的，那么所述信息可提供将产生有价值信息的流行病学数据库，特别是在例如癌症和心脏病的那些疾病的发生方面，所述疾病被认为通常是由暴露于病毒或其它传染源或被转化细胞引起的，所述病毒或其它传染源或被转化细胞中的许多还未得到识别。本发明方法的一个尤其重要的用途涉及对儿童进行评估以确定传染疾病、环境因子或疫苗是否可能是自闭症的病因。例如，许多人已经提出，疫苗施用可引发自闭症的发生。然而，许多人也将潜在相关性归因于疫苗中的药剂例如硫柳汞的使用，并且研究已证明硫柳汞似乎不是所述疾病的致病剂。仍存在如下推测：混合疫苗的研发与自闭症病例数的增加相关，然而，收集用于评估多个抗原的潜在因果关系的数据是极其困难的。本发明方法简化了所述过程并且可提供关键信息以更好地了解自闭症和其它疾病，在所述疾病中不同个体的免疫响应可以对暴露于试剂或试剂组的一些个体中疾病的差异发展、而其它类似暴露的个体不发生所述疾病提供解释。

由感染引发的免疫谱不平衡可导致许多疾病，包括癌症、白血病、神经疾病(阿尔茨海默氏病、多发性硬化症、帕金森氏病(Parkinson’s)、自闭症等)、自身免疫疾病和代谢疾病。这些疾病可称为免疫谱疾病。可能存在两种免疫谱疾病形式。(1)“功能缺失”形式，和(2)“功能获得”形式。在“功能缺失”形式中，人对疾病易感是因为他/她的受限制的和/或有限的免疫谱缺少产生最有效的和必需的IG和TR的细胞。在“功能获得”形式中，人对疾病易感是因为他/她的免疫谱获得了产生在正常情况下不应存在的IG和TR的细胞。在“功能缺失”(LOF)免疫谱疾病中，个体不具有适当的功能性B细胞或T细胞以对抗疾病。他/她的HLA分型决定了那些细胞在免疫细胞成熟过程的早期期间被消除，所述细胞通常被消除的原因是其与他/她的自身蛋白强烈地反应。

本发明的一个方面还提供包括以下的方法：(a)扩增来自一个或多个个体的T细胞和/或B细胞的一种或多种RNA并对其测序，(b)将序列输入到数据库中以提供可以存储在计算机、服务器或其它电子存储器件上的数据，(c)输入个体的对应于所述一种或多种RNA的序列的识别信息和特征作为也可存储在计算机、服务器或其它电子存储器件上的数据，和(d)评估针对一个或多个个体的步骤(b)和步骤(e)的数据，以确定在所述一种或多种RNA的序列与所述个体的对应于所述序列的一个或多个特征之间是否存在相关性。识别信息可包括(例如)患者识别号、包含患者HLA类型的代码、包含可能已作出的一个或多个临床诊断的疾病代码、包含样品日期的“分期代码”、包含从其扩增和测序所述RNA的细胞亚群的类型的细胞类型代码、和包含针对所述样品识别的序列的一个或多个序列代码。

所描述方法包括新颖引物设计，所述设计不只允许扩增整个免疫组库，而且还允许以高度多重方式且半定量地进行扩增。多重扩增要求只需要少量PCR或RT-PCR反应。例如，所有IG均可在一次反应中扩增，或可针对IgH、IgL或IgK将所述反应分为两次或三次反应。类似地，T细胞受体(TR)可只在一次反应中扩增，或可在几次反应中扩增，包括TRA、TRB、TRD和TRG。半定量扩增意味着多重反应中的所有靶标均将独立地被扩增，使得对扩增产物的终点分析将反映靶标中初始的内部比。

在多个方面，所述方法可产生对包含互补性决定区(CDR)的多核苷酸的半定量扩增，所述区域是由T细胞或B细胞内的基因重排引起的，且引起抗体和/或T细胞受体对特定抗原的亲和性和特异性。半定量扩增提供的方法不只是检测特定CDR3序列的存在，而且还确定已产生必需重组事件以产生那些CDR3序列的细胞的相对数量。

因此，本发明的一个方面涉及用于分析半定量序列信息以为人或动物提供一个或多个免疫状态报告的方法。用于产生免疫状态报告的方法包括以下步骤：(a)识别在受试者免疫谱与存储于数据库中的疾病库之间共有的一个或多个独特CDR3序列，对那些共有的CDR3序列的总数求和，并且计算受试者免疫谱中在受试者免疫谱与疾病库之间共有的序列的总数的百分数，以产生一个或多个初始共有指数；(b)从存储于数据库中的公共库随机选择序列以形成子库，所述子库所包含的序列数量约等于疾病库中独特序列的数量，识别在受试者免疫谱与子库之间共有的一个或多个独特CDR3序列，对那些共有的CDR3序列的总数求和，并且计算受试者免疫谱中在受试者免疫谱与子库之间共有的序列的总数的百分数，以产生抽样共有指数；(c)将步骤(b)重复至少1000次或更多次；和(d)将P值评估为抽样共有指数大于或等于在患者免疫谱与疾病库之间的初始共有指数的次数的分数。

本发明人已发现，患有某些疾病(例如，癌症、自身免疫疾病等)的个体的免疫谱的特征可能在于一个或多个免疫细胞群缺乏多样性。图1是图解说明可在(例如)存在于癌症患者(图1a)与健康患者(图1b)的血液样品中的T细胞的独特类型和数量之间观察到的差异的卡通图，其中每一圆圈代表一个独特类型的T细胞，所述差异由经扩增和测序的T细胞受体的互补性决定区(例如CDR3)的重组cDNA以及通过PCR扩增和测序确定共有相同CDR3序列的细胞的相对数量所表示。如图1a所指示，可能存在较少的具有不同特异性的独特细胞，但是具有某特异性的细胞数目较大，如通过CDR3序列所表示。图1b图解说明具有更多不同细胞的正常谱，但是共有相同CDR3序列的每一细胞类型的数量更少。

来自人或动物的血液或组织样品内每一独特CDR3表达细胞的列表和所表示的此类细胞的数量可构成人或动物的免疫谱。将一组人(例如包含健康个体和患有多种不同疾病的个体的组)的免疫谱编撰在一起可提供代表在正常群中发现的多样性类型的“公共库”(图2)。类似地，将已在临床上被诊断患有具体疾病的一组个体的免疫谱编撰在一起可提供代表缺乏多样性的、所增殖的细胞群的特定CDR3等的“疾病库”(图3)。可将这些免疫谱存储于(例如)可通过计算机访问互联网获得的数据库中，使得可在本发明方法中使用所述信息来分析患者的免疫状态。

可针对个体患者产生包含独特CDR3表达细胞(“独特CDR3”，那些共有独特CDR3序列的细胞)的列表和存在于来自个体的血液或组织样品中的每一独特CDR3的数量的免疫谱。将患者的免疫谱与已被诊断患有具体疾病的一组患者的组合免疫谱(疾病库，其存储于数据库中)相比较。这可针对一系列疾病库进行并且显示于图4中。

公共库可能存在数以百万的可能组合，大多数那些个体的免疫系统相对于已被诊断患有特定疾病的一组个体的免疫系统通常展现出增加的多样性。因此，本发明人确定通过从公共库中的独特CDR3的列表和其数量随机抽样/选择来制备子库的步骤将有利于对本发明方法进行准确评价和比较。通过CDR3片段的独特肽序列代表的独特CDR3的数量应约等于在疾病库中识别的独特CDR3的数量或从超过一个疾病库计算的平均值。产生显著数量的子库例如1000个或更多个子库(通过从公共库随机抽样产生)增加了多种独特CDR3的存在，并且产生对于将个体患者的免疫谱识别并表征为正常(“健康”)或以存在与具体疾病相关的细胞的类型和数量为特征在统计学上显著有效的结果。

在本发明方法中，患者提供包含(例如)血液或组织的临床样品，从所述样品半定量扩增独特CDR3并对其进行测序。这为所有独特CDR3提供了每一CDR3的标识和相对丰度。可将这一信息输入到获取含有至少一个公共库和一个或多个疾病库的数据库的程序中。用于数据输入和/或分析的软件可通过互联网访问数据库获取，或可位于单独的个人计算机上，利用互联网访问数据库中的序列信息。获得在个体免疫谱与多个库和子库之间的比较，并生成结果，如图4和图5中大体图示，如果检测到特定CDR3序列，那么将被检测到的那些独特CDR3序列的数量计数，并且确定所述特定独特CDR3是否存在于个体免疫谱和特定库二者中(也就是，在个体与库之间“共有”所述特定独特CDR3)。将表示被确定为共有的那些CDR3的数量的百分数加在一起，以产生包含总数包含个体免疫谱中在个体免疫谱与特定库之间共有的CDR3的分数的总和(也就是，“共有指数”)。根据针对子库获得的结果，将P值计算为随机百分数将大于或等于针对具体疾病库记录的百分数的机率，并且当抽样共有指数超过具体库的初始共有指数的次数的分数小于(例如)0.01时记录显著结果。如果所述共有指数代表个体免疫谱与疾病库之间的关系，那么所述个体可被告知所述个体/患者患有通过特定疾病库代表的疾病的概率。如果针对所有疾病库计算的P值大于0.01，那么该个体的报告可指示免疫谱看起来正常并且还未检测出疾病状态。

由于序列数据被编撰在一起并被存储于多个个体群的一个或多个数据库中，其另外可将某些共有指数与代表具有对某些疾病的预调(pre-condition)或诱因的群的库相关联。免疫系统具有主动性和反应性，并且免疫谱中所反映的免疫系统的改变可提供存在诱因、预调或甚至已建立疾病的第一个(并且有时候为唯一的)信号。本发明人已利用所述方法证明了可通过确定患者与已建立疾病库之间的共有指数来检测某些类型的癌症、炎性肠病和某些病毒感染，所述疾病库是通过使用ARM-PCR方法对CDR3测序以产生代表所存在CDR3的免疫组库的子集获得的。

当将过滤器应用到序列数据时，结果甚至更加可靠。例如，本发明人已研发出用于序列数据的“SMART”过滤器，所述程序有助于生成显著更加可靠的结果。这在实施例中予以进一步描述。

通过进一步解释，以下实施例可说明本发明方法。可在施用任何疫苗前自儿童取得血液样品，每一儿童的那些血液样品用于建立“基线”，可相对于所述基线评估未来样品。对于每一儿童，可利用未来样品确定是否已暴露于已使已知与疾病相关的细胞群增殖的因子，并且这可用作未来发生疾病的风险的“标记物”。然后，如此识别的个体可以被更密切地监测使得可以进行早期检测，并且可在疾病过程的较早期提供任何可用的治疗选择。

通过提供另一示例，可在施用任何疫苗之前从儿童取得血液样品，来自每一儿童的那些血液样品建立“基线”，相对于所述基线可评估未来样品。对于研究中的每一儿童并且对于整个儿童群，可将那些基线与在施用疫苗后使用靶标特异性引物扩增抗体和T细胞受体的T细胞和B细胞的RNA测序的结果相比较。所述比较可进一步涉及评估关于症状、所诊断疾病和针对每一个体与相应抗体和T细胞受体序列相关的其它信息的数据。如果在疫苗的施用与具体疾病的发生之间存在关系，那么展现所述疾病的症状的个体还可共有相应抗体或T细胞受体，例如，或相应抗体或T细胞受体的集合。

本发明方法可以尤其用于识别患有(例如)自身免疫疾病的个体间的共同性，并且可以提供流行病学数据，所述数据将更好地描述传染因素和环境因素与疾病(例如心脏病、动脉粥样硬化、糖尿病和癌症)间的相关性，进而提供指示存在疾病或倾向于发生疾病的“生物标记物”。

所述方法还可用于研发被动免疫疗法。例如，在暴露于传染源后，某些产生抗体的B细胞和/或T细胞得以增殖。本发明方法使得能够识别(例如)保护性抗体，并且那些抗体可用于在需要被动免疫疗法的情况中提供此类疗法。

本发明方法还可提供实现靶向去除具有不合意重排的细胞的能力，所述方法提供可识别此类细胞重排的方式。

本发明人已识别并研发出供本发明方法使用的靶标特异性引物。T细胞特异性引物显示于表1中，并且抗体特异性引物显示于表2中。本发明的另一实施方案是如下方法：使用表1或表2引物的任何一种或其组合来扩增血液样品的RNA，更具体地，来识别细胞群内的抗体、T细胞受体和HLA分子。

可按照本发明人先前所描述(Han等人，2006.Simultaneous Amplification andIdentification of 25Human Papillomavirus Types with TemplexTechnology.J.Clin.Micro.44(11)4157-4162)的扩增方法使用Arm-PCR或tem-PCR扩增编码免疫球蛋白超家族分子的基因。在tem-PCR反应中，基因特异性嵌套引物被设计成在初始PCR循环期间富集靶标。此后，使用通用“超级”引物扩增所有靶标。引物被命名为F_o(正向外侧)、F_i(正向内侧)、R_i(反向内侧)、R_o(反向外侧)、FS(正向超级引物)和RS(反向超级引物)，其中超级引物对于各个分子是共用的，这是由于在靶标特异性引物末端处添加了那些引物的结合位点。基因特异性引物(F_o、F_i、R_i和R_o)以极低的浓度使用。在tem-PCR过程的三个主要阶段中的每一者中涉及不同的引物。首先，在“富集”阶段，给予低浓度基因特异性引物以足够时间来发现模板。对于每一意欲的靶标，取决于使用哪种引物，可生成四种可能的产物：F_o/R_o、F_i/R_o、F_i/R_i和F_o/R_i。通常将富集阶段进行10个循环。在第二阶段或“加标签”阶段，使退火温度升高到72℃，并且只有长度为40个核苷酸的内侧引物(F_i和R_i)将起作用。在这一加标签阶段的10个循环后，所有PCR产物都被通用超级引物序列“加标签”。然后，在第三“扩增”阶段，高浓度超级引物有效地起作用以扩增所有靶标并在所述过程期间用生物素标记PCR产物。特异性探针可以与Luminex色彩涂覆的珠粒共价连接。

为了扩增编码免疫球蛋白超家族分子的基因，本发明人基于公共领域中的序列信息设计了嵌套引物。为了研究B细胞和T细胞VDJ重排，本发明人设计了用于扩增重排和表达的RNA的引物。通常，从V基因设计一对嵌套正向引物并且从J基因或C基因设计反向嵌套引物集合。平均扩增子大小为250bp到350bp。例如，对于IgHV基因，存在123个基因，它们可分成7个不同家族，并且将本发明引物设计成家族特异性的。然而，如果对扩增的cDNA序列测序，那么存在足够的序列多样性，从而容许相同家族内的基因中的进一步分化。对于MHC基因座，意在扩增基因组DNA。

实施例

共有指数的计算

假定S是受试者的免疫谱(IP)，所述免疫谱被表示为N个独特CDR3序列CDR3₁、CDR3₂、...CDR3_n，每一CDR3具有其自身频率s₁、s₂、...s_n。

D是疾病库，其是一定数量的具有M个独特CDR3的患者免疫谱的总和。疾病库中的所有患者都被诊断患有相同疾病。

P是公共库，其是大量对照的免疫谱的总和。

共有指数被定义为s_x、s_y、...s_z的总和，其中在受试者的免疫谱与库中共有CDR3_x、CDR3_y、...CDR3_z。应注意，s_x、s_y、...s_z是受试者的免疫谱中的CDR3的频率而非库中的CDR3的频率。

假定在公共库(P)中比在疾病库(D)中总是存在更多的独特CDR3，随机选择公共库中的M个独特CDR3并将其用于产生子库P1，并根据上式计算受试者与子库间的共有指数(SI_p1)。将抽样程序重复1000次或更多次，并且计算1000个或更多个SI_px。

以相同方式计算受试者与疾病库间的共有指数SI_d。P值被定义为所有SI(SI_p1、SI_p2、...SI_px、SI_d(应注意SI_d包括在内)的分数，其等于或大于SI_d。应注意，当对公共库中的CDR3抽样时，存在于x个对照的免疫谱中的CDR3有x次机会被抽样。

T细胞或B细胞重排位点的扩增

使用1×TE将所有寡核苷酸重悬。将除454A和454B外的所有寡核苷酸重悬到100pmol/μL的浓度。将454A和454B重悬到1000pmol/μL的浓度。454A和454B与此前描述的公共引物在功能上是相同的，将不同序列用于后续高通量测序程序。

制备三种不同的引物混合物。αδ引物混合物包括82种引物(所有均为TRAV-C+TRDV-C)，βγ引物混合物包括79种引物(所有均为TRBVC和TRGV-C)，并且B细胞引物混合物包括总共70种引物。F_o、F_i和R_i引物的浓度为1pmol/μL。R_o引物的浓度为5pmol/μL。454A和454B的浓度为30pmol/μL。

三种不同的RNA样品从ALLCELLS(www.allcells.com)订购。所有样品均被稀释到4ng/uL的最终浓度。所订购的样品为：

细胞类型：	来源：
		ALL-PB-MNC	患有急性淋巴母细胞白血病的患者
NPB-Pan T细胞	正常T细胞
		NPB-B细胞	正常B细胞

使用Qiagen一步式RT-PCR试剂盒进行RT-PCR。每一样品含有以下：

10μL Qiagen缓冲液

2μL DNTP’s

2μl酶

23.5μL dH₂O

10μL适当引物混合物

2.5μL适当模板(总共10ng RNA)

使用以下循环条件操作样品：

50℃ 30分钟

95℃ 15分钟

94℃ 30秒

15个如下循环

55℃ 1分钟

72℃ 1分钟

94℃ 15秒

6个如下循环

70℃ 1分钟30秒

94℃ 15秒

30个如下循环

55℃ 15秒

72℃ 15秒

72℃ 3分钟

4℃保持

图1a中所示的置于凝胶中的样品的顺序为：(1)分子梯度(500bp为最大，以20bp的幅度(step)降低，图1a中的中间明亮条带为200bp)；(2)α+δ引物混合物和10ng Pan T细胞模板；(3)β+γ引物混合物和10ng Pan T细胞模板；(4)B细胞引物混合物和10ng B细胞模板；(5)B细胞引物混合物和10ng ALL细胞模板；(6)α+δ引物混合物和10ng ALL细胞模板；(7)β+γ引物混合物和10ng ALL细胞模板；8.α+δ引物混合物空白；(9)β+γ引物混合物空白；(10)B细胞引物混合物空白；(11)电泳缓冲液空白。这些样品在预浇注的

SDS 10％凝胶上使用

DNA非变性电泳缓冲液进行电泳。

初始实验显示从包括模板的PCR反应生成拖尾条带。拖尾条带指示生成了大小不同的PCR产物，所述产物代表不同VDJ重排的混合物。存在一些来自B细胞反应的背景扩增。要求对所述引物混合物进行进一步改善以清洁反应。

为了确定PCR产物是否真正地包括不同的VDJ重排，必需分离单一克隆并对其进行测序。代替使用常规的克隆程序，本发明人使用了不同的策略。1∶1000稀释由αδ混合物和βγ混合物生成的PCR产物(图1a中的2泳道和3泳道)，并且将2μl等分试样用作以下反应中的PCR模板。然后，代替使用靶向整个组库的引物混合物，使用一对特定的Fi和Ri引物(各5pmol)来仅扩增一种特定的PCR产物。使用以下循环条件来扩增样品：

95℃ 5分钟

30个如下循环

94℃ 30秒

72℃ 1分钟

72℃ 3分钟

4℃保持

使用Qiagen PCR试剂盒来扩增产物。用于PCR的Master Mix含有以下：

	每次反应	Master Mix×12
			10×PCR缓冲液	5μL	60μL
dNTP	1μL	12μL
			HotStartTaq Plus	0.25μL	3μL
H<sub>2</sub>O	39.75μL	477μL

图1b中的凝胶照片显示以下反应的PCR产物：(1)分子梯度；(2)TRAV1Fi+TRACRi和αδPan T PCR产物；(3)TRAV2Fi+TRACRi和αδPan T PCR产物；(4)TRAV3F_i+TRACR_i和αδPan TPCR产物；(5)TRAV4F_i+TRACR_i和αδPan T PCR产物；(6)TRAV5F_i+TRACR_i和具有αδPan T PCR产物；(7)TRAV1F_i+TRACR_i和αδPan T PCR产物；(8)TRAV2F_i+TRACR_i和αδPan T PCR产物；(9)TRAV3F_i+TRACR_i和αδPan T PCR产物；(10)TRAV4F_i+TRACR_i和αδPan T PCR产物；(11)TRAV5F_i+TRACR_i和αδPan T PCR产物；(12)PCR空白。作为F_i列出的引物是“正向内侧”引物，并且作为F_o列出的引物是“正向外侧”引物，并且R_i和R_o分别指示“反向内侧”引物和“反向外侧”引物。

如通过图1b所图解说明，每一反应均生成了单一PCR产物。不同的反应生成了大小不同的条带。这种PCR克隆方法出于两个主要原因是成功的--(1)这一反应中使用的PCR模板是先前反应的稀释的PCR产物(1∶1000)，所述先前反应使用引物混合物来扩增所有可能的VDJ重排(例如，使用包括总计82种引物的引物混合物来扩增T细胞受体α和δ基因)，和(2)在这一“克隆”实验期间，每一反应中仅使用一对靶向特定V基因的PCR引物。凝胶纯化并测序一些这些产物。以下是从上文所描述的方案获得的示例序列。在每种情况下，均获得了单个克隆，并且识别了与Fi引物相匹配的特定的T细胞受体V基因。

TRAV1模板+作为测序引物的454A：

NNNNNNNNNNCNTANTCGGTCTAAGGGTACNGNTACCTCCTTTTGAAGGAGCTCCAGATGAAAGACTCTGCCTCTTACCTCTGTGCTGTGAGAGATANCAACNATCACTTAATCTTGGGCGCTGGGAGCAGACTAATTATAATGCCAGATATCCACAACCCTGACCCTGCCGCGTACCAGCTGAAAGACTATGAACAGGATGGGGAGGCAGNAGNAGNAG(SEQ ID NO.1)

TRAV1模板+作为测序引物的454A：

NNNNNNNNNNGNANGNNCAGGGTTCTGGATATTTGGTTTNACAATTAGCTTGGTCCCTGCTCCAAAGATTAATTTGTAGTTGCTATCCCTCACAGCACAGAGGTAAGAGGAAGAGTATTTCTTCTGGAGCTCCTTCAACAGGAGGAAACTGTACCCTTTATACCTACTAAGGAATGAAGA(SEQ ID NO.2)

TRAV2模板+作为测序引物的454A：

NNNNNNNNNNNNTNNCGGTTCTCTTNNTCGCTGCTCATCCTCCAGGTGCGGGAGGCAGATGCTGCTGTTTACTACTGTGCTGTGNANNANGGCANNGACAACAACCTCNTCTTTGGTGGAGGNACCCTACTNNTGGTTATNCCNAATANCCANAACCCTGACCCTGCCGAGNAGCAGCANAAAAACTNNNAGGGGGGTGGAGAAGNANNNNN(SEQ IDNO.3)

TRAV3模板+作为测序引物的454A：

NNNNNNNNNNNNNNGGNNNGGNAGCTATGGCTTTGAAGCTGAATTTAACAAGAGCCAAACCTCCTTCCACCTGAAGAAACCATCTGCCCTTGTGAGCGACTCCGCTTTGTACTTCTGTGCTGTGAGAGACATCAACGCTGCCGGCAACAACCTAACTTTTGGAGGAAGAACCATGGTGCTAGTTAAACCAAATATCCATAACCCTGACGCTGCCGTGTACCAGCTGAAAGACTCTGAGGGGGCTGGAGAGGNAGGNG(SEQ ID NO.4)

TRAV4模板+作为测序引物的454A：

NNNNNANNGGNNNNNGTTTATCCCTGCCGACAGAAAGTCCAGCACTCTGAGCCTGCCCCGGGTTTCCCTGAGCGACACTGCTGTGTACTACTGCCTCGTGGGTGACCGGTCTGGAAACAGCGATGAAATTTTCATCTTAGGAAGAAGAACGCTTCTAGTCATCCANCCCAACATCCACAACCCTGCCGCGGAGNAGCACCAGAAAAAAGATGATGAGGGGGANGNAGNAGNANNNN(SEQ ID NO.5)

TRAV5模板+作为测序引物的454A：

NNNNNNNNNNNNNNNNTCNCTGNTCTATTGAATAAAAAGGATAAACATCTGTCTCTGCGCATTGCAGACACCCAGACTGGGGACTCAGCTATCTACTTCTGTGCAGAGAGCCCCGGTGGCGGCAGCAACTTCTTCTTTGGTGGAGGAGCANTACTACTAGTCGTTCTACATANCCACAACCATGATNCCGCCGAGTACNTGCTGAAAAAATATGATGAGGATGGAGAAGAAGNAGCATNAN(SEQ ID NO.6)

TRBV19Fi模板+作为测序引物的454A：

NNNNNNNNCTGAGGGTANNCGTCTCTCGGGAGAAGAAGGAATCCTTTCCTCTCACTGTGACATCGGCCCAAAAGAACCCGACAGCTTTCTATCTCTGTGCCAGTAGTATGGGGGGGGGGGCCTACAATGAGNACGGCGGCGGGGGAGGGACNNTGCTCGTCGTGGAGGAGGACATGAAGGTCTTGCCCGCNNCNGAGGAAGNTGNANANGAACCATAAAAATGCGCTGGCTGAANNN(SEQ ID NO.7)

TRBV20Fi模板+作为测序引物的454A：

NNNNNNNNNNNGCTCNNNNNNCNCATACGAGCAAGGCGTCGAGAAGGACAAGTTTCTCACAACCATGCAAGCCTGACCTTGTCCACTCTGACAGTGACCAGTGCCCATCCTGAAGACAGCAGCTTCTACATCTGCAGTGCTAGAGGGGGGGGGGGGGACGACTACTACTACTTCGGCGGGGGGGGCATGCTGATCGTGGAGGAGGAGGACATGNAGCTCCTCCCCGCCGCCGAGGTTGTTGTGTNTNNANCATCATACTGNTGGTGGAGNAGNAGNAGCN(SEQ ID NO.8)

TRBV21Fi模板+作为测序引物的454A：

NNNNNNNNNNNNNNNGNNNNNNNNNNNTACTTTCNGAATGAAGAACTTATTCAGAAAGCAGAAATAATCAATGAGCGATTTTTAGCCCAATGCTCCAAAAACTCATCCTGTACCTTGGAGTTCCAGTCCACGGAGTCAGGGGACACAGCACTGTATTTCTGTGCCAGCAGCA(SEQ ID NO.9)

TRBV23Fi模板+作为测序引物的454A：

NNNGNNNNNNNANNGGANANGCACAAGAAGCGATTCTCATCTCAATGCCCCAAGAACGCACCCTGCAGCCTGGCAATCCTGTCCTCAGAACCGGGAGACACGGCACTGTATCTCTGCGCCAGCAGTCAATCGGGGGGGGGGGGGAGGGCCGTCCGCAGCGGGGGGGGGGGGGGCCGGGGGACGGTCCCAAAGAGAAAGAAAACCTGCCCCCCGCGCTCGGGCGGTGTGATTGAGCGAAACAGACAGGAAGGNAAGNAAAAAANNNNANCNNCNCTCNN(SEQ ID NO.10)

TRBV24Fi模板+作为测序引物的454A：

NNNNNNNNGNNANNNTCTGATGGANACAGTGTCTCTCGACAGGCACAGGCTAAATTCTCCCTGTCCCTAGAGTCTGCCATCCCCAACCAGACAGCTCTTTACTTCTGTGCCACCAGTGANGCGGGGGGCGGGGACCACTACTTCGGGGGGGGGAGGCGGACCAGGGTGCTGGTCGACGAGAAAAAGGAGCTCCCCCCCGCCGCCGCTGTGGTTGTTGCTTCATAATAATCAGGNNGGNGAGGNAGNAGNAANN(SEQ ID NO.11)

为研究人工产物对TCRβ转录组的总体组库分析的影响，本发明人使用化学合成的TCRβCDR3模板进行了对照实验。为此，本发明人化学合成了四种独特的克隆，克隆纯化每一克隆，并且制备这四种构建体的不同混合物作为扩增子拯救多重(ARM)-PCR的模板。使两种不同的反应混合物经受两种独立的ARM-PCR反应，并且使用Illimuna

从两端以100bp的长度对汇集的PCR产物测序。本发明人首先利用修改的Needleman-Wunsch运算法通过重叠比对将双末端读段结合在一起，然后将合并序列映射到种系V、D和J参考序列。

在未清除的情况下，本发明人从模板混合物I获得总共5,729,613个序列，所述序列可被映射到TCRβV、D和J片段。令人惊讶地，序列读段据称代表了总共36,439种独特的CDR3变体。因此，考虑到模板混合物中只存在四种独特的CDR3变体，那么实际上所有被识别的CDR3变体必定都是非真实的。对于第二模板混合物获得了类似结果，其中识别出总共9,131,681个VDJ映射的序列，这模仿了50,354种独特TCRβCDR3变体的存在。本发明人的独立测序实验显示，只有少数独特的CDR3模板变体可产生远远超过真正模板多样性的人工组库多样性，因此本发明人着手消除这些人工产物。

通常认为3’端Illumina测序读段的品质较差。在组库测序的情况下，这是令人烦恼的，因为需要将PCR引物定位得距高变V(D)J接点足够得远，以避免由于引物-模板错配引起的副效应。因此，感兴趣的CDR3片段通常被“移向”更接近测序读段的3’端——具有增加的测序错误率的区域。值得关注的另一技术问题是观察到测序错误是背景特异性的并且因此是链特异性的。因此，假定正向读段中的测序错误与相应反向读段中的测序错误相一致的机率极小是现实的。

考虑到这一点，本发明人设计了基于

技术提供对完整TCR CDR3区段进行双链测序的双末端策略。在这种方法中，正向和反向测序引物分别位于构架区3处和TCRJ区或C区的5’端处。考虑到Illumina序列读段的平均长度(当前100-150bp)，这一设计使得能够对界定CDR3区段的两个链进行完整测序。在第二步骤中，然后分析正向和反向读段的序列错配，并且使用新研发的双末端过滤运算法消除展现两个链的非一致性的CDR3序列。

将这一测序错误过滤器应用到针对模板混合物I获得的5,729,613个CDR3序列，本发明人识别出总共2,751,131个(48％)在其相反链上含有相冲突的序列信息的CDR3序列。丢弃这些序列使得消除了35,455种(97.2％)独特的人工CDR3变体。与这一致的是，双末端过滤器去除来自模板混合物II的4,308,020个(47％)CDR3序列，使得消除了49,063种(97.4％)人工CDR3变体。分别有总共973种和1271种独特的CDR3变体通过了所述过滤器。这些结果指示双末端测序和过滤将非真实的独特CDR3序列的总数减少了几乎两个数量级。

在测序错误过滤器后的非真实CDR3变体的频率分布的详细分析揭示，在两种混合物中，所有人工产物中的约50％为单拷贝序列。这些人工CDR3中的约10％展示＞100个拷贝数并且占所有人工CDR3变体的＞80％。鉴于可变TCR基因不经历体细胞超变异，本发明人研发了参考运算法，所述算法可识别并去除相对于所映射的种系V、D和J参考序列展示核苷酸错配的CDR3序列读段，这是由于这些读段必定是在PCR扩增或测序水平上生成的人工产物。

将这一过滤运算法应用到模板混合物I的“被双末端过滤的”序列，去除了总共29,804个序列，所述序列对应于609种独特CDR3变体。对于模板混合物II，识别出54,516个人工序列(831种独特CDR3变体)。因此，使用参考序列过滤器减少了60％的非真实的独特CDR3序列。参考过滤器对V-J和D-J接点无效，因为无法映射在体细胞重组期间随机添加到这些区域中的核苷酸。因此，本发明人在计算模拟实验后进行了PCR过滤器以更好地了解四个变量：初始模板数量、每一循环的复制效率、循环数量(n)和DNA聚合酶错误率(μ)对总端点错误率的影响。相反，本发明人注意到PCR聚合酶错误率对积累误差的数量具有显著效应。

在本发明人的对照测序实验中，使用Taq聚合酶在第一反应和第二反应中以15个循环和45个循环进行PCR扩增。为更真实地模拟ARM-PCR反应期间的错误积累，将PCR效率设置成对于前25个循环每个循环降低5％并且对于剩余循环每个循环降低10％。对于每一新的PCR反应，将PCR效率重新设置为1.0。此外，本发明人容许第二位置处的变异。公开的Taq酶的置换错误率表示为错误/bp/循环，其范围是0.023×10^-4到2.1×10^-4。在模拟实验中，将置换错误率设置为2.7×10^-5，并且将插入缺失(indel)错误率设置为1.0×10^-6。已知Taq聚合酶在模板的同聚区中具有更高的插入和缺失(indel)突变率。对于同聚区，这一区域的任一位置中的indel突变生成相同模式。因此，将同聚区中的indel错误率设置为n×μ，其中n为同聚区的长度并且μ为1.0×10^-6。

由于初始模板数量和PCR效率对端点错误率的影响较小，因此在多重PCR反应中将从模拟实验估计的相同端点错误率应用到具有不同初始数量和不同复制效率的分子应当是安全的。对于每一类别，根据经验将截止错误率(μ)设置为第9999个10000分位数点处的错误率。对于具有频率NA和NB(NA＞＞NB)的在不到三个位置有差异的两个类似CDR3序列A和B，如果NA*μ≥NB，其中μ是相应的截止错误率，那么CDR3序列B将被排除。将这一过滤运算法应用到模板混合物I的“被参考过滤的”序列，去除了总共22,369个序列，所述序列对应于281种独特CDR3变体。对于模板混合物II，识别出39,920个人工序列(348种独特CDR3变体)(表1)。因此，使用PCR扩增错误过滤器可使非真实的独特CDR3序列进一步减少约80％。

在已通过上述过滤器的序列的汇集中，本发明人识别出几种高丰度CDR3变体，所述变体与其最类似的输入模板序列在多个位置处不同。由于根据模拟实验在CDR3片段的多个位置处出现PCR置换和/或indel突变是极其罕见的，因此那些CDR3变体必定是由其它来源的人工产物引起。有趣的是，本发明人注意到这些序列中的一些包含具有两种独特输入模板的片段并且展现清晰断点，这将所述序列识别为嵌合体。嵌合序列是由PCR期间的不完全引物延伸或模板切换引起的PCR人工产物并且形成镶嵌样结构。鉴于这一出乎意料的PCR人工产物，本发明人研发出计算的“镶嵌过滤器”。使用这一过滤运算法，本发明人在模板混合物I和II中分别识别出总共17个和15个嵌合序列。值得注意的是，这些CDR3嵌合体中的一些展示＞1000的序列拷贝数，指示本发明人的用于过滤器的运算法能够识别出高丰度嵌合CDR3序列。

应用过滤运算法可消除99.8％的通过对仅四种确定的TCR CDR3模板进行高通量测序生成的非真实的独特CDR3序列。分别只有62个和73个人工CDR3序列通过所有过滤器。在这些序列中，两个丰度最高的CDR3序列在两个混合实验中是相同的。它们最可能代表由于恰好位于断点处的单一核苷酸置换而逃脱过滤的嵌合人工产物。在剩余的错误CDR3中，分别有85％(n＝53)和75％(n＝55)是单一读段。为消除这种少部分的人工产物，本发明人提出对TCR免疫组库的高严格度数据分析应包括去除单拷贝CDR3读段的另一过滤器(频率阈值过滤器)。

表1

表2