CN106103711A

CN106103711A - T细胞受体和b细胞受体库分析系统及其在治疗和诊断中的应用

Info

Publication number: CN106103711A
Application number: CN201480073846.6A
Authority: CN
Inventors: 铃木隆二; 新井理
Original assignee: Group Ku Chuang Century Corp
Current assignee: Group Ku Chuang Century Corp; Repertoire Genesis Inc
Priority date: 2013-11-21
Filing date: 2014-11-20
Publication date: 2016-11-09
Also published as: JP2020074782A; EP3091074A4; US20220119884A1; JP6164759B2; EP3572510B1; WO2015075939A1; US11203783B2; EP3091074B1; JP6661106B2; JPWO2015075939A1; EP3572510A1; EP3091074A1; JP6661107B2; JP2017212988A; JP2018085985A; JP2022062068A; US20160289760A1

Abstract

使用无偏向的基因序列分析，定量分析T细胞受体(TCR)或B细胞受体(BCR)的可变区的库。本发明提供了：一种使用数据库定量分析受试对象的T细胞受体(TCR)或B细胞受体(BCR)的可变区的库的方法，其中，所述方法包括以下步骤：(1)提供核酸样品，该核酸样品包括以无偏向的方式从所述受试对象扩增的T细胞受体(TCR)或B细胞受体(BCR)的核酸序列；(2)确定在所述核酸样品中包括的核酸序列；以及，(3)基于确定的所述核酸序列，计算每一基因或其组合的出现频率，以获得所述受试对象的TCR库或BCR库。

Description

T细胞受体和B细胞受体库分析系统及其在治疗和诊断中的应用

技术领域

本发明涉及一种在不应用偏差的情况下从生物样品扩增通过基因重排产生的基因的技术，一种分析所得到的遗传信息的系统，及其治疗和诊断。

背景技术

利用免疫系统的生物防御机制严重依赖于主要由T细胞和B细胞提供的特异性免疫。T细胞和B细胞不对它们自身的细胞或分子作出反应，能够特异性识别并且攻击外源性病原体，诸如病毒或细菌。由于这个原因，T细胞和B细胞具有通过在细胞表面上表达的受体分子，能识别并且区分自身抗原以及来源于其他有机体的各种抗原的机制。T细胞受体(TCR)和B细胞受体(BCR)分别在T细胞和B细胞中起到抗原受体的作用。通过由这样的抗原受体的刺激来传递细胞内信号。增强炎性细胞因子、趋化因子等的产生，增加细胞增殖，并且启动各种免疫应答。TCR识别与在抗原递呈细胞(肽-MHC复合体，pMHC)上表达的主要组织相容性复合体(MHC)的肽结合槽结合的肽，以将自身和非自身区分开，并且识别抗原肽(非专利文献1)。TCR是由两个TCR多肽链组成的异源二聚体受体分子。存在由正常T细胞表达的αβTCR，和具有特殊功能的γδTCR。α链和β链TCR分子与多个CD3分子(CD3ζ链、CD3ε链、CD3γ链和CD3δ链)形成复合体，在抗原识别之后传递细胞内信号，并且启动多种免疫应答。在病毒感染时，内源性抗原，诸如来自癌细胞的癌抗原或在细胞内增殖的病毒抗原，被递呈为在MHC I类分子上的抗原肽。进一步地，抗原递呈细胞通过内吞作用获得并且加工来源于外源性微生物的抗原，然后递呈在MHC II类分子上。这样的抗原被CD8⁺T细胞和CD4⁺T细胞各自所表达的TCR识别。还已知，诸如CD28、ICOS或OX40分子的共刺激分子对于经由TCR分子的刺激来说是重要的。

TCR基因由基因组中不同区域编码的多个V区(可变区，V)、J区(连接区，J)、D区(多变区，D)和恒定区C区(C)组成。在T细胞分化过程中，这些基因片段以多种组合进行基因重排。α链和γ链TCR表达由V-J-C组成的基因，而β链和δ链TCR表达由V-D-J-C组成的基因。目前，IMGT(国际ImMuno GeneTics计划(International ImMuno GeneTics project))的数据库具有43种功能性α链TCR V基因片段(TRAV)、50种TCR J基因片段(TRAJ)、40～42种功能性β链TCR V基因片段(TRBV)、2种TCR D基因片段(TRBD)、13种TCR J基因片段(TRBJ)、4～6种功能性γ链V基因片段(TRGV)、5种TCR J基因片段(TRGJ)、3种功能性δ链V基因片段(TRDV)、3种TCR D基因片段(TRDD)和4种TCR J基因片段(TRDJ)(非专利文献2)。通过这些基因片段的重排，产生多样性。此外，在V基因片段和D基因片段之间或在D基因片段和J基因片段之间插入或缺失一个或多个碱基，导致随机氨基酸序列的形成，从而产生更多多样性的TCR基因序列。

TCR分子与pMHC复合体表面直接结合的区域(TCR足迹)由V区内的三个多样性互补确定区(CDR)CDR1区、CDR2区和CDR3区构成。CDR3区具体包括一部分V区、一部分J区和由随机序列形成的V-D-J区，形成最多样的抗原识别位点。同时，其它区域被称为FR(构架区)，用于形成TCR分子的骨架结构。胸腺中的T细胞在分化和成熟过程中，β链TCR最先进行基因重排，并且缀合pTα分子以形成前TCR复合体分子。然后，α链TCR进行重排形成αβTCR分子，并且当没有形成功能性αβTCR时，则在其他α链TCR基因等位基因中发生重排。已知在胸腺中进行正/负选择之后，选择出具有适当亲和力的TCR以获得抗原特异性(非专利文献3)。

已知BCR是免疫球蛋白(Ig)。膜结合的Ig作为BCR起到抗原受体分子的作用。它的分泌蛋白作为抗体被分泌到细胞外部。大量抗体从终末分化的浆细胞分泌出来，并且具有通过与诸如病毒或细菌的病原分子结合，或者通过随后的诸如补体结合反应的免疫反应来消除病原体的功能。BCR表达在B细胞表面上。在与抗原结合之后，BCR传递细胞内信号，以起始多种免疫应答或细胞增殖。在抗原结合位点处的氨基酸序列的多样性对BCR的特异性负责。抗原结合位点处的序列在BCR分子间变化极大，并且被称为可变部(V区)。同时，恒定区(C区)的序列在BCR分子或抗体分子间是高度保守的。这样的区域具有抗体的效应子功能或受体的信号传导功能。

除了存在或不存在膜结合结构域之外，BCR和抗体是相同的。Ig分子由多肽链，两个重链(H链)和两个轻链(L链)组成。在一个Ig分子中，两个H链，或一个H链和一个L链通过二硫键结合。在Ig中存在被称为μ链、α链、γ链、δ链和ε链的5种不同的H链种类(同种型)，这样的Ig被分别称为IgM、IgA、IgG、IgD和IgE。已知功能和作用通常根据同种型而改变，例如在生物防御中有功能的特异性水平高的抗体是IgG抗体，IgA抗体参与粘膜免疫，并且IgE抗体在变态反应、哮喘和特应性皮炎中很重要。进一步地，已知在同种型中存在几种亚类，诸如IgG1、IgG2、IgG3和IgG4。应理解，存在两种可与任意类H链结合的L链，λ链(IgL)和κ链(IgK)，并且它们之间没有功能上的差异(非专利文献4)。

与TCR基因一样，通过在体细胞中发生的基因重排形成BCR基因。在基因组中的少量分离的基因片段中编码可变部，这在细胞分化过程中诱导体细胞基因重排。H链的可变部的基因序列由与D区不同的限定同种型的C区(恒定区，C)、J区和V区组成。每一基因片段在基因组中是分离的，但是通过基因重排被表达为V-D-J-C基因串。IMGT的数据库具有38～44种功能性IgH链V基因片段(IGHV)、23种D基因片段(IGHD)、6种J基因片段(IGHJ)、34种功能性IgK链V基因片段(IGKV)、5种J基因片段(IGKJ)、29～30种功能性IgL链V基因片段(IGLV)和5种J基因片段(IGLJ)。这些基因片段经历了基因重排，以确保BCR的多样性。进一步地，与TCR一样，通过在氨基酸序列中进行随机插入或缺失，形成高度多样的CDR3区域(非专利文献2)。

在B细胞的分化和成熟过程中，不成熟的B细胞首先产生IgM。还未暴露于抗原的幼稚B细胞共表达IgM和IgD。通过抗原刺激进行刺激和活化之后，出现类型转换(同种型转换)，IgM的C区Cμ转变成IgG的C区序列Cγ，同时可变部的序列保持不变。类似地，Cμ转变成IgA的C区(Cα)或IgE的C区(Cε)，以产生IgA或IgG。随着这样的类型转换重组，产生了消除病原体所需的抗体类型。进一步地，在已经经历了类型转换的B细胞的增殖过程中，在IgG、IgA或IgE区的可变部中高频率地发生突变(体细胞高频突变)。结果，已获得了针对抗原的高水平特异性的B细胞被进一步刺激并且进行增殖，以便通过这一过程选择具有高水平特异性的产生抗体的B细胞(亲和力成熟)(非专利文献5)。

T细胞或B细胞产生对特定抗原具有高水平特异性的一种TCR或BCR。由于在活的生物体中有许多抗原特异性T细胞和B细胞，可形成多样性TCR库或BCR库，以有效起到抵御多种病原体的防御机制的作用。因此，对TCR库或BCR库的分析是分析单克隆性或免疫失调的有用的分析工具，其中TCR库或BCR库是免疫细胞的特异性或多样性的重要指示物。如果T细胞或B细胞应答于抗原而进行增殖，则在多样性库中观察到特定TCR或BCR基因的比率增加(克隆性增加)。已经尝试通过对TCR或BCR库进行分析，以根据克隆性的增加来检测肿瘤在表达TCR或BCR的淋巴细胞中的发育(非专利文献6)。进一步地，报道了在暴露于选择性刺激具有特定Vβ链的TCR的分子(诸如超抗原)时，特定Vβ链的使用频率增加(非专利文献7)。为了研究抗原特异性免疫应答，频繁用于分析由免疫失调诱导的难治的自体免疫性疾病，诸如类风湿性关节炎、系统性红斑狼疮、肖格伦综合征和特发性血小板减少性紫癜，并且已经证明了它是有用的。

常规的TCR库分析是用于检验样品中的T细胞使用了多少个V链的分析方法。方法之一是通过流式细胞术(FACS分析)，使用特定Vβ链的特定抗体，分析表达各Vβ链的T细胞的比率的方法。因为需要相对大量的细胞，因此该技术可用于分析包括很多淋巴细胞的外周血，但是不适用于组织材料的样品。进一步地，因为今天仍然没有与所有V链相容的抗体，因此不可能进行综合性分析。

除此之外，基于从人类基因组序列获得的TCR基因的信息，设计了使用分子生物学技术的TCR库分析。这是如下的方法：从细胞样品中提取RNA以合成互补DNA，然后通过PCR扩增且量化TCR基因。使用设计许多独特的TCR V链特异性引物以通过实时PCR等分别进行量化的方法，或者同时扩增这些特异性引物(多重PCR(Multiple PCR))的方法是常规的。但是，即使使用各V链的内源性对照进行量化，也不可能在使用大量引物时进行准确的分析。进一步地，多重PCR的缺点在于，在引物间扩增效率的差异产生了PCR扩增的偏向性。为了克服多重PCR的这一缺点，鹤田等人报道了接头连接PCR，该接头连接PCR向TCR基因的双链互补DNA的5′末端添加接头，然后使用通用接头引物和C区特异性引物扩增所有γδTCR基因(非专利文献8)。进一步地，开发了适用于使用对各V链特异的寡探针(oligoprobe)扩增αβTCR基因以进行量化的方法，即反向斑点杂交(Reverse dot blot)(非专利文献9)和微孔板杂交测定(Microplate hybridization assay)(非专利文献10)。这些方法是不引入偏向的扩增TCR基因的优秀方法。但是，几乎不能获得除了V链使用频率之外的其它任何信息。CDR3区域、J链、D链或抗原识别位点的碱基序列信息等，需要随后对TCR基因的互补链DNA进行克隆，并且确定碱基序列。

近几年，快速发展的下一代序列分析技术已经能够进行基因的大规模碱基序列确定。通过PCR从人类样品中扩增TCR基因并且使用下一代序列分析技术，可以实现下一代TCR库分析方法，用于从获得小规模且受限于V链使用频率等的信息的TCR库分析中，获得和分析更详细的克隆水平的遗传信息。在本上下文中，开发了几种下一代TCR库分析方法(专利文献1和专利文献2)，同时还进行了其它尝试(专利文献3～11)。

[引用列表]

[专利文献]

[PTL 1]国际公开号WO 2009/137255

[PTL 2]国际公开号WO 2013/059725

[PTL 3]日本特许公开号10-229897

[PTL 4]日本国家阶段PCT特许公开号2007-515154

[PTL 5]日本国家阶段PCT特许公开号2012-508011

[PTL 6]日本特许公开号2013-116116

[PTL 7]日本国家阶段PCT特许公开号2013-524848

[PTL 8]日本国家阶段PCT特许公开号2013-524849

[PTL 9]国际公开号WO 2013/033721A1

[PTL 10]国际公开号WO 2013/043922A1

[PTL 11]国际公开号WO 2013/044234A1

[非专利文献]

[非专利文献1]Cell 1994，76，287-299

[非专利文献2]Nucleic Acid Research，2009，37(suppl1)，D1006-D1012.

[非专利文献3]Annual Review Immunology，1993，6，309-326

[非专利文献4]Annual Review Immunology，2000，18，495-527

[非专利文献5]Proc Natl Acad Sci，1993，90，2385-2388

[非专利文献6]Leukemia Research，2003，27，305-312

[非专利文献7]Immunology 1999，96，465-72.

[非专利文献8]Journal of Immunological Methods，1994，169，17-23

[非专利文献9]Journal of Immunological Methods，1997，201，145-15.

[非专利文献10]Human Immunology，1997，56，57-69

发明内容

[问题的解决方案]

本发明是与分析方法和分析系统相关的发明，该分析方法和分析系统适用于：(1)在没有施加偏向的情况下，扩增通过基因重排从基因组上的多个基因片段产生的TCR或BCR基因序列的技术(无偏向的基因扩增技术)；和(2)用于通过下一代测序方法大规模测定由无偏向的基因扩增技术扩增的TCR基因或BCR基因的碱基序列，分配V区、D区、J区和C区，并且分析TCR库或BCR库的技术。

对于TCR或BCR，通过基因组上的V区、D区、J区和C区的多个基因片段的基因重排，产生多样性的基因序列。产生对存在大量V区或J区特异的大量引物并在同一或单独的反应溶液中进行扩增的技术被广泛用于通过下一代测序技术测定TCR基因或BCR基因的碱基序列。但是，引物间在扩增效率上的差异，是在以指数方式扩增少量基因的PCR扩增中的关键问题。进一步地，针对V区和J区设置的引物与所有已知的等位基因序列相适是必要的。通过BCR基因的体细胞高频突变机制，在IgG、IgA或IgE的可变部区域中高频(高达约20％)引入点突变。因此，如果设置20个碱基引物，则约4个碱基有错配。因此，使用常规方法难以实现均一的基因扩增。也就是说，基于基因组序列设计V链特异性引物的已知方法不能避免与实际BCR基因序列的错配，因而不能保证定量的基因扩增。进一步地，BCR具有由C区序列定义的同种型和亚类。有必要开发一种利用同种型或亚类间碱基序列的差异，量化各同种型或亚类的方法。为了克服目前应用中使用V链特异性引物的技术的缺点，发明人完成了一种使用由一种正向引物和一种反向引物组成的一组引物在不改变存在频率的情况下，扩增包括所有同种型和亚型基因的TCR基因或BCR基因，并使用下一代测序大规模测定碱基序列的方法。

重点放在TCR基因或BCR基因的基因结构上。在不设置高度多样性V区的引物的情况下，向其5′末端添加接头序列(adaptor sequence)，以扩增包括所有V区的基因。

这样的接头在碱基序列上可具有任意长度或序列。约20个碱基对是最佳的，但可使用10个碱基至100个碱基的序列。

使用限制性内切酶去除添加到3′末端的接头。此外，使用与20碱基对的接头有同一序列的接头引物，和对为共有序列的C区特异性的反向引物的扩增来扩增所有的TCR基因或BCR基因。

使用逆转录酶从TCR或BCR基因信使RNA合成互补链DNA，然后合成双链互补DNA。通过逆转录反应或双链合成反应，合成包括不同长度的V区的双链互补DNA。通过DNA连接酶反应，将由20碱基对和10碱基对组成的接头，添加到这些基因的5′末端部分。

可通过在BCR的μ链、α链、δ链、γ链或ε链的重链或κ链或λ链的轻链的C区中，以及TCR的α链、β链、γ链或δ链的C区中设置反向引物，来扩增所述基因。

作为C区中的反向引物组，设置引物，该引物与TCR的Cβ、Cα、Cγ和Cδ的每一种的序列以及BCR的Cμ、Cα、Cδ、Cγ、Cε、Cκ和Cλ的每一种的序列匹配，且与不被引发的其他C区序列具有错配。

在考虑碱基序列、碱基组成、DNA熔解温度(Tm)或自互补序列的存在的基础上优化C区的反向引物，以便可以使用接头引物进行扩增。

可使用相同的引物，扩增各BCR基因的IgG亚型(γ1、γ2、γ3和γ4)和IgA亚型(α1和α2)，以通过测定碱基序列来确定亚型。

引物可设置在C区序列中在等位基因序列间不同的碱基序列之外的其他区域中，以均一扩增所有等位基因。

进行多个阶段的巢式PCR，以增强扩增反应的特异性。

对于不包括在等位基因序列间不同的序列的引物序列，引物候选序列的长度(碱基数)没有特别限制。但是，碱基数为10～100，优选为15～50，更优选为20～30。因此，本发明还提供了以下内容。

<在硅片上>

在一个方面中，本发明涉及基于一组来源于生物样品的表达的TCR或BCR基因序列，分析TCR库或BCR库的技术。

对于任意V(-D)-J-C系列的核酸序列，本发明不依赖于测序仪的型号。即没有偏向，也可以进行分类自身。输入可以是正链或互补链。

对于核酸序列的分类，常常设置参照数据库，该参照数据库具有用作分类的基线的积累的标准序列(下文中，被称为参照序列)，并且通过同源性搜索技术向参照序列之一分配各核酸序列。但是，在这种情况中，需要通过组合V、D和J的每一区域来制备大量的参照序列，这是不实际的。设置V、D和J各自的参照数据库的技术是可以想到的。但是，由于V中的随机突变，参照序列的差异会很大。进一步地，D和J具有较短区域。因此，对于常见的同源性搜索技术来说，不能忽视疏忽的可能性。将分析的受试对象的整个核酸序列翻译成氨基酸序列并且通过资料对序列进行分类的技术是可以想到的。但是，这样的技术特别容易发生插入/缺失的测序错误，并且之前报道的基因名称和等位基因之间的关系是未知的，因此难以使用已知的信息。

为V、D和J(以及BCR的C)基因区域分别制备本发明中使用的参照数据库。典型地，核酸序列数据组用于IMGT公开的每一等位基因或每一区域，但并不限于此。可使用具有分配给每一序列的唯一ID的任意数据组。

对于在本发明中使用的输入序列组，接头序列或低质量区通常事先进行修剪，并且仅提取对于分析足够长的序列以构建高质量的组。这一步骤不是必需的，但是用在优选的实施方式中。这是因为即使没有这样的处理，LQ序列也会简单地是“不可归类的”。

在本发明中使用的输入序列组搜索与每一基因区域的参照数据库的同源性，并记录与最接近的参照等位基因及其序列的比对。在这一方面，使用对除了C之外的错配具有高耐受性的算法进行同源性搜索。例如，当使用常见的同源性搜索程序，诸如BLAST时，为每一区域设置诸如缩短窗口大小、减少错配处罚或减少空位处罚等设置。通过使用同源性评分、比对长度、核心长度(连续匹配的碱基序列的长度)和匹配碱基的数目作为按照定义的顺序或优先级所应用的标示，来选择最接近的参照等位基因。

对于本发明中使用的具有确定的V和J的输入序列，使用参照V上的CDR3的前部和参照J上的CDR3的末端作为标记，提取CDR3序列。将其翻译成氨基酸序列，用于对D区进行分类。当制备D区的参照数据库时，使用同源性搜索的结果和氨基酸序列翻译的结果的组合作为分类结果。

鉴于以上内容，为输入组中的每一序列，分配V、D和J(以及BCR的C)的每一等位基因。随后计算整个输入组中的V、D和J(以及BCR的C)各自的出现频率或其组合的出现频率，以获得TCR或BCR库。依赖于分类所需的精确度，以等位基因为单位或以基因名称为单位计算出现频率。通过将各等位基因翻译成基因名称，可以基因名称为单位计算出现频率。因此，本发明还提供了以下内容。

<1>一种分析TCR库或BCR库的方法，该方法包括以下步骤：

(1)为包括V区、D区、J区和可选的C区中的至少一个的各基因区域，提供参照数据库；

(2)提供输入序列组，所述输入序列组可选地经修剪且可选地经提取以具有适当的长度；

(3)搜索所述输入序列组与各基因区域的参照数据库的同源性，并且记录与近似参照等位基因和/或参照等位基因的序列的比对；

(4)为所述输入序列组分配V区和J区，并且基于分配的结果提取D区的核酸序列；

(5)将D区的核酸序列翻译成氨基酸序列，并且利用所述氨基酸序列对D区进行分类；以及

(6)基于在(5)中进行的分类，计算V区、D区和J区和可选的C区各自的出现频率或其组合的出现频率，以获得TCR或BCR库。

<2>项目<1>的方法，其中，所述基因区域包括所有的V区、D区和J区和可选的C区。

<3>项目<1>～<2>中任一项的方法，其中，所述参照数据库是具有分配给每一序列的唯一ID的数据库。

<4>项目<1>～<3>中任一项的方法，其中，所述输入序列组是无偏向的序列组。

<5>项目<1>～<4>中任一项的方法，其中，所述序列组是经修剪的。

<6>项目<1>～<5>中任一项的方法，其中，所述修剪通过以下步骤完成：从解读遗传密码的两端删除低质量的区域；从所述解读遗传密码的两端删除与接头序列匹配10bp或更多的区域；以及，当剩余的长度为200bp或更多(TCR)或者为300bp或更多(BCR)时，使用所述解读遗传密码作为分析中的高质量的解读遗传密码。

<7>项目<6>的方法，其中，所述低质量指小于30的QV值的7bp移动平均值。

<8>项目<1>～<7>中任一项的方法，其中，近似序列是最接近的序列。

<9>项目<1>～<8>中任一项的方法，其中，所述近似序列通过以下各项的排名来确定：1、匹配碱基的数目，2、核心长度，3、评分，和4、比对长度。

<10>项目<1>～<9>中任一项的方法，其中，所述同源性搜索是在容许分散在各处的随机突变的条件下进行的。

<11>项目<1>～<10>中任一项的方法，其中，与缺省条件相比，所述同源性搜索包括以下至少一个条件：(1)窗口大小的缩短，(2)错配处罚的减少，(3)空位处罚的减少，和(4)标示物的最优先排名的是匹配碱基的数目

<12>项目<1>～<11>中任一项的方法，其中，在BLAST或FASTA中的以下条件下进行同源性搜索：

V错配处罚＝-1，最短比对长度＝30，且最短核心长度＝15；

D字长＝7(对于BLAST)或K-tup＝3(对于FASTA)，错配处罚＝-1，空位处罚＝0，最短比对长度＝11，且最短核心长度＝8；

J错配处罚＝-1，最短命中长度(hit length)＝18，且最短核心长度＝10；并且

C最短命中长度＝30且最短核心长度＝15。

<13>项目<1>～<12>中任一项的方法，其中，通过所述氨基酸序列的出现频率对D区进行分类。

<14>项目<1>～<13>中任一项的方法，其中，当在步骤(5)中存在D区的参照数据库时，则使用CDR3的核酸序列的同源性搜索的结果和氨基酸序列翻译的结果的组合，作为分类结果。

<15>项目<1>～<14>中任一项的方法，其中，当在步骤(5)中没有D区的参照数据库时，则仅使用氨基酸序列的出现频率进行分类。

<16>项目<1>～<15>中任一项的方法，其中，以基因名称为单位和/或等位基因为单位，对出现频率进行计数。

<17>项目<1>～<16>中任一项的方法，其中，步骤(4)包括以下步骤：为输入序列组分配V区和J区，并且使用参照V区上的CDR3前部和参照J上的CDR3的末端作为标记，提取CDR3序列。

<18>项目<1>～<17>中任一项的方法，其中，步骤(5)包括将CDR3的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类。

<19>一种分析TCR库或BCR库的系统，其中该系统包括：

(1)为每个包括V区、D区、J区和可选的C区中的至少一个的基因区域提供参照数据库的单元；

(2)用于提供输入序列组的单元，所述输入序列组可选地经修剪且可选地经提取以具有适当的长度；

(3)用于搜索所述输入序列组与各基因区域的所述参照数据库的同源性，并且记录与近似参照等位基因和/或参照等位基因的序列的比对的单元；

(4)用于为所述输入序列组分配V区和J区，并且基于分配的结果提取D区的核酸序列的单元；

(5)用于将所述D区的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类的单元；以及

(6)用于计算在所述输入序列组中，V区、D区和J区和可选的C区各自的出现频率或其组合的出现频率，以获得所述TCR库或所述BCR库的单元。

<19A>项目<19>的所述系统，具有项目<1>～<18>中任一项的一个或多个特征。

<20>一种计算机程序，所述计算机程序用于对分析TCR库或BCR库的方法进行计算机执行处理，所述方法包括以下步骤：

(3)搜索所述输入序列组与各基因区域的所述参照数据库的同源性，并且记录与近似参照等位基因和/或参照等位基因的序列的比对；

(5)将所述D区的核酸序列翻译成氨基酸序列，并且利用所述氨基酸序列对D区进行分类；以及

(6)计算在所述输入序列组中，V区、D区和J区和可选的C区各自的出现频率或其组合的出现频率，以获得所述TCR库或所述BCR库。

<20A>项目<20>的所述程序，具有项目<1>～<18>中任一项的一个或多个特征。

<21>一种用于储存计算机程序的存储介质，所述计算机程序用于对分析TCR库或BCR库的方法进行计算机执行处理，所述方法包括以下步骤：

(1)为包括V区、D区、J区和可选的C区中的至少一个的各基因区域提供参照数据库；

<21A>项目<21>的所述的存储介质，具有项目<1>～<18>中任一项的一个或多个特征。

<湿式>

在另一方面中，本发明是：(1)在没有施加偏向的情况下，均一扩增通过基因重排从基因组中的多个基因片段产生的TCR或BCR基因序列的技术(无偏向的基因扩增技术)；和(2)用于通过下一代测序方法大规模测定由无偏向的基因扩增技术扩增的TCR基因或BCR基因的碱基序列，分配V区、D区、J区和C区，并且分析TCR库或BCR库的技术。

对于TCR或BCR，通过基因组上的V区、D区、J区和C区的多个基因片段的基因重排，产生多样性的基因序列。产生对存在的大量V区或J区特异的大量引物并在同一或单独的反应溶液中进行扩增的技术被广泛用于通过下一代测序技术确定TCR基因或BCR基因的碱基序列。但是，引物间在扩增效率上的差异，是在以指数方式扩增少量基因的PCR扩增中的关键问题。进一步地，针对V区和J区设置的引物与所有已知的等位基因序列相适是必要的。通过BCR基因的体细胞高频突变机制，在IgG、IgA或IgE的可变部区域中高频(高达约20％)引入点突变。因此，如果设置20碱基引物，则约4个碱基有错配。因此，使用常规方法难以实现均一的基因扩增。也就是说，基于基因组序列设计V链特异性引物的已知方法不能避免与实际BCR基因序列的错配，因而不能保证定量的基因扩增。进一步地，BCR具有由C区序列定义的同种型和亚类。有必要开发一种利用同种型或亚类间碱基序列的差异，量化各同种型或亚类的方法。为了克服目前应用中使用V链特异性引物的技术的缺点，发明人完成了一种使用由一种正向引物和一种反向引物组成的一组引物在不改变存在频率的情况下，扩增包括所有同种型和亚型基因的TCR基因或BCR基因，且使用下一代测序大规模确定碱基序列的方法。

重点放在TCR基因或BCR基因的基因结构上。在不设置高度多样性V区的引物的情况下，向其5′末端添加接头序列，以扩增包括所有V区的基因。

使用限制性内切酶去除添加到3′末端的接头。此外，C区具有20个碱基对接头与同一序列的接头引物的共用序列，通过使用对C区特异性的反向引物的扩增来扩增所有的TCR基因或BCR基因。

进行多个阶段的巢式PCR，以增强扩增反应的特异性。

<A1>一种制备样品的方法，所述样品用于使用数据库通过基因序列分析，来定量分析T细胞受体(TCR)或B细胞受体(BCR)的可变区的库，所述方法包括以下步骤：

(1)使用来源于靶细胞的RNA样品作为模板，合成互补DNA；

(2)使用所述互补DNA作为模板，合成双链互补DNA；

(3)通过向所述双链互补DNA添加通用接头引物序列，合成添加接头的双链互补DNA；

(4)使用所述添加接头的双链互补DNA、由所述通用接头引物序列组成的通用接头引物和第一TCR或BCR的C区特异性引物，进行第一PCR扩增反应，

其中，所述第一TCR或BCR的C区特异性引物被设计为包括对TCR或BCR的感兴趣的C区具有足够特异性且与其它基因序列非同源的序列，并且包括在扩增时下游在亚型之间不一致的碱基；

(5)使用(4)的PCR扩增子、所述通用接头引物和第二TCR或BCR的C区特异性引物进行第二PCR扩增反应，其中，所述第二TCR或BCR的C区特异性引物被设计为具有与所述TCR或BCR的C区在所述第一TCR或BCR的C区特异性引物序列下游的序列完全匹配的序列，但包括与其它基因序列非同源的序列，并且包括在扩增时下游在亚型之间不一致的碱基；以及

(6)使用(5)的PCR扩增子、添加的通用接头引物和添加接头的第三TCR或BCR的C区特异性引物进行第三PCR扩增反应，其中，在所述添加的通用接头引物中，所述通用接头引物的核酸序列包括第一额外的接头核酸序列；在所述添加接头的第三TCR或BCR的C区特异性引物中，第二额外的接头核酸序列和分子鉴定(MID标签)序列被添加到第三TCR或BCR的C区特异性序列；其中

所述第三TCR或BCR的C区特异性引物被设计为具有与所述TCR或BCR的C区在所述第二TCR或BCR的C区特异性引物序列下游的序列完全匹配的序列，但包括与其它基因序列非同源的序列，并且包括在扩增时下游在亚型之间不一致的碱基，

所述第一额外的接头核酸序列是适于与DNA捕获珠结合且适于进行emPCR反应的序列，

所述第二额外的接头核酸序列是适于进行emPCR反应的序列，并且

所述分子鉴定(MID标签)序列是赋予唯一性以便能鉴定出扩增子的序列。

<A2>项目<A1>的方法，其中，对于BCR，所述C区特异性引物包括与选自由IgM、IgA、IgG、IgE和IgD组成的组中感兴趣的同种型C区完全匹配，但与其他C区不同源的序列，并且是与IgA或IgG的亚型IgG1、IgG2、IgG3和IgG4之一或IgA1或IgA2之一完全匹配的序列；或者，对于TCR，所述C区特异性引物是与选自由α链、β链、γ链和δ链组成的组中的感兴趣的链的C区完全匹配，且与其他C区不同源的序列。

<A3>项目<1>或<A2>的方法，其中，选择数据库中与相同的同种型的所有C区等位序列完全匹配的一部分序列，用于C区特异性引物。

<A4>项目<A1>～<A3>中任一项的方法，其中，所述通用接头引物被设计以便所述引物不可能具有同源二聚体和分子内的发夹结构，并且能稳定形成双链，并且被设计为与数据库中的所有TCR基因序列都没有高度同源性，并且具有与C区特异性引物相同的水平的溶解温度(Tm)。

<A5>项目<A4>的方法，其中，选择被设计为不具有同源二聚体和分子内发夹结构，并且与包括BCR或TCR的其它基因不具有同源性的所述通用接头引物。

<A6>项目<A5>的方法，其中，所述通用接头引物是P20EA(SEQ ID NO：2)和/或P10EA(SEQ ID NO：3)。

<A7>项目<A1>～<A6>中任一项的方法，其中，第一、第二和第三TCR或BCR的C区特异性引物各自独立地是用于BCR库分析的引物，选定的引物是与IgM、IgG、IgA、IgD或IgE的各同种型C区完全匹配、与IgG和IgA的亚型完全匹配并且与数据库中所包括的其它序列没有同源性的序列，并且在亚型之间包括引物下游的不一致的碱基；并且

其中，所述通用接头引物序列被设计以便该序列具有适于扩增的碱基长度，不可能具有同源二聚体和分子内的发夹结构并且能稳定形成双链，并且被设计为与数据库中的所有TCR基因序列都没有高度同源性，并且具有与C区特异性引物相同水平的Tm。

<A8>项目<A1>～<A7>中任一项的方法，其中，第一、第二和第三TCR的C区特异性引物各自独立地是用于TCR或BCR库分析的引物，选定的各引物是如下的序列：该序列与一种类型的α链(TRAC)、两种类型的β链(TRBCO1和TRBCO2)、两种类型的γ链(TRGC1和TRGC2)和一种类型的δ链(TRDC1)完全匹配，并且与数据库中所包括的其它序列没有同源性，并且在亚型之间包括引物下游的不一致的碱基，

所述通用接头引物序列被设计以便该序列具有适于扩增的碱基长度，不可能具有同源二聚体和分子内的发夹结构并且能稳定形成双链，并且被设计为与数据库中的所有TCR基因序列都没有高度同源性，并且具有与C区特异性引物相同的水平的Tm。

<A9>项目<A1>～<A8>中任一项的方法，其中，将第三TCR或BCR的C区特异性引物设置在从C区的5’末端侧直到约150个碱基的区域中，并且将第一TCR或BCR的C区特异性引物和第二TCR或BCR的C区特异性引物设置在C区的5’末端侧至300个碱基之间。

<A10>项目<A1>～<A9>中任一项的方法，其中，第一、第二和第三TCR或BCR的C区特异性引物各自独立地用于BCR定量分析，

其中，将分离的特异性引物设置成5种类型的同种型序列，并且引物被设计为完全匹配靶序列并且确保与其它同种型有5个碱基或更多的错配，并且被设计为与所有亚型都完全匹配，以便一种类型的引物可与各类似的IgG亚型(IgG1、IgG2、IgG3和IgG4)或IgA亚型(IgA1和IgA2)相适。

<A11>项目<A1>～<A10>中任一项的方法，其中，将引物设计中的参数设置为：18～22个碱基的碱基序列长度；54～66℃的熔解温度；和40～65％的％GC(％鸟嘌呤胞嘧啶含量)。

<A12>项目<A1>～<A11>中任一项的方法，其中，将引物设计中的参数设置为：18～22个碱基的碱基序列长度；54～66℃的熔解温度；和40～65％的％GC(％鸟嘌呤胞嘧啶含量)；自退火评分为26；自末端退火评分为10；和次级结构评分为28。

<A13>项目<A1>～<A12>中任一项的方法，其中，在以下条件下，测定第一、第二和第三TCR或BCR的C区特异性引物的序列：

1、将多种亚型序列和/或等位基因序列上传到碱基序列分析软件中并且进行比对；

2、使用引物设计软件，来搜索满足C区中的参数条件的多种引物；

3、在1中的比对序列中没有错配碱基的区域中选择引物；和

4、确认3中测定的引物下游，每一亚型和/或等位基因的多种错配序列的存在，并且如果没有这样的序列，则进一步向上游搜索引物，如果需要则进一步重复。

<A14>项目<A1>～<A13>中任一项的方法，其中，将第一TCR或BCR的C区特异性引物设置在，以通过剪接产生的C区序列的第一个密码子的第一个碱基作为基线的、碱基41～300的位置中；将第二TCR或BCR的C区特异性引物设置在以上述第一个碱基作为基线的、碱基21～300的位置中；并且，第三TCR或BCR的C区特异性引物设置在以上述第一个碱基作为基线的、在150个碱基或更少碱基之内的位置中；并且，上述位置包括亚型和/或等位基因中的错配位点。

<A15>项目<A1>～<A14>中任一项的方法，其中，第一TCR或BCR的C区特异性引物具有以下结构：CM1(SEQ ID NO：5)、CA1(SEQ ID NO：8)、CG1(SEQ ID NO：11)、CD1(SEQ ID NO：14)、CE1(SEQ ID NO：17)、CA1(SEQ ID NO：35)或CB1(SEQ ID NO：37)。

<A16>项目<A1>～<A15>中任一项的方法，其中，第二TCR或BCR的C区特异性引物具有以下结构：CM2(SEQ ID NO：6)、CA2(SEQ ID NO：9)、CG2(SEQ ID NO：12)、CD2(SEQ ID NO：15)、CE2(SEQ ID NO：18)、CA2(SEQ ID NO：35)或CB2(SEQ ID NO：37)。

<A17>项目<A1>～<A16>中任一项的方法，其中，第三TCR或BCR的C区特异性引物具有以下结构：CM3-GS(SEQ ID NO：7)、CA3-GS(SEQ ID NO：10)、CG3-GS(SEQ ID NO：13)、CD3-GS(SEQ ID NO：16)或CE3-GS(SEQ ID NO：19)。

<A18>项目<A1>～<A17>中任一项的方法，其中，各TCR或BCR的C区特异性引物提供为与所有TCR或BCR亚类相适的组。

<A19>一种使用项目<A1>～<A18>中任一项的方法制造的样品进行基因分析的方法。

<A20>项目<A19>的方法，其中，所述基因分析是定量分析T细胞受体(TCR)或B细胞受体(BCR)的可变区的库。

<分析系统>

<B1>一种使用数据库定量分析受试对象的T细胞受体(TCR)或B细胞受体(BCR)的可变区的库的方法，其中，所述方法包括：

(1)提供核酸样品，该核酸样品包括以无偏向的方式从所述受试对象扩增的T细胞受体(TCR)或B细胞受体(BCR)的核酸序列；

(2)测定在所述核酸样品中包括的核酸序列；以及，

(3)基于所测定的核酸序列，计算每一基因或其组合的出现频率，以获得所述受试对象的TCR库或BCR库。

<B2>项目<B1>的方法，其中，所述核酸样品包括多种类型的T细胞受体(TCR)或B细胞受体(BCR)的核酸序列，并且步骤(2)通过一次测序测定所述核酸序列。

<B3>项目<B2>的方法，其中，所述一次测序的特征在于，在将所述核酸样品扩增为测序样品中用作引物的至少一个序列具有与编码C区的核酸序列或其互补链相同的序列。

<B4>项目<B2>或<B3>的方法，其中，所述一次测序的特征在于，是使用通用接头引物进行的。

<B5>项目<B1>～<B4>中任一项的方法，其中，所述无偏向的扩增不是V区特异性扩增。

<B6>项目<B1>～<B5>中任一项的方法，其中，所述库是BCR的可变区的库，并且所述核酸序列是BCR核酸序列。

<B7>一种基于<B1>～<B6>中任一项获得的TCR库或BCR库分析受试对象的疾病、失调或病症的方法。

<B8>项目<B7>的方法，其中，所述受试对象的疾病、失调或病症选自由血液肿瘤和结直肠癌组成的组。

<B9>一种治疗或预防通过项目<B7>或<B8>的方法确定的受试对象的疾病、失调或病症的方法，包括：使所述受试对象的疾病、失调或病症与所述TCR库或所述BCR库定量关联；以及，根据所述定量关联，选择适当的治疗或预防方法。

<B10>项目<B9>的方法，其中，所述受试对象的疾病、失调或病症选自由血液肿瘤和结直肠癌组成的组。

<B11>一种使用数据库定量分析受试对象的T细胞受体(TCR)或B细胞受体(BCR)的可变区的库的系统，其中，所述系统包括：

(1)用于提供核酸样品的试剂盒，所述核酸样品包括以无偏向的方式从所述受试对象扩增的T细胞受体(TCR)或B细胞受体(BCR)的核酸序列；

(2)用于测定在所述核酸样品中包括的核酸序列的设备；以及

(3)用于基于所测定的核酸序列，计算每一基因或其组合的出现频率，以获得所述受试对象的TCR库或BCR库的设备。

<B12>项目<B11>的系统，其中，所述核酸样品包括多种类型的T细胞受体(TCR)或B细胞受体(BCR)的核酸序列，并且步骤(2)通过一次测序测定所述核酸序列。

<B13>项目<B12>的系统，其中，所述一次测序的特征在于，在将所述核酸样品扩增为测序样品中用作引物的至少一个序列具有与编码C区相同的序列。

<B14>项目<B12>或<B13>的系统，其中，所述一次测序的特征在于，是使用通用接头引物进行的。

<B15>项目<B11>～<B14>中任一项的系统，其中，所述无偏向的扩增不是V区特异性扩增。

<B16>项目<B11>～<B15>中任一项的系统，其中，所述库是BCR的可变区的库，并且所述核酸序列是BCR核酸序列。

<B17>一种分析受试对象的疾病、失调或病症的系统，包括：项目<B11>～<B16>中任一项的系统；以及，基于所述系统导出的所述TCR库或所述BCR库，分析所述受试对象的疾病、失调或病症的单元。

<B18>项目<B17>的系统，其中，所述受试对象的疾病、失调或病症选自由血液肿瘤和结直肠癌组成的组。

<B19>一种治疗或预防通过项目<B17>或<B18>的系统确定的受试对象的疾病、失调或病症的系统，包括：用于使所述受试对象的疾病、失调或病症与所述TCR库或所述BCR库定量关联的单元；以及，用于根据所述定量关联，选择适当的治疗或预防方法的单元。

<B20>项目<B19>的系统，其中，所述受试对象的疾病、失调或病症选自由血液肿瘤和结直肠癌组成的组。

<B21>一种与T细胞大颗粒淋巴细胞白血病(T-LGL)相关的单克隆T细胞，该单克隆T细胞表达TCRα和/或TCRβ，其中TCRα包括TRAV10/TRAJ15/CVVRATGTALIFG(SEQ ID NO：1450)或其编码核酸，TCRβ包括TRBV29-1/TRBJ2-7/CSVERGGSLGEQYFG(SEQ ID NO：1500)或其编码核酸。

<B22>TCRα中的TRAV10/TRAJ15/CVVRATGTALIFG(SEQ ID NO：1450)或其编码核酸，和/或TCRβ中的TRBV29-1/TRBJ2-7/CSVERGGSLGEQYFG(SEQ ID NO：1500)或其编码核酸，作为T细胞大颗粒淋巴细胞白血病(T-LGL)的诊断标示物的应用。

<B23>一种检测T细胞大颗粒淋巴细胞白血病(T-LGL)的方法，包括检测TCRα中的TRAV10/TRAJ15/CVVRATGTALIFG(SEQ ID NO：1450)或其编码核酸，和/或TCRβ中的TRBV29-1/TRBJ2-7/CSVERGGSLGEQYFG(SEQ ID NO：1500)或其编码核酸。

<B24>一种用于TCRα中的TRAV10/TRAJ15/CVVRATGTALIFG(SEQ ID NO：1450)或其编码核酸，和/或TCRβ中的TRBV29-1/TRBJ2-7/CSVERGGSLGEQYFG(SEQ ID NO：1500)或其编码核酸的检测试剂。

<B25>一种T细胞大颗粒淋巴细胞白血病(T-LGL)的诊断试剂，包括用于TCRα中的TRAV10/TRAJ15/CVVRATGTALIFG(SEQ ID NO：1450)或其编码核酸，和/或TCRβ中的TRBV29-1/TRBJ2-7/CSVERGGSLGEQYFG(SEQ ID NO：1500)或其编码核酸的检测试剂。

<B26>一种肽，所述肽是新的不变的TCR，包括如SEQ ID NOs：1627～1647所示序列中的任一序列。

<B27>一种粘膜相关的恒定T(MAIT)细胞的标示肽，包括选自由SEQ ID NOs：1648～1651、1653～1654、1666～1667、1844～1848和1851组成的组中的序列。

<B28>一种编码项目<B27>的肽的核酸。

<B29>项目<B27>或<B28>的肽或编码该肽的核酸作为结直肠癌的诊断标示物的应用。

<B30>一种自然杀伤T细胞(NKT)的标示肽，包括SEQ ID NO：1668所示的序列。

<B31>一种编码项目<B30>的肽的核酸。

<B32>项目<B30>或<B31>的肽或编码该肽的核酸作为结直肠癌的诊断标示物的应用。

<B33>一种结直肠癌特异性肽，包括选自由SEQ ID NOs：1652、1655～1665、1669～1843、1849～1850和1852～1860组成的组中的序列。

<B34>一种编码项目<B33>的肽的核酸。

<B35>项目<B33>或<B34>的肽或编码该肽的核酸作为结直肠癌的诊断标示物的应用。

<B36>一种结直肠癌特异性肽，包括选自由SEQ ID NOs：1861～1865和1867～1909组成的组中的序列。

<B37>一种编码项目<B36>的肽的核酸。

<B38>项目<B36>或<B37>的肽或编码该肽的核酸作为结直肠癌的诊断标示物的应用。

<B39>一种高频率诱导T细胞的细胞群、T细胞株或重组表达的T细胞，具有项目<B33>、<B34>、<B36>或<B37>的肽或编码该肽的核酸序列。

<B40>一种结直肠癌的治疗剂，包括项目<B39>的细胞群、T细胞株或T细胞。

<B41>一种使用项目<B39>的细胞群、T细胞株或T细胞治疗或预防结直肠癌的方法。

<B42>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，检测V基因的使用频率的方法。

<B43>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，检测J基因的使用频率的方法。

<B44>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，检测亚型频率分析(BCR)的使用频率的方法。

<B45>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，分析CDR3序列长度的模式(pattern)的方法。

<B46>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，分析TCR或BCR的克隆性的方法。

<B47>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，提取重叠的解读遗传密码的方法。

<B48>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，搜索疾病特异性TCR或BCR克隆的方法。

<B49>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，采用多样性指数分析受试对象的方法。

<B50>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，采用多样性指数对受试对象进行辅助分析的方法。

<B51>项目<B49>或<B50>的方法，其中，所述多样性指数用作在骨髓移植之后，测量免疫系统的恢复程度的标示物，或者用作检测伴随造血系统肿瘤的免疫系统细胞中的异常的标示物。

<B52>项目<B49>或<B50>的方法，其中，所述多样性指数选自由香农-维纳(Shannon-Wiener)多样性指数(H’)、辛普森(Simpson)多样性指数(λ、1-λ或1/λ)、皮卢(Pielou)均匀度指数(J’)和超(Chao)1指数组成的组。

<B53>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，通过相似性指数分析受试对象的方法。

<B54>一种使用项目<B1>～<B10>中任一项的方法或项目<B11>～<B20>中任一项的系统，通过相似性指数辅助分析受试对象的方法。

<B55>项目<B53>或<B54>的方法，其中，所述相似性指数用作匹配和错配的HLA类型之间的库的相似性程度的评估，或者用作骨髓移植之后受体和供体之间的库的相似性程度的评估。

<B56>项目<B53>或<B54>的方法，其中，所述相似性指数选自由森下-霍恩(Morisita-Horn)指数、木元Cπ指数或宾卡(Pianka)α指数组成的组。

<B57>项目<B1>的方法，其中，所述(1)包括以下步骤：

(1-1)使用来源于靶细胞的RNA样品作为模板，合成互补DNA；

(1-2)使用所述互补DNA作为模板，合成双链互补DNA；

(1-3)通过向所述双链互补DNA添加通用接头引物序列，合成添加接头的双链互补DNA；

(1-4)使用所述添加接头的双链互补DNA、由所述通用接头引物序列组成的通用接头引物和第一TCR或BCR的C区特异性引物，进行第一PCR扩增反应，

(1-5)使用(1-4)的PCR扩增子、所述通用接头引物和第二TCR或BCR的C区特异性引物进行第二PCR扩增反应，其中，所述第二TCR或BCR的C区特异性引物被设计为具有与所述TCR或BCR的C区在所述第一TCR或BCR的C区特异性引物序列下游的序列完全匹配的序列，但包括与其它基因序列非同源的序列，并且包括在扩增时下游在亚型之间不一致的碱基；以及

(1-6)使用(1-5)的PCR扩增子、添加的通用接头引物和添加接头的第三TCR或BCR的C区特异性引物进行第三PCR扩增反应，其中，在所述添加的通用接头引物中，所述通用接头引物的核酸序列包括第一额外的接头核酸序列；在所述添加接头的第三TCR或BCR的C区特异性引物中，第二额外的接头核酸序列和分子鉴定(MID标签)序列被添加到第三TCR或BCR的C区特异性序列；其中

<B58>项目<B11>的系统，其中，(1)的所述试剂盒包括以下：

(1-1)用于使用来源于靶细胞的RNA样品作为模板，合成互补DNA的单元；

(1-2)用于使用所述互补DNA作为模板，合成双链互补DNA的单元；

(1-3)用于通过向所述双链互补DNA添加通用接头引物序列，合成添加接头的双链互补DNA的单元；

(1-4)用于使用所述添加接头的双链互补DNA、由所述通用接头引物序列组成的通用接头引物和第一TCR或BCR的C区特异性引物，进行第一PCR扩增反应的单元，

(1-5)用于使用(1-4)的PCR扩增子、所述通用接头引物和第二TCR或BCR的C区特异性引物进行第二PCR扩增反应的单元，其中，所述第二TCR或BCR的C区特异性引物被设计为具有与所述TCR或BCR的C区在所述第一TCR或BCR的C区特异性引物序列下游的序列完全匹配的序列，但包括与其它基因序列非同源的序列，并且包括在扩增时下游在亚型之间不一致的碱基；以及

(1-6)使用(1-5)的PCR扩增子、添加的通用接头引物和添加接头的第三TCR或BCR的C区特异性引物进行第三PCR扩增反应，其中，在所述添加的通用接头引物中，所述通用接头引物的核酸序列包括第一额外的接头核酸序列；在所述添加接头的第三TCR或BCR的C区特异性引物中，向第三TCR或BCR的C区特异性序列添加了第二额外的接头核酸序列和分子鉴定(MID标签)序列；其中

<B58-2>项目<B57>的方法或项目<58>的系统，其中，对于BCR，所述C区特异性引物包括与选自由IgM、IgA、IgG、IgE和IgD组成的组中感兴趣的同种型C区完全匹配，但与其他C区不同源的序列，并且是与IgA或IgG的亚型IgG1、IgG2、IgG3和IgG4之一或IgA1或IgA2之一完全匹配的序列；或者，对于TCR，所述C区特异性引物是与选自由α链、β链、γ链和δ链组成的组中的感兴趣的链的C区完全匹配，且与其他C区不同源的序列。

<B58-3>项目<B57>或<B58-2>的方法或者<B58>或<B58-2>的系统，其中，选择数据库中与相同的同种型的所有C区等位序列完全匹配的一部分序列，用于C区特异性引物。

<B58-4>项目<B57>和<B58-2>～<B58-3>中任一项的方法或者<B58>～<B58-3>中任一项的系统，其中，所述通用接头引物被设计以便所述引物不可能具有同源二聚体和分子内的发夹结构，并且能稳定形成双链，并且被设计为与数据库中的所有TCR基因序列都没有高度同源性，并且具有与C区特异性引物相同的水平的熔解温度(Tm)。

<B58-5>项目<B57>和<B58-2>～<B58-4>中任一项的方法或者<B58>～<B58-4>中任一项的系统，其中，选择如下的通用接头引物，该通用接头引物被设计为不具有同源二聚体和分子内发夹结构，并且与包括BCR或TCR的其它基因不具有同源性。

<B58-6>项目<B57>和<B58-2>～<B58-5>中任一项的方法或者<B58>～<B58-5>中任一项的系统，其中，所述通用接头引物是P20EA(SEQ ID NO：2)和/或P10EA(SEQ ID NO：3)。

<B58-7>项目<B57>和<B58-2>～<B58-6>中任一项的方法或者<B58>～<B58-6>中任一项的系统，其中，第一、第二和第三TCR或BCR的C区特异性引物各自独立地是用于BCR库分析的引物，选定的引物是与IgM、IgG、IgA、IgD或IgE的各同种型C区完全匹配、与IgG和IgA的亚型完全匹配并且与数据库中所包括的其它序列没有同源性的序列，并且在亚型之间包括引物下游的不一致的碱基，并且

其中，所述通用接头引物序列被设计以便该序列具有适用于扩增的碱基长度，不可能具有同源二聚体和分子内的发夹结构并且能稳定形成双链，并且被设计为与数据库中的所有TCR基因序列都没有高度同源性并且具有与C区特异性引物相同的水平的Tm。

<B58-8>项目<B57>和<B58-2>～<B58-7>中任一项的方法或者<B58>～<B58-7>中任一项的系统，其中，第一、第二和第三TCR的C区特异性引物各自独立地是用于TCR或BCR库分析的引物，选定的各引物是如下的序列：该序列与一种类型的α链(TRAC)、两种类型的β链(TRBCO1和TRBCO2)、两种类型的γ链(TRGC1和TRGC2)和一种类型的δ链(TRDC1)完全匹配，并且与数据库中所包括的其它序列没有同源性，并且在亚型之间包括引物下游的不一致的碱基，

其中，所述通用接头引物序列被设计以便该序列具有适用于扩增的碱基长度，不可能具有同源二聚体和分子内的发夹结构并且能稳定形成双链，并且被设计为与数据库中的所有TCR基因序列都没有高度同源性，并且具有与C区特异性引物相同的水平的Tm。

<B58-9>项目<B57>和<B58-2>～<B58-8>中任一项的方法或者<B58>～<B58-8>中任一项的系统，其中，将第三TCR或BCR的C区特异性引物设置在从C区的5’末端侧直到约150个碱基的区域中，并且将第一TCR或BCR的C区特异性引物和第二TCR或BCR的C区特异性引物设置在C区的5’末端侧至约300个碱基之间。

<B58-10>项目<B57>和<B58-2>～<B58-9>中任一项的方法或者<B58>～<B58-9>中任一项的系统，其中，第一、第二和第三TCR或BCR的C区特异性引物各自独立地用于BCR定量分析，

<B58-11>项目<B57>和<B58-2>～<B58-10>中任一项的方法或者<B58>～<B58-10>中任一项的系统，其中，将引物设计中的参数设置为：18～22个碱基的碱基序列长度；54～66℃的熔解温度；和40～65％的％GC(％鸟嘌呤胞嘧啶含量)。

<B58-12>项目<B57>和<B58-2>～<B58-11>中任一项的方法或者<B58>～<B58-11>中任一项的系统，其中，将引物设计中的参数设置为：18～22个碱基的碱基序列长度；54～66℃的溶解温度；和40～65％的％GC(％鸟嘌呤胞嘧啶含量)；自退火评分为26；自末端退火评分为10；和次级结构评分为28。

<B58-13>项目<B57>和<B58-2>～<B58-12>中任一项的方法或者<B58>～<B58-12>中任一项的系统，其中，在以下条件下，测定第一、第二和第三TCR或BCR的C区特异性引物的序列：

3、在1中的比对序列中没有错配碱基的区域中选择引物；和

<B58-14>项目<B57>和<B58-2>～<B58-13>中任一项的方法或者<B58>～<B58-13>中任一项的系统，其中，将第一TCR或BCR的C区特异性引物设置在，以通过剪接产生的C区序列的第一个密码子的第一个碱基作为基线的、碱基41～300的位置中；将第二TCR或BCR的C区特异性引物设置在以上述第一个碱基作为基线的、碱基21～300的位置中；并且，将第三TCR或BCR的C区特异性引物设置在以上述第一个碱基作为基线的、在150个碱基或更少碱基之内的位置中；并且，上述位置包括在亚型和/或等位基因中的错配位点。

<B58-15>项目<B57>和<B58-2>～<B58-14>中任一项的方法或者<B58>～<B58-14>中任一项的系统，其中，第一TCR或BCR的C区特异性引物具有以下结构：CM1(SEQ ID NO：5)、CA1(SEQ ID NO：8)、CG1(SEQ ID NO：11)、CD1(SEQ ID NO：14)、CE1(SEQ ID NO：17)、CA1(SEQ ID NO：35)或CB1(SEQ ID NO：37)。

<B58-16>项目<B57>和<B58-2>～<B58-15>中任一项的方法或者<B58>～<B58-15>中任一项的系统，其中，第二TCR或BCR的C区特异性引物具有以下结构：CM2(SEQ ID NO：6)、CA2(SEQ ID NO：9)、CG2(SEQ ID NO：12)、CD2(SEQ ID NO：15)、CE2(SEQ ID NO：18)、CA2(SEQ ID NO：35)或CB2(SEQ ID NO：37)。

<B58-17>项目<B57>和<B58-2>～<B58-16>中任一项的方法或者<B58>～<B58-16>中任一项的系统，其中，第三TCR或BCR的C区特异性引物具有以下结构：CM3-GS(SEQ ID NO：7)、CA3-GS(SEQ ID NO：10)、CG3-GS(SEQ ID NO：13)、CD3-GS(SEQ ID NO：16)或CE3-GS(SEQID NO：19)。

<B58-18>项目<B57>和<B58-2>～<B58-17>中任一项的方法或者<B58>～<B58-17>中任一项的系统，其中，各TCR或BCR的C区特异性引物提供为与所有TCR或BCR亚类相适的组。

<B58-19>一种使用<B57>和<B58-2>～<B58-18>中任一项的方法或者<B58>～<B58-18>中任一项的系统制造的样品进行基因分析的方法或系统。

<B58-20>项目<B58-19>的方法或系统，其中，所述基因分析是定量分析T细胞受体(TCR)或B细胞受体(BCR)的可变区的库。

<B59>项目<B57>和<B58-2>～<B58-20>中任一项的方法或者<B58>～<B58-20>中任一项的系统，其中，(3)所述TCR库或所述BCR库的获得通过包括以下步骤的方法来完成：

(3-1)为包括V区、D区、J区和可选的C区中的至少一个的各基因区域提供参照数据库；

(3-2)提供输入序列组，所述输入序列组可选地经修剪且可选地经提取以具有适当的长度；

(3-3)搜索所述输入序列组与各基因区域的所述参照数据库的同源性，并且记录与近似参照等位基因和/或参照等位基因的序列的比对；

(3-4)为所述输入序列组分配V区和J区，并且基于分配的结果提取D区的核酸序列；

(3-5)将所述D区的核酸序列翻译成氨基酸序列，并且利用所述氨基酸序列对D区进行分类；以及

(3-6)基于在(3-5)中进行的分类，计算V区、D区和J区和可选的C区各自的出现频率或其组合的出现频率，以获得所述TCR库或所述BCR库。

<B60>项目<B11>～<B20>、<B58>～<B58-20>和<B59>中任一项的系统，其中，(3)用于导出TCR库或BCR库的设备包括以下：

(3-1)用于为包括V区、D区、J区和可选的C区中的至少一个的各基因区域提供参照数据库的单元；

(3-2)用于提供输入序列组的单元，所述输入序列组可选地经修剪且可选地经提取以具有适当的长度；

(3-3)用于搜索所述输入序列组与各基因区域的所述参照数据库的同源性，并且记录与近似参照等位基因和/或参照等位基因的序列的比对的单元；

(3-4)用于为所述输入序列组分配V区和J区，并且基于分配的结果提取D区的核酸序列的单元；

(3-5)用于将所述D区的核酸序列翻译成氨基酸序列，并且利用所述氨基酸序列对D区进行分类的单元；和

(3-6)用于基于在(3-5)中进行的分类，计算V区、D区和J区和可选的C区各自的出现频率或其组合的出现频率，以获得所述TCR库或所述BCR库的单元。

<B60-2>项目<B57>、<B58-2>～<B58-20>和<B59>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>中任一项的系统，其中，所述基因区域包括所有的V区、D区、J区和可选的C区。

<B60-3>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-2>中任一项的系统，其中，所述参照数据库是具有分配给每一序列的唯一ID的数据库。

<B60-4>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-3>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-3>中任一项的系统，其中，所述输入序列组是无偏向的序列组。

<B60-5>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-4>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-4>中任一项的系统，其中，所述输入序列组是经修剪的。

<B60-6>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-5>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-5>中任一项的系统，其中，所述修剪通过以下步骤完成：从解读遗传密码的两端删除低质量的区域；从所述解读遗传密码的两端删除与接头序列匹配10bp或更多的区域；以及，当剩余的长度为200bp或更多(TCR)或者为300bp或更多(BCR)时，使用所述解读遗传密码作为分析中的高质量的解读遗传密码。

<B60-7>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-6>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-6>中任一项的系统，其中，所述低质量指小于30的QV值的7bp移动平均值。

<B60-8>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-7>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-7>中任一项的系统，其中，所述近似序列是最接近的序列。

<B60-9>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-8>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-8>中任一项的系统，其中，所述近似序列通过以下各项的排名来确定：1、匹配碱基的数目，2、核心长度，3、评分，和4、比对长度。

<B60-10>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-9>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-9>中任一项的系统，其中，所述同源性搜索是在容许分散在各处的随机突变的条件下进行的。

<B60-11>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-10>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-10>中任一项的系统，其中，与缺省条件相比，所述同源性搜索包括以下至少一个条件：(1)窗口大小的缩短，(2)错配处罚的减少，(3)空位处罚的减少，和(4)标示物的最优先排名是匹配碱基的数目。

<B60-12>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-11>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-11>中任一项的系统，其中，在BLAST或FASTA中的以下条件下进行同源性搜索：

V错配处罚＝-1，最短比对长度＝30，且最短核心长度＝15；

C最短命中长度＝30，且最短核心长度＝15。

<B60-13>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-12>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-12>中任一项的系统，其中，通过所述氨基酸序列的出现频率对D区进行分类。

<B60-14>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-13>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-13>中任一项的系统，其中，当在步骤(5)中存在D区的参照数据库时，则使用CDR3的核酸序列的同源性搜索的结果和氨基酸序列翻译的结果的组合，作为分类结果。

<B60-15>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-14>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-14>中任一项的系统，其中，当在步骤(5)中没有D区的参照数据库时，则仅使用氨基酸序列的出现频率进行分类。

<B60-16>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-15>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-15>中任一项的系统，其中，以基因名称为单位和/或等位基因为单位，对出现频率进行计数。

<B60-17>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-16>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-16>中任一项的系统，其中，步骤(4)包括以下步骤：为输入序列组分配V区和J区，并且使用参照V区上的CDR3前部和参照J上的CDR3的末端作为标记，提取CDR3序列。

<B60-18>项目<B57>、<B58-2>～<B58-20>、<B59>和<B60-2>～<B60-17>中任一项的方法或者项目<B58>～<B58-20>、<B59>和<B60>～<B60-17>中任一项的系统，其中，步骤(5)包括将CDR3的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类。

<B60-19>项目<B11>～<B20>、<B58>～<B58-20>、<B59>和<B60>～<B60-18>中任一项的系统，其中，(3)用于获得TCR库或BCR库的设备包括：

(3-1)用于为包括V区、D区、J区和可选的C区中的至少一个的各基因区域，提供参照数据库的单元；

(3-6)用于计算所述输入序列组中的V区、D区和J区和可选的C区各自的出现频率或其组合的出现频率，以获得所述TCR库或所述BCR库的单元。

<B60-20>项目<B11>～<B20>、<B58>～<B58-20>、<B59>和<B60>～<B60-19>中任一项的系统，其中，分析TCR库或BCR库的方法的处理通过用于使计算机执行所述处理的计算机程序来实现，所述处理包括以下步骤：

<B60-21>项目<B11>～<B20>、<B58>～<B58-20>、<B59>和<B60>～<B60-20>中任一项的系统，用于对分析TCR库或BCR库的方法进行计算机执行处理，所述方法包括以下步骤：

<分析中的应用实例>

<C1>一种向受试对象施加癌症独特型肽致敏免疫细胞疗法的方法，所述方法包括：

(1)通过项目<B1>～<B10>、<B57>、<B58-2>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的方法或者项目<B11>～<B20>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的系统，分析受试对象的T细胞受体(TCR)库或B细胞受体(BCR)库；

(2)基于所述分析的结果，测定来源于所述受试对象的癌细胞的TCR或BCR，其中，通过在来源于所述受试对象的癌细胞的TCR基因或BCR基因的存在频率排名中，选择高排名的序列作为来源于所述癌细胞的TCR或BCR，来进行所述测定；

(3)基于测定的来源于癌症的TCR或BCR，确定候选HLA测试肽的氨基酸序列，其中，基于使用HLA结合肽预测算法计算的评分，来进行所述确定；

(4)合成所确定的肽；以及可选的

(5)使用合成的肽给予治疗。

<C2>

项目<C1>的方法，其中，使用BIMAS、SYFPEITHI、RANKPEP或NetMHC，确定步骤(3)的所述候选HLA测试肽。

项目<C1>或<C2>的方法，其中，所述方法在步骤(4)之后包括以下步骤：混合所述肽、来源于所述受试对象的抗原递呈细胞或树突细胞和来源于所述受试对象的CD8⁺T细胞，并且培养所得的混合物；以及，将培养后的混合物对患者给药。

项目<C1>～<C3>中任一项的方法，在步骤(4)之后包括以下步骤：混合所述肽与来源于所述受试对象的树突细胞，并且培养所得混合物；以及，将培养的混合物对患者给药。

项目<C1>～<C4>中任一项的方法，其中，所述方法在步骤(4)之后包括以下步骤：混合肽，来源于受试对象的抗原递呈细胞或树突细胞，和来源于受试对象的CD8⁺T细胞，并且培养该混合物，以产生CD8⁺T细胞-树突细胞/抗原递呈细胞-肽混合物；混合所述肽与来源于受试对象的树突细胞，并且培养该混合物以产生树突细胞-肽混合物；以及，将CD8⁺T细胞-树突细胞/抗原递呈细胞-肽混合物和树突细胞-肽混合物对患者给药。

一种通过体外抗原刺激分离癌症特异性TCR基因的方法，包括：

(A)混合来源于受试对象的抗原肽或抗原蛋白或者项目<C1>～<C5>中任一项中的确定的肽或者来源于受试对象的淋巴细胞，来源于受试对象的灭活的癌细胞，和来源于受试对象的T淋巴细胞，并且培养混合物，以产生肿瘤特异性T细胞；

(B)通过项目<B1>～<B10>、<B57>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的方法和/或项目<B11>～<B20>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的系统，分析所述肿瘤特异性T细胞的TCR；以及

(C)基于分析的结果，分离期望的肿瘤特异性T细胞。

<D1-1>

项目<D1>的方法，其中，步骤(A)是如下步骤：混合来源于所述受试对象的灭活的癌细胞和来源于所述受试对象的抗原肽或抗原蛋白，与来源于所述受试对象的T淋巴细胞，并且培养混合物以产生肿瘤特异性T细胞。

<D1-2>

项目<D1>～<D1-1>中任一项的方法，其中，步骤(A)是如下步骤：混合来源于所述受试对象的淋巴细胞、来源于所述受试对象的灭活的癌细胞和来源于所述受试对象的T淋巴细胞，并且培养混合物以产生肿瘤特异性T细胞。

<D1-3>

项目<D1>～<D1-2>中任一项的方法，其中，步骤(A)是如下步骤：混合项目C1的确定的肽、来源于所述受试对象的灭活的癌细胞和来源于所述受试对象的T淋巴细胞，并且培养混合物以产生肿瘤特异性T细胞。

<D2>

<通过搜索共有序列，分离定制的癌症特异性T细胞受体基因，分离癌症特异性TCR基因>

一种通过搜索共有序列分离癌症特异性TCR基因的方法，包括：

(A)从具有共有HLA的受试对象分离淋巴细胞或癌症组织；

(B)对于所述淋巴细胞或癌症组织，通过项目B1的方法分析所述肿瘤特异性T细胞的TCR；以及

(C)分离具有与所述肿瘤特异性T细胞一样的序列的T细胞。

一种细胞处理疗法，包括：

A)从患者收集T淋巴细胞；

B)在向T淋巴细胞施加抗原刺激之后，基于项目<B1>～<B10>、<B57>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的方法和/或项目<B11>～<B20>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的系统分析TCR，其中，通过来源于受试对象的抗原肽或抗原蛋白、来源于受试对象的灭活的癌细胞或来源于肿瘤的独特型肽，来施加抗原刺激；

C)在经分析的TCR中，选择最佳TCR和最佳抗原；

D)产生最佳TCR的TCR基因的肿瘤特异性α和βTCR表达病毒载体；以及

E)将引入了肿瘤特异性TCR基因的T淋巴细胞引入到患者体内。

<E1-1>

项目<E1>的细胞处理疗法，其中，使用来源于受试对象的抗原肽或抗原蛋白，施加所述抗原刺激。

<E1-2>

项目<E1>或<E1-1>的细胞处理疗法，其中，使用来源于受试对象的灭活的癌细胞，施加所述抗原刺激。

<E1-3>

项目<E1>和<E1-1>～<E1-2>中任一项的细胞处理疗法，其中，使用来源于肿瘤的独特型肽，施加所述抗原刺激。

<E1-4>

项目<E1>和<E1-1>～<E1-3>中任一项的方法，其中，步骤C)包括选择在所述受试对象的癌症组织中高表达的抗原。

<E1-5>

项目<E1>和<E1-1>～<E1-4>中任一项的方法，其中，步骤C)包括选择，在抗原特异性淋巴细胞刺激测试中，最强有力地活化T细胞的抗原。

<E1-6>

项目<E1>和<E1-1>～<E1-5>中任一项的方法，其中，步骤C)包括从基于项目<B1>～<B10>、<B57>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>的方法和/或项目<B11>～<B20>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>的系统进行的库分析中，在施加所述抗原刺激之前和之后，选择使特定TCR的频率增加最大的抗原。

一种使用项目<D2>的方法分离的癌症特异性TCR基因，通过体外刺激测试评估有效性和/或安全性的方法。

<CC1>

一种制备用于受试对象的癌症独特型肽致敏免疫细胞疗法的组合物的方法，所述方法包括：

(1)通过项目<B1>～<B10>、<B57>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的方法和/或项目<B11>～<B20>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的系统，分析受试对象的T细胞受体(TCR)库或B细胞受体(BCR)库；

(2)基于所述分析的结果，确定来源于所述受试对象的癌细胞的TCR或BCR，其中，通过在来源于所述受试对象的癌细胞的TCR基因或BCR基因的存在频率排名中，选择高排名的序列作为来源于所述癌细胞的TCR或BCR，来进行所述确定；

(3)基于确定的来源于癌症的TCR或BCR，确定候选HLA测试肽的氨基酸序列，其中，基于使用HLA结合肽预测算法计算的评分，来进行所述确定；以及

(4)合成确定的所述肽。

<CC2>

项目<CC1>的方法，其中，使用BIMAS、SYFPEITHI、RANKPEP或NetMHC，确定步骤(3)的所述候选HLA测试肽。

项目<CC1>或<CC2>的方法，其中，所述方法在步骤(4)之后包括以下步骤：混合所述肽、来源于所述受试对象的抗原递呈细胞或树突细胞和来源于所述受试对象的CD8⁺T细胞，并且培养混合物。

项目<CC1>～<CC4>中任一项的方法，在步骤(4)之后包括以下步骤：混合所述肽与来源于所述受试对象的树突细胞，并且培养混合物。

项目<CC1>～<CC4>中任一项的方法，其中，所述方法在步骤(4)之后包括以下步骤：混合所述肽、来源于所述受试对象的抗原递呈细胞或树突细胞和来源于所述受试对象的CD8⁺T细胞，并且培养混合物，以产生CD8⁺T细胞-树突细胞/抗原递呈细胞-肽的混合物；并且，混合所述肽与来源于所述受试对象的树突细胞，并且培养该混合物，以产生树突细胞-肽的混合物。

一种通过体外抗原刺激制备分离的癌症特异性TCR基因的方法，包括：

(A)混合来源于受试对象的抗原肽或抗原蛋白或者项目<CC1>～<CC5>中任一项中的确定的肽或者来源于受试对象的淋巴细胞，来源于受试对象的灭活的癌细胞，和来源于受试对象的T淋巴细胞，并且培养混合物，以产生肿瘤特异性T细胞；

(CC)基于分析的结果，分离期望的肿瘤特异性T细胞。

<DD1-1>

项目<DD1>的方法，其中，步骤(A)是如下步骤：将来源于所述受试对象的灭活的癌细胞和来源于所述受试对象的抗原肽或抗原蛋白与来源于所述受试对象的T淋巴细胞混合，并且培养混合物以产生肿瘤特异性T细胞。

<DD1-2>

项目<DD1>～<DD1-1>中任一项的方法，其中，步骤(A)是如下步骤：混合来源于所述受试对象的淋巴细胞、来源于所述受试对象的灭活的癌细胞和来源于所述受试对象的T淋巴细胞，并且培养混合物以产生肿瘤特异性T细胞。

<DD1-3>

项目<DD1>～<DD1-2>中任一项的方法，其中，步骤(A)是如下步骤：混合项目CC1的确定的肽、来源于所述受试对象的灭活的癌细胞和来源于所述受试对象的T淋巴细胞，并且培养混合物以产生肿瘤特异性T细胞。

<DD2>

一种通过搜索共有序列，制备分离的癌症特异性TCR基因的方法，包括：

(A)提供从具有共有HLA的受试对象分离的淋巴细胞或癌症组织；

(B)对于所述淋巴细胞或癌症组织，通过项目<B1>～<B10>、<B57>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的方法和/或项目<B11>～<B20>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的系统，分析所述肿瘤特异性T细胞的TCR；以及

(C)分离具有与所述肿瘤特异性T细胞一样的序列的T细胞。

一种制备用于细胞处理疗法的引入了肿瘤特异性TCR基因的T淋巴细胞的方法，包括：

A)提供从患者收集的T淋巴细胞；

B)在向T淋巴细胞施加抗原刺激之后，基于项目<B1>～<B10>、<B57>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的方法和/或项目<B11>～<B20>、<B58>～<B58-20>、<B59>和<B60>～<B60-21>中任一项的系统分析TCCR，其中，通过来源于受试对象的抗原肽或抗原蛋白、来源于受试对象的灭活的癌细胞或来源于肿瘤的独特型肽，来施加抗原刺激；

CC)在经分析的TCR中，选择最佳TCR和最佳抗原；以及

DD)产生最佳TCR的TCCR基因的肿瘤特异性α和βTCR表达病毒载体。

<EE1-1>

项目<EE1>的方法，其中，使用来源于受试对象的抗原肽或抗原蛋白，施加所述抗原刺激。

<EE1-2>

项目<EE1>或<EE1-1>的方法，其中，使用来源于受试对象的灭活的癌细胞，施加所述抗原刺激。

<EE1-3>

项目<EE1>～<EE1-2>中任一项的方法，其中，使用来源于肿瘤的独特型肽，施加所述抗原刺激。

<EE1-4>

项目<EE1>～<EE1-3>中任一项的方法，其中，步骤C)包括选择在所述受试对象的癌症组织中高表达的抗原。

<EE1-5>

项目<EE1>～<EE1-4>中任一项的方法，其中，步骤C)包括选择，在抗原特异性淋巴细胞刺激测试中最强有力地活化T细胞的抗原。

<EE1-6>

项目<EE1>～<EE1-5>中任一项的方法，其中，步骤C)包括选择，基于项目<B1>进行的库分析，在施加所述抗原刺激之前和之后，使特定TCCR的频率增加最大的抗原。

一种使用项目<DD2>的方法分离的癌症特异性TCCR基因，通过体外刺激测试评估有效性和/或安全性的方法。

下面例示了有效性和/或安全性测定的具体步骤

<有效性>例如，可通过以下程序，来评估有效性：在培养了引入了癌症特异性TCR基因的T细胞与<EE1-1>的来源于受试对象的抗原肽或抗体蛋白，<EE1-2>的来源于受试对象的灭活的癌细胞，或<EE1-3>的来源于肿瘤的独特型肽之后，测量应答于T细胞活化分泌到细胞外的的细胞因子(干扰素γ等)的量，测量应答于T细胞活化而升高的特定基因的表达量，或者测量应答于T细胞活化而表达或表达增加的细胞表面分子。

<安全性>例如，可例如通过以下程序，测定安全性：当来源于受试对象的引入了癌症特异性TCR基因的T细胞与来源于受试对象的正常细胞混合时，测量应答于上述T细胞的活化，分泌的上述细胞因子、基因表达或细胞表面分子的表达，并且证实转基因引入了TCR基因的T细胞不被正常细胞活化。

应理解，除了明确示出的组合之外，本发明还可进一步提供为上述特征中的一个或多个特征的组合。根据需要，通过阅读和理解下面的具体实施方式，本领域技术人员能够认识到本发明的其它实施方式和优点。

[本发明的有益效果]

相对于常规技术，本发明具有能够处理“大规模”序列的效果。本发明被认为具有以下特别有益的效果：在观察到大量突变的情况下，所以不管突变如何，都能够以“无偏向”的方式进行扩增并且作出准确的判断，尤其对于BCR。本发明被认为是：1、无偏向的，并且，2、因此相对于那些利用V链特异性引物的扩增方法和测序方法的常规系统，本发明具有优异的可定量性。相对于诸如SMART PCR的技术，本发明还在以下方面具有优点：1、显著改进的“无偏向水平”，和2、缺少每一技术所特有的缺点。例如，报道了SMART的重复模板转换(Repeated Template Switching)的问题。但是，本系统没有这样的问题。进一步地，其它有益效果包括：3、包括鉴定同种型和亚型的综合分析的能力。

本发明的系统和方法可获得TCR的α链、β链、γ链和δ链以及BCR的IgM、IgD、IgA、IgG和IgE重链和IgK和IgL轻链的TCR库和BCR库，并且从各个方面检测所述库中的变化。将序列的C区引物设置在适当的位置，以准确确定CDR3区域的碱基序列，这在鉴定疾病特异性TCR或BCR中是重要的。进一步地，设计引物位置，以便可鉴定出同种型或亚型的类型，并且很容易鉴定出与疾病相关的基因。

所有常规技术都利用使用多个V链特异性引物的多重PCR，并且在量化或精确性上具有明显问题。但是，已经解决了这一问题。进一步地，本发明的分析系统的使用还实现了以下内容。例如，该分析系统可筛选不变的TCR。已发现，因为对于大规模碱基序列，在大量样品中搜索重叠的解读遗传密码，而不管TCR库分析中的TCRα链的HLA如何，因而可筛选不变的TCR。事实上，可以检测来源于识别MR1的MAIT的许多TCR，其中MR1是非经典MHC。已知，表达不变TCR的NKT、MAIT等在免疫应答中起到重要作用，诸如感染免疫、抗肿瘤和炎症。预期可筛选各组织样品中的新的不变的TCR，并且利用该TCR来发现具有独特功能的细胞。

进一步地，可估计抗原特异性TCR的TCRα和TCRβ基因对。TCRα和TCRβ是形成异源二聚体的受体分子。应答于抗原而增殖的抗原特异性T细胞由特异性的、唯一TCRα链和TCRβ链构成。但是，因为TCR库分析分别扩增TCRα基因和TCRβ基因，因此不可能知道哪一TCRα和哪一TCRβ进行配对。在这一方面，可通过检验在特定TCRβ链解读遗传密码中具有重叠的个体组合是否匹配在TCRα链中具有重叠的个体(图44)，来估计成对的TCRα链和TCRβ链的基因。可使用在特定TCRβ链中具有重叠的个体作为标示(表3-11)，来估计匹配的TCRα链。尽管存在分配给多个解读遗传密码的情况，但认为是可用于鉴定成对TCR基因的搜索方法。

本发明尤其可用于临床应用中，其中，提供用于高精确、无偏向、大规模基因分析的样品，并且特别需要定量分析。进一步地，本发明可鉴定出“低频”(1/10,000～1/100,000或更低)基因，从而对白血病等进行更准确的诊断或治疗。由于检测极限(约1％)，这是通过常规技术(结合铺板与接头的方法或者结合铺板与SMART法的方法)不可能实现的。

进一步地，由于V特异性引物间不同的扩增效率，V特异性技术具有低可定量性。但是，本发明的技术使用一组引物进行扩增，因此能够实现真正意义上的高精确的定量。

进一步地，因为可使用一组引物扩增所有的TCR或BCR，因此可降低扩增所需的引物和容器的费用。

进一步地，BCR的特征是具有突变。因此，使用V链特异性引物的方法具有以下缺点，诸如基本不能进行扩增或产生基因的扩增效率降低等等。于此同时，本发明的方法却可解决BCR中的问题。

进一步地，使用本发明的分析方法的优点在于它可在几分钟内完成，而常规技术需要过夜完成。

<湿式(wet)相关的效果>

本发明尤其可用于特别需要定量分析并且提供用于高精确、无偏向、大规模基因分析的样品的临床应用中。进一步地，本发明可鉴定出“低频”(1/10,000～1/100,000或更低)基因，从而对白血病等进行更准确的诊断或治疗。由于检测极限(约1％)，这是通过常规技术(结合铺板与接头的方法或者结合铺板与SMART法的方法)不可能实现的。

进一步地，由于V特异性引物间不同的扩增效率，V特异性技术具有低可定量性。但是，本发明的技术使用一组引物进行扩增，因此能够以最真实的方式进行高精确的定量。

<在硅片上的相关的效果>

与常规和普遍使用的IMGT/High-V-QUEST的显著差异包括以下区别：IMGT/High-V-QUEST没有对C区进行分类的功能，并且库分类是“基因名称的单位”或“等位基因的单位”(即(*)V(基因名称)-D(基因名称)-J(基因名称)或V(等位基因)-D(等位基因)-J(等位基因))。进一步地，CDR3分类尽管有可能从上述库分别进行，但没有自由度。而另一方面，本发明的分析方法可以对C区进行分类，并且为库分类中的各区域选择“基因名称的单位”或“等位基因的单位”。进一步地，还可使用CDR3，而不是D。

进一步地，除了IMGT/High-V-QUEST的分类方法之外，本发明还可使用诸如V(基因名称)-D(等位基因)-J(等位基因)、V(等位基因)-CDR3-J(等位基因)等的组合。CDR3可用作上述库分类的一部分，或者还可进行单独分类。进一步地，可在一批中进行处理的最大数目的序列在IMGT/High-V-Quest中是150,000，而在本发明的分析方法中是无限制的。处理相同数据所需的时间在本系统中约为1/10。

<治疗效果>

当靶向癌细胞中没有治疗有效的特定标记物(分子靶点)时，或者当通过现有的特定分子打靶试剂进行治疗没有效果时，本发明的癌症独特型肽治疗方法对患者是有效的。也就是说，因为基于来源于个体患者的癌细胞的遗传信息制作肽，因此对表达TCR或BCR的很多肿瘤显示出效果。淋巴瘤细胞和白血病细胞依赖于它们的起源而具有T细胞类肿瘤和B细胞类肿瘤。本技术可应用于各肿瘤形式，并且可用于治疗很多患者。进一步地，当靶向发展成肿瘤的B细胞亚群时，使用靶向在大部分B细胞上表达的细胞表面分子的抗体药物，诸如抗CD20的抗体。这样的抗体药物也作用于正常B细胞。因此，这样的药物不仅作用于癌细胞，还作用于正常细胞，从而引起诸如免疫能力降低等副作用。于此同时，如本发明中的仅靶向癌细胞的疗法却是非常安全的。当使用癌症肽时，可通过使用对癌细胞更加高度特异的肽来实现非常安全的治疗。进一步地，使用癌症肽的现有治疗受限于具有与该肽结合的特定HLA的患者。而于此同时，如在本发明中，基于患者的遗传信息设计肽。因此，这样的肽的优点在于不受限于HLA类型，并且适用于大范围的患者。

现有的CTL疗法共培养患者的淋巴细胞和患者的肿瘤细胞，并且现有的DC疗法共培养患者的DC细胞和患者的肿瘤细胞，以诱导肿瘤特异性杀伤T细胞或肿瘤特异性DC。此外，存在如下疗法：使用人工癌症抗原来刺激淋巴细胞或DC细胞，并且将抗原引入到患者体内以获得抗肿瘤效果。因为抗原赋予特异性，因此与整个肿瘤细胞相比而使用癌症抗原蛋白，与蛋白相比而使用肽被认为更有效并且具有较小的副作用。与蛋白不同，肽的优点在于，能够基于遗传序列信息，很容易且直接化学合成。因为肽在其制造过程中不使用诸如细胞、培养基或感染物质等生物材料，因此可确保安全性。可通过基于癌细胞的遗传信息，设计与患者的HLA相符的独特的肽，来实现适于范围广泛的患者的安全治疗。

通过在患者自免疫疗法中引入肿瘤特异性DC细胞和CTL细胞，预期有协同效果。预期CTL细胞起到已经经抗原刺激和活化的细胞的作用，并且发挥早期治疗效果。因为肿瘤特异性DC细胞在随其引入的患者中诱导CTL细胞，因此存在持续的抗肿瘤效果。因此，通过组合使用这些不同的细胞，预期有协同的抗肿瘤效果。

在癌症特异性TCR基因治疗中，使靶抗原的表达仅限于癌细胞是很重要的。在治疗中选择位于诸如癌细胞和睾丸组织等有限组织中的抗原，如癌症-睾丸抗原。但是，已知这样的抗原也在一些正常细胞中表达，这可能在一些情况中成为治疗中的安全相关的问题。本发明技术的定制癌症TCR基因治疗鉴定出浸润患者的肿瘤组织的T细胞，并且利用其TCR的基因序列。因此，利用功能性TCR，该功能性TCR被认为在患者体内实际具有抗肿瘤作用。因此，预期有更高水平的效果。进一步地，因为它是患者体内的T细胞，因此对正常细胞的作用很可能受到限制。现有的TCR基因治疗局限于具有特定HLA并且表达靶癌症抗原的患者。而另一方面，定制治疗可单独制得对来源于患者的癌症抗原具有特异性的且与患者的HLA相适的TCR，因而可以对范围更广泛的患者进行靶向治疗。通过使用抗原蛋白、抗原肽、灭活的癌细胞、独特型肽等刺激患者的淋巴细胞，来使用体外刺激分离癌症特异性TCR基因。经由对各患者的实验过程所分离的TCR基因，是适于患者的HLA类型、癌细胞形式、癌症抗原种类或其它遗传背景的TCR，并且被认为在治疗中是更有效的。

附图说明

[图1]图1示出了同种型特异性引物的交叉反应性。左图是与第二IgM样品相关的实例。左端(L)示出了分子量标记的泳道。M、G、A、D和E分别示出了使用IgM、IgG、IgA、IgD和IgE特异性引物的结果。中间的图中，左侧示出了使用第二IgG样品的结果，右侧示出了使用第二IgA样品的结果。右端(L)示出了分子量标记的泳道。M、G、A、D和E分别示出了使用IgM、IgG、IgA、IgD和IgE特异性引物的结果。右图中，左侧示出了第二IgD样品，右侧示出了第二IgE样品。左端(L)示出了分子量标记的泳道。M、G、A、D和E分别示出了使用IgM、IgG、IgA、IgD和IgE特异性引物的结果。为了测定所使用的免疫球蛋白同种型特异性引物的特异性，使用感兴趣的免疫球蛋白同种型特异性引物和另一种同种型特异性引物进行扩增，以证明交叉反应性的存在。在TAE缓冲液中使用2％琼脂糖凝胶进行电泳之后，使用溴化乙锭染色测定10μL GS-PCR扩增子。使用另一种同种型特异性GS-PCR引物没有扩增出使用各同种型特异引物所扩增出的第二PCR扩增子，从而证明了引物是高度特异的。

[图2]图2示出了研究最佳稀释浓度的结果。研究了各同种型的GS-PCR最佳条件。建立第二PCR扩增子的2倍系列稀释系统，以进行20个GS-PCR循环。从左开始，示出了对于第二PCR扩增子，IgM、IgG、IgA、IgD和IgE的1、2、4、8和16倍稀释的结果。左端的L示出了分子量标记的泳道。16倍稀释获得了优异的结果。

[图3]图3示出了研究最佳循环次数的结果。使用16倍稀释的第二PCR扩增子，进行10个、15个和20个PCR循环。上图示出了20个循环的结果，中间的图示出了15个循环的结果，下图示出了10个循环的结果。每一图都在左端示出了分子量标记的泳道L，并且从左开始示出了IgM、IgG、IgA、IgD和IgE。对于IgM、IgG、IgA和IgD，证实使用10个循环获得了优异的扩增。进一步证实了20个循环对于IgE是合适的。

[图4]图4示出了来自下一代测序的解读遗传密码的长度。柱状图示出了文库解读遗传密码的数目(垂直轴)，水平轴指示分析解读遗传密码的长度的结果。示出了来自BCR基因的下一代测序的解读遗传密码的长度。在原始数据中，解读遗传密码的数目是130000，并且获得了90000以上的通过了过滤器(Filter pass)的解读遗传密码。表2示出了来自标记有标签的各同种型的解读遗传密码的数目。

[图5]图5示出了分析各MID的解读遗传密码长度的结果。上图从左开始示出了IgM、IgG和IgA。下图从左开始示出了IgD和IgE。在各图中，垂直轴指示解读遗传密码的数目，水平轴指示解读遗传密码的长度(碱基长度)。各MID分开的解读遗传密码长度和解读遗传密码数目的分布是相等的。当将足以分析V区的解读遗传密码长度设置为400bp或更大而计数时，一半的解读遗传密码，约10000解读遗传密码，被认为对于BCR库分析是有效的。

[图6A]图6A示出了分析各同种型的C区序列的使用频率的结果。上图从左开始示出了IgM、IgG和IgA。下图从左开始示出了IgD和IgE。在各图中，垂直轴指示％，水平轴指示鉴定的C区基因的名称。对各同种型所获得的解读遗传密码，进行与包括亚类的免疫球蛋白同种型的C区序列的同源性搜索。各亚类的解读遗传密码数目的频率：在IgA亚类中，对于IgA1是73％，对于IgA2是27％；在IgG亚类中，对于IgG1是62％，对于IgG2是36％；同时，在IgG亚类中，几乎没有获得IgG3或IgG4的任何解读遗传密码。进一步地，因为各亚类所获得的解读遗传密码很少被分类成其他类，因此在序列水平上再次证实了引物特异性。图6A示出了使用IMGT的HighV-Quest的分析。

[图6B]图6B示出了使用改进的软件(Repertoire genesis)进行与图6A类似的分析的结果。使用该软件也获得了类似的结果。进一步地，还可获得无命中的结果，这指示了没有分类成任何同种型或亚型的解读遗传密码。

[图7A]图7A和图7B示出了分析各同种型的V区库的结果。从上开始分别示出了IgM、IgG、IgA、IgD和IgE。水平轴指示各同种型的名称。示出了各同种型的V区序列的库(BCRV库)。BCR V库在IgM、IgG、IgA和IgD间非常类似，但IgE仅获得了具有IGHV3-30的解读遗传密码。其原因可能是相对于其它类别，外周血中存在较少数目的IgE阳性细胞，从而检测到了偏向的库。图7A和图7B示出了使用IMGT的HighV-Quest的分析。

[图7B]图7A和图7B示出了分析各同种型的V区库的结果。从上开始分别示出了IgM、IgG、IgA、IgD和IgE。水平轴指示各同种型的名称。示出了各同种型的V区序列的库(BCRV库)。BCR V库在IgM、IgG、IgA和IgD间非常类似，但IgE仅获得了具有IGHV3-30的解读遗传密码。其原因可能是相对于其它类别，外周血中存在数目少很多的IgE阳性细胞，从而检测到了偏向的库。图7A和图7B示出了使用IMGT的HighV-Quest的分析。

[图7C]图7C和图7D示出了使用改进的软件(Repertoire genesis)进行与图7A和图7B类似的分析的结果。使用该软件也获得了类似的结果。进一步地，还可获得无命中的结果。

[图7D]图7C和图7D示出了使用改进的软件(Repertoire genesis)进行与图7A和图7B类似的分析的结果。使用该软件也获得了类似的结果。进一步地，还可获得无命中的结果。

[图8A]图8A和图8B示出了分析各亚型的V区的库的结果。从上开始示出了IgA1、IgA2、IgG1和IgG2。水平轴指示各亚类的各同种型的名称。分别示出了IgA亚类和IgG亚类的BCR V库。对于几种V链类型，IgA亚类具有在IgA1和IgA2之间的不同的频率。IgA1中的IGHV1-18和IGHV4-39的出现频率高于IgA2中的IGHV1-18和IGHV4-39的出现频率，而IgA2中的IGHV3-23和IGHV3-74的出现频率高于IgA1中的IGHV3-23和IGHV3-74的出现频率。对于IgG亚类，IgG2中的IGHV3-23和IGHV3-74的频率高于IgG1中的IGHV3-23和IGHV3-74的频率，其中发现IGHV3-23和IGHV3-74的频率在IgA2中增加。存在很少的IgG3和IgG4的解读遗传密码(10个解读遗传密码)。在IgG3中，具有IGHV4-59-1GHJ4-IGHD1-7的克隆的频率是3/10，因此具有高克隆性。对于IgG4，具有IGHV3-23-IGHJ4-IGHD3-10的解读遗传密码占5/10(表1-3)。图8A和图8B示出了使用IMGT的HighV-Quest的分析。

[图8B]图8A和图8B示出了分析各亚型的V区的库的结果。从上开始示出了IgA1、IgA2、IgG1和IgG2。水平轴指示各亚类的各同种型的名称。分别示出了IgA亚类和IgG亚类的BCR V库。对于几种V链类型，IgA亚类具有在IgA1和IgA2之间的不同的频率。IgA1中的IGHV1-18和IGHV4-39的出现频率高于IgA2中的IGHV1-18和IGHV4-39的出现频率，而IgA2中的IGHV3-23和IGHV3-74的出现频率高于IgA1中的IGHV3-23和IGHV3-74的出现频率。对于IgG亚类，IgG2中的IGHV3-23和IGHV3-74的频率高于IgG1中的IGHV3-23和IGHV3-74的频率，其中发现IGHV3-23和IGHV3-74的频率在IgA2中增加。存在很少的IgG3和IgG4的解读遗传密码(10个解读遗传密码)。在IgG3中，具有IGHV4-59-1GHJ4-IGHD1-7的克隆的频率是3/10，因此具有高克隆性。对于IgG4，具有IGHV3-23-IGHJ4-IGHD3-10的解读遗传密码占5/10(表1-3)。图8A和图8B示出了使用IMGT的HighV-Quest的分析。

[图8C]图8C和图8D示出了使用改进的软件(Repertoire genesis)进行与图8A和图8B类似的分析的结果。使用该软件也获得了类似的结果。进一步地，还可获得无命中的结果。

[图8D]图8C和图8D示出了使用改进的软件(Repertoire genesis)进行与图8A和图8B类似的分析的结果。使用该软件也获得了类似的结果。进一步地，还可获得无命中的结果。

[图9A]图9A示出了各亚类的BCRJ库的分析结果。示出了各亚类的BCRJ库。上图分别示出了IgM、IgG、IgA、IgD和IgE。水平轴指示各同种型的名称。下图显示了各亚类。从左开始示出了IgA1、IgA2、IgG1和IgG2。水平轴指示各亚类的各同种型的名称。在IgM、IgG、IgA和IgD中的约一半解读遗传密码中使用IGHJ4，而几乎不使用IGHJ2。在IgE中仅使用IGHJ1。还研究了IgM和IgA亚类中的IGHJ库。图9A示出了使用IMGT的HighV-Quest的分析，其中，与IGHV库不同，在亚类中没有观察到显著性差异。

[图9B]图9B示出了使用改进的软件进行与图9B类似的分析的结果。使用该软件也获得了类似的结果。进一步地，还可获得无命中的结果。使用软件(Repertoire genesis)也获得了类似的结果，该软件(Repertoire genesis)与本专利申请一起待审批。进一步地，还可获得无命中的结果。

[图10]图10示出了TCR基因的扩增方法的示意图。为在实施例中例示的引物对提供了解释。使用B-P20EA引物和添加有A接头和鉴定序列MID标签序列(指示为MID，MID-1～26)的第三巢式引物进行扩增，其中B-P20EA引物是添加了接头序列B接头的P20EA接头引物。关键(key)表示TCAG。

[图11]图11示出了使用2％琼脂糖凝胶，对来源于10位健康个体的10μL GS-PCR扩增子进行电泳的结果。上面一行示出GS-PCR(TRA)和TCRα链的扩增子，下面一行示出GS-PCR(TRB)和TCRβ链的扩增子。数字表示样品编号。

[图12]图12示出了TCR/BCR库分析软件(Repertoire genesis)的参数设置。

[图13A]图13(A～D)示出了健康个体中的TRAV库的分析结果。各图示出了各样品(参见编号)的TRAV库。水平轴指示各TRAV的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRBV库及其平均值。TRAV9-2、12和13的存在频率较高。#1中的TRAV20和#5中的TRAV21高于其他健康个体，显示出个体间的变化。

[图13B]图13(A～D)示出了健康个体中的TRAV库的分析结果。各图示出了各样品(参见编号)的TRAV库。水平轴指示各TRAV的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRBV库及其平均值。TRAV9-2、12和13的存在频率较高。#1中的TRAV20和#5中的TRAV21高于其他健康个体，显示出个体间的变化。

[图13C]图13(A～D)示出了健康个体中的TRAV库的分析结果。各图示出了各样品(参见编号)的TRAV库。水平轴指示各TRAV的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRBV库及其平均值。TRAV9-2、12和13的存在频率较高。#1中的TRAV20和#5中的TRAV21高于其他健康个体，显示出个体间的变化。

[图13D]图13(A～D)示出了健康个体中的TRAV库的分析结果。各图示出了各样品(参见编号)的TRAV库。水平轴指示各TRAV的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRBV库及其平均值。TRAV9-2、12和13的存在频率较高。#1中的TRAV20和#5中的TRAV21高于其他健康个体，显示出个体间的变化。

[图14A]图14(A～D)示出了健康个体中的TRBV库的分析结果。各图示出了各样品(参见编号)的TRBV库。水平轴指示各TRBV的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRBV库及其平均值。TRBV20-1、28和29-1的存在频率较高。#8中的TRBV3-1高于其他健康个体，显示出个体间的变化。

[图14B]图14(A～D)示出了健康个体中的TRBV库的分析结果。各图示出了各样品(参见编号)的TRBV库。水平轴指示各TRBV的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRBV库及其平均值。TRBV20-1、28和29-1的存在频率较高。#8中的TRBV3-1高于其他健康个体，显示出个体间的变化。

[图14C]图14(A～D)示出了健康个体中的TRBV库的分析结果。各图示出了各样品(参见编号)的TRBV库。水平轴指示各TRBV的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRBV库及其平均值。TRBV20-1、28和29-1的存在频率较高。#8中的TRBV3-1高于其他健康个体，显示出个体间的变化。

[图14D]图14(A～D)示出了健康个体中的TRBV库的分析结果。各图示出了各样品(参见编号)的TRBV库。水平轴指示各TRBV的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRBV库及其平均值。TRBV20-1、28和29-1的存在频率较高。#8中的TRBV3-1高于其他健康个体，显示出个体间的变化。

[图15A]图15(A～D)示出了健康个体中的TRAJ库的分析结果。水平轴指示各TRAJ的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRAJ库及其平均值。在任意AJ家族中，健康个体的TRAJ库示出约5％或更小。#1中的TRAJ12、#4中的TRAJ27、#5中的TRAJ37和#8中的TRAJ45高于其他健康个体，显示出个体间的变化。

[图15B]图15(A～D)示出了健康个体中的TRAJ库的分析结果。水平轴指示各TRAJ的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRAJ库及其平均值。在任意AJ家族中，健康个体的TRAJ库示出约5％或更小。#1中的TRAJ12、#4中的TRAJ27、#5中的TRAJ37和#8中的TRAJ45高于其他健康个体，显示出个体间的变化。

[图15C]图15(A～D)示出了健康个体中的TRAJ库的分析结果。水平轴指示各TRAJ的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRAJ库及其平均值。在任意AJ家族中，健康个体的TRAJ库示出约5％或更小。#1中的TRAJ12、#4中的TRAJ27、#5中的TRAJ37和#8中的TRAJ45高于其他健康个体，显示出个体间的变化。

[图15D]图15(A～D)示出了健康个体中的TRAJ库的分析结果。水平轴指示各TRAJ的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRAJ库及其平均值。在任意AJ家族中，健康个体的TRAJ库示出约5％或更小。#1中的TRAJ12、#4中的TRAJ27、#5中的TRAJ37和#8中的TRAJ45高于其他健康个体，显示出个体间的变化。

[图16]图16示出了健康个体中的TRBJ库的分析结果。水平轴指示各TRBJ的基因名称，垂直轴指示其存在频率。平均值(mean)表示平均值。示出了10位健康个体的TRBJ库及其平均值。在健康个体的TRBJ库中，TRBJ2-1、2-3和2-7的存在频率较高，并且#8中的TRBJ2-2较高，显示出个体间的变化。

[图17]图17是使用2％琼脂糖凝胶，对制备例3中合成的各第二PCR扩增子进行电泳的可视化结果，用于证实具有感兴趣的大小的扩增子。

[图18]图18在上面一行示出了TRAC的可能的引物设置区域的实例(靶序列是人工剪接的功能性TRAC外显子区的序列，由外显子EX1、EX2和EX3组成；并且引物可在整个长度上设置)。下面一行示出了TRBC的可能的引物设置区域(靶序列是人工剪接的功能性TRBC外显子区的序列，由外显子EX1、EX2、EX3和EX4组成；并且引物可在整个长度上设置)。应理解，用作靶序列的TRAC序列可以是例示的序列(SEQ ID NO：1376)及其突变体。应理解，用作靶序列的TRBC序列可以是例示的序列(SEQ ID NO：1377)，以及SEQ ID NO：1392、SEQ ID NO：1393和它的其它突变体。对图18～25进行了解释。全长序列中的各组序列仅是示例。可将第一TCR或BCR的C区特异性引物设置在互补DNA的最5′末端侧。一旦设置了第一TCR或BCR的C区特异性引物，就可在其下游设置第二TCR或BCR的C区特异性引物。进一步地，一旦设置了第二TCR或BCR的C区特异性引物，就可设置第三TCR或BCR的C区特异性引物。

[图19]图19在上面一行示出了TRGC的可能的引物设置区域的实例(靶序列是人工剪接的功能性TRGC外显子区的序列，由外显子EX1、EX2和EX3组成；并且引物可在整个长度上设置)。下面一行示出了TRDC的可能的引物设置区域(靶序列是人工剪接的功能性TRDC外显子区的序列，由外显子EX1、EX2、EX3和EX4组成；并且引物可在整个长度上设置)。应理解，用作靶序列的TRGC序列可以是例示的序列(SEQ ID NO：1378)，以及SEQ ID NO：1394、SEQID NO：1395、SEQ ID NO：1396、SEQ ID NO：1397、SEQ ID NO：1398、SEQ ID NO：1399及其突变体。应理解，用作靶序列的TRDC序列可以是例示的序列(SEQ ID NO：1379)及其突变体。

[图20]图20示出了IGHM的可能的引物设置区域的实例(靶序列是人工剪接的功能性IGHM外显子区的序列，是由外显子CH1、CH2、CH3、CH4和CH-S组成的分泌形式，和由CH1、CH2、CH3、CH4、M1和M2组成的膜结合形式)。该图示出了膜结合形式的实例。应理解，用作靶序列的IGHM序列可以是示例的序列(SEQ ID NO：1380)，以及SEQ ID NO：1447、SEQ ID NO：1448、SEQ ID NO：1449及其突变体。引物可在整个长度上设置。)

[图21]图21示出了IGHA的可能的引物设置区域的实例(靶序列是人工剪接的功能性IGHA外显子区的序列，由外显子CH1、H、CH2、CH3和CH-S组成的分泌形式，和由CH1、H、CH2、CH3、M1和M2组成的膜结合形式。该图示出了分泌形式的实例。应理解，用作靶序列的IGHA序列可以是示例的序列(SEQ ID NO：1381)，以及SEQ ID NO：1400、SEQ ID NO：1401、SEQ IDNO：1402、SEQ ID NO：1403及其突变体。引物可在整个长度上设置。)

[图22]图22示出了IGHG的可能的引物设置区域的实例(靶序列是人工剪接的功能性IGHG外显子区的序列，由外显子CH1、H(H1、H2、H3、H4)、CH2、CH3和CH-S组成的分泌形式，和由CH1、H(H1、H2、H3、H4)、CH2、CH3、M1和M2组成的膜结合形式。该图示出了分泌形式的实例。应理解，用作靶序列的IGHG序列可以是示例的序列(SEQ ID NO：1382)，以及SEQ ID NO：1412～SEQ ID NO：1446及其突变体。引物可在整个长度上设置)。

[图23]图23示出了IGHD的可能的引物设置区域的实例(靶序列是人工剪接的功能性IGHD外显子区的序列，由外显子CH1、H1、H2、CH2、CH3和CH-S组成的分泌形式，和由CH1、H1、H2、CH2、CH3、M1和M2组成的膜结合形式。该图示出了膜结合形式的实例。应理解，用作靶序列的IGHD序列可以是示例的序列(SEQ ID NO：1383)，以及SEQ ID NO：1404～SEQ ID NO：1406及其突变体。引物可在整个长度上设置)。

[图24]图24示出了IGHE的可能的引物设置区域的实例(靶序列是人工剪接的功能性IGHE外显子区的序列，由外显子CH1、外显子CH2、外显子CH3和CH-S组成的分泌形式，和由CH1、外显子CH2、外显子CH3、M1和M2组成的膜结合形式。该图示出了分泌形式的实例。应理解，用作靶序列的IGHE序列可以是示例的序列(SEQ ID NO：1384)，以及SEQ ID NO：1407～SEQ ID NO：1411及其突变体。引物可在整个长度上设置)。

[图25]图25的上部示出了IGKC的可能的引物设置区域的实例(靶序列是功能性IGKC CL的序列。应理解，用作靶序列的IGKC序列可以是示例的序列(SEQ ID NO：1379)及其突变体。引物可在整个长度上设置)。下部示出了IGLC的可能的引物设置区域的实例(靶序列是功能性IGLC CL的序列。应理解，用作靶序列的IGLC序列可以是示例的序列(SEQ IDNO：1379)及其突变体。引物可在整个长度上设置)。

[图26]图26示出了通过Agilent 2100生物分析仪获得的RNA电泳图像。从系列稀释的细胞溶液中提取总RNA，并且使用Agilent生物分析仪测量RNA的量。使用微芯片电泳设备分离RNA，以检查RNA的质量。在每一样品中都检测到28S rRNA(顶部条带)和18S rRNA(底部条带)，证明获得了还未降解的RNA。

[图27A]图27(A～D)示出了系列稀释的Molt-4细胞样品中的TCR解读遗传密码(SEQ ID NO：1165～SEQ ID NO：1324)。描绘了分别从10％、1％、0.1％和0.01％系列稀释的Molt-4样品中获取的TCR解读遗传密码。解读遗传密码按照较大数目的解读遗传密码的顺序进行排序，并且示出了前40位。对于0.01％样品，示出了排名第365～404位。示出了各解读遗传密码的TRBV、TRBJ和CDR3的氨基酸序列，以及解读遗传密码的数目。以灰色背景粗体，示出了来源于Molt-4的功能性TCR解读遗传密码(TRBV20-1/TRBJ2-1/CSARESTSDPKNEQFFG)。以粗体示出了估计具有功能缺陷的其它TCR解读遗传密码(TRBV10-3/TRBJ2-5/CAISEPTGIRRDPVLR)。

[图27B]图27(A～D)示出了系列稀释的Molt-4细胞样品中的TCR解读遗传密码(SEQ ID NO：1165～SEQ ID NO：1324)。描绘了分别从10％、1％、0.1％和0.01％系列稀释的Molt-4样品中获取的TCR解读遗传密码。解读遗传密码按照较大数目的解读遗传密码的顺序进行排序，并且示出了前40位。对于0.01％样品，示出了排名第365～404位。示出了各解读遗传密码的TRBV、TRBJ和CDR3的氨基酸序列，以及解读遗传密码的数目。以灰色背景粗体，示出了来源于Molt-4的功能性TCR解读遗传密码(TRBV20-1/TRBJ2-1/CSARESTSDPKNEQFFG)。以粗体示出了估计具有功能缺陷的其它TCR解读遗传密码(TRBV10-3/TRBJ2-5/CAISEPTGIRRDPVLR)。

[图27C]图27(A～D)示出了系列稀释的Molt-4细胞样品中的TCR解读遗传密码(SEQ ID NO：1165～SEQ ID NO：1324)。描绘了分别从10％、1％、0.1％和0.01％系列稀释的Molt-4样品中获取的TCR解读遗传密码。解读遗传密码按照较大数目的解读遗传密码的顺序进行排序，并且示出了前40位。对于0.01％样品，示出了排名第365～404位。示出了各解读遗传密码的TRBV、TRBJ和CDR3的氨基酸序列，以及解读遗传密码的数目。以灰色背景粗体，示出了来源于Molt-4的功能性TCR解读遗传密码(TRBV20-1/TRBJ2-1/CSARESTSDPKNEQFFG)。以粗体示出了估计具有功能缺陷的其它TCR解读遗传密码(TRBV10-3/TRBJ2-5/CAISEPTGIRRDPVLR)。

[图27D]图27(A～D)示出了系列稀释的Molt-4细胞样品中的TCR解读遗传密码(SEQ ID NO：1165～SEQ ID NO：1324)。描绘了分别从10％、1％、0.1％和0.01％系列稀释的Molt-4样品中获取的TCR解读遗传密码。解读遗传密码按照较大数目的解读遗传密码的顺序进行排序，并且示出了前40位。对于0.01％样品，示出了排序第365～404位。示出了各解读遗传密码的TRBV、TRBJ和CDR3的氨基酸序列，以及解读遗传密码的数目。以灰色背景粗体，示出了来源于Molt-4的功能性TCR解读遗传密码(TRBV20-1/TRBJ2-1/CSARESTSDPKNEQFFG)。以粗体示出了估计具有功能缺陷的其它TCR解读遗传密码(TRBV10-3/TRBJ2-5/CAISEPTGIRRDPVLR)。

[图28]图28示出了系列稀释的Molt-4细胞样品中的TCR解读遗传密码的检测敏感度和数目。从Molt-4细胞中检测到两个TCR解读遗传密码(▲：TRBV20-1/TRBJ2-1/CSARESTSDPKNEQFFG，○：TRBV10-3/TRBJ2-5/CAISEPTGIRRDPVLR)。该图示出，在分别从10％、1％、0.1％和0.01％系列稀释的Molt-4样品中获取的TCR解读遗传密码中，检测到的来源于Molt-4的TCR解读遗传密码的百分比。各解读遗传密码的检测极限是0.1％(▲)和0.01％(○)。

[图29]图29是TCR数据分析流程的示意图。

[图30]图30是BCR数据分析流程的示意图。

[图31]图31是示出了各类别的C的频率的柱状图。垂直轴指示频率(％)，水平轴指示基因名称。无命中指示不归入任何基因的基因的频率。

[图32A]图32(A和B)是示出了各类别间V库的对比的柱状图。垂直轴指示频率(％)，水平轴指示基因名称。无命中指示不归入任何基因的基因的频率。

[图32B]图32(A和B)是示出了各类别间V库的对比的柱状图。垂直轴指示频率(％)，水平轴指示基因名称。无命中指示不归入任何基因的基因的频率。

[图33]图33是示出了各类别间J库的对比的柱状图。垂直轴指示频率(％)，水平轴指示基因名称。无命中指示不归入任何基因的基因的频率。

[图34A]图34(A和B)是示出了各亚类间V库的对比的柱状图。垂直轴指示频率(％)，水平轴指示基因名称。无命中指示不归入任何基因的基因的频率。

[图34B]图34(A和B)是示出了各亚类间V库的对比的柱状图。垂直轴指示频率(％)，水平轴指示基因名称。无命中指示不归入任何基因的基因的频率。

[图35]图35是示出了各亚类间J库的对比的柱状图。垂直轴指示频率(％)，水平轴指示基因名称。无命中指示不归入任何基因的基因的频率。

[图36A]图36(A和B)是示出了各样本间IgM V库的对比的柱状图。垂直轴指示频率(％)，水平轴指示基因名称。无命中指示不归入任何基因的基因的频率。

[图36B]图36(A和B)是示出了各样本间IgM V库的对比的柱状图。垂直轴指示频率(％)，水平轴指示基因名称。无命中指示不归入任何基因的基因的频率。

[图37]图37是示出了各样本间IgM J库的对比的柱状图。垂直轴指示频率(％)，水平轴指示基因名称。无命中指示不归入任何基因的基因的频率。

[图38A]图38(A～D)示出了样本之间TRAV库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图38B]图38(A～D)示出了样本之间TRAV库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图38C]图38(A～D)示出了样本之间TRAV库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图38D]图38(A～D)示出了样本之间TRAV库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图39A]图39(A～D)示出了样本之间TRBV库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图39B]图39(A～D)示出了样本之间TRBV库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图39C]图39(A～D)示出了样本之间TRBV库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图39D]图39(A～D)示出了样本之间TRBV库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图40A]图40(A～D)示出了样本之间TRAJ库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图40B]图40(A～D)示出了样本之间TRAJ库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图40C]图40(A～D)示出了样本之间TRAJ库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图40D]图40(A～D)示出了样本之间TRAJ库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图41]图41示出了样本之间TRBJ库的对比。垂直轴指示频率(％)，水平轴指示基因名称。“平均值(mean)”是所有样本的平均值，误差棒指示±标准偏差。

[图42]图42示出了本发明的系统的方框图。

[图43]图43示出了本发明的处理的流程图。

[图44]图44示出了TCRα链和TCRβ链的库分析中，唯一解读遗传密码的数目的分布。检验所述序列解读遗传密码的唯一解读遗传密码(与其它解读遗传密码没有共同性的碱基序列)的分布，在水平轴显示了拷贝数目。仅检测到一次(一个)的解读遗传密码是所有TCRα的73.3％(1250个解读遗传密码)，是TCRβ链的70.5％(6502个解读遗传密码)。

[图45]图45示出了TRAV库和TRAJ库。示出了TRAV和TRAJ的每一种在所有解读遗传密码中的使用频率。水平轴指示TRAV基因(上图)和TRAJ基因(下图)。垂直轴指示占所有解读遗传密码的百分比(％使用)。

[图46]图46示出了TRA库的3D图。在三维图中示出了TRAV和TRAJ的每一组合在所有解读遗传密码中的使用频率。水平轴指示TRAJ基因，深度轴指示TRAV基因，垂直轴指示使用频率(％使用)。TRAV10和TRAJ15的组合显示出最高的使用频率(12.53％)。

[图47]图47示出了TRBV库和TRBJ库。分别示出了TRBV和TRBJ的每一种在所有解读遗传密码中的使用频率。水平轴指示TRBV基因(上图)和TRBJ基因(下图)。垂直轴指示占所有解读遗传密码的百分比(％使用)。

[图48]图48示出了TRB库的3D图。在三维图中示出了TRBV和TRBJ的每一组合在所有解读遗传密码中的使用频率。水平轴指示TRBV基因，深度轴指示TRBJ基因，并且垂直轴指示使用频率(％使用)。TRBV29-1和TRBJ2-7的组合显示出最高的使用频率(28.57％)。

[图49]图49是估计TCRαβ成对解读遗传密码的方法的示意图(参见分析系统的实施例3)。

[图50]图50示出了分析系统的实施例4中，MiSeq双索引成对端测序(MiSeq Dual-indexed Paired-end Sequencing)的示意图。

[图51]图51示出了在20位健康个体中TRAV和TRAJ的使用。对具有TRAV和TRAJ的每一种的TCR序列的数目进行计数。计算54个TRAV和61个TRAJ的频率百分比，并且示出为散点图。每个点都表示TRAV或TRAJ在每一个体中的频率百分比。水平线指示20的平均值。(P)：伪基因，(ORF)：开放阅读框。

[图52]图52示出了在20位健康个体中TRBV和TRBJ的使用。将65个TRBV和14个TRBJ的频率百分比示为散点图。每个点都表示TRBV或TRBJ在每一个体中的频率百分比。红色棒指示平均值。(P)：伪基因，(ORF)：开放阅读框。

[图53]图53示出了在由20位健康个体集中起来的解读遗传密码数据中，在TRAJ的TRAV中发生基因重组事件的频率。对于TRAV和TRAJ的每一种，对具有基因重组的TCR序列解读遗传密码的数目进行计数。通过显示各重组数目的热图，使重组事件的趋势可视化。每一像素的颜色指示每一重组的数目。对于TRAV，排除了8个伪基因(TRAV8-5、TRAV11、TRAV15、TRAV28、TRAV31、TRAV32、TRAV33和TRAV37)、1个ORF(TRAV8-7)和不充分表达的基因(TRAV7、TRAV9-1、TRAV18和TRAV36)。对于TRAJ，排除了3个伪基因(TRAJ51、TRAJ55和TRAJ60)、6个ORF(TRAJ1、TRAJ2、TRAJ19、TRAJ25、TRAJ59和TRAJ61)和不充分表达的基因(TRAJ14和TRAJ46)。包括了发现已经表达的2个ORF(TRAJ35和TRAJ48)。显示示出了2050个重组事件的热图(41TRAV×50TRAJ)。

[图54]图54示出了TCRα库的3D图。对具有在TRAJ中的TRAV的预定基因重组的TCR序列解读遗传密码的数目进行计数。将20位健康个体中的3294个(54TRAV×61TRAJ)平均频率百分比示出未3D柱状图。X轴和Y轴分别指示TRAV和TRAJ。TRAJ33中的TRAV1-2(AV1-2/AJ33)的重组表达最多(0.99±0.85)。(P)：伪基因，(ORF)：开放阅读框。

[图55]图55示出了TCRβ库的3D图。对具有在TRBJ中的TRBV的预定基因重组的TCR序列解读遗传密码的数目进行计数。将20位健康个体中的910个(65TRBV×14TRBJ)平均频率百分比示出未3D柱状图。X轴和Y轴分别指示TRBV和TRBJ。(P)：伪基因，(ORF)：开放阅读框。

[图56]图56示出了TCRα和TCRβ的数字CDR3链长度分布。对于从20位个体集中的数据所获得的172109个TCRα和94928个TCRβ序列解读遗传密码，确定CDR3的长度。使用RG软件，自动计算从第104位观察到的半胱氨酸(Cys104)(由IMGT命名)至第118位的观察到的苯丙氨酸(Phe118)的核苷酸序列的长度。将TCRα(上)和TCRβ(下)中的CDR3链长度分布示为直方图。

[图57]图57示出了健康个体中的TCRα库和TCRβ库的多样性。计算唯一序列解读遗传密码(USR)的拷贝数目(解读遗传密码的数目)。将每一个体中的每个唯一序列解读遗传密码的拷贝平均数目示为白色圆圈(左)。按照分析系统的实施例5中的材料和方法部分中所述的等式，使用R程序计算逆辛普森(Simpson)指数(中间)和香农-韦弗(Shannon-Weaver)指数(右)。每一白色圆圈表示个体的指数。拷贝平均数目、逆辛普森(Simpson)指数(中间)或香农-韦弗(Shannon-Weaver)指数在TCRα和TCRβ之间没有显著性差异。

[图58]图58示出了健康个体中TCRα库和TCRβ库的相似性。计算在所有成对的20位个体之间共享的TCR序列解读遗传密码的发生频率(表4-6和表4-7)。在TCRα和TCRβ之间，对共享的解读遗传密码的平均频率百分比进行对比(左，n＝380)。按照分析系统的实施例5中的材料和方法部分中所述的等式，使用R程序计算Morisita-Horn指数(是相似性指数)。TCRα和TCRβ之间的相似性指数和共享的解读遗传密码的频率没有显著性差异(分别为p＜0.001和p＜0.001，曼-惠特尼(Mann-Whitney)U检验)。

[图59]图59示出公共TCR具有链长度比专有TCR短的CDR3。使用公共TCR的7237个USR(灰色)和专有TCR的83997个USR(黑色)，计算CDR3的长度。将USR在每一CDR3长度中的频率百分比标绘为柱状图。公共TCR和专有TCR中的CDR3长度的平均值分别为39和42。

[图60]图60示出了健康个体间TRAV、TRAJ、TRBV和TRBJ的基因使用的相关性。标绘了所有成对个体之间的TRAV(左上)、TRAJ(右上)、TRBV(左下)和TRBJ(右下)的频率百分比。对角线(y＝x)下面偏移的点指示更好的相关性。

[图61]图61示出了TRAV、TRAJ、TRBV和TRBJ中的匹配相关系数。通过斯皮尔曼(Spearman)相关性检验，计算来源于健康个体的两个样品之间的相关系数。每一点指示成对个体间的相关系数的值。水平线指示平均相关系数(n＝190)。

[图62]图62示出了对癌症独特型肽致敏免疫细胞疗法的概述。从左上方的患者收集淋巴细胞，并且对TCR或BCR进行库分析，以预测HLA结合肽。然后使用预测的HLA结合肽，进行特制的肽致敏CTL疗法或特制的肽致敏DC疫苗疗法。具体在靶向肿瘤细胞的抗体疗法中，当肿瘤细胞中不表达靶向抗原或在正常细胞中也表达靶向抗原时，会有问题。相比之下，本文中选择并利用对肿瘤细胞特异的序列。因此，预期该疗法具有更高的特异性并且具有较小的副作用。

[图63]图63示出了对改进的CTL方法的概述。在现有的LAK疗法(右上)或CTL疗法(右下)中，通过抗CD3抗体和IL-2活化从患者的外周血中分离的淋巴细胞。另一方面，改进的CTL疗法(左)从患者的外周血中分离树突细胞和CD8⁺T细胞，并且使用抗原肽进行共培养刺激。与现有的通过抗CD3抗体或IL-2进行广泛的T细胞活化不同，利用抗原肽为CD8⁺T细胞赋予抗原特异性，可预期进行特异性水平较高且副作用较小的治疗。进一步地，改进的CTL疗法的特征在于因为使用了基于从患者肿瘤细胞中获得的信息来产生个体化肽，因此可预期较高水平的治疗效果。

[图64]图64示出了对DC疫苗疗法的概述。从左侧的患者中分离树突细胞，并且与抗原肽混合并且进行培养。在DC疫苗疗法中，基于从患者肿瘤细胞中获得的序列信息来产生个体化肽。因此，该疗法不作用于正常细胞，而是更特异地作用于肿瘤细胞，从而可预期较高的治疗效果。因为使用肽作为抗原，因此与蛋白不同，具有能很容易地进行化学合成的优点。

[图65]图65示出了对患者自体免疫细胞疗法的概述。改进的CTL疗法(左)从患者的外周血中分离树突细胞和CD8⁺T细胞，并且使用抗原肽进行共培养刺激。将细胞毒性T细胞和抗原递呈细胞都引入到患者中。因此，它的特征在于，在因CTL赋予的特异性而产生的急性效应，和因利用树突细胞作为抗原递呈细胞而产生的持续效应之间，预期有协同效果。

[图66]图66示出了对通过体外抗原刺激而分离定制的癌症特异性T细胞受体基因和分离癌症特异性TCR基因的概述。如图所示，通过共培养来源于患者的T细胞、来源于患者的灭活的癌症和抗原肽，获得肿瘤特异性TCR基因。一旦获得了遗传信息，就可使用本领域公知的任意技术，来制备通过体外抗原刺激所分离的癌症特异性TCR基因。可使用这样分离的定制的癌症特异性T细胞受体基因和癌症特异性TCR基因，来治疗和预防各种癌症。

[图67]图67示出了对通过体外抗原刺激来制备分离的癌症特异性TCR基因的概述。如图所示，将获得的TCRα基因和TCRβ基因引入到TCR表达病毒载体(中间)中，以感染来自患者的T淋巴细胞，以进行转化。

[图68]图68示出了对细胞处理疗法的概述。如图所示，将通过TCR库分析从左上患者分离的T淋巴细胞中获得的肿瘤特异性TCR基因，引入到来源于患者的T淋巴细胞中，以将肿瘤特异性T淋巴细胞引入到患者体内。通过人工转基因，将最佳TCR候选物引入到患者的淋巴细胞中，以选择对患者的实际癌组织显示出最高反应性的TCR作为最佳TCR。

[图69]图69示出了对进行体外刺激测试以测定有效性和/或安全性的方法的概述。通过体外刺激测试(向下箭头)，测定引入了肿瘤特异性TCR的T淋巴细胞的有效性和/或安全性。基于体外这样的测定(向上箭头)，选择适于治疗的T淋巴细胞。通过共培养引入了肿瘤特异性TCR的淋巴细胞和来源于患者的癌细胞，并且测试反应性，来测定有效性。当测定安全性时，使用正常细胞而不是癌细胞，来进行相同的测试。

具体实施方式

下面描述本发明。在整个说明书中，除非特别指出，否则应将单数的描述理解为涵盖其多数形式。因此，除非特别指出，否则也应将单数冠词(例如在英语中的“一种/一个(a)”、“一种/一个(an)”、“所述一种/一个(the)”等)理解为涵盖其多数形式。此外，除非特别指出，否则应将本文中所使用的术语理解为其在本领域中通常使用的意思。因此，除非另有限定，否则本文中所使用的所有专有名词和科技术语都具有与本发明相关领域的技术人员通常理解的术语一样的意思。在不一致的情况中，本说明书(包括定义)优先。

如本文所使用的，“数据库”指与基因相关的任意数据库，特别指包括本发明中的T细胞受体库和B细胞受体库的数据库。这样的数据库的实例包括，但并不限于，IMGT(国际ImMunoGeneTics信息系统，www.imgt.org)数据库、日本DNA数据库(DDBJ，DNA Data Bankof Japan，www.ddbj.nig.ac.jp)数据库、GenBank(国家生物技术信息中心(NationalCenter for Biotechnology Information)，www.ncbi.nlm.nih.gov/genbank/)数据库、ENA(EMBL(欧洲分子生物实验室(European Molecular Biology Laboratory)，www.ebi.ac.uk/ena)等等。

如本文所使用的，“基因序列分析”或“基因测序”指对构成基因的核酸序列和/或氨基酸序列进行的分析。“基因序列分析”或“基因测序”包括与基因相关的任意分析，诸如碱基或残基的确定、同源性的确定、结构域的确定或潜在功能的确定。

如本文所使用的，“T细胞受体(TCR)”指T细胞受体或T细胞抗原受体，或者指在调节免疫系统的T细胞的细胞膜上表达的受体，该T细胞受体(TCR)识别抗原。存在α链、β链、γ链和δ链，构成αβ或γδ二聚体。由αβ组合所组成的TCR被称为αβTCR，而由γδ组合所组成的TCR被称为γδTCR。将具有上述TCR的T细胞称为αβT细胞或γδT细胞。该结构与B细胞产生的抗体的Fab片段非常相似，并且识别与MHC分子结合的抗原。因为成熟T细胞的TCR基因经历了基因重排，因此个体具有多样的TCR并且能识别多种抗原。TCR进一步与细胞膜中存在的不变的CD3分子结合，形成复合体。CD3在胞内区中具有被称为ITAM(免疫受体酪氨酸活化基序)的氨基酸序列。认为这一基序参与细胞内的信号传导。每一条TCR链都由可变部(V)和恒定部(C)构成。恒定部穿透细胞膜，并且具有短的细胞质部分。可变部存在于细胞外，并且与抗原-MHC复合体结合。可变部具有被称为高变部或互补决定区(CDR)的三个区域，这三个区域与抗原-MHC复合体结合。这三个CDR分别被称为CDR1、CDR2和CDR3。对于TCR来说，认为CDR1和CDR2与MHC结合，同时认为CDR3与抗原结合。TCR的基因重排与B细胞受体中已知为免疫球蛋白的加工类似。在αβTCR的基因重排中，首先进行β链的VDJ重排，然后进行α链的VJ重排。因为在α链的重排时，δ链的基因从染色体上缺失，因此具有αβTCR的T细胞不会同时具有γδTCR。相反，在具有γδTCR的T细胞中，由该TCR介导的信号抑制了β链的表达。因此，具有γδTCR的T细胞不会同时具有αβTCR。

如本文所使用的，“B细胞受体(BCR)”也被称为B细胞受体或B细胞抗原受体，指由Igα/Igβ(CD79a/CD79b)异源二聚体(α/β)构成的那些B细胞受体，其中Igα/Igβ(CD79a/CD79b)异源二聚体(α/β)与膜结合的免疫球蛋白(mIg)配合。mIg亚基与抗原结合以诱导受体的聚集，同时α/β亚基将信号传递至细胞内部。当聚集时，应理解与酪氨酸激酶Syk和Btk一样，BCR迅速激活Src家族激酶中的Lyn、Blk和Fyn。结果依赖于BCR信号传导的复杂性而有很大的不同，其中包括存活、抗性(变态反应，缺乏对抗原的超敏反应)或凋亡，细胞分裂，分化成产生抗体的细胞或记忆B细胞等。产生具有不同TCR可变区序列的数百万种T细胞，并且产生具有不同BCR(或抗体)可变区序列的数百万种B细胞。TCR或BCR的各序列之间由于基因组序列引入突变或重排而存在不同。因此，通过确定TCR/BCR的基因组序列或mRNA(cDNA)序列，可以获得T细胞或B细胞的抗原特异性的线索。

如本文所使用的，“V区”指TCR链或BCR链的可变区的可变部(V)。

如本文所使用的，“D区”指TCR链或BCR链的可变区的D区。

如本文所使用的，“J区”指TCR链或BCR链的可变区的J区。

如本文所使用的，“C区”指TCR链或BCR链的恒定部(C)区域。

如本文所使用的，“可变区的库”指通过TCR或BCR中的基因重排，以任意方式产生的V(D)J区的集合。使用诸如TCR库和BCR库等术语，这些术语在一些情况中还被称为例如T细胞库、B细胞库等。例如，“T细胞库”指以表达在抗原识别中起到重要作用的T细胞受体(TCR)为特征的淋巴细胞的集合。T细胞库中的变化提供生理状况和疾病状况下的免疫状态的重要指示。因此，已经对T细胞库进行了分析，以鉴定出参与疾病病理和T淋巴细胞的异常诊断的抗原特异性T细胞。通过荧光激活细胞分选分析对可变区的使用进行对比，所述分析使用TCR可变区特异性抗体的较大面板(panel)(van den Beemd R et al.(2000)Cytometry 40：336-345；MacIsaac C et al.(2003)J Immunol Methods 283：9-15；Tembhare P et al.(2011)Am J Clin Pathol 135：890-900；Langerak AW et al.(2001)Blood 98：165-173)、使用多个引物的聚合酶链式反应(PCR)(Rebai N et al.(1994)ProcNatl Acad Sci U S A 91：1529-1533)或基于PCR的酶联免疫吸附测定(Matsutani T etal.(1997)Hum Immunol 56：57-69；Matsutani T et al.(2000)Br J Haematol109：759-769)，已经广泛用于检测T细胞库中的变化。已知为CDR3谱型分析的链长度分布的分析是基于在V-(D)-J区中添加非模板核苷酸，并且已经用于评定T细胞的克隆性和多样性(Matsutani T et al.(2007)Mol Immunol 44：2378-2387；Matsutani T et al.(2011)MolImmunol 48：623-629)。为了进一步鉴定T细胞的抗原特异性，需要进行TCR克隆类型的PCR克隆，随后对抗原识别区域和CDR3进行测序。通常使用这样的常规途径。但是，这种研究TCR库的方法是耗时且劳动密集性的。

如本文所使用的，“定量分析”指本质上是定量的分析。在本发明中，“定量分析”指以反映最初存在于库分析中的每一克隆的量的形式进行的分析。

如本文所使用的，“样品”包括，但并不限于，来源于受试对象的组分(诸如血液等的体液)。

如本文所使用的，“互补DNA”指相对于靶核酸分子，例如在来源于靶细胞的RNA样品中包含的RNA等，形成互补链的DNA。

如本文所使用的，“双链互补DNA”指彼此互补并且形成双链的DNA。在本发明中，例如可使用相对于在来源于靶细胞的RNA样品等中所含的RNA形成互补链的互补DNA，来产生双链互补DNA。

如本文所使用的，“通用接头引物序列”指在本发明的第一PCR扩增反应和第二PCR扩增反应中用作引物的添加接头的双链互补DNA中，对于所有序列共同添加部分的序列。

如本文所使用的，“添加接头的双链互补DNA”指在本发明的第一PCR中用作引物的DNA，其中将通用接头引物序列添加到样品中的各双链互补DNA上。它在第一引物扩增反应中用作模板。

如本文所使用的，“通用接头引物”指在本发明的第一PCR反应和第二PCR扩增反应中用作引物的DNA，其中在每一反应中使用单一的通用序列。

如本文所使用的，“第一TCR或BCR的C区特异性引物”指在本发明的第一PCR扩增反应中使用的引物，包括对TCR或BCR的C区具有特异性的序列。

图18在上面一行示出了TRAC的可能的引物设置区域的实例(靶序列是人工剪接的功能性TRAC外显子区的序列，由外显子EX1、EX2和EX3组成；并且引物可在整个长度上设置)。下面一行示出了TRBC的可能的引物设置区域的实例(靶序列是人工剪接的功能性TRBC外显子区的序列，由外显子EX1、EX2、EX3和EX4组成；并且引物可在整个长度上设置)。此外，可将第一TCR或BCR的C区特异性引物设置在互补DNA的5’末端侧。一旦设置了第一TCR或BCR的C区特异性引物，就可在其下游设置第二TCR或BCR的C区特异性引物。进一步地，一旦设置了第二TCR或BCR的C区特异性引物，就可设置第三TCR或BCR的C区特异性引物。也就是说，当设置第一TCR或BCR的C区特异性引物时，第二TCR或BCR的C区特异性引物位于其下游，并且第三TCR或BCR的C区特异性引物位于更下游的位置。理论上来讲，应理解引物仅需在引物长度的下游。

图19在上面一行示出了TRGC的可能的引物设置区域的实例(靶序列是人工剪接的功能性TRGC外显子区的序列，由外显子EX1、EX2和EX3组成；并且引物可在整个长度上设置)。下面一行示出了TRDC的可能的引物设置区域的实例(靶序列是人工剪接的功能性TRDC外显子区的序列，由外显子EX1、EX2和EX3组成；并且引物可在整个长度上设置)。此外，可将第一TCR或BCR的C区特异性引物设置在互补DNA的5’末端侧。一旦设置了第一TCR或BCR的C区特异性引物，就可设置其下游的第二TCR或BCR的C区特异性引物。进一步地，一旦设置了第二TCR或BCR的C区特异性引物，就可设置第三TCR或BCR的C区特异性引物。也就是说，当设置第一TCR或BCR的C区特异性引物时，第二TCR或BCR的C区特异性引物位于其下游，并且第三TCR或BCR的C区特异性引物位于更下游的位置。理论上来讲，应理解引物仅需在引物长度的下游。

图20示出了IGHM的可能的引物设置区域的实例(靶序列是人工剪接的功能性IGHM外显子区的序列，由外显子CH1、CH2、CH3和CH4组成；并且引物可在整个长度上设置)。此外，可将第一TCR或BCR的C区特异性引物设置在互补DNA的5’末端侧。一旦设置了第一TCR或BCR的C区特异性引物，就可设置其下游的第二TCR或BCR的C区特异性引物。进一步地，一旦设置了第二TCR或BCR的C区特异性引物，就可设置第三TCR或BCR的C区特异性引物。也就是说，当设置第一TCR或BCR的C区特异性引物时，第二TCR或BCR的C区特异性引物位于其下游，并且第三TCR或BCR的C区特异性引物位于更下游的位置。理论上来讲，应理解引物仅需在引物长度的下游。

图21示出了IGHA的可能的引物设置区域的实例(靶序列是人工剪接的功能性IGHA外显子区的序列。分泌形式由外显子CH1、H、CH2、CH3和CH-S组成，而膜结合形式由CH1、H、CH2、CH3、M1和M2组成。引物可在整个长度上设置)。此外，可将第一TCR或BCR的C区特异性引物设置在互补DNA的5’末端侧。一旦设置了第一TCR或BCR的C区特异性引物，就可设置其下游的第二TCR或BCR的C区特异性引物。进一步地，一旦设置了第二TCR或BCR的C区特异性引物，就可设置第三TCR或BCR的C区特异性引物。也就是说，当设置第一TCR或BCR的C区特异性引物时，第二TCR或BCR的C区特异性引物位于其下游，并且第三TCR或BCR的C区特异性引物位于更下游的位置。理论上来讲，应理解引物仅需在引物长度的下游。

图22示出了IGHG的可能的引物设置区域的实例(靶序列是人工剪接的功能性IGHG外显子区的序列。分泌形式由外显子CH1、H(H1、H2、H3、H4)、CH2、CH3和CH-S组成，而膜结合形式由CH1、H(H1、H2、H3、H4)、CH2、CH3、M1和M2组成。引物可在整个长度上设置)。此外，可将第一TCR或BCR的C区特异性引物设置在互补DNA的5’末端侧。一旦设置了第一TCR或BCR的C区特异性引物，就可设置其下游的第二TCR或BCR的C区特异性引物。进一步地，一旦设置了第二TCR或BCR的C区特异性引物，就可设置第三TCR或BCR的C区特异性引物。也就是说，当设置第一TCR或BCR的C区特异性引物时，第二TCR或BCR的C区特异性引物位于其下游，并且第三TCR或BCR的C区特异性引物位于更下游的位置。理论上来讲，应理解引物仅需在引物长度的下游。

图23示出了IGHD的可能的引物设置区域的实例(靶序列是人工剪接的功能性IGHD外显子区的序列。分泌形式由外显子CH1、H1、H2、CH2、CH3和CH-S组成，而膜结合形式由CH1、H1、H2、CH2、CH3、M1和M2组成。引物可在整个长度上设置)。此外，可将第一TCR或BCR的C区特异性引物设置在互补DNA的5’末端侧。一旦设置了第一TCR或BCR的C区特异性引物，就可设置其下游的第二TCR或BCR的C区特异性引物。进一步地，一旦设置了第二TCR或BCR的C区特异性引物，就可设置第三TCR或BCR的C区特异性引物。也就是说，当设置第一TCR或BCR的C区特异性引物时，第二TCR或BCR的C区特异性引物位于其下游，并且第三TCR或BCR的C区特异性引物位于更下游的位置。理论上来讲，应理解引物仅需在引物长度的下游。

图24示出了IGHE的可能的引物设置区域的实例(靶序列是人工剪接的功能性IGHE外显子区的序列。分泌形式由外显子CH1、外显子CH2、外显子CH3和CH-S组成，而膜结合形式由CH1、外显子CH2、外显子CH3、M1和M2组成。引物可在整个长度上设置)。此外，可将第一TCR或BCR的C区特异性引物设置在互补DNA的5’末端侧。一旦设置了第一TCR或BCR的C区特异性引物，就可设置其下游的第二TCR或BCR的C区特异性引物。进一步地，一旦设置了第二TCR或BCR的C区特异性引物，就可设置第三TCR或BCR的C区特异性引物。也就是说，当设置第一TCR或BCR的C区特异性引物时，第二TCR或BCR的C区特异性引物位于其下游，并且第三TCR或BCR的C区特异性引物位于更下游的位置。理论上来讲，应理解引物仅需在引物长度的下游。

图25的上部示出了IGKC的可能的引物设置区域的实例(靶序列是功能性IGKC CL的序列。引物可在整个长度上设置)。下部示出了IGLC的可能的引物设置区域的实例(靶序列是功能性IGLC CL的序列。引物可在整个长度上设置)。此外，可将第一TCR或BCR的C区特异性引物设置在互补DNA的5’末端侧。一旦设置了第一TCR或BCR的C区特异性引物，就可设置其下游的第二TCR或BCR的C区特异性引物。进一步地，一旦设置了第二TCR或BCR的C区特异性引物，就可设置第三TCR或BCR的C区特异性引物。也就是说，当设置第一TCR或BCR的C区特异性引物时，第二TCR或BCR的C区特异性引物位于其下游，并且第三TCR或BCR的C区特异性引物位于更下游的位置。理论上来讲，应理解引物仅需在引物长度的下游。

具体地，第一TCR或BCR的C区特异性引物具有以下结构：对于BCR，为CM1(SEQ IDNO：5)、CA1(SEQ ID NO：8)、CG1(SEQ ID NO：11)、CD1(SEQ ID NO：14)或CE1(SEQ ID NO：17)，并且对于TCR，为CA1(SEQ ID NO：35)或CB1(SEQ ID NO：37)等。但是，上述结构并不限于此。这样的引物序列可设置在，但并不限于，下面的具体范围内。第一范围、第二范围和第三范围可在整个范围内进行设置，但是可互相确定。

TCR的α序列：SEQ ID NO：1376(图18)的第213至235位碱基

TCR的β序列：SEQ ID NO：1377(图18)的第278至300位碱基

TCR的γ序列：SEQ ID NO：1378(图19)的第184至201位碱基

TCR的δ序列：SEQ ID NO：1379(图19)的第231至249位碱基

BCR的IgM重链序列：SEQ ID NO：1380(图20)的第77至95位碱基

BCR的IgA重链序列：SEQ ID NO：1381(图21)的第189至208位碱基

BCR的IgG重链序列：SEQ ID NO：1382(图22)的第262至282位碱基

BCR的IgD重链序列：SEQ ID NO：1383(图23)的第164至183位碱基

BCR的IgE重链序列：SEQ ID NO：1384(图24)的第182至199位碱基

BCR的Igκ链恒定区序列：SEQ ID NO：1385(图25)的第230至248位碱基

BCR的Igλ链序列：SEQ ID NO：1386(图25)的第273至291位碱基

如本文所使用的，“特异性/特异的”指与靶序列结合，但与至少在靶TCR或BCR的池中并且优选在存在的TCR或BCR的所有序列中的，与其它序列结合很弱且优选不结合。特异的序列将有利并且优选地与靶序列完全互补，但并不必限于此。

如本文所使用的，“(对感兴趣的C区)足够特异”指具有针对基因扩增反应的足够的特异性。与靶C区相同的序列是有利且优选的，但并不必限于此。

如本文所使用的，“第一PCR扩增反应”是在本发明的制备样品的方法的第一阶段中进行的PCR扩增反应。

如本文所使用的，“与其它基因序列非同源”指具有低至一定程度的同源性使得使用除了感兴趣的序列(例如TCR或BCR的感兴趣的C区)之外的其它序列，不会出现基因扩增反应。

如本文所使用的，“(亚型之间)包括下游不一致的碱基”指当设置为引物时，在亚型之间包括在所使用的序列下游的不一致的碱基。通过设置这样的序列，扩增子对于每一亚型都具有不同的序列。因此，可通过确定序列来鉴定亚型。

如本文所使用的，“第二TCR或BCR的C区特异性引物”指在本发明的第二PCR扩增反应中使用的引物，包括对TCR或BCR的C区具有特异性的序列。第二TCR或BCR的C区特异性引物被设计为具有在第一TCR或BCR的C区特异性引物的序列下游的序列中，与TCR或BCR的C区完全匹配的序列，但包括与其它基因序列非同源的序列，并且包括在扩增时下游在亚型之间不一致的碱基。这样的序列的实例包括，但并不限于：对于BCR，为CM2(SEQ ID NO：6)、CA2(SEQ ID NO：9)、CG2(SEQ ID NO：12)、CD2(SEQ ID NO：15)和CE2(SEQ ID NO：18)；对于TCR等，为CA2(SEQ ID NO：36)和CB2(SEQ ID NO：38)。这样的引物序列可设置在，但并不限于，下面的具体范围内。第一范围、第二范围和第三范围可在整个范围内进行设置，但是可互相确定。也就是说，当设置第一范围时，第二范围在其下游，而第三范围在更下游的位置。理论上来讲，应理解引物仅需在引物长度的下游。

TCR的α序列：SEQ ID NO：1376(图18)的第146至168位碱基；TCR的β序列：SEQ IDNO：1377(图18)的第205至227位碱基；TCR的γ序列：SEQ ID NO：1378(图19)的第141至160位碱基；TCR的δ序列：SEQ ID NO：1379(图19)的第135至155位碱基；BCR的IgM重链序列：SEQID NO：1380(图20)的第43至62位碱基；BCR的IgA重链序列：SEQ ID NO：1381(图21)的第141至161位碱基；BCR的IgG重链序列：SEQ ID NO：1382(图22)的第163至183位碱基；BCR的IgD重链序列：SEQ ID NO：1383(图23)的第125至142位碱基；BCR的IgE重链序列：SEQ ID NO：1384(图24)的第155至173位碱基；BCR的Igκ链恒定区序列：SEQ ID NO：1385(图25)的第103至120位碱基；BCR的Igλ链序列：SEQ ID NO：1386(图25)的第85至100位碱基。

如本文所使用的，“第二PCR扩增反应”是在用于本发明的分析的样品生产中，在第一PCR反应之后，通过使用第一PCR反应的产物作为模板，以巢式形式进行的PCR扩增反应。在本发明中，通过使用通用接头引物和第二TCR或BCR的C区特异性引物，进行上述扩增反应。在这一方面，第二TCR或BCR的C区特异性引物被设计为具有在第一TCR或BCR的C区特异性引物的序列下游的序列中，与TCR或BCR的C区完全匹配的序列，但包括与其它基因序列非同源的序列，并且包括在扩增时下游在亚型之间不一致的碱基。

如本文所使用的，“第三PCR扩增反应”是在用于本发明的分析的样品生产中，在第二巢式PCR反应之后，通过使用第二巢式PCR反应的产物作为模板，进行的PCR扩增反应，其中其产物用于本发明的分析的样品生产中。在第二巢式PCR之后，通过使用第二巢式PCR反应的产物作为模板，通过使用添加的通用接头引物(其中通用接头引物的核酸序列包括第一额外的接头核酸序列)和添加接头的第三TCR或BCR的C区特异性引物(其中向第三TCR或BCR的C区特异性引物添加了第二额外的接头核酸序列和分子鉴定序列(MID标签序列))，来进行第三PCR扩增反应。添加接头的第三TCR或BCR的C区特异性引物可包括用于验证被称为关键序列的核酸序列位置的序列。可使用的添加的通用接头引物的具体实例包括接头B(SEQ ID NO：1375)-TAATACGACTCCGAATTCCC，并且使用的添加接头的第三TCR或BCR的C区特异性引物的具体实例包括接头A(SEQ ID NO：39)-关键(TCAG)-MID1-(SEQ ID NO：40)AAAGGGTTGGGGCGGATGC(SEQ ID NO：1387)(整个引物是SEQ ID NO：7)、接头A(SEQ ID NO：39)-关键(TCAG)-MID2(SEQ ID NO：41)-CCGCTTTCGCTCCAGGTCAC(SEQ ID NO：1388)(整个引物是SEQ ID NO：10)、接头A(SEQ ID NO：39)-关键(TCAG)-MID3(SEQ ID NO：42)-TGAGTTCCACGACACCGTCAC(SEQ ID NO：1389)(整个引物是SEQ ID NO：13)、接头A(SEQ IDNO：39)-关键(TCAG)-MID4(SEQ ID NO：43)-CCCAGTTATCAAGCATGCC(SEQ ID NO：1390)(整个引物是SEQ ID NO：16)、接头A(SEQ ID NO：39)-关键(TCAG)-MID5(SEQ ID NO：44)-CATTGGAGGGAATGTTTTTG(SEQ ID NO：1391)(整个引物是SEQ ID NO：19)等。

如本文所使用的，“第一额外的接头核酸序列”是添加到在本发明的第三PCR扩增反应中使用的引物上的序列，其被添加到供使用的通用接头引物的核酸序列上。第一额外的接头核酸序列可与第二额外的接头核酸序列不同或相同。对于这样的序列的特征，这样的核酸序列是适于与DNA捕获珠结合且适于进行emPCR反应的序列(例如，参见Chee-Seng，Ku；En Yun，Loy；Yudi，Pawitan；and Kee-Seng，Chia.Next Generation SequencingTechnologies and Their Applications.In：Encyclopedia of Life Sciences(ELS).John Wiley&Sons，Ltd：Chichester.April 2010；Metzker ML.Sequencingtechnologies-the next generation.Nat Rev Genet.2010Jan；11(1)：31-46)。只要序列具有这样的特征，就可使用任意序列。具体地，使用CCTATCCCCTGTGTGCCTTGGCAGTC(SEQ IDNO：1375)，但序列并不限于此。

如本文所使用的，“第二额外的接头核酸序列”是添加到在本发明的第三PCR扩增反应中使用的引物上的序列，其中该序列可选地与分子鉴定序列(例如(MID标签序列))和/或关键序列一起使用，并且被添加到第三TCR或BCR的C区特异性序列上以构成添加接头的第三TCR或BCR的C区特异性引物。第二额外的接头核酸序列可与第二额外的接头核酸序列不同或相同。对于这样的序列的特征，这样的核酸序列是适于进行emPCR反应的序列，并且可使用只要序列具有这样的特征的任意序列。具体地，使用CCATCTCATCCCTGCGTGTCTCCGAC(SEQ ID NO：39)，但序列并不限于此。

本文所使用的“关键序列”是被添加到在本发明的第三PCR扩增反应中使用的引物上的序列，其中该序列可选地与分子鉴定序列(例如(MID标签序列))一起使用，并且被添加到第三TCR或BCR的C区特异性序列上以构成添加接头的第三TCR或BCR的C区特异性引物。这样的关键序列只要能验证核酸序列的位置就可以是任意序列。使用具有4个碱基(TCAG)的关键序列，但关键序列并不限于此。

如本文所使用的，“分子鉴定(MID标签)序列”是赋予唯一性的序列，从而能鉴定出扩增子。因此，它优选与感兴趣的序列不同。进一步地，它优选是不影响扩增的序列。这样的序列的实例包括，但并不限于，SEQ ID NOs：1325～1374的序列。鉴定序列(标签序列)的判定基准及其代表性实例如下。具体地，对标签序列的判定基准的解释如下。标签序列是添加的碱基序列，以在多个样品混合并且同时进行测序时，区分每一样品。来自一种样品的解读对应于一种标签序列。因此，可以鉴定出获取的解读遗传密码序列来源于哪种样品。标签序列是四类碱基A、C、G和T的任意序列。理论上讲，使用10个碱基可创建约百万种序列，而使用20种碱基可创建约万亿种序列。碱基序列的长度优选在2个碱基至40个碱基之间，更优选在6个碱基至10个碱基之间。同时，需要使用不合连续序列(AA、CC、GG或TT)的序列。可在本文中使用的代表性标签是，但并不限于，以下序列：ACGAGTGCGT(SEQ ID NO：1325)、ACGCTCGACA(SEQ ID NO：1326)、AGACGCACTC(SEQ ID NO：1327)、AGCACTGTAG(SEQ ID NO：1328)、ATCAGACACG(SEQ ID NO：1329)、ATATCGCGAG(SEQ ID NO：1330)、CGTGTCTCTA(SEQ IDNO：1331)、CTCGCGTGTC(SEQ ID NO：1332)、TAGTATCAGC(SEQ ID NO：1333)、TCTCTATGCG(SEQID NO：1334)、TGATACGTCT(SEQ ID NO：1335)、TACTGAGCTA(SEQ ID NO：1336)、CATAGTAGTG(SEQ ID NO：1337)、CGAGAGATAC(SEQ ID NO：1338)、ATACGACGTA(SEQ ID NO：1339)、TCACGTACTA(SEQ ID NO：1340)、CGTCTAGTAC(SEQ ID NO：1341)、TCTACGTAGC(SEQ ID NO：1342)、TGTACTACTC(SEQ ID NO：1343)、ACGACTACAG(SEQ ID NO：1344)、CGTAGACTAG(SEQ IDNO：1345)、TACGAGTATG(SEQ ID NO：1346)、TACTCTCGTG(SEQ ID NO：1347)、TAGAGACGAG(SEQID NO：1348)、TCGTCGCTCG(SEQ ID NO：1349)、ACATACGCGT(SEQ ID NO：1350)、ACACGACGACT(SEQ ID NO：1351)、ACACGTAGTAT(SEQ ID NO：1352)、ACACTACTCGT(SEQ ID NO：1353)、ACGACACGTAT(SEQ ID NO：1354)、ACGAGTAGACT(SEQ ID NO：1355)、ACGCGTCTAGT(SEQ IDNO：1356)、ACGTACACACT(SEQ ID NO：1357)、ACGTACTGTGT(SEQ ID NO：1358)、ACGTAGATCGT(SEQ ID NO：1359)、ACTACGTCTCT(SEQ ID NO：1360)、ACTATACGAGT(SEQ ID NO：1361)、ACTCGCGTCGT(SEQ ID NO：1362)、AGTCGTGGTGT(SEQ ID NO：1363)、ATACTAGGTGT(SEQ IDNO：1364)、ACGAGTGGTGT(SEQ ID NO：1365)、ATACGTGGCGT(SEQ ID NO：1366)、AGTCTACGCGT(SEQ ID NO：1367)、ACTAGAGGCGT(SEQ ID NO：1368)、AGTGTGTGCGT(SEQ ID NO：1369)、ACACAGTGCGT(SEQ ID NO：1370)、ACGATCTGCGT(SEQ ID NO：1371)、AGAGACGGAGT(SEQ IDNO：1372)、ACTCGTAGAGT(SEQ ID NO：1373)和ACGACGGGAGT(SEQ ID NO：1374)。

如本文所使用的，“第三TCR或BCR的C区特异性序列”是对TCR或BCR的C区具有特异性的序列，其中该序列存在于第一TCR或BCR的C区特异性序列和第二TCR或BCR的C区特异性序列的更下游。它是用于构成第三TCR或BCR的C区特异性引物的序列。它的具体实例包括：对于BCR，为在CM3-GS(SEQ ID NO：1387)中的特定部分的序列、CA3-GS(SEQ ID NO：1388)中的特定部分的序列、CG3-GS(SEQ ID NO：1389)中的特定部分的序列、CD3-GS(SEQ ID NO：1390)中的特定部分的序列和CE3-GS(SEQ ID NO：1391)中的特定部分中的序列；对于TCR，为表6中的HuVaF或HuVbF中的特定序列(SEQ ID NOs：40～60)等，例如对应于SEQ ID NO：1376(图18)的第51至73位碱基、SEQ ID NO：1377(图18)的第69至91位碱基。更具体地，这样的引物序列可在诸如以下的特定范围中进行设置，但是该序列并不限于此。第一范围、第二范围和第三范围可在整个范围内进行设置，但是可互相确定。也就是说，当设置第一范围时，第二范围在其下游，而第三范围在更下游的位置。理论上来讲，应理解引物仅需在引物长度的下游。

TCR的α序列：SEQ ID NO：1376(图18)的第51至73位碱基

TCR的β序列：SEQ ID NO：1377(图18)的第69至91位碱基

TCR的γ序列：SEQ ID NO：1378(图19)的第34至53位碱基

TCR的δ序列：SEQ ID NO：1379(图19)的第61至78位碱基

BCR的IgM重链序列：SEQ ID NO：1380(图20)的第7至25位碱基

BCR的IgA重链序列：SEQ ID NO：1381(图21)的第115至134位碱基

BCR的IgG重链序列：SEQ ID NO：1382(图22)的第109至129位碱基

BCR的IgD重链序列：SEQ ID NO：1383(图23)的第78至96位碱基

BCR的IgE重链序列：SEQ ID NO：1384(图24)的第45至64位碱基

BCR的Igκ链恒定区序列：SEQ ID NO：1385(图25)的第75至92位碱基

BCR的Igλ链序列：SEQ ID NO：1386(图25)(该SEQ ID NO也可用于CM)的第52至69位碱基。

如本文所使用的，“第三TCR或BCR的C区特异性引物”是在本发明的第三PCR扩增反应中使用的引物，该引物被设计为具有在第二TCR或BCR的C区特异性引物的序列下游的序列中，与TCR或BCR的C区完全匹配的序列，但包括与其它基因序列非同源的序列，并且包括在扩增时下游在亚型之间不一致的碱基。该引物进一步包括接头序列、关键序列和鉴定序列。它的具体实例包括，但并不限于，CM3-GS(SEQ ID NO：7)、CA3-GS(SEQ ID NO：10)、CG3-GS(SEQ ID NO：13)、CD3-GS(SEQ ID NO：16)和CE3-GS(SEQ ID NO：19)。可使用可设置为上述第三TCR或BCR的C区特异性引物的任意序列。

如本文所使用的，“同种型”指属于同一类型但彼此具有不同序列的IgM、IgA、IgG、IgE、IgD等。同种型可使用基因的各种缩写或符号来表示。

如本文所使用的，“亚型”是在BCR的IgA和IgG中存在的类型内的类型。IgG具有IgG1、IgG2、IgG3和IgG4，而IgA具有IgA1和IgA2。还已知存在于TCR的β链和γ链中，分别是TRBC1和TRBC2和TRGC1和TRGC2。

如本文所使用的，“完全匹配”指序列与另一序列相比时，具有100％同一性。

如本文所使用的，“与相同同种型的所有C区等位序列完全匹配”指当进行比对时，与相同同种型的C区等位序列的所有序列的匹配。因为C区中的所有序列即使在相同同种型中也绝不会相同，因此当确定扩增子的序列时，使用与相同同种型的所有C区等位序列完全匹配的序列对于立即决定同种型是有利的。

如本文所使用的，“不可能具有同源二聚体和分子内发夹结构”指核酸分子，特别是通用接头引物的状态，其中序列由于与互补链等配对而不可能形成二聚体，或者由于与分子中的互补链配对而不可能形成发夹结构等。“不可能”考虑到不实质影响后续分析的同源二聚体或发夹的程度，指例如整体的约10％或更小、5％或更小、1％或更小、0.5％或更小、0.1％或更小、0.05％或更小，或0.01％或更小的容许度。可使用本领域已知的技术(Santa Lucia，J.Proc Natl Acad Sci U S A，95(4)：1460-1465.(1998)，Bommarito etal.，Nucleic Acids Res，28(9)：1929-1934.(2000)，Santa Lucia，J.Proc Natl Acad SciU S A，95(4)：1460-1465.(1998)，和von Ahsen et al.，ClinChem，47(11)：1956-1961.(2001))，例如通过在实施例中使用的市场上可购买的计算机程序(CLC Main Workbench或Primer3)等，来确定这样的序列。

如本文所使用的，“不具有同源二聚体和分子内发夹结构”指核酸分子，特别是通用接头引物的状态，其中序列由于与互补链等配对而不形成二聚体，或者由于与分子中的互补链配对而不形成发夹结构等。可使用本领域已知的技术(Santa Lucia，J.Proc NatlAcad Sci U S A，95(4)：1460-1465.(1998)，Bommarito et al.，Nucleic Acids Res，28(9)：1929-1934.(2000)，Santa Lucia，J.Proc Natl Acad Sci U S A，95(4)：1460-1465.(1998)，和von Ahsen et al.，ClinChem，47(11)：1956-1961.(2001))，例如通过在实施例中使用的市场上可购买的计算机程序(CLC Main Workbench或Primer3)等，来确定这样的序列。

如本文所使用的，“可稳定形成双链”的结构指核酸分子，特别是通用接头引物，其中当与另一核酸分子(诸如模板)形成双链时，双链稳定地形成链。这样的稳定性主要可通过温度、pH、由碱基组成所计算出的溶解温度(Tm)、pHm或结构稳定能(-ΔG_37℃)来评定。可使用本领域已知的技术(Santa Lucia，J.Proc Natl Acad Sci U S A，95(4)：1460-1465.(1998)，Bommarito et al.，Nucleic Acids Res，28(9)：1929-1934.(2000)，Santa Lucia，J.Proc Natl Acad Sci U S A，95(4)：1460-1465.(1998)，和von Ahsen et al.，ClinChem，47(11)：1956-1961.(2001))，例如通过在实施例中使用的市场上可购买的计算机程序(CLC Main Workbench或Primer3)等，来确定这样的序列。

如本文所使用的，“不高的同源性”指具有以下特征的核酸分子，特别是通用接头引物：与数据库中的所有TCR基因序列的同源性不高，以提高可识别性。对于充分的分析，同源性的水平优选例如是80％或更小、70％或更小、60％或更小、50％或更小、40％或更小、30％或更小、25％或更小、20％或更小、15％或更小，或10％或更小。

如本文所使用的，“相同水平的熔解温度(Tm)”指要使用的序列或引物的DNA熔解温度(Tm)实质相同，这是进行适当PCR扩增反应的优选条件。“相同水平”可指Tm为±15℃或更小、±14℃或更小、±13℃或更小、±12℃或更小、±11℃或更小、±10℃或更小、±9℃或更小、±8℃或更小、±7℃或更小、±6℃或更小、±5℃或更小、±4℃或更小、±3℃或更小、±2℃或更小、±1℃或更小，或±0.5℃或更小。实施例能在10.9℃的差异下进行本发明。因此，应理解作为相同水平，约15℃或更小是可接受的。Tm是50％的DNA分子变性成单链的温度。可使用本领域已知的技术来鉴定Tm。例如，可发现如下的Tm：(a)对于短于18b的寡核苷酸，Tm＝(A+T)×2℃+(G+C)×4℃；(b)对于长度为18b或更长的寡核苷酸，Tm＝81.5+16.6(log10[Na+])+0.41(％G+C)-(600/N)，(*A：寡核苷酸中的A的数量，C：寡核苷酸中的C的数量，G：寡核苷酸中的G的数量，T：寡核苷酸中的T的数量，％G+C：寡核苷酸中的G+C的％，N：寡核苷酸的长度(mer)，[Na+]：溶液(M)中的Na+浓度)。

如本文所使用的，“适用于扩增的碱基长度”指所使用的适用于扩增反应的引物或序列的长度。可例如通过实施例中使用的市场可购买的计算机程序(CLC Main Workbench或Primer3)等发现这样的长度。还可参照诸如以下的文献：Santa Lucia，J.Proc NatlAcad Sci U S A，95(4)：1460-1465.(1998)，Bommarito et al.，Nucleic Acids Res，28(9)：1929-1934.(2000)，Santa Lucia，J.Proc Natl Acad Sci U S A，95(4)：1460-1465.(1998)和von Ahsen et al.，Clin Chem，47(11)：1956-1961.(2001)。

如本文所使用的，“错配”指当比对基因序列时，存在彼此不同的碱基。

如本文所使用的，“％GC(％鸟嘌呤·胞嘧啶的含量)”指相对于所有碱基(包括A(腺嘌呤)、T(胸腺嘧啶)和U(尿嘧啶))，核酸序列中的G(鸟嘌呤)、C(胞嘧啶)的百分比。它的高百分比产生较高的熔解温度，并且也与染色体的基因密度或带结构有关。

如本文所使用的，“与所有TCR或BCR亚类相适的组”指对于靶TCR或BCR的所有已知亚类(对于TCR，指TRBC1、TRBC2或TRGC1、TRGC2等，或对于BCR，IgG为IgG1、IgG2、IgG3或IgG4，IgA为IgA1或IgA2，等等)，根据本说明书所制备的引物。

如本文所使用的，所使用的“蛋白”、“多肽”、“寡肽”和“肽”具有相同的意思，并且指任意长度的氨基酸聚合物。这样的聚合物可以是支链的或直链的或环形的。氨基酸可以是天然或非天然或经改变的氨基酸。该术语还涵盖了组装成多个多肽链的复合体的那些。该术语还涵盖了天然或经人工改变的氨基酸聚合物。这样的改变的实例包括形成二硫键、糖基化、脂化、乙酰化、磷酸化，或任意其它操作或改变(例如与标记组分的缀合)。该定义还涵盖了例如包括氨基酸的一种或多种类似物(例如包括非天然氨基酸等)、肽样化合物(例如类肽)和本领域已知的其它改变的多肽。

如本文所使用的，只要满足本发明的目的，“氨基酸”可以是天然或非天然的。

如本文所使用的，“多核苷酸”、“寡核苷酸”和“核酸”以相同的意思使用，并且指具有任意长度的核苷酸聚合物。该术语还涵盖“寡核苷酸衍生物”和“多核苷酸衍生物”。“寡核苷酸衍生物”或“多核苷酸衍生物”指其具有在不正常的核苷酸或包括核苷酸衍生物的核苷酸之间的键的寡核苷酸或多核苷酸。它们可互换使用。这样的寡核苷酸的具体实例包括2′-O-甲基-核糖核苷酸，寡核苷酸中的磷酸二酯键转化成硫代磷酸酯键的寡核苷酸衍生物，寡核苷酸中的磷酸二酯键转化成N3′-P5′磷酰胺酯键的寡核苷酸衍生物，寡核苷酸中的核糖和磷酸二酯键转化成肽核酸键的寡核苷酸衍生物，寡核苷酸中的尿嘧啶被替换成C-5丙炔基尿嘧啶的寡核苷酸衍生物，寡核苷酸中的尿嘧啶被替换成C-5噻唑尿嘧啶的寡核苷酸衍生物，寡核苷酸中的胞嘧啶被替换成C-5丙炔基胞嘧啶的寡核苷酸衍生物，寡核苷酸中的胞嘧啶被替换成经吩噁嗪修饰的胞嘧啶的寡核苷酸衍生物，DNA中的核糖被替换成2′-O-丙基核糖的寡核苷酸衍生物，寡核苷酸中的核糖被替换成2′-甲氧基乙氧基核糖的寡核苷酸衍生物，等等。除非特别指出，除了明确示出的序列之外，具体的核酸序列还用于涵盖经保守改变的变体(例如简并密码子替换的形式)及其互补序列。具体地，可通过创建其中选定的一个或多个(或所有)密码子的第三位被替换成混合碱基和/或脱氧肌苷残基的序列，来获得简并密码子替换的形式(Batzer et al.，Nucleic Acid Res.19：5081(1991)；Ohtsukaet al.，J.Biol.Chem.260：2605-2608(1985)；Rossolini et al.，Mol.Cell.Probes 8：91-98(1994))。如本文所使用的，“核酸”可与基因、cDNA、mRNA、寡核苷酸和多核苷酸互换使用。如本文所使用的，“核苷酸”可以是天然或非天然的。

如本文所使用的，“基因”指限定基因型的试剂。基因通常以特定顺序被设置在染色体中。将限定蛋白的一级结构的基因称为结构基因，而将影响其表达的基因称为调控基因。如本文所使用的，“基因”可指“多核苷酸”、“寡核苷酸”或“核酸”。“基因产物”是基于基因产生的物质，并且指蛋白、mRNA等。

如本文所使用的，基因的“同源性”指两个或多个基因序列与另一基因序列的同一性的水平。通常，具有“同源性”指具有高水平的同一性和相似性。因此，两个基因的较高水平的同源性使得其序列具有较高水平的同一性或相似性。可以通过直接对比序列，或通过在核酸的严格条件下进行杂交，来检验两种类型的基因是否是同源的。当直接对比两个基因序列时，当基因序列之间的DNA序列为至少50％相同，优选为至少70％相同，并且更优选为至少80％、90％、95％、96％、97％、98％或99％相同时，基因通常是同源的。因此，如本文所使用的，“同源物”或“同源的基因产物”指另一物种，优选哺乳动物中，发挥与本文进一步描述的复合体的蛋白组成成分相同的生物功能的蛋白。

在本文中，可以它的公知的三个字母符号或由IUPAC-IUB生物化学命名委员会(IUPAC-IUB Biochemical Nomenclature Commission)推荐的一个字母符号提到氨基酸。类似地，可以普遍识别的一个字母代码提到核苷酸。在本文中，通过使用具有缺省参数的序列分析工具BLAST，来计算氨基酸序列和碱基序列的相似性、同一性和同源性的对比。例如，通过使用NCBI的BLAST2.2.9(于2004年5月12日公开)调查同一性。本文中的同一性的值通常指，使用上述BLAST在缺省条件下进行序列比对所获得的值。但是，当通过改变参数输出较高值时，则认为最高值是同一性的值。在多个区域中测定同一性时，认为其中的最高值是同一性的值。除了同一性之外，相似性是计算使用相似氨基酸的数值。

如本文所使用的，“在严格条件下进行杂交的多核苷酸”指本领域中常规的公知条件。通过使用克隆杂交、噬菌斑杂交、DNA印记杂交(southern blot hybridization)等，同时使用从本发明的多核苷酸选择出的多核苷酸作为探针，可获得这样的多核苷酸。具体地，这样的多核苷酸指能通过以下方法鉴定出来的多核苷酸：使用具有来源于克隆或噬菌斑的固定的DNA的过滤器，以在65℃在0.7～1.0M NaCl的存在下进行杂交，然后使用0.1～2倍浓度的SSC(盐-柠檬酸钠)溶液(具有1倍浓度的SSC溶液的成分是150mM氯化钠和15mM柠檬酸钠)，以在65℃的条件下洗涤过滤器。可按照实验出版物，诸如《分子克隆第二版，当前分子生物学技术(Molecular Cloning 2^nd ed.，Current Protocols in Molecular Biology)》附录1-38，《DNA克隆1：核心技术，实用方法，第二版(DNA Cloning 1：Core Techniques，APractical Approach，Second Edition)》(牛津大学出版社(1995))中所描述的方法进行杂交。在这一方面，优选从在严格条件下杂交的序列中，排除仅包括A序列或仅包括T序列的序列。因此，在本发明中使用的多肽(例如甲状腺素运载蛋白等)涵盖由一核酸分子编码的多肽，其中该核酸分子在严格条件下与编码本发明具体描述的多肽的核酸分子杂交。低严格条件包括：在40℃，在包含35％甲酰胺、5×SSC、50mM Tris-HCl(pH 7.5)、5mM EDTA、0.02％聚乙烯吡咯烷酮(PVP)、0.02％BSA、100μg/ml变性的鲑鱼精DNA和10％(w/v)硫酸葡聚糖的缓冲液中杂交18～20小时；在55℃，在由2×SSC、25mM Tris-HCl(pH 7.4)、5mM EDTA和0.1％SDS组成的缓冲液中洗涤1～5小时；并且，在60℃，在由2×SSC、25mM Tris-HCl(pH7.4)、5mM EDTA和0.1％SDS组成的缓冲液中洗涤1.5小时。

如本文所使用的，“纯化的”物质或生物制剂(例如核酸、蛋白等)指去除了至少一些天然与其伴随的试剂的物质或生物制剂。因此，在纯化的生物制剂中的生物制剂的纯度通常高于生物制剂在正常条件下的纯度(即浓缩的)。本文所使用的术语“纯化的”优选指存在至少75wt.％、更优选至少85wt.％、仍然更优选至少95wt.％并且最优选至少98wt.％的同一类型的生物制剂。本发明中所使用的物质优选是“纯化的”物质。

如本文所使用的，“对应的氨基酸或核酸”指如下的氨基酸或核苷酸，其在多肽或多核苷酸中与确定的氨基酸或核苷酸具有或预期具有类似作用，所述多肽或多核苷酸是在特定多肽分子和多核苷酸分子中的对比基准，尤其对于酶分子，指处于活性位点的相同位置的氨基酸并且为催化活性提供相同贡献。例如，对于反义分子，对应的氨基酸或核酸可以是对应于反义分子的特定部分的直系同源物中的相似部分。对应的氨基酸可以是已经经过了半胱氨酰化(cysteinylation)、谷胱甘肽S-S键的形成、氧化(例如甲硫氨酸侧链的氧化)、甲酰化、乙酰化、磷酸化、糖基化、十四烷基化等的特定氨基酸。或者，对应的氨基酸可以是负责二聚化的氨基酸。这样的“对应的”氨基酸或核酸可以是特定范围上的一个区域或结构域(例如V区、D区等)。因此，在本文中将这样的区域或结构域称为“对应的”区域或结构域。

如本文所使用的，“片段”指相对于全长的多肽或多核苷酸(长度为n)，序列长度为1至n-1的多肽或多核苷酸。可按照目标，适当地改变片段的长度。对于多肽，这样的长度的下限实例包括3、4、5、6、7、8、9、10、15、20、25、30、40、50和更多的氨基酸。本文中未特别列出的整数(例如11等)所示的长度也可适用作下限。此外，对于多核苷酸，长度的实例包括5、6、7、8、9、10、15、20、25、30、40、50、75、100和更多的核苷酸。本文中未特别列出的整数(例如11等)所示的长度也可适用作下限。如本文所使用的，当全长版本用作标记物时，只要片段自身也用作标记物，则这样的片段也应理解为在本发明的范围内。

根据本发明，术语“活性”指在本文中的分子的最宽泛意义上的功能。尽管不旨于进行限制，活性通常包括分子的生物功能、生物化学功能、生理功能、治疗活性、诊断活性和化学功能。活性的实例包括酶活性，与另一分子相互作用的能力，激活、促进、稳定、抑制、阻遏或破坏另一分子的功能，稳定性和定位在细胞中的特定位置的能力。当使用时，该术语还涉及最宽泛意义上的蛋白复合体的功能。

如本文所使用的，基因、多核苷酸、多肽等的“表达”指基因等受到体内特定作用的影响，以具有另一形式。优选地，表达指基因、多核苷酸等经转录和翻译成为多肽的形式，但是转录生成mRNA也是表达的一种形式。更优选地，这样的多肽形式可以是在翻译之后经加工的那些多肽(如在本文中所称的衍生物)。

通过搜索数据库等，可发现功能等价物，诸如分子的同种型，诸如在本发明中使用的IgG。如本文所使用的，“搜索”指利用特定核酸碱基序列，通过电子、生物或另一方法，优选电子方法，以寻找具有特定功能和/或性质的另一核酸碱基序列。电子搜索的实例包括，但并不限于，BLAST(Altschul et al.，J.Mol.Biol.215：403-410(1990))、FASTA(Pearson&Lipman，Proc.Natl.Acad.Sci.，USA 85：2444-2448(1988))、史密斯和沃特曼法(Smith andWaterman method)(Smith and Waterman，J.Mol.Biol.147：195-197(1981))、内德勒曼和翁施法(Needleman and Wunsch method)(Needleman and Wunsch，J.Mol.Biol.48：443-453(1970))等。通常使用BLAST。生物搜索的实例包括，但并不限于，严格杂交、具有施加至尼龙膜等的基因组DNA的宏阵列或具有施加至玻璃板的基因组DNA的微阵列(微阵列测定)、PCR、原位杂交等。在此，本发明中使用的基因用于包括通过这样的电子搜索或生物搜索鉴定出的对应的基因。

作为本发明的功能等价物，可使用具有一个或多个氨基酸插入、替换或缺失，或在一个末端或两个末端有添加的氨基酸序列。如本文所使用的，氨基酸序列中的“一个或多个氨基酸插入、替换或缺失，或在一个末端或两个末端有添加”指通过诸如定点诱变的公知技术方法，或自然突变，具有可自然发生的程度的多个氨基酸的替换等的改变。分子的经改变的氨基酸序列可具有例如，1～30、优选1～20、更优选1～9、仍然更优选1～5并且特别优选1～2个氨基酸的插入、替换或缺失，或在一个末端或两个末端的添加。在诸如CD98的分子的氨基酸序列中，经改变的氨基酸序列可以是具有一个或多个(优选1或几个，或者1、2、3或4)保守替换的氨基酸序列。“保守替换”指一个或多个氨基酸残基经另一化学相似的氨基酸残基替换，以便基本不改变蛋白的功能。保守替换的实例包括：其中疏水残基经另一疏水残基替换的情况，其中极性残基经具有相同电荷等的另一极性残基替换的情况。对于每一种氨基酸，可以这种方式进行替换的功能相似的氨基酸在本领域中是已知的。具体实例包括：对于非极性(疏水)氨基酸，为丙氨酸、缬氨酸、异亮氨酸、亮氨酸、脯氨酸、色氨酸、苯丙氨酸、甲硫氨酸等；对于极性(中性)氨基酸，为甘氨酸、丝氨酸、苏氨酸、酪氨酸、谷氨酰胺、天冬酰胺、半胱氨酸等。带正电荷的(碱性)氨基酸的实例包括精氨酸、组氨酸、赖氨酸等。进一步地，带负电荷的(酸性)氨基酸包括天冬氨酸、谷氨酸等。

如本文所使用的，“标记物(物质、蛋白或基因(核酸))”指一物质，该物质可为用于追踪靶标是否处于特定条件或有处于特定条件(例如正常细胞状态、转化状态、疾病状态、失调状态、增殖能力或分化状态的水平或存在，等等)的风险的指示物。这样的标记物的实例包括基因(核酸＝DNA水平)、基因产物(mRNA、蛋白等)、代谢物、酶等。在本发明中，可通过使用与这样的状态相关的标记物具有特异性的试剂或工具，或者包括该试剂或工具等的组合物、试剂盒或系统，实现对特定状态(例如疾病，诸如分化失调)的检测、诊断、初步检测、预测或预诊断。如本文所使用的，“基因产物”指由基因编码的蛋白或mRNA。

如本文所使用的，“受试对象”指接受本发明的诊断、检测等的靶标(例如，诸如人的有机体，或器官，或从有机体等提取的细胞)。

如本文所使用的，“样品”指从受试对象等获得的任何物质。例如，涵盖眼睛的细胞等。本领域技术人员可基于本文的说明书适当选择优选的样品。

如本文所使用的，“试剂”以广泛的含义使用，并且只要可实现想要的目标，则“试剂”可以是任意物质或其他元素(例如能量、辐射、热、电和其他形式的能量)。这样的物质的实例包括，但并不限于，蛋白、多肽、寡肽、肽、多核苷酸、寡核苷酸、核苷酸、核酸(包括例如，诸如cDNA和基因组DNA的DNA，诸如mRNA的RNA)、多糖、寡糖、脂质、有机小分子(例如激素、配体、信息传递物质、有机小分子、由组合化学合成的分子、可用作药物的小分子(例如小分子配体等)及其复合分子)。对多核苷酸具有特异性的试剂的典型实例包括，但并不限于，以特定的序列同源性(例如70％或更高的序列同一性)与该多核苷酸的序列具有互补性的多核苷酸，诸如与启动子区域等结合的转录因子等多肽。对多肽具有特异性的试剂的典型实例包括，但并不限于，特异性针对多肽或其衍生物或类似物的抗体(例如单链抗体)；当多肽是受体或配体时，该试剂是特异性配体或受体；当多肽是酶等时，该试剂是底物。

如本文所使用的，“检测试剂”广泛地指能检测感兴趣的靶标的所有试剂。

如本文所使用的，“诊断试剂”广泛地指能诊断感兴趣的状况(例如疾病等)的所有试剂。

本发明的检测试剂可以是复合体或复合分子，其中另一物质(例如标记物等)与可被检测的部分(例如抗体等)结合。如本文所使用的，“复合体”或“复合分子”指包括两个或更多部分的任意结构。例如，当一个部分是多肽时，另一部分可以是多肽或其它物质(例如糖、脂质、核酸、其它碳水化合物等)。如本文所使用的，复合体的两个或更多的组成部分可以通过共价键或其它任意键(例如氢键、离子键、疏水作用、范德华力等)结合在一起。当两个或更多个部分是多肽时，复合体可被称为嵌合多肽。因此，本文所使用的“复合体”包括通过将多种类型的分子，诸如多肽、多核苷酸、脂质、糖或小分子，连接起来形成的分子。

如本文所使用的，“相互作用”指对于两种物质，在一种物质和另一种物质之间施加力(例如分子间的力(范德华力)、氢键、疏水作用等)。通常，相互作用的两种物质处于缀合或结合的状态。

如本文所使用的，术语“结合”指两种物质之间或其组合之间的物理或化学的相互作用。结合包括离子键、非离子键、氢键、范德华键、疏水作用等。物理相互作用(结合)可以是直接或间接的。间接的物理相互作用(结合)由另一蛋白或化合物介导或归功于另一蛋白或化合物的影响。直接结合指一相互作用，该相互作用不通过或归功于另一蛋白或化合物的影响而发生，并且基本不涉及另一中间物。可通过测量结合或相互作用，来测量本发明的标记物的表达程度等。

因此，与本文所使用的生物制剂，诸如多核苷酸或多肽，“特异性”相互作用(或结合)的“试剂”(或检测试剂等)涵盖对生物制剂，诸如多核苷酸或多肽具有亲和性的试剂，该亲和性通常类似或高于，优选显著(例如具有统计学显著性)高于与其它不相关的多核苷酸或多肽(特别是具有小于30％同一性的那些多核苷酸或多肽)的亲和性。例如，可通过杂交测定、结合测定等，来测量这样的亲和性。

如本文所使用的，第一物质或试剂与第二物质或试剂“特异性”相互作用(或结合)指，与除了第二物质或试剂之外的其它物质或试剂(特别是包含第二物质或试剂的样品中的其它物质或试剂)相比，第一物质或试剂以较高的亲和力水平与第二物质或试剂相互作用(或结合)。对物质或试剂具有特异性的相互作用(或结合)的实例包括，但并不限于：配体-受体反应、核酸中的杂交、蛋白中的抗原-抗体反应、酶-底物反应等；并且当核酸和蛋白都参与时，转录因子和转录因子的结合位点之间的反应等，蛋白-脂质相互作用、核酸-脂质相互作用等。因此，当物质或试剂都是核酸时，与第二物质或试剂“特异性相互作用的”第一物质或试剂涵盖与第二物质或试剂至少部分互补的第一物质或试剂。进一步地，当物质或试剂都是蛋白时，第一物质或试剂与第二物质或试剂“特异性”相互作用(或结合)的实例包括，但并不限于，通过抗原-抗体反应的相互作用、通过受体-配体反应的相互作用、酶-底物的相互作用等。当两种类型的物质或试剂包括蛋白和核酸时，第一物质或试剂与第二物质或试剂“特异性”相互作用(或结合)涵盖转录因子和该转录因子靶定的核酸分子的结合区域之间的相互作用(或结合)。

如本文所使用的，可使用适当的方法来完成多核苷酸或多肽表达的“检测”或“定量”，该适当的方法包括例如免疫学测量方法和mRNA的测量，包括与标记物检测试剂的结合或相互作用。但是，可使用本发明的一定量的PCR产物进行测量。分子生物学测量方法的实例包括RNA(northern)印记、斑点印记、PCR等。免疫学测量方法的实例包括使用微量滴定板的ELISA、RIA、荧光抗体法、发光免疫测定法(LIA)、免疫沉淀法(IP)、单向免疫扩散法(SRID)、免疫比浊分析法(TIA)、蛋白(western)印记、免疫组化染色法等。进一步地，定量方法的实例包括ELISA、RIA等。还可通过使用阵列(例如DNA阵列、蛋白阵列)的基因分析方法，进行定量。DNA阵列在(秀润社编辑，细胞工程分册“DNA微阵列和最近的PCR方法”)中进行了宽泛地概述。蛋白阵列在Nat Genet.2002Dec；32Suppl：526-32中进行了详细讨论。除了上述方法之外，分析基因表达的方法的实例还包括，但并不限于，RT-PCR、RACE、SSCP、免疫沉淀法、双杂交系统、体外翻译等。这些额外的分析方法描述在例如由中村佑辅羊土社编辑(2002)的《基因组分析实验方法，中村佑辅实验室手册》中。其中的整个说明通过引用并入本文中。

如本文所使用的，“表达量”指在感兴趣的细胞、组织等中表达的多肽、mRNA等的量。这样的表达量的实例包括：通过任意适当的方法在蛋白水平上测定本发明的多肽的表达量，该任意适当的方法包括使用本发明的抗体进行的免疫学测量方法，诸如ELISA、RIA、荧光抗体法、western印记和免疫组化染色；和，通过任意适当的方法在mRNA水平上测定的在本发明中使用的多肽的表达量，该任意适当的方法包括分子生物学测量方法，诸如northern印记、斑点印记和PCR。“表达量的变化”指在本发明中使用的多肽的表达量的增加或减小，其中通过任意适当的方法在蛋白水平或mRNA水平上测量本发明中使用的多肽的表达量，该任意适当的方法包括上述免疫学测量方法或分子生物学测量方法来测定。通过测量特定标记物的表达量，可进行基于标记物的各种检测或诊断。

如本文所使用的，活性或表达产物(例如蛋白、转录物(RNA等))或其同义词的“减小”或“阻遏”指：特定活性、转录物或蛋白的量、质量或效果的减小；或者，减小特定活性、转录物或蛋白的量、质量或效果的活性。

如本文所使用的，活性或表达产物(例如蛋白、转录物(RNA等))或其同义词的“增加”或“活化”指：特定活性、转录物或蛋白的量、质量或效果的增加；或者，增加特定活性、转录物或蛋白的量、质量或效果的活性。

因此，应理解，可使用本发明标记物的调节能力，诸如减小、阻遏、增加或活化作为标示物，来检测或筛选免疫系统的活性。

如本文所使用的，“单元/方法”指可以是用于完成目标(例如检测、诊断、治疗)的任意工具。具体地，本文所使用的“选择性识别(检测)的单元/方法”指能够从其他物质中有区别地识别出(检测到)特定受试对象的单元/方法。

本发明作为免疫系统状态的标示物是有用的。因此，本发明可用于鉴定免疫系统状态的标示物，并且了解疾病的状态。

如本文所使用的，“(核酸)引物”指在聚合物合成酶反应中，起始要合成的聚合化合物的反应所需的物质。核酸分子的合成反应可使用与要合成的聚合化合物序列的一部分互补的核酸分子(例如DNA、RNA等)。本文中，引物可用作标记物检测工具。

通常用作引物的核酸分子的实例包括具有长度至少为8个连续核苷酸的核酸序列，该核酸序列与感兴趣的基因(例如本发明的标记物)的核酸序列互补。这样的核酸序列可以是长度优选为至少9个连续核苷酸、更优选为至少10个连续核苷酸、仍然更优选为至少11个连续核苷酸、至少12个连续核苷酸、至少13个连续核苷酸、至少14个连续核苷酸、至少15个连续核苷酸、至少16个连续核苷酸、至少17个连续核苷酸、至少18个连续核苷酸、至少19个连续核苷酸、至少20个连续核苷酸、至少25个连续核苷酸、至少30个连续核苷酸、至少40个连续核苷酸或至少50个连续核苷酸的核酸序列。用作探针的核酸序列包括与上述序列具有至少70％同源性、更优选至少80％同源性、仍然更优选至少90％同源性或至少95％同源性的核酸序列。适用作引物的序列可随要进行的合成(扩增)的序列的性质的不同而不同。但是，按照预期的序列，本领域技术人员能够设计出适当的引物。这样的引物设计在本领域中是公知的，可以手动进行或使用计算机程序(例如LASERGENE、PrimerSelect或DNAStar)进行。

根据本发明的引物可用作由两种或更多种类型的引物组成的引物组。

在已知的利用核酸扩增方法，诸如PCR、RT-PCR、实时PCR、原位PCR或LAMP检测感兴趣的基因的方法中，根据本发明的引物和引物组可按照公知的方法用作引物和引物组。

可对根据本发明的引物组进行选择，以便可通过核酸扩增方法，诸如PCR扩增感兴趣的蛋白(诸如T细胞受体的分子)的核酸序列。核酸扩增方法是公知的。核酸扩增方法中引物对的选择对于本领域技术人员来说是明显的。例如，可选择PCR中的引物，以便两个引物(引物对)中的一个引物与感兴趣的蛋白(诸如T细胞受体分子)的双链DNA的正链配对，而另一引物与该双链DNA的负链配对，并且由引物中的一个引物延伸出的链与另一引物配对。可基于本文中公开的核苷酸序列化学合成本发明的引物。引物的制备是公知的，并且可按照例如《分子克隆，实验指南第二版(Molecular Cloning，A Laboratory Manual 2^nd ed)》(冷泉港出版社(1989))、《当前分子生物学技术(Current Protocols in MolecularBiology)》(John Wiley&Sons(1987-1997))进行。

如本文所使用的，“探针”指可为搜索工具的物质，其用于诸如体外和/或体内筛选等生物实验中。探针的实例包括，但并不限于，包括特定碱基序列的核酸分子、包括特定氨基酸序列的肽、特异性抗体以及它们的片段等。如本文所使用的，探针可用作标记物检测工具。

通常用作探针的核酸分子包括，具有长度为至少8个连续核苷酸的核酸序列的核酸分子，其与感兴趣的基因的核酸序列同源或互补。这样的核酸序列可以是长度优选为至少9个连续核苷酸、更优选为至少10个连续核苷酸、仍然更优选为至少11个连续核苷酸、至少12个连续核苷酸、至少13个连续核苷酸、至少14个连续核苷酸、至少15个连续核苷酸、至少20个连续核苷酸、至少25个连续核苷酸、至少30个连续核苷酸、至少40个连续核苷酸或至少50个连续核苷酸的核酸序列。用作探针的核酸序列包括与上述序列具有至少约70％同源性、更优选至少约80％同源性、仍然更优选至少约90％同源性或至少约95％同源性的核酸序列。

在一个实施方式中，本发明的检测试剂可以是经标记的。或者，本发明的检测试剂可以与标签结合。

如本文所使用的，“标记”指用于将感兴趣的分子或物质与其它分子或物质区分开的实体(例如物质、能量、电磁波等)。这样的标记方法包括RI(放射性同位素)法、荧光法、生物素法、化学发光法等。当本发明的多种标记物或用于捕获该多种标记物的试剂或工具是通过荧光法标记的，标记使用具有不同荧光发射最大波长的标记物质进行。荧光发射最大波长之间的差异为10nm或更大是优选的。当标记配体时，可使用不影响功能的任意标记。但是，Alexa^TMFluor是期望的荧光物质。Alexa^TMFluor是通过对香豆素、罗丹明、荧光素、花菁等进行改性而获得的水溶性荧光染料。这是与宽范围的荧光波长相兼容的系列。相对于对应波长的其它荧光染料，Alexa^TMFluor非常稳定、明亮，并且具有低水平的pH敏感性。荧光最大波长为10nm或更大的荧光染料的组合包括Alexa^TM555和Alexa^TM633的组合、Alexa^TM488和Alexa^TM555的组合等。当对核酸进行标记时，可使用与其碱基部分结合的任意物质。但是，优选使用花菁染料(例如CyDye^TM系列的Cy3、Cy5等)、罗丹明6G试剂、N-乙酰氧基-N2-乙酰氨基芴(AAF)、AAIF(AAF的碘衍生物)等。荧光发射最大波长具有10nm或更大差异的荧光物质的实例包括Cy5和罗丹明6G试剂的组合、Cy3和荧光素的组合、罗丹明6G试剂和荧光素的组合等。本发明可利用这样的标记，来改变感兴趣的受试对象，其中感兴趣的受试对象可通过要使用的检测工具来检测。这样的改变在本领域中是公知的。本领域技术人员可按照标记和感兴趣的受试对象，适当地进行这样的方法。

如本文所使用的，“标签”指用于通过诸如受体-配体等特定的识别机制，来区分分子的物质，或更具体地，指起到结合伴侣的作用的物质(例如具有关系诸如生物素-亲和素或生物素-链亲和素)，以与特定物质结合。标签可涵盖在“标记”的范围内。相应地，通过与底物接触，与标签结合的特定物质可区分特定物质，其中标签序列的结合伴侣与底物结合。这样的标签或标记在本领域中是公知的。典型的标签序列包括，但并不限于，myc标签、His标签、HA、Avi标签等。这样的标签可与本发明的标记物或标记物检测试剂结合。

在此方面，“测试样品”仅需要是感兴趣的细胞或从其中衍生的物质，被认为包括使基因能表达的元素。

如本文所使用的，“诊断”指鉴定受试对象中与疾病、失调、病症等相关的多种参数，以确定这样的疾病、失调或病症的目前或未来的状态。可使用本发明的方法、设备或系统，检验体内的病症。可使用这样的信息，以选择和确定在受试对象等中要给药以治疗或预防疾病、失调或病症的制剂或方法的多种参数。如本文所使用的，当以狭义定义时，“诊断”指对目前状态的诊断，但是当以广义定义时，“诊断”包括“早期诊断”、“预测诊断”、“预诊断”等。因为本发明的诊断方法在原则上可利用从身体获得的物质，并且可离开执业医师，诸如医师进行，因此本发明在工业上是有用的。为了阐明该方法可离开执业医师，诸如内科医生进行，本文所使用的术语可尤其被称为“辅助的”“预测诊断、预诊断或诊断”。

作为药剂等，本发明的诊断试剂等的制备程序在本领域是已知的。例如，该程序描述在日本药典(Japanese Pharmacopoeia)、美国药典(the United StatesPharmacopeia)、其它国家的药典等中。因此，本领域技术人员根据本文的描述可在不进行过度实验的情况下，确定要使用的量。

如本文所使用的，“与相同的同种型的所有C区等位序列完全匹配”指当比对时，与相同的同种型的C区等位序列的所有序列匹配。因为即使在相同的同种型中，C区中的所有序列也从不相同，因此，使用与相同的同种型的所有C区等位序列完全匹配的序列对于当确定扩增子的序列时立即确定同种型来说是有利的，

如本文所使用的，“修剪”指在基因分析中去除不适当的部分。修剪是通过去除解读遗传密码(read)两端的低质量区域、在实验程序中分配的人工核酸序列的部分序列，或去除这两者而进行的。可使用本领域已知的软件，或通过参考参考文件进行修剪(参考文件例如cutadapt http://journal.embnet.org/index.php/embnetjournal/article/view/200/(EMBnet.journal，2011)；fastq-mcf Aronesty E.，The OpenBioinformaticsJournal(2013)7，1-8(DOI：10.2174/1875036201307010001)；和fastx-toolkit http://hannonlab.cshl.edu/fastx_toolkit/(2009))。对于接头序列或人工核酸序列，优选通过以下步骤完成修剪：从解读遗传密码的两端删除低质量的区域；从该解读遗传密码的两端删除与接头序列匹配10bp或更多的区域；以及，当剩余的长度为200bp或更多(TCR)或者为300bp或更多(BCR)时，使用该解读遗传密码作为分析中的高质量的解读遗传密码。

如本文所使用的，“适当的长度”指适于在本发明的基因分析中进行比对等的分析时，分析的长度。例如，这样的长度可确定为，包括从C区上的测序起始位置在V区上朝向D区的100个碱基。在本发明中，适当长度的实例包括，但并不限于，对于TCR，200个核苷酸或更长，优选250个核苷酸或更长；并且，对于BCR，300个核苷酸或更长，优选350个核苷酸或更长。

如本文所使用的，“输入序列组”指在本发明的基因分析中，TCR或BCR库分析的靶序列组。

如本文所使用的，“基因区域”指V区、D区、J区、C区等中的一个。这样的基因区域在本领域中是已知的，并且可通过参考数据库等进行适当确定。如本文所使用的，基因的“同源性”指2个或多个基因序列彼此之间的同一性水平。通常来讲，具有“同源性”指具有高水平的同一性或相似性。因此，两个基因的较高水平的同源性得到其序列的较高水平的同一性或相似性。可通过序列的直接比较，或通过在核酸的严格条件下进行杂交，来检验两种类型的基因是否是同源的。如本文所使用的，“同源性搜索”指搜索同源性。优选地，可通过使用计算机在硅片上搜索同源性。

如本文所使用的，“近似”指在进行同源性搜索时，具有高水平的同源性。当执行同源性搜索软件(BLAST、FASTA等)时，通常以高水平的同源性的顺序列出结果。因此，通过适当地选择排名较高的结果，则可能存在近似。

如本文所使用的，“最接近的”指在进行同源性搜索时，同源性水平最高。当使用软件搜索同源性时，选择排列在第一位所显示的结果。

如本文所使用的，“参照等位基因”指在进行同源性搜索时，在参照数据库中得到匹配的参照等位基因。

如本文所使用的，生物信息学中的“比对”(alignment/align)指可辨认出在比对中排列的生物分子，诸如DNA、RNA或蛋白的一级结构的类似区域，或者排列的动作。比对可提供用于理解序列的功能、结构或演化关系的线索。

如本文所使用的，“分配”指将特定信息，诸如基因名称、功能、特征区域(例如V区、J区等)配置给特定的序列(例如核酸序列、蛋白序列等)。具体地，通过输入或连接特定信息与特定序列等来实现分配。

如本文所使用的，“CDR3”指第三互补决定区(CDR)。在此方面，CDR是直接与抗原接触并且在可变区中经历了特别大的变化的区域，并且被称为超变区。轻链和重链的每一可变区都具有三个CDR(CDR1～CDR3)和在这三个CDR周围的四个FR(FR1～FR4)。因为认为CDR3区跨越V区、D区和J区存在，因此认为CDR3是可变区的重要关键，从而用作分析的受试对象。

如本文所使用的，“参照V区上的CDR3前部”指本发明靶定的，对应于V区中的CDR3前部的序列。

如本文所使用的，“参照J上的CDR3末端”指本发明靶定的，对应于J区中的CDR3末端的序列。

如本文所使用的，“容许分散在各处的随机突变的条件”指产生到处分散的随机突变的任何条件。例如，这样的条件常常由以下BLAST/FASTA最佳参数的条件来表示：在比对全长上容许有33％的最大错配；并且，对于其中的任意30bp，容许60％的最大的非连续性错配。可通过搜索数据库等，发现在本发明中使用的功能等价物，诸如分子(例如IgG)的同种型。如本文所使用的，“搜索”指电子地且生物学地利用特定核酸碱基序列，或通过另一方法，优选电子的方法，以寻找具有特定功能和/或性质的另一核酸碱基序列。电子搜索的实例包括，但并不限于，BLAST(Altschul et al.，J.Mol.Biol.215：403-410(1990))、FASTA(Pearson&Lipman，Proc.Natl.Acad.Sci.，USA 85：2444-2448(1988))、史密斯和沃特曼法(Smith and Waterman method)(Smith and Waterman，J.Mol.Biol.147：195-197(1981))、内德勒曼和翁施法(Needleman and Wunsch method)(Needleman and Wunsch，J.Mol.Biol.48：443-453(1970))等。通常使用BLAST。生物学搜索的实例包括，但并不限于，严格杂交、具有施加至尼龙膜等的基因组DNA的宏阵列或具有施加至玻璃板的基因组DNA的微阵列(微阵列测定)、PCR、原位杂交等。在此，本发明中使用的基因用于包括通过这样的电子搜索或生物学搜索鉴定出的对应的基因。

(优选实施方式)

下面描述本发明的优选实施方式。提供实施方式以更好地理解本发明。应理解，本发明的范围不应局限于下面的描述。进一步地，很显然本领域技术人员通过参考本文的描述，能够很容易地在本发明范围内进行修改。对于这样的实施方式，本领域技术人员可适当地对任意实施方式进行组合。

(无偏向的样品扩增)

本发明可使用下一代测序技术制备样品，用于对T细胞受体(TCR)或B细胞受体(BCR)的可变区的库进行定量分析。这样的测序技术可以合理的成本，从样品中获得一百万或更多的解读遗传密码。通过以特定且无偏向的方式使用这些技术，甚至可检测到以1/1000000或更小的低频率存在的基因型。实现了无偏向的扩增方法，该无偏向的扩增方法用于从来源于血液、骨髓等的DNA的样品中，扩增基因或转录物的特定部分的序列的所有不同类型。

在一个方面中，本发明提供了一种制备样品的方法，所述样品用于通过使用数据库进行基因序列分析，以对T细胞受体(TCR)或B细胞受体(BCR)的可变区的库进行定量分析，该方法包括以下步骤：(1)使用来源于靶细胞的RNA样品作为模板，合成互补DNA；(2)使用该互补DNA作为模板，合成双链互补DNA；(3)通过向该双链互补DNA添加通用接头引物序列，合成添加接头的双链互补DNA；(4)使用添加接头的双链互补DNA、由通用接头引物序列组成的通用接头引物和第一TCR或BCR的C区特异性引物，进行第一PCR扩增反应，其中第一TCR或BCR的C区特异性引物被设计为包括对TCR或BCR的感兴趣的C区具有充分特异性而与其它基因序列没有同源性的序列，并且包括在扩增时下游在亚型之间不一致的碱基；(5)使用(4)的PCR扩增子和第二TCR或BCR的C区特异性引物，进行第二PCR扩增反应，其中第二TCR或BCR的C区特异性引物经设计，以具有在第一TCR或BCR的C区特异性引物序列下游的序列中与TCR或BCR的C区完全匹配的序列，但包括与其它基因序列没有同源性的序列，并且包括在扩增时下游在亚型之间不一致的碱基；以及(6)使用(5)的PCR扩增子、添加的通用接头引物(其中该通用接头引物的核酸序列包括第一额外的接头核酸序列)和添加接头的第三TCR或BCR的C区特异性引物(其中第二额外的接头核酸序列和分子鉴定(MID标签)序列添加至第三TCR或BCR的C区特异性序列)，进行第三PCR扩增反应；其中第三TCR或BCR的C区特异性引物经设计，以具有在第二TCR或BCR的C区特异性引物序列下游的序列中与TCR或BCR的C区完全匹配的序列，但包括与其它基因序列没有同源性的序列，并且包括在扩增时下游在亚型之间不一致的碱基，该第一额外的接头核酸序列是适于与DNA捕获珠子结合并且适于进行emPCR反应的序列，第二额外的接头核酸序列是适于进行emPCR反应的序列，并且分子鉴定(MID标签)序列是赋予唯一性以便能鉴定出扩增子的序列。

常规方法不能实现真正意义上的无偏性。但是本发明能实现无偏向的扩增，并且进行准确的分析。对于无偏性，在某些情况中使用SMART PCR等。但是，这一方法不能实现精确的无偏性。原因如下：SMART PCR是利用来源于莫洛尼鼠类白血病病毒(MMLV)的反转录酶的末端转移酶活性的方法。也就是说，当反转录酶到达在互补链DNA合成反应中的模板mRNA的5’末端时，利用了主要向新合成的互补DNA的3’末端添加C碱基的次要反应。使用具有与3’末端添加的碱基(CCC)互补的碱基序列(GGG)的引物(TS低聚(TS oligo))，以在反转录反应时改变模板，从而实现双链合成。因此，已知该方法具有缺点，其中连续发生TS oligo的添加反应，以形成TS oligo串联体(Villanyi Z，Mai，A，Szabad J.Repeated templateswitching：Obstacles in cDNA libraries and ways to avoid them.The opengenomics journal，2012，5，1-6)。进一步地，已知该方法具有缺点，其中聚合酶的前进受到具有与TS oligo的3’侧序列相同或类似的序列的基因中的TS oligo的抑制，从而产生了偏向(Tang DT，Plessy C，Salimullah M，Suzuki AM，Calligaris R，Gustincich S，CarninciP.Suppression of artifacts and barcode bias in high-throughput transcriptomeanalyses utilizing template switching.Nucleic Acids Res.2013Feb 1；41(3)：e44)。事实上，据报道，使用微阵列分析，标准的反转录反应或体外转录和SMART PCR之间的相关性低(Puskas LG，Zvara A，Hackler L Jr，Van Hummelen P.RNA amplification resultsin reproducible microarray data with slight ratio bias.Biotechniques.2002Jun；32(6)：1330-4，1336，1338，1340)。进一步地，据报道，在各检测方法的重复测试中，SMARTPCR显示出比其它两种方法低的重复性(Puskas LG，et al.，Biotechniques.2002Jun；32(6)：1330-4，1336，1338，1340.)

在一个实施方式中，其中对BCR的可变区的库进行定量分析，C区特异性引物包括与选自由IgM、IgA、IgG、IgE和IgD组成的组中的感兴趣的同种型C区完全匹配的序列，并且具有与其它C区没有同源性的序列。优选地，对于IgA或IgG，C区特异性引物是与亚型IgG1、IgG2、IgG3和IgG4中的一种或者IgA1和IgA2中的一种完全匹配的序列。在另一实施方式中，其中对TCR的可变区的库进行定量分析，C区特异性引物是与选自由α链、β链、γ链和δ链组成的组中的感兴趣的链的C区完全匹配的序列，并且与其它C区没有同源性。

在另一实施方式中，对于C区特异性引物，优选选择与数据库中相同的同种型的所有C区等位序列完全匹配的序列的一部分。这样的完全匹配的选择能够进行高度精确的分析。

在优选的实施方式中，通用接头引物被设计以便引物不可能具有同源二聚体和分子内的发夹结构，并且能稳定形成双链，并且经设计以与数据库中的所有TCR基因序列都没有高度同源性，并且具有与C区特异性引物相同水平的Tm。这样的通用接头引物序列的实例包括TAATACGACTCCGAATTCCC(SEQ ID NO：2)、GGGAATTCGG(P10EA；SEQ ID NO：3)等。

在优选实施方式中，选择如下的通用接头引物，该通用接头引物被设计为不具有同源二聚体和分子内发夹结构，并且与包括BCR或TCR的其它基因不具有同源性。这样的通用接头引物序列的实例包括P20EA、P10EA等。

在具体的实施方式中，通用接头引物是P20EA和/或P10EA，并且其序列是TAATACGACTCCGAATTCCC(P20EA；SEQ ID NO：2)、GGGAATTCGG(P10EA；SEQ ID NO：3)。

在优选的实施方式中，第一、第二和第三TCR或BCR的C区特异性引物各自独立地是用于BCR库分析的引物，选定的引物是与IgM、IgG、IgA、IgD或IgE的各同种型C区完全匹配、与IgG和IgA的亚型完全匹配并且与数据库中所包括的其它序列没有同源性的序列，并且在亚型之间包括引物下游的不一致的碱基；其中，通用接头引物序列被设计以便该序列具有适用于扩增的碱基长度，不可能具有同源二聚体和分子内的发夹结构并且能稳定形成双链，并且经设计与除了数据库中的靶序列之外的其它基因序列没有同源性(或者与除了靶序列之外的其它包括BCR或TCR的基因没有同源性)，并且被设计为具有与C区特异性引物相同水平的Tm。这样的序列的实例包括，但并不限于，P20EA(TAATACGACTCCGAATTCCC(SEQ IDNO：2))和P10EA(GGGAATTCGG(SEQ ID NO：3))。

在优选的实施方式中，第一、第二和第三TCR的C区特异性引物各自独立地是用于TCR或BCR库分析的引物，选定的各引物是与一种类型的α链(TRAC)、两种类型的β链(TRBCO1和TRBCO2)、两种类型的γ链(TRGC1和TRGC2)和一种类型的δ链(TRDC1)完全匹配，并且与数据库中所包括的其它序列没有同源性，并且在亚型之间包括引物下游的不一致的碱基；其中，通用接头引物序列被设计以便该序列具有适用于扩增的碱基长度，不可能具有同源二聚体和分子内的发夹结构并且能稳定形成双链，并且被设计为与数据库中的所有TCR基因序列都没有高度同源性，并且具有与C区特异性引物相同水平的Tm。这样的序列的实例包括，但并不限于，P20EA(TAATACGACTCCGAATTCCC(SEQ ID NO：2))、P10EA(GGGAATTCGG(SEQID NO：3))。

在优选的实施方式中，将第三TCR或BCR的C区特异性引物设置在从C区的5’末端侧直到约150个碱基的区域中，并且将第一TCR或BCR的C区特异性引物和第二TCR或BCR的C区特异性引物设置在C区的5’末端侧至300个碱基之间。

在优选的实施方式中，第一、第二和第三TCR或BCR的C区特异性引物各自独立地用于BCR定量分析，其中将各自特异性引物设置成5种类型的同种型序列，并且引物经设计以完全匹配靶序列并且确保与其它同种型有5个碱基或更多的错配，并且经设计以与所有亚型都完全匹配，以便一种类型的引物可与各类似的IgG亚型(IgG1、IgG2、IgG3和IgG4)或IgA亚型(IgA1和IgA2)相适。这样的序列的实例包括在实施例中使用的以下序列，但并不限于：CM1(SEQ ID NO：5)、CA1(SEQ ID NO：8)、CG1(SEQ ID NO：11)、CD1(SEQ ID NO：14)、CE1(SEQID NO：17)、CM2(SEQ ID NO：6)、CA2(SEQ ID NO：9)、CG2(SEQ ID NO：12)、CD2(SEQ ID NO：15)、CE2(SEQ ID NO：18)、CM3-GS(SEQ ID NO：7)、CA3-GS(SEQ ID NO：10)、CG3-GS(SEQ IDNO：13)、CD3-GS(SEQ ID NO：16)和CE3-GS(SEQ ID NO：19)。

在优选的实施方式中，将引物设计中的参数设置为：18～22个碱基的碱基序列长度；54～66℃的溶解温度；和40～65％的％GC(％鸟嘌呤胞嘧啶含量)。优选地，除了这样的参数之外，还将参数设置为：18～22个碱基的碱基序列长度；54～66℃的溶解温度；和40～65％的％GC(％鸟嘌呤胞嘧啶含量)；26的自退火评分；10的自末端退火评分；和28的次级结构评分(对于在实施例中使用的罗氏(Roche)测序仪)。尽管碱基序列长度等的这些优选数值可能随着测序仪型号不同而不同，但是本领域技术人员能够按照测序仪型号适当设置参数。

在优选的实施方式中，确定第一、第二和第三TCR或BCR的C区特异性引物的序列的方法的条件包括如下：1、将多种亚型序列和/或等位基因序列上传到碱基序列分析软件中并且进行比对；2、使用引物设计软件，来搜索满足C区中的参数条件的多种引物；3、在1中的比对序列中没有错配碱基的区域中选择引物；和4、确认3中确定的引物下游，每一亚型和/或等位基因的多种错配序列的存在，并且如果没有这样的序列，则进一步向上游搜索引物，可选进行进一步的重复。

在优选的实施方式中，将第一TCR或BCR的C区特异性引物设置在以通过剪接产生的C区序列的第一个密码子的第一个碱基作为基线的，碱基41～300的位置中；将第二TCR或BCR的C区特异性引物设置在以上述第一个碱基作为基线的，碱基21～300的位置中；并且，第三TCR或BCR的C区特异性引物设置在以上述第一个碱基作为基线的，在150个碱基或更少碱基内的位置中；并且，上述位置包括亚型和/或等位基因中的错配位点。

在优选的实施方式中，第一TCR或BCR的C区特异性引物可具有，但并不限于，以下结构：CM1(SEQ ID NO：5)、CA1(SEQ ID NO：8)、CG1(SEQ ID NO：11)、CD1(SEQ ID NO：14)、CE1(SEQ ID NO：17)、CA1(SEQ ID NO：35)、CB1(SEQ ID NO：37)等等。

在优选的实施方式中，第二TCR或BCR的C区特异性引物可具有，但并不限于，以下结构：CM2(SEQ ID NO：6)、CA2(SEQ ID NO：9)、CG2(SEQ ID NO：12)、CD2(SEQ ID NO：15)、CE2(SEQ ID NO：18)、CA2(SEQ ID NO：35)和CB2(SEQ ID NO：37)等等。

在优选的实施方式中，第三TCR或BCR的C区特异性引物可具有，但并不限于，以下结构：CM3-GS(SEQ ID NO：7)、CA3-GS(SEQ ID NO：10)、CG3-GS(SEQ ID NO：13)、CD3-GS(SEQID NO：16)、CE3-GS(SEQ ID NO：19)等等。

在优选的实施方式中，以与所有TCR或BCR亚类相适的组的方式，提供各TCR或BCR的C区特异性引物。其特定序列包括以下：CM1(SEQ ID NO：5)、CA1(SEQ ID NO：8)、CG1(SEQID NO：11)、CD1(SEQ ID NO：14)、CE1(SEQ ID NO：17)、CM2(SEQ ID NO：6)、CA2(SEQ ID NO：9)、CG2(SEQ ID NO：12)、CD2(SEQ ID NO：15)、CE2(SEQ ID NO：18)、CM3-GS(SEQ ID NO：7)、CA3-GS(SEQ ID NO：10)、CG3-GS(SEQ ID NO：13)、CD3-GS(SEQ ID NO：16)、CE3-GS(SEQ IDNO：19)、CA1(SEQ ID NO：35)、CB1(SEQ ID NO：37)、CA2(SEQ ID NO：35)、CB2(SEQ ID NO：37)等等。

(大规模分析)

在另一方面中，本发明提供了一种通过使用本发明的方法制造的样品进行基因分析的方法。

可使用任意的分析技术，进行基因分析。例如，可以使用以下技术，通过使用已知的IMGT(国际ImMunoGeneTics信息系统(the international ImMunoGeneTicsinformation system)，http://www.imgt.org)数据库获得的V、D、J和C序列作为参照序列并且利用IMGT的HighV-Quest或申请人开发的新的软件(Repertoire Genesis)，对各解读序列的V、D、J和C序列进行分配的技术，申请人开发的新的软件(Repertoire Genesis)已同时递交，并且在本文中作为分析系统的优选实施例进行描述。

在优选的实施方式中，基因分析是对T细胞受体(TCR)或B细胞受体(BCR)的可变区的库进行的定量分析。

可通过对个体扩增分子进行测序，来区分不同的序列。因此，测序对检测克隆增殖中的量变具有敏感性。概括来讲，本发明的一个实施方式提供了一种确定T细胞和/或B细胞中的重组DNA序列图谱的方法。该方法可包括以下步骤：从受试对象中分离样品；进行一轮或多轮核酸扩增，并且空间分离各核酸；并且对核酸进行测序。

一个方面提供了一种确定受试对象或个体中的一种或多种库的相关性的方法。另一方面提供了一种开发能够预测在来源于患病的受试对象的任意样品中的一种或多种库的相关性的算法的方法。另一方面提供了一种方法，该方法使用能够预测在来源于受试对象的任意样品中的一种或多种库的相关性的算法，以寻找个体的一种库的相关性或多种库的相关性。另一方面提供了一种创建计算疾病活动性评分的算法的方法。另一方面提供了一种监控个体的疾病状态的方法。

(分析系统)

本发明提供了生物信息学，用于使用下一代测序技术，对T细胞受体(TCR)或B细胞受体(BCR)的可变区的库进行定量分析。

在一个方面中，本发明是一种分析TCR库或BCR库的方法，该方法包括以下步骤：(1)为包括V区、D区、J区和可选的C区中的至少一个的各基因区域，提供参照数据库；(2)提供输入序列组，该输入序列组可选经修剪且可选经提取以具有适当的长度；(3)搜索输入序列组与各基因区域的参照数据库的同源性，并且记录与近似参照等位基因和/或参照等位基因的序列的比对；(4)为输入序列组分配V区和J区，并且基于分配的结果提取D区的核酸序列(优选地，为输入序列组分配V区和J区，并且对参照V区上的CDR3前部和参照J上的CDR3的末端进行标记，提取CDR3序列)；(5)将D区的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类(优选地，将CDR3的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类)；以及，(6)基于在(5)中进行的分类，计算V区、D区和J区和可选的C区各自的出现频率或其组合的出现频率，以获得TCR或BCR库。

通过每一系统或设备的具体操作，同时参考图43中的流程图，解释本发明的每一步骤。

图43是示出处理流程的流程图，展示了分析本发明的基因分析系统中的TCR或BCR库的方法。进一步地，图中的符号S1～S6各自对应于下面解释中的步骤(1)～(6)中的每一步。

在本发明的方法中，(1)可完成为包括V区、D区、J区和可选的C区中的至少一个的各基因区域提供参照数据库，例如对于V区，通过适当选择并且提供包括且提供V区上的信息的数据库。

在本发明的方法中，(2)完成提供可选经修剪且可选经提取以具有适当的长度的输入序列组，通过用适当软件等的功能进行可选地修剪，并且在适当选择长度之后可选地提供经提取的输入序列组。输入序列可以是例如通过已知方法扩增的扩增子组，或使用在与本申请同时递交的申请中所描述的无偏向的方法通过PCR扩增的扩增子组。

在本发明的方法中，(3)搜索输入序列组与各基因区域的参照数据库的同源性，并且记录与近似参照等位基因和/或参照等位基因的序列的比对，通过适当使用软件来进行同源搜索，对每一基因范围(例如V区等)用输入序列组的参照数据库进行同源性搜索，并且记录作为结果获得的与近似参照等位基因和/或参照等位基因的序列的比对。在图29和图30中，示出“BLAST”或“BLAST分析”的方框，它们下面的IMGT数据库，以及将其对应连接起来的垂直二重线。

在本发明的方法中，(4)通过基于来自序列比对的已知信息，确定V区和/或J区，来完成为输入序列组分配V区和J区，并且基于分配结果提取D区的核酸序列。可通过为输入序列组分配V区和J区，并且对参照V区上的CDR3前部和参照J上的CDR3的末端作为标记，提取CDR3序列，来完成这样的提取。在图29和图30中，限定在Dno下方的水平箭头中的区域两端，在V下方的水平箭头和在J下方的水平箭头作为标记，以对对应于CDR3序列进行提取。

在本发明的方法中，(5)可通过使用本领域已知的方法翻译成氨基酸，并且通过同源性搜索等在该氨基酸序列上挑选出对应于D区的序列，完成将D区的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类。优选地，可将CDR3的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类。

在本发明的方法中，(6)通过计算在上述步骤中计算的V区、D区、J区和/或C区的出现频率，例如通过将频率整理成列表，来完成基于在(5)中进行的分类，计算V区、D区和J区和可选的C区各自的出现频率或其组合的出现频率以获得TCR或BCR库。从而可获得TCR或BCR库。

通过参考附图42，进一步解释以下步骤。

在S1(步骤(1))中，提供参照数据库。该参照数据库可储存在外部存储设备1405中，但通常可作为向公众公开的数据库通过通讯装置1411而获得。或者，可使用输入设备1409，输入且可选地记录RAM 1403或外部存储设备1405中的数据库。在这一方面，提供包括感兴趣的区域，诸如V区的数据库。

在S2(步骤(2))中，提供输入序列组。例如，通过使用输入设备1409或通过通讯装置1411，输入由在PCR扩增反应中扩增的扩增子组获得的序列信息组。在这一方面，可连接接收PCR扩增反应的扩增子和在其上进行基因序列分析的设备。通过系统总线1420或通过通讯装置1411，进行这样的连接。在这一阶段，可选地进行适当长度的修剪和/或提取。使用CPU1401，进行这样的处理。可经由外部存储设备、通讯装置或输入设备中的一个，提供修剪和/或提取的程序。

在S3(步骤(3))中，进行比对。在这一阶段，对输入序列组和各基因区域的参照数据库进行同源性搜索。对于同源性搜索，使用同源性搜索程序，处理经由通讯装置1411等获得的参照数据库。CPU 1401进行该处理。进一步地，对于与近似参照等位基因和/或参照等位基因的序列的比对，分析作为其结果获得的结果。这也通过CPU 1401处理的。可经由外部存储设备、通讯装置或输入设备中的一个，提供用于其执行的程序。

在S4(步骤(4))中，检测D上的核酸序列信息。这也是通过CPU1401处理的。可经由外部存储设备、通讯装置或输入设备中的一个，提供用于其执行的程序。这一步骤为输入序列组分配V区和J区。分配也是通过CPU 1401处理的。进一步地，CPU 1401还基于分配的结果，提取D区的核酸序列。还可经由外部存储设备、通讯装置或输入设备中的一个，提供用于分配和提取处理的程序。优选地，可基于来自序列比对的已知信息，确定V区和/或J区，从而完成这一步骤。结果可存储在RAM 1403或外部存储设备1405中。优选地，可通过为输入序列组分配V区和J区，并且对参照V区上的CDR3前部和参照J上的CDR3的末端进行标记以提取CDR3序列，来完成这样的提取。这样的处理也可由CPU 1401进行。也可经由外部存储设备、通讯装置或输入设备中的一个，提供用于其执行的程序。

在S5(步骤(5))中，对D区进行分类。将D区的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类。这也是通过CPU 1401处理的。也可经由外部存储设备、通讯装置或输入设备中的每一个，提供用于该处理的程序。在获得的氨基酸序列上，可通过同源性搜索等捡起对应于D区的序列。这也是通过CPU 1401处理的。也可经由外部存储设备、通讯装置或输入设备中的一个，提供用于该处理的程序。优选地，可将CDR3的核酸序列翻译成氨基酸序列，以利用该氨基酸序列对D区进行分类。这也是通过CPU1401处理的。也可经由外部存储设备、通讯装置或输入设备中的一个，提供用于该处理的程序。

在S6(步骤(6))中，基于上述分类，计算V区、D区和J区和可选的C区中的每一个的出现频率或其组合的出现频率，以导出TCR或BCR库。该计算和导出也是由CPU 1401处理的。也可经由外部存储设备、通讯装置或输入设备中的一个，提供用于该处理的程序。

在一个优选实施方式中，在本发明中使用的基因区域包括所有的V区、D区、J区和可选的C区。

在一个实施方式中，参照数据库是具有分配给每一序列的唯一的ID的数据库。通过唯一分配ID，可基于简单的标示物，即ID，来分析基因序列。

在一个实施方式中，输入序列组是无偏向的序列组。可通过本文所述的无偏向的方法进行PCR扩增，来实现无偏向的序列组。当无偏向的方法不需要精确时，则可使用质量相对低的“假无偏向的方法”，诸如斯玛特(Smart)法。因此，本文所使用的“无偏向的”指如通过本发明的方法所达到的精确的无偏性。当没有得到这样的水平时，则将方法称为“假无偏向的方法”。当本文所述的无偏向的方法特别突出时，则可使用术语“精确地无偏向的”。但是，应理解即使没有具体修饰为“精确地”，本文的无偏性也处于通过本文所述的方法所达到的水平。

在另一实施方式中，对序列组进行修剪。可通过修剪去除不需要或不适当的核酸序列，以便能提高分析的效率。

在优选的实施方式中，通过以下步骤完成修剪：从解读遗传密码的两端去掉低质量的区域；从解读遗传密码的两端去掉与接头序列匹配10bp或更多的区域；以及，当剩余的长度为200bp或更长(TCR)或300bp或更长(BCR)时，使用该解读遗传密码作为分析中的高质量的解读遗传密码。优选地，低质量指小于30的QV值的7bp移动平均值。

在优选的实施方式中，近似序列是最接近的序列。在具体的实施方式中，近似序列通过以下的排名来确定：1、匹配碱基的数目，2、核心长度(kernel length)，3、评分，和4、比对长度。

在另一实施方式中，在容许分散在各处的随机突变的条件下，进行同源性搜索。这样的条件常常表示为BLAST/FASTA最佳参数的以下条件：在比对全长上容许有33％的最大错配；并且，对于其中的任意30bp，容许60％的最大的非连续性错配。在一个实施方式中，与缺省条件相比，同源性搜索包括以下至少一个条件：(1)窗口大小的缩短，(2)错配处罚的减少，(3)空位处罚的减少，和(4)标示物的最优先排名是匹配碱基的数目。

在另一实施方式中，在BLAST或FASTA中的以下条件下进行同源性搜索：

V错配处罚＝-1，最短比对长度＝30，且最短核心长度＝15；

D字长＝7(对于BLAST)或K-rtup＝3(对于FASTA)，错配处罚＝-1，空位处罚＝0，最短比对长度＝11，且最短核心长度＝8；

J错配处罚＝-1，最短命中长度(hit length)＝18，且最短核心长度＝10；

并且

C最短命中长度＝30且最短核心长度＝15。

例如，只要是使用较短(约200bp)的序列以仅对区域的一部分进行分类(不归入“优选实施例”中的情况)的情况，也可使用该条件。此外，在使用Illumina测序仪的情况中，也可使用该条件。在这种情况中，考虑使用bwa或bowtie进行同源性搜索的可能性。

在具体的实施方式中，通过氨基酸序列的出现频率对D区进行分类。

在又一实施方式中，当在步骤(5)中存在D区的参照数据库时，则使用CDR3的核酸序列的同源性搜索的结果和氨基酸序列翻译的结果的组合，作为分类结果。

在另一实施方式中，当在步骤(5)中没有D区的参照数据库时，则仅使用氨基酸序列的出现频率进行分类。

在具体的实施方式中，以基因名称为单位和/或等位基因为单位，对出现频率进行计数。

在另一实施方式中，步骤(4)包括为输入序列组分配V区和J区，并且使用参照V区上的CDR3前部和参照J上的CDR3的末端作为标记，提取CDR3序列。

在又一实施方式中，步骤(5)包括将CDR3的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类。

在一个方面中，本发明提供了一种分析TCR库或BCR库的系统，其中该系统包括：(1)为每个包括V区、D区、J区和可选的C区中的至少一个的基因区域提供参照数据库的单元；(2)提供输入序列组的单元，该输入序列组可选经修剪且可选经提取以具有适当的长度；(3)搜索输入序列组与每一基因区域的参照数据库的同源性，并且记录与近似参照等位基因和/或参照等位基因的序列的比对的单元；(4)为输入序列组分配V区和J区，并且基于分配的结果提取D区的核酸序列的单元；(5)将D区的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类的单元；以及，(6)基于在(5)中进行的分类，计算V区、D区和J区和可选的C区中的每一个的出现频率或其组合的出现频率，以获得TCR或BCR库的单元。

在另一方面中，本发明提供了一种计算机程序，用于使计算机执行分析TCR或BCR库的方法的处理，该方法包括以下步骤：(1)为每个包括V区、D区、J区和可选的C区中的至少一个的基因区域，提供参照数据库；(2)提供输入序列组，该输入序列组可选经修剪且可选经提取以具有适当的长度；(3)搜索输入序列组与每一基因区域的参照数据库的同源性，并且记录与近似参照等位基因和/或参照等位基因的序列的比对；(4)为输入序列组分配V区和J区，并且基于分配的结果提取D区的核酸序列；(5)将D区的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类；以及，(6)基于在(5)中进行的分类，计算V区、D区和J区和可选的C区中的每一个的出现频率或其组合的出现频率，以获得TCR或BCR库。

在又一方面中，本发明提供了一种储存计算机程序的记录介质，该计算机程序用于使计算机执行分析TCR或BCR库的方法的处理，该方法包括以下步骤：(1)为每个包括V区、D区、J区和可选的C区中的至少一个的基因区域，提供参照数据库；(2)提供输入序列组，该输入序列组可选经修剪且可选经提取以具有适当的长度；(3)搜索输入序列组与每一基因区域的参照数据库的同源性，并且记录与近似参照等位基因和/或参照等位基因的序列的比对；(4)为输入序列组分配V区和J区，并且基于分配的结果提取D区的核酸序列；(5)将D区的核酸序列翻译成氨基酸序列，并且利用该氨基酸序列对D区进行分类；以及，(6)基于在(5)中进行的分类，计算V区、D区和J区和可选的C区中的每一个的出现频率或其组合的出现频率，以导出TCR或BCR库。

(系统配置)

通过参考图42中的功能框图，解释本发明的系统1的配置。该图中示出了使用单一系统实现的情况。

本发明的基因分析系统1配置为通过系统总线1420将RAM 1403、外部存储设备1405(诸如ROM、HDD、磁盘或闪存(诸如USB存储器))和输入输出接口(I/F)1425连接至安装在计算机系统中的CPU 1401。输入设备1409(诸如键盘或鼠标)、输出设备1407(诸如显示器)和通讯装置1411(诸如调制解调器)各自与输入输出I/F 1425连接。外部存储设备1405包括信息数据库存储部1430和程序存储部1440，其中信息数据库存储部1430和程序存储部1440都是保留在外部存储设备1405中的固定存储区。

这样的硬件配置被设计为根据输入装置输入的各种指令或命令或经由通信I/F、通信装置1411等接收的命令，通过CPU 1401在RAM 1403上调出、配置和执行安装在存储设备1405上的软件程序，从而与OS(操作系统)配合来实现本发明的功能。

将参照数据库、输入序列组、创建的分类数据、TCR或BCR库等的数据，或者经由通讯装置1411等获取的信息不断写入并且更新到数据库存储部1430中。使用各主表，管理每一输入序列组中的每一序列上的信息和诸如参照数据库中每一基因的信息ID的信息，以允许在每一主表中限定的ID，来管理经过累积的样品的信息。

作为输入序列组录入信息，样品提供者ID、样品信息、核酸分析的结果、已知的个体/生理学信息，以及TCR或BCR库分析的结果与ID相关联，并且被储存在数据库存储部1430中。在这一方面，通过本发明的处理方法对核酸分析结果进行处理，获得TCR或BCR库分析的结果。

进一步地，储存在程序存储部1440中的计算机程序将计算机配置为用于实施上述处理系统的系统，例如用于实施诸如修剪、提取、比对、分配、分类或翻译等处理的系统。每一特征都是独立的计算机程序、单元或其例程等，其由上述CPU 1401执行以将计算机配置为各系统或设备。下文中，通过各系统中各自的功能的配合，来构成各系统。

(库分析系统/分析方法)

在一个方面中，本发明提供了一种使用数据库，定量分析T细胞受体(TCR)或B细胞受体(BCR)的可变区的库的方法。该方法包括：(1)提供包含T细胞受体(TCR)或B细胞受体(BCR)的核酸序列的核酸样品，其中以无偏向的方式从受试对象中扩增该核酸样品；(2)确定核酸样品中所包含的核酸序列；以及(3)基于所确定的核酸序列，计算每一基因或其组合的出现频率，以导出受试对象的TCR或BCR库。在本文中，将该方法和包括本文所述的一个或多个额外特征的方法称为“本发明的库分析方法”。此外，将本发明的库分析方法实体化的系统称为“本发明的库分析系统”。

在本发明的方法中，对于(1)提供包含T细胞受体(TCR)或B细胞受体(BCR)的核酸序列的核酸样品，其中以无偏向的方式从受试对象中扩增该核酸样品来说，可提供任意样品，只要该样品适于确定核酸样品。作为这样的技术，可以使用本发明的上述优选的扩增方法，以及反转录酶-PCR、实时PCR、数字PCR、乳滴(emulsion)PCR、扩增片段长度多态性(AFLP)PCR、等位基因特异性PCR、装配(assembly)PCR、不对称PCR、菌落PCR、解旋酶依赖的扩增、热启动PCR、反向PCR、原位PCR、巢式PCR、降落(Touchdown)PCR、环介导等温PCR(LAMP)、核酸序列依赖性扩增(NASBA)、连接酶链式反应、分支DNA扩增、滚环扩增、环至环扩增(Circle to circle Amplification)、SPIA扩增、通过捕获和连接的靶标扩增(TACL)、cDNA 5′末端的快速扩增(5′-RACE)、cDNA3’(3′-RACE)、RNA转录物5’末端转换机制(SMART)。

在本发明中的方法中，只要能确定核酸序列，(2)确定核酸样品中所包含的核酸序列可使用任何方法。通常，需要大量的测序。因此，优选使用大规模自动测序方法。这样的测序方法的实例包括：使用Roche 454测序仪(GS FLX+、GS Junior)进行测序，使用IonTorrent测序仪(Ion PGM^TM测序仪)的技术进行测序，和使用Illumina(GenomeAnalyzerIIx、Hiseq、Miseq)的技术进行测序。其它测序方法包括：Heliscope^TM测序仪、Helicos真正单分子测序法(Helicos True Single Molecule Sequencing)(tSMA)(Harris.T.D.et.alScience2008，320-160-109)、SoliD^TM测序法(Life Technologies，Inc.)、单分子实时(SMRT^TM)PacBio系统(Pacific Biosciences，CA)、新型纳米孔测序法(NanoporeSequencing)(Oxford Nanopore Technologies，UK)、LaserGen^TM(LaserGen，Inc.CA)(参考文献：Litosh VA et al.，Nucleic Acids Res.2011Mar；39(6)：e39)，LightspeedGenomics^TM(Lightspeed Genomics，CA)，GnuBIO(GnuBIO Inc.，MA)，Polonator测序法(M.Danaher/Dover，Azco Biotec.Inc.，CA)、莫比斯生物系统的单分子测序法(MebiousBiosystem’s single molecule sequencing)(Mebious Biosystems Limited)、Millikan测序法(Caerus Molecular Diagnostics，Inc)、Intelligent Bio-Systems，Inc.(参考文献：Hutter D，et al Nucleosides Nucleotides Nucleic Acid 2010；29(11)：879-95.)、杂交辅助的新型纳米孔测序法(Nabsys Inc.，RI)，新型纳米孔测序法(NoblegenBiosciences，Inc.)、新型纳米孔测序法(Electronic Biosciences，CA)、热测序(Thermosequencing)(GENIUS^TM技术)(Genapsys，Inc.，CA)、CAERUS MOLECULARDIAGNOTICS，INC，CA、各体分子布置快速纳米转移(Individual Molecule PlacementRapid Nanotransfer)(IMPRNT)(Halcyon Molecular，Inc)、单色像差校正双光束低能电子显微镜(Monochromatic aberration-corrected dual-beam low energy electronmicroscopy)(Electron Optica，Inc.，CA)、ZS发生DNA测序法(ZS Genesis DNASequencing)(ZS Genetyics，Inc)等等。Roche 454测序仪创建了与两种类型的接头结合的单链DNA，该两种类型的接头特异性结合3’末端和5’末端。单链DNA经由接头与珠子结合，并且被包裹在油包水的溶液中，形成具有珠子和DNA片段的微反应器。然后在油包水的溶液中，通过乳滴PCR扩增感兴趣的基因。将珠子涂敷在滴定板(picotiter plate)上并且进行测序。使用DNA聚合酶将底物dNTP添加到DNA时生成的焦磷酸，通过硫酸化酶生成ATP(Pyrosequencing)。萤光素酶使用ATP和萤光素(Luciferin)作为底物发出荧光，由CCD相机检测发出的荧光，以确定碱基序列。对于Ion Torrent的技术，通过与Roche相同的方法进行乳滴PCR，然后将珠子转移到微芯片上，在该微芯片上进行测序反应。对于检测，在半导体芯片上，检测在DNA通过聚合酶延伸时释放的氢离子浓度，并且转化成碱基序列。Illumia的测序是如下的方法：通过桥式PCR和合成测序法的技术，在流动池上测序，同时扩增和合成感兴趣的DNA。桥式PCR创建单链DNA，将不同的接头序列添加到该单链DNA的两端上。将5’末端侧的接头序列预先固定至流动池上，其中是通过延伸反应固定在流动池上的。类似地，将3’末端侧的接头固定在邻近的位置上，并且与合成的DNA的3’末端结合，以合成双链DNA，同时形成所谓的桥。然后，重复桥式结合→延伸→变性，以便局部扩增很多单链DNA片段，以形成累积的簇。使用这样的单链DNA作为模板，进行测序。对于合成测序法，在添加了测序引物之后，使用DNA聚合酶，在具有3’末端阻断荧光dNTP的情况下进行单碱基合成反应。通过激光激发与碱基结合的荧光物质，并且通过荧光显微镜，将光发射记录为图片。然后，碱基序列通过进行以下步骤来确定：去除荧光物质和阻断以进行下一个延伸反应，并且检测荧光。优选地，有利的是通过单一测序对多个序列进行测序。有利的还在于能同时对较长的序列长度立即进行测序。

对于(3)基于所确定的核酸序列，计算每一基因或其组合的出现频率，以获得本发明的受试对象的TCR或BCR库来说，只要能计算基因及其组合的出现频率并且能获得TCR库和/或BCR库，可使用任何的技术。例如，除了上述分析方法的优选实例之外，还可使用IMGT提供的分析工具HighV-Quest。还可使用其它技术，通过使用实现比对特征或作图特征的软件，即，AbMapper、ALLPATHS、Arachne、BACCardl、Bfast、BLAT、Bowtie、BWA-MEM、BWA-SW、BWA、CCRa VAT&QuTie、CLC工作站、CNV-seq、Elvira、ERNE-图(ERNE-map)(rNA)、GSMapper、Glimmer、gnumap、Goseq、ICAtools、LOCAS、MapSplice、Maq、MEME、Mosaik、NGSView、Novoalign、OSLay、Partek、Perm、Projector、Qpalma、RazerS、SHARCGS、SHRiMP2、SNP-o-matic、Splicemap、S SAHA2、Stampy、Tablet、TMAP，Tophat或Velve。

在一个实施方式中，核酸样品包括多种类型的T细胞受体(TCR)或B细胞受体(BCR)的核酸序列，并且用于确定序列的步骤(2)通过一次测序来确定核酸序列。本发明的方法可降低或消除可能通过一次测序确定多种类型的序列出现的偏向。因此，本发明特别用于准确地检测低频率出现的TCR或BCR解读遗传密码。

在另一实施方式中，一次测序的特征在于，在从核酸样品至测序样品的扩增中，用作引物的序列中的至少一个，具有与编码C区的核酸序列或其互补链相同的序列。可通过使用引物，以相同的方式扩增TCR或BCR来实现无偏性，其中引物具有与编码C区的核酸序列或其互补链相同的序列。

在另一实施方式中，一次测序的特征在于是使用通用接头引物进行的。在优选的实施方式中，通用接头引物被设计以便引物具有适用于扩增的碱基长度，不可能具有同源二聚体和分子内的发夹结构，并且能够稳定形成双链，并且比设计为与数据库中的所有TCR基因序列都没有高度同源性，和/或具有与C区特异性引物相同的水平的熔解温度(Tm)。更优选地，选择通用接头引物，该通用接头引物被设计为不具有同源二聚体和分子内发夹结构，但与包括BCR或TCR的其它基因不具有同源性。在具体的实施方式中，该通用接头引物是P20EA(SEQ ID NO：2)和/或P10EA(SEQ ID NO：3)。

在一个实施方式中，无偏向的扩增包括非V区的特异性扩增。与通过使用V特异性引物设计复合体等进行无偏向的扩增的情况相比，可进一步降低或消除偏向。

在一个实施方式中，本发明的目标库是BCR的可变区的库，并且核酸序列是BCR核酸序列。BCR被认为易于具有突变，特别易于在V区中具有突变。因此，使用V区特异性扩增的技术，难以对BCR库进行准确分析。

在一个方面中，本发明提供了一种基于TCR或BCR库分析受试对象的疾病、失调或状况的方法，其中基于本发明的库分析方法导出该TCR或BCR库。

在本发明的分析疾病、失调或状况的方法中，基于TCR或BCR库分析受试对象的疾病、失调或状况的技术起始于链接导出的解读遗传密码数据与临床信息，诸如疾病、失调或状况，以使用诸如EXCEL等电子制表软件形成数据库，其中该TCR或BCR库是基于本发明的库分析方法导出的，该导出的解读遗传密码数据由解读遗传密码类型、解读遗传密码的数目、解读遗传密码频率，V区、J区、C区、CDR3的序列等组成。首先，对于导出的个体解读遗传密码序列：1、搜索具有诸如NKT或MAIT等已知功能的TCR；2、搜索现有的公开数据库中，具有诸如抗原特异性等已知功能的TCR或BCR的比较分析；3、搜索构建的数据库或现有的公开数据库，以将共同样品来源、性质或功能与疾病、失调或状况关联起来。接着，对于样品中的解读遗传密码序列：1、揭示特定解读遗传密码的频率是否增加(克隆性增加)；2、进行检验，以发现特定的V链或J链的使用频率是否依赖于疾病发作或失调状况而增加或减少；3、进行检验，以发现特定V链中的CDR3序列的长度是否依赖于疾病发作或失调状况而增加或减少；4、检验依赖于疾病发作或失调状况而发生变化的CDR3区的组成或序列；5、搜索依赖于疾病发作或失调状况而出现或消失的解读遗传密码；6、搜索依赖于疾病发作或失调状况而增加或减少的解读遗传密码；7、在另一样品中搜索依赖于疾病发作或失调状况而出现或增加/减少的解读遗传密码，并且与疾病、失调或状况相关联；8、使用诸如样品数目、解读遗传密码类型或解读遗传密码的数目等数据，通过诸如ESTIMATES或R(vegan)等统计学分析软件，计算多样性指数或相似性指数；以及，9、多样性指数或相似性指数的变化可与疾病发作或失调状况相关联。

在一个实施方式中，在本发明的分析方法中，受试对象的疾病、失调或状况包括，但并不限于，血液肿瘤、结直肠癌、免疫状态、类风湿性关节炎、成人T细胞白血病、T细胞大颗粒淋巴细胞白血病、特发性血小板减少性紫癜等。

在另一实施方式中，本发明提供了一种治疗或预防通过本发明的方法确定的受试对象的疾病、失调或状况的方法，该方法包括：使受试对象的疾病、失调或状况与TCR或BCR库定量关联；并且，根据该定量关联选择出适当治疗或预防的方法。

在一个实施方式中，在本发明中的治疗或预防的方法中，靶向的受试对象的疾病、失调或状况包括，但并不限于，血液肿瘤、结直肠癌、免疫状态、类风湿性关节炎、成人T细胞白血病、T细胞大颗粒淋巴细胞白血病、特发性血小板减少性紫癜等。

在另一方面中，本发明提供了一种通过使用数据库，定量分析受试对象的T细胞受体(TCR)或B细胞受体(BCR)的可变区的库的系统(分析系统)。该系统包括：(1)用于提供核酸样品的试剂盒，该核酸样品包括以无偏向的方式从受试对象中扩增出的T细胞受体(TCR)或B细胞受体(BCR)的核酸序列；(2)用于确定在该核酸样品中包含的核酸序列的设备；以及，(3)基于所确定的核酸序列，计算每一基因或其组合的出现频率，以导出受试对象的TCR或BCR库的设备。将这样的系统和包括本文所述的一个或多个额外特征的系统称为“本发明的库分析系统”。本发明的库分析系统实现“本发明的库分析方法”。

在另一实施方式中，上述核酸样品包括多种类型的T细胞受体(TCR)或B细胞受体(BCR)的核酸序列，并且(2)的设备配置为能够通过单一测序确定核酸序列。

在另一实施方式中，上述单一测序的特征在于，在从核酸样品至测序样品的扩增中，用作引物的序列的至少一个具有与C区相同的序列。本发明的方法可降低或消除可能通过单一测序确定多种类型的序列出现的偏向。因此，本发明特别用于准确地检测低频率出现的TCR或BCR解读遗传密码。

在另一实施方式中，一次测序的特征在于，在从核酸样品至测序样品的扩增中，用作引物的序列中的至少一个，具有与编码C区的核酸序列或其互补链相同的序列。可将这样的引物装备在设备中，包括在试剂盒中，或单独提供。可通过使用引物，以相同的方式扩增任意TCR或BCR来实现无偏性，其中引物具有与编码C区的核酸序列或其互补链相同的序列。

在另一实施方式中，一次测序的特征在于是使用通用接头引物进行的。可将这样的通用接头引物装备在设备中，包括在试剂盒中，或单独提供。在优选的实施方式中，通用接头引物被设计以便引物具有适用于扩增的碱基长度，不可能具有同源二聚体和分子内的发夹结构，并且能够稳定形成双链，并且被设计为与数据库中的所有TCR基因序列都没有高度同源性，和/或具有与C区特异性引物相同的水平的熔解温度(Tm)。更优选地，选择通用接头引物，该通用接头引物被设计为不具有同源二聚体和分子内发夹结构，且与包括BCR或TCR的其它基因不具有同源性。在具体的实施方式中，该通用接头引物是P20EA(SEQ ID NO：2)和/或P10EA(SEQ ID NO：3)。

在一个实施方式中，无偏向地扩增由本发明的试剂盒提供的核酸样品中所包含的核酸序列，其中扩增不是V区特异性扩增。与通过使用V特异性引物设计复合体等进行无偏向的扩增的情况相比，可进一步降低或消除偏向。

在一个实施方式中，要经本发明的系统进行分析的库是BCR的可变区的库，并且核酸序列是BCR核酸序列。BCR被认为易于具有突变，特别易于在V区中具有突变。因此，使用V区特异性扩增的技术，难以对BCR库进行准确分析。而使用本发明的系统能对BCR库进行准确分析。

在另一方面中，本发明提供了一种分析受试对象的疾病、失调或状况的系统(分析系统)，包括本发明的分析系统，和基于该系统获得的TCR或BCR库分析受试对象的疾病、失调或状况的工具。基于本发明的分析系统的系统获得的TCR或BCR库分析受试对象疾病、失调或状况的工具起始于链接获得的解读遗传密码数据与临床信息，诸如疾病、失调或状况，以使用诸如EXCEL等电子制表软件形成数据库，其中获得的解读遗传密码数据由解读遗传密码类型、解读遗传密码的数目、解读遗传密码频率，V区、J区、C区、CDR3的序列等组成。首先，对于获得的个体解读遗传密码序列：1、搜索具有诸如NKT或MAIT等已知功能的TCR；2、搜索现有的公开数据库中，具有诸如抗原特异性等已知功能的TCR或BCR的比较分析；3、搜索构建的数据库或现有的公开数据库，以将共同样品来源、性质或功能与疾病、失调或状况关联起来。接着，对于样品中的解读遗传密码序列：1、揭示特定解读遗传密码的频率是否增加(克隆性增加)；2、进行检验，以发现特定的V链或J链的使用频率是否依赖于疾病发作或失调的状况而增加或减少；3、进行检验，以发现特定V链中的CDR3序列的长度是否依赖于疾病发作或失调状况而增加或减少；4、检验依赖于疾病发作或失调状况而发生变化的CDR3区的组成或序列；5、搜索依赖于疾病发作或失调状况而出现或消失的解读遗传密码；6、搜索依赖于疾病发作或失调状况而增加或减少的解读遗传密码；7、在另一样品中搜索依赖于疾病发作或失调状况而出现或增加/减少的解读遗传密码，并且与疾病、失调或状况相关联；8、使用诸如样品数目、解读遗传密码类型或解读遗传密码的数目等数据，通过诸如ESTIMATES或R(vegan)等统计学分析软件，计算多样性指数或相似性指数；以及，9、多样性指数或相似性指数的变化可与疾病发作或失调状况相关联。

在一个实施方式中，可通过本发明的分析系统分析的受试对象的疾病、失调或状况包括，但并不限于，血液肿瘤、结直肠癌、免疫状态、类风湿性关节炎、成人T细胞白血病、T细胞大颗粒淋巴细胞白血病、特发性血小板减少性紫癜等。

在另一方面中，本发明提供了一种治疗或预防通过本发明的分析系统确定的受试对象的疾病、失调或状况的系统(治疗系统或预防系统)，该系统包括：使受试对象的疾病、失调或状况与TCR或BCR库定量关联的单元；和，用于根据该定量关联选择出适当治疗或预防方法的单元。

可通过以下配置等实现将受试对象的疾病、失调或状况与本发明的系统中的TCR或BCR库定量关联的单元。也就是说，可通过以下过程实现：读出由本发明的分析系统导出的库的信息，并且读出与受试对象的疾病、失调或状况相关的信息，并且使它们相关联。从导出的汇总的解读遗传密码数据，根据现有参考序列的比较分析分配V区、J区和C区，并且确定CDR3的序列。基于V区、J区和CDR3的序列，将匹配的解读遗传密码加起来。对于每一唯一的解读遗传密码(没有其它相同序列的解读遗传密码)，计算样品中检测到解读遗传密码的数目和相对于解读遗传密码的总数目的比率(频率)。将该信息(解读遗传密码序列、解读遗传密码的数目、解读遗传密码频率，V区、J区、C区或CDR3的序列)与受试对象的临床信息(病史、疾病名称、疾病类型、进展程度、严重性、HLA类型、免疫状态等)链接，以通过诸如EXCEL等电子制表软件或具有数据库形成特征的软件形成数据库。通过解读遗传密码的数目或频率和排序(ranked)，对样品中的解读遗传密码的序列进行排序。进一步地，将每一V区或J区的解读遗传密码的数目加起来，以计算V区的使用频率或J区的使用频率。基于这样的信息：1、揭示特定解读遗传密码的频率是否增加(克隆性增加)；2、进行检验，以发现特定的V链或J链的使用频率是否依赖于疾病发作或失调状况而增加或减少；3、进行检验，以发现特定V链中的CDR3序列的长度是否依赖于疾病发作或失调状况而增加或减少；4、检验依赖于疾病发作或失调状况而发生变化的CDR3区的组成或序列；5、搜索依赖于疾病发作或失调状况而出现或消失的解读遗传密码；6、搜索依赖于疾病发作或失调状况而增加或减少的解读遗传密码；7、在另一样品中搜索依赖于疾病发作或失调状况而出现或增加/减少的解读遗传密码，并且与疾病、失调或状况相关联；8、使用诸如样品数目、解读遗传密码类型或解读遗传密码的数目等数据，通过诸如ESTIMATES或R(vegan)等统计学分析软件，计算多样性指数或相似性指数；以及，9、多样性指数或相似性指数的变化可与疾病发作或失调状况相关联。根据定量关联选择适当治疗或预防方法的单元可具有以下配置等。具体地，对于该选择单元，可通过将定量出现的数据与来自与治疗、疗法或预防相关的过去或现在可用的信息相关联来实现改善预后的方法的选择，从而实现选择。

在一个实施方式中，受试对象的疾病、失调或状况包括，但并不限于，血液肿瘤、结直肠癌、免疫状态、类风湿性关节炎、成人T细胞白血病、T细胞大颗粒淋巴细胞白血病、特发性血小板减少性紫癜等。

(有用的细胞、肽等)

在一个方面中，本发明提供了与T细胞大颗粒淋巴细胞白血病(T-LGL)相关的单克隆T细胞，该单克隆T细胞表达TCRα和/或TCRβ，其中TCRα包括TRAV10/TRAJ15/CVVRATGTALIFG(SEQ ID NO：1450)或其编码核酸，TCRβ包括TRBV29-1/TRBJ2-7/CSVERGGSLGEQYFG(SEQ ID NO：1500)或其编码核酸。

如在实施例等中所示，该特定的T细胞具有多种用途。例如，证明了，可使用TCRα中的TRAV10/TRAJ15/CVVRATGTALIFG(SEQ ID NO：1450)或其编码核酸，和/或TCRβ中的TRBV29-1/TRBJ2-7/CSVERGGSLGEQYFG(SEQ ID NO：1500)或其编码核酸，作为T细胞大颗粒淋巴细胞白血病(T-LGL)的诊断标示物。可使用本领域已知的任何技术，来检测这样的肽及其编码核酸。如本文所使用的，“检测试剂”广泛地指能检测感兴趣的靶标(例如肽、核酸、细胞等)的所有试剂。例如，对于这样的方法，可使用适当的方法来完成多核苷酸或多肽表达的“检测”或“定量”，该适当的方法包括例如免疫学测量方法和mRNA的测量，包括与标记物检测试剂的结合或相互作用。分子生物学测量方法的实例包括northern印记、斑点印记、PCR等。免疫学测量方法的实例包括使用微量滴定板的ELISA、RIA、荧光抗体法、发光免疫测定法(LIA)、免疫沉淀法(IP)、单向免疫扩散法(SRID)、免疫比浊分析法(TIA)、western印记、免疫组化染色法等。进一步地，定量方法的实例包括ELISA、RIA等。还可通过使用阵列(例如DNA阵列、蛋白阵列)的基因分析方法，进行定量。DNA阵列在(秀润社编辑，细胞工程分册“DNA微阵列和最近的PCR方法”)中进行了宽泛地概述。蛋白阵列在Nat Genet.2002Dec；32Suppl：526-32中进行了详细讨论。除了上述方法之外，分析基因表达的方法的实例还包括，但并不限于，RT-PCR、RACE、SSCP、免疫沉淀法、双杂交系统、体外翻译等。这些额外的分析方法描述在例如由中村佑辅羊土社编辑(2002)的《基因组分析实验方法，中村佑辅实验室手册》中。其中的整个说明通过引用并入本文中。如本文所使用的，“表达量”指在感兴趣的细胞、组织等中表达的多肽、mRNA等的量。这样的表达量的实例包括：通过任意适当的方法在蛋白水平上测定本发明的多肽的表达量，该任意适当的方法包括使用本发明的抗体进行的免疫学测量方法，诸如ELISA、RIA、荧光抗体法、western印记和免疫组化染色；和，通过任意适当的方法在mRNA水平上测定的在本发明中使用的多肽的表达量，该任意适当的方法包括分子生物学测量方法，诸如northern印记、斑点印记和PCR。“表达量的变化”指在本发明中使用的多肽的表达量的增加或减小，其中通过任意适当的方法在蛋白水平或mRNA水平上测量本发明中使用的多肽的表达量，该任意适当的方法包括上述免疫学测量方法或分子生物学测量方法来测定。通过测量特定标记物的表达量，可进行基于标记物的各种检测或诊断。

本发明还提供了一种用于T细胞大颗粒淋巴细胞白血病(T细胞LGL)的诊断试剂，该诊断试剂包括：用于TCRα中的TRAV10/TRAJ15/CVVRATGTALIFG(SEQ ID NO：1450)或其编码核酸的检测试剂，和/或用于TCRβ中的TRBV29-1/TRBJ2-7/CSVERGGSLGEQYFG(SEQ ID NO：1500)或其编码核酸的检测试剂。

因此，应理解，可使用本发明标记物的调节能力，诸如减小、阻遏、增加或活化作为标示物，来检测或筛选具有活性的多种试剂。

如本文所使用的，“试剂”使用广泛，并且只要可实现想要的目标，“试剂”可以是任何物质或其他要素(例如能量、辐射、热、电和其他形式的能量)。这样的物质的实例包括，但并不限于，蛋白、多肽、寡肽、肽、多核苷酸、寡核苷酸、核苷酸、核酸(包括例如，诸如cDNA和基因组DNA等的DNA，诸如mRNA等的RNA)、多糖、寡糖、脂质、有机小分子(例如激素、配体、信息传递物质、有机小分子、由组合化学合成的分子、可用作药物的小分子(例如小分子配体等)及其复合分子)。对多核苷酸具有特异性的试剂的典型实例包括，但并不限于，以特定的序列同源性(例如70％或更高的序列同一性)与该多核苷酸具有互补性的多核苷酸，诸如与启动子区域等结合的转录因子等多肽。对多肽具有特异性的试剂的典型实例包括，但并不限于：特异性指向多肽或衍生物或其类似物的抗体(例如单链抗体)；当多肽是受体或配体时，试剂是特异性配体或受体；当多肽是酶等时，试剂是底物。

如本文所使用的，“检测试剂”广泛地指能检测感兴趣的靶标(例如正常细胞(正常的角膜内皮细胞))或转化细胞(例如转化的角膜内皮细胞)的所有试剂。

如本文所使用的，术语“结合”指两种物质之间或其组合之间的物理或化学的相互作用。结合包括离子键、非离子键、氢键、范德华键、疏水作用等。物理相互作用(结合)可以是直接或间接的。间接的物理相互作用(结合)由另一蛋白或化合物介导或归功于另一蛋白或化合物的影响。直接结合指不通过或归功于另一蛋白或化合物的影响而发生，并且基本不涉及另一中间物的相互作用。可通过测量结合或相互作用，来测量本发明的标记物的表达程度等。

因此，与本文所使用的生物制剂，诸如多核苷酸或多肽，“特异性”相互作用(或结合)的“试剂”(诸如检测试剂等)涵盖对生物制剂，诸如多核苷酸或多肽具有亲和性的试剂，该亲和性通常与其它不相关的多核苷酸或多肽(特别是具有小于30％同一性的那些多核苷酸或多肽)的亲和性类似或比其高，优选显著地(例如具有统计学显著性地)高。例如，可通过杂交测定、结合测定等，来测量这样的亲和性。

如本文所使用的，第一物质或试剂与第二物质或试剂“特异性”相互作用(或结合)指，与除了第二物质或试剂之外的其它物质或试剂(特别是包含第二物质或试剂的样品中的其它物质或试剂)相比，第一物质或试剂以较高的亲和力水平与第二物质或试剂相互作用(或结合)。对物质或试剂具有特异性的相互作用(或结合)的实例包括，但并不限于：配体-受体反应、核酸中的杂交、蛋白中的抗原-抗体反应、酶-底物反应等；并且当核酸和蛋白都参与时，包括转录因子和转录因子的结合位点之间的反应等，蛋白-脂质相互作用、核酸-脂质相互作用等。因此，当物质或试剂都是核酸时，与第二物质或试剂“特异性相互作用的”第一物质或试剂涵盖与第二物质或试剂至少部分互补的第一物质或试剂。进一步地，当物质或试剂都是蛋白时，第一物质或试剂与第二物质或试剂“特异性”相互作用(或结合)的实例包括，但并不限于，通过抗原-抗体反应的相互作用、通过受体-配体反应的相互作用、酶-底物的相互作用等。当两种类型的物质或试剂包括蛋白和核酸时，第一物质或试剂与第二物质或试剂“特异性”相互作用(或结合)涵盖转录因子和该转录因子靶定的核酸分子的结合区域之间的相互作用(或结合)。

如本文所使用的，“抗体”广泛地涵盖多克隆抗体、单克隆抗体、多特异性抗体、嵌合抗体和抗独特型抗体，以及它们的片段，诸如Fv片段、Fab′片段、F(ab′)₂和Fab片段，以及通过重组产生的其它缀合物或功能等价物(例如嵌合抗体、人源化抗体、多功能抗体、双特异性抗或寡特异性(oligospecific)抗体、单链抗体、scFv、双价抗体和sc(Fv)₂(单链(Fv)₂)和scFv-Fc)。进一步地，这样的抗体可与酶共价结合或重组融合，其中酶诸如为碱性磷酸酶、辣根过氧化物酶、α半乳糖苷酶等。针对本发明中使用的多种解读遗传密码的抗体可以是任意来源、类型、形状等，该抗体分别与它们特定的解读遗传密码结合。具体地，可使用已知的抗体，诸如非人的动物抗体(例如小鼠抗体、大鼠抗体和骆驼抗体)、人抗体、嵌合抗体和人源化抗体。本发明可使用单克隆抗体或多克隆抗体，但是单克隆抗体是优选的。优选的是，抗体与特定解读遗传密码的结合是特异性结合。

如本文所使用的，“抗原”指可被抗体分子特异性结合的任意底物。如本文所使用的，“免疫原”指能引发淋巴细胞活化的抗原，其中淋巴细胞活化产生抗原特异性的免疫应答。如本文所使用的，“表位”或“抗原决定簇”指在抗原分子中的，抗体或淋巴细胞受体与其结合的位点。确定表位的方法在本领域中是公知的。当提供了氨基酸或核酸的初级序列时，本领域技术人员可使用公知且常规的技术来确定这样的表位。

如本文所使用的，“单元/方法”指可以是用于完成目标(例如检测、诊断、治疗)的任意工具。

对于本文中使用的抗体，应理解，只要降低假阳性反应，则可使用具有任何特异性的抗体。因此，在本发明中使用的抗体可以是多克隆抗体或单克隆抗体。

本发明的检测试剂、诊断试剂或其它药物可以是探针和引物的形式。本发明的探针和引物可与特定的解读遗传密码特异性杂交。如本文所述，特定解读遗传密码的表达例如是表示是否存在结直肠癌的标示物，并且可用作疾病严重性的标示物。

通常用作引物的核酸分子的实例包括具有长度至少为8个连续核苷酸的核酸序列，该核酸序列与感兴趣的基因(例如本发明的标记物)的核酸序列互补。这样的核酸序列可以是长度优选为至少9个连续核苷酸、更优选为至少10个连续核苷酸、仍然更优选为至少11个连续核苷酸、至少12个连续核苷酸、至少13个连续核苷酸、至少14个连续核苷酸、至少15个连续核苷酸、至少16个连续核苷酸、至少17个连续核苷酸、至少18个连续核苷酸、至少19个连续核苷酸、至少20个连续核苷酸、至少25个连续核苷酸、至少30个连续核苷酸、至少40个连续核苷酸或至少50个连续核苷酸的核酸序列。用作探针的核酸序列包括与上述序列具有至少70％同源性、更优选至少80％同源性、仍然更优选至少90％同源性或至少95％同源性的核酸序列。适于用作引物的序列可随要进行的合成(扩增)的序列的性质的不同而不同。但是，按照预期的序列，本领域技术人员能够设计出适当的引物。这样的引物设计在本领域中是公知的，可以手动进行或使用计算机程序(例如LASERGENE、PrimerSelect或DNAStar)进行。

如本文所使用的，“探针”指可为搜索工具的物质，其用于诸如体外和/或体内筛选等生物实验中。探针的实例包括，但并不限于，包括特定碱基序列的核酸分子、包括特定氨基酸序列的肽、特异性抗体，以及它们的片段等。如本文所使用的，探针可用作标记物检测工具。

如本文所使用的，“标记”指用于将感兴趣的分子或物质与其它分子或物质区分开的实体(例如物质、能量、电磁波等)。这样的标记方法包括RI(放射性同位素)法、荧光法、生物素法、化学发光法等。当本发明的多种标记物或用于捕获该多种标记物的试剂或工具是通过荧光法标记的，标记使用具有不同荧光发射最大波长的标记物质进行。荧光发射最大波长之间的差异为10nm或更大是优选的。当标记配体时，可使用不影响功能的任意标记。但是，Alexa^TMFluor是期望的荧光物质。Alexa^TMFluor是通过对香豆素、罗丹明、荧光素、花菁等进行改性而获得的水溶性荧光染料。这是与广泛的荧光波长相兼容的系列。相对于对应波长的其它荧光染料，Alexa^TMFluor非常稳定、明亮，并且具有低水平的pH敏感性。荧光最大波长为10nm或更大的荧光染料的组合包括Alexa^TM555和Alexa^TM633的组合、Alexa^TM488和Alexa^TM555的组合等。当对核酸进行标记时，可使用与其碱基部分结合的任意物质。但是，优选使用花菁染料(例如CyDye^TM系列的Cy3、Cy5等)、罗丹明6G试剂、N-乙酰氧基-N2-乙酰氨基芴(AAF)、AAIF(AAF的碘衍生物)等。在10nm或更大的荧光发射最大波长上具有差异的荧光物质的实例包括Cy5和罗丹明6G试剂的组合、Cy3和荧光素的组合、罗丹明6G试剂和荧光素的组合等。本发明可利用这样的标记，来改变感兴趣的受试对象，其中感兴趣的受试对象可通过要使用的检测工具来检测。这样的改变在本领域中是公知的。本领域技术人员可按照标记和感兴趣的受试对象，适当地进行这样的方法。

如本文所使用的，“标签”指用于通过诸如受体-配体等特定的识别机制，来区分分子的物质，或更具体地，指起到结合伴侣的作用的物质以与特定物质(例如具有诸如生物素-亲和素或生物素-链亲和素的关系的物质)结合。标签可涵盖在“标记”的范围内。相应地，通过与底物接触，与标签结合的特定物质可区分特定物质，其中标签序列的结合伴侣与底物结合。这样的标签或标记在本领域中是公知的。典型的标签序列包括，但并不限于，myc标签、His标签、HA、Avi标签等。这样的标签可与本发明的标记物或标记物检测试剂结合。

可通过使本发明的检测试剂或诊断试剂与感兴趣的样品接触，进行本发明的方法，以测量样品中是否存在感兴趣的靶解读遗传密码或前导(lead)基因，或其水平或量。

如本文所使用的，“接触(的)”指物质与可用作本发明的标记物、检测试剂、诊断试剂、配体等的多肽或多核苷酸直接或间接的物理邻接。多肽或多核苷酸可被包含在很多缓冲液、盐、溶液等中。接触包括将化合物放置在例如包含编码多肽的核酸分子或其片段的烧杯、微滴定板、细胞培养瓶、微阵列(例如基因芯片)等中。

在另一方面中，本发明提供了一种肽，该肽是新的不变的TCR，包括如SEQ ID NO：1627～SEQ ID NO：1647所示序列中的任一序列。这样的肽可用作不变体，并且适用作多种标示物(例如疾病等的标示物)。

在又一方面中，本发明提供了一种具有粘膜相关的恒定T(MAIT)细胞所持有的TCR肽或者编码该肽的核酸，其中TCR肽包括选自由SEQ ID NOs：1648～1651、1653～1654、1666～1667、1844～1848和1851组成的组中的序列。这样的肽和核酸可用作粘膜相关的恒定T(MAIT)，并且适用作多种标示物(例如疾病等的标示物)。在一个具体实施方式中，肽可用作结直肠癌的诊断标示物，该肽是本发明的具有粘膜相关的恒定T(MAIT)细胞的TCR或编码该肽的核酸。

在另一方面中，本发明提供了一种肽和编码该肽的核酸，其中肽是自然杀伤T(NKT)细胞所持有的TCR，包括SEQ ID NO：1668所示的序列。在一个具体实施方式中，肽可用作结直肠癌的诊断标示物，该肽是具有自然杀伤T(NKT)细胞的TCR和编码该肽的核酸。

在另一方面中，本发明提供了一种结直肠癌特异性肽和编码该肽的核酸，其中结直肠癌特异性肽包括选自由SEQ ID NOs：1652、1655～1665、1669～1843、1849～1850和1852～1860组成的组中的序列。在一个具体实施方式中，这样的肽和编码该肽的核酸可用作结直肠癌的诊断标示物。

在又一方面中，本发明提供了一种结直肠癌特异性肽和编码该肽的核酸，其中结直肠癌特异性肽包括选自由SEQ ID NOs：1861～1865和1867～1909组成的组中的序列。在一个具体实施方式中，这样的肽和编码该肽的核酸可用作结直肠癌的诊断标示物。

在另一方面中，本发明提供了一种具有肽或编码该肽的核酸序列的高频率诱导T细胞的细胞群、T细胞株或重组表达的T细胞，其中肽包括选自由SEQ ID NOs：1652、1655～1665、1669～1843、1849～1850和1852～1860，以及SEQ ID NOs：1861～1865和1867～1909组成的组中的序列。细胞群、细胞株、细胞、结直肠癌特异性TCR肽或编码该肽的核酸在诊断或治疗中是有用的。对于诊断，通过检验是否上述序列仅在结直肠癌的患者中，是否上述序列更多地在结直肠癌患者中观察到，或者上述序列在结直肠癌患者的癌症组织中积累，可发现结直肠癌，或者可预测病理状况或预后。对于结直肠癌的治疗，可以利用具有结直肠癌特异性序列的高频率诱导T细胞的细胞群，具有结直肠癌特异性序列的T细胞株，或使其人工表达结直肠癌特异性序列的T细胞(淋巴细胞)(如参考文件，参见1：Uttenthal BJ，ChuaI，Morris EC，Stauss HJ.Challenges in T cell receptor gene therapy.J GeneMed.2012Jun；14(6)：386-99.doi：10.1002/jgm.2637.Review.PubMed PMID：22610778.；2：Linnemann C，Schumacher TN，Bendle GM.T-cell receptor gene therapy：criticalparameters for clinical success.J Invest Dermatol.2011Sep；131(9)：1806-16.doi：10.1038/jid.2011.160.Epub 2011Jun 16.Review.PubMed PMID：21677669.；3：LagisettyKH，Morgan RA.Cancer therapy with genetically-modified T cells for thetreatment of melanoma.J Gene Med.2012Jun；14(6)：400-4.doi：10.1002/jgm.2636.Review.PubMed PMID：22610729)。因此，本发明提供了一种用于结直肠癌的治疗试剂或预防试剂，包括上述的细胞群、T细胞株或T细胞。

(应用)本发明可用于计算通过大规模测序鉴定出的TCR或BCR基因的碱基序列(解读遗传密码)或其出现频率，使用软件以绘制列表、分布或图表。基于这样的信息，使用以下多种标示物检测库中的变化。可基于这样的变化，发现与疾病或失调的关系。

在一个方面中，本发明提供了一种使用本发明的分析方法或分析系统，检测V基因的使用频率的方法。可鉴定出每一解读遗传密码的的V基因，以计算每一V基因相对于全部TCR或BCR基因的百分比。可以发现与疾病或病理状况相关的V使用频率上的增加或减少。

在另一方面中，本发明提供了一种使用本发明的分析方法或分析系统，检测J基因的使用频率的方法。可鉴定出每一解读遗传密码的J基因，以计算每一J基因相对于全部TCR或BCR基因的百分比。可以发现与疾病或病理状况相关的J使用频率上的增加或减少。

在另一方面中，本发明提供了一种使用本发明的分析方法或分析系统，检测，检测亚型频率分析(BCR)的使用频率的方法。可基于对C区的测序，计算亚型IgA1、IgA2、IgG1、IgG2、IgG3和IgG4的存在频率。可以发现与疾病或病理状况相关的特定亚型的增加或减少。

在另一方面中，本发明提供了一种使用本发明的分析方法或分析系统，分析CDR3序列长度的模式的方法。可计算每一解读遗传密码的CDR3碱基序列长度，以发现其分布。正常的TCR或BCR，显示正常的分布样峰型。可通过检测从正常分布偏向的峰，来发现与疾病或病理状况的相关性。

在另一方面中，本发明提供了一种使用本发明的分析方法或分析系统，分析TCR或BCR的克隆性的方法。基于每一解读遗传密码的V序列、J序列和CDR3序列，对具有相同序列的解读遗传密码进行分类，以计算其拷贝数目。通过计算每一解读遗传密码的拷贝数目相对于所有解读遗传密码的数目的百分比，可发现高频率存在的解读遗传密码。通过以出现频率的递减次序分选解读遗传密码，并且将以高频率存在的解读遗传密码的百分比或数目与正常样品进行对比，来测定克隆性程度。此外，检验与疾病或病理状况相关的TCR或BCR克隆性的变化。克隆性程度可尤其在检测白血病细胞等中使用。

在另一方面中，本发明提供了一种使用本发明的分析方法或分析系统，提取重叠的解读遗传密码的方法。搜索根据特定疾病、疾病类型、病理状况、组织、基因型(HLA等)分类的样品的解读遗传密码，以提取在样品之间重叠的TCR或BCR的解读遗传密码。此外，可发现与疾病状态或失调相关的TCR或BCR基因。可鉴定出参与自体免疫性疾病病理的疾病特异性T细胞、产生疾病相关的抗体的B细胞、攻击癌细胞的癌症特异性T细胞等。

在另一方面中，本发明提供了一种使用本发明的分析方法或分析系统，搜索疾病特异性TCR或BCR克隆的方法。通过搜索测试样品中与失调或疾病的特定状况相关的TCR或BCR解读遗传密码，并且揭示其出现或消失，或者增加或减少，可预测病理状况或疾病发作的进展或改善。

在另一方面中，本发明提供了一种使用本发明的分析方法或分析系统，采用多样性指数分析受试对象的方法。或者，本发明提供了一种使用本发明的分析方法或分析系统，采用多样性指数辅助分析受试对象的方法。对基于CDR3序列鉴定出的解读遗传密码序列进行计数，并且计算解读遗传密码类型的数目和个体数目，以形成TCR或BCR库的多样性指数。使用香农-维纳(Shannon-Wiener)多样性指数(H’)、辛普森(Simpson)多样性指数(λ、1-λ或1/λ)、皮卢(Pielou)均匀度指数(J’)、超(Chao)1指数等，以测定与正常样品相比的多样性。可利用所述指数作为在骨髓移植之后，测量免疫系统的恢复程度的标示物。进一步地，可利用所述指数作为检测伴随造血系统肿瘤的免疫系统细胞中的异常的标示物。

在一个实施方式中，采用多样性指数分析受试对象的方法使用多样性指数作为在骨髓移植之后，测量免疫系统的恢复程度的标示物，或者作为检测由于造血系统肿瘤造成的免疫系统细胞中的异常的标示物。使用常规系统，难以进行上述采用多样性指数的分析。

根据样品的数目、解读遗传密码的类型或解读遗传密码的数目，使用诸如ESTIMATES(Colwell、R.K.et al.Journal of Plant Ecology 5：3-21.)或R程序包(vegan)等EXCEL电子制表软件或软件，计算多种多样性指数。通过下面示出的数学等式，发现香农-维纳(Shannon-Wiener)多样性指数(H’)、辛普森(Simpson)多样性指数(λ、1-λ或1/λ)、皮卢(Pielou)均匀度指数(J’)和超(Chao)1指数。N：解读遗传密码的总数目，n_i：在解读遗传密码i中的解读遗传密码的数目

香农-维纳(Shannon-Wiener)指数H’

[数1]

H^{,} = - Σ_{i = 1}^{S} \frac{n_{i}}{N} \ln \frac{n_{i}}{N}

辛普森(Simpson)指数λ

[数2]

1 - λ = 1 - Σ_{i = 1}^{s} (\frac{n_{i} (n_{i} - 1)}{N (N - 1)})

逆辛普森(Simpson)指数

[数3]

皮卢(Pielou)J

[数4]

J = \frac{H^{'}}{\log S}

S_ChaolS_obs：解读遗传密码类型的总数目，F₁：单解读遗传密码，F₂：双解读遗传密码

[数5]

S_{C h a o 1} = S_{o b s} - (\frac{n - 1}{n}) \frac{F_{1} (F_{1} - 1)}{2 (F_{2} + 1)}

在另一方面中，本发明是一种使用本发明的分析方法或分析系统，采用相似性指数分析受试对象的方法。或者，本发明提供了一种使用本发明的分析方法或分析系统，采用相似性指数辅助分析受试对象的方法。对个体数目和基于CDR3序列鉴定出的解读遗传密码序列的类型数目进行计算，以发现要对比的样品之间的TCR或BCR库的相似程度。使用Morisita-Horn指数、木元Cπ指数或宾卡(Pianka)α指数，以发现样品之间的相似程度。在测定匹配和错配的HLA类型之间的库的相似性程度中，在测定骨髓移植之后受体和供体之间的库的相似性程度时，可利用这样的指数。

在一个实施方式中，使用相似性指数，作为匹配和错配的HLA类型之间的库的相似性程度的测定，或者作为骨髓移植之后受体和供体之间的库的相似性程度的测定。常规系统难以使用相似性指数进行这样的分析。可使用下面的数学等式，采用ESTIMATES(Colwell，R.K.et al.Journal of Plant Ecology 5：3-21.)或R程序包(vegan)计算多种相似性指数。通过下面的数据等式，发现Morisita-Horn指数、木元Cπ指数或宾卡(Pianka)α指数。

Morisita-Horn指数，X_i：解读遗传密码i在来自样品之一的所有X解读遗传密码中出现的次数，y_i：解读遗传密码i在来自其它样品中的所有Y解读遗传密码中出现的次数，S：唯一的解读遗传密码的数目。

[数6]

C_{M H} = \frac{2 Σ_{i = 1}^{S} x_{i} y_{i}}{(\frac{Σ_{i = 1}^{S} x_{i}^{2}}{X^{2}} + \frac{Σ_{i = 1}^{S} y_{i}^{2}}{Y^{2}}) X Y}

木元Cπ指数

[数7]

C_{π} = \frac{2 Σ_{i = 1}^{S} x_{i} y_{i}}{(Σ_{i = 1}^{S} p_{x i}^{2} + Σ_{i = 1}^{S} p_{y i}^{2}) X Y}

[数7-1]

p_{x i} = \frac{x_{i}}{X}, p_{y i} = \frac{y_{i}}{Y}

宾卡(Pianka)α指数

[数8]

α = \frac{Σ_{i = 1}^{S} p_{x i} p_{y i}}{\sqrt{Σ_{i = 1}^{S} p_{x i}^{2} Σ_{i = 1}^{S} p_{y i}^{2}}}

本发明可使用下一代测序技术，以制备样品，用于对T细胞受体(TCR)或B细胞受体(BCR)的可变区的库进行定量分析。这样的测序技术可以合理的成本，从样品中获得一百万或更多的解读遗传密码。通过以特定且无偏向的方式使用这些技术，甚至可检测到以1/1,000,000或更小的低频率存在的基因型。实现了无偏向的扩增方法，该无偏向的扩增方法用于从来源于血液、骨髓等的DNA的样品中，扩增基因或转录物的特定部分的序列的所有不同类型。

<癌症独特型肽致敏免疫细胞疗法>

在一个方面中，本发明提供了一种制备组合物的方法，该组合物用于对受试对象进行癌症独特型肽致敏免疫细胞疗法中。该方法包括：(1)通过本发明的库分析方法或本发明的库分析系统，分析受试对象的T细胞受体(TCR)或B细胞受体(BCR)的库；(2)基于分析的结果，确定来源于受试对象的癌细胞的TCR或BCR，其中通过在来源于受试对象的癌细胞的TCR或BCR基因存在频率的排序中，选择排序高的序列作为来源于癌细胞的TCR或BCR，来进行该确定；(3)基于确定的来源于癌症的TCR或BCR，确定候选HLA测试肽的氨基酸序列，其中基于使用HLA结合肽预测算法计算的得分，进行该确定；以及，(4)合成所确定的肽。在此方面，癌症独特型肽致敏免疫细胞疗法中可使用合成肽。在某些情况中，将该方法称为本文的“癌症独特型肽致敏免疫细胞疗法”。

通过使用下面的特定程序，可在临床实践中实施癌症独特型肽致敏免疫细胞疗法。简单来讲，例如，(1)可收集患血液肿瘤的癌症患者的外周血细胞，并且可分离出淋巴细胞，随后进行本发明的库分析方法，并且使用它可进行癌症独特型肽致敏免疫细胞疗法。

在另一实施方式中，可对T细胞类肿瘤情况中的TCR，或在B细胞类肿瘤情况中的BCR，实施本发明的库分析方法。随后，在TCR或BCR基因中的出现频率的排名中，选择排名高的序列作为来源于癌细胞的TCR或BCR。通过使用HLA结合肽预测程序(如本文所进一步解释的，可使用任意已知的程序)，预测与癌症患者的人类白细胞抗原(HLA)结合的肽，其中所述肽是根据包括TCR或BCR基因的CDR3区的序列分别确定的。此外，通过合成仪合成HLA结合肽，并且随后进行下面的程序。对于定制肽致敏CTL疗法，可从患者中收集外周血单个核细胞，并且培养添加有所述肽的CD8⁺T细胞和来自患者的单个核细胞或抗原递呈细胞的混合物，以使用抗原肽施加刺激。

对于定制肽致敏CTL疗法，可通过将肽刺激的淋巴细胞引入到患者体内，来给予CTL疗法。

或者，可通过以下步骤，实现定制肽致敏DC疫苗疗法的另一方法：收集患者的外周血单个核细胞；分离单个核细胞；在诱导分化的因子的存在下，诱导分化成树突细胞(DC)；添加肽，并且培养混合物；以及，将肽致敏树突细胞引入到患者体内，以给予树突细胞治疗。

癌症独特型肽致敏免疫细胞疗法可用于患以下疾病的患者：血液癌症，诸如急性髓性白血病和和相关的前体细胞肿瘤、淋巴细胞性白血病/淋巴瘤、T淋巴细胞性白血病/淋巴瘤、慢性淋巴细胞性白血病/小淋巴细胞性白血病、B细胞幼淋巴细胞白血病、毛细胞白血病、T细胞幼淋巴细胞白血病、大颗粒T淋巴细胞白血病和成人T细胞白血病/淋巴瘤；与白血病相似的疾病，诸如多发性骨髓瘤和骨髓增生异常综合征；自体免疫性疾病，诸如类风湿性关节炎、系统性红斑狼疮和I型糖尿病；和，多种感染，以及癌症晚期、难制性自体免疫性疾病或重性感染的患者。具体地，当靶抗原不表达在肿瘤细胞上或者靶抗原也表达在正常细胞上时，靶定肿瘤细胞等的抗体疗法是存在问题的。与其相比，因为选择且利用了对肿瘤细胞特异的序列，而预期具有较高特异性或较小的副作用的疗法。

在一个实施方式中，使用BIMAS、SYFPEITHI、RANKPEP或NetMHC，确定本发明的步骤(3)中的候选HLA测试肽。

在另一实施方式中，本发明包括以下步骤：在本发明中的步骤(4)之后，混合所述肽、来源于受试对象的抗原递呈细胞或树突细胞和来源于受试对象的CD8⁺T细胞；并且培养该混合物。这也被称为改善的CTL法。

例如，与现有的通过抗CD3抗体或IL-2进行广泛的T细胞活化不同，利用抗原肽为CD8⁺T细胞赋予抗原特异性，以便在改善的CTL法中，可预期进行特异性水平较高且副作用较小的治疗。进一步地，该方法的特征在于因为使用了基于从患者肿瘤细胞中获得的信息来产生个体化肽，因此可预期较高水平的治疗效果。

改善的CTL法可用于例如患以下疾病的患者中：血液癌症，诸如急性髓性白血病和和相关的前体细胞肿瘤、淋巴细胞性白血病/淋巴瘤、T淋巴细胞性白血病/淋巴瘤、慢性淋巴细胞性白血病/小淋巴细胞性白血病、B细胞幼淋巴细胞白血病、毛细胞白血病、T细胞幼淋巴细胞白血病、大颗粒T淋巴细胞白血病和成人T细胞白血病/淋巴瘤；与白血病相似的疾病，诸如多发性骨髓瘤和骨髓增生异常综合征；自体免疫性疾病，诸如类风湿性关节炎、系统性红斑狼疮和I型糖尿病；和，多种感染，以及用于癌症晚期患者，和患难制性自体免疫性疾病或重性感染的患者。

在另一实施方式中，本发明包括以下步骤：在本发明中的步骤(4)之后，混合所述肽和来源于受试对象的树突细胞，并且培养该混合物。这也被称为DC疫苗疗法。

例如，因为个体化肽是基于从DC疫苗疗法的患者来源的肿瘤细胞中获得的序列信息而创建的，因此这样的疗法不作用于正常细胞，而更特异地作用于肿瘤细胞，从而可预期高治疗效果。因为肽用作抗原，与蛋白不同，因此具有能够容易地进行化学合成的优势。

DC疫苗疗法可用于例如：血液癌症，诸如急性髓性白血病和和相关的前体细胞肿瘤、淋巴细胞性白血病/淋巴瘤、T淋巴细胞性白血病/淋巴瘤、慢性淋巴细胞性白血病/小淋巴细胞性白血病、B细胞幼淋巴细胞白血病、毛细胞白血病、T细胞幼淋巴细胞白血病、大颗粒T淋巴细胞白血病和成人T细胞白血病/淋巴瘤；与白血病相似的疾病，诸如多发性骨髓瘤和骨髓增生异常综合征；自体免疫性疾病，诸如类风湿性关节炎、系统性红斑狼疮和I型糖尿病；和，多种感染，以及用于癌症晚期、难制性自体免疫性疾病或重性感染的患者。

在另一实施方式中，本发明包括以下步骤：在本发明中的步骤(4)之后，混合所述肽、来源于受试对象的抗原递呈细胞或树突细，和来源于受试对象的CD8⁺T细胞，并且培养该混合物，以产生CD8⁺T细胞-树突细胞/抗原递呈细胞-肽混合物；以及，将所述肽与来源于受试对象的树突细胞混合，并且培养该混合物以产生树突细胞-肽混合物。这也被称为患者自体免疫细胞疗法。

例如，如在CTL疗法中那样，使用来源于患者的肽刺激并且活化CD8⁺T细胞，并且在患者自体免疫细胞疗法中，进行树突细胞的肽致敏。这样的疗法的特征在于，通过将来源于患者的树突细胞和CD8+细胞都引入患者体内，可预期作为抗原递呈细胞利用的树突细胞的持续效应，和赋予特异性的CTL的急性效应具有协同效果，

患者自体免疫细胞疗法可用于例如患以下疾病的患者：血液癌症(白血病等)，诸如急性髓性白血病和和相关的前体细胞肿瘤、淋巴细胞性白血病/淋巴瘤、T淋巴细胞性白血病/淋巴瘤、慢性淋巴细胞性白血病/小淋巴细胞性白血病、B细胞幼淋巴细胞白血病、毛细胞白血病、T细胞幼淋巴细胞白血病、大颗粒T淋巴细胞白血病和成人T细胞白血病/淋巴瘤；与白血病相似的疾病，诸如多发性骨髓瘤和骨髓增生异常综合征；自体免疫性疾病，诸如类风湿性关节炎、系统性红斑狼疮和I型糖尿病；和，多种感染，以及癌症晚期、难制性自体免疫性疾病或重性感染的患者。

在另一方面中，本发明提供了一种向受试对象应用癌症独特型肽致敏免疫细胞疗法的方法。该方法包括：(1)通过本发明的库分析方法或本发明的库分析系统，分析受试对象的T细胞受体(TCR)或B细胞受体(BCR)的库；(2)基于分析的结果，确定来源于受试对象的癌细胞的TCR或BCR，其中通过在来源于受试对象的癌细胞的TCR或BCR基因存在频率的排序中，选择排序高的序列作为来源于癌细胞的TCR或BCR，来进行该确定；(3)基于确定的来源于癌症的TCR或BCR，确定候选HLA测试肽的氨基酸序列，其中基于使用HLA结合肽预测算法计算的评分，进行该确定；(4)合成所确定的肽；以及，可选的(5)使用合成的肽给予治疗。该方法涵盖制造治疗试剂的方法，以及治疗方法自身。当排出了医疗行为时，该方法可在步骤(5)之前完成。

在优选的实施方式中，在本发明中，使用BIMAS、SYFPEITHI、RANKPEP或NetMHC，确定步骤(3)中的候选HLA测试肽。

BIMAS是用于评价HLA肽键的程序，提供在www-bimas.cit.nih.gov/上。

SYFPEITHI是用于MHC配体和肽基序的搜索引擎和数据库，提供在www.syfpeithi.de/上。

RANKPEP是用于预测与I类和II类MHC分子的肽键的程序，提供在http://imed.med.ucm.es/Tools/rankpep.html上。

NetMHC是用于预测肽与众多HLA等位基因结合的程序服务器，提供在www.cbs.dtu.dk/services/NetMHC/上。

在优选的实施方式中，本发明包括以下步骤：在步骤(4)之后，混合所述肽、来源于受试对象的抗原递呈细胞或树突细胞和来源于受试对象的CD8⁺T细胞，并且培养该混合物；并且，在培养之后，将混合物给药予患者，作为改善的CTL法。

在优选的实施方式中，本发明包括以下步骤：在步骤(4)之后，混合肽和来源于受试对象的树突细胞，并且培养该混合物；并且将培养的混合物给药予患者，作为DC疫苗疗法。

在优选的实施方式中，本发明包括以下步骤：在步骤(4)之后，混合所述肽、来源于受试对象的抗原递呈细胞或树突细胞和来源于受试对象的CD8⁺T细胞，并且培养该混合物，以产生CD8⁺T细胞-树突细胞/抗原递呈细胞-肽混合物；混合所述肽与来源于受试对象的树突细胞，并且培养该混合物以产生树突细胞-肽混合物；以及，将CD8⁺T细胞-树突细胞/抗原递呈细胞-肽混合物和树突细胞-肽混合物给药予患者，作为患者自体免疫细胞疗法。

<通过体外抗原刺激，分离定制的癌症特异性T细胞受体基因，分离癌症特异性TCR基因>

在另一方面中，本发明提供了一种通过体外抗原刺激，分离定制的癌症特异性T细胞受体基因，或分离癌症特异性TCR基因的技术。因此，本发明提供了一种通过体外抗原刺激，制备分离的癌症特异性TCR基因的方法，该方法包括：(A)混合来源于受试对象的抗原肽或抗原蛋白、或者在本发明的“癌症独特型肽致敏免疫细胞疗法”中确定的肽、或者来源于受试对象的淋巴细胞，来源于受试对象的灭活的癌细胞，和来源于受试对象的T淋巴细胞，并且培养混合物，以产生肿瘤特异性T细胞；(B)通过本发明的库分析方法或本发明的库分析系统，分析肿瘤特异性T细胞的TCR；以及，(C)基于分析结果，分离期望的肿瘤特异性T细胞。一旦获得了基因信息，就可使用本领域公知的任意技术，实施通过体外抗原刺激制备分离的癌症特异性TCR基因。可使用这样的分离的定制癌症特异性T细胞受体基因和癌症特异性TCR基因，来治疗或预防多种癌症。

可使用下面特定的程序，在临床实践中实施这样的分离的定制癌症特异性T细胞受体基因和癌症特异性TCR基因。

在一个实施方式中，如下，例如可使使用分离的定制癌症特异性T细胞受体基因和癌症特异性TCR基因的疗法实体化：(1)从癌症患者中提取肿瘤细胞；(2)在将来自患者的肿瘤细胞弄碎之后，将细胞分离成单个细胞，并且通过辐射辐照或使用丝裂霉素C等的化学处理进行灭活；(3)从癌症患者的全血中分离出外周血细胞；(4)从细胞中提取RNA，其中使用一些外周血细胞作为未经处理的对照样品；(5)混合并且培养灭活的肿瘤细胞和外周血细胞，以活化且增殖肿瘤特异性T细胞；(6)在活化之后，在刺激之后，通过收集外周血细胞，从细胞中提取RNA作为样品；(7)对在(4)和(6)中提取的RNA样品，实施本发明的库分析方法；(8)提取相对于对照样品，刺激样品中大大增加的TCR基因，并且进行排名，然后选择出排名高的TCRα和TCRβ基因；(9)克隆全长的TCRα和TCRβ基因，并且引入到用于基因表达的逆转录病毒载体中；(10)从表达TCRα和TCRβ基因的逆转录病毒载体，创建引入基因的病毒；(11)使用TCRα和TCRβ独立且依次地感染从患者收集的淋巴细胞，以进行转染，或者创建包括TCRα和TCRβ基因的基因表达逆转录病毒载体，以一次转化这两种基因；(12)证明TCRα/TCRβ异源二聚体在细胞表面上表达；以及，(13)将表达感兴趣的TCRα/TCRβ的肿瘤特异性患者淋巴细胞，通过细胞转移引入到患者体内。

具体地，可使用在“癌症独特型肽致敏免疫细胞疗法”中所述的方法确定的TCR或BCR，作为例如本发明的实施方式中的血液肿瘤的抗原或肽。在此方面，假定来自患者的任意癌症抗原或灭活的癌症组织，其中可使用以下方法作为典型的方法：混合任意抗原蛋白或任意抗原肽，T淋巴细胞，和抗原递呈细胞的方法；混合来自受试对象的淋巴细胞和来自受试对象的灭活的癌细胞的方法；和混合抗原递呈细胞、T淋巴细胞和来源于TCR或BCR的肽的方法，其中通过在“癌症独特型肽致敏免疫细胞疗法”中提供的库分析来确定该TCR或BCR。

因此，在一个实施方式中，本发明中的步骤(A)是如下步骤：将来源于受试对象的灭活的癌细胞和来源于受试对象的抗原肽或抗原蛋白，与来源于受试对象的T淋巴细胞混合；并且，培养混合物，以产生肿瘤特异性T细胞。

在又一实施方式中，本发明中的步骤(A)是如下步骤：混合来源于受试对象的淋巴细胞，来源于受试对象的灭活的癌细胞，和来源于受试对象的T淋巴细胞；并且，培养混合物，以产生肿瘤特异性T细胞。

在又一实施方式中，本发明中的步骤(A)是如下步骤：混合在“癌症独特型肽致敏免疫细胞疗法”中确定的肽，来源于受试对象的灭活的癌细胞，和来源于受试对象的T淋巴细胞；并且，培养混合物，以产生肿瘤特异性T细胞。

分离的定制的癌症特异性T细胞受体基因和癌症特异性TCR基因的治疗可用于患各种癌症的患者，这样的患者包括，但并不限于：肾上腺皮质癌、肛门癌、胆管癌、膀胱癌、乳腺癌、宫颈癌、慢性淋巴细胞白血病、慢性髓细胞性白血病、结直肠癌、子宫内膜癌、食道癌、尤文氏瘤、胆囊癌、霍奇金氏病(Hodgkin′s disease)、下咽癌、喉癌、口唇口腔癌、肝癌、非小细胞肺癌、非霍奇金淋巴瘤、黑色素瘤、间皮瘤、多发性骨髓瘤、卵巢癌、胰腺癌、前列腺癌、胃癌、睾丸癌、甲状腺癌等。

在又一方面中，本发明提供了通过搜索共同序列，分离定制的癌症特异性T细胞受体基因，和分离癌症特异性TCR基因。因此，本发明提供了一种通过搜索共同序列，制备分离的癌症特异性TCR基因的方法，该方法包括：(A)提供从具有共同HLA的受试对象分离的淋巴细胞或癌症组织；(B)通过用于淋巴细胞或癌症组织的本发明的库分析方法或本发明的库分析系统，分析肿瘤特异性T细胞的TCR；以及，(C)分离具有与肿瘤特异性T细胞相同序列的T细胞。一旦获得遗传信息，就使用本领域公知的任意技术，通过搜索共同序列来制备分离的癌症特异性TCR基因。在多种癌症的治疗和预防中，可使用通过如下过程获得的基因：通过搜索共同序列，分离定制的癌症特异性T细胞受体基因或分离癌症特异性TCR基因，从而获得该基因。这种方法也被称为“通过搜索本发明的共同序列，分离定制的癌症特异性T细胞受体基因或分离癌症特异性TCR基因的方法”。

通过由搜索共同序列，分离定制的癌症特异性T细胞受体基因或分离癌症特异性TCR基因获得的基因可用下面的具体过程在临床实践中实施。在一个实施方式中，由以下步骤可以利用基因实现治疗，其中所述基因通过由搜索共同序列，分离定制的癌症特异性T细胞受体基因或分离癌症特异性TCR基因获得的基因而获得：首先(1)从具有共同HLA的癌症患者中，提取肿瘤细胞或分离外周血；(2)通过使用淋巴细胞或包括肿瘤细胞浸润的T细胞的肿瘤组织，进行库分析；(3)基于其存在频率产生每一样品的排名，并且选择出相对于外周血细胞，显示较高出现频率的肿瘤特异性T细胞；(4)对于肿瘤特异性T细胞，搜索在多个HLA匹配的癌症患者中的共同序列；(5)选择由大部分癌症患者共有的肿瘤特异性TCR基因，作为用于治疗的肿瘤特异性TCR；(6)克隆全长的TCRα和TCRβ基因，并且引入到用于基因表达的逆转录病毒载体中；(7)从TCRα和TCRβ基因表达的逆转录病毒载体，创建基因引入病毒；(8)使用TCRα和TCRβ独立且依次地感染从患者收集的淋巴细胞，以进行转染，或者创建包括TCRα和TCRβ基因的基因表达逆转录病毒载体，以一次转化这两种基因；(9)证明TCRα/TCRβ异源二聚体在细胞表面上表达；以及，(10)将表达感兴趣的TCRα/TCRβ的肿瘤特异性患者淋巴细胞，通过细胞转移引入到患者体内。

使用基因进行的治疗可用于患各种癌症的患者，其中所述基因是通过搜索共同序列，分离定制的癌症特异性T细胞受体基因或分离癌症特异性TCR基因获得的，这样的癌症包括，但并不限于：肾上腺皮质癌、肛门癌、胆管癌、膀胱癌、乳腺癌、宫颈癌、慢性淋巴细胞白血病、慢性髓细胞性白血病、结直肠癌、子宫内膜癌、食道癌、尤文氏瘤、胆囊癌、霍奇金氏病(Hodgkin′s disease)、下咽癌、喉癌、口唇口腔癌、肝癌、非小细胞肺癌、非霍奇金淋巴瘤、黑色素瘤、间皮瘤、多发性骨髓瘤、卵巢癌、胰腺癌、前列腺癌、胃癌、睾丸癌、甲状腺癌等。

因此，在另一方面中，本发明提供了一种通过体外抗原刺激分离癌症特异性TCR基因的方法，包括：(A)混合来源于受试对象的抗原肽或抗原蛋白或者在癌症独特型肽致敏免疫细胞疗法中确定的肽或者来源于受试对象的淋巴细胞，来源于受试对象的灭活的癌细胞，和来源于受试对象的T淋巴细胞，并且培养混合物，以产生肿瘤特异性T细胞；(B)通过本发明的库分析方法或本发明的库分析系统，分析肿瘤特异性T细胞的TCR；以及，(C)基于分析结果，分离期望的肿瘤特异性T细胞。一旦获得了基因信息，就可使用本领域公知的任意技术，制备通过体外抗原刺激分离的癌症特异性TCR基因。可使用这样的分离的定制癌症特异性T细胞受体基因和癌症特异性TCR基因，来治疗或预防多种癌症。

因此，在通过体外抗原刺激分离癌症特异性TCR基因的方法的一个实施方式中，本发明中的步骤(A)包括如下步骤：将来源于受试对象的灭活的癌细胞和来源于受试对象的抗原肽或抗原蛋白与来源于受试对象的T淋巴细胞混合；并且，培养混合物，以产生肿瘤特异性T细胞。

在又一方面中，本发明提供了一种搜索共有序列分离癌症特异性TCR基因，或者分离定制的癌症特异性T细胞受体基因的技术，包括：(A)从具有共同HLA的受试对象分离淋巴细胞或癌症组织；(B)通过用于淋巴细胞或癌症组织的本发明的库分析方法，分析肿瘤特异性T细胞的TCR；以及，(C)分离具有与肿瘤特异性T细胞相同的序列的T细胞。这样分离的定制的癌症特异性T细胞受体基因或癌症特异性TCR基因，可用于治疗和预防多种癌症。

<细胞处理疗法>

在又一方面中，本发明提供了一种细胞处理疗法。具体地，本发明提供了一种引入了肿瘤特异性TCR基因且用于细胞处理疗法的T淋巴细胞的制备方法，并且，该T淋巴细胞的制备方法包括：A)提供从患者收集的T淋巴细胞；B)在向T淋巴细胞施加抗原刺激之后，基于本发明的库分析方法或本发明的库分析系统分析TCR，其中，通过来源于受试对象的抗原肽或抗原蛋白、来源于受试对象的灭活的癌细胞或来源于肿瘤的独特型肽，来施加抗原刺激；C)在分析的TCR中，选择最佳TCR和最佳抗原；以及，D)产生最佳TCR的TCR基因的肿瘤特异性TCRα和TCRβ表达病毒载体。使用T淋巴细胞的细胞处理疗法可用于治疗和预防多种癌症，其中T淋巴细胞中引入了肿瘤特异性TCR基因。

在临床实践中，可通过使用下面具体过程，来实施这样的细胞处理疗法，其中该细胞处理疗法使用引入了肿瘤特异性TCR基因的T淋巴细胞。例如，可通过在<通过体外抗原刺激，分离定制的癌症特异性T细胞受体基因，分离癌症特异性TCR基因>或<通过搜索共同序列，分离定制的癌症特异性T细胞受体基因，分离癌症特异性TCR基因>中描述的方法，使用引入了肿瘤特异性TCR基因的淋巴细胞。

因此，通过合成为抗原，可制造或产生任意癌症抗原或癌症肽，以在本发明的细胞处理疗法中，利用收集的灭活的患者癌细胞或利用来源于肿瘤的独特型肽。作为选择方法，可以选择在癌组织中高表达的抗原，或者选择与患者的HLA型结合的肽作为抗原。

在本发明的细胞处理疗法的优选实施方式中，可选择的可能想到的最佳抗原的实例包括，但并不限于，(1)在患者癌症组织中高表达的抗原，(2)在抗原特异性淋巴细胞刺激测试中，最强有力地活化T细胞的抗原，和(3)在抗原刺激前后的库分析中，使特定TCR的频率增加最大的抗原。进一步地，还可以想到一种选择在实施例(3)中增加最大的TCR作为最佳TCR的方法，其中在抗原刺激之前和之后的库分析中，特定TCR的频率增加最大。进一步地，作为典型的实例，可以选择候选的最佳TCR作为最佳TCR，其中该候选的最佳TCR被人工转基因引入患者的淋巴细胞中，并且在患者的实际癌症组织中显示出最高的反应性。

使用引入了肿瘤特异性TCR基因的T淋巴细胞的细胞处理疗法可用于患各种癌症的患者，该各种癌症包括，但并不限于，例如肾上腺皮质癌、肛门癌、胆管癌、膀胱癌、乳腺癌、宫颈癌、慢性淋巴细胞白血病、慢性髓细胞性白血病、结直肠癌、子宫内膜癌、食道癌、尤文氏瘤、胆囊癌、霍奇金氏病(Hodgkin′s disease)、下咽癌、喉癌、口唇口腔癌、肝癌、非小细胞肺癌、非霍奇金淋巴瘤、黑色素瘤、间皮瘤、多发性骨髓瘤、卵巢癌、胰腺癌、前列腺癌、胃癌、睾丸癌、甲状腺癌等。

因此，在一个实施方式中，使用来源于受试对象的抗原肽或抗原蛋白，施加本发明方法的抗原刺激。

在另一实施方式中，使用来源于受试对象的灭活的癌细胞，施加本发明方法的抗原刺激。

在另一实施方式中，使用来源于肿瘤的独特型肽，施加本发明方法的抗原刺激。

在另一实施方式中，本发明的步骤C)包括，选择在受试对象的癌症组织中高表达的抗原。

在另一实施方式中，本发明的步骤C)包括，选择在抗原特异性淋巴细胞刺激测试中最强烈地活化T细胞的抗原。

在另一实施方式中，本发明的步骤C)包括，选择在施加抗原刺激之前和之后，基于本发明的库分析方法或本发明的库分析系统进行的库分析中，特定TCR的频率增加最大的抗原。

在一个特定实施方式中，本发明提供了一种测定功效和/或安全性的方法，其中使用<通过搜索共同序列，分离定制的癌症特异性T细胞受体基因，分离癌症特异性TCR基因>所分离的癌症特异性TCR基因，通过体外刺激测试，来测定有效性和/或安全性。

例如，通过以下步骤，来评估有效性：培养来源于接受了来源于受试对象的抗原蛋白或抗原肽的抗原刺激的受试对象的抗原蛋白或抗原肽和引入了癌症特异性TCR基因的T细胞，来源于接受了来源于受试对象的灭活的癌细胞的抗原刺激的受试对象的灭活的癌细胞，和来源于接受了来源于肿瘤的独特型肽的抗原刺激的肿瘤的独特型肽之后，测量应答于T细胞活化而由细胞分泌出来的细胞因子(干扰素γ等)的量，测量应答于T细胞活化而升高的特定基因的表达量，或者测量应答于T细胞活化而表达或表达增加的细胞表面分子。

<安全性>例如，可通过以下步骤，评估安全性：当来源于受试对象的引入了癌症特异性TCR基因的T细胞与来源于受试对象的正常细胞混合时，测量应答于上述T细胞的活化分泌的细胞因子、基因表达或细胞表面分子的表达，并且证实引入了TCR基因的T细胞不被正常细胞活化。

在一个实施方式中，有效性和/或安全性评估的具体步骤可实现如下。例如：(1)使用逆转录病毒基因表达系统，创建引入肿瘤特异性TCRα和TCRβ基因的T淋巴细胞；(2)当评估有效性时，提取、分离并且永生化来源于患者的癌细胞，然后与引入了肿瘤特异性TCR基因的T淋巴细胞混合，并且进行培养；(3)用上述培养的细胞并且进行细胞增殖测试(胸腺嘧啶摄入测试、MTT测试、IL-2产生测试等)，可定量测定对肿瘤细胞的反应性，以选择对肿瘤细胞产生更强烈反应的TCR基因；(4)当评估安全性时，使用对照并且进行永生化，然后与引入了肿瘤特异性TCR基因的T淋巴细胞混合并且进行培养，其中对照是现有的细胞株、不含患者癌细胞的正常组织(在提取肿瘤的过程中收集的一部分正常组织)，或在实体瘤的情况中为患者的外周血细胞；以及，(5)可使用上述培养的细胞并且进行细胞增殖测试(胸腺嘧啶摄入测试、MTT测试、IL-2产生测试等)，定量测定对肿瘤细胞的反应性，以选择对正常细胞不显示反应性的TCR基因。

因此，在另一方面中，本发明提供了一种细胞处理疗法，包括：

A)从患者中收集T淋巴细胞；B)在向T淋巴细胞施加抗原刺激之后，基于本发明的库分析方法或库分析系统分析TCR，其中，通过来源于受试对象的抗原肽或抗原蛋白、来源于受试对象的灭活的癌细胞或来源于肿瘤的独特型肽，来施加抗原刺激；C)在分析的TCR中，选择最佳TCR和最佳抗原；D)产生最佳TCR的TCR基因的肿瘤特异性TCRα和TCRβ表达病毒载体；以及，E)将引入了肿瘤特异性TCR基因的T淋巴细胞引入到患者体内。

实施将产生的引入了肿瘤特异性TCR基因的T淋巴细胞引入到患者体内的步骤的方法包括：A)制造引入了肿瘤特异性TCR基因的T淋巴细胞；B)证实肿瘤特异性TCRα和TCRβ的表达；以及，C)通过静脉滴注法，将引入了肿瘤特异性TCR基因的T淋巴细胞静脉注射地引入到患者体内。

因此，在一个实施方式中，使用来源于受试对象的抗原肽或抗原蛋白，来施加本发明的细胞处理疗法中的抗原刺激。

在另一实施方式中，使用来源于受试对象的灭活的癌细胞，来施加本发明的细胞处理疗法中的抗原刺激。

在另一实施方式中，使用来源于肿瘤的独特型肽，来施加本发明的细胞处理疗法中的抗原刺激。

在另一实施方式中，本发明的细胞处理疗法中的步骤C)包括，选择在受试对象的癌组织中高表达的抗原。

在另一实施方式中，本发明的细胞处理疗法中的步骤C)包括，选择在抗原特异性淋巴细胞刺激测试中，最强烈地活化T细胞的抗原。

在另一实施方式中，本发明的细胞处理疗法中的步骤C)包括，选择在施加抗原刺激之前和之后，在基于本发明的库分析方法进行的库分析中使特异性TCR频率增加最大的抗原。

<利用BCR库分析分离人类型抗体>

作为一个实施方式，本发明的库分析方法可用于进行BCR基因库分析，以通过下述方法快速获得对靶抗原具有特异性的人类型抗体。

(A)用靶抗原蛋白或抗原肽免疫小鼠并且分离细胞群(例如脾脏、淋巴结或外周血细胞)的方法，以通过本发明的库分析方法，分析免疫球蛋白的重链和轻链基因

(A1)A的方法，其中，经免疫的小鼠是能够产生完整的人类抗体，同时维持抗体的多样性的KM小鼠

(A2)A的方法，其中，经免疫的小鼠是通过将人类干细胞移植到显示出重症综合性免疫缺陷的NOG(NOD/Shi-scid、IL-2Rγnull(IL-2Rγ敲除))小鼠中创建的人源化小鼠，其中通过使IL-2受体γ敲除小鼠与NOD/scid小鼠交配制得NOG(NOD/Shi-scid、IL-2Rγnull)小鼠

(B)将从来源于对照小鼠和经免疫的小鼠，或在抗原刺激之前和之后的小鼠的样品中获得的免疫球蛋白重链和轻链的基因序列及其频率进行对比

(C)鉴定出在经免疫的小鼠中强表达或在免疫之后增加的免疫球蛋白重链和轻链基因

(D)从步骤C中选择出免疫球蛋白重链和轻链基因，并且插入该基因以匹配一种类型的抗体表达载体，或者将该基因独立地插入两种类型的抗体表达载体中的方法

(E)将在步骤D中制得的免疫球蛋白重链和轻链基因表达载体引入到诸如CHO(中国仓鼠卵巢)等真核细胞中，并且培养细胞

(F)分离/纯化由转基因的细胞产生或分泌的抗体分子，以检查对靶抗体蛋白或肽的特异性。

上述步骤A～F是直接且快速获得抗原特异性人类型抗体的方法，同时在获得该抗原特异性人类型抗体之后，不会使来源于动物的抗体基因改变成人类抗体的嵌合抗体或人源化抗体。这些方法可用于开发和制造由人类型抗体组成的抗体药物。

对于在本实施方式中使用的KM小鼠，可参考以下文献：Ishida I，Tomizuka K，Yoshida H，Tahara T，Takahashi N，Ohguma A，Tanaka S，Umehashi M，Maeda H，Nozaki C，Halk E，Lonberg N.Production of human monoclonal and polyclonal antibodies inTransChromo animals.Cloning Stem Cells.2002；4(1)：91-102.Review。对于NOG小鼠，可参考以下文献：Ito M，Hiramatsu H，Kobayashi K，Suzue K，Kawahata M，Hioki K，UeyamaY，Koyanagi Y，Sugamura K，Tsuji K，Heike T，Nakahata T.NOD/SCID/gamma(c)(null)mouse：an excellent recipient mouse model for engraftment of humancells.Blood.2002Nov 1；100(9)：3175-82。对于CHO细胞/抗体生产，可参考以下文献：Jayapal KP，Wlaschin KF，Hu W-S，Yap MGS.Recombinant protein therapeutics fromCHO cells-20years and counting.Chem Eng Prog.2007；103：40？47.；Chusainow J，YangYS，Yeo JH，Toh PC，Asvadi P，Wong NS，Yap MG.A study of monoclonal antibody-producing CHO cell lines：what makes a stable high producer？BiotechnolBioeng.2009Mar 1；102(4)：1182-96。

<利用BCR库分析分离人类型抗体>

作为一个实施方式，可利用BCR基因库分析方法，以通过下述方法快速获得对靶抗原具有特异性的人类型抗体。

(A)用靶抗原蛋白或抗原肽免疫小鼠并且分离包括来自小鼠的产生抗体的B细胞的细胞群(例如脾脏、淋巴结或外周血细胞)的方法，以通过BCR库分析方法，分析免疫球蛋白的重链和轻链基因。

(A2)A的方法，其中，经免疫的小鼠是通过将人类干细胞移植到显示出重症综合性免疫缺陷的NOG(NOD/Shi-scid、IL-2Rγnull)小鼠中创建的人源化小鼠，其中通过使IL-2受体γ敲除小鼠与NOD/scid小鼠交配制得NOG(NOD/Shi-scid、IL-2Rγnull)小鼠

这样的方法的实施方式包括以下所示的实施方式。作为其一个实例：

1、使用髓鞘少突胶质细胞糖蛋白(MOG35-55、MOG)免疫KM小鼠，其中髓鞘少突胶质细胞糖蛋白(MOG35-55、MOG)是实验性自身免疫性脑脊髓炎的抗原肽。混合相同量的2mg/mLMOG肽和弗氏完全佐剂，以产生乳液。使用200μg MOG皮下免疫小鼠，同时使用400ng百日咳毒素在腹膜腔中免疫小鼠。对照小鼠经PBS和弗氏完全佐剂免疫。

2、在首次免疫之后的第2天，使用400ng百日咳毒素免疫小鼠。在免疫之后第10天证实了爆发之后，从具有脑脊髓炎发作性症状的小鼠中提取脾脏。

3、使用爆发的小鼠和对照小鼠的脾脏，进行下一代BCR库分析。对各BCR序列的出现频率进行计数，并且对免疫球蛋白重链和免疫球蛋白轻链进行排名。

4、提取相对于对照小鼠，爆发小鼠中出现频率大大增加的BCR序列，并且进行排名。将通过给予抗体所诱导的排名高的BCR序列的组合鉴定为MOG特异性抗体基因。

5、通过PCR克隆，从爆发小鼠中扩增的BCR基因扩增子，克隆全长的人类免疫球蛋白序列。将各IgG免疫球蛋白重链和免疫球蛋白轻链，克隆在抗体表达载体中。存在一种方法，该方法插入基因以匹配一种类型的抗体表达载体或将基因独立地插入两种类型的抗体表达载体中。

6、使用Lipofectamine 3000(Life Science)转化CHO(中国仓鼠卵巢)细胞，并且使用构建的表达载体引入IgG免疫球蛋白重链和免疫球蛋白轻链。

7、收集CHO细胞培养液。使用蛋白A亲和柱进行纯化来收集分泌的抗体蛋白，并且使用凝胶过滤进行浓缩。

8、使用收集的抗体，通过ELISA测定测量对于MOG35-55或MOG蛋白的结合活性，以研究抗体的特异性。

9、当获得充分的特异性时，获取稳定表达抗体的细胞株，并且使用大规模培养系统制造人类型抗MOG抗体。

(本发明的肽和疗法)

本发明的肽或编码该肽的核酸可用于免疫治疗中。下面提供了对其的描述。

本发明提供的肽来源于与肿瘤发生相关的抗原，并且可具有与MHC(HLA)II类分子充分结合的能力，以在人类中触发免疫应答，特别是淋巴细胞，特别是T淋巴细胞，特别是CD4阳性T细胞并且特别是由CD4阳性T细胞诱导的TH1型免疫应答。

如本文所使用的，以相同的含义使用“蛋白”、“多肽”、“寡肽”和“肽”，并且指任意长度的氨基酸聚合物。这样的聚合物可以是支链的或直链的或环形的。氨基酸可以是天然或非天然或经改变的氨基酸。该术语还涵盖了那些组装成多个多肽链的复合体。该术语还涵盖了天然或经人工改变的氨基酸聚合物。这样的改变的实例包括形成二硫键、糖基化、脂化、乙酰化、磷酸化，或任意其它操作或改变(例如与标记组分的缀合)。该定义还涵盖了例如包括氨基酸的一种或多种类似物(例如包括非天然氨基酸等)、肽样化合物(例如类肽)和本领域已知的其它改变的多肽。如本文所使用的，只要满足了本发明的目的，“氨基酸”可以是天然或非天然的。

如本文所使用的，“多核苷酸”、“寡核苷酸”和“核酸”以相同的意思使用，并且指具有任意长度的核苷酸聚合物。该术语还涵盖“寡核苷酸衍生物”和“多核苷酸衍生物”。“寡核苷酸衍生物”或“多核苷酸衍生物”指其具有在不正常的核苷酸或包括核苷酸衍生物的核苷酸之间的键的寡核苷酸或多核苷酸。它们可互换使用。这样的寡核苷酸的具体实例包括2′-O-甲基-核糖核苷酸，寡核苷酸中的磷酸二酯键转化成硫代磷酸酯键的寡核苷酸衍生物，寡核苷酸中的磷酸二酯键转化成N3′-P5′磷酰胺酯键的寡核苷酸衍生物，寡核苷酸中的核糖和磷酸二酯键转化成肽核酸键的寡核苷酸衍生物，寡核苷酸中的尿嘧啶被替换成C-5丙炔基尿嘧啶的寡核苷酸衍生物，寡核苷酸中的尿嘧啶被替换成C-5噻唑尿嘧啶的寡核苷酸衍生物，寡核苷酸中的胞嘧啶被替换成C-5丙炔基胞嘧啶的寡核苷酸衍生物，寡核苷酸中的胞嘧啶被替换成经吩噁嗪修饰的胞嘧啶的寡核苷酸衍生物，DNA中的核糖被替换成2′-O-丙基核糖的寡核苷酸衍生物，寡核苷酸中的核糖被替换成2′-甲氧基乙氧基核糖的寡核苷酸衍生物，等等。除非特别指出，除了明确示出的序列之外，否则具体的核酸序列还用于涵盖经保守改变的变体(例如简并密码子替换的形式)及其互补序列。具体地，可通过创建其中选定的一个或多个(或所有)密码子的第三位被替换成混合碱基和/或脱氧肌苷残基的序列，来获得简并密码子替换的形式(Batzer et al.，Nucleic Acid Res.19：5081(1991)；Ohtsuka et al.，J.Biol.Chem.260：2605-2608(1985)；Rossolini et al.，Mol.Cell.Probes 8：91-98(1994))。如本文所使用的，“核酸”可与基因、cDNA、mRNA、寡核苷酸和多核苷酸互换使用。如本文所使用的，“核苷酸”可以是天然或非天然的。

如本文所使用的，“基因”指限定基因型的试剂。“基因”可指“多核苷酸”、“寡核苷酸”或“核酸”。

除了鉴定出的多肽之外，在本发明中也可使用其变体。这样的变体的实例包括，但并不限于，与鉴定出的肽同源的那些。

如本文所使用的，基因的“同源性”指两个或多个基因序列与另一基因序列的同一性的水平。通常，具有“同源性”指具有高水平的同一性和相似性。因此，两个基因的较高水平的同源性使得其序列具有较高水平的同一性或相似性。可以通过直接对比序列，或通过在核酸的严格条件下进行杂交，来检验两种类型的基因是否是同源的。当直接对比两个基因序列时，当基因序列之间的DNA序列为至少50％相同，优选为至少70％相同，并且更优选为至少80％、90％、95％、96％、97％、98％或99％相同时，基因通常是同源的。因此，如本文所使用的，“同源物”后“同源的基因产物”指另一物种，优选哺乳动物中，发挥与本文进一步描述的蛋白构成成分复合体相同的生物功能的蛋白。这样的同源物也被称为“直系同源基因产物”。应理解的是，只要与本发明的目标一致，就也可使用这样的同源物、同源基因产物、直系同源基因产物等。

在本文中，可以公知的三个字母符号或由IUPAC-IUB生物化学命名委员会(IUPAC-IUB Biochemical Nomenclature Commission)推荐的一个字母符号提到氨基酸。类似地，可以普遍识别的一个字母代码提到核苷酸。在本文中，通过使用具有缺省参数的序列分析工具BLAST，来计算氨基酸序列和碱基序列的相似性、同一性和同源性的对比。例如，通过使用NCBI的BLAST 2.2.28(于2013年4月2日公开)调查同一性。本文中的同一性的值通常指，使用上述BLAST在缺省条件下进行序列比对所获得的值。但是，当通过改变参数输出更高值时，则认为最高值是同一性的值。在多个区域中评估同一性时，认为其中的最高值是同一性的值。除了同一性之外，相似性是计算使用相似氨基酸的数值。

在本发明的一个实施方式中，“几个”可指例如10、8、6、5、4、3或2，或者小于该数值中任一个的数值。已知具有1至几个氨基酸残基的缺失、添加、插入或其它氨基酸替换的多肽，仍然维持其生物活性(Market al.，Proc Natl Acad Sci U S A.1984Sep；81(18)：5662-5666.，Zoller et al.，Nucleic Acids Res.1982Oct 25；10(20)：6487-6500.，Wanget al.，Science.1984Jun29；224(4656)：1431-1433.)。可例如通过定点诱变、随机诱变、使用抗体噬菌体文库进行的生物淘选等，制得具有缺失等的抗体。例如，可使用KOD-加-诱变试剂盒(KOD-Plus-Mutagenesis Kit，TOYOBO CO.，LTD.)进行定点诱变。通过进行诸如FACS分析或ELISA等多种特征分析，可从引入了缺失等的突变抗体中，选择出具有与野生型相同活性的抗体。

在本发明的一个实施方式中，“90％或更大”可以是例如90％、95％、96％、97％、98％、99％或100％或更大，或在任意两个数值的范围内。对于上述“同源性”，可按照本领域已知的方法计算两个或多个氨基酸序列中，同源氨基酸的数目百分比。在计算百分比之前，将要进行对比的氨基酸序列组中的氨基酸序列对齐。当要使相同氨基酸的百分比最大化时，将间隙引入到一部分氨基酸序列中。对齐方法、计算百分比的方法、对比方法及与其相关计算程序在本领域中是公知的(例如BLAST、GENETYX等)。如本文所使用的，除非另外特别指出，否则“同源性”可表示通过NCBI的BLAST所测量的值。Blastp可以在缺省设置下使用，用于一种用于使用BLAST对比氨基酸序列的算法。测量结果表示为正数(Positives)或同一性(Identities)的数值形式。

如本文所使用的，“在严格条件下进行杂交的多核苷酸”指本领域中常规的公知条件。通过使用克隆杂交、噬菌斑杂交、DNA印记杂交(southern blot hybridization)等，同时使用从本发明的多核苷酸选择出的多核苷酸作为探针，可获得这样的多核苷酸。具体地，这样的多核苷酸指能通过以下方法鉴定出来的多核苷酸：使用具有来源于克隆或噬菌斑的固定的DNA的过滤器，以在65℃在0.7～1.0M NaCl的存在下进行杂交，然后使用0.1～2倍浓度的SSC(盐-柠檬酸钠)溶液(具有1倍浓度的SSC溶液的成分是150mM氯化钠和15mM柠檬酸钠)，以在65℃的条件下洗涤过滤器。对于“严格条件”，以下是可使用的条件的实例。(1)低离子强度和高温用于洗涤(例如50℃下的0.015M氯化钠/0.0015M柠檬酸钠/0.1％十二烷基硫酸钠)；(2)诸如甲酰胺的变性试剂用于杂交(例如42℃下的50％(v/v)甲酰胺、0.1％牛血清白蛋白/0.1％聚蔗糖(ficoll)/0.1％聚乙烯吡咯烷酮/pH为6.5的50mM磷酸钠缓冲液、750mM氯化钠和75mM柠檬酸钠)；或者，(3)包含20％甲酰胺、5×SSC、50mM磷酸钠(pH 7.6)、5×邓哈特(Denhardt)溶液、10％硫酸葡聚糖和20mg/ml经剪切的变性鲑鱼精DNA的溶液在37℃孵育过夜，然后在约37-50℃下使用1×SSC洗涤过滤器。甲酰胺浓度可为50％或更大。洗涤时间可为5、15、30、60、120或更长。考虑多种元素会影响杂交的严格性，诸如温度、盐浓度等。详细可参考Ausubel et al.，《当前分子生物学技术(Current Protocols inMolecular Biology)》(Wiley Interscience Publishers，(1995))。“高严格条件”例如是0.0015M氯化钠、0.0015M柠檬酸钠和65℃～68℃，或者0.015M氯化钠、0.0015M柠檬酸钠、50％甲酰胺和42℃。可按照实验出版物，诸如《分子克隆第二版，当前分子生物学技术(Molecular Cloning 2^nd ed.，Current Protocols in Molecular Biology)》附录1-38，《DNA克隆1：核心技术，实用方法，第二版(DNA Cloning 1：Core Techniques，A PracticalApproach，Second Edition)》(牛津大学出版社(1995))中所描述的方法进行杂交。在这一方面，优选从在严格条件下杂交的序列中，排除仅包括A序列或仅包括T序列的序列。领域技术人员基于例如基于DNA的长度能够很容易地确定中等严格条件，并且在Sambrook et al.的《分子克隆，实验指南第三版(Molecular Cloning，A Laboratory，Third Ed.)》(Vol.1，7.42-7.45，冷泉港出版社，2001)中示出了该中等严格条件，对于硝酸纤维素过滤器，包括如下的杂交条件：在约40℃～50℃下的1.0mM EDTA(pH 8.0)、5×SSC、0.5％SDS和约50％甲酰胺和2×SSC～6×SSC(或其它类似的杂交溶液，诸如在约42℃下的在约50％甲酰胺中的斯塔克溶液(Stark′s solution))的预洗涤溶液，和在约60℃下的0.5×SSC、0.1％SDS的洗涤条件。因此，在本发明中使用的多肽涵盖由一核酸分子编码的多肽，该核酸分子在高严格条件或中等严格条件下与编码本发明中具体描述的多肽的核酸分子杂交。

如本文所述的，“纯化的”物质或生物制剂(例如核酸、蛋白等)指去除了至少一些天然与其伴随的试剂的物质或生物制剂。因此，在纯化的生物制剂中的生物制剂的纯度高于生物制剂在正常条件下的纯度(即浓缩的)。本文所使用的术语“纯化的”优选指存在至少75wt.％、更优选至少85wt.％、仍然更优选至少95wt.％并且最优选至少98wt.％的同一类型的生物制剂。本发明中所使用的物质或生物制剂优选是“纯化的”物质。本文所使用的“分离的”物质或生物制剂(例如核酸、蛋白等)指基本去除了天然与其伴随的试剂的物质或生物制剂。本文所使用的术语“分离的”随着目标的不同而不同。因此，该术语不一定需要以纯度来表示。但是，当必要时，该术语优选指存在至少75wt.％、更优选至少85wt.％、仍然更优选至少95wt.％并且最优选至少98wt.％的同一类型的生物制剂。在本发明中使用的物质优选是“分离的”物质或生物制剂。

如本文所使用的，“片段”指相对于全长的多肽或多核苷酸(长度为n)，序列长度为1至n-1的多肽或多核苷酸。可按照目标，适当地改变片段的长度。对于多肽，这样的长度的下限实例包括3、4、5、6、7、8、9、10、15、20、25、30、40、50和更多的氨基酸。本文中未特别列出的整数(例如11等)所示的长度也可适用作下限。此外，对于多核苷酸，长度的实例包括5、6、7、8、9、10、15、20、25、30、40、50、75、100和更多的核苷酸。本文中未特别列出的整数(例如11等)所示的长度也可适用作下限。如本文所使用的，当全长版本用作标记物或靶分子时，只要片段自身也用作标记物或靶分子，则这样的片段也应理解为在本发明的范围内。

如本文所使用的，“功能等价物”指具有与原始靶实体相同的感兴趣的功能，但具有不同结构的实体。可通过搜索数据库等，发现功能等价物。如本文所使用的，“搜索”指电子地且生物学地利用特定核酸碱基序列，或通过另一方法，寻找具有特定功能和/或性质的另一核酸碱基序列。电子搜索的实例包括，但并不限于，BLAST(Altschul et al.，J.Mol.Biol.215：403-410(1990))、FASTA(Pearson&Lipman，Proc.Natl.Acad.Sci.，USA85：2444-2448(1988))、史密斯和沃特曼法(Smith and Waterman method)(Smith andWaterman，J.Mol.Biol.147：195-197(1981))、内德勒曼和翁施法(Needleman and Wunschmethod)(Needleman and Wunsch，J.Mol.Biol.48：443-453(1970))等。生物学搜索的实例包括，但并不限于，严格杂交、具有施加至尼龙膜等的基因组DNA的宏阵列或具有施加至玻璃板的基因组DNA的微阵列(微阵列测定)、PCR、原位杂交等。在此，本发明中使用的基因用于包括通过这样的电子搜索或生物学搜索鉴定出的对应的基因。

作为本发明的功能等价物，可使用具有一个或多个氨基酸插入、替换或缺失，或在一个末端或两个末端有添加的氨基酸序列。如本文所使用的，氨基酸序列中的“一个或多个氨基酸插入、替换或缺失，或在一个末端或两个末端有添加”指通过诸如定点诱变的公知技术方法，或自然突变，具有可自然发生的程度的多个氨基酸的替换等的改变。分子的经改变的氨基酸序列可具有例如，1～30、优选1～20、更优选1～9、仍然更优选1～5并且特别优选1～2个氨基酸的插入、替换或缺失，或在一个末端或两个末端的添加。在诸如CCL21、CXCR3或CCR7等的氨基酸序列中，经改变的氨基酸序列可以是具有一个或多个(优选1或几个，或者1、2、3或4)保守替换的氨基酸序列。本文中的“保守替换”指一个或多个氨基酸残基经另一化学相似的氨基酸残基替换，以便基本不改变蛋白的功能。保守替换的实例包括：其中疏水残基经另一疏水残基替换的情况，其中极性残基经具有相同电荷等的另一极性残基替换的情况。对于每一种氨基酸，可以这种方式进行替换的功能相似的氨基酸在本领域中是已知的。具体实例包括：对于非极性(疏水)氨基酸，为丙氨酸、缬氨酸、异亮氨酸、亮氨酸、脯氨酸、色氨酸、苯丙氨酸、甲硫氨酸等；对于极性(中性)氨基酸，为甘氨酸、丝氨酸、苏氨酸、酪氨酸、谷氨酰胺、天冬酰胺、半胱氨酸等。带正电荷的(碱性)氨基酸的实例包括精氨酸、组氨酸、赖氨酸等。进一步地，带负电荷的(酸性)氨基酸包括天冬氨酸、谷氨酸等。

如本文所使用的，“受试对象”指接受本发明的诊断、检测等的靶标。

如本文所使用的，“治疗”指对于疾病或失调(例如脑型疟)，在这样的状况的情况中，防止这样的疾病或失调的恶化，优选维持当前状况，更优选减轻并且又更优选使这样的疾病或失调消失，包括能够发挥预防效果或改善与疾病伴随的一种或多种症状的效果。适当的治疗下的初步诊断可指“伴随治疗”和在该“伴随治疗”中用作“伴随诊断试剂”的诊断试剂。

如本文所使用的，“治疗试剂”广泛地指能治疗感兴趣的状况(例如，诸如脑型疟等的疾病)的所有试剂，并且指诸如由本发明提供的抑制剂(例如抗体)。在本发明的一个实施方式中，“治疗试剂”可以是包括有效成分和一种或多种药学上可接受的载剂的药物组合物。可例如通过药学技术领域中已知的任意方法，混合有效成分和上述载剂，来制造药物组合物。进一步地，只要用于治疗，则对治疗试剂的使用形式没有限制。治疗试剂可以仅是有效成分，或有效成分和任意成分的混合物。进一步地，对上述载剂的形式没有特别限制。例如，载剂可以是固体或液体(例如缓冲液)。

如本文所使用的，“预防”指在处于一种状况之前，采取措施以防止疾病或失调(例如脑型疟)处于该状况的作用。例如，可使用本发明的试剂以进行诊断，可选地使用本发明的试剂以预防或采取措施以预防脑型疟等。

如本文所使用的，“预防试剂”广泛地指能预防感兴趣的状况(例如，诸如脑型疟等的疾病)的所有试剂。

本发明提供了一种来源于与肿瘤发生相关的抗原的肽，该肽具有与MHC(HLA)I类分子充分结合以触发人类白细胞、特别是淋巴细胞、特别是T淋巴细胞且特别是CD8阳性的细胞毒性T淋巴的免疫应答的能力，并且本发明提供了特别用于对癌症患者进行免疫的两种肽的组合。

本发明的肽可来源于与肿瘤相关的抗原，特别是来源于例如在蛋白水解、血管生成、细胞生长、细胞周期调节、细胞分裂、转录调节、组织浸润等中具有功能的，与肿瘤相关的抗原。

肽可化学合成，并且可用作药物制造中的有效药物成分。因此，本发明提供的肽可用于免疫治疗中，或优选用于癌症的免疫治疗中。

本发明的药物组合物进一步包括额外的肽和/或赋形剂，以增加效果。下面将对此进行进一步的解释。

本发明的药物组合物可包括在本发明中鉴定出的肽，具有全长8～100个氨基酸、优选8～30个氨基酸且最优选8～16个氨基酸的肽。

此外，上述肽或变体可经进一步地修饰，以改善稳定性和/或与MHC分子的结合，以便诱导更强有力的免疫应答。优化这样的肽的方法对于本领域技术人员来说是公知，包括例如引入非肽键或反向肽键。因此，本发明的另一实施方式提供了一种药物组合物，其中至少一个肽或其变体包括非肽键。

在反向肽键中的氨基酸残基不是通过肽(-CO-NH-)结合的，其中肽键是反向的。可使用本领域技术人员公知的方法，来制得这样的逆-反向肽模拟物。这样的方法的实例包括在Meziere et al(1997)J.Immunol.159，3230-3237中描述的方法，该文献通过引用并入本文中。这种途径包括创建假肽，该假肽包括涉及骨架但不涉及侧链的取向的变化。Meziereet al(1997)示出了这样的假肽在MHC和辅助性T细胞的细胞应答中是有用的。包括NH-CO而不包括CO-NH肽键的逆-反向肽对蛋白水解的抗性强很多。

非肽键例如是-CH₂-NH、-CH₂S-、-CH₂CH₂-、-CH＝CH-、-COCH₂-、-CH(OH)CH₂-或-CH₂SO-。US专利号4,897,445提供了一种多肽链中非肽键(-CH₂-NH)的固相合成的方法，该方法涉及在NaCNBH₃的存在下使氨基醛和氨基酸发生反应来合成非肽键，以及通过标准程序来合成多肽。

可使用在氨基端和/或羧基端的额外的化学基团来合成具有本发明的序列的肽，从而增强例如肽的稳定性、生物利用度和/或亲和性。例如，可以在肽的氨基端添加疏水基团，诸如叔丁氧羰基、丹磺酰基或苄氧羰基。类似地，可将乙酰基或9-芴甲氧羰基放置在肽的氨基端。此外，还可在肽的羧基端添加例如疏水基团，即叔丁氧羰基或氨基。

进一步地，可合成本发明中使用的肽，以改变其空间构形。例如，可使用肽的一个或多个氨基酸残基的D同分异构体，而不是使用常见的L同分异构体。进一步地，可使用公知的非天然氨基酸残基，来替换本发明的肽的至少一个氨基酸残基。这样的改变可用于增加本发明的肽的稳定性、生物利用度和/或结合功能。

类似地，可在本发明中使用的肽的合成前或合成后，通过与特定氨基酸反应，对本发明的肽或变体进行化学修饰。这样的修饰的实例在本领域中是公知的。它的实例总结在R.Lundblad的《蛋白修饰的化学试剂，第三版(Chemical Reagents for ProteinModification，3^rd ed)》(CRC出版社，2005)中，该出版物通过引用并入本文中。氨基酸的化学修饰的实例包括以下修饰，但并不限于：酰化，脒基化，赖氨酸的吡哆酰化，还原烷基化，2，4，6-三硝基苯磺酸氨基对氨基的三硝基苯化，通过过甲酸进行的巯基修饰和羧基的酰胺修饰，半胱氨酸至磺基丙氨酸(cystic acid)的氧化，水银衍生物的生成，与另一硫醇化合物的混合二硫化物的生成，与马来酰亚胺的反应，与碘乙酸或碘乙酰胺的羧甲基化，以及在碱性pH下与氰酸盐的甲氨酰化。对于上述修饰，本领域技术人员可参考《蛋白科学中的当前方案(Current Protocols In Protein Science)》(Coligan et al.编辑，John Wiley&Sons NY 1995-2000)中与蛋白的化学修饰相关的更广泛的方法。例如，蛋白的精氨酸残基的修饰常常是基于相邻的二羰基化合物，诸如1，2-环己二酮、2，3-丁二酮和苯甲酰甲醛的反应，而形成添加物。另一实例是精氨酸残基与甲基乙二醛的反应。可在不同时修饰另一亲核位点(诸如赖氨酸或组氨酸)的情况下，对半胱氨酸进行修饰。由于这个原因，在半胱氨酸修饰中可利用很多试剂。Pierce化学制品公司(Pierce Chemical Company)、西格玛奥德里奇公司(Sigma-Aldrich)和其它网站提供了对具体试剂的信息。

在本发明中使用的蛋白中的二硫键常常进行选择性还原。可形成二硫键，并且在对生物药物进行热处理的过程中进行氧化。可使用伍德沃德试剂K(Woodward′s ReagentK)，对特定的谷氨酸残基进行修饰。可使用N-(3-(二甲氨基)丙基)-N′-乙基碳二亚胺，在赖氨酸残基和谷氨酸残基之间形成分子间交联。例如，焦碳酸二乙酯是用于修饰蛋白中的组氨酸残基的试剂。也可使用4-羟基-2-壬烯醛修饰组氨酸。赖氨酸残基和另一α氨基酸基团之间的反应可用于例如肽和表面之间的结合或者蛋白/肽交联。赖氨酸是聚乙二醇附接在其中的位点，并且是蛋白糖化中的修饰的主要位点。例如，可通过碘乙酰胺、溴乙酰胺或氯胺-T，对蛋白的甲硫氨酸残基进行修饰。四硝基甲烷和N-乙酰咪唑可用于酪氨酰残基的修饰。可使用过氧化氢/铜离子，完成形成二酪氨酸的交联。N-溴代丁二酰亚胺、2-羟基-5-硝基苄基溴和3-溴代-3-甲基-2-(2-硝基苯硫酚)-3H-吲哚(BPNS-甲基吲哚(BPNS-skatole))用于最近与色氨酸修饰相关的研究中。使用PEG对治疗蛋白和肽的适当的修饰常常涉及延长循环半衰期。此外，通过戊二醛、聚乙二醇二丙烯酸酯和甲醛进行的蛋白交联可用于制备水凝胶。常常通过氰酸钾进行的氨甲酰化，来实现对用于免疫治疗的过敏原的化学修饰。

一般来讲，如在Lu et al(1981)J.Org.Chem.46，3433及其参考文件中公开的，例如可使用固相肽合成的Fmoc-聚酰胺形式，合成本发明中使用的肽和变体(至少包括氨基酸残基之间的肽连接的那些肽和变体)。纯化可通过诸如再结晶、排阻色谱、离子交换色谱、疏水作用色谱和(通常)使用例如乙腈/水梯度分离的反相高效液相色谱等的一种或多种技术的组合来进行。可使用薄层色谱、电泳(特别是毛细管电泳)、固相萃取(CSPE)、反相高效液相色谱、酸水解之后的氨基酸分析、快原子轰击(FAB)质谱分析、MALDI和ESI-Q-TOF质谱分析，来分析肽。

在本发明的又一方面中，提供了编码本发明的肽或其变体的核酸(例如多核苷酸)例如，DNA、cDNA、PNA、CNA、RNA、单链和/或双链或天然或稳定形式的多核苷酸，诸如具有硫代磷酸酯骨架的多核苷酸，或它们的组合可以是这样的多核苷酸。只要多核苷酸编码肽，则没有必要含有内含子。天然地，多核苷酸仅编码肽，该肽包括通过天然存在的肽键结合的天然存在的氨基酸残基。在本发明的又一实施方式中，提供了能表达本发明的多肽的表达载体。不同细胞类型的表达载体在本领域中是公知的，并且可以在没有任何特殊实验的情况下进行选择。

一般来讲，以正确取向且具有表达的正确的阅读框，将DNA插入诸如质粒的表达载体中。如果需要，可使DNA与适当的转录/翻译调节/管理的核酸序列连接，其中适当的转录/翻译调节/管理的核酸序列被期望的宿主识别出来。但是，这样的管理功能通常在表达载体中。然后，通过标准技术将载体引入到宿主中。对此，可参考Sambrook et al(1989)的《分子克隆实验手册(Molecular Cloning，A Laboratory Manual)》(冷泉港实验室，冷泉港，NY)。

在不进行任何特殊实验的情况下，本领域技术人员就可确定在疫苗中含最佳剂量和最佳量的核肽的方案。例如，可将肽或其突变体形式制备成静脉内(i.v.)注射剂、皮下(s.c.)注射剂、真皮内(i.d.)注射剂、腹膜内(i.p.)注射剂或肌肉内(i.m.)注射剂。肽注射剂的优选给药途径是s.c.、i.d.、i.p.、i.m.和i.v.。DNA注射剂的优选给药途径是i.d.、i.m.、s.c.、i.p.和i.v.。例如，可给药1～500mg、50μg～1.5mg、优选125μg～500μg的肽或DNA。该剂量依赖于各肽或DNA。在此范围内的剂量已经成功用于临床试验中(Brunsvig PF，Aamdal S，Gjertsen MK，Kvalheim G，Markowski-Grimsrud CJ，Sve I，Dyrhaug M，Trachsel S，Muller M，Eriksen JA，Gaudernack G；Telomerase peptide vaccination：aphase I/II study in patients with non-small cell lung cancer；CancerImmunolImmunother.2006；55(12)：1553-1564；M.Staehler，A.Stenzl，P.Y.Dietrich，T.Eisen，A.Haferkamp，J.Beck，A.Mayer，S.Walter，H.Singh，J.Frisch，C.G.Stief；Anopen label study to evaluate the safety and immunogenicity of the peptidebased cancer vaccine IMA901，ASCO meeting 2007；Abstract No 3017)。

在制备组合物中，可针对组织、癌症和/或患者，对本发明药物组合物中的肽的数目和/或量进行选择。例如，可根据给定患者的组织的肽的表达模式获得肽的正确选择，从而避免副作用。该选择可依赖于对接受治疗的患者特定的疾病的癌症类型和状况，取决于该点的治疗方案，患者的免疫状态，以及患者的天然的HLA单体型。进一步地，根据本发明的疫苗可依赖于特定患者的个体需要，而包括个体化的组成要素。它的实例包括对特定患者的，相关TAA的表达，由于个体的过敏或其他治疗而出现的个人副作用，以及在进行了一系列初级治疗方案之后，按照对二次治疗的调整而使用不同量的肽。

在正常组织中高表达的亲本蛋白的肽是要避免的，或低量存在于本发明组合物中。同时，当已知患者的肿瘤高表达特定蛋白，则用于治疗癌症的各药物组合物可大量存在，和/或包括针对特定蛋白或途径的多种肽。本领域技术人员可通过测试体外T细胞形成及其有效性、总体递呈，对特定肽的特定T细胞的增殖、亲和、扩增、T细胞的功能性，例如分析IFN-γ，来选择免疫原性肽的优选组合(另外参见下面的实施例)。通常，最有效的肽随后组合成用于上述目标的疫苗。

适当的疫苗优选含有1～20种肽，更优选2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20种肽，仍然更优选6、7、8、9、10、11、12、13或14种不同的肽，并且最优选14种不同的肽。用作癌症疫苗的肽的长度可以是任意适当的肽。具体地，该长度可以是适当的9-mer肽，或适当的7-mer或8-mer或10-mer或11-mer肽，或12-mer、13-mer、14-mer或15-mer肽。在一些情况中，较长的肽也是适用的。如在所附表1和表2中所述，9-mer或10-mer对于MHC I类肽是优选的，并且12-mer至15-mer对于MHC II类肽是优选的。

本发明的肽构成肿瘤或癌症的疫苗。可将肿瘤或癌症的疫苗直接给药予患病的器官或者全身性对患者给药，用体外施用于人类细胞株或来自患者的细胞的疫苗对患者给药，或在体外使用以从患者的免疫细胞中选择出亚群并且再次给药至该患者。

上述肽可以是基本纯的，与免疫刺激佐剂(参见下文)组合，与免疫刺激细胞因子组合使用，或与适当的递送系统(例如脂质体)共给药。上述肽也可缀合有适当的载剂，诸如戚血蓝素(KLH)或甘露聚糖(参见WO 95/18145和Longenecker et al(1993)Ann.NYAcad.Sci.690，276-291)。上述肽也可带有标签，或者形成融合蛋白或杂种分子。在本发明中给出序列的肽被预期刺激CD4CTL或CD8CTL。但是，辅助相反CD的阳性T细胞，使刺激的效率增加更多。因此，对于刺激CD4CTL的MHC II类表位，杂种分子或其融合伴侣的一部分适当地提供刺激CD8阳性T细胞的表位。同时，对于刺激CD8CTL的MHC I类表位，杂种分子或其融合伴侣的一部分适当地提供刺激CD4阳性T细胞的表位。CD4和CD8刺激表位在本领域中是公知的，包括在本发明中具体描述的那些。

为了诱出免疫应答，通常需要包括用于增强组合物的免疫原性的赋形剂。因此，本发明的优选实施方式的药物组合物进一步具有至少一种适当的佐剂。因为在本发明中使用的佐剂是非特异性增强或促进针对抗原的免疫应答(例如由CTL和辅助性T(TH)细胞介导的免疫应答)的物质，佐剂应理解为对本发明的试剂是有用的。适当的佐剂是，但并不限于：1018ISS、铝盐、Amplivac、AS15、BCG、CP-870、893、CpG7909、CyaA、dSLIM、GM-CSF、IC30、IC31、咪喹莫特(imiquimod)、ImuFact IMP321、IS贴剂(IS Patch)、ISS、ISCOMATRIX、JuvImmune、LipoVac、MF59、单磷酰脂A、Montanide IMS 1312、Montanide ISA 206、Montanide ISA 50V、Montanide ISA-51、OK-432、OM-174、OM-197-MP-EC、ONTAK、PepTel(R)载体系统、PLG微粒、雷西莫特(resiquimod)、SRL172、病毒颗粒和其它病毒样颗粒、YF-17D、VEGF陷阱(VEGF trap)、R848、β葡聚糖、Pam3Cys、亚奎拉的QS21Stimulon(Aquila′SQS21Stimulon)(Aquila Biotech，伍斯特，MA，USA)(来源于皂素的物质)，分枝杆菌提取物和合成的细菌细胞壁模拟物和其它专用佐剂(Ribi的Detox，Quil，Superfos等)。诸如弗氏不完全佐剂或GM-CSF的佐剂是优选的。已经描述了特定用于树突细胞几种免疫原性佐剂(例如MF59)及其制剂(Dupuis M，Murphy TJ，Higgins D，Ugozzoli M，van Nest G，Ott G，McDonald DM；Dendriticcells internalize vaccine adjuvant after intramuscularinjection；Cell Immunol.1998；186(1)：18-27；Allison AC；The mode of action ofimmunological adjuvants；Dev Biol Stand.1998；92：3-11)。进一步地，还可使用细胞因子。一些细胞因子与对树突细胞迁移至淋巴组织(例如TNF-α)的效果直接相关，以加速树突细胞成熟为针对T淋巴细胞有效抗原递呈细胞的过程(例如GM-CSF、IL-1、IL-4)(US专利号5,849,589(其通过引用整体并入本文中))，或以用作免疫佐剂(例如IL-12)(GabrilovichDI，Cunningham HT，Carbone DP；IL-12and mutant P53peptide-pulsed dendritic cellsfor the specific immunotherapy of cancer；J Immunother Emphasis TumorImmunol.1996(6)：414-418)。

报道了CpG免疫刺激寡核苷酸也增强佐剂在疫苗设置中的效果。尽管不希望受到任何理论的束缚，但是CpG寡核苷酸具有经由toll样受体(TLR)(主要是TLR9)活化固有(非适应性)免疫系统的作用。由CpG触发的TLR9活性增强针对多种抗原的体液和细胞抗原特异性应答，其中多种抗原包括肽或蛋白抗原、活的或被杀死的病毒、树突细胞疫苗、自体细胞疫苗，以及在预防性疫苗和治疗性疫苗中的多糖缀合物。更重要的是，这增加树突细胞的成熟和分化，并且在没有CD4T细胞的辅助下，增加细胞毒性T淋巴细胞(CTL)的生成和TH1细胞的活性。即使在通常促进TH2偏向的疫苗佐剂(诸如矾或弗氏不完全佐剂IFA)的存在下，也能维持由TLR9刺激诱导的TH1偏向。CpG寡核苷酸与另一佐剂共配制或共给药，或者形成微粒、纳米颗粒、脂肪乳剂或类似的制剂，以显示出较高的佐剂活性。对于在相对弱抗原的情况中诱导强烈的应答的情况，特别需要CpG寡核苷酸。它们也加速免疫应答。在一些实验中，使用降低了约两个数量级的抗原剂量，获得了与没有CpG的全剂量疫苗相当的抗体应答(Arthur M.Krieg，Therapeutic potential of Toll-like receptor 9activation，NatureReviews，Drug Discovery，2006，5，471-484)。US专利号6,406,705 B1记载了，通过CpG寡核苷酸、非核酸佐剂和抗原的组合，诱发抗原特异性免疫应答。也可使用其它TLR结合分子，诸如RNA结合TLR7、TLR8和/或TLR9。

在本发明中其它有用的佐剂的实例包括，但并不限于：可用作治疗剂和/或佐剂的，化学修饰的CpGs(例如CpR、Idera)、聚(I：C)(例如聚I(polyI)：C12U)、非CpG的细菌DNA或RNA、咪唑喹啉(imidazoquinoline)、环磷酰胺、舒尼替尼(sunitinib)、安维汀(bevacizumab)、西乐葆(Celebrex)、NCX-4016、西地那非(sildenafil)、他达那非(tadalafil)、伐地那非(vardenafil)、索拉非尼(sorafenib)、XL-999、CP-547632、帕唑帕尼(pazopanib)、ZD2171、AZD2171、易普利姆玛(ipilimumab)、特姆利姆玛(tremelimumab)和SC58175。在本发明的上下文中，在不进行任何特殊实验的情况下，本领域技术人员就能容易地确定有用的佐剂和添加剂的量和浓度。优选的佐剂是dSLIM、BCG、OK432、咪喹莫特(imiquimod)、PeviTer和JuvImmune。在本发明的药物组合物的优选实施方式中，佐剂选自包括集落刺激因子，诸如粒细胞巨噬细胞集落刺激因子(GM-CSF、沙格司亭(sargramostim))的组中。在本发明的药物组合物的优选实施方式中，佐剂是咪喹莫特(imiquimod)。

本发明的组合物用于诸如皮下给药、真皮内给药或肌肉内给药等肠胃外给药，或者口服给药。由于这个原因，肽和其他选择性分子溶解或悬浮在药学上可接受的载剂，优选水溶性载剂中。此外，上述组合物可包括赋形剂，诸如缓冲液、结合剂、爆炸剂、稀释剂、增味剂或润滑剂。进一步地，上述肽可与诸如细胞因子的免疫刺激物质共给药。可在这样的组合物中使用的赋形剂的广泛列表可获自例如A.Kibbe的《药物赋形剂手册第三版(Handbookof Pharmaceutical Excipients，3.Ed.)》(2000，美国药物协会和药物出版社(AmericanPharmaceutical Association and pharmaceutical press))。上述组合物可用于肿瘤或癌症，优选用于CRC预防和/或治疗方法中。

细胞毒性T细胞(CTL)识别与MHC分子结合的肽形抗原，但不识别初始的外源性抗原自身。MHC分子自身是在抗原递呈细胞的细胞表面上。因此，仅可能在肽抗原的三聚体复合体、APC和MHC分子的存在下发生CTL的活化。因此，仅使用肽不会活化CTL。通过进一步添加APC与各MHC分子，增加免疫应答。因此，在优选的实施方式中，本发明的药物组合物额外包括至少一种抗原递呈细胞。

抗原递呈细胞(或刺激细胞)通常在其表面上具有MHC I类或II分子。在一个实施方式中，具有选择的抗原的MHC I类或II分子基本不加载到自身上。如下面详细讨论的，其选择的抗原在体外可以容易地加载到MHC I类或II分子上。

一般来讲，本发明的包括本发明核酸的药物组合物可通过与包括本发明肽的药物组合物相同的方法进行给药，即通过静脉内给药、动脉内给药、腹膜内给药、肌内给药、真皮内给药、瘤内给药、口服给药、经皮给药、经鼻腔给药、经口腔给药、直肠给药或经阴道给药、吸入给药或局部给药。

肿瘤常常通过逃避机制而获得对治疗剂的耐受性。耐药性在治疗过程中出现，并且在一些情况中，表现为转移瘤或复发瘤。为了避免这样的耐药性，一般通过药物组合来进行肿瘤治疗。在很多情况中，对于在无病间隔期之后的转移和肿瘤再生需要不同的组合。因此，在本发明的一个实施方式中，上述药物组合物与第二抗癌试剂一起给药。在本发明中使用的第二试剂可在本发明的药物组合物之前、之后给药，或与本发明的药物组合物同时给药。例如，如果化学制品的性质是相适的，则可通过混合第二抗癌试剂与本发明的药物组合物，进行同时给药。同时给药的另一方法是例如，注射本发明的药物组合物，并且口服给药第二抗癌试剂，以通过独立的给药途径在同一天进行组合物和抗癌试剂的给药。上述药物组合物和第二抗癌试剂还可通过分离的疗程进行给药，和/或通过在不同日子的相同疗程进行给药。

在本发明的另一方面中，提供了一种治疗或预防患者中的癌症的方法。该方法具有以下步骤：将治疗有效量的本发明的药物组合物中的任一种对患者给药。治疗有效量是足以诱发免疫应答，特别是活化CTL的亚群的量。通过使用本说明书实施例中提供的标准免疫方法，本领域技术人员能够容易地确定有效量。监控特定量的本发明的药物组合物的效果的另一方法是，观察经治疗的肿瘤的生长和复发。

在本发明的特别优选的实施方式中，上述药物组合物用作抗癌疫苗。

包括本发明的肽或编码该肽的核酸的组合物可构成肿瘤或癌症疫苗。该肿瘤或癌症疫苗可直接对患病的器官给药或者对患者系统地给药，用体外施用于人类细胞株或来自患者的细胞的疫苗对该患者给药，或者在体外使用以从患者的免疫细胞中选择出亚群并且再次对该患者给药。

本发明的组合物可用作疫苗或用作治疗癌症的方法。该癌症是口腔咽癌、胃肠癌、结肠癌、直肠癌、肛门癌、呼吸道癌、乳腺癌、子宫颈癌、阴道癌、外阴癌、子宫内膜癌、卵巢癌、男性生殖道癌、尿道癌、骨和软组织癌、卡波济氏肉瘤(Kaposi’s sarcoma)、皮肤黑色素瘤、眼黑色素瘤、非黑色素瘤眼癌、脑癌、中枢神经系统癌、甲状腺和内分泌腺体的其它癌症、霍奇金淋巴瘤、非霍奇金淋巴瘤或骨髓瘤，优选肾癌，结肠直肠癌，肺癌，乳腺癌，胰腺癌，前列腺癌，胃癌，脑癌，GIST或胶质母细胞瘤。根据本发明，肽的优选量可为在500μl溶液中约0.1～100mg，优选约0.1～1mg且最优选约300μg～800μg之间变动。在这一方面，除非特别指出，否则术语“约”指给定值的+/-10％。基于几种因素，诸如个体患者的免疫状态和/或以特定类型的癌症出现的TUMAP的量，本领域技术人员能调节要使用的肽的实际量。可以除了冻融肽之外的其他适当形式(灭菌溶液等)，来提供本发明的肽。

将具有根据本发明的肽和/或核酸的本发明的药物组合物对患腺瘤的患者或者患与每一对应肽或抗原相关的癌性疾病的患者给药。通过本发明的药物组合物，触发由T细胞介导的免疫应答。优选地，表达载体的量在本发明的药物组合物中，在本发明的药物组合物的肽(特别是与肿瘤相关的肽)或核酸中，或者本发明的组合物，对于组织、癌症和/或患者是特异性的。

在本发明的另一实施方式中，本发明的疫苗是核酸疫苗。通过接种核酸疫苗，诸如编码多肽的DNA疫苗诱发T细胞应答是公知的。可将肿瘤或癌症疫苗直接给药至患病的器官或系统给药予患者，用体外施用于人类细胞株或来自患者的细胞的疫苗对该患者给药，或在体外使用以从患者的免疫细胞中选择出亚群并且再次对该患者给药。当将核酸体外给药到细胞中时，在一些情况中可用于引入细胞，以便共表达诸如白介素2或GM-CSF的免疫刺激细胞因子。该核酸基本上是纯的，与免疫刺激佐剂组合，与免疫刺激细胞因子组合使用，或与适当的递送系统(例如脂质体)共给药。该核酸疫苗可与上述肽疫苗中所述的佐剂一起给药。优选地，在没有佐剂的情况下，给药核酸疫苗。

在一些情况中，本发明的多核苷酸基本上是纯的，或者被包含在适当的载体或递送系统中。适当的载体和递送系统包括病毒，诸如腺病毒、牛痘病毒、逆转录病毒、疱疹病毒、腺相关病毒，或多种基于含病毒元件的混合系统。非病毒的递送系统包括在DNA递送技术领域中公知的阳离子脂质和阳离子聚合物。也可使用物理递送，诸如“基因枪”。在一些情况中，肽或由核酸编码的肽是融合蛋白，诸如具有来自破伤风类毒素的表位的融合蛋白，其中来自破伤风类毒素的表位刺激CD4阳性T细胞。

适当地，对患者给药的所有肽都是经过灭菌的，并且不含生脓物质。裸DNA可通过肌肉内注射、真皮内注射或皮下注射进行给药。便利地，核酸疫苗可具有任意的核酸递送工具。优选地，核酸(其是DNA)可在脂质体中进行递送，或者作为病毒载体递送系统的一部分进行递送。

诸如DNA疫苗的核酸疫苗被给药到肌肉中是优选的。肽疫苗优选被s.c.或i.d.给药。疫苗的真皮内给药也是优选的。

编码的多肽的表达和核酸被诸如树突细胞的专职抗原递呈细胞摄取，可能是引发(priming)免疫应答的机制。尽管存在树突细胞没有被转染的可能性，但是由于表达肽能够被引入组织的细胞摄取，因此这仍是重要的(“交叉引发”。实例：Thomas AM，SantarsieroLM，Lutz ER，Armstrong TD，Chen YC，Huang LQ，Laheru DA，Goggins M，Hruban RH，JaffeeEM.Mesothelin-specific CD8(+)T cell responses provide evidence of in vivocross-priming by antigen-presenting cells in vaccinated pancreatic cancerpatients.J Exp Med.2004Aug 2；200(3)：297-306)。

在Conry et al(1996)Seminars in Oncology 23，135-147；Condon et al(1996)Nature Medicine 2，1122-1127；Gong et al(1997)Nature Medicine 3，558-561；Zhai etal(1996)J.Immunol.156，700-710；Graham et al(1996)Int J.Cancer 65，664-670；和Burchell et al(1996)309-313In：Breast Cancer，Advances in biology andtherapeutics，Calvo et al(eds)，John Libbey Eurotext中，描述了由多核苷酸介导的癌症免疫治疗的方法，这些文献通过引用整体并入本文中。

在本发明中可能有用的是，将肽或核酸离体给药，并且通过从患者中选择性纯化特定的细胞群或使用递送系统、打靶载体和注射位点，使本发明的疫苗靶向特定的细胞群，诸如抗原递呈细胞(例如，如在Zhou et al(1995)Blood 86，3295-3301；Roth et al(1996)Scand.J.Immunology 43，646-651中所述，可对树突细胞进行分选)。例如，打靶载体可具有组织或肿瘤特异性启动子，用于在适当的位置定向表达抗原。

本发明的疫苗可依赖于癌症类型，以及接受治疗的患者的特定的疾病状况，取决于这一点的治疗方案，患者的免疫状态和患者的天然的HLA单体型。进一步地，根据本发明的疫苗可依赖于特定患者的个体需要，而包括个体化的组成要素。它的实例包括对特定患者的，相关TAA的表达，由于过敏或其他治疗而出现的个人副作用，以及在进行了一系列初级治疗方案之后，按照对二次治疗的调整而使用不同量的肽。

本发明的肽不仅可用于癌症治疗，而且还能用于诊断。从胶质母细胞瘤中生成肽，并且鉴定这些肽在正常组织中是不存在的。因此，这些肽可用于诊断癌症的存在。

病理医师可利用在组织活检中存在本发明的肽，以辅助癌症诊断。通过质谱分析，或使用抗体或本领域公知的其他方法检测本发明的特定肽，病理医师可知道组织是否是恶性的、炎性的或主要受到影响。本发明的一组肽的存在能够对患病组织进行分类或亚分类。

特别当已知或预期T淋巴细胞与作用机制相关时，在患病组织样品中检测本发明多肽能够决定与免疫系统相关的治疗方法的益处。MHC表达的丧失是被很好理解的机制，通过这一机制，恶性细胞逃避了免疫监视。因此，存在本发明的肽表明所分析的细胞不利用该机制。

本发明的肽可用于分析淋巴细胞对本发明的肽的应答。例如，可以分析对本发明的肽或本发明的肽与MHC分子的复合体的抗体应答或T细胞应答。这些淋巴细胞应答可用作诊断标记物，以确定进一步的治疗步骤。这些应答还可在通过不同方式，诸如蛋白、核酸、内源性物质或淋巴细胞免疫转移接种，尝试诱发淋巴细胞应答的免疫治疗途径中，用作替代标记物。在基因治疗的设置下，在评价副作用中可考虑对本发明的肽的淋巴细胞应答。监控淋巴细胞应答可用于移植治疗之后的跟踪测试中，诸如检测移植物抗宿主和宿主抗移植物疾病。

本发明的肽可用于对MHC/肽复合体特异性的抗体的生成和生长。它们可用于治疗方法中，以施加毒素或放射性物质，同时靶向患病组织。作为使用这样的抗体的另一方法，可施加抗体，同时将放射性核素靶向患病组织，用于诸如PET的成像方法中。这样的使用方法可辅助检测小的转移灶，或确定患病组织的准确位置和大小。此外，上述肽可用于基于活检样品，来验证病理医师进行的癌症诊断。

本发明可被提供为试剂盒。如本文所使用的，“试剂盒(kit)”指一种单元，该单元通常将要提供的多个部分(例如测试试剂、诊断试剂、治疗试剂、抗体、标记、说明书等)提供在两个或更多个分开的隔间中。当要提供的组合物不应以混合状态提供并且为了安全等优选在使用之前才混合时，优选是这种形式的试剂盒。这样的试剂盒有利地包括记载如何使用多个部分(例如测试试剂、诊断试剂或治疗试剂)或如何处理试剂的操作指南或说明书。当试剂盒在本文中用作试剂试剂盒时，该试剂盒通常包括记载如何使用测试试剂、诊断试剂、治疗试剂、抗体等的操作指南。

以这样的方式，在本发明的又一方面中，本发明涉及一种试剂盒，其中该试剂盒具有：(a)包括溶液形式或冻干形式的本发明的药物组合物的容器；(b)可选择地，包括用于冻干制剂的稀释剂或重构溶液的第二容器；和(c)可选择地，涉及(i)溶液的使用或(ii)冻干制剂的重构和/或使用的说明书。该试剂盒进一步具有(iii)缓冲液、(iv)稀释剂、(v)过滤器、(vi)针或(v)注射器中的一种或多种。上述容器优选是瓶子、小药瓶(vial)、注射器或试管或多用途容器。药物组合物优选是冻干的。

本发明的试剂盒优选具有涉及在适当容器中的本发明的冻干制剂的重构和/或使用的说明书。适当容器的实例包括瓶子、小瓶(例如双腔小药瓶)、注射器(双腔注射器等)和试管。该容器可形成于多种材料，诸如玻璃或塑料。优选地，试剂盒和/或容器包括在容器上或伴随容器的说明书，该说明书示出重构和/或使用的方法。例如，标记可说明冻干制剂被重构为上述的肽浓度。标记可进一步说明该制剂用于皮下注射或对于皮下注射是有用的。

制剂的容器可以是多用途小药瓶，可在重复(例如2至6次给药)给药中使用。上述试剂盒可进一步具有第二容器，该第二容器具有适当的稀释剂(例如碳酸氢钠)。

通过混合稀释剂和冻干制剂制得的重构制剂的最终肽浓度优选为至少0.15mg/mL/肽(＝75μg)并且优选为3mg/mL/肽(＝1500μg)或更少。上述试剂盒可进一步包括对于商业目的或对于使用者所期望的其它材料(包括其它缓冲液、稀释剂、过滤器、针、注射器和包装说明书)。

本发明的试剂盒可具有单一容器，包括本发明的药物组合物的制剂，其中含有或不含有其它组成要素(例如其它化合物或其它化合物的药物组合物)。或者，该试剂盒可具有对于每一组成要素的独立的容器。

优选地，本发明的试剂盒包括本发明的制剂被包装用作与第二化合物(佐剂(例如GM-CSF)、化学治疗剂、天然产物、激素或拮抗剂、抗血管生成剂或血管生成抑制剂、凋亡诱导剂、螯合剂等)或其药物组合物组合给药的组合。该试剂盒的组成要素可以是预先制得的复合体，或者在对患者给药以前，每一组成要素被放置于独立的容器中。可将该试剂盒的组成要素提供为一种或多种液体溶液，优选为水性溶液，并且更优选地为经灭菌的水性溶液。还可将该试剂盒的组成要素提供为固体，该固体优选可通过添加适当的溶剂而转化成液体，其中适当的溶剂提供在另一独立容器中。

治疗试剂盒的容器可以是小药瓶、试管、细颈瓶、瓶子、注射器，或用于密封固体或液体的任意其它工具。当存在多种组成要素时，上述试剂盒通常包括第二小药瓶或另一容器，以便组成要素可分别进行给药。上述试剂盒还可包括用于药学上可接受的液体的另一容器。优选地，治疗试剂盒包括能够对本发明的试剂进行给药的器械(例如针、注射器、滴注器、移液器等)，所述器械是试剂盒的组成要素。

本发明的药物组合物适用于通过任何可接受的途径，诸如口服(肠道)途径、经鼻腔途径、经眼途径、皮下途径、真皮内途径、肌内途径、静脉内途径或经皮途径，对肽进行给药。上述给药优选是皮下给药，最优选是真皮内给药。可使用灌流泵进行给药。

如本文所使用的，“操作指南”是为医师或其它使用者说明本发明的使用方法的文件。操作指南记载了本发明的检测方法、诊断试剂的使用方法，或指示药剂给药等的语句。进一步地，操作指南可记载指示口服给药或给药至作为给药位点的食道(例如通过注射等)的语句。按照实施本发明的国家机构(例如日本的健康劳动服务委员会(厚生労働省)和美国的食品和药物管理局(FDA)等)所限定的格式，来制备操作指南，其中有得到机构批准的描述。操作指南是所谓的包装说明书，并且通常(但并不限于)以纸张的形式提供。操作指南还可以诸如电子媒体(例如提供在因特网或电子邮件上的网址)的形式提供。

(通用技术)

本文所使用的分子生物学技术、生物化学技术和微生物技术是本领域中公知且常规的技术，描述在例如Sambrook et al.(1989).《分子克隆，实验指南(MolecularCloning，A Laboratory》(冷泉港)及其第三版(2001)、Ausubel，F.M.(1987).《当前分子生物学技术(Current Protocols in Molecular Biology)》(Greene Pub.Associates andWiley-Interscience)、Ausubel，F.M.(1989)《分子生物学简明实验指导：来自当前分子生物学技术的方法概要(Short Protocols in Molecular Biology：A Compendium ofMethods from Current Protocols in Molecular Biology)》(Greene Pub.Associatesand Wiley-Interscience)、Innis，M.A.(1990).《PCR方案：方法和应用指南(PCRProtocols：A Guide to Methods and Applications)》(Academic Press)、Ausubel，F.M.(1992).《分子生物学简明实验指导：来自当前分子生物学技术的方法概要(ShortProtocols in Molecular Biology：A Compendium of Methods from Current Protocolsin Molecular Biology)》(Greene Pub.Associates)、Ausubel，F.M.(1995).《分子生物学简明实验指导：来自当前分子生物学技术的方法概要(Short Protocols in MolecularBiology：A Compendium of Methods from Current Protocols in Molecular Biology)》(Greene Pub.Associates)、Innis，M.A.et al.(1995).《PCR策略(PCR Strategies)》(Academic Press)、Ausubel，F.M.(1999).《分子生物学简明实验指导：来自当前分子生物学技术的方法概要(Short Protocols in Molecular Biology：A Compendium of Methodsfrom Current Protocols in Molecular Biology)》(Wiley，和年度更新)、Sninsky，J.J.et al.(1999).《PCR应用：功能基因组的实验指导(PCR Applications：Protocols forFunctional Genomics)》(Academic Press)、Gait，M.J.(1985).《寡核苷酸合成：实践途径(Oligonucleotide Synthesis：A Practical Approach)》(IRL Press)、Gait，M.J.(1990).《寡核苷酸合成：实践途径(Oligonucleotide Synthesis：A Practical Approach)》(IRLPress)、Eckstein，F.(1991).《寡核苷酸和类似物：实践途径(Oligonucleotides andAnalogues：A Practical Approach)》(IRL Press)、Adams，R.L.et al.(1992).《核酸的生物化学(The Biochemistry of the Nucleic Acids)》(Chapman&Hall)、Shabarova，Z.etal.(1994).《核酸的先进有机化学(Advanced Organic Chemistry of Nucleic Acids)》(Weinheim)、Blackburn，G.M.et al.(1996).《化学和生物中的核酸(Nucleic Acids inChemistry and Biology)》(Oxford University Press)、Hermanson，G.T.(I996).《生物缀合物技术(Bioconjugate Techniques)》(Academic Press)、《补充实验医学杂志，基因转移和表达分析实验方法》(羊土社，1997)等中，它们的相关部分(可以是整个文件)通过引用并入本文中。

参考文献，诸如本文引用的科学文献、专利和专利申请通过引用并入本文中，如同具体记载了每一文件的全部内容。

如上所述，已经对本发明进行了描述，同时示出了辅助理解的优选实施方式。下面将基于实施例对本发明进行描述。上述描述和下面的实施例不限制本发明，而仅是对本发明进行例示。因此，本发明的范围不受到本文所具体记载的实施方式和实施例的限制，而仅受到所附权利要求的范围的限制。

实施例

(制备无偏向扩增样品的实施例)

(制备例1：对健康个体的外周血中的BCR库分析)本实施例对健康个体的外周血进行了BCR库分析。

(材料和方法)

样品：健康个体的外周血的单个核细胞

方法：

(1、RNA提取)

将来自健康个体的5mL全血收集在含肝素的采血管中。通过聚蔗糖密度梯度离心分离外周血单个核细胞(PBMC)。使用RNeasy脂质组织迷你试剂盒(RNeasy Lipid TissueMini Kit)(QIAGEN，德国)，从分离的5×10⁶个PBMC中提取/纯化总RNA。使用吸收光谱仪，通过测量A260的吸光度对得到的RNA进行定量。30μL洗出液中的浓度是232ng/μL。

(2、互补DNA和双链互补DNA的合成)

使用提取的RNA样品，进行接头连接PCR。首先，为了合成互补DNA，混合BSL-18E引物(表1-1)和3.5μL(812ng)RNA，并且在70℃退火8分钟。在冰上冷却之后，在RNase抑制剂(RNAsin)的存在下，进行逆转录反应，以使用以下组合物合成互补DNA。

[表1-1A]

随后，在16℃，互补DNA在大肠杆菌(E.coli)DNA聚合酶I、E.coli DNA连接酶和核糖核酸酶(RNase)H的存在下，在下面的双链DNA合成缓冲液中孵育2小时，以合成双链互补DNA。进一步地，T4DNA聚合酶在16℃反应5分钟，以进行5’末端平端化反应。

[表1-1B]

在通过高纯度PCR清洗微小试剂盒(High Pure PCR Cleanup Micro Kit)(Roche)进行柱纯化之后，在P20EA/10EA接头(表1-1)和T4连接酶的存在下，在16℃，双链DNA在下面的用于连接反应的T4连接酶缓冲液中孵育过夜。

[表1-1]

[表1-1C]

使用下面的组合物，通过NotI限制性内切酶(50U/μL，Takara)，消化经上述柱子纯化的添加接头的双链DNA，以去除添加至3’末端的接头。

[表1-1D]

(3、PCR)

对于从双链互补DNA的第一PCR扩增(1^st PCR)，通过下面的反应组合物，使用通用接头引物P20EA和每一种免疫球蛋白同种型C区特异性引物(CM1、CA1、CG1、CD1和CE1)进行20个循环，其中每一循环由：95℃30秒、55℃ 30秒和72℃ 1分钟组成。所使用的引物序列示于表1-1中。

[表1-1E]

然后，使用在下面示出的反应组合物，使用第一PCR扩增反应的产物1^st PCR扩增子，在P20EA引物和每一种免疫球蛋白同种型C区特异性引物之间，进行巢式PCR。进行20个PCR循环，其中每一个循环由95℃ 30秒、55℃ 30秒和72℃ 1分钟组成。所使用的引物序列示于表1-1中。

[表1-1F]

使用High Pure PCR Cleanup Micro试剂盒(Roche)进行柱纯化，以从2^nd PCR扩增子中去除引物，其中2^nd PCR扩增子是第二PCR扩增反应获得的产物。随后，使用添加有接头B序列的B-P20EA引物，和添加有接头A序列和鉴定序列MID标签序列的各免疫球蛋白的C区特异性引物GS-PCR引物，使用2^nd PCR扩增子作为模板，通过下面的反应组合物进行PCR。进行10个PCR循环，其中每一循环由95℃ 30秒、55℃ 30秒和72℃ 1分钟组成。所使用的引物序列示于表1-1中。

[表1-1G]

(4、下一代测序)

在最佳条件下进行GS-PCR扩增之后，进行2％琼脂糖凝胶电泳。当可视化时，切出感兴趣大小(500bp～700bp)的条带，并且使用DNA纯化试剂盒(QLAEX II凝胶提取试剂盒(QIAEX II Gel Extraction Kit)，QIAGEN)进行纯化。使用Quant-iT^TM dsDNA测定试剂盒(Invitrogen)，测量收集的DNA的量。在来源于各同种型的扩增子中收集的DNA的量是IgM(1611ng/mL)、IgG(955ng/mL)、IgA(796ng/mL)、IgD(258ng/mL)和IgE(871ng/mL)。混合这些DNA，以便同种型扩增子的DNA的量是相等的。在乳滴PCR中使用1000万DNA，用于使用罗氏(Roche)下一代序列分析仪(GS初级台式(GS Junior Bench Top)系统)进行序列分析。

(5、数据分析)

使用从IMGT(国际ImMunoGeneTics信息系统，http://www.imgt.org)数据库中获得的V、D、J和C序列作为参照序列，对解读遗传密码序列进行分析以分配各解读遗传密码序列的V、D、J和C序列。使用IMGT的HighV-Quest和新开发的库分析软件(RepertoireGenesis，参见同时递交的专利申请，其内容通过引用并入本文中)，进行分配。

图1示出了同种型特异性引物的交叉反应性。为了评价所使用的免疫球蛋白同种型特异性引物的特异性，使用感兴趣的免疫球蛋白同种型特异性引物，以及另一同种型特异性引物进行扩增，以验证交叉反应性的存在。使用10μL GS-PCR扩增子进行在TAE缓冲液中的2％琼脂糖电泳，然后通过溴化乙锭染色进行评价。使用各同种型特异性引物扩增的2^ndPCR扩增子不会被另一同种型特异性GS-PCR引物扩增，从而验证了引物具有高水平的特异性。

图2示出了研究最佳稀释浓度的结果。研究了各同种型的GS-PCR最佳条件。创建了2^nd PCR扩增子的2倍系列稀释系统，以进行20个GS-PCR循环。16倍稀释获得了优异的结果。

图3示出了研究最佳循环次数的结果。使用16倍稀释的2^nd PCR扩增子进行10、15和20个PCR循环。对于IgM、IgG、IgA和IgD，证明10个循环具有优异的扩增。进一步地，证明了20个循环对IgE是合适的。

图4示出了来自下一代测序解读遗传密码的长度。图4示出了来自对BCR基因的下一代测序的解读遗传密码的长度。原始数据(Raw data)中的解读遗传密码的数目是130,000，并且获得了通过了滤波器的(Filter pass)超过90,000的解读遗传密码。表1-2示出了来自标记有标签的各同种型的解读遗传密码的数目。

[表1-2]

图5是示出了各MID的解读遗传密码。使各MID划分的解读遗传密码的长度和解读遗传密码的数目均匀分布。当在设置足以分析V区的解读遗传密码的长度为400bp或更大的同时，进行计数时，认为一半的解读遗传密码，约10000个解读遗传密码对于BCR库分析是有效的。

图6示出了各同种型的C区序列的使用频率。在获得的各同种型的解读遗传密码上，搜索与免疫球蛋白同种型(包括亚类)的C区序列的同源性。各亚类的解读遗传密码的数目频率：在IgA亚类中，对于IgA1是73％，对于IgA2是27％；在IgG亚类中，对于IgG1是62％，对于IgG2是36％；同时，在IgG亚类中，几乎没有获得IgG3或IgG4的任何解读遗传密码。进一步地，因为各亚类所获得的解读遗传密码很少被分类成其他类，因此在序列水平上再次证实了引物特异性。

IMGT的HighV-Quest用于分配V区、D区和J区(图6A、图7A、图8A和图9A)。进一步地，在表1-1H中示出了使用新开发的库分析软件(Repertoire Genesis，专利申请中)分配V区、D区和J区的结果。解读遗传密码的数目的数据用于发现V区和J区的频率(图6B、图7B、图8B和图9B)。下面示出了其数据(表1-1H)。

[表1-H1]

[表1-1H2]

IgD

[表1-1H3]

IgE

[表1-1H4]

IgG

[表1-1H5]

IgM

[表1-1H6]

IGHA1

[表1-1H7]

IGHA2

[表1-1H8]

IGHG1

[表1-1H9]

IGHG2

图7(A～D)示出了各同种型的V区库。示出了各同种型的V区序列的库(BCR V库)。BCR V库在IgM、IgG、IgA和IgD中非常类似，但仅IgE获得了具有IGHV3-30的解读遗传密码。其原因可能是相对于其它类别，外周血中存在数目少很多的IgE阳性细胞，从而检测到了偏向的库。

图8(A～D)示出了各亚型的V区库。示出了各IgA和IgG亚类的BCR V库。IgA亚类的几种V链在IgA1和IgA2之间具有不同的频率。IgA1中的IGHV1-18和IGHV4-39的存在频率高于IgA2中的IGHV1-18和IGHV4-39的存在频率，而IgA2中的IGHV3-23和IGHV3-74的存在频率高于IgA1中的IGHV3-23和IGHV3-74的存在频率。对于IgG亚类，IgG2中的IGHV3-23和IGHV3-74的频率高于IgG1中的IGHV3-23和IGHV3-74的频率，其中发现IGHV3-23和IGHV3-74的频率在IgA2中增加。存在很少的IgG3和IgG4的解读遗传密码(10个解读遗传密码)。在IgG3中，具有IGHV4-59-1GHJ4-IGHD1-7的克隆的频率是3/10，因此具有高克隆性。对于IgG4，具有IGHV3-23-IGHJ4-IGHD3-10的解读遗传密码占5/10(表1-3)。

[表1-3]

表1-3BCR解读遗传密码的CDR3氨基酸序列

IgG3

IgG4

图9示出了各亚类的BCRJ库。在IgM、IgG、IgA和IgD中的约一半解读遗传密码中使用IGHJ4，而几乎不使用IGHJ2。在IgE中仅使用IGHJ1。还研究了IgM和IgA亚类中的IGHJ库。与IGHV库不同，在亚类中没有观察到显著性差异。

上述结果证明了使用本发明的样品提供方法，可以进行无偏向的定量分析。

(制备例2：在健康个体的外周血中的TCR库分析)

本实施例对健康个体的外周血进行了TCR库分析。

(材料和方法)

(样品)

10位健康个体的外周血的单个核细胞

(方法)

(1、RNA提取)

将来自10位健康个体的5mL全血收集在含肝素的采血管中。通过聚蔗糖密度梯度离心分离外周血单个核细胞(PBMC)。使用RNeasy脂质组织迷你试剂盒(RNeasy LipidTissue Mini Kit)(QIAGEN，德国)，从分离的PBMC中提取/纯化总RNA。使用Agilent 2100生物分析仪(Agilent)，对得到的RNA进行定量。获取的RNA的量示于下面的表1-4中。

[表1-4]

(2、互补DNA和双链互补DNA的合成)

使用提取的RNA样品，进行接头连接PCR。该方法按照在制备例1中示出的方法进行。具体地，混合BSL-18E引物(表1-5)和RNA，并且进行退火，然后使用逆转录酶合成互补链DNA。随后合成双链DNA。进一步地，使用T4DNA聚合酶进行5’末端平端化反应。在通过高纯度PCR清洗微小试剂盒(High Pure PCR Cleanup Micro Kit)(Roche)进行柱子纯化之后，向连接反应中添加P20EA/P10EA接头。通过NotI限制性内切酶，消化经柱子纯化的添加接头的双链互补DNA。

[表1-5]

(3、PCR)

对于来自双链互补DNA的第一PCR扩增反应产物，使用在表1-1中示出的通用接头引物P20EA以及TCRα链或β链的C区特异性引物(CA1或CB1)，进行1^st PCR扩增。使用下面的反应组合物，进行20个PCR循环，每一循环由95℃ 30秒、55℃ 30秒和72℃ 1分钟组成。

[表1-2A]

然后，使用1^st PCR扩增子，通过使用下面示出的反应组合物，使用P20EA引物以及TCRα链或β链的C区特异性引物(CA2或CB2)进行2^nd PCR。进行20个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表1-2B]

使用High Pure PCR Cleanup Micro试剂盒(Roche)从2^nd PCR扩增子中去除引物，其中2^nd PCR扩增子是第二PCR扩增反应获得的产物。进一步地，使用稀释10倍的2^nd PCR扩增子作为模板，使用Roche下一代序列分析仪(GS Junior Bench Top系统)进行分析。如图10所示，扩增利用了B-P20EA引物，以及HuVaF-01-HuVaF10(α链)和HuVbF-01-HuVbF-10(β链)，其中B-P20EA引物是添加了接头B序列的P20EA接头引物，HuVaF-01-HuVaF10(α链)和HuVbF-01-HuVbF-10(β链)是添加了接头A序列和各MID标签序列(MID-1～26)的TCRα链或β链的C区特异性引物。所使用的引物序列示于表1-6中。进行10个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。为了验证PCR扩增，通过2％琼脂糖凝胶电泳扩增10μL扩增子(图11)。

[表1-6]

[表1-2C]

PCR扩增子通过图11所示的琼脂糖凝胶电泳之后，在进行可视化时，切出包括约600bp扩增子的条带，并且使用DNA纯化试剂盒(QLAEX II Gel Extraction Kit，Qiagen)进行纯化。使用Quant-iT^TM dsDNA测定试剂盒(Invitrogen)，测量来自收集的PCR扩增子的DNA的量。从10位健康个体中每一位收集的DNA的量示于表1-7中。

[表1-7]

(4、下一代测序)

通过Roche的GS Junior测序仪，进行下一代测序。具体地，按照制造商的方案，使用GS初级钛emPCR(GS Junior Titanium emPCR)试剂盒(Lib-L)，以珠子：DNA(每一珠子的拷贝：cpb)为0.5的比率进行emPCR。在emPCR之后，按照制造商的方案，通过使用序列运行试剂、GS Junior Titanium测序试剂盒和PicoTiterPlate试剂盒，对通过珠子富集所收集的珠子进行序列运行。

(5、数据分析)

将得到的序列数据(SFF文件)分成针对各MID标签的解读遗传密码序列，以通过GSJunior的软件(sfffile或sffinfo)创建Fasta格式的序列文件。所得到的解读遗传密码的平均数目是TRA：17840解读遗传密码，TRB：5122解读遗传密码，并且200bp以上的原始数据的百分比是TRA：34.9～63.7％(平均值42.2％)且TRB：68.8～78.7％(平均值73.1％)(表1-8)。然后，使用在IMGT(国际ImMunoGeneTics信息系统，www.imgt.org)数据中的参考序列，通过新开发的库分析软件(Repertoire Genesis，专利在审中)进行比较分析，以分配各解读遗传密码的V区、D区和J区，并且决定CDR3序列。表1-8中示出了分配的解读遗传密码的数目。进一步地，对相同的解读遗传密码的频率进行分析，并且研究了V链、D链和J链的使用频率。图13(A～D)、图14(A～D)、图15(A～D)和图16示出了使用Repertoire Genesis获得的解读遗传密码所生成的TRV库和TRJ库。

[表1-8]

图10示出了TCR基因的扩增方法。使用B-P20EA引物和添加有A接头和MID标签序列(MID-1～26)的3^rd巢式引物进行扩增，其中B-P20EA引物是添加有B接头的P20EA接头引物

图11示出了检验GS-PCR扩增子的结果。使用琼脂糖凝胶，对来源于10位健康个体的10μL GS-PCR扩增子进行电泳。顶行示出GS-PCR(TRA)(TCRα链扩增子)，并且底行示出GS-PCR(TRB)(TCRβ链扩增子)。

图12示出了TCR/BCR库分析软件(Repertoire genesis)的参数设置。

图13示出了健康个体中的TRAV库。示出了10位健康个体的TRAV库及其平均值。TRAV9-2、12和13的存在频率高。#1中的TRAV20和#5中的TRAV21高于其他健康个体，显示出个体间的差异。

图14示出了健康个体中的TRBV库。示出了10位健康个体的TRBV库及其平均值。TRBV20-1、28和29-1的存在频率高。#8中的TRBV3-1高于其他健康个体，显示出个体间的差异。

图15示出了健康个体中的TRAJ库。示出了10位健康个体的TRAJ库及其平均值。在任意AJ家族中，健康个体的TRAJ库示出约5％或更小。#1中的TRAJ12、#4中的TRAJ27、#5中的TRAJ37和#8中的TRAJ45高于其他健康个体，显示出个体间的差异。

图16示出了健康个体中的TRBJ库。示出了10位健康个体的TRBJ库及其平均值。在健康个体的TRBJ库中，TRBJ2-1、2-3和2-7的存在频率高，且#8中的TRBJ2-2高，显示出个体间的差异。

因此，证明了使用本发明的制备方法制备的样品，可以在TCR中进行无偏向的定量分析。

(制备例3：通过无偏向的接头连接PCR扩增TCR和BCR基因)

在本实施例中，通过无偏向的接头连接PCR扩增TCR和BCR基因。

(材料和方法)

(样品)

健康个体的外周血单个核细胞

(方法)

(1、RNA提取)

将来自1位健康个体的5mL全血收集在含肝素的采血管中。通过聚蔗糖密度梯度离心分离外周血单个核细胞(PBMC)。使用RNeasy脂质组织迷你试剂盒(RNeasy Lipid TissueMini Kit)(QIAGEN，德国)，从分离的5×10⁶PBMC中提取/纯化总RNA。

(2、互补DNA和双链互补DNA的合成)

使用提取的RNA样品，进行接头连接PCR。首先，为了合成互补DNA，混合BSL-18E引物(表1-1)和3.5μL(812ng)RNA，并且在70℃退火8分钟。在冰上冷却之后，在RNase抑制剂(RNAsin)的存在下进行逆转录反应，以使用下面的组合物合成互补DNA。

[表1-3A]

随后，在16℃，互补DNA在E.coli DNA聚合酶I、E.coli DNA连接酶和RNase H的存在下，在下面的双链DNA合成缓冲液中孵育2小时，以合成双链互补DNA。进一步地，T4DNA聚合酶在16℃反应5分钟，以进行5’末端平端化反应。

[表1-3B]

[表1-3C]

使用下面的组合物，通过NotI限制性内切酶(50U/μL，Takara)，消化经上述柱纯化的添加接头的双链DNA，以去除添加至3’末端的接头。

[表1-3D]

使用通用接头引物P20EA和TCRC区特异性引物(CA1、CB1、CG1、CD1)，或者免疫球蛋白同种型C区特异性引物(CM1、CA1、CG1、CD1、CE1、CK1、CL1)，进行双链互补DNA的1^st PCR。将引物设置在C区的3’末端侧、中部或5’侧，以便可扩增包括C区全长的序列。使用下面的反应组合物进行20个循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。所使用的引物序列示于表1-1中。

[表1-3E]

然后，使用第一PCR扩增反应的产物1^st PCR扩增子，使用在下面示出的反应组合物，在P20EA引物和每一种免疫球蛋白同种型C区特异性引物之间，进行巢式PCR。进行20个PCR循环，其中每一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。所使用的引物序列示于表1-1中。

[表1-3F]

作为通过第二PCR扩增反应合成的每一2^nd PCR扩增子的2％琼脂糖凝胶电泳结果，当可视化时，观察感兴趣大小的扩增子(图17)。

[表1-9]

图18～25示出了相对于模板的引物位置。这些图示出了很多区域范围适于作为本发明的感兴趣的PCR引物。也应理解，可基于本发明的原理，适当确定特异性序列。

(制备例4：使用人类急性淋巴细胞性白血病细胞株检测肿瘤细胞)使用本实施例中的人类急性淋巴细胞性白血病细胞株检测肿瘤细胞。

(材料和方法)

(样品)

健康个体的外周血单个核细胞，MOLT-4人类急性淋巴细胞性白血病细胞株

(方法)

(1、T细胞类白血病细胞株的培养)

使用人类急性淋巴细胞性白血病细胞株Molt-4作为表达T细胞受体(TCR)的T细胞类细胞株。在37℃ 5％CO₂的条件下，将细胞培养在含10％胎牛血清、100IU/ml青霉素、100μg/ml链霉素和2mM L-谷氨酰胺的RPMI-1640培养基中。总共收集1×10⁷个细胞。细胞经RPMI-1640培养基洗涤，并且以1×10⁶细胞/mL的浓度悬浮细胞。

(2、健康个体的外周血单个核细胞的分离)

将来自1位健康个体的5mL全血收集在含肝素的采血管中。通过聚蔗糖密度梯度离心分离外周血单个核细胞(PBMC)。细胞经洗涤、计数，并且以1×10⁶细胞/mL的浓度悬浮在RPMI1640培养基中。

(3、制备系列稀释的细胞)

混合得到的1×10⁶细胞/mL的PBMC和1×10⁶细胞/mL的Molt-4细胞，以使用以下数目的细胞制备Molt-4系列稀释的细胞悬浮液。

[表1-4A]

	PBMC	Molt-4
			100％	0	1x 10⁶
10％	9x 10⁵	1x 10⁵
			1％	9.9x 10⁵	1x 10⁴
0.1％	9.99x 10⁵	1x 10³
			0.01％	9.999x 10⁵	1x 10²

(4、RNA提取和RNA量的测量)

使用RNeasy脂质组织迷你试剂盒(RNeasy Lipid Tissue Mini Kit)(QIAGEN，德国)，系列稀释的细胞悬浮液中提取/纯化总RNA。将RNA洗脱在20μL洗脱液中。使用Agilent2100生物分析仪(Agilent)，通过A260的吸光度量化RNA的量。图26示出了RNA电泳的图像。从各样品获得的RNA的量示于表1-4B中。

[表1-4B]

表1-4B从各样品获得的RNA的量

样品	浓度(ng/μL)	比率(A260/A280)	RNA的总量(μg)
				100％	122	2.0	1.22
10％	130	1.9	1.3
				1％	82	1.7	0.82
0.1％	62	0.8	0.62
				0.01％	30	0.8	0.3

(5、互补DNA和双链互补DNA的合成)

使用提取的RNA样品，进行接头PCR。首先，为了合成互补DNA，混合BSL-18E引物和3.5μL RNA，并且在70℃退火8分钟。在冰上冷却之后，在RNase抑制剂(RNAsin)的存在下，进行逆转录反应，以使用以下组合物合成互补DNA。

[表1-4C]

[表1-4D]

在通过高纯度PCR清洗微小试剂盒(High Pure PCR Cleanup Micro Kit)(Roche)进行柱子纯化之后，在P20EA/10EA接头(表1-4E)和T4连接酶的存在下，在16℃，双链DNA在下面的用于连接反应的T4连接酶缓冲液中孵育过夜。

[表1-4E]

[表1-4F]

(6、PCR)

使用表1-1中示出的通用接头引物P20EA，以及TCRα链或β链C区特异性引物(CB1)，从双链互补DNA进行1^st PCR扩增。使用下面示出的组合物进行20个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表1-4G]

然后，通过使用P20EA引物和各免疫球蛋白同种型C区特异性引物，使用下面示出的反应组合物，使用1^st PCR扩增子进行巢式PCR。进行20个PCR循环，其中一个循环是95℃30秒、55℃ 30秒和72℃ 1分钟。

[表1-4H]

使用高纯度PCR清洗微小试剂盒(High Pure PCR Cleanup Micro Kit)(Roche)，从获得的2^nd PCR扩增子中去除引物。进一步地，使用稀释10倍的2^nd PCR扩增子作为模板，使用Roche下一代序列分析仪(GS Junior Bench Top系统)进行分析。扩增利用B-P20EA引物和HuVbF引物，其中B-P20EA引物是添加了接头B序列的P20EA接头引物，HuVbF引物是添加了接头A序列和各MID标签序列的TCRβ链的C区特异性引物。进行10个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表1-4I]

(7、下一代测序)

通过Roche的GS Junior测序仪，进行下一代测序。具体地，按照制造商的方案，使用GS Junior Titanium emPCR试剂盒(Lib-L)，以珠子：DNA(每一珠子的拷贝：cpb)为2的比率进行emPCR。在emPCR之后，按照制造商的方案，使用序列运行试剂、GS Junior Titanium测序试剂盒和PicoTiterPlate试剂盒，对通过珠子富集所收集的珠子进行序列运行。

(8、数据分析)

将得到的序列数据(SFF文件)分成针对各MID标签的解读遗传密码序列，以通过GSJunior的软件(sfffile或sffinfo)创建Fasta格式的序列文件。所得到的有效解读遗传密码的数目是11651。使用IMGT数据库中的参考序列，通过库分析软件(Repertoire Genesis)进行比较分析，以分配各解读遗传密码的BV区和BJ区，并且确定CDR3的序列。在Molt-4细胞中，观察到具有功能序列的符合阅读框的TCR解读遗传密码(解读遗传密码1)和导致移码突变的TCR解读遗传密码(解读遗传密码2)(表1-4J)。检测到每一种都具有约相同的频率，并且估计是来源于Molt-4细胞的TCR基因。已经报道了在Molt-4细胞中的两个TCR基因座中存在基因重排(参考文件：Tunnacliffe A，Kefford R，Milstein C，Forster A，RabbittsTH.Sequence and evolution of the human T-cell antigen receptor beta-chaingenes.Proc Natl Acad Sci U S A.1985Aug；82(15)：5068-72.)。功能性TCR基因(解读遗传密码1)的序列与已经报道的序列(参考文件2：Assaf C，Hummel M，Dippel E，Goerdt S，Muller HH，Anagnostopoulos I，Orfanos CE，Stein H.High detection rate of T-cellreceptor beta chain rearrangements in T-cell lymphoproliferations by familyspecific polymerase chain reaction in combination with the GeneScan techniqueand DNA sequencing.Blood.2000Jul 15；96(2)：640-6.，GenBank登记号：M12886.1)相匹配。

[表1-4J]

表1-4J来源于Molt-4的TCR基因的CDR3氨基酸序列

为了找出下一代TCR库分析方法对Molt-4细胞的检测极限，在从系列稀释的样品获取的TCR解读遗传密码中，搜索并且比较分析来源于Molt-4细胞的两个TCR解读遗传密码(图27(A～D))。结果，按照系列稀释样品中的细胞数目，检测解读遗传密码1和解读遗传密码2。证明了，对于解读遗传密码1，61个解读遗传密码(3.1％)存在于0.1％样品中，并且对于解读遗传密码2，1个解读遗传密码(0.01％)存在于0.01％样品中(表1-4K)。在0.01％样品中没有检测到功能性TCR解读遗传密码1，而检测到预测缺乏功能性的解读遗传遗传密码2。这表明，通过搜索来源于1个T细胞的多个TCR基因，升高了肿瘤细胞检测的确定性。结果示出，本方法可以高敏感度来检测肿瘤细胞。

[表1-4K]

表1-4K检测敏感度

样品	解读遗传遗传密码1	解读遗传遗传密码2
			100％	+	+
10％	+	+
			1％	+	+
0.1％	+	-
			0.01％	-	+

+：检测到 -：未检测到

(结果)

图26示出了通过Agilent 2100生物分析仪获得的RNA电泳图像。从系列稀释的细胞溶液中提取总RNA，并且使用Agilent生物分析仪测量RNA的量。使用微芯片电泳设备分离RNA，以检查RNA的质量。在每一样品中都检测到28S rRNA(顶部条带)和18S rRNA(底部条带)，证明获得了还未降解的RNA。

图27(A～D)示出了系列稀释的Molt-4细胞样品中的TCR解读遗传密码(SEQ IDNO：1165～SEQ ID NO：1324)。描绘了分别从10％，1％，0.1％和0.01％系列稀释的Molt-4样品中获取的TCR解读遗传密码。解读遗传密码按照较大数目的解读遗传密码的顺序进行排名，并且示出了前40位。对于0.01％样品，示出了排名第365～404位。示出了各解读遗传密码的TRBV，TRBJ和CDR3的氨基酸序列，以及解读遗传密码的数目。以灰色背景粗体，示出了来源于Molt-4的功能性TCR解读遗传密码(TRBV20-1/TRBJ2-1/CSARESTSDPKNEQFFG(SEQ IDNO：1166))。以粗体示出了估计具有功能缺陷的其它TCR解读遗传密码(TRBV10-3/TRBJ2-5/CAISEPTGIRRDPVLR(SEQ ID NO：1165))。

图28示出了系列稀释的Molt-4细胞样品中的TCR解读遗传密码的检测敏感度和数目。从Molt-4细胞中检测到两个TCR解读遗传密码(▲：TRBV20-1/TRBJ2-1/CSARESTSDPKNEQFFG(SEQ ID NO：1166)，○：TRBV10-3/TRBJ2-5/CAISEPTGIRRDPVLR(SEQ IDNO：1165))。该图示出，在分别从10％，1％，0.1％和0.01％系列稀释的Molt-4样品中获取的TCR解读遗传密码中，检测到的来源于Molt-4的TCR解读遗传密码的百分比。各解读遗传密码的检测极限是0.1％(▲)和0.01％(○)。

(分析试验例)

(分析试验例1对健康个体的BCR库分析)

本实施例对比了健康个体的BCR库。

(材料和方法)

(材料)

使用解读遗传密码组，该解读遗传密码组来自于使用Roche GS-Junior，对从健康个体外周血单个核细胞的一个样本获得的RNA，无偏向地获得的BCR的cDNA进行测序。该解读遗传密码组属于IgM、IgG、IgA、IgD和IgE的每一类。

(方法)

图30示出了该方法的整体图(图29示出了TCR的分析计划)。

从IMGT获得之前报道的等位基因核酸序列，用作参考数据库。使用BLASTN进行同源性搜索，同时为各区域设置以下参数。

V 错配处罚＝-1，最短比对长度＝30，以及最短核心长度＝15；

D 字长＝7，错配处罚＝-1，空位处罚＝0，最短比对长度＝11，以及最短核心长度＝8；

J 错配处罚＝-1，最短命中长度＝18，以及最短核心长度＝10；以及

C 最短命中长度＝30以及最短核心长度＝15。

用于选择最接近的参照等位基因的标示应用于下面的优先级顺序中。

1、匹配碱基的数目，2、核心长度，3、评分，和4、比对长度，然后，对于每一类，计算每一区的基因名称的出现频率并且彼此进行对比。进一步地，IgG和IgA具有亚类。因此，也在亚类之间进行对比。

(结果)

图31示出了推导出IgM、IgG、IgA、IgD和IgE的每一解读遗传密码组的C基因名称的出现频率的结果。仅出现对应于每一类的基因名称，而几乎没有观察到任何无命中，这表明要进行分析的解读遗传密码具有足够的质量。

在表2-3和表2-4中，示出了计算每一类的D库的结果。表2-3和表2-4示出了在多类中进行的D库的对比。记载了对于每一基因名称和CDR3氨基酸序列的所出现的解读遗传密码的数目。忽略解读遗传密码数目为1的基因名称和氨基酸序列。进一步地，图32(A和B)示出了V库，图33示出了J库。图34(A和B)示出了在亚类中间进行的V库的对比。图35示出了在亚类中间进行的J库的对比。对于D，导出针对D基因名称和CDR3氨基酸序列的组合的频率。

(表2-3)在多种类中间进行的D库的对比，垂直轴：频率(％)，水平轴：基因名称。

[表2-3]

IgD

IgE

IgG

IgM

(表2-4)在多种类中的D库的对比，垂直轴：频率(％)，水平轴：基因名称

[表2-4]

IGHA1

IGHA2

IGHG1

IGHG2

上面的结果示出，本发明的分析技术可在几分钟内进行计算并且实现快速分析。

(分析试验例2样本之间的BCR库的对比)

本实施例在样本之间对比BCR库。

(材料和方法)

(材料)

通过与分析例1相同的技术获得5个样本的解读遗传密码组，4个样本(编号1～4)是健康个体，一个样本(编号5)是白血病患者。

(方法)

通过与分析例1相同的方法，导出各样品的每一类和每一区的库，并且在样本之间进行对比。

(结果)

作为结果的实例，图36(A和B)示出了对比IgM中的V库的结果，图37示出了对比J库的结果。证明，仅编号5的样本是显著不同的。

(分析试验例3：健康个体的TCR库的对比)

本实施例对比了健康个体的TCR库

(材料和方法)

(材料)

通过与实施例1相同的技术获得10个样本的解读遗传密码组，10个样本(编号1～10)都是健康个体。

(方法)

通过与实施例1相同的方法，导出各样品的每一类和每一区的库，并且在样本之间进行对比。

(结果)

结果示于图38～41中。图38(A～D)示出了在样本之间对比TRAV库的结果。图39(A～D)示出了在样本之间对比TRBV库的结果。图40(A～D)示出了在样本之间对比TRAJ库的结果。图41示出了在样本之间对比TRBJ库的结果。

每一结果都能在约几分钟内得到。

本分析方法可实现对C区的分析，而商业化应用的High-V-QUEST没有提供这种分析。本系统的优点包括，可搜索每一区的“基因名称单元”或“等位基因单元”。尽管不希望受到任何理论的束缚，但这是因为使用商业化应用的High-V-QUEST不能实现这样的选择。High-V-QUEST方法(目前的)问题在于对D区的分类不足，而可以认为本系统解决了这一问题。具体地，High-V-QUEST中，D区的数据库内容不足，因此与DB记录不相似的D区序列将全部被清扫到“无命中”之下。相比之下，本系统的系统可利用CDR3序列，而不是D基因名称/等位基因，作为分类项目。因此，可进行目前可能的分类。可在对序列数目没有任何限制的情况下，使用本系统。尽管不希望受到任何理论的限制，但这是由于进一步深入测序以搜索罕见克隆的考虑，当进行时，可进行分析而没有任何变化。取而代之的是，引入限制同时处理的分析作业的数目的特征(当充满时，自动稍后处理)，即作业队列样式管理功能，以防止损耗计算机资源。从而克服了最大序列数目受限的High-V-QUEST的缺点。

(分析系统的实施例)

(分析系统的实施例1：在T细胞大颗粒淋巴细胞白血病(T-LGL)中的诊断应用)

本发明进行了实验，以证明本发明的系统在诊断T细胞大颗粒淋巴细胞白血病(T-LGL)中的应用。

样品：来源于T细胞大颗粒淋巴细胞白血病的外周血单个核细胞

方法

(RNA提取)

将来自一位患T细胞大颗粒淋巴细胞白血病的患者的7mL全血收集在含肝素的采血管中。通过聚蔗糖密度梯度离心分离外周血单个核细胞(PBMC)。使用RNeasy脂质组织迷你试剂盒(RNeasy Lipid Tissue Mini Kit)(QIAGEN，德国)，从分离的1.66×10⁷个PBMC中提取/纯化总RNA。使用吸收光谱仪，通过测量A260的吸光度对得到的RNA进行定量。总RNA的量是15μg。

(互补DNA和双链互补DNA的合成)

使用提取的RNA样品，进行接头连接PCR。首先，为了合成互补DNA，混合BSL-18E引物(表3-1A)和3.5μL RNA，并且在70℃退火8分钟。在冰上冷却之后，在RNase抑制剂(RNAsin)的存在下，进行逆转录反应，以使用以下组合物合成互补DNA。

[表3-1A]

随后，在16℃，互补DNA在大肠杆菌(E.coli)DNA聚合酶I、E.coli DNA连接酶和RNase H的存在下，在下面的双链DNA合成缓冲液中孵育2小时，以合成双链互补DNA。进一步地，T4DNA聚合酶在16℃反应5分钟，以进行5’末端平端化反应。

[表3-1B1]

[表3-1B2]

在通过高纯度PCR清洗微小试剂盒(High Pure PCR Cleanup Micro Kit)(Roche)进行柱纯化之后，在P20EA/10EA接头(表3-1A)和T4连接酶的存在下，在16℃，双链DNA在下面的用于连接反应的T4连接酶缓冲液中孵育过夜。

[表3-1C]

使用下面的组合物，通过NotI限制性内切酶(50U/μL，Takara)，消化经上述类似的柱纯化的添加接头的双链DNA，以去除添加至3’末端的接头。

[表3-1D1]

[表3-1D2]

3、PCR

使用通用接头引物P20EA和TCRα链或β链的C区特异性引物(CA1或CB1)，从双链互补DNA进行1^st PCR扩增。使用下面的组合物，进行20个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表3-1E]

[表3-1F1]

[表3-1F2]

使用High Pure PCR Cleanup Micro试剂盒(Roche)从获得的2^nd PCR扩增子中去除引物。进一步地，使用稀释10倍的2^nd PCR扩增子作为模板，使用Roche下一代序列分析仪(GS Junior Bench Top系统)进行分析。扩增利用了B-P20EA引物，以及HuVaF-01-HuVaF10(α链)和HuVbF-01-HuVbF-10(β链)，其中B-P20EA引物是添加了接头B序列的P20EA接头引物，HuVaF-01-HuVaF10(α链)和HuVbF-01-HuVbF-10(β链)是添加了接头A序列和各MID标签序列(MID-1～26)的TCRα链或β链的C区特异性引物。进行10个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表3-1G]

在琼脂糖凝胶电泳中，在进行可视化时，切出包括约600bp扩增子的条带，并且使用DNA纯化试剂盒(QIAEX II Gel Extraction Kit，Qiagen)进行纯化。使用Quant-T^TM dsDNA测定试剂盒(Invitrogen)，测量来自收集的PCR扩增子的DNA的量。

4、下一代测序

5、数据分析

将得到的序列数据(SFF文件)分成针对各MID标签的解读遗传密码序列，以通过GSJunior的软件(sfffile或sffinfo)创建Fasta格式的序列文件。对于解读遗传密码序列分析，使用从IMGT(国际ImMunoGeneTics信息系统，www.imgt.org)数据库获得的V、D、J和C序列作为参考序列，分配各解读遗传密码序列的V、D、J和C序列。使用新开发的软件(Repertoire Genesis)进行分配。获得22,833个解读遗传密码，并且为TCRα分配了16,407个解读遗传密码(71.9％)。唯一的解读遗传密码的数目是1705个解读遗传密码。获得121,080个解读遗传密码，并且为TCRβ分配了81,542个解读遗传密码(67.3％)。唯一的解读遗传密码的数目是9,224。使用具有相同的TRAV基因、TRAJ基因和CDR3序列的解读遗传密码作为唯一的解读遗传密码，研究获得的解读遗传密码的频率(表3-1)。类似地，研究具有相同的TRBV基因、TRBJ基因和CDR3序列的解读遗传密码的频率(表3-2)。作为结果，1971个解读遗传密码(12.53％)构成具有TRA库的TRAV10、TRAJ15和CVVRATGTALIFG(SEQ ID NO：1450)的解读遗传密码，这表明表达特定TCR的细胞克隆性增加的可能性。进一步地，22568个解读遗传密码(28.57％)构成了TRB库中的具有TRBV29-1、TRBJ2-7和CSVERGGSLGEQYFG(SEQ IDNO：1500)的解读遗传密码。这些结果表明，在表达TCR分子的T细胞中单克隆增加的可能性，其中TCR分子由具有TRAV10和TRAJ15的TCRα和具有TRBV29-1和TRBJ2-7的TCRβ组成。在10位健康个体和LGL患者中，对比了多种多样性指数(表3-3)。指示多样性的香农-维纳(Shannon-Wiener)指数(H’)、辛普森(Simpson)指数(λ)、逆辛普森(Inverse Simpson)指数(1/λ)和皮卢(Pielou)指数(J′)显示出比健康个体低的值，证明了多样性降低。

6、诊断中的运用

预期在施加治疗之后，诸如在LGL患者中施加药物治疗之后，可使用具有TRAV10/TRAJ15/CVVRATGTALIFG(SEQ ID NO：1450)或TRBV29-1/TRBJ2-7/CSVERGGSLGEQYFG(SEQ IDNO：1500)的序列解读遗传密码作为标示，来检测较小的残留病灶。进一步地，应理解可使用解读遗传密码频率进行定量分析，来测量对白血病细胞的治疗效果。进一步表明了以下可能性：通过使用多种多样性指数，能够预期存在克隆性增加的疾病。

(表3-1)TRA解读遗传密码(前50名)(SEQ ID NOs：1450-1499)

[表3-1-1]

[表3-1-2]

表3-2TRB解读遗传密码(前50名)

[表3-2-1]

[表3-2-2]

[表3-2-3]

表3-3多样性指数

[表3-3]

H′：香农-维纳(Shannon-Wiener)多样性指数、λ：辛普森(Simpson)多样性指数、1/λ：逆辛普森(Inverse Simpson)多样性指数、J：皮卢(Pielou)均匀度指数

图44示出了在TCRα和TCRβ链的库分析中，唯一的解读遗传密码的数目的分布。使用在水平轴中的拷贝数目，检验所有序列解读遗传密码的唯一解读遗传密码(与其它解读遗传密码没有共性的碱基序列)的分布。仅检测到一次(单一)的解读遗传密码，对于TCRα是全部解读遗传密码的73.3％(1250个解读遗传密码)，对于TCRβ链是70.5％(6502个解读遗传密码)。

图45示出了TRAV库和TRAJ库。示出了TRAV和TRAJ的每一种在所有解读遗传密码中的使用频率。水平轴指示TRAV基因(上图)和TRAJ基因(下图)。垂直轴指示占所有解读遗传密码的百分比(％使用)。

图46示出了TRA库的3D图。在三维图中示出了TRAV和TRAJ的每一组合在所有解读遗传密码中的使用频率。水平轴指示TRAJ基因，深度轴指示TRAV基因，垂直轴指示使用频率(％使用)。TRAV10和TRAJ15的组合显示出最高的使用频率(12.53％)。图47示出了TRBV库和TRBJ库。示出了TRBV和TRBJ的每一种在所有解读遗传密码中的使用频率。水平轴指示TRBV基因(上图)和TRBJ基因(下图)。垂直轴指示占所有解读遗传密码的百分比(％使用)。

图48示出了TRB库的3D图。在三维图中示出了TRBV和TRBJ的每一组合在所有解读遗传密码中的使用频率。水平轴指示TRBV基因，深度轴指示TRBJ基因，并且垂直轴指示使用频率(％使用)。TRBV29-1和TRBJ2-7的组合显示出最高的使用频率(28.57％)。

(分析系统的实施例2：对浸润HLA-A2402结直肠癌患者的大肠组织的T细胞的分析)本实施例使用本发明的分析系统，分析了浸润HLA-A2402结直肠癌患者的大肠组织的T细胞。

(材料和方法)

样品：通过外科手术提取的结直肠癌患者的肿瘤组织，健康个体的外周血

方法

(结直肠癌组织的收集和储存)

通过肿瘤提取手术，在60位大肠癌患者中收集了肿瘤组织。从提取器官的癌症病灶中，收集对应于黄豆大小的100mg组织。将组织切成边长5mm的方块，并且立即浸没到RNA稳定试剂(Ambion)中。在4℃储存过夜之后，去除然后将组织储存在-80℃。

(健康个体的外周血的分离)

使用健康个体的外周血细胞作为对照。将来自10位健康个体的5mL全血收集在含肝素的采血管中。通过聚蔗糖密度梯度离心分离外周血单个核细胞(PBMC)。使用RNeasy脂质组织迷你试剂盒(RNeasy Lipid Tissue Mini Kit)(QIAGEN，德国)，从分离的5×10⁶个PBMC中提取/纯化总RNA。使用吸收光谱仪，通过测量A260的吸光度对得到的RNA进行定量(表3-3A)。

表3-3A健康个体的外周血细胞中的总RNA的量

[表3-3A1]

样品编号	洗脱量(μL)	RNA浓度(ng/μL)
			1	30	1682
2	30	274
			3	30	1007
4	30	560
			5	30	988
6	30	1327

[表3-3A2]

7	30	667
			8	30	258
9	30	597
			10	30	624

(HLA单体型的检验)

进行HLA-A分型，以鉴定癌症组织中的HLA和HLA单体型的表达。去除在RNA中浸没的一部分癌症组织，并且使用QIAampDNA迷你试剂盒(Qiagen，德国)提取基因组DNA。然后，使用WAKFlow HLA分型试剂HLA-A(Wakunaga)对DNA进行扩增和标记，并且使用Luminex(Luminex Corp.)进行分析。结果发现，在60个样本的25个样本中，同源或异源表达HLA-A2402基因(表3-4)。

表3-4表达HLA-A2402的结直肠癌症组织的列表

[表3-4-1]

[表3-4-2]

(RNA提取和RNA量的测量)

为了分析表达HLA-A2402基因的25个样本中的TCR库，取出浸没在中的一部分组织，并且使用RNeasy脂质组织迷你试剂盒(RNeasy Lipid Tissue Mini Kit)(QIAGEN，德国)提取/纯化总RNA。使用50μL无RNAase的无菌水，进行柱子洗脱。从每一样品中获得的RNA的量示于表3-5中。

表3-5结直肠癌样品的总RNA的量

[表3-5-1]

编号	样品编号	RNA的量(ng/uL)
			1	HGS01	3765
2	HGS02	2570
			5	HGS03	3603
8	HGS04	3007
			12	HGS05	4843
13	HGS06	1382
			14	HGS07	4577
16	HGS08	2656
			25	HGS09	4219
27	HGS10	6053
			28	HGS11	2541
29	HGS12	2516
			30	HGS13	4319
31	HGS14	4126
			32	HGS15	5039
34	HGS16	3624
			35	HGS17	4459
38	HGS18	4561
			39	HGS19	4088
41	HGS20	2042
			42	HGS21	3554

[表3-5-2]

44	HGS23	3851
			54	HGS28	1089
58	HGS29	2659
			59	HGS30	2981

(互补DNA和双链互补DNA的合成)

使用提取的RNA样品，进行接头连接PCR。首先，为了合成互补DNA，混合BSL-18E引物和3.5μL RNA，并且在70℃退火8分钟。在冰上冷却之后，在RNase抑制剂(RNAsin)的存在下，进行逆转录反应，以使用以下组合物合成互补DNA。

[表3-1H]

[表3-1I1]

[表3-1I2]

在通过高纯度PCR清洗微小试剂盒(High Pure PCR Cleanup Micro Kit)(Roche)进行柱纯化之后，在P20EA/10EA接头和T4连接酶的存在下，在16℃，双链DNA在下面的用于连接反应的T4连接酶缓冲液中孵育过夜。

[表3-1J]

[表3-1K1]

[表3-1K2]

5、PCR

使用通用接头引物P20EA，以及TCRα链或β链的C区特异性引物(CB1)，从双链互补DNA进行1^st PCR扩增。使用下面示出的组合物进行20个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表3-1L]

然后，使用下面示出的反应组合物，使用1^st PCR扩增子在P20EA引物和各免疫球蛋白同种型C区特异性引物之间进行巢式PCR。进行20个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表3-1M1]

[表3-1M2]

使用高纯度PCR清洗微小试剂盒(High Pure PCR Cleanup Micro Kit)(Roche)，从获得的2^nd PCR扩增子中去除引物。进一步地，使用稀释10倍的2^nd PCR扩增子作为模板，使用Roche下一代序列分析仪(GS Junior Bench Top系统)进行分析。扩增利用B-P20EA引物以及HuVaF和HuVbF引物，其中B-P20EA引物是添加了接头B序列的P20EA接头引物，HuVaF和HuVbF引物是添加了接头A序列和各MID标签序列的TCRα链和β链的C区特异性引物。进行10个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃1分钟。

[表3-1N]

6、下一代测序

7、数据分析

将得到的序列数据(SFF文件)分成针对各MID标签的解读遗传密码序列，以通过GSJunior的软件(sfffile或sffinfo)创建Fasta格式的序列文件。使用IMGT数据库中的参考序列，通过库分析软件(Repertoire Genesis)进行比较分析，以分配各解读遗传密码的AV区、BV区、AJ区和BJ区，并且决定CDR3的序列。

8、在10位健康个体的分析中重叠的唯一解读遗传密码的提取

作为正常对照，检验了10位健康个体的外周血单个核细胞的TCR序列。使用V、J和CDR3序列作为从每一位健康个体获得的TCRα和TCRβ序列解读遗传密码的标示，搜索个体间的重叠解读遗传密码。在TCRα和TCRβ链之间，检验重叠唯一解读遗传密码的数目和具有该重叠唯一解读遗传密码的个体的数目(表3-6)。相对于TCRβ链，重叠唯一解读遗传密码的数目在TCRα链中显著更多(809对39)，并且它的比率也较高(2.37％对0.19％)。进一步地，TCRα链的最大值是10位个体中有8位存在重叠解读遗传密码，而TCRβ链的所有重叠解读遗传密码仅在2位个体中是重叠的。这些结果表明，TCRα库在个体之间具有更高的相似性。

表3-6健康个体中的重叠唯一解读遗传密码的数目

[表3-6]

9、TCRα链中的重叠解读遗传密码的分析

详细检验了TCRα链的重叠解读遗传密码的碱基序列，其中TCRα链显示出在个体之间的重叠水平高于TCRβ链。结果发现，显示出高重叠水平的TCR解读遗传密码中很多是，来源于已知表达不变链的粘膜相关的恒定T细胞(MAIT)或自然杀伤T细胞(NKT)的TCRα基因(表3-7)。NKT细胞主要表达TRAV10(Vα24)-TRAJ18，而MAIT主要表达由TRAV1-2(Vα7.2)-TRAJ33组成的TCR。最近报道了，MAIT的TCR识别由MR1分子递呈的细菌的维生素B代谢物，并且引起了人们对免疫监视功能中的作用的关注(Nature.2012Nov 29；491(7426)：717-23；JExp Med.2013Oct21；210(11)：2305-20)。当具有4个或更多个重叠个体数目的重叠解读遗传密码与已经报道的不变TCR进行查对时，发现其45％是不变TCR(表3-7)。与存在高频率的重叠解读遗传密码的TCRα链相比，TCRβ链的重叠个体数目最大是2(表3-8)。因此，估计TCRα中的高水平的重叠是因为存在不变TCR。在4或更多位个体中重叠的38种高频率重叠解读遗传密码中，鉴定出21种TCRα解读遗传密码，它们不能与已报道的不变TCR查对(表3-9)。表明它们可能是新的不变TCR。

表3-7健康个体中的重叠TCRα链解读遗传密码序列

[表3-7-2]

表3-8健康个体中的重叠TCRβ链的解读遗传密码序列

[表3-8-1]

[表3-8-2]

表3-9不变的TCR候选基因

[表3-9]

SEQ ID NO：	编号	TRAV	TRAJ	CDR3
					1627	1	TRAV9-2	TRAJ53	CALSGGSNYKLTFG
1628	2	TRAV13-2	TRAJ9	CAENTGGFKTIFG
					1629	3	TRAV9-2	TRAJ23	CALIYNQGGKLIFG
1630	4	TRAV9-2	TRAJ20	CALNDYKLSFG
					1631	5	TRAV13-2	TRAJ53	CAENSGGSNYKLTFG
1632	6	TRAV13-2	TRAJ39	CAENNAGNMLTFG
					1633	7	TRAV12-2	TRAJ8	CAVNTGFQKLVFG
1634	8	TRAV12-2	TRAJ20	CAVNDYKLSFG
					1635	9	TRAV12-1	TRAJ31	CVVNNARLMFG
1636	10	TRAV9-2	TRAJ6	CALSGGSYIPTFG
					1637	11	TRAV9-2	TRAJ42	CALSDYGGSQGNLIFG
1638	12	TRAV9-2	TRAJ35	CALIGFGNVLHCG
					1639	13	TRAV2	TRAJ9	CAVEEGTGGFKTIFG
1640	14	TRAV13-2	TRAJ44	CAENTGTASKLTFG
					1641	15	TRAV13-1	TRAJ53	CAASGGSNYKLTFG
1642	16	TRAV12-2	TRAJ6	CAVSGGSYIPTFG
					1643	17	TRAV12-2	TRAJ30	CAVNRDDKIIFG
1644	18	TRAV12-2	TRAJ15	CAVNQAGTALIFG
					1645	19	TRAV12-2	TRAJ15	CAVNNQAGTALIFG
1646	20	TRAV12-1	TRAJ49	CVVNTGNQFYFG
					1647	21	TRAV12-1	TRAJ15	CVVNQAGTALIFG

10、在结直肠癌患者组织中的重叠解读遗传密码的分析

已知癌抗原特异性T细胞存在于癌症患者的癌组织中，并且在抗肿瘤效果中具有重要作用。为了鉴定癌抗原特异性TCR基因，分析TCR库，同时靶定具有特定HLA的患者，以鉴定出响应于特定抗原而生长的TCR基因。在本实验中，使用了具有共有HLA-A2402的25位结直肠癌患者的癌症组织，来进行TCR库分析，以搜索存在的且在癌症患者样品中重叠的唯一解读遗传密码(表3-10)。结果发现，对于TCRα链，213个解读遗传密码(1.65％)存在且同时在多位患者中重叠，而对于TCRβ链，49个解读遗传密码(0.11％)存在且同时在多位患者中重叠。在健康的个体中，TCRα链最多在25例中的12例中存在高频率的重叠解读遗传密码，而TCRβ链最多仅有2个体存在重叠解读遗传密码。对于TCRα链，在最多12个样本中存在共有解读遗传密码，在4个或更多个样品中的癌组织中重叠的7个解读遗传密码序列是具有来源于MAIT的TRAV1-2/TRAJ33的TCRα链，但一例除外(表3-11)。(表3-10癌症特异性解读遗传密码的数目和癌症组织中重叠唯一解读遗传密码的数目)

[表3-10]

表3-11癌症患者中重叠TCRα解读遗传密码序列和癌症特异性TCRα解读遗传密码

[表3-11-1]

[表3-11-2]

[表3-11-3]

[表3-11-4]

[表3-11-5]

[表3-11-6]

[表3-11-7]

[表3-11-8]

11、癌症特异性TCR序列的提取

以高频率重叠的TCRα解读遗传密码包括很多不变的TCR。这些序列也存在于健康个体(正常对照)中，并且不是对肿瘤抗原产生反应的TCR。为了提取癌症特异性TCR，将癌症中的在健康个体样品中检测不到的重叠解读遗传密码分类为癌症特异性TCR(表3-12)。在TCRα链中，有56个存在于健康个体中的重叠解读遗传密码，而在TCRβ链中仅存在一个这样的解读遗传密码。具有4个或更多个的重叠个体数目的解读遗传密码是也存在于健康个体中的解读遗传密码，或是不变TCR。在TCRα链中的157个解读遗传密码(1.22％)和在TCRβ链中的48个解读遗传密码(0.11％)中，检测到在3个或更少个体中重叠的癌症特异性解读遗传密码(还参见图49的估算TCRαβ成对解读遗传密码的方法)。

表3-12癌症患者中的重叠TCRβ解读遗传密码序列和癌症特异性TCRβ

[表3-12-1]

[表3-12-2]

表3-13通过重叠个体的组合估算成对的TCRαβ

[表3-13-1]

[表3-13-2]

(分析系统的实施例3：使用Ion PGM系统的测序(Ion Torrent))(1、RNA提取)将来自健康个体的5mL全血收集在含肝素的采血管中。通过聚蔗糖密度梯度离心分离外周血单个核细胞(PBMC)。使用RNeasy脂质组织迷你试剂盒(RNeasy Lipid Tissue Mini Kit)(QIAGEN，德国)，从分离的PBMC中提取/纯化总RNA。使用Agilent 2100生物分析仪(Agilent)，对得到的RNA进行定量。

(2、互补DNA和双链互补DNA的合成)

使用提取的RNA样品，进行接头连接PCR。按照实施例1中示出的方法，进行该方法。具体地，混合BSL-18E引物(表3-14)和RNA，并且进行退火，然后使用逆转录酶合成互补链DNA。随后合成双链互补DNA。进一步地，使用T4DNA聚合酶进行5’末端平端化反应。在通过高纯度PCR清洗微小试剂盒(High Pure PCR Cleanup Micro Kit)(Roche)进行柱纯化之后，将P20EA/P10EA接头添加到连接反应中。通过NotI限制性内切酶，消化经柱纯化的添加接头的双链互补DNA。

[表3-14]

(3、PCR)

对于来自双链互补DNA的第一PCR扩增反应产物，使用在表3-14中示出的通用接头引物P20EA以及TCRα链或β链的C区特异性引物(CA1或CB1)，进行1^st PCR扩增。使用下面的反应组合物，进行20个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表3-15A]

[表3-15B]

使用稀释10倍的2^nd PCR扩增子作为模板，利用图10所示的B-P20EA引物以及HuVaF-01-HuVaF10(α链)和HuVbF-01-HuVbF-10(β链)，进行PCR，其中B-P20EA引物是添加了接头B序列的P20EA接头引物，HuVaF-01-HuVaF10(α链)和HuVbF-01-HuVbF-10(β链)是添加了接头A序列和各MID标签序列(MID-1～26)的TCRα链或β链的C区特异性引物。所使用的引物序列示于表6中。进行10个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。为了验证PCR扩增，通过2％琼脂糖凝胶电泳扩增10μL扩增子。

[表3-16-1]

[表3-16-2]

[表3-15C]

然后，使用Ion OneTouch 2系统(Ion Torrent)进行乳滴PCR，并且调整模板。使用Ion OneTouch 2(Ion Torrent)试剂盒，以混合以下溶液。

[表3-17-1]

[表3-17-2]

搅动离子球形颗粒(Ion Sphere Particle，ISP)珠子，然后添加100μL ISP，并且如下所述进行混合。

[表3-18]

溶液1	900μL
		IonPGM模板OT2200离子球形颗粒	100μL
总量	1000μL

将上述1,000μL溶液充分混合，然后搅拌5分钟。在装配离子一触摸加反应过滤器组件(Ion OneTouch Plus Reaction Filter Assembly)之后，加载上述总量。进一步地，添加500μL离子一触摸反应油(Ion OneTouch Reaction Oil)，然后起始运行。在约5.5小时反应之后，收集样品。在离心去除过量溶液之后，收集ISP。

富集

使用Ion OneTouch ES(Ion Torrent)来富集样品。将新的管子设置在芯片装载器上，并且安装芯片臂。然后，制备下面的熔脱(melt-off)溶液。

熔脱溶液

[表3-19]

将下面的溶液分散在8个连通管(連チュ一ブ)的各孔中。

[表3-20-1]

孔
			1	I S P样品	100μL
2	Dynabeads MyOne珠子	130μL

[表3-20-2]

3	Ion OneTouch洗涤溶液	300μL
			4	Ion OneTouch洗涤溶液	300μL
5	Ion OneTouch洗涤溶液	300μL
			6	空	-
7	熔脱溶液	300μL
			8	空	-

在配置了试剂之后，启动Ion OneTouch ES设备，以进行富集。完成之后，收集含ISP的管子，轻轻地倒转并且混合5次。然后，使用Ion PGM测序200试剂盒v2(Ion Torrent)进行测序。

应理解，本发明的系统可以这种方式使用除了Roche设备之外的其他设备。

(分析系统的实施例4：使用Illumina MiSeq系统的TCR测序)

本实施例证明了在TCR测序中使用Illumina MiSeq系统，是否可实施本发明的系统。

(1、RNA提取)

将来自健康个体的5mL全血收集在含肝素的采血管中。通过聚蔗糖密度梯度离心分离外周血单个核细胞(PBMC)。使用RNeasy脂质组织迷你试剂盒(RNeasy Lipid TissueMini Kit)(QIAGEN，德国)，从分离的PBMC中提取/纯化总RNA。使用Agilent 2100生物分析仪(Agilent)，对得到的RNA进行定量。

(2、互补DNA和双链互补DNA的合成)

使用提取的RNA样品，进行接头连接PCR。按照实施例1中示出的方法，进行该方法。具体地，混合BSL-18E引物(表3-21)和RNA，并且进行退火，然后使用逆转录酶合成互补链DNA。随后合成双链互补DNA，使用T4DNA聚合酶进行5’末端平端化反应。在通过高纯度PCR清洗微小试剂盒(High Pure PCR Cleanup Micro Kit)(Roche)进行柱子纯化之后，将P20EA/P10EA接头添加到连接反应中。通过NotI限制性内切酶，消化经柱子纯化的添加接头的双链互补DNA。

[表3-21]

(3、PCR)

对于来自双链互补DNA的第一PCR扩增反应产物，使用在表3-1中示出的通用接头引物P20EA以及TCRα链或β链的C区特异性引物(CA1或CB1)，进行1^st PCR扩增。使用下面表3-22中的反应组合物，进行20个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表3-22]

然后，使用1^st PCR扩增子，通过使用下面表3-23示出的反应组合物，使用P20EA引物以及TCRα链或β链的C区特异性引物(CA2或CB2)进行2^nd PCR。进行20个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表3-23]

(4、MiSeq双索引成对端测序(MiSeq Dual-indexed Paired-end Sequencing))

如图50所示，使用稀释10倍的2^nd PCR扩增子作为模板，利用P5-P20EA引物、R1Seq引物序列、索引2序列，和P7-CA3或P7-CB3，R2Seq引物序列和索引1序列进行PCR扩增反应，其中P5-P20EA引物是添加了P5序列的P20EA接头引物，P7-CA3或P7-CB3是添加了P7序列的TCRα链或β链的C区特异性引物。使用不同的索引1和索引2来标记扩增引物，以鉴定出从多种样品扩增的TCR基因扩增子。所使用的引物序列示于表3-24中。进行10个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

[表3-24-1]

[表3-24-2]

[表3-25-1]

[表3-25-2]

(5、通过电泳纯化PCR产物)

使用E-Gel琼脂糖凝胶电泳系统，进行扩增的PCR产物的电泳。将含高敏感荧光染色剂的预制凝胶设置在电泳设备中，并且每孔20μL样品添加到2％琼脂糖凝胶中进行电泳。当洗脱对应于500～600bp的感兴趣的条带时，收集扩增子。对收集的PCR扩增子，使用Quant-T^TM dsDNA测定试剂盒(Invitrogen)，测量DNA的量。基于得到的DNA的量，混合等摩尔量的多种样品以进行测序反应。

(6、MiSeq测序)

创建MiSeq样品板(sample sheet)。以5～50％的范围添加PhiX对照，并且使用MiSEQ测序仪开始测序，在MiSEQ测序仪中安装了MiSeq试剂盒(MiSeq Reagent Kit)v.3(600循环，Illumina)。约65小时后，可获得测序数据。

(分析系统的实施例5：用于确定TCRα库和TCRβ库的多样性和相似性的高通量序列分析方法，以确定潜在的新的不变TCRα链-作为实例的NKT细胞和MAIT细胞表达的不变TCR)

下面作为总结分析系统的实施例1～4中所述的技术的实施例，描述了综合性实施例。

(简介)

如上所述，已知为下一代测序(NGS)的高通量测序技术已经经历了快速发展，能够进行大规模序列数据分析(Shendure J etal.(2008)Nat Biotechnol 26：1135-1145；Metzker ML et al.(2010)Nat Rev Genet11：31-46)。其他研究者已经开发了基于NGS的几种TCR库分析系统。但是，很多扩增技术是基于多重PCR(Multiple PCR)的，该多重PCR包括在每一可变区中的不同的特异性引物。由于这一原因，在PCR扩增过程中不可避免地出现了偏向，因为在不同靶基因的可变区特异性引物之间存在不同的杂交动力学，而使得偏向非常常见。因此，当使用多重PCR测定时，需要考虑校正和额外的计算标准化方法，以使PCR偏向最小化(Carlson CS et al.(2013)Nat Commun 4：2680)。使用一组引物是实现对所有TCR基因进行无偏向的定量扩增的优选方法，其中所有TCR基因包括未知的突变体，其序列的5’末端是高度多样的。已经使用包括T4RNA连接酶的对cDNA的3’末端的单链寡核苷酸锚定连接(Troutt AB et al.(1992)Proc Natl Acad Sci U S A 89：9823-9825)、cDNA均聚物加尾(tailing)、cDNA末端的5’快速扩增(RACE)(Frohman MA et al.(1988)Proc NatlAcad Sci U S A 85：8998-9002)和模板转换PCR(TS-PCR或SMART PCR)(Zhu YY et al.(2001)Biotechniques 30：892-897)，来分析TCR库(Freeman JD etal.(2009)Genome Res19：1817-1824；Warren RL et al.(2011)Genome Res 21：790-797)。TS-PCR是简单且方便的，但是TS引物与RNA的随机区域非特异性退火，或被重复添加。因此，出现了高水平的背景扩增(Alon S et al.(2011)Genome Res 21：1506-1511；Kapteyn J(2010)BMC Genomics11：413)。在这一方面，本说明书描述了通过恒定区特异性引物、接头引物和TCR转录物，向来源于后续PCR扩增子的双链互补DNA的5’末端添加接头，而开发的一种接头连接介导的PCR(由Tsuruta等人首次报道(Tsuruta Y et al.(1993)J Immunol Methods 161：7-21；Tsuruta Y et al.(1994)J Immunol Methods169：17-23))。向平端双链互补DNA的接头连接几乎不受cDNA的特定序列的影响，而使用T4RNA连接酶进行5’接头连接的效率是序列依赖性的(Jayaprakash AD et al.(2011)Nucleic Acids Res 39：e141)。进一步地，使用T4连接酶进行的双链DNA的连接比在连接锚定的PCR(LA-PCR)中使用T4RNA连接酶的ssDNA连接更有效。因此，这样的无偏向的AL-PCR能进行TCR库的准确分析，而且不需要校正或标准化。

已经开发出了多种测序技术，诸如Roche 454(San Francisco，CA)、Illumina(圣地亚哥(San Diego)，CA)、Ion-Torrent(Life Technologies，格兰德艾兰(Grand Island)，NY)，SOLiD(Life Technologies)，Helicos(剑桥(Cambridge)，MA)和PacBio(门洛帕克(Menlo Park)，CA)。在这些NGS平台中，454DNA测序在50～600碱基对(bp)或更多的范围内创建了序列解读遗传密码和有效的解读遗传密码输出，但是每一测序中的解读遗传密码的数目小于Illumina。长解读遗传密码测序能够确定包括V区，D区，J区和C区的TCR基因的全长或大部分全长。进一步地，通过随后对TCR基因的PCR克隆，很容易生成TCR重组蛋白。因此，发明人使用454DNA测序，在NGS中应用了接头连接介导的PCR。

自然杀伤T(NKT)细胞是在自然免疫和获得性免疫中具有重要作用的分离的T细胞群。NKT细胞调节很多免疫应答，诸如自体免疫疾病、肿瘤监视和宿主对病原体感染的防御。NKT细胞表达由Vα24和Jα18组成的不变TCRα，其中Vα24和Jα18识别由CD1d和非经典主要组织相容性复合体I类相关蛋白呈现的糖脂(Godfrey DI et al.(2004)J Clin Invest 114：1379-1388)。最近，示出优先呈现在粘膜组织中的粘膜相关的恒定T(MAIT)细胞是表达由Vα7.2和Jα33组成的半不变TCRα的仅有的T细胞群。MAIT细胞识别由MHC相关蛋白1(MR1)和非经典MHC I类分子递呈的微生物维生素B代谢物(Kjer-Nielsen L et al.(2012)Nature491：717-723)。这些具有不变TCRα的T细胞群在免疫调节中起到主要作用。但是，仍然没有确认是否所有的不变TCRα都仅由T细胞群表达。

在本研究中，发明人使用了基于NGS的TCR库分析，其中已经新开发了NGS，以对来自20位健康个体的TCR转录物进行NGS测序。首先，基于序列解读遗传密码的数目，测试了可变区和连接区的使用，然后分析了TCRα基因和TCRβ基因中的克隆性和多样性。在克隆水平上，将使用独立开发的基因分析程序鉴定出的唯一解读遗传密码序列在健康个体中间进行对比。结果示出，T细胞中的多样性在个体中间达到与TRV和TRJ类似的程度和类似的应用。有趣的是，个体中间没有共享TCRβ解读遗传密码，而TCRα解读遗传密码以高频率含有在2位或更多位个体中重叠的公共序列。公共TCRα解读遗传密码含有高百分比的不变TCRα，从而表明iNKT或MAIT细胞的存在。

在本实施例中，发明人从NGS数据示出，在多位个体中间共享的TCR基因的分析可提供关于由NKT细胞和MAIT细胞表达的不变TCR的重要信息。

(本实施例中的展示)

对T细胞受体(TCR)基因的高通量测序是分析T淋巴细胞的克隆性和多样性，以及抗原特异性的强有力的工具。在这一方面，发明人开发了使用454DNA测序技术与接头连接介导的聚合酶链式反应(PCR)组合的新的TCR库分析方法。与可通过SMART PCR实现的伪偏向水平相反，这一方法能够以真正无偏向的方式扩增所有的TCR基因，同时没有在PCR中通常出现的任何偏向。

在本实施例中，发明人对来自20位健康个体的外周血单个核细胞中的TCRα基因和TCRβ基因进行了下一代测序(NGS)，以对比个体中间的表达的TCR库的多样性和相似性，以及基因的使用。从来自20位健康个体的总共267,037个序列解读遗传密码中，鉴定出149,216个唯一解读遗传密码。观察到一些V基因和J基因的优选使用，同时TRAV和TRAJ中的一些组合似乎是有限的。所观察的TCR多样性水平在TCRα和TCRβ之间显著不同，同时TCRα库在个体间比TCRβ库更相似。TCRα在个体间的相似性极大地依赖于以高频率在2位或更多位个体间共享的公共TCR的存在。公开可用的TCRα具有与具有较短CDR3的种系接近的TCR。公共TCRα序列，通常是在很多个体间共享的序列，常常含有来源于粘膜相关的恒定T细胞和不变自然杀伤T细胞的不变TCRα。该结果表明，通过NGS对公共TCR的研究可用于鉴定潜在的新的不变TCRα链。发现该NGS方法能够在克隆水平，对TCR库进行高度精确地综合性分析。

(材料和方法)

RNA提取物和外周血单个核细胞的分离

在获得知情同意之后，从20位健康个体中收集全血。本研究得到了国家医院组织相模原市国立医院过敏与风湿病临床研究中心(Clinical Research Center for Allergyand Rheumatology，National Hospital Organization，Sagamihara National Hospital)伦理委员会的批准。将10mL全血收集在经肝素处理的管子中。通过Ficoll-Paque PLUS^TM(GEHealthcare Health Sciences，乌普萨拉(Uppsala)，瑞典)密度梯度离心分离外周血单个核细胞(PBMC)，并且使用磷酸盐缓冲液(PBS)洗涤。对细胞数目进行计数，并且在RNA提取中使用了1×10⁶个细胞。按照制造商的说明书，使用RNeasy脂质组织迷你试剂盒(RNeasyLipid Tissue Mini Kit)(QIAGEN，希尔登(Hilden)，德国)，分离并且纯化总RNA。使用Agilent 2100生物分析仪(Agilent Technologies，帕洛阿尔托(Palo Alto)，CA)，测量RNA的量和纯度。

TCR基因的无偏向的扩增

使用Superscript III逆转录酶(Invitrogen，卡尔斯巴德(Carlsbad)，CA)，将1μg总RNA转化成互补DNA(cDNA)。使用包括聚₁₈(poly₁₈)和NotI位点的BSL-18E引物，进行DNA合成。在cDNA合成之后，使用E.coli DNA聚合酶I(Invitrogen)、E.coli DNA连接酶(Invitrogen)和RNase H(Invitrogen)，合成双链(ds)-cDNA。使用T4DNA聚合酶(Invitrogen)，使ds-cDNA平端化。将P10EA/P20EA接头连接至ds-cDNA的5’末端，然后使用NotI限制性内切酶进行剪切。使用MinElute Reaction Cleanup试剂盒(Qiagen)去除了接头和引物之后，使用TCRα链恒定区特异性引物(CA1)或TCRβ链恒定区特异性引物(CB1)，和P20EA(表4-1)，进行PCR。PCR条件如下：95℃(30秒)、55℃(30秒)和72℃(1分钟)的20个循环。使用CA2或CB2，以及P20EA引物，使用相同的PCR条件进行2^nd PCR。

[表4-1]

通过Roche 454测序系统对扩增子进行测序

通过使用P20EA引物和融合标签引物(表4-1)，对2^nd PCR产物进行扩增，来制备用于NGS的扩增子。按照制造商的说明书，设计包括接头A序列(CCATCTCATCCCTGCGTGTCTCCGAC)、4个碱基序列(TCAG)的关键(key)、分子鉴定(MID)标签序列(10个核苷酸)和TCR恒定区特异性序列的融合标签引物。在PCR扩增之后，分离扩增子并且通过琼脂糖凝胶电泳进行测定。从凝胶中移出得到的片段(约600bp)并且使用QIAEX II凝胶提取试剂盒(Qiagen)进行纯化。通过Quant-iT^TM dsDNA测定试剂盒(Life Technologies，卡尔斯巴德(Carlsbad)，CA)对纯化的扩增子的量进行定量。以等摩尔浓度，混合使用不同的融合标签引物从10位健康个体获得的各扩增子。使用扩增子混合物，按照制造商的说明书使用GSJunior Titanium emPCR Lib-L试剂盒(Roche 454Life Sciences，Branford，CT)，进行乳滴PCR(emPCR)。

TRV和TRJ片段的分配

使用MID标签序列对所有解读遗传密码序列进行分类。使用安装在454测序系统上的软件，从解读遗传密码序列的两个末端去除人工添加的序列(标签、接头和关键)和具有低质量评分的序列。剩余的序列用于TCRα序列的TRAV和TRAJ分配以及TCRβ序列的TRBV和TRBJ的分配。通过测序，使用在包括伪基因的54个TRAV基因、61个TRAJ基因、65个TRBV基因和14个TRBJ基因的参考序列的数据组，和从ImMunoGeneTics information(IMGT)数据库(http://www.imgt.org)获得的开放阅读框(ORF)参考序列的数据组中的最高同一性，进行序列分配。使用发明人独立开发的库分析软件(Repertoire Genesis，RG)，自动进行数据处理、分配和数据积累。RG执行BLATN、自动积累程序、供TRV和TRJ使用的图形程序，和使用CDR3链长度分配进行序列同源性搜索的程序。自动计算查询序列和登录序列之间在核苷酸水平上的序列同源性。对于每一库分析，仔细进行增加敏感度和精确性(E值阈值、最小核、高评分片段对(HSP)的评分)的参数的最佳化。

数据分析

将CDR3在第104位的保守半胱氨酸(Cys 104)(由IMGT命名)至第118位的保守的苯丙氨酸(Phe118)和随后的甘氨酸(Gly119)的范围内的核苷酸序列，翻译成估计的氨基酸序列。将唯一序列解读遗传密码(USR)定义为，在包括TRV、TRJ和其他序列解读遗传密码的CDR3的估计的氨基酸序列中没有同一性的序列解读遗传密码。通过RG软件对每一样品中的相同USR的拷贝数目进行自动计数，然后以拷贝数目的顺序来分配排名。计算在所有序列解读遗传密码中，包括TRAV基因、TRAJ基因、TRBV基因和TRBJ基因的序列解读遗传密码的出现频率的百分比。

对样品之间共享的USR的搜索

为了搜索在样品之间共享的序列，使用个体的USR的“TRV基因名称”_“CDR3区的估计的氨基酸序列”_“TRJ基因名称”(例如TRBV1_CASTRVVJFG_TRBJ2-5)的字符串，作为TCR标识符。从所有其他样品中，在解读遗传密码数据组中搜索样品中的TCR标识符。

多样性指数和相似性指数

为了估计深度序列数据中的TCR多样性，使用R程序中的vegan包的函数“多样性(diversity)”，计算几种多样性指数，辛普森(Simpson)指数和香农-韦弗(Shannon-Weaver)指数。，基于每一样品的类型数目和每一样品的个体数目作为生态生物学多样性尺度来计算这些指数。在深度序列数据中，对于类型和个体分别使用USR和拷贝的数目。对辛普森(Simpson)指数(1-λ)定义如下：

[数4-1]

1 - λ = 1 - Σ_{i = 1}^{S} (\frac{n_{i} (n_{i} - 1)}{N (N - 1)})

(其中，N是序列解读遗传密码的总数目，n_i是第i个USR的拷贝数目，并且S是USR的类型的数目)。数值在0～1之间变化，其中最大数1指高水平的多样性，而0指低多样性。还计算λ的倒数，逆辛普森(Simpson)指数(1/λ)。香农-韦弗(Shannon-Weaver)指数(H′)用作多样性指数，并且定义如下：

[数4-2]

H^{'} = - Σ_{i = 1}^{S} \frac{n_{i}}{N} \ln \frac{n_{i}}{N}

(其中，N是序列解读遗传密码的总数目，n_i是第i个USR的拷贝数目，并且S是USR的类型的数目)。这些多样性指数由于样品之间的解读遗传密码的数目不同，而会是偏向性的。因此，每一样品的序列解读遗传密码的数目相对于序列解读遗传密码的最小数目进行标准化(Venturi V et al.(2007)J Immunol Methods 321：182-195)。为了对样品大小进行标准化，在没有替换的情况下随机取样重复1000次，以使用R程序计算多样性指数。使用指数的中间值来确定样品的多样性指数。

为了估计健康个体中间的TCR库的相似性，将Morisita-Horn指数(C_H)定义如下：

[数4-3]

C_{H} = \frac{2 Σ_{i = 1}^{S} x_{i} y_{i}}{(\frac{Σ_{i = 1}^{S} x_{i}^{2}}{X^{2}} + \frac{Σ_{i = 1}^{S} y_{i}^{2}}{Y^{2}}) X Y}

(其中，x_i是一个样品的所有X解读遗传密码中的第i个USR的数目，y_i是另一样品中所有Y解读遗传密码中的第i个USR的数目，S是USR的数目)。为了对样品大小进行标准化，在没有替换的情况下随机取样重复1000次，以使用R程序计算多样性指数(Venturi V et al.(2008)J Immunol Methods 329：67-80)。对于一对样品之间的相似性指数，使用中间值。

统计学

使用GraphPad Prism软件(4.0版，圣地亚哥(San Diego)，CA)进行非参数曼-惠特尼(Mann-Whitney)U检验，来测试统计显著性。p＜0.05的值被认为是统计学上显著的。

(结果)

库分析软件

在本研究中开发的云计算软件平台RG是用于TCR库分析的高速、准确且方便的计算系统。RG提供了用于以下的综合软件包：(1)V、D和J片段的分配，(2)序列同一性的计算，(3)CDR3序列的提取，(4)相同的解读遗传密码的计数，(5)氨基酸翻译，(6)阅读框分析(终止和移码突变)和(7)CDR3长度的分析。在从NGS测序仪上传测序数据之后，使用优化的参数，基于其序列相似性可鉴定出V、D和J片段。解读遗传密码的数目自动合计，随后处理数据，可以很容易地下载电子表格和图形。

解读遗传密码的数目、错误率和非生产性解读遗传密码

发明人对来自20位健康个体的PBMC中的TCRα基因和TCRβ基因进行了高通量测序。使用RG程序，将总共172,109个和91,234个序列解读遗传密码分别分配给TCRα和TCRβ库分析(表4-2和表4-3)。

[表4-2]

表4-2从20位健康个体的PBMC获得的唯一解读遗传密码、核苷酸和解读遗传密码的数目

PBMC、外周血单个核细胞；SD，标准偏差

[表4-3]

表4-3从20位健康个体的PBMC获得的唯一解读遗传密码、核苷酸和解读遗传密码的数目

PBMC、外周血单个核细胞；SD，标准偏差

在TCRα和TCRβ中，分别鉴定出总共94，928个和57，982个唯一序列解读遗传密码(USR)。通过Roche 454测序获得的每一解读遗传密码的核苷酸序列的数目是约400bp的长度(平均bp长度±SD，TCRα：407.4±35.4，TCRβ：409.4±37.8)，这示出这些序列具有从V区至J区的范围中鉴定出TCR基因的足够的长度。为了测定NGS测序的精确度和质量，发明人计算了在查询序列和参照序列之间的错配核苷酸频率作为错误率。错误率对于TRAV是0.72±0.18％，对于TRAJ是0.54±0.08％，对于TRBV是0.70±0.15％，并且对于TRBJ是0.50±0.12％(表4-4)。

[表4-4]

表4-4序列中的错配核苷酸的百分比

SD、标准偏差

这些错误率略低于在之前的研究(Gilles A et al.(2011)BMC Genomics 12：245)中报道的454-序列的1.07％平均错误率。V区中的错误率显著高于J区中的错误率(AVvs.AJ：p＜0.05，BV vs.BJ：p＜0.0001)。在接近测序引物的区域中，显示出较高的序列可靠性。计算CDR3区域中的解读遗传密码的移码突变(不符合阅读框)的频率或具有终止密码子的非生产性解读遗传密码的频率(表4-5)。

[表4-5]

表4-5TCRα和TCRβ的不符合阅读框的唯一序列解读遗传密码的频率

SD、标准偏差

在TCRα和TCRβ之间的非生产性唯一序列解读遗传密码的频率百分比没有显著性差异(31.2±7.0％vs.29.3±7.9％，P＝0.31)。

包括ORF和伪基因的TCR基因的表达

为了确定TRV基因和TRJ基因在TCR测序解读遗传密码中的使用，分别对具有TRV或TRJ的USR的拷贝数目(解读遗传密码的数目)进行计数。以拷贝数目对个体USR排名。计算TRV和TRJ中每一个的频率百分比(图51和图52)。对于TCRα库，8个伪基因(AV8-5、AV11、AV15、AV28、AV31、AV32、AV33和AV37)在健康个体中不表达。几乎不表达分类为ORF(基于IMGT的调节元件、重组信号和/或剪切位点的变化来定义)的AV8-7(在20位个体中的11位个体中的43个解读遗传密码)。在健康个体中没有观察到AV18和AV36的表达(被分类为功能基因)。进一步地，在一位个体(9个解读遗传密码)和2位个体(3个解读遗传密码)中没有充分表达功能基因AV7和AV9-1。在8个被分类为ORF基因(AJ1、AJ2、AJ19、AJ25、AJ35、AJ58和AJ61)的AJ基因中，在所有20位个体中观察到AJ35和AJ58的表达。其中的AJ25和AJ61分别在3位个体(21个解读遗传密码)和7位个体(35个解读遗传密码)中略有表达。任何个体中都不存在AJ1、AJ2、AJ19和AJ59。在任何个体中都不存在三个伪基因AJ51、AJ55和AJ60的表达。从3位个体中仅检测到功能基因AJ14的3个解读遗传密码。

对于TCRβ基因，健康个体中没有11个伪基因(BV1、BV3-2、BV5-2、BV7-5、BV8-1、BV8-2、BV12-1、BV12-2、BV21-1、BV22-1和BV26)的表达。在5个ORF基因中，BV5-7(13位个体中的32个解读遗传密码)、BV6-7(8位个体中的13个解读遗传密码)和BV17(1位个体中的3个解读遗传密码)表达不充分。在任何个体中都没有观察到BV7-1ORF基因，而在所有20位个体中都表达BV23-1。对于BJ基因，没有BJ2-2P伪基因的表达。

TRAV和TRAJ的低频率的重组

41个TRAV和50个TRAJ(排除伪基因、ORF和不充分表达的基因)的基因重组，可生成总共2050个AV-AJ重组(图53)。在它们中间，在20位个体中检测到1969个AV-AJ重组(96.0％)。这表明，在TCR转录物中没有限制地使用几乎所有的AV-AJ重组。具体地，AV1-1基因～AV6基因优选不与AJ50～AJ58重组。类似地，几乎观察不到AV35基因～AV41基因与AJ3～AJ16的重组。考虑到这些基因片段在染色体上的位置，结果表明AV-AJ重组几乎不出现在邻近的AV基因和远端AJ基因之间，以及远端的AV基因和邻近的AJ基因之间。

对于TCRβ，通过50个BV(排除11个伪基因和5ORF)和13个BJ基因(排除伪基因)生成650种基因重组。在30位个体中使用其中的605种BV-BJ(93.1％)。对TRBV与TRBJ的重组没有限制。

健康个体中的TRV库和TRJ库的优选使用

为了阐明TRV和TRJ在所有TRC转录物中的使用，分别计算具有TRV或TRJ的USR的频率(图51和图52)。在一些TRAV基因中的优选使用与之前使用基于杂交的定量测定所获得的结果(6)类似。一些TRBV基因更多地在TRBV库中使用。前三名TRAV9-2(按照雅顿(Arden)的BV4S1)、TRBV20-1(BV2S1)和TRBV28(BV3S1)占到所有序列解读遗传密码的1/3。这与本发明在之前的研究中使用微孔板杂交测定获得的结果(6)类似。基因的使用在TRBJ基因之间变化显著。TRBJ2-1和TRBJ2-7的表达非常高，而TRBJ1-3、TRBJ1-4、TRBJ1-6、TRBJ2-4和TRBJ2-6的表达低。

TCR库的使用的三维(3D)视图

为了使具有TRV基因和TRJ基因重组的TCR的使用可视化，发明人制作了TCR库的3D描绘(图54和图55)。3D图像的优点在于，能够很容易地观察到TCR的多样性水平，以及TRV基因和TRJ基因的特定重组优势。对于TCRβ，几乎不优先使用任何TRVB基因和TRBJ基因之间的重组。各重组的频率依赖于TRBV或TRBJ的使用。在所有组合中高频率地使用BV29-1/BJ2-7、BV29-1/BJ2-1、BV29-1/BJ2-3和BV20-1/BJ2-7，而其它都以低频率进行表达。相比之下，TCRα库的3D成像示出了，TRAV和TRAJ在广泛分布中低水平表达。占有率小于所有组合的1％。尤其是在所有健康个体中都高表达具有AV1-2和AJ33的TCR解读遗传密码(平均值±SD：0.99±0.85)。

数字CDR3链长度分布

有效使用被称为CDR3大小谱型分析的CDR3链长度分布分析(Yassai M et al.(2000)J Immunol 165：3706-3712；Yassai M et al.(2002)J Immunol 168：3801-3807)或者免疫扫描分析(Pannetier C etal.(1993)Proc Natl Acad Sci U S A 90：4319-4323；Pannetier C et al.(1995)Immunol Today 16：176-181)，来估计TCR库的多样性。该技术是基于通过凝胶电泳，包括CDR3序列的PCR扩增子的实际峰分布。在本研究中，自动计算从保守的Cys 104(由IMGT命名)至第118位的保守苯丙氨酸(Phe118)的范围内TCR的确定的核苷酸序列长度。这提供了一种使用NGS数据，估计TCR的多样性和克隆性的明显简单的方法。RG可生成表示各V区的数字CDR3链长度分布的程序。TCRα和TCRβ的CDR3链长度分布与常见的分布类似，但是不一定是完全对称的(图56)。TCRα中的CDR3链长度比TCRβ中的短(平均值±SD：41.2±8.3vs.42.8±6.1)。TCRα具有相对于TCRβ的正偏斜(偏斜指数：11.1对5.41)，这表明TCRα中的分布集中在左侧。进一步地，TCRα具有相对于TCRβ的正峰度，这表明TCRα中的高峰度(峰度指数：282.4对176.7)。

TCRα库和TCRβ库的多样性

为了示出TCR库的多样性，发明人计算了USR的多样性指数(辛普森(Simpson)指数、香农-韦弗(Shannon-Weaver)指数等)和拷贝平均数。USR的拷贝平均数在TCRα和TCRβ之间存在显著性差异(2.0±0.72对1.70±0.57)。进一步地，逆辛普森(Simpson)指数(D)或香农-韦弗(Shannon-Weaver)指数(H)在TCRα和TCRβ之间没有显著性差异(D：710.3±433.0对729.7±493.9，H：7.02±0.33对6.97±0.43)。结果示出，健康个体中的TCRα和TCRβ的免疫多样性没有差异。

健康个体之间的TCRα库和TCRβ库的相似性

为了阐明个体间基因使用的相关性，通过散点图描绘了所有个体对的TRV和TRJ各自的频率百分比(图60)。计算每一对之间的斯皮尔曼(Spearman)相关系数。TRAV中的匹配相关系数低于TRBV中的匹配相关系数(TRAV的平均值±SD为0.86±0.059，TRBV的平均值±SD为0.89±0.038，p＜0.001)，并且TRAJ中的匹配相关系数低于TRBJ中的匹配相关系数(TRAJ的平均值±SD为0.74±0.095，TRBJ的平均值±SD为0.91±0.063，p＜0.001)。结果示出相对于TCRα，TCRβ中的TRV和TRJ的表达水平在健康个体间更加类似。

为了测定健康个体间TCR库在克隆水平上的潜在相似性，发明人搜索了在个体间共享的TCR序列解读遗传密码。对所有成对个体间共享的TCR解读遗传密码的数目进行计数，以计算其频率(表4-6和表4-7)。

[表4-6]

[表4-7]

TCRα中的平均频率显著高于TCRβ中的平均频率(0.76±0.52对0.040±0.057，n＝380，p＜0.001)(图58)，这表明TCRα库包括比TCRβ多的在个体间共享的TCR解读遗传密码。TCRα的Morisita-Horn指数(是相似性指数)显著大于TCRβ的Morisita-Horn指数(0.0058±0.0069对0.000096±0.00029，n＝190，P＜0.001)。结果清楚地示出，相对于TCRβ，TCRα库在健康个体间更相似。

健康个体间共享的TCR序列

少数TCR序列在不同的健康个体间共享。将其共享的TCR称为公共TCR。相比之下，大部分TCR对于各健康个体是特异的(专有TCR)。为了鉴定在20位健康个体中的公共TCR序列，发明人搜索了在2位或更多位健康个体间共享的TCRα解读遗传密码和TCRβ解读遗传密码。从20位健康个体中的90,643个USR和57,982个USR，分别获得3,041个公共TCRα和206个公共TCRβ(表4-8)。

[表4-8]

对在多位健康个体(2～20位个体)中观察到的相同的TCR序列的数目进行计数。

在来源于健康个体的外周血淋巴细胞(PBL)中，公共TCRα的频率比TCRβ高。公共TCRβ序列获自2～4位个体，而在16位个体中观察到公共TCRα序列。结果示出，在个体中更常使用TCRα公共序列，但是TCRβ库对每一个体更特异。进一步地，与TCRβ(0.7％)相比，TCRα在成对个体间共享的TCR序列的每一个体的频率(7.9％)显著较高。为了表征公共TCRα序列，发明人对比了公共TCRα序列和专有TCRα序列之间的CDR3的长度，观察到公共TCRα具有链长度比专有TCRα短的CDR3(中间值：39对42)(图59)。

由多位个体共享的TCR包括高频率的不变的TCRα链。

在来源于健康个体的PBL中，观察到高频率的公共TCRα。为了确定公共TCRα的来源，发明人检验了之前报道的公共TCRα的CDR3序列。有趣的是，由多位个体共享的TCRα序列包括高百分比的不变TCRα，这指示iNKT细胞或MAIT细胞(表4-9)。

[表4-9-1]

表4-9在公共TCRα序列中观察到的不变TCR

[表4-9-2]

非生殖系氨基酸序列带有下划线；c没有生殖系序列的CDR序列指示为“是”；dMAIT：粘膜相关的恒定T细胞，iNKT：不变的自然杀伤T细胞

报道了MAIT细胞表达TRAV1-2和TRAJ33，而iNKT表达TRAV10和TRAJ18。很多公共TCRα使用包括不同CDR3序列的TRAV1-2和TRAJ33。具有TRAV1-2和TRAJ33的MAIT TCRα，以及具有TRAV10和TRAJ18的iNKT TCRα的总频率百分比分别是每一个体0.82±0.72％和0.15±0.41％。在55个公共TCRα序列中，在6位或更多位个体中观察到17个(31％)MAIT序列和1个(1.8％)iNKT序列(图53)。百分比随着重叠个体的数目而增加。除了MAIT(TRAV1-2-TRAJ33)和NKT(TRAV10-TRAJ18)之外，在38个公共TCRα的27个(71％)中，观察到没有自生殖系序列修改的氨基酸序列的生殖系样CDR3序列。

(讨论)

通过多种NGS平台的开发，高通量测序技术已经取得了巨大的飞跃。尽管NGS促进了数量巨大的序列数据的获取，但它仍然需要对感兴趣的序列基因，而不是对整个基因组或基因文库进行PCR扩增或基因富集。对于通过很多基因片段重排所生成的不均一的TCR或BCR基因，使用很多基因特异性引物进行多重PCR已经得到了广泛使用。但是，使用多个引物在各基因之间出现了扩增偏向，从而阻碍了对基因频率进行准确估计。在这一方面，发明人对基于NGS的TCR库分析，使用了接头连接介导的PCR，这是无偏向性PCR技术。该方法使用一组引物，理论上能够扩增所有TCR基因，且不会施加PCR偏向。因此，该方法是对准确估计每一TCR基因在大范围样品中存在的量的优化。

发明人在克隆水平上全面研究了来源于很多个体(n＝20)的TCRα库和TCRβ库，以测定大量的序列数据(来自267037个序列解读遗传密码的总共149216个唯一序列解读遗传密码)。因此，本研究阐明了，健康个体中TCR库的多样性和相似性水平，以及在正常范围内的基因使用。与Illumina NGS平台(Freeman JD et al.(2009)Genome Res 19：1817-1824；Warren RL et al.(2011)Genome Res 21：790-797；Robins HS et al.(2009)Blood114：4099-4107)相比，虽然没有很多样品序列解读遗传密码，但是解读遗传密码较长并且质量较高。在使用Illumina平台从很多鸟枪法解读遗传密码生成的CDR3重叠群中，不同序列的深度难以确定TCR克隆类型的频率。但是，它具有覆盖CDR3、V和J的所有区域的长序列(约400bp的平均值，表4-2和表4-3)，并且确定来自一个解读遗传密码的所有TCR序列。不使用缀合的自解读遗传密码序列的直接分析，很可能准确反映了TCR克隆类型的实际频率。TCR序列中的错误率略低于之前的报道(454-序列显示出1.07％的平均错误率)，并且不管是否是巢式PCR，都显示出高水平的精确度和质量。进一步地，RG、分配和聚集软件可快速聚集TRV和TRJ的使用，以及重组的使用。整合分析方便检测预定的TRV和/或TRJ的优先使用，因此可用于研究抗原特异性T细胞的免疫应答。

与通常需要对PCR偏向进行补偿的广泛使用的多重PCR(Carlson CS et al.(2013)Nat Commun 4：2680)不同，AL-PCR准确估计TCR库，且没有偏向。通过CD4⁺和CD8⁺细胞中的多重PCR，报道了高水平表达的TRBV18(BV18S1，由Arden命名)、TRBV19(BV17S1)和TRBV7-9(BV6S5)，和低水平表达的TRBV20-1(BV2S1)、TRBV28(BV3S1)和TRBV29-1(BV4S1)(Emerson R et al.(2013)J Immunol Methods 391：14-21)。但是，流式细胞术分析示出，在PBL中表达大量的TRBV20和TRBV29(van den Beemd Ret al.(2000)Cytometry 40：336-345；Pilch H et al.(2002)Clin Diagn LabImmunol 9：257-266；Tzifi F(2013)BMCImmunol14：33)。研究者对TCR库的结果与之前的报道类似(Li S et al.(2013)Nat Commun4：2333)。因此，该方法提供了直接、准确且可靠的TCR库结果。

重组的使用示出了，AJ-近端3′AV片段与AV-远端3′AJ片段的低频率的重组，以及AJ-近端5′AV与AV-远端5′AJ片段的低频率的重组。在TCRαδ基因座的基因重排中，TCRα增强子(Eα)和T早期α(TEA)启动子的活化启动近端TRAV和TRAJ片段的第一次重排。随后，使用5′近端TRAV和远端3′TRAJ基因进行第二次重排(Huang C et al.(2001)J Immunol 166：2597-2601；Krangel MS et al.(2004)Immunol Rev 200：224-232；Pasqual N et al.(2002)J Exp Med 196：1163-1173；Aude-Garcia C et al.(2001)Immunogenetics 52：224-230)，从而得到TCRα库的限制使用(持续双向重组模型)(Chaumeil J etal.(2012)Embo J 31：1627-1629)。但是，在第二次重排中，通过基因座的收缩和DNA环形成模型，所有TRAV基因都可与TRAJ基因重组(Genolet R et al.(2012)Embo J 31：4247-4248)。存在TRAV-TRAJ基因的无效的远端-近端和近端-远端重组，但是TRAJ的使用在所有TRAV上不受到限制，并且进行相当平等的分布。这表明重组频率随着TRAV位置的不同而不同，并且很可能依赖于在TRAV基因座和TRAJ基因座之间的环形成能力。

估计通过重组以及核苷酸的添加/缺失所生成的潜在的TCR多样性最多是10¹⁵(Davis MM et al.(1988)Nature 334：395-402)。基于NGS，估计人类的TCRβ的多样性约为3～4×10⁶(Robins HS et al.(2009)Blood 114：4099-4107)或约1×10⁶(Warren RL et al.(2011)Genome Res 21：790-797)。进一步地，人类的TCRα的多样性是TCRβ的50％(ArstilaTP et al.(1999)Science 286：958-961)。小鼠的TCRα多样性是0.79×10⁴(Pasqual N etal.(2002)J Exp Med196：1163-1173)或1.18×10⁴(Cabaniols JP etal.(2001)J Exp Med194：1385-1390)，表明比TCRβ多样性低10倍。TCRα的多样性低可能是由于TCRα和TCRβ之间的重组过程不同。但是，发明人的结果表明，通过辛普森(Simpson)指数和香农-韦弗(Shannon-Weaver)指数所测定的，TCRα和TCRβ之间的多样性水平相似。类似地，Wang等人报道了，估计TCRα和TCRβ之间的多样性相等(0.47×10⁶对0.35x×10⁶)(Wang C et al.(2010)Proc Natl Acad Sci U S A 107：1518-1523；Dash P et al.(2011)J ClinInvest 121：288-295)。与之前使用有限数目的序列获得的报道相对，示出了对于大规模测序，通过V-J重组生成的TCRα库的大小与通过V-D-J重组生成的TCRβ库的大小相当。

令人惊讶的是，发明人发现TCRα库在个体间是相似的。这主要是由于存在在2位或更多为个体间共享的TCR序列(公共TCR)。在TCR重排过程中，出现通过末端脱氧核苷酰转移酶介导的随机核苷酸的添加和缺失，从而使CDR3区域的多样性显著增加。但是，公共TCR似乎具有不经历这样的改变的生殖系样CDR3序列(表4-9)。进一步地，公共TCR包括很多具有链长度较短的CDR3的TCR克隆类型。结果表明，出现高频率的公共TCRα可能是由于，与TCRβ的固有的重组机制不同(V-J对V-D-J)。

值得注意的是，公共TCRα存在于很多个体中。发明人出乎意料地发现，公共TCRα高比率地包括来源于MAIT细胞或iNKT细胞的不变TCRα。这些在功能上重要的T细胞具有均一的TCRα和多样的TCRβ。MAIT细胞表达包括TRAV1-2(Vα7.2)-TRAJ33(Jα33)的经典TCRα，并且优选位于肠粘膜固有层中(Tilloy F et al.(1999)J Exp Med 189：1907-1921；Treiner Eet al.(2003)Nature 422：164-169)。MAIT细胞识别由非经典MHC I类分子MR1递呈的维生素B2的代谢物。进一步地，CD1d限制的iNKT细胞表达不变的TRAV10(Vα24)-TRAJ18(Jα18)链和半不变的TRBV25-1(Vβ11)(Godfrey DI et al.(2004)Nat Rev Immunol 4：231-237)，并且识别糖脂，诸如α-半乳糖神经酰胺、自体糖脂或异球-三已糖神经酰胺(isoglobo-trihexosylceramide)(Tupin E et al.(2007)Nat Rev Microbiol 5：405-417)。两种细胞类型在调节针对感染、肿瘤、自体免疫性疾病和耐受诱导的免疫应答中都起到重要作用(Godfrey DI et al.(2004)J Clin Invest 114：1379-1388)。在本研究中获得的MAIT细胞和iNKT细胞的频率与之前的报道(示出MAIT细胞扩张至外周血T细胞的1～4％(Martin Eet al.(2009)PLoS Biol 7：e54)，并且iNKT细胞占全部PBMC的0.2％(Lee PT et al.(2002)J Clin Invest 110：793-800))一致。有趣的是，还存在不同类型的具有TRAV1-2(例如TRAV1-2-TRAJ12、TRAV1-2-TRAJ20)的公共序列，以及除了公知的MAIT和iNKT序列之外的其它一些公共TCRα序列。因此，基于NGS的库分析可用于估计MAIT细胞或iNKT细胞的频率，并且用于鉴定潜在的新的不变TCRα链。需要进一步的鉴定和证实，来鉴定潜在的新的不变TCRα。

如上所述，由本实施例，发明人开发了一种基于NGS的新的TCR库分析方法，以发现不同个体间TCRα和TCRβ之间的相似性以及可比的多样性。公共TCRα序列高频率地包括功能显著的T细胞亚群、MAIT细胞和iNKT细胞。此外，通过NGS发现公共TCR的途径，可用于鉴定潜在的新的不变TCRα链。证明了该用于TCR库分析的精确度非常高的技术，揭示了与人类疾病的发作相关的抗原特异性T细胞，并且有助于研究、诊断和治疗自然免疫力和获得性免疫力。

(应用实施例1：抗体分离的实施例：利用BCR库分析分离人类型抗体的实施例)

在本实施例中，作为实际应用中的特定实施方式，提供了利用BCR库分析分离人类型抗体的实施例。

(从何处获得试剂等)

利用人源化NOG小鼠获得人类型抗独特型抗体

1、观察到来源于肿瘤细胞的单克隆BCR在B细胞类白血病或恶性淋巴瘤患者中高表达。

2、从B细胞类白血病或恶性淋巴瘤患者中收集外周血单个核细胞，以进行在这一部分中所述的BCR库分析。鉴定来源于肿瘤细胞的免疫球蛋白H链基因，所述免疫球蛋白H链基因具有最高排名并且在数万解读遗传密码的确定的基因序列中显著存在。

3、使用确定的免疫球蛋白H链基因序列，来估计高度多样的CDR3区域的氨基酸序列，并且合成与该序列相同的肽。

4、200μg合成的肽与弗氏完全佐剂(CFA，Sigma Aldrich)充分混合，并且使用注射器皮下给药到人源化NOG小鼠(首次免疫)。类似地，将PBS给药到对照小鼠。进一步地，从首次免疫2周之后，再次给药相同量的抗原肽。

5、从首次免疫4周之后，从小鼠提取淋巴结或脾脏。将组织切碎在磷酸盐缓冲液(PBS，Invitrogen)中，并且使用细胞筛(0.75μm，BD)进行过滤，来制备单个细胞。

6、将得到的细胞溶解在Trizol溶液(Invitrogen)中。通过本文所述的BCR库分析方法，确定基因序列。

7、以存在频率(解读遗传密码的数目)的排名分选数万解读遗传密码的所得到的BCR基因序列，以确定排名高的免疫球蛋白H链和L链的基因序列。相对于作为对照的给药PBS的小鼠的解读遗传密码排序，选择存在频率显著高的免疫球蛋白H链和L链的基因序列。

8、对于得到的免疫球蛋白H链和L链的基因序列，使用P20EA接头引物和C末端引物，进行全长免疫球蛋白H链基因和全长L链基因的PCR扩增。使用连接试剂盒(LigationKit，TAKARA)，通过连接反应，将各全长基因插入到抗体表达载体pEHX1.1(用于抗体H链，TOYOBO)和pELX2.2(用于抗体L链，TOYOBO)的多克隆位点中。转化E.coli TOP10细胞株(OneShot^TM TOP10化学感受态E.coli，Invitrogen)，以获得H链表达质粒和L链表达质粒。

9、两种质粒都经BglII和EcoRI限制性内切酶消化两次。然后，将L链质粒的BglII-EcoRI片段插入到H链质粒的BglII-EcoRI剪切位点中，以获得共表达H链和L链的抗体表达质粒。

10、使用QIAGEN质粒迷你(QIAGEN Plasmid Mini)试剂盒，从E.coli提取/纯化抗体表达质粒，并且使用转染试剂盒(TAKARA)引入到CHO细胞中。

11、培养转化的表达抗体的CHO细胞株，以进行增殖。收集培养上清液，并且使用蛋白A琼脂糖亲和柱(HiTrap Protein A HP Columns，GE Healthcare)，按照使用方法进行纯化。

12、使用吸光光谱仪测量了获得的抗体蛋白的量之后，通过ELISA检验与抗原肽的结合反应性。

对于在本实施例中使用的KM小鼠，可参考Ishida I，Tomizuka K，Yoshida H，Tahara T，Takahashi N，Ohguma A，Tanaka S，Umehashi M，Maeda H，Nozaki C，Halk E，Lonberg N.Production of human monoclonal and polyclonal antibodies inTransChromo animals.Cloning Stem Cells.2002；4(1)：91-102.Review。对于NOG小鼠，可参考Ito M，Hiramatsu H，Kobayashi K，Suzue K，Kawahata M，Hioki K，Ueyama Y，Koyanagi Y，Sugamura K，Tsuji K，Heike T，Nakahata T.NOD/SCID/gamma(c)(null)mouse：an excellent recipient mouse model for engraftment of humancells.Blood.2002Nov 1；100(9)：3175-82。对于CHO细胞/抗体生产，可参考Jayapal KP，Wlaschin KF，Hu W-S，Yap MGS.Recombinant protein therapeutics from CHO cells-20years and counting.Chem Eng Prog.2007；103：40？47.；Chusainow J，Yang YS，YeoJH，Toh PC，Asvadi P，Wong NS，Yap MG.A study of monoclonal antibody-producingCHO cell lines：what makes a stable high producer？Biotechnol Bioeng.2009Mar 1；102(4)：1182-96。

(应用实施例2：癌症独特型肽致敏免疫细胞疗法)

本实施例证明了使用本发明的库分析进行癌症独特型肽致敏免疫细胞疗法的实施例。其过程解释如下(参见图62)。

(1)从恶性肿瘤患者收集10mL全血。通过菲科帕克(Ficoll-Paque)梯度离心(GEHealthcare Bioscience，17-1440-02)，分离外周血单个核细胞(PBMC)。

(2)使用Trizol试剂(Invitrogen)，从患者的PBMC中提取总RNA。

(3)使用逆转录酶(Superscript II，Invitrogen，18064-014)从RNA合成cDNA，然后使用DNA聚合酶(Invitrogen，18010-017)、E.coli连接酶(Invitrogen，18052-019)和RNase H(Invitrogen，18021071)合成dsDNA。进一步地，通过T4DNA聚合酶(Invitrogen，18005-025)使末端平端化。在使用T4连接酶(Invitrogen，15224-025)进行P20EA/P10EA接头的连接反应(参见制备例2等)之后，使用NotI(TaKaRa，1166A)消化产物。

(4)使用P20EA接头(SEQ ID NO：2)和BCR基因CM1(SEQ ID NO：5)的IgM的C区特异性引物进行1^st PCR，并且使用CM2(SEQ ID NO：6)和P20EA引物(SEQ ID NO：2)进行2^nd PCR。分别进行20个PCR循环，其中一个循环是95℃ 30秒、55℃ 30秒和72℃ 1分钟。

(5)使用高纯度PCR清洗微小试剂盒(High Pure PCR Cleanup Micro Kit)(Roche)进行柱纯化，以从2^nd PCR扩增子中去除引物。随后，使用B-P20EA引物(SEQ ID NO：4)和GS-PCR引物(序列信息参见表1-1)进行PCR，其中B-P20EA引物是添加了接头B序列(SEQID NO：1375)的P20EA引物((SEQ ID NO：2)，GS-PCR引物是添加了接头A序列(SEQ ID NO：39)和鉴定序列MID标签序列(参见表1-6)的IgM的C区特异性引物(CM3)。

(6)在GS-PCR扩增之后，进行2％琼脂糖凝胶电泳。当可视化时，切出感兴趣大小的条带(500bp～700bp)，使用QIAEX II凝胶提取试剂盒(QIAEX II Gel Extraction Kit)(QIAGEN)进行纯化。使用Quant-iT^TM dsDNA测定试剂盒(Invitrogen)测量收集的DNA的量。在乳滴PCR中使用1000万DNA，用于通过罗氏(Roche)下一代序列分析仪(GSJunior台式系统(GS Junior Bench Top system))进行序列分析。

(7)使用本发明中新开发的TCR/BCR库分析软件(Repertoire Genesis，参见分析试验例，本文中的分析例1～5等)，来分配V序列和J序列，并且使用获得的序列数据来确定CDR3区域的估计的氨基酸序列。同时，对相同碱基序列的拷贝数进行计数，以基于出现频率提供排序。

(8)确定排序最高的BCR基因。确认占总数的10％或更多的BCR的解读遗传密码的数目特别高，以将所述BCR基因鉴定为来源于肿瘤的BCR基因。

(9)对于肿瘤来源的BCR基因的估计的氨基酸序列，使用HLA结合肽预测程序BIMAS(www-bimas.cit.nih.gov/)，来预测HLA结合肽。除非指定特定条件，否则使用缺省条件。将BCR氨基酸序列和患者的HLA型输入BIMAS中，以确定在CDR3氨基酸序列的肽或包括一部分CDR3氨基酸序列的肽中，评分最高的估计的HLA结合肽。

(10)使用具有评分的HLA结合肽作为个体化癌症肽，进行细胞毒性T细胞(CTL)疗法或树突细胞(DC)疫苗疗法。在这里，实施DC疫苗疗法。

(11)使用全自动肽合成仪(Protein Technologies，Inc.)，化学合成个体化癌症肽序列。获得1mg或更高产量以及95％或更大纯度的肽。将获得的肽溶解在50％DMSO中，并且储存在-20℃。

(12)使用血液组分收集设备(Terumo单采设备AC-555(Terumo apheresisapparatus AC-555))，从癌症患者中分离单核细胞。在AIM-V培养基(Invitrogen，12055091)中洗涤包括单核细胞的细胞之后，对细胞数进行计数。

(13)在去除没有贴壁至塑料板的细胞之后，将细胞在包含2000U/mL粒细胞巨噬细胞集落刺激因子(GM-CSF，和光纯药工业株式会社(Wako Pure Chemical))和400U/mL白介素4(IL-4，Petrotech)的AIM-V培养基中培养约1周，并且诱导分化成树突细胞(DC)。

(14)使用FACS分析检验MHC I类和II类分子、CD40、CD80或CD86的表达，来证实分化成DC。然后，向2×10⁶细胞添加20μg/mL个体化癌症肽，并且在AIM-V培养基(与上面的相同)中与刺激因子(溶链菌制剂(Picibanil，OK-432)、溶链菌注射剂(PicibanilInjection)0.5KE(中外制药(Chugai Pharmaceutical))一起再培养1天。

(15)收集经肽刺激的DC细胞，使用生理盐水洗涤，然后通过静脉滴注静脉注射到癌症患者中。

(结果)

本实施例完成了以下内容。

(1)对恶性淋巴瘤患者的外周血的下一代BCR库分析，鉴定出占所有BCR解读遗传密码的50％或更多的一种IgM免疫球蛋白重链和一种IgM免疫球蛋白轻链。

(2)通过Repertoire Genesis程序，鉴定出这些免疫球蛋白基因的CDR3区域。

(3)将患者的HLA型(例如HLA-A*02)和IgM免疫球蛋白重链CDR3氨基酸序列输入BIMAS程序。选择结合评分最高的肽序列。

(4)使用全自动肽合成仪，将该肽化学合成为个体化癌症肽，并且该肽在体外刺激并且活化来自患者的DC。

(5)将个体化肽刺激的DC细胞静脉引入到患者体内，借此可观察到肿瘤细胞数目降低并且临床症状得到改善。

(讨论)

从本实施例可理解，本发明实现了下面的效果。

(1)可使用来源于患者的癌细胞的BCR序列，来制造用于治疗的个体化癌症肽。不管HLA类型或抗原表达如何，都可向很多患者给予DC疗法或CTL疗法。

(2)因为使用了适于患者的HLA的肽，因此可以实现更适于患者并且对癌细胞高度特异的有效的DC疗法和CTL疗法。

(3)因为可从BCR分析获得的基因序列直接化学合成抗原肽，因此非常安全，并且不需要进行抗原鉴定等。

(应用实施例3：改善的CTL方法)

本实施例展示了使用本发明的库分析进行改善的CTL方法的实施例。其程序解释如下(参见图63)。

(1)通过应用实施例2的(1)～(9)的方法，鉴定癌症独特型肽。

(2)使用全自动肽合成仪(Protein Technologies，Inc.)，化学合成现有的癌症肽(NY-ESO-1肽)或癌症独特型肽(在(1)中鉴定出的肽)。获得1mg或更高产量以及95％或更大纯度的肽。将获得的肽溶解在50％DMSO中，并且储存在-20℃。

(3)从癌症患者收集20mL外周血。通过菲科帕克(Ficoll-Paque)梯度离心(参见应用实施例2)，分离外周血单个核细胞(PBMC)。

(4)使用CD8⁺T细胞分离磁珠(Miltenyi Biotech)或流式细胞设备(FACS AriaII，Beckton Dickinson)，分离CD8⁺T细胞。

(5)将通过血液组分收集设备(泰尔茂单采设备(Terumo apheresis apparatus)AC-555)或PBMC分离的单核细胞培养在培养板(100mm平皿，Corning，353003)中，并且去除不贴壁的细胞。

(6)将贴壁的单核细胞在包含2000U/mL粒细胞巨噬细胞集落刺激因子(GM-CSF，Wako Pure Chemical)和400U/mL白介素4(IL-4，Petrotech)的AIM-V培养基(与应用实施例2的相同)中培养约1周，并且诱导分化成树突细胞(DC)。

(7)在证实分化成DC之后，向2×10⁶细胞添加20μg/mL肽(应用实施例2中的“评分最高的估计的HLA结合肽”)，并且在AIM-V培养基中与刺激因子(溶链菌制剂(Picibanil，OK-432)、溶链菌注射剂(Picibanil Injection)0.5KE、中外制药(ChugaiPharmaceutical))一起再培养1天。

(8)进一步地，使用20μg/mL合成的肽(应用实施例2中的“评分最高的估计的HLA结合肽”)和如上所述(3)的分离的2×10⁶/mL CD8⁺T细胞和AIM-V培养基(参见应用实施例2等)，刺激和培养DC培养溶液。

(9)从贴壁至塑料培养板(100mm平皿，Corning，353003)(与(5)中的培养板相同)的DC中分离经抗原刺激而增殖的CD8+T细胞，然后在5μg/mL抗CD3抗体(OKT3，OrthocloneOKT3，杨森制药(Janssen Pharmaceutical))和200U/mL白介素2(IL-2)(Roche AppliedScience，10799068001)的存在下，扩增且培养细胞。

(9)作为CTL细胞收集活化的CD8+T细胞，并且使用生理盐水洗涤，然后通过静脉滴注将它们静脉注射到癌症患者体内。

(结果)

本实施例完成了以下内容。

(1)从来源于恶性淋巴瘤患者的肿瘤细胞的BCR基因的CDR3区域中，鉴定出HLA结合肽。

(2)使用CD8+T细胞分离磁珠，从患者的外周血中收集2×10⁶CD8阳性细胞。纯度是98％。

(3)在肽、来源于患者的单核细胞的CD8+细胞和DC细胞的混合培养物中，施加抗原刺激。进一步地，CD8+CTL细胞可在抗CD3抗体和IL-2的存在下进行扩大培养，直至增殖50倍。

(4)将培养的CTL细胞静脉引入到患者体内，借此可观察到肿瘤细胞数目降低并且临床症状得到改善。

(讨论)

从本实施例应理解，本发明实现了以下效果。

(1)可使用来源于患者癌细胞的BCR序列，来制造用于治疗的个体化癌症肽。不管HLA类型或抗原表达如何，都可向很多患者给予CTL疗法。

(2)因为使用了适于患者的HLA的肽，因此可以实现更适于患者并且对癌细胞高度特异的有效的CTL疗法。

(应用实施例4：DC疫苗疗法)

本实施例展示了使用本发明的库分析进行DC疫苗疗法的实施例。其过程解释如下(参见图64)。

(1)通过在应用实施例2的(1)～(9)的方法，鉴定癌症独特型肽。

(2)使用全自动肽合成仪(Protein Technologies，Inc.)，化学合成现有的癌症肽(NY-ESO-1肽)或癌症独特型肽(在(1)中鉴定出的肽)。获得1mg或更高产量以及95％或更大纯度的肽。将获得的肽溶解在50％DMSO中，并且储存在-20℃。通过组分收集(单采(apheresis))，从癌症患者中分离单核细胞。

(3)通过血液组分收集设备(Terumo单采设备(Terumo apheresis apparatus)AC-555)，从患者中分离单核细胞。在AIM-V培养基(参见应用实施例2等)中洗涤包含单核细胞的细胞，并且对细胞数进行计数。

(4)去除了没有贴壁至塑料平板(100mm平皿，Corning，353003)的细胞之后，将细胞在包含2000U/mL粒细胞巨噬细胞集落刺激因子(GM-CSF，Wako Pure Chemical)和400U/mL白介素4(IL-4，石油技术(Petrotech))的AIM-V培养基(参见应用实施例2)中培养约1周，并且诱导分化成树突细胞(DC)。

(5)使用FACS，检验MHC I类和II类分子、CD40、CD80或CD86的表达，来证实分化成DC。向2×10⁶细胞添加20μg/mL肽(在(2)中合成的肽)，并且在AIM-V培养基(参见应用实施例2等)中与刺激因子(溶链菌制剂(Picibanil，OK-432)、溶链菌注射剂(PicibanilInjection)0.5KE(中外制药(Chugai Pharmaceutical))一起再培养1天。

(6)收集经肽刺激的DC细胞，使用生理盐水洗涤，然后通过静脉滴注静脉注射(泰尔茂输注系统(Terufusion Infusion System)，Terumo)到癌症患者中。

(结果)

本实施例完成了以下内容。

(2)从患者的外周血中分离单核细胞，并且培养在分化培养基中，以检测MHC DR+、CD40+或CD80/CD86+细胞，用于证明从单核细胞向DC的分化。

(3)将经肽刺激的DC细胞静脉引入到患者体内，借此可观察到肿瘤细胞数目降低并且临床症状得到改善。

(讨论)

从本实施例应理解，本发明实现了以下效果。

(1)可使用来源于患者癌细胞的BCR序列，来制造用于治疗的个体化癌症肽。不管HLA类型或抗原表达如何，都可向很多患者给予DC疗法。

(2)因为使用了适于患者的HLA的肽，因此可以实现更适于患者并且对癌细胞高度特异的有效的DC疗法。

(应用实施例5：患者自体免疫细胞疗法)

本实施例展示了使用本发明的库分析进行患者自体免疫细胞疗法的实施例。其过程解释如下(参见图65)。

(1)通过在应用实施例2的(1)～(9)的方法，鉴定癌症独特型肽。

(2)使用全自动肽合成仪(Protein Technologies，Inc.)，化学合成现有的癌症肽或癌症独特型肽(在(1)中鉴定出的肽)。获得1mg或更高产量以及95％或更大纯度的肽。将获得的肽溶解在50％DMSO中，并且储存在-20℃。

(3)从癌症患者收集20mL外周血。通过菲科帕克(Ficoll-Paque)梯度离心，分离外周血单个核细胞(PBMC)。

(7)在证实分化成DC之后，向2×10⁶细胞添加20μg/mL肽(在(2)中合成的肽)，并且在AIM-V培养基中与刺激因子一起再培养一天。

(8)进一步地，使用20μg/mL合成的肽(在(2)中合成的肽)和如上所述(3)的分离的2×10⁶/mL CD8⁺T细胞和AIM-V培养基(与应用实施例2等相同)，刺激和培养DC培养溶液。

(9)一起收集了经肽刺激的DC细胞和活化的CD8+T细胞并且使用生理盐水洗涤之后，通过静脉滴注将它们静脉注射到癌症患者体内。

(结果)

本实施例完成了以下内容。

(2)使用CD8+T细胞分离磁珠，从患者的外周血中收集2×10⁶CD8阳性细胞。纯度是98％或更高。

(3)从患者的外周血中分离单核细胞，并且将单核细胞培养在分化培养基中，以证实分化成DC、MHC DR+、CD40+或CD80/CD86+。

(4)通过肽、来源于患者单核细胞的CD8+和DC的混合培养物，可使肿瘤特异性CTL和DC增殖。

(5)将经肽刺激的CD8+细胞和DC细胞都静脉引入到患者体内，借此可观察到肿瘤细胞数目降低并且临床症状得到改善。

(讨论)

从本实施例应理解，本发明实现了以下效果。

(1)可使用来源于患者癌细胞的BCR序列，来制造用于治疗的个体化癌症肽。不管HLA类型或抗原表达如何，都可向很多患者给予患者自体免疫细胞疗法。

(2)因为使用了适于患者的HLA的肽，因此可以实现更适于患者并且对癌细胞高度特异的有效的患者自体免疫细胞疗法。

(4)可预期DC细胞和CTL细胞的协同效果，并且期望高治疗效果。

(应用实施例6：特制的癌症特异性T细胞受体基因的分离，通过体外抗原刺激的癌症特异性TCR基因的分离)

本实施例展示了使用本发明的库分析进行特制的癌症特异性T细胞受体基因的分离，通过体外抗原刺激的癌症特异性TCR基因的分离的实施例。其过程解释如下(参见图66)。

(1)通过常规方法，从癌症患者中提取肿瘤细胞。

(2)在培养基(RPMI1640，11875-093，Invitrogen，下文中也被称为“培养溶液”)中对来源于患者的肿瘤细胞进行精细地切割，并且使用0.70μm过滤器(Falcon细胞筛，Corning)过滤，然后将细胞分离成单个细胞，并且在培养溶液中使用10μg/ml丝裂霉素C(注射用丝裂霉素C，协和发酵麒麟(Kyowa Hakko Kirin))在37℃灭活2小时。

(3)通过菲科帕克(Ficoll-Paque)梯度离心，从癌症患者的10mL全血中分离外周血单个核细胞(PBMC)。对PBMC进行洗涤，然后以2×10⁶/mL的浓度悬浮在培养基(RPMI1640)中。

(4)使用一部分PBMC(1×10⁶)作为未处理的对照样品，通过Trizol RNA提取试剂盒(Invitrogen)提取RNA。

(5)在低浓度的IL-2的存在下，将灭活的肿瘤细胞和外周血细胞在包含10％FCS(16000-044，Invitrogen)的RPMI1640培养基(RPMI1640，11875-093，Invitrogen)中培养一周，以使用抗原刺激肿瘤特异性T细胞并且使其生长。

(6)在活化T细胞之后，从培养基中收集活的细胞，使用PBS(045-29795，Wako PureChemical)洗涤，并且从这些细胞中提取RNA。

(7)使用在(4)和(6)中提取的RNA样品(对于其条件，可使用在本文中的分析试验例和分析例1～5中所述的条件)，实施本发明的库分析方法。

(8)根据通过本发明的下一代库分析所获得的TCR基因序列数据，提取并且排名相对于对照样品在刺激样品中大大增加的TCR基因，然后选择排名高的TCRα基因和TCRβ基因。

(9)克隆各全长的TCRα基因和TCRβ基因，并且引入到用于基因表达的逆转录病毒载体(Retro-X载体和系统，Clonetech)中。

(10)使用在(9)中制备的TCRα和TCRβ重组质粒载体转化包装细胞GP2-293细胞株(631458，Clonetech)，来制造引入基因的逆转录病毒。

(11)使用通过血液组分收集设备(Terumo apheresis apparatus AC-555)分离的淋巴细胞，以独立且连续地感染TCRα和TCRβ的基因重组逆转录病毒，以获得表达功能性αβTCR的淋巴细胞群。

(12)通过FACS(参见应用实施例5，可使用相同的条件)，证明TCRα/TCRβ异源二聚体在细胞表面上的表达及其阳性细胞的百分比。

(13)将表达TCRα/TCRβ的肿瘤特异性患者淋巴细胞，引入到患者细胞中。

(结果)

本实施例完成了以下内容。

(1)当通过患者的肿瘤组织中刺激的样品与对照样品进行对比，选择且排名在肿瘤组织中增加的TCR基因时，排除在外周血细胞中大量存在的TCR。因此，提取了许多肿瘤特异性TCR基因。

(2)从提取的基因中选择处于约相同排名水平的TCRα基因和TCRβ基因，并且在制作引入肿瘤特异性TCR基因的淋巴细胞中利用它们。

(3)可将全长的TCRα链基因和TCRβ链基因克隆在逆转录病毒表达载体中。可通过包装，制作具有高滴度的TCRα逆转录病毒和TCRβ逆转录病毒。

(4)使用混合的逆转录病毒感染患者的淋巴细胞，以通过FACS验证重组TCRα/TCRβ的表达。

(5)将通过一系列步骤制造的肿瘤特异性TCR基因重组淋巴细胞，引入到患者体内，借此可观察到肿瘤细胞数目降低和临床症状得到改善。

(讨论)

从本实施例应理解，本发明实现了以下效果。

(1)可使用患者自身的癌细胞和T细胞，来制作引入了肿瘤特异性TCR基因的治疗性淋巴细胞。不管HLA类型或抗原表达如何，都可向很多患者给予TCR基因治疗。

(2)因为利用了患者样品中存在的TCR序列，因此可以利用与患者的HLA匹配的TCR基因，并且实现对癌细胞高度特异的有效治疗。

(3)因为利用了患者样品中存在的TCR序列，因此可以实现不与患者的正常细胞反应的高度安全的TCR基因治疗。

(3)因为直接利用了从TCR分析获得的基因序列，因此不需要鉴定抗原或者使用特定抗原获得TCR基因。

(应用实施例7：通过体外抗原刺激制备分离的癌症特异性TCR基因)

本实施例展示了使用本发明的库分析，通过体外抗原刺激制备分离的癌症特异性TCR基因的实施例。其程序解释如下(参见图67)。

(1)从具有相同HLA的各癌症患者中提取肿瘤细胞，同时分离外周血。

(2)使用Trizol试剂(Invitrogen)，从淋巴细胞或包括肿瘤细胞浸润T细胞的肿瘤组织中，提取RNA。

(3)通过在本文的制备例等中所述的接头连接PCR，从RNA中扩增TCR基因(与制备例等中相同)，以使用GS Junior Bench Top系统(Roche)等通过下一代测序进行库分析。

(4)对于通过其应用所获得的TCR基因序列，使用新开发的TCR/BCR库分析软件(Repertoire Genesis，参见本文的分析例1～5)，以确定V、D和CDR3区域的序列，并且基于相同序列的出现频率建立排名。

(5)搜索相对于各患者的外周血，在肿瘤细胞中显示出高出现频率的TCR基因(本文中的特定实例是在肿瘤组织中出现频率＞10倍且具有高排名的那些TCR基因)，以鉴定肿瘤特异性基因。

(6)对于这样的肿瘤特异性TCR基因，搜索在具有相同HLA的多位癌症患者间共享的TCR基因序列。

(7)选择在大部分癌症患者间共享的肿瘤特异性TCR基因，作为治疗用肿瘤特异性TCR。

(8)克隆全长的TCRα基因和TCRβ基因，并入引入到用于基因表达的逆转录病毒载体(可使用与应用实施例6相同的逆转录病毒载体)中。

(9)按照在上面应用实施例6中(10)的方法，从TCRα基因和TCRβ基因表达逆转录病毒载体建立基因引入病毒。

(10)将从患者收集的淋巴细胞与含通过上述(9)制作的TCRα逆转录病毒的培养溶液和含等量的TCRβ逆转录病毒的培养溶液混合，并且在37℃培养4小时。然后使用PBS洗涤细胞，并且在37℃再培养24小时。

(11)证明在细胞表面上的基因重组TCRαβ分子的表达。使用抗人类CD8抗体(CD8α，6602385，Beckman Courter)和IOTest Beta MarkTCR Vβ库分析试剂盒(多分析TCR Vβ抗体(Multi-analysisTCR Vβantibodies)，IM3497，Beckman Courter)，通过FACS分析，证明在CD8阳性细胞中经历转基因的TCRβ链阳性细胞的百分比。

(12)以0.5×10⁶个细胞的浓度，在37℃的条件下，在RPMI 1640培养基中，培养在(11)中得到证实的感兴趣的具有TCRαβ表达的细胞。在使用PBS对引入肿瘤特异性TCR基因的淋巴细胞进行洗涤之后，通过静脉滴注(Terufusion Infusion System，Terumo)，经静脉注射将细胞引入到癌症患者体内。

(结果)

本实施例完成了以下内容。

(1)当选择且排序在患者肿瘤组织间共享的TCR基因时，排除在外周血细胞中大量存在的TCR。因此，提取很多肿瘤特异性TCR基因。

(2)从提取的基因中，选择在同一患者中存在的且处于相同水平的排序的成对TCRα基因和TCRβ基因，并且利用该成对TCRα基因和TCRβ基因制作引入肿瘤特异性TCR基因的淋巴细胞。

(3)将全长的TCRα链基因和TCRβ链基因克隆在逆转录病毒表达载体中。通过包装可制作具有高滴度的TCRα逆转录病毒和TCRβ逆转录病毒。

(4)使用混合的逆转录病毒感染患者的淋巴细胞，以通过FACS证实重组的TCRα/TCRβ的表达。

(5)将通过一系列步骤制造的肿瘤特异性TCR基因重组淋巴细胞引入到患者体内，借此可观察到肿瘤细胞数目降低和临床症状得到改善。

(讨论)

从本实施例应理解，本发明实现了以下效果。

(应用实施例8：细胞处理疗法)

本实施例展示了使用本发明的库分析，进行细胞处理疗法的实施例。其过程解释如下(参见图68)。

(1)按照应用实施例6制作转基因的逆转录病毒，以产生表达功能性αβTCR的淋巴细胞群。

(2)使用RPMI 1640培养基(11875-093，Invitrogen)，按照应用实施例6(1)～(2)的过程稀释已分离且灭活的来源于患者的肿瘤细胞。

(3)以1×10⁶/mL的细胞浓度，2∶1、1∶1和0.5∶1的淋巴细胞-肿瘤细胞比率(E∶T比率)，混合在(1)中制作的引入了肿瘤特异性TCR基因的淋巴细胞和患者的灭活的肿瘤细胞，并且使用ELISPOT试剂盒(IFN-γ，人类，ELISpot试剂盒，EL285，R&D Systems)在37℃培养24小时。

(4)24小时之后，移出细胞。通过着色方法检测在PVFD膜上的INFγ的产生，并且对产生IFNγ的细胞的数目进行计数，以测定引入了肿瘤特异性TCR基因的淋巴细胞的肿瘤特异性。

(5)当在5％或更少的细胞中没有观察到IFNγ产生，选择出具有高排名的、并且在除了在应用实施例6的(8)中利用的TCR之外的其它TCR基因中显示出处于相同水平的TCRα和TCRβ存在比率的一对。在进行了应用实施例6的步骤(9)～(11)之后，制作引入了肿瘤特异性TCR基因的新的淋巴细胞。

(6)对于TCRα和TCRβ，进行上述步骤(1)～(4)，以测定引入了肿瘤特异性TCR基因的淋巴细胞的肿瘤特异性。

(结果)

本实施例完成了以下内容。

(1)制作引入了肿瘤特异性TCR基因的淋巴细胞，以检验对灭活的肿瘤细胞的反应性。能够理解的是，引入了TCR基因的淋巴细胞应答于肿瘤而产生IFNγ。

(2)将引入了肿瘤特异性TCR基因的淋巴细胞引入患者体内，并且观察抗肿瘤效果和临床症状的改善。

(讨论)

从本实施例应理解，本发明实现了以下效果。

(应用实施例9：通过体外刺激测试测定有效性和/或安全性的方法)

本实施例提供了使用本发明的库分析，通过体外刺激测试证明有效性和/或安全性的实施例。其过程解释如下(参见图69)。

(1)按照应用实施例6制作转基因的逆转录病毒，以产生表达肿瘤特异性αβTCR的淋巴细胞群。

<有效性评估>

(1)当评估有效性时，提取/分离来源于患者的癌细胞，并且切碎在培养溶液(RPMI1640，11875-093，Invitrogen)中，然后使用0.70μm过滤器(Falcon细胞筛，Corning)进行过滤，以分离单个细胞。在培养溶液中，使用10μg/ml丝裂霉素C(注射用丝裂霉素C，协和发酵麒麟(Kyowa Hakko Kirin))在37℃，对细胞进行2小时灭活处理。在灭活处理之后，混合细胞，并且与如在应用实施例6中所述制作的引入了肿瘤特异性TCR基因的T淋巴细胞一起培养。

(2)通过应用实施例8中示出的ELISPOT，评估对肿瘤细胞的反应性。也就是说，以1×10⁶/mL的细胞浓度，2∶1、1∶1和0.5∶1的淋巴细胞-肿瘤细胞比率(E∶T比率)，混合按照应用实施例6制作的引入了肿瘤特异性TCR基因的淋巴细胞和患者的灭活的肿瘤细胞，并且使用ELISPOT试剂盒(IFN-γ，人类，ELISpot试剂盒，EL285，R&D Systems)在37℃培养24小时。

(3)24小时之后，移出细胞。通过着色方法检测在PVFD膜上的INFγ的产生，并且对产生IFNγ的细胞的数目进行计数，以测定引入了肿瘤特异性TCR基因的淋巴细胞的肿瘤特异性。除了ELISPOT之外，还可通过诸如MTT测定(细胞增殖试剂盒(CellProliferationKit)I、MTT测定，11465007001，Roche Diagnostics)或者IL-2生产测试(人类IL-2ELISA系统(Human IL-2ELISA system)，GE Healthcare，RPN5965)的细胞增殖测试，进行评估。

(结果)

本实施例完成了以下内容。

(1)当检验肿瘤特异性TCR基因重组淋巴细胞对灭活的肿瘤细胞的反应性时，识别到高频率的IFNγ的产生。

(2)在培养过程中，IFNγ阳性细胞的数目随着时间而增加，并且在24小时之后达到平稳期。

(讨论)

从本实施例应理解，本发明实现了以下效果。

(1)在使用引入了肿瘤特异性TCR基因的淋巴细胞给予基因治疗之前，可以测定使用患者自身细胞的有效性。该有效性可以在治疗之前进行预测。

(2)通过评估有效性，可选择且利用TCR基因。因此，可进行更有效的TCR基因治疗。

<安全性测定>

(1′)当评估安全性时，通过使用对照进行与(1)和(2)相同的测试，其中对照是现有的细胞株、被认为无患者癌细胞的正常组织(在肿瘤提取过程中收集的一部分正常组织)，或者在实体瘤的情况中是患者的外周血细胞。

(2′)通过ELISPOT对引入了肿瘤特异性TCR基因的T淋巴细胞对正常组织的反应性，进行量化和评估。

(3′)选择对正常细胞的反应性低且对肿瘤细胞的反应性高的引入了肿瘤特异性TCR基因的T淋巴细胞，用于治疗患者。

(结果)

本实施例完成了以下内容。

(1)当制作引入了肿瘤特异性TCR基因的淋巴细胞来检验对灭活的正常细胞的反应性时，不产生IFNγ且对正常细胞几乎不显示反应性是可以理解的。

(讨论)

从本实施例应理解，本发明实现了以下效果。

(1)在使用引入了肿瘤特异性TCR基因的淋巴细胞给予高风险的基因治疗之前，可评估使用患者自己的细胞的安全性，以实现更安全的治疗。

(2)通过评估安全性可排除高风险的TCR基因，以使用更安全的TCR基因来给予治疗。

如上所述，通过其优选实施方式的使用示例了本发明。但是，应理解，仅基于权利要求来解释本发明的范围。还应理解，本文所引用的所有专利、所有专利申请和所有参考文件都通过引用，以与内容具体描述在本文中相同的方式并入本说明书中。本申请要求日本专利申请号2013-241403、2013-241404和2013-241405的优先权，其整个内容通过引用并入本文中。

[工业实用性]

本发明尤其适用于，其中特别需要定量分析并且提供样品进行高度精确、无偏向、大规模进行分析的临床应用。

[序列表自由文本]

SEQ ID NOs：1～19：在实施例1中使用的引物序列(表1)

SEQ ID NOs：20～31：BCR解读遗传密码的CDR3氨基酸序列

SEQ ID NOs：32～38：在实施例2中使用的引物序列(表2)

SEQ ID NO：39：接头A的序列

SEQ ID NOs：40～60：测序引物(表6)

SEQ ID NOs：61～1164：BCR解读遗传密码的CDR3氨基酸序列(表1H)

SEQ ID NOs：1165～1324：系列稀释的Molt-4细胞样品中的TCR解读遗传密码

SEQ ID NOs：1325～1374：分子鉴定(MID标签)序列的实例

SEQ ID NO：1375：接头B的序列

SEQ ID NOs：1376～1379：TCR的各全长序列

SEQ ID NOs：1381～1386：BCR的各全长序列

SEQ ID NO：1387：CM3-GS(SEQ ID NO：7)中的特异性序列(CM3)

SEQ ID NO：1388：CA3-GS(SEQ ID NO：10)中的特异性序列(CA3)

SEQ ID NO：1389：CG3-GS(SEQ ID NO：13)中的特异性序列(CG3)

SEQ ID NO：1390：CD3-GS(SEQ ID NO：16)中的特异性序列(CD3)

SEQ ID NO：1391：CE3-GS(SEQ ID NO：19)中的特异性序列(CE3)

SEQ ID NO：1392：靶序列TRBC，名称TRBC2*01，膜结合形式

SEQ ID NO：1393：靶序列TRBC，名称TRBC2*02，膜结合形式

SEQ ID NO：1394：靶序列TRGC，名称TRGC1*02，膜结合形式

SEQ ID NO：1395：靶序列TRGC，名称TRGC2*01，膜结合形式

SEQ ID NO：1396：靶序列TRGC，名称TRGC2*02，膜结合形式

SEQ ID NO：1397：靶序列TRGC，名称TRGC2*03，膜结合形式

SEQ ID NO：1398：靶序列TRGC，名称TRGC2*04，膜结合形式

SEQ ID NO：1399：靶序列TRGC，名称TRGC2*05，膜结合形式

SEQ ID NO：1400：靶序列IGHA，名称IGHA2*01，分泌形式

SEQ ID NO：1401：靶序列IGHA，名称IGHA2*02s，分泌形式

SEQ ID NO：1402：靶序列IGHA，名称IGHA2*02，膜结合形式

SEQ ID NO：1403：靶序列IGHA，名称IGHA2*03，分泌形式

SEQ ID NO：1404：靶序列IGHD，名称IGHD*01，分泌形式

SEQ ID NO：1405：靶序列IGHD，名称IGHD*02，分泌形式

SEQ ID NO：1406：靶序列IGHD，名称IGHD*02，膜结合形式

SEQ ID NO：1407：靶序列IGHE，名称IGHE*01，膜结合形式

SEQ ID NO：1408：靶序列IGHE，名称IGHE*02，分泌形式

SEQ ID NO：1409：靶序列IGHE，名称IGHE*03，膜结合形式

SEQ ID NO：1410：靶序列IGHE，名称IGHE*04，分泌形式

SEQ ID NO：1411：靶序列IGHE，名称IGHE*04，膜结合形式

SEQ ID NO：1412：靶序列IGHG，名称IGHG1*02，分泌形式

SEQ ID NO：1413：靶序列IGHG，名称IGHG1*03，分泌形式

SEQ ID NO：1414：靶序列IGHG，名称IGHG2*0，分泌形式

SEQ ID NO：1415：靶序列IGHG，名称IGHG2*01，膜结合形式

SEQ ID NO：1416：靶序列IGHG，名称IGHG2*02，分泌形式

SEQ ID NO：1417：靶序列IGHG，名称IGHG2*03，分泌形式

SEQ ID NO：1418：靶序列IGHG，名称IGHG2*04，分泌形式

SEQ ID NO：1419：靶序列IGHG，名称IGHG2*05，分泌形式

SEQ ID NO：1420：靶序列IGHG，名称IGHG2*06，分泌形式

SEQ ID NO：1421：靶序列IGHG，名称IGHG2*06，膜结合形式

SEQ ID NO：1422：靶序列IGHG，名称IGHG3*01，分泌形式

SEQ ID NO：1423：靶序列IGHG，名称IGHG3*01，膜结合形式

SEQ ID NO：1424：靶序列IGHG，名称IGHG3*03，分泌形式

SEQ ID NO：1425：靶序列IGHG，名称IGHG3*03，膜结合形式

SEQ ID NO：1426：靶序列IGHG，名称IGHG3*04，分泌形式

SEQ ID NO：1427：靶序列IGHG，名称IGHG3*05，分泌形式

SEQ ID NO：1428：靶序列IGHG，名称IGHG3*06，分泌形式

SEQ ID NO：1429：靶序列IGHG，名称IGHG3*07，分泌形式

SEQ ID NO：1430：靶序列IGHG，名称IGHG3*08，分泌形式

SEQ ID NO：1431：靶序列IGHG，名称IGHG3*09，分泌形式

SEQ ID NO：1432：靶序列IGHG，名称IGHG3*10，分泌形式

SEQ ID NO：1433：靶序列IGHG，名称IGHG3*11，分泌形式

SEQ ID NO：1434：靶序列IGHG，名称IGHG3*12，分泌形式

SEQ ID NO：1435：靶序列IGHG，名称IGHG3*13，分泌形式

SEQ ID NO：1436：靶序列IGHG，名称IGHG3*14，分泌形式

SEQ ID NO：1437：靶序列IGHG，名称IGHG3*15，分泌形式

SEQ ID NO：1438：靶序列IGHG，名称IGHG3*16，分泌形式

SEQ ID NO：1439：靶序列IGHG，名称IGHG3*17，分泌形式

SEQ ID NO：1440：靶序列IGHG，名称IGHG3*18，分泌形式

SEQ ID NO：1441：靶序列IGHG，名称IGHG3*19，分泌形式

SEQ ID NO：1442：靶序列IGHG，名称IGHG4*01，分泌形式

SEQ ID NO：1443：靶序列IGHG，名称IGHG4*02，分泌形式

SEQ ID NO：1444：靶序列IGHG，名称IGHG4*03，分泌形式

SEQ ID NO：1445：靶序列IGHG，名称IGHG4*04，分泌形式

SEQ ID NO：1446：靶序列IGHG，名称IGHG4*04，膜结合形式

SEQ ID NO：1447：靶序列IGHM，名称IGHM*01，膜结合形式

SEQ ID NO：1448：靶序列IGHM，名称IGHM*03，分泌形式

SEQ ID NO：1449：靶序列IGHM，名称IGHM*03，膜结合形式

SEQ ID NOs：1450～1499：TRA解读遗传密码(前50名)(表3-1)

SEQ ID NOs：1500～1549：TRB解读遗传密码(前50名)(表3-2)

SEQ ID NOs：1550～1587：健康个体中重叠的TCRα链解读遗传密码序列(表3-7)

SEQ ID NOs：1588～1626：健康个体中重叠的TCRβ链解读遗传密码序列(表3-8)

SEQ ID NOs：1627～1647：不变的TCR候选基因(表3-9)

SEQ ID NOs：1648～1860：重叠的TCRα解读遗传密码序列和癌症患者中癌症特异性TCRα解读遗传密码(表3-11)

SEQ ID NOs：1861～1909：重叠的TCRβ解读遗传密码序列和癌症患者中癌症特异性TCRβ解读遗传密码(表3-12)

SEQ ID NOs：1910～1921：P5-P20EA引物

SEQ ID NOs：1922～1929：P7-CA3引物

SEQ ID NOs：1930～1937：P7-CB3引物

SEQ ID NOs：1938～1992：在分析系统的实施例5中鉴定出的公共TCRα序列中观察到的不变TCR序列

Claims

1.一种使用数据库定量分析受试对象的T细胞受体(TCR)或B细胞受体(BCR)的可变区的库的方法，其中，所述方法包括：

(1)提供核酸样品，所述核酸样品包括以无偏向的方式从所述受试对象扩增的T细胞受体(TCR)或B细胞受体(BCR)的核酸序列；

(2)测定在所述核酸样品中包括的核酸序列；以及

2.根据权利要求1所述的方法，其中，所述核酸样品包括多种类型的T细胞受体(TCR)或B细胞受体(BCR)的核酸序列，并且步骤(2)通过一次测序测定所述核酸序列。

3.根据权利要求2所述的方法，其中，所述一次测序的特征在于，在从所述核酸样品扩增为测序样品中用作引物的至少一个序列具有与编码C区的核酸序列或其互补链相同的序列。

4.根据权利要求3所述的方法，其中，所述一次测序的特征在于，是使用通用接头引物进行的。

5.根据权利要求1所述的方法，其中，无偏向的扩增不是V区特异性扩增。

6.根据权利要求1所述的方法，其中，所述库是BCR的可变区的库，并且所述核酸序列是BCR核酸序列。

7.一种使用数据库定量分析受试对象的T细胞受体(TCR)或B细胞受体(BCR)的可变区的库的系统，其中，所述系统包括：

(2)用于测定在所述核酸样品中包括的核酸序列的设备；以及

8.一种分析受试对象的疾病、失调或病症的系统，包括：权利要求7所述的系统；以及，基于所述系统获得的TCR库或BCR库，分析所述受试对象的疾病、失调或病症的单元。

9.一种治疗或预防通过权利要求8所述的系统确定的受试对象的疾病、失调或病症的系统，包括：用于使所述受试对象的疾病、失调或病症与所述TCR库或所述BCR库定量关联的单元；以及，用于根据所述定量关联，选择适当的治疗或预防方法的单元。

10.根据权利要求1所述的方法，其中，所述(1)包括以下步骤：

(1-1)使用来源于靶细胞的RNA样品作为模板，合成互补DNA；

(1-2)使用所述互补DNA作为模板，合成双链互补DNA；

11.根据权利要求7所述的系统，其中，(1)的所述试剂盒包括以下：

(1-6)用于使用(1-5)的PCR扩增子、添加的通用接头引物和添加接头的第三TCR或BCR的C区特异性引物进行第三PCR扩增反应的单元，其中，在所述添加的通用接头引物中，所述通用接头引物的核酸序列包括第一额外的接头核酸序列；在所述添加接头的第三TCR或BCR的C区特异性引物中，第二额外的接头核酸序列和分子鉴定(MID标签)序列被添加到第三TCR或BCR的C区特异性序列；其中

12.根据权利要求1或10所述的方法，其中，(3)所述TCR库或所述BCR库的获得通过包括以下步骤的方法来完成：

(3-1)为包括V区、D区、J区和可选的C区中的至少一个的各基因区域，提供参照数据库；

13.根据权利要求7或11所述的系统，其中，(3)用于获得TCR库或BCR库的设备包括以下：

14.一种分析TCR库或BCR库的方法，包括以下步骤：

(6)基于在(5)中进行的分类，计算V区、D区和J区和可选的C区各自的出现频率或其组合的出现频率，以获得所述TCR库或所述BCR库。

15.根据权利要求14所述的方法，其中，所述输入序列组是无偏向的序列组。

16.根据权利要求14所述的方法，其中，所述修剪通过以下步骤完成：从解读遗传密码的两端删除低质量的区域；从所述解读遗传密码的两端删除与接头序列匹配10 bp或更多的区域；以及，当剩余的长度为200 bp或更多(TCR)或者为300 bp或更多(BCR)时，使用所述解读遗传密码作为分析中的高质量的解读遗传密码。

17.根据权利要求16所述的方法，其中，所述低质量指小于30的QV值的7 bp移动平均值。

18.一种分析TCR库或BCR库的系统，其中，所述系统包括：

(1)用于为包括V区、D区、J区和可选的C区中的至少一个的各基因区域，提供参照数据库的单元；

(5)用于将所述D区的核酸序列翻译成氨基酸序列，并且利用所述氨基酸序列对D区进行分类的单元；以及

19.一种计算机程序，所述计算机程序用于对分析TCR库或BCR库的方法进行计算机执行处理，所述方法包括以下步骤：

20.一种用于储存计算机程序的存储介质，所述计算机程序用于对分析TCR库或BCR库的方法进行计算机执行处理，所述方法包括以下步骤：

21.一种制备样品的方法，所述样品用于使用数据库通过基因序列分析，来定量分析T细胞受体(TCR)或B细胞受体(BCR)的可变区的库，所述方法包括以下步骤：

(1)使用来源于靶细胞的RNA样品作为模板，合成互补DNA；

(2)使用所述互补DNA作为模板，合成双链互补DNA；

(6)使用(5)的PCR扩增子、添加的通用接头引物和添加接头的第三TCR或BCR的C区特异性引物进行第三PCR扩增反应，其中，在所述添加的通用接头引物中，所述通用接头引物的核酸序列包括第一额外的接头核酸序列；在所述添加接头的第三TCR或BCR的C区特异性引物中，第二额外的接头核酸序列和分子鉴定(MID标签)序列被添加到第三TCR或BCR的C区特异性序列了；其中

22.根据权利要求21所述的方法，其中，所述第一TCR或BCR的C区特异性引物、所述第二TCR或BCR的C区特异性引物和所述第三TCR或BCR的C区特异性引物各自独立地是用于TCR库或BCR库分析的引物，所选择的引物是与IgM、IgG、IgA、IgD或IgE的各同种型C区完全匹配的序列，并且对于BCR，是与IgG和IgA的亚型完全匹配的序列，并且与数据库中包含的其他序列不同源，并且亚型之间包括引物下游的不一致的碱基，并且

其中，所述通用接头引物序列被设计以便该序列具有适用于扩增的碱基长度，不可能具有同源二聚体和分子内的发夹结构，并且能稳定形成双链，并且所述通用接头引物序列被设计以与数据库中的所有BCR基因序列都没有高度同源性，并且具有与C区特异性引物相同的水平的Tm。

23.根据权利要求14所述的方法，其中，所述第一TCR或BCR的C区特异性引物具有以下结构：CM1(SEQ ID NO：5)、CA1(SEQ ID NO：8)、CG1(SEQ ID NO：11)、CD1(SEQ ID NO：14)、CE1(SEQ ID NO：17)、CA1(SEQ ID NO：35)或CB1(SEQ ID NO：37)。

24.根据权利要求14所述的方法，其中，所述第二TCR或BCR的C区特异性引物具有以下结构：CM2(SEQ ID NO：6)、CA2(SEQ ID NO：9)、CG2(SEQ ID NO：12)、CD2(SEQ ID NO：15)、CE2(SEQ ID NO：18)、CA2(SEQ ID NO：35)或CB2(SEQ ID NO：37)。

25.根据权利要求14所述的方法，其中，所述第三TCR或BCR的C区特异性引物具有以下结构：CM3-GS(SEQ ID NO：7)、CA3-GS(SEQ ID NO：10)、CG3-GS(SEQ ID NO：13)、CD3-GS(SEQID NO：16)或CE3-GS(SEQ ID NO：19)。

26.根据权利要求14所述的方法，其中，以与所有TCR或BCR亚类相适的组的形式提供TCR或BCR的C区特异性引物。

27.一种使用权利要求14～26中任一项所述的方法制造的样品进行基因分析的方法。

28.根据权利要求27所述的方法，其中，所述基因分析是对T细胞受体(TCR)或B细胞受体(BCR)的可变区的库的定量分析。

29.一种制备用于受试对象的癌症独特型肽致敏免疫细胞疗法的组合物的方法，所述方法包括：

(1)通过权利要求B1的方法，分析受试对象的T细胞受体(TCR)库或B细胞受体(BCR)库；

(3)基于所确定的来源于癌症的TCR或BCR，确定候选HLA测试肽的氨基酸序列，其中，基于使用HLA结合肽预测算法计算的评分，来进行所述确定；以及

(4)合成所确定的肽。

30.根据权利要求29所述的方法，其中，使用BIMAS、SYFPEITHI、RANKPEP或NetMHC，确定步骤(3)的所述候选HLA测试肽。

31.根据权利要求29所述的方法，其中，所述方法在步骤(4)之后包括以下步骤：混合所述肽、来源于所述受试对象的抗原递呈细胞或树突细胞和来源于所述受试对象的CD8⁺T细胞，并且培养混合物。

32.根据权利要求29所述的方法，所述方法在步骤(4)之后包括以下步骤：混合所述肽与来源于所述受试对象的树突细胞，并且培养混合物。

33.根据权利要求29所述的方法，其中，所述方法在步骤(4)之后包括以下步骤：混合所述肽、来源于所述受试对象的抗原递呈细胞或树突细胞和来源于所述受试对象的CD8⁺T细胞，并且培养混合物，以产生CD8⁺T细胞-树突细胞/抗原递呈细胞-肽的混合物；并且，混合所述肽与来源于所述受试对象的树突细胞，并且培养混合物，以产生树突细胞-肽的混合物。

34.一种通过体外抗原刺激制备分离的癌症特异性TCR基因的方法，包括：

(A)混合来源于受试对象的抗原肽或抗原蛋白或权利要求C1中所确定的肽或来源于所述受试对象的淋巴细胞，来源于所述受试对象的灭活的癌细胞，和来源于所述受试对象的T淋巴细胞，并且培养混合物以产生肿瘤特异性T细胞；

(B)通过权利要求1的方法，分析所述肿瘤特异性T细胞的TCR；以及

(C)基于分析的结果，分离期望的肿瘤特异性T细胞。

35.根据权利要求34所述的方法，其中，步骤(A)是如下步骤：将来源于所述受试对象的灭活的癌细胞和来源于所述受试对象的抗原肽或抗原蛋白，与来源于所述受试对象的T淋巴细胞混合，并且培养混合物以产生肿瘤特异性T细胞。

36.根据权利要求34所述的方法，其中，步骤(A)是如下步骤：混合来源于所述受试对象的淋巴细胞、来源于所述受试对象的灭活的癌细胞和来源于所述受试对象的T淋巴细胞，并且培养混合物以产生肿瘤特异性T细胞。

37.根据权利要求34所述的方法，其中，步骤(A)是如下步骤：混合权利要求C1中所确定的肽、来源于所述受试对象的灭活的癌细胞和来源于所述受试对象的T淋巴细胞，并且培养混合物以产生肿瘤特异性T细胞。

38.一种通过搜索共有序列制备分离的癌症特异性TCR基因的方法，包括：

(B)对于所述淋巴细胞或癌症组织，通过权利要求1的方法分析所述肿瘤特异性T细胞的TCR；以及

(C)分离具有与所述肿瘤特异性T细胞同样的序列的T细胞。

39.一种制备用于细胞处理疗法的引入了肿瘤特异性TCR基因的T淋巴细胞的方法，包括：

A)提供从患者收集的T淋巴细胞；

B)在对所述T淋巴细胞施加了抗原刺激之后，基于权利要求1的方法分析TCR，其中通过来源于受试对象的抗原肽或抗原蛋白、来源于受试对象的灭活的癌细胞或来源于肿瘤的独特型肽，施加所述抗原刺激；

C)在分析的TCR中，选择最佳的TCR和最佳的抗原；以及

D)产生所述最佳的TCR的TCR基因的肿瘤特异性TCRα和TCRβ病毒表达载体。

40.根据权利要求39所述的方法，其中，使用来源于受试对象的抗原肽或抗原蛋白，施加所述抗原刺激。

41.根据权利要求39所述的方法，其中，使用来源于受试对象的灭活的癌细胞，施加所述抗原刺激。

42.根据权利要求39所述的方法，其中，使用来源于肿瘤的独特型肽，施加所述抗原刺激。

43.根据权利要求39所述的方法，其中，步骤C)包括选择在所述受试对象的癌症组织中高表达的抗原。

44.根据权利要求39所述的方法，其中，步骤C)包括选择，在抗原特异性淋巴细胞刺激测试中最强有力地活化T细胞的抗原。

45.根据权利要求39所述的方法，其中，步骤C)包括选择基于权利要求1进行的库分析，在施加所述抗原刺激之前和之后，使特定TCR的频率增加最大的抗原。

46.一种使用权利要求38的方法分离的癌症特异性TCR基因，通过体外刺激测试评估有效性和/或安全性的方法。