CN110627895A

CN110627895A - 肺癌特异性tcr及其分析技术和应用

Info

Publication number: CN110627895A
Application number: CN201810664561.XA
Authority: CN
Inventors: 张泽民; 董明晖; 郑良涛; 张园园; 郭心怡; 胡学达
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2019-12-31
Anticipated expiration: 2038-06-25
Also published as: CN110627895B

Abstract

本发明利用单细胞转录组分析技术，通过分析肺癌患者的癌症组织中浸润的T细胞的TCR基因，发现和分离并表征了一系列新的克隆性的TCR基因及其序列，这些TCR可能是由肿瘤细胞抗原刺激T细胞产生的，表达这些TCR的T细胞可能具有特异性识别肿瘤细胞抗原，并杀死肿瘤细胞的活性，存在用于过继细胞疗法的前景。

Description

肺癌特异性TCR及其分析技术和应用

技术领域

本发明涉及生物技术领域，尤其是涉及肺癌特异性TCR及其分析技术，以及所述肺癌特异性TCR在肺癌治疗中的应用。

背景技术

高等生物防御机制高度依赖于包含T细胞和B细胞在内的过继免疫系统。 T细胞具有在细胞表面上表达的特异性的受体分子TCR(T cell receptor)，其能识别并且区分自身或外源抗原。通过由抗原受体反应来传递细胞内信号，促进细胞增殖，进而启动各种免疫应答，如增强炎性细胞因子、趋化因子等的产生。

TCR识别与抗原呈递细胞表达的主要组织相容性复合体(MHC)以及抗原肽结合，形成肽-MHC(pMHC)-TCR复合体，将自身和非自身的抗原区分开并且识别抗原肽。TCR是由两个TCR多肽链组成的异源二聚体受体分子，大多数T细胞表达αβTCR，以及少数T细胞表达具有特殊功能的γδTCR。α链和β链TCR分子与多个CD3分子(CD3ζ链、CD3ε链、CD3γ链和CD3δ链)形成复合体，在抗原识别之后传递细胞内信号，并且启动多种免疫应答。内源性抗原，诸如来自癌细胞的癌抗原或在细胞内增殖的病毒抗原，被MHC I类分子递呈为抗原肽。抗原呈递细胞通过内吞作用获得并且加工来源于外源性微生物的抗原，然后递呈在MHCII类分子上。这样的抗原被CD8⁺T细胞和 CD4⁺T细胞各自所表达的TCR识别。

TCR基因由基因组中不同区域编码的多个V区(可变区，V)、J区(连接区，J)、D区(多变区，D)和C区(恒定区，C)组成。在T细胞分化过程中，这些基因片段以多种组合进行基因重排。α链和γ链TCR表达由V-J-C 组成的基因，而β链和δ链TCR表达由V-D-J-C组成的基因。目前，IMGT (International ImMuno GeneTics project)的数据库具有43种功能性α链TCR V

TCR分子与pMHC复合体表面直接结合的区域(TCR足迹)由V区内的三个多样性互补确定区(CDR)CDR1区、CDR2区和CDR3区构成。CDR3区具体包括一部分V区、一部分J区和由随机序列形成的V-D-J区，形成最多样的抗原识别位点。同时，其它区域被称为FR(构架区)，用于形成TCR分子的骨架结构。胸腺中的T细胞在分化和成熟过程中，β链TCR最先进行基因重排，并且缀合pTα分子以形成前TCR复合体分子。然后，α链TCR进行重排形成 αβTCR分子，并且当没有形成功能性αβTCR时，则在其他α链TCR基因等位基因中发生重排。已知在胸腺中进行正/负选择之后，选择出具有适当亲和力的 TCR以获得抗原特异性。

T细胞产生对特定抗原具有高水平特异性的一种TCR。由于在活的生物体中有许多抗原特异性T细胞，可形成多样性TCR库，以有效起到抵御多种病原体的防御机制的作用，TCR库是免疫细胞的特异性或多样性的重要指示物。对TCR库的分析是提升免疫反应效果或治疗自身免疫性疾病的有用方法。如果T细胞应答于抗原而进行增殖，则在多样性库中观察到特定TCR基因的比率增加(克隆性增加)。已经尝试通过对TCR库进行分析，以根据克隆性的增加来检测肿瘤中表达TCR的淋巴细胞的发育(Leukemia Research，2003， 27，305-312)；报道了在暴露于选择性刺激具有特定Vβ链的TCR的分子(诸如超抗原)时，特定Vβ链的使用频率增加(Immunology 1999，96，465-72.)。为了研究抗原特异性免疫应答，频繁用于分析由免疫失调诱导的难治的自体免疫性疾病，诸如类风湿性关节炎、系统性红斑狼疮、肖格伦综合征和特发性血小板减少性紫癜，并且已证明了其有用性。

当前免疫治疗已经成为肿瘤临床治疗中不可或缺的环节。免疫治疗的药物和方案涉及到机体免疫系统识别和攻击癌细胞的各个阶段。已有的肿瘤免疫药物包括以下多个类型：靶向癌细胞的抗体、过继细胞治疗、溶瘤病毒、树突状细胞相关治疗、DNA和蛋白水平的肿瘤疫苗、免疫激活细胞因子以及其他免疫调节化合物。其中针对T细胞检验点抑制蛋白的抗体类药物和肿瘤抗原特异性的T细胞过继疗法近年来取得突破，广受瞩目。

过继细胞疗法(adoptive cell transfer，ACT)，是将激活的T淋巴细胞输入机体行使免疫功能。一般操作方式为：从病患肿瘤组织中分离肿瘤浸润淋巴细胞群，从中分离出T细胞并辅以T细胞生长因子(如IL-2)在体外培养和激活；筛选出具有肿瘤特异性的T细胞进行体外扩大培养，随后输入患者体内，联合化疗或放疗共同治疗。ACT最具挑战的步骤是T细胞特异地识别肿瘤细胞。嵌合抗原受体-T细胞(Chimeric Antigen Receptor T-cell,CAR-T)疗法和TCR-T疗法是提高其效率的有效途径。CAR-T需要构建嵌合抗原受体，通常是用编码两个抗体可变区的基因编码一个可变区，再嫁接到TCR的胞内部分，后者可以激活T细胞的免疫活性。而TCR-T疗法则用人类肿瘤抗原刺激表达人类MHCⅠ的小鼠，从而得到特异杀死肿瘤的小鼠T细胞，克隆其TCR 并使其在病患T细胞上表达，最终将这些改造好的细胞输回病患体内进行免疫治疗。因此，如何高效分离和分析患者个体化的TCR，并且开发可用于肿瘤治疗的TCR-T细胞有重要的临床价值。

发明内容

本发明发明人利用单细胞转录组分析技术，通过分析肺癌患者的癌症组织中浸润的T细胞，发现、分离并表征了一系列新的克隆性的TCR基因及其序列，这些TCR可能是由肿瘤细胞抗原刺激T细胞产生的，表达这些TCR的T 细胞可能具有特异性识别肿瘤细胞抗原，并杀死肿瘤细胞的活性，存在用于过继细胞疗法的前景。

进一步的，本发明发明人提供了一种利用单细胞TCR序列进行柔性对接，进而预测TCR，MHC和小肽段的结合能力，并用于预测或发现肺癌患者体内新的肿瘤抗原的方法。

本发明的一个目的是提供一系列新的TCR。本发明的再一个目的是提供编码这些TCR的核酸序列。本发明的另一个目的是提供携带所述TCR的核酸序列的表达载体。本发明的另一个目的是提供表达所述TCR的T细胞。本发明的另一个目的是提供所述T细胞的制备方法，以及相应T细胞在肺癌过继免疫治疗中的应用。本发明的另一个目的是提供一种预测TCR，MHC和小肽段结合能力的计算方法。本发明的另一个目的是提供一种预测新的肿瘤抗原的方法。本发明的再一个目的是提供一种筛选肺癌肿瘤组织T细胞的TCR或新的肿瘤抗原的方法。

本发明的技术方案如下：

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表1-14中的每张表所列的TCR的α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表1-14中的每张表所列的对应TCR的α链的VJ和β链的VDJ。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别如表1-14中的每张表所列的对应TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列，或实质与之相似的序列。

优选所述TCR的α链的全长核酸序列和β链的全长核酸序列分别如表1-14 中的每张表所列的对应TCR的α链的全长核酸序列和β链的全长核酸序列，或与之基本上同源的核酸序列。

具体如下：

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表1中的SEQ ID No.1和SEQ ID No.3，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表1中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表1中的SEQ ID No.2和SEQ ID No.4，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表2中的SEQ ID No.5和SEQ ID No.7，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表2中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表2中的SEQ ID No.6和SEQ ID No.8，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表3中的SEQ ID No.9和SEQ ID No.11，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表3中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表3中的SEQ ID No.10和SEQ ID No.12，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表4中的SEQ ID No.13和SEQ ID No.15，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表4中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表4中的SEQ ID No.14和SEQ ID No.16，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表5中的SEQ ID No.17和SEQ ID No.19，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表5中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表5中的SEQ ID No.18和SEQ ID No.20，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表6中的SEQ ID No.21和SEQ ID No.23，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表6中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表6中的SEQ ID No.22和SEQ ID No.24，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表7中的SEQ ID No.25和SEQ ID No.27，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表7中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表7中的SEQ ID No.26和SEQ ID No.28，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表8中的SEQ ID No.29和SEQ ID No.31，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表8中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表8中的SEQ ID No.30和SEQ ID No.32，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表9中的SEQ ID No.33和SEQ ID No.35，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表9中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表9中的SEQ ID No.34和SEQ ID No.36，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表10中的SEQ ID No.37和SEQ ID No.39，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表10中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表10中的SEQ ID No.38和SEQ ID No.40，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表11中的SEQ ID No.41和SEQ ID No.43，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表11中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表11中的SEQ ID No.42和SEQ ID No.44，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表12中的SEQ ID No.45和SEQ ID No.47，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表12中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表12中的SEQ ID No.46和SEQ ID No.48，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表13中的SEQ ID No.49和SEQ ID No.51，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表13中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表13中的SEQ ID No.50和SEQ ID No.52，或实质与之相似的序列。

一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为表14中的SEQ ID No.53和SEQ ID No.55，或实质与之相似的序列。

优选所述TCR的α链的VJ和β链的VDJ分别如表14中对应所述。

优选所述TCR的α链的V区的氨基酸序列和β链的V区的氨基酸序列分别为表14中的SEQ ID No.54和SEQ ID No.56，或实质与之相似的序列。

分离的核酸，其编码上述TCR的α链的CDR3的氨基酸序列，或者β链的 CDR3的氨基酸序列，或者α链的V区的氨基酸序列，或者β链的V区的氨基酸序列，或者α链的VJ，或者β链的VDJ，或者与所述氨基酸序列实质上相似的氨基酸序列。

分离的核酸，其编码如表1-14中所述的任一TCR的α链的全长核酸序列，或任一TCR的β链的全长核酸序列，或与之基本上同源的核酸序列。

表达载体，包含所述的核酸。

根据本发明，所述载体包括但不限于病毒、质粒、粘粒、噬菌体、酵母等。

宿主细胞，包含所述的核酸。

根据本发明，所述宿主细胞包括但不限于真核细胞、细菌细胞、昆虫细胞或人细胞。例如：Vreo细胞、Hela细胞、COS细胞、CHO细胞、HEK293 细胞、BHK细胞、MDKII细胞、Sf9细胞等。

一种具有上述TCR或编码所述TCR的核酸序列的T细胞群、T细胞株或重组表达的T细胞。

所述的T细胞群、T细胞株、重组表达的T细胞或编码该TCR的核酸序列在诊断或治疗中是有用的。对于诊断，通过检验是否上述序列仅在肺癌的患者中，是否上述序列更多地在肺癌患者中观察到，或者上述序列在肺癌患者的癌症组织中积累，可发现肺癌，或者可预测病理状况或预后。对于肺癌的治疗，可以利用具有上述TCR的T细胞群，T细胞株，或重组表达的T细胞。

上述TCR、分离的核酸、表达载体、T细胞群、T细胞株或重组表达的T 细胞在制备治疗肺癌的药物中的应用。

一种制备含有所述TCR的T细胞的方法。

在本发明的一个实施方式中，所述制备方法可以包括如下步骤：(1)基于本发明所述的TCR，确定候选HLA和测试肽的氨基酸序列；(2)合成所确定的HLA和测试肽，并体外形成复合体；(3)用该HLA-肽刺激淋巴细胞。

根据本发明，可以基于使用HLA结合肽预测算法计算的得分，进行该候选HLA-肽的氨基酸序列的确定。例如可以使用BIMAS、SYFPEITHI、 RANKPEP或NetMHC等，确定所述候选HLA-肽。

在本发明的另一个实施方式中，所述制备方法可以包括以下步骤：(1) 将本发明所述的TCRα或TCRβ基因引入到用于基因表达的逆转录病毒载体中；(2)从表达TCRα和TCRβ基因的逆转录病毒载体，创建引入基因的病毒； (3)使用所述带有TCRα和TCRβ基因的病毒独立且依次地感染从患者收集的淋巴细胞，以进行转染，或者创建包括TCRα和TCRβ基因的基因表达逆转录病毒载体，以一次转化这两种基因；(4)证明TCRα/TCRβ异源二聚体在细胞表面上表达。

一种肺癌肿瘤组织中T细胞的单细胞转录组TCR分析方法，所述方法包括如下步骤：(1)获得单个的T细胞；(2)构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量；(3)鉴别单个T细胞的TCR序列和克隆性识别。

根据本发明，可采用本领域已知的多种方法获得单个的T细胞，例如对于血液中的单个T细胞，可采用密度梯度离心法；对于组织中的单个T细胞，可采用研磨法。

根据本发明，可采用本领域已知的各种单细胞转录组的cDNA文库构建方法，构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量，例如：汤富酬2009年创立的方法(Tang,F.et al.RNA-Seq analysis to capture the transcriptome landscapeof a single cell.Nat.Protoc.5,516–535(2010))、STRT-Seq(single-cell taggedreverse trans cription sequencing)、Smart-Seq和 Smart-Seq2、Cell-Seq(cellexpression by linear amplification and sequencing)和 PMA-Seq(Phi29-mRNAamplification and sequencing)等方法。

在本发明的一个优选实施方式中，采用Smart-Seq2构建每个T细胞的 cDNA文库并测序，获得每个细胞每个基因的表达量。

本发明的发明人，对比研究了汤富酬2009年创立的方法和Smart-Seq2，发现Smart-seq2法在保证测序质量的情况下可以检测到更多的基因，包括T淋巴细胞共有的标志物CD3基因；并且Smart-seq2法更有利于扩增出完整的 cDNA，更适用于进行T细胞单细胞转录组扩增。

本发明的发明人通过实验研究，进一步改进了Smart-seq2中的操作条件，提高了mRNA的反转录收率，以及PCR扩增后产物的纯化效率。

在本发明的具体实施方式中，采用Smart-seq2法反转录时，采用如下的反转录条件，提高了反转录cDNA的产率和cDNA全长的比例：

相比于常用的50℃30分钟的反转录条件，改进后的反转录条件能将 cDNA产率提高16～23％，cDNA全长的平均长度提高20％左右。

在本发明的具体实施方式中，采用Smart-seq2法对PCR扩增产物纯化时的方法如下，提高了PCR产物的纯度，有利于后续的测序和文库构建质量的提高：用磁珠进行两次纯化，第一次纯化时，所加入的磁珠体积与PCR扩增产物体积相同，第二次纯化时，所加入的磁珠体积为PCR扩增产物体积的2倍。

根据本发明，在进行步骤(3)的分析时，对步骤(2)获得的生物信息数据进行比对和质量控制，去除低质量的部分。

根据本发明，对于cDNA的测序读段(reads)数据质量控制的方法为：保留符合以下条件的测序读段：①未知碱基占给定读段总序列不超过10％， ②Phred质量值低于5的碱基不超过50％，③不含有接头序列。

根据本发明，对于细胞质量控制的方法为，去除数据量和数据质量低的细胞，保留符合以下条件的细胞：①CD3D的TPM大于3；②当分离CD4⁺T细胞时，CD4的TPM需要大于3，同时CD8的TPM小于30；③分离CD8⁺T细胞时，CD8的TPM需要大于3，同时CD4的TPM小于30；④线粒体基因上的读段占所有读段的比例不高于10％。其中，TPM值的定义为：

其中C_ij表示为基因i在细胞j中的读段的数量。

根据本发明，对用于分析的单细胞的基因表达量的质量控制方法为：当一个基因在所有细胞中被检测到的读段平均数量大于1才用于后续分析。

根据本发明，在步骤(3)中使用软件TraCeR进行单个T细胞的TCR序列识别。

根据本发明，在步骤(3)的克隆性识别中，采用如下方法：比较任意两个细胞中的TCRɑ和TCRβ的序列，当两个细胞中至少一种TCRɑ同时至少一种 TCRβ的序列完全一致时，且一致的TCRɑ和TCRβ的序列是可以翻译成有效蛋白质的，且TCRɑ的TMP值至少大于10和TCRβ的TMP值至少大于15，这样的两个细胞被认为来自同一克隆。

一种预测肺癌患者肿瘤组织中T细胞的TCR，MHC和小肽段结合能力的计算方法，其特征在于包括如下步骤：

1)获得肺癌患者肿瘤免疫细胞的TCR的RNA序列，肿瘤患者的MHC类型，以及小肽段的序列，输入RosettaDock软件；

2)根据已知序列和蛋白质结构数据库，对TCR序列进行蛋白质结构的同源建模；

3)确认TCR中CDR的6个loop区(环状区域)，并进行分步模拟，计算出所述6个loop区的结合自由能；所述6个loop区的确认方法是，根据小肽段的氨基酸残基计算出小肽段三维结构中心，依据RosettaDock软件识别出TCR 的CDR的loop区，计算各loop区与小肽段三维结构中心的距离，选择距离最近的6个loop区；

4)将MHC，TCR和小肽段结合在一起，分别进行低分辨率以及高分辨率的对接进程计算，达到最大迭代次数终止计算；

5)分析结果，RMSD，计算对接自由能和表示结合能力强弱的打分函数值(Rosettascore)。

根据本发明，步骤1)中，肺癌患者肿瘤免疫细胞的TCR的RNA序列可以来自于已知各种公共数据库中已经披露的TCR的RNA序列，也可以是采用本领域已知的各种测序方法由肺癌患者肿瘤免疫细胞中测序获得的。优选，采用本发明提供的T细胞的单细胞转录组TCR分析方法，对采自肺癌患者的肿瘤免疫细胞进行单细胞测序和分析，获得大量潜在可用的TCR的RNA序列，用于本发明的计算和预测分析。

根据本发明，步骤1)中，患者的MHC类型，可以采用本领域已知的外显子测序方法并运行optitype得到MHC类型，例如参照Szolek A1,Schubert B2, Mohr C2,Sturm M1,Feldhahn M1,Kohlbacher O1.OptiType:precision HLA typing from next-generationsequencing data.Bioinformatics.2014Dec 1；30(23):3310-6.doi:10.1093/bioinformatics/btu548.Epub 2014Aug 20.记载的方法进行实验和分析。

根据本发明，步骤1)中，小肽段序列可以采用NetMHC和本领域已知的 RNA测序技术，预测患者体内的小肽段序列，例如，参照Andreatta M,Nielsen M.Gapped sequencealignment using artificial neural networks:application to the MHC class Isystem.Bioinformatics(2016)Feb 15；32(4):511-7；Nielsen M, Lundegaard C,WorningP,Lauemoller SL,Lamberth K,Buus S,Brunak S,Lund O.Reliable prediction of T-cell epitopes using neural networks with novel sequencerepresentations.Protein Sci.,(2003)12:1007-17记载的方法进行实验和分析。

根据本发明，步骤2)中同源建模可采用本领域常用的各种同源建模方法，将得到的TCR的RNA序列翻译成氨基酸序列，根据已知序列和蛋白质结构数据库，通过寻找同源蛋白，预测TCR的三维结构。

根据本发明，步骤3)中，根据小肽段的氨基酸残基计算出小肽段三维结构中心，依据RosettaDock软件识别出TCR的CDR的loop区，计算各loop区与小肽段三维结构中心的距离，选择距离最近的6个loop区作为后续分析TCR， MHC和小肽段结合能力的基础。

所述小肽段三维结构中心是指，小肽的所有原子的三维坐标的均值中点。小肽段三维结构中心的计算及其方法是本领域已知的。

根据本发明，步骤3)中，进行分步模拟时，可以释放所有6个loop区；也可以为减少可变结构域对计算结果的干扰，每次模拟只释放6个loop区中的 5个、4个、3个、2个或1个，相应固定剩余的1个、2个、3个、4个或5个，如此类推，计算出每个loop区的结合自由能。优选每次模拟只释放6个loop区中的1个，固定剩余的5个，如此类推，计算出每个loop区的结合自由能。

根据本发明，步骤4)中首先通过低分辨率搜索探索同源建模得到的构象空间，然后通过蒙特卡罗最小化算法对所有原子进行局部细化。低分辨率对接时，蛋白质表示为主干加上侧链的质心表示，即侧链被表示为一个巨大的原子，以节省CPU时间。在这个阶段，RosettaDock试图为高分辨率搜索找到对接对象的大致方向。进行高分辨率对接(局部细化)时，蛋白质中的所有原子都被表示出来，在低分辨率搜索中找到的位置也得到了优化。高分辨率阶段消耗了RosettaDock最多的CPU时间。

根据本发明，依据步骤5)中获得的评分函数可以预测该患者体内最有可能引起免疫应答的新的抗原。Rosetta score越低的构象代表能量状态越低，能量状态越低的TCR-MHC-小肽段结构，越有可能是真实存在于生物体内的结合构象，由此，参与形成这种构象的小肽段越有可能是最易与所述TCR结合的小肽，即越有可能是引起免疫应答的新抗原，而相应的TCR序列也越有可能是结合力最强的TCR，可用于TCR-T疗法。

因此，所述计算方法还可用于预测或筛选新的肺癌肿瘤抗原，和/或预测或筛选可用于未来开发的TCR序列，提高从高通量测序技术获得的大量的肺癌肿瘤免疫细胞TCR序列中得到具有潜在生物活性价值的TCR的效率。

为了评估TCR对接基准内的结构多样性，本发明的发明人比较了 TCR/pMHC结构中主干构象以及更多的环状柔性结构的区域。结合TCR CDR 环的叠加显示了较大的结构变异，尤其是TCR的CDR 3α和CDR 3β环之间， CDR 1α和CDR 2α环的结构变异程度较小。在pMHCs的重叠中，肽骨架构象表现出很大的多样性，由不同的肽序列和长度以及MHC等位基因和结合 TCR驱动。发明人把CDR结构变异程度大的区域(loop区)，根据与小肽段三维结构中心的距离远近，选择出距离最近的6个区域，在对接的过程中6个 loop区分别进行无约束动态调整，从而达到TCR/pMHC复合物间最适合的对接结果。除了分析基准中TCR/pMHC复合物之间的变化外，发明人还计算了 TCRs的结合构象变化(根据每个测试用例计算的无约束和结合TCR结构)作为位置的函数，结果发现CDR 3α环在结合时表现出最大的平均构象变化，其次是CDR 3β和CDR 1α，其他CDR和pMHC结合位点的构象变化不太明显。由此说明，采用上述确定用于计算的loop区的方法有效可行，确定出TCR 的CDR的6个loop区就足以进行准确而又快捷的计算。

由于TCR-pMHC配合物的生产、结晶和结构测定具有挑战性，因此对新型配合物的建模具有重要的意义。本发明人利用了已知复合物中保守的结构特征，如受限的TCR结合位点和一般保守的对角对接模式，提供了前述的快速TCR-pMHC建模方法。

一种筛选肺癌肿瘤组织中T细胞的TCR或者肺癌的肿瘤新抗原的方法，所述方法包括如下步骤：1)对肺癌肿瘤组织中T细胞进行单细胞转录组TCR 分析，鉴定获得单个T细胞的TCR系列和克隆性识别；2)将步骤1)中获得的TCR，肿瘤患者的MHC类型，以及小肽段序列，输入RosettaDock软件，计算TCR，MHC和小肽段结合能力。

根据本发明，所述步骤1)进一步包括以下步骤：(a)获得单个的T细胞；(b)构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量；(c)鉴别单个T细胞的TCR序列和克隆性识别。

根据本发明，可采用本领域已知的各种单细胞转录组的cDNA文库构建方法，构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量。在本发明的一个优选实施方式中，采用Smart-Seq2构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量。

根据本发明，在进行步骤(c)的分析时，对步骤(b)获得的生物信息数据进行比对和质量控制，去除低质量的部分。

其中C_ij表示为基因i在细胞j中的读段的数量。

根据本发明，在步骤(c)中使用软件TraCeR进行单个T细胞的TCR序列识别。

根据本发明，在步骤(c)的克隆性识别中，采用如下方法：比较任意两个细胞中的TCRɑ和TCRβ的序列，当两个细胞中至少一种TCRɑ同时至少一种 TCRβ的序列完全一致时，且一致的TCRɑ和TCRβ的序列是可以翻译成有效蛋白质的，且TCRɑ的TMP值至少大于10和TCRβ的TMP值至少大于15，这样的两个细胞被认为来自同一克隆。

根据本发明，步骤2)进一步包括以下步骤：a)根据已知序列和蛋白质结构数据库，对TCR序列进行蛋白质结构的同源建模；b)根据小肽段的氨基酸残基计算出小肽段三维结构中心，依据RosettaDock软件识别出TCR的CDR 的loop区，计算各loop区与小肽段三维结构中心的距离，选择距离最近的6个 loop区，并进行分步模拟，计算出所述6个loop区的结合自由能；c)将MHC， TCR和小肽段结合在一起，分别进行低分辨率以及高分辨率的对接进程计算，达到最大迭代次数终止计算；d)分析结果，RMSD，计算对接自由能和表示结合能力强弱的打分函数值(Rosetta score)。

根据本发明，患者的MHC类型，可以采用本领域已知的外显子测序方法并运行optitype得到MHC类型。小肽段序列可以采用NetMHC和本领域已知的 RNA测序技术，预测患者体内的小肽段序列。

根据本发明，步骤a)中同源建模可采用本领域常用的各种同源建模方法，将得到的TCR的RNA序列翻译成氨基酸序列，根据已知序列和蛋白质结构数据库，通过寻找同源蛋白，预测TCR的三维结构。

根据本发明，步骤b)中，进行分步模拟时，可以释放所有6个loop区；也可以为减少可变结构域对计算结果的干扰，每次模拟只释放6个loop区中的 5个、4个、3个、2个或1个，相应固定剩余的1个、2个、3个、4个或5个，如此类推，计算出每个loop区的结合自由能。优选每次模拟只释放6个loop区中的1个，固定剩余的5个，如此类推，计算出每个loop区的结合自由能。

根据本发明，步骤c)中首先通过低分辨率搜索探索同源建模得到的构象空间，然后通过蒙特卡罗最小化算法对所有原子进行局部细化。低分辨率对接时，蛋白质表示为主干加上侧链的质心表示，即侧链被表示为一个巨大的原子，以节省CPU时间。在这个阶段，RosettaDock试图为高分辨率搜索找到对接对象的大致方向。进行高分辨率对接(局部细化)时，蛋白质中的所有原子都被表示出来，在低分辨率搜索中找到的位置也得到了优化。高分辨率阶段消耗了RosettaDock最多的CPU时间。

根据本发明，依据步骤d)中获得的评分函数可以预测该患者体内最有可能引起免疫应答的新的抗原。Rosetta score越低的构象代表能量状态越低，能量状态越低的TCR-MHC-小肽段结构，越有可能是真实存在于生物体内的结合构象，由此，参与形成这种构象的小肽段越有可能是最易与所述TCR结合的小肽，即越有可能是引起免疫应答的新抗原，而相应的TCR序列也越有可能是结合力最强的TCR，可用于TCR-T疗法。

由此筛选出的新的抗原或者TCR可用于制备含有所述TCR的T细胞，并将该细胞用于肺癌的治疗。

例如，在本发明的一个实施方式中，所述T细胞的制备方法可以包括如下步骤：(1)将Rosetta score最低的TCR、MHC和小肽序列选出；(2)合成所确定的MHC和小肽，并体外形成复合体；(3)用该MHC-小肽刺激淋巴细胞。

在本发明的另一个实施方式中，所述T细胞的制备方法可以包括以下步骤：(1)将Rosetta score最低的TCR、MHC和小肽序列选出；将所述的TCRα 或TCRβ基因引入到用于基因表达的逆转录病毒载体中；(2)从表达TCRα 和TCRβ基因的逆转录病毒载体，创建引入基因的病毒；(3)使用所述带有 TCRα和TCRβ基因的病毒独立且依次地感染从患者收集的淋巴细胞，以进行转染，或者创建包括TCRα和TCRβ基因的基因表达逆转录病毒载体，以一次转化这两种基因；(4)证明TCRα/TCRβ异源二聚体在细胞表面上表达。

在本发明中：

当用来描述核酸时，“同源的”表示当两个核酸或其指定的序列在最佳比对和比较时至少80％的核苷酸、并且更优选至少大约98％至99％的核苷酸是一致的，伴有适当的核苷酸插入或缺失。术语“同源物”或“同源的”也指就结构和/或功能而言的同源性。就序列同源性而言，如果多个序列是至少80％以上相同的，例如：至少90％、至少95％、至少97％或至少99％，则它们是同源物。术语“基本上同源的”是指至少90％以上相同，例如至少95％相同、至少97％相同或至少99％相同的序列。

当用来描述多肽序列时，术语“实质相似性”表示这种多肽包含在大约 10-100个氨基酸残基的比较窗(例如，抗体的重链或轻链可变区，TCR的α 链或β链的V区)范围内与参考序列具有至少80％以上序列一致性、或最优选 90％一致性、或最优选95％一致性、或最优选99％一致性的序列。在氨基酸序列的背景下，“实质相似性”进一步包括氨基酸的保守性置换。术语“实质一致性”表示当最佳比对(如通过使用默认空位权重的程序GAP或BESTFIT)时，两个肽序列共享至少80％序列一致性，优选至少90％序列一致性，更优选至少95％或更高的序列一致性(例如，至少99％或更高的序列一致性)。优选地，不相同的残基位置因保守性氨基酸置换而不同。

本发明的基因或氨基酸序列的同源物的确定可以由技术人员容易地确定。

术语“恶性肿瘤”、“肿瘤”和“癌症”可互换使用，是指以细胞不受控制、过度增生性或异常生长或转移为特征的疾病或失调。

如无特殊说明，在本发明中，氨基酸序列都是从N端到C端，碱基序列都是从5’端到3’端。

附图说明

图1流式分选单细胞。纵向：第一行：外周血中T细胞；第二行：正常组织中的T细胞；第三行：肿瘤组织中T细胞。横向：第一列：选择活细胞；第二列：在活细胞中选择CD3⁺样本(T细胞)；第三列：在CD3⁺细胞中选择 CD4⁺和CD8⁺细胞；第四列：在CD4⁺细胞中分别选择CD25强阳性、CD25弱阳性和CD25阴性细胞。

图2合格的单细胞cDNA文库的Fragment Analysis测定结果图。

图3使用RosettaDock进行TCR/pMHC对接模拟的流程图。

具体实施方式

以下结合实施例对本发明做进一步描述。

以下实施例是对肺癌患者的T细胞单细胞转录组分析方法的示例说明。

需要说明的是，实施例不能作为对本发明保护范围的限制，本领域的技术人员理解，任何在本发明基础上所作的改进和变化都在本发明的保护范围之内。

以下实施例所用化学试剂都是常规试剂，均可商购获得。

所用分析软件及其来源如下：

GSNAP(http://research-pub.gene.com/gmap/)；

TraCeR(https://github.com/Teichlab/tracer)；

统计软件R(https://www.r-project.org/)。

实施例1T细胞的单细胞转录组数据获取

1、临床样本收集

从2015年6月到2017年6月，在北京大学第三医院采集患者的手术组织和外周血，包括癌组织(直径3～5mm)和癌旁正常组织，并采集外周血(3ml)。患者为非小细胞肺癌(包括肺鳞癌和肺腺癌)，未经受术前辅助放疗或化疗，共14例。本项研究符合赫尔辛基宣言的医学伦理标准，并通过北京大学医学伦理委员会的审核。

血样在手术前采集于EDTA抗凝管中暂时于冰上保存；癌组织和癌旁正常组织样本在手术中采集，其中癌症组织剔除坏死组织；癌旁组织为远离癌组织至少5cm处的正常组织。癌组织和癌旁组织在离体30分钟以内置于冰上和RNAlater(Qiagen)溶液中，当日内完成单细胞分离操作。

2、单细胞悬液制备

外周血：采用密度梯度离心法分离外周血单核细胞。具体操作为将3ml 全血缓慢加到3ml-1077分离液(Sigma，cat.no.1077)上， 400g室温离心30分钟，小心吸取白色层单核细胞，用10ml PBS清洗，4℃离心15分钟，重复上述清洗步骤一次。最后将细胞溶解于0.5ml PBS，并加入1％小牛血清(FBS)。

癌组织和癌旁正常组织：采用研磨法获得癌组织和癌旁正常组织的单细胞。首先将手术离体的组织剪成1mm³大小的碎块，浸泡于RPMI-1640培养基中。使用美天旎组织混匀仪获得单细胞悬液，仪器型号为GentleMACS Octo Dissociator，试剂盒使用TumorDissociation Kit，程序为Soft tissue Programe 3，通过40μm筛除组织碎片，400g离心10分钟收集单细胞悬液。使用红细胞裂解液进一步去除组织中混入的红细胞。同样用10mlPBS清洗两次，最后将细胞溶解于0.5ml PBS，并加入1％小牛血清(FBS)。

3、目的T细胞单细胞分离

分离的目的细胞包括细胞毒T细胞(CD3阳性，CD8阳性)，辅助性T细胞(CD3阳性，CD4阳性，CD25阴性)和调节性T细胞(CD3阳性，CD4阳性，CD25阳性)。

这三种细胞分别用不同抗体进行荧光标记，抗体来自eBioscience公司，每10⁶个细胞使用5μl抗体：

兔抗CD3抗体(FACS，Cat#48-0037-41)

兔抗CD4抗体(FACS，Cat#11-0048-41)

小鼠抗CD8抗体(FACS，Cat#17-0086-41)

小鼠抗CD25抗体(FACS，Cat#12-0259-42)

7AAD(FACS，Cat#00-6993-50)，7AAD用于标记死亡细胞。

96孔板的每个孔中预先加入反应溶液：

引物序列为：

AAGCAGTGGTATCAACGCAGAGTACTTTTTTTTTTTTTTTTT

TTTTTTTTTTTTTVN

目的T细胞的分离结果如图1所示。根据细胞表面的分子标记，选择细胞毒T细胞，辅助性T细胞和调节性T细胞，用流式细胞仪分别将单个细胞收集入相应的96孔板的每个孔中。

4、mRNA反转录和cDNA扩增

对于分离至96孔板中的单细胞进行反转录获得cDNA，操作步骤按照 SMART-seq2方法(Picelli,S.et al.Full-length RNA-seq from single cells using Smart-seq2.Nat.Protoc.9,171–181(2014).)，如下：

1)单细胞裂解：将上述溶液中的单细胞旋涡震荡至少10秒。在PCR仪上 72℃孵育3分钟。

2)加入内参RNA(ERCC RNA Spike-In Mix，Invitrogen，cat.no.4456740)。事先需要稀释350倍，加入1μl。内参RNA有助于对基因表达量的定量计算。

3)反转录：反应体系为：

TSO引物的序列为：AAGCAGTGGTATCAACGCAGAGTACATrGrG+G

反应条件为：

4)PCR扩增：反应体系为：

KAPA HiFi HotStart ReadyMix(2x) 12.5μl

IS PCR引物(10μM) 0.25μl

无核酸酶的超纯水 2.25μl。

IS PCR引物序列为：AAGCAGTGGTATCAACGCAGAGT

反应条件为：

经扩增后的PCR产物用Agencourt AMPure XP磁珠(Beckman)进行纯化，方法如下：

(1)在25μl上一步反应溶液中加入25μl磁珠，吹打混匀；

(2)室温放置5分钟；

(3)把盛有溶液的试管或板子放于磁力架上5分钟；

(4)移除液体；

(5)用100μl 80％的乙醇清洗磁珠，放置30秒后移除，重复此过程一次；

(6)从磁力架上拿下，加入20μl EB溶液，吹吸混匀；

(7)放置2分钟后，置于磁力架上，放置2分钟后，再吸出液体。

研究中发现，上述过程中残留在溶液中的引物会降低文库构建的效率，使文库包含非细胞cDNA的成分。为此需要再增加一遍纯化操作，除将磁珠用量变成50μl之外，纯化过程与前述一致。

进行质量检测，即通过RT-PCR检测T细胞特别表达的基因CD3，判断扩增的有效性。

反应体系为：

CD3的引物序列为：TCATTGCCACTCTGCTCC(正向)和 GTTCACTTGTTCCGAGCC(反向)。

反应条件为：

5、测序文库构建

cDNA文库构建采用TruePrepTM DNA Library Prep Kit V2for试剂盒(vazyme，cat.no.TD501/502/503)；分别匹配双端index为TruePrepTM Index Kit V2for(vazyme，cat.no.TD202)。按照试剂盒说明书操作，用1μg cDNA起始建库。用磁珠做片段大小的选择，获得目的片段大小为 400bp～600bp的cDNA文库，最后经FragmentAnalysis进行质量控制，经测定，文库构建合格，相应的分析结果参见图2。

采用Illumina XTen测序，测序模式为双端150bp，质量保准为每个细胞至少获得1百万条读段。

实施例2生物信息分析

1、数据比对与质量控制

对于从测序仪获得的读段(reads)，首先去除低质量的部分，保留的标准如下：①未知碱基占给定读段总序列不能超过10％，②质量值低于5的碱基不能超过50％，③不能含有接头序列。使用GSNAP软件完成比对。计算基因表达量时，使用的参考基因集合来自UCSC的“knownGene.txt”，使用R语言包 “findOverlaps”统计读段在基因上的归属，使用TPM值标定每个基因在每个细胞中的表达量，使用的公式为：

其中C_ij表示为基因i在细胞j中的读段的数量。

数据量和数据质量低的T细胞需要被过滤掉。保留符合以下标准的细胞： ①CD3D的TPM大于3；②当分离CD4⁺T细胞时，CD4的TPM需要大于3，同时CD8的TPM小于30；③分离CD8⁺T细胞时，CD8的TPM需要大于3，同时 CD4的TPM小于30；④线粒体基因上的读段占所有读段的比例不高于10％。

另外，在文库容量(library size)和基因表达数量上也设定了一些参考标准。当一个基因在所有细胞中被检测到的读段平均数量大于1才用于后续分析。

2、单细胞TCR序列鉴定和克隆性识别

使用软件TraCeR鉴定单个T细胞中的TCR基因的CDR3部分的序列，重排的方式以及TCR基因的表达量。TraCeR首先定制一个TCR重排的参考序列库，如对α链重排，将把若干个N碱基(对应V基因的先导序列)、一种V基因段的一种等位基因的序列、连接处的若干个N碱基、一种J基因段的一种等位基因的序列以及C区域的序列连在一起，形成一种可能的重排模板序列；所有V基因的等位基因和J基因的等位基因的共约7,000种组合，形成了α链的参考序列库。类似的方法建立一个β链的参考序列库，包括共约2,272种组合的参考序列库。用比对软件Bowtie2(Langmead and Salzberg,2012)将测序读段和这个参考序列库作比对，筛选出来自TCR的读段。Bowtie2的参数设置使得其对空位或N碱基的比对有较低的罚分。再用软件Trinity(Grabherr et al.,2011) 把筛选出来的TCR的读段组装成重叠群；用IgBLAST将重叠群和 IMGT(Lefranc et al.,2009)数据库比对，识别出重叠群是由哪种V基因的等位基因和(D)J基因的等位基因重排产生的，V(D)J重排的连接处的序列是什么；如果重叠群上从V基因序列开始一直到C区域序列的这段序列有完整的阅读框并且没有终止密码子则这个TCR重排是能翻译成完整蛋白的，进而根据基序识别出CDR3序列。

同时，我们对同样的数据采用MiXCR和VDJpuzzle进行的TCR序列的鉴定。VDJpuzzle与TraCeR一样，是一种针对单细胞转录组鉴定TCR序列的方法，但在我们的数据中它的敏感性只有80％，而MiXCR和TraCeR分别为98％和99％。敏感性指鉴定出有效TCR序列的细胞比例。MiXCR是一个面向群体细胞的TCR序列鉴定软件，在我们的数据中它的假阳性率为20％，而TraCeR 和VDJpuzzle均不超过1％。假阳性的判定方法是在一个T细胞上发现超过两种 ɑ链和β链的TCR序列(一个细胞最多分别表达两种ɑ链和β链的TCR基因型)。对三种软件进行交叉验证时，TraCeR、MiXCR和VDJpuzzle三者的交叉验证率分别为93％,96％,96％，没有显著区别。综上，我们使用了TraCeR检验的结果。

TCR序列用于判断T细胞的克隆性。每个T细胞表达1～2种TCRɑ序列和 1～2种TCRβ序列。当两个细胞中至少一种TCRɑ同时至少一种TCRβ的序列完全一致时，这两个细胞被认为来自同一克隆。同时，要求一致的TCRɑ和TCRβ 的序列是可以翻译成有效蛋白质的。第三，TCRɑ的TMP值至少大于10，TCRβ 的TMP值至少大于15。

通过TraCeR软件识别和判定，并与已知数据库进行对比，共发现14个未被报道过的、在肺癌肿瘤组织中浸润的T细胞克隆性表达的TCR，每个TCR 的基本情况如下表1-14所示：

表1

表2

表3

表4

表5

表6

表7

表8

表9

表10

表11

表12

表13

表14

实施例3：TCR、MHC和小肽段结合能力的计算，以及新的肿瘤抗原的预测

从实施例2中获得的TCR序列中，选择了来自于最大的克隆组群中的TCR 序列，它们分别来自于前述14个肺癌患者，确定出对应患者的MHC类型(参照Szolek A1,SchubertB2,Mohr C2,Sturm M1,Feldhahn M1,Kohlbacher O1. OptiType:precision HLA typingfrom next-generation sequencing data. Bioinformatics.2014Dec 1；30(23):3310-6.doi:10.1093/bioinformatics/btu548. Epub 2014Aug 20.的方法)，利用NetMHC和每个患者的RNA-seq预测得到了小肽序列(参照Andreatta M,Nielsen M.Gapped sequencealignment using artificial neural networks:application to the MHC class Isystem.Bioinformatics (2016)Feb 15；32(4):511-7；Nielsen M,Lundegaard C,WorningP,Lauemoller SL,Lamberth K,Buus S,Brunak S,Lund O.Reliable prediction of T-cell epitopes using neural networks with novel sequencerepresentations.Protein Sci., (2003)12:1007-17的方法)，利用RosettaDock软件组装了59个由TCR/pMHC 复合物组成的对接模型(表15)。

表15肺癌患者的TCR、MHC和小肽的数量

对CDR loop区灵活性的观察和分析，把这部分区域分成6个部分，分别独立的进行和对象蛋白的精细对接模拟。MHC，TCR和小肽结合在一起对接模型，分别进行低分辨率以及高分辨率的对接进程。达到最大迭代次数终止计算。分析结果时，我们从RMSD最小的结构中挑选出打分函数值最低的构象，认为是接合自由能最低的构象，同时表示找到了结合能力最强的新抗原。

以14个患者之一P0617，针对其编号为NTR118-0617的免疫细胞克隆获得的TCR为例：该TCR是前述表4中编号为P0617_C000022的TCR，其α链和β 链的全长核酸序列如表4所述。

基于其loop区信息，利用RosettaDock软件构建MHC，TCR和6个小肽对接模型，得到了以Rosetta score为打分函数值的结果(表16)。从结果可知，肽段“TLFEPYTFR”是此患者给定的TCR结合最强的小肽。该小肽可用于后续肿瘤新抗原的进一步确认研究，以及相应抗体和免疫细胞的开发等。而该 TCR则可用于后续TCR-T疗法的实证研究。例如：合成A*30:01的MHC和小肽“TLFEPYTFR”，并在体外将两者形成复合体；用该MHC-小肽复合体刺激淋巴细胞，以得到表达P0617_C000022的TCR的T细胞。或者，将 P0617_C000022的TCR的TCRα或TCRβ基因引入到用于基因表达的逆转录病毒载体中，得到引入基因的病毒，将该病毒独立且依次地感染从患者收集的淋巴细胞，以进行转染，或者创建包括TCRα和TCRβ基因的基因表达逆转录病毒载体，以一次转化这两种基因，筛选细胞表面表达了该TCRα/TCRβ异源二聚体的T细胞。

表16患者P0617的NTR118-0617细胞的HLA类型，肽段序列和Rosetta score

TCRID	HLA	小肽段	Score	小肽段全长
					P0617_C000022	A*30:01	KKR	86.72	KKRHQFLIK
P0617_C000022	A*03:01	GMH	18.55	GMHATYYLK
					P0617_C000022	A*03:01	RVW	17.58	RVWCYAWSK
P0617_C000022	A*30:01	RSR	71.08	RSRGALRSI
					P0617_C000022	A*03:01	LLY	210.81	LLYRALKNK
P0617_C000022	A*03:01	TLF	3.09	TLFEPYTFR

其他的TCR分析结果如下：

对比实施例：

1、cDNA建库方法的对比

将Smart-seq2方法和汤富酬创建的方法(为方便描述，以下简称为 “Tang2009”，Tang,F.et al.RNA-Seq analysis to capture the transcriptome landscape of asingle cell.Nat.Protoc.5,516–535(2010).)

在cDNA扩增效率上：

在完成cDNA扩增后，以无核酸的超纯水为阴性对照，利用RT-PCR来检测管家基因β-actin、GAPDH或CD3基因的表达来检验扩增效率。判断基因是否表达的标准有两条：一是细胞样品RT-PCR的CT值明显小于阴性对照；二是细胞样品的溶解曲线峰值在85℃到90℃之间(阴性对照约为78℃)。

根据实验的结果，用Smart-seq2法扩增后，在绝大部分细胞中均可以检测到β-actin、GAPDH和CD3。用Tang2009法扩增后可在大部分细胞中检测到 β-actin和GAPDH的表达，仅能在极少数细胞中检测到CD3。

在cDNA文库质量上：

文库的构建不受扩增方法影响，用Tang2009法和Smart-seq2法扩增均能提供构建文库所需的cDNA量，所建文库的片段大小均符合Illumina测序仪要求。

但如果对比最终构建所得的cDNA文库数和用于建库的起始单细胞数的比值，以三个肝癌患者的样本比较来看，用Smart-seq2法扩增T细胞的成功率总体上高于Tang2009法，如下表所示。

构建cDNA文库成功率表

患者编号

建库方法

PTC

PTH

PTR

TTC

TTH

TTR

NTC

NTH

NTR

20141202

Tang2009

46％

24％

26％

62％

52％

78％

/

20150205

Smart-seq2

80％

67％

80％

60％

67％

/

20150508

Smart-seq2

92％

74％

92％

95％

92％

88％

70％

86％

/

注：“/”表示无该类型样本。PTC为外周血中的细胞毒T细胞，PTH为外周血中的辅助性T细胞，PTR为外周血中的调节性T细胞。TTC为癌组织中的细胞毒T细胞，TTH为癌组织中的辅助性T细胞，TTR为癌组织中的调节性T细胞。NTC为正常肝脏组织中的细胞毒T 细胞，NTH为正常肝脏组织中的辅助性T细胞，NTR为正常肝脏组织中的调节性T细胞。以下每个表的简写相同。

在测序质量上：

以三个肝癌患者的样本为例，具体参数见下表。

Tang2009法(患者20141202)样本平均测序质量表

细胞类型	总读段	高质量读段率	比对率	表达基因数
					PTC	1365867	90.02％	95.36％	1329
PTH	1912263	54.62％	98.36％	1189
					PTR	1380273	94.55％	98.85％	2376
TTC	1418412	88.63％	98.13％	1987
					TTH	2155667	93.54％	94.95％	1274
TTR	1446343	93.86％	97.52％	1698

Smart-seq2法(患者20150205)样本平均测序质量表

细胞类型	总读段	高质量读段率	比对率	表达基因数
					PTC	1561419	97.88％	62.47％	3042
PTH	1610403	98.33％	79.72％	2553
					PTR	1482323	98.42％	60.33％	3103
TTC	1442573	99.51％	51.83％	3071
					TTH	1890069	77.07％	66.7％	2478
TTR	1558685	98.49％	67.87％	3478

Smart-seq2法(患者20150508)样本平均测序质量表

细胞类型	总读段	比对率	高质量读段率	表达基因数
					NTC	1819830	97.10％	99.25％	2187
NTH	1431656	93.38％	99.44％	2267
					PTC	1476204.5	95.40％	99.38％	2745
PTH	1530590	86.35％	99.39％	2026
					PTR	1513190	96.09％	99.43％	2295.5
TTC	1602175	95.83％	99.38％	2823
					TTH	1562359.5	94.52％	99.38％	2795.5
TTR	1514486	96.33％	99.43％	2907

作为单细胞RNA-seq的数据，多数细胞的高质量读段率、比对率均较高，说明测序质量好，所得数据适合做表达量和表达序列的分析。从检测到的基因数方面看，Smart-seq2法所能检测到的基因数明显高于Tang2009法。

在扩增偏向上，Tang2009法和Smart-seq2法扩增cDNA时存在不同的倾向性。从测序结果的分析图中不难看出，Tang2009法更倾向于扩增出cDNA的3’端，这种偏向性不利于整个TCR结构的组装，而 Smart-seq2法则能更为均一地扩增cDNA，有利于组装出TCR的全部序列。

参考文献：

1.Eltahla AA,Rizzetto S,Pirozyan MR,Betz-Stablein BD,Venturi V,Kedzierska K,Lloyd AR,Bull RA,Luciani F.Linking the T cell receptor to thesingle cell transcriptome in antigen-specific human T cells.Immunol CellBiol. 2016Jul；94(6):604-11.doi:10.1038/icb.2016.16.Epub 2016Feb 10.

2.Bolotin DA,Poslavsky S,Mitrophanov I,Shugay M,Mamedov IZ,Putintseva EV,Chudakov DM.MiXCR:software for comprehensive adaptive immunityprofiling.Nat Methods.2015 May；12(5):380-1.doi: 10.1038/nmeth.3364.

3.Stubbington MJ,T,Proserpio V,Clare S,Speak AO,Dougan G,Teichmann SA.T cell fate and clonality inference from single-celltranscriptomes. Nat Methods.2016 Apr；13(4):329-32.doi:10.1038/nmeth.3800.Epub2016 Mar 7.

4.Grabherr,M.G.,Haas,B.J.,Yassour,M.,Levin,J.Z.,Thompson,D.A.,Amit,I.,Adiconis,X.,Fan,L.,Raychowdhury,R.,Zeng,Q.,et al.(2011).Full-lengthtranscriptome assembly from RNA-Seq data without a reference genome.Nat.Biotechnol.29,644–652.

5.Langmead,B.,and Salzberg,S.L.(2012).Fast gapped-read alignment withBowtie 2.Nat.Methods 9,357–359.

6.Lefranc,M.-P.,Giudicelli,V.,Ginestoux,C.,Jabado-Michaloud,J.,Folch,G., Bellahcene,F.,Wu,Y.,Gemrot,E.,Brochet,X.,Lane,J.,et al.(2009).IMGT,theinternational ImMunoGeneTics information system.Nucleic Acids Res.37, D1006–D1012.

Claims

1.一种TCR，其α链的CDR3的氨基酸序列和β链的CDR3的氨基酸序列分别为：表1中的SEQID No.1和SEQ ID No.3，或实质与之相似的序列；或，

分别为表2中的SEQ ID No.5和SEQ ID No.7，或实质与之相似的序列；或，

分别为表3中的SEQ ID No.9和SEQ ID No.11，或实质与之相似的序列；或，

分别为表4中的SEQ ID No.13和SEQ ID No.15，或实质与之相似的序列；或，

分别为表5中的SEQ ID No.17和SEQ ID No.19，或实质与之相似的序列；或，

分别为表6中的SEQ ID No.21和SEQ ID No.23，或实质与之相似的序列；或，

分别为表7中的SEQ ID No.25和SEQ ID No.27，或实质与之相似的序列；或，

分别为表8中的SEQ ID No.29和SEQ ID No.31，或实质与之相似的序列；或，

分别为表9中的SEQ ID No.33和SEQ ID No.35，或实质与之相似的序列；或，

分别为表10中的SEQ ID No.37和SEQ ID No.39，或实质与之相似的序列；或，

分别为表11中的SEQ ID No.41和SEQ ID No.43，或实质与之相似的序列；或，

分别为表12中的SEQ ID No.45和SEQ ID No.47，或实质与之相似的序列；或，

分别为表13中的SEQ ID No.49和SEQ ID No.51，或实质与之相似的序列；或，

分别为表14中的SEQ ID No.53和SEQ ID No.55，或实质与之相似的序列。

2.分离的核酸，其编码如权利要求1所述的TCR的α链的CDR3的氨基酸序列，或者β链的CDR3的氨基酸序列，或者与所述氨基酸序列实质上相似的氨基酸序列。

3.表达载体，包含如权利要求2所述的核酸。

4.宿主细胞，包含如权利要求2所述的核酸。

5.一种具有如权利要求1所述的TCR或编码如权利要求2所述核酸序列的T细胞群、T细胞株或重组表达的T细胞。

6.一种制备含有如权利要求1所述TCR的T细胞的方法，包括如下步骤：(1)基于权利要求1所述的TCR，确定候选HLA和测试肽的氨基酸序列；(2)合成所确定的HLA和测试肽，并体外形成复合体；(3)用该HLA-肽刺激淋巴细胞；

优选使用HLA结合肽预测算法计算的得分，进行该候选HLA-肽的氨基酸序列的确定；优选使用BIMAS、SYFPEITHI、RANKPEP或NetMHC，确定所述候选HLA-肽。

7.一种制备含有如权利要求1所述TCR的T细胞的方法，包括如下步骤：(1)将权利要求1所述的TCRα或TCRβ基因引入到用于基因表达的逆转录病毒载体中；(2)从表达TCRα和TCRβ基因的逆转录病毒载体，创建引入基因的病毒；(3)使用所述带有TCRα和TCRβ基因的病毒独立且依次地感染从患者收集的淋巴细胞，以进行转染，或者创建包括TCRα和TCRβ基因的基因表达逆转录病毒载体，以一次转化这两种基因；(4)证明TCRα/TCRβ异源二聚体在细胞表面上表达。

8.权利要求1所述的TCR、权利要求2所述的分离核酸、权利要求3所述的表达载体、权利要求4所述的宿主细胞、或权利要求5所述的T细胞群、T细胞株或重组表达的T细胞在制备肺癌治疗药物中的应用。

9.一种预测肺癌患者肿瘤组织中T细胞的TCR，MHC和小肽段结合能力的计算方法，其特征在于包括如下步骤：

1)获得肺癌患者肿瘤免疫细胞的TCR的RNA序列，患者的MHC类型，以及小肽段的序列，输入RosettaDock软件；

3)确认TCR中CDR的6个loop区，并进行分步模拟，计算出所述6个loop区的结合自由能；所述6个loop区的确认方法是，根据小肽段的氨基酸残基计算出小肽段三维结构中心，依据RosettaDock软件识别出TCR的CDR的loop区，计算各loop区与小肽段三维结构中心的距离，选择距离最近的6个loop区；

5)分析结果，RMSD，计算对接自由能和表示结合能力强弱的打分函数值Rosettascore；

优选，步骤1)中，采用T细胞的单细胞转录组TCR分析方法，获得癌症患者的肿瘤免疫细胞的TCR的RNA序列；

优选，步骤1)中，采用外显子测序方法并运行optitype得到患者的MHC类型；

优选，步骤1)中，采用NetMHC以及RNA测序技术，预测患者体内的小肽段序列；

优选，步骤3)中，采用分步模拟时，每次模拟只释放6个loop区中的一个，固定其他5个。

10.一种预测或筛选新的肺癌肿瘤抗原和/或筛选肺癌肿瘤组织T细胞的TCR的方法，其特征在于采用权利要求9的计算方法，依据获得的评分函数Rosetta score进行预测或筛选，Rosetta score越低的构象其能量状态越低，越有可能是真实存在于生物体内的结合构象，参与形成这种构象的小肽段越有可能是引起免疫应答的新抗原，相应的TCR序列越有可能是结合力最强的TCR。

11.一种筛选肺癌肿瘤组织中T细胞的TCR或者肺癌新抗原的方法，所述方法包括如下步骤：1)对肺癌肿瘤组织中T细胞进行单细胞转录组TCR分析，鉴定获得单个T细胞的TCR系列和克隆性识别；2)将步骤1)中获得的TCR，肿瘤患者的MHC类型，以及小肽段序列，输入RosettaDock软件，计算TCR，MHC和小肽段结合能力。

12.如权利要求11所述的方法，其特征在于：所述步骤1)进一步包括以下步骤：(a)获得单个的T细胞；(b)构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量；(c)鉴别单个T细胞的TCR序列和克隆性识别；

优选，采用Smart-Seq2构建每个T细胞的cDNA文库并测序，获得每个细胞每个基因的表达量；

优选，在进行步骤(c)的分析时，对步骤(b)获得的生物信息数据进行比对和质量控制，去除低质量的部分；对于cDNA的测序读段(reads)数据质量控制的方法为：保留符合以下条件的测序读段：①未知碱基占给定读段总序列不超过10％，②Phred质量值低于5的碱基不超过50％，③不含有接头序列；对于细胞质量控制的方法为，去除数据量和数据质量低的细胞，保留符合以下条件的细胞：①CD3D的TPM大于3；②当分离CD4⁺T细胞时，CD4的TPM需要大于3，同时CD8的TPM小于30；③分离CD8⁺T细胞时，CD8的TPM需要大于3，同时CD4的TPM小于30；④线粒体基因上的读段占所有读段的比例不高于10％，其中，TPM值的定义为：

其中C_ij表示为基因i在细胞j中的读段的数量；

对用于分析的单细胞的基因表达量的质量控制方法为：当一个基因在所有细胞中被检测到的读段平均数量大于1才用于后续分析；

优选，在步骤(c)中使用软件TraCeR进行单个T细胞的TCR序列识别，并在克隆性识别中，采用如下方法：比较任意两个细胞中的TCRɑ和TCRβ的序列，当两个细胞中至少一种TCRɑ同时至少一种TCRβ的序列完全一致时，且一致的TCRɑ和TCRβ的序列是可以翻译成有效蛋白质的，且TCRɑ的TMP值至少大于10和TCRβ的TMP值至少大于15，这样的两个细胞被认为来自同一克隆。

13.如权利要求11-12任一项所述的方法，其特征在于：步骤2)进一步包括以下步骤：a)根据已知序列和蛋白质结构数据库，对TCR序列进行蛋白质结构的同源建模；b)根据小肽段的氨基酸残基计算出小肽段三维结构中心，依据RosettaDock软件识别出TCR的CDR的loop区，计算各loop区与小肽段三维结构中心的距离，选择距离最近的6个loop区，并进行分步模拟，计算出所述6个loop区的结合自由能；c)将MHC，TCR和小肽段结合在一起，分别进行低分辨率以及高分辨率的对接进程计算，达到最大迭代次数终止计算；d)分析结果，RMSD，计算对接自由能和表示结合能力强弱的打分函数值Rosetta score；

优选，步骤b)中，进行分步模拟时，只释放6个loop区中的1个，固定剩余的5个。