CN111363783B

CN111363783B - 一种基于特有识别序列的t细胞受体库高通量测序文库构建及测序数据分析方法

Info

Publication number: CN111363783B
Application number: CN201811598261.2A
Authority: CN
Inventors: 吴启家; 王晶晶; 蒋菁菁; 郑亚标; 周宇
Original assignee: Wuhan Seqealth Technology Co ltd; Wuhan University WHU
Current assignee: Wuhan Seqealth Technology Co ltd; Wuhan University WHU
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2024-01-02
Anticipated expiration: 2038-12-26
Also published as: CN111363783A

Abstract

本发明公开了一种基于特有识别序列的T细胞受体库高通量测序文库构建及测序数据分析方法。该方法针对TCR恒定区C区mRNA序列设计了特异性逆转录引物，逆转录获得cDNA，再于cDNA的3’端连接带有特有识别序列的文库构建接头；然后使用夹板连接法添加上带有特有识别序列的接头，利用带有标签的基因特异性引物在DNA聚合酶的作用下扩增出TCR基因重排序列；最后通过PCR扩增使DNA文库加上测序接头，从而制备高通量测序cDNA文库并用于测序。通过生物信息学对TCR基因多样性进行全面分析，可精确高效获得包含J区、D区和V区基因TCR基因的重排规律。本方法建库效率高，建库步骤少，所需RNA起始量低，建库成本低。

Description

一种基于特有识别序列的T细胞受体库高通量测序文库构建及测序数据分析方法

技术领域

本发明属于基因测序技术领域，具体涉及一种基于特有识别序列的T淋巴细胞受体库高通量测序文库构建及测序数据分析方法，应用于T细胞受体(T cell receptor，TCR)多样性检测。

背景技术

T细胞受体(T cell receptor，TCR)是介导特异性免疫应答的T细胞表面表达的可特异性识别抗原的分子。由αβ或γδ两条肽链构成的异二聚体，组成了95～99％的T细胞TCRαβ和1～5％的T细胞TCRγδ两种类型。外周血T细胞主要为TCRαβ的T细胞，是介导机体特异性细胞免疫反应的主要细胞。TCR序列具备类似于二维码结构的“溯源”能力，与TCR和细胞亚群的变异以及机体的健康状态有着密切关系。利用TCR序列信息有助于识别和靶向定位与致病性相关的T细胞亚群，为复合抗体、疫苗研发、肿瘤免疫治疗以及自身免疫系统疾病等研究提供数据信息。

α链和β链均属于免疫球蛋白超家族成员，其中，α链由70～80可变区(Variableregion，V)、61个连接区(joining，J)和1个恒定区(constant region，C)编码；β链由52个V、2个多样区(diversity，D)，13个J和2个C编码。其抗原特异性存在于V区；其有三个互补决定区(complementarities determining region，CDR)-CDR1、CDR2、CDR3，在T细胞发育过程中CDR1，2和骨架区(framework region，FR)相对保守，变异最大的CDR3区由V、D和J重排形成具有特异性抗原识别功能的包含2*10⁶～2.5*10⁸个TCR编码基因的T细胞受体库(TCRrepertoire)，决定着人的免疫系统如何适应环境的变化。此外，由于在重排的过程中，在V-D及D-J的连接区经常有非模板的核苷酸的随机插入或删除，进一步增加了CDR3区的多样性。这种基因片段多样性的连接和重组重排使各种不同的抗原可以被其重排后的TCR识别。

随着高通量测序技术的高速发展，免疫学检测亦发展到新的高度，形成了以基因组和转录组等多种组学分析为核心的全方位分析技术，以便更加细致深入的了解T细胞特异性识别抗原的分子机制。目前对TCR基因多样性的检测主要是二代测序技术，llumina测序平台的测序错误率约为1/1000，虽然远低于其他测序平台，但仍然无法区分PCR/测序错误引入的假阳性突变和真实突变，低于5％的突变无法进行检测。因此在不进行纠错的情况下，二代测序可以对含量在5％以上的突变进行检测。达到这个分辨率通常需要数千倍的覆盖度。因此成本上无法对全基因组进行检测，只能对特定的区域/位点进行靶向测序检测。

目前用于TCR基因检测的靶向测序技术，主要有两大技术类型，多重PCR(multiplex PCR，MPCR)和cDNA 5′端的快速扩增法(5′Rapid amplification of cDNAends，5′RACE)。多重PCR存在着较高的扩增偏向性和测序错误；其次对于DNA损伤和PCR引入的错误无法识别，因而准确性较差，且检测结果有存在假阳性的可能。AMP技术是基于5′RACE原理的一种技术，可以有效降低错误率和扩增偏差，但是存在着末端修复加A和第二链合成等操作繁琐的步骤。

因此，从临床适用性上来讲，精确确定个体的免疫受体组库对预后、诊断和表征均具有极大的意义，建立一种可对扩增偏差和测序错误进行矫正的方法对准确评估TCR的多样性十分必要。

发明内容

本发明针对现有技术中TCR基因检测的多重PCR靶向测序技术中存在着较高的扩增偏向性和测序错误；其次对于DNA损伤和PCR引入的错误无法识别，因而准确性较差，且检测结果有存在假阳性的可能的技术问题，提供一种基于特有识别序列的T淋巴细胞受体库高通量测序文库构建及测序数据分析方法。该方法使用带有特有识别序列的建库接头构建测序文库，并基于该特有识别序列矫正建库过程中的扩增偏差、扩增错配和测序过程中的错误，以准确检测某一生理或病理状态下的TCR/BCR多样性，包括TCR的序列信息及序列丰度。

为了实现上述目的，本发明采用如下技术方案：

第一方面，提供一种带有特有识别序列的T细胞受体高通量测序文库构建接头元件，所述接头元件为带有粘性末端的发夹结构的DNA寡核苷酸，DNA序列从5’到3’依次包含茎环发夹序列A(Hairpin A，HA)、识别序列RS(Recognition sequence，RS)、固定序列FS(Fixed sequence，FS)、发夹序列B(Hairpin B，HB)，和随机序列(Random sequence)，发夹序列A和B互补形成发夹的茎结构，接头元件的5’末端带有磷酸基团修饰，3’末端带有氨基基团修饰；所述接头元件的识别序列RS包含4～15个随机排列组合的核苷酸；接头元件的固定序列FS为Illumina/Life文库PCR引物的识别序列；所述接头元件为一条两端序列互补的DNA寡核苷酸，通过高温变性后退火形成发夹结构；所述接头元件为含有不同随机排列组合核苷酸序列的识别序列RS的发夹结构DNA寡核苷酸的混合物；

优选地，上述带有特有识别序列的T细胞受体高通量测序文库构建接头元件从5’→3’方向的序列为：GTGTATCCAGTGNNNNNNNNGATCGTCGGACTGTAGAACTCTGAACCACTGGATACACNNNNNN，如SEQ ID NO:1所示，其中GTGTATCCAGTG为发夹序列A，NNNNNNNN为识别序列RS，GATCGTCGGACTGTAGAACTCTGAAC为固定序列FS，CACTGGATACAC为发夹序列B，NNNNNN为随机序列；发夹序列A和B互补，通过高温退火形成发夹的茎结构，同时使随机序列突出形成粘性末端；固定序列FS为Illumina/Life文库PCR引物的识别序列；N表示A、T、C、G中任意一种碱基，不同位置的N为相同或不同的碱基；5’带有PO₄修饰，3’带有NH₂修饰。

第二方面，提供一种对T细胞受体进行高通量测序的方法，包括如下步骤：

(1)T细胞受体测序文库的构建方法：

S1：提取样本的总RNA；

优选的，使用Trizol试剂或商品化试剂盒提取总RNA。

S2：使用与TCR恒定区序列互补的TCR特异性引物进行逆转录，获得TCR链完整cDNA分子；

优选地，所述特异性引物的核苷酸序列为CAGAGGTGCTCTTGGAGGAG，如SEQ ID NO.2所示。

S3：使用splint ligation(夹板连接法)将上述接头元件连接到步骤S2所述cDNA的3′端；

优选的，使用T4连接酶进行连接。

S4：cDNA纯化；

优选地，使用Beckman核酸纯化试剂盒(Beckman，Agencourt AMPure XP，A63880)对步骤S3获得的cDNA进行纯化；

S5：cDNA的靶向扩增，获得两端带有Illumina/Life文库PCR引物的识别序列的DNA；

优选的，所述靶向扩增上游引物的核苷酸序列为(5’→3’)AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAG TCCGA，如SEQ ID NO:3所示，其中GTTCAGAGTTCTACAGTCCGA与接头中的固定序列FS互补结合；所述靶向扩增下游引物的核苷酸序列为(5’→3’)GTGACTGGAGTTCCTTGGCACCCGAGAATTCCACTCCTCCAAGAGCACCTCTG，如SEQ ID NO:4所示，其中，CTCCTCCAAGAGCACCTCTG与步骤S2所述的特异性引物互补，GTGACTGGAGTTCCTTGGCACCCGAGAATTCCA为Illumina/Life文库PCR引物的识别序列。

S6：DNA纯化；

优选地，使用Beckman核酸纯化试剂盒(Beckman，Agencourt AMPure XP，A63880)对步骤S5获得的DNA进行纯化；

S7：DNA的PCR扩增：

优选地，所述PCR扩增引物为SEQ ID NO:3和SEQ ID NO:5，其中SEQ ID NO.5的序列：(5’→3’)CAAGCAGAAGACGGCATACGAGATCTAGTACGGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA，其中GTGACTGGAGTTCCTTGGCACCCGAGAATTCCA为Illumina/Life文库PCR引物的识别序列。

S8：PCR产物纯化：

优选地，使用Beckman核酸纯化试剂盒(Beckman，Agencourt AMPure XP，A63880)对步骤S7获得的DNA进行纯化；

S9:使用Illumina高通量测序平台MiSeq PE250进行测序。

(2)构建的T细胞受体测序文库测序数据分析方法：

S1：对下机数据(raw data)进行质量控制，去除含有低质量碱基的序列、去除测序读N碱基的序列和截掉相应的测序接头；

S2：利用接头中的固定序列，寻找到特有识别序列的位置，并对特有识别序列进行序列解析；

S3：reads聚类：把带有相同特有识别序列的reads作为一个聚类(cluster)；在每一个cluster中，通过计算reads之间的序列相似性，进行再次聚类，得到亚聚类(sub-cluster)：相似度高于95％的reads聚为一个亚类，似度低于95％的reads归入不同的亚类中；

S4：reads的一致性归并：将每个sub-cluster下面的reads进行多序列比对和一致性归并，最终得到一条一致性read。在一致性归并的过程中，来源相同的分子的重复reads最终被归并为一条序列，达到去重的目的；同时，同一sub-cluster中的reads在PCR扩增或上机测序过程中引入的错误碱基也会基于多条reads的一致性序列被纠正，从而实现去除重复和纠正错误的双重目的；

S5：测序过程中特有识别序列同样会引入错误，因此对相同一致性reads的特有识别序列进行相似性比较，将相似性高于90％的特有识别序列进行合并，达到特有识别序列纠错的目的；

S6：使用MiXCR软件(Bolotin DA 2015)，将通过一致性归并获得的所有reads序列与国际免疫遗传学数据库(IMGT，http://www.imgt.org/)中的V、D、J基因片段进行比对，确定每条一致性序列的TCR组成，包括V、D、J基因使用情况，TCR重组中随机插入和删除的碱基；

S7：V、D、J基因功能注释：根据IMGT中V/J基因功能注释、CDR3区域长度和CDR3编码产物，判断TCR重排序列是否具备功能，并统计TCR功能分类；

S8：根据TCR的比对结果，统计V和J基因及V-J基因对使用频率，寻找不同样本间表达模式差异，并计算样本TCR组成多样性；

优选地，采用Shannon’s entropy，Simpson’s index和D50(Wu J 2015)计算样本TCR组成多样性：

Shannon’s entropy计算公式：

Simpson’s index计算公式：

其中：s表示实际观测到TCR重组序列数目；pi表示第i个TCR重排序列在所有TCR中所占的比例；

将样本中所有TCR重排序列按照在样本中所占比例从高到低进行排列，然后按照这个顺序将TCR序列所占比例依次相加，当相加比例达到样本的一半时，此时所相加的TCR重排序列数目即为D50，D50数值越大，说明样本TCR多样性越高。

第三方面，提供一种构建T细胞受体高通量测序文库的试剂盒，该试剂盒包括：

(1)上述带有特有识别序列的T细胞受体高通量测序文库构建接头元件，其核苷酸序列如SEQ ID NO:1所示；

(2)与TCR恒定区序列互补的TCR特异性引物，如SEQ ID NO.2所示，用于进行逆转录；

(3)cDNA的靶向扩增上、下游引物，其核苷酸序列如SEQ ID NO.3和4所示；

(4)DNA的PCR扩增引物，其核苷酸序列如SEQ ID NO.3和5所示。

第四方面，提供上述带有特有识别序列的T细胞受体高通量测序文库构建接头元件或上述试剂盒在对T细胞受体进行高通量测序的方法中的应用。

采用本发明的技术方案，获得如下有益效果：

(1)逆转录获得了TCR全长RNA序列，与DNA分析相比，可以更为全面和准确地获得某一状态下TCR的多样性信息。且完整覆盖TCR的全长，包括CDR1、2、3序列，对研究MHC的亲和力起到重要作用。

(2)非MPCR测序方法，可以检测到更多的V-J pairing的多样性，同时具有更低的偏好性和较高的准确性。

(3)实现了对特异性TCR克隆丰度的准确定量；在建库过程中PCR的扩增偏好性不可避免，本发明使用的接头中带有的特有识别序列，数据分析时通过该识别序列去除PCR扩增重复、排除PCR偏好性影响，准确还原PCR前的cDNA片段组成并分析TCR克隆的丰度。

(4)准确分析TCR的多样性，TCR序列的高度多样性使得其对测序数据错误极为敏感，PCR和测序错误都可能被误认为序列的突变或重排，因此必须加入校准机制。数据分析时，使用特有识别序列进行聚类和比对时，同时可纠正PCR和测序错误，确定真实的序列。

附图说明

图1是本发明TCR文库构建过程示意图；

图2是本发明构建的TCR文库琼脂糖凝胶电泳检测结果图；

图3是TCR测序数据分析的流程示意图；

图4是基于特异识别序列矫正扩增偏差和测序错误的方法示意图；

图5是TCR测序分析结果、CDR3区域编码多肽序列的长度分布统计；

坐标表示CDR3多肽序列长度，纵坐标表示对应多肽长度的CDR3数量在样本中所有CDR3的比例。

图6是TCR测序分析结果、CDR3多肽序列组成分析；

图7是TCR测序分析结果、CDR3区域内插入和缺失序列长度分布统计；

图8是TCR测序分析结果、TCR的V基因使用频率分布；

图9是TCR测序分析结果、TCR的J基因使用频率分布；

图10是TCR测序分析结果、TCR的V-J基因对使用频率分布；

图11是TCR测序分析结果、Top100TCR重排序列分布；

具体实施方式

通过以下详细说明结合附图可以进一步理解本发明的特点和优点。所提供的实施例仅是对本发明方法的说明，而不以任何方式限制本发明揭示的其余内容。

【实施例1】

一、构建TCR测序文库所需的带有特有识别序列的接头元件

接头元件的序列SEQ ID NO.1:(5’→3’)GTGTATCCAGTGNNNNNNNNGATCGTCGGACTGTAGAACTCTGAAC CACTGGATACAC NNNNNN。

其中GTGTATCCAGTG为发夹序列A(Hairpin A，HA)，NNNNNNNN为特异识别序列(Recognition sequence，RS)，GATCGTCGGACTGTAGAACTCTGAAC为固定序列(Fixedsequence，FS)、CACTGGATACAC为发夹序列B(Hairpin B，HB)，NNNNNN为随机序列(Randomsequence)。发夹序列A和B互补，通过高温退火形成发夹的茎结构，同时使随机序列突出形成粘性末端。固定序列FS为Illumina/Life文库PCR引物的识别序列。N表示A、T、C、G中任意一种碱基；5’带有PO₄修饰，3’带有NH₂修饰。

本具体实施方式中的接头元件包含的特异识别序列RS为8个随机排列组合的碱基，当然也可以多于或少于8个，但都在本发明的包含范围内。

二、TCR测序文库的构建

构建流程如图1所示。

(一)、本实施例中所使用的核酸序列：

1.接头元件的序列SEQ ID NO.1:(5’→3’)GTGTATCCAGTGNNNNNNNNGATCGTCGGACTGTAGAACTCTGAAC CACTGGATACAC NNNNNN。

2.逆转录引物序列SEQ ID NO.2：(5’→3’)CAGAGGTGCTCTTGGAGGAG，与TCR恒定区序列互补。

3、靶向扩增引物SEQ ID NO.3：(5’→3’)AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAGTCCGA(F)，其中GTTCAGAGTTCTACAGTCCGA与接头中的固定序列FS互补结合；靶向扩增引物SEQ ID NO.4：(5’→3’)GTGACTGGAGTTCCTTGGCACCCGAGAATTCCACTCCTCCAAGAGCACCTCTG(R)，其中，CTCCTCCAAGAGCACCTCTG与逆转录获得的cDNA互补，GTGACTGGAGTTCCTTGGCACCCGAGAATTC CA为Illumina/Life文库PCR引物的识别序列。

4、PCR扩增引物SEQ ID NO.5：(5’→3’)CAAGCAGAAGACGGCATACGAGATCTAGTACGGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA(R)。其中GTGACTGGAGTTCCTTGGCACCCGAGAATTCCA为Illumina/Life文库PCR引物的识别序列。

(二)、文库构建步骤：

以下实验中E1样本为Jurkat细胞系；E2，E3，E4，E6为外周血样本分离的免疫细胞。

S1：使用LymphoPrep试剂盒(Axis-shield,Cat.No.AS111 4544UK)从外周血中分离外周血单核细胞(PBMC)，使用PureLink Genomic RNA Mini Kit(Life Technology,Cat.No:12183018A)试剂盒提取PBMC的总RNA，并用Nanodrop2000(Thermo)测定RNA的浓度及纯度。

S2：使用TCR特异性逆转录引物进行逆转录，产生包含TCR(例如，α、β)的CDR3信息的cDNA。

配制如下反应体系，放到预热好的PCR仪上，开始反应；

组分	体积(μL)
		提取的总RNA	8
5x SmartScribe buffer(Takara，639536)	4
		RT primer(SEQ ID NO.2)(10uM)	1
H₂O	4.5
		total	17.5

65℃反应5min，然后4℃反应5min；

配制如下反应体系，加入上述体系，混匀；

组分	体积(μL)
		10mM dNTPs(Clontech，639536)	1.5
RNase inhibitor(Thermo，N8080119)	0.5
		SMARTScribe^TMReverse Transcriptase(100U/μL，Takara，639536)	1
Total	2.5

-42℃反应60min

-94℃反应10min

-4℃hold

S3：使用夹板连接法(Splint Ligation)将实施例1中的接头元件连接到cDNA的3’末端。

配制如下组分：

放到预热好的PCR仪上，20℃连接1h；

S4：cDNA纯化：

提前取出核酸纯化试剂盒(Beckman，Agencourt AMPure XP，A63880)，充分涡旋使试剂盒中的NGS磁珠混匀，室温平衡30min以上；向连接产物中加入1.8倍体积的1×NGS磁珠，充分混匀，室温结合10min；将产物置于磁力架上约5min(待溶液澄清)，小心用移液器吸出上清，保持样品始终处于磁力架中，向NGS磁珠中加入200ul新鲜配制的80％乙醇，室温放置30s后小心吸去乙醇(注意不要吹散磁珠)；

重复上述步骤一次；保持样品始终处于磁力架中，打开管盖约7min，室温晾干磁珠(以磁珠刚刚出现龟裂为最佳)；

回溶DNA：向磁珠中加入41.3μL的ddH₂O，吸打混匀后室温放置2min后轻轻涡旋20s，再室温放置2min；

瞬离磁珠置磁力架，待溶液澄清后小心吸取40.3μL上清(纯化后DNA)至一个新的nuclease free PCR管中。

S5：cDNA的靶向扩增：

配制如下体系：

再以该cDNA为模板，使用靶向扩增引物SEQ ID NO.3/4进行扩增，获得两端带有通用序列的cDNA，以通用测序引物扩增构建文库后测序。

组分	体积(μL)
		PCR Primer(SEQ ID NO.3)(10μM)	1
PCR Primer(SEQ ID NO.4)(10μM)	1
		2×KAPA HiFi PCR Mix(KAPA，KK2611)	25
cDNA	23
		Total	50

在PCR仪中进行如下反应：

S6：PCR产物纯化：

提前取出核酸纯化试剂盒(Beckman，Agencourt AMPure XP，A63880)，充分涡旋使试剂盒中的NGS磁珠混匀，室温平衡30min以上；向连接产物中加入1.8倍体积的AMP磁珠，充分混匀，室温结合10min；将产物置于磁力架上约5min(待溶液澄清)，小心用移液器吸出上清，保持样品始终处于磁力架中，向NGS磁珠中加入200μL新鲜配制的80％乙醇，室温放置30s后小心吸去乙醇(注意不要吹散磁珠)；

回溶DNA：向磁珠中加入23μL的ddH₂O，吸打混匀后室温放置2min后轻轻涡旋20s，再室温放置2min；

瞬离磁珠置磁力架，待溶液澄清后小心吸取21μL上清(纯化后DNA)至一个新的nuclease free PCR管中。

S7：DNA的PCR扩增

配制如下体系：

组分	体积(μL)
		PCR Primer(SEQ ID NO.3)(10μM)	2
PCR Primer(SEQ ID NO.5)(10μM)	2
		2×KAPA HiFi PCR Mix(KAPA，KK2611)	25
cDNA	21
		Total	50

在PCR仪中进行如下反应：

S8：PCR产物纯化：

提前取出核酸纯化试剂盒(Beckman，Agencourt AMPure XP，A63880)，充分涡旋使试剂盒中的NGS磁珠混匀，室温平衡30min以上；向连接产物中加入1.8倍体积的AMP磁珠，充分混匀，室温结合10min；将产物置于磁力架上约5min(待溶液澄清)，小心用移液器吸出上清，保持样品始终处于磁力架中，向NGS磁珠中加入200ul新鲜配制的80％乙醇，室温放置30s后小心吸去乙醇(注意不要吹散磁珠)；

回溶DNA：向磁珠中加入15ul的ddH₂O，吸打混匀后室温放置2min后轻轻涡旋20s，再室温放置2min；

瞬时离心后将磁珠置磁力架，待溶液澄清后小心吸取15μL上清(纯化后DNA)至一个新的nuclease free PCR管中。

S9：取1～2μL PCR产物进行琼脂糖凝胶电泳检测，结果如图2所示。

S10：使用Illumina高通量测序平台MiSeq PE250进行测序。

三、TCR测序数据分析方法

数据分析流程如图3所示。

基于特有识别序列的reads去重和纠错原理如图4所示。

S1：对下机数据(raw data)进行质量控制，去除含有低质量碱基的序列、去除测序读N碱基的序列和截掉相应的测序接头。

S2：利用接头中的固定序列，寻找到特有识别序列的位置，并对特有识别序列进行序列解析。

S3：reads聚类。把带有相同特有识别序列的reads作为一个聚类(cluster)；在每一个cluster中，通过计算reads之间的序列相似性，进行再次聚类，得到亚聚类(sub-cluster)：相似度高于95％的reads聚为一个亚类，似度低于95％的reads归入不同的亚类中。

S4：reads的一致性归并。将每个sub-cluster下面的reads进行多序列比对和一致性归并，最终得到一条一致性read。在一致性归并的过程中，来源相同的分子的重复reads最终被归并为一条序列，达到去重的目的。同时，同一sub-cluster中的reads在PCR扩增或上机测序过程中引入的错误碱基也会基于多条reads的一致性序列被纠正，从而实现去除重复和纠正错误的双重目的。

S5：测序过程中特有识别序列同样会引入错误。因此对相同一致性reads的特有识别序列进行相似性比较，将相似性高于90％的特有识别序列进行合并，达到特有识别序列纠错的目的。

S6：使用MiXCR软件(Bolotin DA 2015)，将通过一致性归并获得的所有reads序列与国际免疫遗传学数据库(IMGT，http://www.imgt.org/)中的V、D、J基因片段进行比对，确定每条一致性序列的TCR组成，包括V、D、J基因使用情况，TCR重组中随机插入和删除的碱基。

S7：V、D、J基因功能注释。根据IMGT中V/J基因功能注释、CDR3区域长度和CDR3编码产物，判断TCR重排序列是否具备功能，并统计TCR功能分类。

S8：根据TCR的比对结果，统计V和J基因及V-J基因对使用频率，寻找不同样本间表达模式差异，并计算样本TCR组成多样性。优选的，采用Shannon’s entropy，Simpson’sindex和D50(Wu J 2015)计算样本TCR组成多样性。

优选的，采用Shannon’s entropy，Simpson’s index和D50(Wu J 2015)计算样本TCR组成多样性。

Shannon’s entropy计算公式：

Simpson’s index计算公式：

其中：s表示实际观测到TCR重组序列数目；pi表示第i个TCR重排序列在所有TCR中所占的比例。

四、TCR测序数据分析结果示例：

(一)、TCR功能分类统计

功能分类主要包括以下类别：

in-frame：TCR可以编码有功能的产物；

non-function：TCR包括的VJ基因不发挥功能，在IMGT中被定义为“pseudogene”；

out-of-frame(incomplete)：测序reads没有完整覆盖CDR3区域。

out-of-frame(CDR3length)：由于CDR3区域发生移码突变，导致CDR3mRNA长度不是3倍数；

out-of-frame(stop codon)：终止密码子提前出现导致TCR编码提前终止；

(二)、CDR3区域编码多肽序列的长度分布统计

如图5所示，横坐标表示CDR3区域多肽链的长度，纵坐标表示各长度多肽链出现的频率，直方图不同颜色表示不同样本，表明不同样本中由于VDJ重排不同，长度为13，14，15，16个氨基酸的多肽链CDR3出现频率较高；

(三)、CDR3多肽序列组成分析

将序列长度分布占比前三的多肽，提取对应的CDR3序列进行氨基酸组成分析。如图6所示，横坐标表示每个位置的氨基酸种类，纵坐标表示每种氨基酸出现的可能性，由此可以看出不同长度多肽链的CDR3区域的氨基酸组成；

(四)、CDR3插入和删除序列长度分布

在T细胞发育过程中，CDR3区由V，D，J进行重排。由于在重排过程中，在V-D和D-J的连接区经常会有非模板的核苷酸的随机插入和缺失。对CDR3区域内插入和缺失序列长度分布进行统计。

在图7中从左至右，从上到下依次为V基因3’端删除序列(V3Del)，D基因5’端(D5Del)，D基因3’端(D3Del)和J基因5’端(J5Del)缺失序列长度分布和VD(VDJunction)、DJ(DJJunction)和D基因缺失情况下VJ(VJJunction)区域插入序列长度分布，横坐标表示脱氧核苷酸长度，纵坐标表示该种长度所占的比值。

(五)、VDJ基因出现频率统计

根据数据库可知，人外周血中TCRα链具有70-80种V和61种J基因片段，β链具有52种V，2种D和13种J基因片段。本实施例参考现有数据库，通过比对分析每一条高通量测序所得TCRP序列，获得57种V，2种D和13种J基因片段，其中V基因和J基因的使用频率分布如图8、图9所示，横坐标为不同的V/J基因家族，纵坐标为每类基因家族的序列占总序列数(Totalreads)的百分比。V-J基因对使用频率分布如图10所示，X、Y坐标分别为不同的V/J基因家族，纵坐标为每类V-J基因对的使用占总序列数(Total reads)的百分比。由此可知，本发明提供的逆转录引物组覆盖了大部分VDJ基因片段。

(六)、TCR多样性计算

Shannon和Simpson值越大，说明样本的TCR多样性越高。将样本中所有TCR重排序列按照在样本中所占比例从高到低进行排列，然后按照这个顺序将TCR序列所占比例依次相加，当相加比例达到样本的一半时，此时所相加的TCR重排序列数目即为D50，D50数值越大，说明样本TCR多样性越高。

(七)、Top100TCR重排序列分布

选取TCR重组序列中占比最高的前100条重排序列进行分布统计，从而直观地了解样本中TCR重排分布。如图11所示。

(八)结果总结

E1样本为Jurkat细胞系，β链主要由TRBV12-3-TRBD1-TRBJ1-2重组构成；E2，E3，E4，E6为外周血样本分离的免疫细胞；通过图8，图9可以分析出样本TCRβ基因中V区和J区的多样性情况。

序列表

<110> 武汉康测科技有限公司

<120> 一种基于特有识别序列的T细胞受体库高通量测序文库构建及测序数据分析方法

<160> 5

<170> SIPOSequenceListing 1.0

<210> 1

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (13)..(20)

<223> n表示a、t、c、g中任意一种碱基

<220>

<221> misc_feature

<222> (59)..(64)

<223> n表示a、t、c、g中任意一种碱基

<400> 1

gtgtatccag tgnnnnnnnn gatcgtcgga ctgtagaact ctgaaccact ggatacacnn 60

nnnn 64

<210> 2

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

cagaggtgct cttggaggag 20

<210> 3

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

aatgatacgg cgaccaccga gatctacacg ttcagagttc tacagtccga 50

<210> 4

<211> 53

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

gtgactggag ttccttggca cccgagaatt ccactcctcc aagagcacct ctg 53

<210> 5

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

caagcagaag acggcatacg agatctagta cggtgactgg agttccttgg cacccgagaa 60

ttcca 65

Claims

1.一种带有特有识别序列的T细胞受体高通量测序文库构建接头元件，其特征在于，所述接头元件为带有粘性末端的发夹结构的DNA寡核苷酸，DNA序列从5’到3’依次包含茎环发夹序列A、识别序列RS、固定序列FS、发夹序列B和随机序列，发夹序列A和B互补形成发夹的茎结构，接头元件的5’末端带有磷酸基团修饰，3’末端带有氨基基团修饰；所述接头元件的识别序列RS包含4～15个随机排列组合的核苷酸；接头元件的固定序列FS为Illumina/Life文库PCR引物的识别序列；所述接头元件为一条两端序列互补的DNA寡核苷酸，通过高温变性后退火形成发夹结构；所述接头元件为含有不同随机排列组合核苷酸序列的识别序列RS的发夹结构DNA寡核苷酸的混合物；

上述带有特有识别序列的T细胞受体高通量测序文库构建接头元件从5’→3’方向的序列为：GTGTATCCAGTGNNNNNNNNGATCGTCGGACTGTAGAAC TCTGAACCACTGGATACACNNNNNN，其中GTGTAT CCAGTG为发夹序列A，NNNNNNNN为识别序列RS，GATCGTCGGACTGTA GAACTCTGAAC为固定序列FS，CACTGGATACAC为发夹序列B，NNNNNN为随机序列；发夹序列A和B互补，通过高温退火形成发夹的茎结构，同时使随机序列突出形成粘性末端；固定序列FS为Illumina/Life文库PCR引物的识别序列；N表示A、T、C、G中任意一种碱基，不同位置的N为相同或不同的碱基；5’带有PO₄修饰，3’带有NH₂修饰。

2.一种对T细胞受体进行高通量测序的方法，所述方法为非疾病诊断目的，其特征在于，包括如下步骤：

(1)T细胞受体测序文库的构建方法：

S1：提取样本的总RNA：使用Trizol试剂或商品化试剂盒提取总RNA；

S2：使用与TCR恒定区序列互补的TCR特异性引物进行逆转录，获得TCR链完整cDNA分子；所述TCR特异性引物的核苷酸从5’→3’方向的序列为CAGAGGTGCTCTTGGAGGAG；

S3：使用夹板连接法将权利要求1所述的接头元件使用T4连接酶连接到步骤S2所述cDNA的3′端；

S4：cDNA纯化：使用Beckman核酸纯化试剂盒对步骤S3获得的cDNA进行纯化；

S5：cDNA的靶向扩增：所述靶向扩增上游引物的核苷酸从5’→3’方向的序列为AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAG TCCGA，其中GTTCAGAGTTCTACAGTCCGA与权利要求1所述的接头元件中的固定序列FS互补结合；所述靶向扩增下游引物的核苷酸从5’→3’方向的序列为GTGACTGGAGTTCCTTGGCACCCGA GAATTCCACTCCTCCAAG AGCACCTCTG，其中，CTCCTCCA AGAGCACCTCTG与步骤S2所述的特异性引物互补，GTGACTGGAGTTCCTTGGCACCCGAGAA TTCCA为Illumina/Life文库PCR引物的识别序列；通过靶向扩增获得两端带有Illumina/Life文库PCR引物的识别序列的DNA；

S6：DNA纯化：使用Beckman核酸纯化试剂盒对步骤S5获得的DNA进行纯化；

S7：DNA的PCR扩增：所述PCR扩增引物为SEQ ID NO:3和SEQ ID NO:5，其中SEQ ID NO.5的GTGACTGGAGTTCCT TGGCACCCGAGAATTCCA为Illumina/Life文库PCR引物的识别序列；

S8：PCR产物纯化：使用Beckman核酸纯化试剂盒对步骤S7获得的DNA进行纯化；

S9:使用Illumina高通量测序平台MiSeq PE250进行测序；

(2)对(1)构建的T细胞受体测序文库测序数据分析方法：

S1：对下机数据进行质量控制，去除含有低质量碱基的序列、去除测序读N碱基的序列和截掉相应的测序接头；

S3：reads聚类：把带有相同特有识别序列的reads作为一个聚类cluster；在每一个cluster中，通过计算reads之间的序列相似性，进行再次聚类，得到亚聚类sub-cluster：相似度高于95％的reads聚为一个亚类，相似度低于95％的reads归入不同的亚类中；

S4：reads的一致性归并：将每个sub-cluster下面的reads进行多序列比对和一致性归并，最终得到一条一致性read；在一致性归并的过程中，来源相同的分子的重复reads最终被归并为一条序列，达到去重的目的；同时，同一sub-cluster中的reads在PCR扩增或上机测序过程中引入的错误碱基也会基于多条reads的一致性序列被纠正，从而实现去除重复和纠正错误的双重目的；

S6：使用MiXCR软件，即Bolotin DA 2015，将通过一致性归并获得的所有reads序列与国际免疫遗传学数据库IMGT中的V、D、J基因片段进行比对，其网址为http://www.imgt.org/，确定每条一致性序列的TCR组成，包括V、D、J基因使用情况，TCR重组中随机插入和删除的碱基；

S8：根据TCR的比对结果，统计V和J基因及V-J基因对使用频率，寻找不同样本间表达模式差异，并计算样本TCR组成多样性。

3.根据权利要求2所述的对T细胞受体进行高通量测序的方法，其特征在于，采用Shannon’s entropy，Simpson’s index和D50计算样本TCR组成多样性：

Shannon’s entropy计算公式：

Simpson’s index计算公式：

将样本中所有TCR重排序列按照在样本中所占比例从高到低进行排列，然后按照这个顺序将TCR序列所占比例依次相加，当相加比例达到样本的一半时，此时所相加的TCR重排序列数目即为D50，D50值越大，说明样本TCR多样性越高。

4.一种构建T细胞受体高通量测序文库的试剂盒，其特征在于，该试剂盒包括：

(1)权利要求1所述的带有特有识别序列的T细胞受体高通量测序文库构建接头元件，其核苷酸序列如SEQ ID NO:1所示；

(4)DNA的PCR扩增引物，其核苷酸序列如SEQ ID NO.3和5所示。

5.权利要求1所述的带有特有识别序列的T细胞受体高通量测序文库构建接头元件或权利要求4所述的试剂盒在对T细胞受体进行高通量测序的方法中的应用，所述方法为非疾病诊断目的。