CN108624667A

CN108624667A - 一种基于二代测序的t细胞受体库分析方法及装置

Info

Publication number: CN108624667A
Application number: CN201810461908.0A
Authority: CN
Inventors: 金亚彬; 罗微; 崔金环; 陈湘萍; 林凯容; 毛晓帆; 潘英明
Original assignee: Foshan First Peoples Hospital Foshan Hospital Sun Yat Sen University
Current assignee: Foshan First Peoples Hospital Foshan Hospital Sun Yat Sen University
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2018-10-09

Abstract

本公开公开了一种基于二代测序的T细胞受体库分析方法及装置，针对5'RACE扩增TCR库的方法，设计的一套一体化、操作简便的TCR库分析方法，通过perl程序语言调用序列比对工具blat为内核与参考序列进行序列比对，基于TCR基因的参考坐标，注释比对结果，输出内容包含了当前TCR库分析中公认的各类指标，使得非生物信息专业人员可也以快速的得到样本TCR库的分析结果。

Description

一种基于二代测序的T细胞受体库分析方法及装置

技术领域

本公开涉及T细胞受体库分析领域，具体涉及一种基于二代测序的T细胞受体库分析方法及装置。

背景技术

T细胞受体(T cell receptor，TCR)是T细胞表面特异性识别抗原和介导免疫应答的分子，是人类基因组中多态性最高的区域之一，决定着人的免疫系统如何适应环境的变化。T细胞受体库的多样性(包括基因重组以及选择性表达)直接反映了机体免疫应答的状态。正常个体在无抗原刺激时，TCR基因重排是随机的，因此正常人外周T细胞呈多家族、多克隆性特点。不同抗原(肿瘤、疫苗、病院微生物或者移植物等)刺激后，TCR基因可对该抗原产生特异性识别，并使带有这类基因的T细胞得到优势扩增。

TCR是与抗原呈递细胞(antigen presenting cell APC)表面MHC－肽复合物结合识别外来抗原的T细胞表面分子，由异源性二聚体α、β或γ、δ两条多肽链组成。TCR库多样性是在个体发育过程中，由决定TCR结构的基因发生重排(rearrangement)而产生的(图1)。正常人外周血中约95％T细胞TCR分子由α、β异二聚体多肽链组成。β链基因由可变区(variable region,V)、多样区(diversity region,D)、结合区(joining region,J)和恒定区(constant region,C)基因片段组成，α链基因则由V、J、C基因片段组成，各基因片段在T细胞发育早期不连贯分布，T细胞在发育过程中其染色体上散在分布的胚系V(D)JC基因片段发生随机组合及重排，使V、(D)、J、C基因片段相连成为有功能的α、β基因，重组过程伴随基因片段连接处N个核苷酸的随机剪切或插入，这种连接多样性约达2×1011，α、β基因可以随机配对，产生约6×102个多样性的组合，总计连接多样性与组合多样性约可产生1015个不同的TCR，因此，每个个体体内存在及其多样性的TCR库。

互补决定区3(complementarities determining region 3,CDR3)是TCR上直接与抗原肽结合的位点，由V基因片段下游、(D)、J和C基因片段上游拼接而成，是最体现TCR个性的区域，也是TCR对抗原的特异性识别中最关键的区域。不同T细胞克隆有不同长度和序列的CDR3，CDR3的序列决定其结构，从而决定TCR的特异性，也就是说，CDR3相当于T细胞的“指纹”，检测CDR3多态性即CDR3谱型(spectratype)，可反映TCR库多样性。

随着二代测序数据的发展，T细胞受体库(TCR库)的研究得到了新的发展，借助第二代测序技术的高通量，可以很大程度的揭示出T细胞受体的多样性，为研究监控机体免疫状态提供可能。当前的TCR库的检测方法有多重PCR与5'RACE两种方法，由于实验技术的不同，对于测序数据的分析策略也应当变化，当前的工具不能针对性的对不同方法的数据进行简介的分析，需要生物信息专业人员根据实验进行大量预处理，才能得到分析结果，并且仅能输出TCR库的组成，缺乏很多描述TCR库分布状况的统计指标的输出。

发明内容

本公开的目的是针对现有技术的不足，通过perl程序语言调用序列比对工具blat，提供一种基于二代测序的T细胞受体库分析方法及装置，其中，所述方法包括以下步骤：

步骤1，将测序数据中以3’端开头为引物序列的测序数据筛选出来获得第一序列集；

步骤2，在第一序列集中截取TCR范围内的第一序列集片段获得第二序列集；

步骤3，统计第二序列集内每种序列出现的次数并将第二序列集去除重复序列，并按照序列出现的次数从大到小排序获得第三序列集；

步骤4，调用序列比对工具blat将第三序列集中的序列逐个与参考基因组序列进行比对，获取第三序列集中每一序列对应到参考基因组上的位置信息得到第四序列集；

步骤5，根据TCR区域V、J基因的参考坐标注释出第四数据集中的每个片段所在位置的基因信息得到注释后的第五序列集；

步骤6，筛选出第五序列集中同时覆盖TCR区域V、J基因的序列获得第六序列集；

步骤7，将第六序列集中的序列进行核苷酸到氨基酸的密码子翻译后将翻译后的每个序列按照TCRV-CDR3-TCRJ顺序分解成为第七序列集；

步骤8，根据第七序列集中所包含的序列、频数、所在基因信息统计出第七序列集的TCR库的序列数、种类数、分布的香农熵、辛普森指数。

进一步地，在步骤2中，所述TCR范围需根据PCR引物设计的位置进行设定，所述第一序列集片段是每一条3'端序列去除引物序列后剩余的序列片段，其中，所述TCR范围可由用户根据实际情况自由定义。

进一步地，在步骤3中，将第二序列集按照每个序列出现的次数排序获得第三序列集的方法为：将第二序列集中完全相同的序列合并的同时计数，形成一个2列的表格，其中一列为第三序列集，另一列为该序列出现的次数。

进一步地，在步骤4中，所述参考基因组序列为TCR公共数据库中公布的人基因组上TCR区域的DNA参考序列，其中，实验数据来自于人基因组TCR的α链为TCRA，来自于人基因组TCR的β链为TCRB。

进一步地，在步骤5中，根据TCR基因的参考坐标注释出第四数据集中每个片段所在位置的基因信息得到注释后的第五序列集的方法为：根据TCR区域V、J基因的参考坐标每个位置对应的基因名字获取第四数据集中每个片段所在位置的基因信息，其中，参考坐标是TCR公共数据库中公布的各个V，J基因的位置信息。

进一步地，在步骤7中，所述将翻译后的每个序列按照TCRV-CDR3-TCRJ顺序分解成为第七序列集的方法为：CDR3区域的定义为以C开头FGXG结尾的氨基酸序列片段，提取及整合CDR3区域中以C开头、以FGXG的F结尾的氨基酸序列获得第七序列集，其中，所述TCRV-CDR3-TCRJ顺序为将每个翻译后的序列都分为TCRV、CDR3、TCRJ前中后三段的顺序，其中，所述TCRV为前段V区域，CDR3为中段CDR3区域，TCRJ为后段J区域，所述CDR3区域的头端为半胱氨酸，末端为FGXG的特征序列，其中，F表示苯丙氨酸，G表示甘氨酸，X表示任意氨基酸。

本发明还提供了一种基于二代测序的T细胞受体库分析装置，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序以执行在以下装置的单元中：

获取单元，用于将测序数据中以3’端开头为引物序列的测序数据筛选出来获得第一序列集；

片段截取单元，用于在第一序列集中截取TCR范围内的第一序列集片段获得第二序列集；

排序计数单元，用于统计第二序列集内每种序列出现的次数并将第二序列集去除重复序列，并按照序列出现的次数从大到小排序获得第三序列集；

序列比对单元，用于调用序列比对工具blat将第三序列集中的序列逐个与参考基因组序列进行比对，获取第三序列集中每一序列对应到参考基因组上的位置信息得到第四序列集；

注释单元，用于根据TCR区域V、J基因的参考坐标注释出第四数据集中的每个片段所在位置的基因信息得到注释后的第五序列集；

质控筛选单元，用于筛选出第五序列集中同时覆盖TCR区域V、J基因的序列获得第六序列集；

提取整合单元，用于将第六序列集中的序列进行核苷酸到氨基酸的密码子翻译后将翻译后的每个序列按照TCRV-CDR3-TCRJ顺序分解成为第七序列集；

数据统计单元，用于根据第七序列集中所包含的序列、频数、所在基因信息统计出第七序列集的TCR库的序列数、种类数、分布的香农熵、辛普森指数。

本公开的有益效果为：本发明公开了一种基于二代测序的T细胞受体库分析方法及装置，针对5'RACE扩增TCR库的方法，设计的一套一体化、操作简便的TCR库分析方法，输出内容包含了当前TCR库分析中公认的各类指标，使得非生物信息专业人员可也以快速的得到样本TCR库的分析结果。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为本公开的一种基于二代测序的T细胞受体库分析方法的流程图；

图2所示为本公开的一种基于二代测序的T细胞受体库分析装置图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。

如图1所示为根据本公开的一种基于二代测序的T细胞受体库分析方法的流程图，图2所示为本公开的一种基于二代测序的T细胞受体库分析装置图，下面结合图1、图2来阐述根据本公开的实施方式的T细胞受体库分析方法。

本公开提出一种基于二代测序的T细胞受体库分析方法，具体包括以下步骤：

其中，序列比对工具blat为生物信息学分析工具，对于DNA序列，blat是用来设计寻找95％及以上相似至少40个碱基的序列。对于蛋白序列，blat是用来设计寻找80％及以上相似至少20个氨基酸的序列。

blat有两种运行模式，一种是单机版(Stand-alone blat)；另一种是交互式的客户端/服务器模式(Client/Server blat)，blat的源代码、执行程序以及相关文档可以从作者Kent的个人网站上免费下载获得。两种模式的blat都能够对核酸序列和蛋白质序列以及核酸翻译成的蛋白质序列进行相互比对，单机版可选参数较多，比在线版更加精确,而客服端/服务器模式则更适合于提供交互式的批量比对服务，特别是本地化后性能非常优越，在本实施例中，使用系统依赖：基于linux系统的perl程序语言进行调用。

进一步地，在步骤2中，所述根据TCR范围截取对应的待测序列片段的方法为：根据PCR引物设计的位置进行范围设定的TCR范围截取对应的待测序列片段，其中，所述TCR范围需根据PCR引物设计的位置进行设定，所述第一序列集片段是每一条3'端序列去除引物序列后剩余的序列片段，其中，所述TCR范围可由用户根据实际情况自由定义。其中，根据PCR引物设计的位置进行范围设定TCR范围，该范围为自定义设置，格式为(m-n)，m和n为正整数，例如9-125；

其中，PCR(聚合酶链式反应)是利用DNA在体外摄氏95°高温时变性会变成单链，低温(经常是60℃左右)时引物与单链按碱基互补配对的原则结合，再调温度至DNA聚合酶最适反应温度(72℃左右)，DNA聚合酶沿着磷酸到五碳糖(5'-3')的方向合成互补链。PCR反应中有两条引物，即5′端引物和3′引物。设计引物时以一条DNA单链为基准(常以信息链为基准)，5′端引物与位于待扩增片段5′端上的一小段DNA序列相同；3′端引物与位于待扩增片段3′端的一小段DNA序列互补。PCR引物设计的目的是为了找到一对合适的核苷酸片段，使其能有效地扩增模板DNA序列。引物的优劣直接关系到PCR的特异性与成功与否。

进一步地，在步骤4中，所述参考基因组序列为TCR公共数据库中公布的人基因组上TCR区域的DNA参考序列，其中，实验数据来自于人基因组TCR的α链为TCRA，来自于人基因组TCR的β链为TCRB。所述位置信息为坐标，例如，序列集三的序列1-5的位置对应到参考序列25-30的位置。

进一步地，在步骤6中，所述质控筛选合格的TCR序列的方法为：去除不完整的以及无法完整进行氨基酸翻译的TCR序列。

进一步地，在步骤7中，所述将翻译后的每个序列按照TCRV-CDR3-TCRJ顺序分解成为第七序列集的方法为：CDR3区域的定义为以C开头FGXG结尾的氨基酸序列片段，提取及整合CDR3区域中以C开头、以FGXG的F结尾的氨基酸序列获得第七序列集，其中，所述TCRV-CDR3-TCRJ顺序为将每个翻译后的序列都分为TCRV、CDR3、TCRJ前中后三段的顺序，其中，所述TCRV为前段V区域，CDR3为中段CDR3区域，TCRJ为后段J区域，所述CDR3区域的头端为半胱氨酸，末端为FGXG的特征序列，其中，F表示苯丙氨酸，G表示甘氨酸，X表示任意氨基酸。其中，所述CDR3序列(3号互补决定区)是决定TCR与抗原肽特异性结合的关键结构,其氨基酸序列和长度特征可作为T细胞克隆的独特型。

进一步地，在步骤8中，统计TCR库数据的范围为：统计TCR库整体的序列数、种类数、分布的香农熵、辛普森指数，统计的依据为序列、频数、所在基因等信息。

实施例一

系统依赖：基于linux系统；

软件依赖：blat，perl；

编写语言：perl程序语言；

使用操作:

1、将测序数据产生的fq格式文件拷贝至软件目录；

其中，perl程序语言主要程序源码为：

grep^$primerseq$sample|cut-b$range>$sample.1.\n

sort$sample.1.|uniq-c|sort-n-r>$sample.2.\n

perl perl_project/freq_to_fa.pl$sample.2.>$sample.3.\n

$blat$TCRAB.fasta$sample.3.-out＝blast8-stepSize＝5-minScore＝0-minIdentity＝0$sample.4.\n

perl perl_project/anno.pl$sample.4.$TCRAB.anno$sample.5.\n

perl perl_project/anno2oneline.pl$sample.5.$sample.6.\n

less$sample.6.|grep V|grep J>$sample.7.\n

perl perl_project/haveVJ_seq_to_protein.pl$sample.7.$nt_num>$sample.8.\n

perl perl_project/haveVJ.protein_to_uniq.fre.pl$sample.8.\n

sort-n-r$sample.8..uniq.fre>$sample.8..uniq.fre.sort\n

perl perl_project/protein.uniq.fre.sort.anno.pl$sample.8.\n

perl perl_project/cut_CDR3.pl$sample.8..uniq.fre.sort.anno$pr_num\n

perl perl_project/CDR3.sort.pl$sample.8..uniq.fre.sort.anno.CDR3\n

perl perl_project/V_J_usage.pl$sample.8..uniq.fre.sort.anno.CDR3.com\n

perlperl_project/V_J_only_usage.pl$sample.8..uniq.fre.sort.anno.CDR3.com.VJ\n

perl perl_project/clonenumber_clonetype_ShannonEntropy.pl$sample.8..uniq.fre.sort.anno.CDR3.com>$sample.ShannonEntropy.list\n

调用子程序的主程序(就是调用blat比对的参数

)主要源码为：

2、在软件目录键入：

>perl TCR_one_Step.pl samples.fqTCR_rangeprimer_seqblat_adress TCRB/TCRA

参数说明：

1)samples.fq为fq格式的测序数据；

2)TCR_range根据PCR引物设计的位置进行范围设定TCR范围，格式为(m-n)，例9-125；

3)primer_seq为PCR 3'端引物的序列；

4)blat_adress为blat软件安装地址。

5)TCRB/TCRA为二选一选项，TCRβ链分析为TCRB，α链分析为TCRA。

3、在软件目录键入：

>sh samples.fq.sh

4、得到分析结果。

实施例二

一例胃癌组织标本的TCR库测序数据(已去除低质量序列)：WT1.fq；

测序平台：illumina Hiseq2500；

>perlTCR_one_Step.plWT1.fq9-125CGTGATAACAC/home/bin/x86_64/blatTCRB；

>shWT1.fq.sh；

本实施例中的WT1样本其中一条目标序列为例：

CGTGATAACACCTTGTTCAGGTCCTCTACAACGGTTAACCTGGTCCCCGAACCGAAGGTGTAGCCATACCTCGATCCCCCCCCGGATGAGCTGCTGGCACAGAAGTACAGGGCTGAGTCCCCCAG

测序获得的数据，每条序列的总长度为125个碱基，例如上面这条序列，实验中使用的引物序列为CGTGATAACACCTTGTTCAGGTCCT，即序列的前25个碱基，因此在输入TCR范围(TCR_range参数)时，应当选择的参数为n-125，其中6<n<25,本实施例中选择了9-125。输入引物序列(primer_seq)时，推荐截取引物前段6-15个碱基作为输入参数，本实施例中选取了前11个碱基最为输入参数CGTGATAACAC，所以最终的输入命令为：

perl TCR_one_Step.plWT1.fq9-125CGTGATAACAC/home/bin/x86_64/blatTCRB

输出的文件有：检测到的各类TCR序列的CDR3序列、频数、频率、V、J基因及V-J对使用频数频率；输出文件均为常规的文本文件，方便进行下一步的统计检验。

其中，TCR库整体的香农熵，辛普森指数为：

样本	总序列	序列种类	香农熵	辛普森指数
					WT1.fa.8	2773615	7333	3.261658643	5.809228429

本公开的实施例提供的一种基于二代测序的T细胞受体库分析装置，该实施例的一种基于二代测序的T细胞受体库分析装置包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如分析程序。所述处理器执行所述计算机程序时实现上述各个分析方法实施例中的步骤。

所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序以执行在以下装置的单元中：

所述一种基于二代测序的T细胞受体库分析装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种基于二代测序的T细胞受体库分析装置，可运行的装置可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于二代测序的T细胞受体库分析装置的示例，并不构成对一种基于二代测序的T细胞受体库分析装置的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于二代测序的T细胞受体库分析装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于二代测序的T细胞受体库分析装置运行装置的控制中心，利用各种接口和线路连接整个一种基于二代测序的T细胞受体库分析装置可运行装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于二代测序的T细胞受体库分析装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种基于二代测序的T细胞受体库分析方法，其特征在于，所述分析方法包括以下步骤：

步骤1，将测序数据中以3'端开头为引物序列的测序数据筛选出来获得第一序列集；

步骤2，在第一序列集中截取TCR范围内的目标序列片段获得第二序列集；

2.根据权利要求1所述的一种基于二代测序的T细胞受体库分析方法，其特征在于，在步骤2中，所述TCR范围需根据PCR引物设计的位置进行设定，其中，所述第一序列集片段是每一条3'端序列去除引物序列后剩余的序列片段，所述TCR范围可由用户根据实际情况自由定义。

3.根据权利要求1所述的一种基于二代测序的T细胞受体库分析方法，其特征在于，在步骤3中，将第二序列集按照每个序列出现的次数排序获得第三序列集的方法为：将第二序列集中完全相同的序列合并的同时计数，形成一个2列的表格，其中一列为第三序列集，另一列为该序列出现的次数。

4.根据权利要求1所述的一种基于二代测序的T细胞受体库分析方法，其特征在于，在步骤4中，所述参考基因组序列为TCR公共数据库中公布的人基因组上TCR区域的DNA参考序列，其中，实验数据来自于人基因组TCR的α链为TCRA，来自于人基因组TCR的β链为TCRB。

5.根据权利要求1所述的一种基于二代测序的T细胞受体库分析方法，其特征在于，在步骤5中，根据TCR基因的参考坐标注释出第四数据集中每个片段所在位置的基因信息得到注释后的第五序列集的方法为：根据TCR区域V、J基因的参考坐标每个位置对应的基因名字获取第四数据集中每个片段所在位置的基因信息，其中，参考坐标是TCR公共数据库中公布的各个V，J基因的位置信息。

6.根据权利要求1所述的一种基于二代测序的T细胞受体库分析方法，其特征在于，在步骤7中，所述将翻译后的每个序列按照TCRV-CDR3-TCRJ顺序分解成为第七序列集的方法为：CDR3区域的定义为以C开头FGXG结尾的氨基酸序列片段，提取及整合CDR3区域中以C开头、以FGXG的F结尾的氨基酸序列获得第七序列集，其中，所述TCRV-CDR3-TCRJ顺序为将每个翻译后的序列都分为TCRV、CDR3、TCRJ前中后三段的顺序，所述TCRV为前段V区域，CDR3为中段CDR3区域，TCRJ为后段J区域，所述CDR3区域的头端为半胱氨酸，末端为FGXG的特征序列，F表示苯丙氨酸，G表示甘氨酸，X表示任意氨基酸。

7.一种基于二代测序的T细胞受体库分析装置，其特征在于，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序以执行在以下装置的单元中：