CN107038349A

CN107038349A - 确定重排前v/j基因序列的方法和装置

Info

Publication number: CN107038349A
Application number: CN201610075036.5A
Authority: CN
Inventors: 张伟; 齐彦伟; 王长希; 刘晓
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2017-08-11
Anticipated expiration: 2036-02-03
Also published as: CN107038349B

Abstract

本发明公开一种确定重排前的V和/或J基因序列的方法，包括：(1)获取待测RNA样品的测序数据，测序数据包括来自TCR、BCR和/或Ig的可变区的多个读段；(2)基于测序数据，依据可变区中的V、J与C基因片段的排列关系，确定读段上的来自V/J基因片段的部分，获得多个V/J区部分；(3)从每个V/J区部分取出至少一段序列作为种子序列，获得包含多个种子序列的种子序列集；(4)依据每个种子序列的V/J区部分的支持数目的差异，对V/J区部分进行聚类，获得多个V/J区部分簇；(5)利用每个V/J区部分簇延伸其所支持的种子序列，获得多个候选的重排前V/J基因序；(6)利用读段对候选的重排前V/J基因序列的支持情况进行过滤，以获得重排前的V/J基因序列。

Description

确定重排前V/J基因序列的方法和装置

技术领域

本发明属于生物信息领域，具体的，本发明涉及一种确定重排前V/J基因序列的方法和装置。

背景技术

胚系细胞(Germline)上存在一簇V基因、一簇J基因，有的V/J基因之间还有一簇D基因，基因簇中的基因由内含子分开，串联排列在同一条染色体上，并且基因之间的同源性非常的高【动物免疫学[M].中国农业大学出版社,1996.】。一般一个簇里面有几十个基因，且每个基因在不同个体上可能不一样，如人编码抗体的重链(IGH)的V基因簇中有40个基因、D基因簇有25个基因、J基因簇有6个基因，其中40个V基因总共有425个等位基因(allele)。

对于淋巴细胞来说，在细胞发育成熟过程中，V基因、J基因或者D基因会发生基因间的重排【Parkin J,Cohen B.An overview of the immune system[J].The Lancet,2001,357(9270):1777-1789.】，形成编码T细胞受体(TCR)和B细胞受体(BCR)或抗体(Ig)的基因。而这些构成机体免疫系统的B细胞受体/抗体或T细胞受体的集合就形成了免疫组库(immune reperoire)。

免疫球蛋白TCR和BCR的恒定区(C区)比较保守，相对容易测序，很多动物的C区已知。但V，D，J基因区的多样性较高【余江,姚新生.高通量测序分析自身免疫性疾病T细胞受体β链CDR3组库的特征[J].贵州医药,2015,3:037.】；而且，除人类和小鼠外，其他物种的该区域基因还未被找到或者仅仅证明了其中一部分；这些一定程度上阻碍了免疫学研究的进程。例如，猴子是一种可用的疫苗评价和抗体动物模型并被广泛使用。但是猴子的IgH序列【Link J M,Hellinger M A,Schroeder H W.The Rhesus monkey immunoglobulin IGHDand IGHJ germline repertoire[J].Immunogenetics,2002,54(4):240-250.】只有少量被发现，远远达不到分析的要求。因此研究物种的germline序列是一个亟待解决的基本问题。

目前，已有一些方法试图探索germline序列。传统的方法是使用PCR克隆的策略，基于人类基因组DNA序列作为引物进行PCR扩增物种的germline。使用这种方法能测出骆驼【Nguyen V K,Hamers R,Wyns L,et al.Camel heavy‐chain antibodies:diversegermline VHH and specific mechanisms enlarge the antigen‐binding repertoire[J].The EMBO journal,2000,19(5):921-930.】和猴子【Diaz O L,Daubenberger C A,Rodriguez R,et al.Immunoglobulin kappa light-chain V,J,and C gene sequencesof the owl monkey Aotus nancymaae[J].Immunogenetics,2000,51(3):212-218.】的部分germline序列，这是最直接的获得序列的方法，但只适用于和人类同源的物种，并且需要设计多重配对引物且时间长。

最近，将生物信息的方法应用于参考序列组装物种的基因组已成为一个重要的方向。但这些生物信息策略依赖于已知物种基因组和germline序列。对于物种germline区域高度重复性区域的组装准确校正是较难的，影响了germline的推断。另外，至今也没有软件或工具用于推断germline序列。

发明内容

本发明旨在至少解决上述问题之一或者提出一种商业选择手段。为此，发明人提供了一个从头(de novo)方法以推定V/J的germline序列，即推定重排前的V/J基因序列。

依据本发明的一方面，本发明提供一种确定重排前的V和/或J基因序列的方法，该方法包括：(1)获取待测RNA样品的测序数据，所述测序数据包括来自TCR、BCR和/或Ig的可变区的多个读段，所述读段的长度为L，L≥100bp；(2)基于所述测序数据，依据所述可变区中的V基因片段和J基因片段与C基因片段的排列关系，确定所述读段上的来自V基因片段和/或J基因片段的部分，获得多个V区部分和/或多个J区部分；(3)从每个所述V区部分和/或所述J区部分取出至少一段序列作为种子序列，获得包含多个种子序列的种子序列集，所述种子序列的长度为K；(4)依据所述种子序列集中的每个种子序列的V区部分和/或J区部分的支持数目的差异，对所述V区部分和/或J区部分进行聚类，获得多个V区部分簇和/或多个J区部分簇；(5)利用每个所述V区部分簇和/或所述J区部分簇延伸其所支持的种子序列，获得多个候选的重排前V基因序列和/或多个候选的重排前J基因序列；(6)利用所述测序数据中的读段对所述候选的重排前V基因序列和/或所述候选的重排前J基因序列的支持情况进行过滤，以获得所述重排前的V和/或J基因序列。

依据本发明的另一方面，本发明提供一种计算机可读介质，该计算机可读介质用于存储计算机可执行程序，执行所述程序包括完成上述本发明一方面的确定重排前的V和/或J基因序列的方法。本领域技术人员可以理解，在执行该计算机可执行程序时，通过指令相关硬件可完成上述方法的全部或部分步骤。所称存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

依据本发明的又一方面，本发明提供一种确定重排前的V和/或J基因序列的装置，该装置包括：数据输入单元，用于输入数据；数据输出单元，用于输出数据；存储单元，用于存储数据，其中包括计算机可执行程序；处理器，与所述数据输入单元、所述数据输出单元和所述存储单元连接，用于执行所述计算机可执行程序，执行所述程序包括完成上述本发明一方面的确定重排前的V和/或J基因序列的方法。

依据本发明的再一方面，本发明提供一种确定重排前的V和/或J基因序列的系统，该系统包括：数据获取装置，用于获取待测RNA样品的测序数据，所述测序数据包括来自TCR、BCR和/或Ig的可变区的多个读段，所述读段的长度为L，L≥100bp；V/J区部分确定装置，用于基于所述测序数据，依据所述可变区中的V基因片段和J基因片段与C基因片段的排列关系，确定所述读段上的来自V基因片段和/或J基因片段的部分，获得多个V区部分和/或多个J区部分；种子序列集获取装置，用于从每个所述V区部分和/或所述J区部分取出至少一段序列作为种子序列，获得包含多个种子序列的种子序列集，所述种子序列的长度为K；V/J区部分簇确定装置，用于依据所述种子序列集中的每个种子序列的V区部分和/或J区部分的支持数目的差异，对所述V区部分和/或J区部分进行聚类，获得多个V区部分簇和/或多个J区部分簇；候选重排前V/J基因序列获取装置，用于利用每个所述V区部分簇和/或所述J区部分簇延伸其所支持的种子序列，获得多个候选的重排前V基因序列和/或多个候选的重排前J基因序列；重排前V/J基因序列确定装置，用于利用所述测序数据中的读段对所述候选的重排前V基因序列和/或所述候选的重排前J基因序列的支持情况进行过滤，以获得所述重排前的V和/或J基因序列。

上述本发明的方法、装置和/或系统，基于高通量测序免疫组库获得的测序数据，能够仅利用信息分析方法，准确推导出V/J的germline序列。通过本发明的方法，可以对很多未发现V/J germline的物种，确定其germline序列，利于用于对物种T细胞受体和B细胞受体或抗体的进一步研究。相比传统和目前已有的方法，本发明的方法大大降低了难度，缩短了时间和费用。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例中的确定重排前的V和/或J基因序列的方法的步骤示意图。

图2是本发明一个实施例中的确定重排前的V和/或J基因序列的装置的结构示意图。

图3是本发明一个实施例中的确定重排前的V和/或J基因序列的系统的结构示意图。

图4是本发明一个实施例中的确定重排前的V和/或J基因序列的方法的流程图。

图5是本发明一个实施例中的确定的三个样本的合并的TRB-J基因在人类JGermline基因区的覆盖情况的示意图。

图6是本发明一个实施例中的确定的三个样本的合并的TRB-V基因在人类VGermline基因区的覆盖情况的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。需要说明的，本文中所使用的术语“第一”、“第二”、“第一类”、“第二类”或者“第一部分”等仅为方便描述，不能理解为指示或暗示相对重要性，也不能理解为之间有先后顺序关系。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本文中，除非另有明确的规定和限定，术语“相连”、“连接”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。

如图1所示，依据本发明的一个实施例提供的一种确定重排前的V和/或J基因序列的方法，该方法包括以下步骤：

S10获取待测RNA样品的测序数据。

获取的待测RNA样品的测序数据包括来自TCR、BCR和/或Ig的可变区的多个读段，所述读段的长度为L，L≥100bp。

所称的RNA样品来自发生V和/或J基因重排的细胞中的RNA或游离RNA。一般来自特异性免疫细胞，例如来自T淋巴细胞和/或B淋巴细胞。

所称的测序数据通过对待测RNA样品的核酸序列进行测序文库制备、上机测序获得。根据本发明的实施例，获取所述测序数据，包括：获取待测样本中的核酸，制备所述核酸的测序文库，对所述测序文库进行测序。测序文库的制备方法根据所选择的测序方法的要求进行，测序方法依据所选的测序平台的不同，可选择但不限于Illumina公司的Hisq2000/2500测序平台、Life Technologies公司的Ion Torrent平台和单分子测序平台，测序方式可以选择单端测序，也可以选择双末端测序，获得的下机数据是测读出来的片段，称为读段(reads)。

根据本发明的一个实施例，所述测序数据为经过预处理的测序数据，所述预处理包括以下至少之一：过滤掉包含接头序列的读段、切去读段的末端序列质量值小于10的碱基以及切去读段末端的接头序列。如此，预处理后的测序数据的整体质量更高，利于后续准确分析推定V/J的germline序列。

根据本发明的一个实施例，利用双末端测序获得所述测序数据，即所述测序数据包含多对成对读段，利用读段之间的重叠部分将一对成对读段拼接成一条拼接序列，以所述拼接序列替代所述成对读段进行以下步骤。如此，相当于获得更长的测序片段，利用更长的测序片段利于后续准确分析推定重排前的序列。

S20获取多个V区部分和/或多个J区部分。

基于所述测序数据，依据所述可变区中的V基因片段和J基因片段与C基因片段的排列关系，确定所述读段上的来自V基因片段和/或J基因片段的部分，获得多个V区部分和/或多个J区部分。

根据本发明的一个实施例，S20包括：确定所述读段上的来自C基因片段的部分，例如利用局部比对确定所述读段上的来自C基因片段的部分；切割掉所述读段上的来自C基因片段的部分，获得切割后的部分；从所述切割后的部分的3’端向5’端提取不小于60bp的序列以获得所述J区部分；和/或从所述切割后的部分的3’端向5’端切割掉40bp，获得的余下部分为所述多个V区部分。该示例是依据Ig或TRB中可变区的V基因片段、J基因片段与恒定区C基因片段的排列关系以及目标基因片段的大小，来初步确定读段上的来自V基因片段和J基因片段的V区部分和J区部分。

根据本发明的一个较佳实施例，S20还包括：过滤掉长度小于40bp的所述J区部分和/或长度小于40bp的所述V区部分。如此，依据目标基因片段的大小，去除掉非来自目标基因的片段或者短碎的目标片段，利于后续简单准确的进行数据处理。

S30获得种子序列集。

从每个所述V区部分和/或所述J区部分取出至少一段序列作为种子序列，获得包含多个种子序列的种子序列集，所述种子序列的长度为K。

考虑到J区长度范围为40～60bp，根据本发明的一个实施例，设定K为不大于40bp。如此，利于将每个V区部分或J区部分转化成多个种子序列。

根据本发明的一个实施例，S30包括：对每个所述V区部分和/或所述J区部分以1bp长度进行滑动切割，以将一个所述V区部分和/或所述J区部分转化成一个种子序列子集，一个所述种子序列子集包括(L-K+1)个所述种子序列，多个所述种子序列子集构成所述种子序列集。这样，将V区部分或J区部分转化成对应的一个种子序列子集，即转化成一个Kmer集合，该转化一方面使得滑动1bp的两个Kmer间存在(K-1)bp长度的重叠，这种重叠关系不需通过比对来获得，这样节省了比对时间，另一方面使得每个V区部分或J区部分相当于一个Kmer群，确定了这一群Kmer的线性方向关系，这些都利于后续基于种子序列的延伸，利于推定重排前的V/J基因序列。

S40获得多个V区部分簇和/或多个J区部分簇。

依据所述种子序列集中的每个种子序列的V区部分和/或J区部分的支持数目的差异，对所述V区部分和/或J区部分进行聚类，获得多个V区部分簇和/或多个J区部分簇。

根据本发明的一个实施例，S40包括重复进行以下(i)和(ii)，直至没有所述种子序列剩余：(i)确定获得数目最多V区部分和/或J区部分的支持的种子序列，将支持该种子序列的所有V区部分和/或J区部分归为一类，对应获得一个V区部分簇和/或一个J区部分簇；(ii)去除(i)中的种子序列和支持该种子序列的所有V区部分和/或J区部分。这样，循环类推，直到剩余的种子序列序列为0。

S50获得候选的重排前V基因序列和/或候选的重排前J基因序列。

利用每个所述V区部分簇和/或所述J区部分簇延伸其所支持的种子序列，获得多个候选的重排前V基因序列和/或多个候选的重排前J基因序列。所称的延伸依据V区部分或J区部分之间的重叠关系进行。例如，将同一J区部分簇中的J区部分比对到其所支持的种子序列，即将这些J区部分定位，基于定位后的J区部分序列之间的重叠关系进行。

所称的“比对上”意同匹配。具体比对时，可以利用已知比对软件进行，例如SOAP、BWA和TeraMap等，本实施例对此不作限制。在比对过程中，根据比对参数的设置，一对或一条序列最多允许有n个碱基错配(mismatch)，例如设置n为1或2，若序列中有超过n个碱基发生错配，则视为该条/对序列无法比对到参考序列。

当匹配为完全匹配，例如当比对上的序列的某个位点与参考序列上的该位点一致，则称这种序列为支持该位点的序列。

由于V、D基因均有多个拷贝，各片段随机组合即重排的方式多样，显示为定位后的V/J区部分的同一位置的碱基多样，延伸时需要设定可信条件确定该位置的碱基类型。根据本发明的一个实施例，S50包括：利用所述V区部分簇和/或所述J区部分簇，对所述V区部分簇和/或所述J区部分簇支持的种子序列进行延伸，以获得多个所述候选的重排前V基因序列和/或多个所述候选的重排前J基因序列，其中包括进行以下至少之一：(a)对于J区部分簇支持的种子序列，利用该J区部分簇对该种子序列的3’端和/或5’端进行延伸一个碱基需要同时满足条件：支持该碱基的J区部分的数目占该J区部分簇包含的J区部分总数的比例大于3％，支持该碱基的J区部分的种类数目占该J区部分簇包含的种类总数的比例大于5％；(b)对于V区部分簇支持的种子序列，利用该V区部分簇对该种子序列的3’端进行延伸一个碱基需要同时满足条件：支持该碱基的V区部分的数目占该V区部分簇包含的V区部分总数的比例大于3％，支持该碱基的V区部分的种类数目占该V区部分簇包含的V区部分种类总数的比例大于5％；(c)对于V区部分簇支持的种子序列，利用该V区部分簇对该种子序列的5’端进行延伸一个碱基需要同时满足条件：支持该碱基的V区部分的数目大于100，支持该碱基的V区部分的种类数目大于2。所称的支持某碱基的J区部分的种类是指该位置碱基一样但其它位置的碱基不完全一样的J区部分。所称的支持某碱基的V区部分的种类是指该位置碱基一样但其它位置的碱基不完全一样的V区部分。

为获得候选的重排前V基因序列，根据本发明的一个实施例，S50包括进行上述(b)和(c)，以及将进行(b)和(c)后得到的序列进行拼接，以获得候选的重排前的V基因序列。该实施例考虑到V区基因打断之后，片段长度不一，情况较J区复杂，所以将左右两端分开延伸，采用不同的过滤条件，利于获得准确度高的候选V基因序列。

S60过滤以获得重排前的V和/或J基因序列。

利用所述测序数据中的读段对所述候选的重排前V基因序列和/或所述候选的重排前J基因序列的支持情况进行过滤，以获得所述重排前的V和/或J基因序列。

根据本发明的一个实施例，在进行S60之前，将序列相似度不小于95％的候选的重排前V基因序列合并，和/或将序列相似度不小于95％的候选的重排前J基因序列合并。如此，能够避免相同数据的重复调用分析，减少运算量。

根据本发明的一个实施例，S60包括进行以下(d)和/或(e)：(d)从所述候选的重排前V基因序列的3’端的第一个碱基开始，向5’端方向截取所述种子序列长度的序列，作为第一片段，从所述候选的重排前V基因序列的3’端的第P个碱基开始，向5’端方向截取所述种子序列长度的序列，作为第二片段，基于所述第一片段的读段支持数和所述第二片段的读段支持数的差异程度，对所述候选的重排前V基因序列进行过滤；(e)从所述候选的重排前J基因序列的5’端的第一个碱基开始，向3’端方向截取所述种子序列长度的序列，作为第三片段，从所述候选的重排前J基因序列的5’端的第P’个碱基开始，向3’端方向截取所述种子序列长度的序列，作为第四片段，基于所述第三片段的读段支持数和所述第四片段的读段支持数的差异程度，对所述候选的重排前J基因序列进行过滤。

根据本发明的一个实施例，S60中的(d)包括保留同时满足以下两个条件的候选的重排前V基因序列：第二片段的读段支持数/第一片段的读段支持数>1.5，第一片段的读段支持数/第一片段的平均读段支持数>5％；和/或S60中的(e)包括保留同时满足以下两个条件的候选的重排前J基因序列：第四片段的读段支持数/第三片段的读段支持数>1.5，第三片段的读段支持数/第三片段的平均读段支持数>5％。上述实施例基于获得的读段支持数量对候选V/J基因序列进行筛选，利于最终保留住的为可靠的重排前序列。

上述本发明的这一方法能够仅利用信息分析技术，准确推导出V/J的germline序列。通过本发明的方法，可以确定很多未发现V/J germline的物种的germline序列，可用于对任何物种T细胞受体和B细胞受体或抗体的进一步研究。相比传统和目前已有的方法，本发明的方法大大降低了难度，缩短了时间和费用。

本领域技术人员可以理解，上述确定重排前的V和/或J基因序列的方法的全部或部分步骤，可以利用机器可识别语言编写成程序，存储于存储介质中。依据本发明的另一个实施例提供的一种计算机可读介质，该计算机可读介质用于存储计算机可执行程序，执行所述程序包括完成上述任一实施例中的的确定重排前的V和/或J基因序列方法。本领域技术人员可以理解，在执行该计算机可执行程序时，通过指令相关硬件可完成上述任一确定重排前的V和/或J基因序列方法的全部或部分步骤。所称存储介质可以包括：只读存储器、随机存储器、磁盘或光盘等。

如图2所示，依据本发明的又一实施例提供的一种确定重排前的V和/或J基因序列的装置，该装置100包括：数据输入单元110，用于输入数据；数据输出单元120，用于输出数据；存储单元130，用于存储数据，其中包括计算机可执行程序；处理器140，与所述数据输入单元110、所述数据输出单元120和所述存储单元130连接，用于执行所述计算机可执行程序，执行所述程序包括完成上述任一实施例中的确定重排前的V和/或J基因序列的方法。

如图3所示，依据本发明的再一个实施例提供的一种确定重排前的V和/或J基因序列的系统，该系统能够用以实施上述本发明任一实施例中的确定重排前的V和/或J基因序列的方法。该系统1000包括：数据获取装置1010，用于获取待测RNA样品的测序数据，所述测序数据包括来自TCR和/或Ig的可变区的多个读段，所述读段的长度为L，L≥100bp；V/J区部分确定装置1020，用于基于所述测序数据，依据所述可变区中的V基因片段和J基因片段与C基因片段的排列关系，确定所述读段上的来自V基因片段和/或J基因片段的部分，获得多个V区部分和/或多个J区部分；种子序列集获取装置1030，用于从每个所述V区部分和/或所述J区部分取出至少一段序列作为种子序列，获得包含多个种子序列的种子序列集，所述种子序列的长度为K；V/J区部分簇确定装置1040，用于依据所述种子序列集中的每个种子序列的V区部分和/或J区部分的支持数目的差异，对所述V区部分和/或J区部分进行聚类，获得多个V区部分簇和/或多个J区部分簇；候选重排前V/J基因序列获取装置1050，用于利用每个所述V区部分簇和/或所述J区部分簇延伸其所支持的种子序列，获得多个候选的重排前V基因序列和/或多个候选的重排前J基因序列；重排前V/J基因序列确定装置1060，用于利用所述测序数据中的读段对所述候选的重排前V基因序列和/或所述候选的重排前J基因序列的支持情况进行过滤，以获得所述重排前的V和/或J基因序列。上述对本发明的确定重排前的V和/或J基因序列的方法的技术特征和优点的描述，同样适用该系统，在此不再赘述。

根据本发明的实施例，本发明的这一系统，还可以具有至少一个以下附加技术特征：

根据本发明的一个实施例，数据获取装置1010中的测序数据为经过预处理的测序数据，所述预处理包括以下至少之一：过滤掉包含接头序列的读段、切除掉读段的末端序列的质量值小于10的末端序列部分以及切除掉读段的末端序列包含接头序列的末端序列部分。

根据本发明的一个实施例，利用所述V/J区部分确定装置进行以下：确定所述读段上的来自C基因片段的部分，切割掉所述读段上的来自C基因片段的部分，获得切割后的部分，从所述切割后的部分的3’端向5’端提取不小于60bp的序列以获得所述J区部分；和/或从所述切割后的部分的3’端向5’端切割掉40bp，获得的余下部分为所述多个V区部分。其中，根据本发明的一个实施例，利用局部比对确定所述读段上的来自C基因片段的部分。

根据本发明的一个实施例，还利用所述V/J区部分确定装置进行：过滤掉长度小于40bp的所述J区部分和/或长度小于40bp的所述V区部分。

考虑到目标序列的长度，根据本发明的一个实施例，设置K为不大于40bp。

根据本发明的一个实施例，利用所述种子序列集获取装置进行以下：对每个所述V区部分和/或所述J区部分以1bp长度进行滑动切割，以将一个所述V区部分和/或所述J区部分转化成一个种子序列子集，一个所述种子序列子集包括(L-K+1)个所述种子序列，多个所述种子序列子集构成所述种子序列集。

根据本发明的一个实施例，利用所述V/J区部分簇确定装置重复进行以下(i)和(ii)，直至没有所述种子序列剩余：确定获得数目最多V区部分和/或J区部分的支持的种子序列，将支持该种子序列的所有V区部分和/或J区部分归为一类，对应获得一个V区部分簇和/或一个J区部分簇，(ii)去除(i)中的种子序列和支持该种子序列的所有V区部分和/或J区部分。

根据本发明的一个实施例，利用所述候选重排前V/J基因序列获取装置进行以下：利用所述V区部分簇和/或所述J区部分簇，对所述V区部分簇和/或所述J区部分簇支持的种子序列进行延伸，以获得多个所述候选的重排前V基因序列和/或多个所述候选的重排前J基因序列，其中包括进行以下至少之一：(a)对于J区部分簇支持的种子序列，利用该J区部分簇对该种子序列的3’端和/或5’端进行延伸一个碱基需要同时满足条件：支持该碱基的J区部分的数目占该J区部分簇包含的J区部分总数的比例大于3％，支持该碱基的J区部分的种类数目占该J区部分簇包含的种类总数的比例大于5％，(b)对于V区部分簇支持的种子序列，利用该V区部分簇对该种子序列的3’端进行延伸一个碱基需要同时满足条件：支持该碱基的V区部分的数目占该V区部分簇包含的V区部分总数的比例大于3％，支持该碱基的V区部分的种类数目占该V区部分簇包含的V区部分种类总数的比例大于5％，(c)对于V区部分簇支持的种子序列，利用该V区部分簇对该种子序列的5’端进行延伸一个碱基需要同时满足条件：支持该碱基的V区部分的数目大于100，支持该碱基的V区部分的种类数目大于2。根据本发明的一个实施例，利用所述V区部分簇和/或所述J区部分簇进行上述(b)和(c)，以及将进行(b)和(c)后得到的序列进行拼接。

根据本发明的一个实施例，在利用所述重排前V/J基因序列确定装置获得所述重排前的V和/或J基因序列之前，将序列相似度不小于95％的候选的重排前V基因序列合并，和/或将序列相似度不小于95％的候选的重排前J基因序列合并。

根据本发明的一个实施例，利用所述重排前V/J基因序列确定装置进行以下(d)和/或(e)：(d)从所述候选的重排前V基因序列的3’端的第一个碱基开始，向5’端方向截取所述种子序列长度的序列，作为第一片段，从所述候选的重排前V基因序列的3’端的第P个碱基开始，向5’端方向截取所述种子序列长度的序列，作为第二片段，基于所述第一片段的读段支持数和所述第二片段的读段支持数的差异程度，对所述候选的重排前V基因序列进行过滤，(e)从所述候选的重排前J基因序列的5’端的第一个碱基开始，向3’端方向截取所述种子序列长度的序列，作为第三片段，从所述候选的重排前J基因序列的5’端的第P’个碱基开始，向3’端方向截取所述种子序列长度的序列，作为第四片段，基于所述第三片段的读段支持数和所述第四片段的读段支持数的差异程度，对所述候选的重排前J基因序列进行过滤。

根据本发明的一个实施例，利用所述重排前V/J基因序列确定装置进行(d)包括保留同时满足以下两个条件的候选的重排前V基因序列：第二片段的读段支持数/第一片段的读段支持数>1.5，第一片段的读段支持数/第一片段的平均读段支持数>5％，和/或利用所述重排前V/J基因序列确定装置进行(e)包括保留同时满足以下两个条件的候选的重排前J基因序列：第四片段的读段支持数/第三片段的读段支持数>1.5，第三片段的读段支持数/第三片段的平均读段支持数>5％。

为了使本发明技术方案及优点更加清楚明白，以下结合具体实施例对本发明的的确定重排前的V和/或J基因序列方法、装置和/或系统进行详细的描述。应当理解，下面示例用于解释本发明，不是对本发明的限制。

除另有交待，以下实施例中涉及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器，都是常规市售产品或者开源的，例如购买Illumina的测序文库构建试剂盒。

实施例一

一般方法，包括以下步骤：

针对RNA样品，可使用经过发明人优化一套通用引物通过5’race扩增TCR、BCR或Ig的可变区：

可变区由TCR或Ig的V、D、J三种基因片段重排形成，重排过程中基因片段之间的连接处有核苷酸的插入与缺失，该区域体现了适应性免疫分子表面受体的多样性。C区是恒定区，针对RNA可在C区设计引物，扩增可变区，然后通过5’race的方法扩增由不同亚家族的V区与J区重排所得的可变区。

(2)文库制备

步骤一通过C区的反转录引物和SuperscriptⅡ等合成cDNA一链,然后,用Rnasemix消化cDNA中的RNA,接着在5’端加C,最后用5’race试剂盒中的Abridged Anchor primer和有生物素标记的C区引物PCR扩增。

步骤二把扩增产物打断到250bp左右，Dynabeads M-270链霉素磁珠富集带有生物素的DNA,用限制性内切酶PacⅠ酶切收集DNA。

步骤三文库构建：DNA通过T4DNA Polymerase、Klenow Fragment和T4Polynucleotide Kinase等酶的作用以dNTP为作用底物进行末端修复，形成补平的末端磷酸化的DNA片段。如果后续是TA粘性末端连接，可以利用Klenow Fragment(3’-5’exo-)聚合酶及dATP在补平序列的3’末端加上“A”碱基。在T4DNA Ligase的作用下与接头进行连接。为了方便来源于不同样本制备的RNA文库混合上机测序并在测序后区分开来，可在接头中引入标签序列以区分不同样品制备的文库。如果需要富集连接上接头的片段，可以加一步公用引物的PCR。

测序文库全程为磁珠纯化，文库进行安捷伦2100检测和Q-PCR定量。

(3)高通量测序

将上述准备的文库在高通量测序平台上进行测序，高通量测序平台可选择Illumina Hiseq及Miseq测序平台，Roche 454测序平台，Life Technologies的SOLiD及IonTorrent测序平台中的至少一种。

(4)数据分析

如图4所示，主要包括以下步骤：

步骤一：数据初步处理

数据过滤：检查序列是否有测序接头污染，若有接头序列，并且在末端(最后50bp)则切掉末端污染部分，否则过滤掉整个序列。序列末端测序低质量值(<Q10)的碱基被切掉。拼接read：对Paired-end的测序类型，将两条reads通过中间重叠的部分拼接起来，成为一条序列。拼接时要求重叠区域的长度>10bp、错配碱基所占比例(mismatch)<＝10％。

步骤二：确定C区并把序列分成V和J两部分

1)确定恒定区域(C区)：过滤完的序列进行C区的参考序列进行局部比对(如BLAST)。通过比对确定C区，切掉C区部分，并将反义链转成正义链。

2)分别提取V/J部分：因D区较短且插入/删除使无法确定J区与D区的接头，因J区长度范围为40～60bp，从C区起点向J区延伸，提取一定读长(如70bp)作为J区部分；同样，从C区的起点向5‘端方向，剪切掉40bp，则剩下的序列作为V区部分。

步骤三：基于Seed聚类

对于V、J区部分分别聚类，取一定长度的序列(如40bp)作为seed，读取序列，记录每个seed所拥有的序列支持数。首先选择拥有支持数最大的seed，将支持这个seed的所有序列全部输出作为一类；再重新统计剩余序列的seed以及seed的序列支持数，选择最大的seed并输出其支持的序列作为另外一类；再重新统计剩余序列，输出最大的一类，依次循环类推，直到剩余序列为0。

步骤四：Seed延伸

J区seed延伸：对于每一类序列，根据seed往左右两边一个碱基逐步延伸，每次延伸时，当同时满足条件：(1)序列支持数占该类序列比例>3％，(2)序列支持数的种类占该类序列种类比例>5％；则继续往前延伸。当延伸时出现分支(即一个位置上出现多个碱基同是满足)的情况时，则根据分支产生多条序列。最后延伸停止时，延伸得到的序列视为候选Germline。

V区seed延伸：对V区的所有seed聚类子集，由于V区打断之后，片段长度不一，情况较J区复杂，我们将左右两端分开延伸，过滤条件不同，对3‘端延伸时，保留的条件与J区类似；但向5’端延伸时，过滤条件是：(1)序列支持数>100，(2)序列支持数的种类>2；最后将延展的两部分拼接到一起。

步骤五：合并候选Germline

每个Seed聚类延伸完成后，可能出现不同子集之间有重复germline，合并的过程，就是去除候选germline的重复序列。对候选的germline进行两两比对，如果相似度达到95％以上，则将两条序列合并成一条序列。

步骤六：过滤

在候选V germline的3‘端，或者J germline的5‘端，从末端向前取40bp作为片段一，从末端的第5个碱基开始，向前取40bp作为片段二。将片段一和片段二在原始数据集(数据初步处理过后的)进行搜索，统计各自的序列支持数。如果同时满足：(1)片段二序列支持数/片段一序列支持数>1.5；(2)片段一序列支持数/片段一平均支持数>5％；则序列保留，否则被过滤掉。

实施例二

(一)实验流程

(1)5’RACE富集目的片段

抽取三个正常人外周血，分离外周血单核细胞(peripheral blood mononuclearcell PBMC)后提取RNA，获得三个RNA样本，记为样本1(HRB)，样本2(HXY)和样本3(XHS)。RNA通过TCR恒定区C特异性引物反转录成cDNA。以下体系都以一个样品的反应数为例。

1.1cDNA 1st合成

1)按以下体系配制(1个样品)

TCRC区引物：TTGATGGCTCAAACACAGCGA(SEQ ID NO：1)

2)70℃10min，放置冰上1min，加入以下体系，42℃孵育1min。

3)加入1μL SuperscriptⅡ,42℃反应50min,70℃反应15min。

4)加入1μLRNase mix，37℃孵育30min。

1.21.5倍磁珠纯化cDNA,回溶18ul nuclease-free water。

1.3TdT Tailing cDNA

1)按以下体系配制

2)94℃孵育2-3min，冰上冷却1min。

3)加入1μL TdT混匀，37℃孵育10min，65℃孵育10min。

1.4PCR of dC-tailed cDNA

1)按以下体系配制

2)置于PCR仪中按照下列程序反应。

a.94℃ 2min

b.94℃ 15s

c.60℃ 30s

d.72℃ 30s

e.重复b-d步骤29次(共30cycles)

f.72℃ 5min

g.12℃ Hold

3)用1倍磁珠纯化，回溶20μL nuclease-free water。

(2)Covaris打断样品

取出3μL的样品用于电泳检测打断效果.

(3)打断序列的洗涤和洗脱

提前将水浴锅打开并将温度调至47℃并平衡，用来加热Washing Buffer。

3.1准备洗液

提前准备好各种Wash buffer试剂，按照比例配制两种Wash buffer试剂(1×Binding and Wash Buffer、2×Binding and Wash Buffer)。

3.2准备链霉素磁珠M-270

3.3将打断的DNA结合到链霉素磁珠上并洗涤

(4)限制性酶内切

1)按以下体系配制

2)置于PCR仪中按照下列程序反应。置于磁力架上,吸取上清，即为目的产物。

a.37℃ 2h

b.65℃ 20min

(5)通过连接酶引入测序接头则根据各测序平台制定的标准文库制备流程进行测序文库制备.

(6)文库检测

Bioanalyzer analysis system(Agilent,Santa Clara,USA)检测文库插入片段大小及含量；Q-PCR精确定量文库的浓度。

(7)测序

文库检测合格后在相应的测序平台上进行测序，按照双末端151个碱基的读长在Hiseq2000测序仪上进行测序。

(二)数据分析

1.数据预处理

数据过滤：检查序列是否有测序接头污染，若有接头序列，并且在末端(最后50bp)则切掉末端污染部分，否则过滤掉整个序列。序列末端测序低质量值(<Q10)的碱基被切掉。

拼接read：对Paired-end的测序类型，将两条reads通过中间重叠的部分拼接起来，成为一条序列。(重叠区域，长度>10bp，mismatch<＝10％)

根据过滤条件，三个样本过滤情况分别为：样本1(HRB)滤出序列14,695,238条，滤出率为97.97％；样本2(HXY)滤出序列17,459,894条，数据滤出率98.14％；样本3(XHS)滤出序列16,515,129条，滤出率为96.01％。

2.确定C区并把序列分成V和J部分

确定恒定区域(C区)：过滤完的序列进行C区的参考序列进行局部比对(如BLAST)。通过比对确定C区，切掉C区部分，并将反义链转成正义链。

分别提取V/J部分：因D区较短且插入/删除使无法确定J区与D区的接头，因J区长度范围为40～60bp，从C区起点向J区延伸，提取一定70bp作为J区部分；同样，从C区的起点向5‘端方向，剪切掉40bp，则剩下的序列作为V区部分。若V、J序列长度小于40bp则被过滤掉。表1显示从三个样本中成功提取的V区和J区序列的数目和比例。

表1

3.基于Seed聚类和延伸

序列聚类

对V、J区部分分别聚类，取一定长度的40bp作为seed，读取序列，记录每个seed所拥有的序列支持数。首先选择拥有支持数最大的seed，将支持这个seed的所有序列全部输出作为一类；再重新统计剩余序列的seed以及seed的序列支持数，选择最大的seed并输出其支持的序列作为另外一类；再重新统计剩余序列，输出最大的一类，…，依次循环类推，直到剩余序列为0。

J区seed延伸

对于每一类序列，根据seed往左右两边一个碱基逐步延伸，每次延伸时，当同时满足条件：(1)序列支持数占该类序列比例>3％，(2)序列支持数的种类占该类序列种类比例>5％；则继续往前延伸。当延伸时出现分支(即一个位置上出现多个碱基同是满足)的情况时，则根据分支产生多条序列。最后延伸停止时，延伸得到的序列视为候选germline。

V区seed延伸

对V区的所有seed聚类子集，由于V区打断之后，片段长度不一，情况较J区复杂，我们将左右两端分开延伸，过滤条件不同，对3‘端延伸时，保留的条件与J区类似；但向5‘端延伸时，过滤条件是：(1)序列支持数>100,(2)序列支持数的种类>2；最后将延展的两部分拼接到一起。

4.合并候选Germline

5.过滤并得到参考Germline

在候选V germline的3‘端，或者J germline的5‘端，从末端向前取40bp作为片段一，从末端的第5个碱基开始，向前取40bp作为片段二。将片段一和片段二在原始数据集(数据初步处理过后的)进行搜索，统计各自的序列支持数。如果同时满足:(1)片段二序列支持数/片段一序列支持数>1.5；(2)片段一序列支持数/平均片段一支持数>5％；则序列保留，否则被过滤掉。

经过分析，对于TRB-J的germline，三个样品均得到11条候选germline。而对TRB-V的germline，发明人推导出样品1共34条，样品2则推导出30条，样品3则得到36条。下面分析germline的准确度和覆盖度。

6.检验Germline可信度

6.1统计TRB-J Germline比对信息

表2显示3个样本的预测的Germline的TRB-J基因，与人类已知的TRB-J基因比对的匹配情况。

由于排列在编码免疫细胞受体蛋白的基因上有很多个V/J基因，并具有多样性，对于表中的相似度，这里是指将本发明方法预测的TRB-V和TRB-J的一个基因片段与人类目前已知的某个V/J基因进行比对。比对的相似度为100％，则是为一个百分之百匹配(match)的V/J基因。

表2

6.2预测的Germline TRB-J(重排前的TRB的J基因序列)分布

图5显示3个样本合并的TRB-J基因在人类Germline基因区的覆盖情况。从图5可看出，上述统计分析后，样本1-3分别得到TRB-J区基因个数分别为均为11条，平均长度为50bp；总体相似度>＝90％，碱基缺失<＝5bp，插入碱基<＝5bp，错配率<＝2。从推断的各个J基因覆盖分布图，看出整个TRB-J基因被完全覆盖，说明该方法对于TRB-J区基因的个数和准确度都有很高的预测性和准确性，可以用来作为J区基因的推断。

6.3统计TRB-V Germline比对信息

以下表3显示三个样本推导的V Germline序列与已知的人类TRB-V Germline比对匹配情况。

表3

6.4预测的Germline TRB-V分布

图6显示三个样本合并的TRB-V基因在人类Germline基因区的覆盖情况。

从上面表2的统计分析结果可看出，推定样本1-3分别得到TRB-V区基因个数分别为34、30和36；总体相似度>＝90％，碱基缺失<＝5bp，插入碱基<＝5bp，错配率<＝3。图6推断的V区各个基因覆盖分布图显示，整个TRB-V区基因覆盖率超过80％。有3条不在推断的germline之中，结果与TRB-J区基因相比较，准确性较一致，但整体覆盖率稍差。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、“实施方式”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种确定重排前的V和/或J基因序列的方法，其特征在于，包括：

(1)获取待测RNA样品的测序数据，所述测序数据包括来自TCR、BCR和/或Ig的可变区的多个读段，所述读段的长度为L，L≥100bp；

(2)基于所述测序数据，依据所述可变区中的V基因片段和J基因片段与C基因片段的排列关系，确定所述读段上的来自V基因片段和/或J基因片段的部分，获得多个V区部分和/或多个J区部分；

(3)从每个所述V区部分和/或所述J区部分取出至少一段序列作为种子序列，获得包含多个种子序列的种子序列集，所述种子序列的长度为K，任选的K不大于40bp；

(4)依据所述种子序列集中的每个种子序列的V区部分和/或J区部分的支持数目的差异，对所述V区部分和/或J区部分进行聚类，获得多个V区部分簇和/或多个J区部分簇；

(5)利用每个所述V区部分簇和/或所述J区部分簇延伸其所支持的种子序列，获得多个候选的重排前V基因序列和/或多个候选的重排前J基因序列；

(6)利用所述测序数据中的读段对所述候选的重排前V基因序列和/或所述候选的重排前J基因序列的支持情况进行过滤，以获得所述重排前的V和/或J基因序列。

2.权利要求1的方法，其特征在于，所述测序数据为经过预处理的测序数据，所述预处理包括以下至少之一：过滤掉包含接头序列的读段、切除读段的末端序列质量值小于10的碱基以及切去读段末端的接头序列。

3.权利要求2的方法，其特征在于，(2)包括：

确定所述读段上的来自C基因片段的部分，任选的，利用局部比对确定所述读段上的来自C基因片段的部分，

切割掉所述读段上的来自C基因片段的部分，获得切割后的部分，

从所述切割后的部分的3’端向5’端提取不小于60bp的序列以获得所述J区部分，和/或

从所述切割后的部分的3’端向5’端切割掉40bp，获得的余下部分为所述多个V区部分；

任选的，(2)还包括：过滤掉长度小于40bp的所述J区部分和/或长度小于40bp的所述V区部分；

任选的，(3)包括：

对每个所述V区部分和/或所述J区部分以1bp长度进行滑动切割，以将一个所述V区部分和/或所述J区部分转化成一个种子序列子集，一个所述种子序列子集包括(L-K+1)个所述种子序列，多个所述种子序列子集构成所述种子序列集；

任选的，(4)包括重复进行以下(i)和(ii)，直至没有所述种子序列剩余：

(i)确定获得数目最多V区部分和/或J区部分的支持的种子序列，将支持该种子序列的所有V区部分和/或J区部分归为一类，对应获得一个V区部分簇和/或一个J区部分簇，

(ii)去除(i)中的种子序列和支持该种子序列的所有V区部分和/或J区部分。

4.权利要求1的方法，其特征在于，(5)包括：

利用所述V区部分簇和/或所述J区部分簇，对所述V区部分簇和/或所述J区部分簇支持的种子序列进行延伸，以获得多个所述候选的重排前V基因序列和/或多个所述候选的重排前J基因序列，其中包括进行以下至少之一，

(a)对于J区部分簇支持的种子序列，利用该J区部分簇对该种子序列的3’端和/或5’端进行延伸一个碱基需要同时满足条件：

支持该碱基的J区部分的数目占该J区部分簇包含的J区部分总数的比例大于3％，

支持该碱基的J区部分的种类数目占该J区部分簇包含的种类总数的比例大于5％，

(b)对于V区部分簇支持的种子序列，利用该V区部分簇对该种子序列的3’端进行延伸一个碱基需要同时满足条件：

支持该碱基的V区部分的数目占该V区部分簇包含的V区部分总数的比例大于3％，

支持该碱基的V区部分的种类数目占该V区部分簇包含的V区部分种类总数的比例大于5％，

(c)对于V区部分簇支持的种子序列，利用该V区部分簇对该种子序列的5’端进行延伸一个碱基需要同时满足条件：

支持该碱基的V区部分的数目大于100，

支持该碱基的V区部分的种类数目大于2；

任选的，(5)包括进行(b)和(c)，以及将进行(b)和(c)后得到的序列进行拼接。

5.权利要求1的方法，其特征在于，进行(6)之前，将序列相似度不小于95％的候选的重排前V基因序列合并，和/或

将序列相似度不小于95％的候选的重排前J基因序列合并；

任选的，(6)包括进行以下(d)和/或(e)：

(d)从所述候选的重排前V基因序列的3’端的第一个碱基开始，向5’端方向截取所述种子序列长度的序列，作为第一片段，

从所述候选的重排前V基因序列的3’端的第P个碱基开始，向5’端方向截取所述种子序列长度的序列，作为第二片段，

基于所述第一片段的读段支持数和所述第二片段的读段支持数的差异程度，对所述候选的重排前V基因序列进行过滤；

(e)从所述候选的重排前J基因序列的5’端的第一个碱基开始，向3’端方向截取所述种子序列长度的序列，作为第三片段，

从所述候选的重排前J基因序列的5’端的第P’个碱基开始，向3’端方向截取所述种子序列长度的序列，作为第四片段，

基于所述第三片段的读段支持数和所述第四片段的读段支持数的差异程度，对所述候选的重排前J基因序列进行过滤。

6.权利要求5的方法，其特征在于，(6)中的(d)包括保留同时满足以下两个条件的候选的重排前V基因序列：

第二片段的读段支持数/第一片段的读段支持数>1.5，

第一片段的读段支持数/第一片段的平均读段支持数>5％；和/或

(6)中的(e)包括保留同时满足以下两个条件的候选的重排前J基因序列：

第四片段的读段支持数/第三片段的读段支持数>1.5，

第三片段的读段支持数/第三片段的平均读段支持数>5％。

7.权利要求1-6任一方法，其特征在于，所述测序数据包含多对成对读段，利用读段之间的重叠部分将一对成对读段拼接成一条拼接序列，以所述拼接序列替代所述成对读段。

8.一种确定重排前的V和/或J基因序列的装置，其特征在于，包括：

数据输入单元，用于输入数据；

数据输出单元，用于输出数据；

存储单元，用于存储数据，其中包括计算机可执行程序；

处理器，与所述数据输入单元、所述数据输出单元和所述存储单元连接，用于执行所述计算机可执行程序，执行所述程序包括完成权利要求1-7任一方法。

9.一种确定重排前的V和/或J基因序列的系统，其特征在于，包括：

数据获取装置，用于获取待测RNA样品的测序数据，所述测序数据包括来自TCR、BCR和/或Ig的可变区的多个读段，所述读段的长度为L，L≥100bp；

V/J区部分确定装置，用于基于所述测序数据，依据所述可变区中的V基因片段和J基因片段与C基因片段的排列关系，确定所述读段上的来自V基因片段和/或J基因片段的部分，获得多个V区部分和/或多个J区部分；

种子序列集获取装置，用于从每个所述V区部分和/或所述J区部分取出至少一段序列作为种子序列，获得包含多个种子序列的种子序列集，所述种子序列的长度为K；

V/J区部分簇确定装置，用于依据所述种子序列集中的每个种子序列的V区部分和/或J区部分的支持数目的差异，对所述V区部分和/或J区部分进行聚类，获得多个V区部分簇和/或多个J区部分簇；

候选重排前V/J基因序列获取装置，用于利用每个所述V区部分簇和/或所述J区部分簇延伸其所支持的种子序列，获得多个候选的重排前V基因序列和/或多个候选的重排前J基因序列；

重排前V/J基因序列确定装置，用于利用所述测序数据中的读段对所述候选的重排前V基因序列和/或所述候选的重排前J基因序列的支持情况进行过滤，以获得所述重排前的V和/或J基因序列。

10.权利要求9的系统，其特征在于，所述测序数据为经过预处理的测序数据，所述预处理包括以下至少之一：过滤掉包含接头序列的读段、切去读段的末端序列质量值小于10的碱基以及切去读段末端的接头序列；

任选的，利用所述V/J区部分确定装置进行以下：

确定所述读段上的来自C基因片段的部分，

从所述切割后的部分的3’端向5’端提取不小于60bp的序列以获得所述J区部分；和/或

任选的，利用局部比对确定所述读段上的来自C基因片段的部分；

任选的，还利用所述V/J区部分确定装置进行：过滤掉长度小于40bp的所述J区部分和/或长度小于40bp的所述V区部分；

任选的，K为不大于40bp；

任选的，利用所述种子序列集获取装置进行以下：

任选的，利用所述V/J区部分簇确定装置重复进行以下(i)和(ii)，直至没有所述种子序列剩余：

(ii)去除(i)中的种子序列和支持该种子序列的所有V区部分和/或J区部分；

任选的，利用所述候选重排前V/J基因序列获取装置进行以下：

支持该碱基的V区部分的数目大于100，

支持该碱基的V区部分的种类数目大于2；

任选的，利用所述V区部分簇和/或所述J区部分簇进行(b)和(c)，以及将进行(b)和(c)后得到的序列进行拼接；

任选的，利用所述重排前V/J基因序列确定装置获得所述重排前的V和/或J基因序列之前，将序列相似度不小于95％的候选的重排前V基因序列合并，和/或

将序列相似度不小于95％的候选的重排前J基因序列合并；

任选的，利用所述重排前V/J基因序列确定装置进行以下(d)和/或(e)，

基于所述第一片段的读段支持数和所述第二片段的读段支持数的差异程度，对所述候选的重排前V基因序列进行过滤，

基于所述第三片段的读段支持数和所述第四片段的读段支持数的差异程度，对所述候选的重排前J基因序列进行过滤；

任选的，利用所述重排前V/J基因序列确定装置进行(d)包括保留同时满足以下两个条件的候选的重排前V基因序列：

第二片段的读段支持数/第一片段的读段支持数>1.5，

第一片段的读段支持数/第一片段的平均读段支持数>5％，和/或

利用所述重排前V/J基因序列确定装置进行(e)包括保留同时满足以下两个条件的候选的重排前J基因序列：

第四片段的读段支持数/第三片段的读段支持数>1.5，

第三片段的读段支持数/第三片段的平均读段支持数>5％；

任选的，利用所述数据获取装置进行以下：所述测序数据包含多对成对读段，利用读段之间的重叠部分将一对成对读段拼接成一条拼接序列，以所述拼接序列替代所述成对读段。