CN111524548B

CN111524548B - 用于检测igh重排的方法、计算设备和计算机存储介质

Info

Publication number: CN111524548B
Application number: CN202010629700.2A
Authority: CN
Inventors: 姚继成; 石教春; 张姣玲; 王维锋
Original assignee: Origimed Technology Shanghai Co ltd
Current assignee: Origimed Technology Shanghai Co ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-23
Anticipated expiration: 2040-07-03
Also published as: CN111524548A

Abstract

本公开涉及一种检测IGH重排的方法、计算设备和计算机存储介质。该方法包括：获取关于待测样本的转录组测序序列与参考基因组测序序列的比对结果信息；获取一端比对到IGH基因并且另一端比对到其它基因的多个reads信息，以便获取经组装后的序列片段；对经组装后的序列片段进行过滤；将经过滤的序列片段与IGH基因和相关基因转录本进行比对，以便基于比对结果来保留阳性重排结果序列；以及将所获取的用于组装序列片段的对应reads序列与所保留的所述阳性重排结果序列进行比对，以便确定用于计算发生IGH重排的频率的支持reads数量。本公开能够有效提高检测IGH重排的效率和准确性。

Description

用于检测IGH重排的方法、计算设备和计算机存储介质

技术领域

本公开总体上涉及生物信息检测处理，并且具体地，涉及用于检测IGH重排的方法、计算设备和计算机存储介质。

背景技术

基因重排是指将两个或者更多的基因编码区首尾相连，形成一条新的调控序列，构成新的转录本并表达，最终产生新的蛋白。基因重排存在于多种实体瘤中，例如肺癌、胃腺癌、结直肠腺癌等，是提示肿瘤预后效果和制定辅助治疗方案的重要分子标记物。例如，NCCN（National Comprehensive Cancer Network）指南已经列出多个融合基因（ALK、NTRK1、BRAF等）可以使用特定的靶向药物。血液肿瘤如多发性骨髓瘤（MM）是浆细胞克隆性增殖的恶性肿瘤，已经证实14号染色体免疫球蛋白编码基因（IGH）重排是MM结构异常中最常见的重排，其目前主要包括CCND1、BCL2、FGFR3、MAFB等不同亚型。

传统的检测IGH重排的方案例如包括：基于FISH（荧光原位杂交) 的重排检测方法和基于NGS（二代测序）数据的重排检测方法。其中基于FISH的检测IGH重排的方案是基于实验的方式，其所得到的结果较为单一，一次实验只能知道一种蛋白是否存在，如果需要知道多种IGH重排情况，就需要做多次实验，而且只能限定于已知重排形式的检测，因此难于有效获取基因突变等对诊疗和用药有巨大帮助的重要信息。基于NGS数据的重排检测方法，例如基于常用的STAR-fusion检测软件的重排检测方法，其虽然可以对全转录组的NGS测序数据进行检测，但由于IGH本身存在着转录本结构不稳定的特征，导致其reads比对结果不好，因此容易产生关于IGH重排的漏检。

综上，传统的检测IGH重排的方案难以有效提高检测IGH重排的效率和准确性。

发明内容

本公开提供一种检测IGH重排的方法、计算设备和计算机存储介质，能够有效提高检测IGH重排的效率和准确性。

根据本公开的第一方面，提供了一种用于检测IGH重排的方法。该方法包括：获取关于待测样本的转录组测序序列与参考基因组测序序列的比对结果信息；基于比对结果信息，获取一端比对到IGH基因并且另一端比对到其它基因的多个reads信息，以便基于多个reads信息，获取经组装后的序列片段；对经组装后的序列片段进行过滤，以保留符合预定条件的经过滤的序列片段；将经过滤的序列片段与IGH基因和相关基因转录本进行比对，以便基于比对结果来保留阳性重排结果序列；以及将所获取的用于组装序列片段的对应reads序列与所保留的阳性重排结果序列进行比对，以便确定用于计算发生IGH重排的频率的支持reads数量。

根据本发明的第二方面，还提供了一种计算设备，该设备包括：至少一个处理单元；至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令，指令当由至少一个处理单元执行时，使得设备执行本公开的第一方面的方法。

根据本公开的第三方面，还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，计算机程序被机器执行时执行本公开的第一方面的方法。

在一些实施例中，将经过滤的序列片段与IGH基因和相关基因转录本进行比对以便基于比对结果来保留阳性重排结果序列包括：将经过滤的序列片段与参考基因组转录本进行比对，以便确定序列片段的两端是否同时比对上IGH基因和相关基因转录本；响应于确定序列片段的两端同时比对上IGH基因和相关基因转录本，确定对比上的长度是否大于或者等于第一预定长度；响应于确定对比上的长度大于或者等于第一预定长度，确定对比上的位置是否为唯一位置；以及响应于确定对比上的位置为唯一位置，确定序列片段为阳性重排结果序列。

在一些实施例中，将经过滤的序列片段与IGH基因和相关基因转录本进行比对以便基于比对结果来保留阳性重排结果序列包括：将经过滤的序列片段与参考基因组转录本进行比对，以便确定是否一条序列片段完全比对上IGH基因转录本并且另一条序列片段完全比对上相关基因转录本；响应于确定一条序列片段完全比对上IGH基因转录本并且另一条序列片段完全比对上相关基因转录本，确定对比上的位置是否为唯一位置；以及响应于确定对比上的位置为唯一位置，确定序列片段为阳性重排结果序列。

在一些实施例中，经过滤的序列片段与IGH基因和相关基因转录本进行比对以便基于比对结果来保留阳性重排结果序列包括：响应于确定对比上的位置为两个或两位以上的位置，过滤掉序列片段。

在一些实施例中，第一预定长度为50bp。

在一些实施例中，基于多个reads信息获取经组装后的序列片段包括：获取一端比对到IGH基因并且另一端比对到其它基因的多个reads标识；基于所比对到的其它基因，对所获取的reads标识进行聚类；基于与每一个其它基因所对应的、经聚类的reads标识，分别提取转录组测序序列中的完整的对应reads序列；以及分别组装所提取的完整的对应reads序列，以获得经组装后的序列片段。

在一些实施例中，保留符合预定条件的经过滤的序列片段包括：响应于确定经组装后的序列片段的长度大于或者等于第二预定长度，保留经组装后的序列片段。

在一些实施例中，第二预定长度为200bp。

在一些实施例中，将所获取的用于组装序列片段的对应reads序列与所保留的阳性重排结果序列进行比对，以便确定用于计算发生IGH重排的频率的支持reads数量包括：将用于组装序列片段的对应reads序列与所保留的阳性重排结果序列进行bwa比对，以统计比对结果符合预定结果条件的支持reads数量；以及基于支持reads数量和覆盖深度，计算发生IGH重排的频率。

在一些实施例中，用于检测IGH重排的方法还包括：输出所保留的阳性重排结果序列、重排方式和所计算的发生IGH重排的频率。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

图1示出了根据本公开的实施例的用于实施检测IGH重排的方法的系统的示意图；

图2示出了根据本公开的实施例的用于检测IGH重排的方法的流程图；

图3示出了根据本公开的实施例的用于组装序列片段的方法的流程图；

图4示出了根据本公开的实施例的用于确定阳性重排结果序列方法的流程图；

图5示出了根据本公开的实施例的用于确定阳性重排结果序列的方法的流程图；

图6示出了根据本公开的实施例的用于确定用于计算发生IGH重排的频率的支持reads数量的方法的流程图；以及

图7示意性示出了适于用来实现本公开实施例的电子设备的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。

经研究发现，传统的基于FISH的重排检测方法，其需要根据碱基互补配对，将核酸探针的某一种核苷酸标记上报告分子如生物素、地高辛，可利用该报告分子与荧光素标记的特异亲和素之间的免疫化学反应，经荧光检测体系在显微镜镜下对待测DNA进行定性、定量或相对定位分析的方式。该检测方法一次实验只能知道一种蛋白是否存在，如果需要知道多种IGH重排情况，就需要做多次实验，因而无法高效率获取基因突变等对诊疗和用药有巨大帮助的重要信息。传统的基于NGS数据的重排检测方法通常是需要遍历基因组中所有的异常配对reads，通过reads的位置关系来确定是否发生基因重排，以及形成的重排形式和相关产物。例如，经由STAR-fusion软件首先提取成对reads比对位置异常和的reads序列，同时也会提取单条序列不同区域同时比对到不同基因的序列；然后根据序列的相似，两个基因产生重排区域关系来进行过滤，只保留可以形成新的基因且有转录产生新的蛋白的重排形式（即一个基因的5’端与另外一个基因的3’组合在一起）作为潜在的融合基因。不过STAR-fusion软件需要比较稳定的基因结构和很好的reads比对结果，但是IGH本身存在着转录本结构不稳定的特征，reads比对结果不好，因此，传统的基于NG数据的重排检测方法时容易产生漏检。由此可见，传统的检测IGH重排的方案检测IGH重排的效率和准确性不高。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于检测IGH重排的方案。该方案包括：获取关于待测样本的转录组测序序列与参考基因组测序序列的比对结果信息；基于比对结果信息，获取一端比对到IGH基因并且另一端比对到其它基因的多个reads信息，以便基于多个reads信息，获取经组装后的序列片段；对经组装后的序列片段进行过滤，以保留符合预定条件的经过滤的序列片段；将经过滤的序列片段与IGH基因和相关基因转录本进行比对，以便基于比对结果来保留阳性重排结果序列；以及将所获取的用于组装序列片段的对应reads序列与所保留的阳性重排结果序列进行比对，以便确定用于计算发生IGH重排的频率的支持reads数量。

在上述方案中，通过基于待测样本的转录组测序序列与参考基因组测序序列的比对结果信息，获取比对到IGH与其它基因的多个reads信息，以用于IGH重排的检测，本公开的IGH重排的检测方法能够基于比对上跨基因的reads的信息快速确定发生IGH重排的潜在reads序列，利于提高检测IGH重排的效率。另外，通过组装reads序列而形成的更长长度的序列片段，然后基于组装后的序列片段与IGH基因和相关基因转录本的比对结果来保留阳性重排结果序列，以及基于reads序列与阳性重排结果序列的比对结果来确定用于计算发生IGH重排的频率的支持reads数量，本公开的IGH重排的检测方法能够采用经由组装而形成的更长长度的序列片段与参考基因组进行比对，利于提高比对结果的特异性，克服了因IGH本身存在着转录本结构不稳定而导致的reads比对结果不好的不足之处，进而利于获得更为准确的阳性重排结果序列。因此本公开的检测IGH重排的方案能够有效提高检测IGH重排的效率和准确性。有利于对于肿瘤预后效果和制定辅助治疗方案（例如使用特定的靶向药物）提供更为准确的指示作用。

图1示出了根据本公开的实施例的用于实施用于检测IGH重排的方法的系统100的示意图。如图1所示，系统100包括：数据获取单元112、组装单元114、过滤单元116、阳性重排结果序列确定单元118、支持reads数量确定单元120和输出单元122。在一些实施例中，系统100还包括：生信服务器140、网络150。

在一些实施例中，数据获取单元112、组装单元114、过滤单元116、阳性重排结果序列确定单元118、支持reads数量确定单元120和输出单元122可以配置在一个或者多个计算设备130上。计算设备130可以通过有线或者无线的方式（例如网络150）与生信服务器140进行数据交互。

关于计算设备130，其用于基于待测样本的转录组测序序列与参考基因组测序序列的比对结果信息获取同时比对到IGH基因和其它基因的多个reads信息，组装以及过滤序列片段，基于经过滤的序列片段与IGH基因和相关基因转录本的比对结果来保留阳性重排结果序列，以及计算发生IGH重排的频率的支持reads数量。在一些实施例中，计算设备130可以具有一个或多个处理单元，包括诸如GPU、FPGA和ASIC等的专用处理单元以及诸如CPU的通用处理单元。另外，在每个计算设备上也可以运行着一个或多个虚拟机。计算设备130可以通过增加CPU数目来降低运行时间。计算设备130可以是基于linux平台，配置有perl、python、Rscript和shell编程语言，以及一些公共生信软件。

关于数据获取单元112，其用于获取关于待测样本的转录组测序序列与参考基因组测序序列的比对结果信息。例如，数据获取单元112首先经由网络150获得来自生信服务器140或者测序设备（未示出）关于待测样本的全转录组测序的FASTQ文件；随后经由质控、去接头处理，以得到高质量的待测样本的转录组测序序列数据（例如，clean fastq文件）；然后将高质量待测样本的转录组测序序列与Hg19人类参考基因组利用bwa mem进行比对，以便得到比对结果信息（即BAM文件）。其中，BWA序列比对可以通过BWT(Burrows-WheelerTransformation，BWT压缩算法)为Hg19人类参考基因组建立索引，然后将待测样本的转录组测序reads比对到Hg19人类参考基因组。bwa mem为适于应用于reads长度在70bp-1Mbp范围。

关于组装单元114，其用于基于比对结果信息（例如是BAM文件）来获取一端比对到IGH基因并且另一端比对到其它基因的多个reads信息组装reads序列，以获取经组装后的序列片段。在一些实施例中，组装单元114可以结合NCBI中GRCh37_latest_genomic.gtf文件获取Hg19人类参考基因组参考序列信息，从数据获取单元112处所获得的BAM文件中提取一端比对到IGH基因，另一端比对到其它基因的reads名称；然后按照比对上的其它基因中的每一个基因所对应的reads名称进行聚类，再基于每一个基因对应的经聚类的reads名称从clean fastq文件中提取完整的对应reads序列。之后，组装单元114例如利用SPAdes软件分别针对所提取得完整的对应reads序列进行组装（序列拼接），以获得经组装后的序列片段。

关于过滤单元116，其用于对经组装后的序列片段进行过滤，以保留符合预定条件的经过滤的序列片段。例如，过滤单元116对组装单元114处获得的经组装的contigs结果序列进行过滤，保留长度在200bp以上的序列片段，过滤掉长度小于200bp的序列片段。

关于阳性重排结果序列确定单元118，其用于将经过滤单元116过滤的序列片段与IGH基因和相关基因转录本进行比对，以及基于比对结果来保留阳性重排结果序列。例如，阳性重排结果序列确定单元118将过滤单元116处保留的长度在200bp以上的序列片段与Hg19人类基因组转录本序列进行blast比对，如果一条序列片段两端同时比对上IGH基因和相关基因转录本，并且比对长度大于或者等于50bp，则保留该序列片段为阳性重排结果序列。另外，如果有一条序列片段完全比对到IGH基因转录本上，另一条序列片段完全比对到相应基因的转录本上，并且都没有比对上Hg19人类基因组上的其它位置，则保留该序列片段为阳性重排结果序列。

关于支持reads数量确定单元120，其用于将用于组装序列片段的对应reads序列与阳性重排结果序列确定单元118所保留的阳性重排结果序列进行比对，以便基于比对结果确定用于计算发生IGH重排的频率的支持reads数量。例如，支持reads数量确定单元120将用于组装序列片段的对应reads序列文件与阳性重排结果序列确定单元118处所保留的阳性重排序列进行bwa比对，然后统计比对结果好reads数目，以用于计算发生IGH重排的频率。

关于输出单元122，其用于输出所保留的阳性重排结果序列、重排方式和所计算的发生IGH重排的频率。

以下将结合图2描述根据本公开的实施例的用于检测IGH重排的方法200。图2示出了根据本公开的实施例的用于检测IGH重排的方法的流程图。应当理解，方法200例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框202处，计算设备130获取关于待测样本的转录组测序序列与参考基因组测序序列的比对结果信息。

关于待测样本，其可以是待测对象（例如需要做是否发生IGH重排的检测的肿瘤患者）的待测血液样本或者组织样本。该转录组测序序列例如是经由二代测序而获得的转录组或全转录组测序序列。

关于待测样本的转录组测序序列，在一些实施例中，其例如是经由针对 “关于待测样本的转录组测序结果数据”进行质控和去接头处理后而生成的。例如，计算设备130首先获取全转录组测序的fastq文件（例如是原始测序数据raw data文件），然后经由质控、去接头等处理（例如分别为经过Fastp过滤质控等处理），得到高质量clean fastq文件；再将高质量clean fastq文件与Hg19人类参考基因组利用bwa mem进行比对，以便得到BAM文件。针对fastq文件进行去接头处理的原因在于，原始fastq文件中存在部分的reads包含了测序接头序列（adapter sequence），这些序列不属于待测样本中的原有序列，因此需要在后续处理中去除。另外，原始fastq文件中还包含部分低质量的reads序列（诸如含有较高的测序错误的reads，其例如是因去除接头序列后长度过短的reads等），因此可以经由质控处理来对这些测序错误的reads进行过滤去除，以免影响下游的分析。

在框204处，计算设备130基于比对结果信息，获取一端比对到IGH基因并且另一端比对到其它基因的多个reads信息，以便基于多个reads信息，获取经组装后的序列片段。在一些实施例中，计算设备130可以采用SPAdes软件进行序列片段的组装，以便获得更好的组装效果。

计算设备130可以通过多种方式来基于比对到IGH基因和其他基因的reads信息来获取经组装后的序列片段。在一些实施例中，计算设备130可以直接将一端比对到IGH基因并且另一端比对到其它基因的多个reads进行组装，以获得经组装后的序列片段。在一些实施例中，计算设备130也可以按比对上的多个其它基因中的每一个基因分别提取完整的对应reads序列，并分别基于所提取的完整的对应reads序列进行组装，来获取经组装后的序列片段。下文将结合图3详细描述用于按基因分别提取的reads序列来组装序列片段的方法300，在此，不再赘述。通过组装成更长长度的序列片段以进行后续比对，利于提高后续比对结果的可靠性。

在框206处，计算设备130对经组装后的序列片段进行过滤，以保留符合预定条件的经过滤的序列片段。

保留符合预定条件的经过滤的序列片段的方式例如包括：计算设备130确定经组装后的序列片段的长度是否大于或者等于第二预定长度（该第二预定长度大于read的测序长度，例如而不限于是200bp），如果确定经组装后的序列片段的长度大于或者等于第二预定长度，保留经组装后的序列片段。如果确定经组装后的序列片段的小于第二预定长度，则过滤掉该经组装后的序列片段。例如，计算设备130对经由框204处组装得到的序列片段（例如contigs结果序列）进行过滤，保留长度在200bp以上的序列片段。通过以大于read的测序长度的第二预定长度（例如而不限于是200bp）作为过滤条件，有利于同时兼顾比对的灵敏性和特异性。

在框208处，计算设备130将经过滤的序列片段与IGH基因和相关基因转录本进行比对，以便基于比对结果来保留阳性重排结果序列。

关于确定是否发生基因重排的方式，在一些实施例中，其例如包括：如果计算设备130基于比较结果可以确定单条序列片段分别比对上IGH基因的转录本和相应基因的转录本，以及两条序列分别比对上IGH基因的转录本和相应基因的转录本，则可以确定该序列片段为潜在的重排结果序列，以便进一步基于比对位置来确定阳性重排结果序列。下文将结合图4至图5分别描述用于确定阳性重排结果序列的方法400和500，在此，不再赘述。

在框210处，计算设备130将所获取的用于组装序列片段的对应reads序列与所保留的阳性重排结果序列进行比对，以便确定用于计算发生IGH重排的频率的支持reads数量。采用上述手段的原因在于：框204处用于获得经组装后的序列片段的reads序列可能存在低质量的reads序列，因此通过将用于组装序列片段的reads序列与作为参考序列的所保留的阳性的重排结果序列进行比对，可以保留比对质量较好的reads以用于计算发生IGH重排的频率，进而提高IGH重排的频率的准确度。

在一些实施例中，计算设备130将用于组装序列片段的完整的对应reads序列（关于“完整的对应reads序列”的获得方式可参见图3所示的用于组装序列片段的方法300）与所保留的阳性重排结果序列进行bwa比对，以统计比对结果符合预定结果条件的支持reads数量；以及基于支持reads数量和覆盖深度，计算发生IGH重排的频率。在一些实施例中，该预定结果条件例如是指示比对效果好的预订条件，其例如而不限于是：对比长度大于或者等于90%，相似性大于或者等于95%。通过将所保留的阳性重排结果序列作为参考，选取比对质量好的对应reads序列。

以下结合表一说明方法200的IGH重排的检测效果。

表一

样本	核酸类型	融合基因	利用基于FISH的重排检测方法进行实验验证结果	传统基于NGS的重排检测方法	实施例的重排检测方法
						待测组织样本1	RNA	BCL2	IGH/BCL2，阳性	未检出	检出
待测组织样本21	RNA	BCL2	IGH/BCL2，阳性	检出	检出

如上述表一所示，针对待测组织样本1和待测组织样本2的转录组测序序列分别采用传统基于NGS的重排检测方法（例如STAR-fusion检测软件）和本公开实施例所示的方法200所示的重排检测方法的进行IGH重排检测。其中针对待测组织样本1，传统基于NGS的重排检测方法和本公开实施例的重排检测方法都检测出了IGH/BCL2的重排，并且经由基于FISH的重排检测方法针对待测组织样本1的IGH/BCL2重排进行再次检测，也得到阳性IGH/BCL2重排的检测结果。不过，针对待测组织样本2，传统的基于NGS的重排检测方法未检测到阳性IGH/BCL2重排，而依据本公开实施例的重排检测方法检测出了IGH/BCL2重排的阳性结果。经由基于FISH的重排检测方法针对待测组织样本2的IGH/BCL2重排进行再次检测，检测到了阳性IGH/BCL2重排的检测结果。可见，针对待测组织样本2 ，传统的基于NGS的重排检测方法漏检了IGH/BCL2重排，而本公开的IGH重排检测方法能够显著提高检测IGH重排的准确性和可靠性。

在上述方案中，通过基于一端比对到IGH基因并且另一端比对到其它基因的多个reads信息来获取经组装后的序列片段，以及经由组装而形成的更长长度的序列片段与参考基因组进行比对，利于提高比对的特异性，克服了因IGH本身存在着转录本结构不稳定而导致的reads比对结果不好的不足之处，进而利于获得更为可靠的阳性重排结果序列。

在一些实施例中，方法200还包括：计算设备130输出所保留的阳性重排结果序列、重排方式和所计算的发生IGH重排的频率。

以下将结合图3描述根据本公开的实施例的用于按基因分别提取的reads序列组装序列片段的方法300。图3示出了根据本公开的实施例的用于组装序列片段的方法300的流程图。应当理解，方法300例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法300还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框302处，计算设备130获取一端比对到IGH基因并且另一端比对到其它基因的多个reads标识。因为所采用的测序方法为双端测序，需要检测IGH基因与其他基因可能发生重排的reads。

在框304处，计算设备130基于所比对到的其它基因，对所获取的reads标识进行聚类。框302处获取的、可能发生重排的reads数量很多，因此，计算设备130可以基于每一个其它基因，对所获取的可能发生重排的对应reads标识进行聚类，以形成对应于每一个基因的一个reads标识文件。在上述手段中，通过基于每一个比对上的其它基因对reads标识进行聚类以用于后续基于聚类后的reads标识提取用于组装序列片段的reads序列，可以避免因直接提取比对上的reads来组装序列片段而导致的因存在相似reads而造成的组装效果不好的不利之处。

在框306处，计算设备130基于与每一个其它基因所对应的、经聚类的reads标识，分别提取转录组测序序列中的完整的对应reads序列。例如，计算设备130按每一个所对上的其它基因所对应的reads名称从clean fastq文件中提取可能发生重排（同时比对到IGH基因和其它基因）的完整的reads序列。采用上述手段的原因在于，对于BAM比对的算法，如果所比对的序列比较短，则BAM比对结果文件中所显示的比对上的序列不够完整，不利于组装。因此有必要在fastq文件中提取可能发生重排的完整的对应reads序列，然后使用完整的对应reads序列来进行组装，有利于提高组装的效果。

在框308处，计算设备130分别组装所提取的完整的对应reads序列，以获得经组装后的序列片段。例如，计算设备130利用SPAdes软件针对所提取的完整的对应reads序列分别进行组装。

在上述方案中，通过基于每一个比对上的其它基因，对所获取的可能发生重排的对应reads标识进行聚类，然后基于经聚类的reads标识提取完整的对应reads序列，以便分别组装所提取的完整的对应reads序列以形成组装后的序列片段，本公开不仅利于克服BAM比对结果文件中所显示的比对上的序列不够完整的不足，而且可以避免因比对上的reads存在部分相似性而造成的组装效果欠佳的不足，因而能够显著提高组装效果，进而利于提高IGH重排检测结果的可靠性。

图4示出了根据本公开的实施例的用于确定阳性重排结果序列的方法400的流程图。应当理解，方法400例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法400还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框402处，计算设备130将经过滤的序列片段与参考基因组转录本进行比对。

在框404处，计算设备130确定序列片段的两端是否同时比对上IGH基因和相关基因转录本。

在框406处，如果计算设备130确定序列片段的两端同时比对上IGH基因和相关基因转录本，确定对比上的长度是否大于或者等于第一预定长度。

在框408处，如果计算设备130确定对比上的长度大于或者等于第一预定长度，确定对比上的位置是否为唯一位置。在一些实施例中，第一预定长度为50bp。经研究发现，如果序列片段的对比上的长度小于第一预定长度（例如50bp），则对比的特异性不好，容易在参考基因组（例如Hg19人类参考基因组）转录本上比对上多个位置。因此，通过针对对比上的长度大于或者等于第一预定长度的序列片段进一步确定对比上的位置的唯一性，能够利于提高检测结果的可靠性。

在框410处，如果计算设备130确定对比上的位置为唯一位置，确定序列片段为阳性重排结果序列。如果计算设备130确定对比上的位置为两个或两位以上的位置，过滤掉序列片段。

在上述方案中，通过将两端是否同时比对上IGH基因和相关基因转录本的、对比上的长度在第一预定长度以上并且比对上的位置唯一的序列片段保留为阳性重排结果序列，能够提高阳性重排结果的可靠性。

以下将结合图5描述根据本公开的实施例的用于确定阳性重排结果序列的方法500。图5示出了根据本公开的实施例的用于确定阳性重排结果序列的方法500的流程图。应当理解，方法500例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法500还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框502处，计算设备130将经过滤的序列片段与参考基因组转录本进行比对。

在框504处，计算设备130确定是否一条序列片段完全比对上IGH基因转录本并且另一条序列片段完全比对上相关基因转录本。

在框506处，如果计算设备130确定一条序列片段完全比对上IGH基因转录本并且另一条序列片段完全比对上相关基因转录本，确定对比上的位置是否为唯一位置。

在框508处，如果计算设备130确定对比上的位置为唯一位置，确定序列片段为阳性重排结果序列。如果计算设备130确定该序列片段还比对上参考基因组的其他位置，则过滤掉（或去除）该序列片段。

在上述方案中，通过将两条序列片段分别完全比对上IGH基因和相关基因转录本并且比对上的位置唯一的序列片段保留为阳性重排结果序列，能够提高所确定的阳性重排结果的可靠性。

以下将结合图6描述根据本公开的实施例的用于检测IGH重排的方法600。图6示出了根据本公开的实施例的用于检测IGH重排的方法600的流程图。应当理解，方法600例如可以在图7所描述的电子设备700处执行。也可以在图1所描述的计算设备130处执行。应当理解，方法600还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

在框602处，计算设备130获取关于待测组织样本的转录组测序序列与参考基因组测序序列的比对结果信息。例如，计算设备130首先获得需要做是否发生IGH重排的检测的某个肿瘤患者的待测组织样本的全转录组测序的FASTQ文件；然后对FASTQ文件进行质控、去接头处理，以得到高质量clean fastq文件。计算设备130随后将clean fastq文件与Hg19人类参考基因组利用bwa mem进行比对，以便得到用于指示比对结果的BAM文件。

在框604处，计算设备130基于比对结果信息，获取一端比对到IGH基因并且另一端比对到其它基因的多个reads标识。例如，计算设备130结合NCBI中GRCh37_latest_genomic.gtf文件，从BAM文件中提取一端比对到IGH基因，另一端比对到其它基因的reads名称。

在框606处，计算设备130基于所比对到的其它基因，对所获取的reads标识进行聚类。

在框608处，计算设备130基于与每一个其它基因所对应的、经聚类的reads标识，分别提取转录组测序序列中的完整的对应reads序列。例如，计算设备130按每一个比对上的其它基因所对应的、经框606处聚类的reads名称从clean fastq文件中提取可能发生重排的完整的对应reads序列。

在框610处，计算设备130分别组装所提取的完整的对应reads序列，以获得经组装后的序列片段。例如，计算设备130利用SPAdes软件针对基于每一个比对上的其它基因所提取到的完整的reads序列分别进行组装。

在框612处，计算设备130对经组装后的序列片段进行过滤，以保留符合长度大于或者等于200bp的序列片段。例如，计算设备130针对框610处组装得到的contigs结果序列进行过滤，保留长度在200bp以上的序列片段，过滤掉长度小于200bp的序列片段。

在框614处，计算设备130将经过滤的序列片段与Hg19参考基因组转录本进行blast比对，以便基于比对结果来保留阳性重排结果序列。例如，计算设备130如果确定一条序列片段两端同时比对上IGH基因转录本和相关基因转录本，且比对长度都在50bp以上，而且没有比对上Hg19人类基因组上的其它位置，则将该序列片段保留为阳性的重排结果序列。如果计算设备130确定有一条序列片段完全比对到IGH基因转录本上，另一条序列片段完全比对到相关基因的转录本上，并且上述序列片段都没有比对上Hg19基因组上的其它位置，则将该序列片段保留为阳性的重排结果序列。

在框616处，计算设备130将用于组装序列片段的完整的对应reads序列与所保留的阳性重排结果序列进行bwa比对，以便统计比对结果符合预定结果条件的支持reads数量。

在框618处，计算设备130基于支持reads数量和覆盖深度，计算发生IGH重排的频率。

在框620处，计算设备130输出所保留的阳性重排结果序列、重排方式和所计算的发生IGH重排的频率。

在上述方案中，通过基于每一个比对上的其它基因对reads标识进行聚类以及提取完整的对应reads序列用于组装序列片段，本公开的IGH重排的检测方法能够提高组装的效果；另外，通过基于组装后的更长长度的序列片段与IGH基因和相关基因转录本的比对结果来保留阳性重排结果序列，以及基于reads序列与阳性重排结果序列的比对结果来确定用于计算发生IGH重排的频率的支持reads数量，本公开的IGH重排的检测方法能够提高比对结果的特异性，克服了因IGH本身存在着转录本结构不稳定而导致的reads比对结果不好的不足之处，进而利于高效地获得更为准确的阳性重排结果序列。

图7示意性示出了适于用来实现本公开实施例的电子设备（或者计算设备）700的框图。设备700可以是用于实现执行图2至图6所示的方法200至600的设备。如图7所示，设备700包括中央处理单元（CPU）701，其可以根据存储在只读存储器（ROM）702中的计算机程序指令或者从存储单元708加载到随机访问存储器（RAM）703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU701、ROM 702以及RAM703通过总线704彼此相连。输入/输出（I/O）接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708，处理单元701执行上文所描述的各个方法和处理，例如执行方法200至600例如，在一些实施例中，方法200至600可被实现为计算机软件程序，其被存储于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法200至600的一个或多个操作。备选地，在其他实施例中，CPU 701可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法200至600的一个或多个动作。

需要进一步说明的是，本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、设备（系统）、和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上仅为本公开的可选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等效替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于检测IGH重排的方法，包括：

在计算设备处，获取关于待测样本的转录组测序序列与参考基因组测序序列的比对结果信息；

基于所述比对结果信息，获取一端比对到IGH基因并且另一端比对到其它基因的多个读长reads信息，以便基于所述多个读长reads信息，获取经组装后的序列片段；

对经组装后的所述序列片段进行过滤，以保留符合预定条件的经过滤的序列片段；

将经过滤的所述序列片段与IGH基因和相关基因转录本进行比对，以便基于比对结果来保留阳性重排结果序列；以及

将所获取的用于组装所述序列片段的对应reads序列与所保留的所述阳性重排结果序列进行比对，以便确定用于计算发生IGH重排的频率的支持reads数量；

其中，基于所述多个读长reads信息获取经组装后的序列片段至少包括：

获取一端比对到IGH基因并且另一端比对到其它基因的多个reads标识；

基于所比对到的所述其它基因，对所获取的reads标识进行聚类。

2.根据权利要求1所述的方法，其中将经过滤的所述序列片段与IGH基因和相关基因转录本进行比对以便基于比对结果来保留阳性重排结果序列包括：

将经过滤的所述序列片段与参考基因组转录本进行比对，以便确定所述序列片段的两端是否同时比对上IGH基因和相关基因转录本；

响应于确定所述序列片段的两端同时比对上IGH基因和相关基因转录本，确定对比上的长度是否大于或者等于第一预定长度；

响应于确定对比上的长度大于或者等于第一预定长度，确定对比上的位置是否为唯一位置；以及

响应于确定对比上的位置为唯一位置，确定所述序列片段为阳性重排结果序列。

3.根据权利要求1所述的方法，其中将经过滤的所述序列片段与IGH基因和相关基因转录本进行比对以便基于比对结果来保留阳性重排结果序列包括：

将经过滤的所述序列片段与参考基因组转录本进行比对，以便确定是否一条所述序列片段完全比对上IGH基因转录本并且另一条所述序列片段完全比对上相关基因转录本；

响应于确定一条所述序列片段完全比对上IGH基因转录本并且另一条所述序列片段完全比对上相关基因转录本，确定对比上的位置是否为唯一位置；以及

4.根据权利要求2或3所述的方法，其中将经过滤的所述序列片段与IGH基因和相关基因转录本进行比对以便基于比对结果来保留阳性重排结果序列包括：响应于确定对比上的位置为两个或两位以上的位置，去除所述序列片段。

5.根据权利要求2所述的方法，其中所述第一预定长度为50bp。

6.根据权利要求1至3中任一所述的方法，其中基于所述多个读长reads信息获取经组装后的序列片段还包括：

基于与每一个所述其它基因所对应的、经聚类的reads标识，分别提取所述转录组测序序列中的完整的对应reads序列；以及

分别组装所提取的完整的对应reads序列，以获得所述经组装后的序列片段。

7.根据权利要求1至3中任一所述的方法，其中保留符合预定条件的经过滤的序列片段包括：

响应于确定所述经组装后的序列片段的长度大于或者等于第二预定长度，保留所述经组装后的序列片段。

8.根据权利要求7所述的方法，其中所述第二预定长度为200bp。

9.根据权利要求1所述的方法，其中将所获取的用于组装所述序列片段的对应reads序列与所保留的所述阳性重排结果序列进行比对以便确定用于计算发生IGH重排的频率的支持reads数量包括：

将用于组装所述序列片段的对应reads序列与所保留的所述阳性重排结果序列进行bwa比对，以统计比对结果符合预定结果条件的支持reads数量；以及

基于所述支持reads数量和覆盖深度，计算发生IGH重排的频率。

10.根据权利要求1所述的方法，还包括：

输出所保留的所述阳性重排结果序列、重排方式和所计算的发生IGH重排的频率。

11.一种计算设备，包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行根据权利要求1至10任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被机器执行时实现根据权利要求1至10中任一项所述的方法。