CN110993023B

CN110993023B - 复杂突变的检测方法及检测装置

Info

Publication number: CN110993023B
Application number: CN201911206799.9A
Authority: CN
Inventors: 高司航; 张静波; 李孟键; 刘�文; 伍启熹; 王建伟; 刘倩; 唐宇
Original assignee: Beijing Usci Medical Laboratory Co ltd
Current assignee: Beijing Usci Medical Laboratory Co ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-08-15
Anticipated expiration: 2039-11-29
Also published as: CN110993023A

Abstract

本发明提供了一种复杂突变的检测方法及检测装置。该检测方法包括将目标区域的外显子测序数据与参考基因组比对得到比对上的reads；根据cigar信息判断reads是否包含插入或缺失，若包含则提取reads的开始坐标，并根据开始坐标及cigar信息计算出reads的结束坐标；根据reads的开始坐标和结束坐标将reads对应的参考序列从参考基因组上截出；将reads分别与参考序列再次比对获得复杂突变的起始位置和终止位置。该方法将整条reads上的所有变异类型作为一个整体来检测，克服了现有技术对单一类型的变异分别单独检测，而导致同一位点被检测为两种不同变异类型，从而使得检测结果不准确的问题。

Description

复杂突变的检测方法及检测装置

技术领域

本发明涉及生物信息学分析领域，具体而言，涉及一种复杂突变的检测方法及检测装置。

背景技术

复杂突变是包含碱基的插入、缺失及单碱基突变中至少两种变异类型的混合变异。以EGFR 19号外显子为例，其上集中了多种这样的复杂突变。

然而，目前的突变位点检测软件中，都是以位置信息为基础，只能检测单碱基突变或碱基的插入缺失，尚没有可以把复杂突变作为一个整体进行检测的软件。

同时，目前主流的遗传变异信息注释软件如annovar、VEP、snpEFF，在注释变异造成的氨基酸变化的时候，也只能注释简单的单碱基变异或碱基的插入缺失引起的氨基酸的改变，无法针对此类复杂突变进行注释，这类变异信息的氨基酸变化的注释都由人工手动完成。

以上两方面的问题对生物信息分析及遗传咨询相关人员的工作造成了不少困难。

发明内容

本发明的主要目的在于提供一种复杂突变的检测方法及检测装置，以解决现有技术中只能检测单碱基突变或碱基的插入缺失进而使得复杂突变的检测结果准确性低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种复杂突变的检测方法，该检测方法包括：将目标区域的外显子测序数据与参考基因组比对，得到比对上的reads；根据reads的cigar信息，判断reads是否包含插入或缺失，若包含，则提取reads的开始坐标，并根据开始坐标及cigar信息计算出reads的结束坐标；根据reads的开始坐标和结束坐标，将reads对应的参考序列从参考基因组上截出；将reads分别与参考序列进行再次比对，获得复杂突变的起始位置和终止位置。

进一步地，将reads与参考序列进行再次比对，获得复杂突变的起始位置和终止位置包括：根据各reads的cigar信息，将参考序列和reads划分为以下区域：插入区域、缺失区域、比对区域、soft-clip区域；在不同区域根据各区域的特征，将reads与参考序列进行再比对，获取reads中包含的插入缺失突变和单碱基突变；将插入缺失突变和单碱基突变进行整合处理，然后根据插入缺失突变及单碱基突变的坐标，获得复杂突变的起始位置和终止位置、复杂突变的参考序列及复杂突变序列，并根据复杂突变的参考序列和复杂突变序列的序列特征调整并确定复杂突变的起始位置和终止位置。

进一步地，检测方法还包括对复杂突变进行注释的步骤；优选地，对复杂突变进行注释的步骤包括：根据复杂突变序列确定目标区域测得的cDNA的序列，根据测得的cDNA序列的长度能否被3整除，确定氨基酸是否发生了移码，如果移码，根据测得的cDNA的长度除以3之后的余数，删除测得的cDNA末尾的相应余数的碱基，用测得cDNA序列与参考的cDNA序列从头部开始比较，确定测得的cDNA开始发生变异的起始位置；将参考的cDNA序列与测得的cDNA序列从尾部开始比较，确定测得的cDNA发生变异的终止位置；将测得的cDNA开始发生变异的起始位置与测得的cDNA发生变异的终止位置整合，得到复杂突变在cDNA水平上发生变异的起止位置。

进一步地，对复杂突变进行注释的步骤还包括：用reads对应的氨基酸序列与参考序列对应的氨基酸序列从头开始比较，确定氨基酸改变开始的位置，继续从尾部开始进行比较，记录氨基酸改变结束的位置，从而获得复杂突变在氨基酸水平上发生变异的起止位置。

进一步地，reads对应的氨基酸序列为发生移码突变的氨基酸序列，则采用发生移码后的cDNA序列确定的氨基酸序列与参考序列对应的氨基酸序列从头开始比较；优选地，在从头开始比较的步骤中，如果reads的氨基序列发生移码，则标明氨基酸开始发生突变的位置和发生移码的标记“fs”。

进一步地，在得到比对上的reads之后，以及根据reads的cigar信息，判断reads是否包含插入或缺失之前，检测方法还包括：从比对上的reads中去除比对到的重复序列和比对到多个位置上的序列，得到具有唯一比对位置的reads。

根据本申请的第二个方面，提供了一种复杂突变的检测装置，该检测装置包括：第一比对模块，用于将目标区域的测序数据与参考基因组比对，得到具有唯一比对位置的reads；判断模块，用于根据reads的cigar信息，判断reads是否包含插入或缺失，若包含，则往下进行；坐标提取模块，用于提取reads的开始坐标，并根据开始坐标及cigar信息计算出reads的结束坐标；参考序列截出模块，用于根据reads的开始坐标和reads的结束坐标，将reads对应的参考序列从参考基因组上截出；第二比对模块，用于将reads与参考序列进行再次比对，获得reads的复杂突变的起始位置和终止位置。

进一步地，第二比对模块包括：区域划分模块，用于根据reads的cigar信息，将参考序列和reads划分为以下区域：插入区域(I)、缺失区域(D)、比对区域(M)、soft-clip区域(S)；第三比对模块，用于在不同区域根据各区域的特征，将reads与参考序列进行再比对，获取reads中包含的插入缺失突变和单碱基突变；突变起止位置模块，用于将插入缺失突变和单碱基突变进行整合处理，然后根据插入缺失突变及单碱基突变的坐标，获得复杂突变的起始位置和终止位置、复杂突变的参考序列及复杂突变序列，并根据复杂突变的参考序列和复杂突变序列的序列特征调整并确定复杂突变的起始位置和终止位置。

进一步地，检测装置还包括复杂突变注释模块；优选地，复杂突变注释模块包括cDNA水平变异注释模块，cDNA水平变异注释模块包括：测得cDNA序列获取模块，用于根据复杂突变序列确定目标区域测得的cDNA的序列，根据测得的cDNA的长度能否被3整除，确定氨基酸是否发生了移码，如果移码，根据测得的cDNA的长度除以3之后的余数，删除测得的cDNA末尾的相应余数的碱基，cDNA从头比较模块，用于测得cDNA序列与参考的cDNA序列从头部开始比较，确定测得的cDNA开始发生变异的起始位置；cDNA从尾比较模块，用于将参考的cDNA序列与测得的cDNA序列从尾部开始比较，确定测得的cDNA发生变异的终止位置；cDNA起止位置整合模块，用于将测得的cDNA开始发生变异的起始位置与测得的cDNA发生变异的终止位置整合，获得复杂突变在cDNA水平上发生变异的起止位置。

进一步地，复杂突变注释模块还包括氨基酸水平变异注释模块，氨基酸水平变异注释模块包括：氨基酸从头比较模块，用于将reads对应的氨基酸序列与参考序列对应的氨基酸序列从头开始比较，确定氨基酸改变开始发生的位置；氨基酸从尾比较模块，用于将reads对应的氨基酸序列与参考序列对应的氨基酸序列继续从尾部开始进行比较，记录氨基酸改变结束的位置；氨基酸起止位置整合模块，从而将氨基酸改变开始发生的位置与氨基酸改变结束的位置进行整合，获得复杂突变在氨基酸水平上发生变异的起止位置。

进一步地，氨基酸水平变异注释模块还包括：移码氨基酸序列模块，用于将发生移码的cDNA序列确定的氨基酸序列作为reads对应的氨基酸序列；和/或标记模块，用于在从头开始比较的步骤中，如果reads的氨基酸序列发生移码，则标明氨基酸开始发生突变的位置和发生移码的标记“fs”。

进一步地，检测装置还包括去重模块，用于从比对上的reads中去除比对到的重复序列和比对到多个位置上的序列，得到具有唯一比对位置的reads。

根据本申请的第三个方面，提供了一种存储介质，存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述任一种检测方法。

根据本申请的第四个方面，提供一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述任一种检测方法。

应用本发明的技术方案，针对复杂突变的检测方法，通过根据现有比对方法获得的各reads相对于参考序列所存在的变异信息，将各reads对应的参考序列从参考基因组上截取下来，然后通过将reads作为整体，再次与参考序列进行比对的方式将存在变异的位点在基因组上的起止位置进行确定，从而获得每条存在变异的reads的变异起始位置。该方法将整条reads上的所有变异类型作为一个整体来检测，从而克服了现有技术中对单一类型的变异分别单独检测，而导致同一位点被检测为两种不同变异类型，从而使得检测结果不准确的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的一优选实施例中对复杂突变的检测方法的流程示意图；

图2示出了根据本发明的一优选实施例中的复杂突变与参考序列的比对示意图；以及

图3示出了根据本发明的一优选实施例中对复杂突变的检测装置的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

CIGAR字符串，是SAM文件中的一个字段。

在高通量测序数据分析中，大部分的操作都是在实现片段序列与参考序列的比对(mapping)，比如bowtie等，这就涉及到如何使用一个统一的格式来表示这种mapping的结果，SAM(Sequence Alignment/Map)格式就是来解决该问题的。SAM文件拥有头部描述(header section，又叫注释信息)和比对结果部分(alignment section)，注释信息可由可无，都是以@开头，用不同的tag表示不同的信息。而详细比对部分是通过11个tab隔开的字段来表示。而CIGAR字符串，是这11个字段中的一个。其表示比对的详细情况，记录插入，删除，错配，后剪切拼接的接头。简要比对信息表达式(Compact Idiosyncratic GappedAlignment Report)，其以参考序列为基础，使用数字+字母表示比对结果。比如3S6M1P1I4M，表示前三个碱基被剪切去除了，然后6个比对上了，然后打开了一个缺口，有一个碱基插入，最后是4个比对上了，是按照顺序的。

除CIGAR字符串外，其余10个字段及其含义分别如下：

QNAME：表示的是查询序列的名称，即短片段(reads)的名称；

FLAG：以整数来表示比对的结果，不同数值有不同的意义，数值也可以是下列数的组合，eg:FLAG是4，表示该reads没有比对到参考序列上，FLAG为16，表示single-end reads比对到参考序列的反链上，FALG为83(64+16+2+1)表示paried-end reads中的第一个reads比对到参考序列上了。

RNAME：表示参考序列的名称，比如基因组的染色体编号【chromosome】等，若未比对上，则显示为*。

POS：表示比对的起始位置，比如，【5’端起始位置】，以1开始计数，若没有比对上则显示为0。

MAPQ：比对质量，数字越大，特异性越高。

RNEXT：双末端测序中下一个reads比对的参考序列的名称，若没有则用*表示。

PNEXT：下一个reads比对到参考序列上的位置，若么有则用0表示。

ISIZE/TLEN：query序列的模板长度或插入长度，最左边的为正+，最右边的为负-，中间的不用定义正负，不分区段的比对上，或者不可用时，表示为0。

SEQ:reads的序列信息。

QUAL：reads的序列质量信息，同FASTQ。

bam格式是sam格式的二进制表示方式，因为sam格式文件大小通常十分大，一般以G为单位，因而为了减少存储量等因素而将sam转换为二进制格式以便于分析。二者都是fastq文件经过序列比对或者mapping后输出的格式(其存储的信息都是一致的)

比对区域：是相对于比对不到基因组上的区域，如插入区域、缺失区域及soft-clip区域，等区域而言的，是一种相对能够比对上的区域，但并不是指100％与参考序列比对得上的区域，这些区域中可能存在单碱基突变。

如背景技术所提到的，现有技术中的变异检测仅是对单一的突变类型进行单独标记，而这样容易出现对同一变异出现两种不同的变异结果的情况，因而检测结果不够准确，为了改善这一现状，在本申请一种典型的实施方式中，提供了一种复杂突变的检测方法，该检测方法包括：将目标区域的测序数据与参考基因组比对，得到比对上的reads；根据reads的cigar信息，判断reads是否包含插入或缺失，若包含，则提取reads的开始坐标，并根据开始坐标及cigar信息计算出reads的结束坐标；根据reads的开始坐标和reads的结束坐标，将reads对应的参考序列从参考基因组上截出；将reads与参考序列进行再次比对，获得reads的复杂突变的起始位置和终止位置。

本申请所提出的上述针对复杂突变的检测方法，通过根据现有比对方法获得的各reads相对于参考序列所存在的变异信息，将各reads对应的参考序列从参考基因组上截取下来，然后通过将reads作为整体，再次与参考序列进行比对的方式将存在变异的位点在基因组上的起止位置进行确定，从而获得每条存在变异的reads的变异起始位置。该方法将整条reads上的所有变异类型作为一个整体来检测，从而克服了现有技术中对单一类型的变异分别单独检测，而导致同一位点被检测为两种不同变异类型，从而使得检测结果不准确的问题。

在一种优选实施例中，将reads与参考序列进行再次比对，获得reads的复杂突变的起始位置和终止位置包括：根据reads的cigar信息，将参考序列和reads划分为以下区域：插入区域(I)、缺失区域(D)、比对区域(M)、soft-clip区域(S)；在不同区域根据各区域的特征，将reads与参考序列进行再比对，获取reads中包含的插入缺失突变和单碱基突变；将插入缺失突变和单碱基突变进行整合处理，然后根据插入缺失突变及单碱基突变的坐标，获得复杂突变的起始位置、复杂突变的参考序列及复杂突变序列，并根据复杂突变的参考序列和复杂突变序列的序列特征调整并确定复杂突变的起始位置和终止位置。

上述将插入缺失突变和单碱基突变进行整合处理，然后根据插入缺失突变及单碱基突变的坐标，获得复杂突变的起始位置、复杂突变的参考序列及复杂突变序列，并根据复杂突变的参考序列和复杂突变序列的序列特征调整并确定复杂突变的起始位置和终止位置的具体操作示例如下：

将上述所得到的所有突变(即插入突变、缺失突变及单碱基突变)按照在参考基因组上的位置进行排序，得到突变最开始的位置以及突变结束的位置。并按照上述所获得的突变信息，在突变总体开始和总体结束的区域内进行分区域遍历，分段发生突变的区域内的突变后的序列，以区域间的参考序列连接，获得复杂突变整体开始和结束之间的序列。

为便于后续进一步检测DNA水平的变化对氨基酸水平的影响，需要获得待测样本在cDNA水平的影响，因而在获得上述带有复杂突变的reads的突变区域的序列后，将突变区域的序列替换所处位置的外显子的序列，即可得到发生突变的外显子的序列。

为更清楚的理解上述优选实施例的优势，此处示例性说明每一步骤的具体操作及结果。对于每一条含有插入或缺失变异的reads来说，都经历如下步骤：

以1条reads的序列(SEQ ID NO:1所示)为例，该reads的cigar信息为74M12D26M，reads的比对位置是chr7：55242394，该条reads的序列是：

“ttccttctctctctgtcatagggactctggatcccagaaggtgagaaagttaaaattcccgtcgctatcaaggaaccttctccgaaagccaacaaggaaa”。

1)首先，根据reads的cigar信息，确定该条reads的序列对应的参考序列。如图2所示，标黄的reads为携带复杂突变的reads，根据bam已知reads的比对开始位置，即左边的竖线对应的坐标，以及该条reads序列的长度。根据cigar信息，我们得到序列携带了12个碱基的缺失，由此计算出右边竖线的坐标位置，即55242394+12+74+26＝55242506。根据起止坐标，利用samtools在参考基因组截取参考序列。

2)在不同区域根据各区域的特征，将reads与参考序列进行再比对，获取reads中包含的插入缺失突变和单碱基突变。根据该条reads的cigar信息，可知该条reads的前74个碱基和参考序列能比对上，中间有12个碱基缺失，后24个碱基可以和参考序列比对上。我们将这条reads以及对应的参考序列分为这3个部分。将和参考基因组比对上的2个部分(即前74个碱基和后24个碱基)，与参考序列逐个比对，获得在第3部分的第2、4位碱基位置上，即参考基因组坐标55242481和55242483上各有一个单碱基突变(A->C、A->T)，第二部分为碱基缺失的部分，我们获取起止坐标，即55242468是缺失开始的位置，55242479是缺失结束的位置。

3)将插入缺失突变和单碱基突变进行整合处理，然后根据插入缺失突变及单碱基突变的坐标，获得复杂突变的起始位置、复杂突变的参考序列及复杂突变序列：仍以上述reads为例，示例操作如下。将获得的坐标按照大小进行排序：55242468(缺失开始)、55242479(缺失结束)、55242481(单碱基突变)、55242483(单碱基突变)，得到复杂突变作为一个整体的起(55242468)止(55242483)位置，和对应的参考序列attaagagaagcaaca(SEQID NO:2)和突变后的序列ACCT。

4)根据复杂突变的参考序列和复杂突变序列的序列特征调整并确定复杂突变的起始位置和终止位置，仍以上述reads为例，示例操作如下。我们已知参考序列attaagagaagcaaca和参考序列的起止坐标，将参考序列与突变后的序列ACCT从头开始按碱基逐个比较，第一个碱基相同，则突变开始的位置往后移一位，及参考序列变为ttaagagaagcaaca(SEQ ID NO:3)，突变后的序列变为CCT，突变开始的位置加上一位变为55242469。由此得到最终的复杂突变起止位置：55242469-55242483，和涉及变化的序列为：从原始的ttaagagaagcaaca突变成了ACCT。

5)已知EGFR19号外显子的起止坐标为55242415和55242513，从参考基因组截取该段序列，并将突变部分55242469-55242483，从参考序列置换为突变后的序列ACCT，从而得到突变后整个外显子上的序列，并根据外显子的序列翻译成突变后的氨基酸序列。

上述优选实施例中，通过将待测reads及其对应的参考序列划分为上述四种区域，并根据reads已知的cigar信息，将两者序列上的各区域进行对应，从而获得待测reads的插入缺失位置及单碱基突变的位置，将不同突变类型的位置进行整合，获得这种复杂突变的起始位置。

为了进一步对上述整体检测出的变异信息检测其是否为有义突变，在一种优选实施例中，检测方法还包括对复杂突变进行注释的步骤。在上述整体检测核酸水平发生的变异的情况下，对这些变异进行注释的步骤可以采用现有的各种注释方法，包括人工手动注释。

为了进一步提高的检测的便利化程度，在一种优选实施例中，对复杂突变进行注释的步骤包括：根据复杂突变序列确定目标区域测得的cDNA的序列，根据测得的cDNA序列的长度能否被3整除，确定氨基酸是否发生了移码，如果移码，根据测得的cDNA的长度除以3之后的余数，删除测得的cDNA末尾的相应余数的碱基；用测得cDNA序列与参考的cDNA序列从头部开始比较，确定测得的cDNA开始发生变异的起始位置；将参考的cDNA序列与测得的cDNA序列从尾部开始比较，确定测得的cDNA发生变异的终止位置；将测得的cDNA开始发生变异的起始位置与测得的cDNA发生变异的终止位置整合，得到复杂突变在cDNA水平上发生变异的起止位置。

上述优选实施例中，根据上述突变外显子的序列，即其正负链的信息便可得到cDNA的序列。通过将存在复杂突变的reads对应的cDNA序列与参考的cDNA序列进行从头比对和从尾比对，从而明确该复杂突变在cDNA水平上变异发生的起止位置，从而为后续氨基酸水平的变异注释提供依据。

在一种优选实施例中，对复杂突变进行注释的步骤还包括：用reads对应的氨基酸序列与参考序列对应的氨基酸序列从头开始比较，确定氨基酸改变开始发生的位置，继续从尾部开始进行比较，记录氨基酸改变结束的位置，从而获得复杂突变在氨基酸水平上发生变异的起止位置。

上述参考序列对应的氨基酸序列，也可以成为参考氨基酸序列，在实际操作中，可以通过利用复杂突变序列的起止位置，从参考基因组上截取参考序列，并通过脚本中所带的密码子信息换得到。

通过对氨基酸变异的起始和终止位置进行比对和确定，从而提供了氨基酸水平上变异的情况。

在一种优选实施例中，reads对应的氨基酸序列为发生移码突变的氨基酸序列，则采用发生移码后的cDNA序列确定的氨基酸序列与参考序列对应的氨基酸序列从头开始比较。

在一种优选实施例中，在从头开始比较的步骤中，如果reads的氨基酸序列发生移码，则标明氨基酸开始发生突变的位置和发生移码的标记“fs”。

上述优选实施例，基于发生移码突变的情况下进行了特殊标记，进而使得变异结果显示更清晰，准确。

在进行上述基因组水平上、cDNA水平上及氨基酸水平上的变异起止位置检测时，为了提高检测速度，可以先对测序所得的reads进行筛选以去除干扰序列，从而使得检测更具有针对性。在一种优选实施例中，在得到比对上的reads之后，以及根据reads的cigar信息，判断reads是否包含插入或缺失之前，检测方法还包括：从比对上的reads中去除比对到的重复序列和比对到多个位置上的序列，得到具有唯一比对位置的reads。

在本申请一种最优选的实施例中，针对如EGFR 19号外显子之类存在复杂突变的样本的变异检测方法，具体步骤如下：

1、通过DNA提取、探针捕获、二代测序的方式获得覆盖EGFR 19号外显子的测序文件。

2、将测序得到的序列与人类基因组hg19进行比对获得bam文件，利用Picard和Samtools去除比对到的重复序列和比对到多个位置上的序列。

3、利用Samtools，提取bam中EGFR 19号外显子上的reads。

4、将提取出的每一条reads进行遍历。

首先，通过reads的cigar信息，判断reads是否包含插入或缺失，如果包括，则继续；提取reads开始坐标和cigar(因为之前提取了唯一比对的reads,，所以cigar中只会出现M、D、S、I四种情况)的信息，根据cigar和reads开始坐标计算出reads的结束坐标，计算方法即用开始坐标加上M和D对应的数字即为结束坐标，

获取后用Samtools将reads对应的参考序列从参考的基因组上截出；根据reads的cigar信息，将参考序列和reads的测序序列划分为几个区域：插入区域(I)、缺失区域(D)、比对区域(M)、soft-clip区域(S)，在不同区域根据区域的特征，将reads的序列和刚才截取参考序列进行比较，获取测序reads中包含的插入缺失和单碱基突变的信息；将插入缺失和单碱基变异信息进行整合处理，根据插入缺失及单碱基变异的坐标，获得复杂突变的原起始位置、复杂突变的参考序列及突变序列，并根据参考序列和突变序列的序列特征调整并确定变异区域起止坐标。

5、注释：根据突变序列确定19号外显子上实际测得的cDNA的序列，根据实际测得的cDNA序列的长度能否被3整除，确定氨基酸是否发生了移码。如果移码，根据cDNA的长度比3的余数删除cDNA末尾的碱基，如果不移码，则无须进一步处理，随后进行下一步。用测得cDNA序列和参考的cDNA序列按照碱基从头部比较，确定cDNA开始发生变异的起始位置；随后将参考序列的cDNA和实际测得的cDNA的序列从尾部开始比较，确定cDNA发生变化终止的位置，和前边所得cDNA开始发生的位置整合成cDNA的变化。用参考序列对应的氨基酸序列和待测reads对应的氨基酸序列(如发生移码则用调整后的cDNA序列确定氨基酸序列)，从头开始比较，确定氨基酸改变开始发生的位置，如突变序列发生移码，则标明氨基酸开始发生突变的位置和发生移码的标记“fs”，如未发生移码，则继续从尾部开始进行比较，记录氨基酸改变结束的位置，并和开始部分整理成氨基酸完整的变化。

上述步骤中，在根据cDNA序列判断变异是否造成翻译移码并处理移码的reads的时候，除了根据cDNA的长度比3的余数，删除最后几个碱基的方法外，也可以根据余数，随意在cDNA的末尾添加几个碱基。

此外，比对文件如果不做提取唯一比对reads的处理，也可以进行后续的检测。

在本申请第二种典型的实施方式中，提供了一种复杂突变的检测装置，如图3所示，该检测装置包括：第一比对模块10、判断模块20、坐标提取模块30及第二比对模块40，其中，

第一比对模块10，用于将目标区域的外显子测序数据与参考基因组比对，得到比对上的reads；

判断模块20，用于根据reads的cigar信息，判断reads是否包含插入或缺失；

坐标提取模块30，用于提取reads的开始坐标，并根据开始坐标及cigar信息计算出reads的结束坐标；参考序列截出模块，用于根据reads的开始坐标和reads的结束坐标，将reads对应的参考序列从参考基因组上截出；

第二比对模块40，用于将reads与参考序列进行再次比对，获得reads的复杂突变的起始位置和终止位置。

本申请的上述检测装置，通过根据第一比对模块、判断模块以及坐标提取模块获得的各reads相对于参考序列所存在的变异信息，然后利用参考序列截出模块将各reads对应的参考序列从基因组截下来，通过将reads作为整体，利用第二比对模块通过再次与参考序列进行比对的方式将存在变异的位点在基因组上的起止位置进行确定，从而获得每条存在变异的reads的变异起始位置。该方装置将整条reads上的所有变异类型作为一个整体来检测，从而克服了现有技术中对单一类型的变异分别单独检测，而导致同一位点被检测为两种不同变异类型，从而使得检测结果不准确的问题。

在一种优选实施例中，第二比对模块包括：区域划分模块，用于根据reads的cigar信息，将参考序列和reads划分为以下区域：插入区域(I)、缺失区域(D)、比对区域(M)、soft-clip区域(S)；第三比对模块，用于在不同区域根据各区域的特征，将reads与参考序列进行再比对，获取reads中包含的插入缺失突变和单碱基突变；突变起止位置模块，用于将插入缺失突变和单碱基突变进行整合处理，然后将插入缺失突变及单碱基突变的坐标，获得复杂突变的起始位置，复杂突变的参考序列及复杂突变序列，并根据复杂突变的参考序列和复杂突变序列的序列特征调整并确定复杂突变的起始位置和终止位置。

在一种优选实施例中，检测装置还包括复杂突变注释模块；优选地，复杂突变注释模块包括cDNA水平变异注释模块，cDNA水平变异注释模块包括：测得cDNA序列获取模块，用于根据复杂突变序列确定目标区域测得的cDNA的序列，根据测得的cDNA序列的长度能否被3整除，确定氨基酸是否发生了移码，如果移码，根据测得的cDNA的长度除以3之后的余数，删除测得的cDNA末尾的相应数目的碱基，cDNA从头比较模块，用于测得cDNA序列与参考的cDNA序列从头部开始比较，确定测得的cDNA开始发生变异的起始位置；cDNA从尾比较模块，用于将参考的cDNA序列与测得的cDNA序列从尾部开始比较，确定测得的cDNA发生变异的终止位置；cDNA起止位置整合模块，用于将测得的cDNA开始发生变异的起始位置与测得的cDNA发生变异的终止位置整合，获得复杂突变在cDNA水平上发生变异的起止位置。

在一种优选实施例中，复杂突变注释模块还包括氨基酸水平变异注释模块，氨基酸水平变异注释模块包括：氨基酸从头比较模块，用于将reads对应的氨基酸序列与参考序列对应的氨基酸序列从头开始比较，确定氨基酸改变开始发生的位置；氨基酸从尾比较模块，用于将reads对应的氨基酸序列与参考序列对应的氨基酸序列继续从尾部开始进行比较，记录氨基酸改变结束的位置；氨基酸起止位置整合模块，从而将氨基酸改变开始发生的位置与氨基酸改变结束的位置进行整合，获得复杂突变在氨基酸水平上发生变异的起止位置。

在一种优选实施例中，检测装置还包括：移码氨基酸序列模块，用于将发生移码的cDNA序列确定的氨基酸序列作为reads对应的氨基酸序列。

在一种优选实施例中，氨基酸水平变异注释模块还包括：标记模块，用于在从头开始比较的步骤中，如果reads的氨基酸序列发生移码，则标明氨基酸开始发生突变的位置和发生移码的标记“fs”。

在一种优选实施例中，检测装置还包括去重模块，用于从比对上的reads中去除比对到的重复序列和比对到多个位置上的序列，得到具有唯一比对位置的reads。

在本申请第三种典型的实施方式中，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述任一种复杂突变的检测方法。

在本申请第四种典型的实施方式中，还提供了一种电子装置，该电子装置包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行上述任一种复杂突变的检测方法。

下面将结合具体的实施例来进一步说明本申请的有益效果。

实施例1

本例中，所举样本携带EGFR19号外显子的复杂突变，我们这里按照比较比较普遍采用的bwa-picard-varscan-annovar流程，寻找这一段区域的突变，得到的结果如下表1所示：

表1：

实施例2

本实施例中，所用样本与实施例1中为同一样本，携带EGFR19号外显子的复杂突变，采用bwa-picard-本申请的装置处理，对应的区域得到的结果如下表2所示：

表2：

实施例3

本实施例中，所用样本携带ERBB2 20号外显子的复杂突变，采用bwa-picard-本申请的装置处理，得到的结果如下表3所示：

表3：

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：

1、将比对到目的区域(如EGFR 19号外显子)上的reads逐条读取并判断，确定每一条reads上是否有复杂突变并判断变异的具体信息。

2、注释方式，通过前期确定的突变信息，得到突变之后目的区域(如EGFR 19号外显子)整体的cDNA和氨基酸序列，通过和参考cDNA和参考氨基酸序列相比较，确定复杂突变作为整体的cDNA以及氨基酸序列的变化。

本申请提供的针对如EGFR 19号外显子之类的复杂突变的检测方法和检测装置，基于每条reads所携带的变异信息，可以有效的将复杂突变作为一个整体进行检出并给出注释结果，从而使得检测结果相对更准确。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

序列表

<110> 北京优迅医学检验实验室有限公司

<120> 复杂突变的检测方法和检测装置

<130> PN111472YXYX

<160> 5

<170> SIPOSequenceListing 1.0

<210> 1

<211> 100

<212> DNA

<213> 智人(Homo sapiens)

<220>

<221> misc_feature

<222> (1)..(100)

<223> 测序reads序列

<400> 1

ttccttctct ctctgtcata gggactctgg atcccagaag gtgagaaagt taaaattccc 60

gtcgctatca aggaaccttc tccgaaagcc aacaaggaaa 100

<210> 2

<211> 16

<212> DNA

<213> 智人(Homo sapiens)

<220>

<221> misc_feature

<222> (1)..(16)

<223> 参考序列

<400> 2

attaagagaa gcaaca 16

<210> 3

<211> 15

<212> DNA

<213> 智人(Homo sapiens)

<220>

<221> misc_feature

<222> (1)..(15)

<223> 后移1位的参考序列

<400> 3

ttaagagaag caaca 15

<210> 4

<211> 24

<212> DNA

<213> 智人(Homo sapiens)

<220>

<221> misc_feature

<222> (1)..(24)

<223> EGFR19-参考序列

<400> 4

atctccgaaa gccaacaagg aaat 24

<210> 5

<211> 29

<212> DNA

<213> 智人(Homo sapiens)

<220>

<221> misc_feature

<222> (1)..(29)

<223> EGFR19-参考序列

<400> 5

gcaacatctc cgaaagccaa caaggaaat 29

Claims

1.一种复杂突变的检测方法，其特征在于，所述检测方法包括：

将目标区域的外显子测序数据与参考基因组比对，得到比对上的reads；

根据所述reads的cigar信息，判断所述reads是否包含插入或缺失，若包含，则提取所述reads的开始坐标，并根据所述开始坐标及所述cigar信息计算出所述reads的结束坐标；

根据所述reads的所述开始坐标和所述结束坐标，将所述reads对应的参考序列从所述参考基因组上截出；

将所述reads分别与所述参考序列进行再次比对，获得所述复杂突变的起始位置和终止位置；

将所述reads与所述参考序列进行再次比对，获得所述复杂突变的起始位置和终止位置包括：

根据各所述reads的所述cigar信息，将所述参考序列和所述reads划分为以下区域：插入区域、缺失区域、比对区域、soft-clip区域；

在不同区域根据各所述区域的特征，将所述reads与所述参考序列进行再比对，获取所述reads中包含的插入缺失突变和单碱基突变；

将所述插入缺失突变和所述单碱基突变进行整合处理，然后根据所述插入缺失突变及所述单碱基突变的坐标，获得所述复杂突变的所述起始位置和所述终止位置、所述复杂突变的参考序列及复杂突变序列，并根据所述复杂突变的参考序列和所述复杂突变序列的序列特征调整并确定所述复杂突变的起始位置和终止位置。

2.根据权利要求1所述的检测方法，其特征在于，所述检测方法还包括对所述复杂突变进行注释的步骤。

3.根据权利要求2所述的检测方法，其特征在于，对所述复杂突变进行注释的步骤包括：

根据所述复杂突变序列确定所述目标区域测得的cDNA的序列，根据所述测得的cDNA序列的长度能否被3整除，确定氨基酸是否发生了移码，如果移码，根据所述测得的cDNA的长度除以3之后的余数，删除所述测得的cDNA末尾的相应余数的碱基，

用所述测得cDNA序列与参考的cDNA序列从头部开始比较，确定所述测得的cDNA开始发生变异的起始位置；

将所述参考的cDNA序列与所述测得的cDNA序列从尾部开始比较，确定所述测得的cDNA发生变异的终止位置；

将所述测得的cDNA开始发生变异的起始位置与所述测得的cDNA发生变异的终止位置整合，得到所述复杂突变在cDNA水平上发生变异的起止位置。

4.根据权利要求2所述的检测方法，其特征在于，对所述复杂突变进行注释的步骤还包括：

用所述reads对应的氨基酸序列与所述参考序列对应的氨基酸序列从头开始比较，确定氨基酸改变开始的位置，继续从尾部开始进行比较，记录氨基酸改变结束的位置，从而获得所述复杂突变在氨基酸水平上发生变异的起止位置。

5.根据权利要求4所述的检测方法，其特征在于，所述reads对应的氨基酸序列为发生移码突变的氨基酸序列，则采用发生移码后的cDNA序列确定的氨基酸序列与所述参考序列对应的氨基酸序列从头开始比较。

6.根据权利要求5所述的检测方法，其特征在于，在所述从头开始比较的步骤中，如果所述reads的氨基序列发生移码，则标明氨基酸开始发生突变的位置和发生移码的标记“fs”。

7.根据权利要求1至6中任一项所述的检测方法，其特征在于，在得到比对上的reads之后，以及根据所述reads的cigar信息，判断所述reads是否包含插入或缺失之前，所述检测方法还包括：

从所述比对上的reads中去除比对到的重复序列和比对到多个位置上的序列，得到具有唯一比对位置的reads。

8.一种复杂突变的检测装置，其特征在于，所述检测装置包括：

第一比对模块，用于将目标区域的测序数据与参考基因组比对，得到具有唯一比对位置的reads；

判断模块，用于根据所述reads的cigar信息，判断所述reads是否包含插入或缺失，若包含，则往下进行；

坐标提取模块，用于提取所述reads的开始坐标，并根据所述开始坐标及所述cigar信息计算出所述reads的结束坐标；

参考序列截出模块，用于根据所述reads的开始坐标和所述reads的结束坐标，将所述reads对应的参考序列从所述参考基因组上截出；

第二比对模块，用于将所述reads与所述参考序列进行再次比对，获得所述reads的所述复杂突变的起始位置和终止位置；

所述第二比对模块包括：

区域划分模块，用于根据所述reads的所述cigar信息，将所述参考序列和所述reads划分为以下区域：插入区域I、缺失区域D、比对区域M、soft-clip区域S；

第三比对模块，用于在不同区域根据各所述区域的特征，将所述reads与所述参考序列进行再比对，获取所述reads中包含的插入缺失突变和单碱基突变；

突变起止位置模块，用于将所述插入缺失突变和所述单碱基突变进行整合处理，然后根据所述插入缺失突变及所述单碱基突变的坐标，获得所述复杂突变的所述起始位置和所述终止位置、所述复杂突变的参考序列及复杂突变序列，并根据所述复杂突变的参考序列和所述复杂突变序列的序列特征调整并确定所述复杂突变的起始位置和终止位置。

9.根据权利要求8所述的检测装置，其特征在于，所述检测装置还包括复杂突变注释模块。

10.根据权利要求9所述的检测装置，其特征在于，所述复杂突变注释模块包括cDNA水平变异注释模块，所述cDNA水平变异注释模块包括：

测得cDNA序列获取模块，用于根据所述复杂突变序列确定所述目标区域测得的cDNA的序列，根据所述测得的cDNA的长度能否被3整除，确定氨基酸是否发生了移码，如果移码，根据所述测得的cDNA的长度除以3之后的余数，删除所述测得的cDNA末尾的相应余数的碱基，

cDNA从头比较模块，用于所述测得cDNA序列与参考的cDNA序列从头部开始比较，确定所述测得的cDNA开始发生变异的起始位置；

cDNA从尾比较模块，用于将所述参考的cDNA序列与所述测得的cDNA序列从尾部开始比较，确定所述测得的cDNA发生变异的终止位置；

cDNA起止位置整合模块，用于将所述测得的cDNA开始发生变异的起始位置与所述测得的cDNA发生变异的终止位置整合，获得所述复杂突变在cDNA水平上发生变异的起止位置。

11.根据权利要求9所述的检测装置，其特征在于，所述复杂突变注释模块还包括氨基酸水平变异注释模块，所述氨基酸水平变异注释模块包括：

氨基酸从头比较模块，用于将所述reads对应的氨基酸序列与参考序列对应的氨基酸序列从头开始比较，确定氨基酸改变开始发生的位置；

氨基酸从尾比较模块，用于将所述reads对应的氨基酸序列与参考序列对应的氨基酸序列继续从尾部开始进行比较，记录氨基酸改变结束的位置；

氨基酸起止位置整合模块，从而将所述氨基酸改变开始发生的位置与所述氨基酸改变结束的位置进行整合，获得所述复杂突变在氨基酸水平上发生变异的起止位置。

12.根据权利要求11所述的检测装置，其特征在于，所述氨基酸水平变异注释模块还包括：

移码氨基酸序列模块，用于将发生移码的cDNA序列确定的氨基酸序列作为所述reads对应的氨基酸序列；和/或

标记模块，用于在所述从头开始比较的步骤中，如果所述reads的氨基酸序列发生移码，则标明氨基酸开始发生突变的位置和发生移码的标记“fs”。

13.根据权利要求8至12中任一项所述的检测装置，其特征在于，所述检测装置还包括去重模块，用于从比对上的reads中去除比对到的重复序列和比对到多个位置上的序列，得到具有唯一比对位置的reads。

14.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的检测方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的检测方法。