CN109074429B

CN109074429B - 基因组变异检测方法、装置及终端

Info

Publication number: CN109074429B
Application number: CN201680084673.7A
Authority: CN
Inventors: 何俊; 张旸; 张洪波
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2022-03-29
Anticipated expiration: 2036-04-20
Also published as: WO2017181368A1; CN109074429A

Abstract

一种基因组变异检测方法、装置及终端，其中，所述基因组变异检测方法包括：将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果(201)；根据所述双序列比对结果，确定基因组的潜在变异区域(202)；根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段(203)；根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段(204)；对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果(205)；根据所述多序列比对结果，确定所述基因组的变异检测结果(206)。将参考序列片段和所有测序序列片段进行多序列比对，可以把具有相同变异类型的测序序列片段聚在一起对齐，从而提高基因组变异检测结果的准确性。

Description

基因组变异检测方法、装置及终端

技术领域

本申请涉及生物信息学技术领域，尤其涉及一种基因组变异检测方法、装置及终端。

背景技术

从分子水平上看，基因组变异是指基因组中碱基对组成或排列顺序的改变，主要包括SNP(Single Nucleotide Polymorphism，单核苷酸多态性)和indel(shortInsertion/Deletion，小片段的插入或删除)。随着基因组测序成本的持续下降，高通量测序仪产出的基因组测序数据呈现了爆炸式的增长，但是如何从基因组测序数据中得到高质量的基因组变异检测结果，依然是一项富有挑战性的工作。

传统的基因组变异检测通常以基因组的参考序列(reference sequence)为基准，分别将基因组的多条测序序列与参考序列进行双序列比对，得到每条测序序列与参考序列的双序列比对结果，包括测序序列相对于参考序列详细的匹配(match)、错配(mismatch)、插入(insertion)和删除(deletion)等信息，然后根据所有测序序列与参考序列的双序列比对结果，确定基因组的变异检测结果。其中，参考序列为基因组没有发生变异时的碱基序列，测序序列为被检测基因组的碱基序列。

但是，在实现本申请的过程中，申请人发现现有技术中至少存在如下问题：由于传统的基因组变异检测只是将每条测序序列与参考序列进行双序列比对，并根据双序列比对结果确定基因组的变异检测结果，很容易因为测序序列对齐不准确，把测序序列中一种类型的变异错误地比对成不同类型的变异，导致基因组变异检测结果不准确。

发明内容

本申请提供了一种基因组变异检测方法、装置及终端，以解决现有技术中基因组变异检测结果不准确的问题。

第一方面，本申请实施例提供了一种基因组变异检测方法，该方法包括：将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果，其中，所述参考序列为所述基因组没有发生变异时的碱基序列，所述测序序列为所述基因组待检测的碱基序列；根据所述双序列比对结果，确定所述基因组的潜在变异区域，所述潜在变异区域为所述基因组中发生潜在变异的碱基编码区间；根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段；根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段；对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果；根据所述多序列比对结果，确定所述基因组的变异检测结果。采用本实现方式，可以把具有相同变异类型的测序序列片段聚在一起对齐，测序序列对齐较为准确，避免将属于一种类型的变异错误地比对成不同类型的变异，从而提高基因组变异检测结果的准确性。

结合第一方面，在第一方面第一种可能的实现方式中，在对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果之后，还包括：根据所述多序列比对结果，确定所有测序序列片段的变异类型；根据所述所有测序序列片段的变异类型，将所有测序序列片段汇聚为至少一个测序序列簇，其中，同一测序序列簇中的测序序列片段的变异类型相同；分别对每个所述测序序列簇中的所有测序序列片段作并集处理，得到每个所述测序序列簇的特征序列；将每个所述特征序列与所述参考序列片段进行双序列比对，得到每个所述特征序列的变异类型；根据每个所述特征序列的变异类型对所述多序列比对结果进行校正，其中，所述校正后的多序列比对结果中每个测序序列片段的变异类型与所述每个测序序列片段所对应的特征序列的变异类型相同。采用本实现方式，首先通过特性序列与参考序列片段的双序列比对，对特征序列进行校正；然后根据校正后的特征序列对特征序列所对应的测序序列片段进行校正，克服了多序列比对结果中部分测序序列片段相对参考序列片段发生偏移的问题，提高基因组变异检测结果的准确性。

结合第一方面第一种可能的实现方式，在第一方面第二种可能的实现方式中，在分别对每个所述测序序列簇中的所有测序序列片段作并集处理，得到每个所述测序序列簇的特征序列之后，还包括：将得到的每个所述测序序列簇的特征序列中的任意两个特征序列进行双序列比对；判断是否存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内；当存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内时，将所述两个特征序列所对应的测序序列簇合并，得到合并后的测序序列簇，且将所述两个特征序列作并集处理，得到所述合并后的测序序列簇的特征序列。采用本实现方式，通过把符合合并条件的测序序列簇进一步合并，增加特征序列的长度，进而提高了特征序列与参考序列片段双序列比对结果的准确性。

结合第一方面，在第一方面第三种可能的实现方式中，根据所述双序列比对结果，确定所述基因组的潜在变异区域，包括：根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；根据所述双序列比对结果，确定所有测序序列的变异类型；依次统计每个所述编码区间内不同变异类型的测序序列的概率分布值；根据所述概率分布值，计算每个所述编码区间的信息熵；依次判断每个所述编码区间的信息熵是否大于第一阈值；当一个所述编码区间的信息熵大于所述第一阈值时，判定该编码区间为潜在变异区域。采用本实现方式，通过信息熵确定基因组的潜在变异区域。

结合第一方面，在第一方面第四种可能的实现方式中，根据所述双序列比对结果，确定所述基因组的潜在变异区域，包括：根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；依次统计每个所述编码区间内发生变异的测序序列的数量；判断每个所述编码区间内发生变异的测序序列的数量是否大于第二阈值；当一个所述编码区间内发生变异的测序序列的数量大于所述第二阈值时，判定该编码区间为潜在变异区域。采用本实现方式，通过编码区间内发生变异的测序序列的数量确定基因组的潜在变异区域。

结合第一方面，在第一方面第五种可能的实现方式中，根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段，包括：抽取每条所述测序序列与所述潜在变异区域的交集部分作为所述测序序列片段。

结合第一方面，在第一方面第六种可能的实现方式中，根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段，包括：当每条所述测序序列与所述潜在变异区域存在交集时，抽取所述测序序列作为所述测序序列片段。

结合第一方面，在第一方面第七种可能的实现方式中，根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段，包括：抽取所述参考序列与所述潜在变异区域的交集部分作为所述参考序列片段。

结合第一方面，在第一方面第八种可能的实现方式中，根据所述多序列比对结果，确定所述基因组的变异检测结果，包括：根据所述多序列比对结果，确定所述潜在变异区域中的变异位置；在所述多序列比对结果中提取出所有所述测序序列片段在所述变异位置处的变异信息；根据所述变异信息，将所有所述测序序列片段汇聚为至少一个测序序列集合，其中，同一测序序列集合中测序序列片段在所述变异位置处的变异信息相同；依次判断每个所述测序序列集合中的测序序列片段的数量是否大于第三阈值；当一个所述测序序列集合中测序序列片段的数量大于所述第三阈值时，判定所述测序序列集合中测序序列片段的变异信息为所述基因组的变异检测结果。

第二方面，本申请实施例还提供了一种基因组变异检测装置，该装置包括：第一双序列比对单元，用于将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果，其中，所述参考序列为所述基因组没有发生变异时的碱基序列，所述测序序列为所述基因组待检测的碱基序列；潜在变异区域确定单元，用于根据所述双序列比对结果，确定所述基因组的潜在变异区域，所述潜在变异区域为所述基因组中发生潜在变异的碱基编码区间；测序序列片段抽取单元，用于根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段；参考序列片段抽取单元，用于根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段；多序列比对单元，用于对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果；变异检测结果确定单元，用于根据所述多序列比对结果，确定所述基因组的变异检测结果。

结合第二方面，在第二方面第一种可能的实现方式中，该装置还包括：变异类型确定单元，用于根据所述多序列比对结果，确定所有测序序列片段的变异类型；测序序列簇汇聚单元，用于根据所述所有测序序列片段的变异类型，将所有测序序列片段汇聚为至少一个测序序列簇，其中，同一测序序列簇中的测序序列片段的变异类型相同；并集处理单元，用于分别对每个所述测序序列簇中的所有测序序列片段作并集处理，得到每个所述测序序列簇的特征序列；第二双序列比对单元，用于将每个所述特征序列与所述参考序列片段进行双序列比对，得到每个所述特征序列的变异类型；校正单元，用于根据每个所述特征序列的变异类型对所述多序列比对结果进行校正，其中，所述校正后的多序列比对结果中每个测序序列片段的变异类型与所述每个测序序列片段所对应的特征序列的变异类型相同。

结合第二方面，在第二方面第二种可能的实现方式中，该装置还包括：第三双序列比对单元，用于将得到的每个所述测序序列簇的特征序列中的任意两个特征序列进行双序列比对；重叠区域判断单元，用于判断是否存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内；合并单元，用于当存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内时，将所述两个特征序列所对应的测序序列簇合并，得到合并后的测序序列簇，且将所述两个特征序列作并集处理，得到所述合并后的测序序列簇的特征序列。

结合第二方面，在第二方面第三种可能的实现方式中，所述潜在变异区域确定单元包括：第一编码区间划分子单元，用于根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；变异类型确定子单元，用于根据所述双序列比对结果，确定所有测序序列的变异类型；概率分布值统计子单元，用于依次统计每个所述编码区间内不同变异类型的测序序列的概率分布值；信息熵计算子单元，用于根据所述概率分布值，计算每个所述编码区间的信息熵；第一阈值判断子单元，用于依次判断每个所述编码区间的信息熵是否大于第一阈值；第一潜在变异区域判定子单元，用于当一个所述编码区间的信息熵大于所述第一阈值时，判定该编码区间为潜在变异区域。

结合第二方面，在第二方面第四种可能的实现方式中，所述潜在变异区域确定单元包括：第二编码区间划分子单元，用于根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；变异数量统计子单元，用于依次统计每个所述编码区间内发生变异的测序序列的数量；第二阈值判断子单元，用于判断每个所述编码区间内发生变异的测序序列的数量是否大于第二阈值；第二潜在变异区域判定子单元，用于当一个所述编码区间内发生变异的测序序列的数量大于所述第二阈值时，判定该编码区间为潜在变异区域。

结合第二方面，在第二方面第五种可能的实现方式中，所述测序序列片段抽取单元，具体用于抽取每条所述测序序列与所述潜在变异区域的交集部分作为所述测序序列片段。

结合第二方面，在第二方面第六种可能的实现方式中，所述测序序列片段抽取单元，具体用于当所述交集判断子单元判断所述测序序列与所述潜在变异区域存在交集时，抽取所述测序序列作为所述测序序列片段。

结合第二方面，在第二方面第七种可能的实现方式中，所述参考序列片段抽取单元，具体用于抽取所述参考序列与所述潜在变异区域的交集部分作为所述参考序列片段。

结合第二方面，在第二方面第八种可能的实现方式中，所述变异检测结果确定单元，包括：变异位置确定子单元，用于根据所述多序列比对结果，确定所述潜在变异区域中的变异位置；变异信息提取子单元，用于在所述多序列比对结果中提取出所有所述测序序列片段在所述变异位置处的变异信息；测序序列集合汇聚子单元，用于根据所述变异信息，将所有所述测序序列片段汇聚为至少一个测序序列集合，其中，同一测序序列集合中测序序列片段在所述变异位置处的变异信息相同；第三阈值判断子单元，用于依次判断每个所述测序序列集合中的测序序列片段的数量是否大于第三阈值；变异检测结果判定子单元，用于当一个所述测序序列集合中测序序列片段的数量大于所述第三阈值时，判定所述测序序列集合中测序序列片段的变异信息为所述基因组的变异检测结果。

第三方面，本申请实施例还提供了一种基因组变异检测终端，该终端包括：处理器；用于存储处理器的执行指令的存储器；其中，所述处理器被配置为执行步骤：将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果，其中，所述参考序列为所述基因组没有发生变异时的碱基序列，所述测序序列为所述基因组待检测的碱基序列；根据所述双序列比对结果，确定所述基因组的潜在变异区域，所述潜在变异区域为所述基因组中发生潜在变异的碱基编码区间；根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段；根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段；对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果；根据所述多序列比对结果，确定所述基因组的变异检测结果。

结合第三方面，在第三方面第一种可能的实现方式中，在对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果之后，还包括：根据所述多序列比对结果，确定所有测序序列片段的变异类型；根据所述所有测序序列片段的变异类型，将所有测序序列片段汇聚为至少一个测序序列簇，其中，同一测序序列簇中的测序序列片段的变异类型相同；分别对每个所述测序序列簇中的所有测序序列片段作并集处理，得到每个所述测序序列簇的特征序列；将每个所述特征序列与所述参考序列片段进行双序列比对，得到每个所述特征序列的变异类型；根据每个所述特征序列的变异类型对所述多序列比对结果进行校正，其中，所述校正后的多序列比对结果中每个测序序列片段的变异类型与所述每个测序序列片段所对应的特征序列的变异类型相同。

结合第三方面，在第三方面第二种可能的实现方式中，在分别对每个所述测序序列簇中的所有测序序列片段作并集处理，得到每个所述测序序列簇的特征序列之后，还包括：将得到的每个所述测序序列簇的特征序列中的任意两个特征序列进行双序列比对；判断是否存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内；当存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内时，将所述两个特征序列所对应的测序序列簇合并，得到合并后的测序序列簇，且将所述两个特征序列作并集处理，得到所述合并后的测序序列簇的特征序列。

结合第三方面，在第三方面第三种可能的实现方式中，根据所述双序列比对结果，确定所述基因组的潜在变异区域，包括：根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；根据所述双序列比对结果，确定所有测序序列的变异类型；依次统计每个所述编码区间内不同变异类型的测序序列的概率分布值；根据所述概率分布值，计算每个所述编码区间的信息熵；依次判断每个所述编码区间的信息熵是否大于第一阈值；当一个所述编码区间的信息熵大于所述第一阈值时，判定该编码区间为潜在变异区域。

结合第三方面，在第三方面第四种可能的实现方式中，根据所述双序列比对结果，确定所述基因组的潜在变异区域，包括：根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；依次统计每个所述编码区间内发生变异的测序序列的数量；判断每个所述编码区间内发生变异的测序序列的数量是否大于第二阈值；当一个所述编码区间内发生变异的测序序列的数量大于所述第二阈值时，判定该编码区间为潜在变异区域。

结合第三方面，在第三方面第五种可能的实现方式中，根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段，包括：抽取每条所述测序序列与所述潜在变异区域的交集部分作为所述测序序列片段。

结合第三方面，在第三方面第六种可能的实现方式中，根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段，包括：当每条所述测序序列与所述潜在变异区域存在交集时，抽取所述测序序列作为所述测序序列片段。

结合第三方面，在第三方面第七种可能的实现方式中，根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段，包括：抽取所述参考序列与所述潜在变异区域的交集部分作为所述参考序列片段。

结合第三方面，在第三方面第八种可能的实现方式中，根据所述多序列比对结果，确定所述基因组的变异检测结果，包括：根据所述多序列比对结果，确定所述潜在变异区域中的变异位置；在所述多序列比对结果中提取出所有所述测序序列片段在所述变异位置处的变异信息；根据所述变异信息，将所有所述测序序列片段汇聚为至少一个测序序列集合，其中，同一测序序列集合中测序序列片段在所述变异位置处的变异信息相同；依次判断每个所述测序序列集合中的测序序列片段的数量是否大于第三阈值；当一个所述测序序列集合中测序序列片段的数量大于所述第三阈值时，判定所述测序序列集合中测序序列片段的变异信息为所述基因组的变异检测结果。

第四方面，本申请实施例还提供了一种存储介质，该存储介质可存储有程序，该程序执行时可包括本申请提供的基因组变异检测方法的各实施例中的部分或全部步骤。

采用本申请实施例提供的基因组变异检测方法、装置及终端等，对参考序列片段和所有测序序列片段进行多序列比对，获得多序列比对结果；根据多序列比对结果，确定基因组的变异检测结果。由于多序列比对倾向于把相似度较高的序列优先聚在一起对齐，因此，将参考序列片段和所有测序序列片段放在一起进行多序列比对，可以把具有相同变异类型的测序序列片段聚在一起对齐，测序序列片段对齐较为准确，避免将属于一种类型的变异错误地比对成不同类型的变异，从而提高基因组变异检测结果的准确性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本申请实施例提供的一种测序序列与参考序列的双序列比对状态示意图；

图1B为本申请实施例将图1A中的测序序列对齐校正后的比对状态示意图；

图2为本申请实施例提供的一种基因组变异检测方法流程示意图；

图3为本申请实施例提供的一种基因组的编码区间划分示意图；

图4A为本申请实施例提供的一种测序序列片段和参考序列片段的抽取过程示意图；

图4B为本申请实施例提供的另一种测序序列片段和参考序列片段的抽取过程示意图；

图5A为本申请实施例提供的一种测序序列片段和参考序列片段的多序列比对状态示意图；

图5B为本申请实施例提供的另一种测序序列片段和参考序列片段的多序列比对状态示意图；

图6为本申请实施例提供的另一种基因组变异检测方法流程示意图；

图7为本申请实施例提供的一种测序序列簇的汇聚结果示意图；

图8为本申请实施例提供的一种并集处理过程示意图；

图9A为本申请实施例将图7中的测序序列簇作并集处理，得到的特征序列示意图；

图9B为本申请实施例将图9A中的特征序列与参考序列片段进行双序列比对，得到的双序列比对结果示意图；

图9C为本申请实施例根据图9B中的特征序列的变异类型对多序列比对结果进行校正，得到的校正后的多序列比对结果示意图；

图10A为本申请实施例提供的另一种测序序列片段和参考序列片段的多序列比对状态示意图；

图10B为本申请实施例将图10A中的测序序列簇作并集处理，得到的特征序列示意图；

图11为本申请实施例提供的另一种基因组变异检测方法流程示意图；

图12A为本申请实施例将图10B中的特征序列进行合并的合并过程示意图；

图12B为本申请实施例将图10A中的测序序列簇进行合并的合并过程示意图；

图13为本申请实施例提供的第一基因组变异检测装置结构示意图；

图14为本申请实施例提供的第二基因组变异检测装置结构示意图；

图15为本申请实施例提供的第三基因组变异检测装置结构示意图；

图16为本申请实施例提供的一种基因组变异检测终端结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所述描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1A，为本申请实施例提供的一种测序序列与参考序列的双序列比对状态示意图，参见图1B，为本申请实施例将图1A中的测序序列对齐校正后的比对状态示意图，在图1A和图1B中，上下两条完全一样的碱基序列代表参考序列，虚线条代表测序序列，测序序列相对于参考序列的错配和删除分别在测序序列中用碱基字母和圆点表示。

对比图1A和图1B，在图1A中，部分测序序列同时存在G-＞A(由碱基G变为碱基A的错配)和A-＞G(由碱基A变为碱基G的错配)，部分测序序列存在TTTG的删除(碱基段TTTG的删除)；而在图1B中，将测序序列对齐校正后，那些同时存在G-＞A和A-＞G的测序序列都被校正成了存在TTTG的删除的测序序列。也就是说，在图1A中，由于测序序列之间没有对齐，而将部分存在TTTG的删除的测序序列错误地比对成了存在G-＞A和A-＞G的测序序列，即把一种类型的变异错误地比对成了不同类型的变异，则在后续统计基因组的变异类型时，容易导致基因组变异检测结果不准确。

为了提高基因组变异检测结果的准确性，本申请实施例提供的基因组变异检测方法、装置及终端将参考序列片段和所有测序序列片段放在一起进行多序列比对，由于多序列比对倾向于把相似度较高的序列优先聚在一起对齐，因此，将参考序列片段和所有测序序列片段放在一起进行多序列比对，可以把具有相同变异类型的测序序列片段聚在一起对齐，测序序列片段对齐较为准确，避免将属于一种类型的变异错误地比对成不同类型的变异，提高基因组变异检测结果的准确性。

参见图2，为本申请实施例提供的一种基因组变异检测方法流程示意图，该方法包括如下步骤：

步骤201：将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果。

在本申请实施例中，参考序列为基因组没有发生变异时的碱基序列，其代表了基因组中碱基的正确排列顺序，测序序列为基因组待检测的碱基序列，因此，可以以参考序列为基准判断测序序列的变异情况，当测序序列与参考序列的碱基排列顺序一致时，说明测序序列没有发生变异；当测序序列与参考序列的碱基排列顺序不一致时，说明测序序列发生了变异，其中，测序序列的变异主要包括碱基的错配、插入和删除。

通常情况下，测序序列为短序列片段，测序序列的数量越多，在基因组变异检测过程中得到的原始数据越多，则在后续步骤中对基因组变异检测结果进行统计分析时，可利用的数据越多，基因组变异检测结果越准确。将基因组的多条测序序列分别与参考序列进行双序列比对，可以将每条测序序列定位到参考序列的相应位置，且获得每条测序序列相对参考序列详细的变异信息，包括匹配、错配、插入或删除等信息。

步骤202：根据所述双序列比对结果，确定所述基因组的潜在变异区域。

在基因组检测技术领域，为了对基因组中的碱基进行定位，为基因组中的每个碱基分配一个编码，则单个编码代表基因组中的一个碱基对，连续的编码区间代表基因组中的一段碱基片段。

在本申请实施例中，首先根据基因组的编码顺序，将基因组划分为多个编码区间，然后依次判断每个编码区间是否为潜在变异区域，实现对基因组变异位置的初步筛选，提高检测效率。

在本申请一种可选实施例中，将基因组划分为连续、等长的编码区间，根据编码区间的排列顺序，依次判断每个编码区间是否为潜在变异区域，直到遍历整个基因组，避免检测区域的遗漏。其中，编码区间的长度可以根据实际需要相应调整，例如，可以选择50-300bp(bp代表碱基对)范围内的任一长度，本申请对此不做限制。

参见图3，为本申请实施例提供的一种基因组的编码区间划分示意图，由于参考序列为基因组没有发生变异时的碱基序列，则参考序列中碱基对的编码区间即基因组的编码区间，因此，可以用参考序列的编码区间代表基因组的编码区间对本方案进行说明。如图3所示，沿着基因组的编码顺序，将基因组划分为长度为100bp的编码区间，依次形成第一编码区间(1510531，1510630)、第二编码区间(1510631，1510730)、第三编码区间(1510731，1510830)、第四编码区间(1510831，1510930)等。

编码区间划分完成后，依次判断每个编码区间是否为潜在变异区域，在所有编码区间中筛选出基因组的潜在变异区域。需要指出的是，在一个基因组中，潜在变异区域的数量可以为一个或一个以上的多个，本申请对此不做限制。

其中，判断编码区间是否为潜在变异区域的方法可以有多种。例如，由于信息熵可以反映序列的混杂程度，信息熵越大说明序列越混乱，测序序列发生变异的可能性就越大，因此，在本申请一种可能的实现方式中，可以通过信息熵确定潜在变异区域；再如，由于编码区间内发生变异的测序序列的数量越多，编码区间为潜在变异区域的可能性就越大，因此，在本申请另一种可能的实现方式中，可以通过编码区间内发生变异的测序序列的数量确定潜在变异区域。

其中，通过信息熵确定潜在变异区域的方法，具体为：

首先根据所述双序列比对结果，确定所有测序序列的变异类型。由于测序序列和参考序列的双序列比对结果中包括测序序列相对于参考序列详细的匹配、错配、插入和删除等信息，因此，根据双序列比对结果可以直接确定测序序列的变异类型。在本文中，相同变异类型的测序序列是指相对参考序列具有完全相同变异信息的测序序列，其中，没有发生变异的测序序列也作为变异类型的一种。

确定所有测序序列的变异类型后，根据测序序列的变异类型信息，统计不同变异类型的测序序列的概率分布值。具体包括：根据测序序列的变异类型，依次计算编码区间内每种变异类型下测序序列的数量与测序序列总数的比值，得到不同变异类型的测序序列的概率分布值，记为p_i。

假如在编码区间内存在两种变异类型，分别为第一变异类型和第二变异类型，分别统计第一变异类型和第二变异类型所对应的测序序列的数量，将第一变异类型所对应的测序序列的数量除以测序序列总数，得到第一变异类型的概率值p₁；将第二变异类型所对应的测序序列的数量除以测序序列总数，得到第二变异类型的概率值p₂。其中，p₁和p₂即所述编码区间内不同变异类型的测序序列的概率分布值。

根据所述概率分布值，计算所述编码区间的信息熵。具体包括：将概率分布值pi代入信息熵公式：H(U)＝E[-logp_i]，得到编码区间的信息熵H(U)。

判断编码区间的信息熵H(U)是否大于预设的第一阈值，当信息熵H(U)大于第一阈值时，判定所述编码区间作为潜在变异区域。

另外，通过编码区间内发生变异的测序序列的数量确定潜在变异区域的方法，具体为：

首先统计编码区间内存在变异的测序序列的数量。其中，只要测序序列和参考序列不能完美匹配，均作为存在变异的测序序列，包括存在错配、插入或删除的测序序列。

根据上述统计结果，判断所述发生变异的测序序列的数量是否大于第二阈值，当所述发生变异的测序序列的数量大于第二阈值时，判定所述编码区间为潜在变异区域。

例如，在本申请一种可能的实现方式中，将第二阈值设定为50，则当编码区间内发生变异的测序序列的数量大于50时，确定该编码区间为潜在变异区域；否则，确定该编码区域间不是潜在变异区域。其中，本领域技术人员可以根据实际需要对第二阈值的大小进行相应调整，本申请对此不做限制。

步骤203：根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段。

潜在变异区域确定之后，需要在测序序列中抽取出处于潜在变异区域内的测序序列片段，用于在后续步骤进行分析和处理。

在本申请实施例中，为了便于对测序序列片段的抽取过程进行说明，将测序序列和参考序列的双序列比对结果中，测序序列与参考序列的交集所对应的编码区域作为该测序序列的编码区间。

在本申请一种可能的实现方式中，抽取每条测序序列与所述潜在变异区域的交集部分作为测序序列片段。例如，当测序序列的编码区间完全处于潜在变异区域的编码区间内时，将所述测序序列作为测序序列片段；当潜在变异区域的编码区间与测序序列的编码区间的存在部分交集时，抽取所述测序序列与潜在变异区域的交集部分作为测序序列片段；当潜在变异区域的编码区间与测序序列的编码区间的不存在交集时，将所述测序序列丢弃。

参见图4A，为本申请实施例提供的一种测序序列片段和参考序列片段的抽取过程示意图，在图4A中以三种不同类型的测序序列为例，对测序序列片段的抽取过程进行示例性说明。其中，潜在变异区域的编码区间为(1510531，1510630)，第一测序序列的编码区间为(1510541，1510590)，第二测序序列的编码区间为(1510521，1510570)，第三测序序列的编码区间为(1510651，15106700)。

对于第一测序序列，其编码区间(1510541，1510590)完全处于潜在变异区域的编码区间(1510531，1510630)内，则抽取第一测序序列作为测序序列片段；对于第二测序序列，其编码区间(1510521，1510570)与潜在变异区域的编码区间(1510531，1510630)存在部分交集，该交集部分的编码区间为(1510531，1510570)，则在第二测序序列中抽取编码区间为(1510531，1510570)的部分作为测序序列片段；对于第三测序序列，其编码区间(1510651，15106700)与潜在变异区域的编码区间(1510531，1510630)的不存在交集，则将第三测序序列丢弃，从而抽取到的测序序列片段为第一测序序列的全部以及第二测序序列编码区间为(1510531，1510570)的部分。

从上述实施例可以看出，当测序序列的编码区间和潜在变异区域的编码区间存在部分交集时，在测序序列片段的抽取过程中会将测序序列打断，抽取测序序列与潜在变异区域的交集部分作为测序序列片段。其中，将测序序列打断会使测序序列失去完整性，从而丢失测序序列的部分信息，进而影响基因组变异检测结果的准确性。

在本申请另一种可能的实现方式中，首先判断每条测序序列与所述潜在变异区域是否存在交集；当测序序列与所述潜在变异区域存在交集时，抽取该测序序列作为测序序列片段。其相当于，当潜在变异区域的编码区间与测序序列的编码区间存在部分交集时，以测序序列的编码区间为基准对潜在变异区域进行扩展，避免在测序序列片段的抽取过程中将测序序列打断，保证测序序列的完整性。

参见图4B，为本申请实施例提供的另一种测序序列片段和参考序列片段的抽取过程示意图，在图4B中测序序列片段的抽取过程与图4A基本相似，其不同之处在于，对于第二测序序列，由于其编码区间与潜在变异区域的编码区间存在部分交集，则将第二测序序列的编码区间(1510521，1510570)与潜在变异区域的编码区间(1510531，1510630)的并集(1510521，1510630)作为扩展后的潜在变异区域的编码区间，然后在第二测序序列的潜在变异区域(此时的潜在变异区域已经更新为扩展后的潜在变异区域)内抽取测序序列片段。由于第二测序序列的编码区间完全落在潜在变异区域的编码区间内，因此，抽取整条第二测序序列作为测序序列片段。也就是说，在本实现方式中，若测序序列与潜在变异区域存在交集，则抽取整条测序序列作为测序序列片段。

需要指出的是，上述对潜在变异区域的扩展方式仅是本申请实施例所示出的一种具体实现方式，本领域的技术人员可以根据实际需要进行相应调整，其均应当落入本申请的保护范围之内。例如，在对测序序列片段进行抽取之前，可以先将潜在变异区域的编码区间与潜在变异区域内的所有测序序列的编码区间作并集处理(潜在变异区域内的测序序列包括与潜在变异区域存在部分交集的测序序列以及完全落在潜在变异区域内的测序序列)，以并集处理结果作为扩展后的潜在变异区域的编码区间。

在本申请实施例中，由于在测序序列片段的抽取过程中没有将测序序列打断，因此，可以保证测序序列的完整性，进而提高基因组变异检测的准确性。

步骤204：根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段。

在本申请实施例中，以潜在变异区域的编码区间为基准，在参考序列中抽取出参考序列片段。例如，在图4A中，潜在变异区域的编码区间为(1510531，1510630)，则在参考序列中抽取出编码区间(1510531，1510630)部分，作为参考序列片段；在图4B中，扩展后的潜在变异区域的编码区间为(1510521，1510630)，则在参考序列中抽取出编码区间(1510521，1510630)部分，作为参考序列片段。

步骤205：对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果。

在本申请实施例中，将参考序列片段和所有测序序列片段放在一起进行多序列比对，多序列比对的过程包括：

建立距离矩阵：分别计算两两序列之间的距离(包括参考序列片段和任意一个测序序列片段的距离，任意两个测序序列片段之间的距离)，建立两两序列之间的距离矩阵；

构建聚类树：首先将距离矩阵中距离最近的两个序列聚在一起，然后对距离矩阵进行更新，将更新后的距离矩阵中距离最近的两个序列或两类序列聚在一起，依次类推，直到将所有序列聚在一起，得到参考序列片段和测序序列片段的聚类树；

将序列对齐：根据聚类树中测序序列和参考序列的聚类层次，首先将最内层的两个序列对齐，然后次之，直到将所有的测序序列片段和参考序列片段比对对齐。

由于在构建聚类树的过程中，根据序列之间的距离大小(序列之间的距离代表序列之间的相似度，距离越小，相似度越高)把相似度较高的序列优先聚在一起，因此，将参考序列片段和所有测序序列片段放在一起进行多序列比对，在得到测序序列片段的变异类型的同时，还可以把具有相同变异类型的测序序列聚在一起对齐，避免将属于一种类型的变异错误地比对成不同类型的变异，从而提高基因组变异检测结果的准确性。

参见图5A，为本申请实施例提供的一种测序序列片段和参考序列片段的多序列比对状态示意图，在图5A中，测序序列片段存在三种不同的变异类型，将所有测序序列片段和第一参考序列片段放在一起进行多序列比对之后，三种不同变异类型的测序序列片段分别聚在一起对齐。另外，由于在双倍体或多倍体的同一单倍型中测序序列片段的变异类型通常相同，因此，将参考序列片段和所有测序序列片段放在一起进行多序列比对，还可以将属于同一单倍型的测序序列片段聚在一起，进而实现双倍体或多倍体的基因组变异检测。

步骤206：根据所述多序列比对结果，确定所述基因组的变异检测结果。

由于多序列比对结果中具有测序序列片段详细的变异信息，包括测序序列片段的变异位置和变异位置处错配、插入或删除信息，因此，根据多序列比对结果即可确定基因组的变异检测结果。

在本申请实施例中，首先根据所述多序列比对结果，确定潜在变异区域中的变异位置；然后在所述多序列比对结果中提取出所有所述测序序列片段在所述变异位置处的变异信息；根据所述变异信息，将所有所述测序序列片段汇聚为至少一个测序序列集合，其中，同一测序序列集合中测序序列片段在所述变异位置处的变异信息相同；依次判断每个所述测序序列集合中的测序序列片段的数量是否大于第三阈值；当一个所述测序序列集合中测序序列片段的数量大于所述第三阈值时，确定所述测序序列集合中测序序列片段的变异信息为所述基因组变异检测结果。

例如，在图5A中，根据多序列比对结果，确定编码1510581处为潜在变异区域中的变异位置；提取所有测序序列片段在编码1510581处的变异信息，共存在三种，分别为：不存在变异，存在碱基段CCT插入，存在碱基段CCT删除；根据所述变异信息，将所有测序序列片段汇聚至三个测序序列集合，分别为第一测序序列集合(变异信息为不存在变异，测序序列片段的数量为11条)、第二测序序列集合(变异信息为存在碱基段CCT插入，测序序列片段的数量为7条)和第三测序序列集合(变异信息为存在碱基段CCT删除，测序序列片段的数量为8条)；依次判断每个测序序列集合中的测序序列片段的数量是否大于第三阈值。

假如第三阈值为6，则上述三个测序序列集合中测序序列片段的数量均大于第三阈值，从而得到基因组在编码1510581处的变异检测结果为：不存在变异；碱基段CCT插入；碱基段CCT删除。其也可以表明三倍体的三个单倍型在编码1510581处的变异检测结果分别为：不存在变异；碱基段CCT插入；碱基段CCT删除。

假如第三阈值为10，则在上述三个测序序列集合中只有第一测序序列集合中测序序列片段的数量大于第三阈值，从而得到基因组在编码1510581处的变异检测结果为：不存在变异。

需要指出的是，上述第三阈值的大小仅是本申请实施例中的一种示例性说明，本领域的技术人员可以根据实际需要对第三阈值的大小进行相应调整，其均应当落入本申请的保护范围之内。

从上述实施例可以看出，通过将参考序列片段和所有测序序列片段放在一起进行多序列比对，可以把具有相同变异类型的测序序列片段聚在一起对齐，测序序列片段对齐较为准确，避免将属于一种类型的变异错误地比对成不同类型的变异，从而提高基因组变异检测结果的准确性。

但是，由于多序列比对过程中聚类树的构建方式存在一些缺陷，使得多序列比对结果中有可能存在测序序列片段相对参考序列片段整体偏移的问题。

参见图5B，为本申请实施例提供的另一种测序序列片段和参考序列片段的多序列比对状态示意图，如图5B所示，在第一参考序列片段和测序序列片段的多序列比对结果中，虽然已经将具有相同变异类型的测序序列片段聚在一起对齐，但其中部分具有相同变异类型的测序序列片段相对参考序列片段存在整体偏移的现象。测序序列片段相对参考序列片段的偏移会导致测序序列片段相对参考序列片段变异类型的改变，进而影响基因组变异检测的准确性。因此，有必要在测序序列片段和参考序列片段进行多序列比对后，对测序序列片段相对参考序列片段的变异类型进行校正。

参见图6，本申请实施例提供的另一种基因组变异检测方法流程示意图，该方法在图2所示实施例的基础上，在步骤205之后，还可以包括以下步骤：

步骤601：根据所述多序列比对结果，确定所有测序序列片段的变异类型。

在本申请实施例中，将参考序列片段和所有测序序列片段放在一起进行多序列比对之后，即可将测序序列片段中具有相同变异类型的测序序列片段聚在一起对齐，且可以获得所有测序序列片段相对参考序列片段的变异类型，如图5A和图5B所示。由于在图5B中，部分测序序列片段相对参考序列片段发生了整体偏移，因此，若要得到图5A所示的多序列比对结果，需要对图5B中发生偏移的测序序列片段的变异类型进行校正。

步骤602：根据所述所有测序序列片段的变异类型，将所有测序序列片段汇聚为至少一个测序序列簇。

在本申请实施例中，根据测序序列片段的变异类型，对所有测序序列片段进行分类，将具有相同变异类型的测序序列片段汇聚至同一测序序列簇中，以便于对测序序列片段的变异类型进行校正。

参见图7，为本申请实施例提供的一种测序序列簇的汇聚结果示意图，其根据测序序列片段的变异类型，将图5B所示的多序列比对结果中所有测序序列片段汇聚为三个测序序列簇。其中，第一测序序列簇中的测序序列片段不存在变异；第二测序序列簇中的测序序列片段存在碱基段CCT的插入；第三测序序列簇中的测序序列片段存在碱基段CGCCAG的删除和一段碱基序列的错配。

步骤603：分别对每个所述测序序列簇中的所有测序序列片段作并集处理，得到每个所述测序序列簇的特征序列。

由于同一个测序序列簇中的测序序列片段相对参考序列片段具有相同的变异类型，因此，在同一个测序序列簇中，任意两个测序序列片段的重叠编码区间具有相同的碱基序列，则对测序序列簇中的所有测序序列片段作并集处理即将测序序列片段之间的重叠编码区间合并，获得测序序列簇的特征序列。以下结合附图，对并集处理过程进行示例性说明。

参见图8，为本申请实施例提供的一种并集处理过程示意图，在图8中包括两条测序序列片段，其中，第一测序序列片段的编码区间为(1，15)，第二测序序列片段的编码区间为(4，18)，在两条测序序列片段的重叠编码区间(4，15)内具有相同的碱基序列TCCCCTCCTCCT，则将两条测序序列片段的重叠编码区间合并，测序序列片段中未合并的部分分别作为特征序列的头部和尾部，获得编码区间为(1，18)的特征序列GACTCCCCTCCTCCTCCT。

参见图9A，为本申请实施例将图7中的测序序列簇作并集处理得到的特征序列示意图，其分别将图7中的第一测序序列簇、第二测序序列簇和第三测序序列簇中的所有测序序列片段作并集处理，得到与其相对应的第一特征序列、第二特征序列和第三特征序列。

步骤604：将每个所述特征序列与所述参考序列片段进行双序列比对，得到每个所述特征序列的变异类型。

由于双序列比对可以获得两个序列的最佳比对结果，因此，将特征序列与参考序列进行双序列比对所得到的特征序列的变异类型，为最佳比对结果下特征序列的变异类型。基于此，可以在后续步骤中，根据特征序列的变异类型对特征序列所对应的测序序列片段进行校正。

假如测序序列簇中的测序序列片段相对于参考序列片段存在偏移，则将参考序列片段做并集处理后所得到的特征序列也会存在同样的偏移，将存在偏移的特征序列与参考序列片段进行双序列比对，可以对特征序列进行校正。也就是说，若测序序列片段发生偏移，则将测序序列片段所对应的特征序列与参考序列片段进行双序列比对后，特征序列的变异类型会发生变化；若测序序列片段没有发生偏移，则将测序序列片段所对应的特征序列与参考序列片段进行双序列比对后，特征序列的变异类型不变。因此，在本申请实施例中，可以根据双序列比对前后特征序列的变异类型判断是否需要对特征序列所对应的测序序列片段进行校正。

参见图9B，为本申请实施例将图9A中的特征序列与参考序列片段进行双序列比对，得到的双序列比对结果示意图，其分别将图9A所示的第一特征序列、第二特征序列和第三特征序列与参考序列片段进行双序列比对，获得的比对结果如图9B所示。对比图9A和图9B可知，在将特征序列与参考序列片段进行双序列比对之后，第一特征序列和第二特征序列的变异类型没有发生变化，第三特征序列的变异类型发生了改变。也就是说，第一特征序列和第二特征序列所对应的测序序列片段在多序列比对之后已经取得了最佳的比对效果，不需要进行校正；第三特征序列所对应的测序序列片段相对参考序列片段发生了整体偏移，需要进一步校正。

步骤605：根据每个所述特征序列的变异类型对所述多序列比对结果进行校正。

在本申请实施例中，以特征序列的变异类型为基准，对特征序列所对应的测序序列片段的变异类型进行校正，也就是对多序列比对结果进行校正。具体为：当特征序列的变异类型和与其相对应的测序序列片段的变异类型不同时，将测序序列片段的变异类型调整为特征序列的变异类型，使得校正后的多序列比对结果中测序序列片段的变异类型与所述测序序列片段所对应的特征序列的变异类型相同。

例如，在图9B中，将第三特征序列与参考序列片段进行双序列比对之后，第三特征序列的变异类型发生了改变，导致第三特征序列的变异类型与第三测序序列簇的测序序列片段的变异类型不同，因此，需要根据第三特征序列的变异类型对第三测序序列簇的测序序列片段的变异类型进行调整。

参见图9C，为本申请实施例根据图9B中的特征序列的变异类型对多序列比对结果进行校正，得到的校正后的多序列比对结果示意图，其中，将第三测序序列簇的测序序列片段的变异类型调整为第三特征序列的变异类型。

从上述实施例可以看出，在本申请实施例中，首先通过特性序列与参考序列片段的双序列比对，对特征序列进行校正；然后根据校正后的特征序列对特征序列所对应的测序序列片段进行校正，克服了多序列比对结果中部分测序序列片段相对参考序列片段发生偏移的问题，提高基因组变异检测结果的准确性。

通常情况下，在双序列比对过程中，两条序列的长度差距越大，出现多种比对结果的可能性越大，即双序列比对结果出错的可能性越大。即在上述步骤604中，将特征序列与参考序列片段进行双序列比对时，特征序列越长，特征序列与参考序列片段的双序列比对结果的准确性越高。

参见图10A，为本申请实施例提供的另一种测序序列片段和参考序列片段的多序列比对状态示意图，在图10A中根据测序序列片段的变异类型，将测序序列片段汇聚为三个测序序列簇，分别为第四测序序列簇、第五测序序列簇和第六测序序列簇。

参见图10B，为本申请实施例将图10A中的测序序列簇作并集处理，得到的特征序列示意图，其分别对第四测序序列簇、第五测序序列簇和第六测序序列簇中的所有测序序列片段作并集处理，得到与其相对应的第四特征序列、第五特征序列和第六特征序列。

对照图10A和图10B，由于第五测序序列簇和第六测序序列簇中的测序序列片段较短(相对参考序列片段)，则对测序序列簇中的所有测序序列片段作并集处理后，得到的第五特征序列和第六特征序列同样较短。如果将第五特征序列或第六特征序列直接与参考序列片段进行双序列比对，很有可能不能得到理想的比对结果，导致特征序列的变异类型不准确，进而影响测序序列片段的校正。

参见图11，为本申请实施例提供的另一种基因组变异检测方法流程示意图，该方法在图6所示实施例的基础上，在步骤603之后，还可以包括以下步骤：

步骤1101：将得到的每个所述测序序列簇的特征序列中的任意两个特征序列进行双序列比对。

在本申请实施例中，得到测序序列簇的特征序列后，分别将得到的每个所述测序序列簇的特征序列中的任意两个特征序列进行双序列比对，以判断是否可以将两个特征序列所对应的测序序列簇进一步进行合并。例如，对于图10B所示的特征序列，分别将第四特征序列和第五特征序列，第四特征序列和第六特征序列，第五特征序列和第六特征序列进行双序列比对。

步骤1102：判断是否存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内。

若两个特征序列的重叠区域不能完全匹配，说明两个特征序列在其重叠区域内具有不同的变异类型，则不能将其进行合并，因此，两个特征序列的重叠区域完全匹配是对两个特征序列进行合并的大前提。至少一个特征序列相对于参考序列片段的变异位置完全落在所述重叠区域内可以保证两个特征序列在其重叠区域内至少具有一个变异信息相同的变异位置。

例如，在图10B所示的第一变异位置，第四特征序列和第五特征序列相对第二参考序列片段存在碱基段CC的删除，且第一变异位置位于第四特征序列和第五特征序列的重叠区域内，说明第四特征序列和第五特征序列满足上述判断条件；在图10B所示的第二变异位置，第四特征序列和第六特征序列相对第二参考序列片段存在碱基段CC的插入，且第二变异位置位于第四特征序列和第六特征序列的重叠区域内，说明第四特征序列和第六特征序列同样满足上述判断条件。

当满足上述判断条件时，则进入步骤1103，对测序序列簇进一步合并；否则，则进入步骤604，将每个特征序列与参考序列片段进行双序列比对。

步骤1103：将所述两个特征序列所对应的测序序列簇合并，得到合并后的测序序列簇，且将所述两个特征序列作并集处理，得到所述合并后的测序序列簇的特征序列。

由于测序序列簇和特征序列具有一一对应的关系，因此，将测序序列簇合并后，测序序列簇的特征序列也需要对应合并。其中，将两个特征序列所对应的测序序列簇合并是指以合并后的测序序列簇取代合并前的两个测序序列簇，实现测序序列簇的更新；将两个特征序列作并集处理是指以并集处理获得的特征序列取代并集处理前的两个特征序列，实现对特征序列的更新。

步骤1103执行完成后，返回步骤1101，继续对特征序列进行双序列比对，以判断是否还存在符合合并条件的测序序列簇。其中，步骤1101中的特征序列包括通过并集处理得到的特征序列，步骤1103中的测序序列簇包括合并后的测序序列簇。

参见图12A和图12B，其中，图12A为本申请实施例将图10B中的特征序列进行合并的合并过程示意图，图12B为本申请实施例将图10A中的测序序列簇进行合并的合并过程示意图。如图12A所示，首先对第四特征序列和第五特征序列进行双序列比对，由于第四特征序列和第五特征序列的重叠区域完全匹配，且存在第一变异位置(碱基段CC的删除)完全落在其重叠区域内，因此，将第四特征序列和第五特征序列合并，得到第七特征序列。相应地，如图12B所示，将第四测序序列簇和第五测序序列簇合并，得到第七测序序列簇。

进一步地，对第七特征序列和第六特征序列进行双序列比对，由于第七特征序列和第六特征序列的重叠区域完全匹配，且存在第二变异位置(碱基段CC的插入)完全落在其重叠区域内，因此，将第七特征序列和第六特征序列合并，得到第八特征序列。相应地，将第七测序序列簇和第六测序序列簇合并，得到第八测序序列簇。则在后续的步骤604中，仅将第八特征序列与参考序列片段进行双序列比对，根据第八特征序列的变异类型对第八测序序列簇中的测序序列片段进行校正。在步骤604中，将每个特征序列与参考序列片段进行双序列比对，这里的每个特征序列中既包括因为不符合合并条件未进行合并的测序序列簇的特征序列，也包括后续对测序系列簇进行合并得到的合并后的测序序列簇的特征序列。

从上述实施例可以看出，在本申请实施例中，通过把符合合并条件的测序序列簇进一步合并，增加特征序列的长度，进而提高了特征序列与参考序列片段双序列比对结果的准确性。

与本申请基因组变异检测方法相对应，本申请还提供了基因组变异检测装置。

参见图13，为本申请实施例提供的第一基因组变异检测装置结构示意图。

所述第一基因组变异检测装置1300可以包括：第一双序列比对单元1301、潜在变异区域确定单元1302、测序序列片段抽取单元1303、参考序列片段抽取单元1304、多序列比对单元1305及变异检测结果确定单元1306。

其中，第一双序列比对单元1301，用于将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果，其中，所述参考序列为所述基因组没有发生变异时的碱基序列，所述测序序列为所述基因组待检测的碱基序列。

潜在变异区域确定单元1302，用于根据所述双序列比对结果，确定所述基因组的潜在变异区域，所述潜在变异区域为所述基因组中发生潜在变异的碱基编码区间。

测序序列片段抽取单元1303，用于根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段。

参考序列片段抽取单元1304，用于根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段。

多序列比对单元1305，用于对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果。

变异检测结果确定单元1306，用于根据所述多序列比对结果，确定所述基因组的变异检测结果。

在本申请一种可能的实现方式中，所述潜在变异区域确定单元1302包括：第一编码区间划分子单元，用于根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；变异类型确定子单元，用于根据所述双序列比对结果，确定所有测序序列的变异类型；概率分布值统计子单元，用于依次统计每个所述编码区间内不同变异类型的测序序列的概率分布值；信息熵计算子单元，用于根据所述概率分布值，计算每个所述编码区间的信息熵；第一阈值判断子单元，用于依次判断每个所述编码区间的信息熵是否大于第一阈值；第一潜在变异区域判定子单元，用于当一个所述编码区间的信息熵大于所述第一阈值时，判定该编码区间为潜在变异区域。

在本申请一种可能的实现方式中，所述潜在变异区域确定单元1302包括：第二编码区间划分子单元，用于根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；变异数量统计子单元，用于依次统计每个所述编码区间内发生变异的测序序列的数量；第二阈值判断子单元，用于判断每个所述编码区间内发生变异的测序序列的数量是否大于第二阈值；第二潜在变异区域判定子单元，用于当一个所述编码区间内发生变异的测序序列的数量大于所述第二阈值时，判定该编码区间为潜在变异区域。

在本申请一种可能的实现方式中，所述测序序列片段抽取单元1303，具体用于抽取每条所述测序序列与所述潜在变异区域的交集部分作为所述测序序列片段。

在本申请一种可能的实现方式中，所述测序序列片段抽取单元1303，具体用于当所述交集判断子单元判断所述测序序列与所述潜在变异区域存在交集时，抽取所述测序序列作为所述测序序列片段。

在本申请一种可能的实现方式中，所述参考序列片段抽取单元1304，具体用于抽取所述参考序列与所述潜在变异区域的交集部分作为所述参考序列片段。

在本申请一种可能的实现方式中，所述变异检测结果确定单元1306，包括：变异位置确定子单元，用于根据所述多序列比对结果，确定所述潜在变异区域中的变异位置；变异信息提取子单元，用于在所述多序列比对结果中提取出所有所述测序序列片段在所述变异位置处的变异信息；测序序列集合汇聚子单元，用于根据所述变异信息，将所有所述测序序列片段汇聚为至少一个测序序列集合，其中，同一测序序列集合中测序序列片段在所述变异位置处的变异信息相同；第三阈值判断子单元，用于依次判断每个所述测序序列集合中的测序序列片段的数量是否大于第三阈值；变异检测结果判定子单元，用于当一个所述测序序列集合中测序序列片段的数量大于所述第三阈值时，判定所述测序序列集合中测序序列片段的变异信息为所述基因组的变异检测结果。

参见图14，为本申请实施例提供的第二基因组变异检测装置结构示意图。

所述第二基因组变异检测装置1400在图13所示的第一基因组变异检测装置1300的基础上，还包括：变异类型确定单元1401、测序序列簇汇聚单元1402、并集处理单元1403、第二双序列比对单元1404及校正单元1405。

其中，变异类型确定单元1401，用于根据所述多序列比对结果，确定所有测序序列片段的变异类型。

测序序列簇汇聚单元1402，用于根据所述所有测序序列片段的变异类型，将所有测序序列片段汇聚为至少一个测序序列簇，其中，同一测序序列簇中的测序序列片段的变异类型相同。

并集处理单元1403，用于分别对每个所述测序序列簇中的所有测序序列片段作并集处理，得到每个所述测序序列簇的特征序列。

第二双序列比对单元1404，用于将每个所述特征序列与所述参考序列片段进行双序列比对，得到每个所述特征序列的变异类型。

校正单元1405，用于根据每个所述特征序列的变异类型对所述多序列比对结果进行校正，其中，所述校正后的多序列比对结果中每个测序序列片段的变异类型与所述每个测序序列片段所对应的特征序列的变异类型相同。

参见图15，为本申请实施例提供的第三基因组变异检测装置结构示意图。

所述第三基因组变异检测装置1500在图14所示的第二基因组变异检测装置1400的基础上，还包括：第三双序列比对单元1501、重叠区域判断单元1502及合并单元1503。

其中，第三双序列比对单元1501，用于将得到的每个所述测序序列簇的特征序列中的任意两个特征序列进行双序列比对。

重叠区域判断单元1502，用于判断是否存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内。

合并单元1503，用于当存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内时，将所述两个特征序列所对应的测序序列簇合并，得到合并后的测序序列簇，且将所述两个特征序列作并集处理，得到所述合并后的测序序列簇的特征序列。

其中，本申请实施例提供的基因组变异检测装置中各功能单元之间的关系可以参见前述基因组变异检测方法中的步骤，在此不再赘述。

与本申请基因组变异检测方法相对应，本申请还提供了基因组变异检测终端。

参见图16，为本申请实施例提供的一种基因组变异检测终端结构示意图，所述基因组变异检测终端1600可以包括：处理器1601、存储器1602及通信单元1603。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本申请的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，所述通信单元1603，用于建立通信信道，从而使所述存储设备可以与其它设备进行通信。接收其他设备发是的用户数据或者向其他设备发送用户数据。

所述处理器1601，为存储设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1602内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子设备的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器1601可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本申请实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

所述存储器1602，用于存储处理器1601的执行指令，存储器1602可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

当存储器1602中的执行指令由处理器1601执行时，使得基因组变异检测终端1600能够执行以下步骤：

将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果，其中，所述参考序列为所述基因组没有发生变异时的碱基序列，所述测序序列为所述基因组待检测的碱基序列；根据所述双序列比对结果，确定所述基因组的潜在变异区域，所述潜在变异区域为所述基因组中发生潜在变异的碱基编码区间；根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段；根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段；对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果；根据所述多序列比对结果，确定所述基因组的变异检测结果。

具体实现中，本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本申请提供的呼叫方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于装置实施例和终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims

1.一种基因组变异检测方法，其特征在于，包括：

将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果，其中，所述参考序列为所述基因组没有发生变异时的碱基序列，所述测序序列为所述基因组待检测的碱基序列；

根据所述双序列比对结果，确定所述基因组的潜在变异区域，所述潜在变异区域为所述基因组中发生潜在变异的碱基编码区间；

根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段；

根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段；

对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果；

根据所述多序列比对结果，确定所述基因组的变异检测结果；

其中，在对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果之后，还包括：

根据所述多序列比对结果，确定所有测序序列片段的变异类型；

根据所述所有测序序列片段的变异类型，将所有测序序列片段汇聚为至少一个测序序列簇，其中，同一测序序列簇中的测序序列片段的变异类型相同；

分别对每个所述测序序列簇中的所有测序序列片段作并集处理，得到每个所述测序序列簇的特征序列；

将每个所述特征序列与所述参考序列片段进行双序列比对，得到每个所述特征序列的变异类型；

根据每个所述特征序列的变异类型对所述多序列比对结果进行校正，其中，所述校正后的多序列比对结果中每个测序序列片段的变异类型与所述每个测序序列片段所对应的特征序列的变异类型相同。

2.根据权利要求1所述的基因组变异检测方法，其特征在于，在分别对每个所述测序序列簇中的所有测序序列片段作并集处理，得到每个所述测序序列簇的特征序列之后，还包括：

将得到的每个所述测序序列簇的特征序列中的任意两个特征序列进行双序列比对；

判断是否存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内；

当存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内时，将所述两个特征序列所对应的测序序列簇合并，得到合并后的测序序列簇，且将所述两个特征序列作并集处理，得到所述合并后的测序序列簇的特征序列。

3.根据权利要求1所述的基因组变异检测方法，其特征在于，根据所述双序列比对结果，确定所述基因组的潜在变异区域，包括：

根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；

根据所述双序列比对结果，确定所有测序序列的变异类型；

依次统计每个所述编码区间内不同变异类型的测序序列的概率分布值；

根据所述概率分布值，计算每个所述编码区间的信息熵；

依次判断每个所述编码区间的信息熵是否大于第一阈值；

当一个所述编码区间的信息熵大于所述第一阈值时，判定该编码区间为潜在变异区域。

4.根据权利要求1所述的基因组变异检测方法，其特征在于，根据所述双序列比对结果，确定所述基因组的潜在变异区域，包括：

依次统计每个所述编码区间内发生变异的测序序列的数量；

判断每个所述编码区间内发生变异的测序序列的数量是否大于第二阈值；

当一个所述编码区间内发生变异的测序序列的数量大于所述第二阈值时，判定该编码区间为潜在变异区域。

5.根据权利要求1所述的基因组变异检测方法，其特征在于，根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段，包括：

抽取每条所述测序序列与所述潜在变异区域的交集部分作为所述测序序列片段。

6.根据权利要求1所述的基因组变异检测方法，其特征在于，根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段，包括：

当每条所述测序序列与所述潜在变异区域存在交集时，抽取所述测序序列作为所述测序序列片段。

7.根据权利要求1所述的基因组变异检测方法，其特征在于，根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段，包括：

抽取所述参考序列与所述潜在变异区域的交集部分作为所述参考序列片段。

8.根据权利要求1所述的基因组变异检测方法，其特征在于，根据所述多序列比对结果，确定所述基因组的变异检测结果，包括：

根据所述多序列比对结果，确定所述潜在变异区域中的变异位置；

在所述多序列比对结果中提取出所有所述测序序列片段在所述变异位置处的变异信息；

根据所述变异信息，将所有所述测序序列片段汇聚为至少一个测序序列集合，其中，同一测序序列集合中测序序列片段在所述变异位置处的变异信息相同；

依次判断每个所述测序序列集合中的测序序列片段的数量是否大于第三阈值；

当一个所述测序序列集合中测序序列片段的数量大于所述第三阈值时，判定所述测序序列集合中测序序列片段的变异信息为所述基因组的变异检测结果。

9.一种基因组变异检测装置，其特征在于，包括：

第一双序列比对单元，用于将基因组的多条测序序列分别和参考序列进行双序列比对，得到双序列比对结果，其中，所述参考序列为所述基因组没有发生变异时的碱基序列，所述测序序列为所述基因组待检测的碱基序列；

潜在变异区域确定单元，用于根据所述双序列比对结果，确定所述基因组的潜在变异区域，所述潜在变异区域为所述基因组中发生潜在变异的碱基编码区间；

测序序列片段抽取单元，用于根据所述潜在变异区域，在所有测序序列中抽取出测序序列片段；

参考序列片段抽取单元，用于根据所述潜在变异区域，在所述参考序列中抽取出参考序列片段；

多序列比对单元，用于对所述参考序列片段和所有测序序列片段进行多序列比对，得到多序列比对结果；

变异检测结果确定单元，用于根据所述多序列比对结果，确定所述基因组的变异检测结果；

其中，还包括：

变异类型确定单元，用于根据所述多序列比对结果，确定所有测序序列片段的变异类型；

测序序列簇汇聚单元，用于根据所述所有测序序列片段的变异类型，将所有测序序列片段汇聚为至少一个测序序列簇，其中，同一测序序列簇中的测序序列片段的变异类型相同；

并集处理单元，用于分别对每个所述测序序列簇中的所有测序序列片段作并集处理，得到每个所述测序序列簇的特征序列；

第二双序列比对单元，用于将每个所述特征序列与所述参考序列片段进行双序列比对，得到每个所述特征序列的变异类型；

校正单元，用于根据每个所述特征序列的变异类型对所述多序列比对结果进行校正，其中，所述校正后的多序列比对结果中每个测序序列片段的变异类型与所述每个测序序列片段所对应的特征序列的变异类型相同。

10.根据权利要求9所述的基因组变异检测装置，其特征在于，还包括：

第三双序列比对单元，用于将得到的每个所述测序序列簇的特征序列中的任意两个特征序列进行双序列比对；

重叠区域判断单元，用于判断是否存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内；

合并单元，用于当存在两个特征序列的重叠区域完全匹配，且其中至少一个特征序列的变异位置完全处于所述重叠区域内时，将所述两个特征序列所对应的测序序列簇合并，得到合并后的测序序列簇，且将所述两个特征序列作并集处理，得到所述合并后的测序序列簇的特征序列。

11.根据权利要求9所述的基因组变异检测装置，其特征在于，所述潜在变异区域确定单元包括：

第一编码区间划分子单元，用于根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；

变异类型确定子单元，用于根据所述双序列比对结果，确定所有测序序列的变异类型；

概率分布值统计子单元，用于依次统计每个所述编码区间内不同变异类型的测序序列的概率分布值；

信息熵计算子单元，用于根据所述概率分布值，计算每个所述编码区间的信息熵；

第一阈值判断子单元，用于依次判断每个所述编码区间的信息熵是否大于第一阈值；

第一潜在变异区域判定子单元，用于当一个所述编码区间的信息熵大于所述第一阈值时，判定该编码区间为潜在变异区域。

12.根据权利要求9所述的基因组变异检测装置，其特征在于，所述潜在变异区域确定单元包括：

第二编码区间划分子单元，用于根据所述基因组的碱基编码顺序，将所述基因组划分为多个编码区间；

变异数量统计子单元，用于依次统计每个所述编码区间内发生变异的测序序列的数量；

第二阈值判断子单元，用于判断每个所述编码区间内发生变异的测序序列的数量是否大于第二阈值；

第二潜在变异区域判定子单元，用于当一个所述编码区间内发生变异的测序序列的数量大于所述第二阈值时，判定该编码区间为潜在变异区域。

13.根据权利要求9所述的基因组变异检测装置，其特征在于，

所述测序序列片段抽取单元，具体用于抽取每条所述测序序列与所述潜在变异区域的交集部分作为所述测序序列片段。

14.根据权利要求9所述的基因组变异检测装置，其特征在于，

所述参考序列片段抽取单元，具体用于抽取所述参考序列与所述潜在变异区域的交集部分作为所述参考序列片段。

15.根据权利要求9所述的基因组变异检测装置，其特征在于，所述变异检测结果确定单元，包括：

变异位置确定子单元，用于根据所述多序列比对结果，确定所述潜在变异区域中的变异位置；

变异信息提取子单元，用于在所述多序列比对结果中提取出所有所述测序序列片段在所述变异位置处的变异信息；

测序序列集合汇聚子单元，用于根据所述变异信息，将所有所述测序序列片段汇聚为至少一个测序序列集合，其中，同一测序序列集合中测序序列片段在所述变异位置处的变异信息相同；

第三阈值判断子单元，用于依次判断每个所述测序序列集合中的测序序列片段的数量是否大于第三阈值；

变异检测结果判定子单元，用于当一个所述测序序列集合中测序序列片段的数量大于所述第三阈值时，判定所述测序序列集合中测序序列片段的变异信息为所述基因组的变异检测结果。

16.一种基因组变异检测终端，其特征在于，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-8任一项所述的方法。