CN110797088B

CN110797088B - 全基因组重测序分析及用于全基因组重测序分析的方法

Info

Publication number: CN110797088B
Application number: CN201910989715.7A
Authority: CN
Inventors: 张凯; 沈一鸣
Original assignee: Nanjing Yiji Cloud Medical Data Research Institute Co ltd
Current assignee: Nanjing Yiji Cloud Medical Data Research Institute Co ltd
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-09-15
Anticipated expiration: 2039-10-17
Also published as: CN110797088A

Abstract

本发明公开一种全基因组重测序分析及用于全基因组重测序分析的方法。所述用于全基因组重测序分析的方法包括：获取对待检测样本的DNA序列进行识别所得到的多条测序序列；将所述多条测序序列分成多个测序序列组；基于每个测序序列组，并行地执行如下操作：依次地或并行地将所述测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在所述参考基因组上的对应位置及对应的染色体编号；以及根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库。

Description

全基因组重测序分析及用于全基因组重测序分析的方法

技术领域

本发明涉及基因测序领域，具体而言，涉及一种全基因组重测序分析及用于全基因组重测序分析的方法。

背景技术

全基因组重测序是指对具备参考基因组的物种中的不同个体进行基因组测序，并识别出样本个体基因与参考基因组的差别。随着大众对人类基因组认知水平的提高，全基因组重测序在医学、鉴定等领域发挥着越来越重要的作用。

现阶段，全基因组重测序包括实验和数据分析两大步骤：1)使用二代测序仪，将输入样本的DNA序列识别为测序序列；2)通过数理统计方法，确定二代测序仪输出的测序序列与参考基因组之间的差异。

对于步骤2)，目前通常采用BWA、Samtools、GATK等开源软件分别完成全基因组重测序数据分析所需的测序序列对比、排序、去重、质量值校正及变异识别等标准流程。然而，只有BWA和Samtools软件具有并行化处理能力，其它标准流程所使用的软件均为串行工具，其数据处理时间长，难以充分利用多核CPU资源。

此外，由于全基因重测序的每一流程均由不同的软件实现，软件与软件之间将存在大量需要输出至硬盘的中间文件，且全基因重测序的数据处理极为密集：以目前研究最多的人类全基因组重测序为例，其产生的中间文件总计将超过300G。为了减小中间文件，前一软件输出中间文件时往往对其进行特定格式的压缩，后一软件输入中间文件时需要对其进行解压。如此大量中间文件的频繁读写也将严重降低准备测序序列库和数据分析的速度与效率。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种用于全基因组重测序分析的方法、全基因组重测序分析方法、装置、电子设备及计算机可读存储介质。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提供一种用于全基因组重测序分析的方法，包括：获取对待检测样本的DNA序列进行识别所得到的多条测序序列；将所述多条测序序列分成多个测序序列组；基于每个测序序列组，并行地执行如下操作：依次地或并行地将所述测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在所述参考基因组上的对应位置及对应的染色体编号；以及根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库

根据本发明的一实施方式，根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库包括：基于每个测序序列组，并行地执行如下操作：根据所述测序序列组中各条测序序列对应的染色体编号，确定每条测序序列的所属染色体；以及基于每个染色体，并行地执行如下操作：根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次地对各条测序序列进行排序和去重，生成对应所述染色体的测序序列库。

根据本发明的一实施方式，基于每个测序序列组的并行操作还包括：依次地或并行地将所述测序序列组中的各条测序序列缓存至其所属染色体中；根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次地对各条测序序列进行排序和去重包括：从对应所述染色体的缓存中，获取所述染色体中的各条测序序列；及根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次进行排序，同时删除在所述参考基因组上同一对应位置的重复测序序列。

根据本发明的一实施方式，根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库包括：基于每个测序序列组，并行地执行如下操作：根据所述测序序列组中的各条测序序列在所述参考基因组上的对应位置，并行地对各条测序序列进行排序，并根据各条测序序列对应的染色体编号，并行地确定每条测序序列的所属染色体；以及基于每个染色体，并行地执行如下操作：根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次地对各条测序序列进行去重，生成对应所述染色体的测序序列库。

根据本发明的一实施方式，基于每个测序序列组的并行操作还包括：依次地或并行地将所述测序序列组中的各条测序序列缓存至其所属染色体中；根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次地对各条测序序列进行去重包括：删除来源于所述染色体且在所述参考基因组上同一对应位置的重复测序序列。

根据本发明的一实施方式，各测序序列组中测序序列的数目相等。

根据本发明的一实施方式，所述测序序列组的数量与所述待检测样本的染色体数量相等。

根据本发明的一实施方式，依次地或并行地将所述测序序列组中的各条测序序列与参考基因组进行测序序列对比包括：依次地或并行地对所述测序序列组中的各条测序序列执行模糊匹配与回溯操作；所述模糊匹配与回溯操作包括：基于映射关系确定与所述参考基因组上至少一个对应片段完全匹配的子串；以及基于所述子串，将所述测序序列分别与所述至少一个对应片段对齐，确定出所述子串外的碱基相似度满足预设阈值的对应片段。

根据本发明的一实施方式，所述模糊匹配与回溯操作基于现场可编程逻辑门阵列实现。

根据本发明的另一方面，提供一种全基因组重测序分析方法，包括：分别接收根据上述任一种用于全基因组重测序分析的方法生成的对应各染色体的测序序列库中的多条测序序列；基于每个染色体，并行地执行如下操作：依次对来源于所述染色体中的各条测序序列进行碱基质量值校正；以及依次将校正后的各条测序序列与参考基因组进行基因变异识别，分析确定待检测样本的基因组与所述参考基因组的变异集合。

根据本发明的一实施方式，依次对来源于所述染色体中的各条测序序列进行碱基质量值校正包括：对于来源于所述染色体中的所有测序序列，统计与所述参考基因组上对应碱基不同的多个碱基比例；以及根据所述多个碱基比例，确定每条测序序列中各碱基的校正质量值。

根据本发明的一实施方式，依次将校正后的各条测序序列与参考基因组进行基因变异识别包括：对于来源于所述染色体中的所有校正后的测序序列，确定相对于所述参考基因组的多个潜在变异位置；依次将每条校正后的测序序列中对应所述多个潜在变异位置的多个碱基按序组合，确定所述参考基因组的多个单倍体基因型；以及基于成对马尔科夫链对比算法，依次对所述每条校正后的测序序列与每个单倍体基因型执行配对操作，以分别确定其相似度。

根据本发明的一实施方式，所述配对操作基于现场可编程逻辑门阵列实现。

根据本发明的再一方面，提供一种用于全基因组重测序分析的装置，包括：样本获取模块，用于获取对待检测样本的DNA序列进行识别所得到的多条测序序列；序列分组模块，用于将所述多条测序序列分成多个测序序列组；序列对比模块，用于基于每个测序序列组，并行地执行如下操作：依次地或并行地将所述测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在所述参考基因组上的对应位置及对应的染色体编号；以及排序去重模块，用于根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库。

根据本发明的再一方面，提供一种全基因组重测序分析装置，包括：序列接收模块，用于分别接收根据上述用于全基因组重测序分析的装置生成的对应各染色体的测序序列库中的多条测序序列；序列质控模块，用于基于每个染色体，并行地执行如下操作：依次对来源于所述染色体中的各条测序序列进行碱基质量值校正；以及变异识别模块，用于基于每个染色体，并行地执行如下操作：依次将校正后的各条测序序列与参考基因组进行基因变异识别，分析确定待检测样本的基因组与所述参考基因组的变异集合。

根据本发明的再一方面，提供一种电子设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现上述任一种方法。

根据本发明的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现上述任一种方法。

根据本发明一实施方式提供的用于全基因组重测序分析的方法，第一，基于测序序列的独立性及染色体间的独立性，对全基因组重测序数据分析所需的标准流程采用新的并行处理方式，能够有效地缩短准备测序序列库的时间，充分利用多核CPU资源；第二，可实现测序序列对比、排序、去重等标准流程由多个软件依次处理整合为由一个软件处理，其中排序与去重流程更是可同时执行，显著地降低了读写中间文件导致的成本消耗。

根据本发明另一实施方式提供的用于全基因组重测序分析的方法，第一，基于测序序列的独立性及染色体间的独立性，对全基因组重测序数据分析所需的标准流程采用新的并行处理方式，能够有效地缩短准备测序序列库的时间，充分利用多核CPU资源；第二，可实现测序序列对比、排序、去重等标准流程由多个软件依次处理整合为由一个软件处理，其中排序与去重流程为依次执行，也可显著地降低读写中间文件导致的成本消耗。

另外，根据一些实施例，本发明提供的用于全基因组重测序分析的方法能够基于现场可编程逻辑门阵列加速其中的测序序列对比流程。

根据本发明实施方式提供的全基因组重测序分析方法，第一，基于本发明各实施方式提供的用于全基因组重测序分析的方法生成的测序序列库，对全基因组重测序数据分析所需的其它标准流程也采用并行处理方式，能够有效地缩短数据分析的时间，充分利用多核CPU资源；第二，可实现测序序列质量值校正及变异识别等标准流程由多个软件依次处理整合为由一个软件处理，显著地降低了读写中间文件导致的成本消耗，提升全基因组重测序分析的整体效率。

另外，根据一些实施例，本发明提供的全基因组重测序分析方法能够基于现场可编程逻辑门阵列加速其中的基因变异识别流程。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。

图1是根据一示例性实施方式示出的一种用于全基因组重测序分析的方法的流程图。

图2是根据一示例性实施方式示出的另一种用于全基因组重测序分析的方法的流程图。

图3是根据一示例性实施方式示出的再一种用于全基因组重测序分析的方法的流程图。

图4是根据一示例性实施方式示出的再一种用于全基因组重测序分析的方法的流程图。

图5是根据一示例性实施方式示出的一种全基因组重测序分析方法的流程图。

图6是根据一示例性实施方式示出的另一种全基因组重测序分析方法的流程图。

图7是根据一示例性实施方式示出的再一种全基因组重测序分析方法的流程图。

图8是根据一示例性实施方式示出的一种用于全基因组重测序分析的装置的框图。

图9是根据一示例性实施方式示出的另一种用于全基因组重测序分析的装置的框图。

图10是根据一示例性实施方式示出的一种全基因组重测序分析装置的框图。

图11是根据一示例性实施方式示出的一种电子设备的结构示意图。

图12是根据一示例性实施方式示出的一种计算机可读存储介质的示意图。

图13是根据一示例示出的一种全基因组重测序并行处理流程的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

如上所述，目前通常采用多个商用软件依次完成全基因组重测序的各标准流程，且所用软件多为串行工具，限制了数据处理时长，难以发挥多核运算的优势。再者，软件与软件之间将存在大量中间文件，频繁地读写中间文件也将严重降低准备测序序列库和数据分析的速度与效率。

因此，本发明提出一种用于全基因组重测序分析的方法及全基因组重测序分析方法。根据本发明提供的用于全基因组重测序分析的方法，对全基因组重测序数据分析所需的标准流程采用新的并行处理方式，能够有效地缩短准备测序序列库的时间，并实现了测序序列对比、排序、去重等标准流程由多个软件依次处理整合为由一个软件处理，能够显著地降低读写中间文件导致的成本消耗。

同时，根据本发明提供的全基因组重测序分析方法，基于本发明提供的用于全基因组重测序分析的方法生成的测序序列库，对全基因组重测序数据分析所需的其它标准流程也采用并行处理方式，能够有效地缩短数据分析的时间，并实现了测序序列质量值校正及变异识别等标准流程由多个软件依次处理整合为由一个软件处理，能够显著地降低读写中间文件导致的成本消耗，提升全基因组重测序分析的整体效率。

图13是根据一示例示出的一种全基因组重测序并行处理流程的示意图。如图13中箭头指向所示，样本测序序列被预先分为m组，m个测序序列对比模块并行地进行测序序列对比，每对比完一条测序序列则根据其所属的染色体分配给后续对应的排序去重模块；n个排序去重模块并行运行，每个排序去重模块接收到一条测序序列的对比结果立即将其与在前接收的测序序列进行排序。其中，m和n可以相等、近似相等或完全不相等。由于去重、排序流程均只需考虑同染色体内不同测序序列的差异，故可封装于一个模块内同时执行；待所有测序序列完成排序和去重后，n个排序去重模块并行将测序序列输出至n个碱基质量值校正模块；n个碱基质量值校正模块将校正后的测序序列并行发送至n个变异识别模块，完成整套全基因组重测序数据分析流程。

本发明整体的方案即是根据如图13中所示的测序序列流向所提出的。测序序列的完整流向可划分为前后两部分，前一部分对应于本发明中用于全基因组重测序分析的方法，后一部分对应于本发明中的全基因组重测序分析方法，以体现本发明整体方案所作出的具体创新：

(1)由于测序序列之间的独立性，并且测序序列对比、排序及去重均可以以单条输入测序序列为单位进行处理，不需同步输入所有测序序列，则测序序列对比、排序及去重可采用流水线方式并行处理。因此，测序序列对比流程、排序流程及去重流程可整合设计为由第一软件实现。测序序列对比结果直接输出至对应染色体的缓存区(此缓存区位于第一软件的内存中，具体可设置于对应的排序去重模块内，则测序序列对比流程、排序流程、去重流程之间均无需产生输出至硬盘的中间文件)，排序去重模块从对应缓冲区获取对比结果并据此生成测序序列库后可将其丢弃。

(2)由于碱基质量值校正与变异识别也可采用并行处理方式，因此碱基质量值校正流程与基因变异识别流程可整合设计为由第二软件实现，且碱基质量值校正流程与基因变异识别流程之间也不会产生中间文件。

参考上述两点及图13，本发明整体的方案设计仅在去重流程节点后(即第一软件与第二软件的连接管道)存在需输出至硬盘的中间文件。两个软件的系统设计避免了频繁读写中间文件，可显著地提升全基因组重测序分析的整体速度和效率。

下面具体说明本发明各实施方式提供的用于全基因组重测序分析的方法及全基因组重测序分析方法。

图1是根据一示例性实施方式示出的一种用于全基因组重测序分析的方法的流程图。如图1所示的用于全基因组重测序分析的方法例如可以应用于人类全基因组重测序分析场景中的测序序列库准备阶段。

参考图1，用于全基因组重测序分析的方法10包括：

在步骤S102中，获取对待检测样本的DNA序列进行识别所得到的多条测序序列。

测序序列(read)为一段由二代测序仪器对样本DNA进行识别所产生的、能反映样本某段DNA碱基排列顺序的序列，以A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)和N五个字符组成的字符串表示。其中，由于设备性能的原因，二代测序仪将存在个别无法识别碱基类别的情况，此时可以N代表该待定碱基。

在测序序列库建立期间，需要将样本DNA扩增至一定丰度，也即测序序列来源于待检测样本多条染色体中的DNA分子及DNA分子的复制品。DNA分子的复制品例如可根据下述步骤获得：以待检测样本多条染色体中的DNA分子为模板，通过聚合酶链式反应(Polymerase Chain Reaction，PCR)对DNA分子进行复制。

在步骤S104中，将多条测序序列分成多个测序序列组。

在一些实施例中，各测序序列组中测序序列的数目可以相等或接近相等，但本发明并不以各测序序列组中测序序列数目的多少为限。

在一些实施例中，测序序列组的数量可以与待检测样本的染色体数量相等，但本发明并不以测序序列分组数的多少为限。测序序列可以只来源于某几个特定的染色体，即测序序列组的数量可以不等于待检测样本的染色体数量。对于人类全基因组重测序分析场景，测序序列组的数量例如可取为≥25。

在步骤S106中，基于每个测序序列组，并行地执行如下操作：依次地或并行地将测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在参考基因组上的对应位置及对应的染色体编号，并根据染色体编号，确定每条测序序列的所属染色体。

测序序列对比流程的目的在于确定输入测序序列在参考基因组上的最相似位置及差异。通常可预设置所有输入测序序列的长度总和约为参考基因组序列长度的30倍(即30X测序)。

在本发明中，每个测序序列组中各条测序序列与参考基因组的对比流程既可以为依次执行，也可以为并行执行。

在步骤S108中，基于每个染色体，并行地执行如下操作：根据染色体中各条测序序列在参考基因组上的对应位置，依次地对各条测序序列进行排序和去重，生成对应染色体的测序序列库。

排序流程的目的在于将所有输入测序序列按照其在参考基因组上的对应位置进行排序。去重流程的目的在于识别并去除样本DNA扩增时所引入的、来源于同一DNA分子的重复测序序列。常用的去重算法为将对比至参考基因组上同一位置且长度一致的测序序列标记为重复测序序列。

根据本发明实施方式提供的用于全基因组重测序分析的方法，第一，基于测序序列的独立性及染色体间的独立性，对全基因组重测序数据分析所需的标准流程采用新的并行处理方式，能够有效地缩短准备测序序列库的时间，充分利用多核CPU资源；第二，可实现测序序列对比、排序、去重等标准流程由多个软件依次处理整合为由一个软件处理，其中排序与去重流程更是可同时执行，显著地降低了读写中间文件导致的成本消耗。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施方式。

图2是根据一示例性实施方式示出的另一种用于全基因组重测序分析的方法的流程图。与图1所示方法10的不同之处在于，图2所示的方法20进一步提供了将测序序列组中的各条测序序列与参考基因组进行测序序列对比的具体方法，即上述方法10中步骤S106的一实施例。同样地，如图2所示的用于全基因组重测序分析的方法例如也可以应用于人类全基因组重测序分析场景中的测序序列库准备阶段。

参考图2，方法10中的步骤S106包括：

在步骤S202中，依次地或并行地对测序序列组中的各条测序序列执行模糊匹配与回溯操作。

其中，模糊匹配与回溯操作包括：

在步骤S2022中，基于映射关系确定与参考基因组上至少一个对应片段完全匹配的子串；以及

在步骤S2024中，基于子串，将测序序列分别与至少一个对应片段对齐，确定出子串外的碱基相似度满足预设阈值的对应片段。

模糊匹配与回溯操作的目的在于计算输入测序序列与参考基因组的相似偏离程度，是测序序列对比流程的关键环节。

在一些实施例中，模糊匹配与回溯操作可基于现场可编程逻辑门阵列(FieldProgrammable Gate Array，FPGA)实现。从本发明的软件层面可解释为：预先向FPGA配置中加载相同的模糊匹配与回溯算法；第一软件运行时通过FPGA配置加速其中的测序序列对比流程。

图3是根据一示例性实施方式示出的再一种用于全基因组重测序分析的方法的流程图。与图1所示方法10的不同之处在于，图3所示的方法30进一步提供了对各条测序序列进行排序和去重的具体方法，即上述方法10中步骤S108的一实施例。同样地，如图3所示的用于全基因组重测序分析的方法例如也可以应用于人类全基因组重测序分析场景中的测序序列库准备阶段。

参考图3，首先，方法10中的步骤S106还可包括：

在步骤S302中，依次地或并行地将测序序列组中的各条测序序列缓存至其所属染色体中。

而后，方法10中的步骤S108可包括：

在步骤S304中，从对应染色体的缓存中，获取染色体中的各条测序序列；以及

在步骤S306中，根据染色体中各条测序序列在参考基因组上的对应位置，依次进行排序，同时删除在参考基因组上同一对应位置的重复测序序列。

图4是根据一示例性实施方式示出的再一种用于全基因组重测序分析的方法的流程图。与图1所示方法10的不同之处仅在于，图4所示的方法40提供了基于另一种流程节点拆分方式完成测序序列对比、排序及去重的方法。同样地，如图4所示的用于全基因组重测序分析的方法例如也可以应用于人类全基因组重测序分析场景中的测序序列库准备阶段。

参考图4，用于全基因组重测序分析的方法40包括：

在步骤S402中，获取对待检测样本的DNA序列进行识别所得到的多条测序序列。

在步骤S404中，将多条测序序列分成多个测序序列组。

在步骤S406中，基于每个测序序列组，并行地执行如下操作：依次地或并行地将测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在参考基因组上的对应位置及对应的染色体编号；根据各条测序序列在参考基因组上的对应位置，并行地对各条测序序列进行排序，并根据各条测序序列的染色体编号，并行地确定每条测序序列的所属染色体。

在步骤S408中，基于每个染色体，并行地执行如下操作：根据染色体中各条测序序列在参考基因组上的对应位置，依次地对各条测序序列进行去重，生成对应染色体的测序序列库。

在一些实施例中，步骤S406还可包括：依次地或并行地将测序序列组中的各条测序序列缓存至其所属染色体中；相应地，步骤S408可包括：删除来源于染色体且在参考基因组上同一对应位置的重复测序序列。

需要说明的是，图4所示的方法40与图1所示方法10的不同之处仅在于排序及去重流程节点的拆分方式。对于方法40中未披露的相关操作细节，请参照本发明前述方法10和20的实施例。

根据本发明实施方式提供的用于全基因组重测序分析的方法，第一，基于测序序列的独立性及染色体间的独立性，对全基因组重测序数据分析所需的标准流程采用新的并行处理方式，能够有效地缩短准备测序序列库的时间，充分利用多核CPU资源；第二，可实现测序序列对比、排序、去重等标准流程由多个软件依次处理整合为由一个软件处理，其中排序与去重流程为依次执行，也可显著地降低读写中间文件导致的成本消耗。

图5是根据一示例性实施方式示出的一种全基因组重测序分析方法的流程图。如图5所示的全基因组重测序分析方法例如可以应用于人类全基因组重测序分析场景中的数理统计分析阶段。

参考图5，全基因组重测序分析方法50包括：

在步骤S502中，分别接收根据上述用于全基因组重测序分析的方法10至40中任一种生成的对应各染色体的测序序列库中的多条测序序列。

而后，基于每个染色体，并行地执行如下操作：

在步骤S504中，依次对来源于染色体中的各条测序序列进行碱基质量值校正；以及

在步骤S506中，依次将校正后的各条测序序列与参考基因组进行基因变异识别，分析确定待检测样本的基因组与参考基因组的变异集合。

碱基质量值为二代测序仪对测序序列中每一个碱基给出的置信度，其数学表达形式为：(-10)×(测序错误率的常用对数，即以10为底数)，并取整。碱基质量值校正流程的目的在于根据统计模型对输入测序序列的碱基质量值进行修正，以消除因仪器误差导致的系统偏差。

基因变异识别流程的目的在于以校正后的测序序列代表待检测样本的基因组，分析确定样本基因组与物种参考基因组的所有区别。

根据本发明实施方式提供的全基因组重测序分析方法，第一，基于本发明提供的用于全基因组重测序分析的方法生成的测序序列库，对全基因组重测序数据分析所需的其它标准流程也采用并行处理方式，能够有效地缩短数据分析的时间，充分利用多核CPU资源；第二，可实现测序序列质量值校正及变异识别等标准流程由多个软件依次处理整合为由一个软件处理，显著地降低了读写中间文件导致的成本消耗，提升全基因组重测序分析的整体效率。

图6是根据一示例性实施方式示出的另一种全基因组重测序分析方法的流程图。与图5所示方法50的不同之处在于，图6所示的方法60进一步提供了对测序序列进行碱基质量值校正的具体方法，即上述方法50中步骤S504的一实施例。同样地，如图6所示的全基因组重测序分析方法例如也可以应用于人类全基因组重测序分析场景中的数理统计分析阶段。

参考图6，方法50中的步骤S504包括：

在步骤S602中，对于来源于染色体中的所有测序序列，统计与参考基因组上对应碱基不同的多个碱基比例。

在步骤S604中，根据多个碱基比例，确定每条测序序列中各碱基的校正质量值。

承上述，碱基质量值的数学表达形式为：(-10)×(测序错误率的常用对数)，并取整。通过统计排序、去重后的所有测序序列与参考基因组上对应位置的碱基不同的碱基所占的比例，作为修正的测序错误率，重新确定每条测序序列中各碱基的校正质量值。

图7是根据一示例性实施方式示出的再一种全基因组重测序分析方法的流程图。与图5所示方法50的不同之处在于，图7所示的方法70进一步提供了基因变异识别的具体方法，即上述方法50中步骤S506的一实施例。同样地，如图7所示的全基因组重测序分析方法例如也可以应用于人类全基因组重测序分析场景中的数理统计分析阶段。

参考图7，方法50中的步骤S506包括：

在步骤S702中，对于来源于染色体中的所有校正后的测序序列，确定相对于参考基因组的多个潜在变异位置。

在步骤S704中，依次将每条校正后的测序序列中对应多个潜在变异位置的多个碱基按序组合，确定参考基因组的多个单倍体基因型。

在步骤S706中，基于成对马尔科夫链对比算法，依次对每条校正后的测序序列与每个单倍体基因型执行配对操作，以分别确定其相似度。

将成对马尔科夫链对比(Pair-HMM)算法用于计算测序序列与单倍体基因型(简称单倍型)之间的相似度，是目前全基因组重测序研究中基因变异识别流程的关键环节，但本发明并不以此算法为限。

在一些实施例中，配对操作可基于现场可编程逻辑门阵列实现。从本发明的软件层面可解释为：在第一软件完成排序和去重流程并开始输出对比结果时，向FPGA配置中加载例如Pair-HMM算法；第二软件运行时通过FPGA配置加速其中的基因变异识别流程。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

参考图8，用于全基因组重测序分析的装置80包括：样本获取模块802、序列分组模块804、序列对比模块806以及排序去重模块808。

其中，样本获取模块802用于获取对待检测样本的DNA序列进行识别所得到的多条测序序列。

序列分组模块804用于将多条测序序列分成多个测序序列组。

序列对比模块806用于基于每个测序序列组，并行地执行如下操作：依次地或并行地将测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在参考基因组上的对应位置及对应的染色体编号，并根据染色体编号，确定每条测序序列的所属染色体。

排序去重模块808用于基于每个染色体，并行地执行如下操作：根据染色体中各条测序序列在参考基因组上的对应位置，依次地对各条测序序列进行排序和去重，生成对应染色体的测序序列库。

根据本发明实施方式提供的用于全基因组重测序分析的装置，第一，基于测序序列的独立性及染色体间的独立性，对全基因组重测序数据分析所需的标准流程采用新的并行处理方式，能够有效地缩短准备测序序列库的时间，充分利用多核CPU资源；第二，可实现测序序列对比、排序、去重等标准流程由多个软件依次处理整合为由一个软件处理，其中排序与去重流程更是可同时执行，显著地降低了读写中间文件导致的成本消耗。

参考图9，用于全基因组重测序分析的装置90包括：样本获取模块902、序列分组模块904、对比排序模块906以及序列去重模块908。

其中，样本获取模块902用于获取对待检测样本的DNA序列进行识别所得到的多条测序序列。

序列分组模块904用于将多条测序序列分成多个测序序列组。

对比排序模块906可进一步包括序列对比单元及序列排序单元，用于基于每个测序序列组，并行地执行如下操作：依次地或并行地将测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在参考基因组上的对应位置及对应的染色体编号(由序列对比单元执行)；根据各条测序序列在参考基因组上的对应位置，并行地对各条测序序列进行排序，并根据各条测序序列的染色体编号，并行地确定每条测序序列的所属染色体(由序列排序单元执行)。

序列去重模块908用于基于每个染色体，并行地执行如下操作：根据染色体中各条测序序列在参考基因组上的对应位置，依次地对各条测序序列进行去重，生成对应染色体的测序序列库。

根据本发明实施方式提供的用于全基因组重测序分析的装置，第一，基于测序序列的独立性及染色体间的独立性，对全基因组重测序数据分析所需的标准流程采用新的并行处理方式，能够有效地缩短准备测序序列库的时间，充分利用多核CPU资源；第二，可实现测序序列对比、排序、去重等标准流程由多个软件依次处理整合为由一个软件处理，其中排序与去重流程为依次执行，也可显著地降低读写中间文件导致的成本消耗。

参考图10，全基因组重测序分析装置100包括：序列接收模块1002、序列质控模块1004以及变异识别模块1006。

其中，序列接收模块1002用于分别接收根据上述用于全基因组重测序分析的装置80或90生成的对应各染色体的测序序列库中的多条测序序列。

序列质控模块1004用于基于每个染色体，并行地执行如下操作：依次对来源于染色体中的各条测序序列进行碱基质量值校正。

变异识别模块1006基于每个染色体，并行地执行如下操作：依次将校正后的各条测序序列与参考基因组进行基因变异识别，分析确定待检测样本的基因组与参考基因组的变异集合。

根据本发明实施方式提供的全基因组重测序分析装置，第一，基于本发明提供的用于全基因组重测序分析的装置生成的测序序列库，对全基因组重测序数据分析所需的其它标准流程也采用并行处理方式，能够有效地缩短数据分析的时间，充分利用多核CPU资源；第二，可实现测序序列质量值校正及变异识别等标准流程由多个软件依次处理整合为由一个软件处理，显著地降低了读写中间文件导致的成本消耗，提升全基因组重测序分析的整体效率。

需要注意的是，上述附图中所示的框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图11是根据一示例性实施方式示出的一种电子设备的结构示意图。需要说明的是，图11示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。如图11所示的电子设备例如可以应用于人类全基因组重测序分析场景。

如图11所示，电子设备110以通用计算机设备的形式表现。电子设备110的组件包括：至少一个中央处理单元(CPU)1101，其可以根据存储在只读存储器(ROM)1102中的程序代码或者从至少一个存储单元1108加载到随机访问存储器(RAM)1103中的程序代码而执行各种适当的动作和处理。

特别地，根据本发明的实施例，所述程序代码可以被中央处理单元1101执行，使得中央处理单元1101执行本说明书上述方法实施例部分中描述的根据本发明各种示例性实施方式的步骤。例如，中央处理单元1101可以执行如图1-7中所示的步骤。

在RAM 1103中，还存储有电子设备110操作所需的各种程序和数据。CPU 1101、ROM1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入单元1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出单元1107；包括硬盘等的存储单元1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信单元1109。通信单元1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储单元1108。

参考图12所示，描述了根据本发明的实施方式的设置为实现上述方法的程序产品120，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如图1-7中所示的功能。

以上具体地示出和描述了本发明的示例性实施方式。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种用于全基因组重测序分析的方法，应用于第一软件，其特征在于，包括：

获取对待检测样本的DNA序列进行识别所得到的多条测序序列；

将所述多条测序序列分成多个测序序列组；

基于每个测序序列组，所述第一软件并行地执行如下操作：并行地将所述测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，包括：并行地对所述测序序列组中的各条测序序列执行模糊匹配与回溯操作；所述模糊匹配与回溯操作包括：基于映射关系确定与所述参考基因组上至少一个对应片段完全匹配的子串；以及基于所述子串，将所述测序序列分别与所述至少一个对应片段对齐，确定出所述子串外的碱基相似度满足预设阈值的对应片段；以及

根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，所述第一软件对各条测序序列进行排序和去重，生成对应各染色体的测序序列库，包括：基于每个测序序列组，并行地执行如下操作：并行地将所述测序序列组中的各条测序序列缓存至其所述第一软件的内存中的所属染色体中。

2.根据权利要求1所述的方法，其特征在于，根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库还包括：

基于每个测序序列组，并行地执行如下操作：根据所述测序序列组中各条测序序列对应的染色体编号，确定每条测序序列的所属染色体；以及

基于每个染色体，并行地执行如下操作：根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次地对各条测序序列进行排序和去重，生成对应所述染色体的测序序列库。

3.根据权利要求1所述的方法，其特征在于，根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，对各条测序序列进行排序和去重，生成对应各染色体的测序序列库还包括：

基于每个测序序列组，并行地执行如下操作：根据所述测序序列组中的各条测序序列在所述参考基因组上的对应位置，并行地对各条测序序列进行排序，并根据各条测序序列对应的染色体编号，并行地确定每条测序序列的所属染色体；以及

基于每个染色体，并行地执行如下操作：根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次地对各条测序序列进行去重，生成对应所述染色体的测序序列库。

4.根据权利要求1-3任一项所述的方法，其特征在于，各测序序列组中测序序列的数目相等。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述测序序列组的数量与所述待检测样本的染色体数量相等。

6.根据权利要求1所述的方法，其特征在于，所述模糊匹配与回溯操作基于现场可编程逻辑门阵列实现。

7.根据权利要求1所述的方法，其特征在于，根据所述染色体中各条测序序列在所述参考基因组上的对应位置，对各条测序序列进行排序和去重还包括：

从对应所述染色体的缓存中，获取所述染色体中的各条测序序列；及

根据所述染色体中各条测序序列在所述参考基因组上的对应位置，依次进行排序，同时删除在所述参考基因组上同一对应位置的重复测序序列。

8.根据权利要求1所述的方法，其特征在于，根据所述染色体中各条测序序列在所述参考基因组上的对应位置，对各条测序序列进行去重还包括：

删除来源于所述染色体且在所述参考基因组上同一对应位置的重复测序序列。

9.一种全基因组重测序分析方法，其特征在于，包括：

分别接收根据权利要求1-8任一项所述方法生成的对应各染色体的测序序列库中的多条测序序列；

基于每个染色体，并行地执行如下操作：依次对来源于所述染色体中的各条测序序列进行碱基质量值校正；以及依次将校正后的各条测序序列与参考基因组进行基因变异识别，分析确定待检测样本的基因组与所述参考基因组的变异集合。

10.根据权利要求9所述的方法，其特征在于，依次对来源于所述染色体中的各条测序序列进行碱基质量值校正包括：

对于来源于所述染色体中的所有测序序列，统计与所述参考基因组上对应碱基不同的多个碱基比例；以及

根据所述多个碱基比例，确定每条测序序列中各碱基的校正质量值。

11.根据权利要求9所述的方法，其特征在于，依次将校正后的各条测序序列与参考基因组进行基因变异识别包括：

对于来源于所述染色体中的所有校正后的测序序列，确定相对于所述参考基因组的多个潜在变异位置；

依次将每条校正后的测序序列中对应所述多个潜在变异位置的多个碱基按序组合，确定所述参考基因组的多个单倍体基因型；以及

基于成对马尔科夫链对比算法，依次对所述每条校正后的测序序列与每个单倍体基因型执行配对操作，以分别确定其相似度。

12.根据权利要求11所述的方法，其特征在于，所述配对操作基于现场可编程逻辑门阵列实现。

13.一种用于全基因组重测序分析的装置，应用于第一软件，其特征在于，包括：

样本获取模块，用于获取对待检测样本的DNA序列进行识别所得到的多条测序序列；

序列分组模块，用于将所述多条测序序列分成多个测序序列组；

序列对比模块，用于基于每个测序序列组，所述第一软件并行地执行如下操作：并行地将所述测序序列组中的各条测序序列与参考基因组进行测序序列对比，确定每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，包括：并行地对所述测序序列组中的各条测序序列执行模糊匹配与回溯操作；所述模糊匹配与回溯操作包括：基于映射关系确定与所述参考基因组上至少一个对应片段完全匹配的子串；以及基于所述子串，将所述测序序列分别与所述至少一个对应片段对齐，确定出所述子串外的碱基相似度满足预设阈值的对应片段；以及

排序去重模块，用于根据每条测序序列在所述参考基因组上的对应位置及对应的染色体编号，所述第一软件对各条测序序列进行排序和去重，生成对应各染色体的测序序列库，包括：基于每个测序序列组，并行地执行如下操作：并行地将所述测序序列组中的各条测序序列缓存至其所述第一软件的内存中的所属染色体中。

14.一种全基因组重测序分析装置，其特征在于，包括：

序列接收模块，用于分别接收根据权利要求13所述装置生成的对应各染色体的测序序列库中的多条测序序列；

序列质控模块，用于基于每个染色体，并行地执行如下操作：依次对来源于所述染色体中的各条测序序列进行碱基质量值校正；以及

变异识别模块，用于基于每个染色体，并行地执行如下操作：依次将校正后的各条测序序列与参考基因组进行基因变异识别，分析确定待检测样本的基因组与所述参考基因组的变异集合。

15.一种电子设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求1-12任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-12任一项所述的方法。