CN115862744A

CN115862744A - 一种基于关系图建立的全基因组并行拼接方法

Info

Publication number: CN115862744A
Application number: CN202211705764.1A
Authority: CN
Inventors: 刘珍; 张峰
Original assignee: Harbin Yinji Technology Co ltd
Current assignee: Harbin Yinji Technology Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-03-28
Anticipated expiration: 2042-12-28
Also published as: CN115862744B

Abstract

本发明提供了一种基于关系图建立的全基因组并行拼接方法，对基因组测序得到基因片段序列，基于所述基因片段序列构建片段关系图；基于所述片段关系图进行基因片段序列的分割，得到分割后的多个子集片段数据；将分割后的多个子集片段数据分发给多个接收点，接收点同步执行三次扫描过程，实现并行拼接。本发明更好地保留并连接独特序列，对更多的重复序列进行屏蔽，就能更多地降低其对拼接的干扰，实现并行拼接方法。

Description

一种基于关系图建立的全基因组并行拼接方法

技术领域

本发明属于基因组数据分析技术领域，具体涉及到一种基于关系图建立的全基因组并行拼接方法。

背景技术

基因组学是一种不需要进行微生物培养的微生物研究方法，可以直接对取自环境中的微生物样品进行分析和研究，该技术的出现使得人们对占微生物99％的不可培养微生物的研究成为现实。基因组技术首先需要对环境样品进行基因提取和测序，再通过计算机软件对测序结果进行分析。由于宏基因组中提取的基因为多个物种(包括未知物种)的多个基因的混合，在宏基因组数据中找出每个物种的基因组序列是一件非常复杂的工作。

目前，基因组基因的分析方法主要依赖于宏基因组中的基因与参考基因组的比对，参考基因组中仅包含少量已知物种的基因以及一些基因片段，并不完整，而且来自同一物种不同分离物的微生物基因组在比较时，通常也会显示出较大的差异性。可见，依赖于占微生物系统中一小部分已知微生物基因的参考基因组，不但给宏基因组基因分析带来一定的局限性，而且无法描述微生物中的未知物种。

由于新一代高通量低成本测序技术的广泛应用，科学家们可以对环境中的全基因组进行测序，特别是下一代测序技术(NGS)的发展，产生庞大的宏基因组序列数据。这些海量数据的存储以及分析给研究人员带来前所未有的挑战，为了分析这些宏基因组序列，通常将构成宏基因组序列的核苷酸序列(例如DNA或RNA序列)组装成重叠群的较大序列，但传统宏基因组序列组装方法基本上都是基于单台计算机运行，需要在单台机器上对所有测序数据同时进行处理，而来自下一代测序平台的测序数据数量通常非常大，一个数据集中往往包含多个微生物物种，这样的测序数据不仅数据量大，而且测序数据也非常复杂。受限于单台计算机的内存和计算资源，传统组装方法不仅效率低下，而且组装完整度较低，并且随着数据量的增大可能无法完成运算。

发明内容

为了解决上述技术问题，本发明提出了一种基于关系图建立的全基因组并行拼接方法，包括如下步骤：

步骤一，对基因组测序得到基因片段序列，基于所述基因片段序列构建片段关系图；

步骤二，基于所述片段关系图进行基因片段序列的分割，得到分割后的多个子集片段数据；

步骤三：将分割后的多个子集片段数据分发给多个接收点，接收点同步执行三次扫描过程，实现并行拼接。

进一步地，所述步骤一中，所述片段关系图的构建方法如下：

将每个基因片段看成一个顶点，若两个基因片段之间存在重叠碱基，那么两个顶点间存在一条边相连；设V为片段关系图G的顶点集，V＝(v₁,v₂,…,v_i,…，v_n)，E为片段关系图G的边集，E＝(e₁,e₂,…,e_i,…，e_n)，W为片段关系图G的权重集W＝(w₁,w₂,…,w₂,…,w_n)。

进一步地，步骤二包括如下步骤：

S2.1，生成边的重复指数C(e_i)，用下式表示：

C(e_i)＝{[αL(e_i)+βl(e_i)]×kw_i}×M；

其中，α、β、k为特征系数，L为单个重复部分碱基长度，l为碱基间隙，M为单个碱基质量；

S2.2，将大于分割阈值的重复指数所代表的边作为被分割的边，生成分割路径，将片段关系图分割成多个子集片段数据。

进一步地，步骤三包括如下步骤：

S3.1,将步骤二中分割后的子集片段数据分发给各个接收点对数据进行计算和处理；

S3.2,每个接收点接收分割后的子集片段数据，对接收到的子集片段数据并行执行一次扫描，扫描完成后执行数据同步操作，并对特征基因片段出现次数及出现位置作全局归约操作；

S3.3,每个数据接收点对子集片段数据并行执行二次扫描，执行数据同步操作，在各个接收点间交换所有特征基因片段中被选择出来用做拼接的重叠信息；

S3.4,每个数据接收点对子集片段数据并行执行三次扫描，对所述重叠信息在各自子集片段数据出现的位置作全局归约操作；

S3.5，各个接收点根据所述重叠信息拼接各自的子集片段数据；

S3.6，按照步骤S2.2中的分割路径，将各个接收点拼接好子集片段数据进行总拼接。

进一步地，在所有的基因片段序列中，定义偏移量最小的基因片段为片段关系图G的起始节点，偏移量最大的基因片段为片段关系图G的终止节点，从起始节点开始每间隔若干个基因片段定义为片段关系图G的节点。

进一步地，两个基因片段之间的重叠部分定义为两个节点之间的单向边，边的方向与起始节点到终止节点的方向相同。

进一步地，边的权重w_i为两个基因片段之间的重叠碱基的质量值之和。

相比于现有技术，本发明具有如下有益技术特征：

建立基因序列片段关系图，基于片段关系图，将数据划分问题转化图划分问题；图划分可以提高拼接效率，更好地保留并连接独特序列，对更多的重复序列进行屏蔽，就能更多地降低其对拼接的干扰；并行拼接方法能够并行且直接将基因片段高速拼接。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的基于关系图分割基因片段的流程示意图。

图2为本发明的二等分的片段关系图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本发明的具体实施例附图中，为了更好、更清楚的描述系统中的各元件的工作原理，表现所述装置中各部分的连接关系，只是明显区分了各元件之间的相对位置关系，并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。

如图1所示，为本发明的基于关系图建立的全基因组并行拼接方法的流程示意图，包括如下步骤：

步骤一、通过对基因组测序得到基因片段序列，基于基因片段序列构建片段关系图。

S1.1,通过对基因组测序得到基因片段序列。

基因组是指生物体单体中一套完整的遗传物质，即全部基因的总称，包括编码区和非编码区，可以认为基因组就是生物所含DNA分子的全部序列。

传统的测序方法，根据目前可以用测序仪直接测出序列的长度水平和基因组本身的特性，将样品中重复的DNA序列打断成小片段，再用测序仪测出小片段的序列，所得的每个片段的序列称为一个read，将重叠区域称为overlap；最后根据这些read间的overlap将它们拼接成原来的DNA序列的一个或多个较长的连续段，将连续段称为contig，拼成contig的过程称为layout。

具体地，根据在某一固定的位点开始核苷酸链的延伸，随机在某一个特定的碱基处终止，产生以A、T、C、G为末端的四组不同长度的一系列基因片段。线性扫描所有的基因片段，将特征片段数据按其类型向各个接收点进行派发，之后各个接收点对其进行并行扫描，每次扫描结束后都进行全局范围的通信和同步，以确保准确性。

S1.2，基于基因片段序列构建片段关系图。

将从S1.1中测序得到的所有基因片段数据建立成一个片段关系图G，每个片段看成一个顶点，如果两个片段之间存在重叠碱基，那么存在一条边将顶点相连。

建立起片段关系图G(V,E)。设V为G的顶点集，V＝(v₁,v₂,…,v_i,…，v_n)，E为G的边集，E＝(e₁,e₂,…,e_i,…，e_n)，W为G的边权重集W＝(w₁,w₂,…,w₂,…,w_n)。

对于顶点v_i，在所有的基因片段序列中，定义偏移量最小的基因片段为片段关系图G的起始节点，偏移量最大的基因片段为片段关系图G的终止节点，从起始节点开始每间隔若干个片段定义为片段关系图G的节点，若干个基因片段之间可以存在重叠部分。

对于边e_i，两个基因片段之间的重叠部分定义为两个节点之间的单向边，边的方向与起始节点到终止节点的方向相同。

对于边的权重w_i，为两个基因片段之间的重叠部分中所有碱基所对应的质量值之和。

其中顶点v_i∈G，e_i∈G。

本发明基于建立起片段关系图，划分基因片段序列，打破“重叠-排列-生成共有序列”的传统方法，使用更简单直接的数学模型，节约存储空间并提高程序的拼接效率。

步骤二、基于片段关系图进行基因片段序列的分割，得到分割后的多个子集片段数据。

S2.1,生成边的重复指数C(e_i)。

两个顶点所代表的片段间重复部分越多,边的重复指数C(e_i)越大，C(e_i)可用下式表示：

C(e_i)＝{[αL(e_i)+βl(e_i)]×kw_i}×M (1)；

其中，α、β、k为特征系数，L为单个重复部分碱基长度，l为碱基间隙，M为单个碱基质量。

设分割阈值为C_T，将大于分割阈值C_T的重复指数C(e_i)所代表的边e_i确定为被分割的边，如图2中被虚线通过的边。

如图2所示，是以二等分的片段关系图为例。1-6为片段关系图的顶点，每个顶点由一条单向边相连，虚线表示分割关系，将整个片段关系图分割成S和T两个子集。如果删除被分割的边后，两个子集不再相通。

基因片段序列分割之后，还要进行并行拼接，通过建立片段关系图分割基因片段序列的目的，就是为了提高拼接效率，更好地保留并连接独特序列，对更多的重复序列进行屏蔽，就能更多地降低其对拼接的干扰。因此分割时，将数据分割问题转化为关系图分割问题，在分割片段关系图时，原则是：要找到合理的分割路径，并把路径上的边去掉，由此来把片段关系图分割开，即如图2所示，将一个片段G分割成S、T两个片段。在关系图中，无论有多少重复部分，都可以用一条边来表示，也就是实现了屏蔽重复部分的功能。如公式(1)所示，边的重复指数越大，表示其包含的重复部分碱基越多。

步骤三、将分割后的多个子集片段数据分发给多个接收点，接收点同步执行三次扫描过程，实现拼接。

本发明将并行拼接的重点放在最耗时的重叠部分的处理过程，将所有子集片段数据平均分发给不同的接收点，并行进行三次扫描数据的过程。

S3.2,每个接收点接收分割后的子集片段数据，对接收到的子集片段数据并行执行一次扫描，扫描完成后执行数据同步操作，并对特征基因片段出现次数及出现位置作全局归约操作。

数据同步操作是基于每次操作都要以前一次的扫描的全局结果作为参考，因此在每一次扫描结束后至少需要一次全局范围的通信和各个接收点间的数据同步。全局规约操作即每个接收点都存有一份完整的全局特征片段数据，通过接收点间的高带宽网络等以去中心化的方式进行特征片段数据的同步。

S3.3,每个数据接收点，对子集片段数据并行执行二次扫描，执行数据同步操作，在各个接收点间交换所有特征片段中被选择出来用做拼接的重叠信息。

S3.4,每个数据接收点，对子集片段数据并行执行三次扫描，对被选择出来用做拼接的重叠信息出现的位置作全局归约操作，为拼接提供数据支持。

将所有片段数据平均分发给不同的接收点，这种大粒度的数据划分具有很高的并行性，最终达到合理划分数据的目的，同时，使用并行扫描处理片段信息，提高了处理数据的效率。

S3.5，各个接收点根据用做拼接的重叠信息，拼接各自的子集片段数据。

S3.6，按照步骤S2.2中的分割路径，进行各个接收点拼接好子集片段数据进行总拼接。

其中质量值是指，在一般的生物信息数据库中，对于自动测序仪测出的碱基序列都会有相应的质量值序列，质量值取值为1～99。它可以理解为测序仪测出的某个碱基的可信度，质量值越大则可信度越大。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于关系图建立的全基因组并行拼接方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的全基因组并行拼接方法，其特征在于，所述步骤一中，所述片段关系图的构建方法如下：

将每个基因片段看成一个顶点，若两个基因片段之间存在重叠碱基，那么两个顶点间存在一条边相连；设V为片段关系图G的顶点集，V＝(v₁，v₂，…，v_i，…，v_n)，E为片段关系图G的边集，E＝(e₁，e₂，…，e_i，…，e_n)，W为片段关系图G的权重集W＝(w₁，w₂，…，w₂，…，w_n)。

3.根据权利要求1所述的全基因组并行拼接方法，其特征在于，步骤二包括如下步骤：

S2.1，生成边的重复指数C(e_i)，用下式表示：

C(e_i)＝{[αL(e_i)+βl(e_i)]×kw_i}×M；

4.根据权利要求3所述的全基因组并行拼接方法，其特征在于，步骤三包括如下步骤：

S3.1，将步骤二中分割后的子集片段数据分发给各个接收点对数据进行计算和处理；

S3.2，每个接收点接收分割后的子集片段数据，对接收到的子集片段数据并行执行一次扫描，扫描完成后执行数据同步操作，并对特征基因片段出现次数及出现位置作全局归约操作；

S3.3，每个数据接收点对子集片段数据并行执行二次扫描，执行数据同步操作，在各个接收点间交换所有特征基因片段中被选择出来用做拼接的重叠信息；

S3.4，每个数据接收点对子集片段数据并行执行三次扫描，对所述重叠信息在各自子集片段数据出现的位置作全局归约操作；

5.根据权利要求2所述的全基因组并行拼接方法，其特征在于，在所有的基因片段序列中，定义偏移量最小的基因片段为片段关系图G的起始节点，偏移量最大的基因片段为片段关系图G的终止节点，从起始节点开始每间隔若干个基因片段定义为片段关系图G的节点。

6.根据权利要求2所述的全基因组并行拼接方法，其特征在于，两个基因片段之间的重叠部分定义为两个节点之间的单向边，边的方向与起始节点到终止节点的方向相同。

7.根据权利要求2所述的全基因组并行拼接方法，其特征在于，边的权重wi为两个基因片段之间的重叠碱基的质量值之和。