CN111445952B

CN111445952B - 超长基因序列的相似性快速比对方法及系统

Info

Publication number: CN111445952B
Application number: CN202010218462.6A
Authority: CN
Inventors: 刘卫国; 秦梓恒; 殷泽坤; 徐晓明; 刘美洋
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2024-01-26
Anticipated expiration: 2040-03-25
Also published as: CN111445952A

Abstract

本公开公开了超长基因序列的相似性快速比对方法及系统，获取超长参考基因序列；对超长参考基因序列构建增强型系数后缀数组ESSA；获取超长待查询基因序列；对超长待查询基因序列构建增强型系数后缀数组ESSA；将超长参考基因序列的增强型系数后缀数组ESSA，与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配，匹配出重叠部分MEM；对二者的重叠部分MEM进行去冗余处理，得到最大唯一匹配部分MUM；对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算，将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型。

Description

超长基因序列的相似性快速比对方法及系统

技术领域

本公开涉及基因相似性比对技术领域，特别是涉及超长基因序列的相似性快速比对方法及系统。

背景技术

本部分的陈述仅仅是提到了与本公开相关的背景技术，并不必然构成现有技术。

在生物信息学领域，随着高通量测序技术的发展，当前得到的大规模数据集往往会超出许多现有软件对于输入序列的最大长度限制，并且对于大规模范围的数据现有方法往往需要更长的处理时间。

在实现本公开的过程中，发明人发现现有技术中存在以下技术问题：

现有方法的单线程处理能力、对输入序列长度大小的约束，限制了序列比对的效率。

发明内容

为了解决现有技术的不足，本公开提供了超长基因序列的相似性快速比对方法及系统；

第一方面，本公开提供了超长基因序列的相似性快速比对方法；

超长基因序列的相似性快速比对方法，包括：

获取超长参考基因序列；对超长参考基因序列构建增强型系数后缀数组ESSA；

获取超长待查询基因序列；对超长待查询基因序列构建增强型系数后缀数组ESSA；

将超长参考基因序列的增强型系数后缀数组ESSA，与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配，匹配出重叠部分MEM；

对二者的重叠部分MEM进行去冗余处理，得到最大唯一匹配部分MUM；

对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算，将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型。

第二方面，本公开还提供了超长基因序列的相似性快速比对系统；

超长基因序列的相似性快速比对系统，包括：

第一获取模块，其被配置为：获取超长参考基因序列；对超长参考基因序列构建增强型系数后缀数组ESSA；

第二获取模块，其被配置为：获取超长待查询基因序列；对超长待查询基因序列构建增强型系数后缀数组ESSA；

匹配模块，其被配置为：将超长参考基因序列的增强型系数后缀数组ESSA，与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配，匹配出重叠部分MEM；

去冗余模块，其被配置为：对二者的重叠部分MEM进行去冗余处理，得到最大唯一匹配部分MUM；

分类模块，其被配置为：对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算，将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型。

第三方面，本公开还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述方法的步骤。

与现有技术相比，本公开的有益效果是：

1.通过比较现有序列比对方法发现大多方法采用的数据结构是稀疏后缀数组，为了能够更好的进行长序列相似度比对，我们使用了增强型稀疏后缀数组(Enhanced SparseSuffix Array，以下简称ESSA)。ESSA是存储生物序列结构的算法，可以用于基因组比较和读取基因图谱。该算法使用稀疏子数组增强了现有的稀疏后缀数组实现，而且通过测试发现，在保持相同内存占用量的情况下，使用增强型稀疏后缀数组算法查找最大精确匹配要比使用其它存储结构算法快得多。

2.使用增强型稀疏后缀数组算法解决了对输入序列长度的限制；

3.结合使用MUMi的相似度计算公式，实现了快速相似度计算；

4.在多核平台上实现了序列比对的多线程版本，缩短序列比对的时间。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的方法流程图；

图2(a)、图2(b)和图2(c)为第一个实施例的MUM去重的三种情况；

图3为第一个实施例的多线程及并行化结果。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

英文缩写解释：

MEM(Maximal exact match，以下简称MEM)，即最大的精确匹配；

MUM(Maximal unique match，以下简称MUM)，即最大唯一匹配；

实施例一，本实施例提供了超长基因序列的相似性快速比对方法；

如图1所示，超长基因序列的相似性快速比对方法，包括：

S1：获取超长参考基因序列；对超长参考基因序列构建增强型系数后缀数组ESSA；

S2：获取超长待查询基因序列；对超长待查询基因序列构建增强型系数后缀数组ESSA；

S3：将超长参考基因序列的增强型系数后缀数组ESSA，与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配，匹配出重叠部分MEM；

S4：对二者的重叠部分MEM进行去冗余处理，得到最大唯一匹配部分MUM；

S5：对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算，将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型。

应理解的，所述超长参考基因序列，是指：基因组超过1GB的基因序列。

作为一个或多个实施例，所述对超长参考基因序列构建增强型系数后缀数组ESSA；是指构建4个类型的数组，分别是后缀数组Suffix，最长公共前缀数组(LongestCommon Prefix，以下简称LCP)，后缀链接数组(Suffixed link Array)以及子数组(ChildArray)。

所述后缀数组(Suffix)，是指：对序列的所有后缀经过排序之后得到的数组；

所述最长公共前缀数组(Longest Common Prefix，以下简称LCP)，是指：LCP是一个一维数组，保存了相邻两个后缀的最长公共前缀。

所述后缀链接数组(Suffixed link Array)，是指：存储了后缀的起始位置和结束位置，以及后缀的长度的数组。

所述子数组(Child Array)，是指：是一个索引范围从0到n、大小为n+1的数组，每个数组元素存储三个值：up，down，next-index。

LCP的计算方法就是算相邻两个后缀之间的最长公共前缀的长度，即计算LCP(i)＝(suffix(SA[i]),suffix(SA[i-1]))(i>0)的长度。如果i＝0那么LCP(0)＝0.

Child各个变量的计算方法：

作为一个或多个实施例，所述对超长参考基因序列构建增强型系数后缀数组ESSA；具体步骤包括：先将超长参考基因划分成若干个核苷酸序列kmer，然后根据划分好的核苷酸序列kmer进行构建四个类型的数组：后缀数组、最长公共前缀数组LCP、后缀链接数组以及子数组。

进一步的，对于初始ESSA数组，通过构造稀疏子表的方法，在最长公共前缀数组LCP中引入稀疏因子，在保证其它定义不变的情况下，只需要修改最长公共前缀数组LCP的间隔便能够构建ESSA。

应理解的，传统的存储生物序列的结构算法通常采用后缀树(Suffix Tree，以下简称ST)、后缀数组(Suffix Array，以下简称SA)或者增强型后缀数组(Enhanced SuffixArray，以下简称ESA)等。其中ST是允许进行快速序列分析的基本数据结构，该索引结构能够在线性时间内实现大多数处理序列算法。SA可以将后缀树替换为内存效率更高但灵活性有所降低的索引结构。ESA则是通过在SA基础上增添三个额外的数组，分别为最长公共前缀(Longest Common Prefix，以下简称LCP)、子数组和后缀链接数组，以形成更加灵活的检索方式。

作为一个或多个实施例，所述将超长参考基因序列的增强型系数后缀数组ESSA，与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配，匹配出重叠部分MEM；具体步骤包括：

将超长待查询基因序列的增强型系数后缀数组ESSA同超长参考基因序列的增强型系数后缀数组ESSA进行匹配，直到出现错配或者达到所规定的重叠部分MEM最小长度，输出重叠部分MEM。

进一步地，对于长度为n的参考序列R和长度为m的查询序列Q，R的稀疏因子是K，Q的稀疏因子是s，通过MEM-finding算法得到R和Q之间满足最小长度L的MEM。

进一步地，匹配出重叠部分MEM的具体操作是：构造稀疏因子是K的参考序列的ESSA以及稀疏因子是s的查询序列的ESSA，然后设置步长是offset，步长的取值范围是0到K-1，当步长小于m-(K-offset)时，就用该数组和最长公共前缀数组LCP一起模拟稀疏后缀树的遍历过程，或者使用二分搜索算法进行遍历查找，直到出现错配或者得到所规定的最小长度，输出MEM。

应理解的，作为一个或多个实施例，所述将超长参考基因序列的增强型系数后缀数组ESSA，与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配，匹配出重叠部分MEM；采用MEM查找算法来完成。

在MEM查找算法的匹配阶段，将超长待查询基因序列Q大小为O(m)的后缀与超长参考基因序列R大小为O(n/k)的索引进行比较。

应理解的，为减少内存占用，需要使用高效的查找最大精确匹配(Maximum ExactMatches，以下简称MEMs)的算法。ESSA使用的方法是基于MEM的索引查找算法，该方法是将一个序列与另一个序列的索引相匹配，它优势在于通过索引部分序列的后缀或压缩后缀数组来降低算法对于内存的需求，另外就是构造索引的可重用性。

目前，所有已知的基于索引且高效使用内存查找MEMs的算法基本都采取以下步骤查找：

(i)为参考序列R构造索引结构并计算查询序列Q的后缀；

(ii)将查询序列Q的所有后缀与参考序列R构造的索引进行匹配，直到出现错配；

(iii)检查可能的匹配是否存在最大限制。

而且MEMs的计算的时间复杂度是线性时间而不是依赖于查询序列长度m的平方时间。

应理解的，现有的模拟后缀链接算法可以与稀疏子数组集合使用，但是稀疏后缀数组会减少不止一个后缀链接的LCP值，所以原基于SSA的算法或者ESSA算法产生的LCP值会小于相应LCP区间的LCP值。虽然后缀链接和稀疏子数组可以组合在增强型稀疏后缀数组中，但这种组合并不会进一步缩短MEMs查找算法的执行时间。因此我们选择了对查询序列进行系数优化。

作为一个或多个实施例，对超长参考基因序列的MUM和超长待查询基因序列的MUM进行相似度计算；具体步骤包括：

相似度距离MUMi的计算方法为：

MUMi＝1-L_mum/L_av

其中，L_mum是MUM的长度之和，L_av是超长参考基因序列的长度与超长待查询基因序列长度的平均值。

如果MUM接近0则表示基因组序列非常相似，而MUM值接近1则表示基因组序列相似度较低。MUM的一个重要处理应用于消除MUM之间的所有重叠，这使得该MUM值不会变为负值。

应理解的，MUM(Maximum Unique Match)指的是两条基因序列间最大唯一精确匹配(即MEM去重之后所得到的即为MUM)，而我们所定义的快速算法，是指在考虑到目标基因组的正向和反向链情况下，能够在几秒钟内计算出两个基因组相同的所有匹配列表。我们定义的MUMi是基因相似度的衡量指标，其计算是基于后缀数组的，并且后缀数组的构建在线性时间和线性空间内。

通过使用ESSA所得到的匹配可能不是唯一的，因为唯一性标准是在目标基因组的正向链和反向链上进行独立检查，然后再与查询序列进行比较。所以，这就说明存在需要删除或修剪的重叠片段,我们也称这类重叠片段为Overlap。

现有的研究中，我们可以使用最初为BLAST输出设计的用于修建重叠片段的精确解决方案，然而，该方案是非常复杂且耗时的。因为MUMs在被比较的两个基因组上，且被命中的长度是相同的，所以关于的MUMs问题不那么复杂。因此，我们通过设计去重步骤得到一个近似解。

如图2(a)、图2(b)和图2(c)所示，

(1)处理g1(或g2)中出现部分重叠的MEM。具体做法是，我们要按照MEM在g1(或g2)序列上的最初位置来排序，并且从列表的最后一个元素开始，每个MEM都会与其相邻MEM进行比较。在重叠的情况下，相对在左边的MEM的末端被修剪，即它在g1和g2上的末端坐标都被移动。因此，在g1(或g2)上不存在重叠，从而得到MUM；

(2)如果存在g1(或g2)的MEM包含于(1)中产生的MUM，那么直接移除该MEM；

(3)移除g1(或g2)上的坐标完全包含在两个相邻MEM的MEM。

现在最常见的基因序列比对任务是将多个查询序列同参考基因组进行比对,对此我们在查询序列的级别上引入了并行性，允许其中多个查询序列同时与参考序列比对。当比对大量的查询序列时，该方法可以实现高水平的并发性，且该并发性仅受多核平台上核心数量的限制。另一方面，如果查询序列只包含少量超长生物序列(例如整个染色体)，则方法的并发性只受查询序列集中序列数的限制。若将单个查询序列与参考序列进行比对，查询序列并行性不会显示出任何的优越性。

此外，我们用更快的库DIVSUFSORT替换了ESSA中的QSUFSORT后缀数组构造代码。在构建后缀数组之后，我们分析查询序列并使用无锁的先进先出(FIFO)队列将它们逐个传递给工作线程。每个工作线程准确计算比对结果，然后对其进行聚类，并为其单个查询序列运行Smith-Waterman中的例程。

最后我们将结果输出到磁盘，再次使用无锁FIFO队列同步不同线程的写入。默认输出以delta格式显示，但是由于多线程操作，输出文件中的序列顺序没有被严格保留，并且在运行当中可能会有所不同。因此，经过多线程修改后在输出文件中的显示顺序可能不同，但是并不影响结果的正确性。

结合使用上述方法实现了在大规模基因数据的快速相似度比对，测试的实验数据集以及大小如表1所示。

表1序列比对的数据集

通过与现有多个比对工具进行同样数据集测试可以得到结果如表2所示。

表2使用多个比对工具比对两基因序列的时间、内存占用情况

使用多线程进行序列比对数据集处理时，得到了接近于线性的加速比，结果如图3所示。

实施例二，本实施例还提供了超长基因序列的相似性快速比对系统；

超长基因序列的相似性快速比对系统，包括：

实施例三，本实施例还提供了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一所述方法的步骤。

实施例四，本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述方法的步骤。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.超长基因序列的相似性快速比对方法，其特征是，包括：

获取超长参考基因序列；对超长参考基因序列构建增强型稀疏后缀数组ESSA；

获取超长待查询基因序列；对超长待查询基因序列构建增强型稀疏后缀数组ESSA；

将超长参考基因序列的增强型稀疏后缀数组ESSA，与超长待查询基因序列的增强型稀疏后缀数组ESSA进行匹配，匹配出重叠部分MEM；

所述将超长参考基因序列的增强型稀疏后缀数组ESSA，与超长待查询基因序列的增强型稀疏后缀数组ESSA进行匹配，匹配出重叠部分MEM；具体步骤包括：

将超长待查询基因序列的增强型稀疏后缀数组ESSA同超长参考基因序列的增强型稀疏后缀数组ESSA进行匹配，直到出现错配或者达到所规定的重叠部分MEM最小长度，输出重叠部分MEM；

匹配出重叠部分MEM的操作是：

构造稀疏因子是K的参考序列的ESSA以及稀疏因子是s的查询序列的ESSA，然后设置步长是offset，步长的取值范围是0到K-1，当步长小于m-(K-offset)时，就用该数组和最长公共前缀数组LCP一起模拟稀疏后缀树的遍历过程，或者使用二分搜索算法进行遍历查找，直到出现错配或者得到所规定的最小长度，输出MEM；

对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算，将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型；

对超长参考基因序列的MUM和超长待查询基因序列的MUM进行相似度计算；具体步骤包括：

相似度距离MUMi的计算方法为：

MUMi＝1-L_mum/L_av

2.如权利要求1所述的方法，其特征是，所述对超长参考基因序列构建增强型稀疏后缀数组ESSA；是指构建4个类型的数组，分别是后缀数组Suffix、最长公共前缀数组、后缀链接数组以及子数组。

3.如权利要求1所述的方法，其特征是，所述对超长参考基因序列构建增强型稀疏后缀数组ESSA；具体步骤包括：先将超长参考基因划分成若干个核苷酸序列kmer，然后根据划分好的核苷酸序列kmer进行构建四个类型的数组：后缀数组、最长公共前缀数组LCP、后缀链接数组以及子数组。

4.如权利要求1所述的方法，其特征是，对于长度为n的参考序列R和长度为m的查询序列Q，R的稀疏因子是K，Q的稀疏因子是s，通过MEM-finding算法得到R和Q之间满足最小长度L的MEM。

5.超长基因序列的相似性快速比对系统，其特征是，包括：

第一获取模块，其被配置为：获取超长参考基因序列；对超长参考基因序列构建增强型稀疏后缀数组ESSA；

第二获取模块，其被配置为：获取超长待查询基因序列；对超长待查询基因序列构建增强型稀疏后缀数组ESSA；

匹配模块，其被配置为：将超长参考基因序列的增强型稀疏后缀数组ESSA，与超长待查询基因序列的增强型稀疏后缀数组ESSA进行匹配，匹配出重叠部分MEM；

匹配出重叠部分MEM的操作是：

分类模块，其被配置为：对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算，将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型；

相似度距离MUMi的计算方法为：

MUMi＝1-L_mum/L_av

6.一种电子设备，其特征是，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-4任一项方法所述的步骤。

7.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-4任一项方法所述的步骤。