CN111445952B - 超长基因序列的相似性快速比对方法及系统 - Google Patents
超长基因序列的相似性快速比对方法及系统 Download PDFInfo
- Publication number
- CN111445952B CN111445952B CN202010218462.6A CN202010218462A CN111445952B CN 111445952 B CN111445952 B CN 111445952B CN 202010218462 A CN202010218462 A CN 202010218462A CN 111445952 B CN111445952 B CN 111445952B
- Authority
- CN
- China
- Prior art keywords
- ultra
- gene sequence
- long
- essa
- array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 230000008030 elimination Effects 0.000 claims abstract description 10
- 238000003379 elimination reaction Methods 0.000 claims abstract description 10
- 238000003491 array Methods 0.000 claims description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 5
- 238000010845 search algorithm Methods 0.000 claims description 3
- 238000002864 sequence alignment Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本公开公开了超长基因序列的相似性快速比对方法及系统,获取超长参考基因序列;对超长参考基因序列构建增强型系数后缀数组ESSA;获取超长待查询基因序列;对超长待查询基因序列构建增强型系数后缀数组ESSA;将超长参考基因序列的增强型系数后缀数组ESSA,与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配,匹配出重叠部分MEM;对二者的重叠部分MEM进行去冗余处理,得到最大唯一匹配部分MUM;对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算,将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型。
Description
技术领域
本公开涉及基因相似性比对技术领域,特别是涉及超长基因序列的相似性快速比对方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
在生物信息学领域,随着高通量测序技术的发展,当前得到的大规模数据集往往会超出许多现有软件对于输入序列的最大长度限制,并且对于大规模范围的数据现有方法往往需要更长的处理时间。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
现有方法的单线程处理能力、对输入序列长度大小的约束,限制了序列比对的效率。
发明内容
为了解决现有技术的不足,本公开提供了超长基因序列的相似性快速比对方法及系统;
第一方面,本公开提供了超长基因序列的相似性快速比对方法;
超长基因序列的相似性快速比对方法,包括:
获取超长参考基因序列;对超长参考基因序列构建增强型系数后缀数组ESSA;
获取超长待查询基因序列;对超长待查询基因序列构建增强型系数后缀数组ESSA;
将超长参考基因序列的增强型系数后缀数组ESSA,与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配,匹配出重叠部分MEM;
对二者的重叠部分MEM进行去冗余处理,得到最大唯一匹配部分MUM;
对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算,将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型。
第二方面,本公开还提供了超长基因序列的相似性快速比对系统;
超长基因序列的相似性快速比对系统,包括:
第一获取模块,其被配置为:获取超长参考基因序列;对超长参考基因序列构建增强型系数后缀数组ESSA;
第二获取模块,其被配置为:获取超长待查询基因序列;对超长待查询基因序列构建增强型系数后缀数组ESSA;
匹配模块,其被配置为:将超长参考基因序列的增强型系数后缀数组ESSA,与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配,匹配出重叠部分MEM;
去冗余模块,其被配置为:对二者的重叠部分MEM进行去冗余处理,得到最大唯一匹配部分MUM;
分类模块,其被配置为:对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算,将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型。
第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。
与现有技术相比,本公开的有益效果是:
1.通过比较现有序列比对方法发现大多方法采用的数据结构是稀疏后缀数组,为了能够更好的进行长序列相似度比对,我们使用了增强型稀疏后缀数组(Enhanced SparseSuffix Array,以下简称ESSA)。ESSA是存储生物序列结构的算法,可以用于基因组比较和读取基因图谱。该算法使用稀疏子数组增强了现有的稀疏后缀数组实现,而且通过测试发现,在保持相同内存占用量的情况下,使用增强型稀疏后缀数组算法查找最大精确匹配要比使用其它存储结构算法快得多。
2.使用增强型稀疏后缀数组算法解决了对输入序列长度的限制;
3.结合使用MUMi的相似度计算公式,实现了快速相似度计算;
4.在多核平台上实现了序列比对的多线程版本,缩短序列比对的时间。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为第一个实施例的方法流程图;
图2(a)、图2(b)和图2(c)为第一个实施例的MUM去重的三种情况;
图3为第一个实施例的多线程及并行化结果。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
英文缩写解释:
MEM(Maximal exact match,以下简称MEM),即最大的精确匹配;
MUM(Maximal unique match,以下简称MUM),即最大唯一匹配;
实施例一,本实施例提供了超长基因序列的相似性快速比对方法;
如图1所示,超长基因序列的相似性快速比对方法,包括:
S1:获取超长参考基因序列;对超长参考基因序列构建增强型系数后缀数组ESSA;
S2:获取超长待查询基因序列;对超长待查询基因序列构建增强型系数后缀数组ESSA;
S3:将超长参考基因序列的增强型系数后缀数组ESSA,与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配,匹配出重叠部分MEM;
S4:对二者的重叠部分MEM进行去冗余处理,得到最大唯一匹配部分MUM;
S5:对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算,将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型。
应理解的,所述超长参考基因序列,是指:基因组超过1GB的基因序列。
作为一个或多个实施例,所述对超长参考基因序列构建增强型系数后缀数组ESSA;是指构建4个类型的数组,分别是后缀数组Suffix,最长公共前缀数组(LongestCommon Prefix,以下简称LCP),后缀链接数组(Suffixed link Array)以及子数组(ChildArray)。
所述后缀数组(Suffix),是指:对序列的所有后缀经过排序之后得到的数组;
所述最长公共前缀数组(Longest Common Prefix,以下简称LCP),是指:LCP是一个一维数组,保存了相邻两个后缀的最长公共前缀。
所述后缀链接数组(Suffixed link Array),是指:存储了后缀的起始位置和结束位置,以及后缀的长度的数组。
所述子数组(Child Array),是指:是一个索引范围从0到n、大小为n+1的数组,每个数组元素存储三个值:up,down,next-index。
LCP的计算方法就是算相邻两个后缀之间的最长公共前缀的长度,即计算LCP(i)=(suffix(SA[i]),suffix(SA[i-1]))(i>0)的长度。如果i=0那么LCP(0)=0.
Child各个变量的计算方法:
作为一个或多个实施例,所述对超长参考基因序列构建增强型系数后缀数组ESSA;具体步骤包括:先将超长参考基因划分成若干个核苷酸序列kmer,然后根据划分好的核苷酸序列kmer进行构建四个类型的数组:后缀数组、最长公共前缀数组LCP、后缀链接数组以及子数组。
进一步的,对于初始ESSA数组,通过构造稀疏子表的方法,在最长公共前缀数组LCP中引入稀疏因子,在保证其它定义不变的情况下,只需要修改最长公共前缀数组LCP的间隔便能够构建ESSA。
应理解的,传统的存储生物序列的结构算法通常采用后缀树(Suffix Tree,以下简称ST)、后缀数组(Suffix Array,以下简称SA)或者增强型后缀数组(Enhanced SuffixArray,以下简称ESA)等。其中ST是允许进行快速序列分析的基本数据结构,该索引结构能够在线性时间内实现大多数处理序列算法。SA可以将后缀树替换为内存效率更高但灵活性有所降低的索引结构。ESA则是通过在SA基础上增添三个额外的数组,分别为最长公共前缀(Longest Common Prefix,以下简称LCP)、子数组和后缀链接数组,以形成更加灵活的检索方式。
作为一个或多个实施例,所述将超长参考基因序列的增强型系数后缀数组ESSA,与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配,匹配出重叠部分MEM;具体步骤包括:
将超长待查询基因序列的增强型系数后缀数组ESSA同超长参考基因序列的增强型系数后缀数组ESSA进行匹配,直到出现错配或者达到所规定的重叠部分MEM最小长度,输出重叠部分MEM。
进一步地,对于长度为n的参考序列R和长度为m的查询序列Q,R的稀疏因子是K,Q的稀疏因子是s,通过MEM-finding算法得到R和Q之间满足最小长度L的MEM。
进一步地,匹配出重叠部分MEM的具体操作是:构造稀疏因子是K的参考序列的ESSA以及稀疏因子是s的查询序列的ESSA,然后设置步长是offset,步长的取值范围是0到K-1,当步长小于m-(K-offset)时,就用该数组和最长公共前缀数组LCP一起模拟稀疏后缀树的遍历过程,或者使用二分搜索算法进行遍历查找,直到出现错配或者得到所规定的最小长度,输出MEM。
应理解的,作为一个或多个实施例,所述将超长参考基因序列的增强型系数后缀数组ESSA,与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配,匹配出重叠部分MEM;采用MEM查找算法来完成。
在MEM查找算法的匹配阶段,将超长待查询基因序列Q大小为O(m)的后缀与超长参考基因序列R大小为O(n/k)的索引进行比较。
应理解的,为减少内存占用,需要使用高效的查找最大精确匹配(Maximum ExactMatches,以下简称MEMs)的算法。ESSA使用的方法是基于MEM的索引查找算法,该方法是将一个序列与另一个序列的索引相匹配,它优势在于通过索引部分序列的后缀或压缩后缀数组来降低算法对于内存的需求,另外就是构造索引的可重用性。
目前,所有已知的基于索引且高效使用内存查找MEMs的算法基本都采取以下步骤查找:
(i)为参考序列R构造索引结构并计算查询序列Q的后缀;
(ii)将查询序列Q的所有后缀与参考序列R构造的索引进行匹配,直到出现错配;
(iii)检查可能的匹配是否存在最大限制。
而且MEMs的计算的时间复杂度是线性时间而不是依赖于查询序列长度m的平方时间。
应理解的,现有的模拟后缀链接算法可以与稀疏子数组集合使用,但是稀疏后缀数组会减少不止一个后缀链接的LCP值,所以原基于SSA的算法或者ESSA算法产生的LCP值会小于相应LCP区间的LCP值。虽然后缀链接和稀疏子数组可以组合在增强型稀疏后缀数组中,但这种组合并不会进一步缩短MEMs查找算法的执行时间。因此我们选择了对查询序列进行系数优化。
作为一个或多个实施例,对超长参考基因序列的MUM和超长待查询基因序列的MUM进行相似度计算;具体步骤包括:
相似度距离MUMi的计算方法为:
MUMi=1-Lmum/Lav
其中,Lmum是MUM的长度之和,Lav是超长参考基因序列的长度与超长待查询基因序列长度的平均值。
如果MUM接近0则表示基因组序列非常相似,而MUM值接近1则表示基因组序列相似度较低。MUM的一个重要处理应用于消除MUM之间的所有重叠,这使得该MUM值不会变为负值。
应理解的,MUM(Maximum Unique Match)指的是两条基因序列间最大唯一精确匹配(即MEM去重之后所得到的即为MUM),而我们所定义的快速算法,是指在考虑到目标基因组的正向和反向链情况下,能够在几秒钟内计算出两个基因组相同的所有匹配列表。我们定义的MUMi是基因相似度的衡量指标,其计算是基于后缀数组的,并且后缀数组的构建在线性时间和线性空间内。
通过使用ESSA所得到的匹配可能不是唯一的,因为唯一性标准是在目标基因组的正向链和反向链上进行独立检查,然后再与查询序列进行比较。所以,这就说明存在需要删除或修剪的重叠片段,我们也称这类重叠片段为Overlap。
现有的研究中,我们可以使用最初为BLAST输出设计的用于修建重叠片段的精确解决方案,然而,该方案是非常复杂且耗时的。因为MUMs在被比较的两个基因组上,且被命中的长度是相同的,所以关于的MUMs问题不那么复杂。因此,我们通过设计去重步骤得到一个近似解。
如图2(a)、图2(b)和图2(c)所示,
(1)处理g1(或g2)中出现部分重叠的MEM。具体做法是,我们要按照MEM在g1(或g2)序列上的最初位置来排序,并且从列表的最后一个元素开始,每个MEM都会与其相邻MEM进行比较。在重叠的情况下,相对在左边的MEM的末端被修剪,即它在g1和g2上的末端坐标都被移动。因此,在g1(或g2)上不存在重叠,从而得到MUM;
(2)如果存在g1(或g2)的MEM包含于(1)中产生的MUM,那么直接移除该MEM;
(3)移除g1(或g2)上的坐标完全包含在两个相邻MEM的MEM。
现在最常见的基因序列比对任务是将多个查询序列同参考基因组进行比对,对此我们在查询序列的级别上引入了并行性,允许其中多个查询序列同时与参考序列比对。当比对大量的查询序列时,该方法可以实现高水平的并发性,且该并发性仅受多核平台上核心数量的限制。另一方面,如果查询序列只包含少量超长生物序列(例如整个染色体),则方法的并发性只受查询序列集中序列数的限制。若将单个查询序列与参考序列进行比对,查询序列并行性不会显示出任何的优越性。
此外,我们用更快的库DIVSUFSORT替换了ESSA中的QSUFSORT后缀数组构造代码。在构建后缀数组之后,我们分析查询序列并使用无锁的先进先出(FIFO)队列将它们逐个传递给工作线程。每个工作线程准确计算比对结果,然后对其进行聚类,并为其单个查询序列运行Smith-Waterman中的例程。
最后我们将结果输出到磁盘,再次使用无锁FIFO队列同步不同线程的写入。默认输出以delta格式显示,但是由于多线程操作,输出文件中的序列顺序没有被严格保留,并且在运行当中可能会有所不同。因此,经过多线程修改后在输出文件中的显示顺序可能不同,但是并不影响结果的正确性。
结合使用上述方法实现了在大规模基因数据的快速相似度比对,测试的实验数据集以及大小如表1所示。
表1序列比对的数据集
通过与现有多个比对工具进行同样数据集测试可以得到结果如表2所示。
表2使用多个比对工具比对两基因序列的时间、内存占用情况
使用多线程进行序列比对数据集处理时,得到了接近于线性的加速比,结果如图3所示。
实施例二,本实施例还提供了超长基因序列的相似性快速比对系统;
超长基因序列的相似性快速比对系统,包括:
超长基因序列的相似性快速比对系统,包括:
第一获取模块,其被配置为:获取超长参考基因序列;对超长参考基因序列构建增强型系数后缀数组ESSA;
第二获取模块,其被配置为:获取超长待查询基因序列;对超长待查询基因序列构建增强型系数后缀数组ESSA;
匹配模块,其被配置为:将超长参考基因序列的增强型系数后缀数组ESSA,与超长待查询基因序列的增强型系数后缀数组ESSA进行匹配,匹配出重叠部分MEM;
去冗余模块,其被配置为:对二者的重叠部分MEM进行去冗余处理,得到最大唯一匹配部分MUM;
分类模块,其被配置为:对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算,将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型。
实施例三,本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一所述方法的步骤。
实施例四,本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述方法的步骤。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (7)
1.超长基因序列的相似性快速比对方法,其特征是,包括:
获取超长参考基因序列;对超长参考基因序列构建增强型稀疏后缀数组ESSA;
获取超长待查询基因序列;对超长待查询基因序列构建增强型稀疏后缀数组ESSA;
将超长参考基因序列的增强型稀疏后缀数组ESSA,与超长待查询基因序列的增强型稀疏后缀数组ESSA进行匹配,匹配出重叠部分MEM;
所述将超长参考基因序列的增强型稀疏后缀数组ESSA,与超长待查询基因序列的增强型稀疏后缀数组ESSA进行匹配,匹配出重叠部分MEM;具体步骤包括:
将超长待查询基因序列的增强型稀疏后缀数组ESSA同超长参考基因序列的增强型稀疏后缀数组ESSA进行匹配,直到出现错配或者达到所规定的重叠部分MEM最小长度,输出重叠部分MEM;
匹配出重叠部分MEM的操作是:
构造稀疏因子是K的参考序列的ESSA以及稀疏因子是s的查询序列的ESSA,然后设置步长是offset,步长的取值范围是0到K-1,当步长小于m-(K-offset)时,就用该数组和最长公共前缀数组LCP一起模拟稀疏后缀树的遍历过程,或者使用二分搜索算法进行遍历查找,直到出现错配或者得到所规定的最小长度,输出MEM;
对二者的重叠部分MEM进行去冗余处理,得到最大唯一匹配部分MUM;
对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算,将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型;
对超长参考基因序列的MUM和超长待查询基因序列的MUM进行相似度计算;具体步骤包括:
相似度距离MUMi的计算方法为:
MUMi=1-Lmum/Lav
其中,Lmum是MUM的长度之和,Lav是超长参考基因序列的长度与超长待查询基因序列长度的平均值。
2.如权利要求1所述的方法,其特征是,所述对超长参考基因序列构建增强型稀疏后缀数组ESSA;是指构建4个类型的数组,分别是后缀数组Suffix、最长公共前缀数组、后缀链接数组以及子数组。
3.如权利要求1所述的方法,其特征是,所述对超长参考基因序列构建增强型稀疏后缀数组ESSA;具体步骤包括:先将超长参考基因划分成若干个核苷酸序列kmer,然后根据划分好的核苷酸序列kmer进行构建四个类型的数组:后缀数组、最长公共前缀数组LCP、后缀链接数组以及子数组。
4.如权利要求1所述的方法,其特征是,对于长度为n的参考序列R和长度为m的查询序列Q,R的稀疏因子是K,Q的稀疏因子是s,通过MEM-finding算法得到R和Q之间满足最小长度L的MEM。
5.超长基因序列的相似性快速比对系统,其特征是,包括:
第一获取模块,其被配置为:获取超长参考基因序列;对超长参考基因序列构建增强型稀疏后缀数组ESSA;
第二获取模块,其被配置为:获取超长待查询基因序列;对超长待查询基因序列构建增强型稀疏后缀数组ESSA;
匹配模块,其被配置为:将超长参考基因序列的增强型稀疏后缀数组ESSA,与超长待查询基因序列的增强型稀疏后缀数组ESSA进行匹配,匹配出重叠部分MEM;
所述将超长参考基因序列的增强型稀疏后缀数组ESSA,与超长待查询基因序列的增强型稀疏后缀数组ESSA进行匹配,匹配出重叠部分MEM;具体步骤包括:
将超长待查询基因序列的增强型稀疏后缀数组ESSA同超长参考基因序列的增强型稀疏后缀数组ESSA进行匹配,直到出现错配或者达到所规定的重叠部分MEM最小长度,输出重叠部分MEM;
匹配出重叠部分MEM的操作是:
构造稀疏因子是K的参考序列的ESSA以及稀疏因子是s的查询序列的ESSA,然后设置步长是offset,步长的取值范围是0到K-1,当步长小于m-(K-offset)时,就用该数组和最长公共前缀数组LCP一起模拟稀疏后缀树的遍历过程,或者使用二分搜索算法进行遍历查找,直到出现错配或者得到所规定的最小长度,输出MEM;
去冗余模块,其被配置为:对二者的重叠部分MEM进行去冗余处理,得到最大唯一匹配部分MUM;
分类模块,其被配置为:对超长参考基因序列的MUM和超长待查询基因序列的最大唯一匹配部分MUM进行相似度计算,将相似度大于设定阈值的超长参考基因序列对应的基因类型作为超长待查询基因序列对应的基因类型;
对超长参考基因序列的MUM和超长待查询基因序列的MUM进行相似度计算;具体步骤包括:
相似度距离MUMi的计算方法为:
MUMi=1-Lmum/Lav
其中,Lmum是MUM的长度之和,Lav是超长参考基因序列的长度与超长待查询基因序列长度的平均值。
6.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-4任一项方法所述的步骤。
7.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-4任一项方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010218462.6A CN111445952B (zh) | 2020-03-25 | 2020-03-25 | 超长基因序列的相似性快速比对方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010218462.6A CN111445952B (zh) | 2020-03-25 | 2020-03-25 | 超长基因序列的相似性快速比对方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111445952A CN111445952A (zh) | 2020-07-24 |
CN111445952B true CN111445952B (zh) | 2024-01-26 |
Family
ID=71654742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010218462.6A Active CN111445952B (zh) | 2020-03-25 | 2020-03-25 | 超长基因序列的相似性快速比对方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111445952B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111916153B (zh) * | 2020-06-17 | 2022-06-17 | 电子科技大学 | 一种并行多重序列比对方法 |
CN112331267A (zh) * | 2020-09-25 | 2021-02-05 | 浙江大学 | 一种基于质谱的不动杆菌数据库的构建方法及不动杆菌数据库 |
CN112802553B (zh) * | 2020-12-29 | 2024-03-15 | 北京优迅医疗器械有限公司 | 一种基于后缀树算法的基因组测序序列与参考基因组比对的方法 |
CN113496762B (zh) * | 2021-05-20 | 2022-09-27 | 山东大学 | 一种生物基因序列的概要数据生成方法及系统 |
CN113903411A (zh) * | 2021-08-11 | 2022-01-07 | 东北林业大学 | 一种基于后缀数组与单调栈的基因组组装预处理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467616A (zh) * | 2010-11-15 | 2012-05-23 | 中国科学院计算技术研究所 | 一种用后缀数组加速大规模蛋白质鉴定的方法及其系统 |
CN102750461A (zh) * | 2012-06-14 | 2012-10-24 | 东北大学 | 一种可得到完全解的生物序列局部比对方法 |
CN106919433A (zh) * | 2016-06-01 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 重复代码片段查询方法和装置 |
CN107798216A (zh) * | 2016-09-07 | 2018-03-13 | 中央研究院 | 采用分治法进行高相似性序列的比对方法 |
CN108603190A (zh) * | 2015-09-08 | 2018-09-28 | 美国冷泉港实验室 | 使用经破碎的核苷酸的高通量多重测序确定基因拷贝数 |
CN108604260A (zh) * | 2016-01-11 | 2018-09-28 | 艾迪科基因组公司 | 用于现场或基于云的dna和rna处理和分析的基因组学基础架构 |
CN109416928A (zh) * | 2016-06-07 | 2019-03-01 | 伊路米纳有限公司 | 用于进行二级和/或三级处理的生物信息学系统、设备和方法 |
-
2020
- 2020-03-25 CN CN202010218462.6A patent/CN111445952B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467616A (zh) * | 2010-11-15 | 2012-05-23 | 中国科学院计算技术研究所 | 一种用后缀数组加速大规模蛋白质鉴定的方法及其系统 |
CN102750461A (zh) * | 2012-06-14 | 2012-10-24 | 东北大学 | 一种可得到完全解的生物序列局部比对方法 |
CN108603190A (zh) * | 2015-09-08 | 2018-09-28 | 美国冷泉港实验室 | 使用经破碎的核苷酸的高通量多重测序确定基因拷贝数 |
CN108604260A (zh) * | 2016-01-11 | 2018-09-28 | 艾迪科基因组公司 | 用于现场或基于云的dna和rna处理和分析的基因组学基础架构 |
CN106919433A (zh) * | 2016-06-01 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 重复代码片段查询方法和装置 |
CN109416928A (zh) * | 2016-06-07 | 2019-03-01 | 伊路米纳有限公司 | 用于进行二级和/或三级处理的生物信息学系统、设备和方法 |
CN107798216A (zh) * | 2016-09-07 | 2018-03-13 | 中央研究院 | 采用分治法进行高相似性序列的比对方法 |
Non-Patent Citations (8)
Title |
---|
Guillaume Marcais等.MUMmer4: A fast and versatile genome alignment system.《PLOS》.2018,第1-14页. * |
Lucian.Effiient Computation of Maximal Exact Matches Between Genomic Sequences.《Valeria Leticia Portes de Cerqueira Cesar 2020》.2020,第1-35页. * |
Marc Deloger等.A Genomic Distance Based on MUM Indicates Discontinuity between Most Bacterial Species and Genera.《JOURNAL OF BACTERIOLOGY》.2009,第91-99页. * |
Michael Vyverman等.essaMEM: finding maximal exact matches using enhanced sparse suffix arrays.《APPLICATIONS NOTE》.2013,第29卷(第6期),第802-804页. * |
Ruilin Li 等.Gclust:A Parallel clustering tool for microbial genomic data.《Genomics Proteomics Bioinformatics》.2020,第496-502页. * |
S.P. Garcia等.A Genomic Distance for Assembly Comparison Base d on Compressed Maximal Exact Matches.《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》.2013,第第10卷卷(第第10卷期),第793-798页. * |
Stefan Kurtz等.Versatile and open software for comparing large genomes.《Open Access》.2004,第1-9页. * |
Zia Khan等.A practical algorithm for finding maximal exact matches in large sequence datasets using sparse suffix arrays.《BIOINFORMATICS》.2009,第1609-1616页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111445952A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111445952B (zh) | 超长基因序列的相似性快速比对方法及系统 | |
Holley et al. | Bifrost: highly parallel construction and indexing of colored and compacted de Bruijn graphs | |
Alser et al. | Accelerating genome analysis: A primer on an ongoing journey | |
Rasmussen et al. | Efficient q-gram filters for finding all ε-matches over a given length | |
US10521441B2 (en) | System and method for approximate searching very large data | |
US11062793B2 (en) | Systems and methods for aligning sequences to graph references | |
EP3072076B1 (en) | A method of generating a reference index data structure and method for finding a position of a data pattern in a reference data structure | |
CN112735528A (zh) | 一种基因序列比对方法及系统 | |
Kolpakov et al. | Searching for gapped palindromes | |
Zhang et al. | cublastp: Fine-grained parallelization of protein sequence search on cpu+ gpu | |
CN111292805B (zh) | 一种三代测序数据重叠检测方法及系统 | |
Kulekci et al. | Efficient maximal repeat finding using the burrows-wheeler transform and wavelet tree | |
JP2009116559A (ja) | 大量配列の一括検索方法及び検索システム | |
Ho et al. | LISA: towards learned DNA sequence search | |
Liu et al. | Parallel and space-efficient construction of Burrows-Wheeler transform and suffix array for big genome data | |
Holt et al. | Constructing Burrows-Wheeler transforms of large string collections via merging | |
Almutairy et al. | Comparing fixed sampling with minimizer sampling when using k-mer indexes to find maximal exact matches | |
Marchet et al. | Scalable sequence database search using partitioned aggregated Bloom comb trees | |
Ng et al. | Acceleration of short read alignment with runtime reconfiguration | |
Välimäki et al. | Scalable and versatile k-mer indexing for high-throughput sequencing data | |
Soares et al. | Sequence comparison alignment-free approach based on suffix tree and L-words frequency | |
Xiao et al. | K-mer counting: memory-efficient strategy, parallel computing and field of application for bioinformatics | |
US8340917B2 (en) | Sequence matching allowing for errors | |
Zhao et al. | PSAEC: an improved algorithm for short read error correction using partial suffix arrays | |
Greenstein et al. | Short read error correction using an FM-index |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |