CN103093121B - 双向多步deBruijn图的压缩存储和构造方法 - Google Patents

双向多步deBruijn图的压缩存储和构造方法 Download PDF

Info

Publication number
CN103093121B
CN103093121B CN201210587059.6A CN201210587059A CN103093121B CN 103093121 B CN103093121 B CN 103093121B CN 201210587059 A CN201210587059 A CN 201210587059A CN 103093121 B CN103093121 B CN 103093121B
Authority
CN
China
Prior art keywords
fragment
debruijn
sequence
character
building method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210587059.6A
Other languages
English (en)
Other versions
CN103093121A (zh
Inventor
孟金涛
魏彦杰
成杰峰
冯圣中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201210587059.6A priority Critical patent/CN103093121B/zh
Publication of CN103093121A publication Critical patent/CN103093121A/zh
Application granted granted Critical
Publication of CN103093121B publication Critical patent/CN103093121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种双向多步deBruijn图的压缩存储和构造方法,包括压缩存储步骤,和deBruijn图构造步骤。本发明提供的双向多步deBruijn图的压缩存储和构造方法,(1)结合DNA序列互补双螺旋结构的特点,对de?Bruijn图结构进行结构优化,使用双向多步de?Bruijn图,可以将需要存储的图的节点减半;(2)针对序列组装的原始de?Bruijn图规模异常庞大,对内存造成存储压力等问题,使用双向多步de?Bruijn图的压缩存储技术,使得存储双向多步de?Bruijn图的内存消耗控制在参考序列大小的100倍以内;(3)构造双向多步de?Bruijn图,可将DNA序列组装问题分解为边融合子问题,更适合并行计算。

Description

双向多步deBruijn图的压缩存储和构造方法
【技术领域】
本发明涉及基因测序领域,尤其涉及一种双向多步deBruijn图的压缩存储和构造方法。
【背景技术】
新一代基因测序技术所产生的序列片段具有序列短、高覆盖率、额外的双端信息等特点,使得原有传统的序列拼接技术无法使用,加大了序列拼接技术的复杂度和难点。面对海量的数据,高效的序列拼接技术成为处理测序数据的关键。
序列拼接技术问题主要转化为图论的知识进行求解。当前,序列拼接技术问题解决途径主要有两条。一种途径是传统的先重叠后扩展方法,即OLC(Overlap-Layout-Consensus)方法。该方法主要是将序列拼接技术转化为哈密尔顿路径进行求解。OLC的拼接过程主要分为三个步骤:1)Overlap:对获得的所有read顶点进行排序,通过序列比对算法,寻找DNA序列片段间的重叠信息;2)Layout:根据read之间的重叠信息,排列所有DNA序列片段,形成新的链接体结构,该步骤主要是为了寻找经过每个顶点一次且仅一次的路径,即寻找哈密尔顿路径;3)Consensus:根据新的链接体结构中原始质量数据,在链接体中寻找质量最重的路径,从而组合成最终的DNA序列。
基于OLC的序列拼接在技术上容易实现,但是该方法仅局限于比对大于某个阈值的read之间的信息,忽略了多个read之间的相互信息,从而使得该方法在处理重复区域问题上受到了很大的限制;另外,该方法进行序列比对时,无论使用贪心算法或者BWA算法,都需要耗费大量的内存,同时在任意两个read序列之间比对,使得该序列拼接的算法复杂度为O(n2),其中n为序列片段的个数。因此,从时间和空间上考虑,该算法均难以用于拼接长达百万碱基的基因组样本或者由百万条以上的DNA序列片段组成的测序数据。基于OLC的拼接主要适用于基于Sanger测序原理的拼接。测序样本也主要是基因组较小的生物,例如病毒、真菌。目前,PHRAP、TIGR、CAP3、CELERA、ARACHNE、PHUSION、SSAKE、VCAKE、SHARCGS等序列拼接技术均是在此基础上开发的。
DNA序列拼接的另外一种途径,是基于deBruijn图的序列拼接方法。该方法主要是将DNA序列拼接问题转化为欧拉路径进行求解;通过构造并简化deBruijn图来实现整个拼接过程。基于deBruijn图的拼接方法理论上需要找到一条欧拉路径来重构源基因组参考序列,但实际上只能通过将构造好的deBruijn图中的无分支路径进行收缩最终合并为完整的contig进行输出。目前,Velvet、Soapdenovo、Idba、Abyss、Pasha等序列拼接技术均是在此基础上开发的。
与OLC相比,基于deBruijn图的序列拼接技术有很多的优点。例如,在过滤错误信息、重复区域发现、解耦以及利用双端信息对contig进行扩展等方面。然而,由于大基因组构造的deBruijn图异常庞大,以至于单个计算机的内存无法释放。例如,对人类基因组的数据进行拼接,构建的deBruijn图中有30G的顶点,而存储这样的图通常需要消耗大约500G到1T的内存。同时,由于在图的数据结构中顶点关联的随机性,不能使用数据预取技术,导致最终对图的简化也将耗费几周的时间。在拼接大基因组和宏基因组测序数据时,上述拼接技术的性能依然无法满足需求。
【发明内容】
本发明要解决的技术问题在于提高现有技术序列拼接运行速度、降低单机内存消耗。
为此,本发明提供一种双向多步deBruijn图的压缩存储和构造方法,包括
压缩存储步骤,具体为
S11、读取一个序列s;
S12、将序列s用滑动窗口切割为多个片段t;
S13、对每个片段t,使用核酸编码表进行编码,并表示为一个64位的整数a;
S14、将片段t进行反转,使用对称互补表将反转的片段互补处理,得到互补片段,并再次使用步骤S13中的核酸编码表将互补片段进行编码,并表示为一个64位的整数b;
S15、取整数a和整数b的最大数,作为片段t和互补片段v的k分子的标志数;
S16、重复步骤S11-S15,直至所有序列完成;
和deBruijn图构造步骤,具体为
S21、读取一个序列s;
S22、将序列s用滑动窗口切割为多个片段t,选取一片段t其标志数为cur、并标记其前、后的片段的标志数分别为pre、lat;
S23、若t的编码小于其互补片段编码,则交换pre,lat的值;
S24、在cur的正向位置映射表的相应bit位置1来表示指向pre的边;
S25、在cur的反向位置映射表的相应bit位置1来表示指向lat的边;
S26、重复步骤S22-S25,处理序列s的其他片段t,直至完成序列s的全部片段t,执行步骤S27;
S27、读取一个新的序列s,重复步骤S22-S26;直至处理完所有的序列,执行步骤S28;
S28、完成双向多步deBruijn图的构造。
进一步地,所述步骤S12、S22中的滑动窗口为长度为k的滑动窗口,其中0<k<32且k为奇数。
进一步地,所述步骤S13中的核酸编码表为{A:00,C:01,G:10,T:11}。
进一步地,所述步骤S14中的对称互补表为{A->T,C->G,G->C,T->A}。
进一步地,所述步骤S14具体为,将片段t的字符串进行反转,使用对称互补表将反转的字符串中每个字符变为其互补字符,得到互补字符的字符串v,并再次使用步骤S13中的核酸编码表将字符串v进行编码,并表示为一个64位的整数b;
进一步地,所述步骤S22中,若片段t没有之前或之后的片段,若片段t没有之前或之后的片段,则对pre或者lat值赋为空或NULL。
进一步地,步骤S24中正向位置映射表为{A:0,C:1,G:2,T:3},位置查询字符为pre的最后一个字符。
进一步地,步骤S25中反向位置映射表为{A:4,C:5,G:6,T:7},位置查询字符为lat的第一个字符的互补字符。
本发明提供的双向多步deBruijn图的压缩存储和构造方法,采用压缩存储步骤和deBruijn图构造步骤,(1)结合DNA序列互补双螺旋结构的特点,对deBruijn图结构进行结构优化,使用双向多步deBruijn图,可以将需要存储的图的节点减半;(2)针对序列组装的原始deBruijn图规模异常庞大,对内存造成存储压力等问题,使用双向多步deBruijn图的压缩存储技术,使得存储双向多步deBruijn图的内存消耗控制在参考序列大小的100倍以内;(3)构造双向多步deBruijn图,可将DNA序列组装问题分解为边融合子问题,更适合并行计算。本发明的方法提高了现有技术序列拼接运行速度、降低了单机内存消耗。
【附图说明】
图1示出本发明的压缩存储步骤流程图。
图2示出本发明的deBruijn图构造步骤流程图。
【具体实施方式】
下面结合附图和具体实施例对本发明作进一步详细说明。
本发明提供一种双向多步deBruijn图的压缩存储和构造方法,包括
压缩存储步骤,所需原始数据包括第一代,第二代和新一代的测序仪器产生出来的FASTA格式文件,将FASTA文件中的序列逐个切割成k分子并且用二进制编码进行压缩存储为一个64位的长整型k分子的标志数。
如图1所示,具体为
S11、读取一个序列s;其中,序列s取自FASTA格式文件;
S12、将序列s用滑动窗口切割为多个片段t;
S13、对每个片段t,使用核酸编码表进行编码,并表示为一个64位的整数a;
S14、将片段t进行反转,使用对称互补表将反转的片段互补处理,得到互补片段,并再次使用步骤S13中的核酸编码表将互补片段进行编码,并表示为一个64位的整数b;
S15、取整数a和整数b的最大数,作为片段t和互补片段v的k分子的标志数;
S16、重复步骤S11-S15,直至所有序列完成。
通过上述步骤将两个传统的DeBrujin图中的kmer,转化为一个64位的k分子的标志数来存储。该步骤可以将其他软件例如velvet、IDBA、SOAPdenovo里的两个压缩kmer存储为一个压缩k分子的标志数,并且在得到k分子的标志数后也可以反过来求出该k分子的长度为k的片段t和它的互补片段v。
和deBruijn图构造步骤,1、使用上述压缩存储步骤中计算k分子的标志数,2、将每个片段以及和它前后相邻的片段的扩展字符作为该k分子和其前后相邻的片段的对应的k分子的边并初始化k分子数据结构的边;3、将初始化后的k分子数据结构以k分子的标志数为关键值存入hash_map。
如图2所示,具体为
S21、读取一个序列s;
S22、将序列s用滑动窗口切割为多个片段t,选取一片段t其标志数为cur、并标记其前、后的片段的标志数分别为pre、lat;
S23、若t的编码小于其互补片段编码,则交换pre,lat的值;
S24、在cur的正向位置映射表的相应bit位置1来表示指向pre的边;
S25、在cur的反向位置映射表的相应bit位置1来表示指向lat的边;
S26、重复步骤S22-S25,处理序列s的其他片段t,直至完成序列s的全部片段t,执行步骤S27;
S27、读取一个新的序列s,重复步骤S22-S26;直至处理完所有的序列,执行步骤S28;
S28、完成双向多步deBruijn图的构造。
本发明提供的双向多步deBruijn图的压缩存储和构造方法,采用压缩存储步骤和deBruijn图构造步骤,(1)结合DNA序列互补双螺旋结构的特点,对deBruijn图结构进行结构优化,使用双向多步deBruijn图,可以将需要存储的图的节点减半;(2)针对序列组装的原始deBruijn图规模异常庞大,对内存造成存储压力等问题,使用双向多步deBruijn图的压缩存储技术,使得存储双向多步deBruijn图的内存消耗控制在参考序列大小的100倍以内;(3)构造双向多步deBruijn图,可将DNA序列组装问题分解为边融合子问题,更适合并行计算。本发明的方法提高了现有技术序列拼接运行速度、降低了单机内存消耗。
实施例1
本发明实施例提供的一种双向多步deBruijn图的压缩存储和构造方法,包括
压缩存储步骤,具体为
S11、读取一个序列s;
S12、将序列s用长度为k的滑动窗口切割为多个片段t;其中0<k<32且k为奇数。
S13、对每个片段t,使用核酸编码表{A:00,C:01,G:10,T:11}进行编码,并表示为一个64位的整数a;
S14、将片段t的字符串进行反转,使用对称互补表{A->T,C->G,G->C,T->A}将反转的字符串中每个字符变为其互补字符,得到互补字符的字符串v,并再次使用步骤S13中的核酸编码表将字符串v进行编码,并表示为一个64位的整数b;
S15、取整数a和整数b的最大数,作为片段t和互补片段v的k分子的标志数;
S16、重复步骤S11-S15,直至所有序列完成。
和deBruijn图构造步骤,具体为
S21、读取一个序列s;
S22、将序列s用滑动窗口切割为多个片段t,选取一片段t其标志数为cur、并标记其前、后的片段的标志数分别为pre、lat;
S23、若t的编码小于其互补片段编码,则交换pre,lat的值;
S24、在cur的正向位置映射表的相应bit位置1来表示指向pre的边;
S25、在cur的反向位置映射表的相应bit位置1来表示指向lat的边;
S26、重复步骤S22-S25,处理序列s的其他片段t,直至完成序列s的全部片段t,执行步骤S27;
S27、读取一个新的序列s,重复步骤S22-S26;直至处理完所有的序列,执行步骤S28;
S28、完成双向多步deBruijn图的构造。
进一步地,步骤S24中正向位置映射表为{A:0,C:1,G:2,T:3},位置查询字符为pre的最后一个字符。
进一步地,步骤S25中反向位置映射表为{A:4,C:5,G:6,T:7},位置查询字符为lat的第一个字符的互补字符。
实施例2
本发明另一实施例提供的一种双向多步deBruijn图的压缩存储和构造方法,包括
压缩存储步骤,具体为
S11、读取一个序列s;
S12、将序列s用长度为k的滑动窗口切割为多个片段t;其中0<k<32且k为奇数。
S13、对每个片段t,使用核酸编码表{A:00,C:01,G:10,T:11}进行编码,并表示为一个64位的整数a;
S14、将片段t进行反转,使用对称互补表将反转的片段互补处理,得到互补片段,并再次使用步骤S13中的核酸编码表将互补片段进行编码,并表示为一个64位的整数b;
S15、取整数a和整数b的最大数,作为片段t和互补片段v的k分子的标志数;
S16、重复步骤S11-S15,直至所有序列完成。
和deBruijn图构造步骤,1、使用上述压缩存储步骤中计算k分子的标志数,2、将每个片段以及和它前后相邻的片段的扩展字符作为该k分子和其前后相邻的片段的对应的k分子的边并初始化k分子数据结构的边;3.将初始化后的k分子数据结构以k分子的标志数为关键值存入hash_map。具体为
S21、读取一个序列s;
S22、将序列s用滑动窗口切割为多个片段t,选取一片段t其标志数为cur、并标记其前、后的片段的标志数分别为pre、lat;
S23、若t的编码小于其互补片段编码,则交换pre,lat的值;
S24、在cur的正向位置映射表的相应bit位置1来表示指向pre的边;
S25、在cur的反向位置映射表的相应bit位置1来表示指向lat的边;
S26、重复步骤S22-S25,处理序列s的其他片段t,直至完成序列s的全部片段t,执行步骤S27;
S27、读取一个新的序列s,重复步骤S22-S26;直至处理完所有的序列,执行步骤S28;
S28、完成双向多步deBruijn图的构造。
其中所述的k分子数据结构如下:
本发明分别选取四种规模大小不等的DNA模拟数据进行测试。其中,DNA模拟数据分别为Swinepoxvirus(Swinepox)、Escherichiacolistr.K-12substr(E.coli)、Saccharomycescerevisiae(Yeast)、Caenorhabditiselegans(C.elegans)四种基因组数据,其实验数据来源于基因库文件(NC_003389,NC_000913,NC_001133-NC001148,NC_003279-NC_003284),得到DNA数据信息如表1所示。
表1.DNA模拟数据表
表1可以看出,经过DNA测序仪处理之后,测序数据规模巨大。如果直接构造传统的deBruijn图造成了系统资源的极大浪费;同时,带来了单机存储的内存压力。由表2中实验数据对比可知,本发明所提出双向多步deBruijn图的压缩存储和构造方法能节省内存近50%,同时内存消耗控制在源数据规模的100倍以内。
表2.构图所消耗的内存(G)
本发明提供的双向多步deBruijn图的压缩存储和构造方法,采用压缩存储步骤和deBruijn图构造步骤,(1)结合DNA序列互补双螺旋结构的特点,对deBruijn图结构进行结构优化,使用双向多步deBruijn图,可以将需要存储的图的节点减半;(2)针对序列组装的原始deBruijn图规模异常庞大,对内存造成存储压力等问题,使用双向多步deBruijn图的压缩存储技术,使得存储双向多步deBruijn图的内存消耗控制在参考序列大小的100倍以内;(3)构造双向多步deBruijn图,可将DNA序列组装问题分解为边融合子问题,更适合并行计算。本发明的方法提高了现有技术序列拼接运行速度、降低了单机内存消耗。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所作出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

Claims (8)

1.一种双向多步deBruijn图的压缩存储和构造方法,其特征在于,包括
压缩存储步骤,具体为
S11、读取一个序列s;
S12、将序列s用滑动窗口切割为多个片段t;
S13、对每个片段t,使用核酸编码表进行编码,并表示为一个64位的整数a;
S14、将片段t进行反转,使用对称互补表将反转的片段互补处理,得到互补片段v,并再次使用步骤S13中的核酸编码表将互补片段进行编码,并表示为一个64位的整数b;
S15、取整数a和整数b的最大数,作为片段t和互补片段v的k分子的标志数;
S16、重复步骤S11-S15,直至所有序列完成;
和deBruijn图构造步骤,具体为
S21、读取一个序列s’;
S22、将序列s’用滑动窗口切割为多个片段t’,选取一片段t’其标志数为cur、并标记其前、后的片段的标志数分别为pre、lat;
S23、若t’的编码小于其互补片段编码,则交换pre,lat的值;
S24、在cur的正向位置映射表的相应bit位置来表示指向pre的边;
S25、在cur的反向位置映射表的相应bit位置来表示指向lat的边;
S26、重复步骤S22-S25,处理序列s’的其他片段t’,直至完成序列s’的全部片段t’,执行步骤S27;
S27、读取一个新的序列s”,重复步骤S22-S26;直至处理完所有的序列,执行步骤S28;
S28、完成双向多步deBruijn图的构造。
2.根据权利要求1所述的双向多步deBruijn图的压缩存储和构造方法,其特征在于,所述步骤S12、S22中的滑动窗口为长度为k的滑动窗口,其中0<k<32且k为奇数。
3.根据权利要求1所述的双向多步deBruijn图的压缩存储和构造方法,其特征在于,所述步骤S13中的核酸编码表为{A:00,C:01,G:10,T:11}。
4.根据权利要求1所述的双向多步deBruijn图的压缩存储和构造方法,其特征在于,所述步骤S14中的对称互补表为{A->T,C->G,G->C,T->A}。
5.根据权利要求1所述的双向多步deBruijn图的压缩存储和构造方法,其特征在于,所述步骤S14具体为,将片段t的字符串进行反转,使用对称互补表将反转的字符串中每个字符变为其互补字符,得到互补字符的字符串v,并再次使用步骤S13中的核酸编码表将字符串v进行编码,并表示为一个64位的整数b。
6.根据权利要求1所述的双向多步deBruijn图的压缩存储和构造方法,其特征在于,所述步骤S22中,若片段t’没有之前的片段,则对pre值赋为空或NULL;若片段t’没有之后的片段,则对lat值赋为空或NULL。
7.根据权利要求1所述的双向多步deBruijn图的压缩存储和构造方法,其特征在于,步骤S24中正向位置映射表为{A:0,C:1,G:2,T:3},位置查询字符为pre的最后一个字符。
8.根据权利要求1所述的双向多步deBruijn图的压缩存储和构造方法,其特征在于,步骤S25中反向位置映射表为{A:4,C:5,G:6,T:7},位置查询字符为lat的第一个字符的互补字符。
CN201210587059.6A 2012-12-28 2012-12-28 双向多步deBruijn图的压缩存储和构造方法 Active CN103093121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210587059.6A CN103093121B (zh) 2012-12-28 2012-12-28 双向多步deBruijn图的压缩存储和构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210587059.6A CN103093121B (zh) 2012-12-28 2012-12-28 双向多步deBruijn图的压缩存储和构造方法

Publications (2)

Publication Number Publication Date
CN103093121A CN103093121A (zh) 2013-05-08
CN103093121B true CN103093121B (zh) 2016-01-27

Family

ID=48205680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210587059.6A Active CN103093121B (zh) 2012-12-28 2012-12-28 双向多步deBruijn图的压缩存储和构造方法

Country Status (1)

Country Link
CN (1) CN103093121B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761453B (zh) * 2013-12-09 2017-10-27 天津工业大学 一种基于簇图结构的并行基因拼接方法
CN103699814B (zh) * 2013-12-10 2017-02-01 深圳先进技术研究院 双向多步De Bruijn图的突出端识别与去除方法
CN103699818B (zh) * 2013-12-10 2017-04-05 深圳先进技术研究院 基于多步双向De Bruijn图的变长kmer查询的双向边扩展方法
CN103714263B (zh) * 2013-12-10 2017-06-13 深圳先进技术研究院 双向多步De Bruijn图的错误双向边识别与去除方法
CN103699813B (zh) * 2013-12-10 2017-05-10 深圳先进技术研究院 双向多步De Bruijn图的重复双向边识别与去除方法
CN103699817B (zh) * 2013-12-10 2017-02-01 深圳先进技术研究院 双向多步De Bruijn图的自环双向边识别与去除方法
CN105631239B (zh) * 2014-10-30 2018-08-17 国际商业机器公司 用于管理基因序列的方法和装置
CN104951672B (zh) * 2015-06-19 2017-08-29 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及系统
CN107133493B (zh) * 2016-02-26 2020-01-14 中国科学院数学与系统科学研究院 基因组序列的组装方法、结构变异探测方法和相应的系统
CN109300508B (zh) * 2017-07-25 2020-08-11 南京金斯瑞生物科技有限公司 一种dna数据存储编码解码方法
CN110021368B (zh) * 2017-10-20 2020-07-17 人和未来生物科技(长沙)有限公司 比对型基因测序数据压缩方法、系统及计算机可读介质
TWI770247B (zh) * 2018-08-03 2022-07-11 大陸商南京金斯瑞生物科技有限公司 核酸用於資料儲存之方法、及其非暫時性電腦可讀儲存介質、系統及電子裝置
CN110379462B (zh) * 2019-06-21 2021-11-26 中南民族大学 一种基于Illumina技术组装中华金腰叶绿体基因组序列的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5134690A (en) * 1989-06-26 1992-07-28 Samatham Maheswara R Augumented multiprocessor networks
CN101430742A (zh) * 2008-12-12 2009-05-13 深圳华大基因研究院 一种短序列组装中构建图的方法及系统
CN101430741A (zh) * 2008-12-12 2009-05-13 深圳华大基因研究院 一种短序列映射方法及系统
CN101751517A (zh) * 2008-12-12 2010-06-23 深圳华大基因研究院 一种基因组短序列映射的快速处理方法及系统
WO2012034251A2 (zh) * 2010-09-14 2012-03-22 深圳华大基因科技有限公司 一种基因组结构性变异检测方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5134690A (en) * 1989-06-26 1992-07-28 Samatham Maheswara R Augumented multiprocessor networks
CN101430742A (zh) * 2008-12-12 2009-05-13 深圳华大基因研究院 一种短序列组装中构建图的方法及系统
CN101430741A (zh) * 2008-12-12 2009-05-13 深圳华大基因研究院 一种短序列映射方法及系统
CN101751517A (zh) * 2008-12-12 2010-06-23 深圳华大基因研究院 一种基因组短序列映射的快速处理方法及系统
WO2012034251A2 (zh) * 2010-09-14 2012-03-22 深圳华大基因科技有限公司 一种基因组结构性变异检测方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Biological Sequence Compression Algorithms;Toshiko Matsumoto, et al,.;《GENOME INFORMATICS》;20001231(第11期);43-52 *
Compression of next-generation sequencing reads aided by highly efficient de novo assembly;Jones, Daniel C,et al,.;《NUCLEIC ACIDS RESEARCH》;20120816;第40卷(第2期);1-9 *
DNACompression:fast and effective DNA sequence compression;xin Chen,et al.;《BIOINFORMATICS APPLICATIONS NOTE》;20021231;第18卷(第12期);1696-1698 *
针对短测序片段的基因序列拼接算法;郭佳等;《计算机工程与设计》;20120531;第33卷(第5期);1832-1836 *

Also Published As

Publication number Publication date
CN103093121A (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN103093121B (zh) 双向多步deBruijn图的压缩存储和构造方法
US10566077B1 (en) Re-writable DNA-based digital storage with random access
US20180373839A1 (en) Systems and methods for encoding genomic graph information
WO2019076177A1 (zh) 基因测序数据压缩预处理、压缩、解压方法、系统及计算机可读介质
Varma et al. Fassem: Fpga based acceleration of de novo genome assembly
Liu et al. GPU-accelerated BWT construction for large collection of short reads
CN103699819A (zh) 基于多步双向De Bruijn图的变长kmer查询的顶点扩展方法
Chowdhury et al. Cram-seq: Accelerating rna-seq abundance quantification using computational ram
Xiao et al. K-mer counting: Memory-efficient strategy, parallel computing and field of application for bioinformatics
CN103699818B (zh) 基于多步双向De Bruijn图的变长kmer查询的双向边扩展方法
Zhu et al. Exploring node repair locality in fractional repetition codes
US11734231B2 (en) System and methods for bandwidth-efficient encoding of genomic data
CN103699813B (zh) 双向多步De Bruijn图的重复双向边识别与去除方法
Yao et al. Parallel compression for large collections of genomes
Yang et al. An FM-Index Based High-Throughput Memory-Efficient FPGA Accelerator for Paired-End Short-Read Mapping
Jain et al. An information security-based literature survey and classification framework of data storage in DNA
Jain et al. GAMS: genome assembly on Multi-GPU using string graph
Kapun et al. On NP-hardness of the paired de Bruijn sound cycle problem
Varma et al. Hardware acceleration of de novo genome assembly
Zhang et al. Spider-web generates coding algorithms with superior error tolerance and real-time information retrieval capacity
CN113408245B (zh) 基于gep的区块链数据编解码方法、装置、设备及介质
Garg et al. Ggake: Gpu based genome assembly using k-mer extension
US20230385242A1 (en) System and methods for bandwidth-efficient data encoding
CN103699814B (zh) 双向多步De Bruijn图的突出端识别与去除方法
CN103714263B (zh) 双向多步De Bruijn图的错误双向边识别与去除方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant