CN109658985B - 一种基因参考序列的去冗余优化方法及系统 - Google Patents

一种基因参考序列的去冗余优化方法及系统 Download PDF

Info

Publication number
CN109658985B
CN109658985B CN201811591686.0A CN201811591686A CN109658985B CN 109658985 B CN109658985 B CN 109658985B CN 201811591686 A CN201811591686 A CN 201811591686A CN 109658985 B CN109658985 B CN 109658985B
Authority
CN
China
Prior art keywords
reference sequence
kmer
gene
sequence
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811591686.0A
Other languages
English (en)
Other versions
CN109658985A (zh
Inventor
李�根
宋卓
徐霞丽
冯博伦
赵丽霞
黄能超
毛海波
马丑贤
杨耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genetalks Bio Tech Changsha Co ltd
Original Assignee
Genetalks Bio Tech Changsha Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genetalks Bio Tech Changsha Co ltd filed Critical Genetalks Bio Tech Changsha Co ltd
Priority to CN201811591686.0A priority Critical patent/CN109658985B/zh
Publication of CN109658985A publication Critical patent/CN109658985A/zh
Application granted granted Critical
Publication of CN109658985B publication Critical patent/CN109658985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基因参考序列的去冗余优化方法及系统,针对基因参考序列,本发明通过按照指定步长遍历获取指定长度的连续参考序列Kmer,然后通过哈希桶将连续参考序列Kmer进行分散、选择性去冗余,再重新组装,从而在能够尽可能的减少参考序列Kmer的个数的同时保证连续参考序列Kmer的质量,本发明能够在保证尽量不减少压缩率的前提下减少基因参考序列的冗余度,精简出更适合的参考序列,使得优化后的基因参考序列体积更小,被用于做压缩参考索引时加载内存更快,从而提高基因数据的压缩效率。

Description

一种基因参考序列的去冗余优化方法及系统
技术领域
本发明涉及生物信息技术领域的FASTQ数据的压缩技术,具体涉及一种基因参考序列的去冗余优化方法及系统,用于实现基因参考序列的去冗余优化。
背景技术
通过FASTA生成的基因参考序列(ACTG),长度通常在10G至20G之间,存在下述技术问题:其一、档大,不利于存储;其二、当该档被用于做压缩参考索引时,将该文件从硬盘加载到内存需要消耗一定的时间,且服务器需要有足够的系统资源,这在一定程度上降低了压缩效率。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基因参考序列的去冗余优化方法及系统,本发明能够在保证尽量不减少压缩率的前提下减少基因参考序列的冗余度,精简出更适合的参考序列,使得优化后的基因参考序列体积更小,被用于做压缩参考索引时加载内存更快,从而提高基因数据的压缩效率。
为了解决上述技术问题,本发明采用的技术方案为:
一种基因参考序列的去冗余优化方法,实施步骤包括:
1)针对基因参考序列通过按照指定步长遍历获取指定长度的连续参考序列Kmer;
2)计算各个连续参考序列Kmer的哈希值,然后将哈希值与(2n - 1)做与逻辑运算后在预设的哈希桶中确定对应的槽位,并将连续参考序列Kmer在整个基因参考序列中的偏移量插入该槽位中,且记录发生冲突的槽位,所述哈希桶的槽位数为2n,n为自定义的自然数;
3)针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测,最终将冗余的连续参考序列Kmer删除,非冗余的连续参考序列Kmer保留且其对应的偏移量也需写入哈希桶对应的槽位;
4)基于保留下来的连续参考序列Kmer实现基因参考序列组装。
可选地,步骤2)中记录发生冲突的槽位具体是指针对发生冲突的槽位将对应的连续参考序列Kmer按照顺序采用链地址的方式记录;步骤3)中针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测的详细步骤包括:判断链地址中的各个连续参考序列Kmer是否冗余,如果任意连续参考序列Kmer在链地址为第一个元素,则判定该连续参考序列Kmer为非冗余;否则,在基因参考序列中从连续参考序列Kmer的起始位置获取指定长度N_read_size的基因序列A,从链地址其他所有连续参考序列Kmer的起始位置分别获取指定长度N_read_size的基因序列B(B1,..., Bn),如果基因序列A与基因序列B(B1-Bn)中所有成员的海明距离都大于预设阈值则判定该连续参考序列Kmer为非冗余,否则判定该连续参考序列Kmer为冗余。
可选地,步骤4)的详细步骤包括:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer均为非冗余,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
可选地,步骤4)的详细步骤包括:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer为非冗余的比例大于预设阈值,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
本发明还提供一种基因参考序列的去冗余优化系统,包括计算机设备,所述计算机设备被程序设计以执行本发明前述基因参考序列的去冗余优化方法的步骤;或者所述计算机设备的存储介质中存储有被程序设计以执行本发明前述基因参考序列的去冗余优化方法的计算机程序。。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有被程序设计以执行本发明前述基因参考序列的去冗余优化方法的计算机程序。
本发明还提供一种基因参考序列的去冗余优化系统,包括:
Kmer遍历程式单元,用于针对基因参考序列通过按照指定步长遍历获取指定长度的连续参考序列Kmer;
Kmer分散程序单元,用于计算各个连续参考序列Kmer的哈希值,然后将哈希值与(2n - 1)做与逻辑运算后在预设的哈希桶中确定对应的槽位,并将连续参考序列Kmer在整个基因参考序列中的偏移量插入该槽位中,且记录发生冲突的槽位,所述哈希桶的槽位数为2n,n为自定义的自然数;
Kmer去冗余程序单元,用于针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测,最终将冗余的连续参考序列Kmer删除,非冗余的连续参考序列Kmer保留且其对应的偏移量也需写入哈希桶对应的槽位;
新序列组装程序单元,用于基于保留下来的连续参考序列Kmer实现基因参考序列组装。
可选地,所述Kmer分散程序单元记录发生冲突的槽位具体是指针对发生冲突的槽位将对应的连续参考序列Kmer按照顺序采用链地址的方式记录;所述Kmer去冗余程序单元包括用于针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测的子程序单元,所述子程序单元被程序设计以执行下述步骤:判断链地址中的各个连续参考序列Kmer是否冗余,如果任意连续参考序列Kmer在链地址为第一个元素,则判定该连续参考序列Kmer为非冗余;否则,在基因参考序列中从连续参考序列Kmer的起始位置获取指定长度N_read_size的基因序列A,从链地址其他所有连续参考序列Kmer的起始位置分别获取指定长度N_read_size的基因序列B(B1,..., Bn),如果基因序列A与基因序列B(B1-Bn)中所有成员的海明距离都大于预设阈值则判定该连续参考序列Kmer为非冗余,否则判定该连续参考序列Kmer为冗余。
可选地,所述新序列组装程序单元被程序设计以执行下述步骤:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer均为非冗余,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
可选地,所述新序列组装程序单元被程序设计以执行下述步骤:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer为非冗余的比例大于预设阈值,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
和现有技术相比,本发明具有下述优点:本发明针对基因参考序列通过按照指定步长遍历获取指定长度的连续参考序列Kmer,然后通过哈希桶将连续参考序列Kmer进行分散、去冗余,然后根据去冗余的连续参考序列Kmer对连续参考序列Kmer中指定长度N_read_size的区间进行选择性组装,从而能够尽可能的减少连续参考序列Kmer的个数的同时保证连续参考序列Kmer的质量,本发明能够在保证尽量不减少压缩率的前提下减少基因参考序列的冗余度,精简出更适合的参考序列,使得优化后的基因参考序列体积更小,被用于做压缩参考索引时加载内存更快,从而提高基因数据的压缩效率。
附图说明
图1为本发明实施例一方法的基本流程示意图。
图2为本发明实施例一中获取连续参考序列Kmer的原理示意图。
图3为本发明实施例一中将连续参考序列Kmer分散的原理示意图。
图4为本发明实施例一中将连续参考序列Kmer去冗余的原理示意图。
图5为本发明实施例一中将连续参考序列Kmer去冗余得到的结果示意图。
具体实施方式
实施例一:
如图1所示,本实施例基因参考序列的去冗余优化方法的实施步骤包括:
1)针对基因参考序列通过按照指定步长(step)遍历获取指定长度的连续参考序列Kmer;
基因参考序列由一连串A、C、T、G组成,为了便于分析和处理数据,本文引入了连续参考序列Kmer的概念。连续参考序列Kmer是对一小段连续的ACTG参考序列的命名,每隔step步长取固定长度的ACTG参考序列,本实施例基因参考序列的去冗余优化方法称之为一个连续参考序列Kmer,连续参考序列Kmer的长度N_kmer可自行定义。假定基因参考序列总长度为N_total,那么对应整个基因参考序列,共有连续参考序列Kmer的个数为N_total -N_kmer + 1,本实施例基因参考序列的去冗余优化方法的目标就是通过算法尽可能的减少连续参考序列Kmer的个数,但同时必须保证连续参考序列Kmer的质量。
参见图2,本实施例中通过遍历依次得到的连续参考序列Kmer包括Kmer(1)~Kmer(7)等,本实施例中,指定步长step具体取值为1,假定连续参考序列Kmer的长度为150位,则第一次遍历得到的连续参考序列Kmer为0~149位,第二次遍历得到的连续参考序列Kmer为1~150位,依次类推。此外也可以根据需要取值为2或者更大的值等。
2)计算各个连续参考序列Kmer的哈希值,然后将哈希值与(2n - 1)做与逻辑运算后在预设的哈希桶(hash bucket)中确定对应的槽位,并将连续参考序列Kmer在整个基因参考序列中的偏移量插入该槽位中,且记录发生冲突的槽位,所述哈希桶的槽位数为2n,n为自定义的自然数;参见图3,分别将各个连续参考序列Kmer(Kmer(1)~Kmer(7)等)通过哈希函数计算哈希值,然后将哈希值与(2n - 1)做与逻辑运算后插入哈希桶(hash bucket)中对应的槽位中。
3)针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测,最终将冗余的连续参考序列Kmer删除,非冗余的连续参考序列Kmer保留且其对应的偏移量(offset)也需写入哈希桶对应的槽位;
本实施例中,步骤2)中记录发生冲突的槽位具体是指针对发生冲突的槽位将对应的连续参考序列Kmer按照顺序采用链地址的方式记录,此外也可以根据需要采用他处理hash冲突的方式记录。
本实施例中,步骤3)中针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测的详细步骤包括:判断链地址中的各个连续参考序列Kmer是否冗余,如果任意连续参考序列Kmer在链地址为第一个元素,则判定该连续参考序列Kmer为非冗余;否则,在基因参考序列中从连续参考序列Kmer的起始位置获取指定长度N_read_size的基因序列A,从链地址其他所有连续参考序列Kmer的起始位置分别获取指定长度N_read_size的基因序列B(B1,..., Bn),如果基因序列A与基因序列B(B1-Bn)中所有成员的海明距离都大于预设阈值则判定该连续参考序列Kmer为非冗余,否则判定该连续参考序列Kmer为冗余。
参见图4,当前正在插入的连续参考序列Kmer(6),对应偏移量5,在当前槽位16中已经有Kmer(4),对应偏移量3,插入时从连续参考序列Kmer(6) 的起始位置获取指定长度N_read_size的基因序列A,从连续参考序列Kmer(4) 的起始位置获取指定长度N_read_size的基因序列B,如果基因序列A、基因序列B之间的海明距离小于预设阈值则当前插入Kmer(6)是冗余的,因为当前槽位中Kmer(4)已经与Kmer(6)是相似的。本实施例中将连续参考序列Kmer(6) 不保留,如虚线圆圈所示。假如A和B海明距离大于预设阀值,则需要再继续遍历该槽位中所有其他的Kmer,如果都没有与Kmer(6)相似的Kmer,则Kmer(6)才保留,否则是冗余的。
参见图5,最终本实施例中判断连续参考序列Kmer(5)(偏移值为4)、连续参考序列Kmer(6) (偏移值为5)为冗余被删除。删除的方式既可以选择将偏移值不插入哈希桶,也可以选择将偏移值插入到哈希桶中,但是增加删除标记。
4)基于保留下来的连续参考序列Kmer实现基因参考序列组装。
本实施例中,步骤4)的详细步骤包括:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer均为非冗余,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
本实施例还提供一种基因参考序列的去冗余优化系统,包括计算机设备,计算机设备被程序设计以执行本实施例前述基因参考序列的去冗余优化方法的步骤。
本实施例还提供一种基因参考序列的去冗余优化系统,包括带有存储介质的计算机设备,该存储介质中存储有被程序设计以执行本实施例前述基因参考序列的去冗余优化方法的计算机程序。
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有被程序设计以执行本实施例前述基因参考序列的去冗余优化方法的计算机程序。
本实施例还提供一种基因参考序列的去冗余优化系统,包括:
Kmer遍历程式单元,用于针对基因参考序列通过按照指定步长遍历获取指定长度的连续参考序列Kmer;
Kmer分散程序单元,用于计算各个连续参考序列Kmer的哈希值,然后将哈希值与(2n - 1)做与逻辑运算后在预设的哈希桶中确定对应的槽位,并将连续参考序列Kmer在整个基因参考序列中的偏移量插入该槽位中,且记录发生冲突的槽位,所述哈希桶的槽位数为2n,n为自定义的自然数;
Kmer去冗余程序单元,用于针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测,最终将冗余的连续参考序列Kmer删除,非冗余的连续参考序列Kmer保留且其对应的偏移量也需写入哈希桶对应的槽位;
新序列组装程序单元,用于基于保留下来的连续参考序列Kmer实现基因参考序列组装。
本实施例中, Kmer分散程序单元记录发生冲突的槽位具体是指针对发生冲突的槽位将对应的连续参考序列Kmer按照顺序采用链地址的方式记录;Kmer去冗余程序单元包括用于针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测的子程序单元,子程序单元被程序设计以执行下述步骤:判断链地址中的各个连续参考序列Kmer是否冗余,如果任意连续参考序列Kmer在链地址为第一个元素,则判定该连续参考序列Kmer为非冗余;否则,在基因参考序列中从连续参考序列Kmer的起始位置获取指定长度N_read_size的基因序列A,从链地址其他所有连续参考序列Kmer的起始位置分别获取指定长度N_read_size的基因序列B(B1,..., Bn),如果基因序列A与基因序列B(B1-Bn)中所有成员的海明距离都大于预设阈值则判定该连续参考序列Kmer为非冗余,否则判定该连续参考序列Kmer为冗余。
本实施例中,新序列组装程序单元被程序设计以执行下述步骤:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer均为非冗余,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
实施例二:
本实施例与实施例一基本相同,其主要区别点为组装新的基因参考序列的方式有所不同:本实施例中,步骤4)的详细步骤包括:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer为非冗余的比例大于预设阈值(该预设阈值可以根据需要自定义),则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。对应地,本实施例基因参考序列的去冗余优化系统中,新序列组装程序单元被程序设计以执行下述步骤:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer为非冗余的比例大于预设阈值,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基因参考序列的去冗余优化方法,其特征在于实施步骤包括:
1)针对基因参考序列通过按照指定步长遍历获取指定长度的连续参考序列Kmer;
2)计算各个连续参考序列Kmer的哈希值,然后将哈希值与(2n - 1)做与逻辑运算后在预设的哈希桶中确定对应的槽位,并将连续参考序列Kmer在整个基因参考序列中的偏移量插入该槽位中,且记录发生冲突的槽位,所述哈希桶的槽位数为2n,n为自定义的自然数;
3)针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测,最终将冗余的连续参考序列Kmer删除,非冗余的连续参考序列Kmer保留且其对应的偏移量也需写入哈希桶对应的槽位;
4)基于保留下来的连续参考序列Kmer实现基因参考序列组装。
2.根据权利要求1所述的基因参考序列的去冗余优化方法,其特征在于:步骤2)中记录发生冲突的槽位具体是指针对发生冲突的槽位将对应的连续参考序列Kmer按照顺序采用链地址的方式记录;步骤3)中针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测的详细步骤包括:判断链地址中的各个连续参考序列Kmer是否冗余,如果任意连续参考序列Kmer在链地址为第一个元素,则判定该连续参考序列Kmer为非冗余;否则,在基因参考序列中从连续参考序列Kmer的起始位置获取指定长度N_read_size的基因序列A,从链地址其他所有连续参考序列Kmer的起始位置分别获取指定长度N_read_size的基因序列B,如果基因序列A与基因序列B中所有成员的海明距离都大于预设阈值则判定该连续参考序列Kmer为非冗余,否则判定该连续参考序列Kmer为冗余,其中基因序列B包括成员B1,..., Bn。
3.根据权利要求2所述的基因参考序列的去冗余优化方法,其特征在于:步骤4)的详细步骤包括:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer均为非冗余,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
4.根据权利要求2所述的基因参考序列的去冗余优化方法,其特征在于:步骤4)的详细步骤包括:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer为非冗余的比例大于预设阈值,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
5.一种基因参考序列的去冗余优化系统,包括计算机设备,其特征在于,所述计算机设备被程序设计以执行权利要求1~4中任意一项所述基因参考序列的去冗余优化方法的步骤;或者所述计算机设备的存储介质中存储有被程序设计以执行权利要求1~4中任意一项所述基因参考序列的去冗余优化方法的计算机程序。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有被程序设计以执行权利要求1~4中任意一项所述基因参考序列的去冗余优化方法的计算机程序。
7.一种基因参考序列的去冗余优化系统,包括:
Kmer遍历程式单元,用于针对基因参考序列通过按照指定步长遍历获取指定长度的连续参考序列Kmer;
Kmer分散程序单元,用于计算各个连续参考序列Kmer的哈希值,然后将哈希值与(2n -1)做与逻辑运算后在预设的哈希桶中确定对应的槽位,并将连续参考序列Kmer在整个基因参考序列中的偏移量插入该槽位中,且记录发生冲突的槽位,所述哈希桶的槽位数为2n,n为自定义的自然数;
Kmer去冗余程序单元,用于针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测,最终将冗余的连续参考序列Kmer删除,非冗余的连续参考序列Kmer保留且其对应的偏移量也需写入哈希桶对应的槽位;
新序列组装程序单元,用于基于保留下来的连续参考序列Kmer实现基因参考序列组装。
8.根据权利要求7所述的基因参考序列的去冗余优化系统,其特征在于:所述Kmer分散程序单元记录发生冲突的槽位具体是指针对发生冲突的槽位将对应的连续参考序列Kmer按照顺序采用链地址的方式记录;所述Kmer去冗余程序单元包括用于针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测的子程序单元,所述子程序单元被程序设计以执行下述步骤:判断链地址中的各个连续参考序列Kmer是否冗余,如果任意连续参考序列Kmer在链地址为第一个元素,则判定该连续参考序列Kmer为非冗余;否则,在基因参考序列中从连续参考序列Kmer的起始位置获取指定长度N_read_size的基因序列A,从链地址其他所有连续参考序列Kmer的起始位置分别获取指定长度N_read_size的基因序列B,如果基因序列A与基因序列B中所有成员的海明距离都大于预设阈值则判定该连续参考序列Kmer为非冗余,否则判定该连续参考序列Kmer为冗余,其中基因序列B包括成员B1,..., Bn。
9.根据权利要求7所述的基因参考序列的去冗余优化系统,其特征在于:所述新序列组装程序单元被程序设计以执行下述步骤:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer均为非冗余,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
10.根据权利要求7所述的基因参考序列的去冗余优化系统,其特征在于:所述新序列组装程序单元被程序设计以执行下述步骤:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer为非冗余的比例大于预设阈值,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
CN201811591686.0A 2018-12-25 2018-12-25 一种基因参考序列的去冗余优化方法及系统 Active CN109658985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811591686.0A CN109658985B (zh) 2018-12-25 2018-12-25 一种基因参考序列的去冗余优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811591686.0A CN109658985B (zh) 2018-12-25 2018-12-25 一种基因参考序列的去冗余优化方法及系统

Publications (2)

Publication Number Publication Date
CN109658985A CN109658985A (zh) 2019-04-19
CN109658985B true CN109658985B (zh) 2020-07-17

Family

ID=66116224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811591686.0A Active CN109658985B (zh) 2018-12-25 2018-12-25 一种基因参考序列的去冗余优化方法及系统

Country Status (1)

Country Link
CN (1) CN109658985B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627496B (zh) * 2020-05-09 2022-05-17 苏州浪潮智能科技有限公司 一种哈希表的压缩方法、系统及相关装置
CN115798591B (zh) * 2022-12-23 2023-05-23 哈尔滨星云医学检验所有限公司 一种基于希尔伯特分形的基因组序列压缩方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065067A (zh) * 2012-12-26 2013-04-24 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及系统
CN105335624A (zh) * 2015-10-09 2016-02-17 人和未来生物科技(长沙)有限公司 一种基于位图的基因序列片段快速定位方法
CN106778079A (zh) * 2016-11-22 2017-05-31 重庆邮电大学 一种基于MapReduce的DNA序列k‑mer频次统计方法
WO2018064653A1 (en) * 2016-09-30 2018-04-05 Indiana University Research And Technology Corporation Concurrent subtractive and subtractive assembly for comparative metagenomics

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065067A (zh) * 2012-12-26 2013-04-24 深圳先进技术研究院 短序列组装中序列片段的过滤方法及系统
CN104951672A (zh) * 2015-06-19 2015-09-30 中国科学院计算技术研究所 一种第二代、三代基因组测序数据联用的拼接方法及系统
CN105335624A (zh) * 2015-10-09 2016-02-17 人和未来生物科技(长沙)有限公司 一种基于位图的基因序列片段快速定位方法
WO2018064653A1 (en) * 2016-09-30 2018-04-05 Indiana University Research And Technology Corporation Concurrent subtractive and subtractive assembly for comparative metagenomics
CN106778079A (zh) * 2016-11-22 2017-05-31 重庆邮电大学 一种基于MapReduce的DNA序列k‑mer频次统计方法

Also Published As

Publication number Publication date
CN109658985A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN107391774B (zh) 基于重复数据删除的日志文件系统的垃圾回收方法
CN102999433B (zh) 一种虚拟磁盘的冗余数据删除方法及系统
CN110147204B (zh) 一种元数据落盘方法、装置、系统及计算机可读存储介质
CN101630290B (zh) 重复数据处理方法和装置
CN104281533B (zh) 一种存储数据的方法及装置
US20080195833A1 (en) Systems, methods and computer program products for operating a data processing system in which a file system's unit of memory allocation is coordinated with a storage system's read/write operation unit
CN104133641A (zh) 一种外部存储设备文件清除方法以及装置
US20160034201A1 (en) Managing de-duplication using estimated benefits
CN112395212A (zh) 减少键值分离存储系统的垃圾回收和写放大的方法及系统
CN110888837B (zh) 对象存储小文件归并方法及装置
CN109658985B (zh) 一种基因参考序列的去冗余优化方法及系统
CN103150260A (zh) 重复数据删除方法和装置
CN103514210A (zh) 小文件处理方法及装置
US9886561B2 (en) Efficient encoding and storage and retrieval of genomic data
CN109213450B (zh) 一种基于闪存阵列的关联元数据删除方法、装置及设备
CN107506466B (zh) 一种小文件存储方法及系统
US10423580B2 (en) Storage and compression of an aggregation file
CN113608695A (zh) 一种数据处理方法、系统、设备以及介质
CN115878027A (zh) 一种存储对象的处理方法、装置、终端及存储介质
CN106844491B (zh) 一种临时数据的写入、读取方法及写入、读取装置
CN109189345B (zh) 一种在线数据整理方法、装置、设备及存储介质
CN103210389B (zh) 一种元数据的处理方法和装置
CN112380174B (zh) 含删除文件的xfs文件系统解析方法、终端设备及存储介质
CN111880735B (zh) 一种存储系统中数据迁移方法、装置、设备及存储介质
CN110019086A (zh) 基于分布式文件系统的多副本读取方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 410000 No. 1101, C2 Building, Yuyuan, Lugu, 27 Wenxuan Road, Changsha High-tech Development Zone, Changsha City, Hunan Province

Applicant after: Human and Future Biotechnology (Changsha) Co., Ltd.

Address before: 410000 Building 1101, C2 Yuyuan, Lugu, No. 27 Wenxuan Road, Changsha High-tech Development Zone, Kaifu District, Changsha City, Hunan Province

Applicant before: Human and Future Biotechnology (Changsha) Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant