CN110310709B - 一种基于参考序列的基因压缩方法 - Google Patents

一种基于参考序列的基因压缩方法 Download PDF

Info

Publication number
CN110310709B
CN110310709B CN201910598102.0A CN201910598102A CN110310709B CN 110310709 B CN110310709 B CN 110310709B CN 201910598102 A CN201910598102 A CN 201910598102A CN 110310709 B CN110310709 B CN 110310709B
Authority
CN
China
Prior art keywords
characters
file
lower case
gene
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910598102.0A
Other languages
English (en)
Other versions
CN110310709A (zh
Inventor
季一木
陈帅
尧海昌
李奎
刘尚东
方厚之
刘强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910598102.0A priority Critical patent/CN110310709B/zh
Publication of CN110310709A publication Critical patent/CN110310709A/zh
Application granted granted Critical
Publication of CN110310709B publication Critical patent/CN110310709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于参考序列的基因压缩方法,首先任意选取一个基因序列作为参考序列。其次,获取参考序列的小写字符和ACGT,并以二元组表示小写字符。然后,读取参考文件,获得参考文件的头部、换行信息、小写字符、N字符、碱基信息和其他字符,并将换行长度、小写字符、N字符和其他字符表示成二元组。接着,匹配参考序列和待压缩序列的小写字符二元组。最后匹配Hash值。解压缩过种采用压缩过程相反的步骤。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。

Description

一种基于参考序列的基因压缩方法
技术领域
本发明涉及一种基因序列压缩的方案,主要用于解决基因序列数据过大,存储和传输成本高等问题,属于压缩算法领域。
背景技术
基因是DNA上有遗传效应的片段,人类的生老病死等都与基因有关。基因数据研究可以获得对生命运行机制和疾病机理等的深入研究,在生物医药学和相关生物技术产业,如制药、农、林、牧、渔、环保等的发展发挥越来越重要的作用,对于推动精准医疗,助力解决三大民生问题之一的医疗问题,具有重要的作用。因此,基因数据因其重要的社会价值和科研价值受到国际社会的广泛重视。自1990年正式启动的国际人类基因组计划以来,随着基因测序技术的不断进步,基因测序成本的不断降低,测序速度不断提高,众多国家和组织纷纷启动基因工程计划。2017年12月28日,我国启动“中国十万人基因组计划”,这是我国在人类基因组研究领域实施的首个重大国家计划,也是目前世界最大规模的人类基因组计划。随着各种测序项目的展开,产生的序列数据量呈指数规模增长,而且未来增长速度会更快。基因数据增长的速度大大超过了存储和传输带宽增长的速度,给存储和传输带来了很大的压力。如何以更高的效率存储基因数据,减轻存储和传输压力,在基因研究和应用中着十分重要的作用。
DNA序列数据具有与其他数据截然不同的特性,DNA序列是仅由A、G、C、T四个符号构成的超长序列,构成种类简单但是序列长度巨大。很大一部分DNA序列至今无法确定其用途,如果数据压缩过程中出现丢失,可能造成不可估量的损失,所以DNA序列必须保证无损压缩。另外,DNA序列中碱基对的排列并不是随机的,具有特定的概率分布和规律性。而且,DNA序列具有高度的相似性。首先,不同物种间的DNA序列相似度很高,同一物种间的DNA序列相似性更为明显。其次,同一个体内的不同片段的DNA序列也存在着许多精确重复。利用DNA这些信息特点,工业界和学术界提出了众多利用DNA序列特征的DNA序列压缩方法。经过对现在技术的文献检索发现,2000年T Matsumoto和K Sadakane在Genome Informatics上的“Biological sequence compression algorithms”提出了CTW+LZ方法,将上下文树加权(Context Tree Weighting,CTW)方法和LZ压缩方法相结合,使用多个编码模型对DNA序列的不同片段进行压缩。2002年,X Chen和M Li在Bioinformatics上的“DNACompress:fastand effective DNA sequence compression”提出了DNACompress压缩方法,使用了Pattern Hunter工具搜索DNA序列的重复与近似重复片段,提高了方法的整体速度。2005年,G Korodi和I Tabus在ACM Transactions on Information Systems上的“AnEffective Normalized Maximum Likelihood Algorithm for DNA SequenceCompression”提出了GeNML方法,对具有不同数据特点的DNA片段使用不同的编码策略和概率模型进行压缩。2013年,Sebastian Wandelt and Uif Leser在IEEE/ACM Transactionson Computational Biology and Bioinformatics的“FRESCO:Referential Compressionof Highly Similar Sequences”提出了一种叫FRESCO的快速基因压缩方法,它采用了一种用参考基因来表示被压缩基因的方法。2015年,Xiaojing Xie,Shuigeng Zhou和JihongGuan在IEEE/ACM Transactions on Computational Biology and Bioinformatics的“CoGI:Towards Compressing Genomes as an Image”上提出了一种用图模型来表示基因数据,从而可以利用图压缩技术来压缩基因模型的方法。总结这些DNA序列压缩方法可以分为两大类:基于非参考序列的DNA序列压缩方法和基于参考序列的DNA序列压缩方法,这些方法都有效的提高了压缩比和压缩效率。但总体而言,DNA序列的压缩技术仍处于起步阶段,组成基因片段的生物信息特征及片段内部的细节重复特性并没有被充分发挥利用。基因序列之间的特征也还没有被充分挖掘。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种面向多条序列的以二元组形式表示基因序列的基于参考序列的基因压缩方法,该方法能显著提高压缩效率,实现高效存储。首先选取参考序列,然后根据参考序列将待压缩序列的碱基信息、小写字母、N字符和其他字符的数据以二元组数据结构形式表示。通过对比参考基因文件和待压缩基因文件,根据基因具有高度相似性特点,在压缩文件中以二元组形式写入两个基因文件中相同的部分,并将不同的部分单独写入压缩文件,比较的元素包括碱基信息、小写字符、N字符、换行信息、以及其他字符。既充分利用了基因文件的高度相似性特点,又规避了单独文件压缩的局限性,大大的提高了基因压缩的效率,具有较高的研究意义。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于参考序列的基因压缩方法,首先遍历参考基因文件,提取小写字符和碱基信息;然后遍历待压缩基因文件,提取碱基信息、小写字符、换行信息、N字符和其他字符;最后通过比较,将生成的二元组写入文件,实现基因压缩,具体包括以下步骤:
步骤1)、遍历参考基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符时,将其写入内存;遇到小写的碱基字符时,将其转成大写字符,然后写入内存,并且使用开始位置与长度二元组记录参考基因文件小写字符的位置信息,得到参考基因文件小写字符二元组;
步骤2)、参考基因文件碱基信息Hash值计算;使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段;
步骤3)、遍历待压缩基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符、N字符和其他字符时,将其写入内存;遇到小写的碱基字符、N字符和其他字符时,将其转成大写字符,然后写入内存;同时将换行信息也写入内存;并且使用开始位置与长度二元组记录压缩基因文件小写字符的位置信息,得到压缩基因文件小写字符二元组;
步骤4)、小写字符写入压缩文件;对比已经生成的小写字符二元组,将待压缩基因文件的小写字符二元组对比参考基因文件的小写字符二元组,进一步将相同的部分用二元组表示,并写入压缩文件;不同的部分直接写入压缩文件;
步骤5)、换行信息、N字符和其他字符写入压缩文件;将带压缩文件中换行信息、N字符和其他字符以二元组形式表示并将二元组写入压缩文件;
步骤6)、碱基信息写入压缩文件;使用k-mer方法对带压缩基因文件每一段求取Hash值,并根据Hash值匹配得到与参考基因文件相同的k-mer段,记录该k-mer段的开始位置与连续重复最大长度为一个新二元组,直至遍历待压缩基因文件小写字符二元组完成,生成新二元组写入压缩文件。
优选的:步骤2)中使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段的方法:
首先将A、C、G、T信息编码,分别使用0、1、2、3表示;其次从首位开始,选取连续的11位字符,将第一位的数字与4的10次方相乘,将第二位的数字与4的9次方相乘,以此类推,直至最后一位数字与4的0次方相乘,然后将各个结果相加得到最终的结果即为Hash值,并存入Hash表中。
优选的:步骤2)中Hash值计算方法:
对于一段字符(x10x9x8x7x6x5x4x3x2x1x0),其中xi对应的编码为code(xi),则计算Hash值的方式为
Figure GDA0003724314210000031
HashValue表示Hash值。
本发明相比现有技术,具有以下有益效果:
本发明提出的基于二元组模型的基因压缩方法,提高了基因压缩的效率。基因序列转换成二元组形式后,一个对顺序有严格要求的基因序列变成与顺序无关,有利于利用分布式存储和计算提升基因压缩和分析的效率。
附图说明
图1本发明方法的压缩/解压缩流程图
图2ref信息提取流程图
图3Hash表构建流程图
图4tar信息提取流程图
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于参考序列的基因压缩方法,,主要用于解决基因序列数据过大,存储和传输成本高等问题。对基因文件单独压缩具有一个压缩率瓶颈,而基因文件之间存在着高度的相似性,利用参考文件对基因文件进行压缩能够大大地提升基因压缩率。首先从众多待压缩基因序列中选取参考序列,然后将待压缩基因与压缩基因进行运算,达到存储中去除冗余数据的目的,最后对参考序列等进行单独压缩,如图1所示,具体包括以下步骤:
步骤1)、遍历参考基因文件;如图2所示,将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符时,将其写入内存;遇到小写的碱基字符时,将其转成大写字符,然后写入内存,并且使用开始位置与长度二元组记录参考基因文件小写字符的位置信息,得到参考基因文件小写字符二元组;
参考序列只需要获取其全部的碱基信息即可,需要将文件中小写字符a、c、g、t表示的碱基信息转换成大写字符A、C、G、T表示,并且使用开始位置与长度二元组记录小写字符的位置信息。
步骤2)、参考基因文件碱基信息Hash值计算;如图3所示,使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段;
首先将A、C、G、T信息编码,分别使用0、1、2、3表示。其次从首位开始,选取连续的11位字符,将第一位的数字与4的10次方相乘,将第二位的数字与4的9次方相乘,以此类推,直至最后一位数字与4的0次方相乘,然后将各个结果相加得到最终的结果即为Hash值,并存入Hash表中。
步骤3)、遍历待压缩基因文件;如图4所示,将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符、N字符和其他字符时,将其写入内存;遇到小写的碱基字符、N字符和其他字符时,将其转成大写字符,然后写入内存;同时将换行信息也写入内存;并且使用开始位置与长度二元组记录压缩基因文件小写字符的位置信息,得到压缩基因文件小写字符二元组;
从待压缩序列中得到小写字符信息、N字符信息、未测明字符信息以及A、C、G、T信息。其中小写字符信息和A、C、G、T信息的获取和参考序列一样取得二元组,N字符信息同样记录开始位置与长度二元组信息,而未测明字符信息由于数量微少,记录其存在的位置以及使用0、1、2、3表示的碱基二元组信息。
步骤4)、小写字符写入压缩文件;对比已经生成的小写字符二元组,将待压缩基因文件的小写字符二元组对比参考基因文件的小写字符二元组,进一步将相同的部分用二元组表示,并写入压缩文件;不同的部分直接写入压缩文件;
参考序列和待压缩序列的碱基信息的小写字符连续相同匹配。小写字符序列在基因序列中也存在着大量的重复,匹配连续重复的小写字符序列可以降低存储。使用顺序和倒序两次匹配的方法,寻求最大连续匹配长度。若不能匹配,则写入(0,1),如匹配长度为1,则同样写入(0,1)。匹配成功和匹配不成功的第一个序列均放入到diff_pos_vec序列中。
步骤5)、换行信息、N字符和其他字符写入压缩文件;将带压缩文件中换行信息、N字符和其他字符以二元组形式表示并将二元组写入压缩文件;
步骤6)、碱基信息写入压缩文件;使用k-mer方法对带压缩基因文件每一段求取Hash值,并根据Hash值匹配得到与参考基因文件相同的k-mer段,记录该k-mer段的开始位置与连续重复最大长度为一个新二元组,直至遍历待压缩基因文件小写字符二元组完成,生成新二元组写入压缩文件。
从待压缩序列第一组开始计算Hash值并与参考序列的Hash表匹配,若有多组可以匹配,则选取长度最大的一组。并将不能匹配的少许组直接写入到文件中。
1)小写字符二元组生成,参考基因文件和待压缩基因文件都需要生成此二元组,如图2所示。首先设置length=0并开始遍历基因文件,通过函数判断该字符是否为小写。若不是小写字符,则执行length++,并进行下一个字符判断;若是小写字符,则将length赋值给二元组的第一个位置,同时执行length=0并迭代,若字符仍为小写,则length++,直至出现下一个大写字符,将length赋值给二元组的第二个位置,同时执行length=0。
2)碱基信息提取,参考基因文件和带压缩基因文件都需要将碱基信息提取到内存中。遍历基因文件,若是大写字符的碱基信息,则直接写入到ref_seq_code或tar_seq_code中;若是小写字符的碱基信息,则将其转化为对应的大写字符,并写入到ref_seq_code或tar_seq_code中,直至文件读取完成。
3)Hash值计算,如图3所示,将碱基信息A、C、G、T分别编码为0、1、2、3,取k-mer每段长度为11个字符。对于一段字符(x10x9x8x7x6x5x4x3x2x1x0),其中xi对应的编码为code(xi),则计算Hash值的方式为
Figure GDA0003724314210000051
4)小写字符二元组进一步压缩。经过研究表明,基因文件之间小写字符二元组的相似性也非常地高。因此,将待压缩基因文件的小写字符二元组根据参考基因文件的二元组使用新二元组表示,可以进一步降低压缩文件大小,增大压缩率。比较待压缩基因文件第一个二元组,在参考基因文件二元组中遍历查找符合条件,并通过迭代比较出连续重复长度最大的二元组,记录该二元组的开始位置与连续重复最大长度为新二元组。直至遍历待压缩基因文件小写字符二元组完成,将新二元组写入文件。
5)碱基信息匹配。利用计算的Hash值实现碱基信息的匹配,比较待压缩基因文件第一个k-mer段Hash值,在参考基因文件Hash表中遍历查找符合条件的匹配Hash值,并通过迭代比较出连续重复长度最大的k-mer段,记录该k-mer段的开始位置与连续重复最大长度为一个二元组。直至遍历待压缩基因文件小写字符二元组完成,将新二元组写入文件。
压缩的过程具体步骤如下所示:
1.任意选取一个基因序列作为参考序列。
2.读取参考序列,并提取信息,如图2所示。
3.计算Hash值,构建Hash表,如图3所示。
4.待压缩基因序列读取,提取相关信息,如图4所示。
5.匹配小写字符二元组,将大量重复的小写字符二元组表示为连续重复最长的开始位置与长度二元组。
6.匹配Hash值,将大量重复的字符中连续重复最长的开始位置与长度写入文件,并把不能匹配的字符的连续长度以及相关字符直接写入文件。
本发明首先任意选取一个基因序列作为参考序列。其次,获取参考序列的小写字符和ACGT,并以二元组表示小写字符。然后,读取参考文件,获得参考文件的头部、换行信息、小写字符、N字符、碱基信息和其他字符,并将换行长度、小写字符、N字符和其他字符表示成二元组。接着,匹配参考序列和待压缩序列的小写字符二元组,利用他们大量重复的特点再次压缩,将待压缩序列二元组表示成开始重复的位置和长度二元组。最后匹配Hash值,由于ACGT大量重复,只在文件中写入最长重复开始位置和长度,并将未能匹配成功的字符直接编码写入。解压缩过种采用压缩过程相反的步骤。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (1)

1.一种基于参考序列的基因压缩方法,其特征在于,包括以下步骤:
步骤1)、遍历参考基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符时,将其写入内存;遇到小写的碱基字符时,将其转成大写字符,然后写入内存,并且使用开始位置与长度二元组记录参考基因文件小写字符的位置信息,得到参考基因文件小写字符二元组;
步骤2)、参考基因文件碱基信息Hash值计算;使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段;
使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段的方法:
首先将A、C、G、T信息编码,分别使用0、1、2、3表示;其次从首位开始,选取连续的11位字符,将第一位的数字与4的10次方相乘,将第二位的数字与4的9次方相乘,以此类推,直至最后一位数字与4的0次方相乘,然后将各个结果相加得到最终的结果即为Hash值,并存入Hash表中;
Hash值计算方法:
对于一段字符x10x9x8x7x6x5x4x3x2x1x0,其中xi对应的编码为code(xi),则计算Hash值的方式为
Figure FDA0003724314200000011
其中,HashValue表示Hash值;
步骤3)、遍历待压缩基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符、N字符和其他字符时,将其写入内存;遇到小写的碱基字符、N字符和其他字符时,将其转成大写字符,然后写入内存;同时将换行信息也写入内存;并且使用开始位置与长度二元组记录压缩基因文件小写字符的位置信息,得到压缩基因文件小写字符二元组;
步骤4)、小写字符写入压缩文件;对比已经生成的小写字符二元组,将待压缩基因文件的小写字符二元组对比参考基因文件的小写字符二元组,进一步将相同的部分用二元组表示,并写入压缩文件;不同的部分直接写入压缩文件;
步骤5)、换行信息、N字符和其他字符写入压缩文件;将带压缩文件中换行信息、N字符和其他字符以二元组形式表示并将二元组写入压缩文件;
步骤6)、碱基信息写入压缩文件;使用k-mer方法对带压缩基因文件每一段求取Hash值,并根据Hash值匹配得到与参考基因文件相同的k-mer段,记录该k-mer段的开始位置与连续重复最大长度为一个新二元组,直至遍历待压缩基因文件小写字符二元组完成,生成新二元组写入压缩文件。
CN201910598102.0A 2019-07-04 2019-07-04 一种基于参考序列的基因压缩方法 Active CN110310709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910598102.0A CN110310709B (zh) 2019-07-04 2019-07-04 一种基于参考序列的基因压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910598102.0A CN110310709B (zh) 2019-07-04 2019-07-04 一种基于参考序列的基因压缩方法

Publications (2)

Publication Number Publication Date
CN110310709A CN110310709A (zh) 2019-10-08
CN110310709B true CN110310709B (zh) 2022-08-16

Family

ID=68079650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910598102.0A Active CN110310709B (zh) 2019-07-04 2019-07-04 一种基于参考序列的基因压缩方法

Country Status (1)

Country Link
CN (1) CN110310709B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145834B (zh) * 2019-11-29 2023-10-27 中科曙光(南京)计算技术有限公司 多线程基因数据压缩方法、装置
CN111625509A (zh) * 2020-05-26 2020-09-04 福州数据技术研究院有限公司 深度测序基因序列数据文件的无损压缩方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1443449A2 (en) * 2003-02-03 2004-08-04 Samsung Electronics Co., Ltd. Apparatus, method and computer readable medium for encoding a DNA sequence
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN109698703A (zh) * 2017-10-20 2019-04-30 人和未来生物科技(长沙)有限公司 基因测序数据解压方法、系统及计算机可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1443449A2 (en) * 2003-02-03 2004-08-04 Samsung Electronics Co., Ltd. Apparatus, method and computer readable medium for encoding a DNA sequence
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN109698703A (zh) * 2017-10-20 2019-04-30 人和未来生物科技(长沙)有限公司 基因测序数据解压方法、系统及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种改进的基于Hash算法及概率的k-mer索引方法;史晓楠等;《通信电源技术》;20170525(第03期);第76-78页 *

Also Published As

Publication number Publication date
CN110310709A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN109979537B (zh) 一种面向多条序列的基因序列数据压缩方法
CN107066837B (zh) 一种有参考dna序列压缩方法和系统
CN110021369B (zh) 基因测序数据压缩解压方法、系统及计算机可读介质
CN105760706B (zh) 一种二代测序数据的压缩方法
CN103546160A (zh) 基于多参考序列的基因序列分级压缩方法
CN110310709B (zh) 一种基于参考序列的基因压缩方法
CN109450452B (zh) 一种针对基因数据的取样字典树索引的压缩方法和系统
US20200402618A1 (en) Gene sequencing quality line data compression pre-processing and decompression and restoration methods, and system
WO2019076177A1 (zh) 基因测序数据压缩预处理、压缩、解压方法、系统及计算机可读介质
CN108287985A (zh) 一种gpu加速的dna序列压缩方法及系统
CN109256178B (zh) 基因组测序数据的Leon-RC压缩方法
CN110021368B (zh) 比对型基因测序数据压缩方法、系统及计算机可读介质
CN107633158A (zh) 对基因序列进行压缩和解压缩的方法和设备
Tang et al. Transformation of FASTA files into feature vectors for unsupervised compression of short reads databases
CN109698703B (zh) 基因测序数据解压方法、系统及计算机可读介质
CN102932001B (zh) 运动捕获数据压缩、解压缩方法
CN108388574B (zh) 基于triplet深度二值网络的快速人脸检索方法
CN114678074A (zh) 一种隐藏寻址的dna存储编码设计方法
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台
CN110111851B (zh) 基因测序数据压缩方法、系统及计算机可读介质
CN114730616A (zh) 信息编码和解码方法、装置、存储介质以及信息存储和解读方法
CN111145834B (zh) 多线程基因数据压缩方法、装置
CN109698704B (zh) 比对型基因测序数据解压方法、系统及计算机可读介质
Soliman et al. A lossless compression algorithm for DNA sequences
Zhan et al. A novel method to compress high-throughput DNA sequence read archive

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant