CN110310709A - 一种基于参考序列的基因压缩方法 - Google Patents

一种基于参考序列的基因压缩方法 Download PDF

Info

Publication number
CN110310709A
CN110310709A CN201910598102.0A CN201910598102A CN110310709A CN 110310709 A CN110310709 A CN 110310709A CN 201910598102 A CN201910598102 A CN 201910598102A CN 110310709 A CN110310709 A CN 110310709A
Authority
CN
China
Prior art keywords
character
gene
binary group
written
lowercase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910598102.0A
Other languages
English (en)
Other versions
CN110310709B (zh
Inventor
季一木
陈帅
尧海昌
李奎
刘尚东
方厚之
刘强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910598102.0A priority Critical patent/CN110310709B/zh
Publication of CN110310709A publication Critical patent/CN110310709A/zh
Application granted granted Critical
Publication of CN110310709B publication Critical patent/CN110310709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于参考序列的基因压缩方法,首先任意选取一个基因序列作为参考序列。其次,获取参考序列的小写字符和ACGT,并以二元组表示小写字符。然后,读取参考文件,获得参考文件的头部、换行信息、小写字符、N字符、碱基信息和其他字符,并将换行长度、小写字符、N字符和其他字符表示成二元组。接着,匹配参考序列和待压缩序列的小写字符二元组。最后匹配Hash值。解压缩过种采用压缩过程相反的步骤。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。

Description

一种基于参考序列的基因压缩方法
技术领域
本发明涉及一种基因序列压缩的方案,主要用于解决基因序列数据过大,存储和传输成本高等问题,属于压缩算法领域。
背景技术
基因是DNA上有遗传效应的片断,人类的生老病死等都与基因有关。基因数据研究可以获得对生命运行机制和疾病机理等的深入研究,在生物医药学和相关生物技术产业,如制药、农、林、牧、渔、环保等的发展发挥越来越重要的作用,对于推动精准医疗,助力解决三大民生问题之一的医疗问题,具有重要的作用。因此,基因数据因其重要的社会价值和科研价值受到国际社会的广泛重视。自1990年正式启动的国际人类基因组计划以来,随着基因测序技术的不断进步,基因测序成本的不断降低,测序速度不断提高,众多国家和组织纷纷启动基因工程计划。2017年12月28日,我国启动“中国十万人基因组计划”,这是我国在人类基因组研究领域实施的首个重大国家计划,也是目前世界最大规模的人类基因组计划。随着各种测序项目的展开,产生的序列数据量呈指数规模增长,而且未来增长速度会更快。基因数据增长的速度大大超过了存储和传输带宽增长的速度,给存储和传输带来了很大的压力。如何以更高的效率存储基因数据,减轻存储和传输压力,在基因研究和应用中着十分重要的作用。
DNA序列数据具有与其他数据截然不同的特性,DNA序列是仅由A、G、C、T四个符号构成的超长序列,构成种类简单但是序列长度巨大。很大一部分DNA序列至今无法确定其用途,如果数据压缩过程中出现丢失,可能造成不可估量的损失,所以DNA序列必须保证无损压缩。另外,DNA序列中碱基对的排列并不是随机的,具有特定的概率分布和规律性。而且,DNA序列具有高度的相似性。首先,不同物种间的DNA序列相似度很高,同一物种间的DNA序列相似性更为明显。其次,同一个体内的不同片断的DNA序列也存在着许多精确重复。利用DNA这些信息特点,工业界和学术界提出了众多利用DNA序列特征的DNA序列压缩方法。经过对现在技术的文献检索发现,2000年T Matsumoto和K Sadakane在Genome Informatics上的“Biological sequence compression algorithms”提出了CTW+LZ方法,将上下文树加权(Context Tree Weighting,CTW)方法和LZ压缩方法相结合,使用多个编码模型对DNA序列的不同片断进行压缩。2002年,X Chen和M Li在Bioinformatics上的“DNACompress:fastand effective DNA sequence compression”提出了DNACompress压缩方法,使用了Pattern Hunter工具搜索DNA序列的重复与近似重复片断,提高了方法的整体速度。2005年,G Korodi和I Tabus在ACM Transactions on Information Systems上的“AnEffective Normalized Maximum Likelihood Algorithm for DNA SequenceCompression”提出了GeNML方法,对具有不同数据特点的DNA片断使用不同的编码策略和概率模型进行压缩。2013年,Sebastian Wandelt and Uif Leser在IEEE/ACM Transactionson Computational Biology and Bioinformatics的“FRESCO:Referential Compressionof Highly Similar Sequences”提出了一种叫FRESCO的快速基因压缩方法,它采用了一种用参考基因来表示被压缩基因的方法。2015年,Xiaojing Xie,Shuigeng Zhou和JihongGuan在IEEE/ACM Transactions on Computational Biology and Bioinformatics的“CoGI:Towards Compressing Genomes as an Image”上提出了一种用图模型来表示基因数据,从而可以利用图压缩技术来压缩基因模型的方法。总结这些DNA序列压缩方法可以分为两大类:基于非参考序列的DNA序列压缩方法和基于参考序列的DNA序列压缩方法,这些方法都有效的提高了压缩比和压缩效率。但总体而言,DNA序列的压缩技术仍处于起步阶段,组成基因片断的生物信息特征及片断内部的细节重复特性并没有被充分发挥利用。基因序列之间的特征也还没有被充分挖掘。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种面向多条序列的以二元组形式表示基因序列的基于参考序列的基因压缩方法,该方法能显著提高压缩效率,实现高效存储。首先选取参考序列,然后根据参考序列将待压缩序列的碱基信息、小写字母、N字符和其他字符的数据以二元组数据结构形式表示。通过对比参考基因文件和待压缩基因文件,根据基因具有高度相似性特点,在压缩文件中以二元组形式写入两个基因文件中相同的部分,并将不同的部分单独写入压缩文件,比较的元素包括碱基信息、小写字符、N字符、换行信息、以及其他字符。既充分利用了基因文件的高度相似性特点,又规避了单独文件压缩的局限性,大大的提高了基因压缩的效率,具有较高的研究意义。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于参考序列的基因压缩方法,首先遍历参考基因文件,提取小写字符和碱基信息;然后遍历待压缩基因文件,提取碱基信息、小写字符、换行信息、N字符和其他字符;最后通过比较,将生成的二元组写入文件,实现基因压缩,具体包括以下步骤:
步骤1)、遍历参考基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符时,将其写入内存;遇到小写的碱基字符时,将其转成大写字符,然后写入内存,并且使用开始位置与长度二元组记录参考基因文件小写字符的位置信息,得到参考基因文件小写字符二元组;
步骤2)、参考基因文件碱基信息Hash值计算;使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段;
步骤3)、遍历待压缩基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符、N字符和其他字符时,将其写入内存;遇到小写的碱基字符、N字符和其他字符时,将其转成大写字符,然后写入内存;同时将换行信息也写入内存;并且使用开始位置与长度二元组记录压缩基因文件小写字符的位置信息,得到压缩基因文件小写字符二元组;
步骤4)、小写字符写入压缩文件;对比已经生成的小写字符二元组,将待压缩基因文件的小写字符二元组对比参考基因文件的小写字符二元组,进一步将相同的部分用二元组表示,并写入压缩文件;不同的部分直接写入压缩文件;
步骤5)、换行信息、N字符和其他字符写入压缩文件;将带压缩文件中换行信息、N字符和其他字符以二元组形式表示并将二元组写入压缩文件;
步骤6)、碱基信息写入压缩文件;使用k-mer方法对带压缩基因文件每一段求取Hash值,并根据Hash值匹配得到与参考基因文件相同的k-mer段,记录该k-mer段的开始位置与连续重复最大长度为一个新二元组,直至遍历待压缩基因文件小写字符二元组完成,生成新二元组写入压缩文件。
优选的:步骤2)中使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段的方法:
首先将A、C、G、T信息编码,分别使用0、1、2、3表示;其次从首位开始,选取连续的11位字符,将第一位的数字与4的10次方相乘,将第二位的数字与4的9次方相乘,以此类推,直至最后一位数字与4的0次方相乘,然后将各个结果相加得到最终的结果即为Hash值,并存入Hash表中。
优选的:步骤2)中Hash值计算方法:
对于一段字符(x10x9x8x7x6x5x4x3x2x1x0),其中xi对应的编码为code(xi),则计算Hash值的方式为
HashValue表示Hash值。
本发明相比现有技术,具有以下有益效果:
本发明提出的基于二元组模型的基因压缩方法,提高了基因压缩的效率。基因序列转换成二元组形式后,一个对顺序有严格要求的基因序列变成与顺序无关,有利于利用分布式存储和计算提升基因压缩和分析的效率。
附图说明
图1本发明方法的压缩/解压缩流程图
图2 ref信息提取流程图
图3 Hash表构建流程图
图4 tar信息提取流程图
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于参考序列的基因压缩方法,,主要用于解决基因序列数据过大,存储和传输成本高等问题。对基因文件单独压缩具有一个压缩率瓶颈,而基因文件之间存在着高度的相似性,利用参考文件对基因文件进行压缩能够大大地提升基因压缩率。首先从众多待压缩基因序列中选取参考序列,然后将待压缩基因与压缩基因进行运算,达到存储中去除冗余数据的目的,最后对参考序列等进行单独压缩,如图1所示,具体包括以下步骤:
步骤1)、遍历参考基因文件;如图2所示,将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符时,将其写入内存;遇到小写的碱基字符时,将其转成大写字符,然后写入内存,并且使用开始位置与长度二元组记录参考基因文件小写字符的位置信息,得到参考基因文件小写字符二元组;
参考序列只需要获取其全部的碱基信息即可,需要将文件中小写字符a、c、g、t表示的碱基信息转换成大写字符A、C、G、T表示,并且使用开始位置与长度二元组记录小写字符的位置信息。
步骤2)、参考基因文件碱基信息Hash值计算;如图3所示,使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段;
首先将A、C、G、T信息编码,分别使用0、1、2、3表示。其次从首位开始,选取连续的11位字符,将第一位的数字与4的10次方相乘,将第二位的数字与4的9次方相乘,以此类推,直至最后一位数字与4的0次方相乘,然后将各个结果相加得到最终的结果即为Hash值,并存入Hash表中。
步骤3)、遍历待压缩基因文件;如图4所示,将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符、N字符和其他字符时,将其写入内存;遇到小写的碱基字符、N字符和其他字符时,将其转成大写字符,然后写入内存;同时将换行信息也写入内存;并且使用开始位置与长度二元组记录压缩基因文件小写字符的位置信息,得到压缩基因文件小写字符二元组;
从待压缩序列中得到小写字符信息、N字符信息、未测明字符信息以及A、C、G、T信息。其中小写字符信息和A、C、G、T信息的获取和参考序列一样取得二元组,N字符信息同样记录开始位置与长度二元组信息,而未测明字符信息由于数量微少,记录其存在的位置以及使用0、1、2、3表示的碱基二元组信息。
步骤4)、小写字符写入压缩文件;对比已经生成的小写字符二元组,将待压缩基因文件的小写字符二元组对比参考基因文件的小写字符二元组,进一步将相同的部分用二元组表示,并写入压缩文件;不同的部分直接写入压缩文件;
参考序列和待压缩序列的碱基信息的小写字符连续相同匹配。小写字符序列在基因序列中也存在着大量的重复,匹配连续重复的小写字符序列可以降低存储。使用顺序和倒序两次匹配的方法,寻求最大连续匹配长度。若不能匹配,则写入(0,1),如匹配长度为1,则同样写入(0,1)。匹配成功和匹配不成功的第一个序列均放入到diff_pos_vec序列中。
步骤5)、换行信息、N字符和其他字符写入压缩文件;将带压缩文件中换行信息、N字符和其他字符以二元组形式表示并将二元组写入压缩文件;
步骤6)、碱基信息写入压缩文件;使用k-mer方法对带压缩基因文件每一段求取Hash值,并根据Hash值匹配得到与参考基因文件相同的k-mer段,记录该k-mer段的开始位置与连续重复最大长度为一个新二元组,直至遍历待压缩基因文件小写字符二元组完成,生成新二元组写入压缩文件。
从待压缩序列第一组开始计算Hash值并与参考序列的Hash表匹配,若有多组可以匹配,则选取长度最大的一组。并将不能匹配的少许组直接写入到文件中。
1)小写字符二元组生成,参考基因文件和待压缩基因文件都需要生成此二元组,如图2所示。首先设置length=0并开始遍历基因文件,通过函数判断该字符是否为小写。若不是小写字符,则执行length++,并进行下一个字符判断;若是小写字符,则将length赋值给二元组的第一个位置,同时执行length=0并迭代,若字符仍为小写,则length++,直至出现下一个大写字符,将length赋值给二元组的第二个位置,同时执行length=0。
2)碱基信息提取,参考基因文件和带压缩基因文件都需要将碱基信息提取到内存中。遍历基因文件,若是大写字符的碱基信息,则直接写入到ref_seq_code或tar_seq_code中;若是小写字符的碱基信息,则将其转化为对应的大写字符,并写入到ref_seq_code或tar_seq_code中,直至文件读取完成。
3)Hash值计算,如图3所示,将碱基信息A、C、G、T分别编码为0、1、2、3,取k-mer每段长度为11个字符。对于一段字符(x10x9x8x7x6x5x4x3x2x1x0),其中xi对应的编码为code(xi),则计算Hash值的方式为
4)小写字符二元组进一步压缩。经过研究表明,基因文件之间小写字符二元组的相似性也非常地高。因此,将待压缩基因文件的小写字符二元组根据参考基因文件的二元组使用新二元组表示,可以进一步降低压缩文件大小,增大压缩率。比较待压缩基因文件第一个二元组,在参考基因文件二元组中遍历查找符合条件,并通过迭代比较出连续重复长度最大的二元组,记录该二元组的开始位置与连续重复最大长度为新二元组。直至遍历待压缩基因文件小写字符二元组完成,将新二元组写入文件。
5)碱基信息匹配。利用计算的Hash值实现碱基信息的匹配,比较待压缩基因文件第一个k-mer段Hash值,在参考基因文件Hash表中遍历查找符合条件的匹配Hash值,并通过迭代比较出连续重复长度最大的k-mer段,记录该k-mer段的开始位置与连续重复最大长度为一个二元组。直至遍历待压缩基因文件小写字符二元组完成,将新二元组写入文件。
压缩的过程具体步骤如下所示:
1.任意选取一个基因序列作为参考序列。
2.读取参考序列,并提取信息,如图2所示。
3.计算Hash值,构建Hash表,如图3所示。
4.待压缩基因序列读取,提取相关信息,如图4所示。
5.匹配小写字符二元组,将大量重复的小写字符二元组表示为连续重复最长的开始位置与长度二元组。
6.匹配Hash值,将大量重复的字符中连续重复最长的开始位置与长度写入文件,并把不能匹配的字符的连续长度以及相关字符直接写入文件。
本发明首先任意选取一个基因序列作为参考序列。其次,获取参考序列的小写字符和ACGT,并以二元组表示小写字符。然后,读取参考文件,获得参考文件的头部、换行信息、小写字符、N字符、碱基信息和其他字符,并将换行长度、小写字符、N字符和其他字符表示成二元组。接着,匹配参考序列和待压缩序列的小写字符二元组,利用他们大量重复的特点再次压缩,将待压缩序列二元组表示成开始重复的位置和长度二元组。最后匹配Hash值,由于ACGT大量重复,只在文件中写入最长重复开始位置和长度,并将未能匹配成功的字符直接编码写入。解压缩过种采用压缩过程相反的步骤。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于参考序列的基因压缩方法,其特征在于,包括以下步骤:
步骤1)、遍历参考基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符时,将其写入内存;遇到小写的碱基字符时,将其转成大写字符,然后写入内存,并且使用开始位置与长度二元组记录参考基因文件小写字符的位置信息,得到参考基因文件小写字符二元组;
步骤2)、参考基因文件碱基信息Hash值计算;使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段;
步骤3)、遍历待压缩基因文件;将其中小写字符写入内存,此小写字符信息包括碱基、N字符和其他字符在内的所有小写字符信息;遍历过程中遇到大写的碱基字符、N字符和其他字符时,将其写入内存;遇到小写的碱基字符、N字符和其他字符时,将其转成大写字符,然后写入内存;同时将换行信息也写入内存;并且使用开始位置与长度二元组记录压缩基因文件小写字符的位置信息,得到压缩基因文件小写字符二元组;
步骤4)、小写字符写入压缩文件;对比已经生成的小写字符二元组,将待压缩基因文件的小写字符二元组对比参考基因文件的小写字符二元组,进一步将相同的部分用二元组表示,并写入压缩文件;不同的部分直接写入压缩文件;
步骤5)、换行信息、N字符和其他字符写入压缩文件;将带压缩文件中换行信息、N字符和其他字符以二元组形式表示并将二元组写入压缩文件;
步骤6)、碱基信息写入压缩文件;使用k-mer方法对带压缩基因文件每一段求取Hash值,并根据Hash值匹配得到与参考基因文件相同的k-mer段,记录该k-mer段的开始位置与连续重复最大长度为一个新二元组,直至遍历待压缩基因文件小写字符二元组完成,生成新二元组写入压缩文件。
2.根据权利要求1所述基于参考序列的基因压缩方法,其特征在于:步骤2)中使用k-mer方法将基因分段,对碱基ACGT分别编码,并计算Hash值,使得每一个Hash值代表一个基因片段的方法:
首先将A、C、G、T信息编码,分别使用0、1、2、3表示;其次从首位开始,选取连续的11位字符,将第一位的数字与4的10次方相乘,将第二位的数字与4的9次方相乘,以此类推,直至最后一位数字与4的0次方相乘,然后将各个结果相加得到最终的结果即为Hash值,并存入Hash表中。
3.根据权利要求2所述基于参考序列的基因压缩方法,其特征在于:步骤2)中Hash值计算方法:
对于一段字符(x10x9x8x7x6x5x4x3x2x1x0),其中xi对应的编码为code(xi),则计算Hash值的方式为
HashValue表示Hash值。
CN201910598102.0A 2019-07-04 2019-07-04 一种基于参考序列的基因压缩方法 Active CN110310709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910598102.0A CN110310709B (zh) 2019-07-04 2019-07-04 一种基于参考序列的基因压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910598102.0A CN110310709B (zh) 2019-07-04 2019-07-04 一种基于参考序列的基因压缩方法

Publications (2)

Publication Number Publication Date
CN110310709A true CN110310709A (zh) 2019-10-08
CN110310709B CN110310709B (zh) 2022-08-16

Family

ID=68079650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910598102.0A Active CN110310709B (zh) 2019-07-04 2019-07-04 一种基于参考序列的基因压缩方法

Country Status (1)

Country Link
CN (1) CN110310709B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145834A (zh) * 2019-11-29 2020-05-12 中科曙光(南京)计算技术有限公司 多线程基因数据压缩方法、装置
CN111625509A (zh) * 2020-05-26 2020-09-04 福州数据技术研究院有限公司 深度测序基因序列数据文件的无损压缩方法
CN118522351A (zh) * 2024-07-23 2024-08-20 齐鲁工业大学(山东省科学院) 一种基于人工智能的dna测序数据存储方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1443449A2 (en) * 2003-02-03 2004-08-04 Samsung Electronics Co., Ltd. Apparatus, method and computer readable medium for encoding a DNA sequence
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN109698703A (zh) * 2017-10-20 2019-04-30 人和未来生物科技(长沙)有限公司 基因测序数据解压方法、系统及计算机可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1443449A2 (en) * 2003-02-03 2004-08-04 Samsung Electronics Co., Ltd. Apparatus, method and computer readable medium for encoding a DNA sequence
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN109698703A (zh) * 2017-10-20 2019-04-30 人和未来生物科技(长沙)有限公司 基因测序数据解压方法、系统及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
史晓楠等: "一种改进的基于Hash算法及概率的k-mer索引方法", 《通信电源技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145834A (zh) * 2019-11-29 2020-05-12 中科曙光(南京)计算技术有限公司 多线程基因数据压缩方法、装置
CN111145834B (zh) * 2019-11-29 2023-10-27 中科曙光(南京)计算技术有限公司 多线程基因数据压缩方法、装置
CN111625509A (zh) * 2020-05-26 2020-09-04 福州数据技术研究院有限公司 深度测序基因序列数据文件的无损压缩方法
CN118522351A (zh) * 2024-07-23 2024-08-20 齐鲁工业大学(山东省科学院) 一种基于人工智能的dna测序数据存储方法及系统

Also Published As

Publication number Publication date
CN110310709B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
Wuchty et al. Complete suboptimal folding of RNA and the stability of secondary structures
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
JP2019537172A (ja) バイオインフォマティクスデータのインデックスを付けるための方法及びシステム
CN103093121B (zh) 双向多步deBruijn图的压缩存储和构造方法
Wandelt et al. RCSI: Scalable similarity search in thousand (s) of genomes
CN103546160A (zh) 基于多参考序列的基因序列分级压缩方法
CN105760706B (zh) 一种二代测序数据的压缩方法
CN109830263A (zh) 一种基于寡核苷酸序列编码存储的dna存储方法
CN107066837A (zh) 一种有参考dna序列压缩方法和系统
CN109979537A (zh) 一种面向多条序列的基因序列数据压缩方法
CN110310709A (zh) 一种基于参考序列的基因压缩方法
Karasikov et al. Sparse binary relation representations for genome graph annotation
CN112256727B (zh) 基于人工智能技术的数据库查询处理及优化方法
Cao et al. FMG: An observable DNA storage coding method based on frequency matrix game graphs
Gupta et al. Fast processing and querying of 170tb of genomics data via a repeated and merged bloom filter (rambo)
CN108287985A (zh) 一种gpu加速的dna序列压缩方法及系统
Beal et al. Efficient pattern matching for RNA secondary structures
CN114678074B (zh) 一种隐藏寻址的dna存储编码设计方法
CN107633158A (zh) 对基因序列进行压缩和解压缩的方法和设备
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台
Li et al. HL-DNA: A hybrid lossy/lossless encoding scheme to enhance DNA storage density and robustness for images
Cisłak et al. SOPanG 2: online searching over a pan-genome without false positives
Zhang et al. Spider-web generates coding algorithms with superior error tolerance and real-time information retrieval capacity
CN103326731B (zh) 一种基于分布式算术编码的隐马尔科夫相关信源编码方法
Pizzi et al. Efficient algorithms for sequence analysis with entropic profiles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant