CN102081707B - 一种dna序列数据压缩和解压系统及方法 - Google Patents

一种dna序列数据压缩和解压系统及方法 Download PDF

Info

Publication number
CN102081707B
CN102081707B CN2011100026012A CN201110002601A CN102081707B CN 102081707 B CN102081707 B CN 102081707B CN 2011100026012 A CN2011100026012 A CN 2011100026012A CN 201110002601 A CN201110002601 A CN 201110002601A CN 102081707 B CN102081707 B CN 102081707B
Authority
CN
China
Prior art keywords
dna sequence
sequence data
arv
compression
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011100026012A
Other languages
English (en)
Other versions
CN102081707A (zh
Inventor
纪震
周家锐
朱泽轩
储颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN2011100026012A priority Critical patent/CN102081707B/zh
Publication of CN102081707A publication Critical patent/CN102081707A/zh
Priority to US13/978,408 priority patent/US20130282677A1/en
Priority to PCT/CN2011/084708 priority patent/WO2012092821A1/zh
Application granted granted Critical
Publication of CN102081707B publication Critical patent/CN102081707B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种DNA序列数据压缩系统,是一种基于MA-ARV码本的DNA序列数据无损压缩系统,可在全序列上搜索MA-ARV码矢量的近似重复片段,并使用文化基因启发式优化算法(MA)对压缩码本的构造过程进行优化,从而更全面地利用DNA序列数据的重复特性,有效消除冗余。

Description

一种DNA序列数据压缩和解压系统及方法
技术领域
本发明涉及数据压缩领域,特别涉及一种基于文化基因近似重复矢量模型的DNA序列数据无损压缩和解压系统及方法。
背景技术
DNA是物种细胞内用于存储遗传指令信息的双链状聚合物,是生物生存、延续与发展的重要物质基础。DNA序列数据是DNA物质在生物信息学(Bioinformatics)上的抽象模型,包含了完整的遗传信息,具有重要的科研价值与社会意义。为获得各种生物的遗传信息,各种DNA测序工程陆续展开,产生了海量的DNA序列数据,为现有数据存储与传输资源带来巨大压力。因而需要对DNA序列数据进行压缩处理。目前学术界尚未完全了解DNA内包含的所有信息,故只能使用无损的压缩编码方法。另一方面,由于DNA序列具有独特的生物数据特点,传统的通用压缩算法无法对其进行有效编码,从而催生了专门针对DNA序列数据的压缩方法。
现有较为典型的DNA序列数据压缩方法为BioCompress-2系统。BioCompress-2是首个具有实用意义的DNA序列数据压缩系统,也是后续改进系统的基础。
DNA序列具有由A(Adenine,腺嘌呤)、T(Thymine,胸腺嘧啶)、C(Cytosine,胞嘧啶)、G(Guanine,鸟嘌呤)四种碱基符号构成一维长字符串的数据形式。若不考虑其生物学含义,可视作普通文本数据进行压缩编码。在BioCompress-2中,引入通用的LZ压缩算法对输入数据进行编码处理。LZ算法可有效消除一般文本数据中的冗余。但DNA序列具有特殊数据构成,仅使用LZ算法对其进行压缩常常会导致编码后数据量反而有所增加。为解决这一问题,BioCompress-2系统引入对比编码前后数据量的处理方法。仅当使用LZ算法压缩后数据体积实际有所减小时,才对输入的DNA序列数据进行编码操作,否则将维持数据原状。此外,BioCompress-2系统在压缩编码时,不仅搜索直接重复的片段,也同样寻找最长的回文重复序列(Palindrome)。通过使用滑动窗范围内的直接重复模型与回文重复模型概括输入数据中的冗余信息,BioCompress-2算法可有效提升在DNA序列上的压缩性能。
BioCompress-2系统及以其为基础的改进DNA序列数据压缩系统,常包含三个主要缺陷:
第一,系统仅使用直接重复模型与回文重复模型描述DNA序列的冗余,并不足以涵盖序列数据的所有特点。从而在压缩时,仍有很大部分的重复片段因其模式未被考虑而无法进行编码处理。影响了压缩效果。
第二,BioCompress-2系统在匹配时仅考虑了精确重复的数据。而DNA序列来源于生物细胞内的实际遗传物质,其在复制、杂交及演化过程中会出现大量的碱基符号变异(Mutation)与损坏(Damage)。因此DNA序列中的重复更多地以近似重复的形式存在。压缩系统仅对精确重复片段进行搜索,将遗漏大量近似重复的数据冗余。
第三,使用LZ算法进行压缩编码时,其搜索范围仅为滑动窗缓冲区内的部分序列。而源于生物实际物质的DNA序列数据与普通的文本数据有所不同,其大规模重复更可能出现于相距较远的位置,超越了一般LZ算法滑动窗的覆盖范围。从而在搜索时,LZ算法仅能找到小规模的片段重复,导致其编码后数据量往往反而有所膨胀。这也在很大程度上限制了BioCompress-2系统的压缩性能。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种DNA序列数据压缩和解压系统及方法,旨在解决现有技术中所存在的问题。
本发明的技术方案如下:
一种DNA序列数据压缩和解压系统,其中,所述DNA序列数据压缩和解压系统包括:
MA-ARV码本设计模块,用于构造针对当前输入DNA序列数据的压缩码本;
DNA序列数据压缩模块,用于根据MA-ARV码本对输入数据进行无损压缩编码;
DNA序列数据解压模块,用于对压缩后的数据文件进行解压恢复操作;
DNA序列数据压缩和解压系统所述DNA序列数据压缩和解压系统还包括输入模块、检测模块和输出模块;
所述输入模块、检测模块、DNA序列数据压缩模块与输出模块依次相连,所述检测模块还分别与MA-ARV码本设计模块、DNA序列数据解压模块相连,所述MA-ARV码本设计模块与DNA序列数据压缩模块相连;
DNA序列数据压缩和解压系统所述MA-ARV码本设计模块基于文化基因的近似重复矢量模型,将当前输入DNA序列数据表示为MA-ARV矢量v,其直接重复模式冗余片段表示为相同矢量v,镜像重复片段为矢量v-1;根据碱基配对原则,对于配对重复片段有矢量v*,对于反转重复片段有矢量
所述的DNA序列数据压缩和解压系统,其中,所述DNA序列数据压缩和解压系统在压缩数据时,使用编码格式为{id,repeat type,{edit error}},其中id为对应MA-ARV码矢量编号,repeat type为重复模式类型,edit error为编辑误差信息序列。
所述的DNA序列数据压缩和解压系统,其中,所述编辑误差信息序列用{offset,edittype,symbol}的格式进行编码;其中offset为编辑操作碱基的位置,edittype为操作类型符号:S表示替换、D表示删除、I表示插入,symbol为操作的碱基符号。
一种DNA序列数据压缩和解压方法,其中,包括以下步骤:
数据输入;
检测输入的数据是否为未经过压缩的DNA序列数据,如果是,则对所述DNA序列数据进行压缩,如果否,则对所述DNA序列数据进行解压;
其中,对所述DNA序列数据进行解压的过程为:进入DNA序列数据解压模块,对压缩后的数据文件进行解压恢复操作;最后输出解压恢复的未经过压缩的DNA序列数据;
对所述DNA序列数据进行压缩的过程为:
S300、检测输入的数据是否包含MA-ARV码本,如果是,执行S311,如果否,执行S321;
S321、进入MA-ARV码本设计模块,构造针对当前输入DNA序列数据的压缩码本,然后执行S311;
S311、进入DNA序列数据压缩模块,根据MA-ARV码本对输入数据进行无损压缩编码:
S312、最后输出压缩后的DNA序列数据;
所述MA-ARV码本设计模块基于文化基因的近似重复矢量模型,将当前输入DNA序列数据表示为MA-ARV矢量v,其直接重复模式冗余片段表示为相同矢量v,镜像重复片段为矢量v-1;根据碱基配对原则,对于配对重复片段有矢量v*,对于反转重复片段有矢量
Figure GDA00002141491400031
有益效果:本发明提出的一种基于MA-ARV码本的DNA序列数据无损压缩系统,可在全序列上搜索MA-ARV码矢量的近似重复片段,并使用文化基因启发式优化算法(MA)对压缩码本的构造过程进行优化,从而更全面地利用DNA序列数据的重复特性,有效消除冗余,提升整体压缩率。
附图说明
图1为DNA序列中的直接重复模式的示意图。
图2为DNA序列中的镜像重复模式的示意图。
图3为DNA序列中的配对重复模式的示意图。
图4为DNA序列中的反转重复模式的示意图。
图5为MA-ARV矢量模型v的示意图。
图6为MA-ARV矢量模型v的直接重复模式v的示意图。
图7为MA-ARV矢量模型v的镜像重复模式v-1的示意图。
图8为MA-ARV矢量模型v的配对重复模式v*的示意图。
图9为MA-ARV矢量模型v的反转重复模式
Figure GDA00002141491400041
的示意图。
图10为MA-ARV中的编辑误差编码的示意图。
图11为DNA序列数据压缩和解压系统的系统框图。
图12为基于MA-ARV的DNA序列数据压缩和解压系统流程图。
图13为基于字典的DNA序列数据压缩编码图。
具体实施方式
本发明提供一种DNA序列数据压缩和解压系统及方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
与普通文本字符串相比,DNA序列数据具有以下三个主要显著特点:
第一,DNA序列数据存在着大量的相似冗余。其中既有简单的片段重复,也有大规模的基因序列复制。DNA序列数据的高度相似性是其压缩算法的根本依据。理论上若能使用涵盖能力足够好的数据模型描述DNA序列数据中的冗余,便能取得较高的压缩比例。
第二,DNA序列数据中的重复具有多种特有模式。如图1~图4所示,DNA序列中的近似片段既有常见的直接重复(Direct Repeat)模式,亦有独特的镜像重复(MirrorRepeat)、配对重复(Pairing Repeat)和反转重复(Inverted Repeat)等模式。其中反转重复亦即BioCompress-2算法中使用的回文重复。直接重复模式在一般字符串数据中普遍存在,而镜像重复则较少见,后两种模式更是DNA序列数据所独有的,仅因为DNA特有的双链结构及碱基配对原则才会产生。
第三,DNA序列中的重复更多地表示为近似重复形式,即可视作各种模式的精确重复片段,通过一定数量的碱基插入(Insertion)、删减(Deletion)和替换(Substitution)的编辑操作而获得。这种近似重复的特点是DNA物质的生物属性所决定的。
由上述分析可见,BioCompress-2等传统压缩系统仅使用了这些独有数据特点中的很小一部分,限制了其压缩能力的提升。
为解决这一问题,本发明DNA序列数据压缩和解压系统及方法将DNA序列数据的重复特点归纳总结,提出了基于文化基因的近似重复矢量(Memetic Algorithm BasedApproximate Repeat Vector,MA-ARV)冗余描述模型,用于统一涵盖处理DNA序列的相似片段。
MA-ARV是指基于文化基因算法(Memetic Algorithm,MA)的具有四种重复模式的有向序列子串。如图5~图9所示,对于DNA序列数据的MA-ARV矢量v,其直接重复模式冗余片段可表示为相同矢量v,镜像重复片段为矢量v-1;根据碱基配对原则,对于配对重复片段有矢量v*,对于反转重复片段有矢量
Figure GDA00002141491400051
此处上标“-1”表示碱基符号顺序的反转,上标“*”表示碱基的互补配对。从而在搜索过程中,DNA序列数据的4种重复模式片段可统一使用相同的MA-ARV模型进行描述。而在压缩编码时,4种重复片段亦只需记录其对应的单一MA-ARV序列即可。
在压缩时,MA-ARV序列的重复片段可使用格式{id,repeat type}进行编码。其中id为重复片段对应的MA-ARV序列编号,repeat type为重复模式类型:D表示直接重复(Direct Repeat),M表示镜像重复(Mirror Repeat)、P代表配对重复(Pairing Repeat),I代表反转重复(Inverted Repeat)。
对于近似的DNA重复片段,MA-ARV将对其碱基编辑误差信息进行单独编码。如图10所示,对于已知MA-ARV序列v,其近似重复片段中的编辑误差可以{offset,edit type,symbol}的格式进行编码。其中offset为编辑操作碱基的位置,edit type为操作类型符号:S表示替换(Substitution)、D表示删除(Deletion)、I表示插入(Insertion)。式中symbol为操作的碱基符号。
例如,图10中有MA-ARV序列:
v=“CCAGT”
则对于重复片段Fragment 1,可视为由MA-ARV矢量v将第3个符号“A”替换为碱基“C”而成,亦即其误差可编码为{3,S,“C”}。其余两个片段Fragment 2及Fragment 3亦可类似编码为{3,D}及{3,I,“C”}。其中v转换为Fragment 2时的第3个符号“A”为需删除的冗余碱基,因此仅记录删除操作符D即可。
MA-ARV模型涵盖了DNA重复片段的三个主要数据特点,可更全面地描述序列数据中的冗余信息。
本发明DNA序列数据压缩和解压系统使用了基于字典的压缩方法,并将MA-ARV模型引入了DNA序列数据的编码过程。本发明DNA序列数据压缩和解压系统主要包含三个功能模块:(1)MA-ARV码本设计模块,主要用于构造针对当前输入DNA序列数据的压缩码本;(2)DNA序列数据压缩模块,主要用于根据MA-ARV码本对输入数据进行无损压缩编码;(3)DNA序列数据解压模块,用于对压缩后的数据文件进行解压恢复操作。
本发明DNA序列数据压缩和解压系统还包括输入模块、检测模块和输出模块;所述输入模块、检测模块、DNA序列数据压缩模块与输出模块依次相连,所述检测模块还分别与MA-ARV码本设计模块、DNA序列数据解压模块相连,所述MA-ARV码本设计模块与DNA序列数据压缩模块相连。
所述输入模块用于输入DNA序列数据,所述检测模块用于检测输入是否为未经过压缩的DNA序列数据和检测输入数据是否包含MA-ARV码本,所述输出模块用于输出压缩后的DNA序列数据或解压恢复的未经过压缩的DNA序列数据。
本发明基于字典的DNA序列数据压缩编码的方法如图12所示:
S100、数据输入;
S200、检测输入是否为未经过压缩的DNA序列数据,如果是,执行S300,如果否,执行S400;
S300、检测输入数据是否包含MA-ARV码本,如果是,执行S311,如果否,执行S321;
S311、进入DNA序列数据压缩模块,根据MA-ARV码本对输入数据进行无损压缩编码;
S312、最后输出压缩后的DNA序列数据;
S321、进入MA-ARV码本设计模块,构造针对当前输入DNA序列数据的压缩码本,然后执行S311;
S400、进入DNA序列数据解压模块,对压缩后的数据文件进行解压恢复操作;
S410、最后输出解压恢复的未经过压缩的DNA序列数据。
本发明DNA序列数据压缩和解压系统的压缩原理如图13所示,设未经过压缩的DNA序列数据中包含一组MA-ARV的近似重复片段,包括全部4种重复模式。则MA-ARV码本设计模块将在全序列中搜索所有重复片段的位置、模式及编辑误差信息。通过将这组MA-ARM序列作为编码矢量(Code Vector)并构造压缩码本(Codebook),算法使用重复片段的对应码矢量序号及其编辑误差信息替换原有序列片段,以达到消除数据冗余的目的。本发明系统使用MA启发式优化算法对MA-ARV压缩码本的构造设计过程进行优化。
在压缩数据时,本发明系统使用编码格式为{id,repeat type,{edit error}},其中id为对应MA-ARV码矢量编号,repeat type为重复模式,edit error为编辑误差信息序列。例如,压缩码本中位于序号i的MA-ARV码矢量为:
vi=“CCAGT”
在未经过压缩的DNA序列数据中有片段:
“…TTCTGACTCAA…”
可知其包含序列
I=“TGACTC”
为MA-ARV矢量vi的近似重复片段,则此部分可编码为:
“…TTC{i,M,{2,I,“T”}}AA…”
从而表示编码部分为编号i的MA-ARV码矢量vi的镜像重复片段,可通过编辑操作对码矢量第2个碱基处插入符号“T”获得。
由于MA-ARV模型有效描述了DNA序列数据的冗余,而基于字典的压缩算法可搜索所有位置上的MA-ARV码矢量重复片段,因此本方法涵盖了DNA序列的主要相似性数据特点,可获得比传统方法更高的压缩能力。
在解压缩时,只需根据压缩码本及编辑误差信息,替换恢复出原始的DNA序列数据即可。
本发明DNA序列数据压缩和解压系统可产生的优点主要包括:
第一,在总结归纳DNA序列独特数据重复特性的基础上,提出了概括能力更强的MA-ARV数据模型,用于描述序列的冗余信息。通过将其应用于DNA序列数据的压缩编码处理,可完整涵盖DNA序列的独有数据特点,搜索匹配更多重复片段,并使用统一的MA-ARV码矢量进行纪录,从而有效提升压缩性能。
第二,提出了一种基于MA-ARV码本的DNA序列数据无损压缩系统,可在全序列上搜索MA-ARV码矢量的近似重复片段,并使用文化基因启发式优化算法(MA)对压缩码本的构造过程进行优化,从而更全面地利用DNA序列数据的重复特性,有效消除冗余,提升压缩率。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (4)

1.一种DNA序列数据压缩和解压系统,其特征在于,所述DNA序列数据压缩和解压系统包括:
MA-ARV码本设计模块,用于构造针对当前输入DNA序列数据的压缩码本;
DNA序列数据压缩模块,用于根据MA-ARV码本对输入数据进行无损压缩编码;
DNA序列数据解压模块,用于对压缩后的数据文件进行解压恢复操作;
所述DNA序列数据压缩和解压系统还包括输入模块、检测模块和输出模块;
所述输入模块、检测模块、DNA序列数据压缩模块与输出模块依次相连,所述检测模块还分别与MA-ARV码本设计模块、DNA序列数据解压模块相连,所述MA-ARV码本设计模块与DNA序列数据压缩模块相连;
所述MA-ARV码本设计模块基于文化基因的近似重复矢量模型,将当前输入DNA序列数据表示为MA-ARV矢量v,其直接重复模式冗余片段表示为相同矢量v,镜像重复片段为矢量v-1;根据碱基配对原则,对于配对重复片段有矢量v*,对于反转重复片段有矢量
Figure FDA00002141491300011
2.根据权利要求1所述的DNA序列数据压缩和解压系统,其特征在于,所述DNA序列数据压缩和解压系统在压缩数据时,使用编码格式为{id,repeat type,{edit error}},其中id为对应MA-ARV码矢量编号,repeat type为重复模式类型,edit error为编辑误差信息序列;其中,repeat type为重复模式类型:D表示直接重复,M表示镜像重复、P代表配对重复,I代表反转重复。
3.根据权利要求2所述的DNA序列数据压缩和解压系统,其特征在于,所述编辑误差信息序列用{offset,edit type,symbol}的格式进行编码;其中offset为编辑操作碱基的位置,edittype为操作类型符号:S表示替换、D表示删除、I表示插入,symbol为操作的碱基符号。
4.一种DNA序列数据压缩和解压方法,其特征在于,包括以下步骤:
数据输入;
检测输入的数据是否为未经过压缩的DNA序列数据,如果是,则对所述DNA序列数据进行压缩,如果否,则对所述DNA序列数据进行解压;
其中,对所述DNA序列数据进行解压的过程为:进入DNA序列数据解压模块,对压缩后的数据文件进行解压恢复操作;最后输出解压恢复的未经过压缩的DNA序列数据;
对所述DNA序列数据进行压缩的过程为:
S300、检测输入的数据是否包含MA-ARV码本,如果是,执行S311,如果否,执行S321;
S321、进入MA-ARV码本设计模块,构造针对当前输入DNA序列数据的压缩码本,然后执行S311;
S311、进入DNA序列数据压缩模块,根据MA-ARV码本对输入数据进行无损压缩编码;
S312、最后输出压缩后的DNA序列数据;
所述MA-ARV码本设计模块基于文化基因的近似重复矢量模型,将当前输入DNA序列数据表示为MA-ARV矢量v,其直接重复模式冗余片段表示为相同矢量v,镜像重复片段为矢量v-1;根据碱基配对原则,对于配对重复片段有矢量v*,对于反转重复片段有矢量
Figure FDA00002141491300021
CN2011100026012A 2011-01-07 2011-01-07 一种dna序列数据压缩和解压系统及方法 Expired - Fee Related CN102081707B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2011100026012A CN102081707B (zh) 2011-01-07 2011-01-07 一种dna序列数据压缩和解压系统及方法
US13/978,408 US20130282677A1 (en) 2011-01-07 2011-12-27 Data compression system for dna sequence
PCT/CN2011/084708 WO2012092821A1 (zh) 2011-01-07 2011-12-27 一种dna序列数据压缩系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100026012A CN102081707B (zh) 2011-01-07 2011-01-07 一种dna序列数据压缩和解压系统及方法

Publications (2)

Publication Number Publication Date
CN102081707A CN102081707A (zh) 2011-06-01
CN102081707B true CN102081707B (zh) 2013-04-17

Family

ID=44087666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100026012A Expired - Fee Related CN102081707B (zh) 2011-01-07 2011-01-07 一种dna序列数据压缩和解压系统及方法

Country Status (3)

Country Link
US (1) US20130282677A1 (zh)
CN (1) CN102081707B (zh)
WO (1) WO2012092821A1 (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081707B (zh) * 2011-01-07 2013-04-17 深圳大学 一种dna序列数据压缩和解压系统及方法
US8751166B2 (en) * 2012-03-23 2014-06-10 International Business Machines Corporation Parallelization of surprisal data reduction and genome construction from genetic data for transmission, storage, and analysis
US8812243B2 (en) 2012-05-09 2014-08-19 International Business Machines Corporation Transmission and compression of genetic data
US8855938B2 (en) 2012-05-18 2014-10-07 International Business Machines Corporation Minimization of surprisal data through application of hierarchy of reference genomes
US10353869B2 (en) 2012-05-18 2019-07-16 International Business Machines Corporation Minimization of surprisal data through application of hierarchy filter pattern
US9002888B2 (en) 2012-06-29 2015-04-07 International Business Machines Corporation Minimization of epigenetic surprisal data of epigenetic data within a time series
US8972406B2 (en) 2012-06-29 2015-03-03 International Business Machines Corporation Generating epigenetic cohorts through clustering of epigenetic surprisal data based on parameters
CN103546162B (zh) * 2013-09-22 2016-08-17 上海交通大学 基于非连续上下文建模和最大熵原则的基因压缩方法
CN103546160B (zh) * 2013-09-22 2016-07-06 上海交通大学 基于多参考序列的基因序列分级压缩方法
WO2015120170A1 (en) * 2014-02-05 2015-08-13 Bigdatabio, Llc Methods and systems for biological sequence compression transfer and encryption
US10902937B2 (en) 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
CN103995988B (zh) * 2014-05-30 2017-02-01 周家锐 一种高通量dna测序质量分数无损压缩系统及压缩方法
WO2016081712A1 (en) * 2014-11-19 2016-05-26 Bigdatabio, Llc Systems and methods for genomic manipulations and analysis
CN105760706B (zh) * 2014-12-15 2018-05-29 深圳华大基因研究院 一种二代测序数据的压缩方法
US10673826B2 (en) 2015-02-09 2020-06-02 Arc Bio, Llc Systems, devices, and methods for encrypting genetic information
CN104834822A (zh) * 2015-05-15 2015-08-12 无锡职业技术学院 一种基于文化基因算法的传递函数辨识方法
WO2018000174A1 (zh) * 2016-06-28 2018-01-04 深圳大学 面向存储的dna序列的并行快速匹配方法及其系统
KR102219745B1 (ko) 2016-08-31 2021-02-23 후아웨이 테크놀러지 컴퍼니 리미티드 생물학적 서열 데이터 처리 방법 및 장치
CN107169315B (zh) * 2017-03-27 2020-08-04 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种海量dna数据的传输方法及系统
WO2019040871A1 (en) * 2017-08-24 2019-02-28 Miller Julian DEVICE FOR ENCODING AND STORING INFORMATION USING ARTIFICIALLY EXPANDED ALPHABETS OF NUCLEIC ACIDS AND OTHER ANALOGOUS POLYMERS
CN109698703B (zh) * 2017-10-20 2020-10-20 人和未来生物科技(长沙)有限公司 基因测序数据解压方法、系统及计算机可读介质
CN110021368B (zh) * 2017-10-20 2020-07-17 人和未来生物科技(长沙)有限公司 比对型基因测序数据压缩方法、系统及计算机可读介质
US11734231B2 (en) * 2017-10-30 2023-08-22 AtomBeam Technologies Inc. System and methods for bandwidth-efficient encoding of genomic data
CN109256178B (zh) * 2018-07-26 2022-03-29 中山大学 基因组测序数据的Leon-RC压缩方法
CN109887547B (zh) * 2019-03-06 2020-10-02 苏州浪潮智能科技有限公司 一种基因序列比对滤波加速处理方法、系统及装置
CN110083743B (zh) * 2019-03-28 2021-11-16 哈尔滨工业大学(深圳) 一种基于统一采样的快速相似数据检测方法
US11515011B2 (en) 2019-08-09 2022-11-29 International Business Machines Corporation K-mer based genomic reference data compression
CN111028883B (zh) * 2019-11-20 2023-07-18 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质
WO2022082573A1 (zh) * 2020-10-22 2022-04-28 中国科学院深圳先进技术研究院 存有数据信息的dna序列的处理方法及装置
CN112288090B (zh) * 2020-10-22 2022-07-12 中国科学院深圳先进技术研究院 存有数据信息的dna序列的处理方法及装置
CN115361454B (zh) * 2022-10-24 2023-03-24 北京智芯微电子科技有限公司 消息序列编码、解码、传输方法及编码、解码设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153255A1 (en) * 2003-02-03 2004-08-05 Ahn Tae-Jin Apparatus and method for encoding DNA sequence, and computer readable medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081707B (zh) * 2011-01-07 2013-04-17 深圳大学 一种dna序列数据压缩和解压系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153255A1 (en) * 2003-02-03 2004-08-05 Ahn Tae-Jin Apparatus and method for encoding DNA sequence, and computer readable medium
CN1536068A (zh) * 2003-02-03 2004-10-13 ���ǵ�����ʽ���� 编码脱氧核糖核酸序列的方法和装置及计算机可读介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
纪震等.DNA序列数据压缩技术综述.《电子学报》.2010,第38卷(第5期),第1113-1121页. *

Also Published As

Publication number Publication date
CN102081707A (zh) 2011-06-01
WO2012092821A1 (zh) 2012-07-12
US20130282677A1 (en) 2013-10-24

Similar Documents

Publication Publication Date Title
CN102081707B (zh) 一种dna序列数据压缩和解压系统及方法
CN110603595B (zh) 用于从压缩的基因组序列读段重建基因组参考序列的方法和系统
Hamady et al. Error-correcting barcoded primers for pyrosequencing hundreds of samples in multiplex
CN103995988A (zh) 一种高通量dna测序质量分数无损压缩系统及压缩方法
Lemane et al. Kmtricks: efficient and flexible construction of bloom filters for large sequencing data collections
US8972200B2 (en) Compression of genomic data
CN107066837A (zh) 一种有参考dna序列压缩方法和系统
CN105760706A (zh) 一种二代测序数据的压缩方法
Mehta et al. Dna compression using hash based data structure
JP4852313B2 (ja) ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法
Wang et al. Human mitochondrial genome compression using machine learning techniques
CN110168652B (zh) 用于存储和访问生物信息学数据的方法和系统
CN109658981A (zh) 一种单细胞测序的数据分类方法
Habib et al. Modified HuffBit compress algorithm–an application of R
CN110120247A (zh) 一种分布式基因大数据存储平台
Lee et al. FastqCLS: a FASTQ compressor for long-read sequencing via read reordering using a novel scoring model
Yaghoobi A new approach in DNA sequence compression: Fast DNA sequence compression using parallel chaos game representation
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台
Li et al. Erasing-based lossless compression method for streaming floating-point time series
CN111832257B (zh) 编码数据的条件转码
CN107169315A (zh) 一种海量dna数据的传输方法及系统
CN112086134A (zh) 一种基因大数据分析与计算平台
Wang et al. DNA Computing-Based Multi-Source Data Storage Model in Digital Twins
Marchet et al. Efficient exact associative structure for sequencing data
Rahman et al. CHAPAO: Likelihood and hierarchical reference-based representation of biomolecular sequences and applications to compressing multiple sequence alignments

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130417

Termination date: 20190107