CN107066837B - 一种有参考dna序列压缩方法和系统 - Google Patents

一种有参考dna序列压缩方法和系统 Download PDF

Info

Publication number
CN107066837B
CN107066837B CN201710214884.4A CN201710214884A CN107066837B CN 107066837 B CN107066837 B CN 107066837B CN 201710214884 A CN201710214884 A CN 201710214884A CN 107066837 B CN107066837 B CN 107066837B
Authority
CN
China
Prior art keywords
sequence
matching
symbols
repeated
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710214884.4A
Other languages
English (en)
Other versions
CN107066837A (zh
Inventor
熊红凯
范雯敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201710214884.4A priority Critical patent/CN107066837B/zh
Publication of CN107066837A publication Critical patent/CN107066837A/zh
Application granted granted Critical
Publication of CN107066837B publication Critical patent/CN107066837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种有参考DNA序列压缩方法和系统,所述方法包括:重复图案的匹配步骤,利用输入的参考序列生成反向的全文子序列索引结构,对输入的待压缩序列进行最长匹配子序列搜索,将匹配信息用于压缩编码步骤,并将未匹配的符号用于非重复符号的预测编码步骤;压缩编码步骤,将匹配序列的长度、位置信息进行压缩编码,并将编码信息用于解压缩;非重复符号的预测编码步骤,接收所述重复图案的匹配步骤的未匹配的符号,利用混合上下文模型进行符号出现概率预测及编码。本发明充分结合索引数据结构高效查找和混合上下文模型对单个字符高效压缩的特点,在可接受的压缩耗时内,比其他有参考DNA序列方法取得更高的压缩率,具备良好的实用性。

Description

一种有参考DNA序列压缩方法和系统
技术领域
本发明涉及一种DNA序列的压缩系统,具体是一种基于Full-text索引结构与混合上下文预测模型的有参考DNA序列压缩方法和系统。
背景技术
DNA分子是由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)、胸腺嘧啶(T)四种脱氧核糖核苷酸组成的。DNA序列中蕴含着生命体重要的遗传信息,对生物、医学、信息等领域具有重要意义。随着DNA测序技术的发展,越来越多的DNA数据被储存被加以利用,DNA序列的数量呈现指数增长。然而,数据储存能力增长速度远远低于数据的增长量,数据储存空间不足已成为科学发展过程中不容回避的现实挑战。因此如何高效地储存DNA数据成为众多研究人员关注的问题。DNA序列之间具有很高的相似性,例如,大猩猩与人之间的DNA相似率高达98%,这给数据储存带来了极高的冗余性,寻找一种高效的压缩方法可以极大地减少所需的储存空间。
为了准确提取出已压缩信息,DNA压缩技术需要是无损并且可逆的压缩。找到一种高效且适合于DNA数据的压缩方法是比较困难的。目前的压缩方法主要分为两种,一种是基于字典的压缩,它把序列中未编码的重复子序列用已编码过的子序列来表示,或者将待压缩序列用参考序列中的重复子序列表示。S.Kuruppu等人在2010年的《InternationalSymposium on String Processing and Information Retrieval》发表的“RelativeLempel-Ziv Compression of Genomes for Large-Scale Storage and Retrieval”一文中即用上述原理利用索引序列压缩目标序列。另一种是基于统计信息的压缩,这种方法主要是通过预测符号出现概率,从而对其进行变长编码,其本质是为出现频率高的符号分配较短的码字,而为出现频率低的符号分配较长码字,使得每个符号的码长接近于其信息量。A.J.Pinho等人在2012年的《Nucleic Acids Research》发表的“GReEn:a tool forefficient compression of genome resequencing data”一文中利用统计模型编码目标序列与参考序列间的差异符号,从而达到了较高的压缩率。但这种方法在搜索重复时给定了子序列的长度,因此不能充分利用DNA序列间重复性这一特点。DNA序列间的高冗余性以及目前压缩算法的不足使申请人针对DNA序列压缩,找到一种更有效的压缩方法。
发明内容
本发明针对现有技术的不足,提供了一种基于压缩的全文子序列索引(Full-textindex)与混合上下文预测模型的有参考DNA序列压缩方法和系统,结合基于字典压缩与基于统计压缩的优势,充分利用序列间冗余性,提高了DNA序列压缩率。
本发明是通过以下技术方案实现的:
根据本发明的第一目的,提供一种有参考DNA序列压缩方法,包括:
重复图案的匹配步骤,利用输入的参考序列生成反向的全文子序列索引结构,对输入的待压缩序列进行最长匹配子序列搜索,将匹配信息用于压缩编码步骤,并将未匹配的符号用于非重复符号的预测编码步骤;
压缩编码步骤,将匹配序列的长度、位置信息进行压缩编码,并将编码信息用于解压缩;
非重复符号的预测编码步骤,接收所述重复图案的匹配步骤的未匹配的符号,利用混合上下文模型进行符号出现概率预测及编码。
优选地,参考DNA序列,是指不同基因组同一编号的DNA序列。
优选地,所述重复图案的匹配步骤,通过对参考序列上重复子序列的查找与定位,高效表示待压缩序列中的匹配子序列。
优选地,所述重复图案的匹配步骤,通过全文子序列索引结构对非固定长度字符串进行匹配搜索。
优选地,所述压缩编码步骤,通过编码匹配序列的标志位、长度、位置信息对匹配信息进行压缩。
优选地,所述的非重复符号的预测编码步骤,通过连续上下文模型与非连续上下文模型的混合模型进行符号出现概率预测及编码。
优选地,所述方法进一步包括解压缩步骤,所述解压缩步骤利用同一参考序列,将压缩编码后的二进制文件恢复出解压缩序列。
优选地,所述解压缩步骤,通过识别已压缩二进制信息,对照同一参考序列,恢复出解压缩序列,恢复出的解压缩序列应与输入待压缩序列相同。
根据本发明的另一目的,提供一种有参考DNA序列压缩系统,包括:
重复图案的匹配模块,利用输入的参考序列生成反向的全文子序列索引结构,对输入的待压缩序列进行最长匹配子序列搜索,将匹配信息输入到压缩编码模块,并将未匹配的符号输出到非重复符号的预测编码模块;
压缩编码模块,将匹配序列的长度、位置信息进行压缩编码,并将编码信息输出到解压缩模块;
非重复符号的预测编码模块,接收所述重复图案的匹配模块输出的未匹配的符号,利用混合上下文模型进行符号出现概率预测及编码。
优选地,所述系统进一步包括解压缩模块,所述解压缩模块利用同一参考序列,将压缩编码后的二进制文件恢复出解压缩序列。
本发明中采用的基于全文子序列索引(Full-text)结构与混合上下文预测模型的压缩技术为有参考序列的DNA序列压缩提供了一种两步压缩框架。本发明第一阶段的重复图案匹配模块所使用的Full-text索引结构可以对非固定长度的待匹配序列进行快速查找与最大长度匹配,从而实现高效的序列压缩。本发明充分结合索引数据结构高效查找和混合上下文模型对单个字符高效压缩的特点,在可接受的压缩耗时内,比其他有参考DNA序列方法取得更高的压缩率,具备良好的实用性。
与现有技术相比,本发明具有如下的有益效果:
本发明在有参考序列的情况下提供一种有效的基因压缩,采用两步压缩框架,对未能达到匹配压缩长度要求的部分进行符号预测编码压缩,提升了压缩率,具备良好的实用性和扩展性。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中系统的结构框图;
图2为本发明一实施例方法中Full-text index算法搜索匹配序列示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本发明所述有参考DNA序列压缩系统一优选实施例的结构框图,包括:重复图案的匹配模块、压缩编码模块、非重复符号的预测编码模块及解压缩模块。其中:重复图案的匹配模块利用输入的参考序列生成反向的Full-text索引结构,对输入的待压缩序列进行最长匹配子序列搜索,将匹配信息输入到压缩编码模块,并将未匹配的符号输出到非重复符号的预测编码模块;压缩编码模块将匹配序列的长度、位置信息进行压缩编码,并将编码信息输出到解压缩模块;非重复符号的预测编码模块接收所述重复图案的匹配模块输出的未匹配的符号,利用混合上下文模型进行符号出现概率预测及编码。解压缩模块利用同一参考序列,将压缩编码后的二进制文件恢复出解压缩序列。
当然,对应于上述的步骤,本发明实施例中对应的有参考DNA序列压缩方法,包括:
重复图案的匹配步骤,利用输入的参考序列生成反向的Full-text索引结构,对输入的待压缩序列进行最长匹配子序列搜索,将匹配信息用于压缩编码步骤,并将未匹配的符号用于非重复符号的预测编码步骤;
压缩编码步骤,将匹配序列的长度、位置信息进行压缩编码,并将编码信息用于解压缩;
非重复符号的预测编码步骤,接收所述重复图案的匹配步骤的未匹配的符号,利用混合上下文模型进行符号出现概率预测及编码;
解压缩步骤,利用同一参考序列,将压缩编码后的二进制文件恢复出解压缩序列。
在本发明部分实施例中,所述的重复图案编码模块或步骤中的全文子序列索引结构的具体实现如图2所示。其中,生成全文子序列索引结构主要利用了Burrows-Wheeler变换,使得经过变换后的序列更容易被压缩。通过对参考序列建立反向的全文子序列索引结构,建立统计数组Occ(s),C[s],从而通过sp=C[s]+Occ(s,sp-1)+1,ep=C[s]+Occ(s,ep)确定子串在索引中出现的位置范围,其中,Occ(s)表示s在同种符号中的出现顺序,C[s]表示字典序小于s的符号总数。当下一符号不满足sp≤ep这一条件时,匹配到最长重复子串。利用匹配子串的sp和ep确定其位置信息。
在本发明部分实施例中,所述的压缩编码模块或步骤对输出的匹配标志位、匹配序列的长度、位置信息进行压缩编码。对于匹配长度,由于事先设置了匹配长度的最小值,因此将所有待编码匹配长度减去最小匹配长度进行压缩,节省编码位数。对于匹配位置,结合DNA序列经常在某一个或几个位点发生突变的特性,将待编码位置与预期出现位置做比较,若邻近预期位置,则编码相对差值,否则编码其绝对位置。
本实施例中,所述的非重复符号的预测编码模块或步骤,接收所述重复图案的匹配模块输出的未匹配的符号,利用混合上下文模型进行符号出现概率预测及编码。分别根据连续上下文模型和非连续上下文模型构建概率加权树,类似于连续上下文加权树,对于每棵高度为d的非连续上下文加权树,其内部节点s的一对子节点记作0s和1s,已知这一对子节点的加权估计概率为
Figure GDA0002134875640000051
则对节点s的加权估计概率可通过如下公式计算:
Figure GDA0002134875640000052
其中,节点s的长度记作ls,as,bs表示某阶上下文中0和1分别出现的次数,Pe(as,bs)是节点s的加权概率,可通过如下公式计算:
Figure GDA0002134875640000053
Figure GDA0002134875640000054
且Pe(0,0)=1。通过连续上下文模型和非连续上下文模型得出的独立的预测结果分别在不同的条件下达到最优。利用互补上下文模型可以根据所有上下文模型预测结果,得到最可能的整体预测概率,此时模型与训练数据最大可能匹配。互补上下文模型核心在于以下条件最大熵模型的求解:
Figure GDA0002134875640000055
其中t表示上下文模型对比特位y产生的预测概率,
Figure GDA0002134875640000056
是t的经验概率,P′满足:
Figure GDA0002134875640000057
其中,fi(t,y)是特征函数,当y等于待预测的比特时返回ti,否则返回0。
Figure GDA0002134875640000058
是t,y的经验概率。解上述约束最优化问题,用
Figure GDA0002134875640000059
表示所有M个上下文模型的预测结果,则得到:
Figure GDA0002134875640000061
最后利用牛顿-拉弗森迭代算法,求出估计概率P及权重wi
利用计算得到的概率P对待编码位进行算术编码,从而得到压缩后的二进制文件。由于整个压缩过程是可逆的,利用同一参考序列,对应进行解压缩过程,即可将得到的二进制文件恢复出解压缩序列。
实施效果
本实施例中关键参数的设置为:实验所用数据来源于人类基因组数据KOREF-20090131,YH,hg18,其中包含有人类22条常染色体,X染色体和Y染色体的测序序列。其中hg18作为参考序列,利用上述压缩方法压缩其他两组基因序列。重复序列的匹配长度阈值设为30,连续上下文模型选取了阶数为1,2,4,6,8,10,11,12,13,14,16阶组成的上下文集,非连续上下文选取了11个在训练数据集上表现复杂度较低且压缩率较好的图案。经实验对比,在处理原始DNA序列中,本实施例系统能够得到更高的压缩率。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (10)

1.一种有参考DNA序列压缩方法,其特征在于,包括:
重复图案的匹配步骤,利用输入的参考序列生成反向的全文子序列索引结构,对输入的待压缩序列进行最长匹配子序列搜索,将匹配信息用于压缩编码步骤,并将未匹配的符号用于非重复符号的预测编码步骤;所述反向是对所述参考序列中元素的顺序进行反向;所述生成反向的全文子序列索引结构是对所述参考序列建立反向的全文子序列索引结构;
压缩编码步骤,将匹配序列的长度、位置信息进行压缩编码,并将编码信息用于解压缩;
非重复符号的预测编码步骤,接收所述重复图案的匹配步骤的未匹配的符号,利用混合上下文模型进行符号出现概率预测及编码。
2.根据权利要求1所述的有参考DNA序列压缩方法,其特征是,参考DNA序列,是指不同基因组同一编号的DNA序列。
3.根据权利要求1所述的有参考DNA序列压缩方法,其特征是,所述重复图案的匹配步骤,通过对参考序列上重复子序列的查找与定位,表示待压缩序列中的匹配子序列。
4.根据权利要求3所述的有参考DNA序列压缩方法,其特征是,所述重复图案的匹配步骤,通过全文子序列索引对非固定长度字符串进行匹配搜索。
5.根据权利要求1所述的有参考DNA序列压缩方法,其特征是,所述压缩编码步骤,通过编码匹配序列的标志位、长度、位置信息对匹配信息进行压缩。
6.根据权利要求1所述的有参考DNA序列压缩方法,其特征是,所述非重复符号的预测编码步骤,通过连续上下文模型与非连续上下文模型的混合模型进行符号出现概率预测及编码。
7.根据权利要求1-6任一项所述的有参考DNA序列压缩方法,其特征是,所述方法进一步包括解压缩步骤,所述解压缩步骤利用同一参考序列,将压缩编码后的二进制文件恢复出解压缩序列。
8.根据权利要求7所述的有参考DNA序列压缩方法,其特征是,所述解压缩步骤,通过识别已压缩二进制信息,对照同一参考序列,恢复出解压缩序列,恢复出的解压缩序列应与输入待压缩序列相同。
9.一种用于实现权利要求1-8任一项所述方法的有参考DNA序列压缩系统,其特征在于,包括:
重复图案的匹配模块,利用输入的参考序列生成反向的全文子序列索引结构,对输入的待压缩序列进行最长匹配子序列搜索,将匹配信息输入到压缩编码模块,并将未匹配的符号输出到非重复符号的预测编码模块;
压缩编码模块,将匹配序列的长度、位置信息进行压缩编码,并将编码信息输出到解压缩模块;
非重复符号的预测编码模块,接收所述重复图案的匹配模块输出的未匹配的符号,利用混合上下文模型进行符号出现概率预测及编码。
10.根据权利要求9所述的有参考DNA序列压缩系统,其特征是,所述系统进一步包括解压缩模块,所述解压缩模块利用同一参考序列,将压缩编码后的二进制文件恢复出解压缩序列。
CN201710214884.4A 2017-04-01 2017-04-01 一种有参考dna序列压缩方法和系统 Active CN107066837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710214884.4A CN107066837B (zh) 2017-04-01 2017-04-01 一种有参考dna序列压缩方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710214884.4A CN107066837B (zh) 2017-04-01 2017-04-01 一种有参考dna序列压缩方法和系统

Publications (2)

Publication Number Publication Date
CN107066837A CN107066837A (zh) 2017-08-18
CN107066837B true CN107066837B (zh) 2020-02-04

Family

ID=59601393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710214884.4A Active CN107066837B (zh) 2017-04-01 2017-04-01 一种有参考dna序列压缩方法和系统

Country Status (1)

Country Link
CN (1) CN107066837B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108306650A (zh) * 2018-01-16 2018-07-20 厦门极元科技有限公司 基因测序数据的压缩方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109698703B (zh) * 2017-10-20 2020-10-20 人和未来生物科技(长沙)有限公司 基因测序数据解压方法、系统及计算机可读介质
CN110111851B (zh) * 2017-10-20 2020-07-24 人和未来生物科技(长沙)有限公司 基因测序数据压缩方法、系统及计算机可读介质
CN110021369B (zh) * 2017-10-24 2020-03-17 人和未来生物科技(长沙)有限公司 基因测序数据压缩解压方法、系统及计算机可读介质
WO2019144312A1 (zh) * 2018-01-24 2019-08-01 深圳大学 一种gpu加速的dna序列压缩方法及系统
CN111431540B (zh) * 2020-04-01 2021-10-08 西安交通大学 一种基于神经网络模型的fpga配置文件算术压缩与解压方法
CN112416431B (zh) * 2020-11-23 2023-02-14 南京航空航天大学 一种基于编码序列表示的源代码片段成对比较方法
CN114356220B (zh) * 2021-12-10 2022-10-28 中科碳元(深圳)生物科技有限公司 基于dna存储的编码方法、电子设备及可读存储介质
CN115083530B (zh) * 2022-08-22 2022-11-04 广州明领基因科技有限公司 基因测序数据压缩方法、装置、终端设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130122816A (ko) * 2012-05-01 2013-11-11 강원대학교산학협력단 유전자 염기서열 압축장치 및 압축방법
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN105989249A (zh) * 2014-09-26 2016-10-05 叶承羲 用于组装基因组序列的方法、系统及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9515676B2 (en) * 2012-01-31 2016-12-06 Life Technologies Corporation Methods and computer program products for compression of sequencing data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130122816A (ko) * 2012-05-01 2013-11-11 강원대학교산학협력단 유전자 염기서열 압축장치 및 압축방법
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN105989249A (zh) * 2014-09-26 2016-10-05 叶承羲 用于组装基因组序列的方法、系统及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"DNA-COMPACT: DNA COMpression Based on a PatternAware";Pinghao Li etal.;《PubMed》;20131130;第1-13页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108306650A (zh) * 2018-01-16 2018-07-20 厦门极元科技有限公司 基因测序数据的压缩方法

Also Published As

Publication number Publication date
CN107066837A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107066837B (zh) 一种有参考dna序列压缩方法和系统
Mishra et al. An efficient horizontal and vertical method for online dna sequence compression
JP5171346B2 (ja) 文字列検索システム及び方法
WO2011007956A2 (ko) 데이터의 압축방법
Bakr et al. DNA lossless compression algorithms
WO2015180203A1 (zh) 一种高通量dna测序质量分数无损压缩系统及压缩方法
CN110021369B (zh) 基因测序数据压缩解压方法、系统及计算机可读介质
CN109979537B (zh) 一种面向多条序列的基因序列数据压缩方法
Sardaraz et al. SeqCompress: An algorithm for biological sequence compression
Banerjee et al. Reference based inter chromosomal similarity based DNA sequence compression algorithm
CN110310709B (zh) 一种基于参考序列的基因压缩方法
Mansouri et al. One-bit dna compression algorithm
Gupta et al. A novel approach for compressing DNA sequences using semi-statistical compressor
Elnady et al. Hadc: A hybrid compression approach for dna sequences
CN110111851B (zh) 基因测序数据压缩方法、系统及计算机可读介质
Gilmary et al. Compression techniques for dna sequences: A thematic review
Pinho et al. Finite-context models for DNA coding
Roy et al. Sbvrldnacomp: An effective dna sequence compression algorithm
Challa et al. A novel compression technique for DNA sequence compaction
Bakr et al. Improve the compression of bacterial DNA sequence
EP4100954A1 (en) Improved quality value compression framework in aligned sequencing data based on novel contexts
Arokiaraj et al. Pattern recognition based DNA sequence compressor
Fan et al. Complementary contextual models with FM-Index for DNA compression
Venugopal et al. Probabilistic Approach for DNA Compression
US12125562B2 (en) Quality value compression framework in aligned sequencing data based on novel contexts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant