CN110111852A - 一种海量dna测序数据无损快速压缩平台 - Google Patents

一种海量dna测序数据无损快速压缩平台 Download PDF

Info

Publication number
CN110111852A
CN110111852A CN201810018495.9A CN201810018495A CN110111852A CN 110111852 A CN110111852 A CN 110111852A CN 201810018495 A CN201810018495 A CN 201810018495A CN 110111852 A CN110111852 A CN 110111852A
Authority
CN
China
Prior art keywords
data
compressed
dna sequencing
compression
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810018495.9A
Other languages
English (en)
Inventor
陈墩金
徐继峰
周峻松
祁建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ming - Collar Gene Technology Co Ltd
Original Assignee
Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ming - Collar Gene Technology Co Ltd filed Critical Guangzhou Ming - Collar Gene Technology Co Ltd
Priority to CN201810018495.9A priority Critical patent/CN110111852A/zh
Publication of CN110111852A publication Critical patent/CN110111852A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

本发明公开了一种海量DNA测序数据无损快速压缩平台,涉及DNA测序数据压缩平台领域,该平台将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流,并根据它们自身特点分别独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。

Description

一种海量DNA测序数据无损快速压缩平台
技术领域
本发明涉及数据压缩领域,特别涉及一种DNA测序数据压缩平台领域。
背景技术
计算机作为处理DNA数据的主要工具面临着前所未有的挑战,DNA测序数据的增长速度远远超过了计算机微处理器和存储设备的增长速度。计算机自诞生以来,其性能提高速度基本符合摩尔定律,微处理器性能和存储容量每18和12个月翻一番,然而DNA序列数据每9个月就增加一倍。急剧膨胀的DNA测序数据日益增加,使得存储这些数据的成本亦越来越高。如何高效地存储和管理高通量DNA测序技术和大型基因组项目产生的DNA数据“海啸”已经成为制约DNA测序产业进一步发展的一个重要因素。
发明内容
本发明所要解决的技术问题是提供一种海量DNA测序数据无损快速压缩平台,该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。
为实现上述目的,本发明提供以下的技术方案:一种海量DNA测序数据无损快速压缩平台,其特征在于:所述平台包括数据读取模块、数据压缩模块、数据存储模块;所述数据读取模块用于读取DNA测序仪得到的FASTQ数据;所述数据压缩模块用于将FASTQ数据分割成元数据、碱基和质量分数三个数据流,并采用不同的压缩算法进行数据压缩;所述数据存储模块用于将压缩后的数据存入数据库。
优选的,所述数据压缩模块将FASTQ数据分割成元数据、碱基和质量分数三个数据流,分别采用LZMA算法、游程编码、算术编码进行压缩。
采用以上技术方案的有益效果是:该海量DNA测序数据无损快速压缩平台将FASTQ数据分割成元数据、碱基和质量分数三个数据流,针对不同数据流的特点,采用不同的压缩算法进行数据压缩,已到达最大可压缩率,实现无损高效压缩,比传统的压缩算法平台具有更好的压缩效率。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的描述。
图1是本发明海量DNA测序数据无损快速压缩平台的原理图。
具体实施方式
下面结合附图详细说明本发明一种海量DNA测序数据无损快速压缩平台的优选实施方式。
结合图1出示本发明一种海量DNA测序数据无损快速压缩平台的具体实施方式:该平台包括数据读取模块、数据压缩模块、数据存储模块,如图1所示,数据读取模块用于从数据库中读取DNA测序仪的FASTQ数据流,并将数据流导入至数据压缩模块;数据压缩模块将FASTQ数据流分割为元数据、碱基和质量分数三个数据流,采用不同的压缩算法进行数据压缩,然后将压缩后的数据汇总导入至数据存储模块;数据存储模块获得压缩后的数据流,将数据存入数据库中。
数据压缩模块将将FASTQ数据流分割为元数据、碱基和质量分数三个数据流,对不同的数据流采用不同的压缩方法,具体如下:
(1)元数据开始于字符‘@’并通常被空格符分隔成三部分。第一部分为短读ID。第二部分由字符串组成,用来记录如测序设备名,流通池及坐标等信息。最后一部分包含关键字‘length=’,用来表示短读长度。第一部分及第三部分的元数据对于每个短读来说高度相同或相似,因此仅存储它们一次。每条短读中元数据的第二部分差异较大,这部分数据将被提取并直接使用LZMA(Lempel-Ziv-Markov chain-Algorithm)算法压缩。
(2)碱基数据按照短读的形式分段提取,提取的短读与同源参考基因组比对,将匹配结果编码成‘[POS]<PAL><MLength><MType><MisValues>’的形式,编码的表示如下:POS匹配位置,PAL互补回文匹配标记,MLength匹配长度,MType匹配类型,MisValues差异值。
每个短读都必须有匹配位置POS,短读未匹配时,POS将被设为0。当互补回文匹配时,PAL将被设为0,否则PAL将被省略。MLength表示匹配或错误匹配的长度并紧跟着匹配类型MType。匹配类型MType包含匹配(M),插入(I),删除(D)或替换(S)。当匹配类型为插入或替换时,差异值MisValues将由一个或多个{‘A’,‘C’,‘G’,‘T’,‘N’}组成,以确保数据的完整性。将匹配位置使用算术编码进行压缩,将其他信息如PAL,Mlength,Mtype,和MisValues组合在一起并使用霍夫曼编码压缩。
(3)质量分数包含很长的连续相同字符,采用对连续相同字符进行游程编码后进行压缩,如连续的二十二个字符‘#’将被编码成‘22#’。
以上的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (2)

1.一种海量DNA测序数据无损快速压缩平台,其特征在于:所述平台包括数据读取模块、数据压缩模块、数据存储模块;所述数据读取模块用于读取DNA测序仪得到的FASTQ数据;所述数据压缩模块用于将FASTQ数据分割成元数据、碱基和质量分数三个数据流,并采用不同的压缩算法进行数据压缩;所述数据存储模块用于将压缩后的数据存入数据库。
2.根据权利要求1所述的一种海量DNA测序数据无损快速压缩平台,其特征在于:所述数据压缩模块将FASTQ数据分割成元数据、碱基和质量分数三个数据流,分别采用LZMA算法、游程编码、算术编码进行压缩。
CN201810018495.9A 2018-01-11 2018-01-11 一种海量dna测序数据无损快速压缩平台 Pending CN110111852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810018495.9A CN110111852A (zh) 2018-01-11 2018-01-11 一种海量dna测序数据无损快速压缩平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810018495.9A CN110111852A (zh) 2018-01-11 2018-01-11 一种海量dna测序数据无损快速压缩平台

Publications (1)

Publication Number Publication Date
CN110111852A true CN110111852A (zh) 2019-08-09

Family

ID=67483027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810018495.9A Pending CN110111852A (zh) 2018-01-11 2018-01-11 一种海量dna测序数据无损快速压缩平台

Country Status (1)

Country Link
CN (1) CN110111852A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640467A (zh) * 2020-05-25 2020-09-08 西安电子科技大学 基于自适应编码顺序的dna测序质量分数无损压缩方法
WO2022082573A1 (zh) * 2020-10-22 2022-04-28 中国科学院深圳先进技术研究院 存有数据信息的dna序列的处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995988A (zh) * 2014-05-30 2014-08-20 周家锐 一种高通量dna测序质量分数无损压缩系统及压缩方法
CN106100641A (zh) * 2016-06-12 2016-11-09 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其系统
WO2017214765A1 (zh) * 2016-06-12 2017-12-21 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995988A (zh) * 2014-05-30 2014-08-20 周家锐 一种高通量dna测序质量分数无损压缩系统及压缩方法
CN106100641A (zh) * 2016-06-12 2016-11-09 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其系统
WO2017214765A1 (zh) * 2016-06-12 2017-12-21 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟倩: "基于高通量测序的短序列生物数据压缩研究", 《计算机应用与软件》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640467A (zh) * 2020-05-25 2020-09-08 西安电子科技大学 基于自适应编码顺序的dna测序质量分数无损压缩方法
CN111640467B (zh) * 2020-05-25 2023-03-24 西安电子科技大学 基于自适应编码顺序的dna测序质量分数无损压缩方法
WO2022082573A1 (zh) * 2020-10-22 2022-04-28 中国科学院深圳先进技术研究院 存有数据信息的dna序列的处理方法及装置

Similar Documents

Publication Publication Date Title
US11404143B2 (en) Method and systems for the indexing of bioinformatics data
US8972201B2 (en) Compression of genomic data file
EP2595076B1 (en) Compression of genomic data
CN103995887A (zh) 位图索引压缩方法和位图索引解压方法
EP3583249B1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
CN110120247A (zh) 一种分布式基因大数据存储平台
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台
CN108287985A (zh) 一种gpu加速的dna序列压缩方法及系统
CN107565975A (zh) Fastq格式文件无损压缩的方法
WO2018152143A1 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
KR20190071741A (ko) 생물 정보학 데이터의 간략 표현 방법 및 장치
KR102497634B1 (ko) 문자 빈도 기반 서열 재정렬을 통한 fastq 데이터 압축 방법 및 장치
CN112086134A (zh) 一种基因大数据分析与计算平台
Saada et al. DNA sequence compression technique based on nucleotides occurrence
Zhang et al. FQZip: lossless reference-based compression of next generation sequencing data in FASTQ format
JP4334955B2 (ja) 生物情報のロスレス符号化装置
CA3052772A1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
CN111145834B (zh) 多线程基因数据压缩方法、装置
Grabowski et al. Disk-based genome sequencing data compression
Zhan et al. A novel method to compress high-throughput DNA sequence read archive
Bhattacharyya et al. Recent directions in compressing next generation sequencing data
CN115691683A (zh) 一种基因型信息压缩方法、装置及计算机可读存储介质
NZ757185B2 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
JP2006129357A (ja) 符号化装置及び符号化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190809