CN110120247A - 一种分布式基因大数据存储平台 - Google Patents

一种分布式基因大数据存储平台 Download PDF

Info

Publication number
CN110120247A
CN110120247A CN201810024030.4A CN201810024030A CN110120247A CN 110120247 A CN110120247 A CN 110120247A CN 201810024030 A CN201810024030 A CN 201810024030A CN 110120247 A CN110120247 A CN 110120247A
Authority
CN
China
Prior art keywords
data
compressed
module
platform
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810024030.4A
Other languages
English (en)
Inventor
陈墩金
祁建明
周峻松
徐继峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ming - Collar Gene Technology Co Ltd
Original Assignee
Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ming - Collar Gene Technology Co Ltd filed Critical Guangzhou Ming - Collar Gene Technology Co Ltd
Priority to CN201810024030.4A priority Critical patent/CN110120247A/zh
Publication of CN110120247A publication Critical patent/CN110120247A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式基因大数据存储平台,涉及基因大数据压缩平台领域,该平台将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流,并根据它们自身特点分别独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩;最后采用分布式框架将数据放在不同的数据节点中存储,既保证了数据的可靠性,同时增加了数据的安全性。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。

Description

一种分布式基因大数据存储平台
技术领域
本发明涉及数据压缩领域,特别涉及一种基因大数据压缩平台领域。
背景技术
计算机作为处理DNA数据的主要工具面临着前所未有的挑战,DNA测序数据的增长速度远远超过了计算机微处理器和存储设备的增长速度。计算机自诞生以来,其性能提高速度基本符合摩尔定律,微处理器性能和存储容量每18和12个月翻一番,然而DNA序列数据每9个月就增加一倍。急剧膨胀的DNA测序数据日益增加,使得存储这些数据的成本亦越来越高。如何高效地存储和管理高通量DNA测序技术和大型基因组项目产生的DNA数据“海啸”已经成为制约DNA测序产业进一步发展的一个重要因素。
发明内容
本发明所要解决的技术问题是提供一种分布式基因大数据存储平台,该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。
为实现上述目的,本发明提供以下的技术方案:一种分布式基因大数据存储平台,其特征在于:所述平台包括数据读取模块、数据压缩模块、数据存储模块;所述数据读取模块用于读取DNA测序仪得到的FASTQ数据;所述数据压缩模块用于将FASTQ数据分割成元数据、碱基和质量分数三个数据流,并采用不同的压缩算法进行数据压缩;所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库。
优选的,所述数据压缩模块将FASTQ数据分割成元数据、碱基和质量分数三个数据流,分别采用LZMA算法、游程编码、算术编码进行压缩。
优选的,所述数据存储模块由多个数据节点DataNode和中心节点NameNode组成,由中心节点NameNode将数据分发至各个DataNode节点进行存储。
采用以上技术方案的有益效果是:该分布式基因大数据存储平台将FASTQ数据分割成元数据、碱基和质量分数三个数据流,针对不同数据流的特点,采用不同的压缩算法进行数据压缩,已到达最大可压缩率,实现无损高效压缩,比传统的压缩算法平台具有更好的压缩效率。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的描述。
图1是本发明分布式基因大数据存储平台的原理图。
图2是本发明分布式基因大数据存储平台数据存储模块的原理图。
具体实施方式
下面结合附图详细说明本发明一种分布式基因大数据存储平台的优选实施方式。
结合图1出示本发明一种分布式基因大数据存储平台的具体实施方式:该平台包括数据读取模块、数据压缩模块、数据存储模块,如图1所示,数据读取模块用于从数据库中读取DNA测序仪的FASTQ数据流,并将数据流导入至数据压缩模块;数据压缩模块将FASTQ数据流分割为元数据、碱基和质量分数三个数据流,采用不同的压缩算法进行数据压缩,然后将压缩后的数据汇总导入至数据存储模块;数据存储模块由多个数据节点DataNode和中心节点NameNode组成,NameNode维护所有文件的命名空间,以及每个文件所映射的文件块信息,负责寻找合适的DataNode存放数据块。DataNode就是数据最终存放的地方,数据文件被分割成多个文件块,每个文件块以文件形式存放到多个DataNode之上。
数据压缩模块将将FASTQ数据流分割为元数据、碱基和质量分数三个数据流,对不同的数据流采用不同的压缩方法,具体如下:
(1)元数据开始于字符‘@’并通常被空格符分隔成三部分。第一部分为短读ID。第二部分由字符串组成,用来记录如测序设备名,流通池及坐标等信息。最后一部分包含关键字‘length=’,用来表示短读长度。第一部分及第三部分的元数据对于每个短读来说高度相同或相似,因此仅存储它们一次。每条短读中元数据的第二部分差异较大,这部分数据将被提取并直接使用LZMA(Lempel-Ziv-Markov chain-Algorithm)算法压缩。
(2)碱基数据按照短读的形式分段提取,提取的短读与同源参考基因组比对,将匹配结果编码成‘[POS]<PAL><MLength><MType><MisValues>’的形式,编码的表示如下:POS匹配位置,PAL互补回文匹配标记,MLength匹配长度,MType匹配类型,MisValues差异值。
每个短读都必须有匹配位置POS,短读未匹配时,POS将被设为0。当互补回文匹配时,PAL将被设为0,否则PAL将被省略。MLength表示匹配或错误匹配的长度并紧跟着匹配类型MType。匹配类型MType包含匹配(M),插入(I),删除(D)或替换(S)。当匹配类型为插入或替换时,差异值MisValues将由一个或多个{‘A’,‘C’,‘G’,‘T’,‘N’}组成,以确保数据的完整性。将匹配位置使用算术编码进行压缩,将其他信息如PAL,Mlength,Mtype,和MisValues组合在一起并使用霍夫曼编码压缩。
(3)质量分数包含很长的连续相同字符,采用对连续相同字符进行游程编码后进行压缩,如连续的二十二个字符‘#’将被编码成‘22#’。
如图2所示,数据存储模块由多个数据节点DataNode和中心节点NameNode组成,当数据流来到NameNode时,NameNode根据当前所保存的各个DataNode的状态表,计算出当前各个DataNode节点存储容量和吞吐量的优先次序,并返回当前最优的两个DataNode节点所在IP地址,将数据流发送至这两个DataNode节点。DataNode会周期性心跳向NameNode报告以示服务状态,对于长时间没有回应的DataNode,NameNode会把此DataNode作为失效、不可读或不可写的DataNode,或直接从DataNode状态表中删除。
以上的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (3)

1.一种分布式基因大数据存储平台,其特征在于:所述平台包括数据读取模块、数据压缩模块、数据存储模块;所述数据读取模块用于读取DNA测序仪得到的FASTQ数据;所述数据压缩模块用于将FASTQ数据分割成元数据、碱基和质量分数三个数据流,并采用不同的压缩算法进行数据压缩;所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库。
2.根据权利要求1所述的一种分布式基因大数据存储平台,其特征在于:所述数据压缩模块将FASTQ数据分割成元数据、碱基和质量分数三个数据流,分别采用LZMA算法、游程编码、算术编码进行压缩。
3.根据权利要求1所述的一种分布式基因大数据存储平台,其特征在于:所述数据存储模块由多个数据节点DataNode和中心节点NameNode组成,由中心节点NameNode将数据分发至各个DataNode节点进行存储。
CN201810024030.4A 2018-01-14 2018-01-14 一种分布式基因大数据存储平台 Pending CN110120247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810024030.4A CN110120247A (zh) 2018-01-14 2018-01-14 一种分布式基因大数据存储平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810024030.4A CN110120247A (zh) 2018-01-14 2018-01-14 一种分布式基因大数据存储平台

Publications (1)

Publication Number Publication Date
CN110120247A true CN110120247A (zh) 2019-08-13

Family

ID=67519108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810024030.4A Pending CN110120247A (zh) 2018-01-14 2018-01-14 一种分布式基因大数据存储平台

Country Status (1)

Country Link
CN (1) CN110120247A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028883A (zh) * 2019-11-20 2020-04-17 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质
CN111326216A (zh) * 2020-02-27 2020-06-23 中国科学院计算技术研究所 一种针对大数据基因测序文件的快速划分方法
CN115083530A (zh) * 2022-08-22 2022-09-20 广州明领基因科技有限公司 基因测序数据压缩方法、装置、终端设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100641A (zh) * 2016-06-12 2016-11-09 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其系统
CN107506618A (zh) * 2017-07-07 2017-12-22 北京中科晶云科技有限公司 高通量测序序列的存储方法和查询方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106100641A (zh) * 2016-06-12 2016-11-09 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其系统
CN107506618A (zh) * 2017-07-07 2017-12-22 北京中科晶云科技有限公司 高通量测序序列的存储方法和查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟倩: "基于高通量测序的短序列生物数据压缩研究", 《计算机应用与软件》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028883A (zh) * 2019-11-20 2020-04-17 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质
CN111326216A (zh) * 2020-02-27 2020-06-23 中国科学院计算技术研究所 一种针对大数据基因测序文件的快速划分方法
CN115083530A (zh) * 2022-08-22 2022-09-20 广州明领基因科技有限公司 基因测序数据压缩方法、装置、终端设备和存储介质

Similar Documents

Publication Publication Date Title
US11404143B2 (en) Method and systems for the indexing of bioinformatics data
EP2608096B1 (en) Compression of genomic data file
CN110120247A (zh) 一种分布式基因大数据存储平台
EP3583249B1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
JP7362481B2 (ja) ゲノムシーケンスデータをコード化する方法、コード化されたゲノムデータをデコード化する方法、ゲノムシーケンスデータをコード化するためのゲノムエンコーダ、ゲノムデータをデコードするためのゲノムデコーダ、及びコンピュータ読み取り可能な記録媒体
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台
KR20190113971A (ko) 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치
KR20190071741A (ko) 생물 정보학 데이터의 간략 표현 방법 및 장치
CN112086134A (zh) 一种基因大数据分析与计算平台
CA3052772A1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
CN110663022B (zh) 使用基因组描述符紧凑表示生物信息学数据的方法和设备
Urgese et al. SUPPLEMENTARY MATERIAL OF BIOSEQZIP: A COLLAPSER OF NGS REDUNDANT READS FOR THE OPTIMISATION OF SEQUENCE ANALYSIS
NZ757185B2 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190813