CN112086134A - 一种基因大数据分析与计算平台 - Google Patents

一种基因大数据分析与计算平台 Download PDF

Info

Publication number
CN112086134A
CN112086134A CN201910518741.1A CN201910518741A CN112086134A CN 112086134 A CN112086134 A CN 112086134A CN 201910518741 A CN201910518741 A CN 201910518741A CN 112086134 A CN112086134 A CN 112086134A
Authority
CN
China
Prior art keywords
data
module
fastq
compression
data analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910518741.1A
Other languages
English (en)
Inventor
陈墩金
周峻松
徐继峰
祁建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Mingling Gene Technology Co ltd
Original Assignee
Guangzhou Mingling Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Mingling Gene Technology Co ltd filed Critical Guangzhou Mingling Gene Technology Co ltd
Priority to CN201910518741.1A priority Critical patent/CN112086134A/zh
Publication of CN112086134A publication Critical patent/CN112086134A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基因大数据分析与计算平台,涉及基因大数据分析与计算平台领域,该平台由数据读取模块、数据压缩模块、数据分析模块、数据存储模块组成。数据读取模块用于读取DNA测序仪得到的FASTQ数据,并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块;数据压缩模块将三个数据流独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩;数据分析模块用于将FASTQ数据进行短序列比对,提取比对结果中的SNP突变信息;数据存储模块采用分布式框架将数据放在不同的数据节点中存储,既保证了数据的可靠性,同时增加了数据的安全性。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。

Description

一种基因大数据分析与计算平台
技术领域
本发明涉及基因数据分析领域,特别涉及一种基因大数据分析与计算 平台领域。
背景技术
计算机作为处理DNA数据的主要工具面临着前所未有的挑战,DNA测 序数据的增长速度远远超过了计算机微处理器和存储设备的增长速度。计 算机自诞生以来,其性能提高速度基本符合摩尔定律,微处理器性能和存 储容量每18和12个月翻一番,然而DNA序列数据每9个月就增加一倍。 急剧膨胀的DNA测序数据日益增加,使得存储这些数据的成本亦越来越高。 如何高效地存储和管理高通量DNA测序技术和大型基因组项目产生的DNA 数据“海啸”已经成为制约DNA测序产业进一步发展的一个重要因素。
发明内容
本发明所要解决的技术问题是提供一种基因大数据分析与计算平台, 该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储 空间,同时通过分布式计算和存储方法,提升了计算和分析的性能。
为实现上述目的,本发明提供以下的技术方案:一种基因大数据分析 与计算平台,其特征在于:所述平台包括数据读取模块、数据压缩模块、 数据分析模块、数据存储模块;所述数据读取模块用于读取DNA测序仪得 到的FASTQ数据,并将输入FASTQ数据分割成元数据、碱基和质量分数三 个数据流送入数据压缩模块;所述数据压缩模块采用不同的压缩算法对数 据流进行数据压缩;所述数据分析模块用于将FASTQ数据进行短序列比对, 提取比对结果中的SNP突变信息;所述数据存储模块用于将压缩后的数据 采用分布式的存储方式存入数据库。
优选的,所述数据压缩模块将FASTQ数据分割成元数据、碱基和质量 分数三个数据流,分别采用LZMA算法、游程编码、算术编码进行压缩。
优选的,所述数据存储模块由多个数据节点DataNode和中心节点 NameNode组成,由中心节点NameNode将数据分发至各个DataNode节点进 行存储。
采用以上技术方案的有益效果是:该基因大数据分析与计算平台将 FASTQ数据分割成元数据、碱基和质量分数三个数据流,针对不同数据流 的特点,采用不同的压缩算法进行数据压缩,已到达最大可压缩率,实现 无损高效压缩,比传统的压缩算法平台具有更好的压缩效率。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的描述。
图1是本发明基因大数据分析与计算平台的原理图。
图2是本发明基因大数据分析与计算平台数据分析模块的原理图。
图3是本发明基因大数据分析与计算平台数据存储模块的原理图。
具体实施方式
下面结合附图详细说明本发明一种基因大数据分析与计算平台的优 选实施方式。
结合图1出示本发明一种基因大数据分析与计算平台的具体实施方式: 如图1所示,该平台包括数据读取模块、数据压缩模块、数据分析、数据 存储模块。数据读取模块用于从数据库中读取DNA测序仪的FASTQ数据流, 将FASTQ数据流分割为元数据、碱基和质量分数三个数据流,并将数据流 导入至数据压缩模块;数据压缩模块采用不同的压缩算法进行数据压缩, 然后将压缩后的数据汇总导入至数据存储模块;数据分析模块将FASTQ数 据流分割为多个短序列并建立索引,将测序序列分别与各染色体组的参考 序列进行比对,得到该测序序列与各染色体参考序列的比对结果;数据存 储模块由多个数据节点DataNode和中心节点NameNode组成,NameNode维 护所有文件的命名空间,以及每个文件所映射的文件块信息,负责寻找 合适的DataNode存放数据块。DataNode就是数据最终存放的地方,数据 文件被分割成多个文件块,每个文件块以文件形式存放到多个DataNode之 上。
数据压缩模块将将FASTQ数据流分割为元数据、碱基和质量分数三个 数据流,对不同的数据流采用不同的压缩方法,具体如下:
(1)元数据开始于字符‘@’并通常被空格符分隔成三部分。第一部 分为短读ID。第二部分由字符串组成,用来记录如测序设备名,流通池及 坐标等信息。最后一部分包含关键字‘length=’,用来表示短读长度。 第一部分及第三部分的元数据对于每个短读来说高度相同或相似,因此仅 存储它们一次。每条短读中元数据的第二部分差异较大,这部分数据将被 提取并直接使用LZMA(Lempel-Ziv-Markov chain-Algorithm)算法压缩。
(2)碱基数据按照短读的形式分段提取,提取的短读与同源参考基 因组比对,将匹配结果编码成‘[POS]<PAL><MLength><MType><MisValues>’ 的形式,编码的表示如下:POS匹配位置,PAL互补回文匹配标记,MLength 匹配长度,MType匹配类型,MisValues差异值。
每个短读都必须有匹配位置POS,短读未匹配时,POS将被设为0。 当互补回文匹配时,PAL将被设为0,否则PAL将被省略。MLength表示匹 配或错误匹配的长度并紧跟着匹配类型MType。匹配类型MType包含匹配 (M),插入(I),删除(D)或替换(S)。当匹配类型为插入或替换时, 差异值MisValues将由一个或多个{‘A’,‘C’,‘G’,‘T’,‘N’} 组成,以确保数据的完整性。将匹配位置使用算术编码进行压缩,将其他 信息如PAL,Mlength,Mtype,和MisValues组合在一起并使用霍夫曼编 码压缩。
(3)质量分数包含很长的连续相同字符,采用对连续相同字符进行 游程编码后进行压缩,如连续的二十二个字符‘#’将被编码成‘22#’。
如图2所示,数据分析模块采用MapReduce并行计算框架将FASTQ数 据流分割为多个短序列Part1、Part2、Part3,采用NGSQC工具包对短序 列进行质量过滤,去除测序数据中的干扰数据,然后使用Bowtie2比对工 具对测序数据进行比对,得到该测序序列与各染色体参考序列的比对结果 Bow chr1,chr2,...,chrM,根据比对结果提取出突变信息SNPchr1, chr2,...,chrM。
如图3所示,数据存储模块由多个数据节点DataNode和中心节点 NameNode组成,当数据流来到NameNode时,NameNode根据当前所保存的 各个DataNode的状态表,计算出当前各个DataNode节点存储容量和吞吐 量的优先次序,并返回当前最优的两个DataNode节点所在IP地址,将数 据流发送至这两个DataNode节点。DataNode会周期性心跳向NameNode报 告以示服务状态,对于长时间没有回应的DataNode,NameNode会把此 DataNode作为失效、不可读或不可写的DataNode,或直接从DataNode状 态表中删除。
以上的仅是本发明的优选实施方式,应当指出,对于本领域的普通技 术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和 改进,这些都属于本发明的保护范围。

Claims (3)

1.一种基因大数据分析与计算平台,其特征在于:所述平台包括数据读取模块、数据压缩模块、数据分析模块、数据存储模块;所述数据读取模块用于读取DNA测序仪得到的FASTQ数据,并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块;所述数据压缩模块采用不同的压缩算法对数据流进行数据压缩;所述数据分析模块用于将FASTQ数据进行短序列比对,提取比对结果中的SNP突变信息;所述数据存储模块用于将压缩后的数据采用分布式的存储方式存入数据库。
2.根据权利要求1所述的一种基因大数据分析与计算平台,其特征在于:所述数据压缩模块将FASTQ数据分割成元数据、碱基和质量分数三个数据流,分别采用LZMA算法、游程编码、算术编码进行压缩。
3.根据权利要求1所述的一种基因大数据分析与计算平台,其特征在于:所述数据存储模块由多个数据节点DataNode和中心节点NameNode组成,由中心节点NameNode将数据分发至各个DataNode节点进行存储。
CN201910518741.1A 2019-06-15 2019-06-15 一种基因大数据分析与计算平台 Pending CN112086134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910518741.1A CN112086134A (zh) 2019-06-15 2019-06-15 一种基因大数据分析与计算平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910518741.1A CN112086134A (zh) 2019-06-15 2019-06-15 一种基因大数据分析与计算平台

Publications (1)

Publication Number Publication Date
CN112086134A true CN112086134A (zh) 2020-12-15

Family

ID=73734212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910518741.1A Pending CN112086134A (zh) 2019-06-15 2019-06-15 一种基因大数据分析与计算平台

Country Status (1)

Country Link
CN (1) CN112086134A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083530A (zh) * 2022-08-22 2022-09-20 广州明领基因科技有限公司 基因测序数据压缩方法、装置、终端设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120137235A (ko) * 2011-06-10 2012-12-20 삼성전자주식회사 유전자 데이터를 압축하는 방법 및 장치
CN106100641A (zh) * 2016-06-12 2016-11-09 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其系统
CN108306650A (zh) * 2018-01-16 2018-07-20 厦门极元科技有限公司 基因测序数据的压缩方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120137235A (ko) * 2011-06-10 2012-12-20 삼성전자주식회사 유전자 데이터를 압축하는 방법 및 장치
CN106100641A (zh) * 2016-06-12 2016-11-09 深圳大学 针对fastq数据的多线程快速存储无损压缩方法及其系统
CN108306650A (zh) * 2018-01-16 2018-07-20 厦门极元科技有限公司 基因测序数据的压缩方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孟倩;: "基于高通量测序的短序列生物数据压缩研究", 计算机应用与软件, no. 04, pages 28 - 33 *
张永朋: "高通量DNA测序数据无损压缩研究", 《中国优秀硕士学位论文全文数据库基础科学辑》, pages 20 - 25 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083530A (zh) * 2022-08-22 2022-09-20 广州明领基因科技有限公司 基因测序数据压缩方法、装置、终端设备和存储介质

Similar Documents

Publication Publication Date Title
US11404143B2 (en) Method and systems for the indexing of bioinformatics data
Hach et al. SCALCE: boosting sequence compression algorithms using locally consistent encoding
Zhu et al. High-throughput DNA sequence data compression
CN106687966B (zh) 用于数据分析和压缩的方法和系统
Grabowski et al. Disk-based compression of data from genome sequencing
Wandelt et al. Trends in genome compression
EP2595076B1 (en) Compression of genomic data
EP3583249B1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
CN110120247A (zh) 一种分布式基因大数据存储平台
CN110168652B (zh) 用于存储和访问生物信息学数据的方法和系统
CN108287985A (zh) 一种gpu加速的dna序列压缩方法及系统
CN112086134A (zh) 一种基因大数据分析与计算平台
JP2020509474A (ja) 圧縮されたゲノムシーケンスリードからゲノムリファレンスシーケンスを再構築するための方法とシステム
CN110178183B (zh) 用于传输生物信息学数据的方法和系统
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台
KR20190113971A (ko) 다중 게놈 디스크립터를 이용한 생명정보학 데이터의 압축 표현 방법 및 장치
KR20190071741A (ko) 생물 정보학 데이터의 간략 표현 방법 및 장치
Grabowski et al. Disk-based genome sequencing data compression
Gilmary et al. Compression techniques for dna sequences: A thematic review
CA3052772A1 (en) Method and systems for the reconstruction of genomic reference sequences from compressed genomic sequence reads
CN110663022B (zh) 使用基因组描述符紧凑表示生物信息学数据的方法和设备
Gupta et al. An efficient compressor for biological sequences
Bhattacharyya et al. Recent directions in compressing next generation sequencing data
CN115910221A (zh) 一种针对基因组学数据的压缩方法
Chaudhary et al. An empirical study on efficient storage of human genome data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination