CN109192245A - 基因变异数据的GDS-Huffman压缩方法 - Google Patents

基因变异数据的GDS-Huffman压缩方法 Download PDF

Info

Publication number
CN109192245A
CN109192245A CN201810836104.4A CN201810836104A CN109192245A CN 109192245 A CN109192245 A CN 109192245A CN 201810836104 A CN201810836104 A CN 201810836104A CN 109192245 A CN109192245 A CN 109192245A
Authority
CN
China
Prior art keywords
gds
file
huffman
gvcf
genotype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810836104.4A
Other languages
English (en)
Inventor
邓元帅
李伟忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201810836104.4A priority Critical patent/CN109192245A/zh
Publication of CN109192245A publication Critical patent/CN109192245A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基因变异数据的GDS‑Huffman压缩方法,对于GVCF文件,基于GDS压缩方法根据基因型频率采用Huffman编码对GVCF文件中的基因型进行编码,而采用变长整型编码的方式对GVCF文件中的整型字段进行编码,得到压缩后的GDS文件。

Description

基因变异数据的GDS-Huffman压缩方法
技术领域
本发明涉及生命组学分析技术领域,更具体地,涉及一种基因变异数据的GDS-Huffman压缩方法。
背景技术
随着生命组学分析样本数的增多,基因组和全外显子组分析产生的基因突变数据VCF文件越来越大。例如,在精准医疗计划中研究的样本数可达到上万个,这么多样本的全外显子分析产生的VCF可能达到TB量级,而大文件读写速度慢,处理起来是很困难的,严重降低了分析速度,成为计算瓶颈。研究新的基因突变数据VCF文件组织方法,降低文件大小是解决这个问题的有效途径。
一个典型的VCF格式如图1所示。从图中的示例可以看到,VCF文件一般可以分成两部分内容:以“#”开头的注释部分;没有“#”开头的数据部分。注释部分解释了VCF文件产生的一些原始信息以及出现在数据部分中各个字段的含义。数据部分每行代表了一个变异位点的详细信息。
表1对VCF文件数据部分各列含义进行了详细描述。数据部分的最后两列是两个样本的基因型信息,这些基因型信息是与格式(FORMAT)中定义的字段格式相对应的。各个字段含义在注释部分有相关说明。
表1 VCF数据部分各列描述
GDS格式是一种分层的数据格式,用来储存可伸缩的面向数组的数据集。它在处理较大的数据集上有优势,特别是针对比内存大得多的数据集。在此基础上开发了名为gdsfmt的R包。gdsfmt针对小于一个字节的的整数数据提供了高效的操作,因为一个二倍体基因型,通常占用不到一个字节的空间。gdsfmt采用的压缩为无损压缩,并提供高效的随机访问。利用R中的parallel包,实现了对GDS文件的并行读取。
GDS利用分层结构储存VCF文件,针对VCF文件不同的区域采取相应的压缩方式进行储存。对于VCF文件中的DP,GQ,PL等整型字段GDS采用变长编码的方式进行编码储存,例如,对于一个-64到63的32位的整数,只需要用一个字节储存而不是四个字节。
32位有符号整型变长编码的示意图如图2所示,bi表示每个字节向量中第i个位置的比特值,bi取0或1。b1表示符号位,每个字节的最高位表示下个字节是否需要,比如b8=0,那么说明这个整数只占据这一个字节,后面的字节是不需要的。48被编码为01100000,64被编码为1000000000000001。采取这种方式可以有效降低整数储存空间。
对于VCF中的基因型(GT字段),GDS采用一个2-bit的数组来储存,比如一个二倍体基因型的储存数组M2x3x4。M2x3x4是一个三维数组,第一维表示倍型,比如人类基因型就是2,第二维表示样本个数,第三维表示变异位点所占的空间。如果一个2bits不能表示一个位点的所有等位基因,那么就要进行扩充。
针对GDS文件,有很多R工具包对其进行后续的下游分析,比如SNPRelate,SeqVarTools和GENESIS,这些工具可以在Bioconductor中获取。这些工具可以直接处理GDS文件完成下游的统计分析,从而形成一套完整的从上游到下游的分析流程。
GVCF格式是在多样本全外显子分析过程中常用的一种储存变异信息的格式,如果能将上述GDS方法应用在GVCF上,就能有效降低中间文件大小,提高分析效率。而GDS面向的是标准的VCF格式,它核心是对整数和基因型的编码。而GVCF文件中的基因型的分布是非常不均的,如基因型0/0占到98%。GDS并未考虑基因型分布的特点。若根据基因型频率特点采用新的编码方式,将进一步提高压缩率。
发明内容
本发明为解决现有技术没有考虑基因型分布而导致的GVCF文件的中间文件过大的技术缺陷,提供了一种基因变异数据的GDS-Huffman压缩方法。
为实现以上发明目的,采用的技术方案是:
一种基因变异数据的GDS-Huffman压缩方法,对于GVCF文件,基于GDS压缩方法根据基因型频率采用Huffman编码对GVCF文件中的基因型进行编码,而采用变长整型编码的方式对GVCF文件中的整型字段进行编码,得到压缩后的GDS文件。
与现有技术相比,本发明的有益效果是:
本发明提供的GDS-Huffman压缩方法充分考虑了GVCF中基因型频率的特点,利用Huffman编码基因型,更加高效地压缩GVCF文件。与传统的分析方法相比,利用GDS-Huffman压缩方法压缩GVCF文件,然后直接处理压缩后GDS-Huffman文件的方式大大降低了分析过程中中间文件的大小,解决了分析过程中大文件处理的问题。
附图说明
图1为VCF格式范例图。
图2为32位有符号整型变长编码的示意图。
图3为Huffman编码树的示意图。
图4为编码演示样例图。
图5为基于GDS-Huffman的全外显子分析流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
本实施例针对GVCF文件,基于GDS压缩方法,利用基因型频率特点,采用Huffman编码对基因型进行编码,从而更加高效地压缩GVCF文件。
根据基因型频率构建的Huffman编码树如图3所示。编码如表2所示。基因型将根据编码表进行编码。对于GVCF文件中的整型字段采用变长整型编码的方式进行编码。
表2基因型Huffman编码
基因型 编码
0/0 1
1/1 01
0/1 001
./. 0000
1/0 0001
使用上述方法对图4中的变异信息进行编码,结果为:
GT:100101
GQ:00010100 00010100 00010100
DP:01000000 01100000 10000000 00000001
本实施例将GDS-Huffman压缩方法应用在全外显子分析过程中,采用如图5所示的分析流程。对于产生的GVCF,首先采用GDS-Huffman压缩方法将其转换为GDS格式的文件。重新实现GenotypeGVCFs和CatVariants两个过程,直接处理GDS格式的GVCF文件,产生各个染色体区域对应的GDS格式文件,最终直接合并这些GDS文件,产生最终结果。
GDS-Huffman压缩方法以及GenotypeGVCFs和CatVariants的实现都是采用C++和R语言混合编译的方式进行的,这里用到了Rcpp包,它将这两种语言集成起来,提供相互调用的方法。最终将这些方法封装在R包中。
实施例2
表3是对GDS-Huffman压缩方法压缩性能的测试。该测试针对GVCF文件,原始数据来自于千人基因组项目(The 1000Genomes Project)中的全外显子测序数据,样本详细信息可以在千人基因组官网查询,这些数据是已经比对到参考基因组并且通过CRAM进行压缩的CRAM格式文件。首先通过Samtools对CRAM文件进行预处理,得到原始序列的FastQ格式文件,然后按照全外显子分析流程处理这些样本,得到每个样本的GVCF文件。将GVCF文件作为输入,使用GDS-Huffman压缩方法进行压缩。平均压缩率达到5.1%,压缩速率为4.1M/s。
表3 GDS-Huffman压缩性能测试
基于GDS-Huffman的全外显子分析测试如表4所示,测试集包含的样本编号如表5所示。从图中可以看到当样本数较少,样本总量较少时,基于GDS-Huffman的工作流的时间比常规分析还要多,但随着样本数增多,处理文件的总量增大,常规分析由于IO等问题,消耗时间会迅速增多,而基于GDS-Huffman的工作流由于大大降低了GVCF文件大小,并在这基础上处理文件,因此消耗时间比常规时间短。
表4基于GDS-Huffman的全外显子分析测试
表5测试集包含的样本编号
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (1)

1.一种基因变异数据的GDS-Huffman压缩方法,其特征在于:对于GVCF文件,基于GDS压缩方法根据基因型频率采用Huffman编码对GVCF文件中的基因型进行编码,而采用变长整型编码的方式对GVCF文件中的整型字段进行编码,得到压缩后的GDS文件。
CN201810836104.4A 2018-07-26 2018-07-26 基因变异数据的GDS-Huffman压缩方法 Pending CN109192245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810836104.4A CN109192245A (zh) 2018-07-26 2018-07-26 基因变异数据的GDS-Huffman压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810836104.4A CN109192245A (zh) 2018-07-26 2018-07-26 基因变异数据的GDS-Huffman压缩方法

Publications (1)

Publication Number Publication Date
CN109192245A true CN109192245A (zh) 2019-01-11

Family

ID=64936979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810836104.4A Pending CN109192245A (zh) 2018-07-26 2018-07-26 基因变异数据的GDS-Huffman压缩方法

Country Status (1)

Country Link
CN (1) CN109192245A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489731A (zh) * 2020-11-30 2021-03-12 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN112863600A (zh) * 2021-04-12 2021-05-28 哈尔滨工业大学 一种基于外显子区域插入的数据压缩方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN106971090A (zh) * 2017-03-10 2017-07-21 首度生物科技(苏州)有限公司 一种基因测序数据压缩和传输方法
US20170211205A1 (en) * 2016-01-26 2017-07-27 Seven Bridges Genomics Inc. Systems and Methods for Encoding Genetic Variation for a Population
CN107004068A (zh) * 2014-11-25 2017-08-01 皇家飞利浦有限公司 基因组数据的安全传输

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546160A (zh) * 2013-09-22 2014-01-29 上海交通大学 基于多参考序列的基因序列分级压缩方法
CN107004068A (zh) * 2014-11-25 2017-08-01 皇家飞利浦有限公司 基因组数据的安全传输
US20170211205A1 (en) * 2016-01-26 2017-07-27 Seven Bridges Genomics Inc. Systems and Methods for Encoding Genetic Variation for a Population
CN106156538A (zh) * 2016-06-29 2016-11-23 天津诺禾医学检验所有限公司 一种全基因组变异数据的注释方法和注释系统
CN106971090A (zh) * 2017-03-10 2017-07-21 首度生物科技(苏州)有限公司 一种基因测序数据压缩和传输方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
于军 等: "《基因组学与精准医学》", 31 December 2017, 上海交通大学出版社 *
青萍,你好: "VCF和GVCF格式说明", 《HTTPS://WWW.CNBLOGS.COM/TIMEISBIGGESTBOSS/P/9134733.HTML》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489731A (zh) * 2020-11-30 2021-03-12 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN112489731B (zh) * 2020-11-30 2024-02-23 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN112863600A (zh) * 2021-04-12 2021-05-28 哈尔滨工业大学 一种基于外显子区域插入的数据压缩方法

Similar Documents

Publication Publication Date Title
US10025773B2 (en) System and method for natural language processing using synthetic text
US8255701B2 (en) File encryption method
CN106777292A (zh) 一种数据序列化方法及装置
CN102708187A (zh) 基于Hbase数据库的倒排索引混合压缩及解压方法
CN112000771B (zh) 一种面向司法公开服务的句子对智能语义匹配方法和装置
CN102103630A (zh) 数据压缩方法和装置以及数据解压缩方法和装置
CN109192245A (zh) 基因变异数据的GDS-Huffman压缩方法
US20200402618A1 (en) Gene sequencing quality line data compression pre-processing and decompression and restoration methods, and system
WO2018027706A1 (zh) Fft处理器及运算方法
CN106528896A (zh) 一种数据库优化方法和装置
CN104881449A (zh) 基于流形学习数据压缩哈希的图像检索方法
CN117116489A (zh) 一种心理测评数据管理方法及系统
CN104133883B (zh) 电话号码归属地数据压缩方法
CN110442557A (zh) 数据压缩及解压缩方法、电子设备和计算机可读存储介质
US11615286B2 (en) Computing system and compressing method for neural network parameters
CN116861271A (zh) 基于大数据的数据分析处理方法
CN117081602A (zh) 基于区块链的资金结算数据优化处理方法
Absardi et al. A fast reference-free genome compression using deep neural networks
EP3070615A1 (en) Information processing apparatus, and data management method
CN109495113A (zh) 一种脑电信号的压缩方法及装置
CN114466082B (zh) 数据压缩、数据解压方法、系统及人工智能ai芯片
CN110532284A (zh) 海量数据存储和检索方法、装置、计算机设备及存储介质
Fu et al. All-CQS: adaptive locality-based lossy compression of quality scores
JP6237193B2 (ja) 行列圧縮装置、制御方法、及びプログラム
CN105844214B (zh) 一种基于比特空间的多路径深度编码的信息指纹提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190111

RJ01 Rejection of invention patent application after publication