CN112489731A - 一种基因型数据压缩方法、系统、计算机设备及存储介质 - Google Patents

一种基因型数据压缩方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN112489731A
CN112489731A CN202011371618.0A CN202011371618A CN112489731A CN 112489731 A CN112489731 A CN 112489731A CN 202011371618 A CN202011371618 A CN 202011371618A CN 112489731 A CN112489731 A CN 112489731A
Authority
CN
China
Prior art keywords
genotype
array
data
genotype data
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011371618.0A
Other languages
English (en)
Other versions
CN112489731B (zh
Inventor
张柳彬
李淼新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202011371618.0A priority Critical patent/CN112489731B/zh
Publication of CN112489731A publication Critical patent/CN112489731A/zh
Application granted granted Critical
Publication of CN112489731B publication Critical patent/CN112489731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基因型数据压缩方法,包括:采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件。本发明还公开了一种基因型数据压缩系统、计算机设备及存储介质。采用本发明,可实现更为高效、统一的大规模基因型数据区块压缩。

Description

一种基因型数据压缩方法、系统、计算机设备及存储介质
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种基因型数据压缩方法、系统、计算机设备及存储介质。
背景技术
基因组文件是基因组变异研究的重要基本文件。大型测序项目产生的基因组文件十分庞大,以千人基因组计划为例,项目的最终阶段采集了2504人的基因序列,涵盖了8800万变异位点,这些数据文件经过通用的GZIP(GNU-ZIP)压缩算法压缩后仍然超过25GB大小。因此,结合基因组数据的特点,需设计专用压缩算法来缩减空间大小。
目前,基因组文件压缩研究的重心在占据庞大空间的基因型数据上,压缩的基本手段包括:对基因型数据重新表示(编码)、使用排列算法增强数据间的一致性(重排序)、使用字典压缩算法进行压缩(压缩)。
自2016年问世的PBWT(参见Durbin R.Efficient haplotype matching andstorage using the positional Burrows–Wheeler transform(PBWT)[J].Bioinformatics,2014,30(9):1266-1272.)、BGT(参见Li H.BGT:efficient andflexible genotype query across many samples[J].Bioinformatics,2016,32(4):590-592)、GTC(参见Danek A,Deorowicz S.GTC:how to maintain huge genotypecollections in a compressed form[J].Bioinformatics,2018,34(11):1834-1840)压缩算法是兼顾高效压缩与随机访问的优秀技术。编码上,PBWT、BGT、GTC都将基因型数据转为2个单倍型,并将每个单倍型都编码为2个位。重排序上,PBWT、BGT都使用了PBWT变换,而GTC使用了基于数据特征的最近邻启发式算法。压缩上,PBWT、BGT、GTC主要采用字典类压缩技术(如,LZMA压缩、Huffman压缩)。但是,上述压缩算法具有以下缺点:
(1)基因组数据压解不一致:PBWT变换只能对01序列进行,这些算法需要将基因组数据转为定长01编码序列,因而需要将复等位基因位点转为双等位基因位点,再对双等位基因位点编码为4个位(每个单倍型都是2个位),破坏了基因组数据的原始信息;
(2)压解速度慢:所使用的排列算法复杂度高,在大样本基因组数据中推进效率低;LZMA算法在大型数据上压缩速度较慢;检索结构不合理、不可复用检索缓存结构;
(3)压缩比上:BGT编码导致数据过度预压缩,降低了后续字典压缩技术的功效;
(4)文件管理上:这些工具将基因组文件的不同组件分别存放到不同的子文件中,随着数据文件越来越多,它们产生的压缩存档也越来越庞杂,无法应对大规模人群基因组中的集群文件管理需求;同时,非解耦式结构使得局部压缩存档的修改、保留、合并都需要先将压缩存档还原回基因组文件,再重新压缩。
发明内容
本发明所要解决的技术问题在于,提供一种基因型数据压缩方法及计算机设备,可实现更为高效、统一的大规模基因型数据区块压缩。
为了解决上述技术问题,本发明提供了一种基因型数据压缩方法,包括:采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;根据所述变异位点特征阵列的顺序依次对非基因型数据及所述基因型阵列进行压缩处理,以生成GTB文件。
作为上述方案的改进,所述采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列的步骤包括:判断变异位点的等位基因个数是否处于预设范围内;当所述变异位点中等位基因个数小于预设范围时,采用单字节模式将所述变异位点的每个基因型a|b编码为:
Figure BDA0002806904050000021
当所述变异位点中等位基因个数处于预设范围内时,采用双字节模式将所述变异位点的每个基因型a|b编码为:
Figure BDA0002806904050000022
作为上述方案的改进,所述对基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列的步骤包括:定义所述基因型阵列中变异位点的特征向量λv,其中,在单字节模式下,λv=[1,f(qv0),-f(qv1),INDEX],“1”表示编码位长为1字节,f(qv0)为0等位基因的频率映射值,-f(qv1)为1等位基因的频率映射值,INDEX为该位点在该压缩块中的原始位置,在双字节模式下,λv=[2,0,0,INDEX],“2”表示编码位长为2字节;根据所述特征向量的字典序对压缩块中的变异位点进行排序,生成新的位点排列顺序。
作为上述方案的改进,所述等位基因的频率映射值的计算步骤包括:
基因型a|b中具有的等位基因个数表示为:Si[a×15+b]=I(a=i)+I(b=i),其中,i为等位基因;
每个变异位点的等位基因频率表示为:
Figure BDA0002806904050000031
其中,v为变异位点;
根据公式
Figure BDA0002806904050000032
将等位基因频率进行变换,并映射到子区间上,其中,f(q)为等位基因的频率映射值。
作为上述方案的改进,所述根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件的步骤包括:将非基因型数据中的位置数据转换为整数,并进行拼接处理;将非基因型数据中的碱基序列进行拼接处理;将拼接后的位置数据、拼接后的碱基序列及变异位点特征阵列通过ZSTD压缩方法进行压缩处理,以生成GTB文件。
作为上述方案的改进,所述GTB文件包括文件基本信息、样本名称序列、第一数据分隔符、压缩块摘要信息、第二数据分隔符及压缩块数据段;所述压缩块摘要信息包括染色体编号、块最小位点、块最大位点、块变异位点数量及块数据段长度。
作为上述方案的改进,所述基因型数据压缩方法还包括:解压所述GTB文件时,扫描所述GTB文件的压缩块摘要信息以构建GTBRoot检索树,并利用所述GTBRoot检索树对所述GTB文件进行解压;所述GTBRoot检索树以所述染色体编号作为一级节点,并以同一染色体编号下的每个压缩块摘要信息作为子叶。
相应地,本发明还提供了一种基因型数据压缩系统,包括:编码模块,用于采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;采样及重排序模块,用于对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;压缩模块,用于根据所述变异位点特征阵列的顺序依次对非基因型数据及所述基因型阵列进行压缩处理,以生成GTB文件。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述基因型数据压缩方法的步骤。
相应地,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基因型数据压缩方法的步骤。
实施本发明,具有如下有益效果:
本发明提出以“字节”为粒度(单位)进行编码,构建了新的最简基因型数据编码方式,能够充分保留基因型数据间的规律;同时,本发明还引入重排序技术及ZSTD压缩方法,使得压缩比、压解速度提升至更高的水平;
另外,本发明还构建了新型的区块状储存结构——GTB文件,可使一个VCF文件可以仅产生一个压缩存档,而对于同一个测序群体的多个VCF文件,也可以将这些VCF文件压缩为一个整体,统一性、灵活性强;
进一步,本发明还构建了新型的GTBRoot检索树,重复进行多次检索时,只需要构建一次GTBRoot检索树,减少了频繁查询数据的预处理时间开销,具有极高的检索效率。
附图说明
图1是本发明基因型数据压缩方法的实施例流程图;
图2是本发明基因型数据压缩方法的实施例示意图;
图3是本发明中GTBRoot检索树的结构示意图;
图4是本发明基因型数据压缩系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
参见图1,图1显示了本发明基因型数据压缩方法(Genotype BlockedCompressor,GBC)的实施例流程图,其包括:
S101,采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列。
现有基因型数据编码方法都是将基因型数据以“位”为粒度进行编码,但这样的编码无法直接处理多等位基因型数据,也会掩盖基因型数据的内部规律。与现有技术不同的是,本发明提出以“字节”为粒度(单位)进行编码,构建了新的最简基因型数据编码(TheMost ParsimoniousByte Encodingof Genotype,MPBEG)方式。
具体地,所述采用最简基因型数据编码方式对基因型数据进行编码处理,以生成基因型阵列的步骤包括:
(1)判断变异位点的等位基因个数是否处于预设范围内。
需要说明的是,识别字节模式的唯一标准是变异位点的REF碱基字段和ALT碱基字段所具有的等位基因个数,因此,本发明根据等位基因个数对变异位点进行分类编码。
(2)当所述变异位点中等位基因个数小于预设范围时,采用单字节模式将所述变异位点的每个基因型a|b编码为:
Figure BDA0002806904050000051
优选地,所述预设范围为16~255,也就是说,当所述变异位点中等位基因个数nv<16时,采用单字节模式将所述变异位点的每个基因型进行编码。
需要说明的是,数值范围在0~225之间,可以在1字节内进行表示,并定义此模式为单字节模式。
实际上,单字节模式已经可以表示足够多等位基因的变异位点。因此,默认情况下,只采用单字节模式进行编码,以降低压缩时的内存空间需求和压缩后的硬盘存储空间需求。
(3)当所述变异位点中等位基因个数处于预设范围内时,采用双字节模式将所述变异位点的每个基因型a|b编码为:
Figure BDA0002806904050000052
优选地,所述预设范围为16~255,也就是说,当所述变异位点中等位基因个数nv满足条件:16≤nv≤255时,采用双字节模式将所述变异位点的每个基因型编码。
需要说明的是,数值范围在0~65025之间,可以在2字节内进行表示,并定义此模式为双字节模式。
另外,为了加速编码/解码过程,本发明将编码/解码过程中所采用的编码表储存于线性数组中,其中,所述编码/解码表以编码值作为索引,可直接提取数据的字节表示。
例如,解码过程的0对应基因型0|0,在解码表中取得的结果是字节数组{9,48,124,48}。
因此,本发明所采用的最简基因型数据编码方式,是保存单个基因型数据的最简字节形式,能够充分保留基因型数据间的规律,使得压缩比、压解速度提升至更高的水平。
S102,对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列。
具体地,对基因型阵列进行特征采样的方法为:定义所述基因型阵列中变异位点的特征向量λv
下面分别针对单字节模式及双字节模式进行分别说明。
(1)单字节模式
对于单字节模式,基因型a|b中具有的等位基因个数表示为:Si[a×15+b]=I(a=i)+I(b=i)。
每个变异位点的等位基因频率表示为:
Figure BDA0002806904050000061
可将等位基因频率按如下公式进行变换,并映射到8个子区间上:
Figure BDA0002806904050000062
其中,i为等位基因,v为变异位点,f(q)为等位基因的频率映射值。
相应地,在单字节模式下,变异位点的特征向量λv=[1,f(qv0),-f(qv1),INDEX。其中,第一项参数“1”表示编码位长为1字节,第二项参数fqv0为0等位基因的频率映射值,第三项参数-f(qv1)为1等位基因的频率映射值,第四项参数INDEX为该位点在该压缩块中的原始位置。
(2)在双字节模式下,变异位点的特征向量λv=[2,0,0,INDEX]。其中,第一项参数“2”表示编码位长为2字节,第四项参数INDEX为该位点在该压缩块中的原始位置。
另外,对特征采样后的基因型阵列进行重排序的方法为:根据所述特征向量的字典序对压缩块中的变异位点进行排序,生成新的位点排列顺序。
S103,根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件。
具体地,所述根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件的步骤包括:
(1)将非基因型数据中的位置数据转换为整数,并进行拼接处理。
如图2所示,非基因型数据中,将位置数据(POS字段)按照int类型保存(即每个位置数据占用4字节),并拼接到一起。
(2)将非基因型数据中的碱基序列进行拼接处理。
如图2所示,非基因型数据中,将REF碱基序列和ALT碱基序列使用“/”作为分隔符直接拼接在一起。
(3)将拼接后的位置数据、拼接后的碱基序列及变异位点特征阵列通过ZSTD压缩方法进行压缩处理,以生成GTB文件。
需要说明的是,ZSTD压缩方法与LZMA压缩方法都是经典的字典类压缩算法,其中,ZSTD压缩方法具有更高的吞吐速度,而LZMA压缩方法具有更高的压缩比。由于本发明所采用的最简基因型数据编码和重排序技术,使得压缩比提升至更高的水平,因此,本发明使用具有更高吞吐速度的ZSTD压缩方法进行压缩。
如图2所示,所述GTB文件包括文件基本信息、样本名称序列、第一数据分隔符、压缩块摘要信息、第二数据分隔符及压缩块数据段;其中,所述压缩块摘要信息包括染色体编号、块最小位点、块最大位点、块变异位点数量及块数据段长度;所述压缩块数据段包括经过处理的位置数据阵列、经过处理的碱基序列(REF碱基序列、ALT碱基序列)、数据分隔符及经过处理的基因型阵列。
现有的基因组文件压缩算法都将不同的字段拆分到多个子文件中进行储存。与现有技术不同的是,本发明设计了一种新型的区块状储存结构——GTB文件。
GTB文件可使一个VCF文件可以仅产生一个压缩存档,而对于同一个测序群体的多个VCF文件,GTB文件也可以将这些VCF文件压缩为一个整体,统一性、灵活性强。因此,通过GTB文件可使大型基因组文件的管理变得更为简便,能够灵活应用于多种数据分析、存储场景。同时,GTB文件还便于传输、使用,支持增量压缩、局部提取数据、局部修改数据,也支持并行地进行压解,可充分利用计算机多核特性,提高算法的推进速度。
因此,本发明设计了新型的编码方式、新型的基因型阵列排列算法、新型的存储架构,并结合更快速的字典类压缩技术,实现一种更为高效、统一的基因型数据压缩方法,在压解速度、压缩比上相比过去的工具具有重大提升。
进一步,所述基因型数据压缩方法还包括:解压所述GTB文件时,扫描所述GTB文件的压缩块摘要信息以构建GTBRoot检索树,并利用所述GTBRoot检索树对所述GTB文件进行解压,速度快,在数据解压时具有极高的检索效率。
如图3所示,所述GTBRoot检索树以所述染色体编号作为一级节点,并以同一染色体编号下的每个压缩块摘要信息作为子叶,形成树形结构。需要说明的是,每个压缩块的变异位点都具有相同的染色体编号,而每个压缩块的染色体编号、块内最小POS、块内最大POS、变异位点总数、数据段大小构成了块的摘要信息。
需要说明的是,经典数据结构中已经证实树形结构是一种高效的检索方式。GTBRoot检索树的构建只需要采集GTB文件非常短的一段数据,在交互模式下重复检索同一个文件时,这样的GTBRoot检索树只需要构建一次,便可重复使用,减少了频繁查询数据的预处理时间开销。
同时,依托于树状的GTBRoot检索树,GTB文件可以实现增量压缩、局部数据修改、局部数据提取,而不必再解压全部数据后重新进行压缩。
下面使用千人基因组计划常染色体数据集对现有技术(BGT、PBWT、GTC)及本发明基因型数据压缩方法(GBC)进行测试对比,测试设备都是MacbookPro15'2018(512GB固态硬盘,32GB内存),提取数据采用4线程并行解压(其他软件均不支持并行解压):
一、基本性能对比(全部数据,2504样本,81271745位点,816.13GB大小)
平台 存档大小[GB] 压缩比 压缩时间[s] 解压时间[s] 存档数量
BGT 10.7 81.88 14580 4287 440
PBWT 8.6 102.03 8955 6259 330
GTC 4.1 214.07 12417 7432 440
GBC 2.9 306.81 1703 1319 5
二、提取指定数量的变异位点用时对比(单位:秒,AMR-chr1,347样本,6468094位点)
Figure BDA0002806904050000081
Figure BDA0002806904050000091
三、提取指定数量的样本全部位点用时对比(单位:秒,AFR-chr1,661样本6468094位点)
样本数量 BGT PBWT GTC GBC
1 4.445 9.898 5.320 0.713
10 5.545 12.550 8.845 0.905
50 10.532 21.917 19.347 1.612
100 15.685 33.516 35.648 2.540
300 37.477 78.170 66.898 9.564
500 58.206 126.113 101.873 14.003
四、过滤性能用时对比(单位:秒,AFR-chr2,661样本,7081600位点)
等位基因频数范围 BGT GTC GBC
0-1322(100%) 90.416 129.909 18.370
132-1190(80%) 23.974 27.418 3.879
264-1058(60%) 21.187 24.121 3.125
396-926(40%) 19.235 23.840 2.869
528-794(20%) 17.764 21.601 2.734
594-728(10%) 17.131 20.654 2.597
注:多线程环境下,GBC解压产生的变异位点顺序是无序的;单线程环境下,GBC产生的变异位点顺序是有序的,此时也仍能以1倍以上速度快于现有的工具。
由上可知,本发明基因型数据压缩方法通过创新的编码方式、基因型阵列排列方式、索引结构、存储架构,提供极快的压解速度和精简统一的文件储存方式,并可成为本领域先进数据分析工具的基础组件之一。
如图,本发明还提供了一种基因型数据压缩系统100,其包括:
编码模块1,用于采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列。具体地,所述编码模块1执行上述步骤S101,在此不再重复描述。
采样及重排序模块2,用于对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列。具体地,所述采样及重排序模块2执行上述步骤S102,在此不再重复描述。
压缩模块3,用于根据所述变异位点特征阵列的顺序依次对非基因型数据及所述基因型阵列进行压缩处理,以生成GTB文件。具体地,所述压缩模块3执行上述步骤S103,在此不再重复描述。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述基因型数据压缩方法的步骤。同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基因型数据压缩方法的步骤。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种基因型数据压缩方法,其特征在于,包括:
采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;
对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;
根据所述变异位点特征阵列的顺序依次对非基因型数据及所述基因型阵列进行压缩处理,以生成GTB文件。
2.如权利要求1所述的基因型数据压缩方法,其特征在于,所述采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列的步骤包括:
判断变异位点的等位基因个数是否处于预设范围内;
当所述变异位点中等位基因个数小于预设范围时,采用单字节模式将所述变异位点的每个基因型a|b编码为:
Figure FDA0002806904040000011
当所述变异位点中等位基因个数处于预设范围内时,采用双字节模式将所述变异位点的每个基因型a|b编码为:
Figure FDA0002806904040000012
3.如权利要求1所述的基因型数据压缩方法,其特征在于,所述对基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列的步骤包括:
定义所述基因型阵列中变异位点的特征向量λv,其中,
在单字节模式下,λv=[1,f(qv0),-f(qv1),INDEX],“1”表示编码位长为1字节,f(qv0)为0等位基因的频率映射值,-f(qv1)为1等位基因的频率映射值,INDEX为该位点在该压缩块中的原始位置,
在双字节模式下,λv=[2,0,0,INDEX],“2”表示编码位长为2字节;
根据所述特征向量的字典序对压缩块中的变异位点进行排序,生成新的位点排列顺序。
4.如权利要求3所述的基因型数据压缩方法,其特征在于,所述等位基因的频率映射值的计算步骤包括:
基因型a|b中具有的等位基因个数表示为:Si[a×15+b]=I(a=i)+I(b=i),其中,i为等位基因;
每个变异位点的等位基因频率表示为:
Figure FDA0002806904040000021
其中,v为变异位点;
根据公式
Figure FDA0002806904040000022
将等位基因频率进行变换,并映射到子区间上,其中,f(q)为等位基因的频率映射值。
5.如权利要求1所述的基因型数据压缩方法,其特征在于,所述根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件的步骤包括:
将非基因型数据中的位置数据转换为整数,并进行拼接处理;
将非基因型数据中的碱基序列进行拼接处理;
将拼接后的位置数据、拼接后的碱基序列及变异位点特征阵列通过ZSTD压缩方法进行压缩处理,以生成GTB文件。
6.如权利要求1所述的基因型数据压缩方法,其特征在于,所述GTB文件包括文件基本信息、样本名称序列、第一数据分隔符、压缩块摘要信息、第二数据分隔符及压缩块数据段;
所述压缩块摘要信息包括染色体编号、块最小位点、块最大位点、块变异位点数量及块数据段长度。
7.如权利要求6所述的基因型数据压缩方法,其特征在于,还包括:解压所述GTB文件时,扫描所述GTB文件的压缩块摘要信息以构建GTBRoot检索树,并利用所述GTBRoot检索树对所述GTB文件进行解压;
所述GTBRoot检索树以所述染色体编号作为一级节点,并以同一染色体编号下的每个压缩块摘要信息作为子叶。
8.一种基因型数据压缩系统,其特征在于,包括:
编码模块,用于采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;
采样及重排序模块,用于对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;
压缩模块,用于根据所述变异位点特征阵列的顺序依次对非基因型数据及所述基因型阵列进行压缩处理,以生成GTB文件。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011371618.0A 2020-11-30 2020-11-30 一种基因型数据压缩方法、系统、计算机设备及存储介质 Active CN112489731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011371618.0A CN112489731B (zh) 2020-11-30 2020-11-30 一种基因型数据压缩方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011371618.0A CN112489731B (zh) 2020-11-30 2020-11-30 一种基因型数据压缩方法、系统、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112489731A true CN112489731A (zh) 2021-03-12
CN112489731B CN112489731B (zh) 2024-02-23

Family

ID=74937209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011371618.0A Active CN112489731B (zh) 2020-11-30 2020-11-30 一种基因型数据压缩方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112489731B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109192245A (zh) * 2018-07-26 2019-01-11 中山大学 基因变异数据的GDS-Huffman压缩方法
CN110021369A (zh) * 2017-10-24 2019-07-16 人和未来生物科技(长沙)有限公司 基因测序数据压缩解压方法、系统及计算机可读介质
CN110021368A (zh) * 2017-10-20 2019-07-16 人和未来生物科技(长沙)有限公司 比对型基因测序数据压缩方法、系统及计算机可读介质
CN110246546A (zh) * 2019-06-18 2019-09-17 西南民族大学 一种基因型高通量测序数据的压缩方法
CN111625509A (zh) * 2020-05-26 2020-09-04 福州数据技术研究院有限公司 深度测序基因序列数据文件的无损压缩方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021368A (zh) * 2017-10-20 2019-07-16 人和未来生物科技(长沙)有限公司 比对型基因测序数据压缩方法、系统及计算机可读介质
CN110021369A (zh) * 2017-10-24 2019-07-16 人和未来生物科技(长沙)有限公司 基因测序数据压缩解压方法、系统及计算机可读介质
CN109192245A (zh) * 2018-07-26 2019-01-11 中山大学 基因变异数据的GDS-Huffman压缩方法
CN110246546A (zh) * 2019-06-18 2019-09-17 西南民族大学 一种基因型高通量测序数据的压缩方法
CN111625509A (zh) * 2020-05-26 2020-09-04 福州数据技术研究院有限公司 深度测序基因序列数据文件的无损压缩方法

Also Published As

Publication number Publication date
CN112489731B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN106687966B (zh) 用于数据分析和压缩的方法和系统
CN110603595B (zh) 用于从压缩的基因组序列读段重建基因组参考序列的方法和系统
US8340914B2 (en) Methods and systems for compressing and comparing genomic data
JP5466232B2 (ja) 大規模なデータストレージのための効率的な列ベースデータの符号化
US8798936B2 (en) Methods and systems for data analysis using the Burrows Wheeler transform
CN107066837B (zh) 一种有参考dna序列压缩方法和系统
US20130166518A1 (en) Compression Of Genomic Data File
Apostolico et al. Compression of biological sequences by greedy off-line textual substitution
Yanovsky ReCoil-an algorithm for compression of extremely large datasets of DNA data
EP2595076B1 (en) Compression of genomic data
Sirén Burrows-Wheeler transform for terabases
Sardaraz et al. SeqCompress: An algorithm for biological sequence compression
Mansouri et al. One-bit dna compression algorithm
CN112489731A (zh) 一种基因型数据压缩方法、系统、计算机设备及存储介质
Gilmary et al. Compression techniques for dna sequences: A thematic review
Roy et al. An efficient compression algorithm for forthcoming new species
Challa et al. A novel compression technique for DNA sequence compaction
Soliman et al. A lossless compression algorithm for DNA sequences
Gupta et al. An efficient compressor for biological sequences
CN112086134A (zh) 一种基因大数据分析与计算平台
Mehta et al. DNA compression using referential compression algorithm
CN115691683A (zh) 一种基因型信息压缩方法、装置及计算机可读存储介质
Keerthy et al. Pattern matching in compressed genomic sequence data
Biji et al. NGS read data compression using parallel computing algorithm
Li et al. Efficient parallel design for BWT-based DNA sequences data multi-compression algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant