CN112489731A - 一种基因型数据压缩方法、系统、计算机设备及存储介质 - Google Patents
一种基因型数据压缩方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112489731A CN112489731A CN202011371618.0A CN202011371618A CN112489731A CN 112489731 A CN112489731 A CN 112489731A CN 202011371618 A CN202011371618 A CN 202011371618A CN 112489731 A CN112489731 A CN 112489731A
- Authority
- CN
- China
- Prior art keywords
- genotype
- array
- data
- genotype data
- generate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013144 data compression Methods 0.000 title claims abstract description 32
- 230000006835 compression Effects 0.000 claims abstract description 51
- 238000007906 compression Methods 0.000 claims abstract description 50
- 238000005070 sampling Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 8
- 108700028369 Alleles Proteins 0.000 claims description 42
- 210000000349 chromosome Anatomy 0.000 claims description 11
- 230000035772 mutation Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006872 improvement Effects 0.000 description 7
- 230000006837 decompression Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 102000054766 genetic haplotypes Human genes 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009089 cytolysis Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/50—Compression of genetic data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基因型数据压缩方法,包括:采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件。本发明还公开了一种基因型数据压缩系统、计算机设备及存储介质。采用本发明,可实现更为高效、统一的大规模基因型数据区块压缩。
Description
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种基因型数据压缩方法、系统、计算机设备及存储介质。
背景技术
基因组文件是基因组变异研究的重要基本文件。大型测序项目产生的基因组文件十分庞大,以千人基因组计划为例,项目的最终阶段采集了2504人的基因序列,涵盖了8800万变异位点,这些数据文件经过通用的GZIP(GNU-ZIP)压缩算法压缩后仍然超过25GB大小。因此,结合基因组数据的特点,需设计专用压缩算法来缩减空间大小。
目前,基因组文件压缩研究的重心在占据庞大空间的基因型数据上,压缩的基本手段包括:对基因型数据重新表示(编码)、使用排列算法增强数据间的一致性(重排序)、使用字典压缩算法进行压缩(压缩)。
自2016年问世的PBWT(参见Durbin R.Efficient haplotype matching andstorage using the positional Burrows–Wheeler transform(PBWT)[J].Bioinformatics,2014,30(9):1266-1272.)、BGT(参见Li H.BGT:efficient andflexible genotype query across many samples[J].Bioinformatics,2016,32(4):590-592)、GTC(参见Danek A,Deorowicz S.GTC:how to maintain huge genotypecollections in a compressed form[J].Bioinformatics,2018,34(11):1834-1840)压缩算法是兼顾高效压缩与随机访问的优秀技术。编码上,PBWT、BGT、GTC都将基因型数据转为2个单倍型,并将每个单倍型都编码为2个位。重排序上,PBWT、BGT都使用了PBWT变换,而GTC使用了基于数据特征的最近邻启发式算法。压缩上,PBWT、BGT、GTC主要采用字典类压缩技术(如,LZMA压缩、Huffman压缩)。但是,上述压缩算法具有以下缺点:
(1)基因组数据压解不一致:PBWT变换只能对01序列进行,这些算法需要将基因组数据转为定长01编码序列,因而需要将复等位基因位点转为双等位基因位点,再对双等位基因位点编码为4个位(每个单倍型都是2个位),破坏了基因组数据的原始信息;
(2)压解速度慢:所使用的排列算法复杂度高,在大样本基因组数据中推进效率低;LZMA算法在大型数据上压缩速度较慢;检索结构不合理、不可复用检索缓存结构;
(3)压缩比上:BGT编码导致数据过度预压缩,降低了后续字典压缩技术的功效;
(4)文件管理上:这些工具将基因组文件的不同组件分别存放到不同的子文件中,随着数据文件越来越多,它们产生的压缩存档也越来越庞杂,无法应对大规模人群基因组中的集群文件管理需求;同时,非解耦式结构使得局部压缩存档的修改、保留、合并都需要先将压缩存档还原回基因组文件,再重新压缩。
发明内容
本发明所要解决的技术问题在于,提供一种基因型数据压缩方法及计算机设备,可实现更为高效、统一的大规模基因型数据区块压缩。
为了解决上述技术问题,本发明提供了一种基因型数据压缩方法,包括:采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;根据所述变异位点特征阵列的顺序依次对非基因型数据及所述基因型阵列进行压缩处理,以生成GTB文件。
作为上述方案的改进,所述采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列的步骤包括:判断变异位点的等位基因个数是否处于预设范围内;当所述变异位点中等位基因个数小于预设范围时,采用单字节模式将所述变异位点的每个基因型a|b编码为:
当所述变异位点中等位基因个数处于预设范围内时,采用双字节模式将所述变异位点的每个基因型a|b编码为:
作为上述方案的改进,所述对基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列的步骤包括:定义所述基因型阵列中变异位点的特征向量λv,其中,在单字节模式下,λv=[1,f(qv0),-f(qv1),INDEX],“1”表示编码位长为1字节,f(qv0)为0等位基因的频率映射值,-f(qv1)为1等位基因的频率映射值,INDEX为该位点在该压缩块中的原始位置,在双字节模式下,λv=[2,0,0,INDEX],“2”表示编码位长为2字节;根据所述特征向量的字典序对压缩块中的变异位点进行排序,生成新的位点排列顺序。
作为上述方案的改进,所述等位基因的频率映射值的计算步骤包括:
基因型a|b中具有的等位基因个数表示为:Si[a×15+b]=I(a=i)+I(b=i),其中,i为等位基因;
作为上述方案的改进,所述根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件的步骤包括:将非基因型数据中的位置数据转换为整数,并进行拼接处理;将非基因型数据中的碱基序列进行拼接处理;将拼接后的位置数据、拼接后的碱基序列及变异位点特征阵列通过ZSTD压缩方法进行压缩处理,以生成GTB文件。
作为上述方案的改进,所述GTB文件包括文件基本信息、样本名称序列、第一数据分隔符、压缩块摘要信息、第二数据分隔符及压缩块数据段;所述压缩块摘要信息包括染色体编号、块最小位点、块最大位点、块变异位点数量及块数据段长度。
作为上述方案的改进,所述基因型数据压缩方法还包括:解压所述GTB文件时,扫描所述GTB文件的压缩块摘要信息以构建GTBRoot检索树,并利用所述GTBRoot检索树对所述GTB文件进行解压;所述GTBRoot检索树以所述染色体编号作为一级节点,并以同一染色体编号下的每个压缩块摘要信息作为子叶。
相应地,本发明还提供了一种基因型数据压缩系统,包括:编码模块,用于采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;采样及重排序模块,用于对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;压缩模块,用于根据所述变异位点特征阵列的顺序依次对非基因型数据及所述基因型阵列进行压缩处理,以生成GTB文件。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述基因型数据压缩方法的步骤。
相应地,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基因型数据压缩方法的步骤。
实施本发明,具有如下有益效果:
本发明提出以“字节”为粒度(单位)进行编码,构建了新的最简基因型数据编码方式,能够充分保留基因型数据间的规律;同时,本发明还引入重排序技术及ZSTD压缩方法,使得压缩比、压解速度提升至更高的水平;
另外,本发明还构建了新型的区块状储存结构——GTB文件,可使一个VCF文件可以仅产生一个压缩存档,而对于同一个测序群体的多个VCF文件,也可以将这些VCF文件压缩为一个整体,统一性、灵活性强;
进一步,本发明还构建了新型的GTBRoot检索树,重复进行多次检索时,只需要构建一次GTBRoot检索树,减少了频繁查询数据的预处理时间开销,具有极高的检索效率。
附图说明
图1是本发明基因型数据压缩方法的实施例流程图;
图2是本发明基因型数据压缩方法的实施例示意图;
图3是本发明中GTBRoot检索树的结构示意图;
图4是本发明基因型数据压缩系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
参见图1,图1显示了本发明基因型数据压缩方法(Genotype BlockedCompressor,GBC)的实施例流程图,其包括:
S101,采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列。
现有基因型数据编码方法都是将基因型数据以“位”为粒度进行编码,但这样的编码无法直接处理多等位基因型数据,也会掩盖基因型数据的内部规律。与现有技术不同的是,本发明提出以“字节”为粒度(单位)进行编码,构建了新的最简基因型数据编码(TheMost ParsimoniousByte Encodingof Genotype,MPBEG)方式。
具体地,所述采用最简基因型数据编码方式对基因型数据进行编码处理,以生成基因型阵列的步骤包括:
(1)判断变异位点的等位基因个数是否处于预设范围内。
需要说明的是,识别字节模式的唯一标准是变异位点的REF碱基字段和ALT碱基字段所具有的等位基因个数,因此,本发明根据等位基因个数对变异位点进行分类编码。
(2)当所述变异位点中等位基因个数小于预设范围时,采用单字节模式将所述变异位点的每个基因型a|b编码为:
优选地,所述预设范围为16~255,也就是说,当所述变异位点中等位基因个数nv<16时,采用单字节模式将所述变异位点的每个基因型进行编码。
需要说明的是,数值范围在0~225之间,可以在1字节内进行表示,并定义此模式为单字节模式。
实际上,单字节模式已经可以表示足够多等位基因的变异位点。因此,默认情况下,只采用单字节模式进行编码,以降低压缩时的内存空间需求和压缩后的硬盘存储空间需求。
(3)当所述变异位点中等位基因个数处于预设范围内时,采用双字节模式将所述变异位点的每个基因型a|b编码为:
优选地,所述预设范围为16~255,也就是说,当所述变异位点中等位基因个数nv满足条件:16≤nv≤255时,采用双字节模式将所述变异位点的每个基因型编码。
需要说明的是,数值范围在0~65025之间,可以在2字节内进行表示,并定义此模式为双字节模式。
另外,为了加速编码/解码过程,本发明将编码/解码过程中所采用的编码表储存于线性数组中,其中,所述编码/解码表以编码值作为索引,可直接提取数据的字节表示。
例如,解码过程的0对应基因型0|0,在解码表中取得的结果是字节数组{9,48,124,48}。
因此,本发明所采用的最简基因型数据编码方式,是保存单个基因型数据的最简字节形式,能够充分保留基因型数据间的规律,使得压缩比、压解速度提升至更高的水平。
S102,对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列。
具体地,对基因型阵列进行特征采样的方法为:定义所述基因型阵列中变异位点的特征向量λv。
下面分别针对单字节模式及双字节模式进行分别说明。
(1)单字节模式
对于单字节模式,基因型a|b中具有的等位基因个数表示为:Si[a×15+b]=I(a=i)+I(b=i)。
可将等位基因频率按如下公式进行变换,并映射到8个子区间上:
其中,i为等位基因,v为变异位点,f(q)为等位基因的频率映射值。
相应地,在单字节模式下,变异位点的特征向量λv=[1,f(qv0),-f(qv1),INDEX。其中,第一项参数“1”表示编码位长为1字节,第二项参数fqv0为0等位基因的频率映射值,第三项参数-f(qv1)为1等位基因的频率映射值,第四项参数INDEX为该位点在该压缩块中的原始位置。
(2)在双字节模式下,变异位点的特征向量λv=[2,0,0,INDEX]。其中,第一项参数“2”表示编码位长为2字节,第四项参数INDEX为该位点在该压缩块中的原始位置。
另外,对特征采样后的基因型阵列进行重排序的方法为:根据所述特征向量的字典序对压缩块中的变异位点进行排序,生成新的位点排列顺序。
S103,根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件。
具体地,所述根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件的步骤包括:
(1)将非基因型数据中的位置数据转换为整数,并进行拼接处理。
如图2所示,非基因型数据中,将位置数据(POS字段)按照int类型保存(即每个位置数据占用4字节),并拼接到一起。
(2)将非基因型数据中的碱基序列进行拼接处理。
如图2所示,非基因型数据中,将REF碱基序列和ALT碱基序列使用“/”作为分隔符直接拼接在一起。
(3)将拼接后的位置数据、拼接后的碱基序列及变异位点特征阵列通过ZSTD压缩方法进行压缩处理,以生成GTB文件。
需要说明的是,ZSTD压缩方法与LZMA压缩方法都是经典的字典类压缩算法,其中,ZSTD压缩方法具有更高的吞吐速度,而LZMA压缩方法具有更高的压缩比。由于本发明所采用的最简基因型数据编码和重排序技术,使得压缩比提升至更高的水平,因此,本发明使用具有更高吞吐速度的ZSTD压缩方法进行压缩。
如图2所示,所述GTB文件包括文件基本信息、样本名称序列、第一数据分隔符、压缩块摘要信息、第二数据分隔符及压缩块数据段;其中,所述压缩块摘要信息包括染色体编号、块最小位点、块最大位点、块变异位点数量及块数据段长度;所述压缩块数据段包括经过处理的位置数据阵列、经过处理的碱基序列(REF碱基序列、ALT碱基序列)、数据分隔符及经过处理的基因型阵列。
现有的基因组文件压缩算法都将不同的字段拆分到多个子文件中进行储存。与现有技术不同的是,本发明设计了一种新型的区块状储存结构——GTB文件。
GTB文件可使一个VCF文件可以仅产生一个压缩存档,而对于同一个测序群体的多个VCF文件,GTB文件也可以将这些VCF文件压缩为一个整体,统一性、灵活性强。因此,通过GTB文件可使大型基因组文件的管理变得更为简便,能够灵活应用于多种数据分析、存储场景。同时,GTB文件还便于传输、使用,支持增量压缩、局部提取数据、局部修改数据,也支持并行地进行压解,可充分利用计算机多核特性,提高算法的推进速度。
因此,本发明设计了新型的编码方式、新型的基因型阵列排列算法、新型的存储架构,并结合更快速的字典类压缩技术,实现一种更为高效、统一的基因型数据压缩方法,在压解速度、压缩比上相比过去的工具具有重大提升。
进一步,所述基因型数据压缩方法还包括:解压所述GTB文件时,扫描所述GTB文件的压缩块摘要信息以构建GTBRoot检索树,并利用所述GTBRoot检索树对所述GTB文件进行解压,速度快,在数据解压时具有极高的检索效率。
如图3所示,所述GTBRoot检索树以所述染色体编号作为一级节点,并以同一染色体编号下的每个压缩块摘要信息作为子叶,形成树形结构。需要说明的是,每个压缩块的变异位点都具有相同的染色体编号,而每个压缩块的染色体编号、块内最小POS、块内最大POS、变异位点总数、数据段大小构成了块的摘要信息。
需要说明的是,经典数据结构中已经证实树形结构是一种高效的检索方式。GTBRoot检索树的构建只需要采集GTB文件非常短的一段数据,在交互模式下重复检索同一个文件时,这样的GTBRoot检索树只需要构建一次,便可重复使用,减少了频繁查询数据的预处理时间开销。
同时,依托于树状的GTBRoot检索树,GTB文件可以实现增量压缩、局部数据修改、局部数据提取,而不必再解压全部数据后重新进行压缩。
下面使用千人基因组计划常染色体数据集对现有技术(BGT、PBWT、GTC)及本发明基因型数据压缩方法(GBC)进行测试对比,测试设备都是MacbookPro15'2018(512GB固态硬盘,32GB内存),提取数据采用4线程并行解压(其他软件均不支持并行解压):
一、基本性能对比(全部数据,2504样本,81271745位点,816.13GB大小)
平台 | 存档大小[GB] | 压缩比 | 压缩时间[s] | 解压时间[s] | 存档数量 |
BGT | 10.7 | 81.88 | 14580 | 4287 | 440 |
PBWT | 8.6 | 102.03 | 8955 | 6259 | 330 |
GTC | 4.1 | 214.07 | 12417 | 7432 | 440 |
GBC | 2.9 | 306.81 | 1703 | 1319 | 5 |
二、提取指定数量的变异位点用时对比(单位:秒,AMR-chr1,347样本,6468094位点)
三、提取指定数量的样本全部位点用时对比(单位:秒,AFR-chr1,661样本6468094位点)
样本数量 | BGT | PBWT | GTC | GBC |
1 | 4.445 | 9.898 | 5.320 | 0.713 |
10 | 5.545 | 12.550 | 8.845 | 0.905 |
50 | 10.532 | 21.917 | 19.347 | 1.612 |
100 | 15.685 | 33.516 | 35.648 | 2.540 |
300 | 37.477 | 78.170 | 66.898 | 9.564 |
500 | 58.206 | 126.113 | 101.873 | 14.003 |
四、过滤性能用时对比(单位:秒,AFR-chr2,661样本,7081600位点)
等位基因频数范围 | BGT | GTC | GBC |
0-1322(100%) | 90.416 | 129.909 | 18.370 |
132-1190(80%) | 23.974 | 27.418 | 3.879 |
264-1058(60%) | 21.187 | 24.121 | 3.125 |
396-926(40%) | 19.235 | 23.840 | 2.869 |
528-794(20%) | 17.764 | 21.601 | 2.734 |
594-728(10%) | 17.131 | 20.654 | 2.597 |
注:多线程环境下,GBC解压产生的变异位点顺序是无序的;单线程环境下,GBC产生的变异位点顺序是有序的,此时也仍能以1倍以上速度快于现有的工具。
由上可知,本发明基因型数据压缩方法通过创新的编码方式、基因型阵列排列方式、索引结构、存储架构,提供极快的压解速度和精简统一的文件储存方式,并可成为本领域先进数据分析工具的基础组件之一。
如图,本发明还提供了一种基因型数据压缩系统100,其包括:
编码模块1,用于采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列。具体地,所述编码模块1执行上述步骤S101,在此不再重复描述。
采样及重排序模块2,用于对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列。具体地,所述采样及重排序模块2执行上述步骤S102,在此不再重复描述。
压缩模块3,用于根据所述变异位点特征阵列的顺序依次对非基因型数据及所述基因型阵列进行压缩处理,以生成GTB文件。具体地,所述压缩模块3执行上述步骤S103,在此不再重复描述。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述基因型数据压缩方法的步骤。同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基因型数据压缩方法的步骤。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种基因型数据压缩方法,其特征在于,包括:
采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;
对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;
根据所述变异位点特征阵列的顺序依次对非基因型数据及所述基因型阵列进行压缩处理,以生成GTB文件。
3.如权利要求1所述的基因型数据压缩方法,其特征在于,所述对基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列的步骤包括:
定义所述基因型阵列中变异位点的特征向量λv,其中,
在单字节模式下,λv=[1,f(qv0),-f(qv1),INDEX],“1”表示编码位长为1字节,f(qv0)为0等位基因的频率映射值,-f(qv1)为1等位基因的频率映射值,INDEX为该位点在该压缩块中的原始位置,
在双字节模式下,λv=[2,0,0,INDEX],“2”表示编码位长为2字节;
根据所述特征向量的字典序对压缩块中的变异位点进行排序,生成新的位点排列顺序。
5.如权利要求1所述的基因型数据压缩方法,其特征在于,所述根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件的步骤包括:
将非基因型数据中的位置数据转换为整数,并进行拼接处理;
将非基因型数据中的碱基序列进行拼接处理;
将拼接后的位置数据、拼接后的碱基序列及变异位点特征阵列通过ZSTD压缩方法进行压缩处理,以生成GTB文件。
6.如权利要求1所述的基因型数据压缩方法,其特征在于,所述GTB文件包括文件基本信息、样本名称序列、第一数据分隔符、压缩块摘要信息、第二数据分隔符及压缩块数据段;
所述压缩块摘要信息包括染色体编号、块最小位点、块最大位点、块变异位点数量及块数据段长度。
7.如权利要求6所述的基因型数据压缩方法,其特征在于,还包括:解压所述GTB文件时,扫描所述GTB文件的压缩块摘要信息以构建GTBRoot检索树,并利用所述GTBRoot检索树对所述GTB文件进行解压;
所述GTBRoot检索树以所述染色体编号作为一级节点,并以同一染色体编号下的每个压缩块摘要信息作为子叶。
8.一种基因型数据压缩系统,其特征在于,包括:
编码模块,用于采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;
采样及重排序模块,用于对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;
压缩模块,用于根据所述变异位点特征阵列的顺序依次对非基因型数据及所述基因型阵列进行压缩处理,以生成GTB文件。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011371618.0A CN112489731B (zh) | 2020-11-30 | 2020-11-30 | 一种基因型数据压缩方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011371618.0A CN112489731B (zh) | 2020-11-30 | 2020-11-30 | 一种基因型数据压缩方法、系统、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112489731A true CN112489731A (zh) | 2021-03-12 |
CN112489731B CN112489731B (zh) | 2024-02-23 |
Family
ID=74937209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011371618.0A Active CN112489731B (zh) | 2020-11-30 | 2020-11-30 | 一种基因型数据压缩方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112489731B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192245A (zh) * | 2018-07-26 | 2019-01-11 | 中山大学 | 基因变异数据的GDS-Huffman压缩方法 |
CN110021369A (zh) * | 2017-10-24 | 2019-07-16 | 人和未来生物科技(长沙)有限公司 | 基因测序数据压缩解压方法、系统及计算机可读介质 |
CN110021368A (zh) * | 2017-10-20 | 2019-07-16 | 人和未来生物科技(长沙)有限公司 | 比对型基因测序数据压缩方法、系统及计算机可读介质 |
CN110246546A (zh) * | 2019-06-18 | 2019-09-17 | 西南民族大学 | 一种基因型高通量测序数据的压缩方法 |
CN111625509A (zh) * | 2020-05-26 | 2020-09-04 | 福州数据技术研究院有限公司 | 深度测序基因序列数据文件的无损压缩方法 |
-
2020
- 2020-11-30 CN CN202011371618.0A patent/CN112489731B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110021368A (zh) * | 2017-10-20 | 2019-07-16 | 人和未来生物科技(长沙)有限公司 | 比对型基因测序数据压缩方法、系统及计算机可读介质 |
CN110021369A (zh) * | 2017-10-24 | 2019-07-16 | 人和未来生物科技(长沙)有限公司 | 基因测序数据压缩解压方法、系统及计算机可读介质 |
CN109192245A (zh) * | 2018-07-26 | 2019-01-11 | 中山大学 | 基因变异数据的GDS-Huffman压缩方法 |
CN110246546A (zh) * | 2019-06-18 | 2019-09-17 | 西南民族大学 | 一种基因型高通量测序数据的压缩方法 |
CN111625509A (zh) * | 2020-05-26 | 2020-09-04 | 福州数据技术研究院有限公司 | 深度测序基因序列数据文件的无损压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112489731B (zh) | 2024-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106687966B (zh) | 用于数据分析和压缩的方法和系统 | |
CN110603595B (zh) | 用于从压缩的基因组序列读段重建基因组参考序列的方法和系统 | |
US8340914B2 (en) | Methods and systems for compressing and comparing genomic data | |
JP5466232B2 (ja) | 大規模なデータストレージのための効率的な列ベースデータの符号化 | |
US8798936B2 (en) | Methods and systems for data analysis using the Burrows Wheeler transform | |
CN107066837B (zh) | 一种有参考dna序列压缩方法和系统 | |
US20130166518A1 (en) | Compression Of Genomic Data File | |
Apostolico et al. | Compression of biological sequences by greedy off-line textual substitution | |
Yanovsky | ReCoil-an algorithm for compression of extremely large datasets of DNA data | |
EP2595076B1 (en) | Compression of genomic data | |
Sirén | Burrows-Wheeler transform for terabases | |
Sardaraz et al. | SeqCompress: An algorithm for biological sequence compression | |
Mansouri et al. | One-bit dna compression algorithm | |
CN112489731A (zh) | 一种基因型数据压缩方法、系统、计算机设备及存储介质 | |
Gilmary et al. | Compression techniques for dna sequences: A thematic review | |
Roy et al. | An efficient compression algorithm for forthcoming new species | |
Challa et al. | A novel compression technique for DNA sequence compaction | |
Soliman et al. | A lossless compression algorithm for DNA sequences | |
Gupta et al. | An efficient compressor for biological sequences | |
CN112086134A (zh) | 一种基因大数据分析与计算平台 | |
Mehta et al. | DNA compression using referential compression algorithm | |
CN115691683A (zh) | 一种基因型信息压缩方法、装置及计算机可读存储介质 | |
Keerthy et al. | Pattern matching in compressed genomic sequence data | |
Biji et al. | NGS read data compression using parallel computing algorithm | |
Li et al. | Efficient parallel design for BWT-based DNA sequences data multi-compression algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |