CN111625509A - 深度测序基因序列数据文件的无损压缩方法 - Google Patents

深度测序基因序列数据文件的无损压缩方法 Download PDF

Info

Publication number
CN111625509A
CN111625509A CN202010457824.7A CN202010457824A CN111625509A CN 111625509 A CN111625509 A CN 111625509A CN 202010457824 A CN202010457824 A CN 202010457824A CN 111625509 A CN111625509 A CN 111625509A
Authority
CN
China
Prior art keywords
dictionary
file
gene sequence
gene
built
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010457824.7A
Other languages
English (en)
Inventor
邹斌
刘菊红
何姝颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Institute Of Data Technology Co ltd
Original Assignee
Fuzhou Institute Of Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Institute Of Data Technology Co ltd filed Critical Fuzhou Institute Of Data Technology Co ltd
Priority to CN202010457824.7A priority Critical patent/CN111625509A/zh
Publication of CN111625509A publication Critical patent/CN111625509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开深度测序基因序列数据文件的无损压缩方法,以传输过程中不需要传输的内置标准参考基因组和内置字典文件作为对比。因此如果传输或者存储过程中丢失转换后的基因序列或者本专利压缩后的基因序列数据的话,只要其他人员无法取得内置标准基因和内置字典文件,就无法还原相关的序列,大大加强了安全性。未匹配上的变异,增设临时字典,该字典随着文件压缩和传输。如果第一次未匹配到的特殊变异写入该字典后,后面几百甚至上万次测序数据中出现的该特殊变异就不用另外存储,大大节省了空间。本发明有效的降低了DNA测序序列的数据容量,因此无论存储还是传输过程中容量大大减小了。

Description

深度测序基因序列数据文件的无损压缩方法
技术领域
本发明涉及基因检测技术领域,尤其涉及深度测序基因序列数据文件的无损压缩方法。
背景技术
现在随着基因检测技术的成熟和成本下降,使用更加普及。随之产生的大量基因数据成为行业的重要资产。如何能更加高效、安全的存储这些数据成为业界要解决的一个问题。
现有测序根据用途不同,测序的深度也不同。深度测序对于肿瘤学、微生物基因组学研究以及与罕见细胞群分析有关的其他研究十分有用。例如,鉴定肿瘤基因突变时就需要进行深度测序,因为癌症样本中经常存在正常细胞并且肿瘤本身也可能含有癌症细胞的多种亚克隆,对其进行深度测序来捕捉这些变异(突变、插入、缺失、重排、拷贝数异常和/或甲基化等基因信息)。使用深度测序对基因组区域进行多次测序,有时可达数百次甚至数万次。因此使用深度测序会产生大量的测序数据(一般使用FASTQ、SAM、BAM格式来记录)。存储和使用这些数据的成本已越来越面临着无法承担的规模,如何在有限的存储资源内有效储存急剧膨胀的DNA基因序列数据成为了计算机专家和生物学家面临的新课题。因此,采用更有效的压缩编码方式,用较小的存储空间存放较大的基因信息序列是必然的选择。
现有专利大部分针对单基因数据内部的统计学特点进行压缩,没考虑到需要深度测序的场景下,有大量数据关联性。如申请号 201310433248.2 的专利,基于多参考序列的基因序列分级压缩方法,将原文件按域提取成 12 个独立文件,然后对 12 个文件进行并行压缩。针对12个不同域使用不同的压缩算法。如果多个类似的基因序列来说,都拆开进行压缩计算量较大,而且重复大量的工作。申请号 201310655168.1 的专利,基于参考基因组中包括的多个分段在参考基因组中的位置来创建索引;基于多个分段将基因组与参考基因组进行比对,以标识基因组与参考基因组之间的差异数据;以及生成经压缩的基因组,经压缩的基因组至少包括索引和差异数据。这个只参考了正常基因组,对已知的疾病基因数据没有参照组,会减少压缩比。不是针对BAM文件特点设计的压缩方式。申请号201910598102.0,提供一种面向多条序列的以二元组形式表示基因序列的基于参考序列的基因压缩方法。该专利主要针对碱基信息进行压缩,其他基因文件字段的信息没有处理。申请号 201780086770 .4,通过将序列读段与预先存在或构建的参考序列比对来编码序列读段,编码过程包括将读段分类为数据类,然后根据多个基因组描述符对每个类进行编码。是针对单基因数据进行处理。申请号 201780086529.1的专利,依据描述所述参考基因组和与所述参考基因组先前比对的基因组序列之间差异的语法元素来表示参考基因组。借助语法元件的子集来描述每个比对的基因组序列。对与所述错配位置和所述错配类型相关的所述信息进行熵编码。该专利针对单基因数据,没考虑到多基因数据间相关性。
发明内容
本发明的目的在于提供深度测序基因序列数据文件的无损压缩方法。
本发明采用的技术方案是:
深度测序基因序列数据文件的无损压缩方法,其包括以下步骤:
步骤1,构建内置的参考基因组和标准字典:参考基因组由基因参考序列组成,标准字典为综合多家基因数据库的变异形式组成的内置字典文件;
步骤2,逐行扫描基因序列文件的方式对不规范的地方进行标准化;
步骤3,根据规则重新编码的基因序列信息:具体步骤如下:
步骤3-1,将每条基因序列数据分别与参考基因组和标准字典进行匹配;将匹配的部分使用对应代码或编号进行替代;
步骤3-2,针对未匹配部分先查询是否存在临时字典;
当查询临时字典存在时,执行步骤3-3;当查询临时字典不存在时,则新建临时字典,在临时字典新增一对应该匹配部分的词条并编码,再用对应编码进行替代,进而执行步骤4;
步骤3-3,查询临时字典中是否存在与未匹配部分相同的词条;是则,用该词条对应的编码进行替代;否则,在临时字典新增一对应该匹配部分的词条并编码,再用对应编码进行替代,进而执行步骤4;
步骤4,编码过的序列信息和临时字典一起打包压缩获得最终文件进行存储或传输。
进一步地,标准字典为综合多种基因数据库变异形式(如dbSNP、TCGA)和自行收录的数据库的变异形式组成的的内置字典文件。
进一步地,参考基因组和标准字典为事先生成且存在服务器内部,不随最终文件传输。
进一步地,步骤4中临时字典和编码过的序列信息使用BAM文件的压缩方式GBZF(Blocked GNU Zip Format)进行压缩;将基因测序数据分为许多数据块,然后通过GZIP算法进行压缩。
进一步地,步骤4中压缩后的数据块大小限制为64kb。
本发明采用以上技术方案,现对于现有技术具有如下优点:1:针对实际数据测序深度可到几百甚至上万x进行分析时,采用本发明处理后数据量能比SAM原文件减少一半以上,减少传输和存储资源。2:在压缩端和解压缩端,以传输过程中不需要传输的内置标准参考基因组和内置字典文件作为对比。因此如果传输或者存储过程中丢失相关数据的话,只要其他人员无法取得内置标准基因和内置字典文件,就无法还原相关的序列,大大加强了安全性。3:无损压缩,可以还原所有SAM/BAM文件信息。便于后期多种手段分析。4,针对还是未匹配上的变异,增设临时字典,该字典随着文件压缩和传输。如果第一次未匹配到的特殊变异写入该字典后,后面几百甚至上万次测序数据中出现的该特殊变异就不用另外存储,大大节省了空间。本发明有效的降低了DNA测序序列的数据容量,因此无论存储还是传输过程中容量大大减小了。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明深度测序基因序列数据文件的无损压缩方法的流程示意图;
图2为实施例的3X原始文件示意图;
图3为未进行标准化的基因序列文件;
图4为标准化后的基因序列文件;
图5为基因匹配时的对比信息说明表;
图6为重新编码的基因序列文件;
图7为根据规则生成编码过的序列信息示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
因为测序时大部分比对到参考序列,只有少数碱基发生变异;利用基因序列数据相对于参考序列的相似性,即使人群的体细胞特征极其多样化,人与人之间不同的核苷酸数量的实际部分也仅约占构成整个基因组的核苷酸总数的0.1%。因此,表征每个个体的特定基因组信息相对于整个基因组所携带的整个信息是非常有限的。
有鉴于此,如图1至图5之一所示,本发明公开了深度测序基因序列数据文件的无损压缩方法,其包括以下步骤:
步骤1,构建内置的参考基因组和标准字典:参考基因组由基因参考序列组成,标准字典为综合多家基因数据库的变异形式组成的内置字典文件;
进一步地,标准字典为综合多种基因数据库变异形式(如dbSNP、TCGA)和自行收录的数据库的变异形式组成的的内置字典文件。字典格式第一列为字典序号,第二列为变化后的序列,第三列为参考序列。
Eg:
A1 ATCT TCCT #从序列TCCT变异成ATCT
A2 AGGA - #插入序列AGGA
A3 ATGGGATCC - #插入序列ATGGGATCC
A4 - AGCTTCTAQ #序列AGCTTCTAQ 被删除
参考基因组和标准字典事先生成,不需要传输也不需要现场生成,存在服务器内部。
步骤2,逐行扫描基因序列文件的方式对不规范的地方进行标准化;
具体的,如图2所示,以一个3X原始文件为例,逐行扫描基因序列文件的方式对不规范的地方进行标准化,例如遇到read序列中不规范的大小写gctg,就统一替换成大写GCTG。其他文件中不规范的地方也类似进行预处理和标准化。
如图3所示时未标准化的基因序列文件,其中灰色背景部分为不规范的;经过标准化后则形成如图4所示的基因序列文件。
步骤3,根据规则重新编码的基因序列信息:具体步骤如下:
步骤3-1,将每条基因序列数据分别与参考基因组和标准字典进行匹配;将匹配的部分使用对应代码或编号进行替代;
步骤3-2,针对未匹配部分先查询是否存在临时字典;
当查询临时字典存在时,执行步骤3-3;当查询临时字典不存在时,则新建临时字典,在临时字典新增一对应该匹配部分的词条并编码,再用对应编码进行替代,进而执行步骤4;
步骤3-3,查询临时字典中是否存在与未匹配部分相同的词条;是则,用该词条对应的编码进行替代;否则,在临时字典新增一对应该匹配部分的词条并编码,再用对应编码进行替代,进而执行步骤4;
具体地,如图5所示,基因匹配过程的对比信息的含义。针对第10个read序列,每条数据都按第3、4、6个对比信息的提示,与“参考基因组”和“内置标准字典”匹配,如果匹配上“参考基因组”的M部分用“-”号填充;其他用字典序列表示,例如第二列的“AGGA”匹配到“内置标准字典”序列A2,第三列的“GCTGAC”未匹配到则另外写入“临时字典”序列T1。重新编码的基因序列信息如图6所示。
步骤4,如图7所示的编码过的序列信息,和临时字典一起打包压缩获得最终文件进行存储或传输。临时字典和编码过的序列信息使用BAM文件的压缩方式GBZF(BlockedGNU Zip Format)进行压缩;将基因测序数据分为许多数据块,然后通过GZIP算法进行压缩。压缩后的数据块大小限制为64kb。
对于Read sequence字段序列使用字典索引替换,由于经压缩的比对文件并不包括与参考基因组之间相同的碱基序列,因而可以大大降低比对文件所占用的空间。
本发明中提到的基因组序列包括例如但不限于脱氧核糖核酸(DNA)序列和核糖核酸序列(RNA)序列。尽管本文的描述相当详细地涉及脱氧核糖核酸(DNA)序列形式的基因组信息,但是应当理解,如本领域技术人员所理解的,用于压缩的方法和系统也可以用于其他基因组序列,例如甲基化序列,尽管有一些变化。
本发明采用以上技术方案,现对于现有技术具有如下优点:1:针对实际数据测序深度可到几百甚至上万x进行分析时,采用本发明处理后数据量能比SAM原文件减少一半以上,减少传输和存储资源。2:在压缩端和解压缩端,以传输过程中不需要传输的内置标准参考基因组和内置字典文件作为对比。因此如果传输或者存储过程中丢失转换后的基因序列或者本专利压缩后的基因序列数据的话,只要其他人员无法取得内置标准基因和内置字典文件,就无法还原相关的序列,大大加强了安全性。3:无损压缩,可以还原所有SAM/BAM文件信息。便于后期多种手段分析。4,针对还是未匹配上的变异,增设临时字典,该字典随着文件压缩和传输。如果第一次未匹配到的特殊变异写入该字典后,后面几百甚至上万次测序数据中出现的该特殊变异就不用另外存储,大大节省了空间。本发明有效的降低了DNA测序序列的数据容量,因此无论存储还是传输过程中容量大大减小了。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

Claims (5)

1.深度测序基因序列数据文件的无损压缩方法,其特征在于:其包括以下步骤:
步骤1,构建内置的参考基因组和标准字典:参考基因组由基因参考序列组成,标准字典为综合多家基因数据库的变异形式组成的内置字典文件;
步骤2,逐行扫描基因序列文件的方式对不规范的地方进行标准化;
步骤3,根据规则重新编码的基因序列信息:具体步骤如下:
步骤3-1,将每条基因序列数据分别与参考基因组和标准字典进行匹配;将匹配的部分使用对应代码或编号进行替代;
步骤3-2,针对未匹配部分先查询是否存在临时字典;
当查询临时字典存在时,执行步骤3-3;当查询临时字典不存在时,则新建临时字典,在临时字典新增一对应该匹配部分的词条并编码,再用对应编码进行替代,进而执行步骤4;
步骤3-3,查询临时字典中是否存在与未匹配部分相同的词条;是则,用该词条对应的编码进行替代;否则,在临时字典新增一对应该匹配部分的词条并编码,再用对应编码进行替代,进而执行步骤4;
步骤4,编码过的序列信息和临时字典一起打包压缩获得最终文件进行存储或传输。
2.根据权利要求1所述的深度测序基因序列数据文件的无损压缩方法,其特征在于:标准字典为综合多种基因数据库变异形式和自行收录的数据库的变异形式组成的的内置字典文件。
3.根据权利要求1所述的深度测序基因序列数据文件的无损压缩方法,其特征在于:参考基因组、标准字典为事先生成且存在服务器内部,不随最终文件传输。
4. 根据权利要求1所述的深度测序基因序列数据文件的无损压缩方法,其特征在于:步骤4中临时字典和编码过的序列信息使用BAM文件的压缩方式GBZF(Blocked GNU ZipFormat)进行压缩;将基因测序数据分为许多数据块,然后通过GZIP算法进行压缩。
5.根据权利要求4所述的深度测序基因序列数据文件的无损压缩方法,其特征在于:步骤4中压缩后的数据块大小限制为64kb。
CN202010457824.7A 2020-05-26 2020-05-26 深度测序基因序列数据文件的无损压缩方法 Pending CN111625509A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457824.7A CN111625509A (zh) 2020-05-26 2020-05-26 深度测序基因序列数据文件的无损压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457824.7A CN111625509A (zh) 2020-05-26 2020-05-26 深度测序基因序列数据文件的无损压缩方法

Publications (1)

Publication Number Publication Date
CN111625509A true CN111625509A (zh) 2020-09-04

Family

ID=72260840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457824.7A Pending CN111625509A (zh) 2020-05-26 2020-05-26 深度测序基因序列数据文件的无损压缩方法

Country Status (1)

Country Link
CN (1) CN111625509A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489731A (zh) * 2020-11-30 2021-03-12 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN112634991A (zh) * 2020-12-18 2021-04-09 长沙都正生物科技股份有限公司 基因分型方法、装置、电子设备及存储介质
CN113268461A (zh) * 2021-07-19 2021-08-17 广州嘉检医学检测有限公司 一种基因测序数据重组封装的方法和装置
CN113901006A (zh) * 2021-10-13 2022-01-07 国家计算机网络与信息安全管理中心 大规模基因测序数据存储与查询系统
WO2024020746A1 (zh) * 2022-07-25 2024-02-01 深圳华大基因科技服务有限公司 处理fastq数据的方法及装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013048529A1 (en) * 2011-10-01 2013-04-04 Intel Corporation Method and apparatus for high bandwidth dictionary compression technique using delayed dictionary update
CN103347047A (zh) * 2013-06-07 2013-10-09 吴昊 一种基于网络字典的无损数据压缩方法
CN103891150A (zh) * 2011-10-01 2014-06-25 英特尔公司 用于高带宽字典压缩的压缩格式
CN110310709A (zh) * 2019-07-04 2019-10-08 南京邮电大学 一种基于参考序列的基因压缩方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013048529A1 (en) * 2011-10-01 2013-04-04 Intel Corporation Method and apparatus for high bandwidth dictionary compression technique using delayed dictionary update
CN103891150A (zh) * 2011-10-01 2014-06-25 英特尔公司 用于高带宽字典压缩的压缩格式
CN103347047A (zh) * 2013-06-07 2013-10-09 吴昊 一种基于网络字典的无损数据压缩方法
CN110310709A (zh) * 2019-07-04 2019-10-08 南京邮电大学 一种基于参考序列的基因压缩方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489731A (zh) * 2020-11-30 2021-03-12 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN112489731B (zh) * 2020-11-30 2024-02-23 中山大学 一种基因型数据压缩方法、系统、计算机设备及存储介质
CN112634991A (zh) * 2020-12-18 2021-04-09 长沙都正生物科技股份有限公司 基因分型方法、装置、电子设备及存储介质
CN112634991B (zh) * 2020-12-18 2022-07-19 长沙都正生物科技股份有限公司 基因分型方法、装置、电子设备及存储介质
CN113268461A (zh) * 2021-07-19 2021-08-17 广州嘉检医学检测有限公司 一种基因测序数据重组封装的方法和装置
CN113268461B (zh) * 2021-07-19 2021-09-17 广州嘉检医学检测有限公司 一种基因测序数据重组封装的方法和装置
CN113901006A (zh) * 2021-10-13 2022-01-07 国家计算机网络与信息安全管理中心 大规模基因测序数据存储与查询系统
CN113901006B (zh) * 2021-10-13 2024-05-24 国家计算机网络与信息安全管理中心 大规模基因测序数据存储与查询系统
WO2024020746A1 (zh) * 2022-07-25 2024-02-01 深圳华大基因科技服务有限公司 处理fastq数据的方法及装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111625509A (zh) 深度测序基因序列数据文件的无损压缩方法
CN110603595B (zh) 用于从压缩的基因组序列读段重建基因组参考序列的方法和系统
EP1443449A2 (en) Apparatus, method and computer readable medium for encoding a DNA sequence
KR20110129628A (ko) Dna 서열 검색 방법 및 장치
CN107066837A (zh) 一种有参考dna序列压缩方法和系统
EP3526709B1 (en) Efficient data structures for bioinformatics information representation
US6396420B1 (en) Delta compression of floating point coordinate data
CN113744804A (zh) 利用dna进行数据存储的方法、装置及存储设备
CN113901006A (zh) 大规模基因测序数据存储与查询系统
US9600578B1 (en) Inverted index and inverted list process for storing and retrieving information
US9236881B2 (en) Compression of bitmaps and values
KR100537523B1 (ko) Dna 서열 부호화 장치 및 방법
WO2002008956A9 (en) Focal point compression method and apparatus
WO2011073680A1 (en) Improvements relating to hash tables
Rivals et al. Fast discerning repeats in DNA sequences with a compression algorithm
CN112102883B (zh) 一种fastq文件压缩中的碱基序列编码方法和系统
CN110111852A (zh) 一种海量dna测序数据无损快速压缩平台
KR20220089211A (ko) 문자 빈도 기반 서열 재정렬을 통한 fastq 데이터 압축 방법 및 장치
JP4334955B2 (ja) 生物情報のロスレス符号化装置
Zhang et al. Approximate Pattern Matching Using the Burrows-Wheeler Transform.
Gilmary et al. Compression techniques for dna sequences: A thematic review
CN112489731B (zh) 一种基因型数据压缩方法、系统、计算机设备及存储介质
Pathak et al. RETRACTED: LFQC: a lossless compression algorithm for FASTQ files
Mitra et al. A survey of genome compression methodology
Dervos et al. S-index: a hybrid structure for text retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200904

RJ01 Rejection of invention patent application after publication