CN111625509A

CN111625509A - 深度测序基因序列数据文件的无损压缩方法

Info

Publication number: CN111625509A
Application number: CN202010457824.7A
Authority: CN
Inventors: 邹斌; 刘菊红; 何姝颖
Original assignee: Fuzhou Institute Of Data Technology Co ltd
Current assignee: Fuzhou Institute Of Data Technology Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-04

Abstract

本发明公开深度测序基因序列数据文件的无损压缩方法，以传输过程中不需要传输的内置标准参考基因组和内置字典文件作为对比。因此如果传输或者存储过程中丢失转换后的基因序列或者本专利压缩后的基因序列数据的话，只要其他人员无法取得内置标准基因和内置字典文件，就无法还原相关的序列，大大加强了安全性。未匹配上的变异，增设临时字典，该字典随着文件压缩和传输。如果第一次未匹配到的特殊变异写入该字典后，后面几百甚至上万次测序数据中出现的该特殊变异就不用另外存储，大大节省了空间。本发明有效的降低了DNA测序序列的数据容量，因此无论存储还是传输过程中容量大大减小了。

Description

深度测序基因序列数据文件的无损压缩方法

技术领域

本发明涉及基因检测技术领域，尤其涉及深度测序基因序列数据文件的无损压缩方法。

背景技术

现在随着基因检测技术的成熟和成本下降，使用更加普及。随之产生的大量基因数据成为行业的重要资产。如何能更加高效、安全的存储这些数据成为业界要解决的一个问题。

现有测序根据用途不同，测序的深度也不同。深度测序对于肿瘤学、微生物基因组学研究以及与罕见细胞群分析有关的其他研究十分有用。例如，鉴定肿瘤基因突变时就需要进行深度测序，因为癌症样本中经常存在正常细胞并且肿瘤本身也可能含有癌症细胞的多种亚克隆，对其进行深度测序来捕捉这些变异（突变、插入、缺失、重排、拷贝数异常和/或甲基化等基因信息）。使用深度测序对基因组区域进行多次测序，有时可达数百次甚至数万次。因此使用深度测序会产生大量的测序数据（一般使用FASTQ、SAM、BAM格式来记录）。存储和使用这些数据的成本已越来越面临着无法承担的规模，如何在有限的存储资源内有效储存急剧膨胀的DNA基因序列数据成为了计算机专家和生物学家面临的新课题。因此，采用更有效的压缩编码方式，用较小的存储空间存放较大的基因信息序列是必然的选择。

现有专利大部分针对单基因数据内部的统计学特点进行压缩，没考虑到需要深度测序的场景下，有大量数据关联性。如申请号 201310433248.2 的专利，基于多参考序列的基因序列分级压缩方法，将原文件按域提取成 12 个独立文件，然后对 12 个文件进行并行压缩。针对12个不同域使用不同的压缩算法。如果多个类似的基因序列来说，都拆开进行压缩计算量较大，而且重复大量的工作。申请号 201310655168.1 的专利，基于参考基因组中包括的多个分段在参考基因组中的位置来创建索引；基于多个分段将基因组与参考基因组进行比对，以标识基因组与参考基因组之间的差异数据；以及生成经压缩的基因组，经压缩的基因组至少包括索引和差异数据。这个只参考了正常基因组，对已知的疾病基因数据没有参照组，会减少压缩比。不是针对BAM文件特点设计的压缩方式。申请号201910598102.0，提供一种面向多条序列的以二元组形式表示基因序列的基于参考序列的基因压缩方法。该专利主要针对碱基信息进行压缩，其他基因文件字段的信息没有处理。申请号 201780086770 .4，通过将序列读段与预先存在或构建的参考序列比对来编码序列读段，编码过程包括将读段分类为数据类，然后根据多个基因组描述符对每个类进行编码。是针对单基因数据进行处理。申请号 201780086529.1的专利，依据描述所述参考基因组和与所述参考基因组先前比对的基因组序列之间差异的语法元素来表示参考基因组。借助语法元件的子集来描述每个比对的基因组序列。对与所述错配位置和所述错配类型相关的所述信息进行熵编码。该专利针对单基因数据，没考虑到多基因数据间相关性。

发明内容

本发明的目的在于提供深度测序基因序列数据文件的无损压缩方法。

本发明采用的技术方案是：

深度测序基因序列数据文件的无损压缩方法,其包括以下步骤：

步骤1，构建内置的参考基因组和标准字典：参考基因组由基因参考序列组成，标准字典为综合多家基因数据库的变异形式组成的内置字典文件；

步骤2，逐行扫描基因序列文件的方式对不规范的地方进行标准化；

步骤3，根据规则重新编码的基因序列信息：具体步骤如下：

步骤3-1，将每条基因序列数据分别与参考基因组和标准字典进行匹配；将匹配的部分使用对应代码或编号进行替代；

步骤3-2，针对未匹配部分先查询是否存在临时字典；

当查询临时字典存在时，执行步骤3-3；当查询临时字典不存在时，则新建临时字典，在临时字典新增一对应该匹配部分的词条并编码，再用对应编码进行替代，进而执行步骤4；

步骤3-3，查询临时字典中是否存在与未匹配部分相同的词条；是则，用该词条对应的编码进行替代；否则，在临时字典新增一对应该匹配部分的词条并编码，再用对应编码进行替代，进而执行步骤4；

步骤4，编码过的序列信息和临时字典一起打包压缩获得最终文件进行存储或传输。

进一步地，标准字典为综合多种基因数据库变异形式（如dbSNP、TCGA）和自行收录的数据库的变异形式组成的的内置字典文件。

进一步地，参考基因组和标准字典为事先生成且存在服务器内部，不随最终文件传输。

进一步地，步骤4中临时字典和编码过的序列信息使用BAM文件的压缩方式GBZF(Blocked GNU Zip Format)进行压缩；将基因测序数据分为许多数据块，然后通过GZIP算法进行压缩。

进一步地，步骤4中压缩后的数据块大小限制为64kb。

本发明采用以上技术方案，现对于现有技术具有如下优点：1：针对实际数据测序深度可到几百甚至上万x进行分析时，采用本发明处理后数据量能比SAM原文件减少一半以上，减少传输和存储资源。2：在压缩端和解压缩端，以传输过程中不需要传输的内置标准参考基因组和内置字典文件作为对比。因此如果传输或者存储过程中丢失相关数据的话，只要其他人员无法取得内置标准基因和内置字典文件，就无法还原相关的序列，大大加强了安全性。3：无损压缩，可以还原所有SAM/BAM文件信息。便于后期多种手段分析。4，针对还是未匹配上的变异，增设临时字典，该字典随着文件压缩和传输。如果第一次未匹配到的特殊变异写入该字典后，后面几百甚至上万次测序数据中出现的该特殊变异就不用另外存储，大大节省了空间。本发明有效的降低了DNA测序序列的数据容量，因此无论存储还是传输过程中容量大大减小了。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明深度测序基因序列数据文件的无损压缩方法的流程示意图；

图2为实施例的3X原始文件示意图；

图3为未进行标准化的基因序列文件；

图4为标准化后的基因序列文件；

图5为基因匹配时的对比信息说明表；

图6为重新编码的基因序列文件；

图7为根据规则生成编码过的序列信息示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。

因为测序时大部分比对到参考序列，只有少数碱基发生变异；利用基因序列数据相对于参考序列的相似性，即使人群的体细胞特征极其多样化，人与人之间不同的核苷酸数量的实际部分也仅约占构成整个基因组的核苷酸总数的0.1%。因此，表征每个个体的特定基因组信息相对于整个基因组所携带的整个信息是非常有限的。

有鉴于此，如图1至图5之一所示，本发明公开了深度测序基因序列数据文件的无损压缩方法,其包括以下步骤：

进一步地，标准字典为综合多种基因数据库变异形式（如dbSNP、TCGA）和自行收录的数据库的变异形式组成的的内置字典文件。字典格式第一列为字典序号，第二列为变化后的序列，第三列为参考序列。

Eg：

A1 ATCT TCCT #从序列TCCT变异成ATCT

A2 AGGA - #插入序列AGGA

A3 ATGGGATCC - #插入序列ATGGGATCC

A4 - AGCTTCTAQ #序列AGCTTCTAQ 被删除

参考基因组和标准字典事先生成，不需要传输也不需要现场生成,存在服务器内部。

具体的，如图2所示，以一个3X原始文件为例，逐行扫描基因序列文件的方式对不规范的地方进行标准化，例如遇到read序列中不规范的大小写gctg，就统一替换成大写GCTG。其他文件中不规范的地方也类似进行预处理和标准化。

如图3所示时未标准化的基因序列文件，其中灰色背景部分为不规范的；经过标准化后则形成如图4所示的基因序列文件。

步骤3，根据规则重新编码的基因序列信息：具体步骤如下：

步骤3-2，针对未匹配部分先查询是否存在临时字典；

具体地，如图5所示，基因匹配过程的对比信息的含义。针对第10个read序列，每条数据都按第3、4、6个对比信息的提示，与“参考基因组”和“内置标准字典”匹配，如果匹配上“参考基因组”的M部分用“-”号填充；其他用字典序列表示，例如第二列的“AGGA”匹配到“内置标准字典”序列A2，第三列的“GCTGAC”未匹配到则另外写入“临时字典”序列T1。重新编码的基因序列信息如图6所示。

步骤4，如图7所示的编码过的序列信息，和临时字典一起打包压缩获得最终文件进行存储或传输。临时字典和编码过的序列信息使用BAM文件的压缩方式GBZF(BlockedGNU Zip Format)进行压缩；将基因测序数据分为许多数据块，然后通过GZIP算法进行压缩。压缩后的数据块大小限制为64kb。

对于Read sequence字段序列使用字典索引替换，由于经压缩的比对文件并不包括与参考基因组之间相同的碱基序列，因而可以大大降低比对文件所占用的空间。

本发明中提到的基因组序列包括例如但不限于脱氧核糖核酸(DNA)序列和核糖核酸序列(RNA)序列。尽管本文的描述相当详细地涉及脱氧核糖核酸(DNA)序列形式的基因组信息，但是应当理解，如本领域技术人员所理解的，用于压缩的方法和系统也可以用于其他基因组序列，例如甲基化序列，尽管有一些变化。

本发明采用以上技术方案，现对于现有技术具有如下优点：1：针对实际数据测序深度可到几百甚至上万x进行分析时，采用本发明处理后数据量能比SAM原文件减少一半以上，减少传输和存储资源。2：在压缩端和解压缩端，以传输过程中不需要传输的内置标准参考基因组和内置字典文件作为对比。因此如果传输或者存储过程中丢失转换后的基因序列或者本专利压缩后的基因序列数据的话，只要其他人员无法取得内置标准基因和内置字典文件，就无法还原相关的序列，大大加强了安全性。3：无损压缩，可以还原所有SAM/BAM文件信息。便于后期多种手段分析。4，针对还是未匹配上的变异，增设临时字典，该字典随着文件压缩和传输。如果第一次未匹配到的特殊变异写入该字典后，后面几百甚至上万次测序数据中出现的该特殊变异就不用另外存储，大大节省了空间。本发明有效的降低了DNA测序序列的数据容量，因此无论存储还是传输过程中容量大大减小了。

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

Claims

1.深度测序基因序列数据文件的无损压缩方法，其特征在于：其包括以下步骤：

步骤3，根据规则重新编码的基因序列信息：具体步骤如下：

步骤3-2，针对未匹配部分先查询是否存在临时字典；

2.根据权利要求1所述的深度测序基因序列数据文件的无损压缩方法，其特征在于：标准字典为综合多种基因数据库变异形式和自行收录的数据库的变异形式组成的的内置字典文件。

3.根据权利要求1所述的深度测序基因序列数据文件的无损压缩方法，其特征在于：参考基因组、标准字典为事先生成且存在服务器内部，不随最终文件传输。

4. 根据权利要求1所述的深度测序基因序列数据文件的无损压缩方法，其特征在于：步骤4中临时字典和编码过的序列信息使用BAM文件的压缩方式GBZF(Blocked GNU ZipFormat)进行压缩；将基因测序数据分为许多数据块，然后通过GZIP算法进行压缩。

5.根据权利要求4所述的深度测序基因序列数据文件的无损压缩方法，其特征在于：步骤4中压缩后的数据块大小限制为64kb。