CN107851137A

CN107851137A - 用于压缩基因组数据的方法

Info

Publication number: CN107851137A
Application number: CN201680042184.5A
Authority: CN
Inventors: M·曼德龙; J·福格斯; J·奥斯特曼
Original assignee: Leibniz Universitaet Hannover
Current assignee: Leibniz Universitaet Hannover
Priority date: 2015-06-16
Filing date: 2016-06-16
Publication date: 2018-03-27
Also published as: EP3311318B1; WO2016202918A1; US20180181706A1; EP3311318A1

Abstract

本发明涉及一种用于压缩基因组数据的方法，其中基因组数据被存储在包含由基因组测序方法构建的至少多个读段的至少一个数据文件中，其中每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分，该方法包括步骤；‑通过使用当前读段的映射位置和CIGAR字符串来展开数据文件之一的当前读段的核苷酸序列，其中当前读段具有至少一个先前读段；‑计算所述当前读段的展开的核苷酸序列与至少一个先前读段的展开的核苷酸序列之间的差值，其中差值包含映射位置的差值和核苷酸序列的差值；‑将计算出的差值传递给熵编码器以压缩所述差值；‑通过所压缩的差值对当前读段编码，以及‑将当前读段作为先前读段之一并且将下一个读段作为新的当前读段重复上述步骤，直到不再有下一个读段可用为止。

Description

用于压缩基因组数据的方法

技术领域

本发明涉及一种用于压缩基因组数据的方法，其中基因组数据被存储在至少一个数据文件中，该至少一个数据文件包含由基因组测序方法构建的至少多个映射的和/或比对的读段，其中每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分。

背景技术

由于新型高能量测序(HTS)和/或新一代测序(NGS)技术，对大量遗传信息的测序已经变得可以承受。由于这种大量的数据，与测序成本相比，IT成本可能成为一个主要障碍。需要基因组数据的高性能压缩以降低存储大小和传输成本。

在这样的数据文件中，除了其他数据外，还存储核苷酸序列、映射位置、比对信息(CIGAR字符串)和质量得分。例如在Li等人的“The Sequence Alignment/Map format andSAMtools”，生物信息学，25(16)，2078-9，(2009)中描述了这种结构。作为预处理步骤，可以根据基因组测序方法产生的原始核苷酸序列和质量评分来计算映射位置和比对信息。

旨在用于存储这种映射和/或比对读段的一种文件格式是序列比对/映射格式(SAM)。映射的和/或比对的测序数据包含比原始核苷酸序列和质量评分更多的冗余，因为通常多个读段映射到供体基因组上的相同位置。

在本专利申请中，读段包括映射位置、比对信息(表示为“CIGAR字符串”)和实际测序的核苷酸序列，其中多个读段被存储在至少一个适当的文件中。

在本专利申请中，鉴于供体基因组或用于比对的参考基因组，映射位置涉及相应读段的实际测序的核苷酸序列的起点或开端。

在本专利申请中，CIGAR字符串(比对信息)对相应读段的实际测序的核苷酸序列与用于比对的供体基因组或参考基因组的核苷酸序列之间相似性和相异性进行编码。

在Ziv等人的“A universal algorithm for sequential data compression”《IEEE信息论汇刊》，23(3)，337-343，(1977)中已获知压缩数据的通用方法。此外，Tembe等人：“G-SQZ：compact encoding of genomic sequence and quality data”，生物信息学，26(17)，2192-4，(2010)和Deorowicz等人：“Compression of DNA sequence reads inFASTQ format”，生物信息学，27(6)，860-2，(2011)已经表明将数据分成单独的序列读段流，质量得分流等等(并且独立地压缩它们)在通用的方法上产生显著收获。

发明内容

本发明的一个方面是提供一种用于压缩映射的和/或比对的基因组数据的更好的压缩方法。本发明的另一方面是提供一种对这种被压缩的基因组数据进行解压缩的解压缩方法。

该问题通过根据权利要求1所述的方法来解决。

根据权利要求1，提出了一种用于压缩基因组数据的方法。基因组数据被存储在适当的数据文件(或多份文件)中，例如在SAM文件中，并且包括通过基因组测序方法构建的至少多个读段。每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分。

此外，通过使用所述当前读段的映射位置和CIGAR字符串来展开所映射的测序数据文件的当前读段的核苷酸序列。通常，展开核苷酸序列由如通过CIGAR字符串描述的一系列插入、删除和修改操作组成。因此，展开序列就是将位置、CIGAR字符串和核苷酸序列缩合为联合代表性码字。所述当前读段具有至少一个先前读段，除了当前读段是第一读段之外。通常地，读段在数据文件中逐行绘制，一个读段由数据文件中的实线表示。

此外，计算所述当前读段的展开的核苷酸序列与至少一个所述先前读段的展开的核苷酸序列之间的差值。先前一个或多个读段的核苷酸序列可以在压缩之前或压缩过程中展开。

两个展开的核苷酸序列之间的差值包含映射位置的差值和核苷酸序列的差值。核苷酸序列之间的差值的计算是现有技术并且是公知的。

此外，所计算的差值被传递给熵编码器以压缩所述差值，其中当前读段由压缩的差值编码(例如替换)以用于例如作为比特流存储或传输。这样的熵编码器可能是一批熵编码器。此外，在将所计算的差值传递给熵编码器之前，将该差值传递给一个或多个预测模块，然后将输出传递给熵编码器。

在这些之后，重复这些步骤，其中将所述当前读段作为所述先前读段之一，并且将下一个读段，特别是在一个或多个数据文件的下一行中的连续的下一个读段作为新的当前读段，直到在文件中不再有可用的读段为止。

这种方法一般用于数据文件中的第二读段到最后一个读段。对于第一读段的特殊情况(因为其没有先前读段)，存在参考读段(先前读段)的开始和选择的变化。

所提出的压缩方法使用可以实现为滑动窗口(具有关于当前读段的一个或多个先前读段)的任意大小的短时存储器以执行局部隐式组装。本发明方法不需要参考基因组来压缩基因组数据。本发明方法通过在短时存储器中(仅)使用当前可用的核苷酸序列来执行压缩。这个短时的存储器可以在任何时候重新初始化，使得能够对压缩数据的任何部分进行非顺序的(即，随机的)访问，而不需要对前面的压缩数据解码。

本发明的方法基于连续读段之间的相关性。由于SAM文件中的所有读段都与它们的映射位置对齐，因此映射到相同位置的所有读段(核苷酸序列)应该是相似的，除了基因突变(SNP)或测序错误，相应地映射错误之外。这些畸变用CIGAR字符串编码。所提出的方法利用映射位置、CIGAR字符串和序列读段本身的联合编码来按块位对序列读段进行编码，而块大小可以是固定的或可变的并且具有任意大小。块中的第一序列读段以及相应的映射位置和CIGAR字符串可以被编码而不用预测。但是，也可能是针对某些任意参考读段而编码。

优选地，所述计算的差值被传递给所述熵编码器以用于所述差值的无损压缩。

在优选实施例中，所述当前读段具有多个连续的先前读段，使得多于一个的先前读段被用于计算差值。因此，计算所述当前读段的展开的核苷酸序列和至少两个所述连续的先前读段的展开的核苷酸序列之间的差值，其中从计算的多个差值中选择一个差值。所选择的差值指示所述当前读段的展开的核苷酸序列与所述对应的先前读段的展开的核苷酸序列之间的最小差值或区别。未比对的序列读段可以直接被传递给熵编码器，或者保留并且稍后(例如在每个块的末尾处)被单独编码。匹配的读段(关于所选择的差值)可能是在解码器处发信号通知或估计。所选择的差值被传递给熵编码器以压缩所述差值。

当前的读段通过压缩的差值进行编码(例如，替换)，所述压缩的差值包括先前读段的标识，所计算的对应的核苷酸序列之间的差值基于该先前读段的标识。因此，解码器可以基于所计算的差值和先前读段的标识来对当前读段的核苷酸序列进行解码。该标识可以是某个位置或文件内的某个行号。

在进一步的实施例中，如果存在固定数量的连续先前读段，则连续先前读段的数目是大于2的固定数目。在实践中，先前读段的数目可以是100。如果差值被压缩并且当前读段被编码，则当前读段作为最新的读段被添加到固定数目的先前读段中，并且从固定数目的先前读段中删除最早的读段。因此，可以实现通过数据文件的所有读段的逐行滑动窗口。

在另一个实施例中，连续的先前读段的数目是可变的。

在另一个实施例中，对于每个计算的差值，计算作为任意度量的距离，尤其是作为任意度量的距离的熵。在选择步骤中选择具有最小距离的距离，例如最小熵。

在另一实施例中，通过构建所述连续先前读段的展开的核苷酸序列中的每个展开的核苷酸的共有序列，基于连续先前读段的展开的核苷酸序列来计算共有展开的核苷酸序列。所述共有读段被用作先前读段，以用于计算所述当前读段和所述共有读段之间的差值以作为先前读段。

如果当前读段没有先前读段，则计算所述当前读段的展开的核苷酸序列与已映射测序数据的任意读段(选择或计算为共有读段)的展开的核苷酸序列之间的差值以作为先前读段。

在另一实施例中，如果当前读段没有先前读段，则将当前读段的映射位置、CIGAR字符串和实际核苷酸序列(直接)传递给熵编码器以压缩读段，并且通过所述压缩读段对所述当前读段进行编码(例如，替换)。

在另一实施例中，所述数据文件(例如，SAM文件)中的至少一个包含多个读段以及多个对应的质量得分。读段的每个核苷酸序列的质量得分值作为质量得分线包含在一个文件中，其中在一个文件中包含多个质量得分线。质量得分线的质量得分值评估对应读段的相应核苷酸的测序质量。

为了压缩质量得分，预测当前质量得分线内的当前位置处的针对实际质量得分值的预测质量得分值。对预测质量得分值的预测通过如下方式进行：由预测器或预测器模块基于当前质量得分线内的当前位置和同一当前位置处的先前质量得分线的一个或多个质量得分值来评估多个连续的先前质量得分值。

此外，计算当前位置处的所述预测质量得分值与实际质量得分值之间的差值，并且将其传递给熵编码器。此外，例如通过使用当前质量得分线中的下一个位置，对当前质量得分线中的每个实际质量得分值重复预测预测质量得分值的步骤和计算差值的步骤。如果预测了当前质量得分线的所有质量得分值，并且针对每个值计算了差值，则由包括所述当前质量得分线的差值的压缩的所述熵编码器(或多个熵编码器)的输出对当前质量得分线进行编码(例如，替换)。基于一个当前质量得分线的所有差值，由熵编码器计算质量得分线的压缩。

此外，用下一个质量得分线重复这些步骤，直到不再有质量得分线可用为止。

作为在解码处理期间构建预测存储器的替代方案，提出了将(在压缩期间生成的)预测表存储在例如文件头中以替代地或组合地加速压缩的可能性。然后可以分别对各个块的预测表进行编码。这通过为解码器提供完全训练的预测存储器或其部分(由编码器处的全部输入数据构建而成)来保持预测模型(例如马尔可夫模型)的压缩性能，从而实现对压缩数据的非连续(即随机)访问，然后可以从解码过程开始直接使用该解码器。

由于质量得分的大字母(典型地大约30个符号，理论上可能还有更多)，模型的标记被限制在一些低阶N(通常N<3)。作为替代方案，FIR滤波器用于预测当前符号。

在另一实施例中，用于计算所述预测质量得分值的线性预测器被用来评估用预测器系数加权的先前质量得分值的线性系列。

计算预测器系数的一种可能的方法是最小化均方误差，其产生以下条件来计算滤波器系数。

因此，获得质量得分线的一组预测器系数。预测器系数集可以在多个质量得分线之间共享。

作为所述最小均方误差滤波的替代方案，可以使用任何其他已知方法(例如，用最小方差预测)来计算预测器系数。

在另一实施例中，所述当前质量得分线具有多个先前质量得分线，其中计算所述多个先前质量得分线中的每个先前质量得分线(或其一部分)的识别向量，并且一旦基于识别矢量距离从所述多个先前质量得分线中选择了特定质量得分线(例如，该质量得分线具有最小识别矢量距离)。所述选择的特定质量得分线在预测步骤中被用作先前质量得分线。

已经观察到，在一些数据集中，随后的质量得分线在质量得分线对之间的小Levensthein距离方面是相似的。为了响应这一点，使用所谓的行上下文，该结构保持来自至少一个文件的质量得分线的一些先前行。预测上下文被划分为包含当前行上的存储器(行内存储器)位置的一个部分和包含来自行上下文的特定行上的存储器(行间存储器)位置的一个部分。得出行上下文中的每个质量得分线(或其部分)的识别矢量。作为一个示例，这可以是三维矢量，其包含例如质量得分线的长度、平均值和方差。在对当前质量得分线进行编码的过程中，从行上下文中选择一个具有最小识别矢量距离的特定质量得分线，而任何已知的矢量距离测量可能例如结合三维或欧几里德(Euclidean)距离来应用。矢量分量可能是单独加权的。

此外，本发明的一个方面是对由上述方法之一压缩的基因组数据进行解压缩。通过应用所述当前读段的解压缩差值以重构所述当前读段的核苷酸序列、CIGAR字符串和映射位置，从至少一个先前读段重构每个当前读段。如果压缩(编码)算法是已知的，则解压缩(解码)算法也是已知的并且可以直接从压缩算法中导出。

据此，压缩的质量得分可以被解压缩。

附图说明

参考以下附图更详细地描述本发明：

图1-所提出的用于压缩算法的序列的可能的编码器结构；

图2-预测编码器的布局。

具体实施方式

图1显示了所提出的序列压缩算法的可能的编码器结构。当前读段i>1应该被压缩。读段_i具有CIGAR_i字符串、pos_i和作为核苷酸序列的seq_i。读段_i的这三个数据参数被传递给扩展模块1。

扩展模块通过使用映射位置pos_i和CIGAR字符串CIGAR_i展开当前读段_i的核苷酸序列seq_i。扩展模块的结果是联合序列exp_i。

exp_i代码字被传递到环形缓冲器2。环形缓冲器2是后进后出容器，尤其是大小可修改且可变的容器，因而记住N个先前扩展读段。将每个扩展读段exp_j，1≤j<i与当前展开的核苷酸序列exp_i进行比较，以使用差值模块3计算当前读段的展开的核苷酸序列exp_i与先前读段的展开的核苷酸序列exp_j之间的差值。计算的差值连同所比较的核苷酸序列之间的最小差值被用于压缩相应的读段。D_i被传递给熵编码器4以将当前读段i压缩为最适合的先前读段的差值。

下面显示了伪代码中可能的算法实现。

下面给出了函数“expand”的简短工作原理。

压缩质量得分线的预测编码器的基本布局如图2所示。由预测器使用的存储器从当前位置之前的行中的质量得分线值q_n和从相同位置处的其它质量得分行中的质量得分线值导出。因此，在多行之间共享先前计算的预测器系数可能是有益的。

其基本思想是将相同质量得分线中的先前质量得分值和先前质量得分线的质量得分值用于预测当前质量得分值。

行i是当前质量得分线。粗体/斜体是要预测的当前位置处的预测质量得分值。行是特定质量得分线，粗体是预测器的质量得分值中的一个。当前行i中的2个粗体是预测器用来预测预测质量分值的粗体/斜体的其它质量得分值。

Claims

1.一种用于压缩基因组数据的方法，其中，所述基因组数据存储在至少一个数据文件中，所述至少一个数据文件包含通过基因组测序方法构建的至少多个读段，其中每个读段包括映射位置、CIGAR字符串和实际测序的核苷酸序列作为供体基因组的局部部分，所述方法包括如下步骤：

-通过使用所述当前读段的映射位置和CIGAR字符串来展开所述数据文件之一的当前读段的核苷酸序列，其中所述当前读段具有至少一个先前读段，

-计算所述当前读段的展开的核苷酸序列与至少一个所述先前读段的展开的核苷酸序列之间的差值，其中所述差值包含映射位置的差值和核苷酸序列的差值，

-将所述计算出的差值传递给熵编码器以压缩所述差值，

-通过所压缩的差值对所述当前读段编码，以及

-将所述当前读段作为所述先前读段之一并且将下一个读段作为新的当前读段重复上述步骤，直到不再有下一个读段可用为止。

2.根据权利要求1所述的方法，其中，所述计算出的差值被传递给所述熵编码器以用于对所述差值的无损压缩。

3.根据权利要求1或2所述的方法，其中，所述当前读段具有多个连续的先前读段，所述方法包括如下步骤：

-计算所述当前读段的展开的核苷酸序列与至少两个所述先前读段的展开的核苷酸序列之间的差值，

-从所述计算出的差值中选择指示所述当前读段的展开的核苷酸序列和所述对应的先前读段的展开的核苷酸序列之间的最小差值的差值，以及

-将所述选择的差值传递给所述熵编码器以压缩所述选择的差值。

4.根据权利要求3所述的方法，其中，如果存在固定数目的连续的先前读段，则所述连续的先前读段的数目是大于1的固定数目，其中所述当前读段作为最新的读段被添加到所述固定数目的先前读段且最旧的读段从所述固定数目的先前读段中删除。

5.根据权利要求3所述的方法，其中，连续的先前读段的数目是可变的。

6.根据权利要求3至5中任一项所述的方法，其中，针对每个计算出的差值计算作为任意度量的距离，特别是作为任意度量的距离的熵，其中在选择差值的步骤中选择具有最小距离的差值。

7.根据上述权利要求中的任一项所述的方法，其中，通过构建所述连续的先前读段的展开的核苷酸序列中的每个展开的核苷酸的共有序列，基于连续的先前读段的展开的核苷酸序列计算共有展开的核苷酸序列，其中所述共有读段用作先前读段以用于计算所述差值。

8.根据权利要求1至8中任一项所述的方法，其中，对于没有先前读段的当前读段，计算所述当前读段的展开的核苷酸序列与已映射的测序数据的任意读段的展开的核苷酸序列之间的差值以作为先前读段。

9.根据权利要求1至8中任一项所述的方法，其中，对于没有先前读段的当前读段，将所述当前读段的映射位置、CIGAR字符串和实际核苷酸序列直接传递给熵编码器以压缩所述读段，并且用所述被压缩的读段代替所述当前读段。

10.根据前述权利要求中任一权利要求所述的方法，其特征在于，至少一个所述数据文件包含多个质量得分线，其中每个质量得分线包括多个质量得分值，所述质量得分值评估读段的核苷酸序列的相应核苷酸的测序质量，所述方法包括用于压缩所述质量得分的如下步骤：

-通过由预测器在相同的当前位置处评估所述当前质量得分线的多个连续的先前质量得分值和先前质量得分线的一个或多个质量得分值来预测当前质量得分线内的当前位置处的针对实际质量得分值的预测质量得分值，

-计算所述当前位置处的所述预测质量得分值与实际质量得分值之间的差值，并且将计算出的差值传递给熵编码器，

-对所述当前质量得分线的每个实际质量得分值重复上述预测步骤和计算步骤，

-用包括所述当前质量得分线的所有压缩差的所述熵编码器的输出替换所述当前质量得分线，

-对接下来的质量得分线重复上述所有步骤，直至不再有质量得分线可用为止。

11.根据权利要求8所述的方法，其中，所述预测器是线性预测器以用于通过评估用预测器系数加权的先前质量得分值的线性系列来计算所述预测质量得分值。

12.根据权利要求8或9所述的方法，其中，所述当前质量得分线具有多个先前质量得分线，其中计算所述多个先前质量得分线的每个先前质量得分线或其一部分的识别矢量，从所述多个先前质量得分线中选择一个具有最小识别矢量距离的特定质量得分线，其中在所述预测步骤中将所述选择的特定质量得分线用作先前质量得分线。

13.根据权利要求10所述的方法，其中，所述识别矢量可以是包含质量得分线的长度、质量得分线的算术平均值和/或质量得分线的方差的三维矢量。

14.一种用于解压缩被压缩的基因组数据的方法，其中，所述被压缩的基因组数据是通过根据前述权利要求之一的方法来压缩的，其中通过应用所述当前读段的解压缩差值来重构所述当前读段的核苷酸序列、CIGAR字符串和映射位置，由至少一个所述先前读段来重构每个当前读段。

15.一种计算机程序，如果所述计算机程序在计算机上运行时，其被布置为执行根据权利要求1至13中任一项所述的压缩方法和/或被布置为执行根据权利要求14所述的解压缩方法。

16.一种硬件装置，其被布置为执行根据权利要求1至13中任一项所述的压缩方法，和/或被布置为执行根据权利要求14所述的解压缩方法。