CN110915140B

CN110915140B - 用于编码和解码数据结构的质量值的方法

Info

Publication number: CN110915140B
Application number: CN201880047038.0A
Authority: CN
Inventors: J·福格斯; J·奥斯特曼
Original assignee: Leibniz Universitaet Hannover
Current assignee: Leibniz Universitaet Hannover
Priority date: 2017-07-14
Filing date: 2018-07-16
Publication date: 2024-03-19
Anticipated expiration: 2038-07-16
Also published as: US20200153454A1; EP3652862A1; US10938415B2; WO2019012153A1; EP3652862B1; CN110915140A

Abstract

一种对数据结构的质量值进行编码的方法，数据结构包括一组基因组读段，该方法包括以下可由数据处理系统执行的步骤：‑确定每个读段的覆盖特定索引基因座的质量值；‑基于特定索引基因座的所确定的质量值确定标识多个码本中用于特定索引基因座的特定码本的码本标识符，由此每个码本提供从质量值字母表的质量值到量化质量值字母表的对应的量化质量值的映射；‑使用在特定索引基因座处由码本标识符标识的特定码本量化在特定索引基因座处的所有确定的质量值，以便为在特定索引基因座处的每个质量值获得对应量化质量值；以及‑使用第一熵编码器对所有确定的码本标识符进行编码且使用第二熵编码器或一组编码器对所有量化质量值进行编码。

Description

用于编码和解码数据结构的质量值的方法

技术领域

本发明涉及一种用于编码数据结构的质量值(尤其是被存储为这种数据结构的基因组数据的质量值)的方法和对应的设备。本发明还涉及一种用于解码通过本发明的方法编码的数据结构的质量值的方法。

背景技术

由于新型高通量测序(HTS)和/或下一代测序(NGS)技术，已经可以承受大量遗传信息的测序。由于这种数据浮动，与测序成本相比，IT成本可能成为主要障碍。需要对基因组数据进行高性能压缩以降低存储大小和传输成本。

测序机产生了大量核苷酸序列片段的读出信息(简称为读段)。在测序过程中，将质量值(也称为质量得分)分配给读出信息的核苷酸序列中的每个核苷酸。该质量值表示对应核苷酸已被正确读出或未被正确读出的置信度。

在Peter J ACock、Christopher J Fields、Naohisa Goto、Michael L Heuer和Peter M Rice的“The Sanger FASTQ_le format for sequences with quality scores,and the Solexa/lllumina FASTQ variants”(Nucleic Acids Research,38(6)：1767{1771,2010)中，公开了用于具有质量得分的序列的FASTQ文件格式。

生成原始数据后，一些最常见的后续处理步骤是：

a)使用诸如BWA(Heng Li和Richard Durbin的“Fast and accurate short readalignment with Burrows-Wheeler transform”，Bioinformatics，25(14)：1754{60，2009)、Bowtie(Ben Langmead和Steven L.Salzberg的“Fast gapped-read alignmentwith Bowtie 2”，Nature Methods，9(4)：357{9，2012；Ben Langmead、Cole Trapnell、Mihai Pop和Steven L.Salzberg的“Ultrafast and memory-e_cient alignment ofshort DNAsequences to the human genome”，Genome Biology，10(3)：R25.1{10，2009)、mrsFAST(Faraz Hach、Fereydoun Hormozdiari、Can Alkan、Farhad Hormozdiari、Inan_cBirol、Evan E Eichler和S Cenk Sahinalp的“mrsFAST:a cache-oblivious algorithmfor short-read mapping”，Nature Methods，7(8)：576-7，aug 2010)或GEM(SantiagoMarco-Sola、Michael Sammeth、Roderic Guig_o和Paolo Ribeca的“The GEM mapper:fast,accurate and versatile alignment by_ltration”，Nature Methods，9(12):1185{1188,oct 2012)等工具对读段进行基于参考的对齐，或

b)使用诸如ABySS(Jared T Simpson、Kim Wong、Shaun D Jackman、Jacqueline ESchein、Steven J M Jones和Inan_c Birol的“ABySS:a parallel assembler for shortread sequence data”，Genome Research，19(6)：1117{23,jun2009)或SPAdes(AntonBankevich、Sergey Nurk、Dmitry Antipov、Alexey AGurevich、Mikhail Dvorkin、Alexander S Kulikov、Valery M Lesin、Sergey INikolenko、Son Pham、Andrey DPrjibelski、Alexey V Pyshkin、Alexander VSirotkin、Nikolay Vyahhi、Glenn Tesler、Max A Alekseyev和Pavel A Pevzner的“SPAdes:A New Genome Assembly Algorithm andIts Applications to Single-Cell Sequencing”Journal of Computational Biology,19(5):455-77,may 2012)等工具对读段进行从头组装。

在对齐或组装过程中，为每个读段生成附加信息，诸如映射位置或CIGAR字符串。稍后表达的不同操作需要在读段上执行，以便使其完美地映射到用于对齐或组装的参考序列。读段利用这些附加信息进行扩展，以形成所谓的对齐，其例如可以以SAM格式(Heng Li、Bob Handsaker、Alec Wysoker、Tim Fennell、Jue Ruan、Nils Homer、Gabor Marth、Goncalo Abecasis和Richard Durbin的“The Sequence Alignment/Map format andSAMtools”，Bioinformatics，25(16)：2078{2079，2009；Jan Voges、Marco Munderloh和Ostermann的“Predictive Coding of Aligned Next-Generation SequencingData”，在Data Compression Conference(DCC)，第241{250页，Snowbird，UT(US)，2016.IEEE)存储。

在WO 2018/068845 A1中公开了一种用于编码和解码数据结构的质量值的方法。基于质量值来计算特定基因座索引的估计确定性，并且基于所计算的估计确定性来将每个质量值变换为变换后的质量值。

发明内容

本发明的一个方面提供一种更好的编码和压缩方法，用于压缩已测序的基因组数据结构的质量值。本发明的另一方面提供一种解码或解压缩方法，用于对这种基因组数据的编码质量值进行解码。

根据本发明提出了用于编码基因组结构的质量值的方法。基因组数据结构包括多个基因组读段，其中每个基因组读段是通过供体序列或供体基因组的测序过程获得的。

基于这种基因组数据结构的规范，每个读段包括实际测序的核苷酸序列，其可以是所述供体基因组的片段或局部部分。每个基因组读段还包括映射位置、CIGAR字符串和要编码的质量值序列。一个读段的实际测序核苷酸序列包括来源于核苷酸字母表的符号序列。在对DNA或RNA进行测序的大多数情况下，核苷酸字母表包括C、T、A、G和/或U。

所寻址的映射位置还指示所述核苷酸序列与供体基因组的至少一个参考核苷酸序列的对齐。CIGAR字符串指示所述核苷酸序列与至少一个所述参考核苷酸序列的相似性和/或差异，以及质量值指示核苷酸序列的对应符号相对于至少一个所述参考核苷酸序列而言正确的似然度。

例如，这种数据结构可以保存在数据文件中，例如SAM文件中。

对这种质量值进行编码以降低信息密度从而降低数据结构的存储空间的方法包括以下可由数据处理系统执行的步骤。首先，在特定索引基因座处，确定每个读段的覆盖所述特定索引基因座的质量值。在该步骤之后，在特定基因座索引处，从数据结构中获知具有相同索引基因座的每个可能的质量值。

在下一步骤中，基于特定索引基因座的所确定的质量值来确定码本标识符。该码本标识符标识多个码本中用于所述特定索引基因座的特定码本，由此每个码本提供从所述质量值字母表的质量值到量化质量值字母表的对应的量化质量值的映射。为了降低信息密度以减小存储空间，量化质量值字母表的基数远小于质量值字母的基数。

基于码本中的这种映射，可以将不同的质量值映射到相同的量化质量值。

在确定了特定索引基因座处的质量值并确定了用于所述特定索引基因座的特定码本之后，使用由码本标识符标识的特定码本对所有确定的质量值进行量化，从而为在所述特定索引基因座处的每个质量值获得对应的量化质量值。

如果对一个或多个特定索引基因座处的所有质量值进行量化，则使用第一熵编码器对所有确定的码本标识符进行编码，并且使用第二熵编码器或一组第二熵编码器对所有量化质量值进行编码。这样的编码器可以是算术编码器。

本发明使得能够减少用于质量值的存储空间，使得与良好序列核苷酸相关的特定索引基因座处的质量值具有比与不良序列核苷酸相关的质量值更好或更高的压缩率。也就是说，如果该方法认为可能有两个以上不同的基因型或核苷酸是正确的，则该方法将在该基因座索引处产生较小的可压缩性。然而，如果数据中有足够的证据表明特定基因型可能是正确的基因型，则该方法将产生更多的压缩。

有利地，对基因组数据结构中可能的每个索引基因座执行量化步骤。

在一个实施例中，基于在该特定索引基因座处所确定的质量值和所确定的质量值所属的对应核苷酸符号来计算一组特定索引基因座的基因型不确定性。为了计算所述基因型不确定性，使用统计模型以获得唯一基因型是正确基因型的可能性。

在另一实施例中，在所述特定索引基因型处的确定的码本标识符被输入到质量值码本流中，并且在所述特定索引基因型处的量化质量值被输入到质量值索引流或一组质量值索引流中。这在使用由码本标识符标识的码本对确定的质量值进行量化之后以及在对码本标识符和量化质量值进行编码之前执行。随后，在一个或多个索引基因座处的所有必要质量值被量化并输入到质量值索引流中，以及码本标识符被输入到质量值码本流中。使用第一熵编码器对质量值码本流的码本标识符进行编码，并且使用第二熵编码器或一组第二熵编码器对质量值索引流的量化质量值进行编码。熵编码器可以是算术编码器。

质量值码本流的每个索引与索引基因座相关，并且和与该索引基因座处的量化质量值对应的质量值索引流的索引相关。

在另一实施例中，质量值索引流被分解为对应于所提供的码本标识符的(分离)子序列流，使得每个子序列流被分配给多个码本标识符中的一个码本标识符。换句话说，对于标识特殊码本的每个码本标识符，存在质量值索引流的一个子序列流，从而将由相同码本量化的所有质量值输入到被分配给标识该特殊码本的码本标识符的子序列流中。术语“分解”是指将质量值索引流解多路复用为这样的子序列流，使得解多路复用过程使用码本标识符来指示每个解多路复用后的子序列流。

然后，使用第二熵编码器或一组第二熵编码器分别对每个子序列流进行编码，使得使用相同的码本量化的所有质量值由相同的熵编码器编码。

在另一实施例中，对于每个子序列流，基于相应子序列流的质量值来计算概率分布，并且使用对相应子序列流的概率分布进行建模的单独的第二熵编码器来对相应子序列流进行编码。

根据本发明，提出了一种用于对经编码的质量值进行解码的方法，其中通过上述方法对编码质量值进行编码。该方法包括以下可由数据处理系统执行的步骤：

-使用与编码方法的熵编码器对应的熵解码器来解码经编码的码本标识符和经编码的量化质量值；

-从所解码的码本标识符中确定用于特定索引基因座的码本标识符，并且从所解码的量化质量值中确定用于所述特定索引基因座的量化质量值；

-基于所确定的码本标识符来确定多个码本中的特定码本；以及

-使用所确定的特定码本重构所确定的量化质量值。

在一个实施例中，针对每个索引基因座执行所述步骤。

附图说明

参考以下附图更详细地描述本发明：

图1是编码结构概述；

图2是使用简单示例对编码方法进行详细说明。

具体实施方式

图1示出了用于编码和解码的基本编码结构。编码器获得质量值q、映射位置p、CIGAR字符串c、核苷酸序列s、以及可选地参考序列r(如SAM格式规范中所定义的)作为输入。码本标识符k的计算由模块G执行，模块G获得质量值q、映射位置p、CIGAR字符串c、核苷酸序列s、以及可选地参考序列r作为输入。码本标识符k随后控制量化模块Q的工作，该量化模块Q对质量值q进行量化并输出量化后的质量值i。

码本标识符k用于量化与索引基因座I相关联的所有质量值，而高码本标识符k与包括大量代表值的码本相关联。换句话说，高码本标识符k将产生精细的量化，反之亦然。

为了计算码本标识符k，所提出的方法使用统计模型从可观察数据推断基因座I处的基因型不确定性。给出基因座I处的测序深度N，可立即观察到的数据是读出的核苷酸和考虑到CIGAR字符串中的信息的与基因座I重叠的所有读段的相关质量值。基因型不确定性可以被认为是度量M，其测量唯一的基因型是正确基因型的可能性。

更具体地，假设读段集合与参考序列对齐或已经由从头组装器对齐。进一步假设读段已经按其映射位置排序。给定这样的读段集合，用N表示覆盖基因座I的读段的数量。令n_j为来自覆盖基因座I的读段j的符号，且令q_j为对应质量值的值。基因型I处的可观察数据可以写成

对于每个基因座I，可以计算度量M＝M(n，q)(基因型不确定性)。然后，通过使用度量M将码本标识符k计算为：

k＝f(M(n，q))，

其中f是单调递增函数。

也就是说，如果该方法认为两种以上不同的基因型很可能是正确的，那么基因型不确定性将高，因此k将高，这将在基因座I处产生较小的可压缩性。但是，如果数据中有足够的证据表明某个特定的基因型可能是正确的基因型，那么该基因型的不确定性将低，因此k将低，这将产生更多的压缩。

量化索引i和码本标识符k由熵编码器模块E1和E2编码。量化索引i由熵编码器模块E2编码，而码本标识符k由熵编码器模块E1编码。

在传输信道上传输之后，解码器使用熵解码器模块D2解码量化索引，并使用熵解码器模块D1解码码本标识符。对齐信息(即映射位置)、CIGAR字符串和参考序列必须作为辅助信息被传输到解码器。随后，重构模块R使用量化索引、码本标识符和辅助信息重构质量值。

量化质量值(以上称为量化索引i)被输入到质量值索引流中。码本标识符k被输入到质量值码本流中。在单流熵编码流中，用两个算术编码器分块压缩质量值码本流和质量值索引流。此处，在示例中，第一算术编码器对质量值码本流符号K＝{0，...，k}的概率分布P(k)进行模块化，从而接近质量值码本流信号的无记忆熵。第二算术编码器对量化质量值字母表的符号I的概率分布P(i)进行建模，从而接近质量值索引流信号的无记忆熵。

在基于上下文的熵编码流中，如图2中的简单示例所示，质量值索引流被分别分解为对应于码本K的数量的(分离或不相交)子序列流。例如，码本的数量可以是7，使得质量值索引流被分解为对应于码本标识符符号k元素{1、2、3、4、5、6、7}的子序列流。码本标识符符号0以0测序深度在基因座发送。

图2中的示例示出了在特定基因座I处的四个读段，其中在基因座I处的第一个读段具有核苷酸A，第二个读段具有核苷酸C，第三个读段具有核苷酸T，最后一个读段具有核苷酸T。在基因座I处的第一个读段的质量值为10，第二第二个读段的质量值为21，第三个读段的质量值为7，最后一个读段的质量值为8。

基于特定基因座I处的质量值10、21、7、8和核苷酸A、C、T、T，计算码本标识符k。基于码本标识符k，从多个码本中确定一码本，由此确定的码本与码本标识符k相关。在图2的示例中，k＝2，并选择2号码本。该码本具有量化索引或量化质量值I＝{0，1，2}。基于所选择的2号码本和在基因座I处的质量值{10、21、7、8}，使用2号码本计算量化质量值i。因此，对于质量值10，确定量化质量值1。对于质量值21，使用量化质量值2。对于质量值7和8，从2号码本确定量化质量值0。

此外，存在七个(分离或不相交)质量值索引流(称为子序列流)。在与2号码本相对应的子序列流中，输入了在基因座I处的量化质量值{1、2、0、0}。

由另一码本量化的量化质量值被输入到与对应码本相关的流中。因此，量化质量值i被分组为七个子序列流，然后由七个对概率分布(pilki)进行建模的算术编码器分别对七个子序列流进行压缩。

每个码本标识符k都与特定的基因组基因座I相关。而且，每个量化质量值符号i都与特定的基因组基因座相关。给出在基因座I处码本标识符k(I)＝k_I，在该基因座I处的所有量化质量值符号的可能值也由i(I)＝i(k_I)元素{0，ki}确定。

在当前的实现方式中，使用了七个算术编码器，每个算术编码器都对不同的条件概率分布进行建模。然而，也可以使用其他熵编码器架构来利用量化质量值和码本标识符流的统计量。

Claims

1.一种用于对数据结构的质量值进行编码的方法，其中，所述数据结构包括一组基因组读段，其中，每个基因组读段包括：

-作为供体序列或基因组的局部部分的实际测序的核苷酸序列，其中，所述核苷酸序列包括来源于核苷酸字母表的符号序列；

-映射位置，其指示所述核苷酸序列与所述供体序列或基因组的至少一个参考核苷酸序列的对齐；

-CIGAR字符串，其指示所述核苷酸序列与至少一个所述参考核苷酸序列的相似性和/或差异；以及

-质量值序列，每个质量值均来源于质量值字母表，从而所述质量值序列的在索引基因座处的质量值被分配给所述核苷酸序列的在所述索引基因座处的对应符号并指示所述对应符号相对于至少一个所述参考核苷酸序列而言正确的似然度，

其中，所述方法包括以下能够由数据处理系统执行的步骤：

-确定每个读段的覆盖特定索引基因座的质量值；

-基于所述特定索引基因座的所确定的质量值确定标识多个码本中用于所述特定索引基因座的特定码本的码本标识符，由此每个码本提供从所述质量值字母表的质量值到量化的质量值字母表的对应的量化质量值的映射；

-使用在所述特定索引基因座处由所述码本标识符标识的所述特定码本量化在所述特定索引基因座处的所有确定的质量值，以便为在所述特定索引基因座处的每个质量值获得对应的量化质量值；以及

-使用第一熵编码器对所有确定的码本标识符进行编码，并且使用第二熵编码器或一组编码器对所有量化质量值进行编码。

2.根据权利要求1所述的方法，其中，针对每个索引基因座执行量化步骤。

3.根据权利要求1或2所述的方法，其中，基于在所述特定索引基因座处的所确定的质量值和在所述特定索引基因座处的每个质量值的对应核苷酸符号，使用统计模型计算所述特定索引基因座的基因型不确定性，以获得唯一的基因型是正确的基因型的可能性。

4.根据权利要求1或2所述的方法，其中，所述方法还包括：

-将所述特定索引基因座处的所确定的码本标识符输入到质量值码本流中，并且将所述特定索引基因座处的所述量化质量值输入到质量值索引流或一组流中；

-使用所述第一熵编码器对所述质量值码本流的所述码本标识符进行编码，并且使用所述第二熵编码器或一组编码器对所述质量值索引流的所述量化质量值进行编码。

5.根据权利要求4所述的方法，其中，所述方法还包括：

-将质量值描述符流分解为与所提供的码本标识符对应的子序列流，从而将每个子序列流分配给所述码本标识符中的一个码本标识符；

-将所述量化质量值输入到与相应的码本标识符对应的子序列流中；以及

-使用所述第二熵编码器或一组编码器分别对每个子序列流进行编码。

6.根据权利要求5所述的方法，其中，针对每个子序列流，基于相应的子序列流的所述质量值来计算概率分布，并且使用对所述相应的子序列流的所述概率分布进行建模的单独的第二熵编码器对所述相应的子序列流进行编码。

7.一种用于对经编码的质量值进行解码的方法，其中，所述经编码的质量值通过根据权利要求1至6中任一项所述的方法进行编码，其中，所述方法包括以下能够由数据处理系统执行的步骤：

-使用所确定的特定码本重构所确定的量化质量值。

8.根据权利要求7所述的方法，其中，对每个索引基因座执行所述步骤。