CN110603595B

CN110603595B - 用于从压缩的基因组序列读段重建基因组参考序列的方法和系统

Info

Publication number: CN110603595B
Application number: CN201780086529.1A
Authority: CN
Inventors: 克劳迪奥·阿尔贝蒂; 穆罕默德·霍索·巴鲁克
Original assignee: Genomsys SA
Current assignee: Genomsys SA
Priority date: 2016-10-11
Filing date: 2017-12-14
Publication date: 2023-08-08
Anticipated expiration: 2037-12-14
Also published as: PE20191056A1; JP2020505702A; CL2019000972A1; AU2017341685A1; CO2019003595A2; CO2019009920A2; EP3526707A4; PH12019550059A1; SG11201903272XA; WO2018071080A3; PH12019501881A1; KR20190062541A; CL2019000968A1; EP3526694A1; PE20191227A1; BR112019016232A2; BR112019007360A2; US20190385702A1; IL265928A; PE20191057A1

Abstract

本公开中描述的方法和设备包括依据描述所述参考基因组和与所述参考基因组先前比对的基因组序列之间差异的语法元素来表示参考基因组。借助语法元件的子集来描述每个比对的基因组序列。描述所有基因组序列的语法元素根据其统计性质按块分割。每个语法元素块被熵编码。然后，熵编码的块串联形成压缩的比特流。凭借语法元素表示参考基因组与比对的序列之间的差异，语法元素根据其统计性质按块分割，每个语法元素块被熵编码。这些熵编码的语法元素被嵌入描述比对的读段的语法元素的编码块的比特流中。所公开的方法使得能够在解码压缩的基因组序列时重建用于比对的参考基因组，同时保留对压缩的数据的随机访问的不同选项并且使得能够高效压缩。

Description

用于从压缩的基因组序列读段重建基因组参考序列的方法和系统

相关申请的交叉引用

本申请要求2017年7月11日提交的专利申请PCT/US2017/041579和2017年2月14日提交的专利申请PCT/US17/17842的优先权和权益。

技术领域

本公开涉及比对的基因组序列读段的无损压缩，其中，使用关联的比对信息和参考基因组或其一些部分来比对所述基因组序列。基因组序列通常旨在作为称为核苷酸的分子的串联，以形成脱氧核糖核酸(DNA)或核糖核酸(RNA)的片段。本发明可以被应用于用于使用相同字母表对较短序列进行比对的符号的任何参考序列。

本发明应用于已经借助无参考压缩方法压缩的比对基因组序列。在这方面的初步尝试是在Voges,J.、Munderloh,M.、Ostermann,J.的“比对的下一代测序数据的预测编码”(2016年数据压缩会议(DCC))中或者Benoit,G.等人的“使用概率de Bruijn图进行高通量测序数据的无参考压缩”(BMC生物信息学，2015；16:288.)中描述的尝试，然而，本发明中解决了其中多个局限性。

在本公开的背景下，比对的基因组序列的无参考压缩包括创建通过交叠和串联被映射在用于比对的参考基因组的相邻或交叠区域中的基因组序列而构建的被称为“重叠群”的一个或多个局部参考序列。有关重叠群的详尽描述，请参见https://en.wikipedia.org/wiki/Contig。所述重叠群不需要被包括在压缩的比特流中，因为它们在解码端被重建为解码处理的一部分。一旦为已经在其中映射了一个或多个基因组序列的基因组区域构建了重叠群，就通过根据基因组描述符描述基因组序列并且用特定熵编码器压缩每个相同类型的基因组描述符块，来向所述基因组序列施加基于参考的压缩。这种方法能够实现比诸如GZIP、LZMA、BZ的通用压缩方案更好的压缩比，并且保留随机访问。

比对的基因组序列的基于参考的压缩是基于根据比对序列的映射位置以及相对于用于比对的一个或多个参考序列的差异来表示所述比对序列，并且仅对所述位置和差异进行编码。然而，这种方法允许实现非常高的压缩比(随着覆盖度大致线性增加，其中，术语覆盖度是指包含参考基因组的每个核苷酸的平均读段数量)，编码和解码处理二者都需要使用用于比对和压缩的特定参考序列。该方法的缺点是，如果用于比对和压缩的参考序列在解码侧不可用(例如，由于缺乏参考基因组或其版本的唯一标识，或者倘若原始数据源不再可用)，则压缩的内容无法恢复。基于包括用于存储或传输的压缩的表示中的参考基因组的解决方案将导致不利于压缩效率。

为了解决这种问题，存在在不使用用于比对的参考基因组的情况下实现对比对的基因组序列读段进行压缩和解压缩的无参考压缩方法。这些方法中的一些采用诸如GZIP、BZIP2、LZMA的通用压缩器，实现大约3:1的不良压缩比。更高效的方法是基于通过称为“组装”的处理，从比对的读段本身构建出一个或多个参考序列，在“组装”中，使用被映射在用于比对的参考基因组的相邻基因组间隔上的读段，通过找到共享的子序列并且串联它们来构建更长序列。从串联或合并较短序列而获得的较长序列被称为“重叠群”。这些方法包括来自Voges,J.、Munderloh,M.、Ostermann,J.的“比对的下一代测序数据的预测编码”(2016年数据压缩会议(DCC))中或者Benoit,G.等人的“使用概率de Bruijn图进行高通量测序数据的无参考压缩”(BMC生物信息学，2015；16:288.)的已引用的文献。

本公开解决了用于在联合地应用基因组序列的无参考压缩时，对用于基因组序列读段比对的参考基因组进行高效压缩的问题。

发明内容

下面的权利要求书的特征通过提供一种用于在对基因组序列进行无参考压缩的情况下，对参考基因组进行无损压缩的方法，来解决现有解决方案的问题，所述方法包括以下步骤：

·将所述读段与一个或多个参考序列进行比对，由此产生比对的读段，

·组装所述比对的读段，由此产生重叠群，

·比较所述参考序列和所述重叠群，由此获得与错配位置和错配类型相关的信息，

·对与所述错配位置和所述错配类型相关的所述信息进行熵编码。

在所述压缩方法的另一方面，组装所述比对的读段包括以下步骤：针对所述参考序列上的每个位置，选择在所述位置处的所述比对的读段中出现频率最高的核苷酸。

在所述压缩方法的另一方面，分别使用第一描述符(203)和第二描述符(204)来指示与所述错配位置和所述错配类型相关的所述信息。

在所述压缩方法的另一方面，所述第一描述符和所述第二描述符被封装在相同的访问单元中，以便能够在所述解码设备处选择性重建用于比对的所述参考序列。

在所述压缩方法的另一方面，所述重叠群的长度被定义为所述编码器的输入参数或者由所述编码器动态调整。

在所述压缩方法的另一方面，使用分割单元式截断一元二值化将所述第一描述符二值化，其中，所述分割单元式截断一元是重复的截断一元二值化的串联，其中，每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分，其中，N是预先选择的参数。

在所述压缩方法的另一方面，使用截断一元二值化将所述第二描述符二值化，其中，所述第二描述符的值后跟着零，并且如果所述值等于要被二值化的最大可能值，则丢弃尾随的0比特。

在所述压缩方法的另一方面，所述方法不对表示特定参考基因组的使用的信息进行编码。

在所述压缩方法的另一方面，所述重叠群的所述长度被包含在语法报头中。

一种用于编码基因组序列数据的设备，所述基因组序列数据包括核苷酸序列的读段，所述设备包括用于以下步骤的装置：

·组装所述比对的读段，由此产生重叠群，

在所述用于编码基因组序列数据的设备中，用于组装所述比对的读段的所述装置还包括用于针对所述参考序列上的每个位置，选择在所述位置处的所述比对的读段中出现频率最高的核苷酸的装置。

所述用于编码基因组序列数据的设备还包括分别通过第一描述符(203)和第二描述符(204)来指示与所述错配位置和所述错配类型相关的所述信息的装置。

所述用于编码基因组序列数据的设备还包括用于将所述第一描述符和所述第二描述符封装在相同的访问单元中，以便能够在所述解码设备处选择性重建用于比对的所述参考序列的装置。

所述用于编码基因组序列数据的设备还包括接收所述重叠群的长度作为输入参数的装置和用于动态调整所述重叠群的长度的装置。

所述用于编码基因组序列数据的设备还包括用于采用分割单元式截断一元二值化将所述第一描述符二值化的二值化装置，其中，所述分割单元式截断一元是重复的截断一元二值化的串联，其中，每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分，其中，N是预先选择的参数。

所述用于编码基因组序列数据的设备还包括用于采用截断一元二值化将所述第二描述符二值化的二值化装置，其中，所述第二描述符的值后跟着零，并且如果所述值等于要被二值化的最大可能值，则丢弃尾随的0比特。

所述用于编码基因组序列数据的设备还包括用于对语法报头中的所述重叠群的长度进行编码的装置。

一种用于解码编码的基因组序列数据的方法，所述方法包括以下步骤：

·解析编码的输入文件，以获得重叠群序列，

·对重叠群中与错配位置和错配类型相关的信息进行熵解码，

·通过采用所述重叠群中与错配位置和错配类型相关的所述信息来分解所述重叠群，由此获得核苷酸基因组序列。

在所述解码方法的另一方面，通过采用所述重叠群中与所述错配位置和所述错配类型相关的所述信息来分解所述重叠群，由此获得所述核苷酸基因组序列，还包括对第一描述符(203)和第二描述符(204)进行熵解码。

在另一方面，所述解码方法还包括从相同的访问单元解封装所述第一描述符和所述第二描述符，以便获得所述核苷酸基因组序列的选择性重建。

在另一方面，所述解码方法还包括从被包含在所述输入文件中的语法报头中解码所述重叠群的长度。

在另一方面，所述解码方法还包括对所述第一描述符进行逆二值化，其中，使用分割单元式截断一元二值化将所述第一描述符二值化，其中，所述分割单元式截断一元是重复的截断一元二值化的串联，其中，每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分，其中，N是预先选择的参数。

在另一方面，所述解码方法还包括对所述第二描述符进行逆二值化，其中，使用截断一元二值化将所述第二描述符二值化，其中，所述第二描述符的值后跟着零，并且如果所述值等于要被二值化的最大可能值，则丢弃尾随的0比特。

在所述解码方法的另一方面，所述输入文件不包含表示特定参考基因组的使用的信息。

一种用于解码编码的基因组序列数据的设备，所述设备包括用于以下步骤的装置：

·解析编码的输入文件，以获得重叠群序列，

一种用于解码编码的基因组序列数据的设备，其中，用于通过采用重叠群中与所述错配位置和所述错配类型相关的所述信息来分解所述重叠群，由此获得核苷酸基因组序列的所述装置，还包括用于对第一描述符(203)和第二描述符(204)进行熵解码的装置。

一种用于解码编码的基因组序列数据的设备，还包括用于通过从相同的访问单元解封装所述第一描述符和所述第二描述符来选择性重建所述核苷酸基因组序列的装置。

一种用于解码编码的基因组序列数据的设备，还包括用于从被包含在所述输入文件中的语法报头中解码与所述重叠群的长度相关的信息的装置。

一种用于解码编码的基因组序列数据的设备，还包括用于对所述第一描述符进行逆二值化的装置，其中，使用分割单元式截断一元二值化将所述第一描述符二值化，其中，所述分割单元式截断一元是重复的截断一元二值化的串联，其中，每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分，其中，N是预先选择的参数。

一种用于解码编码的基因组序列数据的设备，还包括用于对所述第二描述符进行逆二值化的装置，其中，使用截断一元二值化将所述第二描述符二值化，其中，所述第二描述符的值后跟着零，并且如果所述值等于要被二值化的最大可能值，则丢弃尾随的0比特。

附图说明

图1示出了基因组序列如何被映射在参考序列上，然后用于借助合并和串联操作来构建组件。所构建的组件可以在比对的基因组序列存在与参考序列的核苷酸不同的核苷酸的位置处与参考序列不同。

图2示出了参考序列与重叠群之间的错配如何根据错配的位置和类型被表示，然后使用熵编码器被编码，熵编码器实现了如本公开中定义的不同的二值化和转换。

图3描绘了编码器设备，包括了以下步骤：相对于参考基因组比对基因组序列，通过合并和串联所述比对的序列来构建重叠群，相对于重叠群生成表示基因组序列的描述符，用专用的熵编码器对每个描述符块进行压缩。

图4示出了压缩的比特流的解码处理，包括了以下步骤：多路分解进入的比特流以提取熵编码的描述符，对每种类型的描述符进行熵解码，构建重叠群，使用所构建的重叠群来对比对的序列读段进行解码，使用重叠群以及重叠群错配位置和类型来重建参考基因组。

图5示出了如何使用参考序列上的坐标N和坐标M之间映射的序列读段来构建长度为M-N个核苷酸的重叠群。然后，使用所构建的重叠群将基于参考的压缩应用于所映射的序列读段。表示所映射的序列读段的基因组描述符在相同的访问单元中被熵编码和多路复用，作为表示用于比对的参考序列与所构建的重叠群之间的差异的熵编码的基因组描述符。

图6示出了访问单元如何封装表示被映射在参考序列的连续间隔中的序列读段的压缩的描述符。报头信息被预置到压缩的描述符之前，以便实现数据解析。

图7示出了P类型的访问单元如何由报头以及表示读段映射位置(pos)、反向补码信息(rcomp)、配对端读段的情况下的配对信息(pair)、可变读段长度的情况下的读段长度(rlen)和映射标志(flags)的复用描述符块构成。它用于编码P类的读段。

图8示出了参考序列上的坐标系以及参考序列上的读段和读段对的映射。

图9示出了可以如何组装读段对中的未映射的配对以构建可以填充参考序列中的间隙的重叠群。另外，然后可以将先前未映射的读段对映射到新组装的重叠群。

图10示出了参考基因组与组装的重叠群之间的五个错配的转换和二值化的示例。

图11示出了用于比对的没有序列被映射的参考基因组的区域如何在专用访问单元中被编码，以使得在解码端处能够完成参考基因组的重建。

具体实施方式

本发明中提及的基因组或蛋白质组序列包括，例如但不限于，核苷酸序列、脱氧核糖核酸(DNA)序列、核糖核酸(RNA)和氨基酸序列。虽然在本文中描述了相对于核苷酸序列形式的基因组信息的大量细节，但是应该理解，尽管有一些变化，但是如本领域中的技术人员将理解的，用于压缩的方法和系统也可以用于其他基因组或蛋白质组序列。

基因组测序信息是由高通量测序(HTS)机器以核苷酸序列(又名“碱基”)的形式生成的，该核苷酸序列是由所定义词汇表中的字母串表示的。用五个符号表示最小的词汇表。{A，C，G，T，N}代表DNA中存在的4个类型的核苷酸，即，腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。在RNA中，胸腺嘧啶被尿嘧啶(U)取代。N指示测序机器不能调用任何碱基，所以该位置处的核苷酸的真实性质是不确定的。倘若测序机器采用IUPAC模糊代码作为词汇表，则用于符号的字母表由以下符号构成：{A，C，G，T，U，W，S，M，K，R，Y，B，D，H，V，N或-}。在氨基酸的情况下，所支持的符号是：{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}。

术语

在本公开的背景下，由测序机器产生的核苷酸序列被称为读段。序列读段可以由范围在数十个到数千个之间的多个核苷酸构成。一些测序技术产生由其中一个读段源自一个DAN链而另一个读段源自另一个链的对构成的序列读段。与产生读段对的测序处理中的另一个读段关联的读段被称为其配对。

基因组序列读段压缩的高效方法的共同要素是，利用序列数据相对于参考序列的相关性。即使人群的体细胞特征极其多样化，人与人之间不同的核苷酸数量的实际部分也仅约占构成整个基因组的核苷酸总数的0.1％。因此，表征每个个体的特定基因组信息相对于整个基因组所携带的整个信息是非常有限的。当预先存在的参考基因组可用时，无论是用于先前的测序还是作为公开的“平均”共识参考，目前对信息进行编码的最常见方式是仅识别并编码相对于参考基因组的差异。

为了对通常以FASTQ数据文件形式表示的原始序列读段这样做，初步预处理步骤是在参考基因组上进行映射。倘若没有可用的适宜参考基因组，或者如果因使用特定参考而引入的偏差是不可取的，则借助将手头的序列读段组装成被称为重叠群的较长序列来构建新参考序列是可能的替代方案。

在整个本公开中，参考序列是与单维整数坐标系关联的核苷酸序列，其中对于单维整数坐标系，每个整数坐标与单个核苷酸关联。坐标值只能等于或大于零。在本发明的背景下，该坐标系是基于0的(即，第一个核苷酸具有坐标0，即就是所说的位于位置0处)并且是从左到右线性增加的。

当在参考序列上映射序列读段时，所述参考序列被用作其中最左侧位置被表示为位置0的单维坐标系的轴。对于被映射到参考序列的每个序列读段，被映射在由最小坐标数标识的参考序列位置处的核苷酸通常被称为“最左侧”核苷酸，而被映射在由最大坐标数标识的参考序列位置处的核苷酸被称为“最右侧”核苷酸。这在图8中有例示。在整个本公开中，核苷酸也称为碱基。

当序列读段被映射到参考序列时，最左侧映射的碱基的坐标被称为表示参考序列上的读段的映射位置。

在比对的读段中存在而在参考序列中不存在的碱基(又名插入)和通过比对处理保留而没有被映射在参考序列上的碱基(又名软剪切)没有映射位置。

当序列读段根据指定匹配规则不能被映射到所使用的参考序列的任何映射位置时，它被称为未映射的。

通过寻找序列读段中间的交叠区域来构建较长基因组序列的处理被称为组装。

组装较短读段而构建的较长基因组序列被称为重叠群(参见https://en.wikipedia.org/wiki/Contig)。

在组装处理期间无法构建任何重叠群的序列读段被称为未比对的。

参考基因组由一个或多个参考序列构成，并且由科学家组装为一组物种基因的代表性示例。例如GRCh37，基因组参考联盟人类基因组(版本37)来自纽约水牛城的十三名匿名志愿者。然而，参考序列也可以由设想的合成序列组成，并且仅被构建为基于进一步处理而提高读段的可压缩性。

在本公开中，构成具有映射在参考序列上的最小坐标上的碱基的读段对的读段被称为“读段1”，而其配对被称为“读段2”。

对由测序机器使用现有测序技术作为一对所生成的两个读段进行分离的距离，被表示为核苷酸(或碱基)的数量，是未知的，并且通过将构成该对(即，使适宜的匹配函数最小化)的两个读段映射到参考序列来确定该距离。

在整个本公开中，访问单元(AU)被定义为包含基因组信息或相关元数据的编码表示的逻辑数据结构，以便于比特流的访问和操纵。它是可以由实现本公开中描述的发明的解码装置所解码的最小数据组织。

根据编码的信息的类型，可以独立于任何其他AU或使用包含在其他AU中的信息来解码AU。

根据编码的序列数据的性质，可以将AU分类为多种类型。访问单元包含参考序列或其一部分，或者包含属于单个数据类的编码的读段或读段对。任何单个AU都不能包含两种或多种类型的序列数据。例如，访问单元可以包含基因组参考联盟人类基因组(版本37)、GRCh37的整个染色体1。另一个访问单元可以包含位于坐标50,000和15,0000之间的GRCh37的染色体1的核苷酸的编码的表示。另一个访问单元可以仅包含完全映射在参考序列上而没有任何错配的读段或读段对。另一个访问单元可以包含仅包含“N”符号作为相对于参考序列的错配的读段或读段对。另一个访问单元可以包含包含任何类型的替代(例如，读段或读段对中存在的一个碱基与参考序列中的对应映射位置处的碱基不同)的读段或读段对。另一个访问单元可以包含包含错配、插入、删除和软剪切碱基的读段或读段对。另一个访问单元可以仅包含没有映射在参考序列上的读段或读段对。另一个访问单元可以仅包含其中一个读段被映射而另一个未被映射在参考序列上的读段对。另一种类型的访问单元可以仅包含由一个或多个参考序列(例如，染色体)构成的参考基因组的编码的片段。

访问单元的基本特征在于，它以压缩形式包含重建序列读段或读段对的基因组信息、参考序列、关联比对信息以及读段或读段对的元数据所需的所有元素。换句话说，为了完全重建读段、或读段对、或参考序列以及访问单元所携带的关联信息，仅需要检索和解压缩访问单元本身，并且在适用时，解压包含访问单元所参考的参考序列的访问单元。

在每个访问单元中，下一段中列出的并且表示关于编码的读段或读段对的信息的描述符被聚合在单独数据块中，每种类型一个，以便利用它们的均质统计属性来实现高性能熵编码。

每个访问单元包含表示序列读段或读段对的压缩描述符子集，所述序列读段或读段对属于被映射到参考序列上的基因组区域的相同数据类。参考序列上的这种基因组区域由起始坐标(或起始位置)和结束坐标(或结束位置)定义。

在图6中例示了访问单元的示例。访问单元由如下一段中描述的编码的基因组描述符块构成。为了实现能够通过网络传送，块被进一步解压为数据包。当压缩基因组序列读段时，每个访问单元包含压缩的描述符，压缩的描述符表示被映射到参考序列上的基因组间隔的序列读段或未映射的序列读段。访问单元可以用于携带参考基因组或其部分。参考序列可以被编码为单个长核苷酸序列，或者被分成被编码为未映射的基因组序列读段的较短序列。

在本公开的背景下，基因组描述符是表示重建(即，解码)编码的参考序列、序列读段和关联映射信息所需的信息的部分的语法元素(还有文件格式和/或比特流的语法结构的元素)。

本发明中公开的基因组描述符在表1中列出。

表1.基因组描述符及其含义

根据本发明中公开的方法，使用上面列出的描述符的子集对参考序列或其部分、序列读段和关联的比对信息进行编码，然后根据每个描述符特定统计特性使用多个熵编码器对其进行熵编码。具有均质统计性能的压缩描述符块是在访问单元中构建的，访问单元表示可以由实现本公开中描述的发明的装置操纵的一个或多个基因组序列的最小编码表示。

本公开中描述的发明定义了采用基因组描述符表示用于比对基因组序列读段的参考序列的方法。使用特定熵编码器压缩此基因组描述符。然后，将压缩的描述符的块封装在包含压缩的基因组描述符的相同访问单元中，压缩的基因组描述符使得能够重建映射在所述参考序列上的序列读段，以便实现高效传送和选择性访问。

在一实施方式中，本原理涉及具有关联比对信息的基因组序列读段和用于比对的参考序列二者的无损压缩。通过以下步骤来获得高效压缩：通过合并或串联映射在参考序列的连续区域中的序列读段来构建被称为重叠群的较长序列，然后相对于所构建的重叠群执行序列读段的基于参考压缩。通过使用被称为“基因组描述符”的单独语法元素表示表征映射在参考序列上的基因组序列读段的所有特征来获得更好的压缩。SAM格式存储核苷酸序列和其他元数据的比对信息，诸如与碱基对关联的质量得分、在双端测序读段的情况下的配对信息等。根据本发明的原理，采用基因组描述符表示与映射或未映射的基因组序列读段关联的特征中的每个特征。相同类型的基因组描述符在使用不同熵编码器压缩的块中串联。必须理解的是，本发明并不压缩诸如CIGAR串、映射标志、核苷酸串或质量值串这样的SAM字段中的任一个，而是使用16个基因组描述符或其特定子集来表示相同类型的信息。对于SAM的11个必填字段而言，进/出SAM的往返转码和所呈现的格式是可能的。

现有技术的解决方案以压缩的FASTA文件的形式存储所组装的基因组，其中，每个参考序列(例如，染色体)被作为表示四个核苷酸的符号的序列进行存储。每个参考序列是被压缩并存储在数据库中的参考基因组(又名基因组装配)一部分。在不同时刻从属于相同生物体或个体的有机物质获得的几个基因组组装被存储，以代表其遗传历史。当基因组分析需要将基因组序列数据与现有参考基因组进行比较时，基因组分析应用对数据库执行查询，以检索感兴趣的一个或多个参考基因组并且执行基因组分析。

在一优选的实施方式中，本发明公开的原理可以被应用于实现嵌入压缩基因组序列数据中的参考基因组的集合的高效存储，而无需将压缩基因组作为单独的资源进行存储。取代将基因组组装作为来自于基因组序列数据的单独数据结构进行存储，本发明中公开的方法和原理允许仅仅将基因组序列数据与用于实现重建用于比对的基因组的相关联元数据一起存储。

基因组序列读段和参考序列的压缩表示

当已相对于预先存在或构建的参考序列映射了序列读段时，每个序列读段可以由本公开中表示为“基因组描述符”或简称为“描述符”的多个元素充分表示。

例如，在序列读段与参考序列的片段完全匹配的情况下，表示序列读段所需的唯一描述符子集由参考上的映射位置的坐标(通常，序列读段的最左侧碱基的映射位置的坐标)、序列读段本身的长度和表示读段是否相对于参考序列链正映射在正或反DNA链上的信息构成。

在不能够找到序列读段的所有碱基匹配参考序列的所有碱基的任何映射位置的情况下，保持错配数量最少的一个映射(或多个映射)。在这种情况下，需要不同的描述符子集来另外表示对应于错配数目最少或接近最少的映射位置出现的替代、插入、删除和剪切的碱基。利用这种描述符子集，可以使用描述符所携带的信息和参考序列所携带的信息来重建序列读段。

出于以下两个主要物理原因，基因组测序处理可以产生读段复制品(即，相同基因组序列的两个或更多个精确拷贝)：

·出现聚合酶链反应复制品，

·在数据采集处理中出现光学复制品。如果成对的读段二者在相同小区上，则读段被称为光学复制品，并且读段之间的距离小于根据实验的给定的配置参数。

映射处理还可以产生其他类型的信息，诸如：多个可能的映射位置和相关得分、映射质量、拼接的读段的规范、对属于一对的读段的两个不同参考(通常是染色体)的映射、测序处理的特征(例如，PCR或光学复制品)。所有这种信息都需要扩展每个子集的特定附加描述符，接着，通过针对描述符的每个子集应用适宜的熵编码算法来压缩每个子集。

因此，根据映射处理的结果，每个读段或读段对可以由特定的描述符子集唯一地表示。

根据匹配规则的序列读段的分类

通过所公开的发明，根据相对于一个或多个“预先存在的”参考序列进行比对的匹配结果，将通过测序机器产生的序列读段分为六个不同的“类”。

当将核苷酸的DNA序列相对于参考序列进行比对时，可以识别以下情况：

·发现参考序列中的区域没有任何误差地(即，完全映射)匹配序列读段。这种核苷酸序列被称为“完全匹配的读段”或者被表示为“P类”。

·发现参考序列中的区域在以仅由生成读段的测序机器不能够调用任何碱基(或核苷酸)的位置的数目确定的一定类型和数目的错配情况下与序列读段匹配。用“N”表示这种类型的错配，该字母用于表示未定义的核苷酸碱基。在该文献中，这种类型的错配被称为“n型”错配。这些序列属于“N类”读段。一旦读段被分类为属于“N类”，将错配不准确度限制在给定上限并且在有效匹配和不匹配之间设置边界是有用的。因此，还通过设置阈值(MAXN)来约束指派给N类的读段，阈值(MAXN)定义了读段所包含的未定义碱基(即，被称为“N”的碱基)的最大数目。这种分类隐含地定义了当参考对应的参考序列时属于N类的所有读段共享的所需的最小匹配精度(或最大错配程度)，构成了用于向压缩数据应用选择性数据搜索的有用标准。举例来说而非限制，一些分析应用可能要求映射的读段在被映射到参考基因组时仅包含被视为用于进一步分析的可接受候选的最多3个未确定的(“N”)碱基。利用诸如SAM/BAM这样的现有格式，处理管线必须解压整个数据集并且解析所有解压的记录，以在进行其他分析之前丢弃具有超过3个“N”符号的读段，而仅保留具有3个或不到3个“N”符号的读段。根据本原理的一方面，编码应用能够单独压缩具有3个或更少“N”符号的读段，使得处理管线可以解码和使用它们，而无需任何附加处理或存储。

·发现参考序列中的区域在以由生成读段的测序机器不能够调用任何核苷酸碱基(如果存在的话)的位置的数目加上已调用了与参考序列中存在的碱基不同的碱基的错配的数目确定的一定类型和数目的错配(即，“n型”错配)情况下与序列读段匹配。被表示为“替代”的这种类型的错配也被称为单核苷酸变异(SNV)或单核苷酸多态性(SNP)。在该文献中，这种类型的错配也被称为“s型”错配。然后，将序列读段称为“M错配读段”并且将其指派给“M类”。如同“N类”的情况中一样，对于属于“M类”的所有读段，将错配不准确度限于给定上限并且在有效匹配和不匹配之间设定边界是有用的。因此，也通过定义一组阈值来约束指派给M类的读段，其中一个阈值(MAXN)用于“n型”(如果存在的话)的错配的数目“n”，而另一个阈值(MAXS)用于替代的数目“s”。第三个约束是由数字“n”和“s”二者的任何函数f(n,s)定义的阈值。这种第三个约束使得能够根据任何有意义的选择性访问标准来生成具有匹配不准确度上限的类。例如，而非作为限制，f(n,s)可以是(n+s)1/2或(n+s)或任何线性或非线性表达式，该表达式为属于“M类”的读段所允许的最大匹配不精确水平设置边界。当出于各种目的而分析序列读段时，这种边界构成了对压缩数据实现复杂的选择性数据搜索的非常有力的标准。举例来说而非限制，它使得能够选择包含超过应用于一种类型或另一种类型的简单阈值的“n型”错配和“s型”错配(替代)的任何可能组合的压缩基因组读段。诸如SAM/BAM格式这样的现有解决方案本身并不支持选择具有相对于参考基因组的用户定义的错配数目的比对序列读段。选择相对于参考基因组具有至多“N”个替代的基因组序列读段将需要：

1.将整个BAM文件解压缩成文本SAM文件

2.使用被配置为选择所期望读段的文本解析器来解析经解码的SAM

这种方法将需要非常大的存储空间(SAM文本比BAM大约2.5倍)，并且对于30倍覆盖度，处理时间长达大约数小时。

根据当前原理的一方面，呈现任何用户定义数目的错配的基因组序列读段可以分别被压缩，以便可用于解压缩，而不需要解压缩整个数据集。

·第四类由测序读段构成，这些读段具有“插入”、“删除”(又称为Indels)和“剪切”以及(如果存在的话)属于N或M类的错配中的至少一种错配。这些序列被称为“I错配读段”并且被指派给“I类”。插入由参考序列中不存在但在读段序列中存在的一个或多个核苷酸的附加序列构成。在该文献中，这种类型的错配被称为“i型”错配。在该文献中，当被插入的序列处于序列边缘时，它也被称为“软剪切”(即，核苷酸与参考序列不匹配，但保留在与被丢弃的“硬剪切”核苷酸相反的比对读段中)。在该文献中，这种类型的错配被称为“c型”错配。删除是相对于参考的读段中的“空洞”(缺少核苷酸)。在该文献中，这种类型的错配被称为“d型”错配。与“N”和“M”类的情况一样，可以适宜地定义匹配不准确度的限制。对“I类”约束集的定义是基于与用于“M类”相同的原理，并且在表1中的最后一个表格线中做了报告。除了I类数据可允许的每种类型的错配的阈值之外，通过由错配“n”、“s”、“d”、“i”和“c”的数目的任何函数w(n,s,d,i,c)确定的阈值来定义其他约束。这种附加约束使得能够根据任何有意义的用户定义的选择性访问标准来生成具有匹配不准确度的上限的类。例如，而非作为限制，w(n,s,d,i,c)可以是(n+s+d+i+c)1/5或(n+s+d+i+c)或任何线性或非线性表达式，该表达式为属于“I类”的读段所允许的最大匹配不精确水平设置边界。当出于各种目的而分析序列读段时，这种边界构成了对压缩数据应用所期望的选择性数据搜索的非常有力的标准，因为它使得能够为超过应用于每种类型的可允许错配的简单阈值的“I类”读段中可允许的多个错配的任何可能组合设置其他边界。

·第五类包括在参照参考序列时对于每个数据类都没有找到任何被认为有效的映射的所有读段(即，不满足定义表1中指定的最大匹配不准确性的上限的匹配规则集)。这些序列当参照参考序列时被称为“未映射”，并且被归类为属于“U类”。

根据匹配规则的读段对的分类

前一部分中指定的分类涉及单个序列读段。在成对产生读段的测序技术(即，Illumina公司)(已知两个读段被可变长度的未知序列分开)的情况下，适宜地考虑将整个对归类为单个数据类。与另一个结合的读段被称为是其“配对”。

如果成对的读段二者属于相同类，则将整个对指派给一个类是显而易见的：整个对被指派给任何类(即，P、N、M、I、U)中的相同类。在两个读段属于不同类的情况下，但它们都不属于“U类”，则将整个对指派给具有根据以下表达式定义的最高优先级的类：

P<N<M<I

其中，“P类”具有最低优先级并且“I类”具有最高优先级。

如果读段中只有一个属于“U类”而其配对属于类P、N、M、I中的任一个，则第六类被定义为代表“半映射”的“HM类”。

这种特定类的读段的定义是由以下事实推动的：它用于试图确定参考基因组中存在的缺口或未知区域(又名几乎未知区域或未知区域)。使用可以映射在已知区域上的成对读段，通过在边缘处映射读段对来重建这些区域。然后，使用未映射的配对来构建未知区域的所谓“重叠群”，如图9中所示。因此，通过提供仅选择性访问这种类型的读段对，关联的计算负担大幅降低，从而与现有技术的解决方案需要全面检查相比，对于大量数据集产生的数据的处理更加高效。

下表总结了应用于读段的匹配规则，以便定义每个读段所属的数据类。依据是否存在错配类型(n、s、d、i和c类型错配)，在表的前五列中定义了规则。第六列提供了有关每个错配类型的最大阈值和可能错配类型的任何函数f(n,s)和w(n,s,d,i,c)的规则。

表2.本发明的公开中定义的每个序列读段必须满足以分类到数据类中的错配的类型和约束的集合

与现有技术的方法相比

诸如SAM和CRAM这样的常用方法没有根据表示它们的映射信息所需的特定描述符子集对读段或读段对进行编码。SAM和CRAM没有根据它们相对于它们被映射到的参考序列所包含的错配的数目和类型将序列读段归类为数据类。此外，这些格式没有将序列读段分别编码成仅以压缩形式包含属于单个数据类的序列读段的访问单元。在成对生成的序列读段的情况下，现有技术的方法没有根据它们相对于参考序列的映射精度将它们编码为分割成多类的单个元素。这种现有技术的方法的特征在于以下限制和缺点：

1.在没有将序列读段分类成单独数据类的情况下，根据映射结果与参考序列并且使用独特的描述符超级集对读段或读段对进行编码是产生差压缩性能的低效方法。

2.缺乏压缩数据的源建模以及使用诸如ZIP、GZIP、LZMA这样的通用压缩程序产生差的压缩比。

3.将读段对编码为单独的序列读段需要复制携带相同信息的许多描述符，诸如(例如)读段标识符(又名读段名称)，因此导致低效并且产生差的压缩性能。

4.重建读段对所需的信息检索是复杂且低效的，因为该处理需要在有可能整个数据集中进行强力顺序搜索，这在下一代测序(NGS)技术的情况下该数据集可能非常大。

5.选择性访问映射到特定基因组区域的读段或读段对需要搜索整个数据集，以保证所有读段或读段对都被检索。

当借助单个描述符子集对读段对进行编码时，对于本领域的技术人员而言，以下技术优点是显而易见的：

1.没有通过将一对编码为单个元素(例如，读段对标识符、映射距离、映射参考标识符、特定标志以SAM文件格式编码的各种映射质量信息)而对显然冗余的两个读段共用的信息进行复制。

2.相互配对信息的检索(即，提供哪个读段是手头任何读段的配对的信息)是直截了当的，并不需要任何进一步的处理。相反，在现有技术的方法中，可能需要解析整个数据量。

为了能够高效选择性访问测序数据的特定部分并且能够在数字数据网络上传送它们，用于表示与参考序列比对的序列读段的描述符的集合在逻辑上单独且独立的被称为访问单元(AU)的数据块中构建。每个访问单元仅包含单个数据类的压缩表示，并且可以独立于任何其他访问单元或仅使用携带用于映射的参考序列区域的编码表示的访问单元进行解码。这样使得能够有选择性访问和无序传输功能。

为了提高压缩效率，本发明不需要为其中两个读段都映射在相同参考序列上的每个读段对指定“映射参考标识符”描述符。每个访问单元都可以仅包含映射在所述相同参考序列上的读段或读段对。使用这种解决方案，表示参考序列标识符的描述符需要仅针对每个访问单元或访问单元的集合编码一次(并且对于每个读段不重复进行，如当前以SAM/BAM格式进行的)。

上述规则的唯一例外是映射在不同参考序列(例如，染色体)上的两个读段的读段对的情况。在这种情况下，读段对被分割，并且两个读段被编码为两个单独的基因组记录，并且每个编码的读段包含其配对被映射到的参考序列的标识符。

实验数据已证明，开发适于基因组描述符的统计特性的熵编码器相对于应用于异质数据集的通用压缩程序(例如，LZ类型算法)的使用提供了更好的压缩性能。因此，当借助特定的描述符子集成对地对基因组序列读段进行编码时，实现了更高的压缩，这归因于表征每个单独描述符子集的较低的熵和当重建和检索读段对时较高的处理效率。

在接下来的部分中描述了在由本发明中公开的方法提供的可实现压缩比方面的优点，其中，利用相关性能描述了熵编码之前应用于基因组描述符的不同块的不同二值化和变换。

用序列数据编码参考基因组

在一实施方式中，本原理涉及当执行比对序列数据的无参考压缩时针对诸如参考基因组或基因组组装等的参考序列的无损压缩。可以使用在本公开的表1中定义的从1至12的基因组描述符实现根据Voges,J.、Munderloh,M.、Ostermann,J.的“Predictive Codingof Aligned Next-Generation Sequencing Data”(2016年数据压缩会议(DCC))的比对序列数据的无参考压缩。Voges使用循环缓冲器逐步存储编码的序列读段，并且通过使用与每个比对序列关联的SAM CIGAR字符串构建相关的重叠群。虽然所提到的这种方法可以实现映射在参考序列100上的基因组测序数据101的高效压缩，但是它不支持参考序列100本身的表示和压缩，因为解码引擎将仅能够重建重叠群和压缩的的基因组序列读段，但是用于比对的原始参考基因组未被包含在压缩数据中。本公开旨在使用表1中的基因组描述符第13号和第14号来实现当无参考压缩被应用于基因组序列数据时用于比对的参考基因组的高效压缩。这是通过将压缩处理期间组装的重叠群和用于比对的参考基因组之间的差异存储在压缩数据中来实现的。在解码端，解码处理将重建用于基因组序列读段解压缩的重叠群，并且-借助描述符13和14-它将能够重建出用于比对的参考基因组。

图1示出比对序列读段101如何用于构建称为重叠群的较长序列102以用于执行基于参考的压缩。重叠群是通过按参考基因组上的每个位置选择核苷酸来组装的，该核苷酸是在该位置处的比对读段中出现频率最高的核苷酸。如果这种核苷酸与参考序列中的相同，则视为“匹配”，否则，如果不同，则视为“错配”。另外，这在Voges方法中是不可能的，其中由于预定义的设计选择，需要在缓冲器必须先验地固定。

此外，在本发明中，重叠群的长度可以由用户定义(例如，在输入参数文件中)或由编码器动态更新。关于重叠群长度的信息可以以文件格式所包含的数据结构从编码器发送到解码器，该文件格式用于存储或发送诸如表中示出的信息这样压缩的的基因组信息。这种新特性具有相当大的优势，即，其可以由参数定义，可以适于各种编码器和解码器架构及其相关限制，并且还适于将用于编码和解码基因组序列的各种架构的演进以及要被编码序列的计算复杂性。

可以凭借编码和解码处理中使用的核苷酸的数目和/或读段的数目二者表示重叠群长度。在图中示出了该处理。

另外，图2示出了如何使用表1中的第13号和第14号描述符来编码参考序列200与重叠群210之间的所述“错配”(202)。对这些描述符进行熵编码并且将它们封装在包含用于压缩比对序列读段的描述符的相同访问单元中使得能够在解码装置处重建用于比对的参考基因组。

在本发明的另一个实施方式中，用于比对的参考基因组中的未被映射读段中的任一个覆盖的区域可以被压缩(即，熵编码)、封装和携带在特定访问单元中。这些访问单元仅包含用于比对的参考基因组的压缩表示，并且覆盖未映射序列读段的基因组区域。在图11中示出了用于比对的参考基因组中的、但上面却没有映射读段的区域被编码在特定访问单元中。这种发明的技术优点在于，有可能在解码端处完全重建用于比对的参考基因组，而不需要存储与整个参考基因组的量对应的数据量。

相对于这里引用的Voges等人的解决方案，这种方法的技术优势如下：

1.用于比对的参考基因组可以用于解码装置处，而无需任何附加数据的带外传输(例如，压缩的的基因组或对外部存储库的任何其他参考)。

2.可以在解码装置处以与每个访问单元所覆盖的基因组区域相等的粒度选择性重建参考基因组。可以利用随机访问机制访问参考基因组的部分区域。这使得相对于需要对构成人类参考基因组的整个32亿个核苷酸进行解压缩和操纵的现有解决方案能够进行更高效的数据处理，即使分析限于小得多的基因组区域。

3.当用于比对的参考基因组属于与压缩的序列数据所属的相同个体时，本发明中公开的rftp和rftt描述符可以被基因组分析管线用作压缩序列数据中的新单核苷酸多态性(又名SNP，参见https://en.wikipedia.org/wiki/Single-nucleotide_polymorphism)的指示符。必须理解-在非常高(超过30倍)的覆盖度内-在无参考压缩处理期间构建的重叠群102可以被视为个体基因组的新组装。当将重叠群与先前获得的属于相同个体的参考基因组100进行比较时，所发现的差异是可能存在单核苷酸多态性(又名SNP，参见https://en.wikipedia.org/wiki/Single-nucleotide_polymorphism)的指示。

对基因组描述符的熵编码

本公开中定义的基因组描述符的子集用于表示属于根据本发明的原理定义的六个类的基因组数据。图6和图7示出映射在参考序列的连续区域中的基因组序列读段由封装在一个访问单元中的基因组描述符块表示。使用专门针对每个描述符的统计特性定制的不同熵编码器对所述描述符块进行熵编码。这种方法提供了比诸如SAM/BAM或CRAM这样的其他方法更好的压缩比，因为每个基因组描述符块代表可以比SAM或CRAM记录更高效地建模的信息源。SAM和CRAM记录是与本公开中定义的基因组描述符不具有相同统计特性的异质元素的组。

与用于所述描述符的熵编码器的必要配置参数一起应用于描述符的变换和二值化提供比现有技术的解决方案更好的压缩比，并且在本发明中如以下报告地公开。

描述符的转换

描述符的变换是以下的处理：表示基因组序列内的错配位置或错配类型这样的基因组特征的描述符值按不同的对应值变换，以便实现更好的压缩性能。在实施方式中，根据本公开的原理，根据以下步骤变换用rftp描述符表示的错配位置：

1.对转换处理的输入是错配的位置，这些位置被表示为从序列读段的第一个核苷酸起的核苷酸之间的距离。具体在图2中示出，其中，组装的重叠群相对于参考序列的四个错配203处于位置4、6、10和13处。

2.然后，将每个绝对位置转换成相对于先前错配的不同位置。第一错配保持相同的值。然后，将这四个位置值转换成4、2、4、3。这些值是下述rftp描述符的二值化处理的输入。

在一实施方式中，根据本公开的原理，根据以下步骤变换用rftt描述符表示的错配类型：

1.转换处理的输入是被表示为核苷酸符号的错配类型。这在图2中示出，其中，组装的重叠群相对于参考序列的四个错配204属于类型A、A、G、A。

2.然后，将每个核苷酸转换为整数值，该整数值表示包含所有可能符号的向量209中核苷酸的位置。这在图10中示出。然后，将这四种错配类型转换成0、0、2、0。这些值是下述rftt描述符的二值化处理的输入。

描述符的二值化

在实施方式中，本发明使用上下文自适应二进制算术编码(CABAC)来压缩基因组描述符。首先，CABAC将所有要被编码符号转换成二进制表示。二值化处理在算术编码之前将非二进制值符号(例如，映射位置、映射的读段长度或错配类型)转换成二进制代码。

选择适于每个描述符的统计特性的适当二值化提供了比基于应用于异质元素块的通用压缩程序的现有格式更好的压缩比。

在以下部分中，定义了这些变量：

·symVal：要被二值化基因组描述符的非二进制值。

·cLength：表示值被二值化的比特的数目。

·cMax：是要被二值化的最大可能值。较大的值将被截断。

虽然针对这些变量的固定值计算以下二值化表，但是必须理解，本发明原理不限于这些值，因此也可以在保持本发明原理精神的同时按照本发明原理使用其他值。

如表3所示，采用标识符来识别本公开中使用的每个二值化算法。

表3.二值化的类型和相应的标识符

二进制编码(BI)

这是标准二进制表示，通过该标准二进制表示，每个数值以其二进制表示进行编码。当binarization_id＝0时在表15中示出的变量cLength表示被表示的值的比特的数目。

截断一元(TU)二值化

TU二进制字符串是symVal的一些1之后跟一个0的串联。如果symVal＝＝cMax，则丢弃尾随的0比特。表4例示了cMax＝3时这个截断一元二值化的二进制字符串字符串。

表4.截断一元二值化的二进制字符串，其中，cMax＝3

下面描述该二值化处理的语法以及算术解码。

binValue是二值化值，可以要么是0要么是1。

指数哥伦布(EG)二值化

使用这种技术被二值化的基因组描述符的解析处理先开始读取从比特流中的当前位置开始直到并包括第一非零比特的比特，并且对等于0的前导比特的数目进行计数。

如下地指定该处理：

然后，如下地指定变量symVal：

其中，函数调用读段比特从存储介质中读取作为输入经过的参数相等的多个比特。从read_bits(leadingZeroBits)返回的值被解释为无符号整数的二进制表示，其中，最高位被先写入。

表5通过将比特串分成“前缀”和“后缀”比特来例示指数哥伦布代码的结构。“前缀”比特为了计算leadingZeroBits而按照以上所述进行解析的比特，并且其在表5的比特串列中被示出为0或1。“后缀”比特是在计算symVal时解析的那些比特，其在表5中被示出为x_i，其中，i在0至leadingZeroBits-1(包括1)的范围内。每个x_i等于0或1。

比特串形式	symVal的范围
		1	0
0 1 x₀	1..2
		0 0 1 x₁ x₀	3..6
0 0 0 1 x₂ x₁ x₀	7..14
		0 0 0 0 1 x₃ x₂ x₁ x₀	15..30
0 0 0 0 0 1 x₄ x₃ x₂ x₁ x₀	31..62
		...	...

表5.从0到62的symVal值的二进制表示

表6例示了比特串到symVal值的明确赋值。

表6.显式形式的指数哥伦布比特串和symVal

根据基因组描述符，使用以下方法之一对二值化语法元素的值进行解码：

1.解码的基因组描述符的值等于与二值化描述符对应的symVal值。

2.通过以symVal为输入应用如例如https://en.wikipedia.org/wiki/Exponential-Golomb_coding中定义的有符号的0阶指数哥伦布解码来计算解码的基因组描述符的值。

有符号的指数哥伦布(SEG)二值化

根据这种二值化方法，通过以升序将语法元素按其绝对值排序并且用较小symVal表示给定绝对值的正值来将基因组描述符与symVal关联。表7示出赋值规则。

symVal	语法元素值
		0	0
1	1
		2	-1
3	2
		4	-2
5	3
		6	-3
k	(-1)^k+1Ceil(k÷2)

表7.将语法元素赋值给有符号的指数哥伦布编码的基因组描述符的symVal截断指数哥伦布(TEG)二值化

该二值化处理需要使用附加输入参数tegParam以定义如何计算二值化。

该处理的输出是语法元素的TEG二值化。

TEG二进制字符串是二值化的1(在symVal＝＝0的情况下)或2(在symVal>0的情况下)类型的串联。

1.cMax＝tegParam时，对下列值的截断一元二值化

Min(symVal,tegParam)

2.如果symVal！＝0，针对下列值的指数哥伦布二值化

Abs(symVal)-tegParam

表8例示了tegParam＝＝2时这个截断指数哥伦布二值化的二进制字符串。

表8.tegParam＝＝2时截断指数哥伦布二值化的二进制字符串

有符号的截断指数哥伦布(STEG)二值化

该二值化处理需要使用附加输入参数stegParam。

STEG二进制字符串是1(在symVal＝＝0的情况下)或2(对于其他情况)种二值化的串联：

1.针对Abs(symVal)的截断指数哥伦布二值化

2.如果symVal！＝0，则1比特标志等于1(如果symVal<0)或等于0(如果symVal>0)。

表9例示了tegParam＝2时该有符号的截断指数哥伦布二值化的二进制字符串。

表9.tegParam＝＝2时有符号的截断指数哥伦布二值化的二进制字符串

分割单元式截断一元(SUTU)二值化

该二值化处理需要使用两个输入参数splitUnitSize和outputSymSize。outputSymSize必须始终是splitUnitSize的倍数。

SUTU二进制字符串是重复的TU二值化的串联，其中，每个TU二值化被应用于symVal的为splitUnitSize比特长的部分。换句话说，通过用TU二值化获得的x二进制字符串表示symVal，其中，x＝outputSymSize/splitUnitSize。每个二进制字符串的cMax参数被定义为cMax＝(1<<splitUnitSize)–1。

表10例示了splitUnitSize＝2且outputSymbSize＝8时的分割单元式截断一元二值化的二进制字符串。

表10.splitUnitSize＝2、outputSymSize＝8时的分割单元式截断一元二值化的二进制字符串

下面描述该二值化处理的比特流语法。

表11.用于TU二值化的CABAC解码处理。

有符号的分割单元式截断一元(SSUTU)二值化

该二值化处理需要使用两个输入参数splitUnitSize和outputSymSize。

通过用被编码为单独标志的symVal的符号扩展SUTU二值化处理来获得SSUTU二进制字符串。

·值Abs(symVal)的SUTU二值化

·如果symVal！＝0，则1比特标志等于1(如果symVal<0)或等于0(如果symVal>0)。

表12例示了splitUnitSize＝2、outputSymbSize＝8时的有符号的分割单位式截断一元二值化的二进制字符串。

表12.splitUnitSize＝2、outputSymSize＝8时的有符号的分割单元式截断一元二值化的二进制字符串

下面描述该二值化处理的语法。

sign_flag表示由ctxIdx标识的上下文变量上的比特的cabac解码。

decode_cabac_SUTU()表示SUTU二值化的cabac解码处理。

双截断一元(DTU)二值化

DTU二进制字符串是两个二值化即TU二值化和SUTU二值化的串联。参数cMax用于TU二值化，并且参数splitUnitSize和outputSymSize用于SUTU二值化(其中在内部导出其cMax)。

·值Min(Abs(symVal),cMax)的TU二值化的第一实例。

·如果Abs(symVal)>cMax，值Abs(symVal)–cMax的SUTU二值化的第二实例。

表13例示了cMax＝1、splitUnitSize＝2、outputSymSize＝8时的双截断一元二值化的二进制字符串。

表13cMax＝1、splitUnitSize＝2、outputSymSize＝8时的双截断一元二值化的二进制字符串

下面描述该二值化处理。

decode_cabac_TU()表示TU二值化的cabac解码处理。

decode_cabac_SUTU()表示SUTU二值化的cabac解码处理。

有符号的双截断一元(SDTU)二值化

该二值化处理需要使用两个附加输入参数splitUnitSize和outputSymSize。

通过被编码为标志的symVal的符号扩展SUTU二值化处理来获得SDTU二进制字符串。

·值Abs(symVal)的DTU二值化

表14例示了cMax＝1、splitUnitSize＝2、outputSymSize＝8时的双截断一元二值化的二进制字符串。

表14.cMax＝1、splitUnitSize＝2、outputSymSize＝8时的有符号的双截断一元二值化的二进制字符串

下面描述该二值化处理的语法。

/>

sign_flag表示由ctxIdx标识的上下文变量上的比特的cabac解码。

decode_cabac_SUTU()表示通过DTU二值化的cabac解码。

二值化参数

在先前部分中介绍的每个二值化算法都需要在编码端和解码端处的配置参数。在实施方式中，所述配置参数被封装在表15中描述的数据结构中。由如表3中列出的标识符来识别每个二值化算法。

二值化ID	参数
		0	cLength
1	cMax
		2	-
3	-
		4	tegParam
5	stegParam
		6	splitUnitSize，outputSymSize
7	splitUnitSize，outputSymSize
		8	cMax,splitUnitSize,outputSymSize
9	cMaxsplitUnitSize,outputSymSize

表15.二值化参数结构

在表15中，以下语义适用：

cMax表示要被二值化的最大值。较大的值将被截断。

cLength表示值被二值化的比特的数目。

tegParam表示本文献中的为TEG二值化定义的tegParam变量。

stegParam表示本文献中的为STEG二值化定义的tegParam变量。

splitUnitSize表示本文献中的为SUTU、SSUTU和DTU二值化定义的splitUnitSize变量。

outputSymSize表示本文献中的为SUTU、SSUTU、DTU和SDTU二值化定义的outputSymSize变量。

本发明的技术优点的证据

如表16所示，通过向相应的基因组描述符应用所指示的CABAC二值化，可以获得表17中报告的压缩性能。通过与BAM和CRAM方法的对应文件大小和文献中被称为DeeZ(参见Numanagic,I.等人的“Comparison of high-throughput sequencing data compressiontools”，Nature Methods(ISSN:1548-7091)第13卷第1005-1008页，英国：NaturePublishing Group，2016)的最佳压缩程序之一进行比较，可以理解本公开中描述的方法的压缩性能的改进。必须要理解，通过将用于比对的压缩的参考基因组的大小添加到压缩的基因组序列数据的大小来计算DeeZ、BAM和CRAM压缩性能。根据本公开的原理，参考基因组被嵌入在压缩文件中。在现今的实践中，所述压缩的参考基因组是使用诸如GZIP、LZMA、Bzip2这样的通用压缩程序而压缩的FASTA(ASCII文本)文件。在所提议的比较中，使用xzLinux命令并利用最大压缩(-9)选项来压缩参考基因组hs37d5.fa。

表16.与每个基因组描述符关联的二值化

应用于描述符rftp和rftt的二值化

在该部分中提供了并且在图10中例示了rftp和rftt的二值化的示例。

与重叠群与用于比对的参考基因组之间的五个错配关联的描述符如下所示：

rftp	5	7	12	13	15
						rftt	C	T	T	C	A

每个核苷酸符号与整数代码关联：

核苷酸	代码
		A	0
C	1
		G	2
T	3
		N	4

在转换之后，值变为：

rftp	5	2	5	1	2
						rftt	1	3	3	1	0

如下计算rftp的二值化值：

1.终止符值可以被二值化为0或1。这里，对于该示例，选择0。

2.如果终止符＝0，则使用splitUnitSize＝4、outputSymbolSize＝12的二值化第6号，并且将以下的二进制字符串与rftp的值关联

a.5＝11110

b.2＝110

c.5＝11110

d.1＝10

e.2＝110

如下计算rftt的二值化值：

1.在已知参考基因组中存在的核苷酸的情况下，从要被编码的可能符号中去除对应的符号。即，对于该示例的第一个错配，如果参考中的对应符号为“G”，则要被编码的可能符号的空间为0、1、3、4。

2.测量要被编码数据上的错配类型的符号的频率，并且从0至3进行索引。索引0受最频繁的错配影响并且索引3受不太频繁的错配影响。在该示例中，索引可以是：{0＝>3,1＝>0,2＝>4,3＝>1}

3.在给定的示例中，使用TU二值化将五个错配二值化为：

符号	索引	cMax＝3时的TU二值化
			1	3	111
3	0	0
			3	0	0
1	3	0
			0	1	10

利用以上示出的二值化方法，实现以下的压缩结果：

*根据本公开的原理，不需要附加信息，因为其在压缩表示中已可用。

表17.相对于现有技术解决方案的压缩性能(以字节为单位的大小)

编码参数

在实施方式中，对每个访问单元进行编码和解码所需的参数被封装在如表18中定义地命名的数据结构中。

/>

表18.用于基因组描述符的编码参数

编码设备

图3示出了根据本发明的原理的编码设备。编码设备接收例如由基因组测序装置产生的参考基因组302和未比对的基因组序列300作为输入。基因组测序设备是本领域中已知的，如Illumina HiSeq 2500、Thermo-Fisher Ion Torrent装置或Oxford NanoporeMinION。未比对的序列数据300被馈送到读段比对单元301，读段比对单元30将序列映射在参考基因组302上。然后，组装设备304使用比对的基因组序列303来构建一个或多个重叠群305。可以通过诸如重叠群长度或用于构建每个重叠群的序列读段的数目这样的编码参数313来配置重叠群的构建。然后，使用所构建的重叠群305对比对的基因组序列303执行基于参考的压缩。基于参考的压缩程序306生成表示映射和未映射的基因组序列二者的名为描述符的语法元素。用于比对的参考基因组302和所构建的重叠群305被馈送到参考基因组差异编码设备307，参考基因组差异编码设备30产生表示参考基因组302与重叠群305之间的错配的位置和类型的描述符。由基于参考的压缩程序306和参考基因组差异编码器307生成的基因组描述符308首先被几个二值化单元312二值化，然后由几个熵编码器309进行熵编码。然后，将熵编码的基因组描述符馈送到复用设备310，以构建构成压缩比特流311的一个或多个访问单元。复用的比特流也包含由编码参数编码器314构建的编码参数结构313。每个访问单元包含表示比对信息的熵编码描述符和属于本公开中定义的一类数据的序列读段。

解码设备

图4示出了根据本公开的原理的解码设备。多路分解单元401从网络或存储元件接收复用比特流400，并且提取构成所述比特流的访问单元的熵编码的有效载荷。熵解码器402接收所提取的有效载荷，并且将不同类型的基因组描述符解码成它们的二进制表示。然后，将所述二进制表示馈送到几个二进制解码器410，二进制解码器410生成基因组描述符403和409。编码参数解码器411接收通过基因组信息复用的编码参数，并且将它们馈送到负责构建用于序列读段解码的重叠群的单元404。将表示基因组序列读段409的基因组描述符馈送到序列读段重建单元404，序列读段重建单元404构建一个或多个重叠群405作为解码处理的部分，并且重建比对的基因组序列407。然后，将重叠群405和表示重叠群与用于比对的参考基因组之间差异的熵编码的描述符403馈送到参考基因组重建单元406，参考基因组重建单元406重建用于比对的参考基因组408。

这里公开的创造性技术可以用硬件、软件、固件或其任何组合来实现。当用软件实现时，这些可以被存储在计算机介质上并由硬件处理单元执行。硬件处理单元可以包括一个或多个处理器、数字信号处理器、通用微处理器、专用集成电路或其他分立逻辑电路。

本公开的技术可以在包括移动电话、台式计算机、服务器、平板和类似装置的各种装置或设备中实现。

Claims

1.一种用于编码包括核苷酸序列的读段的比对的基因组序列数据的计算机实施的方法，其特征在于，所述方法包括以下步骤：

·将要被编码的所述比对的读段映射到所述一个或多个参考序列上，

·组装所述比对的读段，由此产生重叠群，

·比较所述一个或多个参考序列和所述重叠群，由此获得与所述一个或多个参考序列和所述重叠群之间的错配位置和错配类型相关的信息，

·对与所述错配位置和所述错配类型相关的所述信息进行熵编码，并且

其中，分别使用第一描述符(203)和第二描述符(204)来指示与所述错配位置和所述错配类型相关的所述信息，并且所述第一描述符和所述第二描述符被封装在相同的访问单元中，以便能够在解码设备处选择性重建用于比对的所述一个或多个参考序列。

2.根据权利要求1所述的方法，其特征在于，组装所述比对的读段包括以下步骤：针对所述一个或多个参考序列上的每个位置，选择在所述位置处的所述比对的读段中出现频率最高的核苷酸。

3.根据权利要求1所述的方法，其特征在于，所述重叠群的长度被定义为所述编码器的输入参数或者由所述编码器动态调整。

4.根据权利要求3所述的方法，其特征在于，使用分割单元式截断一元二值化将所述第一描述符二值化，其中，所述分割单元式截断一元是重复的截断一元二值化的串联，其中，每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分，其中，N是预先选择的参数。

5.根据权利要求3所述的方法，其特征在于，使用截断一元二值化将所述第二描述符二值化，其中，所述第二描述符的值后跟着零，并且如果所述值等于要被二值化的最大可能值，则丢弃尾随的0比特。

6.根据权利要求3所述的方法，其特征在于，所述方法不对表示特定参考基因组的使用的信息进行编码。

7.根据权利要求4所述的方法，其特征在于，所述重叠群的所述长度被包含在语法报头中。

8.一种用于编码基因组序列数据的设备，其特征在于，所述基因组序列数据包括核苷酸序列的读段，所述设备包括用于以下步骤的装置：

·组装所述比对的读段，由此产生重叠群，

9.根据权利要求8所述的设备，其特征在于，用于组装所述比对的读段的所述装置还包括用于针对所述参考序列上的每个位置，选择在所述位置处的所述比对的读段中出现频率最高的核苷酸的装置。

10.根据权利要求8所述的设备，其特征在于，所述设备还包括接收所述重叠群的长度作为输入参数的装置和用于动态调整所述重叠群的长度的装置。

11.根据权利要求10所述的设备，其特征在于，所述设备还包括用于采用分割单元式截断一元二值化将所述第一描述符二值化的二值化装置，其中，所述分割单元式截断一元是重复的截断一元二值化的串联，其中，每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分，其中，N是预先选择的参数。

12.根据权利要求10所述的设备，其特征在于，所述设备还包括用于采用截断一元二值化将所述第二描述符二值化的二值化装置，其中，所述第二描述符的值后跟着零，并且如果所述值等于要被二值化的最大可能值，则丢弃尾随的0比特。

13.根据权利要求12所述的设备，其特征在于，所述设备还包括用于对在语法报头中的所述重叠群的所述长度进行编码的装置。

14.一种用于解码编码的基因组序列数据的计算机实施的方法，其特征在于，所述方法包括以下步骤：

解析编码的输入文件，以获得基因组数据的访问单元，

对重叠群中与错配位置和错配类型相关的信息进行熵解码，以及

通过采用与所述错配位置和所述错配类型相关的所述信息来修改所述重叠群，由此获得在压缩之前用于比对的一个或多个参考序列和进一步信息(403)以重建所述参考基因组，

其中，通过采用与所述错配位置和所述错配类型相关的所述信息来修改所述重叠群，由此获得所述一个或多个参考序列，还包括对第一描述符(203)和第二描述符(204)进行熵解码，

并且所述方法还包括从相同的访问单元解封装所述第一描述符和所述第二描述符，以便获得对所述一个或多个参考序列的选择性重建。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括从被包含在所述输入文件中的语法报头中解码所述重叠群的长度。

16.根据权利要求14所述的方法，其特征在于，所述方法还包括对所述第一描述符进行逆二值化，其中，使用分割单元式截断一元二值化将所述第一描述符二值化，其中，所述分割单元式截断一元是重复的截断一元二值化的串联，其中，每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分，其中，N是预先选择的参数。

17.根据权利要求14所述的方法，其特征在于，所述方法还包括对所述第二描述符进行逆二值化，其中，使用截断一元二值化将所述第二描述符二值化，其中，所述第二描述符的值后跟着零，并且如果所述值等于要被二值化的最大可能值，则丢弃尾随的0比特。

18.根据权利要求14所述的方法，其特征在于，所述输入文件不包含表示特定参考基因组的使用的信息。

19.一种用于解码编码的基因组序列数据的设备，其特征在于，所述设备包括用于以下步骤的装置：

解析编码的输入文件，以获得基因组数据的访问单元，

通过采用与所述错配位置和所述错配类型相关的所述信息来修改所述重叠群，由此获得在压缩之前用于比对的一个或多个参考序列，

其中，用于通过采用与所述错配位置和所述错配类型相关的所述信息来修改所述重叠群，由此获得所述一个或多个参考序列的所述装置，还包括用于对第一描述符(203)和第二描述符(204)进行熵解码的装置，

并且所述设备还包括用于从相同的访问单元解封装所述第一描述符和所述第二描述符以便获得对所述一个或多个参考序列的选择性重建的装置。

20.根据权利要求19所述的设备，其特征在于，所述设备还包括用于从被包含在所述输入文件中的语法报头中解码与所述重叠群的长度相关的信息的装置。

21.根据权利要求19所述的设备，其特征在于，所述设备还包括用于对所述第一描述符进行逆二值化的装置，其中，使用分割单元式截断一元二值化将所述第一描述符二值化，其中，所述分割单元式截断一元是重复的截断一元二值化的串联，其中，每个截断一元二值化被应用于要被二值化的值中的长度为N比特的部分，其中，N是预先选择的参数。

22.根据权利要求19所述的设备，其特征在于，所述设备还包括用于对所述第二描述符进行逆二值化的装置，其中，使用截断一元二值化将所述第二描述符二值化，其中，所述第二描述符的值后跟着零，并且如果所述值等于要被二值化的最大可能值，则丢弃尾随的0比特。