CN110168649A

CN110168649A - 用于生物信息数据的紧凑表示的方法和设备

Info

Publication number: CN110168649A
Application number: CN201680090052.XA
Authority: CN
Inventors: 乔吉奥·索亚; 丹尼尔·伦齐
Original assignee: Jerome Heath Stock Co
Current assignee: Jerome Heath Stock Co; Genomsys SA
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2019-08-23
Also published as: CL2019000957A1; US20200051664A1; KR20190071741A; HUE062006T2; EP4235680A3; PH12019500793A1; JP2020503580A; SG11201903177PA; ES2947521T3; BR112019007315A2; EP3526711B1; IL265906A; EP4235680A2; EA201990935A1; ZA201902786B; PL3526711T3; EA201990922A1; MX2019004124A; FI3526711T3; SA519401514B1

Abstract

用于压缩由基因组测序仪产生的基因组序列数据的方法和设备。将核苷酸序列与一个或多个参考序列进行比对，根据匹配准确度对核苷酸序列进行分类，以及对于所述数据被分区的每个层使用不同的源模型和熵编码器将核苷酸序列编码为多个语法元素层。

Description

用于生物信息数据的紧凑表示的方法和设备

技术领域

本公开提供了一种表示基因组测序数据的新方法，其通过提供已知的现有技术的表示方法不可获得的新功能来减少所利用的存储空间并提高访问性能。

背景技术

基因组测序数据的适当表示对于实现有效的基因组分析应用，诸如基因组变体读出和通过处理测序数据和元数据以各种目的执行的所有其他分析来说是很重要的。

高通量低成本测序技术的出现使人类基因组测序变得可以负担得起。这样的机会在从癌症的诊断和治疗到遗传疾病的识别，从用于识别抗体的病原体监测到新疫苗、药物的产生和个性化治疗的定制几个领域中开辟了新的视角。

医院、基因组分析提供商、生物信息学和大型生物数据存储中心正在寻找可负担、快速、可靠和互连的基因组信息处理解决方案，其使得基因组医学能够扩展到世界范围。由于测序过程中的瓶颈之一是数据存储，因此越来越多地研究用于以压缩形式表示基因组测序数据的方法。

测序数据的最常用的基因组信息表示基于压缩FASTQ和SAM格式。目的是压缩传统使用的文件格式(分别是用于未比对和比对数据的FASTQ和SAM)。这种文件由纯文本字符构成，并且如上所述，通过使用通用方法，诸如LZ(来自Lempel和Ziv，其是发布第一版本的作者)的方案(众所周知的zip、gzip等)来进行压缩。当使用通用压缩器，诸如gzip时，压缩结果通常是单个二进制数据的二进制大型对象。这种整体形式的信息导致很难进行归档、传输和详细描述，特别是当在高通量测序的情况下，数据量非常大。BAM格式的特征在于由于其侧重于压缩低效和冗余的SAM格式，而不是提取SAM文件传达的实际基因组信息，以及由于采用了通用的文本压缩算法，诸如gzip，而不是利用每个数据源(基因组数据本身)的具体性质，其压缩性能较差。

与BAM相比，一种更复杂的使用较少但却更有效的基因组数据压缩的方法是CRAM。相对于现有参考而言，CRAM为采用差分编码提供了更有效的压缩(其部分利用了数据源冗余)，但其仍然缺乏诸如增量更新、支持流化以及选择性访问具体类别的压缩数据的特征。

这些方法产生较差的压缩比和数据结构，一旦被压缩就难以进行浏览和操作。由于必须处理大且刚性的数据结构甚至执行简单操作或访问基因组数据集的选定区域，因此下游分析可能非常缓慢。CRAM依赖于CRAM记录的概念。每个CRAM记录通过编码重建其所需的所有元素来编码单个映射或未映射的读段(reads)。

CRAM具有下列缺点：

1.对于CRAM而言，数据索引超出了规范的范围(参见CRAM规范v3.0的第12节)，且其是作为单独文件实现的。相反地，本文件中描述的本发明的方法采用与编码过程相集成的数据索引方法，且索引被嵌入编码的比特流中。

2.在CRAM中，所有核心数据块可以包含任何类型的映射读段(完全匹配的读段、仅具有取代的读段、具有插入或缺失的读段(也称为“插入缺失”))。根据相对于参考序列的映射结果，没有对类别中的读段进行分类和分组的概念。

3.在本发明中，没有封装每个读段的记录的概念，这是因为重建每个读段所需的数据分散在称为“层”的几个数据容器中。这使得能够更有效地访问具有具体生物学特征的读段集(例如，具有取代，但却没有“插入缺失”的读段，或完全映射的读段)，而无需编码每个读段(块)以检查其特征。

4.在CRAM记录中，每种类型的数据由具体标志表示。在本发明中，没有表示数据的标志的概念，这是因为这本质上是由数据所属的“层”定义的。这意味着要使用的符号数量大大减少，并且随后减少信息源熵，这导致了更有效的压缩。这是因为使用不同的“层”使得编码器能够在具有不同含义的每个层上重复使用相同的符号。在CRAM中，每个标志必须始终具有相同的含义，这是因为没有上下文的概念，并且每个CRAM记录可以包含任何类型的数据。

5.在CRAM取代中，插入和缺失根据不同的语法进行表达，而所提出的方法则使用单个字母表和编码进行替代、插入和缺失。这使得编码和解码过程更简单并且产生更低的熵源模型，其编码产生了高压缩比特流。

本发明旨在通过组织和分割数据来压缩基因组序列，以使得待编码的冗余信息最小化且启用诸如选择性访问和支持增量更新的特征。

所提出的方法的各方面中的一个是定义要分别编码和在不同层中进行构造的数据和元数据的类别。相对于现有方法而言，这种方法最重要的改进在于：

1.由于减少了通过为每类数据或元数据提供有效模型而构造的信息源熵，提高了压缩性能；

2.出于进一步处理的目的，对压缩数据和元数据的部分执行选择性访问的提供了可能性；

3.对逐步(不需要重新编码)用新的测序数据和/或元数据和/或新的分析结果更新编码数据和元数据的提供了可能性。

附图说明

图1显示了映射读段对的位置如何在pos层中被编码成不同于第一映射读段的绝对位置的差值。

图2显示了一对的两个读段是如何来自两个DNA链的。

图3显示了如果使用链1作为参考，将如何编码读段2的反向互补。

图4显示了组成读段对的读段的四种可能组合以及在rcomp层中的相应编码。

图5显示了在三个读段对的恒定读段长度的情况下如何计算配对距离。

图6显示了在对层中编码的配对错误如何使得解码器能够使用编码的MPPPD重建正确的读段配对。

图7显示了当读段映射在差值参考而不是其配合物上时配对距离的编码。在这种情况下，将额外描述符添加到配对距离。一个是信令标志，第二个是参考标识符，然后是配对距离。

图8显示了在nmis层中的N个错配的编码。

图9显示了映射的读段对，其表示相对于参考序列的取代。

图10显示了如何以绝对值或差值计算取代的位置。

图11显示了当没有使用IUPAC代码时如何计算编码取代类型的符号。符号表示在读段中存在的分子和在该位置处的参考物上存在的分子之间的距离，以圆形取代向量表示。

图12显示了如何将取代编码至snpt层中。

图13显示了当使用IUPAC模糊代码时，如何计算取代代码。

图14显示了当使用IUPAC代码时，如何编码snpt层。

图15显示了对于I类的读段而言，所使用的取代向量是如何与用于M类的取代向量相同，M类的取代向量添加了用于插入符号A、C、G、T、N的特殊代码取代的。

图16显示了在IUPAC模糊代码的情况下编码错配和插入缺失的一些示例。在这种情况下，取代向量要长得多，且因此可能的计算符号比五个符号的情况下的更多。

图17显示了用于错配和插入缺失的不同源模型，其中每个层包含单个类型的错配或插入缺失的位置。在这种情况下，不会为错配或插入缺失的类型编码符号。

图18显示了错配和插入缺失编码的示例。当不存在用于读段的给定类型的错配或插入缺失时，在相应的层中编码0。0用作每层中的读段分隔符和终止符。

图19显示了参考序列中的修改是如何将M读段转换成P读段的。该操作可以减少数据结构的信息熵，特别是在高覆盖度的情况下。

图20显示了根据本发明一个实施例的基因组编码器2010。

图21显示了根据本发明一个实施例的基因组解码器218。

发明内容

以下独立权利要求的特征通过提供一种用于基因组序列分类的方法和一种使用所述分类进行压缩的方法来解决现有技术的解决方案的问题。在一个方面中，一种用于分类由测序仪产生的基因组序列数据的方法，所述基因组序列数据包括核苷酸“碱基”的序列，所述分类是根据参考序列执行的，所述方法包括下列步骤：

识别P类序列，P类序列包括在参考序列中不具有错配的匹配区域；

识别N类序列，N类序列包括在参考序列中具有由位置表示的多个错配的匹配区域，测序仪在位置处不能读出任何“碱基”；

识别M类序列，M类序列包括在参考序列中具有由位置表示的多个错配的匹配区域，测序仪不能在位置处读出任何碱基或测序仪在位置处读出与参考序列不同的碱基；

识别I类序列，I类序列包括M类的相同错配加上插入或缺失的存在；

识别U类序列，U类序列包括未发现在参考序列上的任何有效映射的所有读段。

在另一个方面中，一种用于压缩由测序仪产生的基因组序列数据的方法，基因组序列数据包括核苷酸序列，

所述方法包括下列步骤：

将所述读段与参考序列比对，从而创建比对读段；

根据与参考序列的多个匹配准确度来对所述比对读段进行分类，从而创建比对读段的类别；

将被比对的读段编码为语法元素层；

其中所述语法元素是根据比对读段的所述类别进行选择的。

在另一个方面中，一种用于将压缩的基因组流解压缩的方法，所述方法包括下列步骤：

将所述压缩的基因组流解析为语法元素的基因组层，

将所述基因组层扩展为核苷酸序列的分类读段，

参考一个或多个参考序列选择性地对所述核苷酸序列的分类读段进行解码，以产生核苷酸序列的未压缩读段。

另一个方面，一种用于压缩基因组序列数据209的基因组编码器2010，所述基因组序列数据209包括核苷酸序列的读段，所述基因组编码器2010包括：

比对器单元201，比对器单元201被配置为将所述读段与一个或多个参考序列进行比对，从而创建比对读段，

数据分类单元204，数据分类单元204被配置为根据与一个或多个参考序列的匹配准确度来对所述比对的读段进行分类，从而创建比对读段的类别；

一个或多个层编码单元205-207，层编码单元205-207被配置为通过根据所述比对读段的类别选择所述语法元素来，将所述分类的比对读段编码为语法元素层。

在另一个方面中，一种用于对压缩的基因组流211解压缩的基因组解码器218，所述基因组解码器218包括：

解析装置210、212-214，解析装置210、212-214被配置为将所述压缩的基因组流解析成语法元素的基因组层215，

一个或多个层解码器216-217，一个或多个层解码器216-217被配置为将基因组层解码成核苷酸序列的分类读段2111，

基因组数据类别解码器213，基因组数据类别解码器213被配置为选择性地解码对关于一个或多个参考序列的所述核苷酸序列的分类读段进行解码，以产生核苷酸序列的未压缩读段。

具体实施方式

本发明中提及的基因组或蛋白质组序列包括，例如，但不作为限制，核苷酸序列、脱氧核糖核酸(DNA)序列、核糖核酸(RNA)和氨基酸序列。虽然本文的描述针对采用核苷酸序列形式的基因组信息而言是相当详细的，但是应该理解，尽管有一些变化，也可以实现用于压缩的方法和系统以用于其他基因组或蛋白质组序列，如本领域的技术人员将理解的。

基因组测序信息由高通量测序(HTS)仪以核苷酸序列(又名碱基)的形式产生，该核苷酸序列由来自定义的词汇表的字母串表示。最小的词汇表由五个符号表示：{A、C、G、T、N}，其表示DNA中存在的4种类型的核苷酸，即腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶。在RNA中，胸腺嘧啶被尿嘧啶(U)代替。N表示测序仪不能读出任何碱基且因此不能确定位置的真实性质。如果测序仪采用了IUPAC模糊代码，则用于符号的字母表是(A、C、G、T、U、W、S、M、K、R、Y、B、D、H、V、N或-)。

由测序仪产生的核苷酸序列称为“读段”。序列读段的长度可以在几十到几千个核苷酸之间。一些技术成对地产生序列读段，其中一个读段来自一条DNA链，且第二个读段来自另一条链。在基因组测序中，术语覆盖度用于表达序列数据相对于参考序列的冗余水平。例如，为了在人类基因组(32亿个碱基长度)上达到30倍的覆盖度，测序仪应产生总共30×32亿个碱基，以使得参考中的每个位置平均被“覆盖30次。

在整个公开内容中，参考序列是通过测序仪产生的核苷酸序列被比对/映射到的任何序列。序列的一个示例实际上可以是参考基因组，其是由科学家组装成的作为物种基因集合的代表性示例的序列。例如GRCh37，基因组参考联盟人类基因组(构建体37)衍生自来自纽约布法罗的十三名匿名志愿者。然而，参考序列也可以由合成序列组成，该合成序列被设想为仅鉴于其进一步的处理而提高了读段的可压缩性。

测序装置可能在序列读段中引入错误，诸如下列情况：

1.使用错误的符号(即代表不同的核酸)来表示实际存在于测序样本中的核酸；这通常被称为“取代错误”(错配)；

2.在一个序列读段中插入不表示任何实际存在的核酸的额外符号；这通常被称为“插入错误”；

3.从一个序列读段缺失表示在测序样本中实际存在的核酸的符号；这通常被称为“缺失错误”；

4.将一个或多个片段重组成不反映起始序列的实际情况的单个片段；

术语“覆盖度”在文献中用于量化参考基因组或参考基因部分可被可用序列读段覆盖的程度。覆盖度据说是：

●当参考基因组的一些部分未被任何可用的序列读段映射时，为部分的(小于1X)。

●当参考基因组的所有核苷酸被序列被一个且仅被一个符号映射时，为单一的(1X)。

●当参考基因组的每个核苷酸被多次映射时，为多个的(2X、3X、NX)。

本发明旨在定义基因组信息表示格式，其中相关信息可被有效地访问和传输，并且减少了冗余信息的权重。

所公开的本发明的主要方面是：

1.根据相对于参考序列的比对结果对不同类别的序列读段进行分类，以便能够根据与比对结果相关的标准和匹配准确度选择性地访问编码数据。

2.将序列读段数据和元数据分解成均匀层，以便获得具有减少的信息熵的不同信息源。

3.使用适合于每个统计特征的不同源模型对每个分离源进行建模的可能性包括，在每个读段类别和用于每个可访问数据单元(访问单元)的层内更改源模型的可能性。根据每个源模型的统计特性，采用适当的上下文自调整概率模型和相关联的熵编码器。

4.定义层之间的对应关系和依赖关系，以便如果不是所有信息都需要的话，能够选择性地访问数据，而无需解码所有层。

5.相对于可以修改的参考序列对每个序列数据类别和相关联的元数据层进行编码，以便减少数据类别和层信息源的熵。在基于参考序列进行第一次编码之后，可以使用检测到的错配序列来“自调整/修改”参考序列，以便进一步减少整体信息熵。只要减少了相关的信息熵结果，就可以迭代地执行这个过程。

在下文中，将进一步描述上述方面中的每一个。

主文件标头

序列读段的分类

根据相对于一个或多个给定的参考序列的比对结果，通过公开的本发明将由测序仪产生的序列读段分类成五个不同的“类别”。

当相对于参考序列比对核苷酸的DNA序列时，有以下五种可能的结果：

1.发现参考序列中的区域与序列读段匹配而没有任何错误(完全映射)。这种核苷酸序列将被称为“完全匹配的读段”或表示为“P类”。

2.发现参考序列中的区域与序列读段匹配，其中多个错配由测序仪不能读出任何碱基(或核苷酸)的多个位置构成。这种错配用“N表示。这些序列将被称为“N错配读段或“N类。

3.发现参考序列中的区域与序列读段匹配，其中多个错配由测序仪不能读出任何碱基(或核苷酸)或已读出与在参考基因组中报告的碱基不同的碱基的多个位置构成。这种类型的错配被称为单核苷酸变异(SNV)或单核苷酸多态性(SNP)。该序列将被称为“M错配读段”或“M类”。

4.第四类是由测序读段构成的，该测序读段表示错配类型，错配类型包括M类的相同错配加上插入或缺失的存在(又名插入缺失)。插入是由不存在于参考中，但却存在于读段序列中的一个或多个核苷酸的序列表示的。在文献中，当插入的序列位于序列的边缘时，其被称为“软剪切”(即，核苷酸与参考不匹配，但却与被丢弃的“硬剪切”的核苷酸相反地保持在比对读段中)。保留或丢弃核苷酸通常是用户的决定，被实现为比对工具的配置。缺失是相对于参考的在比对读段中的“孔”(缺少核苷酸)。这些序列将被称为“I错配读段”或“I类”。

5.第五类包括根据指定的比对约束在参考基因组上当前发现的任何有效映射的所有读段。这些序列被称为是未映射的并且属于“U类”。

可以使用从头组装算法将相对于参考序列的剩余的未映射读段组装成单个序列。一旦已创建新组装的参考序列，可以进一步相对于新组装的参考序列映射未映射的读段并将其分类成4个类P、N、M和I中的一个。

将表示序列读段必需的信息分解成描述符层

一旦用类别的定义完成了读段的分类，进一步的处理则在于：定义一组不同的语法元素，其表示当被表示为映射在给定的参考序列上时能够重建DNA读段序列的剩余信息。这些语法元素的数据结构需要存储将由解码引擎使用的全局参数和元数据。这些数据在下表所述的主标头中进行结构化。

表1-主标头结构

参考给定参考序列的DNA片段可以通过以下方式进行完全表达：

●在参考序列上的起始位置(pos)。

●针对是否已将读段视为与参考的相反的互补(rcomp)而进行标示的标志。

●在配对读段(对)的情况下，至配合物对的距离。

●在测序技术产生可变长度的读段的情况下，读段的长度值(len)。在具有恒定读段长度的情况下，与每个读段相关联的读段长度显然可以省略，且可以存储在主文件标头中。

●对于每个错配而言：

○错配位置(N类的nmis、M类的snpp和I类的indp)

○错配类型(不存在于N类中，M类中的snpt，I类中的indt)

●指示序列的具体特性的标志，诸如

○在测序中具有多个片断的模板

○根据比对器正确比对的每个片断

○未映射片断

○在未映射模板中的下一个片断

○第一或最后一个片断的标示化

○质量控制失败

○PCR或光学复制品

○二次比对

○补充比对

●当存在时可选的软剪切核苷酸串(I类中的indc)

此分类创建描述符组(语法元素)，描述符组可用于单义表示基因组序列读段。

下表总结了每类比对读段所需的语法元素。

	P	N	M	I
					pos	X	X	X	X
对	X	X	X	X
					rcomp	X	X	X	X
标志	X	X	X	X
					rlen	X	X	X	X
nmis		X
					snpp			X
snpt			X
					indp				X
indt				X
					indc				X

表2-每类数据的定义层

如果已通过产生配合对、一些标志和读段长度的测序技术获得，属于P类的读段则仅通过位置、反向互补信息和在配合物之间的偏移来表征和完全重建。

下一节将进一步详细描述如何定义这些描述符。

位置描述符层

在位置(pos)层中，仅将第一编码读段的映射位置存储为参考序列上的绝对值。所有其他位置描述符假定表达相对于先前位置的差异的值。由读段位置描述符的序列定义的信息源的这种建模，通常是由减小的熵进行表征的，特别是用于产生高覆盖度结果的测序过程的减小的熵。

例如，图1示出了在将第一比对的起始位置描述成参考序列上的位置“10000”之后，以位置10180开始的第二读段的位置被描述为“180”。由于具有高覆盖度(>50x)，位置向量的大多数描述符将呈现低值的高出现率，诸如0和1以及其他较小的整数的低值。图9显示了如何在pos层中描述三个读段对的位置。

反向互补描述符层

通过测序技术产生的读段对的每个读段可以源于测序的有机样本的任一基因组链。然而，两条链中仅有一条被用作参考序列。图2显示了读段对中的一个读段(读段1)可以如何来自一个链，另一个读段(读段2)可以如何来自另一个链。

当链1被用作参考序列时，读段2可以被编码为链1上相应片段的反向互补。这在图3中示出。

在耦接读段的情况下，直接和反向互补配合物对的可能组合是四个。这在图4中示出。rcomp层编码了四个可能的组合：

相同的编码被用于属于N、M、P和I类的读段的反向互补信息。为了能够选择性地访问不同的数据类别，属于四个类别的读段的反向互补信息在不同的层中进行编码，如表2中所描绘的。

配对信息描述符层

配对描述符被存储在对层中。当所采用的测序技术通过配对产生读段时，这种层对重建起始读段对所需的信息进行编码的描述符进行存储。尽管在本发明公开之日，绝大多数的测序数据是通过使用产生配对读段的技术产生的，但并非所有技术都是如此。这就是如果所考虑的基因组数据的测序技术未产生配对的读段信息，对于重建所有测序数据信息来说不需要该层存在的原因。

定义：

●配合物对：与读段对中的另一个读段相关联的读段(例如，读段2是前一个示例中的读段1的配合物对)

●配对距离：参考序列上的核苷酸位置的数量，该参考序列将第一读段中的一个位置(配对锚，例如，第一个读段的最后一个核苷酸)与第二读段的一个位置(例如，第二读段的第一个核苷酸)分开。

●最可能的配对距离(MPPD)：这是以核苷酸位置的数量表达的最可能的配对距离。

●位置配对距离(PPD)：PPD是以读段的数量的形式表达配对距离的方式，读段数量为将一个读段与在具体位置描述符层中存在的其相应的配合物分开的读段数量。

●最可能的位置配对距离(MPPPD)：是将一个读段与具体位置描述符层中存在的其配合物对分开的最可能的读段数量。

●位置配对错误(PPE)：被定义为MPPD或MPPPD与配合物的实际位置之间的差异。

●配对锚：一对中第一个读段的最后一个核苷酸的位置，用作以核苷酸位置的数量或读段位置的数量来计算配合物对的距离的参考。

图5显示了如何计算读段对之间的配对距离。

对描述符层是配对错误的向量，配对错误的向量被计算为相对于定义的解码配对距离要到达一对读段中的第一读段的配合物对所要跳过的读段的数量。

图6显示了如何按绝对值和差分向量计算配对错误的示例(其以用于高覆盖度的较低熵进行表征)。

相同的描述符被用于属于N、M、P和I类的读段的配对信息。为了能够选择性地访问不同的数据类别，属于四个类别的读段的配对信息在不同的层中进行编码，如所描绘的。

在读段映射在不同的参考序列的情况下的配对信息

在对参考序列上的序列读段进行映射的过程中，使得一对读段中的第一读段映射在一个参考序列(例如，染色体1)而一对读段中的第二读段映射在不同参考序列(例如，染色体4)上并不罕见。在这种情况下，上述配对信息必须通过额外信息进行整合，额外信息与映射读段中的一个读段所用的参考序列相关。这是通过编码实现的。

1.表示该对被映射在两个不同的序列上的保留值(标志)(不同的值表示读段1或读段2是否映射在当前未进行编码的序列上)

2.指代参考标识符的唯一参考标识符在主标头结构中进行了编码，如表1中所示。

3.第三元素包含关于参考的映射信息，参考在点2处被识别且被表达为相对于最后一个编码位置的偏移。

图7提供了这种情况的示例。

在图7中，由于读段4未映射在当前编码的参考序列上，因此基因组编码器通过在对层中制作额外的描述符来标示该信息。在下面所示的示例中，对2的读段4映射在4号参考上，而当前编码的参考为1号。使用3个分量来编码这种信息：

1)一个特殊保留值被编码为配对距离(在这种情况下为Oxffffff)

2)第二个描述符提供了如在主标头中列出的参考ID(在这种情况下为4)

3)第三个元素包含在相关参考上的映射信息(170)。

用于N类读段的错配描述符

N类包括所有读段，在所有读段中仅由“N”构成的错配存在于A、C、G或T碱基读出位置处。读段的所有其他碱基与参考序列完全匹配。

图8显示了如何：

将读段1中的“N”的位置编码为

●读段1中的绝对位置或

●相对于相同读段中前一个“N”的差分位置。

将读段2中的“N”的位置编码为

●读段2中的绝对位置+读段1的长度或

●相对于前一个“N”的差分位置。

在nmis层中，每个读段对的编码是由特殊的“分隔符”符号终止的。

图8显示了“N个错配(其中，在给定的映射位置处，“N”存在于读段中，而不是参考序列中的实际碱基中)仅被编码为错配的位置，

1.相对于读段的开始或

2.相对于前一个错配(差分编码)

对取代(错配或SNP)、插入和缺失进行编码的描述符

取代被定义为在映射的读段中存在有相对于在参考序列中的相同位置处存在的核苷酸碱基不同的核苷酸碱基。

图9显示了在映射读段对中的取代的示例。每个取代被编码为“位置”(snpp层)和“类型”(snpt层)。基于取代、插入或缺失的统计出现，可以定义相关联的描述符的不同源模型，以及在相关联的层中编码生成的符号。

源模型1：作为位置和类型的取代

取代位置描述符

像nmis层的值一样来计算取代位置，即，

在读段1中，取代被编码为

●读段1中的绝对位置或

●相对于相同读段中前一个取代的差分位置。在读段2中，取代被编码为

●读段2中的绝对位置+读段1的长度或

●相对于前一个取代的差分位置。

图10显示了如何将取代(在给定的映射位置处，读段中的符号不同于在参考序列中的符号)编码为

1.错配的位置

■相对于读段的开始或

■相对于前一个错配(差分编码)

2.被表示为如图10中所述计算的代码的错配的类型

在snpp层中，每个读段对的编码是由特殊的“分隔符”符号终止的。

取代类型描述符

对于M类(和I类，如下面章节所述的)而言，用从存在于参考中的实际符号到存在于读段{A、C、G、T、N、Z}中的相应的取代符号的索引(从右向左移动)来编码错配。例如，如果比对的读段存在C而不是在参考的相同位置处出现的T，则将错配索引表示为“4”。解码过程对编码的语法元素和在参考上给定位置处的核苷酸进行读取，并从左向右移动以检索解码的符号。例如，针对G在参考中的出现的位置而接收的“2”将被解码成“N”。图11显示了所有可能的取代和相应的编码符号。显然，可以根据每个数据类别的每个取代类型的统计特性，将不同的上下文自调整概率模型分配给每个取代索引，以最小化描述符的熵。

在采用IUPAC模糊代码的情况下，取代机制结果完全相同，然而，取代向量却扩展为：S＝{A、C、G、T、N、Z、M、R、W、S、Y、K、V、H、D、B}。

图12提供了在snpt层中取代类型的编码的示例。

图13中提供了当采用IUPAC模糊代码时取代编码的一些示例。图14中提供了取代索引的另一个示例。

插入和缺失的编码

对于I类而言，用从存在于参考中的实际符号到存在于读段{A、C、G、T、N、Z}中的相应的取代符号的索引(从右向左移动)来编码错配和缺失。例如，如果比对的读段出现C而不是在参考的相同位置处出现的T，则错配索引将是“4”。如果读段呈现缺失，其中在参考中存在A，则编码符号将是“5”。解码过程对编码的语法元素和在参考上给定位置处的核苷酸进行读取，并从左向右移动以检索解码的符号。例如，针对G在参考中出现的位置而接收的“3”将被解码成“Z”。

插入的A、C、G、T、N的被分别编码为6、7、8、9、10。

图15显示了如何在I类的读段对中编码取代、插入和缺失的示例。为了支持整组IUPAC模糊代码，取代向量S＝{A、C、G、T、N、Z}将由S＝{A、C、G、T、N、Z、M、R、W、S、Y、K、V、H、D、B}替换，如在针对错配的前一段中所述的。

在这种情况下，插入代码需要具有不同的值，即在取代向量具有16个元素的情况下为16、17、18、19、20。在图16中示出了该机制。

源模型2：每种取代类型一层和插入缺失

对于一些数据统计而言，可以开发与前一节中描述的不同的编码模型来用于取代和插入缺失，这导致了具有较低熵的源。这种编码模型是上述仅用于错配和用于错配和插入缺失的技术的替代方案。

在这种情况下，为每个可能的取代符号定义一个数据层(5个没有IUPAC代码，16个具有IUPAC代码)，再加上用于缺失的一个层和用于插入的另外的4层。为了简化说明，但不作为对模型应用的限制，以下描述将集中于不支持IUPAC代码的情况。

图17显示了每个层如何包含单个类型的错配或插入的位置。如果在编码的读段对中不存在该类型的错配或插入，则在相应的层中编码0。为了使解码器能够开始在本节中描述的对层的解码过程，每个访问单元的标头包含对要解码的第一层进行标示的标志。在图18的示例中，要解码的第一元素是C层中的位置2。当在读段对中不存在给定类型的错配或插入缺失时，将0添加至相应层。在解码侧，当每层的解码指针指向值0时，解码过程移动到下一个读段对。

编码额外的信令标志

上面介绍的每个数据类别(P、M、N、I)可能需要编码关于编码段的性质的额外信息。该信息可以与例如测序实验相关(例如，指示一次读段的重复概率)或可以表达读段映射(对中的第一或第二)的一些特性。在本发明的上下文中，该信息在每个数据类别的单独层中进行编码。这种方法的主要优点是仅在需要时并且仅在所需的参考序列区域中选择性地访问该信息的可能性。使用此类标志的其他示例如下：

●配对的读段

●在适当的对中映射的读段

●未映射的读段或配合物

●源于反向链的读段或配合物

●对中的第一/第二

●非主要比对

●读段失败平台/向量质量检查

●读段是PCR或光学复制品

●补充比对

参考序列的自调整

针对N、M和I类编码的错配可以用于创建“修改的参考”，以用于相对于“自调整的”基因组R1将读段在N、M或I层中重新编码(相对于第一参考序列，RO)成p读段。例如，如果我们用r_in^M表示含有相对于参考基因组n的错配的M类的第i个读段，那么在“自调整”之后，我们可以得到r_in^M＝r_(i(n+l))^P，其中A(Refn)＝Refn+l，其中A是从参考序列n至参考序列n+1的转换。

图19显示了可以如何将含有相对于参考序列1(RS1)的错配的读段(M读段)，转换成相对于参考序列2(RS2)完全匹配的读段(P读段)，读段(P读段)通过修改错配位置而从RS1获得。这种转换可以被表达为

RS2＝A(RS1)

如果从RS1到RS2的转换A的表达需要较少的存在于M读段中的错配的表达位，则该编码方法将导致较小的信息熵并因此导致更好地压缩。

源模型、熵编码器和编码模式

对于本发明中公开的基因组数据结构的每一层而言，可以根据该层携带的数据或元数据的具体特征及其统计特性，采用不同的编码算法。“编码算法”必须旨在将描述符的具体“源模型”与具体的“熵编码器”相关联。可以指定和选择具体的“源模型”以便在使源熵最小化的方面获得最有效的数据编码。熵编码器的选择可以通过编码效率的考虑和/或概率分布特征和相关联的实现问题来驱动。具体编码算法的每个选择将被称为应用于整个“层”的“编码模式”。

与编码模式相关联的每个“源模型”的特征在于：

●每个源发出的语法元素的定义(例如，读段位置、读段配对信息以及相对于参考序列的错配等)

●相关联的概率模型的定义

●相关联的熵编码器的定义

进一步的优点

该分类允许通过用单个单独的数据源(例如，距离、位置等)对语法元素的序列建模来实现以利用较低信息源熵为特征的有效的编码模式。

本发明的另一个优点是仅访问感兴趣的数据类别的子集的可能性。例如，基因组学中最重要的应用之一在于，发现了基因组样本相对于参考(SNV)或群体(SNP)的差异。今天，这种类型的分析需要处理完整的序列读段，而通过采用本发明公开的数据表示，错配仅已被分离成一到三个数据类别(基于考虑N个代码和插入缺失的兴趣)。

另一个优点是，当新的“参考序列”发布时或当对已经映射的数据执行重新映射时(例如，使用不同的映射算法)，执行从参考具体的“参考序列”压缩的数据和元数据到另一个“参考序列”的有效代码转换的可能性。

图20显示了根据本发明的原理的编码设备207。编码设备207接收例如由基因组测序设备200产生的原始序列数据209作为输入。基因组测序设备200在本领域中是已知的，如Illumina HiSeq 2500或Thermo-Fisher Ion Torrent装置。原始序列数据209被馈送到比对器单元201，比对器单元201通过将读段与参考序列比对来准备用于编码的序列。替代地，通过查找重叠前缀或后缀，从头组装器202可以被用于来从可用的读段创建参考序列，以便可以从读段组装更长的片断(称为“重叠群”)。在已经由从头组装器202处理之后，可以将读段映射在所获得的较长序列上。随后，通过数据分类模块204对比对序列进行分类。然后，将数据类别208馈送到层编码器205-207。然后，将基因组层2011馈送到算术编码器2012-2014，算术编码器2012-2014根据由层承载的数据或元数据的统计特性对层进行编码。结果是基因组流2015。

图21显示了根据本公开的原则的解码设备218。解码设备218从网络或存储元件接收多路复用的基因组比特流2110。多路复用的基因组比特流2110被馈送到解复用器210以产生单独的流211，单独的流211随后被馈送到熵解码器212-214以产生基因组层215。提取的基因组层被馈送到层解码器216-217，以进一步将层解码成数据类别。类别解码器219进一步处理基因组描述符，并合并结果以产生序列的未压缩读段，然后可以以本领域已知的格式，例如，文本文件或zip压缩文件，或FASTQ或SAM/BAM文件进一步存储该序列的未压缩读段。

类别解码器219能够通过利用由一个或多个基因组流携带的原始参考序列上的信息来重建原始基因组序列。在基因组流未传输参考序列的情况下，其必须在解码侧是可用的且可由类别解码器访问。

本文公开的发明技术可以用硬件、软件、固件或其任何组合来实现。当以软件实现时，这些可以存储在计算机介质上并由硬件处理单元执行。硬件处理单元可以包括一个或多个处理器、数字信号处理器、通用微处理器、专用集成电路或其他分立逻辑电路。

本公开的技术可以在各种装置或设备，包括移动电话、台式计算机、服务器、平板电脑和类似装置中实现。

Claims

1.一种用于压缩由测序仪产生的基因组序列数据的方法，所述基因组序列数据包括核苷酸序列的读段，其特征在于，

所述方法包括下列步骤：

将所述读段与一个或多个参考序列进行比对，从而创建比对读段，

根据与所述一个或多个参考序列的匹配准确度来对所述比对读段进行分类，从而创建比对读段的类别；

将被分类和比对的读段编码为多个语法元素层，

其中将分类的比对读段编码为多个语法元素层包括根据所述比对读段的类别选择所述语法元素。

2.根据权利要求1所述的方法，其特征在于，所述语法元素层包括：沿所述参考序列的位置、在所述参考序列上的两个位置之间的距离以及指示序列读段是否是反向互补的信息。

3.根据权利要求2所述的方法，其特征在于，所述语法元素层还包括：变体相对于所述参考序列的位置、所述变体的类型、缺失相对于所述参考序列的位置、不存在于所述参考序列中但却存在于所述比对读段中的一个或多个符号的位置、以及在给定位置处的插入的类型。

4.根据权利要求1所述的方法，其特征在于，根据所述层所承载的所述数据或元数据的具体特征，来调整将分类的比对读段编码为多个语法元素层。

5.根据权利要求4所述的方法，其特征在于，根据所述层所承载的所述数据或元数据的统计特性来进一步地调整将所述分类的比对读段编码为多个语法元素层。

6.根据权利要求5所述的方法，其特征在于，将所述分类的比对读段编码为多个语法元素层使得具体源模型和具体熵编码器关联到每个描述符层。

7.根据权利要求5所述的方法，其特征在于，所述熵编码器是上下文自调整算术编码器。

8.根据权利要求1所述的方法，其特征在于，所述序列读段在一个或多个参考序列上完全匹配。

9.根据权利要求1所述的方法，其特征在于，所述序列读段仅包含错配，其中存在“N”符号而不存在相对于一个或多个参考序列的实际核苷酸或氨基酸符号。

10.根据权利要求1所述的方法，其特征在于，所述序列读段包含相对于一个或多个参考序列的符号取代形式的任何类型的错配。

11.根据权利要求1所述的方法，其特征在于，所述序列读段包含相对于一个或多个参考序列的错配和插入或缺失。

12.根据权利要求1所述的方法，其特征在于，所述序列读段包含相对于一个或多个参考序列的错配、插入或缺失以及软剪切符号。

13.根据权利要求1所述的方法，其特征在于，所述序列读段不能相对于所述一个或多个参考序列进行映射。

14.根据权利要求1所述的方法，其特征在于，所述序列读段还根据每个序列读段所包含的所述错配的数量被分类成不同的类别。

15.一种用于将压缩的基因组流解压缩的方法，其特征在于，所述方法包括下列步骤：

将所述压缩的基因组流解析为语法元素的基因组层，

将所述基因组层扩展为核苷酸序列的分类读段，

选择性地对关于一个或多个参考序列的核苷酸序列的所述分类读段进行解码，以产生核苷酸序列的未压缩读段。

16.一种用于分类由测序仪产生的基因组序列数据的方法，其特征在于，所述基因组序列数据包括核苷酸“碱基”的序列，所述分类是根据参考序列执行的，

所述方法包括下列步骤：

识别P类序列，所述P类序列包括在所述参考序列中不具有错配的匹配区域；

识别N类序列，所述N类序列包括在所述参考序列中具有由位置表示的多个错配的匹配区域，所述测序仪在所述位置处不能读出任何“碱基”，

识别M类序列，所述M类序列包括在所述参考序列中具有由位置表示的多个错配的匹配区域，所述测序仪在所述位置处不能读出任何碱基或所述测序仪在所述位置处读出与所述参考序列不同的碱基，

识别I类序列，所述I类序列包括M类的相同错配加上所述插入或缺失的存在，

识别U类序列，所述U类序列包括未发现在所述参考序列上的任何有效映射的所有读段。

17.一种用于压缩基因组序列数据209的基因组编码器2010，其特征在于，所述基因组序列数据209包括核苷酸序列的读段，

所述基因组编码器2010包括：

比对器单元201，所述比对器单元201被配置为将所述读段与一个或多个参考序列进行比对，从而创建比对读段，

数据分类单元204，所述数据分类单元204被配置为根据与所述一个或多个参考序列的匹配准确度，来对所述比对读段进行分类，从而产生比对读段的类别；

一个或多个层编码单元205-207，所述一个或多个层编码单元205-207被配置为通过根据所述比对读段的类别选择所述语法元素，来将分类的比对读段编码为语法元素层。

18.一种用于对压缩的基因组流211解压缩的基因组解码器218，其特征在于，所述基因组解码器218包括：

解析装置210、212-214，所述解析装置210、212-214被配置为将所述压缩的基因组流解析成语法元素的基因组层215，

一个或多个层解码器216-217，所述一个或多个层解码器216-217被配置为将所述基因组层解码成核苷酸序列的分类读段2111，

基因组数据类别解码器213，所述基因组数据类别解码器213被配置为选择性地对关于一个或多个参考序列的所述核苷酸序列的所述分类读段进行解码，以产生核苷酸序列的未压缩读段。

19.根据权利要求17所述的基因组解码器，其特征在于，所述一个或多个参考序列存储在所述压缩的基因组流211中。

20.根据权利要求17所述的基因组解码器，其特征在于，所述一个或多个参考序列经由带外机构被提供至所述解码器。

21.根据权利要求17所述的基因组解码器，其特征在于，在所述解码器处构建所述一个或多个参考序列。

22.一种计算机可读介质，其特征在于，所述计算机可读介质包括指令，所述指令在被执行时使至少一个处理器执行根据权利要求1至16中的任一项所述的方法。