CN110088839B

CN110088839B - 用于生物信息学信息表示的有效数据结构

Info

Publication number: CN110088839B
Application number: CN201680090051.5A
Authority: CN
Inventors: 丹尼尔·伦齐; 乔吉奥·索亚
Original assignee: Genomsys SA
Current assignee: Genomsys SA
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2023-12-15
Anticipated expiration: 2036-10-11
Also published as: EP4075438B1; CA3039688A1; ZA201902785B; CL2019000954A1; PL4075438T3; JP2019537810A; CO2019003583A2; IL265908A; JP6902104B2; CN110088839A; FI4075438T3; NZ753247A; EA201990933A1; WO2018068827A1; EP3526709B1; PH12019500791A1; AU2016426569B2; EP4075438A1; AU2016426569A1; MX2019004125A

Abstract

用于表示以结构化文件格式所组织的基因组序列数据的方法和设备。数据结构包含核苷酸序列的表示：以压缩形式，比对并且参考一个或多个参考序列，并且根据不同的匹配准确度进行分类。分类并且比对的读段以语法元素层的形式被编码，包括标头信息的语法元素层被划分为独立或从属访问单元。

Description

用于生物信息学信息表示的有效数据结构

技术领域

本发明公开了定义了基因组数据结构的基因组信息存储层(基因组文件格式)，基因组数据结构包括与在基因组数据处理的不同阶段(所谓的“基因组信息生命周期”)期间由与基因组测序、处理和分析相关的装置和应用生成的信息相关联的异源(heterogeneous)数据的集合。

背景技术

在数据处理的不同阶段期间，转换由DNA、RNA或蛋白质测序仪生成的基因组或蛋白质组信息，以产生异质数据。在现有技术解决方案中，这些数据当前被存储在具有不同和不相关结构的计算机文件中。因此，该信息很难归档、转移和详细说明。

本发明中所提及的基因组或蛋白质组序列包括，例如，但不作为限制，核苷酸序列、脱氧核糖核酸(DNA)序列、核糖核酸(RNA)和氨基酸序列。虽然本文的描述针对核苷酸序列形式的基因组信息而言是相当详细的，但是应该理解，如本领域技术人员将理解的，尽管有一些变化，也可以实现用于存储的方法和系统以用于其他基因组或蛋白质组序列。

在图1中描绘了从数据生成(测序)到分析的基因组或蛋白质组信息生命周期，其中示出了基因组生命周期的不同阶段和相关联的中间文件格式。如图1所示，基因组信息生命周期的典型步骤包括：序列读段提取、映射和比对、变体检测、变体注释以及功能和结构分析。

序列读段提取是由人类操作者或机器执行的、以表示组成生物样本的分子的符号序列的形式来表示遗传信息的片段的处理。在核酸的情况下，这样的分子被称为“核苷酸”。通过提取产生的符号序列通常被称为“读段”。在现有技术中，该信息通常被编码为“FASTA”文件，“FASTA”文件包括文本标头和表示测序分子的符号序列。

当生物样本被测序以提取活的有机体的DNA时，字母表由符号(A，C，G，T，N)组成。

当生物样本被测序以提取活的有机体的RNA时，字母表由符号(A，C，G，U，N)组成。

在IUPAC扩展了符号集的情况下，所谓的“模糊代码”也由测序仪生成，被用于组成读段的符号的字母表是(A，C，G，T，U，W，S，M，K，R，Y，B，D，H，V，N或-)。

当不使用IUPAC模糊代码时，质量评分序列可以与每个序列读段相关联。在这样的情况下，现有技术解决方案将得到的信息编码为“FASTQ”文件。

序列比对是指通过寻找可能是序列之间的功能、结构或进化关系的结果的相似性区域来排列序列读段的处理。当参考被称为“参考序列”的预先存在的核苷酸序列进行比对时，该处理被称为“映射”。序列比对也可以在没有预先存在的序列(即，参考基因组)的情况下被进行，在这样的情况下，该处理在现有技术中被已知为“从头”比对。现有技术解决方案将这样的信息存储在“SAM”、“BAM”或“CRAM”文件中。比对序列以重建部分或完整基因组的概念被描绘在图2中。

变体检测(又名变体调用)是将基因组测序仪的比对输出翻译成被测序的有机体的独特特征的概要，这些特征不能在其他预先存在的序列中被找到或者只可以在少数预先存在的序列中被找到。这些特征被称为“变体”，因为它们被表示为所研究的有机体的基因组与参考基因组之间的差异。现有技术解决方案将该信息以被称为“VCF”文件的特定文件格式存储。

变体注释是将功能信息分配给基因组变体的处理。这意味着变体根据它们与基因组中编码序列的关系以及根据它们对编码序列和基因产物的影响进行分类。这在现有技术中通常被存储在“MAF”文件中。

分析DNA链(变体、CNV＝拷贝数变化、甲基化等)以定义它们与基因(和蛋白质)功能和结构的关系被称为功能和结构分析。现有技术中存在多种不同的解决方案以用于存储该数据。

图3中描绘了基因组处理流水线中所使用的文件格式之间的关系的简化视图。在该图中，文件包含并不意味着存在嵌套文件结构，但它仅表示可以针对每种格式被编码的信息的类型和数量(即，SAM包含FASTQ格式的所有信息，但是该信息以不同的文件结构被组织)。CRAM包含与SAM/BAM相同的基因组信息，但它在可以被使用的压缩类型方面提供更大的灵活性，因此它被表示为SAM/BAM的超集。

使用多种文件格式来存储基因组信息是非常低效和昂贵的。在基因组信息生命周期的不同阶段具有不同的文件格式意味着所利用的存储空间的线性增长，即使增量信息与初始的测序数据量相比非常小。这在空间和生成成本方面变得不可持续，并且阻碍基因组应用触及更多的人口。下面列出了已知现有技术解决方案的其他缺点。

1.访问、分析或添加注释(元数据)到被存储在压缩FASTQ文件中的原始数据或其任何组合，需要广泛地使用计算时间和资源来对整个文件进行解压缩和再压缩。

2.检索特定类型的信息，诸如是读段映射位置、读段变体位置和类型、插入缺失位置和类型、或者被存储在BAM文件中的比对数据中所包含的任何其他元数据和注释，需要访问与每个读段相关联的整个数据量。使用现有技术解决方案不可能选择性地访问单个类别的元数据。

3.现有技术文件格式需要在处理可以开始之前在最终用户处接收整个文件。例如，读段的比对可以依赖于适当的数据表示在测序处理已经被完成之前开始。测序、比对和分析可以并行进行和运行。

4.将通过不同的测序处理、根据它们的特定生成语义所获得的基因组数据(例如，在同一个体的不同生命时间所获得的测序)结构化并且能够加以区分，是不可能依赖于现有技术解决方案得到支持的。对于由同一个体的不同类型的生物样本所获得的测序也是如此。

5.现有技术解决方案不支持对整个或所选数据部分的加密。例如，不可能加密所选DNA区域；仅那些包含变体的序列；仅嵌合序列；仅未映射的序列；特定元数据(例如，测序样本的来源、测序个体的身份、样本的类型)。

6.即使新的参考仅与先前参考的单核苷酸位置不同，从被比对到给定参考(即，SAM/BAM文件)的测序数据转码到新的参考也需要处理整个数据量。

7.基因组数据的转移是缓慢和低效的，因为当前所使用的数据格式以高达数百千兆字节大小的整体文件被组织，这些文件需要在接收端被完全转移以便被处理。这意味着对小部分数据的分析，需要在消耗带宽和等待时间方面以相当大的成本转移整个文件。通常，对于要被转移的大量数据而言在线转移是禁止的，并且通过将诸如硬盘驱动器或存储服务器的存储介质从一个位置物理地移动到另一个位置来进行数据的传输。

8.在不需要访问数据整体的情况下，由通常被使用的分析应用所需要的不同类别的数据和元数据的部分不能被检索到，对于以这样的方式未被结构化的信息而言，处理数据是缓慢和低效的。该事实意味着即使与特定分析目的相关的数据的部分小得多，常见的分析流水线也可能需要运行数天或数周，浪费了用于在访问、解析和过滤大量数据的每个阶段的需要的宝贵和昂贵的处理资源。这些限制阻碍了医疗保健专业人员及时获得基因组分析报告并且及时对疾病爆发做出反应。

显然需要通过组织和划分数据来提供适当的基因组测序数据和元数据表示(基因组文件格式)，使得将数据和元数据的压缩最大化，并且有效地启用诸如选择性访问和支持增量更新的多个功能和在基因组数据生命周期的不同阶段有用的其他数据处理功能。

所公开的解决方案的主要方面是：

1.根据相对于参考序列的比对结果将序列读段分类成不同的类别，以便能够根据与比对结果相关的标准选择性地访问编码数据。这意味着“包含”压缩形式的结构化数据元素的文件格式的规范。这样的方法可以被视为与现有技术方法相反，现有技术方法例如是SAM和BAM，其中数据以非压缩形式被结构化，然后整个文件被压缩。该方法的第一个明显优点是能够有效和自然地提供对压缩域中的数据元素的各种形式的选择性访问，这在现有技术方法中是不可能的或极其笨拙的。

2.将分类的读段分解为同类元数据层，以便尽可能地减少信息熵。将基因组信息分解成同类数据和元数据的特定“层”呈现显著的优点，能够定义以低熵所表征的信息源的不同模型。这样的模型不仅可以在层与层之间不同，而且在每层内也可以不同。该结构使得能够对每类数据或元数据以及它们的部分使用最合适的特定压缩，其中与现有技术方法相比，编码效率显著提高。

3.将层结构化为访问单元，即，可以通过仅使用全局可用的参数(例如，解码器配置)被独立解码的基因组信息或通过使用被包含在其他访问单元中的信息被解码的基因组信息。当层内的压缩的数据被划分为被包括在访问单元中的数据块时，可以定义以低熵所表征的信息源的不同模型。

4.将信息结构化，使得由基因组分析应用所使用的任何相关数据子集可通过适当的接口有效和有选择地访问。这些特征使得能够更快地访问数据并且得到更有效的处理。主索引表和本地索引表使得能够选择性地访问由编码的(即压缩的)数据层所承载的信息，而无需解码整个压缩的数据量。此外，指定各种数据层之间的关联机制，以使得能够选择性地访问语义上相关联的数据和/或元数据层的子集的任何可能组合，而无需解码所有层。

5.主索引表和访问单元的联合存储。

附图说明

图1是典型的基因组信息生命周期的框图。

图2是示出描述比对序列以重建部分或完整基因组的概念的图。

图3是示出基因组处理流水线中所使用的文件格式之间的关系的简化视图的概念图。

图4示出被映射到参考序列的读段对。

图5示出根据本公开的原理的访问单元的示例。

图6示出由数据块组成的包括标头和层的访问的示例。

图7示出基因组“数据包”、“块”、访问单元、层和流读段类别之间的关系。

图8示出主索引表，该主索引表具有每个访问单元所包含的第一读段的映射轨迹的向量。

图9示出主标头的通用结构和MIT的部分表示，该部分表示示出P类的每个pos AU中的第一读段的映射位置。

图10示出MIT中的第二类数据存储。

图11示出使用T1p向量中所包含的值来访问访问单元，该访问单元包含被映射在位置150,000和250,000之间的2号参考序列上的P类的读段。

图12示出参考序列中的修饰可以将M读段转化成P读段。

图13是示出根据本发明的原理的基因组信息生命周期的框图。

图14示出根据本发明的原理的序列读段提取器。

图15示出根据本发明的原理的基因组编码器2010的示例。

图16示出根据本发明的原理的基因组解码器218的示例。

发明内容

权利要求1的特征通过提供一种用于以基因组文件格式存储基因组序列数据的表示的方法来解决现存的现有技术解决方案的问题，所述基因组序列数据包括核苷酸序列的读段，所述方法包括以下步骤：将所述读段与一个或多个参考序列进行比对，从而创建比对读段，根据与所述一个或多个参考序列的不同匹配准确度对所述比对读段进行分类，从而创建比对读段的类别；将分类的比对读段编码为语法元素层，用标头信息将所述语法元素层结构化，从而创建连续的访问单元，创建主索引表，所述主索引表包含每类比对读段的一个部分，所述一个部分包括每类数据的每个访问单元的第一读段在参考序列上的映射位置；联合存储所述主索引表和所述访问单元数据。

通过联合存储索引表和基因组序列数据的所述表示，而不是如上述生命周期描述中所提到的基因组序列数据表示的每种类型数据的不同单独文件，许多优点是显而易见的，即：

·基因组序列数据处理的任何中间阶段的结果可以被增量地添加到现有的数据，而无需转码为不同的文件格式。例如，比对信息可以被添加到原始数据，而无需更改现有的文件格式。调用结果的变体可以通过增量更新被包括在现有的比对序列数据中。

·基因组序列数据可以根据它们的特定特征被检索，而无需访问与查询标准不匹配的整个文件或其区域。例如，可以执行查询以选择性地访问：

o一个或多个参考基因组上完全匹配的序列读段

o仅包含错配的序列读段，其中存在“N”符号而不是实际的核苷酸或氨基酸符号

o包含关于一个或多个基因组的符号替换形式的任何类型的错配的序列读段

o包含错配以及插入或缺失(插入缺失)的序列读段

o包含关于一个或多个参考基因组的错配、插入或缺失(插入缺失)以及软剪切符号的序列读段

o关于所考虑的参考基因组不能被映射的序列读段

o存在于指定的深度阈值之间的所有单核苷酸多态性(SNP)

o所有嵌合序列读段

o质量评分高于指定阈值的所有序列读段

o与指定的序列读段集相关联的所有元数据

通过根据与参考序列的匹配置信度对比对读段进行分类，可以实现根据与比对结果相关的标准选择性访问编码的数据。

通过将分类的比对读段编码为语法元素层，可以根据由层所承载的数据或元数据的特定特征以及数据或元数据的统计特性来调整编码。

通过在连续的访问单元中用标头信息将语法元素层结构化，可以根据数据的性质调整编码、存储和传输。例如，可以针对每个访问单元调整编码，以在最小化熵的方面为每个数据层使用最有效的资源模型。

根据一个公开的方面，一种提取被存储在基因组文件中的核苷酸序列的读段的方法，其中所述基因组文件包括根据本公开的原理所存储的主索引表和访问单元数据，所述方法包括以下步骤：接收用户输入，所述用户输入识别要被提取的读段的类型，从所述基因组文件检索所述主索引表，检索与所述要被提取的读段的类型相对应的访问单元，重建在一个或多个参考序列上映射检索到的访问单元的所述核苷酸序列的读段。

本发明还公开了一种基因组测序仪，包括：一种基因组测序仪，包括：基因组测序单元，被配置成从生物样本输出核苷酸序列的读段；比对单元，被配置成将所述读段与一个或多个参考序列进行比对，从而创建比对读段；分类单元，被配置成根据与所述一个或多个参考序列的匹配准确度对所述比对读段进行分类，从而创建比对读段的类别；编码单元，被配置成将分类的比对读段编码为语法元素层；细分单元，被配置成用标头信息将所述语法元素层结构化，从而创建连续的访问单元；索引表处理单元，被配置成创建主索引表，所述主索引表包含每类比对读段的一个部分，所述一个部分包括每类数据的每个访问单元的第一读段在所述一个或多个参考序列上的映射位置；存储单元，被配置成联合存储所述主索引表和所述访问单元数据。

根据一个公开的方面，提取被存储在基因组文件中的核苷酸序列的读段的提取器，其中所述基因组文件包括根据本公开的原理所存储的主索引表和访问单元数据，所述提取器包括以下步骤：用户输入装置，被配置成接收输入，所述输入识别要被提取的读段的类型；检索装置，被配置成从所述基因组文件检索所述主索引表；检索装置，被配置成检索与所述要被提取的读段的类型相对应的访问单元；重建装置，被配置成重建在一个或多个参考序列上映射检索到的访问单元的所述核苷酸序列的读段。

根据一个公开的方面，数字处理设备被编程为进行前面段落中所述的方法。根据另一个公开的方面，非暂时性存储介质由数字处理设备访问，并且存储可由数字处理设备执行的指令以进行前面段落中所述的方法。

根据另一个公开的方面，非暂时性存储介质可由数字处理器读取并且存储用于处理基因组或蛋白质组数据的软件，所述基因组或蛋白质组数据表示为包括生物信息学字符集的字符的基因组或蛋白质组字符串，其中基因组或蛋白质组数据的每个碱基或肽以前面段落中所描述的格式被表示。在一些实施例中，软件使用数字信号处理转化来处理基因组或蛋白质组数据。

具体实施方式

序列读段的分类

根据相对于一个或多个参考序列的比对结果，通过所公开的本发明将由测序仪生成的序列读段分类成五个不同的“类别”。

当相对于参考序列比对核苷酸的DNA序列时，有以下五种可能的结果：

1.发现参考序列中的区域与序列读段匹配而没有任何错误(完全映射)。这样的核苷酸序列将被称为“完全匹配的读段”或被表示为“P类”。

2.发现参考序列中的区域与序列读段匹配，其中数个错配由测序仪不能读出任何碱基(或核苷酸)的多个位置构成。这样的错配由“N”表示。这样的序列将被称为“N错配读段”或“N类”。

3.发现参考序列中的区域与序列读段匹配，其中数个错配由测序仪不能读出任何碱基(或核苷酸)或已读出与在参考基因组中所报告的碱基不同的碱基的多个位置构成。这样类型的错配被称为单核苷酸变异(SNV)或单核苷酸多态性(SNP)。该序列将被称为“M错配读段”或“M类”。

4.第四类是由测序读段构成的，该测序读段表示错配类型，错配类型包括M类的相同错配加上插入或缺失的存在(又名插入缺失)。插入是由不存在于参考中、但却存在于读段序列中的一个或多个核苷酸的序列来表示的。在文献中，当插入的序列位于序列的边缘时，其被称为“软剪切”(即，核苷酸与参考不匹配，但却与被丢弃的“硬剪切”的核苷酸相反地保持在比对读段中)。缺失是相对于参考的在比对读段中的“孔”(缺少核苷酸)。这样的序列将被称为“I错配读段”或“I类”。

5.第五类包括根据指定的比对约束在参考基因组上未发现任何有效映射的所有读段。据说这样的序列是未映射的并且属于“U类”。

可以使用从头组装算法将未映射的读段组装成单个序列。一旦已经创建新的序列，就可以进一步相对该序列来映射未映射的读段并且将其分类成四个类P、N、M和I中的一个。

将基因组信息分解成层

一旦用类别的定义完成了读段的分类，进一步的处理则在于：定义一组不同的语法元素，其表示当被表示为映射在给定的参考序列上时能够重建DNA读段序列的剩余信息。参考给定参考序列的DNA片段可以通过以下方式被完全表达：

·在参考基因组上的起始位置(pos)。

·如果读段必须被视为与参考的反向互补则发出信号的标志(rcomp)。

·在配对读段的情况下，到配合物对的距离(pair)。

·在测序技术产生可变长度的读段的情况下，读段的长度值。在恒定读段长度的情况下，与每个读段相关联的读段长度显然可以被省略，并且可以被存储在主文件标头中。

·描述读段的特定特征(副本读段、对中的第一或第二读段等……)的附加标志。

·对于每个错配而言：

o错配位置(N类的nmis、M类的snpp和I类的indp)

o错配类型(不存在于N类中、M类中的snpt、I类中的indt)

·当存在时可选的软剪切核苷酸字符串(I类中的indc)

该分类创建了多组能够被用来单义表示基因组序列读段的描述符(语法元素)。下表总结了每类比对读段所需的语法元素。

	P	N	M	1
					pos	X	X	X	X
pair	X	X	X	X
					rcomp	X	X	X	X
flags	X	X	X	X
					rlen	X	X	X	X
nmis		X
					snpp			X
snpt			X
					indp				X
indt				X
					indc				X

表1-每类数据的定义的层

如果已经通过产生配合对、一些标志和读段长度的测序技术获得，属于P类的读段则仅通过位置、反向互补信息和在配合物之间的距离被表征并且可以被完全重建。

图4示出读段如何被成对耦合(根据来自Illumina公司的最常用的测序技术)并且被映射到参考序列上。被映射在参考序列上的读段对被编码成多个同源(homogeneous)描述符(即，位置、一个对中的读段之间的距离、错配等……)的层。

层被定义为与唯一地识别被映射在参考序列上的读段所需的多个元素之一相关的描述符的向量。以下是层的示例，每个层均承载描述符的向量：

·读段位置层

·反向互补层

·配对信息层

·错配位置层

·错配类型层

·插入缺失层

·剪切的碱基层

·读段长度层(仅在可变读段长度的情况下存在)

·BAM标志层

数据块、访问单元和基因组数据层

本发明所公开的数据结构依赖于以下概念：

数据块被定义为构成层的相同类型(例如，位置、距离、反向互补标记、错配的位置和类型)的描述符向量元素集。一个层通常由多个数据块组成。数据块可以被划分为基因组数据包，基因组数据包包括具有通常根据通信信道要求所指定的大小的传输单元。这样的划分特征对于使用典型的网络通信协议来实现传输效率是令人期望的。

访问单元被定义为基因组数据的子集，其可以通过仅使用全局可用数据(例如，解码器配置)而独立于其他访问单元被完全解码或通过使用被包含在其他访问单元中的信息被完全解码。访问单元由标头和将不同层的数据块多路复用的结果组成。多个相同类型的包被封装在块中，并且多个块在一个访问单元中被多路复用。图5中描述了这些概念。图6示出由标头和一层或多层相同性质的数据块组成的访问单元。图6示出图5中所描绘的通用访问单元结构的示例，其中

·第1层的数据块包含与参考序列上的读段位置有关的信息；

·第2层的数据块包含关于读段的反向互补性的信息；

·第3层的数据块包含与读段配对信息有关的信息；

·第4层的数据块包含关于读段长度的信息。

基因组数据层被定义为编码相同类型数据的一组基因组数据块(例如，在参考基因组上完全匹配的读段的位置块被编码在同一层中)。

基因组数据流是基因组数据层的分组化版本，其中编码的基因组数据被承载作为基因组数据包的有效载荷，包括标头中的附加服务数据。参见图7，将3个基因组数据层分组成3个基因组数据流的示例。

基因组数据多路复用被定义为基因组访问单元序列，用于传递与基因组测序、分析或处理的一个或多个处理相关的基因组数据。图7提供承载在访问单元中所分解的三个基因组数据流的基因组多路复用之间的关系的示意图。访问单元封装属于三个流的数据块，数据块被划分到基因组包中以在传输网络上被发送。

资源模型、熵编码器和编码模式

对于本发明中所公开的基因组数据结构的每一层，可以根据层所承载的数据或元数据的具体特征以及数据或元数据的统计特性采用不同的编码算法。“编码算法”必须旨在将描述符的具体“资源模型”与具体的“熵编码器”相关联。可以指定和选择具体的“资源模型”以便在使资源熵最小化的方面获得最有效的数据编码。熵编码器的选择可以通过编码效率的考虑和/或概率分布特征和相关联的实现问题来驱动。具体编码算法的每个选择将被称为应用于整个“层”或被包含在访问单元中的所有“数据块”的“编码模式”。与编码模式相关联的每个“资源模型”的特征在于：

·每个资源所发出的语法元素的定义(例如，读段位置、读段配对信息以及相对于参考序列的错配等)。

·相关联的概率模型的定义。

·相关联的熵编码器的定义。

对于每个数据层，一个访问单元中所采用的资源模型独立于相同数据层的其他访问单元所采用的资源模型。这使得每个访问单元能够在最小化熵方面为每个数据层使用最有效的资源模型。

表

主索引表

为了支持对比对数据的特定区域的选择性访问，本文档中所描述的数据结构实现被称为主索引表(MIT)的索引工具。这是包含两类数据的多维数组：

1.在使用的参考序列上映射特定读段的轨迹。被包含在MIT中的这些值是每个pos访问单元中第一读段的映射位置，以便支持对每个访问单元的非顺序访问。MIT的这些部分包含每类数据(P、N、M和I)和每个参考序列的一个部分。

2.指向访问单元的指针，指针包含重建读段的块所需的数据，该读段在映射位置被存储在第1指针中所提到的位置向量中的那些读段之后。每个指针向量被称为本地索引表。

访问单元映射位置

图8示出MIT的示意图，其着重强调四个向量，四个向量包含每类数据的每个访问单元的参考序列(可能多于一个)上的映射位置。

MIT被包含在编码数据的主标头中。图9示出主标头的通用结构和P类编码读段的MIT向量的示例。

被包含在图9中所描绘的MIT中的值被用来直接访问压缩域中感兴趣的区域(和相对应的访问单元)。

例如，参考图9，如果分析师需要访问包括在2号参考上的位置150,000和250,000之间的区域中所映射的完全匹配的读段，解码应用将跳到MIT中的P类位置向量和第二参考，并且将寻找两个值k1和k2，使得k1<150,000并且k2>250,000。在图9的示例中，这将导致MIT向量的第二块(第二参考)的位置3和4参考P类的映射位置。然后，解码应用将使用这些返回值从如下一部分所述的pos层来获取适当访问单元的位置。

访问单元指针

被包含在MIT的剩余向量中的第二类型的数据(图8)包括指向编码比特流中每个访问单元的物理位置的指针的向量。每个向量被称为本地索引表，因为其范围限于一同源类别的编码信息。

对于四类映射的读段(P、N、M、I)中的每一类别，需要多种类型的访问单元来重建编码的读段(对)。与每类数据相关联的特定类型的访问单元取决于相对于如上所述的一个或多个参考序列在每个类中的读段上所应用的匹配函数的结果。

在图9的前一示例中，为了访问2号参考序列上所比对的读段的区域150,000到250,000，解码应用从MIT中的P类的位置向量检索位置3和4。应由解码处理使用这些值来访问MIT的相对应的访问单元向量(在这种情况下是第二个)的第3和第4元素。在图11所示的示例中，主标头中所包含的总访问单元计数器被用来跳过与参考1(示例中为4)相关的访问单元的位置。因此，包含编码流中所请求的访问单元的物理位置的索引被计算为：

所请求的AU的位置＝要被跳过的参考1的AU+使用MIT所检索的位置，即

第一个AU位置：4+3＝7

最后一个AU位置：4+4＝8

这意味着感兴趣的区域(在2号参考序列上在位置150,000和250,000之间所映射的P类读段被包含在由指针所指向的访问单元(第1类型的p类访问单元)中，该指针被存储在主索引表的第7和第8列，T1p行中。

图11示出MIT的一个向量的元素(例如，P类Pos)如何指向一个LIT的元素(图11的示例中的第1类型的pos向量)。

调整参考序列

针对N、M和I类编码的错配可以被用来创建“修饰的基因组”以被用来重新编码N、M或I层(相对于第一参考基因组，R₀)中的读段作为相对于“调整的”基因组R₁的p读段。例如，如果用表示，则M类的第i个读段包含相对于参考基因组n的错配，“调整”之后，可以通过A(Ref_n)＝Ref_n+1获得/>其中A是从参考序列n到参考序列n+1的转换。

图12示出如何通过修饰错配位置，将相对于参考序列1(RS1)包含错配的读段(M读段)转换成相对于从RS1所获得的参考序列2(RS2)的完全匹配的读段(P读段)。这种转换可以表示为

RS2＝A(RS1)

如果从RS1到RS2的转换A的表达需要较少比特的在M读段中存在的错配的表达，则该编码方法导致较小的信息熵并且因此导致更好的压缩。

在一些情况下，参考基因组中的一个或多个修饰可以通过将一组N、M或I读段转换为P读段来减少整体信息熵。

现在根据图13描述根据本发明原理的系统架构。在资源处，一个或多个基因组测序装置130和/或应用以包含以下格式生成和表示基因组信息131，该格式包括：

·表示核酸的一个或多个符号序列

·每个基因组序列的唯一标识符

·每个符号的可选质量值

·可选元数据

·被用来进一步处理生成的基因组序列的一个或多个可选参考序列。

读段比对单元132接收原始序列数据，并且将它们在一个或多个可用参考序列上进行比对，或者通过寻找应用被已知为“从头”组装的方法的重叠前缀和后缀将这些数据组装成更长的序列。

读段分类单元134接收比对的基因组序列数据133，并且相对于以下各项对每个序列应用匹配函数：

·一个或多个可用的参考序列或

·在比对处理期间所构建的内部参考(在“从头”组装的情况下)

层编码单元136接收由分类单元134所产生的读段类135，并且产生语法元素层137。

标头和访问单元编码单元138在访问单元中封装语法元素层137，并且向每个访问单元添加标头。

主索引表编码单元1310创建指向所接收的访问单元139的指针的索引。

压缩单元1312以更紧凑(压缩)的格式1315转换所述表示的输出，以减少所利用的存储空间；

本地或远程存储装置1316存储压缩信息1315。

解压缩单元1313将压缩信息1315解压缩以检索等同于基因组信息131的解压缩数据1317。

分析单元1314还通过增量地更新其中所包含的元数据来处理所述基因组信息1317。

一个或多个基因组测序装置或应用1318可以通过添加另外的基因组测序处理的结果来向现有基因组数据添加额外信息，而无需重新编码现有基因组信息；以产生更新数据1319。应在将新生成的基因组数据与现有数据合并之前将比对和压缩应用于新生成的基因组数据。

上述实施例的多个优点之一是需要访问数据的基因组分析装置和应用将能够通过使用一个或多个索引表来查询和检索所需信息。

图14公开根据本发明的原理的序列读段提取器140。

提取器装置140利用本发明中所描述的主索引表来随机访问以根据本公开的基因组文件格式被存储的任何序列读段。提取器装置140包括用户输入装置141，用于从用户接收关于要被检索的特定数据的输入信息142。例如，用户可以根据以下方面指定：

a.基因组区域：

i.参考基因组上的开始和结束绝对位置

ii.一个全参考序列(例如，染色体)

b.仅一个特定类型的编码序列读段，诸如：

i.在一个或多个参考基因组上完全匹配的序列读段

ii.相对于一个或多个参考序列确切地呈现N错配的序列读段

iii.相对于一个或多个参考序列呈现数个低于或高于指定阈值的错配的序列读段

iv.相对于参考序列呈现插入和缺失的序列读段。

图14的MIT提取器143解析基因组文件的主标头以访问如图9所示的被包含信息：

c.唯一标识符

d.所使用的语法的版本

e.主标头的以字节为单位的大小

f.被用来解码索引读段的参考序列的数量

g.流所包含的数据块的数量

h.参考标识符

i.主索引表。

MIT解析器和AU提取器145通过利用主索引表的以下信息来检索所请求的访问单元：

j.每个访问单元中第一读段的参考基因组上的位置的向量。图9示出解码装置如何读取这样的位置并且找出哪个访问单元包含在所请求的区域内所映射的编码读段。

k.每个编码层的本地索引表。这些向量被用来检索步骤a中所识别的那些访问单元的物理位置，步骤a包含在用户请求的基因组区域上所映射的序列读段

l.本地索引表针对每类数据被定义，因此提取器装置将仅提取涉及用户所请求的序列读段的那些类。例如，在仅请求完全匹配的读段的情况下，提取设备将仅访问与如图8所示的P类有关的LIT。

使用在检索的访问单元中所找到的信息和在基因组比特流中所编码的或在提取装置处可用的一个或多个参考序列，读段重建器147能够重建原始序列读段。

图15示出根据本明的原理的基因组编码器207。编码设备进一步阐明图13的系统架构的压缩方面，然而，在图15的编码器中省略了主索引表和访问单元创建，这产生了不具有元数据和结构化信息的压缩流。编码设备207接收例如由基因组测序设备200所产生的原始序列数据209作为输入。基因组测序设备200在本领域中是已知的，如Illumina HiSeq2500或Thermo-Fisher Ion Torrent装置。原始序列数据209被馈送到比对器单元201，比对器单元201通过将读段与参考序列比对来准备用于编码的序列。替代地，可以使用从头组装器202来通过查找重叠前缀或后缀以便可以从读段组装更长的片段(被称为“重叠群”)来从可用的读段创建参考序列。在已经由从头组装器202处理之后，可以将读段映射在所获得的较长序列上。随后，通过数据分类模块204对比对的序列进行分类。然后，将数据类别208馈送到层编码器205-207。然后，将基因组层2011馈送到算术编码器2012-2014，算术编码器2012-2014根据由层所承载的数据或元数据的统计特性对层进行编码。结果是基因组流2015。

图16示出相对应的解码设备218。解码设备218从网络或存储元件接收多路复用的基因组比特流2110。多路复用的基因组比特流2110被馈送到解复用器210以产生单独的流211，单独的流211随后被馈送到熵解码器212-214以产生基因组层215。提取的基因组层被馈送到层解码器216-217，以进一步将层解码成数据类。类解码器219进一步处理基因组描述符并且合并结果以产生未压缩的序列读段，然后可以以本领域已知的格式，例如，文本文件或zip压缩文件，或FASTQ或SAM/BAM文件，进一步存储该未压缩的序列读段。类解码器219能够通过利用由一个或多个基因组流所承载的原始参考序列上的信息来重建原始基因组序列。在基因组流未传输参考序列的情况下，参考序列必须在解码侧是可用的且可由类解码器访问。

在一个或多个示例中，本文公开的发明技术可以用硬件、软件、固件或其任何组合来实现。当以软件实现时，这些可以被存储在计算机介质上并且由硬件处理单元执行。硬件处理单元可以包括一个或多个处理器、数字信号处理器、通用微处理器、专用集成电路或其他分立逻辑电路。

本公开的技术可以在各种装置或设备，包括移动电话、台式计算机、服务器、平板电脑和类似装置中实现。

以下权利要求中描述了许多其他优点。

Claims

1.一种用于以基因组文件格式存储基因组序列数据的表示的计算机实现的方法，其特征在于，所述基因组序列数据包括核苷酸序列的读段，所述方法包括以下步骤：

将所述读段与一个或多个参考序列进行比对，从而创建比对读段，

将所述比对读段分类成类别，其中所述分类包括：

当所述比对读段中的一个或多个比对读段与所述一个或多个参考序列匹配而没有任何错配时，将所述一个或多个比对读段分类成第一类别；

当所述比对读段中的一个或多个比对读段与所述一个或多个参考序列匹配而具有数个错配时，将所述一个或多个比对读段分类成第二类别；

当所述比对读段中的一个或多个比对读段与所述一个或多个参考序列匹配而存在符号替换以及存在插入或缺失和软剪切符号时，将所述一个或多个比对读段分类成第三类别；

当所述比对读段中的一个或多个比对读段与所述一个或多个参考序列不匹配时，将所述一个或多个比对读段分类成第四类别，

从而创建比对读段的类别；

将分类的比对读段熵编码为层，每个层包括数据块，每个数据块包括作为相同类型的语法数据元素向量的描述符，所述描述符包括与相对于参考序列的读段位置有关的信息数据，其中根据由层所承载的数据或元数据的统计特性来调整将所述分类的比对读段编码为语法数据元素层；

用标头信息将所述数据块层结构化，从而创建连续的访问单元，

创建主索引表，所述主索引表包含每类比对读段的一个部分，所述一个部分包括每类比对读段的每个访问单元的第一读段在所述一个或多个参考序列上的映射位置；

联合存储所述主索引表和所述访问单元数据。

2.如权利要求1所述的方法，其特征在于，所述主索引表还包括指向编码比特流中每个后续访问单元的物理位置的指针的向量。

3.如权利要求1所述的方法，其特征在于，所述主索引表还包含每个参考序列的一个部分。

4.如权利要求1所述的方法，其特征在于，所述描述符包括：

对于所述第一类别，在参考基因组上的起始位置(pos)，在配对读段的情况下，到配合物对的距离(pair)，如果读段必须被视为与参考的反向互补则发出信号的标志(rcomp)，描述读段的特征的附加标志以及在测序技术产生可变长度的读段的情况下，读段的长度值(rlen)，

对于所述第二类别，所述第一类别的所有描述符以及错配位置(nmis)，

对于所述第三类别，所述第一类别的所有描述符，错配类型(snpt)以及错配位置(snpp)，

对于所述第四类别，所述第一类别的所有描述符，错配位置(indp)，错配类型(indt)。

5.如权利要求4所述的方法，其特征在于，第四类别的所述描述符还包括当存在时软剪切核苷酸字符串(indc)。

6.如权利要求1所述的方法，其特征在于，将所述分类的比对读段编码为层采用不同的熵编码器。

7.一种提取被存储在基因组文件中的核苷酸序列的读段的方法，其特征在于，所述基因组文件包括主索引表和访问单元，

其中所述访问单元包含数据块，所述数据块包括表示编码的比对读段的描述符，

其中：

如果一个或多个比对读段与一个或多个参考序列匹配而没有任何错配，则所述一个或多个比对读段被分类成第一类别；

如果一个或多个比对读段与所述一个或多个参考序列匹配而具有数个错配，则所述一个或多个比对读段被分类成第二类别；

如果一个或多个比对读段与所述一个或多个参考序列匹配而存在符号替换以及存在插入或缺失和软剪切符号，则所述一个或多个比对读段被分类成第三类别；

如果一个或多个比对读段与所述一个或多个参考序列不匹配，则所述一个或多个比对读段被分类成第四类别；

其中所述描述符包括与相对于参考序列的读段位置有关的信息数据，

其中所述主索引表包含每类比对读段的一个部分，所述一个部分包括每类比对读段的每个访问单元的第一读段在所述一个或多个参考序列上的映射位置；

所述方法包括以下步骤：

确定要被提取的读段的类型，

在所述主索引表中检索指示每个访问单元中第一读段的参考基因组上的位置的数据以及检索指示每类数据访问单元的物理位置，以及

检索与所述要被提取的读段的类型相对应的访问单元，以及

重建在一个或多个参考序列上映射检索到的访问单元的所述核苷酸序列的读段。

8.如权利要求7所述的方法，其特征在于，所述基因组文件还包括所述一个或多个参考序列。

9.如权利要求7所述的方法，其特征在于，经由带外机构提供所述一个或多个参考序列。

10.如权利要求7所述的方法，其特征在于，所述描述符包括：

11.如权利要求10所述的方法，其特征在于，第四类别的所述描述符还包括当存在时软剪切核苷酸字符串(indc)。

12.一种基因组测序仪，其特征在于，包括：

基因组测序单元(130)，被配置成从生物样本输出核苷酸序列的读段(131)，

比对单元(132)，被配置成将所述读段与一个或多个参考序列进行比对，从而创建比对读段(133)，

分类单元(134)，被配置成将所述比对读段分类成类别，所述类别至少包括：

当所述比对读段与所述一个或多个参考序列匹配而没有任何错配时的第一类别；

当所述比对读段与所述一个或多个参考序列匹配而具有数个错配时的第二类别；

当所述比对读段与所述一个或多个参考序列匹配而存在符号替换以及存在插入或缺失和软剪切符号时的第三类别；

当所述比对读段与所述一个或多个参考序列不匹配时的第四类别，

从而创建比对读段的类别(135)；

编码单元(136)，被配置成将分类的比对读段编码为编码数据层，每个层包括数据块，每个数据块包括作为相同类型的语法数据元素向量的描述符，所述描述符被用来识别根据参考序列上的映射所分类的所述读段，所述描述符包括与相对于参考序列的读段位置有关的信息数据，其中根据由层所承载的数据或元数据的统计特性来调整将所述分类的比对读段编码为语法元素层，

细分单元(138)，被配置成用标头信息将所述数据块层结构化，从而创建连续的访问单元(139)，

索引表处理单元(1310)，被配置成创建主索引表，所述主索引表包含每类比对读段的一个部分，所述一个部分包括每类数据的每个访问单元的第一读段在所述参考序列上的映射位置；

存储单元(1312-1316)，被配置成联合存储所述主索引表和所述访问单元数据(1311)。

13.如权利要求12所述的基因测序仪，其特征在于，所述主索引表还包括指向每个后续访问单元的物理位置的指针的向量。

14.一种提取被存储在基因组文件中的核苷酸序列的读段的提取器(140)，其特征在于，被配置成进行权利要求7-11中任一项所述的方法。

15.一种包括多个指令的机器可读介质，其特征在于，所述多个指令响应于在计算设备上被执行，使得所述计算设备进行权利要求1-11所述的方法。