CN115552536A

CN115552536A - 在mpeg-g中进行有效数据压缩的方法和系统

Info

Publication number: CN115552536A
Application number: CN202180034395.5A
Authority: CN
Inventors: C·艾伯蒂; 马西莫·拉瓦西; 保洛·里贝卡
Original assignee: Genomsys SA
Current assignee: Genomsys SA
Priority date: 2020-04-15
Filing date: 2021-03-17
Publication date: 2022-12-30
Also published as: KR20230003493A; US20230274800A1; EP4136640A1; CA3174759A1; JP2023521991A; EP3896698A1; WO2021209216A1

Abstract

一种计算机实施的方法，其用于存储或传输包括与基因组测序数据相关联的注释数据的基因组文件格式的所述基因组测序数据的表示，所述基因组测序数据包括核苷酸序列的读段，所述方法包括以下步骤：将所述读段比对(10)到一个或多个参考序列，借此创建经比对读段，基于所述经比对读段在所述一个或多个参考序列上的映射根据分类规则对所述经比对读段进行分类(14)，借此创建经比对读段的类(18)，将所述经分类的经比对读段熵编码为大量的描述符块，以标头信息使所述描述符块结构化，借此创建含有基因组测序数据的第一分类的存取单元(119)，所述方法进一步包括将注释数据(12)编码到第二分类的不同存取单元(122)中且将索引数据编码到主注释索引(MAI、123、211)中，其中所述索引数据表示通过对注释串数据(212)采用至少一个压缩串索引算法(28)而获得的所述注释串数据的经编码形式，且其中所述MAI使经编码注释串与第二分类的所述存取单元相关联，所述方法进一步包括对第一分类的所述存取单元、第二分类的所述存取单元和所述MAI进行联合编码。

Description

在MPEG-G中进行有效数据压缩的方法和系统

技术领域

本发明涉及MPEG-G的数据压缩的领域。

MPEG-移动图片专家组(MPEG)是由ISO和IEC形成以为音频和视频压缩及传输设定标准的数据压缩专家的工作组。

此工作组在上个世纪90年代早期就已开发用于视频有效的视频压缩的标准。MPEG技术基本上在于，减小视频和音频源数据的熵使得可实现较高压缩比以实现有效的存储和传输。

既然MPEG专家组内有大量的数据压缩的专门知识，所以决定开发一种用于基因组信息的压缩的标准以克服此项技术中存在的解决方案(例如，CRAM和BAM文件格式)的局限性。

因此，即使MPEG-G涉及基因组数据的压缩，也从作为本申请的最接近的技术领域的视频和音频压缩的领域获取发掘数据冗余的主要理念。

本发明实际上以与语法要素应用于MPEG的视频和音频数据的压缩类似的方式应用基因组数据的语法要素构造。

然而，了解到基因组数据非常不同于音频和视频数据这一事实，数据分类和语法要素不同于MPEG视频和音频标准中使用的数据分类和语法要素：实际上，必须发掘基因组数据中存在的冗余，且这些冗余不同于多媒体数据。

因此，本发明研究以有效的方式压缩基因组数据以便获得大小减小的且在压缩域中也容易随机存取的文件。

本发明构建于专利申请WO 2018/068827A1、WO 2018/068828A1、WO 2018/068829A1、WO 2018/068830A1中所公开的编码和解码方法、系统和计算机程序之上，这些专利申请的与基因组数据的熵编码相关的公开内容对于理解本发明的一些方面可能是必要的；前述文献的公开内容因此应被视为以引用的方式并入本发明中。

本公开提供一种表示关联到基因组测序数据的注释和元数据的新颖的方法，其通过提供在已知现有技术表示方法的情况下不可用的新的索引功能性而减小所利用的存储空间，提供用于若干元数据格式的单个语法并改进数据存取性能。

本发明中所公开的方法通过以下操作提供基因组测序数据和相关联注释的较高压缩比：

·依据如本公开中定义的数值和文本描述符的语法来表示所述基因组测序数据和相关联注释

·与带索引文本描述符分开地压缩非索引描述符

·将例如差分编码、游程长度编码、字节分离，以及熵编码器(例如CABAC、霍夫曼编码、算术编码、范围编码)等变换应用于非索引描述符

·通过消除现有方法所实现的具有索引和经压缩有效负载两者的冗余，将例如压缩串模式匹配数据结构、压缩后缀阵列、FM索引和散列表等经压缩完全文本串索引算法应用于带索引文本描述符。

与带索引文本描述符分开地压缩非索引描述符的优点在于，这2类数据一旦分开分组就展示比其一起编码时低的熵，因此可实现较高压缩比。

通过使用经压缩完全文本串索引算法，本发明中描述的方法不需要具有基因组信息的经压缩有效负载和所述信息的索引两者来支持选择性存取，因此达成较好的压缩比。经压缩完全文本串索引算法同时为索引和经压缩信息，且既可用于执行选择性存取也可用于通过解压缩检索所要的信息。本发明克服如此项技术中的现有解决方案当前所要求的具有索引和经压缩有效负载两者的需要。

所述方法还允许以阶层方式描述并以经压缩形式存储先前不相关的与基因组注释相关的概念。这使得有可能编码先前无法描述的此些概念之间的关系，因此允许描述和互换数据的新颖的方式。

背景技术

在数据处理的不同阶段期间变换由DNA、RNA或蛋白质测序机器生成的基因组或蛋白质组信息，以产生各种各样的数据。在现有技术解决方案中，这些数据当前存储在具有不同且不相关结构的计算机文件中。因此，此信息非常难以存档、传递和详尽阐述。

本发明中提及的基因组或蛋白质组序列包含(例如，但不限于)核苷酸序列、脱氧核糖核酸(DNA)序列、核糖核酸(RNA)和胺基酸序列。

序列比对指代通过找到可以是序列之间的功能、结构或演化关系的结果的类似性的区来布置序列读段的过程。当参考称为“参考序列”的预先存在的核苷酸序列执行比对时，所述过程称为“映射”。现有技术解决方案将此信息存储在“SAM”、“BAM”或“CRAM”文件中。执行序列比对的过程也称为“比对”。

在WO2018068827 A1的图2中描绘比对序列以重建部分或全基因组的概念，该文献的公开内容以引用的方式并入本文中。

显然需要通过组织和分割数据提供适当的基因组测序数据和元数据表示(基因组文件格式)，使得数据和元数据的压缩最大化，且有效地实现例如选择性存取以及对基因组数据生命周期的不同阶段处有效的递增更新和其它数据处理功能性的支持等若干功能性。

此外，当由高处理量测序机器生成的基因组测序数据由处理管线和分析员分析时，生成表达若干相异性质的基因组的不同区的注释，且所述注释当前由多种多样的文本格式表示。尽管所生成的不同类型的结果和注释概念上彼此相关且理想地需要联合存取和使用，但此项技术中使用的当前解决方案使得这些元数据呈独立且分离的文本文件的形式且与同基因组读段相关的经编码数据分离。这些格式不支持一个文件的要素与概念上联接且因此可共享共同生物学含义的其它文件的要素之间的任何类型的联接。

在最佳情况中，此显式连接的缺乏暗示，处理和使用基因组数据和注释信息需要在搜索特定信息和相关联元数据时对可能较大的文本文件进行耗时且过于低效的解析。在最坏情况中，不可能描述连接的事实妨碍了用于例如生物医学研究或个体化用药等下游应用的有效的生物信息工作流和数据库的开发。

例如，比对到基因(其通常由参考基因组上的一组区间构成)上的RNA测序读段需要进行计数以便测量用于实验的生物学条件中的基因的表达程度。不同生物学条件(产生由不同实验生成的不同读段集合)通常在以找到将基因型联接到表型的路径为目标的特定实验的上下文中进行比较。生成关于单个读段及其到参考基因组的比对的信息并将所述信息汇总为具有更通用的基因和生物学含义的结果的过程称为“次级分析”。

由次级分析使用基因组测序读段生成的不同类型的注释(元信息)可概念上关联到比对到用作参考的基因组序列的一个或多个区间的基因组测序读段。

可通过指定参考组合中的核苷酸序列(即，基因组中的染色体、基因、邻接碱基的集合、单个碱基...)、可为前向或逆向的分子链，以及指定包含在区间中的碱基(也就是核苷酸)的范围的开始和结束位置，来唯一地标识基因组区间。

例如变体、给定位置(也表示为“覆盖范围”)处的经比对读段的数目、结合到蛋白质的基因组的部分、基因的性质和位置，以及关联到特定基因功能的区等与基因组区间相关联的特征可经唯一地标识且关联到基因组区间。区间可短至单个碱基，或其可跨越数千个核苷酸或更多。

大量的整合实验可构建基因组测序数据的复合分析。不同测序导出的协议通常表征每一实验；使用其来对细胞的不同功能或隔室进行取样。每一实验中由初级分析(即，读段相对于参考的比对)和次级分析(即，对比对结果执行的整合和统计研究)产生的结果可以图形形式使用称为基因组浏览器的软件应用显示，从而能够沿着核苷酸的位置进行基因组的一维导航。由关联到基因组中的每一位置或关联到每一区间的次级分析产生的信息通常以每测序实验不同的曲线(或“轨迹”)的形式显示，所述曲线表示转录物的存在和结构、个体或群体中的序列变体、测序读段的覆盖范围、结合到基因组的每一位置的蛋白质的强度。

由分析工具产生的现有技术水平基因组注释格式使用若干多种多样的且独立定义和维持的格式表示所有前述结果-也称为“特征”。此些格式通常表征为不良且不一致的语法和语义，这些导致每一类型的分析结果的稍微不同且不兼容的文件格式的增生。所有当前现有解决方案的缺点是，致力于基因组数据的整合分析的科学家们被迫在需要联合地存取和研究数组实验时通过使用文本处理工具和程序的复合串联来系统地对不同格式进行转码。不同格式的此增生导致跨即使使用仅稍微不同的表示和相关联语义的不同科学家组的结果的不良互操作性和可再现性。

最常用来表示由基因组测序数据分析生成的基因组注释的且在此项技术中使用的格式为：

·变体检测格式(Variant Calling Format，VCF)，其用以表示相对于可存在于单个个体或个体的群体中的参考基因组的变体；

·浏览器可扩展数据(Browser Extensible Data，BED)格式，其支持通常在基因组浏览器中展示的注释轨迹中显示的数据线的表示。http://genome.ucsc.edu/FAQ/FAQformat#format1

·通用特征格式(Generic Feature Format，GFF)表示表征为9个列和标签页-定界符的文本文件中的基因组特征。

·基因转移格式(Gene Transfer Format，GTF)是GFF的扩展，且与GFF后向兼容。

·BigWig格式用于表示待在基因组浏览器中显示为图形的稠密连续数据。

·此外，不可能借助于统一阶层结构描述此些多种多样的数据的事实意味着，也完全不可能描述属于不同类别的特征之间的关系，这使领域内的进展更为困难。

发明内容

为了解决现有技术的上述问题，提出权利要求1、9、12、14和16的主题。在附属权利要求中指示有利的修改。

更具体地说，本公开提供一种用于编码、存储和/或传输包括与基因组测序数据相关联的注释数据的基因组文件格式的所述基因组测序数据的表示的计算机实施的方法，所述基因组测序数据包括核苷酸序列的读段，所述方法包括以下步骤：

将所述读段比对到一个或多个参考序列，借此创建经比对读段，

基于所述经比对读段在所述一个或多个参考序列上的映射根据分类规则对所述经比对读段进行分类，借此创建经比对读段的类，

将所述经分类的经比对读段熵编码为大量的描述符块，

以标头信息使所述描述符块结构化，借此创建含有基因组测序数据的第一分类的存取单元，

所述方法进一步包括将注释数据编码到第二分类的不同存取单元中且将索引数据编码到主注释索引中，其中所述索引数据表示通过对注释串数据采用至少一个压缩串索引算法而获得的所述注释串数据的经编码形式，且其中所述MAI使经编码注释串与第二分类的所述存取单元相关联。

优选地，所述方法进一步包括对第一分类的所述存取单元、第二分类的所述存取单元和所述MAI进行联合编码。

所述方法可进一步包括以下步骤：将经编码基因组测序数据存储在计算机可读存储介质上或传输到计算机可读存储介质；或例如通过经由数据网络或另一数据基础架构传输基因组测序数据使经编码基因组测序数据可以此项技术中已知的任何其它方式供用户使用。

在本公开的上下文中，描述符可例如实施为如下文的详细描述中定义的基因组注释描述符。

进一步优选地，含有基因组注释数据的第二分类的所述存取单元进一步包括标识基因组区间的信息数据，其中所述基因组区间标识所述一个或多个参考序列中的核苷酸序列，使得包含在第二分类的存取单元中的注释数据与包含在含有基因组测序数据的第一分类的存取单元中的基因组序列的相关编码读段相关联。

根据(进一步)优选实施例，所述注释数据和索引数据的编码包括以下步骤：

将基因组注释数据编码为基因组注释描述符，其中所述基因组注释描述符包括数值描述符和文本描述符，所述编码包括以下步骤：

-根据特别地由用户提供的配置参数从所述文本描述符选择文本描述符的子集；

-通过采用第一串变换方法变换文本描述符的所述子集以产生串索引；

-通过采用串索引变换方法变换和编码所述串索引，借此产生主注释索引数据；

-通过采用不同于第一变换方法的至少一个第二变换方法变换所述数值描述符和不包含在文本描述符的所述子集中的文本描述符；

-通过针对数值描述符采用至少一个第一熵编码器且针对不包含在文本描述符的所述子集中的文本描述符采用至少一个第二熵编码器，将所述数值描述符和不包含在文本描述符的所述子集中的文本描述符编码到单独的第二分类的存取单元中。

进一步优选地，所述第一串变换方法包括以下步骤：

-在每一文本描述符之后插入用于传信每一文本描述符的终止的串终止子字符；

-串接文本描述符；

-使基因组注释记录索引数据交错以使所述文本描述符与第二分类的存取单元内的基因组注释记录的位置相关联。

根据(进一步)优选实施例，串索引变换方法是串模式匹配、后缀阵列、FM-索引、散列表中的一个。

优选地，所述至少一个第二变换方法是以下中的一个：差分编码、游程长度编码、字节分离，以及熵编码器(例如CABAC、霍夫曼编码、算术编码、范围编码)。

根据(进一步)优选实施例，所述主注释索引在其标头中含有AU类型的数目和每一AU类型的索引的数目。

另外优选地，上文所描述的方法进一步包括经分类的未比对读段的编码。

通过一种用于解码和提取根据上文描述的方法编码的核苷酸序列和基因组注释数据的方法来进一步解决本发明的目标，所述方法包括以下步骤：

将基因组数据多元体解析为基因组语法要素层；

解析经压缩的注释数据；

解析主注释索引；

将所述基因组层扩展为核苷酸序列的经分类读段；

选择性地解码一个或多个参考序列上的核苷酸序列的所述经分类读段以便产生核苷酸序列的未经压缩读段；

选择性地解码与所述经分类读段相关联的所述注释数据。

优选地，所述方法进一步包括解码与基因组区间相关的信息数据，其中所述基因组区间标识所述一个或多个参考序列中的核苷酸序列，使得注释数据与基因组序列的相关编码读段相关联。

进一步优选地，所述方法进一步包括解码根据上文描述的用于存储或传输包括与基因组测序数据相关联的注释数据的基因组文件格式的所述基因组测序数据的表示的方法编码的数据。

根据本公开的另一方面，提出一种用于压缩包括与基因组测序数据相关联的注释数据的基因组文件格式的所述基因组序列数据的基因组编码器，其中所述基因组序列数据包括核苷酸序列的读段，所述且其中所述编码器包括：

-比对单元，其用于将所述读段比对到一个或多个参考序列，借此创建经比对读段；

-数据分类单元，其用于基于所述经比对读段在所述一个或多个参考序列上的映射根据分类规则对所述经比对读段进行分类，借此创建经比对读段的类，

-熵编码单元，其用于将所述经分类的经比对读段熵编码为大量的描述符块，

-存取单元编码单元，其用于以标头信息使所述描述符块结构化，借此创建含有基因组测序数据的第一分类的存取单元，

-基因组注释编码单元，其用于将注释数据编码到第二分类的不同存取单元中且将索引数据编码到主注释索引中，其中所述索引数据表示通过对注释串数据采用至少一个压缩串索引算法而获得的所述注释串数据的经编码形式，且其中所述MAI使经编码注释串与第二分类的所述存取单元相关联。

优选地，编码器包括用于对第一分类的所述存取单元、第二分类的所述存取单元和所述MAI进行联合编码的构件。

根据(进一步)优选实施例，基因组编码器包括用于执行上文描述的编码方法的步骤的编码构件。

本公开进一步涉及一种基因组解码器设备，其用于解码由上文描述的编码器编码的核苷酸序列和基因组注释数据，所述解码器包括：

-用于将基因组数据多元体解析为基因组语法要素层的构件；

-用于解析所述经压缩注释数据的构件；

-用于解析主注释索引的构件；

-用于将所述基因组层扩展为核苷酸序列的经分类读段的构件；

-用于选择性地解码一个或多个参考序列上的核苷酸序列的所述经分类读段以便产生核苷酸序列的未经压缩读段的构件；

-用于选择性地解码关联到所述经分类读段的所述注释数据的构件。

优选地，基因组解码器进一步包括用于执行上文描述的解码方法的步骤的解码构件。

根据本公开的另一方面，提出一种计算机可读介质，所述计算机可读介质包括指令，所述指令在由至少一个处理器执行时使所述至少一个处理器执行上文描述的方法。

术语

本公开中，使用以下术语和表达：

位流语法：在数字数据存储或通信应用中编码为位序列(也就是位流)的数据的结构。所述术语指代通常由编码应用(也就是编码器)产生且处理为解码应用(也就是解码器)的输入以在使用压缩时重建未经压缩数据的经编码位流的格式。位流语法使用若干语法要素来表示位流中编码的信息。

语法要素：表示经编码信息的一个或多个特征的位流语法的组件。在由编码器生成的位流中，语法要素可经压缩或未经压缩。

源模型：在信息理论中，表达“源模型”指定由源生成的事件集合的定义、其上下文，以及关联到每一事件和相应上下文的概率。在数据压缩中，待编码的信息的源的知识用于限定源模型，这使得有可能减小模型的熵，且因此减少表示(即，编码)由源生成的信息所需的位数目。

测序数据：由测序协议产生的测序读段的集合。

测序读段(也就是读段)：在测序中，读段是对应于核酸分子的全部或部分的碱基对的推断序列(或碱基对概率)。

基因组区间：介于例如染色体、基因、转录物组或任何其它核苷酸序列等核苷酸序列上的开始位置和结束位置之间的碱基(也就是核苷酸)的系列。

基因组特征：共享生物性质的一组基因组区间。

注释数据：与基因组特征相关联的定量、定性或测序信息。这些包含变体、浏览器轨迹、功能注释、甲基化模式和水平、测序覆盖范围和统计数据、特征表达矩阵、接触矩阵、蛋白质对于核酸的亲和性。

功能注释：与基因组特征相关联，特别地与关于生物学转录和转译基因组信息(基因、转录物、外显子、编码序列等)的概念的阶层相关的信息。当前用于表示此信息的格式包含GFF、GTF、BED和所有其衍生物。

多路复用器：接收大量不同类型的存取单元作为输入且生成用于流式传输或文件存储用途的结构化位流的编码模块。

基因组注释记录：由基因组注释描述符的集合组成的数据结构，所述基因组注释描述符表示基因组区间以及与基因组功能注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵，和关联到所述基因组区间的其它注释相关的注释数据。一个基因组注释记录可逻辑上联接到其它基因组注释记录和相关注释。

串数据结构：用于对串编索引从而允许可能在压缩域中快速搜索的数据结构。

主索引表(MIT)：ISO/IEC 23092-1和WO2018068827A1及WO2018152143A1中定义的索引结构。其用于使基因组区间和经编码基因组测序读段的类与存取单元相关联，所述存取单元用于携载所述区间上映射的经压缩读段和相关联元数据。

基因组压缩的数据块、存取单元、基因组数据层、基因组数据多元体

本发明进一步公开的数据结构依赖于以下概念：

数据块定义为构成层的相同类型的描述符向量要素的集合(例如，位置、距离、逆向互补旗标、失配的位置和类型)。一个层通常由大量数据块构成。数据块可被分割成以引用的方式并入本文的第WO2018068830A1号共同待决专利申请中描述的基因组数据包，其中包含具有通常根据通信信道要求指定的大小的传输单元。此分割特征对于实现使用典型的网络通信协议的传输效率是合乎需要的。

存取单元定义为可通过使用仅全局可用数据(例如，解码器配置)独立于其它存取单元或通过使用包含在其它存取单元中的信息完全解码的基因组数据的子集。存取单元由标头以及多路复用不同层的数据块的结果构成。相同类型的若干包囊封于块中，且若干块在一个存取单元中多路复用。这些概念在WO2018068827的图5和图6中描绘。为了清晰起见，在本公开中，含有经压缩基因组测序数据的存取单元称为第一分类的存取单元，而含有经压缩注释数据的存取单元称为第二分类的存取单元。

基因组数据层定义为编码相同类型的数据的基因组数据块的集合(例如，在同一层中编码参考基因组上完美地匹配的读段的位置块)。

基因组数据流是基因组数据层的包化型式，其中携载经编码基因组数据作为包含标头中的额外服务数据的基因组数据包的有效负载。将3个基因组数据层包化为3个基因组数据流的实例，见WO2018068827的图7。

基因组数据多元体定义为用于传达与基因组测序、分析或处理的一个或多个过程相关的基因组数据的基因组存取单元的序列。WO2018068827的图7提供携载存取单元中分解的三个基因组数据流的基因组多元体之间的关系的示意图。存取单元囊封属于三个流且被分割成待在传输网络上发送的基因组包的数据块。

附图说明

图1展示本发明和ISO/IEC 23092中描述的编码设备之间的关系。

图2展示根据本发明的原理工作且扩展ISO/IEC 23092中描述的编码设备的用于基因组注释的编码设备。

图3展示根据本发明的原理工作且扩展ISO/IEC 23092中描述的解码设备的用于基因组注释的解码设备。

图4展示根据本发明的原理工作且扩展ISO/IEC 23092中描述的解码设备的允许由文本询问驱动的部分解码的用于基因组注释的解码设备。

图5展示可用于说明本公开中呈现的串索引算法的串索引的未经压缩索引的可能布局的实例。

图6展示如何组合两个系列的串索引算法以便使压缩和速度最大化，超过通过使用仅一个系列原本可能实现的压缩和速度。

图7展示本发明和ISO/IEC 23092中描述的解码设备之间的关系。

图8示出本发明中描述的数据的概念组织如何为待执行的文本询问做准备。

图9示出本发明中描述的数据的概念组织如何为待执行的基因组区间上的搜索做准备。

具体实施方式

所公开的解决方案的重要方面为：

1根据相对于参考序列的比对的结果将序列读段分类为不同类以便能够根据与比对结果相关的准则选择性地存取经编码数据。这意指“含有”经压缩形式的结构化数据要素的文件格式规格。此方法可视为与现有技术方法(例如SAM和BAM)形成对比，在现有技术方法中，数据以非压缩形式结构化且接着压缩整个文件。所述方法的第一明显优点是，能够有效地且自然地提供对压缩域中的数据要素的各种形式的选择性存取，这在现有技术方法中是不可能或极不方便的。

2将经分类读段分解为同构元数据层以便尽可能地减小信息熵。将基因组信息分解为特定同构数据和元数据“层”提供了能够限定表征为低熵的信息源的不同模型的显著优点。此些模型不仅可在层之间不同，而且还可在每一层内部不同。此结构化使得能够针对每一类的数据或元数据及其部分使用最适当的特定压缩，编码效率相对于现有技术方法存在显著增益。

3将层结构化为存取单元，即可独立地通过仅使用全局可用参数(例如，解码器配置)或通过使用包含在其它存取单元中的信息解码的基因组信息。当层内的经压缩数据被分割成包含到存取单元中的数据块时，可限定表征为低熵的信息源的不同模型。

4信息经结构化使得由基因组分析应用使用的数据的任何相关子集可有效地且选择性地借助于适当接口存取。这些特征使得能够较快存取数据且实现更高效的处理。主索引表和局部索引表使得能够选择性地存取经编码(即，压缩)数据层所携载的信息，而不需要解码整个经压缩数据。此外，指定各个数据层之间的关联机制以使得能够选择性地存取语义上相关联的数据和/或元数据层的子集的任何可能的组合，而不需要解码所有层。

5主索引表和存取单元的联合存储。

基因组读段的编码方案在图1的编码器中表示。

序列读段的分类

由测序机器生成的序列读段由所公开的本发明根据相对于一个或多个参考序列的比对的结果分类为五个不同“类”。基于与参考基因组的匹配/参考基因组上的映射根据相对于所述一个或多个参考序列的取代、插入、删除和限幅碱基的存在限定所述类。

当相对于参考序列比对核苷酸的DNA序列时，五个为可能的结果：

1.发现参考序列中的某一区与序列读段匹配，而无任何错误(完美映射)。此些核苷酸序列将被称为“完美匹配读段”或表示为“类P”。

2.发现参考序列中的某一区与序列读段匹配，存在由其中测序机器不能够检测任何碱基(或核苷酸)的若干位置构成的若干失配。此些失配表示为“N”。此些序列将称为“N失配读段”或“类N”。

3.发现参考序列中的某一区与序列读段匹配，存在由其中测序机器不能够检测任何碱基(或核苷酸)或者已检测到与参考基因组中所报告的碱基不同的碱基的若干位置构成的若干失配。此类型的失配称为单核苷酸变异(SNV)或单核苷酸多态性(SNP)。所述序列将称为“M失配读段”或“类M”。

4.第四类由呈现失配类型的测序读段构成，所述失配类型包含类M的相同失配加上插入或删除(也就是，插入缺失)的存在。插入由参考中不存在但读段序列中存在的一个或多个核苷酸的序列表示。据文献，当所插入序列在序列的边缘处时，其称为“软限幅”(即，核苷酸与参考不匹配但保持在经比对读段中，与被丢弃的“硬限幅”核苷酸形成对比)。删除是相对于参考比对的读段中的“洞”(缺失的核苷酸)。此些序列将称为“I失配读段”或“类I”。

5.第五类包含根据指定的比对约束现确实找到参考基因组上的任何有效映射的所有读段。此些序列称为未映射且属于“类U”。

未映射读段可使用从头定序组合算法组合为单个序列。一旦已创建新序列，未映射读段就可相对于其进一步映射且分类为四类P、N、M和I中的一个。

一旦读段的分类以类的限定完成，则进一步处理包括限定表示剩余信息的相异语法要素的集合，从而使得能够在表示为映射于给定参考序列上时重建DNA读段序列。涉及给定参考序列的DNA段可由以下充分地表达：

基因组读段的编码中使用的语法要素

·参考基因组上的开始位置(pos)。

·传信读段是否必须被视为相对于参考的逆向互补(rcomp)的旗标。

·在配对读段(pair)的情况下到配对对的距离。

·测序技术的情况下读段长度的值产生可变长度读段。在恒定读段长度的情况下，关联到每一读段的读段长度可明显地省略，且可存储在主文件标头中。

·描述读段的特定特性的额外旗标(重复读段、一对中的第一或第二读段等......)。

·对于每一失配：

ο失配位置(nmis针对类N、snpp针对类M，且indp针对类I)

ο失配类型(类N中不存在、类M中snpt、类I中indt)

·任选的软限幅核苷酸串(当存在时)(类I中indc)。

此分类创建可用于明确地表示基因组序列读段的描述符(语法要素)的群组。

对于本发明中所公开的基因组数据结构的每一层，可根据所述层所携载的数据或元数据的特定特征及其统计性质采用不同编码算法。“编码算法”必须既定为描述符的特定“源模型”与特定“熵编码器”的关联。特定“源模型”可经指定和选择以实现依据源熵的最小化对数据的最有效编码。熵编码器的选择可由编码效率考虑因素和/或概率分布特征和相关联实施问题来驱动。特定编码算法的每一选择将被称为应用于整个“层”或应用于包含到存取单元中的所有“数据块”的“编码模式”。关联到编码模式的每一“源模型”表征为：

·由每一源发出的语法要素(例如，读段位置、读段配对信息、相对于参考序列的失配等)的限定。

·相关联概率模型的限定。

·相关联熵编码器的限定。

对于每一数据层，一个存取单元中采用的源模型独立于由同一数据层的其它存取单元使用的源模型。这使每一存取单元能够依据熵的最小化针对每一数据层使用最有效的源模型

基因组注释

基因组注释、浏览器轨迹、变体信息、基因表达矩阵和本发明中提及的其它注释与(例如但不限于)核苷酸序列、脱氧核糖核酸(DNA)序列、核糖核酸(RNA)和胺基酸序列相关联。尽管本文相当详细地描述呈核苷酸序列的形式的参考基因组的注释，但应理解，也可针对其它基因组或蛋白质组序列的注释实施所述压缩方法和系统，但存在若干变型，如所属领域的技术人员将理解。

基因组功能注释定义为借助于阐释或评论添加到基因的所标识位置和基因组中的编码或非编码区以描述那些基因及其转录本的功能是什么的备注。

基因组变体(或变型)描述基因组样本与参考基因组之间的差异。变体通常被分类为小规模(例如取代、插入和删除)和大规模(也就是，结构变化)(例如拷贝数变化和染色体重排)。

基因组浏览器轨迹是关联到基因组浏览器中显示的经比对基因组测序读段的曲线。曲线中的每一点对应于参考基因组中的一个位置且表达关联到所述位置的信息。表示为浏览器轨迹的典型信息为转录本的存在和结构、个体或群体中的序列变体、测序读段的覆盖范围、结合到基因组的每一位置的蛋白质的强度等。

基因表达矩阵是二维阵列，其中行表示基因组特征(通常为基因或转录本)，列表示例如组织等各种样本或实验条件，以及对每一基因在特定样本中表达的次数计数的数字(计数器也被称为特定基因的“表达水平”)。

接触矩阵由Hi-C实验产生，且每一i、j条目测量DNA层级处两个基因组区i和j之间的物理交互的强度。在最低粒度下，i和j表示表示为所有串接的染色体的单个序列的基因组上的两个位置。

当前技术水平的局限性

到目前为止，上文所列的注释数据的类使用不同且不兼容的文本格式表示，这些文本格式通常使用例如gzip、bzip2等通用文本压缩器压缩。在大多数情况下。分析程序通过首先解压缩整个文件且接着解析经解码文本以寻找(且如果存在，则提取)所需信息片段来处理此信息。用于每一类别的数据的格式中的每一个相当频繁地独立地且有时大幅度地由不同用户或用户群组修改以生成相同格式的若干“变型”或“语支(dialect)”。此事实导致严重的互操作性问题且需要首先“净化”每一文件格式变型才能够交换数据。

当前格式的另一限制为缺乏对于建立以经压缩形式表示的不同类型的注释数据之间的联接的支持。例如，使变体的集合关联到给定基因需要：

1)解压缩和解析变体文件(即，将BCF解压缩为VCF)

2)解压缩和解析基因注释文件(即，GTF/GFF)

3)分别使用来自整个文件上的两个解析操作的变体和基因的基因组位置建立联接，这将需要在写作本文时不存在的另一特用格式。

现有技术格式的缺点是存储在不同文件上。这在数据压缩方面很低效，且不支持任何有效的过程来执行经压缩文件上的询问。检索与给定基因XYZ相关的所有变体以及可能同时所述基因在样本集合中的表达无法在不解压缩整个所涉及文件和解析所有其内容的情况下进行。所描述的当今使变体关联到基因的过程仅可通过组合数据解压缩、解析和处理的若干低效操作以及通过借助于当前不可用或未标准化的新颖的特用格式描述不同特征之间的关系来实现。

用例：临床环境中的变体检测

作为实例(但不是作为限制)，本文中所公开的方法解决了当试图确定与变体检测管线的临床相关性的变体且以允许临床医生容易地检查和验证结果的方式显示结果时当前解决方案的缺点。目标是使用基因组再测序来标识可能与所关注的疾病或特定表型的表现形式相关的变体。通过首先将基因组测序读段与参考基因组比对且随后使用针对所有读段累积(“堆积”)的所有位置处的比对信息经由合适的变体检测程序检测例如单核苷酸多态性(SNP)等基因组变体，来确定变体。变体检测是需要执行复杂处理的工具的复合管线的复运算。可能归因于例如覆盖范围内的波动或变体位于重复基因组区中等若干技术问题而产生错误肯定或错误否定结果。归因于这些问题，在临床环境中，具有潜在临床重要性的变体在包含在医疗报告中之前通常由人类操作者手动地验证。然而，数据处理和验证需要若干信息要素(基因组序列、基因组注释、读段比对、测序覆盖范围、侧接变体的区中的测序堆积)的存取和相关，每一信息要素通常存储在分离的文件中且使用不同的文件格式表示。特别地，当前技术不可能明确地陈述例如“比对到基因组中的此位置范围(即，区间)的此测序读段集合支持包含在此基因组特征中的此变体”等关系，因为不同实体(经比对读段、变体、基因组特征)在分离且不同的文件中表示。现今，此结果仅可通过以下方式来实现：

1)解压缩各种文件以检索整个样本的信息的原始文本表示。

2)解析文本文件，搜索所关注特征(例如，基因组区间、基因名称、注释名称等)。

3)可能映射不同文件中使用的(稍微)不同名称以标识相同特征(存在不同命名规范以标识相同的基因组特征)

4)将检索到的信息汇总在单个容器中且将其以专用格式暴露给终端用户或处理应用。

这些各个步骤可能根据可能在几千兆字节至数百千兆字节范围内的所解析文本文件的大小而需要非常长的时间。

本发明旨在通过提供以下各项来解决这些局限性：

1.能够表示以下各项的信息内容的注释的统一经压缩表示：浏览器轨迹、基因组变体、基因表达数据、接触矩阵和关联到基因组测序数据的其它元数据

2.相比于现有技术水平解决方案产生较高压缩比的所述统一表示的高压缩性能

3.提供压缩域中的注释和元数据的显式浏览能力的嵌入式索引特征。所述索引特征支持执行复杂的询问，从而产生含有生物学联接注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵和关联到经比对基因组测序数据的区间的其它注释的相关数据结构的阶层

4.用以显式地将带索引且经压缩测序原始数据和相关联元数据与带索引且经压缩注释联接的机制。此些机制实现通过询问经压缩原始数据或经压缩注释数据而在压缩域选择性地存取注释和相关联相关序列读段。

在临床环境中的变体检测的此实例中，通过编码由双向索引机制联接的两个相异经压缩数据结构(可或可不包含在同一文件中)来实现数据处理和视觉显示。所述数据结构含有：

1.基因组测序读段和相关比对信息

2.如本公开中所描述的注释信息(注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵和其它注释数据)。

特别地，经编码信息包含在如本公开中描述的阶层式结构中，进行以下联接：

1.将变体联接到其所含的基因或基因组特征(如果存在的话)，具有关于每一基因的功能和本体的细节

2.将变体联接到其所支持的读段，即联接到支持正检测的变体的读段

3.将每一变体联接到从支持变体的读段获得的堆积简档。

4.先前描述的任何其它种类的注释信息。

当前技术水平允许单独地表示基因组数据注释和变体检测需要的不同信息源(经比对读段利用SAM/BAM/CRAM文件、基因组注释利用GTF/GFF3文件、变体利用VCF/BCF文件，以及实施范围搜索所需的各种索引文件格式)。其不支持不同实体之间的双向关系的显式表示。此外，执行变体检测的软件分析工作流(或“管线”)需要取决于分析阶段在不同文件格式上而非在如由本公开提供的单个数据结构上操作。有可能将不同信息源表示为单个基因组浏览器，但这需要操纵若干不同文件格式，且无法向基因组浏览器指定属于不同文件的特征为相关的。

变体检测分析的技术优势。

在一实施例中，本发明提供如下文所描述的变体检测分析的用例的重要技术优势。

当前方法相对于现有技术水平解决方案在变体检测分析的有效数据检索方面的优势如下。

1.提供测序读段和例如基因组浏览器等基因组特征之间的关系的显式表示的应用必须支持和管理单个数据容器和相关位流格式，而非大量可能不可互操作的格式。

2.通过使用基因组浏览器或其它类似构件，临床医生和科学家可探索变体之间的关系、其所支持的读段，以及所含的一种或多种基因的名称和功能。特别地，不同类型的信息之间的集成允许临床医生和科学家验证变体检测的正确性(例如，排除归因于重复读段和/或重复参考区的存在或归因于不论何时不同位置处存在多个插入缺失时缺乏再比对而导致的误检测；或依据其所含基因的功能或其在已知变体的数据库中的存在而检查变体的可能重要性)。

3.经由进行包含在文件中的元信息的文本搜索的可能性，临床医生或科学家可基于基因功能(举例来说，通过检索包含在具有类似功能的基因或具有多个功能副本的基因中的所有变体，或通过检索包含在已知数据库中的具有类似临床效果的所有变体)使多个变体的存在/不存在相关。

4.分析管线可贯穿所有阶段(从比对到变体检测)进行单个经编码数据结构上的选择性存取，从而产生更简单和经济的软件开发/数据存取模式和较低操作成本。

5.因为在编码数据时显式地建立关系，且所有关系在可浏览索引中编码而不需要解压缩和解析整个文件和可能断开连接的文件，所以有可能丢弃不相关的特征(例如，已知数据库中存在的但不在再测序的个体中的变体，或与所考虑的病理不相关的变体)，因此实现较高压缩。

6.可利用嵌入于经压缩数据中的索引机制执行需要数据存取的所有处理步骤1到5，以支持以从单个经压缩文件结构进行的测序读段和所有相关联注释两者的单个询问进行检索。所述测序读段和相关联注释也可解联且囊封于单独的文件中以使得能够传输数据的仅所需部分。

用于变体检测的现有技术水平解决方案的局限性

现有技术水平支持通过使用不同数据结构和格式表示所描述的用例所需的不同信息片段(经比对读段利用SAM/BAM/CRAM文件格式、基因组注释利用GTF/GFF3文件格式件、变体利用VCF/BCF文件格式，以及用于实施仅范围搜索的各种类型的独立的索引文件格式)。这些现有技术水平技术不支持不同信息片段之间的关系的显式表示和联接。执行变体检测的管线需要取决于分析阶段在不同文件格式上而非在如当前方法中所提出的可选择性地存取的单个经压缩数据结构上操作。采用当前技术水平技术，有可能向基因组浏览器馈送基因组信息的不同片段，但这需要由以非压缩形式操纵和解析若干不同文件格式组成的复杂预处理阶段。此外，无法向基因组浏览器指定注释、生物学特征和测序数据之间的相关以供适当显示。

用例：建立和询问基因组变体数据的群体层级库

作为实例(但不是作为限制)，本文中所公开的方法解决了试图编译基因组变体的大数据库时现有解决方案的缺点。该情境类似于先前案例中考虑的情境，即其中研究人员或临床医生试图基于测序技术验证和收集基因组变体的设置。然而，我们现在假定，所述研究人员或临床医生对为潜在非常大量的个体编目大量变体-理想地，每一基因组中的所有变体-感兴趣(可考虑试图涵盖群体的增加的部分的倡议，最终目标是涵盖全部)。在此实例中，将首先执行变体检测且大体遵循先前用例中描述的分析步骤；将接着针对所有样本重复所述过程。然后，研究人员通常将询问关于数据分析的结果的信息，例如“多少个体拥有此特定变体？”或“是否在所考虑的所有个体中恒定地支持此变体？”或“样本中多少人具有包含在临床相关变体的给定数据集中的变体中的任一个？以及每一个体的此些变体的列表是什么？”当前，存在若干方式存储变量的列表，通常存储为VCF/BCF文件；然而，此些群体层级文件的大小非常大-这使对其的询问技术上具有挑战性-且仅非常有限的询问能力(即，检索指定基因组区间中的变体)是可能的。

技术优势

当前方法相对于当前技术水平解决方案的优势如下：

1.以较紧凑方式存储变体的大的集合的可能性。这是归因于以下事实：本文中所公开的方法明确地分离和描述关于变体的信息源，因此使得有可能指定为每一信息源定制的较好压缩技术

2.在压缩域中执行更复杂的询问的可能性。这同样归因于依据个体将数据分为具有指定语义的若干流，这使得除基于基因组坐标的范围存取外的选择性存取和过滤也是可能的。

3.将关于变体检测的信息与例如以下其它种类的信息连接的可能性：存在于变体的位置处的功能注释；支持每一变体的测序读段；从其它测序技术(例如，从ChIP-seq实验)导出的某一信号在所述位置处的强度；等等。

当前技术水平解决方案的局限性

虽然借助于例如VCF/BCF等当前可用格式存储大数据库是可能的，但归因于格式的复杂性，所述过程很复杂，且归因于使用通用压缩方法，且因为不同信息源在同一记录中混合在一起，所产生的文件相对庞大，从而使压缩较为低效。此外，例如VCF/BCF等格式并不设计有复杂询问-仅可能依据基因组范围对其进行询问，以便检索基因组区间中存在的所有变体。必须单独地执行进一步过滤，例如取决于其是否存在于某一指定个体中来选择变体。最后，如先前用例中所描述，不能使关于基因组变体的信息与例如所支持测序读段的列表或功能基因组特征的列表等其它信息源交叉。

用例：使来自复合组学实验的信息相关

作为实例(但不是作为限制)，本文中所公开的方法解决了当试图确定特定表型起源所经由的生物学机制时当前解决方案的缺点和低效。这通过在同一经压缩数据结构中编码若干信息片段(例如，若干基于“组学”测序的实验)来实现。复合分子机制的标识需要组合若干实验技术，每一实验技术探测不同细胞隔室(例如，ChIP-seq实验调查染色质结构、亚硫酸氢盐-测序实验确定基因组甲基化，以及RNA-seq实验确定如何调节转录)。

通过分析在为相同生物学条件测序时在不同细胞隔室中同时发生的模式之间的交互和相关来确定基因型的潜在分子机制。染色质标记确定为ChIP-seq轨迹中的峰值，其通过累积与参考基因组的比对而获得；甲基化模式通过能够处理BS-seq数据的特殊比对管线获得，此时亚硫酸氢盐处理生成具有序列不存在于原始基因组中的经修改碱基的读段；RNA-测序数据由能够执行拼接比对的特用比对管线处理，此时细胞机器通过将基因组序列的一个或多个块链接在一起(“外显子”)并丢弃块之间发生的序列(“内含子”)来导出RNA序列，这产生原始基因组中不存在的序列；等等，取决于所考虑的特定“组学”实验。

由每一“组学”实验生成的数据通常需要各自针对由所采用的特定生物学协议生成的序列的类型(ChIP-seq、BS-seq、RNA-seq等)定制的复合分析管线。每一管线通常需要多种类型的数据(基因组序列、基因组注释、测序读段、读段比对、测序覆盖范围、测序堆积)，每一类型的数据通常存储在不同文件中且使用不同文件格式表示，以进行考虑和相关。特别地，当前技术不可能明确地陈述例如“在给定生物学条件中，比对到基因组中的此位置范围的此测序读段集合支持此ChIP-seq峰值，其与RNA表达和基因组/组蛋白甲基化的特定模式相关”等关系，因为不同实体(经比对读段、ChIP-seq峰值、甲基化模式、基因组特征、不同生物学条件)单独地在不同文件中表示。

数据处理和视觉显示的技术优势

在一实施例中，借助于本发明通过在同一经压缩数据结构中呈现来改进基因组数据处理和视觉显示：

1.基因组测序读段和相关比对信息

2.如本公开中所描述的注释信息(基因模型、堆积简档、甲基化模式、检测到的ChIP-seq峰值、从RNA测序导出的表达水平)。

特别地，联合经压缩数据结构含有如本公开中描述的阶层式组织，其进行以下联接：

1.将不同生物学条件中的甲基化模式、ChIP-seq峰值和RNA表达联接到其所含基因或基因组特征(如果存在的话)，具有关于每一基因的功能和本体的细节

2.将不同生物学条件中的甲基化模式、ChIP-seq峰值和RNA表达联接到其所支持的读段，即联接到支持所描述的每一特征的读段

3.将每一特征联接到从支持所述特征的读段获得的堆积简档。

当前方法相对于现有解决方案在用于使来自若干“组学”实验的信息相关的有效数据检索方面的优点在下文列出。

1.因为当前方法提供测序读段和“组学”特征之间的关系以及不同“组学”特征之间的关系的显式表示，所以例如基因组浏览器等应用必须支持和管理单个数据容器和相关位流格式而非大量不可互操作的格式

2.经由浏览器或其它构件，研究人员可探索不同“组学”特征之间的关系、其所支持的读段，以及所含基因的名称和功能。特别地，不同类型的信息之间的集成允许研究人员推断由实验突显的不同“组学”特征之间的相关/因果关系，从而标记所关注基因组区以供后续实验验证

3.经由进行包含在文件中的注释的文本搜索的可能性，研究人员可基于基因功能(举例来说，通过检索包含在具有类似功能的基因或具有多个功能副本的基因中的所有特征)使多个“组学”特征的存在/不存在相关

4.分析管线可贯穿所有阶段(从比对到变体检测)且针对所有类型的“组学”数据在单个经压缩数据结构上操作，从而产生更简单的软件开发/数据存取模式

5.因为在编码文件时显式地建立关系，且所有关系在同一文件中而非使用断开连接的文件编码，所以有可能丢弃不相关的特征(例如，在关注区外部发生的“组学”特征)，因此实现较高压缩。

用于不同基因组特征的联接的现有解决方案的局限性

现有技术允许用户单独地表示此用例所需的不同信息源(经比对读段利用SAM/BAM/CRAM文件、基因组注释利用GTF/GFF3文件、ChIP-seq峰值、RNA表达水平和其它“组学”特征利用其它文件类型，以及实施范围搜索所需的各种索引文件格式)。其不支持不同实体之间的关系的显式表示。执行每一种类的“组学”数据的分析的管线需要取决于分析阶段在不同文件格式上而非在当前方法中所提议的单个经压缩数据结构上操作。有可能将不同信息源呈现为单个基因组浏览器，但这需要操纵若干不同文件格式，且无法向基因组浏览器描述属于不同文件的特征为相关的。

概念和术语

存取单元

贯穿本公开参考WO 2018/068827A1、WO/2018/068828A1和WO/2018/068830A1，存取单元(AU)定义为含有基因组信息的经编码表示以促进位流存取和操纵的逻辑数据结构。其是可由实施本公开中描述的发明的解码装置解码的最小数据组织。存取单元表征为标头信息和结构化为块的序列的经压缩数据的有效负载，每一块可能使用不同压缩方案压缩。

本文中描述的发明引入含有例如基因组特征、功能注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵、基因型数据等基因组注释数据的新存取单元类型。

在本公开的上下文中，以下定义适用：

基因组注释记录：由基因组注释描述符的集合组成的数据结构，所述基因组注释描述符描述例如基因组功能注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵、基因型数据和关联到基因组区间的其它注释等基因组特征。每一基因组注释记录由如表1所示的唯一标识符标识

基因组特征：基因组特征在此处既定为关联到基因组测序数据的生物学上有意义的信息的任何片段。作为实例(但不是作为限制)，基因组特征包含：基因组注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵。

存取单元开始位置：参考序列(例如染色体)上的存取单元为其编码基因组数据或元数据的最小映射位置。

存取单元结束位置：参考序列(例如染色体)上的存取单元为其编码基因组数据或元数据的最大映射位置。

存取单元范围：介于存取单元开始位置和存取单元结束位置之间的基因组范围。

存取单元大小：包含在存取单元中的基因组注释记录的数目。

存取单元覆盖区：介于存取单元开始位置和存取单元结束位置之间的基因组范围。

在本公开的上下文中，一个或多个存取单元组织于称为基因组数据集的结构中。基因组数据集是含有标头和存取单元的压缩单元。构成基因组数据集的存取单元的集合构成基因组数据集有效负载。

一个或多个基因组数据集的集合称为数据集群组。

读段类：ISO/IEC 23092和WO 2018/068827A1、WO/2018/068828A1和WO/2018/068830A1和WO2018152143A1指定基因组序列读段如何根据所述读段在参考基因组上的比对的结果来分类和编码。根据映射错误的类型和数目，每一读段或读段对指派到不同类。

AU类：每一AU含有属于单个类的读段。

注释数据类型：在本公开的上下文中，注释数据类型表征包含在这些类别中的一个中的基因组注释信息的集合：基因组特征、功能注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵、基因型数据、基因组样本信息。

基因组注释描述符

在本公开的上下文中，基因组注释描述符是表示重建(即，解码)经编码参考序列、序列读段、相关联映射信息、注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵和关联到基因组测序数据的其它注释所必需的信息(以及文件格式和/或位流的语法结构的要素)的部分的语法要素。本发明中所公开的所有注释数据类型所共同的基因组注释描述符在表1中列出。

特定针对每一注释数据类型的其它描述符在专用于每一注释数据类型的语法和语义表中公开。

文本描述符是表示为字符串的描述符，而数值描述符是由数值表示的描述符。

基因组注释描述符可具有三个类型：

·表示为数值的数值描述符

·表示为字符串的文本描述符

·属性是本公开(标题为“属性”的章节)中限定的数据结构

表1-所有注释数据类型所共同的描述符

根据本发明中所公开的方法，基因组注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵和与基因组测序数据相关联的其它注释数据类型使用表1中列出的描述符的子集编码，其接着使用大量熵编码器根据每一描述符特定统计性质进行熵编码。这意味着不同类型的描述符分组在一起且利用不同熵编码器编码，借此实现较高压缩。具有同构统计性质的经压缩描述符的块在存取单元中结构化，存取单元表示可由实施本公开中描述的发明的装置操纵的一个或多个基因组特征的最小经编码表示。

基因组注释描述符组织成如下文定义的块和流。

块定义为由标头和有效负载构成的数据单元，有效负载由相同类型的经压缩描述符的部分构成。

描述符流定义为用于解码特定数据类的描述符的经编码描述符块的序列。

本公开指定基因组信息表示格式，其中相关信息经有效地压缩以可容易地存取、传输、存储和浏览，且所述格式的任何冗余信息的权重减少。

所公开的发明的主要创新方面如下。

1注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵和关联到基因组测序数据的其它元数据在统一阶层式数据结构中压缩。所述数据结构使得能够根据准则快速传输、经济地存储以及选择性地存取经编码数据，所述准则例如依据基因组区间/位置、基因名称、变体位置和基因型、变体标识符、注释中的评论、注释类型、一对基因组区间(在将基因组位置连接到其它位置的矩阵数据的情况下)。

2注释、浏览器轨迹、基因组变体、基因表达信息、接触矩阵和关联到基因组测序数据的其它注释数据由分组为具有同构统计性质的块的基因组注释描述符表示，从而实现表征为低信息熵的相异信息源的标识。

3以与每一注释描述符的统计特性匹配的相异源模型对每一单独信息源建模的可能性以及改变每一注释数据类型的每一注释描述符内和每一可单独存取的数据单元(存取单元)的每一描述符块内的源模型的可能性。根据注释描述符的每一源模型的统计性质采用适当的变换、二进制化和上下文自适应概率模型及相关联熵编码器。

4限定描述符块之间的对应性和相依性以实现对测序数据和相关联元数据的选择性存取，而不需要在仅需要信息的部分的情况下解码所有描述符块。

5借助于呈标头信息的形式的嵌入于经压缩基因组数据中的数据结构传输管理编码和解码两者的过程的配置参数。此些配置参数可在编码过程期间更新以便改进压缩性能。此些更新以呈经更新配置数据结构的形式的压缩内容进行传输。

下文中，将进一步详细描述上述方面中的每一个。

每特定注释数据类型的基因组注释描述符

基因组变体

使用上文引入的共同描述符和下文所列的特定描述符编码关于基因组变体的数据。

功能注释

关于功能注释的数据描述基因及其内容拼接转录本，以及其生物功能(依据其组成外显子)；以及关于转录本的信息，例如(只要可适用)其分解为UTR、开始和终止密码子，及编码序列。其使用上文引入的共同描述符和下文所列的特定描述符编码。

sizeof()是一个函数，其根据属性类型中限定的type_ID传回表示每一属性值所必需的位数目。

轨迹

轨迹的数据表示关联到基因组中的每一位置的数值-其典型实例为如由RNA或ChIP测序实验产生的每一位置处的测序读段的覆盖范围。数据可在当正在基因组浏览器中显示信息时合乎需要的不同预计算的变焦水平下提供。数据使用上文引入的共同描述符和下文所列的特定描述符编码。

基因型信息

基因型信息数据表达存在于个体或个体的群体的基因组的每一位置处的基因组变体的集合。其使用上文引入的共同描述符和下文所列的特定描述符编码。

样本信息

关于样本的信息描述关于已在上面进行测序实验的特定生物样本的元信息，例如收集日期和位置、测序日期等。样本信息数据使用下文所列的特定描述符编码。

描述符	类型	描述
			sample_name	st(v)
UUID	uint	用于与第1部分中的数据集联接的唯一标识符
			bitmask	b(n_meta)
values[n_meta]	uint	n_meta在参数集中
			desc_len	uint
description	u(desc_len)
			n_attributes
attributes[n_attributes]	attribute	例如，待公开的DOI的URL

表达信息

关于表达的信息使某一基因组范围(通常对应于基因、转录物或基因组中的另一特征)与一个或多个数值相关联，每一值将对应于已在单独实验期间测试的生物学条件。

使用下文所列的特定描述符编码表达数据。

语法	类型	描述
			ID	uint	范围：AU
feature_position	uint	参数集列表中特征的位置
			sample_id_start	uint
sample_id_len	uint
			format_mask[n_format]	b(1)	在参数集中限定n_format

接触矩阵信息

使用下文所列的特定描述符编码接触信息数据。

位流结构

本发明引入呈下文描述的位流语法的形式的与基因组测序数据相关联的注释数据的经压缩表示。依据由表征为数据类型的要素构成的数据结构的串接来描述语法。

语法表示法

在以下描述中，采用以下语法表示法。

ISO/IEC 23092-1的扩展

本公开扩展ISO/IEC 23092-1中所指定的数据结构以便支持ISO/IEC 23092-1中所指定的位流语法中经编码基因组注释的传输。

数据集群组

数据集群组语法与ISO/IEC 23092-1中所指定的语法相同

数据集

在ISO/IEC 23092-1中，数据集是含有标头、参数集中的主配置参数、索引结构，以及编码基因组数据的存取单元的集合的数据结构。数据集类型经扩展以携载由不同“dataset_type”值指定的不同类型的基因组注释数据。

reference_type值	值名称	语义
			0	MPEGG_REF	参考序列
1	MPEGG_ANNOTATION_REF	用于注释的参考数据

数据集标头此为描述数据集的内容的框。

参考

此数据结构扩展ISO/IEC 23092中所指定的参考数据结构以支持本公开中所指定的位流语法。

注释索引

本公开描述如何编码(即压缩)由与基因组测序读段相关联的文本信息要素、从基因组导出的其它非文本基因组注释和序列组成的注释数据部分以便使得可在压缩域中搜索文本要素。实例包含：

·关于功能基因组特征的信息(例如，基因名称、基因描述、基因注释、基因本体、变体名称、变体描述、变体临床重要性)

·表示为符号(通常针对每一核苷酸一个)的序列的核酸序列(例如参考基因组的子序列、从参考基因组转录的RNA分子的序列，或来自基因组的测序读段)

·表示为符号(通常针对每一氨基酸一个)的序列的蛋白质序列(例如对应于信使RNA分子的转译的序列)

·关于样本元数据和方法的信息(名称、收集日期/时间/部位、用于执行测序的实验技术、用于执行功能注释和变体检测的分析技术等)。

所述信息使用例如(作为一实例，但不限于)压缩串模式匹配数据结构等合适的数据结构压缩。压缩串模式匹配数据结构的代表为例如(但不限于)经压缩后缀阵列、FM-索引和一些类别的散列表。此些(经压缩)数据结构用于执行串模式匹配，且以经压缩形式携载正以文件标头或作为存取单元的有效负载添加到经压缩位流的注释数据的文本部分。为了清晰起见，在本公开中，属于这些数据结构类别中的一个的所有算法将被称为“串索引算法”。

作为实例(但不是作为限制)，本公开描述如何通过使用压缩串索引算法的组合编码不同注释数据类型和基因组读段的文本部分。存在若干系列的串索引算法，且每一系列可通过若干参数而参数化，所述参数指定压缩性能和询问速度之间的平衡。我们使用一组预定压缩串索引算法用于压缩，每一压缩串索引算法通过选择压缩串索引算法系列以及通过选择所述系列的参数来指定。所述组算法通过所实现的压缩水平且取决于压缩率/询问速度之间的所要折衷来分类，在编码时可选择一个特定算法。此选择在经压缩位流的参数集中指定。

作为实例(但不是作为限制)，所挑选的压缩串索引算法单独地或联合地应用于以下的串接：

·基因名称，

·基因描述，

·基因组转录本及其蛋白质产物(如果存在的话)的序列，

·变体名称，

·变体描述，

·样本名称，

·表示为符号(针对每一核苷酸一个)的序列的基因组测序读段和与基因组区间相关联的任何其它文本信息

·编码文本信息与基因组区间的关系的额外信息。

将压缩串索引算法应用于所述信息产生经压缩且带索引表示，可向所述表示询问任意子串的存在。特别地，精确子串搜索的组合可用于执行不精确子串搜索，例如存在相对于指定模式多达指定数目的偏差(失配/误差)的检索子串的所有出现的搜索。此过程能够在单个询问中询问基因组注释在测序数据的分析和再分析期间考虑或产生的文本信息片段。这在以下条件下是可能的：

1.与基因组区间相关联的基因组信息表示为称为基因组注释记录的数据结构，其含有关于包含在所述区间中的核苷酸序列的信息

2.与同参考基因组上的邻接位置相关的基因组区间相关联的基因组注释记录在同一存取单元中压缩

3.使用从可用集合挑选的压缩串索引算法压缩注释信息的所有文本部分。

以下文本和数据结构描述用于与MPEG-G兼容(ISO/IEC 23092)的位流的存取单元中压缩和嵌入的基因组注释数据的索引和搜索的此方法的实施例。

下表展示根据本文中描述的方法依据每一基因组注释类型使用串索引算法编索引和压缩的文本信息。对于每一存取单元，每一类型的文本描述符使用如图5所示的串分隔子和记录索引信息串接且使用串索引算法压缩。

每基因组注释存取单元类型的索引准则

此表描述应用于每一基因组注释数据类型的存取单元的索引准则和索引工具。

主注释索引(MAI)是为注释数据提供ISO/IEC 23092-1和WO 2018/068827A1、WO/2018/068828A1和WO/2018/068830A1中限定的MIT的序列读段的索引能力的索引工具

表2-主注释索引

主注释索引标头

表3-主注释索引标头

语义

num_mai_AU_types是通过MAI编索引的AU类型的数目。值0传信MAI不提供索引。

mai_AU_type[i]是通过MAI编索引的第i AU类型。阵列mai_AU_type[]将含有唯一值，每一AU类型值仅可在阵列mai_dataset_ID[]中出现一次。

num_mai_indexes[i]是AU类型mai_AU_type[i]的MAI索引的数目。

带索引串

当编码每一基因组注释数据类型的存取单元时，属于所述存取单元中编码的数据的文本描述符使用如本公开中限定的压缩串索引算法串接和压缩。

下表列出针对每一数据类型在MAI中编码哪些串。指定的串列表确定MAI的以下描述中的一些中需要的值numStrings。numStrings是使用本发明中描述的方法编索引的每基因组注释记录的文本字段的数目。

串索引

串索引块是针对各自含有可变数目的记录的可变数目的存取单元编码每一记录的一个或多个串的主注释索引的一部分。

主串索引还允许执行和检索原始文本上的串模式匹配询问。

串索引内编码的串的列表在下文中称为“经压缩索引”。

通过从串索引解码经压缩索引获得的串的列表在下文中称为“未经压缩索引”。

串索引提供以下功能性：

1.对经编码串的列表内任何子串的出现进行计数，如下文的描述中所指定。

2.对于先前点1处发现的子串中的每一个，检索子串在未经压缩索引内的位置，如下文的描述中所指定。

3.给定未经压缩索引内的开始和结束位置，检索相应经解码有效负载，如下文的描述中所指定，其中所述有效负载可含有任何数目的串、串的部分，或关联到串的元数据。

4.对于先前点1处发现的子串中的每一个，检索含有所述子串的整个串，以及所述整个串在未经压缩索引内的位置，如下文的描述中所指定。

5.对于先前点1处发现的子串中的每一个，检索其内含有所述子串的存取单元的索引，如下文的描述中所指定。

6.对于先前点1处发现的子串中的每一个，检索其内含有所述子串的记录的记录索引，其中所述记录索引为含有所述记录的存取单元内的所述记录的基于0的索引，如下文的描述中所指定。

7.给定存取单元索引，检索对应于所述存取单元索引的存取单元内的第一串的未经压缩索引内的位置，如下文的描述中所指定。

8.给定存取单元索引，对应于所述存取单元索引的存取单元内的记录索引，和对应于所述记录索引的记录内的串索引，检索包含在所述存取单元的所述记录中的所述串索引处的串的位置，如下文的描述中所指定。

到此过程的输入为：

·变量numAUs，其指定为其在此串索引内编码串的存取单元的数目

·变量codingMode，其指定已用于编码串索引的算法。

针对每一记录编码的串的数目将对于所有记录相同，且其将对应于变量numStrings，如下文的描述中所指定。

表4-串索引块。

compressed_index内编码的未经压缩索引含有串的列表以及每存取单元(遵循表4中存取单元的相同次序)且对于每一存取单元而言每记录(遵循存取单元内记录的相同次序)排序的相关联任选记录索引。未经压缩索引中串的总数目为totNumRecords*numStrings，其中totNumRecords为由au_id[]标识的所有存取单元的记录的总数目，且numStrings为使用所述压缩索引算法压缩的所有串的计数器。

未经压缩索引指定为：

表5-string_index()要素的compressed_index要素中编码的未经压缩索引。

本公开中所指定的未经压缩索引的实例(numStrings等于3)提供于图5中。

语义

record_index[i](rec_idx)，通过设定record_index[i]的所有字节上的最高有效位来传信其存在。设定最高有效位还防止当搜索子串时获得假阳性结果，因为string[i][j]字段中的所有字节均未设定最高有效位，如本公开中针对string[i][j]要素所指定。

当存在record_index[i]且其为N字节长时，其表示非负整数值，如以下表达式中所指定：

其中recordIndexValue[i]对应于相应存取单元内的对应于string[i][]串的记录的基于0的索引。

在本公开的上下文中，record_index[i]称为“基因组注释记录索引数据”。

string[i][j]为第i记录的第j经编码串。所述串将每存取单元(遵循表4中存取单元的相同次序)且对于每一存取单元而言每记录(遵循存取单元内的记录的相同次序)排序

string_terminator为等于0x0A的单个字节(即，‘\n’)。

利用串索引搜索子串位置

利用串索引搜索给定子串的未经压缩索引内的位置，如以下伪码中所指定：

表6-利用串索引搜索子串位置。

解码串索引的子集

串索引在给定开始位置和结束位置(包含开始位置和结束位置)之间解码，如以下伪码中所指定：

表7-利用串索引解码给定位置处的子串。

利用串索引搜索整个串

给定未经压缩索引内的位置，例如来自由如本公开中所指定的SI_search_substrings()传回的位置的列表的一个位置，利用串索引解码相应整个串及其在未经压缩索引内的开始位置，如以下伪码中所指定：

表8-利用串索引搜索整个串。

利用串索引搜索存取单元ID和记录索引

给定未经压缩索引内属于经压缩索引中编码的串的字节的位置，例如来自由如本公开中所指定的SI_search_substrings()传回的位置的列表的一个位置，利用串索引解码含有所述串的存取单元的存取单元ID、含有所述串的记录的索引，和所述记录内所述串的索引，如以下伪码中所指定：

表9-利用串索引搜索存取单元和记录索引。

利用串索引搜索存取单元的第一串的位置

利用串索引检索未经压缩索引内的给定存取单元的第一串的位置，如以下伪码中所指定：

表10-利用串索引搜索存取单元的第一串的位置。

利用串索引搜索记录的串的位置

未经压缩索引内的记录内的给定索引处的串的位置，其中记录处于给定存取单元内的给定索引处，利用串索引检索，如以下伪码中所指定：

表11-利用串索引搜索记录的第一串的位置。

串索引构建

根据本发明的原理，串索引由文本描述符使用串变换方法构建如下：

·对于每一注释，使非索引描述符与带索引文本描述符分离

·串接通过终止子分隔且与关于存取单元内的基因组注释记录位置的信息交错的带索引文本描述符

数值描述符表示为数值，且文本描述符表示为字符串。

为了压缩所产生的串索引，接着使用例如压缩后缀阵列、FM-索引和一些类别的散列表等经压缩完全文本串索引算法进一步变换所述变换的结果。

使关于基因组注释的信息与基因组注释记录位置交错使得能够根据准则浏览经压缩基因组注释数据，所述准则例如记录或基因组记录关联到的基因组区间中串的存在。通过指定文本串或子串以及检索含有所述文本的所有基因组注释记录作为经编码注释的一部分来执行所述浏览。

此构建方法的实施方案的实例提供于图5中，其中每一记录含有3个文本描述符。

根据由用户根据其要求/需要提供的输入配置编码参数选择与本公开中所描述的每一基因组注释类型相关联以建构如上文和图5中所描述的串索引的文本描述符。此配置参数在位流中编码和/或从编码器传输到解码器。

基因组注释的有效解码

通过建构如上文所描述的经压缩串索引，有可能通过遵循下文的过程重建与一个串描述符相关的基因组注释。

此过程的目标是解码含有与串标识符相关的注释数据的所有存取单元，所述串标识符由正搜索例如变体名称或其描述、基因组特征名称或其描述，或与经编码基因组注释相关联的任何其它文本描述符的用户指定。

通过调用上文指定的函数SI_search_substrings()搜索所要名称或描述。如果指定串“str”存在于经压缩索引中，则此调用传回如章节“利用串索引搜索子串位置”中所指定的一个或多个位置(在此实例中称为“pos”)。利用本公开上文描述的串索引解码含有所述串“str”的存取单元的存取单元ID、含有所述串“str”的记录的索引，和所述记录内的所述串的索引，如以下点中所描述：

1.输入字节位置“pos”标识含有未经压缩索引内的位置pos处的字节的串str。

2.通过将pos与如表4中所指定的au_offset[]的值进行比较，以及检索如表4中所指定的au_id[]的相应值来确定含有str的存取单元的ID：

ο如果pos<au_offset[1]，则所产生的存取单元ID为au_id[0]。

ο如果pos>＝au_offset[num_AUs-1]，则所产生的存取单元ID为au_id[num_AUs-1]，其中num_AUs如表4中所指定

ο否则，所产生的存取单元ID为au_id[i]，对于i的值，使得au_offset[i]<＝pos<au_offset[i+1]。

3.通过重复地调用本公开中所描述的函数SI_decode()，从位置pos-1向后解码经压缩索引直至解码整个记录索引recordIndex(其中记录索引如表5中所指定)或直至到达经压缩索引的开头。如果到达经压缩索引的开头，则将recordIndex设定为0。当向后解码时，对串终止子recordIndex的数目计数(其中串终止子如表5中所指定)。然而，任何不可打印的字符都可用作串终止子。

4.给定每如本公开中所指定的记录numStrings的带索引串的数目和点2处确定的存取单元，所述存取单元内含有str的记录的索引等于recordIndex+stringIndex/numStrings。

5.给定每如本公开中所指定的记录numStrings的带索引串的数目和点4处确定的记录，所述记录内串str的索引等于stringIndex％numStrings。

存取单元

此条款以基因组注释数据类型编码的支持扩展ISO/IEC 23092-1中所指定的存取单元语法。

AU标头

动态属性

1.大部分基因组注释格式含有补充限定为强制性的最小信息集合的不良指定字段。在某些情况下，例如VCF、GFF、GTF文件格式，那些字段表示有价值的信息，因为其含有例如给定变体的致病性或关于功能注释的要素的必要分类线索等信息。因此，其不能被简单地丢弃或视为次要信息。实际上，那些字段中的一些可表示用于临床用途的最有价值的过滤准则。

2.出于此原因，跨稍后描述的若干存取单元和数据集类型的所有那些字段分组为动态属性的集合。给定属性的存在在参数集的特定区段中在本公开中所指定的类型“属性”的对象中传信。

3.每一属性对应于新描述符。

4.经由记录层级位掩码使用参数集中给定属性的位置传信给定记录的值的存在。

5.属性在以下方面指定：

-值类型

-阵列类型，例如1针对如果存在单个标量值、固定大小的阵列、取决于等位基因、倍体或其组合的数目的阵列，例如VCF文件的基因型列中的GL字段

-固定大小阵列所需的阵列大小

此方法提供所有不同注释数据类型上的统一方法，而与其性质无关，且为基于特定属性的存在的将来索引/过滤工具提供空间。

变体

在此章节中描述的数据结构中编码关于变体的信息，而在单独的数据集中编码关于样本的信息(例如，基因分型)。

变体的参数

参数集中的此结构含有与变体编码相关的主参数。

变体的基因组注释记录

将依据pos的递增值对记录进行分类。位置接着差分地编码

NB：ref_len、ref、alt_len、alt、q_int可编码为统一记录结构中的“有效负载”；info编码为属性。

使用共同基因组注释描述符和特定针对变体的基因组注释描述符(如本公开中所描述)对变体的基因组注释记录进行编码。

变体的描述符的压缩

Info值压缩为如本公开中所描述的属性

ref和alt信息

功能注释(GTF、GFF)

用于功能注释的参数

参数集中的此结构含有与功能注释数据类型的编码相关的全局配置参数。

用于功能注释的基因组注释记录

使用共同基因组注释描述符和特定针对功能注释的基因组注释描述符(如本公开中所描述)对功能注释的基因组注释记录进行编码。

注释的描述符的压缩

轨迹

轨迹的参数

参数集中的此结构含有与浏览器轨迹编码相关的全局参数。

用于轨迹的基因组注释记录

轨迹的描述符的压缩

基因型信息

类型基因型的数据集含有关于个体或群体的基因分型信息的编码信息。

用于基因型信息的参数

参数集中的此结构含有与基因型信息编码相关的全局配置参数。

format_ID标识编码记录中存在的格式字段。每一标识符的语义提供于表12中。如果值0x00(GT)存在，则其将始终为列表中的第一个。

基因型格式字段

表12-genotype_parameters()中使用的format_ID值

A＝每替代等位基因一个值

R＝包含参考的每一可能的等位基因一个值

G＝每基因型一个值

用于基因型信息的基因组注释记录

使用共同基因组注释描述符和特定针对基因型信息的基因组注释描述符(如本公开中所描述)对基因型信息的基因组注释记录进行编码。

基因型信息的压缩

所有信息压缩为属性，如本公开中所描述。例如GT和LD字段等特殊情况首先拆分为由如下文所描述的subsequenceID标识的子序列。

样本信息

用于样本信息的参数

参数集中的此结构含有与关于样本的信息的编码相关的全局配置参数。

用于样本信息的基因组注释记录

使用特定针对样本信息的基因组注释描述符(如本公开中所描述)对用于样本信息的基因组注释记录进行编码。

表达信息

此数据集仅对实际表达矩阵进行编码。特征存储在类型AU_ANNOTATION的存取单元和类型AU_SAMPLE的存取单元中的样本中。

表达参数

参数集中的此结构含有与表达信息的编码相关的全局配置参数。

format_ID标识编码记录中存在的格式字段。每一标识符的语义提供于表12中。

(表12)

用于表达信息的基因组注释记录

使用特定针对表达信息的基因组注释描述符(如本公开中所描述)对用于表达信息的基因组注释记录进行编码。

压缩

压缩策略与用于基因型数据集相同：所有信息映射到属性中且经压缩，如标题为“属性的压缩”的章节中所描述。这允许矩阵的每一要素具有一个以上值，因此在单个记录中组合具有不同类型和语义的例如计数、tpm、概率等信息。

特殊方法用于稀疏矩阵，其中，对于每一记录，仅记录非零值，连同相应位置的阵列和条目的总数目。

接触矩阵信息

接触矩阵(也就是，接触映射)由Hi-C实验生成且表示细胞核中的DNA分子的空间组织。二维为基因组位置。每一坐标处的接触矩阵值表示核苷酸序列中的两个位置已经被多少次测得为具有交互的计数器。

接触参数

参数集中的此结构含有与关于接触矩阵的信息的编码相关的全局配置参数。

format_ID标识编码记录中存在的格式字段。每一标识符的语义提供于表12(表12)中

用于接触矩阵信息的基因组注释记录

压缩

压缩策略与用于表达信息数据集相同。

属性

属性的压缩

属性使用与参数集中的n_attributes+1一样多的子序列进行压缩

SubsequenceID	名称	描述	实例
				0	attr_mask	传信每一属性的存在的位掩码
1	attr1	第一属性值
				2	attr2	第二属性值
...
				n	attrn	第n属性值

数据类型

此章节描述在本公开中如何表示结构化值。

值类型

这是用于表示数值的结构，数值的大小以位计。

类型标识符

表13-具有其标识符和参数的数据类型阵列标识符

array_type_ID	相应阵列大小
		0	标量，例如仅一个值
1	固定阵列大小
		2	等于替代等位基因的数目的长度的阵列
3	等于等位基因的总数目加上参考的长度的阵列
		4	基因型概率字段：其大小取决于等位基因的总数目与倍性的组合

表14：具有其标识符的阵列类型

数据块

数据块是含有经压缩描述符且囊封于存取单元中的结构。每一块含有由包含在块标头中的标识符标识的单个类型的描述符

块语法

块标头

块有效负载

所支持询问的实例

本发明的技术优势的证据

本发明排除了当使用现有技术水平技术时存在的若干问题。特别地，

1.当前，不存在基因组注释的统一表示。实际上，使用若干多种多样的格式。通常，隐式地假定，特征根据其在基因组上的物理近程而连接，即，举例来说，变体或同功异构物与其所含基因相关。本发明中描述的数据的统一表示使得有可能表达甚至超出简单物理包容的不同概念之间的复杂关系，例如“启动子位于此区间，且其甲基化状态(通常在基因外部)与基因A、基因B和基因C相关，这形成操纵子(即，各自具有基因组中的不同位置的基因的集合)”

2.本发明使得有可能明确地与MPEG-G标准的现有部分1-5连接，其中表示比对到基因组的测序读段。许多注释特征(例如功能基因模型、变体或轨迹表达，比如甲基化状态或到蛋白质的结合)由相关位置处测序读段的存在支持且有时从相关位置处测序读段的存在导出。当前，不可能表达例如“由外显子的此列表组成的此新转录物由RNA-测序读段的此集合支持”或“位于此位置处的此新变体由DNA-测序读段的此集合支持”等概念。本发明使得有可能不费力地表达这些概念(这些概念在临床实践中非常重要)

3.当前，不存在能够表示基因组注释的所有不同现有源的单个格式。因此，管线和基因组浏览器需要使用若干不同格式来加载所有所需要的信息。本发明技术上不需要实施用于此些域特定生物信息格式的复合解析器，这些复合解析器通常不明确界定且缺乏明确的标准

4.由于将信息分为不同类型的存取单元，本发明提供一种实施有效压缩的机制-每一信息流可建模为具有较低熵的同构源，因此使压缩更高效。另一方面，所提议方法仍允许将不同信息集成到单个阶层式架构中，且有可能表达不同基因组注释概念、基因组序列和测序读段之间的关系。此外，单独地压缩不同基因组特征允许在用户仅对数据的子集感兴趣的情况下选择性地解压缩所要特征

5.采用一组压缩串索引算法(可在编码时从其中挑选一个算法)来压缩文本信息允许用户选择串索引的压缩和询问其时的速度之间的所要平衡。值得注意的是，一个以上系列的压缩串索引算法的使用对于实现所要优化是必要的且是本发明的必要特征，因为采用单个系列将对于所述目的来说不够。

作为一实例(但不是作为限制)，我们通过组合两个不同系列的压缩后缀阵列来说明所述概念。系列[1]使用如Raman、Rajeev、Venkatesh Raman和S.Srinivasa Rao。2002。“具有编码k元树和多集合的应用的简洁可索引词典(Succinct indexable dictionarieswith applications to encoding k-ary trees and multisets)”，第13届ACM-SIAM离散算法研讨会(SODA 2002)会刊，233-242中描述而实施的位向量。系列[2]使用如Juha

Dominik Kempa、Simon J.Puglisi。用于FM-索引的位向量的混合式压缩(Hybrid Compression of Bitvectors for the FM-Index)。2014年数据压缩大会(DCC2014)会刊，IEEE计算机学会，2014，302-311页中所描述而实施的位向量。如图6中所展示，有可能改变压缩后缀阵列系列的其它参数以便获得属于系列[1](粉红点)和系列[2](蓝绿点)且展示压缩率和询问速度的不同值的不同压缩后缀阵列实施方案。然而，系列[1]在提供较高压缩率(和较慢询问速度)方面本质上较好，而系列[2]在提供较快询问速度(和较低压缩率)方面本质上较好。通过组合两个系列，且选择由黑色矩形标识的阵列作为可能的压缩后缀阵列的集合，我们能够提供具有较好压缩率的选项和具有较好询问速度的选项，这是仅使用一个系列的压缩后缀阵列不可能实现的。

索引能力

基因组注释编码设备

图2展示根据本发明的原理的编码设备。编码设备接收例如变体、浏览器轨迹、功能注释、甲基化模式和水平、测序覆盖范围和统计数据、特征表达矩阵、接触矩阵、蛋白质对于核酸的亲和性等基因组注释20作为输入。注释数据由描述符编码器单元22解析，且使非索引描述符与文本索引描述符212分离。所有注释所共同的非索引描述符馈送到变换单元21。特定针对每一注释类型的非索引描述符馈送到变换单元27。文本索引描述符馈送到描述符串变换单元26。变换单元21和27的输出根据每一经变换描述符的特定统计性质而馈送到不同的熵编码器24。为数值描述符采用至少一个第一熵编码器(24)，且为不包含在文本描述符的所述子集(29)中的文本描述符采用至少一个第二熵编码器(214)。

每一熵编码器的输出馈送到注释数据存取单元编码器23以产生注释数据存取单元25。未经压缩主注释索引210，描述符串索引变换单元26的输出，馈送到注释数据索引编码器28以产生主注释索引数据29。一个注释数据索引与一个或多个注释数据存取单元相关联。图1展示注释数据存取单元(122)与主注释索引数据(123)和含有经压缩基因组测序数据的第一分类的存取单元(119)联合编码(118)。

由编码设备中使用的描述符变换单元21和27应用的变换包含：

ο游程长度编码：数字的序列由连续出现的计数器和出现的值表示

ο差分编码：每一数字表示为相对于经先前编码值的差

ο字节分离：对于由大量字节表示的数字，每一字节与在位配置方面具有类似性质的其它字节分开处理和压缩

由注释数据索引编码器28应用的变换包含：

ο Burrows Wheeler变换

ο压缩串模式匹配

ο压缩后缀阵列，

οFM-索引

ο哈希算法

将所述变换应用于数值描述符的优点是改进压缩效率而无信息损失，如所属领域的技术人员众所周知。

所述变换使串描述符的编码更高效，因为经变换的表示可更高效地浏览和搜索子串。一旦变换原始文本，就可校验子串的存在，而不必解压缩整个文本。

基因组注释解码设备

根据本公开的原理实施的解码设备扩展如图3所描绘的与ISO/IEC 23092兼容的解码设备的功能性。

图3展示根据本公开的原理的解码设备。基因组注释存取单元解码器31从流多路分用器70接收存取单元30，且提取存取单元的经熵编码的有效负载。熵解码器32、33、34接收所提取的经熵编码的有效负载，且将不同类型的基因组注释描述符解码为其二进制表示35。所有基因组注释共同的描述符的所述二进制表示接着馈送到逆变换单元36。特定针对每一注释数据类型的描述符的二进制表示馈送到逆变换单元314。主注释索引38馈送到带索引存取单元信息检索单元37，其在串索引中定位属于每一AU的文本字段。此位置信息313接着馈送到带索引信息解码单元39，其从串索引解码文本字段。所述经解码文本字段接着馈送到描述符解码器单元310以重建经解码基因组注释311。

基因组注释文本搜索设备

根据本公开的原理实施的文本搜索设备扩展如图4所描绘的与ISO/IEC 23092兼容的解码设备的功能性。

图4展示根据本公开的原理的解码设备。基因组注释存取单元解码器41从流多路分用器70接收存取单元40，且提取存取单元的经熵编码的有效负载。熵解码器42、43、44接收所提取的经熵编码的有效负载，且将不同类型的基因组注释描述符解码为其二进制表示45。在解码设备的配置中，不同类型或不同分类的存取单元可选择性地提取。所有基因组注释共同的描述符的所述二进制表示接着馈送到逆变换单元46。特定针对注释数据类型的描述符的二进制表示馈送到逆变换单元414。主注释索引48馈送到带索引存取单元信息检索单元47，其在串索引中定位与文本询问413匹配的文本字段。此位置信息415接着馈送到带索引信息解码单元49，其从串索引解码文本字段。所述经解码文本字段接着馈送到描述符解码器单元410以重建经解码基因组注释411。

主索引表进行如下关联

·基因组区间(序列ID+开始位置+结束位置+数据类)

与

·含有经压缩基因组测序读段和相关联比对信息及元数据的存取单元。

注释索引进行如下关联

·经压缩且可搜索形式的含有关于特征的文本信息的串索引

与

·含有以下各项的存取单元

·经压缩基因组注释，以及

·关于其所属的基因组区间的信息。

文本串“APOBEC”上的单个询问可检索包含文本“APOBEC”和相关联编码序列读段的所有相关联注释。

主索引表进行如下关联

·基因组区间(序列ID+开始位置+结束位置+数据类)

与

注释索引进行如下关联

·基因组区间(序列ID+开始位置+结束位置+数据类)

与

·含有经压缩基因组注释的存取单元

以及与

·经压缩且可搜索形式的含有关于特征的文本信息的串索引。

基因组区间N上的单个询问可检索编码序列读段和所有相关联注释。

在此公开的本发明技术可实施于硬件、软件、固件或其任何组合中。当实施于软件中时，这些可存储在计算机介质上且由硬件处理单元执行。硬件处理单元可包括一个或多个处理器、数字信号处理器、通用微处理器、专用集成电路或其它离散逻辑电路。

本公开的技术可实施于多种装置或设备中，包含移动电话、台式计算机、服务器、平板电脑和类似的装置。

Claims

1.一种计算机实施的方法，其用于

存储或传输包括与基因组测序数据相关联的注释数据的基因组文件格式的所述基因组测序数据的表示，所述基因组测序数据包括核苷酸序列的读段，所述方法包括以下步骤：

将所述读段比对(10)到一个或多个参考序列，借此创建经比对读段，

基于所述经比对读段在所述一个或多个参考序列上的映射根据分类规则对所述经比对读段进行分类(14)，借此创建经比对读段的类(18)，

将所述经分类的经比对读段熵编码为大量的描述符块，

以标头信息使所述描述符块结构化，借此创建含有基因组测序数据的第一分类的存取单元(119)，

所述方法进一步包括将注释数据(12)编码到第二分类的不同存取单元(122)中且将索引数据编码到主注释索引(MAI、123、211)中，其中所述索引数据表示通过对注释串数据(212)采用至少一个压缩串索引算法(28)而获得的所述注释串数据的经编码形式，且其中所述MAI使经编码注释串与第二分类的所述存取单元相关联，

所述方法进一步包括对第一分类的所述存取单元、第二分类的所述存取单元和所述MAI进行联合编码。

2.根据权利要求1所述的方法，其特征在于，含有基因组注释数据的所述第二分类的所述存取单元进一步包括标识基因组区间(80)的信息数据，其中所述基因组区间标识所述一个或多个参考序列中的核苷酸序列，使得包含在所述第二分类的所述存取单元中的所述注释数据与包含在含有基因组测序数据的所述第一分类的存取单元中的所述基因组序列的相关编码读段相关联。

3.根据权利要求2所述的方法，其特征在于，所述注释数据和索引数据的所述编码包括以下步骤：

将基因组注释数据(20)编码(22)为基因组注释描述符(29、212)，其中所述基因组注释描述符包括数值描述符和文本描述符，所述编码包括以下步骤：

-根据特别地由用户提供的配置参数(213)从所述文本描述符选择文本描述符的子集(212)；

-通过采用第一串变换方法变换(26)文本描述符(212)的所述子集以产生串索引(210)；

-通过采用串索引变换方法变换和编码(28)所述串索引(210)，借此产生主注释索引数据(211)；

-通过采用不同于所述第一变换方法的至少一个第二变换方法(21、27)变换(21、27)所述数值描述符和不包含在文本描述符的所述子集(29)中的文本描述符；

-通过针对所述数值描述符采用至少一个第一熵编码器(24)且针对不包含在文本描述符的所述子集(29)中的所述文本描述符采用至少一个第二熵编码器(214)，将所述数值描述符和不包含在文本描述符的所述子集(29)中的所述文本描述符编码(24、23)到单独的所述第二分类的存取单元(25)中。

4.根据权利要求3所述的方法，其特征在于，所述第一串变换方法(26)包括以下步骤：

-在每一文本描述符(51、52、53)之后插入用于传信每一文本描述符(51、52、53)的终止的串终止子(55)字符；

-串接所述文本描述符(51、52、53)；

-使基因组注释记录索引数据(54)交错以使所述文本描述符(51、52、53)与所述第二分类的所述存取单元内的基因组注释记录的位置相关联。

5.根据权利要求4所述的方法，其特征在于，所述串索引变换方法(28)为串模式匹配、后缀阵列、FM-索引、散列表中的一个。

6.根据权利要求3所述的方法，其特征在于，所述至少一个第二变换方法(21、27)是以下中的一个：差分编码、游程长度编码、字节分离，以及例如CABAC、霍夫曼编码、算术编码、范围编码等熵编码器。

7.根据前述权利要求中任一项所述的方法，其特征在于，所述主注释索引(MAI)在其标头中含有AU类型的数目和每一AU类型的索引的数目。

8.根据前述权利要求中任一项所述的方法，其进一步包括经分类的未比对读段的编码。

9.一种用于解码和提取核苷酸序列和基因组注释数据的方法，所述核苷酸序列和基因组注释数据根据权利要求1所述的方法编码，所述方法包括以下步骤：

将基因组数据多元体(710)解析(70)为基因组语法要素层(71)；

解析经压缩注释数据(712)；

解析主注释索引(MAI)(713)；

将所述基因组层扩展为核苷酸序列的经分类读段；

选择性地解码与所述经分类读段相关联的所述注释数据。

10.根据权利要求9所述的方法，其进一步包括解码与基因组区间(80)相关的信息数据，其中所述基因组区间标识所述一个或多个参考序列中的核苷酸序列，使得所述注释数据与所述基因组序列的相关编码读段相关联。

11.根据权利要求10所述的方法，其进一步包括解码根据权利要求3至8中任一项所述的方法编码的数据。

12.一种用于压缩基因组文件格式中的基因组序列数据的基因组编码器(110)，所述基因组文件格式包括与所述基因组测序数据相关联的注释数据，所述基因组序列数据包括核苷酸序列的读段，所述编码器包括：

-比对单元(10)，其用于将所述读段比对到一个或多个参考序列，借此创建经比对读段；

-数据分类单元，其用于基于所述经比对读段在所述一个或多个参考序列上的映射根据分类规则对所述经比对读段进行分类(14)，借此创建经比对读段的类，

-熵编码单元(112)，其用于将所述经分类的经比对读段熵编码为大量的描述符块(115)，

-存取单元编码单元(116)，其用于以标头信息使所述描述符块结构化，借此创建含有基因组测序数据的第一分类的存取单元(119，219)，

-基因组注释编码单元(117)，其用于将注释数据(12)编码到第二分类的不同存取单元(122)中且将索引数据编码到主注释索引(MAI、123)中，其中所述索引数据表示通过对注释串数据(210)采用至少一个压缩串索引算法(28)而获得的所述注释串数据的经编码形式，且其中所述MAI使经编码注释串与第二分类的所述存取单元相关联，

-用于对第一分类的所述存取单元、第二分类的所述存取单元和所述MAI进行联合编码的构件。

13.根据权利要求12所述的基因组编码器，其进一步包括用于执行根据权利要求1至8中任一项所述的编码方法的步骤的编码构件。

14.一种用于解码核苷酸序列和基因组注释数据的基因组解码器设备，所述核苷酸序列和基因组注释数据由根据权利要求12所述的编码器编码，所述解码器包括：

-用于将基因组数据多元体(710)解析(70)为基因组语法要素层(71)的构件；

-用于解析所述经压缩注释数据的构件；

-用于解析主注释索引的构件；

15.根据权利要求14所述的基因组解码器，其进一步包括用于执行根据权利要求10或11所述的解码方法的步骤的解码构件。

16.一种计算机可读介质，其包括指令，所述指令在由至少一个处理器执行时使所述至少一个处理器执行根据权利要求1至11中任一项所述的方法。