ES2947521T3

ES2947521T3 - Procedimiento y aparato para una representación compacta de datos bioinformáticos

Info

Publication number: ES2947521T3
Application number: ES16791320T
Authority: ES
Inventors: Giorgio Zoia; Daniele Renzi
Original assignee: Genomsys SA
Current assignee: Genomsys SA
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2023-08-10
Anticipated expiration: 2036-10-11
Also published as: EP4235680A3; HUE062006T2; EP3526711B1; CL2019000957A1; CO2019003587A2; PH12019500793A1; EP4235680A2; IL265906A; CA3039690A1; CN110168649A; WO2018068829A1; EA201990935A1; AU2016426571A1; JP2020503580A; ZA201902786B; MX2019004124A; SG11201903177PA; PL3526711T3; US20200051664A1; KR20190071741A

Abstract

Método y aparato para la compresión de datos de secuencias genómicas producidos por máquinas de secuenciación genómica. Las secuencias de nucleótidos se alinean con una o más secuencias de referencia, se clasifican según los grados de precisión coincidentes, se codifican como una multiplicidad de capas de elementos sintácticos, utilizando diferentes modelos de fuente y codificadores de entropía para cada capa en la que se dividen los datos. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Procedimiento y aparato para una representación compacta de datos bioinformáticos

Campo técnico

La presente divulgación proporciona un procedimiento novedoso implementado por ordenador para la compresión de datos de secuencias genómicas, un procedimiento novedoso para la descompresión de un flujo genómico comprimido de acuerdo con dicho procedimiento de compresión, un codificador genómico novedoso para la compresión de datos de secuencias genómicas y un decodificador genómico novedoso para la descompresión de un flujo genómico comprimido por dicho codificador genómico. Dicho procedimiento implementado por ordenador para la compresión de los datos de secuencias genómicas puede reducir el espacio de almacenamiento utilizado y mejora el rendimiento de acceso proporcionando una nueva funcionalidad que no está disponible con los procedimientos de representación conocidos de la técnica anterior.

Antecedentes

Una representación adecuada de los datos de secuenciación del genoma es fundamental para permitir aplicaciones eficientes de análisis genómico, tales como la llamada de variantes del genoma y todos los demás análisis realizados con diversos fines mediante el procesamiento de los datos y metadatos de la secuenciación. La secuenciación del genoma humano se ha vuelto asequible gracias a la aparición de tecnologías de secuenciación de bajo costo y alto rendimiento. Esta oportunidad abre nuevas perspectivas en varios campos que van desde el diagnóstico y tratamiento del cáncer hasta la identificación de enfermedades genéticas, desde la vigilancia de patógenos para la identificación de anticuerpos hasta la creación de nuevas vacunas, fármacos y la personalización de tratamientos personalizados.

Los hospitales, los proveedores de análisis genómico, la bioinformática y los grandes centros de almacenamiento de datos biológicos buscan soluciones de procesamiento de información genómica asequibles, rápidas, confiables e interconectadas que puedan permitir escalar la medicina genómica a escala mundial. Dado que uno de los cuellos de botella en el proceso de secuenciación se ha convertido en el almacenamiento de datos, los procedimientos para representar los datos de secuenciación del genoma en una forma comprimida son cada vez más investigados.

Las representaciones de información de genoma más utilizadas de los datos de secuenciación se basan en la compresión de formatos FASTQ y SAM. El objetivo es comprimir los formatos de archivo tradicionalmente utilizados (respectivamente FASTQ y SAM para datos no alineados y alineados). Dichos archivos están constituidos por caracteres de texto sin formato y se comprimen, como se mencionó anteriormente, mediante el uso de enfoques de propósito general como esquemas LZ (de Lempel y Ziv, los autores que publicaron las primeras versiones) (el bien conocido zip, gzip, etc.). Cuando se utilizan compresores de propósito general tal como gzip, el resultado de compresión suele ser un solo blob de datos binarios. La información en dicha forma monolítica resulta bastante difícil de archivar, transferir y elaborar, en particular cuando como en el caso de la secuenciación de alto rendimiento, el volumen de datos es extremadamente grande. El formato BAM se caracteriza por un rendimiento de compresión pobre debido al enfoque en la compresión del formato SAM ineficiente y redundante en lugar de extraer la información genómica real transmitida por los archivos SAM y debido a la adopción de algoritmos de compresión de texto de propósito general, como gzip en lugar de explotar la naturaleza específica de cada fuente de datos (los datos genómicos en sí).

Un enfoque más sofisticado para la compresión de datos genómicos que se usa menos, pero más eficiente que BAM es CRAM. CRAM proporciona una compresión más eficiente para la adopción de codificación diferencial con respecto a una referencia existente (explota parcialmente la redundancia de la fuente de datos), pero aún carece de características como actualizaciones graduales, soporte para transmisión y acceso selectivo a clases específicas de datos comprimidos.

Estos enfoques generan relaciones de compresión y estructuras de datos deficientes que son difíciles de navegar y manipular una vez que se comprimen. El análisis posterior puede ser muy lento debido a la necesidad de manejar estructuras de datos grandes y rígidas, incluso para realizar operaciones simples o para acceder a regiones seleccionadas del conjunto de datos genómicos. CRAM se basa en el concepto del registro CRAM. Cada registro CRAM codifica una sola lectura mapeada o no mapeada codificando todos los elementos necesarios para reconstruirla.

El documento "Especificación del formato CRAM (versión 3.0)" —en lo sucesivo "CRAM"— publicado en septiembre de 2016 describe el formato CRAM 3.0 y sus objetivos, siendo por ejemplo totalmente compatible con SAM y con la transición sin esfuerzo a CRAM desde el uso de archivos SAM. Dicho documento es un kit de herramientas de compresión basado en referencias, que emplea GZIP. La estructura de codificación de este documento está basada en GZIP como un archivo monolítico (véase, por ejemplo, el Capítulo 14 de CRAM). CRAM realiza la indexación por medio de la creación de un archivo externo que contiene una estructura basada en un árbol para la recuperación de bloques comprimidos. Dado que CRAM carece de las mismas limitaciones que SAM y no habla sobre la noción de ninguna clasificación de datos de acuerdo con el resultado del proceso de mapeo, la única indexación disponible en CRAM se basa en la noción de posición genómica. Además, en formatos como SAM y CRAM en los que la clasificación de datos no está presente, no es posible indexar bloques de datos comprimidos dependiendo del resultado del proceso de mapeo aparte de los criterios genéricos "mapeado" o "no mapeado". Resumiendo, el esquema de compresión propuesto en dicho documento tiene un rendimiento mediocre.

CRAM tiene los siguientes inconvenientes:

1. Para CRAM, la indexación de datos está fuera del alcance de la memoria descriptiva (véase la sección 12 de la especificación CRAM v 3.0) y se implementa como un archivo separado. En cambio, el enfoque de la invención descrita en este documento emplea un procedimiento de indexación de datos que se integra con el proceso de codificación y los índices están integrados en el flujo de bits codificado.

2. En CRAM todos los bloques de datos centrales pueden contener cualquier tipo de lecturas mapeadas (lecturas perfectamente coincidentes, lecturas solo con sustituciones, lecturas con inserciones o deleciones (también denominadas "indeles")). No hay noción de clasificación y agrupación de lecturas en clases según el resultado del mapeo con respecto a una secuencia de referencia

3. En la presente invención no hay noción de registro que encapsule cada lectura porque los datos necesarios para reconstruir cada lectura se encuentran dispersos entre varios contenedores de datos llamados "capas". Esto permite un acceso más eficiente al conjunto de lecturas con características biológicas especificas (por ejemplo, lecturas con sustituciones, pero sin "indeles", o lecturas perfectamente mapeadas) sin la necesidad de decodificar cada (bloque de) lectura(s) para inspeccionar sus características.

4. En un registro CRAM, cada tipo de datos se denota por medio de un indicador especifico. En la presente invención no hay una noción de indicador que denote datos porque eso se define intrínsecamente por medio de la "capa" a la que pertenecen los datos. Esto implica el uso de un número muy reducido de símbolos y una consecuente reducción de la entropía de la fuente de información que resulta en una compresión más eficiente. Esto se debe a que el uso de diferentes "capas" permite al codificador reutilizar el mismo símbolo en cada capa con diferentes significados. En CRAM, cada indicador siempre debe tener el mismo significado, ya que no hay noción de contextos y cada registro CRAM puede contener cualquier tipo de datos.

5. En las sustituciones CRAM, las inserciones y deleciones se expresan de acuerdo con diferentes sintaxis, mientras que el enfoque propuesto utiliza un único alfabeto y codificación para sustituciones, inserciones y deleciones. Esto hace que el proceso de codificación y decodificación sea más simple y produce un modelo fuente de entropía más bajo, cuya codificación produce flujos de bits de compresión más altos.

El objetivo de la presente invención es comprimir secuencias genómicas organizando y dividiendo los datos, de manera que la información redundante a codificar se minimice y se habiliten características tales como el acceso selectivo y el soporte para actualizaciones graduales.

Uno de los aspectos del enfoque presentado es la definición de clases de datos y metadatos que se codificarán por separado y se estructurarán en diferentes capas. Las mejoras más importantes de este enfoque con respecto a los procedimientos existentes consisten en:

1. un aumento del rendimiento de compresión debido a la reducción de la entropía de la fuente de información constituida al proporcionar un modelo eficiente para cada clase de datos o metadatos;

2. la posibilidad de realizar accesos selectivos a porciones de los datos y metadatos comprimidos para cualquier otro propósito de procesamiento;

3. la posibilidad de actualizar de manera gradual (sin la necesidad de volver a codificar) datos y metadatos codificados con nuevos datos y/o metadatos de secuenciación y/o nuevos resultados de análisis.

El documento de patente US 2015/0227686 A se refiere a un aparato y a un procedimiento implementado por procesador, en el que el procedimiento incluye alinear un genoma de referencia con una pluralidad de secuencias de ADN. Cada una de la pluralidad de secuencias de ADN tiene una respectiva pluralidad de bases. Además, el procedimiento incluye la clasificación y selección de la pluralidad de secuencias de lectura basadas en los números respectivos de bases no coincidentes dentro de la pluralidad de secuencias de lectura para obtener una pluralidad de secuencias de ADN reorganizadas.

El documento anterior describe la implementación de un alineador basado en la Transformada de Burrows Wheeler. La salida del proceso de alineación es un conjunto de registros que describen la manera en que se mapean las lecturas en un genoma de referencia. El formato de salida de dicho proceso es el SAM textual usualmente ordenado por posición de mapeo en una secuencia de referencia (por ejemplo, cromosoma). El documento de patente US no habla sobre ninguna clasificación de lecturas en función del resultado del proceso de mapeo y todas las lecturas son mezcladas cuando son clasificadas de acuerdo con la posición de mapeo. Por lo tanto, cuando un usuario final necesita extraer solo lecturas perfectamente mapeadas o cualquier otra categoría de las lecturas, la única forma de encontrarlas es descomprimir el archivo completo y realizar un procesamiento posterior en la salida SAM textual.

Breve descripción de los dibujos

La Figura 1 muestra cómo se codifica la posición de los pares de lecturas mapeadas en la capa pos como diferencia de la posición absoluta de la primera lectura mapeada. Esta figura ilustra cómo se codifica la posición de la primera lectura de los tres pares de lectura mapeados en la capa pos.

La Figura 2 muestra cómo dos lecturas en un par pueden provenir de las dos cadenas de ADN.

La Figura 3 muestra cómo se codificará el complemento inverso de la Lectura 2 si la cadena 1 se usa como referencia.

La Figura 4 muestra las cuatro posibles combinaciones de lecturas que componen un par de lecturas y la codificación respectiva en la capa rcomp.

La Figura 5 muestra cómo calcular la distancia de apareamiento en el caso de una longitud de lecturas constante para tres pares de lectura.

La Figura 6 muestra cómo los errores de apareamiento codificados en la capa de par permiten al decodificador reconstruir el par de lectura correcto utilizando el MPPPD codificado.

La Figura 7 muestra la codificación de una distancia de apareamiento cuando una lectura se mapea en una referencia de diferencia que la de su pareja. En este caso, se agregan descriptores adicionales a la distancia de apareamiento. Uno es un indicador de señalización, el segundo es un identificador de referencia y luego la distancia de apareamiento.

La Figura 8 muestra la codificación de las N faltas de coincidencia en una capa nmis.

La Figura 9 muestra un par de lectura mapeada que presenta sustituciones con respecto a una secuencia de referencia.

La Figura 10 muestra cómo calcular las posiciones de las sustituciones como valores absolutos o diferenciales.

La Figura 11 muestra cómo calcular los símbolos que codifican los tipos de sustituciones cuando no se utilizan códigos IUPAC. Los símbolos representan la distancia, en un vector de sustitución circular, entre la molécula presente en la lectura y la presente en la referencia en esa posición.

La Figura 12 muestra cómo codificar las sustituciones en la capa snpt.

La Figura 13 muestra cómo calcular los códigos de sustitución cuando se utilizan los códigos de ambigüedad IUPAC.

La Figura 14 muestra cómo se codifica la capa snpt cuando se utilizan los códigos IUPAC.

La Figura 15 muestra cómo para las lecturas de clase I, el vector de sustitución utilizado es el mismo que para la clase M, con la adición de códigos especiales para las inserciones de los símbolos A, C, G, T, N. La Figura 16 muestra algunos ejemplos de codificación de faltas de coincidencia e indeles en caso de códigos de ambigüedad IUPAC. El vector de sustitución es mucho más largo en este caso y, por lo tanto, los posibles símbolos calculados son más que en el caso de cinco símbolos.

La Figura 17 muestra un modelo fuente diferente para las faltas de coincidencia e indeles en el que cada capa contiene la posición de las faltas de coincidencia o inserciones de un solo tipo. En este caso, no se codifican símbolos para el tipo de falta de coincidencia o indel.

La Figura 18 muestra un ejemplo de faltas de coincidencia y codificación de indeles. Cuando no hay ninguna falta de coincidencia o indeles de un tipo dado para una lectura, se codifica un 0 en la capa correspondiente. El 0 actúa como separador y terminador de lecturas en cada capa.

La Figura 19 muestra cómo una modificación en la secuencia de referencia puede transformar las lecturas M en lecturas P.

Esta operación puede reducir la entropía de la información de la estructura de datos, especialmente en caso de alta cobertura.

La Figura 20 muestra un codificador genómico 2010 de acuerdo con una realización de la presente invención.

La Figura 21 muestra un decodificador genómico 218 de acuerdo con una realización de la presente invención.

Sumario

Los problemas antes mencionados presentes en la técnica anterior se resuelven por medio de la presente invención tal como se reivindica en el conjunto de reivindicaciones adjuntas.

En un aspecto, un procedimiento implementado por ordenador para la compresión de datos de secuencias genómicas, comprendiendo dichos datos de secuencias genómicas lecturas de secuencias de nucleótidos, comprendiendo dicho procedimiento las etapas de:

alinear dichas lecturas con una secuencia de referencia creando así lecturas alineadas;

clasificar dichas lecturas alineadas en diferentes clases que comprenden al menos:

- una primera clase: cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia sin ningún error;

- una segunda clase: cuando dichas lecturas alineadas coinciden con una región en dichas una o más secuencias de referencia con un número de faltas de coincidencia constituidas por un número de posiciones en las que una máquina de secuenciación no fue capaz de identificar ninguna base;

- una tercera clase: cuando dichas lecturas alineadas coinciden con una región en dichas una o más secuencias de referencia con un número de faltas de coincidencia constituidas por un número de posiciones en las que la máquina de secuenciación no fue capaz de identificar ninguna base, o identificó una base diferente a la base reportada en el genoma de referencia.

- una cuarta clase: cuando dichas lecturas alineadas coinciden con una región en dichas una o más secuencias de referencia con un número de faltas de coincidencia constituidas por un número de posiciones en las que la máquina de secuenciación no fue capaz de identificar ninguna base, o identificó una base diferente a la base reportada en el genoma de referencia y por la presencia de inserciones o deleciones o nucleótidos recortados;

- una quinta clase: cuando dichas lecturas alineadas no encuentran ningún mapeo válido en dichas una o más secuencias de referencia de acuerdo con restricciones de alineación especificadas; creando de este modo clases de lecturas alineadas;

codificar dichas lecturas clasificadas y alineadas como una multiplicidad de capas de elementos de sintaxis definidos por descriptores que representan unívocamente lecturas de secuencias genómicas, comprendiendo dichos descriptores para dicha primera clase al menos la posición de inicio en la secuencia de referencia, un indicador que señala si la lectura debe ser considerada como un complemento inverso frente a la referencia, una distancia al par de pareja en caso de lecturas apareadas, el valor de la longitud en caso de que la tecnología de secuenciación produzca lecturas de longitud variable, comprendiendo dichos descriptores para dicha segunda clase al menos los descriptores de dicha primera clase y una posición de falta de coincidencia para cada falta de coincidencia, comprendiendo dichos descriptores para dicha tercera clase los descriptores de dicha segunda clase y una posición de falta de coincidencia y un tipo de falta de coincidencia para cada falta de coincidencia, comprendiendo dichos descriptores para dicha cuarta clase los descriptores de dicha primera clase y, tipo de falta de coincidencia para cada falta de coincidencia y las bases recortadas;

en el que la codificación de dichas lecturas alineadas clasificadas como una multiplicidad de capas de elementos de sintaxis comprende seleccionar dichos elementos de sintaxis que comprenden dichos descriptores de acuerdo con dichas clases de lecturas alineadas,

en el que la codificación de dichas lecturas alineadas clasificadas como una multiplicidad de capas de elementos de sintaxis se adapta de acuerdo con las propiedades estadísticas de los datos transportados por la capa,

en el que la codificación de dichas lecturas alineadas clasificadas como una multiplicidad de capas de elementos de sintaxis que comprenden dichos descriptores asocia un modelo fuente específico y un codificador de entropía específico a cada capa, estando el modelo fuente caracterizado por la definición de los elementos de sintaxis emitidos por cada fuente, la definición de un modelo de probabilidad asociado y la definición del codificador de entropía asociado,

en el que hay una descomposición de datos y metadatos de lecturas de secuencias en capas homogéneas de dichos descriptores a fin de obtener distintas fuentes de información con entropía de información reducida.

En otro aspecto, un procedimiento para la descompresión de un flujo genómico comprimido de acuerdo con un procedimiento de compresión de acuerdo con la presente invención, comprendiendo dicho procedimiento las etapas de:

analizar y decodificar el flujo genómico comprimido en capas genómicas de elementos de sintaxis, expandir dichas capas genómicas en lecturas clasificadas de secuencias de nucleótidos,

decodificar selectivamente usando decodificadores de clase dichas lecturas clasificadas de secuencias de nucleótidos y fusionar el resultado en una o más secuencias de referencia a fin de producir lecturas no comprimidas de secuencias de nucleótidos.

Un aspecto adicional, un codificador genómico 2010 para la compresión de datos de secuencia del genoma 209, dichos datos de secuencia del genoma 209 comprenden lecturas de secuencias de nucleótidos, comprendiendo dicho codificador genómico 2010:

una unidad de alineación 201, configurada para alinear dichas lecturas con una o más secuencias de referencia, creando de este modo lecturas alineadas,

una unidad de clasificación de datos 204, configurada para clasificar dichas lecturas alineadas de acuerdo con grados de precisión de coincidencia con la una o más secuencias de referencia, creando así clases de lecturas alineadas en diferentes clases que comprenden al menos:

- una primera clase: cuando dichas lecturas alineadas coinciden con dicha una o más secuencias de referencia sin ningún error;

- una quinta clase: cuando dichas lecturas alineadas no encuentran ningún mapeo válido en dichas una o más secuencias de referencia de acuerdo con restricciones de alineación especificadas,

Creando de este modo clases de lecturas alineadas;

una o más unidades de codificación de capas 205-207, configuradas para codificar dichas lecturas alineadas clasificadas como capas de elementos de sintaxis que seleccionan dichos elementos de sintaxis de acuerdo con dichas clases de lecturas alineadas, en el que dichos descriptores comprenden para dicha primera clase al menos la posición de inicio en la secuencia de referencia, un indicador que señala si la lectura debe ser considerada como un complemento inverso frente a la referencia, una distancia al par de pareja en caso de lecturas apareadas, la valor de la longitud en caso de que la tecnología de secuenciación produzca lecturas de longitud variable, comprendiendo dichos descriptores para dicha segunda clase al menos los descriptores de dicha primera clase y una posición de falta de coincidencia para cada falta de coincidencia, comprendiendo dichos descriptores para dicha tercera clase los descriptores de dicha segunda clase y una posición de falta de coincidencia y un tipo de falta de coincidencia para cada falta de coincidencia, comprendiendo dichos descriptores para dicha cuarta clase los descriptores de dicha primera clase y un tipo de falta de coincidencia para cada falta de coincidencia y las bases recortadas; unidades codificadoras de entropía (2012-2014) para la codificación de entropía dichas capas de elementos de sintaxis,

En otro aspecto, un decodificador genómico 218 para la descompresión de un flujo genómico 211, comprimido por un codificador genómico como se describe anteriormente y más adelante, comprendiendo dicho decodificador genómico 218:

medios de análisis y decodificación 210, 212-214 configurados para analizar dicho flujo genómico comprimido en capas genómicas de elementos de sintaxis 215,

uno o más decodificadores de capas 216-217, configurados para decodificar las capas genómicas en clases de datos y además configurados para procesar dichas capas genómicas en lecturas clasificadas de secuencias de nucleótidos 2111,

decodificadores de clases de datos genómicos 213 configurados para decodificar selectivamente dichas lecturas clasificadas de secuencias de nucleótidos y configurados para fusionar el resultado en una o más secuencias de referencia a fin de producir lecturas no comprimidas de secuencias de nucleótidos.

Descripción detallada

Las secuencias genómicas o proteómicas a las que se hace referencia en la presente invención incluyen, por ejemplo, y no como una limitación, secuencias de nucleótidos, secuencias de ácido desoxirribonucleico (ADN), ácido ribonucleico (ARN) y secuencias de aminoácidos. Aunque la descripción en el presente es bastante detallada con respecto a la información genómica en forma de una secuencia de nucleótidos, se entenderá que los procedimientos y sistemas de compresión pueden ser implementados también para otras secuencias genómicas o proteómicas, aunque con algunas variaciones, como entenderá un experto en la técnica.

La información de secuenciación del genoma se genera por las máquinas de Secuenciación de Alto Rendimiento (HTS) en forma de secuencias de nucleótidos (también conocidas como bases) representadas por cadenas de letras de un vocabulario definido. El vocabulario más pequeño está representado por cinco símbolos: {A, C, G, T, N} que representan los 4 tipos de nucleótidos presentes en el ADN, a saber, adenina, citosina, guanina y timina. En el ARN la Timina se sustituye por Uracilo (U). N indica que la máquina de secuenciación no pudo identificar ninguna base y, por lo tanto, la naturaleza de la posición no está determinada. En caso de que la máquina de secuenciación adopte los códigos de ambigüedad IUPAC, el alfabeto utilizado para los símbolos es (A, C, G, T, U, W, S, M, K, R, Y, B, D, H, V, No-).

Las secuencias de nucleótidos producidas por las máquinas de secuenciación se denominan "lecturas". Las lecturas de secuencias pueden estar entre una longitud de unas pocas docenas hasta varios miles de nucleótidos. Algunas tecnologías producen lecturas de secuencias en parejas en las que una lectura es de una cadena de ADN y la segunda es de la otra cadena. En la secuenciación del genoma, el término cobertura se usa para expresar el nivel de redundancia de los datos de secuencia con respecto a una secuencia de referencia. Por ejemplo, para alcanzar una cobertura de 30x en un genoma humano (3200 millones de bases de longitud), una máquina de secuenciación deberá producir un total de 30 x 3200 millones de bases, de manera que en promedio cada posición en la referencia esté "cubierta" 30 veces.

A lo largo de la presente divulgación, una secuencia de referencia es cualquier secuencia en la que se alinean/mapean las secuencias de nucleótidos producidas por máquinas de secuenciación. Un ejemplo de secuencia en realidad podría ser un genoma de referencia, una secuencia ensamblada por científicos como un ejemplo representativo del conjunto de genes de una especie. Por ejemplo, GRCh37, el genoma humano del Consorcio de referencia del genoma (compilación 37) se deriva de trece voluntarios anónimos de Buffalo, Nueva York. Sin embargo, una secuencia de referencia también podría consistir en una secuencia sintética concebida para mejorar simplemente la compresibilidad de las lecturas en vista de su procesamiento posterior.

Los dispositivos de secuenciación pueden introducir errores en las lecturas de secuencias, tales como

1. Uso de un símbolo incorrecto (es decir, que representa un ácido nucleico diferente) para representar el ácido nucleico realmente presente en la muestra secuenciada; esto generalmente se denomina "error de sustitución" (falta de coincidencia);

2. Inserción en una lectura de secuencia de símbolos adicionales que no se refieren a ningún ácido nucleico realmente presente; esto generalmente se denomina "error de inserción";

3. Deleción de una lectura de secuencia de símbolos que representan ácidos nucleicos que están realmente presentes en la muestra secuenciada; esto generalmente se denomina "error de deleción";

4. Recombinación de uno o más fragmentos en un solo fragmento que no refleja la realidad de la secuencia de origen.

El término "cobertura" se usa en la bibliografía para cuantificar la medida en que un genoma de referencia o una parte del mismo puede ser cubierto por las lecturas de secuencias disponibles. Se dice que la cobertura es: • parcial (menos de 1X) cuando algunas partes del genoma de referencia no se mapean por ninguna lectura de secuencia disponible.

• simple (1X) cuando todos los nucleótidos del genoma de referencia están mapeados por uno y solo un símbolo presente en las lecturas de secuencias.

• múltiple (2X, 3X, NX) cuando cada nucleótido del genoma de referencia se mapea varias veces.

El objetivo de la presente invención es definir un formato de representación de información genómica en el que la información relevante sea accesible y transportable de manera eficiente y se reduzca el peso de la información redundante.

Los aspectos principales de la presente divulgación son:

1. La clasificación de las lecturas de secuencias en diferentes clases de acuerdo con los resultados de la alineación con respecto las secuencias de referencia a fin de permitir el acceso selectivo a los datos codificados de acuerdo con los criterios relacionados con los resultados de alineación y la precisión coincidente.

2. La descomposición de los datos y metadatos de lecturas de secuencias en capas homogéneas para obtener distintas fuentes de información con una entropía de información reducida.

3. La posibilidad de modelar cada fuente separada con un modelo fuente diferente adaptado a cada característica estadística, incluida la posibilidad de cambiar el modelo fuente dentro de cada clase de lecturas y capas para cada unidad de datos accesible (unidades de acceso). Adopción de los modelos de probabilidad adaptativa de contexto apropiados y codificadores de entropía asociados de acuerdo con las propiedades estadísticas de cada modelo fuente.

4. La definición de correspondencias y dependencias entre las capas para permitir el acceso selectivo a los datos sin la necesidad de decodificar todas las capas si no se necesita toda la información

5. Codificar cada clase de datos de secuencia y capas de metadatos asociadas con respecto a una secuencia de referencia que se puede modificar para reducir la entropía de las clases de datos y las fuentes de información de capas. Después de una primera codificación basada en una referencia, la secuenciación de las faltas de coincidencia detectadas puede ser utilizada para "adaptar/modificar" la secuencia de referencia con el fin de reducir aún más toda la entropía de la información. Este proceso se puede realizar de forma iterativa siempre que la reducción de la entropía de la información resulte relevante.

A continuación, cada uno de los aspectos anteriores se describirá con más detalle.

Encabezado del archivo principal

Clasificación de las lecturas de secuencias

Las lecturas de secuencias generadas por máquinas de secuenciación pueden ser clasificadas en el contexto de la presente divulgación en cinco "clases" diferentes de acuerdo con los resultados de la alineación con respecto a una o más secuencias de referencia determinadas.

Al alinearse con una secuencia de ADN de nucleótidos con respecto a una secuencia de referencia, los resultados posibles son cinco:

1. Se descubre que una región en la secuencia de referencia coincide con la lectura de secuencia sin ningún error (mapeo perfecto). Dicha secuencia de nucleótidos se denominará "lectura perfectamente coincidente" o se denominará "Clase P".

2. Se descubre que una región en la secuencia de referencia coincide con la lectura de secuencia con una serie de faltas de coincidencia constituidas por varias posiciones en las cuales la máquina de secuenciación no pudo identificar ninguna base (o nucleótido). Dichas faltas de coincidencia se denotan por medio de una "N". Dichas secuencias serán referenciadas como "lecturas no coincidentes N" o "Clase N".

3. Se descubre que una región en la secuencia de referencia coincide con la lectura de secuencia con una serie de faltas de coincidencia constituidas por varias posiciones en las cuales la máquina de secuenciación no pudo identificar ninguna base (o nucleótido) o se ha identificado una base diferente a la que se informó en el genoma de referencia. Este tipo de falta de coincidencia se denomina variación de nucleótido único (SNV) o polimorfismo de nucleótido único (SNP). La secuencia se denominará "lecturas no coincidentes M" o "Clase M".

4. Una cuarta clase está constituida por lecturas de secuencias que presentan un tipo de falta de coincidencia que incluye las mismas faltas de coincidencia de clase M más la presencia de inserciones o deleciones (conocidas como indeles). Las inserciones están representadas por una secuencia de uno o más nucleótidos no presentes en la referencia, pero presentes en la secuencia de lectura. En la bibliografía, cuando la secuencia insertada está en los bordes de la secuencia, se denomina "recorte suave " (es decir, los nucleótidos no coinciden con la referencia, pero se mantienen en las lecturas alineadas de forma contraria a los nucleótidos de "recorte duro" que se descartan). Mantener o descartar nucleótidos es normalmente una decisión del usuario implementada como una configuración de la herramienta de alineación. Las deleciones son "agujeros" (faltan nucleótidos) en la lectura alineada con respecto a la referencia. Dichas secuencias serán referenciadas como "lecturas no coincidentes I" o "Clase I".

5. Una quinta clase incluye todas las lecturas que ahora encuentran cualquier mapeo válido en el genoma de referencia de acuerdo con las restricciones de alineación especificadas. Se dice que tales secuencias no están mapeadas y pertenecen a "Clase U".

Las lecturas no mapeadas restantes con respecto a una secuencia de referencia se pueden ensamblar en una sola secuencia usando algoritmos de ensamblaje de-novo. Una vez que se ha creado una secuencia de referencia recién ensamblada, las lecturas no mapeadas se pueden mapear aún más con respecto a ella y se pueden clasificar en una de las 4 clases P, N, M e I.

Descomposición de la información necesaria para representar lecturas de secuencias en capas de descriptores

Una vez que se completa la clasificación de las lecturas con la definición de las Clases, el procesamiento adicional consiste en definir un conjunto de elementos de sintaxis distintos que representan la información restante que permite la reconstrucción de la secuencia de lectura del ADN cuando se representa como mapeada en una secuencia de referencia dada. La estructura de datos de estos elementos de sintaxis requiere el almacenamiento de parámetros globales y metadatos para ser utilizados por el motor de decodificación. Estos datos están estructurados en un encabezado principal descrito en la tabla a continuación.

Tabla 1. Estructura del encabezado principal

Un segmento de ADN referido a una secuencia de referencia determinada puede ser expresado completamente por medio de:

• La posición de inicio en la secuencia de referencia (pos)

• Un indicador que señala si la lectura debe ser considerada como un complemento inverso frente la referencia (rcomp).

• Una distancia, al par de pareja en caso de lecturas apareadas (par).

• El valor de la longitud de lectura en caso de que la tecnología de secuenciación produzca lecturas de longitud variable (len). En el caso de una longitud de lectura constante, la longitud de lectura asociada a cada lectura puede omitirse de manera obvia y puede almacenarse en el encabezado del archivo principal.

• Para cada falta de coincidencia:

o Posición de falta de coincidencia (nmis para clase N, snpp para clase M, e indp para clase I) o Tipo de falta de coincidencia (no presente en clase N, snpt en clase M, indt en clase I)

• Indicadores que indican características específicas de la lectura de secuencia, tales como

o plantilla que tiene múltiples segmentos en secuenciación

o cada segmento correctamente alineado según el alineador

o segmento no mapeado

o siguiente segmento en la plantilla sin mapear

o señalización del primer o último segmento

o falla en el control de calidad

o PCR o duplicado óptico

o alineación secundaria

o alineación suplementaria

• Cadena de nucleótidos recortada suave opcional cuando está presente (indc en clase I)

Esta clasificación crea grupos de descriptores (elementos de sintaxis) que se pueden usar para representar de manera univoca las lecturas de secuencias del genoma. La siguiente tabla resume los elementos de sintaxis necesarios para cada clase de lecturas alineadas.

Tabla 2. Capas definidas por cada clase de datos

Las lecturas que pertenecen a la clase P se caracterizan y se pueden reconstruir perfectamente solo por una posición, una información de complemento inverso y un desplazamiento entre parejas en caso de que hayan sido obtenidas por medio de una tecnología de secuenciación que produce pares apareados, algunos indicadores y una longitud de lectura.

La siguiente sección detalla cómo se definen estos descriptores.

Capa del descriptor de posición

En la capa de posición (pos) solo la posición de mapeo de la primera lectura codificada se almacena como valor absoluto en la secuencia de referencia. Todos los demás descriptores de posición asumen un valor que expresa la diferencia con respecto a la posición anterior. Dicho modelado de la fuente de información definido por la secuencia de posición de lectura, los descriptores se caracterizan en general por una entropía reducida, especialmente para los procesos de secuenciación que generan resultados de cobertura alta.

Por ejemplo, la Figura 1 muestra cómo después de describir la posición de inicio de la primera alineación como posición "10000" en la secuencia de referencia, la posición de la segunda lectura que comienza en la posición 10180 se describe como "180". Con coberturas altas (> 50x), la mayoría de los descriptores del vector de posición presentarán episodios muy altos de valores bajos como 0 y 1 y otros enteros pequeños. La Figura 9 muestra cómo las posiciones de tres pares de lectura se describen en una capa pos.

Capa del descriptor de complemento inverso

Cada lectura de los pares de lectura producidos por tecnologías de secuenciación se puede originar a partir de cualquiera de las cadenas del genoma de la muestra orgánica secuenciada. Sin embargo, solo una de las dos cadenas se utiliza como secuencia de referencia. La Figura 2 muestra cómo en un par de lecturas una lectura (Lectura 1) puede provenir de una cadena y la otra (Lectura 2) puede provenir de la otra.

Cuando la cadena 1 se utiliza como secuencia de referencia, la Lectura 2 se puede codificar como complemento inverso del fragmento correspondiente en la cadena 1. Esto se muestra en la Figura 3.

En el caso de lecturas acopladas, cuatro son las combinaciones posibles de pares de parejas de complemento directo e inverso. Esto se muestra en la Figura 4. La capa rcomp codifica las cuatro combinaciones posibles.

La misma codificación se utiliza para la información del complemento inverso de las lecturas que pertenecen a las clases N, M, P y I. Para permitir el acceso selectivo a las diferentes clases de datos, la información del complemento inverso de las lecturas que pertenecen a las cuatro clases se codifica en diferentes capas como se muestra en la Tabla 2.

Capa del descriptor de la información de apareamiento

El descriptor de apareamiento se almacena en la capa de par. Dicha capa almacena descriptores que codifican la información necesaria para reconstruir los pares de lecturas de origen cuando la tecnología de secuenciación empleada produce lecturas por pares. Aunque a la fecha de la divulgación de la invención, la gran mayoría de los datos de secuenciación se generan mediante el uso de una tecnología que genera lecturas apareadas, no es el caso de todas las tecnologías. Este es el motivo por el cual la presencia de esta capa no es necesaria para reconstruir toda la información de datos de secuenciación si la tecnología de secuenciación de los datos genómicos considerados no genera información de lecturas apareadas.

Definiciones:

• par de pareja: lectura asociada a otra lectura en un par de lectura (por ejemplo, la Lectura 2 es el par de pareja de la Lectura 1 en el ejemplo anterior)

• distancia de apareamiento: número de posiciones de nucleótidos en la secuencia de referencia que separa una posición en la primera lectura (anclaje de apareamiento, por ejemplo, el último nucleótido de la primera lectura) de una posición de la segunda lectura (por ejemplo, el primer nucleótido de la segunda lectura)

• distancia de apareamiento más probable (MPPD): esta es la distancia de apareamiento más probable expresada en número de posiciones de nucleótidos.

• distancia de apareamiento de posición (PPD): la PPD es una forma de expresar una distancia de emparejamiento en términos del número de lecturas que separan una lectura de su pareja respectiva presente en una capa especifica del descriptor de posición.

• distancia de apareamiento de posición más probable (MPPPD): es el número más probable de lecturas que separa una lectura de su par de pareja presente en una capa especifica del descriptor de posición. • error de apareamiento de posición (^pP^e): se define como la diferencia entre la MPPD o la MPPPD y la posición real de la pareja.

• anclaje de apareamiento: posición del primer nucleótido leído por última vez en un par utilizado como referencia para calcular la distancia del par de pareja en términos de número de posiciones de nucleótido o número de posiciones de lectura.

La Figura 5 muestra cómo se calcula la distancia de apareamiento entre pares de lectura.

La capa del descriptor de par es el vector de errores de apareamiento calculado como el número de lecturas que se deben omitir para alcanzar el par de pareja de la primera lectura de un par con respecto a la distancia de apareamiento de decodificación definida.

La Figura 6 muestra un ejemplo de cómo se calculan los errores de apareamiento, tanto como valor absoluto como vector diferencial (caracterizado por una menor entropía para coberturas altas).

Los mismos descriptores se utilizan para la información de apareamiento de las lecturas que pertenecen a las clases N, M, Pe I. Con el fin de permitir el acceso selectivo a las diferentes clases de datos, la información de apareamiento de las lecturas que pertenecen a las cuatro clases se codifica en capas diferentes como se ilustra. Información de apareamiento en caso de lecturas mapeadas en diferentes secuencias de referencia En el proceso de mapeo de lecturas de secuencias en una secuencia de referencia, no es raro tener la primera lectura en un par mapeado en una secuencia de referencia (por ejemplo, el cromosoma 1) y la segunda en una secuencia de referencia diferente (por ejemplo, el cromosoma 4). En este caso, la información de apareamiento descrita anteriormente debe integrarse con información adicional relacionada con la secuencia de referencia utilizada para mapear una de las lecturas. Esto se logra por medio de la codificación de:

1. Un valor reservado (indicador) que indica que el par se mapea en dos secuencias diferentes (valores diferentes indican si la lectura1 o la lectura2 se mapean en la secuencia que no está codificada actualmente)

2. Un identificador de referencia único que se refiere a los identificadores de referencia codificados en la estructura del encabezado principal como se describe en la Tabla 1.

3. El tercer elemento contiene la información de mapeo en la referencia identificada en el punto 2 y expresada como desplazamiento con respecto a la última posición codificada.

La Figura 7 proporciona un ejemplo de este escenario.

En la Figura 7, dado que la Lectura 4 no se mapea en la secuencia de referencia codificada actualmente, el codificador genómico señala esta información al crear descriptores adicionales en la capa de pares. En el ejemplo que se muestra a continuación, la lectura 4 del par 2 está mapeada en el número de referencia 4 mientras que la referencia actualmente codificada es la número 1. Esta información se codifica utilizando 3 componentes:

1) Un valor especial reservado se codifica como distancia de apareamiento (en este caso 0xffffff)

2) Un segundo descriptor proporciona una ID de referencia como se indica en el encabezado principal (en este caso 4)

3) El tercer elemento contiene la información de mapeo en la referencia en cuestión (170).

Descriptores de falta de coincidencia para lecturas de clase N

La clase N incluye todas las lecturas en las que solo las faltas de coincidencia constituidas por "N" están presentes en el lugar de una llamada de base A, C, G o T. Todas las demás bases de la lectura coinciden perfectamente con la secuencia de referencia.

La Figura 8 muestra cómo:

las posiciones de "N" en la Lectura 1 se codifican como

• posición absoluta en Lectura 1, o

• como posición diferencial con respecto a la "N" anterior en la misma lectura.

Las posiciones de "N" en la Lectura 2 se codifican como

• posición absoluta en la longitud de Lectura 2 Lectura 1 o

• posición diferencial respecto a la N anterior.

En la capa nmis, la codificación de cada par de lecturas se termina con un símbolo "separador" especial.

La Figura 8 muestra cómo "N" faltas de coincidencia (en las que, en una posición de mapeo determinada, una "N" está presente en una lectura en lugar de una base real en la secuencia de referencia) se codifican solo como la posición de falta de coincidencia

1. con respecto al comienzo de la lectura, o

2. con respecto a la falta de coincidencia previa (codificación diferencial).

Descriptores que codifican sustituciones (faltas de coincidencia o SNP), inserciones y deleciones Una sustitución se define como la presencia, en una lectura mapeada, de una base de nucleótido diferente con respecto a la que está presente en la secuencia de referencia en la misma posición.

La Figura 9 muestra ejemplos de sustituciones en un par de lectura mapeada. Cada sustitución se codifica como "posición" (capa snpp) y "tipo" (capa de snpt). Dependiendo de la incidencia estadística de sustituciones, inserción o deleción, se pueden definir diferentes modelos fuente de los descriptores asociados y los símbolos generados codificados en la capa asociada.

Modelo fuente 1: Sustituciones como posiciones y tipos

Descriptores de posiciones de sustituciones

Una posición de sustitución se calcula como los valores de la capa nmis, es decir, en la Lectura 1 las sustituciones se codifican:

• como posición absoluta en la Lectura 1, o

• como posición diferencial con respecto a la sustitución anterior en la misma lectura. En la Lectura 2 las sustituciones se codifican

• como posición absoluta en longitud de Lectura 2 Lectura 1, o

• como posición diferencial respecto de la sustitución anterior.

La Figura 10 muestra cómo las sustituciones (en las que, en una posición de mapeo determinada, un símbolo en una lectura es diferente del símbolo en la secuencia de referencia) se codifican como:

1. la posición de la falta de coincidencia

• con respecto al comienzo de la lectura, o

• con respecto a la falta de coincidencia previa (codificación diferencial).

2. el tipo de falta de coincidencia representado como un código calculado como se describe en la Figura 10.

En la capa snpp, la codificación de cada par de lecturas se termina con un símbolo "separador" especial.

Descriptores de tipos de sustituciones

Para la clase M (e I como se describe en las siguientes secciones), las faltas de coincidencia se codifican por medio de un índice (que se mueve de derecha a izquierda) desde el símbolo real presente en la referencia al símbolo de sustitución correspondiente presente en la lectura {A, C, G, T, N, Z}. Por ejemplo, si la lectura alineada presenta una C en lugar de una T que está presente en la misma posición en la referencia, el índice de falta de coincidencia se indicará como "4". El proceso de decodificación lee el elemento de sintaxis codificada, el nucleótido en la posición dada en la referencia y se mueve de izquierda a derecha para recuperar el símbolo decodificado. Por ejemplo, un "2" recibido para una posición en la que G está presente en la referencia se decodificará como "N". La Figura 11 muestra todas las posibles sustituciones y los respectivos símbolos de codificación. Obviamente, se pueden asignar modelos diferentes de probabilidad adaptativa de contexto a cada índice de sustitución de acuerdo con las propiedades estadísticas de cada tipo de sustitución para cada clase de datos para minimizar la entropía de los descriptores.

En caso que la adopción de los códigos de ambigüedad IUPAC, el mecanismo de sustitución resulta ser exactamente el mismo, sin embargo, el vector de sustitución se extiende como: S = {A, C, G, T, N, Z, M, R, W, S, Y, K, V, H, D, B}.

La Figura 12 proporciona un ejemplo de codificación de tipos de sustituciones en la capa snpt.

Algunos ejemplos de sustituciones que codifican cuando se adoptan los códigos de ambigüedad IUPAC se proporcionan en la Figura 13. Otro ejemplo de índices de sustitución se proporciona en la Figura 14.

Codificación de inserciones y deleciones

Para la clase I, las faltas de coincidencia y las deleciones se codifican por medio de índices (que se mueven de derecha a izquierda) desde el símbolo real presente en la referencia al símbolo de sustitución correspondiente presente en la lectura: {A, C, G, T, N, Z}. Por ejemplo, si la lectura alineada presenta una C en lugar de una T presente en la misma posición en la referencia, el índice de falta de coincidencia será "4". En caso de que la lectura presente una deleción en la que una A está presente en la referencia, el símbolo codificado será "5". El proceso de decodificación lee el elemento de sintaxis codificada, el nucleótido en la posición dada en la referencia y se mueve de izquierda a derecha para recuperar el símbolo decodificado. Por ejemplo, un "3" recibido para una posición en la que G está presente en la referencia se decodificará como "Z".

Las inserciones se codifican como 6, 7, 8, 9, 10 respectivamente para la A, C, G, T, N insertada.

La Figura 15 muestra un ejemplo de cómo codificar sustituciones, inserciones y deleciones en un par de lecturas de clase I. Para admitir todo el conjunto de códigos de ambigüedad IUPAC, el vector de sustitución S= {A, C, G, T, N, Z} se reemplazará por S = {A, C, G, T, N, Z, M, R, W, S, Y, K, V, H, D, B} como se describe en el párrafo anterior para las faltas de coincidencia. En este caso, los códigos de inserción deben tener valores diferentes, a saber, 16, 17, 18, 19, 20 en caso de que el vector de sustitución tenga 16 elementos. El mecanismo se ilustra en la Figura 16.

Modelo fuente 2: Una capa por cada tipo de sustitución e indeles

Para algunas estadísticas de datos, se puede desarrollar un modelo de codificación diferente al descrito en la sección anterior para las sustituciones e indeles que resultan en una fuente con menor entropía. Dicho modelo de codificación es una alternativa a las técnicas descritas anteriormente para las faltas de coincidencia solamente y para las faltas de coincidencia e indeles.

En este caso, se define una capa de datos para cada símbolo de sustitución posible (5 sin códigos IUPAC, 16 con códigos IUPAC), más una capa para deleciones y 4 capas más para inserciones. Para simplificar la explicación, pero no como una limitación para la aplicación del modelo, la siguiente descripción se centrará en el caso en el que no se admiten códigos IUPAC.

La Figura 17 muestra cómo cada capa contiene la posición de las faltas de coincidencia o inserciones de un solo tipo. Si no hay faltas de coincidencia o inserciones para ese tipo en el par de lectura codificada, se codifica un 0 en la capa correspondiente. Para permitir que el decodificador inicie el proceso de decodificación para las capas descritas en esta sección, el encabezado de cada unidad de acceso contiene un indicador que señala la primera capa a decodificar. En el ejemplo de la Figura 18, el primer elemento a decodificar es la posición 2 en la capa C. Cuando no hay ninguna falta de coincidencia o indeles de un tipo determinado presente en un par de lectura, se agrega un 0 a las capas correspondientes. En el lado de decodificación, cuando el puntero de decodificación para cada capa apunta a un valor de 0, el proceso de decodificación se mueve al siguiente par de lectura.

Codificación de indicadores de señalización adicionales

Cada clase de datos introducida anteriormente (P, M, N, I) puede requerir la codificación de información adicional sobre la naturaleza de las lecturas codificadas. Esta información puede relacionarse, por ejemplo, con el experimento de secuenciación (por ejemplo, al indicar una probabilidad de duplicación de una lectura) o puede expresar algunas características del mapeo de lectura (por ejemplo, la primera o la segunda en par). En el contexto de la presente invención, esta información se codifica en una capa separada para cada clase de datos. La principal ventaja de este enfoque es la posibilidad de acceder selectivamente a esta información solo en caso de necesidad y solo en la región de secuencia de referencia requerida. Otros ejemplos del uso de tales indicadores son:

lectura pareada

lectura mapeada en par apropiado

lectura o pareja sin mapear

lectura o pareja de cadena inversa

primero/segundo en par

alineación no primaria

fallas de lectura de la plataforma/controles de calidad del vendedor

la lectura es PCR o duplicado óptico

alineación suplementaria

Adaptación de las secuencias de referencia

Las faltas de coincidencia codificadas para las clases N, M e I se pueden usar para crear "referencias modificadas" que se usarán para recodificar lecturas en la capa N, M o I (con respecto a la primera secuencia de referencia, R0) como lecturas p con respecto al genoma "adaptado" R1. Por ejemplo, si se denota con r_inAM, la iésima lectura de clase M que contiene faltas de coincidencia con respecto al genoma de referencia n, luego de la "adaptación" se podría tener r_inAM = r_(i(n+1))Ap con A(Refn)=Refn+1 en la que A es la transformación de la secuencia de referencia n a la secuencia de referencia n 1.

La Figura 19 muestra cómo las lecturas que contienen faltas de coincidencia (lecturas M) con respecto a la secuencia de referencia 1 (RS1) se pueden transformar en lecturas perfectamente coincidentes (lecturas P) con respecto a la secuencia de referencia 2 (RS2) obtenida a partir de RS1 modificando las posiciones de faltas de coincidencia. Esta transformación se puede expresar de la siguiente manera:

RS2 = A(RS1)

Si la expresión de la transformación A que va de RS1 a RS2 requiere menos bits de la expresión de las faltas de coincidencia presentes en las lecturas M, este procedimiento de codificación da como resultado una entropía de información más pequeña y, por lo tanto, una mejor compresión.

Modelos fuente, codificadores de entropía y modos de codificación

Para cada capa de la estructura de datos genómicos divulgada en la presente invención, se pueden adoptar diferentes algoritmos de codificación de acuerdo con las características específicas de los datos o metadatos transportados por la capa y sus propiedades estadísticas. El "algoritmo de codificación" debe entenderse como la asociación de un "modelo fuente" especifico del descriptor con un "codificador de entropía" especifico. El "modelo fuente" especifico se puede especificar y seleccionar para obtener la codificación más eficiente de los datos en términos de minimización de la entropía de origen. La selección del codificador de entropía se puede accionar por consideraciones de eficiencia de codificación y/o características de distribución de probabilidad y problemas de implementación asociados. Cada selección de un algoritmo de codificación especifico se denominará "modo de codificación" aplicado a una "capa" completa.

Cada "modelo fuente" asociado a un modo de codificación se caracteriza por:

• La definición de los elementos de sintaxis emitidos por cada fuente (por ejemplo, posición de lecturas, información de apareamiento de lecturas, faltas de coincidencia con respecto a una secuencia de referencia, etc.)

• La definición del modelo de probabilidad asociado.

• La definición del codificador de entropía asociado.

Ventajas adicionales

Esta clasificación permite implementar modos de codificación eficientes que explotan la entropía de la fuente de información más baja, caracterizando las secuencias de los elementos de sintaxis mediante la modelización de las secuencias de los elementos de sintaxis por medio de fuentes de datos únicas y separadas (por ejemplo, distancia, posición, etc.).

Otra ventaja de la invención es la posibilidad de acceder solo al subconjunto del tipo de datos de interés. Por ejemplo, una de las aplicaciones más importantes en genómica consiste en encontrar las diferencias de una muestra genómica con respecto a una referencia (SNV) o una población (SNP). Hoy en día, este tipo de análisis requiere el procesamiento de lecturas de secuencias completas, mientras que al adoptar la representación de datos divulgada por la invención las faltas de coincidencia ya están aisladas en una a tres clases de datos solamente (dependiendo del interés en considerar los códigos e indeles N).

Otra ventaja es la posibilidad de realizar una transcodificación eficiente de datos y metadatos comprimidos con referencia a una "secuencia de referencia" específica a otra "secuencia de referencia" cuando se publique una nueva "secuencia de referencia" o cuando se realice un nuevo mapeo en los datos ya mapeados (por ejemplo, utilizando un algoritmo de mapeo diferente).

La Figura 20 muestra un aparato de codificación 207 de acuerdo con los principios de la presente invención. El aparato de codificación 207 recibe como entrada una secuencia de datos sin procesar 209, por ejemplo, producida por un aparato de secuenciación del genoma 200. Los aparatos de secuenciación del genoma 200 son conocidos en la técnica, como el Illumina HiSeq 2500, los dispositivos Thermo-Fisher Ion Torrent. Los datos de secuencia sin procesar 209 se alimentan a una unidad de alineación 201, que prepara las secuencias para la codificación alineando las lecturas con una secuencia de referencia. Alternativamente, se puede usar un ensamblador de-novo 202 para crear una secuencia de referencia a partir de las lecturas disponibles buscando prefijos o sufijos superpuestos para que los segmentos más largos (llamados "cóntigos") puedan ensamblarse a partir de las lecturas. Después de haberse procesado por un ensamblador de-novo 202, las lecturas se pueden mapear en la secuencia más larga obtenida. Las secuencias alineadas luego se clasifican por el módulo de clasificación de datos 204. Las clases de datos 208 luego se alimentan a los codificadores de capas 205-207. Las capas genómicas 2011 luego se alimentan a los codificadores aritméticos 2012-2014 que codifican las capas de acuerdo con las propiedades estadísticas de los datos o metadatos transportados por la capa. El resultado es un flujo genómico 2015.

La Figura 21 muestra un aparato de decodificación 218 de acuerdo con los principios de la presente divulgación. Un aparato de decodificación 218 recibe un flujo de bits genómico multiplexado 2110 desde una red o un elemento de almacenamiento. El flujo de bits genómico multiplexado 2110 se alimenta a un demultiplexor 210, para producir flujos separados 211 que luego se alimentan a los decodificadores de entropía 212-214, para producir las capas genómicas 215. Las capas genómicas extraídas se alimentan a decodificadores de capa 216 217 para decodificar aún más las capas en clases de datos. Los decodificadores de clase 219 procesan aún más los descriptores genómicos y combinan los resultados para producir lecturas de secuencias sin comprimir, que luego pueden almacenarse en los formatos conocidos en la técnica, por ejemplo, un archivo de texto o un archivo comprimido en formato zip o archivos FASTQ o SAM/BAM.

Los decodificadores de clase 219 son capaces de reconstruir las secuencias genómicas originales al potenciar la información sobre las secuencias de referencia originales transportadas por uno o más flujos genómicos. En caso de que las secuencias de referencia no sean transportadas por los flujos genómicos, deben estar disponibles en el lado de decodificación y accesibles por los decodificadores de clase.

Las técnicas de la invención divulgadas en la presente memoria pueden ser implementadas en hardware, software, firmware o cualquier combinación de los mismos. Cuando se implementan en un software, estas pueden ser almacenadas en un medio legible por ordenador y pueden ser ejecutadas por una unidad de procesamiento de hardware. La unidad de procesamiento de hardware puede comprender uno o más procesadores, procesadores de señales digitales, microprocesadores de propósito general, circuitos integrados específicos de la aplicación u otros circuitos de lógica discreta.

Las técnicas de la presente divulgación pueden ser implementadas en una variedad de dispositivos o aparatos, incluidos teléfonos móviles, ordenadores de escritorio, servidores, tabletas electrónicas y dispositivos similares.

Claims

REIVINDICACIONES

1. Un procedimiento implementado por ordenador para la compresión de datos de secuencias genómicas, comprendiendo dichos datos de secuencias genómicas lecturas de secuencias de nucleótidos, comprendiendo dicho procedimiento las etapas de:

- alinear dichas lecturas con una o más secuencias de referencia creando así lecturas alineadas, - clasificar dichas lecturas alineadas en diferentes clases que comprenden al menos:

- una tercera clase: cuando dichas lecturas alineadas coinciden con una región en dichas una o más secuencias de referencia con un número de faltas de coincidencia constituidas por un número de posiciones en las que la máquina de secuenciación no fue capaz de identificar ninguna base, o identificó una base diferente a la base reportada en el genoma de referencia. - una cuarta clase: cuando dichas lecturas alineadas coinciden con una región en dichas una o más secuencias de referencia con un número de faltas de coincidencia constituidas por un número de posiciones en las que la máquina de secuenciación no fue capaz de identificar ninguna base, o identificó una base diferente a la base reportada en el genoma de referencia y por la presencia de inserciones o deleciones o nucleótidos recortados;

creando de este modo clases de lecturas alineadas;

- codificar dichas lecturas clasificadas y alineadas como una multiplicidad de capas de elementos de sintaxis definidos por descriptores que representan unívocamente lecturas de secuencias genómicas, comprendiendo dichos descriptores para dicha primera clase al menos la posición de inicio en la secuencia de referencia, un indicador que señala si la lectura debe ser considerada como un complemento inverso frente a la referencia, una distancia al par de pareja en caso de lecturas apareadas, el valor de la longitud en caso de que la tecnología de secuenciación produzca lecturas de longitud variable, comprendiendo dichos descriptores para dicha segunda clase al menos los descriptores de dicha primera clase y una posición de falta de coincidencia para cada falta de coincidencia, comprendiendo dichos descriptores para dicha tercera clase los descriptores de dicha segunda clase y una posición de falta de coincidencia y un tipo de falta de coincidencia para cada falta de coincidencia, comprendiendo dichos descriptores para dicha cuarta clase los descriptores de dicha primera clase y, tipo de falta de coincidencia para cada falta de coincidencia, y las bases recortadas, en el que la codificación de dichas lecturas alineadas clasificadas como una multiplicidad de capas de elementos de sintaxis comprende seleccionar dichos elementos de sintaxis que comprenden dichos descriptores de acuerdo con dichas clases de lecturas alineadas,

en el que la codificación de dichas lecturas alineadas clasificadas como una multiplicidad de capas de elementos de sintaxis se adapta de acuerdo con las propiedades estadísticas de dichos elementos de sintaxis seleccionados,

en el que la codificación de dichas lecturas alineadas clasificadas como una multiplicidad de capas de elementos de sintaxis que comprenden dichos descriptores asocia un modelo fuente específico y un codificador de entropía específico a cada capa, estando el modelo fuente caracterizado por la definición de los elementos de sintaxis emitidos por cada fuente, la definición de un modelo de probabilidad asociado y la definición del codificador de entropía asociado, en el que hay descomposición de datos y metadatos de lecturas de secuencias en capas homogéneas de dichos descriptores a fin de obtener distintas fuentes de información con entropía de información reducida.

2. El procedimiento según la reivindicación 1, en el que dichas capas de elementos de sintaxis además comprenden la posición de una variante con respecto a la secuencia de referencia, el tipo de variante, la posición de una deleción con respecto a la secuencia de referencia, la posición de uno o más símbolos no presentes en la secuencia de referencia, pero presentes en las lecturas alineadas, el tipo de inserción en una posición determinada.

3. El procedimiento según la reivindicación 1, en el que dicho codificador de entropía es un codificador aritmético adaptable al contexto.

4. Un procedimiento para la descompresión de un flujo genómico comprimido de acuerdo con el procedimiento según la reivindicación 1, comprendiendo dicho procedimiento las etapas de:

- analizar y decodificar (212-214) el flujo genómico comprimido en capas genómicas de elementos de sintaxis (215),

- decodificar dichas capas genómicas en clases de datos (216-217),

- expandir dichas capas genómicas en lecturas clasificadas de secuencias de nucleótidos,

- decodificar selectivamente usando decodificadores de clase (219) dichas lecturas clasificadas de secuencias de nucleótidos y fusionar el resultado en una o más secuencias de referencia a fin de producir lecturas no comprimidas de secuencias de nucleótidos.

5. Un dispositivo codificador genómico (2010) para la compresión de datos de secuencias genómicas (209), comprendiendo dichos datos de secuencias genómicas (209) lecturas de secuencias de nucleótidos, comprendiendo dicho codificador genómico (2010):

- una unidad de alineación (201), configurada para alinear dichas lecturas con una o más secuencias de referencia creando así lecturas alineadas,

- una unidad de clasificación de datos (204), configurada para clasificar dichas lecturas alineadas en diferentes clases que comprenden al menos:

creando de este modo clases de lecturas alineadas;

- una o más unidades de codificación de capas (205-207), configuradas para codificar dichas lecturas alineadas clasificadas como capas de elementos de sintaxis seleccionando dichos elementos de sintaxis de acuerdo con dichas clases de lecturas alineadas, en el que dichos descriptores comprenden para dicha primera clase al menos la posición de inicio en la secuencia de referencia, un indicador que señala si la lectura debe ser considerada como un complemento inverso frente a la referencia, una distancia al par de pareja en caso de lecturas apareadas, el valor de la longitud en caso de que la tecnología de secuenciación produzca lecturas de longitud variable, comprendiendo dichos descriptores para dicha segunda clase al menos los descriptores de dicha primera clase y una posición de falta de coincidencia para cada falta de coincidencia, comprendiendo dichos descriptores para dicha tercera clase los descriptores de dicha segunda clase y una posición de falta de coincidencia y un tipo de falta de coincidencia para cada falta de coincidencia, comprendiendo dichos descriptores para dicha cuarta clase los descriptores de dicha primera clase y un tipo de falta de coincidencia para cada falta de coincidencia y las bases recortadas;

- unidades codificadoras de entropía (2012-2014) para la codificación de entropía de dichas capas de elementos de sintaxis,

6. Un dispositivo decodificador genómico (218) para la descompresión de un flujo genómico (211) comprimido por el codificador genómico según la reivindicación 5, comprendiendo dicho decodificador genómico (218):

- medios de análisis y decodificación (210, 212-214) configurados para analizar dicho flujo genómico comprimido en capas genómicas de elementos de sintaxis (215),

- uno o más decodificadores de capas (216-217), configurados para decodificar las capas genómicas en clases de datos y además configurados para procesar dichas capas genómicas en lecturas clasificadas de secuencias de nucleótidos (2111),

- decodificadores de clases de datos genómicos (213) configurados para decodificar selectivamente dichas lecturas clasificadas de secuencias de nucleótidos y configurados para fusionar el resultado en una o más secuencias de referencia a fin de producir lecturas no comprimidas de secuencias de nucleótidos.

7. El dispositivo decodificador genómico según la reivindicación 6, en el que la una o más secuencias de referencia se almacenan en el flujo genómico comprimido (211).

8. El dispositivo decodificador genómico según la reivindicación 6, en el que la una o más secuencias de referencia se proporcionan al decodificador a través de un mecanismo fuera de banda.

9. El dispositivo decodificador genómico según la reivindicación 6, en el que la una o más secuencias de referencia se construyen en el decodificador.

10. Un medio legible por ordenador que comprende instrucciones que, cuando se ejecutan, provocan que al menos un procesador realice el procedimiento de una cualquiera de las reivindicaciones 1 a 4.