ES2922420T3

ES2922420T3 - Estructuras de datos eficientes para la representación de información bioinformática

Info

Publication number: ES2922420T3
Application number: ES16790894T
Authority: ES
Inventors: Daniele Renzi; Giorgio Zoia
Original assignee: Genomsys SA
Current assignee: Genomsys SA
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2022-09-14
Anticipated expiration: 2036-10-11
Also published as: WO2018068827A1; KR20190062544A; AU2016426569B2; NZ753247A; CO2019003583A2; CL2019000954A1; PL3526709T3; IL265908A; BR112019007296A2; MX2019004125A; FI4075438T3; EP4075438A1; SG11201903175VA; CA3039688C; EP4075438B1; JP6902104B2; IL265908B1; ES2973590T3; CN110088839A; EA201990933A1

Abstract

Método y aparato para la representación de datos de secuencias del genoma organizados en un formato de archivo estructurado. La estructura de datos contiene la representación de secuencias de nucleótidos: en forma comprimida, alineadas y referenciadas a una o más secuencias de referencia y clasificadas según diferentes grados de precisión de coincidencia. Las lecturas clasificadas y alineadas se codifican en forma de capas de elementos de sintaxis, que, incluida una información de encabezado, se dividen en unidades de acceso independientes o dependientes. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Estructuras de datos eficientes para la representación de información bioinformática

Campo técnico

Esta invención describe una capa de almacenamiento de información genómica (formato de archivo genómico) que define una estructura de datos genómicos que incluye la recopilación de datos heterogéneos asociados a la información generada por dispositivos y aplicaciones relacionadas con la secuenciación, el procesamiento y el análisis del genoma durante las diferentes etapas del procesamiento de datos genómicos (el llamado "ciclo de vida de la información genómica").

Antecedentes

La información genómica o proteómica generada por máquinas de secuenciación de ADN, ARN o proteínas se transforma, durante las diferentes etapas del procesamiento de datos, para producir datos heterogéneos. En las soluciones de la técnica anterior, estos datos se almacenan actualmente en archivos informáticos que tienen estructuras diferentes y no relacionadas. Por lo tanto, esta información es bastante difícil de archivar, transferir y elaborar.

Las secuencias genómicas o proteómicas a las que se hace referencia en esta invención incluyen, por ejemplo, y sin limitación, secuencias de nucleótidos, secuencias de ácido desoxirribonucleico (ADN), secuencias de ácido ribonucleico (ARN) y secuencias de aminoácidos. Aunque la descripción en esta invención es bastante detallada con respecto a la información genómica en forma de una secuencia de nucleótidos, se entenderá que los procedimientos y sistemas de almacenamiento también pueden implementarse para otras secuencias genómicas o proteómicas, aunque con algunas variaciones, como entenderá un experto en la materia.

El documento "Especificación del formato CRAM (versión 3.0)", en adelante "CRAM", publicado el 8 de septiembre de 2016 describe el formato CRAM 3.0 y sus objetivos, siendo por ejemplo la compatibilidad total con BAM y la transición sin esfuerzo a CRAM desde el uso de archivos BAM. Dicho documento es un conjunto de herramientas de compresión basado en referencia, que emplea GZIP. La estructura de codificación de este documento se basa en GZIP como un archivo monolítico (consulte, p. ej., el Capítulo 14 de CRAM).

CRAM realiza la indexación mediante la creación de un archivo externo que contiene una estructura en forma de árbol para la recuperación de bloques comprimidos. Dado que CRAM sufre las mismas limitaciones que SAM y no menciona la noción de clasificación de datos según el resultado del procedimiento de mapeo, la única indexación disponible en CRAM se basa en la noción de posición genómica. Es más, en formatos como BAM y CRAM donde la clasificación de datos no está presente, no es posible indexar bloques de datos comprimidos según el resultado del procedimiento de mapeo aparte de los criterios genéricos "mapeados" o "no mapeados". Resumiendo, el esquema de compresión propuesto en dicho documento tiene un desempeño mediocre.

El documento US 2015/0227686 A1 se refiere a un aparato y un procedimiento implementado por un procesador, donde el procedimiento incluye alinear un genoma de referencia con una pluralidad de secuencias de ADN. Cada una de la pluralidad de secuencias de ADN tiene una respectiva pluralidad de bases. Además, el procedimiento incluye la clasificación y ordenación de la pluralidad de secuencias de lectura basándose en los números respectivos de bases con falta de coincidencia dentro de la pluralidad de secuencias de lectura para obtener una pluralidad de secuencias de ADN reorganizadas.

El último documento describe la implementación de un alineador basado en la transformada de Burrows Wheeler. El resultado del procedimiento de alineación es un conjunto de registros que describen cómo se mapean las lecturas en un genoma de referencia. El formato de salida de dicho procedimiento es el SAM textual generalmente ordenado por posición de mapeo en una secuencia de referencia (p. ej., cromosoma). El documento de EE. UU no menciona clasificación alguna de lecturas según el resultado del procedimiento de mapeo y todas las lecturas se barajan cuando se ordenan según la posición del mapeo. Por lo tanto, cuando un usuario final necesita extraer solo lecturas perfectamente mapeadas o cualquier otra categoría de lecturas, la única forma de encontrarlas es descomprimir todo el archivo y realizar un procesamiento posterior en la salida textual de SAM.

El ciclo de vida de la información genómica o proteómica desde la generación de datos (secuenciación) hasta el análisis se representa en la figura 1, donde se muestran las diferentes fases del ciclo de vida genómico y los formatos de archivo intermedios asociados. Como se muestra en la figura 1, los pasos típicos del ciclo de vida de la información genómica comprenden: extracción de lecturas de secuencia, mapeo y alineación, detección de variantes, anotación de variantes y análisis funcional y estructural.

La extracción de lecturas de secuencias es el procedimiento, realizado por un operador humano o una máquina, de representación de fragmentos de información genética en forma de secuencias de símbolos que representan las moléculas que componen una muestra biológica. En el caso de los ácidos nucleicos, dichas moléculas se denominan "nucleótidos". Las secuencias de símbolos producidas por la extracción se denominan comúnmente "lecturas". Esta información suele estar codificada en la técnica anterior como archivos "FASTA" que incluyen un encabezado de texto y una secuencia de símbolos que representan las moléculas secuenciadas.

Cuando la muestra biológica se secuencia para extraer ADN de un organismo vivo, el alfabeto se compone de los símbolos (A,C,G,T,N).

Cuando la muestra biológica se secuencia para extraer ARN de un organismo vivo, el alfabeto se compone de los símbolos (A,C,G,U,N).

En caso de que el conjunto ampliado de símbolos de la IUPAC, los llamados "códigos de ambigüedad" también sean generados por la máquina de secuenciación, el alfabeto usado para los símbolos que componen las lecturas es (A, C, G, T, U, W, S, M, K, R, Y, B, D, H, V, N o -).

Cuando no se usan los códigos de ambigüedad de la IUPAC, se puede asociar una secuencia de puntuaciones de calidad a cada lectura de secuencia. En tal caso, las soluciones de la técnica anterior codifican la información resultante como un archivo "FASTQ".

La alineación de secuencias se refiere al procedimiento de organizar lecturas de secuencias al encontrar regiones de similitud que pueden ser consecuencia de relaciones funcionales, estructurales o evolutivas entre las secuencias. Cuando la alineación se realiza con referencia a una secuencia de nucleótidos preexistente denominada "secuencia de referencia", el procedimiento se denomina "mapeo". La alineación de secuencias también se puede realizar sin una secuencia preexistente (es decir, un genoma de referencia), en tales casos, el procedimiento se conoce en la técnica anterior como alineamiento "de novo". Las soluciones de la técnica anterior almacenan dicha información en archivos "SAM", "BAM" o "CRAM". El concepto de alinear secuencias para reconstruir un genoma parcial o completo se representa en la figura 2.

La detección de variantes (también conocida como llamada de variantes) es el procedimiento de traducir la salida alineada de las máquinas de secuenciación del genoma a un resumen de las características únicas del organismo que se está secuenciando que no se pueden encontrar en otras secuencias preexistentes o se pueden encontrar solo en algunas secuencias preexistentes. Estas características se denominan "variantes" porque se expresan como diferencias entre el genoma del organismo en estudio y un genoma de referencia. Las soluciones de la técnica anterior almacenan esta información en un formato de archivo específico llamado archivo "VCF".

La anotación de variantes es el procedimiento de asignación de información funcional a las variantes genómicas. Esto implica la clasificación de las variantes según su relación con las secuencias codificantes en el genoma y según su impacto sobre la secuencia codificante y el producto génico. En la técnica anterior, normalmente se almacena en un archivo "MAF".

El análisis de las cadenas de ADN (variante, CNV = variación del número de copias, metilación, etc.) para definir su relación con las funciones y la estructura de los genes (y las proteínas) se denomina análisis funcional y estructural. Existen varias soluciones diferentes en la técnica anterior para el almacenamiento de estos datos.

En la figura 3 se muestra una visión simplificada de la relación entre los formatos de archivo usados en las canalizaciones de procesamiento del genoma. En este diagrama, la inclusión de archivos no implica la existencia de una estructura de archivos anidada, sino que solo representa el tipo y la cantidad de información que puede ser codificado para cada formato (es decir, SAM contiene toda la información en FASTQ, pero organizada en una estructura de archivo diferente). CRAM contiene la misma información genómica que SAM/BAM, pero brinda más flexibilidad en el tipo de compresión que se puede usar, por lo que se representa como un superconjunto de SAM/BAM.

El uso de múltiples formatos de archivo para el almacenamiento de información genómica es altamente ineficiente y costoso. Tener diferentes formatos de archivo en diferentes etapas del ciclo de vida de la información genómica implica un crecimiento lineal del espacio de almacenamiento utilizado, incluso si la información incremental es muy pequeña en comparación con el volumen inicial de datos de secuenciación. Esto se está volviendo insostenible en términos de espacio y costos generados y está dificultando que las aplicaciones genómicas lleguen a una porción más amplia de la población. A continuación se enumeran otras desventajas de las soluciones conocidas de la técnica anterior.

1. El acceso, el análisis o la adición de anotaciones (metadatos) a datos sin procesar almacenados en archivos FASTQ comprimidos o cualquier combinación de estos requiere la descompresión y recompresión de todo el archivo con un uso extensivo de tiempo y recursos computacionales.

2. La recuperación de un tipo específico de información, como la posición del mapeo de lectura, la posición y el tipo de variante de lectura, la posición y los tipos de indeles o cualquier otro metadato y anotación contenidos en los datos alineados almacenados en archivos BAM, requiere el acceso a todo el volumen de datos asociado a cada lectura. El acceso selectivo a una sola clase de metadatos no es posible con las soluciones de la técnica anterior.

3. Los formatos de archivo de la técnica anterior requieren que el usuario final reciba el archivo completo antes de que pueda comenzar el procesamiento. Por ejemplo, la alineación de las lecturas podría comenzar antes de que se haya completado el procedimiento de secuenciación basándose en una representación de datos adecuada. La secuenciación, la alineación y el análisis podrían proceder y ejecutarse en paralelo.

4. La estructuración y la capacidad de distinguir los datos genómicos obtenidos por diferentes procedimientos de secuenciación según su semántica de generación específica (p. ej., la secuenciación obtenida en diferentes momentos de la vida del mismo individuo, no es posible apoyarse en las soluciones de la técnica anterior. Lo mismo ocurre con la secuenciación obtenida por diferentes tipos de muestras biológicas del mismo individuo.

5. Las soluciones de la técnica anterior no admiten el cifrado de porciones completas o seleccionadas de los datos. Por ejemplo, el cifrado de regiones de ADN seleccionadas; solo aquellas secuencias que contienen variantes; solo secuencias quiméricas; solo secuencias no mapeadas; metadatos específicos (p. ej., origen de la muestra secuenciada, identidad del individuo secuenciado, tipo de muestra) no es posible.

6. La transcodificación de datos de secuenciación alineados con una referencia dada (es decir, un archivo SAM/BAM) a una nueva referencia requiere procesar todo el volumen de datos, incluso si la nueva referencia difiere solo en una única posición de nucleótido de la referencia anterior.

7. La transferencia de datos genómicos es lenta e ineficiente porque los formatos de datos usados actualmente están organizados en archivos monolíticos de hasta varios cientos de Gigabytes de tamaño que deben transferirse por completo en el extremo receptor para poder ser procesados. Esto implica que el análisis de un pequeño segmento de los datos requiere la transferencia de todo el archivo con costos significativos en términos de ancho de banda consumido y tiempo de espera. A menudo, la transferencia en línea es prohibitiva para los grandes volúmenes de datos que se van a transferir, y el transporte de los datos se realiza moviendo físicamente medios de almacenamiento, como unidades de disco duro o servidores de almacenamiento, de una ubicación a otra.

8. El procesamiento de los datos es lento e ineficiente debido a que la información no está estructurada de tal manera que las porciones de las diferentes clases de datos y metadatos requeridas por las aplicaciones de análisis de uso común no puedan recuperarse sin necesidad de acceder a los datos en su totalidad. Este hecho implica que las canalizaciones de análisis comunes pueden necesitar ejecutarse durante días o semanas, desperdiciando valiosos y costosos recursos de procesamiento para la necesidad en cada etapa de acceder, analizar y filtrar grandes volúmenes de datos, incluso si las porciones de datos relevantes para el propósito específico del análisis son mucho más pequeñas. Estas limitaciones impiden que los profesionales de la salud obtengan a tiempo informes de análisis genómico y reaccionen rápidamente ante brotes de enfermedades.

Existe una clara necesidad de proporcionar una representación adecuada de metadatos y datos de secuenciación genómica (formato de archivo genómico) organizando y dividiendo los datos para maximizar la compresión de datos y metadatos y varias funcionalidades, como el acceso selectivo y soporte para actualizaciones incrementales y otras funcionalidades de manejo de datos útiles en las diferentes etapas del ciclo de vida de los datos del genoma están habilitadas de manera eficiente.

Los principales aspectos de la solución descrita son:

1. La clasificación de las lecturas de secuencia en diferentes clases según los resultados de la alineación con respecto a una secuencia de referencia para permitir el acceso selectivo a los datos codificados según criterios relacionados con los resultados de la alineación. Esto implica una especificación de un formato de archivo que "contiene" elementos de datos estructurados en forma comprimida. Tal estrategia puede verse como lo opuesto a las estrategias de la técnica anterior, SAM y BAM, por ejemplo, en los que los datos se estructuran en forma no comprimida y luego se comprime todo el archivo. Una primera ventaja clara de la estrategia es poder proporcionar de manera eficiente y natural diversas formas de acceso selectivo a los elementos de datos en el dominio comprimido, lo que es imposible o extremadamente incómodo en las estrategias de la técnica anterior.

2. La descomposición de las lecturas clasificadas en capas de metadatos homogéneos para reducir al máximo la entropía de la información. La descomposición de la información genómica en "capas" específicas de datos y metadatos homogéneos presenta la considerable ventaja de permitir la definición de diferentes modelos de las fuentes de información caracterizadas por baja entropía. Dichos modelos no solo pueden diferir de una capa a otra, sino que también pueden diferir dentro de cada capa. Esta estructuración permite el uso de la compresión específica más apropiada para cada clase de datos o metadatos y porciones de ellos con ganancias significativas en la eficiencia de codificación frente a las estrategias de la técnica anterior.

3. La estructuración de las capas en unidades de acceso, es decir, información genómica que se puede decodificar de forma independiente usando solo parámetros disponibles globalmente (p. ej., configuración del decodificador) o usando información contenida en otras unidades de acceso. Cuando los datos comprimidos dentro de las capas se dividen en bloques de datos incluidos en unidades de acceso, se pueden definir diferentes modelos de fuentes de información caracterizadas por baja entropía.

4. La información está estructurada de modo que cualquier subconjunto relevante de datos usado por las aplicaciones de análisis genómico sea accesible de manera eficiente y selectiva por medio de interfaces apropiadas. Estos rasgos permiten un acceso más rápido a los datos y producen un procesamiento más eficiente. Una tabla maestra de índice y tablas de índice locales permiten el acceso selectivo a la información transportada por las capas de datos codificados (es decir, comprimidos) sin necesidad de decodificar todo el volumen de datos comprimidos. Es más, se especifica un mecanismo de asociación entre las diversas capas de datos para permitir el acceso selectivo de cualquier combinación posible de subconjuntos de capas de datos y/o metadatos asociados semánticamente sin necesidad de decodificar todas las capas.

5. El almacenamiento conjunto de la tabla maestra de índice y las unidades de acceso.

Breve descripción de los dibujos

La Figura 1 es un diagrama de bloques del ciclo de vida de la información genómica típica.

La Figura 2 es un diagrama que representa el concepto de alineación de secuencias para reconstruir un genoma parcial o completo.

La Figura 3 es un diagrama conceptual que ilustra una visión simplificada de la relación entre los formatos de archivo usados en las canalizaciones de procesamiento del genoma.

La Figura 4 muestra pares de lecturas mapeados con una secuencia de referencia.

La Figura 5 muestra un ejemplo de unidades de acceso según los principios de esta descripción.

La Figura 6 muestra un ejemplo de acceso que incluye un encabezado y capas compuestas por bloques de datos. La Figura 7 muestra la relación entre "paquetes de datos", "bloques", unidades de acceso, capas y clases de lecturas de flujos genómicos.

La Figura 8 muestra una tabla maestra de índice con los vectores de loci de mapeo de la primera lectura contenida por cada unidad de acceso.

La Figura 9 muestra la estructura genérica del encabezado principal y una representación parcial de MIT que muestra las posiciones de mapeo de la primera lectura en cada AU pos de clase P.

La Figura 10 muestra el segundo tipo de almacenamiento de datos en la MIT.

La Figura 11 muestra las unidades de acceso que contienen lecturas de clase P mapeadas en la secuencia de referencia n.° 2 entre la posición 150.000 y 250.000 a las que se accede usando los valores contenidos en el vector T1 p.

La Figura 12 muestra que una modificación en la secuencia de referencia puede transformar lecturas M en lecturas P. La Figura 13 es un diagrama de bloques que muestra el ciclo de vida de la información genómica según los principios de esta invención.

La Figura 14 muestra un extractor de lecturas de secuencia según los principios de esta invención.

La Figura 15 muestra un codificador genómico 2010 según los principios de esta invención.

La Figura 16 muestra un decodificador genómico 218 según los principios de esta invención.

Resumen

Los problemas antes mencionados presentes en la técnica anterior se resuelven mediante la presente invención como se reivindica en el conjunto de reivindicaciones adjuntas.

En un aspecto, se proporciona:

Un procedimiento implementado por computadora para el almacenamiento de una representación de datos de secuencias genómicas en un formato de archivo genómico, comprendiendo dichos datos de secuencias genómicas lecturas de secuencias de nucleótidos, que comprende los pasos de: alinear dichas lecturas con una o más secuencias de referencia, creando así lecturas alineadas,

clasificar dichas lecturas alineadas en clases que comprenden:

Una primera clase cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia sin ningún error;

Una segunda clase cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia con un número de faltas de coincidencias;

Una tercera clase cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia con la presencia de sustituciones de símbolos y la presencia de inserciones o eliminaciones y símbolos de recorte suave; Una cuarta clase cuando dichas lecturas alineadas no coinciden con dichas una o más secuencias de referencia, creando así clases de lecturas alineadas;

codificación por entropía de dichas lecturas alineadas clasificadas como capas, comprendiendo cada capa bloques de datos, comprendiendo cada bloque de datos descriptores como un vector de elementos de sintaxis del mismo tipo, comprendiendo dichos descriptores para dicha primera clase una posición inicial en el genoma de referencia, una distancia al par de emparejamiento en caso de lecturas emparejadas, un indicador que señala si la lectura debe considerarse como un complemento inverso frente a la referencia, indicadores adicionales que describen las características de la lectura y el valor de la longitud de lectura en caso de que una tecnología de secuenciación produzca lecturas de longitud variable, para dicha segunda clase todos los descriptores de dicha primera clase y una posición de falta de coincidencia, para dicha tercera clase todos los descriptores de dicha primera clase, un tipo de falta de coincidencia y una posición de falta de coincidencia, para dicha cuarta clase todos los descriptores de dicha primera clase, una posición de falta de coincidencia, un tipo de falta de coincidencia y, opcionalmente, una cadena de nucleótidos de recorte suave cuando está presente, donde la codificación de dichas lecturas alineadas clasificadas como capas de elementos de sintaxis se adapta según los datos o metadatos transportados por la capa, y donde la codificación de dichas lecturas alineadas clasificadas como capas de elementos de datos de sintaxis se adapta además según las propiedades estadísticas de los datos o metadatos transportados por la capa;

estructuración de dichas capas de elementos de sintaxis con información de encabezado creando así unidades de acceso sucesivas,

creación de una tabla maestra de índice, que contiene una sección para cada clase de lecturas alineadas, que comprende las posiciones de mapeo en dichas una o más secuencias de referencia de la primera lectura de cada unidad de acceso de cada clase de datos;

almacenamiento conjunto de dicha tabla maestra de índice y dichos datos de la unidad de acceso.

Mediante el almacenamiento conjunto de tablas de índice y dicha representación de los datos de la secuencia genómica, en lugar de diferentes archivos separados para cada tipo de datos de la representación de los datos de la secuencia genómica como se menciona en la descripción del ciclo de vida anterior, muchas ventajas son evidentes de inmediato, a saber:

-Los resultados de cualquier etapa intermedia del procesamiento de datos de secuencias genómicas se pueden agregar gradualmente a los datos existentes sin necesidad de transcodificarlos a un formato de archivo diferente. Por ejemplo, se puede agregar información de alineación a los datos sin procesar sin necesidad de cambiar el formato de archivo existente. Los resultados de llamada de variantes se pueden incluir en los datos de secuencia alineados existentes con una actualización incremental.

-Los datos de secuencia genómica se pueden recuperar según sus características específicas sin necesidad de acceder a todo el archivo o a regiones del mismo que no coincidan con los criterios de la consulta. Por ejemplo, se pueden ejecutar consultas para acceder selectivamente a:

-Lecturas de secuencia que coinciden perfectamente con uno o más genomas de referencia

-Lecturas de secuencia que contienen solo faltas de coincidencias donde aparece un símbolo "N" en lugar de un símbolo de nucleótido o aminoácido real

-Lecturas de secuencia que contienen cualquier tipo de falta de coincidencia en forma de sustitución de símbolos con respecto a uno o más genomas

-Lecturas de secuencia que contienen faltas de coincidencias e inserciones o eliminaciones (indeles)

-Lecturas de secuencia que contienen faltas de coincidencias, inserciones o eliminaciones (indeles) y símbolos de recorte suave con respecto a uno o más genomas de referencia

-Lecturas de secuencia que no se pueden mapear con respecto al (a los) genoma(s) de referencia considerado(s)

-Todos los polimorfismos de nucleótido único (SNP) que están presentes entre los umbrales de profundidad especificados

-Todas las lecturas de secuencias quiméricas

-Todas las lecturas de secuencia con puntuaciones de calidad por encima de un umbral especificado

-Todos los metadatos asociados a un conjunto especificado de lecturas de secuencia

Al clasificar las lecturas alineadas según una confianza coincidente con la secuencia de referencia, se puede lograr un acceso selectivo a los datos codificados según criterios relacionados con los resultados de la alineación.

Al codificar las lecturas alineadas clasificadas como capas de elementos de sintaxis, la codificación puede adaptarse según los rasgos específicos de los datos o metadatos transportados por la capa y sus propiedades estadísticas. Al estructurar las capas de elementos sintácticos con información de encabezado en unidades de acceso sucesivas, la codificación, el almacenamiento y la transmisión se pueden adaptar según la naturaleza de los datos. Por ejemplo, la codificación se puede adaptar por unidad de acceso para usar el modelo fuente más eficiente para cada capa de datos en términos de minimización de la entropía.

De acuerdo con un aspecto, se describe un procedimiento para extraer lecturas de secuencias de nucleótidos almacenadas en un archivo genómico, donde dicho archivo genómico comprende una tabla maestra de índice y datos de unidades de acceso almacenados según los principios de esta divulgación, comprendiendo dicho procedimiento los pasos de:

recibir la entrada del usuario que identifica el tipo de lecturas que se extraerán,

recuperar vectores de datos que indican la posición en el genoma de referencia de la primera lectura en cada unidad de acceso y recuperar datos que indican una posición física de unidades de acceso para cada clase de datos; y

recuperar la tabla maestra de índice de dicho archivo genómico,

recuperar las unidades de acceso correspondientes a dicho tipo de lecturas que se extraerán,

reconstruir dichas lecturas de secuencias de nucleótidos que mapean dichas unidades de acceso recuperadas en una o más secuencias de referencia.

La presente invención divulga además una máquina de secuenciación genómica que comprende:

una unidad de secuenciación genómica, configurada para generar lecturas de secuencias de nucleótidos de una muestra biológica,

una unidad de alineación, configurada para alinear dichas lecturas con una o más secuencias de referencia creando así lecturas alineadas,

una unidad de clasificación, configurada para clasificar dichas lecturas alineadas en clases que comprenden al menos:

una tercera clase cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia con la presencia de sustituciones de símbolos y la presencia de inserciones o eliminaciones y símbolos de recorte suave; una cuarta clase cuando dichas lecturas alineadas no coinciden con dichas una o más secuencias de referencia; creando así clases de lecturas alineadas;

una unidad de codificación, configurada para codificar dichas lecturas alineadas clasificadas como capas de datos codificados, comprendiendo cada capa bloques de datos, comprendiendo cada bloque de datos descriptores como un vector de elementos de datos del mismo tipo, usando dichos descriptores para identificar dichas lecturas clasificadas según el mapeo en la secuencia de referencia, comprendiendo dichos descriptores datos de información relacionados con la posición de la lectura con respecto a la secuencia de referencia, donde la codificación de dichas lecturas alineadas clasificadas como capas de elementos de sintaxis se adapta según los rasgos específicos de los datos o metadatos transportados por la capa,

una unidad de subdivisión, configurada para estructurar dichas capas de bloques de datos con información de cabecera creando así unidades de acceso sucesivas,

una unidad de procesamiento de tabla de índice, configurada para crear una tabla maestra de índice, que contiene una sección para cada clase de lecturas alineadas, que comprende las posiciones de mapeo en la secuencia de referencia de la primera lectura de cada unidad de acceso de cada clase de datos;

una unidad de almacenamiento, configurada para almacenar conjuntamente dicha tabla maestra de índice y dichos datos de la unidad de acceso.

De acuerdo con un aspecto, se describe un extractor para extraer lecturas de secuencias de nucleótidos almacenadas en un archivo genómico, donde dicho archivo genómico comprende una tabla maestra de índice y datos de unidades de acceso almacenados según los principios de esta descripción, comprendiendo dicho extractor:

medios de entrada de usuario configurados para recibir parámetros de entrada que identifican el tipo de lecturas que se extraerán,

medios de recuperación configurados para recuperar dicha tabla maestra de índice de dicho archivo genómico,

medios de recuperación configurados para recuperar las unidades de acceso correspondientes a dicho tipo de lecturas que se extraerán, comprendiendo dichos medios de recuperación además medios para extraer vectores de datos que indican la posición en el genoma de referencia de la primera lectura en cada unidad de acceso, comprendiendo además dichos medios de recuperación medios para recuperar datos que indican una posición física de unidades de acceso para cada clase de datos,

medios de reconstrucción configurados para reconstruir dichas lecturas de secuencias de nucleótidos que mapean dichas unidades de acceso recuperadas en una o más secuencias de referencia.

De acuerdo con un aspecto descrito, un aparato de procesamiento digital está programado para realizar un procedimiento como se establece en el párrafo inmediatamente anterior. De acuerdo con otro aspecto descrito, un aparato de procesamiento digital accede a un medio de almacenamiento no transitorio y almacena instrucciones ejecutables por el aparato de procesamiento digital para realizar un procedimiento como se establece en el párrafo anterior.

De acuerdo con otro aspecto descrito, un medio de almacenamiento no transitorio es legible por un procesador digital y almacena software para procesar datos genómicos o proteómicos representados como cadenas de caracteres genómicos o proteómicos que comprenden caracteres de un conjunto de caracteres bioinformáticos donde cada base o péptido de los datos genómicos o proteómicos se representa en el formato descrito en los párrafos anteriores. En algunas realizaciones, el software procesa los datos genómicos o proteómicos usando transformaciones de procesamiento de señales digitales.

Descripción detallada

Clasificación de las lecturas de secuencia

Las lecturas de secuencias generadas por las máquinas de secuenciación se clasifican por la invención descrita en cinco "clases" diferentes según los resultados de la alineación con respecto a una o más secuencias de referencia.

Al alinear una secuencia de ADN de nucleótidos con respecto a una secuencia de referencia, los resultados posibles son cinco:

1. Se encuentra una región en la secuencia de referencia que coincide con la secuencia leída sin ningún error (mapeo perfecto). Dicha secuencia de nucleótidos se denominará "lectura perfectamente coincidente" o se indicará como "Clase P".

2. Se encuentra una región en la secuencia de referencia que coincide con la secuencia leída con una serie de faltas de coincidencias constituidos por una serie de posiciones en las que la máquina de secuenciación no pudo llamar a ninguna base (o nucleótido). Tales faltas de coincidencias se indican con una "N". Dichas secuencias se denominarán "lecturas de falta de coincidencia N" o "Clase N".

3. Se encuentra una región en la secuencia de referencia que coincide con la secuencia leída con una serie de faltas de coincidencias constituidos por una serie de posiciones en las que la máquina de secuenciación no pudo llamar a ninguna base (o nucleótido) o se ha llamado a una base diferente a la informada en el genoma de referencia. Este tipo de falta de coincidencia se llama variación de nucleótido único (SNV) o polimorfismo de nucleótido único (SNP). Se hará referencia a la secuencia como "lecturas de falta de coincidencia M" o "Clase M".

4. Una cuarta clase está constituida por lecturas de secuenciación que presentan un tipo de falta de coincidencia que incluye las mismas faltas de coincidencias de la clase M más la presencia de inserciones o eliminaciones (conocido como indeles). Las inserciones están representadas por una secuencia de uno o más nucleótidos no presentes en la referencia, pero presentes en la secuencia de lectura. En la bibliografía, cuando la secuencia insertada está en los bordes de la secuencia, se denomina "de recorte suave" (es decir, los nucleótidos no coinciden con la referencia, pero se mantienen en las lecturas alineadas, al contrario que los nucleótidos "de recorte duro" que se descartan). La eliminación son "agujeros" (nucleótidos que faltan) en la lectura alineada con respecto a la referencia. Dichas secuencias se denominarán "lecturas de falta de coincidencia I" o "Clase I".

5. Una quinta clase incluye todas las lecturas que ahora encuentran cualquier mapeo válido en el genoma de referencia según las restricciones de alineación especificadas. Se dice que tales secuencias no están mapeadas y pertenecen a la "Clase U".

Las lecturas no mapeadas se pueden ensamblar en una sola secuencia usando algoritmos de ensamblaje de novo. Una vez que se ha creado la nueva secuencia, las lecturas no mapeadas pueden mapearse aún más con respecto a ella y clasificarse en una de las cuatro clases P, N, M e I.

Descomposición de la información genómica en capas.

Una vez que la clasificación de las lecturas se completa con la definición de las clases, el procesamiento posterior consiste en definir un conjunto de elementos de sintaxis distintos que representan la información restante que permite la reconstrucción de la secuencia de lectura de ADN cuando se representa como mapeada en una secuencia de referencia dada. Un segmento de ADN referido a una secuencia de referencia dada puede expresarse completamente mediante:

-La posición inicial en el genoma de referencia (pos).

-Un indicador que señala si la lectura debe considerarse como un complemento inverso frente a la referencia (rcomp).

-Una distancia al par de emparejamiento en caso de lecturas emparejadas (par).

-El valor de la longitud de lectura en el caso de la tecnología de secuenciación produce lecturas de longitud variable. En el caso de una longitud de lectura constante, la longitud de lectura asociada a cada lectura obviamente se puede omitir y se puede almacenar en el encabezado del archivo principal.

-Indicadores adicionales que describen características específicas de la lectura (lectura duplicada, primera o segunda lectura en un par, etc.).

-Para cada falta de coincidencia:

-Posición de falta de coincidencia (nmis para la clase N, snpp para la clase M, e indp para la clase I) -Tipo de falta de coincidencia (no presente en la clase N, snpt en la clase M, indt en la clase I)

-Cadena de nucleótidos de recorte suave opcional cuando está presente (indc en la clase I).

Esta clasificación crea grupos de descriptores (elementos de sintaxis) que se pueden usar para representar de manera unívoca las lecturas de la secuencia genómica. La siguiente tabla resume los elementos de sintaxis necesarios para cada clase de lecturas alineadas.

Tabla 1- Capas definidas por clase de datos.

Las lecturas pertenecientes a la clase P se caracterizan y pueden reconstruirse perfectamente por solo una posición, una información de complemento inverso y una distancia entre emparejamientos en caso de que se hayan obtenido mediante una tecnología de secuenciación que produzca pares apareados, algunos indicadores y una longitud de lectura.

La Figura 4 ilustra cómo las lecturas pueden acoplarse en pares (según la tecnología de secuenciación más común de Illumina Inc.) y mapearse en una secuencia de referencia. Los pares de lecturas mapeados en la secuencia de referencia se codifican en una multiplicidad de capas de descriptores homogéneos (es decir, posiciones, distancias entre lecturas en un par, faltas de coincidencias, etc.).

Una capa se define como un vector de descriptores relacionados con uno de la multiplicidad de elementos necesarios para identificar de forma única las lecturas mapeadas en la secuencia de referencia. Lo siguiente son ejemplos de capas que llevan cada una de ellas un vector de descriptores:

-Capa de posición de lecturas

-Capa de complemento inverso

-Capa de información de emparejamiento

-Capa de posición no coincidente

-Capa de tipo no falta de coincidencia

-Capa de indeles

-Capa de base de recorte

-Capa de longitudes de lectura (presente solo en caso de lecturas de longitud variable)

-Capa de indicadores BAM

Bloques de datos, unidades de acceso y capa de datos genómicos

La estructura de datos descrita adicionalmente por esta invención se basa en los conceptos de:

Un bloque de datos se define como un conjunto de elementos vectoriales del descriptor, del mismo tipo (p. ej., posiciones, distancias, indicadores de complemento inverso, posición y tipo de falta de coincidencia) que componen una capa. Una capa está típicamente compuesta por una multiplicidad de bloques de datos. Un bloque de datos se puede dividir en paquetes de datos genómicos que consisten en unidades de transmisión que tienen un tamaño típicamente especificado según los requisitos del canal de comunicación. Tal característica de división es deseable para lograr la eficiencia del transporte usando protocolos de comunicación de red típicos.

Una unidad de acceso se define como un subconjunto de datos genómicos que pueden decodificarse completamente independientemente de otras unidades de acceso usando solo datos disponibles globalmente (p. ej., configuración del decodificador) o usando información contenida en otras unidades de acceso. Una unidad de acceso está compuesta por un encabezado y por el resultado de multiplexar bloques de datos de diferentes capas. Varios paquetes del mismo tipo se encapsulan en un bloque y varios bloques se multiplexan en una unidad de acceso. Estos conceptos se representan en la Figura 5. La Figura 6 muestra una unidad de acceso que consiste en un encabezado y una o más capas de bloques de datos de la misma naturaleza. La Figura 6 muestra un ejemplo de una estructura de unidad de acceso genérica representada en la Figura 5 en la que

-los bloques de datos de la capa 1 contienen información relacionada con la posición de las lecturas en una secuencia de referencia;

-los bloques de datos de la capa 2 contienen información sobre la complementariedad inversa de las lecturas;

-los bloques de datos de la capa 3 contienen información relacionada con la información de emparejamiento de lecturas;

-los bloques de datos de la capa 4 contienen información sobre la longitud de las lecturas.

Una capa de datos genómicos se define como un conjunto de bloques de datos genómicos que codifican datos del mismo tipo (p. ej., los bloques de posición de lecturas que coinciden perfectamente con un genoma de referencia están codificados en la misma capa).

Un flujo de datos genómicos es una versión paquetizada de una capa de datos genómicos donde los datos genómicos codificados se transportan como carga útil de paquetes de datos genómicos que incluyen datos de servicio adicionales en un encabezado. Consulte la Figura 7 para ver un ejemplo de paquetización de 3 capas de datos genómicos en 3 flujos de datos genómicos.

Un múltiplex de datos genómicos se define como una secuencia de unidades de acceso genómico usadas para transmitir datos genómicos relacionados con uno o más procedimientos de secuenciación, análisis o procesamiento genómico. La Figura 7 proporciona un esquema de la relación entre un múltiplex genómico que transporta tres flujos de datos genómicos descompuestos en unidades de acceso. Las unidades de acceso encapsulan los bloques de datos pertenecientes a los tres flujos y los dividen en paquetes genómicos para ser enviados a una red de transmisión.

Modelos fuente, codificadores de entropía y modos de codificación.

Para cada capa de la estructura de datos genómicos descrita en esta invención se pueden emplear diferentes algoritmos de codificación según los rasgos específicos de los datos o metadatos transportados por la capa y sus propiedades estadísticas. El "algoritmo de codificación" tiene que entenderse como la asociación de un "modelo fuente" específico del descriptor con un "codificador de entropía" específico. El "modelo fuente" específico se puede especificar y seleccionar para obtener la codificación más eficiente de los datos en términos de minimización de la entropía de fuente. La selección del codificador de entropía puede ser impulsada por consideraciones de eficiencia de codificación y/o rasgos de distribución de probabilidad y problemas de implementación asociados. Cada selección de un algoritmo de codificación específico se denominará "modo de codificación" aplicado a una "capa" completa o a todos los "bloques de datos" contenidos en una unidad de acceso. Cada "modelo fuente" asociado a un modo de codificación se caracteriza por:

-La definición de los elementos de sintaxis emitidos por cada fuente (p. ej., posición de lecturas, información de emparejamiento de lecturas, faltas de coincidencias con respecto a una secuencia de referencia, etc.)

-La definición del modelo de probabilidad asociado.

-La definición del codificador de entropía asociado.

Para cada capa de datos, el modelo fuente adoptado en una unidad de acceso es independiente del modelo fuente usado por otras unidades de acceso para la misma capa de datos. Esto permite que cada unidad de acceso use el modelo fuente más eficiente para cada capa de datos en términos de minimización de la entropía.

Tablas

Tabla maestra de índice

Para admitir el acceso selectivo a regiones específicas de los datos alineados, la estructura de datos descrita en este documento implementa una herramienta de indexación llamada Tabla maestra de índice (MIT). Esta es una matriz multidimensional que contiene dos clases de datos:

1. los loci en los que se mapean lecturas específicas en las secuencias de referencia usadas. Estos valores contenidos en al MIT son las posiciones de mapeo de la primera lectura en cada unidad de acceso pos para que se admita el acceso no secuencial a cada unidad de acceso. Estas secciones de la MIT contienen una sección por cada clase de datos (P, N, M e I) y por cada secuencia de referencia.

2. punteros a las unidades de acceso que contienen los datos necesarios para reconstruir los bloques de lecturas siguientes cuyas posiciones de mapeo se almacenan en los vectores de posición mencionados en el punto 1. Cada vector de punteros se denomina Tabla de índice local.

Posiciones de mapeo de unidades de acceso

La Figura 8 muestra un esquema de la MIT que destaca los cuatro vectores que contienen las posiciones de mapeo en la secuencia de referencia (posiblemente más de una) de cada unidad de acceso de cada clase de datos.

La MIT está contenida en el encabezado principal de los datos codificados. La Figura 9 muestra la estructura genérica del encabezado principal y un ejemplo de vector de MIT para la clase P de lecturas codificadas.

Los valores contenidos en la MIT representada en la Figura 9 se usan para acceder directamente a la región de interés (y la unidad de acceso correspondiente) en el dominio comprimido.

Por ejemplo, con referencia a la Figura 9, si un analista solicitó acceder a lecturas perfectamente coincidentes mapeadas en la región comprendida entre la posición 150.000 y 250.000 en la referencia n.° 2, una aplicación de decodificación saltaría al vector de posición de clase P y la segunda referencia en la MIT y buscaría los dos valores k1 y k2 de modo que k1 < 150.000 y k2 > 250.000. En el ejemplo de la Figura 9, esto daría como resultado las posiciones 3 y 4 del segundo bloque (segunda referencia) del vector de MIT que se refiere a la posición de mapeo de la clase P. La aplicación de decodificación usará entonces estos valores devueltos para obtener las posiciones de las unidades de acceso apropiadas desde la capa pos como se describe en la siguiente sección.

Punteros de unidades de acceso

El segundo tipo de datos contenidos en los restantes vectores de la MIT (figura 8) consiste en vectores de punteros a la posición física de cada unidad de acceso en el flujo de bits codificado. Cada vector se denomina Tabla de índice local, ya que su alcance se limita a una clase homogénea de información codificada.

Para cada una de las cuatro clases de lecturas mapeadas (P, N, M, I) se necesitan varios tipos de unidades de acceso para reconstruir las lecturas codificadas (pares). Los tipos específicos de unidades de acceso asociadas a cada clase de datos dependen del resultado de la función de coincidencia aplicada en las lecturas en cada clase con respecto a una o más secuencias de referencia como se describe anteriormente.

En el ejemplo anterior de la figura 9, para acceder a la región 150.000 a 250.000 de lecturas alineadas en la secuencia de referencia n.° 2, la aplicación de decodificación recuperó las posiciones 3 y 4 del vector de posiciones de la clase P en al MIT. Estos valores serán usados por el procedimiento de decodificación para acceder a los elementos 3° y 4° del correspondiente vector de unidades de acceso (en este caso, el segundo) de la MIT. En el ejemplo que se muestra en la Figura 11, los contadores de unidades de acceso totales contenidos en el encabezado principal se usan para saltar las posiciones de las unidades de acceso relacionadas con la referencia 1 (4 en el ejemplo). Por lo tanto, los índices que contienen las posiciones físicas de las unidades de acceso solicitadas en el flujo codificado se calculan como:

Posición de la AU solicitada = AUs de referencia 1 a saltar posición recuperada mediante la MIT,

es decir

Primera posición de AU: 4 3 = 7

Última posición de AU: 4 4 = 8

Esto significa que la región de interés (lecturas de clase P mapeadas en la secuencia de referencia n.° 2 entre la posición 150.000 y 250.000 está contenida en las unidades de acceso a las que apuntan los punteros almacenados en la columna 7a y 8a de la tabla maestra de índice, fila T1 p (unidades de acceso de tipo 1 de tipo p).

La Figura 11 muestra cómo los elementos de un vector de la MIT (p. ej., Clase P Pos) apuntan a elementos de un LIT (vector pos de tipo 1 en el ejemplo de la figura 11).

Adaptación de la secuencia de referencia

Las faltas de coincidencias codificadas para las clases N, M e I se pueden usar para crear un "genoma modificado" que se usará para volver a codificar lecturas en la capa N, M o I (con respecto al primer genoma de referencia, Ro) r M

como lecturas p con respecto al genoma "adaptado" Ri. Por ejemplo, si se denota con in la lectura de orden i de clase M que contiene faltas de coincidencias con respecto al genoma de referencia n, entonces después de la r M r P

ión" podría obtenerse 't i l 'i(n 1)

"adaptac con A(Refn)=Refn+i donde A es la transformación de la secuencia de referencia n a la secuencia de referencia n+1.

La Figura 12 muestra cómo las lecturas que contienen faltas de coincidencias (lecturas M) con respecto a la secuencia de referencia 1 (RS1) se pueden transformar en lecturas perfectamente coincidentes (lecturas P) con respecto a la secuencia de referencia 2 (RS2) obtenida de RS1 modificando las posiciones de falta de coincidencia. Esta transformación se puede expresar como

RS2 = A(RS1)

Si la expresión de la transformación A que va de RS1 a RS2 requiere menos bits de la expresión de las faltas de coincidencias presentes en las lecturas M, este procedimiento de codificación da como resultado una entropía de información más pequeña y, por lo tanto, una mejor compresión.

En algunas circunstancias, una o más modificaciones en el genoma de referencia pueden reducir la entropía general de la información al transformar un conjunto de lecturas N, M o I en lecturas P.

Una arquitectura de sistema según los principios de esta invención se describe ahora según la Figura 13. En una fuente, uno o más dispositivos de secuenciación genómica 130 y/o aplicaciones generan y representan información genómica 131 en un formato que contiene

-Una o más secuencias de símbolos que representan ácidos nucleicos

-Un identificador único por cada secuencia genómica

-Un valor de calidad opcional por cada símbolo

-Metadatos opcionales

-Una o más secuencias de referencia opcionales que se usarán para procesando aún más las secuencias genómicas generadas.

Una unidad de alineación de lecturas 132 recibe los datos de secuencia sin procesar y los alinea en una o más secuencias de referencia disponibles o los ensambla en secuencias más largas buscando prefijos y sufijos superpuestos aplicando un procedimiento conocido como ensamblaje "de novo".

Una unidad de clasificación de lecturas 134 recibe los datos de la secuencia genómica alineados 133 y aplica una función de coincidencia a cada secuencia con respecto a:

-una o más secuencias de referencia disponibles o

-a una referencia interna construida durante el procedimiento de alineación (en caso de ensamblaje "de novo"). Una unidad de codificación de capas 136 recibe las clases de lectura 135 producidas por la unidad de clasificación 134 y produce capas de elementos de sintaxis 137.

Una unidad de codificación de unidades de acceso y encabezado 138 encapsula las capas de elementos de sintaxis 137 en unidades de acceso y agrega un encabezado a cada unidad de acceso.

Una unidad de codificación de tabla maestra de índice 1310 crea un índice de punteros a las unidades de acceso 139 recibidas

Una unidad de compresión 1312 transforma la salida de dicha representación en un formato más compacto (comprimido) 1315 para reducir el espacio de almacenamiento utilizado;

Un dispositivo de almacenamiento local o remoto 1316 almacena la información comprimida 1315.

Una unidad de descompresión 1313 descomprime la información comprimida 1315 para recuperar los datos descomprimidos 1317 equivalentes a la información genómica 131.

Una unidad de análisis 1314 procesa además dicha información genómica 1317 actualizando de forma incremental los metadatos contenidos en ella.

Uno o más dispositivos o aplicaciones de secuenciación genómica 1318 podrían agregar información adicional a los datos genómicos existentes agregando los resultados de un procedimiento de secuenciación genómica adicional sin necesidad de volver a codificar la información genómica existente; para producir datos actualizados 1319. La alineación y la compresión se aplicarán a los datos genómicos recién generados antes de fusionarlos con los datos existentes.

Una de las varias ventajas de la realización descrita anteriormente es que los dispositivos de análisis del genoma y aplicaciones que necesitan tener acceso a los datos podrán consultar y recuperar la información necesaria usando una o más de las tablas de índice.

En la figura 14 se describe un extractor de lecturas de secuencias 140 según los principios de esta invención.

El dispositivo extractor 140 utiliza la tabla maestra de índice descrita en esta invención para tener acceso aleatorio a cualquier lectura de secuencia almacenada en un formato de archivo genómico según esta descripción. El dispositivo extractor 140 comprende medios de entrada de usuario 141 para recibir del usuario información de entrada 142 sobre los datos específicos a recuperar. Por ejemplo, el usuario puede especificar:

a. Una región genómica en términos de:

i. Posición absoluta inicial y final en un genoma de referencia

ii. Una secuencia de referencia completa (p. ej., un cromosoma)

b. Solo un tipo específico de lecturas de secuencia codificadas como:

i. Lecturas de secuencia que coinciden perfectamente con una o más secuencias de referencia ii. Lecturas de secuencia que presentan exactamente faltas de coincidencias N con respecto a una o más secuencias de referencia

iii. Lecturas de secuencia que presentan un número de faltas de coincidencias con respecto a una o más secuencias de referencia por debajo o por encima de un umbral especificado

iv. Lecturas de secuencia que presentan inserciones y eliminaciones con respecto a una secuencia de referencia.

El extractor de MIT 143 de la figura 14 analiza el encabezado principal del archivo genómico para acceder a la información contenida como se muestra en la Figura 9:

c. Un identificador único

d. La versión de la sintaxis usada

e. El tamaño en bytes del encabezado principal

f. El número de secuencias de referencia usadas para codificar las lecturas de secuencia

g. El número de bloques de datos contenidos por el flujo

h. Los identificadores de referencias

i. La tabla maestra de índice.

El analizador de MIT y el extractor de AU 145 recupera las unidades de acceso solicitadas explotando la siguiente información de la tabla maestra de índice:

j. vectores de las posiciones en el genoma de referencia de la primera lectura en cada unidad de acceso. La Figura 9 muestra cómo el dispositivo de decodificación puede leer dicha posición y encontrar qué unidad de acceso contiene las lecturas codificadas mapeadas dentro de la región solicitada.

k. La tabla de índice local de cada capa codificada. Estos vectores se usan para recuperar la posición física de aquellas unidades de acceso identificadas en los pasos a que contienen las lecturas de secuencia mapeadas en la región genómica solicitada por un usuario

l. Las tablas de índice Local se definen por cada clase de datos, por lo que el dispositivo extractor extraerá únicamente aquellas clases referentes a la secuencia de lecturas solicitadas por el usuario. Por ejemplo, en el caso de una solicitud de solo lecturas perfectamente coincidentes, el dispositivo extraído accederá solo a la LIT relacionada con la clase P, como se representa en la Figura 8.

Usando la información encontrada en las unidades de acceso recuperadas y las una o más secuencias de referencia codificadas en el flujo de bits genómico o disponibles en el dispositivo de extracción, el reconstructor de lecturas 147 puede reconstruir las lecturas de la secuencia original.

La Figura 15 muestra un aparato de codificación 207 según los principios de esta invención. El aparato de codificación aclara aún más los aspectos de compresión de la arquitectura del sistema de la figura 13, sin embargo, la tabla maestra de índice y la creación de unidades de acceso se omiten en el codificador de la figura 15, que produce un flujo comprimido sin esos metadatos e información de estructuración. El aparato de codificación 207 recibe como entrada datos de secuencia sin procesar 209, por ejemplo producidos por un aparato de secuenciación genómica 200. Los aparatos de secuenciación genómica 200 son conocidos en la técnica, como Illumina HiSeq 2500 o los dispositivos Thermo-Fisher Ion Torrent. Los datos de secuencia sin procesar 209 se alimentan a una unidad alineadora 201, que prepara las secuencias para la codificación alineando las lecturas con una secuencia de referencia. Alternativamente, se puede usar un ensamblador 202 de novo para crear una secuencia de referencia a partir de las lecturas disponibles buscando prefijos o sufijos superpuestos para que se puedan ensamblar segmentos más largos (llamados "cóntigos") a partir de las lecturas. Después de haber sido procesadas por un ensamblador de novo 202, las lecturas pueden mapearse en la secuencia más larga obtenida. Las secuencias alineadas luego se clasifican mediante el módulo de clasificación de datos 204. Las clases de datos 208 luego se alimentan a los codificadores de capas 205-207. Las capas genómicas 2011 luego se alimentan a los codificadores aritméticos 2012-2014 que codifican las capas según las propiedades estadísticas de los datos o metadatos transportados por la capa. El resultado es un flujo genómico 2015.

La Figura 16 muestra un aparato de decodificación 218 correspondiente. Un aparato de decodificación 218 recibe un flujo de bits genómico multiplexado 2110 desde una red o un elemento de almacenamiento. El flujo de bits genómico multiplexado 2110 se alimenta a un demultiplexor 210, para producir flujos separados 211 que luego se alimentan a los decodificadores de entropía 212-214, para producir capas genómicas 215. Las capas genómicas extraídas se alimentan a los decodificadores de capas 216-217 para decodificar aún más las capas en clases de datos. Los decodificadores de clase 219 procesan más los descriptores genómicos y fusionan los resultados para producir lecturas de secuencias sin comprimir, que luego se pueden almacenar en los formatos conocidos en la técnica, por ejemplo, un archivo de texto o un archivo comprimido zip, o archivos FASTQ o SAM/BAM. Los decodificadores de clase 219 pueden reconstruir las secuencias genómicas originales aprovechando la información sobre las secuencias de referencia originales transportadas por uno o más flujos genómicos. En caso de que las secuencias de referencia no sean transportadas por los flujos genómicos, deben estar disponibles en el lado de decodificación y accesibles para los decodificadores de clase.

En uno o más ejemplos, las técnicas inventivas aquí descritas pueden implementarse en hardware, software, firmware o cualquier combinación. Cuando se implementan en software, estos pueden almacenarse en un medio informático y ejecutarse mediante una unidad de procesamiento de hardware. La unidad de procesamiento de hardware puede comprender uno o más procesadores, procesadores de señales digitales, microprocesadores de uso general, circuitos integrados de aplicaciones específicas u otros conjuntos de circuitos lógicos discretos.

Las técnicas de esta descripción pueden implementarse en una variedad de dispositivos o aparatos, incluidos teléfonos móviles, computadoras de escritorio, servidores, tabletas y similares.

Claims

REIVINDICACIONES

1 Un procedimiento implementado por computadora para el almacenamiento de una representación de datos de secuencias genómicas en un formato de archivo genómico, comprendiendo dichos datos de secuencias genómicas lecturas de secuencias de nucleótidos, que comprende los pasos de:

- alinear dichas lecturas con una o más secuencias de referencia, creando así lecturas alineadas;

- clasificar dichas lecturas alineadas en clases que comprendan al menos:

- una primera clase cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia sin ningún error;

- una segunda clase cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia con un número de faltas de coincidencias;

- una tercera clase cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia con la presencia de sustituciones de símbolos y la presencia de inserciones o eliminaciones y símbolos de recorte suave;

- una cuarta clase cuando dichas lecturas alineadas no coinciden con dichas una o más secuencias de referencia, creando así clases de lecturas alineadas;

- codificar por entropía dichas lecturas alineadas clasificadas como capas, comprendiendo cada capa bloques de datos, comprendiendo cada bloque de datos descriptores como un vector de elementos de datos de sintaxis del mismo tipo, comprendiendo dichos descriptores para dicha primera clase una posición inicial (pos) en el genoma de referencia, una distancia al par de emparejamiento en caso de lecturas emparejadas (par), un indicador que señala si la lectura debe considerarse como un complemento inverso frente a la referencia (rcomp), indicadores adicionales que describen las características de la lectura y el valor de la longitud de lectura (rlen) en caso de que una tecnología de secuenciación produzca lecturas de longitud variable, para dicha segunda clase todos los descriptores de dicha primera clase y una posición de falta de coincidencia (nmis), para dicha tercera clase todos los descriptores de dicha primera clase, un tipo de falta de coincidencia (snpt) y una posición de falta de coincidencia (snpp), para dicha cuarta clase todos los descriptores de dicha primera clase, una posición de falta de coincidencia (indp), un tipo de falta de coincidencia (indt) y opcionalmente una cadena de nucleótidos de recorte suave cuando está presente (indc), donde en la codificación de dichas lecturas alineadas clasificadas como capas de elementos de sintaxis se adapta según los datos o metadatos transportados por la capa, y donde la codificación de dichas lecturas alineadas clasificadas como capas de elementos de datos de sintaxis se adapta además según las propiedades estadísticas de los datos o metadatos transportados por la capa;

- estructurar dichas capas de bloques de datos con información de encabezado creando así unidades de acceso sucesivas;

- crear una tabla maestra de índice, que contiene una sección para cada clase de lecturas alineadas, que comprende las posiciones de mapeo en dichas una o más secuencias de referencia de la primera lectura de cada unidad de acceso de cada clase de lecturas alineadas;

- almacenar conjuntamente dicha tabla maestra de índice y dichos datos de unidad de acceso.
2. El procedimiento de la reivindicación 1, donde dicha tabla maestra de índice comprende además un vector de punteros a la posición física de cada unidad de acceso subsiguiente en un flujo de bits codificado.
3. El procedimiento de la reivindicación 1, donde dicha tabla maestra de índice contiene además una sección para cada secuencia de referencia.
4. El procedimiento de la reivindicación 1, donde la codificación de dichas lecturas clasificadas alineadas como capas emplea diferentes codificadores de entropía.
5. Un procedimiento para extraer lecturas de secuencias de nucleótidos almacenadas en un archivo genómico, donde dicho archivo genómico comprende una tabla maestra de índice y datos de unidades de acceso almacenados según el procedimiento de la reivindicación 1, comprendiendo dicho procedimiento los pasos de:

- recibir la entrada del usuario que identifica el tipo de lecturas que se van a extraer;

- recuperar vectores de datos que indican la posición en el genoma de referencia de la primera lectura en cada unidad de acceso y recuperar datos que indican una posición física de unidades de acceso para cada clase de datos; y - recuperar la tabla maestra de índice de dicho archivo genómico,

- recuperar las unidades de acceso correspondientes a dicho tipo de lecturas que se van a extraer,

- reconstruir dichas lecturas de secuencias de nucleótidos que mapean dichas unidades de acceso recuperadas en una o más secuencias de referencia.
6. El procedimiento de la reivindicación 5, donde el archivo genómico comprende además las una o más secuencias de referencia.
7. El procedimiento de la reivindicación 5, donde las una o más secuencias de referencia se proporcionan a través de un mecanismo fuera de banda.
8. Una máquina de secuenciación genómica que comprende:

- una unidad de secuenciación genómica (130), configurada para generar lecturas de secuencias de nucleótidos (131) de una muestra biológica;

- una unidad de alineación (132), configurada para alinear dichas lecturas con una o más secuencias de referencia, creando así lecturas alineadas (133);

- una unidad de clasificación (134), configurada para clasificar dichas lecturas alineadas en clases que comprenden al menos:

- una primera clase cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia sin ningún error;

- una segunda clase cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia con un número de faltas de coincidencias;

- una tercera clase cuando dichas lecturas alineadas coinciden con dichas una o más secuencias de referencia con la presencia de sustituciones de símbolos y la presencia de inserciones o eliminaciones y símbolos de recorte suave;

- una cuarta clase cuando dichas lecturas alineadas no coinciden con dichas una o más secuencias de referencia;

creando así clases de lecturas alineadas (135);

- una unidad de codificación (136), configurada para codificar dichas lecturas alineadas clasificadas como capas de datos codificados, comprendiendo cada capa bloques de datos, comprendiendo cada bloque de datos descriptores como un vector de elementos de datos del mismo tipo, siendo dichos descriptores usados para identificar dichas lecturas clasificadas según el mapeo en la secuencia de referencia, comprendiendo dichos descriptores datos de información relacionados con la posición de la lectura con respecto a la secuencia de referencia, donde la codificación de dichas lecturas alineadas clasificadas como capas de elementos de sintaxis se adapta según los rasgos específicos de los datos o metadatos transportados por la capa y sus propiedades estadísticas,

- una unidad de subdivisión (138), configurada para estructurar dichas capas de bloques de datos con información de encabezamiento creando así unidades de acceso sucesivas (139);

- una unidad de procesamiento de tabla de índice (1310), configurada para crear una tabla maestra de índice, que contiene una sección para cada clase de lecturas alineadas, que comprende las posiciones de mapeo en la secuencia de referencia de la primera lectura de cada unidad de acceso de cada clase de datos;

- una unidad de almacenamiento (1312-1316), configurada para almacenar conjuntamente dicha tabla maestra de índice y dichos datos de la unidad de acceso (1311).
9. La máquina de secuenciación genómica de la reivindicación 8, donde la tabla maestra de índice comprende además un vector de punteros a la posición física de cada unidad de acceso subsiguiente.
10. Un extractor (140) para extraer lecturas de secuencias de nucleótidos almacenadas en un archivo genómico, donde dicho archivo genómico comprende una tabla maestra de índice y datos de unidades de acceso almacenados según el procedimiento de la reivindicación 1, comprendiendo dicho extractor (140):

- medios de entrada de usuario (141) configurados para recibir parámetros de entrada (142) que identifican el tipo de lecturas que se van a extraer,

- medios de recuperación (143) configurados para recuperar dicha tabla maestra de índice (144) de dicho archivo genómico,

- medios de recuperación (145) configurados para recuperar las unidades de acceso (146) correspondientes a dicho tipo de lecturas que se van a extraer, comprendiendo además dichos medios de recuperación medios para extraer vectores de datos que indican la posición en el genoma de referencia de la primera lectura en cada unidad de acceso, comprendiendo además dichos medios de recuperación medios para recuperar datos que indican una posición física de las unidades de acceso para cada clase de datos;

- medios de reconstrucción (147) configurados para reconstruir dichas lecturas de secuencias de nucleótidos (148) que mapean dichas unidades de acceso recuperadas en una o más secuencias de referencia.
11. Un medio legible por máquina que comprende una pluralidad de instrucciones que, en respuesta a su ejecución en un dispositivo informático, hace que el dispositivo informático realice el procedimiento de las reivindicaciones 1-7.