ES2867874T3 - Procedimiento y sistema para la transmisión de datos bioinformáticos - Google Patents

Procedimiento y sistema para la transmisión de datos bioinformáticos Download PDF

Info

Publication number
ES2867874T3
ES2867874T3 ES16791321T ES16791321T ES2867874T3 ES 2867874 T3 ES2867874 T3 ES 2867874T3 ES 16791321 T ES16791321 T ES 16791321T ES 16791321 T ES16791321 T ES 16791321T ES 2867874 T3 ES2867874 T3 ES 2867874T3
Authority
ES
Spain
Prior art keywords
data
genomic
genomic data
reads
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16791321T
Other languages
English (en)
Inventor
Giorgio Zoia
Daniele Renzi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genomsys SA
Original Assignee
Genomsys SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genomsys SA filed Critical Genomsys SA
Application granted granted Critical
Publication of ES2867874T3 publication Critical patent/ES2867874T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C15/00Arrangements characterised by the use of multiplexing for the transmission of a plurality of signals over a common path

Abstract

Un procedimiento implementado por ordenador para la transmisión de datos genómicos como flujos de datos multiplexados que comprende: una estructura de datos de lista de conjuntos de datos genómicos (481) para proporcionar una lista de todos los conjuntos de datos genómicos (482-483), comprendiendo dichos conjuntos de datos genómicos datos genómicos disponibles en los flujos genómicos (484); una estructura de datos de tabla de mapeo de conjuntos de datos genómicos (485) para proporcionar el identificador de cada flujo de dichos datos genómicos asociados a cada conjunto de datos genómicos (482 - 483); en el que los conjuntos de datos genómicos se dividen en unidades de acceso accesibles aleatoriamente (486); en el que dichos flujos genómicos (484) comprenden lecturas alineadas codificadas organizadas en múltiples capas de descriptores de datos homogéneos que representan de manera unívoca lecturas de secuencias genómicas, en el que en una capa se almacena la posición de mapeo de la primera lectura de cada unidad de acceso como posición absoluta con respecto al genoma de referencia, y todas las otras posiciones se expresan como una diferencia con respecto a la posición anterior y se almacenan en una capa específica; comprendiendo además dicho procedimiento: la compresión de dichas capas de descriptores de datos homogéneos y la transmisión de dichos flujos de datos.

Description

DESCRIPCIÓN
Procedimiento y sistema para la transmisión de datos bioinformáticos
Campo técnico
La presente solicitud proporciona nuevos procedimientos para el almacenamiento, acceso, transmisión y multiplexación eficientes de datos bioinformáticos y, en particular, datos de secuenciación genómica.
Antecedentes
Una representación adecuada de datos de secuenciación del genoma es fundamental para permitir un procesamiento, almacenamiento y transmisión eficientes de datos genómicos para posibilitar y facilitar aplicaciones de análisis, tales como la llamada de variantes del genoma y todos los análisis realizados con diversos fines, mediante el procesamiento de los datos y metadatos de secuenciación. Hoy en día, la información de secuenciación del genoma se genera por las máquinas de secuenciación de alto rendimiento (HTS) en forma de secuencias de nucleótidos (también conocidas como bases) representadas por cadenas de letras de un vocabulario definido.
Estas máquinas de secuenciación no leen genomas o genes completos, pero producen fragmentos aleatorios cortos de secuencias de nucleótidos conocidas como lecturas de secuencia.
Una puntuación de calidad se asocia a cada nucleótido en una lectura de secuencia. Dicho número representa el nivel de confianza proporcionado por la máquina con la lectura de un nucleótido específico en una ubicación específica en la secuencia de nucleótidos.
Estos datos de secuenciación sin procesar generados por máquinas NGS comúnmente se almacenan en archivos FASTQ (véase también la figura 1).
El vocabulario más pequeño para representar secuencias de nucleótidos obtenidos por un proceso de secuenciación está compuesto por cinco símbolos: {A, C, G, T, N} que representan los 4 tipos de nucleótidos presentes en el ADN, es decir, Adenina, Citosina, Guanina y Timina más el símbolo N para indicar que la máquina de secuenciación no pudo identificar ninguna base con un nivel suficiente de confianza, por lo cual el tipo de base en tal posición permanece indeterminado en el proceso de lectura. En el ARN la Timina se sustituye por Uracilo (U). Las secuencias de nucleótidos producidas por máquinas de secuenciación se denominan "lecturas". En el caso de lecturas apareadas, el término "molde" se usa para designar la secuencia original de la que se ha extraído el par de lectura. Las lecturas de secuencia pueden estar compuestas por un número de nucleótidos en un intervalo desde unas pocas docenas hasta varios miles. Algunas tecnologías producen lecturas de secuencia en pares, en donde cada lectura puede originarse a partir de una de las dos cadenas de ADN.
En el campo de secuenciación del genoma, el término "cobertura" se usa para expresar el nivel de redundancia de los datos de secuencia con respecto a un genoma de referencia. Por ejemplo, para alcanzar una cobertura de 30x en un genoma humano (3,2 miles de millones de bases de longitud), una máquina de secuenciación deberá producir un total de aproximadamente 30 x 3,2 miles de millones de bases, de manera que en promedio cada posición en la referencia esté "cubierta" 30 veces.
Soluciones del estado de la técnica
Las representaciones de información del genoma más usadas de los datos de secuenciación se basan en los formatos de archivo FASTQ y SAM, que generalmente están disponibles en forma comprimida para reducir el tamaño original. Los formatos de archivo tradicionales, respectivamente FASTQ y SAM para datos de secuenciación no alineados y alineados están constituidos por caracteres de texto sin formato y por lo tanto se comprimen usando enfoques de propósito general como los esquemas LZ (de Lempel y Ziv) (el conocido zip, gzip etc.). Cuando se usan compresores de propósito general tal como gzip, el resultado de la compresión suele ser un solo blob de datos binarios. La información en dicha forma monolítica resulta bastante difícil de archivar, transferir y elaborar, en particular en el caso de una secuenciación de alto rendimiento cuando los volúmenes de datos son extremadamente grandes.
Después de la secuenciación, cada etapa de una canalización de procesamiento de información genómica produce datos representados por una estructura de datos completamente nueva (formato de archivo) a pesar del hecho de que en realidad solo una pequeña fracción de los datos generados es nueva con respecto a la etapa anterior.
La figura 1 muestra las etapas principales de una canalización típica de procesamiento de información genómica con la indicación de la representación del formato del archivo asociado.
Las soluciones de uso común presentan varios inconvenientes: archivo de datos es ineficiente porque se usa un formato de archivo diferente en cada etapa de las canalizaciones de procesamiento de información genómica, lo que implica la replicación múltiple de datos, con el consiguiente aumento rápido del espacio de almacenamiento requerido. Esto resulta ineficiente e innecesario, y también se está volviendo insostenible para el aumento del volumen de datos generado por las máquinas de HTS. De hecho, esto tiene consecuencias en términos de espacio de almacenamiento disponible y costes generados, y esto también impide que los beneficios del análisis genómico en la atención médica lleguen a una mayor parte de la población. El impacto de los costes de TI generados por el crecimiento exponencial de datos de secuencia que se almacenarán y analizarán es actualmente uno de los principales desafíos que la comunidad científica y la industria de la salud deben enfrentar (véase Scott D. Kahn "On the future of genomic data" - Science 331, 728 (2011) y Pavlichin, D. S., Weissman, T. y G. Yona. 2013. "The human genome contracts again" Bioinformatics 29(17): 2199-2202). Al mismo tiempo, varias son las iniciativas que intentan escalar la secuenciación del genoma desde unos pocos individuos seleccionados hasta grandes poblaciones (véase Josh P. Roberts "Million Veterans Sequenced" - Nature Biotechnology 31, 470 (2013))
La transferencia de datos genómicos es lenta e ineficiente porque los formatos de datos usados actualmente están organizados en archivos monolíticos de hasta varios cientos de Gigabytes de tamaño que deben transferirse por completo al extremo receptor para ser procesados. Esto implica que el análisis de un segmento pequeño de los datos requiere la transferencia de todo el archivo con costes significativos en términos de ancho de banda consumido y tiempo de espera. A menudo, la transferencia en línea es prohibitiva para los grandes volúmenes de datos que se transferirán, y el transporte de los datos se realiza al mover físicamente los medios de almacenamiento, tales como las unidades de disco duro o los servidores de almacenamiento de una ubicación a otra.
Estas limitaciones que se producen al emplear enfoques del estado de la técnica que se superan mediante la presente invención. El procesamiento de datos es lento e ineficiente debido a que la información no está estructurada, de tal manera que las porciones de las diferentes clases de datos y metadatos requeridas por las aplicaciones de análisis comúnmente usadas no puedan recuperarse sin la necesidad de acceder a los datos en su totalidad. Este hecho implica que las canalizaciones de análisis comunes pueden requerir ejecución durante días o semanas, desperdiciando recursos de procesamiento valiosos y costosos debido a la necesidad, en cada etapa de acceso, de analizar y filtrar grandes volúmenes de datos incluso si las porciones de datos relevantes para el propósito de análisis específico son mucho más pequeñas.
Estas limitaciones impiden que los profesionales del cuidado de la salud obtengan oportunamente informes de análisis genómico y reaccionen rápidamente a los brotes de enfermedades. La presente invención proporciona una solución a esta necesidad.
Existe otra limitación técnica que es superada por la presente invención.
De hecho, la invención tiene por objeto proporcionar una representación adecuada de metadatos y datos de secuenciación genómica mediante la organización y la partición de los datos para que la compresión de datos y metadatos se maximice y se habiliten eficientemente varias funcionalidades tales como el acceso selectivo y el soporte para actualizaciones graduales.
Un aspecto clave de la invención es una definición específica de clases de datos y metadatos que deben representarse mediante un modelo de fuente apropiado, codificado (es decir, comprimido) por separado al estructurarse en capas específicas. Los logros más importantes de la presente invención con respecto a los procedimientos existentes en el estado de la técnica consisten en:
• el aumento del rendimiento de compresión debido a la reducción de la entropía de la fuente de información constituida al proporcionar un modelo eficiente para cada clase de datos o metadatos;
• la posibilidad de realizar accesos selectivos a porciones de los datos y metadatos comprimidos para cualquier otro fin de procesamiento;
• la posibilidad de actualizar de manera gradual (sin la necesidad de volver a codificar) y agregar datos y metadatos codificados con nuevos datos y/o metadatos de secuenciación y/o nuevos resultados de análisis; • la posibilidad de procesar datos de manera eficiente tan pronto como son producidos por la máquina de secuenciación o las herramientas de alineación sin la necesidad de esperar el final del proceso de secuenciación o alineación.
La presente solicitud desvela un procedimiento y un sistema que aborda el problema de la manipulación, el almacenamiento y la transmisión eficientes de grandes cantidades de datos de secuenciación genómica, empleando un enfoque de unidades de acceso estructurado combinado con técnicas de multiplexación.
La presente solicitud supera todas las limitaciones de los enfoques de la técnica anterior relacionados con la funcionalidad de accesibilidad de datos genómicos, procesamiento eficiente de subconjuntos de datos, funcionalidad de transmisión y retransmisión combinada con una compresión eficiente.
Hoy en día, el formato de representación más usado para datos genómicos es el formato textual de Mapeo de Alineación de Secuencias (SAM) y su correspondiente binario BAM. Los archivos SAM son archivos de texto ASCII legibles por humanos, mientras que BAM adopta una variante de gzip basada en bloques. Los archivos BAM se pueden indexar para habilitar una modalidad limitada de acceso aleatorio. Esto es compatible con la creación de un archivo de índice separado.
El formato BAM se caracteriza por un rendimiento de compresión deficiente por los siguientes motivos:
1. Se enfoca en comprimir el ineficiente y redundante formato de archivo SAM en lugar de extraer la información genómica real transmitida por los archivos SAM y usar modelos apropiados para comprimirla.
2. Emplea un algoritmo de compresión de texto de propósito general tal como gzip, en lugar de explotar la naturaleza específica de cada fuente de datos (la información genómica en sí).
3. Carece de cualquier concepto relacionado con la clasificación de datos que permitiría un acceso selectivo a clases específicas de datos genómicos.
Un enfoque más sofisticado a la compresión de datos genómicos que se usa con menos frecuencia, pero más eficiente que BAM es CRAM (especificación de CRAM: https://samtools.github.io/hts-specs/CRAMv3.pdf). CRAM proporciona una compresión más eficiente para la adopción de codificación diferencial con respecto a una referencia existente (explota parcialmente la redundancia de la fuente de datos), pero aún carece de características tales como actualizaciones graduales, soporte para transmisión por flujo continuo y acceso selectivo a clases específicas de datos comprimidos.
CRAM se basa en el concepto del registro CRAM. Cada registro CRAM codifica una sola lectura mapeada o no mapeada codificando todos los elementos necesarios para reconstruirla.
Las principales diferencias de realizaciones de la presente invención con respecto al enfoque CRAM son:
1. Para CRAM, la indexación de datos está fuera del alcance de la memoria descriptiva (véase la sección 12 de la especificación CRAM v 3.0) y se implementa como un archivo separado. En algunas realizaciones de la presente invención, la indexación de datos está integrada con el proceso de codificación y los índices están integrados en el flujo de bits codificado.
2. En CRAM, todos los bloques de datos principales pueden contener cualquier tipo de lecturas mapeadas (lecturas que coinciden perfectamente, lecturas con sustituciones solamente, lecturas con indeles). En la presente invención no existe una noción de clasificación y agrupación de lecturas en clases de acuerdo con el resultado de un mapeo con respecto a una secuencia de referencia.
3. En la invención descrita no hay noción de registro que encapsule cada lectura porque los datos necesarios para reconstruir cada lectura se encuentran dispersos entre varios contenedores de datos denominados "capas". Esto permite un acceso más eficiente al conjunto de lecturas con características biológicas específicas (por ejemplo, lecturas con sustituciones, pero sin indeles, o lecturas perfectamente mapeadas) sin la necesidad de descodificar cada (bloque de) lectura(s) para inspeccionar sus características.
4. En un registro CRAM, cada tipo de datos se denota mediante un indicador específico. A diferencia de CRAM, en la presente invención no hay una noción de indicador que denote datos porque eso está intrínsecamente definido por la "capa" a la que pertenecen los datos. Esto implica el uso de un número muy reducido de símbolos y una consecuente reducción de la entropía de la fuente de información que da como resultado una compresión más eficiente. Esto se debe a que el uso de diferentes "capas" permite al codificador reutilizar el mismo símbolo en cada capa con diferentes significados. En CRAM, cada indicador siempre debe tener el mismo significado, ya que no hay noción de contextos y cada registro CRAM puede contener cualquier tipo de datos.
5. En las sustituciones CRAM, las inserciones y deleciones se expresan de acuerdo con diferentes sintaxis, mientras que realizaciones de la presente invención usan un único alfabeto y codificación para sustituciones, inserciones y deleciones. Esto hace que el proceso de codificación y descodificación sea más simple y produce un modelo de fuente de entropía más baja, codificación que produce flujos de bits caracterizados por un rendimiento de compresión más alto.
Los algoritmos de compresión genómica usados en el estado de la técnica se pueden clasificar en estas categorías:
• Basado en la transformación
◦ Basado en LZ
◦ Reordenamiento de lectura
• Basado en el conjunto
• Modelado estadístico
Las primeras dos categorías comparten la desventaja de no explotar las características específicas de la fuente de datos (lecturas de secuencias genómicas) y procesan los datos genómicos como cadena de texto que será comprimida sin tener en cuenta las propiedades específicas de este tipo de información (por ejemplo, redundancia entre lecturas, referencia a una muestra existente). Dos de las series de herramientas más avanzadas para la compresión de datos genómicos, a saber, CRAM y Goby ("Compression of structured high-throughput sequencing data", F. Campagne, K. C. Dorff, N. Chambwe, J. T. Robinson, J. P. Mesirov, T. D. Wu), hacen un mal uso de la codificación aritmética, ya que modelan implícitamente los datos como independientes y distribuidos de forma idéntica por una distribución geométrica. Goby es ligeramente más sofisticado, ya que convierte todos los campos en una lista de enteros y cada lista se codifica de forma independiente usando codificación aritmética sin usar ningún contexto. En el modo de operación más eficiente, Goby puede realizar algunos modelados entre listas sobre las listas de enteros para mejorar la compresión. Estas soluciones de la técnica anterior producen relaciones de compresión y estructuras de datos deficientes a las que es difícil, si no imposible, de acceder y manipular de forma selectiva una vez comprimidas. Las etapas de análisis en una fase posterior pueden resultar ineficientes y muy lentas debido a la necesidad de manejar estructuras de datos grandes y rígidas incluso para realizar operaciones simples o para acceder a regiones seleccionadas del conjunto de datos genómicos.
En la figura 1 se muestra una visión simplificada de la relación entre los formatos de archivo usados en las canalizaciones de procesamiento del genoma. En este diagrama, la inclusión del archivo no implica la existencia de una estructura de archivo anidada, sino que solo representa el tipo y la cantidad de información que se puede codificar para cada formato (es decir, SAM contiene toda la información en FASTQ, pero se organiza en una estructura de archivos diferente). CRAM contiene la misma información genómica que SAM/BAM, pero tiene más flexibilidad en el tipo de compresión que se puede usar, por lo que se representa como un superconjunto de SAM/BAM.
El uso de múltiples formatos de archivo para el almacenamiento de información genómica es altamente ineficiente y costoso. Tener diferentes formatos de archivo en diferentes etapas del ciclo de vida de la información genómica implica un crecimiento lineal del espacio de almacenamiento utilizado, incluso si la información gradual es mínima. A continuación, se enumeran otras desventajas de las soluciones de la técnica anterior.
1. El acceso, el análisis o la adición de anotaciones (metadatos) a los datos sin procesar almacenados en archivos FastQ comprimidos o cualquier combinación de los mismos requiere la descompresión y la recompresión de todo el archivo con un uso extensivo de los recursos y el tiempo informáticos.
2. La recuperación de subconjuntos específicos de información, tal como la posición de mapeo de lectura, la posición y el tipo de variante de lectura, la posición y los tipos de indeles, o cualquier otro metadato y anotación contenidos en datos alineados almacenados en archivos BAM requiere el acceso a todo el volumen de datos asociado a cada lectura. El acceso selectivo a una sola clase de metadatos no es posible con las soluciones de la técnica anterior.
3. Los formatos de archivo de la técnica anterior requieren que el usuario final reciba el archivo completo antes de que pueda iniciarse el procesamiento. Por ejemplo, la alineación de lecturas podría comenzar antes de que se haya completado el proceso de secuenciación basándose en una representación de datos adecuada. La secuenciación, la alineación y el análisis podrían continuar y ejecutarse en paralelo.
4. La solución de la técnica anterior no admite la estructuración y no puede distinguir datos genómicos obtenidos por diferentes procesos de secuenciación de acuerdo con su generación semántica específica (por ejemplo, secuenciación obtenida en diferentes momentos de la vida del mismo individuo). La misma limitación se produce para la secuenciación obtenida por diferentes tipos de muestras biológicas del mismo individuo.
5. Las soluciones de la técnica anterior no admiten el cifrado de partes completas o seleccionadas de los datos. Por ejemplo, el cifrado de:
a. regiones de ADN seleccionadas
b. solo aquellas secuencias que contienen variantes
c. solo secuencias quiméricas
d. solo secuencias sin mapear
e. metadatos específicos (por ejemplo, origen de la muestra secuenciada, identidad del individuo secuenciado, tipo de muestra)
6. La transcodificación de los datos de secuenciación alineados a una referencia determinada (es decir, un archivo SAM/BAM) a una nueva referencia requiere procesar todo el volumen de datos, incluso si la nueva referencia difiere solo en una posición del nucleótido de la referencia anterior.
Por lo tanto, existe la necesidad de una Capa de Almacenamiento de Información Genómica apropiada (Formato de Archivo Genómico) que permita una compresión eficiente, admita el acceso selectivo en el dominio comprimido, admita la adición gradual de metadatos heterogéneos en el dominio comprimido en todos los niveles de las diferentes etapas del procesamiento de datos genómicos.
La presente invención proporciona una solución a las limitaciones del estado de la técnica empleando el procedimiento, los dispositivos y los programas informáticos tal como se reivindica en el juego de reivindicaciones adjunto.
Una variedad de aspectos adicionales se expondrán en la descripción que sigue. Estos aspectos pueden relacionarse con características individuales y con combinaciones de características. Debe entenderse que tanto la descripción general anterior y la siguiente descripción detallada son únicamente ilustrativas y explicativas y no son restrictivas de los amplios conceptos en los que se basan las realizaciones desveladas en el presente documento. El experto en la materia puede observar que algunos elementos de la siguiente descripción no caen dentro del ámbito de las reivindicaciones. En la medida en que exista tal disparidad, dicha divulgación se entenderá como mera información de apoyo que no forma parte de la invención. La invención se define únicamente por las reivindicaciones.
Lista de figuras
La figura 1 muestra las etapas principales de una canalización genómica típica y los formatos de archivo relacionados.
La figura 2 muestra la relación mutua entre los formatos de archivos genómicos más usados
La figura 3 muestra cómo se ensamblan lecturas de secuencias genómicas en un genoma completo o parcial mediante ensamblaje de novo o alineación basada en referencia.
La figura 4 muestra cómo se calculan las posiciones de mapeo de lecturas en la secuencia de referencia.
La figura 5 muestra cómo se calculan las distancias de emparejamiento de lecturas.
La figura 6 muestra cómo se calculan los errores de emparejamiento.
La figura 7 muestra cómo se codifica la distancia de emparejamiento cuando un par de pareja de lectura se mapea en un cromosoma diferente.
La figura 8 muestra cómo lecturas de secuencias pueden originarse a partir de la primera o la segunda cadena de ADN de un genoma.
La figura 9 muestra cómo una lectura mapeada en la cadena 2 tiene una lectura complementada inversa correspondiente en la cadena 1.
La figura 10 muestra las cuatro posibles combinaciones de lecturas que componen un par de lecturas y la codificación respectiva en la capa rcomp.
La figura 11 muestra cómo las faltas de coincidencia de N se codifican en una capa nmis.
La figura 12 muestra un ejemplo de sustituciones en un par de lecturas mapeadas.
La figura 13 muestra cómo se pueden calcular las posiciones de las sustituciones como valores absolutos o diferenciales.
La figura 14 muestra cómo se calculan los símbolos que codifican sustituciones sin códigos IUPAC.
La figura 15 muestra cómo se codifican los tipos de sustitución en la capa snpt.
La figura 16 muestra cómo se calculan los símbolos que codifican sustituciones con códigos IUPAC.
La figura 17 muestra un modelo de fuente alternativa para la sustitución en el que solo se codifican las posiciones, pero se usa una capa por tipo de sustitución.
La figura 18 muestra cómo codificar sustituciones, inserciones y deleciones en un par de lecturas de clase I cuando no se usan los códigos IUPAC.
La figura 19 muestra cómo codificar sustituciones, inserciones y deleciones en un par de lecturas de clase I cuando se usan los códigos IUPAC.
La figura 20 muestra la estructura del encabezado de la estructura de datos de información genómica.
La figura 21 muestra cómo la Tabla Maestra de Índice contiene las posiciones en las secuencias de referencia de la primera lectura en cada Unidad de Acceso.
La figura 22 muestra un ejemplo de MIT parcial que muestra las posiciones de mapeo de la primera lectura en cada pos AU de clase P.
La figura 23 muestra cómo la Tabla de Índices Locales en el encabezado de la capa es un vector de punteros a las AU en la carga útil.
La figura 24 muestra un ejemplo de Tabla de Índices Locales.
La figura 25 muestra la relación funcional entre la Tabla Maestra de Índice y las Tablas de Índices Locales La figura 26 muestra cómo las Unidades de Acceso están compuestas por bloques de datos que pertenecen a varias capas. Las capas están compuestas por Bloques subdivididos en Paquetes.
La figura 27 muestra cómo una Unidad de Acceso Genómico de tipo 1 (que contiene información de posición, emparejamiento, complemento inverso y longitud de lectura) se empaqueta y encapsula en un Múltiplex de Datos Genómicos.
La figura 28 muestra cómo las Unidades de Acceso están compuestas por un encabezado y bloques multiplexados que pertenecen a una o más capas de datos homogéneos. Cada bloque puede estar compuesto por uno o más paquetes que contienen los descriptores reales de la información genómica.
La figura 29 muestra la estructura de las Unidades de Acceso de tipo 0 que no necesitan referirse a ninguna información procedente de otras unidades de acceso para ser accedidas o descodificadas y accedidas.
La figura 30 muestra la estructura de las Unidades de Acceso de tipo 1.
La figura 31 muestra la estructura de las Unidades de Acceso de tipo 2 que contienen datos que se refieren a una unidad de acceso de tipo 1. Estas son las posiciones de N en las lecturas codificadas.
La figura 32 muestra la estructura de las Unidades de Acceso de tipo 3 que contienen datos que se refieren a una unidad de acceso de tipo 1. Estas son las posiciones y tipos de faltas de coincidencia en las lecturas codificadas.
La figura 33 muestra la estructura de las Unidades de Acceso de tipo 4 que contienen datos que se refieren a una unidad de acceso de tipo 1. Estas son las posiciones y tipos de faltas de coincidencia en las lecturas codificadas.
La figura 34 muestra los primeros cinco tipos de Unidades de Acceso.
La figura 35 muestra que las Unidades de Acceso de tipo 1 se refieren a Unidades de Acceso de tipo 0 que se van a descodificar.
La figura 36 muestra que las Unidades de Acceso de tipo 2 se refieren a Unidades de Acceso de tipo 0 y 1 que se descodificarán.
La figura 37 muestra que las Unidades de Acceso de tipo 3 se refieren a Unidades de Acceso de tipo 0 y 1 que se descodificarán.
La figura 38 muestra que las Unidades de Acceso de tipo 4 se refieren a Unidades de Acceso de tipo 0 y 1 que se descodificarán.
La figura 39 muestra las Unidades de Acceso requeridas para descodificar lecturas de secuencia con faltas de coincidencia mapeadas en el segundo segmento de la secuencia de referencia (AU 0-2).
La figura 40 muestra cómo los datos de secuencia genómica sin procesar que están disponibles se pueden agregar de manera gradual a los datos genómicos precodificados.
La figura 41 muestra cómo una estructura de datos basada en Unidades de Acceso permite que el análisis de datos genómicos comience antes de que se complete el proceso de secuenciación.
La figura 42 muestra cómo los nuevos análisis realizados en datos existentes pueden implicar que las lecturas se mueven de las AU de tipo 4 a las de tipo 3.
La figura 43 muestra cómo los datos de análisis recién generados se encapsulan en una nueva AU de tipo 6 y se crea un índice correspondiente en la MIT.
La figura 44 muestra cómo transcodificar datos debido a la publicación de una nueva secuencia de referencia (genoma).
La figura 45 muestra cómo las lecturas mapeadas a una nueva región genómica con mejor calidad (por ejemplo, sin indeles) se mueven de la AU de tipo 4 a la AU de tipo 3
La figura 46 muestra cómo, en caso de que se encuentre una nueva ubicación de mapeo (por ejemplo, con menos faltas de coincidencia), las lecturas relacionadas pueden moverse de una AU a otra del mismo tipo.
La figura 47 muestra cómo se puede aplicar el cifrado selectivo en las Unidades de Acceso de Tipo 4 solo porque contienen la información sensible que se va a proteger.
La figura 48 muestra la encapsulación de datos en un múltiplex genómico en el que uno o más conjuntos de datos genómicos 482-483 contienen flujos genómicos 484 y flujos de Listas de Conjuntos de Datos Genómicos 481, Tablas de Mapeo de Conjuntos de Datos Genómicos 485 y Tablas de Mapeo de Identificadores de Referencia 487. Cada flujo genómico está compuesto por un Encabezado 488 y Unidades de Acceso 486. Las Unidades de Acceso encapsulan Bloques 489 que están compuestos por Paquetes 4810.
La figura 49 muestra cómo se procesan datos de secuencia genómica sin procesar o datos genómicos alineados para encapsularlos en un Múltiplex Genómico. Las etapas de alineación, realineación y ensamblaje pueden ser necesarias para preparar los datos para la codificación. Las capas generadas están encapsuladas en Unidades de Acceso y multiplexadas por el Multiplexor Genómico.
La figura 50 muestra cómo un desmultiplexor genómico (501) extrae capas de Unidades de Acceso del Múltiplex Genómico, un descodificador por tipo de AU (502) extrae los descriptores genómicos que luego se descodifican (503) en varios formatos genómicos, tales como, por ejemplo, FASTQ y SAM/BAM.
Descripción detallada
La presente solicitud describe un formato de archivo de multiplexación y las unidades de acceso relevantes que se utilizarán para almacenar, transportar, acceder y procesar información genómica o proteómica en forma de secuencias de símbolos que representan moléculas.
Estas moléculas incluyen, por ejemplo, nucleótidos, aminoácidos y proteínas. Una de las piezas de información más importantes representadas como secuencia de símbolos son los datos generados por los dispositivos de secuenciación del genoma de alto rendimiento.
El genoma de cualquier organismo vivo se representa habitualmente como una serie de símbolos que expresan la cadena de ácidos nucleicos (bases) que caracterizan a ese organismo. La tecnología de secuenciación del genoma del estado de la técnica actual puede producir solo una representación fragmentada del genoma en forma de varias cadenas (hasta miles de millones) de ácidos nucleicos asociadas a metadatos (identificadores, nivel de precisión, etc.). Tales cadenas se denominan habitualmente "lecturas de secuencia" o "lecturas".
Las etapas típicas del ciclo de vida de la información genómica comprenden la Extracción de Lecturas de Secuencia, el Mapeo y Alineación, la Detección de Variantes, la Anotación de Variantes y el Análisis Funcional y Estructural (véase la figura 1).
La extracción de lecturas de secuencia es el proceso, realizado por un operador humano o una máquina, de representación de fragmentos de información genética en forma de secuencias de símbolos que representan las moléculas que componen una muestra biológica. En el caso de los ácidos nucleicos, tales moléculas se denominan "nucleótidos". Las secuencias de símbolos producidas por la extracción se denominan comúnmente como "lecturas". Esta información generalmente se codifica en la técnica anterior como archivos FASTA que incluyen un encabezado textual y una secuencia de símbolos que representan las moléculas secuenciadas.
Cuando la muestra biológica se secuencia para extraer ADN de un organismo vivo, el alfabeto se compone por los símbolos (A, C, G, T, N).
Cuando la muestra biológica se secuencia para extraer ARN de un organismo vivo, el alfabeto se compone por los símbolos (A, C, G, U, N).
En caso del conjunto de símbolos ampliado de la IUPAC, los denominados "códigos de ambigüedad" también son generados por la máquina de secuenciación, el alfabeto usado para los símbolos que componen las lecturas son (A, C, G, T, U, W, S, M, K, R, Y, B, D, H, V, N o -).
Cuando no se usan los códigos de ambigüedad de la IUPAC, se puede asociar una secuencia de puntuación de calidad a cada lectura de secuencia. En tal caso, las soluciones de la técnica anterior codifican la información resultante como un archivo FASTQ. Los dispositivos de secuenciación pueden introducir errores en las lecturas de secuencia, tales como:
1. identificación de un símbolo incorrecto (es decir, que representa un ácido nucleico diferente) para representar el ácido nucleico realmente presente en la muestra secuenciada; esto generalmente se denomina "error de sustitución" (falta de coincidencia);
2. inserción en una lectura de secuencia de símbolos adicionales que no se refieren a ningún ácido nucleico realmente presente; esto generalmente se denomina "error de inserción";
3. deleción de una lectura de secuencia de símbolos que representan ácidos nucleicos que están realmente presentes en la muestra secuenciada; esto generalmente se denomina "error de deleción";
4. recombinación de uno o más fragmentos en un único fragmento que no refleja la realidad de la secuencia de origen.
El término "cobertura" se usa en la bibliografía para cuantificar la medida en que un genoma de referencia o una parte del mismo puede ser cubierto por las lecturas de secuencia disponibles. Se dice que la cobertura es:
parcial (menos de 1X) cuando algunas partes del genoma de referencia no se mapean por ninguna lectura de secuencia disponible
simple (1X) cuando todos los nucleótidos del genoma de referencia se mapean por uno y solo un símbolo presente en las lecturas de secuencia
múltiple (2X, 3X, NX) cuando cada nucleótido del genoma de referencia se mapea múltiples veces.
La alineación de secuencias se refiere al proceso de ordenar las lecturas de secuencias al hallar regiones de similitud que pueden ser consecuencia de relaciones funcionales, estructurales o evolutivas entre las secuencias. Cuando la alineación se realiza con referencia a una secuencia de nucleótidos preexistente denominada "genoma de referencia", el proceso se denomina "mapeo". La alineación de secuencias también se puede realizar sin una secuencia preexistente (es decir, un genoma de referencia), en tales casos el proceso se conoce en la técnica anterior como alineación "de novo". Las soluciones de la técnica anterior almacenan esta información en archivos SAM, BAM o CRAM. El concepto de alinear secuencias para reconstruir un genoma parcial o completo se representa en la figura 3.
La detección de variantes (también conocida como llamada de variantes) es el proceso de traducir la salida alineada de máquinas de secuenciación del genoma (lecturas de secuencia generadas por dispositivos NGS y alineadas) a un resumen de las características únicas del organismo que se está secuenciando y que no se pueden hallar en otra secuencia preexistente o se pueden hallar solo en algunas secuencias preexistentes. Estas características se denominan "variantes" porque se expresan como diferencias entre el genoma del organismo en estudio y un genoma de referencia. Las soluciones de la técnica anterior almacenan esta información en un formato de archivo específico denominado archivo VCF.
La anotación de variantes es el proceso de asignar información funcional a las variantes genómicas identificadas por el proceso de llamada de variantes. Esto implica la clasificación de variantes de acuerdo con su relación con las secuencias de codificación en el genoma y de acuerdo con su impacto sobre la secuencia de codificación y el producto génico. En la técnica anterior, habitualmente se almacena en un archivo MAF.
El proceso de análisis de cadenas de ADN (variante, CNV = variación del número de copias, metilación, etc.) para definir su relación con las funciones y la estructura de los genes (y proteínas) se denomina análisis funcional o estructural. Existen varias soluciones diferentes en la técnica anterior para el almacenamiento de estos datos.
Formato de archivo genómico
Aspectos de la invención desvelada en el presente documento consisten en la definición de una estructura de datos comprimidos para representar, procesar, manipular y transmitir datos de secuenciación del genoma que difieren de las soluciones de la técnica anterior al menos en los siguientes aspectos:
- No se basa en ningún formato de representación de información genómica de la técnica anterior (es decir, FASTQ, SAM).
- Implementa una nueva clasificación original de los datos y metadatos genómicos de acuerdo con sus características específicas. Las lecturas de secuencia se mapean con una secuencia de referencia y se agrupan en distintas clases de acuerdo con los resultados del proceso de alineación. Esto da como resultado clases de datos con menor entropía de información que pueden codificarse de manera más eficiente aplicando diferentes algoritmos específicos de compresión.
- Define los elementos de sintaxis y el proceso de codificación/descodificación relacionado que transporta las lecturas de secuencia y la información de alineación en una representación que es más eficiente de procesar para aplicaciones de análisis posteriores.
La clasificación de las lecturas de acuerdo con el resultado del mapeo y su codificación usando los descriptores que se almacenarán en capas (capa de posición, capa de distancia pareja, capa de tipo de falta de coincidencia, etc., etc.) presenta las siguientes ventajas:
• Una reducción de la entropía de información cuando los diferentes elementos de sintaxis son modelados por un modelo de fuente específico.
• Un acceso más eficiente a los datos que ya están organizados en grupos/capas que tienen un significado específico para las etapas de análisis posteriores y a los que se puede acceder por separado e independientemente.
• La presencia de una estructura de datos modular que se puede actualizar de forma gradual accediendo solo a la información requerida sin necesidad de descodificar todo el contenido de los datos.
• La información genómica producida por máquinas de secuenciación es intrínsecamente muy redundante debido a la naturaleza de la información en sí y a la necesidad de mitigar los errores intrínsecos en el proceso de secuenciación. Esto implica que la información genética relevante que necesita ser identificada y analizada (las variaciones con respecto a una referencia) sea solo una pequeña fracción de los datos producidos. Los formatos de representación de datos genómicos de la técnica anterior no se conciben para "aislar" la información significativa en una etapa de análisis dada a partir del resto de la información para que se encuentre rápidamente disponible para las aplicaciones de análisis.
• La solución que presentan aspectos de la invención desvelada es representar datos genómicos de tal manera que cualquier porción relevante de datos esté fácilmente disponible para las aplicaciones de análisis sin la necesidad de acceder a y descomprimir la totalidad de los datos y la redundancia de los datos se reduzca de manera eficiente mediante compresión eficiente para minimizar el espacio de almacenamiento requerido y el ancho de banda de transmisión.
Los elementos clave de aspectos particulares de la invención son:
1. La especificación de un formato de archivo que "contiene" elementos de datos estructurados y selectivamente accesibles (Unidades de Acceso (AU) en forma comprimida. Dicho enfoque puede verse como lo contrario de los enfoques de la técnica anterior, SAM y BAM, por ejemplo, en los que los datos se estructuran en forma no comprimida y luego se comprime el archivo completo. Una primera ventaja clara del enfoque es poder proporcionar de manera eficiente y natural diversas formas de acceso selectivo estructurado a los elementos de datos en el dominio comprimido que es imposible o extremadamente incómodo en los enfoques de la técnica anterior.
2. La estructuración de la información genómica en "capas" específicas de metadatos y datos homogéneos presenta la considerable ventaja de permitir la definición de diferentes modelos de las fuentes de información caracterizadas por baja entropía. Tales modelos no solo pueden diferir de capa a capa, sino que también pueden diferir dentro de cada capa cuando los datos comprimidos dentro de las capas se dividen en Bloques de Datos incluidos en Unidades de Acceso. Esta estructuración permite el uso de la compresión más adecuada para cada clase de datos o metadatos y parte de ellos con ganancias significativas en la eficiencia de codificación en comparación con los enfoques de la técnica anterior.
3. La información se estructura en Unidades de Acceso (AU) de manera que cualquier subconjunto relevante de datos usado por aplicaciones de análisis genómico sea accesible de manera eficiente y selectiva por medio de interfaces apropiadas. Estas características permiten un acceso más rápido a los datos y producen un procesamiento más eficiente.
4. La definición de una Tabla Maestra de Índices y Tablas de Índices Locales permitiendo el acceso selectivo a la información portada por las capas de datos codificados (es decir, comprimidos) sin la necesidad de descodificar todo el volumen de datos comprimidos.
5. La posibilidad de realizar una realineación de datos genómicos ya alineados y comprimidos cuando es necesario volver a alinearlos frente a los genomas de referencia recién publicados al realizar una transcodificación eficiente de las porciones de datos seleccionadas en el dominio comprimido. El lanzamiento frecuente de nuevos genomas de referencia requiere actualmente un consumo de recursos y tiempo para que los procesos de transcodificación vuelvan a alinear los datos genómicos ya comprimidos y almacenados con respecto a las referencias recién publicadas porque todo el volumen de datos debe procesarse.
El procedimiento descrito en el presente documento tiene por objeto explotar el conocimiento a priori disponible sobre datos genómicos para definir un alfabeto de elementos de sintaxis con entropía reducida. En genómica, el conocimiento disponible está representado por una secuencia genómica existente, por lo general, pero no necesariamente, de la misma especie que la que se va a procesar. Como ejemplo, los genomas humanos de diferentes individuos difieren solo en una fracción del 1 %. Por otro lado, esa pequeña cantidad de datos contiene información suficiente para permitir el diagnóstico temprano, medicina personalizada, síntesis personalizada de medicamentos, etc. Realizaciones de la presente invención tienen por objeto definir un formato de representación de información genómica en el que la información relevante sea accesible y transportable de manera eficiente y se reduzca el peso de la información redundante.
Las características técnicas usadas en realizaciones de la presente invención son:
1. Descomposición de la información genómica en "capas" de metadatos homogéneos para reducir la entropía de información tanto como sea posible;
2. Definición de una Tabla Maestra de Índices y Tablas de índices locales para permitir el acceso selectivo a las capas de información codificada sin la necesidad de descodificar toda la información codificada;
3. Adopción de diferentes modelos de fuente y codificadores de entropía para codificar los elementos de sintaxis que pertenecen a diferentes capas definidas en el punto 1;
4. Correspondencia entre capas dependientes para permitir el acceso selectivo a los datos sin la necesidad de descodificar todas las capas si no es necesario;
5. Codificación diferencial con respecto a una o más secuencias de referencia adaptativas que pueden modificarse para reducir la entropía. Después de una primera codificación basada en referencias, las faltas de coincidencia registradas se pueden usar para "adaptar/modificar" las secuencias de referencia para reducir aún más la entropía de información. Este es un proceso que se puede realizar de forma iterativa siempre que la reducción de la entropía de información sea significativa.
Para resolver todos los problemas antes mencionados de la técnica anterior (en términos de acceso eficiente a posiciones aleatorias en el archivo, transmisión y almacenamiento eficientes, compresión eficiente), la presente solicitud reordena y reúne los datos que son más homogéneos y/o semánticamente significativos para la facilidad del procesamiento.
Realizaciones de la presente invención también adoptan una estructura de datos basada en el concepto de Unidad de Acceso y la multiplexación de los datos relevantes.
Los datos genómicos están estructurados y codificados en diferentes unidades de acceso. De aquí en adelante sigue una descripción de los datos genómicos que están contenidos en diferentes unidades de acceso.
Clasificación de datos genómicos
Las lecturas de secuencia generadas por máquinas de secuenciación se clasifican mediante realizaciones de la invención desvelada en 5 "Clases" de acuerdo con los resultados de la alineación con respecto a una o más secuencias o genomas de referencia.
Al alinearse con una secuencia de ADN de nucleótidos con respecto a una secuencia de referencia, los resultados posibles son cinco:
1. Se descubre que una región en la secuencia de referencia coincide con la lectura de secuencia sin ningún error (mapeo perfecto). Dicha secuencia de nucleótidos se denominará "lectura perfectamente coincidente" o se denominará "Clase P"
2. Se descubre que una región en la secuencia de referencia coincide con la lectura de secuencia con una serie de faltas de coincidencia constituidas por varias posiciones en las que la máquina de secuenciación no pudo identificar ninguna base (o nucleótido). Dichas faltas de coincidencia se denotan mediante una "N". Dichas secuencias de denominarán "lecturas no coincidentes N" o "Clase N".
3. Se descubre que una región en la secuencia de referencia coincide con la lectura de secuencia con una serie de faltas de coincidencia constituidas por varias posiciones en las que la máquina de secuenciación no pudo identificar ninguna base (o nucleótido) O se ha identificado una base diferente a la que se informó en la secuencia de referencia. Este tipo de falta de coincidencia se denomina Variación de Nucleótido Único (SNV) o Polimorfismo de Nucleótido Único (SNP). La secuencia se denominará "lecturas no coincidentes M" o "Clase M".
4. Una cuarta clase está constituida por lecturas de secuencia que presentan un tipo de falta de coincidencia que incluye las mismas faltas de coincidencia de clase M más la presencia de inserciones o deleciones (conocidas como indeles). Las inserciones están representadas por una secuencia de uno o más nucleótidos no presentes en la referencia, pero presentes en la secuencia de lectura. En la bibliografía, cuando la secuencia insertada está en los bordes de la secuencia, se denomina "recorte suave" (es decir, los nucleótidos no coinciden con la referencia, pero se mantienen en las lecturas alineadas de forma contraria a los nucleótidos de "recorte duro" que se descartan). Mantener o descartar nucleótidos es normalmente una decisión del usuario implementada como una configuración de la herramienta de alineación. Las deleciones son "agujeros" (faltan nucleótidos) en la lectura alineada con respecto a la referencia. Dichas secuencias de denominarán "lecturas no coincidentes I" o "Clase I".
5. Una quinta clase incluye todas las lecturas que ahora encuentran cualquier mapeo válido en la secuencia de referencia de acuerdo con las restricciones de alineación especificadas. Se dice que tales secuencias no están mapeadas y pertenecen a "Clase U". Las lecturas no mapeadas se pueden ensamblar en una secuencia única usando algoritmos de ensamblaje de novo. Una vez que se ha creado la nueva secuencia, las lecturas no mapeadas se pueden mapear aún más con respecto a ella y se pueden clasificar en una de las 4 clases P, N, M e I.
La estructura de datos de dichos datos genómicos requiere el almacenamiento de parámetros globales y metadatos que van a usarse por el motor de descodificación. Estos datos están estructurados en un encabezado principal descrito en la tabla a continuación.
Tabla 1 - Estructum de Encabezado Princi al
Figure imgf000010_0001
Figure imgf000011_0001
Una vez que se completa la clasificación de lecturas con la definición de las Clases, el procesamiento adicional consiste en definir un conjunto de elementos de sintaxis distintos que representan la información restante que permite la reconstrucción de la secuencia de lectura del ADN cuando se representa como mapeada en una secuencia de referencia dada. Un segmento de ADN referido a una secuencia de referencia dada puede expresarse por completo mediante:
• La posición de inicio en la secuencia de referencia pos (292).
• Un indicador que señala si la lectura debe considerarse como un complemento inverso en comparación con la referencia rcomp (293).
• Una distancia al par de pareja en caso de par de lecturas apareadas (294).
• El valor de la longitud de lectura (295) en el caso de la tecnología de secuenciación produce lecturas de longitud variable. En el caso de una longitud de lecturas constante, la longitud de lectura asociada a cada lectura puede omitirse de manera obvia y puede almacenarse en el encabezado de archivo principal.
• Para cada falta de coincidencia:
◦ Falta de coincidencia en posición nmis (300) para la clase N, snpp (311) para la clase M e indp (321) para la clase I)
◦ Tipo de falta de coincidencia (no presente en la clase N, snpt (312) en la clase M, indt (322) en la clase I) • Indicadores (296) que indican características específicas de la lectura de secuencia, tales como:
◦ molde que tiene múltiples segmentos en secuenciación
◦ cada segmento alineado de manera apropiada de acuerdo con el alineador
◦ segmento no mapeado
◦ siguiente segmento en el molde sin mapear
◦ señalización del primer o último segmento
◦ fallo en el control de calidad
◦ PCR o duplicado óptico
◦ alineación secundaria
◦ alineación suplementaria
• Cadena de nucleótidos de recorte suave (323) cuando está presente para la clase I
Esta clasificación crea grupos de descriptores (elementos de sintaxis) que se pueden usar para representar de manera unívoca lecturas de secuencias del genoma. La siguiente tabla resume los elementos de sintaxis necesarios para cada clase de lecturas alineadas.
Tabla 2 - Capas definidas por clase de datos.
P N M I
pos X X X X
par X X X X
rcomp X X X X
indicadores X X X X
rlen X X X X
nmis X
snpp X
snpt X
indp X
indt X
indc X
Las lecturas que pertenecen a la clase P se caracterizan y se pueden reconstruir perfectamente solo por una posición, una información de complemento inverso y un desplazamiento entre parejas en caso de que se hayan obtenido mediante una tecnología de secuenciación que produce pares apareados, algunos indicadores y una longitud de lectura.
La siguiente sección detalla cómo se definen estos descriptores.
Capa de descriptores de posición
En cada Unidad de Acceso, solo la posición de mapeo de la primera lectura codificada se almacena en el encabezado AU como posición absoluta en el genoma de referencia. Todas las otras posiciones se expresan como una diferencia con respecto a la posición anterior y se almacenan en una capa. Este modelado de la fuente de información, definido por la secuencia de posiciones de lectura, se caracteriza en general por una entropía reducida, en particular para procesos de secuenciación que generan resultados de cobertura alta. Una vez que se ha almacenado la posición absoluta de la primera alineación, todas las posiciones de otras lecturas se expresan como diferencia (distancia) con respecto a la primera.
Por ejemplo, la figura 4 muestra cómo después de codificar la posición de inicio de la primera alineación como posición "10000" en la secuencia de referencia, la posición de la segunda lectura que comienza en la posición 10180 se codifica como "180". Con datos de cobertura alta (> 50x), la mayoría de los descriptores del vector de posición mostrarán incidencias muy altas de valores bajos tales como 0 y 1 y otros números enteros pequeños. La figura 4 muestra cómo las posiciones de tres pares de lectura se codifican en una capa pos.
El mismo modelo de fuente se usa para las posiciones de lecturas que pertenecen a las clases N, M, P e I. Para permitir cualquier combinación de acceso selectivo a los datos, las posiciones de las lecturas que pertenecen a las cuatro clases se codifican en capas separadas tal como se representa en la Tabla I.
Capa de descriptores de emparejamiento
El descriptor de emparejamiento se almacena en la capa de par. Tal capa almacena descriptores que codifican la información necesaria para reconstruir los pares de lecturas de origen, cuando la tecnología de secuenciación empleada produce lecturas por pares. Aunque en la fecha de la divulgación de la invención, la gran mayoría de los datos de secuenciación se generan mediante el uso de una tecnología que genera lecturas apareadas, no es el caso de todas las tecnologías. Este es el motivo por el cual la presencia de esta capa no es necesaria para reconstruir toda la información de datos de secuenciación si la tecnología de secuenciación de los datos genómicos considerados no genera información de lecturas apareadas.
Definiciones:
par de pareja: lectura asociada a otra lectura en un par de lectura (por ejemplo, la lectura 2 es el par de pareja de la lectura 1 en el ejemplo de la figura 4)
distancia de emparejamiento: número de posiciones de nucleótido en la secuencia de referencia que separa una posición en la primera lectura (anclaje de emparejamiento, por ejemplo, último nucleótido de la primera lectura) desde una posición de la segunda lectura (por ejemplo, el primer nucleótido de la segunda lectura) • distancia de emparejamiento más probable (MPPD): esta es la distancia de emparejamiento más probable expresada en número de posiciones de nucleótido.
distancia de emparejamiento de posición (PPD): la PPD es un modo de expresar una distancia de emparejamiento en términos del número de lecturas que separan una lectura de su pareja respectiva presente en una capa específica del descriptor de posición.
distancia de emparejamiento de posición más probable (MPPPD): es el número más probable de lecturas que separa una lectura de su par de pareja presente en una capa específica del descriptor de posición.
error de emparejamiento de posición (PPE): se define como la diferencia entre la MPPD o la MPPPD y la posición real de la pareja.
anclaje de emparejamiento: posición del primer nucleótido leído por última vez en un par usado como referencia para calcular la distancia del par de pareja en términos de número de posiciones de nucleótido o número de posiciones de lectura.
La figura 5 muestra cómo se calcula la distancia de emparejamiento entre pares de lectura.
La capa del descriptor de par es el vector de errores de emparejamiento calculado como el número de lecturas que se deben omitir para alcanzar el par de pareja de la primera lectura de un par con respecto a la distancia de emparejamiento de descodificación definida.
La figura 6 muestra un ejemplo de cómo se calculan los errores de emparejamiento, tanto como valor absoluto como vector diferencial (caracterizado por una menor entropía para coberturas altas).
Los mismos descriptores se usan para la información de emparejamiento de las lecturas que pertenecen a las clases N, M, P e I. Con el fin de permitir el acceso selectivo a las diferentes clases de datos, la información de emparejamiento de las lecturas que pertenecen a las cuatro clases se codifica en capas diferentes tal como se representa.
Información de emparejamiento en caso de lecturas mapeadas en diferentes referencias
En el proceso de mapeo de lecturas de secuencia en una secuencia de referencia, no es raro tener la primera lectura en un par mapeado en una referencia (por ejemplo, el cromosoma 1) y la segunda en una referencia diferente (por ejemplo, el cromosoma 4). En este caso, la información de emparejamiento descrita anteriormente debe integrarse con información adicional relacionada con la secuencia de referencia usada para mapear una de las lecturas. Esto se consigue codificando
1. Un valor reservado (indicador) que indica que el par se mapea en dos secuencias diferentes (valores diferentes indican si la lectura1 o la lectura2 se mapean en la secuencia que no está codificada actualmente) 2. Un identificador de referencia único que se refiere a los identificadores de referencia codificados en la estructura del encabezado principal tal como se describe en la Tabla 1.
3. Un tercer elemento que contiene la información de mapeo sobre la referencia identificada en el punto 2 y expresada como desplazamiento con respecto a la última posición codificada.
La figura 7 proporciona un ejemplo de esta situación.
En la figura 7, dado que la Lectura 4 no se mapea en la secuencia de referencia codificada actualmente, el codificador genómico señala esta información al crear descriptores adicionales en la capa de pares. En el ejemplo que se muestra en la figura 7, la Lectura 4 del par 2 está mapeada en la referencia n.° 4 mientras que la referencia actualmente codificada es la n.° 1. Esta información se codifica usando 3 componentes:
1) Un valor especial reservado se codifica como distancia de emparejamiento (en este caso Oxffffff)
2) Un segundo descriptor proporciona una ID de referencia tal como se indica en el encabezado principal (en este caso 4)
3) El tercer elemento contiene la información de mapeo en la referencia en cuestión (170).
Capa del descriptor de complemento inverso
Cada lectura de los pares de lectura producidos por tecnologías de secuenciación puede originarse a partir de cualquiera de las cadenas del genoma de la muestra orgánica secuenciada. Sin embargo, solo una de las dos cadenas se usa como secuencia de referencia. La figura 8 muestra cómo en un par de lecturas una lectura (lectura 1) puede proceder de una cadena y la otra (lectura 2) puede proceder de la otra.
Cuando la cadena 1 se usa como secuencia de referencia, la lectura 2 puede codificarse como complemento inverso del fragmento correspondiente en la cadena 1. Esto se muestra en la figura 9.
En el caso de lecturas acopladas, cuatro son las combinaciones posibles de pares de parejas de complemento directo e inverso. Esto se muestra en la figura 10. La capa rcomp codifica las cuatro combinaciones posibles.
La misma codificación se utiliza para la información de complemento inverso de las lecturas que pertenecen a las clases P, N, M, I. Para permitir un mejor acceso selectivo a los datos, la información de complemento inverso de las lecturas que pertenecen a las cuatro clases se codifica en capas diferentes tal como se representa en la Tabla 2. Faltas de coincidencia de clase N
La clase N incluye todas las lecturas que muestran faltas de coincidencia en donde una "N" está presente en lugar de un indicador de base. Todas las otras bases coinciden perfectamente en la secuencia de referencia.
Las posiciones de N en la lectura 1 se codifican como
• posición absoluta en lectura 1 O
• como posición diferencial con respecto a la N anterior en la misma lectura (la que tenga la entropía más baja). Las posiciones de N en la lectura 2 se codifican como
• posición absoluta en la longitud de lectura 2 lectura 1 O
• posición diferencial con respecto a la N anterior (la que tenga la entropía más baja).
En la capa nmis, la codificación de cada par de lecturas se termina con un símbolo "separador" "S" especial. Esto se muestra en la figura 11.
Codificación de sustituciones (faltas de coincidencia o SNP)
Una sustitución se define como la presencia, en una lectura mapeada, de un nucleótido diferente con respecto al que está presente en la secuencia de referencia en la misma posición (véase la figura 12).
Cada sustitución puede codificarse como
• "posición" (capa snpp) y "tipo" (capa snpt). Véase la figura 13, la figura 14, la figura 16 y la figura 15. O
• "posición" solamente, pero usando una capa snpp por tipo de falta de coincidencia. Véase la figura 17 Posiciones de sustituciones
Una posición de sustitución se calcula como para los valores de la capa nmis, es decir:
En la lectura 1 las sustituciones se codifican
• como posición absoluta en la lectura 1 O
• como posición diferencial con respecto a la sustitución anterior en la misma lectura. En la lectura 2 las sustituciones se codifican
En la lectura 2 las sustituciones se codifican:
• como posición absoluta en longitud de lectura 2 lectura 1, O
• como posición diferencial con respecto a la sustitución anterior. La figura 13 muestra cómo se codifican las posiciones de las sustituciones en la capa snpp. Las posiciones de las sustituciones pueden calcularse como valores absolutos o diferenciales.
En la capa snpp, la codificación de cada par de lecturas se termina con un símbolo "separador" especial.
Descriptores de Tipos de Sustituciones
Para la clase M (e I tal como se describe en las siguientes secciones), las faltas de coincidencia se codifican mediante un índice (que se mueve de derecha a izquierda) desde el símbolo real presente en la referencia al símbolo de sustitución correspondiente presente en la lectura {A, C, G, T, N, Z}. Por ejemplo, si la lectura alineada presenta una C en lugar de una T que está presente en la misma posición en la referencia, el índice de falta de coincidencia se indicará como "4". El proceso de descodificación lee el elemento de sintaxis codificado, el nucleótido en la posición dada en la referencia y se mueve de izquierda a derecha para recuperar el símbolo descodificado. Por ejemplo, un "2" recibido para una posición donde G está presente en la referencia se descodificará como "N". La figura 14 muestra todas las posibles sustituciones y los respectivos símbolos de codificación cuando no se utilizan los códigos de ambigüedad IUPAC y la figura 15 proporciona un ejemplo de codificación de tipos de sustituciones en la capa snpt.
En caso de presencia de códigos de ambigüedad IUPAC, los índices de sustitución cambian tal como se muestra en la figura 16.
En el caso de que la codificación de los tipos de sustitución descritos anteriormente presente una alta entropía de información, un procedimiento alternativo de codificación de sustitución consiste en almacenar solo las posiciones de faltas de coincidencia en capas separadas, una por nucleótido, tal como se muestra en la figura 17.
Codificación de inserciones y deleciones
Para la clase I, las faltas de coincidencia y las deleciones se codifican mediante índices (que se mueven de derecha a izquierda) desde el símbolo real presente en la referencia al símbolo de sustitución correspondiente presente en la lectura: {A, C, G, T, N, Z}. Por ejemplo, si la lectura alineada presenta una C en lugar de una T presente en la misma posición en la referencia, el índice de falta de coincidencia será "4". En caso de que la lectura presente una deleción donde una A está presente en la referencia, el símbolo codificado será "5". El proceso de descodificación lee el elemento de sintaxis codificado, el nucleótido en la posición dada en la referencia y se mueve de izquierda a derecha para recuperar el símbolo descodificado. Por ejemplo, un "3" recibido para una posición donde G está presente en la referencia se descodificará como "Z", lo que indica la presencia de una deleción en la secuencia leída.
Las inserciones se codifican como 6, 7, 8, 9, 10 respectivamente para la A, C, G, T, N insertada.
En caso de la adopción de los códigos de ambigüedad IUPAC, el mecanismo de sustitución resulta ser exactamente el mismo, sin embargo, el vector de sustitución se extiende como: S = {A, C, G, T, N, Z, M, R, W, S, Y, K, V, H, D, B}. La figura 18 y la figura 19 muestran ejemplos de cómo codificar sustituciones, inserciones y deleciones en un par de lecturas de clase I.
Las siguientes estructuras de formato de archivo, unidades de acceso y multiplexación se desvelan en referencia a los elementos de codificación descritos anteriormente en el presente caso. Sin embargo, las unidades de acceso, el formato de archivo y la multiplexación producen la misma ventaja técnica también con otros algoritmos diferentes de modelado de fuente y compresión de datos genómicos.
Formato de archivo: acceso selectivo a regiones de datos genómicos
Tabla Maestra de Índice
Con el fin de admitir el acceso selectivo a regiones específicas de los datos alineados, la estructura de datos descrita en el presente documento implementa una herramienta de indexación denominada Tabla Maestra de Índice (MIT). Se trata de una matriz multidimensional que contiene los loci en los cuales las lecturas específicas mapean en las secuencias de referencia usadas. Los valores contenidos en la MIT son las posiciones de mapeo de la primera lectura en cada capa pos, de manera que se admite el acceso no secuencial a cada Unidad de Acceso. La MIT contiene una sección por cada clase de datos (P, N, M e I) y por cada secuencia de referencia. La MIT está contenida en el Encabezado Principal de los datos codificados. La figura 20 muestra la estructura genérica del Encabezado Principal, la figura 21 muestra una representación visual genérica de MIT y la figura 22 muestra un ejemplo de la MIT para la clase P de lecturas codificadas.
Los valores contenidos en la MIT que se representan en la figura 22 se utilizan para acceder directamente a la región de interés (y la unidad de acceso correspondiente) en el dominio comprimido.
Por ejemplo, con referencia a la figura 22, si se requiere acceder a la región comprendida entre las posiciones 150.000 y 250.000 en la referencia 2, una aplicación de descodificación saltará a la segunda referencia en la MIT y buscará los dos valores k1 y k2, de manera que k1 < 150.000 y k2 > 250.000. En donde k1 y k2 son 2 índices leídos de la MIT. En el ejemplo de la figura 22, esto resultaría en las posiciones 3 y 4 del segundo vector de la MIT. Estos valores devueltos serán usados por la aplicación de descodificación para obtener las posiciones de los datos apropiados de la Tabla de índices Locales de la capa pos, tal como se describe en la siguiente sección.
Junto con los punteros a la capa que contiene los datos que pertenecen a las cuatro clases de datos genómicos descritos anteriormente, la MIT se puede usar como un índice de metadatos adicionales y/o anotaciones agregadas a los datos genómicos durante su ciclo de vida.
Tabla de Índices Locales
Cada capa de datos descrita anteriormente tiene un prefijo con una estructura de datos denominada encabezado local. El encabezado local contiene un identificador único de la capa, un vector de contadores de Unidades de Acceso para cada secuencia de referencia, una Tabla de Índices Locales (LIT) y, opcionalmente, algunos metadatos específicos de la capa. La LIT es un vector de punteros a la posición física de los datos que pertenecen a cada AU en la carga útil de la capa. La figura 23 muestra el encabezado genérico de la capa y la carga útil donde se usa la LIT para acceder a regiones específicas de los datos codificados de una manera no secuencial.
En el ejemplo anterior, para acceder a la región 150.000 a 250.000 de lecturas alineadas en la secuencia de referencia número 2, la aplicación de descodificación recuperó las posiciones 3 y 4 de la MIT. Estos valores se utilizarán en el proceso de descodificación para acceder a los elementos 3° y 4° de la sección correspondiente de la LIT. En el ejemplo que se muestra en la figura 24, el total de contadores de Unidades de Acceso que se encuentran en el encabezado de la capa se usan para omitir los índices de la LIT relacionados con las AU relacionadas con la referencia 1 (5 en el ejemplo). Los índices que contienen las posiciones físicas de las AU solicitadas en el flujo codificado se calculan como:
la posición de los bloques de datos que pertenecen a la AU solicitada = bloques de datos que pertenecen a las AU de referencia 1 que se omitirán posición recuperada usando la MIT, es decir
Posición del primer bloque: 5 3 = 8
Posición del último bloque: 5 4 = 9
Los bloques de datos recuperados usando el mecanismo de indexación, denominado Tabla de Índices Locales, son parte de las Unidades de Acceso solicitadas.
La figura 26 muestra cómo los bloques de datos recuperados usando la MIT y la LIT componen una o más Unidades de Acceso.
Unidades de Acceso
Los datos genómicos clasificados en clases de datos y estructurados en capas comprimidas o no comprimidas se organizan en diferentes unidades de acceso.
Las Unidades de Acceso (AU) Genómicas se definen como secciones de datos genómicos (en forma comprimida o sin comprimir) que reconstruyen las secuencias de nucleótidos y/o los metadatos relevantes, y/o la secuencia de ADN/ARN (por ejemplo, la referencia virtual) y/o la anotación de datos generados por una máquina de secuenciación del genoma y/o un dispositivo de procesamiento genómico o aplicación de análisis.
Una Unidad de Acceso es un bloque de datos que se puede descodificar independientemente de otras Unidades de Acceso usando solo los datos disponibles globalmente (por ejemplo, configuración del descodificador) o utilizando información contenida en otras Unidades de Acceso. Las Unidades de Acceso contienen información de datos relacionados con datos genómicos en forma de información de posición (absoluta y/o relativa), información relacionada con el complemento inverso y, posiblemente, datos de emparejamiento y adicionales. Es posible identificar varios tipos de unidades de acceso.
Las unidades de acceso se diferencian por:
• tipo, que caracteriza la naturaleza de los datos genómicos y los conjuntos de datos que llevan y el modo en que se puede acceder a las mismas,
• orden, que proporciona un orden único a las unidades de acceso que pertenecen al mismo tipo.
Las unidades de acceso de cualquier tipo se pueden clasificar adicionalmente en diferentes "categorías".
A continuación, se incluye una lista no exhaustiva de definiciones de diferentes tipos de unidades de acceso genómicas:
1) Las unidades de acceso de tipo 0 no necesitan referirse a ninguna información procedente de otras unidades de acceso a las que se va a acceder o descodificar y acceder (véase la figura 29). Toda la información portada por los datos o los conjuntos de datos que contienen puede ser leída y procesada de forma independiente por un dispositivo de descodificación o aplicación de procesamiento.
2) Las unidades de acceso de tipo 1 contienen datos que se refieren a datos portados por unidades de acceso de tipo 0 (véase la figura 30). La lectura o descodificación y procesamiento de los datos contenidos en las unidades de acceso de tipo 1 requiere tener acceso a una o más unidades de acceso del tipo 0.
Las unidades de acceso de este tipo pueden contener información de falta de coincidencia o disimilitud o de no correspondencia con respecto a la información contenida en la unidad de acceso de tipo 0.
3) Las unidades de acceso de tipo 2, 3 y 4 contienen datos que se refieren a una unidad de acceso de tipo 1 (véase la figura 31, la figura 32 y la figura 33). La lectura o descodificación y procesamiento de los datos o conjuntos de datos contenidos en las unidades de acceso de tipo 2, 3 y 4 requieren información transportada por los datos o conjuntos de datos contenidos en unidades de acceso de tipo 0 y 1. La diferencia entre las unidades de acceso de tipo 2, 3 y 4 se basa en la naturaleza de la información que contienen.
4) Las unidades de acceso de tipo 5 contienen metadatos (por ejemplo, puntuaciones de calidad) y/o datos de anotación asociados a los datos o conjuntos de datos contenidos en la unidad de acceso del tipo 1. Las unidades de acceso de tipo 5 pueden clasificarse y etiquetarse en diferentes capas.
5) Las unidades de acceso de tipo 6 contienen datos o conjuntos de datos clasificados como datos de anotación. Las unidades de acceso de tipo 6 pueden clasificarse y etiquetarse en capas.
6) Unidades de acceso de tipos adicionales pueden extender la estructura y los mecanismos descritos en el presente caso. Como ejemplo, pero no como limitación, los resultados de la llamada de variantes genómicas, análisis estructural y funcional pueden codificarse en unidades de acceso de nuevos tipos. La organización de datos en las Unidades de Acceso descritas en el presente documento no impide que ningún tipo de datos se encapsule en Unidades de Acceso, siendo el mecanismo completamente transparente con respecto a la naturaleza de datos codificados.
Las unidades de acceso de este tipo pueden contener información de falta de coincidencia o disimilitud o de no correspondencia con respecto a la información contenida en la unidad de acceso de tipo 0.
La figura 28 muestra cómo las Unidades de Acceso están compuestas por un encabezado y una o más capas de datos homogéneos. Cada capa puede estar compuesta por uno o más bloques. Cada bloque contiene varios paquetes y los paquetes son una secuencia estructurada de los descriptores introducidos anteriormente para representar, por ejemplo, posiciones de lecturas, información de emparejamiento, información de complemento inverso, posiciones no coincidentes y tipos, etc.
Cada Unidad de Acceso puede tener un número diferente de paquetes en cada bloque, pero dentro de una Unidad de Acceso todos los bloques tienen el mismo número de paquetes.
Cada paquete de datos se puede identificar mediante la combinación de 3 identificadores X Y Z donde:
• X identifica la unidad de acceso a la que pertenece
• Y identifica el bloque al que pertenece (es decir, el tipo de datos que encapsula)
• Z es un identificador que expresa el orden del paquete con respecto a otros paquetes en el mismo bloque La figura 28 muestra un ejemplo de Unidades de Acceso y etiquetado de paquetes.
La figura 34 a la figura 38 muestran Unidades de Acceso de varios tipos, la sintaxis común para indicarlas es la siguiente: AU_T_N es una unidad de acceso de tipo T con identificador N que puede o no implicar una noción de orden según el Tipo de Unidad de Acceso. Los identificadores se utilizan para asociar de forma única las Unidades de Acceso de un tipo con aquellas de otros tipos necesarias para descodificar completamente los datos genómicos transportados.
Las unidades de acceso de cualquier tipo pueden clasificarse y etiquetarse en diferentes "categorías" de acuerdo con diferentes procesos de secuenciación. Por ejemplo, pero no como una limitación, la clasificación y el etiquetado pueden producirse cuando
- se secuencia el mismo organismo en diferentes momentos (las unidades de acceso contienen información genómica con una connotación "temporal"),
- se secuencian muestras orgánicas de diferente naturaleza de los mismos organismos (por ejemplo, piel, sangre, cabello para muestras humanas). Estas son unidades de acceso con connotación "biológica".
Las unidades de acceso de tipo 1, 2, 3 y 4 se construyen de acuerdo con el resultado de una función de coincidencia aplicada en los fragmentos de secuencia del genoma (también conocido como lecturas) con respecto a la secuencia de referencia codificada en las Unidades de Acceso de tipo 0 a las que hacen referencia. Por ejemplo, las unidades de acceso (AU) de tipo 1 (véase la figura 30) pueden contener las posiciones y los indicadores de complemento inverso de esas lecturas que dan como resultado una coincidencia perfecta (o la máxima puntuación posible correspondiente a la función de coincidencia seleccionada) cuando una función de coincidencia se aplica a regiones específicas de la secuencia de referencia codificada en AU de tipo 0. Junto con los datos contenidos en las AU de tipo 0, dicha información de función de coincidencia es suficiente para reconstruir completamente todas las lecturas de secuencia del genoma representadas por el conjunto de datos transportado por las unidades de acceso de tipo 1. Con referencia a la clasificación de datos genómicos que se describe anteriormente en el presente documento, las Unidades de Acceso de tipo 1 descritas anteriormente contendrían información relacionada con lecturas de secuencias genómicas de clase P (coincidencias perfectas).
En el caso de longitud de lecturas variables y lecturas apareadas, los datos contenidos en las AU de tipo 1, mencionados en el ejemplo anterior, deben integrarse con los datos que representan la información sobre el emparejamiento de lecturas y la longitud de lecturas para poder reconstruir completamente los datos genómicos que incluyen la asociación de pares de lecturas. Con respecto a la clasificación de datos previamente introducida en el presente documento, las capas par y rlen se codificarían en AU de tipo 1. Las funciones de coincidencia aplicadas con respecto a las unidades de acceso de tipo 1 para clasificar el contenido de AU para el tipo 2, 3 y 4 pueden proporcionar resultados tales como:
- cada secuencia contenida en la AU de tipo 1 coincide perfectamente con las secuencias contenidas en la AU de tipo 0 correspondiente a la posición especificada;
- cada secuencia contenida en la AU de tipo 2 coincide perfectamente con una secuencia contenida en la AU de tipo 0 correspondiente a la posición especificada, excepto por los símbolos "N" presentes (base no identificada por el dispositivo de secuenciación) en la secuencia en la AU de tipo 2;
- cada secuencia contenida en la AU de tipo 3 incluye variantes en forma de símbolos sustituidos (variantes) con respecto a la secuencia contenida en la AU de tipo 0 correspondiente a la posición especificada;
- cada secuencia contenida en la AU de tipo 4 incluye variantes en forma de símbolos sustituidos (variantes), inserciones y/o deleciones con respecto a la secuencia contenida en la AU de tipo 0 correspondiente a la posición especificada.
Las unidades de acceso de tipo 0 están ordenadas (por ejemplo, numeradas), pero no necesitan ser almacenadas y/o transmitidas de una manera ordenada (ventaja técnica: procesamiento paralelo/transmisión paralela, multiplexación)
Las unidades de acceso de tipo 1, 2, 3 y 4 no necesitan ser ordenadas y no necesitan ser almacenadas y/o transmitidas en una forma ordenada (ventaja técnica: procesamiento paralelo /transmisión paralela).
Efectos técnicos
El efecto técnico de estructurar información genómica en unidades de acceso como se describe en el presente caso es que los datos genómicos:
1. se puedan consultar selectivamente para acceder a:
- "categorías" específicas de datos (por ejemplo, con una connotación temporal o biológica específica) sin tener que descomprimir todos los datos genómicos o conjuntos de datos y/o los metadatos relacionados. - regiones específicas del genoma para todas las "categorías", un subconjunto de "categorías", una "categoría" (con o sin los metadatos asociados) sin la necesidad de descomprimir otras regiones del genoma
2. se pueden actualizar gradualmente con nuevos datos que pueden estar disponibles cuando:
- se realizan nuevos análisis sobre los datos genómicos o conjuntos de datos
- se generan nuevos datos genómicos o conjuntos de datos mediante la secuenciación de los mismos organismos (diferentes muestras biológicas, diferentes muestras biológicas del mismo tipo, por ejemplo, muestra de sangre, pero adquiridas en un momento diferente, etc.)
3. se pueden transcodificar eficientemente a un nuevo formato de datos en caso de
- nuevos datos genómicos o conjuntos de datos que se utilizarán como nueva referencia (por ejemplo, el nuevo genoma de referencia que lleva la AU de tipo 0)
- actualizar la especificación del formato de codificación
Con respecto a las soluciones de la técnica anterior, tales como SAM/BAM, las características técnicas indicadas anteriormente abordan los problemas de requerir que el filtrado de datos se realice en el nivel de la aplicación cuando todos los datos se hayan recuperado y descomprimido del formato codificado.
A continuación, se incluyen ejemplos de situaciones de aplicación en las que la estructura de la unidad de acceso se convierte en instrumental para una ventaja tecnológica.
Acceso selectivo
En particular, la estructura de datos desvelada basada en Unidades de Acceso de diferentes tipos permite
- extraer solo la información de lectura (datos o conjuntos de datos) de la secuencia completa de todas las "categorías" o un subconjunto (es decir, una o más capas) o una sola "categoría" sin tener que descomprimir también la información de metadatos asociada (limitación del estado de la técnica actual: SAM/BAM que ni siquiera puede admitir la distinción entre diferentes categorías o capas)
- extraer todas las lecturas alineadas en regiones específicas de la secuencia de referencia asumida para todas las categorías, subconjuntos de categorías, una sola categoría (con o sin los metadatos asociados) sin la necesidad de descomprimir también otras regiones del genoma (limitación del estado de la técnica actual: SAM/BAM);
La figura 39 muestra cómo el acceso a la información genómica mapeada en el segundo segmento de la secuencia de referencia (AU 0-2) con faltas de coincidencia solo requiere la descodificación de las AU 0-2, 1-2 y 3-2. Este es un ejemplo de acceso selectivo según un criterio relacionado con una región de mapeo (es decir, la posición en la secuencia de referencia) y un criterio relacionado con la función de coincidencia aplicada a las lecturas de la secuencia codificada con respecto a la secuencia de referencia (por ejemplo, faltas de coincidencia solo en este ejemplo).
Otra ventaja técnica es que la consulta de los datos es mucho más eficiente en términos de accesibilidad de datos y velocidad de ejecución, ya que puede basarse en el acceso y descodificación de solo "categorías" seleccionadas, regiones específicas de secuencias genómicas más largas y solo capas específicas para unidades de acceso de tipo 1, 2, 3, 4 que coinciden con los criterios de las consultas aplicadas y cualquier combinación de las mismas.
La organización de unidades de acceso de tipo 1, 2, 3, 4 en capas permite la extracción eficiente de secuencias de nucleótidos
- con variaciones específicas (por ejemplo, faltas de coincidencia, inserciones, deleciones) con respecto a uno o más genomas de referencia;
- que no mapean a ninguno de los genomas de referencia considerados;
- que mapean perfectamente en uno o más genomas de referencia;
- que mapean con uno o más niveles de precisión
Actualización gradual
Las unidades de acceso de tipo 5 y 6 permiten una fácil inserción de anotaciones sin la necesidad de desempaquetar/descodificar/descomprimir todo el archivo, lo que se suma al manejo eficiente del archivo, que es una limitación de los enfoques de la técnica anterior. Las soluciones de compresión existentes pueden tener que acceder a y procesar una gran cantidad de datos comprimidos antes de poder acceder a los datos genómicos deseados. Esto provocará un uso ineficiente del ancho de banda de RAM y un mayor consumo de energía también en las implementaciones de hardware. El consumo de energía y los problemas de acceso a la memoria pueden aliviarse usando el enfoque basado en las Unidades de Acceso que se describen en el presente caso.
El mecanismo de indexación de datos descrito en la Tabla Maestra de Índice (véase la figura 21) junto con la utilización de Unidades de Acceso permite la actualización gradual del contenido codificado como se describe a continuación.
Inserción de datos adicionales
La información genómica nueva se puede agregar periódicamente a los datos genómicos existentes por varias razones. Por ejemplo, cuando:
• Un organismo se secuencia en diferentes momentos en el tiempo;
• Varias muestras diferentes del mismo individuo se secuencian al mismo tiempo;
• Nuevos datos generados por un proceso de secuenciación (transmisión).
En las situaciones mencionadas anteriormente, la estructuración de los datos usando las Unidades de Acceso descritas en el presente caso y la estructura de datos descrita en la sección de formato de archivo permite la integración gradual de los datos recién generados sin la necesidad de volver a codificar los datos existentes. El proceso de actualización gradual se puede implementar de la siguiente manera:
1. Las AU recién generadas pueden simplemente concatenarse en el archivo con las unidades de acceso preexistentes y
2. la indexación de los datos o conjuntos de datos recién generados se incluye en la Tabla Maestra de Índice descrita en la sección de formato de archivo del presente documento. Un índice posicionará la AU recién generada en la secuencia de referencia existente, otros índices consistirán en punteros de las AU recién generadas en el archivo físico para permitir el acceso directo y selectivo a ellas.
Este mecanismo se ilustra en la figura 40, en donde los datos preexistentes codificados en 3 AU de tipo 1 y 4 AU por cada tipo de 2 a 4 se actualizan con 3 AU por tipo con datos de codificación que provienen, por ejemplo, de una nueva secuencia ejecutada para el mismo individuo.
En el caso de uso específico de transmisión de datos genómicos y conjuntos de datos en forma comprimida, la actualización gradual de un conjunto de datos preexistentes puede ser útil cuando se analizan los datos tan pronto como son generados por una máquina de secuenciación y antes de que se complete la secuenciación real. Un motor de codificación (compresor) puede ensamblar varias AU en paralelo mediante la lectura de la secuencia de "agrupación" que mapea en la misma región de la secuencia de referencia seleccionada. Una vez que la primera AU contiene un número de lecturas por encima de un umbral/parámetro preconfigurado, la AU está lista para enviarse a la aplicación de análisis. Junto con la Unidad de Acceso recién codificada, el motor de codificación (el compresor) se asegurará de que todas las Unidades de Acceso de las que depende la nueva AU ya se hayan enviado al extremo receptor o se envíen junto con ella. Por ejemplo, una AU de tipo 3 requerirá que la AU apropiada de tipo 0 y tipo 1 estén presentes en el extremo receptor para que se descodifiquen correctamente.
Por medio del mecanismo descrito, una aplicación de llamada de variantes de recepción podría comenzar a llamar variantes en la AU recibida antes de que el proceso de secuenciación se haya completado en el lado de transmisión.
En la figura 41 se representa un esquema de este proceso.
Nuevo análisis de resultados.
Durante el ciclo de vida del procesamiento del genoma, se pueden aplicar varias iteraciones del análisis del genoma en los mismos datos (por ejemplo, diferentes llamadas de variantes usando un algoritmo de procesamiento diferente). El uso de AU como se define en el presente documento y la estructura de datos descrita en la sección de formato de archivo del presente documento permite la actualización gradual de los datos comprimidos existentes con los resultados de un nuevo análisis.
Por ejemplo, un nuevo análisis realizado en datos comprimidos existentes puede producir nuevos datos en estos casos:
1. Un nuevo análisis puede modificar los resultados existentes ya asociados con los datos codificados. Este caso de uso se muestra en la figura 42 y se implementa moviendo total o parcialmente el contenido de una Unidad de Acceso de un tipo a otro. En caso de que se deban crear nuevas AU (debido a un tamaño máximo predefinido por AU), los índices relacionados en la Tabla Maestra de Índice deben crearse y el vector relacionado se ordena cuando sea necesario.
2. Los nuevos datos se producen a partir de nuevos análisis y deben estar asociados a los datos codificados existentes. En este caso, se pueden producir y concatenar nuevas AU de tipo 5 con el vector existente de AU del mismo tipo. Esto y la actualización relacionada de la Tabla Maestra de Índice se muestran en la figura 43.
Los casos de uso descritos anteriormente y representados en la figura 42 y la figura 43 están habilitados por:
1. La posibilidad de tener acceso directo solo a los datos con una calidad de mapeo deficiente (por ejemplo, AU de tipo 4);
2. La posibilidad de volver a mapear lecturas a una nueva región genómica simplemente al crear una nueva Unidad de Acceso que posiblemente pertenezca a un nuevo tipo (por ejemplo, las lecturas incluidas en una AU de tipo 4 se pueden volver a mapear a una nueva región con menos faltas de coincidencia (tipo 2-3) e incluirse en una AU recientemente creada);
3. La posibilidad de crear una AU de tipo 6 que contenga solo los resultados de análisis recién creados y/o anotaciones relacionadas. En este caso, las AU recién creadas solo requieren contener "punteros" a las Au existentes a las que hacen referencia.
Transcodificación
Los datos genómicos comprimidos pueden requerir transcodificación, por ejemplo, en las siguientes situaciones: • Publicación de nuevas secuencias de referencia;
• Uso de un algoritmo de mapeo diferente (remapeo).
Cuando los datos genómicos se mapean en un genoma de referencia pública existente, la publicación de una nueva versión de dicha secuencia de referencia o el deseo de mapear los datos usando un algoritmo de procesamiento diferente, hoy en día requiere un proceso de remapeo. Cuando se vuelven a mapear datos comprimidos usando formatos de archivo de la técnica anterior, tales como SAM o CRAM, los datos comprimidos completos deben descomprimirse en su forma "sin procesar" para ser mapeados nuevamente con referencia a la nueva secuencia de referencia disponible o usando un algoritmo de mapeo diferente. Esto es cierto incluso si la referencia recientemente publicada es solo ligeramente diferente de la anterior o si el algoritmo de mapeo diferente usado produce un mapeo que es muy cercano (o idéntico) al mapeo anterior.
La ventaja de la transcodificación de datos genómicos estructurados mediante el uso de Unidades de Acceso descritas en el presente caso es que:
1. El mapeo frente a un nuevo genoma de referencia solo requiere volver a codificar (descomprimir y comprimir) los datos de las AU que mapean las regiones del genoma que tienen cambios. Además, el usuario puede seleccionar aquellas lecturas comprimidas que, por cualquier motivo, pueden necesitar volver a mapearse, incluso si originalmente no mapean en la región modificada (esto puede suceder si el usuario cree que el mapeo anterior es de mala calidad). Este caso de uso se representa en la figura 44.
2. En caso de que el genoma de referencia recién publicado difiera del anterior solo en términos de regiones completas cambiadas a diferentes ubicaciones genómicas ("loci"), la operación de transcodificación resulta particularmente simple y eficiente. De hecho, para mover todas las lecturas mapeadas a la región "desplazada" es suficiente cambiar solo el valor de la posición absoluta contenida en el correspondiente (conjunto de) encabezado de AU. Cada encabezado de AU contiene la posición absoluta a la que se mapea la primera lectura contenida en la AU en la secuencia de referencia, mientras que todas las demás posiciones de lectura se codifican de manera diferencial con respecto a la primera. Por lo tanto, simplemente actualizando el valor de la posición absoluta de la primera lectura, todas las lecturas en la AU se mueven en consecuencia. Este mecanismo no puede implementarse mediante enfoques de estados de la técnica como CRAM y BAM porque las posiciones de los datos del genoma están codificadas en la carga útil comprimida, lo que requiere la descompresión completa y la recompresión de todos los conjuntos de datos del genoma.
3. Cuando se usa un algoritmo de mapeo diferente, es posible aplicarlo solo en una porción de las lecturas comprimidas que se consideraron mapeadas con calidad deficiente. Por ejemplo, puede ser apropiado aplicar el nuevo algoritmo de mapeo solo en lecturas que no coincidían perfectamente con el genoma de referencia. Con los formatos existentes en la actualidad, no es posible (o solo es parcialmente posible con algunas limitaciones) extraer lecturas de acuerdo con su calidad de mapeo (es decir, presencia y número de faltas de coincidencia). Si las nuevas herramientas de mapeo devuelven nuevos resultados de mapeo, las lecturas relacionadas pueden transcodificarse de una AU de otra del mismo tipo (figura 46) o de una AU de un tipo a una AU de otro tipo (figura 45).
Además, las soluciones de compresión de la técnica anterior pueden tener que acceder a y procesar una gran cantidad de datos comprimidos antes de poder acceder a los datos genómicos deseados. Esto provocará un uso ineficiente del ancho de banda de RAM y un mayor consumo de energía y en las implementaciones de hardware. El consumo de energía y los problemas de acceso a la memoria pueden aliviarse usando el enfoque basado en las Unidades de Acceso que se describen en el presente caso.
Otra ventaja de la adopción de las unidades de acceso genómicas descritas en el presente caso es la facilitación del procesamiento paralelo y la idoneidad para implementaciones de hardware. Las soluciones actuales, tales como SAM/BAM y CRAM, se concibieron para la implementación de software de una sola entrada.
Cifrado selectivo
El enfoque basado en Unidades de Acceso organizadas en varios tipos y capas, como se describe en el presente documento, permite la implementación de mecanismos de protección de contenido que de otra forma no serían posibles con soluciones monolíticas del estado de la técnica.
Un experto en la técnica sabe que la mayoría de la información genómica relacionada con el perfil genético de un organismo se basa en las diferencias (variantes) con respecto a una secuencia conocida (por ejemplo, un genoma de referencia o una población de genomas). Por lo tanto, un perfil genético individual que debe protegerse del acceso no autorizado se codificará en Unidades de Acceso de tipo 3 y 4 como se describe en el presente documento. Por lo tanto, la implementación del acceso controlado a la información genómica más sensible producida por un proceso de secuenciación y análisis puede realizarse cifrando solo la carga útil de las AU de tipo 3 y 4 (véase la figura 47 para ver un ejemplo). Esto generará ahorros significativos en términos de potencia de procesamiento y ancho de banda, ya que los recursos que consumen el proceso de cifrado se aplicarán solo en un subconjunto de datos.
Transporte de Unidades de Acceso Genómicas
Múltiplex de Datos Genómicos
Las Unidades de Acceso genómicas se pueden transportar a través de una red de comunicación dentro de un Múltiplex de Datos Genómicos. Un Múltiplex de Datos Genómicos se define como una secuencia de datos y metadatos genómicos empaquetados representados de acuerdo con la clasificación de datos desvelada como parte de realizaciones de la presente invención, transmitidos en entornos de red en los que pueden producirse errores, tales como pérdidas de paquetes.
El Múltiplex de Datos Genómicos está concebido para facilitar y hacer más eficiente el transporte de datos codificados genómicamente en diferentes entornos (por lo general entornos de red) y tiene las siguientes ventajas que no están presentes en las soluciones del estado de la técnica:
1. permite la encapsulación de un flujo o una secuencia de datos genómicos (descritos a continuación) o el Formato de Archivo Genómico generado por una herramienta de codificación en uno o más Múltiplex de Datos Genómicos, con el fin de transportarlo a través de un entorno de red y, a continuación, recuperar un flujo o formato de archivo válido e idéntico con el fin de hacer más eficiente la transmisión y el acceso a la información 2. Permite la recuperación selectiva de datos genómicos codificados de los Flujos de Datos Genómicos encapsulados, para su descodificación y presentación.
3. Permite la multiplexación de varios Conjuntos de Datos Genómicos en un único contenedor de información para el transporte y permite la desmultiplexación de un subconjunto de la información transportada en un nuevo Múltiplex de Datos Genómicos.
4. Permite la multiplexación de datos y metadatos producidos por diferentes fuentes (con el consiguiente acceso separado) y/o los procesos de secuenciación/análisis y transmite el Múltiplex de Datos Genómicos resultante en un entorno de red.
5. Admite la identificación de errores tales como pérdidas de paquetes.
6. Admite datos de reordenación adecuados que pueden llegar fuera de servicio debido a retrasos en la red, lo que hace más eficiente la transmisión de datos genómicos en comparación con las soluciones del estado de la técnica
Un ejemplo de multiplexación de datos genómicos se muestra en la figura 49.
Conjunto de Datos Genómicos
En el contexto de la presente invención, un Conjunto de Datos Genómicos se define como un conjunto estructurado de datos genómicos que incluye, por ejemplo, datos genómicos de un organismo vivo, una o más secuencias y metadatos generados por varias etapas del procesamiento de datos genómicos, o el resultado de la secuenciación genómica de un organismo vivo. Un Múltiplex de Datos Genómicos puede incluir múltiples Conjuntos de Datos Genómicos (como en una situación multicanal) donde cada conjunto de datos se refiere a un organismo diferente. El mecanismo de multiplexación de los diversos conjuntos de datos en un único Múltiplex de Datos Genómicos se rige por la información contenida en las estructuras de datos denominadas Lista de Conjuntos de Datos Genómicos (GDL) y Tabla de Mapeo de Conjuntos de Datos Genómicos (GDMT).
Lista de Conjuntos de Datos Genómicos
Una Lista de Conjuntos de Datos Genómicos (GDL) se define como una estructura de datos que enumera todos los Conjuntos de Datos Genómicos disponibles en un Múltiplex de Datos Genómicos. Cada uno de los Conjuntos de Datos Genómicos enumerados se identifica mediante un valor único denominado ID de Conjunto de Datos Genómicos (GID).
Cada Conjunto de Datos Genómicos enumerado en la GDL está asociado a:
• un Flujo de Datos Genómicos que lleva una tabla de mapeo de datos genómicos (GDMT) e identificado por un valor específico de ID de Flujo (genomic_dataset_map_SID);
• un Flujo de Datos Genómicos que lleva una Tabla de Mapeo de ID de Referencia (RIDMT) y se identifica mediante un valor específico de ID de Flujo (reference_id_map_SID).
La GDL se envía como carga útil de un único Paquete de Transporte al comienzo de una transmisión de Flujo de Datos Genómicos; luego se puede retransmitir periódicamente para permitir el acceso aleatorio al flujo.
La sintaxis de la estructura de datos GDL se proporciona en la tabla a continuación con una indicación del tipo de datos asociado a cada elemento de sintaxis.
Figure imgf000021_0002
Los elementos de sintaxis que componen la GDL descrita anteriormente tienen el siguiente significado y función.
Figure imgf000021_0001
Figure imgf000022_0001
Tabla de Mapeo de Conjuntos de Datos Genómicos
La Tabla de Mapeo de Conjuntos de Datos Genómicos (GDMT) se produce y transmite al comienzo de un proceso de transmisión (y posiblemente se retransmita, actualice o sea idéntica periódicamente para permitir la actualización de los puntos de correspondencia y las dependencias relevantes en los datos transmitidos). La GDMT se porta por un solo Paquete que sigue a la Lista de Conjuntos de Datos Genómicos y enumera los SID que identifican los Flujos de Datos Genómicos que componen un Conjunto de Datos Genómicos. La GDMT es la colección completa de todos los identificadores de Flujos de Datos Genómicos (por ejemplo, la secuencia genómica, el genoma de referencia, los metadatos, etc.) que componen un Conjunto de Datos Genómicos transportados por un Múltiplex Genómico. Una tabla de mapeo de conjuntos de datos genómicos es instrumental para permitir el acceso aleatorio a secuencias genómicas al proporcionar el identificador del flujo de datos genómicos asociados a cada conjunto de datos genómicos.
La sintaxis de la estructura de datos GDMT se proporciona en la tabla a continuación con una indicación del tipo de datos asociado a cada elemento de sintaxis.
Figure imgf000022_0002
Figure imgf000023_0001
Los elementos de sintaxis que componen la GDMT descrita anteriormente tienen el siguiente significado y función.
Figure imgf000023_0002
extension_fields son descriptores opcionales que se pueden usar para describir con más detalle un Conjunto de Datos Genómicos o un componente de Conjunto de Datos Genómicos.
Tabla de Mapeo de ID de Referencia
La Tabla de Mapeo de ID de Referencia (RIDMT) se produce y transmite al comienzo de un proceso de transmisión. La RIDMT se realiza mediante un único paquete que sigue a la Lista de Conjuntos de Datos Genómicos. La RIDMT especifica un mapeo entre los identificadores numéricos de las secuencias de referencia (REFID) contenidas en el encabezado del bloque de una unidad de acceso y los identificadores de referencia (normalmente literales) contenidos en el encabezado principal especificado en la Tabla 1.
La RIDMT puede retransmitirse periódicamente para:
• permitir la actualización de los puntos de correspondencia y las dependencias relevantes en los datos transmitidos,
• admitir la integración de nuevas secuencias de referencia agregadas a las preexistentes (por ejemplo, referencias sintéticas creadas por procesos de ensamblaje de novo)
La sintaxis de la estructura de datos RIDMT se proporciona en la tabla a continuación con una indicación del tipo de datos asociado a cada elemento de sintaxis.
Figure imgf000024_0001
Los elementos de sintaxis que componen la RIDMT descrita anteriormente tienen el siguiente significado y función.
Figure imgf000024_0002
Flujo de Datos Genómicos
Un Múltiplex de Datos Genómicos contiene uno o varios Flujos de Datos Genómicos donde cada flujo puede transportar
• estructuras de datos que contienen información de transporte (por ejemplo, Lista de Conjuntos de Datos Genómicos, Tabla de Mapeo de Conjuntos de Datos Genómicos, etc.)
• datos que pertenecen a una de las Capas de Datos Genómicos descritas en la presente divulgación.
• Metadatos relacionados con los datos genómicos
• Cualquier otro dato
Un Flujo de Datos Genómicos que contiene datos genómicos es esencialmente una versión paquetizada de una capa de datos genómicos en la que cada paquete está precedido por un encabezado que describe el contenido del paquete y cómo se relaciona con otros elementos del múltiplex.
El Formato del Flujo de Datos Genómicos descrito en el presente documento y el Formado de Archivo definido en la presente divulgación se pueden convertir mutuamente. Mientras que un formato de archivo completo se puede reconstruir en su totalidad solo después de que se hayan recibido todos los datos, en caso de transmisión por flujo continuo, una herramienta de descodificación puede reconstruir y acceder y comenzar a procesar los datos parciales en cualquier momento.
Un Flujo de Datos Genómicos está compuesto por varios Bloques de Datos Genómicos, cada uno de los cuales contiene uno o más Paquetes de Datos Genómicos. Los Bloques de Datos Genómicos (GDB) son contenedores de información genómica que forman una AU genómica. Los GDB se pueden dividir en varios Paquetes de Datos Genómicos, de acuerdo con los requisitos del canal de comunicación. Las unidades de acceso genómicas están compuestas por uno o más Bloques de Datos Genómicos que pertenecen a diferentes Flujos de Datos Genómicos. Los Paquetes de Datos Genómicos (GDP) son unidades de transmisión que componen un GDB. El tamaño del paquete normalmente se establece de acuerdo con los requisitos del canal de comunicación.
La figura 27 muestra la relación entre el Múltiplex Genómico, los flujos, las Unidades de Acceso, los Bloques y los Paquetes cuando se codifican datos pertenecientes a la clase P como se define en la presente divulgación. En este ejemplo, tres Flujos Genómicos encapsulan información sobre la posición, el emparejamiento y el complemento inverso de las lecturas de secuencia.
Los Bloques de Datos Genómicos están compuestos por un encabezado, una carga de datos comprimidos e información de relleno. La siguiente tabla proporciona un ejemplo de implementación de un encabezado GDB con una descripción de cada campo y un tipo de datos típico.
Figure imgf000025_0001
El uso de AUID, POS y BS permite al descodificador reconstruir los mecanismos de indexación de datos a los que se hace referencia como Tabla Maestra de Índice (MIT) y Tabla de Índices Locales (LIT) en la presente divulgación. En una situación de transmisión de datos, el uso de AUID y BS permite al extremo receptor recrear dinámicamente una LIT localmente, sin la necesidad de enviar datos adicionales. El uso de AUID, BS y POS permitirá recrear una MIT localmente sin la necesidad de enviar datos adicionales. Esto tiene la ventaja técnica de
• reducir la tara de codificación que podría ser grande si se transmite la LIT completa;
• evitar la necesidad de un mapeo completo entre las posiciones genómicas y las Unidades de Acceso que normalmente no está disponible en una situación de transmisión
Un Bloque de Datos Genómicos se puede dividir en uno o más Paquetes de Datos Genómicos, dependiendo de las restricciones de la capa de red, como el tamaño máximo de paquete, la tasa de pérdida de paquetes, etc. Un Paquete de Datos Genómicos está compuesto por un encabezado y una carga útil de datos genómicos codificados o cifrados como se describe en la tabla a continuación.
Figure imgf000026_0001
El Múltiplex Genómico se puede descodificar correctamente solo cuando se haya recibido al menos una Lista de Conjuntos de datos Genómicos, una Tabla de Mapeo de Conjuntos de Datos Genómicos y una Tabla de Mapeo de ID de Referencia, lo que permite mapear cada paquete con un componente específico del Conjunto de Datos Genómicos.
Proceso de Codificación Múltiplex
La figura 49 muestra cómo, antes de transformarse en las estructuras de datos presentadas en la presente divulgación, los datos de secuencia genómica sin procesar deben mapearse en una o más secuencias de referencia conocidas a priori (493). En caso de que una secuencia de referencia no esté disponible, se puede construir una referencia sintética a partir de los datos de secuencia sin procesar (490). Este proceso se conoce como ensamblaje de novo. Los datos ya alineados se pueden volver a alinear para reducir la entropía de información (492). Después de la alineación, un clasificador genómico (494) crea las clases de datos de acuerdo con una función coincidente de las lecturas de secuencia en una o más secuencias de referencia y separa los metadatos (432) (por ejemplo, valores de calidad) y los datos de anotación (431) de las secuencias genómicas. Un analizador de datos (495) genera entonces las Unidades de Acceso descritas en la presente divulgación y las envía al Multiplexor Genómico (496) que genera el Múltiplex Genómico.

Claims (14)

REIVINDICACIONES
1. Un procedimiento implementado por ordenador para la transmisión de datos genómicos como flujos de datos multiplexados que comprende:
una estructura de datos de lista de conjuntos de datos genómicos (481) para proporcionar una lista de todos los conjuntos de datos genómicos (482-483), comprendiendo dichos conjuntos de datos genómicos datos genómicos disponibles en los flujos genómicos (484);
una estructura de datos de tabla de mapeo de conjuntos de datos genómicos (485) para proporcionar el identificador de cada flujo de dichos datos genómicos asociados a cada conjunto de datos genómicos (482 -483);
en el que los conjuntos de datos genómicos se dividen en unidades de acceso accesibles aleatoriamente (486); en el que dichos flujos genómicos (484) comprenden lecturas alineadas codificadas organizadas en múltiples capas de descriptores de datos homogéneos que representan de manera unívoca lecturas de secuencias genómicas,
en el que en una capa se almacena la posición de mapeo de la primera lectura de cada unidad de acceso como posición absoluta con respecto al genoma de referencia, y
todas las otras posiciones se expresan como una diferencia con respecto a la posición anterior y se almacenan en una capa específica;
comprendiendo además dicho procedimiento:
la compresión de dichas capas de descriptores de datos homogéneos y la transmisión de dichos flujos de datos.
2. El procedimiento de la reivindicación 1, que comprende además una tabla de mapeo de ID de referencia (487) para proporcionar el mapeo entre los identificadores numéricos de las secuencias de referencia contenidas en un encabezado de bloque (291) de dichas unidades de acceso (486) y los identificadores de referencia contenidos en el encabezado principal (488) del flujo.
3. El procedimiento de la reivindicación 1, en el que dichas unidades de acceso se dividen en bloques (489).
4. El procedimiento de la reivindicación 3, en el que dichos bloques se dividen en paquetes (4810).
5. El procedimiento de cualquiera de las reivindicaciones anteriores, en el que dicha lista de conjuntos de datos genómicos comprende información para identificar el flujo asociado a cada conjunto de datos genómicos y para ser multiplexado en el flujo multiplexado.
6. El procedimiento de cualquiera de las reivindicaciones 1-4, en el que dicha tabla de mapeo de conjuntos de datos genómicos comprende información para identificar los puntos de correspondencia y dependencias relevantes entre los diversos flujos multiplexados.
7. El procedimiento de la reivindicación 6, en el que dichos diversos flujos multiplexados comprenden: la secuencia genómica, la secuencia genómica de referencia y metadatos.
8. El procedimiento de la reivindicación 1, en el que dicha tabla de mapeo de conjuntos datos genómicos se transmite en un único paquete siguiendo la lista de conjuntos de datos genómicos; preferentemente dicha tabla de mapeo de conjuntos de datos genómicos se retransmite o actualiza periódicamente para actualizar los puntos de correspondencia y las dependencias relevantes en los datos transmitidos en flujo continuo.
9. El procedimiento de la reivindicación 1, en el que dicha lista de datos genómicos (481) se envía como carga útil de un único paquete de transporte; preferentemente dicha lista de datos genómicos se retransmite periódicamente para permitir el acceso aleatorio al flujo.
10. Aparato para la transmisión de datos genómicos multiplexados que comprende medios configurados para llevar a cabo el procedimiento de cualquiera de las reivindicaciones 1-9.
11. Un medio de registro legible por ordenador que tiene registrado en el mismo un programa que comprende conjuntos de instrucciones para ejecutar el procedimiento de cualquiera de las reivindicaciones 1-9 cuando dicho programa se ejecuta en un sistema de procesamiento de datos.
12. El procedimiento de cualquiera de las reivindicaciones 1-9, en el que los datos se organizan para formar un formato de archivo.
13. Aparato para recibir datos genómicos que comprende medios para extraer unidades de acceso que comprenden datos genómicos de un conjunto de flujos de datos, transmitiéndose dichos flujos de acuerdo con el procedimiento de cualquiera de las reivindicaciones 1-9.
14. Un sistema para la transmisión de datos genómicos multiplexados que comprende un aparato para la transmisión y un aparato de recepción según las reivindicaciones 10 y 13.
ES16791321T 2016-10-11 2016-10-11 Procedimiento y sistema para la transmisión de datos bioinformáticos Active ES2867874T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/074311 WO2018068830A1 (en) 2016-10-11 2016-10-11 Method and system for the transmission of bioinformatics data

Publications (1)

Publication Number Publication Date
ES2867874T3 true ES2867874T3 (es) 2021-10-21

Family

ID=57241051

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16791321T Active ES2867874T3 (es) 2016-10-11 2016-10-11 Procedimiento y sistema para la transmisión de datos bioinformáticos

Country Status (19)

Country Link
US (1) US20200051668A1 (es)
EP (1) EP3526712B1 (es)
JP (1) JP6949970B2 (es)
KR (1) KR20190062543A (es)
CN (1) CN110178183B (es)
AU (1) AU2016426572A1 (es)
BR (1) BR112019007313A2 (es)
CA (1) CA3039692A1 (es)
CL (1) CL2019000955A1 (es)
CO (1) CO2019003580A2 (es)
EA (1) EA201990931A1 (es)
ES (1) ES2867874T3 (es)
IL (1) IL265907A (es)
MX (1) MX2019004126A (es)
PE (1) PE20191059A1 (es)
PH (1) PH12019500795A1 (es)
PL (1) PL3526712T3 (es)
SG (1) SG11201903174SA (es)
WO (1) WO2018068830A1 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10554220B1 (en) 2019-01-30 2020-02-04 International Business Machines Corporation Managing compression and storage of genomic data
WO2020231590A1 (en) * 2019-05-14 2020-11-19 Blayne Lequeux Healthcare data cloud system, server and method
EP3896698A1 (en) 2020-04-15 2021-10-20 Genomsys SA Method and system for the efficient data compression in mpeg-g

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4852313B2 (ja) * 2006-01-20 2012-01-11 富士通株式会社 ゲノム解析プログラム、該プログラムを記録した記録媒体、ゲノム解析装置およびゲノム解析方法
EP2555186A4 (en) * 2010-03-31 2014-04-16 Korea Electronics Telecomm CODING METHOD AND DEVICE AND DECODING METHOD AND DEVICE
EP2544113A1 (en) * 2011-07-05 2013-01-09 Koninklijke Philips Electronics N.V. Genomic/proteomic sequence representation, visualization, comparison and reporting using a bioinformatics character set and a mapped bioinformatics font
KR101922129B1 (ko) * 2011-12-05 2018-11-26 삼성전자주식회사 차세대 시퀀싱을 이용하여 획득된 유전 정보를 압축 및 압축해제하는 방법 및 장치
CA2858686C (en) * 2011-12-08 2018-10-02 Five3 Genomics, Llc Distributed system providing dynamic indexing and visualization of genomic data
US20140108323A1 (en) * 2012-10-12 2014-04-17 Bonnie Berger Leighton Compressively-accelerated read mapping
WO2014113736A1 (en) * 2013-01-17 2014-07-24 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
CN103971694B (zh) * 2013-01-29 2016-12-28 华为技术有限公司 带宽扩展频带信号的预测方法、解码设备
CN103336916B (zh) * 2013-07-05 2016-04-06 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
NL2012222C2 (en) * 2014-02-06 2015-08-10 Genalice B V A method of storing/reconstructing a multitude of sequences in/from a data storage structure.
US10902937B2 (en) * 2014-02-12 2021-01-26 International Business Machines Corporation Lossless compression of DNA sequences
US10116632B2 (en) * 2014-09-12 2018-10-30 New York University System, method and computer-accessible medium for secure and compressed transmission of genomic data
US11789906B2 (en) * 2014-11-19 2023-10-17 Arc Bio, Llc Systems and methods for genomic manipulations and analysis
RU2753245C2 (ru) * 2014-11-25 2021-08-12 Конинклейке Филипс Н.В. Защищенная передача геномных данных
US10394763B2 (en) * 2015-05-19 2019-08-27 Samsung Electronics Co., Ltd. Method and device for generating pileup file from compressed genomic data
US11393559B2 (en) * 2016-03-09 2022-07-19 Sophia Genetics S.A. Methods to compress, encrypt and retrieve genomic alignment data

Also Published As

Publication number Publication date
JP2019537170A (ja) 2019-12-19
CO2019003580A2 (es) 2019-08-30
KR20190062543A (ko) 2019-06-05
CL2019000955A1 (es) 2019-08-23
US20200051668A1 (en) 2020-02-13
SG11201903174SA (en) 2019-05-30
CN110178183A (zh) 2019-08-27
EP3526712B1 (en) 2021-03-24
IL265907A (en) 2019-06-30
AU2016426572A1 (en) 2019-06-06
PE20191059A1 (es) 2019-08-06
WO2018068830A1 (en) 2018-04-19
EP3526712A1 (en) 2019-08-21
EA201990931A1 (ru) 2019-11-29
PH12019500795A1 (en) 2019-12-02
WO2018068830A9 (en) 2018-08-30
CA3039692A1 (en) 2018-04-19
BR112019007313A2 (pt) 2019-09-17
PL3526712T3 (pl) 2021-12-13
MX2019004126A (es) 2019-06-12
CN110178183B (zh) 2023-11-21
JP6949970B2 (ja) 2021-10-13

Similar Documents

Publication Publication Date Title
CN110506272B (zh) 用于访问以访问单元结构化的生物信息数据的方法和装置
ES2922420T3 (es) Estructuras de datos eficientes para la representación de información bioinformática
US11386979B2 (en) Method and system for storing and accessing bioinformatics data
ES2867874T3 (es) Procedimiento y sistema para la transmisión de datos bioinformáticos
KR102421458B1 (ko) 액세스 유닛으로 구조화된 생물정보학 데이터에 액세스하기 위한 방법 및 장치
ES2947521T3 (es) Procedimiento y aparato para una representación compacta de datos bioinformáticos
AU2018221458A1 (en) Method and apparatus for the compact representation of bioinformatics data using multiple genomic descriptors
ES2960009T3 (es) Método y sistemas para la compresión eficiente de lecturas de secuencias genómica