ES2930699A1

ES2930699A1 - Metodo de analisis genomico en una plataforma bioinformatica

Info

Publication number: ES2930699A1
Application number: ES202130535A
Authority: ES
Inventors: Carreres Javier Echevarria; Lopez Luis Izquierdo
Original assignee: Veritas Intercontinental S L
Current assignee: Veritas Intercontinental S L
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-12-20
Also published as: WO2022258866A1

Abstract

Un método de análisis genómico implementado en una plataforma bioinformática en remoto configurado para el análisis genómico automatizado y el filtrado de variantes no descritas en personas sanas que comprende las etapas de entrada de una muestra biológica (1,2) y secuenciación (3) del ADN de la muestra biológica, tras lo que los datos se estructuran en tres ficheros fastq, sam/bam y vcf, que se caracteriza por que implementa un primer subproceso de biopipeline (4) configurado para recoger los datos de un secuenciador de ADN y transformar los datos en elementos comprensibles para un segundo subproceso de veribench (6) configurado para la inspección de los datos importados del primer subproceso de recogida y transformación de datos del secuenciador; un tercer subproceso configurado para la curación (7) y a la interpretación de una variante genómica; y un cuarto subproceso de generación de informe y distribución (8,9).

Description

DESCRIPCIÓN

MÉTODO DE ANÁLISIS GENÓMICO EN UNA PLATAFORMA BIOINFORMÁTICA

Campo de la técnica

La presente invención se refiere a una plataforma de análisis genómico que permite un análisis rápido y eficiente de los datos brutos procedentes de sistemas de secuenciación del Genoma Humano, facilitando la interpretación de las variantes y la generación de un informe personalizado.

Estado de la técnica

La secuenciación de los nucleótidos que conforman las moléculas de ADN humano permite la identificación de variantes en el material genético. En este aspecto, la secuenciación “Sanger” en los años 70 del siglo XX supuso un hito en el análisis de la Genética Humana y es considerado como el origen de la era genómica.

Tras el descubrimiento de la secuenciación surgen las plataformas de secuenciación de alto rendimiento o nueva generación (NGS) que tienen la capacidad de analizar en paralelo y de forma masiva, millones de fragmentos de ADN en un único proceso de secuenciación. Esta nueva tecnología eleva el rendimiento, reduciendo el coste del análisis, aportando ventajas adicionales respecto de los sistemas de secuenciación genómica previos.

A partir de este momento, con la finalidad de mejorar el rendimiento del diagnóstico genético, los laboratorios de análisis comienzan a desarrollar paneles NGS que permiten el análisis en paralelo de múltiples genes o regiones seleccionadas del ADN, que se relacionan con fenotipos parecidos o solapantes. Estos paneles proporcionan un primer método de diagnóstico genético y, en los casos que no se detecta ninguna alteración en los genes analizados, el facultativo determinará si amplía el estudio realizando la secuenciación del exoma (WES) o del genoma completo (WGS).

Las técnicas de secuenciación NGS generan, principalmente, tres tipos de ficheros: FASTQ, SAM/BAM (alineamiento) y VCF (anotación). Estos ficheros son pesados y difíciles de manejar, por lo que se hace imprescindible una herramienta que permita optimizar al máximo la automatización de su procesamiento e interpretación de cara a poder extraer los datos de alta utilidad clínica en números elevados de muestras.

Un ejemplo de este tipo de sistemas se describe en US2020/0042735A1 que describe el almacenamiento o la transmisión de datos genómicos se realiza mediante el empleo de un conjunto de datos genómicos comprimidos estructurados en un archivo o en un flujo de datos genómicos. El acceso selectivo a los datos, o subconjuntos de datos, correspondientes a regiones genómicas específicas se logra mediante el empleo de etiquetas definidas por el usuario basadas en la clasificación de datos y un mecanismo de indexación específico.

En el documento US2020/0035332A1 se describen métodos y sistemas correspondientes para anonimizar los datos genéticos obtenidos de un paciente. Los datos de ascendencia se pueden enmascarar identificando regiones de marcadores de información de ascendencia (AIM) en los datos genéticos. Cada región AIM puede incluir la inclusión de uno o más alelos de polimorfismo de un solo nucleótido (SNP) asociados con una población de pacientes que pertenecen a una determinada ascendencia. Una vez que se identifican las regiones AIM, se pueden identificar una o más regiones que incluyen datos clínicamente relevantes. Los datos clínicamente relevantes pueden ser datos que tengan una o más variantes genéticas asociadas con una enfermedad o trastorno específico. Los datos genéticos se pueden anonimizar enmascarando o eliminando las regiones AIM que no incluyen datos clínicamente relevantes.

Finalmente, en el documento US2019/0304571A1 se describen sistemas y métodos para la gestión de datos biológicos pueden preservar interpretaciones alternativas de los datos y pueden implementar cifrado de múltiples niveles y gestión de la privacidad. Los sistemas y métodos para la gestión de datos biológicos pueden incluir una arquitectura a nivel de célula, una arquitectura a nivel de banco y bloque y / o una arquitectura de varios niveles. Los sistemas y métodos para la gestión de datos biológicos pueden incorporar definiciones, reglas y directivas y / o emplear una estructura de datos bidimensional o tridimensional.

Explicación de la invención

Es un objeto de la presente invención proporcionar una plataforma de análisis basada en la nube que simplifica el análisis de los datos de la secuenciación del genoma y exoma, y que permita una gestión integral de los ficheros de secuenciación. Por lo tanto, la presente invención está configurada para gestionar los archivos desde que son generados en el secuenciador, procediendo a la identificación y filtrado de las variantes, interpretación y generación de informe en diferentes idiomas. Además, la plataforma no requiere de ninguna instalación de software en local, puesto que se ejecuta en la nube. Este objeto se alcanza con la plataforma de acuerdo con la reivindicación 1. En las reivindicaciones dependientes se describen soluciones particulares de la invención.

Más concretamente, describe una plataforma en la nube donde se realiza el análisis de los datos procedentes de la secuenciación masiva de ADN. La plataforma cuenta con adaptación de herramientas integradas para el análisis e interpretación de variantes en los datos procedentes de la secuenciación masiva de ADN. La plataforma está orientada al análisis e interpretación de los datos genómicos procedentes de la secuenciación del exoma completo (WES - Whole Exome Sequencing) y del genoma completo (WGS - Whole Genome Sequencing), estos datos proceden de la secuenciación masiva o de nueva generación (NGS - Next Generation Sequencing) del ADN extraído de muestras biológicas. Tras secuenciación la invención realiza un filtrado del listado de variantes presentes en el ADN del paciente frente al genoma humano de referencia, reduciendo el número de variantes que requieren interpretación manual.

La presente invención se configura como una plataforma de código abierto para gestionar, procesar compartir e interpretar datos genómicos. El sistema proporciona capacidades de automatización de los procesos complejos de interpretación y clasificación genómica, así como su flexibilidad y modularidad.

Una de las ventajas de la invención es que está optimizada para el manejo de una gran cantidad de datos procedentes de la secuenciación del exoma o del genoma completo. Los ficheros que se manejan a través de la plataforma de la invención son de gran tamaño (superior a 100 Gb de datos) y está desarrollada para manejar una pluralidad de ficheros simultáneamente, llegando a cantidades totales de datos que oscilan entre decenas de terabytes y petabytes.

Breve explicación de los dibujos

Para complementar la descripción que se está realizando y con objeto de ayudar a una mejor comprensión de las características de la invención, se acompaña como parte integrante de dicha descripción, un juego de dibujos en donde con carácter ilustrativo y no limitativo, se ha representado lo siguiente:

Figura 1.- Muestra un diagrama de bloques del proceso de análisis genómico ejecutado con la presente invención

Explicación detallada de un modo de realización de la invención

Como se ha comentado anteriormente, la presente invención describe una plataforma única que automatiza el filtrado de variantes no descritas en gente sana. Este proceso se ejecuta de forma eficiente de acuerdo con el método y sistema que se describe a continuación y que está configurado para la gestión e interpretación de información genómica y clínica. Por tanto, se configura como un sistema singular de filtrado y análisis simultáneo de variantes no descritas y genotipo de ascendencia, de metabolismo ante fármacos entre otros. Además, permite el análisis de datos en tiempo real.

La figura 1 muestra el diagrama de bloques de la invención y que comprende una primera etapa de creación de la orden de entrada (1) en la plataforma, que incluye la recopilación de la documentación, la recepción y el registro de la muestra. A continuación, en el subproceso de gestión de información de laboratorio (2), se admite la muestra, se extrae el ADN y se secuencia (3). Los datos del ADN secuenciado (3) se estructuran en un subproceso de BIOPIPELINE (4).

El subproceso de BIOPIPELINE (4) está, por tanto, configurado para estructurar los datos de secuenciación de ADN (3), en donde los datos brutos de la máquina de secuenciación de ADN se convierten en archivos de tipo FASTQ. El formato FASTQ es un formato basado en texto para almacenar tanto una secuencia biológica -generalmente secuencia de nucleótidos- como sus puntuaciones de calidad correspondientes. Tanto la letra de secuencia como la puntuación de calidad están codificadas con un solo carácter ASCII para mayor brevedad, asignando las secuencias con códigos de barras a las muestras individuales en un proceso de demultiplexación. A continuación, los archivos FASTQ llenos de secuencias se alinean con los genomas de referencia hg19 y hg38. Esto da como resultado un archivo tipo bam, que es un archivo binario del archivo sam, que es un archivo de texto que contiene los datos de alineamientos de los genomas separados por tabulación. Este archivo bam, en consecuencia, contiene los datos estructurados y ordenados para su importación (5) por el proceso VERIBENCH (6).

El subproceso VERIBENCH (6) está configurado para la revisión de los datos importados (5) desde el subproceso BIOPIPELINE (4). En el subproceso VERIBENCH (6) se cargan tres tipos de datos para su inspección manual. El primer grupo de datos cargados son las variantes de Tipo I que pasan todos los umbrales descritos. El segundo son las variantes de Tipo II para cada producto, PGX, Riesgo y Rasgos. El tercero es la información sobre la calidad de la muestra y la verificación de la identidad, que ahora describiremos en detalle.

Para la verificación de la identidad del cliente se utiliza un proceso de laboratorio paralelo para garantizar que la información de la variante correcta se distribuye al paciente correcto. Se utilizan chips de genotipado para proporcionar una segunda fuente de datos físicos que se derivan del ADN del paciente.

La presente invención contiene un proceso, que denominaremos chipId, para asegurar la identidad correcta. La entrada a este método de verificación son los datos de la máquina Illumina iScan. Brevemente, la máquina iScan realiza el genotipado de forma similar al análisis de microarrays. Los datos en crudo del chip están estandarizados para utilizar un formato particular, asegurando que las columnas mantienen un orden concreto. El primer paso convierte los datos del chip a un formato vcf, utilizando scripts personalizados. El vcf generado específico para el cliente se compara entonces con el vcf (también con scripts personalizados) que se derivó de los datos del chip.

Para calcular la identidad, los datos se clasifican como verdaderos positivos (TP), falsos positivos (FP), verdaderos negativos (TN) o falsos negativos (FN). A continuación, la concordancia se expresa con la ecuación

TP/suma(FP TP TN FP)

Esto garantiza que el vcf generado es el dato verdadero. La identidad es equivalente a la concordancia. El protocolo de operación de Veribench sigue los siguientes pasos:

a) Acceder a una plataforma en remoto con las credenciales adecuadas

b) Iniciar y proporcionar los parámetros necesarios para el análisis

c) Una vez iniciado el proceso de BIOPIPELINE (4) se puede ver el inicio de esta en la ventana de ejecución actual. Una vez completado el trabajo, el indicador de color se volverá verde y el estado del trabajo se establecerá como exitoso.

d) Una vez que el trabajo se ha completado significa que el procesamiento de los datos ha comenzado con éxito y el progreso puede ser monitoreado por el inicio de sesión en remoto en la plataforma.

El proceso de curación (7) es un sistema independiente que apoya a la curación y a la interpretación de una variante. Además, permite obtener la aprobación del director del laboratorio. Lo que hace un curador es crear una conexión entre las piezas para crear algo más grande que la suma de las piezas individuales. La conexión de las piezas con un contexto crea una historia y, por lo tanto, un elemento conjunto.

La creación del informe (8) es un proceso que se activa en el momento que todos los requisitos necesarios en los anteriores pasos (curación, clasificación e interpretación) se han cumplido. Además, se consigna la firma del director del laboratorio en el informe final y la validación de todo el proceso de forma unívoca para cada informe individual y cumpliendo con la normativa regulatoria aplicable en cada caso. La plataforma se ha diseñado para admitir cualquier idioma y alfabeto.

La distribución (9) es un sistema independiente que permite el envío (o distribución) de informes, archivos, y notificaciones a través de distintos medios. En el caso que nos ocupa tenemos activados los medios de correo electrónico, repositorio en cloud, informe en pdf e informe en web en tiempo real.

Claims

REIVINDICACIONES

1. - Un método de análisis genómico implementado en una plataforma bioinformática en remoto configurado para el análisis genómico automatizado y el filtrado de variantes no descritas en personas sanas que comprende las etapas de entrada de una muestra biológica (1,2) y secuenciación (3) del ADN de la muestra biológica, tras lo que los datos se estructuran en tres ficheros fastq, sam/bam y vcf, que se caracteriza por que implementa un primer subproceso de biopipeline (4) configurado para recoger los datos de un secuenciador de ADN y transformar los datos en elementos comprensibles para un segundo subproceso de veribench (6) configurado para la inspección de los datos importados del primer subproceso de recogida y transformación de datos del secuenciador; un tercer subproceso configurado para la curación (7) y a la interpretación de una variante genómica; y un cuarto subproceso de generación de informe y distribución (8,9).

2. - El método de análisis genómico de acuerdo con la reivindicación 1 donde el subproceso de BIOPIPELINE (4) está configurado para estructurar los datos de secuenciación de ADN (3), en donde los datos brutos de la máquina de secuenciación de ADN se convierten en archivos de tipo fastq, asignando las secuencias con códigos de barras a las muestras individuales en un proceso de demultiplexación; y donde los archivos fastq se alinean con los genomas de referencia hg19 y hg38, dando como resultado un archivo binario bam, que es un archivo binario del archivo sam, que es un archivo de texto que contiene los datos de alineamientos de los genomas separados por tabulación.

3. - El método de análisis genómico de acuerdo con una cualquiera de las reivindicaciones 1 o 2 donde el proceso veribench (6) comprende un proceso configurado para asegurar la identidad correcta de la muestra en paralelo mediante chips de genotipado para proporcionar una segunda fuente de datos físicos que se derivan del ADN del paciente.

4. - El método de acuerdo con la reivindicación 3 donde los datos en crudo del chip de genotipado están estandarizados para asegurar que las columnas mantienen un orden concreto, y donde en un primer paso se convierte los datos del chip a un formato vcf, utilizando scripts personalizados; y donde el vcf generado específico para el cliente se compara entonces con el vcf, también con scripts personalizados, que se derivó de los datos del chip de genotipado.

5. - Una plataforma bioinformática en remoto que se caracteriza porque comprende medios configurados para ejecutar el método de acuerdo con una cualquiera de las reivindicaciones 1 a 4.