ES2930699A1 - Metodo de analisis genomico en una plataforma bioinformatica - Google Patents

Metodo de analisis genomico en una plataforma bioinformatica Download PDF

Info

Publication number
ES2930699A1
ES2930699A1 ES202130535A ES202130535A ES2930699A1 ES 2930699 A1 ES2930699 A1 ES 2930699A1 ES 202130535 A ES202130535 A ES 202130535A ES 202130535 A ES202130535 A ES 202130535A ES 2930699 A1 ES2930699 A1 ES 2930699A1
Authority
ES
Spain
Prior art keywords
data
thread
dna
genomic analysis
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
ES202130535A
Other languages
English (en)
Inventor
Carreres Javier Echevarria
Lopez Luis Izquierdo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Veritas Intercontinental S L
Original Assignee
Veritas Intercontinental S L
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Veritas Intercontinental S L filed Critical Veritas Intercontinental S L
Priority to ES202130535A priority Critical patent/ES2930699A1/es
Priority to PCT/ES2022/070351 priority patent/WO2022258866A1/es
Publication of ES2930699A1 publication Critical patent/ES2930699A1/es
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

Un método de análisis genómico implementado en una plataforma bioinformática en remoto configurado para el análisis genómico automatizado y el filtrado de variantes no descritas en personas sanas que comprende las etapas de entrada de una muestra biológica (1,2) y secuenciación (3) del ADN de la muestra biológica, tras lo que los datos se estructuran en tres ficheros fastq, sam/bam y vcf, que se caracteriza por que implementa un primer subproceso de biopipeline (4) configurado para recoger los datos de un secuenciador de ADN y transformar los datos en elementos comprensibles para un segundo subproceso de veribench (6) configurado para la inspección de los datos importados del primer subproceso de recogida y transformación de datos del secuenciador; un tercer subproceso configurado para la curación (7) y a la interpretación de una variante genómica; y un cuarto subproceso de generación de informe y distribución (8,9).

Description

DESCRIPCIÓN
MÉTODO DE ANÁLISIS GENÓMICO EN UNA PLATAFORMA BIOINFORMÁTICA
Campo de la técnica
La presente invención se refiere a una plataforma de análisis genómico que permite un análisis rápido y eficiente de los datos brutos procedentes de sistemas de secuenciación del Genoma Humano, facilitando la interpretación de las variantes y la generación de un informe personalizado.
Estado de la técnica
La secuenciación de los nucleótidos que conforman las moléculas de ADN humano permite la identificación de variantes en el material genético. En este aspecto, la secuenciación “Sanger” en los años 70 del siglo XX supuso un hito en el análisis de la Genética Humana y es considerado como el origen de la era genómica.
Tras el descubrimiento de la secuenciación surgen las plataformas de secuenciación de alto rendimiento o nueva generación (NGS) que tienen la capacidad de analizar en paralelo y de forma masiva, millones de fragmentos de ADN en un único proceso de secuenciación. Esta nueva tecnología eleva el rendimiento, reduciendo el coste del análisis, aportando ventajas adicionales respecto de los sistemas de secuenciación genómica previos.
A partir de este momento, con la finalidad de mejorar el rendimiento del diagnóstico genético, los laboratorios de análisis comienzan a desarrollar paneles NGS que permiten el análisis en paralelo de múltiples genes o regiones seleccionadas del ADN, que se relacionan con fenotipos parecidos o solapantes. Estos paneles proporcionan un primer método de diagnóstico genético y, en los casos que no se detecta ninguna alteración en los genes analizados, el facultativo determinará si amplía el estudio realizando la secuenciación del exoma (WES) o del genoma completo (WGS).
Las técnicas de secuenciación NGS generan, principalmente, tres tipos de ficheros: FASTQ, SAM/BAM (alineamiento) y VCF (anotación). Estos ficheros son pesados y difíciles de manejar, por lo que se hace imprescindible una herramienta que permita optimizar al máximo la automatización de su procesamiento e interpretación de cara a poder extraer los datos de alta utilidad clínica en números elevados de muestras.
Un ejemplo de este tipo de sistemas se describe en US2020/0042735A1 que describe el almacenamiento o la transmisión de datos genómicos se realiza mediante el empleo de un conjunto de datos genómicos comprimidos estructurados en un archivo o en un flujo de datos genómicos. El acceso selectivo a los datos, o subconjuntos de datos, correspondientes a regiones genómicas específicas se logra mediante el empleo de etiquetas definidas por el usuario basadas en la clasificación de datos y un mecanismo de indexación específico.
En el documento US2020/0035332A1 se describen métodos y sistemas correspondientes para anonimizar los datos genéticos obtenidos de un paciente. Los datos de ascendencia se pueden enmascarar identificando regiones de marcadores de información de ascendencia (AIM) en los datos genéticos. Cada región AIM puede incluir la inclusión de uno o más alelos de polimorfismo de un solo nucleótido (SNP) asociados con una población de pacientes que pertenecen a una determinada ascendencia. Una vez que se identifican las regiones AIM, se pueden identificar una o más regiones que incluyen datos clínicamente relevantes. Los datos clínicamente relevantes pueden ser datos que tengan una o más variantes genéticas asociadas con una enfermedad o trastorno específico. Los datos genéticos se pueden anonimizar enmascarando o eliminando las regiones AIM que no incluyen datos clínicamente relevantes.
Finalmente, en el documento US2019/0304571A1 se describen sistemas y métodos para la gestión de datos biológicos pueden preservar interpretaciones alternativas de los datos y pueden implementar cifrado de múltiples niveles y gestión de la privacidad. Los sistemas y métodos para la gestión de datos biológicos pueden incluir una arquitectura a nivel de célula, una arquitectura a nivel de banco y bloque y / o una arquitectura de varios niveles. Los sistemas y métodos para la gestión de datos biológicos pueden incorporar definiciones, reglas y directivas y / o emplear una estructura de datos bidimensional o tridimensional.
Explicación de la invención
Es un objeto de la presente invención proporcionar una plataforma de análisis basada en la nube que simplifica el análisis de los datos de la secuenciación del genoma y exoma, y que permita una gestión integral de los ficheros de secuenciación. Por lo tanto, la presente invención está configurada para gestionar los archivos desde que son generados en el secuenciador, procediendo a la identificación y filtrado de las variantes, interpretación y generación de informe en diferentes idiomas. Además, la plataforma no requiere de ninguna instalación de software en local, puesto que se ejecuta en la nube. Este objeto se alcanza con la plataforma de acuerdo con la reivindicación 1. En las reivindicaciones dependientes se describen soluciones particulares de la invención.
Más concretamente, describe una plataforma en la nube donde se realiza el análisis de los datos procedentes de la secuenciación masiva de ADN. La plataforma cuenta con adaptación de herramientas integradas para el análisis e interpretación de variantes en los datos procedentes de la secuenciación masiva de ADN. La plataforma está orientada al análisis e interpretación de los datos genómicos procedentes de la secuenciación del exoma completo (WES - Whole Exome Sequencing) y del genoma completo (WGS - Whole Genome Sequencing), estos datos proceden de la secuenciación masiva o de nueva generación (NGS - Next Generation Sequencing) del ADN extraído de muestras biológicas. Tras secuenciación la invención realiza un filtrado del listado de variantes presentes en el ADN del paciente frente al genoma humano de referencia, reduciendo el número de variantes que requieren interpretación manual.
La presente invención se configura como una plataforma de código abierto para gestionar, procesar compartir e interpretar datos genómicos. El sistema proporciona capacidades de automatización de los procesos complejos de interpretación y clasificación genómica, así como su flexibilidad y modularidad.
Una de las ventajas de la invención es que está optimizada para el manejo de una gran cantidad de datos procedentes de la secuenciación del exoma o del genoma completo. Los ficheros que se manejan a través de la plataforma de la invención son de gran tamaño (superior a 100 Gb de datos) y está desarrollada para manejar una pluralidad de ficheros simultáneamente, llegando a cantidades totales de datos que oscilan entre decenas de terabytes y petabytes.
Breve explicación de los dibujos
Para complementar la descripción que se está realizando y con objeto de ayudar a una mejor comprensión de las características de la invención, se acompaña como parte integrante de dicha descripción, un juego de dibujos en donde con carácter ilustrativo y no limitativo, se ha representado lo siguiente:
Figura 1.- Muestra un diagrama de bloques del proceso de análisis genómico ejecutado con la presente invención
Explicación detallada de un modo de realización de la invención
Como se ha comentado anteriormente, la presente invención describe una plataforma única que automatiza el filtrado de variantes no descritas en gente sana. Este proceso se ejecuta de forma eficiente de acuerdo con el método y sistema que se describe a continuación y que está configurado para la gestión e interpretación de información genómica y clínica. Por tanto, se configura como un sistema singular de filtrado y análisis simultáneo de variantes no descritas y genotipo de ascendencia, de metabolismo ante fármacos entre otros. Además, permite el análisis de datos en tiempo real.
La figura 1 muestra el diagrama de bloques de la invención y que comprende una primera etapa de creación de la orden de entrada (1) en la plataforma, que incluye la recopilación de la documentación, la recepción y el registro de la muestra. A continuación, en el subproceso de gestión de información de laboratorio (2), se admite la muestra, se extrae el ADN y se secuencia (3). Los datos del ADN secuenciado (3) se estructuran en un subproceso de BIOPIPELINE (4).
El subproceso de BIOPIPELINE (4) está, por tanto, configurado para estructurar los datos de secuenciación de ADN (3), en donde los datos brutos de la máquina de secuenciación de ADN se convierten en archivos de tipo FASTQ. El formato FASTQ es un formato basado en texto para almacenar tanto una secuencia biológica -generalmente secuencia de nucleótidos- como sus puntuaciones de calidad correspondientes. Tanto la letra de secuencia como la puntuación de calidad están codificadas con un solo carácter ASCII para mayor brevedad, asignando las secuencias con códigos de barras a las muestras individuales en un proceso de demultiplexación. A continuación, los archivos FASTQ llenos de secuencias se alinean con los genomas de referencia hg19 y hg38. Esto da como resultado un archivo tipo bam, que es un archivo binario del archivo sam, que es un archivo de texto que contiene los datos de alineamientos de los genomas separados por tabulación. Este archivo bam, en consecuencia, contiene los datos estructurados y ordenados para su importación (5) por el proceso VERIBENCH (6).
El subproceso VERIBENCH (6) está configurado para la revisión de los datos importados (5) desde el subproceso BIOPIPELINE (4). En el subproceso VERIBENCH (6) se cargan tres tipos de datos para su inspección manual. El primer grupo de datos cargados son las variantes de Tipo I que pasan todos los umbrales descritos. El segundo son las variantes de Tipo II para cada producto, PGX, Riesgo y Rasgos. El tercero es la información sobre la calidad de la muestra y la verificación de la identidad, que ahora describiremos en detalle.
Para la verificación de la identidad del cliente se utiliza un proceso de laboratorio paralelo para garantizar que la información de la variante correcta se distribuye al paciente correcto. Se utilizan chips de genotipado para proporcionar una segunda fuente de datos físicos que se derivan del ADN del paciente.
La presente invención contiene un proceso, que denominaremos chipId, para asegurar la identidad correcta. La entrada a este método de verificación son los datos de la máquina Illumina iScan. Brevemente, la máquina iScan realiza el genotipado de forma similar al análisis de microarrays. Los datos en crudo del chip están estandarizados para utilizar un formato particular, asegurando que las columnas mantienen un orden concreto. El primer paso convierte los datos del chip a un formato vcf, utilizando scripts personalizados. El vcf generado específico para el cliente se compara entonces con el vcf (también con scripts personalizados) que se derivó de los datos del chip.
Para calcular la identidad, los datos se clasifican como verdaderos positivos (TP), falsos positivos (FP), verdaderos negativos (TN) o falsos negativos (FN). A continuación, la concordancia se expresa con la ecuación
TP/suma(FP TP TN FP)
Esto garantiza que el vcf generado es el dato verdadero. La identidad es equivalente a la concordancia. El protocolo de operación de Veribench sigue los siguientes pasos:
a) Acceder a una plataforma en remoto con las credenciales adecuadas
b) Iniciar y proporcionar los parámetros necesarios para el análisis
c) Una vez iniciado el proceso de BIOPIPELINE (4) se puede ver el inicio de esta en la ventana de ejecución actual. Una vez completado el trabajo, el indicador de color se volverá verde y el estado del trabajo se establecerá como exitoso.
d) Una vez que el trabajo se ha completado significa que el procesamiento de los datos ha comenzado con éxito y el progreso puede ser monitoreado por el inicio de sesión en remoto en la plataforma.
El proceso de curación (7) es un sistema independiente que apoya a la curación y a la interpretación de una variante. Además, permite obtener la aprobación del director del laboratorio. Lo que hace un curador es crear una conexión entre las piezas para crear algo más grande que la suma de las piezas individuales. La conexión de las piezas con un contexto crea una historia y, por lo tanto, un elemento conjunto.
La creación del informe (8) es un proceso que se activa en el momento que todos los requisitos necesarios en los anteriores pasos (curación, clasificación e interpretación) se han cumplido. Además, se consigna la firma del director del laboratorio en el informe final y la validación de todo el proceso de forma unívoca para cada informe individual y cumpliendo con la normativa regulatoria aplicable en cada caso. La plataforma se ha diseñado para admitir cualquier idioma y alfabeto.
La distribución (9) es un sistema independiente que permite el envío (o distribución) de informes, archivos, y notificaciones a través de distintos medios. En el caso que nos ocupa tenemos activados los medios de correo electrónico, repositorio en cloud, informe en pdf e informe en web en tiempo real.

Claims (5)

REIVINDICACIONES
1. - Un método de análisis genómico implementado en una plataforma bioinformática en remoto configurado para el análisis genómico automatizado y el filtrado de variantes no descritas en personas sanas que comprende las etapas de entrada de una muestra biológica (1,2) y secuenciación (3) del ADN de la muestra biológica, tras lo que los datos se estructuran en tres ficheros fastq, sam/bam y vcf, que se caracteriza por que implementa un primer subproceso de biopipeline (4) configurado para recoger los datos de un secuenciador de ADN y transformar los datos en elementos comprensibles para un segundo subproceso de veribench (6) configurado para la inspección de los datos importados del primer subproceso de recogida y transformación de datos del secuenciador; un tercer subproceso configurado para la curación (7) y a la interpretación de una variante genómica; y un cuarto subproceso de generación de informe y distribución (8,9).
2. - El método de análisis genómico de acuerdo con la reivindicación 1 donde el subproceso de BIOPIPELINE (4) está configurado para estructurar los datos de secuenciación de ADN (3), en donde los datos brutos de la máquina de secuenciación de ADN se convierten en archivos de tipo fastq, asignando las secuencias con códigos de barras a las muestras individuales en un proceso de demultiplexación; y donde los archivos fastq se alinean con los genomas de referencia hg19 y hg38, dando como resultado un archivo binario bam, que es un archivo binario del archivo sam, que es un archivo de texto que contiene los datos de alineamientos de los genomas separados por tabulación.
3. - El método de análisis genómico de acuerdo con una cualquiera de las reivindicaciones 1 o 2 donde el proceso veribench (6) comprende un proceso configurado para asegurar la identidad correcta de la muestra en paralelo mediante chips de genotipado para proporcionar una segunda fuente de datos físicos que se derivan del ADN del paciente.
4. - El método de acuerdo con la reivindicación 3 donde los datos en crudo del chip de genotipado están estandarizados para asegurar que las columnas mantienen un orden concreto, y donde en un primer paso se convierte los datos del chip a un formato vcf, utilizando scripts personalizados; y donde el vcf generado específico para el cliente se compara entonces con el vcf, también con scripts personalizados, que se derivó de los datos del chip de genotipado.
5. - Una plataforma bioinformática en remoto que se caracteriza porque comprende medios configurados para ejecutar el método de acuerdo con una cualquiera de las reivindicaciones 1 a 4.
ES202130535A 2021-06-10 2021-06-10 Metodo de analisis genomico en una plataforma bioinformatica Pending ES2930699A1 (es)

Priority Applications (2)

Application Number Priority Date Filing Date Title
ES202130535A ES2930699A1 (es) 2021-06-10 2021-06-10 Metodo de analisis genomico en una plataforma bioinformatica
PCT/ES2022/070351 WO2022258866A1 (es) 2021-06-10 2022-06-06 Método de análisis genómico en una plataforma bioinformática

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES202130535A ES2930699A1 (es) 2021-06-10 2021-06-10 Metodo de analisis genomico en una plataforma bioinformatica

Publications (1)

Publication Number Publication Date
ES2930699A1 true ES2930699A1 (es) 2022-12-20

Family

ID=84425760

Family Applications (1)

Application Number Title Priority Date Filing Date
ES202130535A Pending ES2930699A1 (es) 2021-06-10 2021-06-10 Metodo de analisis genomico en una plataforma bioinformatica

Country Status (2)

Country Link
ES (1) ES2930699A1 (es)
WO (1) WO2022258866A1 (es)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013070634A1 (en) * 2011-11-07 2013-05-16 Ingenuity Systems, Inc. Methods and systems for identification of causal genomic variants
US20150286495A1 (en) * 2014-04-02 2015-10-08 International Business Machines Corporation Metadata-driven workflows and integration with genomic data processing systems and techniques
US20150379193A1 (en) * 2014-06-30 2015-12-31 QIAGEN Redwood City, Inc. Methods and systems for interpretation and reporting of sequence-based genetic tests
US20160191076A1 (en) * 2014-08-29 2016-06-30 Bonnie Berger Leighton Compressively-accelerated read mapping framework for next-generation sequencing
US20190026425A1 (en) * 2015-12-24 2019-01-24 YouGene, Inc. Curated genetic database for in silico testing, licensing and payment
US20200042735A1 (en) * 2016-10-11 2020-02-06 Genomsys Sa Method and system for selective access of stored or transmitted bioinformatics data
US20200244283A1 (en) * 2019-01-30 2020-07-30 International Business Machines Corporation Managing compression and storage of genomic data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013070634A1 (en) * 2011-11-07 2013-05-16 Ingenuity Systems, Inc. Methods and systems for identification of causal genomic variants
US20150286495A1 (en) * 2014-04-02 2015-10-08 International Business Machines Corporation Metadata-driven workflows and integration with genomic data processing systems and techniques
US20150379193A1 (en) * 2014-06-30 2015-12-31 QIAGEN Redwood City, Inc. Methods and systems for interpretation and reporting of sequence-based genetic tests
US20160191076A1 (en) * 2014-08-29 2016-06-30 Bonnie Berger Leighton Compressively-accelerated read mapping framework for next-generation sequencing
US20190026425A1 (en) * 2015-12-24 2019-01-24 YouGene, Inc. Curated genetic database for in silico testing, licensing and payment
US20200042735A1 (en) * 2016-10-11 2020-02-06 Genomsys Sa Method and system for selective access of stored or transmitted bioinformatics data
US20200244283A1 (en) * 2019-01-30 2020-07-30 International Business Machines Corporation Managing compression and storage of genomic data

Also Published As

Publication number Publication date
WO2022258866A1 (es) 2022-12-15

Similar Documents

Publication Publication Date Title
Pérez-Cobas et al. Metagenomic approaches in microbial ecology: an update on whole-genome and marker gene sequencing analyses
Bragg et al. Metagenomics using next-generation sequencing
Singh et al. Integrative toxicogenomics: Advancing precision medicine and toxicology through artificial intelligence and OMICs technology
Hemani et al. Retracted article: Detection and replication of epistasis influencing transcription in humans
Korpelainen et al. RNA-seq data analysis: a practical approach
Ellegren Sequencing goes 454 and takes large‐scale genomics into the wild
Tripathi et al. Next-generation sequencing revolution through big data analytics
US20150211054A1 (en) Haplotype resolved genome sequencing
CN107075571A (zh) 用于检测结构变异体的系统和方法
Smart et al. A novel phylogenetic approach for de novo discovery of putative nuclear mitochondrial (pNumt) haplotypes
Sackton Studying natural selection in the era of ubiquitous genomes
Wang et al. Inline index helped in cleaning up data contamination generated during library preparation and the subsequent steps
Furlani et al. Sequencing of Nucleic Acids: from the First Human Genome to Next Generation Sequencing in COVID-19 Pandemic.
ES2930699A1 (es) Metodo de analisis genomico en una plataforma bioinformatica
Olds et al. Applying a modified metabarcoding approach for the sequencing of macrofungal specimens from fungarium collections
JP2022544991A (ja) 配列決定デバイスの制御のための方法
Bock et al. Web-based analysis of (Epi-) genome data using EpiGRAPH and Galaxy
Budowle et al. The forensic genomics toolbox is expanding
Burriel et al. Conceptual schema of miRNA's expression: using efficient information systems practices to manage and analyse data about miRNA expression studies in breast cancer
Larsson et al. Computational correction of cross-contamination due to exclusion amplification barcode spreading
Baßler et al. A Bioinformatic Toolkit for Single-Cell mRNA Analysis
Peltzer Computational methods for ancient genome reconstruction
Mangalea et al. Assembly and Annotation of Viral Metagenomes from Short-Read Sequencing Data
Yan et al. IS-Seq: a bioinformatics pipeline for integration sites analysis with comprehensive abundance quantification methods
Latham Next-generation sequencing of formalin-fixed, paraffin-embedded tumor biopsies: navigating the perils of old and new technology to advance cancer diagnosis

Legal Events

Date Code Title Description
BA2A Patent application published

Ref document number: 2930699

Country of ref document: ES

Kind code of ref document: A1

Effective date: 20221220

FC2A Grant refused

Effective date: 20231207