ES2944080T3 - Método para analizar la pérdida de heterocigosidad (LoH) tras la amplificación del genoma completo del sitio de restricción determinista (DRS-WGA) - Google Patents

Método para analizar la pérdida de heterocigosidad (LoH) tras la amplificación del genoma completo del sitio de restricción determinista (DRS-WGA) Download PDF

Info

Publication number
ES2944080T3
ES2944080T3 ES20747479T ES20747479T ES2944080T3 ES 2944080 T3 ES2944080 T3 ES 2944080T3 ES 20747479 T ES20747479 T ES 20747479T ES 20747479 T ES20747479 T ES 20747479T ES 2944080 T3 ES2944080 T3 ES 2944080T3
Authority
ES
Spain
Prior art keywords
loh
loci
sample
genomic
wga
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20747479T
Other languages
English (en)
Inventor
Nicolò Manaresi
Marianna Garonzi
Alberto Ferrarini
Claudio Forcato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Menarini Silicon Biosystems SpA
Original Assignee
Menarini Silicon Biosystems SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Menarini Silicon Biosystems SpA filed Critical Menarini Silicon Biosystems SpA
Application granted granted Critical
Publication of ES2944080T3 publication Critical patent/ES2944080T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/30Phosphoric diester hydrolysing, i.e. nuclease
    • C12Q2521/301Endonuclease
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

Se describe un método para analizar la pérdida de heterocigosidad (LoH) en al menos una muestra que comprende ADN genómico, comprendiendo el método las etapas de: a. proporcionar al menos una muestra que comprende ADN genómico; b. llevar a cabo una amplificación del genoma completo del sitio de restricción determinista (DRS-WGA) de dicho ADN genómico; C. preparar una biblioteca de secuenciación paralela masiva a partir del producto de dicho DRS-WGA; d. llevar a cabo la secuenciación del genoma completo de paso bajo a una profundidad de cobertura media de < 1 en dicha biblioteca de secuenciación paralela masiva; mi. alineando las lecturas obtenidas en el paso d. en un genoma de referencia para dicha al menos una muestra; F. extraer el contenido alelo en una pluralidad de loci, donde dicha pluralidad de loci comprende loci polimórficos y/o loci heterocigóticos; gramo. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método para analizar la pérdida de heterocigosidad (LoH) tras la amplificación del genoma completo del sitio de restricción determinista (DRS-Wg A)
Campo técnico de la invención
La presente invención se refiere a un método para analizar la pérdida de heterocigosidad (LoH) en una muestra a partir de datos de secuenciación de paso bajo del genoma completo procedentes de la amplificación del genoma completo del sitio de restricción determinista (DRS-WGA), alcanzando una resolución unicelular, con o sin el uso de controles normales. El método puede aplicarse en varias aplicaciones de células individuales, como en oncología, incluido el análisis de células tumorales circulantes, y la heterogeneidad de células individuales en muestras de tejidos, o en medicina reproductiva, incluido el cribado genético preimplantacional (PGS, por sus siglas en inglés).
Antecedentes de la invención
La amplificación del genoma completo (WGA, por sus siglas en inglés) del ADN genómico unicelular es a menudo necesaria para obtener más ADN con el fin de simplificar y/o permitir diferentes tipos de análisis genéticos, incluyendo la secuenciación, la detección de SNP, etc. La WGA con una LM-PCR basada en un sitio de restricción determinista (en adelante DRS-WGA, por sus siglas en inglés) se conoce por el WO2000/017390.
Es importante destacar que se ha demostrado que la DRS-WGA es el mejor método de WGA de su clase desde muchos puntos de vista, en particular en términos de menor abandono alélico de células individuales (Borgstrom et al., 2017; Normand et al., 2016; Babayan et al., 2016; Binder et al., 2014).
Se ha utilizado un kit comercial DRS-WGA basado en LM-PCR (Ampli1™ WGA kit, Silicon Biosystems) en Hodgkinson C.L. et al., Nature Medicine 20, 897-903 (2014). En este trabajo, se realizó un análisis del número de copias mediante secuenciación de paso bajo del genoma completo en material de WGA unicelular, llevando a cabo la digestión de los adaptadores de WGA y la fragmentación antes del adaptador de ligaduras con código de barras de Illumina para la secuenciación.
En los WO2017/178655 y WO2019/016401A1 se enseña un método simplificado para preparar genotecas de secuenciación masiva en paralelo a partir de la DRS-WGA (por ejemplo, Ampli1) o MALBAC para secuenciación de paso bajo del genoma completo y elaboración de perfiles de número de copias. En Ferrarini et al., PLoSONE 13(3):e0193689 https://doi.org/10.1371/journal.pone.0193689, se ha detallado el funcionamiento del método del documento WO2017/178655 utilizando la plataforma Ion Torrent con referencia al perfilado del número de copias.
La WGA de Ampli1™ es compatible con la hibridación genómica comparativa por arrays (aCGH, por sus siglas en inglés). De hecho, varios grupos (Moehlendick B, et al., 2013, PLoS ONE 8(6): e67031; Czyz ZT, et al., 2014, PLoS ONE 9(1): e85907) demostraron que es adecuado para el análisis de alta resolución del número de copias. Sin embargo, la técnica de aCGH es cara y requiere mucha mano de obra, por lo que puede ser conveniente utilizar métodos diferentes, como la secuenciación del genoma completo de paso bajo (LPWGS, por sus siglas en inglés), para la detección de alteraciones somáticas del número de copias (CNA, por sus siglas en inglés).
Se ha demostrado que la DRS-WGA es mejor que la DOP-PCR para el análisis de perfiles de número de copias a partir de cantidades mínimas de material FFPE microdiseccionado (Stoecklein et al., Am J Pathol. 2002 Jul; 161 (1) :43-51; Arneson et al., ISRN Oncol. 2012;2012:710692. doi: 10.5402/2012/710692. Epub 2012 Mar 14.), cuando se utilizan CGH por array, CGH en metafase, así como para otros ensayos de análisis genético como la pérdida de heterocigosidad utilizando cebadores dirigidos y PCR para el análisis de microsatélites seleccionados.
El US 7,424,368 B2 enseña un método para estimar el número de copias de una región genómica en una muestra experimental, que comprende el análisis de SNP mediante micromatrices. Las técnicas de micromatrices son menos procesables y flexibles con respecto a la secuenciación de nueva generación, y no proporcionan recuentos absolutos sino sólo señales relativas. Además, hay costes de preparación relacionados con la síntesis de las sondas y la fabricación de una micromatriz, a diferencia de la secuenciación de nueva generación (NGS, por sus siglas en inglés).
Zahn H. et al., Nature Methods, volumen 14, páginas 167-173 (2017), enseña un método para preparar genotecas de células individuales masivamente paralelas sin preamplificación, y muestra la inferencia simultánea de CNA y LoH en el equivalente a granel de la línea celular SA501X3F. Sin embargo, este enfoque requiere un número relativamente grande de células individuales (48). Además, deben determinarse las posiciones de SNP heterocigotos para llevar a cabo el análisis mediante TITAN (Ha G. et al., 2014, Genome Research 24(11)).
Este método presenta las siguientes desventajas.
1. No es compatible con el uso de genotecas amplificadas de genoma completo, pero la WGA es de hecho deseable en muchos casos, por ejemplo cuando se trata de CTC, ya que puede ser necesario volver a analizar una alícuota diferente del producto de la WGA para obtener información adicional, por ejemplo, sobre SNV en oncogenes o genes supresores de tumores, a nivel de célula única de cada célula individual para diferentes fines, incluido el descubrimiento de biomarcadores o para evaluar otros biomarcadores de eficacia conocidos que no pueden inferirse simplemente mediante WGS de paso bajo.
2. En determinadas aplicaciones, como el cribado genético preimplantacional (PGS) o el diagnóstico genético preimplantacional (PGD), puede que sólo se disponga de una célula individual, por lo que el enfoque de Zahn et al. claramente no es aplicable.
3. En determinadas aplicaciones, puede disponerse de múltiples células para el análisis, pero aún así pueden ser insuficientes para proporcionar información suficiente para utilizar el enfoque de Zahn et al. Por ejemplo, el número de CTC recogidas de una extracción de sangre de 7,5 ml de pacientes metastásicos mediante el sistema CELLSEARCH es en la mayoría de los casos inferior a 10 (Allard WJ. et al., 2004, Clin Cáncer Res., 15 oct;10(20) :6897-904, véase la Tabla 2).
En oncología, se ha demostrado que la evaluación genómica de LoH es importante en varios contextos, incluida la evaluación de la denominada firma BRCAness, asociada a la eficacia de la terapia con platino y los inhibidores de la poli(ADP-ribosa) polimerasa (PARP) en varios tipos de cáncer (por ejemplo, Watkins et al., Breast Cancer Research 2014, 16:211). Además, se ha demostrado que el análisis de LoH en los loci BRCA1 y BRCA2 en el tumor de individuos con mutaciones en la línea germinal es importante para la eficacia de la terapia.
En el cribado genético preimplantacional (PGS) o en el diagnóstico genético preimplantacional (PGD), es deseable evaluar la disomía uniparental (UPD), que se produce cuando una persona recibe dos copias de un cromosoma, o de parte de un cromosoma, de un progenitor y ninguna copia del otro progenitor. Sin embargo, este tipo de información no está disponible en los flujos de trabajo estándar de LPWGS cuando se utilizan conductos bioinformáticos y métodos de análisis convencionales.
Existe la necesidad de proporcionar un método que permita inferir el estado de LoH en todo el genoma (y/o el estado de LoH específico de un gen) hasta una resolución de célula individual, superando una o más de las siguientes limitaciones inherentes al estado de la técnica:
- necesidad de secuenciación de genoma completo de alta cobertura, o equivalentemente, gran número de secuenciación de paso bajo de célula individual que produzca un equivalente masivo con alta cobertura;
- requisito obligatorio de un control normal;
- imposibilidad de volver a analizar de forma fiable una célula individual para verificar u obtener información genómica específica adicional.
Para el análisis de CTC, así como para otras aplicaciones de análisis unicelular, como el diagnóstico prenatal en blastocistos y células fetales circulantes extraídas de la sangre materna, sería deseable disponer de un método eficaz que combine la reproducibilidad y la calidad de DRS-WGA con la capacidad de analizar el LoH de todo el genoma junto con las variantes del número de copias (CNV), a partir de los mismos datos de secuenciación de paso bajo.
Además, sería deseable determinar el perfil del número de copias de todo el genoma y el LoH también a partir de cantidades mínimas de células, FFPE o biopsias de tejido.
Binder V. et al., "A new workflow for whole-genome sequencing of single human cells", Human mutation, Vol. 35, No. 10, pp. 1260-1270, 2014, divulga un flujo de trabajo que combina un método eficiente de WGA basado en PCR con adaptadorenlazador con secuenciación de segunda generación. Este enfoque permite comparar células individuales con una resolución de pares de bases. Sin embargo, este método se basa en s Np genotipados, es decir, posiciones genómicas polimórficas para las que se puede obtener una cobertura suficiente como para llamar a un genotipo con una cierta confianza.
Dicho método y el método de la presente invención tienen objetivos significativamente diferentes. El objetivo de la presente invención no es genotipar posiciones polimórficas como en Binder et al., sino inferir el estado LoH de todo el genoma (y/o el estado LoH específico de un gen) hasta la resolución de una célula individual.
El método de Binder et al. implica un número de lecturas mayor en dos órdenes de magnitud. En cambio, de acuerdo con la presente invención, la LoH puede determinarse a partir de una sola muestra, por ejemplo, a partir de 2 millones de lecturas, lo que corresponde a menos del 1 % de las lecturas utilizadas en Binder et al.
Breve descripción de la invención
Por lo tanto, uno de los objetivos de la presente invención es proporcionar un método para analizar la LoH que supere los inconvenientes de los métodos anteriores.
En particular, el objeto de la presente invención es proporcionar un método para analizar la LoH a partir de pocas células, hasta una resolución unicelular, tras la amplificación del genoma completo, que implique el uso de menos células para el análisis, menos controles normales, menos lecturas de secuenciación por célula que las generalmente descritas en la técnica.
Este objeto se consigue mediante el método definido en la reivindicación 1.
Breve descripción de los dibujos
La figura 1 muestra un diagrama de bloques que resume los pasos del método de acuerdo con la invención.
La figura 2 muestra el efecto de la representación reducida del genoma en la cobertura observada.
La figura 3 muestra gráficos de la digestión in-silico del genoma humano en diferentes sitios de restricción.
La figura 4 muestra el análisis in-silico del número de fragmentos de ADN en función de la longitud del fragmento obtenido digiriendo el genoma humano hg19 con la enzima DRS-WGA Ampli1 (MseI).
La figura 5 muestra la relación entre el espaciado y el tamaño de los fragmentos seleccionados para la secuenciación. La figura 6 muestra una representación esquemática de un ejemplo de partición basada en ventanas genómicas de pares de bases constantes.
La figura 7 muestra una representación esquemática de un ejemplo de partición basada en un número constante de loci por ventana.
La figura 8 es un gráfico que muestra el número medio de loci heterocigotos detectados en ventanas genómicas de n=1000 SNP con diferentes números de lecturas (de 1 a 9 millones). Las líneas negras verticales muestran la desviación estándar de las medias.
La figura 9 muestra una representación esquemática de la partición basada en segmentos de número de
La figura 10 muestra el caso en el que la puntuación LoH se define como el número de loci heterocigotos.
La figura 11 muestra el caso en el que la puntuación LoH se define como la proporción de loci heterocigotos sobre el total de loci en ventanas genómicas con un número constante de loci.
La figura 12 muestra el análisis ROC utilizado para la definición de un umbral de puntuación LoH, definido como el número de SNP bialélicos en una ventana de (A) n=500, (B) n=1000, (C) n=1500 SNP cubiertos por al menos 1 lectura con 1.000.000 de lecturas mapeadas.
La figura 13 muestra los valores del área bajo la curva (AUC, por sus siglas en inglés) de las características operativas del receptor (ROC, por sus siglas en inglés) para la puntuación LoH con diferentes números de lecturas mapeadas (1.000.000 - 10.000.000 de lecturas) y pureza de la muestra (10 % - 90 %).
La Figura 14 muestra datos obtenidos de genotecas de secuenciación preparadas con Ampli1 LowPass para Illumina relacionados con la selección del tamaño de los fragmentos.
La figura 15 muestra un ejemplo de detección de LoH mediante el uso de ventanas genómicas de pares de bases constantes y la aplicación de la prueba estadística de Fisher.
La figura 16 muestra un ejemplo de detección de LoH utilizando ventanas genómicas con número constante de loci. La figura 17 muestra una curva de ROC creada a partir de un conjunto de entrenamiento de 9 células individuales para la identificación de un umbral de puntuación de LoH, definido como el número de loci heterocigotos en una ventana de n=1000 SNP cubiertos por al menos 1 lectura con 1.000.000 de lecturas mapeadas.
La figura 18 muestra un gráfico de una célula individual tumoral y regiones genómicas de LoH detectadas de acuerdo con el método del Ejemplo 2 de la invención.
La figura 19 muestra un ejemplo de la detección de regiones genómicas con estado de LoH utilizando la segmentación del número de copias y la prueba de Fisher.
Definiciones
A menos que se defina de otro modo, todos los términos técnicos y científicos utilizados en la presente tienen el mismo significado que se entiende comúnmente por una persona con conocimientos ordinarios en la técnica a la que pertenece la invención. Aunque pueden utilizarse muchos métodos y materiales similares o equivalentes a los aquí descritos en la práctica o ensayo de la presente invención, a continuación, se describen preferentemente métodos y materiales. A menos que se mencione lo contrario, las técnicas descritas en la presente para su uso con la invención son metodologías estándar bien conocidas por las personas con conocimientos ordinarios en la técnica.
Con la expresión "secuenciación masiva-paralela de próxima generación (NGS o MPS)" se pretende un método de secuenciación de ADN que comprende la creación de una genoteca de moléculas de ADN separadas espacial y/o temporalmente, secuenciadas clonalmente (con o sin amplificación clonal previa). Algunos ejemplos son la plataforma Illumina (Illumina Inc), la plataforma Ion Torrent (Thermo Fisher Scientific Inc), la plataforma Pacific Biosciences, la MinIon (Oxford Nanopore Technologies Ltd).
Por la expresión "secuenciación de paso bajo del genoma completo" se entiende una secuenciación del genoma completo con una profundidad media de secuenciación menor que 1 con referencia al genoma de referencia completo.
Por la expresión "profundidad media de secuenciación" se entiende en la presente, sobre una base por muestra, el número total de bases secuenciadas, asignadas al genoma de referencia, dividido por el tamaño total del genoma de referencia. El número total de bases secuenciadas y mapeadas puede aproximarse al número de lecturas mapeadas por la longitud media de lectura.
Por la expresión "genoma de referencia" se entiende una secuencia de ADN de referencia para la especie específica. Por "locus" (plural "loc/") se entiende una posición fija en un cromosoma (en relación con el genoma de referencia). Por "locus polimórfico" se entiende un locus que tiene 2 o más alelos con una frecuencia observada superior al 1 % en una población.
Por la expresión "locus heterocigoto" se entiende un locus con 2 o más alelos observados en una muestra específica. Por "ventana genómica" se entiende un intervalo del genoma de referencia incluido en un único cromosoma, de longitud fija o variable.
Por "región genómica" se entiende un intervalo que comprende una o más ventanas genómicas adyacentes en el mismo cromosoma.
Por la expresión "genoma cubierto" se entiende la porción del genoma de referencia cubierta por al menos una lectura. Por la expresión "lectura" se entiende el fragmento de ADN secuenciado ("leído") por el secuenciador.
Por la expresión "región de número de copias" se entiende una región genómica asociada al mismo valor de número de copias.
Por "región de número de copias segmentada" se entiende una región genómica asociada al mismo valor de número de copias como resultado de un análisis bioinformático de CNA.
Por la expresión "gen supresor de tumores" se entiende un gen cuya pérdida de función, debida por ejemplo a variantes de secuencia, germinales o somáticas, se asocia con una mayor probabilidad de aparición de un tumor.
Por la expresión "coeficiente de reducción" se entiende el número total de bases de fragmentos, obtenidos por digestión in silico de un genoma de referencia de acuerdo con una enzima de restricción empleada en un DRS-WGA, comprendidos en un intervalo especificado de pares de bases, dividido por el número total de bases en el genoma de referencia. Con la expresión "pérdida de heterocigosidad" o "LoH" se designa la pérdida de uno de los alelos en una región genómica. Con la expresión "presencia de LoH" se pretende asignar la presencia de LoH (en una región genómica).
Por la expresión "contenido alélico" se entiende la composición en términos de alelos detectados en un locus.
Para simplificar, en la descripción de la invención un locus se denominará indistintamente homocigótico o monoalélico, si sólo se detecta un alelo, y heterocigótico o bialélico, en caso de presencia de al menos dos alelos, independientemente del genotipo real del locus, salvo que se indique lo contrario.
Descripción detallada de la invención
Con referencia a la Figura 1, el método de acuerdo con la presente invención para analizar la pérdida de heterocigosidad (LoH) en al menos una muestra que comprende ADN genómico comprende los siguientes pasos.
En el paso a, se proporciona al menos una muestra que comprende ADN genómico.
En el paso b, se lleva a cabo una amplificación del genoma completo en el sitio de restricción determinista (DRS-WGA) de dicho ADN genómico.
En el paso c, se prepara una genoteca de secuenciación masiva en paralelo a partir del producto de dicha DRS-WGA. En el paso d, se lleva a cabo la secuenciación del genoma completo de paso bajo a una profundidad de cobertura media de < 1, preferentemente < 0,05, más preferentemente < 0,01 en dicha genoteca de secuenciación masiva en paralelo. En el paso e, las lecturas obtenidas en el paso d. se alinean en un genoma de referencia para dicha al menos una muestra. En el paso f, se extrae el contenido alélico en una pluralidad de loci. Dicha pluralidad de loci comprende loci polimórficos y/o loci heterocigotos.
En el paso g, se asigna una puntuación LoH a al menos una ventana genómica de dicho genoma de referencia para dicha al menos una muestra en función del número de loci con al menos dos alelos diferentes en dicha pluralidad de loci. Preferentemente, el paso de selección de tamaño se realiza antes, durante o después del paso c. de preparación de una genoteca de secuenciación masiva en paralelo y el paso de preparación de una genoteca de secuenciación masiva en paralelo no incluye un paso de fragmentación aleatoria.
El paso de selección por tamaño retiene preferentemente fragmentos en el intervalo de 100 a 800 pares de bases. En ciertas realizaciones de la invención, la selección por tamaño retiene preferentemente fragmentos en el intervalo de 300 a 450 pares de bases.
En ciertas realizaciones de la invención, el pico de fragmentos retenidos en el paso de selección por tamaño se centra preferentemente en un intervalo de pares de bases de 150 pb a 600 pb; más preferentemente, el paso de selección por tamaño retiene fragmentos en el intervalo de 425 a 575 pares de bases.
Preferentemente, la al menos una ventana genómica:
- tiene una anchura constante en pares de bases, o
- tiene un número constante de dicha pluralidad de loci, o
- se selecciona del grupo formado por un cromosoma, un brazo cromosómico y una región segmentada de número de copias.
La pluralidad de loci comprende preferentemente loci polimórficos obtenidos a partir de una base de datos, como SNPdb, para el genoma de referencia de dicha al menos una muestra, u obtenidos mediante genotipado de un conjunto de muestras de referencia.
Como alternativa, la pluralidad de loci comprende preferentemente loci heterocigotos conocidos para la muestra de control. Cuando la ventana genómica tiene una anchura constante en pares de bases, o tiene un número constante de la pluralidad de loci, o la pluralidad de loci comprende loci polimórficos para el genoma de referencia de dicha muestra, la puntuación de LoH corresponde preferentemente al número de loci heterocigotos en dicha al menos una ventana genómica.
Preferentemente, la puntuación de LoH corresponde a la proporción de loci heterocigotos con respecto al número total de loci polimórficos en la al menos una ventana genómica.
La puntuación de LoH corresponde preferentemente al valor p de una prueba estadística.
La prueba estadística evalúa preferentemente la importancia de la sobrerrepresentación de loci bialélicos con respecto a las tasas de error de secuenciación y WGA o la importancia de la infrarrepresentación de loci bialélicos con respecto a una muestra de control.
La muestra de control comprende preferentemente al menos una región genómica de ploidía principal de la al menos una muestra.
La muestra de control es preferentemente una al menos una muestra normal, que se obtiene más preferentemente del mismo individuo sometido a prueba del que se obtuvo dicha al menos una muestra. En el caso de la oncología, la muestra de control es preferentemente una muestra normal (no tumoral).
En el caso de células fetales circulantes, la muestra de control es preferentemente una muestra materna. Alternativamente, cuando se dispone de una muestra paterna, puede ser una muestra paterna o una combinación de la muestra materna y paterna. La disponibilidad del genotipo materno y/o paterno puede aprovecharse para seleccionar un subconjunto de loci que se sabe que son heterocigotos en dicho control parental.
Preferentemente, si dicha puntuación de LoH supera un umbral para una ventana genómica, se dice que dicha ventana genómica está en LoH. En este caso, el método comprende más preferentemente un paso de asignación de un estado LoH a al menos una región genómica si las puntuaciones LoH para cada ventana genómica comprendida en dicha región supera dicho umbral o un paso de asignación de un estado LoH a al menos una región genómica en función del estado LoH de las ventanas genómicas comprendidas en dicha región.
Más preferentemente, la al menos una región genómica comprende un gen supresor de tumores, que se selecciona aún más preferentemente del grupo que consiste en BRCA1, BRCA2, PALB2, TP53, CDKN2A, RB1, APC, PTEN, CDKN1B, DMP1, NF1, AML1, EGR1, TGFBR1, TGFBR2 y SMAD4.
La al menos una muestra tiene preferentemente una pureza de al menos el 50 %. Más preferentemente, dicha al menos una muestra es una célula individual.
Relación unívoca entre locus y longitud de fragmento en DRS-WGA
Más en detalle, el método de acuerdo con la invención explota el hecho de que en DRS-WGA, como la WGA de Ampli1™, cada locus en el genoma está representado en la genoteca WGA sólo en fragmentos que tienen una longitud específica en pares de bases. Esta propiedad puede denominarse "relación unívoca entre locus y longitud de fragmento" (L2FLUR, por sus siglas en inglés). Considerando un locus normal general, por ejemplo, un locus para un SNP polimórfico, dicho locus estará representado únicamente en un fragmento de una longitud determinada, igual al tamaño del fragmento correspondiente (medido en cualquiera de las hebras simples) tras la digestión por la enzima de restricción, más el doble de la longitud de los adaptadores universales de WGA (la longitud del cebador LIB1 en el caso de WGA de Ampli1). Cuando se secuencia la WGA tras la preparación de la genoteca de acuerdo con los kits Ampli1 LowPass, se introduce una longitud adicional predecible ligada a las longitudes de los adaptadores de secuenciación y los códigos de barras, que son conocidas.
Las no idealidades, como los sitios de restricción no digeridos o las variantes de secuencia, así como otros factores, pueden afectar y sesgar la frecuencia de representación de un fragmento determinado en el producto de WGA con respecto a lo que cabría esperar teóricamente. Estos factores suelen ser moderados y, además, en la medida en que son reproducibles, su naturaleza no aleatoria puede contrarrestarse parcialmente compensando su efecto. Por lo tanto, su efecto no se tendrá en cuenta en la presente descripción, a menos que se indique lo contrario.
Representación reducida del genoma
En el método de acuerdo con la invención, la propiedad L2FLURL se explota para producir una representación reducida del genoma, mediante la cual los datos de secuenciación de paso bajo, para un número dado de lecturas, logran una cobertura efectiva mayor del genoma cubierto, reduciendo efectivamente el tamaño del genoma cubierto con respecto al tamaño original del genoma de referencia de la muestra. En otras palabras, la selección del tamaño de los fragmentos de WGA produce un submuestreo determinista del genoma de referencia. El término "determinista" es esencial, en el sentido de que, aumentando el número de lecturas, al final se vuelven a muestrear los mismos loci genómicos (véase la Figura 2).
La figura 2 muestra el efecto de la representación reducida del genoma en la cobertura observada. La Figura 2A muestra la distribución de la longitud de los fragmentos MseI de acuerdo con 3 enfoques diferentes: Ampli1 LowPass para Ion Torrent con selección de tamaño recogiendo fragmentos entre 300 y 450bp (A1LP_ss), Ampli1 LowPass con la selección derivada por el paso de secuenciación (A1LP) y genotecas obtenidas tras WGA de Ampli1 seguido de una fragmentación y secuenciación aleatoria (A1_wFrg) (Binder V et al. 2014). Estos 3 enfoques diferentes representan un nivel diferente de reducción de la representación del genoma, desde el más estricto A1 LP_ss hasta A1_wFrg caracterizado por la ausencia de selección. La Figura 2B muestra las curvas de Lorenz obtenidas con los diferentes enfoques que muestran una disminución gradual de la uniformidad de la cobertura con el nivel de selección de tamaño. La menor uniformidad A1 LP_ss puede explicarse por la saturación de las plantillas de ADN y la secuenciación recurrente de los mismos fragmentos. La saturación de la plantilla queda confirmada por los gráficos de las Figuras 2C y 2D, que muestran la cantidad total de bases cubiertas y la cobertura media por base respectivamente en intervalos incrementales de lecturas mapeadas. Estos gráficos muestran claramente que el paso de selección de tamaño (A1LP_ss) reduce la cantidad de ADN disponible con el efecto de un objetivo cubierto limitado, pero con una mayor cobertura.
Cabe señalar que el enfoque es flexible en el sentido de que pueden ser adecuadas diferentes enzimas deterministas en función de la resolución deseada y/o la plataforma de secuenciación y el protocolo de secuenciación utilizados. Por ejemplo, pueden utilizarse diferentes cortadores frecuentes. En los ejemplos de la WGA de Ampli1, el motivo TTAA es el sitio de restricción. Se pueden utilizar otros cortadores de cuatro bases para cortar en sitios de restricción diferentes, como GTAC, CTAG, (Figura 3), obteniendo una distribución diferente de fragmentos. La Figura 3 muestra la digestión in-silico del genoma humano con diferentes sitios de restricción (cuatro o seis pares de bases). Para un determinado intervalo de longitudes de fragmento (por ejemplo, adecuado para un determinado secuenciador y método de selección de tamaño), los diferentes sitios de restricción producen un número diferente de fragmentos.
Cuando la DRS-WGA se purifica por primera vez después de la PCR primaria, se produce una primera selección por tamaño, mediante la cual se eliminan los fragmentos más cortos de la WGA junto con los cebadores libres. Ventajosamente, el método utiliza un paso adicional de selección. Este paso adicional de selección puede lograrse bien seleccionando por tamaño determinados fragmentos de la WGA primario y/o generando la genoteca de secuenciación masiva en paralelo mediante un método que restrinja los fragmentos secuenciables. Por ejemplo, los kits Ampli1 LowPass incluyen un paso de selección de tamaño inherente que es suficiente para influir positivamente en el proceso. En el WO2017/178655, se lleva a cabo una selección de tamaño en un gel. En el WO2019/016401, los pasos sucesivos de purificación utilizando perlas de SPRI producen efectivamente una primera selección de tamaño, en la que la longitud de pares de bases se restringe a un rango que depende sustancialmente de la concentración de perlas de SPRI. Además, el secuenciador también puede introducir una selección de tamaño per se, ya que los fragmentos más largos generarán datos de secuencias con una eficiencia cada vez menor (por ejemplo, debido a la eficiencia de la PCR en emulsión en Ion Torrent, o de la PCR en puente para la formación de agrupaciones en las plataformas Illumina).
En la DRS-WGA también existe una relación determinista entre el tamaño promedio de la genoteca de secuenciación y la proporción de submuestreo del genoma de referencia.
Un análisis in-silico, realizado sobre el digerido TTAA del genoma humano de referencia hg 19 (Figura 4), arroja un total de aproximadamente 19M de fragmentos incluyendo todas las secuencias cromosómicas, lo que se traduciría en 38M de fragmentos en un genoma humano diploide normal. A modo de ejemplo, seleccionando in-silico, los fragmentos en el intervalo 175-225bp serán sólo 1.252.559, cubriendo aproximadamente un total de 248M bases de 3,09B bases, es decir, el 8,02 % del genoma humano de referencia. Véase la Tabla 1 a continuación, en la que se enumeran el número de fragmentos, el total de pares de bases y el porcentaje de reducción (%) para diferentes intervalos de selección por tamaño. Este submuestreo puede designarse como relación de reducción (RR).
Tabla 1
Figure imgf000008_0001
Junto con la relación de reducción, en la DRS-WGA existe también una relación definida sobre el espaciado promedio entre fragmentos sucesivos en función de la porción de la distribución de longitud de fragmento seleccionada para la secuenciación. A este respecto, véase la Figura 5, en la que el panel A muestra la correlación positiva entre la longitud del fragmento y el espaciado, debido al número decreciente de fragmentos seleccionados, medido para tres tamaños de fragmento diferentes 200, 500, 800 con una banda de ±100 pb; y el panel B muestra que, para cada tamaño de fragmento, se utilizaron tres bandas diferentes (±50, ±100, ±150) para demostrar la correlación inversa entre el tamaño de la banda y el espaciado, debido también al número decreciente de fragmentos obtenibles con intervalos de tamaño más estrechos.
En general, mediante el análisis in-silico del genoma humano de referencia hg19 con respecto a la distribución de los fragmentos DRS-WGA de Ampli1, se observa que:
• cuanto mayor es la longitud promedio de pares de bases de los fragmentos seleccionados, menor es el número de fragmentos y mayor es el espaciado entre ellos;
• cuanto menor sea el intervalo de fragmentos seleccionados, menor será el número de fragmentos y mayor el espaciado entre ellos.
Selección del tamaño de los fragmentos
También pueden utilizarse diferentes técnicas de selección de tamaño para lograr la relación de reducción deseada, dependiendo del número elegido de lecturas de secuenciación por muestra y/o de la resolución. Con referencia a la Figura 4, está claro que, para una longitud promedio de fragmento dada, puede obtenerse un número menor o mayor de fragmentos totales seleccionando una banda respectivamente menor o mayor centrada en esa longitud promedio de fragmento.
Se pueden utilizar instrumentos como el Pipping prep (Sage Science) para tener un control más estricto de la distribución de la longitud de los fragmentos y, utilizando una analogía con los filtros de banda pasante, también para tener un factor Q más alto definido como
Q=Fcentro/DeltaF = [(Fmin+FMAX)/2]/(FMAX-Fmin)
donde
Fcentro = (Fmin+FMAX)/2 es el tamaño promedio de los fragmentos
DeltaF = FMAX-Fmin es la amplitud del intervalo de tamaños de los fragmentos
Fmin es el tamaño de los fragmentos inferior al cual los fragmentos están representados a un nivel relativo convencional (por ejemplo, 1/10=10 %) o menos con respecto al número máximo normalizado, en banda, de fragmentos por recipiente. FMAX es el tamaño de los fragmentos superior del cual los fragmentos están representados en el mismo nivel relativo convencional o menos con respecto al número de pico normalizado en banda de fragmentos por recipiente.
Con la secuenciación Illumina, el modo de secuenciación es preferentemente la secuenciación por pares, ya que el genoma cubierto aumenta y, por lo tanto, aumenta el número de loci por millón de pares de lectura, lo que aumenta la resolución. Sin embargo, cuando el tamaño seleccionado para la secuenciación es inferior a un determinado tamaño, la secuenciación de extremo pareado no aumentará la cobertura, ya que las dos lecturas pareadas se superponen completamente.
Con la secuenciación Ion Torrent, las longitudes de lectura mayores aumentarán proporcionalmente el genoma cubierto y, por lo tanto, el número de loci por millón de lecturas aumenta, incrementando la resolución. En el kit Ampli1 LowPass IonTorrent (Menarini Silicon Biosystems), las muestras agrupadas con código de barras se seleccionan por tamaño, en un gel o con otros métodos como Pippin Prep. La elección de diferentes factores Q y longitudes promedio de fragmentos puede proporcionar diferentes resoluciones con base en el millón de lecturas.
Una ventaja de agrupar las muestras y seleccionar el tamaño de la genoteca para la secuenciación posterior es que todas las muestras tendrán la misma distribución de longitudes de fragmentos y, a su vez, esto maximizará la superposición del genoma cubierto entre las diferentes muestras. Esto es relevante cuando se utiliza un enfoque basado en controles (por ejemplo, control normal o control materno) para identificar los posibles loci heterocigotos en la muestra bajo prueba (s Ut , por sus siglas en inglés).
Por otro lado, cuando se utiliza el kit Ampli1 LowPass para Illumina, las diferentes genotecas LowPass se seleccionan primero por tamaño y luego se agrupan, obteniendo selecciones de tamaño ligeramente diferentes en las distintas muestras, reduciendo así el genoma cubierto en las distintas muestras por millón de lecturas. Una selección de tamaño después de la agrupación de genotecas, aunque no es obligatoria según el protocolo estándar, puede emplearse para aumentar el solapamiento entre muestras, lo que puede ser beneficioso en el análisis basado en controles.
De acuerdo con la presente invención, la combinación de DRS-WGA y LPWGS conduce inesperadamente a una representación reducida de la muestra de entrada. Al secuenciar con NGS, esta genoteca de representación reducida del genoma de referencia reduce a su vez el genoma cubierto en el intervalo de pares de bases seleccionado (o secuenciable de cualquier forma), y se obtiene una cobertura efectivamente mayor del genoma cubierto por millón de lecturas, en comparación con los métodos de WGA alternativos que utilizan cebado aleatorio o cizallamiento aleatorio.
Este efecto puede explotarse de acuerdo con la invención de diferentes maneras, dependiendo de la situación.
Un ejemplo es la disponibilidad de una o más muestras de control, como la "normal emparejada", y la disponibilidad de una o más muestras sometidas a prueba (SUT), como una muestra tumoral. En este caso, d Rs -WGA aumenta la superposición de lecturas entre SUT y control.
Otro ejemplo es una situación sin control, como es el caso del cribado genético preimplantacional (PGS), en la que sólo se dispone de una única muestra correspondiente a la SUT. En este caso, DRS-WGA aumenta el número de loci cubiertos por más de una lectura.
Preferentemente, la preparación de la genoteca a partir del DRS-WGA es uno de los métodos divulgados en WO2017/178655 y WO2019/016401, ya que la proporción de reducción resultante es mayor en comparación con la digestión de los adaptadores de WGA, la fragmentación del ADN y la creación posterior de una genoteca secuenciable, como se lleva a cabo en Binder V. et al., 2014, o Hodgkinson C.L. et al., 2014. De hecho, el cizallamiento del ADN aumenta el número de posibles fragmentos diferentes del DRS-WGA original que pueden encontrarse en un intervalo de pares de bases determinado seleccionado para la secuenciación, ya que, una vez fragmentados, los fragmentos más largos volverán a caer en dicho intervalo, mientras que solo una fracción de los fragmentos primarios de WGA nativamente dentro del intervalo serán expulsados del intervalo debido a la fragmentación, ya que los fragmentos más pequeños tienden a cizallarse de forma menos eficiente con respecto a los fragmentos más largos (véase la Figura 2).
Análisis de LoH
Con referencia de nuevo a la Figura 1, la genoteca de secuenciación masiva en paralelo se obtiene preferentemente utilizando el kit Amplil LowPass (para Ion Torrent o para Illumina). La muestra se secuencia utilizando un secuenciador compatible. Las lecturas secuenciadas obtenidas de dicha genoteca se mapean con el genoma humano de referencia y se extraen los alelos presentes en loci conocidos y/o polimórficos. Preferentemente, dichos loci están cubiertos por al menos 2 lecturas de secuenciación. Debe tenerse en cuenta que la detección de un único alelo no implica necesariamente un genotipo homocigoto real, sino que puede ser el resultado de la baja cobertura de secuenciación. Dicha pluralidad de loci se subdivide preferentemente en ventanas genómicas de acuerdo con diferentes criterios de partición del genoma. Esta partición es opcional, ya que en ciertas realizaciones uno puede estar interesado sólo en el análisis de una o pocas ventanas genómicas predeterminadas, por ejemplo, un único cromosoma o un único locus genómico que comprenda uno o más genes de interés. El estado alélico de los loci detectados en las ventanas genómicas se utiliza para obtener una medida. Dicha medida, en lo sucesivo denominada puntuación de LoH, puede obtenerse por una variedad de métodos de acuerdo con la invención, como contar el número de loci heterocigotos en la ventana genómica, o calcular la proporción de loci heterocigotos. Además, se aplica preferentemente una prueba estadística para determinar la importancia de la caída de loci heterocigotos en correlación con los eventos de LoH mediante comparación con un control interno o utilizando un control externo (del mismo individuo o individuos o de un individuo o individuos diferentes). Alternativamente, se aplica preferentemente una prueba estadística para determinar la importancia de la sobrerrepresentación de loci heterocigotos, en correspondencia de regiones genómicas no en LoH, con respecto a lo esperado con base en las tasas de error de secuenciación y la WGA. Por último, se aplica preferentemente el umbral de puntuación de LoH, basado en un umbral fijo calculado a partir de un conjunto de datos de entrenamiento con eventos de LoH conocidos, para definir las regiones genómicas correspondientes a los eventos de LoH. A continuación, se detallan los pasos individuales del método.
Partición del genoma
Con referencia a la Figura 1, el paso opcional de partición puede llevarse a cabo de tres maneras alternativas:
i) ventanas genómicas de pares de bases constantes
ii) ventanas de número constante de loci
iii) segmentos de número de copias.
En la alternativa i), que se muestra en la Figura 6, la ventana genómica tiene una anchura constante. Cada ventana genómica contiene una pluralidad de loci, cuyo número depende de la localización genómica. Este enfoque puede ser ventajoso cuando se compara una muestra con un conjunto de muestras normales de control, ya que el genoma de referencia se particiona de la misma manera en todas las muestras, permitiendo así una comparación directa de la puntuación LoH para cada ventana genómica a través de múltiples muestras. Como el número y la proporción de loci heterocigotos detectados en una ventana genómica de anchura definida aumentará a profundidades de lectura mayores, para permitir la comparación de una muestra con una (o múltiples) muestras de control, el número de lecturas mapeadas en cada muestra se normaliza preferentemente a un número fijo de lecturas. Dicha normalización se lleva a cabo mediante el muestreo aleatorio de lecturas, mapeadas con el genoma de referencia, hasta alcanzar el número deseado. El número normalizado de lecturas puede ser, por ejemplo, 1 millón o 2 millones de lecturas, preferentemente 3 millones, 4 millones, 5 millones, 6 millones, 7 millones, 8 millones o 9 millones de lecturas.
La figura 6 muestra una representación esquemática de un ejemplo de partición basada en ventanas genómicas de pares de bases constantes. Se representan muestras emparejadas de control (arriba) y de prueba (abajo). Una línea continua representa (una porción de) el genoma. Los marcadores romboidales delimitan ventanas genómicas de anchura constante y los loci polimórficos conocidos se representan mediante puntos (loci heterocigotos: puntos blancos rellenos; loci homocigotos: puntos grises rellenos). El número de loci detectados por ventana genómica varía a lo largo del genoma, pero se espera que sea similar, por término medio, para una ventana dada, entre dos muestras diferentes cuyas correspondencias totales de lecturas se han normalizado a un recuento de lecturas definido. Se espera que una ventana genómica en LoH en una muestra de prueba muestre un descenso de loci heterocigotos en comparación con la misma ventana en una muestra de control normal. La misma ventana no puede compararse directamente con ventanas genómicas situadas en diferentes posiciones del genoma en la misma (u otra) muestra debido al sesgo en las densidades de SNP a lo largo del genoma.
En la alternativa ii), que se muestra en la Figura 7, la ventana genómica tiene un número constante de loci. Este enfoque permite normalizar la puntuación de LoH para diferentes densidades de SNP en todo el genoma. El método puede ser ventajoso cuando se utiliza un enfoque sin control, ya que permite, por ejemplo, aplicar el mismo umbral para todas las ventanas genómicas independientemente de su posición en el genoma y de su densidad de SNP subyacente. El método puede ser desventajoso cuando se compara la muestra de ensayo con muestras de control, ya que pueden generarse diferentes ventanas genómicas para diferentes muestras en función de la distribución de los loci muestreados y detectados por secuenciación de paso bajo.
La figura 7 muestra una representación esquemática de un ejemplo de partición basada en un número constante de loci por ventana. Se representan muestras emparejadas de control (arriba) y de prueba (abajo). Una línea continua representa (una porción de) el genoma. Los marcadores romboidales delimitan ventanas genómicas que contienen un número constante de loci. Los loci polimórficos conocidos están representados por puntos (loci heterocigotos: puntos blancos rellenos; loci homocigotos: puntos grises rellenos). Debido a la baja cobertura de secuenciación, no se detectarán todos los loci de una región genómica. Por lo tanto, los extremos de la ventana genómica pueden variar entre diferentes muestras en función del muestreo de loci por las lecturas de secuenciación y, como tal, las ventanas genómicas detectadas en una muestra de prueba no son directamente comparables con las ventanas genómicas correspondientes en otras muestras (control). Se espera que una ventana genómica en LoH en una muestra de prueba muestre un descenso de loci heterocigotos con respecto a las ventanas genómicas de la misma muestra que no están en LoH.
El número y la proporción de loci heterocigotos detectados en una ventana genómica con un número constante de loci aumentará a profundidades de lectura mayores (véase la Figura 8). Preferentemente, para permitir el umbral de la puntuación de LoH a un valor precalculado, el número de lecturas mapeadas en cada muestra se normaliza a un número fijo de lecturas. Dicha normalización se lleva a cabo mediante el muestreo aleatorio de lecturas, mapeadas con el genoma de referencia, hasta alcanzar el número deseado. El número normalizado de lecturas puede ser, por ejemplo, 1 millón o 2 millones de lecturas, preferentemente 3 millones, 4 millones, 5 millones, 6 millones, 7 millones, 8 millones o 9 millones de lecturas.
En la alternativa iii), que se muestra en la Figura 9, la ventana genómica es una región del genoma segmentada entre dos puntos de interrupción del número de copias, contenida en un brazo cromosómico, que puede definirse normalizando los recuentos brutos del número de copias en las ventanas genómicas mediante el contenido de GC (Boeva, V. et al., 2011, Bioinformatics, 27(2), 268-269) y aplicando un algoritmo de segmentación como un algoritmo basado en LASSO (Harchaoui,Z. et al., 2008, Adv. Neural Inform. Process. Syst., 20, 617-624), segmentación binaria circular (CBS) (Seshan VE. et al., 2019, DNAcopy: DNA copy number data analysis. R package version 1.58.0) o un algoritmo similar para normalizar los recuentos de lecturas. Este método se basa en la suposición de que una región genómica que muestra un cambio en el nivel del número de copias, con respecto a la ploidía "normal" principal de la muestra, probablemente se ha visto afectada por un único evento de aberración del número de copias genómico y, por lo tanto, se espera que tenga un estado de LoH uniforme. En comparación con las alternativas (i) y (ii), las ventanas genómicas definidas por este método son generalmente mucho mayores (hasta 2-3 órdenes de magnitud) y contendrán un mayor número de loci heterocigotos y/o polimórficos conocidos, permitiendo así obtener una mayor potencia estadística. Además, al combinar 2 dimensiones biológicas diferentes (número de copias, puntuación de LoH), con este método se pueden obtener resultados más precisos, con una menor tasa de falsos positivos. Sin embargo, el método puede ser poco ventajoso en el caso de eventos LoH pequeños localizados en eventos de número de copias más grandes, que no se detectarían con este método. Como no es infrecuente que un brazo cromosómico sufra un evento de LoH seguido de una duplicación, preferentemente se utilizarán brazos cromosómicos como unidad de segmentación en cromosomas sin cambios en el número de copias. De este modo se evita la presencia errónea como LoH de un brazo cromosómico más corto cuando sólo está afectado el brazo más largo (falso positivo), o en el caso dual, la presencia errónea como no LoH para el brazo cromosómico más corto cuando sólo está afectado el más corto (falso negativo).
Más en particular, la Figura 9 proporciona una representación ejemplar del perfil de número de copias de un brazo cromosómico (ploidía principal del genoma = 2) que ha sido afectado por dos eventos de cambio de número de copias: un segmento de pérdida de número de copias con un número de copias = 1; una ganancia de número de copias con un número de copias = 3. Las ventanas genómicas se definen como las regiones comprendidas entre 2 puntos de ruptura consecutivos del número de copias.
La segmentación también puede emplearse aprovechando la información del número de copias para excluir falsos positivos derivados de amplificaciones de alto nivel. De hecho, lo más probable es que una amplificación de alto nivel derive de un único alelo y, por tanto, introduzca un sesgo en la representación alélica de la región, por lo que el alelo menor, aunque esté presente, estará infrarepresentado y puede inducir una presencia de LoH falsa positiva.
La Tabla 2 muestra las características principales y los pros y contras de cada paso alternativo de partición de acuerdo con la presente invención.
Tabla 2
Figure imgf000011_0001
Puntuación de LoH
El paso g. de asignar una puntuación de LoH a al menos una ventana genómica de dicho genoma de referencia para dicha al menos una muestra en función del número de loci con al menos dos alelos diferentes en dicha pluralidad de loci también incluye realizaciones preferidas alternativas.
En una realización preferida, la puntuación de LoH corresponde al número de loci heterocigotos en dicha al menos una ventana genómica. Se espera que una ventana genómica en LoH muestre una escasez de loci heterocigotos en comparación con las regiones o muestras que no están en LoH (véase la Figura 10).
En otra realización preferida, para cada ventana genómica, se define una puntuación LoH como la proporción de loci heterocigotos detectados en esa ventana genómica con respecto al número total de loci polimórficos en la misma ventana genómica (Figura 11). De forma similar al método anterior, se espera una reducción consistente de la puntuación de LoH en presencia de un evento de LoH. Este método puede ser ventajoso cuando las ventanas no contienen un número homogéneo de loci detectados, por ejemplo, cuando se utiliza una ventana genómica de pares de bases constantes o se utilizan segmentos de número de copias para particionar el genoma.
Puntuación LoH - prueba estadística
Preferentemente, para cada ventana genómica se define una puntuación de LoH mediante los resultados de una prueba estadística sobre la frecuencia de loci bialélicos observados.
En una realización preferente, la importancia de la infrarrepresentación de loci heterocigotos con respecto a un control interno/externo puede evaluarse realizando una prueba estadística. En detalle, se construye una tabla de contingencia para cada ventana genómica considerando las dos clasificaciones siguientes: 1) tipo de muestra (prueba, control); 2) tipo de loci (heterocigoto, homocigoto). A continuación, se aplica una prueba estadística, como la prueba exacta de Fisher o una prueba comparable para el análisis de tablas de contingencia (por ejemplo: prueba chi-cuadrado, prueba G, prueba exacta de Barnard, prueba Fisher-Freeman-Halton). Preferentemente, la prueba estadística debe realizarse de forma unilateral para restringir la detección al caso en que haya una infrarrepresentación de loci heterocigotos debido a LoH. De hecho, cuando en un segmento genómico dado se produce una ganancia, es decir, un aumento del número de copias, se produce un aumento del número de lecturas utilizando WGS Low-Pass. Esto puede dar lugar a un mayor número de loci heterocigotos en ausencia de LoH, y puede ser marcado como significativo por una prueba estadística de dos caras, pero por la razón opuesta al objetivo del análisis.
En una realización preferentemente alternativa, puede comprobarse la significación de la sobrerrepresentación de loci heterocigotos con respecto a la esperada a partir de las tasas de error de secuenciación y WGA. Este enfoque puede ser ventajoso cuando se comprueba la "ganancia de heterocigosidad" (en adelante GoH) en células individuales haploides, como los gametos. Esto puede ocurrir, por ejemplo, debido a errores en la disyunción desequilibrada durante la meiosis que dan lugar a una ganancia de un cromosoma.
Dado el gran número de pruebas realizadas para cada experimento (aproximadamente 200, 400, 600 para una muestra de 1 millón de lecturas con ventanas fijas de 500, 1000 y 1500 SNP), puede aplicarse una corrección de pruebas múltiples (véase, por ejemplo, Benjamini Y. et al., 1995, Journal of the Royal Statistical Society. Series B (Methodological) Vol. 57, No. 1: pp. 289-300). La puntuación de LoH se define entonces como el valor p resultante de la prueba estadística.
Muestra de control
El control puede ser "interno" y puede definirse, por ejemplo, considerando las regiones genómicas con ploidía igual a la ploidía principal (promedio) más probable del genoma. Este enfoque asume que la mayoría de las regiones genómicas que no muestran alteraciones en el número de copias no están en LoH.
Alternativamente, el control puede ser "externo" y puede generarse, por ejemplo, utilizando una o varias muestras normales del mismo individuo sometido a prueba o de individuos diferentes.
El uso de un control interno puede ser ventajoso para muestras diploides o poliploides (por ejemplo: muestras tumorales) ya que es independiente del número de lecturas (no requiere normalización del número de lecturas mapeadas) y en caso de muestras dañadas (por ejemplo: muestras FFPE). De hecho, las muestras dañadas pueden mostrar una mayor incidencia de abandonos, en los que uno de los 2 alelos de un loci se pierde debido al daño del ADN, en comparación con las no dañadas y, por lo tanto, un menor número de sitios heterocigotos de lo esperado para las regiones genómicas no en LoH. Esto puede dificultar la comparación de muestras de prueba frente a muestras de control externo con diferentes niveles de daño. Al utilizar un control interno, se elimina este sesgo, ya que las ventanas genómicas de control y de prueba tendrán el mismo nivel de tasa de abandono.
Umbral de LoH y presencia de LoH
Opcionalmente, la puntuación de LoH obtenida en los pasos anteriores puede ser umbralizada para definir regiones genómicas en LoH. En la mayoría de los casos, el número y la proporción de loci heterocigotos detectados en una ventana genómica con un número constante de loci aumentará a profundidades de lectura mayores. Para permitir el umbral de la puntuación de LoH a un valor precalculado, el número de lecturas mapeadas en cada muestra se normaliza preferentemente a un número fijo de lecturas. Dicha normalización se lleva a cabo mediante el muestreo aleatorio de lecturas, mapeadas con el genoma de referencia, hasta que se alcanza el número deseado (preferentemente contenido en el intervalo que va de 1.000.000 de lecturas mapeadas a 10.000.000 de lecturas mapeadas). Las consideraciones anteriores no se aplican cuando la puntuación de LoH se calcula realizando una prueba estadística frente a un control "interno".
Preferentemente, en el caso de la puntuación LoH calculada como número de loci heterocigotos, los datos se reducen primero a 1.000.000 de lecturas mapeadas. Los loci, cubiertos por al menos 1 lectura, se dividen utilizando ventanas con un número fijo de loci detectados (por ejemplo, n=500; n=1000; n=1500). Algunos valores umbral preferidos son 3, 6, 9 SNP heterocigotos de 500, 1000 y 1500 loci, respectivamente (Figura 12). Entonces se llama LoH en una ventana genómica dada si la puntuación LoH es inferior al umbral seleccionado.
Más en detalle, la Figura 12 muestra el análisis ROC utilizado para la definición de un umbral de puntuación de LoH, definido como el número de SNP bialélicos en una ventana de (A) n=500, (B) n=1000, (C) n=1500 SNPs cubiertos por al menos 1 lectura con 1.000.000 de lecturas mapeadas. Se utilizaron como referencia los LoH detectados en la célula tumoral mediante secuenciación de paso alto del genoma completo y análisis de frecuencia de alelos B.
En el caso de la puntuación de LoH calculada como valor p, resultante de la aplicación de una prueba estadística, algunos umbrales preferentes pueden ser, por ejemplo, 5*10-2 o 1*10-2. A continuación, se llama a LoH en una ventana genómica si la puntuación de LoH es inferior al umbral seleccionado.
Una vez que la puntuación de LoH ha sido umbralizada, el estado de LoH puede ser asignado a regiones genómicas de acuerdo con diferentes criterios descritos a continuación.
1) Presencia de regiones de LoH por fusión de ventanas. En esta realización preferente, se asigna un estado de LoH a una región genómica si las puntuaciones de LoH de cada ventana genómica contenida en esa región superan el paso de umbralización.
2) Presencia de regiones de LoH en función del estado LoH en las ventanas genómicas. En esta realización preferida, se asigna un estado de LoH a una región genómica si un determinado porcentaje/fracción de las ventanas genómicas contenidas en esa región genómica supera el paso de umbralización. Por ejemplo, si más del 66 %, 75 %, 80 %, 85 %, 90 %, 95 % de las ventanas de una región genómica superan el paso de umbralización, se asigna un estado de LoH a esa región genómica.
3) Presencia de LoH en regiones genómicas que comprenden genes supresores de tumores. En esta realización preferentemente, al menos una región genómica comprende un gen supresor de tumores.
Preferentemente dicho gen se selecciona del grupo que consiste en BRCA1, BRCA2, PALB2, TP53, CDKN2A, RB1, APC, PTEN, CDKN1B, DMP1, NF1, AML1, EGR1, TGFBR1, TGFBR2, y SMAD4.
Pureza de la muestra
Las LoH pueden identificarse en un ADN procedente de una mezcla de diferentes tipos de células (por ejemplo: células tumorales y células normales). La pureza de la muestra se define como el porcentaje de muestra en la mezcla que pertenece al tipo de interés (por ejemplo: células tumorales).
Por ejemplo, cuando se mezclan células tumorales #TC (por sus siglas en inglés) que son clonales, es decir, genómicamente idénticas y, por tanto, tienen el mismo patrón de LoH y CNA, con células normales #NC (por sus siglas en inglés) del mismo individuo, la pureza de la muestra resultante será #TC/(#TC+#NC) y será homogénea en todo el genoma.
Generalizando, por pureza entendemos en la presente un concepto relativo al estado de LoH en una determinada región de interés compuesta por una o más regiones genómicas. La región de interés puede ser tan grande como todo el genoma de referencia (como en el ejemplo anterior) o tan pequeña como un 100kbp.
Por ejemplo, en presencia de un conjunto de células tumorales que representan diferentes clones derivados de la misma célula tumoral del último ancestro común, la pureza puede variar a través de diferentes regiones genómicas desde un mínimo de 1/Número de células en el conjunto, cuando una región LoH está representada en una sola célula, hasta un máximo de 100 %, cuando el estado LoH de una región genómica es común a través de todos los clones derivados del último ancestro común.
La muestra analizada para la LoH tiene preferentemente una pureza de al menos el 50 %, más preferentemente de al menos el 70 %, como puede apreciarse en la Figura 13, que muestra los valores del área bajo la curva (AUC) de las características operativas del receptor (ROC) para la puntuación de LoH en diferentes números de lecturas mapeadas (1.000.000 - 10.000.000 de lecturas) y pureza de la muestra (10 % - 90 %). La puntuación de LoH se define como el número de SNP heterocigotos en una ventana de n=150 SNP cubiertos por al menos 2 lecturas. Las muestras de diferentes purezas se obtienen mezclando lecturas in silico obtenidas del análisis de una célula tumoral y una célula normal en proporciones (tumor:normal) equivalentes a la pureza objetivo. Las LoH detectadas en la célula tumoral mediante secuenciación de alto paso del genoma completo se utilizan como referencia.
Efecto de la selección de tamaño en la detección de la LoH
Como ya se ha mencionado anteriormente, se realiza preferentemente una selección de tamaño durante o después del paso c. de la preparación de una biblioteca de secuenciación masiva en paralelo. El tamaño de los fragmentos puede elegirse de acuerdo con diferentes criterios. El método de secuenciación puede elegirse según diferentes criterios, también en función del tamaño de los fragmentos. En general, cuanto mayor es el número de loci (polimórficos o heterocigotos) que contribuyen al análisis de la LoH, mejor es la resolución (por millón de lecturas).
La Figura 14 muestra datos obtenidos seleccionando in silico un subconjunto de fragmentos secuenciados a partir de datos obtenidos de una muestra unicelular real de Fcentro creciente (bibliotecas de secuenciación preparadas con Ampli1 LowPass para Illumina). La Figura 14A muestra el efecto de la selección de tamaño (anchura de banda 100) en la cobertura de los fragmentos DRS-WGA respecto a la longitud media de los fragmentos, con 250.000 lecturas; la Figura 14B muestra el efecto de la selección de tamaño (anchura de banda 100) en la resolución en términos de pares de bases (ventanas de 150 SNP cubiertas por al menos 2 lecturas), con 250.000 lecturas; la Figura 14C muestra el efecto de la anchura de banda de selección de tamaño en la cobertura de fragmentos DRS-WGA con una longitud media de fragmentos fija (500 pb), con 250.000 lecturas; la Figura 14D muestra el efecto de la anchura de banda de selección de tamaño en la resolución (pb) con una longitud media de fragmentos fija (500 pb), con 250.000 lecturas; la Figura 14E muestra el efecto del número de lecturas en la cobertura de fragmentos DRS-WGa con una longitud media de fragmentos fija (500 pb). La fracción de fragmentos cubiertos por al menos 2 lecturas y el número total de fragmentos cubiertos aumenta en proporción al número de lecturas mapeadas (línea discontinua); la Figura 14F muestra el efecto del número de lecturas en la resolución (pb) a una longitud media de fragmentos fija (500 pb).
Estos datos muestran que el número total de fragmentos DRS-WGA disminuye mientras que el número de fragmentos cubiertos por más de una lectura, útil para llamar SNP, aumenta alcanzando una estabilización a 500 pb (Figura 14A). La resolución aumenta en consecuencia, como muestra la disminución de la longitud de las ventanas genómicas con un número fijo de SNP (n=150; Figura 14B). Cuando se aplican diferentes anchos de banda a un número dado de lecturas mapeadas y Fcenter, la cobertura de los fragmentos y la resolución aumentan al disminuir el anchura de banda (Figura (14C y 14D). La resolución también aumenta con el número de lecturas mapeadas (Figura 14E y 14F).
Ejemplos
La tabla 3 resume las características de los métodos utilizados en los 3 ejemplos que se exponen a continuación.
Tabla 3
Figure imgf000014_0001
Ejemplo 1
En el Ejemplo 1, se consideraron genotecas de ADN Amplil LowPass para Illumina de 1 célula tumoral circulante (CTC; prueba) y 1 glóbulo blanco (WBC; control) obtenidas de un paciente varón afectado por mieloma múltiple. Las lecturas secuenciadas se mapearon al genoma humano de referencia hg19 y se muestrearon a 1, 2, 3, 4, 5, 6, 7, 8, 9 millones de lecturas. Los alelos presentes en los loci polimórficos SNPdb (variantes comunes SNPdb150 con una frecuencia alélica menor >5 %) se extrajeron de ambas genotecas. Los loci se particionaron con una ventana genómica fija de 10.000.000 pb. Se empleó una prueba exacta de Fisher unilateral para evaluar la significación de la asociación (Tabla 4) entre los dos tipos de clasificación, con la hipótesis nula de que los loci heterocigotos y homocigotos tienen la misma probabilidad en WBC (control) y CTC (prueba).
Tabla 4
Figure imgf000015_0001
En la Figura 15 se muestran los resultados de la prueba en cada nivel de reducción de la muestra. A partir de 2 millones de lecturas, el método muestra una alta sensibilidad en la detección de eventos de LoH conocidos en los cromosomas 11 y 13.
En detalle, la Figura 15 muestra, en la parte superior, un gráfico de número de copias de una CTC de un paciente con mieloma múltiple. En el eje x están los cromosomas; en el eje y está el número de copias. Cada punto representa una ventana genómica de tamaño fijo. Los segmentos de número de copias se representan como líneas continuas. Debajo del gráfico de número de copias se muestra una pista de referencia (Ref), que representa regiones LoH conocidas detectadas por secuenciación de alto paso del genoma completo de la misma CTC se muestran en negro sólido. A continuación, se representan las pistas marcadas con 1M a 9M: mapas térmicos del valor p registrado (base=10) de los resultados de la prueba exacta de Fisher para diferentes números de lecturas (1 a 9 millones). Los valores más significativos se representan con un tono de gris más intenso.
Ejemplo 2
En el Ejemplo 2, se utilizan como entrada los mismos datos de CTC utilizados en el Ejemplo 1 y se reducen los datos a 1 millón de lecturas. En este caso, los loci se dividieron en ventanas con un número fijo (n=1000) de loci cubiertos por al menos 1 lectura. Para la identificación de regiones de LoH, la puntuación de LoH se calculó como el número de posiciones heterocigotas en cada ventana.
La Figura 16 muestra la detección de LoH utilizando ventanas genómicas con un número constante de loci. En particular, se muestra en la parte superior un gráfico de número de copias del mismo CTC del Ejemplo 1. En el eje x están los cromosomas; en el eje y está el número de copias. Cada punto representa una ventana genómica de tamaño fijo. Los segmentos de número de copias se representan como líneas continuas. Debajo del gráfico hay un mapa de calor que representa el recuento de heterocigotos para cada ventana genómica. Las ventanas con una puntuación de LoH más baja (menor número de loci heterocigotos), que tienen más probabilidades de estar en estado de LoH, se representan con un tono de gris más intenso. El cromosoma 11, el brazo grande del cromosoma 13 y el cromosoma X (que está en copia única en un individuo masculino) muestran la puntuación de LoH más baja.
Para determinar un umbral de puntuación de LoH para denominar ventanas genómicas en estado de LoH, se analizó un conjunto de entrenamiento de 9 células individuales con regiones de LoH conocidas utilizando la misma metodología que la muestra de prueba (1.000.000 de lecturas mapeadas y n=1000 ventanas SNP). A continuación, se realizó un análisis ROC y se determinó un umbral de puntuación máxima de LoH = 6 como el punto de mejor equilibrio entre sensibilidad y especificidad (Figura 17, en la que el eje x representa la 1-especificidad (los valores más bajos significan una detección más específica) y el eje y representa la sensibilidad. Se utilizaron como referencia los LoH detectados en la célula tumoral mediante secuenciación de paso alto del genoma completo).
El método identificó eventos de LoH en los cromosomas 11 y 13 con éxito. También se asignó el estado de LoH al cromosoma X, como era de esperar en un individuo varón cuyo genoma contiene una única copia del cromosoma X (Figura 18 - Las regiones con una puntuación de LoH por debajo de un umbral fijo (<=6) y mayor de 10.000.000 pb se muestran en negro).
Ejemplo 3
En el Ejemplo 3, se analizaron genotecas Amplil LowPass para Illumina de 2 células individuales de Hodgkin Reed/Sternberg (HRS, por sus siglas en inglés) obtenidas de un tejido FFPE de una muestra de linfoma de Hodgkin clásico de un paciente varón. Las dos células HRS comparten el mismo perfil de número de copias. Las lecturas secuenciadas se mapearon en el genoma humano de referencia hg19 y los alelos presentes en los loci polimórficos SNPdb (variantes comunes SNPdb150 con una frecuencia alélica menor >5 %) se extrajeron de ambas genotecas. Los loci se particionaron utilizando segmentos de número de copias obtenidos mediante el software Control-FREEC, que implementa la normalización basada en GC y la segmentación de señales de número de copias [Boeva, V. et al., Bioinformatics, 27(2), 268-269. http://doi.org/10.1093/bioinformatics/btq635). Se utilizó un control interno definido por la unión de todas las regiones con número de copias igual a la ploidía de la célula (número de copias=2). Para cada segmento, definido por el análisis de número de copias y contenido en un brazo cromosómico, se realizó una prueba exacta de Fisher unilateral para rechazar la hipótesis nula de que los loci bialélicos y monoalélicos observados tienen la misma probabilidad en el segmento y en el control interno (Figura 19 - arriba: perfil de número de copias de una célula HRS representativa. Abajo: mapa de calor de la lógica del valor p obtenido como resultado de la prueba de Fisher. Sólo se muestran las regiones genómicas con valores p <0,01. Los valores más significativos se representan con un tono de gris más intenso). Como era de esperar, todas las regiones con número de copias = 1 se detectaron correctamente como regiones genómicas de LoH. A pesar de tener un número de copias = 2, el brazo largo del cromosoma X se detecta en estado de LoH. Esto es de esperar, ya que la muestra procede de un individuo masculino y, por tanto, el genoma contiene un único cromosoma X. Además, el cromosoma 9q se llama en LoH, lo que se pasaría por alto utilizando únicamente la información del número de copias (número de copias = 2).
Ventajas
El método de acuerdo con la presente invención es adecuado para analizar datos obtenidos de la secuenciación de paso bajo de ADN genómico de una muestra de prueba para detectar eventos de LoH. Contrariamente a otros métodos, que infieren las LoH como series de loci homocigotos contiguos y que requieren extraer el genotipo real en un cierto número de loci, el método de la presente invención se basa en el principio de que, analizando una ventana genómica que contenga un número suficiente de loci secuenciados a baja cobertura, y extrayendo los alelos observados en dichos loci, no necesariamente representativos del genotipo de la muestra, puede ser posible detectar un evento de LoH como una disminución de loci bialélicos, en comparación con la observada analizando una muestra diploide normal.
A diferencia de otros métodos, que infieren de LoH a partir de la frecuencia alélica alternativa (frecuencia alélica B o BAF, por sus siglas en inglés), exigiendo una alta cobertura del genoma, como por ejemplo 30x (Boeva et al., Bioinformatics, Vol. 28 no. 3 (2012), páginas 423-42), el método de acuerdo con la invención funciona con datos de secuenciación de bajo paso del genoma completo (<1x, o inferior, hasta por ejemplo 0,05x o incluso 0,01x), con el correspondiente ahorro de costes.
El método para analizar de LoH de una muestra según la presente invención permite inferir regiones de LoH en todo el genoma a partir de datos de secuenciación de paso bajo del genoma completo hasta la resolución de una sola célula, utilizando muy pocas muestras, como puede ser el caso cuando sólo se dispone de unas pocas (hasta una sola) CTC, con la posibilidad adicional opcional de ejecutar el análisis sin un control normal, y con un número relativamente pequeño de lecturas.
Además, determinadas realizaciones del método permiten aumentar la resolución en la presencia de LoH introduciendo ciertos pasos de procesamiento en el proceso de preparación de la genoteca, sin costes de secuenciación incrementales.
El método de acuerdo con la invención avanza sorprendentemente el estado de la técnica con prestaciones que anteriormente se consideraban inalcanzables por los expertos en la técnica. En particular, el método permite:
- identificar la LoH en una célula individual mediante secuenciación del paso bajo de genoma completo con una cobertura media tan baja como 0,01-0,04 (250.000-1.000.000 de lecturas de un único extremo de 150 pb del genoma humano); - obtener el punto anterior sin muestra de control;
- obtener los puntos anteriores con la posibilidad adicional de obtener material genético adicional para la investigación de otras características de dicha célula individual, así como la posibilidad de volver a analizar de forma fiable una célula individual para su verificación, en virtud del uso de una WGA inherente en el proceso.
Además, el método de acuerdo con la presente invención permite determinar el perfil de número de copias del genoma completo y la LoH incluso a partir de una cantidad ínfima de células, FFPE o biopsias de tejido.

Claims (21)

REIVINDICACIONES
1. Un método para analizar la pérdida de heterocigosidad (LoH) en al menos una muestra que comprende ADN genómico, el método comprende los pasos de:
a. proporcionar al menos una muestra que comprende ADN genómico;
b. llevar a cabo una amplificación del genoma completo en el sitio de restricción determinista (DRS-WGA) de dicho ADN genómico;
c. preparar una genoteca de secuenciación masiva en paralelo a partir del producto de dicha DRS-WGA;
d. llevar a cabo la secuenciación de paso bajo del genoma completo con una profundidad de cobertura media < 1 en dicha genoteca de secuenciación masiva en paralelo;
e. alinear las lecturas obtenidas en el paso d. con un genoma de referencia para dicha al menos una muestra;
f. extraer el contenido alélico en una pluralidad de loci, en donde dicha pluralidad de loci comprende loci polimórficos y/o loci heterocigotos;
g. asignar una puntuación de LoH a al menos una ventana genómica de dicho genoma de referencia para dicha al menos una muestra en función del número de loci con al menos dos alelos diferentes en dicha pluralidad de loci.
2. El método de acuerdo con la reivindicación 1, en donde un paso de selección de tamaño se realiza antes, durante o después del paso c. de preparación de una genoteca de secuenciación masiva en paralelo y el paso de preparación de una genoteca de secuenciación masiva en paralelo no incluye un paso de fragmentación aleatoria.
3. El método de acuerdo con la reivindicación 2, en donde dicho paso de selección de tamaño retiene fragmentos en el intervalo de 100 a 800 pares de bases.
4. El método de acuerdo con cualquiera de las reivindicaciones 1 a 3, en donde dicha al menos una ventana genómica tiene una anchura constante en pares de bases.
5. El método de acuerdo con cualquiera de las reivindicaciones 1 a 3, en donde dicha al menos una ventana genómica un número constante de dicha pluralidad de loci.
6. El método de acuerdo con cualquiera de las reivindicaciones 1 a 3, en donde dicha al menos una ventana genómica se selecciona del grupo que consiste en un cromosoma, un brazo cromosómico y una región de número de copias segmentada.
7. El método de acuerdo con cualquiera de las reivindicaciones precedentes, en donde dicha pluralidad de loci comprende loci polimórficos para el genoma de referencia para dicha al menos una muestra.
8. El método de acuerdo con las reivindicaciones 4, 5 o 7, en donde dicha puntuación de LoH corresponde al número de loci heterocigotos en dicha al menos una ventana genómica.
9. El método de acuerdo con la reivindicación 7, en donde dicha puntuación de LoH corresponde a la proporción de loci heterocigotos con respecto al número total de dicho loci polimórficos en la al menos una ventana genómica.
10. El método de acuerdo con la reivindicación 7, donde dicha puntuación de LoH corresponde al valor p de una prueba estadística.
11. El método de acuerdo con la reivindicación 10, en donde dicha prueba estadística evalúa la importancia de la sobrerrepresentación de loci bialélicos con respecto a las tasas de error de secuenciación y WGA.
12. El método de acuerdo con la reivindicación 10, en donde dicha prueba estadística evalúa la importancia de la infrarrepresentación de loci bialélicos con respecto a una muestra de control.
13. El método de acuerdo con la reivindicación 12, en donde dicha muestra de control comprende al menos una región genómica a ploidía principal de dicha al menos una muestra.
14. El método de acuerdo con la reivindicación 12, en donde dicha muestra de control es al menos una muestra normal.
15. El método de acuerdo con la reivindicación 14, en donde dicha al menos una muestra normal se obtiene del mismo individuo bajo prueba del cual se obtuvo dicha al menos una muestra.
16. El método de acuerdo con la reivindicación 12, en donde dicha muestra de control es una muestra materna o paterna, para dicha al menos una muestra.
17. El método de acuerdo con cualquiera de las reivindicaciones 8 a 10, en donde si dicha puntuación de LoH supera un umbral para una ventana genómica se dice que dicha ventana genómica está en LoH.
18. El método de acuerdo con la reivindicación 17, que comprende además un paso de asignar un estado de LoH a al menos una región genómica si las puntuaciones de LoH para cada ventana genómica comprendida en dicha región supera dicho umbral.
19. El método de acuerdo con la reivindicación 17, que comprende además un paso de asignar un estado de LoH a al menos una región genómica en función del estado de LoH de las ventanas genómicas comprendidas en dicha región.
20. El método de acuerdo con las reivindicaciones 18 o 19, en donde dicha al menos una región genómica comprende un gen supresor de tumores.
21. El método de acuerdo con cualquiera de las reivindicaciones precedentes, en donde dicha al menos una muestra es una célula individual.
ES20747479T 2019-07-30 2020-07-29 Método para analizar la pérdida de heterocigosidad (LoH) tras la amplificación del genoma completo del sitio de restricción determinista (DRS-WGA) Active ES2944080T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IT102019000013335A IT201900013335A1 (it) 2019-07-30 2019-07-30 Metodo per analizzare la perdita di eterozigosi (loh) a seguito di amplificazione totale del genoma basata su un sito di restrizione deterministico (drs-wga)
PCT/IB2020/057149 WO2021019459A1 (en) 2019-07-30 2020-07-29 Method for analysing loss-of-heterozygosity (loh) following deterministic restriction-site whole genome amplification (drs-wga)

Publications (1)

Publication Number Publication Date
ES2944080T3 true ES2944080T3 (es) 2023-06-19

Family

ID=68733545

Family Applications (1)

Application Number Title Priority Date Filing Date
ES20747479T Active ES2944080T3 (es) 2019-07-30 2020-07-29 Método para analizar la pérdida de heterocigosidad (LoH) tras la amplificación del genoma completo del sitio de restricción determinista (DRS-WGA)

Country Status (14)

Country Link
US (1) US20230175053A1 (es)
EP (1) EP4004236B1 (es)
JP (1) JP2022543585A (es)
KR (1) KR20220070203A (es)
CN (1) CN114466936A (es)
AU (1) AU2020322242A1 (es)
CA (1) CA3149486A1 (es)
DK (1) DK4004236T3 (es)
ES (1) ES2944080T3 (es)
FI (1) FI4004236T3 (es)
IL (1) IL290176A (es)
IT (1) IT201900013335A1 (es)
PT (1) PT4004236T (es)
WO (1) WO2021019459A1 (es)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114269948A (zh) * 2019-08-30 2022-04-01 香港中文大学 通过低深度基因组测序检测杂合性缺失的方法
IT202100024101A1 (it) 2021-09-20 2023-03-20 Menarini Silicon Biosystems Spa Metodo per analizzare il grado di similarita' di almeno due campioni utilizzando amplificazione deterministica dell'intero genoma mediante siti di restrizione (drs-wga)
WO2024083971A1 (en) 2022-10-19 2024-04-25 Vib Vzw Method of determining loss of heterozygosity status of a tumor

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1109938B1 (en) 1998-09-18 2002-02-27 Micromet AG Dna amplification of a single cell
EP1578994A2 (en) 2002-11-11 2005-09-28 Affymetrix, Inc. Methods for identifying dna copy number changes
AU2012358244A1 (en) * 2011-12-21 2014-06-12 Myriad Genetics, Inc. Methods and materials for assessing loss of heterozygosity
ITUA20162640A1 (it) 2016-04-15 2017-10-15 Menarini Silicon Biosystems Spa Metodo e kit per la generazione di librerie di dna per sequenziamento massivo parallelo
EP3431611A1 (en) 2017-07-21 2019-01-23 Menarini Silicon Biosystems S.p.A. Improved method and kit for the generation of dna libraries for massively parallel sequencing
EP3723096A1 (en) * 2019-04-12 2020-10-14 European Molecular Biology Laboratory Comprehensive detection of single cell genetic structural variations
CN114269948A (zh) * 2019-08-30 2022-04-01 香港中文大学 通过低深度基因组测序检测杂合性缺失的方法
CN112885406B (zh) * 2020-04-16 2023-01-31 深圳裕策生物科技有限公司 检测hla杂合性缺失的方法及系统
EP3945525A1 (en) * 2020-07-27 2022-02-02 Sophia Genetics S.A. Methods for identifying chromosomal spatial instability such as homologous repair deficiency in low coverage next-generation sequencing data

Also Published As

Publication number Publication date
PT4004236T (pt) 2023-05-03
JP2022543585A (ja) 2022-10-13
CN114466936A (zh) 2022-05-10
KR20220070203A (ko) 2022-05-30
AU2020322242A1 (en) 2022-03-24
DK4004236T3 (da) 2023-04-24
FI4004236T3 (fi) 2023-05-05
IT201900013335A1 (it) 2021-01-30
WO2021019459A1 (en) 2021-02-04
EP4004236B1 (en) 2023-02-15
IL290176A (en) 2022-03-01
CA3149486A1 (en) 2021-02-04
EP4004236A1 (en) 2022-06-01
US20230175053A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
ES2944080T3 (es) Método para analizar la pérdida de heterocigosidad (LoH) tras la amplificación del genoma completo del sitio de restricción determinista (DRS-WGA)
Luo et al. Characteristics of genomic alterations of lung adenocarcinoma in young never‐smokers
Luthra et al. Next-generation sequencing-based multigene mutational screening for acute myeloid leukemia using MiSeq: applicability for diagnostics and disease monitoring
ES2894479T3 (es) Análisis mutacional de ADN de plasma para la detección de cáncer
Park et al. Systematic discovery of germline cancer predisposition genes through the identification of somatic second hits
US20140296081A1 (en) Identification and use of circulating tumor markers
Astolfi et al. Whole exome sequencing (WES) on formalin-fixed, paraffin-embedded (FFPE) tumor tissue in gastrointestinal stromal tumors (GIST)
CN107075730A (zh) 循环核酸的鉴定及用途
Misyura et al. Comparison of next-generation sequencing panels and platforms for detection and verification of somatic tumor variants for clinical diagnostics
BR112015004847A2 (pt) métodos para detectar variação de número de cópias, para detectar uma mutação rara em uma amostra e para caracterizar a heterogeneidade de uma afecção anormal em um indivíduo
Cha et al. Clinical application of genomic profiling to find druggable targets for adolescent and young adult (AYA) cancer patients with metastasis
Terraf et al. Comprehensive assessment of germline pathogenic variant detection in tumor-only sequencing
ES2920280T3 (es) Enriquecimiento de regiones genómicas blanco para análisis paralelo multiplexado
Rathi et al. Clinical validation of the 50 gene AmpliSeq Cancer Panel V2 for use on a next generation sequencing platform using formalin fixed, paraffin embedded and fine needle aspiration tumour specimens
Deger et al. A pipeline for copy number profiling of single circulating tumour cells to assess intrapatient tumour heterogeneity
US20190161808A1 (en) Method for predicting prognosis of breast cancer patients by using gene deletions
Postel-Vinay et al. Seeking the driver in tumours with apparent normal molecular profile on comparative genomic hybridization and targeted gene panel sequencing: what is the added value of whole exome sequencing?
WO2021144445A1 (en) Monitoring tumour evolution
Knijn et al. Sequencing of RAS/RAF pathway genes in primary colorectal cancer and matched liver and lung metastases
Barresi et al. Molecular profiling of 22 primary atypical meningiomas shows the prognostic significance of 18q heterozygous loss and CDKN2A/B homozygous deletion on recurrence-free survival. Cancers (Basel). 2021; 13: 903
Chun et al. Second-generation sequencing for cancer genome analysis
Takamatsu et al. Clinical predominance of whole‐exome sequencing to evaluate microsatellite instability status
Heide et al. Assessment of the evolutionary consequence of putative driver mutations in colorectal cancer with spatial multiomic data
Bonniwell A Computational Approach for Microsatellite Instability Detection Using Random Forest Classification
Wu et al. Heterogeneity and genomic evolution of metastatic prostate cancer